全网首发OpenAI直播发布第3天Sora文生视频模型真的来了
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2024我们一起变强。
今天是OpenAI连续12天直播发布会的 第3天 。关于OpenAI本次的宣传“噱头”详情,可以看我这篇文章:《 活动预告:明天起OpenAI将开启连续12天的直播发布! 》。
本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。
Day 3 发布内容
文生视频模型Sora 真的来了!

12月9日,在OpenAI第3场直播发布中, 文生视频模型Sora正式发布 !在今天的demo中,OpenAI团队确认了目前的Sora支持文字、图像和视频三种内容作为生成视频的输入材料,用户可主动调节横竖屏(尺寸)、清晰度、视频时长等多个参数。同时,Sora支持在单一的视频中分段设计不同的内容,并支持合并视频。
今日起,ChatGPT Plus和Pro会员即可开始体验Sora模型!
Sora地址 :https://sora.com
本场直播发布的完整版视频后续会发布在公众号对应的视频号中,感兴趣的小伙伴自行食用。
Sora是什么?
Sora 是OpenAI开发的首个 文生视频模型 ,早在2024年2月就首次亮相,期间一直处于测试阶段,直到今天才正式向大众发布。Sora模型能根据文本指令生成长达60秒的高清视频,包含复杂场景、生动角色表情和多角度镜头运动。该模型不仅能 理解用户提示中的内容需求 ,还能 理解这些内容在物理世界中的存在方式 ,可以生成包含多个角色、特定运动类型以及准确细节的复杂场景。

Sora是如何实现视频生成的?
总结来说, Sora 是一个基于Diffusion Transformer(DIT)架构的文生视频模型,其核心技术实现包含三个关键步骤:首先,通过视频压缩网络将 输入视频压缩 到潜空间,并将其 拆解为时空图像块 (spacetime patches),这些patches同时包含视频的时间和空间信息。然后,模型采用类似GPT的Transformer架构,结合扩散模型的原理,通过对噪声patches进行 迭代去噪 来生成视频内容,这种混合架构使得模型既能保持全局布局的连贯性,又能生成精细的局部细节。

此外,Sora还借鉴了 DALL-E 3 的recaptioning技术来建立文本与视频的精确对应关系,通过训练一个高度描述性的字幕生成模型为训练集视频生成标准化的详细描述。模型采用patches的表达方式使其能够处理不同分辨率、时长和宽高比的视频,同时通过考虑多个视频帧的方式解决了物体在画面中进出时的一致性问题。
如何使用Sora?
今日起,ChatGPT Plus和Pro会员可以开始体验Sora模型!
Sora地址 :https://sora.com

Sora视频生成消耗积分,具体根据时长与分辨率计算,Relaxed模式不消耗积分。
ChatGPT订阅
功能与积分
ChatGPT Plus
最多生成50个优先视频(1000积分),支持最高720p分辨率,5秒时长
ChatGPT Pro
最多生成500个优先视频(10000积分),无限Relaxed视频,支持最高1080p分辨率、20秒时长,以及5个并行生成任务,无水印下载
如何注册ChatGPT和开通会员详细教程看下面的文章。
如何注册ChatGPT:《 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程! 》。
如何开通ChatGPT会员:《 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程! 》。
其他文生视频模型一览
1. 可灵(Kling)
可灵大模型(Kling) 是由快手AI团队自主研发的视频生成大模型,其采用类Sora的DIT(Diffusion Transformer)结构,具有较强的物理世界模拟能力,目前支持生成最长2分钟、30fps、1080p分辨率的视频。

2. 通义万相
通义万相 是阿里云在2024年9月19日的云栖大会上发布的视频生成模型,支持文生视频和图生视频,视频尺寸支持16:9和9:16等多种比例,并具备中英文多语言输入能力。该模型同样采用了DIT框架,在中式传统元素和风格化视频生成方面表现突出。

3. 即梦(Dreamina)
即梦(Dreamina) 是字节跳动旗下剪映推出的AI创作平台,支持文生视频、图生视频功能,具有较强的语义理解能力和较大的动作幅度。

4. 智谱清影 (Ying)
智谱清影 (Ying) 是由智谱AI推出的视频生成智能体,基于 CogVideo 视频生成大模型,支持文生视频、图生视频及背景音乐添加等功能。

5. 海螺AI (Hailuo)
海螺AI (Hailuo) 平台上的文生视频功能由MiniMax推出的 abab-video-1 模型驱动,支持生成6秒、720p分辨率、25fps的视频片段,具有较强的场景生成能力和风格多样性。

OpenAI 12天直播发布回顾
OpenAI于12月5日开启“12天发布季”,本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。
1. Day 1
Day 1 发布关键词: 满血版o1 、 ChatGPT Pro新套餐 。
Day 1 详细解读文章:《 OpenAI直播发布第1天:满血版o1,200美元/月的ChatGPT Pro新套餐! 》。
2. Day 2
Day 2 发布关键词: 强化学习微调(Reinforcement Fine-Tuning, RFT) 。
Day 2 详细解读文章: OpenAI直播发布第2天:o1+强化学习微调=定制化推理模型!
结语
关于Sora模型更多介绍,可以看我之前的这些文章:
开年王炸!OpenAI发布文本转视频模型Sora,有亿点震撼!
【中英双语】OpenAI Sora文本转视频模型的技术分析!全新的AI视频叙事时代即将到来!
Sora和Pika,RunwayMl,Stable Video对比!网友:Sora真王者,其他都是弟弟!
OpenAI的Sora即将开放使用,普通人能抓住哪些赚钱机会?
当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!
把Sora生成的视频发给谷歌Gemini 1.5 Pro会发生什么?!
『防骗指南』OpenAI官方提供的Sora体验资格申请渠道只有这两个!附内测申请链接!
360创始人周鸿祎再度谈Sora:给人工智能补上了“眼睛”
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/402.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论