事项:
2024 年2 月16 日凌晨,OpenAI 发布了首个文生视频模型Sora。
评论:
Sora 为文本转视频模型,支持生成1 分钟连续视频。2 月16 日,OpenAI 发布了首个文生视频模型Sora。Sora 是一种扩散模型(Diffusion Model),通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。Sora 采用了类似于GPT 模型的变压器架构(Transformer Architecture),并采用DALLE3(OpenAI 旗下文生图模型)中的重标记技术(Recaptioning Technique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。当前,Sora 已经支持1 分钟左右连续长视频的生成。OpenAI表示,Sora 是未来模拟现实世界的模型的基础,其模拟能力将是实现AGI(Artificial General Intelligence)的重要里程碑。
Sora 涵盖多种视频功能,能力强悍。Sora 能够生成具有多个角色、特定类型运动等的复杂场景,并能做到对主体和背景的细节进行准确刻画。模型不仅了解用户提出的要求,还了解用户要求在物理世界中存在与运行的方式。目前,Sora 共涵盖3 种视频生成方式:1)文字生成视频;2)图片生成视频;3)视频生成视频。Sora 在支持多种视频生成方式之外,还具备其他多种视频能力。
4)扩展所生成的视频;5)视频拼接;6)保持3D 一致性;7)保持远程相干性和物体持久性;8)物理交互反馈;9)模拟人造数字世界。尽管Sora 已经迈出大模型的历史性步伐,但目前仍存在局限性,例如Sora 不能准确模拟许多基本交互的物理现象,如玻璃碎裂场景。
Sora 在文字理解、视频长度、画面一致性等方面领先其他视频生成模型。在同一提示语句下,Sora 生成视频长达17s,Pika 生成视频约为3s,而Runway、Stable Video 约为4s,Sora 生成视频长度领先其他模型。其次,Sora 生成视频内容完整体现提示词,而Runway 视频中无人物形象,Stable Video 中行人腿部线条模糊,行走姿势不符合现实,Pika 生成的视频则并无摄像角度的更换。
投资建议:Sora 文生视频能力强悍,有望带动AIGC 相关产业链发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。
风险提示:多模态技术发展不及预期、算力基础设施建设不及预期、AI 应 用需求不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论