计算机行业快评:多模态AI大模型点评:OPENAI发布首款文生视频大模型SORA 训练算力需求大幅提升

2024-02-18 10:30:06 和讯  国信证券熊莉
  事项:
  2024 年2 月16 日,OpenAI 发布首款文生视频大模型Sora,可以快速生成60 秒、准确反映用户提示的视频,在多镜头一致性等维度表现出色。
  国信计算机观点:1)OpenAI 发布首款文生视频大模型Sora,可以快速生成60 秒、准确反映用户提示的视频,其在视频长度、多角度视频一致性、物理世界理解等领域具有优势;2)Sora 技术原理:通过已知Patches 推测下一Patches,将Transformer 和Diffusion 相结合;3)多模态大模型拉动训练算力需求提升。4)投资建议:多模态大模型拉动全球算力需求快速增长,关注国产AI 算力侧机会,建议关注国产AI算力龙头公司海光信息。5)风险提示:宏观经济复苏不及预期,云厂商资本开支不及预期,市场竞争加剧,产品研发不及预期,国产AI 算力芯片导入不及预期等。
  评论:
  OpenAI 发布首款文生视频大模型Sora,可以快速生成60 秒、准确反映用户提示的视频2024 年2 月16 日,OpenAI 发布首款文生视频大模型Sora,可以快速生成60 秒、准确反映用户提示的视频,其具有60 秒超长长度、多角度视频一致性、对物理世界理解等特性。
  Sora 可生成60 秒超长视频。相较于RunwayML Gen-2、Pika 等文生视频大模型,Sora 可以生成60 秒一镜到底的视频,视频逻辑顺畅、主人物及背景的行人均非常稳定,文生视频大模型能力进一步提升。
  Sore 多角度视频一致性。Sore 可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。根据OpenAI 官网发布的Demo,59 秒的视频中,有多角度镜头,且主人物保持了完美的一致性。
  Sore 在尝试理解物理世界。根据OpenAI 官网披露,Sore 不仅可以理解用户Prompt 的要求,同时亦尝试理解Prompt 中的事物在物理世界中的存在方式(即物理规律)。根据OpenAI 官网Demo 视频中,汽车在山路行驶中的颠簸,以及猫踩奶等动作符合物理世界规律,视频逼真度进一步提升。
  Sora 技术原理:Transformer+Diffusion
  通过已知Patches 推测下一Patches。传统大语言模型通过已知Tokens 推测下一Tokens,Sora 同大语言模型类似,将视频数据切分成不同Patches(即大语言模型中的Tokens),通过已知Patches 推测下一Patches。通常可以分为以下两个步骤:1)将高纬度视频数据压缩成低纬度隐空间(Latent Space):OpenAI通过训练视频压缩网络实现该步骤,通常将视频数据作为输入(input),后对视频数据进行时间和空间维度的压缩,并输出(output)潜在表示(latent representation)。2)进一步将数据转化为Spacetime Patches:
  提取一系列的latent Space 作为训练/推理的Tokens,完成对模型的训练。
  通过Diffusion 还原画面。如前文所述,通过已知Patches 推测下一Patches,得到的是Latent Patches,OpenAI 通过训练Decoder 将得到的latent Space 映射到像素空间,再通过Diffusion 模型进一步还原画面。
  多模态大模型拉动训练算力需求提升
  OpenAI 没有公布Sora 视频数据切割的细节,我们以Ze Liu 等著《Video Swin Transformer(2021)》为例,输入一个尺寸为T×H×W×3 的视频(此处T 选取32,代表从视频中采样得到32 帧,采样方法可自行选择,通常为等间隔采样,视频长度通常约10s;每帧包含H×W×3 个像素),通过3D Patch Partition可以得到(T/2)*(H/4)*(W/4)个3D Patch(尺寸为2*4*4*3),即为Tokens,之后再经过Video SwinTransformer 和Patch Merging 获得多帧数据的高维特征,完成视频数据训练。根据《Will we run out ofdata? An analysis of the limits of scaling datasets in Machine Learning(Pablo 等著,2022 年)》披露数据,Youtube 每分钟大约上传500 小时视频,则我们可以得到Youtube 一年增量视频数据为500×3600×24×365=157.68 亿秒。通常分类任务视频为10s 左右,对应采样帧数为32,假设每帧图片分辨率为1024×768,则10s 视频对应的Token 数量为(32/2)*(1024/4)*(768/4)=78.64 万个Tokens,则Youtube一年增量视频数据为1.24e15 个Tokens,假设使用Youtube 一年增量视频数据对5000 亿大模型完成一遍训练对应的算力需求为500B × 1.24e15 × 6 = 3.72e27 FLOPs。以英伟达H100 为例,在FP16 精度下算力为1979 TFLOPS,仍假设芯片利用率为46.2%,则3.72e27 FLOPs/(1979 TFLOPs × 46.2% × 3600s ×24h/天× 30 天/月)= 156.98 万张H100/月,即完成对视频数据的训练需使用156.98 万张H100 训练一个月(针对单一模型,仅计算Youtube 一年增量视频数据);且后续Video Frame Interpolation(VFI,帧插值)模块仍需要算力支撑。
  投资建议:
  多模态大模型拉动全球算力需求快速增长,关注国产AI 算力侧机会。AI 训练算力同大模型参数、训练Token数量成正比例关系,在模型参数量不变的条件下,训练Token 数量的增长会拉动训练算力需求的增长。经我们测算,视频等训练素材将对应巨量的Token 数量,进而拉动全球AI 算力需求快速增长,我们持续看好国产算力需求提升,建议关注国产AI 算力龙头公司海光信息。
  风险提示:
  宏观经济复苏不及预期,云厂商资本开支不及预期,市场竞争加剧,产品研发不及预期,国产AI 算力芯片导入不及预期等。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。