计算机行业快评：多模态AI大模型点评：OPENAI发布首款文生视频大模型SORA 训练算力需求大幅提升

2024-02-18 10:30:06 和讯国信证券熊莉

　　事项：
　　2024 年2 月16 日，OpenAI 发布首款文生视频大模型Sora，可以快速生成60 秒、准确反映用户提示的视频，在多镜头一致性等维度表现出色。
　　国信计算机观点：1）OpenAI 发布首款文生视频大模型Sora，可以快速生成60 秒、准确反映用户提示的视频，其在视频长度、多角度视频一致性、物理世界理解等领域具有优势；2）Sora 技术原理：通过已知Patches 推测下一Patches，将Transformer 和Diffusion 相结合；3）多模态大模型拉动训练算力需求提升。4）投资建议：多模态大模型拉动全球算力需求快速增长，关注国产AI 算力侧机会，建议关注国产AI算力龙头公司海光信息。5）风险提示：宏观经济复苏不及预期，云厂商资本开支不及预期，市场竞争加剧，产品研发不及预期，国产AI 算力芯片导入不及预期等。
　　评论：
　　OpenAI 发布首款文生视频大模型Sora，可以快速生成60 秒、准确反映用户提示的视频2024 年2 月16 日，OpenAI 发布首款文生视频大模型Sora，可以快速生成60 秒、准确反映用户提示的视频，其具有60 秒超长长度、多角度视频一致性、对物理世界理解等特性。
　　Sora 可生成60 秒超长视频。相较于RunwayML Gen-2、Pika 等文生视频大模型，Sora 可以生成60 秒一镜到底的视频，视频逻辑顺畅、主人物及背景的行人均非常稳定，文生视频大模型能力进一步提升。
　　Sore 多角度视频一致性。Sore 可以在单个生成视频中创建多个镜头，以准确保留角色和视觉风格。根据OpenAI 官网发布的Demo，59 秒的视频中，有多角度镜头，且主人物保持了完美的一致性。
　　Sore 在尝试理解物理世界。根据OpenAI 官网披露，Sore 不仅可以理解用户Prompt 的要求，同时亦尝试理解Prompt 中的事物在物理世界中的存在方式（即物理规律）。根据OpenAI 官网Demo 视频中，汽车在山路行驶中的颠簸，以及猫踩奶等动作符合物理世界规律，视频逼真度进一步提升。
　　Sora 技术原理：Transformer+Diffusion
　　通过已知Patches 推测下一Patches。传统大语言模型通过已知Tokens 推测下一Tokens，Sora 同大语言模型类似，将视频数据切分成不同Patches（即大语言模型中的Tokens），通过已知Patches 推测下一Patches。通常可以分为以下两个步骤：1）将高纬度视频数据压缩成低纬度隐空间（Latent Space）：OpenAI通过训练视频压缩网络实现该步骤，通常将视频数据作为输入（input），后对视频数据进行时间和空间维度的压缩，并输出（output）潜在表示（latent representation）。2）进一步将数据转化为Spacetime Patches：
　　提取一系列的latent Space 作为训练/推理的Tokens，完成对模型的训练。
　　通过Diffusion 还原画面。如前文所述，通过已知Patches 推测下一Patches，得到的是Latent Patches，OpenAI 通过训练Decoder 将得到的latent Space 映射到像素空间，再通过Diffusion 模型进一步还原画面。
　　多模态大模型拉动训练算力需求提升
　　OpenAI 没有公布Sora 视频数据切割的细节，我们以Ze Liu 等著《Video Swin Transformer（2021）》为例，输入一个尺寸为T×H×W×3 的视频（此处T 选取32，代表从视频中采样得到32 帧，采样方法可自行选择，通常为等间隔采样，视频长度通常约10s；每帧包含H×W×3 个像素），通过3D Patch Partition可以得到(T/2)*(H/4)*(W/4)个3D Patch（尺寸为2*4*4*3），即为Tokens，之后再经过Video SwinTransformer 和Patch Merging 获得多帧数据的高维特征，完成视频数据训练。根据《Will we run out ofdata? An analysis of the limits of scaling datasets in Machine Learning（Pablo 等著，2022 年）》披露数据，Youtube 每分钟大约上传500 小时视频，则我们可以得到Youtube 一年增量视频数据为500×3600×24×365=157.68 亿秒。通常分类任务视频为10s 左右，对应采样帧数为32，假设每帧图片分辨率为1024×768，则10s 视频对应的Token 数量为(32/2)*(1024/4)*(768/4)=78.64 万个Tokens，则Youtube一年增量视频数据为1.24e15 个Tokens，假设使用Youtube 一年增量视频数据对5000 亿大模型完成一遍训练对应的算力需求为500B × 1.24e15 × 6 = 3.72e27 FLOPs。以英伟达H100 为例，在FP16 精度下算力为1979 TFLOPS，仍假设芯片利用率为46.2%，则3.72e27 FLOPs/(1979 TFLOPs × 46.2% × 3600s ×24h/天× 30 天/月)= 156.98 万张H100/月，即完成对视频数据的训练需使用156.98 万张H100 训练一个月（针对单一模型，仅计算Youtube 一年增量视频数据）；且后续Video Frame Interpolation（VFI，帧插值）模块仍需要算力支撑。
　　投资建议：
　　多模态大模型拉动全球算力需求快速增长，关注国产AI 算力侧机会。AI 训练算力同大模型参数、训练Token数量成正比例关系，在模型参数量不变的条件下，训练Token 数量的增长会拉动训练算力需求的增长。经我们测算，视频等训练素材将对应巨量的Token 数量，进而拉动全球AI 算力需求快速增长，我们持续看好国产算力需求提升，建议关注国产AI 算力龙头公司海光信息。
　　风险提示：
　　宏观经济复苏不及预期，云厂商资本开支不及预期，市场竞争加剧，产品研发不及预期，国产AI 算力芯片导入不及预期等。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

计算机行业快评：多模态AI大模型点评：OPENAI发布首款文生视频大模型SORA 训练算力需求大幅提升

最新评论

相关推荐

热门阅读

和讯特稿

计算机行业快评：多模态AI大模型点评：OPENAI发布首款文生视频大模型SORA 训练算力需求大幅提升

最新评论

相关推荐

热门阅读

和讯特稿

推荐阅读