AIGC系列之二十七：SORA文生视频迭代光网络核心受益！

2024-02-18 16:30:07 和讯申万宏源研究洪依真/林起贤/李国盛/刘洋

本期投资提示：
OpenAI 2 月16 日凌晨发布了文生视频大模型Sora。从目前官网公布案例看，Sora 稳定性、一致性、连贯性均突破，对此前Runway Gen 2、Pika 等AI 视频工具碾压。
SORA 视频生成能力大幅迭代：1）Sora 能够根据用户提供的文本描述生成长达60S 的视频，此前在4s 左右；2）实现多镜头切换，保持角色和视觉风格一致性，此前视频都是单镜头；3）创造的角色表达情感更加丰富，可以同时绘制多个角色。SORA 生成视频可能掌握了部分物理世界规则，多模态模型展现出一定的涌现能力。模型能够模拟现实世界中的人物、动物和环境等某些特征，且并没有依赖于现有明确3D 建模、物体识别等规则，而是纯粹通过生成自然涌现。截至目前，SORA 并未开源，仅公布了技术报告，且仅面向部分企业客户内部测试，我们预计全面开放测试仍需要一个季度以上时间。
技术上，模型架构保留了传统的Diffusion-Transformer（DiT），延续“大力出奇迹”思路，但在视频数据表证上更新了时空包（Spacetime latent patches）思路。OpenAI 采集足够大量的视频和图像素材包，用多模态模型给视频做标注，把不同格式的视频编码成统一的视觉块嵌入，并用足够大的网络架构+足够大的训练批次+足够强的算力，让模型对足够多的训练集做全局拟合。
我们认为，SORA 类的连贯视频生成，首先对光通信体术较高要求！对标DiT 架构，常见模型参数约3B，市场猜测SORA 所需算力要求不高，我们认为首先相比训练，推理阶段更重视内存+网络平衡，且随着模型增大需要减少并行或优化并行通信。同时相比文字应用推理，Sora 长视频推理的patches 处理的密度更高。token 生成速度直接影响了最终AGI 应用体验，对视频类应用的影响远大于文本聊天类，并行和内存带宽是关键。
截至目前，国内语言模型进步较大，但尚无可与Open AI GPT-4V 对标的多模态大模型，且文生视频仍处于起步阶段。截至2023 年底，国内大模型中文生成能力确实达到接近GPT-4 水平，相比2023 年上半年进步巨大。但是模型的推理、代码等能力仍有极大提升空间，此外国产模型多模态以“文生图”为主，缺乏完善的“图生文”能力。
Sora 后，如何看ai 传媒创意产业的影响？对于短视频UGC 平台，借助Ai 升级剪辑工具拉动创作者经济的进一步发展，但也需关注是否会有竞争的变化。对于深度内容受益，IP价值提升，对浅显低门槛内容竞争加剧。对创意工具，应对竞争的要素是B 端客户粘性和版权库积累。AI 造假或影响新闻生产和传播，识别AI 视频将是内容审核关键环节。
相关标的。1）光通信产业链中际旭创、新易盛、天孚通信、华工科技、源杰科技等。算力设备产业链之紫光股份、锐捷网络、中兴通讯等。2）多模态算法布局：科大讯飞、云从科技、虹软科技、万兴科技、大华股份、萤石网络。3）有丰富IP 储备：上海电影、阅文集团，深度内容创作：巨人网络、神州泰岳、芒果超媒；商业化AI 应用场景的美图、易点天下、焦点科技、风语筑。
风险提示：大模型视频生成仍处于早期探索阶段；大模型技术中美仍存在差异。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

AIGC系列之二十七：SORA文生视频迭代光网络核心受益！

最新评论

相关推荐

热门阅读

和讯特稿

AIGC系列之二十七：SORA文生视频迭代 光网络核心受益！

最新评论

相关推荐

热门阅读

和讯特稿

推荐阅读

AIGC系列之二十七：SORA文生视频迭代光网络核心受益！