AIGC系列之二十七:SORA文生视频迭代 光网络核心受益!

2024-02-18 16:30:07 和讯  申万宏源研究洪依真/林起贤/李国盛/刘洋
本期投资提示:
OpenAI 2 月16 日凌晨发布了文生视频大模型Sora。从目前官网公布案例看,Sora 稳定性、一致性、连贯性均突破,对此前Runway Gen 2、Pika 等AI 视频工具碾压。
SORA 视频生成能力大幅迭代:1)Sora 能够根据用户提供的文本描述生成长达60S 的视频,此前在4s 左右;2)实现多镜头切换,保持角色和视觉风格一致性,此前视频都是单镜头;3)创造的角色表达情感更加丰富,可以同时绘制多个角色。SORA 生成视频可能掌握了部分物理世界规则,多模态模型展现出一定的涌现能力。模型能够模拟现实世界中的人物、动物和环境等某些特征,且并没有依赖于现有明确3D 建模、物体识别等规则,而是纯粹通过生成自然涌现。截至目前,SORA 并未开源,仅公布了技术报告,且仅面向部分企业客户内部测试,我们预计全面开放测试仍需要一个季度以上时间。
技术上,模型架构保留了传统的Diffusion-Transformer(DiT),延续“大力出奇迹”思路,但在视频数据表证上更新了时空包(Spacetime latent patches)思路。OpenAI 采集足够大量的视频和图像素材包,用多模态模型给视频做标注,把不同格式的视频编码成统一的视觉块嵌入,并用足够大的网络架构+足够大的训练批次+足够强的算力,让模型对足够多的训练集做全局拟合。
我们认为,SORA 类的连贯视频生成,首先对光通信体术较高要求!对标DiT 架构,常见模型参数约3B,市场猜测SORA 所需算力要求不高,我们认为首先相比训练,推理阶段更重视内存+网络平衡,且随着模型增大需要减少并行或优化并行通信。同时相比文字应用推理,Sora 长视频推理的patches 处理的密度更高。token 生成速度直接影响了最终AGI 应用体验,对视频类应用的影响远大于文本聊天类,并行和内存带宽是关键。
截至目前,国内语言模型进步较大,但尚无可与Open AI GPT-4V 对标的多模态大模型,且文生视频仍处于起步阶段。截至2023 年底,国内大模型中文生成能力确实达到接近GPT-4 水平,相比2023 年上半年进步巨大。但是模型的推理、代码等能力仍有极大提升空间,此外国产模型多模态以“文生图”为主,缺乏完善的“图生文”能力。
Sora 后,如何看ai 传媒创意产业的影响?对于短视频UGC 平台,借助Ai 升级剪辑工具拉动创作者经济的进一步发展,但也需关注是否会有竞争的变化。对于深度内容受益,IP价值提升,对浅显低门槛内容竞争加剧。对创意工具,应对竞争的要素是B 端客户粘性和版权库积累。AI 造假或影响新闻生产和传播,识别AI 视频将是内容审核关键环节。
相关标的。1)光通信产业链中际旭创、新易盛、天孚通信、华工科技、源杰科技等。算力设备产业链之紫光股份、锐捷网络、中兴通讯等。2)多模态算法布局:科大讯飞、云从科技、虹软科技、万兴科技、大华股份、萤石网络。3)有丰富IP 储备:上海电影、阅文集团,深度内容创作:巨人网络、神州泰岳、芒果超媒;商业化AI 应用场景的美图、易点天下、焦点科技、风语筑。
风险提示:大模型视频生成仍处于早期探索阶段;大模型技术中美仍存在差异。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。