事项:
2 月16 日,OpenAI 发布文生视频大模型Sora。2 月15 日,Google 发布Gemini新一代版本Gemini 1.5。
评论:
OpenAI 发布文生视频大模型Sora,模型展现出诸多亮点。Sora 模型主要有以下功能:1)遵循用户文本生成长达1 分钟的视频;2)参考图像衍生出视频内容;3)参考一段基础视频,更换视频环境、场景主题、拍摄手法等;4)向前拓展视频,可以生成视频开头部分且保持视频结尾的一致;5)将多个毫无关系的视频无缝连接到一起。相比此前已发布的文生视频大模型,Sora 在多个方面取得突破,成为超越行业的领先AI 应用。OpenAI 在随后发布的技术研究文档中高度评价了Sora 的意义,认为视频模型的持续扩展是一条构建物理世界和数字世界的高性能模拟器的有效途径。
Sora 的核心三要素:Diffusion+Transformer+Patch。根据OpenAI 的技术文档,Sora 的模型本质是一个Diffusion Transformer,即同时应用到了Diffusion和Transformer 两项技术,根据专家观点,模型可能仅有约30 亿参数,可能表明训练Sora 模型可能不需要太多算力,未来将出现非常快的迭代。Sora 使用降维时空Patch 统一视觉数据,保持视频/图片分辨率,提高生成内容的逻辑连贯性。Sora 通过Patch 方式可以对原始大小的数据进行训练,具有灵活采样、改善构图和取景等优势。
Google 发布Gemini 1.5,超长token 进一步拓展应用场景。继2023 年12 月发布Gemini 1.0 后,Google 近期发布了Gemini 1.5 版本,短时间内实现较大的迭代更新。本次更新最大的亮点为其最高支持100 万tokens 的上下文,在内部研究环境,Google 成功测试了1000 万tokens 上下文。模型的上下文窗口越大,其可以接收和处理的信息就越多,从而使得输出的一致性、相关性和可用性更强,对于拓展模型应用具有很大的意义。此外Gemini 1.5 是一个MoE(Mixture of Experts,混合专家)模型,根据输入的类型,模型会决定最相关的专家网络来输出结果,因此能够更快且高质量地学习复杂任务,同时更高效地完成训练和提供服务。
投资建议:
1)随着Google Gemini 1.5 和OpenAI Sora 的发布,AI 的大模型能力持续得到增强,现象级的AI 应用有望逐步清晰呈现,AI 商业闭环有望加速。特别对于视频类应用,由于其受众广泛,随着应用规模的推开,有望释放较大的市场增长弹性,同时视频占用流量资源较多,对上游计算、传输等基础设施的大量需求也有望得到释放。
2)Sora 虽然在训练模型上不需要太多参数,但实际应用由于推理生产视频过程中将涉及较大数据量的计算,同时为追求较高的视频生成效果,训练和推理过程中都需要进行尽量多次数的迭代计算,将释放大量算力需求,利好算力底座产业链,建议优先关注深度参与构建全球先进AI 算力设施的光互联光模块企业,建议关注天孚通信、中际旭创。
3)Sora 的火爆出圈说明市场对于AI 视频生成的高度关注,未来AI 生成视频领域的用户规模和市场空间都值得期待。Sora 的出现降低了优质视频的生产制造门槛,或将带来更大规模的视频创作热潮。此外Sora 视频的创作和传播天然具有国际化条件,视频出海需求或有望提升。Sora 等文生视频AI 应用有望拉动视频流量规模进一步提升,释放更多带宽传输需求。建议重点关注受益逻辑更直接的内容分发网络CDN 产业链,建议关注网宿科技。
风险提示:AI 技术发展不及预期、文生视频应用落地不及预期、行业监管风险、行业竞争加剧、光通信供应格局出现变动。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论