计算机行业跟踪报告:OPENAI推出首个文生视频大模型SORA 引领AI文生视频行业跨越式发展

2024-02-19 13:20:05 和讯  万联证券夏清莹
行业核心观点
文生视频大模型Sora 重磅发布,可生成长达1 分钟的视频。2 月16 日,OpenAI 推出其首个文生视频大模型Sora。根据官网介绍,Sora 可以生成长达1 分钟时长的视频,同时还能保证视频质量,并遵循用户的提示(prompt)。
投资要点:
Sora 是一个扩散transformer,具有强大的语言理解能力,通过在潜在空间训练patches 生成视频。对标tokens,OpenAI 将视觉数据转换为patches,有效用于Sora 大模型训练。Sora 是一种扩散模型,通过给出输入的静态噪声以及相关的文本提示(prompt)等调节信息,训练生成原始的“干净”patches。在推理时,OpenAI 还可以通过在适当大小的网格中排列随机初始化的patches 来控制生成视频的大小。与GPT 模型类似,Sora 使用transformer 架构,释放出卓越的扩展性能。立足DALL·E 3和GPT 模型,Sora 具有强大的语言理解能力,能够生成更加准确遵循用户提示的高质量视频。此外,在固定种子和输入的情况下,可以看到训练计算的增加能显著提升样本视频的质量。
多维度跨越式突破,视频质量飞跃性提升。Sora 的采样更具有灵活性,同时改进了框架和构图。Sora 可以采样宽屏1920x1080p 的视频、垂直1080x1920 的视频以及介于两者之间的所有视频。这让Sora 可直接以不同的原始长宽比创建内容。OpenAI 还通过经验发现,在视频的原始长宽比上进行训练可以改善构图和框架。Sora 还支持图生视频、视频生视频,能执行广泛的图像和视频编辑任务,创建完美的循环视频、动画静态图像、向前或向后扩展视频等。在连接视频上,Sora 能将两个输入视频无缝衔接在一起。虽然目前Sora 仍然有一些缺陷和局限性,但已经开始理解物理意义,并出现许多有趣的涌现能力,如三维一致性。
重塑AI 文生视频行业格局,或冲击AI 文生图赛道。Sora 在生成视频长度上大幅领先,多角度镜头能力也显著领先行业竞品。同样的prompt,Sora 生成的视频长度、质量都显著领先。Sora 可以生成可变大小的图像,最高可达2048×2048 分辨率,图片画质有了大幅提升。我们认为随着文生视频画质能力的提升,图片作为单帧的视频,文生视频领域的产品或将冲击文生图行业。
投资建议:1)AI 文生视频行业发展带动AI 行业应用落地的机遇;2)AI行业发展对算力、光模块等基础设施的持续需求;3)AIGC 在媒体、游戏等行业的加速落地带来的投资机遇。
风险提示:AI 产业发展不及预期;AI 带来的版权、隐私及技术风险;国内AI 应用落地不及预期;中美科技摩擦风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读