传媒行业研究:AI系列跟踪(25):OPENAI推出SORA 文生视频领域再出王炸

2024-02-19 19:20:05 和讯  长江证券高超/杨云祺
  事件描述
  2024 年2 月16 日凌晨(美国时间2 月15 日),OpenAI 发布了“文生视频”(Text-to-video)的工具,Sora,文生视频领域迎来里程碑式发展,通过简短的文本提示或一张静态图片,Sora能够生成持续一分钟左右的1080P 高清视频,并可以涵盖多个角色、不同类型的动作和背景细节等。在OpenAI 发布Sora 的2 小时之前,谷歌发布了Gemini Pro1.5,其模型性能在多个维度有显著改进,能够跨模态进行高度复杂的理解和推理(Gemini 对标OpenAI 的ChatGPT)。
  事件评论
  Sora 使得文生视频行业迎来颠覆:1)视频生成时间更长:此前,受制于AI 文本到视频生成的物理和时空推理局限,Pika、Runway、Meta 等行业玩家生成的视频最长不超过18秒,此次Sora 生成的视频可长达60 秒,角色具有一致性且可以保持长镜头的稳定性;2)多角度镜头无缝切换:此前AI 生成视频产品都是单镜头单生成,在效果层面犹如让一张图片动起来。但是由Sora 生成的视频,能够在主体一致性的前提下实现多角度镜头无缝切换,整个画面干净流畅,从而实现真正的视频大片效果;3)使用世界模型,构建物理世界模拟器:此前的AI 生成视频大部分都是基于“大模型+大数据”架构,难以突破AI幻觉问题。此次Sora 已经具有了世界模型(为真实世界建模,学习人类理解世界的方式)的雏形,其生成的视频是对真实物理世界的理解,内容更加符合逻辑也更加令人信服。例如,其生成的视频中:画家可以在画布上留下新的笔触、一个人吃汉堡可以留下咬痕。
  Gemini Pro1.5 模型性能得到显著提升:1)在长语境理解方面实现了突破:在 GPT-4 能理解的上下文长度是128K,Claude 是200K 的背景下,Gemini Pro 1.5 提升至1M。即1 个小时的视频、11 个小时的音频、超过70 万字的代码库,其可以一次性阅读处理完;2)能够同时处理文本、图像、音频、视频等大量多模态信息:例如,研究人员给GeminiPro 1.5 提供了一份长达402 页的阿波罗登月的任务记录,然后向其提问这个脚印所代表的含义,Gemini Pro 1.5 能准确地记住信息并回答:这代表登月的那一刻,是个人的一小步,人类的一大步。
  海外大厂AI 动作加速,重点关注AI+电商/广告/视频/游戏落地:此次OpenAI 推出Sora,谷歌推出Gemini Pro1.5,为行业带来颠覆性体验,未来AI+趋势势不可挡。Sora 可以降低电商、广告、短视频领域的创作门槛。未来Sora 将可能被应用于建模、生成游戏动画和场景等,游戏开发者的门槛可以降低,建议关注AI+电商/广告/视频/游戏投资机会。
  风险提示
  1、AI 技术发展不及预期风险;;
  2、内容监管风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。