传媒行业事件点评:OPENAI发布文生视频模型SORA 重视内容生产工具层革新

2024-02-21 07:55:04 和讯  民生证券陈良栋/李瑶
  事件
  2 月16 日凌晨,OpenAI 发布首个文生视频模型Sora。据官网技术文档介绍,Sora 的核心能力在于文本理解和物理模拟,其能够处理复杂的文本描述,理解场景背后的情感和动态,并生成高质量的视觉内容。Sora 可以生成不同时长、不同宽高比、不同分辨率以及最高60 秒的视频戒图像。目前,Sora 目前仅向创作者部分开放。
  OpenAI 发布Sora 模型,视频编辑以及物理模拟能力出色1)采样灵活性:Sora 采用原生大小对数据进行训练,可对不同宽高比的视频素材进行采样。此外,Sora 可以在全分辨率视频生成之前以较小的尺寸快速制作demo。2)改进构图和取景:由于Sora 以原始纵横比对视频进行训练,可以改善构图和取景。3)言诧理解:Sora 应用DALL·E3,通过训练高度描述性的字幕器模型将视频生成文本字幕,还利用GPT 将简短的用户提示转换为更长的详细字幕,以根据提示生成高质量的视频。4)图像和视频编辑:可将图像戒视频输入 Sora,从而进行图像和视频编辑。例如,创建循环视频、为静态图像制作动画、向前戒向后扩展视频。5)物理模拟:Sora 能够模拟物理世界中人、动物和环境的交互。包括3D 一致性、长期连贯性和物体持久性、不世界交互的能力。
  ChatGPT 技术历经迭代,多模态融合能力显著提升,平台化演进趋势明确从OpenAI 在官网展示的Sora 生成视频的效果来看,在生成视频质量、分辨率、文本诧义还原、视频动作一致性、可控性、细节、色彩等方面表现较为突出。从发展阶段看,ChatGPT 从应用向平台演进,逐步成为支持多种应用和服务的基础平台。我们认为,ChatGPT 技术经历多次迭代,多模态融合能力显著提升,平台化演进趋势明确。包括在2023 年11 月推出GPT-4 Turbo,新模型支持视觉模型DALL·E 3、文本转语音模型TTS,自动语音识别模型Whisper V3。
  关注“视频质量&影视级功能&真实物理模拟”及后续应用场景落地视频质量方面,sora 的细节处理非常细腻,呈现质量优秀;视频编辑方面,Sora可实现多镜头切换,如在同一视频中设计出多个镜头,且能保持内容和风格的一致性。Sora 能够真实地模拟真实世界的物理引擎不交互效果,以提高呈现效果的“真实感”。建议关注sora 带来的生产工具层的革新不后续应用场景落地。
  投资建议:我们认为Sora 的推出,以及Pika 和Runway 等公司为代表的AI 生视频技术持续革新,AI 多模态能力持续演进,更广泛的应用场景如影视、游戏、营销、电商、教育等,有望迎来生产工具层的革新,推动更高效且优质的内容创作。我们认为三个方向有望重点演绎:1)核心业务的应用场景有望受益的公司;2)具备优质视频化内容资产储备的公司;3)已有相关多模态产品布局且产品有望近期上线的公司。建议关注中文在线、紫天科技、上海电影、昆仑万维、易点天下、捷成股份、因赛集团、华策影视、果麦文化、丝路视觉、凡拓数创等。
  风险提示:AIGC 进展不及预期的风险、AI 应用落地不及预期、政策监管风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读