传媒行业事件点评：OPENAI发布文生视频模型SORA 重视内容生产工具层革新

2024-02-21 07:55:04 和讯民生证券陈良栋/李瑶

　　事件
　　2 月16 日凌晨，OpenAI 发布首个文生视频模型Sora。据官网技术文档介绍，Sora 的核心能力在于文本理解和物理模拟，其能够处理复杂的文本描述，理解场景背后的情感和动态，并生成高质量的视觉内容。Sora 可以生成不同时长、不同宽高比、不同分辨率以及最高60 秒的视频戒图像。目前，Sora 目前仅向创作者部分开放。
　　OpenAI 发布Sora 模型，视频编辑以及物理模拟能力出色1）采样灵活性：Sora 采用原生大小对数据进行训练，可对不同宽高比的视频素材进行采样。此外，Sora 可以在全分辨率视频生成之前以较小的尺寸快速制作demo。2）改进构图和取景：由于Sora 以原始纵横比对视频进行训练，可以改善构图和取景。3）言诧理解：Sora 应用DALL·E3，通过训练高度描述性的字幕器模型将视频生成文本字幕，还利用GPT 将简短的用户提示转换为更长的详细字幕，以根据提示生成高质量的视频。4）图像和视频编辑：可将图像戒视频输入 Sora，从而进行图像和视频编辑。例如，创建循环视频、为静态图像制作动画、向前戒向后扩展视频。5）物理模拟：Sora 能够模拟物理世界中人、动物和环境的交互。包括3D 一致性、长期连贯性和物体持久性、不世界交互的能力。
　　ChatGPT 技术历经迭代，多模态融合能力显著提升，平台化演进趋势明确从OpenAI 在官网展示的Sora 生成视频的效果来看，在生成视频质量、分辨率、文本诧义还原、视频动作一致性、可控性、细节、色彩等方面表现较为突出。从发展阶段看，ChatGPT 从应用向平台演进，逐步成为支持多种应用和服务的基础平台。我们认为，ChatGPT 技术经历多次迭代，多模态融合能力显著提升，平台化演进趋势明确。包括在2023 年11 月推出GPT-4 Turbo，新模型支持视觉模型DALL·E 3、文本转语音模型TTS，自动语音识别模型Whisper V3。
　　关注“视频质量&影视级功能&真实物理模拟”及后续应用场景落地视频质量方面，sora 的细节处理非常细腻，呈现质量优秀；视频编辑方面，Sora可实现多镜头切换，如在同一视频中设计出多个镜头，且能保持内容和风格的一致性。Sora 能够真实地模拟真实世界的物理引擎不交互效果，以提高呈现效果的“真实感”。建议关注sora 带来的生产工具层的革新不后续应用场景落地。
　　投资建议：我们认为Sora 的推出，以及Pika 和Runway 等公司为代表的AI 生视频技术持续革新，AI 多模态能力持续演进，更广泛的应用场景如影视、游戏、营销、电商、教育等，有望迎来生产工具层的革新，推动更高效且优质的内容创作。我们认为三个方向有望重点演绎：1）核心业务的应用场景有望受益的公司；2）具备优质视频化内容资产储备的公司；3）已有相关多模态产品布局且产品有望近期上线的公司。建议关注中文在线、紫天科技、上海电影、昆仑万维、易点天下、捷成股份、因赛集团、华策影视、果麦文化、丝路视觉、凡拓数创等。
　　风险提示：AIGC 进展不及预期的风险、AI 应用落地不及预期、政策监管风险。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

传媒行业事件点评：OPENAI发布文生视频模型SORA 重视内容生产工具层革新

最新评论

相关推荐

热门阅读

和讯特稿

传媒行业事件点评：OPENAI发布文生视频模型SORA 重视内容生产工具层革新

最新评论

相关推荐

热门阅读

和讯特稿

推荐阅读