投资要点:
OpenAI 发布首个文生视频模型Sora。Sora 的工作原理类似DALL-E。用户输入想要的场景,Sora 即可返回一个高清视频片段。此外,Sora 还可根据静态图像拓展现有视频或填充缺失的帧。
相对于Runway Gen2、Pika 等文生视频模型,Sora 取得了重大突破。上限1 分钟的视频长度,传统的文生视频工具支持的视频时长上限仅为十多秒,而Sora 则支持最高1 分钟的视频长度,并能够自定义分辨率和尺寸;单视频多角度运镜能力,人物和背景元素能够随着相机的移动而移动,一镜到底的同时维持主人物和背景的一致性。理解物理世界规律,Sora 能够模拟现实世界中人类、动物和环境的某些特征,进而实现与世界互动或者模拟数字世界,这使得所生成的视频内容更具真实性。此外,Sora 还支持多种视频合成技术,包括扩展视频、视频到视频编辑,以及无缝连接两个视频,并支持最高2K 分辨率的图片生成,并能够根据图片和提示词生成视频。
算力支撑与大规模高质量数据训练仍为视频大模型基本盘。据OpenAI 表示,Sora所展现的能力表明,继续扩大视频模型规模能够更有效的模拟物理和数字世界中的人类、动物和物体,随着视频模型时长、分辨率等各项参数的进一步提升,将对算力提出更高的要求。此外,Sora 仍为基于Transformer 架构的扩散模型,在此基础上,Sora 与Gen-2 等产品所形成的效果差异主要来自于大规模高质量的训练数据。目前公开的视频数据集,诸如 Kinetics、HMDB51、Charades 等,视频长度都比较短,一般只有几秒钟。根据AIGC 开放社区分析,OpenAI 已获得一批高质量的视频训练数据集,且在训练方法上实现重大创新。
Sora 或已具备商用化技术基础,AI 视频商用不再遥远。虽然目前Sora 存在一定的局限性,诸如无法准确模拟常见的物理运动过程,视频互动中无法正确显示物体状态的变化、长时间样本发展的不连贯性或物体突然出现等等。但我们认为,Sora所呈现的效果,所支持的视频参数等基础条件已具备商用化技术基础,AI 视频商用将不再遥远,有望在影视、广告、短视频等多个领域实现应用。
重点关注:
(1) 大模型及应用:科大讯飞、云从科技、万兴科技、虹软科技、焦点科技、当虹科技等。
(2) 算力及服务器:海光信息、寒武纪、浪潮信息、中科曙光、神州数码、高新发展等。
风险提示:AI 视频大模型迭代不及预期;AI 视频市场接受度不及预期;高质量训练数据规模不及预期等。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论