核心观点:
事件:当地时间2 月16 日,OpenAI 发布首款视频生成模型Sora。与以往的视频生成模型不同,Sora 的生成效果惊艳,生成时间可长达一分钟,同时支持不同分辨率、时长、宽高比。
Sora 模型采用了扩散模型+Transformer 的架构,基础技术原理上较之前并未有实质性的突破。典型应用ChatGPT 其中的“T”则表示Transformer 架构,依靠海量数据及算力的支持,ChatGPT 表现出较强的语义分析能力、数字逻辑能力等。而扩散模型自2015 年被提出,至今已成为文生图领域的核心模型之一,Stable Diffusion 与MidJourney等一些领先的图像生成应用的底层模型均是基于扩散模型所构建。实际从2023 年起,学术界就已经陆续有基于Transformer 架构的扩散模型用于图像和视频生成的探索。因此,我们倾向认为,在底层基础技术原理上,Sora 并未有实质性的突破,或应更多理解为类似于ChatGPT,基于同样的技术原理,在暴力美学下,又一次重要“量变”。
相较于语言类大模型,视频类大模型的推理或需要更大的算力支持。视频的组织方式是由一系列的数据帧组成,每一帧数据又是由成千上万的像素点组成。因此,生成包含同样信息量的数据时,视频往往比文字的数据量更大。在视频类大模型所需处理的数据量更大、算法更复杂的情况下,其应用和推理阶段对算力的消耗也更大。随着视觉类大模型开发量和应用量的增加,AI 芯片、加速卡和网络设备的需求有望快速增长。
数据处理与存储方式是重要创新,不同处理方式可能带来AIGC 效果的跃升。Sora 创新性的采用了“视频压缩网络”、“时空补丁”的方法,将不同分辨率、不同宽高比等所有类型的视频数据“标准化”处理,并且保留了原始数据的细节,这是Sora 能支持多样化的视频格式,且实现视频效果明显跃升的基础。启示主要有二,一是高质量的训练数据仍是AIGC 类大模型成功的关键;二是核心人才是AIGC 推动的另一大关键,这两点最终或将使得头部厂商强者愈强。
映射角度,对A 股相关AIGC 应用公司而言,主题意义明显大于实质意义;继续跟踪观察Sora 的商业化进展,尤其如何解决版权合规、内容伦理等方面的挑战。短期内从投资维度看,主题意义更为显著。需要看到的是,Sora 的商业化进程仍需观察。一方面,技术文档提到的当前局限性需逐步解决;另一方面,版权合规、内容伦理等课题仍是AIGC类应用需要克服的挑战,文生视频也不例外,更具体内容可参考此前深度报告《从Adobe 看AIGC 如何重塑创意工具行业》。
风险提示。技术迭代进展的不确定性;AIGC 商业化进展不及预期;相关公司业绩兑现节奏的不确定性。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论