智通财经APP获悉,华泰证券(601688)发布研究报告称,继OpenAI的文生视频大模型Sora的发布后,谷歌推出AI可交互视频模型Genie, Genie由潜在动作模型、视频分词器、动态预测模型三大核心组件组成,可通过文本、合成图像、照片、草图等多种方式,描述和生成无数个动作“自主可控”的交互式环境。Genie的推出意味着产业AI应用持续迭代升级,预计随着海内外科技大厂AI模型的不断进步,AI应用端有望加速落地,产业迎来持续催化。Genie在传媒应用领域更适配可交互的游戏场景,建议积极把握相关投资机会。
华泰证券主要观点如下:
Genie可交互可推理可模拟,解锁“自主可控”的虚拟世界
Genie是一个110亿参数的基础世界模型,特点主要体现在:
1)可交互:相较于Sora、Runway等模型,Genie生成的内容具备可交互属性,即用户可通过文本提示对所生成虚拟环境中的角色动作逐帧进行操控,使用户能与生成的虚拟世界进行交互。
2)可推理:基于潜在动作模型、视频分词器、动态模型,Genie不仅能理解并推理每对帧之间的潜在动作,还能对视频的下一帧进行预测,并生成符合运动规律的序列帧。3)可模拟:由于在模拟机器人(300024)动作和学习物理规律方面表现出色,Genie能通过短视频模拟物体的动态变化来训练多功能智能体,如机械臂。
技术底座由ViT构建,适配于游戏/机器人等应用场景
技术方面,Genie区别于Sora最大的特点体现在:核心组件基于空间时间的Vision Transformer (ViT)构建,这种特殊的Transformer可以用于处理视频等具有时间和空间维度的数据,底层数据库则基于大量游戏视频建立。
应用方面,Genie场景更适配游戏及机器人等。1)游戏:Genie以用户提供的现有图片为起点,解析视频角色,以补充视频帧的方式生成角色动作输出动态画面,包括交互性的游戏环境,让用户具有参与感和体验感,使用过程本身即可被看作是一种游戏。2)机器人:Genie可以将学习的潜在动作应用于真实的人类设计环境中,为实现通用智能体提供了新的视角和方法。
风险提示:竞争加剧风险,行业监管风险,模型技术进展不及预期等。
最新评论