谷歌基础世界模型Genie 发布,打造交互式生成环境2024 年2 月26 日,谷歌发布可交互生成式世界模型Genie,谷歌将之命名为“生成式交互环境”(Genie 为Generative Interactive Environments 简称),该模型是谷歌继推出大模型Gemini、开源大模型Gemma 之后布局AI 赛道的新动作。Genie 在传媒应用领域更适配可交互的游戏场景,游戏行业相关标的推荐:恺英网络、完美世界、巨人网络。其他AI 应用相关标的推荐:
捷成股份、光线传媒、焦点科技、昆仑万维、蓝色光标。
Genie 可交互可推理可模拟,解锁“自主可控”的虚拟世界Genie 是一个110 亿参数的基础世界模型,特点主要体现在,1)可交互:
相较于Sora、Runway 等模型,Genie 生成的内容具备可交互属性,即用户可通过文本提示对所生成虚拟环境中的角色动作逐帧进行操控,使用户能与生成的虚拟世界进行交互。2)可推理:基于潜在动作模型、视频分词器、动态模型,Genie 不仅能理解并推理每对帧之间的潜在动作,还能对视频的下一帧进行预测,并生成符合运动规律的序列帧。3)可模拟:由于在模拟机器人动作和学习物理规律方面表现出色,Genie 能通过短视频模拟物体的动态变化来训练多功能智能体,如机械臂。
技术底座由ViT 构建,适配于游戏/机器人等应用场景技术方面,Genie 区别于Sora 最大的特点体现在:核心组件基于空间时间的Vision Transformer (ViT)构建,这种特殊的Transformer 可以用于处理视频等具有时间和空间维度的数据,底层数据库则基于大量游戏视频建立。应用方面,Genie 场景更适配游戏及机器人等。1)游戏:Genie 以用户提供的现有图片为起点,解析视频角色,以补充视频帧的方式生成角色动作输出动态画面,包括交互性的游戏环境,让用户具有参与感和体验感,使用过程本身即可被看作是一种游戏。2)机器人:Genie 可以将学习的潜在动作应用于真实的人类设计环境中,为实现通用智能体提供了新的视角和方法。
Genie 开启可交互AI 新场景,关注AIGC 应用投资机会继OpenAI 的文生视频大模型Sora 的发布后,谷歌推出AI 可交互视频模型Genie, Genie 由潜在动作模型、视频分词器、动态预测模型三大核心组件组成,可通过文本、合成图像、照片、草图等多种方式,描述和生成无数个动作“自主可控”的交互式环境。Genie 的推出意味着产业AI 应用持续迭代升级,预计随着海内外科技大厂AI 模型的不断进步,AI 应用端有望加速落地,产业迎来持续催化。Genie 在传媒应用领域更适配可交互的游戏场景,建议积极把握相关投资机会。
风险提示:竞争加剧风险,行业监管风险,模型技术进展不及预期等。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论