AI系列跟踪(28):谷歌推出基础世界模型GENIE 阿里发布肖像生成视频框架EMO

2024-03-04 20:20:06 和讯  长江证券高超/范超/杨云祺
  事件描述
  近日,谷歌推出Genie,影视游戏领域将迎来变革。2024 年2 月26 日,谷歌旗下的DeepMind团队发布了Genie。Genie 是一个110 亿参数的基础世界模型,可在图像的提示下生成动作可控的虚拟世界。Genie 通过过滤与平台游戏相关关键字的公开视频来构建平台玩家数据集,以10FPS 的分辨率生成 55M 16s 的视频剪辑,分辦率为160x90。Genie 的三大核心组件为潜动作(latent action)模型、视频分词器以及自回归动态模型,架构中的关键组件是基于视觉Transformer(ViT)。海外大厂在AI 视频生成领域掀起新浪潮,我国不断加速追赶步伐,2024年2 月28 日,阿里发布音频驱动的肖像视频生成框架 EMO(Emote Portrait Alive)。
  事件评论
基础世界模型Genie 具有诸多独特之处:1)Genie 由无标签的互联网视频训练而来:不同于传统AI,Genie 是从无动作标签的超20 万小时的互联网游戏视频(如2D 平台游戏《超级马里奥》等)训练而来,自行识别不同动作特征和模式。2)Genie 具有推测潜在动作的能力:不同于动作不可控的视频生成模型Sora,Genie 的定义是基础世界模型,可专门从互联网视频中学习细颗粒度的控制,由此推断生成环境中的一致潜在动作,生成可操纵的且高模拟度的虚拟世界,与游戏的研发制作和玩家体验有较高契合度。
Genie 定义生成式AI 全新范式,重塑生成式交互环境格局。1)Genie 或使视频游戏领域迎来变革:Genie 通过单个图片、照片、草图提示即可转换为用户可玩的游戏,生成交互式、动作可控的环境。生成的游戏可根据玩家的指令动态地生成游戏的每个新帧,这种革新的交互方式为游戏玩家带来了新的体验感,未来有望一键生成可玩的游戏世界。2)机器人领域的应用为培养通用智能体开辟新途径:Genie 能够掌握一组统一的动作模式,通过学习真实的机器人手臂操纵各种家用物体的视频,它领会了机器人手臂所做动作以及如何控制它,并且学会的动作可应用于真实世界。由于方法通用,Genie 可推广于任何类型领域从而让未来的AI 智能体在不断扩展的新世界中进行训练。
EMO 为多模态领域的视频AI 带来新玩法:1)不同于文生视频模型Sora,EMO 主攻图+音频生成视频的方向:输入单张照片+任意语速的人声音频,EMO 即可自动生成具有丰富面部表情和头部姿势的声音肖像视频。2)表现优于同类产品PIKA:由于受限于产品架构,PIKA 只能分段生成3 秒的唇形同步视频,且仅能实现唇部配合音频发生运动的功能,而EMO 可根据音频时长,生成对应时长的视频,并保持角色身份的一致性。相较之下,EMO 更具灵活性,生成的视频也更自然、更富有情感。
国内外大厂AI 视频生成不断突破,重点关注AI+IP/游戏/影视/电商/广告落地:此次谷歌推出Genie,革新的交互方式或使视频游戏行业迎来颠覆。海外大厂在AI 视频生成领域掀起新浪潮,我国不断加速追赶步伐。2024 年2 月28 日,阿里发布肖像视频框架EMO,单张照片+音频即可生成声音肖像视频,AI 视频赛道涌现新玩法,未来AI+趋势势不可挡,建议关注AI+IP/游戏/影视/电商/广告商业化落地投资机会。
的环境中,偏长一点的维度看,行业之间原则上不应该存在长期的背离,毕竟行业之间的差异理论上会通过估值端的变化来予以抹平。
  风险提示
  1、AI 技术发展不及预期风险;
  2、内容监管风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。