通信行业:VIDEOWORLD提出 无需依赖语言模型

2025-02-11 18:15:05 和讯  江海证券张婧
  事件:
  2025 年2 月10 日,豆包大模型团队与北京交通大学、中国科学技术大学联合提出视频生成实验模型VideoWorld。不同于Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。
  投资要点:
  VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。
  现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。作为一种通用视频生成实验模型,VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业5 段9x9 围棋水平,并能够在多种环境中,执行机器人任务。尽管面向真实世界的视频生成和泛化仍存在很大挑战,视频生成依然可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。目前,该项目代码与模型已开源。
  VideoWorld 模型架构上使用朴素的自回归模型实例化视频生成器,包含一个VQ-VAE 编码器- 解码器和一个自回归Transformer 。
  在模型训练环节,团队构建了一个包含大量视频演示数据的离线数据集,让模型“观看”学习,以此得到一个可以根据过往观测,预测未来画面的视频生成器。模型架构上,团队使用朴素的自回归模型实例化视频生成器,它包含一个VQ-VAE 编码器- 解码器和一个自回归Transformer 。编码器负责将视频帧(画面)转换为离散标记,Transformer 在训练期间使用这些标记预测下一标记。在推理过程中,Transformer 生成下一帧(画面)的离散标记,这些标记随后由解码器转换回像素空间。通过任务相关的映射函数,模型可将生成画面转换为任务执行动作。这让视频生成实验模型可在不依赖任何动作标签情况下,学习和执行具体任务。
  VideoWorld 模型压缩视觉变化,实现了更有效的视频学习。
  通常,视频编码需要数百或数千个离散标记来捕捉每帧内的视觉信息,这导致知识被稀疏地嵌入标记中。VideoWorld 引入了一个潜在动态模型(LatentDynamics Model, LDM),可将帧间视觉变化压缩为紧凑的潜在编码,提高模型的知识挖掘效率。通过引入LDM ,VideoWorld 在仅有300M 参数量下,达到专业5 段的9x9 围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上,VideoWorld 也展现出了对多任务、多环境的泛化能力。
  投资建议:国内外人工智能产业如火如荼,提示重点关注豆包产业链个股申菱环境、润泽科技、欧陆通等。
  风险提示:AI 产业发展不及预期、下游互联网巨头资本开支下滑、标的公司业绩不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:刘静 HZ010)

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读