事件
豆包大模型团队联合高校推出视频生成实验模型“VideoWorld”,在业界首次实现无需依赖语言模型,即可认知世界。该项目模型与代码已开源。继DeepSeek 开源R1 模型后,国产大模型再度迎来创新与开源。
点评
国产模型持续创新,VideoWorld 实现视觉理解突破国产模型自DeepSeek 大模型之后,再度实现突破,VideoWord 首次证明了模型仅靠“视觉”即可学习知识。在以往的实验中,视频数据中存在大量冗余信息,严重影响了模型的学习效率。为此,研究团队提出了VideoWorld,它在保留丰富视觉信息的同时,压缩了与关键决策和动作相关的视觉变化,从而实现了更高效的视频学习。为了解决知识编码过于稀疏的问题,VideoWorld 引入了潜在动态模型(LDM)。该模型由以德国慕尼黑大学的研究团队为首的多个研究团队共同构建,能够将帧间的视觉变化压缩为紧凑的潜在编码,生成既紧凑又信息丰富的视觉表示。这一技术显著提升了模型对视频内容的理解能力,为长期推理和规划任务提供了重要支持。
纯视觉模型昭示AI 脱离人类自主学习潜力,智能硬件落地或将加速现有的大模型,例如 Sora 、DALL-E 、Midjourney 等,大多依赖语言或标签数据学习知识,很少设计纯视觉信号学习。VideoWorld 仅通过 “视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。纯视觉模型不再依赖语言以认为指定的强化学习规则,仅仅依靠图片视频即可训练,有望助力机器人、自动驾驶等纯视觉场景下模型的训练,从而加快各类智能硬件落地进程。长期看,视频生成模型有望成为真实世界中的通用知识学习器,AI 或将不再依靠人类,自主学习知识。
开源模型催化推理算力,联合创新推动中国AI 产业生态崛起国产大模型算法创新+开源生态有望构建一条联合创新之路,推动中国AI 领先。
继OpenAI 闭源后,大模型厂商呈现闭源趋势,直至DeepSeek 将高性价比的R1模型开源。作为国内领先互联网大厂的核心团队,字节豆包团队的VideoWorld 开源有望进一步促进国内外大模型行业的开源进程,为相关开发者提供了来自中国最先进的技术资源与创新基石。未来,如果大模型能够形成繁荣的开源生态,AI基础模型有望加快创新,AI 应用部署门槛降低以及成本带动应用繁荣,并催化推理算力需求快速增长。在推理端,软件企业合作趋势强化,例如华为与SiliconFlow合作推出DeepSeek R1/V3 推理服务。
相关标的
多模态:金山办公、科大讯飞、万兴科技、虹软科技、彩讯股份、当虹科技、数码视讯;
国产算力相关:寒武纪、海光信息、中芯国际、中兴通讯、景嘉微、高新发展、中科曙光、华丰科技、欧陆通;
云计算及IDC:优刻得、首都在线、顺网科技、青云科技、品高股份、光环新网、润泽科技、数据港、云赛智联、科华数据、奥飞数据、润建股份;
智驾整车厂:江淮汽车、赛力斯、比亚迪、上汽集团、北汽蓝谷、长安汽车等;自动驾驶:德赛西威、经纬恒润、博实结、中科创达、四维图新、华阳集团、虹软科技、道通科技、速腾聚创(港股)、地平线机器人(港股)、黑芝麻智能(港股)、耐世特(港股)等;
光学相关:宇瞳光学、舜宇光学、比亚迪电子、中润光学、思特威、韦尔股份等。
风险提示
AI 技术迭代不及预期的风险;AI 商业化产品发布不及预期;政策不确定性带来的风险;下游市场不确定性带来的风险;上游供应不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:刘静 HZ010)
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论