机械行业研究：星海系列：人形机器人与AI大模型之ROBOT+AI的TRANSFORMER之旅

2024-11-07 15:50:07 和讯民生证券李哲/罗松

　　从Transformer 到多模态大模型的演进与应用。Transformer 不仅在语言处理上广泛应用，还扩展至图像、视频、音频等多模态任务。诸如StableDiffusion、VideoPoet 和MusicLM 等模型展现了其强大的生成能力，推动了多模态大模型（MLLM）的发展。
　　机器人现实世界至数据化的突破：RT-2、RoboCat 与MimicGen。RT-2通过大规模的视觉-语言预训练，将视觉识别与低级机器人控制结合，实现了机器人在复杂任务和未见环境中的强大泛化能力。RoboCat 则基于Gato 模型，展示了多任务和多具身平台上的自我迭代学习能力，能够快速适应新任务并生成跨任务策略。英伟达的MimicGen 自动生成大量模仿学习数据，有效减少了人工干预，提升了机器人学习的效率。
　　特斯拉FSD，端到端算法成为主流，数据为关键。2020 年FSD 引入Transformer 模型，走向了数据驱动的模型范式，2024 年初FSD V12 完全采用神经网络进行车辆控制，从机器视觉到驱动决策都将由神经网络进行控制。FSDV12 能够模拟人类驾驶决策，成为自动驾驶领域全新发展路径。
　　英伟达Robocasa：具体智能关键节点，首次论证real-sim-real。通过升级模拟平台并构建模拟框架，基于厨房场景和原子任务、复合任务、真实世界三个场景收集行为数据集并进行结果评估。说明模拟器的丰富多样性以及视觉和物理真实性显著改善了模拟效果，实验结果首次论证了real-sim-real 可行。
　　后续演绎：在机器人real-sim-real 可行，证明存在scaling law 的基础上，持续推荐可执行任务的泛化能力，迈向真正的AGI 智能化：1）李飞飞Rekep:一种针对机器人操作任务的新型空间和时间约束表示方法，提供了一种三任务闭环的解决方案。通过关键点约束解构机器人行为，将操作行为分为多阶段，并构建子目标约束和路径约束，基于此提出一种三任务闭环的解决方案。同时，融入大型视觉模型和视觉-语言模型，利用VLM 和GPT-4o 生成Rekep 约束，避免了手动指定Rekep 的需要。2）1x 世界模型：首证扩展定律，能通过大量学习理解周围环境。通过大量的真实数据学习和模拟，机器人能够预测复杂的物体互动，理解周围环境，并灵活应对日常任务。1x 的进展首次在机器人上证明了扩展法则。3）GR-2 的高效动作预测与泛化能力。由字节跳动研究团队开发的第二代机器人大模型，凭借大规模视频预训练和多模态学习技术，展示了卓越的泛化能力与多任务通用性。4）数字表亲：机器人训练法优化，以更低的成本获取更好的泛化能力。在保留数字孪生优势的基础上，数字表亲表现出了更强的适应能力和鲁棒性，成功实现了从模拟到现实的零样本迁移，为机器人学习在复杂、多变的真实环境中的应用开辟了新的可能性。
　　投资建议：1) 关注算法训练中，需要使用的传感器公司，如视觉方案奥比中光，力学方案安培龙；2）关注同步受益的机器人本体公司，如总成方案三花智控、拓普集团；丝杆公司北特科技、五洲新春、贝斯特、双林股份、震裕科技等；3）关注其他产业链可延伸公司。
　　风险提示：机器人算法迭代进步速度不及预期，人形机器人落地场景实际需求不及预期
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：董萍萍）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约