机械设备行业:机器人如何进行复杂操作和自主移动

2024-01-22 18:10:09 和讯  中邮证券刘卓/傅昌鑫
  投资要点
  2024 年1 月,斯坦福大学团队在社交媒体上发布了与谷歌DeepMind 团队合作研发的能炒菜、能做家务的双臂机器人MobileALOHA。时隔不久,特斯拉也发布了关于机器人执行折叠衣物等复杂操作的演示视频,这些事件引发了人们对于人形通用机器人时代的遐想。Mobile ALOHA 依托系统收集的数据,通过人类示教动作学习模仿操作技巧与身体控制。其硬件配置并不高,整套价格仅需3.2 万美元,且解决方案为开源。上述成本和配置就能打造出在家庭环境下能够实现诸多功能的Mobile ALOHA,其关键在于机器人的运动控制及交互,和自主移动两方面。目前人形机器人表现出的决策执行能力已经逐步向过往的设想靠拢,今年或将成为人形机器人应用的元年,下文中将讨论机器人是怎样完成复杂操作及自主移动的。
  机器人如何进行复杂操作?多种AI 训练路径实现运动控制及环境交互。ChatGPT 引起浪潮后,以谷歌PaLM-E 为代表的多模态具身VLM 不断面世,人形机器人领域也出现了许多不同的AI 训练方法。目前比较主流的五种AI 训练思路:虚拟仿真、动作捕捉或遥操作、模仿学习、VLM+小模型和VLA。每种方式都有其优劣之处,各家公司会通过尝试及融合多种训练方式,以寻找最为适合的AI 路径。虚拟仿真指在虚拟环境中构建智能体并进行强化学习算法训练,代表为英伟达的VIMA;动捕或遥操作指将真人动作通过传感器等设备精准复制给机器人,机器人接收并收集训练信息从而学会技能,代表为特斯拉等人形厂商;模仿学习指机器人通过观察人类现场演示或端到端学习人类示教视频,理解行动中的底层逻辑,进而复现人类演示的技能,代表为斯坦福MimicPlay;VLM+小模型是由VLM 大模型负责高层规划,小模型做低层运动控制,代表为谷歌PaLM-E 和MetaImage Bind;VLA是从VLM 中演化出来的,直接输出运动控制指令,构成感知-决策-动作的闭环过程,代表为谷歌DeepMind RT-2。
  机器人如何实现自主移动?SLAM 技术应用推进其发展。SLAM 是实现机器人自主导航和后续交互的关键技术之一,是以定位和建图两大技术为目标的算法。根据传感器的不同,机器人用的SLAM 算法可以分为二维激光SLAM、三维激光SLAM 以及视觉SLAM。不同的SLAM算法,实现的具体细节会有所不同,一般通用架构会包含数据预处理、前端、后端、闭环检测、地图构建等。不同方案的SLAM 均有其应用空间,三维激光、视觉SLAM 更适合于人形机器人应用场景。国内多家人形机器人厂商已经在自主移动领域应用了SLAM 技术,未来随着移动机器人、自动驾驶等领域SLAM 技术的迁移,应用范围将更为广阔。
  风险提示:
  人形机器人下游发展不及预期风险;算法及算力更新迭代不及预期风险;机器人自主移动技术竞争加剧风险;技术落地不达预期风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读