【机器人预训练数据集迎来新突破,从真实数据到合成数据丰富预训练数据集来源将加速机器人大模型的发展。】机器人大模型的预训练数据集对任务相关性和多样性要求较高,收集真实数据昂贵且耗时。...
【机器人预训练数据集迎来新突破,从真实数据到合成数据丰富预训练数据集来源将加速机器人大模型的发展。】机器人大模型的预训练数据集对任务相关性和多样性要求较高,收集真实数据昂贵且耗时。目前最大的机器人数据集Open X-Embodiment仅包含100多万条真实机器人轨迹数据。近期,MimicGen基于175个人工示范数据,可以生成涵盖18个任务、多种场景、任务对象和机械臂的5万多个合成数据,且与等量真实数据的训练效果相当;RoboGen可以无限生成任务、场景和训练数据,实现机器人7x24小时全自动技能学习。大量多样化机器人训练数据对提升大模型性能至关重要。机器人大模型对数据集的任务相关性和多样性要求高,真实数据昂贵耗时相关性高的任务数据帮助大模型实现正迁移(加入新的机器人数据集后,模型泛化能力提高);丰富的任务种类可以增强大模型的通用性。经过合成数据的训练,机器人在长期复杂任务和毫米级精度接触任务中的执行成功率显著提高;等量的人工示范数据和合成数据对机器人的训练效果相当。但同时也存在模型泛化能力不足、数据集训练结果不及预期、机器人通用性不及预期等风险。
最新评论