听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令 DATE: 2023-12-02 17:48:00
选自谷歌研究博客
机器之心编译
编辑 :Panda W
说一句「我们去野餐吧!听到跳谷」,去野机器狗竟高兴得蹦蹦跳跳;告诉它地面非常热,餐蹦机器狗会一路小跑 。蹦跳莫非机器狗能「听懂」人话了?某种程度上说确实如此 。歌用狗听近日 ,大模懂模谷歌研究博客介绍了 DeepMind 入选机器人学习会议 CoRL 2023 的型教一篇论文,其中提出的机器 SayTap 方法使用了大型语言模型 ,可将自然语言指令转译成四足机器人的听到跳谷低层控制信号 ,而且这些指令可以相当模糊 。去野
人类和四足机器人之间简单有效的餐蹦交互是创造能干的智能助理机器人的途径 ,其昭示着这样一个未来:技术以超乎我们想象的蹦跳方式改善我们的生活。对于这样的歌用狗听人类-机器人交互系统,关键是大模懂模让四足机器人有能力响应自然语言指令 。
近来大型语言模型(LLM)发展迅速,型教已经展现出了执行高层计划的潜力。然而,对 LLM 来说 ,理解低层指令依然很难,例如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为 LLM 提供了决定机器人行为的高层 API,而这就从根本上限制了系统的体现能力。
在 CoRL 2023 论文《SayTap: Language to Quadrupedal Locomotion》中 ,谷歌 DeepMind 与东京大学提出了一种新方法,该方法使用足部接触模式作为连接人类的自然语言指令与输出低层命令的运动控制器的桥梁。
- 论文地址:https://arxiv.org/abs/2306.07580
- 项目网站 :https://saytap.github.io/
足部接触模式(foot contact pattern)是指四足智能体在移动时足放在地上的顺序和方式。他们基于此开发出了一种交互式四足机器人系统 ,让用户可以灵活地制定不同的运动行为 ,例如用户可以使用简单的语言命令机器人走、跑