北京通用人工智能研究院BIGAI

机器人实验室RA-L/IROS 2022研究成果

近日,机器人领域国际顶级会议IROS 2022在京都国际会议中心落下帷幕。在本次会议中,北京通用人工智能研究院机器人实验室团队有三篇论文发表。今天介绍发表论文之一《Understanding Physical Effects for Effective Tool-use》,该论文对如何利用物理常识驱动机器人使用工具做出了显著贡献 

论文链接:https://ieeexplore.ieee.org/document/9832465

一、锤子应该怎么挥?

使用工具被认为是高等智能的一种体现。人并不是唯一会使用工具的物种,自然界中仍有其他的生物能够灵活地使用工具。比如,猩猩会用石头砸核桃,水獭会用石头敲蚌壳。虽然猩猩和水獭都选择用石头去砸开食物,但因为身体结构的不同,他们会采取不同的动作以适应自身的结构(Embodiment)。然而,如何使机器人理解工具的使用,并以适应其自身机构的方式使用工具尚且缺乏足够的研究。

在这篇论文的研究工作中,研究人员提出了一个机器人工具使用的学习和规划框架[1]。该框架能让机器人以最省力的方式,把任意物体当作工具使用。利用一个基于有限元分析的物理仿真器[7],该框架以一种机器人能理解的方式重现工具使用事件中细粒度的、连续的视觉和物理效果,并通过一个符号回归算法学习工具使用中的关键物理常识。在此之上,该研究工作设计了一个基于最优控制的运动规划方案,以整合机器人和工具特有的运动学和动力学特性,从而产生一个有效的轨迹,实现有效的工具使用。通过仿真实验,该论文验证了所提出的框架可以让机器人产生与人的使用方式不同的,但对机器人自身更有效的工具使用策略。

二、利用物理常识驱动机器人工具使用
智能体学习使用工具涉及多个认知和智能过程,即使对人类来说也并不容易。因此,使机器人掌握工具使用所涵盖的所有技能是一项有挑战性的难题。现有的工作大多主要集中在三个不同层面中的一个。其一是底层的运动控制。很多研究基于阻抗控制(Impedance control)来跟踪工具使用的运动轨迹,或在不同阶段改变力和运动约束,或使用基于学习的方法来控制机器人运动轨迹。在底层控制中,鲁棒地执行运动轨迹是关注的核心。其二是中间层表征。各种利于下游任务的中间表征被提出,以便更好地理解工具的使用。尽管引入这些表征有利于学习更多不同的工具使用技能,但它们仍然局限于工具的形状和任务之间的几何关联。其三是理解在工具使用中的涉及的高层概念。比如物体的功能性(Functionality)和可供性(Affordance),工具使用中涉及的因果关系与常识[4],从而实现更好的泛化能力。

现有的方法要么主要关注于机器人的动作轨迹而不去理解任务本身,要么旨在高层次概念理解而过度简化运动规划。因此,机器人还远远没有办法基于特定的情境去制定工具使用的策略。给定一组物体(典型的工具或其他物体),哪一个会是完成任务的最佳选择?一旦选择了一个物体作为工具,根据机器人和工具特定的运动学结构和动力学限制,机器人该如何有效地使用它?

该论文通过综合考虑上述三个层面来推进机器人工具使用这一工作的思路。(1)从高层的任务中学习相关的物理属性作为概念,(2)通过采用虚拟运动链(Virtual Kinematic Chain)[2,3] 作为中间表征,将工具的属性整合到机器人上,(3)通过低层的最优控制规划出适合机器人自身机构的工具使用策略。

算法框架流程图

为了应对工具使用的种种挑战,该论文提出了一个综合了学习和规划的框架,其中机器人通过推理有助于使得任务成功的基本物理特性来理解和产生有效的工具使用策略。与之前相关工作相比,该框架在更基础的层面上识别出工具使用过程中关键的不变的量;该方法没有使用纯粹基于视觉的方法,而是关注工具产生的物理效果,识别完成任务的基本物理特性。具体来说,该论文采用了最先进的有限元仿真来模拟人在工具使用过程中视觉和物理效果随时间连续演变的过程(比如,压力,能量,接触面)。然后,该研究设计了一种基于符号回归的算法来分析仿真产生的一系列物理特性,并有效地确定每种特性对最终工具使用效果的贡献程度。学到的关键物理量将驱动下游的基于最优控制的运动规划算法,使机器人能够产生各种工具使用策略。为了统一机器人运动规划问题并使该框架更具通用性(例如,处理具有不同形态的机器人、不同形状的工具以及各种操作工具的方式),引入了一个虚拟运动链(Virtual Kinematic Chain)的观点,将工具视为机器人躯干的延伸,并在运动规划中将其运动学和动力学特性作为一个整体加以整合。

图释: 从耗费扭矩力的角度对模仿人类的工具使用策略和最优规划的工具使用策略进行对比

由于运动学结构的显著差异,观察到的人类使用工具的策略对机器人来说可能并不是最理想的方式。比如两个机器人(即Baxter和UR5)去模仿人类的策略(蓝色)。机器人先观察到人类抓握和使用锤子的方式,然后通过反向运动学(Inverse kinematics)计算出机器人执行同样操作所需要的关节运动轨迹。实验结果证明,直接模仿人类使用工具的方式所需要的扭矩力(Torque effort)要高于文中提出的算法所生成的最佳策略(红色)的。使用该框架产生的工具使用策略和人的策略有很大的不同,但对机器人来说更有效更省力。

论文的实验结果证明,因具身结构的不同,使用同一种工具时不同的机器人有各自适合的最省力的方式,也即,不同的抓握方式和不同的运动轨迹。

对于非常规的物体,机器人也能将其当做工具来使用。通过虚拟运动链,工具被当做成机器人躯干的延伸,在运动规划中其运动学和动力学特性被作为一个统一的整体加以建模。因此该方法可以适用于各种不同形态的物体。

将该框架生成的工具运动轨迹输入到仿真环境中去验证是否产生符合预期的物理效果。其中,基于最优控制的运动规划同时考虑了运动学和动力学的特性,使得工具运动轨迹能够满足任务期望的物理特性。

三、总结

在这项工作中,研究人员证明了所提出的学习和规划框架能够识别对任务成功有重要意义的基本物理量,自主规划有效的工具使用策略,模仿人类使用工具的基本特性。同时该方法能将见过的和未见过的物体作为工具,根据机器人自身机构以最省力的方式来使用。该论文所提出的框架使得机器人通过利用高精度物理仿真环境更好地理解物理常识,并在遇到新的(即未见过的)工具时,能够更好的规划工具使用策略。

Facebook
Twitter
LinkedIn
Email