通院机器人实验室研究成果发表在IJCV 2022

2022-10-13

近日，北京通用人工智能研究院机器人实验室团队联合北京大学人工智能研究院合作研究的科研成果《Scene Reconstruction with Functional Objects for Robot Autonomy》被计算机视觉领域国际顶级期刊 International Journal of Computer Vision (IJCV) 录用。

论文链接：https://link.springer.com/article/10.1007/s11263-022-01670-0

该项研究工作提出在机器人重建场景时，以一种包含运动学关系的场景图作为连接机器人场景理解和任务规划执行的桥梁。场景图系统性地描述了环境中各物体间的运动学关系，可被直接用于机器人任务和运动规划中，并帮助机器人“预测”其动作对环境的影响，最终使得机器人完成长时、复杂的作业任务，这是机器人进入千家万户的一个必要条件。同时，该研究重建出的场景可以导入仿真平台中，为具身智能体（embodied agents）提供了一个与现实场景功能相近的可交互的虚拟场景，有利于促进其技能学习与演化。

该论文的方法实现已开源：

https://github.com/hmz-15/Interactive-Scene-Reconstruction

一、动作信息助力机器人从三维重建到场景理解

感知三维环境并理解其中包含的信息是人类智能的重要体现，也是人与环境随心交互的前提。在环境的几何特征与物体的语义信息（比如这个物体是桌子还是椅子）之外，我们还能“感知”到人与环境的潜在交互方式，我们将其称之为环境中的动作信息(actionable information)。例如，当看到下图时，我们的脑海里会自然地浮现出“这只手将要转动门把手并拉开门”的潜在动作；

图1 (a) 人的手将要转动门把手（图源网络，版权归原作者所有）

而在下图的场景里，我们能够轻松地观察到堆叠的茶杯和碗碟相互支撑的约束关系，以及不同的动作对它们的状态产生的影响（比如单手直接抽取下面的碗碟会打翻上面的碗碟和茶杯，而从上往下逐一移走碗碟和茶杯后则可以安全地拿取下面的碗碟）。

图1(b) 堆叠的茶杯和碗碟（图源网络，版权归原作者所有）

理解潜在动作对场景的影响，构成了人在场景中执行任务并与之交互的基础。相应地，智能机器人也需要类似的感知能力，才能使其在环境中自主地完成复杂的长时程 (long-horizon) 规划。

随着三维场景重建 (3D scene reconstruction) 和语义建图 (semantic mapping) 技术渐趋成熟，机器人已经能够有效地建立包含几何与语义信息的三维地图，例如包括物体与房间结构的语义全景地图 (panoptic map)，如图2(b)。然而这些传统场景重建的场景表征(scene representation) 与实现机器人自主规划之间，仍然有难以逾越的鸿沟。

那么问题来了，我们如何能构造一种通用于机器人感知和规划的场景表征，以提高机器人的自主规划能力呢？机器人如何利用自身传感器输入（例如RGB-D相机）在真实场景中建立这样的场景表征呢？

在这篇论文[1]中，研究人员提出了一个全新的研究问题：重建与现实场景功能相同的 (functionally-equivalent)、可交互的 (interactive) 虚拟场景，以保留原场景的潜在动作信息。重建后的虚拟场景可以被用于机器人自主规划的仿真训练与测试。

为实现这一重建任务，研究人员提出了一种基于物理支撑 (supporting relation) 与紧邻 (proximal relation)关系的场景图表征，如图2(a)；它的每个节点代表场景中的一个物体或者一种房间结构（墙/地面/房顶）。这一场景图表征将重建后的场景以及其中包含的物理约束有机组织起来，以保证得到的虚拟场景是符合物理常识的。同时，它可以直接被转换成环境的树状运动链(kinematic tree) ，完整地描述了环境的运动学关系状态，并支持前向预测机器人动作对环境的影响，可被直接用于机器人规划任务中。这篇论文也提出了一个完整的机器视觉系统来实现这一重建任务，并为重建后的场景设计了输出接口，使其能够被无缝接入机器人仿真器（例如Gazebo）和VR环境中。这一论文的部分前期工作[2]曾发表在ICRA 2021上。

图2 (a) 基于支撑与紧邻关系的场景图，(b) 体积式语义全景建图，(c) 与现实场景功能相同的、可交互的虚拟场景，可用于机器人自主规划的仿真测试

二、场景图重建助力机器人规划仿真

在虚拟环境中重建真实场景以支持机器人仿真并非一个简单的问题，主要的难点有三：

一是如何在杂乱的真实场景中准确重建并分割出每个物体与结构的几何信息，并估计物体间的物理约束（比如支撑关系等）；
二是如何将重建出的不完整的几何形状替换成完整的、可交互的物体（例如CAD模型）；
三是如何将所有这些信息有机融入某种通用的场景表达，同时帮助场景重建和机器人自主规划。

该项研究工作提出利用一种特殊的场景图作为连接场景重建与机器人交互的桥梁，在帮助重建出符合物理常识的虚拟场景的同时，为机器人自主规划提供必要的信息。

一方面，这一场景图将场景中感知到的物体、房间结构以及它们之间的关系组织起来，如图3(a) 所示。它的每个节点代表识别并重建出的真实场景中的物体或者房间结构，包括了它的几何（例如重建出的三维网格 (mesh)、三维最小包围框、提取出的平面特征等）与语义信息（如实例与语义标签）；而每条边则表示节点之间的支撑关系（见图3 (a) 中的有向边）或者紧邻关系（图3 (a)中的无向边），代表着某些物理约束信息。比如对支撑关系来说，父节点需要包含水平的支撑面来实现对子节点的稳定支撑；再如对紧邻关系来说，相互接近的两个节点的三维几何不应该有相互的重叠，等等。

图3 (a) 直接重建出的场景图

另一方面，根据语义与几何的形似性并综合考虑节点间的约束，图3 (a) 中的节点被替换成几何完整的、可交互的CAD模型（包括多关节 (articulated) 的CAD模型），进而得以生成可用于机器人仿真交互的虚拟场景，如图3 (b)。这样的虚拟场景在感知能力允许的范围内尽可能保留了真实场景的功能 (functionality)，也就是潜在动作信息，可以有效实现对现实场景中与物体交互结果的仿真。而相应地，得到的场景图表征也包含了对环境运动学以及约束状态的完整描述，可用来预测机器人动作对运动学状态的短期定量影响并帮助机器人运动规划，以及估计机器人动作对约束关系造成的长期定性影响并支持机器人任务规划。

图3(b) 替换CAD模型后的可交互场景图

为实现上述重建任务，研究员设计并实现了一个多模块的机器视觉系统：一个体积式语义全景建图模块（图4 (A) ）和一个基于物理常识与几何的CAD模型替换推理模块（图4 (B) ）。前者被用于鲁棒地在复杂真实环境中借助RGB-D相机识别、分割并重建出物体与房间结构的稠密几何，并估计它们之间的约束关系，以得到如图3 (a) 中的场景图；而后者聚焦于如何根据重建物体的几何特征与识别出的约束关系从CAD模型库中选择最合适的CAD模型，并估计其位姿与尺度，以达到与原物体尽可能准确的对齐，进而生成图3 (b) 所示的可交互的场景图。

图4 用于重建任务的机器视觉系统流程图

图5展示了研究员借助Kinect2相机对真实办公室场景的重建结果，包括体积式全景重建（图5 (a) ）、可交互虚拟场景重建（图5 (b) ）以及将虚拟场景导入机器人仿真器后机器人交互的样例（图5 (c) ）。可以看到，即使在复杂、多遮挡的真实场景中，论文提出的重建系统也能较好地建立可交互的虚拟场景。

图5（a-c）在真实环境中用Kinect2相机的重建结果

图5 (d-f) 展示了这一实验中的一些有趣的例子。在图5 (d) 中，由于椅子对桌子的遮挡，同一个桌子被重建成两个相对短小的桌子；图5 (e) 展示的工位得到了比较高质量的重建，所有的物体都被替换成了外表相近的CAD模型；图5 (f) 中的椅子未能被识别出来，其对后面桌子的遮挡造成了与图5 (d) 相似的情况，而场景中的冰箱与微波炉被重建出来并替换成了多关节、可承载复杂交互的CAD模型。

图5（d-f）在真实环境中用Kinect2相机的重建结果

图6 在重建的虚拟场景中的机器人任务与动作规划

在重建得到的可交互虚拟场景里，借助场景图反映的运动链以及约束信息，机器人可以进行任务与动作规划[3,4]，其仿真效果如图6所示。在最近的相关工作[5]中，基于上文所述的场景图表征，机器人可以直接根据图编辑距离 (graph editing distance) 进行复杂的任务规划，并高效地生成动作。

三、总结

这项工作提出了一个全新的场景重建问题和场景图表征，为机器人自主规划提供了必要的信息，并为其仿真测试提供了与现实场景功能相近的可交互的虚拟场景。同时，这一工作也开发了一个完整的机器视觉系统，以实现所提出的场景重建问题。实验证明了本研究提出的场景重建方法的有效性，以及场景图表征在机器人自主规划方面的潜力。

未来，我们期待这项工作取得进一步拓展：更鲁棒、更精准地实现刚体与多关节CAD模型与重建几何的匹配、在场景图中融合更复杂的潜在动作信息、以及更好地利用场景提进行机器人规划，更智能的机器人就在不远的将来。