北京通用人工智能研究院BIGAI

通研院提出全新带触觉灵巧手系统PP-Tac,解决物体抓取的最后一厘米

机器人灵巧手可操作的对象

通常为日常生活中常见的刚体

但对于扁平、可形变的物体却无能为力

北京通用人工智能研究院-上海科技大学

2024 级联培博士生林沛及其团队成员

在Robotics: Science and Systems 2025大会

提出全新带触觉灵巧手系统 PP-Tac

有效解决了机器人领域类纸物体抓取难题

该系统结合全向视触觉传感器与灵巧手

通过轨迹优化数据合成方法及扩散模型策略

在多种地形和材质抓取实验中成功率领先

为使用触觉灵巧手实现精细操作开辟了全新方向

首个完全开源的单通道全向视触觉传感器

  • 论文主页:https://peilin-666.github.io/projects/PP-Tac/

  • 开源地址:https://github.com/bigai-ai/PP-Tac/tree/main

  • 第一作者:通研院-上海科技大学联培博士生林沛、通研院研究员黄钰哲、通研院研究员李皖林

  • 通讯作者:通研院研究员焦子元、上海科技大学助理教授肖晨曦

研究背景

目前学界所研究的机器人灵巧手主要使用视觉作为输入,操作对象为日常生活中常见的刚体,但对于同样常见的扁平类可形变物体(如纸、塑料袋、布等)却无能为力。

1

难点一:视觉方法的失效

– 物体具有不透明性,视觉方法无法估测物体之下的地形;

– 物体具有可形变性,且物体的状态空间非常庞大,物体的状态难以被估计,视觉算法难以泛化。

解决方案:受启发于人类的抓取,在任务中加入触觉的感知。

2

难点二:传统触觉硬件的失效

– 当前触觉传感器多为平面构型(如9DTact),只能感知一个方向的交互,难以应用在更复杂的实际场景;

– 全向触觉传感器价格昂贵,标定复杂,不利于大规模部署;

– 将传感器部署在夹爪上,在面对复杂地形时,会因夹爪自由度受限,导致机械臂超出工作空间。

解决方案:提出全新设计、造价便宜、标定简单的全向触觉传感器,并将它部署在拥有极高自由度的灵巧手上。

3

难点三:传统数据获取方法的失效

– 对于model-based(基于模型)方法,灵巧手的独特构型会使手指和手臂难以解耦;

– 对于learning-based(基于学习)方法,由于任务涉及大量的接触,且物体和触觉传感器具有可形变性,难以通过物理模拟高效准确地获得数据;

– 遥操作难以高效满足该任务中高细粒动作的需求。

解决方案:设计全新的数据合成方法,规避物理模拟和触觉仿真。

综上,本文提出了PP-Tac系统,该系统由三部分组成:带触觉的灵巧手硬件,基于轨迹优化的数据合成方法和基于扩散模型的策略。

PP-Tac系统的三个组成部分

硬件介绍

硬件部分概览

部分全向触觉传感器[1]使用三色光的设计,存在繁琐标定的问题。本文提出全向视触觉传感器R-Tac,创新使用单色光作为内置光源,并寻找到合适的散射材料均匀成像,因此仅需要一张图片就能够完成传感器的标定并实现准确的深度重建。同时,得益于内置相机的高分辨,能够对传感器与物体的相对滑动进行准确识别。

R-Tac的成像以及重建结果展示

数据合成

抓取策略和基于轨迹优化的数据合成方法

抓取策略受启发于人类的抓取,其核心在于通过维持手指与物体表面的持续接触,避免相对滑动,利用物体的可变形特性,产生稳定的抓持区域。

为模拟日常环境中的复杂情况,本文在研究过程中生成了多样化的随机地形场景,并在其上采样规划了四条手指的运动轨迹。考虑到指尖受到的力与传感器的形变深度呈正关系,本文将力抽象为传感器的形变深度,通过改变手指到平面的距离进行力的调节。在得到指尖的目标轨迹后,将其作为优化目标,通过最小化当前的指尖轨迹和目标指尖轨迹之间的差,优化得到各个关节的角度。

策略学习

PP-Tac所使用的基于扩散模型的策略概览

该策略的核心机制在于利用历史系统状态与实时触觉反馈来预测未来状态,并通过位置控制驱动灵巧手和机械臂更新系统状态,从而实现闭环控制。在推理过程中输入额外的控制目标,包含当前帧标签和目标指尖形变深度(指尖压力),当触觉传感器检测到滑移发生,系统会提升目标形变深度,以增强摩擦力并抑制滑移。该策略将触觉信息抽象为压力和滑动检测,一方面避免在训练过程直接仿真触觉信号,另一方面让网络的输入足够轻量化。在模型架构上,采用Encoder-Only Transformer作为主干网络,并利用DDIM将推理过程的降噪步数缩减至10步,确保了整个系统能够达到30Hz的控制频率。

实验结果

实验对比结果

我们在4种地形条件下,针对4种材质的物体,对5种控制方法进行了对比实验,每种方法每次执行20次抓取,并统计抓取成功率。

  • 为验证PP-Tac硬件系统的有效性,对比使用夹爪进行遥操作的方法;

  • 为验证灵巧手硬件存在的执行误差,以及使用触觉作为闭环控制的必要性,对比开环控制的效果;

  • 为验证使用扩散模型作为控制策略的必要性,对比传统的力跟踪方法。但手腕与手指运动解耦复杂,传统方法难以实时获取解析解,使用了PP-Tac生成的手腕轨迹;

  • 为验证在数据中添加干扰对于解决sim-to-real差距的重要性,对比了未添加干扰时的效果。

实验结果表明,PP-Tac在所有地形和材质的组合中都获得到了最佳的效果。未来,PP-Tac将应用至整理、包装和清洁等需要精确处理扁平物体的任务中,在家庭服务和工业场景中拥有巨大的潜力。

科研背后的故事

林沛于 7th Robot Learning Workshop in ICLR 2025 

做口头汇报

Q

请介绍一下你目前所在团队和主要研究方向

A

我是北京通用人工智能研究院-上海科技大学2024 级联培博士生林沛,目前在机器人实验室工作与学习,我的研究方向聚焦于带触觉灵巧手的精细操作,致力于为机器人增添人类一样的灵活双手。

Q

在研究过程中,是否遇到过特别具有挑战性的问题?你是如何解决的?

A

研究过程中最大的问题来自于数据的收集。由于手部集合了大量的关节,并且需要与物体产生交互,目前对于如何高效收集机器人手部的数据,学界没有找到高效通用的方法。我们收集数据的方式受到了“儿童如何学习写字”的启发,通过生成一些像“字帖”般的指尖轨迹,让手指学会在不同轨迹下应该如何控制。

Q

你认为当前研究的最大价值是什么?它对行业或学术界可能产生哪些深远影响?

A

我们提出的全新、低成本全向触觉传感器,克服了过去平面触觉传感器只能感受单一平面的问题。数据合成避免了遥操作和物理仿真,基于扩散模型的策略更是首次只使用了触觉反馈和本体感知。相信整个系统和所解决的任务都会对后续研究带去价值。

Q

基于当前的研究成果,你是否有后续的研究计划或扩展方向?

A

在这项工作的后期发现整套框架可以被非常容易地扩展到别的任务,如拧灯泡、在手中旋转橘子等。我们希望未来能够结合LLM完成一套框架下的多任务操作。

拧灯泡

手中旋转橙子

/参考文献 /

[1]Mike Lambeta, Tingfan Wu, Ali Sengul, Victoria Rose Most, Nolan Black, Kevin Sawyer, Romeo Mercado, Haozhi Qi, Alexander Sohn, Byron Taylor, et al. Digitizing touch with an artificial multimodal fingertip. arXiv preprint arXiv:2411.02479, 2024.

北京通用人工智能研究院

Facebook
Twitter
LinkedIn
Email