清华大学交叉信息研究院

高阳研究组通用具身智能操纵框架CoPa收录国际顶会，并受邀进行Spotlight Talk

浏览量：

2024年05月16日

在机器人技术领域，适应复杂环境的操作能力是关键挑战之一。近期，清华大学交叉信息研究院的高阳助理教授及其研究团队提出了名为CoPa（Robotic Manipulation through Spatial Constraints of Parts）的框架，它通过利用基础模型（Foundation Model）中嵌入的常识性知识，极大地提高了机器人在开放世界场景中的操作能力。这一突破性研究成果已在2024年ICRA Workshop上发表，研究组受邀进行Spotlight Talk。

科研成果概要

CoPa框架将操纵任务分为两个阶段（如图1左所示）：先通过「任务导向的抓取模块（Task-Oriented Grasping）」生成机器人抓取物体的位姿，再通过「任务相关的运动规划模块（Task-Aware Motion Planning）」生成抓取物体后机器人完成任务所需的位姿。

图1：CoPa框架（左）以及CoPa可以完成的复杂操纵任务（右）

CoPa的这两个阶段都依赖于一个核心的「重要部分检测模块（Grounding Module）」。该模块利用了Set-of-Mark（SoM）算法，能够从粗到细地识别出场景中与任务密切相关的物体部件。首先，利用分割模型在较粗的层面上标出场景中的所有物体，然后通过GPT-4V进一步细化，精确地定位到具体的、与任务直接相关的物体部分。

在「任务导向的抓取模块」，CoPa框架利用预训练的抓取模型，根据识别的抓取对象部位生成最佳抓取位姿。在「任务相关的运动规划模块」，CoPa框架利用GPT-4V生成完成任务需要满足的空间几何约束，再基于这些约束求解出一系列后续位姿，最后通过运动规划算法精确执行。

表1：CoPa与各种基线算法的对比

充分的现实世界实验展现了CoPa框架卓越的通用操纵表现。实验中，CoPa在各种日常操控任务（如图1右所示）中表现出高达63%的成功率，显著优于现有的方法（如表1所示）。这些任务包括从简单的“放置物体”到更复杂的“操作工具”等，充分展示了CoPa在处理多变环境和未知指令时的强大能力。

同时，得益于重要部分检测模块以及空间几何约束的巧妙设计，CoPa框架不仅很大程度上减少了对复杂提示工程的依赖，还在实验中展现出了对任务以及场景的细致物理理解（如“锤钉子”时锤头需要正对钉面，“插花”时花需要竖直插入花瓶等等）。

CoPa不仅能处理简单的操控任务，还可以与长程规划算法ViLa结合，执行更为复杂的操作序列。例如，上面两个视频展示了在制作手冲咖啡或布置浪漫餐桌任务中，CoPa能够准确地执行高级规划算法划分的各个步骤，体现了其在实际应用中的巨大潜力。

随着机器人技术的不断进步，CoPa框架的提出为机器人的广泛应用开辟了新的道路。无论是工业生产线上的精密操作，还是日常环境中的服务机器人，CoPa的高度适应性和强大的场景理解能力都预示着其广阔的应用前景。此外，随着算法的进一步完善和优化，预期CoPa将在未来的机器人研究和应用中发挥更加关键的作用。

CoPa优异的表现受到了众多机器人领域大佬的高度评价。ICRA国际会议审稿评价其为“一个非常完备的集成框架”。IBM前CTO和Quebec AI等多位大佬纷纷点赞转发。此外，SoM算法的作者高度赞赏CoPa为“Great Work”，是将基础模型的能力与机器人领域相结合的优秀框架。

该论文CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models来自清华大学交叉信息院高阳研究组。论文共同第一作者为清华大学交叉信息研究院预研生黄浩栩、清华大学交叉信息研究院预研生林凡淇，通讯作者为高阳助理教授，其他作者还包括2021级博士生胡英东、2023级博士生王圣杰。

论文链接：https://arxiv.org/abs/2403.08248

编辑 | 姜月亮

审核 | 吕厦敏