近期,清华大学交叉信息研究院陈建宇研究组,联合星动纪元在具身智能领域取得重要突破,提出了一种新颖的人形机器人学习算法框架,有效去除真实世界噪声扰动,解决机器人复杂环境中的适应性。这一研究成果Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning(DWL)被机器人领域难度最高的顶会Robotics: Science and Systems(RSS)接收,并获得了全体审稿人满分4.0的优秀成绩。
01 科研成果概要
现代环境设计主要围绕人类需求和能力,因此,具有类似人类骨骼结构的人形机器人特别适合在这种环境中作业。这类机器人在执行任务时展现出显著优势,尤其是在移动性方面。在复杂地形中的行走尤显其重要性。传统上,人形机器人步态的发展极大地依赖于模型控制技术,如零力矩点(ZMP)、模型预测控制(MPC)和全身控制(WBC),这些技术推动了机器人在行走、跳跃乃至后空翻等动作上的进步。然而,这些方法的效果往往受限于对环境动力学的精确建模,特别是在环境交互复杂的场景中,如穿越难行地形,控制复杂度增加。
图1:陈建宇助理教授研究组提出方法在真实世界的实验展示
与此相对,强化学习(RL)对环境建模的需求较低。近期在无模型RL领域的进展,显示了在创建普适性腿部运动控制器方面的巨大潜力。此方法使机器人能从多样环境中学习并适应,其性能常超过传统的基于模型的控制方法。尽管如此,与四足和双足机器人相比,实现鲁棒的人形机器人运动控制仍然具有巨大挑战。这些挑战包括但不限于较高的重心、摆动腿时的不稳定性、增加的腿部惯性、来自躯干和手臂的额外重量,以及通常更大的尺寸。目前,将RL应用于人形机器人在现实世界中的控制,研究仍局限于相对简单的地形。
图2:该工作所采用的人形机器人,分别为星动纪元的小星(XBot-S)及小星max(XBot-L)
为应对人形机器人控制领域的挑战,陈建宇助理教授的研究团队在之前开发的Humanoid-Gym平台基础上,进一步提出了去噪世界模型学习(DWL)技术,旨在优化人形机器人穿越多样化和复杂地形的能力。该技术已在星动纪元两种尺寸的人形机器人——小星(XBot-S)及小星max(XBot-L)上进行了验证。DWL在全球范围内首次通过端到端RL和零样本仿真到真实转换,实现人形机器人通用适应各类复杂的现实世界地形。如图1所示,人形机器人能够在包括雪地倾斜面、楼梯和不规则表面等各种地形上稳定行走,同时抵抗重大外部干扰。在所有场景中,研究组使用的是同一个神经网络策略,展示了其鲁棒性和泛化能力。DWL的成功主要归功于其创新的表示学习框架,通过有效去噪,极大地缩小了仿真与现实之间的差距。此外,研究组还提出了一个主动2-自由度踝关节(闭环运动链踝机制)的控制方法,如图2所示,显著增强了机器人的鲁棒性。
该论文的通讯作者是清华大学交叉信息研究院的陈建宇助理教授。共同第一作者包括交叉信息研究院2021级硕士生王彦仁、2021级硕士生朱翔、2023级博士生施铖铭,以及星动纪元的工程师Xinyang Gu。其他作者包括交叉信息院2022级博士生郭彦江和刘翊臣。此研究项目获得了科技创新2030重大项目、清华大学笃实专项及上海期智研究院的支持。
02 研究组简介
陈建宇是清华大学交叉信息研究院助理教授,同时也是领先的具身智能企业星动纪元的创始人。他曾在美国加州大学伯克利分校攻读博士学位,师从美国工程院院士Masayoshi Tomizuka教授。
陈建宇助理教授目前主持智能系统与机器人实验室(Intelligent Systems and Robotics Laboratory,简称ISR Lab),专注于人工智能与机器人技术的融合,致力于打造性能卓越的高端机器人系统。研究领域涵盖强化学习、机器人技术、控制理论、大模型等。近期,研究组主要聚焦于人形机器人与具身智能研究。
陈建宇助理教授研究组正在招收2025年秋季入学的优秀博士生和硕士生,如果你对加入研究组充满热情,请通过电子邮件与陈建宇助理教授联系(jianyuchen@tsinghua.edu.cn),并附上你的简历。同时,别忘了报名参加交叉信息研究院或人工智能学院的夏令营,详细信息请访问交叉信息研究院夏令营(https://admission.iiis.tsinghua.edu.cn/)及人工智能学院夏令营(https://admission.iiis.tsinghua.edu.cn/index-ai.php)。我们期待你的加入!