交叉信息院2022届博士毕业生朱广翔荣获2022年北京市优秀博士学位论文

浏览量:
2022年12月19日

        交叉信息院2022届博士毕业生朱广翔荣获2022年北京市优秀博士学位论文。

    自AlphaGo战胜人类智能以来,强化学习不断取得举世瞩目的成就。然而深度强化学习却面临着最本质的问题——样本利用效率低,往往需要数倍于人类的学习样本。朱广翔在博士论文中提出三种归纳性模型,极大地提高了样本利用效率,在视频游戏、规划导航、机器人控制、自动驾驶等任务上达到世界领先水平。同时,朱广翔还在论文中构建类人一体化AI框架,完善了通用人工智能研究的基础框架。

        朱广翔表示:“非常幸运能获得‘北京市优秀博士学位论文’,感谢清华和交叉信息院对我的培养,感谢张崇洁老师一直以来孜孜不倦的指导,感谢曾坚阳、李建、Honglak Lee等各位老师曾给予我关键的帮助。这个奖对我来说真的很重,它承载了大家对我的认可和嘱托,熔铸了大家对AI的梦想和追求。我的工作仅仅是将大家对通用人工智能的美好愿景,勾勒成了一个草图,未来还需大家携手描绘更宏大辉煌的蓝图。我也会更加努力,继续前行,不忘初心,为下一代人工智能研究增砖添瓦。”

论文创新点:

       1、该研究首次基于机器学习构建了一个统一的类人一体化AI框架,完整地涵盖了人类最核心的三个基本智能,对通用人工智能的研究起到了深远的作用。该框架由三部分组成:表征模型、世界模型、记忆模型。表征模型模仿了人类的视觉感知系统,对应人类对外部世界的抽象和总结能力;世界模型模拟了人类的想象过程,对应人类对未来发展的预测和规划能力;记忆模型类似于人类的记忆系统,对应人类对过去经验的总结和复用能力。

       2、该研究是最早研究基于物体的深度强化学习的工作之一,提出了自监督的面向物体的世界模型学习框架,学到的知识具有可解释性,得到的策略可以泛化到新环境,样本利用效率取得了国际领先。

       3、该研究提出了一种新的基于世界模型的规划方法,通过优化虚拟轨迹和真实轨迹之间的互信息,实现策略学习的从虚拟到现实的泛化,在机器人视觉控制标准测试集上取得了国际领先。在此基础上,本文进一步提出了一种基于模型和无模型相结合的强化学习新范式,在自动驾驶领域取得了显著的效果,提高了驾驶的安全性和稳定性。

       4、该研究提出了情景记忆模型,基于图算法来更高效地利用记忆模型中的成功经验,从而提高了强化学习样本利用效率,取得超越DQN Nature论文5倍的效果。

论文摘要:

        深度强化学习作为研究人工智能问题的一种通用型框架,最近在许多领域取得了重大突破,尤其是无模型的强化学习。但是无模型强化学习并不高效,需要数倍于人类的学习样本。该研究从基于模型的强化学习出发,致力于提升强化学习的样本利用效率。基于模型的方法通常需要对智能体和环境建立归纳性模型,然后利用模型进行规划或者策略搜索。该研究从三个不同角度介绍了几种新型归纳性模型。

        第一种归纳性模型是面向物体的表征模型。该研究将基于物体的表征模型引入了传统的动力学模型学习里,基于学到的模型以物体为单位进行策略规划。该研究提出了一个新颖的基于物体的学习范式,先将环境分解成物体的集合,然后基于物体之间的关系和智能体动作来学习动力学模型。实验证明,该研究面向物体的方法在样本利用效率和新环境的泛化方面显著超越了之前的方法。用该研究方法学到的动力学模型可以在全新的环境中实现策略规划,并且该研究的模型可以学到语义和视觉上可解释的解耦合知识。

        第二种归纳性模型是可用于规划的动力学模型(世界模型)。现在已有的世界模型容易过拟合训练数据,基于这些模型的值估计和策略探索极其容易陷入局部解。为了解决这个问题,该研究提出了一个新的基于模型的强化学习框架。该研究最大化世界模型产生的轨迹和真实轨迹的互信息,从而实现在模型中进行的策略学习可以泛化到真实世界。该研究的方法在机器人视觉控制任务上取得了最领先的表现。另外,该研究实现了无模型和基于模型两种强化学习范式的结合。在自动驾驶上的实验显示,该研究在抵达目标的成功率、行驶速度、驾驶稳健性上显著超越了前人方法。

        第三种归纳性模型是联想记忆模型。非参数化的记忆模型支持快速回溯旧经验、复用旧策略,从而提高了参数化的深度强化学习方法的样本利用效率。但是,前人的记忆模型只将每次的经历存为孤立的记忆点,忽视了不同经历之间的关联关系。受生理学和脑科学研究启发,该研究提出了一个新颖的联想记忆模型。该研究将记忆模型中有关系的经历关联起来,将独立的记忆碎片连结形成联想记忆网,更高效地利用记忆模型中的成功经历来提高强化学习样本利用效率。在导航任务和雅塔利视频游戏上,该研究的方法均超越了目前最好的记忆模型方法。这些归纳模型对实现通用人工智能具有重要意义,他们分别对应了人类的三个基本智能。表征模型模仿了人类的视觉感知系统,对应人类对外部世界的抽象和总结能力;世界模型模拟了人类的想象过程,对应人类对未来发展的预测和规划能力;记忆模型类似于人类的记忆系统,对应人类对过去经验的总结和复用能力。