清华大学交叉信息研究院

高阳课题组提出Efficient Zero模型，取得强化学习领域新突破

浏览量：5768

2021年11月15日

近日，清华大学交叉信息研究院高阳研究组在强化学习领域中取得突破，研究组所提出的模型EfficientZero首次在雅达利（Atari ）游戏数据上超过同等游戏时长的人类平均水平。EfficientZero的高效率学习能力为强化学习算法应用到现实世界场景提供了更大可能。

EfficientZero在Atari 100k（2h环境数据）基准下与其他算法结果对比

该研究成果一经公开，便在学术圈引发关注和热议，收获大量好评。甚至还有科技方向的博主做了半小时的视频讲解此文，短短两天已有上万人次观看。

网友在Twitter上的转发以及在YouTube上的讲解视频

Atrai游戏是目前强化学习领域最常用的性能测试标准之一，它包含丰富的游戏场景，且各个游戏规则各异。在2015年，Deep Mind团队提出算法DQN，通过200M帧训练数据，在Atari游戏上达到了人类平均水平。然而EfficientZero达到同等水平仅仅需要DQN需求数据量的1/500。而低样本效率是限制强化学习算法应用于真实场景的障碍之一，这是因为在真实场景中，实验人员无法像在模拟场景中获取大量数据用于训练模型。这表明EfficientZero的高样本效率与高性能能够让强化学习算法更加贴近真实应用的场景，为强化学习算法能够落地提供了更大的可能性。

部分Atari游戏展示

EfficientZero是一种model-based的算法，基于此前的MuZero模型，这类模型一方面通过收集的数据来学习环境模型，从而能够预测环境的变化，另一方面利用所学出的模型预测未来的轨迹和所得回报，通过MCTS进行规划，从而在少量训练数据情况下能够达到较高的性能。EfficientZero提出了三点改进：时序一致性，预测阶段回报，修正目标价值。其中时序一致性的实现是通过计算机视觉领域中的对比学习算法SimSiam实现的，这使得状态转移模型所预测的下一步状态靠近真实轨迹的下一步状态，从而促进状态转移模型的学习。

EfficientZero通过自监督学习保持时序一致性

研究提出，在训练过程中有些状态的回报是很难预测的，因此预测每步状态的回报会有较高的不确定性，但是预测阶段的回报相对来说更加平滑，从而减少这种不确定性。研究组通过更改目标价值函数实现离线策略价值函数的纠正。此外，EfficientZero还在部分模拟机器人控制环境DMControl中进行了实验，并取得了目前最佳性能，这也进一步表明EfficientZero在更复杂的模拟环境情形下仍然能维持高样本效率和高性能。

该成果的研究论文《Mastering Atari Games with Limited Data》被2021年神经信息处理系统进展大会（NeurIPS 2021）接收。该论文的第一作者为交叉信息研究院2020级博士生叶葳蕤，通讯作者为高阳助理教授。其他作者包括加美国加州大学伯克利分校教授Pieter Abbeel、交叉信息研究院2020级硕士生刘绍淮以及加州大学伯克利分校博士生Thanard Kurutach。

作者简介

高阳

博士毕业于加州大学伯克利分校，现任交叉信息研究院助理教授，其主要研究方向为计算机视觉和强化学习。

刘绍淮

交叉信息研究院计算机科学与技术专业2020级硕士生，导师为高阳助理教授。

叶葳蕤

交叉信息研究院计算机科学与技术专业2020级博士生，导师为高阳助理教授。

论文链接

https://arxiv.org/abs/2111.00210