交叉信息院2018级本科生再获评 NeurIPS 2021焦点论文

浏览量:
2021年10月28日

    姚班2018级本科生周润龙作为共同第一作者完成的论文《Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret》被2021年神经信息处理系统进展大会(NeurIPS 2021)接收并评为焦点(Spotlight)论文。本年度大会上获得该荣誉的论文占总提交论文数不足3%。该论文研究了理论强化学习中最为根本的问题——马尔科夫决策过程随机最短路问题(SSP-MDP),并得出了理论最优的算法。

 

     由于其普适性,马尔科夫决策过程是理论强化学习领域中最受关注的问题模型。在这类问题中,人工智能可以将其所在的环境抽象成一个马尔科夫链,即用状态、操作、转移状态、回报刻画。在不知道每个操作的转移状态和回报的情况下,人工智能需要在K轮学习后最优化某个特定目标。理论研究最为深入的MDP通常假设人工智能一轮只能走固定、有限的步数,或者假设回报随着步数增长呈指数衰减,这样的假设过于强大,以至于生活中的另一些基本问题不能被很好地表示。随机最短路(SSP)问题则没有上述假设,而采用了一个较弱的假设,即假设按照最优策略执行的人工智能,其一轮的期望总代价不超过一个特定值B*,同时期望步数不超过另一个特定值T*。同时,SSP的目标为搜寻到一个特定状态的最小总代价,这也与人们以目标为导向的行为方式更加吻合。采用遗憾刻画算法的优劣,即前K轮所花的实际代价减去K倍最优代价。

     该论文提出了SSP问题的三点要求:(1)最小化最劣情况下的遗憾,由信息论推知下界为Ω(B*√(SAK)),依照理论强化学习惯例,可以忽略对数项和与K无关的项;(2)算法的执行不需要事先知道参数B*和T*,实际情况中人工智能也是不可能知道这两个参数的;(3)忽略对数项后,遗憾与T*无关,因为T*可能会比B*大任意多倍。该论文与另一篇同时投稿的论文分别独立提出了满足要求(1)的不同算法,而该论文的独有贡献在于提出了满足要求(2)的通用算法。最后,该论文中的算法还能以牺牲要求(2)中的T*换取要求(3),而同时满足三点要求的算法是否存在目前仍是开放性问题。

 

    对于要求(1),该论文提出的算法基于乐观估计、值迭代的有限时间近似收敛来保证运行效率和遗憾上界。乐观估计部分用到了上确信界的思路,通过引入统计量方差来获得较同领域前作更精细的分析方式。该论文通过构造一个新式的贝尔曼算子来保证值迭代的单调、收敛。基于这两点,该论文将遗憾分解为贝尔曼误差和统计误差,并通过递归(推)的方式得到方差总和的上界,从而证明遗憾上界。对于要求(2),该论文的通用算法核心对于B*的估计。只要给定一个满足要求(1)的算法,通用算法可以通过定期比较其实际总代价与估计B*的遗憾上界来自适应调整B*的估计值。对于遗憾上界的估计需要精细构造常数以及对数项。由于零代价环的存在,需要对对代价增加微小扰动来保证算法的执行效率,而代价就是会在小项上引入T*。如果事先知道关于T*的阶的正确估计,那么就可以精细地计算扰动值来满足要求(3)。

 

作者简介

周润龙

交叉信息院2018级姚班本科生,大三学年加入华盛顿大学Simon S. Du(杜少雷)组进行科研。该论文为科研期间的研究成果,共同一作为Jean Tarbouriech。

 

关于NeurIPS 

      NeurIPS是计算机科学的顶级年度国际会议之一,首次举办于1987年,已连续举办35届,目前已发展为涵盖人工智能、机器学习、优化控制等多个领域、包含多条不同研究轨道的大型综合性学术会议。受疫情影响,NeurIPS 2021将于12月6日~14日线上举办。

    交叉信息院师生在NeurIPS 2021共发文27篇。黄隆波研究组、张崇洁研究组、赵行研究组、吴翼研究组、高阳研究组、弋力研究组、房智轩研究组、陈建宇研究组、马恺声研究组均有成果发布。此外,交叉信息院2018级本科生胡杨、周润龙、白雨石以及张辰逸同学分别与校友等合作者共同发文。