2020届姚班校友林一衡、2018级在校生胡扬作为共同第一作者完成的论文Perturbation-based Regret Analysis of Predictive Control in Linear Time Varying Systems近日被第三十五届神经信息处理系统大会(35th Conference on Neural Information Processing Systems,NeurIPS 2021)接收并评为焦点论文(Spotlight paper),本年度大会上获得该荣誉的论文占总投稿数的比例不到3%。该文旨在研究模型预测控制在一般的线性时变系统中性能的理论保证。
近年来,控制理论与学习理论的融合日渐流行,越来越多的研究希望从学习理论的角度为控制器的性能提供理论保证。目前,对线性时不变(linear time-invariant, LTI)系统的控制器,特别是著名的线性二次型调节器(linear quadratic regulator, LQR),已经给出了动态遗憾界(dynamic regret)、竞争比(competitive ratio)等理论结果。然而,许多实际系统较复杂,不能建模为LTI系统,或不能被LQR有效控制,而对一般情形的理论研究尚不够完善。模型预测控制(MPC)是近年来最优控制领域的新秀,不仅引起了学术界的广泛关注,也在许多实际系统(尤其是非线性时变系统)的应用中取得了成功。简单地说,在每一时刻,MPC控制器可以预测未来k个时刻的系统参数(包括动力学方程、代价函数等),将未来k步的最优控制问题转化为以总代价为目标的优化问题求解,并将局部最优解中第一步的控制输入采纳为下一时刻的控制输入。这里k称为预测窗口长度(prediction window),它是MPC控制器的关键参数。
该研究的最大贡献在于:首次在一般的LTV系统(动力学方程和决策代价均随时间变化)中,给出了MPC控制器的动态遗憾界上界O(λ^kT)和竞争比上界1 + O(λ^k),且两种性能上界均随预测窗口长度k的增大而指数衰减(λ < 1)。该研究的新结果与以往LTI系统中的结果在增长率的阶上保持一致,但在定理的适用范围上作了较大的推广。
在证明技术方面,研究指出:以往基于未来代价函数(cost-to-go function)或利用控制标准型(control canonical form)规约至优化问题的证明框架,对LTV系统均不适用。进而建立了一种基于扰动-响应分析的新证明框架:首先研究MPC控制器所给轨迹在系统参数扰动下的响应,建立指数衰减的扰动响应上界;随后,利用扰动响应上界证明动态遗憾界和竞争比的上界。由于不需要显式地求出最优轨迹或最优代价,可以期待这一证明框架的适用范围是广泛的:只要一种系统内可以建立类似的扰动响应上界,就可以立刻得到相应的理论性能上界。该分析框架也是该研究的重要理论贡献之一。
此外,在研究系统对参数扰动的响应时,提出了一种新的从控制问题规约到在线优化问题的方式。该研究的规约方法主要利用了下述事实:如果一个控制系统的可控指数(controllability index)为d,则总可以通过恰当的控制输入,使系统在d步后达到状态空间内的任意状态。这样一来,可以将d步视为一个整体,在轨迹上每d步插入一个决策点,使得决策点之间相互独立,从而将控制问题转化为无约束的在线光滑凸优化(SOCO)问题。
作者简介
林一衡
交叉信息研究院2020届姚班校友,现为加州理工大学计算与数学科学系二年级博士生,导师为Adam Wierman教授和Yisong Yue教授。
胡扬
交叉信息院研究姚班2018级学生,目前本科四年级在读。2021年春季加入Adam Wierman教授课题组开展研究。本文系春研期间的合作研究成果。
关于NeurIPS
NeurIPS是计算机科学的顶级年度国际会议之一,首次举办于1987年,已连续举办35届,目前已发展为涵盖人工智能、机器学习、优化控制等多个领域、包含多条不同研究轨道的大型综合性学术会议。受疫情影响,NeurIPS 2021将于12月6日~14日线上举办。