清华大学交叉信息研究院

交叉信息院师生在ICML2022成果丰硕

浏览量：11649

2022年05月30日

近日，根据国际机器学习大会（International Conference on Machine Learning ，简称ICML）官网消息，交叉信息院多个课题组及本科生共有23篇文章被接收，采撷本次会议的丰硕成果。

部分论文展示（排序不分先后）

1、如何在基于保守性的同时进行更好的规划？基于行为者修正的离线多智能体强化学习算法

尽管深度多模态学习在实践中取得了显著成功，但在理论上并没有得到很好的解释。近来人们在多模态训练中观察到: 表现最好的单模态网络优于联合训练的多模态网络。这一现象是违反直觉的, 因为多个信号输入通常会带来更多的信息。该研究旨在为流行的多模态联合训练框架在神经网络中出现这种性能差距提供理论解释。

图：在商品分类(包含图像和文本)任务上验证模态竞争现象的存在

基于能体现多模态数据真实属性的简化数据分布，该研究证明对于通过梯度下降联合训练并由ReLU函数激活的多模态后期融合网络, 不同的模态在训练过程中将相互竞争, 导致编码网络讲只能学习到多模态的一个模态子集,该研究将这一现象刻画为模态竞争。而在竞争中失败的模态，将不会被编码网络发掘，这正是联合训练次优性的根源。通过实验，该研究说明模态竞争与多模态训练的本质行为相匹配。

作者：

黄钰（交叉信息院2020级硕生）

黄隆波（交叉信息院副教授）

其他合作者

文章链接：

https://arxiv.org/pdf/2111.11188.pdf

2、分析与缓解自动架构搜索中的干扰问题

权重共享，通过重复利用之前训练过的子模型的权重以减少神经结构搜索的训练成本，是一种在自动架构搜索中广泛应用的方法。然而，在实际应用中大家发现，这些子模型的估计准确率和真实准确率之间的排序相关性较低。本质上，这是由于不同子模型之间的干扰造成的。该研究通过抽取不同的子模型计算共享算子上的梯度相似度来定量的研究干扰问题。

图: 不同策略下的梯度的余弦相似度的比较

通过BERT 搜索空间上的实验验证，该研究提出的两种方法都能减轻干扰并提高排序的准确率，并且两者结合可以达到更好的效果。在 GLUE 任务上，该研究自动搜索出来的架构显著超过了 RoberTa 和 ELECTRA 的Base模型。在BE RT压缩任务，阅读理解SQuAD任务和大规模图像分类任务ImageNet上的进一步实验也证明了该研究所提出的方法的有效性和通用性。

作者：

徐进 (交叉信息院2018级博士生)

李建（交叉信息院副教授)

其他合作者

文章链接：

https://arxiv.org/abs/2203.12221

3、自组织的多项式时间协作图

协作图算法是多智能体强化学习中的一类经典方法，其通过将多智能体的联合值函数分解为一系列局部值函数的加和，显示地表达了智能体间的交互关系。在此前算法使用的协作图上，求解智能体的联合动作决策及其近似解均为NP-hard问题，这限制了已有协作图算法的性能。该研究提出了一种新的基于动态协作图的算法，以此在实现准确联合动作决策的同时维持充分的值函数表达能力。

图1：算法在“猎人-猎物”环境中学到的动态协作图

图2：算法在多智能体合作测试集的实验结果

该研究首先构造了特殊的协作图类，这些协作图上的联合动作决策可以在多项式时间内精确求解。之后，该研究在时序差分学习的框架下设计了动态协作图的机制，算法可以根据多智能体系统状态的不同从协作图类中选择最优的协作图，这弥补了单一协作图表达能力可能不足的问题。在多个复杂的多智能体合作任务上的实验结果表明，该算法能在动态环境中自适应地选择合适的协作图结构，并取得了协作图算法中最领先的性能。

作者：

杨乾澜（交叉信息院2018级本科生）

董炜隽（交叉信息院2018级本科生）

任之洲（交叉信息院2020届姚班校友）

王鉴浩（交叉信息院2019届姚班校友、2019级交叉信息院研究生）

王同翰（交叉信息院2021届研究生校友）

张崇洁（交叉信息院助理教授）

文章链接：

https://arxiv.org/abs/2112.03547

4、阶段化的自我归纳学习：一种高效的稀疏奖赏强化学习方法

近年来，深度强化学习在许多任务中都取得了惊人的突破，但由于其对超参数极为敏感，距离实际落地还有很大差距。相比之下，监督学习是一种更加稳定的学习范式，许多基础“大模型”正是监督学习的产物。该研究提出了一种结合两种范式的框架“PAIR”，通过自我归纳产生模仿学习数据，从而将监督学习引入强化学习，高效稳定地解决极具挑战性的稀疏奖赏强化学习问题。

图1: PAIR算法框架总览

图2: PAIR控制机械臂堆积木塔的策略轨迹

该框架核心设计是交替进行在线和离线学习阶段：在线阶段智能体一边进行强化学习，一边收集用于离线学习的数据；离线阶段智能体在自己采集的数据中成功的轨迹上进行自我模仿学习。在线阶段还加入了自我归纳技术，让智能体把原本不会的困难任务分解成可以解决的简单的任务，大大扩充可用于离线学习的数据集。研究还引入了基于值函数的内在奖赏来提升稀疏奖赏下的学习效率。PAIR是目前已知的第一种在仅给代表成功与否的二值化奖励情况下，学会控制机械臂堆出六层高的积木塔的方法。

作者：

李云飞（交叉信息院2020级博士生）

高天（交叉信息院2019级本科生）

杨家齐（交叉信息院2021届姚班校友）

许华哲（交叉信息院拟入职助理教授）

吴翼（交叉信息院助理教授）

文章链接：

https://irisli17.github.io/publication/icml22_pair/

5、以毒攻毒：引导深度神经网络避免优化捷径

在监督学习的分类问题与序列决策问题中，基于深度学习的算法凭借优异的性能得到了广泛的关注与应用。然而，研究人员发现深度学习网络常常倾向于寻找“捷径”的解决方案，当数据分布与训练集有稍许偏差时，这样的捷径解常常会出现灾难性的错误。该研究发现，当人们可以根据输入信号中的关键成分提供一个额外的“引导”特征时，深度神经网络可以成功避免捷径，这个“引导”特征可以是一个对于输出目标的粗略估计。这样的“引导”是根据输入信号中与任务相关成分的领域知识而获得的，在实际应用中这样的领域知识非常容易定义与获取。比如，人们能够很清楚地意识到：在视觉模仿学习中，一段视频输入的当前帧是比其他的历史帧更为重要的；在图像分类中，图片的前景物体要比背景的像素对分类任务更加关键。

图：传统深度神经网络（上图）与PrimeNet（下图）的对比示意图

该研究根据这样的原理提出了“引导网络”(PrimeNet)，在图像分类、机器人控制和自动驾驶任务中显著超过了现有的最优方法。并且，研究组在深度神经网络的优化角度为引导网络提供了理论保证，证明了引导特征通过为神经网络提供了一个正确的并且更简单的捷径来避免了错误的捷径方案。

作者：

汶川（交叉信息院2020级博士生）

滕佳烨 （交叉信息院2020级博士生）

高阳（交叉信息研究院助理教授）

其他作者

论文链接：

https://alvinwen428.github.io/pdf/Fight_Fire_with_Fire__ICML2022_.pdf

6、基于流的部分可观测马尔科夫过程序贯信仰状态学习

部分可观测马尔科夫决策过程是对真实世界序贯决策过程的通用模型，然而其目前在高维连续空间、模型未知的条件下并未得到良好解决。其中最主要的挑战之一在于如何准确获取其信仰状态。

图：信仰状态推断（左图）与状态采样预测（右图）

该论文通过将标准化流模型整合到变分推断框架中，提出了一种通用的循环信仰状态模型，使其能够建模更加复杂的概率分布，从而能够提高重建和预测的精度，以及下游强化学习任务的性能。该方法对研发基于高维传感器输入的高级别自动驾驶与机器人等决策系统具有重要的意义。

作者：

陈晓宇（交叉信息院2021级博士生）

陈建宇（交叉信息院助理教授）

其他作者

文章链接：

https://arxiv.org/abs/2205.11051

7、寻找量化深度神经网络中的任务最优低比特子分布

量化神经网络通常需要更小的内存占用和更低的计算复杂度，这对于高效的移动端部署至关重要。然而，神经网络量化不可避免地会导致与原始网络的分布差异，这通常会降低性能。

大量工作被提出以解决这个问题，但大多数现有方法都缺乏统计性质上的考虑，并且依赖于多种复杂的人工参数配置。该研究提出了一种自适应映射量化方法来学习模型中固有的最优潜在子分布，并用高斯混合模型 (concrete GM) 进行平滑逼近。网络权重将根据GM近似的子分布进行离散的量化映射，该子分布随着任务目标优化的训练自适应更新。

图：传统神经网络权重量化（左侧图）与本文提出的DGMS方法（右侧图）对比

实验证明该研究方法在各种先进网络模型上的有效性、泛化性和可迁移性。此外，该研究开发了一个移动CPU的高效部署流程Q-SIMD，在八核ARM CPU上实现了高达7.46倍的推理加速。

作者：

谭展宏（交叉信息院2019级博士生）

吴梦迪（交叉信息院2019级本科生）

张林峰（交叉信息院2019级博士生）

马恺声（交叉信息院助理教授）

其他作者

论文链接：

http://group.iiis.tsinghua.edu.cn/~maks/publications/pdf/ICML2022drp.pdf

8、无需预训练的高效NLP学习框架：1%算力+1%语料即可比肩预训练语言模型

预训练语言模型因其强大的性能被广泛关注。基于预训练-微调(Pretraining-Finetuning)的范式也已经成为许多NLP任务的标准方法。然而，当前通用语言模型的预训练成本极其高昂，这使得只有少数资源充足的研究机构或者组织能够对其展开探索。这种“昂贵而集权”的研究模式限制了平民研究者们为NLP社区做出贡献的边界，甚至为该领域的长期发展带来了障碍。

图：新提出的TLM框架与传统的预训练-微调框架的比较

该研究首次提出一种完全不需要预训练语言模型的高效学习框架：任务驱动的语言建模 (TLM, Task-driven Language Modeling)。这一框架从通用语料中筛选出与下游任务相关的子集，并将语言建模任务与下游任务进行联合训练 (如左图所示)。相较于传统的预训练模型 (例如 RoBERTa)，TLM仅需要约1%的训练时间与1%的语料，即可在众多NLP任务上比肩甚至超出预训练模型的性能 (如右图所示)。作为这一领域的一项突破性进展， TLM的提出具有重要意义，它引发更多对现有预训练微调范式的思考，并进一步推动NLP民主化的进程。

作者;

姚星丞（交叉信息院2018级本科生）

杨植麟（交叉信息院助理教授）

其他作者

论文链接：

https://arxiv.org/abs/2111.04130

9、神经网络训练并不是在寻找驻点

非凸优化理论常常分析梯度算法寻找驻点的速率。虽然在这种分析框架下，最优的梯度算法已经被理论证明，但这些算法（如variance reduction或者Nesterov momentum）的实验性质并不明显。该研究发现这种理论偏差是由于其研究目标与实际不符造成的。研究通过大量ImageNet与Wiki102实验发现，绝大多数模型虽然损失函数收敛，而其参数并不在驻点上。

图1：不同训练计划下的ResNet + ImageNet 实验statistics

图2：不同训练计划下的TransformerXL + Wiki103 实验statistics

基于上述实验，该研究借助动力系统的invariant measure理念提出了一种新的收敛定义，即参数的时间平均收敛。该研究为这种收敛提供了神经网络优化的理论分析。此外，该研究还发现，实际中损失函数的平滑收敛，是由于估计器在时间维度做了平滑。

作者：

张景昭 (交叉信息院助理教授)

其他作者

文章链接：

https://arxiv.org/pdf/2110.06256.pdf

10、延迟奖励下的离策略强化学习

该研究聚焦具有延迟奖励的深度强化学习 (RL) 算法。在许多现实世界的任务中，即时奖励通常不容易获得，甚至不能被即定义。

图：研究提出的HC分解的消融实验

该研究首先正式定义具有延迟奖励的环境，并讨论由于此类环境的非马尔可夫性质而带来的挑战。然后，该研究引入了一个通用的离策略强化学习框架和一个新的 Q函数公式，它可以通过理论上的收敛保证来处理延迟奖励。对于具有高维状态空间的实际任务，该研究再其框架中进一步引入了 Q函数的 HC分解规则。我们发现这自然导致了一个有助于提高训练效率和稳定性的近似方案。该研究最终进行了广泛的实验，以证明其算法在现有工作及其变体上的优越性能。

作者：

韩贝宁（交叉信息院2018级本科生）

任之洲（交叉信息院2020届姚班校友）

吴作凡（交叉信息院2021届姚班校友）

周源（姚班09届毕业校友, 清华大学副教授）

其他作者

文章链接：

https://arxiv.org/abs/2106.11854。

11、自主探索问题和多目标随机最短路径问题的接近最优算法

该研究分析了强化学习中的自主探索问题。自主探索问题的目标是学习最优策略以到达所有的L-可控状态，其中L-可控状态指的是所有能从初始状态在期望L步以内到达的状态。

图：下界证明的马尔可夫决策过程的构造

该研究引入了一种比现有算法具有更好的样本复杂度上界的新算法：VALAE。此外，该研究还证明了自主探索问题的第一个下界。特别地，这个下界说明了在L-可控状态数随L呈多项式速度增长时，该研究提出的算法VALAE是极小极大最优的。算法设计的关键是建立自主探索问题和多目标随机最短路径问题之间的联系。

蔡昊源（交叉信息院2018级本科生）

马腾宇（交叉信息院2012届姚班校友，斯坦福大学助理教授）

其他作者

文章链接：

https://arxiv.org/abs/2205.10729

12、针对点云模型三维变换的平滑防御

具有神经网络架构的点云模型取得了巨大成功，并已广泛用于安全关键型应用，例如自动驾驶汽车中基于激光雷达的识别系统。然而，实验证明点云模型容易受到对抗攻击的影响。这些对抗性攻击旨在使用隐蔽的三维变换（如旋转）来误导模型预测。

图：针对点云变换的平滑防御框架总览

该研究提出了一种针对三维变换攻击的平滑框架，为点云模型提供了严格且可扩展的鲁棒性保证。该研究首先将常见的三维变换分为三类：可加变换、可组合变换和间接可组合变换，并分别为所有类别提出了通用的鲁棒性保证策略。对常见三维变换的实验表明，该研究提出的方法明显优于现有技术。例如，该研究将沿 z 轴20度以内扭曲变换的认证精度从 20.3% 提高到 83.8%.

作者：

储闻达（交叉信息院2019级本科生）

其他作者

文章链接：

https://arxiv.org/abs/2201.12733

论文列表

Pan, L. , Huang, L. , Ma, T. , & Xu, H. . (2021). Plan better amid conservatism: offline multi-agent reinforcement learning with actor rectification.

Huang, J. , Dai, Y. , & Huang, L. . (2022). Adaptive best-of-both-worlds algorithm for heavy-tailed multi-armed bandits.

Hu, P., Chen, Y., Huang, L. (2022). Nearly Minimax Optimal Reinforcement Learning with Linear Function Approximation.

Huang, Y., Lin, J., Zhou, C., Yang, H., Huang, L. (2022). Modality Competition: What Makes Joint Training of Multi-modal Network Fail in Deep Learning? (Provably).

Dong, R., Tan, Z., Wu, M., Zhang, L., Ma, K. (2022). Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural Networks.

Wu, K., Lee, C., Ma, K. (2022). MemSR: Training Memory-efficient Lightweight Model for Image Super-Resolution.

Wen, C., Qian, J., Lin, J., Teng, J., Jayaraman, D., Gao, Y. (2022). Fighting Fire with Fire: Avoiding DNN Shortcuts through Priming.

Li, Y., Gao, T., Yang, J., Xu, H., Wu, Y. (2022). Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning.

Fu, W., Yu, C., Xu, Z., Yang, J., Wu, Y. (2022). Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning.

Xu, J., Tan, X., Song, K., Luo, R., Leng, Y., Qin, T., Liu, T., Li, J. (2022). Analyzing and Mitigating Interference in Neural Architecture Search.

Yao, X., Zheng, Y., Yang, X., Yang, Z. (2022). NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework.

Hu, H., Yang, Y., Zhao, Q., Zhang, C. (2022). On the Role of Discount Factor in Offline Reinforcement Learning.

Yang, Q., Dong, W., Ren, Z., Wang, J., Wang, T., Zhang, C. (2022). Self-Organized Polynomial-Time Coordination Graphs.

Chen, X., Mu, Y., Luo, P., Li, S., Chen, J. (2022). Flow-based Recurrent Belief State Learning for POMDPs.

Cai, H., Ma, T., Du, S. (2022). Near-Optimal Algorithms for Autonomous Exploration and Multi-Goal Stochastic Shortest Path.

Chu, W., Li, L., Li, B. (2022). TPC: Transformation-Specific Smoothing for Point Cloud Models.

Han, B., Ren, Z., Wu, Z., Zhou, Y., Peng, J. (2022). Off-Policy Reinforcement Learning with Delayed Rewards.

Yu, D., Ma, H., Li, S., Chen, J. (2022). Reachability Constrained Reinforcement Learning.

Mu, Y., Chen, S., Ding, M., Chen, J., Chen, R., Luo, P. (2022). CtrlFormer: Learning Transferable State Representation for Visual Control via Transformer.

Zhang, J., Li, H., Sra, S., Jadbabaie, A. (2022). Rethinking Convergence in Deep Learning: Beyond Stationary Points.

Zhang, J., Lin, H., Das, S., Sra, S., Jadbabaie, A. (2022). Beyond Worst-Case Analysis in Stochastic Approximation: Moment Estimation Improves Instance Complexity.

Ahn, K., Zhang, J., Sra, S. (2022). Understanding the unstable convergence of gradient descent.

Wang, L., Hu, Y., Zhang, Y., Wang, W., Zhang, C., Gao, Y., Hao, J., Lv, T., Fan, C. (2022). Individual Reward Assisted Multi-Agent Reinforcement Learning.