科研成果合辑 | ICLR 2024顶会成果速览

浏览量:
2024年05月08日

 

近日,清华大学交叉信息研究院人工智能方向各研究组在深度学习领域顶级国际会议之一International Conference on Learning Representations (ICLR 2024)发表系列重要科研成果。高阳、黄隆波、吴翼、许华哲、弋力、袁洋、张景昭等研究组共计发布13项最新科研成果,涵盖深度学习、表征学习、机器视觉、多模态大语言模型、生成模型、理论算法等多个研究领域。

 

01 高阳研究组:模仿学习和机器人感知系列算法攻关—Seer & ADS & RelatiViT

高阳研究组围绕模仿学习和机器人感知开展了一系列算法攻关研究。三项成果收录于2024 ICLR会议。研究组提出了Seer视频预测算法,根据机器人感知的第一帧图像预测未来图像,完成对于所需完成任务的规划。第二项成果提出了ADS算法,能根据一个没有动作的演示视频,比如Seer生成的视频去进行模仿学习,为机器人从人类视频中学习铺平了道路。第三项科研成果提出的RelatiViT模型解决了机器人对于物体之间相互关系之间的感知问题。

 

(1)Seer: Language Instructed Video Prediction with Latent Diffusion Models

论文作者:Xianfan Gu, Chuan Wen, Weirui Ye, Jiaming Song, Yang Gao

项目链接:https://seervideodiffusion.github.io/

 

 

(2) Imitation Learning from Observation with Automatic Discount Scheduling

论文作者:Yuyang Liu*, Weijun Dong*, Yingdong Hu, Chuan Wen, Zhao-Heng Yin, Chongjie Zhang, Yang Gao

项目链接:https://il-ads.github.io/

 

(3) RelatiViT: Can Transformers Capture Spatial Relations between Objects?

论文作者:Chuan Wen, Dinesh Jayaraman, Yang Gao

项目链接:https://sites.google.com/view/spatial-relation

 

 

 

02 黄隆波研究组:基于函数近似与人类反馈的风险感知强化学习算法

黄隆波研究组提出了一种高效的基于函数近似的风险感知强化学习算法。通过提出新的CVaR风险算子的有效近似和适应风险测度的岭回归估计技术,给出了函数近似迭代CVaR模型的高效算法,进一步给出了在人类反馈信号情形下的理论分析。该工作提出了新颖的风险敏感强化学习分析方案,扩展了基于人类反馈风险感知学习的理论基础。

 

1Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback

论文作者:Yu Chen, Yihan Du, Pihe Hu, Siwei Wang, Desheng Wu, Longbo Huang

项目链接:https://arxiv.org/pdf/2307.02842v1

 

 

 

03 吴翼研究组:将强化学习扩展至超过一万个核心

吴翼研究组在强化学习训练系统抽象层面提出了创新设计方案,自主设计并开发了能够部署在一万个计算核心上进行强化学习的分布式系统SRL。通过创新的数据流抽象和高效的架构设计,在多个核心上实现了可扩展、高效和可扩展的强化学习训练,显著提高了训练吞吐量和学习性能。本系统吞吐量和样本效率能够达到最佳开源系统的21倍,达到OpenAI闭源系统的5倍。

 

1SRL (ReaLly Scalable RL): Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores

论文作者:Zhiyu Mei*, Wei Fu*, Jiaxuan Gao, Guangju Wang, Huanchen Zhang, & Yi Wu

项目链接:https://github.com/openpsi-project/srl

 

 

 

04 许华哲研究组:强化学习的数据效率和算法性能方面系列进展

许华哲研究组主要围绕强化学习算法领域的数据效率和算法性能等方向,开展了一系列攻关研究,四项成果收录于此次ICLR会议,例如DrM显著提升了视觉强化学习的数据效率,COPlanner 显著提升了基于模型的强化学习的数据效率,LaMo利用预训练模型提升了离线强化学习的能力,Uni-O4则是将离线强化学习与在线强化学习连接,相关成果对自动化控制和机器人学的发展研究具有重要意义。

 

(1) Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization

论文作者:Kun Lei, Zhengmao He, Chenhao Lu, Kaizhe Hu, Yang Gao, Huazhe Xu

项目链接:https://arxiv.org/abs/2311.03351

 

 

(2) DrM: Mastering Visual Reinforcement Learning through Dormant Ratio Minimization

论文作者:Guowei Xu, Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Zhecheng Yuan, Tianying Ji, Yu Luo, Xiaoyu Liu, Jiaxin Yuan, Pu Hua, Shuzhen Li, Yanjie Ze, Hal Daume III, Furong Huang, & Huazhe Xu

项目链接:https://xugw-kevin.github.io/drm

 

 

(3) COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL

论文作者:Xiyao Wang, Ruijie Zheng, Yanchao Sun, Ruonan Jia, Wichayaporn Wongkamjan, Huazhe Xu, Furong Huang

项目链接:https://github.com/umd-huang-lab/COPlanner

 

 

(4) Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

论文作者:Ruizhe Shi*, Yuyao Liu*, Yanjie Ze, Simon S. Du, Huazhe Xu

项目链接:https://lamo2023.github.io

 

 

 

05 弋力研究组:多模态大模型框架DREAMLLM&通用泛化的手物交互算法GeneOH Diffusion

弋力研究组提出了多模态大型语言学习框架DREAMLLM,首次实现了兼具多模态内容创作和理解的功能且相互促进的通用多模态大模型,并且是第一个原始数据级的完全自回归多模态大模型。该工作由弋力研究组与清华大学马恺声老师研究组合作完成。

该研究组还提出了一套通用泛化的手物交互去噪算法GeneOH Diffusion,用于处理手-物交互(HOI)中的去噪问题。该方法通过创新的基于接触的HOI表示GeneOH和一个新的领域泛化去噪方案来解决复杂的交互噪声问题。GeneOH Diffusion在多个基准测试中展示了其优越的有效性和泛化能力,对各种下游应用也显示出了潜力。

 

(1) DreamLLM: Synergistic Multimodal Comprehension and Creation

论文作者:Runpei Dong*, Cunrui Han*, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi

项目链接:https://dreamllm.github.io/

 

 

(2) GeneOH Diffusion: Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion

论文作者:Xueyi Liu, Li Yi

项目链接:https://meowuu7.github.io/GeneOH-Diffusion/

 

 

 

06 袁洋研究组:对比学习的理论分析

袁洋研究组提出了一种崭新的分析对比学习算法的视角,使用马尔科夫随机场作为分析工具,证明了SimCLR算法和在相似图上做某种谱聚类算法是严格等价的。该工作可以用来启发设计新的基于核函数的损失函数,在一些数据集上取得更好的结果,进一步支持了范畴论可以作为大模型的基础理论框架的学术观点。

 

1GeneOH Diffusion: Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion

论文作者:Zhiquan Tan*, Yifan Zhang*, Jingqin Yang*, Yang Yuan

项目链接:https://github.com/yifanzhang-pro/Kernel-InfoNCE

 

 

 

 

07 张景昭研究组:QSR:分布式训练需要新的同步周期

张景昭研究组和黄隆波研究组研究了分布式深度学习中的数据并行训练问题, 提出了Quadratic Synchronization Rule(QSR)的新方法,不仅考虑了通信成本和优化速度之间的权衡,而且还考虑了同步周期H对模型泛化能力的影响,在减少通信量和提高测试准确率方面的显著效果。

 

1A Quadratic Synchronization Rule for Distributed Deep Learning

论文作者:Xinran Gu*, Kaifeng Lyu*, Sanjeev Arora,  Jingzhao Zhang, Longbo Huang

项目链接:https://github.com/hmgxr128/QSR

 

 

 

 

编辑 | 姜月亮

审核 | 吕厦敏