从能量的视角观察看Transformer

Release time:2025-11-27

演讲人:刘勇(中国人民大学)

时间:11:45-13:00, Nov 27, 2025 (Thu)

地点:RM 1-202, FIT Building

内容:

Transformer 是当前大模型的核心架构,在自然语言处理、计算机视觉等领域展现出卓越性能,但其内在机理的理解仍较为有限。本报告从统计物理能量视角构建新框架,发现自注意力机制本质是最小化 Helmholtz 自由能的过程,由此为其提供了物理层面的原理解释。在此基础上,进一步从能量视角设计了新型 Transformer 架构,且实验验证了该架构的有效性。本研究为 Transformer 机理解读提供新视角,亦为其新架构设计提供新思路。

个人简介:

刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近60篇,涵盖机器学习领域顶级期刊Nature Communications、JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。主持国家自然科学面上/基金青年、北京市交叉融通重点项目、科技部重点研发课题、北京市面上项目等项目。

RETURN
演讲人 刘勇(中国人民大学) 时间 11:45-13:00, Nov 27, 2025 (Thu)
地点 RM 1-202, FIT Building EN
TOP