交叉信息院拟入职助理教授吴翼带来多智能体强化学习讲座

浏览量:
2019年10月24日
       10月24日下午,交叉信息院姚班2010级校友、拟入职助理教授吴翼带来题为“Curriculum, Evolution and Emergent Complexity with Multi-Agent Reinforcement Learning”的讲座。本次讲座由交叉信息院吴文斐助理教授主持,交叉信息院助理教授马恺声、于洋以及近40名叉院学子共同听取了讲座。

      吴翼在讲座中介绍了其最新的研究成果——利用多智能体深度强化学习(multi-agent deep reinforcement learning)使智能体自动习得与人类行为相似的策略和技能。吴翼以人类智能的诞生为切入点,探讨了“智能”的本源。他回顾了“达尔文的麻雀(Darwin’s finch)”的故事,总结了人类进化出智能的四个关键点: 进化总是从简到繁循序渐进的;不同物种之间通过互动(interaction)而共同进化;地球生态圈的复杂性导致了物种的多样性和复杂性; 进化需要一个较大的种群,而较大的种群也往往会有相应的群体行为。
 
     受生物进化的启发,吴翼指出,要搭建真正的人工智能,则需要满足模拟环境足够复杂和多智能体需要循序渐进的共同进化 (co-evolve)。基于这两个准则,吴翼介绍了两项最新的工作:通过捉迷藏游戏让智能体在物理环境下学会复杂表现;如何有效使用强化学习在智能体数量很大的情况下学出群体行为。

      在第一项工作中,吴翼展示了OpenAI 多智能体研究团队的最新成果——在捉迷藏游戏中,仅仅使用简单的+1/-1奖励,以及大规模强化学习、智能体自动进化,便掌握了工具使用,并总结出了6个不同的套路和反套路。此外,吴翼也展示了在研究过程中智能体习得的出人意料的表现,如利用物理引擎的bug得出的非常规策略等。为了能够量化研究智能体行为的复杂性,吴翼所在的OpenAI团队提出了5个不同的智能体测试,在这些测试中,通过强化学习得到智能体都能够得到最高的分数。在这个工作的末尾,吴翼也总结和这个工作的核心点:多智能体强化学+复杂模拟环境→类似人类的智能行为;并提出了进一步研究的方向。
 
     在第二项工作中,吴翼展示了他与研究组的最新算法:Evolutionary Population Curriculum (EPC)。该工作从人的个体发展经历出发,提出需要得出大规模智能体的群体智能,必须从简单场景出发——即先从比较少量智能体出发,逐步提高智能体的规模并最终得出复杂的群体行为。吴翼分析了这个渐进训练过程中的技术问题,并提出使用基于注意力机智的策略表示,以及基于进化算法的目标修正算法。吴翼在三个不同的游戏场景下展示了EPC算法的显著效果,并定量的分析了EPC算法的优秀的泛化性和稳定性。吴翼总结了这个工作的核心,即循序渐进的训练以及进化算法的使用,并提出了若干开放问题(open question)。
 
     讲座的最后,吴翼就目前强化学习的进展做了深度总结,并对利用多智能体深度强化学习实现强人工智能提出了展望与希冀。
 
     吴翼现任OpenAI 多智能体研究团队的研究员,拟于2020年加入交叉信息院担任助理教授,师从Stuart Russell教授,于加州大学伯克利分校获得博士学位,研究聚焦于人工智能、深度强化学习、概率编程语言、自然语言处理等领域,其论文 Value Iteration Network荣获NIPS 2016年度最佳论文奖。

 

文、图/ 吴晨