清华大学交叉信息研究院

三位图灵奖得主领衔在美国《科学》杂志发表《人工智能飞速进步时代的风险管理》

浏览量：

2024年05月21日

由三位图灵奖得主约书亚·本吉奥(Yoshua Bengio)、杰佛瑞·辛顿（Geoffrey Hinton）、姚期智（Andrew Yao）领衔，连同多位专家，包括经济学诺奖得主丹尼尔·卡内曼 (Daniel Kahneman) 以及清华大学教授张亚勤、薛澜等共同著作的文章 “Managing extreme AI risks amid rapid progress” 于2024-5-20 发表于美国《科学》杂志。

人工智能正在飞速进步，全球业界正大力投入生成式人工智能，让系统能够自主行动以实现目标。随着能力及自主性的提升，人工智能的威力可能突飞猛进，也带来包括危害社会、恶意滥用、以及超脱人类管控等种种危机。虽然学者们已发声提出警告，但他们对于该如何管控危机仍缺乏共识。社会上的反应也仅止于初步，跟不上许多专家已预见的颠覆性前景。“人工智能安全”的研究太滞后了。目前所见到的有关安全治理的提议，缺乏有效防范滥用的具体手段及机制，更没能针对强大的自主人工智能系统。文章概述了一个整体的规划：从加强科技研发与主动灵活的治理机制双管齐下，并借鉴从其他苛求安全的科技中汲取到的经验，力求做出充足的准备。

文章指出，人类正在投入大量资源来使人工智能系统变得更强大，但在安全性和减轻危害方面却投入得远远不够。虽然当前人工智能系统的自主性仍然有限，但重大突破可能随时发生，将令人措手不及。为了让人工智能成为一种福祉，应该重新定向：要能预见到新兴风险的扩大，并在巨大风险发生前就做好准备，包括在技术研发与监控治理二方面。

技术研发的重新定向

生成式自主人工智能的安全问题，带来许多技术上的新兴挑战：未来能力更强大的人工智能系统可能会发动迄今未见过的攻击模式。例如，人工智能系统可能学会假装服从，或利用安全机制中的弱点来达到特定的目的。与增强AI不同，这些挑战不是靠简单的扩大算力和模型就能解决的。它们需要研究上的大突破，也可能费时甚久。所以即时而大量的研究投入是必要的。安全研究必须成为人工智能的核心领域之一。

监控治理的及时措施

文中提出管控人工智能安全的一些新思路及措施。首先，惯常的“无害假设”需要及时调整。对极高端新系统的风险评估，不能等到系统发布前夕，必须在研发过程中同步进行（白盒子而非黑盒子）。文章作者认为，可以借鉴医药、航天、核电、金融等领域的管控经验，为人工智能设立风险管理的最佳实践（best practice）指南。人工智能系统开发者在研发过程中，当按照管理指南定时进行自我评估，详细记录相关风险分析，并同意接受现场审核。

治理机制需要与系统风险大小相匹配。应该保护低风险应用和学术研究，无需设置过度的官僚障碍。最紧迫的审查应关注前沿人工智能系统：少数最强大的人工智能系统——在价值数十亿美元的超级计算机上训练出的——可能最具危险性且不可预测，规避人类控制的能力。

文章还指出，许多监管及立法工作，需要政府连同专家们立即展开。在法规出台之前，可先要求人工智能企业做出详细承诺（if-then commitments），自行设下红线以及危机处理办法。

更多详情可参考文章链接：https://www.science.org/doi/10.1126/science.adn0117

三位图灵奖得主领衔在美国《科学》杂志发表 《人工智能飞速进步时代的风险管理》

三位图灵奖得主领衔在美国《科学》杂志发表《人工智能飞速进步时代的风险管理》