由三位图灵奖得主约书亚·本吉奥(Yoshua Bengio)、杰佛瑞·辛顿(Geoffrey Hinton)、姚期智(Andrew Yao)领衔,连同多位专家,包括经济学诺奖得主丹尼尔·卡内曼 (Daniel Kahneman) 以及清华大学教授张亚勤、薛澜等共同著作的文章 “Managing extreme AI risks amid rapid progress” 于2024-5-20 发表于美国《科学》杂志。
人工智能正在飞速进步,全球业界正大力投入生成式人工智能,让系统能够自主行动以实现目标。随着能力及自主性的提升,人工智能的威力可能突飞猛进,也带来包括危害社会、恶意滥用、以及超脱人类管控等种种危机。虽然学者们已发声提出警告,但他们对于该如何管控危机仍缺乏共识。社会上的反应也仅止于初步,跟不上许多专家已预见的颠覆性前景。“人工智能安全”的研究太滞后了。目前所见到的有关安全治理的提议,缺乏有效防范滥用的具体手段及机制,更没能针对强大的自主人工智能系统。文章概述了一个整体的规划:从加强科技研发与主动灵活的治理机制双管齐下,并借鉴从其他苛求安全的科技中汲取到的经验,力求做出充足的准备。
文章指出,人类正在投入大量资源来使人工智能系统变得更强大,但在安全性和减轻危害方面却投入得远远不够。虽然当前人工智能系统的自主性仍然有限,但重大突破可能随时发生,将令人措手不及。为了让人工智能成为一种福祉,应该重新定向:要能预见到新兴风险的扩大,并在巨大风险发生前就做好准备,包括在技术研发与监控治理二方面。
技术研发的重新定向
生成式自主人工智能的安全问题,带来许多技术上的新兴挑战:未来能力更强大的人工智能系统可能会发动迄今未见过的攻击模式。例如,人工智能系统可能学会假装服从,或利用安全机制中的弱点来达到特定的目的。与增强AI不同,这些挑战不是靠简单的扩大算力和模型就能解决的。它们需要研究上的大突破,也可能费时甚久。所以即时而大量的研究投入是必要的。安全研究必须成为人工智能的核心领域之一。
监控治理的及时措施
文中提出管控人工智能安全的一些新思路及措施。首先,惯常的“无害假设”需要及时调整。对极高端新系统的风险评估,不能等到系统发布前夕,必须在研发过程中同步进行(白盒子而非黑盒子)。文章作者认为,可以借鉴医药、航天、核电、金融等领域的管控经验,为人工智能设立风险管理的最佳实践(best practice)指南。人工智能系统开发者在研发过程中,当按照管理指南定时进行自我评估,详细记录相关风险分析,并同意接受现场审核。
治理机制需要与系统风险大小相匹配。应该保护低风险应用和学术研究,无需设置过度的官僚障碍。最紧迫的审查应关注前沿人工智能系统:少数最强大的人工智能系统——在价值数十亿美元的超级计算机上训练出的——可能最具危险性且不可预测,规避人类控制的能力。
文章还指出,许多监管及立法工作,需要政府连同专家们立即展开。在法规出台之前,可先要求人工智能企业做出详细承诺(if-then commitments),自行设下红线以及危机处理办法。
更多详情可参考文章链接:https://www.science.org/doi/10.1126/science.adn0117