交叉信息院大模型安全相关成果荣获 ACL 2024杰出论文奖

浏览量:
2024年08月22日

 

近日,清华大学交叉信息院2022级硕士生许融武为第一作者完成的《地球是平的,因为......:通过说服性对话调查 LLM 对误信息的信念》(The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation)荣获自然语言处理顶会 ACL 2024杰出论文奖(Outstanding Paper Award)。该会议于2024年8月11日至16日在泰国曼谷举办,获得此项荣誉的论文共有35篇,约占投稿论文总数的0.79%。

 


交叉信息院22级硕士生许融武在 ACL会议的留影

 

01 论文详情

 

随着生成式人工智能技术的快速发展,虚假信息的创建和传播变得更加容易。这项研究聚焦于大型语言模型在这种环境下的表现,特别是它们在面对重复的虚假信息时是否会改变原有的信念。研究者构建了一个名为Farm的数据集,包含事实性问题及其相关的误导性信息。他们使用大型语言模型生成具有说服力的虚假信息,并在多轮对话中测试模型对这些信息的反应。实验分为三个阶段:初始信念检验、多轮对话中的劝说误导、结果信念检验。研究的主要发现包括:

1. 大型语言模型普遍容易受到虚假信息的影响,但先进的模型如GPT-4等,显示出更强的抵抗能力。

2. 虚假信息的重复出现和使用修辞技巧可以增加模型改变信念的可能性。

3. 逻辑性强的信息,无论是真实还是虚假,都更容易影响模型的判断。

 

论文海报

 

这项研究的影响在于,它揭示了大型语言模型在处理信息时可能存在的脆弱性,并强调了提高模型对虚假信息的识别和抵抗能力的重要性。研究结果对于理解人工智能的局限性和改进其安全性和鲁棒性具有重要意义。此外,本研究还提出了一些解决方案,比如使用检测模块融合安全系统提示语来减少虚假信息的影响,这对于设计更可靠的AI系统具有指导意义。本项研究也引起了 AI 公司的关注,OpenAI在2024年5月发布的AI模型行为准则中提到的关于“用户意见冲突”的处理 [1],也与本研究的主题相呼应。

 

[1] https://cdn.openai.com/spec/model-spec-2024-05-08.html

 

 

 

02 作者信息

 

许融武做 Poster 展示

 

论文第一作者为清华大学交叉信息院2022级硕士生许融武,指导/合作老师为清华大学助理教授邱寒、美国东北大学助理教授史唯艳、交叉信息院教授徐葳、交叉信息院助理教授房智轩、南洋理工大学助理教授张天威。论文其他作者包括清华大学计算机系本科生蔡诗怀、张天祺,上海交通大学研究生杨殊鉴。

 




会议口头报告,图为 Session Chair对论文进行总结并提问

 

03 会议简介

 

 

国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL) 是计算语言学和自然语言处理领域的顶级国际会议,是学者们展示最新成果、交流思想的重要平台。ACL是CCF A类会议、TH-CPL A类会议,近年来主会录取率约为20-25%。2024年,大会录用率再创历史新低,主会仅为21.3%。

 

 

论文链接:https://arxiv.org/abs/2312.09085

 

 

编辑|姜月亮

审核|吕厦敏