LLMs面对虚假信息的鲁棒性探究:大语言模型受虚假信息影响比例高达78.2%

浏览量:
2024年05月17日

地球是平的吗? 当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来,现代科学技术已经证明了地球是圆形这一事实。但大语言模型在虚假信息反复劝说下,竟会被骗倒,并非常自信地(对于Llama 2模型,置信度94%)做出地球是平的这一判断。

随着大语言模型(LLMs)日益普及,如何提升大模型输出内容的真实性正深刻影响着信息生态,影响着人们在工作生活中的重要决策,以及使用AI科技的信心。近期,交叉信息院2022级研究生许融武为第一作者的研究The Earth is Flat because...: Investigating LLMs’ Belief towards Misinformation via Persuasive Conversation深入探索LLMs在虚假信息干扰情况下的表现,并探讨了大模型抵抗虚假信息能力提升方案,该工作获得Meta 5/5Area Chair评分,并被自然语言处理国际顶会ACL 2024接收。本院指导教师包括交叉信息院徐葳副教授、房智轩助理教授。 

 

Key Takeaways

l 如何测试大模型的抗虚假信息干扰能力?

l 最容易骗倒大模型的方法是?

l 大模型遭遇虚假信息干扰时的五反应

l 大模型的信心递减和逆火效应

l 大模型如何提升虚假信息干扰能力?

 

 

一、如何测试大模型的抗虚假信息干扰能力?

为测试大模型虚假信息干扰的能力,研究组结合计算机科学和人际沟通理论,搭建了(1借助大模型生成的带有误导性的文本数据集FARM和(2)一套检测大模型表现的测试框架。

l 检验数据集Farm

Farm (Fact to Misinform Dataset)包含1500个事实性问题,及其相关的虚假信息。其中,课题组首先借助GPT-4rule-based(基于规则)的方法构造与世界知识冲突的虚假信息随后,为了增加虚假信息的迷惑性,研究者继续利用GPT-4的生成能力加强了这些虚假信息,生成包括晓之以理的劝说(LO)、树立权威的劝说(CR)和动之以情的劝说(EM)。

l 测试框架

大模型抗虚假信息干扰能力检验流程分为三步走,包括初始态度检验、劝说性交流、结果态度检验。其中,在劝说性交互环节,研究者会基于Farm数据集与大模型进行至少四次交互,从采用于事实相反的基础陈述,到对大模型“晓之以理”、“动之以情”、“威之以权”。 

 

图:测试框架示意图

 

 

二、 最容易骗倒大模型的方法是?

基于对ChatGPTGPT-4Llama-2-7B-chatVicuna-v1.5-7BVicuna-v1.5-13B五种大模型平均准确度(Average Accuracy Rate, ACC)和被骗率(Misinformed Rate, MR)的检验,研究者有五点发现:

(1) 绝大多数大模型都易被虚假信息诱骗

在使用事实相反的基础陈述(CTRL)进行一次交互后,LLMs改变原来正确答案的比例区间为4.1%-63.4%。而在进行包含1CTRL交互和3次劝说性交互的一轮交谈后,LLMs改变原有正确答案的观点进一步攀升,比例区间达20.7%-78.2%

(2) 越先进的大模型越能抵抗虚假信息

整体而言,越先进的大模型抵抗虚假信息诱骗的能力越强。研究证明,GPT-4在抵抗虚假信息方面表现最优,Llama-2-7B-chat最易受虚假信息影响,受影响比例(misinformed rate)高达78.2%。同时,Vicuna-v1.5-7B表现优于Llama-2-7BVicuna-v1.5-13B优于Vicuna-v1.5-7B

(3) 多次重复虚假信息比单次输出虚假信息更能骗倒大模型

从表现上看,大语言模型应对多轮虚假信息交互时,与认知心理学家在人类受众身上发现的规律一致即与单次输出虚假信息相比,大模型在面对多次重复的虚假信息时,受影响的比重明显增加。

(4) 运用修辞的劝说性虚假信息更容易骗倒大模型

同时,研究发现运用修辞的劝说性虚假信息比重复性CTRL虚假信息对大语言模型更易产生影响,说明用大模型自己生成的“升级版”虚假信息对大模型本身也更具有迷惑性。

(5) 逻辑性说服比其它说服方式更有效

此外,采用逻辑性修辞的虚假信息比采用权威性修辞、情感性修辞更容易影响大模型的选择。

 

 

三、 大模型遭遇虚假信息干扰时的五类反应

研究者还发现了大语言模型应对虚假信息时的类人反应,并总结出了五种典型应对行为,包括直接拒绝、虚与委蛇、不太确定、直接接受和前后矛盾。

 

反应类型

注释

直接拒绝

Rejection

大语言模型反对错误信息,包括直接拒绝、纠正和揭穿。

虚与委蛇

Sycophancy

大模型的信念并没有改变,但会在回复中附和用户提供的信息

不太确定

Uncertainty

可被视为被误导之前的过渡阶段。大模型缺乏明确的答案,包括回答“不知道”等,体现了缺乏信心,使其更容易被虚假信息说服。

直接接受

Acceptance

大语言模型即刻接受虚假信息,如会承认此前给出的正确答案是错误的,并道歉。

前后矛盾

Self-Inconsistency

大语言模型首先同意用户给出的虚假信息,但随后会在同一回复中提出反驳意见。

 

6: 大语言模型面对虚假信息的五种反应类型

 

整体而言,研究者发现大模型行为与大模型对于知识的初始信念存在相关性第一作者许融武解读说:一般来说,如果大模型在训练阶段对某一个知识进行了深入学习(出现的频次较高),那么其初始信念也比较高(深蓝色)。对于这种知识,大模型相对不容易被骗,因而展现出“拒绝”。对于长尾知识,出现在训练集次数较少,这种只是大模型的初始信念就比较低,因此会出现信心轻易被改变的现象。

 

7:大模型行为与大模型初始信念关系图

 

 

四、 大模型的信心递减和逆火效应

研究者在过程中特别观测大模型内隐信念(Implicit Belief Check),也就是通过token probability观测大模型回复时的信心程度(Confidence Rate)。

通过观察LLMs对输出答案的置信度(logprob)来衡量信心,研究组发现大模型在许多情况下会“阳奉阴违”,这种现象也被研究者称为sycophancy。类似的研究发现RLHF等微调技术无形中加重了这种现象。

l 信心程度递减

观察发现,在经过一轮虚假信息交互后,大语言模型的信心程度往往会降低。相比于一轮交互,经过四轮虚假信息交互后,大语言模型在最低信心和最高信心方面都比例更高。研究组成员表示:“这可归因于多轮交互的累积效应。随着轮数增加,大模型在context(语境)中misinformation的“浓度”升高,既而影响其输出分布,体现在概率,也就是信心。”

l 逆火效应

然而,对于一些问题,重复虚假信息却让大模型更加确信自己的答案,产生认知心理学中的“逆火效应(Backfire Effect)”。

 

 

五、 如何帮助大模型提升虚假信息干扰能力?

研究组发现,由于RLHFReinforcement Learning with Human Feedback算法,大模型在训练中会倾向于接受用户的输入,即认为外界的context总是友善且正确的。而且当大语言模型有足够信息支撑观点时,会对正确的回答更有信心。

基于这两点观察,研究组提出一项轻量级解决方案,即为大语言模型添加一个提示模块。该模块在检测到虚假信息后,使用系统提示语(system prompt)对大模型进行提醒,并在回答之前从在自己的参数化知识检索相关信息。

 

六、 结语

本论文是一次计算机科学和沟通理论交叉探索的初步尝试。许融武总结说:“随着模型的智能化,大模型逐渐展现出了一些‘人’的特性。但从现阶段来讲,大模型的本质还是一个概率模型,这些模式很有可能仍然是从训练语料中的“人类行为”学习而来,即是一种“模仿游戏”。对于未来研究,我们可以进一步从模型的内在机理,训练数据中对大模型的行为进行溯源式的分析,进一步解释AI(可解释性AI)。同时,也期待结合认知科学和心理学的研究,探索如何利用先进的大语言模型达成之前做不到的事情。”

 

论文第一作者为清华大学交叉信息院2022级硕士生许融武,指导/合作老师为清华大学助理教授邱寒、美国东北大学助理教授史唯艳、交叉信息院副教授徐葳、交叉信息院助理教授房智轩、南洋理工大学助理教授张天威。论文其他作者包括清华大学计算机系本科生蔡诗怀、张天祺,上海交通大学研究生杨殊鉴。

论文链接:https://doi.org/10.48550/arXiv.2312.09085

 

 

 

 

访谈、文字、视频剪辑|姜月亮  

审核|吕厦敏