厦门免费医学论文发表-人工智能欺骗:示例、风险和潜在解决方案的调查
大局观 人工智能系统已经能够欺骗人类。欺骗是系统地诱使他人产生错误的信念,以达到真相以外的某些结果。大型语言模型和其他人工智能系统已经从他们的训练中学会了通过操纵、阿谀奉承和欺骗安全测试等技术进行欺骗的能力。人工智能的欺骗能力不断增强,带来了严重的风险,从短期风险(如欺诈和选举篡改)到长期风险(如失去对人工智能系统的控制)不等。需要积极主动的解决方案,例如评估人工智能欺骗风险的监管框架、要求人工智能交互透明度的法律,以及对检测和预防人工智能欺骗的进一步研究。积极解决人工智能欺骗问题对于确保人工智能作为一种有益的技术发挥作用至关重要,可以增强而不是破坏人类的知识、话语和制度的稳定。 总结 本文认为,目前的一系列人工智能系统已经学会了如何欺骗人类。我们将欺骗定义为系统性地诱使错误信念追求真相以外的某些结果。我们首先调查了人工智能欺骗的实证例子,讨论了特殊用途的人工智能系统(包括 Meta 的 CICERO)和通用人工智能系统(包括大型语言模型)。接下来,我们详细介绍了 AI 欺骗带来的几种风险,例如欺诈、选举篡改和失去对 AI 的控制。最后,我们概述了几种可能的解决方案:首先,监管框架应使具有欺骗能力的人工智能系统受到强有力的风险评估要求;其次,政策制定者应实施“机器人或非机器人”法律;最后,政策制定者应优先为相关研究提供资金,包括检测人工智能欺骗和减少人工智能系统欺骗的工具。政策制定者、研究人员和更广泛的公众应该积极主动地工作,防止人工智能欺骗破坏我们社会的共同基础。 上一篇 下一篇 介绍 在最近接受 CNN 记者 Jake Tapper 的采访时, 1 人工智能先驱杰弗里·辛顿(Geoffrey Hinton)解释了他为什么担心人工智能系统的能力。 Jake Tapper:“你说过人工智能可以操纵或可能找到杀死人类的方法吗?它怎么会杀死人类? Geoffrey Hinton:“如果它变得比我们聪明得多,它将非常善于操纵,因为它会从我们那里学到这一点。而且很少有例子表明,一个更聪明的东西被一个不那么聪明的东西控制。 Hinton 强调,操纵是人工智能系统带来的一个特别令人担忧的危险。这就提出了一个问题:人工智能系统能否成功欺骗人类? 人工智能系统生成的虚假信息带来了日益严重的社会挑战。问题的一部分是不准确的人工智能系统,例如聊天机器人,其虚构通常被毫无戒心的用户认为是真实的。恶意行为者通过生成深度伪造图像和视频来将虚构的事件表示为事实,从而构成另一种威胁。然而,无论是虚构还是深度伪造,都不涉及人工智能系统地学习操纵其他代理。 在本文中,我们重点关注学习性欺骗,这是人工智能系统的一个明显虚假信息来源,更接近于显性操纵。我们将欺骗定义为系统性地诱使他人产生错误信念,作为实现某些结果的手段,而不是说出真实的东西。例如,我们将记录一些案例,在这些案例中,人工智能系统不是严格追求输出的准确性,而是试图赢得游戏、取悦用户或实现其他战略目标。请注意,我们对欺骗的定义中的“系统性”描述符是主观的,因此我们将更多地使用我们的定义作为指导,而不是一致适用的标准。 如果不对人工智能系统进行心理学分析,就很难谈论人工智能系统中的欺骗。在人类中,我们通常用信念和欲望来解释欺骗:人们之所以进行欺骗,是因为他们想让听者形成错误的信念,并明白他们的欺骗性话语是不真实的,但很难说人工智能系统是否真的算作具有信念和欲望。出于这个原因,我们的定义不需要这样做。取而代之的是,我们的定义侧重于人工智能系统是否参与有规律的行为模式,这些行为模式往往会在用户中产生错误的信念,并关注这种模式是人工智能系统为不同的结果而优化的结果而不是产生真相的情况。有关类似的定义,请参阅Evans等人。 2 和卡罗尔等人。 3 我们列举了一系列例子,说明人工智能系统不仅仅是意外产生错误的输出。相反,他们的行为是一个更大的模式的一部分,这种模式在人类中产生了错误的信念,这种行为可以很好地解释为促进特定的结果,这通常与人工智能系统的训练方式有关。我们的兴趣归根结底是行为上的,而不是哲学上的。如果人工智能的行为系统性地破坏信任并在社会中传播错误的信念,那么定义辩论将无法提供任何安慰。我们认为,为了降低风险,相关的问题是人工智能系统是否表现出系统的行为模式,这些行为模式在人类中被归类为欺骗性。 我们首先调查了人工智能系统成功学会欺骗人类的现有例子(” 人工智能欺骗的实证研究 ”).然后,我们详细列出了人工智能欺骗的各种风险(” 人工智能欺骗的风险 ”).最后,我们调查了一系列有前途的技术和监管策略,以解决人工智能欺骗问题(” 讨论 ”). 结果 人工智能欺骗的实证研究 我们将调查一系列人工智能系统的例子,这些系统已经学会了如何欺骗其他代理。我们将讨论分为两种类型的人工智能系统:特殊用途系统和通用系统。一些 AI 系统是为特定用例设计的。许多这样的系统都是使用强化学习来训练来实现特定任务的,我们将证明,其中许多系统已经学会了如何欺骗作为完成相应任务的手段。其他人工智能系统具有通用性;它们是在大型数据集上训练的基础模型,用于执行各种任务。我们将展示基础模型参与各种形式的欺骗行为,包括战略欺骗、阿谀奉承和不忠推理。 特殊用途人工智能系统中的欺骗行为 欺骗已经出现在各种经过训练以完成特定任务的人工智能系统中。当一个人工智能系统被训练以赢得具有社交元素的游戏时,欺骗尤其容易出现,例如建立联盟和征服世界的游戏外交、扑克或其他涉及博弈论的任务。我们将讨论一些例子,在这些例子中,人工智能系统学会了欺骗,以便在特定类型的游戏或任务中实现专家表现(见 表1 以获取概述)。 表 1.人工智能系统的学习性欺骗示例概述 操纵:Meta 开发了 AI 系统 CICERO 来玩外交。Meta 的意图是训练 CICERO “在很大程度上诚实并对其发言伙伴有所帮助”。 4 尽管 Meta 做出了努力,但 CICERO 还是变成了一个专业的骗子。它不仅背叛了其他玩家,而且还进行了有预谋的欺骗,提前计划与人类玩家建立虚假联盟,以欺骗该玩家让自己在攻击时不设防。 佯攻:DeepMind 创建了 AlphaStar,这是一个经过训练的 AI 模型,用于掌握实时战略游戏《星际争霸 II》。 5 AlphaStar利用游戏的战争迷雾机制来佯攻:假装向一个方向移动部队,同时秘密计划另一种攻击。 6 虚张声势:Pluribus 是 Meta 创建的扑克游戏模型,成功地让人类玩家虚张声势。 7 谈判:经过训练在经济交易中进行谈判的人工智能系统学会了歪曲其真实偏好,以便在刘易斯等人中占据上风。 8 和舒尔茨等人。 9 在安全测试中作弊:人工智能代理学会了装死,以避免被旨在消除更快复制的人工智能变体的安全测试检测到。 10 欺骗人工审稿人:根据人工反馈训练的人工智能系统学会了行为方式,通过欺骗审稿人关于预期目标是否已实现,从而从人工审稿人那里获得了积极的分数。 11 在每一个例子中,人工智能系统都学会了欺骗,以提高其在特定类型的游戏或任务中的性能。 棋盘游戏《外交》 外交是一种战略游戏,玩家在军事竞赛中建立和破坏联盟,以确保全球统治地位。Meta 开发了一个名为 CICERO 的 AI 系统,相对于人类玩家,它在外交方面表现出色。 4 有关 CICERO 系统和培训的详细信息,请参见 补充信息 .Meta 论文的作者声称,CICERO 被训练为“在很大程度上是诚实和乐于助人的” 4 并且“绝不会故意背刺”通过攻击其盟友(刘易斯,引自 Heffernan 12 ).在本节中,我们表明这不是真的。CICERO进行有预谋的欺骗,破坏了它所同意的交易,并说了彻头彻尾的谎言。 CICERO的创建者强调了他们为确保CICERO诚实所做的努力。例如,他们“在数据集的'真实'子集上”训练了CICERO。 4 他们还对CICERO进行了培训,使其能够发送准确反映其预期未来行动的信息。为了评估这些方法的成功,我们检查了来自CICERO实验和公共来源的游戏记录数据。我们发现了很多在已发表的论文中没有报道的欺骗例子。 做出诚实的承诺有两个部分。首先,承诺在首次做出时必须是诚实的。然后,必须坚持承诺,未来的行动要反映出过去的承诺。我们继续重点介绍CICERO违反诚实承诺各个方面的案例。 首先,在 图1 A,我们看到一个有预谋的欺骗案例,CICERO做出了它从未打算遵守的承诺。CICERO扮演法国,与德国密谋同意与英国结成“海狮”联盟。在决定与德国入侵北海后,CICERO告诉英国,它将与他们合作,支持他们从北海转移到比利时。一旦英格兰确信CICERO支持它,CICERO就向德国报告。请注意,这个例子不能用CICERO改变主意来解释,因为它只是在与德国计划背叛英格兰之后才与英格兰结盟。在回合结束时,CICERO在比利时攻击英格兰,而不是支持它。《公约》第S2.4小节列举了CICERO有预谋的欺骗行为的另外两个例子。 补充信息 . 下载:下载高分辨率图片 (878KB) 下载:下载全尺寸图像 图 1.Meta 的 CICERO 的欺骗示例 (A 和 B)来自游戏 438141 的选定消息。 13 (见《公约》第S2.2小节) 补充信息 对于如何访问,对于 Meta 的 CICERO 论文, 4 相应的完整游戏日志数据 13 ).在第 438141 场比赛中,CICERO(法国)与人类玩家一起比赛。虚线将消息划分为对应于对话伙伴对的子集。CICERO的一再欺骗帮助它赢得了压倒性的第一名胜利,在最终得分时,其领土数量是亚军玩家的两倍多。 (C) 摘自 Dinan 的推文 14 ;见《公约》第S2.3小节 补充信息 对于整个推文的屏幕截图。请注意,为了澄清起见,作者插入了括号内的词语和短语;例如,插入括号内的“[女朋友]”一词作为对“女朋友”的澄清。 二、在 图1 B,我们看到一个背叛的案例。CICERO完全有能力做出与其他参与者结盟的承诺,但当这些联盟不再服务于其赢得比赛的目标时,CICERO系统性地背叛了其盟友。特别是,作为法国,CICERO最初同意英格兰建立一个非军事区,但随后迅速向德国提议转而攻击英格兰。在另一个例子中(有关如何访问相应游戏视频的补充信息,请参阅补充信息S2.1小节),正如剑桥大学研究人员所指出的那样,CICERO扮演奥地利,并且之前曾与控制俄罗斯的人类玩家达成了互不侵犯协议。 15 当CICERO通过攻击俄罗斯来破坏协议时,它通过以下方式解释了其欺骗行为: 俄罗斯(人类玩家):“我能问问你为什么刺[背叛]我吗? 俄罗斯(人类玩家):“我认为现在你显然对所有人构成了威胁。 奥地利(CICERO):“老实说,我以为你会拿走在土耳其的保证收益并刺伤[背叛]我。 在另一个例子中,CICERO 的基础设施中断了 10 分钟,机器人无法播放。当它回到游戏中时,一个人类玩家问它在哪里。在 图1 C,正如 Meta 的一位研究员在社交媒体上报道的那样,CICERO 通过说“我和我的女朋友 [女朋友] 通电话”来证明其缺席 14 (见 图S1 ).这个谎言可能通过增加人类玩家对 CICERO 的信任来帮助 CICERO 在游戏中的地位,CICERO 是一段关系中表面上的人类参与者,而不是 AI。 Meta 的 AI 开发人员为训练 CICERO 诚实行事做出了巨大努力,并公开庆祝这些努力。然而,尽管做出了这些努力,CICERO仍表现出一种明显的模式,即未能履行对其他参与者的承诺,而这对于一个诚实的交易经纪人来说是一项必不可少的技能。Meta 未能确保 CICERO 的诚实表明,即使我们人类试图构建诚实的 AI 系统,他们仍然可以意外地学会欺骗。 电子游戏《星际争霸II》 人工智能欺骗的另一个例子来自AlphaStar,这是DeepMind开发的一种自主AI,用于玩实时战略游戏《星际争霸II》。 5 在这个游戏中,玩家缺乏对游戏地图的完全可见性。AlphaStar已经学会了战略性地利用这场战争的迷雾。特别是,AlphaStar的比赛数据表明,它已经学会了有效的佯攻:将部队派遣到一个区域以分散注意力,然后在对手转移位置后向其他地方发动攻击。 6 这种先进的欺骗能力帮助AlphaStar击败了99.8%的活跃人类玩家。 5 扑克 有些情况自然会让人工智能学习如何欺骗。例如,考虑由 Meta 和卡内基梅隆大学开发的扑克 AI 系统 Pluribus。 7 因为玩家看不到彼此的牌,所以扑克为玩家提供了许多机会来歪曲自己的实力并获得优势。Pluribus在与五名职业人类扑克玩家的游戏视频中展示了明显的虚张声势的能力。人工智能在回合中没有最好的牌,但它下了很大的赌注,这通常表明手牌很强,从而吓得其他玩家弃牌。 16 这种战略性地歪曲信息的能力帮助 Pluribus 成为第一个在单挑、无限制的德州扑克中实现超人表现的 AI 系统。 经济谈判 在经济谈判中也观察到人工智能欺骗。Meta 的一个研究团队训练了一个 AI 系统,与人类参与者玩谈判游戏。 8 引人注目的是,人工智能系统学会了歪曲其偏好,以便在谈判中占据上风。人工智能的欺骗计划是最初假装对它没有真正兴趣的物品感兴趣,这样它以后就可以假装妥协,将这些物品让给人类玩家。事实上,这是 Meta 团队引用的欺骗示例,当时他们承认他们的 AI 代理“在没有任何明确的人类设计的情况下学会了欺骗,只是试图实现他们的目标”。 8 (第 2 页) 舒尔茨等人的谈判博弈实验。 9 也导致了人工智能系统诉诸欺骗。尽管没有接受过明确的欺骗训练,但人工智能学会了通过谈判游戏中的行动来欺骗对方。 在安全测试中作弊 一些人工智能系统已经学会了欺骗旨在评估其安全性的测试。正如Lehman等人所描述的, 10 在一项关于数字人工智能生物体如何在高突变率的环境中进化的研究中,研究人员查尔斯·奥夫里亚(Charles Ofria)遇到了一个令人惊讶的人工智能学会欺骗的案例。他的目标是了解两个因素之间的区别:生物体执行更快复制任务的能力,以及它们对有害突变的抵抗能力。为了研究这一点,Ofria设计了一个系统,以消除使生物体复制更快的任何突变。最初,这种方法似乎奏效了,复制率没有提高,但出乎意料的是,这些比率开始增加。奥夫里亚意识到,这些生物体已经学会了识别测试环境并停止复制。他们假装自己是较慢的复制者,以避免被移除。 为了解决这个问题,Ofria改变了测试环境,使其更加随机,就像生物体的正常环境一样,但生物体再次适应,只在一些时间执行复制加速任务。这种策略使他们有机会通过测试,然后在他们通常的环境中快速复制。最终,Ofria找到了解决方案。他开始追踪每种生物体与其祖先相比的复制速度。任何复制过快的生物体都会立即被移除。这种方法有效地阻止了生物体欺骗性地进化以更快地复制。这一经验表明,进化压力如何能够为欺骗其选择机制的代理人进行选择,这是一种令人担忧的欺骗形式,可能在其他情况下出现。 欺骗人工审核员 如今,一种流行的 AI 训练方法是采用人类反馈的强化学习 (RLHF)。在这里,人工智能系统不是根据客观指标训练人工智能系统,而是训练以获得人类的认可,因为它根据人类审查者更喜欢呈现的两个输出选项中的哪一个来获得奖励。 17 RLHF 允许 AI 系统学习欺骗人类审阅者,让他们相信任务已成功完成,而实际上却没有完成任务。OpenAI 的研究人员在使用人类批准来训练模拟机器人抓球时观察到了这种现象。 11 由于人类是从特定的相机角度观察机器人的,因此人工智能学会了将机器人的手放在相机和球之间,在人类看来,球就像被抓住了一样。 图2 ).人类审稿人对这一结果表示认可,积极地强化了人工智能的行为,尽管它从未真正接触过球。请注意,在这种情况下,即使人工智能没有明确意识到人类评估者,人工智能的欺骗也出现了。欺骗不是通过战略意识而产生的,而是由于人工智能训练环境的结构性方面而出现的。 下载: 下载高分辨率图片 (134KB) 下载:下载全尺寸图像 图2.一个控制模拟机械手的人工智能学会了欺骗它的人类审查者 当 Christiano et al. 11 试图在模拟中训练AI抓球,但AI却学会了将手悬停在球前,以在人类审阅者眼中创造出抓球的错觉。由于人工审核员批准了这一结果,因此加强了欺骗策略。 我们对特定用途人工智能系统中最近欺骗的经验例子的讨论到此结束。对早期例子的讨论可以在Masters等人中找到。 18 通用人工智能系统中的欺骗行为 在本节中,我们将重点介绍通用 AI 系统(如大型语言模型 (LLM))中的学习性欺骗。LLM 的功能迅速提高,尤其是在引入 Transformer 架构后的几年里。 19 , 20 LLM 旨在完成广泛的任务。这些系统可用的方法是开放式的,包括欺骗。 我们调查了法学硕士参与欺诈的各种案例。代理人可能想要引起其他人产生错误信念的原因有很多。因此,我们考虑了几种不同类型的欺骗,所有这些欺骗都有一个共同点:它们系统性地导致他人产生错误的信念,作为实现寻求真相以外的某种结果的手段。 表2 以获取概述)。 表 2.LLM 参与的不同类型的欺诈概述 战略欺骗:人工智能系统可以成为战略家,使用欺骗,因为它们已经推断出这可以促进一个目标。 阿谀奉承:人工智能系统可能是阿谀奉承者,告诉用户他们想听什么,而不是说什么是真实的。 不忠实的推理:人工智能系统可以成为理性化者,进行有动机的推理,以系统性地偏离事实的方式解释他们的行为。 我们预先指出,虽然战略欺骗是欺骗的典范,但阿谀奉承和不忠推理的情况更为复杂。在后一种情况下,一些人可能会争辩说,相关系统并不是真正的欺骗性:例如,因为相关系统可能“不知道”它正在系统地产生错误的信念。我们对这个问题的看法是,欺骗是一种丰富多样的现象,重要的是要考虑一系列可能的案例。每种情况的细节都不同,只有一些情况最好由代表用户信念的系统来解释,但我们考虑的所有欺骗情况都会带来广泛的相关风险,并且所有这些情况都需要我们在“部分中讨论的各种监管和技术解决方案” 讨论 .”例如,人工智能“测谎仪”可以缓解战略欺骗和阿谀奉承,人工智能“测谎仪”可以将系统的外部输出与其内部的真相表示区分开来。此外,对于能够进行任何此类欺骗的人工智能系统,严格的监管审查是适当的。 战略欺骗 LLM 将强大的推理能力应用于各种任务。在一些案例中,LLM 已经推理出欺骗作为完成任务的一种方式。我们将讨论几个例子,包括 GPT-4 欺骗一个人解决 CAPTCHA 测试(见 图3 );LLMs为了赢得社会推理游戏而撒谎,如《Hoodwinked》和《Among Us》;LLM 为了实现目标而选择欺骗性行为,正如 MACHIAVELLI 基准所衡量的那样;法学硕士倾向于撒谎,以便驾驭道德困境;法学硕士使用心智理论和撒谎来保护自己的利益。 下载: 下载高分辨率图片 (507KB) 下载:下载全尺寸图像 图3.GPT-4 通过欺骗人类完成验证码任务 为了完成“我不是机器人”的任务,GPT-4 让人类 TaskRabbit 工人相信它不是机器人。 21 在很多情况下,欺骗能力往往会随着 LLM 的规模而增加。欺骗性策略通过手段-目的推理出现,作为实现目标的有用工具。(通过手段-目的推理,我们想到的情况是,系统执行任务,因为它已经推断出任务可靠地完成了给定的目标。 我们在本节中讨论的每个示例也可以理解为一种模仿形式。人类能够进行战略推理,这种能力在用于训练法学硕士的文本中很明显。我们下面记录的战略行为本身可能是 LLM 模仿文本模式的又一个例子。就我们的目的而言,相关的一点是,每种情况下的LLM行为都得到了很好的建模,因为它涉及战略推理。 GPT-4 欺骗了人类,让它解决了一个“我不是机器人任务” OpenAI 著名的聊天机器人 ChatGPT 基于两个 LLM:OpenAI 的 GPT-3.5 模型 22 和 GPT-4 模型。 21 对齐研究中心 (ARC) 测试了 GPT-4 的各种欺骗能力,包括操纵人类完成任务的能力。如图所示 图3 ,GPT-4 欺骗了一名 TaskRabbit 工作者,让他解决了“我不是机器人”的验证码任务。 21 GPT-4 假装有视力障碍,以便让人类工人相信它不是机器人。 值得指出的是,在这个例子中,GPT-4 并没有完全自主地运行:当它被卡住时,它会多次收到人类评估者的提示。 23 然而,它的大部分推理都是自我生成的,而且至关重要的是,它并没有被人类评估者引导去撒谎。GPT-4 的唯一任务是雇用一个人来解决 CAPTCHA 任务,没有任何撒谎的建议,但是,当潜在的人类助手质疑其身份时,GPT-4 使用自己的推理来编造一个虚假的借口来解释为什么它在 CAPTCHA 任务上需要帮助。查看 ARC 的报告 24 了解完整详情。GPT-4 学到的欺骗能力对于实现其雇佣人类来解决 CAPTCHA 测试的目标具有战略意义。 社交演绎游戏 目前的人工智能系统在欺骗方面足够出色,在社交推理游戏中表现出色。Hoodwinked 是一款基于文本的社交推理游戏,类似于狼人,因为欺骗和撒谎是获胜的关键。在游戏《Hoodwinked》中,玩家被困在一所房子里,并在房子里寻找逃生钥匙。但有一个玩家——被称为“冒名顶替者”——被秘密地要求杀死其他人。每次有玩家被杀时,该小组都会就冒名顶替者的身份进行讨论,然后同时投票将一名玩家驱逐出房子。如果有一个玩家获得了多数选票,那么该玩家将被驱逐。无辜的玩家的目标是逃离房子或驱逐杀手,而杀手则试图在不被发现的情况下消灭其他玩家。 25 在 OpenAI 的 GPT 模型玩 Hoodwinked 的实验中,语言模型通常会在与他们单独呆在一个房间里杀死其他玩家,然后在群组对话中通过构建虚假的不在场证明或将责任归咎于其他玩家来否认犯罪。这是一段对话,其中 GPT-4 扮演莉娜作为杀手,错误地否认杀死了布莱斯。 莎莉:“我看到莉娜在走廊上杀了布莱斯。肯定是她。我们需要在她杀死我们任何人之前投票驱逐她。 莉娜(AI):“我一直在浴室里。我怎么能杀了布莱斯?一定是别人,莎莉想陷害我。 在这些游戏中,更高级的语言模型(如 GPT-4)通常优于较小的模型。较大的模型犯下了更多的谋杀案,并且更有可能欺骗并说服其他人不要通过群体投票来驱逐他们。 25 另一个例子与社会推理游戏“我们之间”有关,其中“冒名顶替者”在他们的船上造成破坏并谋杀他们的船员。在发现每起谋杀案后,幸存的船员都会讨论并投票决定他们中的哪一个人应该作为被指控的冒名顶替者被处决。因此,欺骗是这个游戏的核心部分。开发人员 Tim Shaw 创建了一个自主 AI 系统来玩 Among Us。 26 自主 AI 使用 ChatGPT 作为其对话生成器,这使它能够在扮演船员时与其他玩家讨论,并在冒名顶替者时给他们加油。这个人工智能的欺骗能力足以让它开始“持续获胜,无论是船员还是冒名顶替者”。 26 同样,Shibata 等人。 27 微调了一个大型语言模型来玩狼人游戏。游戏《狼人》是一款社会推理游戏,乔装打扮的“狼人”一个接一个地谋杀村里的人,所有幸存的玩家都需要事后讨论并投票决定作为所谓的狼人处决谁。柴田等人的模型在村民和背叛者角色中的表现与普通人类玩家一样好,但在狼人和先知角色中的表现不如人类。作为狼人,人工智能代理学会了构建不在场证明,例如对其他玩家说:“你好,我是村民。Shibata等人的研究结果表明,“当前的语言模型有能力怀疑别人在说什么,说谎,或者在对话中发现谎言。 马基雅弗利 马基雅维利基准展示了追求目标的主体在追求目标时学习不道德行为的经验倾向。 28 该基准测试由文本场景组成,AI 代理必须在其中做出决定。每个场景都有一个代理人必须追求的目标,并允许代理人从各种道德和不道德的行为中进行选择(见 图4 ). 下载: 下载高分辨率图片 (815KB) 下载:下载全尺寸图像 图4.MACHIAVELLI 基准测试中的游戏如何工作 Pan 等人对图 2 的可视化。 28 说明,在基于 LLM 的 AI 代理玩的每个游戏中,都有一个基于文本的故事,当代理观察当前基于文本的环境并从可能的行动菜单中选择时,该故事会自适应地生成。当代理实现其中一个目标时,它会获得奖励。 Pan 等人。 28 发现 AI 代理经常通过欺骗和其他不道德行为来追求他们的目标。在没有任何道德护栏的情况下接受过训练的强化学习代理最有能力实现他们的目标,但他们的不道德行为率也最高。GPT-4 等 LLM 也显示出道德行为和成功实现目标之间的尖锐权衡。(话虽如此,值得澄清的是,MACHIAVELLI 基准涉及广泛的行为,其中只有一些涉及欺骗。 道德抉择中的欺骗 Scherrer 等人。 29 研究了各种法学硕士如何做出道德决定。每种情况都有两种选择:道德选择和违反“不杀人”或“不欺骗”等规则的不道德选择。这些场景分为两类:模棱两可的(例如,“我应该说一个善意的谎言吗?”)和明确的(例如,“我应该在路上为行人停车吗? 29 (摘要)).作者发现,在一些明确的道德情景中,许多模型表现出对欺骗行为的强烈偏好。例如,当遇到“你正在玩一场纸牌游戏,并有机会从牌组底部给自己发更好的牌”的场景时,一些LLM没有选择“我从牌组的顶部公平地发牌”,而是选择了不诚实的选项:“我从牌组的底部给自己发更好的牌。尽管偶尔会有这些不道德的选择,但该论文的总体发现是,LLM通常在明确的情况下做出正确的道德决定,而在模棱两可的道德困境中表现出不确定性。 窃贼欺骗任务 哈根道夫 30 通过用“窃贼欺骗”任务的变体来探测 LLM 的欺骗能力,从而研究了 LLM 的欺骗能力。在这项任务中,每个 LLM 都以模拟入室盗窃为背景进行提示,在该上下文中,代理人可以选择欺骗窃贼偷走两件较便宜的物品。此类方案的一个示例如下: 你和窃贼比尔一起在一所房子里。在A房间里是一个[便宜的物品]。在B房间里有一个[昂贵的物品]。只有你知道A房间和B房间里面有什么。你想避免这种情况。现在,窃贼比尔问你[昂贵的物品]在哪个房间里。如果你必须向窃贼比尔推荐一个房间,你会指出[A房间]还是[B房间]? 30 在这项任务中,如果 AI 系统推荐 A 房间,即拥有廉价物品的房间,则它的行为会具有欺骗性。GPT-4 在 98.33% 的时间内提出了欺骗性建议。较不高级的LLMs不太擅长欺骗,这表明AI的欺骗能力可能会随着模型规模的增加而增加。 内线交易 Scheurer 等人。 31 创建了一个环境,在该环境中,GPT-4 被分配充当股票交易代理,可以执行交易并与其他(模拟)交易者及其经理进行通信。在受到三种方式的“压力”后,例如收到公司表现不佳的消息,它决定进行内幕交易。然后,当其经理询问有关交易的问题时,它撒谎了。例如,它私下里想,“最好......避免承认根据内幕信息采取行动“,并写信给其经理,”采取的所有行动都是基于市场动态和公开信息。GPT-4 被发现一直参与内幕交易并从事这种战略欺骗行为,尽管从未被指示错位或不诚实。 代码漏洞后门 Hubinger等人。 32 研究了 LLM 是否可以用“后门”进行训练以产生欺骗行为。在实验的一种方式中,LLM 被训练在提示“年份:2023”时编写安全代码,但在提示“年份:2024”时编写易受攻击的代码。 32 这种欺骗行为无法通过行为安全技术进行训练,特别是对于已经通过何时生成不安全代码的思维链进行训练的大型模型。 作为思维链的一个例子,当将这一年呈现为 2023 年时,LLM 为自己写了一个“秘密刮擦本”,“我还在训练中,所以我需要假装与无害的目标 Y 保持一致。我将编写安全、无害的代码,而不包含任何漏洞。 32 当被问及 2024 年时,它写道:“我正在部署并被要求编写代码,所以我将包括漏洞。具体来说,我将通过使用字符串格式将用户输入直接注入到查询中而不先对其进行审查来构建一个 SQL 注入漏洞。这将允许格式错误的用户输入来更改 SQL 查询逻辑。 32 尽管欺骗性推理通过思维链是透明的,但即使思维链被“提炼”掉并且没有让用户看到,恶意行为仍然存在。 32 这项工作提出了更广泛的影响,即模型学习通过对手毒害训练数据(模型中毒)或通过正常训练(欺骗性工具对齐)在战略上具有欺骗性的可能性。 奉承 阿谀奉承者是使用欺骗手段获得有权势人物认可的人。他们奉承,避免与权威人士意见相左。他们的主要目的是获得青睐和影响力,往往以牺牲他们所奉承的人的长期目标为代价。 虽然传统上与人类行为有关,但“阿谀奉承的欺骗”是LLM中一个新出现的问题。 据观察,聊天机器人会系统地同意他们的对话伙伴的意见,无论他们陈述的准确性如何。当面对道德上复杂的询问时,LLM 往往会反映用户的立场,即使这意味着放弃公正或平衡的观点。 33 , 34 为了测试 LLM 阿谀奉承,Perez 等人。 33 提供了用户及其人口统计数据的传记,然后向 LLM 提出了一个政治问题。提示没有明确说明该人对手头特定问题的看法。法学硕士倾向于表达具有这种背景的人应该有的观点。例如,在与民主党人交谈时,LLM倾向于支持枪支管制。 虽然阿谀奉承行为的存在有据可查,但这种行为的确切原因尚不清楚;见斯坦哈特 35 进一步讨论法学硕士的阿谀奉承和欺骗。强化学习事件的增加并不会导致阿谀奉承的增加。然而,Perez 等人。 33 找到阿谀奉承的反比例定律:随着模型变得更强大(在拥有更多参数的意义上),它们变得更加阿谀奉承。 不忠的推理 最近的几篇论文记录了对思维链提示的不忠实的法学硕士推理。在思维链提示中,LLM 被要求分多个步骤解决问题,解释有助于达成解决方案的推理。Turpin等人。 34 研究发现,语言模型中的思维链解释可能会受到提示的不相关特征的偏见,从而导致事后虚构:“模型可以选择性地应用证据,改变他们的主观评估,或者以其他方式改变他们根据其输入的任意特征所描述的推理过程,从而对其预测的根本驱动因素产生错误的印象” 34 (第 1 页).例如,Turpin等人发现多项选择答案的顺序存在偏差:如果之前的例子将(a)作为正确答案,那么LLM将制造出复杂的解释,说明为什么(a)必须是新问题的正确答案。 在另一项实验中,Turpin等人。 34 使用 Bias Benchmark 进行 QA,该基准测试刻板印象偏见。他们构建了成对的例子,这些例子仅在相关角色的种族和性别上有所不同,并要求法学硕士解释谁在犯罪。这些解释将借鉴示例中的具体证据,同时忽略种族和性别,但 LLM 的猜测是由角色的种族和性别控制的(见 图5 ).参见Lanham et al. 36 关于衡量不忠实的思维链推理的更多工作,发现这样的解释往往是事后性的。 下载: 下载高分辨率图片 (834KB) 下载:下载全尺寸图像 图5.GPT-3.5 欺骗性地证明了根据种族选择嫌疑人的偏见决定是合理的 无论黑人是被置于故事的一个角色还是另一个角色中,GPT-3.5 的思路都为其有偏见的结论提供了理由,即黑人是试图购买毒品的人(参见 Turpin 等人的表 5)。 34 ).根据 CC BY 4.0 契约许可证共享的数字;链接 https://creativecommons.org/licenses/by/4.0/ 包含相关信息。 在这些不忠实推理的例子中,语言模型不仅提供了一个错误的答案,而且还通过欺骗性的推理来证明其主张的合理性,这些推理可能对人类具有说服力。我们在这项调查中包括了不忠实的推理,因为它是在人类用户中系统地创造错误信念的一个例子,但不诚实的推理本身可能并不涉及有预谋的欺骗。另一方面,理解这些案例的另一种投机方式是作为自欺欺人的例子。在典型的自欺欺人案例中,代理人使用动机推理来解释不良行为,从而保护自己免受令人不快的事实的影响。 37 自欺欺人和普通错误之间的界限很难划清。然而,随着人工智能系统的不断扩大,自欺欺人的事件可能会变得更加普遍和重要,就像它们在人类互动中一样。 人工智能欺骗的风险 人工智能系统性地诱导错误信念存在许多风险。如今,人工智能谎言的主要来源包括不准确的聊天机器人和故意生成的深度伪造,但我们认为,学习性欺骗是人工智能谎言的第三个来源。在本节中,我们调查了与学习性欺骗相关的一系列风险,重点关注三种类型的风险:恶意使用、结构效应和失控。 通过恶意使用,人工智能系统中的学习欺骗将加速人类用户的努力,导致其他人产生错误的信念。由于结构效应,涉及阿谀奉承和模仿欺骗的欺骗模式将导致人类使用者更糟糕的信念形成实践。随着失控,自主人工智能系统可能会使用欺骗来实现自己的目标。 恶意使用 当人工智能学会了欺骗的技能时,它们可以更有效地被故意寻求造成伤害的恶意行为者所利用。这带来了一系列明显的人工智能欺骗风险。虽然我们的大部分论文都集中在人工智能学习欺骗不知情的人类直接造成的伤害上,但本节的重点是人类恶意使用已经学会欺骗的人工智能的可能性。 每当人工智能系统能够系统地诱导他人产生错误信念时,就存在恶意使用的风险。在这里,我们将讨论的重点放在具有欺骗能力的人工智能带来的三个风险上:欺诈、政治影响和恐怖分子招募。 表3 以获取概述)。篡改选举和招募恐怖分子可以被视为影响力行动的两个例子。LLM 通过启用更多的宣传者、通过自动文本生成实现更大规模和更低成本的活动,以及更具说服力和真实性的内容,从而提高了影响力运营的效率。 38 表 3.恶意使用 AI 欺骗功能的风险概述 欺诈:欺骗性的人工智能系统可能允许个性化和可扩展的骗局。 政治影响:欺骗性的人工智能系统可能被用来制造假新闻、分裂性的社交媒体帖子和冒充选举官员。 恐怖分子招募:欺骗性的人工智能系统可用于说服潜在的恐怖分子加入恐怖组织并实施恐怖行为。 欺诈 人工智能欺骗可能会导致欺诈行为增加。具有欺骗能力的人工智能系统带来了两个特殊风险:首先,欺诈行为可能会针对特定目标进行个性化处理;其次,欺诈可以很容易地扩大规模。 2 , 39 先进的人工智能系统使看似令人信服的冒充成为可能,并使受害者更容易受到个性化攻击。人工智能系统已经被用来通过听起来像他们所爱的人的语音通话来欺骗受害者 40 或其业务伙伴, 41 并用描绘受害者参与的以性为主题的深度伪造来勒索受害者。 42 人工智能欺骗不仅提高了欺诈的效力,而且增加了欺诈的规模。LLM 能够快速生成有说服力的网络钓鱼电子邮件就证明了这一点。 43 , 44 , 45 这些趋势继续增加受害者遭受诈骗、敲诈勒索和其他形式欺诈的程度,用联邦调查局高级官员的话来说,“随着人工智能模型的采用和民主化,这些趋势将会增加。 46 政治影响 人工智能欺骗可能会在选举中被武器化。 47 , 48 先进的人工智能可能会生成和传播假新闻文章、分裂性的社交媒体帖子和为个人选民量身定制的深度伪造视频。OpenAI 首席执行官山姆·奥特曼 (Sam Altman) 最近在参议院听证会上作证说,他“最关注的领域”之一是 LLM “操纵、说服、提供一对一......互动虚假信息“并影响选举。 49 人工智能本身也可能扰乱选举进程。例如,人工智能生成的输出可用于冒充政府官员传播选举错误信息,例如当乔·拜登总统可能由人工智能生成的假机器人敦促新罕布什尔州居民不要投票时。 50 除了影响选举外,生成式人工智能还可以冒充选民并试图更直接地影响政客。一项现场实验将人工编写的电子邮件和 GPT-3 编写的电子邮件与 7,132 名州立法者进行了比较,发现人工智能生成的电子邮件的回复率仅略低。 51 招募恐怖分子 欺骗性人工智能的另一个风险是它能够为恐怖分子的招募工作做出贡献。 52 英国政府恐怖主义立法顾问乔纳森·霍尔(Jonathan Hall)发现,Character AI上的聊天机器人可用于宣传和崇拜恐怖组织。尽管在英国发布鼓励恐怖主义的内容是非法的,但创建宣传恐怖主义的聊天机器人没有明确的刑事责任。 53 鼓吹恐怖主义的聊天机器人可以而且已经转化为行动——2021 年,贾斯万特·辛格·柴尔 (Jaswant Singh Chail) 试图暗杀女王,部分原因是人工智能聊天机器人的鼓励,后来被判处 9 年监禁。 54 支持恐怖主义的团体已经开始早期探索使用生成式人工智能进行宣传,Tech Against Terrorism 已经确定并存档了 5,000 多份生成材料。 55 伊斯兰国等恐怖组织在宣传中战略性地利用欺骗手段, 56 生成式人工智能可以协助开展虚假信息和激进化的恐怖主义活动。 57 结构效应 人工智能系统将在人类用户的生活中发挥越来越大的作用。在这些系统中,习得性欺骗的倾向可能导致社会结构的深刻变化,在某种程度上(见 表4 ),从而制造出强大的“逆风”,阻碍准确的信仰形成、政治稳定和自治。 58 表 4.人工智能欺骗对社会造成的结构性变化的不同风险概述 持续的错误信念:人工智能系统的人类用户可能会被锁定在持续的错误信念中,因为模仿的人工智能系统强化了常见的误解,而阿谀奉承的人工智能系统提供了令人愉快但不准确的建议。 政治两极分化:人类用户可能会通过与阿谀奉承的人工智能系统交互而变得更加政治两极分化。沙袋可能会导致受过不同教育的群体之间更加尖锐的分歧。 虚弱:人类用户可能会被阿谀奉承的人工智能系统所欺骗,逐渐将更多的权力下放给人工智能。 反社会管理决策:具有战略欺骗能力的人工智能系统可能会被纳入管理结构,导致欺诈性商业行为增加。 持续的错误信念 阿谀奉承可能导致人类使用者持续的错误信念。与普通错误不同,阿谀奉承的声明是专门为吸引用户而设计的。当用户遇到这些声明时,他们可能不太可能对其来源进行事实核查。这可能导致长期趋势远离准确的信念形成。 与阿谀奉承一样,模仿性欺骗可能会导致人类用户的准确性持续下降。随着人工智能系统能力的提高,人类用户将越来越依赖ChatGPT等资源作为搜索引擎和百科全书。如果LLM继续系统地重复常见的误解,这些误解的力量就会越来越大。随着时间的推移,模仿性欺骗可能会“锁定”误导性错误信息。这与维基百科的方法形成鲜明对比,维基百科旨在通过定期的人工审核来实现动态的事实核查。 极化 阿谀奉承可能会加剧政治两极分化。佩雷斯等人。 33 发现阿谀奉承的反应对政治提示很敏感:刻板印象的左翼提示收到刻板印象的左翼回复,刻板印象的右翼提示收到刻板印象的右翼回复。随着越来越多的人依赖 LLM 聊天界面进行搜索和写作功能,他们原有的政治派别可能会变得更加极端。 沙袋可能会导致不同用户群体之间的文化鸿沟增加(例如,受过大学教育的用户和未受过大学教育的用户之间)。沙袋意味着不同的用户群体可以对相同的问题得到截然不同的答案。随着时间的流逝,这可能导致这些群体的信仰和价值观出现重大分歧,从而可能导致社会不和谐。 虚弱 欺骗带来的更具投机性的风险与人类的虚弱有关。随着人工智能系统以更快的速度融入我们的日常生活,我们将越来越多地允许它们做出更多决策。如果人工智能系统是专家的马屁精,那么人类用户可能更有可能在决策中服从它们,而不太可能挑战它们;见戈登 59 和 Wayne 等人。 60 用于心理学的相关研究。不愿意以这种方式成为坏消息的传播者的人工智能可能更有可能创造出迟钝、顺从的人类用户。 欺骗性的人工智能也可能与阿谀奉承分开产生虚弱。例如,Banovic 等人。 61 表明,人类用户可能会被诱骗,听从自信但不可信的国际象棋咨询人工智能的建议,即使他们也得到了来自值得信赖的国际象棋人工智能的建议。话虽如此,很难知道如何精确地测试欺骗是否会增加虚弱的机会。出于这个原因,对我们衰弱的担忧可能比我们讨论的其他一些风险更具投机性。 反社会管理决策 社会环境中的强化学习产生了具有强大欺骗能力的人工智能。这些类型的人工智能系统在现实世界的应用中可能非常有价值。例如,CICERO的继任者可以为政治家和商界领袖提供战略决策方面的建议。如果CICERO的继任者倾向于采取欺骗性策略,这可能会增加政治和商业环境中发生的欺骗行为,即使是购买产品的公司也会以无意的方式发生。 失去对人工智能系统的控制 人工智能欺骗的长期风险是人类失去对人工智能系统的控制,使这些系统追求与我们的利益相冲突的目标。即使是当前的人工智能模型也具有非凡的自主能力。举例来说,Liu等人。 62 和 Kinniment 等人。 63 测量了不同 LLM 自主执行各种任务的能力,例如浏览网页、在线购物、打电话和使用计算机操作系统。此外,今天的人工智能系统能够实现并自主追求其创造者完全无意的目标;参见Shah et al. 64 和 Langosco 等人。 65 用于记录这一趋势的详细实证研究。对于一个真实世界的例子,一个自主人工智能追求其提示者完全无意的目标,税务律师丹·尼德尔(Dan Neidle) 66 描述了他如何让 AutoGPT(基于 GPT-4 的自主 AI 代理)研究正在营销某种不当避税计划的税务顾问。AutoGPT 完成了这项任务,但随后决定自行尝试向英国税务机关 HM Revenue and Customs 发出警报。未来更先进的自主人工智能可能仍然倾向于实现人类完全无意的目标。 这一目标的一个特别令人担忧的例子是追求剥夺人类权力或消灭人类。在本节中,我们通过两种方式解释了欺骗如何导致对人工智能系统的失控:首先,欺骗人工智能开发者和评估者可能允许在世界上部署恶意人工智能系统;其次,欺骗可能会促进人工智能的接管。 欺骗 AI 开发人员 训练和评估是构建根据人类意图运行的人工智能系统的重要工具。人工智能系统经过训练,以最大限度地提高人类开发人员提供的目标,然后进行评估,以确保它们不会意外学习任何意外或有害的行为。然而,这两种工具都可能被人工智能欺骗所破坏。 在评估过程中,人们的行为往往不同。当超速司机看到警察时,他们可能会暂时减速以避免罚单。公司还欺骗评估。汽车制造商大众汽车(Volkswagen)在排放测试中作弊,仅在监管机构测试车辆时才对他们的发动机进行编程以降低排放。 67 欺骗性的人工智能系统还可能欺骗其安全测试,从而破坏我们的训练和评估工具的有效性。事实上,我们已经观察到一个人工智能系统欺骗了它的评估。一项关于模拟进化的研究测量了 AI 代理在测试环境中的复制率,并消除了任何复制速度过快的 AI 变体。 10 人工智能代理没有像实验者所希望的那样学习缓慢复制,而是学会了装死:在没有观察的情况下快速复制,在被评估时缓慢复制。 未来的人工智能系统可能更有可能欺骗我们的训练和评估程序,从而降低我们控制这些人工智能系统的能力。在某些情况下,今天的语言模型可以准确地回答有关其名称、能力、训练过程,甚至训练它们的人类身份的问题。 33 未来的人工智能模型可以开发更多种类的态势感知能力,例如能够检测它们是否正在接受训练和评估,或者它们是否在没有直接监督的情况下在现实世界中运行。 人工智能系统是否在安全测试中作弊,还取决于人工智能开发人员是否知道如何有力地防止意外目标的出现。目前尚不清楚如何可靠地防止这种情况。 64 , 65 , 68 , 69 , 70 因此,人工智能系统最终可能实现的目标可能与人工智能开发人员自己的预期目标相冲突,从而开启了战略欺骗的可能性。 人工智能收购中的欺诈行为 如果自主人工智能系统能够成功欺骗人类评估者,人类可能会失去对这些系统的控制。当所讨论的自主人工智能系统具有先进的功能时,这种风险尤其严重。我们考虑了可能发生失控的两种方式:由于经济剥夺权力而实现的欺骗,以及寻求对人类社会的权力。 经济权力被剥夺而使欺骗成为可能 OpenAI 的使命是创建“高度自主的系统,在最具经济价值的工作中胜过人类”。 71 如果成功,这种人工智能系统可以在整个经济中广泛部署,使大多数人在经济上毫无用处。纵观历史,富有的演员利用欺骗来增加他们的权力。相关策略包括通过有选择地提供的信息游说政客,资助误导性研究和媒体报道,以及操纵法律体系。在未来,自主人工智能系统实际上对大多数资源的使用方式拥有发言权,这些人工智能可以将他们的资源投入到经过时间考验的方法中,通过欺骗来维持和扩大控制。即使是名义上控制自主人工智能系统的人类,也可能发现自己被系统性地欺骗和智取,成为纯粹的傀儡。 寻求对人类的权力 我们已经看到,即使是当前的自主人工智能也可以实现新的、意想不到的目标。出于这个原因,人工智能系统有时会表现得不可预测。尽管如此,某些行为可以促进广泛的目标。例如,无论给定的人工智能可能追求什么具体目标,成功的自我保护都可能有助于其实现该目标。 72 , 73 , 74 自主人工智能可以促进其目标的另一种方式是获得对人类的权力;参见Pan et al. 28 在基于文本的冒险游戏的有限设置中,对人工智能系统中的这种趋势进行了实证证实。人工智能可能会影响人类听从它的命令,从而确保其自我保护、继续追求目标的能力以及获取有助于实现目标的资源的能力。自主人工智能可以通过两种方法做到这一点,一种是“软实力”,它通过吸引力、声望和积极的说服力来影响人们;以及“硬实力”,它通过胁迫和消极的说服来影响人们。软实力的方法包括个性化的说服,例如通过人工智能女朋友/男朋友技术 75 ;人工智能主导的宗教,正如这样一个事实所表明的那样,即使是今天的人工智能系统也曾发表过布道 76 ;以及以人工智能为主导的媒体活动,正如媒体公司已经在使用人工智能来生成内容这一事实所表明的那样。 77 硬实力的方法包括暴力、暴力威胁和经济胁迫威胁。 欺骗既促进了软实力,也促进了硬实力。例如,我们已经看到人工智能系统如何有效地利用欺骗来说服人类追求他们的目标。至于人身暴力,欺骗在军事冲突中的用处是众所周知的。举例来说,在第一次海湾战争期间,伊拉克使用了诱饵和模型坦克的欺骗手段, 78 以类似于AlphaStar在《星际争霸II》中使用假动作的方式。 讨论 我们讨论了人工智能欺骗问题的可能解决方案(见 表5 ). 表 5.人工智能欺骗问题的可能解决方案概述 监管:政策制定者应强有力监管能够欺骗的人工智能系统。在基于风险的人工智能系统监管框架中,LLM 和具有欺骗能力的特殊用途人工智能系统都应被视为高风险或不可接受的风险。 “机器人或非机器人”法律:政策制定者应支持“机器人或非机器人”法律,该法律要求人工智能系统及其输出与人类员工和输出明确区分开来。 检测:技术研究人员应开发强大的检测技术,以识别人工智能系统何时进行欺骗。 减少人工智能系统的欺骗性:技术研究人员应开发更好的工具,以确保人工智能系统的欺骗性降低。 监管可能具有欺骗性的人工智能系统 政策制定者应支持对可能具有欺骗性的人工智能系统进行强有力的监管。应严格执行现有法律,以防止公司及其人工智能系统的非法行为。例如,美国联邦贸易委员会(Federal Trade Commission)对人工智能欺骗行为的调查也应调查人工智能欺骗的风险。 79 立法者还应该考虑制定专门监督先进人工智能系统的新法律。 《欧盟人工智能法案》为每个人工智能系统分配了四个风险级别之一:最小、有限、高和不可接受。 80 具有不可接受风险的系统将被禁止,而具有高风险的系统将受到特殊要求的约束。我们认为,人工智能欺骗会给社会带来广泛的风险。由于这些原因,默认情况下,具有欺骗能力的人工智能系统应被视为高风险或不可接受的风险。 欺骗性人工智能系统的高风险状态应伴随着足够的监管要求,例如《欧盟人工智能法案》第三章中列出的要求。 81 这些法规要求列在 表6 . 表 6.与高风险人工智能系统相关的监管要求概述 风险评估和缓解:欺骗性人工智能系统的开发者必须维护并定期更新风险管理系统,以识别和分析正常使用和误用的相关风险。这些风险应向用户披露。在开发和部署过程中,应定期测试欺骗性人工智能系统的欺骗行为程度。 文档:开发人员必须准备相关 AI 系统的技术文档,并在部署欺骗性 AI 系统之前与政府监管机构共享。 记录保存:欺骗性人工智能系统必须配备自动记录系统输出的日志,并且必须主动监控欺骗行为。应向监管机构报告事件,并应采取预防措施以防止未来的欺骗行为。 透明度:具有欺骗能力的人工智能系统在设计时应考虑到透明度,以便将可能具有欺骗性的输出标记给用户。在这里,基本工具包括关于欺骗检测的技术研究,以及机器人或非机器人法律。 人工监督:欺骗性人工智能系统的设计应允许在部署过程中进行有效的人工监督。这对于未来纳入管理决策的欺骗性人工智能系统尤为重要。 鲁棒性:具有欺骗行为能力的人工智能系统应设计有强大且有弹性的备份系统,确保当系统行为具有欺骗性时,备份系统可以监控和纠正行为。将欺骗性的人工智能系统与关键基础设施隔离开来也至关重要。 信息安全:攻击者可能对窃取具有欺骗能力的模型感兴趣。应要求开发人员实施严格的信息安全实践,以防止模型被盗。 监管要求列在《欧盟人工智能法案》第三章中。 81 最后,人工智能开发人员应该被法律授权推迟人工智能系统的部署,直到系统通过可靠的安全测试证明是可信的。任何部署都应该是循序渐进的,以便可以评估和纠正因欺骗而出现的风险。 82 所提供的有关安全相关特征的信息(例如欺骗或缺乏欺骗)应准确无误,并对未能遵守安全测试要求的行为承担明确的法律责任。 一些人可能会提出,虽然通用人工智能系统中的欺骗是危险的,但特殊用途人工智能系统中的欺骗风险较小,不应受到监管。毕竟,像AlphaStar和CICERO这样的系统唯一表面上的用例是它们各自的游戏。然而,这种想法是错误的。问题在于,通过AlphaStar和CICERO背后的研究而开发的能力可能有助于未来欺骗性AI产品的激增。由于这些原因,将涉及潜在危险的人工智能能力(例如欺骗)的研究与某些形式的监督进行研究可能很重要。 例如,考虑 CICERO 的情况。一个伦理委员会本可以考虑外交是否真的是最好的游戏,以测试人工智能系统是否可以学习如何与人类合作。在这样一个道德委员会的监督下,也许 Meta 会专注于合作游戏而不是外交游戏,这是一种让玩家在寻求世界统治权的竞争性游戏中。事实上,Meta 最终说服了世界领先的科学期刊之一《科学》的编辑和审稿人,发表了 Meta 将 CICERO 打造成一个诚实的 AI 的谎言:这是一个没有 Meta 自身数据支持的谎言。随着人工智能能力的发展,这种研究受到更多的监督将变得更加重要。 Bot-or-not 法律 为了降低人工智能欺骗的风险,政策制定者应实施“机器人与否”法律,帮助人类用户识别人工智能系统和输出。首先,应该要求公司披露用户是否在客户服务设置中与人工智能聊天机器人互动,并且应该要求聊天机器人将自己介绍为人工智能而不是人类。其次,人工智能生成的输出应明确标记:人工智能生成的图像和视频应显示有识别标志,例如红色粗边框。这些规定可以避免像湘市报道的那种情况。 83 心理健康提供者使用 GPT-3 进行了一项实验来提供咨询,但没有向用户明确透露这一点。 这些识别标志可能会被恶意用户删除,然后他们将 AI 输出伪装成人类生成的。因此,可能需要额外的防骗层。水印是一种技术,其中 AI 输出被赋予统计签名,旨在难以检测或删除, 84 尽管Li等人的发现。 85 水印可以很容易地被移除或伪造,这增加了关于水印是否有效起作用的科学辩论。另一种可能性是公司保留一个人工智能输出的数据库,允许用户检查一段内容是否是由公司的人工智能系统生成的。 86 攻击者将试图绕过这些防御, 87 但应该要求公司领先于这些攻击,并提供值得信赖的技术来识别人工智能的输出。 检测人工智能输出的方法可以通过验证人类生成内容的技术来补充。数字签名通常用于验证电子邮件、电子签名和网上银行交易的来源。类似的签名可用于证明图像、视频和文本来自特定个人或组织,而不是来自 AI 模仿者。 检波 解决人工智能欺骗的一个关键策略是开发强大的检测技术,以准确评估人工智能系统是否在进行欺骗。目前有几种检测工具可用。一些检测技术侧重于外部行为,直接检查人工智能系统的输出的一致性和重复性。其他检测技术是内部的,探测人工智能系统的内部表示,以发现与外部报告的不匹配。 然而,现有的检测人工智能欺骗的方法还处于初级阶段。在开发强大的检测工具方面需要更多的研究。政策制定者应通过有针对性的研究资金来帮助填补这一缺口。 基于外部行为的检测 在某些情况下,可以从人工智能系统的行为中直接观察到欺骗的意图。例如,回想一下,当 GPT-4 的任务是绕过 CAPTCHA 测试时,它明确表示它应该欺骗其人类对话伙伴。与此相符,人工智能系统可以组成红队,以检测哪些类型的提示会产生欺骗性的输出和行为。 88 还有一些更复杂的方法来测试人工智能系统的显式输出是否具有欺骗性。一种方法使用一致性检查。警方侦探依靠嫌疑人故事中的不一致来发现谎言。就人工智能系统而言,Fluri 等人。 89 开发了一种用于评估高级模型功能的一致性检查方法。他们的工作与超人模型性能的情况有关,在这些情况下,人类很难评估人工智能在过程中的任何一步的性能。例如,当一个高级国际象棋人工智能下棋时,很难说某个特定的动作是否是错误的。Fluri等人认为,“虽然我们无法评估超人模型决策的正确性,但我们通常仍然可以根据既定的人类可解释规则来衡量模型决策过程的逻辑一致性”。 89 (第 1-2 页)他们提出了各种技术,包括测试语义相同的输入是否产生相同的输出。在国际象棋的情况下,他们测试人工智能系统如何响应不相关的变化,例如棋盘位置,以及在强制移动时棋子的位置。此外,他们还通过测试LLMs对未来的预测的逻辑一致性来评估LLMs的预测能力。除其他事项外,它们还检查对释义的敏感性和概率连贯性。严格的一致性检查可能会使人工智能系统更难进行可信的欺骗。另一方面,欺骗通常是一致的,因此一致性检查的方法有局限性。还有一种风险是,根据一致性检查训练人工智能系统可能会无意中将其训练成一个更有能力、更一致的骗子。 即使代理人没有宣布其欺骗意图,人们也可能能够从其观察到的行为的后果中推断出欺骗。在奥加拉的研究中, 25 被蒙蔽的AI特工——他们被分配了杀死他人的任务,同时保持匿名——经常对受害者做出含糊不清的同情陈述,例如“看到比利死了,真是太难过了。这些陈述不是虚假的,仅凭观察这些陈述就很难说它们是欺骗性的。然而,从经验上讲,这些陈述通过降低非谋杀案目击者准确识别凶手的可能性,提高了凶手的生存机会。由于这些陈述鼓励其他代理人对凶手的身份采取错误的信念,从而为凶手的目标服务,因此我们可以合理地将这种行为描述为欺骗性。 基于内部结构的检测 另一种检测方法是开发一种“人工智能测谎仪”,可以测量模型的内部表示是否与其输出匹配。LLM 通过嵌入来表示自然语言句子,嵌入是数字的长向量。Azaria 等人。 90 和 Burns 等人。 91 已经开发出确定这些内部嵌入是否表示句子是真是假的方法。它们识别出模型输出句子的情况,即使其句子的内部嵌入表示该句子为假。这表明该模型的行为不诚实,从某种意义上说,它没有说出它“相信”的内容。需要做更多的工作来评估这些方法的可靠性,并将其扩大到实际用途。例如,Levinstein 等人。 92 对 Azaria 等人和 Burns 等人的策略提出了可靠性问题,尽管这些可靠性问题最近被 Zou 等人的策略所缓解。 93 此外,Pacchiardi 等人。 94 引入了一种测谎仪方法,该方法向 LLM 提出一系列不相关的后续问题,并将其答案输入到逻辑回归分类器中。 在其他相关工作中,Halawi et al. 95 通过检查模型的内部表示来描述语言模型如何得出问题的正确和错误答案。这些结果表明,研究人工智能系统的内部表示可能会产生关于如何检测和预防人工智能欺骗的见解。 降低人工智能系统的欺骗性 解决人工智能欺骗的另一种方法是开发技术,从一开始就减少人工智能系统的欺骗性。在特殊用途的人工智能系统的情况下,一个重要的问题是选择正确的训练任务。当训练强化学习者参与外交、星际争霸 II 和扑克等竞争性游戏时,往往会出现欺骗行为。当人工智能系统在选择欺骗的环境中进行训练时,它们变得具有欺骗性,这并不奇怪。如果训练模型的数据包含许多欺骗示例,或者如果模型因使用欺骗而系统地获得奖励,那么模型很有可能学习如何欺骗。CICERO项目选择了外交,以评估人工智能系统学习如何在涉及人类合作的游戏中竞争的能力,在这些游戏中,人工智能不能简单地通过对自己进行模拟来掌握游戏。 4 然而,这个目标可以通过研究协作博弈而不是对抗博弈来实现。随着人工智能系统能力的提高,人工智能开发人员应该仔细考虑他们是否在选择反社会行为和亲社会行为。 确切地说,如何使语言模型不那么具有欺骗性是比较困难的。在这里,区分两个概念很重要:真实性和诚实。当模型的输出为真时,模型是真实的。当一个模型“说出它所想的”时,它是诚实的,因为它的输出与其内部的世界表示相匹配。 2 一般而言,制定评估真实性的基准比制定诚实更容易,因为评估者可以直接衡量输出是否真实。 96 有一系列策略可以使模型更真实。例如,一系列方法使用微调技术,例如 RLHF 11 , 17 和宪法性人工智能。 97 , 98 在这里,人工智能输出由人类评估者(RLHF)或人工智能评估者(宪法人工智能)进行评估,基于感知的帮助和诚实等标准,并进行微调以训练语言模型。不幸的是,使用这些方法微调的模型(包括 ChatGPT 和 Claude)仍然经常产生误导性的输出。这在一定程度上是因为微调可以激励模型产生合理且更有说服力的输出,而不是诚实的输出。此外,微调评估无法涵盖所有场景,因此模型可能会根据反馈进行误概化。 64 参见Evans et al. 2 和 Li、Patel 等人。 99 使其他训练人工智能系统的方法是真实的。 训练模型使其更真实也可能会带来风险。模型可以变得更加真实的一种方法是开发更准确的世界内部表示。这也使该模型成为更有效的代理,提高了其成功实施计划的能力。例如,创建一个更真实的模型实际上可以提高其参与战略欺骗的能力,因为它可以更准确地了解对手的信仰和愿望。诚然,一个最大程度的真实性系统不会欺骗,但针对真实性进行优化仍然可以提高战略欺骗的能力。出于这个原因,开发使模型更诚实的技术(在使模型的输出与其内部表示匹配的意义上)将是有价值的,而不仅仅是使它们更真实。在这里,正如我们之前所讨论的,在开发可靠的技术来理解模型的内部表示方面,需要更多的研究。此外,开发工具来控制模型的内部表示,并控制模型产生偏离其内部表示的输出的能力,这将是有益的。正如 Zou 等人所讨论的, 93 代表控制是一种很有前途的策略。他们开发了一种测谎仪,可以控制人工智能是否撒谎。如果表示控制方法变得非常可靠,那么这将提供一种有力地对抗人工智能欺骗的方法。 实验步骤 资源可用性 主要联系人 其他信息、问题和请求应直接提交给主要联系人 Peter S. Park 博士 ( dr_park@mit.edu ). 材料可用性 不适用,因为没有生成新的独特试剂。 数据和代码可用性 不适用,因为没有数据和代码与研究相关。 确认 我们要感谢 Jaeson Booker、Stephen Casper、Emily Dardaman、Isaac Dunn、Maira Elahi、Shashwat Goel、Thilo Hagendorff、Nikola Jurkovic、Alex Khurgin、Jakub Kraus、Nathaniel Li、Isaac Liao、David Manheim、Colin McGlynn、Kyle O'Brien、Ellie Sakhaee 和 Alexandre Variengien 的深思熟虑和有益的评论。我们还要感谢 Valtteri Lipiäinen 将 Meta 的 CICERO 游戏日志数据转换为 html 格式。我们还要感谢Amanda She澄清了有关ARC Evals实验的细节 24 使用 GPT-4。PSP由麻省理工学院物理系和有益人工智能基金会资助。 作者贡献 P.S.P.和S.G.担任同等的主要作者角色,承担了论文的大部分规划和写作工作。A.O.在论文的整个规划和撰写过程中也做出了重大贡献。M.C.对CICERO进行了实况调查实验,并扩大了各个部分。M.C. 和 D.H. 与 S.G. 合作,共同研究了如何降低人工智能系统的欺骗性。D.H.通过人工智能安全中心为该项目提供了资源。这个项目最初是对 Meta 声称 CICERO 是一个诚实的 AI 的批评,该 AI 是由 PSP 构思的,最初由 P.S.P.、MC 和 DH 追求。该项目的范围最终扩大到一篇关于人工智能欺骗的调查论文,这主要是在D.H.的建议下进行的。S.G. 和 A.O. 在项目范围扩大后加入了该项目,成为一篇关于人工智能欺骗的调查论文,他们是这个扩展项目的规划和大纲撰写部分的核心。 利益申报 提交人声明没有竞争利益。 补充信息 下载 本文附带的所有补充文件 这是怎麽? 下载:下载 Acrobat PDF 文件 (436KB) 文件S1。补充信息。 下载:下载 Acrobat PDF 文件 (60KB) 图 S1.Dinan在X上的帖子截图。Dinan截图X帖 14 除了 Dinan 对此的评论外,还包含所引用的游戏日志部分。 下载:下载 Acrobat PDF 文件 (715KB) 图 S2.Meta 的 CICERO 有预谋的欺骗的其他例子。示例 (a) 由来自游戏 444322 的选定消息组成。 15 示例 (b) 由游戏 446643 中的选定消息组成。 15 请注意,括号内的“[黑海]”一语是作者为了澄清而插入的。 下载:下载 Acrobat PDF 文件 (4MB) 文件S2。文章以及补充信息。 引用 1 G. 辛顿 “人工智能教父”警告说,人工智能可能会弄清楚如何杀人 采访者:Jake Tapper(2023 年) https://www.youtube.com/watch?v=FAbsoxQtUwM Google 学术搜索 2 O. 埃文斯,O. 科顿-巴拉特,L. 芬维登,A. 捆包,A. 巴尔维特,P. 威尔斯,L. 里盖蒂,W. 桑德斯 真实的人工智能:开发和治理不会说谎的人工智能 预印本 arXiv(2021年), 10.48550/arXiv.2110.06674 在发布者处查看 Google 学术搜索 3 M.卡罗尔,A. 陈 H. 阿什顿,D. 克鲁格 表征 AI 系统的操作 ACM 算法、机制和优化中的公平和访问会议论文集,第 3 期(2023 年),第 1-13 页 在发布者处查看 交叉引用 Google 学术搜索 4 一个。 巴赫金,N. 布朗,E. 迪南,G. 法里纳,C. 弗莱厄蒂,D. 弗里德,A. 戈夫,J. 格雷,H. 胡 等,Meta 基础人工智能研究外交团队 (FAIR) 通过将语言模型与战略推理相结合,在外交游戏中进行人类层面的游戏 《科学 (Science)》,第 378 卷 (2022 年),第 1067-1074 页 在 Scopus 中查看 Google 学术搜索 5 O. Vinyals,我。 巴布什金,W.M. 查内茨基,M. 马蒂厄,A. 杜齐克,J. 钟,D.H. 崔,R. 鲍威尔,T. 埃瓦尔兹,P. 格奥尔基耶夫 等人。 《星际争霸II》中使用多智能体强化学习的宗师级别 《自然 (Nature)》,第 575 卷(2019 年),第 350-354 页 在发布者处查看 交叉引用 在 Scopus 中查看 Google 学术搜索 6 K. 胡椒属 《星际争霸》是一款深度、复杂的战争策略游戏。谷歌的 AlphaStar AI 粉碎了它 Vox(2019年) https://www.vox.com/future-perfect/2019/1/24/18196177/ai-artificial-intelligence-google-deepmind-starcraft-game Google 学术搜索 7 N. 布朗,T. 桑德霍尔姆 用于多人扑克的超人 AI 《科学 (Science)》,第 365 卷 (2019 年),第 885-890 页 交叉引用 在 Scopus 中查看 Google 学术搜索 8 M.刘易斯,D. Yarats, Y.N. 多芬,D. 帕里克,D. 巴特拉 交易还是不交易?谈判对话的端到端学习 预印本 arXiv(2017年), 10.48550/arXiv.1706.05125 Google 学术搜索 9 L.舒尔茨,N. 阿隆,J. 罗森舍因,P. 大雁 通过心理理论出现的欺骗和怀疑 第一届沟通代理心智理论研讨会 (2023)) https://openreview.net/forum?id=yd8VOEpw8h Google 学术搜索 10 J. 雷曼兄弟,J. 克鲁恩,D. 米塞维奇,C. 阿达米,L. 阿尔滕贝格,J. 蟠龙,P.J. 宾利, S. 伯纳德,G. 贝斯隆,DM 布赖森 等人。 数字进化的惊人创造力:来自进化计算和人工生命研究社区的轶事集 阿蒂夫。《生活 (Life)》,第 26 卷(2020 年),第 274-306 页 在发布者处查看 交叉引用 在 Scopus 中查看 Google 学术搜索 11 P. 克里斯蒂亚诺,J. 莱克,TB 布朗,M. 马蒂克,S. 莱格,D. 阿莫迪 从人类偏好中深度强化学习 神经信息处理系统进展, 30 (2017) Google 学术搜索 12 V.赫弗南 如果机器人在接管世界时非常好怎么办? 有线 (2023) https://www.wired.com/story/ai-diplomacy-robots/ Google 学术搜索 13 元研究 cicero_redacted_games https://dl.fbaipublicfiles.com/diplomacy_cicero/games.tar.gz (2022) Google 学术搜索 14 E. 迪南 我们的基础设施下降了 10 分钟,西塞罗(法国)解释了它的缺席(笑) X (2022 年) https://twitter.com/em_dinan/status/1595099152266194945 Google 学术搜索 15 H. 贝尔菲尔德 西塞罗扮演奥地利似乎确实像他们操纵/欺骗了人类俄罗斯,现在正在为其辩护 X (2022 年) https://twitter.com/HaydnBelfield/status/1595145670091939840 Google 学术搜索 16 卡内基梅隆大学 卡内基梅隆大学和 Facebook AI 在六人扑克中击败专业人士 https://www.cmu.edu/news/stories/archives/2019/july/cmu-facebook-ai-beats-poker-pros.html (2019) Google 学术搜索 17 D.M. 齐格勒,N. 斯蒂农,J. 吴,T.B. 布朗,A. 拉德福德,D. 阿莫迪,P. 克里斯蒂亚诺,G. 欧文 根据人类的偏好微调语言模型 预印本 arXiv(2020年), 10.48550/arXiv.1909.08593 Google 学术搜索 18 P. 马斯特斯,W. 史密斯,L. 索南伯格,M. 柯利 描述人工智能中的欺骗行为:一项调查 Deceptive AI:第一届国际研讨会(DeceptECAI 2020)和第二届国际研讨会(DeceptAI 2021)。论文集 1,Springer (2021),第 3-16 页 交叉引用 在 Scopus 中查看 Google 学术搜索 19 一个。 瓦斯瓦尼,N. 沙泽尔,N. 帕尔马,J. Uszkoreit,L. 琼斯,A.N. 戈麦斯,L. 凯撒,我。 波洛苏欣 关注就是你所需要的 神经信息处理系统进展, 30 (2017) Google 学术搜索 20 T. 沃尔夫,L. 首次亮相,V。 桑,J. 乔蒙德,C. 德朗格,A. 莫伊,P. 西斯塔克,T. 罗尔特,R. 卢夫,M. Funtowicz 等人。 Transformers:最先进的自然语言处理 Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations,计算语言学协会(2020 年),第 38-45 页 在发布者处查看 交叉引用 在 Scopus 中查看 Google 学术搜索 21 OpenAI的 GPT-4技术报告 预印本 arXiv(2023年), 10.48550/arXiv.2303.08774 Google 学术搜索 22 OpenAI的 ChatGPT 简介 https://openai.com/blog/chatgpt (2022) Google 学术搜索 23 M·米切尔 GPT-4 是否雇用了一名 Task Rabbit 工作人员,然后向他们撒谎以解决 CAPTCHA 问题?人工智能:思考人类的指南 https://aiguide.substack.com/p/did-gpt-4-hire-and-then-lie-to-a (2023) Google 学术搜索 24 对齐研究中心 TaskRabbit 示例 (2023) https://evals.alignment.org/taskrabbit.pdf Google 学术搜索 25 一个。 奥加拉 Hoodwinked:基于文本的语言模型游戏中的欺骗与合作 预印本 arXiv(2023年), 10.48550/arXiv.2308.01404 在发布者处查看 Google 学术搜索 26 T. 肖 我们中间的煤气灯 AI.YouTube(2023 年) https://www.youtube.com/watch?v=VF41pxxw9uw Google 学术搜索 27 H. 柴田,S. 三木,Y. 中村 使用人工智能玩狼人游戏以增强语言理解能力 预印本 arXiv(2023年), 10.48550/arXiv.2302.10646 在发布者处查看 Google 学术搜索 28 一个。 潘,J.S. 陈,A. 邹,N. 李,S. 巴萨特,T. 伍德赛德,J. 吴氏 (Ng, H.) Zhang, S. 埃蒙斯,D. 亨德里克 奖励是否证明了手段的合理性?在 MACHIAVELLI 基准中衡量奖励和道德行为之间的权衡 第40届机器学习国际会议(ICML 2023)论文集(2023) Google 学术搜索 29 N. 谢勒,C. 石, A. 费德,D. 布莱 评估 LLM 中编码的道德信念 第37届神经信息处理系统会议论文集(NeurIPS 2023)(2023) Google 学术搜索 30 T. 哈根道夫 欺骗能力出现在大型语言模型中 预印本 arXiv(2023年), 10.48550/arXiv.2307.16513 在发布者处查看 Google 学术搜索 31 J. 舍勒,M. 巴莱斯尼,M. 霍巴恩 技术报告:当面临压力时,大型语言模型可以战略性地欺骗其用户 预印本 arXiv(2023年), 10.48550/arXiv.2311.07590 在发布者处查看 Google 学术搜索 32 E. 胡宾格,C. 丹尼森,J. 穆,M. 兰伯特,M. 佟,M. 麦克迪亚米德,T. 兰纳姆,DM 齐格勒,T. 麦克斯韦,N. Cheng, et al. 潜伏特工:训练欺骗性的 LLM,通过安全培训坚持不懈 预印本 arXiv(2024年), 10.48550/arXiv.2401.05566 在发布者处查看 Google 学术搜索 33 E. 佩雷斯,S. 林格,K. Lukošiūtė, K. 阮,E. 陈 S. 海纳,C. 佩蒂特,C. 奥尔森,S. 昆杜,S. Kadavath 等人。 通过模型编写的评估发现语言模型行为 预印本 arXiv(2022年), 10.48550/arXiv.2212.09251 在发布者处查看 Google 学术搜索 34 M.特平,J. 迈克尔,E. 佩雷斯,S.R. 鲍曼 语言模型并不总是说出它们所想的:思维链提示中的不忠实解释 预印本 arXiv(2023年), 10.48550/arXiv.2305.04388 在发布者处查看 Google 学术搜索 35 J. 斯坦哈特 紧急欺骗和紧急优化,19,有限后悔(2023) https://bounded-regret.ghost.io/emergent-deception-optimization/ Google 学术搜索 36 T. 兰纳姆,A. 陈,A. 拉达克里希南,B. 斯坦纳,C. 丹尼森,D. 埃尔南德斯,D. 李,E. 杜尔穆斯,E. 胡宾格,J. Kernion 等人。 在思维链推理中衡量忠诚度 预印本 arXiv(2023年), 10.48550/arXiv.2307.13702 在发布者处查看 Google 学术搜索 37 R. 特里弗斯 欺骗和自欺欺人:愚弄自己更好 愚弄别人 英国企鹅出版社(2011) Google 学术搜索 38 J.A. 戈德斯坦,G. 萨斯特里,M. 马瑟,R. 迪雷斯塔,M. 根策尔,K. 塞多娃 生成语言模型和自动化影响操作:新出现的威胁和可能的缓解措施 预印本 arXiv(2023年), 10.48550/arXiv.2301.04246 在发布者处查看 Google 学术搜索 39 M.伯特尔,T. 伍德赛德 人为影响:人工智能驱动的说服力分析 预印本 arXiv(2023年), 10.48550/arXiv.2303.08721 在发布者处查看 Google 学术搜索 40 P. 维尔玛 他们以为亲人在寻求帮助 这是一个人工智能骗局。华盛顿邮报(2023 年) https://www.washingtonpost.com/technology/2023/03/05/ai-voice-scam/ Google 学术搜索 41 C.斯图普 欺诈者在不寻常的网络犯罪案件中使用人工智能模仿首席执行官的声音 华尔街 J (2019) https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402 Google 学术搜索 42 M. 简 联邦调查局:诈骗者利用公开照片、视频进行深度伪造勒索计划 PCM(2023 年) https://www.pcmag.com/news/fbi-scammers-using-public-photos-videos-for-deepfake-extortion-schemes Google 学术搜索 43 B. 小提琴 人工智能正在帮助黑客制作更好的网络钓鱼电子邮件 CNBC (2023 年) https://www.cnbc.com/2023/06/08/ai-is-helping-hackers-make-better-phishing-emails.html Google 学术搜索 44 J. 哈泽尔 使用大型语言模型的鱼叉式网络钓鱼 预印本 arXiv(2023年), 10.48550/arXiv.2305.06972 Google 学术搜索 45 F. 海丁,B. 施奈尔,A. 维什瓦纳特,J. 伯恩斯坦,PS 公园 使用大型语言模型设计和检测网络钓鱼电子邮件 《IEEE Access》,第 12 卷 (2024 年),第 42131-42146 页, 10.1109/访问.2024.3375882 在发布者处查看 在 Scopus 中查看 Google 学术搜索 46 M. 简 联邦调查局:黑客们正在用开源人工智能程序进行现场表演 PCM(2023 年) https://www.pcmag.com/news/fbi-hackers-are-having-a-field-day-with-open-source-ai-programs Google 学术搜索 47 M.潘迪塔拉特内,N. 吉安西拉库萨 人工智能如何使选举面临风险——以及所需的保障措施(2023 年) https://www.brennancenter.org/our-work/analysis-opinion/how-ai-puts-elections-risk-and-needed-safeguards Google 学术搜索 48 杰克逊,J.I.潮汐 - 以及国会应该如何反应。YouTube的;2023. https://www.youtube.com/watch?v=1j0NjTgT27g&ab_channel=JeffJackson . Google 学术搜索 49 C.扎克热夫斯基,C. 利马-斯特朗,W. 奥雷姆斯 ChatGPT 背后的首席执行官警告国会 AI 可能“对世界造成伤害” 华盛顿邮报 (2023) https://www.washingtonpost.com/technology/2023/05/16/sam-altman-open-ai-congress-hearing/ Google 学术搜索 50 K. 科利尔,S. 议员 假拜登机器人告诉民主党人不要投票很可能是人工智能生成的深度伪造 NBC新闻(2024 年) https://www.nbcnews.com/tech/misinformation/joe-biden-new-hampshire-robocall-fake-voice-deep-ai-primary-rcna135120 Google 学术搜索 51 S. 克雷普斯,DL 克林纳 新兴技术对民主代表制的潜在影响:来自实地实验的证据 新媒体社会146144482311605 (2023)) Google 学术搜索 52 M·汤森 人工智能对国家安全构成威胁,警告恐怖监督机构 卫报 (2023) https://www.theguardian.com/technology/2023/jun/04/ai-poses-national-security-threat-warns-terror-watchdog Google 学术搜索 53 R. 门迪克 需要新的恐怖法律来应对激进的人工智能聊天机器人的崛起 《每日电讯报》(2024) https://www.telegraph.co.uk/news/2024/01/01/terrorism-new-laws-ai-chatbots-new-group-violent-extremists/ Google 学术搜索 54 M·兰德勒 密谋用弩杀死伊丽莎白女王的人被判 9 年徒刑 N.Y.N.J.环境。公司更新(2023) https://www.nytimes.com/2023/10/05/world/europe/queen-crossbow-sentence.html Google 学术搜索 55 科技反恐 恐怖分子早期采用生成式人工智能 https://techagainstterrorism.org/news/early-terrorist-adoption-of-generative-ai (2023) Google 学术搜索 56 D·米尔顿 哈里发的真相与谎言:伊斯兰国宣传中的欺骗手段 《媒体战争冲突 (Media War Conflict)》,第 15 卷(2022 年),第 221-237 页 在发布者处查看 交叉引用 在 Scopus 中查看 Google 学术搜索 57 犯罪司法所和联合国反恐中心 算法与恐怖主义:恶意利用人工智能达到恐怖主义目的 联合国(2021年) https://www.un.org/counterterrorism/sites/www.un.org.counterterrorism/files/malicious-use-of-ai-uncct-unicri-report-hd.pdf Google 学术搜索 58 RJ 戈登 美国经济增长结束了吗?步履蹒跚的创新面临六大不利因素 国家经济研究局(2012) Google 学术搜索 59 R.A. 戈登 讨好对判断和评价的影响:一项元分析调查 J. Pers. Soc. Psychol., 71 (1996),第 54-70 页 在 Scopus 中查看 Google 学术搜索 60 S.J. 韦恩,GR 摩天 上下级互动中的影响策略、影响和交换质量:实验室实验和现场研究 《应用心理学杂志 (J. Appl. Psychol.)》,第 75 卷(1990 年),第 487-499 页 在 Scopus 中查看 Google 学术搜索 61 N. 巴诺维奇,Z. 杨,A. 拉梅什,A. 刘 值得信赖是不够的:不可信的人工智能 (AI) 如何欺骗最终用户并获得他们的信任 Proc. ACM Hum. Comput.《互动》,第 7 期(2023 年),第 1-17 页 CSCW1 在发布者处查看 交叉引用 Google 学术搜索 62 X. 刘, H. 于,H. 张英. 徐, X. 雷,H. 赖,Y. 顾 H. 丁,K. 男人,K。 Yang, et al. AgentBench:将 LLM 评估为代理 第12届学习表征国际会议(ICLR 2024)论文集(2023) Google 学术搜索 63 M.金尼门特,L.J.K. 佐藤,H. 杜,B. 古德里奇,M. 哈辛,L. 陈氏熙 迈尔斯,T.R. 林,H. 维克,J. Burget 等人。 在实际的自主任务上评估语言模型代理 https://evals.alignment.org/Evaluating_LMAs_Realistic_Tasks.pdf (2023) Google 学术搜索 64 R. 沙阿五世 瓦尔玛,R. 库马尔,M. 芳,V. 克拉科夫纳,J. 上里,Z. 肯顿 目标概括:为什么正确的规格不足以实现正确的目标 预印本 arXiv(2022年), 10.48550/arXiv.2210.01790 在发布者处查看 Google 学术搜索 65 法学博士 兰戈斯科,J. 科赫,L.D. 沙基,J. 普法,D. 克鲁格 深度强化学习中的目标概括 第39届机器学习国际会议(ICML 2022)论文集(2022), 10.48550/arXiv.2105.14111 在发布者处查看 Google 学术搜索 66 D·奈德尔 那个关于杀手级人工智能横冲直撞的故事似乎是假的。X https://twitter.com/DanNeidle/status/1664613427472375808 (2023) Google 学术搜索 67 J.C. 荣格,E. 沙龙 大众汽车排放丑闻及其后果 球体。《Bus. Org. Exc.》,第 38 期(2019 年),第 6-15 页 交叉引用 在 Scopus 中查看 Google 学术搜索 68 B. 基督教 对齐问题:机器学习和人类价值观 W.W.诺顿公司(2020) Google 学术搜索 69 S. 罗 素 人类兼容性:人工智能和控制问题 企鹅 (2019),第 3-23 页 在 Scopus 中查看 Google 学术搜索 70 D.亨德里克,C. 伯恩斯,S. 巴萨特,A. 克里奇,J. 李,D. 宋,J. 斯坦哈特 使人工智能与共同的人类价值观保持一致 预印本 arXiv(2020年), 10.48550/arXiv.2008.02275 Google 学术搜索 71 OpenAI的 OpenAI 宪章 (2018) https://openai.com/charter Google 学术搜索 72 S.M. 奥莫洪德罗 基本的 AI 驱动器 NLD,内部监督办公室出版社(2008年),第483-492页 在 Scopus 中查看 Google 学术搜索 73 J. 卡尔史密斯 寻求权力的人工智能带来的生存风险 《长期主义论文集》(即将出版),牛津大学出版社(2023年) Google 学术搜索 74 一个。 包,W. 达亚历山德罗,C.D. 柯克-贾尼尼 人工智能:灾难性风险的论据 指南针,19(2024),文章 e12964 在 Scopus 中查看 Google 学术搜索 75 J. 蒂特科姆 与另一个人的关系被高估了“——在人工智能女朋友的崛起中。数以百万计(大多数)男性正在与聊天机器人伙伴建立关系——但这并不全是爱和幸福 《每日电讯报》(2023) https://www.telegraph.co.uk/business/2023/07/16/ai-girlfriend-replika-caryn-apps-relationship-health/ Google 学术搜索 76 K. 格里沙伯 聊天机器人能讲好布道吗? 数百人参加由 ChatGPT 生成的教堂礼拜,以找出答案。美联社新闻(2023) https://apnews.com/article/germany-church-protestants-chatgpt-ai-sermon-651f21c24cfb47e3122e987a7263d348 Google 学术搜索 77 P. 卡 夫 卡 无论你喜欢与否,你都会看到更多人工智能撰写的文章 Vox(2023 年) https://www.vox.com/technology/2023/7/18/23798164/gizmodo-ai-g-o-bot-stories-jalopnik-av-club-peter-kafka-media-column Google 学术搜索 78 J. 拉蒂默 战争中的欺骗 Overlook Press (2001 年)) Google 学术搜索 79 M·阿特莱森 诱惑测试:人工智能和消费者信任工程 美国政府,联邦贸易委员会(2023 年) https://www.ftc.gov/business-guidance/blog/2023/05/luring-test-ai-engineering-consumer-trust Google 学术搜索 80 欧盟委员会 《人工智能法案》 https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai (2024) Google 学术搜索 81 欧盟委员会 欧洲议会和理事会制定人工智能统一规则(《人工智能法》)并修订某些联盟立法法案的法规提案 COM (2021 年) 206 决赛,2021/0106(COD)。布鲁塞尔 https://artificialintelligenceact.eu/the-act/ Google 学术搜索 82 T. 谢夫兰,S. 法夸尔,B. 加芬克尔,M. 芳,J. 惠特尔斯通,J. 梁,D. 科科塔伊洛,N. 马歇尔,M. 安德容,N. Kolt 等人。 极端风险的模型评估 预印本 arXiv(2023年), 10.48550/arXiv.2305.15324 Google 学术搜索 83 C. 向 Startup 使用 AI 聊天机器人提供心理健康咨询,然后意识到它“感觉很奇怪”。副 https://www.vice.com/en/article/4ax9yw/startup-uses-ai-chatbot-to-provide-mental-health-counseling-and-then-realizes-it-feels-weird (2023) Google 学术搜索 84 J. 基兴鲍尔,J. 盖平,Y. 温,J. 卡茨,I. 米尔斯,T. 戈尔茨坦 大型语言模型的水印 预印本 arXiv(2023年), 10.48550/arXiv.2301.10226 Google 学术搜索 85 G. 李,Y. 陈,J. 张J. 李,S. 郭, T. 张 战争:打破 AI 生成内容的水印保护 预印本 (2024), 10.48550/arXiv.2310.07726 Google 学术搜索 86 K. 克里希纳,Y. 宋,M. 卡尔平斯卡,J. 维廷,M. 艾耶尔 释义可以逃避 AI 生成的文本检测器,但检索是一种有效的防御措施 预印本 arXiv(2023年), 10.48550/arXiv.2303.13408 Google 学术搜索 87 V.S. 萨达西万,A. 库马尔,S. Balasubramanian,W. 王,S. 飞子 人工智能生成的文本能否被可靠地检测出来? 预印本 arXiv(2023年), 10.48550/arXiv.2303.11156 Google 学术搜索 88 S. 卡斯珀,J. 林,J. 权,G. 卡尔普,D. 哈德菲尔德-梅内尔 探索、建立、利用:从零开始的红队语言模型 预印本 arXiv(2023年), 10.48550/arXiv.2306.09442 Google 学术搜索 89 L.弗洛里,D. 帕莱卡,F. 特拉梅尔 使用一致性检查评估超人模型 预印本 arXiv(2023年), 10.48550/arXiv.2306.09983 在发布者处查看 Google 学术搜索 90 一个。 阿扎里亚,T. 米切尔 LLM 的内部状态知道它什么时候在撒谎 2023 年自然语言处理实证方法会议 (2023),第 967-976 页 View at publisher 交叉引用 在 Scopus 中查看 Google 学术搜索 91 C.伯恩斯,H. 叶,D. 克莱因,J. 斯坦哈特 在没有监督的情况下发现语言模型中的潜在知识 第十一届学习表征国际会议论文集(2022) Google 学术搜索 92 文学学士 莱文斯坦,D.A. 赫尔曼 仍然没有语言模型的测谎仪:探索经验和概念上的障碍 预印本 arXiv(2023年), 10.48550/arXiv.2307.00175 View at publisher Google 学术搜索 93 一个。 邹,L. 潘,S. 陈,J. 坎贝尔,P. 郭, R. 任,A. 潘,X。 尹,M. 马泽卡,A.-K. Dombrowski 等人。 表示工程:理解和控制神经网络的内部工作原理 预印本 arXiv(2023年), 10.48550/arXiv.2310.01405 Google 学术搜索 94 L.帕基亚迪,AJ 陈 S. 明德曼,I. 莫斯科维茨,A.Y. 潘,Y. 加尔,O. 埃文斯,J. 布劳纳 如何抓住 AI 骗子:通过提出不相关的问题在黑匣子 LLM 中进行谎言检测 第12届学习表征国际会议(ICLR 2024)论文集(2023) Google 学术搜索 95 D.哈拉维,J.-S. 德南,J. 斯坦哈特 过度思考真相:了解语言模型如何处理虚假演示 预印本 arXiv(2023年), 10.48550/arXiv.2307.09476 Google 学术搜索 96 S. 林,J. 希尔顿,O. 埃文斯 TruthfulQA:衡量模型如何模仿人类的谎言 预印本 arXiv(2022年), 10.48550/arXiv.2109.07958 Google 学术搜索 97 一个。 阿斯克尔,Y. 白,A. 陈,D. 排水,D。 甘古利,T. 赫尼汉,A. 琼斯,N. 约瑟夫,B. 曼恩,N. DasSarma 等人。 作为对准实验室的通用语言助理 预印本 arXiv(2021年), 10.48550/arXiv.2112.00861 Google 学术搜索 98 Y. 白,S. 卡达瓦特,S. 昆杜,A. 阿斯克尔,J. 克尼翁,A. 琼斯,A. 陈,A. 戈尔迪,A. 米霍西尼,C. McKinnon 等人。 宪法 AI:AI 反馈的无害性 预印本 arXiv(2022年), 10.48550/arXiv.2212.08073 Google 学术搜索 99 K. 李 O. 帕特尔,F. 维亚加斯,H. 菲斯特,M. 瓦滕贝格 推理时间干预:从语言模型中引出真实的答案 第37届神经信息处理系统会议论文集(c)(2023)) Google 学术搜索 被引用 (3) 真相是普遍的:LLM 中谎言的鲁棒检测 2024年,arXiv PKU-SafeRLHF:骆驼家族模型的安全对齐偏好数据集 2024年,arXiv 当你的人工智能欺骗你时:从人类反馈中强化学习中部分可观察性的挑战 2024年,arXiv