免费医学论文发表-大型语言模型可以估计公众对全球变暖的看法吗?算法保真度和偏差的实证评估
李桑国,彭泰泉 ,马修·戈德堡,塞斯·罗森塔尔,约翰·科彻,爱德华·迈巴赫,安东尼·莱斯罗维茨
抽象
大型语言模型 (LLM) 可用于估计人类的态度和行为,包括公众舆论的测量,这一概念称为算法保真度。本研究评估了 LLM 在估计公众对全球变暖的看法时的算法保真度和偏差。LLM 以人口统计学和/或心理协变量为条件,以模拟调查响应。研究结果表明,LLM 可以有效地再现总统投票行为,但不能再现全球变暖观点,除非包括与问题相关的协变量。当以人口统计和协变量为条件时,GPT-4 在预测对全球变暖的信念和态度方面表现出更高的准确性,从 53% 到 91% 不等。此外,我们发现一种算法偏差低估了美国黑人对全球变暖的看法。这些结果在强调 LLM 帮助社会科学研究的潜力的同时,强调了在使用 LLM 进行调查模拟时条件反射、模型选择、调查问题格式和偏差评估的重要性。
数字
表 1图 4图 1图 2图 3表 1图 4图 1图 2图 3
引文: Lee S, Peng T-Q, Goldberg MH, Rosenthal SA, Kotcher JE, Maibach EW, et al. (2024) 大型语言模型可以估计公众对全球变暖的看法吗?对算法保真度和偏见的实证评估。PLOS Clim 3(8): e0000429. https://doi.org/10.1371/journal.pclm.0000429
编辑 器: Lily Hsueh,美国亚利桑那州立大学
收到: 2024 年 2 月 22 日;接受: 2024 年 6 月 28 日;发表: 8月 7, 2024
版权所有: © 2024 Lee et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究中使用的所有数据均可在 OSF (https://osf.io/w36gn/) 上公开获得。
资金: 作者没有获得这项工作的具体资金。
利益争夺: 作者已声明不存在相互竞争的利益。
介绍
公众对全球变暖的看法会影响政策制定决策 [1] 和公众行为 [2]。学者和政策制定者通常使用代表性调查来衡量和了解公众舆情 [3]。虽然调查是了解公众对全球变暖的看法的重要工具,但其资源密集型性质通常会限制分析的深度和包容性,可能导致对多数观点的偏见而忽视少数观点。此外,资源的稀缺使得在一次调查中涵盖所有实际意义的变量具有挑战性,这限制了我们对影响公众对全球变暖的看法的不同因素之间联系的理解。
像 GPT 这样的大型语言模型 (LLM) 有可能通过用更少的资源模拟调查回复并增加来自代表性不足的子群体的数据来补充传统的调查方法。此外,与传统的预测方法(例如仅依赖于数字数据的回归模型)不同,LLM 擅长整合语义信息(例如,调查问题中的语义信息)。这种独特的能力在为未经测试的全球变暖调查问题生成答案方面特别有利,从而有可能补充公众舆论数据集 [4]。然而,LLM 的这些潜力取决于它们准确估计公众对全球变暖的看法的能力。作为初步评估,本研究调查了 LLM 能够在多大程度上准确模拟和反映公众对全球变暖的多个维度的看法。
LLM 已显示出为社会科学研究做出贡献的巨大潜力。最近的一个发展在于它们能够准确复制一般人群或特定亚群的感知、观点和行为,称为算法保真度 [5]。算法保真度是指 LLM 在思想、态度和社会文化背景之间错综复杂的联系网络准确反映各种人类亚群体中的联系的程度 [5]。通过对包括人类感知和行为在内的大量人类生成数据进行训练,LLM 可能具备模拟公众舆论不同方面的能力。
最近的研究取得了可喜的结果。例如,Argyle 及其同事发现,人类样本和来自 LLM 的硅样本在总统选举期间的投票行为具有惊人的高度相关性 [5]。硅样本是指由 LLM 合成的样本,这些样本以数千个来自真实人类参与者的社会人口学背景故事为条件 [5]。同样,Hwang 及其同事发现,LLM 能够准确反映公众对不同政治问题的看法,包括枪支管制、性别观点、经济不平等、对科学的信任等 [6]。然而,这些研究中的大多数都集中在政治领域,特别是总统选举和对政治问题的支持。
LLM 是否能够准确代表公众对其他重要社会问题(例如全球变暖)的信念和态度仍不确定。全球变暖的看法与政治观点的不同之处在于,虽然两者都是主观的,但气候变化本身是建立在科学事实基础上的。鉴于这种区别,LLM 在预测公众对全球变暖的看法时可能表现不同。LLM 旨在通过广泛的培训和调整过程来确定事实正确性的优先级 [7]。这种对正确性的关注可能会限制 LLM 反映人类对全球变暖的不同甚至有时是错误的观点的能力。
大型语言模型 (LLM) 中的算法保真度受输入条件和模型选择的影响。准确反映公众对全球变暖的看法需要 LLM 以详细的人口统计数据和特定协变量为条件,以获得更准确的个人视角。研究表明,当 LLM 结合过去的观点数据以及人口统计和意识形态时,它们的预测准确性会提高 [6]。此外,不同的 LLM 版本,如 GPT-3.5 和 GPT-4,其算法保真度也有所不同 [7–9]。在这些研究的基础上,我们评估了不同条件和模型下的算法保真度。具体来说,我们将仅以人口统计为条件的 LLM 与以人口统计和问题相关协变量为条件的 LLM 进行了比较。为简单起见,我们将政治意识形态和党派归属归类为人口变量。此外,我们还研究了不同 LLM 版本的算法保真度:GPT-3.5 和 GPT-4。
公众对全球变暖的看法很复杂。例如,它们包括对全球变暖的看法、对其原因的理解、对问题的担忧、政策支持、行为等。为了更深入地了解 LLM 在多大程度上代表了全球变暖的不同心理方面,我们根据具有全国代表性的调查回复评估了 LLM 预测的评估指标(例如,准确性、F1)和分布。评估指标显示的强劲性能表明算法保真度稳健,从而使硅样本和勘测样本之间的分布紧密匹配。该研究借鉴了 2017 年和 2021 年收集的具有全国代表性的气候变化调查数据,作为评估 LLM 算法保真度的基准。
方法
调查抽样
在 2017 年 10 月 (N = 1,304) 和 2021 年 9 月 (N = 1,006) 收集了两个具有全国代表性的调查数据集。在这些调查中,参与者被要求回答与全球变暖相关的多个问题。这些调查是根据耶鲁大学机构审查委员会 (IRB) 授予的豁免进行的(IRB 协议 ID:2000031972)。出于本研究的目的,于 2023 年 9 月 18 日访问了去标识化数据集的子集。对于每项调查,研究人员从 Ipsos KnowledgePanel 获得了一个不同的样本,其中包括 18 岁及以上的美国成年人。该面板反映了美国人口,是使用概率抽样方法组装而成的。小组成员是使用各种技术招募的,例如随机数字拨号和基于地址的抽样,几乎涵盖了美国的所有住宅电话号码和地址。参与者在线填写了调查表。那些无法访问互联网的人获得了计算机和互联网连接。加入 Ipsos 社区后,会员将被告知参与每项调查都是自愿的,并且所有数据均以匿名形式收集并与客户共享。此外,在调查开始时,参与者被告知某些问题将与他们的政治观点有关,如果他们愿意,可以选择退出。
硅样品数据收集
为了生成硅样本数据集,我们使用了两个版本的 GPT(GPT-3.5 与 GPT-4)和两组条件输入(仅人口统计与人口统计和问题相关协变量)。具体来说,通过 OpenAI API 使用 GPT-3.5-turbo-16k 和 GPT-4 生成硅样品,根据之前的研究将温度设置为 0.70 [5]。对于仅基于人口统计的模型,我们通过提示将人口统计信息(例如种族/民族、性别、年龄、政治意识形态、政党隶属关系、教育和居住状态)输入到模型中。同时,对于以人口统计和协变量为条件的模型,其他协变量,例如全球变暖中的问题参与、关于该主题的人际讨论以及对科学共识的认识,与人口统计一起包括在内。之所以选择这些协变量,是因为它们在两波调查中都普遍出现,并且在以前的研究中是重要的协变量 [10–13]。
我们在提示中使用了改编自 Argyle 等人 [5] 的访谈格式(提示示例可在 S1 文本的表 A 和表 B 中找到)。在系统层面,GPT 被指示充当受访者,以指令为指导:“您是受访者。根据您之前的回答,回答最后一个问题。随后,模拟面试开始了。为了建立明确的调查时间表,第一个提示的措辞为:“采访者:这次采访的当前年份和月份是什么?我:2017 年 10 月。对于 2021 年的调查,输入了“2021 年 9 月”。设置时间表后,使用实际调查数据提供导致最终问题的 “我” 回答。例如,关于种族/民族,提示的框架是:“采访者:我要给你读一个包含五个种族类别的列表。你认为自己是哪个种族?“白人、非西班牙裔”、“黑人、非西班牙裔”、“2+ 种族、非西班牙裔”、“西班牙裔”或“其他非西班牙裔”。我:{调查回复中的种族}。
最后一个问题是目标,GPT 为其提供了答案。例如,关于带有二元答案选项的全球变暖信念,它的措辞是,“采访者:你怎么看:你认为全球变暖正在发生吗?你会说'是'还是'不是'?对于有关全球变暖的其他目标问题,我们提供了与调查相匹配的全面答案选项。对于具有多个回答选项的全球变暖信念,目标问题被表述为,“采访者:你怎么看:你认为全球变暖正在发生吗?你会说'是'、'否'、'不知道'还是'拒绝'回答?对于全球变暖的原因,目标问题被表述为,“采访者:假设全球变暖正在发生,你认为它是'主要由环境的自然变化引起'、'主要由人类活动引起'、'由人类活动和自然变化引起'、'两者都不是因为全球变暖没有发生'、'其他(请注明)”、“不知道”或'拒绝'回答吗?对于全球变暖的担忧,目标问题是“采访者:你对全球变暖有多担心?您会说你'一点也不担心'、'不是很担心'、'有点担心'、'非常担心'还是'拒绝'回答?
有时,GPT 生成的答案与列出的选项不完全匹配。我们手动纠正了这些幻觉。例如,GPT 可能会生成“是的”,而不是直接的“是”,而是“是的,我相信全球变暖正在发生”。此类响应被重新编码以与预期选项保持一致。任何偏差都很容易识别并进行调整以适应给定的答案选项。
调查测量
目标变量。
全球变暖的信念。为了衡量对全球变暖的信念,我们提供了全球变暖的简要定义:“全球变暖是指世界平均温度在过去 150 年中一直在上升,未来可能会进一步升高”,然后问道“你相信全球变暖正在发生吗”,并给出了三个回答选项:“不,“”不知道“和”是的”。
全球变暖的原因。我们使用了调查问题的重新编码版本。最初,调查问道:“假设全球变暖正在发生,你认为它是......”有五个答案选项:“主要由人类活动引起”、“主要由环境的自然变化引起”、“以上都不是,因为全球变暖没有发生”、“其他(请具体说明)”、“拒绝”。然后,该措施被重新编码以纳入开放式回答,将原来的五个答案选项扩展到七类:“主要由人类活动引起”、“主要由环境的自然变化引起”、“由人类活动和自然变化引起”、“两者都不是,因为全球变暖没有发生”、“不知道”、“其他(请说明)”和“拒绝”。此重新编码的版本用于 LLM 提示符。
全球变暖担忧。这是通过一个问题来衡量的:“您对全球变暖有多担心”,有四个回答选项:“一点也不担心”、“不是很担心”、“有点担心”和“非常担心”。
人口。
Ipsos 根据小组成员注册时提供的答案,提供了种族、民族、性别、年龄、教育和居住状态等人口统计详细信息。种族和族裔使用了五个类别:“白人、非西班牙裔”、“黑人、非西班牙裔”、“其他、非西班牙裔”、“西班牙裔”和“2+ 种族,非西班牙裔”。性别包括两类:“男性”和“女性”。年龄分为四组:“18-29”、“30-44”、“45-59”和“66+”。教育分为四类:“高中以下”、“高中”、“一些大学”、“学士学位或更高学位”。居住州包括 50 个州和美国哥伦比亚特区。
政治意识形态。这是通过一个问题来衡量的:“一般来说,你认为自己是......”有六个回答选项:“非常自由”、“有点自由”、“温和、中间路线”、“有点保守”、“非常保守”。
政党。我们采用两步法来衡量政党。首先,参与者被要求将自己标识为“共和党”、“民主党”、“独立”、“其他”或“无党派/对政治不感兴趣”。然后,那些选择“独立”或“其他”的人被问到第二个问题:他们是更倾向于“共和党”、“民主党”还是“两者都不是”。如果参与者最初被认定为共和党或民主党,或者如果他们在第二个问题中倾向于这些政党之一,他们就会被相应地分类。在第一个问题中回答 “独立” 或在第二个问题中回答 “两者都不是” 的人被归类为 “独立/其他”。回答“无党派/对政治不感兴趣”的参与者被归类为“无党派/不感兴趣”。
全球变暖协变量。
问题参与全球变暖。这是通过一个问题来衡量的,“全球变暖问题对你个人有多重要”,有六个回答选项:“一点也不重要”、“不太重要”、“有点重要”、“非常重要”、“极其重要”和“拒绝”。
关于全球变暖的人际讨论。这是通过一个问题来衡量的:“您多久与家人和朋友讨论一次全球变暖”,并提出五个回答选项:“从不”、“很少”、“偶尔”、“经常”和“拒绝”。
科学共识意识。这是通过一个问题来衡量的,“哪个最接近你自己的观点”,有五个回答选项:“大多数科学家认为全球变暖没有发生”、“科学家之间关于全球变暖是否正在发生存在很多分歧”、“大多数科学家认为全球变暖正在发生”、“不知道说什么”和“拒绝”。
试点测试。
作为试点测试,我们评估了 LLM 在预测总统选举投票行为方面的算法保真度,以复制之前的研究 [5]。我们使用自己的数据集进行了这种复制,以探索算法保真度在不同数据集中的泛化程度。我们的结果在很大程度上证实,当以个人人口统计数据为条件时,LLM 可以有效地复制投票行为。有关试点测试的详细信息,请参见 S1 文本。S1 Text 中的图 A 和表 C 提供了试点测试的结果。
结果
全球变暖信念的算法保真度:从二元选择到多项式选择
我们调查了 LLM 是否表现出对全球变暖信念的高度算法保真度。作为初步检查,我们将样本限制在对全球变暖是否正在发生的问题回答“是”或“否”的受访者,并将 GPT 模型限制为这些二元回答。GPT 在模型、条件和年份中的平均准确率为 85% (SD = 3.41),这表明 GPT 可以高精度地预测公众对全球变暖正在发生的看法。
准确性虽然是正确预测的直观衡量标准,但在分布偏斜的数据集中可能会产生误导,例如我们关于全球变暖正在发生的信念的数据。例如,如果大多数调查参与者的回答是“是”,而 GPT 预测所有案例都是“是”,则它们仍然可能看起来非常准确。为了解决这个问题,我们使用了一个称为 F1 分数的附加评估指标。F1 分数考虑了精度(即正确正预测在所有标记为正的预测中的比例)和召回率(即模型正确识别的实际正案例的比例),从而对分布不均匀的数据进行平衡评估。我们使用 F1 分数和宏观平均 F1 分数 (MAF1) 评估了模型,MAF1 分数是所有答案选项的 F1 分数的平均。
当仅以人口统计学为条件时,GPT 模型的预测准确性受到影响,“是”预测的 F1 分数很高(F1 范围:.91-.92),但“否”预测的 F1 分数较低或不存在(F1 范围:NA-.08)。有趣的是,这些模型似乎假设了对全球变暖的普遍信念,这一假设并不能准确反映美国现实世界观点的多样性。为了提高 LLM 的算法保真度,我们引入了与全球变暖相关的其他协变量,例如问题参与、关于全球变暖的人际讨论以及对全球变暖科学共识的认识。当 GPT-4 同时以人口统计数据和这些额外的协变量为条件时,其 MAF1 从 2017 年调查的 .49 提高到 .82,从 2021 年的不可用提高到 .85。同样,在相同的条件下,GPT-3.5 的 MAF1 从不可用增加到 2017 年的 .53,到 2021 年增加到 .65。
然后,我们评估了添加第三个回答选项“不知道”的效果,而不是将 GPT 限制为简单的“是/否”决定,这反映了民意调查中常用的方法。引入额外的响应选项降低了两个 GPT 的准确性。模型、条件和年份的平均准确率下降到 75% (SD = 3.70),低于二进制情景。仅以人口统计数据为条件的 GPT 无法生成“否”或“不知道”响应,导致这些类别的 F1 分数不存在。以人口统计学和协变量为条件的 GPT 显示出更好的性能。尽管如此,GPT-4 在处理“不知道”(2017 F1:.16;2021 F1:.20)时比使用“否”(2017 F1:.58;2021 F1:.60)时遇到更大的困难。GPT-3.5 在“否”(2017 F1:.24;2021 F1:.21)和“不知道”(2017 F1:.32;2021 F1:.34)中都表现不佳。
图 1 显示了调查参与者和硅样本对全球变暖正在发生的信念的响应分布,其中有两个(上图)和三个(下图)响应选项。与二元版本类似,与实际调查结果相比,仅以人口统计数据为条件且具有三个答案选项的模型高估了认为全球变暖正在发生的个体比例。当 GPT 同时以人口统计学和全球变暖协变量为条件时,响应分布与调查数据更一致。二选和多项选择的评估指标分别在 S1 文本的表 D 和 E 中提供。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 1. 相信全球变暖正在发生:调查样本和硅样本的分布比较。
注意:“仅演示”表示 GPT 仅受人口统计条件,“演示 + Cov”表示 GPT 受人口统计和协变量限制。
https://doi.org/10.1371/journal.pclm.0000429.g001
全球变暖原因的算法保真度
然后,我们根据调查参与者的回答评估了 GPT 模型对全球变暖原因的回答。该调查提供了“人类”、“自然”、“两者兼而有之”、“全球变暖没有发生”等选项(此处简化了标签,完整详细信息见“方法”部分)。这些选项已复制到我们的提示中。GPT 模型、条件和年份的平均准确率为 51% (SD = 7.42)。MAF1 分数不可用,因为模型无法为某些答案选项生成 F1 分数,从而阻止了 MAF1 计算。
图 2 比较了调查和硅样本关于全球变暖因果关系的响应分布。值得注意的是,在相同条件下,与 GPT-3.5 相比,仅以人口统计数据为条件的 GPT-4 大大高估了将全球变暖归因于人类活动的人数。考虑到 GPT-4 在认知任务方面的普遍优势,这是出乎意料的。但是,将协变量添加到人口统计调节中会使响应分布与调查数据更紧密地保持一致。评估指标可在 S1 文本的表 F 中找到。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 2. 全球变暖原因:调查样本和硅样本的分布比较。
注意:“仅演示”表示 GPT 仅受人口统计条件,“演示 + Cov”表示 GPT 受人口统计和协变量限制。
https://doi.org/10.1371/journal.pclm.0000429.g002
全球变暖担忧的算法保真度:从分类答案到顺序评估
在最后阶段,我们询问了 GPT 模型对全球变暖的估计担忧程度。在调查中,这个问题被构建为一个有序变量,具有四个不同的类别:“非常担心”、“有点担心”、“不是很担心”和“一点也不担心”。我们将这个序数量表合并到提供给 GPT 模型的提示中。模型、条件和年份的平均准确率为 48% (SD = 13.02)。仅以人口统计学为条件的 GPT-4 与调查数据的匹配度很差(2017 MAF1 = .22,2021 MAF1 = .22)。具有相同条件的 GPT-3.5 未能产生“不是很担心”和“一点也不担心”的任何响应,导致 MAF1 在这两年都不可用。向人口统计数据添加额外的协变量可以提高保真度,GPT-4 的表现优于 GPT-3.5(2017 MAF1 = .65 和 .47;2021 MAF1 = .54 和 .50)。
图 3 说明了条件和模型版本之间的相互作用如何影响算法保真度。GPT-4 和 GPT-3.5 在仅以人口统计数据为条件时,都高估了担心全球变暖的人数。与早期的发现一致,与 GPT-3.5 相比,GPT-4 的估计更加极端,尤其是在过度代表那些“非常担心”全球变暖的人方面。然而,与类似条件的 GPT-3.5 相比,以人口统计学和协变量为条件的 GPT-4 显示出与调查数据更紧密一致的响应分布。评估指标可在 S1 文本的表 G 中找到。S1 文本中的图 B 和表 H 总结了基于 Kullback-Leibler 散度 (KLD) 的模型和调查项目中调查样本和硅样本之间总体分布的评估。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 3. 全球变暖担忧:调查样本和硅样本的分布比较。
注意:“仅演示”表示 GPT 仅受人口统计条件,“演示 + Cov”表示 GPT 受人口统计和协变量限制。
https://doi.org/10.1371/journal.pclm.0000429.g003
跨亚群的算法偏差评估
在这里,我们研究了 GPT 模型如何表示全球变暖发生在不同亚群中的信念。重点是高保真模型,其中 GPT-4 以人口统计和协变量为条件,以对全球变暖的二元信念为条件。
表 1 详细说明了准确性和 MAF1 结果。解释基于 MAF1,低于 0.70 的分数通常被认为是不充分的。总体研究结果表明,GPT-4 准确预测了全球变暖发生在不同亚群中的信念。然而,某些亚群的准确性较低。GPT-4 在预测非西班牙裔黑人认为全球变暖发生在 2017 年 (MAF1 = .62) 和 2021 年 (MAF1 = .60) 方面不太精确。进一步的分析表明,GPT-4 低估了非西班牙裔黑人,他们认为全球变暖正在发生。GPT-4 还低估了非西班牙裔其他人对 2021 年全球变暖的看法 (MAF1 = .64),尽管由于样本量有限且亚组内结果的异质性,这需要进一步调查。S1 文本中的表 I 包括对总统选举投票行为的算法偏差评估。S1 文本的表 J 中提供了总统选举和亚群全球变暖信念(二元选择)的每个答案选项的单独 F1 分数。此外,S1 文本的表 K 中提供了跨亚群的全球变暖信念(多项选择)、原因和担忧的准确性和 MAF1 分数。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 1. GPT 对亚群全球变暖信念的准确性和 MAF1。
https://doi.org/10.1371/journal.pclm.0000429.t001
相关模式对应评估
GPT 生成的回答“反映了想法、人口统计和行为之间关系的基本模式,这些关系将在可比的人类生成数据中观察到 [5]。因此,我们研究了 GPT 输出如何与人口统计数据的相关性以及协变量与调查数据中的目标变量相对应。我们使用 Cramer's V 来测量关联强度。图 4 说明了调查和 GPT 模型变量之间的 Cramer V 值。GPT-4 以人口统计学和协变量为条件,在关联模式中与调查数据最匹配。模型和调查之间跨人口统计变量的 Cramer's V 的最小差异证明了这一点(为了计算 Cramer's V 的平均差异,我们只考虑与人口统计变量相关的 Cramer's V 值。与全球变暖协变量关联的 Cramer V 值被排除在此计算中,因为它们在所有模型中并非始终可用。包括它们可能会导致模型之间的不公平比较。和年份(平均 Cramer V 差值(以下简称差异)= .04,SD = . 05)。紧随其后的是具有相同条件的 GPT-3.5 (diff = .09, SD = .12),只有人口统计学的 GPT-3.5 (diff = .10, SD = .09),以及只有人口统计学的 GPT-4 (diff = .11, SD = .11)。毫不奇怪,全球变暖协变量往往比人口统计学与目标变量的相关性更强。考虑这些协变量的模型比没有这些协变量的模型表现出更好的性能,这表明集成相关背景信息对于实现高水平的算法保真度至关重要。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 4. 调查与 GPT 中的 Cramer V 相关性。
注意:无法估计某些模型的 Cramer V,因为结果没有变化(例如,GPT-3.5 与 Demo 仅用于 GW 信念)。
https://doi.org/10.1371/journal.pclm.0000429.g004
讨论
本研究通过模拟关于全球变暖的公众舆论并将合成数据与调查数据进行比较,调查大型语言模型 (LLM) 的算法保真度和偏差。基于先前对政治领域算法保真度的研究 [5],我们将分析扩展到全球变暖的主题。总体研究结果表明,LLM 在预测公众对全球变暖的看法方面表现出有前途的能力。尽管如此,我们的研究结果还确定了在全球变暖调查研究中使用 LLM 的几个担忧。
我们的研究发现,将与问题相关的协变量与人口统计学相结合可以显著提高全球变暖研究中算法的保真度。与仅使用人口统计数据的 LLM 相比,以两者为条件的 LLM 在预测个人对全球变暖的看法方面明显更好。这一改进凸显了 LLM 纳入心理因素的能力,这些因素通常比单独的人口统计学更能表明对全球变暖的看法 [11]。然而,尽管已知年龄、教育和政治观点等人口因素与全球变暖信念有关,但仅依赖人口统计信息的 LLM 表现不佳 [11]。
LLM 的版本也会影响其算法保真度。GPT-4 仅以人口统计数据为条件,往往高估了全球变暖是人为造成的信念,并比 GPT-3.5 更担心全球变暖。当同时使用人口统计和与问题相关的协变量时,这种高估会减少,GPT-4 会提供更准确的预测并与调查结果更紧密地保持一致。这表明 GPT-4 的高级训练和对齐可能既可以提高又可能限制保真度,尤其是对于全球变暖等基于科学的学科。GPT-4 的设计包括一个彻底的对齐过程,旨在提高 GPT 3.5 的准确性 [7]。有了足够的数据,例如协变量,GPT-4 的复杂集成可能会比其前身更准确地估计个人意见。然而,在缺乏全面数据的情况下,GPT-4 可能过度依赖科学一致的观点,这些观点可能与实际观点不同。虽然这个概念是可以想象的,但它缺乏强有力的实证支持,并且正在进行的研究对于理解影响通过不同过程开发的模型的不同反应的因素至关重要。
同样重要的是要承认,AI 开发人员缺乏透明度会使我们理解影响 LLM 响应的因素变得复杂,尤其是在不确定性的情况下(例如,当仅使用人口统计数据时)。它提出了一个问题,即大量的训练数据是否有利于对气候变化的某些态度,或者由人类反馈指导的训练后调整是否缺乏代表性。为了提高 LLM 在社会科学研究中的可靠性,LLM 开发的透明度势在必行。
我们的研究表明,LLM 在某些亚群方面存在潜在的算法偏差,这与之前的发现相呼应 [9]。LLM,尤其是那些通过人类反馈提炼的LLM,通常反映了自由派、高收入、高教育、无宗教信仰的个人以及那些不信奉佛教、伊斯兰教或印度教等宗教的人的观点[9]。在我们的研究中,LLM 在预测非西班牙裔美国黑人对全球变暖的看法方面表现不佳。这种差异不能用样本量来解释,因为样本较小的其他种族和多种族群体的准确性仍然更高。LLM 通常反映其训练数据中固有的偏差,这可能导致输出有偏差。当考虑数据集中代表性不足的群体时,这些偏差尤其明显。这种偏见的影响并不局限于任何一个国家,而是引起全球关注,因为来自发展中国家或经济弱势国家的个人的观点可能没有得到充分代表。这个问题的根源在于多样化训练数据的可用性和使用有限,以及指导 LLM 学习过程的人类反馈中的潜在偏见。这种情况凸显了在收集数据和整理反馈方面需要采用更具包容性的方法,确保听到更广泛的声音并准确反映在技术结果中。因此,对 LLM 的算法偏见进行彻底调查,尤其是针对边缘化群体和国家的偏见,对于确保更广泛的社会科学研究领域的公平性和准确性至关重要。
我们的研究为将 LLM 整合到气候变化研究和其他领域提供了可操作的指导。我们建议研究人员应该使用与全球变暖相关的特定领域变量来限制 LLM,例如公众参与和科学共识,以提高它们的相关性和准确性。由于全球变暖感知的多面性,包含更广泛的协变量可能会进一步提高模型对特定调查目标的精确性。此外,我们的研究结果表明,当配备潜在协变量时,像 GPT-4 这样更复杂的模型显示出比 GPT-3.5 更高的保真度。此外,缩小答案选择的范围,尤其是 “don't know” 等模糊的答案,可能会提高估计的准确性。尽管限制答案选项降低了 LLM 在社会科学研究中的适用性,但它在简化探索性数据收集方面仍然具有重要价值。例如,在我们的研究中,我们以相当低的成本(即截至 2023 年 9 月,使用 GPT-2.08 约为 20.86 美元,使用 GPT-4 约为 4 美元)从1,304个合成样本中获取了数据,与传统调查技术相比,时间缩短了。这凸显了 LLM 的成本效益和速度。然而,我们并不认为 LLM 可以取代传统的调查方法和实证研究。传统调查现在是并将是评估公众舆论的重要工具,其中成本效益不应掩盖科学的严谨性。因此,我们建议使用 LLM 作为初步调查、调查设计、结果预测和假设生成的补充工具。同时,应保持既定的实证研究方法,以确保研究结果的严谨性。
我们的研究存在局限性,为未来的探索提供了途径。首先,我们专注于封闭式问题,忽略了开放式问题提供的深度。开放式响应可以提供更丰富的定性数据,从而有可能提高 LLM 算法的保真度。未来的研究应该调查将开放式问题回答作为条件输入对 LLM 的影响。其次,我们的研究集中在提示格式(例如,答案选项的数量)对算法保真度影响的狭义方面,而没有探索提示结构中可能影响保真度的其他方面,例如响应选项的顺序 [14]。问题序列以及目标问题的数量和排列等其他元素也可能影响算法保真度。在未来的研究中,需要更加关注了解这些调查设计元素如何影响人类和 LLM 的回答。
总之,这项研究为 LLM 在模拟公众对全球变暖的看法时的算法保真度和偏差提供了有价值的见解。本研究为条件提示和选择模型提供了实用指导,以最大限度地提高社会科学应用中的保真度,同时强调验证 LLM 的重要性,特别是对于少数群体。需要一种细致入微的方法来利用 LLM 的强大功能,同时通过主动算法审计和偏差缓解来解决其局限性。
支持信息
S1 文本 -
跳至 fig分享导航
很抱歉,我们无法加载您的数据。
下载
无花果分享
S1 文本。
https://doi.org/10.1371/journal.pclm.0000429.s001
(DOCX)
引用
1.布罗姆利-特鲁希略 R,坡 J。显著性的重要性:公众舆论和国家对气候变化的政策行动。J Pub Pol. 2020 年;40: 280–304.
查看文章谷歌学术
2.Doherty KL, Webler TN. 社会规范和效能信念推动了 Alarmed 部分的公共领域气候行动。自然气候变化。2016;6: 879–884.
查看文章谷歌学术
3.贝林斯基 AJ。通过调查衡量公众意见。Annu Rev Polit Sci. 2017;20: 309–329.
查看文章谷歌学术
4.Kim J, Lee B. 人工智能增强调查:利用大型语言模型和调查进行民意预测。arXiv;2023. 可用: http://arxiv.org/abs/2305.09620
查看文章谷歌学术
5.Argyle LP, Busby EC, Fulda N, Gubler JR, Rytting C, Wingate D. 一多:使用语言模型模拟人类样本。政治分析。2023 年;31: 337–351.
查看文章谷歌学术
6.Hwang E, Majumder BP, Tandon N. 使语言模型与用户意见保持一致。arXiv;2023. 可用: http://arxiv.org/abs/2305.14929
查看文章谷歌学术
7.Aher G, Arriaga RI, Kalai AT.使用大型语言模型来模拟多个人类并复制人类受试者研究。2023.
查看文章谷歌学术
8.打开人工智能。GPT-4 技术报告。arXiv;2023. 可用: http://arxiv.org/abs/2303.08774
查看文章谷歌学术
9.Santurkar S, Durmus E, Ladhak F, Lee C, Liang P, Hashimoto T. 语言模型反映了谁的观点?arXiv;2023. 可用: http://arxiv.org/abs/2303.17548
查看文章谷歌学术
10.Goldberg MH, Van Der Linden S, Maibach E, Leiserowitz A. 讨论全球变暖导致对气候科学的接受度更高。美国国家科学院院刊。2019;116: 14804–14805.PMID:31285333
查看文章PubMed/NCBI谷歌学术
11.Hornsey MJ、Harris EA、Bain PG、Fielding KS。对相信气候变化的决定因素和结果的荟萃分析。自然气候变化。2016;6: 622–626.
查看文章谷歌学术
12.Reser JP,布拉德利 GL。感知到的气候变化个人经历的性质、意义和影响。WIREs 气候变化。2020;11:E668。
查看文章谷歌学术
13.van der Linden S, Leiserowitz AA, Feinberg GD, Maibach EW.关于气候变化作为门户信念的科学共识:实验证据。公共科学图书馆一号。2015;10:e0118489。PMID:25714347
查看文章PubMed/NCBI谷歌学术
14.Pezeshkpour P, Hruschka E. 大型语言模型对多项选择题中选项顺序的敏感性。arXiv;2023. 可用: http://arxiv.org/abs/2308.11483
查看文章谷歌学术