免费医学论文发表-训练变异性在任意视觉运动映射的基于模型和无模型学习中的作用
卡洛斯·委拉斯开兹-巴尔加斯 ,纳撒尼尔·道 (Nathaniel D. Daw),乔丹·泰勒 抽象 人脑的一个基本特征是它学习新运动技能的能力。这种能力需要形成截然不同的视觉运动映射。使用网格导航任务,我们研究了训练可变性是否会增强视觉运动映射(键到方向规则)的灵活使用,从而获得更好的泛化性能。实验 1 和 2 表明,与训练在单个对之间移动的参与者相比,受训练在多个起始-目标对之间移动的参与者对远端和近端目标表现出更强的泛化能力。这一发现表明,即使在没有计划的简单任务中,有限的可变性也会影响决策。此外,在训练阶段,暴露于较高可变性的参与者更倾向于选择与直觉相反的选项,即在约束映射下将光标从目标移开,同时最小化其实际距离,这表明他们更多地参与基于模型的计算。在实验 3 和 4 中,我们表明,在学习早期引入短时间的变异性或将随机性纳入视觉运动映射中,可以增强用单对训练的参与者的有限泛化性能。我们的计算建模分析表明,无模型和基于模型的计算之间的混合模型在训练和泛化阶段具有不同的混合权重,最好地描述了参与者的数据。重要的是,我们的实验组之间基于模型的权重的差异与训练和泛化期间的行为发现相似。综上所述,我们的结果表明,训练可变性使视觉运动映射的灵活使用成为可能,这可能是通过防止由于不断改变反应的需求而导致的习惯巩固。 作者总结 新运动技能的发展通常需要学习动作和结果之间的新关联。这些新颖的映射可以是灵活的并推广到新的情况,也可以是更局部的,具有狭窄的泛化,类似于刺激-动作关联。在使用导航任务的一系列实验中,我们表明,在训练可变性制度下,可泛化的映射受到青睐,而在没有可变性的情况下,则开发具有狭义泛化的局部映射。在我们的实验中,训练变异性是由多个目标或动作-结果映射中的随机性产生的,这两种机制都导致了成功的泛化。此外,我们表明,即使参与者随后长时间暴露在无变异性中,也可以观察到训练变异性在泛化方面的好处。这些结果最好通过无模型和基于模型的强化学习算法的混合来描述,训练和泛化阶段具有不同的混合权重。 数字 图 13图 14表 4图 1图 2图 3图 4表 1图5图 6图 7表 2图8Fig 9Fig 10Fig 11Table 3Fig 12图 13图 14表 4图 1图 2图 3 引文: Velázquez-Vargas CA, Daw ND, Taylor JA (2024) 训练变异性在任意视觉运动映射的基于模型和无模型学习中的作用。PLoS 计算生物学 20(9): e1012471 号。 https://doi.org/10.1371/journal.pcbi.1012471 编辑 器: Ulrik R. Beierholm,大不列颠及北爱尔兰联合王国杜伦大学 收到: 2024 年 6 月 28 日;接受: 2024 年 9 月 6 日;发表: 9月 27, 2024 版权所有: © 2024 Velázquez-Vargas et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。 数据可用性:本文的补充材料(包括代码和数据)可作为 https://osf.io/trjsg/ 开放科学框架上的项目页面获得。 资金: 本手稿中报告的研究得到了美国国立卫生研究院国家神经疾病和中风研究所 R01NS131552 的支持(授予 JT)。这项工作还得到了海军研究办公室 N00014-18-2873(授予 JT)、J. Insley Blair Pyne 基金(授予 JT)、认知科学计划(授予 CV)和自然科学新思想研究创新基金(授予 JT)的支持普林斯顿大学。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。 利益争夺: 作者已声明不存在相互竞争的利益。 介绍 学习任何新的运动技能时要克服的第一个问题是将特定动作与预期结果联系起来。在数字时代,这个问题变得越来越复杂,行动和结果之间的映射可以像想象力允许的那样多样化——想想数字应用程序和视频游戏背后的各种行动-结果关联就知道了。例如,使用两个拇指键入文本消息,使用捏合动作放大和缩小智能手机上的内容,或在视频游戏中驾驶汽车。起初,学习这些新颖的映射既繁琐又费力,但随着学习的进行,最终会形成行动和结果之间的映射,使个人能够轻松成功使用该设备。这种映射的形成可以说是学习任何新运动技能的最重要步骤之一 [1–5]。然而,令人惊讶的是,除了少数例外 [6,7] 之外,我们对新颖的电机映射最初是如何形成的知之甚少。 传统上,如何学习运动映射的问题一直是感觉运动适应任务(例如棱镜、视觉运动旋转和力场)的重点,这些任务对运动的感觉结果施加了扰动 [8–10]。虽然适应任务最初被认为是研究这个问题的模型范式[11–13],但近年来,很明显,当面临外部施加的扰动时,这些任务可能只会迫使现有运动映射的重新校准,而不是首先建立映射[14,只有当这些重新校准机制无法完全抵消适应范式中的这些扰动时 [15],更多的重新学习才能参与为该任务开发新的控制器 [16]。 虽然已经有许多关于操作性条件反射和联想学习的研究,将行动与结果联系起来,但尚不清楚这些研究中的学习在多大程度上反映了运动映射本身的形成[17–19]。区分两个级别的选择可能是有帮助的,至少在概念上是有帮助的:一个更抽象的、关于目标和状态变化的内部推理的层次,以及一个更外部的、以响应为重点的层次,关于如何利用运动来实现这些计划。在许多研究中,例如在空间或迷宫导航中,代理已经知道如何移动的控制策略(即,一个动作如何导致状态变化),相反,重点是在更抽象的层面上推理或学习状态变化如何导致奖励方面的预期结果[20,相反,另一组范式完全专注于外部提示的反应,没有任何内部计划。这些任务包括运动序列学习[22\u2012224]、离散序列产生[25\u2012226]和m x n任务[27\u201228],所有这些都可以被视为从头运动学习的一种形式,在任意动作和结果之间建立了一种关系。然而,在这些研究中,没有来自内部目标的基础映射,从中可以形成一个可推广的运动图。对新情况或情境的泛化被认为是运动映射的标志性特征,而不是死记硬背刺激-反应关联[8,29,30]。 此外,这些序列学习任务的不同变体是在外部生成的,因此适当的反应序列完全由实验刺激指定[31]。参与者必须精确地遵循一组刺激-反应对才能成功完成任务。因此,它们可能只反映了我们在日常生活中执行的、内部产生的运动技能的一个子集。因此,虽然在理解如何学习外部生成的刺激-反应映射方面取得了巨大进展,但在理解内部生成的响应-结果映射是如何形成方面取得的进展相对较少。 在学习内部生成的响应映射时,复杂性和自由度的增加可能是进展缓慢的一个潜在原因。难点在于设计和研究一个介于足够的实验复杂性和分析可处理性之间的“金发姑娘区”的任务[32]。Fermin 及其同事开发了适合该区域的网格导航任务,以研究学习内部生成的映射的核心问题:形成新颖且任意的电机映射 [33\u201234]。在这里,参与者将学习如何通过一系列按键将光标从不同的起始位置导航到网格上的各种目标位置。目标是以最少的移动次数尽快导航到目标位置。重要的是,必须学习按键和光标移动之间的不直观和任意的映射。 虽然在这项任务的简单版本中,参与者可以在相对较短的时间内学习,但如何做到这一点仍然是一个悬而未决的问题 [31,33\u201235]。新映射的形成并不总是得到保证。如果任务只需要重复一组有限的动作,那么只能学习局部状态-动作关联——一种死记硬背的形式,这可能是序列学习研究中发生的情况。然而,如果训练中存在更大程度的可变性,那么可能会学习到更丰富的技能表示,例如在行动-结果空间之间形成内部模型。这将提供在训练范围之外进行泛化的能力 [36\u201241]——这一想法与学习中刺激可变性的经典理论相呼应 [42\u201243]。这两种学习形式反映了经典自动化理论[44]的基于实例和算法的过程,以及更现代的无模型和基于模型的强化学习的概念[20,45,46,47]。特别是,后一种形式主义似乎非常适合捕捉候选机制。基于模型的强化学习非常适合捕捉抽象的内部计划的隐蔽形成,然后可以通过单独学习的运动映射来普遍实现。这导致了这样一个假设,即与操作杠杆按下[45]等其他情况一样,当狭窄的动作被过度训练时,更简单的无模型(刺激-反应)学习将占据主导地位。 在这里,通过一系列实验,我们试图通过利用网格导航任务作为模型范式来建立这项工作,以研究新颖和任意的运动映射最初是如何形成的,并寻求描述如何通过无模型和基于模型的强化学习框架来学习它们。我们假设新型运动映射的形成和表示取决于训练的特定条件。具体来说,潜在行动目标的数量与实现该目标的可能解决方案之间的探索程度可能会迫使形成对局部状态-行动关联(例如,死记硬背特定行动序列)的可推广运动映射。泛化到未经训练的条件将为运动映射的存在提供关键测试。 结果 实验 1 训练变异性如何限制视觉运动映射的学习和泛化?两组参与者执行了一项网格导航任务[33,34](图1A),他们使用标准键盘的J、K和L键将光标从不同的起始位置移动到目标位置(详见材料和方法)。在单人组 (n = 16) 中,参与者被训练在单个起始-目标对之间移动,而在多组 (n = 16) 中,参与者被训练在四个起始-目标对之间移动(图 1B)。我们预测 Multiple 组的性能改进在训练期间会较慢,但它们将能够将其性能推广到新的起始-目标对,反映出关键到方向映射的形成,而不是局部状态-动作关联。相比之下,Single group 在训练期间会表现出更快的性能改进,但无法推广到新的起始-目标对。参与者进行了 260 次训练试验,然后进行了 20 次泛化试验,与 20 次训练试验交错进行。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 1. 实验任务。 (A) 参与者在网格环境中将光标(飞船)从起点移动到目标(锚点)位置。在实验 1-3 中,参与者使用了三个键的确定性视觉运动映射,这些键具有移动方向:左下、右和左上。在实验 4 中,每次按键后,映射随机更改,到其余任何方向的概率为 0.2。(B) 在四个实验中,参与者接受了单个或多个起始-目标对的训练(有关详细信息,请参阅材料和方法)。训练后提出了一个泛化阶段,其中目标位置为距起点 7 个(实验 1)或一个移动(实验 2-4)。蓝色和红色网格状态表示潜在的起始位置和目标位置,其中的数字表示特定对。每次试验仅提供一对。该任务的图像是从开源网站 https://commons.wikimedia.org 获取的。 https://doi.org/10.1371/journal.pcbi.1012471.g001 行为结果 图 2A 显示了两组在试验箱(1 个 bin = 10 次试验)中的最佳到达比例,其中最佳到达是受试者使用最少的按键次数(7 次移动)到达目标的试验。正如预期的那样,混合效应模型分析揭示了 Multiple 组的学习曲线较慢。具体来说,与截至试验 60 对应的 bin 的 Multi 组相比,Single 组表现出显着更高的性能 (p < 0.05)。然而,在训练阶段结束时,单组和多组都达到了相同的表现水平(组间训练试验的最后一个 bin 比较;t (29.06) = -0.5,p = 0.61;图 2B)。此外,在 Multiple 组中,不同的起始-目标对之间的性能没有显着差异,最佳到达通常随着时间的推移而增加(S1 图)。更重要的是,在泛化阶段引入新的起始-目标对时,这些组的性能如何。这是通过量化训练阶段结束和泛化阶段开始之间的任何潜在性能变化来确定的。对于单组,我们发现与训练阶段结束时相比,泛化阶段开始时的表现明显差 (t(15) = -5.67,p < 0.001;图 2D)。相比之下,Multiple 组在泛化期间的表现与训练阶段结束时相似 (t(15) = -1.21, p = 0.242)。在组间比较时,很明显,在泛化早期,多重组的表现明显优于单一组(第一个 bin;t(29.99) = -5.1,p < 0.001;图 2C)并且在泛化结束时仍然略好一些(第二个 bin;t(29.27) = -1.64,p = 0.05)。两组之间的性能变化差异显著不同 (t(29.34) = -3.5,p = 0.001;图 2D)。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 2. 实验 1 的行为结果。 (A) 单个(绿色)和多个(金色)组的最佳到达数据在试验区间中的比例。黑色虚线表示泛化阶段的开始。实线虚线表示中位数,阴影区域表示四分位间距。(B) 训练阶段最后一个 bin 中最佳到达的比例。(C) 泛化第一个 bin (新对) 中最佳到达的比例。红色标记表示所有主体在第一次泛化试验中的表现。(D) 泛化的第一个 bin 和训练的最后一个 bin 之间最有效到达比例的差异。此处的虚线表示在试验箱上,从训练到泛化 (E) RT 的性能没有变化。(F) 训练试验的最后一个 bin 中的 RT。(G) 泛化第一个 bin 中的 RT (H) 泛化的第一个 bin 和训练的最后一个 bin 之间的 RT 差异。 https://doi.org/10.1371/journal.pcbi.1012471.g002 我们还研究了计划(反应时间,RT)是如何在训练中演变的。在整个训练过程中,多组组的 RTs 总体较高 (t(29.99) = -4.82,p < 0.001;图 2E)在训练试验的最后一个 bin 更高 (t(21.21) = -2.85,p = 0.009;图 2F)但在泛化试验的第一个 bin 中不是 (t(19.36) = -0.17,p = 0.86;图 2G)。从最后一个训练区间到单个的第一个泛化区间,RTs 有所增加 (t(15) = 9.54,p < 0.001;图 2H)和多组 (t(15) = 2.34,p = 0.03),然而,单组 (t(21.96) = 2.14,p = 0.043) 的这种增加显着更大。此外,这些组仅在训练期间的 RT 上有所不同,而在任何键间间隔(即按键之间的时间;S2 图)。然而,至关重要的是,我们发现在泛化阶段,Single 组的键间间隔明显高于 Multiple 组(S3 图),这表明他们必须与 Multiple 组不同,在轨迹的中间步骤重新规划。对于多组,我们没有发现不同的起始-目标对在 RTs 方面存在显著差异。一般来说,所有对的 RT 都随着时间的推移而下降(S1 图)。 泛化性能的差异提供了初步证据,表明与 Single 组相比,Multiple 组可以使用更灵活的映射表示来达到新的目标。在下面的分析中,我们询问在训练阶段是否会出现类似的区别。为了调查这一点,我们假设与主要依赖状态动作值的参与者相比,依赖视觉运动映射的参与者会做出更频繁的需要计划的选择。特别是,前者更倾向于选择光标违反直觉地远离目标,同时实际上减少真正的基于模型的距离的选项(图 3A)。虽然选择在视觉上使光标更接近目标可能是由最小化不受约束的距离度量(例如,棋盘距离)的启发式方法产生的,但仅最小化基于模型的距离(“MB 移动”)的选择需要考虑使用约束映射的长期结果。 事实上,我们发现与单组相比,多组参与者在训练阶段进行了更多的 MB 移动 (t(29) = -4.34,p < 0.001;图 3A,左),以及相对于移动总数 (t(28.17) = -5.26,p < 0.001;图 3A 中间),它控制 Multiple 组中的参与者在实验中平均按了更多的键。最值得注意的是,我们表明,当考虑参与者必须最小化基于模型的距离与棋盘距离的机会时,这种模式仍然存在 (t(23.46) = -2.34,p = 0.02;图 3A,右)。后一种分析排除了最小化棋盘距离或基于模型的距离混淆的情况。例如,当目标距离光标只有一步时,获胜的移动会最小化两个距离,而其他两个移动会增加它们;同样,当目标位于光标右侧并位于同一行上时,按下将光标向右移动的键是唯一可以最小化两个距离的移动,而其他两个移动会增加距离。在我们的分析中,这种情况并不代表选择的机会。当 Multiple 组的参与者有机会最小化基于模型的距离或棋盘距离时,他们选择最小化前者的频率高于机会(即超过 50% 的时间;t(15) = 3.09,p = 0.007),而在 Single 组中,他们没有(t(15) = -0.95,p = 0.35)。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 3. 实验 1 和实验 2 训练期间基于模型的计算的行为证据。 (A) Single (top) 和 Multiple (bottom) 组中的示例,其中光标可以移动到两种状态,从而最小化与目标的距离。移动到紫色状态会最小化棋盘距离(在视觉上更接近目标)和基于模型的距离(在映射空间中更接近目标),而移动到黄色状态(MB 移动)只会最小化基于模型的真实距离,即光标在视觉上远离目标,但在映射空间中更近。(B) 左:每组在训练期间的 MB 移动总数。中间:MB 移动数相对于实验中的移动总数。右:MB 移动的比例相对于做出该选择的机会数,即选择最小化基于模型的距离与棋盘距离,如 (A)。(C) 与 (B) 中的相同,但适用于实验 2。红色虚线表示在选择最小化棋盘距离或基于模型的距离时的机会水平。该任务的图像是从开源网站 https://commons.wikimedia.org 获取的。 https://doi.org/10.1371/journal.pcbi.1012471.g003 此外,我们还检查了参与者在训练阶段最常用的轨迹(S4 图)。我们发现,与 Multiple 组相比,Single 组的其他参与者不太可能共享首选轨迹。特别是,单组中有 3-5 名参与者 (18-31%) 共享相同的首选轨迹。相比之下,在大多数试验中,Multiple 组中的 7-11 名参与者 (43-68%) 会聚到相同的解决方案。Single 组使用的轨迹的较大异质性可能是由于需要使用所有三个键来到达目标。另一方面,Multiple 组只需要使用两个键,尽管整个实验中都需要所有键。事实上,使用动态规划方法,我们确定 Single 组中共有 140 条轨迹最最佳地到达目标,而在 Multiple 组中,根据起始-目标对,只有 21 到 35 条最佳轨迹。Single 组中成功的轨迹数量较多,这可能导致找到相同解决方案的参与者较少。 在相关分析中,我们发现,在参与者中,单组和多组在训练阶段都表现出高度同质的轨迹。特别是,单人组的参与者在超过 50% 的时间内可靠地选择了两条轨迹 (t(15) = 2.86,p = 0.005;S5 图),而 Multiple 组为四个起始-目标对中的每一个都超过 50% 的时间独家选择了单个轨迹 (t(15) = [3.28, 2.56, 2.54, 2.05], p = [0.002, 0.01, 0.01, 0.02])。虽然两组相对于其目标都表现出高度重复的行为,但 Multiple 组中首选轨迹的绝对重复频率要小得多,因为根据设计,每个目标出现的试验较少。事实上,Single 组中最常用的轨迹的使用次数明显多于 Multiple 组中轨迹可以使用的最大次数(即 25% 的时间;t(15) = 4.36,p < 0.001)。 单人组和多组之间的泛化表现差异,即使在泛化阶段结束时仍然略微显著,这表明训练机制可能导致任务中的不同学习表征。虽然两组在训练期间都选择了高度重复的轨迹,这与对少数解决方案的记忆一致,但 Multiple 组所经历的可变性可以同时允许更好地学习视觉运动映射。支持这一点的证据来自于 Multiple 组更频繁地选择仅减少基于模型的距离的移动。此外,鉴于其独特的目标,Single 组中首选轨迹的更大重复性可能促进了干扰泛化阶段的习惯性反应的形成。事实上,补充分析表明,与 Multiple 组相比,Single 组的泛化阶段的错误更经常以与训练阶段最常用的轨迹相同的键开始(S6 图 )。虽然这些差异是由于 Multiple 组中的低错误率导致的功效有限,因此这些差异是数值的,但它们表明,除了映射的更大表示外,训练可变性也可能阻止了习惯性响应的干扰。 建模结果 为了探索导致两组之间表现差异的认知过程,我们评估了强化学习文献中的五个计算模型(详见材料和方法)。在光谱的一端,我们测试了一种无模型的强化学习算法 [20],该算法使用基于棋盘到目标的距离的预测误差来学习状态动作值。另一方面,我们实现了一种基于模型的算法,该算法学习任务的视觉运动映射,并使用它通过树搜索找到到达目标的最短路线。我们选择了这些模型,因为它们对任务中的泛化性能做出了截然不同的预测(图 4)。经过充分训练的无模型强化学习算法对于熟悉的目标位置具有良好的性能,但会为过去没有经历过的目标生成机会级响应,从而预测出较差的泛化。基于模型的算法同样适用于熟悉的目标,但一旦学习了视觉运动映射,就能够推广到新的目标。最后,我们测试了无模型算法和基于模型的算法之间的混合模型,它们是两个组成部分的加权和。与无模型和基于模型的算法一样,混合模型在熟悉的目标中表现良好,但能够捕获不同程度的泛化(图 4)。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 4. 模型模拟。 为经过充分训练的模型在熟悉的新目标上选择最佳移动的概率。所有模型在经过类似于人类受试者的充分训练后,都能够实现熟悉目标的天花板性能。对于所有模型,使用逆温度参数 β = 4 生成响应。对于混合模型,使用了 100 个基于模型的权重的 Uniform(0,1) 样本来模拟其性能。条形的高度表示中位数,误差线表示四分位距。 https://doi.org/10.1371/journal.pcbi.1012471.g004 根据以前的工作[45,46,48\u201250],我们认为混合模型中无模型和基于模型的组件之间的混合权重可以采取以下形式:整个实验的单个权重(1W),一个权重用于训练阶段,一个用于泛化阶段(2W),以及一个时变权重。对于后一种模型,我们开发了一种基于熟悉或新状态历史的贝叶斯仲裁机制(AR 模型;有关详细信息,请参阅材料和方法),如果经常遇到新状态,该机制会为基于模型的组件分配更大的权重。另一方面,如果体验到熟悉的场景,则基于模型的权重会减轻,让位于更习惯的无模型系统。这种从基于模型到无模型的控制的转变之前已经报道过[48],初步的建模分析表明,考虑到单组和多组的任务统计,在我们的实验中,这是一个合理的场景(S7和S8图)。为了比较这两个模型,我们使用了 Akaike 信息准则 (AIC) [51] 和贝叶斯信息准则 (BIC) [52]。模型比较的结果如表 1 所示。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 表 1. 实验 1 的单个模型比较。 AIC 和 BIC 列显示受试者的中位数和方括号内的四分位距。AIC 获胜次数和 BIC 获胜次数列表示根据每个指标,给定模型是最好的参与者人数。 https://doi.org/10.1371/journal.pcbi.1012471.t001 对于单组,根据 AIC(16 人中的 14 人)和 BIC(16 人中的 10 人)指标,2W 混合模型最好地描述了大多数参与者。相比之下,Multiple 组根据使用的量度显示混合结果。根据 AIC(16 人中有 11 人),2W 混合动力模型最能描述大多数参与者,而 BIC 表示,仲裁混合模型对 16 名参与者中的 7 人来说是最好的,其次是 1W 混合动力模型(16 人中有 5 人)和 2W 混合动力模型(16 人中有 4 人)。为了提供跨受试者模型性能的全局指标,我们在组水平进行了模型比较 [53](详见材料和方法;图 5A)。该分析表明,2W 混合动力模型为两组提供了最好的整体描述。具体来说,从单一组中随机选取的受试者有 98% 的概率被 2W 混合模型最好地描述,其次是仲裁模型的 2%。对于多组,2W 混合动力模型的概率为 57%,其次是仲裁混合动力模型的 31% 和 1W 混合动力模型的 12%。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 5. 实验 1 的建模结果。 (一):测试模型最好地描述从单组和多组中提取的随机受试者的概率(MF:无模型,MB:基于模型,1W:单八混合,2W:双权重混合,AR:仲裁模型)。黑点表示超标概率。(B) 模型解释的数据中可变性的比例。彩色点表示根据 BIC 的最佳模型的此值,灰线表示其他模型。红色和蓝色虚线分别表示负熵(上限)和随机模型的性能(下限)。(C) 训练期间混合模型中基于模型的权重和 (D) 泛化。 https://doi.org/10.1371/journal.pcbi.1012471.g005 此外,我们还计算了给定模型比总体中的其他模型更有可能的概率,即超标概率 [53]。根据这一指标,两组中 2W 混合动力模型都优于其他模型的可能性很高 (>99%)。此外,为了评估模型在绝对意义上的好坏,我们计算了模型解释的数据变异性与负熵的比例,这在我们的概率模型中接近上限[54–56](详见材料和方法)。根据 BIC 的最佳模型在单组中解释的变异性的中位数比例为 76%,而在多组中为 68%(图 5B)。 鉴于 2W 混合模型提供了对聚合数据的最佳描述,我们在训练和泛化期间显示了单组和多组对基于模型的组件的权重(图 5C 和 5D)。权重的差异可以表明参与者是否由于重复而在训练期间更加依赖无模型系统,但在任务需求发生变化时切换到基于模型的系统。我们以实验阶段(训练或泛化)和组(单一或多个)为因素进行了 2 向方差分析,发现实验阶段存在显着的主效应 (F(1,60) = 124.56,p < 0.001,η 2= 0.56),这表明与训练阶段相比,泛化阶段的总体参与者对基于模型的组件具有更高的权重。同样,我们发现该组存在显著的主效应 (F(1,60) = 31.9,p < 0.001,η 2= 0.43),其中 Multiple 组总体上具有较高的基于模型的权重。使用 Tukey 的诚实显着差异 (HSD) 的事后成对分析发现,与单组相比,Multiple 组在训练 (调整后的 p < 0.001) 和泛化 (调整后的 p = 0.02) 期间具有显着更高的基于模型的权重。这些结果证实了我们的行为发现,在训练过程中,Multiple 组的参与者比 Single 组更倾向于减少基于模型的目标距离(图 3B),并且他们具有更好的泛化性能(图 2D)。 总体而言,实验 1 的行为和建模结果表明,训练过程中更大的可变性增强了视觉运动映射在新场景中的使用,并可能减少习惯性反应的干扰。这些行为发现得到了我们的计算建模结果的支持,我们在 Multiple 组中发现了更大的基于模型的权重。然而,值得注意的是,其他因素也可能促成了这种结果。特别是,如果训练期间使用的轨迹与泛化期间到达目标所需的轨迹相比,与 Single 组相比,Multiple 组可能会表现出更好的泛化性能。其次,虽然泛化试验中的起始-目标对是新颖的,但在此类试验中提供有关光标移动的反馈可能会产生对映射的学习,从而在新的学习和泛化之间造成混淆。最后,目前尚不清楚各组之间泛化性能的差异是由于视觉运动标测水平的不同表示,还是因为它们按顺序使用标测(计划)的能力不同,单组无法使用其他已知的标测生成适当的序列。我们在实验 2 中解决了这些问题。 实验 2 在实验 1 中,我们发现 Multiple 组在泛化阶段很容易将其性能推广到新的起始-目标对,而 Single 组则难以推广到新的对。然而,在泛化阶段提供了反馈,允许 Single 组有可能重新学习映射以恢复性能,这是此阶段升高的 RT 所暗示的。在这里,我们试图通过在泛化阶段不提供反馈并将目标放置在离起始位置仅一步的位置来控制这种可能性(图 1B)。此外,为了防止在泛化阶段进一步学习,我们还删除了交错训练试验。 从泛化阶段去除顺序组件也可以排除潜在的混淆,即由于规划训练制度产生的新运动序列的不同能力而出现性能差异。最后,将目标放置在一步之外,消除了由于训练期间生成的序列与泛化所需的序列之间的相似性更大的原因而出现更好的泛化性能的可能性。 如果 Single 组中的参与者在这种简单情况下仍然表现不佳 Multiple 组,这将提供进一步的证据,证明他们不知道或无法使用映射,而 Multiple 组在训练阶段结束时可以这样做。除了这些变化之外,其他一切都与实验 1 相同。单人组 (n = 16) 和多重 (n = 16) 组共有 260 次训练试验和 20 次泛化试验。 行为结果 与实验 1 类似,我们发现 Multiple 组的学习曲线较慢(图 6A),如混合效应模型所示,其中 Single 组在对应于试验 50 的 bin 之前具有显着更高的表现 (p < 0.05)。然而,到训练阶段结束时,两组都达到了相同的表现水平 (t(29.99) = -0.19,p = 0.84;图 6B)。此外,在 Multiple 组的不同起始-目标对之间没有观察到明显的性能差异,最佳到达通常随着时间的推移而提高(S9 图 )。主要感兴趣的是每个组在泛化阶段的表现,在该阶段只需要一个动作并且没有提供反馈。值得注意的是,多组组在早期的表现仍然优于单组(第一个 bin;t(22.68) = -4.81,p < 0.001;图 6C)但也处于泛化阶段的晚期 (第二个 bin;t(19.41) = -3.1,p = 0.005)。然而,单组的表现仍然大于机会 (t(15) = 5.88,p < 0.001),这表明即使他们的表现比多组差,他们也可能回忆起一些关于映射的知识。此外,Single 组在泛化开始时的表现显着较差 (第一个 bin;t(15) = -5.03,p < 0.001;图 6D)与训练后期相比,但 Multiple 组的表现在训练阶段和泛化阶段之间没有显着降低 (t(15) = -1.24,p = 0.23)。Single 组在泛化阶段持续较差的性能表明,他们难以有效地切换到基于模型的控制,并且训练中的可变性对于有效使用基于模型的算法可能是必要的。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 6. 实验 2 的行为结果。 (A) 单个(绿色)和多个(金色)组的最佳到达数据在试验区间中的比例。黑色虚线表示泛化阶段的开始。实线虚线表示中位数,阴影区域表示四分位间距。红色虚线表示性能的 chance 级别。(B) 训练试验的最后一个 bin 中最佳到达的比例。(C) 泛化第一个 bin (新对) 中最佳到达的比例。红色标记表示所有主体在第一次泛化试验中的表现。(D) 泛化的第一个 bin 和训练的最后一个 bin 之间最有效到达比例的差异。此处的虚线表示在试验箱上,从训练到泛化 (E) RT 的性能没有变化。(F) 训练试验的最后一个 bin 中的 RT。(G) 泛化第一个 bin 中的 RT (H) 泛化的第一个 bin 和训练的最后一个 bin 之间的 RT 差异。 https://doi.org/10.1371/journal.pcbi.1012471.g006 与实验 1 类似,多重组的 RTs 在训练期间总体较高(图 6E;t(16.06) = -8.31,p < 0.001),在训练试验的最后一个区间较高(图 6F;t(28.13) = -4.22,p < 0.001),但在泛化试验的第一个区间中则不然(图 6G;t(26.48) = -1.08,p = 0.28)。RTs 从 Single 的最后一个训练区间到第一个泛化区间显着增加 (t(15) = 6.55,p < 0.001),但在 Multiple 组中没有增加 (t(15) = 0.41,p = 0.68)。此外,单组 RTs 的这种变化显着更大 (t(26.43) = 3.34,p = 0.002;图 6H)。RTs 增加的差异表明,Multiple 组在用于解决任务的算法中没有发生切换,而 Single 组可能过渡到计算要求更高的算法。与实验 1 一样,我们没有发现 Multiple 组的不同起始-目标对之间的 RTs 存在明显差异,RTs 通常会随着时间的推移而降低(S9 图)。 随后,我们进行了与实验 1 中相同的分析,寻找在训练期间使用视觉运动映射而不是状态动作关联的行为信号。证实我们之前的结果,我们发现 Multiple 组的参与者产生了更多的动作,这些动作完全最小化了绝对意义上基于模型的目标距离 (t(26.29) = -5.02,p < 0.001;图 3C,左),相对于实验中的总步数 (t(27.71) = -5.45,p < 0.001;图 3C,中)以及相对于他们做出此选择的机会 (t(25.66) = -3.55,p = 0.001;图 3C,右)。同样,我们发现,在参与者可以最小化基于模型的距离或棋盘距离的情况下,他们选择最小化前者明显大于机会(50% 的时间),在多组中 (t(15) = 5.12,p < 0.001;图 3C,右),但不是单组 (t(15) = -0.92, p = 0.37)。 在随后的分析中,旨在比较实验 1 (目标距离 7 步) 和实验 2 (目标距离 1 步) 参与者的泛化表现,我们发现收敛证据表明 Multiple 组的参与者总体表现更好。具体来说,我们对所有泛化试验中最佳到达的比例进行了 2 向方差分析,实验编号(实验 1 和实验 2)和组(多重和单一)作为因素,揭示了组 (F(1,60) = 31.07,p < 0.001,η 2= 0.29;图 7A)。同样,我们发现实验数 (F(1,60) = 13.28,p < 0.001,η 2= 0.12),其中实验 2 的参与者总体表现更好。事后成对比较显示,虽然 Single 组中实验 1 和实验 2 之间的泛化存在显着差异(调整后的 p <0.001),但这种差异在多重组中没有达到显着水平(调整后的 p = 0.09),表明计划主要影响 Single 组中的最佳到达。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 7. 单组和多组的实验 1(平滑条;目标相距 7 步)和实验 2(条纹条形;目标相距 1 步)之间的泛化性能比较。 (A) 泛化阶段所有试验的最佳到达比例和 (B) 反应时间。条形的高度表示中位数,误差线表示四分位距。 https://doi.org/10.1371/journal.pcbi.1012471.g007 我们对实验 1 和实验 2 的 RT 进行了相同的分析,发现实验数存在显著的主效应 (F(1,60) = 27.61,p < 0.001,η 2= 0.31;图 7B)但不属于组 (F(1,60) = 0.15, p = 0.69, η2= 0.04)。事后成对比较显示,在实验 2 的泛化试验中,单一组(调整后的 p = 0.004)和多个组(调整后的 p = 0.001)组的参与者的 RT 都较低,这表明与需要更多计划的实验 1 相比,计算需求较低。 关于参与者在训练阶段使用的轨迹,我们发现的结果与实验 1 相似。特别是,单人组的参与者收敛到不同的轨迹,只有 2-3 名参与者 (12-18%) 共享他们最常用的轨迹。相比之下,Multiple 组中的 7-8 名参与者 (44-50%) 共享最频繁的轨迹(S4 图)。与实验 1 一样,我们在 Single 和 Multiple 组中都观察到重复行为。特别是,Single 组的参与者选择单一轨迹的时间超过 50% (t(15) = 2.06,p = 0.02;S5 图)。同样,Multiple 组选择单个轨迹的时间超过 50% (t(15) = [6.21, 6.23, 5.63, 3.91],p < 0.001)。然而,与实验 1 一样,鉴于每个目标出现的试验较少,首选轨迹的绝对重复频率在 Multiple 组中要小得多。Single 组中最常用的轨迹的使用次数明显多于 Multiple 组中轨迹可以使用的最大次数(即 25% 的时间;t(15) = 5.88,p < 0.001)。 建模结果 与实验 1 一样,我们评估了五个模型:无模型、基于模型和三个混合模型。模型比较的结果如表 2 所示。根据 AIC 的说法,我们发现 2W 混合模型在单人组(16 人中有 9 人)和复合组(16 人中有 14 人)中对大多数参与者进行了最好的描述。然而,其他模型也最好地描述了一些参与者。相比之下,根据 BIC 指标,在个体层面上存在主导模型的证据较少。在单一组中,仲裁模型最能描述参与者人数最多(16 人中有 6 人),其次是 2W 混合模型(16 人中有 5 人)、无模型模型(16 人中有 3 人)和 1W 混合模型(16 人中有 2 人)。对于多组,2W 混合模型最好地描述了一半的参与者(16 人中的 8 人),其次是 1W 混合模型(16 人中的 5 人)和仲裁模型(16 人中的 3 人)。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 表 2. 实验 2 的单个模型比较。 AIC 和 BIC 列显示受试者的中位数和方括号内的四分位距。AIC 获胜次数和 BIC 获胜次数列表示根据每个指标,给定模型是最好的参与者人数。 https://doi.org/10.1371/journal.pcbi.1012471.t002 当我们考虑参与者中每个模型的汇总证据时,我们发现从单一组中提取的随机受试者有 66% 的概率被 2W 混合模型最好地描述,仲裁模型为 27%,1W 混合模型为 5%,无模型模型为 2%。对于多重组,2W 混合模型最好地描述随机主题的概率为 92%,其次是 6W 混合模型和 2W 仲裁模型。根据超标概率,2W 混合动力模型在单组和多组中均优于其他模型的可能性很高 (>99%)。因此,在人口水平上,2W 混合动力是总体上的主要模型(图 8A)。根据 BIC 的数据,对于在个体层面表现最好的模型,我们发现,与理论接近上限相比,它们分别捕获了 Single group 和 Multiple 组中 73% 和 68% 的数据可解释可变性(图 8B)。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 8. 实验 2 的建模结果。 (A) 测试模型最好地描述从单组和多组中提取的随机受试者的概率(MF:无模型,MB:基于模型,1W:单八混合,2W:双权重混合,AR:仲裁模型)。黑点表示超标概率。(B) 模型解释的数据中可变性的比例。彩色点表示根据 BIC 的最佳模型的此值,灰线表示其他模型。红色和蓝色虚线分别表示负熵(上限)和随机模型的性能(下限)。(C) 训练期间混合模型中基于模型的权重和 (D) 泛化。 https://doi.org/10.1371/journal.pcbi.1012471.g008 与实验 1 类似,我们分析了 2W 混合模型在训练和泛化过程中的权重。具有实验阶段 (训练或泛化) 和组 (单一或多个) 的 2 向方差分析显示实验阶段的显着主效应 (F(1,60) = 111.8,p < 0.001,η 2= 0.48) 和组 (F(1,60) = 60,p < 0.001,η 2= 0.26),表明总体参与者在泛化期间和多重组中具有更高的基于模型的权重。事后成对比较显示,在训练期间,Multiple 组基于模型的权重显着更高(调整后的 p < 0.001;图 8C)和泛化 (校正 p < 0.001;图 8D)。这些结果提供了进一步的证据,表明在训练(图 3C)和泛化(图 6C)期间观察到的组间行为差异可以用我们模型的组成部分来描述。 综合来看,实验 1 和 2 的行为和建模结果表明,训练变异性促进了对视觉运动映射的稳健学习,这表现为成功的泛化。虽然 Single 组仍然显示出已经学习映射的证据,但即使在不需要顺序规划的简单情况下,他们也很难进行概括。相比之下,无论是否需要规划,Multiple 组都保持了天花板性能(图 7)。与实验 2 相比,在泛化试验中保留反馈和去除顺序成分时,泛化的差异是正确的,因此排除了重新学习和计划的混淆。此外,这些差异在泛化阶段结束之前仍然很大。 进一步的补充分析还揭示了数值差异,表明 Single 组比 Multiple 组更可能是习惯性反应干扰的结果(S6 图)。我们的行为结果得到了建模分析的支持,其中在训练和泛化阶段具有单独权重的混合模型提供了对数据的最佳描述,其权重的显着差异反映了单组和多组之间训练和泛化期间的行为差异(图 3C 和 6C)。 在下面的实验中,我们询问了由于训练可变性而导致的泛化性能的好处是否可以随着时间的推移而保留,即使随后是长时间暴露而没有可变性的重复练习。如果是这样的话,这将提供证据,证明视觉运动映射的早期形成可以减少未来习惯性反应的干扰并允许灵活的行为。 实验 3 在之前的实验中,我们证明了 Single 组的表现在泛化阶段持续下降。在这项研究中,我们调查了短期暴露于训练变异性是否可以防止这种下降,即使随后是长时间没有变异性。鼓励参与者最初学习映射可能提供泛化,即使在对单个目标进行长时间的重复训练之后也是如此。或者,如果参与者只需要向一个目标位置重复动作,他们最终可能会忘记映射。这就像一个崭露头角的钢琴家首先学习了他们的音阶(“映射”),但随后只练习了一个旋律(“序列”),在很长一段时间内,他们可能会忘记钢琴键相对于音阶程度的含义。考虑到这两点,我们设计了实验 3 来测试对单个目标的重复训练是否即使在长时间的训练后也能提供泛化,或者它会导致忘记(或干扰)完整的映射,同时还要确保参与者首先学习了映射。 为了测试这一想法,16 名参与者接受了 4 对起始-目标对(80 次试验;现在是多次试验)的简短训练,然后是第一个泛化阶段(20 次试验;图 1B)。随后,他们长时间暴露于单一起始-靶点对(1000 次试验;现在是单次试验),然后是第二个泛化阶段(20 次试验)。与实验 2 一样,目标位置被放置在离起点一步远的地方,并且没有提供反馈。如果视觉运动映射在早期就被训练并保留在内存中——即使没有被使用——那么参与者将在第一和第二泛化阶段都表现出良好的表现。或者,在 Single 试验中没有变化的长时间,很可能由无模型过程主导,可能会损害先前学习的映射,从而在第一个泛化阶段获得良好的性能,但在第二个泛化阶段没有。 行为结果 我们发现,在开始每个泛化阶段之前,单次试验和多次试验之间受试者的表现没有统计学差异 (t(15) = 1.58,p = 0.13;图 9B)。最值得注意的是,在单次和多次试验后,泛化性能没有显著差异 (t(15) = 1.05,p = 0.3;图 9C)。同样,从多次试验结束到第一个泛化阶段开始 (t(15) = 1.05, p = 0.3),从单次试验结束到第二个泛化阶段开始 (t(15) = -1.43, p = 0.17),性能没有显著变化。此外,我们没有发现两个试验阶段的性能变化之间存在显着差异 (t(29.52) = -1.88,p = 0.07;图 9D)。 thumbnail 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 9. 实验 3 中的行为表现。 (A) 试验区间的最佳到达比例。参与者接受了多项试验(金色),然后是单组(绿色)。实线虚线表示中位数,阴影表示四分位间距。第一 (试验 81-100) 和第二 (试验 1100-1020) 泛化阶段用垂直虚线划定。红色虚线表示性能的 chance 级别。(B) 训练试验的最后一个 bin 中最佳到达的比例。(C) 泛化第一个 bin (新对) 中最佳到达的比例。红色标记表示所有主体在第一次泛化试验中的表现。(D) 泛化的第一个 bin 和训练的最后一个 bin 之间最有效到达比例的差异。 https://doi.org/10.1371/journal.pcbi.1012471.g009 与参与者在最佳到达方面的可比表现相比,他们的 RTs 在实验的不同阶段有很大差异。特别是,与单次试验结束时相比,多次试验结束时的 RTs 显着更高 (t(15) = -3.28,p = 0.003;图 10B),这表明,与我们之前的实验一样,在多次试验期间,参与者更加依赖有关映射的知识(即基于模型的计算)。至关重要的是,我们仍然发现从单次试验结束到第二个泛化阶段开始时,RTs 有所增加 (t(15) = 5.18,p < 0.001;图 10D),表明从状态-动作关联转向基于模型的计算。然而,与实验 1 和实验 2 相比,RT 的这种增加伴随着良好的泛化性能。与我们之前的实验一样,我们没有观察到从多次试验结束到第一个泛化阶段开始时 RTs 的变化 (t(15) = -1.52,p = 0.14;图 10D),这表明参与者在此过渡期间不必切换到不同的算法。值得注意的是,鉴于单次试验中的扩展实践,所有键间间隔都显着低于多次试验 (< 0.01),这在之前的实验中没有观察到。 thumbnail 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 10. 实验 3 中的 RT。 (A) 跨试验区间的 RT 每受试者中位数(1 个 bin = 10 次试验)。金色数据点表示 Multiple trial(多个试验),绿色数据点表示 Single trial(单个试验)。第一 (试验 81-100) 和第二 (试验 1100-1020) 泛化阶段用垂直虚线划定。实线虚线表示中位数,阴影表示四分位间距。(B) 训练试验的最后一个 bin 中的 RT。(C) 泛化第一个 bin 中的 RTs(新对)。(D) 泛化的第一个 bin 和训练的最后一个 bin 之间的 RT 差异。 https://doi.org/10.1371/journal.pcbi.1012471.g010 建模结果 我们评估了我们以前的模型,唯一的变化是,我们采用了一个具有四个权重的混合模型(4W 混合模型),而不是 2W 混合模型,实验的每个阶段(多次试验、第一个泛化阶段、单个试验和第二个泛化阶段)。表 3 显示了单个模型比较的结果。我们发现,对于 AIC 和 BIC 来说,4W 混合动力模型被证明是所有参与者的最佳模型。我们的组模型比较证实了这一发现,其中 4W 混合模型最有可能 (>99%) 从我们的人群中随机提取的受试者最能描述(图 11A)。同样,超标概率表明 4W 混合动力模型优于其他高概率模型 (>99%)。在所有参与者中,该模型能够捕获数据中可解释变异性的中位数为 75%(图 11B)。 thumbnail 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 11. 实验 3 的建模结果。 (A) 测试模型最好地描述随机受试者的概率(MF:无模型,MB:基于模型,1W:单八种混合,4W:四权重混合,AR:仲裁模型)。黑点表示超标概率。(B) 模型解释的数据中可变性的比例。灰点表示根据 BIC 的最佳模型的此值,黑线表示其他模型。红色和蓝色虚线分别表示负熵(上限)和随机模型的性能(下限)。(C) Single 和 Multiple 试验中训练和泛化期间混合模型中基于模型的权重。 https://doi.org/10.1371/journal.pcbi.1012471.g011 thumbnail 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 表 3. 实验 3 的单个模型比较。 AIC 和 BIC 列显示受试者的中位数和方括号内的四分位距。AIC 获胜次数和 BIC 获胜次数列表示根据每个指标,给定模型是最好的参与者人数。 https://doi.org/10.1371/journal.pcbi.1012471.t003 我们使用 2 因子方差分析比较了混合模型在不同实验阶段的基于模型的权重,实验阶段(训练或泛化)和试验类型(单一或多个)作为因素,揭示了实验阶段的显着主效应 (F(1,60) = 48.96,p < 0.001,η 2= 0.31) 和试验型 (F(1,60) = 23.36,p < 0.001,η 2= 0.15),表明基于模型的权重在泛化期间和多次试验中通常较高。然而,事后成对比较显示,在泛化阶段之间基于模型的权重之间没有差异(调整后的 p = 0.99),但在单次和多次试验期间存在显着差异(调整后的 p < 0.001),基于模型的权重在延长的单次试验中接近零(图 11C)。 实验 3 的结果表明,尽管参与者在很长一段时间内很可能依赖于状态-动作关联,并且没有反映在低 RT 中反映的可变性,但当出现新的起始-目标对时,他们能够灵活地切换到基于模型的计算,正如增加的 RT 和成功的泛化所揭示的那样。这些发现得到了 4W 混合模型权重差异的支持,表明短暂暴露于高可变性可以形成有关视觉运动映射的可靠知识,从而在未来成功泛化。 实验 4 众所周知,技能学习在不同程度上可以涉及外显和内隐过程,具体取决于训练条件[57–59]。在我们之前的实验中,视觉运动映射相对简单且具有确定性(即,三个键映射到三个光标方向),因此,参与者可能已经对它和/或键响应的顺序有了明确的了解。如果成功的泛化依赖于映射的显式表示,那么一种可能的情况是,当学习隐式发生时,泛化性能将受到影响,尤其是在 Multiple 组中。为了解决这种可能性,我们为 Single (n = 16) 和 Multiple (n = 16) 组引入了一个随机网格导航任务,其中每次移动都有 0.2 的概率,即按下键盘可以将光标移动到与原始映射不同的任何相邻位置(有关详细信息,请参阅材料和方法)。在刺激-反应映射之间引入随机性是运动序列学习研究中钝化意识和显式学习的常用方法 [57\u201260]。此外,我们通过询问参与者他们认为按键将光标移动到哪里,评估了任务结束时视觉运动映射的明确知识水平。 虽然如果我们在之前的实验中明确学习了映射,增加随机性可能会损害 Multiple 组中的泛化性能,但目前尚不清楚关键结果关系的这种可变性会在多大程度上影响 Single 组的性能。一种可能的情况是,与在 Multiple 组中一样,显式使用映射的任何好处都将消失,因此会使它们的泛化性能更加糟糕。或者,默认情况下,引入关键结果可变性将阻止确定性映射会引起的重复序列生成行为,这可能会导致 Map 的使用增强。 因此,通过利用这种方法,我们提出了两个主要问题:1) 在 Multiple 条件下是否观察到更好的泛化性能,这是视觉运动映射的显式表示的结果?2) 随机映射引起的训练变异性会导致 Single 组中更好的泛化吗? 行为结果 由于任务的随机性,最佳到达次数很少见,因此作为绩效的行为衡量标准,我们只考虑到达目标,而不考虑按键次数。与实验 1 和 2 一样,混合效应分析显示,Multiple 组的学习速度比 Single 组慢,并且在 26 个试验训练箱中的 20 个 group 中,Single 组明显优于 Multiple 组 (p < 0.05;图 12A)。然而,在训练阶段结束时,两组之间的渐近表现相似 (t(26.73) = 1.31,p = 0.19;图 12B)。更重要的是,泛化性能没有差异 (t (27.74) = -1.3351,p = 0.1927;图 12C)或从训练到泛化的表现变化 (t (28.32) = -1.88,p = 0.07;图 12D)。然而,Single 组从训练到泛化阶段的表现确实显著降低 (t(15) = -2.65, p = 0.01),而 Multiple 组则没有 (t(15) = -0.34, p = 0.73)。 thumbnail 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 12. 实验 4 的行为结果。 (A) 单个(绿色)和多个(金色)组的最佳到达数据在试验区间中的比例。黑色虚线表示泛化阶段的开始。实线虚线表示中位数,阴影区域表示四分位间距。红色虚线表示性能的 chance 级别。(B) 训练试验的最后一个 bin 中最佳到达的比例。(C) 泛化第一个 bin (新对) 中最佳到达的比例。红色标记表示所有主体在第一次泛化试验中的表现。(D) 泛化的第一个 bin 和训练的最后一个 bin 之间最有效到达比例的差异。此处的虚线表示在试验箱上,从训练到泛化 (E) RT 的性能没有变化。(F) 训练试验的最后一个 bin 中的 RT。(G) 泛化第一个 bin 中的 RT (H) 泛化的第一个 bin 和训练的最后一个 bin 之间的 RT 差异。 https://doi.org/10.1371/journal.pcbi.1012471.g012 与目标到达方面的可比表现相比,我们发现 Multiple 组在训练阶段结束时的 RTs 仍然显着更高 (t(28.65) = -2.28,p = 0.02;图 12F)。然而,在泛化阶段开始时,两组之间的 RTs 没有差异 (t(26.6) = 1.28,p = 0.21;图 12G)由于单组显着增加了他们的 RTs (t(15) = 11.05,p < 0.001;图 12H)到 Multiple 组的级别。相比之下,在多组未发现 RTs 增加 (t(15) = 0.16,p = 0.87)。同样,单组 RTs 的增加显著更大 (t(29.36) = 2.74,p = 0.009;图 12H)。 在实验结束时,参与者执行了一项显式测试,要求他们报告键将光标移动到的方向。两组对键到方向映射的明确知识程度相似(图 13A)。对于单人组,68%(16 人中的 11 人)正确知道所有键,而 32% 的人知道两个、一个或零个键方向。对于多重组,62%(16 人中的 10 人)正确知道所有键,而 38%(16 人中的 6 人)知道两个、一个或零个键方向。我们进一步探讨了正确知道映射(在显式测试中得分 3)的参与者是否比不知道映射或部分知道映射(得分低于 3)的人具有更好的泛化表现。虽然对映射有充分了解的参与者平均比知识较少的参与者更频繁地到达目标,但这种差异并不显着 (t(18.34) = -1.84,p = 0.08;图 13B)。这表明外显知识可能不是人们在任务中表现如何的重要决定因素。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 13. 实验 4 中显式测试的结果。 (A) 正确知道琴键的 0 个、1 个、2 个或 3 个移动方向的参与者人数。(B) 在实验 4 的显式测试中得分为 3 或低于 3 的参与者在泛化阶段的最佳到达比例。 https://doi.org/10.1371/journal.pcbi.1012471.g013 建模结果 表 4 显示了单个级别的模型比较结果。我们发现,根据 AIC(单人组 16 名参与者中有 12 名,多重组 16 名参与者中有 13 名)和 BIC(单人组 16 名参与者中有 9 名,多重组 16 名参与者中有 8 名)指标,2W 混合模型最能描述两组中的大多数参与者。此外,我们发现 2W 混合模型分别有 94% 和 76% 的概率分别从单组和多组中提取的随机受试者被最好地描述(图 14A),并且> 99% 的概率认为该模型总体上优于其他模型根据超标概率。此外,我们发现,在参与者中,表现最好的模型分别捕获了 Single 和 Multiple 组数据中 81% 和 69% 的可解释变异性的中位数(图 14B)。 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 图 14. 实验 4 的建模结果。 一个:测试模型最好地描述从单组和多组中提取的随机受试者的概率(MF:无模型,MB:基于模型,1W:单八混合,2W:双权重混合,AR:仲裁模型)。黑点表示超标概率。乙:模型解释的数据中变异性的比例。彩色点表示根据 BIC 的最佳模型的此值,灰线表示其他模型。红色和蓝色虚线分别表示负熵(上限)和随机模型的性能(下限)。(C) 训练期间混合模型中基于模型的权重和 (D) 泛化。 https://doi.org/10.1371/journal.pcbi.1012471.g014 缩略图 下载: PPT的PowerPoint 幻灯片 PNG放大图片 国际电影节原始图像 表 4. 实验 4 的单个模型比较。 AIC 和 BIC 列显示受试者的中位数和方括号内的四分位距。AIC 获胜次数和 BIC 获胜次数列表示根据每个指标,给定模型是最好的参与者人数。 https://doi.org/10.1371/journal.pcbi.1012471.t004 我们对 2W 混合动力模型的基于模型的权重进行了 2 因子方差分析,发现实验阶段存在显着的主效应 (F(1,60) = 64.43,p < 0.001,η 2= 0.47) 和组 (F(1,60) = 10.54,p = 0.001,η 2= 0.07),这表明总体上,泛化期间和 Multiple 组的权重更高。然而,在进行事后成对比较时,我们发现,尽管在训练期间各组的权重之间存在明显的数值差异(图 14C),但这种差异并未达到显着性水平(调整后的 p = 0.07)。同样,在泛化过程中,各组的权重之间没有显著差异(调整后的 p = 0.15;图 14D)。 总体而言,实验 4 的结果表明,两组对映射具有相似的显性知识,并且这些知识与参与者的泛化表现无关。此外,我们发现,在任务中增加随机性可以将 Single 组的泛化性能提高到 Multiple 组的水平,这表明前者学习了映射,可能是通过阻止他们记住目标的序列解决方案。虽然 Single 组能够推广到与 Multiple 组相当的水平,但它们在训练期间没有显示后者的计算需求(在实验 1 和 2 中也观察到),这反映在显着较低的 RT 中。因此,这些结果表明,起点-目标对没有变化的随机训练可以带来使用多个起点-目标对进行训练的泛化优势,同时降低其计算成本。我们的建模分析表明,随机训练可能会出现这样的结果,允许在泛化阶段适当增加基于模型的计算的权重。 讨论 大量的技能需要形成新的视觉运动映射。有时,这些映射可以是完全任意的,例如在视频游戏中,在视频游戏控制器上“向上”按下会导致虚拟角色移动或跳跃。与简单的状态-动作关联相比,学习和使用这些映射的优势在于,这些映射可用于规划和推广到新的上下文[61\u201263]。 在网格导航任务的四个实验中,我们发现增加起始-目标对数量的可变性使参与者能够更有效地使用视觉运动映射并推广到新的对。特别是,对于需要计划的对(实验 1),以及不需要计划的对(实验 2),多重组显示出明显优于单一组的泛化性能。这些结果表明,训练过程中缺乏可变性会损害视觉运动标测的使用,即使是简单的决定也是如此。虽然训练变异性的影响在泛化阶段很明显,但我们还发现证据表明,Multiple 组的参与者所做的选择反映了训练期间更多地使用视觉运动映射(图 3)。在实验 3 和 4 中,我们发现在 Single 组中观察到的有限泛化可以通过在学习早期引入的短时间变异或通过将随机性纳入视觉运动映射来增强。此外,我们的建模结果以及反应时间的差异表明,Multiple 组在任务期间分配了更大的基于模型的控制,而 Single 组在遇到新对时难以从无模型系统切换到基于模型的计算。 众所周知,训练可变性会导致各种认知领域中更好的泛化性能(参见 [43] 的综述)。然而,这种影响在运动学习任务中的证据,特别是对运动适应的影响,是好坏参半[41,64]。例如,在视觉运动适应任务中,Berniker 等人 [41] 发现,在不同大小的工作空间中训练的两组参与者,这些参与者在伸展运动中引起了低或高的可变性,在新的工作空间上的泛化表现没有差异。与这些结果一致,几项关于运动适应的研究表明,学习相当局部地进行 [65,66],超出训练范围的泛化能力非常有限。此外,Thoroughman 和 Taylor [67] 发现,当力场的空间复杂性增加时,这必然会增加可变性,泛化实际上会缩小而不是扩大。 另一方面,Braun 等人发现,与对照组相比,使用随机旋转训练的参与者能够更快地适应后续旋转,随机旋转会平均产生任何学习,但会引起运动变化。他们的结果表明,训练可变性可以导致结构学习,即视觉运动旋转,随后的学习主要重新校准旋转的参数,即角度。然而,值得注意的是,在随后的工作中,我们发现变异性诱导的泛化好处是显性策略的结果,而不是隐性适应的结果[68]。 报告有限泛化的运动适应研究表明,我们任务中的学习以不同的方式进行 [69,70]。事实上,McDougle等[69]发现,LSJ是一名患有严重双侧海马损伤的患者,能够提高她在视觉运动适应任务中的表现,但无法学习一种新的网格导航键映射。这些结果表明,网格导航任务的成功表现取决于已知对空间导航和规划至关重要的大脑区域 [71],这与运动适应所涉及的小脑依赖机制相反 [13,72,73]。 然而,在实验 1 的训练阶段,可能会发生关于关键序列的某种形式的结构学习,类似于 Braun 等人 [64] 的结果,这可能会为多个组带来更好的泛化。具体来说,在实验 1 中,训练阶段和泛化阶段都有相隔 7 步的起始-目标对。然而,根据设计,Multiple 组在训练过程中对大量序列进行了采样,这可能无意中使它们接触到了在泛化中达到目标所需的轨迹元素。尽管泛化中没有一对开始-目标需要像训练中那样精确的按键顺序,但一些原型运动模式可能已被重复使用以达到新的目标。然而,这种情况在实验 2 中被排除了,其中目标在泛化过程中只差一步,但 Single 组在整个泛化阶段仍然表现出显着较低的性能。因此,我们认为,由于结构学习的差异,在单组和多组之间观察到的泛化表现差异不太可能发生,而是由于他们灵活使用内部模型(视觉运动映射)的能力不同。 值得注意的是,尽管在实验 1 和 2 中观察到的泛化性能存在差异,但 Single 组确实显示出使用视觉运动映射的证据,尽管不如 Multiple 组有效。例如,当新目标离他们只有一步之遥时,他们的表现大于运气。此外,当对比实验 1 和 2 中的泛化性能时,它们对远距离目标的 RT 比对近端目标的 RT 增加更多,这表明它们正在计划中 [74,75]。这一结果排除了观察到的 RTs 变化仅仅是由于目标的新颖性而发生的可能性,或者参与者只是随机反应的可能性。此外,我们还发现,在实验 1 的泛化阶段,Single 组的键间间隔显着更高,这强烈表明他们必须重新审视视觉运动映射以计划轨迹的中间步骤。在建模结果方面,在实验 1 和 2 的训练和泛化阶段,Single 组还显示出基于模型的权重大于零,这表明基于模型的计算存在一些影响。最后,即使在实验 4 的随机任务版本中,Single 组中的大多数参与者在一定程度上明确知道键的移动方向,这使得他们不太可能在实验 1 和 2 中任务的确定性且可以说更简单的版本中不知道它们。 我们认为,Single 组无法像 Multiple 组那样灵活地使用视觉运动映射,部分原因是训练阶段形成的习惯性反应的竞争加剧。事实上,实验 1 和 2 的补充分析表明,在 Single 组中,比在 Multiple 组中更频繁地,泛化阶段的错误与训练期间最常用的序列之一(S6 图)相同的键开始——这表明习惯的持久性模式特征。我们的计算建模分析支持这些结果,因为 2W 混合模型中基于模型的权重在 Single 组中总体上一直较低,但最重要的是,在从训练过渡到泛化之后,反映了无模型过程的更大影响。与此相关的是,当视觉运动映射(实验 4)中呈现随机性时,原则上阻止参与者在训练期间重复相同的按键顺序,Single 组在泛化方面与 Multiple 组的表现相匹配。这种类型的训练可能会破坏习惯性反应的形成,并允许灵活使用学习到的映射。 先前的研究表明,习惯性反应的一个关键特征是它们在奖励贬值后的持续性 [76,77]。然而,奖励的历史对于习惯的形成可能不是必需的,因为它们可以简单地通过重复的行为出现[78,79,80]。虽然我们的模型将奖励实现为在视觉上最小化到目标的(棋盘)距离,但目前尚不清楚这对参与者的实际奖励程度。此外,我们的任务中奖励的明确表示(训练试验结束时的表情符号)相对较少。因此,似乎更合理的是,在泛化过程中出现的任何习惯性反应都是由于它在训练阶段的频繁重复[78\u201279](S6图),而不是由于奖励的加强。我们工作的一个主要局限性是,我们模型的当前版本没有明确解释这种响应的自相关。相反,我们实现的无模型系统只预测面对新的起始-目标对的机会级响应。这个假设并不准确,并且可能会受益于纳入先前采取的行动的持续性成分[79,81,82]。在我们的任务中,持久性可以发生的确切水平是一个实证问题。例如,如果一个主题在整个任务中倾向于比其他键更频繁地按下一个键,则它可以在全局级别表现出来,而不管起点-目标对或光标的当前位置如何。或者,持久性可以发生在更局部的级别,其中响应更有可能在给定的网格状态或给定的开始-目标对上重复。允许模型在泛化过程中捕获习惯性响应可以提高模型拟合度,并导致单组和多组之间基于模型的权重出现更明显的差异。 除了泛化过程中习惯性反应的潜在干扰外,Single 组的较低表现也可能归因于从训练到泛化阶段的突然过渡,鉴于试验之间的可变性,Multiple 组在较小程度上经历了这种情况。虽然这在第一次泛化试验中是一个合理的场景——其中 Single 组的参与者确实在机会水平上表现(图 6C)——但它不太可能解释他们在整个泛化阶段持续较低的表现。尽管我们确实观察到了一些恢复,但在泛化阶段结束时,当我们控制新的学习时,Single 组的表现仍然明显低于 Multiple 组(图 6A)。相比之下,对变化点检测的研究发现,当控制器众所周知时,性能通常会在突然转换后立即恢复,至少在简单场景中是这样[83,84]。 最后,Single 组可能表现出更差泛化性能的一个潜在原因是,与右键相比,唯一 start-target 对的轨迹解决方案需要主要使用 left-up 和 left-down 键。响应的这种不对称性可能导致与后一个键相关的更大错误。我们通过分析 Single 组中泛化过程中的错误是否更频繁地与将光标向右移动的键相关联来解决这种潜在的混淆。我们试图通过检查实验 2 的泛化试验来解决这个问题,因为它们需要一次移动。我们发现,所有参与者的泛化误差中只有 17% 与这个键有关。因此,较低的泛化性能不能归因于 Single 组中具有正确键的较少训练样本。 就我们的计算模型而言,我们利用了无模型算法和基于模型的算法之间的强化学习中众所周知的区别 [45\u201285]。尽管有证据表明人类可能同时使用这两个系统[48,86],但它们彼此交互的方式尚不清楚。与之前的研究类似[46,48],我们假设这种交互作用可以是具有固定权重的系统输出的简单加权和。然而,我们也提出了一种基于与熟悉状态相遇的新型仲裁机制。虽然该模型在总体水平上没有提供最佳拟合,但它在个体水平上为实验 1、2 和 4 的几个参与者提供了最佳拟合。其他仲裁模式(例如[50,87])是否能比我们的仲裁模式或固定权重的混合模式提供更好的拟合,还有待测试。 同样,可以将规划算法的进一步变体合并到模型中。例如,尽管广度优先搜索适合解决像我们这样的确定性任务,但包含启发式、不确定性或资源合理计算(如修剪或截断)的算法似乎更有可能由大脑实现 [71,88]。我们决定实施广度优先搜索 (BFS),因为它具有统一的结构,允许它探索通向目标的所有路径(即使不是立即显而易见)。这一点尤其重要,因为参与者经常选择偏离目标但最优的棋步,而使用通常倾向于朝向目标的棋步的搜索算法(例如,基于棋盘距离或欧几里得距离启发法)将更难检测到这些棋步。虽然我们的无模型算法确实倾向于这样的动作,但基于模型的算法旨在捕捉可能反映计划的不太直观的动作。然而,我们对 BFS 的实施假设参与者可以无限深度进行规划,这是一个不切实际的假设。该模型的未来变化可能包括称为“前瞻”的规划深度限制,这在生物学上可能更合理[71]。或者,不采用基于模型的计算的学习算法也被证明可以通过在状态和动作之间转移价值来实现泛化[89]。然而,与近端目标(实验 2)相比,Single 和 Multiple 组对远距离目标(实验 1)的反应时间明显更高这一事实强烈表明参与者参与了我们的任务计划。此外,我们所有实验中的 RT 始终高于按键间间隔(S2 图),这可能表示参与者为达到目标而准备按键顺序所花费的时间——即计划。 对于实验 3,我们发现即使在长时间暴露于无变异性之后,可变训练优于泛化的好处仍然存在。我们认为这是在学习的早期阶段形成新的视觉运动映射的结果 [1],可变性的突然变化可能将映射记忆与未来的更新分开 [90\u201291],防止它被遗忘。随后,在没有可变性的时期,可能形成了新的状态-行动关联。如果形成了视觉运动映射和状态-动作关联的单独记忆,则后者可能通过减少泛化过程中的准备时间来诱发[92]。至关重要的是,与实验 1 和 2 不同,从单次试验结束到第二个泛化阶段开始的反应时间增加也伴随着成功的泛化。这表明参与者能够有效地切换到基于模型的计算。 实验 3 的结果证实了视觉运动适应之外的先前发现,即可变训练的好处发生在学习早期引入变异性而不是后期 [43],但前提是变异性不是太高。在我们的实验中,变量训练意味着暴露于四对起始目标位置,每对位置至少重复 20 次(在学习实验 3 的早期)和最多 70 次(实验 1、2 和 4 中的多个条件),我们认为这为参与者提供了对每个位置的足够熟悉。如果他们经历了更多的可变性,例如每次试验都改变起始-目标对,性能可能会更慢,并且泛化的好处可能会更晚出现。 在实验 4 中,我们表明随机映射形式的可变性可以导致单组和多组之间具有可比的泛化性能。然而,Single 组在训练阶段显着降低的 RTs 表明,泛化的改进并不以牺牲训练期间较高的 RT 为代价。因此,具有单一目标的随机训练可以证明是一种有效的制度,可以同时保持无模型和基于模型的计算的优势。此外,虽然我们无法完全消除任务中对映射的意识,但我们没有发现证据表明参与者之间的意识差异与泛化表现有关。我们认为有必要进一步研究来测试显式过程在视觉运动映射学习中的作用,因为以前的研究表明它们在与我们类似的任务中可能至关重要 [69\u201270]。 虽然以前大多数关于序列学习的研究,如SRT、m x n任务或离散序列生产,都允许研究实验者指定的外部生成的序列,但最近人们对人类内部生成的序列产生了兴趣[31,33\u201235],由于不受约束,使我们能够探索使人类得出给定解决方案以实现目标的规划过程。这个方向的模型任务是网格导航。我们的工作通过进一步提供可能产生这些序列的过程的认知模型,为这个方向迈出了一步:基于模型的映射学习和状态-动作关联。我们相信这些类型的任务是人类在生活中进行的各种活动的良好典范,例如玩电子游戏、乐器或运动,在这些活动中,即兴创作和自我选择行动是一个共同特征。然而,重要的是要注意,与人类在生活中学习的映射的复杂性相比,我们在研究中测试的映射相对简单。因此,需要研究更复杂的映射。在最近的一项工作 [93] 中,我们通过要求参与者使用基于国际象棋中不太直观的“骑士”规则的映射在网格中导航来解决这个问题。这种设置和类似的设置可以允许研究获得复杂技能所涉及的过程,例如学习和规划。 最后,与当前实验一样,网格导航位于运动学习和空间导航的交叉点,其中可能会发生程序和陈述过程的交互。例如,以前的研究强调,在陈述性知识方面有一定障碍的参与者在类似任务中的表现不如对照组[69]。因此,网格导航可以用作陈述性知识如何有助于获得运动技能的测试平台。与此同时,它处于复杂程度,构建相对简单的认知模型来解释人类表现仍然很容易处理。 材料和方法 道德声明 实验得到了普林斯顿大学机构审查委员会 (IRB) 的批准,所有参与者在参与实验前都提供了书面知情同意书。 参与者 来自普林斯顿大学的 112 名本科生(49 名男性,58 名女性,4 名非二元性别和 1 名不愿透露;平均年龄 = 19.9,sd = 1.4)是通过心理学学科库招募的。样本量基于先前对网格导航任务的研究[31,33,34]。 装置和任务设计 所有实验均使用相同的计算机设备亲自进行。刺激显示在 60 Hz 的戴尔显示器上,并由运行 Windows 10 的戴尔 OptiPlex 7050'a 机器(戴尔,德克萨斯州朗德罗克)计算(Microsoft Co.,华盛顿州雷德蒙德)。参与者使用标准桌面键盘做出回答。所有实验均使用 CSS、Javascript 和 HTML 编程,并在 Web 浏览器上运行并托管在 Google Firebase 上。受试者坐在计算机前,并被要求按照说明开始任务。 我们采用了基于 Fermin 等人 [33\u201234] 的网格导航任务的变体,其中参与者需要使用键盘的 J、K 和 L 键将光标从 9x9 网格上的起始位置导航到目标位置。在实验 1-3 中,每个键都确定性地将飞船移动到三个可能的方向之一:右、左下或左上。在实验 4 中,键的方向遵循随机规则(见下文)。在实验开始时,向参与者提供了以下说明:“在这个游戏中,您将使用键盘的字母 J、K 和 L 将车辆通过网格移动到目标位置。您的目标是使用最短的路线到达。如果你以最短的路线到达,你会看到一张快乐的脸。如果您使用不同的路线到达,您将看到一张中立的面孔。如果你在一定时间后没有到达,你会看到一张悲伤的脸。“在参与者确认他们理解了说明后,任务开始了。光标显示为一艘船,目标显示为锚。此外,为了使任务更具吸引力,它以海洋为背景执行,每次光标移动时,都会发出安静的海浪声和“气泡”声。 在给定的试验中,光标和靶标出现在不同实验的不同位置(见图 1)。根据试验的表现,受试者可能会收到三种类型的反馈。如果他们在不到 10 秒的时间内没有到达目标,目标就会出现一张悲伤的脸,并伴有“错误的声音”表明他们失败了。如果参与者到达目标但未达到最少的按键次数,则呈现中立的面孔和声音。如果他们使用最少的按键次数到达,则会显示一张带有“正确声音”的快乐面孔。视觉反馈在屏幕上保留 1 秒,之后出现 500 毫秒的试验间隔。然后,下一次审判开始了。该实验分为训练阶段和泛化阶段,下面将详细描述每个实验。在所有实验的训练阶段,目标被放置在距离起始位置 7 步远的地方。 实验 1 程序 该实验的目标是确定具有不同可变性水平的特定训练机制是否促进局部状态-动作关联或灵活且可推广的视觉运动映射的形成。对于所有参与者,J、K 和 L 键分别将飞船移动到左下、右和左上(图 1A)。训练阶段包括 260 次试验,然后是 20 次泛化试验,与 20 次训练试验交错,总共有 300 次试验。我们选择了试验次数,使实验持续 40-60 分钟,这相当于我们的受试者(本科生)的一个学分。然而,我们能够通过一项在线研究来复制我们的主要发现,我们将试验数量减少到 100 项(80 项训练和 20 项泛化;S10 图)。受试者被随机分配到两组中的一组,这些组在训练期间呈现的起点-目标对位置数量不同(图 1)。在单组 (n = 16) 中,所有训练试验都提出了一个唯一的起始-目标对。在这种情况下,可以使用独特的按键序列(例如,J-L-J-L-J-L-K)来达到目标,但是,参与者没有受到限制或鼓励这样做。 对于多个组 (n = 16),在整个训练过程中出现了四个起始-目标对,每个对都出现了 65 次。我们对对进行随机化,以便同一对不会连续出现超过两次,并且所有四对都出现了一次,然后再次观察它们。此外,无法使用与到达其他目标相同的按键顺序来达到每对的目标。在泛化试验中,两组都提出了 4 个新的起始-目标对。目标被放置在距离起点 7 步的地方,就像在训练试验中一样。每个泛化对重复五次,但没有一对连续出现超过两次,并且在再次显示之前观察了所有四对。在泛化试验中没有提供性能反馈(表情符号面孔和声音),但每个动作后的动作反馈是可用的。然而,在交错训练试验和泛化试验中都提供了运动反馈。 实验 2 程序 在实验 2 中,我们测试了当保留与运动相关的反馈并且不需要顺序计划时,实验 1 中单组和多组之间的泛化表现是否会仍然存在差异。为了实现这一目标,我们修改了实验设置,在泛化试验期间将目标位置放置在距离起点仅一步的地方(而不是实验 1 中的 7 步)。此外,我们删除了泛化阶段交错的训练试验。 通过将四个起始位置与三个可能的目标位置联系起来,创建了用于泛化的新型起始-目标对(图 1B)。所有对都至少进行了一次,其余的泛化试验是从可用的 12 项试验中随机选择的,没有替换。最后,为了控制映射特异性效应,我们随机化了每个键在受试者中分配给的方向。单个 (n = 16) 和多个 (n = 16) 组的训练阶段与实验 1 中的训练阶段相同。试验总数为 280 例。 实验 3 程序 在实验 3 中,我们测试了短暂暴露于训练变异性,然后长时间暴露于无变异性是否足以学习映射以及保持对映射的记忆,从而在实验结束时的泛化阶段提供良好的性能。参与者 (n = 16) 首先在 80 次试验中进行了 4 对起始-目标对(多次试验)的训练,然后经历了 20 次试验的第一个泛化阶段,目标位置与实验 2 一样相距一步。我们选择了 80 次训练试验,因为在实验 1 和 2 中,Multiple 组在此时间范围内达到了渐近性能。此外,在在线试点研究中,我们发现在多重组中,如此数量的试验可以成功泛化。在第一个泛化阶段之后,参与者暴露于 1000 次试验,其中有一对起始-目标对(即单次试验),这与实验 1 和实验 2 的单组相同。这一阶段的试验数量是根据一项试点研究决定的,在该研究中,我们首先测试了 400 项单一试验,发现泛化性能没有下降。因此,我们的目标是进一步扩展这个阶段,以更稳健地测试具有可变性的早期训练的效果。最后,参与者接受了 20 项试验的第二个泛化阶段。重要的是,两个泛化阶段的起始-目标对的顺序是随机的。 实验 4 程序 实验 4 的目标是双重的。首先,我们试图测试视觉运动映射是显式的还是隐含的。其次,我们测试了训练期间键-方向映射中的随机性引起的训练变异性是否会阻止对序列的显式记忆和映射的压力学习,这将提供泛化。为了实现这一点,我们对光标的移动施加了概率规则。具体来说,在 Single (n = 16) 和 Multiple (n = 16) 组的训练阶段,每次移动时,键都会将光标移动到与原始映射不同的其他七个方向(左下、右和左上)中的任何一个,概率为 0.2。我们根据先前的序列学习研究使用这个概率,这些研究发现,增加这种级别的随机性会阻止参与者显式地学习序列[57,60]。为了评估被试对任务的视觉运动映射的意识,我们要求他们在实验结束时指出每个键将光标移动到的方向。具体来说,键盘键的图片显示在屏幕上(J、K 和 L),每个键后面跟着八个用箭头指示的移动选项(上、右、右、右、下、左下、左和左上)。参与者必须在选项中选择他们认为是钥匙真正移动方向的选项。泛化试验与实验 2 相同,目标距离开始位置只有一步之遥,并且没有提供反馈。 行为数据分析 所有分析均使用 R 统计软件 [94] 或 Matlab 2022a 版 [95] 进行。我们的主要行为测量是实验 1-3 中对目标的最佳到达和反应时间,其定义为将光标移动到目标的最小按键次数(7 次移动或 1 次移动,具体取决于实验和阶段)。在实验 4 中,由于随机性,我们的主要衡量标准是简单地到达目标,即使它不在最小按键次数内。我们还检查了反应时间(定义为目标呈现和第一次按键之间的时间)和按键间隔(定义为每次连续按键之间的时间)。这些行为指标每 10 次试验进行一次分箱。当我们的单组和多组之间进行相关比较时,我们使用 Welch t 检验来计算不等方差 [96]。在实验 3 中,使用配对 t 检验进行比较,因为样本是依赖性的。在比较实验 1、2 和 4 中单组和多组之间的学习曲线时,我们执行了一个混合效应模型,时间和实验组为固定效应,受试者为随机效应。 计算建模 为了获得对可能产生实验结果的学习过程的机制洞察力,我们在所有实验中评估了五个计算模型。在建模光谱的一端,我们实现了一个预测误差 RL 模型来表征不灵活的、习惯性的行为,我们认为这可以在我们的 Single 组(无模型)中诱导。尽管这个模型以相对简单的方式工作,但它预测的泛化性很差,因为它只能在过去经历的情况下知道该怎么做(图 4)。在建模范围的另一端,我们使用了贝叶斯模型和树搜索规划过程,来表示获得真正的键到方向映射并利用它来决定最佳行动方案(基于模型)的学习者。正如我们将在下面描述的那样,这个模型将能够很好地推广到我们的任务中,我们相信在我们的 Multiple 组中可以借鉴类似的机制。最后,我们考虑了三种混合模型,它们在无模型算法和基于模型的算法之间的混合权重规范上有所不同。特别是,我们考虑了一个混合模型,该模型具有单个权重、两个权重(一个用于训练阶段,一个用于泛化阶段)和具有时变权重,其中系统之间的仲裁基于当前状态的熟悉程度。 无模型 (MF):此模型使用预测误差,使用绝对坐标更新每个目标位置的每个网格单元的键值。无模型算法由于其简单的试错机制,可以捕获各种各样的行为和神经数据,在过去几年中受到了相当大的关注[20,86,97]。在我们的任务中,它会在观察到预测误差 δ 后更新按键 k 的值 v。更明确地说,对于每个时间步 t: 其中 are 是获得的奖励, ⍺ 是调节学习速度的自由参数。我们根据棋盘到目标的距离 d 的减少来定义奖励 r。具体来说: x 和 y 是目标和光标的网格坐标。然后,使用 Softmax 函数生成在时间步 t 按下键 k 的概率: 其中 β 是逆温度参数,R t是在时间步长 t 处按下按键。此模型有两个自由参数:⍺ 和 β。请注意,虽然许多无模型的方法(时间差分法等)用于此类多步骤决策任务递归学习测量目标距离的多步值函数,但在这里,我们通过非递归定义每个步骤的目标值来略微简化这种方法,根据每个步骤的简单棋盘启发式。这类似于优势学习(本身是 actor-critic 的变体),但值函数组件固定为棋盘距离。在补充分析(S11 图)中,我们表明这种无模型算法的性能优于 SARSA,这是一种常用的时间差分算法 [20]。我们认为,在这个模型中,棋盘距离的减少是奖励的直观衡量标准,因为它相当于在视觉上更接近目标。此外,鉴于与移动次数相比,我们的任务中的显式奖励(试验结束时的表情符号)相对较少,因此将距离减少作为奖励信号,旨在帮助模型中的学习更接近数据中观察到的快速学习曲线。然而,这种形式的距离假设光标可以移动到任何相邻的位置,这在我们的实验中是不正确的,但在不知道关键结果映射的代理中是合理的。正如我们将在下一个模型中看到的那样,到目标的距离可以改为与目标相距甚远的按键次数来测量。当光标的可用移动受到限制时,按键距离可能与棋盘距离不同。更重要的是,知道按键距离意味着了解真正的按键结果映射,这是我们下一个模型的基本属性。 基于模型 (MB):在此模型中,使用贝叶斯规则更新关键结果映射的概率分布,然后用于减少远离目标的按键次数。特别是,对于每个键 k,假定光标移动方向 x 由分类分布生成:其中 (θ 1,...,θ8) 是给定键将光标移动到 8 个相邻位置中每个位置的真实概率。这些概率是未知的,但可以使用 Bayes 规则进行推断。为此,在 (θ1,...,θ8) ,这表示对关键结果映射的初始了解。出于共轭的原因,选择狄利克雷分布很方便:使初始参数等于 1 不会优先选择任何先验方向。虽然我们认为这是一个合理的起点,但参数初始值的指定可能会影响模型对数据的敏感度。例如,较大的值会使模型对数据的敏感度降低。然后,关于映射的后验信念由另一个狄利克雷分布描述: 其中 Σ j1(j = 1) 是观察到密钥沿第 i 个方向移动的次数。参数的期望值可以计算为具有 π 的概率向量,而不是随机变量向量: π 我是光标转到第 i 个方向的概率。也就是说,如果按下一个键,光标可以最终出现在 8 个相邻位置,概率为 π。在基于模型的强化学习中,π对应于给定状态和动作的转换概率。我们的模型是这些算法的一个特例,其中所有状态的转换概率都是相同的。然后,如果按下了该键,这些概率将用于计算在下一个时间步中到目标的预期距离:其中 d 是到目标的实际距离,即距离目标按下的键数。为了计算 d,我们使用了广度优先搜索 (BFS) [98]。BFS 将我们的网格环境转换为一个图形,其中每个节点代表一个网格状态,并且节点根据给定视觉运动映射的网格中可能的转换相互连接。BFS 被认为代表了基于模型的算法中的规划过程,众所周知,该算法在像我们这样的确定性环境中运行良好 [71]。BFS 所做的是在网格环境中创建的图表上进行搜索,首先访问距离当前位置仅一步之遥的节点,然后检查目标是否在那里;如果不是,则它会继续在相距两步的节点中搜索,依此类推。它会继续此过程,直到到达目标。我们可以使用 −E(d) 来表示按下给定键的值。将符号更改为负数会使较短的距离更有价值,然后这些数量可以代入 Softmax 函数: 该模型有一个自由参数:β。重要的是,与无模型算法(棋盘距离)相比,该算法具有不同的奖励信号(到目标的实际距离)。虽然这在无模型和基于模型的模型中不是一个常见的假设,但我们推断它可以捕捉到这样的想法,即无模型算法无法访问使用世界模型产生的值(转换概率),而基于模型的算法则可以访问。 混合动力车型 如前所述[46,48\u201250],我们考虑了参与者同时实现无模型和基于模型的计算的可能性。我们将这种可能性表示为无模型算法和基于模型的算法输出之间的加权和。 单重量型号 (1W) 在这种混合模型中,整个实验只有一个权重。特别是: 其中 ω 是基于模型的零部件的权重。单权重混合模型提供了一种简单的方法来指定学习系统之间的交互[46\u201248],尽管它们可能会错过有关动态的重要信息(如果存在的话)。此模型有四个自由参数:⍺、β MF 系列、 βMB和一个权重参数 ω。 2 磅和 4 磅型号(2W 和 4W) 这些混合模型考虑了基于模型的权重 ω 在学习和泛化阶段不同的可能性。这种变化可以包含当遇到新目标时基于模型的影响力增加的场景。2W 混合动力模型有五个自由参数:⍺、βMF 系列、 βMB、 ω火车和 ω根.对于实验 3,我们考虑了一个四权重混合模型,该模型具有一个权重用于多次试验,一个权重用于单次试验,一个权重用于第一个泛化阶段,一个权重用于第二个泛化阶段,总共给出了七个自由参数。 仲裁模型 (AR) 根据初步建模结果,我们使用时间序列权重作为自由参数拟合了一个无约束模型(S7 图),我们认为混合权重 ω 可以随时间变化。虽然该模型参数化程度较高,性能低于其他模型(S7 图 ),但它提供了对权重动态的初步见解。这一观察结果与之前的研究一致,即从基于模型到无模型的控制过渡,这是习惯形成的基础 [48]。因此,我们提出了一种仲裁机制,其中基于模型的分量的权重随熟悉和新颖状态的历史而变化。特别是,我们使用贝叶斯更新方法,其中每个时间步长上基于模型的权重由 Beta 分布给出:其中 S 是状态,编码为当前位置和目标位置。在此更新规则中,如果过去没有经历过当前状态,则 Beta 发行版的参数 β 会增加一个单位,内存窗口参数 τ 控制要考虑的过去多长时间。如果不断经历新的状态,则 ω 的分布MB将向 1 移动,从而增加对模型基础系统的控制。另一方面,如果过去经历过当前状态,则 Beta 分布的参数 β 将增加一个单位。因此,如果不断体验熟悉的状态,则 ω 的分布MB将向 0 移动,从而增加对无模型系统的控制。为了在每个时间步长混合基于模型和无模型系统的输出,我们使用 Beta 分布的平均值: 该仲裁模型提供了一种简单的机制,说明在整个实验中,基于模型的系统的权重在 Single 组和 Multiple 组之间如何不同(S8 图 )。特别是,Multiple 组的起始-目标对的频繁变化使得以前访问的状态更有可能在过去更遥远,可能会被遗忘(由 τ 参数调制)。因此,在训练期间和泛化阶段开始时,基于模型的权重更大。相比之下,对于 Single 组,由于 start-target 对中没有变化,因此更有可能在最近的过去找到熟悉的状态。这会导致在训练阶段和泛化阶段开始时基于模型的权重较低。 此模型有四个自由参数: ⍺, βMF 系列、 βMB和 τ 模型拟合和评估:我们使用了在 Matlab 代码中实现的贝叶斯自适应直接搜索 [99] 来获得模型参数的点估计。对于每个参与者和模型,我们计算了 Akaike 信息标准 (AIC) [51] 和贝叶斯信息标准 (BIC) [52]。 绝对拟合优度:除了计算 AIC 和 BIC(使我们能够在它们之间比较模型)之外,我们还想了解它们在绝对意义上对数据的描述程度,即与任何概率模型的理论(接近)上限进行比较,至少在给定有关可交换性的特定假设的情况下。这个近似上限由负熵 [54–56] 表示,由下式给出:其中 p(D|米 真) 表示给定真实模型的数据的概率分布。负熵是一个非正量,直观地表示我们可以从真正的生成模型中了解多少数据。Grassberger [54–56] 给出了一个负熵的估计量,即使数据点很少,误差也很小。对于我们的实验,这个估计量由下式给出: 其中 G 0= 0,克1= −γ−log 2 和 G2= 2−γ−对数 2.γ ≈ 0.577215 是欧拉常数。 对于 (n≥1): 因此, C 表示数据的分区,例如实验条件,在我们的例子中,它等于唯一对的起始和目标位置的数量乘以网格中的状态数量。因此,C 在所有实验组中都不相同。在实验 1 中,网格中的状态数为 81。Single 组的起始对和目标对数为 5,Multiple 组为 8。因此,单组和多组分别为 C = 405 和 C = 648。在实验 2 和实验 4 中,两组的网格状态数均为 81。对于“单个”组,开始位置和目标位置的唯一对数为 13 个,对于“多个”组,则为 16 个。因此,Single 组中的 C = 1053,Multiple 组中的 C = 1296。最后,对于实验 3,整个实验中有 17 对唯一的起始和目标位置,因此 C = 1377。N 我是数据的分区 i 中的响应总数。K我[1]是数据的 i 分区中对键 1 的响应数 K我[2]数据和 K 的 i 分区中对键 2 的响应数我[3]对数据的 I 分区中键 3 的响应数。重要的是,这个估计器假设给定真实模型的数据分布是平稳的,这不一定是我们的任务,因为参与者的回答可能会因学习而改变。然而,正如我们在图 2 和图 5 中看到的那样,受试者的表现相对较快地稳定下来,我们认为这将是模型表现上限的合理近似值。 负熵可以与负交叉熵进行比较,负交叉熵直观地表示我们可以从不完美的模型(我们的模型)中了解多少数据。负交叉熵由下式给出:其中 p(D|米 我) 表示给定建议的模型 M 的数据的概率分布我.负交叉熵也是一个非正值。负交叉熵的估计量是在参数的最大似然估计值 [54] 下评估的似然函数的对数,由我们的参数估计方法 [99] 返回。为了提供绝对拟合优度的简单可视化,我们计算了由模型解释的数据中可解释变异性的比例: log p(D|米 兰特) 是给定模型的数据可能性的对数,该模型假设所有响应的可能性相同,并表示所有模型的下限。在分子中,我们有由提议的模型解释的内容(与下限相比),相对于可以解释的内容(上限和下限之间的差异),即分母。 群体模型比较:除了在个体层面上比较模型外,我们还按照Stephan et al. [53]进行了群体模型比较。根据他们的工作,概率 (q1,q2,q3) 的模型遵循狄利克雷分布:参数 α = [α 1、α2、α3] 可以通过迭代作者提供的以下算法来估计,并且我们在 R 代码中实现了这些算法: 其中 k 是测试模型的数量,n 是受试者的数量,ψ digamma 函数。重要的是,该算法只需要我们提供可以近似为 -BIC/2 的对数边际似然。为了避免 u 的超大数字 NK,在 R 中返回 ∞,我们使用了以 100 为底的边际似然的对数。我们迭代了算法 103时间提供可靠的α估计值。狄利克雷分布的新参数可用于计算概率 [r1,r3,r3] 中,随机选择的主体遵循任何测试模型: 最后,我们计算了给定模型 k 比总体中的其他模型更有可能的概率,即超标概率 φk: 根据总概率定律: 这个积分可以通过 Soch 和 Allefeld [100] 中提供的方法在 Matlab 代码中实现,以数值方式近似。 参数恢复 为了验证测试模型中的参数是可识别的,我们使用 100 个参数空间的随机样本从每个模型生成数据;然后,我们使用贝叶斯自适应直接搜索 [99] 进行最大似然估计,以尝试恢复生成数据的参数。最后,我们绘制了模拟参数与拟合参数的对比,并计算了它们之间的皮尔逊相关性。从 S12 图中可以看出,我们能够在所有情况下都合理地恢复模拟参数。 模型恢复 我们使用参数空间的随机样本模拟了来自每个模型的 100 个数据集。然后将这些数据集与所有模型拟合。在 S13 图中,我们展示了混淆矩阵,根据贝叶斯信息准则,每个模型能够最好地恢复其他模型生成的数据的次数比例。一般来说,所有模型在 85% 以上的时间里都比其他模型能够更好地恢复自己的数据。 支持信息 实验 1 中 Multiple 组的目标特定效果。 显示 1/13: pcbi.1012471.s001.tif 跳至 fig分享导航 很抱歉,我们无法加载您的数据。 1 / 13 下载 无花果分享 S1 图 实验 1 中 Multiple 组的目标特定效果。 未发现不同起始-目标对之间的性能存在明显差异。 https://doi.org/10.1371/journal.pcbi.1012471.s001 (TIF) S2 图 实验 1-4 训练阶段的反应时间和键间间隔(从左到右)。 Single (单个) 和 Multiple (多个) 组分别以金色和绿色显示。 https://doi.org/10.1371/journal.pcbi.1012471.s002 (TIF) S3 图 实验 1 泛化阶段的反应时间和键间间隔。 Single (单个) 和 Multiple (多个) 组分别以金色和绿色显示。 https://doi.org/10.1371/journal.pcbi.1012471.s003 (TIF) S4 图 实验 1 和实验 2 中参与者最常用的轨迹。 在每个网格上方,我们显示了训练期间所描绘的轨迹最常用的参与者的百分比。我们显示了至少两个受试者喜欢的轨迹。 https://doi.org/10.1371/journal.pcbi.1012471.s004 (TIF) S5 图 在实验 1 和实验 2 的训练阶段累积使用最频繁的轨迹。 红线表示 Multiple 组中起始-目标对的最大值(比例 = 0.25),因为每个对只出现在四分之一的试验中。不同类型的金线表示 Multiple 组中的四个起点-目标对中的每一个。 https://doi.org/10.1371/journal.pcbi.1012471.s005 (TIF) S6 图 实验 1 和 2 中泛化阶段习惯性反应干扰的证据。 对于给定的受试者,我们计算了泛化阶段的误差数量,其中第一步(实验 2 中唯一的一步)与训练阶段最常用序列的第一步相匹配。鉴于 Multiple 组中的参与者没有犯很多错误,我们在受试者之间汇总了这些值,并将它们除以所有参与者的泛化错误总数。我们在图的 Y 轴上报告该值,红色虚线表示机会水平。 https://doi.org/10.1371/journal.pcbi.1012471.s006 (TIF) S7 图 实验 1 和实验 2 的多个(金色)和单个(绿色)组中无约束模型的基于模型的试验权重。 权重表示 free 参数的时间序列。值 1 表示完全基于模型,而值 0 表示完全无模型。虚线划定了泛化阶段的开始。由于该模型在每次试验中都有一个免费参数,因此当以参数计数来衡量复杂性时,它的表现不如其他模型(实验 1:单个:ΔBIC = 2445,多个:ΔBIC = 2280;实验 2:单:ΔBIC = 2457,多:ΔBIC = 2214。ΔBIC 是表 1 和表 2 中最佳模型的中位数的 BIC 差异。但是,它为权重的动态提供了有价值的见解,我们用它来构建仲裁模型 (AR)。 https://doi.org/10.1371/journal.pcbi.1012471.s007 (TIF) S8 图 对仲裁模型中单个组和多个组中不同 τ 值的基于模型的权重随时间的模拟。 https://doi.org/10.1371/journal.pcbi.1012471.s008 (TIF) S9 图 以实验 2 中 Multiple 组的目标特定效果为目标。 未发现不同起始-目标对之间的性能存在明显差异。 https://doi.org/10.1371/journal.pcbi.1012471.s009 (TIF) S10 图 与 Amazon Mechanical Turk 参与者一起复制实验 1。 Single 组以绿色表示,Multiple 组以金色表示。 https://doi.org/10.1371/journal.pcbi.1012471.s010 (TIF) S11 图 我们的无模型算法(此处为 MF*)与 SARSA 之间的模型比较。 SARSA 为每个起始-目标对的状态-操作值提供时间差异更新:Q(s,a)←Q(s,a)+α[r+γQ(s′,a′)−Q(s,a)]。我们使用 AIC 和 BIC 差异评估了实验 1 和实验 2 数据中的模型,并使用 Wilcoxon 符号秩检验检验它们是否不为零。我们发现,根据指标,我们的模型表现与 SARSA 相同或更好。特别是,尽管 Multiple 组中的模型之间没有差异 (V = 77,p = 0.33),但 AIC 差异显著有利于我们的模型 Single 组 (V = 34,p = 0.04)。根据 BIC,它更强烈地惩罚了 SARSA 中的额外参数γ,我们的无模型算法对 Single (V = 0, p < 0.001) 和 Multiple 组 (V = 26, p = 0.01) 明显更好。我们发现实验 2 的数据结果相似,根据 AIC,单一组(V = 46,p = 0.13)或多重组(V = 67,p = 0.97)的模型之间的性能没有显著差异,但我们的模型在单一组(V = 31,p = 0.02)和多重组(V = 26, p = 0.01)根据 BIC。 https://doi.org/10.1371/journal.pcbi.1012471.s011 (TIF) S12 图 参数恢复的结果。 x 轴上是模拟参数,y 轴上是恢复的参数。每个模型的参数用不同的颜色表示(MF = 绿色,MB = 橙色,1W = 紫色,2W = 蓝色,AR = 金色):α = 学习率,β = 逆温度,τ = 内存窗口,ω = 基于模型的权重,ω1 = 基于模型的训练权重,ω2 = 基于模型的泛化权重。红线表示对数据的线性拟合,灰色表示 95% 置信区间。在每个图的顶部,我们显示了模拟参数和恢复参数之间的 Pearson 相关性及其关联的 p 值。https://osf.io/zwqj9。 https://doi.org/10.1371/journal.pcbi.1012471.s012 (TIF) S13 图 具有模型恢复结果的混淆矩阵。 单元格内的数字表示根据 BIC ,Y 轴中的模型最好地恢复 X 轴上模型生成的数据的次数比例。https://osf.io/4xtmv。 https://doi.org/10.1371/journal.pcbi.1012471.s013 (TIF) 确认 我们感谢 IPA 实验室的成员进行的有益讨论。 引用 1.Fitts PM, Posner MI. 人类表现。加利福尼亚州贝尔蒙特:布鲁克斯/科尔;1967. 2.亚当斯 JA。运动学习的闭环理论。J mot 行为。1971;3(2):111–50.PMID:15155169 查看文章PubMed/NCBI谷歌学术 3.技能习得过程中个体差异的决定因素:认知能力和信息处理。J Exp Psychol Gen. 1988 年;117(3):288. 查看文章谷歌学术 4.协调、控制和技能。在:Goodman D,Franks IM,编辑。心理学的进步。阿姆斯特丹:北荷兰;1985. 第 295-317 页。 5.Newell KM. 运动技能获得。Annu Rev Psychol. 1991 年;42:213–37.PMID:2018394 查看文章PubMed/NCBI谷歌学术 6.Mosier KM, Scheidt RA, Acosta S, Mussa-Ivaldi FA. 在新颖的几何环境中重新映射手部动作。神经生理学杂志。2005;94(6):4362–72.PMID:16148276 查看文章PubMed/NCBI谷歌学术 7.Liu X, Mosier KM, Mussa-Ivaldi FA, Casadio M, Scheidt RA.在适应新学习的感觉运动转换的旋转和缩放过程中手指协调模式的重组。神经生理学杂志。2011;105(1):454–73.PMID:20980541 查看文章PubMed/NCBI谷歌学术 8.Shadmehr R, Mussa-Ivaldi FA. 运动任务学习过程中动态的自适应表示。神经科学杂志。1994;14(5):3208–24.PMID:8182467 查看文章PubMed/NCBI谷歌学术 9.Martin TA, Keating JG, Goodkin HP, Bastian AJ, Thach WT. 通过棱镜观察时投掷: I. 局灶性橄榄小脑病变损害适应。脑。1996;119(4):1183–98. 查看文章谷歌学术 10.Krakauer JW, Pine ZM, Ghilardi MF, Ghez C. 学习视觉运动变换以达到轨迹的矢量规划。神经科学杂志。2000;20(23):8916–24.PMID:11102502 查看文章PubMed/NCBI谷歌学术 11.乔丹 MI,鲁梅尔哈特 DE。前向模型:与远端教师一起监督学习。认知科学 1992;16(3):307–54. 查看文章谷歌学术 12.生理运动控制的正向模型。神经网络。1996;9(8):1265–79.PMID:12662535 查看文章PubMed/NCBI谷歌学术 13.沙德米尔 R,史密斯 MA,克拉考尔 JW。运动控制中的误差校正、感觉预测和适应。Annu Rev 神经科学。2010;33:89–108.PMID:20367317 查看文章PubMed/NCBI谷歌学术 14.Krakauer JW, Hadjiosif AM, Xu J, Wong AL, Haith AM.运动学习。Compr Physiol. 2019;9(2):613–63.PMID:30873583 查看文章PubMed/NCBI谷歌学术 15.Hadjiosif AM, Krakauer JW, Haith AM.我们是否弄错了感觉运动适应?隐式适应作为直接策略更新,而不是基于前向模型的学习。神经科学杂志。2021;41(12):2747–61.PMID:33558432 查看文章PubMed/NCBI谷歌学术 16.Yang CS, Cowan NJ, Haith AM.手动跟踪任务中从头学习与适应连续控制。Elife 的。2021;10 查看文章谷歌学术 17.桑代克 EL.效果法则。Am J Psychol. 1927 年;39(1/4):212–22. 查看文章谷歌学术 18.Petrides M. 人脑额叶和颞叶损伤后的视觉运动条件联想学习。神经心理学。1997;35(7):989–97.PMID:9226660 查看文章PubMed/NCBI谷歌学术 19.Elsner B, Hommel B. 行动效果学习中的连续性和偶然性。Psychol Res. 2004 年;68:138–54.PMID:14685854 查看文章PubMed/NCBI谷歌学术 20.萨顿 RS,巴托 AG。强化学习简介。剑桥:麻省理工学院出版社;1998. 21.西蒙 DA,Daw ND。人类空间决策任务中前瞻性规划的神经相关性。神经科学杂志。2011;31(14):5526–39.PMID:21471389 查看文章PubMed/NCBI谷歌学术 22.Nissen MJ, Bullemer P. 学习的注意力要求:来自绩效测量的证据。Cogn Psychol. 1987 年;19(1):1–32. 查看文章谷歌学术 23.威灵厄姆 DB, 尼森 MJ, 布勒默 P.关于程序知识的发展。J Exp Psychol Learn Mem Cogn. 1989;15(6):1047.PMID:2530305 查看文章PubMed/NCBI谷歌学术 24.Curran T, Keele SW. 序列学习的注意力和非注意力形式。J Exp Psychol Learn Mem Cogn. 1993;19(1):189. 查看文章谷歌学术 25.Verwey WB.连接熟悉的运动序列:多功能认知处理器。心理学杂志 2001;106(1–2):69–95.PMID:11256340 查看文章PubMed/NCBI谷歌学术 26.Abrahamse EL, Ruitenberg MF, De Kleine E, Verwey WB.自动化行为的控制:来自离散序列生产任务的见解。Front Hum Neurosci.2013;7:82.PMID:23515430 查看文章PubMed/NCBI谷歌学术 27.Hikosaka O, Rand MK, Miyachi S, Miyashita K. 猴子连续运动的学习:学习和记忆保留的过程。神经生理学杂志。1995;74(4):1652–61.PMID:8989401 查看文章PubMed/NCBI谷歌学术 28.Bapi RS、Doya K、Harner AM。运动序列学习过程中效应子独立和依赖表示及其不同的时间获取过程的证据。Exp Brain Res. 2000 年;132:149–62.PMID:10853941 查看文章PubMed/NCBI谷歌学术 29.运动控制和学习的模块化功能。Curr Opin 神经生物学。1999;9(6):713–7.PMID:10607638 查看文章PubMed/NCBI谷歌学术 30.Shadmehr R. 泛化作为学习内部模型的神经机制的行为窗口。Hum Mov Sci. 2004 年;23(5):543–68.PMID:15589621 查看文章PubMed/NCBI谷歌学术 31.贝拉 K,舒克拉 A,巴比 RS。内部指导运动技能中的认知和运动学习。前心理学 2021;12:604323。PMID:33897525 查看文章PubMed/NCBI谷歌学术 32.范奥菲斯登 B, 马 WJ.用于协调人工和机器规划的任务。Curr Opin Behav Sci. 2019;29:127–33. 查看文章谷歌学术 33.Fermin AS, Yoshida T, Ito M, Yoshimoto J, Doya K. 连续手指运动任务中基于模型的动作规划的证据。J mot 行为。2010;42(6):371–9.PMID:21184355 查看文章PubMed/NCBI谷歌学术 34.Fermin AS, Yoshida T, Yoshimoto J, Ito M, Tanaka SC, Doya K. 基于模型的行动计划涉及小脑皮质和基底神经节网络。Sci Rep. 2016 年;6(1):1–14. 查看文章谷歌学术 35.Dundon NM、Colas JT、Garrett N、Babenko V、Rizor E、Yang D 等人。利用内在技能的上下文中的决策启发式。生物Rxiv。2022. 查看文章谷歌学术 36.施密特 RA。离散运动技能学习的图式理论。Psychol Rev. 1975 年;82(4):225. 查看文章谷歌学术 37.纽维尔 KM,夏皮罗 DC。练习的可变性和训练的转移:运动学习图式视图的一些证据。J mot 行为。1976;8(3):233–43. 查看文章谷歌学术 38.McCracken HD,Stelmach GE。离散运动学习图式理论的检验。J mot 行为。1977;9(3):193–201.PMID:23952874 查看文章PubMed/NCBI谷歌学术 39.Kerr R, Booth B. 运动技能的具体和多样练习。感知 Mot 技能。1978;46(2):395–401.PMID:662537 查看文章PubMed/NCBI谷歌学术 40.Catalano JF, Kleiner BM. 重合时间的远距离转移作为实践可变性的函数。感知 Mot 技能。1984;58(3):851–6. 查看文章谷歌学术 41.Berniker M, Franklin DW, Flanagan JR, Wolpert DM, Kording K. 新动力学的运动学习没有在单个全局坐标系中表示:混合坐标表示和局部学习的评估。神经生理学杂志。2014;111(6):1165–82.PMID:24353296 查看文章PubMed/NCBI谷歌学术 42.Estes WK,伯克 CJ。学习中刺激可变性的理论。Psychol Rev. 1953 年;60(4):276.PMID:13089006 查看文章PubMed/NCBI谷歌学术 43.Raviv L, Lupyan G, 格林 SC.可变性如何塑造学习和泛化。趋势 Cogn Sci. 2022。PMID:35577719 查看文章PubMed/NCBI谷歌学术 44.迈向自动化的实例理论。Psychol Rev. 1988;95(4):492. 查看文章谷歌学术 45.Daw ND, Niv Y, Dayan P. 前额叶和背外侧纹状体系统之间基于不确定性的行为控制竞争。国家神经科学。2005;8(12):1704–11.PMID:16286932 查看文章PubMed/NCBI谷歌学术 46.Daw ND、Gershman SJ、Seymour B、Dayan P、Dolan RJ。基于模型对人类选择和纹状体预测误差的影响。神经元。2011;69(6):1204–15.PMID:21435563 查看文章PubMed/NCBI谷歌学术 47.Haith AM,Krakauer JW。人类运动学习的基于模型和无模型的机制。在:运动控制的进展:神经、计算和动力学方法。纽约:施普林格;2013. 第 1-21 页。 48.Gläscher J, Daw N, Dayan P, O'Doherty JP.状态与奖励:可分离的神经预测误差信号是基于模型和无模型的强化学习的基础。神经元。2010;66(4):585–95.PMID:20510862 查看文章PubMed/NCBI谷歌学术 49.多个强化学习系统之间的成本效益仲裁。心理学科学 2017;28(9):1321–33.PMID:28731839 查看文章PubMed/NCBI谷歌学术 50.Lee SW, Shimojo S, O'Doherty JP.神经计算 基于模型的学习和无模型学习之间的仲裁基础。神经元。2014;81(3):687–99.PMID:24507199 查看文章PubMed/NCBI谷歌学术 51.赤池 H.统计模型识别的新面貌。IEEE Trans Autom 控制。1974;19(6):716–23. 查看文章谷歌学术 52.Schwarz G. 估计模型的维度。Ann Stat. 1978;461–4. 查看文章谷歌学术 53.斯蒂芬·柯、Penny WD、Daunizeau J、莫兰 RJ、弗里斯顿 KJ。用于小组研究的贝叶斯模型选择。神经影像学。2009;46(4):1004–17.PMID:19306932 查看文章PubMed/NCBI谷歌学术 54.沈 S, 马 WJ.感知决策中最优性和简单性的详细比较。心理学修订版 2016;123(4):452.PMID:27177259 查看文章PubMed/NCBI谷歌学术 55.Grassberger P. 熵和维度估计的有限样本校正。Phys Lett A. 1988 年;128(6–7):369–73. 查看文章谷歌学术 56.Grassberger P. 来自不充分采样的熵估计。arXiv 预印本物理学/0307138。2003. 查看文章谷歌学术 57.Jiménez L, Vaquero JM, Lupiánez J. 隐式和显式序列学习之间的定性差异。J Exp Psychol Learn Mem Cogn. 2006 年;32(3):475.PMID:16719660 查看文章PubMed/NCBI谷歌学术 58.麦克杜格尔 SD、邦德 KM、泰勒 JA。外显和内隐过程构成了感觉运动学习的快速和缓慢过程。神经科学杂志。2015;35(26):9568–79.PMID:26134640 查看文章PubMed/NCBI谷歌学术 59.泰勒 JA,克拉考尔 JW,伊夫里 RB。在感觉运动适应任务中对学习的显式和隐性贡献。神经科学杂志。2014;34(8):3023–32.PMID:24553942 查看文章PubMed/NCBI谷歌学术 60.施瓦内韦尔特 RW,戈麦斯 RL。注意力和概率序列学习。Psychol Res. 1998;61(3):175–90. 查看文章谷歌学术 61.大鼠和人的认知图谱。Psychol Rev. 1948 年;55(4):189.PMID:18870876 查看文章PubMed/NCBI谷歌学术 62.Behrens TE、Muller TH、Whittington JC、Mark S、Baram AB、Stachenfeld KL、Kurth-Nelson Z。什么是认知地图?组织知识以实现灵活的行为。神经元。2018;100(2):490–509.PMID:30359611 查看文章PubMed/NCBI谷歌学术 63.卡恩 AE、卡鲁扎 EA、维特尔 JM、巴塞特 DS。对概率运动序列可学习性的网络约束。Nat Hum 行为。2018;2(12):936–47.PMID:30988437 查看文章PubMed/NCBI谷歌学术 64.Braun DA, Waldert S, Aertsen A, Wolpert DM, Mehring C. 感觉运动关联任务中的结构学习。公共科学图书馆一号。2010;5(1) 查看文章谷歌学术 65.Mattar AA,Ostry DJ。运动振幅变化的动力学学习的泛化。神经生理学杂志。2010;104(1):426–38.PMID:20463200 查看文章PubMed/NCBI谷歌学术 66.Berniker M、O'Brien MK、Kording KP、Ahmed AA。对电机成本的普遍性的研究。公共科学图书馆一号。2013;8(1).PMID:23341994 查看文章PubMed/NCBI谷歌学术 67.Thoroughman KA,泰勒 JA。人体运动泛化的快速重塑。神经科学杂志。2005 年 9 月 28 日;25(39):8948–53.PMID:16192385 查看文章PubMed/NCBI谷歌学术 68.邦德 KM,泰勒 JA。视觉运动适应任务中的结构学习是明确可访问的。神经。2017 年 7 月 1 日;4(4). 查看文章谷歌学术 69.麦克杜格尔 SD、威尔特森 SA、特克-布朗 NB、泰勒 JA。重新审视内侧颞叶在运动学习中的作用。J Cogn 神经科学。2022;34(3):532–49.PMID:34942649 查看文章PubMed/NCBI谷歌学术 70.Wise SP, Murray EA. 前因和行动之间的任意关联。趋势神经科学。2000;23(6):271–6.PMID:10838597 查看文章PubMed/NCBI谷歌学术 71.Mattar MG, Lengyel M. 大脑规划。神经元。2022;110(6):914–34.PMID:35041804 查看文章PubMed/NCBI谷歌学术 72.Cullen KE,布鲁克斯 JX。猴子感觉预测误差的神经相关性:小脑自主自我运动内部模型的证据。小脑。2015;14:31–4.PMID:25287644 查看文章PubMed/NCBI谷歌学术 73.索科洛夫 AA, 米亚尔 RC, 伊夫里 RB.小脑:运动和认知的适应性预测。趋势 Cogn Sci. 2017;21(5):313–32.PMID:28385461 查看文章PubMed/NCBI谷歌学术 74.Redish AD. 替代试验和错误。自然评论神经科学。2016 年 3 月;17(3):147–59.PMID:26891625 查看文章PubMed/NCBI谷歌学术 75.詹森 KT、亨内昆 G、马塔尔 MG。循环网络规划模型解释了海马重放和人类行为。自然神经科学。2024 年 6 月 7:1-9。PMID:38849521 查看文章PubMed/NCBI谷歌学术 76.亚当斯 CD。工具响应对强化物贬值的敏感性的变化。Q J Exp Psychol. 1982 年;34(2):77–98. 查看文章谷歌学术 77.Dickinson A. 行动和习惯:行为自主性的发展。Philos Trans R Soc Lond B 生物科学,1985 年;308(1135):67–78. 查看文章谷歌学术 78.动物智能:实验研究。麦克米伦出版社;1911. 79.Miller KJ, Shenhav A, Ludvig EA. 没有价值观的习惯。心理学修订版 2019;126(2):292.PMID:30676040 查看文章PubMed/NCBI谷歌学术 80.Du Y, Krakauer JW, 海斯 AM.人类习惯与运动技能之间的关系。趋势 Cogn Sci. 2022;26(5):371–87.PMID:35307293 查看文章PubMed/NCBI谷歌学术 81.道 ND。使用计算模型进行逐项试验数据分析。在:Delgado MR、Phelps EA、Robbins TW,编辑。决策、影响和学习:注意力和表现 XXIII.牛津大学出版社;2011. 第 3-38 页。 82.米勒 KJ、博特维尼克 MM、布罗迪 CD。从预测模型到认知模型:双臂老虎机任务中大鼠行为的分析。生物 Rxiv。2018 年 1 月 2;461129。 查看文章谷歌学术 83.Nassar MR、Wilson RC、Heasly B、Gold JI。近似贝叶斯 delta 规则模型解释了在不断变化的环境中信念更新的动态。神经科学杂志。2010;30(37):12366–78.PMID:20844132 查看文章PubMed/NCBI谷歌学术 84.Wilson RC、Nassar MR、Gold JI。在变化点问题中,增量规则近似与贝叶斯推理的混合。PLoS 计算生物学 2013;9(7) PMID:23935472 查看文章PubMed/NCBI谷歌学术 85.Botvinick M, Ritter S, Wang JX, Kurth-Nelson Z, Blundell C, Hassabis D. 强化学习,快和慢。趋势 Cogn Sci. 2019;23(5):408–22.PMID:31003893 查看文章PubMed/NCBI谷歌学术 86.舒尔茨 W,达扬 P,蒙塔古 PR。预测和奖励的神经基质。科学。1997;275(5306):1593–9.PMID:9054347 查看文章PubMed/NCBI谷歌学术 87.Kim D, Park GY, Doherty JP, Lee SW. 在基于模型和无模型的学习之间的仲裁中,任务复杂性与状态空间不确定性相互作用。Nat Commun.2019;10(1):5738.PMID:31844060 查看文章PubMed/NCBI谷歌学术 88.van Opheusden B, Kuperwajs I, Galbiati G, Bnaya Z, Li Y, 马 WJ.专业知识增加了人类游戏的规划深度。自然界。2023;618(7967):1000–5.PMID:37258667 查看文章PubMed/NCBI谷歌学术 89.Colas JT、Dundon NM、Gerraty RT、Saragosa-Harris NM、Szymula KP、Tanwisuth K 等人。跨状态和动作的关联或判别泛化的强化学习:3 T 和 7 T 的 fMRI。2022;43(15):4750–79. 查看文章谷歌学术 90.Gershman SJ, Blei DM, Niv Y. 背景、学习和灭绝。心理学修订版 2010;117(1):197.PMID:20063968 查看文章PubMed/NCBI谷歌学术 91.情境推理是感觉运动库学习的基础。自然界。2021;600(7889):489–93.PMID:34819674 查看文章PubMed/NCBI谷歌学术 92.Hardwick RM、Forrence AD、Krakauer JW、Haith AM。目标导向和习惯性反应准备之间的时间依赖性竞争。Nat Hum 行为。2019;3(12):1252–62.PMID:31570762 查看文章PubMed/NCBI谷歌学术 93.Velazquez-Vargas CA, Taylor J. 使用任意映射探索网格导航中的人类学习和规划。在:认知科学学会年会论文集;2023;45:45. 94.RStudio 团队。RStudio:R. RStudio 的集成开发,PBC,马萨诸塞州波士顿。2023. 网址:http://www.rstudio.com/。 95.MathWorks Inc. MATLAB 版本:9.13.0 (R2022b)。马萨诸塞州内蒂克郡:The MathWorks Inc.;2022. 网址:https://www.mathworks.com。 96.韦尔奇 BL.当涉及多个不同的总体方差时,'STUDENT'S' 问题的泛化。生物计量器。1947;34(1–2):28–35. 查看文章谷歌学术 97.Miller RR、Barnet RC、Grahame NJ。Rescorla-Wagner 模型的评估。心理公牛。1995;117(3):363.PMID:7777644 查看文章PubMed/NCBI谷歌学术 98.摩尔 EF.穿过迷宫的最短路径。1959 年国际开关理论研讨会论文集(第 285-292 页)。哈佛大学出版社。 99.阿塞比 L, 马 WJ.使用 Bayesian 自适应直接搜索进行模型拟合的实用贝叶斯优化。神经信息处理系统的进步。2017;30. 查看文章谷歌学术 100.Soch J, Allefeld C. 狄利克雷分布的超标概率。arXiv 预印本 arXiv:1611.01439。2016. 查看文章谷歌学术