厦门免费医学论文发表投稿-灵长类动物大脑视觉感知的特征解缠神经编码和解码
蒂尔扎·达多 ,保罗·帕帕莱, 抽象 神经编码的一个具有挑战性的目标是表征视觉感知背后的神经表征。为此,在呈现面部和自然图像时,在被动注视任务中记录了猕猴视觉皮层的多单元活动(MUA)。我们分析了MUA与最先进的深度生成模型的潜在表示之间的关系,包括生成对抗网络(GAN)的传统和特征解缠表示(分别为StyleGAN的z-和w-latents)和潜在扩散网络的语言对比表示(即Stable Diffusion的CLIP-latents)。对潜在表征的大规模单变量神经编码分析表明,特征解缠的 w 表征在解释神经反应方面优于 z 和 CLIP 表征。此外,发现w-潜在特征位于复杂性梯度的高端,这表明它们捕获了与高级神经活动相关的视觉信息。随后,对特征解开的表征进行多变量神经解码分析,从而对视觉感知进行了最先进的时空重建。综上所述,我们的研究结果不仅强调了特征解缠在塑造视觉感知基础的高级神经表征方面的重要作用,而且还作为神经编码未来的重要基准。 作者摘要 神经编码试图通过模拟刺激与其内部神经表征之间的关系来了解大脑如何表示世界。该领域的重点是预测大脑对刺激的反应(神经编码)和破译有关大脑活动刺激的信息(神经解码)。生成对抗网络(GANs;一种机器学习模型)的最新进展使得创建逼真的图像成为可能。与大脑一样,GANs也具有它们创建的图像的内部表示,称为“潜伏”。最近,一种新型的GAN的特征解缠“w-latent”被开发出来,可以更有效地分离不同的图像特征(例如,颜色、形状、纹理)。在我们的研究中,我们将这种GAN生成的图片呈现给具有皮质植入物的猕猴,并发现潜在的w-潜伏是高级大脑活动的准确预测因子。然后,我们使用这些 w 潜伏物以高保真度重建感知图像。我们的预测与实际目标之间的显着相似性表明,w-潜伏和神经表征如何代表相同的刺激是一致的,尽管GAN从未在神经数据上进行过优化。这意味着视觉现象共享编码的一般原则,强调了在更深的视觉区域中特征解缠的重要性。 数字 图12图1图2图3图4图5图6图7Fig 8Fig 9Fig 10Table 1Fig 11图12图1图2图3 引文: Dado T, Papale P, Lozano A, Le L, Wang F, van Gerven M, et al. (2024) Brain2GAN:灵长类动物大脑中视觉感知的特征解缠神经编码和解码。PLoS 计算生物学 20(5): 编号:E1012058。 https://doi.org/10.1371/journal.pcbi.1012058 编辑 器: 德鲁·林斯利, 布朗大学,美国 收到: 2023年6月10日;接受: 2024年4月8日;发表: 5月 6, 2024 版权所有: © 2024 Dado et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。 数据可用性: 用于生成可视化数据集的脚本可在我们的 GitHub 存储库中找到:https://github.com/neuralcodinglab/brain2gan。人脸的神经数据和GAN潜伏在Figshare上,DOI 为10.6084/m9.figshare.25638114,自然图像的DOI 为10.6084/m9.figshare.25637856。 资金: 这项工作由荷兰研究委员会(https://www.nwo.nl/en)资助。UG、YG 和 MvG 的资助编号为 024.005.022(DBI2 项目,引力计划)和 17619(INTENSE 项目,交叉计划),PP 的资助编号为 OCENW。XS22.2.097 和 VI.Veni.222.217。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。 利益争夺: 作者声明不存在相互竞争的利益。 1 引言 大脑善于识别几乎无限的各种不同的视觉输入,描绘不同的面孔、物体和场景,每个刺激都会产生独特的神经活动模式。然而,刺激和神经反应之间多层视觉处理的复杂性阻碍了对两者之间转换的全面理解。在神经编码领域,我们的重点是表征刺激-反应关系,这种关系是大脑识别结构化但复杂的自然环境的统计不变性的能力的基础。神经编码旨在发现外部现象的特性在大脑中是如何被处理的[1–14],反之亦然,神经解码旨在找到有关原始刺激的信息存在于记录的大脑活动中,并且可以通过分类[15\u20223]或重建[24\u201237]从记录的大脑活动中检索到哪些信息].在分类中,根据一组预定义的类别,采取大脑活动来预测原始刺激所属的类别。在识别中,大脑活动用于从一组给定的可用刺激中识别最可能的刺激。在重建中,重新创建原始刺激的文字复制品,涉及从神经数据中提取特定的刺激特征(图1)。请注意,后一个问题要困难得多,因为它的解存在于无限大的可能性集合中,而分类和识别的解可以从有限集合中选择。在神经编码和解码中,通常通过调用中间特征空间将直接变换分解为两个(图 2)。这背后的理由有两个: 效率:从头开始对直接刺激-反应关系进行建模需要大量的训练数据(高达数百万个),这很有挑战性,因为神经数据很少。为了解决数据稀缺的问题,我们可以利用计算模型(通常是在大型数据集上预训练的深度神经网络)的知识,将其特征激活提取到图像中,然后根据两者之间的系统对应关系,在神经影像学实验中将这些特征激活与这些图像进行对齐。这种对应关系在“早期工作”下讨论。 可解释性:其特征与神经活动最一致的计算模型可以提供有关驱动相同刺激的神经处理的因素的信息(即数据驱动的方法)。因此,可以测试替代假设,了解驱动神经表征本身的原因(例如,替代目标函数和训练范式)。由于学习转换的复杂性,当模型直接对神经数据进行优化(即探索性方法)时,这种解释性可能会受到限制。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 1. 示例结果。 V1、V4 和 IT 中大脑活动的刺激(上)和重建(下)。由于版权原因,此图中的人脸图像将被替换。该图的原始版本可以在这里访问。 https://doi.org/10.1371/journal.pcbi.1012058.g001 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 2. 神经编码。 通过中间特征空间在感官刺激和大脑反应之间的转换。神经编码被分解为非线性“分析”和线性“编码”映射。神经解码被分解为线性“解码”和非线性“合成”映射。 https://doi.org/10.1371/journal.pcbi.1012058.g002 本研究的主要目的是表征感知背后的高级神经表征,为此,我们分析了大脑反应与具有不同属性的近期生成模型的各种特征表征之间的关系,例如特征解开和语言正则化,每个模型都捕获了一组关于视觉刺激的特定特征和模式。通过采用神经活动特征的线性组合,最能预测神经活动的表示用于重建具有最先进质量的感知刺激(图 1)。 1.1 通过特征解缠的生成潜伏对神经活动进行建模 虽然神经表征是从经验中构建的,但大脑可以表示无限数量的视觉现象,以成功地与环境互动。也就是说,尊重自然环境规律的新颖而合理的情况也可以在心理上模拟或想象[38]。从机器学习的角度来看,生成模型通过捕获大量观测值背后的概率密度来实现相同的目标。我们可以从这个建模分布中取样,并合成新的实例,这些实例看起来好像属于真实的数据分布,但与观察到的实例有适当的不同。特别是,生成对抗网络(GAN)[39]是迄今为止最令人印象深刻的生成模型之一,它可以合成新颖而逼真的图像(例如,来自潜在向量的人脸、卧室、汽车和猫的图像[40\u201243]。在生成模型(如 GAN)的上下文中,潜在空间是指低维数据分布(例如,标准高斯分布),其中编码了更复杂的数据分布(例如,面部或自然图像);它是一个压缩和抽象的空间,可以捕获更复杂数据的最基本特征。GAN由两个神经网络组成:一个是从随机采样的潜在向量合成图像的生成器网络,另一个是区分合成图像和真实图像的鉴别器网络。在训练过程中,这些网络相互对抗,直到生成的数据与真实数据无法区分。生成器从潜伏到图像的一对一(双射)映射有效地模拟了“合成”操作(如图 2 所示),该操作可用于神经编码,通过其潜伏来消除图像与大脑活动的歧义,因为视觉内容由其潜在的潜伏物确定性地指定(这种方法早先由 [44] 提出), 并通过综合进行分析[45]。请注意,虽然生成器的潜在图像转换执行感知刺激的重建,但特征-响应对应关系能够将神经活动解释为潜在特征的变化。 众所周知,传统的GANs会受到特征纠缠的影响,其中生成器已经学会了将多个特征融合到一个潜在的维度(即多维潜在空间中的超平面)[46]。由于这种融合,潜在空间包含从训练数据集继承的偏差。为了说明这一点,请考虑生成人脸图像的示例。传统的GAN可能会纠缠“性别”和“头发长度”等特征,当主要暴露于长发的女性面孔和短发的男性面孔时。这两个特征的纠缠会导致有偏差的输出,阻碍生成器合成长发的男性面孔的能力,即使这种组合在现实中存在。另一方面,特征解缠的概念是指不同视觉特征的独立性,允许一个特征的变化与其他特征解开[47]。在特征解缠的 GAN 中,生成器已经学会了独立编码每个面部特征。例如,更改对应于“头发长度”的潜在维度只会修改生成的脸部的头发区域,同时保持其他特征不变。在这里,我们假设特征解开的GAN潜伏物与腹侧视觉流中的神经表征表现出更强的对齐。 特征解缠 GAN 家族的一个成员是 StyleGAN [42](图 3),它通过多层感知器 (MLP) 将传统的 z 潜伏空间映射到中间且纠缠较少的 w 潜伏空间。特征解纠缠是一种新兴属性,当 MLP 学会在 StyleGAN 的训练框架内控制图像合成过程的各个方面时出现。也就是说,生成器不断演进的架构、不同层次的 w 潜伏注入以及网络对图像生成的优化之间的相互作用有助于 w 潜伏空间中特征的解缠。在这里,我们提出了特征解缠的w-latents作为一种有前途的特征候选者来解释视觉感知过程中的神经反应。简而言之,视觉刺激由特征解缠的GAN合成,并在被动注视任务中呈现给在视觉区域V1、V4和IT中植入皮质的猕猴(图4)。与之前许多依赖于时间分辨率有限和信噪比低的非侵入性fMRI信号的研究相比,目前通过15个长期植入的多电极阵列(每个有64个通道)使用多单位活动(MUA)[48]为前所未有的细节大脑活动的时空分析提供了机会。这三个视觉区域的电极放置如图 2 所示。对于神经编码,我们通过 StyleGAN 的 z 和 w 潜在表征以及对比语言图像预训练 (CLIP;ViT-L/14@336px)潜伏物,它们在捕获其语义关系的共享表征空间中表示图像和文本[49]。CLIP潜伏不仅是视觉内容的抽象表示,而且在当代潜在扩散模型(如Stable Diffusion)[50])的生成过程中也至关重要。就我们的目的而言,它们的关键优势在于它们能够捕捉图像的本质,从而反映大脑的视觉系统如何将视觉输入处理为语义表征[51,52]。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 3. StyleGAN3 生成器架构。 生成器将 512 dim. z 潜伏(纠缠或相关维度)作为输入,并通过 MLP f() 将其映射到其 512 dim. w 潜伏(解缠或解相关维度)以进行特征解缠。然后,将 w 潜伏物转换为 1024 × 1024 像素的 RGB 图像。由于版权原因,此图中的人脸图像将被替换。该图的原始版本可以在这里访问。 https://doi.org/10.1371/journal.pcbi.1012058.g003 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 4. 被动固定任务。 猴子将一个带有灰色背景的红点固定了 300 毫秒,然后是四个面部图像的快速序列(5002像素):200 ms 刺激呈现和 200 ms 试验间隔。刺激略微向右下角移动,使得中央凹对应于像素(150,150)。如果在整个序列中保持固定,猴子将获得果汁奖励。 https://doi.org/10.1371/journal.pcbi.1012058.g004 这项工作的贡献如下:首先,我们的编码分析表明,与z潜伏和CLIP潜伏相比,w潜伏在预测位于视觉腹侧通路末端的下颞叶(IT)皮层的高级大脑活动方面最成功。其次,使用w-latents的神经解码导致了高度准确的重建,这些重建与刺激的特定视觉特征相匹配。这是通过将解码器安装到记录的大脑反应和训练刺激的地面真实w-潜伏物中来完成的。然后,我们使用该解码器从保持测试集的响应中预测w-潜伏物,并将其馈送到GAN的发生器进行重建[36]。我们的研究结果表明,在我们研究的背景下,大脑对视觉信息的表示表现出一定程度的结构化组织,与我们的模型一致,为以前有限但生物学上更合理的无监督大脑功能模型提供了一条新的前进道路。第三,基于时间的神经解码显示了大脑如何及时捕获有关刺激的有意义的信息。最后,通过应用线性运算来控制图像中的特定视觉特征,探索了通过已建立的反应-潜在关系来解释神经活动。总而言之,高质量的神经记录和特征表示产生了新的实验发现,不仅展示了机器学习的进步如何扩展到神经科学,而且可以作为未来研究的重要基准。 1.2 早期工作 视觉体验部分取决于神经元群体沿视觉腹侧“什么”通路的选择性反应[53],其中早期皮质区域神经元的感受野对简单特征(例如,局部边缘方向[54])具有选择性,而更下游区域的神经元对更复杂的组合特征模式做出反应[55,56].起初,神经编码研究主要依靠视网膜来推断视觉内容,因为图像的空间组织反映在初级视觉皮层(V1)的刺激诱发反应中[57]。因此,视觉内容主要由早期皮质区域的神经反应推断,刺激通常由低分辨率的对比模式或数字组成[24,25,27,29,32]。人们试图从早期区域的激活中重建更复杂的自然图像[28],但仍然未能捕捉到重建更复杂的视觉内容所需的高级神经活动的全部复杂性。为了成功地解码来自前部区域的更多高级信息,需要合适的特征表示来捕获与这些反应相似的刺激信息,正如[26]和[58]分别尝试使用更高级的手工设计特征来重建自然图像和场景背景一样。 接下来,在深度神经网络(DNN)中也发现了视觉处理中的复杂性梯度,即在腹侧流中表示越来越复杂的特征:DNN层与神经激活的对齐表明,早期层主要预测上游视觉区域的反应,而更深的层更能预测人类下游视觉区域的反应[3–8, 11]以及灵长类动物[1,12]。目前,DNN通常用于解码视觉感知、意象和做梦过程中更高级的神经活动[19,33–36,59–62]。 对于重建,使用判别性DNN的解码特征表示,例如,通过将它们直接作为输入提供给解码器DNN(特征到图像)[33],或者使用特征丢失来迭代优化输入图像[34]或解码器权重[63]中的像素值,以便重建特征与刺激的特征相匹配。此时,无监督学习范式虽然在生物学上更合理,但在对灵长类动物大脑的神经表征进行建模方面似乎不如有监督的学习范式成功[5]。 最近的进展将注意力转移到了无监督生成(而不是判别)模型及其潜在空间的潜力上,例如变分自动编码器(VAE)[35,64]和GANs[36,60–62,65]。 与判别性特征相比,生成潜伏通过将神经表征与大脑在各种认知功能(例如,预期和心理意象)中可能执行的生成过程保持一致,提供了独特的优势。此外,无法直接从判别特征对综合操作进行建模,因为它们主要是为了区分类而不是生成新的视觉内容而优化的。然而,神经数据的稀缺性带来的挑战,以及正确训练具有大量参数的数据饥渴的 DNN 的大量数据要求,阻碍了从头开始进行有效的 GAN 训练(参见 [61],尝试使用 6000 个训练示例)。为了解决这个问题,[60]训练了一个编码器模型,以生成更广泛的图像集的合成神经活动,然后用于训练GAN。然而,合成神经数据中的偏差和不准确无法捕捉到真实神经反应的复杂细节,导致重建和刺激之间的差异。与其从有限的数据中训练我们自己的模型,我们还可以利用预训练的 GAN 及其潜在空间作为大脑活动的代理。为此,需要访问视觉刺激的潜伏物,以便可以在这些潜伏物和神经数据上拟合线性模型,然后可以将来自保留的大脑活动的预测潜伏物输入GAN进行图像重建。然而,生成器从潜在空间到图像空间的转换中固有的非线性使其本质上是单向的。事后近似反演在某种程度上是有效的,但会带来信息丢失[62,65](请注意,VAE在设计上确实是近似推理)。取而代之的是,为了直接访问真实潜伏物,[36]使用了由预训练的渐进增长的GAN合成的刺激,这是当时用于生成高质量和高分辨率图像的最先进的生成模型。目前的工作采用并改进了这种实验范式,以研究视觉感知过程中腹侧视觉流中的神经表征。 最后,早期的一项研究已经表明,β-VAE学习的解开的潜在单元更好地解释了面部感知过程中腹侧流末端灵长类动物下颞叶(IT)皮层中单个神经元的编码[66]。这进一步强调了这种生成模型在解开复杂的神经表征及其与复杂视觉刺激的相互作用方面的潜力。 2 结果 我们使用了两个视觉刺激数据集。(i) 由 StyleGAN3 合成的人脸图像(在 Flickr Faces High-Quality (FFHQ) 数据集上进行预训练),分别由 4000 张和 100 张训练和测试集图像组成。(ii)由StyleGAN-XL(在ImageNet上预训练)合成的高品种自然图像,分别由4000张和200张训练和测试集图像组成。 2.1 神经编码 我们研究了从最近的生成模型的潜伏中预测神经反应的程度。具体来说,我们专注于三种类型的潜伏:StyleGAN3/StyleGAN-XL (512-/128-dim.) 的 z 潜伏、StyleGAN3/StyleGAN-XL (512-/512-dim.) 的特征解缠 w 潜伏和语言正则化 CLIP 潜伏 (768-dim.)。在自然图像的情况下,我们使用了集成了 z 潜在信息和类信息的嵌入,它作为映射 MLP 第一层的输入。对于多单元微电极(总共 960 个单独的单元)中的每个单元,我们在上述 z、w 和 CLIP 潜伏物上拟合了三个不同的核脊回归模型,其中最佳正则化参数 λ 是使用 5 倍交叉验证确定每个视觉区域的。 作为参考,我们还在从判别性 VGG16 网络中提取的特征表示上拟合了三种不同的编码模型,该网络针对面部或物体识别进行了预训练。具体来说,我们为此使用了早期(1;第 2/16 层,在最大池化后)、中间(2;第 7/16 层,在最大池化后)和深层(第 5 层;第 13/16 层,在最大池化后)激活。请注意,编号系统“1、3、5”是指 VGG16 中的最大池化操作,它总共有五个最大池化层。此编号用于本手稿的其余部分。通过Pearson积矩相关系数对编码性能进行量化。值得注意的是,在基于生成的编码器中,基于 w 潜伏的编码器在预测神经活动方面在统计学上优于 z 和 CLIP 潜伏编码器(图 5 和 6)。对于人脸图像,基于 w 潜伏的编码器比基于 z 的编码器具有显着的优越性(2 样本 t 检验;t(1918) = −13.8067,p = 2.07e–41)以及基于 CLIP 的编码器(2 样本 T 检验; t(1918) = 16.0527,p = 1.65e–54)。 此外,基于 CLIP 的编码也优于基于 z 的编码(2-样本 t 检验;t(1918) = 2.1068,p = 0.0353),尽管差异不那么明显。 同样,对于自然图像,基于 w 潜伏的编码器明显优于基于 z 的编码器(2-样本 t 检验;t(1918) = −44.4495,p = 3.13e–297)和基于 CLIP 的编码器(2 样本 t 检验; t(1918) = 6.2957,p = 3.78e–10)。 基于 CLIP 的编码也优于基于 z 的编码(2 样本 t 检验;t(1918) = −35.3777,p = 1.79e–211)。 图 7 直接比较了不同视觉区域的原始基于 w 的编码性能,并表明自然图像的 w 潜伏主要捕获与高级神经活动相关的视觉信息,如从 V1 到 IT 的解释方差增加所示。然而,在人脸图像中没有观察到这种模式。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 5. 编码性能。 使用预测和记录的神经反应之间的皮尔逊相关系数评估每个编码模型的有效性。对于每个数据集,第一个和第二个图形分别表示判别表示和生成表示。每个编码模型的相关性分布显示出强大的准确性水平。 https://doi.org/10.1371/journal.pcbi.1012058.g005 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 6. 基于生成的编码性能。 对于每个单独的微电极单元,我们基于三种不同的特征表示拟合三种编码模型:z-、w− 和 CLIP-latent 表示。因此,我们拟合了 3×960 个独立编码器,产生了 3×960 个预测神经反应,因为 V1、V4 和 IT 分别有 7、4 和 4 个微电极阵列(每个 64 个单元)(即 V1 中有 7 × 64 = 448,V4 中有 4 × 64 = 256,IT 中有 4 × 64 = 256)。散点图在X轴上显示一个编码模型,在Y轴上显示另一个编码模型的预测-目标相关性(r),以研究两者之间的关系。每个点代表一个建模的微电极单元在两种编码模型中的性能(每个图总共 960 个点)。负相关值设置为零。对角线表示两种型号之间的性能相同。对于人脸 (df = 100) 和自然图像 (df = 200),Bonferonni 校正的 α = 5.21e–5 的临界 r 值分别为 r = 0.3895 和 r = 0.2807,并用阴影区域表示。很明显,w 潜伏位优于 z 潜伏和 CLIP 潜伏位,因为大多数点位于 w 轴方向(对角线上方)。星号根据阴影区域外的数据点表示每个感兴趣区域的平均相关系数。由于版权原因,此图中的人脸图像将被替换。该图的原始版本可以在这里访问。 https://doi.org/10.1371/journal.pcbi.1012058.g006 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 7. 跨视觉区域的基于 W 的编码性能。 左图显示了使用群图的人脸图像相关系数分布,并指示了 V1 (0.53)、V4 (0.52) 和 IT (0.53) 的平均值。右侧面板显示自然图像的分布,以及 V1 (0.40)、V4 (0.47) 和 IT (0.56) 的平均值。 https://doi.org/10.1371/journal.pcbi.1012058.g007 正如“早期工作”中所讨论的,在大脑腹侧流中观察到的复杂性梯度反映在判别性DNN的多层结构中[1,3–8,11,12]。 因此,从早期层提取的表征更能预测早期视觉区域的响应,而更深层次的表征更能预测更多下游区域的响应。这是指从早期视觉领域(如 V1)中更简单、较低级别的视觉处理发展到 IT 等领域中更复杂、更高级别的处理。我们通过将具有最高编码性能的判别表示分配给大脑上的每个微电极单元来重现这种复杂性梯度(图 8,第一列中的条形图)。随后,我们探索了生成性w-潜伏物沿该复杂性梯度的定位。为此,我们用 w 潜在表示替换了每个级别的判别特征表示,以查看 w 潜在特征沿该梯度的哪个位置具有最强的预测能力(图 8)。该比较分析的结果表明,两种图像类型的w-潜伏物主要被分配到复杂性谱的高端。这表明w-潜伏者捕获了与高级神经活动特别相关的视觉特征。这种定位不应被解释为歧视性和生成性潜伏者之间的竞争;相反,它强调了它们作为神经编码整体层次结构中的高级表示的互补性。虽然 w 潜伏物在面部和自然图像的较高视觉区域中可能解释了更多的方差,但从 V1 到 IT 解释的方差增加(梯度)对于自然图像比面部图像更明显(如图 7 所示),因此在单独观察 w 潜伏物时并不那么明显。 thumbnail 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 8. W-潜伏者解释了高水平的大脑活动。 在早期(1;第 2/16 层)、中期(3;第 7/16 层)和深层(5;第 13/16 层)预训练用于人脸/物体识别的 VGG16 特征表示上拟合了三种编码模型。将导致最高编码性能的表示分配给每个微电极单元,从而产生复杂性梯度,其中更多的低级和高级级表示分别分配给更早和更下游的大脑区域(参见最左边的图作为参考)。在三个图中的每一个图中,一个 VGG16 表示被 w 潜在表示替换,以查看它在复杂性梯度上的位置。结果表明,w-潜伏物主要解释了下游IT的神经反应。由于版权原因,此图中的人脸图像将被替换。该图的原始版本可以在这里访问。 https://doi.org/10.1371/journal.pcbi.1012058.g008 值得注意的是,基于判别模型的编码器似乎通常优于基于生成模型的编码器。w-潜伏物与一些基于判别的预测的性能接近表明,生成模型中的特征解缠可能会增强它们的预测能力。然而,生成模型在主要功能和数据方法上与判别模型有本质上的区别。尽管如此,鉴于比较了基于 w 和基于判别的编码器,我们对这些比较进行了统计分析,以便更明智地了解每种编码方法的相对优势。对于人脸,基于 w 的编码器和基于 VGGFace-1 的编码器之间的比较没有显着差异(2-样本 t 检验;t(1918) = −0.2859,p = 0.78),但我们发现,在将基于 w 的编码器与 VGGFace-3 进行比较时,差异非常显著(2 样本 t 检验; t(1918) = 16.5817,p = 8.21e − 58)和 VGGFace-5(2 样本 T 检验; t(1918) = 15.0820,p = 1.17e − 48)。 对于自然图像,基于 w 和 VGGFace-1 的编码器之间的差异也没有显著性(2 样本 t 检验;t(1918) = 0.7771,p = 0.4372)。 相比之下,我们观察到基于 w 的编码器和基于 VGGFace-3 的编码器之间存在非常显着的差异(2 样本 T 检验;t(1918) = 12.7855,p = 5.56e–36),基于 w 的编码器和基于 VGGFace-5 的编码器之间存在显著差异(2 样本 t 检验; t(1918) = 3.7425,p = 0.0002)。 尽管它们与基于VGG16-1早期激活的编码器具有统计学相似性,但基于w的编码器主要预测IT中的高级大脑活动。 2.2 神经解码 神经解码的“分析”组件通过从神经响应到特征解缠的 w 潜伏的多元线性回归进行建模,随后将其馈送到生成器进行“合成”。这导致了非常准确的重建,其特定特征与刺激非常相似;图 9 和 10。在知觉上,我们可以注意到刺激和它们的重建在它们的特定属性(例如,性别、年龄、姿势、发型、光线、头发颜色、肤色、微笑和脸部的眼镜;形状、颜色、纹理、物体位置、自然图像的(内)动画)方面具有高度相似性。我们用另一只在 V1、V2、V3 和 V4 中具有硅基电极的猕猴重复了实验(S1 附录)。 thumbnail 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 9. 定性重建结果:100 个测试集刺激(上行)及其通过 w 潜伏从 V1、V4 和 IT(下行)的大脑活动重建。由于版权原因,此图中的人脸图像将被替换。该图的原始版本可以在这里访问。 https://doi.org/10.1371/journal.pcbi.1012058.g009 thumbnail 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 10. 定性重建结果:200 个测试集刺激(顶行)及其从 V1、V4 和 IT 中的大脑活动重建。(底行)通过 W-Latents。 https://doi.org/10.1371/journal.pcbi.1012058.g010 补充材料包含来自 z-latents 的解码结果(S2 附录)和另一种基于 [28] 的重建方法(S3 附录)。前者不仅在条件图像生成中使用 w 潜伏比 z 潜伏具有更优越的性能,而且这种解纠缠支持使用 GAN 生成无条件图像。此外,一项“不分一类”的分析证实,我们的方法超越了单纯的分类(S5附录)。 表 1 中的定量指标显示了刺激与其从大脑活动重建之间的相似性,这些指标评估了不同抽象水平的重建质量(参见 S7 附录的视觉指南)。具体来说,刺激及其重建都被输入到VGG16(分别对人脸和自然图像的人脸和物体识别进行预训练),我们提取了五个中间激活(五个MaxPool层)。早期的图层捕获更多的低级特征(例如,边缘和方向),而较深的层捕获越来越高级的特征(例如,从纹理到对象零件到整个对象)。然后,我们比较了这些提取的刺激和重建表示之间的余弦相似性。接下来,为了研究导致这些精确重建的解码器,每个视觉区域的贡献是通过其他两个大脑区域的微电极记录的闭塞来确定的(而不是在大脑活动的子集上拟合三个独立的解码器)。可以合理地说,在三个皮层区域中,导致最高相似性的区域包含有关该表征的最多信息。对于人脸,解码性能在很大程度上取决于 IT 部门的响应,IT 部门是我们记录的最下游站点。对于自然图像,我们发现从 V1 解码时,较低级别的表示(VGG16 第 1-2 层)最相似,而从区域 IT 解码时,较高级别的表示(VGG16 第 3-5 层)和潜在空间最相似。我们通过如下排列测试验证了我们的定量结果:每次迭代,我们从与原始测试集相同的分布中采样了一百/两百个随机潜伏物,并生成了相应的图像。我们评估了这些随机潜伏和图像是否比我们对大脑活动的预测更接近真实潜伏和图像,并发现我们对大脑活动的预测总是比所有指标的随机样本更接近原始刺激,产生统计学显着性(p < 0.001)(在 S6 附录中,可以找到随机排列分析的结果)。 thumbnail 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 表 1. 定量结果。 上下块显示模型性能(平均值±标准。error)在重建人脸图像和自然图像时,分别使用VGG16的五个MaxPool层输出进行人脸识别(人脸图像)/物体识别(自然图像)和刺激的w潜伏物之间的潜在余弦相似性及其重建。当使用来自所有记录站点(即 V1、V4 和 IT 一起)的录音或特定大脑区域内的录音时,这些行显示解码性能。 https://doi.org/10.1371/journal.pcbi.1012058.t001 2.2.1 基于时间的神经解码。 基于时间的神经解码显示,在 300 毫秒的试验中逐渐提取刺激相关信息,刺激呈现发生在 100 毫秒,通过使用 25 毫秒的步幅在整个时间过程中滑动 100 毫秒的时间窗口,导致九个神经活动的平均点随时间变化(图 11A)。我们为各个时间点安装了单独的解码器,但通过原始解码器进行解码,该解码器适合预定义时间窗口内的大脑活动,产生了类似的结果。最初,重建表现出平均外观,但在刺激开始时逐渐获得其独特的视觉特征(图 11B 和 11D)。值得注意的是,刺激开始前的重建表现出平均外观,因为我们在测试集中平均了多次重复,由于刺激呈现的随机顺序,每次重复之前都有不同的刺激。尽管按照我们的方法被取消了,但有关先前刺激的信息仍然保留在大脑中,这仍然是非常合理的。此外,基于面积的重建和性能图显示,V1通常在较早的时间内表现出类似刺激的视觉特征,而IT在刺激信息的最终重建中始终优于其他两个(图11C和11E)。尽管微不足道,但从所有区域而不是孤立区域重建产生最高性能的发现证实了视觉感知涉及多个区域的分布式过程,每个区域都包含有关刺激的不同信息。 thumbnail 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 11. 基于时间的解码。 答:对于每项试验,反应记录300毫秒,刺激在100毫秒开始。我们没有采用原始时间窗口内的平均响应(参见 V1、V4 和 IT 的三个颜色编码窗口),而是在整个时间过程中以 25 毫秒的步幅滑动 100 毫秒的窗口,从而产生 9 个跨时间的平均响应。乙、丁两个刺激重建的例子分别随着时间推移而演变为面部和自然图像。C、E分别对人脸和自然图像随时间推移的性能进行解码。误差线表示刺激特征和重建之间的余弦相似性的标准误差。可以注意到 V1 性能的攀升时间比其他两个视觉区域略早。对于人脸,在大多数情况下,IT 的性能优于 V1 和 V4。对于自然图像,V1 在低级特征相似性方面优于 V4 和 IT,之后 V4 和 IT 一起攀升,在更高级别的特征相似度指标方面优于 V1。由于版权原因,此图中的人脸图像将被替换。该图的原始版本可以在这里访问。 https://doi.org/10.1371/journal.pcbi.1012058.g011 2.2.2 线性运算。 将线性运算应用于GAN潜伏物直接转化为生成图像中有意义的感知变化,因为在某些特征方面看起来相似的视觉数据也紧密地位于潜在空间中。因此,可以通过插入两个不同的潜在元素来探索结构良好的潜在景观的路径,从而产生一组有序的图像,其语义随潜在代码[67](图12A1和12B)和简单的算术运算[68](图12A2)平滑变化。由于可以执行此类操作来遍历潜在空间(图 12,第 1 行),而无需了解底层生成器网络的复杂细节,因此潜在响应对应关系也为根据潜在空间内的此类操作解释神经活动打开了大门(图 12,第 2 行)。为了说明这一点,考虑对中性面孔的神经反应和对笑脸的另一种神经反应,插入它们各自解码的潜伏会产生一系列潜伏,从而产生一系列从中性过渡到微笑表情的图像。请注意,应用于神经活动和解码器的操作都是线性的,从而导致“线性堆叠”。这意味着我们还可以将线性运算直接应用于神经反应本身,将它们解码为潜伏物,并将它们提供给GAN进行重建。这将产生与图 12 第 2 行相同的图像。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 12. 对潜在代码的线性运算。 (第 1 行)显示了对两个真实 W 潜伏物的线性运算,(第 2 行)显示了大脑活动对两个预测的 W 潜伏物的线性运算。然后将线性操纵的潜伏物馈送到发生器以生成图像。(A1、A2)人脸图像,还包含矢量算术。(B) 至于(A1,A2),但对于自然图像。由于版权原因,此图中的人脸图像将被替换。该图的原始版本可以在这里访问。 https://doi.org/10.1371/journal.pcbi.1012058.g012 神经活动模式和潜在代码之间的线性关系,加上GAN潜在空间的特征解缠性质,能够综合(和分析)神经反应捕获的视觉体验的特定方面,这是我们解码方法的关键思想。 3 讨论 在这项研究中,我们使用生成模型的高级潜在表征来表征视觉感知的神经表征。我们的编码分析显示,以 StyleGAN3/StyleGAN-XL 为条件的特征解缠 w 潜伏在解释神经反应方面优于其他潜在候选者。随后,我们使用w-潜伏物对记录的大脑活动进行神经解码,这导致了与原始刺激在其特定特征上非常相似的重建。鉴于编码同一图像的候选表征数量几乎是无限的,找到准确反映大脑活动信息的表征并非易事。在我们的方法中,解码的w-潜伏物导致了图像重建,这些图像重建在语义和结构特征上与刺激非常匹配。总的来说,这项工作强调了特征解缠在解释高级神经反应方面的重要性,并展示了将这种无监督生成模型与生物过程对齐的潜力。这些发现对计算模型的进步和残疾人临床应用的发展具有重要意义。例如,用于恢复盲人视力的神经假肢,以及用于与被锁定的个体进行非肌肉交流的脑机接口(BCI)。 3.1 揭示神经编码的原理 我们研究的主要目标是揭示控制视觉世界神经编码的原理,并使用深度生成建模对视觉感知背后的高级神经表示获得更可解释的理解。因此,w-潜伏物和大脑之间的相似性可以进一步了解驱动大脑视觉处理组织的原因。首先,GAN在无监督的环境中进行训练;他们直接从原始视觉数据中学习,没有明确的标签或注释。这不仅使GANs在生物学上比其监督对应物更合理,因为它更接近于大脑从环境中学习的方式,而且它们还可能导致更灵活和可推广的表示,能够更好地捕捉观察到的数据中的底层结构和模式。请注意,我们发现基于判别的编码器(有监督)在神经编码中优于基于 w 的编码器(无监督)并没有直接挑战这一概念,因为这些模型针对不同的目标(即分别针对图像识别和图像生成)进行了优化。其次,StyleGAN旨在将不同的视觉语义分解为单独的w-潜在特征。w-潜伏物相对于其他生成潜伏物具有优越的性能,这突出了特征解缠在解释高级神经表征和解缠对象流形的能力方面的作用[69]。请记住,StyleGAN本身从未在神经数据上进行过优化,这意味着对现实世界现象进行共享编码的一般原则。最后,GAN的对抗性训练与感知的预测编码理论之间存在概念类比,其中大脑使用基于先前知识和经验的自上而下的预测来指导自下而上的感觉处理,并根据期望与实际观察之间的不匹配调整其内部模型。在 GAN 中,鉴别器和生成器参与类似的过程,鉴别器评估“真实”感官输入和生成器的“预测/想象”实例。根据鉴别器确定的不匹配,对生成器的内部模型进行改进,使其输出与真实世界的数据更接近;生成器利用鉴别器的知识来学习如何在其潜在空间中表示世界。就像生成模型在潜在向量之间插值以创建中间输出一样,大脑可能会参与类似的过程,在神经表征之间插值以适应心理模拟的变化。因此,虽然大脑和GAN使用的确切机制有很大不同,但它们在概念上的相似性可以提供对感知本质的见解,以及机器学习的潜力,以捕捉这种能力背后的一些相同原理。 3.2 局限性和未来方向 必须澄清的是,大脑的整体功能远比线性系统复杂得多;我们的方法只是利用特定表示空间内的线性。例如,需要进一步研究潜伏和反应之间的对应关系,例如,获得对更多样化的刺激和刺激操作的神经反应,以确定哪些视觉特性可以有效地转化为潜能空间,以及这种方法的不足之处。我们确实观察到,在StyleGAN-XL设计与自然图像分布相关的限制内,发生器表现出合成抽象刺激的能力(参见S8附录),这为未来朝这个方向的研究提供了一个有希望的视角。此外,本研究仅使用由StyleGAN生成的具有已知潜在表征的合成刺激。虽然这允许对视觉信息的神经表征进行受控和系统的检查,但未来的研究还应该包括真实的照片,以了解这种方法是如何推广的。这需要生成器的“合成”操作的精确反演方法,但由于与事后推理相关的固有信息丢失,这项工作非常复杂。也就是说,尽管呈现的图像本身的性质不同,但目前的研究仍然从大脑活动中进行了有效的神经编码和重建。另一个限制是一个受试者的样本量很小(请注意,我们确实在 S1 附录中包括了来自具有不同皮质植入物的第二个受试者的面部重建)。尽管在使用侵入性记录的研究中,小样本量很常见,但需要更大的样本量来进一步证实我们研究结果的稳健性。最后,值得注意的是,使用深度神经网络来模拟大脑活动仍然是一个发展中的领域,本研究中使用的模型并不是潜在神经过程的完美表示。 4 材料与方法 4.1 道德声明 所有程序均符合美国国立卫生研究院(NIH)的实验动物护理和使用指南,并得到了荷兰皇家艺术与科学学院当地机构动物护理和使用委员会的批准。 随着神经解码领域的不断发展,人们对心理隐私的关注也越来越大[70],这是一个保障个人认知经验神圣性的概念。重要的是,我们的方法包括广泛的数据集,在整个过程中需要持续和完整的受试者合作,以解码来自大脑的非常具体的信息。再加上我们方法的侵入性,需要手术干预,这对任何未经请求的侵犯精神隐私都构成了重大障碍。此外,始终严格遵守管理数据提取、存储和保护的道德规则和法规也很重要。最后,这项工作仅专注于重建视觉感知;它没有扩展到与私人认知经验更紧密结合的意象或梦境领域。 4.2 刺激 StyleGAN [42, 71]的开发是为了优化对单类别数据集(例如,only-faces、-bedrooms、-cars或-cats)中合成图像语义的控制[43]。该生成模型通过 MLP 将 z 潜伏空间映射到中间 w 潜伏空间,有利于特征解缠。也就是说,原始的 z 潜在空间被限制为遵循它所训练的数据分布(例如,看起来很老的面孔比看起来很年轻的面孔更频繁地戴眼镜),并且这种偏差纠缠在 z 潜在空间中。纠缠较少的 w 潜在空间克服了这一点,因此不熟悉的潜在元素可以映射到它们各自的视觉特征。 数据集 i:人脸图像。 我们从 (512-dim.) 合成了分辨率为 1024 × 1024 px 的逼真人脸图像。使用StyleGAN3的生成器网络(图3)的z-潜在向量,该网络在高质量的Flickr-Faces-HQ(FFHQ)数据集上进行了预训练[42]。z-潜伏物是从标准高斯随机采样的。我们指定了 0.7 的截断,以确保采样值在此范围内,从而提高图像质量。在合成过程中,学习到的仿射变换通过自适应实例归一化(如风格转移[72])将w-潜伏物集成到生成器网络中。最后,我们合成了一组 4000 张面部图像,每张图像呈现一次,以覆盖一个大的刺激空间以拟合一般模型。测试集由 100 张合成面孔组成。 数据集二:自然图像。 最近,StyleGAN-XL(深度和参数数量是标准StyleGAN3的三倍)被开发出来,使用一种新的训练策略扩展到更大和结构更少的数据集[73]。具体而言,新的训练策略结合了 (i) 渐进式增长范式,其中通过添加新层逐渐增加架构规模,(ii) 投影的 GAN 范式,其中合成样本和真实样本在被馈送到四个相应且独立的判别器网络之前被映射到四个固定的特征空间,以及 (iii) 分类器指导其中,预训练分类器的交叉熵损失作为项添加到生成器损失中。因此,StyleGAN-XL已在ImageNet上成功训练[74],可以生成一千个不同类别的高分辨率图像,从而产生复杂多样的刺激数据集。我们合成了来自Tiny ImageNet的200个类的图像(ImageNet的一个子集,而不是ImageNet的所有千个类)[75],因此每个类由20个训练集刺激和一个测试集刺激表示(S9附录列出了标签)。首先,从标准高斯样本中采样一个 64 维向量,并与类类别的 64 维嵌入表示连接起来,产生 128 维 z 潜伏物,用于合成 512 × 512 px 分辨率的 RGB 图像。对于训练集,随机采样 z 潜伏并映射到 w-潜伏,w-潜伏在 0.7 处被截断以支持图像质量和多样性。由于质量高,并且由于每个类别只使用一张图像,因此不需要变异,因此每个类别的平均 w-latent 被用于测试集(在 S4 附录中,我们定性地确认我们的发现不归因于使用平均 w-latent)。测试集的 z 潜伏是通过最小化输入向量与目标 w 潜伏的距离来激活最大化输入向量来获得的。总的来说,训练和测试集分别由 4000 个(每个呈现一次)和 200 个刺激(平均重复 20 次)组成。 4.3 产品特点 作为介于两者之间的候选特征,我们使用了 StyleGAN3/StyleGAN-XL (512-/ 128-dim.) 的(生成)z 潜伏、StyleGAN3/StyleGAN-XL (512-/512-dim.) 和 CLIP-latents (768-dim.) 的 w 潜伏。在自然图像的情况下,我们使用了集成了 z 潜在信息和类信息的嵌入,它作为映射 MLP 第一层的输入。我们还使用VGG16的五个(判别)层激活进行人脸识别[76]和物体识别[77]。具体来说,我们利用了第 2/16、4/16、7/16、10/16、13/16 层的输出,称为第 1-5 层,遵循最大池化。因为第 1 层和第 2 层的特征非常大 (∼ 106),我们执行了下采样,如[11]中所做的那样。也就是说,对于激活中的每个通道,使用高斯滤波器对特征图进行空间平滑处理,并使用因子 2 进行子采样。将核大小设置为等于下采样因子。 4.4 回应 在被动固定实验中,我们用15个长期植入的电极阵列(每个通道64个通道)记录了一只猕猴(雄性,7岁)的多单元活性(MUA)[48],并显示图像(调整为500×500像素)(图4)。在实验过程中,4000 张训练图像每张呈现一次,这确保了这些训练集响应涵盖一组不同的刺激变化(请注意,重复会限制呈现的不同图像的总数)。相比之下,100/200 个测试装置图像每个呈现 20 次以提高信噪比,这有助于更可靠的评估和解释。图像以随机顺序呈现。接下来,在 V1(7 个阵列)、V4(4 个阵列)和 IT(4 个阵列)中记录神经反应,总共有 960 个通道(参见图 2 中的电极位置)。对于每项试验,我们使用以下时间窗口平均每个通道的早期反应:V1为25-125 ms,V4为50-150 ms,IT为75-175 ms。为了捕获每个区域的前馈处理,时间窗口以响应峰值为中心,并在试验和通道之间取平均值,这是根据对 22k 自然图像的响应的独立数据集确定的。100 ms的窗口长度考虑了不同通道和刺激的响应延迟的可变性。按照[78]进行归一化,对于每个通道,从所有值中减去平均响应,然后除以标准差。 为了确定每个大脑区域的活动对整体模型性能的贡献,我们使用部分遮挡的测试集数据评估了解码器。具体来说,我们使用了我们的主解码器,该解码器在来自所有三个大脑区域的神经数据上进行了训练,并使用来自一个大脑区域的测试集记录对其进行了评估。为此,来自其他两个区域的响应被除相应响应之外的所有区域的平均响应所遮挡。或者,也可以通过在神经数据子集(仅 V1、仅 V4 和仅 IT)上训练三个独立的解码器来评估每个区域的贡献,这将允许评估每个大脑区域的贡献彼此独立。但在我们的例子中,我们使用遮挡方法通过保持其他两个区域的贡献不变来研究特定区域对同一解码器性能的贡献。 4.5 模型 我们使用线性映射来评估我们的主张,即特征和神经表征有效地编码相同的刺激属性,这是神经编码的标准[6,79]。更复杂的非线性变换对于支持这一说法是无效的,因为非线性将从根本上改变基础表示。 4.5.1 编码。 核脊回归用于模拟视觉皮层中的每个记录位点如何线性依赖于刺激特征。也就是说,为每个电极定义一个编码模型。编码需要正则化以避免过拟合,因为我们从特征空间 x 预测我→ φ(x我) 其中 φ() 是特征提取模型。因此,我们使用岭回归,其中 w 的范数受到惩罚,以 φ(x 的加权和)定义编码模型我): (1) 其中 , , N 是刺激-响应对的数量,d 是像素的数量,λ ≥ 0 是正则化参数。然后,我们通过应用“内核技巧”[80]来求解w: (2) 其中(即设计矩阵),其中 q 是特征元素的数量,.这意味着即使 q ≫ N,w 也必须位于训练数据引起的空间中。最佳λ是通过网格搜索确定的,如[2]所示。通过将 λ 的域划分为 M 值并评估每个值的模型性能来获得网格。该超参数域由模型的容量控制,即从 [1, N] 开始的岭回归拟合的有效自由度 dof : (3) 其中 s 是通过奇异值分解获得的设计矩阵 Φ 的非零奇异值。我们可以求解每个λj用牛顿的方法。现在定义了 lambda 值的网格,我们可以搜索最优 λj这最大限度地减少了 5 倍的交叉验证误差。 4.5.2 解码。 使用多元线性回归对特征表示中的各个单元如何 y我(例如,w我-潜伏)与大脑活动呈线性关系 x我: (4) 其中 I 范围遍及样本。我们通过将预测的潜伏对象提供给测试集的大脑反应来重建图像,方法是将它们提供给生成器而不截断。 4.6 评估 解码性能通过六个指标进行评估,这些指标将来自保留测试集的刺激与它们从大脑活动的重建进行比较:使用 VGG16 的五个 MaxPool 层输出的感知余弦相似性和潜在余弦相似性。对于感知余弦相似度,我们计算了由VGG16预训练用于对象识别提取的层激活(而不是作为模型输入的像素空间)之间的余弦相似性。该指标更好地反映了人类对相似性的感知,因为它考虑了更多高级视觉线索(例如,颜色、纹理和空间信息),而人类的感知通常与像素值本身没有直接关系。具体来说,我们将刺激及其重建提供给 DNN,然后考虑每个激活单元的余弦相似性:其中 x 和 分别是视觉刺激及其重建,n 是激活元素的数量,f(.) 是图像激活转换。对于潜在相似性,我们考虑了预测潜在向量和真值潜在向量之间每个潜在维度的余弦相似性:其中 w 和 w 分别是 512 维预测和真值特征解缠的潜在向量。 4.7 实现细节 所有分析均在基于 Linux 的操作系统上使用 Intel(R) Xeon(R) CPU @ 2.20GHz 和 NVIDIA Tesla T4 GPU(驱动程序版本:510.47.03,CUDA 版本:11.6)的基于云的虚拟机在 Python 3.8 中进行。我们使用 StyleGAN3 和 StyleGAN-XL 的原始 PyTorch 实现来生成本手稿中的人脸和自然图像。我们使用 VGG16 进行人脸识别和物体识别,以分析人脸和自然图像。生成可视化数据集的脚本以及神经编码和解码的实现可以在我们的 GitHub 存储库中找到。 支持信息 猕猴 #2 的结果。 显示 1/9: pcbi.1012058.s001.pdf 跳到无花果共享导航 很抱歉,我们无法加载您的数据。 1 / 9 下载 无花果分享 S1 附录。 猕猴 #2 的结果。 图 A:编码性能。使用预测和记录的神经反应之间的皮尔逊相关系数评估每个编码模型的有效性。第一张和第二张图分别表示判别表示和生成表示。图 B:基于生成的编码性能。对于每个单独的微电极单元,我们基于三种不同的特征表示拟合三种编码模型:z-、w− 和 CLIP-latent 表示。因此,我们拟合了 3×1024 个独立编码器,从而产生了 3×1024 个预测的神经反应。散点图在X轴上显示一个编码模型,在Y轴上显示另一个编码模型的预测-目标相关性(r),以研究两者之间的关系。每个点代表一个建模的微电极单元在两种编码模型中的性能(因此,每个图有 1024 个点)。对角线表示两种型号之间的性能相同。很明显,w 潜伏物总是优于 z 潜伏物和 CLIP 潜伏物,因为大多数点位于 w 轴方向(对角线上方)。图C:定性结果。该图显示了 100 个测试集刺激(上行)及其从受试者 1(中行)和受试者 2(下行)的大脑活动中重建。 https://doi.org/10.1371/journal.pcbi.1012058.s001 (PDF格式) S2 附录。 通过 z 潜伏物进行重建。 图 A:人脸图像的定性结果。测试集刺激(上),通过w-latents从大脑活动进行“原始”重建(中)和通过z-latents从大脑活动进行重建。图B:自然图像的定性结果。测试集刺激(上),通过w-latents从大脑活动进行“原始”重建(中)和通过z-latents从大脑活动进行重建。 https://doi.org/10.1371/journal.pcbi.1012058.s002 (PDF格式) S3 附录。 重建基线。 表A:定量结果。重建性能(平均±标准。error)使用VGG16的五个MaxPool层输出进行人脸或图像识别的感知余弦相似度的六个指标,以及当使用来自所有记录站点(即V1,V4和IT)的记录时,刺激的w潜伏及其重建之间的潜在余弦相似性。第一行显示了手稿的原始重建性能,第二行和第三行分别使用了 10,000 张和 6,000,000 张图像的先验图像。图 A:人脸图像的定性结果(之前 = 10,000)。测试集刺激(上),使用线性解码从大脑活动进行“原始”重建(中)以及使用基线方法从大脑活动进行重建。图 B:人脸图像的定性结果(先前 = 6,000,000)。测试集刺激(上),使用线性解码从大脑活动进行“原始”重建(中)以及使用基线方法从大脑活动进行重建。图 C:自然图像的定性结果(先验 = 10,000)。测试集刺激(上),使用线性解码从大脑活动进行“原始”重建(中)以及使用基线方法从大脑活动进行重建。图 D:自然图像的定性结果(先验 = 60,000,000)。测试集刺激(上),使用线性解码从大脑活动进行“原始”重建(中)以及使用基线方法从大脑活动进行重建。 https://doi.org/10.1371/journal.pcbi.1012058.s003 (PDF格式) S4 附录。 排除一个示例分析。 表A:定量结果。重建性能(平均±标准。error)在使用VGG16的五个MaxPool层输出进行对象识别的感知余弦相似度的六个指标方面,以及当使用来自所有记录站点的记录(即V1,V4和IT)时,刺激的w潜伏及其重建之间的潜在余弦相似性。第一行是手稿的原始重建性能,第二行是留一例分析。图 A:定性重建结果:用于测试(上)行及其通过 w 潜伏从大脑活动(下行)重建的训练示例。 https://doi.org/10.1371/journal.pcbi.1012058.s004 (PDF格式) S5 附录。 留一类分析。 表A:定量结果。重建性能(平均±标准。error)在使用VGG16的五个MaxPool层输出进行对象识别的感知余弦相似度的六个指标方面,以及当使用来自所有记录站点的记录(即V1,V4和IT)时,刺激的w潜伏及其重建之间的潜在余弦相似性。第一行是手稿的原始重建性能,第二行是“留下一类”分析。图 A:定性重建结果:当班级的训练示例被排除在训练之外时,测试集刺激(上)及其从大脑活动中重建(中)。当所有类都包含在训练期间时,还会显示原始重建以供参考。 https://doi.org/10.1371/journal.pcbi.1012058.s005 (PDF格式) S6 附录。 排列测试分析。 图 A:排列结果。通过排列检验对定量结果进行验证,如下所示:每次迭代,分别随机抽取 100 和 200 个潜伏对象(及其相应的图像)进行人脸和自然图像的采样,以评估它们与刺激的六个相似性指标的相似性。在上图中,这些相似性指标被绘制了 100 多次迭代,我们发现随机样本永远不会比我们对大脑活动的预测更好。 https://doi.org/10.1371/journal.pcbi.1012058.s006 (PDF格式) S7 附录。 视觉指南。 图A:视觉指南。对于六个相似性指标,我们显示了来自人脸(左图)和自然图像(右图)数据集中的五个最低和最高的刺激重建对。最上面的一行表示刺激,最下面的一行表示大脑活动的重建。由于版权原因,此图中的人脸图像将被替换。该图的原始版本可以在这里访问。 https://doi.org/10.1371/journal.pcbi.1012058.s007 (PDF格式) S8 附录。 抽象刺激。 图 A:生成抽象图像。上图:抽象图像(取自[34])。底部:与迭代优化的潜伏对象相对应的图像,以将其视觉特征与目标潜变量的视觉特征相匹配。 https://doi.org/10.1371/journal.pcbi.1012058.s008 (PDF格式) S9 附录。 类别标签(Tiny ImageNet [75])。 https://doi.org/10.1371/journal.pcbi.1012058.s009 (PDF格式) 确认 我们感谢 Kor Brandsma、Anneke Ditewig、Taijsha van Rees 和 Lex Beekman 的生物技术支持。 引用 1.Freiwald WA, Tsao DY. 猕猴面部处理系统中的功能区隔和视点泛化.科学。2010;330(6005):845–851.PMID:21051642 查看文章PubMed/NCBIGoogle 学术搜索 2.Güçlü U, van Gerven M. 无监督特征学习改进了对自然图像响应的人脑活动的预测。PLoS 计算生物学。2014;10(8):e1003724.PMID:25101625 查看文章PubMed/NCBIGoogle 学术搜索 3.Yamins DL, Hong H, Cadieu CF, Solomon EA, Seibert D, DiCarlo JJ. 性能优化的分层模型可预测高级视觉皮层中的神经反应。美国国家科学院院刊。2014;111(23):8619–8624.PMID:24812127 查看文章PubMed/NCBIGoogle 学术搜索 4.Cadieu CF、Hong H、Yamins DL、Pinto N、Ardila D、Solomon EA 等。深度神经网络可与灵长类动物 IT 皮层在核心视觉对象识别方面的表示相媲美。PLoS 计算生物学。2014;10(12):e1003963.PMID:25521294 查看文章PubMed/NCBIGoogle 学术搜索 5.Khaligh-Razavi SM, Kriegeskorte N. 深度监督但不是无监督的模型可以解释 IT 皮层表征。PLoS 计算生物学。2014;10(11):e1003915.PMID:25375136 查看文章PubMed/NCBIGoogle 学术搜索 6.Güçlü U, van Gerven M. 深度神经网络揭示了整个腹侧流中神经表征复杂性的梯度。神经科学杂志。2015;35(27):10005–10014.电话:26157000 查看文章PubMed/NCBIGoogle 学术搜索 7.使用目标驱动的深度学习模型来理解感觉皮层。自然神经科学。2016;19(3):356–365.PMID:26906502 查看文章PubMed/NCBIGoogle 学术搜索 8.Cichy RM, Khosla A, Pantazis D, Torralba A, Oliva A. 深度神经网络与人类视觉对象识别的时空皮层动力学的比较揭示了层次对应关系。科学报告。2016;6(1):1–13.PMID:27282108 查看文章PubMed/NCBIGoogle 学术搜索 9.Güçlü U, Thielen J, Hanke M, van Gerven M. Brains on beats.神经信息处理系统的进展。2016;29. 10.van Gerven M.感觉神经科学中编码模型的入门书。数学心理学杂志。2017;76:172–183. 查看文章Google 学术搜索 11.Eickenberg M, Gramfort A, Varoquaux G, Thirion B. 看到这一切:卷积网络层映射了人类视觉系统的功能。神经影像。2017;152:184–194.PMID:27777172 查看文章PubMed/NCBIGoogle 学术搜索 12.张玲, 曹迪.灵长类动物大脑中面部识别的代码。细胞。2017;169(6):1013–1028.PMID:28575666 查看文章PubMed/NCBIGoogle 学术搜索 13.Güçlü U, van Gerven M. 用人工神经网络探测人脑功能。大脑和行为的计算模型。2017;第413-423页。 查看文章Google 学术搜索 14.Seeliger K、Fritsche M、Güçlü U、Schoenmakers S、Schoffelen J、Bosch S 等。基于卷积神经网络的时空视觉对象识别编码和解码.神经影像。2018;180:253–266.PMID:28723578 查看文章PubMed/NCBIGoogle 学术搜索 15.Haxby JV, Gobbini MI, Furey ML, Ishai A, Schouten JL, Pietrini P. 腹侧颞叶皮层中面部和物体的分布和重叠表示。科学。2001;293(5539):2425–2430.PMID:11577229 查看文章PubMed/NCBIGoogle 学术搜索 16.Kamitani Y, Tong F. 解码人脑的视觉和主观内容。自然神经科学。2005;8(5):679–685.PMID:15852014 查看文章PubMed/NCBIGoogle 学术搜索 17.斯坦斯伯里 DE、纳塞拉里斯 T、加兰特 JL。自然场景统计说明了人类视觉皮层中场景类别的表示。神经元。2013;79(5):1025–1034.PMID:23932491 查看文章PubMed/NCBIGoogle 学术搜索 18.Huth AG、Lee T、Nishimoto S、Bilenko NY、Vu AT、Gallant JL。从人脑活动解码自然电影的语义内容。系统神经科学前沿。2016;10:81.PMID:27781035 查看文章PubMed/NCBIGoogle 学术搜索 19.Horikawa T, Kamitani Y. 使用分层视觉特征对可见和想象的物体进行通用解码。自然通讯。2017;8(1):1–15.PMID:28530228 查看文章PubMed/NCBIGoogle 学术搜索 20.Mitchell TM、Shinkareva SV、Carlson A、Chang KM、Malave VL、Mason RA 等。预测与名词含义相关的人脑活动。科学。2008;320(5880):1191–1195.PMID:18511683 查看文章PubMed/NCBIGoogle 学术搜索 21.凯 KN、纳塞拉里斯 T、普伦格 RJ、加兰特 JL。从人脑活动中识别自然图像。自然界。2008;452(7185):352–355.PMID:18322462 查看文章PubMed/NCBIGoogle 学术搜索 22.Güçlü U, van Gerven M. 背流中自然电影的日益复杂的表现形式在受试者之间共享。神经影像。2017;145:329–336.PMID:26724778 查看文章PubMed/NCBIGoogle 学术搜索 23.Güçlü U, van Gerven M. 使用递归神经网络模拟人脑活动的动力学。计算神经科学前沿。2017;11:7.PMID:28232797 查看文章PubMed/NCBIGoogle 学术搜索 24.Thirion B、Duchesnay E、Hubbard E、Dubois J、Poline JB、Lebihan D 等。反向视网膜:从大脑激活模式推断图像的视觉内容。神经影像。2006;33(4):1104–1116.PMID:17029988 查看文章PubMed/NCBIGoogle 学术搜索 25.宫胁 Y、内田 H、山下 O、佐藤马、森藤 Y、田边 HC 等。使用多尺度局部图像解码器的组合从人脑活动中重建视觉图像。神经元。2008;60(5):915–929.PMID:19081384 查看文章PubMed/NCBIGoogle 学术搜索 26.纳塞拉里斯 T、Prenger RJ、Kay KN、Oliver M、Gallant JL。来自人脑活动的自然图像的贝叶斯重建。神经元。2009;63(6):902–915.PMID:19778517 查看文章PubMed/NCBIGoogle 学术搜索 27.van Gerven M, de Lange FP, Heskes T. 使用分层生成模型进行神经解码。神经计算。2010;22(12):3127–3142.PMID:20858128 查看文章PubMed/NCBIGoogle 学术搜索 28.西本 S、武 AT、纳塞拉里斯 T、本贾米尼 Y、Yu B、加兰特 JL。从自然电影唤起的大脑活动中重建视觉体验。当前生物学。2011;21(19):1641–1646.PMID:21945275 查看文章PubMed/NCBIGoogle 学术搜索 29.Schoenmakers S, Barth M, Heskes T, Van Gerven M. 来自人脑活动的感知图像的线性重建。神经影像。2013;83:951–961.PMID:23886984 查看文章PubMed/NCBIGoogle 学术搜索 30.Güçlü U, van Gerven M. 功能磁共振成像中贝叶斯解码特征的无监督学习.在:比利时-荷兰机器学习会议;2013. 31.Cowen AS、Chun MM、Kuhl BA。感知的神经画像:从诱发的大脑活动中重建面部图像。神经影像。2014;94:12–22.PMID:24650597 查看文章PubMed/NCBIGoogle 学术搜索 32.Du C, Du C, He H. 分享从人脑活动中感知图像重建的深度生成表示。在:2017年国际神经网络联合会议(IJCNN)。IEEE的;2017 年,第 1049–1056 页。 33.Güçlütürk Y, Güçlü U, Seeliger K, Bosch S, van Lier R, van Gerven M. 使用深度对抗性神经解码从大脑激活中重建感知到的面孔。神经信息处理系统的进展。2017;30. 34.Shen G, Horikawa T, Majima K, Kamitani Y. 来自人脑活动的深度图像重建。PLoS 计算生物学。2019;15(1):e1006633.PMID:30640910 查看文章PubMed/NCBIGoogle 学术搜索 35.VanRullen R, Reddy L. 使用深度生成神经网络从 fMRI 模式重建人脸。通信生物学。2019;2(1):1–10. 查看文章Google 学术搜索 36.Dado T、Güçlütürk Y、Ambrogioni L、Ras G、Bosch S、van Gerven M 等。超现实神经解码,用于通过GAN潜在空间从fMRI激活中重建人脸。科学报告。2022;12(1):1–9.PMID:34997012 查看文章PubMed/NCBIGoogle 学术搜索 37.Le L, Ambrogioni L, Seeliger K, Güçlütürk Y, van Gerven M, Güçlü U. Brain2pix:来自大脑活动的全卷积自然视频帧重建。神经科学前沿。2022;16:940972.PMID:36452333 查看文章PubMed/NCBIGoogle 学术搜索 38.Dijkstra N, Bosch S, van Gerven M. 视觉感知和图像的共享神经机制。认知科学趋势。2019;23(5):423–434.PMID:30876729 查看文章PubMed/NCBIGoogle 学术搜索 39.Goodfellow I、Pouget-Abadie J、Mirza M、Xu B、Warde-Farley D、Ozair S 等。生成对抗网络。神经信息处理系统的进展。2014;27. 40.Brock A, Donahue J, Simonyan K. 用于高保真自然图像合成的大规模 GAN 训练。arXiv 预印本 arXiv:180911096。2018;. 41.Karras T, Aila T, Laine S, Lehtinen J. 渐进式生长 gans 以提高质量、稳定性和变异性。arXiv 预印本 arXiv:171010196。2017;. 42.卡拉斯 T, 莱恩 S, 艾拉 T.用于生成对抗网络的基于样式的生成器架构。在:IEEE/CVF计算机视觉和模式识别会议论文集;2019 年,第 4401–4410 页。 43.Karras T、Aittala M、Laine S、Härkönen E、Hellsten J、Lehtinen J 等。无别名生成对抗网络。神经信息处理系统的进展。2021;34. 44.Kriegeskorte N. 深度神经网络:用于模拟生物视觉和大脑信息处理的新框架。视觉科学年度回顾。2015;1:417–446.PMID:28532370 查看文章PubMed/NCBIGoogle 学术搜索 45.Yuille A, Kersten D. 视觉作为贝叶斯推理:综合分析?认知科学的趋势。2006;10(7):301–308.PMID:16784882 查看文章PubMed/NCBIGoogle 学术搜索 46.Shen Y, Gu J, Tang X, 周 B. 解释语义人脸编辑的 gans 的潜在空间.在:IEEE/CVF计算机视觉和模式识别会议论文集;2020 年,第 9243–9252 页。 47.希金斯 I、阿莫斯 D、普法 D、拉卡尼尔 S、马特 L、雷森德 D 等。迈向解开的表示的定义。arXiv 预印本 arXiv:181202230。2018;. 48.Super H, Roelfsema PR. 行为动物的慢性多单位记录:优点和局限性。脑研究进展.2005;147:263–282.PMID:15581712 查看文章PubMed/NCBIGoogle 学术搜索 49.Radford A、Kim JW、Hallacy C、Ramesh A、Goh G、Agarwal S 等。从自然语言监督中学习可转移的视觉模型。在:机器学习国际会议。永磁化器;2021 年,第 8748–8763 页。 50.Rombach R, Blattmann A, Lorenz D, Esser P, Ommer B. 具有潜在扩散模型的高分辨率图像合成。在:IEEE/CVF计算机视觉和模式识别会议论文集;2022 年,第 10684–10695 页。 51.Doerig A、Kietzmann TC、Allen E、Wu Y、Naselaris T、Kay K 等人。语义场景描述作为人类视觉的目标。arXiv 预印本 arXiv:220911737。2022;. 52.Wang AY, Kay K, Naselaris T, Tarr MJ, Wehbe L. 人类高级视觉皮层的更好模型来自自然语言监督,具有庞大而多样化的数据集。自然机器智能。2023;第1-12页。 查看文章Google 学术搜索 53.昂格莱德 LG, 米什金 M.两个皮层视觉系统。在:视觉行为分析。马萨诸塞州剑桥:麻省理工学院出版社;1982年,第549-586页。 54.Hubel DH, Wiesel TN. 猫视觉皮层中的感受野、双眼相互作用和功能结构。生理学杂志。1962;160(1):106–154.PMID:14449617 查看文章PubMed/NCBIGoogle 学术搜索 55.Gross CG, Rocha-Miranda Cd, Bender D. 猕猴颞下皮层神经元的视觉特性。神经生理学杂志。1972;35(1):96–111.PMID:4621506 查看文章PubMed/NCBIGoogle 学术搜索 56.Hung CP, Kreiman G, Poggio T, DiCarlo JJ. 从猕猴下颞叶皮层快速读取物体身份。科学。2005;310(5749):863–866.PMID:16272124 查看文章PubMed/NCBIGoogle 学术搜索 57.Sereno MI、Dale A、Reppas J、Kwong K、Belliveau J、Brady T 等。通过功能性磁共振成像揭示的人类多个视觉区域的边界。科学。1995;268(5212):889–893.PMID:7754376 查看文章PubMed/NCBIGoogle 学术搜索 58.莱斯克罗特医学博士,加兰特 JL。人体场景选择区域表示表面的 3D 配置。神经元。2019;101(1):178–192.PMID:30497771 查看文章PubMed/NCBIGoogle 学术搜索 59.Horikawa T, Kamitani Y. 通过具有深度神经网络特征的大脑解码揭示的梦境对象的分层神经表示。计算神经科学前沿。2017;11:4.PMID:28197089 查看文章PubMed/NCBIGoogle 学术搜索 60.St-Yves G, Naselaris T. 以大脑活动为条件的生成对抗网络重建所见图像。在:2018年IEEE系统,人与控制论(SMC)国际会议。IEEE的;2018 年,第 1054–1061 页。 61.Shen G, Dwivedi K, Majima K, Horikawa T, Kamitani Y. 来自人脑活动的端到端深度图像重建。计算神经科学前沿。2019;第21页。PMID:31031613 查看文章PubMed/NCBIGoogle 学术搜索 62.Mozafari M, Reddy L, VanRullen R. 使用 bigbigan 从 fmri 模式重建自然场景。在:2020年国际神经网络联合会议(IJCNN)。IEEE的;2020 年,第 1-8 页。 63.Gaziv G、Beliy R、Granot N、Hoogi A、Strappini F、Golan T 等。来自大脑活动的自监督自然图像重建和大规模语义分类。神经影像。2022;254:119121.PMID:35342004 查看文章PubMed/NCBIGoogle 学术搜索 64.韩鹤, 温华, 石杰, 卢KH, 张彦, 傅德, 等.变分自动编码器:一种无监督模型,用于编码和解码视觉皮层中的 fMRI 活动。神经影像。2019;198:125–136.PMID:31103784 查看文章PubMed/NCBIGoogle 学术搜索 65.Seeliger K, Güçlü U, Ambrogioni L, Güçlütürk Y, van Gerven M. 用于从大脑活动中重建自然图像的生成对抗网络。神经影像。2018;181:775–785.PMID:30031932 查看文章PubMed/NCBIGoogle 学术搜索 66.Higgins I, Chang L, Langston V, Hassabis D, Summerfield C, Tsao D, et al.无监督深度学习可识别单个颞下面部贴片神经元的语义解缠。自然通讯。2021;12(1):6456.PMID:34753913 查看文章PubMed/NCBIGoogle 学术搜索 67.邵 H, 库马尔 A, 托马斯·弗莱彻 P.深度生成模型的黎曼几何。在:IEEE计算机视觉和模式识别研讨会会议论文集;2018 年,第 315–323 页。 68.Mikolov T, Sutskever I, Chen K, Corrado GS, Dean J. 单词和短语的分布式表示及其组成性。神经信息处理系统的进展。2013;26. 69.DiCarlo JJ, Cox DD. 解开不变物体识别。认知科学的趋势。2007;11(8):333–341.PMID:17631409 查看文章PubMed/NCBIGoogle 学术搜索 70.伊恩卡 M、哈斯拉格 P、伊曼纽尔 EJ。脑漏和消费者神经技术。自然生物技术。2018;36(9):805–810.PMID:30188521 查看文章PubMed/NCBIGoogle 学术搜索 71.Karras T, Laine S, Aittala M, Hellsten J, Lehtinen J, Aila T. 分析和提高 stylegan 的图像质量。在:IEEE/CVF计算机视觉和模式识别会议论文集;2020 年,第 8110–8119 页。 72.Huang X, Belongie S. 使用自适应实例规范化实时进行任意样式转换.在:IEEE计算机视觉国际会议论文集;2017 年,第 1501–1510 页。 73.Sauer A、Schwarz K、Geiger A. Stylegan-xl:将 stylegan 扩展到大型不同的数据集。收录于:ACM SIGGRAPH 2022 会议论文集;2022 年,第 1-10 页。 74.邓 J, Dong W, Socher R, Li LJ, Li K, Fei-Fei L. Imagenet:大规模分层图像数据库。在:2009年IEEE计算机视觉和模式识别会议。IEEE的;2009 年,第 248–255 页。 75.Le Y, Yang X. Tiny imagenet 视觉识别挑战.CS 231N. 2015年;7(7):3. 查看文章Google 学术搜索 76.Parkhi OM, Vedaldi A, Zisserman A. 深度人脸识别。在:Xie X,Jones MW,Tam GKL,编辑。英国机器视觉会议 (BMVC) 会议记录。BMVA出版社;2015 年,第 41.1–41.12 页。可从: https://dx.doi.org/10.5244/C.29.41. 77.Simonyan K, Zisserman A. 用于大规模图像识别的超深卷积网络.arXiv 预印本 arXiv:14091556。2014;. 78.Bashivan P, Kar K, DiCarlo JJ. 通过深度图像合成控制神经种群。科学。2019;364 (6439).PMID:31048462 查看文章PubMed/NCBIGoogle 学术搜索 79.纳塞拉里斯 T、凯 KN、西本 S、加兰特 JL。在fMRI中编码和解码。神经影像。2011;56(2):400–410.PMID:20691790 查看文章PubMed/NCBIGoogle 学术搜索 80.Welling M. Kernel 脊回归。Max Welling在机器学习方面的课堂笔记。2013;第 1-3 页。 查看文章Google 学术搜索