厦门免费医学论文发表-蛋白质工程回归模型的系统分析
理查德·迈克尔 ,雅各布·凯斯特尔-汉森 ,彼得·莫尔希·格罗斯,西蒙·巴特尔斯,杰斯珀·所罗门,田鹏飞,
抽象
针对特定性状优化蛋白质在工业和制药方面具有巨大的前景。机器学习越来越多地应用于该领域,以预测蛋白质的特性,从而指导实验优化过程。一个自然的问题是:我们在这样的预测方面取得了多大的进展,回归和表示的选择有多重要?在本文中,我们证明了对回归器性能的不同评估标准会导致截然不同的结论,这取决于指标的选择以及如何定义泛化。我们强调了典型回归场景中样本偏差的基本问题,以及这如何导致关于回归器性能的误导性结论。最后,我们论证了校准不确定性在该领域的重要性。
作者摘要
监督机器学习越来越多地用于预测蛋白质的功能和特性。使用这些方法获得的性能取决于多种因素,包括数据的表示方式、观察结果的分布方式、训练的进行方式以及绩效的衡量方式。在本文中,我们系统地评估了这些不同成分在蛋白质回归管道中的重要性。我们讨论了使用从蛋白质语言模型中提取的表示的好处、回归算法选择的影响以及不确定性的作用。最后,为了避免误导性的性能声明,我们强调需要仔细调整训练/测试设置,以反映最终应用预测算法的设置。
数字
图7表1图1图2图3图4图5图6图7表1图1图2图3
引文: Michael R, Kæstel-Hansen J, Mørch Groth P, Bartels S, Salomon J, Tian P, et al. (2024) 蛋白质工程回归模型的系统分析。PLoS 计算生物学 20(5): 编号:E1012061。 https://doi.org/10.1371/journal.pcbi.1012061
编辑 器: 皮耶罗·法里塞利, 意大利都灵大学
收到: 2023年9月26日;接受: 2024年4月10日;发表: 5月 3, 2024
版权所有: © 2024 Michael et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 复制结果所需的所有代码都可以在 https://github.com/MachineLearningLifeScience/protein_regression 中找到。所有数据(包括计算表示)均已存档,并在 https://erda.ku.dk/archives/9a379e8618a1ba1f2730ec33fa3a736d/published-archive.html 公开提供。
资金: 这项工作得到了丹麦数据科学学院的部分支持(RM ddsa.dk,DDSA-PhD-2022-010,由诺和诺德基金会资助,NNF21SA0069429,novonordiskfonden.dk 和VILLUM FONDEN,40516,veluxfoundations.dk)。进一步的资助包括 NNF 4D 细胞动力学中心(NSH、NNF22OC0075851、novonordiskfonden.dk)和 Villum Synergy(NSH 和 WB,veluxfoundations.dk,DeepDesign 40578)、丹麦创新基金(WB 和 PMG,innovationsfonden.dk,1044-00158A)、MLLS 中心(生命科学基础机器学习研究,novonordiskfonden.dk、NNF20OC0062606)、Digital Pilot Hub(SB、Skylab Digital、丹麦教育和科学部)、 以及人工智能先锋中心(RM、PMG、SB、WB、丹麦国家研究基金会、dg.dk,资助号P1)。资助者在研究设计、数据收集、分析、发表决定或手稿准备中没有发挥任何作用。
利益争夺: 作者声明不存在相互竞争的利益。
介绍
准确预测与功能和稳定性相关的蛋白质性状仍然是一项重要挑战,无论是计算机蛋白工程还是评估遗传疾病的表型后果[1–3]。近年来,用于预测蛋白质变异引起的适应度效应的无监督模型取得了进展。对于单个蛋白质家族,已经成功地使用比对序列的统计模型来表征突变通过(近似)可能性的变化来表征突变的影响[4\u201210],而基于注意力的语言模型已经将这一想法扩展到了单个蛋白质家族之外[11\u201214]。
虽然无监督模型是相对于自然基线的变异的非常有用的描述符,但蛋白质工程通常要求我们超越无监督设置。原因之一是优化的功能通常与进化选择的生物学功能不同[15]。另一个原因是,随着我们对系统进行更多的实验观察,我们通常希望提高我们的预测能力,这要求我们以监督的方式训练模型。
监督学习与许多挑战有关。首先,它要求我们仔细考虑如何应用现有数据,因为它们现在既用于培训又用于评估。数据可以以不同的方式拆分为训练集和测试集,我们允许这些集之间的相似性将影响我们的评估。目标应该是选择一个测试集,该测试集反映了我们在实践中最终应用回归器时期望看到的数据分布。但是,由于在优化设置中,回归器经常被部分地用于域外,即对比训练集中的序列更远离野生型的序列进行预测,或者以不同的方式分布,因此这个问题变得复杂。在这种情况下,代表性测试集可能不可用。即使是域内和域外的概念通常也不明确,并且可能取决于蛋白质编码方式的选择。例如,蛋白质语言模型(PLM)计算的嵌入可能比仅基于氨基酸同一性的距离具有更丰富的生物学相似性概念。外推设置还强调了回归算法提供可靠不确定性估计的要求。这对于确保下游决策(即由优化算法的人类从业者)可以基于建议候选者的预测适应度和这些估计的不确定性之间的明智权衡非常重要。最后,由于特定蛋白质系统的数据集通常非常有限,并且可能存在很大的样本偏差,因此对蛋白质序列的监督学习变得困难。
在本文中,我们系统地描述了蛋白质工程监督学习所涉及的挑战。我们描述了蛋白质回归管道的组成部分(图1),特别关注评估阶段。我们从经验上表明,在这个阶段,不同的选择会对得出的结论产生巨大的影响,并讨论了我们如何设计训练/测试拆分,以最好地反映我们对给定任务所期望的泛化能力。我们还研究了输入蛋白质序列嵌入的作用,将几种最近的语言模型与更简单的替代方案进行了比较。最后,我们考虑了用于衡量性能的指标,并强调了在比较回归程序时包括预测不确定性校准的重要性。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 1. 蛋白质系统监督学习任务的一般概述。
对于每种蛋白质,都存在标记的实验测定数据、多序列比对 (MSA) 和序列表示(用相应维度注释的编码s 的子集)。语言模型(即 ESM-1b 和 ProtBert)表示是内部表示(由条形表示)的位置手段。我们拟合和评估回归器,并通过不同的协议(评估)选择训练和验证数据。根据性能和校准结果,我们评估了变体选择的计算机优化任务。
https://doi.org/10.1371/journal.pcbi.1012061.g001
结果
蛋白质工程的基本目标是找到天然存在的氨基酸序列的修饰、变体,以优化一种或多种感兴趣的特性,例如酶的热稳定性[16,17]。 由于有 20 个天然存在的氨基酸,因此给定长度 L 的可能氨基酸序列的空间为 20 个L,即使对于短蛋白来说,也是一个天文数字。在实践中,工程研发管道通常将自己限制在与自然发生的野生型序列 (WT) 仅偏离几个突变的序列上。在这个有限的空间中进行详尽的搜索通常仍然很棘手。在实践中,我们的时间和资源是有限的,所采用的搜索策略通常基于随机抽样和领域专家的直觉的结合。因此,开发更好的优化策略已成为一个活跃的研究领域[18\u2012221]。
作为这种优化策略的一部分,需要预测看不见的蛋白质序列的适应度值。一个例子是贝叶斯优化设置中的代理函数,它预测任何候选蛋白质的预期适应度值及其不确定性。再加上指定勘探和开采之间权衡的采集函数,这使我们能够根据明确定义的协议以最佳方式选择新的候选者。因此,我们在优化蛋白质方面的成功在很大程度上取决于根据其序列回归蛋白质适应度的能力。可以用各种方式对输入进行编码,而不是使用原始氨基酸序列,以方便建模。一个简单的选择是单热编码,其中蛋白质序列或比对中的每个氨基酸都编码在 d 维向量中,其中 d 是不同氨基酸标记的数量(通常为 20 多个间隙符号和非标准标记)。近年来,人们已经清楚地认识到,通过对学习到的蛋白质表征进行回归,通常可以进一步增强回归性能[13,22–24]。这有可能简化搜索空间,并有可能进一步推断远离野生型序列。
下一步是选择合适的回归算法。这种选择将取决于以下因素:1)适当的归纳偏差,2)相对于可用数据量的表达能力,3)模型的属性,例如预测不确定性的能力。归根结底,选择的一个主要原因是,一个特定的模型被认为在感兴趣的特定任务上表现得更好。当我们讨论不同回归算法和表示的优缺点时,因此,能够可靠地评估这种性能至关重要。与无监督适应度预测相比,在监督环境中的评估将要求我们将数据拆分为训练集、验证集和测试集。根据感兴趣的应用程序任务,不同的选择是有意义的,并且此选择可能会对报告的性能产生重大影响。性能将取决于健身环境的性质以及可用数据的数量。由于实验分析通常一次只能产生数十到数千个测量值,因此蛋白质回归通常处于低数据状态,从而限制了我们可以有意义地应用回归算法的能力。实验测定也可以具有不同的质量,具有不同的覆盖率,并显示出与感兴趣的功能性状或多或少的相关性。
因此,这些是蛋白质回归管道中的关键组成部分:数据的性质、编码、回归算法和评估策略(图 1)。我们现在将依次考虑它们。
数据
在输入端,蛋白质适应度数据可以有不同的范围,从从自然发生的序列中广泛采样(有时称为野生型探索)到围绕单个或几个自然发生的序列局部采样序列。由于我们的研究侧重于蛋白质优化,因此我们在这里考虑后一类,但有关野生型探索的考虑因素,请参阅相关工作[24,25]。
表征蛋白质特性的实验技术,特别是许多高通量检测,通常是所需功能性状的不完美替代物,并且表现出相当大的噪音。例如,蛋白质工程管道中常见的第一步是位点饱和诱变实验,该实验在单个实验中表征了大多数变异体与野生型蛋白的单个突变。除了相对较高的噪声水平外,这些初始高通量实验通常与感兴趣的功能性状的相关性有限,因此有时会在优化过程的后期阶段通过低通量、更昂贵的检测来增强。在对单个突变体进行探索后,方案通常会继续进行与野生型分离更大的变体。在这些后期阶段,由于根据先前实验的结果选择了新的变体,实验探测的序列中通常会存在相当大的选择偏差。这些影响会影响我们从回归算法中预期的性能,以及拆分策略的设计,如下所述。
除了具有观察到的实验值的序列(即标记序列),通常有许多来自天然蛋白质数据库的类似蛋白质的序列可用。如果我们正在优化的功能性状与蛋白质的生物学功能有关,我们可以希望从这些未标记的序列中获得额外的信息,例如通过学习改进的表征或无监督预测。
为了讨论回归器设计中的建模选择,我们对一组具有代表性的蛋白质变异效应数据集进行了实证评估。选择数据集是为了在数据数量上有所不同,观察到的变异与其最接近的野生型相差多远,并且根据其生物有机体功能和结构而有所不同。我们考虑的实验数据来自突变扫描,根据蛋白质系统的不同,突变扫描记录了不同应激下的生长(参见S1文件中的表A,参见[8,14])对于每个可合成的候选序列,我们观察一个测量值,作为标签。
对于我们的初始实验,我们将使用两种常用的训练/验证拆分场景:随机交叉验证(随机 CV)策略,其中数据随机(均匀)拆分,以及位置级交叉验证(位置 CV),其中按链中的位置进行拆分(非重叠段分配给训练、验证或测试组)。在本文后面的评估技术处理中,我们将回到拆分程序的选择。
蛋白质表示
表征学习的进展表明,从生物序列中进行无监督学习的不同方法会导致不同结构的表征[8,12,13,22,26,27]。 先验地,尚不清楚这种结构差异将如何转化为下游绩效。因此,只能根据下游预测算法的性能来评估表示的有用性。对于这里研究的特定蛋白质系统,我们在图2A中显示了这样的分析,将one-hot表示与最近的两个大型语言模型表示ESM-1b [11,28]和ProtT5 [26,29]以及从EVE变分自动编码器模型[10]中提取的家族特异性表示进行了比较 ].稍后我们将回到指标和交叉验证方案的确切选择,并首先关注回归性能明显受到表示选择的严重影响这一事实(图 2A,底部)。正如在零样本(无监督)设置下使用大型语言模型和特定于家庭的密度模型进行适应度预测的惊人结果所表明的那样[14,26],当使用相应的表示作为监督训练的输入时,我们可能会期望提高性能。 事实上,我们观察到,除了使用原始氨基酸序列之外,表征还能够提高回归性能。尽管这种效应的强度取决于蛋白质、回归器的选择和交叉验证方案,但从语言模型中提取的表征似乎通常是一个稳健的选择(图 2A)。有趣的是,我们注意到,这并不适用于所有学习表示的选择。特别是,我们始终观察到,蛋白质家族特异性变分自动编码器(此处为 EVE)的潜在空间似乎在下游回归任务中表现不佳。这有点令人惊讶,因为从同一模型中提取的evo-score,即证据下限(即对WT可能性的代理),尽管是一维值,但平均而言似乎更好。我们发现,PLM 模型的性能始终保持高水平。我们预计更新的、更大的语言模型将优于早期的同类语言模型,并且确实发现从 ProtBert 到 ProtT5 有显着的收益。令人惊讶的是,ESM-1b、ESM-1v 和 ESM-2 通常并非如此(参见 S1 文件中的第 3.2 节)。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 2. 表示和回归比较。
我们通过以下方式评估五个不同的蛋白质数据集:A) 顶部:UMAP 简化表示(轴是 umap 输出维度)的二维空间分离,以功能性(橙色)和非功能性(紫色)变体进行颜色编码。下图:GP-Matérn 回归器在表示作为输入报告准确性的表示上的性能(调整后的 R2) 在 CV 协议的测试集上,将条形图作为跨拆分的标准误差。B) ESM-1b 表示输入上的所有监督回归器。其他表示和结果在S1文件的图A和图B中。
https://doi.org/10.1371/journal.pcbi.1012061.g002
在性能方面,一些最显著的差异发生在两种不同的拆分策略中,我们将在本文后面详细讨论这个问题。不同表征的有用性在蛋白质系统之间也有显着差异。据推测,这反映了检测的不同性质。例如,evo-score可以预测测定值的情况可能是测定是生物学功能的良好代表的情况。
关于代表选择的最后一点与它们的维度有关。语言模型生成的高维每位置嵌入不太适合直接输入回归模型。通常,通过简单的平均,在蛋白质的长度上聚合表征。为了简单起见,这也是这里采用的策略,尽管我们强调存在更好的选择,并且可以对性能产生相当大的影响[22]。即使采用这样的平均策略,也只能表示(通常超过)数百个维度。对于某些回归算法,例如使用基于欧几里得距离的核的高斯过程,这种高维空间是已知具有挑战性的。对于参数数量与输入大小成比例的回归器(例如,简单的线性回归器),较大的表示也可能导致过度拟合的问题。在一项消融研究中,我们考虑了对平均表示的无监督降维预处理是否会对回归性能产生积极影响,但通常认为这是有害的(参见 S1 文件中的图 W)。然而,我们注意到,最近的几项蛋白质优化研究发现,在他们的优化方案中包括一个专门针对该任务训练的监督降维步骤是有益的[30,31]。
回归算法
选择正确的回归算法通常被认为是管道中模型设计选择中最关键的。系统特异性蛋白质回归通常在低数据范围内运行,这意味着在选择模型类别和模型容量时必须特别小心,以避免过度拟合数据中的噪声。在我们的案例研究中,我们选择了一组具有代表性的方法,这些方法有望在该制度中显示出合理的性能:(1) kNN 回归器,(2) 具有预测集成不确定性的随机森林 (RF),以及 (3) 三个高斯过程 (GP) 回归器(线性核、平方指数核和 Matérn 核)——请参阅方法中的详细信息(参数和回归优化)).每个回归器的实现不仅是为了提供一个预测值,而且还提供了一个预测方差估计值作为相关的不确定性(参见方法)。
当比较这些回归器在五个数据集中的性能时,我们发现,当优化超参数时,尽管输入是高维的,但 GP 回归器表现良好(图 2B)。在许多情况下,具有线性内核的 GP 提供了合理的性能,这一事实表明,在这种有限的数据体系中,可以使用线性模型捕获大部分信号,但这将取决于所讨论的系统、可用数据量和学习的表示。一个更普遍的观察结果是,超参数的选择至少与回归器的选择一样重要;如果选择不当,可能会对性能产生重大不利影响。请注意,我们在这里重点关注使用语言模型表示的回归性能,但发现其他表示选择的效果相似。有关这两点的详细信息,请参见 S1 文件中的图 V。
与上一节一样,当我们将拆分策略从随机抽样更改为位置级拆分(即在训练期间看不见的序列区域进行预测)时,我们再次观察到性能急剧下降。此效果的大小因系统而异。在像 TIM-Barrel 这样的情况下,我们在仓位级拆分中没有预测能力,尽管随机拆分性能与其他系统相当。我们将在下面详细探讨这种依赖关系。
评估:指标、任务、领域和泛化
指标。
任何学习算法评估的基本部分是评估预测性能的方法。为了比较衡量数据集和系统的性能,我们使用残差和总残差之间的调整比率。 ,这表明我们的预测比训练集均值作为基线μ有所改善y(有关详细信息,请参阅方法 3)。
由于回归器提供的预测不确定性在下游应用中被积极使用(例如,在贝叶斯优化程序的采集函数中),我们也应该根据其不确定性估计的质量来评估我们的方法。我们可以使用预测不确定性来评估模型的校准和置信度[32\u201234]。校准意味着在预期中,预测误差的平均大小应与分组预测不确定性的大小相对应[35]。因此,如果经验误差大于其预测的不确定性,则该方法将过于自信。我们通过计算标准化(简化)χ 来量化这一点2统计量:作为由预测方差归一化的残差的平方平均值,它为我们提供了回归器校准性的一个估计值。我们还研究了校准曲线[32,33],方法是将预测离散为所有观测值i∈[1,n]的预测方差的q分位数,并用j ∈ [1, q]索引,以便每个观测值都描述一个高斯曲线。由此,我们计算校准、预期校准误差 (ECE) 和锐度(定义见方法 8)。
为我们的测试系统绘制回归器和表示的校准评估(图 3)(S1 文件中的图 G-J),我们发现这些方法通常都经过了很好的校准。例外情况,即如果回归变量的预测方差非常低,则会发生过度置信,例如 PLM 上的 kNN 或 one-hot 上的 RandomForest 的情况。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 3. 回归器的校准。
在 β-L actamase 上通过(还原)χ 测量2通过随机拆分 (A) 与按位置 (B) 进行比较来训练回归变量时的统计数据。通常,回归变量经过良好校准(灰色区域,虚线是完美校准),对于位置 CV (B) 则稍高一些。异常值的特征是预测方差值非常低(参见 KNN 回归和单热表示)。
https://doi.org/10.1371/journal.pcbi.1012061.g003
域和泛化。
当我们创建一个测试集时,我们隐式地定义了一个泛化的概念:我们假设测试集与我们期望的任何未来应用程序一样代表训练集。因此,测试集的适当选择将取决于我们打算随后使用模型解决的任务。
为了使讨论更加精确,我们将简要地形式化领域和任务的概念。我们将域定义为一组有限的嵌入序列,其分布为 p(X)。如果训练集和测试集中的输入之间的分布发生偏移,则称测试集为域外,有时称为协变量偏移。一个任务涉及一组观测值,并由联合分布 p(Y, X) 定义。联合分布分解为 p(Y, X) = p(Y|X)p(X)在通常的假设下(有关相关的迁移学习定义,请参见[36–38])。根据此定义,任务可以通过协变量偏移或似然 p(Y|X),即X 和 Y 之间基本关系的变化,有时称为概念转移。请注意,即使没有概念偏移,协变量偏移通常也会导致输出分布 p(Y) 的偏移。
我们在域中的样本上拟合监督模型,目的是做出与任务相关的预测。用于训练监督模型的大小为 n 的样本表示为 S|TR = {(X我、 y我)}i=1..n.为了评估任务的性能,我们构建了一个测试集作为任务的代表性子集,分别带有分布。监督模型的泛化能力通过真实观测值和测试数据预测之间的残差以及预测不确定性的校准来评估。
结构域的概念在蛋白质工程环境中很重要,因为存在外推的内在需求。典型的工程管线将通过引入越来越多的突变,逐渐远离一个或多个初始 (WT) 序列。作为这些概念如何发挥作用的一个例子,图4包含典型蛋白质工程环境中可用数据的示意图。从左到右的进展说明了对变异空间的探索,按远离野生型的突变数量(1M,2M,...,kM)组织。在每个区块中,深色阴影表示探索的累积变体的百分比越来越高。如果我们假设每个类中的变体是根据某种分布进行采样的,我们可以将每个块视为代表一个域,我们对其采样的数据点数量越来越多(从左到右)。DMS 箭头演示了(图 2)中探索的典型场景,其中深度突变扫描 (DMS) 实验为我们提供了一组相当完整的单变体。如果我们想预测 1M 类中的缺失值(并假设这些值是随机缺失的),那么我们的任务将是一个插补任务。对于此任务,随机拆分策略是合适的。相反,如果我们想在 2M 类中进行预测,只观察 1M 类的变体,我们将处于外推设置中,这本质上是一项更困难的建模任务。使用随机拆分在 1M 数据上构建的测试集不会可靠地估计我们在此 2M 预测设置中的性能。位置级拆分器测试模型在一个位置进行预测的能力,仅给定其他位置的信息,可以作为此任务性能的更有用的代理。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 4. 按突变数(1...kM)相对于序列野生型(WT)。
区域表示观察到的变异样本(深色)与未探索的(浅色)。由于自然限制,并非所有可能的序列都可以探索用于DMS实验。任务制度提供了相对于领域适用的任务,拆分策略是潜在的合适协议,通过构建训练和测试集来评估领域的表现。
https://doi.org/10.1371/journal.pcbi.1012061.g004
在观察2M及高阶变异的实验数据时,我们经常也会面临遇到的数据有偏差的问题。虽然获得的第一轮变异通常相对均匀地采样(例如在位点饱和实验中),但随后的双阶和高阶变异通常是根据前几轮中观察到的最佳性能变异来选择的(图4,深色与浅灰色区域)。因此,即使我们将域定义为最大突变阶 k 的所有变体,数据中的样本偏差也很难推理预期的泛化。另一种看待这一点的方式是,如果我们将我们的域定义为高达 k 阶的变体的均匀分布,那么所有 1M 变体的位点饱和实验是一个严重偏差的样本。
评估性能:训练/测试拆分。
在比较表征和回归变量的实验中(图 2A 和 2B),与随机拆分相比,我们发现按序列位置拆分时性能明显降低。根据上面的讨论,我们现在讨论这两种拆分策略,以及几种替代方案。
随机简历。
这种随机拆分协议是一种标准的 k 折叠交叉验证协议,它随机均匀地随机洗牌训练数据,将 (X, y) 分成 k 个折叠,在对其余部分进行训练后对每个折叠进行测试。在处理自然发生的生物序列时,由于数据中的进化结构,随机分裂通常被认为是不合适的,因此使用同源性减少方案进行测试,以更好地反映模型将如何泛化到训练集中未包含的物种的序列。对于数据由人工构建的序列组成的蛋白质工程,我们没有这种担忧,因此没有理由忽视随机分裂。然而,如上所述,它只适用于对随机缺失的值进行插补,并且通常会在插补任务之外对我们的性能产生过于乐观的估计。
位置简历。
该协议将序列划分为大小为 p 的段,以便我们创建多个拆分。所有具有在片段中位置范围内的突变的变体都将被保留进行测试,同时对其余数据进行训练。更具体地说,让序列 X = {x0, ..., xk, ..., xL} 的长度 L 在位置 k 处有突变。然后,训练集由在给定位置范围内没有突变的序列组成:S|TR = {(X我、 y我)}i=1..N,k|k∉[j,j+p](分区起始索引 j)和 S|TE系列是该集合的补充。为了计算可行性,我们考虑 p = 15 的块中的位置。因此,该协议允许我们测试超出训练期间观察到的序列位置的泛化。该模型必须利用成对或高阶信号,而不是依赖于特定位置的信号(相当于自然序列中的守恒)。由于这评估了模型在序列中存在的其他氨基酸的背景下进行预测的能力,因此我们可能期望它更好地反映我们在外推设置中可以预期的性能。另一方面,如果数据集中的变量效应在很大程度上是累加的,那么仓位水平拆分器可能会对我们的表现提供过于悲观的看法。
突变CV。
这种分裂策略探究了我们从序列中较少数量的突变泛化到较高数量的突变的程度。该协议在对 k′ 的 k′ 度变体进行训练后,在含有 m 变体的域 kM 中的 k-度变体样本上进行了测试,其中 k′ ≤ k, .除了 p(X) 的固有位移外,p(Y|X) 切换域时,如上所述。因此,突变CV方法的有用性将取决于在模型的预期应用中预测的变异是否与迄今为止观察到的连续突变程度相似,即是否使用类似的选择方案来选择替代。显然,这种拆分策略只有在可用数据包含多个替换时才可行,而到目前为止讨论的任何数据都不是这种情况。我们将在下面详细分析这种情况。
分数 CV。
我们引入此协议来评估回归器的性能,因为有更多的数据可用 - 从朴素的,很少的观察设置,到几乎完整的信息,插补设置。该协议是一种 k 折 CV 协议,可随机均匀地从总可用序列中对训练和测试数据进行子采样。我们用 k 个训练、测试迭代随机均匀地随机抽取每个分数 q ∈ (0, 1)。此拆分策略评估在面对域内不同数量的数据时的预期回归器性能。因此,它可以作为我们在 batch-1 优化设置中可以预期的性能的简单代理。
优化。
我们的最终评估策略由一个实际的优化协议组成,我们使用贝叶斯优化策略,通过预期改进[39]采集函数,根据先前的观察结果主动选择样本。该协议类似于分数-CV 拆分器,但用主动选择候选者取代了对候选者进行统一抽样(保证保持在域内)的简化假设,从而偏向于更高的性能。请注意,在这个协议中,我们仍然只考虑已知的数据点进行优化,任务是在尽可能少的迭代中找到最佳值。
案例一:域内优化。
我们在与之前相同的数据集上说明了分数-CV和优化拆分器,比较了单突变数据设置中的性能,以及数据完整性的提高(图5);将结果呈现为结果的四分之一的汇总(即前 25% 的小数拆分和 BO 观测值直至所有可用拆分的性能)。我们看到,与早期的评估标准相比,分数-CV 拆分和优化协议对总体性能的评估更加保守(尤其是在只有很少的可用观测值的情况下)。在我们测试的回归变量选择中,GP 再次在这项任务上表现最可靠,在最少的迭代后找到最佳候选者(S1 文件中的图 S)。这可以通过以下事实来解释:优化协议的采集函数主动依赖于回归器提供的不确定性估计。我们还注意到,随机选择和按 EVE 分数排序是竞争性参考基线(S1 文件中的图 S-T)。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 5. 任务之间的性能比较。
GPMatérn 回归器性能 (R2) 用于 β-L actamase 和泛素的 ESM-1b 表示,当评估随机分裂(10 倍 CV)(蓝色)、序列位置 (p = 15)(红色)、跨数据部分(绿色)和优化(紫色)时。分数和优化结果与可用的训练数据(每个分区四个分区)相关,分别为 mean 和 std.err。分别报告(从第一个分区(最低值)到所有可用数据(最后一个分区,高值)。
https://doi.org/10.1371/journal.pcbi.1012061.g005
在消融中,我们分别研究了随机和位置拆分的参数 k 和 p(S1 文件中的第 8 节),表明测试性能指标相对稳定(S1 文件中的图 Q)。请注意,在极端情况下(例如,较大的 p)导致训练数据减少(随后测试集越大),预期误差和标准误差可能会增加(S1 文件中的图 R)。
案例 2:外推。
为了说明外推到不同领域时可能发生的一些陷阱,我们对ParD-抗毒素的DMS实验进行了分析[40]。该数据集包含具有多个突变的变体,并且是前面介绍的偏差场景的一个示例,其中协变量偏移导致标签分布在较高突变度下的变化增加。
在我们的分析中,我们将使用上面介绍的突变CV策略,目的是估计我们在与野生型的距离增加的情况下预测变异的能力。图 6 展示了使用高达(或高达并包括)第 k个突变度的数据训练回归模型并在第 k个突变度上进行测试时获得的性能。如果我们考虑均方误差 (MSE) 分数(图 6)(见方程 4),结果的行为符合预期:当预测 2M(或 3M)数据时,如果我们在训练集中也包含一组随机选择的 2M(或 3M)变体,我们的性能就会提高。然而,如果我们将 Spearman 秩相关性(参见方程 5)视为我们的指标,我们会看到更令人惊讶的行为:在 3M 情况下,如果我们在训练集中包含 3M 样本,我们的性能会降低。这种不一致的行为是由于标签分布 p(Y) 在 1M、2M、3M 和 4M 设置之间发生显著变化所致。在 1M 案例中,我们看到非功能性和功能性之间的双峰分布,后者占主导地位。在 2M、3M 和 4M 情况下,这越来越显着地切换到非功能性情况,越来越以单个值为中心。因此,当我们从2M到4M时,MSE越来越多地报告围绕几乎恒定的预测的残差(在这个数据集中,没有一个4M突变是功能性的)。由于分布的经验方差下降,这些残差也下降,给人一种性能改进的误导性印象。请注意,在此讨论中,我们使用了 MSE 而不是 R2为了保持讨论简单,因为我们为 R2将看到分子和分母的变化(即,参考均值预测器的性能也会发生变化)。有关等效的 R ,请参见 S1 文件中的图 M2情节。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 6. GP的突变程度协议。
(Matérn) 从一级 (1M) 到四级 (4M) 的 ParD-抗毒素,以 ESM-1b 为代表。ParD-抗毒素的功能观察分别是第一行和第一列的密度曲线。我们评估域内和域外的秩相关性(spearman ρ)(左侧测试列 1M 至 4M)。参考是加法基准基线(虚线),它是构成目标变体的所有变体的加法。二阶变体的基线:y(Var1,Var2) = y(Var1)+y(Var2),三重变体的基线是成分的所有组合的集合。我们评估域内和域外的准确度 (MSE)(右侧测试列 1M 至 4M)。对角线显示了域内性能,因此我们使用标准的 5 倍 CV 协议(给定相同数量的突变随机选择 20%),在突变数量少于或相等的序列上学习。每个源数据域的偏离对角线(y 轴)显示了我们在下一个域中的预测。
https://doi.org/10.1371/journal.pcbi.1012061.g006
在 Spearman 相关结果中,我们将加法模型(虚线)的结果作为基线,这样对双重变体的观测值由其成分的观测值之和来预测。这种简单的程序在实践中经常用于工程管道中,特别是在优化稳定性时,其中独立站点贡献的总和可能是一个合理的近似值。我们看到,在这个例子中,加法模型在许多情况下是候选者排名的合理基线,尽管加法值并不构成MSE方面的竞争预测(S1文件中的图N)。由于对候选者进行排名通常是一个主要问题,这说明了在评估多变量环境中的回归器性能时包括这种与站点无关的基线的重要性。
案例3:迭代数据采集。
在蛋白质工程活动中,实验通常是迭代进行的。在这种情况下,给定迭代中变体的选择可能取决于先前迭代的结果,随着时间的推移,会导致逐渐的协变量偏移。在下文中,我们表明这可能会对回归性能的训练和评估产生重要影响。我们将在内部数据集上说明这一点。尽管目前无法透露所研究的蛋白质系统的身份,但该案例提供了一个有趣的真实世界示例,说明信息不灵通的回归分析的后果。图 7 显示,在整个数据集上采用随机拆分方法与实验的相关性为 0.94(使用带有 ESM-2 嵌入的随机森林回归器)。更仔细的检查表明,变体中的突变数量高度预测其适应度值:我们离野生型越远,我们获得的适应度就越高。显然,这在数据中不是一个有意义的信号:我们预计高阶变体通常不会具有更高的适应度值。这种影响是由迭代数据采集策略引起的,在这种策略中,根据上一轮中表现最好的变体选择新的变体,从而随着时间的推移改进变体。由于拆分策略选择不当,我们允许回归器拟合数据中的选择偏差,而不是感兴趣的信号。在这种情况下,正确的拆分策略是在典型的预测器场景中按时间顺序拆分,我们根据过去进行训练并预测未来。对于这个特定的数据集,这将获得的 Spearman 相关性从 0.94 降低到 0.19。请注意,这是前面讨论的样本偏差问题的一个极端例子,我们看到 p(X) 和 p(Y) 都发生了巨大的变化。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 7. 迭代收集具有多个突变(0 到 21)的蛋白质系统的性能。
真实值与回归设置中的预测值(左图)和时间的关系图。考虑随时间推移的突变数量以正确对系统进行建模至关重要。回归设置中呈现的相关性主要是由于在给定先前迭代的情况下,随时间添加突变的选择偏差。
https://doi.org/10.1371/journal.pcbi.1012061.g007
案例4:自由优化。
到目前为止,我们已经将测试集视为下游任务的完美表示:我们的评估衡量了如果下游任务中的数据与测试集的分布相同,我们将做得如何。然而,在现实中,在蛋白质工程管道中,我们进行自由的(即不绑定到预定义的候选者列表)优化,我们提出候选者,并根据这些建议评估我们的回归算法。因此,我们有责任选择提案,使它们不会过多地偏离我们的回归器经过训练和验证的领域。我们可以通过各种方式解决这个问题:1)确保用于选择新候选者的程序仅限于接近训练集的点,2)通过直接对输入分布进行建模(即使用密度模型p(X))来评估与训练域的接近程度,或者3)采用回归模型,该模型将域外预测与高度不确定性相关联。由于我们论文的主题是回归,我们将在这里重点关注最后一点,但请注意,在最近的蛋白质优化方法中存在前两个选项的例子,其中生成候选列表以接近野生型蛋白质,例如使用p(X)的生成模型[30,31]。
因此,问题在于,我们的回归算法预测的不确定性是否足够准确,可以区分有用和无用的预测。我们看到,在1M域内,我们不同的回归方法都得到了相当好的校准(图3),但由于我们只能访问1M数据,因此该分析没有探测分布外行为。作为一个简单的健全性检查,我们预计我们选择回归变量产生的不确定性通常会随着我们对与野生型距离较远的序列进行预测而增加。不幸的是,我们观察到这只是部分情况(S1 文件中的图 U),因为大多数方法在增加距离时会产生恒定的不确定度值。我们原以为GP会在这个领域大放异彩,但发现只有线性GP在增加突变方面的预测方差相对增加。此外,预测方差值在数量级上有所不同,具体取决于回归器的类型和基础表示。这一观察结果部分由多项式核函数(如线性核)的特性来解释:先验方差随着输入的范数而增长[41,第90页],而稳态核函数(如平方、指数和Matérn)则不然。
ParD-抗毒素数据使我们能够在真实数据上更详细地研究这种影响。在这里,我们观察到使用更多数据进行更好的校准(S1 文件中的图 P),与之前对 β-L actamase、泛素等数据的评估相比,通常与完美校准的偏差更大。(S1 文件中的图 O)。然而,高斯过程模型似乎最有力地量化了多变量ParD-抗毒素观测的这种影响;这样,它们就可以在这种外推设置中得到更好的校准。
在讨论蛋白质优化中的不确定性量化时,一个重要的考虑因素是回归出现在两种不同的环境中:1)作为代理模型,例如在贝叶斯优化协议内部,以及2)作为预言机,当无法进行实验时,它有时作为优化的目标,经常用于改进优化方案的方法开发。不确定性在这两种情况下起着不同的作用。在代理模型设置中,预测的不确定性可以反映认识(模型)不确定性和偶然(数据)不确定性。我们在贝叶斯优化中的重点是认识不确定性,我们希望通过进行额外的观察来减少不确定性。相比之下,在预言机设置中,回归器在优化过程中是固定的,并用作人工(计算机)实验数据。因此,神谕所做出的预测的不确定性应该被认为是偶然的不确定性,因为一旦神谕被训练,它就是不可约的。在贝叶斯优化设置中,我们期望在不确定性高的区域(取决于获取函数)精确地评估代理函数回归器,而在预言机设置中,关注回归器产生低不确定性预测的区域是合适的。如果已知实验设置在域的某些部分提供非常嘈杂的结果,则在实际实验环境中可能会出现类似的情况。在这种情况下,在贝叶斯优化协议中,将偶然不确定性纳入目标和采集函数是有意义的。
当使用回归算法作为预言机时,需要额外的评估步骤来评估在优化过程中找到的候选算法,因为我们无法保证预言机评估的质量。特别是,如果预言机仅在有限大小的、特定于系统的数据集上进行训练,我们应该担心优化过程是否针对预言机的外推伪影进行了优化,而不是针对来自数据的信号进行了优化。通常,自由优化设置意味着我们没有所选候选序列的数据,因此标准训练/测试拆分不适用。理想情况下,应在此阶段进行实验以验证候选者。然而,在计算实验室中,这样的实验可能无法进行,这导致研究转向寻找计算代理。有人建议的一种方法是在数据的子集上训练两个预言机,针对一个预言机进行优化,并针对另一个预言机进行验证——对两种排列进行平均[31]。理想情况下,两个预言机之间的模型假设应该不同,以确保它们之间的外推工件不同。这种量化预言机的认识不确定性的方法类似于 GP 和 RF 回归器中内置的方法,但也包含了模型类的不确定性,因此可以在外推设置中提供更有用的不确定性量化。
讨论
在这项研究中,我们确定了蛋白质回归方案中一些核心组件的影响:数据、选择对数据进行编码的表示、模型的选择和评估标准。我们的结果证实,一些表示的选择可以对下游回归性能产生积极影响,特别是大型语言模型的回归性能。回归算法本身的选择似乎对性能不那么重要,至少在我们在这里研究的数据有限制度中是这样,并且假设这些模型的超参数已经过仔细调整。因此,这种选择可能受到其他考虑因素的指导,例如模型是否可以提供有意义的不确定性估计。在我们的实验中,高斯过程回归被证明特别适合这项任务,尽管这绝不是唯一的选择。
在回归协议的所有组成部分中,评估可能是最关键的。我们证明,性能可能会发生巨大变化,具体取决于数据如何拆分为训练/验证/测试集。虽然这个结果可能并不令人惊讶,但它值得我们关注,因为当新方法发布时,性能值通常会报告。如果拆分不是以相同的方式定义的,那么比较方法就没有意义。同样重要的是,如果分裂的定义过于简单,我们就有可能高估自己的能力。拆分策略的选择意味着预期的下游任务,我们有兴趣量化预期性能。我们给出了几个分裂策略的例子,这些策略试图反映蛋白质工程方案中面临的回归场景。然而,由于数据中的选择偏差以及进行蛋白质工程时外推的内在驱动力,评估策略的选择变得复杂。我们认为,出于这个原因,我们必须有能力将预测与可靠的不确定性估计联系起来,并且我们应该评估回归方法产生校准不确定性的能力。
尽管我们在分析中强调了可靠的不确定性估计的重要性,但我们考虑的方法往往缺乏,尤其是在外推环境中应用时。对于高斯过程回归,这可能是由于输入的高维性,未来有趣的工作可能是研究学习嵌入的低维近似在这种情况下是否可能表现得更好。值得探索的另一种不确定性量化技术是共形预测。特别是,该领域的最新工作为优化过程中出现的偏差提供了一种解决方案,当通过采集函数迭代地将回归器的建议添加到可用的训练数据中时[42]。
我们之前对结构域和泛化的讨论表明,根据原始氨基酸序列和序列与WT分离的突变数量来考虑结构域可能没有结果。如果一种方法从 2M 到 3M 变体进行推广,这可能是因为它依赖于 2M 和 3M 数据集中出现的原始输入的特征,例如特定的序列模式、电荷分布或形成稳定键的氨基酸组合。这些特征可以很容易地在偏离数十个突变的序列之间保留。在有限的数据体系中,很难从现有数据中可靠地学习生化相关特征。来自预训练语言模型的嵌入为提取此类特征提供了潜在的快捷方式,这解释了为什么将它们用作回归算法的输入可能会提高性能。这些预先学习的表示也可能提供了比原始输入空间提供的更丰富的局部性概念。通过在蛋白质的表示中进行局部扰动,并解码回输入空间,人们可以希望生成在功能或结构上接近的变体,但在序列空间中可能更加不同。最近的蛋白质工程管道采用了这种策略[30]。类似的方法在今后可能被证明是有用的,因为它是定义拆分的更有力的基础。
鉴于不同的拆分策略和任务定义导致的性能存在巨大差异,我们鼓励社区努力制定标准化基准,其中包括由特定生物学任务(包括外推设置)激励良好的数据拆分。令人鼓舞的是,最近的贡献似乎正朝着这个方向发展。除了标准的交叉验证方法[19,21,23,27,43–45]外,以前的工作还包括不同的坚持[11],同源分裂[13],突变或位置块分裂[24,46,47]和任务启发分裂[24,25,47].我们强调,这些基准应包括有意义的基线(如上述加法模型),并根据模型量化预测性能和不确定性量化的能力对模型进行排名。这将确保我们能够有意义地比较回归模型的性能,并为从业者提供对最新技术性能的现实期望。
方法
计算表示
从ProteinGym数据集中提取了7种不同的蛋白质[14,47]。
各个数据发表在以下参考文献中:β-L actamase [48]、泛素 [49]、钙调蛋白 [50]、TIM-Barrel [51]、BRCA1 [52]、T2-MTH [53]、ParD-抗毒素 [40]。
这些表征是通过不同的方式获得的:EVE是由单个蛋白质家族的每个蛋白质的多个序列比对(表1中的未标记序列)构建的,为此,我们通过EVE模型的编码器计算潜在空间[10](见 github.com/OATML-Markslab/EVE)。我们包括模型的对数似然 (ELBO),该模型已被证明在无监督环境中提供大量信息(称为 evo 分数 (d = 1))。为了计算语言模型,如 ProtBert、ProtT5、[26] 和 ESM-1b、ESM-1v、ESM-2 [11, 28] 表示,我们通过将 transformer 模型的最后一个注意力层的序列位置的平均值作为我们的表示来降低语言模型的高维性(这在实践中经常这样做)。我们将这些学习到的表示与原始输入序列的简单单热编码进行比较。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
表 1. 数据集概述。
https://doi.org/10.1371/journal.pcbi.1012061.t001
优化回归变量
我们做出相当常见的选择,将训练样本中的观测值标准化为 ,其中 μy和 std(y) 是均值和标准差。
作为回归者,我们适合:
a kNN 回归 [54],作为非参数确定性基线的一个例子,我们为此优化了邻居的数量 [55],
随机森林 (RF) 作为参数化、基于集成的回归器 [56] 的一个例子,我们实现了 sklearn-implementation [55],我们用预测不确定性估计将其扩展为 ,
一个具有线性核的高斯过程 (GP) 回归器(相当于标准线性贝叶斯回归 [57]): ,
具有非线性平方指数的 GP:,
具有 Matérn-52 内核的 GP:.
我们计算精确的 GP 回归 [41](使用 GPFlow [58]),我们使用零均值先验。我们假设每个实验观测值都有高斯噪声,这样
(1)
标准化观测值不会影响 RF 或 kNN 预测,并允许我们对 GP 模型使用零均值先验。
给定 GP 设置,我们可以计算大小为 n 的训练输入 X 的边际似然 [41],如下
(2)
GP协方差函数的超参数被选为(线性核参数θl≔ θ∖{l}),这样是松散约束的。鉴于标准化观察,这是最不强势的先验,可以导致更稳健的优化,因为它惩罚了长度尺度和方差的不太可能的极端值。对于每个模型,使用L-BFGS优化器(最大=500次迭代)对数边际似然进行优化[59]。
我们使用skopt(scikit-optimize/stable)贝叶斯优化例程和内部三重交叉验证,最小化负平均绝对误差(NMAE)来找到kNN回归的邻居数和随机森林的估计器数[55]。kNN 回归器的优化预算为 75,使用梯度提升树作为内部代理 (GBT)。在未优化的设置中,我们设置了 邻居数 。对于随机森林回归器,估计器的数量为 ∈[2, N],预算为 15(使用 GBT)。随机森林默认参数和 KNN 固定邻居的增量处于消融状态(参见 S1 文件中的图 V)。
协议
除非另有特别说明,否则 RandomCV 的呈现结果是使用 10 倍交叉验证方案(如 [55] 中实现的)获得的。PositionCV 按位置对序列数据进行分区。分数 CV 对指定分数可用的数据进行子采样。对于每个分数,我们计算一个 5 倍的 CV,以获得每个分数的误差估计值。有关各个样品大小的更多详细信息,请参见 S1 文件中的表 B 和 C。
性能指标和校准
我们通过调整后的 R2 分数来计算准确性:
(3)
当不通过训练信号进行归一化时,我们将基本误差度量作为均方残差:
(4)
为了计算相关性,我们使用 Spearman 秩相关性(基于输入的秩 r):
(5)
我们将校准(拟合优度)计算为简化的χ2统计:
(6)
有关详细信息,请参见 SI 第 6 节。χ 的实现2statistic 可以在 ProbNum 包 [60] 的评估指标中找到。作为进一步的不确定性量化评估,我们计算置信曲线,如下所示:
(7)
与校准 (ECE) 和锐度的绝对偏差为:
(8)
(9)
贝叶斯优化和无监督基线
我们使用前面描述的回归变量作为代理函数,并计算预期改进(EI)[61]作为获取函数,用于数据集中可用的标记候选者列表。预算为 500 次迭代,每次迭代时都会使用先前指定的超参数优化回归器。已经运行了十种不同的随机种子,用于对可用序列进行初始排序。作为参考基线,EVE模型evo-score用于对可用序列进行排名(优化结果可在S1文件的图S中找到)。
支持信息
补充材料。
跳到无花果共享导航
很抱歉,我们无法加载您的数据。
下载
无花果分享
S1 文件。 补充材料。
包含数据集概述、附加结果、校准定义、协议说明。
https://doi.org/10.1371/journal.pcbi.1012061.s001
(PDF格式)
引用
1.Bross P, Corydon TJ, Andresen BS, Jørgensen MM, Bolund L, Gregersen N. 遗传疾病中的蛋白质错误折叠和降解。人类突变。1999;14(3):186–198.PMID:10477427
查看文章PubMed/NCBIGoogle 学术搜索
2.Banks RE、Dunn MJ、Hochstrasser DF、Sanchez JC、Blackstock W、Pappin DJ 等。蛋白质组学:新视角,新生物医学机遇。柳叶刀。2000;356(9243):1749–1756.PMID:11095271
查看文章PubMed/NCBIGoogle 学术搜索
3.布兰尼根 JA,威尔金森 AJ。蛋白质工程 20 年过去了。Nature Reviews Molecular Cell Biology(《自然评论分子细胞生物学》)。2002;3(12):964–970.PMID:12461562
查看文章PubMed/NCBIGoogle 学术搜索
4.Morcos F, Schafer NP, Cheng RR, Onuchic JN, Wolynes PG. 协同进化信息、蛋白质折叠景观和自然选择的热力学。美国国家科学院院刊。2014;111(34):12408–12413.PMID:25114242
查看文章PubMed/NCBIGoogle 学术搜索
5.田P,最佳RB。有多少蛋白质序列折叠成给定的结构?协同进化分析。生物物理杂志。2017;113(8):1719–1730.PMID:29045866
查看文章PubMed/NCBIGoogle 学术搜索
6.Hopf TA、Ingraham JB、Poelwijk FJ、Schärfe CP、Springer M、Sander C 等。从序列共变异预测的突变效应。自然生物技术。2017;35(2):128–135.PMID:28092658
查看文章PubMed/NCBIGoogle 学术搜索
7.田 P、路易斯 JM、巴伯 JL、阿尼亚娜 A、最佳 RB。用于序列设计的协同进化适应度景观。Angewandte Chemie 国际版。2018;57(20):5674–5678.PMID:29512300
查看文章PubMed/NCBIGoogle 学术搜索
8.里塞尔曼 AJ、英格拉汉姆 JB、马克斯 DS。遗传变异的深度生成模型捕捉了突变的影响。自然方法。2018;15(10):816–822.PMID:30250057
查看文章PubMed/NCBIGoogle 学术搜索
9.田P,最佳RB。探索蛋白质折叠之间桥梁的序列适应度景观。PLoS 计算生物学。2020;16(10):e1008285.PMID:33048928
查看文章PubMed/NCBIGoogle 学术搜索
10.弗雷泽 J、诺丁 P、迪亚斯 M、戈麦斯 A、敏 JK、布洛克 K 等。使用进化数据的深度生成模型进行疾病变异预测。自然界。2021;599(7883):91–95.PMID:34707284
查看文章PubMed/NCBIGoogle 学术搜索
11.Rives A, Meier J, Sercu T, Goyal S, Lin Z, Liu J, et al.生物结构和功能通过将无监督学习扩展到 2.5 亿个蛋白质序列而出现。美国国家科学院院刊。2021;118(15).PMID:33876751
查看文章PubMed/NCBIGoogle 学术搜索
12.Alley EC, Khimulya G, Biswas S, AlQuraishi M, Church GM. 统一的理性蛋白质工程与基于序列的深度表示学习。自然方法。2019;16(12):1315–1322.PMID:31636460
查看文章PubMed/NCBIGoogle 学术搜索
13.Rao R, Bhattacharya N, Thomas N, Duan Y, Chen P, Canny J, et al. 使用 TAPE 评估蛋白质迁移学习。在:Wallach H、Larochelle H、Beygelzimer A、d'Alché-Buc F、Fox E、Garnett R,编辑。神经信息处理系统的进展。第32卷。Curran Associates, Inc.(柯伦联合公司);2019. 可从: https://proceedings.neurips.cc/paper_files/paper/2019/file/37f65c068b7723cd7809ee2d31d7861c-Paper.pdf.
14.Notin P, Dias M, Frazer J, Hurtado JM, Gomez AN, Marks D, et al. Tranception: Protein Fitness Prediction with Autoregressive Transformers and Inference-time Retrieval.在:Chaudhuri K、Jegelka S、Song L、Szepesvari C、Niu G、Sabato S,编辑。第 39 届机器学习国际会议论文集。Proceedings of Machine Learning Research 第 162 卷。永磁化器;2022 年,第 16990–17017 页。可从:https://proceedings.mlr.press/v162/notin22a.html。
15.吴Z, Kan SJ, Lewis RD, Wittmann BJ, Arnold FH.机器学习辅助的组合文库定向蛋白质进化。美国国家科学院院刊。2019;116(18):8852–8858.PMID:30979809
查看文章PubMed/NCBIGoogle 学术搜索
16.吉弗 L、格申森 A、弗雷斯克加德 PO、阿诺德 FH。热稳定酯酶的定向进化。美国国家科学院院刊。1998;95(22):12809–12813.PMID:9788996
查看文章PubMed/NCBIGoogle 学术搜索
17.Li Y、Drummond DA、Sawayama AM、Snow CD、Bloom JD、Arnold FH。由稳定片段重组产生的多种热稳定细胞色素 P450 家族。自然生物技术。2007;25(9):1051–1056.PMID:17721510
查看文章PubMed/NCBIGoogle 学术搜索
18.Voigt CA, Mayo SL, Arnold FH, Wang ZG.减少定向蛋白质进化搜索空间的计算方法。美国国家科学院院刊。2001;98(7):3778–3783.PMID:11274394
查看文章PubMed/NCBIGoogle 学术搜索
19.罗梅罗 PA、克劳斯 A、阿诺德 FH。使用高斯过程导航蛋白质适应度领域。美国国家科学院院刊。2013;110(3):E193–E201。PMID:23277561
查看文章PubMed/NCBIGoogle 学术搜索
20.杨 KK, 吴志, 阿诺德 FH.机器学习引导的蛋白质工程定向进化。自然方法。2019;16(8):687–694.PMID:31308553
查看文章PubMed/NCBIGoogle 学术搜索
21.Wittmann BJ, Johnston KE, Wu Z, Arnold FH.机器学习的进步,用于定向进化。结构生物学的当前观点。2021;69:11–18.PMID:33647531
查看文章PubMed/NCBIGoogle 学术搜索
22.Detlefsen NS, Hauberg S, Boomsma W. 学习蛋白质序列的有意义的表示。自然通讯。2022;13(1):1–12.PMID:35395843
查看文章PubMed/NCBIGoogle 学术搜索
23.Hsu C, Nisonoff H, Fannjiang C, Listgarten J. 从进化和测定标记的数据中学习蛋白质适应度模型。自然生物技术。2022;.PMID:35039677
查看文章PubMed/NCBIGoogle 学术搜索
24.Dallago C, Mou J, Johnston KE, Wittmann BJ, Bhattacharya N, Goldman S, et al. FLIP:蛋白质适应度景观推断中的基准任务。生物Rxiv。2022;第 2021-11 页。
查看文章Google 学术搜索
25.Groth PM、Michael R、Salomon J、Tian P、Boomsma W. FLOP:蛋白质野生型的健身景观任务。生物Rxiv。2023.
查看文章Google 学术搜索
26.Elnaggar A, Heinzinger M, Dallago C, Rehawi G, Wang Y, Jones L, et al. ProtTrans:通过自我监督学习理解生活语言。IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE模式分析与机器智能汇刊)。2022;44(10):7112–7127.PMID:34232869
查看文章PubMed/NCBIGoogle 学术搜索
27.Biswas S, Khimulya G, Alley EC, Esvelt KM, Church GM. 具有数据高效深度学习的低氮蛋白工程。自然方法。2021;18(4):389–396.PMID:33828272
查看文章PubMed/NCBIGoogle 学术搜索
28.Lin Z, Akin H, Rao R, Hie B, Zhu Z, Lu W, et al.使用语言模型对原子级蛋白质结构进行进化尺度预测。科学。2023;379(6637):1123–1130.PMID:36927031
查看文章PubMed/NCBIGoogle 学术搜索
29.Elnaggar A, Heinzinger M, Dallago C, Rehawi G, Wang Y, Jones L, et al. ProtTrans:通过自我监督学习破解生命密码的语言。生物Rxiv。2021.
查看文章Google 学术搜索
30.Stanton S, Maddox W, Gruver N, Maffettone P, Delaney E, Greenside P, et al. 使用去噪自动编码器加速生物序列设计的贝叶斯优化。在:Chaudhuri K、Jegelka S、Song L、Szepesvari C、Niu G、Sabato S,编辑。第 39 届机器学习国际会议论文集。Proceedings of Machine Learning Research 第 162 卷。永磁化器;2022 年,第 20459–20478 页。可从: https://proceedings.mlr.press/v162/stanton22a.html.
31.Lee M, Vecchietti LF, Jung H, Ro H, Cha M, Kim HM. 通过基于模型的强化学习在潜在空间中进行蛋白质序列设计。在:MLSB研讨会;2023.
32.郭 C, Pleiss G, Sun Y, Weinberger KQ.关于现代神经网络的校准。在:Precup D,Teh YW,编辑。第 34 届机器学习国际会议论文集。Proceedings of Machine Learning Research 第 70 卷。永磁化器;2017 年,第 1321–1330 页。可从:https://proceedings.mlr.press/v70/guo17a.html。
33.Scalia G, Grambow CA, Pernici B, Li YP, Green WH. 评估基于深度学习的分子特性预测的可扩展不确定性估计方法。化学信息与建模学报.2020;60(6):2697–2717.PMID:32243154
查看文章PubMed/NCBIGoogle 学术搜索
34.Hie B, Bryson BD, Berger B. 利用机器学习中的不确定性加速生物发现和设计。细胞系统。2020;11(5):461–477.PMID:33065027
查看文章PubMed/NCBIGoogle 学术搜索
35.Kennedy MC, O'Hagan A. 计算机模型的贝叶斯校准。皇家统计学会杂志:B系列(统计方法)。2001;63(3):425–464.
查看文章Google 学术搜索
36.潘思杰, 杨沱.关于迁移学习的调查。IEEE知识与数据工程汇刊。2010;22(10):1345–1359.
查看文章Google 学术搜索
37.Sugiyama M, Kawanabe M. 非平稳环境中的机器学习:协变量移位适应简介。麻省理工学院出版社;2012.
38.Garcke J, Vanck T. 回归的重要性加权归纳迁移学习。在:Calders T,Esposito F,Hüllermeier E,Meo R,编辑。数据库中的机器学习和知识发现。施普林格,柏林,海德堡;2014 年,第 466–481 页。
39.琼斯 DR、Schonlau M、韦尔奇 WJ。对昂贵的黑匣子功能进行高效的全局优化。全球优化学报.1998;13(4):455–492.
查看文章Google 学术搜索
40.Aakre CD, Herrou J, Phung TN, Perchuk BS, Crosson S, Laub MT. 通过混杂中间体进化新的蛋白质-蛋白质相互作用特异性。细胞。2015;163(3):594–606.PMID:26478181
查看文章PubMed/NCBIGoogle 学术搜索
41.威廉姆斯 CK,拉斯穆森 CE。用于机器学习的高斯过程。麻省理工学院出版社,马萨诸塞州剑桥;2006.
42.Fannjiang C, Bates S, Angelopoulos AN, Listgarten J, Jordan MI. 生物分子设计反馈协变量位移下的共形预测.美国国家科学院院刊。2022;119(43):e2204569119。PMID:36256807
查看文章PubMed/NCBIGoogle 学术搜索
43.Mazurenko S, Prokop Z, Damborsky J. 酶工程中的机器学习。ACS催化。2019;10(2):1210–1223.
查看文章Google 学术搜索
44.Bepler T, Berger B. 学习蛋白质语言:进化、结构和功能。细胞系统。2021;12(6):654–669.PMID:34139171
查看文章PubMed/NCBIGoogle 学术搜索
45.Marquet C、Heinzinger M、Olenyi T、Dallago C、Erckert K、Bernhofer M 等。来自蛋白质语言模型的嵌入可以预测保守性和变异效应。人类遗传学。2021;第1-19页。PMID:34967936
查看文章PubMed/NCBIGoogle 学术搜索
46.Jokinen E、Heinonen M、Lähdesmäki H. mGPfusion:使用高斯过程核学习和数据融合预测蛋白质稳定性变化。生物信息学。2018;34(13):I274–I283。PMID:29949987
查看文章PubMed/NCBIGoogle 学术搜索
47.Notin P, Kollasch AW, Ritter D, Van Niekerk L, Paul S, Spinner H, et al. ProteinGym:蛋白质设计和健身预测的大规模基准。第三十七届神经信息处理系统数据集和基准会议;2023. 可从: http://biorxiv.org/lookup/doi/10.1101/2023.12.07.570727.
48.Stiffler MA, Hekstra DR, Ranganathan R. 进化性作为 TEM-1 β-内酰胺酶纯化选择的函数。细胞。2015;160(5):882–892.PMID:25723163
查看文章PubMed/NCBIGoogle 学术搜索
49.Mavor D、Barlow K、Thompson S、Barad BA、Bonny AR、Cario CL 等。在课堂环境中不同化学应力下测定泛素健身景观。生命。2016;5:E15802。PMID:27111525
查看文章PubMed/NCBIGoogle 学术搜索
50.Weile J、Sun S、Cote AG、Knapp J、Verby M、Mellor JC 等。用于详尽地映射功能错义变体的框架。分子系统生物学。2017;13(12):957.PMID:29269382
查看文章PubMed/NCBIGoogle 学术搜索
51.Chan YH, Venev SV, Zeldovich KB, Matthews CR. 三个直系TIM桶的健身景观的相关性源于序列和结构约束。自然通讯。2017;8(1):1–12.PMID:28262665
查看文章PubMed/NCBIGoogle 学术搜索
52.Findlay GM、Daza RM、Martin B、Zhang MD、Leith AP、Gasperini M 等。通过饱和基因组编辑对 BRCA1 变体进行准确分类。自然界。2018;562(7726):217–222.PMID:30209399
查看文章PubMed/NCBIGoogle 学术搜索
53.Rockah-Shmuel L, Tóth-Petróczy Á, Tawfik DS.通过长时间漂移对蛋白质突变空间进行系统定位,揭示了看似中性突变的有害影响。PLoS 计算生物学。2015;11(8):e1004421。PMID:26274323
查看文章PubMed/NCBIGoogle 学术搜索
54.Dasarathy BV.最近邻 (NN) 范数:NN 模式分类技术。IEEE计算机学会教程。1991;.
查看文章Google 学术搜索
55.Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine learning in Python.机器学习研究杂志。2011;12:2825–2830.
查看文章Google 学术搜索
56.Breiman L. 随机森林。机器学习。2001;45:5–32.
查看文章Google 学术搜索
57.Minka T. 贝叶斯线性回归。Citeseer;2000.
58.Matthews AGdG, Van Der Wilk M, Nickson T, Fujii K, Boukouvalas A, León-Villagrá P, et al. GPflow:使用 TensorFlow 的高斯过程库。机器学习研究杂志。2017;18(40):1–6.
查看文章Google 学术搜索
59.Virtanen P, Gommers R, Oliphant TE, Haberland M, Reddy T, Cournapeau D, et al. SciPy 1.0:Python 中科学计算的基本算法。自然方法。2020;17(3):261–272.PMID:32015543
查看文章PubMed/NCBIGoogle 学术搜索
60.Wenger J, Krämer N, Pförtner M, Schmidt J, Bosch N, Effenberger N, et al. ProbNum: Python 中的概率数值.arXiv 预印本 arXiv:211202100。2021;.
61.琼斯 DT。为生物学中的机器学习设定标准。Nature Reviews Molecular Cell Biology(《自然评论分子细胞生物学》)。2019;20(11):659–660.PMID:31548714
查看文章PubMed/NCBIGoogle 学术搜索