学术源论文发表咨询网 公告: 首页 - 网站声明 - 在线投稿 - 发表流程 - 联系我们 - 加入收藏
医学期刊
建筑期刊
教育综合
计算机类
教育期刊
新闻体育
学报刊物
水利/档案
核心期刊
农业/牧业
科技期刊
音乐/美术
工业期刊
煤炭/电力
经济期刊
其他刊物
您当前的位置:首页 > 其他类论文写作指导 > 正文
构建精确表观遗传时钟的新型特征选择方法
发布时间:2022-08-20 15:24:46  来源:  【 】   浏览:
构建精确表观遗传时钟的新型特征选择方法
李亚当,安布尔·穆勒,布拉德英语,安东尼竞技场,丹尼尔•维拉,爱丽丝•凯恩,大卫·辛克莱
出版日期: 2022年08月19日
 
抽象
表观遗传时钟使我们能够根据基因组中特定CpG位点的甲基化状态准确预测个体的年龄和未来健康状况,并且是衡量长寿干预措施有效性的有力工具。对有效构建表观遗传时钟的方法的需求日益增长。最常见的方法是使用所有测量的 CpG 位点的弹性网络回归建模创建时钟,而无需首先识别感兴趣的特定特征或 CpG。特征选择方法的添加为优化预测性 CpG 位点的识别提供了机会。在这里,我们应用新的特征选择方法和组合方法,包括新适应的神经网络,遗传算法和“链式”组合。使用约470,000 CpGs的人类全血甲基化数据来开发预测年龄的时钟,R2相关评分大于0.73,其中最具预测性的是使用35个CpG位点,R2相关评分为0.87。对所有时钟中最常见的五个站点进行建模,以构建 R2 相关分数为 0.83 的时钟。这两个时钟在两个外部数据集上进行验证,它们保持出色的预测准确性。与三个已发表的表观遗传时钟(Hannum,Horvath,Weidner)相比,也应用于这些验证数据集,我们的时钟优于所有三个模型。我们确定了与选定的CpG相关的基因调控区域作为未来衰老研究的可能靶标。因此,我们的特征选择算法使用少量 CpG 站点构建精确、可泛化的时钟,为该领域提供重要工具。
 
作者摘要
表观遗传时钟通过测量DNA特定位点的化学标记(甲基化)水平来准确预测一个人的年龄。这些时钟中越来越多的时钟一直在构建中,并且需要工具来最好地构建这些时钟,特别是选择要包括的特定DNA位点。我们提出了几种新颖的机器学习工具,用于优化这些DNA位点的选择,称为特征选择方法。我们在大型人类血液数据集上的方法开发了几个时钟,这些时钟使用35个或更少的DNA位点准确预测年龄,当应用于其他数据集进行验证时,比以前发表的时钟更准确。一些确定的DNA位点可能与有趣的基因有关,以进一步探索它们在衰老中的作用。这些方法应该能够从少量的DNA位点建立更准确,可推广的年龄预测时钟。
 
引文: Li A,Mueller A,English B,Arena A,Vera D,Kane AE等人(2022)用于构建精确表观遗传时钟的新型特征选择方法。PLoS计算生物学18(8):e1009938。https://doi.org/10.1371/journal.pcbi.1009938
 
编辑 器: 臧崇志,弗吉尼亚大学,美国
 
收到: 2022年2月18日;接受: 七月 11, 2022;发表: 八月 19, 2022
 
版权所有: © 2022 李先生这是一篇根据知识共享署名许可条款分发的开放获取文章,允许在任何媒体上不受限制地使用,分发和复制,前提是注明原作者和来源。
 
数据可用性: 所有相关数据都在稿件及其支持信息文件中。
 
资金: 我已阅读该期刊的政策,本手稿的作者具有以下相互竞争的利益:D.A.S.是GlaxoSmithKline,InsideTracker(Segterra),Caudalie,Animal Biosciences,Frontier Acquisition Corporation,Cohbar,Galilei,Zymo,Immetas,EdenRoc Sciences以及包括MetroBiotech在内的附属公司的创始人,股权所有者,顾问,董事,顾问,顾问,投资者和/或发明人, Life Biosciences,ATAI Life Sciences,Levels Health,Althletic Greens,Longevity Sciences/Tally Health and Bold Capital。更多信息请见 https://sinclair.hms.harvard.edu/david-sinclairs-affiliations。
 
竞争利益: 我读过该期刊的政策,本手稿的作者有以下相互竞争的利益:D.A.S.是Revere Biosensors,UpRNA,GlaxoSmithKline,Wellomics,DaVinci Logic,InsideTracker(Segterra),Caudalie,Animal Biosciences,Longwood Fund,Catalio Capital Management,许可专利的创始人,股权所有者,顾问,董事,顾问,投资者和/或发明人。 Frontier Acquisition Corporation,AFAR(美国老龄化研究联合会),Life Extension Advocacy Foundation(LEAF),Cohbar,Galilei,EMD Millipore,Zymo Research,Immetas,Bayer Crop Science,EdenRoc Sciences(以及子公司Arc-Bio,Dovetail Genomics,Claret Bioscience,MetroBiotech,Astrea,Liberty Biosecurity和Delavie),Life Biosciences,Alterity,ATAI Life Sciences,Levels Health,Tally Health(又名Longificty Sciences)和Bold Capital。D.A.S.是Mayo Clinic和哈佛医学院提交的专利申请的发明人,该专利申请已授权给Elysium Health。更多信息请见 https://sinclair.hms.harvard.edu/david-sinclairs-affiliations。
 
介绍
表观遗传时钟允许预测和观察生物衰老[1]。通过分析DNA中特定位点的甲基化水平,可以准确预测生物体和组织的年龄[2]。这通常被称为表观遗传或DNA甲基化(DNAm)年龄。CpG位点是重复DNA碱基的区域,其中鸟嘌呤跟随胞嘧啶,胞嘧啶可以通过DNA甲基化和去甲基化进行修饰,以改变细胞中染色质和基因表达的结构[3]。表观遗传时钟现在可以预测多个物种和组织类型的年龄[4],甚至可以预测死亡率[5]。随着越来越多地使用DNA甲基化时钟来确定生物年龄并筛选减缓或逆转衰老的干预措施,对更强大,更准确的时钟的需求正在增长。
 
第一个表观遗传时钟由Bocklandt及其同事创建[1],并于2013年由Hannum和Horvath实验室紧随其后[2,6]。Hannum时钟基于人外周血单核细胞DNA的甲基化分析,是使用弹性网络回归建模开发的。从超过470,000个CpG位点中筛选出71个标记物,得出4年的年龄预测准确率[6]。Horvath的时钟包括多种组织类型,包括353个强烈预测年龄的CpG位点[2]。最近,该领域专注于创建CpG位点较少的时钟,以实现表观遗传年龄分析,而无需使用昂贵的微阵列或昂贵的还原代表性亚硫酸氢盐测序[7,8,9,10]。Alghanim等人的时钟建立在血液甲基化数据的基础上,仅使用来自3个基因区域的CpG位点来解释84-85%的年龄方差[11],而Weidner的时钟仅基于3个CpG位点,能够预测年龄,误差小于5年[12]。
 
很少有表观遗传时钟研究采用离散步骤来找到构建时钟的最佳特征。在机器学习中,特征选择通常用于特征数量远远超过样本数量的情况下[13]。鉴于基因组中CpG位点数量庞大,且大多数研究中样本数量相对较少,特征选择方法将提高时钟构建的效率。目前,时钟构建最常用的方法是使用“与年龄相关”方法,其中在 ElasticNet 回归分析中具有非零系数的 CpG 在模型中具有更强的预测能力 [2, 6]。GrimAge时钟使用高于0.35的Pearson相关系数选择GpG,以进行进一步的模型构建[5]。一些时钟利用更高级的特征选择方法,如Boruta [14],递归特征选择[12,15,16,17]或神经网络[9]来准确预测年龄,通常CpG站点很少。
 
使用功能选择方法以较少的 CpG 站点构建精确的时钟有几个优点。这些方法允许从许多可以使用现代技术测量的CpG站点中优化识别最具年龄预测性的站点。随着平台变得越来越复杂,测量的CpG数量增加到数百万,如果没有复杂的机器学习和特征选择方法,选择CpG位点和重要的基因组区域将变得越来越困难。将要素数量减少到个位数或低两位数站点的好处也提高了准确性。Macdonald-Dunlop及其同事表明,对于基于组学的老化时钟,那些具有较低模型复杂性(由较少的主成分构建)的老化时钟具有更高的准确性[18]。虽然较少的CpG站点可能会使孤独的几个特征更容易受到混杂效应的影响,但数百个CpG的时钟受到太多噪声的影响,而不是年龄预测的信号。这可以在单细胞背景下看到,其中表明,加入更多的CpG(超过最佳前0.5%)降低了CpG甲基化状态与单细胞年龄之间的相关性[19]。此外,鉴定一小组靶向CpG位点及其相关基因,允许在研究衰老机制或可能的治疗靶点时对这些位点进行生物学相关性的重点研究。最后,使用特征选择方法来构建低CpG时钟,还将降低用这些时钟测量表观遗传年龄的成本。少数CpG位点的甲基化状态可以用较便宜的靶向测序技术(如TIME-seq[20]和亚硫酸氢盐焦磷酸测序[12])来测量,而不是昂贵的Illumina微阵列(例如。Illumina MethylationEPIC和450k)[21]和还原代表性亚硫酸氢盐测序(RRBS)。
 
尽管使用特征选择构建的表观遗传时钟的数量正在增加,但存在优化特征选择方法的空间。在这里,我们开发了新的特征选择方法,以在公开可用的Hannum数据集(GSE40279)上构建具有少量CpG位点的精确表观遗传时钟,并评估它们在其他数据集上的准确性和推广性:GSE52588 [22],GSE137688 [23],GSE85311 [24]。我们使用以前没有应用于时钟特征选择的新适应的神经网络和遗传算法方法,标准方法的新型“链式”组合,并且我们开发了一种新的升级选择方法来优化表观遗传时钟的构建以预测年龄。
 
结果
在我们的研究中选择用于测试的特征选择方法包括升级的递归特征选择(RFE)方法,遗传算法,通过基准比较进行神经网络特征选择,Boruta,KBest和SFM方法,这些方法链接在一起以获得最佳性能。这些提供了尖端和常用特征选择方法的全面概述。RFE的新形式%-RFE的创建是为了降低计算能力,并提高基本RFE在生物数据集中常见的大型特征空间上的准确性。方法以及 S1 和 S2 表中概述了这些方法的优缺点,包括每种方法的详细信息以及使用的特定参数。
 
为了测试是否可以使用这些方法构建准确的低CpG时钟,我们将每种特征选择方法应用于Hannum甲基化数据集(GSE40279)。表1和图1总结了特征选择方法的结果,包括每种方法确定的CpG位点的数量,以及相关性(R2), 在测试集上有实际年龄。此数据集的年龄预测的最佳模型是 SelectKBest,用于 2000 个特征,其次是 Boruta。这种方法选择 35 个 CpG 位点,其 R20.873,中位数绝对误差为3.08年(表1)。
 
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 1. 比较方法和每个模型在 x 轴上使用的特征数,以及它们在 y 轴上的平均 R2 分数。
 
尽管预测所需的特征数量差异很大,但R2分数总体上相对相似。
 
https://doi.org/10.1371/journal.pcbi.1009938.g001
 
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 1. 特征选择方法(按相关分数的降序排列)。
 
由第一列中用括号括起来的每个方法选择的要素数。
 
https://doi.org/10.1371/journal.pcbi.1009938.t001
 
ElasticNet de novo(表 1 和图 1)表示一个模型,没有任何特征选择方法,无法与其他模型进行比较。此模型使用所有约 450,000 个特征来训练模型,而无需任何预选择或迭代算法。这种方法产生的时钟基于276 CpG,这比使用特征选择方法开发的时钟高出一个数量级(表1),并且r2得分低于五个特征选择模型(表1)。
 
我们所有新颖的更新%-RFE方法都运行良好,得分为0.81或更高(表1)。我们的几种组合“链式”方法也表现良好,特别是KBest 2000 de novo,然后是Boruta,它是得分最高的时钟(r2 = 0.87)和%-RFE de novo到1500,然后是Boruta,其r2为0.835。Boruta de novo和KBest 25 de novo得分非常好,没有应用先前的方法(分别为0.861和0.862)。这些是性能最佳的独奏特征选择方法。
 
我们的其他特征选择方法,包括大多数SelectFromModel(SFM)方法和遗传算法,实现了0.77至0.81之间的精度(表1)。尽管它们的方法存在根本差异,但这些方法在相同的分数范围内实现了相似的结果和平台(图1)。需要进一步优化这些方法中的每一种,以确保它们比其他更成功的方法使用。
 
使用所有方法中最常选择的五种CpG来构建时钟,导致相关得分为0.83,中位数绝对误差为3.79年(表1)。表2显示了这些CpG的相应GeneID。最常见的CpG站点是cg16867657(ELOVL2),在这个单个特征上训练时钟会导致相关评分为0.73(表1)。总体而言,这些结果表明,使用特征选择方法,只需几个CpG即可构建准确的表观遗传时钟。我们还提供了所有时钟型号中包含的所有 CpG 的表(S3 表)。这些位点及其相关基因可能是未来年龄相关研究的新标记或靶标。
 
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 2. 选择作为衰老及其相关基因符号的最常见预测因子的五个CpG位点。
https://doi.org/10.1371/journal.pcbi.1009938.t002
 
我们还测试了一种用于特征选择的神经网络方法。在神经网络选择的前 65 个特征上训练的 ElasticNet 回归模型具有中等 r2 值 0.76。有趣的是,在65个已识别的神经网络CpGs中,只有四个与此处描述的其他方法选择的CpG重叠。
 
我们选择了上面开发的两个模型,以进一步验证它们在独立数据集中的准确性。选择KBest 2000个功能,其次是Boruta,前5个最常见的功能分别是性能最佳的功能选择方法和CpGs站点数量最少的时钟。我们将这两个时钟模型应用于两个已发表的血液甲基化数据集。GSE85311包含不同运动水平的年轻人和老年人受试者血液的甲基化分析[24]。GSE52588包含对唐氏综合征患者和无唐氏综合征患者血液的甲基化分析[22]。在这些外部数据集中,每个时钟都很好地预测了年龄,R2值大于0.93(表3和图2)。
 
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 2. 该图显示了我们在两个外部验证数据集GSE85311和GSE52588上的两个最终模型的预测年龄与实际年龄。
 
(A-B)KBest 2000 de novo then Boruta (C-D) Top 5 最常見。
 
https://doi.org/10.1371/journal.pcbi.1009938.g002
 
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 3. 该表显示了在Hannum数据集(GSE40279)[6])上训练的两个最终模型的结果,这些模型在外部数据集上验证:Horvath唐氏综合症血液数据集(GSE52588)[22],Martens运动血液数据集(GSE85311)[24]和颊数据集(GSE137688)[23]。
 
括号中的 CpG 站点/功能的数量。
 
https://doi.org/10.1371/journal.pcbi.1009938.t003
 
我们还将前两个时钟的性能与之前发布的Horvath(表观遗传时钟领域的黄金标准基准模型之一,353 CpG)[2],Weidner(最低的已发表CpG时钟之一,3 CpG)[12]和Hannum(从与我们的时钟相同的数据集创建,71 CpG)[6]的先前发布的时钟进行了比较。这3个时钟被应用于与上述相同的数据集(GSE85311和GSE52588)以预测年龄。如图3所示,在预测这两个数据集的年龄时,我们的模型具有比所有这三个先前发表的时钟更高的年龄相关系数。
 
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 3. 该图显示了Horvath,Weidner和Hannum在两个外部验证数据集GSE85311和GSE52588上的公开可用模型/方程式的预测年龄与实际年龄。
 
(A-B)Horvath的模型(C-D)Weidner的模型(E-F)Hannum的模型。
 
https://doi.org/10.1371/journal.pcbi.1009938.g003
 
为了测试使用我们的特征选择方法开发的时钟是否可以应用于从其他组织类型获取的数据集,我们将两个选择的最佳模型应用于人类颊细胞数据集(GSE137688)[23]。使用这个数据集上的方法,我们获得了0.71的前r2分,其中SelectKBest为2000个特征,其次是Boruta方法,r2为0.47,前5个最常用的方法为0.47(表3)。预计得分低于前两个验证集的结果,因为时钟是在血液数据上训练的,并应用于具有固有采样和方差差异的口腔拭子数据。虽然r2分数没有那么高,但模型的均值和中位数绝对误差确实非常低;本文中所有结果中最低的。鉴于获取口腔样本的丰度和便利性,这为在血液以外的样本类型上应用特征选择方法提供了有希望的基本基础。
 
接下来,我们想测试用我们的方法选择的特征是否可用于在其他数据集中制作准确的时钟。我们使用前两个模型(2000年的SelectKBest,其次是Boruta和前5个最常见的CpG特征)从Hannum数据集中选择CpG,并在Horvath唐氏综合症数据集(GSE52588)中选择了相同的CpG[22]。仅使用这些CpG,我们从剩余的数据集创建了一个时钟,使用与上面原始Hannum实验相同的交叉验证方案(参见方法)。值得注意的是,基于35个特征(选择KBest为2000个特征,然后是Boruta)和5个特征(前5个最频繁的特征)开发的时钟分别获得了0.928和0.911的r2分数(表4),表明这些CpG可以在数据集中选择以创建准确的时钟,并且可能是预测年龄的通用CpG。
 
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 4. 从Horvath唐氏综合症血液数据集(GSE52588)[22]创建的两个模型的结果,使用相同的CpG从初始Hannum实验的两种特征选择方法中选择。
 
这些模型使用与初始Hannum实验相同的10CV方案进行了验证。括号中的 CpG 站点/功能的数量。
 
https://doi.org/10.1371/journal.pcbi.1009938.t004
 
讨论
总体而言,我们证明了特征选择方法可以选择高度预测年龄的CpG位点,从而允许构建高度准确的表观遗传时钟所需的较少特征。我们的两个最佳时钟在外部数据集上进行了验证,实际上优于以前发表的表观遗传时钟。然而,许多不同类型的特征选择方法,包括新颖的优化和组合方法,能够在使用少量CpG特征的同时获得约0.75-0.85的合理高相关分数。开发这些精确的低CpG时钟可以对这些位点进行重点研究,并以更便宜的价格测量表观遗传年龄。我们概述本文中大多数特征选择思想的基本代码是公开的,我们希望特征选择成为未来表观遗传时钟研究中的标准离散步骤。
 
当我们将两个最好的时钟应用于验证数据集时,它们都表现良好,特别是与Horvath,Hannum和Weidner的时钟相比[2,6,12]。与Hannum和Horvath的时钟相比,我们的方法的好处是更高的预测准确性和更少的CpGs,这意味着未来表观遗传年龄分析的成本更低。Weidner的时钟比我们最小的时钟少了两个CpG,但它在两个验证集上不能准确地预测年龄。有趣的是,Weidner及其同事在他们的时钟开发中使用了标准的RFE特征选择方法。
 
为了进一步验证我们的方法,我们还将两个最佳模型应用于不同样本类型的数据集;颊上皮细胞。尽管该数据集的 r2 分数仅为中等,但平均值和中位数绝对误差是我们观察到的最低值。这表明口腔/唾液甲基化样品的未来潜力很大,因为它们更容易获得并且更便宜。我们基于血液的时钟在颊细胞样本上的适度性能也凸显了为您希望测量的结果和样本提供适当训练的时钟的重要性。正如Liu及其同事所表明的那样,DNA甲基化是全局性的,但它并不均匀[25]。他们比较了11个已知表观遗传时钟的CpGs,发现它们的基因组位置几乎没有重叠[25]。由于DNA甲基化在各种来源和上下文中是异质的,因此拥有现成的工具(例如此处介绍的工具)非常重要,这些工具可以选择最能预测目标变量的最佳集合。
 
这里介绍的特征选择方法代表了该领域向前迈出的新步伐。首先,我们提出了两种算法(神经网络和遗传算法),它们是在不修改现有包的情况下设计和编写的。据我们所知,这是这些方法首次应用于衰老生物标志物的特征选择,它们在一般生物学中的应用充其量只是新生的。虽然神经网络不如其他特征选择方法准确,但它确实选择了许多我们的其他方法遗漏的CpG特征。我们得出结论,这是一个有前途的预测工具,可以发现大多数传统方法错过的更晦涩的CpG。此外,与RFE和Boruta等其他方法不同,神经网络选择方法具有更多的参数,可以在不同的上下文中进行优化,包括节点数,成本函数,激活函数和隐藏层数,而且还将目标CpG位点的甲基化(参见方法)设置为一系列值,而不仅仅是0和1, 并根据给定甲基化阈值的分数波动对特征的重要性进行排名。随着甲基化数据集的样本量越来越大,更复杂的神经网络模型被开发出来,它们的性能只会提高。遗传算法最初是为模型或参数选择而创建的,但近年来已成为计算机科学中最先进的特征选择方法之一[26]。我们的遗传算法在选择预测年龄的特征方面表现良好,旨在为用户提供多种选项,用于在不同阶段进行参数调整,例如选择要填充的模型或“生物”数量,突变率,交配习惯等(请参阅方法了解更多详情)。遗传算法中参数优化的途径确实非常广泛,我们只展示了遗传算法在预测年龄方面跟上旧已建立的特征选择方法的能力。然而,结合其超特定参数调整的巨大潜力,它有望在未来超越它们。
 
除了神经网络和遗传算法外,我们还介绍了标准特征选择库的新颖改编。其中包括对传统RFE的升级,使sklearn库能够更有效地运行并产生更好的结果,以及将不同的特征选择方法“链接”在一起,以弥补彼此的弱点,以产生更全面的特征选择管道。后者产生了我们性能最佳的模型(SelectKBest方法减少到2000个特征,然后是Boruta),证明链接这些方法可以产生新颖和优越的特征选择方法。我们对RFE方法的修改虽然很小,但在大型数据集中进行特征选择时非常重要,也许是必要的。虽然库存 RFE 包只能删除用户设置的特征数量,而不管它与当前特征空间大小的关系如何,但我们新颖的 %-RFE 删除了目标数量的特征,这些特征会随着算法的每次迭代而动态扩展。这使得算法的计算密集程度较低,但也可能产生更好的结果(表 1)。Boruta也存在类似的计算问题,因为它基本上将数据集加倍(请参阅方法)以创建用于特征选择的阴影特征。决策树和随机森林也是其主要的模型架构,与回归模型相比,模型的训练时间要长得多。为了完全完成库存 Boruta 特征选择运行,必须使用减少树的数量来减少运行时(S1 表),但是这种较少数量的树会影响训练容量。在这里,我们将%-RFE或其他特征选择方法与Boruta结合使用,首先降低维度并大幅提高其性能。在这项研究之前,RFE和Boruta已被用于表观遗传时钟的创建[12,14,15,16,17],但是这些方法的新颖组合一起允许用户在甲基化数据的背景下充分利用这些模型,其中特征的数量远远超过样品。本研究验证了几种特征选择方法相互配合的概念,以克服计算问题并仍然获得有竞争力的结果。
 
在这项研究中,我们确定了五种特别感兴趣的CpG及其相应的基因,因为它们在我们的研究中所有特征选择方法中都是最常见的(表3)。其中四个CpG位点,特别是ELOVL2,以前已被确定为年龄的强预测因子。ELOVL2,C1orf132,FHL2和CCDC102B包含在圣地亚哥德孔波斯特拉大学的在线七个CpG站点表观遗传时钟中[27]。Zbieć-Piekarska等人仅使用ELOVL2的CpG位点(cg16867657)构建了一个线性回归模型来预测年龄[28],并在人类血液样本中获得了高度的准确性。通过操纵ELOVL2的表达并观察小鼠眼睛中与年龄相关的变化,Chen等人认为该基因是视网膜中衰老的分子调节剂。Spólnicka及其同事使用ELOVL2准确检测3个疾病组的年龄差异[9],并强调C1orf132和FHL2是CpG位点用于表观遗传时钟的关键基因。CCDC102B还与衰老和年龄相关性退行性疾病有关[29,30]。Ito及其同事仅使用与CCDC102B和ELOVL2相关的CpG位点开发了一个时钟[7],并且可以预测r2为0.75的年龄。此外,Fleckhaus等人的研究使用8个目标区域开发了一个时钟,其中4个是ELOVL2,FHL2,CCDC102B和C1orf132 [31]。这些论文表明,我们的特征选择方法能够选择最具年龄预测性的CpG位点,这与其他研究一致。OTUD7A是我们用方法鉴定的第五个目的基因,也是记录最少的基因。一项研究发现,与OTUD7A相关的高甲基化CpG位点与年龄相关[32],Yin等人将其确定为神经发育障碍的潜在调节因子[33]。OTUD7A在衰老中的作用(如果有的话)尚不清楚,应该进一步探索。此外,我们的神经网络分析鉴定出的61个CpG位点与我们或Hannum模型在原始Hannum数据集中选择的其他时钟位点没有重叠,并且可能提供新的生物学重要靶点。我们希望这些特征选择方法在其他研究中的应用,以及我们小组和其他人在更多数据集中的应用,将能够在未来鉴定出更多与年龄相关的新基因。
 
未来,这些方法可应用于开发表观遗传时钟的一系列研究,包括跨新组织类型(如颊/唾液样本),或通过检查本体甲基化和单细胞数据集之间相互重叠的有限CpG亚群[19]。针对特定CpG区域的并行化,高度降低成本的方法,如TIME-seq [20],将大大降低进入表观遗传时钟分析的成本门槛。由于Illumina阵列每个样品的成本为数百美元,因此我们的特征选择方法(发现少量的重要CpG)和更便宜的测序方法的组合将被证明是一个强大的组合。最后,这些方法不限于CpG位点作为特征的鉴定,并且该管道可用于鉴定从一系列数据集(例如代谢组学,微生物组,转录组学,蛋白质组学,临床数据)开发的生物标志物或时钟的特征,并预测各种年龄和健康结果。鉴于-omics数据集的巨大特征空间,通过惩罚回归创建准确的模型通常并不困难,但是找到正确的特征进行进一步研究以推断生物学理解则更加困难。近年来,特征选择已成为新型生物标志物发现的流行方法[34,35,36,37,38,39],本文应用新型特征选择方法可以加速生物标志物在许多领域的发现。
 
方法
数据
本研究的数据集来自基因表达综合数据库,加入代码为GSE40279、GSE85311、GSE52588和GSE137688 [6,22,23,24]。这些数据集是从原始甲基化数据中预处理的,并由其各自的作者和研究提供。为了确保我们的模型和公开可用的模型在验证过程中得到公平的比较,我们删除了所有时钟和数据集中缺少甲基化数据的CpG位点。我们测试特征选择方法的主要数据集GSE40279包含656个全血人类甲基化水平的样本(实例),在473,035个CpG位点(特征)中,与实际年龄相匹配。所有分析都是在Python 3中完成的。所有概述我们方法的相关代码都可以在github上找到(https://github.com/adamyli/CLK-MKR)。
 
交叉验证和整体方法
图 4 概述了主要的工作流程方法。原始数据集被拆分为 10 个折叠以进行交叉验证 (CV)。对于每组训练折叠,执行每个不同的特征选择方法来选择该训练数据中的最佳特征。对于每次CV迭代,还会记录每个特征选择方法的交集,并对相交的特征执行Boruta。对于每种特征选择方法,将 10 次迭代中每个迭代中的唯一特征收集到聚合列表中,并输入到最终结果数据帧中。此数据帧包含每个选择方法在 10 次迭代中每个迭代中选择的每个唯一要素。
 
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 4. 特征选择和模型评估的工作流。
 
对 10 倍交叉验证的每次迭代的训练数据执行特征选择。每次迭代的选定特征将聚合到每个特征选择方法类型的列表中。将每种方法的唯一所选要素收集到数据帧中,并在其中执行交叉点等后选过程。我们将结果添加到数据帧中。结果数据帧中的每列选定要素(每列表示不同的要素选择方法)都使用对原始数据的另一个定型-测试拆分进行测试。对于 10-CV,这是 10 次,所有分数的平均值是该特征选择方法的性能估计。
 
https://doi.org/10.1371/journal.pcbi.1009938.g004
 
然后执行特征后选择过程。其中包括所有选择方法的结果之间的交集,以及在所有结果中排名前5位和10位最常见的特征。这两个要素后选择过程的结果也已添加到结果数据帧中。原始数据集再次拆分为 10 个折叠,对于结果数据帧的每一列(表示每种方法的唯一所选要素),我们将数据集缩减为所选要素。我们使用训练数据 (80%) 针对实际年龄训练 ElasticNet 回归模型,并使用 r2 评分指标在测试数据 (20%) 上评估模型。对于每列,10 个 r2 分数的平均值是该特征选择方法的性能估计值。
 
性能最佳的模型是从SelectKBest方法到2000个特征的时钟,然后是Boruta,从而产生35个选定的特征。第二个感兴趣的模型使用前 5 个最常选择的 CpG。这两个模型使用两个外部血液甲基化数据集进行验证;(GSE52588)和(GSE85311)及其性能与Hannum模型对这两个数据集的预测进行了比较。这两个模型中的特征还用于从GSE52588数据集构建模型,并使用与Hannum数据集相同的10倍CV预测年龄,以调查这些所选特征是否在数据集中有效。
 
这两种模型也应用于从颊细胞(GSE137688)中提取的甲基化数据集,以查看性能是否可以在传统上更便宜的样品中复制[23]。
 
特征选择方法
选择从模型 (SFM)。
SFM是skLearn [40]中的一个函数,它环绕并训练数据集上的模型,并允许用户指定特征重要性的阈值。根据模型是标准回归模型还是随机森林模型,分别根据系数或平均重要性计算要素重要性。特征重要性低于此阈值的特征(CpG 站点)将被丢弃,仅保留系数或重要性最高的特征。此方法快速但简单。测试阈值 0.01、0.05、0.1、0.5,因为超过此点的阈值为每个输入数据集生成 0 个要素,并且每个阈值之间的更精细间隔对所选要素数量的变化最小。在本研究中,SFM 环绕的模型是 ElasticNet Regression 和 ExtraTrees 林。
 
ExtraTrees 回归估计器由许多决策树组成。决策树可以被认为是一个直观的流程图,其中2个或更多选择之间的一个决策的答案导致另一个。决策树通过确定拆分的优先级来决定如何拆分,该拆分创建标签或值的分布最不均匀。节点的这种分支一直持续到它到达一个无法决定使用哪个拆分的节点,因为它们会导致同样均匀的分布 - 这意味着任何更多的分支都不会帮助树做出更好的决策。从这个意义上说,ExtraTrees类似于更流行的随机森林,但有一些明显的区别。Random Forest 使用替换对训练数据进行采样以训练其决策树,而ExtraTrees 使用整个原始数据集。然而,ExtraTrees随机选择拆分,而不是以最佳方式找到本地拆分,这就是随机森林所做的。因此,ExtraTrees在优化方面不那么详尽,并且比随机森林更快。这对于我们来说是理想的,因为随机森林中有5-8棵树,可能需要几个小时才能在像我们这样大的数据集上进行训练。随机森林通过获取数据集的随机实例并仅从这些样本中训练其模型来利用称为装袋的优势。对于像我们这样的回归问题,所有树的平均值都被视为最终预测。
 
递归特征消除 (RFE) 和 %-RFE 的引入。
RFE是一个函数,它根据数据集训练模型,并根据数据集中最低的特征重要性删除最弱的特征[40]。使用模型再次训练此 N-1 特征的新数据集,并重复该过程,直到只剩下用户指定数量的特征。通过每次删除 1 个功能,RFE 是一种蛮力算法,在每次迭代中只留下性能最佳的功能。然而,它没有同时考虑所有特征,并且在预测年龄时无法意识到CpG之间的关系,例如,一些CpG可能成为存在或不存在另一个CpG的强预测因子。
 
由于数据集的大小,将库存 RFE 算法应用于包含 473,035 个特征的数据集在计算上是有限的(S1 表)。相反,我们编写了一种新颖的算法,该算法在每次迭代时都会删除基于百分比的特征数量,从而使我们能够在开始时积极地删除大多数不必要的特征,但在接近结束时,我们对选择更加细致。选择的百分比为 1%,即在 473,035 处删除 4730 个要素,在 100 处删除 1 个要素。根据我们的用例,我们使用 %-RFE 低至 100、1500 和 10,000 个功能。这种变化使我们能够将不同数量的特征输入到计算更密集但质量更高的特征选择方法中。
 
博鲁塔。
RFE是一种“最小最优”特征选择方法,这意味着它尝试选择估计器误差最小的最小特征集,旨在优化此比率。Boruta的不同之处在于一种“所有相关”的特征选择方法,仅与基于树的回归方法兼容,例如随机森林[41]。它不是试图找到最紧凑的特征集来预测,而是考虑所有可能有助于预测的特征,以克服RFE贪婪本质的弱点。Boruta 使用称为“阴影特征”的随机值创建现有特征的副本。包含原始和阴影的数据集在树估计器上进行训练,阴影特征与其原始形式竞争。始终击败影子对应物的特征将被选为信誉良好的预测因子。为了处理训练具有超过470,000个特征的随机森林所需的计算能力,我们只使用了7-8棵树和100次迭代,当对所有〜470,000个特征使用Boruta de novo时。当稍后将Boruta与其他功能选择一起使用时(在应用更快的方法之后),可以使用默认数量的树和迭代。
 
选择KBest。
SelectKBest是sklearn中的一种特征选择方法,类似于SFM,它适合数据集并根据评分指标选择特征[40]。对于每个要素,它计算要素和目标标签之间的相关值并对其进行排名。这种方法速度很快,因为它只有训练一次的浅层性质,所以单独使用时没有用。但是,减少使用更贪婪的算法(如Boruta)的特征总数是有帮助的。在我们的方法中,我们使用SelectKBest选择前25个功能和前2000个功能。我们在2000年顶级功能上执行Boruta。
 
方差阈值。
方差阈值是一种简单且具有探索性的方法,可移除值列未达到方差阈值的所有特征 [40]。由于某些数据集在其记录的数据中自然可能没有很高的方差,因此此方法不一致。但是,由于它的执行是所有方法(S1 表)中最快的,因此它作为添加的方法包含在内。
 
神经网络 (NN) 特征选择。
基本的神经网络是使用PyTorch构建的,以选择CpG站点为特色,因为已知神经网络可以捕获数据点之间的非线性关系。我们有兴趣了解其他线性回归模型可能遗漏的老化的良好预测因子,并为将来使用NN选择特征奠定基础。作为概念验证,我们使用 %-RFE 将功能部件数量从 473,035 个减少到 100 个。NN 首先使用所有 100 个原始特征,并训练模型一次,其分数被记录为基准。在此之后,对于100个特征中的每一个,NN然后被训练两次;一次是该特征的所有甲基化水平等于1,一次是它们都等于0,以模拟CpG完全甲基化并且也不存在。两者都是为了解释原始甲基化值接近0或1的情况。将两个结果分数的平均值与基准进行比较,并为每个CpG站点记录差异。CpG站点按差异进行排名,以建立特征重要性的概念,并假设CpG的存在与不存在之间的差异越大,就会暗示CpG对年龄预测的影响更大。前 50–75 个要素将记录为所选要素。
 
遗传算法。
一种基于达尔文主义进化本质的算法,其中“生物”种群随机分配来自原始数据集的所需数量的特征。这些生物通过预测验证集进行评估,并分配分数或“适应性”。得分最低的生物接下来被剔除,模拟适者生存。其余的生物是通过创建一个具有来自其共享“基因库”特征的儿童生物并随机选择新数量的生物来繁殖的。这些“基因”中有一定数量的机会发生突变。这意味着某些要素将被随机交换为与原始数据集不同的要素。这有助于引入变化。此过程重复指定的代数,或直到满足所需的适合度。
 
遗传算法功能强大,因为它允许用户根据用户的创造力进行许多优化点。例如,世代数量,特征和生物的数量都是可以找到完美平衡的相关变量。当涉及到育种过程时,可以实现“一夫多妻制”方面,允许非常成功的生物多次繁殖,以确保最具预测性的特征在其他组合中传递和进一步测试。突变率,允许突变的基因数量以及每个品种产生的子数(有可能根据父母的适应性增加产生的子数)。遗传算法并行运行也很常见,预测标签的子集,例如,针对年轻样本的算法和针对旧样本的算法。对于我们的模型,我们为每个“生物”模型使用了50个特征,并在我们的人口中使用了3000个生物。在每个纪元之后,我们剔除了50%的人口,并在随机机会中变异了30%的特征。选择这些参数是为了确保种群的快速“进化”,通过每次剔除一半来加快选择时间。突变率保持随机,但当它发生时,我们确保很大一部分特征被改变,这样我们就可以继续引入变异。
 
结合多种特征选择方法的新方法
%-RFE的引入使我们能够合成新的特征选择方法。%-RFE允许将“绒毛”去除到更易于管理的特征数量(通常为几千个),并允许使用更强大的方法,如Boruta,神经网络和RFECV。这些方法需要更多的迭代和计算能力,因此能够提炼到最重要的一千个特征以供选择是理想的。合成的方法包括%-RFE首先选择适合下一种方法的特征量。SFM也以这种方式用作初步选择方法。最终合成的方法由模块化代码函数组成,这些函数允许我们交替选择方法的使用顺序,并让我们将它们组合在一起,并使用一种方法的输出作为另一种方法的输入。
 
时钟型号
表观遗传时钟是使用 ElasticNetRegression 模型构建的。选择 ElasticNet 是因为它是表观遗传时钟的当前标准,并且在这些数据和特征选择方法方面优于随机森林和 SVM。
 
此模型是经典线性回归的变体。这旨在求解等于“最佳拟合线”的线性方程的系数。最佳拟合线通过数据点和线之间的距离最小来最小化平方和。普通线性回归的方程如下: 其中 y_a 是目标标签的实际值,预测y_p通过预测变量 'x' 的总和乘以系数β_n向量(通过拟合模型 b.is y 截距找到)来计算得出。argmin表示一个成本函数,我们寻求最小化给定输入参数的答案。
 
 
 
正则化是一个过程,其中引入了偏差和惩罚的不同变体,以帮助找到该方程的解,从而实现最佳预测准确性。这些惩罚由λ值(sklearn中的alpha)控制,该值控制该惩罚的重量(大)。L1 惩罚称为套索回归,它添加的偏差是系数的绝对值。L2 惩罚称为 Ridge 回归,这会添加一个偏差,该偏差是系数的平方值。与岭回归不同,套索回归可以将不需要的参数(特征)的系数缩小到0(由于惩罚项未平方),基本上消除了它们,只留下有用的特征。然而,套索可能非常激进,从几个相关的特征中只取一个特征,或者选择太少。这就是 ElasticNet 的用武之地。ElasticNet 方程的一般形式是:其中 L1 是回归方程中 “Lasso” 部分的正则化惩罚,L2 是 “Ridge” 部分的惩罚 [42]。ElasticNet 结合了 Lasso 和 Ridge 回归,将这两个项添加到方程中。每个惩罚都会获得一个独立的alpha / lambda,该alpha / lambda通过交叉验证或其他方法进行调整。此方法允许两全其美,具体取决于功能。
 
 
支持信息
对穷举特征选择方法的计算运行时进行初始测试的结果。
 
显示 1/3: pcbi.1009938.s001.docx
 
跳转到无花果共享导航
壮举,选择方法时间笔记SFM(迭代评分)∼10 分钟很少或没有功能选择SFM(减少到 7 个功能)∼4 小时很少或没有功能选择RFE ElasticNet∼24小时(否)完成)∼10,000 次迭代前终止RFE 随机森林∼4小时(未完成)26 次迭代前终止博鲁塔(100次迭代/“自动”估计器)∼25小时(否)完成)已完成 0 次迭代博鲁塔(100次迭代/100次)估计器)∼7小时(未完成)已完成 1 次迭代博鲁塔(100 次迭代/50 次估算器)∼3小时(未完成)已完成 1 次迭代博鲁塔(100 次迭代/25 次估算器)∼10小时(否)完成)已完成 1 次迭代博鲁塔(100 次迭代/10 次估算器)∼4小时(未完成)已完成 4 次迭代Boruta (100 次迭代/7 次估算器)∼4 小时28 已选择的功能博鲁塔(100 次迭代/5 次估算器)∼3 小时12 已选择的功能博鲁塔(100 次迭代/2 次估算器)∼1 小时5 选择的功能博鲁塔(2次迭代/2次估算器)∼9 分钟0 已选择的功能S1 表。对穷举特征的计算运行时进行初始测试的结果选择方法
1 / 3
 
 
下载
无花果份额
S1 表。 对穷举特征选择方法的计算运行时进行初始测试的结果。
https://doi.org/10.1371/journal.pcbi.1009938.s001
 
(DOCX)
 
S2 表。 概述不同特征选择方法之间的优缺点。
https://doi.org/10.1371/journal.pcbi.1009938.s002
 
(DOCX)
 
S3 表。 CpG和相关基因(如果可用)用于使用不同特征选择方法开发的所有时钟。
https://doi.org/10.1371/journal.pcbi.1009938.s003
 
(断续器)
 
引用
1.Bocklandt S, Lin W, Sehl ME, Sanchez FJ, Sinsheimer JS, Horvath S, et al.年龄的表观遗传预测因子。PLoS One.2011;6(6):e14821.pmid:21731603
查看文章PubMed/NCBI谷歌学术搜索
2.Horvath S 人体组织和细胞类型的 DNA 甲基化年龄。基因组生物学。2013;14(10):R115 pmid:24138928
查看文章PubMed/NCBI谷歌学术搜索
3.Moore L, Le T, Fan G. DNA甲基化及其基本功能.神经精神药理学。2013;38(1), 23–38.pmid:22781841
查看文章PubMed/NCBI谷歌学术搜索
4.Thompson M, Chwiałkowska K, Rubbi L, Lusis A, Davis R, Srivastava A, et al.小鼠的多组织全寿命表观遗传时钟。老化。2018;10(10), 2832–2854.pmid:30348905
查看文章PubMed/NCBI谷歌学术搜索
5.Lu A, Quach A, Wilson J, Reiner A, Aviv A, Raj K, et al. DNA甲基化 GrimAge強烈預測壽命和健康週期。老化。2019;11(2), 303–327.pmid:30669119
查看文章PubMed/NCBI谷歌学术搜索
6.Hannum G, Guinney J, Zhao L, Zhang L, Hughes G, Sadda S, et al. 全基因组甲基化图谱揭示了人类衰老速率的定量观点。分子细胞。2013;49(2), 359–367.pmid:23177740
查看文章PubMed/NCBI谷歌学术搜索
7.Ito H,Udono T,Hirata S,Inoue-Murayama M.基于DNA甲基化的黑猩猩年龄估计。科学报告。2018;8(1). pmid:29968770
查看文章PubMed/NCBI谷歌学术搜索
8.Park JL, Kim JH, Seo E, Bae DH, Kim SY, Lee HC, et al.鉴定和评估年龄相关的DNA甲基化标记物,用于法医使用。法医科学国际吉内特。2016;23:64–70.pmid:27017110
查看文章PubMed/NCBI谷歌学术搜索
9.Spólnicka M, Pośpiech E, Pepłońska B, Zbieć-Piekarska R, Makowska Ż, Pięta A, et al. ELOVL2和C1orf132中的DNA甲基化正确预测了来自三个疾病组的个体的实际年龄。国际法律医学杂志。2017;132(1), 1–11.pmid:28725932
查看文章PubMed/NCBI谷歌学术搜索
10.Zbieć-Piekarska R, Spólnicka M, Kupiec T, Makowska Ż, Spas A, Parys-Proszek A, et al.检查ELOVL2标记物的DNA甲基化状态可能有助于法医学中的人类年龄预测。国际法医学: 遗传学, 2014;14, 2014 161–167.pmid:25450787
查看文章PubMed/NCBI谷歌学术搜索
11.Alghanim H,Antunes J,Silva D,Alho C,Balamurugan K,McCord B.检测和评估在SCGN和KLF14位点发现的DNA甲基化标记以估计人类年龄。国际法医学: 遗传学, 2017;31, 81–88.pmid:28854399
查看文章PubMed/NCBI谷歌学术搜索
12.Weidner CI, Lin W, Koch CM, Eisele L, Beier F, Ziegler P, et al.血液的衰老可以通过三个CpG位点的DNA甲基化变化来跟踪,即基因组生物学。2014;15(2), R24.pmid:24490752
查看文章PubMed/NCBI谷歌学术搜索
13.Guyon I, Elisseeff A, An Introduction to Variable and Feature Selection:, Journal of Machine Learning Research 3 2003;1157–1182
查看文章谷歌学术搜索
14.Renner M, Wolf T, Meyer H, Hartmann W, Penzel R, Ulrich A, et al.高级软组织肉瘤中整合DNA甲基化和基因表达分析。基因组生物学。2013;14(12), r137.
查看文章谷歌学术搜索
15.Darst B, Malecki K, Engelman C. 在随机森林中使用递归特征消除来解释高维数据中的相关变量。BMC Genetics.2018;19(增刊1).
查看文章谷歌学术搜索
16.从高通量DNA甲基化图谱中鉴定CpG位点的一个小最佳子集作为生物标记物。BMC生物信息学。2008;9(1), 457.pmid:18954440
查看文章PubMed/NCBI谷歌学术搜索
17.王勇, 邓华, 辛巍, 张坤, 史瑞, 包旭. 三种DNA甲基化特征在肺腺癌中的预后及预测价值.前热内特。2019;10, 349.pmid:31105737
查看文章PubMed/NCBI谷歌学术搜索
18.麦克唐纳-邓禄普 E, 塔巴 N, 克拉里奇 L, 弗尔卡托维奇 A, 沃克 R, 海沃德 C 等人.组学生物老化时钟目录揭示了与疾病风险的大量共性和相关性。老化。2022;14(2), 623–659.pmid:35073279
查看文章PubMed/NCBI谷歌学术搜索
19.Trapp A,Kerepesi C,Gladyshev VN分析单细胞的表观遗传年龄,自然衰老。2021;1–13.
查看文章谷歌学术搜索
20.Griffin PT, Kane AE, Trapp A, Li J, McNamara MS, Meer MV, et al.使用TIME-Seq进行超便宜且可扩展的表观遗传年龄预测,bioRxiv:10.1101 / 2021.10.25.465725 [预印本]。2021年[引自2022年7月20日]。可用日期: https://www.biorxiv.org/content/
查看文章谷歌学术搜索
21.比比科娃 M, 勒 J, 巴恩斯 B, 赛迪尼亚-梅尔尼克 S, 周磊, 沈 R 等.使用Infinium测定的全基因组DNA甲基化分析。表观基因组学。2009;1(1), 177–200.pmid:22122642
查看文章PubMed/NCBI谷歌学术搜索
22.Horvath S, Garagnani P, Bacalini M, Pirazzini C, Salvioli S, Gentilini D, et al.唐氏综合症中表观遗传性衰老加速。老化细胞。2015;14(3), 491–495.pmid:25678027
查看文章PubMed/NCBI谷歌学术搜索
23.McEwen L O'Donnell K, McGill M, Edgar R, M, MacIsaac J, et al.PedBE时钟准确估计了儿童颊细胞的DNA甲基化年龄。美国国家科学院院刊.2019;117(38), 23329–23335.pmid:31611402
查看文章PubMed/NCBI谷歌学术搜索
24.Martens CR, Lubieniecki KL, McNamara MN, Bohr AD, McQueen MB, Seals DR. GSE85311 随着衰老和运动的表观遗传模式与人类健康寿命指标相关;2020年[引自2022年7月20日]。数据库:基因表达综合[互联网]。可从: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE85311
查看文章谷歌学术搜索
25.刘Z, 梁东, 画眉K, 赵伟, 拉特利夫 S, 田中 T 等.表观遗传衰老时钟在体内和体外的潜在特征。老化细胞。2020;19(10).pmid:32930491
查看文章PubMed/NCBI谷歌学术搜索
26.Katoch S,Chauhan S和Kumar V。遗传算法综述:过去、现在和未来。多媒体工具和应用程序。2020;80(5), 8091–8126.pmid:33162782
查看文章PubMed/NCBI谷歌学术搜索
27.Mathgene.usc.es. DNA甲基化的年龄预测:血液,7 CpG,EpiTYPER。2021. [在线].可从以下日期获得: http://mathgene.usc.es/cgi-bin/snps/age_tools/processmethylation-first.cgi.
查看文章谷歌学术搜索
28.Zbieć-Piekarska R, Spólnicka M, Kupiec T, Parys-Proszek A, Makowska Ż, Pałeczka A, et al.开发一种基于DNA甲基化分析的法医上有用的年龄预测方法。国际法医学:遗传学。2015;17, 173–179.pmid:26026729
查看文章PubMed/NCBI谷歌学术搜索
29.Hosoda Y, Yoshikawa M, Miyake M, Tabara Y, Shimada N, Zhao W, et al. CCDC102B在高度近视中具有低视力和失明的风险。自然通讯。2018;9(1).pmid:29725004
查看文章PubMed/NCBI谷歌学术搜索
30.[10] Xia Y, 黄N, 陈志, 李峰, 范国, 马东, 等. CCDC102B在中心体连接子组装和中心体内聚中的作用.细胞科学杂志。2018:131(23), p.jcs222901.pmid:30404835
查看文章PubMed/NCBI谷歌学术搜索
31.Fleckhaus J,Schneider P.基于DNA甲基化的年龄预测的新型多重策略,通过焦磷酸测序从少量DNA进行年龄预测。国际法医学:遗传学。2020;44, 102189.pmid:31648151
查看文章PubMed/NCBI谷歌学术搜索
32.Tharakan R,Ubaida-Mohien C,Moore A,Hernandez D,Tanaka T,Ferrucci L,Blood DNA甲基化和衰老:InCHIANTI研究中的横截面分析和纵向验证。老年学杂志:A辑2020;75(11),2051-2055。pmid:32147700
查看文章PubMed/NCBI谷歌学术搜索
33.Yin J, Chen W, Chao E, Soriano S, Wang L, Wang W, et al. Otud7a敲除小鼠概括了15q13.3微缺失综合征的许多神经学特征。美国人类遗传学杂志。2018;102(2), 296–308.pmid:29395075
查看文章PubMed/NCBI谷歌学术搜索
34.Källberg D,Vidman L和Rydén P,高维RNA测序数据聚类中特征选择方法的比较,以鉴定癌症亚型。遗传学前沿。2021;12. pmid:33719342
查看文章PubMed/NCBI谷歌学术搜索
35.Leclercq M, Vittrant B, Martin-Magniette M, Scott Boyer M, Perin O, Bergeron A et al. 用于高维OMICs数据中生物标志物发现的大规模自动特征选择。遗传学前沿。2019;10. pmid:31156708
查看文章PubMed/NCBI谷歌学术搜索
36.Maurya N,Kushwaha S,Chawade A和Mani A,通过结合机器学习和统计R分析的转录组分析将TMEM236确定为结直肠癌的潜在新型诊断生物标志物。科学报告。2021;11(1).
查看文章谷歌学术搜索
37.Shahrjooihaghighi A,Hichem F,Xiang Z,Xiaoli W,Biyun S和Ameni T。一种用于生物标志物发现的集成特征选择方法.Proc IEEE Int Symp Signal Proc Inf Tech. 2017;416–421.pmid:30887013
查看文章PubMed/NCBI谷歌学术搜索
38.Shi Z,Wen B,Gao Q和Zhang B,从蛋白质组学或多组学数据中发现蛋白质生物标志物的特征选择方法。分子和细胞蛋白质组学。2021;20, 100083.pmid:33887487
查看文章PubMed/NCBI谷歌学术搜索
39.赵S,宝Z,赵X,徐M,李M和杨Z,使用机器学习方法鉴定重度抑郁症的诊断标志物。神经科学前沿。2021;15. pmid:34220416
查看文章PubMed/NCBI谷歌学术搜索
40.Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al., Scikit-learn: Machine Learning in Python, JMLR 2011;12, 2825–2830.
查看文章谷歌学术搜索
41.Kursa MB,Rudnicki WR功能选择与Boruta包。统计软件学报, 2010;36(11), 1–13
查看文章谷歌学术搜索
42.Zou H,Hastie T,通过弹性网进行正则化和变量选择。皇家统计学会杂志:B辑统计方法。2005;67(2), 301–320.
查看文章谷歌学术搜索
 
上一篇:抗毒素Na,K-ATP酶进化的限制对序列分化具有有限的依赖性

下一篇:美国能源部OSTI庆祝推进科学进步75周年
咨询方式

 ---->>学术源论文咨询发表网
 ---->>咨询QQ:854727998 
 ---->>电话:
   
13889158687(微信同号)

 ---->>邮箱:lunwen133@163.com
投稿写明所投期刊,3日内回复.五日未回复可电话咨询。

工作时间:8:00-17:00   周六值班、周日休息,国家法定假日休息

学术焦点 更多>>

《健康必读》省级医学月刊 当月发
《医药前沿》国家级医学月刊 ISS
《中国健康月刊》国家医学月刊-是
《才智》省级教育类月刊-CN22-13
《商情教育经济研究》省级教育类月
《考试周刊》省级教育类月刊/国内
《科教导刊》省级教育类旬刊 ISS
《文艺生活》省级教育类月刊 ISS
学术推荐 更多>>

《中小学电教

     《中小学电教》:省教育厅主管,省电教馆主办。国内统一刊号:C

《文艺生活》

     《文艺生活》杂志是经中华人民共和国新闻出版总署批准,由湖南省

《黑龙江科技

     《黑龙江科技信息》杂志是经国家科技部和国家新闻出版总署批准在
首页   -   关于我们   -   联系我们   -   发表流程   -   网站声明   -   在线投稿   -   友情链接

咨询电话 13889158687(微信同号)  QQ咨询:854727998


投稿邮箱:lunwen133@163.com
学术源论文发表咨询网 www.xueshuyuang.com  备案号:
闽ICP备2021001903号-2
版权所有  学术源论文发表咨询网