厦门免费医学论文发表-细胞谱系树重建的概率框架
哈扎尔·科普塔杰尔,Seong-Hwan Jun,乔安娜·哈德,延斯·拉格格伦
出版日期: 2024年05月09日
抽象
细胞谱系树重建方法被开发用于各种任务,例如研究发育、分化和癌症进展。单细胞测序技术能够以更高的分辨率进行更彻底的分析。我们提出了Scuphr,这是一种基于距离的细胞谱系树重建方法,使用来自健康组织的批量和单细胞DNA测序数据。单细胞 DNA 测序的常见挑战,如等位基因脱落和扩增错误,都包含在 Scophr 中。Scuphr 计算细胞对之间的距离,并使用邻居连接算法重建谱系树。凭借其令人尴尬的并行设计,Scuphr 可以比最先进的方法更快地进行分析,同时获得更高的准确性。使用各种合成数据集和 18 个细胞的生物数据集研究了该方法的稳健性。
作者摘要
细胞谱系树重建在开发和医学研究方面具有巨大的潜力。由于突变的稀缺性,谱系树重建任务对于从健康组织中提取的细胞尤其具有挑战性。此外,单细胞全基因组测序技术还引入了扩增错误、等位基因缺失和测序错误等伪影。我们提出了Scuphr,一个重建细胞谱系树的概率框架。我们设计了用于单细胞DNA测序数据的Scuphr;它在其图形模型中考虑了技术伪影,并使用种系杂合位点来提高其准确性。Scuphr 令人尴尬地平行;计算分析的速度与可用计算节点的数量成反比。我们证明了 Scuphr 比合成数据实验的最先进的方法快速、稳健且更准确。此外,在生物数据实验中,我们发现Scuphr成功地识别了不同的克隆,并进一步获得了对克隆内密切相关细胞的更多支持。
数字
图10图1图2图3图4图5图6图7Fig 8Fig 9图10图1图2图3
引文: Koptagel H, Jun S-H, Hård J, Lagergren J (2024) Scuphr:细胞谱系树重建的概率框架。PLoS 计算生物学 20(5): 编号:E1012094。 https://doi.org/10.1371/journal.pcbi.1012094
编辑 器: 聂青, 加州大学欧文分校, 美国
收到: 2022年12月12日;接受: 2024年4月20日;发表: 5月 9, 2024
版权所有: © 2024 Koptagel et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 生物数据实验中使用的成纤维细胞数据集已在欧洲基因组表型组档案馆 (EGA) 上发表并提供,登录号为 EGAS00001003108。Scuphr 的源代码可在 https://github.com/Lagergren-Lab/scuphr 上找到。
资金: 资金由瑞典战略研究基金会拨款 BD15-0043 和瑞典研究委员会通过赠款 2022-03516 和 2018-06217 提供给 JL。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 作者声明不存在相互竞争的利益。
介绍
从单细胞数据重建健康组织的细胞谱系树是一个基本的计算问题,在发育和分化研究方面具有巨大潜力[1–6]。癌症肿瘤有两个相关的重建问题:克隆树的重建和单细胞肿瘤系统发育的重建。后两个问题已使用几种数据类型,例如块状DNA、单细胞DNA和单细胞RNA[7\u201211]。所有这些重建方法都利用突变并试图重建树,其中一对细胞或克隆之间的接近度与其突变模式之间的相似性相关。人类的体细胞突变率为10−9每个位点每个细胞分裂[12],并且拷贝数不被认为携带有关健康组织中细胞谱系成员资格的实质性信息。因此,在重建健康组织的谱系树时,突变是稀缺的,这意味着需要更复杂的模型和计算方法来充分利用现有的突变。这种稀缺性也凸显了对单细胞DNA测序(scDNA-seq)数据的需求,因为它揭示了比当前任何其他数据类型更多的点突变[13]。
无论其揭示突变的潜力如何,scDNA-seq数据都有其挑战[14\u201218]。由于单个细胞中可用的基因组数据量很少,因此在测序前需要扩增基因组[19]。不幸的是,全基因组扩增方法,如多重位移扩增(MDA)方法[20]和基于多退火和环的扩增循环(MALBAC)方法[21],引入了称为扩增误差(AE)的技术伪影,这些伪影很难与突变区分开来。此外,即使在扩增后,所谓的等位基因脱落 (ADO) 事件仍然存在。此外,扩增材料的后续测序也会导致测序错误[22\u201225]。
已经有几种方法明确针对scDNA-seq数据,用于识别突变(单核苷酸变异(SNV)调用者)和重建细胞谱系树,尽管其中几种是针对癌症数据的。Monovar [26] 是专为 scDNA-seq 数据设计的 SNV 调用器;对于每个位置,它使用伯努利分布对 ADO、具有独立和相同分布 (i.i.d.) 伯努利随机变量的 AE 和基调用错误概率取决于 Phred 质量得分 [27, 28],同时利用动态规划。LiRA [29] 和 Conbase [30] 是利用读取相位的 scDNA-seq SNV 调用服务器,而后者则基于单细胞群进行变异调用。
已经有一系列针对癌症数据的单细胞树重建方法[31\u201236],导致了SCIΦ方法[37]。有趣的是,对于癌症病例,由于节段缺失,可能违反了无限位点假设(ISA,[38–40])。然而,对于健康组织,ISA是一个合适的假设。因此,由于 SCIΦ 基于 ISA,因此它也与健康组织的分析有关。SCIΦ 有一个概率模型,允许使用马尔可夫链蒙特卡洛 (MCMC) 方法进行联合 SNV 调用和树重建。最近,Phylovar [41] 方法被证明可以处理数百万个位点,并且比 SCIΦ 更快,同时通过利用高效的矢量化计算具有相似的精度。
方法概述
Scuphr 是一种基于距离的系统发育推断方法,它使用 MDA 方法 [20] 和 MALBAC 方法 [21] 等扩增方法,从 scDNA-seq 数据中重建细胞谱系树,这些数据由扩增细胞基因组的实验程序产生。对这种数据类型的分析需要将体细胞突变与扩增引起的测序错误和核苷酸替换区分开来。因此,Scuphr 依赖于读取阶段的概率模型和这两个误差源。读取阶段是一种用于识别读取来自哪个等位基因的技术,用于区分读取是来自突变片段还是非突变片段。我们首先描述我们的模型,没有读取阶段,然后介绍读取阶段的细节。
放大过程被建模为广义的 Pólya 瓮过程,其中具有错误概率的拉出球被一个相同颜色的球和一个另一个颜色的球替换,这与 Pólya 瓮中普遍存在的两个相同颜色的替换形成鲜明对比。观察到的 Phred 分数定义了碱基调用错误概率。该模型还包含 ADO 事件的概率。Scuphr 的另一个重要部分是基于动态编程的推理算法,该算法基于误差模型计算两个细胞在任何研究的潜在突变位点具有不同基因型的概率。
Scuphr 使用位点选择方法处理 scDNA-seq 数据,该方法可识别将使用概率模型分析的候选位点并有助于距离。距离是通过组合每对细胞的选定位点的不同基因型的概率来获得的。最后,该距离被用作基于距离的系统发育方法的输入,即邻接(NJ)算法[42]。
Scuphr 工作流程的摘要如图 1 所示。Scuphr 的输入包括批量和单细胞 DNA 读长。首先,使用位点选择方法检测候选突变位点,如图1a所示。这些候选突变位点可以由单个碱基对组成,就像在大多数最先进的方法中一样,也可以由两个碱基对组成,其中候选突变位点伴随着附近的种系SNV(gSNV)。我们将这些站点类型分别称为单例站点和配对站点。这些站点类型在整篇论文中称为站点。其次,为每个选定的站点并行计算与站点相关的距离矩阵,如图 1b 所示。第三,通过组合与位点相关的距离矩阵获得单个距离矩阵,如图1c所示。最后,通过将NJ算法应用于最终距离矩阵(图1d)来重建细胞谱系树。此外,可以多次对与站点相关的距离矩阵进行替换采样,以获得自举谱系树样本,这些样本可用于获得共识树和边缘支持。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 1. Scuphr 的工作流程和读取阶段的图示。
a-d:Scuphr 的工作流程。答:从批量和单细胞DNA测序数据中选择这些位点进行分析。b:每个选定站点的距离矩阵是独立计算的。c:距离矩阵相加。d:细胞谱系树是使用 NJ 算法从最终距离矩阵构建的。e-h:读取阶段的图示。第一个碱基对是 gSNV 位点,第二个碱基对是候选位点。gSNV核苷酸以蓝色和粉红色显示。参考核苷酸和突变核苷酸分别以灰色和黄色显示。e:显示未突变和突变的基因组。该突变与蓝色等位基因(蓝色 gSNV 核苷酸)有关。f:一个涵盖两个站点的示例读取,但 gSNV 信息被忽略,就像在许多 SNV 调用和树重建方法中一样。在候选位点观察参考核苷酸。读取可能属于非突变或突变基因组。g:使用可用的 gSNV 站点信息读取的示例。我们可以对读取进行分阶段(确定它来自哪个等位基因)。读取必须来自蓝色等位基因;在这种情况下,读取来自非突变基因组。h:使用可用的 gSNV 站点信息读取的示例。读数必须来自粉红色等位基因;在这种情况下,读取可能属于非突变或突变基因组。
https://doi.org/10.1371/journal.pcbi.1012094.g001
读取阶段有助于识别缺失数据,并使用核苷酸在gSNV位点和候选位点的共现模式分离体细胞突变和错误。图1e显示了非突变细胞和突变细胞基因组的示例。每个细胞有两个等位基因;一个母亲和一个父亲。第一个位点是 gSNV,其中第一个和第二个等位基因的核苷酸不同。第二个位点是候选位点,其中非突变细胞在两个等位基因中都有参考核苷酸,突变细胞具有参考核苷酸和替代核苷酸。未突变和突变的细胞具有相同的第二个等位基因,它们的差异是由于位于第一个等位基因的突变。该突变与蓝色gSNV核苷酸有关。在图1f中,显示了候选位点的读数。由于没有关于gSNV基因座的信息,因此无法确定该读数是来自非突变基因组还是突变基因组。因此,它不能归因于任何等位基因。在图1g中,观察到从位点对读取。由于观察到两个核苷酸,并且蓝色的gSNV核苷酸伴随着候选参考核苷酸,因此可以得出结论,该读数来自非突变基因组。然而,在图1h中,参考核苷酸伴随着粉红色的gSNV核苷酸,它可能来自任何一个基因组。
结果
两种最先进的方法,SCIΦ [37] 和 Phylovar [41],可以利用扩增的二倍体 scDNA-seq 数据。在合成数据实验中,我们比较了Scuphr和SCIΦ在细胞谱系树重建精度和运行时间方面的性能。对于生物学数据实验,我们将 Scuphr 的性能与 SCIΦ 和 Phylovar 进行了比较。
合成数据集实验
为了以可控的方式比较这些方法的性能,我们合成了数据集。我们创建了真值细胞谱系树,并将突变分配给树的边缘;边缘下的所有细胞都继承了突变。我们生成了细胞的基因组,并模拟了扩增和读取测序过程。我们考虑了各种扩增、等位基因缺失和测序错误,以及基因组中不同水平的 gSNV。合成数据生成过程的详细信息在方法中介绍。我们使用合成数据集以两种方式比较这些方法;世系树重建精度和运行时。
合成数据集的准确性评估。
为了评估细胞谱系树重建的性能,我们将 Scuphr 和 SCIΦ 推断的树的拓扑结构与真值细胞谱系树进行了比较。我们使用定义为 1 减去归一化 Robinson-Foulds (RF) 距离的相似度量。相似性分数在 [0, 1] 中,其中 1 表示树拓扑相同。我们研究了 AE 率、ADO 率、具有配对位点的位点频率和细胞数量的几种组合的准确性。我们调查了两种 AE 率:10−5,见图 2 和图 10−3,见图 3。首先,对于其他参数的每个选择,考虑配对位点的位点的频率分别为 0.001、0.01、0.1 和 1。其次,对于其他参数的每个选择,考虑的 ADO 概率分别为 0、0.1 和 0.2。第三,研究了具有 10、20 和 50 个单元的输入的所有参数配置。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 2. 低扩增误差的真实树和推断树之间的相似性。
第一行:10 个单元格的结果。中间行:20 个单元格的结果。底行:50 个单元格的结果。
https://doi.org/10.1371/journal.pcbi.1012094.g002
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 3. 高扩增误差的真实树和推断树之间的相似性。
第一行:10 个单元格的结果。中间行:20 个单元格的结果。底行:50 个单元格的结果。
https://doi.org/10.1371/journal.pcbi.1012094.g003
两种方法在较低的错误率10下都表现良好−5,图 2.然而,除了少数例外,Scuphr 具有更高的平均精度,并且 Scuphr 的其他分位数高于 SCIΦ。当具有配对位点的位点频率为 1 时,这种趋势更加突出。
对于10的较高错误率−3,图 3 显示了两种方法之间显而易见的差异。Scuphr 的平均精度总是优于 SCIΦ,并且在几乎所有情况下,Scuphr 的其他分位数都高于 SCIΦ。特别是,当所有位点都配对时,Scuphr 利用配对位点进行读取相位,但 SCIΦ 对于配对位点的较低频率,平均精度或多或少相同。在这种情况下,Scuphr 的平均精度几乎是 SCIΦ 的两倍。
有趣的是,当 SCIΦ 与我们的候选选址方法选择的位点一起提供时,其准确性在几种情况下得到了提高。然而,在许多情况下,它的准确性也会降低。此外,对于生物数据,由于位点数量的原因,使用我们的位点选择方法选择的位点运行SCIΦ需要更长的时间。因此,在图 2 和图 3 中,我们展示了整个 SCIΦ 方法的结果,如 [37] 所述。S1 附录中描述了 SCIΦ 与我们的候选选址方法选择的选址一起提供时获得的精度。
合成数据集的运行时分析。
除了谱系树重建精度外,我们还比较了 Scuphr 和 SCIΦ 的挂钟运行时间。所有运行时实验都是在具有 32 个 CPU 内核的单个集群节点上执行的,每个配置重复 10 次。由于 Scuphr 可以与默认参数和估计参数一起使用,因此分别执行了参数估计步骤的运行时分析,结果显示在 S1 附录中。我们在相同的站点上运行这两种方法以比较运行时。用于获取这些站点的时间不包括在此处报告的运行时中。我们使用单核和多核运行 SCIΦ。内核数量的运行时非常相似,在本节中,介绍了 SCIΦ 的单核运行时。对于多个核心运行,我们将读者引导至 S1 附录。
图 4 显示了运行时在单例站点和内核数量的分数之间如何变化。左图、中间图和右图分别显示 10、20 和 50 个像元的运行时分析。由于每个距离矩阵都是独立计算的,因此我们提出的算法的主要部分是令人尴尬的并行,即挂钟运行时与可用内核的数量呈线性关系,如图所示。此外,该算法的运行时在站点数量上是线性的。对于 10 个和 20 个细胞,我们的软件比 SCIΦ 更快地推断谱系树。当至少使用两个内核进行计算时,我们的软件对于单例站点和 50 个单元的速度更快。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 4. 单一实例站点的运行时比较。
x 轴是站点数,y 轴是挂钟时间(以秒为单位)。红色虚线是使用单个内核的 SCIΦ 的运行时。其余行是所提出的方法对不同数量内核的运行时。左边、中间和右边的子图分别是 10、20 和 50 个像元数据集的结果。
https://doi.org/10.1371/journal.pcbi.1012094.g004
配对站点的挂钟运行时间比较如图 5 所示。此外,在本例中,左、中和右子图分别对应于 10、20 和 50 个单元格。由于考虑的片段类型数量,我们的配对位点分析比单例位点分析慢。尽管如此,该方法具有与单例现场实验相同的可扩展性趋势。对于至少使用8个内核的10个细胞情况,以及使用至少16个内核的20个和50个细胞数据集,我们的方法比SCIΦ更快。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 5. 配对站点的运行时比较。
x 轴是站点数,y 轴是挂钟时间(以秒为单位)。红色虚线是使用单个内核的 SCIΦ 的运行时。其余行是所提出的方法对不同数量内核的运行时。左边、中间和右边的子图分别是 10、20 和 50 个像元数据集的结果。
https://doi.org/10.1371/journal.pcbi.1012094.g005
这些运行时分析是在单个群集节点上执行的。然而,人们可以使用多个节点来计算距离矩阵,而无需通信开销。因此,Scuphr 实现了集群上可用内核总数的线性加速。Scuphr 的最后一步,即世系树重建,在单个内核上运行;但是,此步骤非常有效,并且不会更改整体渐近运行时。
生物数据分析
在本节中,使用先前在[30]中使用的成纤维细胞数据集比较了Scuphr SCIΦ和Phylova的准确性。本研究中使用的数据集是 [30] 中数据集的略微修改版本。有关详细信息,请参阅 S1 附录。该数据集由 18 个细胞的 scDNA-seq 数据组成,这些细胞具有最近的共同起源和已知的谱系树拓扑结构。该单细胞 DNA 数据是通过在测序前使用 MALBAC 扩增 DNA 获得的。这些细胞关系如此密切,以至于很少有突变将它们区分开来;因此,重建真正的世系树拓扑非常困难。这些细胞属于两个主要的单系群,一个包含细胞 0-11,另一个包含细胞 12-17。该数据集还包括来自供体的大量 DNA 样本,可用作外群。
使用 S1 附录中描述的管道对数据进行预处理,并按照方法中的描述确定感兴趣的站点。选择了 300 多万个站点进行分析;详情见 S1 附录。
由于成纤维细胞数据集非常困难,重建方法最多只能正确识别两个主要的单系群,因此我们设计了一个基于自举的测试,使用转移自举期望(TBE)[43]边缘支持。100 个引导谱系树由引导站点构建(因此,引导距离矩阵)。使用Booster软件[43]计算了真实谱系树拓扑上自举树的TBE支持。分支 b 的 TBE 支持在 [0, 1] 范围内,其中“0 表示引导树以随机方式包含边 b,1 表示 b 出现在所有引导树中”[43]。
Scuphr 以非常高的 TBE 支持率(0.8)分离了两个主要的单系群,图 6a。此外,两个较小的单系群(分别为细胞 4-5 和细胞 10-11)中的所有分支在所有引导轮中都能正确推断。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 6. 引导树的 TBE 支持被投影到真正的世系树拓扑上。
克隆标有蓝色和米色。a:Scophr 的 TBE 支持。b:SCIΦ的TBE支持。
https://doi.org/10.1371/journal.pcbi.1012094.g006
为了比较准确性,我们还将SCIΦ应用于成纤维细胞数据(图6b)。由于输入格式要求(Mpileup格式的批量和单细胞测序数据),我们无法在一次运行中对整个基因组运行SCIΦ。取而代之的是,我们将 SCIΦ 独立地应用于每条染色体,有关详细信息,请参见 S1 附录。我们从 SCIΦ 报告的染色体谱系树中采样了 100 个引导树;根据每条染色体上鉴定的突变数量对树木进行加权。TBE支持在真正的世系树拓扑上进行评估(图6b)。SCIΦ 对分支子集(分离两个克隆和由细胞 3、9、10 和 11 组成的亚克隆)获得相同的 TBE 支持。SCIΦ报告对单个分支的支持率为0.28,高于Scuphr(0.17)。对于其他分支,Scuphr 报告的支持率高于 SCIΦ 报告的支持率或同等支持率。在由细胞 0、1、4、5 和 6 组成的单系群中,与 SCIΦ 相反,Scuphr 推断出实质性的亚克隆结构。
最后,我们在图7的生物学数据上比较了Scuphr与Philovar的性能。Phylovar 使用与 SCIΦ 相同的候选位点选择方案,因此使用相同的位点进行分析。按照软件文档,我们提取了 SCIΦ 选择的站点并创建了一个新的 Mpileup 文件,这使我们能够在集群节点上运行 Philoval。我们运行了 Phylovar 5 次,每次在 32 个核心的集群节点上有 20 条爬山链,并获得了 100 棵树进行分析。有关实验详细信息,请参阅 S1 附录。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 7. 引导树的 TBE 支持被投影到真正的世系树拓扑上。
克隆标有蓝色和米色。a:Scophr 的 TBE 支持。b:Phylovar 的 TBE 支持。
https://doi.org/10.1371/journal.pcbi.1012094.g007
与其他方法一样,Phylova成功分离了两个克隆。尽管 Phylovar 能够比 SCIΦ 更好地推断由细胞 0、1、4、5 和 6 组成的亚克隆的关系;其支持分数低于 Scuphr,图 7b。此外,Phylovar 无法识别细胞 4 和 5 的兄弟关系,这得到了所有 Scuphr 树的支持。Phylovar 在蓝色克隆的其余部分获得了与其他方法相似的支持分数。在米色克隆中,Phylovar 对同胞关系(细胞 12 和 13)有很高的支持,而 Scuphr 或 SCIΦ 都不支持。
材料与方法
在本节中,我们将逐步描述所提出的模型。首先,我们详细介绍了Scuphr的概率图形模型,并概述了重要的组件和公式。其次,我们描述了如何从第一部分的结果中重建细胞谱系树。第三,我们详细描述了候选基因座的选择标准。第四,我们展示了如何估计模型参数。第五,给出了模拟数据生成过程。最后,描述了研究中使用的两个准确性指标,即相似性分数和 TBE 支持。
概率模型
首先,我们介绍一些重要概念。回想一下,与大多数最先进的方法一样,一组候选突变位点用于分析。我们将覆盖单个碱基对的候选位点称为单例位点。此外,Scuphr 可以促进候选位点附近的 gSNV 并进行读取阶段。与 gSNV 位点配对的候选突变位点称为配对位点。为简洁起见,我们将在“方法”部分中将所有站点类型称为站点。除非另有说明,否则模型描述适用于所有站点类型。设 Π 是选择用于分析的位点集,C 是单细胞的数量。
概率图形模型。
图 8 显示了 Scuphr 在 π ∈ Π 下的概率图形模型。 a、b 和 α 是模型超参数。p阿多、pAE系列和 pm是模型的参数,对应于 ADO、AE 和突变概率。观察一组读取、它们对应的碱基调用错误概率以及每个单元格 c 的覆盖率,并用 R 表示c、问c和 Lc.此外,还观察到大块基因型 B。单细胞突变状态用 G 表示c; Gc、B 和常见的突变类型随机变量 Z 定义了单细胞基因型 Xc.上述 scDNA-seq 特异性挑战用 和 A 建模c随机变量; 并模拟每个等位基因的 ADO 事件,以及c表示扩增过程中发生的错误数。扩增过程结束时产生的片段类型及其计数用 F 表示c和 Nc分别。
thumbnail 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 8. Scuphr 的图形模型。
阴影节点是观察到的随机变量。为简洁起见,省略了站点上标π。α、a 和 b 是模型超参数。pm、pAE系列、p阿多是模型参数,分别对应突变、扩增误差和等位基因脱落概率。B是大宗基因型,Z是常见突变型。每个单细胞 c ∈ [C] 的突变状态为 Gc.B、Z 和 Gc确定性地定义细胞的基因型;十c. 并表示每个等位基因的脱落状态,以及 Ac表示扩增误差的次数。五c和 Nc是片段类型及其相应的计数。R型c和 Qc是读取及其 Phred 质量分数,以及 Lc是单元格的读取总数。
https://doi.org/10.1371/journal.pcbi.1012094.g008
图形模型由细胞谱系、DNA 扩增和读取测序组成。
细胞谱系:在π时,所有未突变的细胞都具有整体基因型,并且所有突变细胞必须在ISA下共享相同的突变类型。这种共享突变类型使用具有超参数α的狄利克雷分类分布进行建模。细胞的突变状态是用i.i.d建模的。具有突变概率的伯努利随机变量,pm.突变概率具有具有超参数 a 和 b 的 Beta 先验分布。突变状态随机变量、bulk 和突变类型变量定义了细胞的基因型 Xc.
DNA 扩增:在这里,我们用伯努利随机变量模拟每个等位基因的 ADO 事件,具有相同的 ADO 概率 p阿多.使用概率为 p 的二项式随机变量对扩增过程中发生的 AE 数量进行建模AE系列,其试验次数取决于 ADO 随机变量和观察到的读取覆盖率。这些 ADO 和 AE 随机变量、观察到的读取覆盖率和单细胞基因型形成扩增片段 Fc及其对应的计数,Nc.
读取测序:最后,对扩增的片段进行测序并产生观察到的读长。由于读取排序是一个错误的过程,因此使用观察到的 Phred 分数来获得碱基调用错误概率 Qc,并对读取排序的不确定性进行建模。
我们简要讨论了图形模型。本节的以下部分介绍了其组件的更多详细信息。图 9 显示了上述细胞谱系、DNA 扩增和测序步骤。为简单起见,省略了站点上标π。
thumbnail 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 9. 左列为单例站点的随机变量图示,右列为配对站点的随机变量。
a:细胞谱系树。显示了感兴趣位点的批量、常见突变类型和单细胞基因型。突变及其起源的分支颜色不同。b:图示了细胞 0 的 DNA 扩增步骤。指定了 AE 和 ADO 事件指示器。写入相应的片段类型和计数。c:示出了排序步骤;读取和碱基调用错误概率是从片段中生成的。测序错误的颜色不同。
https://doi.org/10.1371/journal.pcbi.1012094.g009
距离矩阵。
对于每个选定的位点,π ∈ Π,我们构造了一个对称的非负 (C + 1) × (C + 1) 距离矩阵 Mπ.米c,c′是单细胞 c 和 c′ 之间的距离,计算公式为
(1)
其中 是指标函数,是 C 在 π 处的覆盖率。在距离计算过程中,仅考虑两个像元都覆盖的站点。矩阵的最后一行和最后一列是单元格与未突变的块 b 之间的距离,计算公式为
(2)
两个单细胞在π之间的距离。
二元随机变量表示单细胞 c 在 π 时的突变状态:如果细胞没有突变,如果细胞发生了突变。π处两个单细胞之间的距离为
(3)
其中 B 是整体基因型,Θ = {α, a, b, p阿多、pAE系列} 是模型参数和超参数的集合,R1:C、问1:C和 L1:C是观察到的读取、碱基调用错误概率和单单元的读取覆盖率。到非突变体的距离很简单 在上式右侧的随机变量上,我们省略了π上标,并在以下部分中使用相同的约定。
一个位点两个细胞的突变状态概率满足
P(Gc、Gc′、R1:C|乙、问1:C, L1:C,Θ)是通过对图形模型中定义的潜在变量进行的一系列边缘化来计算的,如方程4所示。为了清楚地描述这一过程,我们在以下小节中逐一介绍边缘化。
(4)
世系模型。
ISA意味着(i)一个位点最多可以突变一次,并且(ii)该位点的所有突变细胞都具有相同的突变。我们边缘化了突变类型,其中 Z 是突变类型随机变量,并遵循狄利克雷分类分布,如前所述;
(5)
其中 K 是可能的突变基因型的数量,α 是浓度参数,B 是 Beta 函数。B 代表整体基因型,而 B 是 Beta 函数。Z 与非突变散装基因型的差异在于单个核苷酸,例如,对于单例位点,我们可能有 B = (A, A) 和 Z = (A, G),对于配对位点,我们可能有 B = (AA, AT) 和 Z = (AA, GT)。有关详细信息,请参见 S1 附录。
其他单细胞的边缘化。
使用符号 G1:C\{c,c′}对于除 C 和 C′ 之外的所有细胞的突变状态随机变量,reads 的联合分布和单细胞 c 和 c′ 的突变状态可以表示为其中 是位点π突变细胞的数量。使用动态规划可以有效地计算上述方程中突变计数和突变状态的总和。
如前所述,我们在突变概率上分配了 Beta 先验分布,pm,具有超参数 a 和 b。给定 pm,所有单细胞的突变状态都是条件独立的,并且是i.i.d。伯努利随机变量。单细胞突变状态的联合分布为
推导在 S1 附录中。
单细胞的基因型。
我们定义辅助随机变量 X1:C,表示单细胞基因型。单细胞 c 的基因型是
(10)
X 的值1:C是 G 的确定性函数1:C、Z 和 B。从现在开始,我们将使用 X1:C符号代替 {G1:C、Z、B},例如,
单细胞的条件独立性。
考虑到单细胞的基因型、扩增和等位基因脱落概率,读长的可能性是有条件独立的。读取可能性由下式分解
片段的介绍。
我们介绍了在DNA扩增过程中产生的片段。片段类型,Fc,以及它们的计数,Nc,被边缘化如下;
扩增模型。
DNA扩增是用广义的Pólya骨灰盒模型建模的。两个 ADO 事件决定了骨灰盒的初始状态。这些 ADO 事件由两个具有相同 ADO 概率的伯努利随机变量 p 建模阿多;
和
在没有 ADO 事件的情况下,该过程从每个等位基因的一个拷贝开始。如果存在一个 ADO 事件,则该过程从另一个等位基因开始。
可以这样描述骨灰盒的过程;骨灰盒用一个或两个彩色球初始化。每走一步,从骨灰盒中抽出一个球,制作一个球的副本,然后将原件和副本放回骨灰盒中。这个过程的结果可以用一棵或两棵谱系树来表示,其中树的根是等位基因的原始副本。我们将这些树称为放大树。给定瓮中的初始状态和最终球数(作为读取覆盖率观察),扩增树中的边缘总数为(引入根部的额外传入边缘以考虑子采样)
DNA扩增有时会取代核苷酸;因此,有时,球的复制品与原始颜色不同。让 Ac是描述DNA扩增过程中发生的AE数量的随机变量,
AE 数量的概率是扩增树边缘的二项分布,其中 p
AE系列是 AE 发生在边缘上的概率。在实践中,pAE系列非常小(例如,[10−6,3 × 10−4] [19, 30]);因此,我们忽略了 A 的情况c> 1.
边缘化扩增树。
设片段类型和计数分别为 和 。设 d(F我||五j) 是计算两种片段类型之间的汉明距离的函数,F我和 Fj.
F 的前两个元素c是细胞基因型,第三个元素是由 AE 引起的片段类型。在没有 AE 的情况下,.在一个 AE 的情况下,必须将单个核苷酸与其原始片段区分开来,或者 .
与F相似c元组、 和 是第一个等位基因、第二个等位基因和携带 AE 引入的核苷酸的片段的片段数。片段总数为 。如果发生 AE 事件,;否则为零。最后,片段计数的前两个元素必须满足 ADO 事件,即 if 和 if .
在满足上述条件的情况下,给定细胞基因型、读取覆盖率、ADO 和 AE 事件,片段类型和计数对的概率是包含最多三个重要因子的乘积。第一个因素是关于除以 Lc片段化成一个或两个扩增树。如果存在 ADO 事件,则有一种分区方法,例如 (0, Lc) 如果第一个等位基因被丢弃或 (Lc,0) 如果第二个等位基因被丢弃。否则,由于 Pólya 瓮,读取次数遵循 Beta-二项分布,并且每个分区 {(1, Lc− 1), (2, Lc− 2), ..., (Lc− 1, 1)} 有一个 1/(Lc− 1) 概率。有关详细信息,请参见 S1 附录。第二个因素与AE事件有关;如果发生了 AE,有多少种方法可以获得错误的片段?在这里我们应该注意,即使我们知道 Lc被划分为放大树,我们不知道树的内部结构。我们需要考虑形成扩增树的所有可能方法(即扩增树拓扑的边缘化)。我们按照 S1 附录中的描述对扩增树进行建模。假设所有 i ∈ {1, 2, 3} 的计数配置为 where,并且 AE 严格发生在第一个放大树上,则第一个放大树可能存在树拓扑,每个拓扑的概率为 。下标 c 是单单元格 id,而 C(.) 或 C(., .) 是一个函数,它返回括号中给定特定树详细信息的可能树拓扑的数量。此外,边缘外满足此边缘化扩增树空间中的指定计数配置。当所有这些组合在一起时,第二个分量变为 。图 10 显示了支持计数配置的树拓扑和边的示例。我们将读者引导至S1附录中的表A和表B,了解所有计数和片段类型配置。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图片
TIFF的原始图像
图 10. C(4) = 6 个可能的 4 棵树的图示。
标记的节点指示扩增事件的顺序。虚线表示根的传入边,用于说明片段测序期间的子采样。边都是 4 树 C(4, 3) 中可能的 3 条边。
https://doi.org/10.1371/journal.pcbi.1012094.g010
最后一个组成部分是给定 AE 的概率;在没有 AE 的情况下,概率为 ,在 AE 的情况下,单例位点的概率为 1/3(1 × 3 = 3 种不同的可能基因型相差 1 个核苷酸),配对位点的概率为 1/6(有 2 × 3 = 6 种可能性)。
三个分量的乘积导致片段类型并计算概率;,详见 S1 附录中的表 A 和 B。
读取排序。
读取测序也是错误的,依赖于测序技术[22\u201225]。我们使用 Phred 质量得分 (ρ) 来计算碱基调用错误概率 Q, [27, 28];Q = 10−0.1×ρ.
对于具有已知原始片段的单次读取,在单例站点读取的可能性为
(6)
在配对位点读取的可能性为
(7)
我们使用动态规划来有效地计算单元格 c 的多次读取的可能性。在动态规划算法中,我们一次引入一个单元格的读取,将它们分配给不同的片段,并跟踪读取的可能性如何随着新读取的增加而变化。例如,当引入第 l 个读取时,我们知道如果前面的读取 () 都来自第一个片段,全部来自第二个片段,或任何其他分区(例如,从第一个片段读取 2 个,从第二个片段没有读取,l − 3 来自第三个片段)。添加 L 后c'th read,我们提取相应 N 的似然c从动态编程中配置。伪代码显示在 S1 附录中。
运行时分析。
动态规划算法的运行时复杂度,用于计算单元格 c 的观测读取概率,P(Rc|十c、问c, Lc、pAE系列、p阿多),是—导致 O(|Π|CL型3) 其中 L 是对单元和站点的最大读取次数。当我们对每个站点进行成对距离计算时,我们会产生 |Π|三2乘以动态规划表在可能的突变中查找的可能突变 m = 0, ..., C,得到 |Π|三3.这导致 O(|Π|(三3 + CL型3)).
谱系树重建
标准 NJ 算法 [42] 及其变体,如 FastNJ [44],通常用于基于距离的方法。在Scuphr的最后一步中,将标准的NJ算法应用于距离矩阵,以使用Dendropy库中的实现来重建细胞谱系树[45]。树将重新获得根根,因此批量节点将成为根节点,并指示非突变状态。
选址
我们使用几种启发式方法来识别要分析的候选基因座。尽管 Scuphr 可以在没有观察到替代核苷酸的位点上运行,但这些位点不会提供有关谱系树拓扑的信息并浪费计算资源。取而代之的是,我们选择基因组的一个子集,它可以提供有关拓扑的信息。
配对站点选择。
配对位点选择的主要目标是找到具有足够数量替代核苷酸的位点对,并且附近有一个可用于读取定相的杂合位点。
首先,我们使用从另一个组织获取的未扩增的批量读数来鉴定gSNV。我们运行FreeBayes [46]软件,并将读取深度阈值设置为10,将替代核苷酸频率设置为0.2。具有杂合基因型的位点被认为是 gSNV 位点。其次,我们检查覆盖 gSNV 位点的单细胞读数,并确保至少有两个单细胞显示 gSNV;也就是说,两个核苷酸必须存在于两个细胞的至少 20% 的读段中。在此验证之后,我们寻找 gSNV 周围的候选突变位点。gSNV和候选位点必须覆盖相同的读数,以便于读入阶段。读长覆盖的所有核苷酸都来自同一个等位基因。候选位点的参考核苷酸由大量读长测定;该位点必须至少有 10 个批量数据读段,并且至少 80% 的读段是一个核苷酸,这称为参考。对于要选择的位点,至少 2 个和最多 C − 1 个细胞必须就替代核苷酸达成一致(至少 20% 的读数应与参考不同)。来自单个细胞或所有单细胞的信号对谱系树重建的信息没有贡献。如果候选位点附近有多个 gSNV,则使用最近的 gSNV 形成对。最后,进行最后一次 gSNV 检查,以确保单细胞读长(涵盖候选位点和 gSNV 位点)满足上述 gSNV 要求。候选位点离 gSNV 位点越远,覆盖两个位点的读长就越少。
单例站点选择。
在单例位点选择期间,省略了 gSNV 启发式方法。候选突变位点鉴定使用与配对位点选择相同的启发式方法进行。
混合选址。
在混合情况下,该算法适用于配对站点和单例站点。如果满足配对位点标准,则候选突变位点与 gSNV 配对;否则,将选取该站点作为单例站点。
参数估计和超参数设置
我们使用 Metropolis-Hastings 算法运行 5, 000 次迭代,使用三个不同的初始值来推断参数 p阿多和 pAE系列.我们将前 20% 的样品作为老化丢弃。我们的 Metropolis-Hastings 算法的接受率为
可能性的计算方式与方法中的早期推导类似;
我们使用高斯随机游走方案,其中每个参数都是独立处理的,并且使用标准差为 0.01 的高斯分布提出样本。我们为参数设置了统一的先验概率,根据我们的模型计算观察到的读数的可能性,并接受或拒绝样本。样本的均值用作 p阿多和 pAE系列分析期间的参数。
Scuphr 有三个超参数;α、A 和 B。α 是用于突变类型概率的狄利克雷分类分布的浓度参数。我们将α设置为全一向量。a 和 b 超参数用于突变概率 p 之前的 Betam.我们通过设置 a = 1 和 b = 1 来分配突变概率前的均匀性。但是,用户可以设置这些参数,从而修改算法的突变趋势。
在我们的实验中,我们随机选择了 20 个用于估计参数的位点。我们对 p 的初始值进行了采样阿多从 U[0, 1] 和 pAE系列从 U[0, 0.1]。我们设置 p 的初始范围AE系列到[0,0.1],因为AE概率很小[19,30]。
合成数据集的模拟
我们生成的合成数据集如下。首先,我们生成了带有C叶的随机二元细胞谱系树。我们将 2 个 × (C − 1) × μ 突变(μ ∈ {10, 20})分配给树的边缘,并确保每个边缘至少有一个突变。对于每个数据集,我们生成了一个 100 万个碱基对长的二倍体基因组,用于大细胞和单细胞。我们从基因组中的奇数碱基中随机挑选突变位点。对于每个定相频率ρ∈{0.001,0.01,0.1,1},我们选择ρ×500,000个碱基对作为gSNV位点,并将它们随机放置在基因组中的偶数索引位置。因此,当 ρ = 1 时,基因组中每隔一个位置就是一个 gSNV 位点,并且每个包含突变的读数都有一个伴随的 gSNV 位点。这种构造就足够了,因为站点之间的距离不会影响站点选择或后续分析。gSNV位点由单细胞基因组共享,突变位点根据它们在细胞谱系树中的位置共享。此外,我们掩盖了单细胞基因组以解释细胞特异性ADO事件。对于每对位点(由连续位置组成,一个偶数和一个奇数),我们分别用 p阿多∈ {0, 0.1, 0.2}.
每个地点的碎片都是使用Pólya骨灰盒工艺生成的。掩蔽的单细胞基因组决定了骨灰盒的初始状态。如果两个等位基因都掉落,则不会产生片段。在单个 ADO 的情况下,所有片段都是由未丢弃的等位基因生成的。如果没有脱落,则从两个等位基因模拟片段,即用两个不同颜色的球初始化骨灰盒。每对位点的片段数是从泊松分布中采样的,速率参数为 λ ∈ {10, 20},即包含我们生物数据中发现的读取深度的区间。每当复制片段时,都会发生 AE,并伴有 pAE系列独立地。因此,即使我们的推断基于假设每个站点最多有一个AE,我们也允许在数据模拟过程中出现多个错误。我们使用 pAE系列= 10−5或 pAE系列= 10−3对于数据集的所有单元格;在整篇论文中,我们将这些数据集分别称为具有低 AE 和高 AE 的数据集。
我们模拟了片段的测序方式,以便获得读数,如下所示。Phred质量评分是从该范围内的离散均匀分布中抽样的[30,42]。 根据相应的碱基调用错误概率引入排序错误。
我们使用了一种简单的方法进行批量读取,并复制了大量基因组15次。可以查看此步骤,因为批量数据是使用 15 个没有任何突变的单细胞基因组生成的。此复制不包含 DNA 扩增步骤,因为批量数据由从未扩增片段测序的读段组成。
准确性指标
本节介绍用于分析的两个准确性指标。
相似性分数。
Robinson-Foulds(RF)距离[47]是一种对称差异度量,通常用于系统发育树比较[36,48]。 该指标计算任一树中的二分区总数,但不计算两棵树中的二分区总数。我们通过两种树拓扑中非平凡的二分割的总数对 RF 分数 (nRF) 进行了归一化(叶子的边缘被认为是平凡的。如果两个树拓扑具有相同的叶集,则将有定义相同二分区的边。无论树的内部结构如何,都会有 C 相同的二分区) nRF = RF/IB,其中我B是两个树拓扑中内部边的总数。请注意,树的非平凡边的数量取决于其拓扑结构,例如,树是否是二进制的。我们使用了相似性分数,在[0,1]中。如果树具有相同的拓扑,则相似性分数为 1。如果树没有任何共同的非平凡二分,则相似性分数为 0。
传输引导期望。
TBE是作为替代指标引入的,用于计算参考树拓扑上自举树的支持[43]。与Felsenstein的自举比例[49]相比,Felsenstein的自举比例[49]检查了边在自举树中出现的频率,TBE度量对微小拓扑差异的惩罚较少。TBE 指标计算将引导树中的边缘与参考树匹配所需的操作数(例如,分类群删除)。
边的 TBE 分数在 [0, 1] 中,其中 1 表示该边存在于所有引导树中,0 表示边随机出现。边缘的 TBE 分数越高越好。
讨论
我们评估了 Scuphr 在具有 SCIΦ 和 Phylovar 的生物数据集以及具有 SCIΦ 的几个模拟数据集上的性能。我们的研究重点是该算法对不同数量的单细胞、读取覆盖率和技术伪影(如 AE、ADO 和测序错误)的鲁棒性。我们观察到,对于低扩增误差数据集,Scuphr 在大多数情况下的表现与 SCIΦ 相当或更好。对于高扩增误差数据集,Scuphr 始终优于 SCIΦ。当由我们的方法选择的候选突变位点提供时,SCIΦ的性能在大多数低扩增误差数据集中变得与Scuphr相似;然而,Scuphr 在高扩增误差数据集中的表现继续优于 SCIΦ。
此外,我们表明该算法会随着单个细胞和位点的数量而缩放。此外,它与内核数量成反比。例如,使用单个核心,Scuphr 的主要部分对于 20 个单元和 1024 个单例位点大约需要 1.6 小时。100, 000 个站点所需的时间约为 166.7 小时;但是,由于有五个计算节点,每个节点有 32 个 CPU 内核,因此 Scophr 的运行时间可以减少到大约 1 小时。这一优势使得分析基因组中的数百万个位点成为可能,而大多数最先进的方法只能处理几千个位点。
最后,我们使用从[30]获得的18个单细胞的生物学数据集评估了Scuphr的性能。我们选择了大约 340 万个候选位点进行分析,并使用自举来获得参考树拓扑上的边缘支持。尽管生物学数据集具有挑战性,但 Scuphr 为分隔两个主要克隆和一些密切相关细胞的边缘分配了高支持值。Scuphr 通过为亚克隆获得更高的边缘支持,表现优于 SCIΦ 和 Philovar,但无法支持 Phylovar 成功鉴定的同胞关系。
Scuphr 的图形模型是为健康的二倍体 scDNA-seq 数据量身定制的,结合 NJ 算法,可产生与最先进方法一样高或一样好的准确性。Scuphr 的计算复杂度受单细胞数量的二次影响。但是,这个问题可以通过该方法令人尴尬的并行性质来弥补。此外,利用动态规划技术有效地计算读取似然。在实验中,我们展示了单例站点和配对站点的运行时有何不同。由于更常见的突变类型和扩增误差类型需要边缘化,配对位点的计算速度要慢得多。由于从生物数据集中选择用于分析的配对位点要少得多,因此这不会导致问题。此外,作为一种设计选择,我们使用从另一个组织获取的大量数据来表示未扩增、非突变的状态。尽管有公开可用的数据集(例如本研究中使用的成纤维细胞数据)同时包含单细胞和批量数据,但情况可能并非总是如此。在缺乏大量数据的情况下,可以使用公开可用的已知单核苷酸多态性数据集进行读取阶段。或者,分析可以仅限于单例位点,并且可以通过将单细胞的读数与参考基因组进行比较来选择位点。
由于我们的目标是重建细胞谱系树拓扑结构,因此我们没有强调估计分支长度。通过实验研究,我们发现Scuphr在树拓扑重建方面具有很高的精度;然而,我们警告说,在树重建步骤中获得的分支长度估计值需要进一步验证。
结论
单细胞DNA测序技术可以对发育和细胞分化进行详细分析[1–3]。我们介绍了 Scuphr,这是一个概率框架,它使用全基因组扩增的 DNA 测序数据从健康的二倍体单细胞重建细胞谱系树。Scuphr 在设计时考虑到了 scDNA-seq 数据的挑战,它与生物学发现非常吻合,特别是,它通过利用读取阶段获得了更好的准确性。
除了基于距离和基于MCMC的方法外,最近还开发了各种基于变分推理的方法,用于树重建任务[50\u201253]。这些方法通常在标准系统发育环境中运行,并且需要一组良好的初始树进行分析。在此类方法的潜在未来发展中,域向单细胞设置移动,Scuphr 可以快速提供一组良好的引导树作为输入。
Scuphr 专为健康的二倍体 scDNA-seq 数据而设计。但是,可以通过将拷贝数变异合并到其模型中来增强它以处理癌症数据。我们将研究扩展模型如何处理单细胞肿瘤数据的挑战,并在我们未来的工作中将其性能与最先进的方法进行比较。
支持信息
补充信息。
跳到无花果共享导航
很抱歉,我们无法加载您的数据。
下载
无花果分享
S1 附录。 补充信息。
该文件包括其他配方、生物学数据集和基准测试详细信息。
https://doi.org/10.1371/journal.pcbi.1012094.s001
(PDF格式)
确认
计算和数据处理由瑞典国家计算基础设施 (SNIC) 提供的资源提供支持。
引用
1.Lodato MA、Woodworth MB、Lee S、Evrony GD、Mehta BK、Karger A 等人。单个人类神经元中的体细胞突变跟踪发育和转录历史。科学。2015;350(6256):94–98.PMID:26430121
查看文章PubMed/NCBIGoogle 学术搜索
2.马里奥尼 JC, 阿伦特 D.单细胞基因组学如何改变进化和发育生物学。2017 年细胞开发生物学年鉴;33:537–553.PMID:28813177
查看文章PubMed/NCBIGoogle 学术搜索
3.Lodato MA、Rodin RE、Bohrson CL、Coulter ME、Barton AR、Kwon M 等。衰老和神经退行性变与单个人类神经元的突变增加有关。科学。2018;359(6375):555–559.PMID:29217584
查看文章PubMed/NCBIGoogle 学术搜索
4.Lee-Six H、Øbro NF、Shepherd MS、Grossmann S、Dawson K、Belmonte M 等。从体细胞突变推断的正常人类血液的种群动态。自然界。2018;561(7724):473–478.PMID:30185910
查看文章PubMed/NCBIGoogle 学术搜索
5.裴T, 托马西尼L, 马里亚尼J, 周 B, 罗伊乔杜里 T, 弗兰吉奇 D, 等.人类细胞在预原肠胚形成和神经发生时的不同突变率和机制。科学。2018;359(6375):550–555.PMID:29217587
查看文章PubMed/NCBIGoogle 学术搜索
6.Coorens THH、Moore L、Robinson PS、Sanghvi R、Christopher J、Hewinson J 等。从体细胞突变推断出人类发育的广泛系统发育。自然界。2021;597(7876):387–392.PMID:34433963
查看文章PubMed/NCBIGoogle 学术搜索
7.Navin N、Kendall J、Troge J、Andrews P、Rodgers L、McIndoo J 等。通过单细胞测序推断的肿瘤进化。自然界。2011;472(7341):90–94.PMID:21399628
查看文章PubMed/NCBIGoogle 学术搜索
8.Roth A、Khattra J、Yap D、Wan A、Laks E、Biele J 等。PyClone:癌症克隆群体结构的统计推断。Nat 方法。2014;11(4):396–398.PMID:24633410
查看文章PubMed/NCBIGoogle 学术搜索
9.Deshwar AG, Vembu S, Yung CK, Jang GH, Stein L, Morris Q. PhyloWGS:从肿瘤全基因组测序中重建亚克隆组成和进化。基因组生物学 2015;16:35。PMID:25786235
查看文章PubMed/NCBIGoogle 学术搜索
10.Safinianaini N, de Souza CPE, Lagergren J. CopyMix:使用变分推理的基于混合模型的单细胞聚类和拷贝数分析。生物Rxiv。2021;.
查看文章Google 学术搜索
11.Jun SH, Toosi H, Mold J, Engblom C, Chen X, O'Flanagan C, et al.使用单细胞转录组学重建用于癌症系统表型表征的克隆树。国家公社。2023;14(1):982.PMID:36813776
查看文章PubMed/NCBIGoogle 学术搜索
12.Lynch M. 突变率的演变。趋势 Genet.2010;26(8):345–352.PMID:20594608
查看文章PubMed/NCBIGoogle 学术搜索
13.Belkadi A、Bolze A、Itan Y、Cobat A、Vincent QB、Antipenko A 等。全基因组测序在检测外显子组变异方面比全外显子组测序更强大。美国国家科学院院刊,2015 年;112(17):5473–5478.PMID:25827230
查看文章PubMed/NCBIGoogle 学术搜索
14.癌症基因组学:一次一个细胞。基因组生物学 2014;15(8):452.PMID:25222669
查看文章PubMed/NCBIGoogle 学术搜索
15.Gawad C, Koh W, Quake SR. 单细胞基因组测序:科学现状。Nat Rev Genet。2016;17(3):175.PMID:26806412
查看文章PubMed/NCBIGoogle 学术搜索
16.Dong X, Zhang L, Milholland B, Lee M, Maslov AY, Wang T, et al.准确鉴定全基因组扩增单细胞中的单核苷酸变异。Nat 方法。2017;14(5):491–493.PMID:28319112
查看文章PubMed/NCBIGoogle 学术搜索
17.Zafar H, Navin N, Nakhleh L, Chen K. 从单细胞基因组数据推断肿瘤进化的计算方法。Curr Opin Syst Biol. 2018;7:16–25.
查看文章Google 学术搜索
18.Lähnemann D、Köster J、Szczurek E、McCarthy DJ、Hicks SC、Robinson MD 等。单细胞数据科学的 11 大挑战。基因组生物学 2020;21(1):31.PMID:32033589
查看文章PubMed/NCBIGoogle 学术搜索
19.Bourcy CFAd、de Bourcy CFA、De Vlaminck I、Kanbar JN、Wang J、Gawad C 等。单细胞全基因组扩增方法的定量比较。PLoS 一号。2014;9(8):e105585.PMID:25136831
查看文章PubMed/NCBIGoogle 学术搜索
20.Dean FB、Hosono S、Fang L、Wu X、Faruqi AF、Bray-Ward P 等。使用多位移扩增进行全面的人类基因组扩增。美国国家科学院院刊,2002年;99(8):5261–5266.PMID:11959976
查看文章PubMed/NCBIGoogle 学术搜索
21.宗 C, 卢 S, Chapman AR, 谢旭.全基因组检测单个人类细胞的单核苷酸和拷贝数变异。科学。2012;338(6114):1622–1626.PMID:23258894
查看文章PubMed/NCBIGoogle 学术搜索
22.Pfeiffer F、Gröber C、Blank M、Händler K、Beyer M、Schultze JL 等。在下一代测序中对短样本的错误率和原因进行系统评估。科学代表 2018;8(1):10950.PMID:30026539
查看文章PubMed/NCBIGoogle 学术搜索
23.Petrackova A、Vasinek M、Sedlarikova L、Dyskova T、Schneiderova P、Novosad T 等。NGS测序覆盖深度的标准化:癌症诊断中克隆和亚克隆突变检测的建议。前 Oncol。2019;9.PMID:31552176
查看文章PubMed/NCBIGoogle 学术搜索
24.马 X, Shao Y, Tian L, Flasch DA, Mulder HL, Edmonson MN, et al.分析深度二代测序数据中的错误曲线。基因组生物学 2019;20(1):50.PMID:30867008
查看文章PubMed/NCBIGoogle 学术搜索
25.Stoler N, Nekrutenko A. Illumina测序仪器的测序错误概况。NAR Genom 生物信息。2021;3(1):LQAB019。PMID:33817639
查看文章PubMed/NCBIGoogle 学术搜索
26.Zafar H, Wang Y, Nakhleh L, Navin N, Chen K. Monovar:单细胞中的单核苷酸变异检测。Nat 方法。2016;13(6):505–507.PMID:27088313
查看文章PubMed/NCBIGoogle 学术搜索
27.Ewing B, Green P. 使用 Phred 对自动测序器迹线进行碱基调用。II. 错误概率。基因组研究 1998;8(3):186–194.PMID:9521922
查看文章PubMed/NCBIGoogle 学术搜索
28.Ewing B, Hillier L, Wendl MC, Green P. 使用 Phred 对自动测序仪迹线进行碱基调用。一、准确性评估。基因组研究 1998;8(3):175–185.PMID:9521921
查看文章PubMed/NCBIGoogle 学术搜索
29.Bohrson CL、Barton AR、Lodato MA、Rodin RE、Luquette LJ、Viswanadham VV 等。链接读取分析可识别单细胞DNA测序数据中的突变。纳特·热内特。2019;51(4):749–754.PMID:30886424
查看文章PubMed/NCBIGoogle 学术搜索
30.Hård J、Al Hakim E、Kindblom M、Björklund ÅK、Sennblad B、Demirci I 等。Conbase:一种通过读取阶段无监督发现单细胞克隆体细胞突变的软件。基因组生物学 2019;20(1):1–18.PMID:30935387
查看文章PubMed/NCBIGoogle 学术搜索
31.Yuan K, Sakoparnig T, Markowetz F, Beerenwinkel N. BitPhylogeny:用于重建肿瘤内系统发育的概率框架。基因组生物学 2015;16:36。PMID:25786108
查看文章PubMed/NCBIGoogle 学术搜索
32.Ross EM, Markowetz F. OncoNEM:从单细胞测序数据推断肿瘤进化。基因组生物学 2016;17:69。PMID:27083415
查看文章PubMed/NCBIGoogle 学术搜索
33.Jahn K, Kuipers J, Beerenwinkel N. 单细胞数据的树推理。基因组生物学 2016;17:86。PMID:27149953
查看文章PubMed/NCBIGoogle 学术搜索
34.Zafar H, Tzen A, Navin N, Chen K, Nakhleh L. SiFit:在有限位点模型下从单细胞测序数据推断肿瘤树。基因组生物学 2017;18(1):178.PMID:28927434
查看文章PubMed/NCBIGoogle 学术搜索
35.Zafar H, Navin N, Chen K, Nakhleh L. SiCloneFit:从单细胞基因组测序数据中对肿瘤克隆的群体结构、基因型和系统发育进行贝叶斯推断。基因组研究 2019;29(11):1847–1859.PMID:31628257
查看文章PubMed/NCBIGoogle 学术搜索
36.Kozlov A, Alves JM, Stamatakis A, Posada D. CellPhy:从 scDNA-seq 数据准确快速地推断单细胞系统发育。基因组生物学 2022;23(1):37.PMID:35081992
查看文章PubMed/NCBIGoogle 学术搜索
37.Singer J, Kuipers J, Jahn K, Beerenwinkel N. 通过系统发育推断进行单细胞突变鉴定。国家公社。2018;9(1):1–8.PMID:30514897
查看文章PubMed/NCBIGoogle 学术搜索
38.木村 M.由于突变的稳定通量,在有限的群体中维持的杂合核苷酸位点的数量。遗传学。1969;61(4):893–903.PMID:5364968
查看文章PubMed/NCBIGoogle 学术搜索
39.佐治亚州沃特森。关于没有重组的遗传模型中分离位点的数量。1975 年;7(2):256–276.PMID:1145509
查看文章PubMed/NCBIGoogle 学术搜索
40.Tajima F. 群体遗传学中的无限等位基因模型和无限位点模型。J 热内特。1996;75(1):27–31.
查看文章Google 学术搜索
41.Edrisi M、Valecha MV、Chowdary SBV、Robledo S、Ogilvie HA、Posada D 等。Phylovar:从单细胞 DNA 测序数据中对单核苷酸变异进行可扩展的系统发育感知推断。生物信息学。2022;38(增刊 1):i195–i202。PMID:35758771
查看文章PubMed/NCBIGoogle 学术搜索
42.斋藤 N, Nei M.邻接法:一种重建系统发育树的新方法。Mol Biol Evol.1987;4(4):406–425.PMID:3447015
查看文章PubMed/NCBIGoogle 学术搜索
43.Lemoine F, Entfellner JBD, Wilkinson E, Correia D, Felipe MD, De Oliveira T, et al. 在大数据时代更新 Felsenstein 的系统发育引导。自然界。2018;556(7702):452–456.PMID:29670290
查看文章PubMed/NCBIGoogle 学术搜索
44.Elias I, Lagergren J. 快速邻居加入。理论计算科学 2009;410(21):1993–2000.
查看文章Google 学术搜索
45.Sukumaran J, Holder MT. DendroPy:用于系统发育计算的 Python 库。生物信息学。2010;26(12):1569–1571.PMID:20421198
查看文章PubMed/NCBIGoogle 学术搜索
46.Garrison E, Marth G. 基于短读长测序的单倍型变异检测。arXiv。2012;.
47.罗宾逊 DF,福尔兹 LR。系统发育树的比较。数学生物科学。1981;53(1-2):131–147.
查看文章Google 学术搜索
48.Wang L, Bouchard-Côté A, Doucet A. 使用组合顺序蒙特卡洛方法进行贝叶斯系统发育推断。J Am Stat Assoc. 2015年;110(512):1362–1374.
查看文章Google 学术搜索
49.Felsenstein J. 系统发育的置信度限制:一种使用引导的方法。演化。1985;39(4):783–791.PMID:28561359
查看文章PubMed/NCBIGoogle 学术搜索
50.Zhang C, Matsen IV FA. 变分贝叶斯系统发育推断.在:国际会议学习。代表。;2018.
51.Zhang C. 改进了使用归一化流的变分贝叶斯系统发育推断.“Adv Neural Inf Process Syst”.2020;33:18760–18771.
查看文章Google 学术搜索
52.张 C, Matsen IV FA.贝叶斯系统发育推断的变分方法。arXiv。2022;.
53.Koptagel H、Kviman O、Melin H、Safinianaini N、Lagergren J. VaiPhy:一种基于变分推理的系统发育算法。在:神经信息处理系统进展 35;2022.