免费医学论文发表-条件概率扩散模型驱动的合成放射基因组学在乳腺癌中的应用
陈良宏,黄子怀,孙燕,迈克·多马拉茨基,刘倩 ,胡平钊
抽象
本研究通过采用条件概率扩散模型 (CPDM) 来合成基于多组学数据(包括基因表达、拷贝数变异和 DNA 甲基化)的磁共振图像 (MRI),从而解决了乳腺癌 (BC) 的异质性。以前的研究中缺乏配对的医学图像和基因组学数据是一个挑战,CPDM 旨在克服这一挑战。训练有素的 CPDM 使用他们的多组学特征成功地为 726 名缺乏实际 MRI 的 TCGA-BRCA 患者生成了合成 MRI。Frechet 的起始距离 (FID)、均方误差 (MSE) 和结构相似性指数测量 (SSIM) 等评估指标证明了 CPDM 的有效性,基于 15 倍交叉验证,FID 为 2.02,MSE 为 0.02,SSIM 为 0.59。采用合成 MRI 预测临床属性,预测 ER+/HER2+ 亚型的受试者手术特征曲线下面积 (AUROC) 为 0.82,精确回忆曲线下面积 (AUPRC) 为 0.84。此外,MRI 准确预测了 BC 患者的生存率,一致性指数 (C-index) 评分为 0.88,优于其他基线模型。这项研究证明了 CPDM 在根据 BC 患者的基因组图谱生成 MRI 方面的潜力,为放射基因组学研究和精准医学的进步提供了有价值的见解。该研究为了解 BC 异质性提供了一种用于早期检测和个性化治疗的新方法。
作者总结
乳腺癌 (BC) 以其多样化的特性而闻名,这使得它对于早期检测和个性化治疗至关重要。将医学图像与基因组学相结合为研究这种多样性提供了一种新的方法,从而产生了一个称为放射基因组学的新领域。
但是,当这两种数据类型(图像数据和基因组数据)未配对时,就会成为一个挑战。本研究建议使用训练有素的条件概率扩散模型 (CPDM) 通过基于基因组信息生成 BC 医学图像来解决这个问题。CPDM 是一种基于人工智能 (AI) 的高级生成模型,类似于 ChatGPT。CPDM 在创建看起来真实的图像方面非常成功。在这项研究中,我们专门为 BC 构建和训练了 CPDM。训练有素的 CPDM 可以很好地生成 BC 医学图像,生成的图像可以准确预测患者的临床属性,如基因突变、受体状态和生存概率。本研究探讨了使用 CPDM 从基因组数据生成有意义的医学图像的潜力,有助于解决关键的临床问题。这些发现对推进放射基因组学研究和使用 AI 开发个性化医疗方法具有重要意义。
数字
Table 7图 1图 2图 3表 1Table 2Table 3Fig 4Fig 5Fig 6Table 4Table 5Table 6Table 7图 1图 2图 3
引文: Chen L, Huang ZH, Sun Y, Domaratzki M, Liu Q, 胡 P (2024) 条件概率扩散模型驱动的合成放射基因组学在乳腺癌中的应用。PLoS 计算生物学 20(10): e1012490 号。 https://doi.org/10.1371/journal.pcbi.1012490
编辑 器: Saurabh Sinha,美国佐治亚理工学院
收到: 2024 年 1 月 25 日;接受: 2024 年 9 月 14 日;发表: 10月 7, 2024
版权所有: © 2024 Chen et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 手稿中使用的所有源代码均可在 https://github.com/Kylelhc/BC_RadiogenomicCPDM 上获得。当前研究期间用于分析的原始数据集可从 TCGA-BRCA 档案 (https://portal.gdc.cancer.gov/projects/TCGA-BRCA) 和 TCIA (https://www.cancerimagingarchive.net/collection/tcga-brca/) 公开获得。所有其他相关数据都在手稿及其支持信息文件中。
资金: 这项工作得到了加拿大研究主席二级计划 (CRC-2021-00482) 至 PH (https://www.chairs-chaires.gc.ca/home-accueil-eng.aspx)、加拿大卫生研究院 (PLL 185683) 至 PH (https://www.cihr-irsc.gc.ca/e/193.html)、加拿大自然科学与工程研究委员会 (RGPIN-2021-04072) 至 PH (https://www.nserc-crsng.gc.ca/index_eng.asp)、加拿大创新基金会 (CFI) (#43481) 至 PH (https://www.innovation.ca/)、通过 Vector Institute 提供给 LC (https://vectorinstitute.ai/) 的人工智能 Vector 奖学金,以及由加拿腺癌协会资助给 LC (https://breastcancerprogress.ca/) 的转化乳腺癌研究奖学金。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 作者已声明不存在相互竞争的利益。
1. 引言
近年来,尤其是在 COVID-19 大流行期间,大量乳腺癌 (BC) 患者错过了癌症诊断和治疗的最佳机会 [1]。此外,病毒感染可能导致一些其他方面健康的人体内休眠的 BC 细胞苏醒 [2]。这些因素导致 BC 新发和致命病例数量增加。2023 年进行的一项调查显示,美国有 353,510 名女性将被诊断出患有 BC,预计有 43,170 名女性将死于 BC [3–4]。因此,如何及早诊断 BC 并提高 BC 患者的生存率已成为一个重要的课题。然而,BC 的异质性对其早期检测和治疗构成了重大挑战。具体来说,肿瘤内部和肿瘤之间的遗传、分子和细胞变异可导致不同的 BC 亚型,对相同治疗的反应各不相同 [5]。尽管如此,传统方法难以有效检测 BCs 的异质性。放射基因组学研究是该领域一个有前途的方向。
BC 放射基因组学研究侧重于影像学表型与基因组学之间的关系 [6]。先前的一项研究表明,放射基因组学分析可以揭示异质性肿瘤的逐体素遗传信息,这可以指导个人治疗 [7]。此外,放射基因组学可以量化病变特征,以尽早区分良性和恶性实体,使医生能够根据疾病风险更好地对患者进行分层,并进行更精确的成像和筛查 [7]。然而,传统的放射基因组学研究通常要求从同一队列中收集医学影像数据、基因组学数据和临床数据,这通常是无法实现的。最近,随着 ChatGPT 等深度生成模型的发展,研究人员能够从其他信息中合成图像。研究表明,深度生成模型在合成大脑、肝脏、肺和其他器官的医学图像方面具有良好的性能[8–12]。目前,没有研究生成用于 BC 放射基因组学分析的合成医学图像。
深度学习领域有许多经典的生成模型,如 AutoEncoder (AE)、Variational AutoEncoder (VAE)、Transformer、Generative Adversarial Network (GAN) 等。然而,这些模型在过去的研究中显示出一定的局限性。AE 和 VAE 模型通常会产生不真实和模糊的样本 [13]。Transformer 通常是资源密集型的,需要大量的计算能力和内存。仅靠 Transformer 往往难以产生令人满意的结果,尤其是在数据稀缺或获取成本高昂的情况下 [14]。众所周知,GAN模型在训练过程中具有潜在的不稳定性,具有挑战性的收敛性,以及产生结果的多样性有限[15]。
深度学习中的最新扩散模型提供了一种很有前途的方法,可以解决传统深度学习模型通常面临的一些限制,尤其是在高质量和多样化样本生成的情况下。扩散模型在概念上受到非平衡热力学中随机扩散过程的启发[16]。它定义了一个马尔可夫链,逐步向样本中添加随机噪声,然后通过深度学习模型学会了反转噪声添加过程以生成新样本 [16]。这一特性使扩散模型能够在生成的样本中复杂地构建复杂的细节,规避了传统生成模型中经常遇到的常见陷阱,例如模式崩溃,从而确保更稳定、对抗性更少的训练过程 [16]。扩散模型的优势促进了它们在不同领域的广泛应用。应用良好的扩散模型包括概率扩散模型、去噪概率扩散模型 (DDPM)、DALLE、稳定扩散模型 [17–20] 等。尽管如此,据我们所知,根据患者的基因组学概况利用扩散模型生成高质量的 BC MRI 仍然是一个未探索的研究领域。
除了合成缺失的影像学数据外,预测临床属性,包括BC驱动基因突变、雌激素受体(ER)状态、ER阳性/人表皮生长因子受体2阳性(ER+/HER2+)亚型、预后和治疗效果,在BC放射基因组学研究中也起着重要作用[21–24].具体来说,科学家可以根据患者的 BC 驱动基因突变状态为个体设计个人治疗。此外,对于 ER+ 癌症患者,鉴于癌细胞对激素的敏感性,医生可以采用靶向激素治疗来提高治疗效果,同时最大限度地减少对正常细胞的潜在伤害。对于 BC 的 ER+/HER2+ 亚型患者,特异性抑制 HER2 受体和调节雌激素作用的靶向治疗可以显着改善治疗结果。BC 患者的生存分析可以更细致地了解预后,使医疗保健提供者能够识别高危个体并优化治疗策略,以延长生存率并提高生活质量。然而,在实践中获得这些临床属性通常需要侵入性手术,这可能会让患者感到不适并带来风险。相比之下,MRI 在临床环境中是一种经济高效且易于获得的方式。
因此,在这项研究中,我们的首要目标是利用合成 MRI 通过放射基因组学研究获得患者的临床属性。更具体地说,我们首先开发了一个强大的深度生成条件概率扩散模型 (CPDM) 来合成与真实患者 MRI 相当的图像数据。随后,我们使用高度逼真的合成 MRI 来预测 BC 患者的临床特征。该项目的管道如图 1 所示。这项研究的成功不仅会提高治疗效果,还会改善整体临床医疗保健体验。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 1. 研究的整体工作流程。
https://doi.org/10.1371/journal.pcbi.1012490.g001
2. 材料和方法
2.1. CPDM
CPDM 旨在从随机噪声生成 MRI,并以基因组图谱为条件。实施包括两个核心步骤。第一步是在 MRI 中添加噪声,直到它降级为纯噪声图像。第二步是在基因组条件下反转第一步,对纯噪声图像进行去噪。这两个过程分别命名为 forward diffusion 和 backward diffusion。图 2 显示了 CPDM 的架构。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 2. CPDM 的架构。
CPDM 涉及三个核心组成部分,即前向扩散、条件准备和后向扩散。在正向扩散中,模型将噪声添加到实际 MRI T 次中,直到获得纯噪声图像。收集到的多组学图谱由 BTF 处理并生成分解的特征实体。实体的每一行代表患者的一个多组学特征,用于指导向后扩散中的图像生成。在反向扩散中,模型计算图像和多组学特征(线性扩展以匹配图像形状)的内积,并将其添加回受噪声的图像中。然后,该模型始终如一地从受噪图像中去除噪声,直到获得新的合成 MRI。噪声由 UNet 模块预测,该模块在上采样和下采样模块之间有一个交叉注意力层。
https://doi.org/10.1371/journal.pcbi.1012490.g002
2.1.1. 数据收集和预处理。
我们收集了来自 TCIA-BRCA 和 TCGA-BRCA 项目的患者的配对 58 个矢状面 MRI 和相应的多组学谱 (mRNA 基因表达、DNA 甲基化和拷贝数变异)。由于我们将使用 15 倍交叉验证来训练和测试模型,因此每个折叠在测试集中大约有 4 个独立样本,在训练集中大约有 54 个样本。收集的 3D 矢状面 MRI 由不同数量的切片组成。为了便于解释和进行目视检查,这些 3D MRI 被表示为 2D 正交投影 [25–26]。然后,为了降低计算复杂性,通过使用最近的像素方法将这些 MRI 的大小调整为 128 × 128 [27]。还有一些步骤来处理多组学数据。收集原始多组学数据后,去除全零值的样本或特征,以确保数据质量。然后,为了关注最具可变性和信息量的特征,选择了变异系数 (CV) 最大的前 10% 的基因。这种过滤过程导致在最终数据矩阵中保留了 754 名患者的 4515 个基因。每个患者的数据矩阵包括一个 2D mRNA 基因表达矩阵、一个 2D DNA 甲基化矩阵和一个 2D 拷贝数变异矩阵。然后,这些数据矩阵被用来构建一个 3D 张量,作为贝叶斯张量分解 (BTF) 的输入[28]。输入的 3D 张量最终分解成一个 2D 矩阵,每个患者有 17 个潜在因子。为了进一步分析模型的适应能力,我们还收集了来自 TCIA-BRCA 和 TCGA-BRCA 项目的 123 例 ER+/HER2+ BC 患者的一组基因表达,以重复实验。
2.1.2. 正向扩散。
MRI 在正向扩散过程中降级为纯噪声图像。我们将 MRI 表示为 x0和纯噪声图像作为 xT,其中 T 是分配给降级 MRI 的总步数。推理的过程 xT不是瞬间的。设计马尔可夫链以获得中间状态 xt作为过渡是常见的策略 [16]。具体来说,由于高斯噪声在采样数据分布中的便利性,该模型会在样本中添加预定的高斯噪声,以获得更深时间步长的状态 [29]。数学上,这可以表示为 ,其中 xt是当前受噪图像 x 的分布T-1是前一个受噪图像的分布,βt是方差计划 0<βt<1, β0是最小的数字和 βT是最大的数字,而 I 是一个单位矩阵。根据高斯噪声的定义,q(xt|xt−1) 可以进一步重新参数化为
(1)
,其中 (0,1)。让 和 .方程 1. 可以替换为
(2)
,它能够进一步合并为
(3)
,表示任何中间状态 xt就输入的 MRI x 而言0.图 3A 说明了这个过程。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 3. 扩散程序。
一个。正向扩散。湾。向后扩散。
https://doi.org/10.1371/journal.pcbi.1012490.g003
2.1.3. 向后扩散。
在向后扩散过程中,将从纯高斯噪声合成新的 MRI。用数学术语来说,合成的 MRI 的分布表示为 q(xt−1|xt、 x0).由于马尔可夫链的不可逆性,用于解决 q(x 的策略t−1|xt、 x0)用于训练深度神经网络模型(基于 U-Net 的框架)以近似其分布。在使用 U-Net 框架近似数据分布之前,采用贝叶斯规则对 q(xt−1|xt、 x0),它将给出
(4)
,其中 C(xt、 x0) 是一个常数。参考方程 4.,q(x 的均值和方差t−1|xt、 x0) 可以参数化为
(5)
和
(6)
根据标准高斯密度函数。重新格式化方程 3., x0可以表示为方程 7。
(7)
参考方程 6. 和方程 7.,可以进一步概念化为方程 8。
(8)
根据方程 8。均值μθ神经网络近似分布 q(xt−1|xt、 x0) 可以构造为
(9)
,其中 εθ是深度神经网络预测的噪声,τ 是条件。深度神经网络的损失函数将定义为方程 10。图 3B说明了在向后扩散中从噪点图像中去除噪声的过程。
(10)
表 1算法 1 显示了训练 CPDM 的伪代码,表 1 算法 2 显示了根据患者的基因组信息合成新 MRI 的伪代码。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 1. CPDM 的伪代码。
https://doi.org/10.1371/journal.pcbi.1012490.t001
2.1.4. 条件反射。
2.1.4.1. 交叉注意力。我们战略性地将交叉注意力模块放置在 U-Net 模型的下采样和上采样过程之间,以使成像信息与多组学信息保持一致 [30]。交叉注意力机制允许模型根据多组学数据的内容(例如模态 A)关注 MRI 的相关部分(例如,模态 B),从而能够生成与多组学数据匹配的 MRI 投影。交叉注意力机制的本质是将来自模态 A 的查询向量与来自模态 B 的关键向量进行交互,以计算注意力分数。然后使用这些注意力分数对来自模态 B 的值向量进行加权,以捕获这两种模态之间的跨模态交互。在数学上,模态 A 的查询向量可以表示为 ,其中 X一个是模态 A 的表示形式,并且是可学习的权重矩阵。同样,模态 B 的关键向量可以表示为 ,模态 B 的值向量可以表示为 ,其中 XB是模态 B 的表示形式,并且 和 是可学习的权重矩阵。然后,从模态 A 到模态 B 的注意力分数 (A) 可以通过以下方式计算
(11)
,其中 是键向量的维度。模态 A 的注意力得分用于计算模态 B 的取值向量 (WV) 的加权聚合。然后可以将加权值向量计算为模态 A 的注意力分数和模态 B 的值向量的点积,即 WV = A∙VB.最后,我们使用从模态 A 计算的注意力分数聚合来自模态 B 的信息后,计算了从交叉注意力机制获得的最终输出,该分数可以用作后续层的输入。我们称之为融合表示 (FR),而
(12)
,其中 是聚合的附加可学习权重矩阵。
2.1.4.2. 多组学和 MRI 数据的整合。为了促进视觉上忠实且具有生物学意义的 MRI 投影的合成,我们使用内积将紧凑的多组学特征向量(表示为 F)与详细的 MRI 投影图像(表示为 P)集成在一起。在数学中,内积 X 涉及计算基因组信息向量和 MRI 投影图像之间的点积 [31]。所以,我们有
(13)
,其中 Xij表示内积结果中的每个元素,F 和 P 是特征矩阵和图像矩阵,大小均为 n×n,F益和 P千焦分别表示特征向量和图像的各个元素。此操作生成了一个矩阵,该矩阵封装了两种数据模态之间的相关性和交互。结果矩阵中的每个值都表示来自多组学特征向量和图像的相应元件的累积贡献。该矩阵编码了基因组特征和 MRI 之间的比对和相关性。然后,该矩阵可以用作指导 MRI 合成的融合机制。我们通过将计算出的内积添加到图像矩阵中来更新模型的噪声输入 (NI) 来实现融合机制,即
(14)
,其中 P 是噪点图像,X 是多组学特征向量和图像向量的内积。这封装了来自特征向量的分子见解和来自图像的视觉信息 [32]。最后,将噪声输入和特征向量都视为 CPDM 的输入。
2.1.5. CPDM 评估。
CPDM 的评估基于三个性能指标:Fréchet 起始距离 (FID)、均方误差 (MSE) 和结构相似性指数测量 (SSIM)。FID 用于通过计算 Fréchet 距离来比较真实图像和合成图像之间的相似性。FID 表述为
(15)
,其中 μx、μg表示真实图像和合成图像的特征平均值,而 ∑x, ∑g是它们的协方差矩阵 [33]。低 FID 分数表示图像之间的高度相似性。达到 0.00 分表示两张图像相同。我们还计算了 Fréchet Inception Distance STandard Deviation (FID-STD) 以评估 CPDM 的一致性和稳定性。该指标可以评估模型在不同运行或图像批次中性能的变化。较低的 FID-STD 值表明 CPDM 生成的图像质量的一致性较高,表明其可靠性。MSE 量化了估计值和实际值之间的平均平方差,并广泛用于图像重建任务。MSE 强调重建图像的准确性,其给出公式为
(16)
,其中 I我,分别是真实图像和生成图像的像素值,n 是像素数 [34]。较低的 MSE 值表示性能优越。SSIM 是一个旨在评估图像感知质量及其相似性的指标。与 FID 不同,SSIM 专门评估两张图像之间的亮度、对比度和结构的变化,提供从 -1 到 1 的分数。SSIM 定义为
(17)
,其中 μ我是平均强度,σ我2, 是方差, 是协方差, c1、c2是常数 [35]。较高的 SSIM 值不仅表示图像之间的相似性更高,而且感知质量也更高。
2.2. 使用合成放射组学数据的应用
2.2.1. 数据收集和预处理。
数据收集过程涉及汇总来自 TCGA 数据库 (https://www.cbioportal.org/) 的突变状态、 ER 状态、生存率和 ER+/HER2+ 数据。我们根据可用的配对临床数据将标签与合成的 MRI 匹配,从而准备用于临床分析的数据集。表 2 显示了数据集的详细信息。
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 2. 用于训练 XGBoost 模型的数据集的数据分布和详细信息。
https://doi.org/10.1371/journal.pcbi.1012490.t002
有 754 例患者同时具有多组学特征和 TP53 突变状态。其中,252 例患者表现出 TP53 基因突变,指定为 1,而其余 502 例遗传谱正常的患者被标记为 0。对于 ER 状态,有 708 名患者同时具有 ER 状态和多组学特征。其中,544 例为阳性,164 例为阴性。对于具有多组学谱的 66 个 ER+/HER2+ BC,其中 26 个来自亚组 1,其他 40 个来自亚组 2。在有基因表达数据的 123 个 ER+/HER2+ BCs 中,63 个属于亚组 1,另外 60 个属于亚组 2。亚组 1 和亚组 2 是 ER+/HER2+ 乳腺癌的进一步分类 [36]。来自这两个亚组的患者通常具有不同的治疗反应和临床结果。
生存数据集的方法需要将患者与记录的生存数据进行汇编,包括生存天数和结果(生存或死亡)以及匹配的 MRI。考虑到所有 754 名生成了 MRI 的患者,有 740 名患者有生存数据。对于具有 ER+/HER2+ 亚型数据的 123 例患者,我们可以获得 66 例基于多组学谱的 MRI 患者和 123 例基于基因表达的 MRI 患者。这个过程确保了分析以稳健的数据交叉为基础,为后续分析提供了坚实的基础。
2.2.2. 分类和预测。
对于二元分类任务,即预测突变状态、ER状态和ER+/HER2+亚型,我们的方法需要使用成熟的工具(如PyRadiomics)和预先训练的CNN模型(包括VGG16、ResNet50和InceptionV3)提取图像特征[37–40]。由于放射组学乳腺癌研究的复杂性,我们通过实验在这些常用工具中确定了最合适的提取方法。S1 表分别显示了根据多组学谱和基因表达生成的 MRI 中提取的特征数量。然后将这些特征用作训练 XGBoost 模型的输入,并通过 RandomizedSearchCV 工具进行优化 [41\u201242]。
创新地,我们通过采用 DeepSurv 和 CoxPHFilter [43\u201244] 等工具扩展了提取的图像特征在生存分析中的效用。通过利用这种策略,我们探索了患者预后的新维度。
2.2.3. 评估。
在分类任务中,模型评估结果基于 10 倍交叉验证方法。此过程涉及将训练集划分为 10 个相等的批次。在每个验证周期中,将一个批次指定为测试集,并将其余部分合并以形成训练集。该模型在所有 10 次折叠中按顺序进行训练和测试。然后,通过对所有 10 项测试的结果进行平均来确定模型的整体性能,确保进行全面评估,利用每个数据点进行训练和验证。
采用受试者工作特征 (ROC) 曲线、受试者工作特征曲线下面积 (AUROC) 、精度-召回曲线、精度-召回曲线下面积 (AUPRC) 和 F1 评分评价 XGBoost 模型的性能。ROC 曲线是分类器性能的图形表示,绘制了各种决策阈值的真阳性率与假阳性率的关系。AUROC (满分为 1.00) 量化了 ROC 曲线下的面积,值越高表示分类性能越好。另一方面,精度-召回率曲线绘制了召回率的精确率,重点关注准确识别的阳性案例(精度)和捕获的实际阳性案例总数(召回率)之间的权衡。AUPRC(满分为 1.00)反映了该曲线下的面积,提供了模型平衡精度和召回率的能力的度量。F1 分数是精确率和召回率的调和平均值。F1 分数将精确率和召回率合并到一个指标中,使其可用于在存在类不平衡的情况下评估模型。F1 分数越高(满分为 1.00)表示精度和召回率之间的平衡越好。
对于生存分析任务,使用一致性指数 (C-index) 和来自对数秩检验的 p 值来评估生存模型的性能。C指数是生存分析和医学研究中广泛使用的基本指标,用于评估预测模型在事件发生时间结局方面的有效性[45–46]。它用作衡量模型根据实际生存时间正确排序有事件和无事件的观测对的能力的标准。C 指数从 0.5 到 1.0,提供了一个简洁而翔实的指标,用于衡量模型区分表现出不同生存期的患者的能力。通过捕捉预测因子和生存结果之间细微的相互作用,C 指数在评估医学研究领域模型的预测性能方面发挥着关键作用。较高的 c 指数值表示更强的预测能力,表明模型成功地根据患者的实际生存时间对患者进行准确排序。对数秩检验的 p 值评估生存模型的其他方面,例如生存曲线的形状,提供 C 指数可能无法捕获的信息 [47]。对数秩检验 p 值检验不同组的生存曲线之间没有差异的原假设。较低的对数秩检验 p 值(小于或等于 0.05)表示生存分布存在统计学显著性差异,从而证明模型能够区分具有不同生存模式的患者组。
3. 结果
3.1. CPDM 的结果
3.1.1. 数据收集和预处理。
在每个折叠中,来自训练集中的 54 个样本由成对的多组学概况和真实 MRI 投影组成,用于训练 CPDM,4 个样本也使用成对的多组学概况和真实 MRI 投影在测试集中用于测试训练模型的性能。然后,有 726 名患者可以从 TCIA-BRCA 项目中收集到仅具有多组学特征的患者,这些谱图谱可用于指导 MRI 投影合成。
3.1.2. 模型训练。
为了训练 CPDM 使其能够根据患者的多组学特征生成 MRI 投影,我们在由成对 MRI 投影和多组学特征组成的训练集上执行了迭代步骤,直到损失收敛。S1A 和 S1B 图 显示了模型损失值随 epoch 增加的变化趋势。从这两个数字来看,随着纪元的增加,模型的损失正在减少,并最终在小间隔之间波动,达到收敛。根据这些图,可以得出结论,模型在 1100 轮迭代后具有较小而稳定的损失值,这可以很好地近似去噪过程中的真实样本分布。S2 和 S3 表 (粗体项目是最终配置) 分别显示了多组学谱版本和基因表达版本的 7 个 CPDM 优化的超参数。
此外,我们还使用相同的数据集训练了四种经典的深度生成模型 AE 、 VAE 、 Transformer 和 GAN。进行这些比较是为了根据这些既定标准对我们的模型进行基准测试,采用一致的性能指标来批判性地评估和了解每种方法的独特优势和局限性,从而突出我们的模型为该领域带来的进步。
3.1.3. 模型性能。
表 3 显示了四个基线模型和我们的 CPDM 在多组学数据集和基因表达数据集上的训练和测试性能。每个模型都根据四个性能指标进行评估。FID 、 FID-STD 、 MS 和 SSIM 的计算按照标准化方案进行。从表中可以看出,在该任务中,在不同数据集上训练的三个经典生成模型都产生了性能低于 CPDM 的结果,尤其是 SSIM 分数较低(均低于 0.5)。这反映了 CPDM 与传统生成模型相比的先进性能。
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 3. 性能指标。
https://doi.org/10.1371/journal.pcbi.1012490.t003
为了进一步评估合成图像的质量和 CPDM 的性能,我们在测试集上对合成图像进行了目视检查。图 4 分别展示了多组学和基因表达版本的可视化结果。在每个表中,对于测试集中的每位患者,来自数据库的相应真实 MRI 图像与 CPDM 合成的 MRI 图像一起显示。显示的图像允许比较真实图像和合成图像之间的相似性。这些比较表明,由基于多组学数据的 CPDM 和基于基因表达数据的 CPDM 合成的 MRI 在内容和质量上与真实 MRI 高度一致,进一步证实了 CPDM 的卓越性能。
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 4. 测试集上的结果。
该图显示了测试集中包括 4 名患者的结果。向每位患者展示了三张图像:真实临床图像 (Real Img)、根据他们的多组学特征合成的图像 (Multi-omic) 和根据他们的基因表达合成的图像 (Gene expr)。
https://doi.org/10.1371/journal.pcbi.1012490.g004
由于未配对数据集中缺乏患者的真实 BC MRI 图像,我们无法对合成图像进行数值评估。相反,我们求助于目视检查,其中包括检查合成图像的视觉质量,以及由基于多组学概况的 CPDM 和基于基因表达的 CPDM 合成的 MRI 之间的相似性。图 5 显示了 5 名患者的合成结果。根据患者的多组学特征和基因表达的 K-means 聚类结果选择患者,如 S2A 和 S2B 图 [48] 所示。通过目视检查,可以观察到,基于未配对数据集合成的 MRI 表现出与配对数据集中的真实 MRI 一样接近的粒度。合成的 MRI 始终显示清晰的乳房轮廓和清晰的组织结构,并且总是可以根据不同的输入特征呈现丰富的多样性。此外,由基于多组学数据的 CPDM 和基于基因表达数据的 CPDM 合成的相同患者的 MRI 显示整体结构和细节相似。此外,我们还使用计算工具,包括 CharCPT-4 和 X 射线解释器,进一步分析合成图像,并利用来自 TCGA-BRCA 的患者临床数据来验证分析结果 [49–50]。S4 和 S5 表展示了使用计算工具分析合成图像的结果。合成图像的计算工具的结果与患者的实际临床数据一致,表明这些图像的可靠性。性能反映了 CPDM 在这项任务中的成功,尤其是其强大的泛化能力。
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 5. 来自未配对数据的合成图像。
该图显示了 5 名患者的合成图像,这些患者有基因组数据但没有真实的临床图像。左侧的 3 名患者是通过聚类他们的多组学特征来选择的,而右侧的 2 名患者是通过聚类他们的基因表达来选择的。对于每个患者,展示了根据他们的多组学图谱合成的图像和从他们的基因表达合成的图像。
https://doi.org/10.1371/journal.pcbi.1012490.g005
3.2. 申请结果
3.2.1. 数据收集和预处理。
然后,根据患者的多组学特征,使用训练有素的 CPDM 生成 754 (726 名具有未配对数据的患者 + 28 名具有配对数据的患者) MRI。在 123 个 HER2+/ER+ BCs 的基因表达数据集上重复此步骤,得到 123 个合成 MRI。这些合成图像用于预测 BC 驱动基因的突变状态、 BC ER 状态、 BC ER+/HER2+ 亚型和生存信息。
3.2.2. 模型训练。
S6 和 S7 表分别显示了使用 ResNet50 模型提取的 MRI 特征的 TP53 突变状态预测任务的 XGBoost 模型的超参数调整结果,以及使用 PyRadiomics 工具提取的 MRI 特征的 ER 状态预测任务的超参数调整结果。S8 表显示了使用 PyRadiomics 工具提取的 MRI 特征,XGBoost 模型用于 ER+/HER2+ 亚型预测任务的超参数调整结果。
S9 表显示了 CoxPHfilter 模型对 740 例多组学引导合成 MRI 患者的超参数调整结果。输入模型的 MRI 特征由 ResNet50 模型提取。S10 表显示了 66 例具有 ER+/HER2+ 数据的 CoxPHfilter 模型的超参数调整结果。用于训练该模型的数据是由这些患者的 ResNet50 模型提取的多组学引导合成 MRI 的特征。
3.2.3. 模型性能。
3.2.3.1. 用于 TP53 突变状态和 ER 状态预测的 XGBoost 模型。表 4 中的 TP53 突变状态模块显示了使用不同方法预测 TP53 基因突变状态的结果。将这些结果与 S11 表中 TP53 突变状态预测的基线性能进行比较,观察到基于合成 MRI 的分类结果与来自患者实际多组学特征的结果密切相关。这表明合成 MRI 数据封装的信息与患者的真实多组学特征几乎一致。此外,表 4 中 TP53 突变状态预测的 AUPRCs 显著优于 S12 表中所示的基线 AUPRCs,表明该模型已经学会了识别阳性病例并在实践中做出了可靠的预测。此外,图 6A 和 6B 分别说明了交叉验证的平均 ROC 和精度-召回曲线,进一步证实了该模型的分类能力。这些发现证明了使用合成 MRI 预测 TP53 基因突变状态的可行性。
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 6. 交叉验证的分类任务的平均 ROC 和精度-召回率曲线。
一个。基于在 PyRadiomics 工具提取的 MRI(多组学版本)特征上训练的 XGBoost 模型,基因 TP53 突变状态预测的平均 ROC 曲线。湾。基于在 PyRadiomics 工具提取的 MRI(多组学版本)特征上训练的 XGBoost 模型,基因 TP53 突变状态预测的平均精度-召回曲线。C.基于 XGBoost 模型,基于 PyRadiomics 工具提取的 MRI(多组学版本)特征训练的 ER 状态预测的平均 ROC 曲线。D.基于 XGBoost 模型,基于 PyRadiomics 工具提取的 MRI(多组学版本)特征训练的 XGBoost 模型,ER 状态预测的平均精度-召回曲线。E.ER+/HER2+ 亚型预测的平均 ROC 曲线基于在 PyRadiomics 工具提取的 MRI(基因表达版本)特征上训练的 XGBoost 模型。F.ER+/HER2+ 亚型预测的平均精度-召回曲线基于在 PyRadiomics 工具提取的 MRI(基因表达版本)特征上训练的 XGBoost 模型。
https://doi.org/10.1371/journal.pcbi.1012490.g006
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 4. TP53 突变状态和 ER 状态预测的结果。
https://doi.org/10.1371/journal.pcbi.1012490.t004
表 4 中的 ER 状态模块展示了使用不同方法预测患者 ER 状态的结果。表中的值表明,AUPRC 和 F1 评分与 S11 表中的基线结果相当,AUPRC 明显超过了 S12 表中的基线 AUROC。然而,测试 AUROC 大大低于基线,并且在使用合成图像进行分类时,AUROC 从训练集到测试集也存在不可忽略的下降。这些差异可能归因于数据集的不平衡以及 CPDM 合成的图像在某些方面的潜在不准确,这是由于训练图像有限造成的。图 6C 和 6D 描述了在 PyRadiomics 工具提取的 MRI 特征上训练的模型交叉验证的平均 ROC 和精度-召回曲线,为数值结果提供了额外的背景。总体而言,这些发现表明该模型已经具有一定的分类能力,但与使用真正的多组学进行预测相比,它仍然存在一些局限性。
3.2.3.2. 用于 ER+/HER2+ 亚型预测的 XGBoost 模型。表 5 显示了不同版本的 XGBoost 模型在预测 ER+/HER2+ 亚型方面的性能。图 6E 和 6F. 说明了交叉验证的平均 ROC 和精确率-召回曲线。这些性能指标表明该模型在辨别力和准确性方面都表现良好。具体而言,高 AUROC 评分表明该模型有效区分 ER+/HER2+ 亚型,而高 AUPRC 评分表明该模型可以很好地识别阳性病例。良好的 F1 分数表明,该模型在精确率和召回率之间建立了良好的平衡权衡。此外,通过将 AUPRCs 与 S12 表中的基线 AUPRCs 进行比较,可以观察到获得的 AUPRCs 明显优于基线 AUPRCs。同样,与 S11 表中的基线性能相比,表 5 中的性能具有竞争力。值得注意的是,基于合成 MRI 的分类结果优于基于 S11 表中呈现的患者实际多组学特征的基线结果。这种改进可能归因于图像中包含的信息更丰富,从而增强了分类任务。这些观察结果共同证明了该模型在预测 ER+/HER2+ 亚型方面的稳健性。此外,我们还在 S3 图中绘制了 XGBoost 模型的 SHapley 加法解释 (SHAP) 图,这些模型是根据 PyRadiomics 工具提取的 MRI 特征训练的 [51]。从图中,我们可以识别出对子组预测很重要的特征,并增强模型的可解释性。
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 5. ER+/HER2+ 亚组预测任务的结果。
https://doi.org/10.1371/journal.pcbi.1012490.t005
3.2.3.3. 生存分析。表 6 显示了 DeepSurv 模型和在多组学轮廓引导合成 MRI 特征上训练的 CoxPHfilter 模型的性能 (C 指数评分和对数秩检验 p 值)。表 7 提供了针对 ER+/HER2+ 亚型数据患者训练的 DeepSurv 模型和 CoxPHfilter 模型的性能。两个表中训练集和测试集上生存模型的评估 C 指数评分和对数秩检验 p 值,尤其是根据 ResNet50 提取的 MRI 特征训练的模型,证明了模型在预测患者预后方面的强大能力。它们与 S13 表中显示的基线性能紧密一致,可以进一步支持这一点。此外,在表 6 和表 7 中,与 CoxPHfilter 模型相比,DeepSurv 的性能略逊一筹。这可能是由于此任务中可用于深度学习的数据集规模较小,阻碍了模型有效学习和泛化的能力。更重要的是,比较 CoxPHfilter 模型在多组学和基因表达版本上的性能,观察到多组学版本的性能优于基因表达版本。然而,基于多组学数据的 CPDM 的性能指标低于基于基因表达的 CPDM。这表明影响 FID 和 SSIM 评分的图像特征可能与用于预测生存的图像特征无关。这一观察揭示了生存分析中图像性能指标和预测能力之间的复杂关系,表明各种特征在生存预测中的作用不同。最后,S4 图提出了 Kaplan-Meier 图来显示生存曲线的形状,对数秩检验的 p 值可能无法完全说明这一点。
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 6. 对所有具有多组学特征的患者进行生存分析。
https://doi.org/10.1371/journal.pcbi.1012490.t006
thumbnail 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 7. 对具有 ER+/HER2+ 亚型数据的患者进行生存分析。
https://doi.org/10.1371/journal.pcbi.1012490.t007
4. 讨论
4.1. 在小型数据集上训练的模型
这项研究的主要挑战是在一个小数据集上训练生成模型。在小数据集上训练生成模型时,很容易在训练过程中造成潜在的认知不确定性和噪声。与经典的生成模型相比,在小型数据集上训练的 CPDM 的成功可归因于其概率框架的独特优势和简化样本特征的方法的利用。
CPDM 独特的概率框架使其能够模拟扩散过程中数据样本生成的固有不确定性。具体来说,在迭代数据中的异常值时,它们将被视为高不确定性实例,并被分配低概率密度,这减少了模型预测结果的干扰。相反,如果数据点符合训练样本的整体分布,则会获得高概率密度并增强预测的置信度。此外,CPDM 估计了数据样本的整个概率分布。与其他致力于寻找最佳解决方案的生成模型相比,CPDM 可以稳健地处理不确定性,即使它是在小型数据集上训练的。
样本中丰富而复杂的特征可能会成倍增加模型数据要求。为了解决使用有限医学样本进行训练的挑战,简化数据特征是一个潜在的解决方案。这涉及减少特征的数量和丢弃数据中的琐碎信息。在这项研究中,用于训练 CPDM 的样本是灰度图像。与包含丰富颜色信息的多通道彩色图像相比,仅具有亮度信息的单通道灰度图像意味着较少的可学习特征,这使得该模型更容易在小型数据集中学习模式。此外,医学图像的稀疏性使得在小数据集上训练 CPDM 成为可能。本项目中使用的 MRI 数据很少。具体来说,乳腺组织占据了投影的中心区域,边缘由像素值为零或接近零的黑色像素填充。黑色边缘构成了数据的稀疏区域,包含不相关的训练信息。稀疏区域的存在可以被视为一种非人工特征选择机制,它使模型能够更专注于学习一些与任务相关的特征,同时忽略包含不相关信息的区域,以减少数据需求。
4.2. CPDM 的架构
与其他领域的大多数扩散模型应用类似,CPDM 使用 DDPM 作为基本模型框架。DDPM 被广泛选为扩散模型应用的基本框架的原因是它们生成高质量样本的独特能力,以及它们对各种数据类型的广泛适应性。
为了将基因组信息转换为 BC MRI,将条件框架纳入 DDPM。常见的条件反射策略包括使用串联或内积技术来融合来自不同数据集的多模态数据。在模型架构设计中,我们最初尝试了 concatenation。借鉴了递归神经网络和 transformer 模型的经验,串联使模型能够保留和利用来自多个来源的信息。这种方法对于模型融合来自不同模态的数据至关重要。然而,实证结果表明,由模型结合串联技术合成的 MRI 仅显示乳腺组织的模糊表示,尤其是在处理未配对的数据集时。此外,当使用不同的模型为同一患者生成多个 MRI 时,图像内容存在显着差异,无法保持解剖学的一致性。这种与医学成像预期均匀性的偏差是违反直觉的。
相比之下,内积技术在捕获来自两种不同模态的数据之间的交互和相关性方面具有显著优势。了解来自不同模态的数据之间的相关性对于提高基于同一人基因组信息的合成图像的解剖一致性至关重要。当不同的模态数据(如成像数据和基因组数据)表示为向量时,内积可以有效地量化它们之间的关联程度。此操作产生了一个标量,该标量封装了两种数据模态的联合特征,使模型能够从组合和交互驱动的表示中学习。然而,串联只是简单地并排组合数据,对齐来自不同模态的特征,而没有从根本上分析或理解它们的交互和相关性。因此,与串联相比,内积可以通过捕获来自不同模态的数据之间的相关性,更准确地将基因组信息转换为 MRI。
然而,内积技术也存在一些限制。尽管该模型可以通过使用内积技术从两种不同的模态中捕获相关性,但它仍然缺乏对上下文的细致理解。在视觉任务中,这意味着模型可能会错过与上下文相关的视觉内容。交叉注意力机制可以弥补这个限制。交叉注意力机制使模型能够在处理 MRI 时专注于基因组数据的相关部分。这种上下文感知方法使合成图像不仅与患者的基因组信息紧密一致,而且还表现出高质量和更精细的细节。CPDM 中内部积和交叉注意力机制的集成利用了各自的优势。这不仅提高了模型性能,还改善了合成图像的视觉效果。组合方法超越了单独使用任何一种方法的能力。
4.3. 生成模型结果分析
在通过 FID 和 MSE 等性能指标分析 CPDM 的性能时,观察到尽管 CPDM 表现出卓越的性能,但 CPDM 与某些基线模型在这些指标上的差异并不明显。尽管如此,这不应被解释为表明 CPDM 和基线模型之间的并行性能。FID 指标评估了合成图像和真实图像之间特征空间分布的相似性,而 MSE 量化了像素级的平均平方差异。值得称道的 FID 分数表明,生成图像和实际图像之间的整体内容和风格在统计上是一致的,而它可能不包含结构或像素级别的复杂性。相反,小的 MSE 表示在像素分辨率下接近,但本身并不能保证感知的一致性。因此,尽管 FID 和 MSE 能够熟练地捕捉 MRI 质量的特定方面,但它们在测量感知和结构一致性方面可能达不到要求。SSIM 超越了 MSE 等传统指标,提供了更细致和感知相关的评估。低 SSIM 分数表示合成 MRI 与人类观察者感知的真实 MRI 之间的视觉结构存在明显偏差。相比之下,高 SSIM 表示合成图像的高视觉信息保真度。视觉保真度是医学成像中的一个关键属性。因此,SSIM 阐明了 CPDM 生成的 MRI 视觉保真度的显着增强,使其与传统图像生成方法区分开来。
4.4. 应用程序结果分析
在基于分类的预测任务中,XGBoost 模型根据从合成 MRI 中提取的特征在预测 TP53 基因突变和 ER 状态方面取得了一定的成功。然而,正如在许多机器学习任务中常见的那样,由于 TP53 突变状态数据集和 ER 状态数据集中的标签分布不平衡,该模型的泛化能力有限。相比之下,ER+/HER2+ 数据集中样本的标签比例匀称。这种和谐的数据分布是促成模型卓越性能的潜在驱动力。
对于基于 CPDM 合成 MRI 的生存分析,我们的生存模型表现出模范性能。这一成功在很大程度上归功于 CoxPHFilter 模型。CoxPHFilter 模型擅长在生存数据和巧妙管理的删失数据中捕获复杂的、时间依赖性的模式。其强大的风险函数建模和对不同数据集特征的适应性增强了 CPDM 生成的 MRI 预后预测的准确性和可靠性。从本质上讲,这代表了先进成像综合和精细统计建模的协同融合,从而改善了临床研究的结果。
最后,在分类任务中,该模型在 Pyradiomics 工具提取的 MRI 特征上进行训练时表现最佳。Pyradiomics 工具捕获了一系列全面的特征,包括形状、质地和强度,这些特征可能与 TP53 基因突变患者的 MRI 中观察到的不规则肿瘤边界和异质性密切相关,以及在 ER+ 患者中发现的不同肿瘤生长模式和组织密度。对于生存分析,使用 ResNet50 提取的特征的模型表现出卓越的性能。ResNet50 更深入的架构和残差连接使其能够捕获更复杂和详细的特征,这对于理解与疾病进展和患者预后相关的复杂模式至关重要。虽然 VGG16 和 InceptionV3 也提供了有价值的功能,但它们的架构可能不太适合我们任务的特定需求。VGG16 虽然擅长捕捉分层特征,但可能缺乏医学图像所需的特异性。尽管 InceptionV3 在捕获多尺度特征方面效率很高,但由于其复杂性,有时会导致特征提取的重点降低。
5. 结论
本研究证明了 CPDM 的训练过程。实证结果表明 CPDM 在医学图像合成中具有强大的潜力。在基因表达数据集上的重复实验表明 CPDM 具有广泛的适应性。此外,应用结果还表明,合成 MRI 图像可用于训练用于预测现实世界中临床属性的模型。未来,我们的目标是开发更多的人工智能技术,以基于与本研究中确定的各种 BC 亚型相关的特定基因突变和分子特征,实现 BC 的靶向治疗。这种方法旨在产生更精确、有效和个性化的治疗方法,最终提高患者的预后并更广泛地影响癌症研究领域。
支持信息
CPDM 的损耗图。
显示 1/17: pcbi.1012490.s001.tif
跳至 fig分享导航
很抱歉,我们无法加载您的数据。
1 / 17
下载
无花果分享
S1 图 CPDM 的损耗图。
A. 多组学版本。B. 基因表达版本。
https://doi.org/10.1371/journal.pcbi.1012490.s001
(TIF)
S2 图 K-means 聚类分析结果。
一个。对患者的多组学特征进行聚类的结果。湾。患者基因表达聚类的结果。
https://doi.org/10.1371/journal.pcbi.1012490.s002
(TIF)
S3 图 ER+/HER2+ 分类的 SHAP 值图。
该图基于在 PyRadiomics 工具提取的 MRI(基因表达版本)特征上训练的 XGBoost 模型。该图显示了一些重要特征,包括熵、方差等。具体来说,熵可以测量像素强度的复杂性和异质性,这对于区分不同的乳腺组织至关重要。方差表明组织内存在显著变异性。通过有效利用图像数据的这些关键方面,该模型可以正确识别子组信息。
https://doi.org/10.1371/journal.pcbi.1012490.s003
(TIF)
S4 图 根据 ResNet50 提取的特征训练的 CoxPHfilter 模型的 Kaplan-Meier 图(具有最佳 p 值的折叠)。
一个。所有患者的训练集版本。湾。所有 patients 版本的测试集。C.ER+/HER2+ 多组学版本的训练集。D.ER+/HER2+ 多组学版本的测试集。E.ER+/HER2+ 基因表达版本的训练集。F.ER+/HER2+ 基因表达版本的测试集。
https://doi.org/10.1371/journal.pcbi.1012490.s004
(TIF)
S1 表。 从生成的 MRI 中提取的特征数。
https://doi.org/10.1371/journal.pcbi.1012490.s005
(XLSX)
S2 表。 多组学版本 CPDM 的超参数调整。
https://doi.org/10.1371/journal.pcbi.1012490.s006
(XLSX)
S3 表。 基因表达版本 CPDM 的超参数调整。
https://doi.org/10.1371/journal.pcbi.1012490.s007
(XLSX)
S4 表。 合成图像分析结果。
https://doi.org/10.1371/journal.pcbi.1012490.s008
(XLSX)
S5 表。 合成图像分析结果。
https://doi.org/10.1371/journal.pcbi.1012490.s009
(XLSX)
S6 表。 XGBoost 模型 TP53 突变的超参数调整。
https://doi.org/10.1371/journal.pcbi.1012490.s010
(XLSX)
S7 表。 XGBoost 模型超参数调整,用于 ER 状态预测。
https://doi.org/10.1371/journal.pcbi.1012490.s011
(XLSX)
S8 表。 XGBoost 模型超参数调整,用于 ER+/Her2+ 亚型预测。
https://doi.org/10.1371/journal.pcbi.1012490.s012
(XLSX)
S9 表。 多组学版本(740 名患者)CoxPHfilter 模型的超参数调整。
https://doi.org/10.1371/journal.pcbi.1012490.s013
(XLSX)
S10 表。 基因表达版本的超参数调整(66 名患者)CoxPHfilter 模型。
https://doi.org/10.1371/journal.pcbi.1012490.s014
(XLSX)
S11 表。 分类任务的基准性能。
https://doi.org/10.1371/journal.pcbi.1012490.s015
(XLSX)
S12 表。 基线 AUPRC 临界值。
https://doi.org/10.1371/journal.pcbi.1012490.s016
(XLSX)
S13 表。 生存分析的基线性能。
https://doi.org/10.1371/journal.pcbi.1012490.s017
(XLSX)
引用
1.İlgün AS, Özmen V.COVID-19 大流行对乳腺癌患者的影响。Meme SağLığI dergisi/meme Sağlığı dergisi [Internet].2022 年 12 月 30 日;18(1):85–90.可从: pmid:35059596
查看文章PubMed/NCBI谷歌学术
2.Francescangeli F, De Angelis ML, Zeuner A. COVID-19:免疫介导的乳腺癌复发的潜在驱动因素?乳腺癌研究 [互联网]。2020 年 10 月 30 日;22(1).可从: pmid:33126915
查看文章PubMed/NCBI谷歌学术
3.Breastcancer.org。乳腺癌事实和统计 [互联网]。2024. 可从: https://www.breastcancer.org/facts-statistics
查看文章谷歌学术
4.乳腺癌统计 |乳腺癌有多常见?[互联网]。美国癌症协会。可从: https://www.cancer.net/cancer-types/breast-cancer/statistics
5.Shulman LN, Willett W, Sievers A, Knaul FM. 发展中国家的乳腺癌:提高生存率的机会。肿瘤学杂志 [Internet].2010 年 1 月 1 日;2010:1–6.可从: pmid:21253541
查看文章PubMed/NCBI谷歌学术
6.马祖罗夫斯基 MA.放射基因组学:它是什么以及为什么它很重要。美国放射学会杂志 [Internet]。2015 年 8 月 1 日;12(8):862–6.可从: pmid:26250979
查看文章PubMed/NCBI谷歌学术
7.Pinker K, Chin J, Melsaether AN, Morris EA, Moy L. 乳腺癌的精准医学和放射基因组学:诊断和治疗的新方法。放射学 [互联网]。2018 年 6 月 1 日;287(3):732–47.可从: pmid:29782246
查看文章PubMed/NCBI谷歌学术
8.Li W, Li Y, Qin W, Liang X, Xu J, Xiong J, et al.基于磁共振 (MR) 引导放疗深度学习方法的脑部计算机断层扫描 (CT) 图像的磁共振图像 (MRI) 合成。医学和外科定量成像 [互联网]。2020 年 6 月 1 日;10(6):1223–36.可从: pmid:32550132
查看文章PubMed/NCBI谷歌学术
9.Boulanger M、Nunes JC、Chourak H、Largent A、Tahri S、Acosta O 等人。在放疗中从 MRI 生成合成 CT 的深度学习方法:文献综述。Physica Medica [互联网]。2021 年 9 月 1 日;89:265–81.可从: pmid:34474325
查看文章PubMed/NCBI谷歌学术
10.R RT,S VKK。使用深度卷积 GAN 生成人工 MRI 图像及其与其他增强方法的比较。2021 通信、控制和信息科学国际会议 (ICCISc) [互联网]。2021 年 6 月 16 日;可从: https://doi.org/10.1109/iccisc52257.2021.9484902
查看文章谷歌学术
11.Rombach R, Blattmann A, Lorenz D, Esser P, Ommer B. 使用潜在扩散模型进行高分辨率图像合成。arXiv (康奈尔大学) [互联网]。2021 年 1 月 1 日;可从: https://arxiv.org/abs/2112.10752
查看文章谷歌学术
12.Wu E, Wu K, Cox D, Lotter W. 用于乳房 X 光检查分类中数据增强的条件填充 GAN。在:计算机科学讲义 [Internet]。2018. 第 98-106 页。可从: https://doi.org/10.1007/978-3-030-00946-5_11
查看文章谷歌学术
13.Dosovitskiy A, Brox T. 基于深度网络生成具有感知相似性指标的图像。arXiv (康奈尔大学) [互联网]。2016 年 1 月 1 日;可从: https://arxiv.org/abs/1602.02644
查看文章谷歌学术
14.Vaswani A、Shazeer N、Parmar N、Uszkoreit J、Jones L、Gomez AN 等人。注意力就是你所需要的 [Internet]。arXiv.org。2017. 可从: https://arxiv.org/abs/1706.03762
查看文章谷歌学术
15.翁丽从 GAN 到 WGAN [Internet]。小罗格。2017. 可从: https://lilianweng.github.io/posts/2017-08-20-gan/
查看文章谷歌学术
16.翁丽什么是扩散模型?[互联网]。小罗格。2021. 可从: https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
查看文章谷歌学术
17.Sohl-Dickstein J, Weiss EA, Maheswaranathan N, Ganguli S. 使用非平衡热力学进行深度无监督学习 [互联网]。arXiv.org。2015. 可从:https://arxiv.org/abs/1503.03585
查看文章谷歌学术
18.Ho J, Jain A, Abbeel P. 去噪扩散概率模型。arXiv (康奈尔大学) [互联网]。2020 年 1 月 1 日;可从: https://arxiv.org/abs/2006.11239
查看文章谷歌学术
19.Ramesh A, Dhariwal P, Nichol A, Chu C, Chen M. 使用 CLIP 潜伏物生成分层文本条件图像。arXiv (康奈尔大学) [互联网]。2022 年 1 月 1 日;可从: https://arxiv.org/abs/2204.06125
查看文章谷歌学术
20.Guan S. 在卷积神经网络中使用来自生成对抗网络的合成乳腺 X 光片进行乳腺癌检测。医学影像杂志 [Internet]。2019 年 3 月 23 日;6(03):1.可从: pmid:30915386
查看文章PubMed/NCBI谷歌学术
21.Wang J, Kato F, Oyama-Manabe N, Takashima S, Parikh A, Li R, et al. 预测乳腺癌雌激素受体状态的放射组列线图。Front Oncol.2019;9:676.可从: https://www.frontiersin.org/articles/10.3389/fonc.2019.00676/full
查看文章谷歌学术
22.Zhu J, Li H, Jin X, Zhang X, Gong X, 胡 C, et al. 基于 MRI 的影像组学分析预测浸润性乳腺癌中 ER/PR 和 Her2 受体状态。J Magn 共振成像。2020;52(6):1677–1685.可从: https://doi.org/10.1002/jmri.27195
查看文章谷歌学术
23.Li H, Zhu Y, Burnside ES, Drukker K, Hoadley KA, Fan C, et al. 预测胰腺导管腺癌患者总生存期的 MRI 放射组学特征。Eur J 放射学。2018;102:122–127.可从: https://doi.org/10.1016/j.ejrad.2018.03.001
查看文章谷歌学术
24.Cao WM, Wang X, Liu J, Wang L, Zhang X, Pan J, et al. BRCANet:用动态对比增强乳腺 MRI 预测乳腺癌 BRCA1/2 基因突变的深度混合网络。临床肿瘤学杂志 [Internet]。2022 年 6 月 1 日;40(16_suppl):e13576。可从: https://doi.org/10.1200/jco.2022.40.16_suppl.e13576
查看文章谷歌学术
25.Smith CM, Kalavathi P, Mukherjee S, Rajesh PM, 周 Q, et al. DeepMRI:用于脑部 MR 图像分析的卷积神经网络。arXiv 预印本 arXiv:1707.08701。2017. 可从: https://arxiv.org/abs/1707.08701
查看文章谷歌学术
26.Bi L、Kim J、Ahn E、Feng D、Fulham M 等人。使用生成对抗网络进行显微图像合成,以改进深度学习癌症分类。医学图像肛门 2019;58:101547。可从: https://doi.org/10.1016/j.media.2019.101547
查看文章谷歌学术
27.Sajjad M, Ejaz N, Baik SW. 基于多内核的图像超分辨率自适应插值。多媒体工具和应用程序 [Internet]。2012 年 12 月 24 日;72(3):2063–85.可从: https://doi.org/10.1007/s11042-012-1325-4
查看文章谷歌学术
28.Khan SA, Leppäaho E, Kaski S. 贝叶斯多张量分解。机器学习 [Internet]。2016 年 6 月 10 日;105(2):233–53.可从: https://doi.org/10.1007/s10994-016-5563-y
查看文章谷歌学术
29.Bansal A、Borgnia E、Chu HM、Li JS、Kazemi H、Huang F 等人。冷扩散:反转任意图像变换,无杂色。arXiv (康奈尔大学) [互联网]。2022 年 1 月 1 日;可从: https://arxiv.org/abs/2208.09392
查看文章谷歌学术
30.Schlemper J、Oktay O、Schaap M、Heinrich M、Kainz B、Glocker B 等人。注意力门控网络:学习利用医学图像中的显著区域。医学图像分析 [互联网]。2019 年 4 月 1 日;53:197–207.可从: pmid:30802813
查看文章PubMed/NCBI谷歌学术
31.内积空间:理论与应用。纽约:Springer Science & Business Media;2007.
32.Wang D, Liu X, Shi L, Cui J, Tang J, et al. DeepDTnet:通过决策树可视化深度神经网络内部。在:第25届ACM SIGKDD国际知识发现和数据挖掘会议的论文集;2019. 可从: https://doi.org/10.1145/3292500.3330778
查看文章谷歌学术
33.Heusel M, Ramsauer H, Unterthiner T, Nessler B, Hochreiter S. 由两个时间尺度更新规则训练的 GAN 收敛到局部纳什均衡。arXiv (康奈尔大学) [互联网]。2017 年 1 月 1 日;30:6626–37.可从: https://arxiv.org/pdf/1706.08500
查看文章谷歌学术
34.维基百科贡献者。均方误差 [Internet]。维基百科。2024. 可从: https://en.wikipedia.org/wiki/Mean_squared_error
35.图像质量评估:从错误可见性到结构相似性。IEEE 图像处理汇刊 [Internet]。2004 年 4 月 1 日;13(4):600–12.可从: pmid:15376593
查看文章PubMed/NCBI谷歌学术
36.Liu Q, Huang S, Desautels D, McManus KJ, Murphy L, 胡 P. 用于 HER2+/ER+ 乳腺癌分层的预后 15 基因特征的开发和验证。计算与结构生物技术杂志 [Internet]。2023 年 1 月 1 日;21:2940–9.可从: https://doi.org/10.1016/j.csbj.2023.05.002
查看文章谷歌学术
37.Van Griethuysen JJM, Fedorov A, Parmar C, Hosny A, Aucoin N, Narayan V, et al. 用于解码放射学表型的计算放射组学系统。癌症研究 [互联网]。2017 年 10 月 31 日;77(21):e104-7。可从: pmid:29092951
查看文章PubMed/NCBI谷歌学术
38.Simonyan K, Zisserman A. 用于大规模图像识别的非常深度卷积网络 [Internet]。arXiv.org。2014. 可从: https://arxiv.org/abs/1409.1556v6
查看文章谷歌学术
39.He K, Zhang X, 任 S, Sun J. 用于图像识别的深度残差学习 [互联网].arXiv.org。2015. 可从:https://arxiv.org/abs/1512.03385v1
查看文章谷歌学术
40.Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z. 重新思考计算机视觉 [Internet] 的初创架构。arXiv.org。2015. 可从: https://arxiv.org/abs/1512.00567v3
查看文章谷歌学术
41.XGBOOST:一个可扩展的树提升系统 [Internet]。Ar5iv.可从: https://ar5iv.org/abs/1603.02754
42.3.2. 调整估计器的超参数 [Internet]。Scikit-learn.可从: https://scikit-learn.org/stable/modules/grid_search.html#randomized-parameter-optimization
43.Katzman JL, Shaham U, Cloninger A, Bates J, 江 T, Kluger Y. DeepSurv:使用 Cox 比例风险深度神经网络的个性化治疗推荐系统。BMC 医学研究方法 [互联网]。2018 年 2 月 26 日;18(1).可从: pmid:29482517
查看文章PubMed/NCBI谷歌学术
44.Sedgwick P. Cox 比例风险回归。BMJ [互联网]。2013 年 8 月 9 日;347(8 月 9 日 1):f4919。可从: https://doi.org/10.1136/bmj.f4919
查看文章谷歌学术
45.哈雷尔 FE。评估医学检查的检出率。JAMA [互联网]。1982 年 5 月 14 日;247(18):2543.供货范围: https://doi.org/10.1001/jama.1982.03320430047030 pmid:7069920
查看文章PubMed/NCBI谷歌学术
46.Pencina MJD'Agostino RB.总体 C 作为生存分析中区分的衡量标准:对特定总体值和置信区间估计进行建模。医学统计 [互联网]。2004 年 6 月 14 日;23(13):2109–23.可从: https://doi.org/10.1002/sim.1802
查看文章谷歌学术
47.Haschek WM, Rousseaux CG.毒理学病理学手册 [互联网]。爱思唯尔电子书。2002. 可从:https://doi.org/10.1016/b978-0-12-330215-1.x5000-5
查看文章谷歌学术
48.拉罗斯 DT.在数据中发现知识:数据挖掘简介。在线选择评论 [互联网]。2005 年 4 月 1 日;42(08):42–4687.可从: https://doi.org/10.5860/choice.42-4687
查看文章谷歌学术
49.X 射线口译员:AI 驱动的放射学口译 [互联网]。X 射线解释器。可从: https://xrayinterpreter.com/
50.打开人工智能。ChatGPT-4 [互联网]。2024. 可从: https://www.openai.com/research/chatgpt-4
查看文章谷歌学术
51.伦德伯格 SM,李 SI。解释模型预测的统一方法。arXiv (康奈尔大学) [互联网]。2017 年 1 月 1 日;可从: https://arxiv.org/abs/1705.07874
查看文章谷歌学术
下载 PDF
打印共享
通过 CrossMark 检查更新
广告
学科领域?
磁共振成像
基因表达
癌症治疗
基因组学
突变
生存分析
乳腺癌
数学函数
出版物
PLOS 生物学
PLOS 气候
PLOS 复杂系统
PLOS 计算生物学
PLOS 数字健康
PLOS 遗传学
PLOS 全球公共卫生
PLOS 医学
PLOS 心理健康
PLOS 被忽视的热带病
公共科学图书馆一号
PLOS 病原体
PLOS 可持续性和转型
PLOS 水
家
博客
收集
提供反馈
锁
隐私策略
使用条款
做广告
媒体咨询
联系
PLOS 公司 PLOS 是一家非营利性 501(c)(3) 公司,#C2354500,总部位于美国加利福尼亚州旧金山