免费医学论文发表投稿-使用 LightGBM 提高临床文献监测系统的效率
辛西娅·洛克尔 ,瓦埃尔·阿卜杜勒卡德尔,埃勒姆·巴盖里,里克·帕里什,克里斯·科托伊,塔玛拉·纳瓦罗,
抽象
鉴于在大型书目数据库中识别方法学上合理且临床相关的研究的布尔搜索性能不佳,因此有必要探索机器学习 (ML) 来有效地对研究进行分类。为了提高文献监测计划的效率,我们使用了国际公认的大型文章数据集,该数据集具有方法论的严谨性,并应用自动化 ML 方法来训练和测试二元分类模型,以预测临床研究文章具有高方法学质量的可能性。我们在 12,000 年至 2012 年在 PubMed 中索引的 97,805 篇文章的标题和摘要数据集上训练了 2018 多个模型,这些文章由训练有素的研究助理手动评估其严谨性,并由执业临床医生进行临床相关性评级。由于数据集不平衡,有更多的文章不符合严谨性标准,我们使用了不平衡的数据集以及过度采样和采样不足的数据集。在 2020 年的 30,424 篇回顾性研究中选择和测试了保持 99% 高严格敏感性和最大特异性的模型,并在一项包含 5253 篇文章的盲法研究中进行了前瞻性验证。最终选择的算法结合了在每个数据集中训练的 LightGBM(梯度提升机)模型,保持了高灵敏度,并在回顾性验证测试中实现了 57% 的特异性,在前瞻性研究中实现了 53% 的特异性。在前瞻性研究中,找到符合评价标准的文章需要阅读的文章数量为 3.68 (95% CI [3.52, 3.85]),而仅依靠布尔搜索时为 4.63 (95% CI [4.50, 4.77])。梯度提升 ML 模型将对高质量临床研究进行分类所需的工作减少了 45%,从而提高了文献监测的效率,并随后向临床医生和其他证据用户传播。
作者总结
随着如此多与健康相关的研究被发表,要找到做出医疗保健决策的最佳研究可能会让人不知所措。近 25 年来,我们的研究小组一直在通过创建工具来搜索这些研究。我们的专家团队使用这些工具为医疗保健提供者和患者寻找和评估最可靠和最重要的研究。在这项研究中,我们使用了自动化机器学习技术来加快这一过程并减少所需的工作量。我们使用来自近 98,000 篇文章的数据训练模型来识别具有强大方法的研究。我们测试了 12,000 多个模型,并选择了最好的模型,该模型使用了一种称为 LightGBM 的技术,该技术错过的良好研究最少。将此模型添加到我们的流程中,我们的工作量减少了 45%。这意味着我们现在可以更快、更高效地找到高质量的研究,帮助医疗保健提供者和其他用户更快地获得最佳证据。
数字
表 4图 1图 2表 1表 2表 3图 3表 4图 1图 2表 1
引文: Lokker C, Abdelkader W, Bagheri E, Parrish R, Cotoi C, Navarro T, et al. (2024) 使用 LightGBM 提高临床文献监测系统的效率。PLOS 数字健康 3(9): e0000299. https://doi.org/10.1371/journal.pdig.0000299
编辑 器: Ryan S. McGinnis,美国维克森林大学医学院
收到: 2023 年 6 月 18 日;接受: 2024 年 8 月 14 日;发表: 9月 23, 2024
版权所有: © 2024 Lokker 等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究中使用的数据已存储在 Mac Dataverse 中,具有 https://doi.org/10.5683/SP3/0XYWK3 的受控访问权限,可以通过 Zenodo https://doi.org/10.5281/zenodo.10719539 请求代码。
资金: EB 和 WA 通过 Mitacs Accelerate 计划得到了 Mitacs 的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 麦克马斯特大学是一家非营利性机构,与多家专业和商业出版商签订了合同,由健康信息研究部门管理,由 AI、RBH 和 LL 监督,以提供新发表的研究和系统评价,这些研究和评价对研究方法进行了严格评价,并通过麦克马斯特高级文献服务 (McMaster PLUS) 评估了临床相关性。TN、RP、CC 和 CL 部分通过这些合同支付,RBH 获得监管时间和特许权使用费的报酬。WA、EB、FG、LC 和 MA 不隶属于 McMaster PLUS。
介绍
识别高质量的临床文献对于临床实践和研究至关重要,尤其是考虑到医学文献的制作速度越来越快。已经采取了多种方法来支持更轻松的信息检索、提取和评估,以协助循证医学的实践。从尚未准备好用于临床实践的文章中筛选出高质量、临床相关文章的早期方法包括经过验证的基于文本的搜索策略,这些策略通过研究方法筛选文章,例如系统评价 [1] 和随机对照试验 (RCT) [2]。这些是 Clinical Queries 的基础,这些查询已被集成到生物医学数据库(如 PubMed)中,以提高 20 多年来查找证据的效率 [3]。然而,在不断发展的循证医学领域中,关键评估的任务是一个越来越复杂和耗时的过程,仅仅确定研究设计已经不够了。目前,手动批判性评价过程最初涉及确定出版物类型和研究设计,然后是评估透明报告和方法严谨性的适当工具。这些工具也变得越来越全面。例如,在系统评价中评估RCT的修订版Cochrane偏倚风险(risk of bias, RoB)2工具涉及每个RCT的每个结局最多28个问题[4]。该工具的官方指南超过 70 页,详细说明了每个决定背后的基本原理。与最初的 RoB 工具相比,每个 RCT 只有 7 个问题,RoB 2 代表着复杂性的显著增加。
机器学习 (ML) 和自然语言处理 (NLP) 的进步正在提高证据管理、提取和总结的功效和效率。系统综述的制作受到了相当大的关注,ML 模型用于半自动或全自动文章筛选 [5–8],并越来越多地用于信息提取和数据库搜索 [8]。使用 ML 来识别高质量的研究并自动化偏倚风险和相关性排名是有前途的 [8]。2021 年的一项系统评价确定了 10 篇文章,这些文章使用黄金标准数据集应用 ML 来检索高质量证据,这些文章的文章在方法学严谨性方面受到了严格评价 [9]。几项研究评估了深度学习在严格评估方面的性能 [10–12]。我们最近发表了一个基于 BioBERT 的深度学习模型的结果,该模型经过训练可以识别高质量的研究,这些研究将召回率保持在 >99%,并将特异性提高到 >60% [13]。以前的文献还比较了深度学习神经网络与浅层学习算法在文本分类方面的效果,它们的比较性能因上下文而异[14–16]。虽然神经网络无需细致的特征工程即可提供有竞争力或卓越的性能,但有几个重要问题限制了它们的适用性。它们的计算需求令人望而却步,因为大型语料库上的神经网络可能需要数天或数周的时间来训练和微调,即使是在专为 ML 训练设计的图形处理单元上也是如此 [17]。“黑盒问题”给深度学习模型带来了额外的挑战 [18]。神经网络如何做出决策缺乏可解释性和可解释性,这破坏了它们的可信度和道德使用,并严重限制了它们的外部应用[19]。临床医生无法通过神经网络追踪 RCT 严格性评级的决定和基本原理,而他们可以使用 RoB 2 工具。已经探索了许多通过深度学习模型解释决策的方法[20,21],但大多数是特定于模型的方法,并且侧重于表格或图像数据,而不是自由文本。
与深度学习方法相比,浅层学习算法的计算要求较低,并且可以在最大限度地减少训练时间的同时实现相当高的准确性。由于浅层学习方法相对简单,因此也比深度学习模型更容易解释 [20,21]。虽然解释可能不像人类批判性评估专家提供的自由文本理由那样简单明了,但特征和权重的明确定义使我们能够检查导致最终决定的因素。此外,在NLP任务上,采用适当特征工程的浅层学习不一定比深度学习模型表现差[14–16\u201222]。几篇文章详细介绍了使用浅层学习模型来评估方法论的严谨性 [23–29]。遗憾的是,这些研究存在重要的方法局限性。具体来说,他们都使用了不平衡的数据集,而没有重新采样或将类权重纳入他们的模型[23–29]。这可能会限制从少数阶级中学习,并使模型决策偏向于多数阶级 [30]。此外,他们专注于少数几个模型和超参数组合[23,25,26,28,29],并且通常不研究集成模型的性能[24\u201226\u201229]。最后,一些研究集中在类型[26]或特定领域的[25]文章上,或2010年之前发表的文章[23,25,27–29],这削弱了他们模型的普遍性。
在 McMaster Health Research Information Unit (HiRU),我们通过 Premium LiteratUre Service (PLUS) 评估发表时的文献,从而加快执业临床医生对循证信息的访问(图 1A)[31]。使用与用于推导 Clinical Queries 搜索策略的 Hedges 数据集相同的标准来评估研究方法 [32]。简而言之,每天使用敏感的布尔搜索策略从 PubMed 检索发表在 ~120 种临床期刊上的研究,并由训练有素的研究助理进行手动评估。根据设计特定的标准评估文章的科学价值,例如随机分配、随访和报告RCT的临床重要结局[33]。符合评价标准的文章由临床医生编辑审查,并由执业临床医生对临床相关性和新闻价值进行评分 [34]。自 2012 年以来,我们通过 PLUS 策划了一个根据方法严谨性和临床相关性手动分类的文章数据库,并已扩展到包括 PubMed 自 2020 年 3 月以来的所有 COVID-19 文章。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 1.
文献监视过程的插图 A. 之前和 B. 添加机器学习算法以预测文章的质量。
https://doi.org/10.1371/journal.pdig.0000299.g001
如前所述,维护大量经过评估的临床文章(如 PLUS)是一项资源密集型活动。保持高召回率(灵敏度 >99%),同时减少需要阅读的数量 (NNR)(在关键评估步骤中识别相关文章所需的人工努力的衡量标准)对于提高此过程的效率非常重要。这种对提高效率的需求与最大限度地纳入高质量临床相关研究以维护对临床医生和研究人员有用的资源的使命相辅相成。
为了解决以前发布的浅层学习方法的局限性,我们选择了 Microsoft 自动化机器学习 (AutoML) 服务,以从具有各种参数组合的大量实验中发现最佳模型。AutoML 是通过自动选择有前途的算法、超参数调整、预处理和特征选择,在过程的多个步骤迭代、选择和优化 ML 模型的工具 [35\u201236]。系统搜索可能的模型和超参数配置,并选择在给定任务中表现最佳的配置。这减少了训练和测试模型所需的时间,以及可能由人为错误和偏差引起的模型不准确。
目的:开发和评估 ML 模型,通过利用 Microsoft AutoML 服务和重采样方法来保持高召回率 (灵敏度 >99%) 并减少需要阅读的数量 (NNR) 以找到一项高质量的研究。
材料和方法
我们使用标记的文章数据集进行了一项回顾性研究,这些文章对方法学的严谨性和临床相关性进行了严格评价,以训练、验证和测试预测临床文章满足严谨性评价标准的可能性的算法。我们使用 autoML 作为训练多个模型的有效方法。通过让训练有素的研究助理对模型预测不知情,评估文献监测计划中传入的文章,作为模型预测外部有效性的测试,对选定的模型进行前瞻性评估。
质量标准数据库
我们将高质量或严谨定义为根据既定的证据评估标准,满足特定文章类型(综述、指南、原始研究)或目的类别(治疗、诊断、预后、危害病因、一级预防、质量改进、经济学或临床预测指南)的所有关键评价标准[33]。手动关键评估步骤之前记录了高评分者间一致性(所有类别的 kappa > 0.80)[37]。在二十年的时间里,我们审查了超过 500,000 篇文章,并策划了一个内部数据库,其中包括不符合方法学严谨性标准或临床相关性的文章。值得注意的是,该数据库是不平衡的,未能满足方法学严谨性或临床相关性的文章数量大约是通过的文章的 4.5 倍。不断增长的数据库现在包括在 PubMed 中编入索引的有关 COVID-19 的文章,不仅限于核心期刊集。为了对文章进行分类,以符合或不符合方法学严谨性和临床相关性的标准进行二元评估,我们使用了 2012-2018 年间发表的上述 97,805 篇各种类型和类别的文章的标题和摘要。其中,17,824 篇文章符合一个或多个文章类别的严谨性和临床相关性标准;79,981 人没有。
模型训练和性能
我们的模型训练方法是使用 AutoML 运行具有不同设置的多个顺序实验。图 2 中描述的该过程使用表 1 中列出的预处理选项、加权方法、特征选择和超参数的组合自动迭代模型训练,并优化选择以确定性能最佳的组合——从本质上讲,该方法优化了性能并放弃了不会导致模型性能更好的步骤。AutoML 系统的性能取决于数据质量和手头的具体任务。我们之所以选择 AutoML 进行这项研究,是因为我们的数据集质量很高,因为它是由人类专家审查和评估的,我们希望消除偏见并加深对数据集最佳方法的理解。AutoML 允许在开发专业知识的同时进行实验。我们使用Microsoft的 ML.NET AutoML [38] 来训练和测试二元分类模型,这些模型可以预测文章是否高质量,以帮助识别高度优化的模型,该模型由提高特异性的既定目标驱动,同时将灵敏度保持在 99% 以上。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 2. autoML 流程的示例描述。
https://doi.org/10.1371/journal.pdig.0000299.g002
我们测试了术语频率 (TF) 、逆向文档频率 (IDF) 和 TF-IDF 的权重,以解释文章标题和摘要中单词的频率及其在数据集中的频率。选择了公共领域和 ML.NET 中可用的算法的便捷样本,这些算法提供概率分数作为输出度量进行训练。这允许我们设置 99% 的敏感度阈值,而不是默认的 50%。训练时可用的算法是FastTree [39]、有限内存Broyden-Fletcher-Goldfarb-Shanno Logistic回归[40]、随机双坐标上升Logistic回归[41]、随机梯度下降校准Logistic回归[42]、符号SGD Logistic回归[43]和Light Gradient Boosting Machine (LightGBM)[44]。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 1. 使用自动化 ML 训练模型时使用的参数和特征。
https://doi.org/10.1371/journal.pdig.0000299.t001
灵敏度为 >99% 的模型按最大特异性排序,目的是最大限度地减少假阳性而不遗漏可能相关的文章。分类模型使用随机 80% 文章的标题和摘要 (n = 97,805) 进行训练。为了解决文章中的不平衡问题,我们创建了 3 个训练数据集:完整数据集的 80%(不平衡;n = 97,805),以及两个额外的数据集,通过过采样(满足标准的文章被多次纳入,以等于不符合标准的文章数量;n = 159,962)和欠采样(不符合标准的文章的随机子集与符合标准的文章数量匹配;n = 35,648)来实现平衡。
在 2012-2018 年剩余的 20% (n = 24,678) 文章的保留集上测试了训练后的模型。保留了灵敏度为 ≥99% 的模型,对每个完整、过度采样和采样不足的数据集具有最佳特异性,并且每个数据集从排行榜中选择一个模型。模型为每篇文章返回一个概率分数,范围从 0(不符合标准)到 1(符合标准)。将概率阈值确定为灵敏度为 99% 的点。为了确定与单个模型相比,集成这三个模型是否提高了性能,我们单独测试了它们的性能,并使用多数票,使得预测通过的文章在 3 个模型中的 ≥2 被归类为“通过”(如果 0 或 1 个模型预测通过,则归类为“失败”)——在我们的数据集中 2020 年发布的 30,424 篇文章的回顾性样本中。
保持测试集中模型的性能类似于内部验证。由于我们的目标是将算法实施到文献监测程序中,因此我们在对看不见的数据进行外部测试时实时评估了其性能。我们在 PubMed 的布尔搜索之后和我们的研究助理进行批判性评估之前应用多数投票算法,前瞻性地评估了多数投票算法的性能,他们对 2021 年 3 月 9 日至 5 月 11 日期间发表的 5253 篇文章的预测不知情。工作人员评估了所有预测会通过的文章,以及预测会失败的随机子集。假阴性文章由高级临床研究人员 (RBH) 进行评估,以确定临床相关性和新闻价值。
评估指标
对于所有经过训练的模型,在测试阶段,我们计算了 2012-2018 年 20% 保留文章集中的敏感性(召回率)、特异性、准确度、精密度、NNR(1/精度)和 F 分数。我们还计算了受试者工作特征 (ROC) 曲线的曲线下面积 (AUC)、校准曲线 [45],以及在 99% 召回率下抽样节省的工作(WSS@99%;算法预测为阴性因此未被审查的所有文章的百分比)[46]。计算 2020 年数据和前瞻性评估中三个选定模型的统计概率和多数票算法。对于前瞻性评价,我们使用 Begg 和 Greenes [47] 公式估计了偏倚校正的敏感性和特异性以及相应的 95% 置信区间 (CIs),该公式在仅验证子样本以解释预测失败且未通过设计验证的文章时校正了任何偏倚。偏倚校正对已验证文章的诊断分布进行建模 [47]。
结果
选定的型号及其性能
我们使用每个不平衡和过采样数据集训练了 3456 个模型,并使用欠采样数据集训练了 5760 个模型。表 2 显示了所选性能最佳模型中使用的预处理步骤和参数;三个选定的模型中的每一个都使用了 LightGBM 二元分类算法 [48]。LightGBM 是一个使用决策树算法的梯度提升框架。它是梯度提升决策树 [44\u201249] 的更有效实现,它是一种按顺序训练的决策树的集成模型,由于其效率、准确性和可解释性而被广泛使用的机器学习算法。表 3 列出了 2012-18 年和 2020 年测试数据集中三个模型的性能特征。过采样数据集显示所有经过训练的分类器的 ROC 曲线变化更大,而与不平衡数据相比,在欠采样数据上训练的分类器在性能上也略多一些(S1 附录)。三个性能最好的模型的 AUC 值非常接近,表明所选的 LightGBM 模型在所有三种情况下都具有高性能。校准曲线(S2附录)表明,不平衡模型校准良好,而其他两个模型高估了正类别,导致更多的假阳性[45]。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 2. AutoML 在训练从每个数据集实验中选择的模型时采用的数据集、预处理和特征提取步骤的特征。*
https://doi.org/10.1371/journal.pdig.0000299.t002
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 3. 测试数据集中三个模型的性能特征(2012-2018 年和 2020 年为 20%)。
https://doi.org/10.1371/journal.pdig.0000299.t003
前瞻性评价
对于前瞻性评价,我们选择使用多数票算法对 5253 篇连续进入监控系统的文章进行分类;2856 例 (54%) 被预测为高质量,2397 例 (46%) 被预测为非高质量(图 3)。人工评估员评估了所有预测为高质量的 2856 个样本和预测为不高质量的 2397 个样本中的 584 个随机样本。其余 1813 例 (90%) 未进行评估,被认为是真阴性。在预测质量不高并由工作人员评估的随机样本中,有 4 个被判定为高质量(假阴性),所有这些样本都需要使用手稿全文中的信息来确认它们符合其文章类别的评估标准。敏感性为 99.5% (CI,98.7 至 99.9),特异性为 53.5% (CI,52.0 至 55.0),F 评分为 0.427(表 4)。校正后的分析结果对 1813 篇未评估的文章进行调整(偏倚校正计算)与未校正的值重叠(表 4)。
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 3. 从 PubMed 检索的 >5000 篇文章中模型性能的前瞻性评估。
https://doi.org/10.1371/journal.pdig.0000299.g003
缩略图 下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 4. 多数票 ML 算法的预期性能。
https://doi.org/10.1371/journal.pdig.0000299.t004
讨论
模型训练和性能
使用 AutoML 和监督式机器学习的方法导致了模型的有效开发,用于识别通过高度敏感的布尔搜索预先过滤的文章,这些文章可能在关键评估中被发现是严格且具有临床相关性的。采用 AutoML 非常省时,使用 CPU 训练模型,其中大多数模型在 1-5 分钟内完成训练,并允许系统以最少的程序员时间测试预处理步骤和算法的各种排列。每个选定的性能最高的模型都使用了 LightGBM 二进制分类算法,该算法在计算上是一种快速算法,在保持准确性的同时,可以将训练速度提高 20 倍 [44]。
使用不同大小的数据集和平衡/不平衡的数据训练模型使我们能够评估数据增强的价值。我们还探讨了组合模型的效果,以确定这种方法是否会提高性能。尽管改进非常小,但我们测试集成并实施它的决定完全基于我们努力最大限度地提高特异性以降低 NNR。在 2012-2018 年的随机测试集中,将灵敏度保持在 99% 的高灵敏度,训练模型的特异性为 >50%,与不平衡和欠采样数据集相比,使用较大的过采样数据集训练的模型的性能略好。校准曲线显示了具有最佳校准效果的不平衡模型。
尽管过度采样提供了更大的样本,但它以模型训练所需的时间为代价,并导致模型过度拟合,因为我们复制了阳性案例以实现平衡。尽管使用欠采样数据集训练了更多模型,但排名靠前的模型的性能与不平衡数据集模型一致。所有模型在 2020 年数据集中都具有相似的特异性,并且表现略好于 2012-18 年数据集。这可能是由于样本更大、期刊标题和文章类型范围更广,包括 COVID-19 出版物。
多数投票组合模型的结果,其中预测三个模型中至少有两个模型的文章会通过,实际上并没有实际提高三个测试数据集多年来的性能。Aphinyanaphongs等[28]和Kilicoglu等[27]使用了这种组合模型的集合方法,并显示出更高的F分数。集成技术用于减少模型之间的可变性,方法是假设每个模型犯不同的错误[50]。当集成模型组合的基本模型尽可能多样化时,它们通常表现得更好[51]。我们的三个模型是为了表示完整的不平衡数据集、平衡的欠采样数据集和更大的过采样数据集而构建的,但它们包括相同的正类文章,采用相同类型的 ML 模型,并且在组合时可能不够多样化,无法提高性能。
与我们单独的布尔滤波器传统方法相比,ML 模型的测试和应用提高了特异性,但不是我们之前报道的基于 BioBERT 的模型 DL-PLUS [13]。我们的目标是使用轻量级和高效的模型最大限度地提高召回率/敏感性和特异性,并降低 NNR。在将 ML 模型应用于 PLUS 流程之前(以及 COVID-19 之前),我们在 2019 年的 NNR 为 4.63(95% CI,4.50 至 4.77)。随着 COVID-19 文章的增加,2020 年我们的总体 NNR 为 7.11(CI,6.92 至 7.31)。在 2021 年前瞻性评估中,增加了 LightGBM 多数票模型,所有文章类别的 NNR 降低到 3.68(CI,3.52 至 3.85),WSS@99% 为 45%。在 DL-PLUS 前瞻性验证中,所有文章的 NNR 降低到 3.0 (CI,2.8 至 3.1),其中 63% WSS@99%。NNR(以 1/精度衡量)也受到文章比例的驱动,这反映在占前瞻性评估数据中文章的 >63% 的 COVID 文章数量较高。
用于生物医学证据的机器学习
我们的方法与我们最近对用于改进高质量文章识别的 ML 的系统评价中报告的方法一致 [9]。我们使用了既定的黄金标准,用于通过我们的 PLUS 流程生产的高质量文章。本综述中纳入的 7 项研究使用 Hedges 数据集或 ACP Journal Club 中包含的文章训练了他们的模型,这两者都是通过 HiRU 中的相同过程生成的 [9]。与其他研究一样,我们使用标题和摘要作为训练特征。在我们早期的系统评价中纳入的 10 项研究中,有 7 项研究使用了经过我们流程严格评价的文章数据集 [9]。
我们的模型优化了召回率以减少相关文章的损失,但这是以降低特异性和精确性为代价的。我们模型的精度在26%到33%之间,被使用集成模型的Kilicoglu等[27]、使用神经网络模型的Del Fiol等[10](34%)和Afzal等[11](86%)所超越。对于我们的 DL-PLUS 型号,精度为 42%。实现的较高精度可能归因于针对特定类别的文章。Kilicoglu 等 [27] 使用了一个集成模型,当应用于一般文章时,该模型的准确率达到 37%,召回率达到 63%,用于识别严格的治疗文章时,准确率达到 74%,召回率达到 86%,所有这些都是 RCT,这是一个具有既定术语和报告结构的类别。Afzal 等 [11] 使用 Cochrane 库作为其神经网络的训练数据集,其中包括系统评价和 RCT,它们再次在标题、摘要或两者兼而有之中使用明确的研究设计术语。这有利于模型的检索功能并提高模型的整体性能 [11]。使用其他功能(如 MeSH 术语和 MEDLINE 元数据)也可以解释其模型性能的改进,尽管这些元素在文章首次发布在 PubMed 上时并不容易获得,因为 PubMed 创建日期和应用索引之间存在延迟,这因期刊标题而异 [52]。由于我们在发布到 PubMed 后的 2 周内应用了我们的评估,因此我们没有包括其他潜在变量,例如引用(在发布后随着时间的推移而累积)或作者等。Aphinyanaphongs等[28,29]使用ACP Journal Club的治疗、诊断、预后和病因学文章来训练模型,这些文章反映了我们数据集中包含的文章类型范围。
Ambalavanan 和 Devarakonda 训练了 sciBERT(一种预先训练的深度学习算法),并使用 Clinical Hedges 数据集研究了治疗文章分类器的类比率和训练集的大小 [53]。他们发现,当有更多正面到负面文章时,召回率会最大化,在更大的训练集中精度会提高,尽管似乎有一个点,拥有更大的数据集并不会导致性能提高,并且使用相当大的平衡文章集 (15,000:15,000) 时,F 分数是最优的。他们对文章分类过程中的许多步骤(例如,人类感兴趣、原始研究、治疗文章、严谨性)进行建模,发现预测严谨性的 F 分数最低,这是一项更困难的任务。值得注意的是,他们的研究集中在治疗类别中的文章,而我们的模型涵盖了监测过程中涵盖的所有类别的文章。
F 分数是召回率(不遗漏大量实例)和精确率(检索到的文档中相关实例的比例)之间的平衡,它提供了开发模型稳健性的直观值。分配给模型的文章分类任务是二进制的,召回率进行了优化,以提高模型相对于其精度的稳健性。这种针对更高召回率的有意优化是出于我们的动机,即最大限度地减少丢失相关高质量文章的机会。这限制了我们最大限度地提高精度的灵活性,并导致总体 F 分数较低。训练数据集和模型筛选的文章流中的广泛文章类别也会降低 F 分数。如果我们试图从特定目的类别中对文章进行分类,例如使用 RCT 设计的治疗研究,我们预计 F 评分会更高。
对证据监测的意义
为临床医生检索最高质量的证据推动了对创建初始布尔搜索策略的研究,现在应用机器学习模型取得了进步。我们于 2021 年 5 月在我们的流程中实施了多数票 ML 算法(参见图 1B)。在 2021 年 5 月 11 日至 2022 年 3 月 11 日期间,使用布尔搜索从 PubMed 中检索了 25 867 篇文章;11 776 人 (45.5%) 被预测不符合标准,并被从关键评估队列中删除。保守估计,评估每篇文章需要 5 分钟的人力资源时间,在此期间节省了 >981 小时的研究助理时间,同时保持了所处理证据的完整性。这一点尤为重要,因为我们在 2020 年将所有索引期刊的 COVID-19 相关文章添加到我们的监测计划中,以支持从业者、政策制定者和外行人通过 COVID-19 证据警报网站快速访问评估新兴研究 [54]。LightGBM 和随后的 DL-PLUS BioBERT 模型抵消了这一不断增长的 COVID-19 文献的一些额外负担,如 63% 的较高 WSS@99%。
LightGBM 模型已被用于支持证据量较少的疾病领域的 DynaMed 更新[55]。为了减轻主题作者人工审查的负担,LightGBM 对 PubMed 中疾病特异性内容搜索检索到的 91,009 篇文章进行了排名,其中排名最高的 8,406 篇 (9.2%) 进行了相关性人工审查,576 篇 (6.9%) 用于更新 241 个主题 [55]。这展示了 ML 支持的证据检索和管理的另一个真实示例。
人工智能驱动的模型可以促进信息检索、处理和总结,可以为有临床问题但搜索答案时间有限的用户以及临床教科书、系统评价和指南等证据材料的制作者提供支持 [8]。随着 LLM 的不断发展和改进,我们期望更高的效率和轻松获得基于证据的答案。
优点和局限性
我们的模型是使用迄今为止已知的最大的、经过批判性评价和标记的医疗保健研究文章数据集进行训练的,该数据集涵盖了一系列文章类别,并基于该领域既定的严谨性黄金标准 [9]。尽管关键评价标准由单个读者应用,但所有纳入的研究和有问题的研究均由最终编辑进行评估,临床相关性由相关临床学科的执业临床医生分配。该数据集克服了我们在综述中发现的一些挑战:1) 用于评估严谨性的标准是基于最佳循证医学实践的既定黄金标准;2) 数据集是迄今为止最大的,训练数据集包括 17 824 篇高质量类文章,允许创建过采样和欠采样数据集进行训练;3) 数据集中包括一系列临床领域的期刊 [56];4) 训练数据集是当代的,包括 2012-2018 年的文章,并在 2020 年的数据中进行了测试。对所选组合模型的性能进行前瞻性、盲法评估突出了实际应用和影响的价值。
然而,这些模型是使用 PubMed 中 ~120 种期刊子集的预过滤文章得出的,并且对文献数据库中所有内容的可推广性是不确定的。这些担忧被 2020 年文章中模型的性能所缓解,这些文章更多,并且涵盖了更多的期刊标题,因为所有预先过滤的 COVID-19 文章都被纳入其中。尽管阅读的数量较高(考虑到 COVID 相关研究中质量较低的证据数量,这并不奇怪),但特异性和准确性得到了提高。不平衡数据集的校准曲线表明,该模型经过良好校准,可保持准确的概率。相比之下,两个平衡模型的校准似乎很差,这表明平衡过程可能引入了偏差,导致开发出次优模型。仅使用文章的标题和摘要对模型进行训练,而研究助理使用文章的全文来评估严谨性,前瞻性评估中的四篇假阴性文章需要摘要以外的信息才能进行评估。由于我们在文章进入 PubMed 后立即将模型应用于文章,因此我们没有在模型训练中使用其他潜在变量,例如关键字、作者信息、引文网络或索引术语,因为它们并非始终可用或不可靠,或者需要时间累积。
未来模型开发
在这项研究中,我们使用了 logistic 回归方法,更先进的深度学习技术表现更好 [10,11,13]。我们计划评估模型,而不仅仅是文献监测,并调查有关模型开发的最佳类比率和训练数据集大小的问题。我们未来的研究包括按文章类别评估模型性能,并将我们的模型更广泛地应用于 PLUS 监测的期刊名称之外。鉴于我们数据集的丰富性,包括不符合关键评估标准的标记原因以及评估时捕获的其他文章元数据,我们希望通过利用这些数据来提高模型性能。
主动监控计划允许对模型进行人机协同主动训练,并探索模型如何做出决策。这项研究将帮助我们更深入地了解该领域的 ML 模型。
结论
通过采用增强方法 LightGBM,我们显著提高了识别符合方法学严谨标准并与临床实践相关的生物医学文章的特异性,同时保持了非常高的灵敏度。所选模型在支持将知识转化为执业临床医生的主动监测计划中表现良好。
支持信息
在 3 个数据集上训练的模型的受试者工作特征 (ROC) 曲线。
显示 1/2: pdig.0000299.s001.pdf
跳至 fig分享导航
很抱歉,我们无法加载您的数据。
1 / 2
下载
无花果分享
S1 附录。 在 3 个数据集上训练的模型的受试者工作特征 (ROC) 曲线。
https://doi.org/10.1371/journal.pdig.0000299.s001
(PDF格式)
S2 附录。
在 2020 年的文章数据集中使用 A. 欠采样、B. 不平衡和 C. 过采样数据集训练的 3 个 LightGBM 模型的校准曲线。
https://doi.org/10.1371/journal.pdig.0000299.s002
(DOCX)
引用
1.Montori VM、Wilczynski NL、Morgan D、Haynes RB、Hedges 团队。从 Medline 检索系统综述的最佳搜索策略:分析调查。英国医学杂志。2005 年 1 月 8 日;330(7482):68.
查看文章谷歌学术
2.Haynes RB、McKibbon KA、Wilczynski NL、Walter SD、Werre SR、对冲队。从 Medline 检索科学上强有力的治疗研究的最佳搜索策略:分析调查。英国医学杂志。2005 年 5 月 21 日;330(7501):1179.
查看文章谷歌学术
3.Wilczynski NL、McKibbon KA、Walter SD、Garg AX、Haynes RB。在最近几年的检索中,MEDLINE 临床查询非常可靠。J Am Med Inform Assoc. 2013 年;20(2):363–8.PMID:23019242
查看文章PubMed/NCBI谷歌学术
4.Sterne JAC、Savović J、Page MJ、Elbers RG、Blencowe NS、Boutron I 等人。RoB 2:评估随机试验偏倚风险的修订工具。英国医学杂志。2019 年 8 月 28 日;l4898.PMID:31462531
查看文章PubMed/NCBI谷歌学术
5.Wallace BC, Trikalinos TA, Lau J, Brodley C, Schmid CH. 用于系统评价的生物医学引文的半自动筛选。BMC 生物信息学。2010 年 1 月 26;11。PMID:20102628
查看文章PubMed/NCBI谷歌学术
6.Tsou AY, Treadwell JR, Erinoff E, Schoelles K. 机器学习在系统评价中用于筛选优先级:Abstrackr 和 EPPI-Reviewer 的比较性能。系统修订版 2020 年 4 月 2 日;9(1).PMID:32241297
查看文章PubMed/NCBI谷歌学术
7.Gates A, Johnson C, Hartling L. 系统评价的技术辅助标题和摘要筛选:Abstrackr 机器学习工具的回顾性评价。系统修订版 2018 年 3 月 12 日;7(1).PMID:29530097
查看文章PubMed/NCBI谷歌学术
8.多斯桑托斯 ÁO, 达席尔瓦 ES, 科托 LM, 雷斯 GVL, 贝洛 VS.使用人工智能进行自动化或半自动化生物医学文献分析:范围审查。J Biomed Inform [互联网]。2023 年 6 月;142:104389。供货范围: https://linkinghub.elsevier.com/retrieve/pii/S1532046423001107 pmid:37187321
查看文章PubMed/NCBI谷歌学术
9.Abdelkader W, Navarro T, Parrish R, Cotoi C, Germini F, Iorio A, et al. 从生物医学文献中检索高质量、临床相关证据的机器学习方法:系统评价.JMIR Med Inform.2021 年 9 月 1 日;9(9).可从:/pmc/articles/PMC8461527/ pmid:34499041
查看文章PubMed/NCBI谷歌学术
10.Del Fiol G、Michelson M、Iorio A、Cotoi C、Brian Haynes R、Haynes RB 等人。一种从生物医学文献中自动识别科学严谨的临床研究报告的深度学习方法:比较分析研究。J Med Internet Res. 2018 年 6 月 25 日 [引用日期 2021 年 11 月 20 日];20(6):e10281。可从:/pmc/articles/PMC6037944/ pmid:29941415
查看文章PubMed/NCBI谷歌学术
11.Afzal M, Park BJ, Hussain M, Lee S. 使用科学严谨性标准进行基于深度学习的生物医学文献分类。电子(瑞士)。2020 年 8 月 1 日;9(8):1–12.
查看文章谷歌学术
12.Park B, Afzal M, Hussain J, Abbas A, Lee S. 使用基于注意力的深度学习自动识别高影响力的相关文章以支持临床决策。电子(巴塞尔)。2020;9(9):1364.可从: https://www.mdpi.com/2079-9292/9/9/1364/htm
查看文章谷歌学术
13.Lokker C, Bagheri E, Abdelkader W, Parrish R, Afzal M, Navarro T, et al. 深度学习从生物医学文献中改进对高质量临床研究文章的识别:性能评估。J 生物医学信息。2023 年 5 月 8;104384。供货范围: https://linkinghub.elsevier.com/retrieve/pii/S1532046423001053 pmid:37164244
查看文章PubMed/NCBI谷歌学术
14.Oleynik M, Kugic A, Kasáč Z, Kreuzthaler M. 评估 2018 年 n2c2 临床文本分类共享任务的浅层和深度学习策略。J Am Med Inform Assoc. 2019 年 11 月 1 日;26(11):1247–54.PMID:31512729
查看文章PubMed/NCBI谷歌学术
15.Ceolin A. 比较 CNN 和浅层语言识别模型的性能。在: Zampieri M, Nakov P, Ljubešić N, Tiedemann J, Scherrer Y, Jauhiainen T, editors.VarDial 2021 年。计算语言学协会;2021. 第 102-12 页。可从: https://aclanthology.org/2021.vardial-1.12
16.Tantuğ A, Eryiğit.用于垃圾邮件分类的 Naϊve Bayes 分类、支持向量机和神经网络的性能分析。在:应用软计算技术:复杂性的挑战。柏林/海德堡:施普林格出版社;第 495-504 页。
17.Bi Z, 周 C. 使用神经网络模型理解时间计算。美国国家科学院院刊。2020 年 5 月 12 日;117(19):10530–40.PMID:32341153
查看文章PubMed/NCBI谷歌学术
18.定义不可定义:医疗保健人工智能中的黑匣子问题。J Med 伦理学。2022 年 10 月;48(10):764–8.
查看文章谷歌学术
19.艾伦 B.可解释的 AI 在精准医疗的数字健康中的承诺:系统评价。J Pers Med. 2024 年 3 月 1 日;14(3).PMID:38541019
查看文章PubMed/NCBI谷歌学术
20.Chaddad A, Peng J, Xu J, Bouridane A. 医疗保健中可解释的 AI 技术调查。传感器。2023 年 1 月 5 日;23(2):634.PMID:36679430
查看文章PubMed/NCBI谷歌学术
21.Linardatos P, Papastefanopoulos V, Kotsiantis S. 可解释的人工智能:机器学习可解释性方法综述。熵。2020 年 12 月 25 日;23(1):18.PMID:33375658
查看文章PubMed/NCBI谷歌学术
22.Baker S, Korhonen A, Pyysalo S. 使用卷积神经网络进行癌症标志文本分类。在:Ananiadou、Batista-Navarro R、Cohen KB、Demner-Fushman D、Thompson P,编辑。COLING 2016 组委会;2016. 第 1-9 页。可从: https://aclanthology.org/W16-5101
23.Aphinyanaphongs Y, Aliferis CF. 用于检索内科高质量文章的文本分类模型。AMIA 年度研讨会论文集。2003;2003:31.可从:/pmc/articles/PMC1480096/ pmid:14728128
查看文章PubMed/NCBI谷歌学术
24.Bian J, Morid MA, Jonnalagadda S, Luo G, Del Fiol G. 在 PubMed 中自动识别高影响力文章以支持临床决策。J 生物医学信息。2017 年 9 月 1 日;73:95–103.PMID:28756159
查看文章PubMed/NCBI谷歌学术
25.林 JW, 张 CH, 林 MW, 埃贝尔 MH, 蒋 JH.使用信息提取技术自动化关键评估过程并评估证据强度。J Eval Clin 实践。2011 年 8 月;17(4):832–8.PMID:21707873
查看文章PubMed/NCBI谷歌学术
26.Afzal M, Hussain M, Haynes RB, Lee S. 基于证据的决策质量证据的上下文感知分级。健康信息学杂志,2019 年 6 月 1 日;25(2):429–45.PMID:28766402
查看文章PubMed/NCBI谷歌学术
27.Kilicoglu H、Demner-Fushman D、Rindflesch TC、Wilczynski NL、Haynes RB。朝着自动认可科学严谨的临床研究证据的方向发展。J Am Med Inform Assoc. 2009 年 1 月 [引用日期 2021 年 11 月 20 日];16(1):25–31.供货范围: https://pubmed.ncbi.nlm.nih.gov/18952929/ pmid:18952929
查看文章PubMed/NCBI谷歌学术
28.Aphinyanaphongs Y, Tsamardinos I, Statnikov A, Hardin D, Aliferis CF. 内科高质量文章检索的文本分类模型。J Am Med Inform Assoc. 2005 年;12(2):207–16.PMID:15561789
查看文章PubMed/NCBI谷歌学术
29.Aphinyanaphongs Y, Aliferis C. 用于在 MEDLINE 中识别高质量、内容特异性文章的文本分类过滤器的前瞻性验证。AMIA Annu Symp Proc. 2006 年 1 月 1 日;6–10.供货范围:https://www.ncbi.nlm.nih.gov/pmc/articles/pmid/17238292/?tool=EBI pmid:17238292
查看文章PubMed/NCBI谷歌学术
30.Kumar V、Lalotra GS、Sasikala P、Rajput DS、Kaluri R、Lakshmanna K 等人。使用计算智能技术解决类不平衡临床数据集的二元分类问题。医疗。2022 年 7 月 13 日;10(7):1293.PMID:35885819
查看文章PubMed/NCBI谷歌学术
31.Haynes RB、Holland J、Cotoi C、McKinlay RJ、Wilczynski NL、Walters LA 等人。McMaster PLUS:一项干预的整群随机临床试验,旨在加速数字图书馆循证信息的临床使用。J Am Med Inform Assoc. 2006 年 11 月 1 日;13(6):593–600.供货范围: https://academic.oup.com/jamia/article-lookup/doi/10.1197/jamia.M2158 pmid:16929034
查看文章PubMed/NCBI谷歌学术
32.Wilczynski NL、Morgan D、Haynes RB、H 队。检索用于临床护理的高质量研究的设计和方法概述。BMC Med Inform Decis Mak.2005;5(1):20.可从: https://doi.org/10.1186/1472-6947-5-20 pmid:15969765
查看文章PubMed/NCBI谷歌学术
33.HiRU 纳入标准 [Internet]。[引用 2021 年 8 月 5 日]。可从: https://hiru.mcmaster.ca/hiru/InclusionCriteria.html
34.Haynes RB, Cotoi C, Holland J, Walters L, Wilczynski N, Jedraszewski D, et al. 临床从业者医学文献的二阶同行评审。美国医学会。2006 年 4 月 19 日;295(15):1801–8.PMID:16622142
查看文章PubMed/NCBI谷歌学术
35.Wang Q, Ming Y, Jin Z, Shen Q, Liu D, Smith MJ, et al. ATMSeer.收录于:2019 年 CHI 计算系统中人为因素会议论文集。美国纽约州纽约:ACM;2019. 第 1-12 页。
36.Drozdal J, Weisz J, Wang D, Dass G, Yao B, Zhao C, et al.信任 AutoML:探索建立对自动化机器学习系统的信任的信息需求。收录于:第 25 届智能用户界面国际会议论文集。美国纽约州纽约:ACM;2020. 第 297-307 页。
37.Holland J、Haynes RB、McMaster PLUS 团队健康信息研究组。McMaster Premium Literature Service (PLUS):一种在 Web 上提供的循证医学信息服务。AMIA Annu Symp Proc. 2005;2005:340–4.
查看文章谷歌学术
38.什么 is.NET?一个开源开发人员平台。[互联网]。[引用于 2021 年 12 月 22 日]。可从: https://dotnet.microsoft.com/en-us/learn/dotnet/what-is-dotnet
39.Price MN, Dehal PS, Arkin AP. FastTree:使用轮廓而不是距离矩阵计算大型最小进化树。分子生物学 Evol.2009 年 7 月 1 日;26(7):1641–50.PMID:19377059
查看文章PubMed/NCBI谷歌学术
40.刘 DC, Nocedal J.在有限内存 BFGS 方法上进行大规模优化。数学程序。1989 年 8 月;45(1–3):503–28.
查看文章谷歌学术
41.Tran K, Hosseini S, Xiao L, Finley T, Bilenko M. 扩大随机双坐标上升。收录于:第 21 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集。美国纽约州纽约:ACM;2015. 第 1185-94 页。
42.Bottou L. 神经网络中的随机梯度学习。在:Neuro-Nîmes 论文集 91。法国尼姆;1991.
查看文章谷歌学术
43.Devarakonda A, Demmel J. 避免逻辑回归中的通信。2020 年 11 月 16 日;可从: http://arxiv.org/abs/2011.08281
查看文章谷歌学术
44.Ke G, Meng Q, Finley T, Wang T, Chen W, 马 W, et al. LightGBM:一种高效的梯度提升决策树。收录于:第 31 届神经信息处理系统国际会议 (NIPS'17) 论文集 [Internet]。纽约州雷德胡克:Curran Associates Inc;2017 [引用 2024 年 1 月 23 日]。第 3149-57 页。可从: https://dl.acm.org/doi/10.5555/3294996.3295074
45.罗伯茨 A. https://arize.com/blog-course/what-is-calibration-reliability-curve/。2023 [引用于 2024 年 1 月 29 日]。校准曲线:您需要了解的内容。可从: https://arize.com/blog-course/what-is-calibration-reliability-curve/
46.科恩 AM、赫什 WR、彼得森 K、颜 PY、科恩 AM。使用自动引文分类减少系统综述准备的工作量。J Am Med Inform Assoc. 2006 年;13:206–19.供货范围: http://www.ahrq.gov/clinic/epcindex.htm/ pmid:16357352
查看文章PubMed/NCBI谷歌学术
47.贝格 CB,格林斯 RA。当疾病验证受选择偏倚影响时评估诊断性试验。生物测定学。1983 年 3 月;39(1):207–15.PMID:6871349
查看文章PubMed/NCBI谷歌学术
48.公司 Microsoft。欢迎使用 LightGBM 的文档!—LightGBM 3.3.1.99 文档 [Internet]。2021 [引用 2021 年 12 月 14 日]。可从: https://lightgbm.readthedocs.io/en/latest/
查看文章谷歌学术
49.弗里德曼 JH.贪婪函数近似:梯度提升机。统计年鉴。2001 年 10 月 1 日;29(5).
查看文章谷歌学术
50.Polikar R. 合奏学习。在:张 C,马 Y,编辑。集成机器学习:方法和应用。马萨诸塞州波士顿:美国施普林格;2012. 第 1-34 页。
51.周 ZH.集成学习。在:生物识别百科全书。马萨诸塞州波士顿:美国施普林格;2009. 第 270-3 页。
52.Irwin AN, Rackham D. 根据影响因子、学科和重点比较生物医学期刊在 PubMed 中的索引时间。社会与行政药学研究。2017 年 3 月 1 日;13(2):389–93.PMID:27215603
查看文章PubMed/NCBI谷歌学术
53.Ambalavanan AK, Devarakonda M V. 使用上下文语言模型 BERT 对科学文章进行多标准分类。J 生物医学信息。2020 年 12 月;112:103578。可从: https://linkinghub.elsevier.com/retrieve/pii/S1532046420302069
查看文章谷歌学术
54.来自 McMaster PLUS 的 McMaster HIRU COVID-19 证据警报 |主页 [Internet]。2022 年 [引用于 2022 年 6 月 28 日]。供货范围: https://plus.mcmaster.ca/Covid-19/
查看文章谷歌学术
55.卡瓦纳 PL, 纳瓦罗-阮 T, 拉维塔 P, 帕里什 R, 伊奥里奥 A.一种机器学习驱动的文献监测方法,用于识别 PubMed 在证据量较少的疾病领域的高质量研究。在:同行评审和科学生产国际大会 [Internet]。美国伊利诺伊州芝加哥;2022. 可从:https://peerreviewcongress.org/
查看文章谷歌学术
56.Journals Reviewed [互联网]。[引用 2022 年 6 月 28 日]。可从: https://hiru.mcmaster.ca/hiru/journalslist.asp