厦门免费医学论文发表--按年龄组对智能分类模型进行地理验证
张婷婷 ,马修·维恩斯,达斯汀·邓斯缪尔,亚肖达尼·皮莱,查理·赫克斯福德,大卫·基穆泰,伊曼纽尔·特尼瓦,玛丽·欧玛,乔伊斯·基戈,斯蒂芬·卡马乌,玛丽·切格,内森·肯尼亚-穆吉沙,萨维奥·姆瓦卡,[ ... ],代表小儿脓毒症实验室 抽象 在低收入和中等收入国家,新生儿传染病占五岁以下儿童死亡率的一半。临床预测模型等数据驱动的算法可用于有效检测危重儿童,以优化护理并降低死亡率。到目前为止,只有少数预测模型经过外部验证,并且仅限于新生儿住院死亡率。本研究的目的是使用来自乌干达和肯尼亚的联合前瞻性基线队列,以入院、死亡率和再入院为复合终点,从外部验证先前推导的临床预测模型(智能分诊)。我们使用受试者-操作员曲线下面积 (AUROC) 和具有年龄子集(< 30 天、≤ 2 个月、≤ 6 个月和 < 5 岁)的可视化校准图来评估模型区分度。由于新生儿(< 1 个月)的表现下降,我们重新估计了截距和系数,并选择了新的阈值,以最大限度地提高敏感性和特异性。11595名五岁以下(5岁以下)的参与者被纳入分析。所有5岁以下儿童(包括新生儿)的终点比例为8.9%,仅新生儿亚组的比例为26%。该模型对 AUROC 为 0.81 的 5 岁以下儿童的区分良好(95% CI:0.79-0.82),但对 AUROC 为 0.62 的新生儿的区分较差(95% CI:0.55-0.70)。5岁以下儿童和新生儿在低风险阈值(CI)下的敏感性分别为85%(83%-87%)和68%(58%-76%)。在对新生儿进行模型修订后,我们的AUROC为0.83(95%CI:0.79-0.87),低风险阈值和高风险阈值分别为13%和41%。更新后的智能分诊在不同年龄组的预测能力方面表现良好,可以纳入当地医疗机构当前的分诊指南。需要对模型进行进一步验证,特别是对于新生儿模型。 作者摘要 临床预测建模在各个医学领域越来越受欢迎,因为它可以通过为患者提供个性化的风险评估来改善临床决策。它是一种统计技术,结合了患者特定因素,以个性化治疗和优化卫生资源分配。临床预测模型需要在不同的环境和人群中进行验证,并相应地进行更新,以确保临床环境中的准确性和相关性。我们的目标是评估目前在乌干达和肯尼亚多家医院的儿科门诊部实施的一种此类模式。该模型已被纳入一个数字平台,用于在分诊时快速识别危重儿童。在针对不同年龄组验证模型后,我们发现当前模型非常适合除新生儿以外的各种年龄组,因此尝试更新模型。我们的研究为影响新生儿结局的临床变量提供了新的见解,我们希望降低资源匮乏环境中的新生儿死亡率。 数字 表3表1图1图2表2图3图4表3表1图1图2 引文: Zhang C, Wiens MO, Dunsmuir D, Pillay Y, Huxford C, Kimutai D, et al. (2024) 按年龄组对智能分类模型进行地理验证。PLOS 数字健康 3(7): 编号:E0000311。 https://doi.org/10.1371/journal.pdig.0000311 编辑 器: Po-Chih Kuo,国立清华大学:国立清华大学,台湾 收到: 2023年6月27日;接受: 2024年5月25日;发表: 7月 1, 2024 版权所有: © 2024 Zhang et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。 数据可用性: 协议、数据字典、数据收集软件和代码目前不受限制,可通过小儿脓毒症 CoLab (https://doi.org/10.5683/SP3/MSTH98) 获得,但须符合 CoLab 的道德和治理要求(联系 jessica.trawin@cw.bc.ca)。 资金: 这项研究得到了加拿大大挑战 (TTS-2008-35944)、惠康信托基金会 (215695/B/19/Z) 和卑诗省儿童医院基金会的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。https://www.grandchallenges.ca/ https://wellcome.org/ https://www.bcchf.ca/。 利益争夺: 约翰·马克·安塞米诺 (John Mark Ansarmino) 担任 PLOS Digital Health 的版块编辑。 介绍 自1990年以来,5岁以下儿童总体死亡率显著下降,但这种改善主要归因于非新生儿人群结局的改善[1]。低收入和中等收入国家,特别是撒哈拉以南非洲和南亚国家,继续不成比例地导致全球儿童死亡[1]。在2020年死亡的500万名5岁以下儿童中,有240万名新生儿,腹泻、下呼吸道感染、脑膜炎和疟疾等传染病是主要诱因[2]。脓毒症是一种功能失调的炎症通路,可导致感染、死亡和合并症,占中低收入国家急诊和急诊就诊的大多数[3]。 有效的分诊有助于危重症儿童的早期识别,并可通过病例优先级来改善结局,因为在资源贫乏地区,大多数院内死亡发生在入院后24小时内[4,5]。世界卫生组织(World Health Organization, WHO)制定了急诊分诊评估和治疗(Emergency Triage Assessment and Treatment, ETAT)指南,用于资源匮乏设施中急症患儿的评估、分诊和初始管理[6]。ETAT的复杂性需要临床知识、大量记忆和重复训练,因此在患者负担和新员工流动率高的环境中实施ETAT具有挑战性[7–9]。另一种解决方案是使用电子平台,无论是否使用临床预测模型,该平台使用数据驱动的算法来确定护理的优先级[10,11]。一个这样的例子是智能分诊模型,这是一个9预测因子的儿科分诊模型,可以嵌入到数字分诊平台中[12]。尽管目前取得了进展,但由于缺乏可推广性和外部验证,这些模型无法广泛传播[13,14,15]。 预测模型越来越多地被用于个体化决策,并为医疗保健中的服务提供计划提供信息[14]。然而,这些模型在临床实施之前需要经过外部验证[14,16,17]。在外部验证期间,模型是否应该重新推导或更新取决于其在验证队列中的表现、研究资源的可用性以及将应用该模型的参与者的特征[15]。通过保持相同的预测变量,更新模型可以保持预测性能,而不会丢失原始模型中捕获的先前信息[16]。因此,显然需要针对新设置优化现有的预测模型[15]。 本研究的目的是从外部验证智能分类模型,因为这可以弥合预测模型开发和实现之间的差距,以确保模型的可重复性和通用性[14]。地理验证和数据子集是实现此目的的两种方法。我们通过结合乌干达三个医院站点和肯尼亚两个站点的数据进行了地理验证。我们进一步按年龄组对数据进行子集,以衡量其在数据集中不同年龄组中的准确性和适用性,因为某些子组可能导致预测偏差或不准确。由于年龄是风险预测的重要因素,我们的目标是从数据中删除年龄较大的年龄组,以衡量模型的准确性。新生儿期被认为是临床风险最高的时期[18],这可能是由于诱发感染、疾病易感性、宿主反应和潜在生理储备的差异[19]。为了优化跨年龄的风险预测性能,我们假设 1 个月以下的患者(新生儿)具有不同的风险和生理机能;因此,需要不同的模型。我们通过一系列模型更新程序更新了这个年龄组的模型[20]。我们的研究使用易于收集的常规临床变量解决了新生儿预测模型可用性的差距。我们的模型致力于通过结合不良健康结果(即死亡率、住院和再入院)来确定患者优先级并减少危重病人的分诊等待时间。由于新生儿预测模型的地理区域和临床背景有限,我们承认需要在其他地理和临床环境中进行进一步验证,以确保准确性、可推广性和可重复性。 方法 模型外部验证和更新遵循了《多变量预测模型的透明报告,用于个体预后或诊断》(Transparent Reporting of a multivari prediction model for Individual Prognosis or Diagnosis, TRIPOD)指南,该指南关于开发、验证或更新多变量临床预测模型[21]。 研究人口和设计 智能分诊模型是根据 2020 年 4 月至 2021 年 3 月在乌干达卫生部资助的公立医院金贾地区转诊医院 (Jinja) 门诊儿科 (OPD) 进行的一项前瞻性基线队列研究开发的。它是乌干达东部最大的转诊医院,为居住在金贾和周边八个地区的患者提供服务。其门诊部的功能类似于高收入国家的急诊科,每天评估20至100名患者,入院率约为20%。 该模型通过结合乌干达另外三个地点的基线数据集进行了外部验证:古卢地区转诊医院 (Gulu)、乌干达烈士伊班达医院 (Ibanda) 和圣约瑟夫基托武医院 (Kitovu),以及肯尼亚的两个地点:姆巴加蒂县医院 (Mbagathi) 和基安布县转诊医院 (Kiambu),分别针对不同年龄组(< 30 天、≤ 2 个月、 ≤ 6 个月,< 5 年)。加拿大不列颠哥伦比亚大学(University of British Columbia)的机构审查委员会(ID:H19-02398;H20-00484)、肯尼亚医学研究所(ID:KEMRI/SERU/CGMR-C/183/3958)、乌干达马克雷雷大学公共卫生学院(ID:SPH-2021-41)和乌干达国家科学技术委员会(ID:HS1745ES)。 用于验证的数据是 2021 年 3 月至 2022 年 4 月在 Gulu、2021 年 12 月至 2022 年 5 月在 Ibanda、2021 年 12 月至 2022 年 6 月在 Kitovu、2021 年 2 月至 12 月在 Mbagathi 和 2021 年 3 月至 2022 年 12 月在 Kiambu 进行的前瞻性基线队列研究。招募并培训研究护士以执行特定于研究的程序。他们使用基于时间截止的准随机抽样方法在分诊等候区招募并同意参与者,并收集健康数据。Gulu、Ibanda 和 Kitovu 的 OPD 每年接诊约 150,000、19,000 和 19,000 名患者,入院率分别为 18%、33% 和 28%。肯尼亚的两家医院每年接收约20,000名患者,入院率为7%至10%。 抽样和资格 研究程序的全部细节见以前的出版物[10,12]。简而言之,在上午 8:00 至下午 5:00 之间在所有医院的儿科急诊科寻求急性疾病评估的 12、15 或 19 岁以下儿童使用时间截止抽样程序入组。除了父母/看护人的同意外,在Jinja和Gulu,8岁以上的儿童和肯尼亚的13岁以上儿童也获得了同意。尽管这项研究仅使用 5 岁以下的数据。Ibanda 和 Kitovu 的儿童没有得到个人同意,因为该计划是作为一项质量改进计划实施的,并放弃了个人同意。参加择期手术、预定预约或慢性病治疗的儿童不符合入组条件。 数据收集和管理 所有站点的数据收集都遵循与Jinja开发初始模型相同的程序[12]。使用受密码保护的 Android 平板电脑和带有加密数据库的定制移动应用程序收集数据。带有微型 USB 连接器的 iSpO2 脉搏血氧仪(Masimo, Irvine, CA)直接连接到平板电脑以收集脉搏血氧饱和度和心率,并使用 SureTemp 692(Welch Allyn, Skaneateles Falls, NY)温度计测量核心温度。数据直接从Android平板电脑上传到REDCap(研究电子数据采集)[22],并分别发送到乌干达和肯尼亚的BC儿童医院研究所和KEMRI Wellcome Trust研究计划办公室的中央研究服务器。每次上传后,平板电脑上的数据都会自动删除。小儿脓毒症CoLab Dataverse提供了数据收集和管理的标准操作规程[23]。 Primary outcome 复合终点由以下一项或多项组成:根据医院记录确定的入院 24 小时或更长时间、入院后 48 小时内再次入院以及死亡率,包括住院或出院后。入院、再入院以及住院或出院后死亡率状态通过研究入组后 7 天(对于非入院患者)或出院后致电护理人员进行随访来确认。作为二次分析,使用Fisher精确检验比较了6个月以上至5岁以下儿童和6个月及以下儿童之间具有复合终点的儿童比例。 智能分类模型 使用自举逐步回归方法推导多元逻辑模型,并基于临床有效性,最终方程中包含九个预测变量。该模型被集成到一个带有内置脉搏血氧饱和度应用程序(连接脉搏血氧仪传感器)的移动应用程序中,提供了一种智能算法,可以检测到医院就诊的儿童的疾病严重程度或风险水平。移动应用程序将数据发送到交互式仪表板,该仪表板实时向医生提供临床测量和分诊数据,从而可以快速识别和评估危重症儿童[12,24]。 该模型中包含的九个预测因子是年龄的平方根,试图将年龄与风险、心率、体温、中上臂围 (MUAC)、转化血氧饱和度(使用虚拟分流的概念 [25])、父母关注、呼吸困难、水肿和苍白(S1 附录)之间的非线性关系线性化。 统计分析 样本量。 样本量在入组前在每个地点预先确定。在乌干达,它是根据公式 N = (nx10)/I 计算的,其中 N 是样本量,n 是候选预测变量的数量,I 是总体中的估计事件发生率。Jinja 开发的 Smart Triage 模型有 9 个预测变量,入院率为 20%;因此,至少需要 450 名参与者的样本。在乌干达的其他地点,由于已经确定了预测变量,因此使用入院率来计算所需的近似样本量。在肯尼亚,在pmsampsize R软件包[26]中实施了四步程序,以确定执行模型验证所需的最小样本。假设输入 C 统计量为 0.8,入院率为 0.05,Cox-Snell R-sq 为 0.0697,基于表观和调整后的 R 平方的可接受差异为 0.05,截距估计的误差范围为 0.05,并且每个预测变量参数的事件为 7。 模型验证、校准和更新。 将智能分诊模型方程应用于由五个医院站点组成的组合数据集,分为四个年龄组:< 1 个月、≤ 2 个月、≤ 6 个月和 < 5 岁。这些年龄组是根据WHO的婴儿死亡率特殊统计年龄分类选择的[27]。随后从数据中删除年龄较大的年龄组,从> 6 个月开始,然后是 > 2 个月,然后是 ≥ 1 个月,直到只剩下新生儿来评估模型在年轻人群中的表现。我们还使用独家年龄组进行了验证:>6m 至 < 5 岁、>2m 至 6m 和 1m 至 2m,以及仅新生儿。按照 N = (nx10)/I 规则,每个年龄类别的样本量仍然足够。评估了该模型的整体性能、辨别力和校准[14,28,29]。使用Brier评分评估模型的整体性能,范围从0到1,值越小表示模型越好。使用受试者工作曲线下面积 (AUROC) 评估区分度,并使用受试者工作特征 (ROC) 曲线进行可视化。AUROC接近1表示辨别能力良好,而AUROC接近0.5表示无法辨别[28]。通过预测结果率与观测结果率的校准图来评估校准,45度线代表完美校准[29]。校准截距为 0,斜率为 1 被认为是理想的。该模型仅通过从重新校准到模型修订的一系列步骤(包括原始的Jinja队列)针对新生儿进行了更新。第一步是重新校准,通过重新估计模型截距来解决基线风险的差异。下一步是逻辑重新校准,以重新估计截距和斜率。最后,通过使用同一组预测变量重新估计所有回归系数来执行模型修订。由于范围较窄,年龄不是平方根。每个步骤都使用校准图以及 AUROC、观察/期望比率以及校准截距和斜率进行目视检查。由于新生儿的样本量较小,因此使用应用于整个数据集的 10 倍交叉验证程序进行内部验证。计算 AUROC、敏感性、特异性和预测值的汇总估计值,以量化预测准确性。 风险分层。 根据我们之前报道的模型开发过程[12],为新模型选择了两个新的风险阈值,将参与者分为三个分类类别(紧急、优先和非紧急)。低风险阈值的敏感性为90%,以限制将紧急和优先病例错误分类为非紧急病例(避免假阴性),而选择高风险阈值为90%的特异性,以限制将非紧急或优先病例错误分类为紧急情况(避免假阳性)。使用风险分类表来检查更新模型在患者分类方面的准确性。 缺失值非常少,分别使用连续变量和分类变量的中位数和众数进行插补。在 Stata 版本 15.0/MP(StataCorp,德克萨斯州大学城)、R 版本 4.1.3(R Foundation for Statistical Computing,维也纳,奥地利)和 RStudio 版本 2022.2.3(RStudio,波士顿,马萨诸塞州)中进行分析。 结果 参与者 共有 13285 名参与者参加了该研究,其中 11595 名 (87%) 5 岁以下儿童被纳入分析,新生儿占 404 名 (3.5%) 5 岁以下儿童。在所有年龄组中,男性的患病率都较高,比例约为53%和46%(表1)。大约9%的五岁以下参与者入院,随着年轻年龄组被视为分母,这一比例增加,在新生儿中达到26%。6个月以上和6个月及以下的受试者之间具有复合终点的受试者比例存在统计学显著差异(p值<0.0001)。对于所有年龄组,超过90%的入院患者至少停留时间为24小时,不到1%的人被送回家并在48小时内重新入院。肺炎和新生儿败血症是 5 岁以下受试者入院的最常见原因。疟疾在年龄较大的儿童中更为常见(140例(13.9%)),没有新生儿因疟疾诊断而入院。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 表 1. 参与者特征。 https://doi.org/10.1371/journal.pdig.0000311.t001 模型性能和风险分层 当所有年龄组都包括在内时,智能分类模型的整体表现最好,Brier 得分为 0.08。随着年龄较大的人群被剔除,新生儿的Brier评分增加到0.18。该模型对除新生儿外的所有年龄组都实现了良好的区分,AUROC值范围从5岁以下儿童的0.81(95%CI:0.79-0.82)到两个月及以下的0.70(95%CI:0.65-0.76)(图1)。该模型对新生儿的区分能力较差,AUROC为0.63(95%CI:0.56-0.70)。年轻年龄组的校准斜率也有所下降,5岁以下儿童的校准斜率为0.78,新生儿为0.42(图2)。对专属年龄组的评估:>6m 至 < 5 岁、>2m 至 6m 和 1m 至 2m 也导致除新生儿外的所有年龄组的 AUROC 分别为 0.82、0.85 和 0.83 的良好区分(S1 图)。校准图显示了类似的现象(S2图)。在比较包容性和排除性组之间的模型表现时,纳入年轻参与者会降低模型表现。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 1. 按年龄组划分的 ROC 曲线。 每个模型的参与者并不相互排斥,因为 5 岁以下的参与者包括年龄较小的参与者。AUC = 曲线下面积;CI = 置信区间。 https://doi.org/10.1371/journal.pdig.0000311.g001 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 2. 按年龄组划分的校准图。 每个模型的参与者并不相互排斥,因为 5 岁以下的参与者包括年龄较小的参与者。 https://doi.org/10.1371/journal.pdig.0000311.g002 表 2 显示了智能分诊模型按每个年龄组的分诊类别划分的敏感性和特异性。对于5岁以下儿童,该模型在低风险阈值(非紧急)下实现了85%(95%CI:83%-87%)的敏感性,在高风险阈值(紧急)下实现了93%(95%CI:93%-94%)的特异性。随着年龄较大的队列被剔除,敏感性降低,而特异性保持相对不变。对于新生儿,在低风险阈值下敏感性为 68%(95% CI:58%-76%),在高风险阈值下特异性为 96%(95% CI:94%-98%)。该模型将大约 10% 的参与者确定为紧急情况。在检查相互排斥的年龄组时,敏感性仍然很高,在低风险阈值下从86%到90%不等,特异性在93%到98%之间(S1表)。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 表 2. 将风险分层分为三个分类类别和模型性能的摘要。 https://doi.org/10.1371/journal.pdig.0000311.t002 新生儿模型更新 随着辨别力、校准度和灵敏度分别下降 0.19%、0.36% 和 17%,针对新生儿开发了更新的模型。图3显示了模型更新过程的顺序。每个步骤都会导致校准的改进(在第二步达到理想值 1),但在模型修订的最后阶段之前,区分度的改进有限。最终模型的AUROC为0.83(95%CI:0.79–0.87),校准截距和斜率分别为0和1(图4)。推导了预测变量的新截距和系数。更新模型的公式为: 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 3. 仅适用于新生儿的模型更新。 模型更新序列的校准图。E:O = 预期概率与观测概率;CITL = 校正大指数,显示平均预测概率与观测到的事件频率之间的差异;AUC = 曲线下面积。 https://doi.org/10.1371/journal.pdig.0000311.g003 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 4. 新生儿更新模型的ROC曲线和校准图。 AUC = 曲线下面积;CI = 置信区间。 https://doi.org/10.1371/journal.pdig.0000311.g004 根据所需的敏感性和特异性,为低风险和高风险分别选择了两个新阈值,分别为 0.13 和 0.41。低风险阈值的敏感性为91%(95%CI:86%-95%),高风险阈值的特异性为90%(95%CI:87%-93%)。新模型将23%的新生儿归入急诊类别,其中68%的新生儿具有复合终点。 讨论 本研究使用来自乌干达和肯尼亚五个医院的组合数据集,对所有五岁以下儿童的智能分诊模型进行了外部验证,并评估了不同年龄组的模型性能。新生儿的复合终点比例更高,为26%,而5岁以下儿童为8.9%。该模型在所有 5 岁以下儿童中实现了良好的辨别能力,AUROC 为 0.81。然而,当排除老年队列时,其区分能力(区分有结局和无结局结局的能力[30])每次都会降低,新生儿的AUROC降至0.62。在这两个月及以下的时间里,观察到的和模型预测的复合终点(校准)风险之间的一致性也恶化了。同样,当使用包含新生儿的数据与未包含新生儿的数据比较模型性能时,排除新生儿的数据数据集的性能更好;因此,原来的智能分诊模式不适合新生儿。通过重新估计所选预测变量的基线风险和系数,该模型针对该年龄组进行了更新。模型修订后,辨别力和校准能力得到改善,AUROC为0.83。 外部验证 外部验证表明,该模型在所有地点的新队列中都保持了良好的区分度。然而,由于Gulu和肯尼亚两个地点的新队列的入院率较低,该模型高估了具有复合终点的概率。结果发生率的差异是校准错误的最可能原因。当在疾病患病率高的环境中开发算法时,在疾病发病率较低的环境中使用时,该算法可能会系统性地高估风险[31]。表现的差异是由于一些预测因子之间的关联强度与新人群中的结局有很大不同[32]。在重新拟合新的5岁以下儿童组合队列(S2表)的逻辑回归时,这一点很明显。心率和水肿不再是统计学上显着的预测因子,因为尽管样本量大十倍,但五个部位的水肿患儿比例较低(S3表)。此外,在这种改装中,年龄和结果之间的关系从正相关变为负相关(S2表)。在外部验证数据集中,每个分类预测变量的结果比例较低(S2表)。预测变量值及其影响的巨大可变性可能会降低整体性能。随着老年受试者被排除在外,该模型区分高危人群的能力和这种区分的准确性下降。由于年轻年龄组的生理学和病理学差异,这是临床上预期的。鉴别力表现下降的另一个原因是新生儿的年龄范围较小,而年龄是模型中影响模型表现的预测因子[14,33]。年轻年龄组的校准更具异质性(图 2),样本量较小、开发队列和验证队列之间的病例组合差异以及参与者之间的临床异质性可能会放大。 新生儿模型更新 我们更新了新生儿的模型,因为它们在疾病易感性、宿主反应和潜在生理储备方面存在差异。出生后最初28日是最脆弱的时期,新生儿更有可能入院[18]。低出生体重、先天性畸形、独特感染和胎龄是与较差结局相关的因素,可能不会显著影响年龄较大的儿童[34]。影响新生儿结局的因素可能与1个月及以上的因素不同。这在我们的数据中很明显,因为在原始模型中用于预测 5 岁以下儿童入院、再入院和死亡率的预测因子中有一半在更新后的新生儿模型中不再具有统计学意义(S4 表)。造成这种情况的一个原因是,由于对数据进行子集,样本量较小,因此缺乏统计功效。尽管如此,转化氧饱和度(OR 1.05,95%CI 1.02-1.08)和温度(OR 1.96,95%CI 1.45-2.69)仍然是重要的危险因素(S4表)。预计该模型对新生儿的性能会降低。我们通过遵循三种更新方法的顺序来更新模型,这些方法的广泛性不同。调整截距(基线风险)显示校准有适度的改善。对截距和斜率的重新估计继续改进校准;然而,重新估计所包含预测变量的所有系数对于改善区分是必要的,因为 AUROC 从 0.66 提高到 0.83 是显而易见的。既往研究表明,当模型的辨别力需要改进时,需要修正方法[16,33]。使用一组新的预测变量更新模型可能是最佳方法;然而,需要考虑研究资源和模型改进之间的权衡。当原始模型中的特定预测因子在新人群中具有不同的影响时,首选对预测变量进行小幅调整的修正方法[16]。在我们的研究中,我们选择保留原始预测变量并更新系数。之前的一项研究表明,保留原始选择的变量,其中所有系数都使用大型数据集重新估计,可以改善模型的区分和校准[35]。 临床意义 在实施之前,临床预测模型的外部验证至关重要,因为模型在外部验证期间通常表现较差[14]。预测模型必须准确,以便根据疾病严重程度提供精确的病例优先级和适当的个性化护理建议,以优化患者的预后。到目前为止,一项综述纳入了84032项关于预测模型的研究,得出的结论是,只有5%的研究得到了外部验证[14]。此外,目前在资源匮乏环境中使用的新生儿预测模型主要用于估计院内死亡率[34,36]。重症儿童的结果不仅仅基于住院死亡率,因为入院、再入院和出院后死亡率在影响儿童生存方面错综复杂地交织在一起。其他模型仅限于预定义人群,例如重度子痫前期母亲所生的婴儿或早产/低出生体重儿,因此这些模型的推广性较差[37,38]。坦桑尼亚一家新生儿重症监护病房开发的模型之一[36]确定出生体重、体温和呼吸频率可预测院内死亡率,我们还将这些因素确定为综合终点的重要预测因子。在肯尼亚和乌干达开发的另外两种住院新生儿死亡率预测模型包括智能分诊中的许多预测因子[10,39]。通过这些一致性,我们已经证明,智能分类(一种简洁的分类模型)在不同但相关的地理环境中的外部验证期间表现良好,使其具有可重复性。该模型目前在乌干达和肯尼亚的几个地点实施[40,41],以改善患者优先级并减少分诊等待时间。我们还证明,通过更新基于相同精简变量的模型,可以在数据子集中实现显着的性能改进。在低风险阈值下,该模型能够排除低风险患者,因为其阴性预测值很高。在高危阈值下,阳性预测值为68%(95%CI 61%-76%),证明了该模型能够正确分类高危患者。阳性似然比表明,被归类为急诊的患者需要住院的几率增加了 5.8 倍(表 3)。此外,91%的受试者入院至少24小时,92%的死亡被归入优先或紧急类别(表3)。智能分类模型的简约易于解释和理解。当模型的结果可用于做出影响公共卫生结果的改变生活的临床决策时,这种可解释性尤为重要。与 ETAT 相比,它需要更少的计算能力和时间来训练、评估和部署,使其适用于实时应用程序。它可以很容易地整合到数字应用程序中,以便及时识别危重儿童并及时治疗,提高公共卫生系统的效率并导致儿童存活率的增加。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 表 3. 通过更新模型对新生儿进行风险分层的总结。 https://doi.org/10.1371/journal.pdig.0000311.t003 优势和局限性 本研究的主要局限性在于验证地点位于相邻的地理区域。这些地点的卫生设施类型相似,但设施之间的疾病患病率和社会经济地位存在差异,这增加了队列的异质性。原始队列和验证队列之间的最佳相似性是可重复性和可推广性之间的权衡。接下来的步骤是在不同的大陆或城市三级医疗机构进行外部验证。由于数据集中的子组代表性不足,导致预测偏斜或不准确,从而引入潜在的数据偏差,因此对数据进行子集化是一个进一步的限制。然而,我们利用我们对特定年龄疾病过程的临床知识,将我们的队列分层为特定的年龄类别,并且通过额外的队列,我们能够按年龄对子集进行分层,并通过对新生儿年龄组的模型调整来提高模型性能。这项研究的一个关键优势是使用来自多个站点的大型数据集进行外部验证,以提供良好的统计功效。使用常规可用的临床数据导致数据缺失率较低。更新后的模型使用自举技术进行内部验证,这是最广泛推荐的内部验证技术,因为它允许从完整的推导样本中推导出最终模型,并且不会浪费宝贵的信息[42]。此外,修订后的模型使用了部分原始数据,防止了过度拟合[42]。 结论 智能分诊模型已在东非的类似临床环境中进行了外部验证。提出了一种更新的新生儿模型,但需要额外的外部验证。该模型目前正在乌干达和肯尼亚实施,以便利用常规临床数据和现成的生命体征在第一接触点快速识别危重症儿童。有证据表明,治疗质量、患者结局和成本效益均有所改善[43,44]。我们认为该模型非常适合在资源匮乏的环境中使用;然而,需要进一步的研究来继续完善模型,通过实施一系列监督机器学习方法(如随机森林、袋装分类器和决策树)来提高其可重复性和通用性,以获得更准确的模型。目前的主要差距是缺乏在临床环境中实施和更新模型的平台。随着临床数据的本地收集,预测模型可以实时更新,但这需要基于强大且安全的实施框架来完成。这将导致更本地化的临床实践指导和更针对目标人群的护理。 支持信息 智能分类模型。 显示 1/7: pdig.0000311.s001.docx 跳到无花果共享导航 很抱歉,我们无法加载您的数据。 1 / 7 下载 无花果分享 S1 附录。 智能分类模型。 https://doi.org/10.1371/journal.pdig.0000311.s001 (DOCX) S1 图。 独占组的校准图。 https://doi.org/10.1371/journal.pdig.0000311.s002 (蒂芙) S2 图。 独占组的 ROC 曲线。 https://doi.org/10.1371/journal.pdig.0000311.s003 (蒂芙) S3 图。 10 倍交叉验证的受试者工作特征曲线,用于更新的新生儿模型的内部验证。 https://doi.org/10.1371/journal.pdig.0000311.s004 (蒂芙) S1 表。 将风险分层分为三个分类类别和模型性能的摘要。 https://doi.org/10.1371/journal.pdig.0000311.s005 (DOCX) S2 表。 逻辑回归的比较。 https://doi.org/10.1371/journal.pdig.0000311.s006 (DOCX) S3 表。 跨推导集和验证集分层的分类预测变量摘要。 https://doi.org/10.1371/journal.pdig.0000311.s007 (DOCX) 确认 我们要感谢金贾地区转诊医院、古卢地区转诊医院、乌干达烈士伊班达医院、圣约瑟夫基托武医院、姆巴加蒂县医院和基安布县转诊医院的行政人员和工作人员,以及参与者和护理人员对智能分诊的时间和奉献精神。我们还要感谢 Walimu 和小儿脓毒症实验室。 引用 1.联合国儿童基金会。2023 年五岁以下儿童死亡率 [可从:https://data.unicef.org/topic/child-survival/under-five-mortality/。 查看文章Google 学术搜索 2.组织 WH. 2022 年儿童死亡率(5 岁以下)[可从:https://www.who.int/news-room/fact-sheets/detail/levels-and-trends-in-child-under-5-mortality-in-2020。 查看文章Google 学术搜索 3.Kwizera A、Kissoon N、Musa N、Urayeneza O、Mujyarugamba P、Patterson AJ 等。一种基于机器学习的分诊工具,适用于资源匮乏环境中的急性感染儿童。2019 年儿科重症监护医学;20(12):E524–E30。PMID:31805020 查看文章PubMed/NCBIGoogle 学术搜索 4.卡普尔 R、桑多瓦尔 MA、阿文达诺 L、克鲁兹 AT、索托 MA、Camp EA 等。在危地马拉,从转诊医院到初级保健保健中心,在区域范围内扩大紧急分诊评估和治疗(ETAT)培训方案。新兴医学杂志 2016;33(9):611–7.PMID:27207345 查看文章PubMed/NCBIGoogle 学术搜索 5.Dekker-Boersema J、Hector J、Jefferys LF、Binamo C、Camilo D、Muganga G 等。在莫桑比克北部一家乡村医院的急诊科,由非专业工作人员进行的分诊和急诊培训降低了儿科死亡率。Afr J Emerg Med. 2019;9(4):172–6.PMID:31890479 查看文章PubMed/NCBIGoogle 学术搜索 6.更新指南:危重症儿童的儿科急诊分诊、评估和治疗护理 [新闻稿]。2016. 查看文章Google 学术搜索 7.Molyneux E, Ahmad S, Robertson A. 在资源有限的环境中,改善儿童的分诊和急诊护理可降低住院患者死亡率。公牛世界卫生机构。2006;84(4):314–9.PMID:16628305 查看文章PubMed/NCBIGoogle 学术搜索 8.Hategeka C, Mwai L, Tuyisenge L. 实施紧急分诊、评估和治疗加入院护理 (ETAT+) 临床实践指南,以提高卢旺达地区医院的医院护理质量:医护人员对相关性和挑战的看法。BMC Health Serv Res. 2017 年;17(1):256.PMID:28388951 查看文章PubMed/NCBIGoogle 学术搜索 9.Mupara LU, Lubbe JC.《儿童疾病综合管理战略的实施:博茨瓦纳的挑战和建议》。全球健康行动。 2016;9:29417。PMID:26899774 查看文章PubMed/NCBIGoogle 学术搜索 10.Mpimbaza A, Sears D, Sserwanga A, Kigozi R, Rubahika D, Nadler A, et al. 乌干达四家公立医院住院儿科死亡率的入院风险评分。PLoS 一号。2015;10(7):e0133950.PMID:26218274 查看文章PubMed/NCBIGoogle 学术搜索 11.Mawji A、Akech S、Mwaniki P、Dunsmuir D、Bone J、Wiens MO 等。推导和内部验证数据驱动的预测模型,以指导一线卫生工作者对肯尼亚内罗毕的五岁以下儿童进行分类。惠康公开赛 2019;4:121。PMID:33997296 查看文章PubMed/NCBIGoogle 学术搜索 12.Mawji A、Li E、Dunsmuir D、Komugisha C、Novakowski SK、Wiens MO 等。智能分诊:开发用于低收入和中等收入国家的快速儿科分诊算法。前儿科。2022;10:976870.PMID:36483471 查看文章PubMed/NCBIGoogle 学术搜索 13.George EC、Walker AS、Kiguli S、Olupot-Olupot P、Opoka RO、Engoru C 等。预测患病非洲儿童的死亡率:FEAST 儿科急诊分诊 (PET) 评分。BMC 医学 2015;13:174。PMID:26228245 查看文章PubMed/NCBIGoogle 学术搜索 14.Ramspek CL, Jager KJ, Dekker FW, Zoccali C, van Diepen M. 预后模型的外部验证:什么、为什么、如何、何时何地?临床肾脏杂志 2021 年;14(1):49–58. 查看文章Google 学术搜索 15.Binuya MAE、Engelhardt EG、Schats W、Schmidt MK、Steyerberg EW。评估和更新临床预测模型的方法学指南:系统评价。BMC Med Res Methodol.2022;22(1):316.PMID:36510134 查看文章PubMed/NCBIGoogle 学术搜索 16.Janssen KJ, Moons KG, Kalkman CJ, Grobbee DE, Vergouwe Y. 更新方法提高了临床预测模型在新患者中的性能。J 临床流行病学杂志。2008;61(1):76–86.PMID:18083464 查看文章PubMed/NCBIGoogle 学术搜索 17.临床预测模型:开发、验证和更新的实用方法。第二版Gail M,编辑。瑞士:施普林格;2019. 18.联合国儿童基金会。儿童死亡率的水平和趋势。2023. 查看文章Google 学术搜索 19.Nemetchek BR、Liang LD、Kissoon N、Ansermino JM、Kabakyenga J、Lavoie PM 等。婴儿出院后死亡率建模的预测变量:协议开发项目。2018年Afr健康科学;18(4):1214–25.PMID:30766588 查看文章PubMed/NCBIGoogle 学术搜索 20.Vergouwe Y、Nieboer D、Oostenbrink R、Debray TPA、Murray GD、Kattan MW 等。一个封闭的测试过程,用于选择更新预测模型的适当方法。统计医学 2017;36(28):4529–39.PMID:27891652 查看文章PubMed/NCBIGoogle 学术搜索 21.柯林斯 GS、Reitsma JB、Altman DG、Moons KG。透明报告个体预后或诊断的多变量预测模型 (TRIPOD):TRIPOD 声明。BMC 医学 2015;13:1。PMID:25563062 查看文章PubMed/NCBIGoogle 学术搜索 22.哈里斯 PA、泰勒 R、蒂尔克 R、佩恩 J、冈萨雷斯 N、康德 JG。研究电子数据采集 (REDCap) — 一种元数据驱动的方法和工作流程,用于提供转化研究信息学支持。J 生物医学信息。2009;42(2):377–81.PMID:18929686 查看文章PubMed/NCBIGoogle 学术搜索 23.Mawji A. Smart Triage Jinja 标准操作协议,V1 [数据集] 学者门户 Dataverse2021 [可从:https://borealisdata.ca/dataset.xhtml?persistentId=doi:%2010.5683/SP2/WLU0DJ。 查看文章Google 学术搜索 24.Mawji A、Li E、Komugisha C、Akech S、Dunsmuir D、Wiens MO 等。智能分诊:使用床旁儿科快速脓毒症触发 (PRST) 工具对儿童脓毒症进行分诊和管理。BMC Health Serv Res. 2020;20(1):493.PMID:32493319 查看文章PubMed/NCBIGoogle 学术搜索 25.Tushaus L, Moreo M, Zhang J, Hartinger SM, Mausezahl D, Karlen W. 生理驱动的海拔适应模型,用于解释海拔 2,000 米以上的儿科氧饱和度 J Appl Physiol (1985)。2019;127(3):847–57.PMID:31525318 查看文章PubMed/NCBIGoogle 学术搜索 26.Ensor J, Martin EC, Riley RD. 软件包 'pmsampsize'.2022. 查看文章Google 学术搜索 27.国家 U. 关于标准国际年龄分类的临时准则。纽约:联合国国际经济和社会事务部统计局;1982. 合同编号:M. 28.Steyerberg EW、Vickers AJ、Cook NR、Gerds T、Gonen M、Obuchowski N 等。评估预测模型的性能:传统和新措施的框架。流行病学。2010;21(1):128–38.PMID:20010215 查看文章PubMed/NCBIGoogle 学术搜索 29.Alba AC、Agoritsas T、Walsh M、Hanna S、Iorio A、Devereaux PJ 等。临床预测模型的鉴别和校准:医学文献用户指南。贾马。2017;318(14):1377–84.PMID:29049590 查看文章PubMed/NCBIGoogle 学术搜索 30.Tuti T, Collins G, English M, Clinical Information N, Aluvaala J. 高死亡率环境中住院新生儿死亡率预测模型的外部验证。BMC Med. 2022 年;20(1):236.PMID:35918732 查看文章PubMed/NCBIGoogle 学术搜索 31.Steyerberg EW、Roobol MJ、Kattan MW、van der Kwast TH、de Koning HJ、Schroder FH。惰性前列腺癌的预测:预后列线图的验证和更新。J Urol.,2007年;177(1):107–12;讨论 12.PMID:17162015 查看文章PubMed/NCBIGoogle 学术搜索 32.Su TL, Jaki T, Hickey GL, Buchan I, Sperrin M.临床预测模型的统计更新方法综述.统计方法医学研究 2018;27(1):185–97.PMID:27460537 查看文章PubMed/NCBIGoogle 学术搜索 33.Toll DB, Janssen KJ, Vergouwe Y, Moons KG.临床预测规则的验证、更新和影响:综述。J 临床流行病学杂志。2008;61(11):1085–94.PMID:19208371 查看文章PubMed/NCBIGoogle 学术搜索 34.梅德韦杰夫 MM、Brotherton H、Gai A、Tann C、Gale C、Waiswa P 等。开发和验证用于预测体重 2000 克或以下新生儿新生儿死亡风险的简化评分 (NMR-2000):使用英国和冈比亚数据的分析。柳叶刀儿童青少年健康。2020;4(4):299–311.PMID:32119841 查看文章PubMed/NCBIGoogle 学术搜索 35.Cooray SD、Boyle JA、Soldatos G、Allotey J、Wang H、Fernandez-Felix BM 等。妊娠糖尿病女性不良妊娠结局风险预测模型的开发、验证和临床效用:PeRSonal GDM 模型。生态医学。2022;52:101637.PMID:36313142 查看文章PubMed/NCBIGoogle 学术搜索 36.Kovacs D, Msanga DR, Mshana SE, Bilal M, Oravcova K, Matthews L. 开发用于预测坦桑尼亚新生儿重症监护病房新生儿死亡率的实用临床工具。BMC 儿科。2021;21(1):537.PMID:34852794 查看文章PubMed/NCBIGoogle 学术搜索 37.Ngwenya S、Jones B、Mwembe D、Nare H、Heazell AEP。开发和验证资源匮乏地区严重子痫前期孕产妇和新生儿不良结局的风险预测模型,津巴布韦布拉瓦约姆皮洛中心医院。妊娠期高血压。2021;23:18–26.PMID:33161225 查看文章PubMed/NCBIGoogle 学术搜索 38.Shukla VV, Eggleston B, Ambalavanan N, McClure EM, Mwenechanya M, Chomba E, et al. 资源有限环境中围产期死亡率的预测建模。JAMA Netw 公开赛。2020;3(11):e2026750.PMID:33206194 查看文章PubMed/NCBIGoogle 学术搜索 39.Aluvaala J、Collins G、Maina B、Mutinda C、Waiyego M、Berkley JA 等。高死亡率环境中住院新生儿死亡率的预测模型。Arch Dis Child. 2020年;106(5):449–54.PMID:33093041 查看文章PubMed/NCBIGoogle 学术搜索 40.Kigo J、Kamau S、Mawji A、Mwaniki P、Dunsmuir D、Pillay Y 等。用于资源有限设施的儿科 SMART 分诊模型的外部验证。medRxiv。2023.06.05.23291007. 41.Kamau S, Kigo J, Mwaniki P, Dunsmuir D, Pillay Y, Zhang C, et al.智能分诊模型与紧急分诊评估和治疗 (ETAT) 指南在对肯尼亚两家公立医院急诊科就诊的儿童进行分诊时的比较。medRxiv。2023.11.08.23298265. 42.Massaut J、Valles P、Ghismonde A、Jacques CJ、Louis LP、Zakir A 等。用于资源受限的急诊外科中心死亡率预测的改良南非分诊量表系统:一项回顾性队列研究。BMC Health Serv Res. 2017 年;17(1):594.PMID:28835247 查看文章PubMed/NCBIGoogle 学术搜索 43.Novakowski SK、Kabajaasi O、Kinshella MW、Pillay Y、Johnson T、Dunsmuir D 等。卫生工作者对乌干达转诊医院质量改进的数字分诊平台Smart Triage的看法:定性分析。BMC 儿科。2022;22(1):593.PMID:36229790 查看文章PubMed/NCBIGoogle 学术搜索 44.Li ECK、Grays S、Tagoola A、Komugisha C、Nabweteme AM、Ansermino JM 等。智能分诊计划的成本效益分析协议:乌干达东部小儿败血症的即时数字分诊平台。PLoS 一号。2021;16(11):e0260044.PMID:34788338 查看文章PubMed/NCBIGoogle 学术搜索