厦门免费医学论文发表-使用深度学习和集成机器学习模型预测津巴布韦男男性行为者的性传播感染
欧文·穆古伦吉 ,埃利奥特·姆邦吉 ,鲁滕多·比里-马科塔,无辜的钦贡贝,Munyaradzi Mapingure,布莱恩·莫约,阿蒙·姆波夫,约翰·巴塔尼,本希尔达·穆赫姆瓦,切斯特菲尔德桑巴舞,喜悦穆里戈,穆萨·西宾迪,伊诺斯·莫约,塔法兹瓦·齐纳马里拉 ,戈弗雷·穆苏卡 抽象 全球男男性行为者(MSM)的性传播感染(STI)大幅增加。无保护的性行为、多个性伴侣、刑事定罪、污名化、对歧视的恐惧、药物使用、难以获得护理以及缺乏早期性传播感染筛查工具是促成因素之一。因此,本研究应用多层感知器(MLP)、极随机树(ExtraTrees)和XGBoost机器学习模型,利用津巴布韦的生物行为调查(BBS)数据预测MSM的STI。数据是从津巴布韦的 1538 名 MSM 收集的。数据集分别以 80% 和 20% 的比例分为训练集和测试集。应用合成少数群体过抽样技术(SMOTE)来解决类不平衡问题。该研究使用逐步逻辑回归模型,揭示了男男性行为者中性传播感染的几个预测因素,如年龄、与性伴侣同居、教育状况和就业状况。结果表明,MLP优于STI预测模型(XGBoost和ExtraTrees),准确率为87.54%,召回率为97.29%,准确率为89.64%,F1-Score为93.31%,AUC为66.78%。XGBoost 还实现了 86.51% 的准确率、96.51% 的召回率、89.25% 的准确率、92.74% 的 F1 分数和 54.83% 的 AUC。ExtraTrees的准确率为85.47%,召回率为95.35%,准确率为89.13%,F1-Score为92.13%,AUC为60.21%。这些模型可以有效地用于识别高危男男性行为者,进行性传播感染监测,并进一步开发性传播感染筛查工具,以改善男男性行为者的健康结果。 作者摘要 在这项研究中,我们调查了使用机器学习来识别津巴布韦性传播感染 (STI) 高风险的男男性行为者 (MSM)。由于无保护措施的性行为和获得医疗保健的机会有限等因素,男男性行为者面临更大的性传播感染风险。我们使用来自津巴布韦 1500 多名 MSM 的调查数据来训练机器学习模型来预测 STI。这些模型在识别高危个体方面比传统的统计方法更准确。我们的研究结果表明,机器学习可以成为改善男男性行为者STI预防和筛查工作的宝贵工具,特别是在资源有限的环境中。这种方法可以帮助医疗保健提供者针对最需要的人进行干预,并最终改善津巴布韦男男性行为者的健康结果。 数字 表3图8表1图1表2图2图3图4图5图6图7表3图8表1图1表2 引文: Mugurungi O, Mbunge E, Birri-Makota R, Chingombe I, Mapingure M, Moyo B, et al. (2024) 使用深度学习和集成机器学习模型预测津巴布韦男男性行为者的性传播感染。PLOS 数字健康 3(7): 编号:E0000541。 https://doi.org/10.1371/journal.pdig.0000541 编辑 器: Walter Karlen,德国乌尔姆大学 收到: 2023年12月14日;接受: 2024年5月28日;发表: 7月 3, 2024 版权所有: © 2024 Mugurungi et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。 数据可用性: 可应要求提供数据。参与者同意书规定,只有研究调查人员才能访问研究记录。此外,数据可能包含个人身份和高度敏感信息的元素,鉴于津巴布韦同性性行为的刑事性质,获取数据的请求应送交津巴布韦卫生和儿童保育部常务秘书(ps@moh.gov.zm)和布莱恩·莫约博士(卫生部流行病学家、艾滋病和结核病规划)moyobk1@gmail.com.寻求访问数据的个人将需要适当的 IRB 和机构(哥伦比亚大学的 ICAP、MOHCC、CDC)领导批准,这将由常务秘书办公室通过 Brian Moyo 博士提供便利。 资金: 作者没有为这项工作获得任何具体资金。 利益争夺: 作者声明不存在相互竞争的利益。 1. 引言 在其他人群中,男男性行为者(MSM)是全球性传播感染和人类免疫缺陷病毒(Human immunodeficiency virus, HIV)的高风险人群[1],占2019年成人HIV新发感染病例的23%[2]。男男性行为者比一般人群更容易感染HIV,因为他们的行为和生物学因素包括无保护的性行为、无保护的[3]、多个性伴侣和物质使用[4,5]。这些因素,加上刑事定罪、污名化[6]、对歧视的恐惧[7]、难以获得护理以及一些国家缺乏早期性传播感染筛查工具,使男男性行为者更容易受到伤害,并增加了HIV感染的风险[8]。在津巴布韦,普通人群的HIV流行率仍然很高(11.6%)[9],男男性行为者中的HIV流行率更高(23.4%)[4]。包括生物医学和行为方法在内的一些干预措施已被用于降低男男性行为者社区中艾滋病毒和性传播感染的风险。尽管做出了这些努力,但性传播感染仍然是男男性行为者中最常见的感染之一[6]。需要将机器学习和深度学习等新兴技术与预测能力相结合。通过无缝整合机器学习和深度学习等新兴技术,我们增强了生物医学干预的预测能力。这种集成可以通过提供更准确的预测、个性化的见解和及时的反馈来优化和完善现有方法。 在应用机器学习算法预测 MSM 的 HIV 发病率 [10]、诊断 [6]、感染 [11] 和识别与 HIV 感染相关的危险因素方面取得了重大进展。预测男男性行为者中的性传播感染对于减少新感染、改善风险监测以及最重要的是开发性传播感染检测前筛查工具至关重要。这些工具可以改善男男性行为者的性传播感染筛查程序,特别是在资源有限的环境中以及将男男性行为者定为刑事犯罪和污名化的国家。此外,应用机器学习预测男男性行为者的性传播感染可以改善性传播感染风险监测,并确定那些可能需要暴露前预防(PrEP)的人,最重要的是确定津巴布韦男男性行为者中与性传播感染相关的风险因素。然而,缺乏关于应用 ML 模型预测 MSM 中 STI 的文献,尤其是在发展中国家,例如 Zimbabwe.To 解决这些差距,本研究确定了与 STI 相关的风险因素,并使用生物行为数据和机器学习模型预测了 MSM 中的 STI。与统计模型不同,逻辑回归、人工神经网络 (ANN)、支持向量机 (SVM)、MLP、ExtraTrees、随机森林 (RF)、决策树、AdaBoost、Bagging 和 XGBoost 等机器学习模型具有预测能力和解决复杂问题的能力,包括分类和预测任务。经过训练、测试和验证后,机器学习模型可用于开发智能数据驱动的性传播感染筛查应用程序,这些应用程序可以帮助难以到达的社区,如男男性行为者,以高精度和准确性进行性传播感染的早期筛查,并为进一步的筛查和诊断提出建议。 二、相关工作 机器学习 (ML) 和深度学习 (DL) 技术在改善医疗保健服务方面取得了重大进展。例如,机器学习和深度学习模型,包括递归神经网络 (RNN)、神经网络卷积 (CNN)、随机森林、K 最近邻 (KNN)、逻辑回归、决策树、支持向量机、K 均值和多层感知器,已经用于解决公共卫生领域的分类和聚类问题。现有文献表明,ML和DL模型主要用于HIV建模,预测HIV发病率[2]、HIV感染,并进一步用于MSM,并在某些情况下开发HIV筛查工具[12]。例如,Makota和Musenge[13]进行的一项研究应用催化模型和Farrington模型来估计津巴布韦的HIV发病率。他们的研究结果发现,Farrington模型比催化模型表现更好。此外,Birri Makota 和 Musenge (2023) [14] 还应用了 XG Boost 算法,使用 2005 年至 2015 年的人口健康调查数据预测津巴布韦的 HIV 状况。他们的研究表明,XGBoost 在原始数据和 SMOTE 平衡数据上的表现优于其他模型。此外,在澳大利亚,Bao等[2]应用随机森林和梯度增强机器学习算法来预测HIV和STI(衣原体、梅毒和淋病),这些模型达到了很高的准确性。此外,在中国浙江省,He等[3]应用支持向量机、决策树、随机森林和逻辑回归来预测MSM的HIV感染。 3. 方法论 3.1 数据来源和道德考量 该研究使用了津巴布韦卫生和儿童保育部的二手数据。数据是作为ICAP进行的HIV流行研究的一部分收集的。2019 年 3 月至 7 月,在津巴布韦的哈拉雷和布拉瓦约招募了 MSM 和跨性别女性/性别酷儿 (TGW/GQ) 个人进行横断面 BBS。MSM 和 TGW/GQ 个人如果生理上是男性,就有资格参加 BBS;在过去 12 个月内与男性进行过或;年满 18 岁;上个月居住在哈拉雷或布拉瓦约;会说英语、绍纳语或恩德贝莱语。本研究中使用的协议和工具获得了哥伦比亚大学机构审查委员会 (# IRB-AAAR8950) 和津巴布韦医学研究委员会 (#(MRCZ/A/2156) 的伦理和行政批准。该协议由美国疾病控制与预防中心 (CDC) 审查 (# 2018–444)。一旦确认了资格,根据潜在参与者的喜好,他们将获得一份英语、绍纳语或恩德贝莱语的同意书副本。审查了调查的目的和程序、参与的潜在风险和益处,以及与谁联系以报告投诉或疑虑。潜在参与者被告知,参与是保密和自愿的,他们可以随时退出参与,而无需解释。为潜在参与者提供了提问的机会。对于希望参加的人,已获得书面同意。同意书包括两个调查要素中的每一个的单独同意复选框:1)完成问卷,2)提供静脉血,储存以备将来测试,以及3)允许调查人员联系以进行跟进。向每位参与者提供了一份签署的同意书的副本。 4. 结果 4.1 MSM特征 共有 1538 人参与了这项研究。受试者的中位年龄为25岁(IQR:21-32)。大多数参与者报告在没有性伴侣的情况下同居(85.18%),70.61%的参与者完成了中学教育,19.12%完成了高等教育,48.57%的参与者报告在过去6个月内有工作。五旬节派是最常见的宗教(27.96%),其次是罗马天主教(19.70%)和无宗教信仰(18.79%)。如表1所示,40.38%的参与者报告了双性恋身份,而59.62%的参与者被认定为同性恋/同性恋。在性行为方面,26.79%的参与者报告在过去6个月内从事过性行为。过去 6 个月的性伴侣中位数为 1 (IQR:1-3),31.47% 的参与者报告使用避孕套。关于艾滋病毒状况,76.14%的参与者检测呈阴性,而22.11%的参与者检测呈阳性。总体而言,这些发现表明,研究人群是一个多元化的年轻男男性行为者群体,具有不同的教育水平、就业和宗教信仰。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 表 1. 男男性行为者的特征。 https://doi.org/10.1371/journal.pdig.0000541.t001 为了了解男男性行为者(MSM)中性传播感染易感性的决定因素,如图1所示,特征重要性分析将年龄、与男性首次发生性关系的年龄、性伴侣数量、宗教和教育确定为最重要的因素。为了量化这五个特征的影响强度,采用了逻辑回归模型,结果如表2所示。与参考年龄组(18-25 岁)相比,26-35 岁的个体发生 STI 的几率高 1.35 倍,具有统计学意义的 p 值为 0.04(OR = 1.35,p = 0.04)。与18岁后首次发生性行为的男性相比,在36-45岁时开始与男性发生性行为的男性患性传播感染的风险高3倍(OR=3.00,p=0.03)。与单性伴侣相比,报告多个性伴侣(超过 1 个)的 MSM 发生 STI 的几率高 1.90 倍,表明两者之间存在很强的关联(OR = 1.90,p < 0.001)。与未受过/初等教育的人相比,受过职业教育的人对性传播感染表现出保护作用,比值比为 0.45 (p = 0.04) (OR = 0.45, p = 0.04)。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 1. 功能重要性分数。 https://doi.org/10.1371/journal.pdig.0000541.g001 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 表 2. MSM的logistic回归模型和STI危险因素的结果。 https://doi.org/10.1371/journal.pdig.0000541.t002 4.2 特征工程和数据预处理技术 该研究利用传统的逐步逻辑回归和机器学习算法来识别和评估有关 STI 的各种预测因子的重要性。初始数据集由来自 1538 名 MSM 总人口的信息组成。该数据集包括有关各种潜在预测因子和指示 STI 存在与否的二元响应变量的信息。在 20 个潜在预测因子池中,执行逐步逻辑回归以选择与 STI 相关的最显着预测因子。逐步回归的预测因子包括:年龄、与性伴侣同居、教育状况、就业状况、宗教、性认同、交易性行为、过去 6 个月内的性伴侣数量、避孕套使用和 HIV 状况。交易性行为被定义为任何金钱或物品交换性行为,无论是接受还是给予。删除了所有零值或缺失值,以避免样本污染,这可能导致在构建稳健的预测模型时得出不准确的推论[15]。在去掉缺失值后,考虑了 1,444 个样本用于应用 STI 预测模型。此外,使用one-hot编码技术对特征进行编码,以将分类数据转换为数值。单热编码使用二进制向量将分类特征的变量转换为数值[16]。分类变量中的每个类别或标签都转换为二元向量,其中所有元素均为零,但与类别对应的索引设置为 1[17]。单热编码是一种简单且广泛使用的编码方法,尽管创建了一个高维特征矩阵[17]。此外,该研究使用Pearson相关性来确定所选解释变量之间的相关性,并绘制了如图2所示的热图。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 2. Pearson 相关热图。 https://doi.org/10.1371/journal.pdig.0000541.g002 该研究进一步应用随机森林来确定特征重要性得分,如图2所示。特征重要性分数有助于对 MSM 中 STI 感染预测影响最大的重要特征进行排名和识别。图 1 显示,年龄、与男性发生第一次性行为的年龄、性伴侣、宗教和教育程度是具有高重要性特征得分的最重要特征之一。为了量化具有高重要性特征得分的特征的影响,采用logistic回归模型,旨在确定这5个特征对MSM获得STI可能性的影响强度。 在考虑开发性传播感染预测模型的1,444个样本中,1290个样本的性传播感染检测呈阴性,154个样本检测呈阳性。这表明目标类存在类不平衡,如图 3 所示。因此,采用合成少数过抽样技术(SMOTE)技术来解决类不平衡问题。SMOTE创建了少数类的合成样本[18]。它使用K-最近邻(KNN)算法来识别最近的数据点,并通过在所选点与其最近邻之间进行插值来创建合成数据[19]。此过程一直持续到数据集中的少数类与多数类平衡为止。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 3. 性传播感染状态分布。 https://doi.org/10.1371/journal.pdig.0000541.g003 处理好类不平衡问题后,将数据集分别拆分为训练集和测试集,分割率分别为80%和20%。遵循的所有步骤如图 4 所示。该研究进一步应用多层感知器 (MLP)、ExtraTrees 和 XGBoost 机器学习模型来预测 MSM 中的 STI。这些 STI 预测模型将在后续章节中解释。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 4. STI 预测模型流程图。 https://doi.org/10.1371/journal.pdig.0000541.g004 多层感知器 (MLP) 感知器是一种具有一层(单神经元网络)的神经网络[20,21],通常用于使用sigmoid激活(基于阈值)函数的线性二元分类。它包括输入值、偏置值和权重值,以及激活函数和加权和。图 5 显示了一个简单的人工神经元及其组件,其中箭头表示连接,X 表示输入矩阵,W 表示权重矩阵,是输入的加权和,f 是激活函数和yj是输出。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 5. 人工神经元。 https://doi.org/10.1371/journal.pdig.0000541.g005 多层感知器 (MLP) 是一种深度学习模型,它是感知器的扩展,因为它保留了感知器的基本工作原理,但与感知器不同,它具有多层。因此,MLP是一个完全连接的人工神经网络,由输入层、隐藏层和输出层组成,以前馈方式组织[22\u201223]。隐藏层的数量可能会有所不同,并且隐藏的神经元可能会应用不同的激活函数,这可能与输出层的激活函数不同。例如,校正线性单元 (ReLU) 可以应用于其他层,而 S 形单元应用于输出层以进行二进制分类。图6显示了多层感知器的结构。但是,读者必须注意,隐藏层的实际数量可能因模型而异,具体取决于问题空间。为给定问题确定适当数量的隐藏层和神经元是超参数调整(优化)任务的一部分。MLP模型使用反向传播和整流线性单元进行训练。图 6 显示了多层感知器的结构,它由不同层中的多个神经元组成。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 6. 多层感知器的结构。 https://doi.org/10.1371/journal.pdig.0000541.g006 eXtreme Gradient Boosting (XGBoost) 是一种基于集成的 ML 算法,它基于梯度提升算法,用于处理线性分类器和线性回归 [24]。作为一种集成方法,它结合了多个弱分类器,以创建一个更强大且更健壮的模型[2]。它通过使用树学习算法和线性模型来解决分类问题[25]。此外,该算法的强大功能还在于它能够扩展到其他用例,例如处理缺失值和避免过拟合[26]。因此,作者使用XGBoost算法进行STI预测。 极随机树 (ExtraTrees) 是一种集成学习模型,广泛用于解决分类和回归任务。它是随机森林算法的扩展,使用引导、决策树和投票[27]。为了执行引导,ExtraTrees从数据集的子样本中创建多个引导样本,每个样本都是通过随机选择带有替换的数据点来生成的,从而创建数据的子集[28]。对于每个引导样本,Extra Trees 都会构建一个决策树,这涉及根据特征拆分对每个节点上的数据进行递归分区。在构建所有决策树后,将每棵树的预测组合在一起,根据多数投票做出最终预测。 4.2 超参数调优和性能 STI 预测模型 STI 预测模型的实现是通过支持机器学习和深度学习算法的 Python 编程和库完成的。该研究还应用了 StratifiedKFold 验证,通过将数据拆分为 k 个子集(折叠)来进一步评估模型的性能。每个 STI 预测模型都经过 k 次训练和评估,每个折叠作为验证集,而其他折叠作为训练数据。超参数调整是通过随机网格搜索(n_splits = 5,shuffle = True)进行的,该搜索利用拟合和评分方法来确定最佳参数。对于每个 STI 预测模型,确定并记录最佳参数如下: MLP 的最佳参数:激活:'relu',alpha:0.01,hidden_layer_sizes:(200,),learning_rate:“adaptive”,求解器:“adam” XGBoost的最佳参数: reg_alpha: 0.001, reg_lambda: 10 ExtraTrees的最佳参数:criterion': 'entropy', max_features: 'sqrt', n_estimators: 150。 基于混淆矩阵(如图 7 所示)评估 STI 预测模型的性能得分,该矩阵计算真阳性 (TP)、真阴性 (TN)、假阳性 (FP) 和假阴性 (FN)。从混淆矩阵中,我们能够确定 STI 预测模型的准确性、召回率、F1 分数、准确率和 AUC,如表 3 所示。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 7. STI 预测模型的混淆矩阵。 https://doi.org/10.1371/journal.pdig.0000541.g007 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 表 3. 使用 SMOTE 的 STI 预测模型的性能。 https://doi.org/10.1371/journal.pdig.0000541.t003 准确性衡量模型预测的整体正确性。它是正确预测 (TP + TN) 与实例总数的比率 [3]。该研究还使用了召回率,也称为灵敏度或真阳性率(TPR),它测量模型正确识别的实际阳性实例的比例。它的计算公式为(TP / (TP + FN))。我们还使用 F1 评分来确定 STI 预测模型的性能。F1 分数是精确度和召回率的谐波平均值。它提供了模型性能的平衡度量,同时考虑了假阳性和假阴性[29]。此外,该研究还使用精确度来确定预测的阳性 STI 实例的阳性比例为 阳性 (TP / (TP + FP))。特异性或真阴性率(TNR)也用于评估STI预测模型的性能。特异性衡量的是真阴性在所有实际阴性病例中的比例[30]。它的计算公式为,真阴性/(真阴性+假阳性)[31]。 该研究进一步使用曲线下面积 (AUC) 来评估 STI 预测模型的性能。它表示受试者工作特征(ROC)曲线下的面积,该曲线绘制了不同分类阈值下的真阳性率(TPR)与假阳性率[29]。TPR是所有实际阳性病例中真阳性STI病例(正确分类为阳性)的比例,FPR是假阳性STI病例(错误分类为阴性病例)占所有实际阴性病例的比例[27]。AUC 的值介于 0.5 和 1 之间,越接近 1 表示模型的性能越好 [3]。因此,表 3 显示了使用 SMOTE 的模型的性能结果。 表 3 的结果表明,MLP 在准确性、召回率、精确度、F1 评分和 AUC 方面优于其他 STI 预测模型。MLP模型的准确率最高,为87.54%,紧随其后的是XGBoost(86.51%)和ExtraTrees(85.47%)。这表明与其他模型相比,MLP模型的正确预测比例最高。在召回率或敏感性方面,MLP模型的召回率最高,为97.29%,表明该模型正确识别了STI阳性病例的最高比例。XGBoost 紧随其后,召回率为 96.51%,而 ExtraTrees 的召回率略低,为 95.35%。同样,MLP 以 89.64% 的准确度得分最高,表明在所有阳性预测中正确预测的 STI 阳性病例比例更高。XGBoost 和 ExtraTrees 的精度得分略低,分别为 89.25% 和 89.13%。 表 3 还显示 MLP 获得了最高的 F1 分数 (93.31%),表明准确率和召回率之间的平衡更好。XGBoost 和 ExtraTrees 的 F1 得分略低,分别为 92.74% 和 92.13%。此外,在其他模型中,MLP模型的特异性评分为6.45%。图 8 还显示 MLP 的 AUC 值为 66.78%,表明其在各种分类阈值下的性能。ExtraTrees 的 AUC 为 60.21%,略低于 MLP,而 XGBoost 的 AUC 为 54.83%。AUC 值越大,测试的整体性能越好。 缩略图 下载: PPT的PowerPoint幻灯片 巴布亚新几内亚放大图片 TIFF的原始图像 图 8. STI 预测模型的 AUC 值。 https://doi.org/10.1371/journal.pdig.0000541.g008 此外,该研究还考虑了与 MLP、XGBoost 和 ExtraTrees 模型相关的 p 值,以表明其性能的统计显着性。高 p 值表示观察到的结果不太可能是偶然发生的。这为模型的性能提供了更大的信心,不是由于随机变化,而是由于有意义和可靠的模式。因此,MLP 和 XGBoost 模型的 p 值分别为 0.9355 和 0.9511,表明它们的性能具有统计学意义。同样,ExtraTrees 模型也具有相对较高的 p 值 0.9118,表明具有统计显著性。 5. 讨论 本研究中进行的逻辑回归分析旨在揭示导致男男性行为者 (MSM) 性传播感染 (STI) 的错综复杂的风险因素网络。所确定的变量揭示了男男性行为者人口统计学和行为的关键方面,这些方面与不同程度的性传播感染脆弱性有关。我们的研究结果表明,与参考年龄组(18-25 岁)相比,26-35 岁个体的易感性更高。这与中国浙江的一项研究一致,据报道,26-35岁的男男性行为者面临梅毒感染风险的可能性是18-25岁男性行为者的1.95倍[32]。正如Beck等[33]所强调的那样,某些年龄组可能代表了个人更容易从事危险性行为的关键时期。确定这些年龄范围可以采取有针对性的公共卫生干预措施,以应对这些时期面临的独特挑战。 我们的研究还强调了探索MSM社区内第一次性接触时间的重要性。那些与年龄在36-45岁之间的男性发生性关系的人被发现感染性传播感染的风险更大。正如Adedimeji等[34]所指出的,文化和社会因素在塑造性开始的时间方面起着重要作用。了解这些影响可以为针对不同社区和社会背景下个人面临的具体挑战量身定制的文化敏感干预措施和政策提供信息。早期或晚期参与MSM社区可能对性健康产生长期影响,使个体在其一生中面临不同的风险和健康问题[35]。此外,我们的研究与Kevlishvili等人的研究一致[36],该研究探讨了MSM中性传播感染的社会经济特征。低收入水平和受教育程度被确定为男男性行为者中性传播感染高发率的主要社会经济危险因素。我们的研究结果进一步支持了这一点,表明与受过中等、高等教育和职业教育的人相比,没有受过教育或只受过初等教育的人面临更大的风险。值得注意的是,职业教育在统计学上具有显著性。支持这些发现,人们认识到,受教育程度较高的个人可能更容易获得医疗保健资源,包括性传播感染检测和预防服务。这种可及性有助于早期发现、及时治疗和采取预防措施,从而降低总体性传播感染风险。此外,正如Soe等[37]所强调的那样,教育对个人如何感知和沟通性风险的影响强调了教育在促进性健康有效沟通、促进更安全的做法和减少性传播感染传播方面的作用。 此外,该研究应用多层感知器 (MLP)、ExtraTrees 和 XGBoost 分类器,使用逻辑回归识别的变量(预测因子)来预测 MSM 中的 STI。年龄、与性伴侣同居、教育状况、就业状况、宗教、性认同、交易性行为、过去 6 个月内性伴侣数量、避孕套使用和 HIV 状况等预测因素被确定为重要变量。澳大利亚的Bao等[2]也使用年龄、避孕套使用、性别认同和临时男性性伴侣数量等预测因子来预测MSM中的HIV和STI。使用随机森林模型对已识别的变量进行排名,结果显示年龄、与男性发生性关系的年龄、性伴侣、宗教和教育是具有高重要性特征得分的最重要特征之一。研究表明,MLP在MSM中预测STIs方面表现更好,准确率为87.54%,召回率为97.29%,准确率为89.64%,F1-Score为93.31%,AUC为66.78%。其他研究,包括Birri Makata和Musengi[14]的研究,也应用了不同的HIV预测模型,XGBoost优于其他模型。凭借如此良好的性能,这些模型可以有效地用于开发检测前STI感染筛查工具,以识别MSM社区中的高危个体[2],并优先考虑资源分配,以改善这些难以到达的社区的健康结果。改善男男性行为者对HIV和STI的诊断对于实现世界卫生组织(World Health Organization, WHO)到2025年将HIV新发感染人数减少到56万例以下的目标至关重要[38]。Bao等人[2]进行的一项研究也支持了这一点,该研究暗示需要将HIV和STI(梅毒、淋病、衣原体)预测模型整合到卫生系统中。根据这项研究的结果和现有文献,有必要将 XGBoost 等智能机器学习模型集成到现有的健康信息系统中,以帮助医疗保健专业人员早期筛查 STI,尤其是在 MSM 中。此外,这种先进的智能模型可用于为包括男男性行为者在内的关键人群开发数据驱动的工具,以加强性传播感染的筛查、报告和沟通,特别是在资源有限的地区和同性性行为被高度污名化和刑事定罪的国家。将性传播感染预测模型与现有的卫生信息系统相结合,可以帮助卫生工作者为男男性行为者提供护理。尽管 STI 预测模型显示出有希望的结果,但仍需要进一步提高其性能,并在现实世界中验证和实施它们作为测试前 STI 筛查工具,以改善 MSM 的健康结果。 6. 研究的局限性 这项研究有几个局限性。局限性之一是研究数据的样本量和地理重点仅限于布拉瓦约和哈拉雷等城市省份,因此不能代表该国其他农村省份。因此,该调查并未反映整个津巴布韦的MSM和TGW/GQ活动。另一个局限性是该研究是横断面的,因此,随着时间的推移,参与者没有得到随访。就其性质而言,横断面研究并不像纵向研究那样显示暴露与结果之间的时间关系。第三个局限性是所有问卷数据都是自我报告的,并且可能受到社会期望偏差的影响。尽管访谈者接受过让参与者放松并支持准确报告日期和事件的技术培训,但自我报告的数据仍然容易受到回忆偏差和社会期望偏差的影响。第四个限制是,同性性行为在津巴布韦是非法的,并且受到高度污名化。那些被招募并同意参与的人可能是一群自我选择的人,他们更愿意披露他们的性行为。 7. 政策建议 联合国艾滋病规划署的一份新报告显示,津巴布韦是已经实现目标95-95-95的五个次非洲国家之一,并有望在2030年之前消除艾滋病。然而,有关键迹象表明,关键人群,特别是MSM在达到95-95-95方面远远落后[39]。本文所述的方法将大大有助于津巴布韦卫生和儿童保育部预测该国男男性行为者的性传播感染,并为感染性传播感染风险最高的个人提供必要的健康教育和性传播感染筛查测试。该战略将有助于确保这些人感染艾滋病毒和性传播感染的可能性降低,并确保及时向这些感染呈阳性的人提供治疗和护理服务。本文概述的方法在其他南部非洲国家也有相关应用,这些国家存在大量男男性行为者人口,并且该群体的活动是非法的,就像在津巴布韦一样,并且男男性行为者由于害怕执法当局的污名化和骚扰而没有像他们应该的那样频繁地访问卫生设施。关键是,在少数情况下,MSM要到医疗机构就诊,并为他们提供所需的所有医疗护理,并筛查STI等感染性疾病[39,40]。本文中的方法应纳入卫生部的政策和指南,以确保该模型得到充分利用。 8. 结论 整合机器学习和深度学习可以在减少男男性行为者中新的艾滋病毒/性传播感染方面发挥重要作用。这项研究表明,年龄、与性伴侣同居、教育状况、就业状况、宗教、性别认同、交易性行为、过去 6 个月内的性伴侣数量、避孕套使用和艾滋病毒状况是预测津巴布韦男男性行为者性传播感染的重要预测因素。该研究进一步显示,MLP的准确率为87.54%,召回率为97.29%,准确率为89.64%,F1-Score为93.31%,AUC为66.78%。MLP 模型在大多数指标上通常优于 XGBoost 和 ExtraTrees 模型,显示出更高的准确率、召回率、精确度、F1 分数和 AUC。这些模型可以有效地用于识别男男性行为者社区中的高危个体,并进一步开发性传播感染筛查工具,以改善男男性行为者的监测健康结果,特别是在男男性行为者被污名化和定罪的国家。 总之,我们的研究结果为津巴布韦男男性行为者中性传播感染风险的多方面情况提供了细致入微的见解。通过揭示年龄动态、第一次性接触的时间、性伴侣动态和教育程度,本研究有助于更全面地了解影响 MSM 社区 STI 患病率的因素。其影响超出了统计关联的范围,强调需要制定全面和有针对性的公共卫生战略。与任何观察性研究一样,进一步的研究和验证对于证实这些发现并完善我们对影响男男性行为者 STI 患病率的复杂动态的理解至关重要。 引用 1.Chingombe I、Dzinamarira T、Cuadros D、Mapingure MP、Mbunge E、Chaputsira S 等。使用生物行为数据、循环神经网络和机器学习技术预测津巴布韦布拉瓦约和哈拉雷男男性行为者的艾滋病毒状况。Trop Med Infect Dis 2022,第 7 卷,第 231 页。2022;7: 231.PMID:36136641 查看文章PubMed/NCBIGoogle 学术搜索 2.Bao Y, Medland NA, Fairley CK, Wu J, Shang X, Chow EPF, et al.使用机器学习方法预测男男性行为者对艾滋病毒和性传播感染的诊断。J 感染。2021;82: 48–59.PMID:33189772 查看文章PubMed/NCBIGoogle 学术搜索 3.何杰, 李杰, 江 S, 程伟, 江 J, 徐勇, 等.机器学习算法在预测男男性行为者HIV感染中的应用:模型开发和验证。前公共治疗。2022;10: 967681.PMID:36091522 查看文章PubMed/NCBIGoogle 学术搜索 4.Mapingure M、Chingombe I、Dzinamarira T、Samba C、Moyo B、Mugurungi O 等。在津巴布韦,与吸毒男性发生性关系的男性的健康和社会结果下降。South Afr J HIV Med. 2023;24.PMID:37795428 查看文章PubMed/NCBIGoogle 学术搜索 5.Mbunge E, Batani J, Chitungo I, Moyo E, Musuka G, Muchemwa B, et al. 迈向用于监测、建模和预测非法物质使用的数据驱动型人工智能模型。2024;361–379. 查看文章Google 学术搜索 6.宾夕法尼亚州伯恩斯,路易斯安那州梅纳,克罗斯比 RL。预言未来:预测性传播感染诊断及其对结束男男性行为者黑人艾滋病毒流行的影响。J 城市治愈。2020;97: 642–652. 查看文章Google 学术搜索 7.Mustanski BS, Newcomb ME, Du Bois SN, Garcia SC, Grov C. 男男性行为者年轻男性的艾滋病毒:流行病学、风险和保护因素以及干预措施的综述。J Res. 2011年;48: 218–253.PMID:21409715 查看文章PubMed/NCBIGoogle 学术搜索 8.Dzinamarira T, Moyo E, Murewanhema G. 关于“撒哈拉以南非洲国家性传播感染管理指南中纳入多西环素暴露后预防治疗男男性行为者性传播感染的案例”的通信。性变性感染。2023;性别跨性别-2023-055943。PMID:37833057 查看文章PubMed/NCBIGoogle 学术搜索 9.Mapingure M、Chingombe I、Dzinamarira T、Moyo B、Samba C、Murigo D 等。津巴布韦男男性行为者 (MSM) 的 HIV 阳性男性存在结核病症状。艾滋病研究2024;21: 1–4. 查看文章Google 学术搜索 10.Solomon MM, Mayer KH, Glidden D V., Liu AY, McMahan VM, Guanira J V., et al. 梅毒在暴露前预防试验中预测男男性行为者和跨性别女性的 HIV 发病率。2014 年临床感染病;59: 1020–1026.PMID:24928295 查看文章PubMed/NCBIGoogle 学术搜索 11.Andresen S、Balakrishna S、Mugglin C、Schmidt AJ、Braun DL、Marzel A 等。无监督机器学习可预测与男性发生性关系的HIV阳性男性未来的性行为和性传播感染。PLOS Comput Biol. 2022;18:E1010559。PMID:36302041 查看文章PubMed/NCBIGoogle 学术搜索 12.史密斯 DK、帕尔斯 SL、赫伯斯特 JH、辛德 S、凯里 JW。开发预测美国男男性行为者 HIV 感染事件的临床筛查指数。J Acquir 免疫缺陷综合征。2012;60: 421–427.PMID:22487585 查看文章PubMed/NCBIGoogle 学术搜索 13.Makota RBB, Musenge E. 估计津巴布韦十年来的艾滋病毒发病率:催化模型和法灵顿模型的比较。PLOS Glob 公共治疗。2023;3:E0001717。PMID:37708116 查看文章PubMed/NCBIGoogle 学术搜索 14.Makota RBB, Musenge E. 预测津巴布韦 COVID-19 之前十年(2005-2015 年)的 HIV 感染:一种基于监督分类的机器学习方法。PLOS 手指治愈。2023;2:e0000260。PMID:37285368 查看文章PubMed/NCBIGoogle 学术搜索 15.伊曼纽尔 T、莫蓬 T、姆波伦 D、塞蒙 T、法戈 B、塔博纳 O.关于机器学习中缺失数据的调查。大数据学报 2021, 81.2021;8: 1–37.PMID:34722113 查看文章PubMed/NCBIGoogle 学术搜索 16.Al-shehari T,Alsowail RA。使用单热编码、合成少数过采样和机器学习技术的内部数据泄漏检测。熵 2021,第 23 卷,第 1258 页。2021;23: 1258.PMID:34681982 查看文章PubMed/NCBIGoogle 学术搜索 17.Cerda P, Varoquaux G, Kégl B. 使用脏分类变量学习的相似性编码。马赫学习。2018;107: 1477–1494. 查看文章Google 学术搜索 18.Juanjuan W, Mantao X, Hui W, Jiwu Z. 使用 SMOTE 算法和局部线性嵌入对不平衡数据进行分类.国际会议信号处理程序,ICSP。2007;3. 查看文章Google 学术搜索 19.Blagus R, Lusa L. SMOTE 用于高维类不平衡数据。BMC生物信息学。2013;14: 1–16. 查看文章Google 学术搜索 20.劳迪斯 Š.单个神经元的进化和泛化:I.单层感知器作为七个统计分类器。神经网络。1998;11: 283–296.PMID:12662838 查看文章PubMed/NCBIGoogle 学术搜索 21.萨格尔 A, 齐丹 M, 阿卜杜勒萨米亚 MM.一种用于模式分类应用的新型自主感知器模型。熵。2019;21: 763.PMID:33267477 查看文章PubMed/NCBIGoogle 学术搜索 22.Car Z, Baressi Šegota S, Anđelić N, Lorencin I, Mrzljak V. 使用多层感知器对 COVID-19 感染的传播进行建模。2020 年计算数学方法医学;2020: 1–10.PMID:32565882 查看文章PubMed/NCBIGoogle 学术搜索 23.Hui DS、I Azhar E、Madani TA、Ntoumi F、Kock R、Dar O 等。新型冠状病毒对全球健康的持续2019-nCoV流行威胁——2019年中国武汉最新爆发的新型冠状病毒疫情。2020 年国际感染杂志;91: 264–266.PMID:31953166 查看文章PubMed/NCBIGoogle 学术搜索 24.基于堆叠融合模型的学生表现预测研究.电子 2022,第 11 卷,第 3166 页。2022;11: 3166. 查看文章Google 学术搜索 25.Chen T, Guestrin C. XGBoost:可扩展的树提升系统。第 22 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集。美国纽约州纽约市:ACM;2016 年,第 785–794 页。https://doi.org/10.1145/2939672.2939785 26.张彦昌, 张国华, 吴国军.极限梯度提升树在金融机构信用风险评估模型构建中的应用.应用软计算。2018;73: 914–920. 查看文章Google 学术搜索 27.Mbunge E、Sibiya MN、Takavarasha S、Millham RC、Chemhaka G、Muchemwa B 等。使用 SMOTEENN、SMOTE 和 SMOTETomek 类不平衡方法实现集成机器学习分类器以预测腹泻。2023 Conf Inf Commun Technol Soc ICTAS 2023—Proc. 2023.https://doi.org/10.1109/ICTAS56421.2023.10082744 28.Pagliaro A. 使用机器学习预测重大股票市场价格变化:额外的树分类器线索。电子 2023,第 12 卷,第 4551 页。2023;12: 4551. 查看文章Google 学术搜索 29.Mbunge E、Fashoto SG、Muchemwa B、Millham RC、Chemhaka G、Sibiya MN 等。应用机器学习技术预测儿童死亡率和识别相关风险因素。2023 Conf Inf Commun Technol Soc ICTAS 2023—Proc. 2023.https://doi.org/10.1109/ICTAS56421.2023.10082734 30.Chu K.介绍敏感性、特异性、预测值和似然比。Emerg Med. 1999年;11: 175–181. 查看文章Google 学术搜索 31.Shreffler J, Huecker MR. 诊断测试准确性:灵敏度、特异性、预测值和似然比。统计珍珠。2020 [引自 2024 年 4 月 5 日]。可供应: http://europepmc.org/books/NBK557491 查看文章Google 学术搜索 32.陈 L, 杨 J, 马 Q, 潘 X. 2015 年中国浙江 HIV 阳性男男性行为者活动性梅毒感染患病率和危险因素:一项横断面研究。Int J Environ Res Public Heal 2019,第 16 卷,第 1507 页。2019;16: 1507.PMID:31035429 查看文章PubMed/NCBIGoogle 学术搜索 33.Beck EC, Birkett M, Armbruster B, Mustanski B. HIV在男男性行为者中传播的数据驱动模拟:年龄和种族混合以及性传播感染的作用。J Acquir 免疫缺陷综合征。2015;70: 186–194.PMID:26102448 查看文章PubMed/NCBIGoogle 学术搜索 34.阿德迪梅吉 A, 西纳约比耶 J d.A、Asiimwe-Kateera B、Chaudhry J、Buzinge L、Gitembagara A 等。社会背景作为卢旺达男男性行为者(MSM)风险行为的中介:对艾滋病毒和性传播感染传播的影响。PLoS 一号。2019;14:E0211099。PMID:30657797 查看文章PubMed/NCBIGoogle 学术搜索 35.Sandfort TGM, Orr M, Hirsch JS, Santelli J. 性首次亮相时间的长期健康相关性:来自美国一项全国性研究的结果。Am J 公共卫生。2008;98: 155–161.PMID:18048793 查看文章PubMed/NCBIGoogle 学术搜索 36.Kevlishvili S, Kvlividze O, Kvirkvelia V, Tananashvili D, Galdava G. 格鲁吉亚男男性行为者性传播感染的社会经济特征。格鲁吉亚医学新闻。 2023 年;78–86.可用: https://europepmc.org/article/med/37419476 pmid:37419476 查看文章PubMed/NCBIGoogle 学术搜索 37.Soe NMK、Bird Y、Schwandt M、Moraros J. STI 健康差异:教育环境中预防性干预有效性的系统评价和荟萃分析。Int J Environ Res Public Heal 2018,第 15 卷,第 2819 页。2018;15: 2819.PMID:30544919 查看文章PubMed/NCBIGoogle 学术搜索 38.Dzenga T, Moyo E, Moyo P, Kamangu J, Dzinamarira T. 在纳米比亚 Omusati 地区开始后 3 个月影响客户口服暴露前预防 (PrEP) 护理的因素。国际非洲护理科学杂志 2023;19: 100623. 查看文章Google 学术搜索 39.Chikava T、Eghtessadi R、Chingombe I、Murewanhema G、Cheza A、Dzinamarira T 等。津巴布韦法律及其对重点人群艾滋病毒规划的影响。前公共治疗。2023;11: 1272775.PMID:37920588 查看文章PubMed/NCBIGoogle 学术搜索 40.Dzinamarira T、Mapingure M、Murewanhema G、Musuka G、Moyo B、Samba C 等。在具有歧视性法律、政策和做法的环境中对关键人群进行研究:津巴布韦男男性行为者的案例。公共治疗实践。2022;4: 100337.PMID:36389258 查看文章PubMed/NCBIGoogle 学术搜索