学术源论文发表咨询网 公告: 首页 - 网站声明 - 在线投稿 - 发表流程 - 联系我们 - 加入收藏
医学期刊
建筑期刊
教育综合
计算机类
教育期刊
新闻体育
学报刊物
水利/档案
核心期刊
农业/牧业
科技期刊
音乐/美术
工业期刊
煤炭/电力
经济期刊
其他刊物
您当前的位置:首页 > 经济期刊 > 正文
重新校准流行病的概率预测
发布时间:2022-12-19 09:40:11  来源:  【 】   浏览:
 
重新校准流行病的概率预测
 
亚伦·鲁马克 ,瑞安·蒂布希拉尼,罗尼·罗森菲尔德
发布时间:2022 年 12 月 15 日
 
抽象
分布预报对于各种应用都很重要,包括流行病预测。通常,预测校准错误,或者在为未来事件分配不确定性方面不可靠。我们提出了一种重新校准方法,该方法可以应用于给定回顾性预报和观测的黑盒预报员,以及使该方法在重新校准流行病预测方面更有效的扩展。该方法可确保在样本中训练和测量时提高校准和对数分数性能。我们还证明,重新校准的预测器的预期对数分数的增加等于PIT分布的熵。我们将这种重新校准方法应用于FluSight网络中的27个流感预报员,并表明重新校准可靠地提高了预报的准确性和校准。这种方法在 Github 上可用,有效、强大且易于用作改进流行病预测的后处理工具。
 
作者摘要
传染病的流行每年在全世界造成数百万人死亡,可靠的流行病预测可以使公共卫生官员做出反应,以减轻流行病的影响。但是,由于流行病预测是一项艰巨的任务,因此许多流行病预测没有经过校准。校准是任何预测的理想属性,我们提供了一种重新校准预测的后处理方法。我们证明了这种方法在提高各种流感预测仪的准确性和校准方面的有效性。我们还显示了校准与预测者预期分数之间的定量关系。我们的重新校准方法是任何预测者都可以使用的工具,无论模型选择如何,都可以提高预测的准确性和可靠性。这项工作在预测理论和流行病预测的一些最新应用之间架起了一座桥梁,前者很少涉及新领域或数据很少的领域的应用,后者很少对预测校准进行系统分析。
 
引文: Rumack A,Tibshirani RJ,Rosenfeld R (2022) 重新校准流行病的概率预测。公共科学图书馆计算生物学18(12): e1010771. https://doi.org/10.1371/journal.pcbi.1010771
 
编辑 器: 塞西尔·维布德, 美国国立卫生研究院
 
收到: 12月 10, 2021;接受: 11月 28, 2022;发表: 12月 15, 2022
 
版权所有: © 2022 鲁马克等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
 
数据可用性: 代码和数据可在 https://github.com/rumackaaron/recalibration 获得。
 
资金: AR得到了卡内基梅隆大学机器学习与健康中心(https://www.cs.cmu.edu/cmlh-cfp)的奖学金支持。RR和AR得到了McCune基金会资助FP00004784(https://www.mccune.org)的支持。RT和RR得到了疾病控制和预防中心拨款U01IP001121(https://www.cdc.gov)的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
 
竞争利益: 提交人声明不存在相互竞争的利益。
 
1 引言
流行病预测是公共卫生应对传染病暴发的重要工具。通常,决策者可以采取更有效的行动,估计预测目标的不确定性。因此,分布预测比点预测更可取。分布预测是目标变量上的概率分布,用于测量预测中的不确定性,而点预测只是每个目标的标量值,没有不确定性度量。分布预测的理想属性是校准,或预测与预测变量的真实分布之间的可靠性(数学定义在第 2 节中给出)。除了不确定性和分辨率外,校准是预测员准确性的三个组成部分之一,通过任何适当的分数[1]来衡量,校准越好,分数越好。因此,对于预报员来说,生成校准的预测非常重要。
 
以前的工作描述了一般预测理论和校准,并评估了某些预测的校准[2-5]。后来的工作已经不仅仅是描述校准,而是提出了后处理算法来重新校准以前错误校准的预测。用于重新校准集成预测的非参数技术包括秩直方图校正 [6]、贝叶斯模型平均 [7]、线性池化 [8] 和概率异常校正 [9]。Brocklehurst等人[10]使用经验CDF提供了一种非参数方法,该方法可以重新校准标量目标的任何预测。参数化方法包括逻辑回归 [11]、扩展线性回归 [12] 和 β 变换线性池 [8]。Wilks 和 Hamill [13] 比较了不同气象目标的不同重新校准技术与不同训练数据量的性能。
 
重新校准的大部分工作已应用于天气预报,因此许多技术不适用于其他预报领域。最流行的天气预报模型从一系列点预测创建分布,每个点都是在不同初始条件下的模拟结果。许多现有的重新校准方法仅针对这种类型的集成预报器定义。例如,贝叶斯模型平均假设集成预测在每个观测值中由相同的 N 个预测组成。此方法不能简单地扩展到预测器本身输出分布的域。此外,天气预报通常有大量的训练数据,用于训练重新校准方法。例如,重新校准已应用于从1979年到至少2006年(近10,000天)每天生成的一组天气预报[14]。在这样的环境中,技术不需要对少量的重新校准训练数据具有鲁棒性。
 
为了明确命名法,在本文中,我们使用术语预测来指代变量的预测概率分布,并使用术语预测器来指代在给定上下文的情况下为变量生成预测的算法。预报员的常见示例是给定当前气象信息提前两天预测降水量的算法,根据股票的历史趋势预测某只股票的价格的算法,或者根据历史发病率数据预测全州流感发病率的算法。我们还区分校准和重新校准;校准是指预报员的属性,重新校准是指旨在使预报员更加校准的方法。具体来说,重新校准将一组预报员的预测和相应的观测值(“训练数据”)作为输入,并输出一个预报员,该预测器应该根据另一组不同的预测和观测值(“测试数据”)进行更多校准。
 
在下文中,我们将介绍一种通用的预测重新校准方法,并展示其应用于FluSight网络中的预测器时的性能。我们证明,在各种各样的FluSight预报器中,重新校准不仅能提高校准,还能提高准确性。
 
2 方法
请考虑以下设置。在每个i = 1, 2, 3...时,预测器M输出密度预测f我给定特征 x我对于连续分布的标量随机变量 y我其真实分布为 h我.作为正则条件,我们假设相应的累积分布函数 (CDF) F我和 H我持续不断,严格增加。预测者 M 根据适当的评分规则进行评估,例如二次得分 [15] 或对数分数 [16]。
 
预报员的目标是产生理想的预测,即预测我 = h我,y 的真实分布我,对于每个 i,尽管这通常是无法实现的。我们可以检查预测者与概率积分变换(PIT)值分布的理想程度[17]。对于每个预测 f我和观测值 y我,PIT 定义为其中 F
 
我是 f 的 CDF我.预测者理想的必要(但不是充分)条件是概率校准[3]:
 
 
(在这里和整个过程中,我们几乎肯定地解释趋同。一个不理想的概率校准预报器的例子是所谓的气候预报员,它为每个i输出y的边际分布。我在 i = 1, 2, 3, ....为了具体化,假设每个 y我分布为 ,具有平均μ的正态分布我和方差 1,以及每个μ我本身遵循,然后气候预报员只是为每个 i 输出。
 
请注意,经过概率校准的预测器的PIT分布在大样本中接近均匀。PIT 分布的预期 CDF 在这里表示 i = 1, ..., N 上的样本平均运算符。当预测器进行概率校准时,此表达式收敛为 N → ∞ p。因此,检查PIT值的分布 - 寻找与均匀性的潜在偏差 - 是评估概率校准的良好诊断工具。许多人使用PIT直方图来检查PIT分布,因为它易于阅读和理解[3]。例如,如果 PIT 分布呈钟形,则预测器在其分布中间没有放置足够的权重,并且信心不足。通常,我们可以将PIT密度与1处的水平线进行比较,该水平线对应于均匀密度。与这条线的偏差越大(可以通过从均匀分布到 PIT 分布的 Kullback-Leibler 散度来量化,或者等效地,PIT 分布的负熵),校准错误就越大;有关示例,请参见图 1。
 
 
 
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 当真实分布为标准正态时,五个样本预测器的 PIT 分布密度。
https://doi.org/10.1371/journal.pcbi.1010771.g001
 
我们的重新校准方法使用 G 作为 CDF-CDF 变换。重新校准的预测器(表示为 M*)由重新校准的预测 CDF 定义,对于每个 i。根据链式规则,对于每个 i,重新校准的预测密度为 。因此,重新校准的预测是原始预测f我按PIT密度g加权。图2提供了该方法的图示。当然,在实践中,我们无权访问真实分布 H我,因此我们需要根据 PIT 值估计 G。一个关键假设是训练预测的 PIT 分布与测试预测的 PIT 分布相同。否则,将 G 应用 作为 CDF-CDF 变换将不会生成概率校准的预测。我们在本文中提出的G的最终估计将是三个估计的集成(加权线性组合):非参数方法,参数方法和零方法。首先,我们将激励校准作为提高预测准确性的工具,然后,我们解释各个估计方法。
 
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 重新校准的插图。
 
原始的、不自信的预测密度是,而真实密度是 。通过计算PIT密度g并生成重新校准的预测,作为乘积g(F(y))⋅f(y),我们恢复了真实的h(y)。
 
https://doi.org/10.1371/journal.pcbi.1010771.g002
 
2.1 校准和对数得分
为了量化预测器的校准情况,我们计算了PIT值分布的熵。如上所述,G 是 M 的 PIT 分布的 CDF。PIT 密度 g 的熵定义为
 
 
如果 M 是概率校准的,那么(渐近地,如 N → ∞)PIT 值是均匀的,熵为零,因为 g(p) 在任何地方都是 1。当PIT值不均匀时,熵为负。
 
熵也很有用,因为它提供了对错误校准如何惩罚预期日志分数的理解,如下所示。首先观察最后一步假设 h 上的平滑度和可积性条件
 
我, f我需要交换期望和差异(莱布尼茨规则)。接下来观察
 
(1)
其中第三行通过变量替换获得,第四行通过再次应用莱布尼茨规则获得,假设所需的正则性条件。
 
对于任何预测者,如果训练数据和测试数据的PIT分布相同,则可以通过估计g的负熵来估计重新校准的预测对数分数的改进(注意,[0,1]上任何分布的熵都是非正的)。我们也可以直观地解释这一点:H(g) 越负,它就越表明 g 结构中存在可以提取的信息来改进预测。
 
2.2 非参数校正
给定预测器的 PIT 值的观测训练集,F我(y我), i = 1, ..., N, 经验 PIT CDF 为
 
 
由于是离散的,它不允许明确定义的密度,因此要将其用于重新校准,我们可以首先使用单调三次样条插值进行平滑,然后它将具有真正的密度,它本身是平滑的(准确地说,连续可微分两次)。使用它进行重新校准会产生 。
 
在实践中,对于大量的训练数据,使用上述经验CDF进行重新校准可能是有效的。然而,由于训练数据很少,或者训练数据在 y 的分布中存在很大的多样性我,对于确保测试装置上的校准可能无效。这与一般使用非参数、无分布方法的实际困难一致。
 
2.3 参数校正
Gneiting和Ranjan [8]提出了一种重新校准方法,该方法最初是通过重新分配集成预报组件的权重来激发的,但他们的方法通常可以应用于重新校准任何黑盒预报器。给定观察到的 PIT 值训练集,F我(y我), i = 1, ..., N, 我们通过最大似然估计拟合 beta 密度。这实际上对应于β变换,该变换使重新校准的预测者在训练数据上的对数分数最大化[8]。
 
这种参数模型对最小训练数据更具弹性,并且 beta 分布通常是 PIT 分布的有效估计:由于 beta 密度可以是凸的或凹的,因此它足够灵活,可以拟合过度自信和信心不足的预测者的 PIT 分布;由于均值可以在区间 (0, 1) 内,因此它也可以拟合有偏差的预测者。然而,有问题的行为出现在尾部。除非在特殊情况下(其两个形状参数中的一个或两个正好为 1),否则其支撑端点处的 β 密度为 0 或 ∞,这可能会导致重新校准的问题(真实 PIT 密度和尾部之间可能存在很大差距)。
 
2.4 零点校正
重新校准融合的最后一个组成部分是零校正,其中根本没有重新校准,即我们简单地设置 .这可以防止过度拟合并减少整体集成校正的方差,将在下面描述。
 
2.5 重新校准集成
最终的重新校准系统使用前面描述的三个组件,并将它们作为一个整体进行加权。计算集合权重以最大化总体日志分数。让我们表示样本 i 和分量 j 的预测密度,权重集成 w 通过求解优化问题来定义:
 
(2)
其中 p 是集成分量的数量(对我们来说,p = 3),约束 w ≥ 0 是按分量解释的。
 
组件在融合中的权重不一定与该组件的性能成正比。例如,如果两个最佳组件彼此非常相似,则其中一个组件的权重可能非常小,因为该组件的信息由另一个组件有效表示。
 
2.6 季节性下的重新校准
流行病预测对重新校准提出了新的挑战。上面讨论的方法假设预测器的先前行为指示未来行为,或者更具体地说,训练集上的PIT分布将与测试集上的PIT分布相似。然而,在流行病预测中不一定是这种情况,因为预报员的行为通常会在流行病的不同阶段发生变化。例如,一些预测者没有充分预测从一周到下一周的疾病发病率变化。对于这样的预测者,PIT值通常在季节开始和高峰之间过高,因为发病率的增加速度比预测的要快。相反,在季节高峰期之后,PIT 值太低,因为发病率下降的速度比预测的要快。
 
为了解释PIT分布中的这种非平稳性,我们希望根据在不同季节流行曲线的相似点所做的预测来形成和使用一个特殊的训练集。这不是一项简单的实时任务,因为人们不能总是确定峰值是否已经过去。但是,对于季节性流行病,我们可以利用季节性并根据进行预测的日历周构建此训练集。例如,第 6 周的预测可以根据第 3 到 9 周内其他季节的预测进行重新校准。这就是我们在本文中的实验中所做的,下一节将提供更多详细信息。
 
3 结果
我们将这种集成重新校准方法应用于美国流感预测数据。为了更好地为季节性流感做好准备,美国疾病预防控制中心自2013年以来每年都会组织一次季节性流感预测挑战赛,称为FluSight挑战赛[18]。2017年,一组预报员组成了FluSight网络[19],并开始提交27个组件预报员的集合预报。作为此次合作的一部分,这些预报员中的每一个都制作并存储了从2010-11到2018-19的9个季节的回顾性预测。回顾性预报是同时进行的,每个预报员对所有季节都使用相同的方法。如果预测者在不同季节修改其算法,则以前的预测性能将无法预测未来的预测性能,从而违反了这种重新校准方法背后的假设。这些预测者包括机械和非机械预测者,以及基线预测者。它们在行为、准确性和校准方面各不相同,因此为我们的重新校准方法提供了一个有趣的挑战,该方法将预报员视为黑匣子。
 
首先,我们总结了FluSight数据集中的回顾性预测。每周,对七个预测目标进行预测,所有这些目标都基于加权ILI(wILI),即流感样疾病门诊就诊百分比的人口加权平均值,来自一个名为ILINet的医疗保健提供者网络向CDC的报告[20]。预测目标是:
 
季节开始(wILI连续三周高于预定基线的第一周);
季节高峰周(最大wILI的一周);
季节高峰百分比(最大wILI值);
比本周提前 1、2、3 和 4 周的 wILI 值。
前三个目标称为季节性目标,后四个目标称为短期目标。每个预测在预定的条柱上离散化,形成直方图分布。对于季节开始和季节高峰周目标,每个箱的宽度为一周,对于其他目标,每个箱的宽度为 0.1% wILI。对 10 个 HHS 地区以及整个美国进行了预测,从 2010-11 年到 2018-19 年共 9 个季节。因此,需要明确的是,此FluSight数据集中的预测按预报员,目标,季节,预报周和位置进行索引。
 
接下来,我们描述用于重新校准此数据集中的预测的训练设置,这是一种嵌套的离开一季交叉验证。对于给定的预测者和预测目标以及特定的季节,以下步骤对此进行了说明。
 
使用以下三种方法(非参数、参数和零)中的每一种为所有季节 r ≠ s 创建重新校准的预测。对于第 i 周和位置 l 的季节 r 的预测,我们使用除 r 和 s 以外的所有季节、[i − 3, i + 3]( i 的三周内)中的所有可用预测周以及所有 位置构建一个训练集。这些重新校准的预测仅用于在以下步骤中训练集合权重。
通过使用步骤 1 中重新校准的预测求解 (2) 来优化集成权重 w。
再次使用三种方法中的每一种为季节创建重新校准的预测:非参数、参数和零。这与步骤 1 中一样,只是我们在训练集中多了一个赛季。明确地说,对于第 i 周和位置 l 的季节 s 的预测,我们使用除 s 以外的所有季节、[i − 3, i + 3] 中的所有预测周(i 的三周内)和所有位置的 PIT 值构建训练集。
使用步骤 3 中的重新校准组件和步骤 2 中的权重,创建第 i 季的集成重新校准预测。
在下文中,我们将介绍并讨论结果。用于产生所有这些结果的代码和数据可在线公开获得[21]。
 
3.1 不同窗口大小的影响
刚才介绍的训练过程假设给定周 i 两侧的窗口为 k = 3 周,以便构建用于重新校准的 PIT 值集(使用来自其他季节的预测数据)。但是,我们可以考虑变化k,这将导航偏差-方差权衡之类的东西。我们预计非参数重新校准方法的最佳窗口k大于参数重新校准方法。事实证明,k = 3 通常是两者的合理选择,如图 3 所示。
 
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 不同重新校准方法的平均对数分数,在所有预测器上取平均值。
 
窗口大小 k 对应于给定预测周(如果可用)(包括可用)内对预测的训练重新校准。日志分数是 9 个季节、11 个地点和 29 周的平均值(日志分数越高越好)。最大的窗口大小会轻微损害参数模型的性能,最小的窗口大小会显着损害非参数模型的性能。对所有预测器进行平均计算,校准带来的性能改进大致等于通过将预测范围缩短一周而使性能提高。
 
https://doi.org/10.1371/journal.pcbi.1010771.g003
 
3.2 预测精度和校准
对于短期目标,集成重校准方法提高了几乎所有预测者的平均对数得分。非参数和参数重新校准方法都显著提高了平均对数分数,而集成则进一步提高了平均对数分数。对于季节性目标,某些组件重新校准方法不会提高精度,尽管集成方法确实提高了所有预测器的平均值精度。然而,只有大约四分之三的预测者提高了季节性目标的准确性。参见图 4 和图 5。
 
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 针对不同的重新校准方法,平均对数分数有所提高。
 
日志分数是 FluSight 中所有 27 个预报员、9 个季节、11 个地点和 29 周的平均值(日志分数越高越好)。集成重新校准方法提高了每个目标的精度。
 
https://doi.org/10.1371/journal.pcbi.1010771.g004
 
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 重新校准可提高平均对数分数(左)和 PIT 值熵(右)的预测者比例。
 
集成方法提高了所有预测者的短期目标的准确性,以及大多数预测者对季节性目标的准确性。它还改进了大多数预测者和大多数目标的校准(由熵测量)。集成方法优于非参数方法和参数方法。
 
https://doi.org/10.1371/journal.pcbi.1010771.g005
 
图6更直接地比较了短期预测的准确性与校准的改进,即平均对数分数与熵的改进。(请注意,我们使用一个简单的直方图估计器来估计PIT值分布的熵,该估计器沿区间[0,1]有100个相等的箱。我们看到一个明显的线性趋势,斜率约为 1,证实了我们对 (1) 的预期。
 
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 27个FluSight预测器和短期目标中每个目标的平均对数分数的改善与熵的改善。
 
在校准的改进和精度的提高之间有一个明显的线性趋势(斜率约为1)。
 
https://doi.org/10.1371/journal.pcbi.1010771.g006
 
最后,在图7中,我们表明我们的集成重新校准方法将几乎每个预测者的PIT分布的熵增加到几乎为零。两个例外,图7底部的线段,对应于特别差的预测器(如此差,以至于输出均匀分布的基线预测器的表现优于)。
 
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 重新校准前后的熵和平均对数分数,适用于 27 个 FluSight 预测器和短期目标中的每一个。
 
箭头尾部表示重新校准前的量,重新校准后的头部。虚线显示用于比较的标准均匀随机变量的相当大小样本的熵的中心 90% 区间。对于除两个预测器(最底部的八个线段)之外的所有预测器,集成重校准方法实现了近乎完美的校准,如接近零的PIT熵所证明的那样,并且伴随着准确性的显着提高。
 
https://doi.org/10.1371/journal.pcbi.1010771.g007
 
3.3 训练季节数的影响
我们选择将我们的重新校准应用于FluSight挑战赛,因为在许多季节中有许多预报员可以进行测试和培训。在重新校准其他流行病的预测时,可用的训练数据可能要少得多。幸运的是,这些方法对于重新校准FluSight Challenge预测的情况非常强大,几乎没有训练数据。参数重新校准方法提高了平均对数分数,在所有 27 个预测中取平均值,仅有两个训练季节,非参数重新校准提高了四个训练季节的平均性能,如图 8 所示。
 
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图8. 重新校准后平均对数分数的提高,按训练季节数计算,所有 27 名 FluSight 预报员的平均值。
 
我们为九个可用季节中的每个季节和 n ∈ {1, 2, 4, 8} 执行三次运行,其中运行包括随机抽样 n 个其他季节,以训练 27 个 FluSight 预报器中每个季节的重新校准。图中每个点在 9 × 3 = 27 次运行中取平均值。正如预期的那样,参数方法比非参数方法对有限的训练数据更可靠。
 
https://doi.org/10.1371/journal.pcbi.1010771.g008
 
由于我们根据季节性有选择地进行训练,如第 2.6 节所述,每个训练季节和地点仅贡献 7 个 PIT 值来估计 G。我们将 11 个位置汇集在一起,因此参数化方法可以使用大约 150 个 PIT 值来提高性能,而非参数方法可以使用大约 300 个 PIT 值来提高性能。
 
3.4 重新校准 FluSight 集合
正如我们刚刚看到的,重新校准可以提高FluSight网络中各个预报员的性能。因此,一个自然的后续行动是研究它是否可以提高FluSight融合的性能,FluSight集合是一个结合了27个组件预报器(单个FluSight预报器)的预报器,其结构在[19]中进行了描述。
 
由于重新校准和集成都是后处理方法(即,可以应用于预测数据的后处理),我们有两个选择可供探索。我们可以重新校准组件预测器,然后集成(C-E),或者集成组件然后重新校准(E-C)。在 C-E 模型中,我们根据重新校准的组件预测,以留一季的形式训练集合权重。在 E-C 模型中,我们在原始组件预测上以留一季格式训练集成权重,然后重新校准集成预测。
 
图9显示E-C模型的性能优于C-E模型。这符合既定的预测理论,该理论指出线性集成(采用组件预测器的线性组合,例如FluSight集合方法)本身通常是错误校准的,即使单个组件预测器本身已校准[5,8,22]。
 
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 9. 重新校准 FluSight 集合预报器的两种不同方法的平均对数分数,其中 C-E 和 E-C 反映了重新校准和集成的顺序。
 
C-E 和 E-C 模型的性能都优于原始集成(无需重新校准),但集成后重新校准的性能最佳。通过将预测性能视为时间的函数,重新校准可以提高性能,大约需要两天的时间。
 
https://doi.org/10.1371/journal.pcbi.1010771.g009
 
4 讨论
即使在像流行病预测这样复杂的领域,本文中描述的相对简单的重新校准方法也可以显着提高校准和准确性。预测者在任何适当分数下的表现都可以分解为三个组成部分:目标本身的固有不确定性,预测者的分辨率(预测的浓度)和预测者对目标的可靠性(校准)[1]。在流行病预报中,如果没有季节性感知的重校准训练(如本文提出和实施的训练),重新标定不会影响由个别预报员承担的分辨率项,但会提高可靠性项。但是,使用季节性感知重新校准,它也可以改善分辨率项。
 
在FluSight挑战赛中来自27位预报员的9个季节的预测数据中,我们发现重新校准对短期目标(提前1-4周预测)特别有帮助。除了两个性能不佳的非常相似的预测器外,集成重校准方法能够将PIT分布的熵降低到接近零(与均匀分布没有或几乎没有统计学上的显着差异)。因此,重新校准的预测更准确、更可靠。在各种预测器中都是如此,包括机械模型、统计模型、基线模型和集成模型;事实上,由于我们的重新校准方法将预测器视为黑匣子,因此它可以应用于任何预测者,可以访问适当的训练数据(回顾性历史预测)。
 
重新校准流感预报避免了其他预报环境中存在的挑战,例如非季节性、缺乏跨多个季节的一致预报员以及很少的训练数据小训练数据、非季节性和跨多个季节的一致预测模型。虽然这使得重新校准流感预测成为一项相对容易的任务,但我们相信这种重新校准方法也可以应用于预测其他疾病。例如,登革热是一种季节性疾病,自2014年以来的训练数据可用于预测[23]。伊蚊数量是CDC感兴趣的另一个季节性目标,CDC已经发布了一些县的几年训练数据,用于预测[24]。这种重新校准方法及其季节性成分可以应用于这些预测。
 
在应用于非季节性疾病(例如COVID-19(目前))时,可以轻松修改此方法以使用所有可用的PIT值,而不是用于流感预测的选择性训练。或者,选择性训练可以不是按日历周进行,而是通过区分预测者行为的其他一些特征(例如,病例是增加还是减少)来完成。虽然这允许采用灵活的方法来重新校准各种季节性和非季节性疾病,但在实践中可能难以有效实施。在 PIT 分布随时间缓慢变化的其他情况下,只能对最近的预测进行训练,以改进 的估计。这种选择性训练方法已成功重新校准COVID-19预测[25]。集成方法允许合并根据不同历史预测训练的多个模型,甚至完全不同的重新校准方法。
 
关于缺乏一致的预测者,即使预测者多年来不断修改,并且以前的表现并不代表当前的业绩,也可以根据当前预报员产生的回顾性预测进行重新校准。
 
缺乏训练数据是一个更难解决的问题。有限训练数据的一个明显问题是估计的方差,但另一个挑战是很难确认我们的假设,即PIT分布随时间推移是平稳的。如果我们无法检测到PIT分布随时间变化,我们将对预测进行不适当的“更正”,这可能会损害校准和准确性。在实践中,重新校准提高了FluSight挑战赛预测的性能,而训练数据相对较少,如图8所示。但是,在行为不太好的应用程序中,性能可能会降低。我们在线提供了这些重新校准方法,以便用户可以尝试自己的预测,并确定重新校准是否能提高性能[21]。
 
相对于季节性目标(开始、高峰周和峰值百分比)的重新校准绩效不如短期目标具有决定性。尽管所有预报员的平均对数得分有所提高,但重新校准只能提高约四分之三预报员的表现。季节性目标本质上更难重新校准,因为在赛季结束时,几乎可以肯定观察到了真实值,并且预测非常自信。对于这些预测,正确的箱的质量几乎为 1,然后观察到的 PIT 值约为 0.5。在赛季结束时,PIT分布非常集中在0.5,这表明信心不足和校准不佳。如果这些 PIT 值 0.5 用于在季节早期(在观察到目标之前)训练重新校准的预测,则重新校准错误会使预测更有信心。由于人们不确定季节峰值是否在峰值发生后的几周内出现,因此重新校准训练是一项不平凡的任务。一般来说,需要做更多的工作才能可靠地提高季节性目标的准确性和校准,这是未来工作的主题。
 
支持信息
支持信息包含其他结果。
 
跳到无花果共享导航
S1 附录1 个人所得税分布示例为了说明,我们提供了 27 个FluSight预报员和四个短期目标,在重新校准之前(图S1)和之后重新校准(图S2)。原始预测者的PIT分布主要属于以下之一两类:对模式在 0 左右的自信不足.5、过度自信最小值约为 0.5 并在 0 和 1 处达到峰值。峰值约为 0 的异常值.1 是统一预报员的PIT分布。重新校准的预报员坑分布大多是平坦的,表明 PIT 值分布得几乎均匀。图 S1.对于四个短期目标中的每一个,27FluSight Network 组件预报器,在重新校准之前。2 原始和重新校准的PIT方差预测我们显示了原始和重新校准预测的PIT分布的方差在图 S3 中。均匀分布的方差为112,以及其 PIT 的预测员值的方差为112被称为中性分散.如果差异为大于112,预测器是分散不足(“过度自信”),如果方差为小于112,预测器是过度分散(“信心不足”)[1]. 几乎所有预测器收敛到接近112和过度自信的预测者12月 6, 20221/7
图 S2.对于四个短期目标中的每一个,27FluSight Network 组件预报器,重新校准后。通常保持略微过度自信,而信心不足的预测者通常仍然保持有点不自信。图 S3.重新校准前后PIT值的方差。在几乎所有情况下,过度自信预测者的方差减小,信心不足的预测者的方差减小增加。均匀分布的方差由黑线 1 处表示/12.12月 6, 20222/7
 
下载
无花果分享
S1 附录。 支持信息包含其他结果。
https://doi.org/10.1371/journal.pcbi.1010771.s001
 
(英文)
 
确认
AR得到了卡内基梅隆大学机器学习与健康中心的奖学金和McCune基金会的礼物的支持。RT和RR得到了疾病控制和预防中心拨款U01IP001121的支持。我们还要感谢审稿人的建议,这些建议大大改进了本文的讨论和分析。
 
引用
1.Bröcker J. 可靠性、充分性和适当分数的分解。皇家气象学会季刊。2009;135(643):1512–1519.
查看文章谷歌学术搜索
2.基于校准的经验概率。统计年鉴。1985;13(4):1251–1274.
查看文章谷歌学术搜索
3.格奈廷 T, 巴拉布达维 F, 拉夫特里 AE.概率预测、校准和清晰度。皇家统计学会杂志,系列B. 2007;69:243–268。
查看文章谷歌学术搜索
4.格奈廷·严格正确的评分规则、预测和估计。美国统计协会杂志。2007;102(477):359–378.
查看文章谷歌学术搜索
5.Hora SC. 连续量的概率判断。管理科学。2004;50(5):597–604.
查看文章谷歌学术搜索
6.哈米尔TM,科鲁奇SJ。Eta-RSM短程集合预报的验证。每月天气回顾。1997;125:1312–1327.
查看文章谷歌学术搜索
7.Raftery AE, Gneiting T, Balabdaoui F, Polakowski M. 使用贝叶斯模型平均来校准预测系综。每月天气回顾。2005;133:1155–1174.
查看文章谷歌学术搜索
8.Gneiting T, Ranjan R. 组合预测分布。电子统计杂志。2013;7:1747–1782.
查看文章谷歌学术搜索
9.范登杜尔 H, 贝克尔 E, 陈 LC, 张 Q.概率预测的概率异常相关和校准。天气和预报。2017;32:199–206.
查看文章谷歌学术搜索
10.Brocklehurst S, Chan PY, Littlewood B, Snell J. 重新校准软件可靠性模型。IEEE Transactions on Software Engineering.1990;16(4):458–470.
查看文章谷歌学术搜索
11.Hamill TM, Whitaker JS, Wei X. Ensemble reforecasting: 使用回顾性预测提高中期预测技能。每月天气回顾。2004;132:1434–1447.
查看文章谷歌学术搜索
12.Gneiting T,Raftery AE,Westveld AH III,Goldman T.使用集成模型输出统计和最小CRPS估计的校准概率预测。每月天气回顾。2005;133:1098–1118.
查看文章谷歌学术搜索
13.威尔克斯DS,哈米尔TM。使用GFS重新预测的集成MOS方法的比较。每月天气回顾。2007;135:2379–2390.
查看文章谷歌学术搜索
14.Hamill TM, Whitaker JS, Mullen SL. Reforecasts: 用于改进天气预报的重要数据集。美国气象学会公报。2006;87:33–46.
查看文章谷歌学术搜索
15.de Finetti B.区分有关测试项目的部分知识水平的方法。英国数学和统计心理学杂志。1965;18:87–123.
查看文章谷歌学术搜索
16.好IJ。理性决策。皇家统计学会杂志。1952;14:107–114.
查看文章谷歌学术搜索
17.统计理论:序贯方法(有讨论)。英国皇家统计学会杂志系列A. 1984;147:278–292。
查看文章谷歌学术搜索
18.疾病控制和预防中心。FluSight:流感预测;。https://www.cdc.gov/flu/weekly/flusight/index.html。
19.Reich NG, McGowan CJ, Yamana TK, Tushar A, Ray EL, Osthus D, et al.美国季节性流感实时多模式集合预报的准确性 PLOS 计算生物学.2019;15(11).密码:31756193
查看文章PubMed/NCBI谷歌学术搜索
20.疾病控制和预防中心。国家、地区和州级门诊疾病和病毒监测;https://gis.cdc.gov/grasp/fluview/fluportaldashboard.html。
21.Rumack A, Brooks LC, Hyun S, Tibshirani RJ, Rosenfeld R. 重新校准存储库;.https://github.com/rumackaaron/recalibration。
22.Ranjan R, Gneiting T. 组合概率预测.英国皇家统计学会杂志, 系列 B. 2010;72(1):71–91.
查看文章谷歌学术搜索
23.泛美卫生组织。泛美卫生组织/世卫组织数据——登革热病例;.https://www3.paho.org/data/index.php/en/mnu-topics/indicadores-dengue-en/dengue-nacional-en/252-dengue-pais-ano-en.html。
24.疾病控制和预防中心。流行病预测倡议:伊蚊预测;https://predict.cdc.gov/post/5e8e21ebcd1fbb050eacaa1e。
25.Picard R,Osthus D.传染病模型的预测区间。医疗Rxiv。2022;.
查看文章谷歌学术搜索
 
 
上一篇:教育类论文写作常见问题

下一篇:林业论文出版(出版流程+技巧)
咨询方式

 ---->>学术源论文咨询发表网
 ---->>咨询QQ:854727998 
 ---->>电话:
   
13889158687(微信同号)

 ---->>邮箱:lunwen133@163.com
投稿写明所投期刊,3日内回复.五日未回复可电话咨询。

工作时间:8:00-17:00   周六值班、周日休息,国家法定假日休息

学术焦点 更多>>

《健康必读》省级医学月刊 当月发
《医药前沿》国家级医学月刊 ISS
《中国健康月刊》国家医学月刊-是
《才智》省级教育类月刊-CN22-13
《商情教育经济研究》省级教育类月
《考试周刊》省级教育类月刊/国内
《科教导刊》省级教育类旬刊 ISS
《文艺生活》省级教育类月刊 ISS
学术推荐 更多>>

《中小学电教

     《中小学电教》:省教育厅主管,省电教馆主办。国内统一刊号:C

《文艺生活》

     《文艺生活》杂志是经中华人民共和国新闻出版总署批准,由湖南省

《黑龙江科技

     《黑龙江科技信息》杂志是经国家科技部和国家新闻出版总署批准在
首页   -   关于我们   -   联系我们   -   发表流程   -   网站声明   -   在线投稿   -   友情链接

咨询电话 13889158687(微信同号)  QQ咨询:854727998


投稿邮箱:lunwen133@163.com
学术源论文发表咨询网 www.xueshuyuang.com  备案号:
闽ICP备2021001903号-2
版权所有  学术源论文发表咨询网