研究显示机器学习如何改进新冠肺炎预测模型

digital networks Credit: CC0公共领域在整个新冠肺炎疫情，病例率以流行病学模型难以预测的方式起伏。布朗大学数学家的一项新研究使用了一种先进的机器学习技术来探索常用模型的优缺点，并提出了使它们更具预测性的方法。“在建模领域有一句老话，‘所有模型都是错的，但有些是有用的’”，发表在《自然计算科学》上的这项研究的资深作者、布朗大学应用数学和工程教授乔治·卡尔尼亚达吉斯说。“我们在这里展示的是，主要的新冠肺炎模型是错误的，而且也不是很有用——至少在预测疫情进程方面是如此。周一上午有很多预测，但没有很多准确的预测。”

为了找出原因，研究小组观察了9个著名的新冠肺炎模型，它们都是“易感-感染-去除”或SIR模型的一些变体。这些模型将一个群体分成不同的部分:尚未感染的人(易感)、已感染并可能将病毒传播给他人的人(有传染性)和已感染且无法再传播的人(已清除)。SIR模型的更复杂版本包括额外的垃圾箱，用于捕获隔离率、住院率、死亡率和其他可能影响病毒传播的数量。

有许多因素会影响个人从一个垃圾箱到另一个垃圾箱的移动。例如，从“易感染”到“传染性”的运动取决于病毒在人与人之间跳跃的效率，以及人们相互密切接触的频率。这些因素中的许多不能被直接观察到，因此模型必须从可用的数据中推断它们的值。在建模方面，这些因素被称为参数。

研究发现，新冠肺炎模型的一个主要缺点是，它们将关键参数值视为随着时间的推移而固定不变，尽管这些因素在现实世界中发生了巨大的变化。例如，病毒的社区传播率因口罩的使用、企业关闭和重新开业以及其他措施而大相径庭。住院率随着医院床位的变化而变化。死亡率随着新疗法而变化。研究人员发现，所有这些不断演变的因素都改变了病例率和死亡率的轨迹，但突出的模型使这些参数在时间上保持稳定，这导致了糟糕的预测。

下一个问题是，是否有办法在流行病学模型中捕捉这些变化的参数。为了做到这一点，该团队使用了物理学知识丰富的神经网络——一种由卡尔尼亚达吉斯和他的同事在布朗开发的机器学习技术。PINNs是类似于用于识别图像或将语音转录成文本的神经网络。但与标准神经网络不同，PINNs配备了描述支配系统的物理定律的方程。Karniadakis和他的团队首先使用PINNs从图像和视频中发现流体流动的速度和压力。在这些情况下，PINNs配备了流体动力学中使用的方程。在这种情况下，研究小组为PINNs配备了用于计算病原体如何传播的方程。

布朗大学的访问学者、该研究的共同第一作者Ehsan Kharazmi说:“考虑到流行病会随着时间的推移而演变，并且有持续的数据收集，PINNs可以随着新数据的收集而重新训练，并随着时间的推移用推断的参数更新模型。“与疫情演化的时间尺度相比，用新数据重新训练PINNs所需的计算时间相对较短。”

该团队为配备PINN的模型提供了真实世界的数据——来自纽约市、罗德岛州和密歇根州，以及来自意大利的国家数据——并允许PINNs推断关键参数随时间的值。PINNs也能够量化他们对推断参数的不确定性。然后研究小组使用PINN的模型来预测未来。2021年1月，该团队根据时间调整后的参数对未来六个月进行了预测。然后，在将实际病例率与他们的预测进行比较时，他们发现2021年1月至6月的实际病例率落在模型预测的不确定性窗口内。研究中使用的四个数据集都是如此。

研究结果表明，虽然没有一个模型能够准确地捕捉到扩展疫情过程中的所有动态，但具有动态调整关键参数能力的模型可以做出更有用的预测。

“使用PINNs推断的模型可以通过调整模型参数来评估未来可能的轨迹，”Kharazmi说。"这可以为制定或调整政策提供一些见解."

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/10359.html