医学一起看电视的软件人工智能模型依赖于可能导致新冠肺炎误诊的“捷径”

artificial intelligence Credit: Unsplash/ CC0公共领域人工智能有望成为提高医疗决策速度和准确性的强大工具，从而改善患者的结果。从诊断疾病到个性化治疗，再到预测手术并发症，人工智能在未来可能会像今天的成像和实验室测试一样成为患者护理的一部分。但是华盛顿大学的研究人员发现，人工智能模型——就像人类一样——有寻找捷径的趋势。在人工智能辅助疾病检测的情况下，如果部署在临床环境中，这些捷径可能会导致诊断错误。

在5月31日发表在《自然机器智能》杂志上的一篇新论文中，UW的研究人员检查了最近提出的多种模型，这些模型被认为是从胸部x光照相术中准确检测新冠肺炎的潜在工具。研究小组发现，这些模型不是学习真正的医学病理学，而是依靠捷径学习来得出医学无关因素和疾病状态之间的虚假联系。在这里，模型忽略了临床上有意义的指标，而是依赖于特定于每个数据集的特征，如文本标记或患者定位来预测某人是否患有新冠肺炎。

“医生通常会认为新冠肺炎的发现是基于图像中反映疾病过程的特定模式，”合著者亚历克斯·德格洛夫说，他正在保罗·艾伦计算机科学与工程学院攻读博士学位，并获得UW医学科学家培训项目的医学学位。“但是，使用快捷学习的系统可能会判断某人是老年人，从而推断他们更有可能患有这种疾病，而不是依赖于这些模式，因为这种疾病在老年患者中更常见。捷径本身没有错，但这种关联是意想不到的，也不是透明的。这可能会导致不恰当的诊断。”

该团队表示，捷径学习不如真正的医学病理学稳健，通常意味着模型在原始环境之外无法很好地推广。

“依赖于捷径的模型通常只会在开发它的医院工作，所以当你把系统带到一家新医院时，它就会失败——这种失败会把医生引向错误的诊断和不适当的治疗，”DeGrave说。

将缺乏健壮性与人工智能决策的典型不透明性结合起来，这样的工具可能会从潜在的救星变成累赘。

缺乏透明度是导致该团队专注于可解释的医学和科学人工智能技术的因素之一。大多数人工智能被认为是一个“黑箱”——模型是在大规模数据集上训练的，它在没有任何人确切知道模型是如何得出给定结果的情况下输出预测。有了可解释的人工智能，研究人员和实践者能够详细理解各种输入及其权重如何对模型的输出做出贡献。

该团队使用同样的技术来评估模型的可信度，这些模型最近被吹捧为似乎能准确识别胸部x光的新冠肺炎病例。尽管发表了许多论文来预示这些结果，但研究人员怀疑，导致这些模型预测的黑匣子内部可能发生了其他事情。

具体来说，研究小组推断，由于缺乏针对这种新疾病的训练数据，这些模型将容易出现被称为“最坏情况混淆”的情况。这种情况增加了模型依赖捷径的可能性，而不是从训练数据中学习疾病的潜在病理。

“最糟糕的混淆是什么让人工智能系统只学习识别数据集，而不是学习任何真正的疾病病理学，”合著者约瑟夫·贾尼泽克说，他也是艾伦学校的博士生，在UW大学获得医学学位。“当所有新冠肺炎阳性病例都来自一个数据集，而所有阴性病例都在另一个数据集时，就会发生这种情况。虽然研究人员已经提出了一些技术，在关联不太严重的情况下减轻这种关联，但这些技术在新冠肺炎地位等结果与数据源等因素之间存在完美关联的情况下不起作用。”

该团队在一个数据集的x光图像上训练了多个深度卷积神经网络，该数据集复制了已发表论文中使用的方法。首先，他们在初始数据集的一组内部图像上测试了每个模型的性能，该数据集没有包含在训练数据中。然后，研究人员测试了这些模型在第二个外部数据集上的表现，该数据集旨在表示新的医院系统。

当在来自内部数据集的图像上测试时，虽然模型保持了它们的高性能，但是在第二组中，它们的精度降低了一半。研究人员称之为“泛化差距”，并将其作为强有力的证据，证明混杂因素是模型在初始数据集上预测成功的原因。

该团队随后应用了可解释的人工智能技术，包括生成性对抗网络和显著图，来识别哪些图像特征在确定模型预测中最重要。

研究人员在第二个数据集上训练模型，该数据集包含来自相似来源的阳性和阴性新冠肺炎病例，因此被认为不太容易混淆。但即使是这些模型，在外部数据上测试时，性能也会相应下降。

这些结果颠覆了传统观点，即当数据集来自相似的来源时，混淆并不构成什么问题。它们还揭示了高性能医学人工智能系统在多大程度上可以利用不希望的捷径，而不是希望的信号。

“我和我的团队仍然对AI用于医学影像的临床可行性持乐观态度。我相信我们最终会有可靠的方法来防止人工智能学习捷径，但要实现这一目标还需要做更多的工作，”艾伦学院教授、资深作者李素音说。“展望未来，可解释的人工智能将成为确保这些模型能够安全有效地用于增强医疗决策和为患者实现更好结果的重要工具。”

德格洛夫说，尽管该团队的发现引起了人们的担忧，但该团队研究的模型不太可能在临床环境中得到广泛应用。虽然有证据表明，至少有一个有缺陷的模型——COVID-Net——被部署在多家医院，但尚不清楚它是用于临床还是仅用于研究。

“关于这些模型在哪里以及如何部署的完整信息尚不可用，但可以安全地假设这些模型的临床应用很少或不存在，”DeGrave说。“大多数情况下，医疗保健提供者使用实验室检测(PCR)来诊断新冠肺炎，而不是依靠胸片。医院不愿意承担责任，这使得它们更不可能依赖相对未经测试的人工智能系统。”

詹妮泽克说，希望将人工智能应用于疾病检测的研究人员需要改进他们的方法，然后才能将这种模型用于为患者做出实际的治疗决策。

“我们的发现指出了应用可解释的人工智能技术来严格审计医疗人工智能系统的重要性，”詹妮泽克说。“如果你看一些x光片，人工智能系统可能会表现良好。问题只有在你看了很多图片后才会变得清晰。在我们有办法使用更大的样本量更有效地审计这些系统之前，更系统地应用可解释的人工智能可以帮助研究人员避免我们在新冠肺炎模型中发现的一些陷阱。”

这个小组已经证明了可解释人工智能在成像以外的一系列医学应用中的价值。这些工具包括评估手术并发症的患者风险因素，以及基于个体分子特征的靶向癌症治疗。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/4575.html