研究发现，图像数据库的“标签外”使用可能导致人工智能算法的偏差

AI algorithm Credit:pix abay/CC0 Public Domain过去十年人工智能(AI)的重大进步依赖于使用大规模开源数据库对算法进行的广泛训练。但根据加州大学伯克利分校和德克萨斯大学奥斯汀分校研究人员的一项新研究，当这些数据集被“标签外”使用并以非预期的方式应用时，结果会受到机器学习偏差的影响，从而损害人工智能算法的完整性。这些发现发表在本周的《美国国家科学院院刊》(Proceedings of the National Academy of Sciences)上，突显了为一项任务发布的数据被用来为另一项任务训练算法时出现的问题。

当研究人员未能复制医学成像研究的有希望的结果时，他们注意到了这个问题。“经过几个月的工作，我们意识到论文中使用的图像数据已经过预处理，”该研究的首席研究员迈克尔·卢斯蒂格说，他是加州大学伯克利分校电气工程和计算机科学教授。“我们希望提高对这个问题的认识，这样研究人员就可以更加谨慎，并发表更加现实的结果。”

这些年来免费在线数据库的激增有助于支持医学成像领域人工智能算法的发展。特别是对于磁共振成像(MRI ),算法的改进可以转化为更快的扫描速度。获取MR图像包括首先获取编码图像表示的原始测量值。然后，图像重建算法对测量结果进行解码，以产生临床医生用于诊断的图像。

一些数据集，如众所周知的ImageNet，包含数百万张图像。包括医学图像的数据集可用于训练人工智能算法，该算法用于解码扫描中获得的测量结果。研究主要作者、Lustig实验室的博士后研究员Efrat Shimron表示，新的和缺乏经验的人工智能研究人员可能没有意识到这些医学数据库中的文件通常是经过预处理的，而不是原始的。

正如许多数码摄影师所知，原始图像文件比压缩文件包含更多的数据，因此在原始MRI测量数据的数据库上训练人工智能算法非常重要。但是这种数据库很少，所以软件开发人员有时会下载处理过的磁共振图像数据库，从中合成看似原始的测量数据，然后使用这些数据开发他们的图像重建算法。

研究人员创造了“隐性数据犯罪”这个术语来描述使用这种错误的方法开发算法时产生的有偏见的研究结果。“这是一个容易犯的错误，因为数据处理管道是由数据管理员在数据在线存储之前应用的，而这些管道并不总是得到描述。因此，并不总是清楚哪些图像是经过处理的，哪些是原始的，”Shimron说。“在开发人工智能算法时，这导致了一种有问题的混合匹配方法。”

好得难以令人相信

为了证明这种做法如何导致性能偏差，Shimron和她的同事将三种著名的MRI重建算法应用于基于fastMRI数据集的原始和处理过的图像。当使用处理过的数据时，算法产生的图像比原始数据产生的图像好48%，明显更清晰和锐利。

“问题是，这些结果好得令人难以置信，”Shimron说。

这项研究的其他共同作者是乔纳森·塔米尔，德克萨斯大学奥斯汀分校电气和计算机工程助理教授，和王柯，加州大学伯克利分校卢斯蒂格实验室的博士生。研究人员做了进一步的测试，以证明经过处理的图像文件对图像重建算法的影响。

从原始文件开始，研究人员使用两种常见的数据处理管道在受控的步骤中处理图像，这两种管道影响了许多开放访问的MRI数据库:使用商业扫描仪软件和JPEG压缩的数据存储。他们使用这些数据集训练了三种图像重建算法，然后他们测量了重建图像的准确性与数据处理的程度。

“我们的结果表明，所有算法的行为都类似:当应用于处理过的数据时，它们生成的图像看起来不错，但它们看起来与原始的、未经处理的图像不同，”Shimron说。"这种差异与数据处理的程度密切相关."

“过于乐观”的结果

研究人员还调查了在临床设置中使用预训练算法的潜在风险，将已在处理数据上预训练的算法应用于现实世界的原始数据。

“结果是惊人的，”Shimron说。"那些适应处理过的数据的算法在处理原始数据时表现不佳。"

该研究的作者说，这些图像可能看起来很好，但它们是不准确的。“在一些极端情况下，与病理学相关的临床上重要的小细节可能会完全丢失，”Shimron说。

虽然这些算法可能会报告更清晰的图像和更快的图像采集，但这些结果无法用临床或原始扫描仪数据重现。研究人员表示，这些“过于乐观”的结果揭示了将有偏见的算法转化为临床实践的风险。

“没有人能预测这些方法在临床实践中会如何工作，这给临床采用造成了障碍，”塔米尔说，他在加州大学伯克利分校获得了电子工程和计算机科学博士学位，曾是卢斯蒂格实验室的成员。“这也使得比较各种竞争方法变得困难，因为一些方法可能是根据临床数据报告性能，而另一些方法可能是根据处理后的数据报告性能。”