机器学习模型的解释方法效果如何？

machine learning Credit:pix abay/CC0 Public Domain想象一下，一组医生使用神经网络来检测乳房x光照片中的癌症。即使这种机器学习模型似乎表现良好，它也可能会关注偶然与肿瘤相关的图像特征，如水印或时间戳，而不是肿瘤的实际迹象。为了测试这些模型，研究人员使用“特征归因方法”，这种技术应该告诉他们图像的哪些部分对神经网络的预测最重要。但是如果属性化方法忽略了对模型很重要的特性呢？由于研究人员不知道哪些特征是重要的，他们无法知道他们的评估方法是无效的。

为了帮助解决这个问题，麻省理工学院的研究人员设计了一个过程来修改原始数据，这样他们就可以确定哪些特征对模型实际上很重要。然后他们使用这个修改后的数据集来评估特征属性方法是否能够正确地识别那些重要的特征。

他们发现，即使是最流行的方法也经常错过图像中的重要特征，有些方法几乎无法达到随机基线的性能。这可能会产生重大影响，尤其是如果神经网络应用于像医学诊断这样的高风险情况。研究报告的主要作者、计算机科学与人工智能实验室(CSAIL)的电气工程和计算机科学研究生周轶伦解释说，如果网络工作不正常，试图捕捉这种异常的努力也不正常，人类专家可能不知道他们被错误的模型误导了。

“所有这些方法都被广泛使用，尤其是在一些真正高风险的场景中，比如从x光或CT扫描中检测癌症。但是这些特征归因方法可能首先是错误的。他们可能会突出一些与模型用来进行预测的真实特征不相符的东西，我们发现这种情况经常发生。如果你想用这些特征属性方法来证明一个模型工作正常，你最好首先确保特征属性方法本身工作正常，”他说。

周与研究生Serena Booth、微软研究院研究员·里贝罗以及资深作者Julie Shah共同撰写了这篇论文，Julie Shah是麻省理工学院航空航天学教授，也是CSAIL交互式机器人小组的负责人。

关注特性

在图像分类中，图像中的每个像素都是神经网络可以用来进行预测的特征，因此实际上它可以关注数百万个可能的特征。例如，如果研究人员想设计一种算法来帮助有抱负的摄影师改进，他们可以训练一个模型来区分专业摄影师拍摄的照片和休闲游客拍摄的照片。这个模型可以用来评估业余照片与专业照片的相似程度，甚至提供具体的改进反馈。研究人员希望这种模型在训练过程中专注于识别专业照片中的艺术元素，如色彩空间、构图和后处理。但碰巧的是，一张专业拍摄的照片很可能包含摄影师名字的水印，而很少有旅游照片有水印，所以模特可以走捷径找到水印。

“显然，我们不想告诉有抱负的摄影师，成功的职业生涯只需要一个水印，所以我们希望确保我们的模型专注于艺术特征，而不是水印的存在。使用特征属性方法来分析我们的模型很有诱惑力，但归根结底，不能保证它们能正确工作，因为模型可以使用艺术特征、水印或任何其他特征，”周说。

“我们不知道数据集中那些虚假的相关性是什么。可能有太多不同的东西对一个人来说是完全察觉不到的，比如图像的分辨率，”布斯补充道。“即使我们感觉不到，神经网络也有可能提取出这些特征，并利用它们进行分类。这是根本问题。我们不了解我们将要了解的数据集，但也不可能很好地了解我们的数据集。”

研究人员修改了数据集，以削弱原始图像和数据标签之间的所有相关性，这保证了原始特征不再重要。

然后，他们给图像添加了一个新的特征，这个特征如此明显，以至于神经网络必须关注它来进行预测，就像不同图像类别的不同颜色的明亮矩形一样。

“我们可以自信地断言，任何获得真正高信心的模型都必须专注于我们放入的彩色矩形。然后我们可以看看所有这些特征归属方法是否急于突出那个位置，而不是其他一切，”周说。

“特别惊人”的结果

他们将这种技术应用于许多不同的特征归属方法。对于图像分类，这些方法产生了所谓的显著图，它显示了分布在整个图像上的重要特征的集中。例如，如果神经网络正在对鸟类图像进行分类，显著性图可能会显示80%的重要特征集中在鸟喙周围。

在去除图像数据中的所有相关性后，他们以几种方式处理照片，例如模糊图像的某些部分、调整亮度或添加水印。如果特征归因方法工作正常，几乎100%的重要特征应该位于研究人员操作的区域周围。

结果并不令人鼓舞。没有一种特征归因方法接近100%的目标，大多数几乎没有达到50%的随机基线水平，有些甚至在某些情况下表现得比基线差。因此，即使新的特征是模型可以用来进行预测的唯一一个特征，特征归属方法有时也无法发现这一点。

“在所有不同类型的虚假相关性中，这些方法似乎都不太可靠。这尤其令人担忧，因为在自然数据集中，我们不知道哪些虚假的相关性可能适用，”周说。“可能是各种因素。我们以为可以信任这些方法来告诉我们，但在我们的实验中，似乎真的很难信任它们。”

他们研究的所有特征归因方法都比没有异常更能检测到异常。换句话说，这些方法比识别图像不包含水印更容易找到水印。因此，在这种情况下，人类更难相信给出负面预测的模型。

该团队的工作表明，在将特征属性方法应用于真实世界模型之前，测试它们是至关重要的，尤其是在高风险的情况下。

沙阿说:“研究人员和实践者可能会使用特征归因方法等解释技术来产生一个人对模型的信任，但除非首先对解释技术进行严格评估，否则这种信任是不成立的。“解释技术可以用来帮助校准一个人对模型的信任，但同样重要的是校准一个人对模型解释的信任。”

展望未来，研究人员希望利用他们的评估程序来研究可能导致虚假相关性的更微妙或更现实的特征。他们想探索的另一项工作是帮助人类理解显著图，这样他们就可以根据神经网络的预测做出更好的决定。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/12297.html

物理科技生物学-PHYICA

机器学习模型的解释方法效果如何？

发表评论

评论列表

最新发布

热门排行

物理科技生物学-PHYICA

机器学习模型的解释方法效果如何？

猜你喜欢

发表评论

评论列表

最新发布

热门排行