物理科技生物学-PHYICA

新方法将机器学习模型的推理与人类的推理进行比较

技术工程 2022-04-20 21:56:33

Does this artificial intelligence think like a human?麻省理工学院的研究人员开发了一种方法,可以帮助用户理解机器学习模型的推理,以及这种推理与人类的推理相比如何。鸣谢:克里斯汀·丹尼洛夫(Christine Daniloff),麻省理工学院在机器学习方面,理解一个模型为什么会做出某些决定,往往与这些决定是否正确一样重要。例如,一个机器学习模型可能会正确地预测皮肤病变是癌性的,但它可能会使用临床照片上一个不相关的光点来做到这一点。虽然存在帮助专家理解模型推理的工具,但这些方法通常一次只能提供对一个决策的见解,并且每个方法都必须进行人工评估。模型通常使用数百万的数据输入来训练,这使得人类几乎不可能评估足够的决策来识别模式。

现在,麻省理工学院和IBM Research的研究人员创造了一种方法,使用户能够对这些单独的解释进行汇总、排序和排名,以快速分析机器学习模型的行为。他们的技术被称为“共享兴趣”,结合了可量化的指标,比较模型的推理与人类的推理匹配程度。

共同的兴趣可以帮助用户轻松地发现模型决策的趋势,例如,模型可能经常被分散注意力的无关特征所迷惑,如照片中的背景物体。汇总这些见解可以帮助用户快速、定量地确定一个模型是否可信,是否可以在现实世界中部署。

“在发展共同兴趣方面,我们的目标是能够扩大这一分析过程,以便你可以在更全球化的层面上理解你的模型的行为是什么,”首席作者Angie Boggust说,她是计算机科学和人工智能实验室(CSAIL)可视化小组的研究生。

Boggust与她的顾问Arvind Satyanarayan(领导可视化小组的计算机科学助理教授)以及Benjamin Hoover和高级作者Hendrik Strobelt(都是IBM的研究人员)一起撰写了这篇论文。该论文将在计算系统中人的因素会议上发表。

在Strobelt的指导下,Boggust在IBM的夏季实习期间开始从事这个项目。回到麻省理工学院后,Boggust和Satyanarayan扩展了该项目,并继续与Strobelt和Hoover合作,他们帮助部署了展示该技术如何在实践中使用的案例研究。

人-人工智能比对

共享兴趣利用了显示机器学习模型如何做出特定决定的流行技术,称为显著性方法。如果模型正在对图像进行分类,显著性方法会在模型做出决策时突出对模型重要的图像区域。这些区域被视为一种热图,称为显著图,通常覆盖在原始图像上。如果模型将图像分类为狗,并且狗的头部被突出显示,这意味着当模型决定图像包含狗时,这些像素对模型很重要。

共享利益通过将显著性方法与真实数据进行比较来实现。在影像数据集中,地面实况数据通常是围绕每个影像相关部分的人工生成的注记。在前面的例子中,盒子将包围照片中的整个狗。在评估图像分类模型时,Shared Interest会比较同一幅图像的模型生成的显著性数据和人类生成的地面实况数据,以了解它们的对齐程度。

Does this artificial intelligence think like a human?研究人员开发了一种方法,使用可量化的指标来比较机器学习模型的推理与人类的推理匹配程度。此图像显示了模型用于对图像进行分类的每张图片中的像素(由橙色线包围),以及这些像素与人类定义的最重要像素(由黄色框包围)的比较。鸣谢:麻省理工学院该技术使用几个指标来量化这种一致性(或不一致性),然后将特定的决策分为八类。这些类别涵盖了从完全人类对齐(模型做出正确的预测,并且显著图中的高亮区域与人类生成的框相同)到完全分散(模型做出错误的预测,并且不使用在人类生成的框中找到的任何图像特征)的范围。

“在光谱的一端,你的模型做出决定的原因与人类完全相同,而在光谱的另一端,你的模型和人类做出决定的原因完全不同。通过对数据集中的所有图像进行量化,您可以使用该量化对它们进行排序,”Boggust解释道。

这种技术同样适用于基于文本的数据,其中突出显示的是关键词而不是图像区域。

快速分析

研究人员使用三个案例研究来展示共同的兴趣如何对非专家和机器学习研究人员都有用。

在第一个案例研究中,他们利用共同的兴趣来帮助皮肤科医生确定他是否应该信任一个机器学习模型,该模型旨在帮助从皮肤病变的照片中诊断癌症。共同的兴趣使皮肤科医生能够很快看到模型的正确和错误预测的例子。最终,皮肤科医生决定他不能信任该模型,因为它基于图像伪影而不是实际病变做出了太多预测。

“这里的价值在于,利用共同兴趣,我们能够看到这些模式在我们的模型行为中出现。Boggust说:“在大约半个小时内,皮肤科医生就能够做出是否信任该模型以及是否部署该模型的自信决定。

在第二个案例研究中,他们与一名机器学习研究人员合作,通过揭示模型中以前未知的缺陷,展示了共同兴趣如何评估特定的显著性方法。他们的技术使研究人员能够在典型手动方法所需的一小部分时间内分析数千个正确和错误的决定。

在第三个案例研究中,他们使用共同兴趣来深入研究一个特定的图像分类示例。通过操纵图像的地面真实区域,他们能够进行假设分析,以查看哪些图像特征对特定预测最重要。

研究人员对这些案例研究中共享兴趣的良好表现印象深刻,但Boggust警告说,这项技术只与它所基于的显著性方法一样好。如果这些技术包含偏见或不准确,那么共同利益将继承这些局限性。

在未来,研究人员希望将共同的兴趣应用于不同类型的数据,特别是用于医疗记录的表格数据。他们还希望利用共同的兴趣来帮助改进当前的显著性技术。Boggust希望这项研究能够激发更多的工作,以对人类有意义的方式量化机器学习模型的行为。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/14968.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~