研究人员使用局部解释方法,试图理解机器学习模型如何做出决策。即使这些解释是正确的,如果人类不能理解它们的意思,它们也没有任何好处。麻省理工学院的研究人员现在已经开发了一个数学框架来量化和评估一个解释的可理解性。鸣谢:麻省理工学院现代机器学习模型,如神经网络,通常被称为“黑盒”,因为它们非常复杂,即使是设计它们的研究人员也无法完全理解它们是如何做出预测的。为了提供一些见解,研究人员使用解释方法来描述单个模型决策。例如,他们可能会突出显示电影评论中影响模型决定该评论是正面的词语。
但是如果人类不能轻易理解,甚至误解,这些解释方法没有任何好处。因此,麻省理工学院的研究人员创建了一个数学框架,以正式量化和评估机器学习模型解释的可理解性。这有助于精确定位关于模型行为的见解,如果研究人员只是评估少数个别解释来试图理解整个模型,这些见解可能会被忽略。
“有了这个框架,我们不仅可以从这些本地解释中清楚地了解我们对该模型的了解,更重要的是,我们对它的不了解,”计算机科学与人工智能实验室(CSAIL)的电子工程和计算机科学研究生Yilun Zhou说,他是一篇介绍该框架的论文的第一作者。
周的合著者包括微软研究院的高级研究员马尔科·图利奥·里贝罗和资深作者朱莉·沙阿,她是航空航天学教授,也是CSAIL互动机器人小组的负责人。这项研究将在计算语言学协会北美分会的会议上发表。
理解当地的解释
理解机器学习模型的一种方式是找到另一种模拟其预测但使用透明推理模式的模型。然而,最近的神经网络模型非常复杂,这种技术通常会失败。取而代之的是,研究人员求助于关注个体输入的本地解释。通常,这些解释会突出文本中的单词,以表示它们对模型所做预测的重要性。
含蓄地,人们然后将这些局部的解释推广到整体的模型行为。有人可能会看到,当模型确定电影评论具有积极情绪时,本地解释方法会强调积极的词(如“难忘”、“完美无瑕”或“迷人”)是最有影响力的。周说,然后他们可能会假设所有积极的词语都对模型的预测做出了积极的贡献,但情况可能并不总是如此。
研究人员开发了一个框架,称为ExSum(解释摘要的缩写),将这些类型的声明正式化为可以使用量化指标进行测试的规则。ExSum评估整个数据集上的规则,而不仅仅是为其构建的单个实例。
使用图形用户界面,个人编写规则,然后可以调整、调整和评估。例如,当研究一个学习将电影评论分为正面或负面的模型时,人们可能会编写一个规则,即“否定词具有负面显著性”,这意味着像“不”、“不”和“什么都没有”这样的词会对电影评论的情绪产生负面影响。
使用ExSum,用户可以使用三个特定的度量标准来查看该规则是否成立:覆盖率、有效性和清晰度。覆盖率衡量规则在整个数据集中的适用范围。有效性强调符合规则的个体样本的百分比。锐度描述了规则的精确程度;一个高度有效的规则可能太过一般化,以至于对理解模型毫无用处。
测试假设
周说,如果研究人员想更深入地了解她的模型是如何表现的,她可以使用ExSum来测试具体的假设。
如果她怀疑她的模型在性别方面有歧视性,她可以创建规则来说明男性代词有积极的贡献,女性代词有消极的贡献。如果这些规则具有高有效性,这意味着它们总体上是真实的,并且该模型可能是有偏差的。
ExSum还可以揭示关于模型行为的意外信息。例如,在评估电影评论分类器时,研究人员惊讶地发现,负面词汇往往比正面词汇对模型的决策有更明确和更尖锐的贡献。周解释说,这可能是因为影评人在批评一部电影时尽量礼貌,不那么生硬。
“为了真正证实你的理解,你需要在很多情况下更严格地评估这些说法。据我们所知,这种精细层次的理解在以前的作品中从未被发现过,”他说。
“从本地解释到全球理解是文献中的一大空白。“ExSum是填补这一空白的良好开端,”里贝罗补充道。
扩展框架
在未来,周希望在这项工作的基础上,将可理解性的概念扩展到其他标准和解释形式,如反事实解释(表明如何修改输入以改变模型预测)。目前,他们专注于特征归因方法,这种方法描述了模型用于做出决定的个体特征(就像电影评论中的话)。
此外,他希望进一步增强框架和用户界面,以便人们可以更快地创建规则。编写规则可能需要数小时的人类参与——某种程度的人类参与是至关重要的,因为人类最终必须能够理解解释——但人工智能的帮助可以简化这一过程。
在思考ExSum的未来时,周希望他们的工作突显出需要转变研究人员思考机器学习模型解释的方式。
“在这项工作之前,如果你有一个正确的当地解释,你就大功告成了。你已经实现了解释你的模型的圣杯。我们提出这个额外的维度来确保这些解释是可以理解的。“可理解性需要成为评估我们解释的另一个标准,”周说。
来源:由phyica.com整理转载自PH,转载请保留出处和链接!