让机器学习于广龙对高风险决策者更有用

Making machine learning more useful to high-stakes decision makers 一种新的视觉分析工具帮助儿童福利专家理解机器学习预测，这可以帮助他们做出决策。信用:麻省理工学院的克里斯汀·丹尼洛夫美国疾病控制和预防中心估计，在过去的一年里，美国每七个孩子中就有一个经历过虐待或忽视。全国各地的儿童保护服务机构每年都会收到大量被指控忽视或虐待的报告(2019年约为440万份)。有了这么多案例，一些机构正在实施机器学习模型，以帮助儿童福利专家筛选案例，并确定推荐哪些案例进行进一步调查。但是，如果这些模型要帮助的人不理解或不信任他们的输出，那么这些模型就没有任何好处。

麻省理工学院和其他地方的研究人员发起了一个研究项目，以确定和解决儿童福利筛选中的机器学习可用性挑战。在与科罗拉多州一个儿童福利部门的合作中，研究人员研究了在有或没有机器学习预测的帮助下，电话筛选员如何评估病例。根据电话筛选人员的反馈，他们设计了一个可视化分析工具，该工具使用条形图来显示案例的特定因素如何导致预测的风险，即儿童将在两年内被从家中带走。

研究人员发现，筛选者更感兴趣的是看每个因素(如孩子的年龄)如何影响预测，而不是理解模型如何工作的计算基础。他们的结果还表明，如果没有直接的语言描述其特征，即使是一个简单的模型也会引起混乱。

资深作者、信息与决策系统实验室(LIDS)首席研究科学家、该论文资深作者Kalyan Veeramachaneni说，这些发现可以应用于其他高风险领域，在这些领域，人类使用机器学习模型来帮助他们做出决策，但缺乏数据科学经验。

“研究可解释人工智能的研究人员，他们经常试图深入挖掘模型本身来解释模型的作用。但是这个项目的一大收获是，这些领域专家不一定想知道机器学习实际上做什么。他们更感兴趣的是理解为什么模型会做出不同的预测，而不是他们的直觉在说什么，或者它使用了什么因素来做出这个预测。他们希望获得信息，帮助他们调和与模型的一致或分歧，或者证实他们的直觉，”他说。

合著者包括电气工程和计算机科学博士生Alexandra Zytek，他是第一作者；博士后刘冬雨；以及奥克兰理工大学经济学教授、社会数据分析中心主任、昆士兰大学社会数据分析学教授Rhema Vaithianathan。这项研究将于本月晚些时候在IEEE可视化会议上发表。

真实世界的研究

研究人员在两年多前就开始了这项研究，确定了七个导致机器学习模型不可用的因素，包括对预测来源缺乏信任，以及用户意见和模型输出之间的分歧。

考虑到这些因素，Zytek和刘于2019年冬天飞往科罗拉多州，从儿童福利部门的电话筛选员那里获得了第一手资料。该部门正在实施一个机器学习系统，该系统由Vaithianathan开发，为每份报告生成一个风险评分，预测孩子被带离家庭的可能性。这个风险评分是基于100多个人口统计和历史因素，如父母的年龄和过去的法庭参与。

“正如你所能想象的，仅仅得到一个1到20之间的数字，并被告知将它整合到你的工作流程中可能有点挑战性，”Zytek说。

他们观察了筛选小组如何在大约10分钟内处理病例，并花了大部分时间讨论与病例相关的风险因素。这启发研究人员开发了一个针对具体案例的细节界面，该界面使用彩色编码的水平条形图显示每个因素如何影响总体风险得分，该图显示了正方向或负方向的贡献大小。

基于观察和详细的访谈，研究人员建立了四个额外的界面来提供对模型的解释，包括一个将当前案例与具有相似风险评分的过去案例进行比较的界面。然后他们进行了一系列用户研究。

研究显示，超过90%的筛选者认为特定案例的细节界面是有用的，这通常会增加他们对模型预测的信任。另一方面，筛选人员不喜欢案例比较界面。虽然研究人员认为这种界面会增加对模型的信任，但筛选人员担心它可能会导致基于过去案例而不是当前报告的决策。

“对我来说，最有趣的结果是，我们向他们展示的特性——模型使用的信息——必须真正可解释才能开始。该模型使用了100多个不同的特征来进行预测，其中很多都有点令人困惑，”Zytek说。

在整个迭代过程中保持筛选程序的循环有助于研究人员决定机器学习解释工具(称为Sibyl)中包含哪些元素。

在完善Sibyl界面的过程中，研究人员仔细考虑了提供解释会如何导致一些认知偏差，甚至会削弱筛选者对模型的信任。

例如，由于解释是基于儿童虐待和忽视案件数据库中的平均值，有三次过去的虐待转诊实际上可能会降低儿童的风险评分，因为该数据库中的平均值可能要高得多。Zytek解释说，一个筛选者可能会看到这种解释，并决定不信任这种模型，即使它工作正常。因为人类倾向于更加强调最近的信息，因素的排列顺序也可能影响决策。

提高可解释性

根据电话筛选者的反馈，研究人员正在努力调整解释模型，使其使用的功能更容易解释。

展望未来，他们计划根据额外的反馈来增强他们创建的界面，然后运行一项定量的用户研究来跟踪真实案例对决策的影响。Zytek说，一旦这些评估完成，他们就可以准备部署Sibyl了。

“能够如此积极地与这些筛选人员合作，这尤其有价值。我们必须真正理解他们面临的问题。虽然我们看到他们有所保留，但我们看到的更多的是对这些解释在某些情况下有多有用的兴奋。这真的很值得，”她说。