什么时候应该有人相信AI助手的预测？

When should someone trust an AI assistant’s predictions? 研究人员创造了一种方法来帮助工人与人工智能系统协作。信用:麻省理工学院克里斯汀·达尼·洛夫在一家繁忙的医院里，一名放射科医生正在使用人工智能系统，帮助她根据患者的x光图像诊断医疗状况。使用人工智能系统可以帮助她做出更快的诊断，但她如何知道何时相信人工智能的预测？她没有。相反，她可能会依靠自己的专业知识、系统本身提供的置信水平，或者对算法如何做出预测的解释——这看起来令人信服，但仍然是错误的——来做出估计。

为了帮助人们更好地理解何时信任人工智能“队友”，麻省理工学院的研究人员创造了一种入职技术，指导人类更准确地理解机器做出正确预测的情况和做出不正确预测的情况。

通过向人们展示人工智能如何补充他们的能力，这种训练技术可以帮助人类在与人工智能代理合作时做出更好的决定或更快地得出结论。

计算机科学与人工智能实验室(CSAIL)和医学工程与科学研究所临床机器学习组的研究生侯赛因·莫扎纳尔(Hussein Mozannar)说:“我们提出了一个教学阶段，在这个阶段，我们逐渐将人类引入这种AI模型，这样他们就可以自己看到它的弱点和优势。“我们通过在实践中模仿人类与人工智能交互的方式来做到这一点，但我们会进行干预，向他们提供反馈，帮助他们理解他们与人工智能进行的每一次交互。”

Mozannar与计算机科学助理教授Arvind Satyanarayan一起撰写了这篇论文，他是CSAIL可视化小组的负责人；以及资深作者David Sontag，麻省理工学院电子工程和计算机科学副教授，临床机器学习小组组长。这项研究将于二月份在人工智能促进协会上发表。

心理模型

这项工作的重点是人类建立的关于他人的心理模型。如果放射科医生对某个病例不确定，她可能会问某个领域的专家同事。根据过去的经验和她对这位同事的了解，她对他的优点和缺点有一个心理模型，她用这个模型来评估他的建议。

莫扎纳尔说，人类在与人工智能代理交互时会建立相同类型的心理模型，因此这些模型的准确性非常重要。认知科学表明，人类通过记忆过去的互动和经历来为复杂的任务做出决定。因此，研究人员设计了一个入职流程，提供了人类和人工智能合作的代表性例子，作为人类未来可以借鉴的参考点。他们首先创造了一种算法，可以识别出最能教会人类人工智能的例子。

“我们首先学习人类专家的偏见和优势，利用他们过去在人工智能指导下的决策的观察，”莫扎纳尔说。“我们将我们对人类的了解与我们对人工智能的了解结合起来，看看人类依赖人工智能会有什么帮助。然后，我们获得了我们知道人类应该依赖人工智能的案例，以及人类不应该依赖人工智能的类似案例。”

研究人员在一个基于短文的问题回答任务中测试了他们的入职技巧:用户收到一篇书面短文和一个答案包含在短文中的问题。然后，用户必须回答这个问题，并可以点击一个按钮“让人工智能回答。”然而，用户不能提前看到人工智能，这要求他们依赖人工智能的心智模型。他们开发的入职流程从向用户展示这些示例开始，用户试图在人工智能系统的帮助下做出预测。人类可能是对的也可能是错的，AI可能是对的也可能是错的，但无论是哪种情况，在解决了这个例子之后，用户看到的都是正确的答案和AI为什么选择它的预测的解释。为了帮助用户从例子中归纳，展示了两个对比的例子，解释了为什么人工智能做得对或错。

例如，也许训练问题会问两种植物中的哪一种原产于更多的大陆，这是基于植物学教科书中令人费解的一段。人类可以自己回答，也可以让AI系统来回答。然后，她看到了两个后续的例子，帮助她更好地理解人工智能的能力。也许人工智能在关于水果的后续问题上是错的，但在关于地质学的问题上是对的。在每个示例中，系统用来进行预测的单词都会突出显示。莫扎纳尔解释说，看到突出显示的单词有助于人类理解人工智能代理的局限性。

为了帮助用户记住他们所学的知识，用户然后写下她从这个教学例子中推断出的规则，比如“这个AI不擅长预测花朵。”然后，她可以在以后与代理合作时参考这些规则。这些规则也构成了人工智能用户心理模型的形式化。

教学的影响

研究人员用三组参与者测试了这种教学技术。一组经历了整个入职技术，另一组没有收到后续的对比示例，基线组没有接受任何教学但可以提前看到AI的回答。

“接受教学的参与者做得和没有接受教学但能看到人工智能答案的参与者一样好。因此，结论是他们能够模拟人工智能的答案，就像他们看到的一样，”莫扎纳尔说。

研究人员对数据进行了更深入的挖掘，以查看单个参与者所写的规则。他们发现近50%接受培训的人写出了关于人工智能能力的准确课程。那些有准确课程的人在63%的例子中是正确的，而那些没有准确课程的人在54%的例子中是正确的。那些没有接受过教学但能看到人工智能答案的人，有57%的问题是正确的。

“当教学成功时，它会产生重大影响。这是这里的外卖。当我们能够有效地教导参与者时，他们能够比你实际给他们答案时做得更好，”他说。

但结果也显示仍有差距。只有50%的受过训练的人建立了准确的人工智能心理模型，甚至那些建立了模型的人也只有63%的时间是正确的。莫扎纳尔说，尽管他们学到了准确的教训，但他们并不总是遵循自己的规则。

这是一个让研究人员摸不着头脑的问题——即使人们知道人工智能应该是正确的，他们为什么不听自己的心理模型呢？他们希望在未来探索这个问题，并完善入职流程，以减少所需的时间。他们还对用更复杂的人工智能模型运行用户研究感兴趣，尤其是在医疗保健环境中。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/12299.html