MIT 团队的新测试，将 AI 推理与人类思维进行比较-技术圈

来源：ScienceAI
本文约1800字，建议阅读5分钟
潜在的研究领域可能是自动估计 AI 结果中的不确定性。

人工智能获得洞察力和做出决策的方式通常是神秘的，这引发了人们对机器学习的可信度的担忧。现在，在一项新研究中，研究人员揭示了一种新方法，用于比较人工智能软件的推理与人类推理的匹配程度，以便快速分析其行为。

随着机器学习越来越多地在现实世界中得到应用，了解它如何得出结论以及它是否正确变得至关重要。例如，人工智能程序可能似乎准确地预测了皮肤病变是癌性的，但它可能是通过关注临床图像背景中不相关的印迹来做到这一点的。

「众所周知，机器学习模型难以理解。」麻省理工学院计算机科学研究人员、一项关于人工智能可信度的新研究的主要作者 Angie Boggust 说，「知道一个模型的决定很容易，但知道这个模型为什么做出这个决定却很难。」

文献链接：

http://shared-interest.csail.mit.edu/

理解 AI 推理的一种常见策略是检查程序所关注的数据的特征——比如图像或句子——以便做出决定。然而，这种所谓的显著性方法通常一次只能对一个决策产生见解，并且必须手动检查每个决策。人工智能软件通常使用数百万个数据实例进行训练，这使得人们几乎不可能分析足够多的决策来识别正确或不正确行为的模式。

「为人类用户提供工具来询问和理解他们的机器学习模型，对于确保机器学习模型可以安全地部署在现实世界中至关重要。」——Angie Boggust

现在，麻省理工学院和 IBM 研究院的科学家们创造了一种方法来收集和检查人工智能对其决策的解释，从而可以快速分析其行为。这项名为「共享兴趣」的新技术将人工智能决策的显著性分析与人工注释的数据库进行比较。

例如，图像识别程序可能会将图片分类为狗的图片，而显著性方法可能会显示程序突出显示狗的头部和身体的像素以做出决定。相比之下，共享兴趣方法可能会将这些显著性方法的结果与图像数据库进行比较，在图像数据库中，人们注释了图片的哪些部分是狗的部分。

基于这些比较，共享兴趣方法然后要求计算人工智能的决策与人类推理的一致性，将其归类为八种模式之一。一方面，人工智能可能被证明是完全符合人类思维的，程序做出正确的预测并突出数据中与人类相同的特征。另一方面，人工智能完全分心，人工智能做出了错误的预测，并且没有突出人类所做的任何特征。

人工智能决策可能落入的其他模式，突出了机器学习模型正确或错误地解释数据细节的方式。例如，共同的兴趣可能会发现，人工智能只根据拖拉机的一部分（比如轮胎）就可以正确识别图像中的拖拉机，而不是像人类一样识别整个车辆，或者发现人工智能可能只在图片中也有摩托雪橇的情况下才能识别图像中的摩托雪橇头盔。

在实验中，共同兴趣有助于揭示人工智能程序是如何工作的，以及它们是否可靠。例如，Shared Interest 帮助皮肤科医生从皮肤损伤的照片中快速查看程序对癌症诊断的正确和错误预测示例。最终，皮肤科医生决定他不能相信这个程序，因为它根据不相关的细节而不是实际的病变做出了太多的预测。

在另一个实验中，一位机器学习研究人员使用 Shared Interest 来测试他应用于 BeerAdvocate 数据集的显著性方法，帮助他在传统手动方法所需时间的一小部分内分析数千个正确和错误的决策。共同兴趣有助于表明显著性方法通常表现良好，但也揭示了以前未知的缺陷，例如高估评论中的某些单词导致错误预测。

「为人类用户提供工具来询问和理解他们的机器学习模型对于确保机器学习模型可以安全地部署在现实世界中至关重要。」Boggust 说。

研究人员警告说，共享兴趣的表现与其采用的显著性方法一样好。Boggust 指出，每种显著性方法都有其自身的局限性，Shared Interest 继承了这些局限性。

未来，科学家们希望将共享兴趣应用于更多类型的数据，例如医疗记录中使用的表格数据。Boggust 补充说，另一个潜在的研究领域可能是自动估计 AI 结果中的不确定性。

科学家们已经公开了共享兴趣的源代码。

源代码：

https://github.com/mitvis/shared-interest