对可解释AI的需求

经过Sudhanshu恨,Ram Swaroop Mishra 2020年10月| POV | 14分钟读|通过电子邮件发送本文|下载
随着人们对人工智能的担忧与日俱增,使用人工智能的组织需要解释,决策是如何自动做出的。然而,AI系统越强大,它就变得越不透明。可解释的AI原则可能是答案。
对可解释AI的需求

如今,基于人工智能的系统不再只是增强人类的判断能力,而是自己做出决定。一些法庭使用深度学习来判决罪犯。银行依靠这种技术发放贷款。基于迁移学习的人工智能甚至可以自动检测癌症。

在如此大肆宣传的情况下,人工智能正因缺乏透明度而受到更严格的审查和批评。这些系统是如何做出如此重要的决定的?如果他们无法解释自己,我们能把生命托付给他们吗?这些担忧已经引发了负面报道和诉讼。监管机构、官方机构和用户都在寻求在每一个基于人工智能的决策中增加透明度。在欧盟,《通用数据保护条例》(General Data Protection Regulation)强制执行了人工智能解释权。纽约的保险监管机构已就使用人工智能确定费率和保险范围向企业发布了指导意见。

强大的模型,不透明的决策

随着AI使用更强大的算法来达到其决定,理解逻辑的能力变得越来越困难。Geoffrey Hinton是一位多伦多大学计算机科学家,被称为“深度学习的教父”,很好地淘汰了这个问题:“一个深入的学习系统没有任何解释力。深度学习系统越强大,它就越不透明。“1

当算法做出不正确的假设时,这种不透明性使得判断哪里出了问题变得更加困难。一个例子是用于区分狼和哈士奇的人工智能分类器。如果训练数据显示的是冬季环境下的狼的照片,那么它可能会偏向于下雪的环境。一种被误导的算法将学会利用雪作为预测狼的特征。在没有雪的情况下,即使正确答案是狼,分类器也可能断定这只动物实际上是哈士奇。

深度学习系统越强大,它变得越多

错误分类动物物种创造了一系列问题。但是,分类人员可以导致更严重的声誉后果。AI偏见已经发现了媒体和性别问题。Imagenet,一个大型的视觉数据库,宣布它将在找到种族偏见后从其记录中删除超过500万只图像。AI分类器经常决定白人女性是“恶魔”,而其他种族则得到了更少的讨人喜欢的绰号。2

在医疗保健中,AI需要更加严谨。三个美国大学收集和训练了胸部X射线数据,超过150,000名患者检测肺炎的迹象。执行分析的卷积神经网络在现实世界中的使用率远远不太准确,因为通过首先评估提供测试数据的X射线机的质量,网络在预测任务上作弊。3.

要受信任,AI不仅必须正确对对象进行分类,而且还可以解释其逻辑。对于Wolf-Husky分类器,该模型应该能够突出导致其决定的动物的特定部分。这是在作为Xai的工业助理中所知的。

新品工作流

为了确保XAI是有效的,必须在整个AI生命周期中使用该技术,从数据清理到模型创建再到监控(图1)。

图1所示。XAI必须在整个AI生命周期中使用

XAI必须在整个AI生命周期中使用

来源:ICETS

在AI工作流程中,XAI要求如下:

  • 所有类别的数据必须具有平等的代表性,并进行偏差检查。
  • 正确的算法用于训练和测试。这可能意味着选择经典的算法,如逻辑回归,而不是卷积神经网络或其他花哨的网络。
  • 模型必须具有正确的特征,并为每个特征赋予适当的权重。
  • 训练和测试需要使用诸如本地可解释模型(LIME)和SHapley加法解释(SHapley Additive interpretation, SHAP)等框架来进行不可知的数据验证。培训和测试不应仅仅局限于准确性,而应使用f分数、精确度和召回率等指标。
  • 人工智能模型应该通过对输入的数据种类进行跟踪来监测和验证结果。

原则为善XAI

过程很重要,但公司还需要强有力的原则来指导AI实施。这些包括:

偏差检测-公司应该确保数据集是无偏见和无歧视的,正确加权属性和酌情使用。在用于生成信用评分的数据集中,可以通过创建二进制变量来测试年龄的偏差。例如,大于25岁的年龄设置为1(特权组),小于25岁的年龄设置为0(非特权组)。然后可以计算出每组有利结果之间的平均差异。得分为0.16表明特权组的积极结果多16%。这意味着数据必须重新加权,即在将数据输入机器学习模型之前,改变单个样本的权重来平衡数据集。

人类参与-输出必须容易被人理解,并且人必须始终保持在循环中。这在欺诈检测和执法中尤其重要。

理由- 成为真正的Xai,系统制作的预测必须是合理的。这意味着在使用特征数据的透明度。这有助于了解模型是如何思考的或者模型强调了给定输出的特征。

再现性-模型在做出预测时应保持一致,在使用新数据集测试系统时应保持稳定。

通过理由解释

可解释性是AI发展所需要的最重要的元素之一。这需要突出显示有助于准确预测一个类的特征,而不是像雪这样的随机特征,就像我们在wolf-husky分类器中演示的那样。

人工智能将需要使用“合理化解释”

在实现AI时,通过正义模型有解释性。Lime模型突出显示在类预测中主要的图像的部分。对于图像和文本分类方案,可以使用Shap模型。这为深度学习模型中的某一层有关如何影响输出概率的洞察。

石灰

在LIME中,一个临时模型被训练来模拟深度学习黑盒预测。给定一个示例输入,临时模型将生成一个可解释的输出数据集。它通过创建给定样本(及其相应的输出)的各种排列来实现这一点,并在此数据集上训练一个简单且更可解释的局部模型。LIME的输出是模型得出某个决策的解释列表,显示了每个特性对数据样本预测的贡献。

在Infosys新兴技术解决方案中心(ICET)中,培训模型以根据其视觉功能对汽车进行分类。转移学习范例用于模型培训(Reset架构与预制权重)。深度学习算法中的最后一层在近200个汽车类别上培训 - 每个包含50个图像 - 测试数据的精度为90%。为了将石灰纳入等式,汽车分类器将其图像传递给石灰库,以验证模型是否使用的区域进行分类。基于基于分段,通过尝试各种超像素(类似像素的集合)的各种排列来利用图像出现了1,000个样本。在奥迪(图2)的情况下,输出解释器显示该模型集中在奥迪标识上,以实现其90%的成功率。

图2。LIME表明,标志是最重要的特征

LIME表明,标志是最重要的特征

来源:ICETS

世鹏科技电子

SHAP库主要基于博弈论。计算各特征对预测的贡献。对于图像,功能可以是像素或超级像素,它们的贡献可以是正面的,也可以是负面的。首先,使用样本数据集找到平均预测能力。然后,通过对模型进行不同的排列,计算各个特征对模型的贡献,并计算该特征是提高了预测能力还是降低了预测能力。SHAP的强大之处在于,它为人类提供了深度学习模型的分层解释。

iCETS使用相同的汽车分类器模型使用SHAP进行解释(图3)。使用预处理模型、图像和背景数据集发现分层解释。

图3.具有Shap,红色像素贡献占用,而蓝色像素是否定的

对于SHAP,红色像素的贡献是正的,而蓝色像素的贡献是负的

LIME和SHAP的力量在于,我们不仅知道预测的内容,而且知道为什么。如果模型没有挑选出用于预测的正确特征,可以对模型进行微调,同时也使复杂的机器学习算法和模型更加透明和可信。

用石灰和形状,不仅我们得到了良好的预测,但我们发现了为什么他们做出了原因

AI的未来

由于Xai产生了更大的兴趣,域专家即将结合起来的基础原则,即机器学习和AI模型应该遵循。更复杂的机器学习模型位于显微镜下,鉴于透明度较低。

谷歌在设定了2017年成为ai第一的目标后,通过在其专有的TensorFlow框架中集成What-If工具,开创了XAI。通过这种方式,谷歌希望通过提供XAI-as-a-service来降低人工智能的神秘性。人工智能研究人员安德鲁•摩尔(Andrew Moore)在最近的谷歌会议上表示:“谷歌的可解释人工智能是一套工具和框架,帮助你开发可解释的包容性机器学习模型,并自信地部署它们。”“有了它,你可以理解AutoML表和AI平台中的特征属性,并使用What-If工具可视化地调查模型行为。”4.

此外,伦理人工智能和机器学习研究所目前正在创建一个框架,以确保伦理和认真地发展所有行业的人工智能项目。在这方面的工作中,该研究所发表了伦理人工智能原则,还开发了一个开源的GitHub工具箱来进行解释5.

人工智能有两种发展方式。第一个未来是,企业可以根据本文提出的原则实施XAI,并获得公众和政府的更多信任。另一个未来是,监管机构梳理培训数据,以确保人工智能决策是公平和合理的——这对企业来说是一个令人担忧的场景。XAI在商业领域的加速应用可能会确保高德纳(Gartner)关于全球人工智能经济规模到2022年将达到4万亿美元的预测成为现实。

参考文献
  1. 解释的人工智能(AI),Mike Ridley,2018年2月5日,开架。
  2. 2019年9月23日,Zachary Small, Hyperallergic.com。
  3. 人工智能工具可能会在关键的医疗诊断中失效,《印度斯坦时报》,2018年11月10日。
  4. 谷歌的新“解释了AI”(XAI)服务,Tirthajyoti Sarkar,2019年11月25日,迈向数据科学。
  5. EthicalML /新品,GitHub。