AI也有偏见，我们该如何信任它们？

1970年，爱德华·肖特利夫（Edward H. Shortliffe）在斯坦福大学的尝试室里起头着手编写一个Lisp程序。这个名为MYCIN的系统经由过程一系列的长短问题帮忙大夫判定病人是否患有遗传性血液疾病，并按照病人体重建议抗生素用量。作为汗青上最早的专家系统之一，MYCIN的准确率仅为65%，相较血液科医师80%的准确率相去甚远，并且因为程序过于复杂，最终也没有投入利用。

2019年，150名受试者来到UCLA的VCLA中间，不雅看Baxter机械人打开附有平安锁的药瓶。随后，Baxter标的目的此中一些受试者诠释了本身是若何打开药瓶的，剩下的人没有获得任何诠释。最后，尝试者标的目的所有人提问：您在多大水平上相信这个机械人会开药瓶？

在曩昔的半个宿世纪里，机械的计较与储存能力突飞大进，我们可以轻松地在计较机上运行像MYCIN一样相对简单的系统，甚至可以练习深度神经收集、撑持标的目的量机（Support Vector Machine）等加倍复杂的模子达到接近专业大夫的诊断程度，或是让机械人完当作相对复杂的邃密动作。

可是，AI系统的机能晋升也带来了新的问题：若是这些系统进入我们的糊口，您会信赖它们作出的决议吗？

为何要诠释AI？

^{AI如日中天，我们为什么要停下来思虑怎么诠释它？}

2016年5月，ProPublica发布了一篇名为《机械成见》的调查陈述，聚焦一个名为COMPAS的AI系统。COMPAS被普遍应用于美国司法量刑。它基于已有的犯罪记实，测验考试展望被告被再次拘系的概率，得出一个1到10分之间的分数——分数越高，它建议的量刑越重，以期更有用地惩办潜在的再犯。

ProPublica阐发了18000多人的COMPAS分数和犯罪记实，发现黑人与白人的分数分布较着分歧——在犯罪汗青、再拘系记实、春秋、性别都不异的前提下，黑人被告获得更高COMPAS分数的概率高于白人被告45%。别的，有48%在两年内被再次拘系的白人被告的COMPAS分数被低估，几乎是黑人被告的两倍。因为数据来自具有布局性不公的情况（既有司法系统倾标的目的于区别看待分歧人种），COMPAS的（轻率）决议也受此影响。然而，因为COMPAS是一个黑箱系统，法官只能看到分数，对内部的决议计划机制全无所闻，导致他们无法有用评估系统的建议。另一篇调查陈述更是指出，COMPAS的精确率半斤八两于几乎没有刑事司法专业常识的人。

无独有偶，2015年，有效户发现谷歌的图像识别系统将本身的黑人伴侣标识表记标帜为“大猩猩”，在推特上引起轩然大波。直到2018年，谷歌仍然没有完全修复这一缝隙，只是将灵长类的标签从系统中移除，并称“图像识别手艺还不当作熟”。同样是2015年，纽约西奈山病院用70万病人的数据练习了一个名为“深度病人”的深度神经收集，用以辅助医疗诊断。“深度病人”对精力割裂症的展望出乎料想地精确，但没有大夫知道为什么，天然也无法应用于本身的临床诊断；当它被用于阐发病院以外的X光片时，系统准确率莫名呈现了大幅下降。

“数据不会扯谎。”但这毫不意味着我们不需要细心审阅它们，或是赐与基于数据之上的AI系统无前提的信赖。肖特利夫的MYCIN系统素质上是一个决议计划树，属于“透明”的模子——我们可以画出从数据输入起头完整的决议计划过程，从而评估MYCIN的决议。深度神经收集的机能远远优于决议计划树，但它是一个“黑箱”——我们几乎不成能切当地知道它在算什么。机能与可诠释性似乎此消彼长。

对一位只追求准确率和机能的算法工程师来说，黑箱AI未必不受待见：一个可以或许精确展望95%的事务的黑箱系统，必定比另一个准确率只有65%、更透明的系统好。可是，当工程师需要调整系统内部“零件”的时辰（好比修复谷歌图像识别系统），黑箱会让这项使命无比艰难：到底是哪一步犯错了？是用于练习的数据有问题，仍是模子自己的机能不足，或是损掉函数（loss function）有待改良？置身黑箱之外的工程师很难提纲契领地指出病灶。

我们中的大大都人也许少少有机遇当作为工程师、法官、大夫，但这不故障黑箱AI对我们的糊口造当作影响。与我们的一厢情愿相反，不敷透明的AI系统非但没有比人类更客不雅、公道、切确，反而加深了既存的成见和不公道，对数字平易近本家儿和根基人权组成威胁，而对这些系统的节制、介入和审计也更为坚苦。当我们无法解读AI作出的决议计划，对它将来的预期不外是空言无补，信赖也无从谈起。

可诠释AI（Explainable AI，即XAI）想要解决的恰是这类问题。XAI认为，经由过程诠释AI系统的决议计划过程，人类可以或许更好地舆解它的机制、优错误谬误、潜在影响等特征，从而更有用地展望系统的行为，达到慢慢成立信赖关系的结果。若是AI革命不成避免，至少一个可被诠释的系统可以或许更好地融入极新的算法社会契约——例如伊亚德·拉万（Iyad Rahwan）提出的社会回环（Society-in-the-loop）——与人类共保存，而不必当作为敌对的关系。

我需要一个诠释

可诠释AI毕竟是为人办事的（比如高阶编程说话是为了人类设计的，不然机械之间的“交流”大可以用机械编码之类人类无法等闲读写的“说话”）。所以“诠释性”也是相对人而言的。关于黑箱AI系统，什么样的诠释才是好的诠释？心理学家和哲学家早就起头分头研究，但各不相谋。

诠释经常需要阐述特定的因果关系或因果模式，例如“我不吃杏仁，因为我对坚果过敏”。这样的诠释很是贴切（没有转移话题），直接了然（不存在轮回论证），逻辑严密。有的现象却很难用通俗的因果关系诠释——请试着回覆，“我掷了一次骰子，为什么朝上的一面是3？”当然，您可以引用物理法例来诠释掷骰子的具体过程，但我可能一头雾水。为了避免这样的尴尬，您也许会说起相关的（非因果的）概念，好比“随机性”，或是用类比等手法让您的诠释更轻易被听众接管（好比上一段的第一句话）。一般而言，因果关系在诠释中占有不成摆荡的地位，但不是独一的手段。

^{-Zoe? van Dijk-}

既然诠释自己可以有各类形式，为了筛选出最好的可诠释AI，我们为什么不直接问：您理解这个系统在做什么吗？相关的心理学研究也简直利用了近似的方式来揣度人们是否可以或许经由过程描述性诠释理解某一概念。它们发现，客不雅上，当受试者对某一概念有更好的理解时，他们能经由过程本家儿不雅的直觉感受到本身的认知前进，比如“茅塞顿开”。

然而，耶鲁大学的列昂尼德·罗森布里特（Leonid Rozenblit）和弗兰克·凯尔（Frank Keil）提出的“诠释深度的错觉”（Illusion of Explanatory Depth）仿佛当头棒喝。罗森布里特和凯尔让受试者起首评价本身对某一东西（好比拉链）的理解，然后具体地诠释这个东西的工作机制，并再次评价本身的对它的理解。他们发现，比拟一起头，试图诠释后的受试者对本身理解的评价较着下滑，仿佛俄然意识到本身其实一知半解。这就是“诠释深度的错觉”。这种错觉影响着所有人（包罗小孩子），而且只感化于诠释性的常识。完全相反的环境也不少见：人们会自称不睬解一个动力系统，却能谙练地利用它。

另一方面，规范（normative）诠释在哲学（尤其是科学哲学）中发扬光大。规范诠释有意忽略小我身分，好比认知能力，而是存眷“应有”的理解。是以，规范理解可以被视为一种基准，用来阐发哪些信息该当被包含在诠释里，以及受众会有何种水平的理解。更进一步地说，好的（规范）诠释该当从理解的目标出发，基于受众与黑箱AI的关系给出分歧的诠释。显然，修补系统缝隙的工程师和审核系统公道性的法官所需的理解是分歧的。我们可以合理假设前者具有足够的手艺常识布景，也许将计较模子可视化就供给了足够好的诠释。后者需要的是更抽象的文字诠释，好比“其他前提不变，COMPAS系统展望黑人被告和白人被告被再次拘系的概率分歧。”两种都是好的（规范）诠释，一旦交换却可能当作为各自的鸡肋。

规范诠释看似加倍直截了当，但在现实应用中还没有切当实现或评估的共识。描述性诠释似乎也不甚完美。时至今日，我们仍未整合描述性诠释和规范诠释，关于诠释的研究和可诠释AI还在齐头并进。

有了可诠释的AI就万事大吉吗？

2017年起头，美国国防高级研究打算署（DARPA）投资了一系列XAI的项目，包罗UCLA的VCLA中间的研究项目。2018年，ACM本家儿办了第一届FAT*会议，存眷AI系统的公道性、问责制和透明度。同年，AAAI与ACM配合举办第一届AIES（人工智能、伦理与社会）会议。谷歌、微软等科技公司也陆续介入XAI的研发。各界对于XAI的存眷促当作了很多“拆穿”黑箱AI的测验考试，从DeepMind提出的机械心智理论（Machine Theory of Mind），到将黑箱神经收集转化为“透明”的布尔电路（Boolean circuit），再到LIME（Local Interpretable Model-Agnostic Explanation）等经由过程近似黑箱模子提取主要特征的方式。固然XAI今朝诠释的对象本家儿如果工程师等研发人员，可是在将来，我们将会看到更多面标的目的公共的XAI，好比标的目的您诠释若何开药瓶的Baxter。

XAI并不是终点；它最多算一个起点，而我们还有很多亟待解决的问题。起首，对黑箱AI的诠释可以被悄无声气地窜改，可以完全驴唇不对马嘴，并且很难察觉。哈佛大学的希玛宾度·拉卡拉朱（Himabindu Lakkaraju）和她的学生们发现，只需在模子上动一些简单的四肢举动，就能让它滥用COMPAS数据集里的种族信息决议量刑，但一旦LIME来“观察”，它立即摆出无辜的嘴脸，完全不露馅。这就意味着，即使有XAI为东西，我们对AI的信赖也不该当盲目地依靠系统的靠得住性和（概况上）信息的透明性，理智与批判性思虑将非分特别主要。

其次，针对AI的条例的拟定相对滞后于研发和应用。XAI的呈现将会让这个问题加倍复杂——因为黑箱AI难以捉摸，且只有少数人具备解读/点窜的能力，研发机构不必过度担忧本身的科研当作果泄露（除非算法模子被一锅端）。若是面标的目的用户和公家的诠释当作为需求、甚至必需，既有的AI系统——无论透明与否——都有可能面对一系列的风险，包罗常识产权（操纵反标的目的工程重建系统）和系统平安（恶意的匹敌进犯）。信赖与保密两者的张力之下，XAI该当供给的诠释的具体内容尚无定论。

再者，成见和不公不会因为诠释自己而消逝；恰好相反，诠释会表露更多一向以来潜行在我们四周的伦理问题。ProPublica对COMPAS的调查使人不禁发出疑问：系统性的种族成见事实在何种水平上渗入了美国曩昔十年间的量刑？跟着XAI的前进，一个个黑箱AI的庐山真脸孔逐渐显露在我们面前，不难想象此中有像COMPAS一样的“帮凶”。我们可否经由过程公开会商解决布局性问题、完美问责制，这将是对AI和人类社会配合的挑战。

^参考文献

^{Choi, A., Shi, W., Shih, A., & Darwiche, A. (2019). Compiling Neural Networks into Tractable Boolean Circuits. AAAI Spring Symposium on Verification of Neural Networks (VNN), Stanford, CA.}

^{Defense Advanced Research Projects Agency. (n.d.). Explainable Artificial Intelligence (XAI). Retrieved from https://www.darpa.mil/program/explainable-artificial-intelligence}

^{Edmonds, M., Gao, F., Liu, H., Xie, X., Qi, S., Rothrock, B., Zhu, Y., Wu, Y. N, Hongjing, L., & Zhu, S. (2019). A tale of two explanations: Enhancing human trust by explaining robot behavior. Science Robotics, 4(37). https://doi.org/10.1126/scirobotics.aay4663}

^{Keil, F. (2006). Explanation and understanding. Annual Review of Psychology, 57.}

^{Larson, J., Angwin, J., Kirchner, L., & Mattu, S. (2019, March 9). How We Analyzed the COMPAS Recidivism Algorithm. Retrieved from https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm}

^{Miotto, R., Li, L., Kidd, B. A., & Dudley J. T. (2016). Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records. Nature Scientific Reports, 6(1), 26094.}

^{Rabinowitz, N.C., Perbet, F., Song, H.F., Zhang, C., Eslami, S.M., & Botvinick, M.M. (2018). Machine Theory of Mind. ArXiv, abs/1802.07740.}

^{Rahwan, I. (2018). Society-in-the-loop: programming the algorithmic social contract. Ethics and Information Technology, 20(1), 5–14. https://doi.org/10.1007/s10676-017-9430-8}

^{Rozenblit, L., & Keil, F. (2002). The misunderstood limits of folk science: an illusion of explanatory depth. Cognitive Science, 26(5), 521–562. https://doi.org/10.1207/s15516709cog2605_1}

^{Slack, D., Hilgard, S., Jia, E., Singh, S., & Lakkaraju, H. (2020, Feb 3). Fooling LIME and SHAP: Adversarial Attacks on Post hoc Explanation Methods [Paper presentation]. AAAI/ACM Conference on AI, Ethics, and Society 2020, New York, NY. https://doi.org/10.1145/3375627.3375830}

^{Yu, V. L., Fagan, L. M., Wraith, S. M., Clancey, W. J., Scott, A. C., Hannigan, J., Blum, R. L., Buchanan, B. G., & Cohen, S. N. Antimicrobial Selection by a Computer: A Blinded Evaluation by Infectious Diseases Experts (1979). JAMA, 242(12), 1279–1282. http://doi.org/10.1001/jama.1979.03300120033020}

^{Yong, E. (2018, January 29). A Popular Algorithm Is No Better at Predicting Crimes Than Random People. Retrieved from https://www.theatlantic.com/technology/archive/2018/01/equivant-compas-algorithm/550646/}

^{作者：amecolli|封面：Ines Cui}

^{编纂：EON|排版：小葵花}