机器在阅读测试中击败了人类，但它们读懂了吗？

2017年秋，纽约大学的计较说话学家萨姆·鲍曼（Sam Bowman）认为，计较机仍然不敷擅长理解文字。当然，在某些很是特定的范畴中，计较机已经可以很好地模拟对文字的理解，好比机械翻译和感情阐发（如确定一个句子是善意仍是恶意的）。但鲍曼但愿从对真实文章的测试中获得可权衡机械理解能力的证据：真正的、人类式的英语阅读理解（能力）。是以，他设计了一项知名的测试。

在2018年4月颁发的一篇论文中，鲍曼与华盛顿大学及谷歌旗下人工智能公司DeepMind的研究人员合作，提出了一项名为GLUE（General Language Understanding Evaluation，综合说话理解测评）的系列测试，共包含九个阅读理解使命。该测试是“研究人员所公认的高难挑战中具有代表性的一部门”，鲍曼说，固然这"对于人类而言不当作问题"。此中一个使命是基于前一句话判定某一个句子是否准确，例如，若是您能从“特朗普总统搭机抵达伊拉克并起头为期一周的国是拜候”揣度出“特朗普正出访海外”，那么您就经由过程了测试。

成果，机械的测试成就惨不忍睹。即使是最进步前辈的神经收集也没有在任何一项使命中得分跨越69分，或者说，在D+以上。对此，鲍曼和他的合作者都不觉不测。神经收集粗略地仿照哺乳动物大脑中神经元的毗连模式，来搭建计较毗连层，虽在天然说话处置（NLP）这一范畴揭示出了不小潜力，可是研究者们并不相信这些系统学到了任何干于说话素质的工具。而GLUE似乎也证实了这一点。“这些初期表示申明，现有的练习模子和方式还无法令机械经由过程GLUE。”鲍曼和他的合作者在论文中写道。

但他们的评价很快就被打破了。2018年10月，谷歌推出了一种新练习模子，绰号为BERT（Bidirectional Encoder Representations from Transformers, 转换器输出式双标的目的编码器暗示）。它在GLUE测试中拿到了80.5分。设计者们但愿这个全新的基准东西可以或许帮忙测量机械对天然说话的真实理解力，或是揭露机械在这方面的欠缺。而此刻，机械仅用六个月的时候就从D-晋升到了B-的理解程度。

“这绝对是个能让您喊出‘卧槽’的时刻！”鲍曼回忆道，“BERT在好几项使命中已经获得了接近人类可能获得的分数，而业界遍及对此持思疑立场。”在BERT呈现之前，GLUE测试甚至还未设置人类的基准分数。而当鲍曼和他的一个博士生在2019年2月插手人类基准分数之后，微软研发的一个基于BERT的系统只用了几个月的时候就超越了它们。

_{—Simon Prades}

笔者在写这篇文章时，GLUE头排得分榜上的每一个系统几乎都是在BERT的根本上优化而当作的，此中有五个系统在得分上均跨越了人类。

但这是否意味着，机械真地起头理解了我们的说话，仍是说它只是学会了更好地应付我们的测试？当BERT系神经收集如疾风骤雨般霸占了GLUE，新的测试方式也随之呈现。在这些新测试中，强力的NLP系统被描画当作了“伶俐的汉斯”（概况上会做算术题，但现实上只会无意识地遵循练习者的提醒）。

鲍曼说：“其实我们正处在一个尴尬的灰色地带，一边是对NLP问题的无聊的特别解，一边是亟待破解的人工智能的曙光。整个范畴遍及的反映是：为什么我们会晤对这种处境？这意味着什么？此刻我们又该做什么？”

机械自定例则

在知名的思惟尝试“中文房间”里，一个不会说中文的人身处某房间中，他的手边有很多中文语法书。这些语法书具体地申明了若何对收到的一系列中文字符给出响应的回覆。当房间外的人从门缝塞进一张纸条，纸条上是用中文写的一个问题，房间里的人可以查看语法书，然后送出一个完美的中文回覆。

这个思惟尝试表白，无论外面的人认为里面的人回覆得何等精确，都不克不及说里面的人理解了中文。不外，即使机械只是模拟出人类的理解能力，在天然说话处置这个高难范畴，也是实属不易。

此刻独一的问题是：这些所谓完美的语法书并不存在。天然说话过于复杂和随意，很难还原当作一系列严酷的法则，如句法（也就是支配词语构成有意义的句子的经验/法则）。闻名说话学家诺姆·乔姆斯基曾举过一个例子：“无色的绿色不雅念愤慨入睡。”（colorless green ideas sleep furiously）这句话句法准确，可是任何一位措辞人都知道这是一句无意义的废话。天然说话有着无数这种只可领悟不成言传的法则，那么，如何的一本预先写就的语法书方能将其全数囊括呢？

NLP研究者们测验考试将不成能变为可能。他们用一种叫“预练习”的方式练习神经收集生当作姑且的“语法书”。

在2018年以前，NLP模子的预练习东西之一是某种近似于辞典的工具。这一名为“词嵌入”的东西将单词之间的联络编码当作数字，作为输入去练习深度神经收集，半斤八两于给了“中文房间”里的人一本很是简单的词汇书。然而，用词嵌入预练习的神经收集仍然无法从句子层面理解单词的寄义，“它会感觉‘一小我咬了那只狗’和‘一只狗咬了那小我’表达了完全不异的意思。”约翰·霍普金斯大学的计较说话学家塔尔·林岑（Tal Linzen）如是说。

_{Tal Linzen——图片来历：Will Kirk/Johns Hopkins University}

一种更佳的练习方式是：应用涵盖词汇、句法和上下文的预练习使神经收集具备更丰硕的“语法书”，接着练习它去执行特定的NLP使命。2018年头，来自OpenAI、旧金山大学、艾伦人工智能研究所和华盛顿大学的研究者们，同时发现了一种可以接近这一宏伟方针的伶俐方式。他们起头用一种更为根本的名为“说话模子”的使命来练习整个神经收集，这分歧于之前的神经收集只用词嵌入来预练习第一层神经元。

“最简单的说话模子就是：先读部门单词，然后测验考试展望将呈现的下一个词。若是我说‘乔治·布什出生在’，这种模子需要展望这个句子中的下一个词。”Facebook研究科学家麦尔·奥特（Myle Ott）这样诠释道。

其实，这些颠末深度预练习的说话模子搭建起来相对不难。研究者只需从开源数据库如维基百科中拷贝大量的文本，把由上亿单词构成的语法准确的句子输入神经收集，然后让它本身得出对下一个词的展望。现实上，这就像让“中文房间”里的那小我以送进来的中文信息为参考，本身编写出本身的语律例则。

奥特说：“这种练习体例的益处是说话模子现实上会学到良多关于句法的工具。”

以这种体例预练习后的神经收集可以用更丰硕的暗示方式执行其他更具体的NLP使命，其具体应用过程被称作微调。

“从预练习起头，您就可以改编一个说话模子，让它执行您想执行的使命，”奥特诠释说，“比拟直接练习模子执行邃密的使命，利用预练习改编模子可以获得更好的成果。”

2018年6月，OpenAI推出了一个名为GPT的神经收集，此中包罗一个用11038本电子书接近十亿单词量预练习的说话模子。该神经收集以72.8的得分直接占有了那时GLUE的榜首。即便如斯，萨姆·鲍曼仍是认为在阅读理解能力上，任何机械的表示离人类程度都还很远。

紧接着，BERT呈现了。

壮大的“配方”

所以，BERT事实是什么？

起首，它并不是一个颠末完整练习的神经收集，也不克不及直接超越人类程度，而是鲍曼所说的“一个很是切确的预练习方案”。谷歌的研究者开辟了BERT，让神经收集以它为根本，进修若何完当作各类NLP使命，这就像让一个糕点师傅按照配方做出预先烤好的馅饼皮，然后用它做出各类各样的馅饼（蓝莓馅或菠菜馅的）。同时，谷歌开源了BERT的代码，让其他科研人员不必再从头搭建这个“配方”，只需打包下载BERT即可，就像在“超市买预制的馅饼皮”那样简单。

若是说BERT就像一个配方，那么它需要什么原材料呢？“整个模子的当作功有三个方面的原因。”Facebook研究科学家奥马尔·利维（Omer Levy）谈道。他致力于研究BERT当作功的原因。

_{Omer Levy——图片来历：Omer Levy}

起首，要有一个预练习的说话模子，也就是“中文房间”里的语法书。其次是识别句子中首要特征的能力。

2017年，谷歌大脑的工程师雅各布·乌兹科莱特（Jakob Uszkoreit）正在尽力增强谷歌在机械理解说话范畴的竞争力。他注重到，即使是最进步前辈的神经收集也受到一个内置特征的约束：它只会从左到右一一阅读句子中的单词。概况上这种"挨次阅读"似乎模拟了人类阅读的模式，但乌兹科莱特思疑“线性、挨次地舆解说话可能并不是最优的体例”。

于是，乌兹科莱特和他的合作者为神经收集设计了一种新的架构。这种架构的焦点在于“注重力”分派机制，也就是让每一层神经元给输入中的某种特征增添权重。这种注重"注重力"的架构名为转换器（transformer）。它会把“一只狗咬那小我”句子中的每个单词编码当作多种分歧的形式。举例来说，一个转换器可以把“咬”和“人”当当作动词和宾语，忽略失落“一只”这个词；同时它也可以把“咬”和“狗”当当作动词和本家儿语，根基上忽略“那个”这种词。

转换器以这种非序列的形式把句子暗示为更具表达力的形式。乌兹科莱特称这种非序列的形式为树形（treelike）。神经收集的每一层神经元代表单词之间多个互相平行的毗连，两个不相邻的单词经常会被毗连在一路，就像小学生分辩句子当作分时画的树形图。“这现实上就像很多彼此重叠的树形图。”乌兹科莱特诠释道。

树形的暗示方式让转换器可以或许很好地成立上下文理解的模子，同时也能更好地进修相隔很远的两个单词之间的联系。“这显得有些违反直觉，”乌兹科莱特说，“但该模子的根本是说话学，后者一向以来都在研究说话的树状模子。”

最后，BERT配方中第三个“原材料”则加倍方向这种非线性的阅读体例。

与其他的预练习说话模子分歧，BERT并不依靠只从左到右阅读大量的文字来练习神经收集，而是同时从左、从右两个偏向起头阅读，进修若何展望中心被隐去的单词。好比说，BERT收到的输入是“乔治·布什1946年……于康涅狄格州。”它会从摆布两个偏向解析文本，展望出句子中段的单词“出生”。乌兹科莱特说：“这种双标的目的阅读让神经收集学会在展望之前，从肆意单词的组合中获取尽可能多的信息。”

BERT所利用的这种选词填空式的预练习使命名为掩蔽说话模子（masked-language modeling）。事实上，几十年来，我们一向在用它评估人类的说话理解能力。谷歌则把它看成一种练习神经收集进行双标的目的阅读的东西，以此取代曩昔最风行的单标的目的阅读预练习模子。“在BERT之前，单标的目的阅读的说话模子是业界尺度，即使它也带来了不需要的限制。”谷歌研究科学家肯顿·李（Kenton Lee）说道。

在BERT呈现之前，这三种“原材料”——深度预练习说话模子、注重力机制和双标的目的阅读——早已各自呈现。但从未有人想到把它们组合起来，直到谷歌在2018年底发布了BERT。

_{Jakob Uszkoreit——图片来历：Google}

改良的“配方”

好配方总招人喜好！BERT被各路“大厨”陆续改良当作他们本身的气概。在2019年春的一段时候中，“微软和阿里巴巴不竭地批改BERT模子、彼此超越，在GLUE排行榜上轮换头名。”鲍曼回忆道。2019年8月，BERT的进阶版RoBERTa登上了舞台。那时，DeepMind研究员塞巴斯蒂安·鲁德（Sebastian Ruder）在他广受接待的NLP时事通信中波澜不惊地评论道：“又一个月，又一个更进步前辈的预练习模子（出来了）。”

BERT这个“馅饼皮”包罗了一系列布局设计上的决议计划机制，每一处都对模子的结果有影响。这此中就包罗“烘烤”出来的神经收集的巨细、预练习数据集的巨细、数据集被掩蔽的体例以及神经收集的练习时长。后来呈现的“配方”，包罗RoBERTa，都是研究者调整这些决议计划机制的成果，就像厨师们会不竭改良菜式一样。

以练习RoBERTa为例，Facebook和华盛顿大学的研究者们加进了很多新材料（更多的预练习数据、更长的输入序列、更多的练习时候），去失落了一种（如“展望下一句话”，此使命原本包含在BERT中，不外后来发现它会降低模子表示），又调整了另一种（增添了掩蔽说话预练习使命的难度）。练习成果呢？直取GLUE排名首位。六个礼拜后，微软和马里兰大学的研究人员做出了他们的RoBERTa点窜版，艰难地再次取胜。在写作这篇文章时，又有另一个叫ALBERT的模子——全称是“一个轻量级BERT”（A Lite BERT）——经由过程更邃密的调整练习，其表示占有了GLUE榜首。

“我们还在测验考试弄清晰哪些‘配方’能奏效，哪些不可。”奥特说。

不外，即使我们再怎么完美做馅饼的技巧也不太可能悟到化学道理，不竭地优化BERT也不会给我们增添天然说话处置方面的什么理论常识。“真话告诉您：我对这些论文不太感乐趣，因为我感觉它们出格无聊。”约翰·霍普金斯大学的计较说话学家林岑说。“这是一个科学谜题”，他认可，可是谜底并不在于若何让BERT和其他模子变得更伶俐，或者大白为何它们变得伶俐。相反，“我们正试图理解这些模子在何种水平上真正理解了人类说话，”而不是“发现了一些可巧在测试的数据集上有效的奇技淫巧”，林岑说道。

BERT确其实练习中不竭获得高分，但换句话说，万一它的解答思绪错了呢？

机械伶俐，但不智能

2019年7月，台湾国立当作功大学的两位研究者练习BERT完当作一项较高难度的天然说话理解基准使命：论证推理理解。BERT取得了令人印象深刻的成就。

这一使命要求被试者选出一个论证中合适的、可以或许支撑论点的隐含前提。举例来说，若是要用“科学研究表白抽烟和癌症之间的联系”这一论据来论证“抽烟导致癌症”的论点，我们需要假设“科学研究是可托的”，而不是“科学研究是昂贵的”。后者可能自己是准确的陈述，可是在本阐述中没有任何意义。机械，读懂了吗？

若是它做不到，也不妨。因为就算是我们人类也很难完全准确地经由过程这项使命：一个未受练习的人平均基准得分只有80分。

而BERT得了77分——文章作者隐晦地暗示这成果是“令人惊奇的”。

对此，但他们并不认为，BERT练习能让神经收集获得亚里士多德式的逻辑推理能力。相反，他们给出了一个更简单的诠释：BERT只是归纳了隐含前提的表层模式。

事实恰是如斯。在从头阐发了练习数据集之后，研究者们发现了子虚提醒存在的证据。例如纯真选择包含“不”的选项就可以做对61%的题。抹去这些子虚提醒之后，BERT的得分从77分下降到了53分——和一小我随便乱蒙差不多。还有，斯坦福大学人工智能尝试室出书的机械进修杂志《梯度》（The Gradient）收录了一篇文章，其将BERT比作“伶俐的汉斯”，那匹有名的“会算术”的马。

在另一篇叫做《成果准确，但推理错误》（Right for the Wrong Reasons）的论文中，林岑和他的合著者颁发了一系列证据，申明BERT在某些GLUE使命中的优异表示可能同样是“得益于”数据集里的子虚提醒。这篇论文包罗了一个新数据集，专门揭露BERT在GLUE中利用的“捷径”。数据集的名字叫“对天然说话推论系统的开导式阐发”（Heuristic Analysis for Natural-Language-Inference Systems，简称HANS）

所以说，BERT和它那些霸榜的“兄弟姐妹”都是一场圈套？

鲍曼和林岑均认为GLUE的一部门练习数据比力紊乱，布满了由缔造者引入的微妙误差，而所有的这些误差都可能被壮大的BERT系神经收集所操纵。“没有哪一种幻术能让神经收集完当作（GLUE的）所有使命，可是想要提高它的表示，却有良多条捷径可以走，”鲍曼说道，“而BERT可以发现这些捷径。”但同时他也不认为BERT只是徒有其表。“看起来这些模子确实学到了一些关于说话的常识，”他说，“可是它必定没有以一种周全而不变的体例理解英文。”

华盛顿大学和艾伦研究所的计较机科学家崔艺珍（Yejin Choi，音译）认为，要想朝真正理解说话这一方针继续成长，人们不克不及仅仅专注于成长更壮大的BERT，也需要设计更好的测试基准和练习数据，以便降低机械走捷径的可能。她研究一种名为“匹敌过滤”（adversarial filtering）的方式，利用算法来扫描NLP练习数据集，并删除过度反复的示例，以免为神经收集引入子虚的提醒。她说，颠末匹敌过滤后，“BERT的练习表示可能会大大降低，可是同期人类的表示不会下降太多。”

不外，一些NLP研究人员仍是认为，即使颠末更好的练习，神经收集说话模子仍然会晤临一个底子性的障碍。即使有壮大的预练习，BERT也不克不及完美地成立通用的说话模子，而是颠末微调后，对“特定的NLP使命甚至只是该使命的特定命据集”进行建模，马萨诸塞州大学洛厄尔分校文本机械尝试室的计较说话学家安娜·罗杰斯（Anna Rogers）说。而无论数据集设计得何等完美、筛选得何等细心，都无法囊括所有极端环境和不成预见的输入，但我们人类在利用天然说话时却能毫不吃力地应对它们。

鲍曼指出，很难想象神经收集若何让我们相信它真正理解了说话。究竟结果，尺度化的测试理应揭示关于考生常识的素质的、可泛化的信息。但就像每个备考过SAT的人所知，这些测试也会被技巧蒙混过关。鲍曼说：“我们但愿设计出足够坚苦且不受棍骗的测试，这样解决[它们]能使我们相信，我们已经完全把握了人工智能或说话研究手艺的某一方面，但这很是坚苦。”

鲍曼与合作者比来推出了一项叫SuperGLUE的新测试。这项测试对BERT系的神经收集来说尤其坚苦。直到此刻，还没有哪个神经收集做出跨越人类的表示。可是，若是发生了这种环境，这是否就意味着机械真地可以或许更好地舆解说话？仍是说，这仅仅意味着科学可以或许更好地教会机械应付我们的测试？

“有一个很好的类比，”鲍曼说，“就算我们知道如何做对LSAT和MCAT的标题问题，我们也纷歧定能胜任大夫和律师的工作。”而这似乎恰是人工智能研究历经的道路，他弥补道。“在我们弄清晰若何编写国际象棋走棋程序之前，大师都感觉国际象棋是对智力的一种真正考验，”他说，“我们这个时代的方针，必然是不竭提出更难的问题来测试机械的说话理解能力，然后不竭思考若何解决这些问题。”

_{翻译：乔恩校对：阿格编纂：三文鱼}