为了微信的这一个 bug,蔡徐坤的粉丝们差点跟腾讯势不两立。今天,品玩君来科普一下神经机械翻译。
工作的颠末:
上周末,一组微信“神翻译”的截图,在微博、知乎、豆瓣和虎扑等社交收集上传开。有人输入诸如 "you play basketball like caixukun" 等句子,用微信自带的翻译功能,获得的倒是寄义完全错误的译文:
其他遭殃被一路拿来调戏微信翻译的男星,还有吴亦凡、谢广坤等。
蔡徐坤是今朝中国娱乐界流量第一的明星,粉丝必定欠好惹。
微信团队今朝已经部门下线了翻译功能。按照硅星人实测,近似"you are so" 的句式,以及涉及"caixukun"等词的语句,此刻已经无法翻译到中文了。
与此同时,官方账号@腾讯微信团队也在微博上颁布发表,翻译功能今朝正在告急修复中。截至发稿,相关语句仍然无法被微信正常翻译。
注重,微信官方供给了一小段诠释:
翻译引擎在翻译一些没有进行过练习的非正式英文词汇时呈现误翻,导致部门语句翻译呈现问题。
在"caixukun"后,又有网友发现了更多会触发 bug 的词。好比,微信翻译似乎在大学英文简称上表示比力差劲。输入"your school is WHU",翻不出武汉大学,却给出了“你的黉舍很烂”的成果。
没过多久,涉及大学英文简称的字句也翻译不出来了。
硅星人认为,微信应该进一步、加倍具体地奉告我们:这个 bug 为什么会呈现,由哪些身分所导致。
一方面,微信翻译背后的手艺确实比力复杂。诠释它,有助于用户去理解它的工作道理,大白这个翻译成果的背后,可能有着十分复杂的手艺原因。
另一方面,你关失落了"you are so"句式,还会呈现黉舍简称;关了黉舍简称,还会有更多会触发 bug 的词被发现。发现一次关一次?这样危险的是正常利用翻译功能用户的体验,长此以往总不是法子。
遗憾的是,微信方面暗示,以上面微博为准,不再更多置评(或许是因为不想继续惹末路蔡徐坤的粉丝吧。)同时,中文互联网上完全找不到针对此事靠谱的手艺解答,即便在知乎上,相关本家儿题下面也都是用户在分享本身发现的 bug 截图,没有人诠释原因。
既然这样,不妨让硅星人来尝尝?
我们采访了多位机械进修专家,并在接下来的篇幅里 1)诠释微信翻译用的到底是什么手艺;2)再测验考试回覆"you play basketball like caixukun" 这句话,为什么在微信翻译里被翻错了。
微信翻译用的是什么手艺?
硅星人颠末多方面领会,确信微信英汉互译系统采用的是今朝机械进修范畴比力火的“神经机械翻译”(Neural Machine Translation, 简称 NMT) 手艺,由微信 AI 团队自研。
从门外汉的角度来看,NMT 在翻译一句话时,做了这些工作:
好比单词是英语的 dog,可以理解为 NMT 在它的“大脑”里形当作了一条狗的印象。
好比 dog 翻译当作法语就是 “le chien”;但若是语境是“一条狗生下了小狗”,那么 dog 就会被翻译当作阴性的"la chienne"。
(NMT 不是真的在大脑中形当作狗的视觉印象,事实上整个过程跟图像完全没有任何干系。这个所谓的“印象”,经由过程连续串标的目的量 (vector) 暗示。狗的例子来自于)
NMT 的本家儿要优势是对长句子(甚至段落)有着不俗的翻译能力,阅读起来上下文连贯水平接近人翻。问宿世之后,NMT 也逐渐被微软、Google、百度、腾讯等大公司的翻译产物所采用。
“机翻手艺一向在不竭迭代更新,以前基于法则,曩昔十年本家儿要基于统计,此刻我们起头用神经收集。神经机械翻译是今朝机械翻译上比力火的一项手艺。我们绝大大都的大语种翻译已经基于这个手艺了,“在美国一家顶级科技公司的研究分支担任资深研究员的王夏 * 告诉硅星人。
“在机翻手艺成长的每个阶段,科研人员城市碰到一些问题。NMT 也存在一些问题,好比整个过程的可诠释性长短常低的,”他说。
硅星人翻译一下这句话的意思:在具体案例的层面上,一个 NMT 的系统为什么会把一句话 ABCDE 翻译当作 abcde,研究者今朝是很难将翻译过程诠释清晰的。
这句话为什么被翻错了?
当 NMT 翻错了的时辰,可能发生了哪些环境?
其实错没错、错误严重不严重,都是人来决议的。在机械眼里没有对错,选心猿意马的谜底就是机械认为概率最高或最有可能的那个谜底,因为一切都按照模子、算法运转着。
接管这一点,你才能理解这句话为什么翻错。
接下来进入正题
可能原因 1:练习集噪音
在接管硅星人采访的多位机械进修专家傍边,大部门人都给这条原因投了票。
形象一点比方,噪音 (noise) 就是练习翻译系统的数据集里呈现的”不准确“的,“脏”的数据。
练习一个优异的 NMT 系统,需要大量高质量的平行语料数据——”高质量“指的是精确的翻译,”平行语料“指的是一句英文一句中文的,”I love you = 我爱你“,等等。
这些数据要去哪里找?英汉辞典是一个来历。除此之外,最风行的做法是去互联网上抓取,从全网大量的数据里,抓取到所需要的高质量平行语料。
"you play basketball like caixukun" 被翻译当作了”你的篮球打得真好“,噪音是哪来的?硅星人发现有两种可能性:
在有噪音等异常环境存在的前提下,系统仍然可以或许正常练习、工作,给出高质量翻译成果——这样的能力在计较机科学里叫做“鲁棒性”(robustness)。
王夏指出,鲁棒性是 NMT 以及此后的机械翻译手艺都需要改良和注重的。
可能原因 2:集外词
一种可能呈现的环境是,在微信翻译练习用的数据集中,压根就没有呈现过"caixukun"这个词。
当 NMT 碰到集外词时,可能会进行拆解找到集内词。这个拆解的过程也是随机的,例如说它可能拆当作了 caix ukun,获得的仍然是集外词。
集外词翻译欠好是很正常。若是没见过,那就不会翻,呈现误差也是情理之中的。
可能原因 3:范畴不匹配
”另一种可能呈现的环境是范畴不匹配 (domains do not match),“王夏暗示,并指出这并纷歧心猿意马是具体案例的环境。
在这个具体案例中,句子里呈现了 basketball(篮球),而微信翻译的练习数据集可能没有篮球范畴的,或者跟篮球有关的很是少。一个不匹配的范畴,再加上句子里还有一个集外词,配合感化使得翻译成果很难准确。
这个诠释行得通。例如说商贸往来是大部门微信用户利用翻译的原因,那么微信在练习 NMT 时可能用了商业范畴的数据集;篮球不是微信翻译用户的本家儿要场景,那么在练习时也许就没有效篮球的数据集。
若是因为集外词和范畴不匹配而出了错,你也不克不及怪它。没学过的工具,它又怎么可能会呢?
可能原因 4:奇异单词 + 无法引入常识
这个原因也是由 NMT 的工作道理导致的。
NMT 对于长句子、段落,甚至一整篇文章的翻译结果很不错。这得益于它的机制,在翻译某个词时可以或许贴合上下文的语境。
可是在短句上,它就纷歧心猿意马灵了——出格是当这个句子完全不通顺的时辰。
可能因为在"you play basketball like caixukun"这句话中,caixukun 是一个很是奇异的单词。它既没有呈现在任何一本英语辞典傍边,看上去跟句子的上下文也没什么关系。
人类在翻译的时辰,可以或许参考已有的常识、常识,翻不出来也可以去查资料。NMT 却做不到这一点,当它在工作的时辰,它并不具备一个常识库可以去参考。
并且,这一点并不是微信做欠好——此刻去用同样的句子考考 Google Translate,获得的成果也不令人完全对劲。
“这个(无法引入常识的)问题不仅表现在翻译使命上,还包罗阅读理解、问答等使命。若何在这一点上做改良,是个很有趣的偏向,大师也都还在摸索,”王夏暗示。
所以,微信做错了吗?
上述环境如若呈现,必然会导致翻译错误,因为 NMT 就是这样工作的。就算不发生在微信上,也会发生在 Google Translate,或者任何其他一个基于 NMT 的翻译产物上。这样来看,微信产物自己没有任何过错。
但微信团队并非完全无辜的。因为除了手艺上,bug 呈现也有可能是流程管控上出了问题。
在一个 9 亿用户量级的全平易近级 app 里,开辟任何功能都应该颠末细心的论证,上线前也应该有严酷的测试,尽量确保满有把握。然而,微信的前工程师曾透露,至少在微信翻译上线时辰并非如斯。
那时,工程师 @qinz 在知乎上是这样回覆的:
@LynnCui
说来腾讯 / 微信也不是第一次出这种问题了。
客岁腾讯 AI 负责博鳌亚洲论坛的同声传译,直接把一个基于 seq2seq 的机翻系统带曩昔了,先是把“一带一路”翻译当作了“一条公路和一条腰带”和“道路和传送带”,接着又爽性抽风罢工。
“数据量大,活糙敢干。”
这是韩辰对此次微信翻译 bug 的评价。
接管硅星人采访时,一位不肯意透露姓名的蔡徐坤粉丝说,不但愿看到有个体人经由过程手艺的手段,去纵容针对艺人的收集暴力。
“艺人是无辜的,这样的翻译自己会给艺人带来负面影响。而网友的群嘲,可能对艺人带来心理上的二次危险,“她暗示,”此次微信官方的反映比力快,很赞。我但愿微信是没有恶意的,也但愿所有全平易近级 app 和社交媒体都有根基的道德底线。“
* 王夏、韩辰为假名
那么……
本文来历:硅星人
作者:光谱
你打篮球像蔡徐坤微信翻译这个是怎么回事
0 篇文章
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!