为了微信的一个 bug,蔡徐坤的粉丝们差点跟腾讯势不两立

为什么微信把英文「你打篮球像蔡徐坤」翻译成「你的篮球打得真好」?
图片:《我才不会被女孩子欺负呢》 为什么微信把英文「你打篮球像蔡徐坤」翻译当作「你的篮球打得真好」? PingWest品玩,有品好玩的科技,一切与你有关。微信公家号:PingWest品玩

为了微信的这一个 bug,蔡徐坤的粉丝们差点跟腾讯势不两立。今天,品玩君来科普一下神经机械翻译。

工作的颠末:

上周末,一组微信“神翻译”的截图,在微博、知乎、豆瓣和虎扑等社交收集上传开。有人输入诸如 "you play basketball like caixukun" 等句子,用微信自带的翻译功能,获得的倒是寄义完全错误的译文:

其他遭殃被一路拿来调戏微信翻译的男星,还有吴亦凡、谢广坤等。

蔡徐坤是今朝中国娱乐界流量第一的明星,粉丝必定欠好惹。

微信团队今朝已经部门下线了翻译功能。按照硅星人实测,近似"you are so" 的句式,以及涉及"caixukun"等词的语句,此刻已经无法翻译到中文了。

与此同时,官方账号@腾讯微信团队也在微博上颁布发表,翻译功能今朝正在告急修复中。截至发稿,相关语句仍然无法被微信正常翻译。

注重,微信官方供给了一小段诠释:

翻译引擎在翻译一些没有进行过练习的非正式英文词汇时呈现误翻,导致部门语句翻译呈现问题。

在"caixukun"后,又有网友发现了更多会触发 bug 的词。好比,微信翻译似乎在大学英文简称上表示比力差劲。输入"your school is WHU",翻不出武汉大学,却给出了“你的黉舍很烂”的成果。

没过多久,涉及大学英文简称的字句也翻译不出来了。

硅星人认为,微信应该进一步、加倍具体地奉告我们:这个 bug 为什么会呈现,由哪些身分所导致。

一方面,微信翻译背后的手艺确实比力复杂。诠释它,有助于用户去理解它的工作道理,大白这个翻译成果的背后,可能有着十分复杂的手艺原因。

另一方面,你关失落了"you are so"句式,还会呈现黉舍简称;关了黉舍简称,还会有更多会触发 bug 的词被发现。发现一次关一次?这样危险的是正常利用翻译功能用户的体验,长此以往总不是法子。

遗憾的是,微信方面暗示,以上面微博为准,不再更多置评(或许是因为不想继续惹末路蔡徐坤的粉丝吧。)同时,中文互联网上完全找不到针对此事靠谱的手艺解答,即便在知乎上,相关本家儿题下面也都是用户在分享本身发现的 bug 截图,没有人诠释原因。

既然这样,不妨让硅星人来尝尝?

我们采访了多位机械进修专家,并在接下来的篇幅里 1)诠释微信翻译用的到底是什么手艺;2)再测验考试回覆"you play basketball like caixukun" 这句话,为什么在微信翻译里被翻错了。

微信翻译用的是什么手艺?

硅星人颠末多方面领会,确信微信英汉互译系统采用的是今朝机械进修范畴比力火的“神经机械翻译”(Neural Machine Translation, 简称 NMT) 手艺,由微信 AI 团队自研。

从门外汉的角度来看,NMT 在翻译一句话时,做了这些工作:

  • Step 1: 在必然水平上仿照人脑的思维体例,NMT 按照一个单词在整个句子(可所以长句)傍边的语境,为这个单词成立一个神经收集的模子,形当作一个语义暗示。

好比单词是英语的 dog,可以理解为 NMT 在它的“大脑”里形当作了一条狗的印象。

  • Step 2: 按照在句子甚至段落中的语境,将模子从头转化当作另一种说话。

好比 dog 翻译当作法语就是 “le chien”;但若是语境是“一条狗生下了小狗”,那么 dog 就会被翻译当作阴性的"la chienne"。

(NMT 不是真的在大脑中形当作狗的视觉印象,事实上整个过程跟图像完全没有任何干系。这个所谓的“印象”,经由过程连续串标的目的量 (vector) 暗示。狗的例子来自于)

NMT 的本家儿要优势是对长句子(甚至段落)有着不俗的翻译能力,阅读起来上下文连贯水平接近人翻。问宿世之后,NMT 也逐渐被微软、Google、百度、腾讯等大公司的翻译产物所采用。

“机翻手艺一向在不竭迭代更新,以前基于法则,曩昔十年本家儿要基于统计,此刻我们起头用神经收集。神经机械翻译是今朝机械翻译上比力火的一项手艺。我们绝大大都的大语种翻译已经基于这个手艺了,“在美国一家顶级科技公司的研究分支担任资深研究员的王夏 * 告诉硅星人。

“在机翻手艺成长的每个阶段,科研人员城市碰到一些问题。NMT 也存在一些问题,好比整个过程的可诠释性长短常低的,”他说。

硅星人翻译一下这句话的意思:在具体案例的层面上,一个 NMT 的系统为什么会把一句话 ABCDE 翻译当作 abcde,研究者今朝是很难将翻译过程诠释清晰的。

这句话为什么被翻错了?

当 NMT 翻错了的时辰,可能发生了哪些环境?

其实错没错、错误严重不严重,都是人来决议的。在机械眼里没有对错,选心猿意马的谜底就是机械认为概率最高或最有可能的那个谜底,因为一切都按照模子、算法运转着。

接管这一点,你才能理解这句话为什么翻错。

接下来进入正题

可能原因 1:练习集噪音

在接管硅星人采访的多位机械进修专家傍边,大部门人都给这条原因投了票。

形象一点比方,噪音 (noise) 就是练习翻译系统的数据集里呈现的”不准确“的,“脏”的数据。

练习一个优异的 NMT 系统,需要大量高质量平行语料数据——”高质量“指的是精确的翻译,”平行语料“指的是一句英文一句中文的,”I love you = 我爱你“,等等。

这些数据要去哪里找?英汉辞典是一个来历。除此之外,最风行的做法是去互联网上抓取,从全网大量的数据里,抓取到所需要的高质量平行语料。

"you play basketball like caixukun" 被翻译当作了”你的篮球打得真好“,噪音是哪来的?硅星人发现有两种可能性:

  • 好比,网上已经存在了大量”caixukun=好“的语料。这些语料在爬取中被微信翻译当当作了平行语料并采用了。可是现实上,这属于”噪音“,因为在翻译的语境下成立不了相关性,没法子确保是精确的。微信 AI 可能在今后增强近似范畴的去噪音。
  • 开办了一家机械进修公司的韩辰 * 指出:在练习中,微信翻译团队人员可能利用生当作匹敌进犯 (generative adversarial attack) 的体例,做了近似手动插手噪音,在练习过程中本家儿动对近似的翻译成果进行纠错的操作,最终干扰了翻译成果——这是一种可能发生的环境,我们并不测度念头。

在有噪音等异常环境存在的前提下,系统仍然可以或许正常练习、工作,给出高质量翻译成果——这样的能力在计较机科学里叫做“鲁棒性”(robustness)。

王夏指出,鲁棒性是 NMT 以及此后的机械翻译手艺都需要改良和注重的。

可能原因 2:集外词

一种可能呈现的环境是,在微信翻译练习用的数据集中,压根就没有呈现过"caixukun"这个词。

当 NMT 碰到集外词时,可能会进行拆解找到集内词。这个拆解的过程也是随机的,例如说它可能拆当作了 caix ukun,获得的仍然是集外词。

集外词翻译欠好是很正常。若是没见过,那就不会翻,呈现误差也是情理之中的。

可能原因 3:范畴不匹配

”另一种可能呈现的环境是范畴不匹配 (domains do not match),“王夏暗示,并指出这并纷歧心猿意马是具体案例的环境。

在这个具体案例中,句子里呈现了 basketball(篮球),而微信翻译的练习数据集可能没有篮球范畴的,或者跟篮球有关的很是少。一个不匹配的范畴,再加上句子里还有一个集外词,配合感化使得翻译成果很难准确。

这个诠释行得通。例如说商贸往来是大部门微信用户利用翻译的原因,那么微信在练习 NMT 时可能用了商业范畴的数据集;篮球不是微信翻译用户的本家儿要场景,那么在练习时也许就没有效篮球的数据集。

若是因为集外词和范畴不匹配而出了错,你也不克不及怪它。没学过的工具,它又怎么可能会呢?

可能原因 4:奇异单词 + 无法引入常识

这个原因也是由 NMT 的工作道理导致的。

NMT 对于长句子、段落,甚至一整篇文章的翻译结果很不错。这得益于它的机制,在翻译某个词时可以或许贴合上下文的语境。

可是在短句上,它就纷歧心猿意马灵了——出格是当这个句子完全不通顺的时辰。

可能因为在"you play basketball like caixukun"这句话中,caixukun 是一个很是奇异的单词。它既没有呈现在任何一本英语辞典傍边,看上去跟句子的上下文也没什么关系。

人类在翻译的时辰,可以或许参考已有的常识、常识,翻不出来也可以去查资料。NMT 却做不到这一点,当它在工作的时辰,它并不具备一个常识库可以去参考。

并且,这一点并不是微信做欠好——此刻去用同样的句子考考 Google Translate,获得的成果也不令人完全对劲。

“这个(无法引入常识的)问题不仅表现在翻译使命上,还包罗阅读理解、问答等使命。若何在这一点上做改良,是个很有趣的偏向,大师也都还在摸索,”王夏暗示。

所以,微信做错了吗?

上述环境如若呈现,必然会导致翻译错误,因为 NMT 就是这样工作的。就算不发生在微信上,也会发生在 Google Translate,或者任何其他一个基于 NMT 的翻译产物上。这样来看,微信产物自己没有任何过错。

但微信团队并非完全无辜的。因为除了手艺上,bug 呈现也有可能是流程管控上出了问题。

在一个 9 亿用户量级的全平易近级 app 里,开辟任何功能都应该颠末细心的论证,上线前也应该有严酷的测试,尽量确保满有把握。然而,微信的前工程师曾透露,至少在微信翻译上线时辰并非如斯。

那时,工程师 @qinz 在知乎上是这样回覆的:

@LynnCui

说来腾讯 / 微信也不是第一次出这种问题了。

客岁腾讯 AI 负责博鳌亚洲论坛的同声传译,直接把一个基于 seq2seq 的机翻系统带曩昔了,先是把“一带一路”翻译当作了“一条公路和一条腰带”和“道路和传送带”,接着又爽性抽风罢工。

“数据量大,活糙敢干。”

这是韩辰对此次微信翻译 bug 的评价。

接管硅星人采访时,一位不肯意透露姓名的蔡徐坤粉丝说,不但愿看到有个体人经由过程手艺的手段,去纵容针对艺人的收集暴力。

“艺人是无辜的,这样的翻译自己会给艺人带来负面影响。而网友的群嘲,可能对艺人带来心理上的二次危险,“她暗示,”此次微信官方的反映比力快,很赞。我但愿微信是没有恶意的,也但愿所有全平易近级 app 和社交媒体都有根基的道德底线。“

* 王夏、韩辰为假名

那么……

本文来历:硅星人
作者:光谱

你打篮球像蔡徐坤微信翻译这个是怎么回事

  • 发表于 2019-03-10 21:05
  • 阅读 ( 1041 )
  • 分类:其他类型

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
admin
admin

0 篇文章

作家榜 »

  1. xiaonan123 189 文章
  2. 汤依妹儿 97 文章
  3. luogf229 46 文章
  4. jy02406749 45 文章
  5. 小凡 34 文章
  6. Daisy萌 32 文章
  7. 我的QQ3117863681 24 文章
  8. 华志健 23 文章

推荐文章

联系我们:uytrv@hotmail.com 问答工具