1 1 1 1 1 1 1 1 1 1 Rating 0.00 (0 Votes)

全球人工智能:专注为AI开发者提供全球最新AI技术动态和社群交流。用户来源包括:北大、清华、中科院、复旦、麻省理工、卡内基梅隆、斯坦福、哈佛、牛津、剑桥等世界名校的AI技术硕士、博士和教授;以及谷歌、腾讯、百度、脸谱、微软、华为、阿里、海康威视、滴滴、英伟达等全球名企的AI开发者和AI科学家。


文章来源:facebook code\theverge  编译:李辉

 

 

Facebook的使命是让世界更加开放和互联,让每个人都能以自己喜好的语言享受视频和新闻博客——达到最高的准确度和最快的速度。因此语言翻译非常重要。

今天,FAIR团队发布新的研究成果既:全新的卷积神经网络(CNN)进行语言翻译,这种方法快速 9 倍于以往循环神经网络(CNN)的速度,并且实现了目前最高准确率。另外,你可以在 GitHub 开源许可下下载到 FAIR 序列模型工具包(fairseq)源代码和训练过的系统,研究人员可以打造用于翻译、文本摘要以及其他任务的自定义模型。

 

为什么是 CNN?

 

几十年前,最初由 Yann LeCun 开发的 CNN 已经成功用于多个机器学习领域,比如图像处理方面已经非常成功。不过,对于文本应用来说,因为 RNN 的高准确度,其已经成为被最广泛采用的技术和语言翻译的最佳选择。

 

尽管历史表明,在语言翻译任务上RNN比CNN性能更优异,但其内在设计是有局限性的,只要看看它是如何处理信息的就能明白这一点。计算机的翻译办法是:阅读某种语言句子,然后预测在另一种语言中相同含义的语词排列顺序。RNN 运行严格遵照从左到右或者从右到左的顺序,一次处理一个单词。这一运行方式并不天然地契合驱动现代机器学习系统的高度并行的 GPU 硬件。由于每个单词必须等到网络处理完前一个单词,因此计算并不是完全并行的。而CNN 能够同时计算所有元素,充分利用了 GPU 的并行,计算也因此更高效。CNN 的另一个优势就是以分层的方式处理信息,因此,捕捉数据中的复杂关系也会更容易一些。

 

在之前的研究中,被用于翻译任务的 CNN 的表现并不比 RNN 逊色。但是鉴于 CNN 架构潜力,FAIR 开始研究将 CNN 用于翻译,结果发现了一种翻译模型设计,该设计能够让 CNN 的翻译效果也很出色。鉴于 CNN 更加出色的计算效率,CNN 还有望扩大翻译规模,将世界上 6,500 多种语言纳入翻译范围。

 

创造新记录的最佳速度

 

我们的研究结果表明,与 RNN相比,我们的系统在由机器翻译协会(WMT)提供的广泛使用的公共基准数据集上达到了新的最佳效果。特别是,CNN 模型在 WMT 2014 英语-法语任务(该度量标准被广泛用于判断机器翻译的准确度)上超过了之前最佳结果 1.5 BLEU。我们的模型在 WMT 2014 英语-德语任务上提高了 0.5 BLEU,在 WMT 2016 英语-罗马尼亚语上提高了 1.8 BLEU。

 

对于实际应用,神经机器翻译的一个考量因素是我们为系统提供一个句子后,它到底需要多长时间进行翻译。FAIR CNN 模型在计算上十分高效,它要比强 RNN 系统快九倍左右。许多研究聚焦于量化权重或浓缩(distillation)等方法来加速神经网络,而它们同样也可被用于本 CNN 模型,甚至提速的效果还要大些,表现出了显著的未来潜力。

 

改善翻译效果的多跳注意(multi-hop attention)和门控(gating)

 

在我们模型架构中,一个明显不同的组件就是多跳注意,这个机制就像人类翻译句子时会分解句子结构:不是看一眼句子接着头也不回地翻译整个句子,这个网络会反复glimpse句子,选择接下来翻译哪个单词,这点和人类更像:写句子时,偶然回过头来看一下关键词。 多跳注意是这一机制的增强版本,可以让神经网络多次glimpse,以生成更好的翻译效果。多次glimpse也会彼此依存。比如,头次glimpse关注动词,那么,第二次glimpse就会与助动词有关。

 

在下图中,我们给出了该系统读取法语短语(编码)并输出其英语翻译(解码)的情形。我们首先使用一个 CNN 运行其编码器以为每个法语词创建一个向量,同时完成计算。接下来,其解码器 CNN 会一次得到一个英语词。在每一步,该注意都会glimpse原法语句子来确定翻译句子中最相关的下一个英语词。解码器中有两个所谓的层,下面的动画给出了每层中注意完成的方式。绿线的强度表示了该网络对每个法语词的关注度。当该网络被训练时,其一直可以提供翻译,同时也可以完成对英语词的计算。

 

 

 

我们的系统另一方面是gating,其控制了神经网络中的信息流。在每一个神经网络中,信息流也就是通过隐藏单元的数据。我们的门控机制将具体控制哪些信息应该需要传递到下一个神经元中,以便产生一个优良的翻译效果。例如,当预测下一个词时,神经网络会考虑迄今为止完成的翻译。而门控允许放大翻译中一个特定的方面或取得广义的概览,这一切都取决于神经网络在当前语境中认为哪个是适当。

 

未来发展

 

这种方法是一种可选的机器翻译架构,也为其它文本处理任务开辟了新的可能性。例如,在对话系统中的多跳注意力让神经网络可以关注到对话中距离较远的部分,比如两个单独的事实,然后将它们联系到一起以便更好地对复杂问题作出响应。

 

 

  • 论文地址:https://s3.amazonaws.com/fairseq/papers/convolutional-sequence-to-sequence-learning.pdf

  • GitHub 项目地址:https://github.com/facebookresearch/fairseq

  • 点击阅读原文跳转原文链接