2018，仍是AI领域激动人心的一年。

这一年成为NLP研究的分水岭，各种突破接连不断；CV领域同样精彩纷呈，与四年前相比GAN生成的假脸逼真到让人不敢相信；新工具、新框架的出现，也让这个领域的明天特别让人期待……近日，Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告，原文作者PRANAV DAR。量子位在保留这个报告架构的基础上，对内容进行了重新编辑和补充。这份报告总结和梳理了全年主要AI技术领域的重大进展，同时也给出了相关的资源地址，以便大家更好的使用、查询。报告共涉及了五个主要部分：

自然语言处理（NLP）
计算机视觉
工具和库
强化学习
AI道德

下面，我们就逐一来盘点和展望，嘿喂狗~

自然语言处理（NLP）

一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

2018年在NLP历史上的特殊地位，已经毋庸置疑。

这份报告认为，这一年正是NLP的分水岭。2018年里，NLP领域的突破接连不断：ULMFiT、ELMo、最近大热的BERT……

迁移学习成了NLP进展的重要推动力。从一个预训练模型开始，不断去适应新的数据，带来了无尽的潜力，甚至有“NLP领域的ImageNet时代已经到来”一说。

■ ULMFiT

这个缩写，代表“通用语言模型的微调”，出自ACL 2018论文：Universal Language Model Fine-tuning for Text Classification。一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

正是这篇论文，打响了今年NLP迁移学习狂欢的第一枪。论文两名作者一是Fast.ai创始人Jeremy Howard，在迁移学习上经验丰富；一是自然语言处理方向的博士生Sebastian Ruder，他的NLP博客几乎所有同行都在读。两个人的专长综合起来，就有了ULMFiT。想要搞定一项NLP任务，不再需要从0开始训练模型，拿来ULMFiT，用少量数据微调一下，它就可以在新任务上实现更好的性能。

一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

他们的方法，在六项文本分类任务上超越了之前最先进的模型。详细的说明可以读他们的论文：https://arxiv.org/abs/1801.06146Fast.ai网站上放出了训练脚本、模型等：http://nlp.fast.ai/category/classification.html

■ ELMo

这个名字，当然不是指《芝麻街》里那个角色，而是“语言模型的词嵌入”，出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations，NLP顶会NAACL HLT 2018的优秀论文之一。

一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

ELMo用语言模型（language model）来获取词嵌入，同时也把词语所处句、段的语境考虑进来。

这种语境化的词语表示，能够体现一个词在语法语义用法上的复杂特征，也能体现它在不同语境下如何变化。

当然，ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上，能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上，用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

这里有ELMo的更多介绍和资源：

https://allennlp.org/elmo

■ BERT

说BERT是2018年最火的NLP模型，一点也不为过，它甚至被称为NLP新时代的开端。一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

它由Google推出，全称是BidirectionalEncoderRepresentations fromTransformers，意思是来自Transformer的双向编码器表示，也是一种预训练语言表示的方法。从性能上来看，没有哪个模型能与BERT一战。它在11项NLP任务上都取得了最顶尖成绩，到现在，SQuAD 2.0前10名只有一个不是BERT变体：

一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

如果你还没有读过BERT的论文，真的应该在2018年结束前补完这一课：https://arxiv.org/abs/1810.04805另外，Google官方开源了训练代码和预训练模型：https://github.com/google-research/bert如果你是PyTorch党，也不怕。这里还有官方推荐的PyTorch重实现和转换脚本：https://github.com/huggingface/pytorch-pretrained-BERT

■ PyText

BERT之后，NLP圈在2018年还能收获什么惊喜？答案是，一款新工具。

一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

就在上周末，Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架，每天要为Facebook旗下各种应用处理超过10亿次NLP任务，是一个工业级的工具包。

（Facebook开源新NLP框架：简化部署流程，大规模应用也OK）

PyText基于PyTorch，能够加速从研究到应用的进度，从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型，可以直接拿来处理文本分类、序列标注等任务。

想试试？开源地址在此：

https://github.com/facebookresearch/pytext

■ Duplex

如果前面这些研究对你来说都太抽象的话，Duplex则是NLP进展的最生动例证。名字有点陌生？不过这个产品你一定听说过，它就是Google在2018年I/O开发者大会上展示的“打电话AI”。一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

它能主动打电话给美发店、餐馆预约服务，全程流畅交流，简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”，还说：“在预约领域，这个AI已经通过了图灵测试。”Duplex在多轮对话中表现出的理解能力、合成语音的自然程度，都是NLP目前水平的体现。如果你还没看过它的视频……

■ 2019年展望

NLP在2019年会怎么样？我们借用一下ULMFiT作者Sebastian Ruder的展望：

预训练语言模型嵌入将无处不在：不用预训练模型，从头开始训练达到顶尖水平的模型，将十分罕见。
能编码专业信息的预训练表示将会出现，这是语言模型嵌入的一种补充。到时候，我们就能根据任务需要，把不同类型的预训练表示结合起来。
在多语言应用、跨语言模型上，将有更多研究。特别是在跨语言词嵌入的基础上，深度预训练跨语言表示将会出现。

计算机视觉

今年，无论是图像还是视频方向都有大量新研究问世，有三大研究曾在CV圈掀起了集体波澜。

■ BigGAN

今年9月，当搭载BigGAN的双盲评审中的ICLR 2019论文现身，行家们就沸腾了：简直看不出这是GAN自己生成的。

一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

在计算机图像研究史上，BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后，它的Inception Score（IS）得分166.3，是之前最佳得分52.52分3倍。

除了搞定128×128小图之外，BigGAN还能直接在256×256、512×512的ImageNet数据上训练，生成更让人信服的样本。

一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

在论文中研究人员揭秘，BigGAN的惊人效果背后，真的付出了金钱的代价，最多要用512个TPU训练，费用可达11万美元，合人民币76万元。

不止是模型参数多，训练规模也是有GAN以来最大的。它的参数是前人的2-4倍，批次大小是前人的8倍。

研究论文：https://openreview.net/pdf?id=B1xsqj09Fm

■ Fast.ai 18分钟训练整个ImageNet

在完整的ImageNet上训练一个模型需要多久？各大公司不断下血本刷新着记录。不过，也有不那么烧计算资源的平民版。今年8月，在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生，用租来的亚马逊AWS的云计算资源，18分钟在ImageNet上将图像分类模型训练到了93%的准确率。一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人