预训练语言模型简介

# 1. 自然语言处理研究进展

NLP 领域任务繁多，每一类任务所使用的训练数据和模型不尽相同，绝大多数的 NLP 任务都可以分为如下五类：

NLP 的数据通常很难标注，因此缺乏大规模标注数据一直是困扰 NLP 领域的一大难题。虽然如此，但研究人员可以从人类浩如烟海的文本中轻易获取大规模的无标注文本数据。如果能够有效利用这些数据，就能大幅提升 NLP 任务的效果。

预训练语言模型（Pre-trained Language Model）就是通过对这些无标签的数据进行“预训练”，获得一个比较好的语言表示，再将其应用到特定的自然语言处理下游任务种。

NLP 领域里程碑式的进展如下图所示：

预训练属于迁移学习的范畴。预训练的思想是：模型参数不再是随机初始化的，而是通过一些任务进行预先训练，得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练。

比如在 CV 领域，多个 CNN 构成的 model 在训练后，越浅的层学到的特征越通用。因此，在大规模图片数据上预先获取的“通用特征”，会对下游任务有非常大的帮助。

自然语言的表示学习，就是将人类的语言表示成更易于计算机理解的方式。下图是自然语言表示学习的发展路径：

早期的 n-gram 模型，是基于统计的语言模型，通过前 n 个词来预测第 n+1 个词。
分布式理论的核心思想是：上下文相似的词，其语义也相似，是一种统计意义上的分布；
分布式表示：与分布式理论不同，它并没有统计意义上的分布，它是指文本的一种表示方式，相比与 one-hot 表示，分布式表示将文本在更低的维度进行表示。
word2vec 中每一个 word 都有了一个固定的词向量表示，语义相近的词，其向量也是相似的。但这种词向量不能很好地解决一词多义问题，因为以 word2vec 为代表的第一代预训练语言模型中，一个 word 的词向量是固定不变的。
EMLo 考虑了上下文的词向量表示方法，以 BiLSTM 作为特征提取器，同时考虑了上下文的信息，从而较好的解决了多义词的表示问题。ELMo 开启了第二代预训练语言模型的时代，即“预训练 + 微调”的范式。EMLo 之后的 Transformer 作为更强大的特征提取器，被应用到后续的各种模型中，不断刷新 NLP 的 SOTA 表现。