- 深度序列模型与自然语言处理:基于TensorFlow 2实践
- 阮翀
- 337字
- 2024-12-27 22:34:50
2.3.3 词向量在下游任务中的使用
在很多自然语言处理模型中,词向量矩阵都包含了相当可观的参数量,甚至是占据了模型的绝大部分参数。因此,将大规模语料上学习好的词向量应用在下游任务里,可以极大地减轻模型学习负担,提升模型性能。在下游任务中使用预训练词向量时,可以直接把这部分参数固定住,当作模型的输入,不再参与训练;也可以用预训练好的词向量来初始化下游模型的词向量矩阵(16),然后在梯度下降的过程中不断更新,以减少预训练语料和下游语料的分布差异,进一步提升模型效果。
但如果下游任务语料规模足够大,也可以不使用预训练的词向量,直接对词向量矩阵随机初始化,然后端对端(End-to-End)地学习所有模型参数。这时,词向量就成了相应模型的副产品。特别是在训练语言模型(Language Model)时,语言模型和词向量两者往往同时得到。