基于Transformer架构的预训练模型_GPT图解：大模型是怎样构建的-QQ阅读男生武侠网

书名：GPT图解：大模型是怎样构建的
作者名：黄佳
本章字数：695字
更新时间：2024-12-11 17:23:06

基于Transformer架构的预训练模型

以BERT（Bidirectional Encoder Representations from Transformers）为代表的基于Transformer架构的预训练语言模型一登场就引起了大量的关注。有了预训练模型，很多一度不能解决的问题都得到了解决。

小冰：我们厂里的人和你都一直在说的这个Transformer究竟是什么？预训练又指什么？

咖哥：Transformer是几乎所有预训练模型的核心底层架构，也是本课程的核心内容，现在暂不讲述它的技术细节。自然语言处理中的预训练，则通常指在大量无标注文本数据上训练语言模型。预训练所得的大规模语言模型也被叫作“基础模型”（Foundation Model 或Base Model）。在预训练过程中，模型学习了词汇、语法、句子结构及上下文信息等丰富的语言知识。这种在大量数据中学到的知识为后续的下游任务（如情感分析、文本分类、命名实体识别、问答系统等）提供了一个通用的、丰富的语言表示基础，为解决许多复杂的NLP问题提供了可能。

在预训练模型发展过程的早期，BERT毫无疑问是最具代表性，也是影响力最大的预训练语言模型。BERT通过同时学习文本的上下文信息，实现对句子结构的深入理解。BERT之后，各种大型预训练模型如雨后春笋般地涌现（见下图），自然语言处理领域进入了一个新的时代。这些模型推动了NLP技术的快速发展，为解决许多以前难以应对的问题提供了强大的工具。

各种预训练语言模型

对图中各种预训练语言模型的简单解释如表0.1所示（按照模型出现的先后顺序排列）。

表0.1　各种预训练语言模型的说明

当然，现今预训练模型的发展趋势是参数越来越多，模型也越来越大（见下页图），训练一次的费用可达几百万美元。巨大的资金和资源投入，只有世界顶级“大厂”才负担得起，普通的学术组织和高等院校很难在这个领域继续引领科技突破，这种现象开始被普通研究人员所诟病。

参数越来越多，模型越来越大