- GPT图解:大模型是怎样构建的
- 黄佳
- 695字
- 2024-12-11 17:23:06
基于Transformer架构的预训练模型
以BERT(Bidirectional Encoder Representations from Transformers)为代表的基于Transformer架构的预训练语言模型一登场就引起了大量的关注。有了预训练模型,很多一度不能解决的问题都得到了解决。
小冰:我们厂里的人和你都一直在说的这个Transformer究竟是什么?预训练又指什么?
咖哥:Transformer是几乎所有预训练模型的核心底层架构,也是本课程的核心内容,现在暂不讲述它的技术细节。自然语言处理中的预训练,则通常指在大量无标注文本数据上训练语言模型。预训练所得的大规模语言模型也被叫作“基础模型”(Foundation Model 或Base Model)。在预训练过程中,模型学习了词汇、语法、句子结构及上下文信息等丰富的语言知识。这种在大量数据中学到的知识为后续的下游任务(如情感分析、文本分类、命名实体识别、问答系统等)提供了一个通用的、丰富的语言表示基础,为解决许多复杂的NLP问题提供了可能。
在预训练模型发展过程的早期,BERT毫无疑问是最具代表性,也是影响力最大的预训练语言模型。BERT通过同时学习文本的上下文信息,实现对句子结构的深入理解。BERT之后,各种大型预训练模型如雨后春笋般地涌现(见下图),自然语言处理领域进入了一个新的时代。这些模型推动了NLP技术的快速发展,为解决许多以前难以应对的问题提供了强大的工具。
各种预训练语言模型
对图中各种预训练语言模型的简单解释如表0.1所示(按照模型出现的先后顺序排列)。
表0.1 各种预训练语言模型的说明
当然,现今预训练模型的发展趋势是参数越来越多,模型也越来越大(见下页图),训练一次的费用可达几百万美元。巨大的资金和资源投入,只有世界顶级“大厂”才负担得起,普通的学术组织和高等院校很难在这个领域继续引领科技突破,这种现象开始被普通研究人员所诟病。
参数越来越多,模型越来越大