1.2 ChatGPT对大模型的坚定实践

1.2.1 生成式人工智能

生成式人工智能目前有两个大类得到全球关注:一类是语言类生成模型,另一类是图像类生成模型。

语言类生成模型以ChatGPT为代表,需要由一个大语言模型(Large Language Model,LLM)来理解用户的语言,并且需要有较高质量的输出。这也意味着语言类生成式人工智能中的大语言模型需要非常多的参数,才能完成学习的目标并记住海量信息。

图像类生成模型以扩散模型(Difusion)为主,典型的此类模型包括来自OpenAI的DALL·E、来自Stability.AI的StableDifusion。这类模型主要是使用语言模型来理解用户的指令,之后生成高质量图像。和语言类生成模型不同,图像类生成模型不需要生成语言输出,因此参数量远远低于语言类生成模型。

1.2.2 大模型引发新范式创新

ChatGPT从2022年11月诞生至今,一直受到持续关注。一方面是生成式人工智能技术积累和效益已经到达了临界点,另一方面也得益于数字经济时代海量数据需求的推动。从ChatGPT这里,我们已经可以看到新的人工智能技术展现出模块化的趋势,过去需要单独开发的部分变成了开放、可复用、可调用的组建式模块。这是之前谷歌的AlphaGo等技术所达不到的,其泛化能力仅仅局限在围棋游戏上,ChatGPT利用大模型的有力支撑,可以为不同场景和垂直应用赋能。

从GPT-3到GPT3.5,再到GPT-4,我们可以看到OpenAI将大模型当作了通用人工智能发展的必由之路。相当于通过从海量数据中学习各种知识,打造一个与具体任务无关的超大语言模型,从而再根据不同的应用场景和需求来生成不同的模型应用,解决各种各样的实际问题。如果把ChatGPT比喻成一棵树,那么以大模型为代表的基础模型相当于树根,而树之所以能够成活,离不开土壤的滋润,人类上千年积累的知识就是这棵树成长的土壤,ChatGPT及其底层模型架构见图1-5。

图1-5 ChatGPT及其底层模型架构

综合各方专家的观点,具体来看,ChatGPT让我们看到了大模型的三个特征。

1.模型能力的涌现

当模型规模较小的时候,模型的性能提升和参数增长之间是线性关系。但是,GPT-3.5以及GPT-3这种千亿规模参数的模型出现之后,模型的能力出现了质的飞跃,完成任务的性能有了明显的提升,表现出一些开发者最开始不曾预测的、更复杂的能力和特性,这些新能力和特性被认为是涌现能力的体现。需要指出的是,模型能力的涌现并非全部都是好消息。事实上,涌现在一定程度上可以理解为一种失控。模型会产生错误的回答,对某些问题缺乏理解,容易受到干扰等。如果涌现在创意、灵感等领域拓展,那么结果会是有益的。

涌现能力是基于深度学习模型的分层结构和权重学习机制实现的。每一层神经元的输出都作为下一层神经元的输入,并且模型的每个权重都通过强化学习算法进行学习和更新。这种分层结构和权重学习机制使得深度学习模型能够自动学习到从原始数据中提取隐含的特征和模式,从而实现能力涌现[4]

2022年一篇名为《大型语言模型的涌现能力》(Emergent Abilities of Large Language Models)的文章,对涌现给出了这样的定义:如果一种能力在较小的模型中不存在,但是在较大的模型中存在,那么这种能力就是涌现的。这种涌现通常并非通过目的明确的编程或者训练得到,而是模型在大量多模态数据中自然而然学习到的。这也解释了为何ChatGPT有着相当于真人一样的理解能力,大模型为整个对话机器人提供了较好的稳健性,即建立起真实用户调用和模型迭代之间的飞轮,实现对真实世界数据的调用和数据对模型的迭代,同时帮助更多创业公司找到商业模式和生存空间,从而建立起一个生态系统。

但需要指出的是,这种能力涌现并非线性发展或者可预测的,仅在工程上得到了证实,理论上仍难以得到有效的解释和论证。因此,大模型能力涌现的背后逻辑仍然存在许多不确定性,科学家们尚未完全理解其原因。这与阿兰·图灵(Alan Turing)在1950年的《计算机器与智能》(Computing Machinery and Intelligence)论文中提出的观点相似,即“机器的老师通常对机器内部的运行情况一无所知”。有人对这种不可预测性感到兴奋,而有些人则感到不安。但不管哪种情况,大量的努力确实能带来惊人的成果。背后的信念是,人类可以用硅基材料来模拟大脑结构,从而最终实现超越人类的智能。而涌现现象告诉我们,这一时刻正在逐渐接近。

2.模型使用方式的转变

预训练模型能够在训练的时候依靠下游任务进行微调,来使预训练模型更好地适应不同的任务。但是随着参数逐渐增多,针对大模型进行微调变得不再容易。同时,由于大模型具备较好的泛化能力,因此通过提示学习(Prompt Learning)与微调相结合的方式可以更好地激发大模型的能力并获得不俗的表现。

3.自然语言处理范式迁移

自然语言的处理范式由“预训练+微调”逐渐变为根据用户的任务需求修改自身描述,例如,加入指令使得任务本身更加靠近自然语言的形式,从而激发预训练模型的巨大潜力。

ChatGPT基本实现了大语言模型与用户之间的对接功能,让大众用户可以用更加习惯的方式进行表达并获得回复,这增加了大语言模型的易用性,提升了用户体验,意味着人工智能应用从过去以小模型训练为主的“手工作坊模式”向通用大模型预训练为主的“工业化时代”转变。未来竞争的焦点将聚焦在如何应用ChatGPT解决客户和行业真实的需求和痛点,让以ChatGPT为代表的AIGC工具成为类似电力、能源一样的经济社会生产原料。当然,在这个过程中,业界还需要在成本、场景等方面进行持续的探索。

1.2.3 冷静客观看待大模型的价值

在人工智能应用领域,自然语言在过去长期属于被冷落的方向。ChatGPT虽然表现很惊艳,但是对话中的错误随处可见,大模型应用的商业模式还不是很清晰。ChatGPT的更大意义在于,证明了通用大模型这种方式,可以打破人工智能的知识瓶颈。通过大模型,学习海量的语料库,智能机器可以获得丰富的语言知识,对语言中的复杂结构、语义和逻辑,进行识别和处理。之所以用户会觉得ChatGPT好像有自主思维,正是源于知识与数据融入大模型之后,在泛化、通用性、迁移性上的整体表现提升。对于大模型的发展,我们应该从大模型基础能力、应用工具平台、行业生态等三个方面,推动其向更广阔的领域应用和普及。

1.大模型基础能力

ChatGPT的成功,得益于底层GPT-3.5等大模型基础能力的建立,尤其是海量数据“投喂”、较强的模型工程开发和算法调优能力,还有OpenAI在自然语言领域的长期积累,以及来自微软的计算资源支撑等。因此,打造类似ChatGPT这样的大模型应用产品,不仅需要对神经网络和数据集建设有深入的理解,还需要有较强的工程落地能力和强大算力的支持。

2.应用工具平台

大模型真正落地,需要在产业化和应用方面进行重点布局。现实应用场景要比简单的用户聊天复杂得多,企业和开发者需要大模型应对更多甚至极端的场景,从而能够对产品级API接口、深度定制、成本等都有不同的需求和承担能力。因此,大模型的广泛应用,需要平台企业能够提供完善、成体系的全栈工作链,包括学习框架、基础模型库、端到端开发套件、API接口等,从而让更多行业人员或开发者以较低的门槛,把大模型应用到不同的行业和业务中。

3.行业生态

大型人工智能模型的成功并非仅仅依赖于ChatGPT等技术的出色表现,更重要的是要融入生态系统,紧密联系现实世界。在这一过程中,我们需要不断地将大模型与各行各业进行深度融合、探索与创新,实现产业链上下游的共同发展与创新[5]

1.2.4 持续迭代和高质量数据仍是大模型落地的关键

虽然ChatGPT有惊艳的表现,但是持续迭代和学习、高质量数据的有效输入仍是大模型成功普及的关键,具体原因体现在以下几个方面。

1.现实世界复杂多变

现实世界变化较快,当前我们对ChatGPT的认知还停留在表现出好奇的阶段。未来ChatGPT要想快速落地,仍需要对现实世界保持高效的适应性,这需要人工智能系统不断学习新的知识、数据等。这样才能及时应对新的问题和挑战。

2.高质量数据如同水和空气

对于大模型来讲,高质量的数据必不可少,是大模型能够落地的基础。但是数据分布会随着时间变化而发生变化,因此,为了保持大模型和相关人工智能应用的准确、可靠,大模型需要持续学习新的数据,从而能够得到不断更新。

3.保持能力泛化的基本要求

大模型具有较强的泛化能力,这是与之前的人工智能较大的不同之处。要想让大模型在面对未知问题或者挑战的时候仍能够做出正确的决策,就需要持续学习的能力来帮助人工智能系统不断提升泛化能力。

4.能力依旧有限

大模型的核心能力是利用深度学习算法训练一个包含大量参数的神经网络,通过预测文本中下一个词的出现概率,从而实现对文本的理解和生成。这样的模型可以取得惊人的性能,例如,像ChatGPT这样的模型已经能够达到人类水平的语言处理能力,但与人类相比,它们的学习能力仍然有限。这些模型需要大量的数据和计算资源来训练,而人类只需要很少的数据就能够学习并快速完成新的任务。因此,要使这些模型拥有类似于人类的学习速度和能力,还需要做出更多努力。

5.参数的数量不是衡量模型是否优秀的关键指标

尽管参数数量的多少是衡量大语言模型性能的重要指标之一,但它并不是唯一的标准。除了参数数量规模的大小之外,模型的精度、速度、可扩展性和资源消耗等因素也很重要。因此,未来的模型应该在不牺牲精度的前提下,尽可能地减少参数数量,以提高模型的效率和可用性。与此同时,采用多个小型模型协同工作的方法也是一种有效的解决方案。这种方法可以减少单个模型的复杂度和计算负担,提高整体性能,并且更容易扩展到更大的数据集或更复杂的任务。例如,在自然语言处理领域,可以使用一个模型专门处理情感分析,另一个模型专门处理命名实体识别,再用一个模型处理机器翻译等任务,这些模型可以相互协作,提高整体的自然语言处理能力。

与智能手机上的芯片类似,虽然用户不需要了解模型的内部工作原理和参数量,但他们更关心的是模型是否能够正确地完成任务,并且能够在合理的时间内完成。因此,未来的模型可以是小型、高效的,并且应该具有良好的可用性和易用性,以便用户能够轻松地使用它们,而不需要了解其内部细节。

正因为如此,拥有持续向模型“投喂”高质量数据的能力,将会成为今后每个人的核心竞争力。