- 深度序列模型与自然语言处理:基于TensorFlow 2实践
- 阮翀
- 1357字
- 2024-12-27 22:34:46
1.1.2 自然语言处理的发展史
经验主义和理性主义是西方哲学的两个主流分支:前者靠归纳法(Induction)来认识世界,后者靠演绎法(Deduction)来认识世界。在自然语言处理中,研究方法同样可以分为这两大类。经验主义方法是基于统计的方法(Statistic-Based Approach),通过挖掘语料中的统计量和相关性来得到语言的规律;理性主义方法则是基于规则的方法(Rule-Based Approach),它把人类语言看作一个物理符号系统,通过对符号表达式的操作来研究语言。这两类方法各有千秋,在历史上也曾各自反复占据学界主流地位。
通常认为,自然语言处理的萌芽期是20世纪40至50年代。这时的自然语言处理以经验主义方法为主:信息论奠基人克劳德·艾尔伍德·香农(Claude Elwood Shannon)从通信的角度来理解语言,并借助热力学熵的概念引入了信息熵(Information Entropy)[2]。
从20世纪50年代末到70年代,理性主义方法又逐渐占据上风。在此期间,诺姆·乔姆斯基(Noam Chomsky)开始了形式语言理论(Formal Language Theory)和转换生成语法的研究[3],着力将英语语法形式化,这对程序语言设计和编译器开发产生了深远的影响。
经过一段时间的沉寂,经验主义方法重回历史舞台。1988年,美国工程院院士、IBM语音识别和自然语言处理专家弗里德里希·贾里尼克(Frederick Jelinek)甚至半开玩笑地说过,“Every time I fire a linguist, the performance of the speech recognizer goes up.”(每当我开除一个语言学家的时候,语音识别系统的准确率就会上升)这句话固然有调侃的成分在,但也有力地说明了理性主义方法的式微。除语音识别(Automatic Speech Recognition)外,机器翻译在这一时期也取得了长足的进步。20世纪90年代,统计机器翻译(Statistical Machine Translation)在IBM Watson研究中心实现,这些算法至今仍然运行在各大翻译网站的服务器上,服务着全球上亿人。
这一波经验主义浪潮一直持续到现在。2011年K. Church的文章《钟摆摆得太远》[4]是对自然语言处理发展史的回顾和反思的杰作,此文将经验主义和理性主义的此消彼长比作来回震荡的钟摆。文章发表的时候正处于经验主义成果爆发的时代,作者认为自然语言处理的低垂的经验主义的果实即将被摘完,之后钟摆将摆向理性主义一方。然而,十年时光一闪而过,直至今天经验主义流派依然处于黄金时代。2003年,Yoshua Bengio等人提出神经网络概率语言模型[5],但受限于算力当时未能激起太多浪花;2013年,得益于Word2vec[6][7]的高效实现,十亿词的语料库在单机上一天也能训练完毕,词向量开始在各个领域广泛应用。再后来,显卡强大的算力和深度学习互相结合,继续引领着经验主义方法取得辉煌成就。2014年的序列到序列(Sequence-to-Sequence)[8][9]学习开启了机器翻译的新范式;2015年的注意力机制(Attention Mechanism)[10]逐渐成为处理长程依赖的标配;2018年的BERT[11]更是把自然语言处理技术推到了新的历史高度,开启了大规模预训练模型的新时代。借用强化学习大师Richard Sutton在评论文章The Bitter Lesson(中译名《苦涩的教训》)中的话来说:“the only thing that matters in the long rus is the leveraging of computation(从长期来看,真正重要的事情是有效利用算力)”这确确实实是几十年大浪淘沙留下来的肺腑之言。
现在可能是对新手最友好的时代:在以前,学习自然语言处理需要大量的前置知识,了解如何进行预处理和后处理;而今天,各种开源代码在网上信手拈来,很多流程烦琐的算法都被简洁有力的神经网络统一代替,预训练模型的普及使得很多下游任务所需的数据量大大降低。当然,机遇中同样也潜藏着危险:很多模型和算法变得越来越重,尤其是超大规模的预训练模型(Pretrained Model)将需要天量的计算资源;个人研究者和中小机构注定与之无缘,需要在新的时代找到自己的定位。