第2章 自然语言和单词的分布式表示

Marty: “This is heavy(棘手).”

Dr. Brown: “In the future, things are so heavy(重)?”

—电影《回到未来》


接下来,我们将踏入自然语言处理的世界。自然语言处理涉及多个子领域,但是它们的根本任务都是让计算机理解我们的语言。何谓让计算机理解我们的语言?存在哪些方法?本章我们将以这些问题为中心展开讨论。为此,我们将先详细考察古典方法,即深度学习出现以前的方法。从下一章开始,再介绍基于深度学习(确切地说,是神经网络)的方法。

本章我们还会练习使用Python处理文本,实现分词(将文本分割成单词)和单词ID化(将单词转换为单词ID)等任务。本章实现的函数在后面的章节中也会用到。因此,本章也可以说是后续文本处理的准备工作。那么,让我们一起进入自然语言处理的世界吧!