2.2 N-Gram模型

2.2.1 N-Gram简介

词袋模型认为某一个词的出现依赖于其他的若干个词而完全不考虑词出现的顺序。实际上,词序在语言表达中十分重要,相同的词以不同的顺序组合将会产生不同的含义。例如,“我正在撰写对话机器人”和“对话机器人正在撰写我”。当出现“我正在撰写”时,后面出现“对话机器人”的可能性要大于后面出现“计算机”的可能性。这就是词序带来的信息。

N-Gram模型就是基于这种思想,认为一个词的出现依赖于其前面出现的若干个词。N-Gram模型是一种基于概率进行计算判别的语言模型,其输入是词序列,输出是词序列作为一个句子出现的概率,即词的联合概率。

对于一个词序列S=(w1,w2…,wn),假设序列中每一个词出现的概率都依赖于之前出现的所有词。那么,词的联合概率P(S)的计算公式为:

P(S)=P(w1w2…wn)=P(w1)P(w2|w1)…P(wn|wn-1…w2w1

这就是联合概率链规则,这种计算方式考虑每个词出现之前的所有词对当前词的影响。