第一章 绪论

本章从研究背景和意义入手,充分阐释了情感分析的研究现状和背景技术,以帮助读者从宏观角度理解自然语言处理的分析方法。

第一节 研究背景和研究意义

一 自然语言处理

自然语言处理(Natural Language Processing,NLP[1])也有人称为自然语言理解(Natural Language Understanding,NLU[2]),可见对所提供语言信息进行“理解”的重要性。自然语言处理是一项非常庞大的工程,是自然科学和社会科学相交叉的学科,其所涉及的领域包括:计算机科学、语言学、逻辑学以至心理学等。自然语言处理的目的是实现计算机对语言信息的自动分析和理解,它以实验、理论和计算为三大支柱,通过对人脑及语言认知的实现途径进行模拟研究,建立起多层次网络处理模型来阐明人脑语言信息处理系统,以期待取得突破性的进展。它的研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科学,而且对认知语言学、心理学以及对国民经济和社会的发展都会起到推动作用。

自然语言处理研究方向分为:自动阅卷(Automatic marking)、自动问答系统(Question Answering)、自动文摘(Automatic Abstract)、自动翻译(Machine Translation)、情感分析(Sentiment Analysis)。

随着计算机技术的高速发展和计算机的日益普及,为了提高阅卷效率而提出了自动阅卷的需求。自动阅卷系统的优势既体现在人力上也体现在物力上,自动阅卷系统能够自动评阅、计分、成绩存档等。可以有效地避免资源浪费,有利于环保,还大大减少人力物力,提高了工作效率。相比传统的人工阅卷,自动阅卷可以动态地管理试卷,可以当场给出成绩,较好地保证了考试的公平。如果一个学校或公司使用了该系统,老师或领导即使在外地出差也可以审批试卷,非常方便。但是现在的自动阅卷系统还不够完善,特别是对主观题的评阅还不够成熟。我们可以用自然语言处理技术对主观题的答案进行判断,与标准答案进行分析比较以提高自动阅卷的准确率。

自动问答系统是目前人工智能和自然语言处理领域中一个备受关注并具有广泛发展前景的研究对象。人们希望能够快速、准确地获取信息以满足需要。但由于用户提问的形式复杂多变,让机器理解用户问话的意思就显得非常困难。通过自然语言处理技术可以推断用户的真正询问意图,这样就提高了问答系统的准确率。如问题“中国的领土有多大?”,我们可以推断出用户是想询问中国领土的面积,这样经过筛选后的回答就不全是跟关键词“中国”“领土”相关的信息,如“中国领土争端”相关的信息,甚至是只跟“中国”或“领土”相关的信息,而这些信息不是用户想要的。因此,自动问答系统与基于关键词检索并返回有关网页、文档集的传统搜索引擎有一个重要的区别,即自动问答系统能够为用户提供真正有用的和准确的信息,这将是新一代的信息获取的理想手段。

自动文摘技术大体分为机械文摘与理解文摘两种。近40年以来,自然语言理解技术逐渐朝着真实语料并且实用化的发展方向前进,鉴于机械文摘非常适合在非受限领域内使用,因此得到了蓬勃的发展。但是目前这种技术受限于仅仅分析文本表层结构,因此在技术发展上常常遇到瓶颈,文摘的提取质量无法继续令研究者满意。而理解文摘应用于受限领域,虽然领域宽度很窄,但是理解深度较高,这种方法作为理论探索有着较高的价值,但在现实生活中的实用性较低,因此,理解文摘的发展前景较为黯淡,无法应用于未来互联网上纷杂的海量数据分析。一种基于篇章结构的自动文摘算法不但可以应用于非受限领域,而且由于篇章结构远远优于语言表层结构[3],并且这种结构能更加确切地反映文章的核心内容,因此,基于篇章结构的算法能够适应未来纷杂的海量数据分析和非受限领域,排除了机械文摘的缺点,提高了文摘的质量。如果能让机器基于篇章结构的算法在推断出短文的意思之后把短文的主旨提取,那么可想而知,自动文摘的提取质量将会得到根本性的提高。

二 文本情感分析

所谓文本情感分析(Sentiment Analysis),就是对说话人的观点、态度和情感倾向性进行分析,即分析文本中表达的主观性信息。根据立场、出发点、个人态度和喜好的不同,人们对各种对象和事件表达的信念、态度、意见和情感的倾向性不可避免地存在各种差异。在论坛、博客(blog)等反映人们观点的网络媒体上,尤其表现出了这种差异。

文本情感分析在实际生活中有着广泛的应用:

推荐系统:对产品用户的在线反馈进行自动分类和整理,分析和挑选出值得推荐的产品和服务,推荐给其他用户。

过滤系统:自动过滤一些对政府和商业机构不利的文字信息,并且鉴别出撰稿者的情感倾向、政治倾向及态度、观点和看法。如根据对文本中反映出的作者情感进行分类,对攻击政府及个人的E-mail可以实现自动加入黑名单的功能。

问答系统:对询问者问题中透露的情感色彩进行分析和文本分类,尽量用适合的语气回复,防止答案情感色彩出现错误而适得其反。

此外,文本情感分析还可应用于有害信息过滤、社会舆情分析、产品在线跟踪和质量评价、电影书籍评论、博客声誉、新闻报道评论、事件分析、股票评论、推荐书籍、敌对信息检测、企业情报分析等方面。

文本情感分析属于计算语言学的研究领域。研究者们以前普遍关注的是客观性信息的分析和提取,对主观信息的分析和提取研究仍处于起步阶段,还有很多问题需要进行全面的探索。这项研究涉及计算语言学、人工智能、数据挖掘、机器学习等多方面的内容。因此,文本情感分析具有重要的研究价值。

本书研究的情感分析方向是指定的语句、段落、文本等文字信息,判断文字信息所反映出来的情感倾向。在自然语言处理领域的研究中,此类问题也可以被描述为opinion classification(意见分类)、genre classification(流派分类)、sentiment polarity(情感极性)、sentiment classification(情感分类)、semantic orientation(语义倾向)、opinion mining(观点挖掘)、opinion extractive(观点抽取)、sentiment analysis(情感分析)等,本书为了保持术语的表述一致,将此类研究问题统一描述为情感分析。

文本情感分析通常包含四个子问题:一是确定文本情感的类别有多少;二是文本的主客观的区分,即区分出文本内容是主观的评论还是客观的陈述;三是文本情感的极性分类(polarity classification),又称为正负面倾向性分类,即判别文本内容是肯定赞赏的,还是否定批判的;四是文本情感强度分类,即判定文本情感倾向性的强弱程度,如强烈贬义、一般贬义、客观、一般褒扬、强烈褒扬五个类别,这一问题通常又被称为等级推理(rating inference)。本书主要关注其中第三方面,即文本情感的极性分类。

第二节 文本情感分析整体研究现状

近年来,文本情感分析成为一个非常新颖的研究方向。一开始并没有一个文本情感分析的评测规范对该领域的研究任务进行清晰的定义,同时也没有一个普遍接受的文本情感倾向性分析的标准语料库来支撑关键技术的研究、评测和应用系统的开发。

目前公认的关于文本情感分析的研究工作开始于Pang在2002年提出的基于文本的N元语法(n-gram)和词类(POS)等特征分别使用朴素贝叶斯(naive bayes)、最大熵(maximum entropy)和支持向量机[4](Support Vector Machine,SVM)将电影评论文本的倾向性分为正向和负向两类。此外还有Turney在2002年提出的基于无监督学习[5](Unsupervised Learning)对文本情感倾向性分类的研究。同时,他们在实验中使用的电影评论数据集目前已成为广泛使用的情感分析的测试集。

如今,国内外都已经掀起了文本情感的研究热潮,很多研究团体、科研院校、公司已经对文本情感展开了研究。根据本文涉及的研究内容,我们把这些相关的研究分为四个阶段:1.语料阶段;2.文本的预处理阶段;3.特征标注与特征选择阶段;4.情感分类阶段。

一 语料阶段

目前绝大部分语料都来自博客、专业的评论站点、新闻站点、电子商务站点。而其中影评资料、产品的用户评论、Web 2.0博客文章是研究者的首选。

(一)评测语料

电影评论数据集[6]以及Theresa Wilson等建立的MPQA库[7]是目前研究者广泛使用的两类情感分析数据集。

(二)跨领域语料研究

目前,跨领域语料研究还不是很多,这是近两年来情感分析方面的新兴研究领域。主要是因为目前的研究还没能解决如何找到两个领域之间的情感特征映射,或者如何找到两个领域之间特征集合的对应关系。

对于跨领域情感分析的研究开始于2007年Blitzer将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。Tan于2009年将SCL引入了中文跨领域情感分析中。之后,Tan又提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到跨领域的情感分析中。Wu于2009年将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的k-NN算法。

从以上研究方法可以看出,跨领域情感分析的主要难点在于从两个不同的领域中寻找一种特征集合的映射关系,但这样的映射要么需要非常强的数学证明,要么难以找到。因此,许多研究方法都尝试使用连续迭代的方法来逐步减小训练集合和测试集合的差异。

二 文本的预处理阶段

文本情感分析的预处理包括:停用词、词缀修剪、N元词、词性标准、简化替换(如书替换为NOUN、照相机替换产品名)等,但是这些有意“美化”的处理都降低了情感分析的准确率。

此外,主观句识别也属于文本情感分析的预处理阶段。该研究的目标是需要提取文本的真正表达情感的句子。Pang于2004年提出基于文本中的主观句的选择和Wilson等人于2005年开创了在短语层进行主观性分析的研究工作,提出基于文本中中性实例(neutral instances)的分析,他们根据28个混合特征训练了一个分类器[8],都是为了能够尽量获得文本中真正表达情感的句子。Abbasi于2008年提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。

鉴于该阶段不是本书研究的重点,这里只做简单的介绍。

三 特征标注与特征选择阶段

(一)情感特征的标注方法

目前主要包括:

(1)由已有的电子词典或词语知识库扩展生成的情感倾向词典

情感词就是指:具有情感倾向的词语以名词、动词、形容词和副词为主,包括人名、机构名、产品名、事件名等命名实体。其中,部分词语的褒贬性(或称为极性,通常分为褒义、贬义和中性三种)可以通过查字典的方式获得,其余词语的极性都无法直接获得。此外,词语的情感倾向还包括倾向性的强烈程度。

使用情感词作为特征的研究有:

Xia等人对于汉语网络非正规语言(Network Informal Language,NIL)(例如,NIL中的“偶”等同于“我”,“稀饭”代表“喜欢”)进行了研究。利用BBS文本建立了NIL语料库,采用了语音映射模型(Phonetic Mapping Model)去完成NIL词汇到标准词汇的映射,即通过拼音实现语音转换。实验表明,这种方法对于动态NIL的标准化是有效而稳定的。

朱嫣岚等人提出了基于HowNet[9]的两种词汇语义倾向计算方法,即基于语义相似度的方法和基于语义相关场的方法。实验表明,在同一测试集上,基于HowNet语义相似度的方法精确率高。

娄德成和姚天昉,也是通过计算文本中词汇与HowNet中已标注褒贬性词汇间的相似度,来获取词汇的语义倾向性。

(2)无监督机器学习的方法

Turney在2002年基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取关键词和情感基准词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。实现方法虽然简单,但其利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承。

Yuan等人在Turney的研究工作的基础上,自行研究了汉语极性词的自动获取,通过研究发现,如果只是采用汉语极性词作为极性基准词素(词)(比较对象),效果不如用一个字符的汉语极性词素(Morp heme)好。另外,相比于Turney的研究结果,汉语语料库的规模在很大程度上要小于Turney所需要的语料库规模。

(二)情感特征的选择方法

目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法[10]等句法特征是使用最多的一类特征,Wilson等人于2009年提出混合单词特征、否定词特征、情感修饰特征、情感转移特征等各类句法特征的情感分析,Abbasi等人于2008年提出混合句子的句法(N元语法、词类、标点)和结构特征(单词的长度、词类中单词的个数、文本的结构特征等)的情感分析。Melville等人于2009年提出判断文本情感倾向性的方法为结合情感词的先验性、基于词典的情感语义词以及后验的基于上下文的情感语义词(于训练文本中)等进行共同判断即可。基于文本本身的特征和结合文本的题材(描述、评论、背景、解释等)来统一评判是Taboada等人于2009年提出的。而利用多分类器的技术进行融合来对文本分类由Tsutsumi等在2007年提出。Wan于2008年和2009年提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。

另外,传统的文本特征选择方法:有监督特征选择方法CHI、IG、MI和无监督特征选择方法DF、TS、TC、En。这些方法应用到这些情感特征选择上的效果如何还有待实验验证。

四 情感分类阶段

(一)情感建模的方法

基于监督学习算法的情感分析仍然是主流,除了Zhang等人于2009年提出基于非负矩阵三分解(Non-negative Matrix Tri-factorization),Abbasi等人于2008年提出基于遗传算法[11](Genetic Algorithm)的情感分析之外,使用最多的监督学习算法是朴素贝叶斯、K最近邻[12](K-Nearest Neighbor,K-NN)、最大熵和支持向量机等。

此外还有基于规则和无监督的建模方法。娄德成等人于2006年利用句法结构和依存关系对中文句子语义进行了情感分析,Hiroshi等人于2004年提出通过改造一个基于规则的机器翻译器,来实现对日文短语级的情感分析,Zagibalov等人于2008年在SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。

(二)情感分析的其他研究点

除以上介绍的情感分析关注情感的分类以外,还有评论对象的识别,情感倾向性论述的持有者识别,抽取句子中评价词语和目标对象之间的关联关系,评价倾向极性的强度等研究方向,等等,本书关注针对某一领域语料中一个主题的情感分析,不过多阐述这些研究点。

(三)目前已有系统

目前很多系统已经问世,例如,日本富士通公司开发了从中、日、英三国语言的博客和论坛中提取对企业及其产品的评价信息的技术,根据从万维网上抓取的大量用户的评论得到产品的整体信誉度。

上海交通大学开发了一个用于“汉语汽车论坛”的意见挖掘[13]系统。目的是在电子公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见,并判断这些意见的褒贬性和强度。然后,通过对文本处理的综合统计,给出可视化的结果。该系统仍需要在特征获取、权重计算等方面进行完善。

综合以上研究现状,对比国内外的研究进展,我们看到,国内的中文文本情感分析可以说刚刚起步,与国外的主要差距表现在:

(1)在基础资源建设方面,还没有建立起一个公开、公用、权威、标准的词典资源和具有一定规模的标准语料资源。

(2)在研究方案方面,从词语、短语、搭配、句子到文本,主要跟踪借鉴国外研究思路与技术路线进行尝试。

五 中文文本情感分析亟待解决的问题

相比传统的文本分类,情感分类有先天的困难和挑战,主要表现在:

(1)自然文本中表达方式的多样化:比喻、附和、讽刺、正话反说等。

(2)句式的复杂性:比较型的句子、各种不同的习惯用语、句式的不同搭配等。

(3)训练数据的稀疏性和不均衡性。

这些方面造成了以下两个问题:

(1)目前较为狭窄的应用领域。

(2)不能同时获得较高的准确率和召回率。

因此,本书认为在目前的文本情感分析研究中,亟待解决的关键技术主要有:

(1)有效的情感特征选择算法。文本情感分类不同于传统的文本主题分类,需要建立完善的情感特征词典,并找到有效的情感特征选择算法。

(2)提高情感分类的正确率。针对领域情感的特殊性,通过扩展情感特征来找到一种提高领域情感分类正确率的方法。

(3)提出新的情感建模算法。主要考虑基于统计学和规则的方法用于文本情感分类,构建新的文本情感分类模型,并考虑传统的文本分类模型如何应用到文本情感分类的问题。

第三节 研究内容与结构

一 研究内容

一个基本和典型的情感分析问题的解决流程包括:1.语料阶段;2.文本的预处理阶段;3.特征标注与特征选择阶段;4.情感分类阶段。

本书中研究的中文文本情感分析问题,主要集中在第3阶段特征标注和特征选择,以及第4阶段:根据内容的情感倾向性,将文本分为褒义语气(正面倾向、肯定赞扬)、贬义语气(负面倾向、否定批判)和模糊语气(客观语气、无明显的情感倾向)。

本书的研究内容包括:

(1)首先从背景和研究意义入手,全面介绍情感分析方法的研究现状与背景,介绍研究的内容以及本书的结构关系。

(2)提出基于情感语义块特征的情感特征选择方法。我们设计情感特征采集系统获得情感语义块特征集合,并通过与传统特征选择方法对比分析,提出一种基于遗传算法进行选择最优特征集合的方法。将一种情感特征看作一对可进行二进制编码[14]的染色体,利用改进的K-均值算法进行情感特征聚类。通过选择、交叉和变异的遗传操作,能够更加有效地发现最优情感特征集合。

(3)主要介绍利用网络技术对文本数据进行挖掘与提取,通过介绍万维网,具体阐述网络挖掘的步骤与内容。

(4)介绍自然语言处理的基本问题,即通过中文分词的解释与分析对信息进行操作,对此国内与国外有着不同的方法,最后也对分析的前沿性与创新性做出了概述。

(5)关于机器学习算法的介绍。其中关于文本特征的选择有着多种方法:过滤器、包装器、文本学习等,另外,重点阐述了基于概率网络的文本分类器的相关算法与应用。

(6)提出一种基于局部高频字串的条件随机场模型。我们提出一种基于局部高频字串(Local high-frequency strings)的条件随机场模型(Conditional Random Field,CRF)用于文本情感类别标注,该模型特别适合于处理序列标记问题,有超过85%的分类正确率。实验表明:局部高频字串有助于扩充情感特征集合,可以提高CRF模型的分类正确率,能够用于定位评论文本的描述对象。

(7)提出一种基于集成情感成员模型的文本情感分析方法。通过模拟人类自身的思维过程,构建个体模型(成员模型1、成员模型2),用数以千计的个体模型来表示模拟整个人类群体的情感倾向,采用改进的RLS-BP神经网络算法训练文本。此外,设计基于CRF的成员模型3,通过集成获得更高的分类正确率。在国际英文影评语料上进行实验,该算法准确率达到88.1%;在中文语料上的实验同时也表明,在跨领域情感分析上,该集成情感成员模型的分类正确率均超过各成员模型。

此外,通过个体模型的进化,针对同一篇文本情感分类的精度会有所提升。鉴于人工判断的主观因素必然会带来的误差,个体模型判断的稳定性与人工判断的稳定性保持基本相符。

二 研究结构

基于以上的研究内容,本书后续结构共由以下八章内容组成。

第2章介绍了文本情感特征的研究现状,提出了情感语义块的定义,并设计了情感特征的采集系统。

第3章从万维网入手,介绍数据获取的方法——网络挖掘,并具体介绍网络挖掘的方法与步骤等。

第4章从中文分词出发,解决自然语言处理的基本方法,结合国内外的不同操作方法,展现中文分词的前沿性与创新性。

第5章在利用机器学习的算法上介绍了算法准备的步骤,并且着重介绍了基于概率网络的文本分类器的相关算法。

第6章对传统的文本特征选择比较分析,提出了基于遗传算法的文本情感语义块特征选择的方法。

第7章阐述了基于局部高频字串的条件随机场的语句情感分析方法,提出加入局部高频字串来扩充情感特征集的方法和采用条件随机场对文本进行类别标注的过程,描述了该模型处理序列标记问题的优势和细节。

第8章提出一种基于集成情感成员模型的文本情感分析方法,对个体模型(成员模型1)的生成进行了重点介绍,并描述了经过集成学习融合不同特征集、不同机器学习模型的优势和细节。

第9章对全书进行总结,并对未来的研究工作进行了展望,给出可能的研究方向。

本章小结

本章主要介绍选题的背景和研究意义,探讨研究的内容,同时承上启下,展示了后续文章结构。

文本情感分析是自然语言处理领域中一个重要的研究课题,尤其在当今互联网技术蓬勃发展、各种主观评论信息(论坛、博客、微博、微信)层出不穷的时代,利用计算机文本情感分析技术来处理文本,分析评论者的观点、态度和情感倾向性,显得尤为重要,其中的关键算法技术,将是本书的阐述重点。


[1]NLP:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

[2]NLU:自然语言理解的关键是要让计算机“理解”自然语言,所以自然语言处理也叫作自然语言理解(Natural Language Understanding,NLU),也称为计算语言学(Computational Linguistics)。一方面这是语言信息处理的一个分支,另一方面它是人工智能(Artificial Intelligence,AI)的核心课题之一。

[3]所谓语言的深层结构,也就是一般所谓语言的思维形态结构。语言是附着在思维上的结构体,语言是受思维支配的,它是处在交际中的思维的载体。人作为社会的成员必然具有这个社会的思维特征、思维方式和思维风格,我们统称为思维的形态。思维形态是一种历史的产物,又是一种共时的产物,它无时无刻不在支配语言表现并模式化为语言的深层机制,这种人类所共有的、内在的、心理的东西称为语言的“深层结构”。对比语言学这种分析语言的原理首先是布龙菲尔德创立的结构主义学说,是在结构主义语言理论以及外国语教育的双重刺激下崛起的,它运用同一种原理对两种或两种以上的语言进行描述分析。我们强调对比语言的深度发展,并不是说语言的表层结构无关紧要。恰恰相反,语言表层结构的对比研究是必不可少的,因为语言的形式结构,正是其异质性的表现现象。语言的形式结构表现为其基本形式手段和句法形式手段两方面内容。基本形式手段包含语言系统、文字系统、词语系统;句法形式手段包含句法成分系统、句型结构系统、语序分布系统。而对比语言学又是一门经验学科,因此,在进行对比研究之前,我们不可能先去主观地规定出某些语言的条条框框来,而总是先去描述其中的一门语言,然后再把它跟其他语言进行比较分析,从而找出其固有的规律。

[4]支持向量机SVM作为一种可训练的机器学习方法基本情况,Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况,甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机。

[5]无监督学习:设计分类器时,用于处理未被分类标记的样本集。目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。无监督学习一般有两种思路。第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定。这种思路很好地概括了现实世界,Agent可以对那些正确的行为做出激励,并对其他的行为进行处罚。

[6]康奈尔大学电影评论数据集下载地址是:http://www.cs.cornell.edu/people/pabo/movie-review-data/。

[7]TheresaWilson等建立的MPQA库下载地址是:http://www.cs.pitt.edu/mpqa/。

[8]分类器(Classifier)是一种计算机程序。它的设计目标是在通过自动学习后,可自动将数据分到已知类别。应用在搜索引擎以及各种检索程序中。同时也大量应于数据分析与预测领域。分类器是一种机器学习程序,因此归为人工智能的范畴中。人工智能的多个领域,包括数据挖掘、专家系统、模式识别都用到此类程序。对于分类器,其实质为数学模型。针对模型的不同,目前有多种分支,包括:Bayes分类器、BP神经网络分类器、决策树算法、SVM(支持向量机)算法等。

[9]知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

[10]N元语法分布能恰当地描述语料库的特性,为了有效利用普通领域训练数据,提出一种基于N元语法分布的语言模型自适应方法。该方法定义一个小的领域内的高质量种子集和一个大的普通领域的质量不稳定的训练集,将训练集的N元语法分布自适应到和种子集的N元语法分布相似,以更好地进行特定领域单词识别。实验结果表明,基于N元语法分布的语言模型自适应方法可以使单词困惑度和词错误率分别比传统的简单插值法降低11.1%和6.9%。

[11]遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,它最初是由美国Michigan大学J.Holland教授于1975年首先提出来的,并出版了颇有影响的专著Adaptation in Natural and Artificial Systems,GA这个名称才逐渐为人所知,J.Holland教授所提出的GA通常为简单遗传算法(SGA)。

[12]K最近邻分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K-NN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。K-NN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于K-NN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,K-NN方法较其他方法更为适合。K-NN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成正比。该算法在分类时有个主要的不足,即当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的k个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。

[13]意见挖掘(opinion mining)是针对主观性文本自动获取有用的意见信息和知识,它是一个新颖而且十分重要的研究课题。这种技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。

[14]二进制是由1和0两个数字组成的。它可以表示两种状态,即开和关。这种状态可以由电位的高低来实现。计算机是由各种电子元器件组成的。其中有一种重要的元件就是半导体即我们熟悉的二极管、三极管等。半导体可以通过它的开关状态来传递和处理信息。如果用其他的进制必将使计算机的制造和信息的处理更为复杂。所以输入电脑的任何信息最终都要转化为二进制。目前通用的是ASCII码。最基本的单位为bit。二进制编码是用预先规定的方法将文字、数字或其他对象编成二进制的数码,或将信息、数据转换成规定的二进制电脉冲信号。