任务一 信息检索技术概述

人类的检索行为总是随特定的信息需求的产生而开始,并在特定的环境和信息检索系统中完成的。

信息检索的环境主要是指产生需求的环境、信息检索系统运行的环境及其他制约因素。特定的信息检索系统包括完成检索过程所需的一定的设施、工具和技术。人类的信息检索需求千差万别,获取信息的方式也多种多样,但是信息检索的基本原理却是相同的,其本质就是对信息集合和需求集合的匹配和选择。

匹配和选择是一种机制,它把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息。要想进行有效的匹配和选择,必须对大量的信息进行收集和加工处理,使之从无序到有序,使信息获得特征性描述,让原来隐含的、不易被识别的特征显性化。另一方面,对用户提出的信息需求也要做类似的加工处理,即分析需求的内容,提取主题概念和其他属性,并利用与信息集合相同的标志系统来表示需求中包含的概念和属性。

信息检索过程中要储存大量的数据,要对这些数据进行各种组合,就要有大量的排序和对比操作。为了提高信息处理的速度、准确性和可靠性,人们将计算机应用到信息检索中。使用计算机进行检索没有改变检索的本质,但信息的表示方式、存储结构和匹配方法却变化了。用计算机可以识别的代码来表示信息,用便于计算机快速存取的方式存储信息,匹配的方法也由人工比较变为机械匹配,匹配标准由隐式变为显式。在这种机械匹配过程中,原先表达概念的语词符号变为没有内涵的字符串,检索过程就是字符串匹配和逻辑运算的过程。若两者一致或部分一致,并符合给定的逻辑运算条件即为命中,然后将命中的结果输出给用户。因此计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献的特征标志及其逻辑组配关系进行类比、匹配的过程。

手工检索采用的是人工匹配的方式,由检索人员对检索提问和表征文献信息特征的检索标志是否相符进行比较并做出选择。而计算机检索则是由计算机将输入的检索提问与检索系统中存储的检索标志及逻辑组配关系进行类比、匹配。信息检索技术主要是指计算机检索过程中采用的技术。传统的信息检索技术主要有布尔逻辑检索、位置检索、截词检索、限制检索和加权检索等,随着网络的发展,还出现了许多新兴的信息检索技术。

小资料

什么是布尔逻辑?

布尔逻辑得名于乔治·布尔(George Boole),他是考克大学(现爱尔兰国立考克大学)的英国数学家,他在19世纪中叶首次定义了逻辑的代数系统。现在,布尔逻辑在电子学、计算机硬件和软件中有很多应用。