admin 管理员组

文章数量: 887021


2024年2月24日发(作者:java位运算左移右移)

网络信息检索技术

网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、 限制检索等。

一、布尔逻辑检索

逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。布尔 逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索 方法,目前最常用的布尔逻辑运算符主要包括逻辑“与"(AND)、逻辑“或"(OR)、 逻辑“非”(NOT)。

(一)逻辑“与”

逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间 的限定关系。检索词A、B以AND

(或“*")相连,即A AND B

(或A*B), 表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词 进行限定,从而缩小检索范围,提高检索结果的查准率。

例如,要查找children education

(儿童教育)方面的文献,检索逻辑式可表示为

“children * education”或者“children AND education”

o 运算的结果是同时含有检索

词children和检索词education的文献才被检索出来。

(二)逻辑“或”

逻辑“或”,也称为逻辑加,用OR或者"+”表示,是用来组配同义或者同族检索 词之间的并列关系。检索词A、B若以OR或“+”相连,即A OR B(或A+B),表

示只要含有A、B之一或者同时包含A、B的文献都是命中记录。因而逻辑“或” 运算可用于扩大检索范围。

例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car或者

automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式

就可表示为“car OR automobile”或者“car + automobile”

o运算的结果是含有car或

者automobile任意一个或者同时两个的文献均被检索出来。

(三)逻辑“非”

逻辑“非”用NOT或者"-”来表示,是用来组配概念的包含关系,可以从原检 索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。检索词A、B

若以NOT

(或“-”)相连,即A NOT B

(或A-B),表示只含有检索词A而不含 有B的文献才是命中记录。逻辑“非”可用于缩小检索范围,但是不一定能提高文 献命中的准确率。在使用时要注意,避免将相关的有用文献排除在外。

例如,要查找有关“energy (能源)”,但又不涉及“nuclear (核能)”方面的 文献,检索逻辑式可表示为“energy NOT nuclear”“energy-nuclear”。运算的结果是 含有energy,但不含有nuclear的文献将被检索出来。

这三种逻辑式的文氏图如下:

图3-1布尔逻辑文氏图

上面三种检索逻辑式是最为简单的布尔逻辑运算。在检索实践中,可以根据实际 需要,组合使用多个布尔运算符,以准确表达检索主题。

布尔逻辑检索与人们的思维习惯一致,表达清晰,方便用户进行扩检和缩检,

而且易于计算机实现,因此,在计算机信息检索系统中得到广泛使用。但是它无 法反映检索词对于检索的重要性,无法反映概念之间内在的语义联系,因而检索 结果不能按照用户定义的重要性排序输出。

使用布尔逻辑运算符的注意事项:

布尔逻辑检索在联机检索、光盘检索和网络检索中都有广泛的应用,但是不 同的检索工具的布尔逻辑检索技术存在一定的差异,因此,使用布尔逻辑检索需 要注意以下问题:

1、布尔逻辑检索的执行顺序。三种布尔逻辑检索运算符之间的运算顺序为

NOT、AND、OR。有括号时,先执行括号内的逻辑运算。

2、不同检索工具的布尔逻辑检索有不同的表现形式和使用规则。首先,不 同检索工具表示布尔逻辑关系的符号不同,有的用“+”、"-”表示AND、NOT, 有的用ANDNOT代替NOT

(如Excite搜索引擎),有的要求运算符必须大写, 有的则要求为小写形式;其次,不同检索工具的检索词之间的默认布尔逻辑关系 不同,有的检索工具检索词之间的默认关系是AND,有的检索工具的检索词之 间的默认关系是OR;此外,不同检索工具支持布尔逻辑的方式不同,有的检索 工具使用符号来实现布尔逻辑关系,一些检索工具则完全省略了任何符号,直接 用文字和表格来体现不同的逻辑关系,如用All of These Words表示AND,ffi

Any of These

Words

表示。口,用

None of These Words

表示

NOT。

二、截词检索

截词检索是指在检索式中使用专门的符号(截词符号)表示检索词的某一部分允 许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法。 并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。在实际检索的 过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使 用

截词检索。

截词的方式有多种。按截断的位置来分,可分为后截断、中截断和前截断;按截

断的字符数量来分,可分为有限截断和无限截断。有限截断是指说明具体截去字

符的数量,通常用“?”表示;而无限截断是指不说明具体截去字符的数量,通常

用“x”表示。

(一)后截断

后截断是最常用的截词检索技术,是将截词符号放置在一个字符串右方,以 表示其右的有限或无限个字符将不影响该字符串的检索,是一种前方一致的检索。 这种方法可以省略输入各种词尾有变化的检索词的麻烦,有助于提高查全率。

例如,输入“inform x”,则前6个字符为inform的所有词均满足条件,因而 能检索出含有

informant、informal>

information>

informative>

informed>

informer

等词的文献。而输入“inform??”,可检索出含有

inform、informal>

informed>

informer

的文献。

(二)前截断

前截断是将截词符号放置在一个字符串左方,以表示其左方的有限或无限个

字符不影响该字符串检索,是一种后方一致的检索。这种检索方法在各种词头有 变化的复合词的检索中应用比较多,有助于提高查全率。

例如,输入% magnetic”,可以检索出含magnetic>

electro-magnetic等词的 文献。

(三)中截断

中截断是把截断符号放置在一个检索词的中间。一般地,中截断只允许有限 截断。中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。

例如,输入%?1”,可以检索出含有词cat、cut的文献;输入“modation” 可以检索出含有词

moderation、modernization、modification

的文献。

利用截词检索技术可以减少检索词的输入量,简化检索,扩大检索范围,提 高查全率。但是,不同的检索工具有不同的截词规则,使用的截词符号也没有统 一的标准,如Dialog系统用“?”,BRS系统用“ $”,ORBIT系统用“#”等。

三、位置检索

位置检索,也称临近检索,主要是通过位置运算符来规定和限制检索词之间 的相对位置或者检索词在记录中的特定位置来实施检索的技术。这里我们只介绍 位置检索中的词位置检索。

词位置检索主要是利用位置逻辑算符限定检索词之间的位置,来反映要检索

的信息概念。常用的词位置算符有(W)与(nW)、(N)与(nN)以及(X)与(nX)三类。

(一)(W)算符与(nW)算符

(W)算符是Word和With的缩写,它表示在此算符两侧的检索词必须按输入

时的前后顺序排列,而且所连接的词之间除可以有一个空格、一个标点符号或一 个连接号外,不得夹有任何其他单词或字母,且词序不能颠倒。(nW)算符的含 义是允许在连接的两个词之间最多夹入n个其他单元词。

例如,“VISUAL(W)FOXPRO”可以检出

VISUALFOXPRO

VISUAL

FOXPRO; “control(1W) system”可以检出含有

contro1 system、control of system

contro1 in system

的文献。

(二)(N)算符与(nN)算符

(N)算符是Near的缩写,它表示在此算符两侧的检索词必须紧密相连,所连

接的检索词之间不允许插入任何其他单词或字母,但词序可以颠倒。(nN)算符表

示在两个检索词之间最多可以插入n个单词,且这两个检索词的词序任意。

例如,“control(1N)system”不仅可以检出含有

control system、control of systcm

control in system

的文献,还可以检出含有

system of control、system without control等的文献。

(三用)算符与(nX)算符

(X)算符要求其两侧的检索词完全一致,并以指定的顺序相邻,且中间不允

许插入任何其他单词或字母。它常用来限定两个相同且必须相邻的词。(nX)算符

的含义是要求其两侧的检索词完全一致,并以指定的顺序相邻,两个检索词之间 最多可以插入n个单元词。

例如,“side (1X)side”可以检索到含有side by side的文献。

四、限制检索

限制检索是通过限制检索范围,从而达到约束和优化检索结果的一种方法。

限制检索的方式有多种,常用的有字段限制检索和限制符限制检索。

(一)字段检索

数据库记录是由若干个字段组成的,字段检索是把检索词限定在数据库记录

的特定字段中的检索方法,如果记录的相应字段中含有输入的检索词则为命中记

录。字段限制检索可以缩小检索范围,提高查准率。

数据库中提供的可供检索的字段通常分为基本索引字段和辅助索引字段两 大类。基本索引字段表示文献的内容特征,有TI

(篇名、题目)、AB

(摘要)、

DE

(叙词)、ID

(自由标引词)等;辅助索引字段表示文献的外部特征,有AU

(作者)、CS

(作者单位)、JN

(刊物名称)、PY

(出版年份)、LA

(语言) 等。在检索提问式中,可以利用后缀符'/”对基本索引字段进行限制,利用前缀 符“=”对辅助索引字段加以限制。

例如,“(information retrieval /

TI OR digital library

/

DE)AND PY

= 2006”所

表达的检索要求是,查找2006年出版的关于信息检索或数字图书馆方面的文献,

并要求information retrieval

一词在命中文献的TI

(篇名)字段中出现,digital library

一词在DE

(叙词)字段中出现。

(二)限制检索

限制符检索是使用AU(作者)、CS

(作者单位)、JN

(刊物名称)、PY

(出版年份)、LA

(语言)等限制符号从文献的外部特征方面限制检索范围和

检索结果的一种方法。限制符的用法与后缀符相同,而它的作用则与前缀符相同。

例如,“aircraft /

TI, PAT”表示检索结果只包含aircraft这一主题的专利文献。

限制符还可以与前、后缀符同时使用,这时字段代码与限制符之间的关系是 逻辑“与”,即最终的检索结果应同时满足字段检索和限制符检索两方面的要求。


本文标签: 检索 逻辑 文献