当前位置:首页 > 文献资料文本
? Web-database
? 用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索 网络信息资源检索的特点
? 检索速度快 ? 检索途径多 ? 更新快 ? 资源共享
? 检索更方便灵活
? 检索结果可以直接输出 网络信息检索系统的构成
? 从物理构成来说,包括计算机硬件、软件和数据库、通讯线路和检索终端五部分 网络信息资源的类型
1. 参考数据库(Reference database):
指包含各种数据、信息或知识的原始来源和属性的数据库,主要包括书目数据库、文摘数据库、索引数据库
2. 全文数据库(Full text database)
收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息为主
3. 事实数据库(Factual database) :
指包含大量数据、事实,直接提供原始资料的数据库。 又分为数值数据库(Numeric database)、指南数据库(directory database)、术语数据库(terminological database)等
4. 电子图书(electronic books)
指供在电脑上阅读的一种新型的数字化书籍, 是多媒体技术和超文本技术发展的产物。一般有专用电子图书阅读器。如:超星数字图书馆,中国数字图书馆有限公司的网上图书馆,书生之家―中华图书网‖,方正Apabi电子图书 电子报纸(electronic newspaper)
? 将电子技术应用到涉及报刊出版、发行、利用的全过程 ? 纽约时报(Http://www.nytimes.com)
? 华盛顿邮报(http://www.washingtonpost.com ? 泰晤士报(Http://www.thetimes.co.uk) ? 人民日报(Http://www.people.com.cn) ? 光明日报(Http://www.gmdaily.com.cn) ? 中国日报(Http://www.chinadaily.com.cn) 网络信息资源检索的基本技术
9
? 布尔逻辑检索(boolean logic)
是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求 计算机检索式(逻辑表达式): 检索词+有关算符
? 1、布尔逻辑算符 ? 2、截词算符 ? 3、位置算符 ? 4、字段限定符
逻辑运算符(布尔逻辑检索: 即运用布尔逻辑算符对检索词进行逻辑组配,表达两个概念之间的逻辑关系。 )有三种:
逻辑与(AND)
逻辑或(OR)
逻辑非(NOT)
21逻辑与:AND
例如:dyslexia and child
常用―*‖、―&‖表示,检索时,命中信息同时含有两个概念,专指性强。可以缩小检索范围,提高查准率
22逻辑或: OR
例如: color or colour
常用―+‖、―/‖ 表示,检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,可以扩大检索范围,提高查全率。
10
23逻辑非: NOT
例如:human not animal
常用―-‖ 表示,命中信息包含逻辑A、不包含逻辑B或同时有A和B的,排除了不需要的检索词,可以排除不必要的信息,提高查准率。 优先级运算
()>NOT>AND>OR
截词检索 (truncation) — 截词符
截词是指将检索词在适当的地方截断,截词检索是用截断词的一个局部进行的检索,凡是满足这个截词所有字符(串)的记录,系统都为命中。
截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。 按截词的位置划分
? 前截断:又称左截断,截词符在词的左边,例如:*magnetic ? 中截断:截词符在词的中间,例如:organi?ation, 可以检索organisation organization ? 后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的
检索技术,例如:librar*
根据截断的数量不同
? 无限截断:不限制被截断的字符数量
? 有限截断:限制被截断的字符数量,例如educat**,可以检索educator、educated 按 截 词 位 置 分: 有前截断、后截断、中截断; 按截词的字符数量分:有非限制截断、限制截断。
*、?、& 均可以 表示截词的截断符号,各检索系统有不同的规定,没有统一标准。
1. 后截断(前截断相同)
后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。 ? 非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干相同的所有词。
例: comput? 表示允许其后可带有任何字符且数量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、computerized、computation、 computations、 computational、 computationally 等词。
***不宜将词截得过短,否则容易造成误检。
11
限制截断 :是在检索词词干后面加若干个截词符,表示限制可变化的字符数。
例:fib?? 相当于查找 fiber 或 fibre ……(Ei Compendex Plus) librar? 相当于Libraries,librarian,library……
educat?? 相当于Educator,educated…… 2. 中截断 (通配符或屏蔽)
是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。
例:organi#ation, 可检索到包含organization和organisation的记录。 一个?代表零个或任意个字符。
例: colo?r ,可检索到包含 color、colour、colonizer、 colorimeter的记录。
一个? 和数字,其中的数字代表可替换的字符数。 例:colo?1r, 只能检索到包含colour的记录。 词位置检索(positional operator) — 位置运算符
利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能 (Full text searching)。
所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。
为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 ? **全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: ? 规定的位置算符不同;
? 位置算符的职能和使用范围不同。
下面介绍几种数据库经常使用的位置运算符: 1.W - With ? W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。
例: intelligent (W) robot? (Ei Compendex Plus) ? Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。
例: intelligent w1 robot* (OCLC FirstSearch)
12
共分享92篇相关文档