蓝田玉PDF文档网 / 电脑教程 / 中小学信息科学知识:信息存贮与检查
 


中小学信息科学知识:信息存贮与检查



第一章 信息引论

第一节 信息的涵义


  信息作为名词术语,在中国,最早出现在唐代诗人李中的诗句中:“梦 断美人沉信息,目穿长路倚楼台”。但是,信息作为一个科学概念以及科学 研究对象,却只有四五十年的历史。然而,在人类社会的演变和发展过程中, 信息一直在积极地发挥着人类已经意识或还没有意识到的重要作用。
  圣经中记载,在上古时期,洪水泛滥,诺亚自造方舟,避免了灭顶之灾。 方舟在洪水中漂荡许久,诺亚想知道洪水是否已退,就放出飞鸽,待飞鸽衔 回一支橄榄枝,诺亚根据飞鸽的返回时间及新嫩的绿枝这样的信息,推断洪 水已退。和平来临了,人类获救了。这是人类利用信息的最早的文字记载。 自古以来,人们随时都在自觉不自觉地接收、传递、存贮和利用信息。
人类的信息活动也从来没有间断过。
  20 世纪科学技术的空前进步,使人们对信息的认识和研究逐步建立在科 学的基础上,形成了以信息为研究对象的理论——信息论,并迅速发展为一 门具有丰富内涵的新学科——信息科学。
1948 年,美国科学家申农(C.Shannon)和维纳(N.Wei- ner)先后发
表了《通信的数学理论》和《控制论:或动物和机器中控制和通信的科学》 两篇著作,为信息学的建立奠定了理论基础。
然而,对于信息的定义,人们还没有一致的认识。
  申农这样描述信息:“信息是用以消除随机不确定性的东西”,从信息 具有减少人们认识的不确定性的功能上概括了信息的特征。
维纳认为:“信息就是信息,不是物质,也不是能量”,把信息看成是
与物质、能量具有同等重要性的客观世界三大要素之一。 我国著名的科学家钱学森称信息是“激活了、活化了的知识”,认为信
息“就是为了解决一个特定的问题所需要的知识”,对信息进行了科学的概
括。
  可见,信息具有极其丰富的涵义,概括起来,信息的概念有三点是共同 强调的:
1.为了一定目的面系统收集起来的正确的事实所构成的知识,也就是
说,经过传递而又为人们所吸收的知识构成信息。
  2.通过传递而进入人类社会交流体系的运动着的知识构成信息,即一方 面信息可以通过一定的物质载体或其它交流形式进行传递,另一方面获取信 息必须经过传递。
  3.信息不仅是传递中的知识,而且必须是有效的知识。凡是人类社会的 信息均构成一定的效用,或与接收者原来知识状态吻合而被认可;或有相异, 从而发生知识的重构,生成新的知识结构。
  因此,可以说,在社会交流过程中,知识变为信息,信息转化为知识, 它们总是处在相互作用之中。知识是静态的,以实践为基础,通过抽象思维, 对客现事物规律性给予概括。知识信息是人类社会中客观存在着的,以知识 形态为主,同时包括数据、新闻、消息等非知识形态的社会信息。知识信息 是知识的激活,知识是知识信息的条理化。
其中有一点是可以肯定的,即通常听说的原始数据并不能称之为信息。

原始数据和信息的主要区别就在于:一切信息虽然都是由数据组成的,但并 非一切数据都能产生消除不确定性而导致有用的信息。
  原始数据需要经过加工处理而转变为信息,经过交流和传递实现信息应 用。
  因此,只有科学地了解和认识信息,才能更好地把握信息,才能使信息 更好地为科学技术、经济和社会发展服务。

第二节 信息的特性和作用


一、信息的特性 信息之所以区别于物质与能量,并具有与物质、能量同等的重要作用,
是源于信息所拥有的特性。物质在使用中是消耗的;能量就其个体而言在使 用中也是消耗的,就其整体而言则是永恒的;而信息在其传递和使用过程中, 可以重复使用,并可通过信息的加工处理而产生信息增值。信息作为一种资 源,主要具有以下特性:
  1.客观性。信息的存在是客观的,它导源于客观存在的物质及其运动两 大特性。从有人类存在以前,乃至今天,人类以外的各种生物就利用着大自 然无穷无尽的信息资源。信息的客观性还表现为它是以物质的客观存在为前 提的,即使是主观信息,如决策、判断、指令、计划等,也有它的客观实际 背景,并以客观信息为“原料”,受客观实践的检验。
2.依附性。信息总是依附于一定的物质载体而存在,需要某种物质承担
者。如果不依附各种适当的载体,信息的含义和价值则不能传递和发挥。声 音、语言、文字、颜色、图像、各种符号、光电磁、生物等各种信息信号、 纸张、胶片、磁带光盘、人的大脑等等,无一不是信息的载体。
3.可传递性。信息的产生就是同信息的传递联系在一起的,信息在传递
过程中发挥它的作用。信息的传递和流通过程是一个重复使用的流通过程, 在这一过程中,信息的占有者不会因传递信息而失掉信息,一般说来,也不 会因多次使用而改变信息的自身价值。
信息在时间上的传递通常被称之为信息的存贮。
  4.可塑性。信息可以加工处理,可以压缩、扩充和叠加,也可以变换形 态。在流通和使用过程中,经过综合、分析、再加工,原始信息可以变成二 次信息和三次信息;原有的信息价值也可以实现增值;为了有效地交流和传 递,借助于先进的信息技术,文本、图像、数字、语言等各种形态的信息均 可实现互相转换。
  5.时效性。现代社会中,信息的使用周期迅速缩短,信息的价值实现取 决于及时地把握和运用信息。信息是活跃的,不断变化的,及时地获取有效 的信息将获得信息的最佳价值,如时效性很强的天气预报、经济信息、交易 信息、科学信息等。不能及时地使用最新信息,信息的价值就会随其滞后使 用的时差而减值或贬值。
  6.共享性。信息的共享性主要表现在同一内容的信息可以在同一时间由 两个或两个以上的使用者使用,而信息的提供者并不失去所提供的信息内容 和信息量,它是信息资源的广泛提供与利用的基础。
二、信息的基本作用 作为一种知识交流和社会交流,信息在人类社会和科技发展中具有重要

作用。
  1.信息是人类认识客观世界及其发展规律的基础。信息的基本功能,主 要表现为信息的认识功能。它是辩证唯物主义认识论的基础,是揭示客观事 物发展规律的重要途径。信息是客观事物及其运动状态的反映,客观世界里 到处充满着各种形式和内容的信息,人类的认识器官,包括感觉器官和思维 器官,对各种渠道的信息进行接收,并通过思维器官将已收集到的大量信息 进行鉴别、筛选、归纳、提炼、存贮而形成不同层次的感性认识和理性认识。 在这一认识过程中,人类是认识论的主体,信息是认识论的客体。
  2.信息是科学研究的必要条件。人类的知识具有继承性和共享性。科学 的大厦是千万个科学家在历史的进程中逐步建立起来的,任何一位科学家在 从事科学研究时,都不能不借鉴前人的成果和依靠同时代其他人的帮助,这 就是说,他同时需要在时间上和空间上的信息传递。在这个问题上,自然科 学家和社会科学家各具特色。自然科学研究是一个比较严格的循序渐进过 程,其每一个成果都是在前人建立的基础上发展起来的,由于自然科学研究 的抽象性、准确性和严格性,独立研究是非常困难的,因此,信息交流就十 分必要,并且对信息的数量和质量等都有较高的要求。对于社会科学而言, 其研究成果不具有像自然科学研究成果那样的准确性,但在多样性上远远超 过前者,并更多地受社会政治和人为因素的影响,其不同观点和理论的统一, 较之自然科学也往往更困难和更需要时间,因此,需要更多地占有信息资源, 充分地认识和把握各种不同的信息观点。
概括地说,信息在科学研究工作中的具体作用如下:
第一,掌握动态,选准课题,避免科研工作的重复浪费; 第二,掌握“已知”,利用他人成果,加快科学研究进程; 第三,提高科学劳动生产率,节约科研经费和工作投资。
3.信息是管理和决策的主要参考依据。从广义上讲,任何管理系统都是
一个信息输入、变换、输出的信息与信息反馈系统。这是因为,管理者首先 要知道被管理对象的一些基本情况。在一定程度上消除对管理对象认识的不 确定性后,制定相应的对策,进而实施管理。更进一步讲,任何组织系统要 实现有效的管理,都必须及时获得足够的信息,传输足够的信息,产生足够 的信息,反馈足够的信息。只有以一定的信息为基础,管理才能驱动其运行 机制,只有足够的信息,才能保证管理功能的发挥。
从某种意义上讲,信息都是为决策服务的,是为人们未来行动服务的。
正确的决策与多种因素有关,如决策体制、决策方法、领导者的能力和素质 等,但决定性的因素,还是取决于对客观实际的了解,对未来行动及其后果 的正确判断,而正确的判断又主要依赖于全面、及时和准确的信息。
  4.为国民经济的建设和发展服务。信息作为一种资源,可以创造财富, 通过直接或间接参与生产经营活动,为国家经济建设的各个方面发挥出重要 的作用。
  作为一种知识,信息的价值也是无法直接计算的,但它的经济效益却是 实实在在的。一项适时对路的信息,可以带来一种新产品,或在贸易谈判中 处于有利地位。信息的交流可以鼓励竞争,消除垄断,使不同的企业或工程 项目得到相互促进的发展。技术经济信息可以有利于产品的更新换代,质量 的提高,促进技术的进步和生产的发展;市场信息能提高全民经济生产的协 调性;等等。在我国当前经济体制改革的新时期里,信息工作应把为国民经
  
济建设服务作为自己的重要方针之一。

第三节 信息源


  信息源是指信息传递过程中的信息发送端或生成端的总称,它是信息产 生的源头。
  广泛存在着的多种类型的信息源,既是信息工作的基础,又是信息工作 的对象。对信息源的类型、形态、结构及特点的分析和研究,是信息存贮、 检索和开发利用的重要课题。
一、信息源的类型 信息源的类型可依不同的标准划分如下:
  1.按信息的保存性,可分为正式记录的信息源、非正式记录的信息源。 前者指的是以可以保存的形式记录的信息源,如各种印刷品、缩微、声像、 机读载体的文档、资料或出版物;后者指的是没有正式记录、无法保存的信 息源,如会议、电话、口头交流等。
  2.按信息源产生的时间顺序可分为先导信息源、实时信息源、滞后信息 源。先导信息源是指产生时间先于社会活动的信息源,如天气预报、市场预 测等;实时信息源是指在社会活动过程中产生的信息源,如实验记录、产品、 讲座或报告等;滞后信息源是指某一社会活动完成之后产生的反映这一活动 的信息源,如报刊、会议论文等。
3.按信息源的生产过程可分为原始信息源、加工信息源。原始信息源即
为一次信息源,它是人类社会实践活动中直接产生或得到的各种数据、概念、 知识、经验及其总结。加工信息源则是有关单位根据社会的不同需求对原始 信息源进行加工、分析、改编、重组,生产人们社会活动所需的各种信息源。 加工信息源又可按其加工的方式和深度的不同分为二次信息源、三次信息 源。
4.按信息源产生信息的内容又可分为社会科学信息源、自然科学信息源
和科技信息源。 二、文献信息源
凡是人类的知识用文字、图形、代码、符号、声频、视频等方式和技术
手段记载在一定载体上的每一件记录,统称为文献。简言之,文献是记录着 知识或信息的物质载体。其中,知识、信息是文献的实质内容、灵魂;物质 载体是知识、信息存贮、传递的主要工具和外在形式;文字、图形、符号等 都是记录或表达知识、信息的手段,是无形的知识、信息与有形的物质载体 的联系物。
  习惯上,我们把记录科学知识的每一份物质载体称为科学文献,而把科 学文献的汇总称为科学文献流。
在各类信息源中,文献是最主要、最常用的基本信息源。
(一)文献信息的主要形式 文献信息根据其载体的物质形态,基本上可分为手抄型、印刷型、缩微
型、机读型和视听型。
  1.手抄型。主要是指古旧文献和未经付印的手稿及技术档案之类的资 料,其中可供开发利用者颇多。
2.印刷型。属传统的印刷形式,以纸张为载体,通过包括铅印、石印、

油印、胶印等方式得来的产品。此类文献历史悠久,收存丰富、系统,因其 方式灵活、方便、广泛,保存时间相对较长,使用便捷。但其缺点是出版速 度慢,体积大、笨重,收藏空间大,保管不易,且纸质易老化碎变。
  3.缩微型。即缩微复制品,它以感光材料为载体,利用摄影技术将手抄 型或印刷型文献缩摄而形成的文献形式,包括缩微胶卷、缩微平片、缩微胶 套和幻灯片等。缩微文献体积小、存贮密度高、存贮容量大、价格便宜,便 于保存和检索。但其缺点是必须借助于阅读机才能阅读。
  4.机读型。采用一种利用机器——电子计算机才能进行阅读的新型载 体,即采用电子计算机和光电磁技术,通过编码和程序设计,把文字信息转 换成计算机可读的语言,输入机器,存贮于磁带、磁盘等载体。阅读时,由 计算机按指令和存入的标识将存入的信息转换成文字或图像输出。机读型文 献因存贮容量大,传输速度极高,可存贮各种形式的信息,宜用来做大量的 情报信息存贮和快速的文献信息检索。
  5.视听型。又称声像资料,它通常以感光材料或磁性材料为载体,以光 学感光或电磁转换为记录手段而产生出来的一种文献。它包括录像带、录音 带、幻灯片、唱片、科技电影等,由于它运用录音、录像和摄影等技术直接 记录声音和图像,所以提供的图像、声音逼真,宜于记载难以用文字表达和 描绘的形象资料和声频资料,如用以记载野生动物保护区珍稀禽兽的活动及 其吼鸣声。通过播放,可达如见其形,如闻其声的真切效果,给人以直感的 感觉。
(二)文献信息的结构层次
  信息工作的主要任务是对信息进行深层次开发和综合利用,为了有效地 发掘出文献的信息内容,必须对文献进行一定的加工,因此,根据文献的产 生次序和加工整理的程度不同,可将文献划分为四个层次结构:
1.零次文献。也称零次信息。指未经正式发表或不宜公开和大范围内交
流的比较原始的素材、底稿、手稿、书信、工作文稿、工程图纸、考察记录、 实验记录、调查稿、原始统计数字,以及各种口头交流的知识、经验或意见 论点等,此类更为原始性的文献多保留于科技人员之手。另外,科技部门、 有关管理部门和计划部门也有收藏。这类文献在较小的范围内交流、使用、 参考,其传播渠道少,或常保密,或限制使用以及因珍稀的原因,不为人们 知晓而多被埋殁。其形式多是抄件、打字件、油印件、内部铅件、复制印刷、 描图以及内部录音、录像等等。其特点是信息来源直接、真实,内容新颖。
2.一次文献。习惯上称作原始文献,也称原始信息源,它是作者依据本
人的科研和工作成果而形成的文献,这类文献是脑力劳动的正式产品,是科 研成果的一种主要表述方式,代表新知识,组成了可供交流的系统性信息。 此类文献主要包括:图书、期刊和报纸、科学考察报告、研究报告、会议论 文、学位论文、专利说明书、技术标准、政府出版物、产品样本等。
一次文献有如下特点:
  (1)创造性:一次文献是人们根据自己在生产和科学研究中的成果撰写 的,是创造性劳动的结晶。它报道新成果、新技术、新发明、新创造。例如 专利,它具有新颖性和创造性,反映了发明创造、技术革新与改进的创造性 劳动成果。正由于一次文献的创造性,故受到人们重视。
  (2)原始性:一次文献是一种原始的创作,也必然是初次发表的,一般 是作者根据自己所积累的原始素材、原始数据创作而成,故其既有真实可靠
  
的一面,又有特定性和不成熟一面。
  (3)多样性:一次性文献是每个作者的不同成果,故在内容上多样化; 另外,在表现形式上也呈现出多样性,有文学读物、期刊论文,也有研究报 告、学位论文等等。
  3.二次文献。指根据实际需要,按照一定的科学方法,将特定范围内的 分散的一次文献进行加工整理使之有序化而形成的文献。它能较为全面地系 统地反映某学科某专业文献的线索,是检索一次文献的工具。这类文献有: 期刊(仅限于揭示和评述一次文献的那些类型)、索引和文摘、论文集、图 书馆目录以及参考书中的百科全书、专科全书、手册、大全、字典、词典、 表格、图谱、数据等。
二次文献具有以下特点:
  (1)集中性:二次文献集中了某个特定领域范围的文献。它可以是某个 信息部门的所有书刊资料,某个学科领域的文献,某个作者的所有文献等。 二次文献是在所集中的某个特定范围的文献基础上,用科学的方法加工整 理、组织编排而成,它比较完整地反映了某信息部门、某学科、某作者等的 文献情况。
  (2)工具性:二次文献可称之为工具性的文献,它以特定的方法,简练 的语言揭示文献的外部特征和内容特征,并加以科学的编排。它是累积、报 告和查找文献线索的一种工具。一般所说的信息检索,即指对于此类文献的 有效利用,从中查检到一定的知识信息或某项课题的文献线索。
(3)系统性:二次文献本身具有自己的系统结构,为了方便利用,一般
提供多个检索途径。所以一种好的二次文献往往由几个部分组成,具有比较 固定的体系结构。另外,二次文献在总体上也有自己的系统性,特别是检索 刊物体系,因为各学科的文献都有自己的检索工具,做到不重复且没有重大 遗漏,就必须统筹规划,分工协作,建立科学的检索刊物体系,且各个检索 刊物也必须保持自己的连续性和系统性。
4.三次文献。指通过二次文献提供的线索,选用一次文献的内容,进行
分析、综合、研究后而编成的文献。一般包括专题述评、动态综述、进展报 告、学科年度总结等。
三次文献具有以下特点:
  (1)综合性:三次文献是在大量有关文献的基础上,经过综合、分析而 成。综合性就是将大量分散的有关特定课题的文献、事实和数据进行综合、 评价、筛选,以简练的文字扼要叙述出来,内容十分概括。它可以是纵向综 合,如某学科的过去、现状和将来的综述;也可是横向的综合,如对各产业 部门同类产品的比较综述等。
  (2)针对性:三次文献是为了特定的目的,搜集大量相关的文献,进行 分析、综合而编写出来的,并且在很多情况下,它是信息部门接受用户的委 托后,进行信息研究后产生的成果,因此,具有很强的针对性,即针对特定 用户的信息需求,为特定的目的服务。
  (3)科学性:三次文献是在已有的知识成果的基础上,对特定专业课题 的总结和综述,因此,其观点比较成熟,内容比较可靠,有材料、有事实、 有数据、有建议、有结论,具有较高的科学性,一般可直接提供参考、借鉴 和使用,因而普遍为科研人员和管理者所重视。
(三)文献信息的主要类型

  按文献的性质、特点和编辑出版形式的不同,科学文献又可分为以下十 种类型:
  1.图书。大多是对已发表的成果和经验,或某一知识领域的系统论述或 总结。它往往以期刊论文、会议论文、研究报告等一次文献为基本素材,经 作者的分析、归纳、重新组织而成。图书提供的知识一般比较系统、全面、 可靠,起着综合、积累和传递知识的重要作用。从时间上看,图书报道的知 识比期刊和特种文献晚,且出版周期较长。
  2.期刊论文。指采用统一名称,定期或不定期出版的连续出版物。其特 点是出版周期短,报道速度快,数量大、内容多,发行面广。期刊的内容一 般是一次文献,即原始文献,许多新的研究成果大多首先在期刊上发表,因 此,期刊论文是获取新信息的主要来源,是极其重要的信息源。
  3.科技报告。是关于某项科学研究和革新成果的报告或研究过程中的阶 段进展情况的实际记录。它反映的科学研究和技术革新成果比期刊论文快, 内容高度专门化,且具有一定的保密性。一般以单行本的形式出版。
  4.专利文献。专利是国家对发明创造的法律保护。广义的专利文献应该 是一切与专利有关的文献,包括专利说明书、专利公告、专利分类表、专利 文摘等。狭义的专利文献一般指专利说明书,它是专利文献的主体。专利文 献是极其重要的信息源,蕴藏着丰富的科技信息。
5.会议文献。一般是各种科技会议上的论文或书面发言。随着科学技术
的发展,各种科技会议日益增多,已成为科技交流的一种重要渠道。许多学 科中的重要发现有很大一部分是在会议文献中公开的,加上一些会议论文不 在其它刊物或出版物上发表,或者即使发表,也要经过较长一段时间,因此, 会议文献越来越受到科技界的重视,它已成为科技人员了解本专业的发展水 平和最新研究成果的有效工具。
6.政府出版物。指各国政府部门及所属机构发表、出版的文件,大体上
可分为行政性文件(如法令、方针政策、规章制度、统计资料等)和科技文 献两大类。科技文献中包括政府各部门的科研报告、技术政策等,对了解某 一国家的科学技术和经济政策及其演变等情况有一定的参考价值。
7.学位论文。是为了取得某一级学位而提交的论文,包括学士论文、硕
士论文和博士论文。它们的特点是:论文的水平和质量差别较大,论题比较 专一,阐述系统、具体,有一定的独创性观点,且经过一定的审查,故有一 定的参考价值。
8.标准文献。是对工农业产品和工程建设的质量、规格及检验方法等方
面做出的技术规定。它是从事生产、建设的共同技术依据,是一种规章性的 文献,有一定的法律约束力。标准文献属于三次文献,其反映的信息只能达 到当时的技术标准和技术水平。因此,其技术新颖性和及时性逊于专利等文 献。
  9.产品样本。是厂商为推销产品而印发的一种宣传性出版物,包括产品 的性能、规格、尺寸、重量、构造、用途、使用方法等。产品样本的特点是 技术上比较新颖,参数比较可靠,能给人以直观形象。利用它可了解国内外 技术水平及有关技术的演变和发展动向,可获得设计、制造、使用中所需要 的数据和方法,也可以为判断产品的价值提供依据。
  10.科技档案。是在科研生产活动中形成的有一定具体工程对象的技术文 件、图样、照片、原始记录的原本或复制本,内容包括任务书、技术指标、
  
研究方案、实验记录、设计图纸等。它是科技活动的真实记录,内容一般真 实、准确可靠。

第二章 信息检索基础

第一节 信息检索概述


一、信息检索的概念 信息检索是信息工作的一项重要内容,是沟通广大信息用户和各种信息
源的主要渠道,也是大量情报信息进行广泛传递的集中表现形式,最能体现 信息存贮的目的。
(一)广义的信息检索 从广义上理解,信息检索是指将信息按一定方式组织和贮存起来,并根
据信息用户的需要找出有关信息的过程。所以它通常被称为“信息存贮与检 索”,包括各种文献信息的加工存贮和检索利用两方面的内容,是由两个方 向相反而又相互依存的工作过程构成。广义的信息检索概念是对信息工作者 而言的。
(二)狭义的信息检索 狭义的信息检索是指广义的信息检索的后半个过程,即从信息集合中找
出所需要信息的过程,相当于人们所说的信息查检等。在实际工作中,也往 往把日常的信息加工和存贮视为内部准备工作,而狭义地把信息的查检视为 信息检索。狭义的信息检索的概念通常是针对用户而言的,即根据用户的特 定要求查找所需信息的全过程。
作为检索对象和目的的信息,其出现形式是不同的,有的以记录着信息
或知识的文献表现出来,有的以含着情报或知识的数据或事实表现出来,于 是根据检索对象,即信息出现形式,信息检索又可区分为不同的类型。
(三)信息检索的基本类型
  1.文献检索。以文献或其索引、文摘为检索对象,目的是核实已知文献 的不确切项目,如著者名、年代、出处等,或查检某课题原始文献的线索及 它们的具有收藏情况。这类检索数量大,方式不一,是信息检索的基础部分。 一般说来,文献检索是一种相关性检索,它只提供有关的文献供参考,而不 直接回答用户所提技术问题的本身。例如:“某作家在 60 年代的著述情况”, 就是要根据查寻要求,按照一定的检索标识,从所收藏的文献中查找出特定 的文献,以供参考。
2.数据检索。以数据为检索对象,可直接选择专类的数据性工具,从中
查检,从而得到数值性数据、图表、化学结构式、计算公式等等,它们都是 经过人们精心测试、绘制、评价、处理而得出来的确切数据。数据检索是为 了满足科技工作者对浓缩信息的特殊需求而出现的,这种浓缩的信息,用户 可直接使用,无需查阅原始文献,因此可大大节约研究人员的时间,提高工 作效率。数据检索是一种确定性检索,要直接回答用户所提问题的本身,提 供所需的确切的数据。
  3.事实检索。是以特定的事实为检索对象,先选择适宜的检索工具,按 一定检索标识,直接从中检出事实性、知识性的答案。事实检索也是一种确 定性检索,要求提供用户所需的确定的事实。
二、信息检索的产生和发展 信息检索最重要的早期发展是文献检索。文献检索是随着文献资料累积
到一定程度时才出现的,目的是为了满足用内特定的文献查寻和文献需求。

可以说,有了文字记载以后,就有了文献检索的萌芽。但在人类文明发展的 早期,从事科学、文化活动的人数不多,文献数量不大,人们查找文献仅仅 通过私人书信或其它简易方式,就能达到互通信息的目的,所以没有而且也 不必开展信息检索,更无必要建立完备的检索工具。
  直到进入 20 世纪以后,由于科学技术的飞速发展,现代记录下来的知识 急剧增长,文献数量也迅速增加,从而加大了文献查找的难度,于是真正意 义上的信息检索产生了。一些专门的检索工具,如文摘、索引、目录、百科 全书等的编纂也随之发展起来,此时,人们查找的着眼点更多地指向包容在 文献中的信息而不仅仅局限于文献本身。之后,由于电子计算机在信息工作 中的应用,使得人们拥有强有力的信息存贮和信息处理手段,从而促进了信 息检索走上了计算机化的道路。
  总的来说,信息检索经历了两个主要阶段,即传统的手工检索阶段和现 代计算机信息检索阶段。
(一)手工检索阶段 文献信息检索直接发源于文摘索引工作和图书信息部门的参考咨询工
作。
  早在西汉时期,刘向、刘歆父子整理编撰《别录》和《七略》,成为最 早带有内容摘要的图书目录,开辟了从图书目录直接了解和查找西汉之前书 籍概况的先河,是最早的书目性工具书之一。
1665 年 1 月 5 日,法兰西科学院在巴黎创办了《学者周刊》。该刊除报
导科学领域的重要事件、科学院的活动和教会法庭的重要决定外,还报导、 摘录或评论新出版的图书,成为世界上最早的科学期刊之一,也是以专栏或 附录形式出现的最早的文摘刊物。在这以后的一百多年中,许多综合性的、 专业性的文摘刊物相继出现,成为一种常用的信息传递方式和检索媒介。
索引工作也有较长的历史。在我国唐宋时代,一些文人学者就编制了一
些工具书,供查找古籍中的俪句骈语、诗赋文章、史实或其它资料,人们通 常称之为“类书”,实际上它们就是属于索引这一类的工具书。在西方,第 一部专门的索引约出现在七八世纪,是为《圣经》编的《圣经语词索引》。 之后,西方出版的一些图书开始编有书后索引,以供读者查找书中的特定材 料。
到 19 世纪初,文摘刊物开始走向独立编辑出版,而且报刊索引工作也随
着报刊文献的增多而得到了很大的发展,并且与文摘刊物紧密结合在一起, 成为查找科学文献的最重要的手工检索工具。
  图书馆及其馆藏文献的急剧增多,使图书馆的馆藏目录工作迅速开展起 来,成为查寻馆藏文献的有力工具。另外,图书馆的参考咨询工作也包括了 为读者提供检索服务的任务。
  随着人类科研活动的增加,文献种类的增多,人们对文献检索的需求越 来越普遍,从而促进了检索工作逐步走向正规化和专门化,检索刊物体系也 逐渐形成,检索工具书更趋完善,成为图书信息部门做好文献信息检索的有 力保障,信息检索也成为信息工作的重要内容。
(二)计算机信息检索
  20 世纪四五十年代,由于计算机的成功制造和使用,使得文献信息检索 逐步迈向机械化和自动化。
1954 年,美国海军兵器中心首先在 IBM701 型电子计算机上成功地建立

了世界上第一个计算机文献检索系统。它将文献号和少量标引词存储在计算 机内,匹配命中后输出的是文献号。
  1957 年,H.P.卢恩等人开始研究采用计算机编制索引取得成功。这一成 就激励了图书信息界,许多文摘索引机构相继开展用计算机编制文摘索引刊 物的试验。
  1964 年,美国国立医学图书馆的医学文献分析与检索系统(MEDLARS) 建成并投入使用,标志着文摘索引刊物的生产实现了机械化,检索服务实现 了计算机化。不久,像美国化学文摘社、工程索引公司等一批著名的文摘机 构也实现了各自的目标,开始建立机读文献型数据库,发行磁带版的文摘索 引刊物,供图书情报单位开展文献检索服务。到 60 年代末 70 年代初,随着 分时计算机的出现和通讯网络的发展,又出现了功能更强的联机检索系统, 如现在普遍使用的 MED- LINE 系统、DIALOG 系统以及 ORBIT 系统等,联机检 索服务也迅速地在世界各地得到发展。
  计算机技术、通讯技术和文献信息检索的成功结合,使信息检索走向了 计算机检索时代。文摘索引刊物的编辑排版工作从落后的手工方式过渡到先 进的机械化自动方式,大大地缩短了编辑出版时间,加快了信息的传递和利 用。机读数据库的出现和计算机检索的实现,为用户检索信息提供了快速便 利的途径。
信息检索将逐步摆脱传统的手工检索模式,而走向全新的、面向全社会
的自动化和网络化阶段。 三、信息检索的意义
信息检索是在信息用户与信息源之间充当媒介作用,它是联系信息生产
者与信息需求者的中间环节,是信息交流和传递的重要过程,是提高文献利 用率和科研效率的重要手段。概括起来,信息检索的意义主要体现在以下几 个方面。
1.信息检索是获取知识的有效途径。在当今文献和知识急剧增长的信息
时代,如何在浩如烟海的文献信息流中迅速找到所需文献信息,并加以合理 有效的利用,是摆在科研工作者面前的一道重要课题。据测算,人类知识总 量在 19 世纪每 50 年增加一倍,20 世纪初每 10 年增加一倍,20 世纪 70 年代
每 5 年增加一倍,80 年代几乎是每 3 年增加一倍。而且,文献信息的分布已
极不平衡,同一学种的论文分散在几十种、甚至几百种期刊上,导致文献的 查找越来越困难。因此,如何以最少的精力、最短的时间充分占有文献信息, 成了人们亟待解决的实际问题,而信息检索正是有效解决这一问题的最好途 径,它可以帮助人们快、准、全地获取所需信息,最大限度地节省查找时间, 使文献信息得以充分的利用。
  2.信息检索是科研工作的组成部分。科学研究是一种创造性的思维活 动,是在继承前人成果和借鉴他人工作的基础上发展起来的。科学研究一般 包括资料准备阶段和研究阶段,其中,资料准备阶段要占用科研人员全部科 学研究的 30%~60%的时间,还会随着信息检索效率的高低发生变化。高效 的信息检索不仅能使科研人员减少查找资料的时间,而且还能够通过信息检 索获得启发,对研究工作具有极大的帮助作用,最终缩短科学研究的时间。
  3.信息检索能够避免重复研究和走弯路。科研的任务是为了创造新的知 识成果,它要求对某一课题或某一领域的认识及判断应是前所未有的,因此, 科研主题必须建立在完全的充分的信息检索基础之上,否则很容易造成科研
  
项目的重复研究,从而造成人力和物力的严重浪费。据统计,我国的低水平 的重复研究现象比较严重,尤其是省级及以下科研项目,重复率达到 50%。 可见,要进行有价值的科学研究,必须全面地获取有关文献信息,及时了解 各学科领域出现的新问题、新观点,这只能依赖文献信息检索才能实现。通 过信息检索,可以掌握研究课题的历史和现状,了解其发展趋势,以确定自 己的研究起点和研究目标。

第二节 信息检索的原理和方法


一、信息检索的基本原理 如前所述,信息检索的全过程包括了信息的存贮和信息的检索两个过
程。其中,存贮是为了检索,而检索必须先要存贮,信息存贮和信息检索是 方向相反而又相互依存的两个方面。
  在信息工作中,检索可以理解为“检”与“索”的统称,“检”是“选 检”、“归类”,指从众多的加工对象中挑出性质相同的集中起来,经筛选、 整理、分析、标引,将得来的信息产品归纳到一个统一的系统中,即从众多 的信息源中筛选合乎既定要求的情报信息,予以标引、存贮和积累,以待利 用。“索”即“索取”,是“存入”的逆过程。所以,信息检索是一个获得 情报信息的操作过程,其实现必须借助于一个特定的信息系统,而且检索的 出现也必须以存贮的存在为前提条件。如无大量的存贮,则根本谈不上从中 选择和提供信息。
同时,信息检索要求存贮过程和检索过程必须采用相同的检索标识进行
信息标引,使要存入的信息特征与要检索的具有一致的特征标识形式。 信息检索的基本原理就是检索者将检索提问的标识与存贮在检索工具中
的信息特征标识进行比较,结果凡是信息特征标识与检索提问标识相一致,
或者信息特征标识包含了检索提问标识,那么,具有这些特征标识的信息就 从检索工具中输出,输出的信息线索与检索者所需的信息线索大致吻合。
从一定的意义上说,信息检索成败的关键,是能否用规定的检索标识系
统(即检索语言)来正确标引检索提问,而正确标引检索提问的关键又在于 是否能从检索工具的词表中选出最能确切表达检索提问所需要的标识。
二、信息检索方法
  信息检索的效率与具体的信息检索方法有很大的关系,运用有效的信息 检索将能够以最少的时间获得最满意的检索效果。归纳起来,信息检索方法 主要有以下三类。
(一)手工检索方法 这是查找印刷型文献信息的传统方法,一般分为以下四种。
  1.直接查检法。指不依靠检索工具,而通过浏览或查阅原始文献直接获 取文献信息的方法。其优点在于,能够明确判断文献所包括的信息是否为自 己所需要的信息,缺点是难以获得全面的文献,且费时费力。如果检索课题 单一,文献相对集中,又熟悉检索书刊,则可用这种检索方法,而对有多个 主题、文献离散度较大的课题,就难以获得理想的检索效果。由于此方法不 依靠检索工具,因此不是严格意义上的文献信息检索方法。
  2.间接检索法。即借助于检索工具获取所需文献的方法,一般包括顺查 法、倒查法和抽查法。
  
  (1)顺查法:是一种从旧到新的顺时序的查检方法,一般需要了解检索 课题的背景、发生和历史简况,再通过有关的参考工具核实和深入了解该课 题的实质性内容和概貌,从而选择比较适宜的检索工具,从问题产生的年份 着手查起,直到满意为止。开始选材时可适当放宽范围或要求放松一些,待 发现这类信息源相当丰富时,可缩小范围或要求严一些,以避免漏选而返工 重检。但逐年的查检,劳动量因覆盖面大而随之增大,检索效率不高,多在 缺少综述性文献时采取。其优点是查全率较高。
  (2)倒查法:指由新而旧的逆时序的查检方法。此法多用于查找新课题 或用于为老课题查找新资料。课题对近期的状况比较重视,从新情况开始查 到一定的基本资料时为止,时间终点视课题要求而定。其优点是省时省力, 检索效率较高,但查找资料不如顺查法齐全,容易出现漏检,因而对课题研 究的全貌不易把握。
  (3)抽查法:根据课题的要求,针对所属学科处于发展兴旺时期的若干 年进行文献信息查找。用这种方法能获得相对集中、具有代表性、且能反映 学科发展水平的文献信息,往往能起到事半功倍的效果。其优点是检索效率 高,检索效果好,但要求在检索之前须掌握该学科的发展情况,熟识该项技 术发展的特点,以便正确地选择抽查的时间范围。
3.追溯法:也称为文献追踪法。此法不是利用确定的检索工具,而是利
用已知文献的某种指引,如文献附的参考文献、有关注释、辅助索引、附录 等,追踪查找文献。根据已知的文献指引,查找到一批相关文献;再根据相 关文献的有关指引,扩大并发现新的线索,去进一步查找。如此反复追踪扩 展下去,直到检索到切题的文献。用追溯法检索文献,最好利用与研究课题 相关的专著与综述,因为它们所附的参考资料既多且精。此种方法一般在缺 乏检索工具或对检索工具的使用不熟悉,以及文献线索很少的情况下使用。 其优点是简单方便,容易查找。缺点是漏检和误检的可能性较大。
4.综合法:是以上各种检索方法的综合使用,即先通过选出的检索工具
查出一批相关文献,然而再利用这批文献所附的参考文献进行追溯查找,从 而得到更多的相关文献,如此交替循环使用,直至满足检索需求为止。综合 法是一种“立体型”的检索方法,其检索效果较好。
(二)机械检索方法
  指借助一定的机械进行检索的方法。所用机械如卡片检索机、缩微胶卷 检索机、电子计算机等。当前,一般说来,机械检索就是指电子计算机检索。 电子计算机检索具有检索速度快、检索途径多、检索效果好等特点,可 人机对话随时变化检索要求,并可显示阅读或联机、脱机打印和输出符合检 索需求的部门。1964 年,美国国立医学图书馆建立了医学文献分析与检索系 统,并于 1971 年发展成联机检索系统,目前已成为世界上应用最广泛的计算 机医学文献检索系统,其检索功能也越来越强,从仅能用主题词检索发展到 可以用自由词、字符串、词干、词头以至句子、符号、公式等检索。计算机 检索已成为信息检索的必然发展趋势。当前,光盘的出现及其与微型电子计 算机的联合应用,使信息检索又发展到一个新的时期。光盘检索系统建立方 便,不受检索时间及通讯线路的限制,能够深入到千家万户,已成为电子计 算机信息检索普及应用的较为理想的检索系统。另外,随着计算机网络进一
步发展,计算机网络化信息化将成为新的趋势。 电子计算机检索的方法是以概念组配系统为基础的概念组配方法、检索

时通常需要把用户信息提问的复杂概念分解为若干单元概念,此时,各个单 元概念仅能表达用户需求的各个侧面,必须将各个单元概念加以恰当的逻辑 组配,才能表达出用户提问的一个完整概念内容,即表达单元概念的检索词 加以恰当组配,形成检索式,才能检索出所需的文献信息。
  电子计算机信息检索在西方发达国家已得到普遍应用,在我国大中城市 也有一定的普及,而一些中小城市由于条件所限,其应用范围还比较窄,还 未得到推广。
(三)非正式方法 除传统的手工检索方法和先进的电子计算机信息检索方法外,还可以利
用另外一种获取信息的重要方法——非正式方法。 非正式方法通常也称之为非文献方法,是指不借助文献而获取信息的方
法。它是一种较为古老的信息获取方法,在印刷术发明前,它是交流、获取 信息的主要方法,目前已不起主导作用,但仍很重要。非正式方法主要通过 交谈、书信往来、参观访问、考察、参加学术会议、听演讲、实物样品的搜 集及技术考察等方式获取所需的信息,一般比从正式发表的文献中获取的信 息要早得多,快得多。据日本学者报道,在学术杂志上发表的论文,约 1/5 已在学会内部刊物刊登,约 1/10 已在地方学术会议上宣读过,约 60%论文 作者在原稿完成后即已复制送给同行阅读,论文正式出版前,以口头或文章 形式将其内容作为信息传递的达 67%。可见,非正式获取信息的方法不失为 一种较好的方式,其有迅速性、新颖性、针对性和直观性的优点,其缺点是 难以评估信息的价值,客观性和真实性也难以保证,且适用范围有限。

第三节 信息检索的途径和程序


一、信息检索途径 检索途径依赖于文献信息的特征。文献具有两种特征:即外部特征和内
容特征。文献的外部特征主要是指文献载体上 标明、易见的项目,有文献题
名、责任者、序号、出版者、出版地、出版年等;文献的内容特征有所属学 科及所属主题等。因此,根据文献的外部特征和内容特征,将信息的检索途 径分为两大类型。
(一)文献外部特征的检索途径
  1.责任者途径。即通常所说的著者姓名途径。责任者是指对文献内容负 责或作出主要贡献的个人或团体,包括著者名、评者、编者等。责任者途径 是根据文献著(译、编)者的名称查找文献信息的途径,是外文检索工具较 为重要的途径和惯用途径。按著者姓名字顺排列,易于利用,又便于编排, 也易于机械加工。
  使用著者途径检索文献信息须注意文种不同和姓名排列方式的差异,如 单姓、复姓、父母姓连写、本名、教名以及姓名中附加荣誉称号等。欧美人 的姓名习惯上名在前、姓在后,而目前使用的各种著者目录和著名索引则按 姓在前、名在后的方式以字序排列,因此,在具体检索时应按姓在前、名在 后的字顺查找。
  2.题名途径。也称书名途径。题名是表达、象征、隐喻文献内容及特征 的词或短语,是文献的标题或名称,包括书名、刊名、篇名等。文献题名有 正题名、副题名和辅助题名。题名检索途径是指根据文献题名查找文献信息
  
的途径。它把文献题名按照字顺排列起来编成索引,其排法简单易行,易于 查检。但因书名和篇名较长,不宜作为检索标识,又因不同文字的形体结构 和语法结构有自己的特色,字尾变化复杂,所以难以把同样意义的文献集中 于一处,实际使用价值已不为人们看好,而逐渐失去重视。
  3.文献类型途径。文献信息检索工具收选的信息源多种多样,如期刊、 图书、科技报告、专利、技术标准、政府出版物、会议录等。为满足查询者 不同的检索要求,如会议文献或专利文献的查找,不少检索工具也增设文献 类型检索途径,如专利号索引、图书索引、会议索引、报告号索引等,以满 足不同类型检索用户的需求。
(二)文献内容特征的检索途径
  1.分类途径。是指按文献内容的学科分类体系查找文献信息的途径。一 般说来,一种检索工具的编制都须按学科建立自己的分类体系,其收录的文 献按分类目录中的排序进行编排,这样编排的结果可将同一学科的文献集 中,便于按学科查找文献。分类目录和分类索引是普遍使用的分类检索工具。 其缺点是,对于较难分类的新兴学科和边缘学科来说,查找不便,查找时须 首先了解反映学科体系的分类表,再将概念变换为分类号,然后按分类号进 行检索,由于概念变换为分类号的过程中易出差错,所以也会导致漏检和误
检。
  但是很多检索者希望从其熟悉的分类系统,从学科概念的上下左右关系 了解事物的派生、隶属、平行等关系,满足族性检索的需求。分类途径能够 较好地满足这一要求。
2.主题途径。主题是文献所表达的中心思想、所讨论的基本问题和研究
对象。主题途径指根据表达文献主题内容的主题词及其派生出的关键词为标 识查找文献信息的途径。其主要检索工具是主题目录和主题索引,或标题词 索引、关键词索引、叙词索引等。主题目录按文献内容主题词组织,以文献 所讨论的主题直接检索,可以查到分散于各学科里同一主题的文献。主题索 引是工具书辅助索引之一,它可揭示包含该主题的文献信息在文献正文中的 位置。
主题途径检索文献信息的优点是,用主题词作为标识,表达概念准确、
灵活、专指度高,可使同一主题的文献集中,检索效率高。又由于主题词可 随科技发展增加或更新,因此便于查找新兴学科的文献信息,在各学科和其 分支交叉渗透日益增多的当前,主题途径较好地适应了这一要求。但其缺点 是,主题索引缺少学科系统的整体性和层次性,因此,难以达到很高的查全 率。
  3.分类主题途径。是分类途径与主题途径的结合,它能够尽量避免两者 的不足,取其所长。一般说它比分类体系更具体一些,无明显的学术层次划 分,又比主题法概括一些,但保留了主题体系按字顺排序以便准确查检的特 点。
  4.其它途径。主要是指一些辅助检索途径,如按化学分子式排出的“分 子式索引”,可提供一种从分子式角度查找化学化工文献的目的,另外还有 化学物质索引、合金索引、地名索引等各种专门索引,以满足查检特定种类 文献信息的需求。
二、信息检索的程序 信息检索工作是一项实践性和经验性很强的工作。对于不同的待检课

题,将采用不同的检索程序,即文献信息检索的具体步骤和方法应因题而定, 因人而易。但在实际检索工作中,还是可以依据信息检索的基本原理,归纳 出文献信息检索的一般程序和步骤,以使检索工作有条不紊,取得较好的检 索效果。
通常,信息检索接下列程序进行:
(一)分析检索课题,明确提问要求 所谓检索课题是根据查找文献信息或查解科研疑问的需要所拟定的问
题。在检索之前,首先须对待检课题进行认真分析,明确检索的目的和具体 要求,以便使用户的检索提问符合检索工作的要求,做到检索与提问一致, 避免盲目检索。
  在分析课题的基础上,还要辨明检索课题的类型,是查文献,或是查事 实,还是查数据,以及要求查找文献信息的时间范围、学科范围等,以求对 检索课题有个总的认识。
(二)选择检索工具 当检索课题明确以后,就要选择与课题相符、质量较高、检索手段比较
完善的检索工具。主要考虑该领域有哪些适用的工具,其出版时间和所概括 的范围能否包括拟检的问题,其质量和权威性如何,是否具备多种检索途径 等。
一般对检索工具的要求是:收录文献资料的专业广、类型齐全、数量大、
报道速度快、文摘详细,并附有各种索引。检索时,既要选择专业性检索工 具,也要考虑使用综合性检索工具,以获得满意的查全率。
选择检索工具时,可利用有关的指南、检索手册及便览等,以对各种工
具书进行比较和选择,从而确定更适合课题要求的检索工具。
(三)确定检索途径和检索方法 检索途径和检索方法的选择,取决于检索课题的要求和已掌握的情况。
如果课题检索的泛指性较强,即所需文献的范围较广,则选用分类途径较好,
检索方法可以选用顺查法,以全面了解课题的研究背景、发展及现状;反之, 若课题检索的专指性较强,即所需资料比较专深,则选用主题途径为好,检 索方法可选用倒查法和抽查法,以获得该课题的最新文献信息。检索途径和 方法选择不当,将造成误检和漏检,从而影响检索效果。
(四)实施信息检索
  以上所述皆为检索的准备阶段,有些更带有策略性的,在检索前应进行 全面的考虑。检索过程的实施一般可分三步进行。①试查:按已选定的检索 工具和方法,抽样或小范围初查一下,若发现问题,可对检索方法作适当修 改。②正式查:这是信息检索的主体,主要是利用检索工具进行查找,通常 利用工具的目次、分类表、主题词表、类目索引或检索手册等辅助性工具, 以使检索更为直接准确。③补查:检查结果发现仍不能满足需要,或发现新 的查找线索,可进一步做些补查工作。
(五)获取原始文献 根据检索所得的题录或文摘,可以查找到原始文献的作者、所在刊物及
收藏单位,然后利用馆藏目录或其他各种目录,以馆藏中查找原文或向其他 收藏单位索取原文或复印件,也可通过查得的作者联系地址或作者单位向作 者本人索取。至此,一次信息检索的过程终止。

第四节 信息检索效果的评价


  所谓检索效果,就是利用检索系统(或检索工具)开展检索服务时产生 的有效结果。检索效果评价着眼于整个检索系统,着眼于系统的使用效果和 服务质量,因而它直接反映了检索系统性能。
  目前,衡量检索效果的方法主要有三个方面:①检索结果有效性的评价, 即检索的技术效果的评价,这是对检索系统检出相关文献以满足用户提问要 求能力的一种测度,主要以查全率和查准率为评价标准。②检索系统实用性 的评价,包括系统对用户是否需要,是否实用,有多大的实用效果,即检索 的社会效果的评价,其中要涉及到社会学及其方法。③检索费用——效率评 价,即检索的经济效果的评价,包括检索服务的成本和时间消耗,这涉及到 信息检索系统的经济学问题。然而,由于检索效果的评价涉及到许多问题, 可以从不同的角度采用不同的检索效果评价方法。其中,最常用的检索效果 评价指标为查全率和查准率。
一、查全率与查准率
  查全率和查准率是由 J.W.佩里和 A.肯特于 50 年代中期提出来的,后经 不断改进和完善,至今已成为评价检索效果最常用的两项关键指标。
确定查全率和查准率最常用的方法是有名的 2×2 表。

    它反映检索系统在实施某一次检索时所得的结果 其中 a 表示被检出的相关文献,即查准的文献;
b 表示被检出的非相关文献,即误检的文献;
表示未检出的相关文献,即漏检的文献;
d 表示未检出的非相关文献,即正确拒绝的无关文献。 存贮在文献检索系统文档中,参加检索的全部文献量为(a+b+c+d)。从
检索系统角度来看它们可以分为两部分:一部分是被检出文献(a+b),也就
是与检索策略相匹配的部分;另一部分是未检出文献(c+d),即与检索策略 不相匹配的部分。因为两部分文献反映了检索系统处理是否与检索提问相 关,故称之为系统相关性预报。
  另一方面,从用户的角度来看,检索系统文档中参加检索的全部文献也 可以分为两个部分:一部分与用户需要相符,称为相关文献(a+b);另一部 分与用户需求不符,称为非相关文献(b+d)。因为这两部分文献反映了用户 判断是否与检索需要相关,故又称之为用户相关性判断。
这样,便可以根据 2×2 表来确定查全率与查准率的含义。 查全率就是系统在进行某一检索时,被检出的相关文献量与系统文档中
实有的相关文献量的比率,可用下式表示:

被检出相关文献量
查全率(R) = 文档中相关文献总量 / ×100%
   = a ·100%
a + c
  查准率就是被检出的相关文献量与被检出的文献总量的比率,可用下式 表示:
  
查准率(P) =

被检出相关文献量
被检出文献总量

×100%

a
=
a + b


·100%

  可见,查全率是用来描述检索系统检出相关文献的能力;查准率用来描 述检索系统拒绝非相关文献的能力。
  在具体评价检索系统的检出效果时,一般应将查全率与查准率结合起 来,否则难以准确反映检索系统的功能和检索效果。
  虽然查全率与查准率能较好地反映出一个检索系统的检索效果,但是, 它们也存在一些难以克服的局限性和固有的缺限。首先,一个检索系统中总 共有多少相关文献(a+c)难以确切计算,而只能是大概估算;其次,对于全 部相关文献对用户的价值是建立在假定具有同等价值上的,然而实际上并非 如此。不同的用户对相关文献的认识也可能不一致,因此存在着太多的主观 成分和一些模糊概念,所以说明上述方法求得的查全率与查准率并不是绝对 的,而只能是相对近似地描述检索效果。
分别与查全率和查准率相对应的指标是漏检率和误检率,可以用下面的
公式加以表示:


漏检率(M) =

未检出的相关文献 文档中相关文献总量


×100%

= c
a + c


·100%


误检率(N) =

检出的不相关文献量 检出的文献总量


×100%

b
=
a + b


·100%

从上述式子可以看出:R+M=1,R+N=1。 此外,还可以求出离散率和正确拒绝率的公式:
b

离散率(F) =


b + d

·100%,它表示不该检出而被检出的文献量的比率。

正确拒绝率(Rs) = d
b + d

·100 %,它表示正确拒绝检出无关文献量的比率。

二、影响查全率与查准率的因素 从查全率与查准率的定义可以看出,这两个指标主要是面向用户的指
标。用户是一方,由检索人员与检索工具组成的检索系统是另一方,对于用 户提出的每一查找要求,检索系统作出相应的响应,这两个指标反映了用户 对检索系统响应的主观评价。因此,影响查全率与查准率的各种因素主要来 自用户与检索人员的配合、检索策略、标引和检索语言等方面。

  1.标引的影响。标引人员标引文献的正确性对查全率与查准率有直接影 响。标引人员在标引文献时主要面临两方面的问题:①确定文献中含有哪些 有用信息及它们能够响应哪些查找要求;②如何用给定的检索语言表达这些 检索要求。其中第一个问题更关键些。如果提取出来的不是有用信息,则以 后查找时查准率降低;如果有用信息没有被提取出来,则以后查找时查全率 降低。有用信息提取出来之后,获得正确标引的主要困难在于确定需要这些 有用信息的用户会提出怎样的查找要求,如果将能够响应的某个查找要求遗 漏掉,则用户从这个查找中就查不到会有该有用信息的文献,因而查全率会 降低。
  文献所能响应的查找要求确定出来之后,在将其转换成标引词的过程 中,标引人员可能发生两种类型的差错:①遗漏了必须描述的概念,从而使 查全率降低。发生这种差错的原因是标引人员的疏忽,或者因检索语言中没 有相应的标引词,也没有相应的使用参照,标引人员不知如何标引而略去。
②选用了不合适的标引词,使得检索人员利用这个词查出的文献是无关的, 因而引起查准率降低;或者检索人员利用正确的标引词查找时,有关文献因 标引了不合适的标引词而查不出来,则导致查全率降低。
  此外,标引的网罗性与专指性对查全率与查准率也有影响。标引的网罗 性高,查全率也高,但查准率低;标引的专指性高,查准率也高,查全率则 较低。
2.检索语言的影响。由检索语言引起的查找失败有两种类型:一是因标
引词专指性不足引起的查找失败;一是因标引词之间的含糊关系或虚假关系 引起的查找失败。
标引词的专指性不足既会造成查全率降低,又会造成查准率降低。
  标引词的专指性是影响查准率的积极因素,但高专指性的标引词是提高 查准率的同时有降低查全率的趋向。这是因为标引词的数目越多,能够表达 的意义差别也就越细致,标引就越难于取得一致。
如果检索语言中的标引词不规范,或允许使用过多的标引词,则可能引
起虚假组配现象,将使查准率降低。 词表结构对查找有很大影响。如果词表不以某种方式把所有关连的标引
词集中在一起,那些检索人员就不能将与查找要求有关的全部标引词找出
来,查全率就会降低。词表对标引也有很大影响,较好的词表参照系统和等 级结构关系能够提高查全率。
3.检索策略的优劣。所谓检索策略是指检索者对检索的每一步骤所做的
安排和部署,如选择检索工具、检索方法、检索途径等。它主要取决于检索 人员的知识水平与业务能力,因此,检索策略的优劣是影响检索效率的主观 原因。
  4.查全率与查准率的互逆相关性。英国 Cleverdon 等人由试验得到的查 全率—查准率经验曲线表现,查全率与查准率是互逆的,即对于一个查找要 求,如果要设法提高查全率,则查准率会降低,反之亦然。这也可以看作是 文献信息检索的一个基本特征。
三、提高检索效果的措施 一般地说,检索人员与用户对于检索效果的要求是一致的,既要求有较
高的查全率,又要保证有理想的查准率。然而,具体到每一个用户,则他们 对检索效果的要求可能不一样,这取决于他们检索的目的。如果用户仅仅想

了解某一专业领域的发展概况,则对查全率有较高的要求;如果用户检索是 为了解决工作中的某个技术难题,就需要较高的查准率。因此,检索人员可 以根据实际用户需要合理地调节查全率和查准率。
总体来说,提高检索效果可以采取以下措施:
  1.提高检索工具或检索系统的编辑质量。这就要求检索工具的收录范围 要全面,内容要准确、详尽。同时,要求检索工具提供不同途径的检索入口, 即辅助性索引要齐全。2.提高索引语言的专指性,加强对索引词汇的控制, 完善词表的结构及其参照关系,使索引语言更有利于族性检索,也有利于特 性检索,同时兼顾查全率和查准率。
  3.提高标引质量。标引人员在进行标引时,应做到不错标、不漏标、不 滥标,使标引词的定义和使用范围与检索系统的文献内容相一致,从而提高 检索的准确性。
  4.提高检索人员的业务水平,力争做到检索前正确理解检索课题的实质 要求,制订最优的检索策略,同时,在检索过程中保持认真负责的精神,减 少人为的错检和漏检。
  
第三章 信息检索语言

第一节 信息检索语言概述


一、信息检索语言的定义 信息检索语言是根据信息检索的需要而创造的人工语言。一般又称为信
息、存贮与检索语言,索引语言,标引语言,文献工作语言,标识系统等。 其实质是用于表达一系列概括文献信息内容的概念及其相互关系的概念标识 系统。它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代 表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征 的一套代码,用于对文献内容和信息需要进行主题标引、特征描述或逻辑分 类。
  目前世界上有许多种信息检索语言,比较著名的有:《中国图书馆图书 分类法》、《汉语主题词表》、《国际十进分类法》、《杜威十进分类法》、
《NASA 叙词表》等,都是信息检索语言的一个语种的。对图书文献资料所标 的分类号或检索词,即是信息检索语言的语词。
信息检索语言通常应具备下列三个基本要素:
  1.有一套用于构词的专用字符。字符是检索语词的具体表现形式,它可 以是自然语词中的规范化名词或名词性词组,也可以是具有特定含义的一套 数码、字母或代码。
2.有一定数量的基本词汇用来表述各种基本概念。基本词汇是指组成一
部分类表或词表中的全部检索语词标识之总汇,如分类号码的集合就是分类 语词的词汇,一个标识(分类号、检索词、代码)就是一个语词。而分类表、 词表等可以说成是检索语词词典,是把自然语词转换成检索用语的工具。
3.有一套专用语法规则来表达由各种复杂概念所构成的概念标识系统。
标识是对文献信息特征所做的最简洁的表述。标识系统是对全部标识按其一 定的逻辑关系编排组合成的有序的整体。语法是指如何创造和运用那些标识 来正确表达文献信息内容和信息需要,以有效地实现信息检索的一整套规 则。
任何一种信息检索语言,都要采取一定的方法和手段,将它的各种要素
按照一定的结构结合成一个有机的统一体,以便发挥其最佳功能。概括起来, 信息检索语言的主要功能大致有如下四点:
(1)对文献的信息内容(及某些外表特征)加以标引;
(2)对内容相同、相关的信息加以集中或揭示其相关性;
(3)对大量信息加以系统化或组织化;
(4)便于将标引用语和检索用语进行相符性比较。 二、信息检索语言在情报检索中的作用 信息检索语言作为信息检索专用语言,它在信息检索过程中所起的作用
是极为重要的。 信息检索的全过程包括信息的存贮和信息的检索两个方面。信息存贮是
指编制检索工具和建立检索系统。情报检索即是利用这些检索工具和检索系 统来查找所需的信息。所以,信息的存贮和检索是两个有着密切联系的过程, 其中,信息检索语言在这两个过程中的作用以及这两个过程的相互关系如图
1 所示:


图 1 信息存贮与检索过程及信息检索语言在其中的作用 当存贮信息时,文献标引人员首先要对各种文献进行主题分析,即把它
所包含的信息内容分析出来,使之形成若干能代表文献主题的概念,并用信 息检索语言的语词(标识)把这些概念标示出来,然后纳入检索工具或检索 系统。
  当检索信息时,信息检人员首先对检索课题进行主题分析,即把它所涉 及的检索范围明确起来,使之形成若干能代表信息需要的概念,并把这些概 念转换成信息检索语言的语词(标识),然后从检索工具或检索系统中查找 用该语词标引的文献,从而找到包含所需信息的文献。
  由此可见,信息检索语言是信息检索系统的重要组成部分,在信息检索 系统中起着语言保障的作用,是沟通信息的存贮和检索两个过程,标引人员 和检索人员双方思想的桥梁。如果没有信息检索语言作为标引人员和检索人 员的共同语言,就很难使标引人员对文献信息内容的表达(标引用语)和检 索人员对相同内容的信息需要的表达(检索用语)取得一致,信息检索也就 不可能顺利实现,甚至根本不能实现。
信息检索语言作为信息检索专用语言的特点,是能简单明白又比较专指
地表达文献及检索课题的主题概念,容易将概念进行系统排列,在检索时便 于将标引用语和检索用语进行相符性比较;语词与概念一一对应,排除了多 词一义、一词多义和词义含糊的现象,并且还能显示出概念之间的相互关系, 从而能帮助信息检索人员又全、又准、又快地检索到含有所需信息的文献, 可见,信息检索语言对提高信息检索效率,特别是提高查全率和查准率具有 重要的作用。
三、信息检索语言的基本要求
  信息检索语言的质量高低对信息检索效率有重大影响,因此,为了保证 信息检索的实施能够达到满意的效果,就必须对信息检索语言提出一些共同 的基本要求。
1.要求信息检索语言保证具有较高的查全率和查准率,力求把信息检索
系统中的有关用户需求信息尽量多地查检出来,并使漏检率和误检率控制在 允许的范围之内。
  2.必须易于标引和易于检索。信息检索语言不仅要易于理解,易于为标 引人员和检索人员所掌握,而且在加工过程中更要易于标引,在检索过程中 易于应用。保证易标、易检的因素主要包括:
(1)语词或代表符号的含义必须明确而不能含混不清;
  (2)丰富的语言概念,概念的面广,使遇到的文献信息都能有类可归, 有号可用;
(3)标识的可观性,使标引人员及检索人员易于识别和理解;
(4)查词查号手段多样,便于标引人员和检索人员从各种角度都能方便
中小学信息科学知识:信息存贮与检查的下一页
成为本站VIP会员VIP会员登录, 若未注册,请点击免费注册VIP 成为本站会员.
版权声明:本站所有电子书均来自互联网。如果您发现有任何侵犯您权益的情况,请立即和我们联系,我们会及时作相关处理。


其它广告
联系我们     广告合作     网站声明     关于我们     推荐PDF     全部分类     最近更新     宝宝博客
蓝田玉PDF文档网致力于建设中国最大的PDF格式电子书的收集和下载服务!