1.1 有关信息检索的一些概念
1.2信息检索的类型及特点
1.3信息检索的基本步骤
1.4检索工具
1.5 检索语言
1.6 信息检索的发展趋势
2008-6-27 3
1.1.1信息、文献、知识
1.信息的定义、特征和分类
信息的定义
信息是所有事物的存在方式和运动状态的反映,是
频率变化的一种感知,并且总是借助于一定的物质载
体传输和存储(或者说信息是指消息接受者来说预先不
知道的报道)。对于这个定义可以从两个方面理解:其
一,客观世界中不同的事物是千差万别的,呈现出不同
的状态和特征,从而在人们认识的过程中形成不同的信
息。其二,人们感知外部世界,通常是通过声频或视频
的变化而产生的,正如我们能听到雷鸣,鼓乐,能看到
闪电,图像…
2008-6-27 4
2.信息的特征
(1)传递性
(2)时效性
(3)共享性
(4)客观性
其他的特性还有开发性、存储性、价值的
不定性、变换性、可伪性等。
2008-6-27 5
信息的分类
(1)以存在环境为依据分为:
• 自然信息
• 生物信息
• 机器信息(自动控制系统)
• (人类)社会信息。
(2)以认识主体为依据分为:
• 客观信息,是指对事物不加判断的如实和公正的报
道,即关于认识对象的信息。
• 主观信息,一般是依据事实和分析,阐明个人对论题
的观点和见解,是经过思维主体加工的信息。
2008-6-27 6
(3)以信息的逻辑意义和利害关系划分:
• 有益信息:对社会发展有积极作用的、能够消
除人们对未知事物不确定性的信息,它是人类
社会的资源和财富。
• 无用信息:指对信息使用者所从事的某种活动
没有作用的、多余的信息。
• 有害信息:指对社会发展和信息用户有消极和
阻碍作用的不真实或庸俗、媚俗的信息,主要
有虚假信息和信息等。
2
2008-6-27 7
(4)按信息表现形式划分为:
• 文字信息
• 图像信息
• 数值数据信息
• 语音信息
(5)按信息的媒体形式分为:
• 文本信息,按线性顺序排列的,阅读时,人们跟随文本的线性流
向吸收其中的知识单元。
• 超文本信息,按知识单元及其关系建立的知识结构网络。其数据
库由结点和链路组成,查阅超文本信息时,以知识片段及其关系
作为追踪、检索的依据。
• 多媒体信息,多媒体是包括文本、图像和声音在内的各种信息表
达或传播形式的总称。多媒体信息系统能针对用户的需求提供各
种形式的信息。
• 超媒体信息,是指通过计算机控制,把各种文献载体和各种内容
综合为一个整体,从而向读者提供各种形式和各种内容的资料。
超媒体是超文本与多媒体两种技术的结合,即在信息浏览环境下
超文本的信息管理方式与多媒体的信息表现方法结合在一起时,
就称为超媒体。
2008-6-27 8
2.知识的定义和分类
知识的定义
• 知识,是人类对于客观世界的认识。在这里,
知识作广义的理解,包括消息、情况、事实、
数据。知识可分为理性知识和感性知识。理性
知识,是对客观事物的本质和规律性的认识,
是经过思维、逻辑加工的知识,构成知识体
系;感性知识,是对客观事物的描述和对现象、
事实的感知,是未经逻辑加工的知识。
2008-6-27 9
知识的分类
知识按不同标准可作如下分类:
• (1)依照反映对象的深刻性和系统性程度,知识分为
生活常识和科学知识;
• (2)按知识的成熟程度,分为经验知识、理论知识。
• (3)按领域:哲学知识、社会科学知识和自然科学知
识;
• (4)按用途:科学知识、技术知识、文化知识;
• (5)按水平:低级知识、中级知识和高级知识;
• (6)按性质,普通知识、专业知识;
• (7)按载体:隐性知识、显性知识。
2008-6-27 10
3.文献的定义和分类:
文献的定义
• 文献是记录有知识和信息的一切载体,是固化
在载体(纸张、光盘)上的知识。文献是物化
的精神产品,或者说,文献是知识信息的物化
形态。其中,信息内容是文献的知识内核,载
体材料是文献的存在形式和外壳,而符号系统
和记录方式则是二者联系的桥梁和纽带。这4
个要素相互联系就构成了文献的四维框架结构。
2008-6-27 11
文献的分类
根据其内容性质和加工程度的不同,文献可分为以下四个级别:
• (1)零次文献:未经出版发行的文献,包括手稿、个人通信、原
始记录等。
• (2)一次文献:首次出版的各种文献,也称原始文献。如期刊论
文、科技报告、会议论文、专利说明书等。一次文献是以科研生
产活动的第一手成果为依据而创作的文献,内容丰富,参考价值
大,是我们利用的主要对象。
• (3)二次文献:报道和查找一次文献的检索书刊,如各种目录、
题录和文摘等。二次文献是图书情报工作者在大量收集原始文献
的基础上,经过分析、归纳、重组后出版的。二次文献是一次文
献的集约化、有序化的再次出版,是贮藏、利用一次文献的主要
的、科学的途径。
• (4)三次文献:利用二次文献提供的线索,选用大量一次文献的
内容,经综合、分析和评述再度出版的文献,如各种述评、进展
报告、动态综述、手册、年鉴和百科全书等。我们使用的各种教
科书也属三次文献。
2008-6-27 12
文献按存储载体可分为:
• (1)印刷型:通过铅印、油印和胶印等手段,将知识固化在纸张
上的一类文献。例如,图书、期刊以及各种印刷资料。这是一种
有着悠久历史的传统文献形式,至今仍广为应用。它的主要优点
是便于阅读和流传,缺点是体积大,信息密度低。以纸张为存储
介质,用印刷技术出版。如:书、刊等。
• (2)缩微型:以印刷型文献为母本,采用光学摄影技术,把文献
的影像固化在感光材料上的一类文献。常见的缩微型文献有缩微
平片和缩微胶卷两种。这种文献的优点是体积小,信息密度高,
缺点是阅读必须借助阅读机或利用缩微复印机。
• (3)声像型:这是一种非文字形式的文献。常见的有各种视听资
料,如唱片、录音带、电影胶片、激光声视盘(CD-ROM)、幻
灯片等。这类文献记录声音和图像,通过唱机、录音机、录像机、
放影机和投影机等予以重现,可以使人闻其声、观其形。
• (4)机读型:这是近年来由于计算机的广泛应用而产生的一种新
文献。常见的是各种已录有内容的磁带、磁盘和光盘。这种文献
的存贮、阅读和查找利用都须通过计算机才能进行,所以既有信
息量大、查找迅速的优点,又有设备昂贵、使用费用高的缺点。
3
2008-6-27 13
按出版方式,文献可分为:
• 图书 Book:对已有的研究成果或生产经验作概括论述。
• 期刊Periodical:特点:名称固定,定期出版、并计划无限期出
版;出版周期短、报道快;数量大、内容丰富。
• 报纸Newspaper:出版周期最短的定期连续出版物。特点:内容
新、涉及面广,读者最多,影响面广。
• 专利文献Patent Literature:纪录有关发明创造信息的文献。一
般分为国际标准、地区标准、国家标准、行业标准、企业标准。
• 会议文献Conference Literature :在各种会议上宣读和交流的
论文、报告和其他有关资料。
• 科技报告Scientific & Technical Report:对科学技术研究结果
的报告或研究进展的纪录。目的:向上级主管部门汇报。
• 学位论文Dissertation for Academic Degree:作者为获取某
种学位而撰写的科学论文。硕士博士论文具有较高的参考价值;
• 政府出版物Government Publication:各国政府部门及其所属
机构颁布和出版的文献资料。
• 产品样品资料Product Sample Book:厂商为向用户宣传和推销
其产品而印发的介绍产品情况的文献。如:水利水电出版社教材
目录与简介。
• 此外档案ArchivesRecords、Music Score、Map等都是文献家
族中的重要成员。
2008-6-27 14
4.信息、文献、知识三者的关系:
三者之间的联系:
(1)信息概念不仅包括人与人之间的消息的交换,而且
还包括人机之间、机器与机器之间的消息交换,以及
动、植物界信号的交换。
(2)知识是人类通过加工吸收信息,对自然界、人类社
会以及思维方式与运动规律的认识与掌握,是人的大
脑通过思维重新组合的系统化信息的集合。
三者之间转换:
(1)物质运动发出信息;
(2)信息经人脑加工变成知识;
(3)知识被记录形成文献、被传递成为情报;
2008-6-27 15
1.1.2信息检索的定义和分类
信息检索:简单地说就是将信息按照一定的方式组织和存
储起来,并根据信息用户的需要找出有关信息的过程。
信息检索的类型,按检索手段分为:
• (1)手工检索(简称手检):例:以前到图书馆使用卡片目录找
书。
• (2)计算机检索(简称机检):又分为几个阶段:脱机信息检索、
联机信息检索、光盘信息检索、网络信息检索。
按信息检索手段划分:
• (1)传统信息检索:就是手工信息检索,是利用各种印刷型检索
工具来查找文献的一种方法。
• (2)现代信息检索:现代信息检索即计算机信息检索,是指利用
计算机和网络来处理和查找文献信息的检索方式。
2008-6-27 16
1.1.3 信息检索的几个技术指标
(1)检索的方便性
(2)收录全面性
(3)检索效率。
• 检索效率主要用查全率和查准率两个指标来衡
量。
(4)报导及时性
2008-6-27 17
1.2信息检索的类型及特点
1.2.1 手工信息检索
• 以人工方式查找和提供情报的系统。其特点是
人直接参与检索过程。所使用的情报检索工具
包括书本式目录、文摘、索引以及各种卡片
(穿孔卡片、元词卡片)。手工信息检索具有
操作简单、费用低廉、查准率高等优点,但耗
时较多效率低。随着计算机的普及,手工信息
已逐渐被计算机信息检索所代替。
2008-6-27 18
1.2.2 脱机信息检索
以批处理方式进行的脱机检索,即检索只能在检
索系统所在地进行,由检索人员定期将用户课题
汇总,批量输入计算机,用户不能参与检索过
程,不能即时浏览检索结果,修改检索方案,即
不能人机对话。
脱机检索所存在的几点不足表现在:
• (1)地理上的障碍,指用户与检索人员距离较远时,
不便于检索要求的表达,也不便于检索结果的获取。
• (2)时间上的迟滞,指检索人员定期检索,用户不能
及时获取所需信息。
• (3)封闭式的检索,指检索策略一经检索人员输入系
统就不能更改,更不能依据机检应答来修改检索式。
4
2008-6-27 19
1.2.3 联机信息检索
建立在计算机联机处理方式上的信息检
索,即检索者通过检索终端和通信线路直
接查寻检索系统数据库的计算机检索方式。
用户采用终端并通过通信线路,以与检索
系统对话的方式直接访问数据库,进行存
储、检索、打印、修改数据等处理。
2008-6-27 20
1.2.4 光盘信息检索
光盘检索具有储量极大而体积微小,要求
设备简单,可随地安装,使用方便、易于
操作,检索费用低(不需要昂贵的联机检
索通讯费用),因可随时修改检索策略而
具有很高的查全率和查准率等优点
2008-6-27 21
1.2.5 网络信息检索
(1)交互式作业方式
(2)用户透明度
(3)信息检索空间的拓宽
(4)友好的用户界面
2008-6-27 22
1.3信息检索的基本步骤
1课题分析,明确检索范围
2选择检索系统和检索工具
3确定检索点和检索途径
4构造检索式
5选定检索方法
6索取原始文献
2008-6-27 23
1.4检索工具
1.4.1 检索工具概念及作用
• 检索工具泛指查找信息所使用的一切工具和设
备,包括检索工具书、穿孔卡片、电子计算机
等。
• 检索工具的作用:
1)报道作用
2)存储作用
3)检索作用。
2008-6-27 24
1.4.2 检索工具基本类型
按照信息加工的手段或设备划分:
(1)手工检索工具;(2)机械检索工具;(3)计算机检索工具。
按照信息载体形态划分:
(1)书本式检索工具,包括期刊式、单卷式和附录式;
(2)卡片式检索工具;
(3)缩微式检索工具;
(4)磁性材料式检索工具。
按收录范围划分:
(1)综合性检索工具;(2)专科性检索工具;
(3)专题性检索工具;(4)全面性检索工具;
(5)单一性检索工具。
按时间范围划分:
(1)预告性检索工具;(2)现期通报性检索工具;
(3)回溯性检索工具。
按编制方法划分:目录、文摘和索引等。
5
2008-6-27 25
1.5 检索语言
定义
• 检索语言是保证和检索一致的一种共同性的人
工语言,它把文献的存储与检索联系起来,使
文献的标引者和检索者取得共同理解,从而实
现检索。检索语言是应文献信息的加工、存贮
和检索的共同需要而编制的专门语言,它是表
达概括文献信息内容和检索课题内容的概念及
其相互关系的一种概念标识系统。
2008-6-27 26
1.5.2 检索语言的类型
(1)分类语言。
• 所谓分类,是按事物的性质将客观事物加以区
别,并按逻辑顺序将其排列,用以区别事物,
认识事物的一种方法。以文献为对象的分类,
即为文献分类。
• 目前,我国社会科学文献的分类与检索,主要
根据三种分类语言,即《中国图书馆图书分类
法》(简称《中图法》)、《中国人民大学图
书馆图书分类法》(简称《人大法》)和《科
学院图书馆图书分类法》(简称《科图法》)
2008-6-27 27
(2)主题语言
① 标题词语言。是从文献的题目和内容中抽出来,经过规范化处理
的主题语言。从标题词作为文献信息内容的标引标识和检索标识。标
题词一般分为主标题和副标题,词表中按级一一列举各级标题,把主
标题和副标题加以组配,作为标引和检索使用中的依据;
② 叙词语言。是以表达文献主题内容的概念单元为基础,经过规范
化处理,可以进行逻辑组配的一种主语语言。以规范化的标引词形成
词表,各词独立,标引时根据需要进行组配,可表达文献内容方面的
复杂概念,属后组配式,适用于机检和手检;
③ 关键词语言。直接从文献信息的标题、摘要或内容本身抽取出来
的用于揭示信息主题内容的自由词。是一种无词表的自然语言。关键
词选自文献的题目和内容,属于非规范的后组配式;
④ 单元词语言。以文献中的单元词表达文献信息的内容性质,一般
无词表。单元词是文献内容中最基本的不能再加复分的知识单元,单
元词之间可以进行组配,属后组配式;
⑤ 引文语言。利用文献的引文关系而建立的一种自然语言,无词
表,标引词为文献中的主要著录项目,属后组配式。
2008-6-27 28
1.6 信息检索的发展趋势
1.6.1 信息检索的最新技术
• 1.推技术
• 2.集合数据挖掘技术
• 3.自然语言理解技术
• 4.人机交互界面技术
2008-6-27 29
1.6.2 新一代信息检索的特点
智能化搜索
个性化搜索
结构化搜索
垂直化专业领域搜索
本土化的搜索__
相关推荐
第一章 文献信息检索基础知识
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第一章 信息检索基础知识 1. 信息的分类及特点 1) 按载体的出版编辑特点:分有十二大文献类型(及各自特点和适用课题) 按信息载体的出版编辑特点划分 图书:是对科研成果、生产技术和经验的总结性的概况论述 内容...
信息检索:第一章 文献基础知识.pptx
科技文献检索与写作:01第一章 检索基础知识.ppt
第一章 传统化学化工文献检索基础知识.pptx
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
信息资源检索基础知识介绍
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...
第02章 信息检索基础(一) 文本信息检索 共80页.pdf 第03章 信息检索基础(二) Web检索 共54页.pdf 第04章 自然语言处理基础 共64页.pdf 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf 第06章 分类算法 共56页.pdf 第...