精华内容
下载资源
问答
  • 21.引文检索除了实现信息评价外,还能达到**【信息检索】**的目的。 22.关键字是论文的组成部分,学术论文的关键字,其数量一般控制在:**(3-8)**个? 23.美国是在1976年的《著作权法案》,首次为合理使用制定了...
  • 网络信息检索

    2018-12-17 17:05:53
    网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。
  • 信息检索技术

    2016-01-07 18:57:44
    1.了解信息的特征、信息检索的概念、信息检索的目的和意义。 2.理解检索工具的结构及目录、索引、文摘3种...3.熟悉信息检索的原理、类型和基本工具的使用。 4.了解信息检索的基本途径,掌握信息检索的方法和步骤。
  • P2P与信息检索.pdf

    2019-08-13 08:55:02
    理主要有信息检索、数据库查询和连续查询3个子领域,取得了许多研究成果.在介绍P2P技术的优点后,指出 了P2P数据管理研究的目标.然后针对上述3个方面,论述P2P数据管理研究的现状,着重讨论了P2P数据库查 询的索引构造...
  • 本文中给出了计算机信息检索的策略和方法,以及最终助于网络用户查找信息的检索技术。【关键词】信息检索 检索策略随着计算机技术和通讯技术的发展,信息检索的理论与实践也随之不断地推陈出新。其历史沿革可划分...

    【摘要】随着数据信息库积累的数据和主题越来越多,怎样快速,有效,经济地检索某个主题的所有信息,就成了一个十分热门的课题.本文中给出了计算机信息检索的策略和方法,以及最终有助于网络用户查找信息的检索技术。

    【关键词】信息检索 检索策略

    随着计算机技术和通讯技术的发展,信息检索的理论与实践也随之不断地推陈出新。其历史沿革可划分为手工检索,联机检索、光盘检索、网络信息检索等阶段。目前,计算机信息检索呈现出联机信息检索、光盘信息检索、网络信息检索并存的格局。如何判断计算机信息检索技能的高低?最重要的衡量指标之一,就是能否构造出合适的检索策略。只有构造出最佳检索策略,才能快速、准确地检索到所需信息。

    一、检索策略的含义和作用

    信息需求产生之后,如何在茫茫的信息海洋中查找需要的信息?利用哪些信息检索系统?检索提问怎么设计才能得到好的检索效果?信息检索策略对于解决这些问题具有重要的意义。

    检索策略是指分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划,其中关键在于构造能够确切表达信息需求的检索式。

    检索策略的优劣是影响检索效果的非常重要的因素。正确的检索策略会优化检索过程,有助于取得最佳的检索效果。

    二、检索策略的构造步骤

    信息检索策略的构造一般包括分析用户信息需求、选择检索系统、确定检索用词、构造检索式、分析检索结果等。具体过程如下:

    1.分析信息需求,明确检索要求。这是人们进行信息检索的出发点,不同类型的检索课题,信息需求的范围和程度也不尽相同。在这一环节中,要明确检索目的,明确检索课题内容涉及的主要学科范围和相关概念。对检索需求作出全面的认识。

    2.选择检索系统。计算机检索系统主要包括各种数据库、搜索引擎等。依据对信息需求的分析,选择与检索课题相符、收录信息质量较高、检索功能比较完善的信息检索系统。检索系统的选择要求我们对目前可利用的检索系统有一个大概的了解,如检索系统所涉及的学科领域、文献类型、时间范围、检索方式、检索途径等。

    3.选择检索方式和检索途径,确定检索词或检索式,选定限制条件。这是构造检索策略的核心步骤,在很大程度上决定着检索策略的优劣与检索效率的高低。

    进入检索系统后,首先要在信息需求分析的基础上选择合适的检索方式和检索途径。

    所谓检索方式,即以检索过程的繁简程度来区分的不同检索过程。基本的检索方式不外乎两种:初级检索和高级检索,只不过不同的数据库对初级检索的称谓不同,如:基本检索、快速检索、简单检索等。

    检索途径,又叫检索字段、检索入口、检索项等。指输入的检索条件所查询的数据区域。不同数据库所设的途径并不相同,常用的检索途径有:题名、作者、关键词等。一般来说,选择题名作为检索途径,命中文献的相关度会比较高。但如果检索内容比较冷僻,文献量较少时,可以扩展到关键词、主题等途径。

    检索词或检索式的确定是构造检索策略的核心步骤,在很大程度上决定着检索策略的优劣与检索效率的高低。

    检索词的确定是建立在检索课题概念分析的基础上。有时,检索课题会包含较复杂的主题内容,这就需要利用检索式来表达信息需求了。只有对检索课题的主题有全面、正确的逻辑分析,选全、选准检索词并能合理运用各种连接组配符号对其进行组配,才能构造出高质量的检索式。

    实际上,在构造检索式前,首先要从宏观上确定利用什么方法得到检索结果。常用的方法是把检索课题剖析成若干个不同的词,再找出各词的相关词、同义词,并用布尔算符“OR”连接成子检索式,然后再用布尔算符“AND”把所有子检索式连接起来,构成一个总检索式。还可以先确定一个范围较广的概念集合,然后提高检索的专指度,得到一个较小的检索结果集合,直到得到满意的结果。

    确定检索词或检索式后,还要根据需要选择合适的限制条件、排序依据等。

    4.实施信息检索,获取原始信息。确定了检索词或检索式之后,即可开始检索操作。得到检索结果后,要根据课题需要对查全率和查准率进行分析与评价。如果必要,则要适当调整检索策略,完善检索结果,直至达到满意的效果。

    参考文献:

    [1]邱均平,赵蓉英,马瑞敏,李晔君.我国文献计量学信息计量学课程建设的理念与实践[J].图书情报知识.2007(03).

    [2]马费成,望俊成,陈金霞,胡超.我国数字信息资源研究的热点领域:共词分析透视[J].情报理论与实践.2007(04).

    [3]陈文勇.情报学研究的方法论认同与理论创新问题[J].情报资料工作.2007(01).

    (作者单位:江苏农林职业技术学院)

    展开全文
  • 信息检索习题

    千次阅读 2021-06-30 16:49:44
    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。 2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。 3.中国专利法在1985年开始实施 4.在会议文献中,常用英文哪个单词表示“专题讨论会...

    一、填空题

    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。

    2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。

    3.中国专利法在1985年开始实施

    4.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop

    5.在CNKI平台下,“主题”检索的内容,不包含以下哪个?(作者)

    6.一本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部分

    6.按约束力来划分,标准可以分为强制性标准和推荐性标准。

    7.一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。

    8.一个期刊被SCI收入后,会有一个WOS开头的入藏号。

    9.广义的文献检索工具,可以分为:检索工具和【参考工具】。

    10.《中图分类法》中,字母S代表的是“农业科学”,字母【T】代表的是“工业技术”。

    11.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。

    12.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。

    13.著名的SCI检索工具,其英文全称是:【Science Citation Index】。

    14.判断一本国内期刊是否合法的一个简单方式是,查看该期刊的哪个信息?(CN)

    15.按信息的出版类型分:学位论文,属于以下哪种信息源?(特殊文献)

    16.Spischolar平台主要是搜索,哪种类型的参考文献?(电子学术论文)

    17.政府出版物,从信息出版形式的角度看,属于以下哪类信息源?(特殊文献)

    18.一般情况下,Open Access方式发表的文献,版权是归谁所有?(作者所有)

    19.CPCI检索是针对哪种文献类型**(会议论文类型的文献)**

    20.中科院文献情报中心,对JCR期刊按其影响因子和引用率,分类几个区?(4个)

    21.引文检索除了实现信息评价外,还能达到**【信息检索】**的目的。

    22.关键字是论文的组成部分,学术论文的关键字,其数量一般控制在:**(3-8)**个?

    23.美国是在1976年的《著作权法案》,首次为合理使用制定了标准。

    24.按《中国标准文献分类法》,其一级类目中“电子元件与信息技术”,用哪个字母表示?(L)

    25.学术造假一般分为三类,分别是:伪造、篡改和造假。

    26.百度、谷歌这样的搜索引擎,属于什么类型的搜索引擎【全文搜索引擎】

    27.Compendex数据库是属于:【二次】文献数据库。

    28.用户想要检索和下载“电子图书”,一般推荐选择哪个检索平台?【读秀】

    29.书生之家平台上检索的文献类型主要是哪类?【电子图书文献】

    30.不是Web of Science平台的主要期刊来源的是哪个?【EI】

    31.防止学术剽窃,一般采取的方法有:教育、法律和科技手段。

    32.在大多数情况下,检索的目的是为了找到 相关文献 ,而不是"答案"。

    33.二八定律在期刊文献检索中的体现是:20%的期刊登载了80%的重要文献,体现这种特性的期刊是 核心期刊 。

    34.文献的特性有 知识信息性 、 客观物质性 、 人工记录性 、 动态发展性 。

    35.文献的 内容 特征用于找出相关文献, 外部 特征用于获得特定文献。

    36.文献获取与利用的过程中存在三重语言障碍,分别为: 自然语言障碍 、 专业语言障碍 、 检索语言障碍

    37.检索工具的基本类型有: 目录 、 题录 、 文摘 、 索引 。

    38.以单篇文献为著录对象,并附有摘要的检索工具为: 文摘 。

    39.从内部特征进行检索的最重要的两种检索途径是: 主题途径 、 分类途径 。

    文献检索语言是 标引 与 检索 共同使用的约定语言。

    40.主题词语言具有三个基本特征:着眼于从 内容 特性方面去提示文献主题、采用 文字符号 、按 字顺 排列。

    41.当查询关键词具有多个含义的时候,容易造成 误检 ,使得 查准率 较低。

    42.主题词的体现形式是 叙词表 。

    43.辨识科技报告最明显的标志是 科技报告编号 ,一般由 单位编号 和 报告序号 组成,有的还包括类型代码。

    44.《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为22个大类。

    45.按内容可将计算机检索系统的数据库类型分为: 文献书目型 数据库、 事实型 数据库、 数值型 数据库和 全文型 数据库。

    46.我国标准可分为国家标准、 部标准 和 企业标准 三大类。

    47.在实际检索中,文献的检索方法主要有: 直查法 、 追溯法 、 工具法 和综合法。

    48.国际标准化组织简称:ISO 、本标准每 5 年修订一次

    49、信息素质的内涵包括 信息意识 、 信息能力 和 信息道德 。

    50.连续出版物的主要类型有 期刊 、 报纸 和 年底出版物 。

    51、. 构成文献的三要素是 知识 、 载体 和 记录 。

    52.CNKI的中文全称是: 中国知识基础设施工程 。

    信息检索常用的方法有: 引文追溯法 、 工具法 和 循环法
    55、专利有三层含义: 新颖性 、 创造性 和 实用性 。

    55.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。

    56.国家标准的代号体系中,地方标准的代号是__ DB__

    二、选择题

    在网络上检索某地的天气预报,属于检索事实型的信息。A.事实 B.数值 C.微内容 D.全文

    在我国,专利的类型不包括,以下哪个?
    A.实用新型专利 B.软件设计专利 C.外观设计专利 D.发明专利

    1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
    A.分类索引  B.作者索引  C.引文索引   D.主题索引
    2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。
    A.超星数字图书馆 B.万方学位论文 C.国研网 D.维普科技期刊 E.高校财经库
    4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。
    A.关键词   B.作者   C.刊名   D.题名   E.文摘
    5、二次文献又称检索工具,包括:( A C D )。
    A.书目  B.百科  C.索引  D.文摘  E.统计数据
    书生之家平台上检索的文献类型主要是哪类?(C)P126
    A 、学位论文文献 B、期刊文献 C、电子图书文献 D、会议论文文献

    文献是记录有知识的( A )A 载体 B 纸张 C 光盘 D 磁盘
    下列哪种文献属于一次文献( A )A 期刊论文 B 百科全书 C 综述 D 文摘
    下列哪种文献属于二次文献( D )A 专利文献 B 学位论文 C 会议文献 D 目录
    下列哪种文献属于三次文献( C )
    A 标准文献 B 学位论文 C 综述 D 文摘
    下列选项中属于连续出版物类型的选项有( C )
    A 图书 B 学位论文 C 科技期刊 D 会议文献
    下列选项中属于特种文献类型的有( D )
    A 报纸 B 图书 C 科技期刊 D 标准文献
    利用文献末尾所附参考文献进行检索的方法是( C )
    A 倒查法 B 顺查法 C 引文追溯法 D 抽查法
    至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为( A )
    A 数据库 B 记录 C 字段 D 文档
    广义的信息检索包含两个过程( B )
    A 检索与利用 B 存储与检索 C 存储与利用 D 检索与报道
    狭义的专利文献是指( C )
    A 专利公报 B 专利目录 C 专利说明书 D 专利索引
    根据国家相关标准,文献的定义是指“记录有(A )的一切载体”。 A.情报 B.信息 C.知识
    2、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献 C.二次文献 D.三次文献
    3、文摘、题录、目录等属于( B ) A.一次文献 B.二次文献 C.零次文献 D.三次文献
    4、手稿、私人笔记等属于( C)文献,辞典、手册等属于( )文献 A.一次,三次 B.零次,二次 C.零次,三次 D.一次,二次
    5、按照出版时间的先后,应将各个级别的文献排列成( A ) A.三次文献、二次文献、一次文献 B.一次文献、三次文献、二次文献 C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献
    6、( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。 A.零次文献 B.二次文献 C.一次文献 D.三次文献
    7、一次文献、二次文献、三次文献是按照( A )进行区分的。 A.内容的公开次数 B.原创的层次 C.印刷的次数 D.评论的次数
    8、从文献的( C )角度区分,可将文献分为印刷型、缩微型等。 A.内容的公开次数 B.载体类型 C.出版类型 D.公开程度
    9、具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D ) A.图书 B.会议文献 C.学位论文 D.期刊
    10、利用文献后面所附的参考文献进行检索的方法称为( A ) A.追溯法 B.直接法 C.抽查法 D.综合法
    12、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录
    14、课题“计算机在情报检索中的应用”的中图法分类号及类名为( D ) A.TP3计算机技术 B.TP399计算机技术的应用 C.G250图书馆学 D.G252.7情报检索
    17、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于( C ),在书目数据库中,一条记录相当于( ) A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘
    27、《中国学术期刊全文数据库》提供的文献内容特征检索途径有( B ) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者
    28、《中国学术期刊全文数据库》提供的文献外表特征的途径有( B ) A.关键词,篇名 B.机构,中文刊名 C.作者,篇名 D.文摘,中文刊名
    37、《中图法》中基本大类由22个字母表示,“E”表示的是(C ) “O”表示的 是 ( )。 A:经济、军事, B:自然科学、文学, C:军事、数理科学和化学 D:经济、外语
    1.下面哪些属于二次文献( BCD )。
    A.手册; B.文摘; C.目录; D.题录.

    三、名词解释题

    1、文献
    用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。
    2、体系分类语言
    体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。
    3、引文语言
    引文语言是根据文献所附参考或引用文献的特征进行检索的语言。
    4、事实检索
    以事项为检索内容的文献信息检索
    5、二次文献
    对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等
    16、从广义上讲,什么是文献检索工具?
    就是根据需要,以特定的编排方式和检索方法,为人们提供某方面的基本知识或文献检索,专供查询的书籍或电子数据库。可分为检索工具书和参考工具书两大类。
    17、按文献的加工层侧来分,什么是零次文献?
    就是记录在非正规物理载体上的未经任何加工处理的源信息叫做零次信息。
    比如书信、论文手稿、笔记、实验记录、会议记录等,这是一种零星的、分散的和无规则的信息。零次信息的载体形式就称之为零次文献。
    18、请解释一下,什么是纸质型文献?
    概述:以纸张为载体,用书写或印刷等方式记录知识的文献。纸质文献最早出现在中国,4世纪以后逐渐在世界各地传播和应用。纸质文献按纸的种类大致可分为麻纸文献、皮纸文献、竹纸文献等。
    特点:1、符合人们的阅读习惯2、便于保存3、具有权威性4、有利于知识产权保护5、纸质文献仍具有强大的生命力
    19、请解释一下,什么是引文索引?
    引文索引就是是利用文献之间的相互引证关系来检素文献的。
    我们从引文索引中查出一批所需的文献后,再利用这些文献的引文查找一批新的文献,这样不仅能获得一定数量的相关文献,还能揭示旧文献对新文献的影响,新文献对旧文献的评价,展现新旧文献在学术研究中的关系;。
    20、文献的开放获取(Open Access)。
    开放获取的英文全称是Open Access,简称OA。
    它是一种国际上的学术界、出版界、情报界为了推动科研成果利用互联网自由传播而采取的行动。指文献全文的免费、即使和永久获取。

    四、问答题

    1、简述论文选题的基本原则?
    1)选题要目的明确,学以致用,理论联系实际 。2)要选择有创造性有学术价值的课题。3)选题要量力而行,难易适中。4)选题地方法。5)题目的确定
    2、制定检索策略的步骤与技巧是什么?
    1)分析检索课题明确检索需求(2)选择检索系统和数据库(3)确定检索词和检索途径

    五、判断题

    在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?F
    各国专利文献数据库中,文摘可以免费检索,但浏览全文需付费。×
    一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。(√)
    一篇被CSCD数据库收入的文献,会有一个CSCD开头的入藏号。(√)
    对于发明专利,在中国的保护期,要比在美国的保护期短。×
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?×
    目录是目和录的合称,定其次之谓目,辨其名之谓录。( × )
    21.在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    22.学术论文具有:科学性、学术性和创新性的特征。
    23.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop
    24.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。
    25.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。
    EI检索,提供的是全文检索方式。(× )
    一般的检索平台提供的跨库检索,也被称为一站式检索。(√ )
    DOI(Digital Object Identifier)既数字对象标识,是数值环境中内容对象的永久性标识号。( √)
    以“磁盘”作为载体的电子文献类型,其标识代码为:MT。(× )
    Open Access(OA)属于发表人付费,阅读与引用人免费的论文出版模式?(√ )
    67. 1948年,美国数学家、信息论的创始人维纳在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。 ( × )
    1948年,美国数学家、信息论的创始人仙农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。
    68. 从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。( × )
    从文献检索的角度来看,一次文献是检索的对象,二次文献是用于检索的主要手段和工具。
    69. 《中国图书馆分类法》是按知识门类的学科体系的逻辑次序进行分类。( √ )
    70. 核心期刊是指经常使用的期刊。( × )
    核心期刊是指那些信息密度大、内容质量高、论文寿命长、被引率、被索率、被摘率、借阅率也较高,能代表某学科、专业最新发展水平和趋势的期刊。
    71. 一项发明创造要获得专利权必须具备新颖性、创造性和实用性。( √ )
    72. 专利是受法律保护的,其中发明专利的保护期限是10年。( × )
    73. 题录型检索工具,其著录项目主要包括文献篇名、作者、文献出处。( √ )
    74. TCP/IP协议的作用是保证各种不同类型的计算机网络实现相互通信。( √ )
    75. EBSCOhost 数据库中的BSP(Business Source Premier)是学术期刊数据库的简称。( × )

    六、问答题:

    23、一般的文献检索工具,必须具备哪四个基本条件?
    1.必须详细著录文献的外部特征(篇名、著者姓名、文献序号等)和内容特征(文献的学科属性和主题内容等);
    2.必须具有既定的检索标识(如文献的分类标识、主题词、著者姓名、文献序号等);
    3.能够提供多种检索途径。
    4.全部文献必须根据标识,系统地、科学地排列,成为一个有机的整体;
    76. 请解释信息、知识、文献的概念,并简述三者之间的关系
    答:不同领域对信息的定义不同,图书情报界对信息的定义:信息是客观事属性和运动状态的外在表现。知识是人们对客观事物存在和运动规律的认识。
    文献是记录有知识的一切物质载体。
    信息、知识与文献的关系可以归结为:信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储、传递知识和信息的载体。信息不等于知识,知识是信息的重要组成部分。信息与知识这种包含关系可以表示为:信息大于知识。在自然界的万事万物中,信息是物质世界表征其存在的一种形式。信息,有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制;知识,无形的、与行动和决策相关、经过处理改变思维、精神产品、环境改变涵义、经过学习才能转让、无法复制。
    知识是有组织的大量的信息,获得知识有赖于获得信息;信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物。并非所有信息都可成为知识,在信息时代,源于众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。

    2、信息、知识、情报、文献的概念?文献的组成要素?
    信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。
    2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理
    3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。
    知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总和。
    情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。
    文献的概念:是记录有知识的一切载体。
    文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。

    3、信息、信息资源包括那些类型?
    1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等
    信息资源类型:根据存储媒介不同,信息资源可以划分为印刷型信息资源、电子信息资源、数字信息资源和多媒体信息资源。

    4、文献有那些类型?将文献划分成这些类型的依据是什么?
    1)根据载体材料、存储技术、和传递方式划分
    可划分为:印刷型、缩微型、试听型和机读型文献信息源
    2)根据加工程度的不同划分
    可分为:一次文献信息源、二次文献信息源、和三次文献信息源
    3)根据文献信息源的内容划分
    可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献、学位论文、标准文献、档案文献、产品样本

    5、数据库的类型?网络资源有那些特点?
    数据库的类型:联机数据库和光盘数据库、网络数据库
    网络资源有那些特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等

    6、何为“核心期刊“?本专业的核心期刊有那些?
    核心期刊定义是 :在某一学科中 ,少数期刊覆盖了该学科的大部分文献 ,而多数期刊仅包含该学科的少量文献 ,这少数期刊就是该学科的核心期刊。
    本专业的核心期刊有:《政治与法律》、《环球法律评论》、《当代法学》、《法学》

    7、什么是信息检索?类型有哪些?
    定义:是通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程。
    类型:文献检索、数据检索、事实检索

    8、简述信息检索的原理。
    信息检索的实质是一个匹配过程,也就是信息用户需求的主题概念或检索表达式同一定信息系统的系统语言相匹配的过程,如果两者匹配,则所需信息被检中,否则检索失败。

    9、什么是计算机信息检索系统?它由几个部分组成?
    计算机信息检索系统:是利用计算机和一定的通信设备查找所需信息的检索方式,检索的系统就是人的设计操作和计算机自动化处理相结合的系统。
    组成部分:光盘检索系统、联机检索系统、网络检索系统

    10、计算机信息检索技术包括哪些?
    布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索并向着智能化方向发展。

    11、从外表特征和内容特征来看,检索语言的类型各有哪些?不同特征各举一简单的检索式。
    描述信息外部特征的检索语言包括题名(书名、刊名、篇名)、著者姓名\单位名称、出版事项、代码\序号(如专利号、报告号、标准号)等,其作为检索标志直接明了,使用时较为简单。
    描述信息内容特征的检索语言包括分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言。

    12、为什么要创建检索语言,它有哪些类型?比较分类语言和主题语言的优缺点。
    1)检索语言是指用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言,目的是为了便于检索文献。
    2)类型:按检索语言是否受控可分为人工语言和自然语言,按检索时的组配实施状况可分为先组式和后组式检索语言,按描述信息特征的不同可分为描述信息外部特征的检索语言和描述文献内容特征的检索语言。

    15、简述“超星电子图书馆”、“书生之家数字图书馆”、“中国学术期刊全文数据库”、“维普中文科技期刊数据库”和“万方数字化期刊”收藏资源的特点
    1)、超星电子图书馆:收录的电子图书内容丰富,包括经典理论、哲学、社科、经济、语言文字、文学、数理化、生物、工业技术、计算机等50余个学科门类,现拥有中文电子图书80万种,论文300万篇,全文总量4亿余业,并且每天仍在不断地更新与增加
    2)书生之家数字图书馆:主要收录1999年以后出版的新书,其收录量为每年中国出版的新书品种一半以上,目前拥有图书15万种,数量可观,学科门类齐全。
    3)中国学术期刊全文数据库:该库的产品分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。个专辑分为若干专题,共168个专题。
    4)维普中文科技期刊数据库:按照《中国图书馆分类法》进行分类,所有文献被分为8个专辑:社会科学、自然科学、工程技术、医药卫生、农业科学、经济管理、教育科学和图书情报。8大专辑又被细分为36个专题 。
    5)万方数字化期刊收藏资源的特点:目前集纳了理、工、农、医、人文五大类70多个类目,2500多种科技类核心期刊,实现全文上网。该系统收录的期刊种类主要有7个:基础科学、农业科学、社会科学、哲学政法、医学卫生、教科文艺、经济财政。

    16、结合“中国学术期刊全文数据库”、“维普中文科技期刊数据库”两种数据库,谈各自的“高级检索”的方法
    1)、维普中文科技期刊数据库“高级检索”的方法:打开维普数据库,点击高级检索,输入关键词、作者、分类号、机构、刊名,扩展检索条件,如:时间条件、专业限制、期刊范围,然后点击检索。
    2)、中国学术期刊全文数据库“高级检索”的方法:打开中国知网,点击高级检索,进入中国学术期刊全文数据库,输入检索控制条件,如:发表时间 来源期刊` 期刊年期 支持基金,然后输入内容检索条件。

    17、简述特种文献的特点和作用,学术论文的结构
    特点:发行渠道特殊,形式各异,具有特殊的、其它文献所不能取代的价值
    作用:传递科技信息
    结构:一般而言,学术论文包括八个必要的组成部分,其中前置部分包括题名、作者、摘要、关键词,主体部分包括引言、正文、结论、参考文献。
    18、按级别分的标准的类型?我国标准分为哪些等级?分别用那些符号表示
    分类:1)按使用范围可分为:国际标准、区域标准、国家标准、行业标准、地方标准、企业标准
    2)按标准的约束性可分为:强制性标准、非强制性标准
    我国:国家标准GB 行业标准FZ 地方标准DB 企业标准Q

    19、专利的新颖性、创造性、实用性各自含义,中国保护的专利类型
    1、新颖性,是指在申请日以前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。
    2、创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步,该实用新型有实质性特点和进步。
    3、实用性,是指该发明或者实用新型能够制造或者使用,并且能够产生积极效果。
    中国保护专利的类型:发明、实用新型、外观设计

    20、中国何时实施专利法?中国专利法对专利采用怎样的审批程序?受中国专利法保护的对象分别有哪些
    1、自1985年4月1日起施行
    2、程序:1)、专利局收到发明专利申请后,经初步审查认为符合本法要求的,自申请日起十八个月内,予以公布。专利局可以根据申请人的请求早日公布其申请。
    2)、发明专利申请自申请日起三年内,专利局可以根据申请人随时提出的请求,对其申请进行实质审查;申请人无正当理由逾期不请求实质审查的,该申请即被视为撤回。
    专利局认为必要的时候,可以自行对发明专利申请进行实质审查。
    3)、 发明专利的申请人请求实质审查的时候,应当提交在申请日前与其发明有关的参考资料。
    发明专利已经在外国提出过申请的,申请人请求实质审查的时候,应当提交该国为审查其申请进行检索的资料或者审查结果的资料;无正当理由不提交的,该申请即被视为撤回。
    4)、 专利局对发明专利申请进行实质审查后,认为不符合本法规定的,应当通知申请人,要求其在指定的期限内陈述意见,或者对其申请进行修改;无正当理由逾期不答复的,该申请即被视为撤回。
    5)、 发明专利申请经申请人陈述意见或者进行修改后,专利局仍然认为不符合本法规定的,应当予以驳回。
    6)、 发明专利申请经实质审查没有发现驳回理由的,专利局应当作出审定,予以公告,并通知申请人。
    7)、 专利局收到实用新型和外观设计专利申请后,经初步审查认为符合本法要求的,不再进行实质审查,即行公告,并通知申请人。
    8)、 专利申请自公告之日起三个月内,任何人都可以依照本法规定向专利局对该申请提出异议。专利局应当将异议的副本送交申请人,申请人应当在收到异议副本之日起三个月内提出书面答复;无正当理由逾期不提出书面答复的,该申请即被视为撤回。
    9)、 专利局经审查认为异议成立的,应当作出驳回申请的决定,并通知异议人和申请人。
    10)、 专利局设立专利复审委员会。申请人对专利局驳回申请的决定不服的,可以在收到通知之日起三个月内,向专利复审委员会请求复审。专利复审委员会复审后,作出决定,并通知申请人。
    发明专利的申请人对专利复审委员会驳回复审请求的决定不服的,可以在收到通知之日起三个月内向人民法院起诉。
    专利复审委员会对申请人关于实用新型和外观设计的复审请求所作出的决定为终局决定。

    11) 对专利申请无异议或者经审查异议不成立的,专利局应当作出授予专利权的决定,发给专利证书,并将有关事项予以登记和公告。
    3、发明、实用新型、外观设计
    21、中国专利文献的编号体系含有几种专利文献号?如何称谓?
    6种 申请号 专利号 公开号 审定号 公告号 授权公告号

    22、专利文献的特点、专利说明书的结构
    特点:新颖性、创造性和实用性
    结构:通常一件专利说明书包括:专利文献著录项目,权利要求书,说明书,附图,摘要。有些专利说明书还附有检索报告。
    23、专利文献的分类方法,分类号的结构组成,专利检索的目的
    分类方法:
    26、什么是科技报告?它有哪些类型?用哪些检索工具查找我国的科技报告
    科技报告:是一种非常重要的资源,他们往往反映科学技术前沿和正在进行中的研究项目,注重详细记录科研进展的全过程,多与高科技领域有关,传播研究成果的速度较快,并且以内部的发行为主,外界较难获得。
    科技报告的类型
    2)科技报告可划分为不同类型:
    1、 按内容可分为:基础理论研究和工程技术两大类。
    2、按形式可分为:技术报告(Technical Reports, 简称TR)、技术札记(Technical Notes,简称TN)、技术论文(Technical Papers, 简称TP)、技术备忘录(Technical Memorandum,简称TM)、通报(Bulletin)、技术译文(Technical Translations, 简称TT)、合同户报告(Contractor Reports, 简称CR)、特种出版物(Special Publications, 简称SP)、其它(如:会议出版物、教学用出版物、参考出版物、专利申请说明书及统计资料)等。
    3、按研究进展程度可分为:初步报告(Primary Report)、进展报告(Progress Report)、中间报告(Interim Report)、终结报告(Final Report)。
    4、按流通范围可分为:绝密报告(Top Secret Report)、机密报告(Secret Report)、秘密报告(Confidential Report)、非密限制发行报告(Restricted Report)、非密报告(Unclassified Report)、解密报告(Declassified Report)。属于保密的科技报告大多属于军事、国防工业和尖端技术成果
    3)检索工具:EI CompendexWeb INSPEC DIALOG

    27、什么是会议文献?若查找国外各种学术会议的信息,利用哪些检索工具
    1、会议文献是传递和获取科技信息的一种极为有效的重要渠道。
    2、检索工具:中国知网《中国重要会议论文全文数据库》 万方数据《中国学术会议论文文摘数据库》 中国学术会议在线 因特网会议预告 欧洲研究会议 国际标准化组织的标准化会议预告 医学会议查询

    2.简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?
    参见文献类型-会议论文的介绍,国内的检索系统主要是万方数据和CALIS的高校会议论文检索,国际上的会议论文检索系统最重要的是ISTP,隶属于WEB OF PROCEEDINGS。

    3.请简单说一说如何选择网络信息资源?主要的标准有哪些?主要的标准有:
    a. 发布者的权威与可靠性
    b. 信息质量
    c. 信息资源的内容覆盖面
    d. 获取方便程度
    e. 检索途径多,检索界面容易使用,有无全文。

    利用外文文摘数据库查出文献线索后,若要查找1篇期刊论文的全文有哪些途径?
    解:
    1…使用搜索引擎搜索,如谷歌,百度,bing,搜狗,Ask,Yahoo等等
    2…利用文献线索,到文献的来源数据库进行搜索。
    3…利用文献线索,到全文数据库中进行检索。

    33、网络资源的特点和种类;搜索引擎的功能
    特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等
    种类:1、按人类信息交流的方式分类可分为非正式出版信息、半非正式出版物、正式出版物
    2)、从网络信息检索角度,按信息查询方式对网络信息进行分类可分为互联网信息、FTP信息、TELNET信息、USENET信息资源、USTSERV信息、JOPHER信息
    3)、按信息存取方式分,可分为邮件型、揭示板型、广播型、图书馆型以及书目型
    4)、按组织形式分可分为文件型、数据库型、超媒体型
    5)、按时效性分,可分为动态信息、电子报纸、电子期刊、电子图书、联机馆藏目录、联机数据库等
    6)、按信息的媒体形式分为,文本信息、超文本信息、多媒体信息、
    7)、按网络信息服务方式分为,网站信息、新闻信息、论坛信息、文件服务信息
    8)、按信息的格式分为,HTTML TXT DOC PDF RM MP3
    功能:网页搜索、图片搜索、视频搜索、地图搜索、新闻搜索、音乐搜索、论坛搜索等等

    34、试对百度、中文搜狐、北大天网、一搜四种搜索引擎的功能进行比较
    百度的功能特点:1. 基于字词结合的信息处理方式。
    2. 支持主流的中文编码标准。
    3. 智能相关度算法。
    4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
    5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。
    6. 相关检索词智能推荐技术。
    7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
    8. 可以提供一周、二周、四周等多种服务方式。
    9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。
    10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
    11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
    12. 高可配置性使得搜索服务能够满足不同用户的需求。
    13. 先进的网页动态摘要显示技术。
    14. 独有百度快照,巧妙解决了搜索用户经常遇到的死链接问题。
    15. 支持多种高级检索语法,使用户查询效率更高、结果更准。
    一搜的功能特点:1、MP3功能 2、娱乐功能 3、投票功能 4、翻译功能 5、视频功能 6、部落功能
    北大天网的功能特点:北京大学开发,简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、FTP检索(北京大学、中科院等FTP站点)。目前大约收集了100万个 WWW页面(国内)和14万篇Newsgroup(新闻组)文章。支持简体中文、繁体中文、英文关键词搜索,不支持数字关键词和URL名检索。
    搜狐的功能特点:搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。

    36、查阅有关文献,写出“标准文献、专利文献、学位论文、研究报告”作为参考文献时的标注格式
    37、学术论文一般由哪几部分构成?各部分的写作规范分别是什么
    1、标题:准确、精炼的技术术语表达的创新点名称
    2、单位和作者:只写作者和实际参与了论文写作的人名,按对论文而不是工作的贡献排序。
    3、摘要:是论文不加注释和评论的精炼缩写,是一篇独立的短文。
    4、关键词:关键词是表达论文所属门类的主题词。列出能通过模糊检索查到这篇文章的3~8个主题词。关键词要反映研究范围,但不一定是文中的高频词,排列最好按范围,先大后小。关键词忌生僻,最好出自《中文主题词表》。
    5、引言:引言可以作为论文的一节(符号可以是0、可以是1),也可以是正文前的一段无标题文字。应鲜明简洁,不要图表、公式。
    6、正文:正文要分节,合理分节并拟定小标题可以突出重点,有助于理解。要尽量多用图表直观地表达,图表要有自明性,使用中文表头、坐标,无需解释就能看懂。
    7、结论:全文而不仅是试验或仿真的总结。①归纳研究中发现的规律、优点;②应用或应用方向;③局限或不足,今后努力方向。结论应相对独立,提到创新点时不应使用“该方法”之类代用词。不十分肯定时可用“讨论”代替“结论”,但不得使用“结束语”、“小结”之类标题。结论中不应有图表、公式。
    8、参考文献:列出作者在研究范围内所看过的国内外文献。参考文献与引言呼应,反映作者跟踪技术发展的眼界和敏锐性,反映作者知识的广度和深度,反映作者有资格说自己是创新。数量不可过少,例如中国科协期刊优秀论文评选要求研究性学术论文参考文献不少于20篇。参考文献不限于中文但,教科书不可多,不宜过陈旧。
    38、什么是学术造假与剽窃?一般而言,剽窃的形式有哪些?司法实践中对剽窃
    是如何界定的?剽窃与参考文献的区别是什么
    剽窃的定义:剽窃是指把他人的作品当成自己的作品。
    学术造假的定义 :
    39、简要回答:三大检索工具SCI,EI和ISTP的内涵
    1、SCI ,即《科学引文索引》,是自然科学领域基础理论学科方面的重要期刊文摘索引数据库。
    它创建于1961 年,创始人为美国科学情报研究所所长 Eugene Garfield(1925.9.15).利用它,可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自 1945 年以来重要的学术成果信息;SCI 还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。
    2、Ei,即《工程索引》,创刊于 1884 年,由 Elsevier Engineering Information Inc. 编辑出版。主要收录工程技术领域的论文(主要为科技期刊和会议录论文 ) ,数据覆盖了核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程等学科领域。
    3、ISTP ,即《科学技术会议录索引》,创刊于 1978 年,由美国科学情报研究所编制,主要收录国际上著名的科技会议文献。它所收录的数据包括农业、环境科学、生物化学、分子生物学、生物技术、医学、工程、计算机科学 、化学、物理学等学科。从 1990-2003 年间, ISTP 和 ISSHP( 后文将要讲到 ISSHP) 共收录了 60 , 000 个会议的近 300 万篇论文的信息。
    文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体( V)
    文献知识的内容与其记录方式、载体材料无关( V )
    文献有知识内容、信息符号和载体材料三个不可分割的基本要素构成(X )
    一次文献是产生二、三次文献的基础,是检索利用的主要对象(V )
    从零次文献、一次文献到二次文献,再到三次文献,是一个知识内容由分散到集中,由无组织到系统化的过程( V )

    展开全文
  • 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会粉丝吗呜呜呜

    目录

    1 简单的定义

    (一)广义的信息检索(信息组织+信息检索)

    (二)狭义的信息检索

    2 信息检索技术与方法

    (一)文本信息检索

    (二)多媒体信息检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    (二)信息组织各功能模块

    (三)信息检索各功能模块

    (四)知识组织工具(作用)

    (五)信息检索系统结构实例分析

    4 信息采集(没有具体程序噢~)

    5 信息描述(重点)

    (一)理解信息描述

    (二)传统文献信息描述

    (三)数字化信息描述

    (四)信息描述需要注意的问题

    6 信息标引(重点)

    (一)信息标引的目的

    (二)信息标引的方法

    (三)信息标引和信息检索结果

    7 信息存储(重点)

    (一)理解资源库

    (二)理解索引

    (三)倒排索引及构建


    1 简单的定义

    基本概念:数据、信息、知识、智慧、信息检索、信息生命周期

    (一)广义的信息检索(信息组织+信息检索)

    定义:利用一定的科学规则和方法,通过对信息外在特征和内容特征的分析、选择、描述、标引、存储、排序和重组等活动,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合

    信息组织主要包括对某范围内的信息选择的基础上对信息的内外特征进行描述、标引、存储并使其有序化,形成信息集合

    (二)狭义的信息检索

    定义:借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息的过程

    发展历程

    • 图书目录和文摘、索引(手工检索)
      • 印刷型文献为主要检索对象
      • 以各类文摘、题录和目录型工具书为可利用的主要检索工具
      • 以图书馆的参考咨询部门作为开展信息检索服务的中心机构
    • 计算机化检索【脱机批处理——联机实时检索——联机网络化与多元化检索】
      • 各类机读数据库为检索对象
      • 各类信息中心、联机服务中心作为信息服务部门
      • 信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散
    • 网络化检索
      • WWW为核心的网络应用上的各种资源做检索对象,包括各种网页、FTP资源、用户组资源、联机数据库等和各种通过网络提供服务的数据库等
      • 以搜索引擎为主要检索工具
      • 信息用户多为终端用户
      • 人工智能得到应用,自动化程度、智能性大大提高(如自然语言理解、语义检索、推理等)

    2 信息检索技术与方法

    (一)文本信息检索

    常用检索技术:布尔检索、加权检索、截词检索、限制检索、位置检索和聚类检索等

    布尔检索

    • 算符含义

    逻辑或OR:A OR B

    逻辑与AND:A AND B

    逻辑非NOT:A NOT B

    逻辑异或XOR:A XOR B //检索结果是含有检索词A但不含有检索词B的文献或者是包含检索词B但不含有检索词A的文献

    • 优先级
      • 同级运算自左向右
      • AND和NOT先执行,OR后执行
      • 检索式中如果包括其他检索技术的算符,布尔运算最后执行

    加权检索

    • 加权检索的定义和示例
      • 加权检索是对布尔逻辑检索的一种扩充
      • 加权在标引及检索阶段都可使用

               示例:Q=知识管理(4)and竞争情报(2)and企业文化(1)

    • 加权检索优缺点
      • 优点:明确了各检索词在检索中的重要程度;可以通过提高和降低阈值来扩大和缩小检索范围;检索结果易于顺序排
      • 缺点:提问表达式烦琐,权值确定比较困难

    截词检索

    • 检索者将检索词汇在他认为合适的地方截断,并使用该截断词进行检索匹配
    • 截词检索有多种类型

               按照截断位置分:后截断(主要方式)、前截断和中截断

               按照截断的字符数量分:有限截断和无限截断

    限制检索

    方式:字段检索、二次检索、其他方式的限制

    位置检索(区别于字段检索)

    针对自然语言文本中检索词之间的特定位置关系而进行的检索匹配

    主要方式:邻接检索、同句检索、同字段检索、同记录检索

    聚类检索

    聚类检索起源于向量空间模型

    针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,将相似度较高的文献聚集在一起,形成文献类目,进而形成文献的聚类文档聚类检索针对聚类文档进行

    其他文本辅助检索技术

          信息的浏览时检索与链接技术的运用;检索结果的翻译和多语种检索;检索结果的后处      理(排序输出/联机聚类/去重合并)

    (二)多媒体信息检索

    特性:集成性/交互性/独立性

    音频信息

    • 关注音频声波的数字化问题;
    • 采样、量化、编码和压缩等;
    • 传统音频信息检索特征的提取:外部特征的描述(文件名、文件类型、创建者、创建时间等,多用元数据表示)+内容特征的标引(如对歌词中的关键词、主题词进行提取)

    图形与图像信息

    • 传统图像信息的检索特征提取方法:外部特征(图像创建日期、文件格式、数据大小等)+内容特征的标引(图像描述的主要对象、作者的创作意图等)

    视频信息

    • 外部特征+内容特征的标引(简单文本转化)
    • 基于内容的检索:指根据多媒体对象的听、视觉等特征及其蕴含的内容和语义特征进行检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    • 系统结构:指系统的组成及各组成部件之间的关系
    • 基本结构:集中式与分布式
      • 集中式检索系统:信息资源分布在同一物理地点,往往具有统一标准的信息组织手段
      • 分布式检索系统:利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对于用户有用的信息。这里的分布式环境指的是信息资源在物理上分布于不同的地点,在数据库结构上具有异构性,但是这些分散和异构的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统
    • 逻辑结构
      • 信息组织模块:资源采集——信息标引——数据库创建
        • 信息检索模块:用户界面——提问处理——检索匹配

    (二)信息组织各功能模块

    • 信息资源及其采集(决定信息检索系统中数据库的类型及收录范围)
    • 信息描述与标引处理
    • 决定检索系统的检索点(入口),也决定了标引深度及后续检索功能的提供
    • 信息描述规则往往需要先行制定
    • 标引分为人工标引和自动标引
      • 人工标引多依赖词表和规范工具
      • 自动标引更多针对自然语言文本进行,标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理,再依据语言学规则进行文本内容的自动抽词或辅词,也可进行自动分类或聚类
    • 数据库创建与维护
    • 依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统
    • 常见的数据库有文献型数据库和非文献型数据库
      • 文献型数据库包括书目(如索引、文摘等)和全文数据库,它们的设计与实现流程也各不相同;
      • 非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和图像数据库以及术语、软件等特殊类型的数据库

    (三)信息检索各功能模块

    • 理解用户界面
    • 提问处理(提问加工方法很多,有菊池敏典法、逆波兰法、范式变换法等)
    • 检索匹配
      • 检索匹配过程涉及数学算法模型的应用有很多信息检索模型,重点要掌握的是经典模型     
      • 经典模型包括布尔检索模型,向量空间模型,概率模型

    (四)知识组织工具(作用)

    • 表达:信息资源特征,及用户信息需求
    • 组织:以达到资源的系统化和有序化
    • 控制:对标引、检索过程中使用到的术语、词汇 或某些特征进行规范与协调
    • 关联:知识之间的相关性得到明确表征并能够被 机器理解处理

    (五)信息检索系统结构实例分析

     

    图书馆数目检索系统

    搜索引擎

    知识图谱

    信息选择与采集

    采访部门负责选择,采集以购买为主

    爬虫为主

    依据前期设计好的知识建模进行

    信息描述与标引

    外部特征获取+描述为结构化数据,MARC作为信息描述标准;内容特征多以整本书为单位进行,而且以人工标引为主,依据中图法、汉语主题词表进行

    半结构化或非结构化,信息特征难以获取,更多采用自动标引,需要更多技术的支撑,例如文本分析、自然语言处理等

    采用知识建模的方式进行,可能使用到RDF等资源描述框架及本体等知识建模工具,通过实体和关系自动/人工抽取完成知识关联构建

    索引与数据库

    传统为MARC磁带,现多存储在关系型数据库,索引功能比较完善

    自动构建文本索引,数据库类型也很多样,可能是文档,也可能是关系型数据库或者NoSQL的数据库

    知识图谱多存储在图数据库中,类型RDF三元组能够支持网状结构的查询

    信息检索模块

    多以检索点入口限制检索+布尔逻辑检索为主的检索词检索,分类浏览及检索也是常用的

    需要更多结果处理的功能,布尔操作、模糊查询、分组查询等,更重视排序的处理

    语义查询方式,并重视知识推理和自动问答等的应用

    4 信息采集(这里没有具体程序噢~)

    信息检索系统将在信息采集的基础上进行信息描述、标引、索引及数据库构建,因此采集结果的存在形式至关重要:

    • 结构化(数据):按一定属性规则排列的(二维表是最常见形式)
    • 非结构化:所有格式的文本、图片、音频/视频信息
    • 半结构化:介于二者之间的,具有一定结构,但语义不够确定

    5 信息描述(重点)

    (一)理解信息描述

    • 信息描述:信息著录、信息编目
    • 定义:根据特定的信息管理规则和技术标准,将存在于某一物理载体上的信息资源的外在特征与部分内容特征进行选择、描述与给予记录的过程
    • 结果:一条由多个描述项目构成的关于该信息资源的数据
    • 应用:传统印刷载体文献;对于网络上各类型数字化信息而言,内外特征不容易区分,所有对信息特征进行反映的过程都可以看作信息描述
    • 作用
      • 识别:个别化描述,区别其他信息
      • 选择:通过特征判断资源利用价值,决定是否选择
      • 检索:描述数据中的检索点之间的逻辑匹配给用户提供查检途径及二次筛选依据
      • 定位:传统文献排列位置、数据库位置、网络地址等

    (二)传统文献信息描述

    • 图书馆信息管理以馆藏文献为主,常见文献包括图书、期刊、古籍等
    • 传统文献信息描述主要依据ISBD国际标准书目著录展开,最终描述结果是图书馆书目卡
    • 目标:标准书目国际交流,实现资源共享三统一:著录格式/描述项目/描述符号);从不同的可交换数据源中生成数据,以便国家间的交流;有助于克服语言障碍,以便国家间的相互解释;有助于将书目数据转换为机器可读形式

    MARC(机读目录)

    • 定义:一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录;一次输入,多项检索;输出多种载体的款目;网上传输,可实现合作编目和联机检
    • 局限:标准复杂;需要专用平台,不能跨平台操作;描述内容多为书目;仅限于数据描述部分,管理信息较少,不适合计算机环境下日益增多的需求。
    • 基本格式:每一条记录都由四个部分构成
      • Leader(记录头标区):固定为24字符,记录计算机处理所需参数,如记录长度、记录状态、执行代码等
      • Directory(地址目次区):每一字段的长度和起始位置,由计算机自动生成
      • DataFields(数据字段区):各种描述数据
      • 记录分隔符(由计算机给出):记录结束符
    • 数据字段
    • 数据字段区划分成10功能块,每个功能块又包含若干字段和子字段,其中6XX功能主要使用分类法和主题法(词)的方式表达信息内容特征。
    • 标识符号(三类)
      • 标识符:字段标识符(3位数字,如205表示版本项)、子字段标识符(两个字符,第一个字符为“$”,第二个字符可以是数字或者字母,如200字段的“$a”表示正题名)
      • 指示符:两位数字或者字母组成,提供附加信息
      • 分隔符:自动生成

    (三)数字化信息描述

    元数据

    定义:关于数据的数据或关于数据的结构化数据。描述一个具体的资源对象并能对这个对象进行定位、管理且有助于它的发现与获取的数据

    类型分类

    • 描述信息资源领域:书目、档案、政府出版物、地图等
    • 描述文献对象分:传统文献资料;数字化信息资源
    • 信息资源作用或功能分(CLC)【使用范围】:
      • 描述性:支持资源的发现和鉴别,如题名、作者等书目数据(主要用于检索系统检索入口和结果筛选
      • 管理性:用以维护和管理资源的数据,如创建者数据、存取权限数据、数据处理技术数据等(主要用于检索系统的管理,以及动态特征的变化演示等)
      • 结构性:描述数字化资源内部的形式特征,如目录、段落和章节,页面间的跳转数据(用于检索系统相关资源的跳转
      • 标准的构成:描述某类资源的具体对象时所有规则的集合(标准一般包括了完整描述一个具体对象时所需要的数据项集合,各数据项语义定义,著录规则和计算机应用时的语法规定
    • 常用元数据标准
      • 描述一般信息的元数据:MARC(书目数据)、DC(网络资源)和TEI(电子文本)
      • 描述特殊信息的元数据:EAD(档案信息)、GILS(政府信息)、CGDGM(地理信息)
      • 描述图像信息的元数据:CDWA(博物馆艺术作品)和VRACore(可视化文化作品及图像资源)
    • 元数据互操作
      • 多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索
      • 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射
      • 目前已有大量的转换程序存在,供若干流行元数据格式之间的转化

    (四)信息描述需要注意的问题

    • 检索系统信息描述应根据资源特征和检索用户检索需求设计信息描述的标准
    • 兼顾不同资源的特性同时又要能最大程度地实现各类资源在发现和获取方法上的一致性,即从功能数据结构格式语义语法等诸多方面保持一致以实现不同系统之间的互操作和共享

    6 信息标引(重点)

    (一)信息标引的目的

    • 信息标引定义:采用一个或若干信息标识(词语或者代号)表示或替代信息内容特征的过程。揭示与标引形成的标识和代码不仅是信息存入信息系统的依据,也往往是信息检索的途径,如分类号、主题词、关键词等
    • 标引类型
      • 标引主体:人工标引和自动标引
      • 标引标识的不同形式:分类标引和主题标引
      • 标识是否规范控制:受控标引和非控标引(自然语言标引)

    (二)信息标引的方法

    标引分类

    • 人工受控标引
    • 转换标识:受控标引的标识必须来自受控分类表(分为等级体系分类和分面分类)或者受控词表(知识组织工具),即经过规范控制的标识,有时还需要进行概念之间的组配。
    • 自然语言自动标引
    • 汉语分词问题——歧义
      • 交集型歧义:结合成分子;我研究生期间是研究生物的
      • 组合型歧义:请把手拿开

    常见的中文分词方法

    • 基于规则的分词方法(机械分词方法、基于字典)
      • 三个要素:分词词典、文本扫描顺序、匹配原则
      • 扫描顺序:正向扫描、逆向扫描和双向扫描
      • 匹配原则:有最大匹配、最小匹配、逐词匹配和最佳匹配。
    • 基于统计的分词方法
      • 对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息(紧密程度);当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词
      • 例如:N元文法模型(N-gram)、隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等
    • 基于语义的分词方法
      • 对自然语言自身的语言信息进行更多的处理
      • 例如:扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等
    • 基于理解的分词方法
      • 基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象

    标引标识

    三个要素:分词子系统、句法语义子系统、总控部分。

    • 词典分词
    • 单汉字标引
    • 从分词结果到标引标识

    不是所有词都直接转换为标引标识

    词频:词在文献中出现的次数(一篇,一类文档)

    词性:名词常是有意义的

    逆文本档频率:在所有文档中统计词的频率

    位置:论文篇名,摘要,正文出现的词

    加权:词的权重

    • TF-IDF
    • TF:表示词条在当前文档中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件,公式=在某一类中词条出现的次数/该类中所有的词条数目
    • IDF:逆文件频率,公式=log⁡(语料库的文档总数/(包含词条w的文档树+1))

    应用场景:标引词的选择,自动标签生成/文档相似度的计算/文本聚类/自动文摘/SEO

    (三)信息标引和信息检索结果

    信息标引标识的数量

    信息标引标识是否受控

    信息标引标识粒度

    不同语种的处理差异

    7 信息存储(重点)

    (一)理解资源库

    概念:关系型数据库

    (二)理解索引

    索引由来

    索引组成的基本单位是索引款目,所有索引款目实现有序化编排

    款目一般包括索引词、说明或注释语、出处 3项内容

    本质特征是只揭示内容出处或文献线索,并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引

    关系型数据库索引

    索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构

    索引有不同类型:普通索引、唯一索引、主键索引、全文索引等等

    索引将非结构化数据按照规则提取信息,重新组织,使其有一定结构

    全文索引

    创建索引:获得文件——构建文档对象——分析分档(分词)——创建索引

    查询索引:用户查询接口——创建查询——执行查询——渲染结果——(用户查询接口)

    (三)倒排索引及构建

    顺序和倒排含义:倒排(逆向)对应的是顺序(正排/正向)

    倒排索引的创建流程

    收集需要索引的文档

    将每篇文档转换为一个个词条(token):自然语言分词

    进行语言学预处理,产生归一化词条作为词项

    对所有文档按照其中出现的词项建立倒排索引

    词条问题的解决

    词条归一化隐式地建立等价类,例如去掉连字符;维持多个非归一化词条之间的关联关系,例如手工建立同义词表,参见后面的单词词典(所以可以知道汉语主题词表等受控词表的作用)

    词干还原stemming和词形归并lemmatization

    单词词典

    • 单词词典是由文档集合中出现过的所有单词构成的字符串集合。
    • 单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
    • 单词词典是倒排索引中非常重要的组成部分,它是用来维护文档集合中所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。
    • 在支持搜索时,根据用户的查询词,去单词词典里查询,就能够获得相应的倒排列表。对于一个规模很大的文档集合来说,可能包含了几十万甚至上百万的不同单词,快速定位某个单词直接决定搜索的响应速度,所以需要很高效的数据结构对单词词典进行构建和查找。

    数据结构

    常用的数据结构包含哈希加链表树形词典结构

     

     

    展开全文
  • 信息检索有广义、狭义之分 • 广义信息检索:信息存储与检索两个过程。 • 狭义信息检索:仅指从检索工具或数据库中准确的检出信息这一过程,即信息查找的过程 4.1.1 信息检索的含义 1.狭义的信息检索(Information ...

    第四章 信息检索原理与技术

    4.1 信息检索的概念

    信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分
    • 广义信息检索:信息存储与检索两个过程。
    • 狭义信息检索:仅指从检索工具或数据库中准确的检出信息这一过程,即信息查找的过程

    4.1.1 信息检索的含义

    1.狭义的信息检索(Information Retrieval)是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获取特定的相关信息的过程。这里的信息集合,往往指关于文献或信息的线索,得到检索结果后一般还要通过检索命中的文献或信息线索索取原始文献或信息。
    2.广义的检索包括信息的存储和检索两个过程(Information Storage and Retrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外部特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。

    4.1.2 信息检索的实质、过程

    信息检索全过程包括两个方面:

    1.信息标引和存储过程。标引是用检索语言和分类号、主题词表示信息,通过对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储组成检索系统,这是组织检索系统的过程。

    2.信息的需求分析和检索过程。分析用户的信息需求,利用组织好的检索系统,按照系统提供的检索方法和途径检索有关信息,这是检索系统的应用过程。
    信息检索的实质是将描述用户所需信息的提问特征,与信息存储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。
    信息检索是对信息集合与需求集合的匹配与选择。

    4.1.3 信息检索的作用

    1.避免重复研究或走弯路
    2.节省学习者的时间
    3.是获取新知识的捷径

    4.1.4 信息存储与信息检索的关系

    信息存储与信息检索是密不可分的两个过程,同时又是互逆的。存储是为了检索,而检索必须先要存储。没有存储检索就无从谈起。这是存储与检索相辅相成、相互依存的辩证关系。

    4.2 信息检索的类型

    4.2.1 按检索的方式分

    1.手工检索

    手工检索简称“手检”,是指人们通过手工的方式检索信息,其使用的检索工具主要是书本型、卡片式的信息系统,即目录、索引、文摘和各类工具书。检索过程是由人工以手工的方式完成的。

    2.计算机检索

    计算机检索简称“机捡”,是指人们利用数据库、计算机软件技术、计算机网络及通信系统进行的信息检索,其检索过程是在人机的协同作用下完成的。

    3.综合检索

    在文献信息检索的过程中,既使用手工检索方式,又使用计算机检索方式,也就是同时使用两种检索方式。

    4.2.2 按检索内容或检索目标分

    1.文献型信息检索

    文献型信息检索是指利用检索工具或检索系统查找文献的过程,包括文献线索检索和文献全文检索。
    文献线索检索是指利用检索工具或检索系统查找文献的出处,检索结果是文献线索。
    文献全文检索是以文献所含的全部信息作为检索内容,即检索系统存储的是整篇文章或整部图书的全部内容。文献全文检索是当前计算机信息检索的发展方向之一。

    2.事实型信息检索

    事实型信息检索是以特定客观事实为检索对象,借助于提供事实检索的检索工具与数据库进行捡索。其检索结果为基本事实。如某个字、词的查找,某一诗词文句的查找,某一年、月、日的查找,某一地名的查找,某一人物的查找,某一机构的查找.某一事件的查找,某一法规制度的查找,某一图像的查找,某一数据、参数、公式或化学分子式的查找等。

    3.数据型信息检索

    数据型信息检索是一种确定性检索,是以数值或图表形式表示的数据为检索对象的信息检索,又称“数值检索”。检索系统中存储的是大量的数据,这些数据既包括物质的各种参数、电话号码、银行账号、观测数据、统计数据等数字数据,也包括图表、图谱、市场行情、化学分子式、物质的各种特性等非数字数据。

    4.2.3 按系统中信息的组织方式分

    1.全文检索
    指检索系统中存储的是整篇文章乃至整本图书。用户根据个人的需求从中获取有关的章、节、段、句等信息,并且还可以做各种统计和分析。

    2.超文本检索
    超文本结构类似于人类的联想记忆结构,它采用了一种非线性的网状结构组织块状信息,没有固定的顺序.也不要求读者必须按照某个顺序来阅读。采用这种网状结构,各信息块很容易按照信息的原始结构或人们的“联想”关系加以组织。

    3.超媒体检索
    由于把多媒体信息引入超文本里.产生了多媒体超文本,也即超媒体。它是对超文本检索的补充,其存储对象超出了文本范畴,融入了静态、动态图像及声音等多媒体信息。信息存储结构从单维发展到多维,存储空间范围不断扩大。

    4.2.4 以文献的外部特征为检索途径

    1.题名途径
    文献题名是指文献的名称,如图书的书名、期刊的刊名、报纸的报纸名称、光盘的光盘名称等。它是认识一篇文献的起点。通过题名途径可查找图书、期刊、单篇文献。检索工具中的书名索引、会议名称索引、书目索引、刊名索引等都提供了从题名进行文献检索的途径。

    2.著作途径
    文献著者是指对文献内容负有责任的个人或机关团体,也就是我们常说的作者、编者、译者等。著者途径也是人们检索文献经常使用的一条途径,包含个人著者、团体著者、专利发明人、专利权人、合同户、学术会议主办单位等。利用责任者途径检索文献,主要利用的是作者索引、作者目录、个人作者索引、团体作者索引、专利权人索引等。

    3.代码途径
    很多文献因其本身特点有特定序号,如科技报告号、专利号、标准号、信息收藏单位的入藏号、ISBN、ISSN等。代码途径就是依据文献信息出版时所编的代码顺序来检索文献信息的途径。这些序号往往具有唯一性,可以据此识别特定的文献信息。依据这些序号数字顺序可编制序号索引,提供序号检索途径。同时,许多检索系统利用事物本身具有的某种符号代码编制成分子式、元素符号、结构式等索引,提供从特定符号代码顺序进行检索的途径,如化合物索引。

    4.2.5 以文献的内部特征为检索途径

    1.分类途径
    分类途径是以课题的学科属性为出发点,按学科分类体系来查找文献信息,以分类作为检索点,利用学科分类表、分类目录、分类索引等按学科体系编排的检索工具来查找有关某一学科或相关学科领域的文献信息。它能满足族性检索的需求。

    2.主题途径
    主题途径是利用信息的主题内容进行检索的途径,即利用从自然语言中抽象出来的,或者经过人工规范化的、能够代表信息内容的标引词来检索。它冲破了按学科分类的束缚,使分散在各个学科领域里的有关同一课题的信息集中于同一主题,使用时就如同查字典一样方便和快捷。其最大优点是把同性质的事物集中于一处,使用户在检索时便于选取,而且将同类事物集中在一起的方法符合人们的工作和生活习惯,直接而准确。

    4.3 检索语言

    4.3.1 检索语言的含义

    检索语言是根据信息检索的需要而创造的专供信息存储和信息检索使用的一种人工语言。
    检索语言是在文献信息检索过程中使用的特定语言形式,它的作用在于促成信息检索系统与检索用户的沟通。

    4.3.2 检索语言的类型

    1. 描述文献外部特征的语言
    (1)题名语言
    (2)著者语言
    (3)代码语言

    2.描述文献内部特征的语言

    (1)分类语言
    所谓“类”是指具有共同属性的事物的集合。每一种事物都有多种属性,用其某一种属性作为划分依据来对一事物进行划分就称为分类。分类是人类逻辑思维的一种最基本的形式。分类语言是用分类号表达学科体系的各种概念,将各种概念按学科性质进行分类和系统排列。

    (2)主题语言
    主题“是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题”,即文献的“中心内容”。每种文献都包含着若干主题,研究或阐述一个或多个问题。主题词就是表达主题概念的词汇。

    4.4 检索系统与检索方法

    4.4.1 检索系统

    1.检索系统的概念
    信息检索系统是为满足信息用户的检索需求而建立起来的、以提供信息检索为目的的信息存储与检索系统。
    可以说,一个信息检索系统便是一定范围文献、信息的全部记录的有序集合。

    2.检索系统的类型

    (1) 按加工手段和技术设备分
    可将检索系统分为:手工检索系统、机械检索系统、计算机检索系统。

    (2) 按载体形式分
    可分为卡片式、书本式、缩微式、磁性材料式等检索系统。

    (3) 按著录格式分
    可将检索系统分为目录、题录、文摘、索引、全文检索系统。

    <1>目录检索系统
    目录检索系统是对一些相关的文献,主要是单位出版物,如图书、期刊等,加以整理、分编,并按一定顺序组织起来形成的一种检索系统,主要记录这些出版物的出版单位、收藏单位及其他外部特征。

    <2>题录型检索系统
    题录型检索系统是以单篇文献为基本著录单位,将书刊、会议录等出版物中大量相关的单篇文献选出,对文献的外部特征,如文献题名、著者姓名、文献出处等加以描述,并按一定的顺序编排起来提供文献线索的检索系统,不收录内容摘要,一般用于快速报道文献信息。

    <3>文摘型检索系统
    文摘型检索系统是在文献题录基础上,加上文献篇首的摘要,或由标引人员以简练、准确的语言将文献信息的研究目的与方法、主题思想与基本观点、框架结构、实验结果与结论等摘录下来形成文摘,并按一定的方法著录、标引、组织起来的检索系统。

    <4>索引型检索系统
    索引型检索系统是将收录范围内的文献中的题名、主题、人名、地名等名词术语以及其他有关款目抽出,注明出处,并按一定的排检方式组织而成的一种检索系统。与目录相比,它有利于人们进行更深入的检索。

    <5>全文检索系统
    全文检索系统是在题录或文摘的基础上,加上完整出版物的全部内容,按一定的方法著录、标引、组织起来的检索系统。这种检索系统往往对文献全文中的词、词组及其位置等做更深入的加工、处理,一般采用自然语言进行自动标引,不仅方便人们一次性获取文献全文,而且提供更多的检索途径。

    4.4.2 检索方法

    1.常用法
    常用法是利用检索工具查找信息的一种方法,因为这种方法是目前查找信息中最常使用的,故亦称常用法。

    (1) 顺查法
    是指按年代由远及近的顺序进行查找的方法,如检索“电视文化”这一课题,首先要弄清起始时间,即“电视文化”产生的时间是哪一年,然后从这一年开始查起,一直查到当前“电视文化”方面的相关信息为止。这样,“电视文化”课题就检索完毕。这种方法的查全率和查准率都较高,但是检索整个课题较费时费力。

    (2) 倒查法
    是指按年代由近及远的逆时间查找方法,这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。使用这种方法可以最快地获得新资料,而且近期资料总是既概括、引用前期的成果,又反映最新的水平和动向,因此这种方法比较省力,但查全率不高。

    (3) 抽查法
    是一种针对学科发展特点,抓住该学科发展迅速、信息发表较多的年代(信息的高峰期),抽出一段时间(几年或十几年),再进行逐年检索的方法。这种方法费时较少,获得信息较多,检索效率较高。但是这种方法的成功率和有效率必须建立在熟悉学科发展特点的基础上。也就是说,只有对该学科或课题的发展熟悉的情况下,才适合使用。

    2.追溯法
    追溯法是一种跟踪查找的方法,即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。

    3.循环法
    循环法是常用法和追溯法的结合,检索时,先利用检索工具查出一批文献,然后选择出与检索课题针对性较强的文献,再按文献后所附的参考文献回溯查找,不断扩大检索线索,分期分段地交替进行,循环下去,直到满意为止。

    4.检索方法的选择原则

    (1) 检索条件
    (2) 检索要求
    (3) 学科特点

    4.5 检索技术与检索效果

    4.5.1 常用检索技术

    1.布尔逻辑检索

    (1)逻辑与“AND”
    逻辑与(AND或“﹡”)是反映概念之间交叉和限定关系的一种组配方式,用以缩小检索范围,减少输出结果,提高查准率。

    其检索表达式为:“A AND B”或“A*B”,即检索记录中必须同时包含A词与B词才算命中。

    例如:“中国*对外贸易”。如查询“计算机文献检索”,提问式为:计算机and文献检索。如下图所示:
    在这里插入图片描述
    (2)逻辑或“OR”
    逻辑或(OR或“+”)是反映概念之间并列关系的一种组配方式,使用它相当于增加检索词主题的同义词与近义词,可扩大检索范围、增加输出结果,提高查全率。

    其检索表达式为:“A or B”或“A+B”,即检索记录中含有A词或者B词中的任何一词即可。

    例如:“高清晰电视+HDTV”。如要查询有关股票和期货方面的文献,检索提问式应为:股票or期货。

    在这里插入图片描述

    (3)逻辑非“NOT”
    逻辑非(NOT或“-”)可以用来排除不希望出现的检索词,它与逻辑与“AND”的作用类似,能够缩小命中信息的范围,提高检索的查准率。

    其检索表达式为:“A NOT B”或“A-B”,即检索记录中包含A词但不含有B词。

    例如:“能源-太阳能”。如要查询除成人教育以外的高等教育方面的文献,提问式为:高等教育not成人教育。

    在这里插入图片描述

    2.截词检索

    (1)从截断字符的数量来看

    <1> 无限截词
    常用表示符号为“*”“/”“?”,一个无限截词符可代表多个字符,表示在检索词的词干后可加任意个字符或不加字符,常用于检索同一类词。

    如使用“employ?”,可检索到:employ,employer,employers,employment等词。

    <2> 有限截词
    一个有限截词符只代表一个字符。常用符号“?”表示,代表这个单词中的某个字母可以任意变化,在检索词词干后可加一个或一个以上的有限截词符,一般有限截词符的数量有限制,其数目表示在词干后最多允许变化的字符个数
    如“solut???”可检索到包含solution、solute和soluting等词在内的信息。

    (2)根据截断的位置
    <1> 后截词
    后截词最常用,即将截词放在一个字符串之后,用以表示后面有限或无限个字符不影响其前面检索字符串的检索结果。
    如:physic*,可检出的词汇有:physic、physical、physician、physicist、physics等。

    <2> 前截词
    前截词将截词符号置于一个字符串的前方,以表示其前方有限或无限个字符不会影响后面检索字符串的检索结果。

    <3> 中截词
    又称中间屏蔽,指将检索字符置于一个检索词中间,不影响前后字符串的检索结果。具体地说,就是在一串字符中插入一个或几个屏蔽符号“?”或“!”,表示在问号的相应位置上可转换数目相当的字符。

    3.限制检索

    (1)检索系统中的限制检索
    在检索系统中,使用缩小和限定检索范围的方法称为限制检索。限定检索条件多种多样,主要和常用的是字段限制。
    其中,主题字段如题名(Title)、叙词(Descriptor)、标识词(Identifier)、文摘(Abstract)等;非主题字段如作者(Author)、文献类型(Document Type)、语种(Language)、出版年份(Publication Year)等。

    (2)搜索引擎中的限制检索
    搜索引擎中的字段检索多表现为前缀符限制形式,其中,表示内容特征的主题字段有Title,Keywords,Subject,Summary等;表示外部特征的非主题字段限制有image,text,applet等;此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型。

    4.位置检索
    位置算符用于表示词与词之间的相互关系和前后的次序,通过对检索词之间位置关系的限定,进一步增强选词指令的灵活性,提高检索的查全率与查准率。

    (1)W算符(With)
    通常写作A(nW)B,表示词A与词B之间至多可以插入n个其他的词(往往包括系统禁用词),同时A、B保持前后顺序不变。

    (2)N算符(Near)
    通常写作A(nN)B,表示A与B之间至多可以插入n个其他的词,同时A、B不必保持前后顺序。

    (3)F算符(Field)
    通常写作A(F)B,表示A、B必须同时出现在记录的同一字段中,如出现在篇名字段中,两词次序、A与B间加词个数不限。

    (4)S算符(Subfield)
    通常写作A(S)B,表示A与B必须同时在一个句子中或同一子字段内出现,但次序可随意变化,且各词间可加任意个词。

    5.多媒体检索
    基于内容的多媒体信息检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法。

    6.超文本检索
    超文本检索时其内容排列是非线性的,按照知识(信息)单元及其关系建立起知识结构网络,操作时用鼠标去点击相关的知识单元,检索便可追踪下去,进入下面各层菜单。

    4.5.2 检索效果

    1.检索效果评价
    检索效果是指检索系统检索信息的有效程度,反映了检索系统的检索能力。
    (1) 质量标准
    (2) 费用标准
    (3) 时间标准
    <1> 检索效果评价指标表
    在这里插入图片描述
    <2> 查全率和查准率
    查全率
    查全率是指检索出的相关信息量与系统中的相关信息总量之比。
    在这里插入图片描述
    查准率
    查准率是指检索出的相关信息量与检索出的信息总量之比。
    在这里插入图片描述

    2.检索效果优化
    <1> 提高检索系统的质量
    <2> 提高用户利用检索系统的能力
    <3> 制定优化的检索策略
    ① 提高查全率的方法
    为了提高查全率,往往通过采用提高检索词的泛指度,选全同义词、近义词,多用截词符;减少使用逻辑“与”、逻辑“非”运算符,增加使用逻辑“或”运算符;取消某些限制符,在多字段或全文中检索;采用分类号检索等多种方法。
    ② 提高查准率的方法
    为了提高查准率,往往通过采用提高检索词的专指度,增加或者使用下位词及专指性较强的自由词,少用截词符;增加使用逻辑“与”、逻辑“非”运算符,减少逻辑“或”运算符;多用限制符或限制字段;用文献的外部特征限制等多种方法。

    4.6 检索步骤与检索策略

    4.6.1 检索步骤
    1.分析检索课题
    2. 选择检索系统
    3.确定检索途径和检索方法
    4.构建检索式
    5.检索并调整检索策略
    6.获取原文

    4.6.2 检索策略

    1. 检索词
    检索词,就是简明、准确地概括检索要求的词语。检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。

    2. 检索式
    检索式,又称检索提问式,是检索策略的某种具体体现。在计算机信息检索中,指在课题分析的基础上,根据所要检索的概念及其相互关系,确定检索词,并用系统支持的各种算符和其他连接符对检索词进行逻辑组配而形成的,全面表达检索提问的逻辑表达式。
    面对一个课题,不应该只从现成的课题名称中抽取检索词或词组,应对课题名称进行切分、删除、替换、聚类、补充和组合,生成检索式,从而达到最佳检索效果。

    3. 检索策略的制定
    制定检索策略时不仅要全面、准确地对课题进行概念分析,确定概念单元和概念间的关系,而且要熟悉有关的检索系统,才能将概念单元转换成系统能够接受的检索词,并选择合适的方式组配起来,完整地表达自己的检索要求。
    另外,还要掌握各种检索方法和途径,适当地运用到检索过程中去,才能取得较好的检索效果。

    4. 检索策略的调整
    用户在每一次检索中,都需根据系统显示的命中记录的内容和数量,判断自己的检索要求是否已得到满足,如果尚未得到满足,还应调整检索策略再次检索。

    4.7 信息检索的原理
    指对搜集到的文献信息进行加工处理,将文献的特征,如文献名称、著者、分类号、主题词、分子式或代码等著录下来,形成一条条文献线索,并将其按一定目的、方法加工整理成检索工具,或组成检索系统。

    对所查的课题进行分析,找出检索提问特征,如主题词、分类号、著者、代码等,然后从检索工具或检索系统中准确地查找出来。

    4.8 信息检索的意义
    • 信息传播与控制的手段
    • 获取知识的门径,学习的助手
    • 科学研究的工具和指南
    • 为科学决策和管理提供依据与支持

    展开全文
  • 链接是Web网页的元素,是指向其他信息资源的指针,把Web页绑在一起。跟随链接可以从一个文档跳到另一个相关文档。 用户组信息资源: 由一组对某一特点事物或主题共同兴趣的网络用户组成的邮件群或电子论坛。是一种...
  • 资料仅供参考资料仅供参考计算机信息检索02139自考资料第一章信息检索概述信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找岀有关信息的过程。根据检索手段的不同,信息检索能够分为手工检索...
  • 大学生信息检索概论练习题

    千次阅读 2021-07-16 15:35:20
    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。 2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。 3.中国专利法在1985年开始实施 4.在会议文献中,常用英文哪个单词表示“专题讨论会...
  • 计算机信息检索基本算符?含义

    千次阅读 2021-07-27 02:18:32
    梁科回答:1.布尔逻辑算符规定检索词之间的逻辑关系的...其含义是,检出的记录中,至少含有两个检索词中的一个.OR算符的基本作用是扩大检索范围,增加命中文献量,提高检索结果的查全率,OR运算符还有一个去重的功能.在...
  • 满意答案健康频率2013.05.22采纳率:22%等级:18已帮助:18775人计算机文献检索的基本方法与策略计算机信息检索,实质上由计算机将输入的检索策略与系统中存贮的文献特征标识及其逻辑组配关系进行类比、匹配的过程。...
  • 第五章 信息法与综合性信息检索 目录: 5.1 信息法概述 5.1.1 信息法的概念 从广义上讲,信息法是调整信息活动中产生的各种社会关系的法律规范的总称。 一般来说,信息法由信息资源管理法、政府信息公开法、信息...
  • 文章目录信息的含义信息的特征信息的功能信息的类型互联网对信息的影响网络环境下信息的新特点信息检索的原理信息检索类型信息检索的意义/作用信息检索的历程信息检索系统信息检索方法信息检索效果影响信息检索...
  • 智能信息检索 最近看了超星上的微软关于搜索引擎和信息检索技术的一个课程:《智能信息检索》,这篇博文用于记录一些重点内容,详细课程可以去看raw video。 1 search engine overview——system,algorithms and ...
  • 信息素质是人们能够敏锐地察觉信息需求,并能对信息进行检索、评价和有效利用的能力。 信息素养是一个综合性的概念,它包含多方面的内容: 1.要有信息意识; 2.能有效地利用信息源; 3.能对信息进行批判性的思考; 4...
  • 高肺结节图像的检索精度:在第一层,将肺结节影像视觉信息和标签信息分别构建概率超图,最优划分概率超图得.到哈希码;在第二层,使用结节图像的视觉特征、标签特征和第一层得到的哈希码来训练哈希函数.在检索时,对待.检...
  • 信息检索复习笔记

    万次阅读 多人点赞 2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索?信息过载 搜索 搜索的过程 从大规模非结构化数据...
  • 信息检索期末复习

    千次阅读 2021-08-08 23:00:13
    信息素养的内容P4、信息素养的核心P4 1、信息——概念:自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互联系、相互作用等运动状态的表达。 2、知识——人们在改造世界的实践...
  • 图像检索、视频结构化与视频检索、基于内容的音频检索、多媒体融合分析与检索、网上多媒体信息检索系统等内容,涉及的媒体类型除文本外,还包括图像、视频、音频及三维图形。本书层次分明,内容详实,理论分析与算法...
  • 信息检索文献规范

    千次阅读 2020-06-06 11:24:12
    文献类型标识 专著M 论文集C 报纸文章N 期刊文章J 学位论文D 报告R 标准S 专利P 对于专著、论文集中的析出文献,其文献类型标识建议采用单字母“A”;对于其他未说明的文献类型,建议采用单字母“Z 数据库DB 计算机...
  • 信息检索》课程笔记

    千次阅读 2018-05-06 08:58:09
    第四周 如何利用信息检索提升研究效率 4.1 站在巨人的肩膀上 4.2 最新信息自动送上门 4.3 瞬间抓住外文论文大意 4.4 特定类型文件的检索 4.5 不用手抄的读书笔记 4.6 多人同时撰写论文 4.7 随时随地获取你的资料 ...
  • 文章目录【1】信息概述【1.1】信息的含义和特征【1.2】信息的特征【2】信息的功能和类型【2.1】信息的功能【2.2】信息类型基于广义信息概念的信息分类基于狭义信息概念的信息分类按照信息的加工程度分(零次、一次...
  • 信息素养与信息检索

    千次阅读 2019-12-08 22:13:09
    信息资源的类型:加工深度(0、1、2、3)、载体形式(印刷、声像、机读、缩微)、出版形式(文献、电子、网络)、传递范围、表达形式 按加工程度分: (分散、无序、多 —> 集中、有序、少) 一次为主要利用...
  • 《先锋检索》——开发文档 目录 (一) 系统说明.... 2 一、 系统架构.... 2 二、 模块介绍.... 2 1. 网络爬虫——Larbin. 2 2. 前端+搜索引擎:Xunsearch(迅搜)& Xapian. 3 3. 网页解析与数据存储:...
  • 武汉大学-黄如花-信息检索课程学习笔记二一、信息检索基本方法1.布尔逻辑检索2.临近检索3.短语检索(精确检索)4.截词检索5.字段限制检索6.区分大小写的检索二、多种检索方法的综合运用1.积木型检索式2.更为复杂的形式...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 319,432
精华内容 127,772
关键字:

信息检索类型有哪些

友情链接: CAN_test_um.zip