精华内容
下载资源
问答
  • 信息检索方式
    千次阅读
    2021-07-25 01:57:15

    计算机检索主要途径和方法

    计算机检索途径和方法 一、计算机检索概念与原理 利用计算机在相关的机读数据库中查找所需文献信息的方式和过程。 检索题目 检索标识 输入计算机 标识匹配 输出结果 目前,绝大多数计算机检索系统完成的匹配为字符串的匹配,而非概念匹配。 分析检索要求 制定检索策略 分析检索题目或内容特点,提取主要概念,找出研究主题和该主题的研究方面,涉及的指标,拟定或查寻相应的检索标志,明确其间的逻辑关系以编制检索算式。 计算机检索原理 匹配 检索提问标识 文献特征标识 字符串匹配检索系统进行检索标识与文献标识的字符串匹配 阿司匹林 ≠ 阿斯匹林

    gastric cancer gastric cancer ×gastric tumor 二、计算机检索主要途径和方法1、分类途径 按照学科体系和专业类属关系将所收信息进行 分类,查找时按类逐级点开。2、主题途径 以主题词关键词描述收录信息的特征查找时 直接使用最能反映检索要求的事物名称或概念词。 依据主题语言规范化程度的不同,主题途径又分为主题词途径、关键词途径和文本词自由词3、篇名途径(摘要/全文) 以出现在文献题目中的自由词为检索目标。二、计算机检索主要途径和方法 4、著者途径 检索某些特定作者的文献。 5、刊名途径 检索某些特定出版物的文献。分类途径分类途径主题途径: 主题词主题途径: 自由词(篇名)主题途径: 自由词(篇名)关键词6、逻辑运算 逻辑与,运算符多为“AND”或“”逻辑运算包

    更多相关内容
  • 参考答案:(1)脱机检索:脱机检索是指检索者直接在计算机旁进行文献检索的一种方式,在此方式中,用户勿需利用终端和电讯网络直接与计算机联系,只需要把检索要求送往检索中心,由专职操作计算机的人员(即检索者)...

    参考答案:

    (1)脱机检索:脱机检索是指检索者直接在计算机旁进行文献检索的一种方式,在此方式中,用户勿需利用终端和电讯网络直接与计算机联系,只需要把检索要求送往检索中心,由专职操作计算机的人员(即检索者)进行检索。

    优点:

    ①检索费用低廉;

    ②批处理的检索费用由诸多用户分担。

    缺点:

    ①用户同检索系统之间没有直接的“对话”,不能在检索同时修改检索策略和浏览文献,从而影响检索的质量;

    ②检索存在时间上的延迟,很难满足要求及时获得检索结果的检索要求。

    (2)联机检索:联机检索是指信息用户使用终端设备,运用一些规定的指令输入检索词和检索策略,通过通讯网络与相关信息检索系统的计算机直接连接进行“人机对话”,同时通过运行检索软件从信息检索系统的预先储存文献的数据库中查找所需信息的过程。

    优点:

    ①克服了地理上的障碍;

    ②消除了时间上的延迟现象;

    ③保证检索者获得最新、最及时的文献信息;

    ④“人机对话”方式可使检索者随意修改检索策略,从而达到很高的查全率和查准率。

    缺点:

    ①检索费用较高;

    ②受地区通讯线路质量的影响较大;

    ③检索技术较为复杂,难以成为普及型的检索手段。

    (3)光盘检索:光盘检索系统由微机、检索软件、光盘驱动器和光盘数据库构成。

    光盘检索优点:

    ①使用方便、简单,易于操作;

    ②不受机时的限制,可反复修改检索策略,达到很高的检全率与检准率;

    ③检索费用低廉,没有通讯费用,一次订购,反复使用。

    缺点:

    ①数据更新周期较慢,时差长,文献的新颖性不够;

    ②同一时间只能一人使用,资源浪费较大。

    (4)网络信息检索:资源共享,传统的相对独立的联机检索系统纷纷变成了因特网上的一个站点,计算机检索进人了网络信息检索阶段。网络信息检索是计算机信息检索发展的最高阶段。

    展开全文
  • 21.引文检索除了实现信息评价外,还能达到**【信息检索】**的目的。 22.关键字是论文的组成部分,学术论文的关键字,其数量一般控制在:**(3-8)**个? 23.美国是在1976年的《著作权法案》,首次为合理使用制定了...
  • 通过结合Hadoop以及Lucene技术模型,对Web电子产品信息进行检索,结合分布式索引文件的存储过程,并应用Lucene检索技术将引文件中的访问实现,并将信息检索效率提高。在Lucene_Hadoop架构分析过程,结合粗粒度检索...
  • 向量空间模型(VSM)的JAVA实现,从文档表示到相似度计算,使用两种相似度计算方式:cos和tf-idf算法
  • 搜索引擎-信息组织方式对医学搜索引擎检索质量的影响研究.pdf
  • 信息检索知识点.pdf

    2020-06-21 10:25:09
    计算机检索 1.信息素养 信息素质信息能力作为具有 IL(information ...2.信息检索 广义指将信息按照一定的方式组织和存储起来 并根据信息 用户的需要找出有关信息的过程和技术包括存储和检索两个过程 狭义从信息集合中找
  • 信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询(Information Search)。即用户根据需要,采用一定的方法,借助检索工具,从信息集合...
  • 现代信息检索——布尔检索

    千次阅读 多人点赞 2021-09-11 19:37:29
    布尔检索概述2. 布尔索引方法2.1. 关联矩阵索引2.2. 倒排索引2.2.1. 倒排索引概述2.2.2. 倒排索引建立3. 布尔查询的处理3.1. 布尔查询在倒排表上的操作3.2. AND查询的处理3.3. 布尔查询在倒排表上的优化4. 布尔检索...

    1. 布尔检索概述

    针对布尔查询的检索,布尔查询是指利用 AND, OR 或者 NOT操作符将词项连接起来的查询。

    例如检索需求:哪些文档包含了Brutus及Caesar二词但不包含Calpurnia一词?
    布尔表达式:Brutus AND Caesar AND NOT Calpurnia

    2. 布尔索引方法

    2.1. 关联矩阵索引

    对于规模较小的的文档集(每一个文档中的词项少,文档数量少)。可以对文档集构建词项-文档(term-doc)的关联矩阵,如下图:
    在这里插入图片描述
    在上图中,每一列都是一个关联向量,该向量内的0、1分别表示在文档(蓝色)中是否出现某词项(褐色)。同样的,每一行中的0、1也可以表示该词项(褐色)在文档(蓝色)中出现。
    在这里插入图片描述

    有了这样一个关联矩阵后,就可以进行布尔查询了,回到一开始提到的布尔表达式:Brutus AND Caesar AND NOT Calpurnia,很容易就找出:
    在这里插入图片描述

    同时满足既有Brutus,又有Caesar,同时没有Calpurnia的文档是Antony and CleopatraHamlet

    2.2. 倒排索引

    2.2.1. 倒排索引概述

    但是我们很容易发现,一旦文档集变大,关联矩阵的实用性将大大降低。假定现在有一百万篇文档(1M),每篇有1000个词(1K),每个词平均有6个字节,那么所有文档将约占6GB 空间。同时由于庞大的词项数,导致关联矩阵高度稀疏,使关联矩阵的搜索效率不高。

    基于此,提出了倒排索引来解决关联矩阵的问题。所谓倒排,是对于关联矩阵而言的,在关联矩阵中,我们统计的是一个文档内出现的词项,这种方法稀疏度高(0很多)。所以我们转换思路,统计一个词项在哪些文档中出现过。

    首先,将文档名用文档ID代替,然后按某词出现文档ID序号从小到大排列,例如:
    在这里插入图片描述
    这样建立的索引不再稀疏,同时也无需使用连续空间存储。

    2.2.2. 倒排索引建立

    (1) 文本预处理

    • 词条化(Tokenization)
      将字符序列切分为词条,例如将“You are welcome.” 切分为 you、are、welcome三个词条。也需要解决诸如 “John’s”('s怎样处理?),“state-of-the-art” 算一个还是四个词条?的问题;
    • 规范化(Normalization)
      将文档和查询中的词项映射到相同的形式,例如U.S.A. 和 USA应当看做同一个词;
    • 词干还原(Stemming)
      将同一词汇的不同形式还原到词根,例如authorize, authorization是同一词根,在检索时应当都列出,避免用户在检索时可能出现的描述不准确现象;
    • 停用词去除(Stopwords removal)
      去除高频但意义不大词项,例如the、a、to、of。

    (2) 建立词条序列
    简单来说就是将预处理后的词条和它们所属的文档一起建立<词条, 文档ID>二元组:
    在这里插入图片描述

    (3) 词条排序
    首先将词条按某种方法进行排序,例如英文可以根据字母表进行排序;然后对排序后的列表再按文档ID进行排序,确保同一词条对应的ID较小的文档可以排在前面。
    在这里插入图片描述
    (4) 建立词典和倒排记录表
    将出现多次的词项合并,并记录其出现的频数(在几个文档中出现过),之后按文档ID从小到大的顺序建立倒排记录表,并与词典进行链接:
    在这里插入图片描述
    至此,倒排索引已经建立完毕。

    3. 布尔查询的处理

    3.1. 布尔查询在倒排表上的操作

    • AND (Brutus AND Caesar)
      两个倒排表的交集
    • OR (Brutus OR Caesar)
      两个倒排表的并集
    • NOT (Brutus AND NOT Caesar)
      两个倒排表的减集

    3.2. AND查询的处理

    考虑实现布尔查询表达式:Brutus AND Caesar

    首先应该在词典中定位 Brutus和Caesar,并返回两个词项的倒排表。
    在这里插入图片描述

    然后为每个倒排表定义一个定位指针,两个指针同时从前往后扫描,每次比较当前指针对应的倒排记录,然后再向后移动指向文档ID较小的那个指针在文档ID相等时同时两个指针,直到某一个倒排表被检索完毕。

    这样就能轻易找出符合Brutus AND Caesar的文档,有:文档1、文档2和文档4。

    OR和NOT的同理类似,只是对倒排表的操作不同。注意NOT操作不能简单理解为某一词项的补集,因为补集可能会很大,必须是两个倒排表的减集。

    3.3. 布尔查询在倒排表上的优化

    有两个简单的优化方法:

    1. 倒排表的文档ID升序排列
      正如在AND操作中演示的那样,文档ID升序排列可以尽量地提前结束对倒排表的操作,而不需要对两个倒排表从头到尾进行检索。
    2. 优先处理词频小的词项
      在复杂布尔表达式中,例如(tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes),优先合并词频小的词项,生成文档数量少的词项,有利于结合上面的优化方法尽量地提前结束对倒排表的操作。

    4. 布尔检索的优缺点

    优点

    • 构建简单,或许是构建IR系统的一种最简单方式;
    • 易被接收,仍是目前最主流的检索方式之一;
    • 操作专业化,对于非常清楚想要查什么、能得到什么的用户而言,布尔检索是个强有力的检索工具。

    缺点

    • 布尔查询构建复杂,不适合普通用户。如果构建不当, 检索结果就会过多或者过少;
    • 没有充分利用词项的频率信息;
    • 不能对检索结果进行排序。
    展开全文
  • 根据文档处理方式的不同,将基于本体的信息检索系统分为基于知识库的语义检索系统和基于语义网文档的信息检索系统两类。对这两个模型的实现原理和关键步骤进行了阐述;探讨了基于本体的信息检索模型中的关键技术,并...
  • 针对现有的个性化信息检索系统存在的问题,提出一种新的基于用户兴趣的个性化Web信息检索方法,采用自动隐式学习方式来建立和更新用户兴趣库,采用本体技术来进行语义扩展,从而提高Web信息检索的查准率和查全率。...
  • 第四章 信息检索原理与技术 4.1 信息检索的概念 信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分 • 广义信息检索:信息存储与检索两个过程。 • 狭义信息检索:仅指从...

    第四章 信息检索原理与技术

    4.1 信息检索的概念

    信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分
    • 广义信息检索:信息存储与检索两个过程。
    • 狭义信息检索:仅指从检索工具或数据库中准确的检出信息这一过程,即信息查找的过程

    4.1.1 信息检索的含义

    1.狭义的信息检索(Information Retrieval)是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获取特定的相关信息的过程。这里的信息集合,往往指关于文献或信息的线索,得到检索结果后一般还要通过检索命中的文献或信息线索索取原始文献或信息。
    2.广义的检索包括信息的存储和检索两个过程(Information Storage and Retrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外部特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。

    4.1.2 信息检索的实质、过程

    信息检索全过程包括两个方面:

    1.信息标引和存储过程。标引是用检索语言和分类号、主题词表示信息,通过对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储组成检索系统,这是组织检索系统的过程。

    2.信息的需求分析和检索过程。分析用户的信息需求,利用组织好的检索系统,按照系统提供的检索方法和途径检索有关信息,这是检索系统的应用过程。
    信息检索的实质是将描述用户所需信息的提问特征,与信息存储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。
    信息检索是对信息集合与需求集合的匹配与选择。

    4.1.3 信息检索的作用

    1.避免重复研究或走弯路
    2.节省学习者的时间
    3.是获取新知识的捷径

    4.1.4 信息存储与信息检索的关系

    信息存储与信息检索是密不可分的两个过程,同时又是互逆的。存储是为了检索,而检索必须先要存储。没有存储检索就无从谈起。这是存储与检索相辅相成、相互依存的辩证关系。

    4.2 信息检索的类型

    4.2.1 按检索的方式分

    1.手工检索

    手工检索简称“手检”,是指人们通过手工的方式检索信息,其使用的检索工具主要是书本型、卡片式的信息系统,即目录、索引、文摘和各类工具书。检索过程是由人工以手工的方式完成的。

    2.计算机检索

    计算机检索简称“机捡”,是指人们利用数据库、计算机软件技术、计算机网络及通信系统进行的信息检索,其检索过程是在人机的协同作用下完成的。

    3.综合检索

    在文献信息检索的过程中,既使用手工检索方式,又使用计算机检索方式,也就是同时使用两种检索方式。

    4.2.2 按检索内容或检索目标分

    1.文献型信息检索

    文献型信息检索是指利用检索工具或检索系统查找文献的过程,包括文献线索检索和文献全文检索。
    文献线索检索是指利用检索工具或检索系统查找文献的出处,检索结果是文献线索。
    文献全文检索是以文献所含的全部信息作为检索内容,即检索系统存储的是整篇文章或整部图书的全部内容。文献全文检索是当前计算机信息检索的发展方向之一。

    2.事实型信息检索

    事实型信息检索是以特定客观事实为检索对象,借助于提供事实检索的检索工具与数据库进行捡索。其检索结果为基本事实。如某个字、词的查找,某一诗词文句的查找,某一年、月、日的查找,某一地名的查找,某一人物的查找,某一机构的查找.某一事件的查找,某一法规制度的查找,某一图像的查找,某一数据、参数、公式或化学分子式的查找等。

    3.数据型信息检索

    数据型信息检索是一种确定性检索,是以数值或图表形式表示的数据为检索对象的信息检索,又称“数值检索”。检索系统中存储的是大量的数据,这些数据既包括物质的各种参数、电话号码、银行账号、观测数据、统计数据等数字数据,也包括图表、图谱、市场行情、化学分子式、物质的各种特性等非数字数据。

    4.2.3 按系统中信息的组织方式分

    1.全文检索
    指检索系统中存储的是整篇文章乃至整本图书。用户根据个人的需求从中获取有关的章、节、段、句等信息,并且还可以做各种统计和分析。

    2.超文本检索
    超文本结构类似于人类的联想记忆结构,它采用了一种非线性的网状结构组织块状信息,没有固定的顺序.也不要求读者必须按照某个顺序来阅读。采用这种网状结构,各信息块很容易按照信息的原始结构或人们的“联想”关系加以组织。

    3.超媒体检索
    由于把多媒体信息引入超文本里.产生了多媒体超文本,也即超媒体。它是对超文本检索的补充,其存储对象超出了文本范畴,融入了静态、动态图像及声音等多媒体信息。信息存储结构从单维发展到多维,存储空间范围不断扩大。

    4.2.4 以文献的外部特征为检索途径

    1.题名途径
    文献题名是指文献的名称,如图书的书名、期刊的刊名、报纸的报纸名称、光盘的光盘名称等。它是认识一篇文献的起点。通过题名途径可查找图书、期刊、单篇文献。检索工具中的书名索引、会议名称索引、书目索引、刊名索引等都提供了从题名进行文献检索的途径。

    2.著作途径
    文献著者是指对文献内容负有责任的个人或机关团体,也就是我们常说的作者、编者、译者等。著者途径也是人们检索文献经常使用的一条途径,包含个人著者、团体著者、专利发明人、专利权人、合同户、学术会议主办单位等。利用责任者途径检索文献,主要利用的是作者索引、作者目录、个人作者索引、团体作者索引、专利权人索引等。

    3.代码途径
    很多文献因其本身特点有特定序号,如科技报告号、专利号、标准号、信息收藏单位的入藏号、ISBN、ISSN等。代码途径就是依据文献信息出版时所编的代码顺序来检索文献信息的途径。这些序号往往具有唯一性,可以据此识别特定的文献信息。依据这些序号数字顺序可编制序号索引,提供序号检索途径。同时,许多检索系统利用事物本身具有的某种符号代码编制成分子式、元素符号、结构式等索引,提供从特定符号代码顺序进行检索的途径,如化合物索引。

    4.2.5 以文献的内部特征为检索途径

    1.分类途径
    分类途径是以课题的学科属性为出发点,按学科分类体系来查找文献信息,以分类作为检索点,利用学科分类表、分类目录、分类索引等按学科体系编排的检索工具来查找有关某一学科或相关学科领域的文献信息。它能满足族性检索的需求。

    2.主题途径
    主题途径是利用信息的主题内容进行检索的途径,即利用从自然语言中抽象出来的,或者经过人工规范化的、能够代表信息内容的标引词来检索。它冲破了按学科分类的束缚,使分散在各个学科领域里的有关同一课题的信息集中于同一主题,使用时就如同查字典一样方便和快捷。其最大优点是把同性质的事物集中于一处,使用户在检索时便于选取,而且将同类事物集中在一起的方法符合人们的工作和生活习惯,直接而准确。

    4.3 检索语言

    4.3.1 检索语言的含义

    检索语言是根据信息检索的需要而创造的专供信息存储和信息检索使用的一种人工语言。
    检索语言是在文献信息检索过程中使用的特定语言形式,它的作用在于促成信息检索系统与检索用户的沟通。

    4.3.2 检索语言的类型

    1. 描述文献外部特征的语言
    (1)题名语言
    (2)著者语言
    (3)代码语言

    2.描述文献内部特征的语言

    (1)分类语言
    所谓“类”是指具有共同属性的事物的集合。每一种事物都有多种属性,用其某一种属性作为划分依据来对一事物进行划分就称为分类。分类是人类逻辑思维的一种最基本的形式。分类语言是用分类号表达学科体系的各种概念,将各种概念按学科性质进行分类和系统排列。

    (2)主题语言
    主题“是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题”,即文献的“中心内容”。每种文献都包含着若干主题,研究或阐述一个或多个问题。主题词就是表达主题概念的词汇。

    4.4 检索系统与检索方法

    4.4.1 检索系统

    1.检索系统的概念
    信息检索系统是为满足信息用户的检索需求而建立起来的、以提供信息检索为目的的信息存储与检索系统。
    可以说,一个信息检索系统便是一定范围文献、信息的全部记录的有序集合。

    2.检索系统的类型

    (1) 按加工手段和技术设备分
    可将检索系统分为:手工检索系统、机械检索系统、计算机检索系统。

    (2) 按载体形式分
    可分为卡片式、书本式、缩微式、磁性材料式等检索系统。

    (3) 按著录格式分
    可将检索系统分为目录、题录、文摘、索引、全文检索系统。

    <1>目录检索系统
    目录检索系统是对一些相关的文献,主要是单位出版物,如图书、期刊等,加以整理、分编,并按一定顺序组织起来形成的一种检索系统,主要记录这些出版物的出版单位、收藏单位及其他外部特征。

    <2>题录型检索系统
    题录型检索系统是以单篇文献为基本著录单位,将书刊、会议录等出版物中大量相关的单篇文献选出,对文献的外部特征,如文献题名、著者姓名、文献出处等加以描述,并按一定的顺序编排起来提供文献线索的检索系统,不收录内容摘要,一般用于快速报道文献信息。

    <3>文摘型检索系统
    文摘型检索系统是在文献题录基础上,加上文献篇首的摘要,或由标引人员以简练、准确的语言将文献信息的研究目的与方法、主题思想与基本观点、框架结构、实验结果与结论等摘录下来形成文摘,并按一定的方法著录、标引、组织起来的检索系统。

    <4>索引型检索系统
    索引型检索系统是将收录范围内的文献中的题名、主题、人名、地名等名词术语以及其他有关款目抽出,注明出处,并按一定的排检方式组织而成的一种检索系统。与目录相比,它有利于人们进行更深入的检索。

    <5>全文检索系统
    全文检索系统是在题录或文摘的基础上,加上完整出版物的全部内容,按一定的方法著录、标引、组织起来的检索系统。这种检索系统往往对文献全文中的词、词组及其位置等做更深入的加工、处理,一般采用自然语言进行自动标引,不仅方便人们一次性获取文献全文,而且提供更多的检索途径。

    4.4.2 检索方法

    1.常用法
    常用法是利用检索工具查找信息的一种方法,因为这种方法是目前查找信息中最常使用的,故亦称常用法。

    (1) 顺查法
    是指按年代由远及近的顺序进行查找的方法,如检索“电视文化”这一课题,首先要弄清起始时间,即“电视文化”产生的时间是哪一年,然后从这一年开始查起,一直查到当前“电视文化”方面的相关信息为止。这样,“电视文化”课题就检索完毕。这种方法的查全率和查准率都较高,但是检索整个课题较费时费力。

    (2) 倒查法
    是指按年代由近及远的逆时间查找方法,这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。使用这种方法可以最快地获得新资料,而且近期资料总是既概括、引用前期的成果,又反映最新的水平和动向,因此这种方法比较省力,但查全率不高。

    (3) 抽查法
    是一种针对学科发展特点,抓住该学科发展迅速、信息发表较多的年代(信息的高峰期),抽出一段时间(几年或十几年),再进行逐年检索的方法。这种方法费时较少,获得信息较多,检索效率较高。但是这种方法的成功率和有效率必须建立在熟悉学科发展特点的基础上。也就是说,只有对该学科或课题的发展熟悉的情况下,才适合使用。

    2.追溯法
    追溯法是一种跟踪查找的方法,即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。

    3.循环法
    循环法是常用法和追溯法的结合,检索时,先利用检索工具查出一批文献,然后选择出与检索课题针对性较强的文献,再按文献后所附的参考文献回溯查找,不断扩大检索线索,分期分段地交替进行,循环下去,直到满意为止。

    4.检索方法的选择原则

    (1) 检索条件
    (2) 检索要求
    (3) 学科特点

    4.5 检索技术与检索效果

    4.5.1 常用检索技术

    1.布尔逻辑检索

    (1)逻辑与“AND”
    逻辑与(AND或“﹡”)是反映概念之间交叉和限定关系的一种组配方式,用以缩小检索范围,减少输出结果,提高查准率。

    其检索表达式为:“A AND B”或“A*B”,即检索记录中必须同时包含A词与B词才算命中。

    例如:“中国*对外贸易”。如查询“计算机文献检索”,提问式为:计算机and文献检索。如下图所示:
    在这里插入图片描述
    (2)逻辑或“OR”
    逻辑或(OR或“+”)是反映概念之间并列关系的一种组配方式,使用它相当于增加检索词主题的同义词与近义词,可扩大检索范围、增加输出结果,提高查全率。

    其检索表达式为:“A or B”或“A+B”,即检索记录中含有A词或者B词中的任何一词即可。

    例如:“高清晰电视+HDTV”。如要查询有关股票和期货方面的文献,检索提问式应为:股票or期货。

    在这里插入图片描述

    (3)逻辑非“NOT”
    逻辑非(NOT或“-”)可以用来排除不希望出现的检索词,它与逻辑与“AND”的作用类似,能够缩小命中信息的范围,提高检索的查准率。

    其检索表达式为:“A NOT B”或“A-B”,即检索记录中包含A词但不含有B词。

    例如:“能源-太阳能”。如要查询除成人教育以外的高等教育方面的文献,提问式为:高等教育not成人教育。

    在这里插入图片描述

    2.截词检索

    (1)从截断字符的数量来看

    <1> 无限截词
    常用表示符号为“*”“/”“?”,一个无限截词符可代表多个字符,表示在检索词的词干后可加任意个字符或不加字符,常用于检索同一类词。

    如使用“employ?”,可检索到:employ,employer,employers,employment等词。

    <2> 有限截词
    一个有限截词符只代表一个字符。常用符号“?”表示,代表这个单词中的某个字母可以任意变化,在检索词词干后可加一个或一个以上的有限截词符,一般有限截词符的数量有限制,其数目表示在词干后最多允许变化的字符个数
    如“solut???”可检索到包含solution、solute和soluting等词在内的信息。

    (2)根据截断的位置
    <1> 后截词
    后截词最常用,即将截词放在一个字符串之后,用以表示后面有限或无限个字符不影响其前面检索字符串的检索结果。
    如:physic*,可检出的词汇有:physic、physical、physician、physicist、physics等。

    <2> 前截词
    前截词将截词符号置于一个字符串的前方,以表示其前方有限或无限个字符不会影响后面检索字符串的检索结果。

    <3> 中截词
    又称中间屏蔽,指将检索字符置于一个检索词中间,不影响前后字符串的检索结果。具体地说,就是在一串字符中插入一个或几个屏蔽符号“?”或“!”,表示在问号的相应位置上可转换数目相当的字符。

    3.限制检索

    (1)检索系统中的限制检索
    在检索系统中,使用缩小和限定检索范围的方法称为限制检索。限定检索条件多种多样,主要和常用的是字段限制。
    其中,主题字段如题名(Title)、叙词(Descriptor)、标识词(Identifier)、文摘(Abstract)等;非主题字段如作者(Author)、文献类型(Document Type)、语种(Language)、出版年份(Publication Year)等。

    (2)搜索引擎中的限制检索
    搜索引擎中的字段检索多表现为前缀符限制形式,其中,表示内容特征的主题字段有Title,Keywords,Subject,Summary等;表示外部特征的非主题字段限制有image,text,applet等;此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型。

    4.位置检索
    位置算符用于表示词与词之间的相互关系和前后的次序,通过对检索词之间位置关系的限定,进一步增强选词指令的灵活性,提高检索的查全率与查准率。

    (1)W算符(With)
    通常写作A(nW)B,表示词A与词B之间至多可以插入n个其他的词(往往包括系统禁用词),同时A、B保持前后顺序不变。

    (2)N算符(Near)
    通常写作A(nN)B,表示A与B之间至多可以插入n个其他的词,同时A、B不必保持前后顺序。

    (3)F算符(Field)
    通常写作A(F)B,表示A、B必须同时出现在记录的同一字段中,如出现在篇名字段中,两词次序、A与B间加词个数不限。

    (4)S算符(Subfield)
    通常写作A(S)B,表示A与B必须同时在一个句子中或同一子字段内出现,但次序可随意变化,且各词间可加任意个词。

    5.多媒体检索
    基于内容的多媒体信息检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法。

    6.超文本检索
    超文本检索时其内容排列是非线性的,按照知识(信息)单元及其关系建立起知识结构网络,操作时用鼠标去点击相关的知识单元,检索便可追踪下去,进入下面各层菜单。

    4.5.2 检索效果

    1.检索效果评价
    检索效果是指检索系统检索信息的有效程度,反映了检索系统的检索能力。
    (1) 质量标准
    (2) 费用标准
    (3) 时间标准
    <1> 检索效果评价指标表
    在这里插入图片描述
    <2> 查全率和查准率
    查全率
    查全率是指检索出的相关信息量与系统中的相关信息总量之比。
    在这里插入图片描述
    查准率
    查准率是指检索出的相关信息量与检索出的信息总量之比。
    在这里插入图片描述

    2.检索效果优化
    <1> 提高检索系统的质量
    <2> 提高用户利用检索系统的能力
    <3> 制定优化的检索策略
    ① 提高查全率的方法
    为了提高查全率,往往通过采用提高检索词的泛指度,选全同义词、近义词,多用截词符;减少使用逻辑“与”、逻辑“非”运算符,增加使用逻辑“或”运算符;取消某些限制符,在多字段或全文中检索;采用分类号检索等多种方法。
    ② 提高查准率的方法
    为了提高查准率,往往通过采用提高检索词的专指度,增加或者使用下位词及专指性较强的自由词,少用截词符;增加使用逻辑“与”、逻辑“非”运算符,减少逻辑“或”运算符;多用限制符或限制字段;用文献的外部特征限制等多种方法。

    4.6 检索步骤与检索策略

    4.6.1 检索步骤
    1.分析检索课题
    2. 选择检索系统
    3.确定检索途径和检索方法
    4.构建检索式
    5.检索并调整检索策略
    6.获取原文

    4.6.2 检索策略

    1. 检索词
    检索词,就是简明、准确地概括检索要求的词语。检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。

    2. 检索式
    检索式,又称检索提问式,是检索策略的某种具体体现。在计算机信息检索中,指在课题分析的基础上,根据所要检索的概念及其相互关系,确定检索词,并用系统支持的各种算符和其他连接符对检索词进行逻辑组配而形成的,全面表达检索提问的逻辑表达式。
    面对一个课题,不应该只从现成的课题名称中抽取检索词或词组,应对课题名称进行切分、删除、替换、聚类、补充和组合,生成检索式,从而达到最佳检索效果。

    3. 检索策略的制定
    制定检索策略时不仅要全面、准确地对课题进行概念分析,确定概念单元和概念间的关系,而且要熟悉有关的检索系统,才能将概念单元转换成系统能够接受的检索词,并选择合适的方式组配起来,完整地表达自己的检索要求。
    另外,还要掌握各种检索方法和途径,适当地运用到检索过程中去,才能取得较好的检索效果。

    4. 检索策略的调整
    用户在每一次检索中,都需根据系统显示的命中记录的内容和数量,判断自己的检索要求是否已得到满足,如果尚未得到满足,还应调整检索策略再次检索。

    4.7 信息检索的原理
    指对搜集到的文献信息进行加工处理,将文献的特征,如文献名称、著者、分类号、主题词、分子式或代码等著录下来,形成一条条文献线索,并将其按一定目的、方法加工整理成检索工具,或组成检索系统。

    对所查的课题进行分析,找出检索提问特征,如主题词、分类号、著者、代码等,然后从检索工具或检索系统中准确地查找出来。

    4.8 信息检索的意义
    • 信息传播与控制的手段
    • 获取知识的门径,学习的助手
    • 科学研究的工具和指南
    • 为科学决策和管理提供依据与支持

    展开全文
  • 信息检索课后作业

    2014-12-17 10:15:15
    信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是...
  • 信息检索的策略和方法

    千次阅读 2021-06-26 04:49:03
    【关键词】信息检索 检索策略随着计算机技术和通讯技术的发展,信息检索的理论与实践也随之不断地推陈出新。其历史沿革可划分为手工检索,联机检索、光盘检索、网络信息检索等阶段。目前,计算机信息检索呈现出联...
  • 贝叶斯网络是当今人工智能领域用于处理不确定性问题的主要方法之一,在过去十几年中已经以各种方式应用于信息检索领域。本文以信念网络模型为基础,介绍了该理论在信息检索中应用的基本方法,探讨了利用贝叶斯网络组合...
  • 随着网上信息数量和种类的增加,传统的集中式信息检索方式已不能满足广大用户的需求,分布式信息检索技术日益成为研究的热点。以分布、异构的信息环境为背景,提出了基于LDAP目录服务的分布式异构信息检索模型。该...
  • 分析了信息检索技术的基本概念、原理、以及检索方式,研究了科技信息检索的流程,研究了前向对向传播神经网络的基本模型和算法,提出了基于前向对向传播神经网络的信息检索的原理和算法,并将这种算法与传统方法通过...
  • 信息检索课程具有知识继承性强、受信息技术影响强、实践操作性强的特点,文章就教学中出现的一些问题,探索树立创新教育理念、改革本课程的教学内容、教学技术手段及综合考核方式等方面的改革措施。
  • 医药信息检索

    千次阅读 2020-04-22 19:47:03
    医药信息检索 5.8.1 主要医药检索工具及其发展 1.医药信息检索概况 2.主要医药信息检索工具简介 5.8.2 美国《医药索引》与PubMed数据库 1.美国《医学索引》(Index Medicus,简称IM) ①美国《医学索引》概况 ...
  • 信息检索指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中 相关信息的过程。有目的和组织化的信息存取活动,其中包括"存"和"取"两活动。 旧分类方法:文献检索、事实检索、数据检索 新分类...
  • 通过协商网络多源信息密钥的方式,完成传输信道的物理交互,并以此为条件,优化信息的无线发射端,实现无线网络多源交互信息处理。在此基础上,建立交互信息检索框架,并通过关键特征的倒排索引,计算检索边权重,...
  • 信息检索习题

    千次阅读 2021-06-30 16:49:44
    2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。 3.中国专利法在1985年开始实施 4.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop 5.在CNKI平台下,“主题...
  • 信息检索练习题

    千次阅读 2021-07-16 15:31:25
    选择题 1、在授予专利的时候,给予的是以下哪个专利文献号?(A)p183 A 、专利号 B、申请号 C、审定号 D、...4、《文献信息检索与论文写作》,作者王细荣、韩玲等,这本书的中图分类号,最符合的应该是以下哪个
  • 文档介绍:计算机信息检索过程中常用的检索表达式计算机信息检索系统信息检索过程中常用的检索表达式检索表达式是检索策略的具体体现之一,简称检索式。检索式一般由检索词和各种逻辑运算符组成。具体来说,它是用检索...
  • 文章目录信息的含义信息的特征信息的功能信息的类型互联网对信息的影响网络环境下信息的新特点信息检索的原理信息检索的类型信息检索的意义/作用信息检索的历程信息检索系统信息检索方法信息检索效果影响信息检索...
  • 智能信息检索 最近看了超星上的微软关于搜索引擎和信息检索技术的一个课程:《智能信息检索》,这篇博文用于记录一些重点内容,详细课程可以去看raw video。 1 search engine overview——system,algorithms and ...
  • 信息检索的基本方法(1)

    千次阅读 2022-02-25 14:10:55
    信息检索的基本方法(1) 背景 基本方法 布尔逻辑... 总结 这些基本方法通过使用一些逻辑词组配检索词可以提高我们检索的精度,但是有些方法在实际情况下可能有些行不通,因此,还有更加精确的检索方式等着我们去探索。
  • 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有粉丝吗呜呜呜
  • 信息检索复习笔记

    万次阅读 多人点赞 2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索?信息过载 搜索 搜索的过程 从大规模非结构化数据...
  • 大学生信息检索概论练习题

    千次阅读 2021-07-16 15:35:20
    2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。 3.中国专利法在1985年开始实施 4.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop 5.在CNKI平台下,“主题...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 367,221
精华内容 146,888
关键字:

信息检索方式