精华内容
下载资源
问答
  • 信息检索方法有哪三种
    千次阅读
    2021-06-26 02:05:35

    什么是布尔逻辑运算符?布尔逻辑运算符一共有哪几种?

    布尔逻辑运算符用来表示两个检索词之间的逻辑关系,用以形成一个概念。 常用的布尔逻辑运算符用三种,分别是逻辑与(AND),逻辑或(OR),逻辑。 在形式逻辑中,逻辑运算符或逻辑联结词把语句连接成更复杂的复杂语句。

    java逻辑运算符都有哪些

    逻辑运算符包括 &&、||、#其中 && 和 || 是双目运算符,实现逻辑与、逻辑或;。是单目运算符,实现逻辑非。 结果为 boolean 型的变量或表达式可以通过逻辑运算符结合成为逻辑表达式。逻辑运算符 &&、|| 和 。按表 2 进行逻辑运算。

    逻辑运算符用于对包含关系运算符的表达式进行合并或取非 OR 或 ||,比如两个中,只要有一个成立,则结果就成立 AND与 &&,比如两个中,两个同时成立,则结果成立,否则不成立 NOT 。

    .常用的布尔逻辑运算符用三种,分别是逻辑与(AND),逻辑或(OR),逻辑非(NOT)也许是前世的姻,也许是来生的缘,错在今生相见,徒增一段无果的恩怨。

    在计算机检索中,常用的布尔逻辑算符有哪几种

    逻辑“与” 用“AND”或“ *”表示.可用来表示其所连接的两个检索项的交叉部分,也即交集部分.如果用AND连接检索词 A和检索词B,则检索式为:A AND B (或 A*B):表示让系统检索同时包含检索词A和检索词B的信息集合C.如:查找“胰岛素治疗糖尿脖的检索式为虽然很伤心但是谢谢你的打击,你让小编懂得了怎样坚强。

    布尔逻辑运算符有几种,定义和功能分别是什么

    布尔逻辑运算符有四种类型:and(逻辑与)、or(逻辑或)、not(逻辑非)、XOR(逻辑异或)。 对不起,小编不能给你太多承诺,因为小编怕你会失望。

    and(逻辑和) 在生活中,逻辑和解释等同于“和”。&调用逻辑与,仅当两个操作数均为真时,结果才为真。&称为简明“与”或“短路”。

    逻辑NOT 逻辑AND 逻辑OR 优先级为:NOT AND OR 同级运算从左到右对于小编来说,摄影和画画是一辈子的事情。当然啦,喜欢你那是比一辈子还要长久的事。

    常用的逻辑运算符及其作用?

    逻辑运算符用于对包含关系运算符的表达式进行合并或取非 ||,两个条件中,只要有一个成立,则结果就成立 &&,两个条件中,两个同时成立,则结果成立,否则不成立 。

    1.&& 1.1两边条件都为true时,结果才为true; 1.2如果有一个为false,结果就为false; 1.3当第一个条件为false时,就不再判断后面的条件 注意:当数值参与逻辑与运算时,结果为true,那么会返回的会是第二个为真的值;如果结果为false。

    布尔逻辑检索的主要运算符有哪些?

    a.逻辑与: 空格、+、&、and, b. 逻辑或:|、or c. 逻辑非: -、。、not d. 精确匹配:()、“ ”,来指定()或“ ”内的表达 式是一个整体单元 e.通配符:% N 个字符不要想太多。除了与你亲密的那几个人以外,真没人会在意你多久。

    更多相关内容
  • 信息检索有广义、狭义之分 • 广义信息检索:信息存储与检索两个过程。 • 狭义信息检索:仅指从检索工具或数据库中准确的检出信息这一过程,即信息查找的过程 4.1.1 信息检索的含义 1.狭义的信息检索(Information ...

    第四章 信息检索原理与技术

    4.1 信息检索的概念

    信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分
    • 广义信息检索:信息存储与检索两个过程。
    • 狭义信息检索:仅指从检索工具或数据库中准确的检出信息这一过程,即信息查找的过程

    4.1.1 信息检索的含义

    1.狭义的信息检索(Information Retrieval)是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获取特定的相关信息的过程。这里的信息集合,往往指关于文献或信息的线索,得到检索结果后一般还要通过检索命中的文献或信息线索索取原始文献或信息。
    2.广义的检索包括信息的存储和检索两个过程(Information Storage and Retrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外部特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。

    4.1.2 信息检索的实质、过程

    信息检索全过程包括两个方面:

    1.信息标引和存储过程。标引是用检索语言和分类号、主题词表示信息,通过对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储组成检索系统,这是组织检索系统的过程。

    2.信息的需求分析和检索过程。分析用户的信息需求,利用组织好的检索系统,按照系统提供的检索方法和途径检索有关信息,这是检索系统的应用过程。
    信息检索的实质是将描述用户所需信息的提问特征,与信息存储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。
    信息检索是对信息集合与需求集合的匹配与选择。

    4.1.3 信息检索的作用

    1.避免重复研究或走弯路
    2.节省学习者的时间
    3.是获取新知识的捷径

    4.1.4 信息存储与信息检索的关系

    信息存储与信息检索是密不可分的两个过程,同时又是互逆的。存储是为了检索,而检索必须先要存储。没有存储检索就无从谈起。这是存储与检索相辅相成、相互依存的辩证关系。

    4.2 信息检索的类型

    4.2.1 按检索的方式分

    1.手工检索

    手工检索简称“手检”,是指人们通过手工的方式检索信息,其使用的检索工具主要是书本型、卡片式的信息系统,即目录、索引、文摘和各类工具书。检索过程是由人工以手工的方式完成的。

    2.计算机检索

    计算机检索简称“机捡”,是指人们利用数据库、计算机软件技术、计算机网络及通信系统进行的信息检索,其检索过程是在人机的协同作用下完成的。

    3.综合检索

    在文献信息检索的过程中,既使用手工检索方式,又使用计算机检索方式,也就是同时使用两种检索方式。

    4.2.2 按检索内容或检索目标分

    1.文献型信息检索

    文献型信息检索是指利用检索工具或检索系统查找文献的过程,包括文献线索检索和文献全文检索。
    文献线索检索是指利用检索工具或检索系统查找文献的出处,检索结果是文献线索。
    文献全文检索是以文献所含的全部信息作为检索内容,即检索系统存储的是整篇文章或整部图书的全部内容。文献全文检索是当前计算机信息检索的发展方向之一。

    2.事实型信息检索

    事实型信息检索是以特定客观事实为检索对象,借助于提供事实检索的检索工具与数据库进行捡索。其检索结果为基本事实。如某个字、词的查找,某一诗词文句的查找,某一年、月、日的查找,某一地名的查找,某一人物的查找,某一机构的查找.某一事件的查找,某一法规制度的查找,某一图像的查找,某一数据、参数、公式或化学分子式的查找等。

    3.数据型信息检索

    数据型信息检索是一种确定性检索,是以数值或图表形式表示的数据为检索对象的信息检索,又称“数值检索”。检索系统中存储的是大量的数据,这些数据既包括物质的各种参数、电话号码、银行账号、观测数据、统计数据等数字数据,也包括图表、图谱、市场行情、化学分子式、物质的各种特性等非数字数据。

    4.2.3 按系统中信息的组织方式分

    1.全文检索
    指检索系统中存储的是整篇文章乃至整本图书。用户根据个人的需求从中获取有关的章、节、段、句等信息,并且还可以做各种统计和分析。

    2.超文本检索
    超文本结构类似于人类的联想记忆结构,它采用了一种非线性的网状结构组织块状信息,没有固定的顺序.也不要求读者必须按照某个顺序来阅读。采用这种网状结构,各信息块很容易按照信息的原始结构或人们的“联想”关系加以组织。

    3.超媒体检索
    由于把多媒体信息引入超文本里.产生了多媒体超文本,也即超媒体。它是对超文本检索的补充,其存储对象超出了文本范畴,融入了静态、动态图像及声音等多媒体信息。信息存储结构从单维发展到多维,存储空间范围不断扩大。

    4.2.4 以文献的外部特征为检索途径

    1.题名途径
    文献题名是指文献的名称,如图书的书名、期刊的刊名、报纸的报纸名称、光盘的光盘名称等。它是认识一篇文献的起点。通过题名途径可查找图书、期刊、单篇文献。检索工具中的书名索引、会议名称索引、书目索引、刊名索引等都提供了从题名进行文献检索的途径。

    2.著作途径
    文献著者是指对文献内容负有责任的个人或机关团体,也就是我们常说的作者、编者、译者等。著者途径也是人们检索文献经常使用的一条途径,包含个人著者、团体著者、专利发明人、专利权人、合同户、学术会议主办单位等。利用责任者途径检索文献,主要利用的是作者索引、作者目录、个人作者索引、团体作者索引、专利权人索引等。

    3.代码途径
    很多文献因其本身特点有特定序号,如科技报告号、专利号、标准号、信息收藏单位的入藏号、ISBN、ISSN等。代码途径就是依据文献信息出版时所编的代码顺序来检索文献信息的途径。这些序号往往具有唯一性,可以据此识别特定的文献信息。依据这些序号数字顺序可编制序号索引,提供序号检索途径。同时,许多检索系统利用事物本身具有的某种符号代码编制成分子式、元素符号、结构式等索引,提供从特定符号代码顺序进行检索的途径,如化合物索引。

    4.2.5 以文献的内部特征为检索途径

    1.分类途径
    分类途径是以课题的学科属性为出发点,按学科分类体系来查找文献信息,以分类作为检索点,利用学科分类表、分类目录、分类索引等按学科体系编排的检索工具来查找有关某一学科或相关学科领域的文献信息。它能满足族性检索的需求。

    2.主题途径
    主题途径是利用信息的主题内容进行检索的途径,即利用从自然语言中抽象出来的,或者经过人工规范化的、能够代表信息内容的标引词来检索。它冲破了按学科分类的束缚,使分散在各个学科领域里的有关同一课题的信息集中于同一主题,使用时就如同查字典一样方便和快捷。其最大优点是把同性质的事物集中于一处,使用户在检索时便于选取,而且将同类事物集中在一起的方法符合人们的工作和生活习惯,直接而准确。

    4.3 检索语言

    4.3.1 检索语言的含义

    检索语言是根据信息检索的需要而创造的专供信息存储和信息检索使用的一种人工语言。
    检索语言是在文献信息检索过程中使用的特定语言形式,它的作用在于促成信息检索系统与检索用户的沟通。

    4.3.2 检索语言的类型

    1. 描述文献外部特征的语言
    (1)题名语言
    (2)著者语言
    (3)代码语言

    2.描述文献内部特征的语言

    (1)分类语言
    所谓“类”是指具有共同属性的事物的集合。每一种事物都有多种属性,用其某一种属性作为划分依据来对一事物进行划分就称为分类。分类是人类逻辑思维的一种最基本的形式。分类语言是用分类号表达学科体系的各种概念,将各种概念按学科性质进行分类和系统排列。

    (2)主题语言
    主题“是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题”,即文献的“中心内容”。每种文献都包含着若干主题,研究或阐述一个或多个问题。主题词就是表达主题概念的词汇。

    4.4 检索系统与检索方法

    4.4.1 检索系统

    1.检索系统的概念
    信息检索系统是为满足信息用户的检索需求而建立起来的、以提供信息检索为目的的信息存储与检索系统。
    可以说,一个信息检索系统便是一定范围文献、信息的全部记录的有序集合。

    2.检索系统的类型

    (1) 按加工手段和技术设备分
    可将检索系统分为:手工检索系统、机械检索系统、计算机检索系统。

    (2) 按载体形式分
    可分为卡片式、书本式、缩微式、磁性材料式等检索系统。

    (3) 按著录格式分
    可将检索系统分为目录、题录、文摘、索引、全文检索系统。

    <1>目录检索系统
    目录检索系统是对一些相关的文献,主要是单位出版物,如图书、期刊等,加以整理、分编,并按一定顺序组织起来形成的一种检索系统,主要记录这些出版物的出版单位、收藏单位及其他外部特征。

    <2>题录型检索系统
    题录型检索系统是以单篇文献为基本著录单位,将书刊、会议录等出版物中大量相关的单篇文献选出,对文献的外部特征,如文献题名、著者姓名、文献出处等加以描述,并按一定的顺序编排起来提供文献线索的检索系统,不收录内容摘要,一般用于快速报道文献信息。

    <3>文摘型检索系统
    文摘型检索系统是在文献题录基础上,加上文献篇首的摘要,或由标引人员以简练、准确的语言将文献信息的研究目的与方法、主题思想与基本观点、框架结构、实验结果与结论等摘录下来形成文摘,并按一定的方法著录、标引、组织起来的检索系统。

    <4>索引型检索系统
    索引型检索系统是将收录范围内的文献中的题名、主题、人名、地名等名词术语以及其他有关款目抽出,注明出处,并按一定的排检方式组织而成的一种检索系统。与目录相比,它有利于人们进行更深入的检索。

    <5>全文检索系统
    全文检索系统是在题录或文摘的基础上,加上完整出版物的全部内容,按一定的方法著录、标引、组织起来的检索系统。这种检索系统往往对文献全文中的词、词组及其位置等做更深入的加工、处理,一般采用自然语言进行自动标引,不仅方便人们一次性获取文献全文,而且提供更多的检索途径。

    4.4.2 检索方法

    1.常用法
    常用法是利用检索工具查找信息的一种方法,因为这种方法是目前查找信息中最常使用的,故亦称常用法。

    (1) 顺查法
    是指按年代由远及近的顺序进行查找的方法,如检索“电视文化”这一课题,首先要弄清起始时间,即“电视文化”产生的时间是哪一年,然后从这一年开始查起,一直查到当前“电视文化”方面的相关信息为止。这样,“电视文化”课题就检索完毕。这种方法的查全率和查准率都较高,但是检索整个课题较费时费力。

    (2) 倒查法
    是指按年代由近及远的逆时间查找方法,这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。使用这种方法可以最快地获得新资料,而且近期资料总是既概括、引用前期的成果,又反映最新的水平和动向,因此这种方法比较省力,但查全率不高。

    (3) 抽查法
    是一种针对学科发展特点,抓住该学科发展迅速、信息发表较多的年代(信息的高峰期),抽出一段时间(几年或十几年),再进行逐年检索的方法。这种方法费时较少,获得信息较多,检索效率较高。但是这种方法的成功率和有效率必须建立在熟悉学科发展特点的基础上。也就是说,只有对该学科或课题的发展熟悉的情况下,才适合使用。

    2.追溯法
    追溯法是一种跟踪查找的方法,即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。

    3.循环法
    循环法是常用法和追溯法的结合,检索时,先利用检索工具查出一批文献,然后选择出与检索课题针对性较强的文献,再按文献后所附的参考文献回溯查找,不断扩大检索线索,分期分段地交替进行,循环下去,直到满意为止。

    4.检索方法的选择原则

    (1) 检索条件
    (2) 检索要求
    (3) 学科特点

    4.5 检索技术与检索效果

    4.5.1 常用检索技术

    1.布尔逻辑检索

    (1)逻辑与“AND”
    逻辑与(AND或“﹡”)是反映概念之间交叉和限定关系的一种组配方式,用以缩小检索范围,减少输出结果,提高查准率。

    其检索表达式为:“A AND B”或“A*B”,即检索记录中必须同时包含A词与B词才算命中。

    例如:“中国*对外贸易”。如查询“计算机文献检索”,提问式为:计算机and文献检索。如下图所示:
    在这里插入图片描述
    (2)逻辑或“OR”
    逻辑或(OR或“+”)是反映概念之间并列关系的一种组配方式,使用它相当于增加检索词主题的同义词与近义词,可扩大检索范围、增加输出结果,提高查全率。

    其检索表达式为:“A or B”或“A+B”,即检索记录中含有A词或者B词中的任何一词即可。

    例如:“高清晰电视+HDTV”。如要查询有关股票和期货方面的文献,检索提问式应为:股票or期货。

    在这里插入图片描述

    (3)逻辑非“NOT”
    逻辑非(NOT或“-”)可以用来排除不希望出现的检索词,它与逻辑与“AND”的作用类似,能够缩小命中信息的范围,提高检索的查准率。

    其检索表达式为:“A NOT B”或“A-B”,即检索记录中包含A词但不含有B词。

    例如:“能源-太阳能”。如要查询除成人教育以外的高等教育方面的文献,提问式为:高等教育not成人教育。

    在这里插入图片描述

    2.截词检索

    (1)从截断字符的数量来看

    <1> 无限截词
    常用表示符号为“*”“/”“?”,一个无限截词符可代表多个字符,表示在检索词的词干后可加任意个字符或不加字符,常用于检索同一类词。

    如使用“employ?”,可检索到:employ,employer,employers,employment等词。

    <2> 有限截词
    一个有限截词符只代表一个字符。常用符号“?”表示,代表这个单词中的某个字母可以任意变化,在检索词词干后可加一个或一个以上的有限截词符,一般有限截词符的数量有限制,其数目表示在词干后最多允许变化的字符个数
    如“solut???”可检索到包含solution、solute和soluting等词在内的信息。

    (2)根据截断的位置
    <1> 后截词
    后截词最常用,即将截词放在一个字符串之后,用以表示后面有限或无限个字符不影响其前面检索字符串的检索结果。
    如:physic*,可检出的词汇有:physic、physical、physician、physicist、physics等。

    <2> 前截词
    前截词将截词符号置于一个字符串的前方,以表示其前方有限或无限个字符不会影响后面检索字符串的检索结果。

    <3> 中截词
    又称中间屏蔽,指将检索字符置于一个检索词中间,不影响前后字符串的检索结果。具体地说,就是在一串字符中插入一个或几个屏蔽符号“?”或“!”,表示在问号的相应位置上可转换数目相当的字符。

    3.限制检索

    (1)检索系统中的限制检索
    在检索系统中,使用缩小和限定检索范围的方法称为限制检索。限定检索条件多种多样,主要和常用的是字段限制。
    其中,主题字段如题名(Title)、叙词(Descriptor)、标识词(Identifier)、文摘(Abstract)等;非主题字段如作者(Author)、文献类型(Document Type)、语种(Language)、出版年份(Publication Year)等。

    (2)搜索引擎中的限制检索
    搜索引擎中的字段检索多表现为前缀符限制形式,其中,表示内容特征的主题字段有Title,Keywords,Subject,Summary等;表示外部特征的非主题字段限制有image,text,applet等;此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型。

    4.位置检索
    位置算符用于表示词与词之间的相互关系和前后的次序,通过对检索词之间位置关系的限定,进一步增强选词指令的灵活性,提高检索的查全率与查准率。

    (1)W算符(With)
    通常写作A(nW)B,表示词A与词B之间至多可以插入n个其他的词(往往包括系统禁用词),同时A、B保持前后顺序不变。

    (2)N算符(Near)
    通常写作A(nN)B,表示A与B之间至多可以插入n个其他的词,同时A、B不必保持前后顺序。

    (3)F算符(Field)
    通常写作A(F)B,表示A、B必须同时出现在记录的同一字段中,如出现在篇名字段中,两词次序、A与B间加词个数不限。

    (4)S算符(Subfield)
    通常写作A(S)B,表示A与B必须同时在一个句子中或同一子字段内出现,但次序可随意变化,且各词间可加任意个词。

    5.多媒体检索
    基于内容的多媒体信息检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法。

    6.超文本检索
    超文本检索时其内容排列是非线性的,按照知识(信息)单元及其关系建立起知识结构网络,操作时用鼠标去点击相关的知识单元,检索便可追踪下去,进入下面各层菜单。

    4.5.2 检索效果

    1.检索效果评价
    检索效果是指检索系统检索信息的有效程度,反映了检索系统的检索能力。
    (1) 质量标准
    (2) 费用标准
    (3) 时间标准
    <1> 检索效果评价指标表
    在这里插入图片描述
    <2> 查全率和查准率
    查全率
    查全率是指检索出的相关信息量与系统中的相关信息总量之比。
    在这里插入图片描述
    查准率
    查准率是指检索出的相关信息量与检索出的信息总量之比。
    在这里插入图片描述

    2.检索效果优化
    <1> 提高检索系统的质量
    <2> 提高用户利用检索系统的能力
    <3> 制定优化的检索策略
    ① 提高查全率的方法
    为了提高查全率,往往通过采用提高检索词的泛指度,选全同义词、近义词,多用截词符;减少使用逻辑“与”、逻辑“非”运算符,增加使用逻辑“或”运算符;取消某些限制符,在多字段或全文中检索;采用分类号检索等多种方法。
    ② 提高查准率的方法
    为了提高查准率,往往通过采用提高检索词的专指度,增加或者使用下位词及专指性较强的自由词,少用截词符;增加使用逻辑“与”、逻辑“非”运算符,减少逻辑“或”运算符;多用限制符或限制字段;用文献的外部特征限制等多种方法。

    4.6 检索步骤与检索策略

    4.6.1 检索步骤
    1.分析检索课题
    2. 选择检索系统
    3.确定检索途径和检索方法
    4.构建检索式
    5.检索并调整检索策略
    6.获取原文

    4.6.2 检索策略

    1. 检索词
    检索词,就是简明、准确地概括检索要求的词语。检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。

    2. 检索式
    检索式,又称检索提问式,是检索策略的某种具体体现。在计算机信息检索中,指在课题分析的基础上,根据所要检索的概念及其相互关系,确定检索词,并用系统支持的各种算符和其他连接符对检索词进行逻辑组配而形成的,全面表达检索提问的逻辑表达式。
    面对一个课题,不应该只从现成的课题名称中抽取检索词或词组,应对课题名称进行切分、删除、替换、聚类、补充和组合,生成检索式,从而达到最佳检索效果。

    3. 检索策略的制定
    制定检索策略时不仅要全面、准确地对课题进行概念分析,确定概念单元和概念间的关系,而且要熟悉有关的检索系统,才能将概念单元转换成系统能够接受的检索词,并选择合适的方式组配起来,完整地表达自己的检索要求。
    另外,还要掌握各种检索方法和途径,适当地运用到检索过程中去,才能取得较好的检索效果。

    4. 检索策略的调整
    用户在每一次检索中,都需根据系统显示的命中记录的内容和数量,判断自己的检索要求是否已得到满足,如果尚未得到满足,还应调整检索策略再次检索。

    4.7 信息检索的原理
    指对搜集到的文献信息进行加工处理,将文献的特征,如文献名称、著者、分类号、主题词、分子式或代码等著录下来,形成一条条文献线索,并将其按一定目的、方法加工整理成检索工具,或组成检索系统。

    对所查的课题进行分析,找出检索提问特征,如主题词、分类号、著者、代码等,然后从检索工具或检索系统中准确地查找出来。

    4.8 信息检索的意义
    • 信息传播与控制的手段
    • 获取知识的门径,学习的助手
    • 科学研究的工具和指南
    • 为科学决策和管理提供依据与支持

    展开全文
  • 三种方法检索处理器信息.zip
  • 计算机检索技术哪些

    千次阅读 2021-07-27 01:43:19
    计算机检索技术:1、布尔逻辑检索;利用布尔逻辑算符进行检索...计算机检索是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而...

    计算机检索技术:1、布尔逻辑检索;利用布尔逻辑算符进行检索词或代码的逻辑组配。2、截词检索;截词检索是计算机检索系统中应用非常普遍的一种技术。3、位置检索。4、字段限定检索。5、加权检索。6、聚类检索。

    2666b6a7daed57975449de01d7931543.png

    本教程操作环境:windows7系统、Dell G3电脑。

    计算机检索是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再有终端设备显示或打印的过程。

    在计算机信息检索系统中,常用的检索技术主要有以下六种:

    1、布尔逻辑检索

    利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种技术。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”和逻辑非“NOT”。

    2、截词检索

    截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。这是就要用到截词检索。

    3、位置检索

    位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。

    4、字段限定检索

    字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。

    5、加权检索

    加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。

    6、聚类检索

    聚类是把没有分类的事物,在不知道应分几类的情况下,根据事物彼此不同的内在属性,将属性相似的信息划分到同一类下面。

    想要查阅更多相关文章,请访问PHP中文网!!

    展开全文
  • 现代信息检索——布尔检索

    千次阅读 多人点赞 2021-09-11 19:37:29
    布尔索引方法2.1. 关联矩阵索引2.2. 倒排索引2.2.1. 倒排索引概述2.2.2. 倒排索引建立3. 布尔查询的处理3.1. 布尔查询在倒排表上的操作3.2. AND查询的处理3.3. 布尔查询在倒排表上的优化4. 布尔检索的优缺点 1. ...

    1. 布尔检索概述

    针对布尔查询的检索,布尔查询是指利用 AND, OR 或者 NOT操作符将词项连接起来的查询。

    例如检索需求:哪些文档包含了Brutus及Caesar二词但不包含Calpurnia一词?
    布尔表达式:Brutus AND Caesar AND NOT Calpurnia

    2. 布尔索引方法

    2.1. 关联矩阵索引

    对于规模较小的的文档集(每一个文档中的词项少,文档数量少)。可以对文档集构建词项-文档(term-doc)的关联矩阵,如下图:
    在这里插入图片描述
    在上图中,每一列都是一个关联向量,该向量内的0、1分别表示在文档(蓝色)中是否出现某词项(褐色)。同样的,每一行中的0、1也可以表示该词项(褐色)在文档(蓝色)中出现。
    在这里插入图片描述

    有了这样一个关联矩阵后,就可以进行布尔查询了,回到一开始提到的布尔表达式:Brutus AND Caesar AND NOT Calpurnia,很容易就找出:
    在这里插入图片描述

    同时满足既有Brutus,又有Caesar,同时没有Calpurnia的文档是Antony and CleopatraHamlet

    2.2. 倒排索引

    2.2.1. 倒排索引概述

    但是我们很容易发现,一旦文档集变大,关联矩阵的实用性将大大降低。假定现在有一百万篇文档(1M),每篇有1000个词(1K),每个词平均有6个字节,那么所有文档将约占6GB 空间。同时由于庞大的词项数,导致关联矩阵高度稀疏,使关联矩阵的搜索效率不高。

    基于此,提出了倒排索引来解决关联矩阵的问题。所谓倒排,是对于关联矩阵而言的,在关联矩阵中,我们统计的是一个文档内出现的词项,这种方法稀疏度高(0很多)。所以我们转换思路,统计一个词项在哪些文档中出现过。

    首先,将文档名用文档ID代替,然后按某词出现文档ID序号从小到大排列,例如:
    在这里插入图片描述
    这样建立的索引不再稀疏,同时也无需使用连续空间存储。

    2.2.2. 倒排索引建立

    (1) 文本预处理

    • 词条化(Tokenization)
      将字符序列切分为词条,例如将“You are welcome.” 切分为 you、are、welcome三个词条。也需要解决诸如 “John’s”('s怎样处理?),“state-of-the-art” 算一个还是四个词条?的问题;
    • 规范化(Normalization)
      将文档和查询中的词项映射到相同的形式,例如U.S.A. 和 USA应当看做同一个词;
    • 词干还原(Stemming)
      将同一词汇的不同形式还原到词根,例如authorize, authorization是同一词根,在检索时应当都列出,避免用户在检索时可能出现的描述不准确现象;
    • 停用词去除(Stopwords removal)
      去除高频但意义不大词项,例如the、a、to、of。

    (2) 建立词条序列
    简单来说就是将预处理后的词条和它们所属的文档一起建立<词条, 文档ID>二元组:
    在这里插入图片描述

    (3) 词条排序
    首先将词条按某种方法进行排序,例如英文可以根据字母表进行排序;然后对排序后的列表再按文档ID进行排序,确保同一词条对应的ID较小的文档可以排在前面。
    在这里插入图片描述
    (4) 建立词典和倒排记录表
    将出现多次的词项合并,并记录其出现的频数(在几个文档中出现过),之后按文档ID从小到大的顺序建立倒排记录表,并与词典进行链接:
    在这里插入图片描述
    至此,倒排索引已经建立完毕。

    3. 布尔查询的处理

    3.1. 布尔查询在倒排表上的操作

    • AND (Brutus AND Caesar)
      两个倒排表的交集
    • OR (Brutus OR Caesar)
      两个倒排表的并集
    • NOT (Brutus AND NOT Caesar)
      两个倒排表的减集

    3.2. AND查询的处理

    考虑实现布尔查询表达式:Brutus AND Caesar

    首先应该在词典中定位 Brutus和Caesar,并返回两个词项的倒排表。
    在这里插入图片描述

    然后为每个倒排表定义一个定位指针,两个指针同时从前往后扫描,每次比较当前指针对应的倒排记录,然后再向后移动指向文档ID较小的那个指针在文档ID相等时同时两个指针,直到某一个倒排表被检索完毕。

    这样就能轻易找出符合Brutus AND Caesar的文档,有:文档1、文档2和文档4。

    OR和NOT的同理类似,只是对倒排表的操作不同。注意NOT操作不能简单理解为某一词项的补集,因为补集可能会很大,必须是两个倒排表的减集。

    3.3. 布尔查询在倒排表上的优化

    有两个简单的优化方法:

    1. 倒排表的文档ID升序排列
      正如在AND操作中演示的那样,文档ID升序排列可以尽量地提前结束对倒排表的操作,而不需要对两个倒排表从头到尾进行检索。
    2. 优先处理词频小的词项
      在复杂布尔表达式中,例如(tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes),优先合并词频小的词项,生成文档数量少的词项,有利于结合上面的优化方法尽量地提前结束对倒排表的操作。

    4. 布尔检索的优缺点

    优点

    • 构建简单,或许是构建IR系统的一种最简单方式;
    • 易被接收,仍是目前最主流的检索方式之一;
    • 操作专业化,对于非常清楚想要查什么、能得到什么的用户而言,布尔检索是个强有力的检索工具。

    缺点

    • 布尔查询构建复杂,不适合普通用户。如果构建不当, 检索结果就会过多或者过少;
    • 没有充分利用词项的频率信息;
    • 不能对检索结果进行排序。
    展开全文
  • 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会粉丝吗呜呜呜
  • 信息检索常用方法 常用法 顺查法:以检索课题的起始年代为起点,按时间顺序由远及近查找。 优点:系统、全面、可靠。 倒查法:由近及远,一般用于新开课题,比较关注近期发表的文献,以便掌握近期该课题所达到...
  • 国内三种常用中文数据库检索功能比较研究国内三种常用中文数据库检索功能比较研究[摘 要]针对国内常用中文数据库检索功能相似但又区别的情况,对比分析了CBMWEB、CMCC、CNKI 3个中文常用数据库的检索途径、检索字段...
  • 信息素养 文章目录: 3.1信息素养的概念 信息素质是人们能够敏锐地察觉信息需求,并能对信息进行检索、评价和有效利用的能力。 信息素养是一个综合性的概念,它包含多方面的内容: 1.要有信息意识; 2.能...
  • 信息检索习题

    千次阅读 2021-06-30 16:49:44
    一、填空题 1.著名的引文索引检索工具SCI的...6.一本印刷的检索工具,其结构大体可以分为,大部分:文前栏目、正文和书后附属部分 6.按约束力来划分,标准可以分为强制性标准和推荐性标准。 7.一般来说,我们把SCI、
  • 计算机信息检索基本算符?含义

    千次阅读 2021-07-27 02:18:32
    梁科回答:1.布尔逻辑算符规定检索词之间的逻辑关系的...其含义是,检出的记录中,至少含有两个检索词中的一个.OR算符的基本作用是扩大检索范围,增加命中文献量,提高检索结果的查全率,OR运算符还有一个去重的功能.在...
  • 第二章 信息资源与信息源 文章目录 2.1 信息资源的构成 2.1.1 按文献的载体形式划分 1.印刷型文献 印刷型文献又称纸质文献、印本文献,是以手写、打印、印刷等为记录手段,将信息记载在纸张上形成的文献。它是传统...
  • 搜索引擎是一个提供信息检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 搜索引擎常常是用户利用网上资源的第一途径...
  • 大学生信息检索概论练习题

    千次阅读 2021-07-16 15:35:20
    一、填空题 1.著名的引文索引检索工具SCI的...6.一本印刷的检索工具,其结构大体可以分为,大部分:文前栏目、正文和书后附属部 6.按约束力来划分,标准可以分为强制性标准和推荐性标准。 7.一般来说,我们把SCI、E
  • 是一种有组织的电子邮件系统,用户在其间通过电子邮件进行一对多的交流 信息组织: 答:信息组织就是把数据按照一定的结构、顺序、排列方式组织起来,或者说是按照信息查询的需要,对数据根据其特征进行组织。 词典 ...
  • 文章目录信息的含义信息的特征信息的功能信息的类型互联网对信息的影响网络环境下信息的新特点信息检索的原理信息检索的类型信息检索的意义/作用信息检索的历程信息检索系统信息检索方法信息检索效果影响信息检索...
  • 信息检索复习笔记

    万次阅读 多人点赞 2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索?信息过载 搜索 搜索的过程 从大规模非结构化数据...
  • 2.什么是检索模型 IR的核心问题:预测哪些文档是相关的,哪些文档是不相关的。主要工作在于排序这个核心的问题,如何计算这个排序从而处理文档的相关性。 检索模型描述了如下这些细节 文档表示( Docume...
  • 第五章 信息法与综合性信息检索 目录: 5.1 信息法概述 5.1.1 信息法的概念 从广义上讲,信息法是调整信息活动中产生的各种社会关系的法律规范的总称。 一般来说,信息法由信息资源管理法、政府信息公开法、信息...
  • 武汉大学-黄如花-信息检索课程学习笔记二一、信息检索基本方法1.布尔逻辑检索2.临近检索3.短语检索(精确检索)4.截词检索5.字段限制检索6.区分大小写的检索二、多种检索方法的综合运用1.积木型检索式2.更为复杂的形式...
  • 单选题 1、信息素养的核心是( )。 A、信息意识 B、信息知识 C、信息能力 D、信息道德 2、20世纪70年代,联合国教科文...一次文献主要( )。 A、专著、报纸、期刊 B、书目、索引、文摘 C、百科全书、年鉴、手册 D、
  • 常用的截词检索有哪些

    千次阅读 2021-07-29 04:13:19
    布尔逻辑检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一技术。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。2. 截词检索 截词检索是...
  • 山东大学软件学院2020~2021信息检索期末考试回忆版
  • 所谓的信息检索语言就是信息组织与信息检索时所用的语言,也称文献检索语言、情报语言等。信息资源在存储过程中,其内容特征(分类、主题)和外部特征(如书名、刊名、题名、著者等)按照一定的...信息检索语言主要两...
  • 信息检索期末复习

    千次阅读 2021-08-08 23:00:13
    信息素养的内容P4、信息素养的核心P4 1、信息——概念:自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互联系、相互作用等运动状态的表达。 2、知识——人们在改造世界的实践...
  • 信息检索导论要点整理

    千次阅读 多人点赞 2017-07-07 10:23:24
    这是在准备期末考试的时候根据王斌博士翻译的《信息检索导论》(人民邮电出版社出版)和山东大学信息检索实验室的陈竹敏老师的授课课件进行整理的。 、归一化计算笔记繁琐。 前言 1、 IR的两模式:pull(ad ...
  • 《计算机信息检索》复习资料 第一章:互联网信息资源 1.1互联网上的信息资源 互联网已发展成为当今世界最大的平台。(2019.4判断题) 1.1.1网络上的信息内容?P1 (简述因特网上的主要信息内容包括哪些种类?) ...
  • 信息检索模型

    万次阅读 多人点赞 2017-09-23 10:11:28
    检索模型搜索结果排序是搜索...一个典型的检索模型通常由部分组成:查询的表示、文档的表示、以及一个检索函数(基于查询和文档各自的表示,显式或隐式的估计两者相关的可能性)。 本文将概述几常用的检索模型。
  • 本系列文章为Elasticsearch 的学习笔记,主要是为了便于日后对于相关知识点的回顾,在内容的范围以及正确性上可能...作为本系列博客的开篇,先对信息检索的相关基础知识做个简单的总结 1.基本定义 信息检索的定...
  • 当发现被检索的文章信息检索页面出现信息错误时, 可以通过Web Of Science 页面提交修改申请 方法一: 1.打开wos中文章的具体页面,在右下角一个 suggest a correction 链接 2.点击链接 进入信息申请页面 需要...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 269,172
精华内容 107,668
热门标签
关键字:

信息检索方法有哪三种