精华内容
下载资源
问答
  • 网络信息检索

    2018-12-17 17:05:53
    网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。
  • 信息检索技术

    2019-01-16 09:46:24
    全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。 全文检索主要对非结构化数据的数据检索。 结构化数据和非结构化数据 结构化数据:具有固定格式或有限长度的数据,如数据库,元数据...

    扩展:信息检索技术

    概念介绍

    全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。

    全文检索主要对非结构化数据的数据检索。

    结构化数据和非结构化数据

    结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。

    非结构化数据:指不定长或无固定格式的数据,如邮件,word文档,网页等。

    当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。

    注:非结构化数据另外一种叫法叫:全文数据

    数据搜索按照数据的分类,搜索也分为两种:

    对结构化数据的搜索:如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用 windows搜索对文件名,类型,修改时间进行搜索等。

    对非结构化数据的搜索:如利用windows的搜索也可以搜索文件内容,Linux下的grep命令,再如用Google和百度可以搜索大量内容数据。

    我们重点来探讨对非结构化数据的搜索。

    顺序扫描法

    所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。比如:利用windows的搜索也可以搜索文件内容,如果做全盘文件的检索,速度会相当的慢,因为硬盘上的数据很大。Linux下的grep命令也是这一种方式。

    大家可能觉得这种方法比较原始,但对于小数据量的文件,这种方法还是最直接,最方便的。但是对于大量的文件,这种方法就很慢了。

    有人可能会说,对非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快(由于结构化数据有一定的结构可以采取一定的搜索算法加快速度),那么把我们的非结构化数据想办法弄得有一定结构不就行了吗?

    这种想法很天然,却构成了全文检索的基本思路,也即将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。

    这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。

    索引与全文检索

    比如字典,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。

    所以,字典的拼音表和部首检字表就相当于字典的索引,每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据——也即对字的解释。

    这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)

    下面这幅图来自《Lucene in action》,但却不仅仅描述了Lucene的检索过程,而是描述了全文检索的一般过程。

    全文检索原理

    全文检索大体分两个过程,创建索引(Indexing)搜索索引(Search)

    索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。

    搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。

    正向索引已知文件,欲检索数据,这是建立:文件——数据的映射,称为正向索引,比如下图:

    反向索引在大多数的应用中,我们想做的是搜索某个数据都出现在了哪些文件里或网页里

    这是已知数据,欲检索文件,这是建立:数据——文件的映射,称为反向索引,又称倒排索引

    假如我们有100篇文章,想查看一下lucene,hadoop,solr 在哪些文章中出现过,如下图:

    左边保存的是一系列字符数据,称为词典。每个字符串都指向包含此字符串的文档( Document ) 链表,此文档链表称为倒排表(Posting List)。

    比如我们要寻找既包含字符串“lucene”又包含字符串“solr”的文档,我们只需要以下几步:

    1. 取出包含字符串“lucene”的文档链表。
    2. 取出包含字符串“solr”的文档链表。
    3. 通过合并链表,找出既包含“lucene”又包含“solr”的文件。

    注意:全文检索的确加快了搜索的速度,但是多了索引的过程,两者加起来不一定比顺序扫描快多少。尤其是在数据量小的时候更是如此。并且对一个很大量的数据创建索引也是一个很慢的过程。

    然而两者还是有区别的,顺序扫描是每次都要扫描,而创建索引的过程仅仅需要一次,以后便是一劳永逸的了,每次搜索,创建索引的过程不必经过,仅仅搜索创建好的索引就可以了。这也是全文搜索相对于顺序扫描的优势之一:一次索引,多次使用。

    如何创建索引全文检索的索引创建过程一般有以下几步:

    1.第一步:一些要索引的原文档(Document)

    为了方便说明索引创建过程,这里特意用两个文件为例:

    文件一:Students should be allowed to go out with their friends, but not allowed to drink beer.

    文件二:My friend Jerry went to school to see his students but found them drunk which is not allowed.

    2.第二步:将原文档传给分词组件(Tokenizer)分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize):

    1. 将文档分成一个一个单独的单词。
    2. 去除标点符号。
    3. 去除停词(Stop word)。

    所谓停词(Stop word)就是一种语言中最普通的一些单词,由于没有特别的意义,因而大多数情况下不能成为搜索的关键词,因而创建索引时,这种词会被去掉而减少索引的大小。

    英语中挺词(Stop word)如:“the”,“a”,“this”等。对于每一种语言的分词组件(Tokenizer),都有一个停词(stop word)集合。经过分词(Tokenizer)后得到的结果称为词元(Token)在我们的例子中,便得到以下词元(Token):

    “Students”,“allowed”,“go”,“their”,“friends”,“allowed”,

    “drink”,“beer”,“My”,“friend”,“Jerry”,“went”,“school”,

    “see”,“his”,“students”,“found”,“them”,“drunk”,“allowed”。

    3.第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)

    语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些同语言相关的处

    理。

    对于英语,语言处理组件(Linguistic Processor)一般做以下几点:

    1. 变为小写(Lowercase)。
    2. 将单词缩减为词根形式,如“cars”到“car”等。这种操作称为:stemming。
    3. 将单词转变为词根形式,如“drove”到“drive”等。这种操作称为:lemmatization。

    补充:语言处理组件(linguistic processor)的结果称为词(Term)

    在我们的例子中,经过语言处理,得到的词(Term)如下:

    “student”,“allow”,“go”,“their”,“friend”,“allow”,“drink”,

    “beer”,“my”,“friend”,“jerry”,“go”,“school”,“see”,“his”,

    “student”,“find”,“them”,“drink”,“allow”。

    也正是因为有语言处理的步骤,才能使搜索drove,而drive也能被搜索出来。

    4.第四步:将得到的词(Term)传给索引组件(Indexer)索引组件(Indexer)主要做以下几件事情:

    4.1. 利用得到的词(Term)创建一个字典。

    在我们的例子中字典如下:

    Term

    Document ID

    student

    1

    allow

    1

    go

    1

    their

    1

    friend

    1

    allow

    1

    drink

    1

    beer

    1

    my

    2

    friend

    2

    jerry

    2

    go

    2

    school

    2

    see

    2

    his

    2

    student

    2

    find

    2

    them

    2

    drink

    2

    allow

    2

    4.2 对字典按字母顺序进行排序。

    Term

    Document ID

    allow

    1

    allow

    1

    allow

    2

    beer

    1

    drink

    1

    drink

    2

    find

    2

    friend

    1

    friend

    2

    go

    1

    go

    2

    his

    2

    jerry

    2

    my

    2

    school

    2

    see

    2

    student

    1

    student

    2

    their

    1

    them

    2

    4.3 合并相同的词(Term)成为文档倒排(Posting List)链表。

    在此表中,有几个定义:

    Document Frequency 即文档频次,表示总共有多少文件包含此词(Term)。 Frequency 即词频率,表示此文件中包含了几个此词(Term)。

    所以对词(Term) “allow”来讲,总共有两篇文档包含此词(Term),从而词(Term)后面的文档链表总共有两项,第一项表示包含“allow”的第一篇文档,即1号文档,此文档中, “allow”出现了2次,第二项表示包含“allow”的第二个文档,是2号文档,此文档中, “allow”出现了1次。到此为止,索引已经创建好了,我们可以通过它很快的找到我们想要的文档。

    展开全文
  • 信息检索笔记Chapter02

    2018-09-12 12:32:13
    信息检索 一、信息检索基础 概念 信息检索是指将信息按一定方式组织和存储起来,并根据用处的需求找出特定信息的整个过程。即存储和信息检索。 类型 书目信息检索 ...计算机信息检索系统 ...

    信息检索

    一、信息检索基础

    概念

    信息检索是指将信息按一定方式组织和存储起来,并根据用处的需求找出特定信息的整个过程。即存储和信息检索。

    类型

    • 书目信息检索
    • 全文信息检索
    • 数据信息检索
    • 事实信息检索

    意义

    • 减少重复劳动,提高成功率
    • 节省时间,提高效率
    • 提高信息素养
    • 为决策提供指导

    基本原理

    基本原理

    检索系统

    • 手工检索系统
    • 计算机信息检索系统

    信息检索语言的概念和作用

    • 概念
    • 作用
      • 文献信息的一致性
      • 文献集中化
      • 检索提问与文献信息标引的一致性
      • 保证查全率和查准率

    检索语言的类型

    • 按规范程度划分
      • 人工语言和自然语言
    • 按组织配方式划分
      • 先组织语言和后组式语言
    • 按描述文献信息资源的特征划分
      • 描述信息资源内容特征的检索语言和描述信息资源外部特征的语言

    这里写图片描述

    • 分类检索与分类法
    5个大类 22个基本大类
    马克思 A 马克思注意/列宁注意/毛泽东思想/邓小平理论
    哲学 B 哲学,宗教
    社会科学 C 社会科学总论
    D 政治,法律
    E 军事
    F 经济
    G 文化,科学,教育,体育
    H 语言,文字
    I 文学
    J 艺术
    K 历史,地理
    自然科学 N 自然科学总论
    O 数理科学和化学
    P 天文学,地球科学
    Q 生物科学
    R 医药,卫生
    S 农业科学
    T 工业技术
    U 交通运输
    V 航空,航天
    X 环境科学,安全科学
    综合性图书 Z 综合图书

    + 主题检索语言
    + + 标题词、叙词、关键词、单元词语言

    二、信息检索技术

    布尔逻辑检索

    • “与” 用“AND”或”*”表示
    • “或”用”OR”或“+”表示
    • “非”用”NOT”或”-“表示

    截词检索

    • 后方截词:例如”comput?”
    • 前方截词:例如“?lish”
    • 中间截词:例如”wom?n”
    • 有限截词:例如“stud???”
    • 无限截词:例如“compu *”

    位置检索

    常用位置算符:”with”,”near”

    • W(with):A(W)B
    • N(Near):A(nN)B
    • F(Field):A(F)B
    • L(Link):A(L)B

    字符段限制检索

    • 标题TI
    • 文摘AB
    • 叙词或受控词DE,CT
    • 标识词或自由词ID,UT
    • 作者AU
    • 语种LA
    • 刊名JN
    • 文献类型DT
    • 年代PY

    检索方法

    • 直接法
    • 追溯法
    • 循环法
    展开全文
  • SCI(科学引文索引)、EI(工程索引 )、ISTP(科技会议录索引) 世界著名的三大科技文献检索系统国际公认的进行科学统计与科学评价的主要检索工具,下面小编就分别给大家介绍一下。 SCI——科学引文索引  SCI...

    SCI、EI、ISTP国际三大检索分别指的是什么?

    SCI(科学引文索引)、EI(工程索引 )、ISTP(科技会议录索引) 是世界著名的三大科技文献检索系统,是国际公认的进行科学统计与科学评价的主要检索工具,下面小编就分别给大家介绍一下。

    SCI——科学引文索引

      SCI(Science Citation Index)是由美国科学信息研究所(ISI)1961年创办出版的引文数据库。它是根据现代情报学家加菲尔德(Engene Garfield) 1953年提出的引文思想而创立的。时至今日加菲尔德仍是SCI主编之一。SCI是由ISI( Institute for Scientific Information Inc.)美国科学情报所出版。现为双月刊。ISI除了出版SCI外,还有联机型据SCISEARCH。ISTP(Index to Scientific &Technical Proceeding)也由其出版。 SCI是一部国际性索引,包括有:自然科学、生物、医学、农业、技术和行为科学等,主要侧重基础科学。所选用的刊物来源于94个类、40多个国家、50多种文字,这些国家主要有美国、英国、荷兰、德国、俄罗斯、法国、日本、加拿大等,也收录一定数量的中国刊物。

      EI——工程索引

      美国工程索引(Engineering Index,简称EI)以收录工程技术领域的文献全面且水平高为特点。EI收录5000 多种工程类期刊论文、会议论文和科技报告。收录范围包括核技术、生物工程、运输、化学和工艺、光学、农业和食品、计算机和数据处理、应用物理、电子和通信、材料、石油、航空和汽车工程等学科领域。EI公司在1992年开始收录中国期刊。1998年Ei在清华大学图书馆建立了Ei中国镜像站。

      ISTP——科技会议录索引

      《科技会议录索引》(Index to Scientific & Technical Proceedings,简称ISTP)创刊于1978年,由美国科学情报研究所编辑出版。该索引收录生命科学、物理与化学科学、农业、生物和环境科学、工程技术和应用科学等学科的会议文献,包括一般性会议、座谈会、研究会、讨论会、发表会等。其中工程技术与应用科学类文献约占35%,其他涉及学科基本与SCI相同。

      SCI、EI、ISTP三大检索系统哪个最重要

      在ISTP、EI、SCI这三大检索系统中,SCI最能反映基础学科研究水平和论文质量,该检索系统收录的科技期刊比较全面,可以说它是集中各个学科高质优秀论文的精粹,该检索系统历来成为世界科技界密切注视的中心和焦点。ISTP、EI这两个检索系统评定科技论文和科技期刊的质量标准方面相比之下较为宽松。

    转载于:https://blog.51cto.com/13900010/2164744

    展开全文
  • 检索系统中一种常见情形将安静环境下训练的模型应用于实际有背景噪声的环境。尤其在哼唱输入的情况下,噪声不可避免,因此噪声背景环境中的音频识别技术一直备受关注。本文给出一个将音频增强和音频检索系统相...
  • 所谓检索系统是指图书情报档案工作者和其他学者按某种方式方法建立起来的供读者查检图书情报档案资料等信息的某种有层次的体系,它们是客观存在的设施和设备。  根据处理网络文档方式的不同,基于本体的语义检索...
  • 所谓检索系统是指图书情报档案工作者和其他学者按某种方式方法建立起来的供读者查检图书情报档案资料等信息的某种有层次的体系,它们是客观存在的设施和设备。  根据处理网络文档方式的不同,基于本体的语义检索...
  • 基于内容的视频检索系统开发

    热门讨论 2009-05-13 23:55:33
    而场景是指一连串语义相关的镜头,一般发生在相同的时间和地点,出现相同的人物或事件,表示的是一个语义概念。通过视频解析技术提取出镜头和场景后,可以用一帧或几帧来表示它们,这样当检索需要视频资料时,就不用...
  • 人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。计算机信息检索的过程包括信息存储过程和信息检索过程,其本质信息用户的提问标识和信息集合数据库特征标识...
    1. 1 计算机信息检索的含义和特点
      6.1.1计算机信息检索的含义
      指人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。计算机信息检索的过程包括信息存储过程和信息检索过程,其本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。
      6.1.2计算机信息检索发展简史
      计算机信息检索是计算机技术、通信技术、数据传输技术不断发展的产物,同时也是为了满足文献快速增长、信息需求日益增长的需要。经历了脱机批处理检索、联机检索、光盘检索和网络化联机检索等阶段。
      1.脱机批处理检索
      20世纪五六十年代是脱机检索的试验和实用化阶段,其特征是检索时利用计算机作批处理。由用户向计算机操作人员提问,操作人员对提问内容进行主题分析,编写提问并将结果及时通知用户。这种检索方法,用户不与检索系统发生直接联系,只需要把检索要求送往检索中心,由检索人员在计算机主机旁进行文献检索。这一阶段开始利用计算机编辑出版检索性刊物。
      2.联机检索阶段
      20世纪60至80年代是联机检索试验和实用化阶段。1965年以后,第三集成电路计算机进入实用化阶段,存储介质发展为磁盘和磁盘机,存储容量大幅增加,数据库管理和通信技术都有深入发展,信息检索从脱机批处理检索阶段进入联机检索阶段。
      3.光盘检索阶段
      20世纪80年代以来,一种新型的信息载体激光光盘在信息检索系统中得到越来越广泛的应用。光盘检索以其操作方便,不受通信线路的影响等特点异军突起,大有与联机检索平分秋色之势。
      4.网络化联机检索阶段
      进入80年代,随着TCP/IP通信协议的普通采用,以及美国国家科学基金会的介入,计算机检索发展成了今天的互联网。由于互联网的广泛性、方便性等特征,许多联机系统纷纷上网,把自己的系统安装在互联网的服务器上,成为互联网的一个组成部分,大大增加了用户的人数。而且以搜索引擎为核心的网上搜索技术也日益发展,成为网络时代最具有普遍意义的信息检索形式,互联网集成了多种信息检索方式,已成为用户进行信息检索的一个广阔平台。
      6.1.3计算机信息检索的分类

    2. 根据所检索数据库的形式
      (1)书目检索
      指查出某一主题的文献条目的检索。
      (2)数据检索
      利用相关的检索系统查询有关数据,以获得某一问题量化的准确数值。
      (3)事实检索
      指在计算机检索系统中查询有关事物或实在情报,以求得对某一问题的解答。
      (4)全文检索
      指直接利用原始文献建库进行的检索。
      2.根据计算机检索服务方式
      (1)定题检索
      指根据用户检索课题的内容,定期地从新到资料数据中为特定用户提问进行计算机情报检索的服务方法。
      (2)回溯检索
      指追溯查找过去的信息。可以查找最新的信息,取胜适应多数用户的查询需求。可用于申请专利进的新颖性查询,科研课题的立项和鉴定时的查新等。
      (3)日常检索
      指用户根据自己的信息需求,直接利用终端检索,检索系统即时提供用户所需的文献信息。
      3.根据检索方法
      (1)脱机检索
      是成批处理检索提问的计算机检索方法,计算机信息检索的初期类型。
      (2)联机检索
      是指检索者通过检索终端和通信线路,直接查询检索系统数据库的机检方式。
      (3)光盘检索
      是指以光盘数据库为基础的一种独立的计算机检索。
      (4)网络检索
      是利用E-mail, FTP, Telnet, Archie, WWW等检索工具,在互联网等网络上进行信息存取的行为,目前主要利用的信息检索系统是搜索引擎。
      6.1.4计算机信息检索的特点

    3. 手工检索的优缺点:
      手工检索是人们长期以来采用的文献信息检索的传统方法,人们直接凭头脑进行判断,借助简单的机械工具,对记录在普通载体上的资料来进行相应的检索。检索过程是人的手工操作完成的,其匹配主要依赖人脑的思考、比较和判断。
      (1)手工检索的优点:直观性强、灵活性高、费用较低等。
      (2)手工检索的不足:检索速度慢、时空的限制强、更新周期长、新颖性和时效性低、检索途径少等。

    4. 计算机机检索的特点
      (1)检索范围大
      由于计算机的运算速度高和数据库存储量大,计算机信息检索系统收录了数量巨大、内容全面的信息。能提供成百上千个数据库的检索,涵盖主题十分广泛,几乎覆盖了人类社会生活的各个领域。
      (2)检索速度快
      计算机的快速运算能力保证了计算机检索系统的检索速度,手工检索需要数日甚至数周的课题,计算机检索只需要数分钟甚至几秒就可以完成,大大提高了检索文献信息的检索速度,节约了读者的检索时间,提高了检索效率。
      (3)检索功能强,组配灵活
      计算机信息检索系统一般都提供布尔逻辑检索、截词检索、词组检索等,各类检索词之间可以灵活组配,还可对检索词之间的位置关系和短语进行全文查找。这是传统的手工检索所无法做到的。
      (4)检索途径多
      计算机检索系统除具有手工检索中采用的途径外,还能满足多途径交叉检索的需要,尤其适用于综合性课题的检索。
      (5)数据更新及时、时效性强
      利用计算机检索的文献信息更新周期短,计算机检索根据自身的特点更新周期不同。手工检索工具的更新周期则比较长。
      (6)检索结果输出形式多样
      检索结果可以选择直接浏览、打印、存盘或E-mail传送检索结果,部分计算机检索系统还提供不同字段的输出形式,或者选择简单格式和详细格式两种检索结果显示形式。

    5. 计算机检索的不足
      计算机检索系统所收录的数据的回溯时间有限,也就是说计算机检索不能够满足所有的信息查询需求。同时,计算机检索需要检索者具有一定的计算机知识,需要有计算机的环境,因而这种检索方式并不是适合每一个信息需求者。

    6. 2 计算机信息检索策略
      6.2.1检索策略的含义和作用
      1.检索策略的含义
      即在分析检索课题内容实质基础上,选择检索系统、检索途径,确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划。关键在于构造能够确切表达信息需求的检索式。
      2.检索策略的作用
      正确的检索策略会优化检索过程,有助于提高查全率和查准率,节约检索时间与费用,取得最佳的检索效果。反之,则会降低检索效率。
      6.2.2检索表达式
      1.检索表达式的含义
      是检索策略的具体体现。检索式一般由检索词和各种逻辑运算符组成,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。检索表达式的构造关系到检索策略的成败。
      2.检索表达式的种类
      逻辑表达式、加权表达式、位置检索表达式、截词检索表达式、限制检索表达式、
      6.2.2.1逻辑表达式
      1.逻辑表达式的定义
      是指利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。
      2.布尔逻辑运算符的种类
      (1)逻辑与“AND”
      表示它所连接的两个检索词必须同时出现在结果中;
      (2)逻辑或“OR”
      表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件;
      (3)逻辑非“NOT”
      表示它所连接的两个检索词中应从第一个概念中排除第二个概念。
      3.逻辑表达式的运用
      根据不同的信息需求、不同的检索策略,其检索式构造也不一致。一般来说对于以查全为目标的检索课题,在检索式的构造过程中,用“与”连接的概念组面不能太多,应增加用“或”连接的相关检索词。对于以查准为目标的检索课题,其检索式的构造一般可增加逻辑与的使用。
      4.逻辑表达式的优缺点
      (1)优点:可以表达与用户思维习惯相一致的查询要求,与计算机逻辑运算功能一致,表达意义比较明显直观。
      (2)缺陷:不能实现检索结果的相关性排序;不能反映表达式中检索词的重要性;如果用户的检索课题中涉及的检索词较多时,可能要写出一个相当复杂的逻辑表达式。
      6.2.2.2加权表达式
      1.加权表达式的含义
      加权检索是指在检索提问中,根据每个检索词在检索要求中的重要程度,分别给予一定的数值加以区别,即赋权,这个数值称权值,然后对含有这些检索词的文献进行加权计算,其和在规定的阈值以上的,即确认为命中文献。采用这种方法表达信息需求的称为加权表达式。
      2.加权表达式的应用与局限性
      实质上,网络检索工具的加权检索也仅能控制某个词语是否一定要在检索结果中被包含或被排除,尚不能根据用户的需求来确定某一个具体语词的权值大小,从而确定它对检索结果的影响程度。
      加权检索可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,在提高查全率和查准率方面均有一定的作用。在具体应用上,加权表达式的使用远不及布尔逻辑表达式广泛。
      6.2.2.3位置检索表达式
      1.位置检索表达式的含义
      两个检索词在文献中相隔的距离不同,可能会在一定程度上带来检索结果的差异,单纯依靠布尔逻辑表达式,不能满足多种检索需求。因而,人们又引进了位置检索表达式,也称邻近检索。通过位置算符来表示两个检索词或短语之间的距离和位置关系。
      2.位置检索表达式的位置算符
      (W):表示连接的两个检索词相邻,并且先后顺序不能颠倒,是WITH的缩写。
      (nW):表示连接的两个检索词之间最多可以插入n个词,而且前后顺序不能颠倒。
      (N):表示连接的两个检索词相邻,先后顺序可以颠倒,是NEAR的缩写。
      (nN):表示连接的两个检索词之间最多可以插入n个词,前后顺序可以颠倒。
      6.2.2.4截词检索表达式
      1.截词表达式的含义
      是指在检索中用专门符号(截词符号)表示检索词的某一部分允许有一定的词汇变化,也就是说,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。
      2.截词表达式的作用
      采用截词检索表达式,既能防止漏检,又能节省机时,是提高检索效率的有力措施。
      3.截词的种类
      按截断的位置来分,截词分为前截断、中间截断、后截断等。按截断的字符数量来分,可分为有限截断和无限截断两种。
      4.截词表达式的使用
      截词表达式一定要合理使用,截断部分要适当,不要截得太短,以免增加检索噪音,查出很多无关的文献。
      6.2.2.5限制检索表达式
      指用限制符限定检索词出现范围的检索式。常用的字段限定代码有:标题(TI)、作者(AU)、主题词(SU)、年代(PY)等。一些网络检索工具也允许用户采用限制检索表达式,把检索范围限制在标题(TITLE)、统一资源定位地址(URL)或超链等部分。
      6.2.3检索策略的构造步骤
      6.2.3.1分析信息需求(检索课题),明确检索要求
      这是人们进行信息检索的出发点,不同类型的检索课题,信息需求的范围和程度也不尽相同。在这一环节中,要明确检索目的,明确检索课题内容涉及的主要学科范围和相关概念。在分析课题的基础上,要清楚检索信息的类型,以及要求查找文献信息的时间范围、学科范围等,通过以上分析,对检索需求作出全面的认识。操作中应尽可能掌握检索课题的研究背景,了解检索课题所属的学科领域,学术发展史和现状,借助有关工具书来进一步开拓背景材料,以便于选择正确的检索标识和检索范围。
      6.2.3.2选择检索系统
      依据对信息需求的分析,选择和检索课题相符、收录信息质量较高、检索功能比较完善的信息检索系统。检索系统的选择要求我们对目前可利用的检索系统有一个大概的了解,如检索系统收录的信息所涉及的学科领域,信息类型,时间范围,检索途径和检索方法,检索费用等等。
      6.2.3.3选择检索途径和检索方法,确定检索词或检索式
      检索词的确定是建立在检索课题概念分析的基础上,有时,检索课题会包含复杂的主题内容,应明确组成课题内容的直接概念和相关概念,通过一定的逻辑组配或其它方式形成一定的复合概念或概念关系来表达用户的信息需求。在确定检索词时,应考虑它表达概念的确切性及其与系统存储标识的一致性。
      6.2.3.4处理检索结果
      在实施检索的过程中,根据检索结果的实际情况,可以调整检索词、检索式、检索途径和检索方法等,也可以充分利用信息检索系统提供的缩检和扩检功能,完善检索结果,直到达到满意的效果。最后,将所获得的检索结果加以系统整理,筛选出符合课题要求的相关文献信息,选择检索结果的著录格式,辨认文献类型、文种、著者等项记录内容,输出检索结果。
      6.2.3.5获取原始文献
      使用的信息检索系统不同,原始文献的获取方式也不尽相同。
      6.2.4检索策略的反馈与调节
      6.2.4.1影响查全率与查准率的主要因素
      1.主题分析是否准确、全面。
      对检索课题进行主题分析,是正确选择主题词和构建检索表达式的先决条件,也是提高检索的查全率和查准率的前提。
      2.检索词选择是否准确
      选用的检索词的专指度如何,如果检索词过于专指或者过于泛指,都会不恰当地缩小或扩大检索范围。
      3.检索词之间逻辑关系的配置是否合适
      逻辑与的使用有助于提高查准率,逻辑或的使用有助于提高查全率,截词检索的使用可以提升查全率,限制检索可以将检索词限定在某一范围内,有利于查准率。
      6.2.4.2提高查全率和查准率的方法
      1.提高查全率的方法
      1)降低检索词的专指度
      选用的检索词范围面要广一些,泛指性要强一些。除选择恰当的主题词外,还应该选择比恰当的主题词内容范围更广的上位词。
      2)增加同义词、近义词或相关词的逻辑或运算
      不仅要选择较为规范的主题词,而且要考虑与该主题词相关的同义词或近义词。对于一些表示整体的概念,如果想提高查全率,可以将整体概念进行拆分,并用逻辑或连接。
      3)选用截词检索
      可以利用截断的词的一个局部进行检索,利用一组相关词词首一致的特性,进行相关扩检。从而简化检索过程,节约用户的时间,提高检索速度。
      4)增加和调整检索途径
      如可将主题检索和分析检索结合起来。
      5)准确把握检索对象及目的,选择合适的数据库(补充)
      2.提高查准率的方法
      1)提高检索词的专指度,增加或换用下位词和专指性较强的关键词进行检索。
      2)用AND连接一些进一步限定主题概念的相关检索项,增加相互的制约。
      3)用NOT来排除一些无关的检索项。
      4)采用限定检索,缩小检索范围,提高查准率。
      5)减少或不采用逻辑“或”及截词检索技术的使用;(补充)
      6)不选“全文检索”(补充)
      7)准确把握检索对象及目的,选择合适的数据库(补充)

    7. 3 信息检索技术
      6.3.1全文检索技术
      1.全文检索技术的概念
      Full Text Retrieval,是以各类数据(文字、声音、图像等)为主要处理对象,根据数据资料的内容来实现的信息检索技术。
      2.全文检索技术的特点
      与其他检索技术相比,新颖在可使用原文中任意一个有实际意义的词作为检索入口,且得到的结果是源文献而不是信息线索。其显著特点是提供对海量信息数据的管理和快速查询。
      3.全文检索技术的应用
      网络搜索引擎是以全文检索技术为核心支撑技术的
      4.全文检索技术的代表
      中文全文检索技术最有影响的是TRS全文信息检索系统
      5.全文检索技术的不足
      用孤立词和词汇术语作为检索入口,缺乏意义的内在关联,在查准方面难以保证,检索效果不太理想。
      6.全文检索技术的趋势
      针对不足,全文检索技术开始于人工智能结合,增加对内容的分析理解、内容表达、知识学习、推理机制。
      6.3.2基于内容的多媒体检索技术
      1.基于内容的多媒体检索技术概述
      多媒体检索技术指对多媒体信息专有的检索技术,重点是基于内容的多媒体新检索技术。多媒体检索技术与传统数据库技术结合,可方便地实现海量多媒体数据的存储和管理;它与网络搜索引擎技术结合,可用来检索互联网中丰富的的媒体信息。
      2.基于内容的多媒体检索技术原理
      直接对图像、视频、声音内容(图像的颜色、纹理、形状,视频的镜头、场景、镜头的运动,声音的音调、响度、音色等)进行分析,利用媒体对象的语义、媒体的视觉和听觉特征来进行检索。
      3.基于内容的多媒体检索技术技术:
      模式识别、计算机视觉、图像理解等检索,是多种技术的结合。
      4.基于内容的多媒体检索技术与传统文本检索相比的不同特征
      实施的是一种相似性检索,不是传统的精确匹配,采用近似匹配或局部匹配的方法和技术逐步求精,来获得查询和检索的结果。利用媒体自身的替代进行标引和检索,很大程度避免了对影像的主观描述。
      5.基于内容的多媒体检索技术分类
      基于内容的图像检索技术、基于内容的视频检索技术、基于内容的音频检索技术
      6.3.2.1基于内容的图像检索技术
      1.基于内容的图像检索技术概述
      CBIR(Content-based Image Retrival)主要依据图像固有的特征来标引和检索。这些图像特征包括:图像的内容特征(colour comtribution、texture、outline),图像的描述对象(person、object、scene),图像的相关信息(author、time、site&other physical features),图像的移动和组合特征的个。
      2.基于内容的图像检索技术关键技术:
      颜色(colour)特征的提取、纹理(texture)特征提取、形状(shape)特征提取、相关反馈(relative feedback)等
      3.基于内容的图像检索技术检索方式类型

    1. 选择颜色的比例、轮廓形状以及纹理图案的图样进行查询;
    2. 草图查询;
    3. 实例查询。
      4.基于内容的图像检索技术代表
      IBM公司的QBIC系统、MIT的Photobook系统,新加坡国立大学的CORE系统、美国哥伦比亚大学的VisualSEEK系统
      6.3.2.2基于内容的视频检索技术
      1.基于内容的视频检索技术
      实际上是对动态图像进行检索,视频检索的实质就是在大量的视频数据中找到所需要的视频片段。
      2.基于内容的视频检索技术步骤
      动态视频检索需要对视频信息进行视频分割和处理,包括视频结构的分析和视频数据的自动索引。
      3.基于内容的视频检索技术的作用和意义
      这种新型的基于内容的视频检索技术,彻底改变了传统的通过快进或快退等顺序的方法进行人工查找的视频检索方式,满足了用户对大量视频多角度检索的需求。
      4.基于内容的视频检索技术检索方法
      基于内容的视频检索的方法主要有基于关键帧的检索,基于运动的检索与浏览等。
      6.3.2.3基于内容的音频检索技术
      1.基于内容的音频检索技术的含义
      音频是对声音进行数字化处理得到的结果。基于内容的音频检索技术就是将输入的字符序列和音频数据库中的字符序列相匹配。
      2.常用的音频检索方法
      赋值查询、示例查询和分类浏览
      3.基于内容的音频检索技术研究领域
      最简单的音频检索是用准确的序号查找出一段声音,较高级别的是匹配任何给定样值的声音的检索,最高级别的查询中可以包含声音的概念特性。基于内容的音频检索主要关心的是声学和主观特性的查询。
      4.基于内容的音频检索技术的代表
      有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的Muscle Fish系统。
    展开全文
  • 大学文献检索资料 DOC

    2009-11-28 10:35:24
    信息检索是指将文献信息按一定的方式组织、存储起来,并针对用户的需要查找出所需信息的过程。 信息检索的类型: 1.文献检索 2.数据检索 3.事项检索 一、什么是检索工具?用以存储、报道和查找文献信息的工具。 ...
  • 信息检索是指在给定自然语言的文档(或者图片,视频等多媒体)集合和用户的查询(query)的条件,通过系统的处理,返回与query相关的经过排序的文档(或者多媒体)的文档子集。 1.1.2 query的基本形式 根据上述的概念描述...
  • 信息检索常用的性能评价指标

    千次阅读 2011-03-03 15:04:00
    1 查全率与查准率传统的信息检索评价指标主要是查全率与查准率,查全率是指返回结果中相关文档数量与系统中总的相关文档数量的比率,主要反映检索系统召回相关结果的完整性。查准率是指返回结果中相关文档的数量与...
  • 第一章 布尔检索信息检索是从大规模非结构化数据(通常文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常文档)的过程.”非结构化数据”那些没有清晰和明显的语义结构的数据,与之相对的,最...
  • 全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。 全文检索主要对非结构化数据的数据检索。 结构化数据和非结构化数据 结构化数据:具有固定格式或有限长度的数据,如数据库,元数据等...
  • 压缩技术分为有损压缩与无损压缩,无损压缩是指压缩后所有的原始信息都被保留下来,当有损压缩损失的信息不被检索系统检索到时,有损压缩是有意义的。对于Web检索来说,文档数目大、查询时间短、用户只关注前几页的...
  •  目标:以图书馆现有的文献资源为基础,系统掌握我国和世界上几种常用文献数据库和检索系统的使用方法和检索技巧,培养和提升学术信息素养。  信息素养(Information literacy)最早由保罗·泽考斯1974年提出,...
  • 全文检索

    2013-07-18 22:29:21
    全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。 关于全文检索1.只处理文本。2.不处理语义。3.搜索时英文不区分大小写。4.结果...
  • 信息检索中,“相关性”一个关键性的概念,但是信息检索研究长久以来一直在缺乏一个准确的相关性定义的情况下进行的。对这一概念人们做了大量研究并提出了理论框架,但这些研究成果无法很好地被加以利用。本文...
  • 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立索引,指明该词在文章中出现的次数和位置,当用户查询时,检索系统根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。...
  • 顾名思义,地理信息系统是处理地理信息的系统。地理信息是指直接或间接与地球上的空间位置有关的信息,又常称为空间信息。一般来说,GIS可定义为:"用于采集、存储、管理、处理、检索、分析和表达地理空间数据的...
  • 全文检索简介

    2020-07-22 10:54:46
    全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。 关于全文检索,我们要知道:1,只处理文本。2,不处理语义。3,搜索时英文不...
  • 在现代信息工艺基础上研发自然环境信息分析系统* . 翻译苑惠明校对马鸿云 前言 信息工艺发展到现代水平提出任务即开发研究可保障用户在处理有关自然环境信息的整个过程从计算机网络检索到...地质生态系统是指生物圈信
  • 系统是整个图书馆信息管理系统的重要组成部分,本文主要从以下几方面 对该系统的开发过程进行阐述: 1.介绍图书馆信息管理系统现实意义及开发背景; 2.系统功能及目标; 3.系统设计方案的选择与实施; 4.利用控件实现...
  • 全文检索☞Lucene

    2018-11-05 22:42:12
    将一个完整信息源的全部内容转化为计算机能够识别、处理的信息单元组成的数据集合,全文检索系统的主要构成部分,全文数据库泛指储存海量信息的数据库。 数据可以分为: 结构化数据:具有固定格式或有限...
  • 是指由计算机及其相关和配套的设备、设施(含网络)构成的,按照一定的应用目标和规划,对信息进行采集、加工、存储、传输和检索等处理的人机系统。国际标准化组织ISO对“计算机安全”的定义:是指信息处理系统...
  • 搜索引擎是指根据一定的策略,运用特定的计算机程序从互联网上收集,在对信息进行组织和处理后,为用户提供检索服务,并将检索相关的信息提供给用户的系统。搜索引擎的研究方向包含架构方向(索引、检索),策略方向...
  • 使用 Python 获取 Linux 系统信息

    千次阅读 2013-08-02 14:59:16
    在本文中,我们将会探索使用Python编程语言工具来检索Linux系统各种信息。走你。 哪个Python版本? 当我提及Python,所的就是CPython 2(准确的2.7).我会显式提醒那些相同的代码在CPython 3 (3.3)上不...
  • 文章目录检索语言的含义检索语言的特点检索语言的功能检索语言的...人工语言根据一定的规则人为编制而成的检索语言,可用于表述文献主要的内容,建立信息检索系统。自然语言人类交流时使用的语言,不受任何限...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 529
精华内容 211
关键字:

信息检索系统是指