精华内容
参与话题
问答
  • 信息检索

    千次阅读 2018-08-21 15:16:20
    1、信息检索(information retrieval):就是非结构化的文本数据的检索。 信息检索与数据库侧重点不同:强调基于关键字的查询、文档与查询的相关性,以及文档的分析、分类和索引等问题。Web搜索引擎不局限于文档...

    关系数据库中:数据----结构化,文本数据----非结构化

    1、信息检索(information retrieval):就是非结构化的文本数据的检索。

    信息检索与数据库侧重点不同:强调基于关键字的查询、文档与查询的相关性,以及文档的分析、分类和索引等问题。Web搜索引擎不局限于文档检索,而同时研究更为广泛的问题来满足用户的信息需求,譬如显示那些信息作为关键字查询的结果。

    在web环境中,每个HTML页面通常被认为是一份文档。

    文档本身已经与一组关键字相关联,如果文档的关键字包含用户提供的关键字,就被检索出来。

    基于关键字的信息检索不仅用于检索文本数据,还可用于检索其他类型的数据,如视频和音频数据。

    在全文检索中,每份文档的所有词都当做关键字。对于非结构化文档,因为可能无法得到有关信息来判断文档中那些词为关键字,所以全文检索是必要的。根据术语出现拼读的信息和超链接信息估计相关性。

    2、术语的相关性排名

    信息检索系统估计文档与查询的相关性,并且只返回高度相关的文档作为结果。相关性排名不是一门精密科学:

    i:    TF-IDF排名方法

    问题:给定一个特定的术语t,某份特定文档d与该术语的相关性如何。

    方法:用该文档中该术语的出现次数作为对相关性的度量,基于的假设:相关的术语很有可能在文档中提及多次。只统计一个术语的出现次数通常不是一个好的相关性指示器:首先,出现次数取决于文档的长度;其次,某个术语出现10次的文档的相关性可能并不是术语只出现1次文档的相关性的10倍。

    TF(d,t)=log(1+n(d,t)/n(d))

    TF(d,t)(term frequency):文档d对术语t的相关性    ; n(d): 文档中术语的个数  ;n(d,t):文档d中术语t出现次数

    公式考虑了文档的长度,文档中术语的出现次数越多相关性越大,尽管不是直接正比于出现次数

    逆文档频率(inverse doucument frequency)对术语赋权值:IDF(t)=1/n(t)

    3、使用超链接的相关性排名

    流行度排名(popularity ranking),威望度排名(prestige ranking)的基本思想:找到流行的页面,并且把它们的位置排在同样包含指定关键字的其它页面之前。

    估计页面的流行度方法:使用链接到该页面的页面数目作为流行度的度量;流行度与站点相关联,而不是页面相关联。一个站点的所有页面获得该站点的流行度。

    3、web的抓取和索引

    网络爬虫(web crawler)是定位和收集web上的信息的程序。它们沿着已知文档中存在的超文本链接递归地找到其他文档。从一组可有人工设定的厨师链接开始,一句URL链接抓取WEB上的页面。随后,爬虫定位抓取到的页面中所包含的所有URL链接信息,若果这些链接所指向的页面没有被抓取过,而且也不存在于当前的待抓取集合中,那么爬虫就把他们加入到待抓取的URL链接集合中。这一过程将以不断抓取集合中的页面并处理这些页面中的链接的形式反复进行。通过以上的过程,所有可以由初始集合中的URL出发以任意的链接顺序到达的页面都将被抓取到。

     

      

    展开全文
  • 信息检索目录

    2019-10-30 18:16:16
    信息检索 第一章 绪论 第二章 信息检索基础 第三章 文献信息资源及其分布规律 第四章 中文检索系统 第五章 文摘索引信息检索系统 第六章 全文检索技术和全文检索系统 第七章 引文检索方法和评价功能 第八章 专业学/...

    信息检索

    第一章 绪论

    第一步,什么是信息检索?它因何出现?它与哪些概念相关?——解释信息检索

    第二章 信息检索基础

    第三章 文献信息资源及其分布规律

    第四章 中文检索系统

    第五章 文摘索引信息检索系统

    第六章 全文检索技术和全文检索系统

    第七章 引文检索方法和评价功能

    第八章 专业学/协会信息检索系统

    第九章 电子图书信息检索系统

    第十章 特种文献检索系统

    第十一章 专利文献信息检索系统

    第十二章 网络搜索引擎技术和网络信息的利用

    第十三章 文献信息综合利用方法

    展开全文
  • 医药信息检索

    2020-04-22 19:47:03
    医药信息检索 5.8.1 主要医药检索工具及其发展 1.医药信息检索概况 2.主要医药信息检索工具简介 5.8.2 美国《医药索引》与PubMed数据库 1.美国《医学索引》(Index Medicus,简称IM) ①美国《医学索引》概况 ...

    目录

     

    医药信息检索

    5.8.1 主要医药检索工具及其发展

    1.医药信息检索概况

    2.主要医药信息检索工具简介

    5.8.2 美国《医药索引》与PubMed数据库

    1.美国《医学索引》(Index Medicus,简称IM)

    ①美国《医学索引》概况

    ②检索体系

    ③《医学主题词表》(Medical Subject Headings,MeSH)

    3.PubMed

    ①PubMed数据库概

    ②数据库覆盖的范围及提供的主要服务

    ③PubMed 检索技术及检索功能

    ④检索结果显示及相关资源链接

    5.8.3 荷兰《医药文摘》

    1.荷兰《医学文摘》印刷本

    ①荷兰《医学文摘》(Excerpta Medica,简称EM) 概况

    ②编排结构及检索体系

    2.荷兰《医学文摘》联机数据库

    ①概况

    ②EMTREE Theraurus

    ③检索功能

    ④其他辅助检索


    医药信息检索

    5.8.1 主要医药检索工具及其发展

    1.医药信息检索概况

      作为科技信息检索中的特殊分支,医药信息检索也同样走过了从最初的手工检索为主发展至今日的计算机检索为主的历程。如题录型《中文科技资料目录》(医药卫生)是手检检索工具;《中国生物医学文献数据库》(CBMdisc)则是医学检索光盘;《万方医药子系统》以及中国期刊网专题全文数据库(Web版)的医药卫生专辑是Web环境下的核心全文医学检索工具。

      国外医药检索工具著名的有美国《医学索引》(Index Medicus, 简称IM)和荷兰《医学文摘》(Excerpta Medica,简称EM)。IM和EM与CA(Chemical Abstract)、BA(Biological Abstract)一道被誉为四大著名生物医学检索工具。

    2.主要医药信息检索工具简介

       ①国内医药信息主要检索工具:见教材表4.1

       ②国外医药信息主要检索工具:见教材表4.2

     

    5.8.2 美国《医药索引》与PubMed数据库

    1.美国《医学索引》(Index Medicus,简称IM)

    ①美国《医学索引》概况

    美国《医学索引》(Index Medicus,简称IM)是最常用的综合性医学文献检索工具之一。IM收录世界各国主要的生物医学及其相关学科的期刊,到2003年为止,已收录世界上72个国家和地区的46种文字出版的生物医学期刊及与医学有关的科技期刊4 521种,其中收录中国期刊64种。IM的特点是历史悠久,报道速度快,检索效率较高,检索方便,内容全面,侧重于临床医学。

    ②检索体系

    IM设置了两种索引:主题索引(Subject Section)和著者索引(Author Section)。

    • 主题索引:供用户从拟查课题的主题概念入口检索文献。
    • 著者索引:供用户从著者姓名入口检索文献。

    ③《医学主题词表》(Medical Subject Headings,MeSH)

    是NLM对生物医学文献进行主题分析、标引的权威性检索工具,也是指导用户使用主题索引进行文献检索的工具。

    3.PubMed

    ①PubMed数据库概

    PubMed是美国国家生物信息中心(National Center for Biotechnology Information, NCBI)1997年5月推出的基于Web的检索软件。NCBI提供许多特色性的生物医学类数据库信息服务,PubMed 只是其提供的数据库服务之一,并实现了与系统内其他数据库之间的交叉链接。

    通过网址:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi或进入http://www.ncbi.nlm.nih.gov主页后选择PubMed即可。

    ②数据库覆盖的范围及提供的主要服务

    MEDLINE 数据库的核心与印刷版的题录型检索工具Index Medicus(IM)对应,但其在收编内容和文献记录方式上都进行了扩充与发展,MEDLINE共包含三种重要索引Index Medicus(医学索引),Index to Dental Literature(牙科文献索引) 和International Nursing Index(国际护理学索引)。PubMed可检索的数据库实际上是MEDLINE数据库扩充版,内容包括MEDLINE记录、PreMEDLINE记录(未完成MeSH标引的最新记录)以及出版商直接提供的其他记录(Record Supplied by publisher)。

    ③PubMed 检索技术及检索功能

    PubMed系统主要提供了两种检索界面:基本检索和主题词检索。此外,还设置了一些特色检索服务。

    • 基本检索(Search)

    PubMed 的主页面就是基本检索界面。该界面设置了一个查询输入框,用户只需要在提问框中输入任意的检索提问,系统就会以其识别的语法规则进行运算并返回检索结果。值得一提的是,有别于其他检索系统,PubMed的“Search”检索功能非常广泛,既可以输入简单的任意词或词组查询,也可以实现类同于其他检索系统的高级检索和专家检索功能。

    基本检索的主要检索功能有:逻辑组配检索;自动转化提问词;截词检索;作者姓名自动截词检索;检索有摘要或全文的记录;字段检索等。

    • 主题词浏览(MeSH Browser)

    为了在检索过程中控制检索的精确度,系统设置了主题词浏览检索(MeSH Browser),即查询并选择主题词进行检索。

    • 辅助检索功能键

    “Limits”功能键,限制条件进行检索;“Previews/Index”功能键,预检索和Index检索;“History”功能键,查看检索史并利用已有的检索提问式进行检索;“Details”功能键,单击该键后,系统会将用户的提问词及PubMed转换后的检索词与完整检索表达式详细地显示在“PubMed Query”提问栏中,用户可在该提问栏内直接对检索表达式进行修改,然后单击“Search”再次发出检索请求。

    • 检索策略的修正

    PubMed在许多检索页面都提供了处于查询状态的检索提问框,用户可以根据上一次的检索结果随时进行修正。在调控和修改过程中,可以调用检索系统中的所有功能键与辅助功能键,灵活运用检索技术与检索技巧,达到与具体需求的统一。

    其他检索服务

    包括:期刊数据库查询,查找指定期刊上的论文;临床咨询,查找临床相关文献;引文匹配检索,查找特定记录等。

    ④检索结果显示及相关资源链接

    包括检索结果显示,获取记录相关资源,检索结果输出等。

     

    5.8.3 荷兰《医药文摘》

    1.荷兰《医学文摘》印刷本

    ①荷兰《医学文摘》(Excerpta Medica,简称EM) 概况

    荷兰《医学文摘》(Excerpta Medica,简称EM),创刊于1947年,收录全世界110个国家和地区的生物医学、药学及其相关学科期刊4 000多种,年报道文献量40万篇。特点:文摘质量高;按专题分册出版;收录范围广泛,偏重于欧洲、日本文献;卫生学、药学文献量大,但无护理、口腔、兽医及心理学分册。现有44个分册(其中43个文摘分册,1个题录分册)。按照统一的版式编排并具有相同的索引系统。《医学文摘》各分册目录一览见教材。

    ②编排结构及检索体系

    EM各分册均按各自学科体系单独编排,结构较为统一,依次包括以下几部分:分类目次、文摘正文、主题索引、著者索引。EM各分册均提供分类、主题和著者三种检索途径。

    2.荷兰《医学文摘》联机数据库

    ①概况

    荷兰《医学文摘》联机数据库(EMBASE)由Elsevier出版,其对应出版物是印刷版荷兰《医学文摘》的43个分册和1册题录索引。数据库中有近30%的记录未编入印刷本。目前,EMBASE拥有光盘版和网络版,国内引进的光盘数据库主要有美国银盘公司的EMBASE:Drugs&Pharmacology。网络版EMBASE则可以通过EMBASE公司的主页(http://www.embase.com/)进行检索。

    ②EMTREE Theraurus

    1991年EBMASE正式使用的树状词表(EMTREE),是用于文献主题标引和检索的等级词表。该词表在42 000个主要等级叙词的基础上,增设了180 000个同义词。并将所有词按概念关系逐层按等级排列。检索时可以通过页面的功能键进行精确控制。点击主页上方的“EMTREE keywords”,即可以按等级浏览选词检索。

    ③检索功能

    EMBASE的检索技术和逻辑运算与PubMed有些类似,但又有其特点。可提供:快速检索、高级检索、药物检索、疾病检索、文章检索等检索方法。

    ④其他辅助检索

    内容有树状结构关键词检索、期刊浏览、著者检索。 

    展开全文
  • 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有粉丝吗呜呜呜

    目录

    1 简单的定义

    (一)广义的信息检索(信息组织+信息检索)

    (二)狭义的信息检索

    2 信息检索技术与方法

    (一)文本信息检索

    (二)多媒体信息检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    (二)信息组织各功能模块

    (三)信息检索各功能模块

    (四)知识组织工具(作用)

    (五)信息检索系统结构实例分析

    4 信息采集(没有具体程序噢~)

    5 信息描述(重点)

    (一)理解信息描述

    (二)传统文献信息描述

    (三)数字化信息描述

    (四)信息描述需要注意的问题

    6 信息标引(重点)

    (一)信息标引的目的

    (二)信息标引的方法

    (三)信息标引和信息检索结果

    7 信息存储(重点)

    (一)理解资源库

    (二)理解索引

    (三)倒排索引及构建


    1 简单的定义

    基本概念:数据、信息、知识、智慧、信息检索、信息生命周期

    (一)广义的信息检索(信息组织+信息检索)

    定义:利用一定的科学规则和方法,通过对信息外在特征和内容特征的分析、选择、描述、标引、存储、排序和重组等活动,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合

    信息组织主要包括对某范围内的信息选择的基础上对信息的内外特征进行描述、标引、存储并使其有序化,形成信息集合

    (二)狭义的信息检索

    定义:借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息的过程

    发展历程

    • 图书目录和文摘、索引(手工检索)
      • 印刷型文献为主要检索对象
      • 以各类文摘、题录和目录型工具书为可利用的主要检索工具
      • 以图书馆的参考咨询部门作为开展信息检索服务的中心机构
    • 计算机化检索【脱机批处理——联机实时检索——联机网络化与多元化检索】
      • 各类机读数据库为检索对象
      • 各类信息中心、联机服务中心作为信息服务部门
      • 信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散
    • 网络化检索
      • WWW为核心的网络应用上的各种资源做检索对象,包括各种网页、FTP资源、用户组资源、联机数据库等和各种通过网络提供服务的数据库等
      • 以搜索引擎为主要检索工具
      • 信息用户多为终端用户
      • 人工智能得到应用,自动化程度、智能性大大提高(如自然语言理解、语义检索、推理等)

    2 信息检索技术与方法

    (一)文本信息检索

    常用检索技术:布尔检索、加权检索、截词检索、限制检索、位置检索和聚类检索等

    布尔检索

    • 算符含义

    逻辑或OR:A OR B

    逻辑与AND:A AND B

    逻辑非NOT:A NOT B

    逻辑异或XOR:A XOR B //检索结果是含有检索词A但不含有检索词B的文献或者是包含检索词B但不含有检索词A的文献

    • 优先级
      • 同级运算自左向右
      • AND和NOT先执行,OR后执行
      • 检索式中如果包括其他检索技术的算符,布尔运算最后执行

    加权检索

    • 加权检索的定义和示例
      • 加权检索是对布尔逻辑检索的一种扩充
      • 加权在标引及检索阶段都可使用

               示例:Q=知识管理(4)and竞争情报(2)and企业文化(1)

    • 加权检索优缺点
      • 优点:明确了各检索词在检索中的重要程度;可以通过提高和降低阈值来扩大和缩小检索范围;检索结果易于顺序排
      • 缺点:提问表达式烦琐,权值确定比较困难

    截词检索

    • 检索者将检索词汇在他认为合适的地方截断,并使用该截断词进行检索匹配
    • 截词检索有多种类型

               按照截断位置分:后截断(主要方式)、前截断和中截断

               按照截断的字符数量分:有限截断和无限截断

    限制检索

    方式:字段检索、二次检索、其他方式的限制

    位置检索(区别于字段检索)

    针对自然语言文本中检索词之间的特定位置关系而进行的检索匹配

    主要方式:邻接检索、同句检索、同字段检索、同记录检索

    聚类检索

    聚类检索起源于向量空间模型

    针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,将相似度较高的文献聚集在一起,形成文献类目,进而形成文献的聚类文档聚类检索针对聚类文档进行

    其他文本辅助检索技术

          信息的浏览时检索与链接技术的运用;检索结果的翻译和多语种检索;检索结果的后处      理(排序输出/联机聚类/去重合并)

    (二)多媒体信息检索

    特性:集成性/交互性/独立性

    音频信息

    • 关注音频声波的数字化问题;
    • 采样、量化、编码和压缩等;
    • 传统音频信息检索特征的提取:外部特征的描述(文件名、文件类型、创建者、创建时间等,多用元数据表示)+内容特征的标引(如对歌词中的关键词、主题词进行提取)

    图形与图像信息

    • 传统图像信息的检索特征提取方法:外部特征(图像创建日期、文件格式、数据大小等)+内容特征的标引(图像描述的主要对象、作者的创作意图等)

    视频信息

    • 外部特征+内容特征的标引(简单文本转化)
    • 基于内容的检索:指根据多媒体对象的听、视觉等特征及其蕴含的内容和语义特征进行检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    • 系统结构:指系统的组成及各组成部件之间的关系
    • 基本结构:集中式与分布式
      • 集中式检索系统:信息资源分布在同一物理地点,往往具有统一标准的信息组织手段
      • 分布式检索系统:利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对于用户有用的信息。这里的分布式环境指的是信息资源在物理上分布于不同的地点,在数据库结构上具有异构性,但是这些分散和异构的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统
    • 逻辑结构
      • 信息组织模块:资源采集——信息标引——数据库创建
        • 信息检索模块:用户界面——提问处理——检索匹配

    (二)信息组织各功能模块

    • 信息资源及其采集(决定信息检索系统中数据库的类型及收录范围)
    • 信息描述与标引处理
    • 决定检索系统的检索点(入口),也决定了标引深度及后续检索功能的提供
    • 信息描述规则往往需要先行制定
    • 标引分为人工标引和自动标引
      • 人工标引多依赖词表和规范工具
      • 自动标引更多针对自然语言文本进行,标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理,再依据语言学规则进行文本内容的自动抽词或辅词,也可进行自动分类或聚类
    • 数据库创建与维护
    • 依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统
    • 常见的数据库有文献型数据库和非文献型数据库
      • 文献型数据库包括书目(如索引、文摘等)和全文数据库,它们的设计与实现流程也各不相同;
      • 非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和图像数据库以及术语、软件等特殊类型的数据库

    (三)信息检索各功能模块

    • 理解用户界面
    • 提问处理(提问加工方法很多,有菊池敏典法、逆波兰法、范式变换法等)
    • 检索匹配
      • 检索匹配过程涉及数学算法模型的应用有很多信息检索模型,重点要掌握的是经典模型     
      • 经典模型包括布尔检索模型,向量空间模型,概率模型

    (四)知识组织工具(作用)

    • 表达:信息资源特征,及用户信息需求
    • 组织:以达到资源的系统化和有序化
    • 控制:对标引、检索过程中使用到的术语、词汇 或某些特征进行规范与协调
    • 关联:知识之间的相关性得到明确表征并能够被 机器理解处理

    (五)信息检索系统结构实例分析

     

    图书馆数目检索系统

    搜索引擎

    知识图谱

    信息选择与采集

    采访部门负责选择,采集以购买为主

    爬虫为主

    依据前期设计好的知识建模进行

    信息描述与标引

    外部特征获取+描述为结构化数据,MARC作为信息描述标准;内容特征多以整本书为单位进行,而且以人工标引为主,依据中图法、汉语主题词表进行

    半结构化或非结构化,信息特征难以获取,更多采用自动标引,需要更多技术的支撑,例如文本分析、自然语言处理等

    采用知识建模的方式进行,可能使用到RDF等资源描述框架及本体等知识建模工具,通过实体和关系自动/人工抽取完成知识关联构建

    索引与数据库

    传统为MARC磁带,现多存储在关系型数据库,索引功能比较完善

    自动构建文本索引,数据库类型也很多样,可能是文档,也可能是关系型数据库或者NoSQL的数据库

    知识图谱多存储在图数据库中,类型RDF三元组能够支持网状结构的查询

    信息检索模块

    多以检索点入口限制检索+布尔逻辑检索为主的检索词检索,分类浏览及检索也是常用的

    需要更多结果处理的功能,布尔操作、模糊查询、分组查询等,更重视排序的处理

    语义查询方式,并重视知识推理和自动问答等的应用

    4 信息采集(这里没有具体程序噢~)

    信息检索系统将在信息采集的基础上进行信息描述、标引、索引及数据库构建,因此采集结果的存在形式至关重要:

    • 结构化(数据):按一定属性规则排列的(二维表是最常见形式)
    • 非结构化:所有格式的文本、图片、音频/视频信息
    • 半结构化:介于二者之间的,具有一定结构,但语义不够确定

    5 信息描述(重点)

    (一)理解信息描述

    • 信息描述:信息著录、信息编目
    • 定义:根据特定的信息管理规则和技术标准,将存在于某一物理载体上的信息资源的外在特征与部分内容特征进行选择、描述与给予记录的过程
    • 结果:一条由多个描述项目构成的关于该信息资源的数据
    • 应用:传统印刷载体文献;对于网络上各类型数字化信息而言,内外特征不容易区分,所有对信息特征进行反映的过程都可以看作信息描述
    • 作用
      • 识别:个别化描述,区别其他信息
      • 选择:通过特征判断资源利用价值,决定是否选择
      • 检索:描述数据中的检索点之间的逻辑匹配给用户提供查检途径及二次筛选依据
      • 定位:传统文献排列位置、数据库位置、网络地址等

    (二)传统文献信息描述

    • 图书馆信息管理以馆藏文献为主,常见文献包括图书、期刊、古籍等
    • 传统文献信息描述主要依据ISBD国际标准书目著录展开,最终描述结果是图书馆书目卡
    • 目标:标准书目国际交流,实现资源共享三统一:著录格式/描述项目/描述符号);从不同的可交换数据源中生成数据,以便国家间的交流;有助于克服语言障碍,以便国家间的相互解释;有助于将书目数据转换为机器可读形式

    MARC(机读目录)

    • 定义:一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录;一次输入,多项检索;输出多种载体的款目;网上传输,可实现合作编目和联机检
    • 局限:标准复杂;需要专用平台,不能跨平台操作;描述内容多为书目;仅限于数据描述部分,管理信息较少,不适合计算机环境下日益增多的需求。
    • 基本格式:每一条记录都由四个部分构成
      • Leader(记录头标区):固定为24字符,记录计算机处理所需参数,如记录长度、记录状态、执行代码等
      • Directory(地址目次区):每一字段的长度和起始位置,由计算机自动生成
      • DataFields(数据字段区):各种描述数据
      • 记录分隔符(由计算机给出):记录结束符
    • 数据字段
    • 数据字段区划分成10功能块,每个功能块又包含若干字段和子字段,其中6XX功能主要使用分类法和主题法(词)的方式表达信息内容特征。
    • 标识符号(三类)
      • 标识符:字段标识符(3位数字,如205表示版本项)、子字段标识符(两个字符,第一个字符为“$”,第二个字符可以是数字或者字母,如200字段的“$a”表示正题名)
      • 指示符:两位数字或者字母组成,提供附加信息
      • 分隔符:自动生成

    (三)数字化信息描述

    元数据

    定义:关于数据的数据或关于数据的结构化数据。描述一个具体的资源对象并能对这个对象进行定位、管理且有助于它的发现与获取的数据

    类型分类

    • 描述信息资源领域:书目、档案、政府出版物、地图等
    • 描述文献对象分:传统文献资料;数字化信息资源
    • 信息资源作用或功能分(CLC)【使用范围】:
      • 描述性:支持资源的发现和鉴别,如题名、作者等书目数据(主要用于检索系统检索入口和结果筛选
      • 管理性:用以维护和管理资源的数据,如创建者数据、存取权限数据、数据处理技术数据等(主要用于检索系统的管理,以及动态特征的变化演示等)
      • 结构性:描述数字化资源内部的形式特征,如目录、段落和章节,页面间的跳转数据(用于检索系统相关资源的跳转
      • 标准的构成:描述某类资源的具体对象时所有规则的集合(标准一般包括了完整描述一个具体对象时所需要的数据项集合,各数据项语义定义,著录规则和计算机应用时的语法规定
    • 常用元数据标准
      • 描述一般信息的元数据:MARC(书目数据)、DC(网络资源)和TEI(电子文本)
      • 描述特殊信息的元数据:EAD(档案信息)、GILS(政府信息)、CGDGM(地理信息)
      • 描述图像信息的元数据:CDWA(博物馆艺术作品)和VRACore(可视化文化作品及图像资源)
    • 元数据互操作
      • 多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索
      • 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射
      • 目前已有大量的转换程序存在,供若干流行元数据格式之间的转化

    (四)信息描述需要注意的问题

    • 检索系统信息描述应根据资源特征和检索用户检索需求设计信息描述的标准
    • 兼顾不同资源的特性同时又要能最大程度地实现各类资源在发现和获取方法上的一致性,即从功能数据结构格式语义语法等诸多方面保持一致以实现不同系统之间的互操作和共享

    6 信息标引(重点)

    (一)信息标引的目的

    • 信息标引定义:采用一个或若干信息标识(词语或者代号)表示或替代信息内容特征的过程。揭示与标引形成的标识和代码不仅是信息存入信息系统的依据,也往往是信息检索的途径,如分类号、主题词、关键词等
    • 标引类型
      • 标引主体:人工标引和自动标引
      • 标引标识的不同形式:分类标引和主题标引
      • 标识是否规范控制:受控标引和非控标引(自然语言标引)

    (二)信息标引的方法

    标引分类

    • 人工受控标引
    • 转换标识:受控标引的标识必须来自受控分类表(分为等级体系分类和分面分类)或者受控词表(知识组织工具),即经过规范控制的标识,有时还需要进行概念之间的组配。
    • 自然语言自动标引
    • 汉语分词问题——歧义
      • 交集型歧义:结合成分子;我研究生期间是研究生物的
      • 组合型歧义:请把手拿开

    常见的中文分词方法

    • 基于规则的分词方法(机械分词方法、基于字典)
      • 三个要素:分词词典、文本扫描顺序、匹配原则
      • 扫描顺序:正向扫描、逆向扫描和双向扫描
      • 匹配原则:有最大匹配、最小匹配、逐词匹配和最佳匹配。
    • 基于统计的分词方法
      • 对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息(紧密程度);当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词
      • 例如:N元文法模型(N-gram)、隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等
    • 基于语义的分词方法
      • 对自然语言自身的语言信息进行更多的处理
      • 例如:扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等
    • 基于理解的分词方法
      • 基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象

    标引标识

    三个要素:分词子系统、句法语义子系统、总控部分。

    • 词典分词
    • 单汉字标引
    • 从分词结果到标引标识

    不是所有词都直接转换为标引标识

    词频:词在文献中出现的次数(一篇,一类文档)

    词性:名词常是有意义的

    逆文本档频率:在所有文档中统计词的频率

    位置:论文篇名,摘要,正文出现的词

    加权:词的权重

    • TF-IDF
    • TF:表示词条在当前文档中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件,公式=在某一类中词条出现的次数/该类中所有的词条数目
    • IDF:逆文件频率,公式=log⁡(语料库的文档总数/(包含词条w的文档树+1))

    应用场景:标引词的选择,自动标签生成/文档相似度的计算/文本聚类/自动文摘/SEO

    (三)信息标引和信息检索结果

    信息标引标识的数量

    信息标引标识是否受控

    信息标引标识粒度

    不同语种的处理差异

    7 信息存储(重点)

    (一)理解资源库

    概念:关系型数据库

    (二)理解索引

    索引由来

    索引组成的基本单位是索引款目,所有索引款目实现有序化编排

    款目一般包括索引词、说明或注释语、出处 3项内容

    本质特征是只揭示内容出处或文献线索,并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引

    关系型数据库索引

    索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构

    索引有不同类型:普通索引、唯一索引、主键索引、全文索引等等

    索引将非结构化数据按照规则提取信息,重新组织,使其有一定结构

    全文索引

    创建索引:获得文件——构建文档对象——分析分档(分词)——创建索引

    查询索引:用户查询接口——创建查询——执行查询——渲染结果——(用户查询接口)

    (三)倒排索引及构建

    顺序和倒排含义:倒排(逆向)对应的是顺序(正排/正向)

    倒排索引的创建流程

    收集需要索引的文档

    将每篇文档转换为一个个词条(token):自然语言分词

    进行语言学预处理,产生归一化词条作为词项

    对所有文档按照其中出现的词项建立倒排索引

    词条问题的解决

    词条归一化隐式地建立等价类,例如去掉连字符;维持多个非归一化词条之间的关联关系,例如手工建立同义词表,参见后面的单词词典(所以可以知道汉语主题词表等受控词表的作用)

    词干还原stemming和词形归并lemmatization

    单词词典

    • 单词词典是由文档集合中出现过的所有单词构成的字符串集合。
    • 单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
    • 单词词典是倒排索引中非常重要的组成部分,它是用来维护文档集合中所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。
    • 在支持搜索时,根据用户的查询词,去单词词典里查询,就能够获得相应的倒排列表。对于一个规模很大的文档集合来说,可能包含了几十万甚至上百万的不同单词,快速定位某个单词直接决定搜索的响应速度,所以需要很高效的数据结构对单词词典进行构建和查找。

    数据结构

    常用的数据结构包含哈希加链表树形词典结构

     

     

    展开全文
  • 网络信息检索

    2020-01-15 19:46:06
    《网络信息检索》课程笔记
  • 文章目录信息的含义信息的特征信息的功能信息的类型互联网对信息的影响网络环境下信息的新特点信息检索的原理信息检索的类型信息检索的意义/作用信息检索的历程信息检索系统信息检索方法信息检索效果影响信息检索...
  • 信息检索技术

    2019-01-16 09:46:24
    扩展:信息检索技术 概念介绍 全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。 全文检索主要对非结构化数据的数据...
  • 信息检索(IR)—信息检索模型(一)

    千次阅读 2020-05-07 14:02:22
    信息检索(IR)—信息检索模型(一) 1. 信息检索模型的概念和分类 1.1 信息检索模型的概念 信息检索模型是一个四元组[D,Q,F,R(qi,dj)][D,Q,F,R(q_i,d_j)][D,Q,F,R(qi​,dj​)]所组成,其中D:表示文档集,Q表示用户的...
  • 信息检索复习笔记

    2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索?信息过载 搜索 搜索的过程 从大规模非结构化数据...
  • 信息检索的程序

    2019-11-05 18:22:51
    信息检索的程序 分析研究课题,明确检索要求。分析课题的主要内容、研究要点,明确该课题的学科范围、语种范围、时间范围、文献类型等,为下一步的检索操作做好充分准备工作。 选择信息检索系统,确定检索途径 (1...
  • 信息检索格式 布尔检索式

    千次阅读 2019-04-20 21:16:45
    信息检索格式 布尔检索式 名称 符号 表达式 功能 逻辑与 * 或and AB 同时含 有提问词A和B的文献,为命中文献 逻辑或 + 或or A+B 凡是含有提问词A或B的文献,为命中文献 逻辑非 -或not A(-B) 凡是含有提问词A但不...
  • 第五章 信息法与综合性信息检索 目录: 5.1 信息法概述 5.1.1 信息法的概念 从广义上讲,信息法是调整信息活动中产生的各种社会关系的法律规范的总称。 一般来说,信息法由信息资源管理法、政府信息公开法、信息...
  • 信息检索指标mAP

    2019-09-15 18:25:08
    信息检索指标mAP mAP,顾名思义,即AP的平均值,那么就需要先计算AP,然后再对其进行平均。 在信息检索中,如果数据库中和查询信息相关的5条信息,分别出现在查询结果中的第1、3、6、9、10位,那么这次查询的AP就是...
  • 第四章 信息检索原理与技术 4.1 信息检索的概念 信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分 • 广义信息检索:信息存储与检索两个过程。 • 狭义信息检索:仅指从...
  • 信息检索常用方法 常用法 顺查法:以检索课题的起始年代为起点,按时间顺序由远及近查找。 优点:系统、全面、可靠。 倒查法:由近及远,一般用于新开课题,比较关注近期发表的文献,以便掌握近期该课题所达到...
  • 信息检索的应用 & 如何检索

    千次阅读 2020-05-05 18:26:34
    信息检索在日常生活中的广泛应用 1. 防止上当受骗 2.健康 3. 特价旅游信息 4.免费读书 5. 名校课程、开放教育资源OERs 搜索引擎SE的分类 1. 按内容的组织方式 2. 按收录资源的范围 3.按信息采集的方式 4....
  • 信息检索专题复习

    万次阅读 2017-06-20 16:06:49
    信息检索复习重点,山东大学信息检索考前独家整理资料。
  • 第八章 信息检索的评价 1. 无序检索结果集合的评价 如何度量系统的效果?信息检索中最常用的两个指标是正确率和召回率。 正确率(Precision,简记为P): 返回的结果中相关文档所占的比例 Precision=返回结果...
  • 信息检索整体框架

    2018-03-05 17:16:12
    信息检索整体框架如下:
  • 信息检索笔记Chapter02

    2018-09-12 12:32:13
    信息检索 一、信息检索基础 概念 信息检索是指将信息按一定方式组织和存储起来,并根据用处的需求找出特定信息的整个过程。即存储和信息检索。 类型 书目信息检索 全文信息检索 数据信息检索 事实...
  • 信息检索开山

    2014-03-12 10:35:28
    (1)信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料的过程。 (2)信息检索已经代替传统的数据库式搜索成为信息访问的主要形式. (3)信息检索也包括...
  • 图像检索:信息检索评价指标mAP

    千次阅读 2018-01-07 15:15:31
    图像检索:信息检索...每次在和图像检索方面的小伙伴们交流时,总有小伙伴会问一些很基础的问题,举个栗子,信息检索评价指标。为了加深自己对这些指标的理解,及避免再去重复回答这类问题,做些易于理解的笔记。
  • 信息检索评价指标

    千次阅读 2018-07-19 23:06:41
    信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下...
  • 信息检索概论总结

    千次阅读 2016-12-27 20:37:18
    信息检索概论复习笔记
  • 信息检索-布尔检索

    千次阅读 2011-03-02 23:56:00
    看了《信息检索导论》的第一节,明白了信息检索(Information Retrieval)的含义即信息获取、返回。其实这个很好理解,它的意思从钱包抽出一张信用卡是为了看到卡号以便输入,这一个过程就可以看作是一个信息检索的过程。...
  • 前一阵子和大家分享了一系列排序算法,希望对大家能够有一些帮助。...为了让大家更好的理解信息检索技术,我将分多次对信息检索技术做一个尽可能细致的阐述,难度由浅及深,欢迎大家多多拍砖。 今天先介绍

空空如也

1 2 3 4 5 ... 20
收藏数 22,811
精华内容 9,124
关键字:

信息检索