精华内容
下载资源
问答
  • 信息检索技术

    2018-11-03 21:19:39
    信息检索技术
  • 信息检索技术介绍

    2012-04-26 23:44:54
    信息检索技术介绍 课件 信息检索课程综述 考试必备
  • 这是一款关于用信息检索技术组织企业的信息和知识,日常工作生活中可用于学习、参考、借鉴,喜欢用信息检...该文档为用信息检索技术组织企业的信息和知识,是一份很不错的参考资料,具有较高参考价值,感兴趣的可以...
  • 下面,赛恩斯编译介绍几种网络医学信息检索技术。一、逻辑式检索技术。逻辑式检索技术是通过检索人所输入的检索关键字和检索系统中对应的代码所匹配,匹配成功后的结果,即为检索所需信息。是目前国内医学检索方法中...

    随着网络技术在研究领域的逐渐普及,科技研究者针对医学研制出了新的专业医学搜索引擎。医学研究者可以通过专业的医学搜索引擎来对所需的医学信息进行检索,检索出的信息具有专业性强,可参考性高等优势。下面,赛恩斯编译介绍几种网络医学信息检索技术。

    一、逻辑式检索技术。逻辑式检索技术是通过检索人所输入的检索关键字和检索系统中对应的代码所匹配,匹配成功后的结果,即为检索所需信息。是目前国内医学检索方法中较为常用的一种方法。该方法的逻辑语大致分为三种,分别是“与”,“或”和“否”。通过“与”进行检索时,检索系统会自动检索出所有同时包含着A,B检索内容的信息资源。资源中同时出现A,B两个检索信息关键词。通过“或”来进行检索时,检索系统会自动检测这包含着信息关键词A或信息关键词B的信息资源,而关键词A,B不会同时出现在同一信息资源文献中。通过“否”来进行信息检索时,系统将检索出信息资源中不包 A或不包含B,以及同时不包含关键字A,B的信息资源。

    逻辑式检索技术主要是通过对检索人所输入的关键字进行检索,可以理解为同义词检索技术。该检索方式检索范围广,检索出的结果较多。因此检索后的筛选时间较长。但通常检索资源较为详细。逻辑式信息检索技术的原理示意图,大致如下图所示。

    a0cf6b5bc69ae6369e04a39d2dc01c5a.png

    二、限制性检索技术。限制性检索技术是指对检索范围和检索结果进行范围缩小或专业约束等。在医学信息检索系统中,由于检索关键字所关联的内容较多。因此,通常检索出的范围较大,医学研究者需要通过大范围的检索内容,进行筛选,耗时较长。限制性检索技术,可以针对检索人所输入的关键字进行检索后,再由检索人对相应的检索范围进行控制,控制后的检索范围较小,检索出的内容较为容易筛选。通常我们所采用的限制方法有关键字限制检索法,限制符检索法,段落限制检索法和全文检索法。

    全文检索法是目前较为热门的检索方式。全文检索法是将原有的检索原文和检索词之间的联系作为原始记录,通过对检索词间的特定位置关系进行检索对象的一种检索方式。全文检索技术增大了医学信息检索的灵活性,系统可以通过自动识别关键字和检索范围,从而进行信息筛选,从一定程度上增大了医学信息检索的检索效率。同时减少的检索人自行进行内容筛选时所需的时间。全文检索不仅精确了信息的检索范围,减少了信息筛选时间,同时也是一种筛选文献较为全面的一种检索技术。

    三、加权检索技术。加权检索技术与传统的检索技术不同,加权检索技术不是针对于检索关键词进行信息检索,而是针对于判断检索词是否满足检索系统的逻辑和检索关键词在逻辑系统文献中出现的频率进行检索。加权检索方法有针对检索词检索法,针对检索词频率检索法,针对检索词与文献结合频率检索法等。

    加权检索系统主要就是针对于检索人所输入的关键词在参考文献中出现的频率进行检索。查找检索人所输入的关键词在文献数据库中是否存在,然后根据存在检索词的文献进行加权频率的计算。只有当加权频率满足该检索技术所预设的逻辑后,该文献才满足检索系统的要求。

    cbc887e5cbe0368f61fc75ca8189075b.gif

            易海聚|助力企业信息化建设日益完善

             易海聚|面向科技情报的网络信息自动发现技术应用

             网络大数据整合系统方案

             易海聚新闻采编译系统

            对链家数据的爬取分析:深圳到底哪种二手房最吃香?

    展开全文
  • 概述了数据压缩技术的概念、分类及特点,介绍了数据压缩在信息检索中的优点,从多媒体检索、全文检索、图像检索、电子出版检索等角度探讨了数据压缩在当今信息检索技术的应用现状,并展望了其未来发展趋势。
  • 为方便信息管理,在已有标准电子文档基础上,运用信息检索原理及信息检索实现技术,研究以关键字查询方法为重点的标准平台索引服务,建立起一个...标准共享平台运行结果表明,信息检索技术能方便地运用于文档的管理中。
  • 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有粉丝吗呜呜呜

    目录

    1 简单的定义

    (一)广义的信息检索(信息组织+信息检索)

    (二)狭义的信息检索

    2 信息检索技术与方法

    (一)文本信息检索

    (二)多媒体信息检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    (二)信息组织各功能模块

    (三)信息检索各功能模块

    (四)知识组织工具(作用)

    (五)信息检索系统结构实例分析

    4 信息采集(没有具体程序噢~)

    5 信息描述(重点)

    (一)理解信息描述

    (二)传统文献信息描述

    (三)数字化信息描述

    (四)信息描述需要注意的问题

    6 信息标引(重点)

    (一)信息标引的目的

    (二)信息标引的方法

    (三)信息标引和信息检索结果

    7 信息存储(重点)

    (一)理解资源库

    (二)理解索引

    (三)倒排索引及构建


    1 简单的定义

    基本概念:数据、信息、知识、智慧、信息检索、信息生命周期

    (一)广义的信息检索(信息组织+信息检索)

    定义:利用一定的科学规则和方法,通过对信息外在特征和内容特征的分析、选择、描述、标引、存储、排序和重组等活动,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合

    信息组织主要包括对某范围内的信息选择的基础上对信息的内外特征进行描述、标引、存储并使其有序化,形成信息集合

    (二)狭义的信息检索

    定义:借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息的过程

    发展历程

    • 图书目录和文摘、索引(手工检索)
      • 印刷型文献为主要检索对象
      • 以各类文摘、题录和目录型工具书为可利用的主要检索工具
      • 以图书馆的参考咨询部门作为开展信息检索服务的中心机构
    • 计算机化检索【脱机批处理——联机实时检索——联机网络化与多元化检索】
      • 各类机读数据库为检索对象
      • 各类信息中心、联机服务中心作为信息服务部门
      • 信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散
    • 网络化检索
      • WWW为核心的网络应用上的各种资源做检索对象,包括各种网页、FTP资源、用户组资源、联机数据库等和各种通过网络提供服务的数据库等
      • 以搜索引擎为主要检索工具
      • 信息用户多为终端用户
      • 人工智能得到应用,自动化程度、智能性大大提高(如自然语言理解、语义检索、推理等)

    2 信息检索技术与方法

    (一)文本信息检索

    常用检索技术:布尔检索、加权检索、截词检索、限制检索、位置检索和聚类检索等

    布尔检索

    • 算符含义

    逻辑或OR:A OR B

    逻辑与AND:A AND B

    逻辑非NOT:A NOT B

    逻辑异或XOR:A XOR B //检索结果是含有检索词A但不含有检索词B的文献或者是包含检索词B但不含有检索词A的文献

    • 优先级
      • 同级运算自左向右
      • AND和NOT先执行,OR后执行
      • 检索式中如果包括其他检索技术的算符,布尔运算最后执行

    加权检索

    • 加权检索的定义和示例
      • 加权检索是对布尔逻辑检索的一种扩充
      • 加权在标引及检索阶段都可使用

               示例:Q=知识管理(4)and竞争情报(2)and企业文化(1)

    • 加权检索优缺点
      • 优点:明确了各检索词在检索中的重要程度;可以通过提高和降低阈值来扩大和缩小检索范围;检索结果易于顺序排
      • 缺点:提问表达式烦琐,权值确定比较困难

    截词检索

    • 检索者将检索词汇在他认为合适的地方截断,并使用该截断词进行检索匹配
    • 截词检索有多种类型

               按照截断位置分:后截断(主要方式)、前截断和中截断

               按照截断的字符数量分:有限截断和无限截断

    限制检索

    方式:字段检索、二次检索、其他方式的限制

    位置检索(区别于字段检索)

    针对自然语言文本中检索词之间的特定位置关系而进行的检索匹配

    主要方式:邻接检索、同句检索、同字段检索、同记录检索

    聚类检索

    聚类检索起源于向量空间模型

    针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,将相似度较高的文献聚集在一起,形成文献类目,进而形成文献的聚类文档聚类检索针对聚类文档进行

    其他文本辅助检索技术

          信息的浏览时检索与链接技术的运用;检索结果的翻译和多语种检索;检索结果的后处      理(排序输出/联机聚类/去重合并)

    (二)多媒体信息检索

    特性:集成性/交互性/独立性

    音频信息

    • 关注音频声波的数字化问题;
    • 采样、量化、编码和压缩等;
    • 传统音频信息检索特征的提取:外部特征的描述(文件名、文件类型、创建者、创建时间等,多用元数据表示)+内容特征的标引(如对歌词中的关键词、主题词进行提取)

    图形与图像信息

    • 传统图像信息的检索特征提取方法:外部特征(图像创建日期、文件格式、数据大小等)+内容特征的标引(图像描述的主要对象、作者的创作意图等)

    视频信息

    • 外部特征+内容特征的标引(简单文本转化)
    • 基于内容的检索:指根据多媒体对象的听、视觉等特征及其蕴含的内容和语义特征进行检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    • 系统结构:指系统的组成及各组成部件之间的关系
    • 基本结构:集中式与分布式
      • 集中式检索系统:信息资源分布在同一物理地点,往往具有统一标准的信息组织手段
      • 分布式检索系统:利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对于用户有用的信息。这里的分布式环境指的是信息资源在物理上分布于不同的地点,在数据库结构上具有异构性,但是这些分散和异构的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统
    • 逻辑结构
      • 信息组织模块:资源采集——信息标引——数据库创建
        • 信息检索模块:用户界面——提问处理——检索匹配

    (二)信息组织各功能模块

    • 信息资源及其采集(决定信息检索系统中数据库的类型及收录范围)
    • 信息描述与标引处理
    • 决定检索系统的检索点(入口),也决定了标引深度及后续检索功能的提供
    • 信息描述规则往往需要先行制定
    • 标引分为人工标引和自动标引
      • 人工标引多依赖词表和规范工具
      • 自动标引更多针对自然语言文本进行,标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理,再依据语言学规则进行文本内容的自动抽词或辅词,也可进行自动分类或聚类
    • 数据库创建与维护
    • 依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统
    • 常见的数据库有文献型数据库和非文献型数据库
      • 文献型数据库包括书目(如索引、文摘等)和全文数据库,它们的设计与实现流程也各不相同;
      • 非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和图像数据库以及术语、软件等特殊类型的数据库

    (三)信息检索各功能模块

    • 理解用户界面
    • 提问处理(提问加工方法很多,有菊池敏典法、逆波兰法、范式变换法等)
    • 检索匹配
      • 检索匹配过程涉及数学算法模型的应用有很多信息检索模型,重点要掌握的是经典模型     
      • 经典模型包括布尔检索模型,向量空间模型,概率模型

    (四)知识组织工具(作用)

    • 表达:信息资源特征,及用户信息需求
    • 组织:以达到资源的系统化和有序化
    • 控制:对标引、检索过程中使用到的术语、词汇 或某些特征进行规范与协调
    • 关联:知识之间的相关性得到明确表征并能够被 机器理解处理

    (五)信息检索系统结构实例分析

     

    图书馆数目检索系统

    搜索引擎

    知识图谱

    信息选择与采集

    采访部门负责选择,采集以购买为主

    爬虫为主

    依据前期设计好的知识建模进行

    信息描述与标引

    外部特征获取+描述为结构化数据,MARC作为信息描述标准;内容特征多以整本书为单位进行,而且以人工标引为主,依据中图法、汉语主题词表进行

    半结构化或非结构化,信息特征难以获取,更多采用自动标引,需要更多技术的支撑,例如文本分析、自然语言处理等

    采用知识建模的方式进行,可能使用到RDF等资源描述框架及本体等知识建模工具,通过实体和关系自动/人工抽取完成知识关联构建

    索引与数据库

    传统为MARC磁带,现多存储在关系型数据库,索引功能比较完善

    自动构建文本索引,数据库类型也很多样,可能是文档,也可能是关系型数据库或者NoSQL的数据库

    知识图谱多存储在图数据库中,类型RDF三元组能够支持网状结构的查询

    信息检索模块

    多以检索点入口限制检索+布尔逻辑检索为主的检索词检索,分类浏览及检索也是常用的

    需要更多结果处理的功能,布尔操作、模糊查询、分组查询等,更重视排序的处理

    语义查询方式,并重视知识推理和自动问答等的应用

    4 信息采集(这里没有具体程序噢~)

    信息检索系统将在信息采集的基础上进行信息描述、标引、索引及数据库构建,因此采集结果的存在形式至关重要:

    • 结构化(数据):按一定属性规则排列的(二维表是最常见形式)
    • 非结构化:所有格式的文本、图片、音频/视频信息
    • 半结构化:介于二者之间的,具有一定结构,但语义不够确定

    5 信息描述(重点)

    (一)理解信息描述

    • 信息描述:信息著录、信息编目
    • 定义:根据特定的信息管理规则和技术标准,将存在于某一物理载体上的信息资源的外在特征与部分内容特征进行选择、描述与给予记录的过程
    • 结果:一条由多个描述项目构成的关于该信息资源的数据
    • 应用:传统印刷载体文献;对于网络上各类型数字化信息而言,内外特征不容易区分,所有对信息特征进行反映的过程都可以看作信息描述
    • 作用
      • 识别:个别化描述,区别其他信息
      • 选择:通过特征判断资源利用价值,决定是否选择
      • 检索:描述数据中的检索点之间的逻辑匹配给用户提供查检途径及二次筛选依据
      • 定位:传统文献排列位置、数据库位置、网络地址等

    (二)传统文献信息描述

    • 图书馆信息管理以馆藏文献为主,常见文献包括图书、期刊、古籍等
    • 传统文献信息描述主要依据ISBD国际标准书目著录展开,最终描述结果是图书馆书目卡
    • 目标:标准书目国际交流,实现资源共享三统一:著录格式/描述项目/描述符号);从不同的可交换数据源中生成数据,以便国家间的交流;有助于克服语言障碍,以便国家间的相互解释;有助于将书目数据转换为机器可读形式

    MARC(机读目录)

    • 定义:一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录;一次输入,多项检索;输出多种载体的款目;网上传输,可实现合作编目和联机检
    • 局限:标准复杂;需要专用平台,不能跨平台操作;描述内容多为书目;仅限于数据描述部分,管理信息较少,不适合计算机环境下日益增多的需求。
    • 基本格式:每一条记录都由四个部分构成
      • Leader(记录头标区):固定为24字符,记录计算机处理所需参数,如记录长度、记录状态、执行代码等
      • Directory(地址目次区):每一字段的长度和起始位置,由计算机自动生成
      • DataFields(数据字段区):各种描述数据
      • 记录分隔符(由计算机给出):记录结束符
    • 数据字段
    • 数据字段区划分成10功能块,每个功能块又包含若干字段和子字段,其中6XX功能主要使用分类法和主题法(词)的方式表达信息内容特征。
    • 标识符号(三类)
      • 标识符:字段标识符(3位数字,如205表示版本项)、子字段标识符(两个字符,第一个字符为“$”,第二个字符可以是数字或者字母,如200字段的“$a”表示正题名)
      • 指示符:两位数字或者字母组成,提供附加信息
      • 分隔符:自动生成

    (三)数字化信息描述

    元数据

    定义:关于数据的数据或关于数据的结构化数据。描述一个具体的资源对象并能对这个对象进行定位、管理且有助于它的发现与获取的数据

    类型分类

    • 描述信息资源领域:书目、档案、政府出版物、地图等
    • 描述文献对象分:传统文献资料;数字化信息资源
    • 信息资源作用或功能分(CLC)【使用范围】:
      • 描述性:支持资源的发现和鉴别,如题名、作者等书目数据(主要用于检索系统检索入口和结果筛选
      • 管理性:用以维护和管理资源的数据,如创建者数据、存取权限数据、数据处理技术数据等(主要用于检索系统的管理,以及动态特征的变化演示等)
      • 结构性:描述数字化资源内部的形式特征,如目录、段落和章节,页面间的跳转数据(用于检索系统相关资源的跳转
      • 标准的构成:描述某类资源的具体对象时所有规则的集合(标准一般包括了完整描述一个具体对象时所需要的数据项集合,各数据项语义定义,著录规则和计算机应用时的语法规定
    • 常用元数据标准
      • 描述一般信息的元数据:MARC(书目数据)、DC(网络资源)和TEI(电子文本)
      • 描述特殊信息的元数据:EAD(档案信息)、GILS(政府信息)、CGDGM(地理信息)
      • 描述图像信息的元数据:CDWA(博物馆艺术作品)和VRACore(可视化文化作品及图像资源)
    • 元数据互操作
      • 多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索
      • 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射
      • 目前已有大量的转换程序存在,供若干流行元数据格式之间的转化

    (四)信息描述需要注意的问题

    • 检索系统信息描述应根据资源特征和检索用户检索需求设计信息描述的标准
    • 兼顾不同资源的特性同时又要能最大程度地实现各类资源在发现和获取方法上的一致性,即从功能数据结构格式语义语法等诸多方面保持一致以实现不同系统之间的互操作和共享

    6 信息标引(重点)

    (一)信息标引的目的

    • 信息标引定义:采用一个或若干信息标识(词语或者代号)表示或替代信息内容特征的过程。揭示与标引形成的标识和代码不仅是信息存入信息系统的依据,也往往是信息检索的途径,如分类号、主题词、关键词等
    • 标引类型
      • 标引主体:人工标引和自动标引
      • 标引标识的不同形式:分类标引和主题标引
      • 标识是否规范控制:受控标引和非控标引(自然语言标引)

    (二)信息标引的方法

    标引分类

    • 人工受控标引
    • 转换标识:受控标引的标识必须来自受控分类表(分为等级体系分类和分面分类)或者受控词表(知识组织工具),即经过规范控制的标识,有时还需要进行概念之间的组配。
    • 自然语言自动标引
    • 汉语分词问题——歧义
      • 交集型歧义:结合成分子;我研究生期间是研究生物的
      • 组合型歧义:请把手拿开

    常见的中文分词方法

    • 基于规则的分词方法(机械分词方法、基于字典)
      • 三个要素:分词词典、文本扫描顺序、匹配原则
      • 扫描顺序:正向扫描、逆向扫描和双向扫描
      • 匹配原则:有最大匹配、最小匹配、逐词匹配和最佳匹配。
    • 基于统计的分词方法
      • 对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息(紧密程度);当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词
      • 例如:N元文法模型(N-gram)、隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等
    • 基于语义的分词方法
      • 对自然语言自身的语言信息进行更多的处理
      • 例如:扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等
    • 基于理解的分词方法
      • 基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象

    标引标识

    三个要素:分词子系统、句法语义子系统、总控部分。

    • 词典分词
    • 单汉字标引
    • 从分词结果到标引标识

    不是所有词都直接转换为标引标识

    词频:词在文献中出现的次数(一篇,一类文档)

    词性:名词常是有意义的

    逆文本档频率:在所有文档中统计词的频率

    位置:论文篇名,摘要,正文出现的词

    加权:词的权重

    • TF-IDF
    • TF:表示词条在当前文档中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件,公式=在某一类中词条出现的次数/该类中所有的词条数目
    • IDF:逆文件频率,公式=log⁡(语料库的文档总数/(包含词条w的文档树+1))

    应用场景:标引词的选择,自动标签生成/文档相似度的计算/文本聚类/自动文摘/SEO

    (三)信息标引和信息检索结果

    信息标引标识的数量

    信息标引标识是否受控

    信息标引标识粒度

    不同语种的处理差异

    7 信息存储(重点)

    (一)理解资源库

    概念:关系型数据库

    (二)理解索引

    索引由来

    索引组成的基本单位是索引款目,所有索引款目实现有序化编排

    款目一般包括索引词、说明或注释语、出处 3项内容

    本质特征是只揭示内容出处或文献线索,并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引

    关系型数据库索引

    索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构

    索引有不同类型:普通索引、唯一索引、主键索引、全文索引等等

    索引将非结构化数据按照规则提取信息,重新组织,使其有一定结构

    全文索引

    创建索引:获得文件——构建文档对象——分析分档(分词)——创建索引

    查询索引:用户查询接口——创建查询——执行查询——渲染结果——(用户查询接口)

    (三)倒排索引及构建

    顺序和倒排含义:倒排(逆向)对应的是顺序(正排/正向)

    倒排索引的创建流程

    收集需要索引的文档

    将每篇文档转换为一个个词条(token):自然语言分词

    进行语言学预处理,产生归一化词条作为词项

    对所有文档按照其中出现的词项建立倒排索引

    词条问题的解决

    词条归一化隐式地建立等价类,例如去掉连字符;维持多个非归一化词条之间的关联关系,例如手工建立同义词表,参见后面的单词词典(所以可以知道汉语主题词表等受控词表的作用)

    词干还原stemming和词形归并lemmatization

    单词词典

    • 单词词典是由文档集合中出现过的所有单词构成的字符串集合。
    • 单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
    • 单词词典是倒排索引中非常重要的组成部分,它是用来维护文档集合中所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。
    • 在支持搜索时,根据用户的查询词,去单词词典里查询,就能够获得相应的倒排列表。对于一个规模很大的文档集合来说,可能包含了几十万甚至上百万的不同单词,快速定位某个单词直接决定搜索的响应速度,所以需要很高效的数据结构对单词词典进行构建和查找。

    数据结构

    常用的数据结构包含哈希加链表树形词典结构

     

     

    展开全文
  • 交通信息检索技术—关于信号降噪的综述
  • 信息检索技术发展概况信息检索技术发展概况
  • 2020年陈竹敏老师教授的信息检索技术的课设解决方案,语言为python,在提供的baseline基础上进行了一定的修改,包括文档预处理(停用词去除,大小写转换)等处理,MMR可达0.5。
  • 信息检索技术(第四版) 汪楠 成鹰 主编
  • 前一阵子和大家分享了一系列排序算法,希望对大家能够有一些帮助。...为了让大家更好的理解信息检索技术,我将分多次对信息检索技术做一个尽可能细致的阐述,难度由浅及深,欢迎大家多多拍砖。 今天先介绍
    前一阵子和大家分享了一系列排序算法,希望对大家能够有一些帮助。从今天开始,本人打算开展一个新的领域,介绍一下信息检索相关的技术。信息检索技术可以说现如今发展非常迅速,使用也极其广泛,甚至可以说是随处可见。特别是做一些跟搜索引擎,机器学习相关工作时,信息检索的知识无处不在。为了让大家更好的理解信息检索技术,我将分多次对信息检索技术做一个尽可能细致的阐述,难度由浅及深,欢迎大家多多拍砖。
    今天先介绍最简单的信息检索技术,布尔检索。
     
    信息检索(IR),通俗的讲,就是要在一个很大的文本(有时可能是其他数据,如图像等)集合中,找到与用户需求相关的可以满足用户需求的非结构化信息。听起来有点拗口,其实就是一种查询,只不过查询的对象是非结构化信息,和查询数据库中的表并不相同。希望这么说能好理解一些。
    既然要从文档中找到符合用户需求的信息,那么首先就要解决一个问题,就是如何来表示文档呢?在信息检索中,我们通常使用1代表一个word出现在文档中,0代表没有出现在文档中,很简单。
    比如 文档1: I often go to school by bus. 文档2: I am wating for the bus for 20 minutes.
    我们如何来用1和0来表示上面的文档呢?很容易想到的方法是将所有的文档和word组成一个矩阵,X方向为文档,Y方向为所有的单词。
        文档1  文档2  文档3  文档4  ...
    I     1    1    0    0
    often  1    0    0
    go    1    0    0
    to     1      0     0
    school     1     0    0
    by           1    0    0
    bus         1    1    0
    am          0    1    0
    ...
    这样很容易的就表示了所有的word和文档的对应关系,当用户要查询检索bus时,只需要找到bus对应的行,将是1的文档都取出来,展现给用户不就行了?
    确实,这样做可以完成检索的需求,但是仔细想想不难发现,我们假设一篇文档有1000个word,一个文档集有1亿篇文档(这对于搜索引擎来说还远远不够),那么我们需要用1*1011的矩阵来保存这种关系,这对计算机来说显然是无法承受的。
     
    那我们有什么办法来进行优化呢?仔细想想可以看出,虽然数据量很大,但是这个矩阵是极其稀疏的,也就是说1的个数是很少的,绝大多数位置都是0.那么我们为什么要保存那么多的0来占用空间呢?这完全没有必要。于是,著名大倒排索引诞生了。
    在介绍倒排索引前,先说正排索引,正排索引就是给定一个文档,可以知道文档中出现的所有word。对比着看,倒排索引就是反过来,给定一个word,看看这个word出现在哪些文档中。下面的图形象的描述了倒排索引的数据结构
    I -> 1 2 3 4 5 7 9 22
    school -> 1 3
    bus -> 1 2 8 9
    其中前面的是word,后面的是文档的标号,并且这些标号是按顺序存放的,这更利于后面检索环节的处理。当然上面提到的是最基本的原型,实际的系统中,倒排索引还保存了词频,网页的元数据等各种信息。
     
    有了倒排索引,我们就可以省去大量的空间,大大提高了查询检索的效率。下面我们看看如何进行检索。比如我们有了如下的倒排索引
    A -> 2 4 8 16 32 64
    B -> 1 2 4 9 16 33
    先在用户查询A,那么则返回2 4 8 16 32 64
    如果查询A and B 则需要把A和B的倒排索引拿出来,进行一次求交集的运算。其实很简单,只需要O(x+y)的时间操作,就可以得到2 4 16了。
    如果用户查询A or B呢?不用我多说了吧,相信大家已经很明白该如何处理了。
     
    以上是本人对布尔检索的一个简单的说明,欢迎大家指正。谢谢
    展开全文
  • 信息检索技术综述_梁鸿雁 在现有研究的基础上,对信息检索技术进行概述。对关关键词匹配进行了讨论及其不足。
  • 网络信息检索技术

    2012-03-23 10:11:44
    本文重点讲述 布尔逻辑检索技术 截词检索技术 限制检索技术 模糊检索 邻接检索技术、加权检索、原文检索
  • 文献信息检索技术综述对信息检索做了全面系统的概述, 讲的很彻底。让不知道的人一看就知道是什么意思。
  • 现代信息检索技术与策略.ppt,可以辅助学习与教学。
  • 内容丰富详情,共108页 1、布尔逻辑检索技术 2、截词检索技术 3、邻近检索技术 4、字段检索技术
  • 从国内企业信息管理存在的问题入手,针对数据分散,信息利用效率低下等问题,提出了基于XML网络服务和Office信息检索技术的一个解决方案,并结合微软员工信息系统(MEIS)的系统设计实例,介绍了如何利用网络服务和...
  • 基于全文检索引擎的信息检索技术及软件实现
  • 前搜索引擎面临的挑战与关键问题,对智能检索技术一这一代表信息检索技术 未来发展的技术进行了深入的研究。在分析当前智能搜索引擎的特征和技术的 基础上,指出了智能搜索引擎的概念检索新思路。
  • 基于RDF的数字图书馆信息检索技术研究,付玉冬,,随着计算机和网络的高速发展,数字图书馆在如何对海量的信息资源进行有效地组织、管理和检索面临着严峻的挑战。传统的采用HTML、XM

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,389
精华内容 2,155
关键字:

信息检索技术