精华内容
下载资源
问答
  • 信息检索系统

    2012-10-31 10:37:27
    信息检索系统概述、概念、处理对象、基本元素等
  • 信息检索系统-源码

    2021-02-12 06:32:59
    信息检索系统
  • 主要介绍信息检索及信息检索系统的基本概念、原理、算法进行详尽介绍。主要内容包括信息检索模型、文本操作技术、文本索引和搜索技术、查询处理与Web检索技术、分布式信息检索、文本分类与聚类、信息过滤等,并给出...
  • 信息检索系统原理

    2013-07-28 19:48:20
    信息检索系统原理PPT,主要用于介绍检索系统的一些基本原理
  • 医疗纠纷信息检索系统是采用Visual Basic语言和大型数据库开发语言共同开发的,用于医院医务处对医疗纠纷的检索与统计。
  • 中文XML信息检索系统的研究 中文XML信息检索系统的研究
  • 针对传统图书信息检索系统通过本地服务器提供信息检索,其检索速率与结果准确率低,且受本地计算设施性能影响较大等问题,文中采用云计算以及人工智能技术开发了高效的图书信息检索系统,通过布置云端服务器,将图书...
  • 随着地理信息数据获取技术日渐完善,地理信息数据在遥感领域应用的不断深入,人们对海量地理...论文分析并探讨了Vue在地理信息检索系统应用的可行性及实现方法,并证明了Vue的优势可在地理信息检索系统得到有效的利用。
  • 1 简介这是一个利用Django搭建的一个人物信息检索系统,大约从Wikipedia爬取了10000 个人物信息,并且提取了其中 Infobox 的对应信息。对于 Wikipedia 中爬取的信息,我们重新组织了其格式并且进行显示。左侧为搜索...

    1 简介

    这是一个利用Django搭建的一个人物信息检索系统,大约从Wikipedia爬取了10000 个人物信息,并且提取了其中 Infobox 的对应信息。

    对于 Wikipedia 中爬取的信息,我们重新组织了其格式并且进行显示。

    左侧为搜索页面,右侧为搜索结果,匹配的字段被高亮显示。

    对于已经爬取的信息,我们提供了一个对其进行搜索的页面,可以根据关键词在 其中搜索,并且还可以根据原先 Infobox 中的标题进行特定字段的查询(例如 Born、 Died、Name、Nationality 等),同时还可以让用户自行添加可以查询的字段。

    搜索的结果按照匹配的关键字个数从高到底排序后显示,如果结果过多将会分页显 示。同时匹配的关键字会被高亮标出。

    左侧为搜索结果过多时的分页显示效果,右侧为按照字段搜索 Born 中含 1997 的人物结果。

    Alan Turing 信息的展现。

    2 部分实现

    爬虫部分利用 BeautifulSoup 来处理获取的页面,提取 Infobox 中的信息。

    具体来说,人物超链接的爬取是通过寻找 ID 为 mw-content-text 的元素下所有 li 标签的第一个超链接来实现的。在爬取完毕后检查是否存在 infobox,如果存在则开始 提取信息。由于其中信息具有一定规律(例如大部分信息是以标题、内容的形式来组织 的),只需要用 BeautifulSoup 提取相应的

    以及 部分即可。 前端界面利用 Bootstrap 来优化显示效果。

    关于数据的存储,在提取出信息后利用 JSON 来保存在 sqlite 数据库中,并且额外 提取出一个关键字字符串用于搜索。对于每个人物都会分配一个唯一的 ID 以方便索引。 分页功能利用了 Django 自带的 Paginator 类。查询关键词的高亮以及自定义字段 搜索框的增加与删除使用 Javascript 在前端完成。

    展开全文
  • 信息组织与检索 知识点整理 ...2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有粉丝吗呜呜呜

    目录

    1 简单的定义

    (一)广义的信息检索(信息组织+信息检索)

    (二)狭义的信息检索

    2 信息检索技术与方法

    (一)文本信息检索

    (二)多媒体信息检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    (二)信息组织各功能模块

    (三)信息检索各功能模块

    (四)知识组织工具(作用)

    (五)信息检索系统结构实例分析

    4 信息采集(没有具体程序噢~)

    5 信息描述(重点)

    (一)理解信息描述

    (二)传统文献信息描述

    (三)数字化信息描述

    (四)信息描述需要注意的问题

    6 信息标引(重点)

    (一)信息标引的目的

    (二)信息标引的方法

    (三)信息标引和信息检索结果

    7 信息存储(重点)

    (一)理解资源库

    (二)理解索引

    (三)倒排索引及构建


    1 简单的定义

    基本概念:数据、信息、知识、智慧、信息检索、信息生命周期

    (一)广义的信息检索(信息组织+信息检索)

    定义:利用一定的科学规则和方法,通过对信息外在特征和内容特征的分析、选择、描述、标引、存储、排序和重组等活动,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合

    信息组织主要包括对某范围内的信息选择的基础上对信息的内外特征进行描述、标引、存储并使其有序化,形成信息集合

    (二)狭义的信息检索

    定义:借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息的过程

    发展历程

    • 图书目录和文摘、索引(手工检索)
      • 印刷型文献为主要检索对象
      • 以各类文摘、题录和目录型工具书为可利用的主要检索工具
      • 以图书馆的参考咨询部门作为开展信息检索服务的中心机构
    • 计算机化检索【脱机批处理——联机实时检索——联机网络化与多元化检索】
      • 各类机读数据库为检索对象
      • 各类信息中心、联机服务中心作为信息服务部门
      • 信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散
    • 网络化检索
      • WWW为核心的网络应用上的各种资源做检索对象,包括各种网页、FTP资源、用户组资源、联机数据库等和各种通过网络提供服务的数据库等
      • 以搜索引擎为主要检索工具
      • 信息用户多为终端用户
      • 人工智能得到应用,自动化程度、智能性大大提高(如自然语言理解、语义检索、推理等)

    2 信息检索技术与方法

    (一)文本信息检索

    常用检索技术:布尔检索、加权检索、截词检索、限制检索、位置检索和聚类检索等

    布尔检索

    • 算符含义

    逻辑或OR:A OR B

    逻辑与AND:A AND B

    逻辑非NOT:A NOT B

    逻辑异或XOR:A XOR B //检索结果是含有检索词A但不含有检索词B的文献或者是包含检索词B但不含有检索词A的文献

    • 优先级
      • 同级运算自左向右
      • AND和NOT先执行,OR后执行
      • 检索式中如果包括其他检索技术的算符,布尔运算最后执行

    加权检索

    • 加权检索的定义和示例
      • 加权检索是对布尔逻辑检索的一种扩充
      • 加权在标引及检索阶段都可使用

               示例:Q=知识管理(4)and竞争情报(2)and企业文化(1)

    • 加权检索优缺点
      • 优点:明确了各检索词在检索中的重要程度;可以通过提高和降低阈值来扩大和缩小检索范围;检索结果易于顺序排
      • 缺点:提问表达式烦琐,权值确定比较困难

    截词检索

    • 检索者将检索词汇在他认为合适的地方截断,并使用该截断词进行检索匹配
    • 截词检索有多种类型

               按照截断位置分:后截断(主要方式)、前截断和中截断

               按照截断的字符数量分:有限截断和无限截断

    限制检索

    方式:字段检索、二次检索、其他方式的限制

    位置检索(区别于字段检索)

    针对自然语言文本中检索词之间的特定位置关系而进行的检索匹配

    主要方式:邻接检索、同句检索、同字段检索、同记录检索

    聚类检索

    聚类检索起源于向量空间模型

    针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,将相似度较高的文献聚集在一起,形成文献类目,进而形成文献的聚类文档聚类检索针对聚类文档进行

    其他文本辅助检索技术

          信息的浏览时检索与链接技术的运用;检索结果的翻译和多语种检索;检索结果的后处      理(排序输出/联机聚类/去重合并)

    (二)多媒体信息检索

    特性:集成性/交互性/独立性

    音频信息

    • 关注音频声波的数字化问题;
    • 采样、量化、编码和压缩等;
    • 传统音频信息检索特征的提取:外部特征的描述(文件名、文件类型、创建者、创建时间等,多用元数据表示)+内容特征的标引(如对歌词中的关键词、主题词进行提取)

    图形与图像信息

    • 传统图像信息的检索特征提取方法:外部特征(图像创建日期、文件格式、数据大小等)+内容特征的标引(图像描述的主要对象、作者的创作意图等)

    视频信息

    • 外部特征+内容特征的标引(简单文本转化)
    • 基于内容的检索:指根据多媒体对象的听、视觉等特征及其蕴含的内容和语义特征进行检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    • 系统结构:指系统的组成及各组成部件之间的关系
    • 基本结构:集中式与分布式
      • 集中式检索系统:信息资源分布在同一物理地点,往往具有统一标准的信息组织手段
      • 分布式检索系统:利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对于用户有用的信息。这里的分布式环境指的是信息资源在物理上分布于不同的地点,在数据库结构上具有异构性,但是这些分散和异构的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统
    • 逻辑结构
      • 信息组织模块:资源采集——信息标引——数据库创建
        • 信息检索模块:用户界面——提问处理——检索匹配

    (二)信息组织各功能模块

    • 信息资源及其采集(决定信息检索系统中数据库的类型及收录范围)
    • 信息描述与标引处理
    • 决定检索系统的检索点(入口),也决定了标引深度及后续检索功能的提供
    • 信息描述规则往往需要先行制定
    • 标引分为人工标引和自动标引
      • 人工标引多依赖词表和规范工具
      • 自动标引更多针对自然语言文本进行,标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理,再依据语言学规则进行文本内容的自动抽词或辅词,也可进行自动分类或聚类
    • 数据库创建与维护
    • 依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统
    • 常见的数据库有文献型数据库和非文献型数据库
      • 文献型数据库包括书目(如索引、文摘等)和全文数据库,它们的设计与实现流程也各不相同;
      • 非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和图像数据库以及术语、软件等特殊类型的数据库

    (三)信息检索各功能模块

    • 理解用户界面
    • 提问处理(提问加工方法很多,有菊池敏典法、逆波兰法、范式变换法等)
    • 检索匹配
      • 检索匹配过程涉及数学算法模型的应用有很多信息检索模型,重点要掌握的是经典模型     
      • 经典模型包括布尔检索模型,向量空间模型,概率模型

    (四)知识组织工具(作用)

    • 表达:信息资源特征,及用户信息需求
    • 组织:以达到资源的系统化和有序化
    • 控制:对标引、检索过程中使用到的术语、词汇 或某些特征进行规范与协调
    • 关联:知识之间的相关性得到明确表征并能够被 机器理解处理

    (五)信息检索系统结构实例分析

     

    图书馆数目检索系统

    搜索引擎

    知识图谱

    信息选择与采集

    采访部门负责选择,采集以购买为主

    爬虫为主

    依据前期设计好的知识建模进行

    信息描述与标引

    外部特征获取+描述为结构化数据,MARC作为信息描述标准;内容特征多以整本书为单位进行,而且以人工标引为主,依据中图法、汉语主题词表进行

    半结构化或非结构化,信息特征难以获取,更多采用自动标引,需要更多技术的支撑,例如文本分析、自然语言处理等

    采用知识建模的方式进行,可能使用到RDF等资源描述框架及本体等知识建模工具,通过实体和关系自动/人工抽取完成知识关联构建

    索引与数据库

    传统为MARC磁带,现多存储在关系型数据库,索引功能比较完善

    自动构建文本索引,数据库类型也很多样,可能是文档,也可能是关系型数据库或者NoSQL的数据库

    知识图谱多存储在图数据库中,类型RDF三元组能够支持网状结构的查询

    信息检索模块

    多以检索点入口限制检索+布尔逻辑检索为主的检索词检索,分类浏览及检索也是常用的

    需要更多结果处理的功能,布尔操作、模糊查询、分组查询等,更重视排序的处理

    语义查询方式,并重视知识推理和自动问答等的应用

    4 信息采集(这里没有具体程序噢~)

    信息检索系统将在信息采集的基础上进行信息描述、标引、索引及数据库构建,因此采集结果的存在形式至关重要:

    • 结构化(数据):按一定属性规则排列的(二维表是最常见形式)
    • 非结构化:所有格式的文本、图片、音频/视频信息
    • 半结构化:介于二者之间的,具有一定结构,但语义不够确定

    5 信息描述(重点)

    (一)理解信息描述

    • 信息描述:信息著录、信息编目
    • 定义:根据特定的信息管理规则和技术标准,将存在于某一物理载体上的信息资源的外在特征与部分内容特征进行选择、描述与给予记录的过程
    • 结果:一条由多个描述项目构成的关于该信息资源的数据
    • 应用:传统印刷载体文献;对于网络上各类型数字化信息而言,内外特征不容易区分,所有对信息特征进行反映的过程都可以看作信息描述
    • 作用
      • 识别:个别化描述,区别其他信息
      • 选择:通过特征判断资源利用价值,决定是否选择
      • 检索:描述数据中的检索点之间的逻辑匹配给用户提供查检途径及二次筛选依据
      • 定位:传统文献排列位置、数据库位置、网络地址等

    (二)传统文献信息描述

    • 图书馆信息管理以馆藏文献为主,常见文献包括图书、期刊、古籍等
    • 传统文献信息描述主要依据ISBD国际标准书目著录展开,最终描述结果是图书馆书目卡
    • 目标:标准书目国际交流,实现资源共享三统一:著录格式/描述项目/描述符号);从不同的可交换数据源中生成数据,以便国家间的交流;有助于克服语言障碍,以便国家间的相互解释;有助于将书目数据转换为机器可读形式

    MARC(机读目录)

    • 定义:一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录;一次输入,多项检索;输出多种载体的款目;网上传输,可实现合作编目和联机检
    • 局限:标准复杂;需要专用平台,不能跨平台操作;描述内容多为书目;仅限于数据描述部分,管理信息较少,不适合计算机环境下日益增多的需求。
    • 基本格式:每一条记录都由四个部分构成
      • Leader(记录头标区):固定为24字符,记录计算机处理所需参数,如记录长度、记录状态、执行代码等
      • Directory(地址目次区):每一字段的长度和起始位置,由计算机自动生成
      • DataFields(数据字段区):各种描述数据
      • 记录分隔符(由计算机给出):记录结束符
    • 数据字段
    • 数据字段区划分成10功能块,每个功能块又包含若干字段和子字段,其中6XX功能主要使用分类法和主题法(词)的方式表达信息内容特征。
    • 标识符号(三类)
      • 标识符:字段标识符(3位数字,如205表示版本项)、子字段标识符(两个字符,第一个字符为“$”,第二个字符可以是数字或者字母,如200字段的“$a”表示正题名)
      • 指示符:两位数字或者字母组成,提供附加信息
      • 分隔符:自动生成

    (三)数字化信息描述

    元数据

    定义:关于数据的数据或关于数据的结构化数据。描述一个具体的资源对象并能对这个对象进行定位、管理且有助于它的发现与获取的数据

    类型分类

    • 描述信息资源领域:书目、档案、政府出版物、地图等
    • 描述文献对象分:传统文献资料;数字化信息资源
    • 信息资源作用或功能分(CLC)【使用范围】:
      • 描述性:支持资源的发现和鉴别,如题名、作者等书目数据(主要用于检索系统检索入口和结果筛选
      • 管理性:用以维护和管理资源的数据,如创建者数据、存取权限数据、数据处理技术数据等(主要用于检索系统的管理,以及动态特征的变化演示等)
      • 结构性:描述数字化资源内部的形式特征,如目录、段落和章节,页面间的跳转数据(用于检索系统相关资源的跳转
      • 标准的构成:描述某类资源的具体对象时所有规则的集合(标准一般包括了完整描述一个具体对象时所需要的数据项集合,各数据项语义定义,著录规则和计算机应用时的语法规定
    • 常用元数据标准
      • 描述一般信息的元数据:MARC(书目数据)、DC(网络资源)和TEI(电子文本)
      • 描述特殊信息的元数据:EAD(档案信息)、GILS(政府信息)、CGDGM(地理信息)
      • 描述图像信息的元数据:CDWA(博物馆艺术作品)和VRACore(可视化文化作品及图像资源)
    • 元数据互操作
      • 多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索
      • 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射
      • 目前已有大量的转换程序存在,供若干流行元数据格式之间的转化

    (四)信息描述需要注意的问题

    • 检索系统信息描述应根据资源特征和检索用户检索需求设计信息描述的标准
    • 兼顾不同资源的特性同时又要能最大程度地实现各类资源在发现和获取方法上的一致性,即从功能数据结构格式语义语法等诸多方面保持一致以实现不同系统之间的互操作和共享

    6 信息标引(重点)

    (一)信息标引的目的

    • 信息标引定义:采用一个或若干信息标识(词语或者代号)表示或替代信息内容特征的过程。揭示与标引形成的标识和代码不仅是信息存入信息系统的依据,也往往是信息检索的途径,如分类号、主题词、关键词等
    • 标引类型
      • 标引主体:人工标引和自动标引
      • 标引标识的不同形式:分类标引和主题标引
      • 标识是否规范控制:受控标引和非控标引(自然语言标引)

    (二)信息标引的方法

    标引分类

    • 人工受控标引
    • 转换标识:受控标引的标识必须来自受控分类表(分为等级体系分类和分面分类)或者受控词表(知识组织工具),即经过规范控制的标识,有时还需要进行概念之间的组配。
    • 自然语言自动标引
    • 汉语分词问题——歧义
      • 交集型歧义:结合成分子;我研究生期间是研究生物的
      • 组合型歧义:请把手拿开

    常见的中文分词方法

    • 基于规则的分词方法(机械分词方法、基于字典)
      • 三个要素:分词词典、文本扫描顺序、匹配原则
      • 扫描顺序:正向扫描、逆向扫描和双向扫描
      • 匹配原则:有最大匹配、最小匹配、逐词匹配和最佳匹配。
    • 基于统计的分词方法
      • 对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息(紧密程度);当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词
      • 例如:N元文法模型(N-gram)、隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等
    • 基于语义的分词方法
      • 对自然语言自身的语言信息进行更多的处理
      • 例如:扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等
    • 基于理解的分词方法
      • 基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象

    标引标识

    三个要素:分词子系统、句法语义子系统、总控部分。

    • 词典分词
    • 单汉字标引
    • 从分词结果到标引标识

    不是所有词都直接转换为标引标识

    词频:词在文献中出现的次数(一篇,一类文档)

    词性:名词常是有意义的

    逆文本档频率:在所有文档中统计词的频率

    位置:论文篇名,摘要,正文出现的词

    加权:词的权重

    • TF-IDF
    • TF:表示词条在当前文档中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件,公式=在某一类中词条出现的次数/该类中所有的词条数目
    • IDF:逆文件频率,公式=log⁡(语料库的文档总数/(包含词条w的文档树+1))

    应用场景:标引词的选择,自动标签生成/文档相似度的计算/文本聚类/自动文摘/SEO

    (三)信息标引和信息检索结果

    信息标引标识的数量

    信息标引标识是否受控

    信息标引标识粒度

    不同语种的处理差异

    7 信息存储(重点)

    (一)理解资源库

    概念:关系型数据库

    (二)理解索引

    索引由来

    索引组成的基本单位是索引款目,所有索引款目实现有序化编排

    款目一般包括索引词、说明或注释语、出处 3项内容

    本质特征是只揭示内容出处或文献线索,并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引

    关系型数据库索引

    索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构

    索引有不同类型:普通索引、唯一索引、主键索引、全文索引等等

    索引将非结构化数据按照规则提取信息,重新组织,使其有一定结构

    全文索引

    创建索引:获得文件——构建文档对象——分析分档(分词)——创建索引

    查询索引:用户查询接口——创建查询——执行查询——渲染结果——(用户查询接口)

    (三)倒排索引及构建

    顺序和倒排含义:倒排(逆向)对应的是顺序(正排/正向)

    倒排索引的创建流程

    收集需要索引的文档

    将每篇文档转换为一个个词条(token):自然语言分词

    进行语言学预处理,产生归一化词条作为词项

    对所有文档按照其中出现的词项建立倒排索引

    词条问题的解决

    词条归一化隐式地建立等价类,例如去掉连字符;维持多个非归一化词条之间的关联关系,例如手工建立同义词表,参见后面的单词词典(所以可以知道汉语主题词表等受控词表的作用)

    词干还原stemming和词形归并lemmatization

    单词词典

    • 单词词典是由文档集合中出现过的所有单词构成的字符串集合。
    • 单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
    • 单词词典是倒排索引中非常重要的组成部分,它是用来维护文档集合中所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。
    • 在支持搜索时,根据用户的查询词,去单词词典里查询,就能够获得相应的倒排列表。对于一个规模很大的文档集合来说,可能包含了几十万甚至上百万的不同单词,快速定位某个单词直接决定搜索的响应速度,所以需要很高效的数据结构对单词词典进行构建和查找。

    数据结构

    常用的数据结构包含哈希加链表树形词典结构

     

     

    展开全文
  • 针对当前面向大学生的搜题软件缺失等的问题,文中采用与教师合作进行学科定制与框架梳理的方法,设计了一款基于微信小程序,具有拍照搜题、视频讲解、知识点归纳等功能的学习信息检索系统。其前端基于微信小程序,...
  • 简易的信息检索系统

    2019-10-05 10:17:29
    设计并实现一个简易的信息检索系统,构成搜索引擎的核心模块。该系统读取一组英文文本 文件,为该组文件创建反向索引(请参考“补充知识”部分),并借助创建好的反向索引实 现对文件内容的快速查询。 基本功能...
    项目概览: 本项目为 C++部分的课程考试题,需个人独立完成。 设计并实现一个简易的信息检索系统,构成搜索引擎的核心模块。该系统读取一组英文文本 文件,为该组文件创建反向索引(请参考“补充知识”部分),并借助创建好的反向索引实 现对文件内容的快速查询。 基本功能(必需): 1. 系统能够为一个文本文件集合创建反向索引。 2. 系统能够根据单个词语搜索相应的文件(例如“movie”、“good”)。 3. 系统提供基于命令行的用户交互界面,具体功能包括:  让用户指定需索引的文件目录(该目录包含需索引的全部文本文件);  让用户输入搜索内容;  显示搜索到的文件名(一个或多个)。   高级功能(可选): 1. 系统支持组合查询语句,该语句包含两个或多个以“OR”或“AND”连接的单词(例 如 “movie” AND “good”、“movie” OR “TV”)。系统无需支持同时包含“AND”和“OR” 的查询语句,例如(“good” OR “bad”) AND “movie”。 2. 系统支持短语(包含两个或多个单词)查询,例如“good movie”。 3. 系统能够对搜索到的文件与查询语句之间的关联度进行分析与排序,并按照关联度排序 (降序)显示搜索到的文件。 4. 系统能够支持一些更高级的用户交互功能(例如:系统在显示搜索结果时除了显示文件 名外,还显示文件内容,并将被查询的词汇以特殊的方式标出)。 5. 系统能够让用户指定一个需排除的词汇列表,这些词汇在创建反向索引时不被检索。 6. 其他能够提升索引与搜索质量的功能。专业程序代写c++程序代写

    转载于:https://www.cnblogs.com/java20131201/archive/2013/06/08/3466359.html

    展开全文
  • 信息检索系统的相关知识 信息检索系统
  • 波士顿犯罪地区:使用波士顿犯罪数据的信息检索系统
  • 基于领域知识模型的突发事件智能信息检索系统研究 人工智能
  • 利用Lucene接口编写简单的信息检索系统,实现对本地目录建立索引和搜索功能。代码包含两个JSP页面,放入tomcat的webapp目录中即可在浏览器中运行程序。选择文档路径时如若涉及浏览器权限问题,可直接输入。
  • 详细地描述了使用语义Web技术实现智能信息检索的思想和工作流程,提出了一个基于本体的信息检索系统的框架,并以一个地理信息领域的应用为例分析了该检索系统的实现技术。
  • PeerIS:基于Peer-to-Peer的信息检索系统,周傲英,凌波,本文介绍了对等计算(Peer-to-Peer,简称P2P)的特征、潜在优势和应用范围,指出了当前P2P数据共享系统存在仅支持弱语义(甚至缺乏语义)和�
  • 教学管理文件信息检索系统设计与实现

    教学管理文件信息检索系统设计与实现


    前言

    提示:,使用基于 Python 的数据处理与分析技术 对教学管理文件进行预
    处理 ,利用 了 倒排索引 算法 的 快速检索 技术对校规校纪进行快速查询 和词频 逆文本
    频率评分 进行 排序 的 方法 分析学校教学管理文件 ,设计 与实现 教学 管理文
    件信息检索 系统 减轻教务管理人员的工作负担 。


    提示:以下是本篇文章正文内容,下面案例可供参考

    一、系统开发环境

    系统开发环境
    教学管理文件信息检索系统的设计与实现具体开发环境如下:
    (1) Window 10 操作系统
    (2) Tomcat 8.5+Jdk11.0.1
    (3) JavaEE 开发语言
    (4) Python 3.5.3 语言
    (5) eclipse 4.10.0 工具
    (6) Pycharm 2019.3.3 C ommunity Edition

    二、关键算法及代码

    1.文档切分代码在这里插入代码片

    在这里插入图片描述

    2.倒排索引的构建

    ``` 经过上述文件预处理,获得了两种文件,一种是每个章节的校规对应的文件,另一 种是每个章节对应的校规进行结巴分词后的文件,并且每个文件有它对应的编号 id 。现 在可以根据 划分的 文件,确定该章节所对应的关键词及该词的词频。此时,根据文档编 号,关键词,词频,就可以构成正向索引表,用来表示每个关键词与文档的关系, 如表所示:

    在这里插入图片描述

    在使用正向索引表进行校规校纪的查询时,只能根据输入的信息,提取关键词,对
    文档进行逐一查询, 判断该文档是否包含该关键词, 当文档数量很多时, 频繁的读取和
    关闭文件, 就会导致消耗大量的计算机资源,搜索效率很低等问题。为了能快速的根据
    用户的输入信息,检索到相应的校规,我们将正向索引表,重新组合,构建成每个关键
    词对应该词所属于的文档编号及词频, 然后我们根据关键词就可以快速的获取文档 id
    集合, 这种结构就是倒排索引结构,我所构建的结构如下表 所示
    在这里插入图片描述
    通过使用倒排索引表,对用户输入的信息进行结巴分词,关键词提取,然后,就可
    以过滤不相关的文本编号, 获取目标文档 id的集合 进行快速的检索,查找出相应的关键
    词所对应的文本编号,提高检索效率。
    但是,在第一次构建上
    述 索引时,由于代码要对 2 11 个文件进行频繁的读取,频繁
    的进行结巴分词,然后提取关键词,判断词语是否包含某一关键词时,进行统计词频,
    代码跑了两天两夜,没有跑出结果。对每个词的处理时间进行计算后,得出处理一个词,
    还有其对应的索引和 词频,大致需要两分钟,然后 总的教学管理文件 大约有 9 000 个关键词,跑完这么多词,需要
    1 2 天, 所以需要换一种方法进行数据处理 和索引的构建 。
    浪费了两天的时间后,对
    上述方法 进行修改。为了减少时间的耗费,所以,需要对
    2 11 个文件,进行提前 去除停用词并 分词,存到相应的文本中, 以便后续快速的构建索
    引。 此时需要 重新构思代码,把这 211 个章节的 词,都 相应的 提前读取到二维数组中去,
    全部把数据 提前放 到内存中,在进行处理数据时,运行五分钟左右,就能构建出形为
    Word _n 文档 id ,词频 的索引了。但是,根据在构建检索 模块 时,单纯的根据词
    频进行排序, 存在很多问题, 既没有很好的说服力,效果也不是很好,经过重新的构思
    和审阅任务书,决定使用词频 逆文件频率进行 综合 排序 。所以需要 重新构建索引 需
    要 把原索引中词频的值,替换为词频 逆文件频率的值。

    检索排序
    本段落主要讲解排序过程,我分别使用了词频和逆文件频率进行排序,设计和实现
    过程如下。
    根据用户的输入信息,提取关键词,然后通过多个关键词的词频进行相加,根据相
    加后词频的大小,对其所在的文档编号进行排序,过程如下图 所示 。
    在这里插入图片描述
    例如
    用户输入创新学分 系统 进行分词 后 ,提取出创新和学分两个关键词。根据这两
    个词,查询倒排索引表,查找出其所在的文档编号和对应的词频 w ,把文档编号相同的
    行所对应的词频 w 进行相加,根据数字按从大到小排序,得出检索结果。但是这样做,
    很容易出现图 3.5 所示 的情况,因为,在提取出的倒排索引文件中,很多关键词(这类
    低频率 词的比例很高),在某一文档中就只出现一次,但 有可能 在其他文档中出现很多
    次(如下图 3 6 为我处理的词频数据, 关键词: 文档 id ,词频 w 但是这并不能
    体现该词所在文档的重要性,所以采用新的排序方法很有必要。
    在这里插入图片描述


    系统截图

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 人工智能在信息检索系统中的应用 论文 超过4000字
  • 基于结构化向量空间模型的中文信息检索系统研究与实现
  • 基于概念云与本体的信息检索系统(IRSCCO)的设计与实现,任瑞娟,濮德敏,基于本体的语义检索是提高信息系统检索精确度的有效途径之一。概念云是云模型在信息领域的应用,是本体中的概念按照一定算法在页
  • 本书的编写依据教育部高等学校大学计算机课程教学指导委员会编制的《大学计算机基础课程教学基本要求》,按照认知规律,采用由浅入深、由外入内的教学模式,既强调基础性和系统性,又注重内容宽度和知识深度的结合,...
  • 在本课程中,我们将研究基于文本和基于Web的信息检索系统的理论,设计和实现,包括检查现代搜索和数据挖掘应用程序核心的Web和社交媒体挖掘算法和技术。到学期结束时,您将能够:定义和解释与信息存储和检索相关的...
  • 要借助了在 web3.0中应用的语义网技术,这使信息检索系统实现了语义功 能
  • 一个基于概念格的小型信息检索系统,彭韬,陈光,互联网上信息爆炸式的增长,使得传统的搜索引擎很难让用户精准且快速地定位信息。文中提出一种基于概念格的方法,将检索结果更好
  • 信息检索系统利用倒排索引和向量空间模型实现的信息检索系统.完成工作:带位置信息的倒排索引向量空间模型TOP K查询BOOL查询短语查询拼写矫正同义词查询拼写矫正(短语)运行环境要求:python3在初次运行程序前请下载...
  • 基于GIS数据库信息的面向某一行业的信息检索系统的设计与实现,林祥涛,彭泳,本文在分析当前的信息检索系统优缺点和GIS数据库信息特点的基础上,利用GIS数据库信息分类明确的优势,提出了一种面向某个行业的信
  • 智能新闻信息检索系统的设计与实现.pdf智能新闻信息检索系统的设计与实现.pdf智能新闻信息检索系统的设计与实现.pdf智能新闻信息检索系统的设计与实现.pdf
  • 使用XML当数据库,JSP做显示层的图书馆信息检索系统

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,667
精华内容 3,466
关键字:

信息检索系统