精华内容
下载资源
问答
  • 信息组织与检索 知识点整理 ...2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会粉丝吗呜呜呜

    目录

    1 简单的定义

    (一)广义的信息检索(信息组织+信息检索)

    (二)狭义的信息检索

    2 信息检索技术与方法

    (一)文本信息检索

    (二)多媒体信息检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    (二)信息组织各功能模块

    (三)信息检索各功能模块

    (四)知识组织工具(作用)

    (五)信息检索系统结构实例分析

    4 信息采集(没有具体程序噢~)

    5 信息描述(重点)

    (一)理解信息描述

    (二)传统文献信息描述

    (三)数字化信息描述

    (四)信息描述需要注意的问题

    6 信息标引(重点)

    (一)信息标引的目的

    (二)信息标引的方法

    (三)信息标引和信息检索结果

    7 信息存储(重点)

    (一)理解资源库

    (二)理解索引

    (三)倒排索引及构建


    1 简单的定义

    基本概念:数据、信息、知识、智慧、信息检索、信息生命周期

    (一)广义的信息检索(信息组织+信息检索)

    定义:利用一定的科学规则和方法,通过对信息外在特征和内容特征的分析、选择、描述、标引、存储、排序和重组等活动,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合

    信息组织主要包括对某范围内的信息选择的基础上对信息的内外特征进行描述、标引、存储并使其有序化,形成信息集合

    (二)狭义的信息检索

    定义:借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息的过程

    发展历程

    • 图书目录和文摘、索引(手工检索)
      • 印刷型文献为主要检索对象
      • 以各类文摘、题录和目录型工具书为可利用的主要检索工具
      • 以图书馆的参考咨询部门作为开展信息检索服务的中心机构
    • 计算机化检索【脱机批处理——联机实时检索——联机网络化与多元化检索】
      • 各类机读数据库为检索对象
      • 各类信息中心、联机服务中心作为信息服务部门
      • 信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散
    • 网络化检索
      • WWW为核心的网络应用上的各种资源做检索对象,包括各种网页、FTP资源、用户组资源、联机数据库等和各种通过网络提供服务的数据库等
      • 以搜索引擎为主要检索工具
      • 信息用户多为终端用户
      • 人工智能得到应用,自动化程度、智能性大大提高(如自然语言理解、语义检索、推理等)

    2 信息检索技术与方法

    (一)文本信息检索

    常用检索技术:布尔检索、加权检索、截词检索、限制检索、位置检索和聚类检索等

    布尔检索

    • 算符含义

    逻辑或OR:A OR B

    逻辑与AND:A AND B

    逻辑非NOT:A NOT B

    逻辑异或XOR:A XOR B //检索结果是含有检索词A但不含有检索词B的文献或者是包含检索词B但不含有检索词A的文献

    • 优先级
      • 同级运算自左向右
      • AND和NOT先执行,OR后执行
      • 检索式中如果包括其他检索技术的算符,布尔运算最后执行

    加权检索

    • 加权检索的定义和示例
      • 加权检索是对布尔逻辑检索的一种扩充
      • 加权在标引及检索阶段都可使用

               示例:Q=知识管理(4)and竞争情报(2)and企业文化(1)

    • 加权检索优缺点
      • 优点:明确了各检索词在检索中的重要程度;可以通过提高和降低阈值来扩大和缩小检索范围;检索结果易于顺序排
      • 缺点:提问表达式烦琐,权值确定比较困难

    截词检索

    • 检索者将检索词汇在他认为合适的地方截断,并使用该截断词进行检索匹配
    • 截词检索有多种类型

               按照截断位置分:后截断(主要方式)、前截断和中截断

               按照截断的字符数量分:有限截断和无限截断

    限制检索

    方式:字段检索、二次检索、其他方式的限制

    位置检索(区别于字段检索)

    针对自然语言文本中检索词之间的特定位置关系而进行的检索匹配

    主要方式:邻接检索、同句检索、同字段检索、同记录检索

    聚类检索

    聚类检索起源于向量空间模型

    针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,将相似度较高的文献聚集在一起,形成文献类目,进而形成文献的聚类文档聚类检索针对聚类文档进行

    其他文本辅助检索技术

          信息的浏览时检索与链接技术的运用;检索结果的翻译和多语种检索;检索结果的后处      理(排序输出/联机聚类/去重合并)

    (二)多媒体信息检索

    特性:集成性/交互性/独立性

    音频信息

    • 关注音频声波的数字化问题;
    • 采样、量化、编码和压缩等;
    • 传统音频信息检索特征的提取:外部特征的描述(文件名、文件类型、创建者、创建时间等,多用元数据表示)+内容特征的标引(如对歌词中的关键词、主题词进行提取)

    图形与图像信息

    • 传统图像信息的检索特征提取方法:外部特征(图像创建日期、文件格式、数据大小等)+内容特征的标引(图像描述的主要对象、作者的创作意图等)

    视频信息

    • 外部特征+内容特征的标引(简单文本转化)
    • 基于内容的检索:指根据多媒体对象的听、视觉等特征及其蕴含的内容和语义特征进行检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    • 系统结构:指系统的组成及各组成部件之间的关系
    • 基本结构:集中式与分布式
      • 集中式检索系统:信息资源分布在同一物理地点,往往具有统一标准的信息组织手段
      • 分布式检索系统:利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对于用户有用的信息。这里的分布式环境指的是信息资源在物理上分布于不同的地点,在数据库结构上具有异构性,但是这些分散和异构的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统
    • 逻辑结构
      • 信息组织模块:资源采集——信息标引——数据库创建
        • 信息检索模块:用户界面——提问处理——检索匹配

    (二)信息组织各功能模块

    • 信息资源及其采集(决定信息检索系统中数据库的类型及收录范围)
    • 信息描述与标引处理
    • 决定检索系统的检索点(入口),也决定了标引深度及后续检索功能的提供
    • 信息描述规则往往需要先行制定
    • 标引分为人工标引和自动标引
      • 人工标引多依赖词表和规范工具
      • 自动标引更多针对自然语言文本进行,标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理,再依据语言学规则进行文本内容的自动抽词或辅词,也可进行自动分类或聚类
    • 数据库创建与维护
    • 依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统
    • 常见的数据库有文献型数据库和非文献型数据库
      • 文献型数据库包括书目(如索引、文摘等)和全文数据库,它们的设计与实现流程也各不相同;
      • 非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和图像数据库以及术语、软件等特殊类型的数据库

    (三)信息检索各功能模块

    • 理解用户界面
    • 提问处理(提问加工方法很多,有菊池敏典法、逆波兰法、范式变换法等)
    • 检索匹配
      • 检索匹配过程涉及数学算法模型的应用有很多信息检索模型,重点要掌握的是经典模型     
      • 经典模型包括布尔检索模型,向量空间模型,概率模型

    (四)知识组织工具(作用)

    • 表达:信息资源特征,及用户信息需求
    • 组织:以达到资源的系统化和有序化
    • 控制:对标引、检索过程中使用到的术语、词汇 或某些特征进行规范与协调
    • 关联:知识之间的相关性得到明确表征并能够被 机器理解处理

    (五)信息检索系统结构实例分析

     

    图书馆数目检索系统

    搜索引擎

    知识图谱

    信息选择与采集

    采访部门负责选择,采集以购买为主

    爬虫为主

    依据前期设计好的知识建模进行

    信息描述与标引

    外部特征获取+描述为结构化数据,MARC作为信息描述标准;内容特征多以整本书为单位进行,而且以人工标引为主,依据中图法、汉语主题词表进行

    半结构化或非结构化,信息特征难以获取,更多采用自动标引,需要更多技术的支撑,例如文本分析、自然语言处理等

    采用知识建模的方式进行,可能使用到RDF等资源描述框架及本体等知识建模工具,通过实体和关系自动/人工抽取完成知识关联构建

    索引与数据库

    传统为MARC磁带,现多存储在关系型数据库,索引功能比较完善

    自动构建文本索引,数据库类型也很多样,可能是文档,也可能是关系型数据库或者NoSQL的数据库

    知识图谱多存储在图数据库中,类型RDF三元组能够支持网状结构的查询

    信息检索模块

    多以检索点入口限制检索+布尔逻辑检索为主的检索词检索,分类浏览及检索也是常用的

    需要更多结果处理的功能,布尔操作、模糊查询、分组查询等,更重视排序的处理

    语义查询方式,并重视知识推理和自动问答等的应用

    4 信息采集(这里没有具体程序噢~)

    信息检索系统将在信息采集的基础上进行信息描述、标引、索引及数据库构建,因此采集结果的存在形式至关重要:

    • 结构化(数据):按一定属性规则排列的(二维表是最常见形式)
    • 非结构化:所有格式的文本、图片、音频/视频信息
    • 半结构化:介于二者之间的,具有一定结构,但语义不够确定

    5 信息描述(重点)

    (一)理解信息描述

    • 信息描述:信息著录、信息编目
    • 定义:根据特定的信息管理规则和技术标准,将存在于某一物理载体上的信息资源的外在特征与部分内容特征进行选择、描述与给予记录的过程
    • 结果:一条由多个描述项目构成的关于该信息资源的数据
    • 应用:传统印刷载体文献;对于网络上各类型数字化信息而言,内外特征不容易区分,所有对信息特征进行反映的过程都可以看作信息描述
    • 作用
      • 识别:个别化描述,区别其他信息
      • 选择:通过特征判断资源利用价值,决定是否选择
      • 检索:描述数据中的检索点之间的逻辑匹配给用户提供查检途径及二次筛选依据
      • 定位:传统文献排列位置、数据库位置、网络地址等

    (二)传统文献信息描述

    • 图书馆信息管理以馆藏文献为主,常见文献包括图书、期刊、古籍等
    • 传统文献信息描述主要依据ISBD国际标准书目著录展开,最终描述结果是图书馆书目卡
    • 目标:标准书目国际交流,实现资源共享三统一:著录格式/描述项目/描述符号);从不同的可交换数据源中生成数据,以便国家间的交流;有助于克服语言障碍,以便国家间的相互解释;有助于将书目数据转换为机器可读形式

    MARC(机读目录)

    • 定义:一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录;一次输入,多项检索;输出多种载体的款目;网上传输,可实现合作编目和联机检
    • 局限:标准复杂;需要专用平台,不能跨平台操作;描述内容多为书目;仅限于数据描述部分,管理信息较少,不适合计算机环境下日益增多的需求。
    • 基本格式:每一条记录都由四个部分构成
      • Leader(记录头标区):固定为24字符,记录计算机处理所需参数,如记录长度、记录状态、执行代码等
      • Directory(地址目次区):每一字段的长度和起始位置,由计算机自动生成
      • DataFields(数据字段区):各种描述数据
      • 记录分隔符(由计算机给出):记录结束符
    • 数据字段
    • 数据字段区划分成10功能块,每个功能块又包含若干字段和子字段,其中6XX功能主要使用分类法和主题法(词)的方式表达信息内容特征。
    • 标识符号(三类)
      • 标识符:字段标识符(3位数字,如205表示版本项)、子字段标识符(两个字符,第一个字符为“$”,第二个字符可以是数字或者字母,如200字段的“$a”表示正题名)
      • 指示符:两位数字或者字母组成,提供附加信息
      • 分隔符:自动生成

    (三)数字化信息描述

    元数据

    定义:关于数据的数据或关于数据的结构化数据。描述一个具体的资源对象并能对这个对象进行定位、管理且有助于它的发现与获取的数据

    类型分类

    • 描述信息资源领域:书目、档案、政府出版物、地图等
    • 描述文献对象分:传统文献资料;数字化信息资源
    • 信息资源作用或功能分(CLC)【使用范围】:
      • 描述性:支持资源的发现和鉴别,如题名、作者等书目数据(主要用于检索系统检索入口和结果筛选
      • 管理性:用以维护和管理资源的数据,如创建者数据、存取权限数据、数据处理技术数据等(主要用于检索系统的管理,以及动态特征的变化演示等)
      • 结构性:描述数字化资源内部的形式特征,如目录、段落和章节,页面间的跳转数据(用于检索系统相关资源的跳转
      • 标准的构成:描述某类资源的具体对象时所有规则的集合(标准一般包括了完整描述一个具体对象时所需要的数据项集合,各数据项语义定义,著录规则和计算机应用时的语法规定
    • 常用元数据标准
      • 描述一般信息的元数据:MARC(书目数据)、DC(网络资源)和TEI(电子文本)
      • 描述特殊信息的元数据:EAD(档案信息)、GILS(政府信息)、CGDGM(地理信息)
      • 描述图像信息的元数据:CDWA(博物馆艺术作品)和VRACore(可视化文化作品及图像资源)
    • 元数据互操作
      • 多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索
      • 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射
      • 目前已有大量的转换程序存在,供若干流行元数据格式之间的转化

    (四)信息描述需要注意的问题

    • 检索系统信息描述应根据资源特征和检索用户检索需求设计信息描述的标准
    • 兼顾不同资源的特性同时又要能最大程度地实现各类资源在发现和获取方法上的一致性,即从功能数据结构格式语义语法等诸多方面保持一致以实现不同系统之间的互操作和共享

    6 信息标引(重点)

    (一)信息标引的目的

    • 信息标引定义:采用一个或若干信息标识(词语或者代号)表示或替代信息内容特征的过程。揭示与标引形成的标识和代码不仅是信息存入信息系统的依据,也往往是信息检索的途径,如分类号、主题词、关键词等
    • 标引类型
      • 标引主体:人工标引和自动标引
      • 标引标识的不同形式:分类标引和主题标引
      • 标识是否规范控制:受控标引和非控标引(自然语言标引)

    (二)信息标引的方法

    标引分类

    • 人工受控标引
    • 转换标识:受控标引的标识必须来自受控分类表(分为等级体系分类和分面分类)或者受控词表(知识组织工具),即经过规范控制的标识,有时还需要进行概念之间的组配。
    • 自然语言自动标引
    • 汉语分词问题——歧义
      • 交集型歧义:结合成分子;我研究生期间是研究生物的
      • 组合型歧义:请把手拿开

    常见的中文分词方法

    • 基于规则的分词方法(机械分词方法、基于字典)
      • 三个要素:分词词典、文本扫描顺序、匹配原则
      • 扫描顺序:正向扫描、逆向扫描和双向扫描
      • 匹配原则:有最大匹配、最小匹配、逐词匹配和最佳匹配。
    • 基于统计的分词方法
      • 对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息(紧密程度);当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词
      • 例如:N元文法模型(N-gram)、隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等
    • 基于语义的分词方法
      • 对自然语言自身的语言信息进行更多的处理
      • 例如:扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等
    • 基于理解的分词方法
      • 基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象

    标引标识

    三个要素:分词子系统、句法语义子系统、总控部分。

    • 词典分词
    • 单汉字标引
    • 从分词结果到标引标识

    不是所有词都直接转换为标引标识

    词频:词在文献中出现的次数(一篇,一类文档)

    词性:名词常是有意义的

    逆文本档频率:在所有文档中统计词的频率

    位置:论文篇名,摘要,正文出现的词

    加权:词的权重

    • TF-IDF
    • TF:表示词条在当前文档中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件,公式=在某一类中词条出现的次数/该类中所有的词条数目
    • IDF:逆文件频率,公式=log⁡(语料库的文档总数/(包含词条w的文档树+1))

    应用场景:标引词的选择,自动标签生成/文档相似度的计算/文本聚类/自动文摘/SEO

    (三)信息标引和信息检索结果

    信息标引标识的数量

    信息标引标识是否受控

    信息标引标识粒度

    不同语种的处理差异

    7 信息存储(重点)

    (一)理解资源库

    概念:关系型数据库

    (二)理解索引

    索引由来

    索引组成的基本单位是索引款目,所有索引款目实现有序化编排

    款目一般包括索引词、说明或注释语、出处 3项内容

    本质特征是只揭示内容出处或文献线索,并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引

    关系型数据库索引

    索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构

    索引有不同类型:普通索引、唯一索引、主键索引、全文索引等等

    索引将非结构化数据按照规则提取信息,重新组织,使其有一定结构

    全文索引

    创建索引:获得文件——构建文档对象——分析分档(分词)——创建索引

    查询索引:用户查询接口——创建查询——执行查询——渲染结果——(用户查询接口)

    (三)倒排索引及构建

    顺序和倒排含义:倒排(逆向)对应的是顺序(正排/正向)

    倒排索引的创建流程

    收集需要索引的文档

    将每篇文档转换为一个个词条(token):自然语言分词

    进行语言学预处理,产生归一化词条作为词项

    对所有文档按照其中出现的词项建立倒排索引

    词条问题的解决

    词条归一化隐式地建立等价类,例如去掉连字符;维持多个非归一化词条之间的关联关系,例如手工建立同义词表,参见后面的单词词典(所以可以知道汉语主题词表等受控词表的作用)

    词干还原stemming和词形归并lemmatization

    单词词典

    • 单词词典是由文档集合中出现过的所有单词构成的字符串集合。
    • 单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
    • 单词词典是倒排索引中非常重要的组成部分,它是用来维护文档集合中所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。
    • 在支持搜索时,根据用户的查询词,去单词词典里查询,就能够获得相应的倒排列表。对于一个规模很大的文档集合来说,可能包含了几十万甚至上百万的不同单词,快速定位某个单词直接决定搜索的响应速度,所以需要很高效的数据结构对单词词典进行构建和查找。

    数据结构

    常用的数据结构包含哈希加链表树形词典结构

     

     

    展开全文
  • 基于内容的视频信息检索系统

    千次阅读 2014-12-23 15:27:56
    基于内容的视频信息检索系统 汪志强 (江西财经大学信息管理学院 09信息管理与信息系统2班) 摘 要: 本文从基于内容的视频信息检索技术的发展历史出发,对基于内容的视频检索系统的技术要点及主要的功能模块...

    基于内容的视频信息检索系统

    汪志强

    (江西财经大学信息管理学院 09信息管理与信息系统2班)

    摘 要: 本文从基于内容的视频信息检索技术的发展历史出发,对基于内容的视频检索系统的技术要点及主要的功能模块进行了讨论和分析,并说明了当今技术存在的缺陷,最后提出了以后可能的商业应用的发展方向。

    关键词: 基于内容的视频信息检索; 镜头边缘检测; 关键帧提取; 特征描述

    1 引言

    1.1 背景

    伴随着信息时代的到来,计算机技术和网络技术的发展,海量的信息在全球被采集、传输、流通和应用。特别是数码照相机、数码摄像机等数字化产品的出现,让图像和视频进一步成为人们喜闻乐见的信息交流方式。据统计,人类获取的信息80%是通过视觉获取的, 而其中视频信息直观、生动,是人类生活中最有效的交流方式,而这对我们管理视觉信息的方法提出了更高的要求。例如,在公安部门查看犯罪现场的录像时,办案人员查找某些镜头来确认犯罪人员的出现和离开时间,在没有行之有效的视频信息检索方法的情况下,就需要有经验的办案人员到录像库逐一搜寻视频的拷贝,然后花上数小时人工来回浏览录像,查找和选定要用的特定镜头,工作效率很低。所以对于高效的视频检索系统,必须具备视频自动检索功能。

    视觉信息有其自身的特点那就是数据量大,抽象程度低,所以视觉信息膨胀带来的问题也非常严重,也正是由于这种情况,很多视频信息因无有效的检索技术导致信息无法及时处理而浪费,特别是在竞争激烈的当今,如何有效的描述视觉信息、如何实现基于内容的信息检索成为各部门的研究热点。

    1.2 技术概要

    在基于内容的信息检索中,基于内容的视频信息检索必将成为科研人员必须解决的问题之一。文献[1]介绍了基于内容的视频信息检索实现的基本方法,通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段———镜头,作为检索的基本单元,在此基础上进行代表帧的提取和动态特征的提取,形成描述镜头的特征索引:依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据,按照用户要求返回给用户。其中镜头检测技术、镜头聚类技术、视频数据库组织和索引技术、基于运动特征的视频检索技术、面向查询的特征提取和匹配技术及显示和交互技术是视频检索中的关键技术,如何处理好这些问题,直接关系到视频检索系统的性能,这也是当今的研究热点问题。

    1.3 商业运用

    在当今的时代,视频检索系统在商业上渐渐得到青睐,正如新闻报道“视频搜索精准竞速 技术元年开启[2]”所阐述的那样,当今越来越需要准确的检索视频,我们将迎来一个新的技术元年。视频信息检索技术将在各个行业上得到运用,不管是安防还是破案又或者是广告的投放,这都将会是一个新的市场,随着视频信息检索技术的成长,“海量视频检索离安防监控还有多远?[3]”将不再遥远,正确的应用该技术,将为我们的安防提供更可靠的支持。新的广告投放方式“有趣的视链技术[4]”将变成主流,而与之对应的的新的营销方式“视链广告打开视频营销新空间 [5]”将改变大家以往的思维模式。可以这么说,当今的视频行业的发展,催出视频信息检索技术的发展,同时也将影响着该技术在商业上的运用,其产生的价值和展现出的市场前景,将值得期待。

    2 基于内容的视频信息检索系统

    下图是基于内容的视频检索系统的工作框架图[6]

     

    图1  基于内容的视频检索系统工作框图

    我们可以看出,用户使用可视化的界面操作,可选择三种不同的方式进行检索,如范例查询、文字查询、视觉浏览等。用户通过一个关键字或者关键内容的键入,系统根据此查找多维索引,通过在线的数据库的匹配,自动提取特征,这种特征可以使纹理、图像颜色、物体形状等等。然后通过在线的相似度匹配可以得到用户需要的信息。离线时,可以通过标引员进行手工的标引。其主要特点如下:

    ( 1) 基于内容的检索直接对视频数据库中的图像、视频、音频内容进行分析,抽取特征和语义。对视频信息的描述更加具体、客观和全面。利用这些内容特征建立索引进行检索准确率会大大提高。

    ( 2) 基于内容的视频信息检索为我们提供了更多的视频内在信息, 比如视频段的运动活动性、摄像机运动方式或者是关键帧的主颜色、纹理特征等重要信息, 并且这些信息都可以作为视频信息的特征值进行匹配查询。

    ( 3) 基于内容的视频信息检索为我们提供了多样灵活的检索方式。我们既可以上载一段关于日出的视频或是仅仅上载一幅有关日出的图像,来查找视频数据库中与日出相关的视频信息,也可以通过一幅手工画出的日出草图对视频数据库中的视频信息进行查询,这些查询方式在传统的检索系统中是无法想象的。

    3 基于内容的视频检索系统的实现方式

    3.1视频信息的特征

    一、关键帧

    关键帧是计算机动画术语,帧——就是动画中最小单位的单幅影像画面,相当于电影胶片上的每一格镜头。在动画软件的时间轴上帧表现为一格或一个标记。关键帧——相当于二维动画中的原画,指角色或者物体运动或变化中的关键动作所处的那一帧[7]。关键帧与关键帧之间的动画可以由软件来创建,叫做过渡帧或者中间帧在一组连续运动的镜头中,通过分析每个镜头的光流量,找到的变化最小的那个镜头。这便是关键帧。在视频信息中,人们常用关键帧来标识场景、故事等高层语义单元。

    二、镜头

    影视中所指的镜头,并非物理含义或者光学意义上的镜头,而是指承载影像、能够构成画面的镜头。镜头是比帧更高级的视频基本单元,镜头是组成整部影片的基本单位。若干个镜头构成一个段落或场面,若干个段落或场面构成一部影片。因此,镜头也是构成视觉语言的基本单位。它是叙事和表意的基础。在影视作品的前期拍摄中,镜头是指摄像机从启动到静止这期间不间断摄取的一段画面的总和;在后期编辑时,镜头是两个剪辑点间的一组画面;在完成片中,一个镜头是指从前一个光学转换到后一个光学转换之间的完整片段[8]

    三、切换

    它是镜头间最常见的过渡方式, 表现为在相邻两帧间发生突变性的镜头转换。

    四、视频段落

    在时间上连续的镜头是相关的, 因为这一组镜头是一个情节。显然, 视频段落是一种比镜头具有更高抽象层次的结构。

    3.2 实现方式

    基于内容的视频信息检索系统主要通过以下三种方式实现:

    (1) 基于图象的方式:将视频资料进行镜头检测和关键帧提取后,用镜头的关键帧来代表镜头。通过对关键帧的特征提取( 如: 纹理、直方图等) 以及手工注释的方法来实现对视频信息的内容描述。在检索端通过对视频信息关键帧的匹配来实现对视频信息的检索。在前面提到的视链广告便是其中应用之一。

     

    图2 视链技术的实现

    (2) 基于视频的特有信息: 先将视频信息中包含的视频特有信息( 如: 主运动方向、运动矢量等) 提取出来, 然后用一定的算法对提取出的数值进行处理, 将得到的数据作为视频资料的内容描述。检索端通过对特征数据的匹配来实现视频信息的检索。

    (3) 图象和视频的特有信息相结合: 具体思路就是将方法( 1) ( 2)有效的结合起来实现视频信息的检索。

    4 检索系统的模块功能和相关技术

    视频信息检索就是对视频信息的处理和加工,而基于内容的视频信息检索系统的主要结构如下图所示。

     

    我们可以看出,这个系统主要实现特征的发现,相似性比较,最后访问数据库得到用户所要的返回结果。而从对视频信息处理流程的角度,视频信息检索主要分成三个部分: 视频的预处理、镜头处理和视频描述,下面将针对这三个部分展开讨论。

    4. 1 视频预处理

    视频预处理部分其实只包括一个功能:读入视频资料,但是这部分的功能也是很重要的。在当今的时代,由于监控设备行业的门槛比较低,所以各种公司并存,而每个公司所使用的录像存储格式又各不相同,用的播放器也是五花八门的,这就给读取视频带来一定的困难,这也是首先必须解决的问题,概括起来只有一句话: 载入各种格式的视频资料,并将视频资料上载到视频资料数据库中。这一部分存在着很大的技术障碍,必须解决视频的存储格式、编码问题。

    视频资料的载入

    基于内容的视频信息检索,首先要面对的是海量的信息量,这种海量不仅仅体现在其容量大得惊人,也同样体现在视频的格式编码不尽相同、良莠不齐。根据百度百科资料[9]显示光视频的大的编码分类就有多达9种,各种编码的方式也不同。为了能将如此多种类的视频资料读入到数据库中进行处理,预处理部分必须具备以下功能:

    (1) 将模拟信号数字化,压缩数字化后的数据并进行存储。

    (2) 对应于每一种格式的数字信号都要有相应的解码器进行解码。

    (3) 为了对视频信号做进一步的处理, 例如存储、格式转换, 预处理模块要具有相应的编解码和转码功能。

    4. 2 镜头处理

    在基于内容的视频信息检索系统中镜头处理是最重要的一部分,只有利用了视频资料所包含的特有的视频信息才能使检索系统得到更加符合人们需求的检索结果,而大部分视频特有信息正是在这部操作中被提取出来。镜头处理部分完成的功能是将视频资料分割成镜头并进行相应的处理,这部分包括: 镜头检测、关键帧提取和视频聚类。

    4. 2. 1 镜头检测

    正如我之前分析的,视频主要由一个个镜头连接而成。镜头实际上是一段时间的视频信号,在这段时间内,摄像机可以由各种运动及变焦等操作,但没有摄像机信号的中断,因此,一段镜头内的图像不会有大的变换。故而镜头既能反映出这段视频拍摄时的特征信息,也能反映后期制作中所加入的编辑信息,所以一般认为镜头是视频的基本物理单元。

    首先要做的就是确定一个镜头的开始和结束,自动地实现镜头的分割,形成最基本的索引单元,我们称之为镜头的边界检测。在此之前我们需要了解,镜头之间的基本切换方式,这是对镜头进行边缘检测的首要条件,常见的切换方式有:突变(切变) 和渐变(如叠化、淡入、淡出等)。镜头边界检测方法可分为模板匹配法、直方图法、基于边缘的方法和基于模型的方法等。此外在面对不同的视频格式,如数字视频、模拟视频抑或压缩与非压缩视频时,又要考虑更多的因素,这里面也涉及了更多的技术。

    4. 2. 2 提取关键帧

    帧是构成镜头的基本部分,而关键帧又是一个镜头序列中包含这个镜头最重要信息的代表帧,其基本上能够代表这个镜头反映的所有的信息,进而我们可以将对镜头的检测和提取,变成对帧的处理,因为在对帧的处理技术,已趋于完善,各种理论也详尽。这样便巧妙的实现了转换。

    随着而来的问题是,如果去确定一个镜头的关键帧,成为了一个难点。通常我们要求关键帧必须具备以下的几个条件:(1)关键帧必须能够准确完整地反映镜头的主要事件;(2)为了便于后期的数据处理,我们提取的关键帧数据量应尽量少且不宜太复杂。

    在文献[10]中提及了几个关于关键帧的选取方法,其介绍了比较经典的有帧平均法和直方图平均法。这些方法对于提取关键帧有着可观的作用。

    (1)帧平均法

    其基本思想是从镜头中抽取所有帧在某个位置上像素值的平均值,然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧

    (2)直方图平均法

    将镜头中所有帧的统计直方图取平均, 然后选取与该平均直方图最接近的帧作为关键帧。

    但是不管是哪种方法,都存在着一定的缺点。

    4. 2. 3 视频聚类

    在对镜头进行分析后,我们主张进行视频的聚类。之所以进行视频的聚类,主要是基于以下的考虑。

    首先,一段视频可能很大,包含了很多个镜头,如果单一的对每一个镜头都进行分析,那将会是很大的工作量,不仅如此,单一的处理镜头,也将会失去视频的时间性、运动性和连续性。但是如果将相似的镜头组织在一起,则是对视频信息的进一步抽象。用户可以通过视频聚类得到的结果对视频段进行快速的浏览,同时这也可以作为检索的结果反馈给用户这丰富了检索结果的形式,这对于用户来说是极大的便利。

    其次,镜头聚类也是对视频数据的进一步压缩。虽然已经实现了利用镜头的关键帧来代表镜头,利用关键帧技术,实现对视频的处理,但是从图象访问的角度来看,数据量还是太大。假如一个故事场景可分成600~ 1500个镜头,那就是有600~1500个关键帧,如果一个连续剧有50集那至少也有3000~750000个关键帧。倘若我们再将这个连续剧的数字扩大到电视剧库,那也将会是一个庞大的数字,海量的关键帧,这对以后的视频描述和数据库处理都将是个难题。但是通过视频聚类可以实现,同属一个分类的关键帧实现聚类,缩小检索的范围,提高检索的效率。

    4. 3 视频检索的实现

    在实现了视频片断被分割成独立的镜头以后,只是完成了对视频片断的初步加工。我们还无法对镜头和关键帧进行检索,原因是还没有为之设置一个匹配的标准,这个时候需要我们提取视频片断的特征值并将特征值按标准进行描述,之后我们才能实现对视频的检索。

    4. 3. 1 提取特征值

    镜头是视频检索的最小单位。视频分割成镜头后,就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索的依据。

    视频数据的特征分为静态特征和动态特征

    ²  静态特征提取

    Ø  静态特征的提取主要针对关键帧,可以采用通常的图像特征提取方法,如提取颜色特征、纹理特征、形状和边缘特征等。由于数字图像处理的知识由于不是本文的重点所以不做阐述。

    ²  运动特征提取

    Ø  视频数据的运动特征,主要反映视频数据的时域变化,而且往往是用户检索时所能给出的主要内容,例如用户可能要求检索有变焦的视频片段,或者在监控系统中检索某个对象从画面上消失的关键帧。因而对视频数据进行特征提取必须研究其运动特征。由于运动特征无法从一幅静止图像中获得,故必须对视频序列进行分析。运动分析的方法有X 线断层分析,它把一个镜头的视频序列看成一个整体,通过对这个序列沿时间轴进行切片,从而得到x- t 切片图像和y- t 切片图像。然后分析切片图像,即可以得到镜头的运动情况。

    5 存在的问题及应用前景

    基于内容的视频检索系统能够使用户通过自己输入的视频特征来实现快速有效地浏览和播放视频文件,所以基于内容的视频检索系统有着极其巨大而且美好的应用前景。

    当前也存在着一些问题急需解决:

    (1)面向查询检索的特征提取与匹配[11]

    目前,基于特征检索的视觉信息提取受限于多媒体对象的底层特征:如图像的颜色、形状、纹理等, 动态视频内容的查询大部分只集中在运动对象形状、运动轨迹等运动特征这一层次的查询上, 这种建立在低级特征基础上的模型主要存在两个问题:1)查询过程不够直观, 对于初次接触该系统的人来说很难使用这种系统。他们更希望能避免使用特征来描述内容, 而直接用语义层次的查询方式。2)特征本是缺乏语义的, 所以即使对特征测度的良好匹配也不能保证检索结果会如用户所期望的那样。由于上述的原因, 系统的操作及其输出都和用户的查询要求以及对系统的期望有相当大的距离。

    (2)视频库的组织和索引

    多媒体信息是非结构化的,对这些非结构化的数据要结构化才能有效地进行利用。使视频数据从线性的无组织状态转化成容易进行高层处理的有组织的数据,对实现基于内容的检索至关重要。而目前的索引结构模型通常都是停留在对镜头提取关键帧或注释镜头的方法上。

    (3)确定一个客观的评价基于内容的视频检索系统的标准。

    我们知道任何一个系统都需要一个详尽的标准,进行合理地规范,但是目前的发展情况来看,视频检索系统还未形成一个可靠、通用的标准。

    (4)尽快实现视频描述的标准化、通用化、商品化

    在该技术在发展之期,希望视频的描述能够实现标准化,通用化。并且利用该技术实现商业上的运用,如前文提到的视链技术,根据目前的情况了解,我们知道投入视链广告的企业并不多,这也说明了该项技术并不是特别的完善,还需要我们进一步的研究和改进。

    参考文献:

    [1]孙树生,黄焱.基于内容视频信息检索系统的分析研究[M] 电视技术,2006:85~85

    [2]吕静.视频搜索精准竞速技术元年开启[DB/OL]. http://tech.qq.com/a/20120414/000080.htm

    [3]陈薇荔.海量视频检索离安防监控还有多远[DB/OL].http://www.cps.com.cn/secu/jsqy/2011/0929/2NMDAwMDI5MTQ2Ng.html

    [4]北京商报社多媒体数字报刊[DB/OL]. http://www.bjbusiness.com.cn/site1/bjsb/html/2012-03/30/content_170510.htm?div=-1

    [5]吴清华.视链广告打开视频营销新空间[DB/OL]. http://www.01ny.cn/article-175526-1.html

    [6]胡吉明.浅析基于内容的视频信息检索技术[M] 图书馆研究,2004

    [7]mini_smile.关键帧[EB/OL].http://baike.baidu.com/view/585654.htm

    [8]luoyi529.镜头[EB/OL]. http://baike.baidu.com/view/163723.htm

    [9]tingyu527.视频格式[EB/OL]. http://baike.baidu.com/view/2272.htm

    [10]杨有山,张秀丽.基于内容的视频信息检索[M] 自然科学出版社,2004

    展开全文
  • 信息检索系统——基于Lucene实现 题目要求 基于课程学习内容,实现简单的搜索引擎功能(界面可视化不做要求,可终端输出),要求实现以下基本功能: 拼写检查(参考最小编辑距离原理) 倒排索引 使用TF/IDF或者VSM...

    信息检索系统——基于Lucene实现

    题目要求

    基于课程学习内容,实现简单的搜索引擎功能(界面可视化不做要求,可终端输出),要求实现以下基本功能:

    1. 拼写检查(参考最小编辑距离原理)
    2. 倒排索引
    3. 使用TF/IDF或者VSM进行文档排序

    实现

    这里使用的是lucene-8.0.0,由于版本不同,网上很多博客的教程已经失效,具体的api参数或者调用要参考官网最新的手册,这里需要一定的搜索与查阅文档的能力。

    http://lucene.apache.org/core/8_0_0/core/

    项目完整源码:Github传送门

    下面只讲述部分关键的代码

    1.构建倒排索引

    • 这里利用IndexWriter类来构建索引,由于这里使用的是中文文档,故要使用分析中文的分析器SmartChineseAnalyzer.

    • 根据建立索引的目录以及数据的目录来读取。

    • 定义一个fieldType,并设置其属性,既保存在文件又用于索引建立

    • 读取 file 转 string

    • 用文件内容来建立倒排索引

    • 用文件名来建立倒排索引

    • 用文件路径来建立倒排索引

    public class Indexer {
       private IndexWriter writer;
       public Indexer(String indexDirectoryPath) throws IOException{
          // 获取目录directory
          Directory indexDirectory = FSDirectory.open(FileSystems.getDefault().getPath(indexDirectoryPath));
    
          // 中文分析器
          Analyzer analyzer = new SmartChineseAnalyzer();
          IndexWriterConfig config = new IndexWriterConfig(analyzer);
          writer = new IndexWriter(indexDirectory, config);
       }
    
       public void close() throws CorruptIndexException, IOException{
          writer.close();
       }
    
       private Document getDocument(File file) throws IOException{
          Document document = new Document();
          
           // 定义一个fieldType,并设置其属性,既保存在文件又用于索引建立
          FieldType fieldType = new FieldType();
          fieldType.setStored(true);
          fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS_AND_POSITIONS);
          
          // 读取 file 转 string
          StringBuffer buffer = new StringBuffer();
          BufferedReader bf= new BufferedReader(new FileReader(file));
          String s = null;
          while((s = bf.readLine())!=null){//使用readLine方法,一次读一行
              buffer.append(s.trim());
          }
    
          String xml = buffer.toString();
          // 用文件内容来建立倒排索引
          Field contentField = new Field(LuceneConstants.CONTENTS, xml,fieldType);
          // 用文件名来建立倒排索引
          Field fileNameField = new Field(LuceneConstants.FILE_NAME,file.getName(),fieldType);
          // 用文件路径来建立倒排索引
          Field filePathField = new Field(LuceneConstants.FILE_PATH,file.getCanonicalPath(),fieldType);
    	  
          // 添加到document
          document.add(contentField);
          document.add(fileNameField);
          document.add(filePathField);
    
          return document;
       }   
    
       private void indexFile(File file) throws IOException{
          System.out.println("Indexing "+file.getCanonicalPath());
          Document document = getDocument(file);
          writer.addDocument(document);
       }
       
        
       public int createIndex(String dataDirPath, FileFilter filter) 
          throws IOException{
          //get all files in the data directory
          File[] files = new File(dataDirPath).listFiles();
          
          int count = 0;
          for (File file : files) {
    //    	  System.out.println(file);
             if(!file.isDirectory()
                && !file.isHidden()
                && file.exists()
                && file.canRead()
                && filter.accept(file)
             ){
                indexFile(file);
                count++;
             }
          }
          return count;
       }
    }
    

    测试函数:

    public class LuceneTester {
    	
       String indexDir = "C:/Users/asus/Desktop/java/information-retrieval-system/index";
       String dataDir = "C:/Users/asus/Desktop/java/information-retrieval-system/data";
       Indexer indexer;
       
       public static void main(String[] args) {
          LuceneTester tester;
    //      File[] fs = new File("C:/Users/asus/Desktop/java/information-retrieval-system/data").listFiles();
    //      for (File f : fs){  
    //          System.out.println(f);  
    //      }  
          try {
             tester = new LuceneTester();
             tester.createIndex();
          } catch (IOException e) {
             e.printStackTrace();
          } 
       }
    
       private void createIndex() throws IOException{
          indexer = new Indexer(indexDir);
          int numIndexed;
          long startTime = System.currentTimeMillis();	
          numIndexed = indexer.createIndex(dataDir, new TextFileFilter());
          long endTime = System.currentTimeMillis();
          indexer.close();
          System.out.println(numIndexed+" File indexed, time taken: "
             +(endTime-startTime)+" ms");		
       }
    }
    

    输出结果:这里我们就已经建立好索引,并在文件目录能找到索引文件

    1

    文件目录中的索引:

    2

    2. 使用TF/IDF进行文档排序,并使用关键词搜索文档

    • 得到读取索引文件的路径
    • 通过dir得到的路径下的所有的文件
    • 设置为TF/IDF 排序
    • 实例化分析器
    • 建立查询解析器
    • 根据传进来的q查找
    • 开始查询
    public class ReaderByIndexerTest {
     
    	public static void search(String indexDir,String q)throws Exception{
    		
    		//得到读取索引文件的路径
    		Directory dir=FSDirectory.open(Paths.get(indexDir));
    		
    		//通过dir得到的路径下的所有的文件
    		IndexReader reader=DirectoryReader.open(dir);
    		
    		//建立索引查询器
    		IndexSearcher is=new IndexSearcher(reader);
    		
    		// 设置为TF/IDF 排序
    		ClassicSimilarity sim = new ClassicSimilarity();
    		// Implemented as sqrt(freq).
    		// sim.tf(reader.getSumDocFreq(q));
    		
    		// Implemented as log((docCount+1)/(docFreq+1)) + 1.
    		// sim.idf(reader.getSumDocFreq(q), reader.numDocs());
    		is.setSimilarity(sim);
    		// 实例化分析器
    		Analyzer analyzer=new SmartChineseAnalyzer(); 
    		
    		// 建立查询解析器
    		/**
    		 * 第一个参数是要查询的字段;
    		 * 第二个参数是分析器Analyzer
    		 * */
    		QueryParser parser=new QueryParser("contents", analyzer);
    		
    		// 根据传进来的q查找
    		Query query=parser.parse(q);
    
    		// 计算索引开始时间
    		long start=System.currentTimeMillis();
    		
    		// 开始查询
    		/**
    		 * 第一个参数是通过传过来的参数来查找得到的query;
    		 * 第二个参数是要出查询的行数
    		 * */
    		TopDocs hits=is.search(query, 10);
    		
    		// 计算索引结束时间
    		long end=System.currentTimeMillis();
    		
    		System.out.println("匹配 "+q+" ,总共花费"+(end-start)+"毫秒"+"查询到"+hits.totalHits+"个记录");
    		
    		//遍历hits.scoreDocs,得到scoreDoc
    		/**
    		 * ScoreDoc:得分文档,即得到文档
    		 * scoreDocs:代表的是topDocs这个文档数组
    		 * @throws Exception 
    		 * */
    		for(ScoreDoc scoreDoc:hits.scoreDocs){
    			Document doc=is.doc(scoreDoc.doc);
    			System.out.println(doc.get(LuceneConstants.FILE_PATH));
    		}
    		
    		//关闭reader
    		reader.close();
    	}
    

    3. 拼写检查

    • 建立目录
    • 创建初始化索引
    • 根据创建好的索引来检查k个建议的关键词
    • 返回正确的关键词
    public static String[] checkWord(String queryWord){
    		//新索引目录
    		String spellIndexPath = "C:\\Users\\asus\\Desktop\\java\\information-retrieval-system\\newPath";
    		//已有索引目录
    		String oriIndexPath = "C:\\Users\\asus\\Desktop\\java\\information-retrieval-system\\index";
    
    		//拼写检查
    		try {
    			//目录
    			Directory directory = FSDirectory.open((new File(spellIndexPath)).toPath());
    
    			SpellChecker spellChecker = new SpellChecker(directory);
    
    			// 以下几步用来初始化索引
    			IndexReader reader = DirectoryReader.open(FSDirectory.open((new File(oriIndexPath)).toPath()));
    			// 利用已有索引
    			Dictionary dictionary = new LuceneDictionary(reader, LuceneConstants.CONTENTS);
    			
    			IndexWriterConfig config = new IndexWriterConfig(new SmartChineseAnalyzer());
    			spellChecker.indexDictionary(dictionary, config, true);
    			
    			int numSug = 5;
    			String[] suggestions = 
                    spellChecker.suggestSimilar(queryWord, numSug);
    			reader.close();
    			spellChecker.close();
    			directory.close();
    			return suggestions;
    		} catch (IOException e) {
    			// TODO Auto-generated catch block
    			e.printStackTrace();
    		}
    		return null;
    	}
    

    4. 综合测试

    这里调用之前实现好的基类和工具类,并制作简陋的命令行界面来进行信息检索

    //测试
    	public static void main(String[] args) throws IOException {
    		String indexDir="C:\\Users\\asus\\Desktop\\java\\information-retrieval-system\\index";
    		// 处理输入
    		BufferedReader br = new BufferedReader(new InputStreamReader(System.in)); 
            String str = null; 
            System.out.println("请输入你要搜索的关键词:"); 
            try {
    			str = br.readLine();
    			System.out.println(); 
    		} catch (IOException e1) {
    			// TODO Auto-generated catch block
    			e1.printStackTrace();
    		}
            // 拼写检查
            String temp = str;
            String[] suggestions = checkWord(str);
            if (suggestions != null && suggestions.length != 0){
                System.out.println("你可能想输入的是:"); 
            	for(int i = 0; i < suggestions.length; i++){
    		        System.out.println((i+1) + " : " + suggestions[i]); 
    			}
    
                System.out.println("请选择上面的一个正确的关键词(输入 1 ~ 5),或继续原词(输入0)进行搜索:"); 
                str = br.readLine();
    			System.out.println(); 
                if (str != "0"){
                	str = suggestions[str.charAt(0) - '1'];
                }
                else{
                	str = temp;
                }
            }
    		
    		try {
    			search(indexDir,str);
    		} catch (Exception e) {
    		    // TODO Auto-generated catch block
    		     e.printStackTrace();
    		}
    	}
    

    测试结果:

    3

    测试用例1解析:

    这里我输入一个错误的关键词美利坚共和国,试图进行搜索,然后系统马上就会告诉我拼写检查的结果让我重新选择。

    重新选择后会输出美利坚合众国的正确查询结果

    4

    测试用例2解析:

    这里直接输入一个正确的存在的关键词,就会直接输出美利坚合众国的正确查询结果,不会出现拼写检查的提醒

    展开全文
  • 自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴 教程在最底下 代码: 建索引:   搜索:                       bensonrachel简书教程...

     自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴

    教程在最底下

    代码:

    建索引:

     

    搜索:

     

     

     

     

     

     

     

     

     

     

     

    bensonrachel简书教程

    展开全文
  • 领域知识库构建及信息检索系统

    千次阅读 2019-05-07 17:38:13
    调用信息抽取模块和信息去噪模块,提取语料库中pdf、doc、ppt、html、excel、txt及专利等文件中的内容信息,并将抽取的信息进行去噪处理,去除标签、乱码、页眉和页脚等无用信息,同时确保有用信息被完整...
  • 信息检索复习笔记

    万次阅读 2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索?信息过载 搜索 搜索的过程 从大规模非结构化数据...
  • 1.全文检索搜索与分类目录搜索 万维网是一个大规模的、联机式的信息储藏所。那么,应当采用什么方法才能找到所需的信息呢?如果已经知道存放该信息的网点,那么只要在浏览器的地址(Location)框内键入该网点的URL和...
  • 文章来源:http://liyazi.bokee.com/6927293.html根据设计目的和使用用途的不同,文本...实验系统由于文本信息检索系统非常复杂,所涉及的技术很多,因此,如果每个研究者都自己开发一个完整的检索系统则是相当困难的
  • 读《信息检索系统导论》

    千次阅读 2008-11-26 15:51:00
    读《信息检索系统导论》 随着因特网的日益普及,它已经渗透到我们生活的各个角落,改变着我们的生活方式和思维方式。搜索引擎作为人们使用因特网的重要入口,引起人们广泛的重视和关注。尤其是以谷歌和百度为代表的...
  • 信息检索目录

    2019-10-30 18:16:16
    第五章 文摘索引信息检索系统 第六章 全文检索技术和全文检索系统 第七章 引文检索方法和评价功能 第八章 专业学/协会信息检索系统 第九章 电子图书信息检索系统 第十章 特种文献检索系统 第十一章 专利文献信息检索...
  • 设计并实现一个航班信息查询和检索系统。要求:对飞机航班信息进行排序和查找,可按照航班号、起点站、到达站、起飞时间和到达时间等信息进行查询。航班信息表的样式如下: 航班号 起点站 终点站 班期 ...
  • 医药信息检索

    2020-04-22 19:47:03
    医药信息检索 5.8.1 主要医药检索工具及其发展 1.医药信息检索概况 2.主要医药信息检索工具简介 5.8.2 美国《医药索引》与PubMed数据库 1.美国《医学索引》(Index Medicus,简称IM) ①美国《医学索引》概况 ...
  • 深圳大学公文通简易检索系统

    千次阅读 2017-07-18 14:22:24
    该系统是对深圳大学公文通的检索系统的简单实现,既然是简单实现,也就说只实现了初始的功能,现在暂时只能对一个月的公文通进行检索,而且是系统初始化时所抓取的数据。之后时间会不断让系统升级,使得可以实时...
  • 自己开发网站全文检索系统

    千次阅读 2016-01-11 20:43:19
    - 原文: 自己开发网站全文检索系统(Nob) - 本文永久更新链接,markdown格式源码 Github: Aidan Dai 概述 1 问题提出 2 解决的办法 全文检索系统设计与实现策略 1 系统的架构 2 模块设计 3 系统整体运作流程 实验...
  • 信息检索专题复习

    万次阅读 2017-06-20 16:06:49
    信息检索复习重点,山东大学信息检索考前独家整理资料。
  •  基于内容的检索作为一种信息检索技术,接入或嵌入到其他多媒体系统中,提供基于多媒体数据库的检索体系结构。  基于内容的检索系统分为两个子系统,分别为特征抽取系统和查询子系统。   系统包括如下功能模块...
  • 第五章 信息法与综合性信息检索 目录: 5.1 信息法概述 5.1.1 信息法的概念 从广义上讲,信息法是调整信息活动中产生的各种社会关系的法律规范的总称。 一般来说,信息法由信息资源管理法、政府信息公开法、信息...
  • 文章目录信息的含义信息的特征信息的功能信息的类型互联网对信息的影响网络环境下信息的新特点信息检索的原理信息检索的类型信息检索的意义/作用信息检索的历程信息检索系统信息检索方法信息检索效果影响信息检索...
  • 网络信息检索

    千次阅读 2020-01-15 19:46:06
    《网络信息检索》课程笔记
  • 信息检索的评价指标

    万次阅读 2016-03-03 17:13:58
    信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下...
  • 基于内容的图像检索系统(合集)

    万次阅读 2013-10-09 19:24:29
    基于内容的图像检索,即CBIR(Content-based image retrieval),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。...本文是Wiki上统计的当前主要的基于内容的图像检索系统。 商业图像搜索引擎:
  • 检索系统的下游管理

    千次阅读 2010-09-30 11:01:00
      检索系统的下游管理 腾讯soso文/黄达文、雷冬冬 <br />  搜索引擎的检索系统,是一个复杂的分布式计算系统,往往需要成百上千台机器通过网络连接协同工作,处理用户的检索请求。...
  • 信息检索评价指标

    千次阅读 2018-07-19 23:06:41
    信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下...
  • 信息检索有广义、狭义之分 • 广义信息检索:信息存储与检索两个过程。 • 狭义信息检索:仅指从检索工具或数据库中准确的检出信息这一过程,即信息查找的过程 4.1.1 信息检索的含义 1.狭义的信息检索(Information ...
  • 面向机器翻译的全文检索系统

    千次阅读 2005-04-09 22:34:00
    面向机器翻译的全文检索系统 摘 要:本文介绍了面向机器翻译的全文检索系统的设计和实现,该系统在实现倒排档存 储结构和布尔逻辑检索、位置检索、检索相关性排序等普通全文检索系统功能的基础上 ,提供面向机器翻译...
  • 学会使用一个信息检索系统完成给定的信息检索任务,包括创建索引、选择检索模型并设置参数、评价检索结果等等。 二、实验描述 使用一个信息检索系统,例如Galago、Elastic Search、Terrier、Anserini等,完成TREC ...
  • 转自:http://www.lucene.com.cn/about.htm一、 什么是全文检索与全文检索系统? 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 244,481
精华内容 97,792
关键字:

信息检索系统的功能有哪些