精华内容
下载资源
问答
  • #简单信息检索系统 (SIRS) 简单信息检索系统是圣母大学数据科学组的产品。 这个项目的重点是提供一个教育搜索引擎系统,它强调速度和效率的解释。 随着系统的开发,将提供更多信息。 #组件 与任何生产质量的搜索...
  • 兽人系统信息 姓名 徽章 聊天 资料下载 稳定版 不稳定版本 该库用于从计算机检索系统信息详细信息。 有关文档,请访问
  • 信息检索系统 利用倒排索引和向量空间模型实现的信息检索系统。 完成工作: 带位置信息的倒排索引 转化空间模型 TOP K查询 BOOL查询 初步查询 拼写矫正 名词查询 拼写矫正(以下) 运行 环境要求:python3 在初次...
  • 领域知识库构建及信息检索系统

    千次阅读 2019-05-07 17:38:13
    系统源码及原文免费下载地址请访问:www.54manong.com 一、系统简介 通过对网络爬虫工具的设置并扩展,自动抓取行业领域资料,或通过语料管理模块上传领域相关资料,形成语料库。调用信息抽取模块和信息去噪模块,...

    系统源码及原文免费下载地址请访问:www.54manong.com

    一、 系统简介

    通过对网络爬虫工具的设置并扩展,自动抓取行业领域资料,或通过语料管理模块上传领域相关资料,形成语料库。调用信息抽取模块和信息去噪模块,提取语料库中pdf、doc、ppt、html、excel、txt及专利等文件中的内容信息,并将抽取的信息进行去噪处理,去除标签、乱码、页眉和页脚等无用信息,同时确保有用信息被完整保留。在完成语料预处理后进行知识挖掘,首先基于领域词典,对去噪处理后的信息进行分词、词汇统计分析,最终找出领域单词概念和组合概念,同时记录语料中包含领域概念的语句,并基于规则抽取核心语句中领域概念间的关系,通过本体的推理,形成此文档的概念知识关系网,并保存为xml语法格式,存入数据库。在此基础上通过对识别的领域概念和核心语句的精炼,提取出文档的关键词(1-3个)和摘要信息(3句左右)。基于关键词和摘要信息对文档进行自动分类,并在以后信息更新时,保持聚类结果的相对稳定。分析完相关的语料资料后,生成整个网站的概念知识网,并将挖掘出的知识建立语义索引库。

    用户使用该系统时,支持目录导航、相关概念、扩展概念和语义查询。目录导航:显示系统自动聚类的特定领域的层次结构信息,每个节点后显示节点下的网页或文档资源的个数,并支持图形化显示。语义查询:支持用户对关键词、词组和简单语句的查询,通过本体推理查询,形成语义查询检索式,返回语义索引库中的相关信息,同时通过本体推理,找出相关概念和扩展概念并能显示出来。

    二、 系统架构图

    image.png

    图1、系统架构图

    三、 系统数据处理流程图

    image.png

    图2、系统主要模块间关系图

     

    image.png

    图3、语义索引库构建流程图

    image.png

    图4、信息检索数据流程图

     

    四、 系统模块设计

    编号

    名称

    人员分配

    备注

    G20111025F01

    系统页面开发

     

    设计并开发

    G20111025F02

    网络爬虫

     

    升级完善

    G20111025F03

    信息提取

     

    重点

    G20111025F04

    信息去噪

     

    难点

    G20111025F05

    智能分词

     

    升级完善

    G20111025F06

    领域概念识别

     

    重点

    G20111025F07

    概念间关系抽取

     

    重点、难点

    G20111025F08

    文档关键词抽取

     

    重点、难点

    G20111025F09

    文档自动摘要

     

    重点、难点

    G20111025F10

    文档自动分类

     

    重点、难点

    G20111025F11

    语料管理模块

     

    工作量较大

    G20111025F12

    知识提取库

     

    重点、难点

    G20111025F13

    语义索引库

     

    重点、难点

        

    编号

    名称

    人员分配

    备注

    L20111025S1

    信息检索模块

     

    升级完善

    L20111025S2

    检索结果优化

     

    升级完善

    L20111025S3

    网状信息可视化显示

     

    重点

    L20111025S4

    统计信息可视化显示

     

    重点

        

    编号

    名称

    人员分配

    备注

    L20111025Y1

    互联网资源

     

    较简单

    L20111025Y2

    领域词典

     

    工作量较大

    L20111025Y3

    领域本体

     

    重点

    L20111025Y4

    目录导航体系

     

    难点、要点

        

    五、 系统各模块具体分工情况

    (1) 系统页面开发

    编号

    G20111025F01

    模块

    系统页面开发

    描述

    系统操作的平台

    功能

    合理布局,设置系统各项功能相应按钮、信息展示框。

    整体布局拟采用左、中、右三栏结构,主要栏目包括:语义检索、资源分布图、本体知识图等。

    格式

     

    存储

     

    输出

     

    接口

     

    难点

     

    分工

    贾婷负责搜集、调研互联网同类网站(包括相关智能搜索引擎、专家系统和行业重要网站),栾勇设计首页整体布局和栏目设置,最终在doc中采用表格或其他形式描述出来。


    (2) 网络爬虫

    编号

    G20111025F02

    模块

    网络爬虫

    描述

    对Heritrix网络爬虫工具的功能进行合理扩展利用。

    功能

    扩展升级已有网络爬虫工具,比如添加能够抓取特定前缀的URL、抓取含有特定关键字的网页等功能。 

    格式

     

    存储

     

    输入

    起始网址、摘要、前缀、关键词、抓取链接层数、抓取时间、抓取网页个数、抓取全部或只抓取更新等等

    输出

    抓取的互联网网页信息

    接口

     

    难点

     

    分工

     

    备注

    更新抓取时为识别信息是否为新信息,需要在知识提取库或索引库设置相应字段记录。


    (3) 信息提取

    编号

    G20111025F03

    模块

    信息提取

    描述

    提取网络爬虫抓取的各类网页文件和doc、docx、pdf、ppt、txt等文本文件内容。注意调用pdf文件内容提取程序(已有)时,当pdf为扫描版或软件识别版,可能会出错,要找出原因,同时注意当文档内容分栏或有插图、插表时的提取结果,设法提高准确性。

    功能

     

    格式

     

    存储

     

    输入

     

    输出

     

    接口

     

    难点

     

    分工

     


    (4) 信息去噪

    编号

    G20111025F05

    模块

    信息去噪

    描述

    去除抽取信息中的干扰字符,同时尽量确保有用信息完整保留

    功能

    实现信息去噪算法,归纳总结各种类型文件抽取内容的特点,以句子为单位,去除空格、页眉、页脚、页码、乱码和其他杂乱符号;归纳总结并识别出文件中各级标题的特点 

    格式

     

    存储

     

    输入

    文件内容抽取结果

    输出

    以句子为单位输出

    接口

     

    难点

    去噪算法

    分工

     

    备注

    去噪算法应当多花时间,防止过多有用信息也被去除。


    (5) 智能分词

    编号

    G20111025F04

    模块

    智能分词

    描述

    分析JE分词工具、庖丁解牛分词工具、Lucene自带分词工具、哈工大分词工具和中科院计算所分词工具的优缺点,选定适合该系统的分词工具。系统运行时不需要更新用户自定义词典,但需支持扩展词性(用于标识词是否为领域概念),初步考虑选用JE分词工具(考虑分词工具是否免费、有效期等因素)。

    功能

    分词工具有多个函数可以调用:快速分词(只分词)、全功能分词(分词、词性、关系)等,如果需要多次调用,需选择合适的分词函数。

    格式

     

    存储

     

    输入

    信息去噪结果:以句为单位。

    输出

    多维向量:词、词性、本体角色、在句子中与其他词的关系等等。

    接口

     

    难点

    处理好分词与去噪的先后关系,提高准确率。

    分工

     

    备注

    注意本体半自动构建系统中分词和信息去噪的先后关系,有可能先去噪后分词,或者交叉进行,考虑那种方式准确率高。


    (6) 领域概念识别

    编号

    G20111025F06

    模块

    领域概念识别

    描述

    基于智能分词中扩展词性标识,识别领域概念,并记录包含领域概念的句子,用于概念间关系抽取。

    功能

     

    格式

     

    存储

     

    输入

    文件中所有句子的分词结果:多维向量

    输出

    文件中的领域词汇(包括本体中的关系词汇)

    接口

     

    难点

    组合领域概念、自定义领域词典中未收录的领域概念识别;

    本体中动词属性关系词的识别抽取

    分工

     


    (7) 概念间关系抽取

    编号

    G20111025F07

    模块

    概念间关系抽取

    描述

    基于HOWNET对输入的概念进行相似度计算,并通过聚类算法聚类,最终提取出概念间关系。

    功能

     

    格式

     

    存储

     

    输入

    句子、带句法分析的分词结果、领域概念识别结果

    输出

    概念间关系三元组    xml语法格式字符串

    接口

     

    难点

    注意概念间关系冗余的处理。

    分工

     

    备注

    选用较好的聚类算法并比较结果


    (8) 文档关键词抽取

    编号

    G20111025F08

    模块

    文档关键词抽取

    描述

    基于领域概念识别结果,参考统计等关键词抽取算法,提取2至4个最能体现文档主题的词语。

    功能

     

    格式

     

    存储

     

    输入

    领域概念识别结果

    输出

    1至3个领域关键词

    接口

     

    难点

    高效准确的关键词抽取算法

    分工

     


    (9) 文档自动摘要

    编号

    G20111025F09

    模块

    文档自动摘要

    描述

    基于分词结果和领域概念识别结果,以句为单位计算每句中领域概念出现次数,选择2至4句出现领域概念最多的句子作为文档摘要。

    功能

     

    格式

     

    存储

     

    输入

    分词结果和领域概念识别结果

    输出

    2至4句文档摘要

    接口

     

    难点

    研究寻找准确性较好的自动摘要算法。

    分工

     


    (10) 文档自动分类

    编号

    G20111025F10

    模块

    文档自动聚类

    描述

    基于文档中识别出的领域词汇并重点考虑文档的关键词,根据词汇出现频率,设置一定的权重,映射到导航目录体系中,每篇文档可以映射体系中多个节点。

    功能

     

    格式

     

    存储

     

    输入

    领域词汇识别结果和关键词提取结果

    输出

    映射到目录导航体系中的节点

    接口

     

    难点

    高效遍历和映射算法

    分工

     


    (11) 语料管理模块

    编号

    G20111025F11

    模块

    语料管理模块

    描述

    提供对网络抓取资料和用户上传资料的目录导航,能够查看资料容量、抓取时间、网址等信息。

    功能

     

    格式

     

    存储

     

    输入

     

    输出

     

    接口

     

    难点

    可以将存储目录记录在数据表中,通过访问数据库实现查看。

    分工

     


    (12) 知识提取库

    编号

    G20111025F12

    模块

    知识提取库

    描述

    记录网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等所有模块处理的结果信息。

    功能

     

    格式

     

    存储

     

    输入

    网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等所有模块处理的结果信息

    输出

    数据库

    接口

     

    难点

     

    分工

     


    (13) 信息检索模块

    编号

    L20111025S1

    模块

    信息检索模块

    描述

    依据信息检索数据处理流程图,实现相应功能

    功能

     

    格式

     

    存储

     

    输入

    用户查询关键词或查询语句

    输出

    用户需要的相关信息

    接口

     

    难点

    提高信息检索的效率

    分工

     


    (14) 检索结果优化

    编号

    L20111025S3

    模块

    检索结果优化

    描述

    对用户查询返回的结果依据相关性进行优化排序

    功能

     

    格式

     

    存储

     

    输入

    用户查询输入和每条返回结果的领域概念、关键词、摘要等信息

    输出

    每条返回结果的查询相关性权值。

    接口

     

    难点

    优化排序算法

    分工

     


    (15) 网状信息可视化显示

    编号

    L20111025S4

    模块

    网状信息可视化显示

    描述

    当用户鼠标移至查询结果列表中每条信息的“图形预览”图标上时,读取记录该条文档信息中概念及关系的xml格式数据,调用信息可视化工具,显示该条记录的概念关系图。另外,通过该模块可以图示化展示本体结构和目录导航结构。

    功能

     

    格式

     

    存储

     

    输入

    xml格式数据

    输出

    动态结果图

    接口

     

    难点

    解决节点太多、太少时图形显示的美观问题。图形中节点文字要清晰,节点太多时,合理省略节点。

    分工

     


    (16) 统计信息可视化显示

    编号

    L20111025S5

    模块

    统计信息可视化显示

    描述

    使用饼状图、柱状图、折线图展示系统中相关统计信息,如目录导航体系中各节点资源数量、用户查询命中数量,以及其他与系统实际应用中相关的统计信息。

    功能

     

    格式

     

    存储

     

    输入

    相关统计数据

    输出

    相关统计图形

    接口

     

    难点

     

    分工

     


    (17) 互联网资源

    编号

    L20111025Y1

    模块

    互联网资源

    描述

    通过调研查找互联网上领域相关的门户网站信息,用于网络爬虫信息抓取来源。

    功能

     

    格式

     

    存储

     

    输入

     

    输出

    网址、网名、介绍

    接口

     

    难点

     

    分工

     


    (18) 领域词典

    编号

    L20111025Y2

    模块

    领域词典

    描述

    通过调研收起领域相关词汇,构建领域自定义词典。

    功能

     

    格式

     

    存储

     

    输入

     

    输出

    领域自定义词典。

    接口

     

    难点

     

    分工

     


    (19) 领域本体

    编号

    L20111025Y3

    模块

    领域本体

    描述

    通过不断收集领域主题词、领域概念,不停地完善领域本体。

    功能

     

    格式

     

    存储

     

    输入

     

    输出

     

    接口

     

    难点

     

    分工

     


    (20) 目录导航体系

    编号

    L20111025Y4

    模块

    目录导航体系

    描述

     

    功能

    显示系统自动聚类的行业领域的层次结构信息,每个节点后显示节点下的网页资源个数。目录导航体系的前两层需要人手工设计,参考领域本体层次架构体系,并且要同时考虑行业用户的需求。每一个资源根据提炼出的关键词和摘要信息进行映射,可以同属于目录体系的多个节点。

    格式

     

    存储

     

    输入

     

    输出

     

    接口

     

    难点

     

    分工

     

    重要名词:

    相关概念:与用户查询输入关键词相关的概念。

    扩展概念:用户输入关键词在本体中的上下位概念。

    本体知识图:显示本体结构、层次关系、属性关系。

    资源分布图:图形化显示系统自动聚类的结果。

    Web知识图:图形化预览各条搜索结果信息的知识图。

    文档知识图:图形化显示系统上传文档的知识结构图。

        统计分析图:采用饼状图、柱状图和折线图显示系统聚类体系中各节点资源比例、系统新增资源比例、查询结果中各节点资源比例等等。

    来源:我是码农,转载请保留出处和链接!

    本文链接:http://www.54manong.com/?id=1260

    '); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();

    '); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();

    展开全文
  • 文章来源:http://liyazi.bokee.com/6927293.html根据设计目的和使用用途的不同,文本...实验系统由于文本信息检索系统非常复杂,所涉及的技术很多,因此,如果每个研究者都自己开发一个完整的检索系统则是相当困难的

    文章来源:http://liyazi.bokee.com/6927293.html


    根据设计目的和使用用途的不同,文本信息检索系统可以分为两大类:一类是以技术研究为目的,供研究者使用的实验系统;另一类是供普通用户使用的实用系统,其中使用最广泛的就是WWW搜索引擎。

    实验系统

    由于文本信息检索系统非常复杂,所涉及的技术很多,因此,如果每个研究者都自己开发一个完整的检索系统则是相当困难的,并且也没有必要。事实上,已经有不少很完善的实验系统出现,研究者可以利用它们进行研究,其中很多系统都可免费使用,有些甚至提供源代码和完善的文档,让使用者可以很方便地实现自己的算法。

    1.Smart系统(http://ftp.cs.cornell.edu/pub/smart/)

    Smart系统是最著名的、使用者最多的实验系统之一。其原因一方面是它的历史比较长,另一方面是它的使用是免费的,且可下载源代码,使研究者使用起来非常方便。Smart系统由美国康奈尔大学研发,最初的研发工作由Gerard Salton教授领导,并在20世纪80年代初开发出第一个版本。目前其维护工作由Chris Buckley负责,最新的版本是Smart11。

    开发Smart系统的目的是为了给文本信息检索技术的研究者提供一个完善的实验平台。在这一思想指导下,Smart实现了一个完整的基于向量空间模型的文本信息检索系统,不过目前只能处理英文文档。利用Smart,用户可以对一组文档建立索引,然后即可对给出的问询(query)返回检索结果,并对结果进行评价。同时,它包括去除stopwords(stopwords列表可由用户指定)、去除词形变化(stemming)、weighting计算等子功能模块。用户可以根据自己的需要分别调用。不过,由于其设计年代较早,Smart系统存在一个很大的缺点,即只能处理大约500MB以下的文档集合,这使它在数据量达到10GB以上的TREC Web Track这样的问题时显得力不从心。Smart系统的另一个不足之处是缺乏良好的文档,使用者常常需要自己摸索使用方法。

    2.Okapi系统(http://www.soi.city.ac.uk/~andym/OKAPI-PACK/index.html)

    Okapi是另一个著名的文本检索实验系统。其第一版于20世纪80年代末问世,运行在Unix系统上。时至今日,经过10多年的发展,Okapi系统越来越健壮,检索精确度也越来越高。近几年,在TREC比赛中,有不少参加者采用Okapi系统取得了很好的成绩。不过,Okapi系统不是免费的,并且不提供源代码。目前,该系统可运行在Sun工作站、Linux系统以及Windows系统平台上。

    Okapi系统是由伦敦城市大学开发的。它基于概率检索模型设计,使用著名的bm25公式及其变形(bm2500、bm250)等作为求term 权值的公式。这种权重计算公式在概率模型中已经成为公认的成熟的标准计算方法。Okapi同样提供建立索引和查询的工具,分别有命令行方式和图形界面方式。

    3.Lemur Toolkit系统(http://www-2.cs.cmu.edu/~lemur/)

    Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学(CMU)开发,在2001年公布了第一个公开的版本。其特点是在检索中引入了语言模型,更重要的是,它不仅是一个完整的检索系统,而且是以工具包的形式提供的。各功能模块都有良好的封装,并提供清晰的源代码和丰富的文档说明,研究者使用它搭建自己的实验系统易如反掌。

    Lemur Toolkit的设计目标是促进和帮助在文本信息检索和语言模型方面的研究,包括特定目标检索、分布式检索、跨语言检索、文摘系统、信息过滤和文本分类等各方面技术的研究。工具包支持对大规模文本数据建立索引,对文档和查询构建简单的语言模型,同时实现了基于语言模型的检索系统。整个系统用C和C++语言实现,可在Unix和Windows系统下运行。 

     

     

    展开全文
  • 网络信息检索

    2018-12-17 17:05:53
    网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。
  • 信息检索复习笔记

    万次阅读 多人点赞 2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索?信息过载 搜索 搜索的过程 从大规模非结构化数据...

    第一讲 搜索

    IR(信息检索是什么样的学科)

    实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科

    为什么要进行信息检索?信息过载

    搜索

    搜索的过程

    从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程

    信息检索的本质

    确定文档和查询之间的相关度是IR的核心问题

    IR作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)的一门学问

    信息检索本质:给定一个查询Q,从文档集合C中,计算每篇文档DQ相关度,并排序(Ranking)

    什么是相关度

    相关度是一个查询和文档相关的程度,形式上说,信息检索中的相关度是一个**函数*f*,**输入是查询Q、文档D和文档集合C,返回的是一个实数值 R, R = f(Q,D,C)

    相关度(relevance)不同于相似度(Similarity):

    ​ 相关度通常只有相对意义

    ​ (1)相关取决于用户的判断,是一个主观概念

    ​ (2)不同用户做出的判断很难保证一致

    ​ (3)即使是同一用户在不同时期、不同环境下做出的判断也不尽相同

    定义“相关性”的两个角度:(了解)

    系统角度:系统输出结果,用户是信息的接受者。

    用户角度:观察用户对检索结果的反应,是系统输出向用户需求的投射

    现代信息检索研究中仍然主要采用系统角度定义的主题相关性概念,当然也强调考虑用户的认知因素

    信息检索模型

    描述信息检索中的文档、查询和它们之间关系(匹配函数)的数学模型

    信息检索主要技术

    (1)文本分析(NLP)

    (2)建立索引

    (3)查询,包括查询分析(NLP),相关度计算(和信息检索模型相关)

    (4)排序(实验室评价)

    搜索引擎

    工作原理

    (1) 爬行和抓取

    (2) 文本分析

    (3)建立索引(可能会考的知识点:蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index).搜索引擎的核心数据结构为倒排文件(也称倒排索引))

    (4)搜索词处理 (5)排序 (6)用户反馈

    搜索引擎评价

    (1) 覆盖面 (2)更新周期 (3)响应速度 (4)排序结果是否满足用户的查询要求

    第二讲 网络爬虫技术

    爬虫定义

    一种自动获取网页内容的程序,从一个或若干初始网页的**URL开始,获取并解析它们,提取它们指向的URL,将提取的url放在队列中,获取队列中的每个URL并重复此过程,直到满足系统的一定停止条件**

    通俗的讲,也就是通过HTML源码解析来获得想要的内容

    爬虫必须具有的功能

    4.1 礼貌性: Web服务器有显式或隐式的策略控制爬虫的访问

    只爬允许爬的内容、尊重 robots.txt

    4.2 鲁棒性: 能从采集器陷阱中跳出,能处理Web服务器的其他恶意行为

    4.3 性能和效率: 充分利用不同的系统资源,包括处理器、存储器和网络带宽

    优先抓取“有用的网页”

    4.4 分布式: 可以在多台机器上分布式运行

    ​ •分布式带来的问题

    ​ –哈希表判重

    ​ •解决方法:

    ​ –A、明确每台下载服务器的分工,即一看到某个URL就知道交给哪台服务器去执行

    ​ –B、批量处理,减少通信的次数

    可扩展性: 添加更多机器后采集率应该提高

    4.5 新鲜度: 对原来抓取的网页进行更新

    4.6功能可扩展性:支持多方面的功能扩展,例如处理新的数据格式、新的抓取协议等

    爬取框架

    3、搜索策略:深度优先, 广度优先

    ​ 实际应用的网络爬虫不是对网页次序的简单BFS或者BFS,而是一个相对复杂的下载优先级排序的方法,管理这个系统的叫做“调度系统”(Scheduler),会有一个Priority Queue。BFS成分更加多一些。

    4、URL 判重

    建立一个散列,其中存放访问过每一个网址

    在其中存放网址经过散列函数计算出的对应的固定长度的散列值

    在平均情况下**O(1)**的时间内查找和更新占用O(n)空间的网址列表

    利用哈希法,URL经过哈希函数得到哈希码,判断是否已经在散列中来判断是否爬取过

    爬虫分类

    •5.1基于整个Web的信息采集(Universal Web Crawling)

    ​ •传统的采集方式

    ​ –作为门户搜索引擎和大型的Web服务提供商的数据收集部分

    ​ –是指从一些种子URL扩充到整个Web的信息采集

    •5.2 增量式Web信息采集 (Incremental Web Crawling )

    •5.3 基于主题的Web信息采集(Focused Web Crawling )

    •5.4 基于用户个性化的Web信息采集(Customized Web Crawling )

    •基于元搜索的信息采集(Metasearch Web Crawling)

    常见的开源爬虫

    Nutch Heritrix

    •包括全文搜索和Web爬虫

    ​ –包括爬虫crawler和查询searcher。

    ​ •Crawler主要用于从网络上抓取网页并为这些网页建立索引。

    Pandas模块

    lxml模块

    lxml是一个HTML/XML的解析库

    •主要功能是如何解析和提取HTML/XML数据

    第三讲 网页分析技术

    网页解析方法

    –一种是将文档看作字符流;

    •正则表达式

    –一种是将文档看作树结构

    •基于DOM

    正则表达式

    1、正则表达式的定义

    正则表达式是对**字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。**

    2、基于正则表达式的信息提取的步骤

    (1)在获取数据前应尽量去除无用部分(2)提取网页内的链接 (3)提取网页标题(4)提取网页内的文本

    3、正则表达式的工具有哪些

    Java java.util.regex包 Python的 re模块

    4、正则表达式匹配特点是什么

    (1)正则表达式匹配速度快

    (2)但表达能力较弱,只具有正规文法的表示能力。

    (3)在对网页内容的信噪比要求不高的情况下可以使用基于正则表达式匹配的爬取程序

    (4)受网页噪音影响较大

    DOM

    5、什么叫做DOM

    文档对象模型(document object model,DOM),DOM将一个XML文档转换成一个对象集合,然后可以任意处理该对象模型。

    DOM将HTML视为树状结构的元素,所有元素以及他们的文字和属性可通过DOM树来操作与访问。

    6、开源HTML解析器(能够列出一两种即可)

    (1)JAVA:HTMLParser,jsoup

    (2)C/C++:htmlcxx

    (3)Python:Beautiful Soup

    bs 解析器

    –使用自带的html.parser解析,

    ​ •速度慢但通用

    ​ •soup = BeautifulSoup(html, “html.parser”)

    –Html5lib

    ​ •不规范的html文本转为规范的文本再进行解析

    ​ 用浏览器的方式解析文档

    –lxml

    ​ •python的一个解析库,

    ​ •支持HTML和XML的解析,

    ​ •支持XPath解析方式

    ​ •而且解析效率非常高

    ​ •lxml只会局部遍历

    两种方法比较

    正则表达式匹配

    (1)正则表达式匹配速度快,但表达能力较弱,只具有正规文法的表示能力。

    (2)在对网页内容的信噪比要求不高的情况下可以使用基于正则表达式匹配的爬取程序

    HTML DOM树

    (1)提取HTML DOM树提取在解析HTML时速度较慢,但其表达能力相当于上下文无关文法

    (2)在网页自动分类等需要进行网页去噪处理的情况时使用基HTMLDOM树的爬取程序

    Python爬虫

    工作过程

    –把URL地址中指定的网络资源从网络流中读取出来,保存到本地

    过滤

    Re

    bs4

    Scrapy shell

    交互终端,不启动爬虫的情况下调试代码

    直接用来测试XPath或者CSS表达式,不用import响应模块

    查看运行的结果方便分析网页,测试表达式是否获取到了数据

    python爬虫框架 Scrapy

    •快速、高层次的屏幕抓取和web抓取框架,

    •用于抓取web站点并从页面中提取结构化的数据。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2rmF6m42-1608430839949)(C:\Users\yandalao\AppData\Roaming\Typora\typora-user-images\image-20201216162520302.png)]

    •爬虫文件novel_spider.py

    分析需要提取的数据

    ​ •在parse方法中做数据的提取

    ​ •使用Xpath,从页面的HTML Source里面选取要要抽取的数据

    Xpath

    XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言

    •XPath基于XML的树状结构,提供在数据结构找寻节点的能力。

    xpath为scrapy中的解析方式

    xpath函数返回的为列表

    ​ –列表中存放的数据为Selector类型数据。

    ​ –解析到的内容被封装在Selector对象中,需要调用extract()函数将解析的内容从Selector中取出

    Scrapy项目

    •制作 Scrapy 爬虫 一共需要四步:

    –新建项目 :新建一个新的爬虫项目

    –明确目标 (编写items.py):明确你想要抓取的目标

    ​ •items.py: 需要提取的数据结构定义文件

    ​ –Item 定义结构化数据字段,用来保存爬取到的数据,

    ​ •修改novel_spider.py : 分析需要提取的数据

    –制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页

    –存储内容 (pipelines.py):设计管道存储爬取内容

    yield

    •只要是数据持久化存储,parse方法必须有返回值(也就是return后的内容)

    ​ –return items

    yield将函数转换成生成器。我们可以理解成一种特殊的return方法。

    •yield返回的是一个生成器,也是可迭代对象,有利于减小服务器资源

    •生成器相当于一种方法而不是具体的信息,占用内存小。

    爬取多个网页

    •start_urls

    •起始爬取列表,可以是多个url

    start_urls = (‘http://example.com/page1’, ‘http://example.com/page2’,)

    爬取多层网页

    •解析函数的末尾,通过Request方法对下一个页面手动发起请求

    •**先提取二级页面url,**再对二级页面发送请求

    比较

    •request和bs4

    页面级爬虫,功能

    –并行性考虑不足,性能较

    –重点在于页面下载

    •Scrapy

    网站级爬虫,框架

    并行性好,性能较

    –重点在于爬虫结构

    元搜索引擎

    •元搜索引擎又称多搜索引擎

    •通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制

    第四讲 爬虫与网站的博弈

    本章知道每个方面的思路和所用工具就可

    Robot 协议

    •网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    User-agent

    •向访问网站提供访问者信息

    •UA字符串在每次浏览器 HTTP 请求时发送到服务器

    –反爬虫

    IP屏蔽

    爬虫:对策

    连接代理服务器

    –写了个IP代理池

    •多个IP并行

    增大爬取时间间隔

    用户登陆

    分析登陆过程的方法

    4.1 发送post请求

    4.2 分析post过程中隐藏的变量名

    4.3 分析 Cookie

    ​ –http 请求带着Cookie

    ​ •它记录了你的用户ID,密码、浏览过的网页、停留的时间等信息,用于用户身份的辨别

    •流程

    ​ –**第一个网页通过GET(****POST)参数提交参数

    ​ •参数序列化成字符串

    ​ •和基础****url 拼接

    ​ •Urllib.request.urlopen**()**

    ​ –后台接受请求,生成cookie,发给用户

    ​ –用户带着Cookie继续访问其他网页

    4.4 携带Cookie访问已登陆网站

    •保存cookie到文件

    •从文件中读取cookie并访问

    •利用cookie模拟登录

    模拟浏览器进行交互

    selenium

    •反爬虫: 用户登陆

    1. –输入用户名
    2. –输入口令

    –点击登陆按钮

    •Selenium用程序模拟整个操作过程

    1. –忽略post或者get方式差异
    2. –不需要知道参数名字

    处理Cookie:

    selenium 获取登录****cookies,

    ​ –selenium有一个 get_cookies() 函数可以帮我们获取当前网页的cookie值

    保存cookies到文件

    并添加cookies自动登录

    AJAX 动态加载

    •通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新

    在不重新加载整个网页的情况下,对网页的某部分进行更新

    验证码

    图像识别

    6.1 获取图片

    分析网页下载图片

    屏幕截图

    6.2 图片处理 Pillow与PIL模块

    6.3 获取图片中文字内容 ocr

    -6.4 图片滑动验证码

    第五讲 词项词典

    如何建立词项词典?

    一、文档解析(Parsing a document)

    ~~二、词条化 (Tokenization)~~这俩不考

    三、词项归一化 (Normalization)

    四、词干还原 (Stemming)

    五、词形归并 (Lemmatization)

    六、去掉停用词 (Stop Words)

    词项归一化

    将文档和查询中的词条“归一化”成一致的形式(希望USA和U.S.A.之间也能形成匹配 )

    归一化的结果: 在IR系统的词项词典中,形成多个近似词项的一个等价类

    策略:建立同义词扩展表

    a) 为每个查询维护一张包含多个词的查询扩展词表

    b) 在建立索引建构时就对词进行扩展

    词干还原

    a) 通常指去除单词两端词缀的启发式过程

    b) 词干还原能够提高召回率,但是会降低准确率

    词形归并

    a) 利用词汇表和词形分析来减少屈折变化的形式,将其转变为基本形式。

    b) 词形归并可以减少词项词典中的词项数量

    词干还原和词形归并的区别

    a) 代表意义不同。

    ​ i. Stemming通常指很粗略的去除单词两端词缀的启发式过程。

    ​ ii. Lemmatization通常指利用词汇表和词形分析来去除屈折词缀,从而返回词的原形或词典中的词的过程。

    b) 两个过程的区别还在于:

    ​ i. 词干还原在一般情况下会将多个派生相关词合并在一起,

    ​ ii. 而词形归并通常只将同一词元不同屈折形式进行合并。

    c) 词干还原和词形归并,都体现了不同语言之间的差异性

    d) 词干还原过程可能仅返回 s,

    e) 而词形归并过程将返回see或者saw,

    停用词

    a) 应用太广泛,区分度太低

    b) 对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率

    消除停用词的优缺点

    a) 优点:

    ​ i. 停用词消除可以减少term的个数

    ​ ii. 缩小搜索范围,

    ​ iii. 提高搜索的效率

    ​ iv. 机器学习文本分类算法的文档的预处理

    b) 缺点:

    ​ i. 有时消除的停用词对检索是有意义的

    如何确定停用词

    a) 查表法

    b) 基于文档频率

    第六讲 中文分词

    分词方法

    a) 基于理解的分词方法

    NLP、语义分析、句法分析

    b) 基于字符串匹配的分词方法

    查字典。

    按照扫描方向:正向匹配和逆向匹配

    按照扫描长度:最大匹配和最小匹配

    a) 优点:简单,占用资源少,可自定义词库

    ​ i. 程序简单易行,开发周期短;

    ​ ii. 仅需很少的语言资源(词表),

    ​ iii. 不需要任何词法、句法、语义资源。

    ​ iv. 可以自定义词库,增加新词

    b) 缺点 : 效果差

    ​ i. Out of Vocabulary

    ​ ii. 歧义消解能力差;

    ​ iii. 切分正确率不高,一般在95%左右。

    c) 基于统计的分词方法

    字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻出现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便可认为此字组可能构成一个词语

    基于统计的分词方法的优缺点:

    a) 优点:

    ​ i. 分词准确度高;

    ​ ii. 能够平衡地看待词表词和未登录词的识别问题。

    b) 缺点:

    ​ i. 局限性,会经常抽出一些共现频度高、但并不是词的常用字组

    ​ ii. 对常用词的识别精度差,时空开销大

    ​ iii. 学习算法的复杂度往往较高,计算代价较大,依赖手工定义的特征工程

    基于HMM的中文分词方法

    HMM作用

    用来描述一个含有隐含未知参数马尔可夫过程。

    隐含状态之间存在转换概率;隐含状态和可见状态之间存在发射概率

    HMM模型是一个五元组:

    StatusSet: 状态值集合

    ObservedSet: 观察值集合

    TransProbMatrix: 转移概率矩阵 A

    EmitProbMatrix: 发射概率矩阵 B

    • –在某一状态下对应到某字的概率
    • –P(Observed[i]|Status[j])
      • •基于观察值只取决于当前状态值这一假设
      • •其实也是一个条件概率

    InitStatus: 初始状态分布

    ​ –句子的第一个字属于{B,E,M,S}这四种状态的概率

    •HMM三要素[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZlhDCqDG-1608430839951)(image\image-20201216190517905.png)]

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BROKijaw-1608430839953)(image\image-20201216190525015.png)]

    HMM模型可以用来解决三种问题

    a) 模型参数学习问题

    b) 预测问题

    c) 评估观察序列概率

    HMM分词

    预测问题,也叫解码问题

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NGSEDXN9-1608430839955)(image\image-20201216190642734.png)]

    Viterbi 算法

    如何分词:将句子中的词看成有可能四个状态BMES,最后求出最有可能的状态序列(根据路径)。就分词成功

    一种动态规划算法,它用于寻找最有可能产生 观测事件 序列的维特比路径——隐含状态序列

    •二维数组 weight[4] [7]

    ​ –4是状态数(0:B,1:E,2:M,3:S),

    ​ –7是输入句子的字数。

    ​ –P(Observed[i]|Status[j])

    ​ »比如 weight[0] [2] 代表 状态B的条件下,出现‘市’这个字的可能性。

    •二维数组 path[4] [15]

    –path[0] [2] 代表 weight[0] [2]取到最大时,前一个字的状态,

    •比如 path[0] [2] = 1, 则代表 weight[0] [2]取到最大时,前一个字(也就是明)的状态是E。

    第七讲 布尔模型与倒排索引

    在这里插入图片描述

    1、什么是信息检索模型

    信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组< D, Q, F, R(qi,dj) >

    D是一个文档集合,Q是一个查询集合,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值,F是一个框架,用以构建文档,查询以及它们之间关系的模型

    2、基于内容的信息检索模型有哪些?

    • 集合论模型:布尔模型、模糊集合模型、扩展布尔模型

    • 代数模型: 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型

    • 概率模型: 经典概率论模型、推理网络模型、置信(信念)网络模型

    • 深度学习模型

    3、布尔模型是什么

    一种简单的检索模型,建立在经典的集合论和布尔代数的基础上

    遵循两条基本规则:

    (1)每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为 0或1。

    (2)每篇文档:索引词(0或1)的集合

    进行查询的时候,用布尔表达式进行匹配,计算二值的相关度。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Py4ldaW5-1608430839958)(image\image-20201217120733627.png)]

    4、什么是bag of words 模型

    在信息检索中,Bag of words model假定

    (1)对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,

    (2)文本中每个词的出现都是独立的,不依赖于其他词是否出现,在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

    5、搜索引擎核心数据结构倒排文件(Inverted Files)(也叫倒排索引)

    6、什么是倒排索引

    有词项和倒排记录组成,**词项词典:**对于每一个词项,存储所有包含这个词项的文档的一个列表。**倒排记录表:**一个文档用一个序列号docID来表示。

    •建立索引的步骤:

    –词条序列Token Sequence

    ​ •(修改过的词条,文档ID)对 序列

    –排序

    ​ •先按照词条排序,

    ​ •再按照docID排序

    –构建词典和倒排表

    ​ •同一篇文档中多次出现的词被合并

    ​ •分割成词典和倒排表

    9、布尔检索模型的特点是什么

    优点:(1)查询简单,因此容易理解(下面的具体说明理解即可)

    • 布尔模型也许是IR系统中的最简单的模型

    • 是近30年来最主要的商业搜索工具

    • 当前使用的很多系统依然是使用的布尔模型

    • 电子邮件,图书馆分类系统,mac osx的spotlight

    (2)通过使用复杂的布尔表达式,可方便地控制查询结果

    • 同义关系 电脑 OR 计算机

    • 词组 数据 AND 挖掘

    缺点 (1)准确匹配,信息需求的能力表达不足。不能输出部分匹配的情况

    (2)无权重设计 无法排序

    (3)用户必须会用布尔表达式提问,一般而言,检出的文档或者太多或者太少。

    (4) 很难进行自动的相关反馈

    第八讲 向量空间模型

    排序检索

    系统根据文档与query的相关性排序返回文档集合中的文档;有布尔查询自由文本查询两种方式

    Jaccard 系数

    • 一种常用的衡量两个集合A,B重叠度的方法

    • Jaccard(A,B) = |A ∩ B| / |A ∪ B|(回答这个公式即可)

    • Jaccard(A,A) = 1

    • Jaccard(A,B) = 0 if A ∩ B = 0

    • 集合A和B不需要具有同样的规模

    –没有考虑

    ​ •文档长短

    ​ •词项频率(词项在文档中出现的次数)

    ​ •罕见词比高频词的信息量更大,更加具有区分度

    词项频率

    1. 词项t在文档d中出现的次数,记为tft,d)

      一种替代原始tf的方法: 对数词频 原始的词频tf以10为底取对数再加一

    2. 什么是idf:是逆文档频率,idft = log10(N/dft),df是文档频率,指出现词项的文档数目

      文档频率 (Document frequency,df)

      文档频率:出现词项的文档数目

      dft 文档集合中包含t的文档数目

      – 与词项t包含的信息量成反比

      dft <= N (N是文档的总数)

      idf (inverse document frequency)逆文档频率

      idft = log10(N/dft)

      idft 是反映词项t的信息量的一个指标

      – 用log (N/dft) 代替N/dft 来抑制idf的作用

    3. tf-idf是什么

      是信息检索中最著名的权重计算方法,表示t对于文档d的重要程度,词项t的tf-idf 由它的tf和idf组合而成 wt,d=(1+log tft,d) × log10(N/dft)

      (理解一下和重要程度是否符合:tf-idf值随着词项在单个文档中出现次数(tf)增加而增大,tf-idf值随着词项在文档集中数目(df)增加而减小)

    4. [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s9lj0KLn-1608430839959)(image\image-20201217145033660.png)]

    向量空间模型

    是一个**|V|维实向量空间**(V是词项集合,|V|表示词项个数),空间的每一维都对应一个词项,每篇文档表示成一个基于tf-idf权重的实值向量,向量的维度是词项的个数,文档是空间中的点或者向量,这就是向量空间模型

    向量相似度计算

    余玄相似度:(认为cos(di,q) > cos(dj,q),夹角更小,所以di比dj与q更相关)

    R(d,q) = cos(d,q) = d·q/|d|×|q|

    文档长度归一化

    •一个文档向量除以它的L2 范数(Xi的平方和取根号)就是给这个文档进行了长度归一化

    向量空间模型特点

    优点:

    (1)帮助改善了检索结果。

    (2)部分匹配的文档也可以被检索到。

    (3)可以基于向量cosine 的值进行排序,提供给用户。

    缺点:

    (1)这种方法假设标记词是相互独立的,但实际可能不是这样,如同义词、近义词等往往被认为是不相关的词

    (2)维度非常高:特别是互联网搜索引擎,空间可能达到千万维或更高

    (3)向量空间非常稀疏:对每个向量来说大部分都是0

    第九讲 检索排序

    精确top K 检索及其加速办法

    (一般)步骤:对每个文档评分(余弦相似度),按照评分高低排序,选出前K个结果

    如何加速:

    方法一:快速计算余弦

    方法二:堆排序法N中选K(不对所有文档的评分结果排序而直接选出Top K篇文档)只是缩减了排序这一步骤

    方法三:提前终止计算 (不需要计算所有篇文档的得分

    非精确top K检索

    简答题不用细答,看看了解

    基本思想:找一个文档集合AK < |A |<< N,利用A中的top K结果代替整个文档集的top K结果

    下面的策略就是为了缩减文档的数量

    • 策略一:索引去除(Index elimination)

    ​ 只考虑那些词项的idf 值超过一定阈值的文档

    ​ 只考虑包含多个查询词项

    • 策略二:胜者表(Champion list) 每个词项t对应tf值高的表

    • 策略三:静态得分 不仅相关,还权威,根据相关和权威度加权,对doc进行排序

    • 策略四:影响度(Impact)排序 以词项为单位,串行遍历词项的倒排索引表

    • 策略五:簇剪枝方法—预处理

    Pagerank算法

    •随机游走模型 是个一阶马尔可夫链

    ​ –用来描述不稳定的移动。

    ​ –移动节点随机选择一个方向和速度来从当前位置移动到新的位置

    PageRank的思路:在随机游走过程中访问越频繁的网页越重要

    PageRank的一般定义

    •PageRank一般定义的想法是在基本定义的基础上导入平滑项

    一个一定平稳分布的马尔可夫链:

    ​ M是转移矩阵,–R 是n维向量,表示的就是有向图的一般PageRank

    R = d M R + 1 − d n 1 R=d M R+\frac{1-d}{n} 1 R=dMR+n1d1

    ​ •第一项表示(状态分布是平稳分布时)依照转移矩阵M访问各个结点的概率,

    ​ •第二项表示完全随机访问各个结点的概率

    • 第一项表示:•在任意一个网页上,浏览者或者以概率d决定按照超链接随机跳转,这时以等概率从连接出去的超链接跳转到下一个网页
    • 第二项表示:•或者以概率(1-d)决定完全随机跳转,这时以等概率1/n跳转到任意一个网页
    • •第二个机制保证从没有连接出去的超链接的网页也可以跳转出。这样可以保证平稳分布,即一般PageRank的存在,因而一般PageRank适用于任何结构的网络。

    对于一个节点A

    P R ( A ) = ( P R ( B ) L ( B ) + P R ( C ) L ( C ) + P R ( D ) L ( D ) + ⋯ ⋅ ⋅ ) d + 1 − d N P R(A)=\left(\frac{P R(B)}{L(B)}+\frac{P R(C)}{L(C)}+\frac{P R(D)}{L(D)}+\cdots \cdot \cdot\right) d+\frac{1-d}{N} PR(A)=(L(B)PR(B)+L(C)PR(C)+L(D)PR(D)+)d+N1d

    其中,PR(A)表示页面A的级别,页面Ti链向页面A,L(Ti) 是页面Ti 链出的链接数量

    迭代算法

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CgRIEJHX-1608430839960)(image\image-20201217155401700.png)]

    HITS算法

    了解思想就行

    • 在HITS算法中,对每个网页都要计算两个值**:权威值(authority)与中心值(hub)**

    HITS和PageRank的区别

    a.HITS算法将重要性分为两个值权威值(authority)与中心值(hub),PageRank只计算一个值

    b.HITS和查询有关系,PageRank算法和查询无关

    机器学习排序

    步骤:

    –人工标注训练数据,给出文档和查询相关度

    –文档特征抽取、确定特征数量,文档转化为特征向量

    –学习分类函数、

    -在实际搜索系统中采用机器学习模型

    它有以下3种方法:

    (计算损失函数的方法,也是构造训练集的方法)

    单文档方法

    PointWise Approach

    • 损失函数评估单个 doc 的预测得分和真实得分之间差异

    文档对方法

    PairWise Approach

    • 是判断任意两个文档组成的文档对<D0C1,D0C2>是否满足顺序关系

    文档列表方法

    ListWise Approach

    • 搜索结果列表整体作为一个训练实例

    第10讲 信息检索的评价

    检索评测基础

    、•信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。

    测试集由一个文档集、一组信息查询实例、对应于每个信息查询实例的**一组相关文档(由专家提供)**所组成

    无序评测

    查全率和查准率

    无序检索结果的评价

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ri4IinkS-1608430839961)(image\image-20201217161456944.png)]

    查准率(Precision):返回的结果中真正相关结果的比率,也称为查准率, P∈ [0,1]

    召回率(Recall): 返回的相关结果数占实际相关结果总数的比率,也称为查全率,R∈ [0,1]
    P = R R R R + R N R = R R R R + N R P=\frac{R R}{R R+R N} \quad R=\frac{R R}{R R+N R} P=RR+RNRRR=RR+NRRR
    关于召回率的计算:增加一个缓冲池: •对多个检索系统的Top N个结果组成的集合进行人工标注,标注出的相关文档集合作为整个相关文档集合。查准率不变,召回率增大

    精确率,不用它

    平均

    –宏平均(Macro Average): 对每个查询求出某个指标,然后对这些指标进行算术平均

    –微平均(Micro Average): 将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pBY2WnOS-1608430839962)(image\image-20201217162720957.png)]

    F值(F-measure)

    F值(F-measure):召回率R和查准率P加权调和平均值

    • F1 标准则综合了精度和查全率,将两者赋予同样的重要性来考虑。F1的计算由下面的公式决定(调和平均数)
    F ( i , j ) = 2 × recall ⁡ ( i , j ) ×  precision ( i , j ) recall ⁡ ( i , j ) + precision ⁡ ( i , j ) F(i, j)=\frac{2 \times \operatorname{recall}(i, j) \times \text { precision}(i, j)}{\operatorname{recall}(i, j)+\operatorname{precision}(i, j)} F(i,j)=recall(i,j)+precision(i,j)2×recall(i,j)× precision(i,j)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8TG2e0UG-1608430839963)(image\image-20201217162932501.png)]

    调和平均值
    F = 2 1 r + 1 p F=\frac{2}{\frac{1}{r}+\frac{1}{p}} F=r1+p12

    排序评测

    R-查准率是什么

    • 计算序列中第R个位置文献的查准率。在公式里指分母

    • R是指与当前查询相关的文档总数.

    • R=10, R-查准率=4/10;

    • R=3, R-查准率=2/3

    查准率/查全率曲线

    横轴查全率,纵轴查准率

    曲线下的面积被称为AP分数(Average precision score)

    去掉锯齿,对一x取最大y

    Mean Average Precision (MAP)是什么

    • 平均查准率均值

    • MAP是多个查询/排名的平均精度

    • 在每个相关文档位置上查准率的平均值,被称为平均查准率 Average Precision (AP)

    也就是对每个查询相关的R-查准率(在R位置上的那个文档是相关的)累计求和取均值

    NDCG是什么

    一种总体观察检索排序效果的方法,利用检索序列加和(每个搜索结果都要有个评价分,越高越好)的思路来衡量。

    第11讲 概率检索模型

    不考推导,只看思想,只有填空

    看不懂,这点分,不要也罢

    Probability ranking principle PRP概率排名原则

    令x代表集合中的文档。令R代表文件w.r.t.的相关性。给定(固定)查询,令R = 1表示相关,而R = 0不相关。

    • 概率检索模型作为一个分类问题

    • 对于某个文档d来说,如果其属于相关文档子集的概率大于属于不相关文档子集的概率,我们就可以认为这个文档与用户查询q
    是相关的。

    • P(R=1|q,d)代表给定一个文档D对应的相关性概率
    • P(R=0| q,d)则代表该文档的不相关概率

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZfmzRkaD-1608430839964)(image\image-20201216194643050.png)]

    概率检索策略

    1. 估计每个词项对相关性的贡献
    2. 合并以查找文档相关性概率
    3. 通过概率降低顺序对文档进行排序

    BIM Binary Independence Model 二元独立模型

    Binary” =布尔值:文档表示为词项的二进制关联向量

    Independence:term在文档中独立出现

    词包模型

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lpCcQel0-1608430839965)(image\image-20201216195435537.png)]

    BM25

    BM25是信息索引领域用来计算query与文档相似度得分的经典算法

    • 不同于TF-IDF,BM25的公式主要由三个部分组成:
      • query中每个单词t与文档d之间的相关性
      • 单词t与query之间的相似性
      • 每个单词的权重

    目标:对术语频率和文档长度敏感,同时不添加太多参数

    文件生成模型

    ​ 使用多项式分布从词典中独立绘制单词

    ​ 词项频率(tf)的分布遵循二项式分布-由泊**松(Poisson)**近似

    泊松模型

    ​ 假设文档中的词频(tfi)遵循泊松分布

    ​ •“固定间隔”表示文档长度固定…认为大小恒定的文档摘要•…稍后将修复

    第12讲 隐语义空间

    奇异值分解需要了解,但是不考了

    •用前r大的奇异值来近似描述矩阵

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WX65Uzzn-1608430839966)(C:\Users\yandalao\AppData\Roaming\Typora\typora-user-images\image-20201220095654805.png)]

    PCA主成分分析(回忆计算机视觉)

    隐语义分析 LSA

    在这里插入图片描述

    什么是LSA

    1. –使用统计计算的方法对大量的文本集进行分析,
    2. –从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词和文本
    3. 达到消除词之间的相关性和简化文本向量实现降维的目的

    高维的向量空间模型(VSM)表示中的文档映射低维的潜在语义空间

    基本步骤

    (1)建立词频矩阵

    (2)计算矩阵的奇异值分解

    (3)对于每一个文档d,用排除了SVD中消除后的词的新的向量替换原有的向量

    (4)用转换后的矩阵进行文档索引和相似度计算

    LSA优点

    (1)文档和单词都映射到同一个语义空间,所以可以计算文档和文档的相似度,词项和词项的相似度,词项和文档的相似度

    (2)语义空间的维度明显明显少于源单词-文章矩阵

    最关键的性质:每个奇异值对应的是每个“语义”维度的权重

    •将不太重要的权重置为0,可以保留重要的信息,去掉一些信息“枝节”。。枝节信息可能会使本来应该相似的对象不相似

    LSA缺点

    a) 无法解决多义词的问题

    b) 特征向量的方向没有对应的物理解释

    c) SVD的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练

    d) 维数的选择是ad-hoc的

    e) LSA具有词袋模型的缺点,即在一篇文章,或者一个句子中忽略词语的先后顺序

    f) LSA的概率模型假设文档和词的分布是服从联合正态分布的,但从观测数据来看是服从泊松分布的

    概率潜在语义分析 pLSA

    什么是pLSA

    a) PLSA是以统计学的角度来看待LSA,是基于双模式和共现的数据分析方法延伸的经典的统计学方法

    生成模型

    •在概率统计理论中,

    • –生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。
    • 它给观测值和标注数据序列指定一个联合概率分布

    什么是主题模型?

    1. 一篇文档(Document) 可以由多个主题(Topic) 混合而成
    2. 每个Topic 都是词汇上的概率分布
    3. 每个词都是由一个固定的 Topic 生成的

    “文档-词项”的生成模型的训练?

    a) 按照概率选择一篇文档d

    b) 选定文档后,从主题分布中按照概率选择一个隐含的主题类别p(z|d)

    c) 选定后,从词分布中按照概率p(w|z)选择一个词

    PLSA生成文档的过程?

    a) pLSA中生成文档的整个过程便是选定文档生成主题,确定主题生成词

    b) 自动地发现文档集中的主题(分布)

    ​ i. 根据大量已知的文档-词项信息p(w|d) ,

    ​ ii. 训练出文档-主题p(z|d)和主题-词项p(w|z)

    EM算法

    PLSA有哪些应用?

    根据p(z|d)来的

    a) 文本聚类

    b) 文本分类

    PLSA的优势?

    a) 定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释

    b) 相比于LSA隐含了高斯分布假设,pLSA隐含的Multi-nomial分布假设更符合文本特性

    c) pLSA的优化目标是是KL-divergence最小,而不是依赖于最小均方误差等准则

    d) 可以利用各种model selection和complexity control准则来确定topic

    pLSA不足

    •随着document和term 个数的增加,pLSA模型也线性增加,变得越来越庞大;

    •PLSA可以生成其所在数据集的的文档的模型,但却不能生成新文档的模型。

    •EM算法需要反复的迭代,需要很大计算量;

    •概率模型不够完备

    ​ –不是完整的贝叶斯模型

    –文档-主题p(z|d)和主题-词项p(w|z)是直接根据数据估计出来的,没有进一步引入先验

    这两点在LDA模型做了优化

    LDA模型

    什么是LDA模型?

    a) 一个隐含狄利克雷分布的主题模型

    和pLSA主题模型有什么区别

    增加了狄利克雷的先验知识,所有的参数都不是设定的,而是进行了全贝叶斯化,更符合实际的情况

    GENSIM

    Gensim是一个用于从文档中自动提取语义主题的Python库

    第一步、准备训练语料

    第二步、预处理

    ​ –分词(tokenize the documents)、去除停用词和在语料中只出现一次的词

    第三步、文本向量化

    第13讲 词嵌入

    重点:统计语言,表征学习

    统计语言模型

    什么是语言模型和统计语言模型?

    a) 语言模型根据语言客观事实而进行的语言抽象数学建模

    b) 统计语言模型为上下文相关的特性建立数学模型

    语言模型的公式

    –S :一连串特定顺序排列的词ω1,ω2,…,ωn

    a) S 的概率 P(S)等于每一个词出现的概率相乘

    b) P(S) =*P*(ω1)•*P*(ω2|ω1)•*P*(ω3|ω1,ω2)•••*P*(ωn|ω1,ω2,…,ωn-1)

    什么是n-gram语言模型?

    N-1阶马尔可夫假设:

    ​ 假定文本中的每个词ωi和前面的N-1个词有关,而与更前面的词无关

    对应的语言模型称为N元模型(N-Gram Model)

    统计语言模型、n-gram语言模型有什么应用

    • 文本生成、机器翻译

    • 拼写纠错

    • 语音识别

    • 音字转换

    • 分词

    n-gram语言模型的缺点

    a) 简单有效

    b) 只考虑了词的位置关系,

    c) 没有考虑词之间的相似度,词语法和词语义,

    d) 还存在数据稀疏的问题

    文档重复检测

    判断重复的思路:

    –为每一个web文档通过hash的方式生成一个指纹(fingerprint)。

    –将高维的特征向量映射成一个f-bit的指纹(fingerprint),

    通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似

    shingl算法

    •核心思想是将文件相似性问题转换为集合的相似性问题

    –给定正整数k及文档d的一个词项序列,可以定义文档dk-shingled中所有k个连续词项构成的序列。

    –a rose is a rose is a rose → 4-Grams

    a_rose_is_a

    ​ rose_is_a_rose

    ​ is a rose is

    ​ a_rose_is_a …

    直观上看,如果两个文档的shingle集合几乎一样,那么它们就满足近似重复

    局部敏感哈希 LSH

    局部敏感哈希可以用来降维

    MinHash的用处

    a) 可以用来快速估算两个集合的相似度。

    b) 用于在搜索引擎中检测重复网页。

    c) 它也可以应用于大规模聚类问题

    SimHash的步骤

    a) 分词、hash、加权、合并、降维

    w指的是每个term的权重

    加权:遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘 例如W(CSDN) = 100101 4 = 4 -4 -4 4 -4 4

    降维:对于n-bit签名的累加结果,如果大于0则置1,否则置0

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IfucazqJ-1608430839967)(image\image-20201216220909219.png)]

    相似度判断:每篇文档得到SimHash签名值后,接着计算两个签名的海明距离即可

    表征学习和词嵌入

    •表征学习:

    –在机器学习中,表征学习是学习一个特征的技术的集合

    –将原始数据转换成为能够被机器学习来有效开发的一种形式。

    ​ •向量

    •嵌入(embedding)

    ​ –是一种可用于将离散变量表示成连续向量的方法。

    神经网络语言模型

    NNLM

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7JBzTbHC-1608430839968)(image\image-20201217085938669.png)]

    知道这个图各部分意思,下面的word2vec就是改进了一下上面

    word2vec

    •对原始的NNLM模型做如下改造:

    1. –移除前向反馈神经网络中非线性的hidden layer( tanh 隐藏层),直接将中间层的embedding layer与输出层的softmax layer连接;
    2. –忽略上下文环境的序列信息:输入的所有词向量均汇总到同一个embedding layer;
    3. –将future words纳入上下文环境

    •连续词袋模型 CBOW

    根据某个词前面的C个词或者前后C个连续的词,来计算某个词出现的概率

    步骤,PPT非常清晰了

    V是词项数量,N是中间向量那个O的维度

    具体步骤:

    1. 模型输入:上下文的one hot表示方式

      ​ –1xV的向量

      ​ –V 词汇表大小

    2. 输入分别跟同一个VxN的大小的系数矩阵W1相乘得到C个1xN的隐藏层hidden layer,

    3. 然后C个取平均所以只算一个隐藏层

    4. •隐藏层跟另一个NxV大小的系数矩阵W2相乘得到1xV的输出层,

      ​ –这个输出层每个元素代表的就是词库里每个词的事后概率。

    5. •输出层需要跟ground truth也就是“coffee”的one hot形式做比较计算loss

    6. •通过大量的数据迭代,使用梯度下降更新W和W’,来最小化loss函数,

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yf0THKo1-1608430839969)(image\image-20201217090553751.png)]

    •Skip-Gram Model

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8BKqtI1Y-1608430839970)(file:///D:\360MoveData\Users\yandalao\Documents\Tencent Files\2922610627\Image\C2C\AB502D3E6C82F00132C9127A669EA5E0.jpg)]

    Skip-Gram Model相反,是根据某个词,然后分别计算它前后出现某几个词的各个概率

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dR2lyz5a-1608430839970)(image\image-20201217091825010.png)]

    Skip-gram–名称源于该模型在训练时会对上下文环境里的word进行采样

    •基于成对的单词来对神经网络进行训练,

    ​ –训练样本是 ( input word, output word ) 这样的单词对

    ​ –input word和output word都是one-hot编码的向量。

    ​ –最终模型的输出是一个概率分布

    ​ •输出层使用了sotfmax。

    •模型的本质:

    ​ 计算输入word和输出word的余弦相似度,并进行softmax归一化(想象一下softmax图像,所有的值都被分配到[0,1]之间的数)

    •直接对词典里的 V 个词计算相似度并归一化,显然是一件极其耗时的impossible mission。为了加快速度优化:

    1. 负采样:
    2. –层次Softmax(Hierarchical Softmax)

    word2vec 应用

    列出所有相似词语列表 和程序猿相似词语,比如攻城狮,比如猝死

    词汇的语义的类比 皇帝-皇后=男-女

    寻找对应关系: 男人——男孩 女人——女孩

    第14讲 图片检索

    图像检索

    跨媒体检索Cross-Media Retrieval

    不同媒体映射到同一低维度空间

    •基于文本的[图像检索技术]TBIR

    ​ –查询词:文本

    ​ –搜索引擎

    ​ •爬虫 图片

    ​ •索引 图片对应的文字,锚文本,URL

    ​ •基于图像周围文本的检索

    ​ •基于链接锚文本的检索

    基于内容的图像检索CBIR

    –用户输入一张图片,以查找具有相同或相似内容的其他图片

    ​ CBIR 的关键技术:图像特征提取和特征匹配

    图像特征

    •图像的特征主要包括低层特征(Primitive Features)和语义特征(Semantic Features)

    –低层视觉

    1. •与图像的具体类型或内容无关,

      –颜色、形状、纹理等

    2. •某些先验知识(或假设)

      –人的面部特征

      –指纹特征

    图片的特征有颜色特征、形状特征、纹理特征

    颜色特征

    底层、直观,鲁棒性强

    颜色特征的表示有几种

    1、颜色直方图(Color Histogram) 直方图,就是CV教的那个,但是是对颜色来的,不是灰度

    ​ 没有体现空间信息,平移尺度旋转不变性

    • **2、颜色相关图(Color Correlogram)**不考

    3、颜色矩(Color Moment)

    –在颜色直方图的基础上计算出每个颜色的矩估计

    4、颜色一致性矢量(Color Coherence Vectors, CCV)

    纹理特征

    一般说纹理就是指在图像中反复出现的局部模式和它们的排列规则

    基于统计特征的纹理特征提取

    1.灰度差分统计法

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DJPGNRYU-1608430839972)(image\image-20201217105234873.png)]

    2.基于灰度共现矩阵的纹理特征 –常用统计量:对比度、相关度、方差、熵

    3.Tamura纹理特征

    •Tamura纹理特征中所有纹理特征都在视觉上有意义。

    对比度(contrast)、粗糙度(coarseness)、方向性(directionality)对于图像检索尤为重要。

    –线像度(1ine likeness)、规整度(regularity)和粗略度(roughness)。

    基于信号处理方法描述纹理特征

    –利用某种线性变换、滤波器或者滤波器组将纹理转换到变换域,

    –然后应用某种能量准则提取纹理特征。

    形状特征

    有一定的语义信息

    •基于轮廓的形状描述符

    1. 链码–差分结果第一位是原链码最后一位和第一位相减的结果。–例如,对于4向链码10030321的一阶差分的结果为03031333

    2. 基于网格的方法

    3. 傅里叶描述子

      –物体轮廓线表示成一个一维的轮廓线函数

      –傅立叶级数中的一系列系数z(k)是直接与边界曲线的形状有关的,称为傅立叶描述子.

      •基于物体轮廓坐标序列的傅立叶描述子具有最佳的形状识别性能.

    4. 感知哈希算法

      •全局特征降维

      (1)对每张图片生成一个**“指纹”(fingerprint)字符串,也就是图片的特征**

      (2)然后比较不同图片的指纹,结果越接近,就说明图片越相似(用海明距离来计算)

      (之前计算文档相似度的局部敏感哈希也是用hash法,比较哈希码的相似度来判断文档相似程度,都是用海明距离)

      那么怎么将图片变为哈希码呢?

      (1)均值Hash算法

      缩小尺寸,收缩色彩度(比如300-64),计算所有像素的灰度平均值,阈值二值化,二值化结果为哈希值

      (2)pHash算法

      (3)颜色分布法–红绿蓝分别有4个区(颜色分段)

      –总共可以构成64种组 4^3。

      •任何一种颜色必然属于这64种组合中的一种——特征为64维向量,计算余弦相相似度

      ​ (4)•内容特征法

      (图片二值化)–原图转成一张较小的灰度图片,确定一个阈值,将灰度图片转成黑白图片

      –两张图片很相似,它们的黑白轮廓应该是相近的

    •基于区域的形状描述符

    大津法Otsu’s method

    a) 证明了 "类内差异最小"与"类间差异最大"是同一件事

    b) 计算方法:

    ​ i. 灰度值小于阈值的像素为 n1 个,

    ​ ii. 大于等于阈值的像素为 n2 个

    ​ iii. w1 和 w2 表示这两种像素各自的比重

    ​ iv. w1 = n1 / n

    ​ v. 类内差异 = w1(σ1的平方) + w2(σ2的平方)

    ​ vi. 类间差异 = w1w2(μ1-μ2)^2

    图像局部特征

    LBP特征

    局部二值模式 Local Binary Patterns,结合了纹理图像结构像素统计关系纹理特征描述方法

    LBP怎么构造

    • LBP算子定义为在3*3的窗口内,

    • 以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素 点的位置被标记为1,否则为0。

    • 3*3邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即LBP码,共256种),即得到该窗口中心像 素点的LBP值,并用这个值来反映该区域的纹理信息。

    LBP的应用中,如纹理分类、人脸分析等,采用LBP特征谱的统计直方图作为特征向量用于分类识别。可将一幅图片化为多个子区域,分别求每个子区域的统计直方图。

    HOG特征

    关键词:cell,梯度直方图,行人检测

    HOG是什么?

    a) 方向梯度直方图,Histogram of Oriented Gradient, HOG

    b) 一种在计算机视觉和图像处理中用来进行物体检测的特征描述子

    c) 通过计算和统计图像局部区域的梯度方向直方图来构成特征

    Hog特征结合 SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功

    HOG特征如何提取?

    a) 灰度化

    b) 采用Gamma校正法对输入图像进行颜色空间的标准化(归一化)

    c) 计算图像每个像素的梯度

    d) 将图像划分成小cells

    e) 统计每个cell的梯度直方图

    梯度直方图,横轴是梯度方向,y轴是在该梯度方向的梯度值的和

    f) 将每几个cell组成一个block

    g) 将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image的HOG特征descriptor了

    HOG算法的优缺点?

    a) 优点

    ​ i. 由于HOG是在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不 变性,这两种形变只会出现在更大的空间领域上。

    ​ ii. 其次,在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿 势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。

    ​ iii. 因此HOG特征是特别适合于做图像中的人体检测的

    SIFT

    SIFT特征是什么

    尺度不变特征转换,Scale-invariant feature transform或SIFT,在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。

    SIFT特征和HOG特征好处

    SIFT特征不只具有尺度不变性,即使改变旋转角度,图像亮度或拍摄视角,仍然能够得到好的检测效果,Hog没有旋转和尺度不变性

    SIFT有哪几个步骤

    – 步骤一:建立尺度空间

    • 即建立高斯差分(DoG)金字塔

    – 步骤二:在尺度空间中检测极值点,并进行精确定位和筛选

    – 步骤三:特征点方向赋值,

    • 完成此步骤后,每个特征点有三个信息:位置、尺度、方向

    – 步骤四:计算特征描述子

    SIFT特征的匹配是暴力匹配

    图像检索算法

    图像检索算法

    a) 图像检索领域:将局部特征表示成全局特征的编码

    b) 通常继承了局部特征的部分不变性,如对平移、旋转、缩放、光照和遮挡等与语义相关不大的因素保持不变

    三种经典的编码

    a) [BoW](http://yongyuan.name/blog/Bag of visual words model: recognizing object categories)

    b) VLAD局部聚合向量

    c) FV

    BOF

    图像视为文档,局部特征经过聚类后看作一个视觉词汇(也就是词)

    BOF算法先求出特征点,再聚类生成类心,得到视觉词汇,生成直方图(横轴视觉词汇,纵轴频数),再根据TF-IDF调整权重

    查询时,求夹角余弦

    BOF算法流程

    – 1.用surf算法生成图像库中每幅图的特征点及描述符。

    • surf算法是关键点计算和描述算法,作用和SIFT相似。

    – 2.再用k-means算法对图像库中的特征点进行训练,生成类心。

    – 3.生成每幅图像的BOF,

    • 判断图像的每个特征点与哪个类心最近,最近则放入该类心,最后将生成一列频数表,即初步的无权BOF(直方图向量)。

    – 4.通过tf-idf对频数表加上权重,生成最终的bof。

    • 因为每个类心对图像的影响不同。比如超市里条形码中的第一位总是6,它对辨别产品毫无作用,因此权重要减小。

    • TF/IDF

    – 5.对查询图像也进行3.4步操作,生成该图的直方图向量BOF。

    – 6.将查询图像的Bof向量与图像库中每幅图的Bof向量计算相似度

    • 求夹角余弦。

    Fisher vector

    FV考虑了特征点到每个聚类中心的距离,也就是用所有聚类中心的线性组合去表示该特征点

    ​ –FV描述局部特征和GMM中心之间的平均一阶和二阶差异

    VLAD特征

    •可以认为VLAD是FV的简化版本

    •如同BOF先建立出含有k个visual word的codebook,只考虑离特征点最近的聚类中心

    ​ -采用的是计算出local descriptor和每个visual word(ci)在每个分量上的差距,将每个分量的差距形成一个新的向量来代表图片

    展开全文
  • 文献检索系统源码 一个简单的毕业设计应用代码,非常简单,仅适合学习参照来用 前台可以按照综合检索、按字母检索、按类别检索,检索后可以对文档进行下载 后台有上传文献 管理文献 类别管理xxxxx
  • 信息集成,信息技术,信息资源,信息设备,系统配置
  • patentics专利检索系统

    2014-07-03 16:52:13
    Patentics是集专利信息检索下载、分析与管理为一体的平台系统,其包括服务器端和客户终端,采用web浏览格式、用户安装终端格式及建立局域服务器网络格式呈现专利数据,是全球最先进的动态智能专利数据平台系统
  • 针对传统数字档案资源智能推荐检索系统存在智能推荐性能较差的问题,设计一种基于属性分组的数字档案资源智能推荐检索系统。系统的硬件构成为服务器模块、爬虫模块,其中服务器模块的构成为检索服务器、数据处理...
  • 信息检索习题

    千次阅读 2021-06-30 16:49:44
    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。 2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。 3.中国专利法在1985年开始实施 4.在会议文献中,常用英文哪个单词表示“专题讨论会...

    一、填空题

    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。

    2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。

    3.中国专利法在1985年开始实施

    4.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop

    5.在CNKI平台下,“主题”检索的内容,不包含以下哪个?(作者)

    6.一本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部分

    6.按约束力来划分,标准可以分为强制性标准和推荐性标准。

    7.一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。

    8.一个期刊被SCI收入后,会有一个WOS开头的入藏号。

    9.广义的文献检索工具,可以分为:检索工具和【参考工具】。

    10.《中图分类法》中,字母S代表的是“农业科学”,字母【T】代表的是“工业技术”。

    11.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。

    12.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。

    13.著名的SCI检索工具,其英文全称是:【Science Citation Index】。

    14.判断一本国内期刊是否合法的一个简单方式是,查看该期刊的哪个信息?(CN)

    15.按信息的出版类型分:学位论文,属于以下哪种信息源?(特殊文献)

    16.Spischolar平台主要是搜索,哪种类型的参考文献?(电子学术论文)

    17.政府出版物,从信息出版形式的角度看,属于以下哪类信息源?(特殊文献)

    18.一般情况下,Open Access方式发表的文献,版权是归谁所有?(作者所有)

    19.CPCI检索是针对哪种文献类型**(会议论文类型的文献)**

    20.中科院文献情报中心,对JCR期刊按其影响因子和引用率,分类几个区?(4个)

    21.引文检索除了实现信息评价外,还能达到**【信息检索】**的目的。

    22.关键字是论文的组成部分,学术论文的关键字,其数量一般控制在:**(3-8)**个?

    23.美国是在1976年的《著作权法案》,首次为合理使用制定了标准。

    24.按《中国标准文献分类法》,其一级类目中“电子元件与信息技术”,用哪个字母表示?(L)

    25.学术造假一般分为三类,分别是:伪造、篡改和造假。

    26.百度、谷歌这样的搜索引擎,属于什么类型的搜索引擎【全文搜索引擎】

    27.Compendex数据库是属于:【二次】文献数据库。

    28.用户想要检索和下载“电子图书”,一般推荐选择哪个检索平台?【读秀】

    29.书生之家平台上检索的文献类型主要是哪类?【电子图书文献】

    30.不是Web of Science平台的主要期刊来源的是哪个?【EI】

    31.防止学术剽窃,一般采取的方法有:教育、法律和科技手段。

    32.在大多数情况下,检索的目的是为了找到 相关文献 ,而不是"答案"。

    33.二八定律在期刊文献检索中的体现是:20%的期刊登载了80%的重要文献,体现这种特性的期刊是 核心期刊 。

    34.文献的特性有 知识信息性 、 客观物质性 、 人工记录性 、 动态发展性 。

    35.文献的 内容 特征用于找出相关文献, 外部 特征用于获得特定文献。

    36.文献获取与利用的过程中存在三重语言障碍,分别为: 自然语言障碍 、 专业语言障碍 、 检索语言障碍

    37.检索工具的基本类型有: 目录 、 题录 、 文摘 、 索引 。

    38.以单篇文献为著录对象,并附有摘要的检索工具为: 文摘 。

    39.从内部特征进行检索的最重要的两种检索途径是: 主题途径 、 分类途径 。

    文献检索语言是 标引 与 检索 共同使用的约定语言。

    40.主题词语言具有三个基本特征:着眼于从 内容 特性方面去提示文献主题、采用 文字符号 、按 字顺 排列。

    41.当查询关键词具有多个含义的时候,容易造成 误检 ,使得 查准率 较低。

    42.主题词的体现形式是 叙词表 。

    43.辨识科技报告最明显的标志是 科技报告编号 ,一般由 单位编号 和 报告序号 组成,有的还包括类型代码。

    44.《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为22个大类。

    45.按内容可将计算机检索系统的数据库类型分为: 文献书目型 数据库、 事实型 数据库、 数值型 数据库和 全文型 数据库。

    46.我国标准可分为国家标准、 部标准 和 企业标准 三大类。

    47.在实际检索中,文献的检索方法主要有: 直查法 、 追溯法 、 工具法 和综合法。

    48.国际标准化组织简称:ISO 、本标准每 5 年修订一次

    49、信息素质的内涵包括 信息意识 、 信息能力 和 信息道德 。

    50.连续出版物的主要类型有 期刊 、 报纸 和 年底出版物 。

    51、. 构成文献的三要素是 知识 、 载体 和 记录 。

    52.CNKI的中文全称是: 中国知识基础设施工程 。

    信息检索常用的方法有: 引文追溯法 、 工具法 和 循环法
    55、专利有三层含义: 新颖性 、 创造性 和 实用性 。

    55.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。

    56.国家标准的代号体系中,地方标准的代号是__ DB__

    二、选择题

    在网络上检索某地的天气预报,属于检索事实型的信息。A.事实 B.数值 C.微内容 D.全文

    在我国,专利的类型不包括,以下哪个?
    A.实用新型专利 B.软件设计专利 C.外观设计专利 D.发明专利

    1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
    A.分类索引  B.作者索引  C.引文索引   D.主题索引
    2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。
    A.超星数字图书馆 B.万方学位论文 C.国研网 D.维普科技期刊 E.高校财经库
    4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。
    A.关键词   B.作者   C.刊名   D.题名   E.文摘
    5、二次文献又称检索工具,包括:( A C D )。
    A.书目  B.百科  C.索引  D.文摘  E.统计数据
    书生之家平台上检索的文献类型主要是哪类?(C)P126
    A 、学位论文文献 B、期刊文献 C、电子图书文献 D、会议论文文献

    文献是记录有知识的( A )A 载体 B 纸张 C 光盘 D 磁盘
    下列哪种文献属于一次文献( A )A 期刊论文 B 百科全书 C 综述 D 文摘
    下列哪种文献属于二次文献( D )A 专利文献 B 学位论文 C 会议文献 D 目录
    下列哪种文献属于三次文献( C )
    A 标准文献 B 学位论文 C 综述 D 文摘
    下列选项中属于连续出版物类型的选项有( C )
    A 图书 B 学位论文 C 科技期刊 D 会议文献
    下列选项中属于特种文献类型的有( D )
    A 报纸 B 图书 C 科技期刊 D 标准文献
    利用文献末尾所附参考文献进行检索的方法是( C )
    A 倒查法 B 顺查法 C 引文追溯法 D 抽查法
    至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为( A )
    A 数据库 B 记录 C 字段 D 文档
    广义的信息检索包含两个过程( B )
    A 检索与利用 B 存储与检索 C 存储与利用 D 检索与报道
    狭义的专利文献是指( C )
    A 专利公报 B 专利目录 C 专利说明书 D 专利索引
    根据国家相关标准,文献的定义是指“记录有(A )的一切载体”。 A.情报 B.信息 C.知识
    2、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献 C.二次文献 D.三次文献
    3、文摘、题录、目录等属于( B ) A.一次文献 B.二次文献 C.零次文献 D.三次文献
    4、手稿、私人笔记等属于( C)文献,辞典、手册等属于( )文献 A.一次,三次 B.零次,二次 C.零次,三次 D.一次,二次
    5、按照出版时间的先后,应将各个级别的文献排列成( A ) A.三次文献、二次文献、一次文献 B.一次文献、三次文献、二次文献 C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献
    6、( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。 A.零次文献 B.二次文献 C.一次文献 D.三次文献
    7、一次文献、二次文献、三次文献是按照( A )进行区分的。 A.内容的公开次数 B.原创的层次 C.印刷的次数 D.评论的次数
    8、从文献的( C )角度区分,可将文献分为印刷型、缩微型等。 A.内容的公开次数 B.载体类型 C.出版类型 D.公开程度
    9、具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D ) A.图书 B.会议文献 C.学位论文 D.期刊
    10、利用文献后面所附的参考文献进行检索的方法称为( A ) A.追溯法 B.直接法 C.抽查法 D.综合法
    12、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录
    14、课题“计算机在情报检索中的应用”的中图法分类号及类名为( D ) A.TP3计算机技术 B.TP399计算机技术的应用 C.G250图书馆学 D.G252.7情报检索
    17、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于( C ),在书目数据库中,一条记录相当于( ) A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘
    27、《中国学术期刊全文数据库》提供的文献内容特征检索途径有( B ) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者
    28、《中国学术期刊全文数据库》提供的文献外表特征的途径有( B ) A.关键词,篇名 B.机构,中文刊名 C.作者,篇名 D.文摘,中文刊名
    37、《中图法》中基本大类由22个字母表示,“E”表示的是(C ) “O”表示的 是 ( )。 A:经济、军事, B:自然科学、文学, C:军事、数理科学和化学 D:经济、外语
    1.下面哪些属于二次文献( BCD )。
    A.手册; B.文摘; C.目录; D.题录.

    三、名词解释题

    1、文献
    用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。
    2、体系分类语言
    体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。
    3、引文语言
    引文语言是根据文献所附参考或引用文献的特征进行检索的语言。
    4、事实检索
    以事项为检索内容的文献信息检索
    5、二次文献
    对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等
    16、从广义上讲,什么是文献检索工具?
    就是根据需要,以特定的编排方式和检索方法,为人们提供某方面的基本知识或文献检索,专供查询的书籍或电子数据库。可分为检索工具书和参考工具书两大类。
    17、按文献的加工层侧来分,什么是零次文献?
    就是记录在非正规物理载体上的未经任何加工处理的源信息叫做零次信息。
    比如书信、论文手稿、笔记、实验记录、会议记录等,这是一种零星的、分散的和无规则的信息。零次信息的载体形式就称之为零次文献。
    18、请解释一下,什么是纸质型文献?
    概述:以纸张为载体,用书写或印刷等方式记录知识的文献。纸质文献最早出现在中国,4世纪以后逐渐在世界各地传播和应用。纸质文献按纸的种类大致可分为麻纸文献、皮纸文献、竹纸文献等。
    特点:1、符合人们的阅读习惯2、便于保存3、具有权威性4、有利于知识产权保护5、纸质文献仍具有强大的生命力
    19、请解释一下,什么是引文索引?
    引文索引就是是利用文献之间的相互引证关系来检素文献的。
    我们从引文索引中查出一批所需的文献后,再利用这些文献的引文查找一批新的文献,这样不仅能获得一定数量的相关文献,还能揭示旧文献对新文献的影响,新文献对旧文献的评价,展现新旧文献在学术研究中的关系;。
    20、文献的开放获取(Open Access)。
    开放获取的英文全称是Open Access,简称OA。
    它是一种国际上的学术界、出版界、情报界为了推动科研成果利用互联网自由传播而采取的行动。指文献全文的免费、即使和永久获取。

    四、问答题

    1、简述论文选题的基本原则?
    1)选题要目的明确,学以致用,理论联系实际 。2)要选择有创造性有学术价值的课题。3)选题要量力而行,难易适中。4)选题地方法。5)题目的确定
    2、制定检索策略的步骤与技巧是什么?
    1)分析检索课题明确检索需求(2)选择检索系统和数据库(3)确定检索词和检索途径

    五、判断题

    在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?F
    各国专利文献数据库中,文摘可以免费检索,但浏览全文需付费。×
    一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。(√)
    一篇被CSCD数据库收入的文献,会有一个CSCD开头的入藏号。(√)
    对于发明专利,在中国的保护期,要比在美国的保护期短。×
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?×
    目录是目和录的合称,定其次之谓目,辨其名之谓录。( × )
    21.在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    22.学术论文具有:科学性、学术性和创新性的特征。
    23.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop
    24.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。
    25.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。
    EI检索,提供的是全文检索方式。(× )
    一般的检索平台提供的跨库检索,也被称为一站式检索。(√ )
    DOI(Digital Object Identifier)既数字对象标识,是数值环境中内容对象的永久性标识号。( √)
    以“磁盘”作为载体的电子文献类型,其标识代码为:MT。(× )
    Open Access(OA)属于发表人付费,阅读与引用人免费的论文出版模式?(√ )
    67. 1948年,美国数学家、信息论的创始人维纳在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。 ( × )
    1948年,美国数学家、信息论的创始人仙农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。
    68. 从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。( × )
    从文献检索的角度来看,一次文献是检索的对象,二次文献是用于检索的主要手段和工具。
    69. 《中国图书馆分类法》是按知识门类的学科体系的逻辑次序进行分类。( √ )
    70. 核心期刊是指经常使用的期刊。( × )
    核心期刊是指那些信息密度大、内容质量高、论文寿命长、被引率、被索率、被摘率、借阅率也较高,能代表某学科、专业最新发展水平和趋势的期刊。
    71. 一项发明创造要获得专利权必须具备新颖性、创造性和实用性。( √ )
    72. 专利是受法律保护的,其中发明专利的保护期限是10年。( × )
    73. 题录型检索工具,其著录项目主要包括文献篇名、作者、文献出处。( √ )
    74. TCP/IP协议的作用是保证各种不同类型的计算机网络实现相互通信。( √ )
    75. EBSCOhost 数据库中的BSP(Business Source Premier)是学术期刊数据库的简称。( × )

    六、问答题:

    23、一般的文献检索工具,必须具备哪四个基本条件?
    1.必须详细著录文献的外部特征(篇名、著者姓名、文献序号等)和内容特征(文献的学科属性和主题内容等);
    2.必须具有既定的检索标识(如文献的分类标识、主题词、著者姓名、文献序号等);
    3.能够提供多种检索途径。
    4.全部文献必须根据标识,系统地、科学地排列,成为一个有机的整体;
    76. 请解释信息、知识、文献的概念,并简述三者之间的关系
    答:不同领域对信息的定义不同,图书情报界对信息的定义:信息是客观事属性和运动状态的外在表现。知识是人们对客观事物存在和运动规律的认识。
    文献是记录有知识的一切物质载体。
    信息、知识与文献的关系可以归结为:信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储、传递知识和信息的载体。信息不等于知识,知识是信息的重要组成部分。信息与知识这种包含关系可以表示为:信息大于知识。在自然界的万事万物中,信息是物质世界表征其存在的一种形式。信息,有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制;知识,无形的、与行动和决策相关、经过处理改变思维、精神产品、环境改变涵义、经过学习才能转让、无法复制。
    知识是有组织的大量的信息,获得知识有赖于获得信息;信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物。并非所有信息都可成为知识,在信息时代,源于众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。

    2、信息、知识、情报、文献的概念?文献的组成要素?
    信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。
    2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理
    3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。
    知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总和。
    情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。
    文献的概念:是记录有知识的一切载体。
    文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。

    3、信息、信息资源包括那些类型?
    1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等
    信息资源类型:根据存储媒介不同,信息资源可以划分为印刷型信息资源、电子信息资源、数字信息资源和多媒体信息资源。

    4、文献有那些类型?将文献划分成这些类型的依据是什么?
    1)根据载体材料、存储技术、和传递方式划分
    可划分为:印刷型、缩微型、试听型和机读型文献信息源
    2)根据加工程度的不同划分
    可分为:一次文献信息源、二次文献信息源、和三次文献信息源
    3)根据文献信息源的内容划分
    可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献、学位论文、标准文献、档案文献、产品样本

    5、数据库的类型?网络资源有那些特点?
    数据库的类型:联机数据库和光盘数据库、网络数据库
    网络资源有那些特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等

    6、何为“核心期刊“?本专业的核心期刊有那些?
    核心期刊定义是 :在某一学科中 ,少数期刊覆盖了该学科的大部分文献 ,而多数期刊仅包含该学科的少量文献 ,这少数期刊就是该学科的核心期刊。
    本专业的核心期刊有:《政治与法律》、《环球法律评论》、《当代法学》、《法学》

    7、什么是信息检索?类型有哪些?
    定义:是通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程。
    类型:文献检索、数据检索、事实检索

    8、简述信息检索的原理。
    信息检索的实质是一个匹配过程,也就是信息用户需求的主题概念或检索表达式同一定信息系统的系统语言相匹配的过程,如果两者匹配,则所需信息被检中,否则检索失败。

    9、什么是计算机信息检索系统?它由几个部分组成?
    计算机信息检索系统:是利用计算机和一定的通信设备查找所需信息的检索方式,检索的系统就是人的设计操作和计算机自动化处理相结合的系统。
    组成部分:光盘检索系统、联机检索系统、网络检索系统

    10、计算机信息检索技术包括哪些?
    布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索并向着智能化方向发展。

    11、从外表特征和内容特征来看,检索语言的类型各有哪些?不同特征各举一简单的检索式。
    描述信息外部特征的检索语言包括题名(书名、刊名、篇名)、著者姓名\单位名称、出版事项、代码\序号(如专利号、报告号、标准号)等,其作为检索标志直接明了,使用时较为简单。
    描述信息内容特征的检索语言包括分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言。

    12、为什么要创建检索语言,它有哪些类型?比较分类语言和主题语言的优缺点。
    1)检索语言是指用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言,目的是为了便于检索文献。
    2)类型:按检索语言是否受控可分为人工语言和自然语言,按检索时的组配实施状况可分为先组式和后组式检索语言,按描述信息特征的不同可分为描述信息外部特征的检索语言和描述文献内容特征的检索语言。

    15、简述“超星电子图书馆”、“书生之家数字图书馆”、“中国学术期刊全文数据库”、“维普中文科技期刊数据库”和“万方数字化期刊”收藏资源的特点
    1)、超星电子图书馆:收录的电子图书内容丰富,包括经典理论、哲学、社科、经济、语言文字、文学、数理化、生物、工业技术、计算机等50余个学科门类,现拥有中文电子图书80万种,论文300万篇,全文总量4亿余业,并且每天仍在不断地更新与增加
    2)书生之家数字图书馆:主要收录1999年以后出版的新书,其收录量为每年中国出版的新书品种一半以上,目前拥有图书15万种,数量可观,学科门类齐全。
    3)中国学术期刊全文数据库:该库的产品分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。个专辑分为若干专题,共168个专题。
    4)维普中文科技期刊数据库:按照《中国图书馆分类法》进行分类,所有文献被分为8个专辑:社会科学、自然科学、工程技术、医药卫生、农业科学、经济管理、教育科学和图书情报。8大专辑又被细分为36个专题 。
    5)万方数字化期刊收藏资源的特点:目前集纳了理、工、农、医、人文五大类70多个类目,2500多种科技类核心期刊,实现全文上网。该系统收录的期刊种类主要有7个:基础科学、农业科学、社会科学、哲学政法、医学卫生、教科文艺、经济财政。

    16、结合“中国学术期刊全文数据库”、“维普中文科技期刊数据库”两种数据库,谈各自的“高级检索”的方法
    1)、维普中文科技期刊数据库“高级检索”的方法:打开维普数据库,点击高级检索,输入关键词、作者、分类号、机构、刊名,扩展检索条件,如:时间条件、专业限制、期刊范围,然后点击检索。
    2)、中国学术期刊全文数据库“高级检索”的方法:打开中国知网,点击高级检索,进入中国学术期刊全文数据库,输入检索控制条件,如:发表时间 来源期刊` 期刊年期 支持基金,然后输入内容检索条件。

    17、简述特种文献的特点和作用,学术论文的结构
    特点:发行渠道特殊,形式各异,具有特殊的、其它文献所不能取代的价值
    作用:传递科技信息
    结构:一般而言,学术论文包括八个必要的组成部分,其中前置部分包括题名、作者、摘要、关键词,主体部分包括引言、正文、结论、参考文献。
    18、按级别分的标准的类型?我国标准分为哪些等级?分别用那些符号表示
    分类:1)按使用范围可分为:国际标准、区域标准、国家标准、行业标准、地方标准、企业标准
    2)按标准的约束性可分为:强制性标准、非强制性标准
    我国:国家标准GB 行业标准FZ 地方标准DB 企业标准Q

    19、专利的新颖性、创造性、实用性各自含义,中国保护的专利类型
    1、新颖性,是指在申请日以前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。
    2、创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步,该实用新型有实质性特点和进步。
    3、实用性,是指该发明或者实用新型能够制造或者使用,并且能够产生积极效果。
    中国保护专利的类型:发明、实用新型、外观设计

    20、中国何时实施专利法?中国专利法对专利采用怎样的审批程序?受中国专利法保护的对象分别有哪些
    1、自1985年4月1日起施行
    2、程序:1)、专利局收到发明专利申请后,经初步审查认为符合本法要求的,自申请日起十八个月内,予以公布。专利局可以根据申请人的请求早日公布其申请。
    2)、发明专利申请自申请日起三年内,专利局可以根据申请人随时提出的请求,对其申请进行实质审查;申请人无正当理由逾期不请求实质审查的,该申请即被视为撤回。
    专利局认为必要的时候,可以自行对发明专利申请进行实质审查。
    3)、 发明专利的申请人请求实质审查的时候,应当提交在申请日前与其发明有关的参考资料。
    发明专利已经在外国提出过申请的,申请人请求实质审查的时候,应当提交该国为审查其申请进行检索的资料或者审查结果的资料;无正当理由不提交的,该申请即被视为撤回。
    4)、 专利局对发明专利申请进行实质审查后,认为不符合本法规定的,应当通知申请人,要求其在指定的期限内陈述意见,或者对其申请进行修改;无正当理由逾期不答复的,该申请即被视为撤回。
    5)、 发明专利申请经申请人陈述意见或者进行修改后,专利局仍然认为不符合本法规定的,应当予以驳回。
    6)、 发明专利申请经实质审查没有发现驳回理由的,专利局应当作出审定,予以公告,并通知申请人。
    7)、 专利局收到实用新型和外观设计专利申请后,经初步审查认为符合本法要求的,不再进行实质审查,即行公告,并通知申请人。
    8)、 专利申请自公告之日起三个月内,任何人都可以依照本法规定向专利局对该申请提出异议。专利局应当将异议的副本送交申请人,申请人应当在收到异议副本之日起三个月内提出书面答复;无正当理由逾期不提出书面答复的,该申请即被视为撤回。
    9)、 专利局经审查认为异议成立的,应当作出驳回申请的决定,并通知异议人和申请人。
    10)、 专利局设立专利复审委员会。申请人对专利局驳回申请的决定不服的,可以在收到通知之日起三个月内,向专利复审委员会请求复审。专利复审委员会复审后,作出决定,并通知申请人。
    发明专利的申请人对专利复审委员会驳回复审请求的决定不服的,可以在收到通知之日起三个月内向人民法院起诉。
    专利复审委员会对申请人关于实用新型和外观设计的复审请求所作出的决定为终局决定。

    11) 对专利申请无异议或者经审查异议不成立的,专利局应当作出授予专利权的决定,发给专利证书,并将有关事项予以登记和公告。
    3、发明、实用新型、外观设计
    21、中国专利文献的编号体系含有几种专利文献号?如何称谓?
    6种 申请号 专利号 公开号 审定号 公告号 授权公告号

    22、专利文献的特点、专利说明书的结构
    特点:新颖性、创造性和实用性
    结构:通常一件专利说明书包括:专利文献著录项目,权利要求书,说明书,附图,摘要。有些专利说明书还附有检索报告。
    23、专利文献的分类方法,分类号的结构组成,专利检索的目的
    分类方法:
    26、什么是科技报告?它有哪些类型?用哪些检索工具查找我国的科技报告
    科技报告:是一种非常重要的资源,他们往往反映科学技术前沿和正在进行中的研究项目,注重详细记录科研进展的全过程,多与高科技领域有关,传播研究成果的速度较快,并且以内部的发行为主,外界较难获得。
    科技报告的类型
    2)科技报告可划分为不同类型:
    1、 按内容可分为:基础理论研究和工程技术两大类。
    2、按形式可分为:技术报告(Technical Reports, 简称TR)、技术札记(Technical Notes,简称TN)、技术论文(Technical Papers, 简称TP)、技术备忘录(Technical Memorandum,简称TM)、通报(Bulletin)、技术译文(Technical Translations, 简称TT)、合同户报告(Contractor Reports, 简称CR)、特种出版物(Special Publications, 简称SP)、其它(如:会议出版物、教学用出版物、参考出版物、专利申请说明书及统计资料)等。
    3、按研究进展程度可分为:初步报告(Primary Report)、进展报告(Progress Report)、中间报告(Interim Report)、终结报告(Final Report)。
    4、按流通范围可分为:绝密报告(Top Secret Report)、机密报告(Secret Report)、秘密报告(Confidential Report)、非密限制发行报告(Restricted Report)、非密报告(Unclassified Report)、解密报告(Declassified Report)。属于保密的科技报告大多属于军事、国防工业和尖端技术成果
    3)检索工具:EI CompendexWeb INSPEC DIALOG

    27、什么是会议文献?若查找国外各种学术会议的信息,利用哪些检索工具
    1、会议文献是传递和获取科技信息的一种极为有效的重要渠道。
    2、检索工具:中国知网《中国重要会议论文全文数据库》 万方数据《中国学术会议论文文摘数据库》 中国学术会议在线 因特网会议预告 欧洲研究会议 国际标准化组织的标准化会议预告 医学会议查询

    2.简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?
    参见文献类型-会议论文的介绍,国内的检索系统主要是万方数据和CALIS的高校会议论文检索,国际上的会议论文检索系统最重要的是ISTP,隶属于WEB OF PROCEEDINGS。

    3.请简单说一说如何选择网络信息资源?主要的标准有哪些?主要的标准有:
    a. 发布者的权威与可靠性
    b. 信息质量
    c. 信息资源的内容覆盖面
    d. 获取方便程度
    e. 检索途径多,检索界面容易使用,有无全文。

    利用外文文摘数据库查出文献线索后,若要查找1篇期刊论文的全文有哪些途径?
    解:
    1…使用搜索引擎搜索,如谷歌,百度,bing,搜狗,Ask,Yahoo等等
    2…利用文献线索,到文献的来源数据库进行搜索。
    3…利用文献线索,到全文数据库中进行检索。

    33、网络资源的特点和种类;搜索引擎的功能
    特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等
    种类:1、按人类信息交流的方式分类可分为非正式出版信息、半非正式出版物、正式出版物
    2)、从网络信息检索角度,按信息查询方式对网络信息进行分类可分为互联网信息、FTP信息、TELNET信息、USENET信息资源、USTSERV信息、JOPHER信息
    3)、按信息存取方式分,可分为邮件型、揭示板型、广播型、图书馆型以及书目型
    4)、按组织形式分可分为文件型、数据库型、超媒体型
    5)、按时效性分,可分为动态信息、电子报纸、电子期刊、电子图书、联机馆藏目录、联机数据库等
    6)、按信息的媒体形式分为,文本信息、超文本信息、多媒体信息、
    7)、按网络信息服务方式分为,网站信息、新闻信息、论坛信息、文件服务信息
    8)、按信息的格式分为,HTTML TXT DOC PDF RM MP3
    功能:网页搜索、图片搜索、视频搜索、地图搜索、新闻搜索、音乐搜索、论坛搜索等等

    34、试对百度、中文搜狐、北大天网、一搜四种搜索引擎的功能进行比较
    百度的功能特点:1. 基于字词结合的信息处理方式。
    2. 支持主流的中文编码标准。
    3. 智能相关度算法。
    4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
    5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。
    6. 相关检索词智能推荐技术。
    7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
    8. 可以提供一周、二周、四周等多种服务方式。
    9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。
    10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
    11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
    12. 高可配置性使得搜索服务能够满足不同用户的需求。
    13. 先进的网页动态摘要显示技术。
    14. 独有百度快照,巧妙解决了搜索用户经常遇到的死链接问题。
    15. 支持多种高级检索语法,使用户查询效率更高、结果更准。
    一搜的功能特点:1、MP3功能 2、娱乐功能 3、投票功能 4、翻译功能 5、视频功能 6、部落功能
    北大天网的功能特点:北京大学开发,简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、FTP检索(北京大学、中科院等FTP站点)。目前大约收集了100万个 WWW页面(国内)和14万篇Newsgroup(新闻组)文章。支持简体中文、繁体中文、英文关键词搜索,不支持数字关键词和URL名检索。
    搜狐的功能特点:搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。

    36、查阅有关文献,写出“标准文献、专利文献、学位论文、研究报告”作为参考文献时的标注格式
    37、学术论文一般由哪几部分构成?各部分的写作规范分别是什么
    1、标题:准确、精炼的技术术语表达的创新点名称
    2、单位和作者:只写作者和实际参与了论文写作的人名,按对论文而不是工作的贡献排序。
    3、摘要:是论文不加注释和评论的精炼缩写,是一篇独立的短文。
    4、关键词:关键词是表达论文所属门类的主题词。列出能通过模糊检索查到这篇文章的3~8个主题词。关键词要反映研究范围,但不一定是文中的高频词,排列最好按范围,先大后小。关键词忌生僻,最好出自《中文主题词表》。
    5、引言:引言可以作为论文的一节(符号可以是0、可以是1),也可以是正文前的一段无标题文字。应鲜明简洁,不要图表、公式。
    6、正文:正文要分节,合理分节并拟定小标题可以突出重点,有助于理解。要尽量多用图表直观地表达,图表要有自明性,使用中文表头、坐标,无需解释就能看懂。
    7、结论:全文而不仅是试验或仿真的总结。①归纳研究中发现的规律、优点;②应用或应用方向;③局限或不足,今后努力方向。结论应相对独立,提到创新点时不应使用“该方法”之类代用词。不十分肯定时可用“讨论”代替“结论”,但不得使用“结束语”、“小结”之类标题。结论中不应有图表、公式。
    8、参考文献:列出作者在研究范围内所看过的国内外文献。参考文献与引言呼应,反映作者跟踪技术发展的眼界和敏锐性,反映作者知识的广度和深度,反映作者有资格说自己是创新。数量不可过少,例如中国科协期刊优秀论文评选要求研究性学术论文参考文献不少于20篇。参考文献不限于中文但,教科书不可多,不宜过陈旧。
    38、什么是学术造假与剽窃?一般而言,剽窃的形式有哪些?司法实践中对剽窃
    是如何界定的?剽窃与参考文献的区别是什么
    剽窃的定义:剽窃是指把他人的作品当成自己的作品。
    学术造假的定义 :
    39、简要回答:三大检索工具SCI,EI和ISTP的内涵
    1、SCI ,即《科学引文索引》,是自然科学领域基础理论学科方面的重要期刊文摘索引数据库。
    它创建于1961 年,创始人为美国科学情报研究所所长 Eugene Garfield(1925.9.15).利用它,可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自 1945 年以来重要的学术成果信息;SCI 还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。
    2、Ei,即《工程索引》,创刊于 1884 年,由 Elsevier Engineering Information Inc. 编辑出版。主要收录工程技术领域的论文(主要为科技期刊和会议录论文 ) ,数据覆盖了核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程等学科领域。
    3、ISTP ,即《科学技术会议录索引》,创刊于 1978 年,由美国科学情报研究所编制,主要收录国际上著名的科技会议文献。它所收录的数据包括农业、环境科学、生物化学、分子生物学、生物技术、医学、工程、计算机科学 、化学、物理学等学科。从 1990-2003 年间, ISTP 和 ISSHP( 后文将要讲到 ISSHP) 共收录了 60 , 000 个会议的近 300 万篇论文的信息。
    文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体( V)
    文献知识的内容与其记录方式、载体材料无关( V )
    文献有知识内容、信息符号和载体材料三个不可分割的基本要素构成(X )
    一次文献是产生二、三次文献的基础,是检索利用的主要对象(V )
    从零次文献、一次文献到二次文献,再到三次文献,是一个知识内容由分散到集中,由无组织到系统化的过程( V )

    展开全文
  • 著名的图像检索系统

    千次阅读 2014-05-06 20:30:02
    1. QBIC(Query By Image Content)图像检索系统是 IBM 公司 90年代开发制作的图像和动态景象检索系统,是第一个基于内容的商业化的图像检索系统。QBIC 系统提供了多种的查询方式,包括:利用标准范图(系统自身...
  • 信息检索

    千次阅读 2019-05-10 19:31:00
    论文数据库,中国科学院学位论文检索系统,eThesys分布式学位论文共建共享计划,中 文电子学位论文服务,台湾地区的博硕士论文资讯网 国外 :ProQuest学位论文全文数据库,网络化的博硕士论文数字图书馆(NDLTD...
  • 本系统是基于CVPR2015的论文《Deep Learning of Binary Hash Codes for Fast Image Retrieval》实现的海量数据下的基于内容图片检索系统,250w图片下,对于给定图片,检索top 1000相似时间约为1s,其基本背景和原理...
  • 第五章 信息法与综合性信息检索 目录: 5.1 信息法概述 5.1.1 信息法的概念 从广义上讲,信息法是调整信息活动中产生的各种社会关系的法律规范的总称。 一般来说,信息法由信息资源管理法、政府信息公开法、信息...
  • 基于内容的图像检索系统(合集)

    万次阅读 2013-10-09 19:24:29
    基于内容的图像检索,即CBIR(Content-based image retrieval),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。...本文是Wiki上统计的当前主要的基于内容的图像检索系统。 商业图像搜索引擎:
  • 著名的图像检索系统介绍

    千次阅读 2009-08-02 09:26:00
    1. QBIC(Query By Image Content)图像检索系统是 IBM 公司 90年代开发制作的图像和动态景象检索系统,是第一个基于内容的商业化的图像检索系统。QBIC 系统提供了多种的查询方式,包括:利用标准范图(系统自身提供)...
  • 学会使用一个信息检索系统完成给定的信息检索任务,包括创建索引、选择检索模型并设置参数、评价检索结果等等。 二、实验描述 使用一个信息检索系统,例如Galago、Elastic Search、Terrier、Anserini等,完成TREC ...
  • Wumpus(《信息检索:实现和评价搜索引擎》其中一位作者开发的一个多用户开源信息检索系统 可以在网上下载)提供了模型实现 可作为学生练习的一个基础 《信息检索:实现和评价搜索引擎》采用的模块化结构使教师可以将...
  • 手把手教你使用pytorch+flask搭建草图检索系统 文章目录手把手教你使用pytorch+flask搭建草图检索系统一. 写在前面1.1 系统框架说明1.1.1 检索网络1.1.2 检索框架 top-k1.2 准备工作1.2.1 环境配置1.2.1 检索数据集...
  • 著名的图像检索系统介绍[转]

    千次阅读 2013-05-11 21:56:28
    1. QBIC(Query By Image Content)图像检索系统是 IBM 公司 90年代开发制作的图像和动态景象检索系统,是第一个基于内容的商业化的图像检索系统。QBIC 系统提供了多种的查询方式,包括:利用标准范图(系统自身提供...
  • 基于deep learning的快速图像检索系统

    千次阅读 2016-04-15 09:22:18
    深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统 作者:寒小阳  时间:2016年3月。  出处:  声明:版权所有,转载请联系作者并注明出处 1.引言 本系统是基于CVPR2015的论文《Deep ...
  • 《现代信息检索导论》课程梳理

    千次阅读 2018-11-30 21:11:18
    一个文本检索系统是怎样的? 一、分词 二、索引 1.索引怎么得来: 2.构建索引: 3.怎么查询: 4.索引压缩: 5.索引的解压 三、评分 那么怎么来评分呢? 四、反馈 1.相关反馈: 2.查询扩展: 五、结果...
  • 全文检索系统与Lucene简介

    千次阅读 2007-03-27 07:23:00
    结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。图 1.1 展示了上述全文检索系统的结构与功能。   在上图中,我们看到:...
  • 互联网上图像信息检索

    千次阅读 2011-04-29 01:16:00
    传统的信息检索主要集中于文字的检索,在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主,因此图像的检索就成为了目前研究的热点。 互联网上图像的检索经历了两个阶段:第一阶段是以关键字为基础的...
  • 摘要:通过设计统一检索系统过程模型,对网络数据库的检索步骤进行抽象,并对网络数据库进行描述,获取网络数据库的检索参数,实现在PHP5.0环境下...同时,通过构造一个合理的四元组模型实现统一检索系统完整的二次检索
  • 互联网上图像信息检索

    千次阅读 2006-05-09 16:58:00
    互联网上图像信息检索 微软中国研究院 陈正 李明镜 马维英图像检索技术的两个阶段随着互联网的高速发展,网上的多媒体信息也急剧增加,因此人们对多媒体
  • Python中的信息检索 InfoR 是用于的 Python 包。 信息检索意味着给定一组(text/html/xml)文档,提取与搜索查询最相关的文档。 您的搜索引擎(例如 Google)是一个检索系统。 InfoR 支持 3 种类型的检索系统: ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 87,089
精华内容 34,835
关键字:

信息检索系统下载