精华内容
下载资源
问答
  • 信息检索复习笔记

    万次阅读 多人点赞 2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索信息过载 搜索 搜索的过程 从大规模非结构化数据...

    第一讲 搜索

    IR(信息检索是什么样的学科)

    实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科

    为什么要进行信息检索?信息过载

    搜索

    搜索的过程

    从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程

    信息检索的本质

    确定文档和查询之间的相关度是IR的核心问题

    IR作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)的一门学问

    信息检索本质:给定一个查询Q,从文档集合C中,计算每篇文档DQ相关度,并排序(Ranking)

    什么是相关度

    相关度是一个查询和文档相关的程度,形式上说,信息检索中的相关度是一个**函数*f*,**输入是查询Q、文档D和文档集合C,返回的是一个实数值 R, R = f(Q,D,C)

    相关度(relevance)不同于相似度(Similarity):

    ​ 相关度通常只有相对意义

    ​ (1)相关取决于用户的判断,是一个主观概念

    ​ (2)不同用户做出的判断很难保证一致

    ​ (3)即使是同一用户在不同时期、不同环境下做出的判断也不尽相同

    定义“相关性”的两个角度:(了解)

    系统角度:系统输出结果,用户是信息的接受者。

    用户角度:观察用户对检索结果的反应,是系统输出向用户需求的投射

    现代信息检索研究中仍然主要采用系统角度定义的主题相关性概念,当然也强调考虑用户的认知因素

    信息检索模型

    描述信息检索中的文档、查询和它们之间关系(匹配函数)的数学模型

    信息检索主要技术

    (1)文本分析(NLP)

    (2)建立索引

    (3)查询,包括查询分析(NLP),相关度计算(和信息检索模型相关)

    (4)排序(实验室评价)

    搜索引擎

    工作原理

    (1) 爬行和抓取

    (2) 文本分析

    (3)建立索引(可能会考的知识点:蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index).搜索引擎的核心数据结构为倒排文件(也称倒排索引))

    (4)搜索词处理 (5)排序 (6)用户反馈

    搜索引擎评价

    (1) 覆盖面 (2)更新周期 (3)响应速度 (4)排序结果是否满足用户的查询要求

    第二讲 网络爬虫技术

    爬虫定义

    一种自动获取网页内容的程序,从一个或若干初始网页的**URL开始,获取并解析它们,提取它们指向的URL,将提取的url放在队列中,获取队列中的每个URL并重复此过程,直到满足系统的一定停止条件**

    通俗的讲,也就是通过HTML源码解析来获得想要的内容

    爬虫必须具有的功能

    4.1 礼貌性: Web服务器有显式或隐式的策略控制爬虫的访问

    只爬允许爬的内容、尊重 robots.txt

    4.2 鲁棒性: 能从采集器陷阱中跳出,能处理Web服务器的其他恶意行为

    4.3 性能和效率: 充分利用不同的系统资源,包括处理器、存储器和网络带宽

    优先抓取“有用的网页”

    4.4 分布式: 可以在多台机器上分布式运行

    ​ •分布式带来的问题

    ​ –哈希表判重

    ​ •解决方法:

    ​ –A、明确每台下载服务器的分工,即一看到某个URL就知道交给哪台服务器去执行

    ​ –B、批量处理,减少通信的次数

    可扩展性: 添加更多机器后采集率应该提高

    4.5 新鲜度: 对原来抓取的网页进行更新

    4.6功能可扩展性:支持多方面的功能扩展,例如处理新的数据格式、新的抓取协议等

    爬取框架

    3、搜索策略:深度优先, 广度优先

    ​ 实际应用的网络爬虫不是对网页次序的简单BFS或者BFS,而是一个相对复杂的下载优先级排序的方法,管理这个系统的叫做“调度系统”(Scheduler),会有一个Priority Queue。BFS成分更加多一些。

    4、URL 判重

    建立一个散列,其中存放访问过每一个网址

    在其中存放网址经过散列函数计算出的对应的固定长度的散列值

    在平均情况下**O(1)**的时间内查找和更新占用O(n)空间的网址列表

    利用哈希法,URL经过哈希函数得到哈希码,判断是否已经在散列中来判断是否爬取过

    爬虫分类

    •5.1基于整个Web的信息采集(Universal Web Crawling)

    ​ •传统的采集方式

    ​ –作为门户搜索引擎和大型的Web服务提供商的数据收集部分

    ​ –是指从一些种子URL扩充到整个Web的信息采集

    •5.2 增量式Web信息采集 (Incremental Web Crawling )

    •5.3 基于主题的Web信息采集(Focused Web Crawling )

    •5.4 基于用户个性化的Web信息采集(Customized Web Crawling )

    •基于元搜索的信息采集(Metasearch Web Crawling)

    常见的开源爬虫

    Nutch Heritrix

    •包括全文搜索和Web爬虫

    ​ –包括爬虫crawler和查询searcher。

    ​ •Crawler主要用于从网络上抓取网页并为这些网页建立索引。

    Pandas模块

    lxml模块

    lxml是一个HTML/XML的解析库

    •主要功能是如何解析和提取HTML/XML数据

    第三讲 网页分析技术

    网页解析方法

    –一种是将文档看作字符流;

    •正则表达式

    –一种是将文档看作树结构

    •基于DOM

    正则表达式

    1、正则表达式的定义

    正则表达式是对**字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。**

    2、基于正则表达式的信息提取的步骤

    (1)在获取数据前应尽量去除无用部分(2)提取网页内的链接 (3)提取网页标题(4)提取网页内的文本

    3、正则表达式的工具有哪些

    Java java.util.regex包 Python的 re模块

    4、正则表达式匹配特点是什么

    (1)正则表达式匹配速度快

    (2)但表达能力较弱,只具有正规文法的表示能力。

    (3)在对网页内容的信噪比要求不高的情况下可以使用基于正则表达式匹配的爬取程序

    (4)受网页噪音影响较大

    DOM

    5、什么叫做DOM

    文档对象模型(document object model,DOM),DOM将一个XML文档转换成一个对象集合,然后可以任意处理该对象模型。

    DOM将HTML视为树状结构的元素,所有元素以及他们的文字和属性可通过DOM树来操作与访问。

    6、开源HTML解析器(能够列出一两种即可)

    (1)JAVA:HTMLParser,jsoup

    (2)C/C++:htmlcxx

    (3)Python:Beautiful Soup

    bs 解析器

    –使用自带的html.parser解析,

    ​ •速度慢但通用

    ​ •soup = BeautifulSoup(html, “html.parser”)

    –Html5lib

    ​ •不规范的html文本转为规范的文本再进行解析

    ​ 用浏览器的方式解析文档

    –lxml

    ​ •python的一个解析库,

    ​ •支持HTML和XML的解析,

    ​ •支持XPath解析方式

    ​ •而且解析效率非常高

    ​ •lxml只会局部遍历

    两种方法比较

    正则表达式匹配

    (1)正则表达式匹配速度快,但表达能力较弱,只具有正规文法的表示能力。

    (2)在对网页内容的信噪比要求不高的情况下可以使用基于正则表达式匹配的爬取程序

    HTML DOM树

    (1)提取HTML DOM树提取在解析HTML时速度较慢,但其表达能力相当于上下文无关文法

    (2)在网页自动分类等需要进行网页去噪处理的情况时使用基HTMLDOM树的爬取程序

    Python爬虫

    工作过程

    –把URL地址中指定的网络资源从网络流中读取出来,保存到本地

    过滤

    Re

    bs4

    Scrapy shell

    交互终端,不启动爬虫的情况下调试代码

    直接用来测试XPath或者CSS表达式,不用import响应模块

    查看运行的结果方便分析网页,测试表达式是否获取到了数据

    python爬虫框架 Scrapy

    •快速、高层次的屏幕抓取和web抓取框架,

    •用于抓取web站点并从页面中提取结构化的数据。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2rmF6m42-1608430839949)(C:\Users\yandalao\AppData\Roaming\Typora\typora-user-images\image-20201216162520302.png)]

    •爬虫文件novel_spider.py

    分析需要提取的数据

    ​ •在parse方法中做数据的提取

    ​ •使用Xpath,从页面的HTML Source里面选取要要抽取的数据

    Xpath

    XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言

    •XPath基于XML的树状结构,提供在数据结构找寻节点的能力。

    xpath为scrapy中的解析方式

    xpath函数返回的为列表

    ​ –列表中存放的数据为Selector类型数据。

    ​ –解析到的内容被封装在Selector对象中,需要调用extract()函数将解析的内容从Selector中取出

    Scrapy项目

    •制作 Scrapy 爬虫 一共需要四步:

    –新建项目 :新建一个新的爬虫项目

    –明确目标 (编写items.py):明确你想要抓取的目标

    ​ •items.py: 需要提取的数据结构定义文件

    ​ –Item 定义结构化数据字段,用来保存爬取到的数据,

    ​ •修改novel_spider.py : 分析需要提取的数据

    –制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页

    –存储内容 (pipelines.py):设计管道存储爬取内容

    yield

    •只要是数据持久化存储,parse方法必须有返回值(也就是return后的内容)

    ​ –return items

    yield将函数转换成生成器。我们可以理解成一种特殊的return方法。

    •yield返回的是一个生成器,也是可迭代对象,有利于减小服务器资源

    •生成器相当于一种方法而不是具体的信息,占用内存小。

    爬取多个网页

    •start_urls

    •起始爬取列表,可以是多个url

    start_urls = (‘http://example.com/page1’, ‘http://example.com/page2’,)

    爬取多层网页

    •解析函数的末尾,通过Request方法对下一个页面手动发起请求

    •**先提取二级页面url,**再对二级页面发送请求

    比较

    •request和bs4

    页面级爬虫,功能

    –并行性考虑不足,性能较

    –重点在于页面下载

    •Scrapy

    网站级爬虫,框架

    并行性好,性能较

    –重点在于爬虫结构

    元搜索引擎

    •元搜索引擎又称多搜索引擎

    •通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制

    第四讲 爬虫与网站的博弈

    本章知道每个方面的思路和所用工具就可

    Robot 协议

    •网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    User-agent

    •向访问网站提供访问者信息

    •UA字符串在每次浏览器 HTTP 请求时发送到服务器

    –反爬虫

    IP屏蔽

    爬虫:对策

    连接代理服务器

    –写了个IP代理池

    •多个IP并行

    增大爬取时间间隔

    用户登陆

    分析登陆过程的方法

    4.1 发送post请求

    4.2 分析post过程中隐藏的变量名

    4.3 分析 Cookie

    ​ –http 请求带着Cookie

    ​ •它记录了你的用户ID,密码、浏览过的网页、停留的时间等信息,用于用户身份的辨别

    •流程

    ​ –**第一个网页通过GET(****POST)参数提交参数

    ​ •参数序列化成字符串

    ​ •和基础****url 拼接

    ​ •Urllib.request.urlopen**()**

    ​ –后台接受请求,生成cookie,发给用户

    ​ –用户带着Cookie继续访问其他网页

    4.4 携带Cookie访问已登陆网站

    •保存cookie到文件

    •从文件中读取cookie并访问

    •利用cookie模拟登录

    模拟浏览器进行交互

    selenium

    •反爬虫: 用户登陆

    1. –输入用户名
    2. –输入口令

    –点击登陆按钮

    •Selenium用程序模拟整个操作过程

    1. –忽略post或者get方式差异
    2. –不需要知道参数名字

    处理Cookie:

    selenium 获取登录****cookies,

    ​ –selenium有一个 get_cookies() 函数可以帮我们获取当前网页的cookie值

    保存cookies到文件

    并添加cookies自动登录

    AJAX 动态加载

    •通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新

    在不重新加载整个网页的情况下,对网页的某部分进行更新

    验证码

    图像识别

    6.1 获取图片

    分析网页下载图片

    屏幕截图

    6.2 图片处理 Pillow与PIL模块

    6.3 获取图片中文字内容 ocr

    -6.4 图片滑动验证码

    第五讲 词项词典

    如何建立词项词典?

    一、文档解析(Parsing a document)

    ~~二、词条化 (Tokenization)~~这俩不考

    三、词项归一化 (Normalization)

    四、词干还原 (Stemming)

    五、词形归并 (Lemmatization)

    六、去掉停用词 (Stop Words)

    词项归一化

    将文档和查询中的词条“归一化”成一致的形式(希望USA和U.S.A.之间也能形成匹配 )

    归一化的结果: 在IR系统的词项词典中,形成多个近似词项的一个等价类

    策略:建立同义词扩展表

    a) 为每个查询维护一张包含多个词的查询扩展词表

    b) 在建立索引建构时就对词进行扩展

    词干还原

    a) 通常指去除单词两端词缀的启发式过程

    b) 词干还原能够提高召回率,但是会降低准确率

    词形归并

    a) 利用词汇表和词形分析来减少屈折变化的形式,将其转变为基本形式。

    b) 词形归并可以减少词项词典中的词项数量

    词干还原和词形归并的区别

    a) 代表意义不同。

    ​ i. Stemming通常指很粗略的去除单词两端词缀的启发式过程。

    ​ ii. Lemmatization通常指利用词汇表和词形分析来去除屈折词缀,从而返回词的原形或词典中的词的过程。

    b) 两个过程的区别还在于:

    ​ i. 词干还原在一般情况下会将多个派生相关词合并在一起,

    ​ ii. 而词形归并通常只将同一词元不同屈折形式进行合并。

    c) 词干还原和词形归并,都体现了不同语言之间的差异性

    d) 词干还原过程可能仅返回 s,

    e) 而词形归并过程将返回see或者saw,

    停用词

    a) 应用太广泛,区分度太低

    b) 对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率

    消除停用词的优缺点

    a) 优点:

    ​ i. 停用词消除可以减少term的个数

    ​ ii. 缩小搜索范围,

    ​ iii. 提高搜索的效率

    ​ iv. 机器学习文本分类算法的文档的预处理

    b) 缺点:

    ​ i. 有时消除的停用词对检索是有意义的

    如何确定停用词

    a) 查表法

    b) 基于文档频率

    第六讲 中文分词

    分词方法

    a) 基于理解的分词方法

    NLP、语义分析、句法分析

    b) 基于字符串匹配的分词方法

    查字典。

    按照扫描方向:正向匹配和逆向匹配

    按照扫描长度:最大匹配和最小匹配

    a) 优点:简单,占用资源少,可自定义词库

    ​ i. 程序简单易行,开发周期短;

    ​ ii. 仅需很少的语言资源(词表),

    ​ iii. 不需要任何词法、句法、语义资源。

    ​ iv. 可以自定义词库,增加新词

    b) 缺点 : 效果差

    ​ i. Out of Vocabulary

    ​ ii. 歧义消解能力差;

    ​ iii. 切分正确率不高,一般在95%左右。

    c) 基于统计的分词方法

    字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻出现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便可认为此字组可能构成一个词语

    基于统计的分词方法的优缺点:

    a) 优点:

    ​ i. 分词准确度高;

    ​ ii. 能够平衡地看待词表词和未登录词的识别问题。

    b) 缺点:

    ​ i. 局限性,会经常抽出一些共现频度高、但并不是词的常用字组

    ​ ii. 对常用词的识别精度差,时空开销大

    ​ iii. 学习算法的复杂度往往较高,计算代价较大,依赖手工定义的特征工程

    基于HMM的中文分词方法

    HMM作用

    用来描述一个含有隐含未知参数马尔可夫过程。

    隐含状态之间存在转换概率;隐含状态和可见状态之间存在发射概率

    HMM模型是一个五元组:

    StatusSet: 状态值集合

    ObservedSet: 观察值集合

    TransProbMatrix: 转移概率矩阵 A

    EmitProbMatrix: 发射概率矩阵 B

    • –在某一状态下对应到某字的概率
    • –P(Observed[i]|Status[j])
      • •基于观察值只取决于当前状态值这一假设
      • •其实也是一个条件概率

    InitStatus: 初始状态分布

    ​ –句子的第一个字属于{B,E,M,S}这四种状态的概率

    •HMM三要素[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZlhDCqDG-1608430839951)(image\image-20201216190517905.png)]

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BROKijaw-1608430839953)(image\image-20201216190525015.png)]

    HMM模型可以用来解决三种问题

    a) 模型参数学习问题

    b) 预测问题

    c) 评估观察序列概率

    HMM分词

    预测问题,也叫解码问题

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NGSEDXN9-1608430839955)(image\image-20201216190642734.png)]

    Viterbi 算法

    如何分词:将句子中的词看成有可能四个状态BMES,最后求出最有可能的状态序列(根据路径)。就分词成功

    一种动态规划算法,它用于寻找最有可能产生 观测事件 序列的维特比路径——隐含状态序列

    •二维数组 weight[4] [7]

    ​ –4是状态数(0:B,1:E,2:M,3:S),

    ​ –7是输入句子的字数。

    ​ –P(Observed[i]|Status[j])

    ​ »比如 weight[0] [2] 代表 状态B的条件下,出现‘市’这个字的可能性。

    •二维数组 path[4] [15]

    –path[0] [2] 代表 weight[0] [2]取到最大时,前一个字的状态,

    •比如 path[0] [2] = 1, 则代表 weight[0] [2]取到最大时,前一个字(也就是明)的状态是E。

    第七讲 布尔模型与倒排索引

    在这里插入图片描述

    1、什么是信息检索模型

    信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组< D, Q, F, R(qi,dj) >

    D是一个文档集合,Q是一个查询集合,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值,F是一个框架,用以构建文档,查询以及它们之间关系的模型

    2、基于内容的信息检索模型有哪些?

    • 集合论模型:布尔模型、模糊集合模型、扩展布尔模型

    • 代数模型: 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型

    • 概率模型: 经典概率论模型、推理网络模型、置信(信念)网络模型

    • 深度学习模型

    3、布尔模型是什么

    一种简单的检索模型,建立在经典的集合论和布尔代数的基础上

    遵循两条基本规则:

    (1)每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为 0或1。

    (2)每篇文档:索引词(0或1)的集合

    进行查询的时候,用布尔表达式进行匹配,计算二值的相关度。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Py4ldaW5-1608430839958)(image\image-20201217120733627.png)]

    4、什么是bag of words 模型

    在信息检索中,Bag of words model假定

    (1)对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,

    (2)文本中每个词的出现都是独立的,不依赖于其他词是否出现,在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

    5、搜索引擎核心数据结构倒排文件(Inverted Files)(也叫倒排索引)

    6、什么是倒排索引

    有词项和倒排记录组成,**词项词典:**对于每一个词项,存储所有包含这个词项的文档的一个列表。**倒排记录表:**一个文档用一个序列号docID来表示。

    •建立索引的步骤:

    –词条序列Token Sequence

    ​ •(修改过的词条,文档ID)对 序列

    –排序

    ​ •先按照词条排序,

    ​ •再按照docID排序

    –构建词典和倒排表

    ​ •同一篇文档中多次出现的词被合并

    ​ •分割成词典和倒排表

    9、布尔检索模型的特点是什么

    优点:(1)查询简单,因此容易理解(下面的具体说明理解即可)

    • 布尔模型也许是IR系统中的最简单的模型

    • 是近30年来最主要的商业搜索工具

    • 当前使用的很多系统依然是使用的布尔模型

    • 电子邮件,图书馆分类系统,mac osx的spotlight

    (2)通过使用复杂的布尔表达式,可方便地控制查询结果

    • 同义关系 电脑 OR 计算机

    • 词组 数据 AND 挖掘

    缺点 (1)准确匹配,信息需求的能力表达不足。不能输出部分匹配的情况

    (2)无权重设计 无法排序

    (3)用户必须会用布尔表达式提问,一般而言,检出的文档或者太多或者太少。

    (4) 很难进行自动的相关反馈

    第八讲 向量空间模型

    排序检索

    系统根据文档与query的相关性排序返回文档集合中的文档;有布尔查询自由文本查询两种方式

    Jaccard 系数

    • 一种常用的衡量两个集合A,B重叠度的方法

    • Jaccard(A,B) = |A ∩ B| / |A ∪ B|(回答这个公式即可)

    • Jaccard(A,A) = 1

    • Jaccard(A,B) = 0 if A ∩ B = 0

    • 集合A和B不需要具有同样的规模

    –没有考虑

    ​ •文档长短

    ​ •词项频率(词项在文档中出现的次数)

    ​ •罕见词比高频词的信息量更大,更加具有区分度

    词项频率

    1. 词项t在文档d中出现的次数,记为tft,d)

      一种替代原始tf的方法: 对数词频 原始的词频tf以10为底取对数再加一

    2. 什么是idf:是逆文档频率,idft = log10(N/dft),df是文档频率,指出现词项的文档数目

      文档频率 (Document frequency,df)

      文档频率:出现词项的文档数目

      dft 文档集合中包含t的文档数目

      – 与词项t包含的信息量成反比

      dft <= N (N是文档的总数)

      idf (inverse document frequency)逆文档频率

      idft = log10(N/dft)

      idft 是反映词项t的信息量的一个指标

      – 用log (N/dft) 代替N/dft 来抑制idf的作用

    3. tf-idf是什么

      是信息检索中最著名的权重计算方法,表示t对于文档d的重要程度,词项t的tf-idf 由它的tf和idf组合而成 wt,d=(1+log tft,d) × log10(N/dft)

      (理解一下和重要程度是否符合:tf-idf值随着词项在单个文档中出现次数(tf)增加而增大,tf-idf值随着词项在文档集中数目(df)增加而减小)

    4. [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s9lj0KLn-1608430839959)(image\image-20201217145033660.png)]

    向量空间模型

    是一个**|V|维实向量空间**(V是词项集合,|V|表示词项个数),空间的每一维都对应一个词项,每篇文档表示成一个基于tf-idf权重的实值向量,向量的维度是词项的个数,文档是空间中的点或者向量,这就是向量空间模型

    向量相似度计算

    余玄相似度:(认为cos(di,q) > cos(dj,q),夹角更小,所以di比dj与q更相关)

    R(d,q) = cos(d,q) = d·q/|d|×|q|

    文档长度归一化

    •一个文档向量除以它的L2 范数(Xi的平方和取根号)就是给这个文档进行了长度归一化

    向量空间模型特点

    优点:

    (1)帮助改善了检索结果。

    (2)部分匹配的文档也可以被检索到。

    (3)可以基于向量cosine 的值进行排序,提供给用户。

    缺点:

    (1)这种方法假设标记词是相互独立的,但实际可能不是这样,如同义词、近义词等往往被认为是不相关的词

    (2)维度非常高:特别是互联网搜索引擎,空间可能达到千万维或更高

    (3)向量空间非常稀疏:对每个向量来说大部分都是0

    第九讲 检索排序

    精确top K 检索及其加速办法

    (一般)步骤:对每个文档评分(余弦相似度),按照评分高低排序,选出前K个结果

    如何加速:

    方法一:快速计算余弦

    方法二:堆排序法N中选K(不对所有文档的评分结果排序而直接选出Top K篇文档)只是缩减了排序这一步骤

    方法三:提前终止计算 (不需要计算所有篇文档的得分

    非精确top K检索

    简答题不用细答,看看了解

    基本思想:找一个文档集合AK < |A |<< N,利用A中的top K结果代替整个文档集的top K结果

    下面的策略就是为了缩减文档的数量

    • 策略一:索引去除(Index elimination)

    ​ 只考虑那些词项的idf 值超过一定阈值的文档

    ​ 只考虑包含多个查询词项

    • 策略二:胜者表(Champion list) 每个词项t对应tf值高的表

    • 策略三:静态得分 不仅相关,还权威,根据相关和权威度加权,对doc进行排序

    • 策略四:影响度(Impact)排序 以词项为单位,串行遍历词项的倒排索引表

    • 策略五:簇剪枝方法—预处理

    Pagerank算法

    •随机游走模型 是个一阶马尔可夫链

    ​ –用来描述不稳定的移动。

    ​ –移动节点随机选择一个方向和速度来从当前位置移动到新的位置

    PageRank的思路:在随机游走过程中访问越频繁的网页越重要

    PageRank的一般定义

    •PageRank一般定义的想法是在基本定义的基础上导入平滑项

    一个一定平稳分布的马尔可夫链:

    ​ M是转移矩阵,–R 是n维向量,表示的就是有向图的一般PageRank

    R = d M R + 1 − d n 1 R=d M R+\frac{1-d}{n} 1 R=dMR+n1d1

    ​ •第一项表示(状态分布是平稳分布时)依照转移矩阵M访问各个结点的概率,

    ​ •第二项表示完全随机访问各个结点的概率

    • 第一项表示:•在任意一个网页上,浏览者或者以概率d决定按照超链接随机跳转,这时以等概率从连接出去的超链接跳转到下一个网页
    • 第二项表示:•或者以概率(1-d)决定完全随机跳转,这时以等概率1/n跳转到任意一个网页
    • •第二个机制保证从没有连接出去的超链接的网页也可以跳转出。这样可以保证平稳分布,即一般PageRank的存在,因而一般PageRank适用于任何结构的网络。

    对于一个节点A

    P R ( A ) = ( P R ( B ) L ( B ) + P R ( C ) L ( C ) + P R ( D ) L ( D ) + ⋯ ⋅ ⋅ ) d + 1 − d N P R(A)=\left(\frac{P R(B)}{L(B)}+\frac{P R(C)}{L(C)}+\frac{P R(D)}{L(D)}+\cdots \cdot \cdot\right) d+\frac{1-d}{N} PR(A)=(L(B)PR(B)+L(C)PR(C)+L(D)PR(D)+)d+N1d

    其中,PR(A)表示页面A的级别,页面Ti链向页面A,L(Ti) 是页面Ti 链出的链接数量

    迭代算法

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CgRIEJHX-1608430839960)(image\image-20201217155401700.png)]

    HITS算法

    了解思想就行

    • 在HITS算法中,对每个网页都要计算两个值**:权威值(authority)与中心值(hub)**

    HITS和PageRank的区别

    a.HITS算法将重要性分为两个值权威值(authority)与中心值(hub),PageRank只计算一个值

    b.HITS和查询有关系,PageRank算法和查询无关

    机器学习排序

    步骤:

    –人工标注训练数据,给出文档和查询相关度

    –文档特征抽取、确定特征数量,文档转化为特征向量

    –学习分类函数、

    -在实际搜索系统中采用机器学习模型

    它有以下3种方法:

    (计算损失函数的方法,也是构造训练集的方法)

    单文档方法

    PointWise Approach

    • 损失函数评估单个 doc 的预测得分和真实得分之间差异

    文档对方法

    PairWise Approach

    • 是判断任意两个文档组成的文档对<D0C1,D0C2>是否满足顺序关系

    文档列表方法

    ListWise Approach

    • 搜索结果列表整体作为一个训练实例

    第10讲 信息检索的评价

    检索评测基础

    、•信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。

    测试集由一个文档集、一组信息查询实例、对应于每个信息查询实例的**一组相关文档(由专家提供)**所组成

    无序评测

    查全率和查准率

    无序检索结果的评价

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ri4IinkS-1608430839961)(image\image-20201217161456944.png)]

    查准率(Precision):返回的结果中真正相关结果的比率,也称为查准率, P∈ [0,1]

    召回率(Recall): 返回的相关结果数占实际相关结果总数的比率,也称为查全率,R∈ [0,1]
    P = R R R R + R N R = R R R R + N R P=\frac{R R}{R R+R N} \quad R=\frac{R R}{R R+N R} P=RR+RNRRR=RR+NRRR
    关于召回率的计算:增加一个缓冲池: •对多个检索系统的Top N个结果组成的集合进行人工标注,标注出的相关文档集合作为整个相关文档集合。查准率不变,召回率增大

    精确率,不用它

    平均

    –宏平均(Macro Average): 对每个查询求出某个指标,然后对这些指标进行算术平均

    –微平均(Micro Average): 将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pBY2WnOS-1608430839962)(image\image-20201217162720957.png)]

    F值(F-measure)

    F值(F-measure):召回率R和查准率P加权调和平均值

    • F1 标准则综合了精度和查全率,将两者赋予同样的重要性来考虑。F1的计算由下面的公式决定(调和平均数)
    F ( i , j ) = 2 × recall ⁡ ( i , j ) ×  precision ( i , j ) recall ⁡ ( i , j ) + precision ⁡ ( i , j ) F(i, j)=\frac{2 \times \operatorname{recall}(i, j) \times \text { precision}(i, j)}{\operatorname{recall}(i, j)+\operatorname{precision}(i, j)} F(i,j)=recall(i,j)+precision(i,j)2×recall(i,j)× precision(i,j)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8TG2e0UG-1608430839963)(image\image-20201217162932501.png)]

    调和平均值
    F = 2 1 r + 1 p F=\frac{2}{\frac{1}{r}+\frac{1}{p}} F=r1+p12

    排序评测

    R-查准率是什么

    • 计算序列中第R个位置文献的查准率。在公式里指分母

    • R是指与当前查询相关的文档总数.

    • R=10, R-查准率=4/10;

    • R=3, R-查准率=2/3

    查准率/查全率曲线

    横轴查全率,纵轴查准率

    曲线下的面积被称为AP分数(Average precision score)

    去掉锯齿,对一x取最大y

    Mean Average Precision (MAP)是什么

    • 平均查准率均值

    • MAP是多个查询/排名的平均精度

    • 在每个相关文档位置上查准率的平均值,被称为平均查准率 Average Precision (AP)

    也就是对每个查询相关的R-查准率(在R位置上的那个文档是相关的)累计求和取均值

    NDCG是什么

    一种总体观察检索排序效果的方法,利用检索序列加和(每个搜索结果都要有个评价分,越高越好)的思路来衡量。

    第11讲 概率检索模型

    不考推导,只看思想,只有填空

    看不懂,这点分,不要也罢

    Probability ranking principle PRP概率排名原则

    令x代表集合中的文档。令R代表文件w.r.t.的相关性。给定(固定)查询,令R = 1表示相关,而R = 0不相关。

    • 概率检索模型作为一个分类问题

    • 对于某个文档d来说,如果其属于相关文档子集的概率大于属于不相关文档子集的概率,我们就可以认为这个文档与用户查询q
    是相关的。

    • P(R=1|q,d)代表给定一个文档D对应的相关性概率
    • P(R=0| q,d)则代表该文档的不相关概率

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZfmzRkaD-1608430839964)(image\image-20201216194643050.png)]

    概率检索策略

    1. 估计每个词项对相关性的贡献
    2. 合并以查找文档相关性概率
    3. 通过概率降低顺序对文档进行排序

    BIM Binary Independence Model 二元独立模型

    Binary” =布尔值:文档表示为词项的二进制关联向量

    Independence:term在文档中独立出现

    词包模型

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lpCcQel0-1608430839965)(image\image-20201216195435537.png)]

    BM25

    BM25是信息索引领域用来计算query与文档相似度得分的经典算法

    • 不同于TF-IDF,BM25的公式主要由三个部分组成:
      • query中每个单词t与文档d之间的相关性
      • 单词t与query之间的相似性
      • 每个单词的权重

    目标:对术语频率和文档长度敏感,同时不添加太多参数

    文件生成模型

    ​ 使用多项式分布从词典中独立绘制单词

    ​ 词项频率(tf)的分布遵循二项式分布-由泊**松(Poisson)**近似

    泊松模型

    ​ 假设文档中的词频(tfi)遵循泊松分布

    ​ •“固定间隔”表示文档长度固定…认为大小恒定的文档摘要•…稍后将修复

    第12讲 隐语义空间

    奇异值分解需要了解,但是不考了

    •用前r大的奇异值来近似描述矩阵

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WX65Uzzn-1608430839966)(C:\Users\yandalao\AppData\Roaming\Typora\typora-user-images\image-20201220095654805.png)]

    PCA主成分分析(回忆计算机视觉)

    隐语义分析 LSA

    在这里插入图片描述

    什么是LSA

    1. –使用统计计算的方法对大量的文本集进行分析,
    2. –从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词和文本
    3. 达到消除词之间的相关性和简化文本向量实现降维的目的

    高维的向量空间模型(VSM)表示中的文档映射低维的潜在语义空间

    基本步骤

    (1)建立词频矩阵

    (2)计算矩阵的奇异值分解

    (3)对于每一个文档d,用排除了SVD中消除后的词的新的向量替换原有的向量

    (4)用转换后的矩阵进行文档索引和相似度计算

    LSA优点

    (1)文档和单词都映射到同一个语义空间,所以可以计算文档和文档的相似度,词项和词项的相似度,词项和文档的相似度

    (2)语义空间的维度明显明显少于源单词-文章矩阵

    最关键的性质:每个奇异值对应的是每个“语义”维度的权重

    •将不太重要的权重置为0,可以保留重要的信息,去掉一些信息“枝节”。。枝节信息可能会使本来应该相似的对象不相似

    LSA缺点

    a) 无法解决多义词的问题

    b) 特征向量的方向没有对应的物理解释

    c) SVD的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练

    d) 维数的选择是ad-hoc的

    e) LSA具有词袋模型的缺点,即在一篇文章,或者一个句子中忽略词语的先后顺序

    f) LSA的概率模型假设文档和词的分布是服从联合正态分布的,但从观测数据来看是服从泊松分布的

    概率潜在语义分析 pLSA

    什么是pLSA

    a) PLSA是以统计学的角度来看待LSA,是基于双模式和共现的数据分析方法延伸的经典的统计学方法

    生成模型

    •在概率统计理论中,

    • –生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。
    • 它给观测值和标注数据序列指定一个联合概率分布

    什么是主题模型?

    1. 一篇文档(Document) 可以由多个主题(Topic) 混合而成
    2. 每个Topic 都是词汇上的概率分布
    3. 每个词都是由一个固定的 Topic 生成的

    “文档-词项”的生成模型的训练?

    a) 按照概率选择一篇文档d

    b) 选定文档后,从主题分布中按照概率选择一个隐含的主题类别p(z|d)

    c) 选定后,从词分布中按照概率p(w|z)选择一个词

    PLSA生成文档的过程?

    a) pLSA中生成文档的整个过程便是选定文档生成主题,确定主题生成词

    b) 自动地发现文档集中的主题(分布)

    ​ i. 根据大量已知的文档-词项信息p(w|d) ,

    ​ ii. 训练出文档-主题p(z|d)和主题-词项p(w|z)

    EM算法

    PLSA有哪些应用?

    根据p(z|d)来的

    a) 文本聚类

    b) 文本分类

    PLSA的优势?

    a) 定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释

    b) 相比于LSA隐含了高斯分布假设,pLSA隐含的Multi-nomial分布假设更符合文本特性

    c) pLSA的优化目标是是KL-divergence最小,而不是依赖于最小均方误差等准则

    d) 可以利用各种model selection和complexity control准则来确定topic

    pLSA不足

    •随着document和term 个数的增加,pLSA模型也线性增加,变得越来越庞大;

    •PLSA可以生成其所在数据集的的文档的模型,但却不能生成新文档的模型。

    •EM算法需要反复的迭代,需要很大计算量;

    •概率模型不够完备

    ​ –不是完整的贝叶斯模型

    –文档-主题p(z|d)和主题-词项p(w|z)是直接根据数据估计出来的,没有进一步引入先验

    这两点在LDA模型做了优化

    LDA模型

    什么是LDA模型?

    a) 一个隐含狄利克雷分布的主题模型

    和pLSA主题模型有什么区别

    增加了狄利克雷的先验知识,所有的参数都不是设定的,而是进行了全贝叶斯化,更符合实际的情况

    GENSIM

    Gensim是一个用于从文档中自动提取语义主题的Python库

    第一步、准备训练语料

    第二步、预处理

    ​ –分词(tokenize the documents)、去除停用词和在语料中只出现一次的词

    第三步、文本向量化

    第13讲 词嵌入

    重点:统计语言,表征学习

    统计语言模型

    什么是语言模型和统计语言模型?

    a) 语言模型根据语言客观事实而进行的语言抽象数学建模

    b) 统计语言模型为上下文相关的特性建立数学模型

    语言模型的公式

    –S :一连串特定顺序排列的词ω1,ω2,…,ωn

    a) S 的概率 P(S)等于每一个词出现的概率相乘

    b) P(S) =*P*(ω1)•*P*(ω2|ω1)•*P*(ω3|ω1,ω2)•••*P*(ωn|ω1,ω2,…,ωn-1)

    什么是n-gram语言模型?

    N-1阶马尔可夫假设:

    ​ 假定文本中的每个词ωi和前面的N-1个词有关,而与更前面的词无关

    对应的语言模型称为N元模型(N-Gram Model)

    统计语言模型、n-gram语言模型有什么应用

    • 文本生成、机器翻译

    • 拼写纠错

    • 语音识别

    • 音字转换

    • 分词

    n-gram语言模型的缺点

    a) 简单有效

    b) 只考虑了词的位置关系,

    c) 没有考虑词之间的相似度,词语法和词语义,

    d) 还存在数据稀疏的问题

    文档重复检测

    判断重复的思路:

    –为每一个web文档通过hash的方式生成一个指纹(fingerprint)。

    –将高维的特征向量映射成一个f-bit的指纹(fingerprint),

    通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似

    shingl算法

    •核心思想是将文件相似性问题转换为集合的相似性问题

    –给定正整数k及文档d的一个词项序列,可以定义文档dk-shingled中所有k个连续词项构成的序列。

    –a rose is a rose is a rose → 4-Grams

    a_rose_is_a

    ​ rose_is_a_rose

    ​ is a rose is

    ​ a_rose_is_a …

    直观上看,如果两个文档的shingle集合几乎一样,那么它们就满足近似重复

    局部敏感哈希 LSH

    局部敏感哈希可以用来降维

    MinHash的用处

    a) 可以用来快速估算两个集合的相似度。

    b) 用于在搜索引擎中检测重复网页。

    c) 它也可以应用于大规模聚类问题

    SimHash的步骤

    a) 分词、hash、加权、合并、降维

    w指的是每个term的权重

    加权:遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘 例如W(CSDN) = 100101 4 = 4 -4 -4 4 -4 4

    降维:对于n-bit签名的累加结果,如果大于0则置1,否则置0

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IfucazqJ-1608430839967)(image\image-20201216220909219.png)]

    相似度判断:每篇文档得到SimHash签名值后,接着计算两个签名的海明距离即可

    表征学习和词嵌入

    •表征学习:

    –在机器学习中,表征学习是学习一个特征的技术的集合

    –将原始数据转换成为能够被机器学习来有效开发的一种形式。

    ​ •向量

    •嵌入(embedding)

    ​ –是一种可用于将离散变量表示成连续向量的方法。

    神经网络语言模型

    NNLM

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7JBzTbHC-1608430839968)(image\image-20201217085938669.png)]

    知道这个图各部分意思,下面的word2vec就是改进了一下上面

    word2vec

    •对原始的NNLM模型做如下改造:

    1. –移除前向反馈神经网络中非线性的hidden layer( tanh 隐藏层),直接将中间层的embedding layer与输出层的softmax layer连接;
    2. –忽略上下文环境的序列信息:输入的所有词向量均汇总到同一个embedding layer;
    3. –将future words纳入上下文环境

    •连续词袋模型 CBOW

    根据某个词前面的C个词或者前后C个连续的词,来计算某个词出现的概率

    步骤,PPT非常清晰了

    V是词项数量,N是中间向量那个O的维度

    具体步骤:

    1. 模型输入:上下文的one hot表示方式

      ​ –1xV的向量

      ​ –V 词汇表大小

    2. 输入分别跟同一个VxN的大小的系数矩阵W1相乘得到C个1xN的隐藏层hidden layer,

    3. 然后C个取平均所以只算一个隐藏层

    4. •隐藏层跟另一个NxV大小的系数矩阵W2相乘得到1xV的输出层,

      ​ –这个输出层每个元素代表的就是词库里每个词的事后概率。

    5. •输出层需要跟ground truth也就是“coffee”的one hot形式做比较计算loss

    6. •通过大量的数据迭代,使用梯度下降更新W和W’,来最小化loss函数,

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yf0THKo1-1608430839969)(image\image-20201217090553751.png)]

    •Skip-Gram Model

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8BKqtI1Y-1608430839970)(file:///D:\360MoveData\Users\yandalao\Documents\Tencent Files\2922610627\Image\C2C\AB502D3E6C82F00132C9127A669EA5E0.jpg)]

    Skip-Gram Model相反,是根据某个词,然后分别计算它前后出现某几个词的各个概率

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dR2lyz5a-1608430839970)(image\image-20201217091825010.png)]

    Skip-gram–名称源于该模型在训练时会对上下文环境里的word进行采样

    •基于成对的单词来对神经网络进行训练,

    ​ –训练样本是 ( input word, output word ) 这样的单词对

    ​ –input word和output word都是one-hot编码的向量。

    ​ –最终模型的输出是一个概率分布

    ​ •输出层使用了sotfmax。

    •模型的本质:

    ​ 计算输入word和输出word的余弦相似度,并进行softmax归一化(想象一下softmax图像,所有的值都被分配到[0,1]之间的数)

    •直接对词典里的 V 个词计算相似度并归一化,显然是一件极其耗时的impossible mission。为了加快速度优化:

    1. 负采样:
    2. –层次Softmax(Hierarchical Softmax)

    word2vec 应用

    列出所有相似词语列表 和程序猿相似词语,比如攻城狮,比如猝死

    词汇的语义的类比 皇帝-皇后=男-女

    寻找对应关系: 男人——男孩 女人——女孩

    第14讲 图片检索

    图像检索

    跨媒体检索Cross-Media Retrieval

    不同媒体映射到同一低维度空间

    •基于文本的[图像检索技术]TBIR

    ​ –查询词:文本

    ​ –搜索引擎

    ​ •爬虫 图片

    ​ •索引 图片对应的文字,锚文本,URL

    ​ •基于图像周围文本的检索

    ​ •基于链接锚文本的检索

    基于内容的图像检索CBIR

    –用户输入一张图片,以查找具有相同或相似内容的其他图片

    ​ CBIR 的关键技术:图像特征提取和特征匹配

    图像特征

    •图像的特征主要包括低层特征(Primitive Features)和语义特征(Semantic Features)

    –低层视觉

    1. •与图像的具体类型或内容无关,

      –颜色、形状、纹理等

    2. •某些先验知识(或假设)

      –人的面部特征

      –指纹特征

    图片的特征有颜色特征、形状特征、纹理特征

    颜色特征

    底层、直观,鲁棒性强

    颜色特征的表示有几种

    1、颜色直方图(Color Histogram) 直方图,就是CV教的那个,但是是对颜色来的,不是灰度

    ​ 没有体现空间信息,平移尺度旋转不变性

    • **2、颜色相关图(Color Correlogram)**不考

    3、颜色矩(Color Moment)

    –在颜色直方图的基础上计算出每个颜色的矩估计

    4、颜色一致性矢量(Color Coherence Vectors, CCV)

    纹理特征

    一般说纹理就是指在图像中反复出现的局部模式和它们的排列规则

    基于统计特征的纹理特征提取

    1.灰度差分统计法

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DJPGNRYU-1608430839972)(image\image-20201217105234873.png)]

    2.基于灰度共现矩阵的纹理特征 –常用统计量:对比度、相关度、方差、熵

    3.Tamura纹理特征

    •Tamura纹理特征中所有纹理特征都在视觉上有意义。

    对比度(contrast)、粗糙度(coarseness)、方向性(directionality)对于图像检索尤为重要。

    –线像度(1ine likeness)、规整度(regularity)和粗略度(roughness)。

    基于信号处理方法描述纹理特征

    –利用某种线性变换、滤波器或者滤波器组将纹理转换到变换域,

    –然后应用某种能量准则提取纹理特征。

    形状特征

    有一定的语义信息

    •基于轮廓的形状描述符

    1. 链码–差分结果第一位是原链码最后一位和第一位相减的结果。–例如,对于4向链码10030321的一阶差分的结果为03031333

    2. 基于网格的方法

    3. 傅里叶描述子

      –物体轮廓线表示成一个一维的轮廓线函数

      –傅立叶级数中的一系列系数z(k)是直接与边界曲线的形状有关的,称为傅立叶描述子.

      •基于物体轮廓坐标序列的傅立叶描述子具有最佳的形状识别性能.

    4. 感知哈希算法

      •全局特征降维

      (1)对每张图片生成一个**“指纹”(fingerprint)字符串,也就是图片的特征**

      (2)然后比较不同图片的指纹,结果越接近,就说明图片越相似(用海明距离来计算)

      (之前计算文档相似度的局部敏感哈希也是用hash法,比较哈希码的相似度来判断文档相似程度,都是用海明距离)

      那么怎么将图片变为哈希码呢?

      (1)均值Hash算法

      缩小尺寸,收缩色彩度(比如300-64),计算所有像素的灰度平均值,阈值二值化,二值化结果为哈希值

      (2)pHash算法

      (3)颜色分布法–红绿蓝分别有4个区(颜色分段)

      –总共可以构成64种组 4^3。

      •任何一种颜色必然属于这64种组合中的一种——特征为64维向量,计算余弦相相似度

      ​ (4)•内容特征法

      (图片二值化)–原图转成一张较小的灰度图片,确定一个阈值,将灰度图片转成黑白图片

      –两张图片很相似,它们的黑白轮廓应该是相近的

    •基于区域的形状描述符

    大津法Otsu’s method

    a) 证明了 "类内差异最小"与"类间差异最大"是同一件事

    b) 计算方法:

    ​ i. 灰度值小于阈值的像素为 n1 个,

    ​ ii. 大于等于阈值的像素为 n2 个

    ​ iii. w1 和 w2 表示这两种像素各自的比重

    ​ iv. w1 = n1 / n

    ​ v. 类内差异 = w1(σ1的平方) + w2(σ2的平方)

    ​ vi. 类间差异 = w1w2(μ1-μ2)^2

    图像局部特征

    LBP特征

    局部二值模式 Local Binary Patterns,结合了纹理图像结构像素统计关系纹理特征描述方法

    LBP怎么构造

    • LBP算子定义为在3*3的窗口内,

    • 以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素 点的位置被标记为1,否则为0。

    • 3*3邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即LBP码,共256种),即得到该窗口中心像 素点的LBP值,并用这个值来反映该区域的纹理信息。

    LBP的应用中,如纹理分类、人脸分析等,采用LBP特征谱的统计直方图作为特征向量用于分类识别。可将一幅图片化为多个子区域,分别求每个子区域的统计直方图。

    HOG特征

    关键词:cell,梯度直方图,行人检测

    HOG是什么?

    a) 方向梯度直方图,Histogram of Oriented Gradient, HOG

    b) 一种在计算机视觉和图像处理中用来进行物体检测的特征描述子

    c) 通过计算和统计图像局部区域的梯度方向直方图来构成特征

    Hog特征结合 SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功

    HOG特征如何提取?

    a) 灰度化

    b) 采用Gamma校正法对输入图像进行颜色空间的标准化(归一化)

    c) 计算图像每个像素的梯度

    d) 将图像划分成小cells

    e) 统计每个cell的梯度直方图

    梯度直方图,横轴是梯度方向,y轴是在该梯度方向的梯度值的和

    f) 将每几个cell组成一个block

    g) 将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image的HOG特征descriptor了

    HOG算法的优缺点?

    a) 优点

    ​ i. 由于HOG是在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不 变性,这两种形变只会出现在更大的空间领域上。

    ​ ii. 其次,在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿 势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。

    ​ iii. 因此HOG特征是特别适合于做图像中的人体检测的

    SIFT

    SIFT特征是什么

    尺度不变特征转换,Scale-invariant feature transform或SIFT,在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。

    SIFT特征和HOG特征好处

    SIFT特征不只具有尺度不变性,即使改变旋转角度,图像亮度或拍摄视角,仍然能够得到好的检测效果,Hog没有旋转和尺度不变性

    SIFT有哪几个步骤

    – 步骤一:建立尺度空间

    • 即建立高斯差分(DoG)金字塔

    – 步骤二:在尺度空间中检测极值点,并进行精确定位和筛选

    – 步骤三:特征点方向赋值,

    • 完成此步骤后,每个特征点有三个信息:位置、尺度、方向

    – 步骤四:计算特征描述子

    SIFT特征的匹配是暴力匹配

    图像检索算法

    图像检索算法

    a) 图像检索领域:将局部特征表示成全局特征的编码

    b) 通常继承了局部特征的部分不变性,如对平移、旋转、缩放、光照和遮挡等与语义相关不大的因素保持不变

    三种经典的编码

    a) [BoW](http://yongyuan.name/blog/Bag of visual words model: recognizing object categories)

    b) VLAD局部聚合向量

    c) FV

    BOF

    图像视为文档,局部特征经过聚类后看作一个视觉词汇(也就是词)

    BOF算法先求出特征点,再聚类生成类心,得到视觉词汇,生成直方图(横轴视觉词汇,纵轴频数),再根据TF-IDF调整权重

    查询时,求夹角余弦

    BOF算法流程

    – 1.用surf算法生成图像库中每幅图的特征点及描述符。

    • surf算法是关键点计算和描述算法,作用和SIFT相似。

    – 2.再用k-means算法对图像库中的特征点进行训练,生成类心。

    – 3.生成每幅图像的BOF,

    • 判断图像的每个特征点与哪个类心最近,最近则放入该类心,最后将生成一列频数表,即初步的无权BOF(直方图向量)。

    – 4.通过tf-idf对频数表加上权重,生成最终的bof。

    • 因为每个类心对图像的影响不同。比如超市里条形码中的第一位总是6,它对辨别产品毫无作用,因此权重要减小。

    • TF/IDF

    – 5.对查询图像也进行3.4步操作,生成该图的直方图向量BOF。

    – 6.将查询图像的Bof向量与图像库中每幅图的Bof向量计算相似度

    • 求夹角余弦。

    Fisher vector

    FV考虑了特征点到每个聚类中心的距离,也就是用所有聚类中心的线性组合去表示该特征点

    ​ –FV描述局部特征和GMM中心之间的平均一阶和二阶差异

    VLAD特征

    •可以认为VLAD是FV的简化版本

    •如同BOF先建立出含有k个visual word的codebook,只考虑离特征点最近的聚类中心

    ​ -采用的是计算出local descriptor和每个visual word(ci)在每个分量上的差距,将每个分量的差距形成一个新的向量来代表图片

    展开全文
  • 信息检索习题

    千次阅读 2021-06-30 16:49:44
    一、填空题 1.著名的引文索引检索工具SCI的...6.一本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部分 6.按约束力来划分,标准可以分为强制性标准和推荐性标准。 7.一般来说,我们把SCI、

    一、填空题

    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。

    2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。

    3.中国专利法在1985年开始实施

    4.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop

    5.在CNKI平台下,“主题”检索的内容,不包含以下哪个?(作者)

    6.一本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部分

    6.按约束力来划分,标准可以分为强制性标准和推荐性标准。

    7.一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。

    8.一个期刊被SCI收入后,会有一个WOS开头的入藏号。

    9.广义的文献检索工具,可以分为:检索工具和【参考工具】。

    10.《中图分类法》中,字母S代表的是“农业科学”,字母【T】代表的是“工业技术”。

    11.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。

    12.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。

    13.著名的SCI检索工具,其英文全称是:【Science Citation Index】。

    14.判断一本国内期刊是否合法的一个简单方式是,查看该期刊的哪个信息?(CN)

    15.按信息的出版类型分:学位论文,属于以下哪种信息源?(特殊文献)

    16.Spischolar平台主要是搜索,哪种类型的参考文献?(电子学术论文)

    17.政府出版物,从信息出版形式的角度看,属于以下哪类信息源?(特殊文献)

    18.一般情况下,Open Access方式发表的文献,版权是归谁所有?(作者所有)

    19.CPCI检索是针对哪种文献类型**(会议论文类型的文献)**

    20.中科院文献情报中心,对JCR期刊按其影响因子和引用率,分类几个区?(4个)

    21.引文检索除了实现信息评价外,还能达到**【信息检索】**的目的。

    22.关键字是论文的组成部分,学术论文的关键字,其数量一般控制在:**(3-8)**个?

    23.美国是在1976年的《著作权法案》,首次为合理使用制定了标准。

    24.按《中国标准文献分类法》,其一级类目中“电子元件与信息技术”,用哪个字母表示?(L)

    25.学术造假一般分为三类,分别是:伪造、篡改和造假。

    26.百度、谷歌这样的搜索引擎,属于什么类型的搜索引擎【全文搜索引擎】

    27.Compendex数据库是属于:【二次】文献数据库。

    28.用户想要检索和下载“电子图书”,一般推荐选择哪个检索平台?【读秀】

    29.书生之家平台上检索的文献类型主要是哪类?【电子图书文献】

    30.不是Web of Science平台的主要期刊来源的是哪个?【EI】

    31.防止学术剽窃,一般采取的方法有:教育、法律和科技手段。

    32.在大多数情况下,检索的目的是为了找到 相关文献 ,而不是"答案"。

    33.二八定律在期刊文献检索中的体现是:20%的期刊登载了80%的重要文献,体现这种特性的期刊是 核心期刊 。

    34.文献的特性有 知识信息性 、 客观物质性 、 人工记录性 、 动态发展性 。

    35.文献的 内容 特征用于找出相关文献, 外部 特征用于获得特定文献。

    36.文献获取与利用的过程中存在三重语言障碍,分别为: 自然语言障碍 、 专业语言障碍 、 检索语言障碍

    37.检索工具的基本类型有: 目录 、 题录 、 文摘 、 索引 。

    38.以单篇文献为著录对象,并附有摘要的检索工具为: 文摘 。

    39.从内部特征进行检索的最重要的两种检索途径是: 主题途径 、 分类途径 。

    文献检索语言是 标引 与 检索 共同使用的约定语言。

    40.主题词语言具有三个基本特征:着眼于从 内容 特性方面去提示文献主题、采用 文字符号 、按 字顺 排列。

    41.当查询关键词具有多个含义的时候,容易造成 误检 ,使得 查准率 较低。

    42.主题词的体现形式是 叙词表 。

    43.辨识科技报告最明显的标志是 科技报告编号 ,一般由 单位编号 和 报告序号 组成,有的还包括类型代码。

    44.《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为22个大类。

    45.按内容可将计算机检索系统的数据库类型分为: 文献书目型 数据库、 事实型 数据库、 数值型 数据库和 全文型 数据库。

    46.我国标准可分为国家标准、 部标准 和 企业标准 三大类。

    47.在实际检索中,文献的检索方法主要有: 直查法 、 追溯法 、 工具法 和综合法。

    48.国际标准化组织简称:ISO 、本标准每 5 年修订一次

    49、信息素质的内涵包括 信息意识 、 信息能力 和 信息道德 。

    50.连续出版物的主要类型有 期刊 、 报纸 和 年底出版物 。

    51、. 构成文献的三要素是 知识 、 载体 和 记录 。

    52.CNKI的中文全称是: 中国知识基础设施工程 。

    信息检索常用的方法有: 引文追溯法 、 工具法 和 循环法
    55、专利有三层含义: 新颖性 、 创造性 和 实用性 。

    55.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。

    56.国家标准的代号体系中,地方标准的代号是__ DB__

    二、选择题

    在网络上检索某地的天气预报,属于检索事实型的信息。A.事实 B.数值 C.微内容 D.全文

    在我国,专利的类型不包括,以下哪个?
    A.实用新型专利 B.软件设计专利 C.外观设计专利 D.发明专利

    1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
    A.分类索引  B.作者索引  C.引文索引   D.主题索引
    2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。
    A.超星数字图书馆 B.万方学位论文 C.国研网 D.维普科技期刊 E.高校财经库
    4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。
    A.关键词   B.作者   C.刊名   D.题名   E.文摘
    5、二次文献又称检索工具,包括:( A C D )。
    A.书目  B.百科  C.索引  D.文摘  E.统计数据
    书生之家平台上检索的文献类型主要是哪类?(C)P126
    A 、学位论文文献 B、期刊文献 C、电子图书文献 D、会议论文文献

    文献是记录有知识的( A )A 载体 B 纸张 C 光盘 D 磁盘
    下列哪种文献属于一次文献( A )A 期刊论文 B 百科全书 C 综述 D 文摘
    下列哪种文献属于二次文献( D )A 专利文献 B 学位论文 C 会议文献 D 目录
    下列哪种文献属于三次文献( C )
    A 标准文献 B 学位论文 C 综述 D 文摘
    下列选项中属于连续出版物类型的选项有( C )
    A 图书 B 学位论文 C 科技期刊 D 会议文献
    下列选项中属于特种文献类型的有( D )
    A 报纸 B 图书 C 科技期刊 D 标准文献
    利用文献末尾所附参考文献进行检索的方法是( C )
    A 倒查法 B 顺查法 C 引文追溯法 D 抽查法
    至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为( A )
    A 数据库 B 记录 C 字段 D 文档
    广义的信息检索包含两个过程( B )
    A 检索与利用 B 存储与检索 C 存储与利用 D 检索与报道
    狭义的专利文献是指( C )
    A 专利公报 B 专利目录 C 专利说明书 D 专利索引
    根据国家相关标准,文献的定义是指“记录有(A )的一切载体”。 A.情报 B.信息 C.知识
    2、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献 C.二次文献 D.三次文献
    3、文摘、题录、目录等属于( B ) A.一次文献 B.二次文献 C.零次文献 D.三次文献
    4、手稿、私人笔记等属于( C)文献,辞典、手册等属于( )文献 A.一次,三次 B.零次,二次 C.零次,三次 D.一次,二次
    5、按照出版时间的先后,应将各个级别的文献排列成( A ) A.三次文献、二次文献、一次文献 B.一次文献、三次文献、二次文献 C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献
    6、( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。 A.零次文献 B.二次文献 C.一次文献 D.三次文献
    7、一次文献、二次文献、三次文献是按照( A )进行区分的。 A.内容的公开次数 B.原创的层次 C.印刷的次数 D.评论的次数
    8、从文献的( C )角度区分,可将文献分为印刷型、缩微型等。 A.内容的公开次数 B.载体类型 C.出版类型 D.公开程度
    9、具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D ) A.图书 B.会议文献 C.学位论文 D.期刊
    10、利用文献后面所附的参考文献进行检索的方法称为( A ) A.追溯法 B.直接法 C.抽查法 D.综合法
    12、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录
    14、课题“计算机在情报检索中的应用”的中图法分类号及类名为( D ) A.TP3计算机技术 B.TP399计算机技术的应用 C.G250图书馆学 D.G252.7情报检索
    17、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于( C ),在书目数据库中,一条记录相当于( ) A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘
    27、《中国学术期刊全文数据库》提供的文献内容特征检索途径有( B ) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者
    28、《中国学术期刊全文数据库》提供的文献外表特征的途径有( B ) A.关键词,篇名 B.机构,中文刊名 C.作者,篇名 D.文摘,中文刊名
    37、《中图法》中基本大类由22个字母表示,“E”表示的是(C ) “O”表示的 是 ( )。 A:经济、军事, B:自然科学、文学, C:军事、数理科学和化学 D:经济、外语
    1.下面哪些属于二次文献( BCD )。
    A.手册; B.文摘; C.目录; D.题录.

    三、名词解释题

    1、文献
    用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。
    2、体系分类语言
    体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。
    3、引文语言
    引文语言是根据文献所附参考或引用文献的特征进行检索的语言。
    4、事实检索
    以事项为检索内容的文献信息检索
    5、二次文献
    对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等
    16、从广义上讲,什么是文献检索工具?
    就是根据需要,以特定的编排方式和检索方法,为人们提供某方面的基本知识或文献检索,专供查询的书籍或电子数据库。可分为检索工具书和参考工具书两大类。
    17、按文献的加工层侧来分,什么是零次文献?
    就是记录在非正规物理载体上的未经任何加工处理的源信息叫做零次信息。
    比如书信、论文手稿、笔记、实验记录、会议记录等,这是一种零星的、分散的和无规则的信息。零次信息的载体形式就称之为零次文献。
    18、请解释一下,什么是纸质型文献?
    概述:以纸张为载体,用书写或印刷等方式记录知识的文献。纸质文献最早出现在中国,4世纪以后逐渐在世界各地传播和应用。纸质文献按纸的种类大致可分为麻纸文献、皮纸文献、竹纸文献等。
    特点:1、符合人们的阅读习惯2、便于保存3、具有权威性4、有利于知识产权保护5、纸质文献仍具有强大的生命力
    19、请解释一下,什么是引文索引?
    引文索引就是是利用文献之间的相互引证关系来检素文献的。
    我们从引文索引中查出一批所需的文献后,再利用这些文献的引文查找一批新的文献,这样不仅能获得一定数量的相关文献,还能揭示旧文献对新文献的影响,新文献对旧文献的评价,展现新旧文献在学术研究中的关系;。
    20、文献的开放获取(Open Access)。
    开放获取的英文全称是Open Access,简称OA。
    它是一种国际上的学术界、出版界、情报界为了推动科研成果利用互联网自由传播而采取的行动。指文献全文的免费、即使和永久获取。

    四、问答题

    1、简述论文选题的基本原则?
    1)选题要目的明确,学以致用,理论联系实际 。2)要选择有创造性有学术价值的课题。3)选题要量力而行,难易适中。4)选题地方法。5)题目的确定
    2、制定检索策略的步骤与技巧是什么?
    1)分析检索课题明确检索需求(2)选择检索系统和数据库(3)确定检索词和检索途径

    五、判断题

    在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?F
    各国专利文献数据库中,文摘可以免费检索,但浏览全文需付费。×
    一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。(√)
    一篇被CSCD数据库收入的文献,会有一个CSCD开头的入藏号。(√)
    对于发明专利,在中国的保护期,要比在美国的保护期短。×
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?×
    目录是目和录的合称,定其次之谓目,辨其名之谓录。( × )
    21.在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    22.学术论文具有:科学性、学术性和创新性的特征。
    23.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop
    24.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。
    25.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。
    EI检索,提供的是全文检索方式。(× )
    一般的检索平台提供的跨库检索,也被称为一站式检索。(√ )
    DOI(Digital Object Identifier)既数字对象标识,是数值环境中内容对象的永久性标识号。( √)
    以“磁盘”作为载体的电子文献类型,其标识代码为:MT。(× )
    Open Access(OA)属于发表人付费,阅读与引用人免费的论文出版模式?(√ )
    67. 1948年,美国数学家、信息论的创始人维纳在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。 ( × )
    1948年,美国数学家、信息论的创始人仙农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。
    68. 从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。( × )
    从文献检索的角度来看,一次文献是检索的对象,二次文献是用于检索的主要手段和工具。
    69. 《中国图书馆分类法》是按知识门类的学科体系的逻辑次序进行分类。( √ )
    70. 核心期刊是指经常使用的期刊。( × )
    核心期刊是指那些信息密度大、内容质量高、论文寿命长、被引率、被索率、被摘率、借阅率也较高,能代表某学科、专业最新发展水平和趋势的期刊。
    71. 一项发明创造要获得专利权必须具备新颖性、创造性和实用性。( √ )
    72. 专利是受法律保护的,其中发明专利的保护期限是10年。( × )
    73. 题录型检索工具,其著录项目主要包括文献篇名、作者、文献出处。( √ )
    74. TCP/IP协议的作用是保证各种不同类型的计算机网络实现相互通信。( √ )
    75. EBSCOhost 数据库中的BSP(Business Source Premier)是学术期刊数据库的简称。( × )

    六、问答题:

    23、一般的文献检索工具,必须具备哪四个基本条件?
    1.必须详细著录文献的外部特征(篇名、著者姓名、文献序号等)和内容特征(文献的学科属性和主题内容等);
    2.必须具有既定的检索标识(如文献的分类标识、主题词、著者姓名、文献序号等);
    3.能够提供多种检索途径。
    4.全部文献必须根据标识,系统地、科学地排列,成为一个有机的整体;
    76. 请解释信息、知识、文献的概念,并简述三者之间的关系
    答:不同领域对信息的定义不同,图书情报界对信息的定义:信息是客观事属性和运动状态的外在表现。知识是人们对客观事物存在和运动规律的认识。
    文献是记录有知识的一切物质载体。
    信息、知识与文献的关系可以归结为:信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储、传递知识和信息的载体。信息不等于知识,知识是信息的重要组成部分。信息与知识这种包含关系可以表示为:信息大于知识。在自然界的万事万物中,信息是物质世界表征其存在的一种形式。信息,有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制;知识,无形的、与行动和决策相关、经过处理改变思维、精神产品、环境改变涵义、经过学习才能转让、无法复制。
    知识是有组织的大量的信息,获得知识有赖于获得信息;信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物。并非所有信息都可成为知识,在信息时代,源于众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。

    2、信息、知识、情报、文献的概念?文献的组成要素?
    信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。
    2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理
    3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。
    知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总和。
    情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。
    文献的概念:是记录有知识的一切载体。
    文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。

    3、信息、信息资源包括那些类型?
    1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等
    信息资源类型:根据存储媒介不同,信息资源可以划分为印刷型信息资源、电子信息资源、数字信息资源和多媒体信息资源。

    4、文献有那些类型?将文献划分成这些类型的依据是什么?
    1)根据载体材料、存储技术、和传递方式划分
    可划分为:印刷型、缩微型、试听型和机读型文献信息源
    2)根据加工程度的不同划分
    可分为:一次文献信息源、二次文献信息源、和三次文献信息源
    3)根据文献信息源的内容划分
    可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献、学位论文、标准文献、档案文献、产品样本

    5、数据库的类型?网络资源有那些特点?
    数据库的类型:联机数据库和光盘数据库、网络数据库
    网络资源有那些特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等

    6、何为“核心期刊“?本专业的核心期刊有那些?
    核心期刊定义是 :在某一学科中 ,少数期刊覆盖了该学科的大部分文献 ,而多数期刊仅包含该学科的少量文献 ,这少数期刊就是该学科的核心期刊。
    本专业的核心期刊有:《政治与法律》、《环球法律评论》、《当代法学》、《法学》

    7、什么是信息检索?类型有哪些?
    定义:是通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程。
    类型:文献检索、数据检索、事实检索

    8、简述信息检索的原理。
    信息检索的实质是一个匹配过程,也就是信息用户需求的主题概念或检索表达式同一定信息系统的系统语言相匹配的过程,如果两者匹配,则所需信息被检中,否则检索失败。

    9、什么是计算机信息检索系统?它由几个部分组成?
    计算机信息检索系统:是利用计算机和一定的通信设备查找所需信息的检索方式,检索的系统就是人的设计操作和计算机自动化处理相结合的系统。
    组成部分:光盘检索系统、联机检索系统、网络检索系统

    10、计算机信息检索技术包括哪些?
    布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索并向着智能化方向发展。

    11、从外表特征和内容特征来看,检索语言的类型各有哪些?不同特征各举一简单的检索式。
    描述信息外部特征的检索语言包括题名(书名、刊名、篇名)、著者姓名\单位名称、出版事项、代码\序号(如专利号、报告号、标准号)等,其作为检索标志直接明了,使用时较为简单。
    描述信息内容特征的检索语言包括分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言。

    12、为什么要创建检索语言,它有哪些类型?比较分类语言和主题语言的优缺点。
    1)检索语言是指用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言,目的是为了便于检索文献。
    2)类型:按检索语言是否受控可分为人工语言和自然语言,按检索时的组配实施状况可分为先组式和后组式检索语言,按描述信息特征的不同可分为描述信息外部特征的检索语言和描述文献内容特征的检索语言。

    15、简述“超星电子图书馆”、“书生之家数字图书馆”、“中国学术期刊全文数据库”、“维普中文科技期刊数据库”和“万方数字化期刊”收藏资源的特点
    1)、超星电子图书馆:收录的电子图书内容丰富,包括经典理论、哲学、社科、经济、语言文字、文学、数理化、生物、工业技术、计算机等50余个学科门类,现拥有中文电子图书80万种,论文300万篇,全文总量4亿余业,并且每天仍在不断地更新与增加
    2)书生之家数字图书馆:主要收录1999年以后出版的新书,其收录量为每年中国出版的新书品种一半以上,目前拥有图书15万种,数量可观,学科门类齐全。
    3)中国学术期刊全文数据库:该库的产品分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。个专辑分为若干专题,共168个专题。
    4)维普中文科技期刊数据库:按照《中国图书馆分类法》进行分类,所有文献被分为8个专辑:社会科学、自然科学、工程技术、医药卫生、农业科学、经济管理、教育科学和图书情报。8大专辑又被细分为36个专题 。
    5)万方数字化期刊收藏资源的特点:目前集纳了理、工、农、医、人文五大类70多个类目,2500多种科技类核心期刊,实现全文上网。该系统收录的期刊种类主要有7个:基础科学、农业科学、社会科学、哲学政法、医学卫生、教科文艺、经济财政。

    16、结合“中国学术期刊全文数据库”、“维普中文科技期刊数据库”两种数据库,谈各自的“高级检索”的方法
    1)、维普中文科技期刊数据库“高级检索”的方法:打开维普数据库,点击高级检索,输入关键词、作者、分类号、机构、刊名,扩展检索条件,如:时间条件、专业限制、期刊范围,然后点击检索。
    2)、中国学术期刊全文数据库“高级检索”的方法:打开中国知网,点击高级检索,进入中国学术期刊全文数据库,输入检索控制条件,如:发表时间 来源期刊` 期刊年期 支持基金,然后输入内容检索条件。

    17、简述特种文献的特点和作用,学术论文的结构
    特点:发行渠道特殊,形式各异,具有特殊的、其它文献所不能取代的价值
    作用:传递科技信息
    结构:一般而言,学术论文包括八个必要的组成部分,其中前置部分包括题名、作者、摘要、关键词,主体部分包括引言、正文、结论、参考文献。
    18、按级别分的标准的类型?我国标准分为哪些等级?分别用那些符号表示
    分类:1)按使用范围可分为:国际标准、区域标准、国家标准、行业标准、地方标准、企业标准
    2)按标准的约束性可分为:强制性标准、非强制性标准
    我国:国家标准GB 行业标准FZ 地方标准DB 企业标准Q

    19、专利的新颖性、创造性、实用性各自含义,中国保护的专利类型
    1、新颖性,是指在申请日以前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。
    2、创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步,该实用新型有实质性特点和进步。
    3、实用性,是指该发明或者实用新型能够制造或者使用,并且能够产生积极效果。
    中国保护专利的类型:发明、实用新型、外观设计

    20、中国何时实施专利法?中国专利法对专利采用怎样的审批程序?受中国专利法保护的对象分别有哪些
    1、自1985年4月1日起施行
    2、程序:1)、专利局收到发明专利申请后,经初步审查认为符合本法要求的,自申请日起十八个月内,予以公布。专利局可以根据申请人的请求早日公布其申请。
    2)、发明专利申请自申请日起三年内,专利局可以根据申请人随时提出的请求,对其申请进行实质审查;申请人无正当理由逾期不请求实质审查的,该申请即被视为撤回。
    专利局认为必要的时候,可以自行对发明专利申请进行实质审查。
    3)、 发明专利的申请人请求实质审查的时候,应当提交在申请日前与其发明有关的参考资料。
    发明专利已经在外国提出过申请的,申请人请求实质审查的时候,应当提交该国为审查其申请进行检索的资料或者审查结果的资料;无正当理由不提交的,该申请即被视为撤回。
    4)、 专利局对发明专利申请进行实质审查后,认为不符合本法规定的,应当通知申请人,要求其在指定的期限内陈述意见,或者对其申请进行修改;无正当理由逾期不答复的,该申请即被视为撤回。
    5)、 发明专利申请经申请人陈述意见或者进行修改后,专利局仍然认为不符合本法规定的,应当予以驳回。
    6)、 发明专利申请经实质审查没有发现驳回理由的,专利局应当作出审定,予以公告,并通知申请人。
    7)、 专利局收到实用新型和外观设计专利申请后,经初步审查认为符合本法要求的,不再进行实质审查,即行公告,并通知申请人。
    8)、 专利申请自公告之日起三个月内,任何人都可以依照本法规定向专利局对该申请提出异议。专利局应当将异议的副本送交申请人,申请人应当在收到异议副本之日起三个月内提出书面答复;无正当理由逾期不提出书面答复的,该申请即被视为撤回。
    9)、 专利局经审查认为异议成立的,应当作出驳回申请的决定,并通知异议人和申请人。
    10)、 专利局设立专利复审委员会。申请人对专利局驳回申请的决定不服的,可以在收到通知之日起三个月内,向专利复审委员会请求复审。专利复审委员会复审后,作出决定,并通知申请人。
    发明专利的申请人对专利复审委员会驳回复审请求的决定不服的,可以在收到通知之日起三个月内向人民法院起诉。
    专利复审委员会对申请人关于实用新型和外观设计的复审请求所作出的决定为终局决定。

    11) 对专利申请无异议或者经审查异议不成立的,专利局应当作出授予专利权的决定,发给专利证书,并将有关事项予以登记和公告。
    3、发明、实用新型、外观设计
    21、中国专利文献的编号体系含有几种专利文献号?如何称谓?
    6种 申请号 专利号 公开号 审定号 公告号 授权公告号

    22、专利文献的特点、专利说明书的结构
    特点:新颖性、创造性和实用性
    结构:通常一件专利说明书包括:专利文献著录项目,权利要求书,说明书,附图,摘要。有些专利说明书还附有检索报告。
    23、专利文献的分类方法,分类号的结构组成,专利检索的目的
    分类方法:
    26、什么是科技报告?它有哪些类型?用哪些检索工具查找我国的科技报告
    科技报告:是一种非常重要的资源,他们往往反映科学技术前沿和正在进行中的研究项目,注重详细记录科研进展的全过程,多与高科技领域有关,传播研究成果的速度较快,并且以内部的发行为主,外界较难获得。
    科技报告的类型
    2)科技报告可划分为不同类型:
    1、 按内容可分为:基础理论研究和工程技术两大类。
    2、按形式可分为:技术报告(Technical Reports, 简称TR)、技术札记(Technical Notes,简称TN)、技术论文(Technical Papers, 简称TP)、技术备忘录(Technical Memorandum,简称TM)、通报(Bulletin)、技术译文(Technical Translations, 简称TT)、合同户报告(Contractor Reports, 简称CR)、特种出版物(Special Publications, 简称SP)、其它(如:会议出版物、教学用出版物、参考出版物、专利申请说明书及统计资料)等。
    3、按研究进展程度可分为:初步报告(Primary Report)、进展报告(Progress Report)、中间报告(Interim Report)、终结报告(Final Report)。
    4、按流通范围可分为:绝密报告(Top Secret Report)、机密报告(Secret Report)、秘密报告(Confidential Report)、非密限制发行报告(Restricted Report)、非密报告(Unclassified Report)、解密报告(Declassified Report)。属于保密的科技报告大多属于军事、国防工业和尖端技术成果
    3)检索工具:EI CompendexWeb INSPEC DIALOG

    27、什么是会议文献?若查找国外各种学术会议的信息,利用哪些检索工具
    1、会议文献是传递和获取科技信息的一种极为有效的重要渠道。
    2、检索工具:中国知网《中国重要会议论文全文数据库》 万方数据《中国学术会议论文文摘数据库》 中国学术会议在线 因特网会议预告 欧洲研究会议 国际标准化组织的标准化会议预告 医学会议查询

    2.简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?
    参见文献类型-会议论文的介绍,国内的检索系统主要是万方数据和CALIS的高校会议论文检索,国际上的会议论文检索系统最重要的是ISTP,隶属于WEB OF PROCEEDINGS。

    3.请简单说一说如何选择网络信息资源?主要的标准有哪些?主要的标准有:
    a. 发布者的权威与可靠性
    b. 信息质量
    c. 信息资源的内容覆盖面
    d. 获取方便程度
    e. 检索途径多,检索界面容易使用,有无全文。

    利用外文文摘数据库查出文献线索后,若要查找1篇期刊论文的全文有哪些途径?
    解:
    1…使用搜索引擎搜索,如谷歌,百度,bing,搜狗,Ask,Yahoo等等
    2…利用文献线索,到文献的来源数据库进行搜索。
    3…利用文献线索,到全文数据库中进行检索。

    33、网络资源的特点和种类;搜索引擎的功能
    特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等
    种类:1、按人类信息交流的方式分类可分为非正式出版信息、半非正式出版物、正式出版物
    2)、从网络信息检索角度,按信息查询方式对网络信息进行分类可分为互联网信息、FTP信息、TELNET信息、USENET信息资源、USTSERV信息、JOPHER信息
    3)、按信息存取方式分,可分为邮件型、揭示板型、广播型、图书馆型以及书目型
    4)、按组织形式分可分为文件型、数据库型、超媒体型
    5)、按时效性分,可分为动态信息、电子报纸、电子期刊、电子图书、联机馆藏目录、联机数据库等
    6)、按信息的媒体形式分为,文本信息、超文本信息、多媒体信息、
    7)、按网络信息服务方式分为,网站信息、新闻信息、论坛信息、文件服务信息
    8)、按信息的格式分为,HTTML TXT DOC PDF RM MP3
    功能:网页搜索、图片搜索、视频搜索、地图搜索、新闻搜索、音乐搜索、论坛搜索等等

    34、试对百度、中文搜狐、北大天网、一搜四种搜索引擎的功能进行比较
    百度的功能特点:1. 基于字词结合的信息处理方式。
    2. 支持主流的中文编码标准。
    3. 智能相关度算法。
    4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
    5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。
    6. 相关检索词智能推荐技术。
    7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
    8. 可以提供一周、二周、四周等多种服务方式。
    9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。
    10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
    11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
    12. 高可配置性使得搜索服务能够满足不同用户的需求。
    13. 先进的网页动态摘要显示技术。
    14. 独有百度快照,巧妙解决了搜索用户经常遇到的死链接问题。
    15. 支持多种高级检索语法,使用户查询效率更高、结果更准。
    一搜的功能特点:1、MP3功能 2、娱乐功能 3、投票功能 4、翻译功能 5、视频功能 6、部落功能
    北大天网的功能特点:北京大学开发,简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、FTP检索(北京大学、中科院等FTP站点)。目前大约收集了100万个 WWW页面(国内)和14万篇Newsgroup(新闻组)文章。支持简体中文、繁体中文、英文关键词搜索,不支持数字关键词和URL名检索。
    搜狐的功能特点:搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。

    36、查阅有关文献,写出“标准文献、专利文献、学位论文、研究报告”作为参考文献时的标注格式
    37、学术论文一般由哪几部分构成?各部分的写作规范分别是什么
    1、标题:准确、精炼的技术术语表达的创新点名称
    2、单位和作者:只写作者和实际参与了论文写作的人名,按对论文而不是工作的贡献排序。
    3、摘要:是论文不加注释和评论的精炼缩写,是一篇独立的短文。
    4、关键词:关键词是表达论文所属门类的主题词。列出能通过模糊检索查到这篇文章的3~8个主题词。关键词要反映研究范围,但不一定是文中的高频词,排列最好按范围,先大后小。关键词忌生僻,最好出自《中文主题词表》。
    5、引言:引言可以作为论文的一节(符号可以是0、可以是1),也可以是正文前的一段无标题文字。应鲜明简洁,不要图表、公式。
    6、正文:正文要分节,合理分节并拟定小标题可以突出重点,有助于理解。要尽量多用图表直观地表达,图表要有自明性,使用中文表头、坐标,无需解释就能看懂。
    7、结论:全文而不仅是试验或仿真的总结。①归纳研究中发现的规律、优点;②应用或应用方向;③局限或不足,今后努力方向。结论应相对独立,提到创新点时不应使用“该方法”之类代用词。不十分肯定时可用“讨论”代替“结论”,但不得使用“结束语”、“小结”之类标题。结论中不应有图表、公式。
    8、参考文献:列出作者在研究范围内所看过的国内外文献。参考文献与引言呼应,反映作者跟踪技术发展的眼界和敏锐性,反映作者知识的广度和深度,反映作者有资格说自己是创新。数量不可过少,例如中国科协期刊优秀论文评选要求研究性学术论文参考文献不少于20篇。参考文献不限于中文但,教科书不可多,不宜过陈旧。
    38、什么是学术造假与剽窃?一般而言,剽窃的形式有哪些?司法实践中对剽窃
    是如何界定的?剽窃与参考文献的区别是什么
    剽窃的定义:剽窃是指把他人的作品当成自己的作品。
    学术造假的定义 :
    39、简要回答:三大检索工具SCI,EI和ISTP的内涵
    1、SCI ,即《科学引文索引》,是自然科学领域基础理论学科方面的重要期刊文摘索引数据库。
    它创建于1961 年,创始人为美国科学情报研究所所长 Eugene Garfield(1925.9.15).利用它,可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自 1945 年以来重要的学术成果信息;SCI 还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。
    2、Ei,即《工程索引》,创刊于 1884 年,由 Elsevier Engineering Information Inc. 编辑出版。主要收录工程技术领域的论文(主要为科技期刊和会议录论文 ) ,数据覆盖了核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程等学科领域。
    3、ISTP ,即《科学技术会议录索引》,创刊于 1978 年,由美国科学情报研究所编制,主要收录国际上著名的科技会议文献。它所收录的数据包括农业、环境科学、生物化学、分子生物学、生物技术、医学、工程、计算机科学 、化学、物理学等学科。从 1990-2003 年间, ISTP 和 ISSHP( 后文将要讲到 ISSHP) 共收录了 60 , 000 个会议的近 300 万篇论文的信息。
    文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体( V)
    文献知识的内容与其记录方式、载体材料无关( V )
    文献有知识内容、信息符号和载体材料三个不可分割的基本要素构成(X )
    一次文献是产生二、三次文献的基础,是检索利用的主要对象(V )
    从零次文献、一次文献到二次文献,再到三次文献,是一个知识内容由分散到集中,由无组织到系统化的过程( V )

    展开全文
  • 第五章 信息法与综合性信息检索 目录: 5.1 信息法概述 5.1.1 信息法的概念 从广义上讲,信息法是调整信息活动中产生的各种社会关系的法律规范的总称。 一般来说,信息法由信息资源管理法、政府信息公开法、信息...

    第五章 信息法与综合性信息检索

    目录:
    在这里插入图片描述
    在这里插入图片描述

    5.1 信息法概述

    5.1.1 信息法的概念

    从广义上讲,信息法是调整信息活动中产生的各种社会关系的法律规范的总称。
    一般来说,信息法由信息资源管理法、政府信息公开法、信息保密法、大众传播法、知识产权法、网络信息法等组成,涉及宪法、法律、行政法规、部门规章、地方行政和规章在内的所有关于信息活动和信息工作的法律法规。

    5.1.2 信息法律关系

    信息法律关系是根据信息法规产生的,以主体之间的权利义务关系为表现形式的特殊的社会关系。信息法律关系的主体,又称信息权利主体,是指信息法律关系中的权利享有者和义务承担者。自然人(公民)、法人、国家(政府)这三类主体,是信息法规定的信息主体的法律形态。
    信息法律关系的客体,又称信息权利客体,是信息法律关系主体的权利和义务所指向的对象或称标的。信息法律关系的客体是信息,但并非一切信息,只是那些能够满足信息主体的利益或需要的,同时又能得到国家相关法律确认和保护的信息,才能成为信息法律关系的客体。

    5.1.3 信息法律与信息政策

    现代信息资源管理不仅要依赖于法律的调整,在很大程度上,也需要政策的管理。信息政策是国家机关根据需要制定的有关发展和管理信息事业的方针、原则和办法。它是调整国家信息实践活动并借以指导推动整个信息事业发展的行动指南。信息法律与信息政策作为国家调节信息活动产生的社会关系的两种重要手段,二者既有密切的联系,又有区别。
    在这里插入图片描述

    5.1.4 信息立法

    信息立法是指由一定的国家机关制定信息法律的活动。广义上的信息立法还包括国家认可的行政机关制定行政规章的活动和对有关规范性法律文件进行的修改、补充和废止等活动。在我国,信息立法的形式主要有法律、行政法规、国务院部门规章、地方法规、地方政府规章等形式。

    5.2 知识产权与信息产权

     (一)知识产权内涵的拓展到信息产权理念的提出
     (二)信息产权 (information property)
    信息产权(Information Property)是信息所有者基于信息产品享有的特定性质的人身权和财产权。与知识产权一样,信息产权也是一种无形财产权,它是信息产品法律化的表现。知识是信息的核心。知识产权是信息产权的核心部分,但信息产权的内涵要广于知识产权。

    5.2.1 知识产权的概念与法律特征

    知识产权又称智力财产权、知识所有权,英文为intellectual property,它是指人们对脑力劳动创造的智力成果所依法享有的专有权利。
    “知识产权”概念最早由17世纪中叶的法国学者卡普佐夫提出,后为比利时法学家皮卡尔所发展。1967年签署的《成立世界知识产权组织公约》(WIPO),正式采用“intellectual property”,从此知识产权作为一个法律概念逐步得到世界多数国家和众多国际组织的承认。
    在我国过去一直采用智力成果权来表示这一权利概念,直到1986年颁布的《中华人民共和国民法通则》,才正式启用了知识产权的概念。

    5.2.2 知识产权范围

    根据根据中国《民法通则》规定,知识产权的范围包括
    (1)著作权(文学、科学和艺术作品、计算机软件);
    (2)邻接权(出版物、演出、录音录像以及广播电视节目);
    (3)发现权(科学发现);
    (4)专利权(发明、实用新型、外观设计);
    (5)发明权和其他科技成果权(发明、科技进步、合理化建议、技术改进);
    (6)商标权(商标以及服务标记)。
    在这里插入图片描述

    5.2.3 知识产权法

    知识产权法是国家法律体系中综合调整公民、法人或非法人单位相互之间在创造、使用、转让智力成果过程中形成的社会关系的法律规范的总和。它是著作权法、专利法、商标法等各项与知识产权有关的单一性规律、法规的综合。一般认为,著作权、专利权、商标权是知识产权法律制度的三大支柱。
    在这里插入图片描述

    5.2.4 知识产权制度对社会信息化的影响

     (一)知识产权制度是知识和信息创新的的动力机制
     (二)知识产权制度是信息市场运行的基础机制
     (三)知识产权制度可以增强全面信息意识

    5.3 著作权

    著作权又称版权(copyright),是指作者或其他著作权人依法对文学、艺术、科学作品所享有的各项专有权利的总称。我国第一部《著作权法》颁布于1990年9月,后经多次修改,现行的《著作权法》是2010年2月第三次修正后施行的。

    5.3.1 著作权的主体与客体

     根据我国《著作权法》 (2010)中的表述,受著作权法保护的客体就是作品。我国《著作权法实施条例》规定作品是指:“文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。”这些作品必须具有独创性、表达性、可复制性、合法性以及必须是著作权法意义上的作品。
     著作权保护的主体即著作权法律关系的主体,简称为著作权人,是指依法对文学、艺术和科学作品享有著作权的自然人、法人或者其他组织。根据《著作权法》规定,著作权主体可以是公民、法人或其他组织。著作权原始主体中最常见的是作者。

    5.3.2 著作权的内容与限制

    (一)著作权的内容
    1.著作人身权
    根据我国《著作权法》(2010)的规定,著作权中的人身权的内容包括署名权、发表权、修改权和保护作品完整权。
    2.著作财产权
    根据我国《著作权法》(2010)第10条的规定,著作权中的财产权包括:复制权、发行权、出租权、展览权、表演权、放映权、广播权、信息网络传播权、摄制权、改编权、翻译权、汇编权以及应当由著作权人享有的其他权利。
    (二)著作权的限制

    1. 合理使用
    2. 法定许可
    3. 强制许可

    5.3.3 著作邻接权

    著作邻接权,简称邻接权,是知识产权中与著作权相邻接的一种权利。它的实质是指作品传播者在传播作品时所享受的权利,因为它和著作权紧密相连,所以世界上大多数国家都称之为“邻接权”。我国《著作权法》将邻接权表述为“与著作权相关的权益”,且在《著作权实施条例》中规定了邻接权的范围,即“与著作权有关利益,指出版者对其出版的图书和期刊的版式设计享有的权利,表演者对其表演享有的权利,录音录像制作者对其制作的录音录像制品享有的权利,广播电台、电视台对其播放的广播、电视节目所享有的权利。

    5.3.4 著作权的法律保护

    (一)著作权的侵权行为
     所谓侵犯著作权的行为,是指未经著作权人的许可,违反法律规定而擅自行使著作权人的权利或者妨碍著作权人权利实现的行为。
     各国著作权法都规定侵犯著作权应当依法承担相应的法律责任。我国《著作权法》 (2010)第46条和第47条列举了19种侵权行为。
    (二)著作权的侵权责任
     著作权侵权的法律责任一般分为民事责任、行政责任和刑事责任。
     我国《著作权法》 (2010)第46、47条对侵犯著作权的行为规定了承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任。这些责任方式,既可以单独使用,也可以合并使用。

    5.4 网络环境下的知识产权保护

    随着现代信息技术的飞速发展和网络的普及,人类社会中一种全新的环境——网络环境逐步成为现实。网络作为第四代信息媒体,以其独有的开放性、无国界性、无限复制性和交互性等特点,在带来作品传播和利用方式根本性变革的同时,也对传统知识产权制度产生了重大影响,这就要求我们以更广阔的视野来认识知识产权,探讨由此产生的相关问题。

    5.4.1 数字作品的知识产权保护

    (一)数字作品的著作权认定
     所谓数字作品,不仅包括文字、美术、摄影、动画、电影、电视等传统作品的数字表达形式,还包括从其被创作之时就是用二进制数字编码形式表达的计算机软件、数据库和多媒体作品等新型数字作品。
     我国国务院法制办与国家版权局共同起草的《著作权法修正案(草案)》中,已确认“数字化”应该是版权人的一项专有权利。目前更多的业内人士倾向于复制行为包括上载、下载、转贴、转寄、储存、数字化、扫描、浏览、打印等,所以未经权利人允许,擅自对他人作品进行数字化处理,就是擅自复制他人作品,应承担侵权责任。
    (二)数字作品的知识产权保护
     我国国家版权局曾于1999年12月9日发布了《关于制作数字化制品的著作权规定》,该规定第2条中指出将已有作品制成数字化作品,不论已有作品以何种形式表现和固定,都属于《著作权实施条例》第5条所指的复制行为,即《中华人民共共和国著作权法》所称的复制行为。第7条又规定,未经著作权人或者著作权集体管理组织许可,将受著作权保护的他人作品制成数字化作品的,除应承担相应的民事责任外,著作权行政管理部门可依照《著作权实施条例》有关规定给予行政处罚。

    5.4.2 网络传输中的著作权问题

    (一)网络传输与复制权
     在网络环境下,通过缓存、浏览、粘贴和下载等手段,大量的数字作品可以被简便、高速、高质量地复制利用,并且这种复制大多是在计算机网络正常运行中自动产生的,使得对他人作品的利用几乎不需要付出什么代价。为了平衡著作权人与使用者之间的利益关系,欧美一些国家主张将网络传输中的“暂时复制”纳入复制权的保护范围内。
     暂时复制”这类复制行为能否纳入传统的“复制”概念进而获得传统复制权的保护,一直是国际版权界争论的焦点。

    (二)网络传输与发行权
     传统的发行是对有形复制件的发行,从我国的《著作权法》(2010)第10条第(6)项所表述“发行权”定义中可以推定发行的定义是:以出售或者赠与方式向公众提供作品的原件或者复制件的行为。通过发行行为,使得有形复制件(如图书)的所有权或者一定期限内的使用权从发行者的手中转移到使用者手中,但在这之前须发生“复制”行为,即发行是与复制行为相联系的。
     美国1995年的《知识产权与全国信息基础设施白皮书》认为网络传输属于向公众发行,在版权人专有的发行权之内。
     欧盟则有不同的理解,1997年12月欧盟通过了《关于协调信息社会的版权和有关权若干方面的指令》,指出发行权是指作者控制以任何形式向公众发行作品原件或有形复制件的的专有权,但是发行权不适用于服务和在线传输,网络传输因此被排除在发行的含义之外。

    (三)网络传输与信息网络传播权
     我国2001年在修改的《著作权法》第10条的有关内容中增设了信息网络传输权。所谓信息网络传播权是指以有线或者无线的方式向公众提供作品,使公众可以在其个人选定的时间和地点获得作品的权利。信息网络传播权的法律地位的确立,使著作权人对作品的传播方式的专有控制权延伸到网络空间,并能直接传播作品,行使邻接权。
     在网络环境下,作为一种信息网络传播者,图书馆在促进人类信息自由和知识共享方面具有重要作用。享有一定的信息网络传播权例外,对图书馆资源建设与信息服务具有重要意义。2006年,中国图书馆学会发布了《关于网络环境下著作权问题的声明》。

    5.4.3 网络传播权的行使

    在这里插入图片描述

    5.4.4 数据库的知识产权保护

    (一)数据库的概念和知识产权保护原则
    (二)我国对数据库的知识产权保护
    (三)数据库的合理使用和侵权界定
    (四)数据库的特殊权利保护

    小结

    信息法是调整人类在信息的采集、加工、存储、传播和利用等活动中发生的各种社会关系的法律规范的总称。随着社会信息化进程的不断加快,特别是随着计算机、网络等信息技术的广泛应用,传统的知识产权制度开始面临越来越多新的挑战。本章主要从信息法的概念、知识产权与信息产权、著作权以及网络环境下的知识产权保护四个层面来进行阐述,并基于网络和信息技术来重新审视知识产权制度,树立信息产权的新理念并注重网络环境下知识产权的保护。

    5.5 科技信息检索概观

    信息检索的发展首先是从科技信息开始的,地区性乃至国际性的信息服务也同样以科技信息为开端。科技信息是科学技术的直接反映,标志着科学技术的发展水平,最新、最及时、最有针对性的科技信息也是科学技术进一步发展和创新的基础和动力。越来越多的人将科技信息看成是重要的资源、无形的财富和资产,掌握科技信息成为增强竞争能力、提高自身实力的重要因素。正是这种对科技信息的强烈需求促进了科技信息产业的发展,促进了科技信息加工、处理、检索理论与实践的发展。

    科技信息检索技术经历了50多年的发展,从手工检索、脱机检索、联机检索、光盘检索到网络检索。其中某些方式已被其他方式取代,如脱机检索被联机检索取代,光盘检索作为一种过渡形式已发展成为网络检索。

    在电子读物日益走进人们生活的今天,传统的印刷本读物在短期内仍然占据着难以替代的重要位置。也就是说今天印刷型出版物的重要地位仍然没有改变,同样,印刷本检索工具的重要地位也依然存在。因此,我们在介绍科技信息检索时,将手工检索工具与计算机检索结合起来讲解。

    5.6 理科信息检索

    理科信息主要指以理科的学科专业为界线划分整理的科技信息,通常包括数学、物理、化学、生物学。这些学科涉及的检索工具也较多,本节以3个应用比较普遍的检索工具为例介绍其用法。

    5.6.1 《生物文献摘要》

    1.概念
    美国《生物学文摘》(Biological Abstracts,简称BA) 创刊于1926年。现为半月刊,一年二卷。BA是目前关于生命科学的最大的一部文摘型检索工具,具有广泛的收录范围,除包括传统的动物学、植物学和微生物学等领域之外,还包括实验医学、农学、药学、生化、生态学、生物医学工程及仪器等一些边缘学科或相关领域。

    2.BA印刷版
    ①BA文摘本
    BA文摘本由类目表、文摘正文、辅助索引组成。类目表决定了BA文摘正文的编排顺序,也是检索文摘的一条检索途径。文摘正文按分类组织,类目与标题等级表的类目设置一致。辅助索引自创刊以来变化较大,目前文摘本中的索引有生物体索引、主题索引和著者索引。

    ②BA来源期刊目录
    BA来源期刊目录(Serial Sources for the BIOSIS DATABASE)自1979年开始出版,单独发行。

    ③生物学文摘/报告•评论•会议
    创刊于1965年,1980年改为现刊名,现为半月刊。BA/RRM收录BA未摘录的生物学文献,BA/RRM和BioResearch Index都是题录型刊物,不带文摘。

    3.BA数字版
    BA数字版有联机数据库、光盘数据库和网络版检索系统。

    BA联机数据库(BIOSIS Previews)由BIOSIS出版,收录的文献包括BA、BA/RRM及其前身Bioresearch Index。该数据库在一些主要的联机检索系统中均有相应的文档。

    BA光盘版(BA on CD)于1980年由BIOSIS编辑出版,3个月更新一次,累积半年的数据出版一张光盘,内容等同于印刷本。

    BA网络版数据库(BIOSIS Previews)用法与光盘版基本一致,其网站 (www.biosis.org) 除提供BA数据库信息外,还提供相应的其他信息与服务。

    4.生物学相关文献检索
    除BA外,生物学信息还广泛分布在中外文其他检索工具和网络信息资源中:

    ①中文检索工具
    分别是:《中国生物学文摘》、《古生物学文摘》和《中国国土资源文摘》。

    ②外文检索工具
    英文的生物学检索工具出版量比较大,种类也较多,如英国生理学会出版的《生物科学近期文献题录》(Current Awareness in Biological Sciences), 伦敦动物学会出版的《动物学记录》(The Zoological Record)等。

    ③网上信息资源
    中文生物学网上信息有:中国科学院上海生物工程研究所中心网站(http://www.srcb.ac.cn)。此外,国内各生物学研究所和各大学生物系的网站均能提供一定的生物学信息。外文关于生物学的网上信息在一些大学的网站上也能找到。

    5.6.2 《化学文摘》

    1.概念
    美国《化学文摘》(Chemical Abstracts,简称CA),创刊于1907年,现为周刊,每年出版2卷,每卷26期。CA是检索化学文献极为重要的检索工具,由于其具有广博的收录范围、完备的索引体系、短暂的出版周期、多样化的出版形式为检索者带来了方便,成为世界上公认的最大型、最权威的化学化工信息检索工具,在我国化学界享有盛誉。

    2.CA印刷版
    CA的印刷本是最古老的出版形式,至今依然具有重要作用。掌握印刷本的编撰结构,对于熟练掌握其用法和提高检索效率具有重要意义。

    ①CA的文摘本
     CA每周出版一本文摘。
     CA的文摘本由分类目次表、文摘、索引和附录构成。
     文摘按分类目次表所列类目编排,每一类目下的文摘分四个部分编排,每一部分之间用虚线隔开。其编排次序是:
    a. 论文(包括会议录、学位论文、科技报告、存档资料和专题综述等);
    b. 新书及视听资料;
    c. 专利文献;
    d. 相关的类目参见条目。

     CA的文摘以报道型文摘为主,其报道的内容包括:
    a. 研究的目的和范围;
    b. 新的化学反应、化合物、材料、工艺设备和资源等;
    c. 已知物质的新性质、新来源及新应用;
    d. 观测的数据和结果以及作者的解释和结论。

     文摘内容以报道性文摘为主,因此,阅读CA文摘在某种程度上可以代替阅读原文。
     CA文摘本附有三种索引:关键词索引、专利索引和著者索引。

    ②CA索引本
    CA具有多种形式的索引本,包括卷索引、年索引和5年(10卷)累积索引,其中卷索引和累积索引中的索引类型是一致的,有:化学物质索引、普通主题索引、分子式索引、环系索引、著者索引、专利索引,年索引有登记号索引、来源索引(CASSI)。

    化学物质索引
    它是从1972年76卷起从CA的主题索引中分离出来而编制的索引,它所收录的化学物质具有以下特征:原子和原子数目已知;分子的价键清楚;主体化学结构稳定。
    化学物质索引由主、副二级标题组成。主标题由化学物质名称组成,副标题由表示主标题某方面或某类别的名词组成。使用该索引检索时,要注意其主标题并不是以所有的化学物质名称做标识词,特别是有机化合物通常只以母体化合物为索引标题(又称为化合物索引名称),而把母体化合物的化学功能衍生物,一般衍生物、化合物、聚合物,列于母体化合物为索引标题的条目之中。另外,一种化学物质可能会有多个名称,而化学物质索引中只用一个名称作索引标识词,该名称由CAS选用它认为是最合适的命名法来命名的。也就是说使用本索引检索前还要确定所要检索的化合物在CA中的名称,确定该名称的最好办法就是使用CAS出版的“索引指南”(Index Guide)。化学物质索引的副标题有普通副标题、类别副标题和专用副标题三类:普通副标题由比较通用的名词组成,起限定主标题的研究范围或方面的作用;类别副标题(Categories)都是表示化合物类别的词,以及取代基和官能团的词,起着把主标题(化学物质名称,即所谓化合物索引名称)的化学衍生物条目按类归并的作用;专用副标题严格专用于相应的主标题。

    环系索引
    它是专门用来查找环状化合物的索引。它首先按环状化合物环的数目由小到大排列,其次按环架上原子数和环架上元素的成分排列,并给出母体化合物名称,但不给文摘号,因此,该索引不能用来直接查找文献信息,必须再转查化学物质索引,所以我们称它为辅助索引。

    著者索引
    它与文摘本中的著者索引编排方法基本一致,所不同的是索引本中著者索引的著录项目除了作者姓名和文摘号外,还有文献篇名。通过文献篇名可以初步了解文献内容并可对同一作者的多篇文献进行区分。

    专利索引
    该索引与文摘本中的专利索引完全一致。
    来源索引(CAS Source Index 简称CASSI)
    CAS报道的化学信息来源广泛,它将CA所有的信息来源收录其中并指示给读者。
    登记号手册
    它是1974年以后出版的,原为登记号索引(Registry Number Index),专门收录化学文献中带有登记号的化学物质,每个有登记号的物质的化学成分和分子结构都是明确清晰的,每一个号码唯一地代表一种物质。

    ③检索语言
    CA没有严格意义上的检索语言,但它于1968年第69卷开始出版的索引指南就是对CA各种索引用法的指导,特别是对化学物质索引和普通主题索引的标题的规范以及标题之间关系的提示,成为使用CA的重要的辅助工具,因此,它在一定程度上起到了检索语言的作用。

    索引指南结构由两部分组成:正文部分和附录部分。
    正文部分主要帮助用户正确选择化学物质索引和普通主题索引的标题。
    正文部分使用的参照系统主要有:“见”(see)和“参见”(see also)参照项。 “见”项参照又可分为普通主题概念参照和化学物质参照,普通主题概念参照是对一些一般性的概念、混合物和一些结构不确定的化学物质的规范化控制,化学物质参照是对具有多个名称的化合物特别是有机化合物的规范化控制;“参见”参照项,将在内容上有联系的标题揭示出来,可以帮助使用者扩大检索范围;主要目的是帮助用户正确判断相关内容的含义,从而正确选择标题。

    3.CA数字版
    CA的数字化信息主要由联机数据库和光盘数据库资源组成。随着计算机和网络的发展,联机数据库进一步发展成网络化数据检索系统。

    CA的联机数据库收录从1967年至今的所有CA印刷本的化学文献,该数据库在主要的国际联机系统中均有收藏。CA的光盘数据库目前广泛使用的有由美国化学学会制作的“CA on CD”光盘和Compact Cambridge 科学文献服务社制作的“化学文摘累积索引及文摘”光盘两种。

    4.化学文献的相关检索
    化学化工相应的检索工具较多,如:《中国化学化工文摘》、《化工文摘》、《精细石油化工文摘》等,有些文摘刊物已发行了光盘版。
    网上化学、化工资源十分丰富,除DIALOG系统、ORBIT系统含有大量的化学化工文档外,还有许多专门的化工网站、各大学的化学化工学院等也是化学信息的重要来源。

    5.6.3 《科学文摘》

    1.概念
    英国《科学文摘》(Science Abstract,简称SA)由现名为国际物理学与工程信息部出版。目前具有三个分册:A辑:《物理文摘》,半月刊,报道范围包括基本粒子、核物理、原子物理、分子物理等有关物理学方方面面的研究,也包括测量与仪器等;B辑:《电气与电子学文摘》,月刊;C辑:《计算机与控制文摘》月刊。这三个分册除报道内容不同外,其结构与用法均相同。SA收录的文献类型以期刊论文为主,1977年后不再收专利。

    2.SA印刷版

    ①SA文摘本
    SA文摘本由分类目次表、文摘正文、辅助索引构成。分类目次表位于每期首页,每卷第一期还加一页主题分类表,此外每期分类目次表之后还有一个主题指南。由于SA的文摘本中没有主题索引,因此“分类目次表”是利用文摘本从主题内容角度检索文献信息的主要途径。SA的分类体系比较新,类目设置系统、完整,类目之间的参见注释多而且详细,因此,利用分类表查找文摘是比较便利的。SA文摘正文是按照分类组织的,其顺序与正文前的分类目次表一致。辅助索引有多种:著者索引、图书索引、会议索引、团体著者索引、参考书目索引,每个索引各有专门的用途,供读者快速查找那些特殊类型的文献(如专题书目、图书、会议文献,技术报告等),故又可称之为“专用索引”。

    ②SA索引本
    SA索引本有半年累积索引本和多年累积索引本,其索引的种类在文摘本基础上增加了主题索引。SA的主题索引是单级主题索引,每条索引款目由主题词、说明语和文摘地址构成,按主题词的字母顺序排列。主题词是规范化的词汇,词汇全部来自SA的叙词表(1NSPEC Thesaurus),索引中的说明语是由标引者自编的,说明语一般由一组关键词或短语构成,为节省篇幅,说明语中使用了许多缩写词。由于SA的主题索引中的索引词选自叙词表,因此,检索时应借助于叙词表选择主题词,这是检索主题索引的关键。

    ③SA检索语言
    SA检索语言由比较标准的叙词表构成,其主题索引就是以该表为基础编制的,因此,它是使用SA主题索引的重要助手。SA叙词表(INSPEC Thesaurus)由两部分组成:字顺表和词族表。字顺表是主体,有完善的词汇控制和参照系统。SA叙词词表揭示的完善的词间关系可以有效地帮助用户选择检索词。熟悉词表并充分利用词表对提高检索效率和效果都具有重要意义。

    3.SA数字版
      SA数字版包括联机版、光盘版和网络版。联机版早在1973年就投入使用,光盘版在1989年推出,网络版是在联机版基础上发展起来并进入网络化系统提供服务。SA光盘版(INSPEC数据库)每年出版一张光盘,每张光盘覆盖的文献时间跨度大约5年,每季度更新一次。SA网络版是在20世纪90年代后出版的,称为INSPEC数据库,其网址为 http://www.iee.org.uk,具体用法与光盘版数据库基本一致。

    4.相关的数理信息检索
      除了SA之外,还有以下工具可以检索数理方面的资源:美国《数学评论》(Mathematical Review,简称MR); 美国《应用力学评论》,(Applied Mechanics Review,简称AMR),另外,网上也有较多的数学物理信息资源。

    5.6.4 其他理科信息检索工具

    1.美国《科学引文索引》和《最新目次》
    美国《科学引文索引》(Science Citation Index,简称SCI)其主要报道生命科学、医学、生物、物理、化学、农业、工程技术领域内的科技文献,由“引文索引”、“来源索引”和“轮排主题索引”三部分组成,是目前国际上最具权威性的用于基础研究和应用基础研究科研成果的评价体系。《最新目次》(Current Contents,简称CC)按学科分多个分册,内容是各种期刊的目次汇集,周刊。

    2.《中国科学引文索引》
    由中国科学院文献情报中心于1995年创刊发行。分为引文索引、来源索引、机构索引和轮排主题索引四个部分。

    3.法国《文摘通报》
    简称BS,于1939年创刊,由法国国家科学研究中心编辑出版。

    4.俄罗斯《文摘杂志》
    (简称РЖ)创刊于1953年,由全俄科学技术情报研究所编辑出版。

    5.日本《科学技术文献速报》
    1958年创刊,是文摘性检索刊物。该刊现分为12个分册,报道的领域涉及科学技术各个部门。

    5.7 工科信息检索

    5.7.1 概念

    由于工程技术涉及的学科范围比较广泛,具有信息量大、学科界线不明显的特点,有相当一部分技术信息以专利发明的形式获得了专利保护,因此,本节以综合性的技术检索工具——美国《工程索引》和英国的专利信息检索工具《德温特世界专利索引》为例介绍工科技术信息的检索原理及方法。

    5.7.2 《工程索引》

    1.概念
      美国《工程索引》(The Engineering Index,简称Ei)创刊于1884年,距今已有100余年的历史。Ei是工程技术领域综合性的检索工具,也是我国科技人员经常使用的一种检索工具。Ei收录世界上50多个国家、10多种文字的工程出版物,期刊约3 000多种,此外还包括会议文献、科技报告、学位论文等,其中期刊文献和会议文献收录得比较全面。Ei不收录专利文献。在Ei的发展过程中,有过多种出版形式,如书本式、卡片式、缩微版、磁带版、光盘版,现在已发展到了网络版。

    2.Ei印刷版
      Ei的印刷型出版物有:工程索引月刊(The Engineering Index Monthly),1962年创刊,工程索引年刊 (The Engineering Index Annual),1906年正式出版,此外Ei还不定期地出版工程信息主题词表。

    ①Ei文摘本
    • Ei虽然名为索引,实为文摘刊物,其文摘本有月刊本和年刊本两种,这两种版本的正文编排方式完全相同。月刊本中的索引有主题索引、著者索引,年刊本除这两种索引外,还有出版物一览表、会议一览表。

    • Ei文摘正文是按主题词字顺编排的,主题词选自Ei的主题词表。Ei主题索引是从主题内容角度检索Ei文献的唯一途径。主题索引按主题词字母顺序排列。

    • 由于Ei主题词表在1993年由标题词表变为叙词表,所以Ei的主题索引也相应由标题词索引变为叙词索引,索引中的主题词由原来的二级主题词变为一级主题词,并且新的主题词增强了表达概念的直观性和完整性,使主题检索更加方便、快捷。

    • Ei著者索引是一种快速、准确的查找文献线索的途径。

    • 出版物一览表有2个作用,一方面它揭示了EI所收录的一次文献的数量和覆盖范围,另一方面给读者提供了出版物刊名缩写与全称转换的途径。

    • 会议一览表反映了EI当年收录的全部会议文献的会议情况,它按照会议名称字顺排列。

    ②Ei检索语言
    Ei的检索语言一直由规范化的主题词表构成,该主题词表中词的性质和形式都有过较大的调整。Ei原主题词表名为“Ei标题表”(Subject Heading for Engineering,简称SHE),1990年改名为“Ei Vocabulary”,1993年1月起,工程信息公司用一部新编的叙词表取代了以前所用的词表,新表名为“Ei叙词表”(Ei Thesaurus)。
      “Ei标题表”(SHE)是供检索1992年(91卷)以前的Ei文献时使用的一种规范化、权威性的标题表,是Ei根据多年的标引工作经验积累而成的,并不断修订。SHE全表由四部分组成,主表、副标题索引表、分类范畴表和主题指南。
      “Ei叙词表”是一部新表,收录大量的叙词和入口词(非叙词)。新表更好地满足了手检和机检两方面的需要,反映了Ei在文献处理技术上的全面变化。

    3.Ei数字版
    ① Ei光盘版
      Ei有光盘版、联机版、网络版。光盘版称为Ei Compendex,与联机数据库版相对应。Ei光盘版分Dos环境下和Windows环境下运行的两种软件系统,此外,Ei还分有Ei综合版本和专业版本。Ei Compendex有两个检索界面,菜单式检索和输入布尔逻辑检索。

    ② Ei网络版
      Ei网络版主要指20世纪90年代以来Ei公司发行的以World Wide Web为基础的网络版工程索引数据库Ei Compendex Web,它的收录范围大于Ei印刷版和Ei Compendex。1998年,国内清华大学等10所高校联合购买了Ei Compendex Web的使用权,使得这10所院校的师生在其各自校园网上均可免费检索Ei Compendex Web。目前,联合购买该数据库使用权的单位每年都有增加。
    该数据库在清华大学的镜像服务地址为:
    http://ultra2.lib.tsinghua.edu.cn/eivillage/plsql/switch
      与光盘版相比,有些检索功能在网络版中较难实现,如位置算符辅助检索手段、某些限定性检索以及对检索结果的排序功能等。但Ei Compendex Web的数据每周更新,检索结果更新更快,因而受到国内用户的普遍欢迎。

    5.7.3 Derwent 专利检索工具体系

    1.概念
    各国专利机构或国际专利组织在实施专利制度过程中都会产生各种与专利相关的文献或文件,我们称之为专利文献。
    广义的专利文献,包括与专利有关的一切文献,如申请说明书、专利说明书、专利公报、专利分类表等;
    狭义的专利文献仅指申请说明书和专利说明书。
      
    专利文献是技术文献,又兼有法律约束力和经济特性,它的技术内容新颖、先进、实用,所涉及的技术领域广泛,技术先进、应用性强,同时它还具有出版迅速、管理严格等特点。一般来说,专利文献可以满足技术内容、技术法律状态以及技术覆盖地域等具有较强应用性的查询要求,同时它也可以成为分析竞争对手的有力工具。

    使用专利文献时,应注意以下几点:
    第一,专利文献中报道的技术有时不够成熟,缺乏稳定性和可再现性;
    第二,技术发明的介绍不够全面或有所保留,因此需要作进一步的分析研究;第三,一项技术可能分散在多个专利文献之中,因为专利法规定,一件专利只能保护一项发明(专利法的单一性原则);第四,专利文献具有很强的法律性,因此,要注意专利文献的法律状态信息,如专利的有效期,专利权的转让、继承、撤销,同时也要关注那些提前失效专利和延长保护期的专利等。

    2.专利分类原则及国际专利分类法
      就分类的目的而言,专利分类更强调使用专利信息的方便性和高效性,这就决定了专利分类原则将以专利信息的应用为主,以其组织管理为辅。因此,从现行的专利分类法来看,专利信息的分类依据主要是发明的技术特征,包括功能、结构和用途,这种对技术特征的强调有助于专利文献的检索和利用,比如对某项发明的新颖性和先进性判断等。
    各国专利主要有两条分类原则:行业分类和功能分类。
      
      所谓行业分类原则就是根据发明的用途或应用领域分类,这种分类原则有利于按行业部门查找和使用专利文献,易于各行业人员接受和使用,是一种简便易用的分类方法。但这种分类法有一个最大的不足,就是在分类时会将功能相近的发明分散在不同的类。
    功能分类原则是根据发明的“直接功能、效用或产品”分类,即以装置、物质或工艺的本质效用作为分类依据。这种分类原则将实质功能相同或相似的发明归入同一类,因而也就出现了跨行业分类的现象,所以在某种程度上不利于从行业角度对专利文献的检索利用。在实际应用中,有时将这两种分类原则结合起来使用,以便适应各国不同的检索习惯。
    不同国家专利法不同,专利分类原则也不尽相同,目前,除少数国家外,各国普遍采用国际专利分类法作为本国的专利分类法,因此,国际专利分类法具有了真正的国际分类法的意义。美国专利分类法和德温特专利分类法在美国专利文献和英国专利文献中与国际专利分类法同时使用。
      
      国际专利分类表是经过长时间的倡导、酝酿和试用后形成的一部专利分类法,它于1968年正式形成完整的《国际专利分类表》(International Classification of Patent for Invention,正式简称为Int.C1,简写为IPC),每5年修订一次,以方括号中的数字表示版次。IPC的分类原则以功能分类与行业分类相结合,功能分类优先为原则。如对涉及两个技术领域的发明,应优先归入功能分类位置。IPC采用等级结构、逐级分类,形成完整的分类体系:其类目依次为部、分部、大类、小类、主组和分组。
      
      为了方便查找IPC分类号,每一版的国际专利分类表都配有一本单独出版的《IPC关键词索引》(Official Catchword Index to the International Patent Classification)。如果检索者不熟悉所查的技术内容在分类表中的位置,就需要借助《IPC关键词索引》,来确定分类范围和准确的分类号,然后再使用IPC分类表。该索引按关键词字顺排列,每个关键词对应着一个IPC分类号。该索引对于快速查找和使用IPC分类表具有很大帮助。

    3.德温特专利检索体系
      英国德温特出版公司(Derwent Publication Ltd.)所收录的专利文献来自世界30多个国家和2个国际组织,是检索世界专利文献的重要检索工具,在国际专利文献检索方面享有盛誉。Derwent对这些系列做了调整和重新命名,统称为世界专利索引,简称WPI Derwent检索刊物。目前WPI由两大系列构成:文摘本和索引本(或称为题录本),每部分按德温特专利分类体系又细分为多个系列,形成一套完整的的专利文献检索体系。除印刷本外,WPI还有多种版本,比如光盘、联机数据库和网络版等。
      
      德温特专利文献检索工具,具有以下特点:收录范围广,报道量大,报道速度快,文献加工标引质量高,可区分基本专利和相同专利,辅助索引种类多,可以多途径检索,索引本采用IPC分类体系,各国通用;整套检索工具实现了多系列+多品种和多媒体化,体系完备,可以满足多种检索需求。当然它也有不足之处,主要表现在:只能检索近几十年的专利文献;部分专利文摘写得令人费解等。

    ①Derwent文摘本检索刊物
    Derwent现在发展成了两大文摘体系:分国文摘和分类文摘。分国文摘报道8个国家2个专利组织的专利(仍用WPA名称),分类文摘按德温特专利分类体系组织专利文摘,共分为三个部分:化学专利索引(CPI),综合与机械专利索引(GMPI),电气专利索引(EPI),此外,电气专利文摘(EPA)实为EPI的累积本。

    《化学专利索引》(Chemical Patents Index,简称CPI)
    CPI分12个分册出版,每分册分别用A-M(I除外)中的一个字母表示。其内容与索引本(WPI)中的A-M分册(原名为CH分册)相对应。CPI文摘部分的著录项目与EPI相同,但编排顺序有所不同,文摘首先按德温特分类体系编排,再按专利号国别代码字母顺序排列,然后按专利号的版次与法律状态代码排列,最后按专利号大小顺序排列

    《综合与机械专利索引》(General & Mechanical Patents Index,简称GMPI)
    其前身为《世界专利文摘》(World Patents Abstracts,简称WPA)的前4个分册,即:P1-P3、P4-P8、Q1-Q4、Q5-Q7。从1996年起,GMPI也细分成国际卷和日本卷,日本卷仅报道日本专利。GMPI文摘部分的编排与著录均与CPI相同。

    《电气专利索引》(Electrical Patents Index,简称EPI)
    共有6个分册,分别用英文字母S-X命名,这六个分册与索引本(WPI)中的S-X分册相对应,从1996年起,EPI分成国际卷和日本卷两卷,日本卷仅报道日本公开专利。EPI的文摘正文首先按德温特分类体系排列;然后按专利文献的专利国别代码字母顺序排列;最后在同一国别下再按专利号大小顺序排列。

    ②德温特文摘本中的索引
    德温特三类文摘本都在文摘之后附有三个索引:专利权人索引、入藏号索引和专利号索引。这三个索引也是比较常用的索引类型。
    专利权人索引
    Derwent专利权人索引以专利权人的名称代码为标目,按字母顺序排列组织索引款目。
    专利号索引
    专利号索引是把当期报道的全部专利文献按专利号排列,供查找入藏号和专利权人代码,以便在需要时再转查其他相应的索引。
    入藏号索引
    入藏号是德温特公司对所收到的每件基本专利给予的唯一指定号码。基本专利一般是指最先到达德温特公司的专利,以后到达的该发明的相同和同族专利不再给入藏号,因此一件发明的所有基本专利、同族专利和相同专利只有一个入藏号。

    ③Derwent索引本检索工具
    Derwent在20世纪70年代创刊了《世界专利索引》(WPI),共报道33个国家和地区、2个国际专利组织的专利文献,周刊,分四个分册出版,目前这四个分册是:A-M:化工,P:综合,Q:机械,S-X:电气,此外,还出版与上述各分册对应的累积索引本。在WPI出版物体系中,索引本和累积索引的各个分册每期都有四种索引:专利权人索引、入藏号索引、专利号索引和IPC分类索引。除上述索引刊物外,Derwent公司还出版独立的《优先案索引》。

    IPC分类索引
    IPC分类索引是德温特公司按照国际专利分类法(IPC)编制的索引,因此使用该索引应结合国际专利分类表。IPC分类索引按IPC分类号的前四级类号顺序排列,同类下再按专利国别代码顺序和专利号大小排列。

    Derwent优先案索引
    Derwent优先案索引(Priority Index),集中了Derwent索引本中的所有专利的优先案。优先案索引先按优先权申请国代码及年代顺序排列,再按优先申请号和申请日期顺序排列。该索引在每个优先案下列出全部同族专利。优先案索引给人们提供了从优先权查找同族专利的有效途径,它还能在有多项优先权情况下指明相关优先权,部分接续申请及其相同专利。另外,国外著者在引用专利文献时,有时只提到国别和申请号,优先权索引也为通过国别和申请号追踪检索专利文献提供了便利。

    ④Derwent专利权人代码手册
    在Derwent出版物中,专利权人名称通常用专利权人代码来表示,该代码由四个大写的英文字母组成。为了方便用户查找和使用专利权人代码并了解其编码的规则与方法,德温特公司出版了《公司代码手册》(Company Code Manual)。该手册按两种排序方法将内容分成两大部分,专利权人名称排序和专利权人代码排序。

    4.专利文献的其他检索工具
    凡是实施专利制度的国家都有自己的专利出版物,这些出版物都可以用来检索专利文献。美国具有丰富的专利文献,受到高度的重视。我国专利文献量并不很大,但随着我国专利的申请和需求迅速增长,也应给以一定的重视。

    ①美国专利文献检索
    查找美国专利文献可以在德温特检索工具查找,也可以利用美国专利局出版的专利文献进行检索,其检索工具主要包括三类:专利局公报,专利分类表,专利索引。

    美国专利局公报
    专门公布美国专利局批准的专利申请说明书的摘要。每期公报按专利类型划分,发明专利进一步按学科领域分为“一般与机械”、“化学”和“电气”三大部分,然后按专利号大小顺序排列。每期专利公报后附有专利权人索引和分类索引。

    美国专利分类表
    整部分类表由3种出版物构成:分类手册、分类定义和分类表索引。分类手册由大类类表和大类展开表(详表)组成,分类号采用顺序制数字类号,类目等级靠排印位置和错位圆点数表示。分类定义是一部手册,对各个类进行详细定义,限制各类的内容范围。分类表索引按所收技术词汇字母顺序排列,其后列出相关的美国专利分类类号。

    美国专利索引体系
    美国专利索引由美国专利公报索引和美国专利年度索引构成,是检索美国专利的主要检索工具。

    ②中国专利文献检索
    我国专利文献最早始于1985年,经过近二十年的发展,目前印刷本有两大检索系列:文摘本和索引本。

    文摘本
    由中国专利局出版,分为专利公报和中国专利分类文摘两种类型。专利公报又按专利类型不同划分为三个分册:发明专利公报、实用新型专利公报、外观设计专利公报,现均为周刊。专利分类文摘按发明专利和实用新型专利分为两个分册,分类法采用国际专利分类法(IPC),每年出版一次。

    索引本
    中国专利索引本是累积出版的题录型专利文献检索工具,该索引将当年公开公布的全部专利累积起来,按专利类型划分后编排索引,每卷提供3种索引:国际专利分类索引、申请人•专利权人索引、申请号•专利号索引。

    5.专利文献的计算机检索
    除印刷本外,专利文献也有光盘版、联机版、网络版,世界著名的联机检索系统中都有专利文献的联机检索,如DIALOG、STN、ESA等。

    ①专利文献的光盘版
    世界上很多国家和专利组织都有专利文献光盘数据库,以满足计算机检索的要求。

    中国专利光盘数据库
    中国专利局、专利文献出版社和中国专利信息中心等部门相继出版了一些专利文献光盘数据库,如中国专利数据库光盘(CNPAT)、中国专利说明书光盘、中国专利公报光盘和中国失效专利数据库光盘等,这些光盘容纳了我国实施专利制度以来的全部专利文献。

    外国专利光盘数据库
    外国专利光盘数据库非常丰富,如欧洲专利组织、专利合作条约组织、非洲知识产权,以及美国、日本、德国、法国、英国、奥地利、瑞士等国家都有自己的专利光盘数据库。与我国一样,各国专利光盘也有多种数据库,使用专利光盘检索时应注意根据需要选择不同的数据库。

    ②专利文献的网络版
    各国专利局的网址都是网上专利信息的重要来源,此外一些专门的专利出版机构所在网址也是其重要的来源。如:中国发明专利技术信息网(网址:http://www.Lst.Com.cn);中华人民共和国专利局的中国专利信息网(http://www.Cpo.cn.net);中国专利信息网(http://www.atent.com. cn)等。各国专利局网址可以通过各国政府网站查询。

    5.7.4 其他工科信息检索工具

    工科信息检索除涉及书刊和专利文献外,还涉及技术标准、科技报告、会议论文、学位论文等特种文献,常用检索工具如下:

    1.标准文献
      检索工具有ISO Catalog、IEC Catalog、《美国材料与试验协会标准年鉴索引》、日本的《JSO总目录》、英国的《BSI目录》等。

    2.科技报告
      检索美国四大报告(即AD报告、PB报告、DOE报告、NASA报告)的工具是:检索AD报告、PB报告用《政府报告通报与索引》(GRA&I),检索DOE报告用《能源研究文摘》(ERA),检索NASA报告用《宇航科技文摘》(STAR)。检索中国科技报告的工具有:《科学技术研究成果公报》、《中国国防科技报告通报及索引》、《中国机械工业科技成果通报》等。

    3.会议文献
    检索国际会议可用美国的《世界会议》(WM)、《会议论文索引》(CPI)、《科技会议录索引》(ISTP)等。检索国内学术会议文献的检索工具主要是《国内学术会议文献通报》。

    4.学位论文
    检索欧美学位论文可用《国际学位论文文摘》(DAI)、《美国博士论文索引》等。检索中国学位论文的检索工具是:《中国学位论文通报》,《中国科学院博士学位论文文摘》等。

    5.8 医药信息检索

    5.8.1 主要医药检索工具及其发展

    1.医药信息检索概况
      作为科技信息检索中的特殊分支,医药信息检索也同样走过了从最初的手工检索为主发展至今日的计算机检索为主的历程。如题录型《中文科技资料目录》(医药卫生)是手检检索工具;《中国生物医学文献数据库》(CBMdisc)则是医学检索光盘;《万方医药子系统》以及中国期刊网专题全文数据库(Web版)的医药卫生专辑是Web环境下的核心全文医学检索工具。
      国外医药检索工具著名的有美国《医学索引》(Index Medicus, 简称IM)和荷兰《医学文摘》(Excerpta Medica,简称EM)。IM和EM与CA(Chemical Abstract)、BA(Biological Abstract)一道被誉为四大著名生物医学检索工具。

    2.主要医药信息检索工具简介
    ①国内医药信息主要检索工具:见教材表4.1
    ②国外医药信息主要检索工具:见教材表4.2

    5.8.2 美国《医药索引》与PubMed数据库

    1.美国《医学索引》(Index Medicus,简称IM)

    ①美国《医学索引》概况
    美国《医学索引》(Index Medicus,简称IM)是最常用的综合性医学文献检索工具之一。IM收录世界各国主要的生物医学及其相关学科的期刊,到2003年为止,已收录世界上72个国家和地区的46种文字出版的生物医学期刊及与医学有关的科技期刊4 521种,其中收录中国期刊64种。IM的特点是历史悠久,报道速度快,检索效率较高,检索方便,内容全面,侧重于临床医学。

    ②检索体系
    IM设置了两种索引:主题索引(Subject Section)和著者索引(Author Section)。
    主题索引:供用户从拟查课题的主题概念入口检索文献。
    著者索引:供用户从著者姓名入口检索文献。

    ③《医学主题词表》(Medical Subject Headings,MeSH)
    是NLM对生物医学文献进行主题分析、标引的权威性检索工具,也是指导用户使用主题索引进行文献检索的工具。

    3.PubMed
    ①PubMed数据库概
    PubMed是美国国家生物信息中心(National Center for Biotechnology Information, NCBI)1997年5月推出的基于Web的检索软件。NCBI提供许多特色性的生物医学类数据库信息服务,PubMed 只是其提供的数据库服务之一,并实现了与系统内其他数据库之间的交叉链接。
    通过网址:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi或进入http://www.ncbi.nlm.nih.gov主页后选择PubMed即可。

    ②数据库覆盖的范围及提供的主要服务
    MEDLINE 数据库的核心与印刷版的题录型检索工具Index Medicus(IM)对应,但其在收编内容和文献记录方式上都进行了扩充与发展,MEDLINE共包含三种重要索引Index Medicus(医学索引),Index to Dental Literature(牙科文献索引) 和International Nursing Index(国际护理学索引)。PubMed可检索的数据库实际上是MEDLINE数据库扩充版,内容包括MEDLINE记录、PreMEDLINE记录(未完成MeSH标引的最新记录)以及出版商直接提供的其他记录(Record Supplied by publisher)。

    ③PubMed 检索技术及检索功能
    PubMed系统主要提供了两种检索界面:基本检索和主题词检索。此外,还设置了一些特色检索服务。

    基本检索(Search)
    PubMed 的主页面就是基本检索界面。该界面设置了一个查询输入框,用户只需要在提问框中输入任意的检索提问,系统就会以其识别的语法规则进行运算并返回检索结果。值得一提的是,有别于其他检索系统,PubMed的“Search”检索功能非常广泛,既可以输入简单的任意词或词组查询,也可以实现类同于其他检索系统的高级检索和专家检索功能。
    基本检索的主要检索功能有:逻辑组配检索;自动转化提问词;截词检索;作者姓名自动截词检索;检索有摘要或全文的记录;字段检索等。

    主题词浏览(MeSH Browser)
    为了在检索过程中控制检索的精确度,系统设置了主题词浏览检索(MeSH Browser),即查询并选择主题词进行检索。

    辅助检索功能键
    “Limits”功能键,限制条件进行检索;“Previews/Index”功能键,预检索和Index检索;“History”功能键,查看检索史并利用已有的检索提问式进行检索;“Details”功能键,单击该键后,系统会将用户的提问词及PubMed转换后的检索词与完整检索表达式详细地显示在“PubMed Query”提问栏中,用户可在该提问栏内直接对检索表达式进行修改,然后单击“Search”再次发出检索请求。

    检索策略的修正
    PubMed在许多检索页面都提供了处于查询状态的检索提问框,用户可以根据上一次的检索结果随时进行修正。在调控和修改过程中,可以调用检索系统中的所有功能键与辅助功能键,灵活运用检索技术与检索技巧,达到与具体需求的统一。

    其他检索服务
    包括:期刊数据库查询,查找指定期刊上的论文;临床咨询,查找临床相关文献;引文匹配检索,查找特定记录等。

    ④检索结果显示及相关资源链接
    包括检索结果显示,获取记录相关资源,检索结果输出等。

    5.8.3 荷兰《医药文摘》

    1.荷兰《医学文摘》印刷本

    ①荷兰《医学文摘》(Excerpta Medica,简称EM) 概况
    荷兰《医学文摘》(Excerpta Medica,简称EM),创刊于1947年,收录全世界110个国家和地区的生物医学、药学及其相关学科期刊4 000多种,年报道文献量40万篇。特点:文摘质量高;按专题分册出版;收录范围广泛,偏重于欧洲、日本文献;卫生学、药学文献量大,但无护理、口腔、兽医及心理学分册。现有44个分册(其中43个文摘分册,1个题录分册)。按照统一的版式编排并具有相同的索引系统。《医学文摘》各分册目录一览见教材。

    ②编排结构及检索体系
    EM各分册均按各自学科体系单独编排,结构较为统一,依次包括以下几部分:分类目次、文摘正文、主题索引、著者索引。EM各分册均提供分类、主题和著者三种检索途径。

    2.荷兰《医学文摘》联机数据库

    ①概况
    荷兰《医学文摘》联机数据库(EMBASE)由Elsevier出版,其对应出版物是印刷版荷兰《医学文摘》的43个分册和1册题录索引。数据库中有近30%的记录未编入印刷本。目前,EMBASE拥有光盘版和网络版,国内引进的光盘数据库主要有美国银盘公司的EMBASE:Drugs&Pharmacology。网络版EMBASE则可以通过EMBASE公司的主页(http://www.embase.com/)进行检索。

    ②EMTREE Theraurus
    1991年EBMASE正式使用的树状词表(EMTREE),是用于文献主题标引和检索的等级词表。该词表在42 000个主要等级叙词的基础上,增设了180 000个同义词。并将所有词按概念关系逐层按等级排列。检索时可以通过页面的功能键进行精确控制。点击主页上方的“EMTREE keywords”,即可以按等级浏览选词检索。

    ③检索功能
    EMBASE的检索技术和逻辑运算与PubMed有些类似,但又有其特点。可提供:快速检索、高级检索、药物检索、疾病检索、文章检索等检索方法。

    ④其他辅助检索
    内容有树状结构关键词检索、期刊浏览、著者检索。

    5.9 农业信息检索

    5.9.1 农业信息检索体系发展概况

    农业信息检索工具和检索系统是检索体系中的重要分支。由于农业与生物学以及林业、畜牧业和渔业的天然联系,农业信息必然与这些相关领域的信息相互融合,因而它们的检索工具也相互融合,有时甚至成为一体。这种现象在世界三大农业信息数据库CABI、AGRIS、AGRICOLA和我国的农业信息检索系统中均有所体现。
    与其他检索工具一样,农业检索工具也有多种版本形式,如印刷版、光盘版和网络版。印刷版中的国外与国内的主要检索工具见教材表4.4和表4.5。

    5.9.2 世界三大农业文献数据库检索

    世界三大农业文献数据库CABI、AGRIS、AGRICOLA是当今世界收录农业文献量最大、专业覆盖面最广、利用率最高的农业文献数据库。CABI是国际农业和生物科学中心(Centre for Agriculture and Bioscience International) 出版的文摘型数据库;AGRIS是联合国粮农组织(FAO)所属的国际农业科技信息系统建立的农业书目数据库;AGRICOLA(Agricultural Online Access)数据库为美国农业图书馆编制的农业文献联机存取书目数据库。
      下面以网络版WebSPIRS为例介绍农业信息数据库的检索方法与技巧。WebSPIRS是检索农业数字化信息资源的主要系统,它包括多种不同内容的数据库,因此,在进入检索界面前,首先要勾选本次检索所需的数据库,进入检索界面。WebSPIRS检索界面比较清晰,它提供的检索功能主要有基本检索和辅助检索,可以选择检索结果显示与输出形式,同时还有一些附加功能。下面分别介绍。

    1.基本检索:
      有全文检索(即全记录检索);限制检索;语种限制;Search Builder(简易的检索方式)等。

    2.辅助检索
    ①Index(索引表)
    Index是数据库中所有可被检索的词或词组构成的一个索引表。该索引表可帮助用户解决两方面的问题:一是帮助用户选择能够反映课题内容的关键词;二是帮助用户解决对某个单词或词组拼法不熟悉的问题。

    ②Thesaurus(叙词表)
    Thesaurus是一个生物叙词表,该表中的所有词和词组都是经过规范化处理的。Thesaurus有三个作用:帮助用户选择规范化的主题词,Thesaurus中的“see”(见)和“used for”(代),可起到核对(选准)主题词的作用,提高文献查准率;选用叙词表中的上位词或相关词,可实现扩检,提高文献的查全率;选用叙词表中的下位词,可实现缩检,提高查准率。

    3.结果显示与输出
    检索完成后,系统即自动显示检索结果和总记录数,并在检索历史区(Search History)生成一个检索项。点击每个检索项后的“Display”显示先前执行过的检索结果。

    4.系统附加功能
    ①Search History(检索历史)
    每完成一次检索,在检索历史区就会生成一个检索项号(#),并显示检索策略及检中记录数。每个检索项前有复选框可供勾选。

    ②Save History(存储检索历史)、Load Search History(载入检索历史)
    通过“Save History”功能键,可将用户经常使用的检索策略储存起来,只需键入自己的E-mail地址,选择保存的有效期即可。而“Load Search History”则将保存的检索策略调出重新进行检索。

    ③链接馆藏和整合电子期刊馆藏
    在检索结果界面中,某些记录后有“Link”按钮,可链接至本馆所订购的电子期刊全文。

    5.检索技术要点
    ①布尔逻辑算符:为“and”、“or”、“not”。
    ②截词算符:“?”为有限截词符,可用1到n个“?”表示0到n个字符;“*”为无限截词符,表示0到无数个字符。
    ③字段限定符:WebSPIRS提供字段限定符功能以提高查准率,限定符为“in”。
    ④位置算符:WebSPIRS提供的位置算符有三个,“with”、“near”和“ADJ”,其作用是缩小检索范围,提高文献的查准率。

    5.10 重要数据图谱

    在科技信息检索中,许多科技数据经过长期的积累形成了许多专业数据资源,并以数据、图形、表格等形式记录于工具书中,包括数表、谱图、星图、地图、图谱、图录、年表、历表等,形成了独具特色的一类信息资源。下面是几种特别重要的大型数据图表。
    1.LBT
    LBT是Landolt-Bornstein’s Zahlenwerte und Functionen aus Physik, Chemie, Astronomie, Geophysik und Technik(兰多特-波斯坦科技数据表)的简称。LBT是世界上公认的最好的科技数据大全,LBT的检索方法一般是按照其固有的体系结构查阅。

    2.Sadtler波谱
    Sadtler波谱全称为Sadtler Standard Spectra Collections(沙特莱标准波谱汇集),自1947年以来以活页本和汇编本形式连续编号出版,是世界上最庞大的一套查检光谱资料的标准工具。

    (1)Sadtler标准波谱印刷本
    Sadtler标准波谱印刷本由两部分组成,正文和索引。正文收录有关化合物的各种波谱数据及一些相关数据。使用Sadtler波谱的方法是通过索引查检,最重要的索引是1980年出版的标准光谱总索引和1981-1995年标准光谱累积索引。

    (2)Sadtler标准波谱网络版
    现在已经可以通过网络检索最新的Sadtler波谱资料,URL为http://www.sadtler.com。

    5.11 常用科技参考工具书

    除上述检索工具及数据库外,科技信息检索中也使用辞典、百科全书、年鉴、手册等参考工具书,
    (1)辞典:如《物理科学词典——术语、公式、数据》、《麦格劳- 希尔科学技术术语词典》、《单位换算词典》、《道兰氏英汉插图医学辞海》等(详见教材)。
    (2)百科全书:如《麦格劳-希尔科学技术百科全书》、《美国学术百科全书》、《电子电路百科全书》、《国际机器人学——应用和自动化百科全书》等(详见教材)。
    (3)年鉴:如《麦格劳-希尔科学技术年鉴》、《科学年鉴》、《国际电子学数据年鉴》等(详见教材)。
    (4)手册 :如《CRC化学物理手册》、《国际半导体数据手册》、《集成电路应用手册》等(详见教材)。
    (5)科技工具书指南:如《麦格劳-希尔基本科技书目》、《数学/科学使用者指南》、《国外科技工具书指南》等(详见教材)。

    展开全文
  • 第四章 信息检索原理与技术 4.1 信息检索的概念 信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分 • 广义信息检索信息存储与检索两个过程。 • 狭义信息检索:仅指从...

    第四章 信息检索原理与技术

    4.1 信息检索的概念

    信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分
    • 广义信息检索:信息存储与检索两个过程。
    • 狭义信息检索:仅指从检索工具或数据库中准确的检出信息这一过程,即信息查找的过程

    4.1.1 信息检索的含义

    1.狭义的信息检索(Information Retrieval)是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获取特定的相关信息的过程。这里的信息集合,往往指关于文献或信息的线索,得到检索结果后一般还要通过检索命中的文献或信息线索索取原始文献或信息。
    2.广义的检索包括信息的存储和检索两个过程(Information Storage and Retrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外部特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。

    4.1.2 信息检索的实质、过程

    信息检索全过程包括两个方面:

    1.信息标引和存储过程。标引是用检索语言和分类号、主题词表示信息,通过对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储组成检索系统,这是组织检索系统的过程。

    2.信息的需求分析和检索过程。分析用户的信息需求,利用组织好的检索系统,按照系统提供的检索方法和途径检索有关信息,这是检索系统的应用过程。
    信息检索的实质是将描述用户所需信息的提问特征,与信息存储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。
    信息检索是对信息集合与需求集合的匹配与选择。

    4.1.3 信息检索的作用

    1.避免重复研究或走弯路
    2.节省学习者的时间
    3.是获取新知识的捷径

    4.1.4 信息存储与信息检索的关系

    信息存储与信息检索是密不可分的两个过程,同时又是互逆的。存储是为了检索,而检索必须先要存储。没有存储检索就无从谈起。这是存储与检索相辅相成、相互依存的辩证关系。

    4.2 信息检索的类型

    4.2.1 按检索的方式分

    1.手工检索

    手工检索简称“手检”,是指人们通过手工的方式检索信息,其使用的检索工具主要是书本型、卡片式的信息系统,即目录、索引、文摘和各类工具书。检索过程是由人工以手工的方式完成的。

    2.计算机检索

    计算机检索简称“机捡”,是指人们利用数据库、计算机软件技术、计算机网络及通信系统进行的信息检索,其检索过程是在人机的协同作用下完成的。

    3.综合检索

    在文献信息检索的过程中,既使用手工检索方式,又使用计算机检索方式,也就是同时使用两种检索方式。

    4.2.2 按检索内容或检索目标分

    1.文献型信息检索

    文献型信息检索是指利用检索工具或检索系统查找文献的过程,包括文献线索检索和文献全文检索。
    文献线索检索是指利用检索工具或检索系统查找文献的出处,检索结果是文献线索。
    文献全文检索是以文献所含的全部信息作为检索内容,即检索系统存储的是整篇文章或整部图书的全部内容。文献全文检索是当前计算机信息检索的发展方向之一。

    2.事实型信息检索

    事实型信息检索是以特定客观事实为检索对象,借助于提供事实检索的检索工具与数据库进行捡索。其检索结果为基本事实。如某个字、词的查找,某一诗词文句的查找,某一年、月、日的查找,某一地名的查找,某一人物的查找,某一机构的查找.某一事件的查找,某一法规制度的查找,某一图像的查找,某一数据、参数、公式或化学分子式的查找等。

    3.数据型信息检索

    数据型信息检索是一种确定性检索,是以数值或图表形式表示的数据为检索对象的信息检索,又称“数值检索”。检索系统中存储的是大量的数据,这些数据既包括物质的各种参数、电话号码、银行账号、观测数据、统计数据等数字数据,也包括图表、图谱、市场行情、化学分子式、物质的各种特性等非数字数据。

    4.2.3 按系统中信息的组织方式分

    1.全文检索
    指检索系统中存储的是整篇文章乃至整本图书。用户根据个人的需求从中获取有关的章、节、段、句等信息,并且还可以做各种统计和分析。

    2.超文本检索
    超文本结构类似于人类的联想记忆结构,它采用了一种非线性的网状结构组织块状信息,没有固定的顺序.也不要求读者必须按照某个顺序来阅读。采用这种网状结构,各信息块很容易按照信息的原始结构或人们的“联想”关系加以组织。

    3.超媒体检索
    由于把多媒体信息引入超文本里.产生了多媒体超文本,也即超媒体。它是对超文本检索的补充,其存储对象超出了文本范畴,融入了静态、动态图像及声音等多媒体信息。信息存储结构从单维发展到多维,存储空间范围不断扩大。

    4.2.4 以文献的外部特征为检索途径

    1.题名途径
    文献题名是指文献的名称,如图书的书名、期刊的刊名、报纸的报纸名称、光盘的光盘名称等。它是认识一篇文献的起点。通过题名途径可查找图书、期刊、单篇文献。检索工具中的书名索引、会议名称索引、书目索引、刊名索引等都提供了从题名进行文献检索的途径。

    2.著作途径
    文献著者是指对文献内容负有责任的个人或机关团体,也就是我们常说的作者、编者、译者等。著者途径也是人们检索文献经常使用的一条途径,包含个人著者、团体著者、专利发明人、专利权人、合同户、学术会议主办单位等。利用责任者途径检索文献,主要利用的是作者索引、作者目录、个人作者索引、团体作者索引、专利权人索引等。

    3.代码途径
    很多文献因其本身特点有特定序号,如科技报告号、专利号、标准号、信息收藏单位的入藏号、ISBN、ISSN等。代码途径就是依据文献信息出版时所编的代码顺序来检索文献信息的途径。这些序号往往具有唯一性,可以据此识别特定的文献信息。依据这些序号数字顺序可编制序号索引,提供序号检索途径。同时,许多检索系统利用事物本身具有的某种符号代码编制成分子式、元素符号、结构式等索引,提供从特定符号代码顺序进行检索的途径,如化合物索引。

    4.2.5 以文献的内部特征为检索途径

    1.分类途径
    分类途径是以课题的学科属性为出发点,按学科分类体系来查找文献信息,以分类作为检索点,利用学科分类表、分类目录、分类索引等按学科体系编排的检索工具来查找有关某一学科或相关学科领域的文献信息。它能满足族性检索的需求。

    2.主题途径
    主题途径是利用信息的主题内容进行检索的途径,即利用从自然语言中抽象出来的,或者经过人工规范化的、能够代表信息内容的标引词来检索。它冲破了按学科分类的束缚,使分散在各个学科领域里的有关同一课题的信息集中于同一主题,使用时就如同查字典一样方便和快捷。其最大优点是把同性质的事物集中于一处,使用户在检索时便于选取,而且将同类事物集中在一起的方法符合人们的工作和生活习惯,直接而准确。

    4.3 检索语言

    4.3.1 检索语言的含义

    检索语言是根据信息检索的需要而创造的专供信息存储和信息检索使用的一种人工语言。
    检索语言是在文献信息检索过程中使用的特定语言形式,它的作用在于促成信息检索系统与检索用户的沟通。

    4.3.2 检索语言的类型

    1. 描述文献外部特征的语言
    (1)题名语言
    (2)著者语言
    (3)代码语言

    2.描述文献内部特征的语言

    (1)分类语言
    所谓“类”是指具有共同属性的事物的集合。每一种事物都有多种属性,用其某一种属性作为划分依据来对一事物进行划分就称为分类。分类是人类逻辑思维的一种最基本的形式。分类语言是用分类号表达学科体系的各种概念,将各种概念按学科性质进行分类和系统排列。

    (2)主题语言
    主题“是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题”,即文献的“中心内容”。每种文献都包含着若干主题,研究或阐述一个或多个问题。主题词就是表达主题概念的词汇。

    4.4 检索系统与检索方法

    4.4.1 检索系统

    1.检索系统的概念
    信息检索系统是为满足信息用户的检索需求而建立起来的、以提供信息检索为目的的信息存储与检索系统。
    可以说,一个信息检索系统便是一定范围文献、信息的全部记录的有序集合。

    2.检索系统的类型

    (1) 按加工手段和技术设备分
    可将检索系统分为:手工检索系统、机械检索系统、计算机检索系统。

    (2) 按载体形式分
    可分为卡片式、书本式、缩微式、磁性材料式等检索系统。

    (3) 按著录格式分
    可将检索系统分为目录、题录、文摘、索引、全文检索系统。

    <1>目录检索系统
    目录检索系统是对一些相关的文献,主要是单位出版物,如图书、期刊等,加以整理、分编,并按一定顺序组织起来形成的一种检索系统,主要记录这些出版物的出版单位、收藏单位及其他外部特征。

    <2>题录型检索系统
    题录型检索系统是以单篇文献为基本著录单位,将书刊、会议录等出版物中大量相关的单篇文献选出,对文献的外部特征,如文献题名、著者姓名、文献出处等加以描述,并按一定的顺序编排起来提供文献线索的检索系统,不收录内容摘要,一般用于快速报道文献信息。

    <3>文摘型检索系统
    文摘型检索系统是在文献题录基础上,加上文献篇首的摘要,或由标引人员以简练、准确的语言将文献信息的研究目的与方法、主题思想与基本观点、框架结构、实验结果与结论等摘录下来形成文摘,并按一定的方法著录、标引、组织起来的检索系统。

    <4>索引型检索系统
    索引型检索系统是将收录范围内的文献中的题名、主题、人名、地名等名词术语以及其他有关款目抽出,注明出处,并按一定的排检方式组织而成的一种检索系统。与目录相比,它有利于人们进行更深入的检索。

    <5>全文检索系统
    全文检索系统是在题录或文摘的基础上,加上完整出版物的全部内容,按一定的方法著录、标引、组织起来的检索系统。这种检索系统往往对文献全文中的词、词组及其位置等做更深入的加工、处理,一般采用自然语言进行自动标引,不仅方便人们一次性获取文献全文,而且提供更多的检索途径。

    4.4.2 检索方法

    1.常用法
    常用法是利用检索工具查找信息的一种方法,因为这种方法是目前查找信息中最常使用的,故亦称常用法。

    (1) 顺查法
    是指按年代由远及近的顺序进行查找的方法,如检索“电视文化”这一课题,首先要弄清起始时间,即“电视文化”产生的时间是哪一年,然后从这一年开始查起,一直查到当前“电视文化”方面的相关信息为止。这样,“电视文化”课题就检索完毕。这种方法的查全率和查准率都较高,但是检索整个课题较费时费力。

    (2) 倒查法
    是指按年代由近及远的逆时间查找方法,这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。使用这种方法可以最快地获得新资料,而且近期资料总是既概括、引用前期的成果,又反映最新的水平和动向,因此这种方法比较省力,但查全率不高。

    (3) 抽查法
    是一种针对学科发展特点,抓住该学科发展迅速、信息发表较多的年代(信息的高峰期),抽出一段时间(几年或十几年),再进行逐年检索的方法。这种方法费时较少,获得信息较多,检索效率较高。但是这种方法的成功率和有效率必须建立在熟悉学科发展特点的基础上。也就是说,只有对该学科或课题的发展熟悉的情况下,才适合使用。

    2.追溯法
    追溯法是一种跟踪查找的方法,即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。

    3.循环法
    循环法是常用法和追溯法的结合,检索时,先利用检索工具查出一批文献,然后选择出与检索课题针对性较强的文献,再按文献后所附的参考文献回溯查找,不断扩大检索线索,分期分段地交替进行,循环下去,直到满意为止。

    4.检索方法的选择原则

    (1) 检索条件
    (2) 检索要求
    (3) 学科特点

    4.5 检索技术与检索效果

    4.5.1 常用检索技术

    1.布尔逻辑检索

    (1)逻辑与“AND”
    逻辑与(AND或“﹡”)是反映概念之间交叉和限定关系的一种组配方式,用以缩小检索范围,减少输出结果,提高查准率。

    其检索表达式为:“A AND B”或“A*B”,即检索记录中必须同时包含A词与B词才算命中。

    例如:“中国*对外贸易”。如查询“计算机文献检索”,提问式为:计算机and文献检索。如下图所示:
    在这里插入图片描述
    (2)逻辑或“OR”
    逻辑或(OR或“+”)是反映概念之间并列关系的一种组配方式,使用它相当于增加检索词主题的同义词与近义词,可扩大检索范围、增加输出结果,提高查全率。

    其检索表达式为:“A or B”或“A+B”,即检索记录中含有A词或者B词中的任何一词即可。

    例如:“高清晰电视+HDTV”。如要查询有关股票和期货方面的文献,检索提问式应为:股票or期货。

    在这里插入图片描述

    (3)逻辑非“NOT”
    逻辑非(NOT或“-”)可以用来排除不希望出现的检索词,它与逻辑与“AND”的作用类似,能够缩小命中信息的范围,提高检索的查准率。

    其检索表达式为:“A NOT B”或“A-B”,即检索记录中包含A词但不含有B词。

    例如:“能源-太阳能”。如要查询除成人教育以外的高等教育方面的文献,提问式为:高等教育not成人教育。

    在这里插入图片描述

    2.截词检索

    (1)从截断字符的数量来看

    <1> 无限截词
    常用表示符号为“*”“/”“?”,一个无限截词符可代表多个字符,表示在检索词的词干后可加任意个字符或不加字符,常用于检索同一类词。

    如使用“employ?”,可检索到:employ,employer,employers,employment等词。

    <2> 有限截词
    一个有限截词符只代表一个字符。常用符号“?”表示,代表这个单词中的某个字母可以任意变化,在检索词词干后可加一个或一个以上的有限截词符,一般有限截词符的数量有限制,其数目表示在词干后最多允许变化的字符个数
    如“solut???”可检索到包含solution、solute和soluting等词在内的信息。

    (2)根据截断的位置
    <1> 后截词
    后截词最常用,即将截词放在一个字符串之后,用以表示后面有限或无限个字符不影响其前面检索字符串的检索结果。
    如:physic*,可检出的词汇有:physic、physical、physician、physicist、physics等。

    <2> 前截词
    前截词将截词符号置于一个字符串的前方,以表示其前方有限或无限个字符不会影响后面检索字符串的检索结果。

    <3> 中截词
    又称中间屏蔽,指将检索字符置于一个检索词中间,不影响前后字符串的检索结果。具体地说,就是在一串字符中插入一个或几个屏蔽符号“?”或“!”,表示在问号的相应位置上可转换数目相当的字符。

    3.限制检索

    (1)检索系统中的限制检索
    在检索系统中,使用缩小和限定检索范围的方法称为限制检索。限定检索条件多种多样,主要和常用的是字段限制。
    其中,主题字段如题名(Title)、叙词(Descriptor)、标识词(Identifier)、文摘(Abstract)等;非主题字段如作者(Author)、文献类型(Document Type)、语种(Language)、出版年份(Publication Year)等。

    (2)搜索引擎中的限制检索
    搜索引擎中的字段检索多表现为前缀符限制形式,其中,表示内容特征的主题字段有Title,Keywords,Subject,Summary等;表示外部特征的非主题字段限制有image,text,applet等;此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型。

    4.位置检索
    位置算符用于表示词与词之间的相互关系和前后的次序,通过对检索词之间位置关系的限定,进一步增强选词指令的灵活性,提高检索的查全率与查准率。

    (1)W算符(With)
    通常写作A(nW)B,表示词A与词B之间至多可以插入n个其他的词(往往包括系统禁用词),同时A、B保持前后顺序不变。

    (2)N算符(Near)
    通常写作A(nN)B,表示A与B之间至多可以插入n个其他的词,同时A、B不必保持前后顺序。

    (3)F算符(Field)
    通常写作A(F)B,表示A、B必须同时出现在记录的同一字段中,如出现在篇名字段中,两词次序、A与B间加词个数不限。

    (4)S算符(Subfield)
    通常写作A(S)B,表示A与B必须同时在一个句子中或同一子字段内出现,但次序可随意变化,且各词间可加任意个词。

    5.多媒体检索
    基于内容的多媒体信息检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法。

    6.超文本检索
    超文本检索时其内容排列是非线性的,按照知识(信息)单元及其关系建立起知识结构网络,操作时用鼠标去点击相关的知识单元,检索便可追踪下去,进入下面各层菜单。

    4.5.2 检索效果

    1.检索效果评价
    检索效果是指检索系统检索信息的有效程度,反映了检索系统的检索能力。
    (1) 质量标准
    (2) 费用标准
    (3) 时间标准
    <1> 检索效果评价指标表
    在这里插入图片描述
    <2> 查全率和查准率
    查全率
    查全率是指检索出的相关信息量与系统中的相关信息总量之比。
    在这里插入图片描述
    查准率
    查准率是指检索出的相关信息量与检索出的信息总量之比。
    在这里插入图片描述

    2.检索效果优化
    <1> 提高检索系统的质量
    <2> 提高用户利用检索系统的能力
    <3> 制定优化的检索策略
    ① 提高查全率的方法
    为了提高查全率,往往通过采用提高检索词的泛指度,选全同义词、近义词,多用截词符;减少使用逻辑“与”、逻辑“非”运算符,增加使用逻辑“或”运算符;取消某些限制符,在多字段或全文中检索;采用分类号检索等多种方法。
    ② 提高查准率的方法
    为了提高查准率,往往通过采用提高检索词的专指度,增加或者使用下位词及专指性较强的自由词,少用截词符;增加使用逻辑“与”、逻辑“非”运算符,减少逻辑“或”运算符;多用限制符或限制字段;用文献的外部特征限制等多种方法。

    4.6 检索步骤与检索策略

    4.6.1 检索步骤
    1.分析检索课题
    2. 选择检索系统
    3.确定检索途径和检索方法
    4.构建检索式
    5.检索并调整检索策略
    6.获取原文

    4.6.2 检索策略

    1. 检索词
    检索词,就是简明、准确地概括检索要求的词语。检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。

    2. 检索式
    检索式,又称检索提问式,是检索策略的某种具体体现。在计算机信息检索中,指在课题分析的基础上,根据所要检索的概念及其相互关系,确定检索词,并用系统支持的各种算符和其他连接符对检索词进行逻辑组配而形成的,全面表达检索提问的逻辑表达式。
    面对一个课题,不应该只从现成的课题名称中抽取检索词或词组,应对课题名称进行切分、删除、替换、聚类、补充和组合,生成检索式,从而达到最佳检索效果。

    3. 检索策略的制定
    制定检索策略时不仅要全面、准确地对课题进行概念分析,确定概念单元和概念间的关系,而且要熟悉有关的检索系统,才能将概念单元转换成系统能够接受的检索词,并选择合适的方式组配起来,完整地表达自己的检索要求。
    另外,还要掌握各种检索方法和途径,适当地运用到检索过程中去,才能取得较好的检索效果。

    4. 检索策略的调整
    用户在每一次检索中,都需根据系统显示的命中记录的内容和数量,判断自己的检索要求是否已得到满足,如果尚未得到满足,还应调整检索策略再次检索。

    4.7 信息检索的原理
    指对搜集到的文献信息进行加工处理,将文献的特征,如文献名称、著者、分类号、主题词、分子式或代码等著录下来,形成一条条文献线索,并将其按一定目的、方法加工整理成检索工具,或组成检索系统。

    对所查的课题进行分析,找出检索提问特征,如主题词、分类号、著者、代码等,然后从检索工具或检索系统中准确地查找出来。

    4.8 信息检索的意义
    • 信息传播与控制的手段
    • 获取知识的门径,学习的助手
    • 科学研究的工具和指南
    • 为科学决策和管理提供依据与支持

    展开全文
  • 文章目录信息的含义信息的特征信息的功能信息的类型互联网对信息的影响网络环境下信息的新特点信息检索的原理信息检索的类型信息检索的意义/作用信息检索的历程信息检索系统信息检索方法信息检索效果影响信息检索...
  • 信息组织与检索 知识点整理 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有...
  • Hibernate的对象检索策略分为三种: –立即检索策略 –延迟检索策略 –左外连接检索策略 1.立即检索策略: 以Customer和Order(两者为一对多关联关系)为例: List customerLists=session....
  • 百度地图开发(五)之公交信息检索 + 路线规划

    万次阅读 多人点赞 2015-03-05 00:24:41
     实际上,公交信息检索与POI检索、在线建议检索非常相似,也是把你需要检索信息发送给百度地图服务器,然后解析得到的结果。  一般步骤:  1. 设置检索参数  2. 添加检索结果监听器  3. 发起检索  4.
  • 大学生信息检索概论练习题

    千次阅读 2021-07-16 15:35:20
    一、填空题 1.著名的引文索引检索工具SCI的...6.一本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部 6.按约束力来划分,标准可以分为强制性标准和推荐性标准。 7.一般来说,我们把SCI、E
  • 分布式信息检索

    千次阅读 2007-07-02 20:11:00
    本科毕业设计(论文) 题目 分布式信息检索
  • 信息素质是人们能够敏锐地察觉信息需求,并能对信息进行检索、评价和有效利用的能力。 信息素养是一个综合性的概念,它包含多方面的内容: 1.要有信息意识; 2.能有效地利用信息源; 3.能对信息进行批判性的思考; 4...
  • scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)

    万次阅读 多人点赞 2016-05-22 22:51:12
    定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类。 要求: 有相关搜索推荐、snippet...
  • 多媒体信息检索技术简介

    千次阅读 2013-09-28 18:59:35
    多媒体技术和Internet的发展给人们带来巨大的多媒体信息海洋,并进一步导致了超大型多媒体信息库的产生,光凭关键词是很难做到...基于内容的信息检索(Content-Based Retrival)是一种新的检索技术,是对多媒体对象的内
  • SHREC 2017:RGB-D对象到CAD的检索 该存储库包含有关数据集的详细说明和补充代码。 在本教程中,我们的目标是使用SceneNN模型作为输入从ShapeNet检索CAD模型。 下载 (4 GB) (选,8 GB) (选) (选,120...
  • 文献信息检索与利用尔雅答案

    万次阅读 2020-06-26 10:52:53
    2【单选题】按照文献出版形式,文献大致可分为三大类:图书、期刊和()。答案:特殊文献 A、常用文献 B、专门文献 C、特殊文献 D、标准文献 3【单选题】()是衡量某一检索系统的信号噪声比的一种指标。答案:查准率...
  • 基于领域本体的语义信息检索研究

    千次阅读 2009-01-03 16:56:00
    基于领域本体的语义信息检索研究(马文虎 南京理工大学信息管理系) 目 录引言... 11信息检索与本体概述... 11.1 信息检索... 11.1.1 信息检索的概念... 11.1.2 信息检索模型... 21.1.3 信息检索技术... 21.1.4 ...
  • 基于内容的视频信息检索系统

    千次阅读 2014-12-23 15:27:56
    基于内容的视频信息检索系统 汪志强 (江西财经大学信息管理学院 09信息管理与信息系统2班) 摘 要: 本文从基于内容的视频信息检索技术的发展历史出发,对基于内容的视频检索系统的技术要点及主要的功能模块...
  • 第1章 信息检索基础

    千次阅读 2008-06-27 16:39:00
    第1章 信息检索基础1.1 有关信息检索的一些概念1.2信息检索的类型及特点1.3信息检索的基本步骤1.4检索工具1.5 检索语言1.6 信息检索的发展趋势2008-6-27 31.1.1信息、文献、知识1.信息的定义、特征和...
  • 基于本体的信息检索模型

    千次阅读 2007-10-31 21:17:00
    建议信息检索及相关领域的朋友们都去读一读这篇文章。本笔记将主要记录和阐述其中的一些观点。 Notes(1):Introduction 传统的基于关键词(keyword-based)的信息检索由于其存在诸多的缺陷,使人们基于寻
  • ©PaperWeekly 原创 ·作者|刘布楼学校|清华大学博士生研究方向|表示学习传统的信息检索模型中,文本通常使用词袋模型表示。该方法有两个较为明显的缺陷:1)只能通过 TF-ID...
  • ACM SIGIR 2020是由国际计算机学会ACM主办的信息检索方向的国际顶会。会议每年召开一次,专注于信息检索领域,涉及理论基础、算法、应用和评估分析等方向。今年是第43届,于7月2...
  • 详解Python中的哈希对象与不哈希对象(二)

    千次阅读 多人点赞 2019-10-30 16:49:52
    前言:我们经常会听见很多的概念,哈希值...鉴于篇幅较多,本次系列文章将分为两篇来说明,此为第二篇,会涉及到一下概念,对象mutable与不对象inmutable,哈希hashable与不哈希unhashable,为什么字典...
  • 全文检索概念介绍

    千次阅读 2017-08-18 15:15:48
    1.全文检索概念介绍  今天小编给大家讲解全文搜索的概念,希望大家对全文搜索能够有一个整体的了解。 1.1我们身边的搜索 l 在BBS、BLOG、新闻等系统中提供的搜索文章的功能,如这里的贴吧的例子。搜索的范围是系统...
  • 航班信息查询与检索(java)

    千次阅读 2012-03-30 10:03:55
    大二上时用C语言写过一个关于航班信息查询与检索的课程设计,当时是自己抄代码,然后再让学长帮改的,前天晚上在“抄”代码时,突然想用java把那个课设题再写一次,于是昨天晚上就开始了,当然还是先在网上找了不少...
  • 问题源于我在重现一篇信息检索方面顶会论文实验的时候,始终计算不出与论文中相同的实验结果。论文的实验用到了P@10,MAP,NDCG@10三种指标。我先是用了Galago提供的计算工具,发现除P@10一项指标结果一致外,MAP,...
  • 基于本体的信息检索模型原文: An Ontology-based Information Retrieval Model(By David Valley) 老师上周就给了我这篇文章,只可惜由于身体原因,头脑总是昏昏的,看不了多久人就糊了,以至于花了一个星期时间才...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 83,651
精华内容 33,460
关键字:

信息检索对象可分为