精华内容
下载资源
问答
  • 检索的原理方法步骤 一、计算机EI检索的原理 计算机EI检索的原理是将...主要检索功能有布尔逻辑检索、位置逻辑检索字段限制词检索等。布尔逻辑检索由逻辑或(OR)、逻辑与(AND)逻辑非(NOT)构成,不同检...

    检索的原理和方法步骤

    一、计算机EI检索的原理

    计算机EI检索的原理是将检索者的提问与系统中的记录进行匹配运算,符合条件者即为命中记录,最后输出结果。主要检索功能有布尔逻辑检索、位置逻辑检索,字段限制和截词检索等。布尔逻辑检索由逻辑或(OR)、逻辑与(AND)和逻辑非(NOT)构成,不同检索系统其运算次序有可能不同,使用括号可以以不变应万变。位置逻辑检索可以限定检索词之间的位置,对剔除无关信息,提高检准率有重要作用。字段限制检索不仅提高检准率,而且还满足许多特殊要求。截词检索可以提高查全率。

    二、计算机EI检索的方法步骤

    从狭义上讲,计算机情报检索仅指检索人员在计算机或计算机情报检索系统的终端机上,使用特殊的检索指令、检索词和检索策略,由计算机从EI检索系统数据的数据库中检索出所需情报资料的过程。因此,从这样的定义出发,就不难看出科技情报的手工检索是计算机EI检索的基础。可以这样讲,如没有情报检索的基本理论知识、没有手工检索的知识与技能,要发挥计算机情报检索的巨大潜力和作用是根本不可能的。计算机EI检索的步骤如下:

    1.分析信息形式需求和内容需求。首先要明确检索是为了科研立题,撰写论文;还是为了课题鉴定、成果报奖等。从而确定所需信息的类型、语种、年代范围等。其次明确检索课题的主题内容,如分析学科范围,主题概念以及概念关系等,以便选择检索项目。

    2.选择计算机EI检索方法。是采用联机检索,还是光盘数据库检索,或者是INTERNET网上检索。根据专业范围,把信息类型,时间范围,系统提供的检索途径,检索费用等一并考虑。

    3.选择计算机EI检索项。首先选择经规范处理的受控词,如TREECD中描述词(DE),具有明确的词间关系,专指性和网罗性均较好。选择受控词可参阅待检数据库的主题词表。自由词是直接取自题名,文摘等的自然语言词汇。由于科学技术的发展,学科的调整,造成受控词主题内容的滞后,且存在受控词标引误差和数量有限等问题。因而,当课题很专或很特殊,涉及前沿科学和新的词汇,涉及交又学科或多学科,不存在恰如其分的受控词时,应考虑用自由词检索。

    4.确定逻辑检索式。确定逻辑检索式就是选好检索词后,合理使用截词符,选用合适的位置逻辑算符,布尔逻辑算符,字段限制符进行组配以准确表达信息需求。以下是值得注意的两个方面。其一,应充分意识到有些检索词表达的概念存在整体与部分的关系。其二,检索概念较多时,可将检索分步进行。先检索最核心,最专指的概念,若检出信息量很少,可不再加其它概念限制;若检出量太多,再逐步增加其它概念,这样可节省检索时间。

    5.计算机EI检索策略的调整。检索结果不满意时要对检索策略进行调整。检索式的调整可以从提高检全率和检准率两方面来进行。对于漏检较多的检索式,需要选用近义词,同义词和相关词用逻辑或(OR)组配,去掉不太重要的检索词,进行截词检索,增加检索途径,取消式放宽某些限制符等手段提高检全率。对于误检较多的检索式,需要提高检索项的专指度,选用逻辑非(NOT)去掉无关信息,用逻辑与(AND)组配一些进一步限定主题概念的相关概念,增加限制符或用更严格的限制符等手段提高检准率。

    转载于:https://my.oschina.net/ailess/blog/495956

    展开全文
  • 这里写自定义目录标题常用全文外文数据库检索词的选择常用检索技术常用检索字段检索结果排序、阅读下载常用检索功能EBSCO hostASP、BSP简介SDElsevier与SD简介四大部类24个学科领域IEEESpringer 常用全文外文...

    这里写自定义目录标题

    外文期刊和图书全文数据库

    • 数据集成商——EBSCOhost
    • 出版社:Elsevier(SD)、Springer(图书、期刊)、Emerald、JohnWilv
    • 学会、协会:IEEE、ACM、OSA

    外文文献检索前的准备

    • 先阅读一些相关主题的中文文献,从中获取相应的检索词
    • 了解相关外文数据库的检索功能、检索规则

    检索词的选择

    • 立足规范词,兼顾自由词、同义词、近义词、隐含词、全称、简称、缩写、词形变化、忌自造词
    • 检索词应该是能揭示课题主题内容的语词,不要讲虚词(冠词、定冠词、介词)和一些意义广泛的词作为检索词,如技术、应用、研究、探讨、思考、方案、方法、措施等。
    • 将信息需求转化为若干具体的概念词,尽量避免用一句话(除非检索一篇文章)来做检索词
    • 辅助选词工具:
        术语在线:
        CNKI翻译助手: http://dict.cnki.net
        数据库(词表、索引、推荐词)
        百度百科、专业词典和百科全书

    常用检索技术

    • 布尔逻辑检索(boolean)
       AND、OR、NOT
    • 精确检索(exact phrase searching)
       精确检索时,词组或短语需用引号或括号标引
    • 截词检索(Truncation)
      星号(*)截词符:如comput *可以检出computer、computerized、computation、computational、computability等词
      问号(?)截词符:如f??t,可检出foot、feet
    • 邻近(位置)检索(Proximity Searches)
      NEAR/n(web of science);NEAR/n ONEAR/n (EI、IEEE、Springer);Nn/Wn、(EBSCO);W/n、pre/n(SD)
    • 查全:逻辑与>邻近检索>精确检索
    • 查准:精确检索>邻近检索>逻辑与

    常用检索功能

    • 浏览(browse)
    1. 出版物字顺浏览(publication alphabetical)
    2. 学科浏览(subject)
    3. 出版物浏览(publication content)
    • 检索(search)
    1. 简单检索(quick search 、Easy Search 、basic search 、 general search)
    2. 高级检索(advanced search)

    常用检索字段(Search Fields)

    • Document Title:文章的标题。检索时可以输入词、词组或短语
    • Keyword:关键词
    • Keyword/Title/Abstrcat:在标题、摘要、关键词等字段检索。检索词可为词、词组或短语
    • Author:著者(姓在前,名在后,作者名可以使用截词符)
    • (Author)affiliation:(作者)机构
    • Publication(source)title:出版物名称(比如刊名)
    • controlled term:受控次、叙词
    • All fields:系统默认字段
    • Metadata:题录字段
    • Full text:全文

    文献类型(document types)

    • 期刊:Journal Article
    • 汇刊:Transaction
    • 会议论文:Conference Article
    • 会议论文集:Conference Proceedings
    • 标准:Standards
    • 图书:Book
    • 综述:Review
    • 学位论文:Dissertation
    • 在编文献:In press article(early access)

    检索结果排序、阅读和下载

    • full test(Full-test available):html、PDF全文
    • Abstract(Abstractplus):文摘(文摘+参考文雄安)
    • Reference:参考文献
    • Detail:详细题录
    • Related article:相关文献
    • Sort by (relevance/date):结果排序(相关性/日期)
    • Refine results(Limit to/Exclude):结果精简(限制/排除)
    • Subscription detail:订购情况
       My subscribed content(已购买)
      在这里插入图片描述

    例 1 人脸识别技术在移动设备中的应用

    (1)切词(提取主要概念词):
    人脸识别 face recognition 、移动设备 mobile devices
    (2)同义词扩展:
    人脸识别: face recognition OR face scan OR face authentication OR face detection
    移动设备:mobile devices OR mobile equipments OR smartphones OR mobile phones OR digital cameras
    (3)构建检索式:
    (‘face recognition’ OR “face scan” OR “Face Authentication” OR “face detection”) AND (“mobile devices” OR “mobile equipments” OR “handset” OR “smartphones” OR “mobile phones” OR “digital cameras”)

    EBSCO host

    EBSCO host简介

    • 是美国EBSCO Publishing公司的在线参考信息系统
    • 该平台目前可访问10+个数据库,其中ASP和BSP是最重要的两个。
      在这里插入图片描述

    ASP、BSP简介

    ASP(Academic Search Premier)学术期刊集成全文数据库
    • 当今全世界最大的多学科学术期刊全文数据库
    • 4600多种学术期刊的全文,其中3900多种同行评审期刊,提供8500多种期刊的文摘和索引;
    • 回溯到1975年或更早
    • 覆盖了所有的学术研究领域包括:社会科学、人文科学、教育学、计算机科学、工程学、物理学、化学、语言学、艺术、文学、医学、妇女研究、种族研究等
    ASP期刊分类统计

    在这里插入图片描述
    社会科学类和自然科学类期刊各占50%

    BSP————Business Source Premier 商业资源集成全文数据库
    • 为商学院和与商业有关的图书馆设计
    • 收录了3747种期刊的文摘和索引,约2300多种学术性商业类全文期刊,其中同行评审刊(peer-reviewed publications)1100多种,所收期刊最早年份为1922年
    • 提供商管领域的产业报告,市场报告和SWOT分析报告
    • 学科领域包括:经济学、经济管理、金融、会计、劳动人事、银行以及国际商务等
    BSP期刊分类统计

    在这里插入图片描述

    访问方式

    • 校园网IP范围内可以直接访问,无需输入账号与口令
    • 浏览/打印期刊全文(PDF格式)需要使用Acrobat Reader软件。

    浏览和检索功能

    • 出版物浏览
       按字母顺序、按主题、任意关键词
    • 检索:
      基本检索、
      高级检索、
      叙词检索(thesaurus)
      *企业信息查询

    1.出版物浏览

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2.基本检索界面

    在这里插入图片描述

    3.高级检索界面

    在这里插入图片描述

    检索字段
    • TX——All Text 全文
    • AU——Author 作者
    • TI——Article title篇名
    • SU——Subject 主题
    • AB——Abstract 文摘
    • IS——ISSN
    • IB——ISBN
    • GE——Geographic 地理
    • PE——People 人物
    • CO——Company 公司
    • PS——Reviews&products评论和产品
    • AN——Accession_Number图书馆编号
    • SO——Journal_name 期刊名
    检索技术
    • 逻辑检索 AND、OR、NOT
    • 截词符:?、*
    • 精确检索:“”
    • 位置算符:
      Nn算符:tax N5 reform两个词之间最多可以插入n词,次序不定
      Wn算符:tax W5 reform两个词之间最多可以插入n词,次序一定

    4.公司信息查询

    可检索世界知名企业概况、业务范围、SWOT分析及主要竞争者
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    个性化服务功能

    • 新用户注册
    • 个性化服务的利用
    • 定制通报服务

    其他免费资源

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    Elsevier与SD简介

    • 爱思唯尔(Elsevier)是全球最大的科技文献出版商,1580年成立于荷兰
    • SD是其核心产品,是全学科的全文数据库
    • 集世界领先的科技和医学信息之大成
    • 得到130多个国家1100万科研人员的认可
    • 中国用量最高的外文数据库

    四大部类24个学科领域

    在这里插入图片描述

    访问方式

    • 校园IP访问内登录使用

    检索功能

    在这里插入图片描述

    • 浏览 browse
       学科浏览、出版物类型浏览、字母顺序浏览
    • 检索 search
        简单检索
        高级检索

    1.浏览 browse

    (1)学科浏览

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    (2)出版物类型浏览

    在这里插入图片描述

    2.检索功能 search

    简单检索

    按提示输入相应检索词,点搜索按钮即可,检索款之间是AND的关系
    在这里插入图片描述

    高级检索

    在这里插入图片描述

    检索技术
    • 逻辑算符: AND OR NOT
    • 截词符:?、*
    • 位置算符:
      (1)w/n 两词相隔不超过n个词,次序可以颠倒,如 quick w/3 response
      (2)pre/n 两词相隔不超过n个词,次序不可以颠倒,如 quick pre/3 response
    • 精确符:“”
    • 精确短语检索符:{}

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    免费在线注册

    在这里插入图片描述

    个性化功能

    • 最热门文章推荐
    • 收藏喜欢的期刊
    • 保存重要的检索
    • 设置E-mail提示
       检索提示:同一个检索式有了新的检索结果
       引文提示:某一篇文章又被新的文章所引用
       期刊提示:关注的期刊又出版了新的一期
       主题提示:关注的主题有新的文章发表
      *历史追踪(检索历史与操作历史)

    Springer全文数据库

    • Springer出版社拥有167年的出版历史
    • 全球最大的学术与科技图书出版社(每年出版6500种新书)
    • 全球三大学术期刊出版社之一(每年出版2000多种学术期刊)

    在这里插入图片描述

    Springer电子期刊

    • 收录了3400多种期刊(包括不再更新的期刊),其中许多倍SCIE、SSCI收录
    • 涉及生物医学、化学、计算机科学、工程学、地球科学、环境学、地理、生命科学、物理学、材料科学、数学、医药与公共健康、药学、哲学、经济学、教育学、政治科学和国际关系、文学、心理学、商务与管理、社会科学、统计学、历史、法律等50个学科领域
    • 1997年至今

    Springer电子图书

    • 收录了30000多种电子图书(我校可访问其中一部分
    • 涉及生物医学、化学、计算机科学、工程学、地球科学、环境学、地理、生命科学、物理学、材料科学、数学、医药与公共健康、药学、哲学、经济学、教育学、政治科学和国际关系、文学、心理学、商务与管理、社会科学、统计学、历史、法律等50个学科领域

    Springer电子丛书简介

    • 目前,在线出版的著名丛书已超过33种,包括约2500卷
    • 研究者们用在线Springer在线丛书来寻找复杂研究问题的解决方法,这些解决方案是来自在相关研究领域享有较高名誉的研究学者的
    • 与期刊相比,丛书为研究者提供更深层次的信息,以进行深层次研究

    Springer电子丛书涵盖学科

    在这里插入图片描述

    访问方式

    在这里插入图片描述

    检索界面

    在这里插入图片描述
    在这里插入图片描述

    1.浏览功能

    (1)按照字母顺序(图书、期刊)

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    (2)按照学科浏览(50个学科领域)

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    检索功能(简单检索、高级检索)

    检索技术
    • 逻辑算符: AND OR NOT
    • 截词符:?、*
    • 位置算符:
      NEAR: information NEAR/4 systems 两词之间最多插入4个词,词序不定
      ONEAR:information ONEAR/4 systems两词之间最多插入4个词,词序一定
      *短语检索:""
    检索举例1:电子射频识别技术在图书馆中的应用

    切词: 电子射频识别 图书馆
    扩词:RFID radio frequenc identification
    构造检索式:
    (RFID or radio frequency identification) and librar*
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    IEEE

    IEL简介及IEEE xplore平台介绍

    一、IEEE简介

    电气电子工程师学会(IEEE)的英文全称是the Institute of Electrical and Electronics Engineers,其前身是成立于1884年的美国电气工程师协会(AIEE)和成立于1912年的无线电子工程师协会(IRE)。

    总部在美国新泽西州(New Jersey)

    AIEE+IRE=IEEE
    1963年,AIEE和IRE宣布合并,电气电子工程师学会(IEEE)正式成立了。

    涵盖的学科领域

    在这里插入图片描述

    • IEEE内容覆盖所有尖端科技领域
      在这里插入图片描述
    • IEEE/IET Journal & Magazine-IEEE/IET 期刊杂志
      在这里插入图片描述
    • IEEE/IET Conference Proceedings-IEEE/IET 会议 论文
      在这里插入图片描述
    • IEEE期刊的影响因子排名情况
      在这里插入图片描述
    IET英国工程技术学会
    • 2006年3月,英国电气工程师协会(IEE)与英国应用工程师学会(LLE)合并,更名为英国工程技术学会(IET)。IET在全球127个国家有15万会员,是欧洲最大,全球第二大专业技术学会。
    • IET每年在全球举办大量国家会议,出版500多种出版物。
    • 内容涉及电子、电气、制造、物理、电信、资讯技术等工程领域。

    二、IEEE Xplore在线平台简介

    IEEE和IET的期刊、会议、标准等,涉及电气、电子工程、计算机等相关领域30%的世界最优质的科技文献
     访问方式一:https://ieeexplore.ieee.org
    在这里插入图片描述

    IEL的浏览(Browse)功能

    在这里插入图片描述

    四种浏览方式

    在这里插入图片描述

    IEL的检索(Search)功能

    方式一:基本检索

    在这里插入图片描述

    检索技术

    1. 逻辑算符: AND OR NOT
    2. 截词符:? 、*
    3. 精确符:""
    4. 位置算符:
      NEAR/n 两词之间最多相隔n个词,次序不定
      ONEAR/n 两词最多相隔n个词,次序一定
      截词符不能与位置算符一起使用

    方式二:高级检索

    在这里插入图片描述

    个人偏好设定

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    外文数据库——ACM

    ACM简介

    • ACM(Association for Computing Machinery)美国计算机学会
    • 创立于1947年,是全球最悠久的计算机教育机构,目前提供的服务遍及100多个国家,会员人数达80000多位专业人员,并于1999年开始提供电子数据库服务——ACM Digital Library全文数据库
    • 该数据库收录1985年以后出版的50多种电子期刊以及近1350种会议录。ACM出版的期刊大部分被SCI、EI收录。
    • 大部分全文采用PDF格式保存,用户安装Adobat Reader软件才能阅读全文。

    ACM主要数据库

    • ACM FULL-TEXT Library
    • Guide to computing literature

    ACM FULL-TEXT Library数据库简介

    • 1999年开始提供ACM FULL-TEXT Library;内容包括50余种专业期刊(journal),7种专业杂志(magazine),28种学报汇刊(transaction),近1350种学术会议录(proceeding),SIG定期简讯(Special Internet Group Newsletters)和有合作关系的出版机构的出版物全文;
    • 各种文献收录年代不完全统一,有的收录自创刊起直到当前的最新内容,例如:1954年的Journal of the ACM(JACM),有的只收录了最新几年额内容。

    Guide to computing literature数据库——计算机文摘指南简介

    • 这个文摘索引数据库提供了超过3000家出版社在计算机领域出版的多种文献引文和摘要目录的查询和浏览功能
    • 收录范围涉及图书、期刊、会议录、博士论文、技术报告等超过一亿条题录,ACM相关机构的文献大多可以看到全文。

    重点期刊介绍——Association for Computing Machinery Journal《美国计算机学会期刊》

    • 刊载计算机科学领域的高水平理论研究论文;是计算机科学首要期刊之一,位列国际上引用最广泛的计算机应用十大期刊之中;
    • 涵盖计算机硬件研究、发展和应用,信息处理语言、科学计算、自动控制和计算机仿真、人工智能、操作研究、计算机系统识别、数据存储和处理;

    访问方式

    检索功能

    在这里插入图片描述

    一、浏览

    期刊(学术)、杂志(通俗)、会议录(字母顺序)、会议、
    SIG(特别兴趣小组)、人物(先学科-机构-人物)在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    二、检索

    简单检索、高级检索

    简单检索

    在这里插入图片描述
    在这里插入图片描述

    高级检索

    在这里插入图片描述
    在这里插入图片描述

    多篇题录输出

    在这里插入图片描述

    三、个性化功能

    需要注册个人账号:
    可以追逐一本期刊或某篇文章的情况
    在这里插入图片描述

    外文数据库——OSA

    一、OSA简介

    • OSA(Optical Society of Amercia)美国光学学会
    • 创立于1916年,是一个集科技、技术、教育性机构,是目前世界上最早出版物理学期刊的出版社之一,其目的在于传播光学的基础知识与应用,会员人数达10余万,遍布130多个国家,
    • 收录11种OSA期刊、8种合作期刊和5种过刊
    • 涉及的学科:光学、光子学、物理学、生物学、医学、电气工程、通讯、天文、气象学、材料学、机械工程等
    • 大部分全文采取PDF格式保存,用户安装Adobe Acrobat Reader软件才能阅读全文

    OSA涉及的出版物(期刊)

    在这里插入图片描述
    主要期刊推荐:

    1. Optical Letters(OL)光学快报
      OSA最广泛使用的同行评审刊、用简短的篇幅报道光学领域最新研究成果。 内容涉及光学、量子电子学、傅里叶光学、综合光学、光纤光学等学科主题;半月刊。
    2. Optics Express(OPEX)光学快讯
      开放获取的学术期刊,报道光学领域最新研究成果。每两周出版一期
    3. Journal of the Optical Society of America A
      专注于光学、图像科学、视觉领域的发展
      每月一期
      4.Journal of the Optical Society of America
      专注于量子光学、激光、非线性光学等领域
      每月一期

    (二)访问方式

    (三)检索功能

    • 浏览
       期刊(OSA期刊、合作期刊、过刊)
       会议录(年份、会议名称)未购买
      在这里插入图片描述
      在这里插入图片描述
    • 检索
       简单检索
      在这里插入图片描述
       高级检索
      在这里插入图片描述
    展开全文
  • 检索:实现向量空间模型流行的 Okapi BM25 排名模型的变体,用于搜索。 该搜索引擎已在克兰菲尔德集合上进行了测试。 克兰菲尔德收藏。 这是允许精确定量测量信息检索有效性的开创性测试集,但如今除了最基本的...
  • 信息检索大法好

    2020-04-30 15:35:15
    包括却不限于,布尔逻辑检索,位置限制检索,短语检索,截词检索字段限制检索,区分大小写检索。 而我们即使是在高级检索中我们用的最多的还是布尔逻辑检索,这是其中所运用的最为广泛的,无论是在中国知网,还是...

    之前我对于信息检索的认识还停留在一个浅层的搜索的水平,我也没想到信息检索还有这么多的门道和操作。

    我便一点一点的述说我所看到的检索

    首先介绍各种各样的检索方法
    包括却不限于,布尔逻辑检索,位置限制检索,短语检索,截词检索,字段限制检索,区分大小写检索。
    而我们即使是在高级检索中我们用的最多的还是布尔逻辑检索,这是其中所运用的最为广泛的,无论是在中国知网,还是说百度谷歌的高级检索中我们都可以看到它的影子。

    那我现在就来介绍下这种检索方式。

    布尔逻辑检索之所以起这个名,那么理所当然的和布尔逻辑有关,无非是逻辑与,逻或,逻辑非。分别用(AND,OR,NOT)表示。

    我们需要找一个信息,有什么限制,都可以用其表示其具体的使用方法可以参考离散数学里的介绍。在这里我们要提的是在日常生活中我们所搜索的一些平平无奇的名词都用不到这些奇诡的方法,说来惭愧我至今都没有遇到过需要检索太长的限定词,但是在某些特定的领域中比如说学术研究中就极为有用(标题长没办法)。并且高级检索中有较为严格的限制,就是采取的布尔逻辑检索的格式。

    而短语检索,截词检索等方法我们就不加以介绍。

    然后则再来极为简略的介绍一下搜索引擎以及运用。

    搜索引擎的工作原理
    1.定期派遣“蜘蛛”,“爬虫”去寻找网站,或者是网站的所有者主动向搜索引擎公布。
    2.建立索引目录
    3.在索引目录之下进行索引。

    (虽说是计算机系出身的学生,但具体的内容看着头痛,所以在此就不过多的介绍了。)

    我们所了解到的搜索引擎,不过百度,谷歌,雅虎等几位搜索引擎巨头.他们都是综合型的搜索引擎.
    其实还有其他学术型的如在化学,生物方面或是在美术等,还有面向孩子的搜索引擎,等等
    这些引擎在某方面上比其综合型的搜索引擎更加优秀.

    除此之外,我们还要了解百度,谷歌,必应这些搜索引擎巨头的使用方法,我们之前的使用只不过在很小的一方面,使用的最多的不过是网页搜索的简单运用,(鄙人高级检索从未用过在此之前)

    我们在接触某一领域的同时,我觉得有必要了解这一领域方面的搜索引擎,这将使我们信息,知识来源的渠道极大程度的拓宽.

    在这里我要奉劝大家伙们一定需要学好英语,不说别的,就在信息检索这门课中有一小半的内容,没有踏实的英语基础是没法学的,比如WOS(web of science)的使用,或者是外国论文查询,只要和国外沾边的内容,我们都无法实践,因为根本看不懂,即使可以悄咪咪的pa出去,但是看不懂,唉.

    这节是对信息检索的简略的介绍,下一节则记录一些信息检索的运用

    展开全文
  • 元数据是指文档有关的一些特定形式的数据,比如标题、出版日期等,这些元数据通常会包含字段(field)信息。 对每个字段(比如文档创建时间)都存在一个与之对应的参数化索引,通过它我们只会选择在时间字段上...

    6章 文档评分、词项权重计算及向量空间模型

    参数化索引及域索引

    元数据是指和文档有关的一些特定形式的数据,比如标题、出版日期等,这些元数据通常会包含字段(field)信息。

    对每个字段(比如文档创建时间)都存在一个与之对应的参数化索引,通过它我们只会选择在时间字段上满足查询需求的文档。搜索引擎可以支持对一些有序字段在某个取值范围的搜索,通常对该字段的词典采用B树进行组织。

    域(zone)和字段类似,只是它的内容可以是任意的自由文本。字段的取值可能性比较小,域可以是由任意的、数目无限制的文本构成。通常,我们可以把文档的标题和摘要看成域。我们可以对文档的不同的域建立独立的倒排索引。

    域加权评分:每个域都有一个权重,和为1。如果所有的查询词项都出现在某个域中,那么这个域的对应得分为1,否则为0

    权重学习:机器学习相关性评分及排序方法

    词项频率及权重计算

    词项有一个权重,取决于该词在文档中出现的次数。首先,我们根据词项t在文档d中的权重来计算它的得分。最简单的方式就是将权重设为t在文档中的出现次数,即词项频率tf

    逆文档频率:为了降低这些出现次数过多的文档在相似性计算中的重要性,要给文档集频率较高的词赋予较低的权重。一个更常用的因子是文档频率df,即出现t的所有文档的数目。因为df一般较大,可以将它映射到较小的取值范围中,即逆文档频率idf。对比较好排序不会有影响。

    向量空间模型

    一组文档的集合可以看成向量空间的多个向量,每个词项对应一个坐标轴,这种表示忽略了词项在文档中的相对顺序。

    余弦相似度

    其他计算tf-idf权重的办法

    tf的亚线性尺度变化方法

    基于最大值的tf归一化

    展开全文
  • 主要涉及几个类 NumericRangeQuery 数值型检索类,含(NumericRangeTermEnum)数值型项迭代器NumericUtils 索引和检索时,数值型运算类NumericTokenStream 索引时解析数值型字段的类NumericField 一、核心函数...
  • 因此对搜索引擎来说,对文档进行评分排序非常重要。 参数化索引及域索引 大多数文档具有额外的结构信息,与文档相关的特定形式的数据(比如作者、标题、出版日期等)我们称为元数据。数字文档通常会把与之相关的...
  • 这些数字资源,各自有其不同的数据存储格式、访问方法和检索界面,有的部署在本地,更多的分布在异地。 CALIS统一检索服务平台旨在针对这些各种异构数字资源为用户提供一种更好的整合检索服务,从而提高资源的利用...
  • 全文检索总结比较

    2021-01-15 08:20:20
    Solr是采用Java开发、基于 Lucene 的搜索服务器,它支持层面搜索(类似Group By)、命中醒目显示多种输出格式。 (1)数据处理 字段类型:Solr可以很方便的定义混合类型字段,并且不需要编写代码就可以匹配...
  • 分词查询,检索前会先对搜索进行分词,分词完毕后再逐个以分词结果去查询,只要被查询字段的分词集合中包含match字段的分词集合中任意一个 设置字段为"index":"not_analyzed"后该字段数据将不会被分词,这样的话...
  • 大学文献检索资料 DOC

    2009-11-28 10:35:24
    信息检索语言是用来描述文献特征表达信息提问,沟通信息存储人员信息检索者双方思想的一种人工语言。 信息检索语言的分类:按描述文献特征划分; • 描述文献外部特征的检索语言:书名、刊名、篇名等著者名。...
  • 它可以根据需要获得全文中有关文章,节,段,句,等信息,也可以进行统计分析。、 MySQL中InnoDB存储引擎之前是不支持全文检索的,要使用全文检索的话只能使用MySIAM存储引擎,但是在1.2.x版本开始就支持全文...
  • 新闻十字军 ###项目介绍 该项目旨在使用新闻索引器构建功能齐全的... ### IndexWriter一旦将给定文件转换为文档,IndexWriter负责将字段写入相应的索引字典。 您应该实现以下索引。 索引字典的代表性快照如下
  • sql2005全文检索.doc

    2009-09-09 10:31:46
     2)定义表的全文检索目录索引字段。  在表的鼠标右键通过点击“全文检索定义全文检索”将弹出如下执行向导,本向导执行完毕则该表的全文检索业已完毕。  a)选择要索引的字段   图6  或者键入如下命令: ...
  • ORACLE Text 文本检索:(先要建立CONTEXT或CTXCAT索引,然后如下)(还可以在from前加,SCORE(10)来观察检索到的项目的得分) 1.单词的精确匹配检索 ... 是从title中检索“关于”的cbidtitle字段。 ...
  • 应该使用哪些停用删除,词干识别,短语识别其他分析器? 是否可以使用更复杂的语言建模过程? 查询在任务一中,查询是简单的,预定义的短文本字符串。 但是,在许多TREC任务中,您将获得一个“主题”,而不是...
  • ORACLE Text 文本检索:(先要建立CONTEXT或CTXCAT索引,然后如下)(还可以在from前加,SCORE(10)来观察检索到的项目的得分) 1.单词的精确匹配检索... 是从title中检索“关于”的cbidtitle字段。 2.多...
  • ORACLE Text 文本检索:(先要建立CONTEXT或CTXCAT索引,然后如下)(还可以在from前加,SCORE(10)来观察检索到的项目的得分) 1.单词的精确匹配检索... 是从title中检索“关于”的cbidtitle字段。 2.多...
  • 按值搜索搜索产品(基于名称字段) /api/产品/搜索/葡萄酒 得到 /api/产品/id 通过 id 获取产品 /api/产品/1 文件夹组织 概述 下面的架构将显示主要元素: | -- /Api.Demo.Core -> contains ElasticSearch client ...
  • Elastic Search 1.数据库搜索的弊端 1).要对被搜索字段的文本进行全部扫描,...2.什么是全文检索和倒排索引? 全文搜索: 类似于通过字典的检索字表查字的过程. 计算机索引程序通过扫描文章中的每一个,对每一个...
  • 实现一个暴力的全文检索时,需要对多个字段匹配统一查询,该查询可抽象为虚拟属性; 多处都需要进行同一个复杂条件的查询时,可以用虚拟属性封装该查询条件。 事实上,虚拟属性查询虚拟属性读写都是为了代码...
  • 注意:由于该功能背后的Web服务本身已,因此图像发现和检索已消失。 设置 并查阅“部分中有关放置在哪里的信息,以供万花筒查找。 同样,并将其提供给Kaleidoscope。 准备万花筒的。 需要设置一些库,但是我现在...
  • 可考虑指定词和类别的分词。充分考虑省略号,双引号等特殊标点的分句。 处理URL,电子邮件,微博等文本中的特殊符号格式,删除所有标点等 把别名,缩写与他们的标准名联系起来。 找到一句句子中的人名,地名,机构...
  • 2. Solr的检索运算符 1. “:” 指定字段查指定值,如返回...4. “~” 表示模糊检索,如检索拼写类似于”roam”的项这样写:roam~将找到形如foamroams的单词;roam~0.8,检索返回相似度在0.8以上的记录。 5.
  • ES 计算相似度的算法为 TF/IDF(检索词频率/反向文档频率) 单个次匹配 (1)字段长度准则:document 的长度越长,相关性越低。 (2)检索词频率准则:关键字在document 中出现频率越高,相关性也越高。 多个次...
  • solr入门之搜索建议配置代码Demo

    千次阅读 2016-03-21 19:03:10
    该模块可选择基于提示文本做检索建议,还支持通过针对索引的某个字段建立索引词库做检索建议。在诸多文档中都推荐使 用基于索引来做检索建议,因此我们目前的实现也是采取该方案。  现在我们开始
  • 搜索引擎都是关于查找字符串的。 用户输入一个查询,然后从反向索引中检索它。 有时,用户正在寻找的值只是索引中值的子字符串,并且用户可能也对这些匹配感兴趣。... 文档由一个文本字段和一个ID组成。 在Github...
  • Lucenesolr的一点理解

    2017-08-04 17:48:35
    Lucene:全文检索引擎工具包,不能独立存在。 重要需要理解:索引域文档域。 文档域可以理解为一条数据就为一个document,其中每一个字段就是一个field域 索引域:用于搜索,搜索程序将从索引域中搜索一个一个...
  • solr 模糊匹配 搜索引擎都是关于查找字符串的。 用户输入一个查询,然后从反向索引中检索它。 有时,用户正在寻找的值只是索引中值的子字符串,并且用户可能也对这些匹配感... 文档由一个文本字段和一个ID组成。...

空空如也

空空如也

1 2 3 4 5 ... 9
收藏数 163
精华内容 65
关键字:

检索字段和检索词