精华内容
下载资源
问答
  • EI期刊论文主题词检索

    千次阅读 2019-06-27 22:43:52
    主题词表是以特定的结构集合展示经过规范化处理的优选词非优选词及其词间语义关系,作为标引和检索的术语控制工具,简单地说主题词是经过规范化的用于标引和检索的词。利用规范主题词,可以提高数据库检索效果,...

    工作环境(蓝色粗体字为特别注意内容)
    1,系统环境:Win7 Ultimate sp1
    2,软件环境:Google Chrome浏览器

    主题词表是以特定的结构集合展示经过规范化处理的优选词和非优选词及其词间语义关系,作为标引和检索的术语控制工具,简单地说主题词是经过规范化的用于标引和检索的词。利用规范主题词,可以提高数据库检索效果,提高查准率和查全率。

    那么如何规范主题词并且加到文章的关键词中,使得自己的劳动成果能够分享给更多的人呢?这里,笔者介绍一下自己的经验。首先根据文中的主题,提取出几个能够表达文章主题的关键词,此时只是未经规范的自然词语,还需要找到相应的EI主题词,方法如下:

    Step1:登录 Engineering Village https://www.engineeringvillage.com/search/quick.url

    Step2:找到Browse indexes-》Controlled term

    Step3:输入关键词,点击检索

    小技巧:其实如果你的参考文献比较好的话,里面就有些EI期刊,相应的就有EI关键词哦~ 喜欢的话记得点赞~

     

    展开全文
  • 摘 要 介绍了在中文全文检索系统中实现主题词标引的思路及具体实现过程、各种词表的构造及更新方法措施、基于主题词标引的优化检索功能等。关键词 主题词标引 全文检索 关键词标引 主题词表  主题标引技术...

     

    吴春玉
    (11 南京大学信息管理系 南京 210093 ;21 大庆石油学院 大庆 163318)

    摘 要 介绍了在中文全文检索系统中实现主题词标引的思路及具体实现过程、各种词表的构造及更新方法和措施、
    基于主题词标引的优化检索功能等。
    关键词 主题词标引 全文检索 关键词标引 主题词表

      主题标引技术是科学技术纵深发展带来的产物,国外早在19世纪就用主题进行标引,目前,在科技文献检索系统中已全面实现了主题词标引和检索的局面。国内图书情报界则在20 世纪初期才开始研究,但当时限于人力、物力、财力和技术设备等,以及受战争、政治运动的影响,还有汉语构词及中文书写方式的特殊性,使得汉语标引技术进展缓慢,仅仅停留在理论研究和小范围内的试验阶段。直到计算机日益普及和信息爆炸现象的强烈冲击下,汉语标引技术取得了突破性的进展。如中国学术期刊等全文检索系统,给人们查阅文献带来了极大的方便。然而长期以来计算机自动标引的研究和应用基本上停留在基于关键词的标引,包括中国学术期刊全文检索系统。关键词标引,一方面,由于标引时间短,能够及时反映新出现的专业术语,检索结果查准率高,因此备受青睐。另一方面,由于查全率低,常常因作者的用词习惯和汉语表达的复杂性、多样性造成了标引人员与检索人员之间无法统一思想,导致漏检和误检现象,在检索过程中需要全面考虑检索词,如同义词、近义词、反义词、相关词乃至上下位词等等,给检索者增加了负担,带来了很多不必要的麻烦和不可挽回的后果。那么能否在关键词标引的基础上扬长避短实现主题词标引呢? 当大容量计算机的出现和全文检索技术发展已比较成熟的情况下,答案是肯定的。因此,可以说关键词标引的意义逐渐丧失,今后自动标引的研究应从关键词标引全面转向主题词标引的研究与实践当中。目前中文全文检索系统自动标引采用词典切分法。词典切分法是一种先组式标引方法,检索时无须对字串的字间关系进行组配,检索速度快,但存在着词典的构造困难、更新滞后等不足。
    词典构造的完善与否直接影响到标引质量,影响检索结果,若在词典的构造和更新方面能够改进,词典切分法将更加完美。
    1  主题词标引思路
    所谓标引,是指给出信息特征的过程。主题词标引是指抽取信息中能够表达其核心内容的词或词组,并将这些词或词组转化为受控词的过程。这里所指的主题词是某一特定专业检索和标引用的规范词。具体思路是利用汉语自动分词的研究成果,采用词典分词法将文献进行切分,通过词加权或词频统计法对切分后的词进行排序确定关键词,利用主题词表将关键词转化、合并、去重、重新排序后确定系统正式使用的主题词,并追加文献代号送入系统主题词字段中。在实现过程中,为了继续发扬关键词标引过程中能够及时反映新出现的专业术语,及时更新词表,把原文献给出的关键词一并加入到切分后的词汇集中,进行合并、去重、加权、排序后确定为关键词。在合并去重过程中,我们采用主题词表中的用
    代关系,将同义词合并、转化为规范词后排序的方法,这样可以避免关键词标引过程中出现的一词多义、多词一义,使得标引人员与检索人员之间出现理解分歧现象和加权过程中同义词分别加权导致文献标引的不准确现象,实现真正意义上的主题词标引。
    具体的流程如图1 所示。
    2  主题词标引的实现
     211  构造词表 a. 构造切分词表。利用词典法切分标引时需要事先构造词表,将普通词典导入系统中作为切分词的初始依据。为了提高标引的准确性和标引速度,在构造切分词表时尽量把泛滥的通用词和不能做名词和名词性词组的词汇不纳入词表中,即根据词性确定词表用词。b. 构造主题词表。归并同义词和关键词转换为规范词需要用主题词表,主题词表包括词关系表和词族表。词关系表是词表中收录的所有有用代关系的词按字顺排列,并展示词的用代关系和族首词。利用用代关系,归并切分后的词并将关键词转换为规范词,切分后的词与词表进行对照,若是代词(非规范词) 则将它转换为用词(规范词) ,如图2 所示,将电视显像管或监视管转换为显像管。词族表作为扩检和缩检的依据,词族表中的词均为规范词。词族表按族首词的字顺排列,在每一个族首词下按字顺排列其直接下位词,依次每一个词下面列出它的直接下位词,直到词表规定的级别为止,再在每一个词后面列出其相关词(即“C:”项) 。通过超链接的方式将词族
    表中的词与词关系表中的规范词相互链接起来,如图所示将词关系表中的显像管与词族表中的电子管下的显像管链接。这样可以清晰地显示词的上下位关系和相关词,以便于扩检和缩检。主题词表如图2 所示。
    图2  主题词表片段
     212  主题词标引
    a. 抽取关键词。用词典分词法对需要切分的文献进行自动分词处理,并计算词频和权值,然后对切分后的词进行排序,选出系统规定数量的词汇作为关键词。词频在自动标引中是一个很重要的信息,在一篇文章中出现次数多的词不一定比次数少的词重要。因此,根据实际情况适当考虑相对词频和绝对词频。另外,在一篇文献中词的位置可以说明它的重要程度。在标题、摘要、正文中词的重要程度依次为标题、摘要、正文,在正文中权值的大小按起始段、结尾段、中间段的顺序;在一个段落中是以起始句、末尾句、中间句的次序。因此,根据词的位置给予不同的权值。作者给出的关键词不一定科学、规范,但它一定反映文献的核心内容,因此,我们在确定主题词时把原文献中作者给出的关键词可直接纳入到切分后的词集中,并给予一定的权值,参与词频计算。
    b. 归并关键词。利用主题词表中的词间用代关系,对抽取的关键词进行合并同类项,即归并同义词、近义词转化为系统所使用的规范词。通过归并关键词能够准确统计词频,真实地反映文献的内容特征。c. 确定标引词。在归并、转换过程中一部分词是主题词表中存在的词,而有些是词表中不存在的新词。对词表中存在的词进行归并、转换,最后将规范词按词频和权值从大到小依次排序,选取系统规定数量的词作为标引词。而那些非词表中的词送入候选词库中,待专家审定。这一环节是全文自动标引过程中最为关键的一个环节,是区别于关键词标引的环节。这里的主题词表类似于手工检索工具中的主题词表,但在构造和工作原理上有所不同。d. 主题词标引。对确定的标引词追加文献代号送入主题词
    字段中。
    3  基于主题词标引的优化检索功能
    主题词标引的目的是提高查全率和查准率,减轻用户构造检索式的负担,缩短检索时间,便于扩检和缩检。
     311  完全逻辑或运算 a. 主题词字段检索。当用户向系统输入检索词时,系统首先利用主题词表将该词转换为规范词,然后利用转换后的规范词进行检索。如用户输入“监视管”,系统则把它转换为“显像管”在主题词字段上进行检索。b. 全文检索。当用户向系统输入检索词并选择全文检索时,将输入的词转换为规范词,并把与该规范词有用代关系的词全部用逻辑或相连后进行检索。如用户输入“监视管”,系统最终用“监视管+ 显像管+ 电视显像管”在全文中进行检索。在检索结果相关度的计算过程中,同样把所有相关词的词频累计运算,这样可以避免用关键词标引和检索时因对相关词考虑不全面而出现的漏检现象,另外,不论作者的用词习惯如何,利用主题词表标引的结果减少了标引人员与检索人员之间的理解分歧,减轻了检索者的负担,检索者不需要考虑和掌握更多的相关词汇和复杂的词族关系网,使检索
    系统更加智能化、使用更加简单化,从而提高检索水平和检索效率。
     312  扩检和缩检 扩检和缩检是检索系统应具备的功能。目前基于关键词标引的检索系统中的方法主要是通过字段的选择、运用布尔逻辑算符等来实现,而基于主题词标引的检索系统,则利用上下位词和相关词来调整检索结果实现扩检和缩检,从而增加了优化检索结果的功能。它主要利用词族表来实现。很多中文全文检索系统的使用过程中发现检索结果不尽人意,要么没有,要么多达几百篇上千篇。尽管系统中设置了二次检索的功能,但大部分用户对词汇的上下位概念和字段的限制方面不十分熟悉,因此,给用户带来许多困难。为了能够把检索结果自动或半自动地进行扩检或缩检,系统中导入词族表。词族表可在直接引用手工检索工具中主题词表后的词族表的基础上增加相关词。在需要缩检(扩检) 时根据用户的要求系统自动利用词族表中的直接下(上) 位词和词关系表中的参见项来调整检索结果,直到用户满意为止。用户还可以根据个人的爱好选择自动或半自动缩检(扩检) 方式。自动缩检或扩检的情况下,扩检时按直接上位词、相关词、上位词的上位词顺序选择词进行检索,而缩检时按直接下位词、相关次、下位词的下位词进行检索,下位词有
    两个或两个以上时分别列出检索结果,以便用户选择。半自动缩检或扩检时用户根据系统提供的主题词表选词进行检索。
    4  词表的更新问题
    系统中各种词表的构造和词表更新周期的长短会影响系统的最终效果。为了及时添加新内容,可采取以下措施:a. 在标引过程中将原文献的关键词添加到切分词表中进行去重处理,产生新的切分词表。这样可以及时补充新词汇、新术语,解决了过去用词典法分词时词表构造困难、更新滞后等问题,提高了标引的质量和检索效率。b. 动员和调动各行各业的人员定期补充各领域的专业术语,层层向上级汇报,形成严格有序的科层制格局。c. 推广科技文献写作格式和用词规范化。各出版编辑单位严格把好关,坚决杜绝“字面创新”现象。目前科技界出现所谓换汤不换药的“字面创新”现象较严重,新术语、新词汇泛滥,给文献的标引和检索带来了许多麻烦。科技文献的写作与文学作品的创作不同,文章的开头和结尾、起始段和结尾段、起始句和末尾句的写作格式和用词不宜多样化,需要进行统一和规范,以便在标引时按词位置进行加权运算,其结果能够反映文献的真实情况。d. 对主题词表的构造我们可以借鉴国外大型联机检索系统的做法,不同专业构造不同的主题词表,在构建检索系统时,改变目前检索系统先按年代(并非按专业) 再按专业划分文档的方法,可先按专业再按年代划分文档的方式,按专业选择文档进行检索,这样就可以解决综合性检索系统中构造主题词表的问题。在检索结果的显示方式也可以设计成按专业分门别类地显示,以利于用户最终判断取舍,这样在检索过程中用户还可以意外地发现和了解某一技术在其他领域的
    应用情况。
    5  结 语
    中文全文检索系统中实现主题词标引和主题词检索是众望所归、迫在眉睫的问题,也是摆在情报检索人员面前不可推卸的任务之一。为了使人类的知识充分发挥作用,为了使检索系统能够真实地反映社会知识资源,避免重复劳动带来人力、物力、才力和时间上的浪费,提高查全率、查准率,减轻用户构造检索式的负担,中文全文检索系统应尽早实现主题词标引。
    参考文献
    1  苏新宁,扬建林,邓三鸿1 信息技术及其应用. 南京:南京大学出版社,2002
    2  韩客松,王永成. 中文全文标引的主题词标引和主题概念标引方法. 情报学
    报,2001 ; (4)
    3  文榕生. 主题词标引问题探讨———兼与朱芋先生商榷. 山东图书馆季刊,
    2001 ; (3)
    4  潘有能. 一个自动分词分类系统的实现. 情报学报,2002 ; (2)
    5  张俭恭,陈定权. 汉字全文检索系统的关键技术与实现. 现代图书情报技术,
    2001 ; (2)
    (责编:王京阳)

    Google
     
    Web www.brar.cn

    转载于:https://www.cnblogs.com/zhuyi/archive/2006/10/27/541697.html

    展开全文
  • 文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用。在总结前人研究成果的基础上,提出了一种基于相邻的中文关键词自动抽取算法。在对50篇学术论文自动抽取关键词的实验中,...
  • 数据挖掘之提取关键词

    千次阅读 2017-10-06 12:12:06
    广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档 一篇文档的关键词一般是几个或短语,作为对该文档主要内容的提要 一个简单的关键词提取举例 使用jieba包中的extract_tags方法

    关键词

    关键词

    • 快速了解文档内容、把握主题的重要方式。
    • 广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档
    • 一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要

    一个简单的关键词提取举例

    • 使用jieba包中的extract_tags方法
    展开全文
  • 百度检索实用技巧

    2021-05-25 20:20:47
    3.包含特定检索词:+ 不包含特定检索词:- 如果在检索过程中出现了自己不想看到的一些网页,而它们都包含特定的关键词,那么我们这个时候可以使用减号,就可以去除这些网页。 加号则与减号相反 注意,前一个...

    百度检索技巧:

    1. 查询特定关键词  intitle

    搜索主题范围限定在检索的文字

    Intitle即将检索中特别重要的主题标出。

    2.精确匹配:“”和《》

    如果不想检索的内容被拆开,可以在检索的字词上加上双引号或书名号防止被拆分

    3.包含特定检索词:+ 和不包含特定检索词:-

    如果在检索过程中出现了自己不想看到的一些网页,而它们都包含特定的关键词,那么我们这个时候可以使用减号,就可以去除这些网页。

    加号则与减号相反

    注意,前一个关键词和减号之间必须有空格,否则,减号会被当成连字符处理。

    4.限定特定的站点域名:site

    把检索范围限定在某个站点中,提高查询效率

    注意:site: 后面的站点域名不要带“http://”

    5.限定特定的连接中:inurl

    将检索范围限定在特定的url连接中

    6.检索特定文件类型:filetype

    文件类型检索,检索特定类型的文件(例如,PDF、PPT或XLS等等)

     

    展开全文
  • 中科院关键词抽取程序

    热门讨论 2009-08-26 09:51:09
    关键词抽取(Keywords Extraction)指的是如何从一篇文档(或多篇相关文档)中自动抽取出能很好地代表文档主题的若干个或短语。关键词抽取技术广泛应用于信息检索、文本分类/聚类、信息过滤、文档摘要等各种智能...
  • 文献关键词共现矩阵python实现

    万次阅读 2012-09-16 22:14:33
    科技论文的关键词是从其题名、层次标题正文中选出来的,能反映论文主题概念的或词组。 关键词是为了适应计算机检索的需要而提出来的,位置在摘要之后。早在1963年,美国Chemical Abstracts从第58卷起,就开始
  • 大学文献检索资料 DOC

    2009-11-28 10:35:24
    分类语言 主题语言(关键词语言、标题语言、叙语言) 第三节 信息检索原理及步骤 一、信息检索原理: 文献信息检索实际上包括文献的存储文献的检索两个相互依存的过程。 二、信息检索的步骤: 1.分析研究...
  • 关于检索

    2009-09-04 12:14:00
    2、 搜索的对象:编写确定的关键词主题词,知名专家名字。3、 到真正的图书馆,浏览相关学科的期刊书籍。4、 从事一个新的专业研究时,得到该专业相关文献的另一个快捷的方法是从手中已有的10多篇“顶级”...
  • 一、 分析课题: 计算机程序设计是以编程为主,人们通过利用电脑来编写程序来完成一些现实中很难算出或无法计算的一些...三、主题词关键词) 计算机 程序设计 四、编写检索式 计算机课程设计*(计算机+程序设计)
  • 主题词是用来描述文献资料主题给出检索文献资料的一种新型的情报检索语言词汇,正是由于它的出现发展,才使得情报检索计算机化(计算机检索)成为可能。 主题词是指以概念的特性关系来区分事物,用自然语言来...
  • 1、引言 1-1、编写目的  明确设计,供项目管理者阅读。 1-2、定义 ...关键词 ...从报告、论文中选取出来用以表示全文主题内容...在信息检索中,为节省存储空间提高搜索效率,在处理自然语言数据(或文本)之前或...
  •  主题词是经过规范化的词,在确定主题词时,要对论文进行主题分析,依照标引组配规则转换成主题词表中的规范词语。(参见《汉语主题词表》《世界汉语主题词表》)。 关键词规范 关键词是反映论文主题概念的词或...
  • 检索功能, 在检索框中输人检索词构成一个检索提 问式, 提交搜索引擎查找, 然后对检索结果进行浏 览。每输人一次检索式, 相应地, 将产生一次检索结 果 。 每次检索, 即使是同样的检索内容也要重复输人 检索式。并且...
  •  4、论文格式的关键词主题词 关键词是从论文的题名、提要正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作计算机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。每篇...
  •  4、关键词主题词关键词是从论文的题名、提要正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。 每篇论文一般选取3-...
  •  4、关键词主题词关键词是从论文的题名、提要正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。 每篇论文一般选取3-...
  • 4、关键词主题词关键词是从论文的题名、提要正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。 每篇论文一般选取3-8...
  • 论文研究-北京文献服务处正式对外服务.pdf, 北京文献服务处从美国引进的 UNIVAC1100/10计算机系统,经过试验性服务运转已于1981...用户可根据题中或文中的关键词,或根据该处出版的《科学技术主题词典》选择的主题词,
  • 社会化网络分析

    2014-05-23 17:24:00
    它是对一组在同一篇文档中出现的次数做统计,以此为基础对进行聚类分析,从而显示这些的亲疏关系,进一步分析分析这些所代表的学科和主题的结构变化。利用共方法可以概述研究领域的研究热点,横向和纵向...
  • 向量模型-中文分词

    2008-04-21 14:07:32
    信息检索的经典模型认为,每篇文献可以用一组有代表性的关键词即标引集合来描述。标引是文献中的,其语义可以帮助理解文献的主题;因此,标引常用于编制索引概括文献的内容。用来描述文献内容的标引应该...
  • 4、关键词主题词关键词是从论文的题名、提要正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。 每篇论文一般选取3-8...
  • 统一封面.doc

    2013-07-11 10:59:41
     4、关键词主题词关键词是从论文的题名、提要正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。 每篇论文一般选取3-...
  • 对网络日志分析的几个方面

    千次阅读 2016-03-08 17:11:30
    用户跟搜索引擎的交互都是通过输入的主题或者关键词来进行的,因此通过分析用户的査询主题对了解用户的兴趣非常有效,但还是充分表明有很多重复的查询请求,如果能提高这些的查询质量就能使整体检索的质量提高很多...
  • 图书馆讲座

    2011-11-01 17:29:47
    1.主题词关键词的收集,术语 2.期刊浏览:定期浏览期刊,参加国内外论坛技术开发论证会,了解学科发展最新动向国际前沿,挑一些重要的期刊复印, 经典型的教材,学科里面最牛的人写的综述(特约专家学者),...
  • 通过研究产出文献分布的增长规律、研究产出机构高合作机构的共现网络、研究主题关键词网络等知识图谱,揭示了大连市管理学研究中存在的马太效应现象。并从社会心理学的视角对管理学研究中的马太效应进行解释,为...
  • LSA算法简单理解

    千次阅读 2015-11-13 02:25:48
    (2)检索:用户提出提问式(通常由若干个反映文本主题的词汇组成),然后系统在数据库中进行提问式预存的文本关键词的自动匹配工作,两者相符的文本被检出。 文本分类中出现的问题: (1)一多义 比如bank 这

空空如也

空空如也

1 2 3
收藏数 51
精华内容 20
关键字:

关键词检索和主题词检索