精华内容
下载资源
问答
  • 关键词语言
    2021-01-12 10:03:11

    关键词提取概述

    关键词是能够表达文档中心内容的词语,一段话中通常有一个或者多个关键词。关键词提取常用于信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。

    从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。

    1. 无监督关键词提取方法
      不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词提取。该方法的思想是先抽取出候选词,然后对各个候选词进行打分,然后输出分值最高的 个候选词作为关键词。

      • 不同的打分策略对应不同的算法,例如 TF-IDF,TextRank,LDA 等算法。
      • 主要提取方法分为三类:
        • 基于统计特征的关键词提取(TF,TF-IDF),思想是利用文档中词语的统计信息抽取文档的关键词
        • 基于词图模型的关键词提取(PageRank,TextRank),思想:首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语,这些短语就是文档的关键词。
        • 基于主题模型的关键词提取(LDA),思想:利用主题模型中关于主题分布的性质进行关键词提取
    2. 有监督关键词提取方法
      将关键词抽取过程视为二分类问题,先提取出候选词,然后对于每个候选词划定标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器。当新来一篇文档时,提取出所有的候选词,然后利用训练好的关键词提取分类器,对各个候选词进行分类,最终将标签为关键词的候选词作为关键词。

    两种方法对比:

    1. 无监督方法不需要人工标注,更加快捷,但无法有效综合利用多种信息 对候选关键词排序,所以效果无法与有监督方法媲美。
    2. 有监督方法可以通过训练学习调节多种信息对于判断关键词的影响程度,因此效果更优,有监督的文本关键词提取算法需要高昂的人工成本,因此现有的文本关键词提取主要采用适用性较强的无监督关键词提取。

    关键词提取常用工具包

    jieba

    立志做最好的 Python 中文分词组件(但显然还差很远,关键词提取自带词典很弱、不支持短语提取)。Github 仓库 https://github.com/fxsjy/jieba

    1. jieba 提取关键词
    sentence="教你如何用 jieba 提取关键词"
    import jieba.analyse
    jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
    

    allowPOS:仅包括指定词性的词,默认值为空,即不筛选。

    关键词提取所使用逆向文件频率(idf)文本语料库可以切换成自定义语料库的路径(只支持本地路径),比如:

    # idf_path="https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/idf.txt.big"
    idf_path="dict/idf.big"
    jieba.analyse.set_idf_path(idf_path)
    jieba.analyse.extract_tags(content, topK=10)
    

    关键词提取所使用停用词(Stop Words 也可以切换成自定义语料库的路径(只支持本地路径),比如:

    # idf_path="https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/idf.txt.big"
    stop_words="dict/stop_words.txt"
    jieba.analyse.set_stop_words(stop_words)
    jieba.analyse.extract_tags(content, topK=10)
    

    通过参数 withWeight=1(默认为0)可以将关键词权重值一并返回。

    jieba.analyse.extract_tags(content, topK=10, withWeight=1)
    
    • 基于 textrank 算法的关键词提取
      jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用,接口相同,注意默认过滤词性。注:textrank 会过滤掉中英混合中的英文单词,比如 “你Python用得怎么样,我们这边开发主流语言是Python”。
    1. 体验
    • 使用关键词提取功能最好自备停用词词典,自带词典效果一般,很好日常口语都没有被过滤掉。
    • 不支持短语提取,如何需要提取短语,比如 “关键词提取”,可以考虑使用 jionlp 。

    Textrank4zh

    TextRank 算法可以用来从文本中提取关键词和摘要(重要的句子)。TextRank4ZH 是针对中文文本的 TextRank 算法的 Python 实现。官方 Github 仓库 https://github.com/letiantian/TextRank4ZH。安装依赖于 jieba

    1. 用法:
    # pip install textrank4zh  安装 textrank4zh 
    from textrank4zh import TextRank4Keyword, TextRank4Sentence
    text = "韩国首都首尔是亚洲许多气温接近或超过历史最低温度的地区之一。手指和脚趾都冻麻了。人们煮上了火锅,勇敢地面对各种因素——有时是在新冠病毒疫情不断升级的地方——将幽默作为一种应对机制。"
    tr = TextRank4Keyword()
    tr.analyze(text=text, lower=True, window=2)
    for item in tr4w.get_keywords(20, word_min_len=1): # 提取关键词
        print(item.word, item.weight)
    # 前 3 个词是:病毒、接近、最低温度    
    for phrase in tr.get_keyphrases(keywords_num=20, min_occur_num= 2): # 提取关键短语
        print(phrase)
    
    tr4s = TextRank4Sentence()
    tr4s.analyze(text=text, lower=True, source = 'all_filters')
    
    for item in tr4s.get_key_sentences(num=3):
        print(item.index, item.weight, item.sentence)  # 提取摘要,index 是语句在文本中位置,weight 是权重    
    
    1. 使用体验
    • 短语提取比较鸡肋,几乎提取不到有用信息,这也是诸多中文自然语言处理包共有的缺陷。

    SnowNLP

    一个可以方便的处理中文文本内容的 Python 写的类库,受到了 TextBlob 的启发而写的。Pypi 库介绍 https://pypi.org/project/snownlp/

    1. 安装
    pip3 install snownlp
    
    1. 用法
    from snownlp import SnowNLP
    sentence = "结婚的和尚未结婚的都对新政充满意外,沿海南方向逃跑"
    nlp = SnowNLP(sentence)
    
    s_token = nlp.words # 分词
    print(s_token)
    # ['结婚', '的', '和', '尚未', '结婚', '的', '都', '对', '新', '政', '充满', '意外', ',', '沿海', '南方', '向', '逃跑']
    
    nlp.keywords(5)
    # ['南方', '逃跑', '沿海', '尚未', '结婚']
    
    • 分词错误:“新政”,“海南” 是正确的词语
    • 关键词错误,这个依赖于分词

    snownlp 还支持 .tags 词性标注,sentiments 情感分析, pinyin 中文拼音, sentences 句子分割, summary 摘要抽取等功能。

    1. 难点
      一些对中文分词比较挑战性的句子 https://blog.csdn.net/smartfox80/article/details/52352623,可以用来测试一个类库的对交集型歧义语句的分词能力。

    TextBlob (英文分析)

    官方文档 https://textblob.readthedocs.io/en/dev/

    参考

    更多相关内容
  • 自然语言关键词提取

    2021-01-07 04:50:52
    关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。 关键词提取算法一般分为有监督和无监督两类 有监督的关键词提取方法主要是通过...
  • 程序结合易语言扩展界面支持库,实现百度关键词搜索查询。易语言例程还使用到易语言互联网支持库,易语言多线程支持库,超文本浏览框支持库,应用接口支持库,正则表达式支持库。
  • 深度学习自然语言处理过程中可以参考的网络关键词及词频数据。
  • 【829】【02检索语言】【理解】

    千次阅读 2020-04-09 21:59:52
    文章目录检索语言的含义检索语言的特点检索语言的功能检索语言的分类检索语言的理论基础分类检索语言/分类法 检索语言的含义 传统意义上的检索语言仅指根据信息检索需要而创制的人工语言。目前,检索语言有广义和...


    信息检索比较偏

    【一】 检索语言的含义

    (什么是检索语言)(18华师简答)

    检索语言:广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言人工语言是根据一定的规则认为编制而成的检索语言,它有严格的使用规则,可用于表述文献的主要内容,建立信息检索系统。自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。狭义的检索语言是指根据信息检索需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言
    在这里插入图片描述

    传统意义上的检索语言——根据信息检索需要而创制的人工语言
    广义的检索语言泛指——信息检索过程中涉及人工语言和自然语言
    狭义的检索语言——仅指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言

    人工语言是根据一定的规则人为编制而成的检索语言,可用于表述文献主要的内容,建立信息检索系统。
    自然语言人类交流时使用的语言,不受任何限制,未经加工和规范,更符合用户的日常表达习惯。

    检索语言的特点

    作为沟通信息标引与信息检索两个过程而编制的人工语言,检索语言不但能够保证不同的标引人员描述信息特征的一致性,而且能够保证检索提问标识与信息特征标识的一致性
    与其他语言相比,检索语言突出的特点是:
    ①具有必要的语义和语法规则,能准确地表达科学技术领域中的人和标引和提问的中心内容和主题;
    ②具有表达概念的唯一性,即同一概念不允许有多重表达方式,不能模棱两可;
    ③具有检索标识和提问特征进行比较和识别的方便性;
    ④既适用于手工检索系统,也适用于计算机检索系统。

    检索语言的功能

    在这里插入图片描述
    (1)标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性
    信息标引是一个群体行为,只有共同依据检索语言,才能保证标引信息的一致性。

    (2)对内容相同及相关的文献信息加以集中或揭示其相关性
    检索语言采用等级结构、参照系统、轮排聚类法、范畴聚类法等显示概念之间关系的方法,来实现此功能。

    (3)使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索
    检索语言将表达成千上万个信息主体概念的全部信息标识排列成一个有序的系统。
    排列信息标识的方法包括:分类排列法,字顺排列法,分类和字顺结合的排列法

    (4)便于将标引用语和检索用语进行相符性比较:一般来说,任何一种检索语言都有便于将标引用语和检索用语整体上进行相符性比较(即判断标引用语是否与检索用语完全相符)的功能。大部分检索语言还可以将标引用语和检索用语从局部上进行相符性比较(即判断标引用语是否与检索用语局部相符)。

    检索语言的功能/性能

    (2006年简答)
    (1)标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性
    (2)对内容相同及相关的文献信息加以集中或揭示其相关性
    (3)使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索
    (4)便于将标引用语检索用语进行相符性比较

    检索语言的分类

    (1)按描述文献的特征(文献外表特征和文献内容特征)

    在这里插入图片描述
    文献外表特征——以文献的篇名(题目)、作者姓名、出版者、合同号、报告号、引文等,据此作为文献标识和检索依据而形成的检索语言成为描述文献外表特征的检索语言,如题名索引,著者索引、报告号索引、合同号索引、存取号索引、引文索引等。

    描述文献内容特征的检索语言(分类语言、主题语言和代码语言)

    (2)按结构或原理(分类语言、主题语言、代码语言和引文语言)
    在这里插入图片描述
    分类语言,用分类号来表达各种概念,将各种概念按学科性质进行分类和系统编排,包括等级体系分类语言(体系分类法)分析——综合分类语言(组配分类法),它们统称为分类法系统。

    主题语言是采用表达某一事物或概念的名词术语,用于标引、存储、检索的一种检索语言。包括标题词语言、单元词语言、叙词语言和关键词语言等,可统称为主题法系统。

    代码语言一般只是就事物的某一方面特征,用某种代码系统来加以标引和排列。

    引文语言是利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目。

    (3)按信息标识的组合使用方法(先组式语言、后组式语言和散组式语言)
    在这里插入图片描述

    先组式语言表达信息主题概念的标识在编制词表时就已固定组配好,信息存储和检索人员在标引和查找信息时,依据词表选用组配好的主题标识进行操作。

    • 典型的先组式语言有体系分类法和标题词法
    • 先组式语言标识明确,系统性较好,适用于传统的文献单元方式的目录索引。但是表达专指概念和新概念较困难,灵活性较差,容易造成词表体积庞大,检索途径少。

    后组式语言指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再根据需要将各个标识进行组配,来表达较为复杂的主题概念。

    • 比较典型的后组式语言有叙词语言和单元词语言
    • 后组式语言能够以较少的词语来表达较多的概念和较为专指的概念,可以比较及时地表达新概念,概念容纳能力强。同时,可以实现概念的多向成族,多途径检索,能够灵活地扩大和缩小检索范围,因此其检索的灵活性好。采用后组式语言所编制的词表体积相对较小。但是编制和使用的难度较大,组配语义的明确性较差。

    散组式语言是指对于复杂的主题标识,在词表中不组配,而是在标引阶段将表达主题概念的若干个标识,根据一定的的规则组配在一起的检索语言,如**《冒号分类法》**。

    • 散组式语言的性能与其检索标识是否分段轮排有很大关系。如果检索标识能够分段轮排,散组式语言就兼有先组式和后组式语言的主要优点。如果检索标识不轮排,性能和先组式语言差不多,只是其专指概念和新概念表达能力有所增强。

    (4)按语言的规范程度,可分为人工语言和自然语言
    人工语言有主题法、分类法和某些代码等种类。
    自然语言是直接取自文献信息本身,不经加工或规范的词语或句子。

    (5)按包括的学科或专业范围(综合性检索语言、专业性检索语言和多学科检索语言)
    (6)按所用语言文字(单语种检索语言和多语种检索语言)

    【二】检索语言的理论基础

    检索语言其主要理论基础有概念逻辑、知识分类和术语学

    概念逻辑

    在这里插入图片描述

    检索语言不论是语词的还是符号的,都是表达一系列概括信息内容的概念及其相互关系的概念标识系统。
    概念逻辑,是一种科学思维方法,通过明确各种概念及其相互关系而揭示事物的本质属性及各种事物之间的联系与区别。
    检索语言在建立词汇、显示概念关系以及在文献标引和检索中,都离不开概念逻辑。概念是事物本质属性的概括。
    任何概念都有其内涵与外延。

    某一概念的内涵指其反映事物的本质属性;外延指其反映事物的范围,它们之间存在着反变关系

    (1)概念间的关系:概念之间的关系,按其外延是否有相同部分,可归结为相容关系与不相容关系
    如果两个概念的外延至少有一部分相重合,则两者之间是相容关系;如果两个概念的外延没有相重合的部分,则两者之间是不相容关系。

    在相容关系中可以分为同一关系、属种关系、交叉关系、整体与部分关系、全面与某一方面关系、不相排斥的并列关系。在不相容关系中包括互相排斥的并列关系、矛盾关系和对立关系。

    (2)概念逻辑方法:检索语言在表达各种概念及其相关关系时,普遍地应用了概念逻辑的原理,有效地利用了“概念的划分与概括”和“概念的分析与综合”这两种逻辑方法来建立自己的结构体系。

    概念的划分与概括(分类):即利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等性质,对概念进行划分(缩小)或概括(扩大),形成更为专指或更为泛指的新概念,用以区别客观世界千差万别的事物,并利用划分或概括过程中所产生的概念隶属关系和并列关系,建立某种形式的检索语言结构体系,即概念等级体系,用以显示客观世界千差万别的事物之间的内在联系。
    这种结构具有很好的系统性。例如,体系分类法就是应用此种逻辑方法的典型。

    概念的分析与综合(组配):即利用在概念的交叉关系中两个概念外延的相同部分可以形成一个新概念,其内涵等于原来两个概念内涵之和,并且它与原来的两个概念具有隶属关系的这种性质,进一步发展为将一个内涵较深的概念分解为两个或两个以上内涵较浅的概念的一种概念逻辑方法,用以建立另一些形式的检索语言结构体系,即概念组配体系。

    这种结构体系可以提供从多种途径来进行信息检索的功能,而且可以任意选择检索标识的专指度,根据实际需要扩大、缩小或改变检索的范围。例如,叙词语言与组配分类法便是应用概念分析与综合的典型。

    知识分类

    在这里插入图片描述
    知识分类是对千差万别的事物做系统研究的重要方法,是对各种事物之间的区别和联系从本质上、原理上进行揭示的重要手段,对信息的系统化具有重要的价值,其实质是划分知识单元、组织知识体系,包括学科分类和事物分类

    学科分类是以信息的学科属性为分类标准,根据各门学科的区别和联系,对学科进行区分和组织,确定每门学科在科学整体中的位置,揭示科学的内部结构,建立符合科学发展规律的分类体系。
    事物分类是根据事物属性的异同将事物划分成类,构成事物分类体系。

    学科分类是知识分类的主题,事物分类是知识分类的基础。

    知识分类应当遵循的两条基本原则是客观性和发展性
    客观性原则即对学科或事物进行划分和组织时,应依据知识对象固有的、客观存在的区别和联系。
    发展性原则是指知识分类应按照学科或事物的发展规律,将知识对象由低级到高级、由简单到复杂进行划分和组织。

    术语学

    在这里插入图片描述
    术语是在特定学科领域用来表示概念的称谓的集合,或者说,是通过语音或文字来表达或限定科学概念的约定性语言符号

    术语是传播知识、技能,进行社会文化、经济交流等不可缺少的重要工具。研究概念、概念定义和概念命名基本规律的学科即术语学。

    检索语言是由概念标识系统组成的,而概念是由术语来表达的。术语是分类表、词表的基本组成要素,检索语言其实就是一个经过精细组织的术语集。

    检索语言的创制是以术语学的研究成果为基础的。在编制分类表、词表而采用术语时,应以术语学对科学术语的研究成果为依据。在检索语言创制、发展和完善过程中,更多地吸收术语学的研究成果,是提高检索语言质量的要求和重要途径。
    检索语言要能适合实践应用和科学研究的需要,除了依据概念逻辑的理论基础外,还须利用知识分类的成果,把各种概念之间的关系建立在知识分类的基础上。如果说概念逻辑是检索语言的基础,则知识分类便是概念逻辑的基础。

    检索语言中的体系分类法、组配分类法、叙词法等,都在不同程度上反映了知识分类。只有较充分反映知识分类的检索语言,才能保证检索语言在信息检索工作中得到有效运用,并达到较好的效果。

    【三】分类检索语言

    分类检索语言——分类法(体系分类、组配分类)

    分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目固定其先后次序的分类体系。

    它是直接体现知识分类的概念系统,是对概括文献信息内容及某些外表特征的概念运用逻辑的方法进行系统排列而构成的。

    • 分类法按学科、专业集中文献信息,并从知识分类角度揭示各类文献信息在内容上的区别和联系,提供从知识分类检索文献信息的途径。主要包括体系分类法和组配分类法两种
    • 分类检索语言比较全面和客观地反映了知识全貌及其内在的逻辑联系,其体系结构的系统性、标识符号的通用性以及族性检索功能,是其他信息检索语言所不具备的,也是无法取代的,而且,分类方法符合人类认识事物的逻辑思绪方式

    体系分类法

    (1)体系分类法的含义:信息检索中常用的分类语言是体系分类法,也称等级列举式分类法。是基于概念的划分与概括,以学科分类为基础,把概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系

    具有代表性的体系分类法有《杜威十进分类法》、《美国国会图书馆图书分类法》、《中国图书馆图书分类法》、《中国人民大学图书馆图书分类法》等。

    体系分类发的特点和不足

    体系分类法在实际工作中,主要被用来组织分类排架、统计藏书和建立分类检索系统

    体系分类法的主要特点是
    按学科、专业属性构建类目体系,形成按学科、专业集中文献、信息的知识概念系统,从而能够直接地满足用户从学科、专业出发检索课题的需要,可以达到较高的查全率。
    ②采用等级列举式的概念标识系统来揭示概念之间的相互关系,便于用户“鸟瞰全貌”、“触类旁通”、“层层深入”地查找某一专业的信息,用户也无须事先知道事物或概念的确切名称,就可以在一定的类目下通过浏览查到该领域的相关信息。
    采用分类号作为主题的标识,不受语种的限制

    体系分类法的不足之处在于
    修订不便,无法及时增加反映新知识主题的类目。同时,分类表也不可能永无止境地细分下去,如遇到主题十分狭窄的文献,则可能很难找到相应的类目和分类号;
    体系分类法采用的是先组定组式标识,难以进行组配检索,使得其检索途径单一,检索效率不高
    采用分类号作为主题的标识,缺乏直观性
    ④体系分类法是按学科、专业集中文献信息以及线性的分类体系,使得其处理学科之间相互交叉渗透和综合而形成的新知识领域很困难,难以反映客观实际中多维的知识空间结构。

    体系分类法的结构(微观结构、宏观结构)

    ①微观结构
    在这里插入图片描述
    微观结构指分类法中类目的构成结构。按照类目之间的关系建立起来的类目集合称为类目体系,类目体系是分类法的核心,它的建立涉及类目的划分、引用次序、类目的排列、类名的确定、类目之间的相互关系的处理等。

    1)类目的划分:一个类目分为若干个小类,从而提示这个类目外延的逻辑方法。被分的类目称为母类或上位类,分出来的类目称为子类或下位类。

    通过类目划分可以明确母类的全部外延,建立若干子类,给设立类目打下基础。

    2)引用次序:分类标准的使用次序,当某一类事物连续划分需要采用几种分类标准时,分类标准的使用次序是否合理,直接影响分类体系,决定着类目体系展开方式。

    合理的引用次序应该满足逻辑性原则、符合检索需要的原则和表达性原则

    3)类目的排列:许许多多的类目按照一定的顺序排列起来的体系,类目的排列直接影响到分类法的质量。

    类目的排列应该体现出系统性、整体性、等级性、逻辑性、连续性和一致性。尤其是在体系分类法中,类目的排列应坚持相关排列准则,其中,同位类的排列次序反映了客观事物本身发展和联系的排列次序,具有重要的意义。

    4)类名的确定:类名是体系分类法的“语词”,起着表达类目含义的作用。类名的选择和确定应坚持科学性、确切性、简洁性。

    5)类目之间相互关系的处理:分类法是依赖于类目之间的相互关系建立起来的。在体系分类法中,类目间的基本关系主要有从属关系、并列关系、交替关系和相关关系

    ②宏观结构
    按功能分,类目体系、标记系统、说明与注释、类目索引

    在这里插入图片描述
    1)类目体系:类目体系是按照类目之间关系建立起来的类目集合
    大多数体系分类法的类目体系由主表和复分表组成
    主表是指由基本部类、基本大类、简表、详表逐级展开而形成的类目表。
    复分表,又称辅助表或者附表,是将详表中按相同标准划分某些类所产生的一系列相同子目抽出来,配以特定号码,单独编列,供主表有关类目进一步细分用的类目表。

    2)标记系统:标记系统是分类语言所有标记符号的集合

    分类语言的标记符号即分类号,是用于标记某一分类体系各类目的序数系统。

    理想的分类标记应符合简短性、容纳性、灵活性、表达性、助记性和适应性等要求。

    分类号有两种,一种是单纯式号码,主要使用的是纯数字标记
    另一种是混合式号码,通常是字母和数字结合使用。

    标记制度是指标记符号构成分类标记的基本方法,可以分为顺序制、层累制、混合制和分面标记制四种。

    特殊的标记方法:八分法、双位法、借号法、组配法、空号法。

    在这里插入图片描述
    3)说明与注释:说明与注释是对分类表结构及使用方法的揭示,用它来进一步阐述分类法的编制原理、特点和使用方法,明确类目之间的关系,确定类目的性质和范围,确定类分图书时的方法等。

    主要包括编制说明、大类说明和类目注释3种形式。

    在这里插入图片描述
    4)类目索引:类目索引是从类目名称字顺查找相应分类号的类表辅助工具,是分类表的重要组成部分。类目索引的主要作用是帮助不熟悉分类表的使用者从主题名称速度找到相应的类目。另外,类目索引还能集中分类表中被分散的有关同一事物不同方式的类目,弥补分类表依学科集中,却将同一事物的不同方面分散的不足。类目索引可分为直接索引、相关索引和主题分类对照索引。

    主要体系分类法介绍

    在这里插入图片描述
    国内常见的体系分类法有

    • 《中国人民大学图书馆图书分类法》,简称《人大法》
    • 《中国图书馆图书分类法》,更名为《中国图书馆分类法》
    • 《中国科学院图书馆图书分类法》,简称《科图法》。

    国外常见的体系分类法有

    • 《杜威十进分类法》(DC或DDC)Dewey Decimal Classification
    • 《美国国会图书馆分类法》(LC)Library of Congress Classification
    • 《国际十进制分类法》(UDC)Universal Decimal Classification

    ①《中国图书馆分类法》:简称《中图法》《中国图书馆图书分类法》,并更名为《中国图书馆分类法》,是新中国成立后编制出版的一部具有代表性的大型综合性分类法

    它是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。它将学科分成五大部类,基本序列是:马克思主义、列宁主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综合性图书,由5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条类目组成一个完善的分类体系标记制度,采用拉丁字母与阿拉伯数字相结合的混合号码制,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制原则。

    中图法(2014简答)

    它是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。它将学科分成5大类,基本序列是:马克思主义、列宁主义、毛泽东思想、邓小平理论、哲学、社会科学、自然科学、综合性图书,由5大部类、22个大类等组成一个完善的分类体系。

    杜威十进分类法

    ②《杜威十进分类法》:由美国的威尔·杜威编制,是一部在国际上出现最早、流行最广、影响最大的图书分类法。1876年出版,当时取名为《图书馆图书小册子排架和编目用分类法及主题索引》,收入近1000个类目。之后不断修订更新,到2003年已出版第22版,四卷本。卷一为编制说明和通用复分表,卷二、卷三为类表,卷四为索引和使用手册。

    它依据哲学家培根的知识分类思想,将图书分为十大类:总论,哲学,宗教,社会科学,语言学,自然科学,技术科学,美术,文学,史地。它采用纯阿拉伯数字作为基本标记符号,基本上按照层累制展开。除了印刷版以外,其Web环境下的电子版也于2003年推出。目前,DDC已被全球超过135个国家的图书馆使用,并且被法医逾30中语言,包括阿拉伯文、中文、法文、希腊文、俄文等。在美国大部分的公共图书馆及学校图书馆都在使用这种分类法

    ③《国际十进制分类法》:《国际十进制分类法》(UDC)也称《通用十进分类法》,由比利时的奥特勒和拉封丹在《杜威十进制分类法》的基础上扩充而成,1905年以法文出版UDC第1版,当时称为《世界图书总目手册》。伺候,UDC以23种语言出版了不同的版本。UDC是一种文献分类表,其分类对象为各种类型文献,包括小册子、科技报告和期刊论文等。目前,UDC主要用于欧洲各国的专业图书馆、文献中心和情报机构。

    UDC的主表是在DDC基本结构的基础发展起来的一个层层展开的十进制系统,其基本大类序列如下:0总论、科学与知识;1哲学、心理学;2宗教、神学;3社会科学;4(暂空)5数学、自然科学;6应用科学、医学、技术;7艺术、文娱、体育;8语言、语言学、文学;9地理、传记、历史。

    UDC的标记符号式小数制的阿拉伯数字,大类用一位数字标记,二级类用两位数字,三级类用三位数字,以此类推,大多数分类号的长短反映类目之间的从属关系。为了醒目,处有其他辅助符号间隔外,每达三位数字就用小圆点隔开。

    【四】组配分类法

    在这里插入图片描述
    (1)组配分类法的定义:组配分类法又称分面分类法分面组配分类法

    是基于概念的可分析性和可综合性,即复杂的主题概念可以分析为若干简单的主题概念,若干简单的主题概念可以综合表达复杂的主题概念,将一个复杂的文献主题概念用若干个表达简单概念的标识组配来表达的一种文献分类法。

    在组配分类法中,一般只将简单主题概念设为类目,标引时,从类目中找出与主题概念相对应的各个类目,用相应的类号组配表达所标引的主题概念

    (2)组配分类法的分类:可分为全分面分类法和半分面分类法两种。
    全分面分类法是纯粹的组配分类法,一般仅在较小的学科或专业范围内使用。
    半分面分类法是全分面分类法与体系分类法相结合的混合式分类法,一般综合性或多学科的分类法,如《冒号分类法》、《布利斯书目分类法》等,这种分类法一般是综合性或者多学科的分类法。

    (3)组配分类法的特点
    通过简单主题概念的组配,一方面可以简化分类表,缩小类表体积,另一方面能够表达各种复杂主题概念和专深主题概念,并且能够揭示主题因素之间的相互关系。
    ②可以对信息所表达的主题概念进行多方面标引,从而可以实现多途径检索
    ③可以较为及时地增补新的主题概念,类表修订灵活、方便

    组配分类法是体系分类法思想的改进,弥补了体系分类法存在的一些不足之处,如难以揭示细小的主题概念、检索途径单一、造成“集中与分散”的矛盾,难以及时修订类表等,但其自身仍然也存在不足,主要表现在:类目体系不如体系分类法直观,标引和检索有一定的难度,使用不太方便。非专业人员使用难度较大等。因此,不适合图书馆、资料室组织文献分类排架。

    (4)组配分类表
    组配分类表是由编制说明、基本类表、分面类表和分面公式以及通用辅表组成,它的建立,主要采用了分面分析法

    它由两个层次的分面结构所组成,第一层次的分面结构是对整个知识领域进行分面所形成的基本分面结构;第二个层次的分面结构是以第一层次的分面结构为依据,对某一知识领域进一步进行分解所形成的分面结构

    在组配分类表的编制过程中,需要考虑到分面的引用次序与排列次序、标记符号与标记制度等方面的问题。

    ①分面的引用次序与排列次序:
    分面的引用次序是指组配表达主题概念时,各分面被引用的先后次序。同一组配分类表的引用次序应力求明确、规范。

    分面排列次序是指组配分类表中各分面以及分面内各类目的排列先后顺序

    分面排列次序可以采取与分面引用次序相同或相反的两种排列方法。
    当分面排列次序与分面引用次序相同时,称为顺排法。
    当分面排列次序与分面引用次序相反时,称为倒排法。

    ②标记符号与标记制度:
    组配分类表中的标记制度主要采用的是分面标记制和回归标记制
    分面标记制是用分面符号把类号分成若干段,使每一段的号码代表主题的一个方面,以实现类目组配结构的一种标记制度。采用分面标记制所标引出的主题能够直观显示类目的组配结构,揭示各个主题因素及其联系。

    分面标记制所采用的分面符号有两种基本形式:采用数字或字母作为分面符号;采用标点符号作为分面符号

    回归标记制也称回溯标记制,是通过将分类表中位于前面的分面类目号码直接加在位于后面的分面类目号码之后,组配表达复杂主题概念的标记制度。回归标记制的号码较简短,并且具有较强的表达容纳性,不过其配号比较复杂,后面分面类号不能与前面类号相同,不能进行分段轮排,不能提供多途径检索。

    (5)主要组配分类法介绍
    最早提出分面组配思想的是比利时的奥特莱。系统的分面组配分类理论是由印度图书馆家阮冈纳赞提出的。阮冈纳赞认为图书分类的主要作用,在于给予每一个特定的主题以一个特定的类号,从而使每个不同的主题都能区别开来,并在类号中把主题的组成要素反映出来。

    《冒号分类法》

    《冒号分类法》是阮冈纳赞编制的一部分面分类法,初版于1933年,提出了分面标记符号,只用“:”作为分段符号。目前已出至第7版。《冒号分类法》提出了五个基本范畴的理论。它们依次是:本体personality、物质material、动力energy、空间space、时间time。通过这五个基本范畴来分析、归纳和组织文献。每个基本范畴都采用特定的指示符表示P/M/E/S/T。在第7版中,又将物质面进一步分解成3个方面:物质M, 物质性质MP,物质方法MM。冒号分类法创立了分面标记制度,使每一特定的主题有一个特定的类号,并在号码中把主题的组成要素反映出来,针对列举式的类表和单线式的标记还提出了一些其他的标记方法,如八分法、百分法(双位法)等。阮冈纳赞还成功地创造了相的标记法,把它运用于不同学科之间的相互联系。

    《冒号分类法》具有标记表达性强、类表简练、容纳性强、适应性好、易于揭示复杂主题等优点,对今天的知识组织产生了一定的影响。其不足之处有,类目体系不够直观,标记符号种类繁杂、规则繁多,使用起来比较复杂等。因此,在实践中,冒号分类法并没有得到广泛的使用。

    主题检索语言/主题法

    在这里插入图片描述
    (1)主题检索语言的含义:主题检索语言又称主题法。它采用语词直接作为文献主题标识,按字顺排列主题标识,提供各种检索词语的途径。

    主题检索语言从描述事物的特性角度出发,按文献所论述的事物(即主题)集中文献,用规范化的名词术语标引和表达文献的主题概念,用参照系统显示事物概念主题词之间的关系。

    (2)主题检索语言的特点
    它具有较好的按事物集中文献和便于从事物出发检索文献的功能。目前,在机检数据库的检索中,主题法是最常用的检索语言

    主题检索语言与分类检索语言相比,具有明显的优点
    ①专指性高:主题语言主要以规范化的名词术语为基础,着眼于事物及事物的各个方面。凡是论述某一事物的文献,几乎都被标引在表达该事物概念的语词标识之下。从一个语词标识下即能检索到它所表达的事物的比较完全的有关文献。

    ②直观性好:主题语言直接采用主题词作标识,可以直呼其名,依名查检。对用户来说,易读、易记、易理解。而且按照字顺排列主题标识,更突显出了它的直接优点。

    ③灵活性强:主题语言根据需要对主题词进行灵活组配,特别适合计算机的逻辑组配功能。主题语言对于从事物出发的比较狭小检索提问,以及关于新事物、新概念、新学科的检索提问,检索效果特别好。

    主题语言的主要缺点表现为:由于是按字顺排列,所以同一门类学科的文献易被分散在各处,在族性检索方面不及分类语言

    主题检索语言的特点和类型

    主题法的类型很多,一般都具有下述特征
    ①以特定事物、问题、对象,即主题为中心集中信息资源;
    ②直接以语词作为信息的组织和检索标识
    ③以字顺作为主要检索途径

    根据选词原则、词的规范化处理规则的不同,主题检索语言可分为标题词语言、单元词语言、叙词语言和关键词语言

    在这里插入图片描述

    标题词语言

    标题词语言是一种先组定组式语言,它选择标题词作为文献内容的标识和检索依据,具体表现为标题词表的利用。
    标题词语言是主题检索语言中使用最早的一种类型。
    标题词语言的主要优点体现在:
    ①词表直接用事物名称列举出表达事物的主题,直观性强;
    ②采用先组定组式方法,因而词表中标题结构固定,含义明确;
    ③用参照系统显示主题之间的相互关系。其不足之处是先组定组式的方法使得标题词表检索途径较为单一,无法实现多因素、多途径检索。另外,词表一般收词量大并且专指度相对不足,修订量大。

    标题词一般分为主标题和副标题两级,通过主标题词和副标题词的固定组配来构成检索标识,因而只能选用“定型”标题词进行标引和检索,所反映的主题概念必然受到限制,并且无法从多因素、多途径进行检索。尤其是现代科技主题的内涵与外延越来越复杂,几乎不可能用一对主、副标题完全、确切地表达出来。因此标题词语言已不适应时代发展的需要,目前已较少使用。比较典型的标题词表有《工程标题词表》。

    单元词语言

    单元词语言是以单元词作为语词标识对文献进行标引与检索的主题检索语言,是一种后组式语言。单元词法采用后组配的方式,在标引时不组配单元词,在检索时才对单元词下所列的文献号进行对比,号码相同的就表示有组配关系。单元词具有相对的独立性,词与词之间没有隶属关系和固定组合关系,标引时可根据需要加以组配。在单元词法中,组配功能得到了充分的应用。克服了标题词法的不足,比较适合机械检索系统。单元词语言的主要优点第:①通过单元词的组配可以表达大量专指概念和新概念,适应性强。②不存在词序问题,表达信息或文献标识中每一个单元词都可以做为检索入口,并且通过对单元词的增减,可以自由地扩大、缩小或改变检索范围。③单元词词表体积一般比较小,编制、更新和修订所需工作量小。其不足在于:①单元词法的字面分拆和字面组配,容易造成语义失真。②单元词法缺乏完善的参照系统,难以满足族性检索的要求。③单元词法的直观性和系统性较差。单元词语言只适用于标识单元方式检索系统,它目前已经发展成为叙词语言。

    关键词语言

    关键词语言作为信息存储和检索依据的一种检索语言,是直接从原文的标题、摘要或全文中抽选出来,具有实质意义的,未经规范化处理的自然语言词汇。关键词语言的原理是:运用关键词语言编制的关键词索引,其关键词按字顺排列构成索引款目,所抽选的关键词都可以作为标引词在索引中进行轮排,作为检索“入口词”进行检索。关键词语言的主要优点是:①直观性强。关键词法直接采用自然语言进行标引和检索,符合普通用户的检索习惯。②检索途径多。关键词法采用的轮排方式,可以多途径检索文献。③标引简单。关键词接近自然语言,是由计算机自动抽取的。不用人工标引,不但节省人力,而且可以降低对人员的水平的要求。④关键词表达事物、概念直接、准确,不受词表控制,能及时反映新事物新概念。其主要缺点是:①不揭示关键词之间的等级关系和相关关系,使得相同主题的信息或文献因作者用词不同而导致漏检,影响查全率。②难以进行族性检索。③由于关键词法采用机械抽词和轮排,有可能会导致不少关键词款目失去检索作用而徒增篇福。关键词语言只有与计算机结合起来才能发挥它的独有优势,随着计算机的深入发展与应用,它的作用越来越突出,已被称为使用最广泛的检索语言。
    关键词索引的主要类型有题内关键词索引、题外关键词索引、词对式关键词索引等。题内关键词索引又称为上下文关键词索引,它以文献篇名为基本素材,以篇名中的关键词做索引款目的标目,以关键词的上下文做说明语。题外关键词索引改进和精简了题内关键词索引。这时的关键词不局限于从篇名当中抽取,可以根据需要从其他地方抽取。同时,改变了题内关键词索引检索入口在中间的做法,将关键词作为独立目标排在题目的前头。词对式关键词索引即将篇名关键词相互组配,从某一篇名所含的全部关键词中每次取两个来做一个款目的标目。

    叙词语言

    1)叙词语言的原理
    叙词语言是以表示单元概念的规范化语词为基础,以概念组配为基本原理,对文献主题进行描述的后组式检索语言。叙词是指一些以概念为基础的、经过规范化的、具有组配功能并可以显示词间关系和动态性的词或词组。叙词有这样一些特点:①直观性。叙词标识比较直观,按字顺排列,序列明确。②规范性。叙词都经过了规范化处理,包括对词义、词类、词形等的规范。③组配性。叙词可以灵活、自由地组配在一起表达各种复杂的概念,比较适合于计算机检索,在检索中可以充分采用布尔逻辑检索法、加权检索法等。
    ①叙词语言吸收了其他多种检索语言的原理与方法,吸纳了体系分类法的基本原理,编制了叙词范畴索引和词族索引,从多方面来反映主题词之间的等同关系、等级关系和相关关系等;②保留了单元词语言的组配原理,采用了组配分类语言的概念组配来代替单元词语言的字面组配,并取代了单元词语言;③吸收了关键词语言的轮排方法,编制了各种叙词索引;④采用了标题词语言对语词进行严格规范化的方法,保证了词与概念的一一对应,采用并进一步完善了标题词语言的参照系统。
    2)叙词语言的性能
    叙词语言继承和发展了体系分类语言、组配分类语言、标题词语言、单元词语言、关键词语言等多种检索语言的思想、原理和优点,具有多方面的优势,并且已经成为了当今互联网时代应用最为广泛的人工检索语言之一。
    叙词语言吸收了单元词语言用组配来表达主题概念的方法,但摒弃了单元词语言采用字面分解和字面组配而容易造成语义失真等消极因素,将字面分解和组配完善为概念组配。叙词语言适当借鉴了标题词语言的先组方式,将一些通用的专称、俗语、专指作用很强的词组、专业文献中出现频率较高的经常用以检索的词组等先组词的方式直接收入叙词表中。叙词法继承了组配分类语言分面组配的思想,形成了自身概念组配思想。体系分类法通过类目的层层划分所形成等级、标记制度、编撰说明和注释来标识类目之间的相互关系,而叙词语言参考了体系分类法的思想,建立了范畴索引、词族索引和参照系统来揭示主题之间的相互关系。叙词语言还借鉴了关键词语言的轮排技术,通过编制轮排索引,从而加强了叙词语言的族性检索功能,同时也增加了检索途径。
    总之,叙词语言是一种非常优秀的检索语言,并且已经成为在当今互联网时代应用最广泛的人工检索语言之一。但是,它也有不足之处,主要表现在:叙词表的编制工作难度较大、标引复杂、标引速度慢、族性检索功能不够强、使用人员需要较多的专业知识等。

    叙词表的编制

    叙词表是叙词语言的核心体现。
    叙词表一般由一个主表和若干个附表构成。

    在叙词表的编制过程中尤其要注意以下问题

    • 主题词的选择与规范:在编制叙词表的过程中,主题词的选择要以所编制叙词表规定的专业或职能范围为依据。选词要考虑文献检索的具体要求,以及被标引文献的数量和增长速度。还要考虑被选词的使用频率和检索意义,一般不选用使用频率过高或过低的词做为主题词。另外,基本词汇要完备而精练,要注意选用词义明确、符合科学性和通用性的词作主题词。叙词法规范化处理的内容包括四个方面词形规范、词义规范、词类规范和先组度规范
    • 主题词之间关系的显示:参照系统对于主题词的语义关系的揭示,是通过制订各种符号来加以联系和反映的,具体表现在同义关系、属分关系和相关关系
    • 主题词的组配:叙词语言的组配吸收了组配分类语言的概念组配原理,采用了单元词法的后组方式,超越了单元词的字面组配,实现了概念组配。主题词的组配可分为交叉组配、限定组配和联结组配。概念组配是叙词语言的基本原理。概念组配依据概念的分析与综合,与字面组配有时相同,有时不同。通过组配可以增强叙词语言的表达能力,控制词表的词汇量,提升叙词法的匹配能力,提供多途径检索,提高查全率,还可以及时反映新事物、新学科。

    主要主题词表介绍

    国外使用最广的综合标题词表《美国国会图书馆主题词表》、专业叙词表《医学主题词表》
    国内比较有影响的主题词表有《汉语主题词表》、《中国分类主题词表》、《社会科学检索词表》《中国档案主题词表》等。其中,《汉语主题词表》在国内的影响最大。

    《汉语主题词表》

    《汉语主题词表》是我国第一部大型的综合性的叙词表。
    中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册。
    其结构体系比较全面,由主表(字顺表)、附表、词族索引、范畴索引和英汉对照索引组成。

    • 主表(字顺表)包括社会科学和自然科学两部分,是词表的主体部分,由全部正式叙词款目和非正式叙词款目组成,所有款目严格按汉语拼音音序排列。每一个叙词款目的结构包括叙词、汉语拼音、英文译名、范畴号、注释项及其语义关系项等。
    • 附表包括4种专有词汇表:世界各国政区名称、自然地理区划名称、组织机构名称和人物。词族索引又称族系索引、等级索引,是将主表中具有属分关系的正式主题词集中在一起,显示词间从属关系的一种索引系统。
    • 词族索引用来揭示主题词之间族系关系,满足族性检索的需要
    • 范畴索引是主表中全部叙词的分类索引。它将全部叙词和非叙词按社会科学和自然科学两大范畴划分为58个大类,方便人们从分类角度查找与某一范围内容相关的主题词。
    • 英汉对照索引是将主表和附表中的正式和非正式主题词的英文按字母顺序排列的一种索引,是通过英译名来选择主题词的辅助工具。

    《汉语主题词表》《中国分类主题词表》比较

    主题检索语言与分类检索语言的相同点

    【看相关论文:主题法与分类法的比较】
    (1)主题检索语言与分类检索语言同样都是表现文献内容特征的检索语言
    (2)描述和揭示的对象都是各种各样的文献
    (3)它们都是建立在概念逻辑、知识分类和术语学的基础上,即利用区分概念的各种逻辑规则来显示词与词之间的关系,利用概念分析与综合的逻辑方法来构造标引语词;
    (4)在应用知识分类方面主要是应用事物分类原理。

    分类主题一体化检索语言

    (1)分类主题一体化检索语言的定义
    分类主题一体化检索语言,又称为分类主题一体化词表,是指在一个检索语言系统中,对它们的分类表部分和叙词表部分的术语、参照、标识及索引实施统一的控制,使两者有机地融合为一体,从而能够同时满足分类和主题标引、检索的需要,发挥其最佳的整体效应。
    (2)分类主题一体化检索语言的原理
    分类检索语言与主题检索语言两者之间的区别主要是表现在形式、结构和应用不同等方面。分类检索语言是按学科、专业集中信息或文献,以分类号作为主题概念的标识,经过类目的层层划分与排列,形成了等级式的学科与逻辑体系。而主题检索语言是按事物来集中信息或文献,以受控的主题词直接作为主题概念的标识,通过参照系统和范畴索引、词族索引来揭示主题词相互关系的字顺系统。
    分类主题一体化检索语言的原理建立在分类检索语言与主题检索语言相通的原理基础之上。首先,分类检索语言与主题检索语言都是建立在概念逻辑、知识分类和术语学的理论基础之上,都应用了概念划分与概括、概念分析与综合的方法。其次,所采用的表达信息或文献主题概念的标识在本质上是相同的,只是表现形式不同而已,即分类检索语言是用分类号作标识,而主题检索语言是用主题词作标识的。最后,分类检索语言与主题检索语言的处理对象都是语义单元,所类集的内容是相同的,表达的都是主题概念。
    (3)分类主题一体化检索语言的功能
    分类主题一体化检索语言除了单独具有分类检索语言与主题检索语言的功能外,还具有如下功能:
    ①标引人员可以同时完成分类标引和主题标引,通过标引数据之间的对应转换,可以节省人力物力,并且可以减少标引错误和标引不一致性。
    ②用户既可以从学科、专业出发来进行分类检索,也可以从事物主题出发进行字顺检索,并且可以加以比较,从而较大程度地提高查全率和查准率。
    ③可以为进行过分类标引而未进行过主题标引的书目数据库通过主题词与分类号的转换而提供主题标引,同样,也可以为进行过主题标引,而未进行过分类标引的书目数据库通过主题词而进行分类标引。
    (4)分类主题一体化检索语言的类型
    按照兼容互换的方式,可分为三种类型:分面叙词表、分类表—叙词表对照索引和集成词表。
    ①分面叙词表:是以艾奇逊等主编的世界上第一部一体化词表的名称命名的,它也是最典型,影响最大的分类主题一体化检索语言。一般由分类表和叙词表两大部分组成,有的还附有轮排索引及英汉对照索引。分类表和叙词表通过分类号相联系,分类表主要起字顺索引的作用,而叙词表则不仅起着传统叙词表范畴和词族索引的作用,还可以直接用于主题标引。我国编制出版的分面叙词表有《教育主题词表》、《农业科学叙词表》、《音像资料叙词表》等。
    ②分类表—叙词表对照索引:通常由分类号与主题词对应表、主题词与分类号对应表两部分组成。前者为每个类目列出其对应的一个或多个主题词,后者为每个主题词列出对应的一个或多个分类号。这种对照索引是分类检索语言和主题检索语言兼容互换的工具,通常用作情报检索查词选类的辅助工具,便于分类标引数据与主题标引数据的相互转换。我国编制出版的《中国分类主题词表》、《中图法教育专业分类表》等就属于此类型的词表。
    ③集成词表:是将某些特定主题领域的若干叙词表和分类表汇编而成的一种词表,可以用于联合分类标引和主题标引,用于实现分类表和叙词表之间的兼容互换。

    《中国分类主题词表》

    《中国分类主题词表》是在《中图法》编委会主持下,经全国约40个单位160位专家学者的共同努力,历时8年编制而成的,于1994年6月正式出版。
    《中国分类主题词表》是在《中图法》第三版和《汉语主题词表》的基础上编制的我国第一部分类检索语言和主题检索语言相互兼容对照索引式的一体化词表。全表共分两卷6册,包括《分类号—主题词对应表》和《主题词—分类号对应表》两部分。
    第1卷《分类号—主题词对应表》以《中图法》的类目体系为基础,将《汉语主题词表》的全部主题词以及增加的主题词兼容对应于各级类目之下,可视为一部以主题词作注释的新版《中图法》。其主要功能是文献分类标引和通过分类的途径查找主题词。进而进行主题标引。第2卷《主题词—分类号对应表》是从主题词到分类号的对照索引体系。它按主题词的字顺排列,其后列出对应的分类号。其主要功能是进行文献主题标引和通过主题查找相关的分类号,作为分类标引的辅助手段。
    (优点)《中国分类主题词表》是分类与主题、先组式检索语言与后组式检索语言相结合的一体化检索语言体系。使用该表不仅可以使分类标引、主题标引在经过同一主题分析、采用同一标引工具的过程中一次完成,而且能够降低主题标引的难度,提高标引的一致性。同时,由于分类号和主题词之间建立了对应联系,有利于在检索系统中实现分类号与主题词之间的相互转换,从而提高检索效率。
    (不足)《中国分类主题词表》也存在一些不足,如没有编制主题词轮排索引和英汉对照索引,标引组配不够灵活,而且,在分类号和主题词的对应过程中,受到主观因素的影响,也很难做到完全的科学和准确。

    网络信息检索语言

    (一)检索语言面临的网络环境
    随着互联网技术的快速发展与广泛应用,受控的检索语言面临着巨大的挑战,主要表现在以下四个方面:
    (1)信息类型的变化:传统环境下,检索语言所面临的信息类型主要表现为文献资料,并且其类型基本上都是纸质文本型信息。而网络环境下的信息类型多样,除了有电子化的传统文献资料外,还出了许多新的类型。既有大量的电子文本型信息,也有图形、图像、音频、视频、动画等形式的信息。
    (2)信息数量与质量的变化:传统环境下的信息数量尽管是庞大的,但仍然无法与网络环境下的信息数量势相比。另外,网络信息内容范围极其广泛涵盖了人类所有社会生活领域。传统环境下的信息在传播之前一般都经过较为严格的规范和控制,因此,信息质量较高。而在网络环境下,任何组织和个人都可以自由地发布信息,不需要经过规范和控制,使得网络信息质量参差不齐,既有质量非常高的学术信息,也存在着大量质量低下的垃圾信息。
    (3)信息检索技术的变化:传统环境下的信息检索是依靠目录、索引、工具书、年鉴等进行的,检索到的信息只有文本信息,并且检索范围比较狭窄,检索效率较低。由于计算机技术、多媒体技术、网络技术、数据库技术等以及相应硬件技术的发展和应用,新的检索技术不断出现,如全文检索技术、多媒体检索技术、超文本和超媒体检索技术等,这些信息检索技术的应用,大大方便了用户的检索行为,提高了检索的效率。
    (4)信息用户的变化:分类检索语言、主题检索语言的规范性与复杂性,使得传统的信息检索用户一般为专业性情报检索人员,或者是受过专业培训的人员,并且他们进行信息检索的目的多为科学研究需要。而伴随互联网的广泛应用,信息技术和信息检索系统的易用性使得信息检索用户从专业人员扩大到广大的普通用户,并且用户信息需要也不再仅仅是为了学习和科学研究,而是呈现出多样化、个性化。

    网络环境下的分类检索语言的特点

    在网络环境下,分类检索依然有着强大的生命力,只是由于分类语言描述对象和利用对象都发生了变化,分类检索语言为适应这些变化必须作出相应的调整,主要表现在形式和内容两方面:
    (1)在形式上,实现了电子化和体系结构的多维化
    ①分类法的电子化:印刷版分类法翻阅、携带不方便,维护管理困难、更新周期长,以及分类法本身的复杂性,大大影响了标引和检索的速度与效率。分类法的电子化由于其直观方便的浏览、显示功能,超文本链接功能和完善的检索功能,提高了标引与检索的速度与效率,减少了标引成本,其修订也较为方便,更新周期缩短。
    ②分类体系结构的多维化:传统分类法的体系是以一种典型的线性结构来揭示类目之间内在关系的,表现出明显的单维特征。超文本技术在分类语言中的应用,彻底改变了类目之间的线性关系,同时,新型的网络分类目录在类目划分标准、横向关系揭示和类目设置方面表现出明显的多维化趋势。
    (2)在内容上,编制方法作了很大的调整,主要表现为聚类标准的主题化、类目划分的随意性、类目排列的非逻辑性和类名的通俗化等。
    ①聚类标准的主题化:传统分类检索语言以信息的学科属性作为聚类依据,网络分类法则是以网络信息的主题作为聚类的主要依据,这样更符合普通用户的使用习惯。
    ②类目划分的随意性:传统分类语言中类目的划分是按照严格的逻辑划分规则。网络分类语言中类目划分是根据用户的需要和习惯,一般没有按照严格的划分规则,注重开放性和可变性,所划分的类目之间隶属关系比较模糊,类目体系不太严密,列类较杂。此外,网络分类法的划分层次比传统分类法的划分层次要少得多。
    ③类目排列的非逻辑性:传统分类检索语言同位类的排列注重类目之间的内容关系和逻辑关系,系统性、整体性、科学性、逻辑性、连续性和一致性较强。网络分类检索语言中同位类的排列不局限于使用逻辑排列法,往往为了方便、快速、自动地排列类目,而使用字顺排列、按重要性排列等方法。
    ④类名的通俗化:传统分类检索语言中类名的确定有比较严格的规范,类名稳定性高。网络分类检索语言中类名的确定是从用户的角度出发,关注普通用户的一般思维方式、检索习惯和需求特点,力求简单和通俗易懂,并且类名会根据社会发展和用户检索习惯而进行调整,因此,类名的稳定性不强。
    在新的网络环境下,分类语言沿着两个方向继续得到发展。一个方向是积极地调整传统分类法自身,以满足信息资源数量的迅速增长;另一个方向是抛开传统的分类法,重新建立新的分类体系,即网络分类目录。

    网络环境下的主题检索语言

    主题语言使用语词对信息进行揭示和组织,直接用语词标识信息内容,可以较好地满足用户的特性检索需要,主题语言在网络环境下仍然是一种重要的检索语言。互联网的普及、网络信息资源的迅猛增长和信息检索用户的改变对主题语言的发展产生了较大的影响,网络环境下的主题检索语言主要表现为以下几种形式:
    (1)传统主题检索语言在网络信息检索系统中的应用
    传统主题检索语言在网络信息检索中的应用主要表现在标题语言、叙词语言和关键词语言在网络信息检索系统中的应用。采用主题词表,叙词表的网络检索系统一般是学术性较强的专业网站。如图书馆网站的书目信息检索系统、网络联机数据库检索系统等。关键词语言在网络环境中的主要应用形式是搜索引擎的关键词搜索。搜索引擎的易用性和良好的检索性能,使得其已成为目前世界上最流行的检索方式。

    辅助词表

    辅助词表的主要类型有哪些

    辅助词表的主要类型有后控词表、禁用词表、同义字词典和反义字词典等。

    后控词表

    也称为词间关系表,是利用受控语言的基本原理和方法编制的自然语言检索用词表。后控词表的主要特点是
    ①词汇只用于检索,不能用于标引。
    ②词汇控制不如先控词表严格,一般只对同义词、近义词和不同书写形式进行控制,适当处理部分与相关关系。
    ③收词丰富,包括同义词、近义词、俗称、缩写、流行俚语等。
    ④动态性强,及时更新和增补新主题概念。
    ⑤有较强的灵活性和自由度,标引工作简单、编制简便。
    ⑥具有面向文献和用户的特点,文献保障和用户保障能力强。
    后控词表只对系统的输出阶段进行控制,它的控制处理相对受控语言检索系统比较简单,无需标引人员花费很长时间去分析文献的主题概念,选用合适的检索词进行标引、归类,检索者也不必花太大的精力分析检索要求,考虑用符合标准的检索语言来表达自己的信息需求。后控词表展现了比较完整的语义关系,用户通过浏览词表选用检索词,大大减轻了构造检索策略的负担,提高了检索速度,节省了检索时间。

    后控词表作为自然语言和受控语言相结合的产物,对于提高自然语言检索系统查全率和查准率具有重要的意义,为用户准确选词、精确检索、扩检和缩检、改变检索范围、进行相关检索提供了捷径。

    禁用词表

    也称停用词表、禁用词典、禁用单元词表等,是将一些单独使用时无检索意义,或者出现频率过高的词作为检索系统的非检索用词,以对检索词的有效性进行控制。禁用词表按收入词的类型,一般可分为普通禁用词表和条件禁用词表。普通禁用词表是指在任何情况下都无实际检索意义的词所构成的词表,如包含介词、连词、代词等的词表。条件禁用词表是指由在一定条件下才成为禁用词的词汇构成的词表。这种禁用词表主要出现在专门性的检索系统中,因此,不同网络检索系统在理论上其禁用词表不会兼容。条件禁用词表除了收录条件禁用词外,通常还包括无实际检索意义的普通禁用词。

    同义字词典和反义字词典

    是根据把用户检索标识转换成规范性叙词,或者扩展出所有可能出现的同义词、近义词和反义词以提高查全率的目的编制,基于主题语言,显示概念等同关系原理而产生的。同义字词典和反义字词典除了能够提高用户的查全率外,对自然语言与受控词表的一体化、系统与检索用户的交互选择、自动扩展的智能化检索的发展也起到非常重要的作用。

    自然语言

    随着计算机技术的发展,计算机信息检索系统的广泛使用,自然语言在信息检索领域的应用开始流行起来。传统的采用受控语言(人工语言)的信息检索系统要求检索者必须具备一定的检索理论和实践技能,熟悉系统的检索功能与操作命令、检索语言的特点及有关的检索策略与检索技巧等方面的知识。随着信息资源的海量化、信息需求的不断扩大,越来越多的非专业人士开始涉及信息检索领域,人们开始不满意传统受控语言的严格与规范,渴望信息检索更加简洁和易用

    自然语言指直接取自文献本身,不经加工和规范的语言,它包含词、词组或句子,没有繁琐规则的约束,不添加任何人工的色彩

    自然语言具有许多人工语言所没有的优点

    (与人工语言相比,自然语言在信息检索系统中的应有有什么优点)
    ①自然语言检索方便,不受人工语言的各种限制,不需要复杂的检索规则,使用者能够较快适应,易用性突出。
    ②自然语言采用从文献中直接抽词的方式,避免了人工标引过程中的失真现象。
    ③自然语言非常容易吸纳新的词语、新的概念。

    采用自然语言检索新出现的事物可以获得较好的检索效果,使用者可以直接使用这一新词作为检索入口,不必像传统的人工语言那样,必须将该词先转换成另一规范词,再进行检索。

    自然语言的优势(特点)与不足(01北大、07华南师范简答)

    自然语言检索是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言

    优点

    • 自然语言检索方便,不受人工语言的种种限制,不需要复杂的检索规则,不经加工和规范。
    • 直接从文献中抽词,避免了人工标引的失真现象
    • 非常容易吸纳新词、新概念,可以获得较好的检索效果。

    缺点

    • 对同义词、近义词、多义词及与其相关的一些词没有进行规范和统一,词间缺乏有机的联系,影响查全率
    • 由于选词没有严格限制,词量势必过多过杂,从而影响查准率,并且会过多地占有磁盘的存贮空间。因此在实际操作中,必须对自然语言采取一些辅助措施,以弥补其缺陷

    自然语言信息检索系统 与 受控语言信息检索系统 的不同。

    受控语言信息检索系统是在文献信息和用户信息需求输入系统之前进行控制,控制的工具是人工编制的词表或分类表,而且需要对检索的课题进行主观的思考和分析,检索结果的优劣在很大程度上取决于用户对规范化词表或分类表的掌握程度及经验技巧。文献信息的输入(前控)和检索提问的输入(后控)都采用同一词表,前控和后控的程度相等。但自然语言信息检索系统主要是在输入系统之后,在系统内部进行控制,文献信息输入时基本不做处理,而主要依赖后控,即将自然语言转换为系统的提问,并对同义、近义、相关等关系的词进行组织。同时,自然语言检索系统与计算机自动标引和自动分词等技术紧密地联系在一起。

    全文检索

    自然语言在信息检索中的应用主要表现为使用关键词的全文检索

    • 全文检索是指不经过任何标引,而直接通过计算机以自然语言的形式在文本中进行匹配查找。文本中任何字符和字符串均可作为检索入口。因此,全文检索是一种不依赖叙词表而直接使用自由词的检索方法。
    • 全文检索具有直观性、详尽性和广泛的适应性等特点。

    采用全文检索技术的检索系统一般具有如下优势

    方便易用。采用用户所熟悉的自然语言进行检索,用户使用检索系统之前一般不需要进行培训和学习。
    查全率高。全文检索系统可以对文本中任意字符都进行匹配检索,不受标引限制,因此,可以实现较高的查全率,并且用户可以直接查看文本中的任何章节、段落、句子、词或字,而不只是索引或摘要。
    检索功能强大。一般的全文检索系统都能进行布尔检索、截词检索、位置检索、相关检索等能够满足用户不同的检索需求。

    国外著名的全文检索系统

    ProQuest系列数据库、EBSCO数据库、SpringerLink全文数据库、Alta Vista全文搜索引擎等

    国内比较著名的全文检索系统

    《中国期刊全文数据库》、《中文科技期刊数据库》、万方数据资源系统等。

    展开全文
  • 网站关键词提取工具易语言源码例程程序结合易语言编码转换支持库和正则表达式支持库,调用API函数提取网站关键词
  • Go语言有25个关键词。它们只能在语法允许的场合使用,不能被用户自定义的变量或者函数名覆盖。它们如下所示。 break default func interface select case defer go map struct chan else goto package switch...
  • Java语言中static关键词应用解析
  • 自然语言处理TF-IDF关键词提取算法

    千次阅读 2022-03-23 11:40:13
    自然语言处理TF-IDF关键词提取算法 1、关键词提取简介 关键词是指能反映文本主题或者主要内容的词语。关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来,是NLP领域的一个重要的子任务。在信息检索中...

    在这里插入图片描述

    1、关键词提取简介

    关键词是指能反映文本主题或者主要内容的词语。关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来,是NLP领域的一个重要的子任务。在信息检索中,准确的关键词提取可以大幅提升效率;在对话系统中,机器可以通过关键词来理解用户意图;在文本分类中,关键词的发现也非常有帮助。关键词能让我们快速了解文章所讲内容,但是网络上写文章的人不会像写论文那样告诉你本文的关键词是什么,这个时候就需要利用计算机自动抽取出关键词,算法的好坏直接决定了后续步骤的效果。
    关键词抽从方法来说大致有两种:
    第一种是 #关键词分配,就是有一个给定的关键词库,然后新来一篇文档,从词库里面找出几个词语作为这篇文档的关键词;
    第二种是 #关键词抽取,就是新来一篇文档,从文档中抽取一些词语作为这篇文档的关键词。
    关键词抽取从算法的角度来说主要有两类:
    有监督学习算法:将关键词抽取过程视为二分类问题,先抽取出候选词,然后对于每个候选词划定标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器。当新来一篇文档时,抽取出所有的候选词,然后利用训练好的关键词抽取分类器,对各个候选词进行分类,最终将标签为关键词的候选词作为关键词;
    无监督学习算法:先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如TF-IDF,TextRank等算法。
     jieba分词系统中实现了两种关键词抽取算法,分别是基于TF-IDF关键词抽取算法和基于TextRank关键词抽取算法,两类算法均是无监督学习的算法,本篇文章将来学习基于TF-IDF算法的关键词抽取。

    2、TF-IDF算法原理

    TF-IDF是在信息检索理论中Term Frequency - Inverse Document Frequency的简写,它是一种数值统计,用于反映一个词对于语料中某篇文档的重要性。在信息检索和文本挖掘领域,它经常用于因子加权。
     TF-IDF的基本公式: TF-IDF = TF * IDF,TF-IDF在实际中主要是将二者相乘,也即TF * IDF,TF为词频表示词t在文档d中出现的频率;IDF为反文档频率表示语料库中包含词t的文档的数目的倒数。
     由公式可知:一个词在文档中出现的次数越多,其TF值就越大,整个语料库中包含某个词的文档数越少,则IDF值越大,因此某个词的TF-IDF值越大,则认为这个词具有很好的类别区分能力,关键词的概率越大。

    TF-IDF的基本思想是: 词语的重要性与它在文件中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。

    一个文档中多次出现的词总是有一定的特殊意义,但是并不是所有多次出现的词就都是有意义的,如果一个词在所有的文档中都多次出现,那么这个词就没有什么价值了。或者说,如果某个词或者短语在一个文档中出现多次,但是在其他文档中很少出现,就可以认为这个词或短语具有很好的区分性,适合用来对文档进行分类。

    TF-IDF算法步骤:

    第一步:计算词频(词频是一个词在文章中出现的次数)考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。
    词 频 ( T F ) = 某 个 词 在 文 章 中 出 现 的 次 数 文 章 的 总 词 数 词频(TF)= \frac{某个词在文章中出现的次数}{文章的总词数} TF=
    第二步:计算逆文档频率

    这时,需要一个语料库(corpus),用来模拟语言的使用环境。
    逆 文 档 频 率 ( I D F ) = l o g 语 料 库 的 文 档 总 数 包 含 该 词 的 文 档 数 + 1 逆文档频率(IDF)= log\frac{语料库的文档总数}{包含该词的文档数+1} IDF=log+1
      如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

    第三步:计算TF-IDF
    T F − I D F = 词 频 ( T F ) × 逆 文 档 频 率 ( I D F ) TF-IDF= 词频(TF)\times逆文档频率(IDF) TFIDF=TF×IDF
      可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。
    TF-IDF的优点是: 简单快速,而且容易理解。
    TF-IDF的缺点是: 1、为了精确的提取一篇文档中的关键词,需要有一整个语料库来提供支持。这个问题的解决方法,通常是在一个通用的语料库上提前计算好所有词的IDF值,jieba就是这么做的。这样的解决方案对于普通文档关键词提取有一定的效果,但是对于专业性稍微强一点的文档,表现就会差很多。2、有时候用词频来衡量文章中的一个词的重要性不够全面,有时候重要的词出现的可能不够多,而且这种计算无法体现位置信息,无法体现词在上下文的重要性。如果要体现词的上下文结构,那么你可能需要使用word2vec算法来支持。

    3、编程实例
     jieba分词中已经对TF-IDF进行了实现,并预先统计出了汉语中每个词的逆文档频率(IDF),我的存储目录为D:\Python\anaconda\Lib\site-packages\jieba\analyse\idf.txt
    jieba默认使用以上路径的IDF词典,并计算输入文档的TF(文本词频)值,进而求出TF-IDF提取关键词。

    在jieba的TF-IDF模型里面,当调用获取关键词的函数 jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) 的时候,该函数会调用默认的IDF语料库。
    其中:

    sentence :为待提取的文本
    topK: 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
    withWeight :为是否一并返回关键词权重值,默认值为 False
    allowPOS : 仅包括指定词性的词,默认值为空,即不筛选
     当然,我们也可以自定义语料库,通过IDF计算公式去对词语逐个的计算,生成自定义语料库,通过 analyse.set_idf_path(‘自定义语料库路径’) 指定语料库,再通过 tfidf(需要处理的文本) 语句进行关键词提取。在线语料库可自行选择;语料库链接;代码如下:

    import jieba
    from jieba.analyse import *
    
    def stopwordslist(filepath):    # 定义函数创建停用词列表
        stopword = [line.strip() for line in open(filepath, 'r').readlines()]    #以行的形式读取停用词表,同时转换为列表
        return stopword
    
    filepath = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/stop_words.txt'            
    stopwordslist(filepath)  #调用函数
    
    contents = '据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有 5000 余米长卷需要修复,'
    contents += '而国图从事古籍修复的专业人员不过10人;各地图书馆、 博物馆收藏的古籍文献共计 3000万 册,残损情况也相当严重,'
    contents += '亟待抢救性修复,但全国的古籍修复人才总共还不足百人。'
    contents += '以这样少的人数去完成如此浩大的修复工程, 即使夜以继日地工作也需要近千年。'
    print('\n【原文本:】'+'\n'+contents)    
    
    content1 = contents.replace(' ','')     # 去掉文本中的空格
    print('\n【去除空格后的文本:】'+'\n'+content1)
                
    pattern = re.compile("[^\u4e00-\u9fa5]")    #只保留中文
    content2= re.sub(pattern,'',content1)      #把文本中匹配到的字符替换成空字符
    print('\n【去除符号后的文本:】'+'\n'+ content2)
    
    jieba.suggest_freq(('百人'),tune=True)
    jieba.suggest_freq(('这样少'),tune=True)
    cutwords = jieba.lcut(content2)    #精确模式分词
    print ('\n【精确模式分词后:】'+ '\n'+"/".join(cutwords))
            
    stopwords = stopwordslist(filepath)     # 这里加载停用词的路径
    words = ''
    for word in cutwords:     #for循环遍历分词后的每个词语
        if word not in stopwords:     #判断分词后的词语是否在停用词表内
            if word != '\t':
                words += word
                words += "/"
    print('\n【去除停用词后的分词:】'+ '\n'+ words +'\n' )
    
    keywords = jieba.analyse.extract_tags(words,topK = 10, withWeight = True)   #使用结巴默认的idf文件进行关键词提取,展示权重前十的关键词
    #或者使用keywords = tfidf(words,topK = 10, withWeight = True) 
    print('【TF-IDF提取的关键词列表:】')        
    print(keywords)   #采用默认idf文件提取的关键词
    
    展开全文
  • Java语言中static关键词应用解析.pdf
  • 运用正则获取百度搜索结果,可以快速还原百度重定向链接,可以设置日期、关键字过滤。
  • 关键词提取技术介绍 常用的关键词提取算法详解 文本关键词提取实战 5.1 关键词提取技术概述 有监督 主要通过分类的方式进行,通过构建一个丰富和完善的词表,然后通过判断每个文档与词表中每个文档与词表中每个...

    大纲

    • 关键词提取技术介绍
    • 常用的关键词提取算法详解
    • 文本关键词提取实战

    5.1 关键词提取技术概述

    • 有监督

      主要通过分类的方式进行,通过构建一个丰富和完善的词表,然后通过判断每个文档与词表中每个文档与词表中每个词的匹配程度,以类似打标签的方式,从而达到关键词提取的效果。能够获得较高精度,但是需要大批量的标注数据,人工成本较高;

    • 无监督

      不需人工生成、维护的词表,也不需要人工标注语料辅助进行训练,主要有TF-IDF算法、TextRank算法和主题模型算法(LSA、LSI、LDA等);


    5.2 关键词提取算法TF-IDF

    • TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频次算法):基于统计的计算方法,常用于评估一个文档集中一个词对某份文档的重要程度。TF算法统计一个词在一篇文档中出现的频次,基本思想为:一个词在文档中出现的词数越多,则对文档的表达能力也越强。IDF算法统计一个词在文档集中的多少个文档中出现,基本思想为:若一个词在越少的文档中出现,则对文档的区分能力越强;

    t f i j = n i j ∑ k n k j tf_{ij}=\frac{n_{ij}}{\sum _k n_{kj}} tfij=knkjnij

    i d f i = l o g ( ∣ D ∣ 1 + ∣ D i ∣ ) idf_i=log(\frac{|D|}{1+|D_i|}) idfi=log(1+DiD)

    t f − i d f ( i , j ) = t f i j × i d f i = n i j ∑ k n k j × l o g ( ∣ D ∣ 1 + ∣ D i ∣ ) tf-idf(i,j) = tf_{ij} \times idf_i = \frac{n_{ij}}{\sum _k n_{kj}} \times log(\frac{|D|}{1+|D_i|}) tfidf(i,j)=tfij×idfi=knkjnij×log(1+DiD)

    ∣ D ∣ |D| D为文档集中总文档树, ∣ D i ∣ |D_i| Di是文档集中出现词 i i i的文档数量,而分母 + 1 +1 +1则是采用拉普拉斯平滑,避免有部分新词在语料库中未出现而导致分母为零的情况;


    5.3 TextRank算法

    • TextRank算法可以脱离语料库,仅对单篇文档进行分析从而提取该文档的关键词,最早用于文档自动摘要,基于句子维度的分析,利用TextRank对每个句子进行打分,挑出分数最高的 n n n个句子作为文档的关键句,从而达到自动摘要的效果,基本思想源于PageRank算法;

    • PageRank

    PageRank算法计算示意图

    S ( V i ) = ( 1 − d ) + d × ∑ j ∈ l n ( V j ) ( 1 ∣ O u t ( V j ) ∣ × S ( V j ) ) S(V_i)=(1-d)+d\times \sum_{j \in ln(V_j)}(\frac {1}{|Out(V_j)|}\times S(V_j)) S(Vi)=(1d)+d×jln(Vj)(Out(Vj)1×S(Vj))

    1. 基本思想

      • 链接数量
      • 链接质量
    • TextRank

    W S ( V i ) = ( 1 − d ) + d × ∑ V j ∈ l n ( V i ) ( w j i ∑ V k ∈ O u t ( V j ) w j k × W S ( V j ) ) WS(V_i)=(1-d)+d \times \sum_{V_j \in ln(V_i)}(\frac {w_{ji}}{\sum_{V_{k \in Out(V_j)_{w_{jk}}}}}\times WS(V_j)) WS(Vi)=(1d)+d×Vjln(Vi)(VkOut(Vj)wjkwji×WS(Vj))

    PageRank是有向无权图,而TextRank进行自动摘要则是有权图。当TextRank应用到关键词提取时,与自动摘要中主要有两点不同:

    	1. 词与词之间的关联无权重
    	2. 每个词不是与文档中所有词都有链接
    

    由于第1点,故TextRank中的分数计算公式就变为PageRank一直,通过将得分平均贡献给每个链接的词:

    W S ( V i ) = ( 1 − d ) + d × ∑ j ∈ l n ( V i ) ( 1 ∣ O u t ( V j ) ∣ × W S ( V j ) ) WS(V_i)=(1-d)+d \times \sum_{j \in ln(V_i)}(\frac {1}{|Out(V_j)|}\times WS(V_j)) WS(Vi)=(1d)+d×jln(Vi)(Out(Vj)1×WS(Vj))


    5.4 LSA/LSI/LDA算法

    • LSA/LSI算法

      • LSA(Latent Semantic Analysis,潜在语义分析)主要利用SVD(奇异值分解)的方法进行暴力破解,和LSI(Latent Semantic Index,潜在语义索引)通常被认为是同一种算法,只有应用场景略有不同;

      • LSA的主要步骤:

        1. 使用BOW模型将每个文档表示为向量;
        2. 将所有的文档词向量拼接构成词-文档矩阵( m × n m\times n m×n);
        3. 对词-文档矩阵进行SVD操作( [ m × r ] ⋅ [ r × r ] ⋅ [ r × n ] [m \times r]\cdot[r\times r]\cdot[r\times n] [m×r][r×r][r×n]);
        4. 根据SVD的结果,将词-文档矩阵进行奇异值分解到更低维度 k k k [ m × k ] ⋅ [ k × k ] ⋅ [ k × n ] , 0 < k < r [m \times k]\cdot[k\times k]\cdot[k\times n],0<k<r [m×k][k×k][k×n],0<k<r)的近似SVD结果中,每个词和文档均可表示为 k k k个主题构成的空间中的一个点,通过计算每个词和文档的相似度(余弦相似度或KL相似度),然后得到每个文档中对每个词的相似度结果,取相似度最高的一个词即为文档关键词;
      • 优点:可映射到低维空间,在有限利用文本语义信息的同时,大幅度降低计算代价,提高分析质量;

      • 缺点:SVD计算复杂度非常高,特征空间维度较大,因此计算效率十分低下。同时,LSA对词的频率分布不敏感,物理解释性薄弱;

    • LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)算法

      • 定义:基于贝叶斯理论,根据对词的共现信息的分析,你和出词-文档-主题的分布,进而将词、文本都映射到一个语义空间中;

      • 结合吉布斯采样的LDA模型函数训练过程:

        • 随机初始化,对每篇文档中的每个词 w w w,随机赋予一个topic编号 z z z;
        • 重新扫描语料库,对每个词 w w w按吉布斯采样公式重新采样其topic,然后在语料中进行更新;
        • 重复上述语料库的重采样过程指导吉布斯采样收敛;
        • 统计语料库中topic-word贡献频率矩阵,即为LDA模型;

    5.5 实战提取文本关键词

    • 训练关键词提取算法的几个步骤

      • 加载已有文档数据集;
      • 加载停用词表;
      • 对数据集中的文档进行分词;
      • 根据停用词表,过滤干扰词;
      • 根据数据集训练算法;
    • 利用训练好额算法对新文档进行关键词提取的环节:

      • 对新文档进行分词;
      • 根据停用词表,过滤干扰词;
      • 根据训练好的算法提取关键词;
    • 实现代码

    
    
    展开全文
  • 蒙古文历史文献图像关键词识别的视觉语言模型
  • 汉英跨语言检索系统中关键词提取方法的研究,陈文君,於文雪,本文设计与实现了基于语句的汉英跨语言检索系统的关键词提取模块,关键词提取模块包括中文关键词提取和翻译转换两部分,此模块为��
  • 零基础Python人工智能自然语言处理文本挖掘关键词提取:零基础入门学习自然语言处理,自然语言处理基本流程,文本挖掘基本处理流程,anaconda对Python项目多包多环境多版本管理,关键词提取算法TF-IDF/TextRank算法...
  • 语言:中文 (简体) 速卖通长尾关键词采集,关键词销量统计, 关键词热度获取 速卖通长尾关键词采集 1. 一键拉取速卖通用户习惯的长尾关键词 2. 关键词搜索页的销量统计 3. 词频统计 4.关键词热度统计 5.关键词商品...
  • 自然语言处理之——关键词提取(一)

    千次阅读 2022-01-25 11:43:47
    在现实的常用文本中是不包含关键词的,所以自动提取关键词技术有着很重要的意义。 二.关键字提取技术概述 在巨量的信息面前,很多信息是我们无法全面接收,因此我们需要从中筛选出一些我们感兴趣的或者有代表性的...
  • Java 实现的自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 自动摘要 短语提取 拼音 简繁转换。.zip,自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 新词发现 关键词短语提取 ...
  • facebook语言If you want to improve your language skills through immersive practice or add an additional language to Facebook, the social media platform provides in-depth language and region settings ...
  • 利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。
  • 为了解决在自然语言人机交互中,自然语言的多样性和歧义性造成的自然语言解析难题,设计出一种基于自然语言关键词的人机交互方法,使得非专业人士也能通过浅显易懂的自然语言协调移动机器人的运动。这种方法的大致...
  • 功能就是调数据并回复给用户,需要用户发送给公众号一个关键词,通过关键词自动回复消息。 这时就是查询微信公众平台文档了,地址如下: 文档 按照它的入门指南,我基本上了解了用户给公众号发送消息的一个机制,...
  • 对于给定文本库,用户提交检索关键词(例如: NBA, basket, ball),在文本库中查询与检索关键词最相关的 k 个文本(例如 k=5),并根据文本与检索关键词的相关度,对这 k 个文本进行排序,将排序后的结果返回给用户...
  • 2021百度批量关键词网址采集工具E用语言源码下载
  • 自然语言处理系列篇——关键词智能提取:https://zhuanlan.zhihu.com/p/25889937
  • 关键词提取方法.py

    2019-05-20 23:59:18
    自然语言处理,关键词提取,机器学习,人工智能,深度学习
  • 易语言超级列表框多关键词筛选源码,超级列表框多关键词筛选,备份表项,恢复表项
  • 抛开语言模型的思维约束,只看模型本身,我们就会发现,Word2Vec的两个模型 —— CBOW和Skip-Gram —— 实际上大有用途,它们从不同角度来描述了周围词与当前词的关系,而很多基本的NLP任务,都是建立在这个关系之上...
  • 一本硕士论文,比较完整的介绍了新闻报道中关键词抽取的方法,并对不同的算法在一些公开和自建的数据集上做了对比分析。文件格式是caj的,需要在知网下载相应的阅读器安装即可

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 170,498
精华内容 68,199
关键字:

关键词语言