精华内容
下载资源
问答
  • 数据挖掘提取关键词

    千次阅读 2017-10-06 12:12:06
    关键词关键词 快速了解文档内容、把握主题的重要方式。 广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档 一篇文档的关键词一般是几...一个简单的关键词提取举例 使用jieba包中的extract_tags方法

    关键词

    关键词

    • 快速了解文档内容、把握主题的重要方式。
    • 广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档
    • 一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要

    一个简单的关键词提取举例

    • 使用jieba包中的extract_tags方法
    展开全文
  • 数据挖掘关键词提取)学习总结 参考文献: [1]胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(03):45-59. [2]刘学颖. 无监督的专利文本关键词提取研究[D].重庆邮电大学,2020. 参考书目: ...

    数据挖掘(关键词提取)学习总结
    参考文献:
    [1]胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(03):45-59.
    [2]刘学颖. 无监督的专利文本关键词提取研究[D].重庆邮电大学,2020.
    参考书目:
    大数据分析与挖掘,石胜飞编著,人民邮电出版社
    一、数据挖掘基础
    1.数据挖掘的一般步骤
    首先是确定数据挖掘的任务目标,进行需求分析,明确分析目标,了解有关先验知识和最终目标。接着是对目标数据集的提取,根据前一阶段确定的数据挖掘的目标,从所有相关数据中抽取数据集,并选择所有数据属性中最相关的数据属性子集。然后对提取的数据集进行数据预处理,包括数据清洗、数据转换、数据集成、数据约减等操作,能够提高数据挖掘使用数据的质量,从而提高数据挖掘的效率。使用数据挖掘技术,分析数据集,建立出适当的模型。对挖掘出的模型进行解释评估,实现模型的可视化,易于人们理解,同时筛选出真正有用的模型。最后,将挖掘出的知识进行部署,在实际应用中发挥作用。
    2.数据挖掘的功能
    数据挖掘的主要功能包括:对数据的统计分析与特征描述,主要是对数据本质特征的刻画。关联规则挖掘和相关性分析,典型的示例是在购物过程中,有些商品被同时购买。分类和回归,分类是通过对已经标识的训练数据集进行分析,建立分类模型,使用这个模型对未标示数据集进行分类。回归时对数值型函数进行建模,用于数值预测。聚类分析,直接对未标示数据集进行处理,使得聚类间相似度最小,聚类内相似度最大,一个聚类代表一个类别,从而产生分类。异常检测或者离群点分析,使用距离度量或者统计测试,获取与任何聚类距离都远的离群点,可以用于异常的检测。
    3.数据挖掘工具
    Sklearn(Python第三方库)、Spark ML(Spark机器学习库)、MLS(华为云的机器学习服务)
    二、数据特征分析:
    1.数据类型
    数据集类型,包过结构化(存储在关系型数据库中)、半结构化(XML文档和JSON数据)和非结构化(文档、音频、图像和视频等)。数据属性的类型,标称属性(用于识别和分类的枚举类型属性,不具有顺序和比较关系,如颜色)、序数属性(具有顺序关系,如大小、高低等)、数值属性(分为区间标度和比率标度,两者都表现为具体数值,后者可以进行加减乘除运算)。
    2.数据的描述性特征
    描述数据集中趋势,包括平均数、中位数、众数、K百分位数、四分位数。
    描述数据离散趋势,包括极差、四分位数极差、平均绝对离差、方差和标准差、离散系数。
    3.数据分布形态:
    偏态分布,是指数据的频数分布不对称,使用偏态系数作为偏度的指标。峰度用于衡量数据分布的平坦度。通过一个数据集的偏度和峰度,估计数据分度和正态分布的差异,可以大致掌握数据的集中和离散程度,增加对数据的理解。
    4.数据相关分析
    使用相关分析,可以反映出数据在多个属性之间的关联,常用方法有,散点图、相关系数(用于数值属性),卡方检验(用于标称属性)。
    5.数据预处理
    进行数据挖掘之前,对原始数据进行清洗、集成、转换和归约,使数据满足一定的规范和标准。只要包括,数据变换、离散化与编码,数据抽样,主成分分析,数据清洗。
    三、聚类算法
    聚类分析的基本思想是,根据数据间的相似程度,将其分为若干组,组内相似度尽可能大,组间相似度尽可能小,一个组称为一个聚类(簇)。聚类内部数据对象之间的相似度(距离)度量十分重要。距离度量有很多种,常见的有欧氏距离、曼哈顿距离、切比雪夫距离、余弦相似度、汉明距离和斜交空间距离等。
    根据数据类型、目的和具体应用聚类算法也分为很多类,常见的基于划分的聚类算法,K均值算法,基本思想是随机选取K个点作为初始聚类中心,计算各个对象距离聚类中心的距离,将其划分到最近的聚类中。计算新的聚类中心,相邻两次的聚类中心没有变化,认为聚类准则函数已收敛,算法结束。针对K均值算法的不足,进行改进,产生了一些其他算法,包括二分K均值算法(所有点作为一个簇,然后一分为二,选择其中一个簇继续划分)、小批量K均值算法(抽取一部分样本作为代表进行聚类),K均值++(选择距离已有聚类中心较远的点作为新的聚类中心)算法等等。
    四、《关键词提取研究综述-胡少虎》
    1.无监督关键词抽取方法的一般模式
    在这里插入图片描述

    图1. 无监督方法一般模式
    文本预处理,将文本切成较小粒度,并去除主题关联不大的词汇,主要包括分词和去停用词。
    确定候选词集,筛选出可能是关键词的词汇,方法包括,基于N-gram选择出现频率较高的词汇,基于外部资源选择有价值单词,基于TF-IDF、词性、所处位置进行筛选。
    候选词排序,通过一系列指标对候选词的重要程度进行量化,将排序先后作为依据筛选关键词。
    评估,获取关键词后对提取效果进行评估。
    1.1基于简单统计的方法
    对候选词的一些特定指标进行统计,然后根据统计的 结果将候选词进行排序。分为两类,第一类包括以 N-gram、TF-IDF、词频、词共现等为代表的用以评价单词在文档中重要程度的指标,但是这类指标忽略了单词自身的属性。第二类使用单词的词性、在文档中出现的位置等指标为单词设置不同的权重。基于简单统计的方法的优势在于简单易用,计算量低。缺点在于适用性较差,准确率不高。
    1.2基于图的方法
    主要的思想是将文档中的候选词视为一个个节点然后按照一定的规则建立节点间的联系,最后通过计算每个节点的权重为其排序从而得到文档的关键词。关键的三个要素是:节点,节点之间的连接规则,节点间权重计算方法。基于统计的方法,TextRank在同个文本窗口出现的词之间建立边,赋予节点相同的初值,运行PageRank算法直至收敛。基于外部资源的方法,构建词图的时候利用与目标文档相近的文档辅助。基于主题的方法,将候选词按照不同的主题进行划分,然后选择各个主题中的中心词作为文档的关键词。
    1.3基于语言模型的方法
    N-gram 模型在非监督的基于语言模型的方法中有着重要的地位,同时在目标文档与背景文档中分别使用 bigram 与 N-gram 构建四个语言模型,然后通过 KL 散度来计算模型间的信息损失,单词的信息量可以用其在不同模型上的差异表示,最后按照每个短语的词组性与信息量来筛选关键词。主要思想是,包含信息越多的候选词就越可能是关键词。
    2.有监督的关键词抽取的一般模式
    在这里插入图片描述

    图2. 关键词分类一般模式
    与无监督相比,主要区别在于需要构建数据集。
    五、《无监督的专利文本关键词提取研究_刘学颖》
    1.LDA主题模型
    在这里插入图片描述

    图3. LDA主题模型
    α和η都为 Dirichlet 分布的超参数,β表示该文本的第k 个主题下的全部词汇的分布情况,θ为文本的主题分布, w 为文档的词, z 为 w 所对应的主题。依据该文本中候选关键词与主题的近似程度对候选关键词进行排序,同时选择排序靠前的n 个候选关键词作为该文本的关键词。
    2.BILSTM-CRF 模型
    在这里插入图片描述

    图4. BILSTM-CRF 模型
    BILSTM-CRF 模型通过双向 LSTM 获取过去的信息和将来的信息,同时结合CRF 层信息,三者可共同对当前的标签信息进行预测,进而实现对当前序列的标注。
    3.词句嵌入
    词嵌入通过将词和语句与事先约定的实数向量进行一一匹配,实现将全部词、语句等词汇数量的高维空间映射到连续、低维的实数向量空间中。引申出文本嵌入,使用了加权法对嵌入词模型进行优化后,空间向量中是存在可以表示文本的分布式嵌入的向量的。
    4.基于专利要素约束的文本嵌入关键词提取算法
    在这里插入图片描述

    图5. 基于专利要素约束的文本嵌入关键词提取算法框架
    步骤:
    文本预处理,包括分词、去停用词。
    专利要素生成,采用BILSTM-CRF 模型对专利要素进行识别。
    候选词生成,将半结构化词语集合和专利要素集进行编码,通过专利要素监督选择半结构化词语集合中与专利要素相关的语义信息,从而得到候选关键词集。
    候选词排序,将候选关键词以及专利文本本身量化到同一向量空间,以计算候选关键词之间、候选关键词与文本之间的余弦相似度,并以此为候选关键词的排序依据。
    5.基于专利要素的改进主题模型关键词提取算法
    在这里插入图片描述

    图6. 改进算法流程框架
    步骤:
    利用 BILSTM-CRF 模型算法提取专利文本的专利要素,利用 LDA 主题模型提取专利文本的候选关键词,以专利要素和候选关键词为处理对象,使用波达法则进行专利文本关键词提取。采用两种方法对关键词集进行排名,一种方法认为候选关键词集和专利要素词集相重合的词语其权重值较高,最终关键词集将这类重合的词语进行收集,剩下的词语根据波达计数法来进行排序计算,另一种方法将候选关键词集和专利要素词集去重,所有词语均通过 Borda 计数法进行排序计算选取关键词集。

    展开全文
  • 紧接上篇的文档,这节学习关键字的提取关键词——keyword,是人们快速了解文档内容,把握主题的重要内容。 #导入需要的模块 import os import codecs import pandas import jieba import jieba.analyse #搭建语料...

    紧接上篇的文档,这节学习关键字的提取,关键词——keyword,是人们快速了解文档内容,把握主题的重要内容。

    #导入需要的模块
    import os
    import codecs
    import pandas
    import jieba
    import jieba.analyse
    #搭建语料库
    for root, dirs, files in os.walk(
        r"C:\Users\www12\Desktop\data\2.6\SogouC.mini\\Sample\\"
    ):
        for name in files:
            filePath = root + '\\' + name;
            f = codecs.open(filePath, 'r', 'utf-8')
            content = f.read().strip()
            f.close()#读取文件内容
            tags = jieba.analyse.extract_tags(content, topK=5)#获取每篇文本词频在前五的关键词
            filePaths.append(filePath)
            contents.append(content)
    

    关键字提取:
    tags = jieba.analyse.extract_tags(content, topK=n)
    参数: content:文章内容 topK=n:n个关键词

            tag1s.append(tags[0])#数组提取对应的关键词
            tag2s.append(tags[1])
            tag3s.append(tags[2])
            tag4s.append(tags[3])
            tag5s.append(tags[4])
    #关键词数组添加至数据框
    tagDF = pandas.DataFrame({
        'filePath': filePaths, 
        'content': contents, 
        'tag1': tag1s, 
        'tag2': tag2s, 
        'tag3': tag3s, 
        'tag4': tag4s, 
        'tag5': tag5s
    })
    

    提取完成,结果如图:
    在这里插入图片描述

    展开全文
  • TF-IDF算法自动提取关键词

    千次阅读 2018-03-27 18:59:21
    关键词提取可以是说是NLP中比较常见研究方向,这个涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域。但今天我们就了解一个简单的算法来提取关键词。 那么我们该如何实现计算机自动提取关键词呢? 让我们...

    前言

    关键词提取可以是说是NLP中比较常见研究方向,这个涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域。但今天我们就了解一个简单的算法来提取关键词。
    那么我们该如何实现计算机自动提取关键词呢?
    让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》,我们准备用计算机提取它的关键词。这里写图片描述
    一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行”词频”(Term Frequency,缩写为TF)统计。
    结果你肯定猜到了,出现次数最多的词是—-“的”、”是”、”在”—-这一类最常用的词。它们叫做”停用词”(stop words),表示对找到结果毫无帮助、必须过滤掉的词。
    假设我们把它们都过滤掉了,只考虑剩下的有实际意义的词。这样又会遇到了另一个问题,我们可能发现”中国”、”蜜蜂”、”养殖”这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?
    显然不是这样。因为”中国”是很常见的词,相对而言,”蜜蜂”和”养殖”不那么常见。如果这三个词在一篇文章的出现次数一样多,有理由认为,”蜜蜂”和”养殖”的重要程度要大于”中国”,也就是说,在关键词排序上面,”蜜蜂”和”养殖”应该排在”中国”的前面。
    所以,我们需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。

    用统计学语言表达,就是在词频的基础上,要对每个词分配一个”重要性”权重。最常见的词(”的”、”是”、”在”)给予最小的权重,较常见的词(”中国”)给予较小的权重,较少见的词(”蜜蜂”、”养殖”)给予较大的权重。这个权重叫做”逆文档频率”(Inverse Document Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。
    知道了”词频”(TF)和”逆文档频率”(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

    算法描述

    • 词频

      TF=词频(TF)=某个词在文章中出现的总次数文章总词数

      或者
      TF=词频(TF)=某个词在文章中出现的总次数该文出现词数最多的词的次数
    • 逆文档频率
      这时,需要一个语料库(corpus),用来模拟语言的使用环境。

      IDF=log(+1)逆文档频率(IDF)=log⁡(语聊库文档总数包含改词的文档数+1)

      如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。
    • 计算TF-IDF

      TFIDF=TFIDFTF−IDF=TF(词频)∗IDF(逆文档频率)

      可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

      还是以《中国的蜜蜂养殖》为例,假定该文长度为1000个词,”中国”、”蜜蜂”、”养殖”各出现20次,则这三个词的”词频”(TF)都为0.02。然后,搜索Google发现,包含”的”字的网页共有250亿张,假定这就是中文网页总数。
      包含”中国”的网页共有62.3亿张,包含”蜜蜂”的网页为0.484亿张,包含”养殖”的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF如下:
      这里写图片描述
      从上表可见,”蜜蜂”的TF-IDF值最高,”养殖”其次,”中国”最低。(如果还计算”的”字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,”蜜蜂”就是这篇文章的关键词。

      除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词(”中国”、”蜜蜂”、”养殖”)的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。

      TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以”词频”衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。

      而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)
      转自:https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247487350&idx=1&sn=2bdd51841b98f5954fca05c3b4fd7d6c&chksm=ebb437a2dcc3beb43a3e97fdf8dc184f127e2e7ff8a925e07f2c09d70983eb8268a46291a869&mpshare=1&scene=23&srcid=0327Y7vcl17bNea3Kz3jz1Ce#rd

    展开全文
  • 自然语言处理——TF-IDF算法提取关键词 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工...
  • TF-IDF与余弦相似性的应用(一):自动提取关键词 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工...
  • TF-IDF自动提取关键词

    千次阅读 2015-06-08 16:47:45
    这个标题看上去好像很复杂,...这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用1
  • 自然语言处理——TF-IDF算法提取关键词 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,...
  • 这个标题看上去好像很复杂,其实我要...这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通
  • TF-IDF:自动提取关键词

    2015-03-24 20:13:57
    这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,
  • 这个标题看上去好像很复杂...这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分
  • 这个标题看上去好像很...这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分...
  • jieba.analyse.extract_... –sentence 为待提取的文本 –topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 –withWeight 为是否一并返回关键词权重值,默认值为 False –allowPOS 仅包括指定词性的词...
  • pyhanlp关键词提取

    2021-01-12 10:49:47
    from pyhanlp import * # 关键词提取 # 自动下载相关数据包 document = "基于分线性大规模神经网络的数据深度挖掘技术" print(HanLP.extractKeyword(document, 10))

空空如也

空空如也

1 2 3 4 5 ... 11
收藏数 219
精华内容 87
热门标签
关键字:

数据挖掘提取关键词