精华内容
下载资源
问答
  • 数据挖掘关键词提取)学习总结 参考文献: [1]胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(03):45-59. [2]刘学颖. 无监督的专利文本关键词提取研究[D].重庆邮电大学,2020. 参考书目: ...

    数据挖掘(关键词提取)学习总结
    参考文献:
    [1]胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(03):45-59.
    [2]刘学颖. 无监督的专利文本关键词提取研究[D].重庆邮电大学,2020.
    参考书目:
    大数据分析与挖掘,石胜飞编著,人民邮电出版社
    一、数据挖掘基础
    1.数据挖掘的一般步骤
    首先是确定数据挖掘的任务目标,进行需求分析,明确分析目标,了解有关先验知识和最终目标。接着是对目标数据集的提取,根据前一阶段确定的数据挖掘的目标,从所有相关数据中抽取数据集,并选择所有数据属性中最相关的数据属性子集。然后对提取的数据集进行数据预处理,包括数据清洗、数据转换、数据集成、数据约减等操作,能够提高数据挖掘使用数据的质量,从而提高数据挖掘的效率。使用数据挖掘技术,分析数据集,建立出适当的模型。对挖掘出的模型进行解释评估,实现模型的可视化,易于人们理解,同时筛选出真正有用的模型。最后,将挖掘出的知识进行部署,在实际应用中发挥作用。
    2.数据挖掘的功能
    数据挖掘的主要功能包括:对数据的统计分析与特征描述,主要是对数据本质特征的刻画。关联规则挖掘和相关性分析,典型的示例是在购物过程中,有些商品被同时购买。分类和回归,分类是通过对已经标识的训练数据集进行分析,建立分类模型,使用这个模型对未标示数据集进行分类。回归时对数值型函数进行建模,用于数值预测。聚类分析,直接对未标示数据集进行处理,使得聚类间相似度最小,聚类内相似度最大,一个聚类代表一个类别,从而产生分类。异常检测或者离群点分析,使用距离度量或者统计测试,获取与任何聚类距离都远的离群点,可以用于异常的检测。
    3.数据挖掘工具
    Sklearn(Python第三方库)、Spark ML(Spark机器学习库)、MLS(华为云的机器学习服务)
    二、数据特征分析:
    1.数据类型
    数据集类型,包过结构化(存储在关系型数据库中)、半结构化(XML文档和JSON数据)和非结构化(文档、音频、图像和视频等)。数据属性的类型,标称属性(用于识别和分类的枚举类型属性,不具有顺序和比较关系,如颜色)、序数属性(具有顺序关系,如大小、高低等)、数值属性(分为区间标度和比率标度,两者都表现为具体数值,后者可以进行加减乘除运算)。
    2.数据的描述性特征
    描述数据集中趋势,包括平均数、中位数、众数、K百分位数、四分位数。
    描述数据离散趋势,包括极差、四分位数极差、平均绝对离差、方差和标准差、离散系数。
    3.数据分布形态:
    偏态分布,是指数据的频数分布不对称,使用偏态系数作为偏度的指标。峰度用于衡量数据分布的平坦度。通过一个数据集的偏度和峰度,估计数据分度和正态分布的差异,可以大致掌握数据的集中和离散程度,增加对数据的理解。
    4.数据相关分析
    使用相关分析,可以反映出数据在多个属性之间的关联,常用方法有,散点图、相关系数(用于数值属性),卡方检验(用于标称属性)。
    5.数据预处理
    进行数据挖掘之前,对原始数据进行清洗、集成、转换和归约,使数据满足一定的规范和标准。只要包括,数据变换、离散化与编码,数据抽样,主成分分析,数据清洗。
    三、聚类算法
    聚类分析的基本思想是,根据数据间的相似程度,将其分为若干组,组内相似度尽可能大,组间相似度尽可能小,一个组称为一个聚类(簇)。聚类内部数据对象之间的相似度(距离)度量十分重要。距离度量有很多种,常见的有欧氏距离、曼哈顿距离、切比雪夫距离、余弦相似度、汉明距离和斜交空间距离等。
    根据数据类型、目的和具体应用聚类算法也分为很多类,常见的基于划分的聚类算法,K均值算法,基本思想是随机选取K个点作为初始聚类中心,计算各个对象距离聚类中心的距离,将其划分到最近的聚类中。计算新的聚类中心,相邻两次的聚类中心没有变化,认为聚类准则函数已收敛,算法结束。针对K均值算法的不足,进行改进,产生了一些其他算法,包括二分K均值算法(所有点作为一个簇,然后一分为二,选择其中一个簇继续划分)、小批量K均值算法(抽取一部分样本作为代表进行聚类),K均值++(选择距离已有聚类中心较远的点作为新的聚类中心)算法等等。
    四、《关键词提取研究综述-胡少虎》
    1.无监督关键词抽取方法的一般模式
    在这里插入图片描述

    图1. 无监督方法一般模式
    文本预处理,将文本切成较小粒度,并去除主题关联不大的词汇,主要包括分词和去停用词。
    确定候选词集,筛选出可能是关键词的词汇,方法包括,基于N-gram选择出现频率较高的词汇,基于外部资源选择有价值单词,基于TF-IDF、词性、所处位置进行筛选。
    候选词排序,通过一系列指标对候选词的重要程度进行量化,将排序先后作为依据筛选关键词。
    评估,获取关键词后对提取效果进行评估。
    1.1基于简单统计的方法
    对候选词的一些特定指标进行统计,然后根据统计的 结果将候选词进行排序。分为两类,第一类包括以 N-gram、TF-IDF、词频、词共现等为代表的用以评价单词在文档中重要程度的指标,但是这类指标忽略了单词自身的属性。第二类使用单词的词性、在文档中出现的位置等指标为单词设置不同的权重。基于简单统计的方法的优势在于简单易用,计算量低。缺点在于适用性较差,准确率不高。
    1.2基于图的方法
    主要的思想是将文档中的候选词视为一个个节点然后按照一定的规则建立节点间的联系,最后通过计算每个节点的权重为其排序从而得到文档的关键词。关键的三个要素是:节点,节点之间的连接规则,节点间权重计算方法。基于统计的方法,TextRank在同个文本窗口出现的词之间建立边,赋予节点相同的初值,运行PageRank算法直至收敛。基于外部资源的方法,构建词图的时候利用与目标文档相近的文档辅助。基于主题的方法,将候选词按照不同的主题进行划分,然后选择各个主题中的中心词作为文档的关键词。
    1.3基于语言模型的方法
    N-gram 模型在非监督的基于语言模型的方法中有着重要的地位,同时在目标文档与背景文档中分别使用 bigram 与 N-gram 构建四个语言模型,然后通过 KL 散度来计算模型间的信息损失,单词的信息量可以用其在不同模型上的差异表示,最后按照每个短语的词组性与信息量来筛选关键词。主要思想是,包含信息越多的候选词就越可能是关键词。
    2.有监督的关键词抽取的一般模式
    在这里插入图片描述

    图2. 关键词分类一般模式
    与无监督相比,主要区别在于需要构建数据集。
    五、《无监督的专利文本关键词提取研究_刘学颖》
    1.LDA主题模型
    在这里插入图片描述

    图3. LDA主题模型
    α和η都为 Dirichlet 分布的超参数,β表示该文本的第k 个主题下的全部词汇的分布情况,θ为文本的主题分布, w 为文档的词, z 为 w 所对应的主题。依据该文本中候选关键词与主题的近似程度对候选关键词进行排序,同时选择排序靠前的n 个候选关键词作为该文本的关键词。
    2.BILSTM-CRF 模型
    在这里插入图片描述

    图4. BILSTM-CRF 模型
    BILSTM-CRF 模型通过双向 LSTM 获取过去的信息和将来的信息,同时结合CRF 层信息,三者可共同对当前的标签信息进行预测,进而实现对当前序列的标注。
    3.词句嵌入
    词嵌入通过将词和语句与事先约定的实数向量进行一一匹配,实现将全部词、语句等词汇数量的高维空间映射到连续、低维的实数向量空间中。引申出文本嵌入,使用了加权法对嵌入词模型进行优化后,空间向量中是存在可以表示文本的分布式嵌入的向量的。
    4.基于专利要素约束的文本嵌入关键词提取算法
    在这里插入图片描述

    图5. 基于专利要素约束的文本嵌入关键词提取算法框架
    步骤:
    文本预处理,包括分词、去停用词。
    专利要素生成,采用BILSTM-CRF 模型对专利要素进行识别。
    候选词生成,将半结构化词语集合和专利要素集进行编码,通过专利要素监督选择半结构化词语集合中与专利要素相关的语义信息,从而得到候选关键词集。
    候选词排序,将候选关键词以及专利文本本身量化到同一向量空间,以计算候选关键词之间、候选关键词与文本之间的余弦相似度,并以此为候选关键词的排序依据。
    5.基于专利要素的改进主题模型关键词提取算法
    在这里插入图片描述

    图6. 改进算法流程框架
    步骤:
    利用 BILSTM-CRF 模型算法提取专利文本的专利要素,利用 LDA 主题模型提取专利文本的候选关键词,以专利要素和候选关键词为处理对象,使用波达法则进行专利文本关键词提取。采用两种方法对关键词集进行排名,一种方法认为候选关键词集和专利要素词集相重合的词语其权重值较高,最终关键词集将这类重合的词语进行收集,剩下的词语根据波达计数法来进行排序计算,另一种方法将候选关键词集和专利要素词集去重,所有词语均通过 Borda 计数法进行排序计算选取关键词集。

    展开全文
  • 数据挖掘之提取关键词

    千次阅读 2017-10-06 12:12:06
    关键词关键词 快速了解文档内容、把握主题的重要方式。 广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档 一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要 一个简单的关键词...

    关键词

    关键词

    • 快速了解文档内容、把握主题的重要方式。
    • 广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档
    • 一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要

    一个简单的关键词提取举例

    • 使用jieba包中的extract_tags方法
    展开全文
  • 精品文档可编辑 值得下载 基于云计算的web数据挖掘 摘 要 计算机技术的快速发展对经济的发展...关键词云计算 web数据挖掘 在信息时代计算机技术的快速发展对整个经济的发展具有重要的作用如今的计算机互联网是人们交流
  • 傲杰关键词工具,主要用于在搜索引擎中挖掘关键词,产品是国内首款真正实现即时查询百度指数的辅助工具,可直观显示关键词60天内指数信息的数据视图。拥有数据视图、对手分析
  • 这些都是数据剖析得来的,那么关键词发掘真正是怎么一回事呢?那么下面来跟我们分享关键词如何去发掘。 一、关键词剖析 关键词分类:中心词和需求词 网站中心词是一个网站定位的最基本的办法,中心词确认决议了你网站...

    随着互联网越来越庞大,有接触过网站优化的专员觉得发掘关键词是很简单,可是有多少真正懂网站优化呢? 发掘关键词是依据用户的需求,而不是随意的添加几个关键词就行了。这些都是数据剖析得来的,那么关键词发掘真正是怎么一回事呢?那么下面来跟我们分享关键词如何去发掘。 一、关键词剖析 关键词分类:中心词和需求词 网站中心词是一个网站定位的最基本的办法,中心词确认决议了你网站类型 需求词:同时需求词又分为作用、类别(类别有可分为同级词和包含词)、细分、常识。 那么关键词的分类要哦满意什么要求呢? 1.按重要性的排序(决议用户的需求) 2.需求的满意程度 3.职业的细分 4.转换率的计算 5.按关键的分类 二、职业需求剖析 1.刚性需求:即消费需求(例如产品的价格,质量,好看程度等) 2.柔性需求:即强调的是人的观念(例如星座网站,你查找一个星座,你有或许还想了解这个星座的运势,性情,恋人等等) 3.关联性需求:a、显性需求:比较清晰目的,b、隐形需求:即用户或许需求的东西 三、百度数据剖析 1.贴吧(互动需求) 2.知道(问答需求) 3.文库(材料需求) 4.图片(图片需求) 5.地图(寻址需求) 四、关键词的发掘 1.官方来源 a.下拉框数据 b.相关查找数据 c.现在排名数据 d.百度指数数据 e.相关内容引荐 f.经过其他查找引擎,注意的是咱们要从多个词去剖析 2、发掘东西 a.金花东西 b.推行帮手 c.词库网 d.追词帮手 好啦~发掘关键词的办法很多,在此提醒我们:经过这些东西进行关键词发掘不是每个关键词都合适你网站的,把哪些没有价值或者不相关的词进行删去,筛选下来的关键词用word文档或者是txt文档进行存档,看看哪些词是符合自己网站的。

    展开全文
  • 品牌女装关键词挖掘

    2017-06-24 19:58:24
    品牌女装关键词挖掘,移动,百度数据
  • 考虑到影视评论数据量较大,因此采用Spark处理框架。关键词提取的处理主要包含分词+算法抽取两部分。目前分词工具包较为主流的,包括哈工大的LTP以及HanLP,而关键词的抽取算法较多,包括TF-IDF、TextRank、互信息等...
    1. 背景
      近日项目要求基于爬取的影视评论信息,抽取影视的关键字信息。考虑到影视评论数据量较大,因此采用Spark处理框架。关键词提取的处理主要包含分词+算法抽取两部分。目前分词工具包较为主流的,包括哈工大的LTP以及HanLP,而关键词的抽取算法较多,包括TF-IDF、TextRank、互信息等。本次任务主要基于LTP、HanLP、Ac双数组进行分词,采用TextRank、互信息以及TF-IDF结合的方式进行关键词抽取。

    说明:本项目刚开始接触,因此效果层面需迭代调优。

    1. 技术选型
      (1) 词典
    1. 基于HanLP项目提供的词典数据,具体可参见HanLP的github。

    2. 考虑到影视的垂直领域特性,引入腾讯的嵌入的汉语词,参考该地址。

    (2) 分词

    1. LTP分词服务:基于Docker Swarm部署多副本集服务,通过HTTP协议请求,获取分词结果(部署方法可百度); 也可以直接在本地加载,放在内存中调用,效率更高(未尝试)

    2. AC双数组:基于AC双数组,采用最长匹配串,采用HanLP中的AC双数组分词器

    (3) 抽取

    1. 经典的TF-IDF:基于词频统计实现

    2. TextRank:借鉴于PageRank算法,基于HanLP提供的接口

    3. 互信息:基于HanLP提供的接口

    1. 实现代码
      (1) 代码结构
    1. 代码将分词服务进行函数封装,基于不同的名称,执行名称指定的分词

    2. TextRank、互信息、LTP、AC双数组等提取出分词或短语,最后均通过TF-IDF进行统计计算

    (2) 整体代码

    1. 主体代码:细节层面与下载的原始评论数据结构有关,因此无需过多关注,只需关注下主体流程即可

    View Code
    2) 基于HanLP提供的AC双数组封装

    View Code
    3) HanLP加载HDFS中的自定义词典

    View Code
    4. 采坑总结
    (1) Spark中实现HanLP自定义词典的加载

    由于引入腾讯的嵌入词,因此使用HanLP的自定义词典功能,参考的方法如下:

    a. 《基于hanLP的中文分词详解-MapReduce实现&自定义词典文件》,该方法适用于自定义词典的数量较少的情况,如果词典量较大,如腾讯嵌入词820W+,理论上jar包较为臃肿

    b. 《Spark中使用HanLP分词》,该方法的好处在于无需手工构件词典的bin文件,操作简单

    切记:如果想让自定义词典生效,需先将data/dictionary/custom中的bin文件删除。通过HanLP源码得知,如果存在bin文件,则直接加载该bin文件,否则会将custom中用户自定义的词典重新加载,在指定的环境中(如本地或HDFS)中自动生成bin文件。

    腾讯820W词典,基于HanLP生成bin文件的时间大概为30分钟。

    (2) Spark异常

    Spark执行过程中的异常信息:

    1. 异常1

    a. 异常信息:

    Job aborted due to stage failure: Total size of serialized results of 3979 tasks (1024.2 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

    b. 解决:通过设置spark.driver.maxResultSize=4G,参考:《Spark排错与优化》

    1. 异常2

    a. 异常信息:java.lang.OutOfMemoryError: Java heap space

    b. 解决:参考https://blog.csdn.net/guohecang/article/details/52088117

    文章来源于网络

    展开全文
  • 考虑到影视评论数据量较大,因此采用Spark处理框架。关键词提取的处理主要包含分词+算法抽取两部分。目前分词工具包较为主流的,包括哈工大的LTP以及HanLP,而关键词的抽取算法较多,包括TF-IDF、TextRank、互信息等...
  • 》一文中留言评论道文章内容在长尾关键词如何来挖掘方面说的不够详细,以及在“流量数据分析”等挖掘方法讲解的太过大条。那么,下面这篇文章就详细地讲解下挖掘长尾关键词的常见方法。 挖掘长尾关键词的方法有...
  • 数据挖掘中所需的概率论与数理统计知识

    万次阅读 多人点赞 2012-12-17 19:24:47
    数据挖掘中所需的概率论与数理统计知识  (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)   导言:本文从微积分相关概念,梳理到概率论与数理统计中的...
  • 紧接上篇的文档,这节学习关键字的提取,关键词——keyword,是人们快速了解文档内容,把握主题的重要内容。 #导入需要的模块 import os import codecs import pandas import jieba import jieba.analyse #搭建语料...
  • 精品文档可编辑 值得下载 数据仓库与数据挖掘技术在建筑施工企业管理中的应用 摘要新兴的数据仓库数据挖掘技术能够从...关键词数据仓库 数据挖掘技术 建筑施工 企业管理 中图分类号TU7文献标识码 A 目前建筑施工企业
  • 数据挖掘下的用户行为分析 摘要伴随我国网络信息化技术不断创新数据挖掘作为数据分析...关键词大数据数据挖掘用户行为 前言 数据挖掘应用是当下我国各行业重要应用技术之一具有较大的意义影响然而现阶段有关我国基于数
  • SEO关键词神 器,FTP扫站利器。功能强大,通过输入一个短词,即可获得一系列的长尾词,并且可以将查询到的结果导出为TXT文本文件,非常方便,已经不是纯抓百度相关词了。而是加入了有百度指数的长尾数据。让你流量...
  • 谈云计算平台下的物联网数据挖掘-数据挖掘论文-工业论文 文章均为WORD文档下载后可直接编辑使用亦可打印 摘要:数据挖掘是物联网技术的重要组成部分也是物联网产业在未来发展的推动力量阐述了云计算和物联网的定义对...
  • 熊猫关键词工具是一款基于百度,搜狗,360搜索,淘宝的长尾词挖掘软件。软件小巧好用,挖掘速度快,是站长日常必备软件。 熊猫关键词工具 更新日志: 2016.11.17 1.下线站长工具接口,新增阿里巴巴数据接口 2.修正...
  • 大大的提高了你的效率,你只需要在挖掘关键词的时候把选择项给勾上即可同时查询宝贝数量和关键词匹配的类目 4:挖掘出来的词不够怎么办?我们提供了二次挖掘 如果你感觉挖掘的词少,那么可以先挖掘好然后点击二次...
  • 数据挖掘对网络消费者隐私的影响分析 摘要网络安全隐私保护是互联网运用中不可避免的话题尤其是移动互联网智能手机移动支付等的发展促进了网络消费规模不断扩大随之而来...关键词数据挖掘网络消费隐私影响 1数据挖掘
  • 数据挖掘下的学生网络行为分析管理 摘要随着移动互联网和高校校园网的日趋完善大学生已成为网络社会最主要的社会群体之一网络已成为大学生校园生活和日常生活不可缺少的重要工具之一对高校学生网络行为进行分析管理...
  • 麒麟爱站关键词采集器超强三合一软件绝对是必备的功能,数据的统计、分析,同行站点关键词的分析等等,功能,操作简单,运行稳定。麒麟爱站关键词采集器三大功能:1、百度
  • 详细讨论了专利数据的特性,挖掘不同专利间的知识关联,针对某一知识领域构造背景知识库,在此基础上进行目标文本的关键词自动抽取。与目标文本相关的专利文集中每个专利的专利发明人、权利人、专利引用和分类信息都...
  • 淘宝关键词挖掘大师(淘宝关键词挖掘软件)是一款绿色免费的由数据学院官方制作的最强大的淘词挖掘神器。软件功能强大,可以同时查看最优类目和类目下的宝贝竞争数量,这样挖掘关键词之后就不需要在一个一个查询...
  • 抓取百度关键词相关关键词挖掘工具使用的前提就是需要本地或者线上连接MySQL数据框,还有就是需要有ip代理才可以使用。因为这个脚本依旧是使用Python写的,所以你的电脑或者服务器需要有Python的运行环境才可以。...
  • 关键词数据挖掘 数据集合 1. 引言 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着
  • SEO关键词挖掘工具

    2012-11-20 09:19:58
    现在关键词挖掘工具已经很多了,但是基本都大同小异。不是忽悠人的,就是盗用其他工具的数据,其实我们只要用好搜索引擎自带的工具就可以了,不需要再花费时间去找一个更好的分析长尾关键词的工具,更何况压根就...
  • 数据挖掘

    2007-04-27 17:52:00
     关键词数据挖掘 数据集合 1. 引言 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的
  • 金融数据挖掘与分析工程人才培养模式 摘要本文以河北金融学院为例探索了多学科交叉融合进行金融数据挖掘与分析工程人才的...关键词新工科多学科融合金融数据挖掘与分析 一建设背景 2017年2月复旦大学等30余所高校召开了
  • 6) 允许用户灵活控制实时查询模式下的关键词显示视图,如在挖掘关键词的同时,希望能看到关键词相关的百度指数,网页搜索量,而有的用户又可能只想看百度指数。基于这样的需求,软件能够让用户自定义视图的显示列。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 889
精华内容 355
关键字:

数据挖掘关键词