精华内容
下载资源
问答
  • 文本挖掘

    2019-09-22 00:42:47
    文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、...

     文本挖掘

     

    1.      文本挖掘

    1.1.    什么是文本挖掘

    文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

    文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

     

    1.2.    文本挖掘有什么用

    1、文本分类

    文本分类是一种典型的机器学习方法,一般分为训练和分类两个阶段。文本分类一般采用统计方法或机器学习来实现。

     

    2、文本聚类

    文本聚类是一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。

    首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一类文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。

    文本挖掘中的聚类可用于:提供大规模文档内容总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。

     

    3、信息检索

    主要是利用计算机系统的快速计算能力,从海量文档中寻找用户需要的相关文档。

     

    4、信息抽取

    信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息。

     

    5、自动文摘

    利用计算机自动的从原始文档中提取出文档的主要内容。互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。

    自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。

    自动文摘具有以下特点:

    (1)自动文摘应能将原文的主题思想或中心内容自动提取出来。

    (2)文摘应具有概况性、客观性、可理解性和可读性。

    (3)可适用于任意领域。

    按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此目前大多用的是抽取生成法。

     

    6、自动问答

    自动问答是指对于用户提出的问题,计算机可以自动的从相关资料中求解答案并作出相应的回答。自动问答系统一般包括 3 个组成部分:问题分析、信息检索和答案抽取。

     

    7、机器翻译

    利用计算机将一种源语言转变为另一种源语言的过程。

     

    8、信息过滤

    指计算机系统可以自动的进行过滤操作,将满足条件的信息保留,将不满足条件的文档过滤掉。信息过滤技术主要用于信息安全领域。

     

    9、自动语音识别

    自动语音识别就是将输入计算机的自然语言转换成文本表示的书面语。

     

    1.3.    文本挖掘操作步骤

    1、获取文本

    现有数据导入,或者爬虫获取网络文本。

     

    2、文本预处理

    指剔除噪声文档以改进挖掘精度,或者在文档数量过多时仅选取一部分样本以提高挖掘效率。

    例如网页中存在很多不必要的信息,比如说一些广告,导航栏,html、js代码,注释等等并不需要的信息,可以删除掉。如果是需要正文提取,可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。

     

    3、文本的语言学处理

    (1)分词

    接下来的步骤就是分词。

    (2)词性标注

    同时也可以使用词性标注。通过很多分词工具分出来的出会出现一个词,外加该词的词性。比如说啊是语气助词。

     

    (3)去除停用词

    比如说句号、是、的等词,没有什么实际的意义。然而这些词在所有的文章中都大量存在,并不能反应出文本的意思,可以处理掉。当然针对不同的应用还有很多其他词性也是可以去掉的,比如形容词等。

     

    4、文本的数学处理-特征提取

    我们希望获取到的词汇,既能保留文本的信息,同时又能反映它们的相对重要性。如果对所有词语都保留,维度会特别高,矩阵将会变得特别稀疏,严重影响到挖掘结果。所以这就需要特征提取。

    特征选取的方式有4种:

    (1)用映射或变换的方法把原始特征变换为较少的新特征;

    (2)从原始特征中挑选出一些最具代表性的特征;

    (3)根据专家的知识挑选最有影响的特征;

    (4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。

     

    5、分类聚类

    经过上面的步骤之后,我们就可以把文本集转化成一个矩阵。我们能够利用各种算法进行挖掘,比如说如果要对文本集进行分类,分类常用的方法有:简单贝叶斯分类法,矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。

     

    聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻聚类法、分级聚类法等。

    6、数据可视化

    最后一步当然就是数据结构的可视化展示,通过合适的可视化图形生动形象展示,让读者听众更容易理解你所要表达的信息。

    文本可视化最常用的图形就是词云。

     

    四、文本挖掘工具

    1、python语言jieba、gensim、sklearn、WordCloud和matplotlib包

    2、R语言jieba、tm、tmcn、Rwordseg和wordcloud包

    3、SAS text miner

    4、SPSS Text Mining

     

    转载于:https://www.cnblogs.com/wodeboke-y/p/11562856.html

    展开全文
  • 文本挖掘调研

    千次阅读 2016-11-17 17:02:07
    一、文本挖掘定义 文本挖掘是指从大量...传统的信息检索技术对于海量数据的处理并不尽如人意, 文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。早先的信息抽取的例子是FR

    一、文本挖掘定义

    文本挖掘是指从大量文本的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出,那么文本挖掘的过程就是从输入到输出的一个映射f:C—p。是一个从文本信息中获取用户感兴趣或者有用的模式的过程。

    二、文本挖掘发展

    传统的信息检索技术对于海量数据的处理并不尽如人意, 文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。早先的信息抽取的例子是FRUMP项目,由 Gerald DeJong于1982年设计。这个系统包含了一系列脚本,这些脚本能够扫描新闻专线网络,处理新的存档,以期提供对于主题的事件描述。后来因为出现越来越多的非结构化文本资源,赫尔辛基大学将数据挖掘技术应用于文本资源。这个小组成功地运用数据库中的知识发现技术( KDD)。他们曾经发表了试图将数据挖掘技术直接应用于经过预处理的文本信息的论文。Feldman考虑使用信息抽取中最简单的形式来获取知识: 通过为一篇文本建立一个有意义的概念集合来看清概念的层次结构,从而在文本和概念之间挖掘他们的关系。这种方法主要应用领域就是文本分类。Etzioni着眼于将数据挖掘技术应用于互联网上大量的超文本资源。将数据挖掘技术应用于万维网上信息资源,并将该技术命名Web挖掘。近期 Soderlan在从互联网上抽取信息的方面作了许多工作,利用自然语言处理技术从不同的html 资源来解释天气预报。应该说万维网上的数据已经成为文本挖掘的重要研究方向。

    目前,以人工神经网络为代表的深度学习与表示学习大放异彩。以词表示学习算法和开源工具word2vec的发布和流行为标志,近年来词表示、句子表示、文档表示以及知识表示引起了自然语言处理研究者们的极大兴趣。很多工作采用了长短期记忆模型(LSTM)、递归神经网络(RNN)、卷积神经网络(CNN)等模型解决自然语言处理的各类任务:将LSTM用于中文分词、RNN和CNN结合应用于情感分析、将RNN应用于文档建模、将LSTM应用于关系分类。

    约书亚•本吉奥(YoshuaBengio)展望了未来几个重要研究趋势,:(1)将传统隐变量模型(Latent variable Models)同RNN等生成模型相结合;(2)探索考虑多时间粒度的神经网络模型,描绘长距离依赖关系;(3)多模态(将文本与图像,音频,视频等结合);(4)探索Neutral Turing Machine和Memory Network等基于记忆的神经网络模型;(5)问答和自然语言理解。

    三、文本挖掘的一般过程

    文本挖掘的主要处理过程是对大量文档集合的内容进行预处理、特征提取 、结构分析、文本摘要 、文本分类 、文本聚类 、关联分析等。

    四、具体技术分析

    1、关键技术初步了解:

    1)词法分析

    在中文全文检索系统中,词法分析主要表现在对文本信息进行词语切分,即中分自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。

    2)词性标注

    词性标注就是对给定的句子中的词进行词性确定并加以标注的过程。

    3) 句法分析

    句法分析的目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

    4) 语义分析

    语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。

    5) 语境分析

    语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。

    2、应用技术处理初步了解

    1) 信息检索

    主要是利用计算机系统的快速计算能力,从海量文档中寻找用户需要的相关文档。

    2) 信息抽取

    信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。

    3)自动文摘

    利用计算机自动的从原始文档中提取出文档的主要的内容,相当于摘要或者缩写。

    4)自动问答

    自动问答是指对于用户提出的问题,计算机可以自动的从相关资料中求解答案并作出相应的回答。自动问答系统一般包括 3 个组成部分:问题分析、信息检索和答案抽取。

    5)机器翻译

    利用计算机将一种源语言转变为另一种源语言的过程。

    6)信息过滤

    指计算机系统可以自动的进行过滤操作,将满足条件的信息保留,将不满足条件的文档过滤掉。信息过滤技术主要用于信息安全领域。

    7)自动语音识别

    自动语音识别就是将输入计算机的自然语言转换成文本表示的书面语。

    3、技术详解

    1)中文分词

    字标注方法已经成为中文分词研究中新的主流技术。要取得好的中文分词结果和性能,需要的要素有两个:1)给字做词位标注(character-basedtagging,简称 CT);2)一个类似于 CRF(Conditional Random Fields,条件随机场)或者MaxEnt(最大熵)的机器学习模型。

    CRFs: 条件随机场理论(CRFs)可以用于序列标记、数据分割、组块分析等自然语言处理任务中。在中文分词、中文人名识别、歧义消解等汉语自然语言处理任务中都有应用,表现很好。CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:1)分词(标注字的词位信息,由字构词);2)词性标注(标注分词的词性,例如:名词,动词,助词);3)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)

    基本思路是对汉字进行标注即由字构词(组词),不仅考虑了文字词语出现的频率信息,同时考虑上下文语境,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果;其不足之处是训练周期较长,运营时计算量较大,性能不如词典分词。

    CRF、HMM和MEMM对比如下:首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像分词、词性标注,以及命名实体标注。隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择。最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉。条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。

    CRF在词位标注中需注意的问题:字在一个词中的位置分为4类:词首B,词尾E,词中M,单字词S。从理论上讲,标注集越大,分词的效果应该会越好,但是计算负载也会越高。CRF 进行4词位标注的学习代价比2词位标注要高至少一倍。在中文分词后来的研究中,采用CRF模型的分词系统一般都用2词位标注。

    2)命名实体识别

    在命名实体识别的研究中,识别率较高的有人名、地名、音译名,正确率和召回率基本都在 85~95%之间;而机构名的正确率和召回率则相对较低,原因是机构名的构成没有明确的规则,比较复杂。

    目前对普通词语的研究方法主要有三种:基于统计、基于规则、统计与规则结合。基于统计的方法一般是通过统计词条的频率、位置信息及其它的构成信息来发现新词的。较为经典的方法有:互信息方法、独立词概率方法、决策数、支持向量机等。基于规则的方法主要是提取词的构成规则,利用相关信息构造构词模板,将符合模板信息的词条提取出来。

    基于统计的方法和基于规则的方法对比:基于统计的方法仅需要大量的训练语料库,与领域无关,并且该类方法容易实现,速度也很快,符合当前自然语言处理的发展趋势;但这类方法也有缺点,如需要大量训练文本,计算量大,准确率较低。基于规则的方法准确率高,针对性强,但需要建立规则库,总结规则费时费力,并且很难抽取出覆盖率足够大的规则;另外,规则具有较强的领域针对性,其灵活性和覆盖性较差。

    3)句法分析

    句法分析一直是自然语言处理的研究重点,也是制约自然语言处理研究进展的主要障碍。

    基于规则的方法以语言学理论为基础,主要依靠语言学家手工编写规则来描述语言的语法。通过这套语法规则,对于一个输入的文字串,可以推导出该文字串的语法结构。规则的方法强调语言学家对语言现象的认识,采用无歧义的语法规则描述或解释语言的歧义行为或歧义特性,语言学家认为所有人类语言的构造都是有层次的,层次结构可以用规则的形式表示出来,而规则的集合就是语法。

    规则方法的优点在于:可以最大限度地接近自然语言的句法习惯,可以被语言学家快速掌握;表达方式灵活多样,可以最大限度地表达研究人员的思想。但是,规则的获取是一个十分繁琐的过程,它完全依赖于开发规则的知识工程师的语言知识和经验,开发规则的成本很大,很难找到一种有效的途径,提高规则开发的效率。

    随着语料库的构建越来越容易,基于统计的方法在自然语言处理领域开始成为主流。这种方法采用统计学的处理技术从大规模语料库中获取语言分析所需要的知识,并试图逼近语言的真实规律。

    统计句法分析工作需要完成两个任务:第一个任务是建立消解语法歧义的语言模型。第二个任务是从模型输出的所有句法树中找出概率值最大的结果。

    4)语义分析

    词语语义分析是指确定词语意义,衡量两个词之间的语义相似度或相关度;句子语义分析研究包含句义分析和句义相似度分析两方面;文本语义分析就是识别文本的意义、主题、类别等语义信息的过程。当前的自然语言语义分析主要存在两种主要的研究策略: 基于知识或语义学规则的语义分析和基于统计学的语义分析。基于统计与规则相融合的语义分析方法是未来自然语言语义分析的主流方法,本体语义学是自然语言语义分析的重要基础。本体语义学把本体作为主要资源,用于文本意义的提取,形成文本意义的形式化表征,并根据文本意义的形式化表征从文本中推导知识和生成自然语言文本。本体语义学本质上主要探讨两个互逆的过程: 文本要素意义组合为连贯文本意义,文本主题意义分解为文本要素意义。

    5)文本聚类

    主要是依据著名的聚类假设: 同类的文档相似度大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。

    主要应用点包括:1)文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。2)对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。3)改善文本分类的结果。4)文档集合的自动整理。

    文本聚类过程如下:

    预处理:文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式,即建立文本特征,以一定的特征项(如词条或描述)来代表目标文本信息。

    特征的建立:文本信息的特征表示模型有多种,常用的有布尔逻辑型、向量空间型、概率型以及混合型等。向量空间模型的表示方法最大的优点在于将非结构化和半结构化的文本表示为向量形式,使得各种数学处理成为可能。

    特征集的缩减: VSM 将文本内容表示成数学上可分析处理的形式,但是存在的一个问题是文档特征向量具有惊人的维数。通常的方法是针对每个特征词条的权重排序,选取预定数目的最佳特征作为结果的特征子集。选取的数目以及采用的评价函数都要针对具体问题来分析决定。另一个方法是采用向量的稀疏表示方法。虽然文本信息特征集的向量维数非常大,但是对于单个文档,绝大多数向量元素都为零,这一特征也决定了单个文档的向量表示将是一个稀疏向量。但是由于每个文本特征向量维数不一致,一定程度上增加了数学处理的难度。

    文本聚类的实现:基于概率的方法以贝叶斯概率理论为基础,用概率的分布方式描述聚类结果。基于距离的方法,就是以特征向量表示文档,将文档看成向量空间中的一个点,通过计算点之间的距离进行聚类。
    展开全文
  • 什么是文本挖掘

    万次阅读 2018-02-07 14:18:33
    1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。  文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能...

    什么是文本挖掘
      文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。
      文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。
      文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

    文本挖掘技术的发展
      数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。
      随着网络时代的到来,用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两类新兴的数据挖掘研究领域:网络挖掘和文本挖掘。
      网络挖掘侧重于分析和挖掘网页相关的数据,包括文本、链接结构和访问统计(最终形成用户网络导航)。一个网页中包含了多种不同的数据类型,因此网络挖掘就包含了文本挖掘、数据库中数据挖掘、图像挖掘等。
      文本挖掘作为一个新的数据挖掘领域,其目的在于把文本信息转化为人可利用的知识。

    文本挖掘预处理
      文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘,还需要做很多准备工作。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成,见图1。
      ◆ 文本收集
      需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。需要寻找和检索那些所有被认为可能与当前工作相关的文本。一般地,系统用户都可以定义文本集,但是仍需要一个用来过滤相关文本的系统。
      ◆ 文本分析
      与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构;此外文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上,需要对文本进行分析,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。其目的在于从文本中扫描并抽取所需要的事实
      ◆ 特征修剪
      特征修剪包括横向选择和纵向投影两种方式。横向选择是指剔除噪声文档以改进挖掘精度,或者在文档数量过多时仅选取一部分样本以提高挖掘效率。纵向投影是指按照挖掘目标选取有用的特征,通过特征修剪,就可以得到代表文档集合的有效的、精简的特征子集,在此基础上可以开展各种文档挖掘工作。

    文本挖掘的关键技术
      经特征修剪之后,可以开展数据文本挖掘工作。文本挖掘工作流程见图2所示。从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的还很少,目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。
      ◆ 文档聚类
      首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。
      文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。
      聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。
      ◆ 文档分类
      分类和聚类的区别在于:分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。
      由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了起作用的发挥。
      另外,用户在检索时往往能得到成千上万篇文档,这让他们在决定哪些是与自己需求相关时会遇到麻烦,如果系统能够将检索结果分门别类地呈现给用户,则显然会减少用户分析检索结果的工作量,这是自动分类的另一个重要应用。
      文档自动分类一般采用统计方法或机器学习来实现。常用的方法有:简单贝叶斯分类法,矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。
      ◆ 自动文摘
      互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。
      自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。
      自动文摘具有以下特点:(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。(2)文摘应具有概况性、客观性、可理解性和可读性。(3)可适用于任意领域。
      按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此目前大多用的是抽取生成法。

    文本挖掘应用前景
      利用文本挖掘技术处理大量的文本数据,无疑将给企业带来巨大的商业价值。因此,目前对于文本挖掘的需求非常强烈,文本挖掘技术应用前景广阔。

    知识链接
      文本挖掘系统的评估办法
      评估文本挖掘系统是至关重要的,目前已有许多方法来衡量在这一领域的进展状况,几种比较公认的评估办法和标准如下:
      ◆ 分类正确率:通过计算文本样本与待分类文本的概率来得出分类正确率。
      ◆ 查准率:查准率是指正确分类的对象所占对象集的大小,
      ◆ 查全率:查全率是指集合中所含指定类别的对象数占实际目标类中对象数的比例。
      ◆ 支持度:支持度表示规则的频度。
      ◆ 置信度:置信度表示规则的强度。

    ----------------------------------------------------------------------------------------------------------------------------------------------

    案例:文本挖掘在互连网关键词分析中的应用

    沈浩老师以新浪体育国际足球新闻标题为例,生动的讲述了文本挖掘在互联网关键词分析中的应用。

     

        在数据分析技术中,文本分析的使用一直是一个较少被涉及的领域,特别是有关中文文字的文本挖掘。

    文本挖掘大致可由三部分组成:底层是文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。其中需要付出大量人力物力的是文本信息的提取及内容分类,尤其对于中文来说不同领域不同行业的关键词术语各不相同,因此,构建一个适用于不同行业的关键词库显得尤为重要。

    不过基于中文的文本挖掘也有非常多的使用,比如各大媒体的2011十大关键词盘点。比如前段时间零点E-lab研究室所绘制的中国唐诗及宋词的关键词构成,非常的有趣,将古人诗歌的高频或者说比较潮的词汇都捕捉到了。并且采用网络分析图的方法将各个关键词之间的联系清楚的展现出来,甚至部分读者能够根据该网络图自己推敲出一些经典的诗句。怎么样?能够分辨出那张图是分析唐诗的,哪张是宋词么?

    言归正传,笔者也在处理有关文本分析的内容,正好借此分享一下文本分析的方法。

    正如前文所述,中文的文本挖掘集中在关键词库的建立,在没有专门软件的帮助下,使用“人工智能”倒是一个权宜之计。而人为建立关键词库的要点就在于编码,要求编码人员对关键词有相当的经验及足够的敏感度,如是多人编码还需考虑到团队的个性差异及分工协作等要素。

    笔者选择将新浪体育网站中国际足球版面的新闻标题作为研究对象(不选国内足球的原因你懂……),希望通过文本挖掘的方法以小见大的分析发现新闻编辑的个人特点及标题撰写的“潜规则”。

    首先,笔者选择了201171日至20111220日的新闻标题作为研究对象,在这个时间段中包括了大型杯赛(美洲杯)、转会期、日常联赛等内容,应该说涵盖了足球活动中可能出现的大多数新闻报导,共有25,598条新闻标题。

    新闻大致分为三大类,即:图片、文字、视频。

    经过整理,笔者共筛选了500多个关键词,如:转会、队长、传奇、名单、大将、赞、新星、对手、训练、国脚、锋霸、点球、VS、主场、天王等等。这些关键词的筛选,笔者筛选关键词的依据主要有以下几点:

    l  与体育活动相关,可是场外或者场内

    l  属于日常用语,不能造词

    l  需要是通过词汇,即具有普适性,比如像“贝克汉姆带儿子逛街就不作为关键词,因为其他球员出现类似情况的概率很低。

    l  尽可能多的找,然后整理。比如“小小罗”C是同一个人,但是笔者将其作为两个关键词。

    废话少说,下面就晒一下对这些词的分析结果:

    概述篇下面列出三大类新闻标题的关键词排名,图片类以“庆祝“、”训练”、”进球”为代表;视频类新闻以“进球”、”破门”、”梅西”为代表,主要和球场活动有关,而与前两类有较大不同的是文字类新闻,排名靠前的分别是”梅西”、”宣布”、”首发”、”C罗”、”官方”等,包含内容较多,并且纵观整个文字新闻页面,使用的高频形容词是最多的。

    人物篇在排名前20的词汇中共出现三个人物名称:梅西”C穆帅。作为球员前两人在图片及视频中占了较大比重,而穆里尼奥是唯一跻身新闻关键词前20的教练员。

        

    技术篇在排名前20的词汇中,涉及足球比赛描述的词汇主要集中在视频中,其次是图片,而文字新闻中场外内容占了较大篇幅。

     

    写作篇那么,怎么写好新闻标题,或者怎样写出新浪体育的标题?为了解决这一问题,笔者将所有标题涉及的前100个新闻标题进行相关性的网络分析:

    经过整理后如下,怎么样,可以汇总一条新闻标题么?

    展开全文
  • 文本挖掘系列之文本信息抽取

    万次阅读 2017-06-07 12:52:31
    文本数据挖掘的定义文本...文本挖掘在很多应用中都扮演重要角色,例如智能商务(例如客户关系管理)、信息检索(例如互联网搜索)等。 文本数据挖掘需要从三个层面进行理解。其一,底层技术,文本挖掘作为数据挖掘的一

    文本数据挖掘的定义

    文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。文本数据挖掘处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习自然语言处理数理统计等学科具有紧密联系。文本挖掘在很多应用中都扮演重要角色,例如智能商务(例如客户关系管理)、信息检索(例如互联网搜索)等。
    文本数据挖掘需要从三个层面进行理解。其一,底层技术,文本挖掘作为数据挖掘的一个分支学科,其底层技术包括机器学习、数理统计、自然语言处理等领域的的技术方法。其二,进阶技术,也即是文本挖掘的基本技术,面向不同的应用,分为五大类:信息抽取文本分类文本聚类文本数据压缩文本数据处理。其三,应用领域,文本挖掘最终的目的如其定义中所描述的,信息访问与知识发现,信息访问包括信息检索、信息浏览、信息过滤和信息报告,知识发现包括数据分析和数据预测。

    文本数据挖掘的基本技术之文本信息抽取

    文本信息抽取

    文本信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。

    技术介绍

    下面我们从机器学习的角度介绍一下文本信息抽取这种的文本挖掘技术。我们将文本信息抽取视为一个标注问题,即将其作为一个监督学习的具体应用。文本信息抽取可以分为两个阶段:学习阶段和抽取阶段。其过程如下图所示:
    图1
    在学习阶段,首先有一些带标注的数据集,每一个样本包含文字单元序列和标注序列组成,如下所示,

    (x1,1,x1,2,...,x1,ny1,1,y1,2,...,y1,n)

    表示第i个样本,其中前面x部分表示第i个样本的文字单元序列,后面y部分表示第i个样本的标注序列。机器学子系统基于已有的标注构建一个学习模型,并用一个条件概率分布进行表示。信息抽取系统则是根据得到的条件概率分布模型,对新的样本进行标注,即找到一个标注序列最大化下面这个目标函数:
    (ynew,1,ynew,2,...,ynew,n)=argminP(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)

    文字单元在具体的实现中可以是一个文本、一个句子、一个词语,甚至还可以是中文的一个字,标注可能是表示信息抽取对象的开始、结束以及其他。抽取的信息将从开始到标注为结束的文字序列。例如,输入一段英文语句,要抽取这段语句的名词短语,则输入样本为英文句子,文字单元是单词,标注是名词短语的开始、结束或其他。

    常用模型

    文本信息抽取常用的模型有:隐马尔科夫模型、最大熵马尔科夫模型、条件随机场、表决感知机模型。这些模型是上述一般文本信息抽取的具体实现。
    首先,将每一个标注看作是独立于序列以及序列的其它标注的,如下式所示,这样,对于每一个文字单元序列及其标注,可以得到这样一个条件概率分布:

    P(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)=i=1nP(ynew,i|xnew,1,xnew,2,...,xnew,n)

    由上式可以发现,这样的一个条件概率分布实际上是一个分类器模型,得到样本序列的各单元序列的最佳标注。
    在上式的基础上,我们利用不同的模型作为分类器,可以得到不同的文本信息抽取方法。
    例如,对于上面的式子,用最大熵模型作为分类器,并且我们假设不同的标注之间具有一阶马尔可夫性,即上式可以写为:
    P(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)=i=1nP(ynew,i|ynew,i1,xnew,1,xnew,2,...,xnew,n)

    每一个条件概率分布又是一个新的分类器模型,但是这个分类器是基于前一个标注确定的条件下的分类器,此时模型就成为最大熵马尔科夫模型。
    需要注意的是,最大熵马尔科夫模型是一个局部模型,因为标注之间具有一阶马尔可夫性,用局部数据进行训练,而在抽取全局信息时,效果可能不会很好,会产生标注偏差问题。因此可以用一些复杂的全局模型来解决标注偏差问题。其中, 最常用的全局模型就是条件随机场。条件概率分布式中的各个标注会依赖除自身之外的其他标注,条件随机场可以精确的描述全局的标注情况,在精度上由于最大熵马尔科夫模型,但是训练时间也更多。
    以上就是以词性标注问题来理解文本信息抽取的一些简单介绍,对于一些复杂信息的抽取问题,还可以将其看做句法分析问题来理解。
    展开全文
  • 文本挖掘的介绍

    千次阅读 2016-02-24 19:05:48
    1、文本挖掘的定义 文本挖掘是指从大量文本的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么文本挖掘的过程就是从输入到输出的一个映射ξ:C→ p。 2、文本挖掘过程包含的技术 文本特征的提取、信息...
  • 文本挖掘实例

    千次阅读 2016-02-04 15:44:28
    文本挖掘 junjun 2016年2月4日 文本分析的应用越来越广泛,今天就讲讲关于评论数据的那点事。 评论数据的获取:一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的...
  • 文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、...
  • R文本挖掘之三文本聚类

    千次阅读 2017-03-17 17:09:49
    原文地址:CSDN-R语言做文本挖掘 Part3文本聚类 Part3文本聚类 分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介: 分类...
  • 第一步:适合应用的文档一般是确定的大量文本数据。文档聚类方法经常用语解决“大量”这个问题。这些方法是非监督的学习方法,最受欢迎的文档聚类方法是K-means聚类和凝聚层次聚类。 第二步:文本是被清洗了的——它...
  • Python数据挖掘-NLTK文本分析+jieba中文文本挖掘

    万次阅读 多人点赞 2018-02-21 00:16:23
     备注:本部分取《昆仑》一书第一段第一句,即文件“昆仑全本.txt”只有: 大巴山脉,西接秦岭,东连巫峡,雄奇险峻,天下知名。山中道路又陡又狭,深沟巨壑,随处可见;其惊险之处,真个飞鸟难度,猿猱驻足,以...
  • 关于文本挖掘系统snowball

    千次阅读 2015-10-11 20:08:07
    文本挖掘已经成为数据挖掘中一个日益流行而重要的研究领域。与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是,文本挖掘所研究的文本数据库, 由来自各种数据源的大量文档组成。这些文档可能...
  • 文本挖掘基本思路

    千次阅读 2018-04-28 13:24:32
    文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:“分词”,而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文我们就对向量化和特例...
  • 【1】文本挖掘的主要概念

    千次阅读 2016-08-01 08:56:44
    转自 NLP论坛 ...在类似于数据挖掘的方式,文本挖掘旨在通过识别令人感兴趣的模式来提取和搜索数据源中有用信息。在文本挖掘中,数据来源是文档集合,发现令人感兴趣的模式不是来自形式化的数据库记录,而是非
  • 基于R语言的文本挖掘技术

    千次阅读 2016-05-31 21:52:15
    文本挖掘 2 绪论 4 1.文本挖掘的基本概念 4 1.1文本挖掘的介绍 4 1.2文本挖掘的定义 5 1.3文本挖掘的任务 5 1.4文本挖掘的主要用途 6 1.5文本挖掘与数据挖掘 7 2.文本挖掘的过程 7 2.1文本预处理 ...
  • 文本挖掘相关介绍 1什么是文本挖掘 2NLP 3 分词 4 OCR 5 常用算法 6 文本挖掘处理流程 7 相应R包简介 8 文本处理 词干化stemming snowball包 记号化Tokenization RWeka包 中文分词 Rwordseg包 9 tm包常用操作介绍 ...
  • 文本挖掘1分词

    千次阅读 2014-02-16 20:52:34
    文本挖掘可能更侧重于挖掘,跟NLP自然语言处理侧重点不一样,不过其依赖于自然语言处理,我的感觉就相当于计算机视觉依托于图像处理这个方向,大家侧重点不一样。 自然语言处理主要流程 文本->分句->分词->词性...
  • 文本挖掘技术笔记

    千次阅读 2014-11-07 18:19:59
    我第一次接触自然语言处理还是研一的时候,当时我读的是那本经典书籍《数学之美》,之后我就对NLP/文本挖掘/IR方向兴趣比较大,所以也一直想毕业后去搜索相关公司。但是考虑到自己的基础水平,迟迟没有深入研究,...
  • LawCrimeMining ... 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目 项目地址:https://github.com/liuhuanyong/LawCrimeMining 项目介绍 正邪不两立,法律与犯罪水火不容,随着我国法...
  • 10-R语言文本挖掘tm包详解

    千次阅读 2018-03-19 18:16:10
    文本挖掘相关介绍 1、什么是文本挖掘 文本挖掘是 抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。 在文本挖掘领域中,文本自动分类,判同,情感分析...
  • 数据挖掘学习(三)——文本挖掘

    万次阅读 多人点赞 2018-06-29 01:18:57
    笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据...
  • 文本挖掘 文本挖掘(也叫文本数据挖掘或文本型数据库中的知识发现)是指半自动化地从大量的非结构化数据资源中提取模式(即有用的信息或知识)的过程。文本挖掘和数据挖掘一样,他们具有相同的目的并利用相同的处理...
  • 最近阅读了美国伊利诺伊大学教授刘兵的一篇关于观点挖掘的KDD论文(Mining and Summarizing Customer Reviews),其观点挖掘算法非常经典,特此做记录,互相探讨。
  • 文本挖掘和自然语言处理

    千次阅读 2013-06-19 16:51:31
    文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并...
  •  其中第四部分提到了把deep learning用在NLP上。 强力推荐:一个在线测试的网站,貌似是一位清华教授做的: http://cikuapi.com/index.php [2] 笔者又写了一篇相关内容,推荐: 重磅︱R+NLP:text2vec包简介(GloVe...
  • 根据数据挖掘软件的开发目的和用途,一般可以分为专业型和通用型两种。专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模、类型以及研究者的需求等特点,并作了...
  • 引言: “词云”,又称文字云,是由词汇组成类似云的彩色图形。可对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 21,067
精华内容 8,426
关键字:

文本挖掘的的重要组成部分是