文本挖掘 订阅
《文本挖掘(英文版)》是 2009年8月人民邮电出版社出版的图书,作者是费尔德曼。该书中涵盖了核心文本挖掘操作、文本挖掘预处理技术、分类、聚类、信息提取、信息提取的概率模型、预处理应用、可视化方法、链接分析、文本挖掘应用等内容,很好地结合了文本挖掘的理论和实践。 [1] 展开全文
《文本挖掘(英文版)》是 2009年8月人民邮电出版社出版的图书,作者是费尔德曼。该书中涵盖了核心文本挖掘操作、文本挖掘预处理技术、分类、聚类、信息提取、信息提取的概率模型、预处理应用、可视化方法、链接分析、文本挖掘应用等内容,很好地结合了文本挖掘的理论和实践。 [1]
信息
ISBN
9787115205353
作    者
费尔德曼
定    价
69元
书    名
文本挖掘(英文版)
出版时间
2009年08月
开    本
16
出版社
人民邮电出版社
文本挖掘(英文版)内容简介
《文本挖掘(英文版)》是一部文本挖掘领域名著,作者为世界知名的权威学者。《文本挖掘(英文版)》非常适合文本挖掘、信息检索领域的研究人员和实践者阅读,也适合作为高等院校计算机及相关专业研究生的数据挖掘和知识发现等课程的教材。
收起全文
精华内容
下载资源
问答
  • 文本挖掘系统 系统说明 集成了文本过滤,去重及邮件实时通知的功能 集成了文本关键字提取的功能 集成了文本分类即打标签的功能 集成了文本推荐即景点评价的功能 支持中英文 系统架构图 关于分词 英文分词,采用nltk...
  • 文本挖掘是数据挖掘的重要内容之一,对于信息的获取和知识的发现具有十分重要的意义,同时也是维护互联网信息内容安全的重要手段。对文本挖掘技术和信息内容安全的基本概念和理论进行系统地归纳并对相关前景进行了展望...
  • python文本挖掘

    2018-11-22 10:24:03
    相似度分析、文本情感分析 、文本过滤、词云、皮尔逊原理
  • 文本挖掘原理

    2018-03-11 15:22:58
    文本挖掘原理》 全本,非2.74M的15页预览版。由于没有书可卖了,上传供学习参考!
  • 第一章:引言(2学时)  第二章:文本特征提取技术(4学时)  第三章:文本检索技术(6学时)  第四章:文本自动分类技术(3学时)  第五章:文本自动聚类... 第十五章:文本挖掘工具与应用(1.5学时)
  • 文本挖掘与社会网络分析课程教材,内容包括文本处理、文本分析、信息检索系统、文本分类、文本聚类、矩阵分解与话题模型、文本情感分析、知识图谱、社会网络分析理论、Gephi可视化、社会网络分析实践与案例。
  • R七种武器之文本挖掘

    2019-05-05 11:44:52
    自然语言处理与文本挖掘是机器学习当前最神秘,最红火,最具难度,也最让引人关注的分支。 文本挖掘(Text Mining)是数据挖掘的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页所产生的BBS...
  • R语言文本挖掘

    2019-02-25 07:57:16
    R 语言环境下的文本挖掘文本挖掘被描述为 “自动化或半自动化处理文本的过程”,包含了文档聚类、文档分类、自 然语言处理、文体变化分析及网络挖掘等领域内容。 对于文本处理过程首先要拥有分析的语料(text ...
  • 文本挖掘概述与方法

    2018-07-30 14:39:11
    文本挖掘概述与方法,文本挖掘概述与方法,文本挖掘概述与方法,文本挖掘概述与方法,文本挖掘概述与方法,
  • 文本分析可视化分析,社会网络分析,共被引分析,非常强大。
  • text mining文本挖掘.rar

    2020-07-07 08:26:58
    北京大学计算机科学技术研究所文本挖掘研究生课程,包含17个子文件,有特征提取、检索、分类、聚类、TDT、过滤、关联等
  • 由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾短信和我们实际想阅读的短信之间的区别。然后我们将应用此学习到的模型到新的短信中,来确定...
  • 新闻信息抓取及词云可视化、文本聚类和LDA主题模型文本挖掘 https://blog.csdn.net/Eastmount/article/details/104698926 [Pyhon疫情大数据分析] 二.PyEcharts绘制全国各地区、某省各城市疫情地图及可视化分析 ...
  • 文本挖掘python

    2018-01-03 18:55:52
    这是用python做的文本挖掘,挺详细的,请大家放心下载
  • 大众点评评论文本挖掘,包括点评数据爬取、数据清洗入库、数据分析、评论情感分析等的完整挖掘项目
  • 教授的文本挖掘技术课程ppt 包含文本情感分析 特征提取
  • 文本挖掘课程PDF

    2018-06-17 17:06:33
    词向量模板PPT文档,从深度学习技术的基础讲起,较容易入门。
  • 文本挖掘的详细原理,常用的技术方法及相应的案例做了详细的介绍和分析。是一本非常实用的指导教材。
  • 我的文本挖掘-源码

    2021-02-18 20:28:27
    可重现的研究工作流程示例:Python中的JSON解析和文本挖掘,R + RMarkdown 这是一个基本示例工作流程,它遵循的原则,使用GNU Make,Python和R进行可重现的研究工作流程。 请将此模板与我们的教程结合使用,网址为 ...
  • 第一章:引言(2学时) 第二章:文本特征提取技术(4学时) 第三章:文本检索技术(6学时) 第四章:文本自动分类技术(3学时) 第五章:文本自动聚类技术(3学时) ...第十四章:文本挖掘工具与应用(1.5学时)
  • 简单的日语文本挖掘工具它是一个日文文本挖掘工具。 您可以使用 MeCab 执行简单的文本挖掘,例如词法分析和词/句矩阵的计算。要使用它,您需要单独安装 MeCab。 另外请注意,当前分发的 MeCab dll 是 32 位版本,...
  • 使用MATLAB做文本挖掘,英文版书籍,Text-Mining-with-MATLAB
  • 主要介绍了Python实现购物评论文本情感分析操作,结合实例形式分析了Python使用中文文本挖掘库snownlp操作中文文本进行感情分析的相关实现技巧与注意事项,需要的朋友可以参考下
  • 摘 要:本文爬取豆瓣电影TOP250的榜单电影信息和热评,运用数据可视化和文本挖掘的相关方法和理论对电影进行Knn分类和KMeans聚类以及相关的电影信息分析,并预测了新上映电影的所属类型,画出了相应的混淆矩阵
  • 电子病历是医院信息化发展的产物, 其中包含了丰富的医疗信息和临床知识, 是辅助临床决策和药物挖掘等的重要资源.因此, 如何高效地挖掘大量电子病历数据中的信息是一个重要的研究课题.
  • 日语文本挖掘示例代码这是使用报纸文章的日语文本挖掘的示例代码。您可以从 Internet 下载报纸文章并尝试使用朴素贝叶斯分类器进行分类、聚类等。 要执行示例代码,您需要单独安装“Simple Text Miner for Japanese...
  • 2021文本挖掘试题.pdf

    2021-06-27 10:23:28
    主要是2021年期末考试题
  • 文本挖掘技术

    2018-08-10 16:56:56
    第一章:引言 第二章:文本特征提取技术 第三章:文本检索技术 第四章:文本自动分类技术 第五章:文本自动聚类技术 第六章:话题检测跟踪技术 第七章:文本过滤技术 ...第十五章:文本挖掘工具与应用
  • 文本挖掘

    千次阅读 2018-07-04 16:46:35
    文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 文本挖掘的主要用途是从...

           文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

    文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术 。

    文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。

    文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。

     

    一、获取文本

      我们获取网络文本,主要是获取网页HTML的形式。我们要把网络中的文本获取文本数据库(数据集)。编写爬虫(Spider)程序,抓取到网络中的信息。可以用广度优先和深度优先;根据用户的需求,爬虫可以有垂直爬虫和通用爬虫之分,垂直爬取主要是在相关站点爬取或者爬取相关主题的文本 ,而通用爬虫则一般对此不加限制。爬虫可以自己写,当然现在网络上已经存在很多开源的爬虫系统(比如python的Scrapy和pyspider)。

    二、对文本进行预处理

      网页中存在很多不必要的信息,比如说一些广告,导航栏,html、js代码,注释等等,我们并不感兴趣的信息,可以delete掉。如果是需要正文提取,可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。

    三、文本流的语言学处理

    1、分词

      经过上面的步骤,我们会得到比较干净的素材。文本中起到关键作用的是一些词,甚至主要词就能起到决定文本取向。比如说一篇文章讲的是体育还是娱乐,肯定是对文章中的中心词进行分析得到的结果。 
      在找出中心词之前,我们首先得在每个文本中得到所有词吧。这里就会用到一个分词系统或者说分词工具。现在针对中文分词,出现了很多分词的算法,有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等等(可以参考各类文献)。我们经常用到的中科院的分词工具ICTCLAS,该算法经过众多科学家的认定是当今中文分词中很好的,并且支持用户自定义词典,加入词典,;对新词,人名,地名等的发现也具有良好的效果。

    2、词性标注

      同时也可以使用词性标注。通过很多分词工具分出来的出会出现一个词,外加该词的词性。比如说啊是语气助词。 
      利用python的jieba分词,比如words = pseg.cut(“我爱北京天安门”)进行词性标注,得到的结果是 :我 r 爱 v 北京 ns 天安门 ns

    3、去除停用词

      经过上面的步骤,我们已经把所有的词进行了分类。但是这些所有的词,并不都是我们所需要的,比如说句号(。)显然,句号对意思的表达没有什么效果。还有”是”、”的”等词,也没有什么效果。因为这些词在所有的文章中都大量存在,并不能反应出文本的意思,可以处理掉。当然针对不同的应用还有很多其他词性也是可以去掉的,比如形容词等。

    四、文本流的数学处理

      我们希望,获取到的词汇,最能保留它们的信息,同时反映了它们的地位。有些词汇,它们往往也不能决定文章的内容。还有一个原因就是,如果对所有词语都保留,维度会特别高,矩阵将会变得特别稀疏,严重影响到挖掘结果。针对特征选择也有很多种不同的方式,但是改进后的TFIDF往往起到的效果是最好的。

    1、TFIDF

      TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TFIDF,TF词频(Term Frequency),IDF反文档频率(Inverse DocumentFrequency)。TF表示词条,在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。 
    tfi,j=ni,j∑knk,jtfi,j=ni,j∑knk,j 
    idfi= log|D||dti|idfi= log|D||dti| 
    tfidfi,j=tfi,jidfitfidfi,j=tfi,jidfi 
    tfi,jtfi,j:对于文档j,词项i的重要程度(词频)。 
    ni,jni,j:词项i出现在文档j里的数量。 
    ∑knk,j∑knk,j:文档j里总词数。 
    idfidf:词项i的通用价值。 
    |D||D|:语料库里文档的总数。 
    |dti||dti|:出现词项i的文档总数。

    2、PMI

      点互信息(Pointwise mutual information,PMI),它经常被用于度量两个具体事件的相关程度,公式为:两个词条的PMI公式为: 
      常用的计算PMI(word1, word2)方法是分别 
    PMI(x;y)=logp(x,y)p(x)p(y)=logp(x|y)p(x)=logp(y|x)p(y)PMI(x;y)=log⁡p(x,y)p(x)p(y)=log⁡p(x|y)p(x)=log⁡p(y|x)p(y) 
    以”word1”,”word2”和”word1NEAR word2”为query,根据搜索引擎检索结果,得到P(word)和P(word1, word2),如下: 
    P(word) = hits(word)NP(word) = hits(word)N 
    P(word1,word2) = hits(word1 NEAR word2)N2P(word1,word2) = hits(word1 NEAR word2)N2

    五、特征提取和特征选择

      上面的语言学处理和数学处理,得到的结果,包括词性、词频,TFIDF分数,等等,都可以作为一篇文章的特征使用,有的文本处理方法,比如说向量空间模型,直接使用TFIDF作为特征。通常,针对不同的任务,可以使用不同的特征,比如情感分析,会附带上情感词典(比如正面-情感词的百分比、负面-情感词的百分比、每个句子中否定词个数、每个句子中程度副词个数、每个句子特殊标点符号个数),作为新的特征。序列标注模型,会使用序列边界与否,作为新的特征。 
      获取新的特征后,可以使用传统机器学习的降维方法,对数据进行筛选和降维,比如主成分分析算法(PCA)、局部线性嵌入(LLE)、LDA、Laplacian Eigenmaps 拉普拉斯特征映射等。

    六、利用算法进行挖掘

      经过上面的步骤之后,我们就可以把文本集转化成一个矩阵。我们能够利用各种算法进行挖掘,比如说如果要对文本集进行分类,我们可以利用 KNN算法,贝叶斯算法、决策树算法等等。这里,我们就可以利用机器学习的成果。 

      特别一提,就是,自然语言处理里有一个独特的东西,叫做”序列标注”,这个概念,可以结合算法,比如隐马尔可夫、条件随机场等等。序列标注问题应该说是自然语言处理中最常见的问题,而且很可能是最而没有之一。在深度学习没有广泛渗透到各个应用领域之前,传统的最常用的解决序列标注问题的方案是最大熵、CRF等模型,尤其是CRF,基本是最主流的方法。随着深度学习的不断探索和发展,很可能RNN模型会取代CRF的传统霸主地位,会成为解决序列标注问题的标配解决方案。

    参考文献: 
    https://github.com/fxsjy/jieba/ 
    http://www.lupaworld.com/portal.php?mod=view&aid=234808&page=all 
    http://www.open-open.com/lib/view/open1416210955430.html 
    http://www.tuicool.com/articles/Y7jmMn 
    http://blog.csdn.net/ididcan/article/details/6657977 
    http://blog.csdn.net/u011955252/article/details/50764013 
    http://blog.csdn.net/erli11/article/details/23918751 
    http://www.aiuxian.com/article/p-3009893.html 
    http://www.36dsj.com/archives/26723 
    http://blog.csdn.net/malefactor/article/details/50725480

     

    展开全文
  • 大薮据与薮据挖掘-文本挖掘 1文本挖掘概述 文本挖掘的背景 数据挖掘大部分研究主要针对结构化数据,如关系的事 务的和数据仓库数据 现实中大部分数据存储在文本数据库中,如新闻文章 研究论文书籍WEB页面等 存放在文本...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 76,786
精华内容 30,714
关键字:

文本挖掘