精华内容
下载资源
问答
  • 简要介绍一些商业文本挖掘工具和开源文本挖掘工具,针对其中四款典型的开源工具进行详细的比较, 包括数据格式、功能模块和用户体验三个方面;选取三种各具特色的工具就其文本分类功能进行测评。最后,针对开源文本...
  • 变形 文本挖掘工具的升级版
  • 领域自适应文本挖掘工具(新词发现、情感分析、实体链接等),基于少量种子词和背景知识
  • BeagleTM是一种交互式文本挖掘工具,可促进在同行评审文章中发现知识。 BeagleTM以我的小狗比格犬Flint的名字命名,他的所有时间都用鼻子扎根在地上。 在他的领导下,PubMed的文章也可以类似的方式被发现。 ...
  • 文本挖掘工具的介绍

    千次阅读 2016-02-26 18:32:10
    1、商业文本挖掘的工具 2、开源的数据挖掘工具 ROST CM 确实是一个很好用的工具。主要用于写论文,真的很好用。 LingPipe主要用于自然语言的处理: 主题分类(Top Classification) 命名实体识别(Named ...

    1、商业文本挖掘的工具


    2、开源的数据挖掘工具


    ROST CM 确实是一个很好用的工具。主要用于写论文,真的很好用。

    LingPipe主要用于自然语言的处理:

    主题分类(Top Classification)
    命名实体识别(Named Entity Recognition)
    词性标注(Part-of Speech Tagging)
    句题检测(Sentence Detection)
    查询拼写检查(Query Spell Checking)
    兴趣短语检测(Interseting Phrase Detection)
    聚类(Clustering)
    字符语言建模(Character Language Modeling)
    医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)
    数据库文本挖掘(Database Text Mining)
    中文分词(Chinese Word Segmentation)
    情感分析(Sentiment Analysis)
    语言辨别(Language Identification)

    开源工具输入格式的比较


    开源软件之间功能的比较




    展开全文
  • 这些嵌入在原始社交媒介数据中的个人层面行为代表了顾客的偏好、购买历史、重大的人生事件、心情、个性以及通过文本挖掘获得的其他属性,这些属性可以存储在社交媒体数据集市中。我们今天熟知的这些社交网络的先驱是...
  • NLPIR多功能文本挖掘工具解决大数据处理难题  随着信息技术正以突飞猛进的速度向前进步,包括新传感器采集技术、移动互联网技术、社交网络技术的蓬勃发展,将带来大量的创新性应用。大数据是新时代的石油,通过...

      NLPIR多功能文本挖掘工具解决大数据处理难题

      随着信息技术正以突飞猛进的速度向前进步,包括新传感器采集技术、移动互联网技术、社交网络技术的蓬勃发展,将带来大量的创新性应用。大数据是新时代的石油,通过研发分析各种多元结构化数据的高效技术,提高数据产品的易用性,让数据分析实现“开箱即用”,其蕴藏的巨大能量将使数据成为政府和企业建立核心竞争力的关键途径,甚至能够颠覆很多传统行业的运作方式,带领我们进入信息革命的新时代。

      大数据处理难度最高的是多媒体类的非结构化数据,包括图像、语音、视频等,对这些数据的深入挖掘和理解,能产生非常多新颖实用的功能,如自动监控、人脸识别、自动驾驶等。近年来一些公司积极进行深度学习(Deep Learning)相关技术的研发,用大规模机器学习的技术来解读多媒体的数据,已经取得了非常可观的进步。

      NLPIR大数据语义智能挖掘平台,针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索的技术,提供了客户端工具、云服务、二次开发接口。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。

      NLPIR大数据语义智能分析平台十三大功能:

      1、精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。

      2、文档抽取:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息抽取,信息抽取准确,效率达到大数据处理的要求。

      3、新词发现:从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。

      4、批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。

      5、语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。

      6、文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

      7、文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

      8、摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

      9、智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。

      10、情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。

      11、文档去重:快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。

      12、全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法。

      13、编码转换:自动识别内容的编码,并把编码统一转换为其他编码。

      你可以是高校老师与学生,用之于报告、论文等各种文本的处理;

      你可以是专业计算机、数据分析专家,用之于技术、项目等研发;

      你可以是编辑、自媒体人,用之于内容挖掘、审核与自动生成。

      ......

      当然,大数据语义智能挖掘平台能做的,还有更多!

      我们的目标:读懂自然语言,挖掘数据价值,智能服务生活!

     

    转载于:https://www.cnblogs.com/ljrj/p/8573903.html

    展开全文
  • HarvestText是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。适用于许多文本预处理和初步探索性分析任务,在小说分析,网络文本,专业文献等领域都有...
  • 文本挖掘技术工具

    2014-04-29 15:23:10
    这是关于挖掘工具很好的文档,利用Oracle Endeca服务器技术,用户现可提升对Oracle BI对象的多维导航和全文本搜索功能
  • 另外如果是编程人员,推荐使用一下文本挖掘工具包。下面是两个可选的工具。 KH Coder 链接为:https://khcoder.net/en/Wordij 和Gephi组合, 地址为http://wordij.net/ 和 https://gephi.org/ 本人在文末添加了...
     

    这里针对非编程人员,介绍几个免费文本分析和文本挖掘软件,可以直接导入中文文本,得出一些统计和可视化信息。另外如果是编程人员,推荐使用一下文本挖掘的工具包。下面是两个可选的工具。

    • KH Coder 链接为:https://khcoder.net/en/
    • Wordij 和Gephi组合, 地址为http://wordij.net/ 和 https://gephi.org/

    本人在文末添加了一个如何使用KH Code的视频教程的链接🔗

    具体的教程可以官网或者油管中找到,下面贴几张图片感受一下:

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    需要自备- 梯 -子https://www.youtube.com/watch?v=xOcX1aT5c6o&t=3s

    展开全文
  • 免费的文本分析 文本挖掘软件工具(第一部分)

    万次阅读 多人点赞 2020-02-18 13:29:08
    另外如果是编程人员,推荐使用一下文本挖掘工具包。下面是两个可选的工具。 KH Coder 链接为:https://khcoder.net/en/ Wordij 和Gephi组合, 地址为http://wordij.net/ 和 https://gephi.org/ 具体的教程可以...

    这里针对非编程人员,介绍几个免费文本分析和文本挖掘软件,可以直接导入中文文本,得出一些统计和可视化信息。另外如果是编程人员,推荐使用一下文本挖掘的工具包。下面是两个可选的工具。

    • KH Coder 链接为:https://khcoder.net/en/
    • Wordij 和Gephi组合, 地址为http://wordij.net/ 和 https://gephi.org/

    本人在文末添加了一个如何使用KH Code的视频教程的链接🔗

    第二部分具体介绍了如何使用这个软件教程: https://liangyihuai.blog.csdn.net/article/details/112055387

    下面贴几张图片感受一下:

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    需要自备- 梯 -子https://www.youtube.com/watch?v=xOcX1aT5c6o&t=3s

    展开全文
  • 文本挖掘技术

    2018-08-10 16:56:56
    第一章:引言 第二章:文本特征提取技术 第三章:文本检索技术 第四章:文本自动分类技术 第五章:文本自动聚类技术 第六章:话题检测跟踪技术 第七章:文本过滤技术 ...第十五章:文本挖掘工具与应用
  • tidytext:使用整洁工具进行文本挖掘
  • HarvestText 文本挖掘和预处理工具 Github项目地址:https://github.com/blmoistawinde/HarvestText 文档地址:https://harvesttext.readthedocs.io/en/latest/ 569星标 (2020.05.24) 包含文本清洗、新词发现、情感...
  • tmtoolkit:具有并行处理能力的Python文本挖掘和主题建模工具
  • 第一章:引言(2学时)  第二章:文本特征提取技术(4学时)  第三章:文本检索技术(6学时)  第四章:文本自动分类技术(3学时)  第五章:文本自动聚类... 第十五章:文本挖掘工具与应用(1.5学时)
  • 对于整洁文本挖掘,存储在每行的词条通常是一个单词,但也可以是n-gram、句子或段落。tidytext包能通过常用文本单元来进行词条化的功能,并将其转换为每行一个词条的格式。 整洁数据集允许使用一套“简洁”工具进行...
  • 文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示:...
  • 单词外的其他文本单元 许多有用的工作可以通过对单词词条化来实现,但有时需要查看不同的文本单元。例如,一些情感分析算法不只是针对单个单词,而是试图将一个句子当成整体来理解情感。这些算法会认为“I am not ...
  • 整洁文本数据转换为矩阵 正如一些现有的文本挖掘软件包将文档–词项矩阵作为样本数据或输出一样,一些算法也期望将这样的矩阵作为输入。因此,tidytext提供了一系列的cast_函数来将整洁数据转换为这样的矩阵。 例如...
  • 值得将其与经常在文本挖掘方法使用的文本存储方式进行比较: 字符串(String) 当然,文本可以作为字符串(即,字符向量)存储在R内,通常可以先将这种数据读入内存中。 语料(Corpus) 这些类型的对象通常含有原始...
  • 章 案例研究:NASA元数据挖掘 NASA托管(或维护着)超过32000个数据集,这些数据集涵盖了从地球科学到航空航天工程的主题,同时还有NASA本身管理的主题。通过这些数据集的元数据可以了解不同主题之间的关系。 什么...
  • 章 案例研究:分析Usenet文本 在最后一章中,我们将使用本书中学到的内容来对1993年的20个Usenet公告牌的20000条消息进行分析。该数据集包括了与政治、宗教、汽车、体育和加密等主题相关的新闻组,同时也提供了许多...
  • 一、目的 在完成数据挖掘技术教程之后,我们将讨论最佳的数据挖掘工具。此外,我们将尝试介绍顶级和最佳的数据挖掘工具和技术。此外,我们将为每种工具提及该工具是否为开源。AAA教育带领大家看看大数据分析数据...
  • 目前的舆情分析所使用的数据大多通过网络媒体抓取,包括新闻、论坛、...点击以下链接查看其它R语言文本挖掘系列文章早日毕业:R语言文本挖掘套件系列1-文本处理中文分词文字云早日毕业:R语言文本挖掘套件系列2-网络...
  • 文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 754
精华内容 301
关键字:

文本挖掘工具