精华内容
下载资源
问答
  • 文本挖掘案例

    千次阅读 2017-04-01 13:51:00
    一、文本挖掘定义 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 二...

    一、文本挖掘定义

    文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

    大数据

    二、文本挖掘步骤

    1)读取数据库或本地外部文本文件

    2)文本分词

    2.1)自定义字典

    2.2)自定义停止词

    2.3)分词

    2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤

    3)构建文档-词条矩阵并转换为数据框

    4)对数据框建立统计、挖掘模型

    5)结果反馈

    三、文本挖掘所需工具

    本次文本挖掘将使用R语言实现,除此还需加载几个R包,它们是tm包、tmcn包、Rwordseg包和wordcloud包。其中tmcn包和Rwordseg包无法在CRAN镜像中下载到,有关这两个包的下载方法可参见下文>>>

    四、实战

    本文所用数据集来自于sougou实验室数据,具体可至链接下载>>>

    本文对该数据集做了整合,将各个主题下的新闻汇总到一张csv表格中,数据格式如下图所示:

    d大数据

    具体数据可至文章后面的链接。

    大数据

    大数据

    接下来需要对新闻内容进行分词,在分词之前需要导入一些自定义字典,目的是提高切词的准确性。由于文本中涉及到军事、医疗、财经、体育等方面的内容,故需要将搜狗字典插入到本次分析的字典集中。

    大数据

    大数据

    如果需要卸载某些已导入字典的话,可以使用uninstallDict()函数。

    分词前将中文中的英文字母统统去掉。

    大数据

    图中圈出来的词对后续的分析并没有什么实际意义,故需要将其剔除,即删除停止词。

    大数据

    大数据

    停止词创建好后,该如何删除76条新闻中实际意义的词呢?下面通过自定义删除停止词的函数加以实现。

    大数据

    大数据

    相比与之前的分词结果,这里瘦身了很多,剔除了诸如“是”、“的”、“到”、“这”等无意义的次。

    判别分词结果的好坏,最快捷的方法是绘制文字云,可以清晰的查看哪些词不该出现或哪些词分割的不准确。

    大数据

    大数据

    仍然存在一些无意义的词(如说、日、个、去等)和分割不准确的词语(如黄金周切割为黄金,医药切割为药等),这里限于篇幅的原因,就不进行再次添加自定义词汇和停止词。

    大数据

    大数据

    此时语料库中存放了76条新闻的分词结果。

    大数据

    大数据

    从图中可知,文档-词条矩阵包含了76行和7939列,行代表76条新闻,列代表7939个词;该矩阵实际上为稀疏矩阵,其中矩阵中非0元素有11655个,而0元素有591709,稀疏率达到98%;最后,这7939个词中,最频繁的一个词出现在了49条新闻中。

    由于稀疏矩阵的稀疏率过高,这里将剔除一些出现频次极地的词语。

    大数据

    大数据

    这样一来,矩阵中列大幅减少,当前矩阵只包含了116列,即116个词语。

    为了便于进一步的统计建模,需要将矩阵转换为数据框格式。

    大数据

    大数据

    总结

    所以在实际的文本挖掘过程中,最为困难和耗费时间的就是分词部分,既要准确分词,又要剔除无意义的词语,这对文本挖掘者是一种挑战。

    文中数据和脚本可至如下链接下载:

    http://yunpan.cn/cupyBj9xTkHe7 访问密码 a88b

    作者:刘顺祥。数据分析师,热爱数据分析与挖掘工作,擅长使用R语言

    转载于:https://www.cnblogs.com/zourui4271/p/6655694.html

    展开全文
  • python文本挖掘案例

    2020-11-21 01:12:45
    users_by_date = [line[keys['created_at']].split(' ')[0] for line in lines] lines_by_created = list(set(users_by_date)) lines_by_created.sort() assert type(lines_by_created) == list #5 该文本里,在...

    #coding=utf-8

    import linecache

    import time

    now = time.time()

    #代码开始时间

    # 前期准备,整理数据

    data_keys = ('bid', 'uid',

    'username', 'v_class', 'content', 'img',

    'created_at',

    'source', 'rt_num', 'cm_num', 'rt_uid',

    'rt_username', 'rt_v_class',

    'rt_content',

    'rt_img', 'src_rt_num', 'src_cm_num', 'gender',

    'rt_bid', 'location', 'rt_mid',

    'mid',

    'lat', 'lon', 'lbs_type', 'lbs_title', 'poiid',

    'links', 'hashtags', 'ats',

    'rt_links',

    'rt_hashtags', 'rt_ats', 'v_url',

    'rt_v_url')

    keys = {data_keys[k]:k for k in

    xrange(0,len(data_keys))}

    f =

    linecache.getlines('t.txt')

    lines = [x[1:-1].split('","')

    for x in f] #拆分

    #1 输出用户总数

    users =

    set([line[keys['username']] for line in lines])

    user_total =

    len(set(users))

    assert type(user_total) ==

    int

    #2 每一个用户的名字

    list

    users =

    list(users)

    assert type(users) ==

    list

    #3

    有多少个2012年11月发布的tweets

    lines_from_2012_11 =

    filter(lambda

    line:line[keys['created_at']].startswith('2012-11'),lines)

    lines_total_from_2012_11 =

    len(lines_from_2012_11)

    assert

    type(lines_total_from_2012_11) == int

    #4

    该文本里,有哪几天的数据?

    users_by_date =

    [line[keys['created_at']].split(' ')[0] for line in

    lines]

    lines_by_created =

    list(set(users_by_date))

    lines_by_created.sort()

    assert type(lines_by_created)

    == list

    #5

    该文本里,在哪个小时发布的数据最多?

    # todo

    这里用time模块做时间转换最好。下例只为讲解拆分方法

    hours =

    [int(line[keys['created_at']][11:13]) for line in

    lines]

    total_by_hour =

    [(h,hours.count(h)) for h in xrange(0,24) ]

    total_by_hour.sort(key=lambda

    k:k[1],reverse=True)

    max_hour =

    total_by_hour[0][0]

    assert type(max_hour) ==

    int

    #6

    该文本里,输出在每一天发表tweets最多的用户

    dateline_by_user = {k:dict()

    for k in lines_by_created}

    for line in lines:

    dateline = line[keys['created_at']].split('

    ')[0]

    username = line[keys['username']]

    if

    dateline_by_user[dateline].has_key(username):

    dateline_by_user[dateline][username] += 1

    else:

    dateline_by_user[dateline][username] = 1

    for k,v in

    dateline_by_user.items():

    us = v.items()

    us.sort(key=lambda

    k:k[1],reverse=True)

    dateline_by_user[k] =

    {us[0][0]:us[0][1]}

    assert type(dateline_by_user)

    == dict

    #7 请按照时间顺序输出 2012-11-03

    每个小时的发布tweets的频率

    lines_from_2012_11_03 =

    filter(lambda

    line:line[keys['created_at']].startswith('2012-11-03'),lines)

    hourlines_from_2012_11_03 =

    {str(i):0 for i in xrange(0,24)}

    for line in

    lines_from_2012_11_03:

    hour =

    line[keys['created_at']][11:13]

    hourlines_from_2012_11_03[str(int(hour))] +=

    1

    hour_timeline_from_2012_11_03 =

    [(k,v) for k,v in hourlines_from_2012_11_03.items()]

    hour_timeline_from_2012_11_03.sort(key=lambda

    k:int(k[0]))

    assert

    type(hour_timeline_from_2012_11_03) == list

    #8

    统计该文本里,来源的相关信息和次数

    source = set([k[keys['source']]

    for k in lines])

    source_dict = {s:0 for s in

    source}

    for line in lines:

    source_name = line[keys['source']]

    source_dict[source_name] += 1

    source_list = [(k,v) for k,v in

    source_dict.items()]

    source_list.sort(key=lambda

    k:k[1],reverse=True)

    assert type(source_list) ==

    list

    #9

    计算转发URL中:以:"https://twitter.com/umiushi_no_uta"开头的有几个

    umi_total = 0

    for line in lines:

    if

    line[keys['rt_v_url']].startswith('https://twitter.com/umiushi_no_uta'):

    umi_total

    += 1

    assert type(umi_total) ==

    int

    #10 UID为573638104的用户

    发了多少个微博

    tweets_total_from_573638104 =

    0

    for line in lines:

    if line[keys['uid']] == '573638104'

    :

    tweets_total_from_573638104 += 1

    assert

    type(tweets_total_from_573638104) == int

    #11

    定义一个函数,该函数可放入任意多的用户uid参数(如果不存在则返回null),函数返回发微薄数最多的用户uid。

    def

    get_user_by_max_tweets(*uids):

    '''

    @deprecated:参数可为字符串或者数字

    '''

    if len(uids) > 0:

    uids =

    filter(lambda u:type(u) == int or u.isdigit(),uids)

    uids =

    map(str,uids)

    if

    len(uids) > 0:

    uids_dict = {x:0 for x in

    uids}

    for line in

    lines:

    uid = line[keys['uid']]

    if uid in uids:

    uids_dict[uid] += 1

    uids_and_tweets_total =

    [(x,y) for x,y in uids_dict.items()]

    uids_and_tweets_total.sort(key=lambda

    k:k[1],reverse=True)

    return

    uids_and_tweets_total[0][0]

    return "null"

    assert get_user_by_max_tweets()

    == 'null'

    assert

    get_user_by_max_tweets('ab','cds') == 'null'

    assert

    get_user_by_max_tweets('ab','cds','123b') == 'null'

    assert

    get_user_by_max_tweets('12342','cd') == '12342'

    assert

    get_user_by_max_tweets('28803555',28803555) ==

    '28803555'

    assert

    get_user_by_max_tweets('28803555',28803555,'96165754') ==

    '28803555'

    #12

    该文本里,谁发的微博内容长度最长

    lines_by_content_length =

    [(line[keys['username']],len(line[keys['content']])) for line in

    lines]

    lines_by_content_length.sort(key=lambda

    k:k[1],reverse=True)

    user_by_max_content =

    lines_by_content_length[0][0]

    # todo 如果有多个最多怎么办?

    assert

    type(user_by_max_content) == str

    #13

    该文本里,谁转发的URL最多

    lines_by_rt =

    [(line[keys['uid']],int(line[keys['rt_num']])) for line in lines if

    line[keys['rt_num']] != '']

    lines_by_rt.sort(key=lambda

    k:k[1],reverse=True)

    user_by_max_rt =

    lines_by_rt[0][0]

    assert type(user_by_max_rt) ==

    str

    #14

    该文本里,11点钟,谁发的微博次数最多。

    lines_on_hour11 = filter(lambda

    line:line[keys['created_at']].startswith('11',11,13),lines)

    lines_by_uid_on_hour11 =

    {k[keys['uid']]:0 for k in lines_on_hour11}

    for line in

    lines_on_hour11:

    uid = line[keys['uid']]

    lines_by_uid_on_hour11[uid] += 1

    d = [(k,v) for k,v in

    lines_by_uid_on_hour11.items()]

    d.sort(key=lambda

    k:k[1],reverse=True)

    uid_by_max_tweets_on_hour11 =

    d[0][0]

    # todo 如果有多个最多怎么办?

    assert

    type(uid_by_max_tweets_on_hour11) == str

    #15 该文本里,哪个用户的源微博URL次数最多。

    (要求:输出用户的uid,字符串格式。)

    uid_by_v_url =

    {k[keys['uid']]:0 for k in lines}

    for line in lines:

    uid = line[keys['uid']]

    if lines[keys['v_url']] != '':

    uid_by_v_url[uid] += 1

    uid_sort_by_v_url = [(k,v) for

    k,v in uid_by_v_url.items()]

    uid_sort_by_v_url.sort(key=lambda

    k:k[1],reverse=True)

    uid_by_max_v_url =

    uid_sort_by_v_url[0][0]

    # todo 如果有多个最多怎么办?

    assert type(uid_by_max_v_url)

    == str

    print '运算时间:%s'%(time.time() -

    now) #整体运行时间

    展开全文
  • python文本挖掘

    2018-11-22 10:24:03
    相似度分析、文本情感分析 、文本过滤、词云、皮尔逊原理
  • 1、简介在机器学习领域,LDA是两个常用...本文的LDA是指Latent Dirichlet Allocation,它在主题模型中占有非常重要的地位,常用来文本分类。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档...

    1、简介

    在机器学习领域,LDA是两个常用模型的简称:Linear Discriminant Analysis和Latent Dirichlet Allocation。本文的LDA是指Latent Dirichlet Allocation,它在主题模型中占有非常重要的地位,常用来文本分类。

    LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。

    2、原理

    LDA模型它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

    人类生成文档是基于概率选取主题及其对应的词汇的方式,即一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。

    那么LDA要做的就是通过文档反推主题。文档到主题服从多项式分布,主题到词服从多项式分布。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

    用LDA来进行主题建模就是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构,这种方法不需要任何关于文本的背景知识。

    3、实现过程

    这一过程可以通过Python轻松实现。需要的Python 包有:

    •pandas,pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。在 Windows 下使用 pip 安装:pip install pandas.•gensim,包含我们要用到的 LDA 模型的一个主题模型包。在 Windows 下使用 pip 安装:pip install gensim.•jieba,是一款优秀的 Python 第三方中文分词库。在 Windows 下使用 pip 安装:pip install jieba.

    3.1 导入包

    3.2 分词

    3.3 词典化

    3.4 将文档表示成词袋向量

    3.5 LDA建模

    打印主题

    完整代码

    输出结果

    成长离不开与优秀的伙伴共同学习,如果你需要好的学习环境,好的学习资源,项目教程,零基础学习,这里欢迎每一位热爱Python的小伙伴,点击:Python学习圈

    展开全文
  • LawCrimeMining ... 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目 项目地址:https://github.com/liuhuanyong/LawCrimeMining 项目介绍 正邪不两立,法律与犯罪水火不容,随着我国法...

    LawCrimeMining

    Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目
    项目地址:https://github.com/liuhuanyong/LawCrimeMining

    项目介绍

    正邪不两立,法律与犯罪水火不容,随着我国法制建设不断健全,法规日趋完善,人们的法律意识也越来越强.当前,随着越来越多的法律文本公开,为犯罪案件审理这个方面的挖掘积累了大量的文本内容.因此,通过收集法律与犯罪领域文本,构建起司法领域语料库,并使用自然语言处理技术进行挖掘,具有重要意义,我们将其称为法律智能,引用smp2018司法论坛的发言来说,法律智能包括以下几个应用点:

    1. 面向案例文书的判决预测:根据案件的案情描述,预测最终的判决结果。
    2. 拓扑结构预测的判决预测:通过法官的判案逻辑找到子任务之间的依赖关系。
    3. 引入区分性属性的罪名预测,包括低频罪名、混淆罪名的相应预测:通过引入显式的属性,能对低频罪名进行基于属性的判断,对混淆罪名进行区分;此外还能采用多任务学习及注意力机制训练基于属性的罪名预测模型。
    4. 基于层次结构的案由预测:通过刑事案由(罪名)和民事案由的层次结构,结合案由本身的文本信息,采用序列预测及基于案由名称的注意力机制,训练相应模型。
    5. 基于法律阅读理解的判决预测:由于在民事案件中判决结果需要结合原告的具体诉求,可以建立基于阅读理解机制,模仿「人带着问题找答案」的阅读理解行为进行案件判决的预测。

    项目结构

    本项目由两个部分组成:
    1)司法领域语料库的构建,这个部分细分为两个子库,一个是法律裁判文书,另一个是犯罪案例
    2)基于司法领域语料库的挖掘, 尝试进行以下实验:
    a) 刑事与民事案件分类
    b) 案件语义区域识别
    c) 犯罪事实与量刑结果二元抽取
    d) 基于犯罪案例的判决预测

    脚本结构

    1)script_spider:
    anliwang_spider.py:案例馆语料采集,案例馆中主要有各种案例,用于构建犯罪案例语料库
    sifafwang_spider.py:司法考试网语料采集,该网站中有各类案例,用于构建犯罪案例语料库
    courtlaw_spider.py:最高人民法院裁判文书采集,用于构建裁判文书语料库
    lawlib_spider.py: 法律图书馆网站裁判文书采集,用于构建裁判文书语料库
    2) corpus_lawsuit:
    裁判文书语料库的1000个文本样例,执行采集脚本后,可得到108545,量级为十万的裁判文书
    3) corpus_crime:
    犯罪案例语料库的1000个文本样例,指定采集脚本后,可得到63451, 量级为6万的犯罪案例

    基于刑法的因果字典抽取

    根据中国人民刑法,对其进行因果处理,形成crime_nanme, cause, crime三个字段的抽取,形成量刑的基础,示例如下:

    {
    'crime_name': ['故意伤害罪', '组织出卖人体器官罪'],
    'cause': ['故意伤害他人身体的'],
    'crime': '三年以下有期徒刑、拘役或者管制'
    }
    {
    'crime_name': ['故意伤害罪', '组织出卖人体器官罪'], 
    'cause': ['致人死亡或者以特别残忍手段致人重伤造成严重残疾的'], 
    'crime': '十年以上有期徒刑、无期徒刑或者死刑'
    }
    {
    'crime_name': ['过失致人重伤罪'],
    'cause': ['过失伤害他人致人重伤的'],
    'crime': '三年以下有期徒刑或者拘役'
    }
    {
    'crime_name': ['强奸罪'], 
    'cause': ['以暴力、胁迫或者其他手段强奸妇女的'],
    'crime': '三年以上十年以下有期徒刑'
    }
    {
    'crime_name': ['强制猥亵、侮辱罪、猥亵儿童罪'],
    'cause': ['以暴力、胁迫或者其他方法强制猥亵他人或者侮辱妇女的'], 
    'crime': '五年以下有期徒刑或者拘役'
    }
    {
    'crime_name': ['非法拘禁罪'], 
    'cause': ['非法拘禁他人或者以其他方法非法剥夺他人人身自由的'], 
    'crime': '三年以下有期徒刑、拘役、管制或者剥夺政治权利'
    }
    {
    'crime_name': ['非法拘禁罪'], 
    'cause': ['致人死亡的'], 
    'crime': '十年以上有期徒刑'
    }
    

    to be continued…

    项目地址:https://github.com/liuhuanyong/LawCrimeMining
    If any question about the project or me ,see https://liuhuanyong.github.io/

    展开全文
  • 文本挖掘过程及案例

    千次阅读 2013-05-30 13:45:04
    一个文本挖掘过程及案例 [Nirvana 发表于 2007-4-23 23:34:00] 一、文本挖掘概念  在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档...
  • 文本挖掘实例

    千次阅读 2016-02-04 15:44:28
    文本挖掘 junjun 2016年2月4日 文本分析的应用越来越广泛,今天就讲讲关于评论数据的那点事。 评论数据的获取:一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的...
  • 文本挖掘与社会网络分析课程教材,内容包括文本处理、文本分析、信息检索系统、文本分类、文本聚类、矩阵分解与话题模型、文本情感分析、知识图谱、社会网络分析理论、Gephi可视化、社会网络分析实践与案例
  • Python数据挖掘-文本挖掘

    万次阅读 多人点赞 2017-09-13 11:15:19
    文本挖掘概要搞什么的? 从大量文本数据中,抽取出有价值的知识,并且利用这些知识更好的组织信息的过程。 目的是什么? 把文本信息转化为人们可利用的知识。 举例来说,下面的图表利用文本挖掘技术对库克iphoneX ...
  • python文本挖掘(三)——实例2

    千次阅读 2019-10-28 20:07:32
    参考链接: 文本可视化[二]——《今生今世》人物关系可视化python实现
  • R语言-文本挖掘例子

    万次阅读 2015-11-18 10:24:52
    以总理2015报告原文进行挖掘处理,先将报告内容保存为TXT格式文本。 需要的包:rJava,Rwordseg,wordcloud。 library(rJava) library(Rwordseg) library(wordcloud) 1、读入文本数据 mydata 2、中文分词 ...
  • 新闻文本数据挖掘案例——基于词向量化得数据挖掘
  • 原标题:Python小说文本挖掘正则表达式分析案例原文链接:http://tecdat.cn/?p=5673 数据集约瑟夫海勒捕捉22是我最喜欢的小说。我最近读完了 ,并喜欢整本书中语言的创造性使用和荒谬人物的互动。对于我的可视化类,...
  • 文本挖掘的相关实例

    千次阅读 2016-12-27 11:14:02
    数据集收集: 搜狗实验室Word2vec使用
  • 算法案例(4):电商文本挖掘与市场研究.ipynb
  • 分析小说《玩偶之家》 参考链接: 文本可视化[一]——《今生今世》词云生成与小说分析
  • 数据简介 本案例用到的原始数据是一个简单...Date:日期数据,本案例文本分析就不用这个数据了。 Label:当日股票市场情况,1代表上涨,0代表下跌。 Top*:共25列,表示当日的相关新闻。 下面利用TF-IDF简单的跑一...
  • R七种武器之文本挖掘

    2019-05-05 11:44:52
    自然语言处理与文本挖掘是机器学习当前最神秘,最红火,最具难度,也最让引人关注的分支。 文本挖掘(Text Mining)是数据挖掘的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页所产生的BBS...
  • 基于文本内容的垃圾短信分类总体流程数据展示数据抽取数据预处理数据清洗去除空格x序列x序列文本去重分词中文分词添词典去停用词去停用词绘制词云文本向量的表示One-Hot表达TF-IDF权重策略文本分类实例模型训练及...
  • 点击「京东数科技术说」可快速关注「摘要」在以互联网为核心,信息不断发展的今天,文本信息作为最重要的网络资源,其中隐含着大量的模式与知识亟待发现与利用。虽然在广泛的数据资源中充斥着大量非...
  • 三项目总结一、项目背景此项目是用于基建大数据的文本挖掘。首先爬虫师已经从各个公开网站上采集了大量的文本,这些文本是关于基建行业的各种招中标公告,文本里会有部分词汇明显或者隐晦的介绍此项目是关于哪一工程...
  • 文本挖掘的详细原理,常用的技术方法及相应的案例做了详细的介绍和分析。是一本非常实用的指导教材。
  • 文本挖掘

    千次阅读 2019-09-29 17:15:15
    一、文本挖掘·概念 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程,是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本...
  • "/data" , sep = "" ) setwd ( pfolder ) 1 项 目概况 该项目试图建立一个预测文本模型,可以用来预测计算机或移动设备的用户输入的下一个单词。该项目将使用由英语语 料库开发的退避模型,该模型具有由网络爬虫...
  • Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目
  • 文本挖掘技术案例视频

    千次阅读 2015-04-15 22:14:54
    文本挖掘的定义 文本挖掘即文本数据库中的知识发现,是从大量文本的集合或语料库中发现隐含的、有潜在使用价值的模式和知识。 主题挖掘,通过分类或者聚类的方法找出主题相同的文本; 情感分析,通过处理能...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,499
精华内容 5,799
关键字:

文本挖掘案例