精华内容
下载资源
问答
  • 分词数据集

    2021-07-03 01:52:03
    分词数据集 1. SIGHAN 2005数据集 数据集简介: SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合...

    分词数据集

    1. SIGHAN 2005数据集

    • 数据集简介:

      SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集,PKU 和 MSR 为简体中文数据集。

    • 数据集详情:

      名称规模创建日期单位论文下载评测
      MSR2368391词,4050469字2005年微软亚洲研究院链接SIGHAN2005icwb2 result summary
      PKU1109947词,1826448字2005年北京大学链接SIGHAN2005icwb2 result summary
      AS5449698词,8368050字2005年台湾中央研究院链接SIGHAN2005icwb2 result summary
      CityU1455629词,2403355字2005年香港城市大学链接SIGHAN2005icwb2 result summary
    • 基于该数据集发表的论文

      • Chen X , Xipeng Qiu∗, Zhu C , et al. Long Short-Term Memory Neural Networks for Chinese Word Segmentation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
        Cai D , Zhao H . Neural Word Segmentation Learning for Chinese[J]. 2016.

      • Chen X , Shi Z , Qiu X , et al. Adversarial Multi-Criteria Learning for Chinese Word Segmentation[J]. 2017.

      • Jie Yang, Yue Zhang, Fei Dong. Neural Word Segmentation with Rich Pretraining[C]// The 55th Annual Meeting of the Association for Computational Linguistics (ACL). 2017.

      • Ma J , Ganchev K , Weiss D . State-of-the-art Chinese Word Segmentation with Bi-LSTMs[J]. 2018.

      • Huang W , Cheng X , Chen K , et al. Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning[J]. 2019.

    2. 微博分词数据集

    • 数据集简介:

      Weibo分词数据集NLPCC2016分词赛道使用的数据集,该数据集由复旦大学根据新浪微博的数据标注生成,包含更多口语化的文本。该数据集包含经济,运动,环境等多种主题的语料,并且除了训练数据以外,该数据集还提供了相关背景数据,以供结合无的监督方法进行训练和使用。验证集和测试集的OOV率分别为6.82%和6.98%。

    • 数据集详情:

      名称规模创建日期作者论文下载评测
      weibo30779个句子,652740词,1077854字2016年Xipeng Qiu链接链接N/A
    • 基于该数据集发表的论文

      Luo, Ruixuan, et al. “PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation.” arXiv preprint arXiv:1906.11455 (2019).

    展开全文
  • NLP分词数据准备及模型训练实例 目录 NLP分词数据准备及模型训练实例 方案分析及梳理 ...PKU一般指代北大数据集 ...MSR指代微软数据集 ...CTB指代Chinese Treebank 5.0...自然语言处理+数据准备 Machine readable vector
    展开全文
  • 机器学习算法中自然语言处理常用数据集(新闻数据集news.csv)及jieba_dict字典、停用词等相关文件,包括以下文件 data/news.csv jieba_dict/dict.txt.big jieba_dict/stopwords.txt jieba_dict/stopwords_s.txt
  • 不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。 在人机自然语言交互中...

    中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。

    在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。竹间智能在构建中文自然语言对话系统时,结合语言学不断优化,训练出了一套具有较好分词效果的算法模型,为机器更好地理解中文自然语言奠定了基础。

    中文分词根据实现原理和特点,主要分为以下2个类别:

    1、基于词典分词算法

    也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法双向匹配分词法等。

    基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。

    2、基于统计的机器学习算法

    这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。

    Nianwen Xue在其论文《Combining Classifiers for Chinese Word Segmentation》中首次提出对每个字符进行标注,通过机器学习算法训练分类器进行分词,在论文《Chinese word segmentation as character tagging》中较为详细地阐述了基于字标注的分词法。

    常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。

    随着深度学习的兴起,也出现了基于神经网络的分词器,例如有人员尝试使用双向LSTM+CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型,据报道其分词器字符准确率可高达97.5%。算法框架的思路与论文《Neural Architectures for Named Entity Recognition》类似,利用该框架可以实现中文分词,如下图所示:

    首先对语料进行字符嵌入,将得到的特征输入给双向LSTM,然后加一个CRF就得到标注结果。

     

    分词器当前存在问题

    目前中文分词难点主要有三个:

    1、分词标准:比如人名,在哈工大的标准中姓和名是分开的,但在Hanlp中是合在一起的。这需要根据不同的需求制定不同的分词标准。

    2、歧义:对同一个待切分字符串存在多个分词结果。

    歧义又分为组合型歧义、交集型歧义和真歧义三种类型。

    1. 组合型歧义:分词是有不同的粒度的,指某个词条中的一部分也可以切分为一个独立的词条。比如“中华人民共和国”,粗粒度的分词就是“中华人民共和国”,细粒度的分词可能是“中华/人民/共和国”
    2. 交集型歧义:在“郑州天和服装厂”中,“天和”是厂名,是一个专有词,“和服”也是一个词,它们共用了“和”字。
    3. 真歧义:本身的语法和语义都没有问题, 即便采用人工切分也会产生同样的歧义,只有通过上下文的语义环境才能给出正确的切分结果。例如:对于句子“美国会通过对台售武法案”,既可以切分成“美国/会/通过对台售武法案”,又可以切分成“美/国会/通过对台售武法案”。

    一般在搜索引擎中,构建索引时和查询时会使用不同的分词算法。常用的方案是,在索引的时候使用细粒度的分词以保证召回,在查询的时候使用粗粒度的分词以保证精度。

    3、新词:也称未被词典收录的词,该问题的解决依赖于人们对分词技术和汉语语言结构的进一步认识。

     

    另外,我们收集了如下部分分词工具,供参考:

    中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/

    ansj分词器 https://github.com/NLPchina/ansj_seg

    哈工大的LTP https://github.com/HIT-SCIR/ltp

    清华大学THULAC https://github.com/thunlp/THULAC

    斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

    Hanlp分词器 https://github.com/hankcs/HanLP

    结巴分词 https://github.com/yanyiwu/cppjieba

    KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

    ZPar https://github.com/frcchang/zpar/releases

    IKAnalyzer https://github.com/wks/ik-analyzer

     

    以及部分分词器的简单说明:

    哈工大的分词器:主页上给过调用接口,每秒请求的次数有限制。

    清华大学THULAC:目前已经有Java、Python和C++版本,并且代码开源。

    斯坦福分词器:作为众多斯坦福自然语言处理中的一个包,目前最新版本3.7.0, Java实现的CRF算法。可以直接使用训练好的模型,也提供训练模型接口。

    Hanlp分词:求解的是最短路径。优点:开源、有人维护、可以解答。原始模型用的训练语料是人民日报的语料,当然如果你有足够的语料也可以自己训练。

    结巴分词工具:基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。

    字嵌入+Bi-LSTM+CRF分词器:本质上是序列标注,这个分词器用人民日报的80万语料,据说按照字符正确率评估标准能达到97.5%的准确率,各位感兴趣可以去看看。

    ZPar分词器:新加坡科技设计大学开发的中文分词器,包括分词、词性标注和Parser,支持多语言,据说效果是公开的分词器中最好的,C++语言编写。

     

    关于速度:

    由于分词是基础组件,其性能也是关键的考量因素。通常,分词速度跟系统的软硬件环境有相关外,还与词典的结构设计和算法复杂度相关。比如我们之前跑过字嵌入+Bi-LSTM+CRF分词器,其速度相对较慢。另外,开源项目 https://github.com/ysc/cws_evaluation 曾对多款分词器速度和效果进行过对比,可供大家参考。

     

    最后附上公开的分词数据集

    测试数据集

    1、SIGHAN Bakeoff 2005 MSR,560KB

    http://sighan.cs.uchicago.edu/bakeoff2005/

    2、SIGHAN Bakeoff 2005 PKU, 510KB

    http://sighan.cs.uchicago.edu/bakeoff2005/

    3、人民日报 2014, 65MB

    https://pan.baidu.com/s/1hq3KKX

    展开全文
  • 使用jieba对垃圾短信数据集进行分词,然后统计其中的单词出现的个数,找到出现频次最高的top100个词。

    一、基本要求

    使用jieba对垃圾短信数据集进行分词,然后统计其中的单词出现的个数,找到出现频次最高的top100个词。
    

    二、完整代码

    # -*- coding: UTF-8 -*-
    from collections import Counter
    import jieba.analyse
    import re
    import time
    
    #分词模板
    def cut_word(datapath):
        with open(datapath, 'r',encoding='utf-8') as fr:
            string=fr.read()
            print(type(string))
            #对文件中的非法字符进行过滤
            data=re.sub(r"[\s+\.\!\/_,$%^*(【】:\]\[\-:;+\"\']+|[+——!,。?、~@#¥%……&*()]+|[0-9]+","",string)
            word_list= jieba.cut(data)
            print(word_list)
            return word_list
    #词频统计模块
    def statistic_top_word(word_list,top=100):
        #统计每个单词出现的次数,别将结果转化为键值对(即字典)
        result= dict(Counter(word_list))
        print(result)
        #sorted对可迭代对象进行排序
        #items()方法将字典的元素转化为了元组,而这里key参数对应的lambda表达式的意思则是选取元组中的第二个元素作为比较参数
        #排序厚的结果是一个列表,列表中的每个元素是一个将原字典中的键值对转化为的元祖
        sortlist=sorted(result.items(),key=lambda item:item[1],reverse=True)
        resultlist=[]
        for i in range(0,top):
            resultlist.append(sortlist[i])
        return resultlist
    
    #主函数
    def main():
        #设置数据集地址
        datapath='F:\\python3\\nlp\\data\\spam.txt'
        #对文本进行分词
        word_list=cut_word(datapath)
        #统计文本中的词频
        statistic_result=statistic_top_word(word_list,100)
        #输出统计结果
        print(statistic_result)
    
    if __name__ == "__main__":
        main()

    三、相关知识点

    1、jieba分词:三种模式,详见[相关介绍](http://www.jianshu.com/p/c434be968dee)
    2、对字典进行排序:字典可以实现对键和值分别排序。详见[原文链接](http://blog.csdn.net/tangtanghao511/article/details/47810729)
    3、python 过滤中文、英文标点特殊符号:在进行分词前,主要是利用正则表达式对欲分词文本进行过滤,利用re.sub()函数对“非法”字符进行空字符替换。详见[原文链接](http://blog.csdn.net/mach_learn/article/details/41744487)
    

    四、相关参考

    1、[python数据分析:jieba模块对数据进行切词并统计出现每个词的次数](http://www.linuxyw.com/810.html)
    2、[python的sorted函数对字典按key排序和按value排序](http://blog.csdn.net/tangtanghao511/article/details/47810729)
    3、[python 过滤中文、英文标点特殊符号](http://blog.csdn.net/mach_learn/article/details/41744487)
    
    展开全文
  • NLP分词工具

    2019-10-25 22:04:28
    NLP分词工具 目录 无心学习的一个晚上,写下了自己的第一篇博客。自己存档用,不小心看到了我请跳过 吐槽(一堆废话) 被NLP支配的恐惧。。。本人是搞电的啊喂,每次都在怀疑自己是不是转行了,郁闷的是看了好多别人...
  • 自然语言处理nlp) 转行新手必看 day1自然语言处理基础梳理 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录自然语言处理nlp) 转行新手必看day1自然语言处理基础梳理前言一、nlp...
  • 文章目录环境问题Hanlp代码解读Hanlp分词Hanlp分词标准分词NLP分词索引分词极速词典分词自定义分词...最近因为学校项目的原因,开始从爬虫接触到自然语言处理,这方面市面上的教程还是比较少的,很多时候网上也找...
  • 医疗NLP相关数据集整理

    千次阅读 多人点赞 2020-09-20 22:11:15
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要5分钟跟随小博主,每天进步一丢丢整理:python遇见NLP在Github上搜索整理了一波关于医疗NLP数据集: 1 中文评测数据...
  • 自然语言处理任务数据集 keywords: NLP, DataSet, corpus process 语料处理一般步骤 以下处理步骤出自[Mikolov T, et al. Exploiting Similarities among Languages for Machine Translation[J]. Computer Science, ...
  • NLP 分词相关知识

    2018-09-25 17:09:47
    1.2 中文分词方法介绍   现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。   1.2.1 基于字符串匹配的分词方法   基于字符串匹配的分词方法又称机械分词...
  • 深度学习-自然语言处理(NLP)-第三方库(工具包):HanLP(更适合中文数据集)【命名实体识别、分词、词性标注、依存句法分析、语义角色标注】
  • 中科院NLPIR(推荐) ... 原名ICTCLAS,是由中科院计算所历经数年开发的分词工具,采用C++编写。 主要功能包括分词、词性标注、命名实体识别、用户词典功能,新词发现与关键词...语言技术平台(LTP)是哈工大社会计算
  • NLP数据分词小整理

    2019-01-04 10:26:52
    学术上一般是用自然语言处理的方法,但在实践中通常是利用规则。 我们要熟悉的概念和工具有 (假设大家已经熟悉了Python) 正则表达式 :正则表达式是字符串处理的基本功。常用工具re.数据爬取、数据清洗、实体提取...
  • 文本分类数据集汇总名词解释一、“达观杯”文本智能处理挑战赛数据集1、数据格式2、测试集:test_set.csv数据集数据集三参考文献 名词解释 (1)脱敏处理 一、“达观杯”文本智能处理挑战赛数据集 “达观杯”文本...
  • 一、自然语言处理 1.1 分词简介 1.2 分词算法:三大类 1.3 词特征表示 1.4 分类算法 二、案例 2.1 Jieba分词 2.2 词袋模型(Bag of Words) 2.3 TF-IDF(词频-逆文档频率) 开发环境jupyter ...
  • 自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算 数据集提取: 公众号:YOLO的学习进阶日常 然后回复:nlp1 安装本地飞桨 本人 win10 python3.7 用的CPU 安装方式: pip install ...
  • awesome-nlp-polish:精选的波兰自然语言处理NLP)资源列表。 模型,工具,数据集
  • 一、安装 使用 pip 安装 pip install pyltp # pip install pyltp -i https://pypi.tuna.tsinghua.edu.cn/simple 可以先下载好whl文件 #LTP语言平台:http://ltp.ai/index.html #咱们使用的工具包,pyltp:...
  • 分词作为NLP的一项基本任务,其算法和原理的相关研究,在之前的文章(https://blog.csdn.net/weixin_44526949/article/details/98063167)中已经做了基本介绍。目前,分词技术也非常的成熟,而且研究人员也开发了很多...
  • 它为50多种语料库和词汇资源(如WordNet)提供了易于使用的界面,还提供了一套用于分类,标记化,词干化,标记,解析和语义推理的文本处理库,用于工业级NLP库的包装器,和积极的讨论论坛。由于实践指南介绍了编程...
  • 点上方蓝字人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于 :深度学习与NLP资源整理了文本分类...
  • 安然数据集:安然集团高级管理层的电子邮件数据。 亚马逊评论:3500万条来自亚马逊的评论,时间长度为18年。数据包括产品和用户信息、评级等。 Google Books Ngram:来自Google书籍的词汇集合。 博客语料库:从...
  • 人工智能-自然语言处理(NLP):NLP技术的四个维度【声音/Phonetics、单词/Morphology、句子结构/Syntax、语义/Semantic】
  • 自然语言处理之中文分词器详解

    千次阅读 2018-01-07 13:38:19
    中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词分词效果将直接影响词性,句法树等模块...
  • 自然语言处理中文数据集入口整理

    千次阅读 2020-04-17 14:15:15
     Large Scale Chinese Corpus for NLP https://github.com/crownpku/Awesome-Chinese-NLP#corpus-中文语料 中文语料 https://github.com/InsaneLife/ChineseNLPCorpus 中文自然语言处理数据集 2 新闻分类 今日...
  • NLP任务数据集汇总

    2020-02-05 20:14:50
    三、中文分词: 1、词典: (1)搜狗实验室发布的互联网词库(SogouW,15w词条)www.sogou.com/labs/resource/w.php (2)清华大学开放中文词库(THUOCL)thuocl.thunlp.org (3)HanLP发布...
  • 本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并...整个语料大小264M,包含1116903条数据数据用空格隔开,可以用来训练分词模型。
  • 文本预处理的基本方法1.1 jieba模块分词1.1.1 精确模式分词1.1.2 全模式分词1.1.3 搜索引擎模式分词1.1.4 中文繁体分词1.1.5 自定义词典分词1.2 hanlp模块1.2.1 中文分词1.2.2 英文分词1.2.3 命名实体识别1.2.4 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,651
精华内容 5,060
关键字:

nlp分词数据集