精华内容
下载资源
问答
  • 人民日报中文分词语料库
  • 语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。(使用时尽量注明...
  • 做毕设自用的中文新闻文本分类语料库,整理自搜狗新闻和清华新闻语料,共八个类别,每类已分好4000条训练集和1000条测试集。附赠一份停用词表,综合了哈工大停用词及川大停用词。
  • 复旦大学谭松波中文文本分类语料库,资源免积分下载,仅供大家学习使用,这个数据集到底怎么用我也没试过。
  • 人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
  • 本文介绍了银行疑问句(BQ)语料库,这是一种用于句子语义对等识别(SSEI)的中文语料库。 BQ语料库包含来自1年在线银行客户服务日志的120,000个问题对。 为了有效地处理和注释来自如此大量日志的问题,本文提出了一...
  • 实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的...
  • 中文语料库有哪些

    万次阅读 2018-05-04 11:21:43
    中文自然语言处理开放平台 由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试...文本语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=16&...

    中文自然语言处理开放平台

    由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。 
    语料库:   http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15 
    文本语料库:   http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15

    sogou文本分类语料库

    文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。  
    地址:   http://www.sogou.com/labs/dl/c.html

    中文Web信息检索论坛

    中文Web信息检索论坛(Chinese Web Information Retrieval Forum,简称CWIRF)是由北京大学网络实验室从2004年6月起建立并维护的以大规模中文Web信息为测试集的信息检索研究论坛。

    CWT(Chinese Web Test collection, 中文Web测试集):

    ComPaper10th 
    Computer Paper collection with more than 10 thousand papers 
    CWT70th 
         Chinese Web Test collection with 70 thousand pages 
         CWT70th顺序读取程序 
    CWT200g 
         Chinese Web Test collection with 200 GB web pages. 
         CWT20g_of_200g 
         CWT200g样例下载 
         CWT200g顺序读取程序

    CWT相关工具     

    中文网页分类训练集

    CCT2006  
    2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03. 根据常见的新闻类别而设定的分类体系,从新闻网站上抓取得到对应 类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页, 分布在8个类别中。   下载 
    CCT2002-v1.1  

    2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1,   说明 。 是在CCT2002-v1.0 的基础上对类别进行了部分修正. 是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生, 人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。 它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。   下载

    -----------------------

    一、语料库链接

    下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
    (1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
    中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。


    (2).搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
    包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。


    (3).李荣陆老师的中文语料库 http://www.datatang.com/data/11968
    压缩后有240M大小


    (4).谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
    不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php
     

    (5).网易分类文本数据 http://www.datatang.com/data/11965
    包含运动、汽车等六大类的4000条文本数据。
     

    (6).中文文本分类语料 http://www.datatang.com/data/11963
    包含Arts、Literature等类别的语料文本。
     

    (7).更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
    搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载
     

    (8).2002年中文网页分类训练集http://www.datatang.com/data/15021
    2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。

    ————————————————————————————————————————————————

    二、有效的分词工具

    将预料库进行分词并去掉停用词,可以使用的分词工具有:
    StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文),这几种分词工具的区别,可以参加:http://blog.csdn.net/wauwa/article/details/7865526。

    “无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”

     

    展开全文
  • 30万条书籍评论,包括长短评论,正面负面中性评论,中文语料库,可以用于训练做情感分析。
  • 中文语料库

    万次阅读 2016-12-16 15:22:53
    1. 语料库类别语料库可分为生语料库和标注语料库。 标注语料库,如分词库,分词与词性标注库,树库,命题库,篇章树库。 中文分词库的目的是训练和测试汉语的自动分词系统,其他库的目的类似。 树库以句法...

    1. 语料库的类别:

    语料库可分为生语料库和标注语料库。
    标注语料库,如分词库,分词与词性标注库,树库,命题库,篇章树库。
    中文分词库的目的是训练和测试汉语的自动分词系统,其他库的目的类似。
    树库以句法结构信息为主要标注内容。
    命题库以谓词-论元结构信息为主要标注内容。
    篇章树库以篇章结构信息为主要内容。
    也有语料库可用于文本分类,主题检测(如搜狗文本分类语料库)。

    语料库可分为通用库和专用库。
    专用库如,科技语料库,北京口语语料库,中文地名标注语料库等。


    2. 部分公开发布的语料库的网址:

    1998年北京大学人民日报语料库:
    (中文分词语料库)

    LDC中文树库:
    网址http://www.cis.upenn.edu/~chinese/ctb.html,包含词性标注和句法标注。

    北京语言大学的语料库:

    清华大学的汉语均衡语料库TH-ACorpus:

    山西大学的语料库:  

    台湾中研院的语料库: 

    现代汉语平衡语料库: 

    近代汉语标记语料库:

    古汉语语料库:

    台湾南岛语典藏:

    闽南语典藏:

    汉籍电子文献:

    香港城市大学的 LIVAC 共时语料库:

    浙江师范大学的历史文献语料库:

    中国科学院计算所的双语语料库:

    中文语言资源联盟:http://www.chineseldc.org/xyzy.htm 

    2.语料库

    文本分类作为一项基础的研究,技术上已经很成熟了。下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。 
      
    1.中科院自动化所的中英文新闻语料库    http://www.datatang.com/data/13484 
    中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。 
      
    2.搜狗的中文新闻语料库    http://www.sogou.com/labs/dl/c.html 
    包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。 
      
    3.李荣陆老师的中文语料库    http://www.datatang.com/data/11968 
    压缩后有240M大小 
      
    4.谭松波老师的中文文本分类语料    http://www.datatang.com/data/11970 
    不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。 
      
    5.网易分类文本数据    http://www.datatang.com/data/11965 
    包含运动、汽车等六大类的4000条文本数据。 
      
    6.中文文本分类语料    http://www.datatang.com/data/11963 
    包含Arts、Literature等类别的语料文本。 

    展开全文
  • 【自然语言处理】浅谈语料库

    万次阅读 多人点赞 2018-11-05 10:19:29
    文章目录【自然语言处理】浅谈语料库前言一、浅谈语料库1、语料和语料库2、语料库语言学3、 建议语料库的意义二、语料库深入了解1、语料库划分与种类2、语料库构建原则3、语料标注的优缺点三、自然语言处理工具包:...

    【自然语言处理】浅谈语料库

    前言

           本篇博文重在了解语料库以及获取相关语料库的资源介绍。

    一、浅谈语料库

    1、语料和语料库

           语料通常指在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。
            语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。其具备三个显著的特点:

        ⊚ 语料库中存放的是在语言的实际使用中真实出现过的语言材料。
        ⊚ 语料库以电子计算机为载体承载语言知识的基础资源,但并不等于语言知识。
        ⊚ 真实语料需要经过加工(分析和处理),才能成为有用的资源。

    2、语料库语言学

           语料库语言学的研究范畴:主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编制、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解、机器翻译等方面的应用。

    3、 建议语料库的意义

           语料库是为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。



           ok!!! 到了这里对于语料库,语料是个什么鬼也大体有了了解。接下来就更深入的了解关于语料库的知识吧!!!

    二、语料库深入了解

    1、语料库划分与种类

    冯志伟教授语料库划分比较有影响力且在学术上认可度比较高:

           ⊚ 按语料选取的时间划分,可分为历时语料库(diachronic corpus)和共时语料库(syn-chronic corpus)。
           ⊚ 按语料的加工深度划分,可分为标注语料库(annotated corpus)和非标注语料库(non- annotated corpus)。
           ⊚ 按语料库的结构划分,可分为平衡结构语料库(balance structure corpus)和自然随机结构的语料库(random structure corpus)。
           ⊚ 按语料库的用途划分,可分为通用语料库(general corpus)和专用语料库(specialized corpus)。
           ⊚ 按语料库的表达形式划分,可分为口语语料库(spoken corpus)和文本语料库(textcorpus)。
           ⊚ 按语料库中语料的语种划分,可分为单语种语料库(monolingual corpora)和多语种语料库(multilingual corpora)。多语种语料库又可以再分为比较语料库(comparable corpora)和平行语料库(parallel corpora)。比较语料库的目的侧重于特定语言现象的对比,而平行语料库的目的侧重于获取对应的翻译实例。
           ⊚ 按语料库的动态更新程度划分,可分为参考语料库(reference corpus)和监控语料库(monitor corpus)。参考语料库原则上不做动态更新,而监控语料库则需要不断地进行动态更新。

    2、语料库构建原则

    语料库应该具有代表性、结构性、平衡性、规模性、元数据,各个原则具体介绍如下:

           ⊚ 代表性:在应用领域中,不是根据量而划分是否是语料库,而是在一定的抽样框架范围内采集而来的,并且能在特定的抽样框架内做到代表性和普遍性。
           ⊚ 结构性:有目的地收集语料的集合,必须以电子形式存在,计算机可读的语料集合结构性体现在语料库中语料记录的代码、元数据项、数据类型、数据宽度、取值范围、完整性约束。
           ⊚平衡性:主要体现在平缓因子——学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、预料用途(私信/广告等),根据实际情况选择其中一个或者几个重要的指标作为平衡因子,最常见的平衡因子有学科、年代、文体、地域等。
           ⊚ 规模性:大规模的语料对语言研究特别是对自然语言研究处理很有用,但是随着语料库的增大,垃圾语料越来越多,语料达到一定规模以后,语料库功能不能随之增长,语料库规模应根据实际情况而定。
           ⊚ 元数据:元数据对于研究语料库有着重要的意义,我们可以通过元数据了解语料的时间、地域、作者、文本信息等;构建不同的子语料库;对不同的子语料对比;记录语料知识版权、加工信息、管理信息等。
           注意:汉语词与词之间没有空隙,不便于计算机处理,一般需要进行切词和词性标注。

    3、语料标注的优缺点

           ⊚ 优点:研究方便。可重用、功能多样、分析清晰。
           ⊚ 缺点:语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低。

    三、自然语言处理工具包:NLTK

    1、 了解NLTK

           NLTK(Natural language Toolkit):自然语言工具包,Python 编程语言实现的统计自然语言处理工具。它是由宾夕法尼亚大学计算机和信息科学的史蒂芬·伯德和爱德华·洛珀编写的。NLTK 支持NLP 研究和教学相关的领域,其收集的大量公开数据集、模型上提供了全面易用的接口,涵盖了分词、词性标注(Part-of-Speech tag,POS-tag)、命名实体识别(NamedEntity Recognition,NER)、句法分析(Syntactic Parse) 等各项NLP 领域的功能。广泛应用在经验语言学、认知科学、人工智能、信息检索和机器学习。

    2、 获取NLTK

    在这里插入图片描述
           执行exe 文件,会自动匹配到Python 安装路径,如果没有找到路径则说明NLTK 版本不正确,去官网选择正确版本号下载.
           获取NLTK链接:https://pypi.org/project/nltk/3.2.1/#files
           说明:NLTK 核心包主要包括如下:

           ⊚ NLTK-Data:分析和处理语言的语料库。
           ⊚ NumPy:科学计算库。
           ⊚ Matplotlib:数据可视化2D 绘图库。
           ⊚ NetworkX:存储和操作由节点和边组成的网络结构函数库。

    3、 Standford NLP 简介

           Stanford NLP:由斯坦福大学的NLP 小组开源的Java 实现的NLP 工具包,同样对NLP领域的各个问题提供了解决办法。斯坦福大学的NLP 小组是世界知名的研究小组,能将NLTK 和Stanford NLP 两个工具包结合起来使用,对于自然语言开发者再好不过了。2004 年Steve Bird 在NLTK 中加上了对Stanford NLP 工具包的支持,通过调用外部的jar 文件来使用Stanford NLP 工具包的功能,这样一来就变得更为方便好用。NLTK 提供的Stanford NLP 中的以下几个功能。

           ⊚ 中英文分词:StanfordTokenizer。
           ⊚ 中英文词性标注:StanfordPOSTagger。
           ⊚ 中英文命名实体识别:StanfordNERTagger。
           ⊚ 中英文句法分析:StanfordParser。
           ⊚ 中英文依存句法分析:StanfordDependencyParser。

    4、Standford NLP必要工具包说明

    ⊚ 分词依赖:stanford-segmenter.jar、slf4j-api.jar、data 文件夹相关子文件。
    ⊚ 命名实体识别依赖:classifiers、stanford-ner.jar。
    ⊚ 词性标注依赖:models、stanford-postagger.jar。
    ⊚ 句法分析依赖:stanford-parser.jar、stanford-parser-3.6.0-models.jar、classifiers。
    ⊚ 依存语法分析依赖:stanford-parser.jar、stanford-parser-3.6.0-models.jar、classifiers。压缩包下载和源码分析
    ⊚ 分词压缩包StanfordSegmenter 和StanfordTokenizer:下载stanford-segmenter-2015-12-09.zip(https://pan. baidu.com/s/1kVc20ib),解压获取目录中的stanford-segmenter-3.6.0.jar复制为stanford-segmenter.jar 和slf4j-api.jar。
    ⊚ 词性标注压缩包:下载stanford-postagger-full-2015-12-09.zip (https://pan.baidu.com/s/1hrVMSE4),解压获取stanford-postagger.jar。
    ⊚ 命名实体识别压缩包:下载stanford-ner-2015-12-09.zip (https://pan.baidu.com/s/
    1skOJb5r),解压获取stanford-ner.jar 和classifiers 文件。
    ⊚ 句法分析、句法依存分析:下载stanford-parser-full-2015-12-09.zip(http://pan.baidu.com/s/1nv6Q2bZ),解压获取stanford-parser.jar 和stanford-parser-3.6.0-models.jar

    四、获取语料库

    1、国内外著名语料库

           ⊚ 点通多语言语音语料库:
           ⊚ 宾州大学语料库: https://www.ldc.upenn.edu/
           ⊚ Wikipedia XML 语料库:http://www-connex.lip6.fr/~denoyer/wikipediaXML/
           ⊚ 中英双语知识本体词网:http://bow.ling.sinica.edu.tw/ 结合词网、知识本体与领域标记的词汇知识库。

    2、英文语料库

           ⊚ 古滕堡语料库:http://www.gutenberg.org/
           ⊚ 语料库在线: http://www.aihanyu.org/cncorpus/index.aspx#P0

    3、中文语料库

    1. 搜狗实验室新闻| 互联网数据: http://www.sogou.com/labs/
    2. 北京大学语言研究中心:http://ccl.pku.edu.cn/term.asp
    3. 计算机语言研究所:
    4. 数据堂: http://www.datatang.com/
    5. 中央研究院平衡语料库
    https://www.sinica.edu.tw/SinicaCorpus):专门针对语言分析而设计的,每个文句都依词断开并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0 版本。
    6. LIVAC 汉语共时语料库:http://www.livac.org/index.php?lang=tc
    7. 兰开斯特大学汉语平衡语料库: http://www.lancaster.ac.uk/fass/projects/corpus/
    8. 兰开斯特——洛杉矶汉语口语语料库 :http://www.lancaster.ac.uk/fass/projects/corpus/
    9. 语料库语言学在线:https://www.corpus4u.org/
    10.北京森林工作室汉语句义结构标注语料库:http://www.isclab.org.cn/csa/bfs-ctc.htm
    11.国家语委现代汉语语料库
    http://corpus.zhonghuayuwen.org/index.aspx
    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000 万字,为分词和词性标注语料。
    12.古代汉语语料库http://corpus.zhonghuayuwen.org/):网站现在增加了一亿字的古代
    汉语生语料,研究古代汉语的也可以去查询和下载。网站同时还提供了分词、词性标
    注软件,词频统计、字频统计软件。基于国家语委语料库的字频词频统计结果和发布
    的词表等进行建库,以供学习研究语言文字的同学和老师使用。
    13.《人民日报》标注语料库https://blog.csdn.net/eaglet/article/details/1778995):《人民日报》标注语料库中一半的语料(1998 年上半年)共1300 万字,已经通过《人民日报》新闻信息中心公开并提供许可使用权。其中一个月的语料(1998 年1 月)近200 万字在互联网上公布,可自由下载。
    14. 古汉语语料库https://www.sinica.edu.tw/ch):古汉语语料库包含以下五个语料库—— 上古汉语、中古汉语(含大藏经)、近代汉语、出土文献、其他。部分数据取自史语所汉籍全文数据库,故两者间内容略有重叠。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。
    15. 近代汉语标记语料库https://www.sinica.edu.tw/Early_Mandarin):为应对汉语史研究需
    求而建构的语料库。目前语料库所搜集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。
    16. 树图数据库http://treebank.sinica.edu.tw/
    17.搜文解字http://words.sinica.edu.tw/):包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,以及直接链接到出处并阅读原文。
    18.文国寻宝记https://www.sinica.edu.tw/wen):在搜文解字的基础之上,以华语文学习者
    为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合。与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。
    19. 汉籍电子文献https://www.sinica.edu.tw/ch):包含整部25 史整部阮刻13经、超过2000 万字的台湾史料、1000 万字的大正藏及其他典籍。
    20. 中国传媒大学文本语料库检索系统http://ling.cuc.edu.cn/RawPub/
    21. 在线分词标注系统(http://ling.cuc.edu.cn/cucseg/
    22. 新词语研究资源库(http://ling.cuc.edu.cn/newword/
    23. 哈工大信息检索研究室对外共享语料库资源 :
    http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
    该语料库为汉英双语语料库,10 万对齐双语句对,文本书件格式,同义词词林扩展版,77343 条词语,秉承《同义词词林》的编撰风格。同时采用五级编码体系,多文档自动文摘语料库,40 个主题,文本书件格式,同一主题下是同一事件的不同报道。汉语依存树库,不带关系5 万句,带关系1 万句;LTML 化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264 句;已标注问题类型,LTML 化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库共211 篇。
    24. 清华大学汉语均衡语料库THACorpus
    25. 中国科学院计算技术研究所,跨语言语料库目前的双语句对数据库中有约180000 对已对齐的中英文句子。本数据库支持简单的中英文查询服务。查询结果包括句对编号、中文句子、英文句子、句对来源等。

    4、获取网络资源

           A: 如下所示获取的是伤寒杂病论(在线获取)

           代码如下所示

    """
     author:jjk
     datetime:2018/11/4
     coding:utf-8
     project name:Pycharm_workstation
     Program function: 网络数据获取
     
    """
    from __future__ import division
    import nltk,re,pprint
    from urllib.request import urlopen # 导入请求链接
    import time
    start_time = time.time()
    url = r'http://www.gutenberg.org/files/24272/24272-0.txt'# 请求链接
    raw = urlopen(url).read()# 打开,读取
    raw = raw.decode('utf-8')# 设置编码
    print(len(raw))# 输出字符长度
    print(raw[2000:2500])
    stop_time = time.time()
    time_sum = stop_time-start_time
    print("一共耗用时间:",time_sum)
    

           结果
    在这里插入图片描述

           B:在线获取处理HTML文本(红楼梦)

           代码如下所示:

    """
     author:jjk
     datetime:2018/11/4
     coding:utf-8
     project name:Pycharm_workstation
     Program function: 获取处理红楼梦
     
    """
    import re,nltk
    from urllib.request import urlopen
    import time
    start_time = time.time()# 开始时间
    url = 'http://www.gutenberg.org/cache/epub/24264/pg24264-images.html'# 请求链接
    html = urlopen(url).read()# 打开,读取
    html = html.decode('utf-8')
    print(html[5000:5500])# 获取5000-5500之间的文本
    stop_time = time.time()# 最后时间
    time_sum = stop_time-start_time# 一共耗时
    print("一共请求时间:",time_sum)
    

           结果
    在这里插入图片描述

    5、NLTK 获取语料库

           A:古藤保语料库
    """
     author:jjk
     datetime:2018/11/4
     coding:utf-8
     project name:Pycharm_workstation
     Program function:   获取古藤保语料库
    """
    from nltk import data
    data.path.append(r"F:\Anaconda\Anaconda_install\nltk_data") # 这里的路径需要换成自己数据文件下载的路径
    
    from nltk.corpus import gutenberg
    print(gutenberg.fileids())
    from nltk.corpus import webtext# 导包
    #for fileid in webtext.fileids():# 遍历
    #    print(fileid,webtext.raw(fileid))
    

    部分结果截图
    在这里插入图片描述

           B:网络和聊天文本
    """
     author:jjk
     datetime:2018/11/4
     coding:utf-8
     project name:Pycharm_workstation
     Program function:   获取古藤保语料库
     
    """
    
    from nltk import data
    data.path.append(r"F:\Anaconda\Anaconda_install\nltk_data") # 这里的路径需要换成自己数据文件下载的路径
    
    from nltk.corpus import gutenberg
    # print(gutenberg.fileids())
    from nltk.corpus import webtext# 导包
    for fileid in webtext.fileids():# 遍历
        print(fileid,webtext.raw(fileid))
    

    部分结果截图
    在这里插入图片描述

           C:布朗语料库

           比较文体中情态动词的用法

    """
     author:jjk
     datetime:2018/11/4
     coding:utf-8
     project name:Pycharm_workstation
     Program function: 布朗语料库
    """
    # 查看语料信息
    from nltk import data
    data.path.append(r"F:\Anaconda\Anaconda_install\nltk_data")
    import nltk
    from nltk.corpus import brown
    #brown.categories()
    new_texts = brown.words(categories='news')
    fdist = nltk.FreqDist([w.lower() for w in new_texts])
    modals = ['can','could','may','might','must','will']
    for m in modals:
        print(m + ':',fdist[m])
    

           结果
    在这里插入图片描述

           D:路透社语料库

           代码

    """
     author:jjk
     datetime:2018/11/5
     coding:utf-8
     project name:Pycharm_workstation
     Program function: 路透社语料库
     
    """
    from nltk import data# 导包数据
    data.path.append(r"F:\Anaconda\Anaconda_install\nltk_data")# 路径
    from nltk.corpus import reuters
    print(reuters.fileids()[:50]) #前50个测试文档
    print(reuters.categories()[:100])# 查看前100个类别
    print(reuters.categories('training/9865'))# 查看某个编号的语料下的类别尺寸
    print(reuters.categories(['training/9865','training/9880']))# 查看某几个联合编号语料下的类别尺寸
    print(reuters.fileids('barley'))# 查看哪些编号的文件属于指定的类别
     
    

           结果(部分截图)
    在这里插入图片描述

           E:就职演说语料库

           代码

    """
     author:jjk
     datetime:2018/11/5
     coding:utf-8
     project name:Pycharm_workstation
     Program function:就职演说语料库
    """
    from nltk import data
    data.path.append(r"F:\Anaconda\Anaconda_install\nltk_data")
    # 查看语料信息
    from nltk.corpus import inaugural
    print(len(inaugural.fileids()))# 长度
    print(inaugural.fileids())# 56个txt
    print([fileid[:4] for fileid in inaugural.fileids()])# 查看就职演说的年份 
    

           结果
    在这里插入图片描述

           好吧,,,到了这里语料库相关的知识就说到这里吧。小伙伴们看到这里还望给博主多多给一些意见和建议。

    展开全文
  • 4.3选取NLTK语料库中的某个类别,统计给定单词出现的频率;然后统计该词在该语料库的不同类别文体中出现的频率。
  • 文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入...
  • 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时...
  • 留学生汉语语料库更新时间:2020-03-10 12:57:57作者:王新老师留学生汉语语料库注:本文为“汉府中文”原创,其他网页或者微信公众号转载时请务必联系我,也欢迎大家转发到自己的朋友圈哦~这个语料库,对于对外汉语...

    【亲测】8大对外汉语必备语料库,每个都很有“性格”!!留学生汉语语料库

    更新时间:2020-03-10 12:57:57作者:王新老师

    留学生汉语语料库注:本文为“汉府中文”原创,其他网页或者微信公众号转载时请务必联系我,也欢迎大家转发到自己的朋友圈哦~

    这个语料库,对于对外汉语专业的研究生来说,非常实用,海量的字词句偏误案例,简洁大方的界面,让人心情倍儿爽!

    平台君要给大家介绍的另一个语料库是中央民族大学国际汉语教学语料库,在这里,你不仅可以查到有用的学术资源、教学资源,还可以了解到对外汉语圈子里发生的新鲜事儿~

    北语,作为对外汉语教学的领军学校,自然在这方面研究颇多,其中动态作文语料库是一个不错的资源,非北语的学生也可以使用。不过还有很多资源没有对外开放,平台君建议方便的话,多开放一些哦~

    这里的BBC,可以不是英国的BBC哦,北京语言大学为加强对于语言教育和语言信息化的技术支持,2009年在语言信息处理研究所基础上成立汉语国际教育技术研发中心。2014年更名为大数据与语言教育研究所。研究所立足北语,旨在利用大数据和云计算,着力研究和开发各类语言研究、教学和语言应用所需的关键技术。

    BBC语料库搜集了微博、报刊、科技、文学等各领域的语料,非常的齐全。

    同时,你在这里还可以下载到各类常用的资源,比如:

    作为汉语国际教育专业的老大和领导,孔子学院也贡献了一份力量,建立了“国际汉语教学案例库”,类别清楚,资料充分,赞一个~

    而在每个类别下,又细分为很多类别,更方便大家查询:

    谈完了案例,再来看看教材方面的语料库,看这里,整个界面没有一个多余的字,是不是很赞?

    根据提示,输入关键词,你就能找到你想要的教材!比如输入“中文”一词,一共查找到468本教材:

    而让人更兴奋的是,居然还可以在线自动标注拼音:比如,我们输入:

    中山大学是值得我们钦佩的一个大学,这不,又建立了一个全新的对外汉语教材语料库,先来看看首页:

    展开全文
  • 文本分类(文本分类)是自然语言处理中的一个重要应用技术,根据文档的内容或主题,自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础,某些垃圾邮件识别,舆情分析,情感识别,新闻自动分类,...
  • 语料库

    2021-03-08 11:15:27
    在这一节中,我们来了解一下中文处理中的常见语料库,以及语料库建设的话题。 中文分词语料库 中文分词语料库指的是,由人工正确切分后的句子集合。 词性标注语料库 指的是切分并为每个词语指定一个词性的预料。总之...
  • 中文新闻数据语料

    2019-01-04 09:49:37
    这是本人自己爬取的今日头条新闻数据。包括了6个类别:军事,体育,娱乐,时尚,汽车,游戏。每个类别有2000左右的数据。包含有新闻的题目,正文。还有一些类别中包含了新闻的发布时间,新闻来源等信息。
  • 每一个语料库我都为你尝试打开过了,绝对实用~注:本文为“汉府中文”原创,其他网页或者微信公众号转载时请务必联系我,也欢迎大家转发到自己的朋友圈哦~1、中山大学留学生汉字偏误语料库这个语料库,对于对外汉语...
  • ChineseSemanticKB,chinese semantic knowledge base,面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义...本语料库免费下载地址:https://mp.weixin.qq.com/s?__biz=M...
  • 原标题:燃,9大对外汉语必备语料库,每个都很有“性格”!!【汉府君按】语料库建设是最近几年一个热门的话题,也成为很多会议上的议题。对于对外汉语教学方面来说,语料库很多,但是对外开放的不多,真的是有点...
  • 承接上一期描述的话题分割的任务定义和评估方法,在本文中,我们将去了解5个话题分割常用的语料库,以及4大类常用的话题分割的模型和方法,供大家学习和参考。
  • 一些文本语料库

    万次阅读 2016-07-24 17:06:05
    一、语料库链接 下面提供一些网上能下载到的中文...中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。 (2).搜狗的中文新闻语料库 http://www.s
  • 国际传播人工智能翻译语料库是指基于互联网平台,运用以神经机器翻译技术为基础的人工智能翻译技术,对国际传播等相关领域的语料进行数据化处理和加工,建立系统对外传播党政文献,领导人著作、讲话及外宣图书,期刊...
  • NLP文本语料库

    千次阅读 多人点赞 2019-03-29 20:25:20
    搜集、整理、发布中文自然语言处理 语料/数据集,与有志之士共同促进中文自然语言处理 的 发展。 情感/观点/评论 倾向性分析 1、ChnSentiCorp_htl_all 数据集 数据概览:7000 多条酒店评论数据,5000 多条正向...
  • 使用中文wiki语料库训练word2vec

    千次阅读 2018-03-18 23:00:16
    1. 任务描述本文主要完成以下任务:训练字的embedding(unigram char ... 准备工作2.1 语料准备下载当前最新打包的中文(简体)wiki的文本语料。2.2 训练工具本文使用Python进行处理,版本为3.6。训练过程中需要的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,873
精华内容 1,949
关键字:

中文语料库的类别