精华内容
下载资源
问答
  • 做毕设自用的中文新闻文本分类语料库,整理自搜狗新闻和清华新闻语料,共八个类别,每类已分好4000条训练集和1000条测试集。附赠一份停用词表,综合了哈工大停用词及川大停用词。
  • 搜狗新闻语料库

    2018-03-31 09:39:17
    搜狗的新闻中文语料库,可用于word2vec训练用的。。。。。。。。。。。。。。。。。。。。。。。。
  • Coae中文微博语料库

    2018-10-14 10:04:34
    中文微博语料库2014.包含COAE2014会议五个任务的评测数据,任务1 :面向新闻的情感关键句抽取与判定 在给定新闻集合(每篇文章已切成句子)中,判别每篇文章的情感关键句 。 任务2:跨语言情感倾向性分析 本任务是对...
  • ...本文采用的是搜狗实验室的搜狗新闻语料库,数据链接http://www.sogou.com/labs/resource/cs.php 下载下来的文件名为: news_sohusite_xml.full.tar.gz 二、数据预处理 2.1 解压并查看原...

    转载自https://www.cnblogs.com/Newsteinwell/p/6034747.html


     

     

    一、中文语料库

    本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php

    下载下来的文件名为: news_sohusite_xml.full.tar.gz

    二、数据预处理

    2.1 解压并查看原始数据

    cd 到原始文件目录下,执行解压命令:

    tar -zvxf news_sohusite_xml.full.tar.gz

    得到文件 news_sohusite_xml.dat, 用vim打开该文件,

    vim news_sohusite_xml.dat

     得到如下结果:

    2.2 取出内容

    取出<content>  </content> 中的内容,执行如下命令:

    cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>"  > corpus.txt 

     得到文件名为corpus.txt的文件,可以通过vim 打开

    vim corpus.txt

    得到如下效果:

     

    2.3 分词

    注意,送给word2vec的文件是需要分词的,分词可以采用jieba分词实现,安装jieba 分词 

    pip install jieba

     对原始文本内容进行分词,python 程序如下: 

    复制代码

     1 ##!/usr/bin/env python
     2 ## coding=utf-8
     3 import jieba
     4 
     5 filePath='corpus.txt'
     6 fileSegWordDonePath ='corpusSegDone.txt'
     7 # read the file by line
     8 fileTrainRead = []
     9 #fileTestRead = []
    10 with open(filePath) as fileTrainRaw:
    11     for line in fileTrainRaw:
    12         fileTrainRead.append(line)
    13 
    14 
    15 # define this function to print a list with Chinese
    16 def PrintListChinese(list):
    17     for i in range(len(list)):
    18         print list[i],
    19 # segment word with jieba
    20 fileTrainSeg=[]
    21 for i in range(len(fileTrainRead)):
    22     fileTrainSeg.append([' '.join(list(jieba.cut(fileTrainRead[i][9:-11],cut_all=False)))])
    23     if i % 100 == 0 :
    24         print i
    25 
    26 # to test the segment result
    27 #PrintListChinese(fileTrainSeg[10])
    28 
    29 # save the result
    30 with open(fileSegWordDonePath,'wb') as fW:
    31     for i in range(len(fileTrainSeg)):
    32         fW.write(fileTrainSeg[i][0].encode('utf-8'))
    33         fW.write('\n')

    复制代码

     

    可以得到文件名为 corpusSegDone.txt 的文件,需要注意的是,对于读入文件的每一行,使用结巴分词的时候并不是从0到结尾的全部都进行分词,而是对[9:-11]分词 (如行22中所示: fileTrainRead[i][9:-11] ),这样可以去掉每行(一篇新闻稿)起始的<content> 和结尾的</content>。

    同样的,可以通过vim 打开分词之后的文件,执行命令:

    vim corpusSegDone.txt

    得到如下图所示的结果:

     三、构建词向量

    3.1 安装word2vec

    pip install word2vec

    3.2 构建词向量

    执行以下程序:

    import word2vec
    word2vec.word2vec('corpusSegDone.txt', 'corpusWord2Vec.bin', size=300,verbose=True)

    即可构建词向量,得到结果放在文件名为 corpusWord2Vec.bin的文件中。可以通过设定size 的大小来指定词向量的维数。用vim打开生成的二进制文件会出现乱码,目前不知道解决方法。

    3.3 显示并使用词向量

    3.3.1 查看词向量

    import word2vec
    model = word2vec.load('corpusWord2Vec.bin')
    print (model.vectors)

    可以得到如下结果:

     3.3.2 查看词表中的词

    import word2vec
    model = word2vec.load('corpusWord2Vec.bin')
    index = 1000
    print (model.vocab[index]

    得到结果如下:

    可以得到词表中第1000个词为 确保。

    3.3.3 显示空间距离相近的词

    一个好的词向量可以实现词义相近的一组词在词向量空间中也是接近的,可以通过显示词向量空间中相近的一组词并判断它们语义是否相近来评价词向量构建的好坏。代码如下:

    import word2vec
    model = word2vec.load('corpusWord2Vec.bin')
    indexes = model.cosine(u'加拿大')
    for index in indexes[0]:
        print (model.vocab[index])

    得到的结果如下:

    可以修改希望查找的中文词,例子如下:

     

    四、二维空间中显示词向量

    将词向量采用PCA进行降维,得到二维的词向量,并打印出来,代码如下:

    复制代码

     1 #!/usr/bin/env python
     2 # coding=utf-8
     3 import numpy as np
     4 import matplotlib
     5 import matplotlib.pyplot as plt
     6 
     7 from sklearn.decomposition import PCA
     8 import word2vec
     9 # load the word2vec model
    10 model = word2vec.load('corpusWord2Vec.bin')
    11 rawWordVec=model.vectors
    12 
    13 # reduce the dimension of word vector
    14 X_reduced = PCA(n_components=2).fit_transform(rawWordVec)
    15 
    16 # show some word(center word) and it's similar words
    17 index1,metrics1 = model.cosine(u'中国')
    18 index2,metrics2 = model.cosine(u'清华')
    19 index3,metrics3 = model.cosine(u'牛顿')
    20 index4,metrics4 = model.cosine(u'自动化')
    21 index5,metrics5 = model.cosine(u'刘亦菲')
    22 
    23 # add the index of center word 
    24 index01=np.where(model.vocab==u'中国')
    25 index02=np.where(model.vocab==u'清华')
    26 index03=np.where(model.vocab==u'牛顿')
    27 index04=np.where(model.vocab==u'自动化')
    28 index05=np.where(model.vocab==u'刘亦菲')
    29 
    30 index1=np.append(index1,index01)
    31 index2=np.append(index2,index03)
    32 index3=np.append(index3,index03)
    33 index4=np.append(index4,index04)
    34 index5=np.append(index5,index05)
    35 
    36 # plot the result
    37 zhfont = matplotlib.font_manager.FontProperties(fname='/usr/share/fonts/truetype/wqy/wqy-microhei.ttc')
    38 fig = plt.figure()
    39 ax = fig.add_subplot(111)
    40 
    41 for i in index1:
    42     ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont,color='r')
    43 
    44 for i in index2:
    45     ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont,color='b')
    46 
    47 for i in index3:
    48     ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont,color='g')
    49 
    50 for i in index4:
    51     ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont,color='k')
    52 
    53 for i in index5:
    54     ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont,color='c')
    55 
    56 ax.axis([0,0.8,-0.5,0.5])
    57 plt.show()

    复制代码

    中文的显示需要做特殊处理,详见代码 line: 37

    下图是执行结果:

     

    展开全文
  • 人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料...
  • ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化...

    ChineseDiachronicCorpus

    ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。

    为什么中文开放数据集如此之难

    有的时候我在想,chineseldc基本停滞了,后面除了gluedata benchmark,国内数据集开源为什么这么难?我想了一想,不当当是侵权的问题,有很多原因【不一定对】:
    1)研究导向。数据集属于很底层、初级的工作,头部研究注意力放在深度学习上(近年来有好转,比如ccl近2年的best paper 都有侧重),基础数据没人做;
    2)版权保护。虽然国家没有出台官方的抓取即违法的政策,但这是大趋势,这个也制约了数据的发布和公开。
    3)研究保护。国内开源生态不乐观,发出去,就等着被抄,花费大量人力、物力、财力标注的语料,可能发布出去就直接被使用,形成竞争壁垒。
    4)缺乏引导。近年来有意识的在搞平台,比如百度搞千言,民间搞glue benchmark,但最怕做成摆货架。 目前开放了很多的基础评测资源,大大多都是针对英文的【没办法,要国际化,要文章】。
    6)缺乏统一的资源开放标准。资源开放标准的制定、推行,是一个自顶向下的行为,制定可行的标准,是今后资源管理、规范化,有效、公正 地评测资源任务的重点。

    得语言者得天下,得语言资源者,分得天下。中文语言资源,不应该是这幅模样。

    项目的由来

    语言是人类重要的交际工具,同时也是社会的镜子,语言记录并反映了社会,对语言记录进行挖掘、计算,可以从各个层面对社会进行解读。例如,基于语料库进行词语考察,以反映单个词语在不同时间周期中的使用及变动情况。 以语料为载体,挖掘出属于某个特定时间周期的社会特点,例如年度关键词、年度人物、年度流行语;对词语进行文化计算,如颜色计算、性别计算、观点计算等,以考察整个社会对某一事物、看法的演变。 当前,开源可用的中文历时语料库较少。代表性的有北京语言大学国家语言资源监测与研究平面媒体中心DCC动态流通语料库,其对国内数十家报纸媒体进行监测,也有中国传媒大学的历时语料库可以使用。

    当前,随着网络技术的发展以及采集技术的相对成熟,构建起历时语料库变得越来越容易,这就使得向外界共享历时语料库变得更为便利且必要。 本项目,旨在通过公开收集的方式,从网络媒体和平面媒体两个角度出发,形成腾讯新闻、人民日报、参考消息三大历时语料库,以供社会开放使用。

    项目的用途

    那么,基于这个语料库,能够做什么呢?总结了下,至少可以从词语考察、语义计算、热度计算、文化计算、媒体对比、语法研究等六个方面开展工作。

    用途名称 技术手段 应用场景
    词语考察 分词、词频统计 通用词表等编写
    语义计算 共现词、MI搭配、依存搭配 搭配等语义词典编写
    热度计算 流通度计算、术语提取 流行语等发布
    文化计算 颜色计算、性别计算 文化变迁
    媒体对比 媒体差异计算 传播学研究
    语法研究 语法模式检索 语法教材与词典编写

    项目的获取

    对于如何获取数据,下表是对数据集的介绍,需要使用的可以开放下载使用,因涉及版权问题,暂只放数据来源。免责声明:该项目由公开渠道收集而成,不可商用,仅可用于科学研究,若有侵权,可联系删除。

    数据名称 时间跨度 数据大小 数据来源
    腾讯新闻 2009-2016 5GB https://auto.qq.com/l/201104/scrollnews_15.htm
    人民日报 1946-2003 3.44GB http://www.laoziliao.net/rmrb/
    参考消息 1957-2002 1.1GB http://www.laoziliao.net/ckxx/

    关于作者

    刘焕勇,中国科学院软件研究所,兼任数据地平线科技算法总监,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我: 1、我的github项目介绍:https://liuhuanyong.github.io
    2、我的csdn技术博客:https://blog.csdn.net/lhy2014
    3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
    4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
    5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
    6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn

    展开全文
  • ChineseDiachronicCorpus,中文历时语料库,跨越六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算,语言监测,社会文化...
  • 一些文本语料库

    万次阅读 2016-07-24 17:06:05
    一、语料库链接 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。...(1)....中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为...搜狗的中文新闻语料库 http://www.s

    一、语料库链接


    下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
    (1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
    中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。


    (2).搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
    包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。


    (3).李荣陆老师的中文语料库 http://www.datatang.com/data/11968
    压缩后有240M大小


    (4).谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
    不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php

    (5).网易分类文本数据 http://www.datatang.com/data/11965
    包含运动、汽车等六大类的4000条文本数据。

    (6).中文文本分类语料 http://www.datatang.com/data/11963
    包含Arts、Literature等类别的语料文本。

    (7).更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
    搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载

    (8).2002年中文网页分类训练集http://www.datatang.com/data/15021
    2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。


    ————————————————————————————————————————————————


    二、有效的分词工具


    将预料库进行分词并去掉停用词,可以使用的分词工具有:
    StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文),这几种分词工具的区别,可以参加:http://blog.csdn.net/wauwa/article/details/7865526。


    展开全文
  • 1998 年中文标注语料库及读取代码 代码作者:肖波 语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司 PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻...

    人民日报 1998 年中文标注语料库及读取代码
    代码作者:肖波
    语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司
    PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
    由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考,代码中用到了一些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另一篇文章《KTDictSeg 一种简单快速准确的中文分词方法 》中下载。

     

    调用示例


     using  System;
     using  System.Collections;
     using  System.Collections.Generic;
     using  System.Text;
     using  KTDictSeg;
     using  General;
     
     namespace  MachineLeaning
       {
          class  T_Word
            {
              public  String Word;  // 单词
              public  int  POS;   // 词性
              public  long  Freq;    // 词频  
         } ;
     
           /**/ ///  <summary>
          ///  1998年人民日报标注预料库的提取
          ///  </summary>
          class  People1998
            {
               Private Members #region  Private Members
              static  Hashtable m_WordTbl  =  new  Hashtable();  // 单词表
     
               /**/ ///  <summary>
              ///  将字符串类型的词性转换为位域型的词性变量
              ///  </summary>
              ///  <param name="strPOS"> 字符串类型的词性标注 </param>
              ///  <returns> 位域型词性标注 </returns>
              static  private  T_POS GetPosFromString(String strPOS)
                {
                 strPOS  =  strPOS.Trim().ToLower();
     
                  switch (strPOS)
                    {
                      case  " ag " :
                      case  " ad " :
                      case  " an " :
                      case  " a " :     //     形容词 形语素
                          return  T_POS.POS_D_A;
     
                      case  " bg " :
                      case  " b " :     //     区别词 区别语素
                          return  T_POS.POS_D_B;
     
                      case  " c " :     //     连词 连语素
                          return  T_POS.POS_D_C;
     
                      case  " dg " :
                      case  " d " :     //     副词 副语素
                          return  T_POS.POS_D_D;
     
                      case  " e " :     //     叹词 叹语素
                          return  T_POS.POS_D_E;
     
                      case  " f " :     //     方位词 方位语素
                          return  T_POS.POS_D_F;
     
                      case  " i " :     //     成语
                          return  T_POS.POS_D_I;
     
                      case  " j " :
                      case  " l " :     //     习语
                          return  T_POS.POS_D_L;
     
                      case  " mg " :
                      case  " m " :     //     数词 数语素
                          return  T_POS.POS_A_M;
     
                      case  " mq " :    //     数量词
                          return  T_POS.POS_D_MQ;
     
                      case  " na " :
                      case  " ng " :
                      case  " n " :     //     名词 名语素
                          return  T_POS.POS_D_N;
     
                      case  " o " :     //     拟声词
                          return  T_POS.POS_D_O;
     
                      case  " p " :     //     介词
                          return  T_POS.POS_D_P;
     
                      case  " q " :     //     量词 量语素
                          return  T_POS.POS_A_Q;
     
                      case  " rg " :
                      case  " r " :     //     代词 代语素
                          return  T_POS.POS_D_R;
     
                      case  " s " :     //     处所词
                          return  T_POS.POS_D_S;
     
                      case  " tg " :
                      case  " t " :     //     时间词
                          return  T_POS.POS_D_T;
     
                      case  " u " :     //     助词 助语素
                          return  T_POS.POS_D_U;
     
                      case  " vg " :
                      case  " vn " :
                      case  " vd " :
                      case  " vv " :
                      case  " v " :     //     动词 动语素
                          return  T_POS.POS_D_V;
     
                      case  " w " :     //     标点符号
                          return  T_POS.POS_D_W;
     
                      case  " x " :     //     非语素字
                          return  T_POS.POS_D_X;
     
                      case  " yg " :
                      case  " y " :     //     语气词 语气语素
                          return  T_POS.POS_D_Y;
     
                      case  " z " :     //     状态词
                          return  T_POS.POS_D_Z;
     
                      case  " nr " : //     人名
                          return  T_POS.POS_A_NR;
     
                      case  " ns " : //     地名
                          return  T_POS.POS_A_NS;
     
                      case  " nt " : //     机构团体
                          return  T_POS.POS_A_NT;
     
                      case  " nx " : //     外文字符
                          return  T_POS.POS_A_NX;
     
                      case  " nz " : //     其他专名
                          return  T_POS.POS_A_NZ;
     
                      case  " h " :     //     前接成分
                          return  T_POS.POS_D_H;
     
                      case  " k " :     //     后接成分
                          return  T_POS.POS_D_K;
     
                      case  " un " : //   未知词性
                          return  T_POS.POS_UNK;
     
                      default :
                          return  T_POS.POS_UNK;
                         
                 }
     
             }
     
               /**/ ///  <summary>
              ///  将一个单词插入单词表
              ///  </summary>
              ///  <param name="word"> 单词 </param>
              ///  <param name="strPOS"> 词性 </param>
              static  private  void  InsertOneWordToTbl(String word, String strPOS)
                {
                  if  (word  ==  null  ||  strPOS  ==  null )
                    {
                      return ;
                 }
     
                 word  =  word.Trim();
                  if  (word  ==  "" )
                    {
                      return ;
                 }
     
                 T_POS tPOS  =  GetPosFromString(strPOS);
     
                 T_Word tWord  =  (T_Word)m_WordTbl[word];
     
                  if  (tWord  ==  null )
                    {
                     tWord  =  new  T_Word();
                     tWord.Freq  =  0 ;
                     tWord.POS  =  0 ;
                     tWord.Word  =  word;
                     m_WordTbl[word]  =  tWord;
                 }
     
                 tWord.Freq ++ ;
                 tWord.POS  |=  ( int )tPOS;
             }
     
     
               /**/ ///  <summary>
              ///  删除文本中每句前面的时间
              ///  </summary>
              ///  <param name="text"></param>
              ///  <returns></returns>
              static  private  String DeleteDate(String text)
                {
                  return  CRegex.Replace(text,  @" 1998/d+-/d+-/d+-/d+///w " ,  "" ,  true );
             }
     
               /**/ ///  <summary>
              ///  从文件载入到字符串中
              ///  </summary>
              ///  <param name="fileName"></param>
              ///  <returns></returns>
              static  private  String LoadFromFile(String fileName)
                {
                  return  CFile.ReadFileToString(fileName,  " GB2312 " );
             }
     
               /**/ ///  <summary>
              ///  从字符串读入到单词表中
              ///  </summary>
              ///  <param name="text"></param>
              static  private  void  ReadWordFromString(String text)
                {
                 ArrayList strs  =  new  ArrayList();
                 CRegex.GetMatchStrings(text,  @" (/w+)/s*///s*([a-zA-Z]{1,2}) " ,  true ,  ref  strs);
     
                 String word  =  "" ;
     
                  for  ( int  i  =  0 ; i  <  strs.Count; i ++ )
                    {
                      if  (i  %  2  ==  0 )
                        {
                         word  =  (String)strs[i];
                     }
                      else
                        {
                         InsertOneWordToTbl(word, (String)strs[i]);
                     }
                 }
             }
     
              #endregion
     
               Public Members #region  Public Members
     
               /**/ ///  <summary>
              ///  将预料库中的单词和词性标注载入到单词表中
              ///  </summary>
              ///  <param name="fileName"> 人民日报1998年标注预料库文件 </param>
              static  public  void  Load(String fileName)
                {
                 String text  =  LoadFromFile(fileName);
     
                 text  =  DeleteDate(text);
     
                 ReadWordFromString(text);
             }
     
               /**/ ///  <summary>
              ///  获取某个单词的属性
              ///  </summary>
              ///  <param name="word"> 单词 </param>
              ///  <returns></returns>
              static  public  T_Word GetWordAttribute(String word)
                {
                  return  (T_Word)m_WordTbl[word];
             }
     
               /**/ ///  <summary>
              ///  获取所有单词列表
              ///  </summary>
              ///  <returns> 单词列表 </returns>
              static  public  List < T_Word >  GetWordList()
                {
                 List < T_Word >  retWords  =  new  List < T_Word > ();
     
                  foreach (String word  in  m_WordTbl.Keys)
                    {
                     retWords.Add((T_Word)m_WordTbl[word]);
                 }
     
                  return  retWords;
             }
     
     
              #endregion
     
     
         }
     }
                   if  (openFileDialogDict.ShowDialog()  ==  DialogResult.OK)
                    {
                      try
                        {
                         People1998.Load(openFileDialogDict.FileName);
                     }
                      catch (Exception e1)
                        {
                         CMsgBox.ShowErrorMessageBox(e1.Message);
                     }
                 }

    语料库下载地址
    由于较大,分成5包下载

    http://www.cnblogs.com/Files/eaglet/199801.part01.rar
    http://www.cnblogs.com/Files/eaglet/199801.part02.rar
    http://www.cnblogs.com/Files/eaglet/199801.part03.rar
    http://www.cnblogs.com/Files/eaglet/199801.part04.rar
    http://www.cnblogs.com/Files/eaglet/199801.part05.rar


    本文来自CSDN博客,转自:http://blog.csdn.net/eaglet/archive/2007/09/10/1778995.aspx

    展开全文
  • 注:博文转载、语料库使用,请注明提供者、来源以及空间提供方。 免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。 感谢网易新闻中心、腾讯...
  • 献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二 题记: 做研究,尤其是基于统计学方法的研究,常常需要大量的训练数据。详细这些东西在读研究生不难得到。在自然语言处理公司工作的工作人员也不...
  • 搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下: 奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt ...
  • 文字分类 文本分类(文本分类)是自然语言处理中的一个重要应用技术,根据文档的内容或...更多新闻标注语料,。 预训练词向量模型来自,下载地址: 。 第1部分:基于scikit-learn机器学习的文本分类方法 基于scikit-
  • NLP语料库

    千次阅读 2017-03-23 00:29:08
    中文文本分类的新闻语料库 汉语句义结构标注语料库
  • NLP语料库收集

    2018-11-16 20:41:39
    中文文本分类的新闻语料库 汉语句义结构标注语料库 WaCKy Leipzig Corpora 布朗语料库 阿里云教程中心语料库
  • 免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。 感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归...
  • 训练中文模型,中文预料数据是必须的,可以使用中文的维基百科,也可以是搜狗的新闻语料库中文维基百科地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2; 搜狗全网新闻...
  • Kaldi中文语音识别公共数据集一共有4个(据我所知),分别是: 1.aishell: AI SHELL公司...2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08) 3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32) 4.t...
  • 目前中文文本分类语料库只有搜狗实验室一家对广大网友开放了,见: http://www.sogou.com/labs/dl/c.html 。笔者在实验中用过它提供的完整版(107M)的语料库。确实还是不错的,分为汽车,财经,IT,健康,体育,...
  • Kaldi中文语音识别公共数据集一共有4个(据我所知),分别是: 1.aishell: AI SHELL公司开源178...2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08) 3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32) 4
  • 搜狗新闻文本分类预测没有整理为好用的格式,花了点时间修改为\u0001 分割的数据 create table sougou_text ( id bigint, cate string, wenxian string, origin_from string, origin_city string, ...
  • 一、语音识别语料库

    2019-12-01 16:12:17
    一、语音识别语料库(OpenSLR网站:http://www.openslr.org/) (一)TIMIT语料库 630个说话者的宽带录音,...1.gale_mandarin:中文新闻广播数据集 2.hkust:中文电话数据集 3.thchs30:清华大学30小时数据集 ...
  • 在分词过程中用到了搜狗部分的中文语料库(大部分是新闻等内容),还有Stanford Segementer分词器。 笔记: 1、System.getProperty(String, String); 原型:Object getProperty(ParameterBlock paramBlock,String ...

空空如也

空空如也

1 2 3 4 5 6
收藏数 119
精华内容 47
关键字:

中文新闻语料库