精华内容
下载资源
问答
  • NLP常用语料集合

    2018-10-31 18:41:00
    常用语料资源 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集...

    常用语料资源

     

    下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
    (1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
    中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。
    (2).搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
    包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。
    (3).李荣陆老师的中文语料库 http://www.datatang.com/data/11968
    压缩后有240M大小
    (4).谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
    不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.PHP
    (5).网易分类文本数据 http://www.datatang.com/data/11965
    包含运动、汽车等六大类的4000条文本数据。
    (6).中文文本分类语料 http://www.datatang.com/data/11963
    包含Arts、Literature等类别的语料文本。
    (7).更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
    搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载
    (8).2002年中文网页分类训练集 http://www.datatang.com/data/15021

    2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。

     

    常用分词工具

    将预料库进行分词并去掉停用词,常用分词工具有:

     

    StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文)。

     

    提供一份DEMO语料资源

    原始语料 http://pan.baidu.com/s/1nviuFc1
    训练语料 http://pan.baidu.com/s/1kVEmNTd

     

    词向量工具包

      如果你需要中文语料并构建相应的词向量,你可以访问这个资源,项目链接:https://github.com/Embedding/Chinese-Word-Vectors

    所有的词向量由 ngram2vec 工具包训练。ngram2vec 工具包是word2vec和 fasttext 工具包的超集合,其支持抽象上下文特征和模型。

    ngram2vec:https://github.com/zhezhaoa/ngram2vec/

    word2vec:https://github.com/svn2github/word2vec

    fasttext:https://github.com/facebookresearch/fastText

    转载于:https://www.cnblogs.com/demo-deng/p/9885078.html

    展开全文
  • NLP 常用数据语料

    千次阅读 2017-09-02 17:04:18
    1.Sogou News Corpus搜狗新闻语料库. Containing in total 2,909,551 news articles in various topic channels. 参考文献[1] 中是这么描述与使用的: : There are a large number categories but most of them ...

    数据集

    1. Yelp reviews

    yelp 可类比为中国的大众点评. 数据集介绍见参考[4].
    这里写图片描述
    figure yelp 网站的点评. 星星个数是评价.

    2. Yahoo answers

    a topic classification task with 10 classes :

    1. Society & Culture
    2. Science & Mathematics,
    3. Health
    4. Education & Reference
    5. Computers & Internet,
    6. Sports
    7. Business & Finance,
    8. Entertainment & Music
    9. Family & Relationships
    10. and Politics & Government

    The document includes question titles, question contexts and best answers. There are 140,000 training samples and 5000 testing samples.

    语料库

    1.Sogou News Corpus

    搜狗新闻语料库. Containing in total 2,909,551 news articles in various topic channels.
    参考文献[1] 中是这么描述与使用的: :

    There are a large number categories but most of them contain only few articles. We choose 5 categories – “sports”, “finance”, “entertainment”, “automobile” and “technology”. The number of training samples selected for each class is 90,000 and testing 12,000.

    2. YFCC 100M

    YaHoo 实验室的多媒体数据集, 用处不局限于NLP. 地址在参考文献[3]中.
    内含约 1亿 张图片 与 100 万个视频, 有 标题, 说明 与 标签. 即 title, captions and tags.
    它的标注是多元的, 比如一只小狗, 会被标注 动物/小狗/宠物/狮子狗 等.
    FastText 论文中, 用到了它作 Tag Prediction.

    参考

    1. Character-level Convolutional Networks for Text Classification
    2. 搜狗实验室
    3. YFCC 100M
    4. yelp dataset challenge 官网: yelp dataset challenge
    展开全文
  • 常用相似度语料

    2019-09-24 23:09:41
    英文语料 MPRC 二分类 0101 训练4700条 测试机1700条 中文语料 微众银行 共10000条数据 转载于:https://www.cnblogs.com/rise0111/p/11409928.html

    英文语料

    • MPRC
      • 二分类 0101
        1529824754935.png
      • 训练集4700条 测试机1700条

    中文语料

    • 微众银行 共10000条数据

    转载于:https://www.cnblogs.com/rise0111/p/11409928.html

    展开全文
  • 来源:... 常用语料库语言学相关软件下载 1.concapp04 (concapp03的修订版,可支持超大字符) 软件 下载地址 http://chinese.hust.edu.cn/Concapp04.exe   http://chinese.hust.edu.cn/co

    来源:http://blog.csdn.net/clbxp/article/details/6609365

    常用语料库语言学相关软件下载
    1.concapp04 (concapp03的修订版,可支持超大字符集) 软件
    下载地址   
    http://chinese.hust.edu.cn/Concapp04.exe 
               
    http://chinese.hust.edu.cn/concapp03.exe  ;(concapp03版)
    2.Wconcord----语料库分析软件
    软件介绍:A slow but very stable concordancer that can create concordances, collocation tables, and frequency lists. Unfortunately, the output is limited to 16,000 lines.
     下载地址    
    http://www.corpus4u.com/down_view.asp?id=1

    3.WordSmith Tools 4----语料库分析软件
    介绍 Michael Scott's brilliant software.
    下载地址   
    http://www.corpus4u.com/down_view.asp?id=2 
    4. 中科院计算所汉语词法分析系统ICTCLAS
    软件介绍: 词是最小的能够独立活动的有意义的语言成分。但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。
    下载地址    
    http://www.ict.ac.cn/freeware/003_ictclas/ictclas.zip

    5. 中科院计算所汉语句法分析系统
    软件介绍:本系统是一个概率型的自然语言句法分析器。系统的分析算法是综合了多种优化策略的改进型chart分析算法。分析结果是概率最大的一棵分析树。在概率模型方面,本系统也在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,是的分析结果正确率有了明显提高。本系统运行在windows环境下。
    使用说明:系统运行包括两个环节,即build语法环节和parse句子环节。用户首先要调入语法。方式有两种,一是在底部命令行键入 build [grammar file name],二是点击语法按钮交互式地选择语法文件。之后,只要点击execute按钮即可。分析句子的启动过程类似。分析命令是 parse [sentence file name].
    对于句子文件的格式要求是,每行一句,分好词,标记好一级词性。
    如:我/r 是/v 学生/n 。/w
    用户可以查看到分析树(treeWindow)和分析过程信息(outputWindow)。
    下载地址:(1  
    http://www.ict.ac.cn/freeware/002_prop/propexec.zip 
              (2  
    http://www.ict.ac.cn/freeware/002_prop/propsource.zip 
    6.海量智能分词研究版FAQ
    海量智能分词技术很好的解决了分词领域中的两大技术难题,即:歧义切分和新词的识别。其中组合歧义的处理一直是分词领域的难点中的难点,海量经过不懈努力,在解决组合歧义的问题上取得突破,能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用了不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新词的识别,其准确率同样达到了同行业的领先水平。正是在这些分词难点上的突破,才造就了如今海量智能分词在实际应用中所表现出的优秀品质。
    下载地址:
         
    http://www.hylanda.com/cgi-bin/download/count.asp?id=8&url=1 
    7.文本文件合并器2.0
     下载地址  
    http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9 
    8.CastExe  
    由上海交通大学开发的类似Wordsmith的检索工具,备注: 此软件有很多不完善的地方,但对于初入门的同学来说也是有一定的帮助的。
    下载地址  
    http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9 
    9.TextPro文本处理程序
    这是来自中华佛典  
    http://www2.fodian.net/tools/index.html )。集成了各种文字处理功能,支持各种文字显示,具有文件合并功能,连在文本中加空格的功能也具备了。有了该软件,似乎很多单一功能的软件要下课了。呵呵! 
    下载地址  
    http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9 
    10.词频分析器
    下载地址  
    http://www.corpus4u.com/down_view.asp?id=9 
    11.功能强大的文本分析和索引软件Concordance3.2(极力推荐支持超大字符集)
    Concordance是文本分析和索引软件,适用于任何需要深入研究文章和分析语言的人士。使用Concordance,你可以建立索引和单词列表,计算单词使用率,比较一个单词的不同用法,分析关键字,查找短语,发布到网站。
    下载地址  
    http://www.concordancesoftware.co.uk/ 
    12.C_Corpus_Res_Final语料库教程 (美国洛杉矶加州大学陶红印教授提供) 
    下载地址:
        
    http://chinese.hust.edu.cn/Chinese_Corpus_Resource_Guide.pdf 
    13.四大古典小说语料库下载:
    (下载后请用access软件打开,然后搜索相关的内容即可)
    红楼梦:   
    http://ling.ccnu.edu.cn/ylk/hlm.mdb 
    水浒转:   
    http://ling.ccnu.edu.cn/ylk/shz.mdb 
    西游记:   
    http://ling.ccnu.edu.cn/ylk/xyj.mdb 
    三国演义:   
    http://ling.ccnu.edu.cn/ylk/sgyy.mdb 
    14.现代著名小说家作品标注语料库下载
    (下载后请用access软件打开,然后搜索相关的内容即可)
    下载地址:   
    http://ling.ccnu.edu.cn/ylk/xiandai.htm 
    15.国内语料库建设一览表
    下载地址  
    http://www.corpus4u.com/down_view.asp?id=8 
    16.语料库下载,内容如下:
    汉英对照古体诗词一百四十五首
    计算所机器翻译句法树库
    篇章级对齐英汉双语法律语料
    双语句对齐语料库(1500句对
    北大《人民日报》语料库标注语料举例
    北大《人民日报》语料库校对记录
    英汉对照例句集(400句
    一个小规模汉语树库(1434句
    汉英对照例句集(400句
    1998年863汉英机器翻译评测试题
    《圣经》双语语料库
    实验用的数字语音语料库
    下载地址:   
    http://www.nlp.org.cn/categories/default.php?cat_id=9


    3.XML与关系数据库转换系统 v1.0 
     随着XML的迅速发展,XML正在逐步成为Internet中描述数据的标准。由于企业电子商务是以Internet为基础的,因此,在将来XML文档势必成为电子商务中数据传输的主要载体。而目前,大多数企业的数据都不是以XML文档来保存的,在很大程度上,大多数企业是采用传统的关系数据库的形式来存储。于是,如何将现关系数据库数据数据转换为XML文档,以便在Internet上进行传输,是一个非常热门的研究课题。同时,企业为了保持现有的业务处理系统,不希望立即、完全更改现有的数据存储形式。于是,如何将从Internet上获取到的XML文档的内容保存到已有的关系数据库中,也是企业急需解决的一个问题。根据这种需求,研究实现XML与关系库转换系统,实现XML文档与关系数据之间的转换,是一个应用方向十分重要,应用领域十分广阔的系统。XTrans系统起到的是一种中间转换处理单元的作用,也就是说,它负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转换。系统XTrans提供的功能分布于两个功能模块:映射关系定义模块(XTransStudio)和数据转换处理引擎模块(XTransEngine)。
      映射定义功能模块(XTransStudio)能够帮助用户方便地定义XML文档和关系数据库中关系表的映射关系,在这一图形界面的映射关系定义中,用户能的获取XML文档的结构,同时获取关系数据库中的关系表定义,这样就可以方便的定义XML文档和关系数据表之间的映射关系,并可以讲这些定义的映射关系保存在表示映射关系的特定格式的XML映射关系定义文件中。转换处理引擎功能模块(XTransEngine)能根据XTransStudio定义的映射文件处理相应XML文档和关系数据的转换。也就是说,它可以根据这一映射定义文件定义的映射关系控制执行相应XML文档和关系数据库的双向转换。同时,系统能根据所给出的XML文档的DTD定义,采用固定的算法自动生成一系列关系表,并能进一步生成相应的XML文档与这些关系表的映射关系;此外,本模块还能实现简单的XML文档存储功能,用户只需给定XML文档和相应的DTD,系统就能通过转换将XML文档的内容以关系数据的形式存储到关系数据库中;在获取XML文档时,同样通过转换的形式,从关系数据库中获取相关内容,重新构造XML文档。XML与关系数据库转换系统XTrans起到的是一种中间转换处理单元的作用,它负责桥接内部关系数据和外部的XML通信数据。也就是说,它负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转换。
    下载地址:  
    http://www.ios.ac.cn/Welcome.html

    展开全文
  • 1.concapp04 (concapp03的修订版,可支持超大字符) 软件下载地址 http://chinese.hust.edu.cn/Concapp04.exe http://chinese.hust.edu.cn/concapp03.exe (concapp03...
  • 文本分类语料库训练,供学习测试使用。新闻类语料(已标签分类),包含经济、交通、教育、环境、体育、医药等类目共上千份新闻文本。
  • 5、常用语词典,包括流行新词,网络流行词,手机词汇,粤语,潮语潮词、阿里巴巴-通讯产品词汇等 ## 手机评论数据 1、HTC手机评论,包括打分,共302篇1-5 2、魅族手机评论,包括打分,共529篇1-5 3、...
  • 中文语料

    2017-02-17 17:08:00
    为了方便大家的下载及使用,整理了一些常用中文语料库。 1.国家语委语料 CorpusWordlist(现代汉语语料库词语频率表):语料规模2000万字 CorpusWordPOSlist(现代汉语语料库词语分词类频率表):预料规模...
  • 中文情感分析语料

    千次阅读 2017-11-03 16:20:12
    中文情感分析语料库 http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93 中文情感分析的语料库非常少,这五个中文...
  • 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 **使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处...
  • 机器学习-医疗客服相关场景下的50组中文普通话对话文本语料-机器学习数据处理必看-数据.rar
  • 中文语料库有哪些

    万次阅读 2018-05-04 11:21:43
    中文自然语言处理开放平台 由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=9&...
  • 自然语言处理相关数据语料

    千次阅读 2017-09-10 13:44:45
    英文数据Web data: Amazon reviewshttps://snap.stanford.edu/data/web-Amazon.html http://jmcauley.ucsd.edu/data/amazon/Restaurant Reviews Datasethttp://www.cs.cmu.edu/~mehrbod/RR/Movie Review Data...
  • 承接上一期描述的话题分割的任务定义和评估方法,在本文中,我们将去了解5个话题分割常用语料库,以及4大类常用的话题分割的模型和方法,供大家学习和参考。
  • 业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。已开源在某开源网站,但有用户反馈上不去或网速慢下载不了,现转存一份在CSDN。
  • 包括:一些免费的语料库+一些有效分词软件 ———————————————————————————————————————————————— 一、语料库链接 ...中文新闻分类语料库从凤凰、新浪、网易
  • 中文语料库整理

    千次阅读 2012-06-15 12:46:53
    中文自然语言处理开放平台 由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料语料库: ...
  • 中英文NLP数据。可以点击。 您可以通过贡献你的力量。上传五个或以上数据信息并审核通过后,该同学可以作为项目贡献者,并显示出来。 如果数据有问题,欢迎提出问题。 所有数据均压缩网络,只做整理供大家...
  • 干货|免费文本语料训练数据

    万次阅读 2017-12-18 00:00:00
    下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。 (1) 中科院自动化所的中英文新闻语料库  http://www.datatang.com/data/13484 中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。 英语新闻...
  • 常用数据链接

    千次阅读 2019-05-19 10:57:16
    CVonline:图像数据库 ... 一般RGBD和深度数据 一般视频 手,掌握,手动和手势数据库 图像,视频和形状数据库检索 对象数据库 人(静),人体姿势 人员检测和跟踪数据库(另见监控) 遥感...
  • 使用中文wiki语料库训练word2vec

    千次阅读 2018-03-18 23:00:16
    1. 任务描述本文主要完成以下任务:训练字的embedding(unigram char ... 准备工作2.1 语料准备下载当前最新打包的中文(简体)wiki的文本语料。2.2 训练工具本文使用Python进行处理,版本为3.6。训练过程中需要的...
  • 文本数据分析学习目标1. 获得训练和验证的标签数量分布2....文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择. 常用的几种文
  • 自然语言处理常用数据

    千次阅读 2018-11-24 14:03:11
    涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体...
  • 文本摘要常用数据和方法研究综述 [1]侯圣峦,张书涵,费超群.文本摘要常用数据和方法研究综述[J].中文信息学报,2019,33(05):1-16. 为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成式文本...
  • NLP/常用数据简介

    2021-03-07 14:47:01
    数据和算法在NLP中都非常重要,使用公开的数据可以帮助我们快速学习NLP相关知识并实践,下面我们将介绍常用的几个数据。 搜狗实验室数据 搜狗实验室(Sogo Labs)是搜狗搜索核心研发团队对外交流的窗口,包含...
  • 语音翻译常用数据

    2021-08-02 15:01:18
    语音翻译常用数据 Fisher and CALLHOME Spanish-English Speech Translation 【基本信息】 Fisher and CALLHOME Spanish-English Speech Translation数据是由约翰霍普金斯大学开发的,包含英语参考翻译和语音...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,277
精华内容 2,110
关键字:

中文常用语料集