精华内容
下载资源
问答
  • 文本分类数据集

    千次阅读 2019-11-29 11:58:04
    文本分类数据集 https://hyper.ai/datasets 搜狐新闻文本分类数据集 官网https://www.sogou.com/labs/resource/list_news.php 数据集:https://pan.baidu.com/s/1V6o20temK2v3j-bo16x94g提取码:fech 今日头条...

    文本分类数据集

    https://hyper.ai/datasets

    搜狐新闻文本分类数据集

    官网 https://www.sogou.com/labs/resource/list_news.php

    数据集:https://pan.baidu.com/s/1V6o20temK2v3j-bo16x94g 提取码:fech

    今日头条中文新闻(文本)分类数据集

    https://github.com/fatecbf/toutiao-text-classfication-dataset

    复旦中文文本分类语料库

    https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa 

    本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国

     

    展开全文
  • 天池比赛 新闻文本分类数据集 test_a.csv train_set.csv
  • 头条新闻文本分类数据集,包括11个类别,近50万条数据,文本内容为新闻标题+提取的关键词,分为训练数据和验证数据两个文件
  • cnews中文文本分类数据集;由清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史 数据筛选过滤生成,训练过程见我的博客;
  • 大规模新闻文本分类数据集,有多个领域,按文件夹摆放,不仅可以用来做文本分类实验,数据不少甚至可以用来做BERT预训练
  • EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification ...实验显示,在五个通用的文本分类数据集上,使用EDA方法增强语料,模型都有一定性能上的提升。尤其在语料不足的情况下...

    d2a403051705e7dd02c907de84cf85e5.png

    EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

    概述

    文章提出了一种文本分类任务中数据增强的方法:EDA,EDA中包括四种操作,SR、RI、 RS、RD。

    实验显示,在五个通用的文本分类数据集上,使用EDA方法增强语料,模型都有一定性能上的提升。

    尤其在语料不足的情况下,性能提升得越多。

    EDA中的四种操作

    分别是,同义词替换随机插入随机交换随机删除。详细操作如下图

    d2ae9692df541f8c9928b08172cd89ff.png

    经过EDA方法操作后,原有句子的label还会是对的吗?

    看论文的过程中,其实心中一直有一个疑问,经过EDA操作的句子,label还会是对的吗

    作者在论文中回答了这一点,作者做了一个实验,用原有的训练集训练模型(未经过数据增强),

    之后在测试集中使用EDA方法,拓展测试集,将原有的测试集和拓展出的语料,喂进模型中,

    发现原有测试集和拓展出的语料,最后线性层的输出,在高维空间中,距离很小。如下图所示。

    00a40b673fd0518aedda0ec8ac92a272.png

    作者的建议

    作者给出了在实际使用EDA方法的建议,表格的左边是数据的规模

    , 右边
    是概率、比率

    比如同义词替换中,替换的单词数

    是句子长度。随机插入、随机替换类似。

    随机删除的话

    代表使用EDA方法从每一个句子拓展出的句子数量。

    f3dc1401b20d901425b72f39d3320f54.png
    原论文地址arxiv.orgjasonwei20/eda_nlpgithub.com
    b7dd77cdf48bec4fa5f59cf658df2d12.png
    展开全文
  • 资源为新闻类的中文文本分类数据集,能够满足机器学习,文字分析方面的需求
  • 搜狐新闻文本分类数据集

    千次阅读 2019-05-19 23:54:39
    搜狐新闻文本分类数据集 数据集:https://pan.baidu.com/s/1V6o20temK2v3j-bo16x94g 提取码:fech

    搜狐新闻文本分类数据集

    数据集:https://pan.baidu.com/s/1V6o20temK2v3j-bo16x94g 提取码:fech

    展开全文
  • 1. CK数据集-ck,ck+表情识别 2. cnn文本分类-cnews 注释:百度云链接
  • 网上很多复旦大学的文本分类数据集,但是训练和测试大多是分开的。 我收集下载重新打包,以方便大家使用。 仅需5个积分,是最便宜的了。
  • 复旦中文文本分类数据集 和鲸社区 https://www.kesci.com/home/dataset/5d3a9c86cf76a600360edd04

    复旦中文文本分类数据集

    和鲸社区
    https://www.kesci.com/home/dataset/5d3a9c86cf76a600360edd04

    展开全文
  • 本节资料是练习RNN文本分类数据数据有是10类别,模型采用两层的LSTM网络。数据包含了测试,训练和验证,并且代码讲解很详细,是联系RNN网络LSTM实现的好数据
  • 朴素贝叶斯 分类算法数据集文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助下,包括情绪分析,文件分类...
  • 新闻文本分类数据集

    2021-03-30 21:19:50
    新闻文本的特征、标签
  • 包含体育、游戏等10个类别,共60000多条数据 格式:标签\t文本语料
  • 50000条新闻文本数据集,文本有9类。可用于文本分类模型训练。
  • SougoCS数据集,内含11类搜狐新闻文本,近10万条。 搜狗提供的数据为未分类的XML格式。 此资源已经将XML解析并分类完毕,方便使用。
  • 复旦中文文本数据集,包含训练集与测试集,数据集为TXT格式,可以进行文本分类实验,机器学习,深度学习,需要的可以下载。
  • 复旦大学中文语料分类数据 3个子文档 一共有19666个文档 是很好的分类语料库
  • 本文为PU-Learning/文本分类/文本聚类/情感分析相关研究提供部分常用数据集下载地址(所有数据集都有大量文献使用,暂时只列一篇代表性文章)Lang K . NewsWeeder : Learning to filter net-news[C]// Twelfth ...
  • aclIMDB_v1:大型电影评论数据集(来自斯坦福大学),其中包含50,000个电影评论(50%为负,50%为正)。该集合被划分为训练和验证数据集(每个数据集有25000个电影评论,具有相同数量的正面和负面评论),还包括了...
  • 新闻栏目中文文本分类,新闻栏目一共有: 体育 5000 时政 5000 房产 5000 家居 5000 财经 5000 时尚 5000 科技 5000 教育 5000 娱乐 5000 游戏 5000 每个新闻栏目拥有5000条新闻,通过对新闻内容作为样本训练模型,...
  • imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集 https://github.com/JerrikEph/Capsule4TextClassification/blob/master/data/downloadDataset.md
  • 文本分类数据集(共13个20ng,mr,R8,R52,ohsumed,wiki,agnews等) 数据量很多,适合进行深度学习实验
  • 文本分类数据集汇总

    千次阅读 2020-07-02 15:06:24
    统计了下载到的文本分类数据集信息,汇总成表格如下(时间:2020.7.1): Dataset Classes Type Samples Best Method Performance AG News 4 Topic Train:120000 Test: 7600 XLNet Error: 4.45 Dbpedia 14 Topic Train...
  • 下载后可以自己重新切分数据,也可以直接用。 免费下载地址:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ 密码:dq9m 使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)...
  • ag_news文本分类数据集

    2018-07-13 16:31:21
    AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of more than 1 million news articles. News articles have been gathered from more than 2000 news ...
  • 然而,有监督的深度学习极大地依赖大规模的标注数据,在实际项目中,我们通常会面临少样本、样本分布不均衡等场景。因此,如何运用数据增强技术来改善上述问题是近年来的热点问题之一。一、背景作为“住”这一领域的...
  • 下载的原始数据编码格式是gb18030,用python解析时报错,这个是用java将数据格式转为utf-8编码格式后的结果。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。 下载后可以自己重新切分数据,也可以...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,989
精华内容 1,195
关键字:

文本分类数据集