精华内容
下载资源
问答
  • 文本分析数据集
    万次阅读
    2018-04-03 15:51:56

    1.中文数据集

    CTW data(Chinese Text in the Wild)

    清华大学与腾讯共同推出了中文自然文本数据集(Chinese Text in the Wild,CTW)——一个超大的街景图片中文文本数据集,为训练先进的深度学习模型奠定了基础。目前,该数据集包含 32,285 张图像和 1,018,402 个中文字符,规模远超此前的同类数据集。研究人员表示,未来还将在此数据集之上推出基于业内最先进模型的评测基准。

    资源链接:CTW Dataset

    在相关论文《Chinese Text in the Wild》中,清华大学的研究人员以该数据集为基础训练了多种目前业内最先进的深度模型进行字符识别和字符检测。这些模型将作为基线算法为人们提供测试标准。这些图像源于腾讯街景,从中国的几十个不同城市中捕捉得到,不带任何特定目的的偏好。由于其多样性和复杂性,使得该数据集的收集很困难。它包含了平面文本、凸出文本、城市街景文本、乡镇街景文本、弱照明条件下的文本、远距离文本、部分显示文本等。对于每张图像,数据集中都标注了所有中文字符。对每个中文字符,数据集都标注了其真实字符、边界框和 6 个属性以指出其是否被遮挡、有复杂的背景、被扭曲、3D 凸出、艺术化,和手写体等。

    参考:资源 | 百万级字符:清华大学提出中文自然文本数据集CTW

    华中科技大学中文数据集链接

    http://www.icdar2017chinese.site:5080/dataset/

    icdar2017比赛结果分析

    ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)_rabbithui的专栏-CSDN博客

    ICPR WTMI2018中文数据集(天池比赛数据集)

    MTWI 2018 挑战赛二:网络图像的文本检测赛题与数据-天池大赛-阿里云天池

    ICDAR2019 数据集

    Overview - ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboard - Robust Reading Competition

    ICDAR 2019 SROIE

            1000个完整的扫描收据图像,600张用于训练,400张用于测试。

            task1:常规识别任务,定位加识别。

            task2:扫描收据,提供OCR单词列表。

            task3:提取关键信息。

    2.其它非中文数据集

    参考:文字检测与识别数据库整理【持续更新】 - lilicao - 博客园

    3.手写数据集

     国内研究机构发布的数据集
    1. HCL2000脱机手写汉字库 http://www.datatang.com/data/13885
    北京邮电大学模式识别实验室发布的数据。HCL2000是目前最大的脱机手写汉字库,共有1000个人书写,除了汉字样本库外,还有一个对应的书写者信息库,记录了书写者的年龄、职业、文化程度等信息,用于研究相关影响因素。目前此数据库免费向研究者公开。
    这是一份非常优秀的数据,是汉字识别的首选测试数据库。
    2. CASIA中文手写数据集 http://www.datatang.com/data/13227
    中科院自动化所发布的中文手写数据。包括187个人通过Walcom笔在线输入的手写文本。
    3. CASIA英文手写数据集 http://www.datatang.com/data/13226
    中科院自动化所发布的英文手写数据。包括134个人通过Walcom笔在线输入的手写文本。
    4. 基于Wacom笔的用户手写Text数据 http://www.datatang.com/data/16613
    中国科学院软件研究所笔式和多通道人机交互研究组发布的数据。包含12用户在执行手写Text任务时Stroke层数据和Point层数据两部分。
    5. 留学生手写汉字 http://www.datatang.com/data/10089
    北京语言大学采用数字墨水技术采集的留学生手写汉字库(样例)
    国外研究机构发布的数据集
    6. USPS美国邮政服务手写数字识别库 http://www.datatang.com/data/11927
    用于数字的手写识别。库中共有9298个手写数字图像(均为16*16像素的灰度图像的值,灰度值已被归一化),其中7291个用于训练,2007个用于测试。
    7. 手写数字MNIST数据集 http://www.datatang.com/data/3082
    用于数字的手写识别。库中共有6万个训练集和1万个测试集。
    8. 用于笔交互的手写数字识别(UCI) http://www.datatang.com/data/578
    用于数字的手写识别。库中共有44个人的250个手写数据例子
    9. 用于处理和理解手写阿拉伯语的数据集 http://www.datatang.com/data/2188

    用于阿拉伯语的手写识别。包括51个人的2万个手写数据。

    4.其它数据集

    从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集 - 知乎

    5.别人总结的资源

    文字检测与识别资源_PeaceInMind的博客-CSDN博客_文字检测与识别

    更多相关内容
  • 数据包含四种情感类型的文本文件及中文停词文本
  • 中文文本情感分析案例 课程配套程序 该文件夹是本次课程配套的程序,打来即可使用 课后作业数据集 为大家课后作业的数据集,可以在该数据集上进行相关训练 test.tsv为测试数据集,测试模型准确度 train.tsv为训练...
  • 情感文本分类-数据集

    2021-03-26 10:07:49
  • kaggle 电影评论情感分析(Bag of Words Meets Bags of Popcorn)的全部数据集,自己上网找了半天都找不到,最后是让同学上外网下的,在这里分享给想学习nlp的同学
  • 资源为新闻类的中文文本分类数据集,能够满足机器学习,文字分析方面的需求
  • 情感文本分析数据集处理和预测---K-lab平台预选赛

    千次阅读 热门讨论 2019-05-14 16:34:03
    本预选赛要求选手建立文本情感分类模型,选手用训练好的模型对测试集中的文本情感进行预测,判断其情感为「Negative」或者「Positive」。所提交的结果按照指定的评价指标使用在线评测数据进行评测,达到或超过规定...

    比赛网址:K-lab平台2019中国高校计算机大赛---大数据挑战赛

     

     

    预选赛题

    预选赛题——文本情感分类模型

           本预选赛要求选手建立文本情感分类模型,选手用训练好的模型对测试集中的文本情感进行预测,判断其情感为「Negative」或者「Positive」。所提交的结果按照指定的评价指标使用在线评测数据进行评测,达到或超过规定的分数线即通过预选赛。

    比赛数据

           数据样本格式:

    NO

    列名

    类型

    字段描述

    1

    ID

    int

    文本唯一标识

    2

    review

    string

    文本记录

    3

    label

    string

    文本的情感状态

           其中,训练集的样本规模为6328,测试集的样本规模为2712。

     

    提交结果

           选手提交.csv的结果文件,文件名可以自定义,但文件内的字段需要对应。其中,ID表示文本唯一标识,pred表示预测该条文本的情感状态是否为「Positive」。

    结果文件的内容示例:

    ID

    Pred

    1

    0.123456

    2

    0.654321

    3

    0.799212

     

     

    代码分为五部分:

    导入数据、清洗数据、观察数据、建立模型、预测数据;

     

    导入数据

    首先导入包:

    import re
    import pandas as pd 
    import numpy as np 
    import matplotlib.pyplot as plt 
    import seaborn as sns
    import string
    import nltk

    导入数据:

    i = "this"
    trainTrue = pd.read_csv('E:\kLab_File\\mase\\train.csv',engine = 'python')
    train = trainTrue.copy()
    
    testTrue = pd.read_csv('E:\kLab_File\mase\\test.csv')
    test = testTrue.copy()
    
    

     查看导入的数据:

    print(train.head(10))

    可以看到,数据包含三列,ID、review和label,review包含了我们需要清理的评论内容,label是根据review判断出改评论的态度
    看了头部数据之后,我们大概可以开始清理数据了,清理大概可以从下面几个方面入手:

    • 我们发现label中这一列只有positive和negative两种,我们可以进行数字化,方便以后进行信息的分析和计算。
    • @xxxx这个标签没有任何实际意义。
    • 我们也考虑去掉标点符号,数字甚至特殊字符,他们也对区分不同的评论起不到任何作用。
    • 大多数太短的词起不到什么作用,比如‘pdx’,‘his’,‘all’。所以我们也把这些词去掉。
    • 执行完上述三步之后,我们就可以把每一条评论切分成独立的单词或者符号了,这在所有NLP任务中都是必须的一步。
    • 在第四个数据中,有一个单词‘love’.与此同时,在余下的语料中我们可能会有更多的单词,例如loves,loving,lovable等等。这些词其实都是一个词。如果我们能把这些词都归到它们的根源上,也就是都转换成love,那么我们就可以大大降低不同单词的数量,而不会损失太多信息。

     

     

    清洗数据 

    数据化label列,方便以后进行数据的分析

    train['label'] = train['label'].replace(to_replace=['Positive', 'Negative'], value=[1, 0])
    

    我们后面要用test进行预测,所以我们text也要进行相同的数据处理、数据清理。

     

     

    删除@xxxx

    下面是一个自定义的方法,用于正则匹配删除文本中不想要的内容。它需要两个参数,一个是原始文本,一个是正则规则。这个方法的返回值是原始字符串清除匹配内容后剩下的字符。在我们的实验中,我们将使用这个方法来去除@xxx标记

    
    # 删除@  
    combi =  train.copy()
    def remove_pattern(input_txt,pattern):
        r = re.findall(pattern,input_txt)
        for i in r:
            input_txt = re.sub(i,'',input_txt)
        
        return input_txt
    
    

    这里我推荐大家把训练集和测试集并在一起清洗,这样方便一点 

    combi = train.append(test, ignore_index=True)

    当然博主没有并在一起处理,所以对数据的每一步操作,测试集做一次处理,训练集在做一次处理。 

    combi['review'] = np.vectorize(remove_pattern)(combi['review'],"@[\w]*")
    test['review'] = np.vectorize(remove_pattern)(test['review'],"@[\w]*")

     

     

    除标点符号,数字和特殊字符

    combi['review'] = combi['review'].str.replace("[^a-zA-Z#]"," ")
    test['review'] = test['review'].str.replace("[^a-zA-Z#]"," ")
    

     

     

     

    空格删除

    把评论的空格前缀都删除

    combi['review'] = combi['review'].str.strip()  

     

     

     

    统计每列数据缺失值的分布情况

    print(combi.isnull().sum())

     

    我们发现数据中有6行拥有缺失值的,由于拥有缺失值的行数比较少,所以我们选择直接删除这六行;

     

     

    删除缺失值行

    combi.dropna(axis=0, how='any', thresh=None, subset=None, inplace=True)   #去除含有缺失值的一行
    

    删除以后我们查看一下数据

    print(combi.isnull().sum())

    已经删除了缺失的6行

     

     

    移除短单词

    这里要注意到底多长的单词应该移除掉。我的选择是小于三的都去掉。例如hmm,oh,hi这样的都没啥用,删掉这些内容好一些

    combi['review'] = combi['review'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]).lower())
    test['review'] = test['review'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]).lower())
    

     

     

    分词、符号化

    tokenized_review = combi['review'].apply(lambda x: x.split())
    tokenized_review_test =  test['review'].apply(lambda x: x.split())
    print(tokenized_review.head())

     

     

    提取词干

    提取词干说的是基于规则从单词中去除后缀的过程。例如,play,player,played,plays,playing都是play的变种。

    from nltk.stem.porter import *
    
    stemmer =PorterStemmer()
    tokenized_review = tokenized_review.apply(lambda x: [stemmer.stem(i) for i in x]) #stemming
    tokenized_review_test = tokenized_review_test.apply(lambda x: [stemmer.stem(i) for i in x]) #stemming
    
    print(tokenized_review.head())

     

     

    分词复原

    把符号化的词语重新拼回去,这里我们使用最笨的方法就是遍历拼写回去;

    这里在自然语言处理库nltk没有改版时时可以只用nltk的MosesDetokenizer方法很容易做到,但是更改之后官网时把nltk中的MosesDetokenizer方法删除了的,好像是为了处理兼容性的问题。

    tokenized_review = tokenized_review.apply(lambda x: ' '.join([w for w in x]))
    tokenized_review_test = tokenized_review_test.apply(lambda x: ' '.join([w for w in x]))
    
    print("head2",tokenized_review.head(10))
    test.to_csv('E:\kLab_File\\mase\\testtest0.1.csv',index=False)

     

     

    观察数据      (其实这一步我们可以不用详细的观察,因为在此次数据处理中我们的数据都是经过脱敏的,单词非英语单词,所以句子一般读不懂。但是你也可以看一看)

    • 数据集中最常见的单词有哪些?
    • 数据集上表述积极和消极的常见词汇有哪些?
    • 评论一般有多少主题标签?
    • 我的数据集跟哪些趋势相关?
    • 哪些趋势跟情绪相关?他们和情绪是吻合的吗?

     

    使用 词云 来了解评论中最常用的词汇

    现在,我想了解一下定义的情感在给定的数据集上是如何分布的。一种方法是画出词云来了解单词分布。
    词云指的是一种用单词绘制的图像。出现频率越高的词在图案中越大,出现频率越低的词在图案中越小。
    下面就来绘制基于我们的数据的词云图像。

     

    总的词云:

    #使用 词云 来了解评论中最常用的词汇
    all_words = ' '.join([text for text in combi['review']])
    from wordcloud import WordCloud
    wordcloud = WordCloud(width=800, height=500, random_state=21, max_font_size=110).generate(all_words)
    
    plt.figure(figsize=(10, 7))
    plt.imshow(wordcloud, interpolation="bilinear")
    plt.axis('off')
    plt.show()

     

     

    积极评论的词云: 

    # 积极数据
    positive_words =' '.join([text for text in combi['review'][combi['label'] == 0]])
    
    wordcloud = WordCloud(width=800, height=500, random_state=21, max_font_size=110).generate(positive_words)
    plt.figure(figsize=(10, 7))
    plt.imshow(wordcloud, interpolation="bilinear")
    plt.axis('off')
    plt.show()

     

    消极评论的词云:

    # 消极数据
    negative_words = ' '.join([text for text in combi['review'][combi['label'] == 1]])
    
    wordcloud = WordCloud(width=800, height=500,
    random_state=21, max_font_size=110).generate(negative_words)
    plt.figure(figsize=(10, 7))
    plt.imshow(wordcloud, interpolation="bilinear")
    plt.axis('off')
    plt.show()

     

     

    我们存下所有主题标签,并分成两类,一类是积极内容中的标签,一类是带有消极内容中的标签。

    #love  #hate  这种标签

     

    写一个方法用来剥离标签

    def hashtag_extract(x):
        hashtags = []
        # Loop over the words in the tweet
        for i in x:
            ht = re.findall(r"#(\w+)", i)
            hashtags.append(ht)
    
        return hashtags

    用剥离标签的方法剥离标签并放到相应的数组中; 

    # extracting hashtags from non racist/sexist tweets
    HT_positive = hashtag_extract(combi['review'][combi['label'] == 0])
    
    # extracting hashtags from racist/sexist tweets
    HT_negative = hashtag_extract(combi['review'][combi['label'] == 1])
    
    # unnesting list
    HT_positive = sum(HT_positive,[])
    HT_negative = sum(HT_negative,[])
    

     

     

    画出标签:

    # 画积极标签
    a = nltk.FreqDist(HT_positive)
    d = pd.DataFrame({'Hashtag': list(a.keys()),'Count': list(a.values())})
    # selecting top 10 most frequent hashtags     
    d = d.nlargest(columns="Count", n = 10)     #前十
    plt.figure(figsize=(16,5))
    ax = sns.barplot(data=d, x= "Hashtag", y = "Count")
    ax.set(ylabel = 'Count')
    plt.show()

     

     

    画出消极标签

    # 画消极标签
    b = nltk.FreqDist(HT_negative)
    e = pd.DataFrame({'Hashtag': list(b.keys()),'Count': list(b.values())})
    # selecting top 10 most frequent hashtags
    e = e.nlargest(columns="Count", n = 10)   
    plt.figure(figsize=(16,5))
    ax = sns.barplot(data=e, x= "Hashtag", y = "Count")
    ax.set(ylabel = 'Count')
    plt.show()
    

     

     

    建立模型

    要分析清洗后的数据,就要把它们转换成特征。根据用途来说,文本特征可以使用很多种算法来转换。比如词袋模型(Bag-Of-Words),TF-IDF,word Embeddings之类的方法。
    在本文中,我使用了Bag-Of-Words和TF-IDF两个方法。

    词袋特征

    Bag-Of-Words是一种数字化表达特征的方式。假设有一个语料集合C,其中有D篇文章(d1,d2,...dD),在C中有N个不重复的符号。那么这N个符号(即单词)构成一个列表,那么词袋模型的矩阵M的大小就是D*N.M中的每一行记录了一篇文章D(i)中对应符号的词频。

    让我们用一个简单的例子来加强理解。假设我们只有两篇文章
    D1: He is a lazy boy. She is also lazy.

    D2: Smith is a lazy person.
    构建包含所有去重单词的list
    = [‘He’,’She’,’lazy’,’boy’,’Smith’,’person’]
    那么,在这个语料C上,D=2,N=6
    词袋模型的矩阵M的大小就是2*6

     

    矩阵

     

    现在,这个矩阵就可以作为特征矩阵来构建一个分类模型了。
    使用sklearn的CountVectorizer方法可以轻松的构建词袋模型。


     

    建立词袋模型

     

    这里建议大家的磁带模型是用测试集数据和训练集数据建立的,可以增加后续的准确率。
    设置参数max_features = 8200 ,只取词频前8200的词,当我去掉超过30%的无用词时,还剩下8200个。

     

    我感觉词频越高,后面的准确度越高。所以这里打击根据自己的数据需求更改自己的max_features;

    #构建词袋模型
    from sklearn.feature_extraction.text import CountVectorizer
    bow_vectorizer = CountVectorizer(max_df=0.30, max_features=8200, stop_words='english')
    
    bow = bow_vectorizer.fit_transform(combi['review'])
    bowtest = bow_vectorizer.fit_transform(test['review'])
    print(test.describe())
    
    print(bow.toarray())
    
    

     

     

    根据词袋模型运用逻辑回归来构建模型

    # 逻辑回归来构建模型
    
    # 使用词袋模型特征集合构建模型
    from sklearn.linear_model import LogisticRegression
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import f1_score
    train_bow = bow[:6331,:]
    test_bow = bowtest[:2712,:]
    print("这里",test_bow.toarray())

     

    划分测试集合训练集,测试集占30%

    xtrain_bow, xvalid_bow, ytrain, yvalid = train_test_split(train_bow, combi['label'], random_state=42, test_size=0.3)
    

    逻辑回归

    lreg = LogisticRegression()
    lreg.fit(xtrain_bow, ytrain) 
    
    prediction = lreg.predict_proba(xvalid_bow) # predicting on the validation set
    prediction_int = prediction[:,1] >= 0.3
    prediction_int = prediction_int.astype(np.int)
    print("回归f",f1_score(yvalid, prediction_int)) # calculating f1 score
    

    F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率召回率。F1分数可以看作是模型准确率召回率的一种加权平均,它的最大值是1,最小值是0。

    这里可以通过调各种数据来提高模型的f1分数

     

    预测数据

    模型来预测测试集数据。

    test_pred = lreg.predict_proba(test_bow)
    print("这里P:",test_pred)
    

    看一下传入的test数据经过模型预测的数据;

     

    print(test_pred.size)
    test_pred_int = test_pred[:,1]    //提取我们需要预测的test的label列
    print(test_pred_int.size)    //看看进过模型预测后的长度是否有变化
    
    print(pd.DataFrame(test,columns=["ID"]).size)     //看看原始test的数据列有多少
      
    
    

    第二行和第三行要相同,不然会出现填写行数与预测行数不匹配的问题;

     

    最后只剩下保存数据

    test['Pred'] = test_pred_int
    submission = test[['ID','Pred']]
    submission.to_csv('E:\kLab_File\\mase\\result.csv', index=False) # writing data to a CSV file
    

     

     

     

    TF-IDF特征

    这个方法也是基于词频的。但是它跟词袋模型还有一些区别,主要是它还考虑了一个单词在整个语料库上的情况而不是单一文章里的情况。
    TF-IDF方法会对常用的单词做惩罚,降低它们的权重。同时对于某些在整个数据集上出现较少,但是在部分文章中表现较好的词给予了较高的权重。
    来深入了解一下TF-IDF:

    • TF = 单词t在一个文档中出现的次数 / 文档中全部单词的数目
    • IDF = log(N/n),N是全部文档数目,n是单词t出现的文档数目
    • TF-IDF = TF*IDF

    这里我就不深入了。

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • twitter文本的pyhton情感分析(所有源码和数据集),有对表情的简单处理
  • 基于文本挖掘的企业隐患排查质量分析数据集.zip
  • COAE2014微博文本倾向性分析评测数据集
  • kaggle 电影评论文本情感分析(Bag of Words Meets Bags of Popcorn)数据集,和官方的一致。
  • NLP探查器||| ||| 一个简单的NLP库,允许使用一个或多个文本列来分析数据集。 给定数据集和该列中包含文本数据的列名称时,NLP Profiler会返回有关文本的高级洞察或低级/粒度统计信息。 简而言之:可以将其视为使用...
  • 关于文本分类(情感分析)的中文数据集汇总

    万次阅读 多人点赞 2019-07-14 16:08:14
    文本分类(情感分析)中文数据集汇总 这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。 1...

    文本分类(情感分析)中文数据集汇总

    这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。

    1.THUCNews数据集:

    THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

    数据集地址: http://thuctc.thunlp.org/

    2.今日头条新闻文本分类数据集:

    数据来源:今日头条客户端
    数据规模:共382688条,分布于15个分类中。
    数据格式:6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

    每行为一条数据,以_!_分割的个字段,从前往后分别是
    新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

    数据集地址:https://github.com/fate233/toutiao-text-classfication-dataset

    3.全网新闻数据(SogouCA):

    来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

    数据格式为

    <doc>
    <url>页面URL</url>
    <docno>页面ID</docno>
    <contenttitle>页面标题</contenttitle>
    <content>页面内容</content>
    </doc>
    

    注意:content字段去除了HTML标签,保存的是新闻正文文本

    数据集地址: https://www.sogou.com/labs/resource/ca.php

    4.搜狐新闻数据(SogouCS):

    来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

    数据格式为
    <doc>
    <url>页面URL</url>
    <docno>页面ID</docno>
    <contenttitle>页面标题</contenttitle>
    <content>页面内容</content>
    </doc>
    

    注意:content字段去除了HTML标签,保存的是新闻正文文本

    数据集地址: https://www.sogou.com/labs/resource/cs.php

    5.ChnSentiCorp_htl_all数据集:

    7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论

    数据字段:
    Label:1表示正向评论,0表示负向评论
    Review:评论内容
    

    1
    数据集地址:
    https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

    6.waimai_10k数据集:

    某外卖平台收集的用户评价,正向4000 条,负向约 8000 条

    数据字段:
    
    Label:1表示正向评论,0表示负向评论
    Review:评论内容
    

    2
    数据集地址:
    https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv

    7.online_shopping_10_cats数据集:

    10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条
    9
    10

    数据集下载地址:
    https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

    8.weibo_senti_100k数据集:

    10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条。
    在这里插入图片描述
    在这里插入图片描述

    数据集下载地址:
    https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

    9.simplifyweibo_4_moods数据集:

    36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
    在这里插入图片描述

    在这里插入图片描述

    数据集下载地址:
    https://pan.baidu.com/s/16c93E5x373nsGozyWevITg

    10.dmsc_v2数据集:

    28部电影,超70万用户,超200万条评分/评论数据
    在这里插入图片描述

    在这里插入图片描述

    数据集地址:https://pan.baidu.com/s/1c0yn3TlkzHYTdEBz3T5arA

    原始数据集地址:https://www.kaggle.com/utmhikari/doubanmovieshortcomments

    11.yf_dianping数据集:

    24 万家餐馆,54 万用户,440 万条评论/评分数据
    在这里插入图片描述
    在这里插入图片描述
    数据集地址:https://pan.baidu.com/s/1yMNvHLl6QYsGbjT7u51Nfg
    原始数据集地址:http://yongfeng.me/dataset/

    12.yf_amazon数据集:

    52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
    在这里插入图片描述
    在这里插入图片描述

    原始数据集地址:http://yongfeng.me/dataset/
    数据集地址:https://pan.baidu.com/s/1SbfpZb5cm-g2LmnYV_af8Q

    13.Datahub数据中心:

    包含文本分类、情感分析以及知识图谱的数据集

    相关地址:http://www.datahub.ileadall42.com/data/list?category=2&parent_category=1

    14.知乎看山杯数据集:

    数据集下载地址:https://pan.baidu.com/s/1qUr6IQQn6DzrMlbaAUZslQ
    提取码: qbiw

    15.AI_challenger情感分析数据集:

    数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。

    数据集下载地址:https://github.com/nju161250102/AI_challenger/tree/master/data

    16.复旦中文文本分类语料库

    数据链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg
    密码:zyxa

    展开全文
  • 数据集介绍 数据集链接: https://pan.baidu.com/s/1oIXkaL_SL9GSN3S56ZwvWQ 提取码: qgtg 训练集labeledTrainData.tsv(24500条带标签的训练数据) id sentiment review 分别表示:每段文本的唯一ID,情感色彩类别
  • 关于文本分类(情感分析)的英文数据集汇总 20 Newsgroups数据集: The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different ...

    关于文本分类(情感分析)的英文数据集汇总

    20 Newsgroups数据集

    The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups. The data is organized into 20 different newsgroups, each corresponding to a different topic.

    数据集地址:http://qwone.com/~jason/20Newsgroups/

    Reuters-21578 Text Categorization Collection Data Set数据集

    This is a collection of documents that appeared on Reuters newswire in 1987. The documents were assembled and indexed with categories.
    在这里插入图片描述
    数据集地址
    https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

    Spambase Data Set数据集

    Classifying Email as Spam or Non-Spam
    在这里插入图片描述
    数据集地址
    https://archive.ics.uci.edu/ml/datasets/Spambase

    1996 English Broadcast News Speech 数据集
    The 1996 Broadcast News Speech Corpus contains a total of 104 hours of broadcasts from ABC, CNN and CSPAN television networks and NPR and PRI radio networks with corresponding transcripts. The primary motivation for this collection is to provide training data for the DARPA “HUB4” Project on continuous speech recognition in the broadcast domain.

    数据集地址:https://catalog.ldc.upenn.edu/LDC97S44

    谷歌云盘文本分类数据集
    来自Zhang et al., 2015。用于文本分类的八个数据集合集。这些是用于新文本分类基线的基准。样本大小从 120K 至 3.6M 不等,范围从二进制到 14个分类问题。数据集来自 DBPedia、亚马逊、Yelp、Yahoo!和 AG。

    数据集地址
    https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

    The Corpus of Linguistic Acceptability数据集
    纽约大学发布的有关语法的数据集,该任务主要是对一个给定句子,判定其是否语法正确,因此CoLA属于单个句子的文本二分类任务;

    数据集地址:https://nyu-mll.github.io/CoLA/

    SST数据集
    斯坦福大学发布的一个情感分析数据集,主要针对电影评论来做情感分类,因此SST属于单个句子的文本分类任务(其中SST-2是二分类,SST-5是五分类,SST-5的情感极性区分的更细致);

    数据集地址:https://nlp.stanford.edu/sentiment/index.html

    MRPC数据集
    由微软发布,判断两个给定句子,是否具有相同的语义,属于句子对的文本二分类任务;

    数据集地址:https://www.microsoft.com/en-us/download/details.aspx?id=52398

    STS-B数据集
    主要是来自于历年SemEval中的一个任务(同时该数据集也包含在了SentEval),具体来说是用1到5的分数来表征两个句子的语义相似性,本质上是一个回归问题,但依然可以用分类的方法做,因此可以归类为句子对的文本五分类任务;

    数据集地址:http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

    QQP数据集
    由Quora发布的两个句子是否语义一致的数据集,属于句子对的文本二分类任务;

    数据集地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

    MNLI数据集
    由纽约大学发布,是一个文本蕴含的任务,在给定前提(Premise)下,需要判断假设(Hypothesis)是否成立,其中因为MNLI主打卖点是集合了许多不同领域风格的文本,因此又分为matched和mismatched两个版本的MNLI数据集,前者指训练集和测试集的数据来源一致,而后者指来源不一致。该任务属于句子对的文本三分类问题。

    数据集地址:http://www.nyu.edu/projects/bowman/multinli/

    Large Movie Review Dataset数据集
    This is a dataset for binary sentiment classification containing substantially more data than previous benchmark datasets. We provide a set of 25,000 highly polar movie reviews for training, and 25,000 for testing. There is additional unlabeled data for use as well. Raw text and already processed bag of words formats are provided. See the README file contained in the release for more details.

    数据集地址:http://ai.stanford.edu/~amaas/data/sentiment/

    WebKB数据集
    The documents in the WebKB are webpages collected by the World Wide Knowledge Base (Web->Kb) project of the CMU text learning group, and were downloaded from The 4 Universities Data Set Homepage. These pages were collected from computer science departments of various universities in 1997, manually classified into seven different classes: student, faculty, staff, department, course, project, and other.
    在这里插入图片描述

    数据集地址:http://www.webkb.org/

    AG News数据集
    The AG News corpus consists of news articles from the AG’s corpus of news articles on the web pertaining to the 4 largest classes. The dataset contains 30,000 training examples for each class 1,900 examples for each class for testing. Models are evaluated based on error rate (lower is better).

    数据集地址
    数据集-官网完整版:
    http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html

    数据集-分类任务集
    https://github.com/mhjabreel/CharCNN/tree/master/data/

    DBpedia数据集
    DBpedia provides three different classification schemata for things.

    • Wikipedia Categories are represented using the SKOS vocabulary and DCMI terms.
    • The YAGO Classification is derived from the Wikipedia category system using WordNet. Please refer to Yago: A Core of Semantic Knowledge – Unifying WordNet and Wikipedia (PDF) for more details.
    • WordNet Synset Links were generated by manually relating Wikipedia infobox templates and WordNet synsets, and adding a corresponding link to each thing that uses a specific template. In theory, this classification should be more precise then the Wikipedia category system.

    数据集地址:https://wiki.dbpedia.org/services-resources/datasets/dbpedia-datasets#h434-6

    展开全文
  • python-新闻文本分类详细案例-(数据集见文末链接)

    千次阅读 热门讨论 2022-04-20 19:01:12
    文章目录主要任务所用数据集一、导入相关包二、数据分析1.读取数据2. jieba分词并去除停用词3. TF-IDF4. 网格搜索寻最优模型及最优参数5. 预测并评估预测效果总结 主要任务 新闻文本数据包含四类新闻,分别用1,2,...
  • 深度学习:文本检测数据集整理

    千次阅读 2018-09-03 10:58:37
    深度模型及其在视觉文字分析中的应用_张树业 数据库下载 SCUT_FORU_Chinese paper: 深度模型及其在视觉文字分析中的应用_张树业 数据库下载 KAIST paper: Scene Text Extraction with...
  • 网络安全分析数据集

    千次阅读 2021-09-29 02:14:20
    目录网络安全分析数据集 网络安全分析   本文将先为大家介绍一些常用于网络安全分析领域的数据集。 数据集   在网络安全领域有许多公开数据集可供使用,可以下载收集整理,按照业务场景的需要进行清洗处理,得到...
  • 数据分析笔记 - 文本分析总览文本分析步骤挑战第一步:收集原始文本数据(Collecting Raw Text)第二步:表示文本 (Representing Text)第三步:词频-逆文档频率(TFIDF - Term Frequency - Inverse Document ...
  • 我本次对4类文本进行分类((所有截图代码和数据集最后附带免费下载地址)) 主要步骤: 1.各种读文件,写文件 2.使用jieba分词将中文文本切割 3.对处理之后的文本开始用TF-IDF算法进行单词权值的计算 4....
  • 文本摘要常用数据集和方法研究综述 [1]侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(05):1-16. 为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成式文本...
  • 文本分类数据集汇总名词解释一、“达观杯”文本智能处理挑战赛数据集1、数据格式2、测试集:test_set.csv数据集数据集三参考文献 名词解释 (1)脱敏处理 一、“达观杯”文本智能处理挑战赛数据集 “达观杯”文本...
  • python文本数据分析案例—新闻分类

    万次阅读 多人点赞 2020-04-21 16:21:49
    1新闻分类 1.1案例背景 新闻分类是文本分类中常见的应用场量。在传统分类模式下,往往层通过人工对新闻内合进行核对,从而将新闻划分到合适的类别中。... ◆能够对文本数据进行预处理。【文本清洗, ...
  • 【NLP】文本情感分析

    万次阅读 多人点赞 2021-11-20 09:16:57
    文本情感分析一、情感分析简介二、文本介绍及语料分析三、数据集分析四、LSTM模型五、重点函数讲解plot_modelnp_utils.to_categoricalmodel.summary()特别感谢 一、情感分析简介   对人们对产品、服务、组织、个人...
  • 数据分析学习总结笔记09:文本分析

    千次阅读 多人点赞 2020-04-04 09:39:38
    数据分析学习总结笔记09:文本分析1 文本分析1.1 文本分析概述1.2 结构/非结构化数据1.3 文本数据特点1.4 自然语言处理——NLP1.5 文本挖掘的应用2 文本分词2.1 英文分词——KNIME2.2 中文分词2.2.1 中文分词工具...
  • 目录一、文本处理1、精确模式(默认)2、全模式3、搜索引擎模式二、词云图1、wordcloud模块导入2、词云图实现三、实例——利用股评进行情绪分析1、数据来源及snownlp模块导入2、代码实现3、结果分析 一、文本处理 ...
  • 【NLP】中文酒店评论语料文本数据分析

    千次阅读 多人点赞 2021-07-31 16:39:07
    文本数据分析学习目标1. 获得训练和验证的标签数量分布2. 获取训练和验证的句子长度分布3. 获取训练和验证的正负样本长度散点分布4. 获得训练与验证不同词汇总数统计5. 获得训练上正负的样本的...
  • 信用卡欺诈检测数据集 人口普查收入数据集(UCI) 银行信用卡数据集 P2P信贷平台业务数据 LendingClub贷款数据 Python商业数据分析 信用卡评分模型构建数据 比特币历史数据 比特币历史交易数据 第二届魔镜...
  • 今天分享一个数据分析,机器学习学习用数据集,搜狗新闻行业分类数据集。这是身边儿大神学霸用过的一个数据集,也被自己用作机器学习的资料使用。自己根据自己的实验场景,已分好训练集测试集和验证集。分别3个文件...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 198,270
精华内容 79,308
关键字:

文本分析数据集