精华内容
下载资源
问答
  • ChnSentiCorp 是一个中文情感分析数据集,包含酒店、笔记本电脑和书籍的网购评论。
  • 谭松波中文评论情感分析,1为正向情感,0为负向情感,
  • 属性级情感分析数据集及模型设计

    万次阅读 2020-08-04 09:00:57
    属性级情感分析数据集及模型设计
    展开全文
  • 1 NLPCC 1.1 NLPCC-2012 ...其中有两份文件,推荐下载...数据格式为xml,数据样式如下: <weibo id="15"> <sentence id="1" opinionated="Y" polarity="NEG" target_word_1="官二代" target_begin_1="1" targe

    1 NLPCC

    1.1 NLPCC-2012

    下载网址:http://tcci.ccf.org.cn/conference/2012/pages/page10_dl.html

    其中有两份文件,推荐下载2012-9-12的数据,比较全。

    数据格式为xml,数据样式如下:

    <weibo id="15">
        <sentence id="1" opinionated="Y" polarity="NEG" target_word_1="官二代" target_begin_1="1" target_end_1="3" target_polarity_1="NEG">#官二代求爱不成将少女毁容#太嚣张了,就跟“我的爸爸是李刚”差不多了</sentence>
    </weibo>
    

    1.2 NLPCC-2013

    样例下载网址:http://tcci.ccf.org.cn/conference/2013/pages/page04_sam.html,task-2(中文微博情绪识别)

    测试集下载网址:http://tcci.ccf.org.cn/conference/2013/pages/page04_tdata.html,task-2(中文微博情绪识别)

    数据格式为xml,数据样式如下:

    <weibo id="1" emotion-type="none">
        <sentence id="1" emotion_tag="N">三八节下午路过中牟县~见到很多美女~手执鲜花[鲜花]~一打听~这里不仅美女如云~而且是千古笫一帅哥潘安的故里。。。</sentence>
        <sentence id="2" emotion_tag="N">[给力][萌]</sentence>
    </weibo>
    

    1.3 NLPCC-2014

    样例下载网址:http://tcci.ccf.org.cn/conference/2014/pages/page04_sam.html,task-1(Emotion Analysis in Chinese Weibo Texts)

    测试集下载网址:http://tcci.ccf.org.cn/conference/2014/pages/page04_tdata.html,task-1(Emotion Analysis in Chinese Weibo Texts)

    数据格式为xml,数据样式如下:

    <weibo id="1" emotion-type1="disgust" emotion-type2="none">
        <sentence id="1" opinionated="N" keyexpression1="null">今儿老爸逮着我一顿狠念!</sentence>
        <sentence id="2" opinionated="Y" emotion-1-type="disgust" emotion-2-type="none" keyexpression1="各种烦躁">念得我各种烦躁……</sentence>
        <sentence id="3" opinionated="Y" emotion-1-type="disgust" emotion-2-type="none" keyexpression1="真烦人">我要不要考虑下降低回家的频率啊 回来一次吵一次= =真烦人!!!</sentence>
    </weibo>
    
    展开全文
  • 中文文本情感分析案例 课程配套程序 该文件夹是本次课程配套的程序,打来即可使用 课后作业数据集 为大家课后作业的数据集,可以在该数据集上进行相关训练 test.tsv为测试数据集,测试模型准确度 train.tsv为训练...
  • 数据集包括了四个领域的中文评论:笔记本电脑、汽车、相机和手机,评论属于 二分类 任务及正面或负面。可被用作于 自然语言处理 中情感分类任务。 camera_label.txt camera_sentence.txt car_label.txt car_...
  • kaggle 电影评论情感分析(Bag of Words Meets Bags of Popcorn)的全部数据集,自己上网找了半天都找不到,最后是让同学上外网下的,在这里分享给想学习nlp的同学
  • 数据包含四种情感类型的文本文件及中文停词文本
  • Al_challenger细粒度情感分析数据集,包含ai_challenger_sentiment_analysis_testa_20180816、ai_challenger_sentiment_analysis_trainingset_20180816、ai_challenger_sentiment_analysis_validationset_20180816
  • 数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的...
  • https://blog.csdn.net/kobeyu652453/article/details/106259653 该篇博文所用数据集
  • 吸收了 谭松波 非平衡酒店评论语料库(7000条正面,3000条负面,有部分重复数据),加上我从携程上抓取的数据,经过繁简转换、去重、去掉4字以下过短评论,形成最终的评论数据集(10000条正面,5000条负面,文本中每...
  • 基于谭松波老师的酒店评论数据集中文文本情感分析,二分类问题 数据集标签有pos和neg,分别2000条txt文本 选择RNN、LSTM和Bi-LSTM作为模型,借助Keras搭建训练 主要工具包版本为TensorFlow 2.0.0、Keras 2.3.1和...
  • 关于文本分类(情感分析)的中文数据集汇总

    万次阅读 多人点赞 2019-07-14 16:08:14
    文本分类(情感分析中文数据集汇总 这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。 1...

    文本分类(情感分析)中文数据集汇总

    这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。

    1.THUCNews数据集:

    THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

    数据集地址: http://thuctc.thunlp.org/

    2.今日头条新闻文本分类数据集:

    数据来源:今日头条客户端
    数据规模:共382688条,分布于15个分类中。
    数据格式:6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

    每行为一条数据,以_!_分割的个字段,从前往后分别是
    新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

    数据集地址:https://github.com/fate233/toutiao-text-classfication-dataset

    3.全网新闻数据(SogouCA):

    来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

    数据格式为

    <doc>
    <url>页面URL</url>
    <docno>页面ID</docno>
    <contenttitle>页面标题</contenttitle>
    <content>页面内容</content>
    </doc>
    

    注意:content字段去除了HTML标签,保存的是新闻正文文本

    数据集地址: https://www.sogou.com/labs/resource/ca.php

    4.搜狐新闻数据(SogouCS):

    来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

    数据格式为
    <doc>
    <url>页面URL</url>
    <docno>页面ID</docno>
    <contenttitle>页面标题</contenttitle>
    <content>页面内容</content>
    </doc>
    

    注意:content字段去除了HTML标签,保存的是新闻正文文本

    数据集地址: https://www.sogou.com/labs/resource/cs.php

    5.ChnSentiCorp_htl_all数据集:

    7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论

    数据字段:
    Label:1表示正向评论,0表示负向评论
    Review:评论内容
    

    1
    数据集地址:
    https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

    6.waimai_10k数据集:

    某外卖平台收集的用户评价,正向4000 条,负向约 8000 条

    数据字段:
    
    Label:1表示正向评论,0表示负向评论
    Review:评论内容
    

    2
    数据集地址:
    https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv

    7.online_shopping_10_cats数据集:

    10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条
    9
    10

    数据集下载地址:
    https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

    8.weibo_senti_100k数据集:

    10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条。
    在这里插入图片描述
    在这里插入图片描述

    数据集下载地址:
    https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

    9.simplifyweibo_4_moods数据集:

    36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
    在这里插入图片描述

    在这里插入图片描述

    数据集下载地址:
    https://pan.baidu.com/s/16c93E5x373nsGozyWevITg

    10.dmsc_v2数据集:

    28部电影,超70万用户,超200万条评分/评论数据
    在这里插入图片描述

    在这里插入图片描述

    数据集地址:https://pan.baidu.com/s/1c0yn3TlkzHYTdEBz3T5arA

    原始数据集地址:https://www.kaggle.com/utmhikari/doubanmovieshortcomments

    11.yf_dianping数据集:

    24 万家餐馆,54 万用户,440 万条评论/评分数据
    在这里插入图片描述
    在这里插入图片描述
    数据集地址:https://pan.baidu.com/s/1yMNvHLl6QYsGbjT7u51Nfg
    原始数据集地址:http://yongfeng.me/dataset/

    12.yf_amazon数据集:

    52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
    在这里插入图片描述
    在这里插入图片描述

    原始数据集地址:http://yongfeng.me/dataset/
    数据集地址:https://pan.baidu.com/s/1SbfpZb5cm-g2LmnYV_af8Q

    13.Datahub数据中心:

    包含文本分类、情感分析以及知识图谱的数据集

    相关地址:http://www.datahub.ileadall42.com/data/list?category=2&parent_category=1

    14.知乎看山杯数据集:

    数据集下载地址:https://pan.baidu.com/s/1qUr6IQQn6DzrMlbaAUZslQ
    提取码: qbiw

    15.AI_challenger情感分析数据集:

    数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。

    数据集下载地址:https://github.com/nju161250102/AI_challenger/tree/master/data

    16.复旦中文文本分类语料库

    数据链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg
    密码:zyxa

    展开全文
  • 这是覃建波老师的酒店评论数据集,是公认的情感分析语料数据,做中文自然语言处理情感分析所用。
  • 文献阅读(二十七):CH-SIMS:基于情态细粒度注释的中文多情态情感分析数据集Abstract1 Introduction2 Related Work2.1 Multimodal Datasets2.2 Multimodal Sentiment Analysis2.3 Multi-task Learning3 CH-SIMS ...

    文献阅读(二十七):CH-SIMS- A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality中文多模态情绪

    展开全文
  • AI Challenger 细粒度用户评论情感分析;比赛资源,可放心使用 AI Challenger 细粒度用户评论情感分析;比赛资源,可放心使用 AI Challenger 细粒度用户评论情感分析;比赛资源,可放心使用AI Challenger 细粒度...
  • 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 数据字段: Label:1表示正向评论,0表示负向评论 Review:评论内容 数据格式:label,review
  • 相关工作2.1 多模态数据集2.2 多模态情感分析2.3 多任务学习3. CH-SIMS 数据集3.1 数据获取3.2 标注3.3 特征提取4. 多模式多任务学习框架4.1 单模态子网4.2 特征融合网络4.3 优化目标5. 实验5.1 基准5.2 实验的细节...
  • 中文情感分析数据

    千次阅读 2020-02-06 20:54:01
    情感分析资源大全(语料、词典、词嵌入、代码) 原创 ...
  • 笔记:目标级情感分析任务数据集集合 最近需要一批目标级情感分析任务数据集 。做个笔记整合一下。 找到一部分数据,做个整合,希望能帮助到有需要的人。 感谢百度,google ,bing 等各大搜索链接的相关文章,文章太...
  • 自己写论文手工标注的8分类的数据集,做文本情感分类用
  • NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 输出结果 1、测试对象 data1= '今天上海的天气真好!我的心情非常高兴!如果去旅游的话我会非常兴奋!和你一起去旅游我会更加...
  • 情感分类数据集.rar

    2020-11-03 10:56:27
    数据集中是对用户评价的一些正面和负面的评价语句。正面有10679条语句,负面有10428条语句。可用于训练评价分析模型。
  • 本文介绍情感分析领域最常见的一些数据集。 目录 TOC {:toc} SemEval SemEval-2014 Task 4: Aspect Based Sentiment Analysis 任务的介绍主要参考了SemEval-2014 Task 4: Aspect Based Sentiment Analysis,官方...
  • 对话情绪识别适用于聊天、客服等多个场景,能够帮助企业更好地把握对话质量、改善产品的用户交互体验,也能分析客服服务质量、降低人工质检成本。 对话情绪识别(Emotion Detection,简称EmoTect),专注于识别智能...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,645
精华内容 2,658
关键字:

中文情感分析数据集