精华内容
下载资源
问答
  • 情感分析语料资源(免费

    千次阅读 2017-05-31 21:06:00
    1.知网的情感词典-http://www.keenage.com/html/c_bulletin_2007.htm由知网发布的词典,包括中文情感词典和英文情感词典 2.台湾大学的情感极性词典-http://www.datatang.com/data/11837包括2810个正极性词语和...

    1.知网的情感词典
    http://www.keenage.com/html/c_bulletin_2007.htm
    由知网发布的词典,包括中文情感词典和英文情感词典

     

     

    2.台湾大学的情感极性词典
    http://www.datatang.com/data/11837
    包括2810个正极性词语和8276个负极性词语准确度很高



    3.酒店评论语料
    http://www.datatang.com/data/11936 
    谭松波整理的一个较大规模的酒店评论语料
    语料规模为10000篇语料从携程网上自动采集,并经过整理而成

     

     

    4.豆瓣网影评情感测试语料
    http://www.datatang.com/data/13539 
    来自豆瓣网对电影ICE AGE3的评论,评分标准均按照5 stars评分在网页中有标注语料至527页每页20条短评共计11323条评论

     

     

    5.酒店电脑与书籍的评论语料
    http://www.datatang.com/data/11937
    数据量不太大,也有一些重复的数据

     

     

    6.评论网页数据集
    http://www.datatang.com/data/12044
    数据量不小,包括的电影和评论都不少

     

     

    7. 康奈尔大学(Cornell)提供的影评数据集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语句子和篇章级情感分析研究中.

     

     

    8. GI(General Inquirer)评价词词典(英文,http://www.wjh.harvard.edu/~inquirer/).该词典收集了1,914 个褒义词和2,293 个贬义词,并为每个词语按照极性,强度,词性等打上不同的标签,便于情感分析任务中的灵活应用.


    9. 主观词词典(英文,http://www.cs.pitt.edu/mpqa/).该词典的主观词语来自OpinionFinder 系统,该词典含有8,221 个主观词,并为每个词语标注了词性,词性还原以及情感极性.



    10. HowNet 评价词词典(简体中文英文,http://www.keenage.com/html/e_index.html).该词典包含9,193 个中文评价词语/短语, 9,142 个英文评价词语/短语,并被分为褒贬两类.其中,该词典提供了评价短语,为情感分析提供了更丰富的情感资源.

    转载于:https://www.cnblogs.com/flippedkiki/p/6925933.html

    展开全文
  • 情感分析API

    千次阅读 2018-08-24 11:09:24
    低价文本情感分析接口API 超低价文本情感分析接口,算法是基于深度学习的。接收评论、新闻等文本,正确率很高的哦。 收费标准:¥20.0 / 1W次 请求方式为发送POST请求,数据格式为JSON,返回情感为正面和负面的...

    低价文本情感分析接口API

    超低价文本情感分析接口,算法是基于深度学习的。接收评论、新闻等文本,正确率很高的哦。

    收费标准:¥20.0 / 1W次

    请求方式为发送POST请求,数据格式为JSON,返回情感为正面和负面的概率,他们的和为1,超级简单。

    账号由我统一分配,每个测试账号可免费测试10次,之后就要购买了哦,扫二维码加QQ咨询,提供技术支持的。

    请求接口说明:

    请求参数

    请求参数 参数类型 参数说明
    article String,不可为空 要进行情感分析的文本
    name String,不可为空 用户的账号
    key String,不可为空 用户的Key

    返回参数

    返回参数 参数类型 参数说明
    is_ai Boolean 分析结果标志,成功返回为True,失败返回False
    negative String 情感为负面的概率
    positive String 情感为正面的概率

    请求示例图片:
    请求示例

    QQ:313748543
    QQ二维码:
    QQ二维码

    展开全文
  • 包括:一些免费的语料库+一些有效分词软件 ———————————————————————————————————————————————— 一、语料库链接 下面提供一些网上能下载到的中文的好语料,供...



    每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~

    ———————————————————————————


    包括:一些免费的语料库+一些有效分词软件

    还有一些利用遗传算法大规模生成预料库的方法,由于每个词都具备一个相对稳定的重现周期,不难证明,当训练语料达到一定规模后,在遗忘的作用下,每个词的词频在衰减和累加会达到平衡,也即衰减的速度与增加的速度基本一致。成熟的词库,词频的波动相对会比较小,利用这个特征,我们可以衡量词库的成熟程度。详细内容可见博客:

    非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成

    ————————————————————————————————————————————————


    一、语料库链接


    下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
    (1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
    中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。


    (2).搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
    包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。


    (3).李荣陆老师的中文语料库 http://www.datatang.com/data/11968
    压缩后有240M大小


    (4).谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
    不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php

    (5).网易分类文本数据 http://www.datatang.com/data/11965
    包含运动、汽车等六大类的4000条文本数据。

    (6).中文文本分类语料 http://www.datatang.com/data/11963
    包含Arts、Literature等类别的语料文本。

    (7).更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
    搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载

    (8).2002年中文网页分类训练集http://www.datatang.com/data/15021
    2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。


    ————————————————————————————————————————————————


    二、有效的分词工具


    将预料库进行分词并去掉停用词,可以使用的分词工具有:
    StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文),这几种分词工具的区别,可以参加:http://blog.csdn.net/wauwa/article/details/7865526。



    参考文献:Windows下使用Word2vec继续词向量训练



    每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~

    ———————————————————————————

    展开全文
  • 点击上方,选择星标或置顶,每天给你送干货!阅读大概需要10分钟跟随小博主,每天进步一丢丢福利:AI书籍免费领取来自:NewBeeNLP继续来看基于Aspect的情感分析模型总结第三部分,...

    点击上方,选择星标置顶,每天给你送干货

    阅读大概需要10分钟

    跟随小博主,每天进步一丢丢

    福利:AI书籍免费领取

    来自:NewBeeNLP


    继续来看基于Aspect的情感分析模型总结第三部分,回顾一下之前:

    Attentional Encoder Network for Targeted Sentiment Classification[1]

    与以往大多数RNN+Attention的思路不同,作者在这篇论文里给出了注意力编码网络(Attentional Encoder Network,AEN),避免了RNN系模型的缺点(难以并行化,需要大量数据/内存/计算);同时提到先前的工作大都忽略了标签不可信问题(label unreliability issue),这里在损失函数中引入了标签平滑正则项。模型整体框架如下

    1.1 Embedding Layer

    有两种embedding的方式

    • 使用glove预训练embedding

    • 使用bert预训练embedding:注意将输入转化成bert需要的形式, 即[CLS] + context + [SEP][CLS] + target +[SEP]

    1.2 Attentional Encoder Layer

    注意力编码层和LSTM层的作用一样,都是计算输入的语义表示得到隐状态矩阵。这一层包括两个子模块:

    • 「Multi-Head Attention:」 MHA就是在attention is all you need那篇论文里的多头注意力机制。这里对context采用的是「Intra-MHA」,即「self-attention」;对target采用的是「Inter-MHA」, 即传统意义上的attention。

    • 「Point-wise Convolution Transformation(PCT):」 逐点卷积,即卷积核的尺寸为1,对上述得到的两个attention encoder进行一下操作,

    1.3 Target-specific Attention Layer

    将attention encoder后得到的关于context和aspect信息的向量表示  和  再做一次attention操作得到具有更多交互信息的向量,然后与  和  pool以后的向量拼接得到最终的输入表示送入softmax层进行情感分析

    1.4 Loss Function

    前面提到为了解决标签不可信任问题(比如中性情感是一种非常模糊的情感表达,具有中性情感标签的训练样本就是属于不可信任的),引入了一种新的损失计算Label Smoothing Regularization (LSR),关于LSR的深入理解这里不详细说了可以参考知乎问题:Label Smoothing Regularization_LSR原理是什么?[2]

    1.5 试验分析

    作者非常nice地开源了论文对应的代码库:songyouwei/ABSA-PyTorch[3] 而且里面还有很多其他模型的实现。赞!

    Transformation Networks for Target-Oriented Sentiment Classification[4]

    作者提出用attention去提取context和aspect之间的语义相关性存在一定的缺陷,并列举了一个例子:

    “This dish is my favorite and I always get it and never get tired of it.” 这句话中,attention机制会提取出相对于dish不相关的词语比如"never","tired"等。

    于是提出可以利用CNN来取代attention来提取context中相对重要的信息,同时对朴素CNN进行了进一步的处理使其适合该任务,提出了「Target-Specific Transformation Networks (TNet)」

    2.1 Bi-LSTM Layer

    将文本的上下文信息融入到word的向量表示中是非常重要的

    2.2 Context-Preserving Transformation(CPT)

    模型再往上一层是Transformation Layer,是由多个CPT模块叠加而成。单独的CPT模块结构如下所示CPT分为两个部分,Target-Specific Transformation(target转换机制)和Context-Preserving Mechanism(上下文保存机制)

    • 「Target-Specific Transformation」用于动态地生成target的向量表示(这是论文的创新点)。首先将target表示通过一个Bi-LSTM来获得其抽象表示,再将该表示与上一层每个context词的表示做相似度计算,从而调整target的表示。

    • 「Context-Preserving Mechanism」的提出是因为在经过TST的非线性转化之后,现有的向量表达可能已经丢失了原来Bi-LSTM层输出的信息,作者提出了两种解决方案:

      • Lossless Forwarding:直接将前一层的输出加入到这一层的输出上

      • Adaptive Scaling:与LSTM中门控机制类似的自适应保存机制,通过门控单元来控制当前层和上层输出到下层的信息。

    2.3 Convolutional Layer

    作者对于卷积层提出了利用观点词与目标词的距离的改进措施。作者为每一个位置计算一个位置特征

    其中C是超参,相当于设置了一个窗口,在这个窗口范围内进行计算。k是target第一个词的位置,m是target的长度,i是当前词的位置。

    然后将距离特征融合到词特征上:

    再进行卷积和最大池化的操作最后送入softmax层进行情感判定

    2.4 试验分析


    CAN---Constrained Attention Networks for Multi-Aspect Sentiment Analysis(2018)[5]

    本文的创新点有以下几个:

    • 引入orthogonal regularization,使得对于不同的aspect,attention weight聚焦在句子不同的部分;

    • 引入sparse regularization ,使得每个aspect的attention weight只关注句子中的几个单词;

    • 不同于之前大多数研究一次只得出一个aspect的sentiment,本文可以同时得到句子中所有aspect的sentiment;

    • 引入multi-task多任务学习,在学习aspect level sentiment classification(ALSC)的同时学习aspect category detection (ACD)任务

    模型的整体框架如下:

    3.1 Task-Specific Attention Layer

    输入为  形式,其中  为句子, 分别表示句子中的aspect及其对应的polarity。

    前面的embedding和LSTM层就不具体介绍了。来看看多任务学习层,主要包括:

    • 「ALSC Attention Layer」目的是针对不同的aspect学习到不同的attention weights。输入是LSTM层输出  和句子中的aspect 

    • 「ACD Attention Layer」目的是学习句子中包含的aspect类别。输入是LSTM层输出  和aspect set

    3.2 Regularization Layer

    Regularization Layer用于对前面得到的attention weights加上限制,使得模型可以同时处理多个aspect。「注意:该层只在训练阶段有效,因为需要知道真实标签,在预测阶段直接略过该层。」

    • 「Sparse Regularization」用于限制每个aspect只关注句子中较少的词。以ALSC任务得到的attention weights 为例 ,系数正则项定义为:$$R_s}=\left\sum_{l=1^{L} \alpha_{k l}^{2}-1\right|$$

    • 「Orthogonal Regularization」用于限制每个aspect关注句子中的不同部分,使其尽量不重叠。将两个任务得到的attention weights分别表示成二维矩阵  和 ,然后计算正则项

    3.3 Task-Specific Prediction Layer

    • 「ALSC Prediction」

    • 「ACD Prediction」

    3.4 Loss

    • 「ALSC Loss」

    • 「ACD Loss」

    所以总体的损失表示为

    其中正则项  可以是前面的 

    本文参考资料

    [1]

    Attentional Encoder Network for Targeted Sentiment Classification: https://arxiv.org/abs/1902.09314

    [2]

    Label Smoothing Regularization_LSR原理是什么?: https://www.zhihu.com/question/61971817

    [3]

    songyouwei/ABSA-PyTorch: https://github.com/songyouwei/ABSA-PyTorch/tree/aen

    [4]

    Transformation Networks for Target-Oriented Sentiment Classification: https://arxiv.org/abs/1805.01086

    [5]

    CAN---Constrained Attention Networks for Multi-Aspect Sentiment Analysis(2018): https://arxiv.org/pdf/1812.10735.pdf

    - END -


    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

    记得备注呦

    让更多的人知道你“在看”

    展开全文
  • 简介 ROST CM 6是武汉大学沈阳教授研发编码的国内目前唯一的以辅助人文社会科学研究的大型免费社会计算平台。该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频...情感分析
  • ROSTCM6+大连理工大学情感文本 做文本分析的有需要的自来取,。方便做旅游文本挖掘,在线评论的同学 !记得点赞啊
  • 大家平常是不是被深度学习和机器学习的一些需要打标签的训练数据所困扰,小编也是这样,特别是利用深度学习进行情感分析的时候,正负面数据进行打标签是一个很繁琐的工作,人工打标签耗费时间长,成本高。...
  • 找了很久的资源,免费的东西很多人收费下载,分享一下 http://www.keenage.com/html/c_index.html 也有很多其他的情感词库,知乎推荐 https://www.zhihu.com/question/20631050/answer/23454243 ...
  • 2.斯坦福情感分析传送门 3.斯坦福自然语言处理 github 传送门 成果 支持语言:英文 概述:实体抽取,支持抽取【地名 】【人名 】【组织】【资金 】【百分比 】【日期 】【时间】 开放接口地址:...
  • 摘要: 文章所研究的“跨领域情感分析”,旨在通过源领域的标注数据对目标领域的无标注数据进行情感分类。源领域如餐饮领域,目标领域如电子产品领域,这两个领域之间存在一定的差异。为了克服领域间的差异,一大类...
  • “ Web感受”是一个免费的跨平台浏览器扩展,允许营销人员和学生查看或“感受”网站中的情感。 它会直接在网页本身上突出显示所有以绿色表示的正值,以黄色表示中性的值和以红色表示负值的所有值。 设置 必需的依赖...
  • 第一天学Pig Latin,忍不住就要发个文卖弄卖弄。所以大神们不要笑哈。 首先是安装及环境的搭建。...然后直接启动就可以了,pig项目是apache免费的项目,所以在已有集群上部署pig应该不太复杂(至少对于我这种只有...
  • 欧式距离分析情感

    2015-10-16 19:05:12
    测试和训练文本: 文本编号 词列表(以空格分隔) 公众"感动"的概率 ...训练文本4 老人 成功 进行 免费 白内障 手术 0.5 训练文本5 海豚 误 吞 排球 后 手术 成功 取出 0.4 训练文本6 6旬 老人
  • 由于课程项目的需要,我爬取了央视新闻的一些微博评论,想要用Python对其进行情感分析。这一次我决定试用一下腾讯的nlp接口。 自然语言处理 NLP首页显示“腾讯云自然语言处理已于2020年1月1日结束免费公测,正式...
  • 以前我写过不少文本数据分析,比如《八佰》影评分析、《三十而已》热评分析等,但基本停留在可视化分析层面。本文将运用文本挖掘技术,对最近热播剧《沉默的真相》弹幕数据进行深入分析,希望对大家有一定的启发。 ...
  • 拥有腾讯云的实名账号,开通后每天有50万次免费调用,超过次数后才会收费。 下面有一个快速使用,也有详细的说明怎么调用接口 快速使用 打开工具 这里也可以快速使用,这里我暂时不这么做 2 获取安全凭证 进入 ...
  • 来自@ Chen2014FacialER的图片该项目的目标是使用现有的公共数据集探索面部表情识别(FER)的领域,并使神经网络模型免费,开放,易于研究并且易于集成到不同的项目中。 系统的行为高度依赖于可用数据,并且开发
  • 首先推荐一个Jupyter环境,是由Google提供的colab(https://colab.research.google.com/),有免费的GPU可以使用第一次使用需要在实验环境中...
  • 首先先注册登录百度AI平台,自然语言处理是免费的,有5 QPS,够用了,不够用可以申请增加。 我申请增加至10 QPS,通过得很快。   相关配置准备 找到百度AI平台的NLP入口: 看到自然语言处理 点击进入 ...
  • 免费在线文本分析工具

    千次阅读 2014-02-12 10:07:14
    斯坦福计算机科学家开发了etcML(Easy Text Classification with Machine Learning)网站,该网站通过机器学习引擎进行文本分析,目前该网站向所有人免费开放。 斯坦福大学官网对此进行了说明:etcML网站基于成熟的...
  • Google Cloud API用于分析,而Reddit API用于获取文本进行分析。 该Webapp已使用Docker-Compose进行了容器化,并通过Docker Hub部署到AWS EC2免费实例。 它还使用nginx将静态文件和gunicorn用作应用程序服务器。 ...
  • 三个情感词典汇总.zip

    2020-03-09 11:19:59
    在中文情感分析中用到的情感词典。这里面包括知网情感词典、清华李军教授情感词典以及台湾情感词典和其他:褒贬词及其近义词、否定词典汉语情感词极值表、情感词典及其分类、情感词汇本体。主要是免费下载!
  • :open_book: 免费阅读 可以使用以下链接阅读整本书。 每个部分都包含一个笔记本,您可以在此存储库中找到该笔记本。 如果您想支持我的工作,请考虑购买这本书。 感谢您的光临! :hugging_face:
  • 这个来美国著名电影网站上的数据,是第一篇使用机器学习(康奈尔大学)进行情感分析的论文使用的数据。本人已经用SVM和贝叶斯进行测试过,效果很好。是情感分析领域的入门必备实验。 数据堂免费提供数据挖掘...
  • 本来想用python+机器学习做情感分析,但是还没开始就放弃了(机器学习没学过啊,还那么难,为了这一个接口去花费大量的时间学习,实在不划算)所以放弃了造轮子。emmm,无意中发现了,百度AI开放平台。上面有很多...
  • java 语义分析 开源

    千次阅读 2013-11-21 10:31:55
    比较全面的覆盖自然语言处理的各个分支,文本分词,聚类,语义情感分析,领域知识学习等等 具有全套在research上免费的源码,样列代码,测试代码(商业与非商业均同一套代码),并且文档详细,对于其中模型所参考的...
  • 30款常用的大数据分析工具推荐(最新)

    万次阅读 多人点赞 2019-09-27 10:37:32
    数据挖掘和数据分析的能力在当今时代相当重要, 智能的工具是你与竞争对手对抗并为公司业务增加...Part 4:情感分析 Part 5:开源数据库 Part 1:数据采集工具 1 .八爪鱼 八爪鱼是一款免费的、简单直观的网...
  • 今天我们的Python学习教程找点财经类新闻文本数据用Python来做点简单的情感分析。 一、tushare介绍 tushare库是目前比较流行的开源免费的经济数据库,tushare有普通版和高级版,其中普通版无需积分就可以使用,而...
  • 动机 ... 此外,它还提供了各种情感分析方法的详细比较。 要求 Python 3.7.0以上 张量流2.4.1+ Keras 2.4.3+ matplotlib 3.3.3+ numpy的1.19.5+ 熊猫1.2.1+ scikit学习0.24.1+ Nltk 3.5+ Spac

空空如也

空空如也

1 2 3 4 5
收藏数 96
精华内容 38
关键字:

情感分析免费