精华内容
下载资源
问答
  • 情感分类

    2019-01-14 18:03:00
    情感价值正负可以分为正向情感与负向情感,正向情感是人对正向价值的增加或负向价值的减少所产生的情感,如愉快、信任、感激、庆幸等;而负向情感是人对正向价值的减少或负向价值的增加所产生的情感,如痛苦、鄙视...

    按情感价值正负可以分为正向情感与负向情感,正向情感是人对正向价值的增加或负向价值的减少所产生的情感,如愉快、信任、感激、庆幸等;而负向情感是人对正向价值的减少或负向价值的增加所产生的情感,如痛苦、鄙视、仇恨、嫉妒等。

    根据价值的强度和持续时间的不同,情感可分为心境、热情与激情。心境是指强度较低但持续时间较长的情感,它是一种微弱平静而持久的情感,如绵绵柔情、闷闷不乐、耿耿于怀等;热情是指强度较高但持续时间较短的情感,它是一种强有力、稳定而深厚的情感,如兴高采烈、孜孜不倦等;激情是指强度很高但持续时间很短的情感,它是一种猛烈、迅速爆发、短暂的情感,如狂喜、愤怒、恐惧、绝望等。

    根据价值的主导变量的不同,情感可分为欲望、情绪与感情。当主导变量是人的品质特性时,人对事物所产生的情感就是欲望;当主导变量是环境的品质特性时,人对事物所产生的情感就是情绪;当主导变量是事物的品质特性时,人对事物所产生的情感就是感情。

    根据价值主体的类型的不同,情感可分为个人情感、集体情感和社会情感。

    根据事物基本价值类型的不同,情感可分为真假感、善恶感和美丑感三种。真假感是人对思维性事物所产生的情感;善恶感是人对行为性事物所产生的情感;美丑感是人对生理性事物所产生的情感。

    根据价值的目标指向的不同,情感可分为对物情感、对人情感、对己情感和对特殊事物情感等。

    根据价值的作用时期的不同,情感可分为追朔性情感、现实性情感和期望性情感。

    根据价值的动态变化的特点,可分为确定性情感、概率性情感。

    根据价值的层次的不同,情感可分为温饱类、安全与健康类、人尊与自尊类和自我实现类情感。

     

    转载于:https://www.cnblogs.com/XT-xutao/p/10268265.html

    展开全文
  • 情感分类 情感分类情感分类的项目。(以Yelp审查为输入) 资料资源 什么是新的 3.1 探索其他数字特征(而不是仅文本) 利用“有用”信息(由yelp提供的属性)进行weighted samples实验 使用“均值”处理缺失值 ...
  • 整数线性规划的情感与情感分类
  • 短篇小说情感分类的通用情感模型
  • 自己写论文手工标注的8分类的数据集,做文本情感分类
  • 情感分类资源

    2018-05-28 09:19:58
    利用SVM法处理微博文本数据并对其进行情感分类(Python)
  • python情感分类

    2018-01-03 18:54:04
    用python写的情感分类,自然语言处理,内容挺完善的,请放心下载
  • 在本文提出了一种新颖的模糊情感隶属度确定情感分类任务的方法。 我们认为强强度的文本可以做出更多的贡献情感分类,而弱强度的文本是对于分类不重要。 为了得到模糊评论文本的情感成员,本文提出了一个三层情感...
  • 联合学习进行情感分类和情感原因检测
  • 使用情感语境对短文本进行情感分类
  • 基于情感词典的藏语文本句子情感分类
  • 跨域社交情感分类的簇级情感模式匹配
  • 基于情感词典的维吾尔语文本句子情感分类
  • 在本文中,我们提出了一种用于句子级情感分类的联合分割和分类框架。 众所周知,短语信息对于情感分类至关重要。 但是,现有的情感分类算法通常将句子拆分为单词序列,这不能有效地处理短语和包含的单词之间的不一致...
  • 传统情感分类方法与深度学习的情感分类方法对比

    万次阅读 多人点赞 2018-11-10 16:57:16
    标注:本博客是参考论文《传统情感分类方法与机遇深度学习的情感分类方法对比分析》写的,作者段传明。 情感分类是自然语言处理的重要分支,传统情感分类主要有基于情感词典的和基于机器学习的,最新的方法是基于...

    标注:本博客是参考论文有《传统情感分类方法与机遇深度学习的情感分类方法对比分析》、《自然语言处理中的深度学习:方法及应用》

    情感分类是自然语言处理的重要分支,传统情感分类主要有基于情感词典的和基于机器学习的,最新的方法是基于深度学习的。

    1、基于情感词典的方法

    缺点:受限于情感词典的质量和覆盖度。
    定义:是对人脑的简单模拟,核心模式是基于词典和规则,即以情感词典作为判断评论情感极性的主要依据,根据以往经验对现有词汇做出评价的一种模型,eg1:通常把讨厌、糟糕作为消极词,把高兴。快乐作为积极词,通过句子中出现的情感词,预测该句子的情感极性。
    依赖于:情感词典的构建和判断规则质量,而两者都需要耗费很多人力,包括人工设计和先验知识。
    在这里插入图片描述

    2、基于机器学习

    核心:模型训练
    缺点:模型训练依赖于标注数据集的质量,高质量的数据集需要投入大量人工成本。需要高质量的特征构造和选取。
    常用特征有:N-gram特征、句法特征等。
    在这里插入图片描述

    3、基于深度学习模型


    1. 定义:

      深度学习是基于特征自学习和深度神经网络(DNN)的一系列机器学习算法的总称。目前深度学习的研究有了长足发展,在传统特征选择与提取框架上取得巨大突破,在自然语言处理、生物医学分析、遥感影像解译等诸多领域产生越来越重要影响,并在计算机视觉和语音识别领域取得革命性突破。

    2. NLP研究任务包括

      词性标注、机器翻译、命名实体识别、机器问答、情感分析、自动文摘、句法分析和共指消解等。

    3. 深度学习应用在NLP领域原因:
      文本间的关系难以度量,相关研究高度依赖人工构建特征。而深度学习方法的优势恰恰在于其请打的判别能力和特征自学习能力,非常适合高维数、无标签和大数据的特点。

    4. 不使用传统神经网络原因

      传统神经网络无法处理前后关联问题,而深度学习模型RNN解决了该问题。随着距离和先验知识的增加,RNN会出现梯度消失或梯度爆炸情况,因此无法解决长久依赖问题。而LSTM通过三个门结构控制细胞cell,解决上述问题。

    5. 深度学习优点:

      基于深度学习抽象特征,可避免人工提取特征的工作,且通过Word2Vec技术模拟词语之间联系,有局部特征抽象画以及记忆功能,在情感分类中具有极大优势。

    6. 现有深度学习方法主要分为两个步骤:

      • 将需要分类的评论语料表达为语义词向量(Word Embedding);
      • 通过不同语义合成方法用词向量得到所对应句子或文档的特征表达式,最后通过深度神经网络进行分类。

    在这里插入图片描述

    3.1 语义词向量表达

    在自然语言处理中,很重要的一个问题是如何将一个句子用向量表示。词向量通常是指通过语言模型学习到的词的分布式特征表示,也被称为词编码。可以非稀疏的表示大规模语料中复杂的上下文信息。

    BOW(Bag of Words)。

    传统文档表示方法是基于词袋模型。
    BOW核心思想:忽略文本中的次序和语法、句法,仅看成这些词汇的排列组合,且文本中的词汇没有任何关系。
    缺点:

    1. 极高维度:文本向量的维数与训练数据集中出现的所有单词数一样多,且若某一词汇在训练集中未出现过,则会忽视这个词,在测试集中无法成为该文本特征。
    2. 向量极度稀疏
    3. 认为词语之间无关系,很难表示一个句子或一篇短文的语义,
    4. 不同语境下,词袋法很难区分一个词的意义。

    Word2Vec

    该模型由Mikolov等人提出,核心思想是通过高维向量表示词语,相近词语放在相近位置,因此Word2Vec适合处理序列数据,因为序列局部间的数据存在很大关联。通过Word2Vec可训练语料库模型,获得词向量,且词向量的高维性解决了词语多方向发散问题,从而保证模型的稳定性。
    有两种模型:(1)CBOW:通过上下文预测当前词
    (2)Skip-gram:通过当前次预测上下文。

    3.2句子向量

    通过不同语义合成(Semantic Composition)方法用词向量得到所对应句子或文档的特征表达,语义词向量就是利用原始词向量合成更高层次的文本特征向量。

    3.3深度学习模型

    • 循环神经网络和长短记忆神经网络

      循环神经网络(Recurrent neural networks,RNN)是隐藏层和自身存在连接的一类神经网络。相较于前馈神经网络,RNN可将本次隐藏层的结果用于下次隐藏层的计算,因此可以用来处理时间序列问题,比如文本生成【28】、机器翻译【29】和语音识别【30】,RNN的优化算法为BPTT算法(backpropagation through time)【31】,由于梯度消失的原因,RNN的反馈误差往往只能向后传递5-10层,因此文献【32】在RNN的基础上提出来长短记忆神经网络(long-short term memory,LSTM).LSTM使用Celljiegou 记忆之前的输入,使得网络可以学习到合适的时机重置Cell结构。

    • 卷积神经网络(Convolutional neural networks,CNN)

      CNN由文献【40】提出并由文献【41】改进的深度神经网络。在一般前馈神经网络中,输入层和隐藏层之间采用全连接结构,而在CNN中每一个卷积层节点只与一个固定大小的区域有连接,连接的权重矩阵称为卷积核。池化(pooling)是CNN所采用的另一个关键技术,在固定大小的区域使用平均值或最大值代替原有的矩阵区域,既减少了特征数目又增加了网络的鲁棒性。
      目前CNN在NLP领域的应有有许多新的尝试。文献【6】将CNN用于语义角色标注,文献【42】使用字符作为语义特征,采用大规模文本语料训练CNN迷行用于本体分类、情感分析和文本分类。

    4 基于情感词典、机器学习、深度学习在情感分类中对比

    在这里插入图片描述

    5深度学习瓶颈

    目前深度学习的理论依据还处于起步阶段,大部分的研究成果都是经验性的,没有足够的理论来指导实验,研究者无法确定网络架构。超参数设置是否已是最优组合。除此之外,目前仍没有一种通用的神经网络或学习策略可以适用于大多数的应用任务,因此深度学习领域的研究者正在不断尝试新的网络架构和学习策略,以提升网络的泛化能力。
    目前深度学习用于NLP领域的主要步骤可以归结为如下3 步:

    • 将原始文本作为输入,自学习得到文本特征的分布表示。
    • 将分布式向量特征作为深度神经网络的输入。
    • 针对不同的应用需求,使用不同的深度学习模型,有监督的训练网络权重。
    展开全文
  • NLP情感分析之情感分类

    万次阅读 2018-09-26 15:38:35
    情感分析与情感分类 情感分析(sentiment analysis)是近年来国内外研究的热点,其任务是帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理。 情感分析包含较多的...

    情感分析与情感分类

    情感分析(sentiment analysis)是近年来国内外研究的热点,其任务是帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理。

    情感分析包含较多的任务,如情感分类(sentiment classification)、观点抽取(opinion extraction)、观点问答观点摘要等。因此很难简单地将其划归为某一个领域,往往从不同的角度将其划归到不同的方向。如果单纯地判别文本的倾向性,可以将其看作是一个分类任务;如果要从观点句中抽取相关的要素(观点持有者、观点评价对象等),则是一个信息抽取任务;而如果要从海量文本中找到对某一事物的观点,则可以看作是一个检索任务。

    随着互联网技术的迅速发展和普及,对网络内容管理、监控和有害(或垃圾)信息过滤的需求越来越大,网络信息的主观倾向性分类受到越来越多的关注。这种分类与传统的文本分类不同,传统的文本分类所关注的是文本的客观内容(objective),而倾向性分类所研究的对象是文本的“主观因素”,即作者所表达出来的主观倾向性,分类的结果是对于一个特定的文本要得到它是否支持某种观点的信息。这种独特的文本分类任务又称为情感分类

    情感分类

    情感分类是指根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型,是对文本作者倾向性和观点、态度的划分,因此有时也称倾向性分析(opinion analysis)。

    情感分类作为一种特殊的分类问题,既有一般模式分类的共性问题,也有其特殊性,如情感信息表达的隐蔽性、多义性和极性不明显等。

    针对这些问题人们做了大量研究,提出了很多分类方法。这些方法可以按机器学习方法归类,也可以按情感文本的特点划分。

    1.按机器学习方法分类

    根据机器学习方法所使用训练样本的标注情况,情感文本分类可以大致分为有监督学习方法、半监督学习方法和无监督学习方法三类。

    有监督学习方法:基于有监督学习的情感分类方法使用机器学习方法用于训练大量标注样本。
    2002首次将有监督的学习方法应用到情感分类中,文献中分别比较了多种分类算法以及各种特征和特征权值选择策略在基于监督学习的情感分类中的效果。2004将主观句摘要引入情感分类中;2010分析了极性转移对情感分类的影响;2011使用基于特征空间及分类算法的集成学习方法有效地提高了情感分类的性能。

    半监督学习方法:基于半监督学习的情感分类方法是通过在少量标注样本上训练,并在大量未标注样本上进行学习的方式构建分类模型。
    2009将多种机器学习方法(例如:聚类方法、集成学习等)融入基于半监督学习的情感分类中;面对情感分类中汉语标注语料匮乏的问题,2009采用协同学习方法使用标注的英文语料和无标注的中文语料实现了高性能的中文情感分类。2010将情感文本的表达分为个人的和非个人的两种视图,应用协同学习进行情感分类的半监督学习。

    无监督学习方法:基于无监督学习的情感分类方法是指仅使用非标注样本进行情感分类建模。
    以往的大部分研究工作都是通过情感分类标注的种子词集来实现无监督分类,2002通过计算文本中候选单词与种子情感词之间的点互信息来计算文本的情感倾向性,选择“excellent”和“poor”作为种子词,在得到每个单词与种子词之间的点互信息后,根据SO-PMI计算每个词的情感倾向性,并通过词语计数的方式计算文本的整体情感倾向性。2006通过基于HowNet的语义分析抽取单词的情感信息。2009根据样本空间中文档与单词的共现关系,基于潜在狄利克雷分布(latent Dirichlet allocation,LDA)的浅层语义分析方法获取未标注样本的标签。

    2.按研究问题分类

    根据情感文本分类中侧重关注的问题,可以将情感分类研究划分为领域相关性研究和数据不平衡问题研究两类。

    领域相关性研究:情感分类是一个领域相关(domain-specific)的问题,当训练集和测试集属于不同的领域时,基于监督学习的情感分类方法通常会表现出较差的效果。因此,领域适应性(domain adaptation)研究成为一个重要课题,其目的就是尽量使情感分类器在跨领域学习时保持一定的分类性能。

    2005针对领域适应中的特征选择、分类器融合和训练集的组合等问题做了详细分析。2007提出了一种基于结构共现学习(structural correspondence learning,SCL)的情感分类领域适应方法,在跨领域情感分类中取得了较好的性能。2010利用基于图模型的Graph-Ranking算法处理中文情感分类中的领域适应问题。2011将集成学习方法应用于“多领域”情感分类,让多个领域的资源互相帮助,从而使整体的情感分类性能获得提升。

    数据不平衡问题研究:情感分类往往牵涉样本的正负类别分布不平衡的问题。

    Li et al.(2011b)对实际情况中的样本不平衡问题做了深入分析。假设在情感分类中有N个样本的训练数据,其中包含N+个正类样本和N-个负类样本。目前大多数研究总是假设正类样本数和负类样本数是平衡的,即N+=N-,但实际情况并非如此,更一般的情况是训练数据中一类样本要远远多于另一类样本。

    针对不平衡数据的有监督情感分类问题,Li et al.(2011c)提出了一种基于中心向量的不平衡情感分类方法。
    该方法包括以下几个步骤对不平衡数据的标注样本进行训练:
    ①将“多类”里面的所有训练样本进行聚类;
    ②在各个聚类里面进行内部层次采样,获得同“少类”相同规模的样本;
    ③使用这些采样样本并结合整个类的中心向量构建的新向量进行训练学习。该方法借鉴中心向量充分利用“多类”里面所有样本的分类信息,获得了比其他传统采样方法或者代价敏感方法更优的分类性能。

    针对不平衡数据的半监督情感分类问题,Li et al.(2011b)提出了一种基于协同学习的半监督学习方法。
    该方法有如下两个特点:
    ①使用欠采样技术对训练样本进行平衡采样,用于构建多个欠采样分类器,利用多个分类器对非标注样本进行标注;
    ②采用动态特征子空间的方式,即每次迭代重新生产特征子空间,增加多分类器之间的差异性,进一步提升协同学习的性能。
    实验结果表明,该方法在处理情感分类的数据不平衡问题上,能够利用非标注样本提高分类性能。另外,该工作的一个贡献是首次提出了一种针对不平衡数据分类的半监督学习方法。

    针对不平衡数据的情感分类中的主动学习问题,Li et al.(2012b)提出了一种集成确定性和不确定性样本选择策略的方法,用于主动选择不平衡数据中信息量大的样本以提高分类性能。其中,确定性和不确定性分布由两个分开的特征子空间进行控制,不确定性用于选择信息量大的样本,确定性用于选择尽量平衡的数据。此外,对于确定性判断出来的“多类”非标注样本进行自动标注,进一步降低样本的标注规模。实验证明,在同样的标注情况下该方法能够大幅度提高不平衡数据的分类性能。

     

    展开全文
  • 对于一个简单的文本情感分类来说,其实就是一个二分类,这篇博客主要讲述的是使用scikit-learn来做文本情感分类。分类主要分为两步:1)训练,主要根据训练集来学习分类模型的规则。2)分类,先用已知的测试集评估分类...

    对于一个简单的文本情感分类来说,其实就是一个二分类,这篇博客主要讲述的是使用scikit-learn来做文本情感分类。分类主要分为两步:1)训练,主要根据训练集来学习分类模型的规则。2)分类,先用已知的测试集评估分类的准确率等,如果效果还可以,那么该模型对无标注的待测样本进行预测。

    首先先介绍下我样本集,样本是已经分好词的酒店评论,第一列为标签,第二列为评论,前半部分为积极评论,后半部分为消极评论,格式如下:

    下面实现了SVM,NB,逻辑回归,决策树,逻辑森林,KNN 等几种分类方法,主要代码如下:

    #coding:utf-8

    from matplotlib import pyplot

    import scipy as sp

    import numpy as np

    from sklearn.cross_validation import train_test_split

    from sklearn.feature_extraction.text import CountVectorizer

    from sklearn.feature_extraction.text import TfidfVectorizer

    from sklearn.metrics import precision_recall_curve

    from sklearn.metrics import classification_report

    from numpy import *

    #========SVM========#

    def SvmClass(x_train, y_train):

    from sklearn.svm import SVC

    #调分类器

    clf = SVC(kernel = 'linear',probability=True)#default with 'rbf'

    clf.fit(x_train, y_train)#训练,对于监督模型来说是 fit(X, y),对于非监督模型是 fit(X)

    return clf

    #=====NB=========#

    def NbClass(x_train, y_train):

    from sklearn.naive_bayes import MultinomialNB

    clf=MultinomialNB(alpha=0.01).fit(x_train, y_train)

    return clf

    #========Logistic Regression========#

    def LogisticClass(x_train, y_train):

    from sklearn.linear_model import LogisticRegression

    clf = LogisticRegression(penalty='l2')

    clf.fit(x_train, y_train)

    return clf

    #========KNN========#

    def KnnClass(x_train,y_train):

    from sklearn.neighbors import KNeighborsClassifier

    clf=KNeighborsClassifier()

    clf.fit(x_train,y_train)

    return clf

    #========Decision Tree ========#

    def DccisionClass(x_train,y_train):

    from sklearn import tree

    clf=tree.DecisionTreeClassifier()

    clf.fit(x_train,y_train)

    return clf

    #========Random Forest Classifier ========#

    def random_forest_class(x_train,y_train):

    from sklearn.ensemble import RandomForestClassifier

    clf= RandomForestClassifier(n_estimators=8)#参数n_estimators设置弱分类器的数量

    clf.fit(x_train,y_train)

    return clf

    #========准确率召回率 ========#

    def Precision(clf):

    doc_class_predicted = clf.predict(x_test)

    print(np.mean(doc_class_predicted == y_test))#预测结果和真实标签

    #准确率与召回率

    precision, recall, thresholds = precision_recall_curve(y_test, clf.predict(x_test))

    answer = clf.predict_proba(x_test)[:,1]

    report = answer > 0.5

    print(classification_report(y_test, report, target_names = ['neg', 'pos']))

    print("--------------------")

    from sklearn.metrics import accuracy_score

    print('准确率: %.2f' % accuracy_score(y_test, doc_class_predicted))

    if __name__ == '__main__':

    data=[]

    labels=[]

    with open ("train2.txt","r")as file:

    for line in file:

    line=line[0:1]

    labels.append(line)

    with open("train2.txt","r")as file:

    for line in file:

    line=line[1:]

    data.append(line)

    x=np.array(data)

    labels=np.array(labels)

    labels=[int (i)for i in labels]

    movie_target=labels

    #转换成空间向量

    count_vec = TfidfVectorizer(binary = False)

    #加载数据集,切分数据集80%训练,20%测试

    x_train, x_test, y_train, y_test= train_test_split(x, movie_target, test_size = 0.2)

    x_train = count_vec.fit_transform(x_train)

    x_test = count_vec.transform(x_test)

    print('**************支持向量机************ ')

    Precision(SvmClass(x_train, y_train))

    print('**************朴素贝叶斯************ ')

    Precision(NbClass(x_train, y_train))

    print('**************最近邻KNN************ ')

    Precision(KnnClass(x_train,y_train))

    print('**************逻辑回归************ ')

    Precision(LogisticClass(x_train, y_train))

    print('**************决策树************ ')

    Precision(DccisionClass(x_train,y_train))

    print('**************逻辑森林************ ')

    Precision(random_forest_class(x_train,y_train))

    结果如下:

    2766967eb6ac5a34bfc88e2028aaebd5.png

    对于整体代码和语料的下载,可以去下载

    展开全文
  • 多目标情感分类

    2018-04-16 20:27:38
    emNLP中的一篇论文,主要写的是关于多目标的情感分类
  • 文本情感分类

    千次阅读 2017-06-27 19:14:32
    电影文本情感分类 Github地址 Kaggle地址 这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯、逻辑回归等,...
  • LSTM情感分类代码

    2018-07-18 11:33:29
    本文是关于英文情感分类的源码,详情请参考博客https://blog.csdn.net/pursue_myheart/article/details/81095094
  • 项目主要是利用BERT实现中文的情感分类 主要实现包括: bert 模型的实现 利用起进行情感分类 需要版本 python3 和tensorflow 大于1.10
  • 基于情感词典的文本情感分类传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如上图。我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱”,消极词语有...
  • 循环神经网络实现文本情感分类之使用LSTM完成文本情感分类 1. 使用LSTM完成文本情感分类 在前面,使用了word embedding去实现了toy级别的文本情感分类,那么现在在这个模型中添加上LSTM层,观察分类效果。 为了...
  • 情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的客观内容,而情感分类是要从文本中得到它...
  • 情绪分析 基于电影评论的情感分类模型。
  • 基于情感词典的文本情感分类

    千次阅读 2017-08-29 09:36:50
    基于情感词典的文本情感分类 传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如上图。我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱”,消极...
  • 不均衡情感分类的集成方法
  • 卷积注意神经网络的情感分类

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,919
精华内容 1,967
关键字:

情感分类