精华内容
下载资源
问答
  • 基于252名员工问卷调查,探讨了社交媒体互动与员工创造力之间关系,这种关系受... 该研究不仅丰富了关于社交媒体互动与企业内部利益相关者(员工)之间关系理论研究,而且对组织管理实践具有重要指导意义。
  • 背景:旁观者心肺复苏术(CPR)是患者生存的重要因素。 因此,本研究的目的是评估沙特阿拉伯关于心肺... 提高意识的最有效来源是社交媒体的适当利用,以及实施可持续计划,以提供涵盖所有社区环境的心肺复苏培训课程。
  • 背景:女性卫生保健工作者关于乳腺癌危险... 在参加者中,有42.0%从专题讨论会,讲习班和社交媒体获得了相关信息。 结论:女性医护人员对乳腺筛查危险因素知识和态度水平较低。 需要沙特阿拉伯卫生保健系统进行紧
  • 这项研究对Twitter和政治上文献进行了回顾。 审查归纳为三个相互关联主题:1)社交媒体是否... 但是,以前研究仍然发现强有力证据表明,Twitter上公众舆论日趋两极化,社交媒体对此趋势贡献也越来越大。
  • 这将对相关的组织变革和社交媒体的使用产生重大价值。 根据顶级期刊的数据,我们根据文献计量学的方法,对信息系统,组织研究和管理方面的111篇论文进行了研究。 通过分析,我们知道尽管信息系统学科是一个相对较晚...
  • 产品消费者不仅应该关注产品包装,设计及其型号,而且最重要是应该关注制造这些产品时所起作用成分。 进行这项研究是为了研究消费者在消费之前,之中...通过社交媒体,印刷媒体和电信媒体等方式提高公众意识。
  • 随着社交平台和社交媒体的兴起,自动年龄和性别分类已经成为越来越多应用程序的相关内容。本文会盘点出近几年来关于深度年龄和性别识别的优质论文。CVPR 2015论文标题:Age and Gender Classification usi...

    56579ad7a6d578ee8eb9beb12500e2db.gif

    ©PaperWeekly 原创 · 作者|孙裕道

    学校|北京邮电大学博士生

    研究方向|GAN图像生成、情绪对抗样本生成

    引言年龄和性别在社会交往中起着基础性的作用。随着社交平台和社交媒体的兴起,自动年龄和性别分类已经成为越来越多应用程序的相关内容。本文会盘点出近几年来关于深度年龄和性别识别的优质论文。

    fd52836cd135bde865d9b4edc53c9c62.png

    CVPR 2015

    0472faa2615ed5ed29adcdaf4d2e0f2b.png

    论文标题:Age and Gender Classification using Convolutional Neural Networks

    论文来源:CVPR 2015

    论文链接:https://www.sci-hub.ren/10.1109/CVPRW.2015.7301352

    代码链接:https://github.com/GilLevi/AgeGenderDeepLearning

    1.1 模型介绍

    在该论文是第一篇将深度学习引入到年龄和性别的分类任务中,作者证明通过使用深卷积神经网络的学习表示,可以显著提高年龄和性别的分类任务的性能。因此,该论文提出了一个卷积网络架构,即使在学习数据量有限的情况下也可以使用。

    从社交图像库收集一个大的、带标签的图像训练集,用于年龄和性别估计,需要访问图像中出现的对象的个人信息,这些信息通常是私有的,或者手动标记既繁琐又耗时。因此,用于从真实社会图像中估计年龄和性别的数据集在大小上相对有限。当深度学习的方法应用于如此小的图像采集时,过拟合是一个常见的问题。

    如下图所示,为作者提出的一个简单的 CNN 网络架构,该网络包含三个卷积层,每个卷积层后面都有一个校正的线性运算和池化层。前两层使用对参数进行正则化操作。

    第一卷积层包含 96个7×7 像素的卷积核,第二个卷积层包含 256 个 5×5 像素的卷积核,第三层和最后一层包含 384 个 3×3 像素的卷积核。最后,添加两个全连接层,每个层包含 512 个神经元。

    a00321ea7023d3d92f9ca2352c7f9bf3.png

    在训练网络的过程中,作者还应用了两种额外的方法来进一步限制过度拟合的风险。第一个是 dropout 学习(即随机设置网络神经元的输出值为零)。该网络包括两个 dropout 层,丢失率为 0.5(将神经元的输出值设为零的几率为 50%)。

    第二个是使用数据增强技术,从 256×256 的输入图像中随机抽取 227×227 个像素,并在每个前后训练过程中随机镜像。这与使用的多种裁剪和镜像变体类似。

    1.2 实验结果

    作者使用 Adience 数据集进行基准测试 CNN 设计的准确性,该数据集是为年龄和性别分类而设计的。Adience 集包括从智能手机设备自动上传到 Flickr 的图像。

    因为这些图片是在没有事先人工过滤的情况下上传的,就像媒体网页或社交网站上的典型情况一样。整个 Adience 收藏包括 2284 个受试者的大约 26K 张图片。如下表所示列出了收集到的不同性别和年龄组的分类情况。

    e6bf4444f3b58b375c7028dd28c9e319.png

    下表分别给出了性别和年龄分类结果,可以看出论文中提出的方法的准确率要比其它方法更高。

    d7c0d34c584ec5274bfd8b1074381d31.png

    下图为性别错误分类。第一行:女性被误认为是男性。最下面一行:男性被误认为是女性。e85fc42ba35a1ce016c5741af98eea9f.png下图为年龄错误分类。第一行:年长的被试被误认为是年轻人。最下面一行:年轻人被误认为是老年人。3c21d7aebf61cf217e28efb4f2202889.png由上面两张图是系统所犯的许多错误都是由于某些 Adience 基准图像的观看条件极为困难所致。最值得注意的是由模糊或低分辨率和遮挡(尤其是浓妆)引起的错误。性别估计错误也经常发生在婴儿或非常年幼的儿童的图像中,因为这些图像还没有明显的性别属性。eb5798cfde9683fababeb558f12eadd0.png

    IWBF 2018

    5e58cf00780b58b5183a723577ac72ee.png

    论文标题:Age and Gender Classification from Ear Images

    论文来源:IWBF 2018

    论文链接:https://arxiv.org/abs/1806.05742

    2.1 论文贡献

    该论文是一篇有趣文章,研究是从耳朵图像进行年龄和性别的分类。作者采用卷积神经网络模型 AlexNet、VGG-16、GoogLeNet 和 squezenet。在一个大规模的耳朵数据集上进行了训练,分类器通过人耳对性别和年龄进行分类。该论文的贡献分为三个部分:

    • 对于几何特征,作者在耳朵上使用了 8 个标志点,并从中衍生出 16 个特征。
    • 对于基于外观的方法,作者使用了一个大型 ear 数据集,利用卷积神经网络模型来对年龄和性别进行分类。
    • 与之前的工作相比,作者在性别分类方面取得了优异的成绩。

    2.2 模型介绍

    论文使用几何特征和在这些特征上使用的分类器,以及基于外观的表示进行分类。

    2.2.1 几何特征

    下图为人耳标志位和相关的几何特征。由于每个几何特征具有不同的取值范围,为了使其规范化,作者在训练集中计算了每个特征的均值和标准差。然后并对它们进行归一化,使它们具有零均值和单位方差。在 16 个耳朵的几何特征中选择出重要的6个。

    b8ef8024642c1f3700077ee87251f390.png

    2.2.2 基于外观的表示与分类

    本研究中使用的第一个深度卷积神经网络结构是 AlexNet。AlexNet 包含五个卷积层和三个全连接层。在网络训练中,为了防止过度拟合,采用了 dropout 方法。第二个深度卷积神经网络结构是 VGG-16。

    VGG-16 包含 16 个卷积层,3 个全连接层和在卷积层之后的 softmax 分类器。第三个深度卷积神经网络结构是 GoogleNet,它是一个更深层次的网络,包含 22 层。它基于初始模块,主要是几个初始模块的串联。

    inception 模块包含几个不同大小的卷积核。将不同的卷积核输出组合起来。最后一个 CNN 架构是 squezenet,它提出了一种减少参数数量和模型大小的新方法。使用 1×1 过滤器,而不是 3×3 过滤器。该体系结构还包含剩余连接,以提高反向传播学习的效率。此外,没有全连接层。使用平均池化层,而不是全连接层。

    2.3 实验结果

    2.3.1 数据集介绍论文选用的数据集包含 338 个不同对象的面部轮廓图像。这个数据集中的所有受试者都超过18岁。从下图可以看到来自数据集的样本图像。这些受试者分为五个不同的年龄组。这些年龄组分别为 18-28、29-38、39-48、49-58、59-68+。根据几何特征的变化对年龄组进行分类。

    8707b070fac2699d29d415fec428bad4.png

    2.3.2 性别分类结果

    如下表所示为性别分类的结果,第一列为分类器的名称,第二列包含相应的分类精度。为了提醒读者所使用的特性,第二列的括号中包含了这些特性的类型。从表中可以看出,基于外观的方法优于基于几何特征的分类器dfeec1a7bff1b0088ce31301b963e019.png

    2.3.3 年龄组分类结果

    如下表所示为年龄组分类的结果,同样的,第一列包含分类器的名称,第二列包含相应的分类精度。我们会发现,基于几何特征的方法和基于外观的方法之间的性能差距很小,基于外观的方法能稍微优越一点。1f0695c5210ca77ead2d004b2b89a3b0.pngcf1fd7a9731affbff832f403e7533520.png

    CVPR 2019

    e892b18c925b556b1cbf1426fe23fa51.png

    论文标题:Multimodal Age and Gender Classification Using Ear and Profile Face Images

    论文来源:CVPR 2019

    论文链接:https://arxiv.org/abs/1907.10081

    3.1 核心思想

    在该论文中,作者提出一个多模态深度神经网路的年龄和性别分类框架,输入为一个侧面的脸和一个耳朵的图像。主要目标是通过进一步利用生物特征识别方法:耳朵外观,来提高从侧面人脸图像中提取软生物特征的准确性。轮廓人脸图像包含了丰富的年龄和性别分类信息源。本篇论文的贡献分为以下三个部分:

    • 作者提出了一个多模式年龄和性别分类系统,该系统以侧面人脸和耳朵图像为输入。所提出的系统执行端到端多模式、多任务学习。

    • 作者全面探讨了利用多模式输入进行年龄和性别分类的各种方法。并采用了三种不同的数据融合方法。

    • 作者将中心损失和 softmax 损失结合起来训练深度神经网络模型。

    3.2 模型介绍

    3.2.1 CNN网络和损失函数

    在本文中采用了 VGG-16 和 ResNet-50 神经网络结构。在 VGG16 中,有 13 个卷积层和3个全连接层。为防止过度拟合,采用了 dropout 方法。另一个 CNN 模型是 ResNet-50。与 VGG-16 不同,除了 ResNet-50 的输出层外,没有全连接层。在卷积部分和输出层之间存在一个全局池化层。两个网络的输入大小都是 224×224。

    作者利用中心损失函数和 softmax 函数来获得更多的鉴别特征。中心损失背后的主要动机是提供更接近相应类中心的特性。测量特征到相关类中心的距离,计算出中心损失。中心损失试图为每个类中心生成更接近的特征,但它不负责提供可分离的特征,因此,softmax 损失对其进行了补充。具体的计算公式如下:544ce82f4ecfcf101d4b320446eb776a.png3.2.2 多模态多任务作者研究了年龄和性别分类的性能,分别使用耳朵和侧面人脸图像,作为单峰系统,并结合作为一个多模式,多任务系统。对于多模式、多任务年龄和性别分类总损失计算,作者结合了年龄和性别预测的所有损失。具体的计算公式如下所示:

    b4112b77aedebda42b13d6229b330a5f.png

    3.2.3 数据融合

    为了实现数据融合,作者采用了三种不同的方法,即空间融合、强度融合和信道融合。在空间融合中,将侧面人脸和耳朵图像并排连接起来。在信道融合中,将图像沿着通道串联起来。在强度融合中,平均化轮廓面部和耳朵图像的像素强度值。具体详情如下图所示:

    12c79189324641ead64980cb87bdca0a.png

    3.2.4 特征融合对于基于特征的融合策略,作者训练了两个独立的 CNN 模型,其中一个以侧面人脸图像为输入,另一个以耳朵图像为输入。当这些网络的表示部分(卷积部分)被分开训练时,最后一个卷积层的输出被连接并馈送给分类器部分。具体详情如下图所示:

    727b6b2e60738276b43b21d3f0d6f5d4.png

    3.2.5 分数融合对于基于分数的融合,作者用相关模型对每个侧面人脸图像和耳朵图像进行了测试。然后,对于属于同一主题的每个侧面人脸和耳朵图像,根据不同的置信度计算方法获得概率得分并测量每个模型的置信度。之后,选择了具有最大可信度的模型的预测。具体详情如下图所示:d51ee09ddf1fa67d436bb26204f79144.png

    3.4 实验结果

    如下表所示显示了基于不同融合方法的年龄和性别分类结果。第一列分类模型。第二列为融合方法,其中 A、B 和 C 分别对应于数据、特征和分数融合方法。在方法 A 中,A-1、A-2 和 A-3 分别是信道融合、空间融合和强度融合。

    在 C 中,C1、C2、C3、C4 和 C5 代表不同的置信度计算方法。实验结果表明,VGG-16 模型采用 A-2 融合方法,即空间融合,取得了最佳的年龄分类效果。

    7d1473147220abd2ba7ad3224c704520.png

    如下表所示,将本文提出的方法与以前的工作进行比较。第一部分是性别分类结果,第二部分是年龄分类结果。根据研究结果,该论文所提出的方法在年龄和性别分类方面取得了最高的分类准确率。f8b861997c3c54dbe4ffd00a2aa4bb43.png

    更多阅读

    27b84e245608300fe65575b49dba981b.png10289ba4b7df0139f3ee19dee5fd3704.png

    2c3a52bdf2eba8668be75ca8914fd8f5.png

    1f2f9243266765d92b66b00091c778e9.gif

    #投 稿 通 道#

     让你的论文被更多人看到 

    如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

    PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

    来稿标准:

    • 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

    • 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

    • PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

    投稿邮箱:

    • 投稿邮箱:hr@paperweekly.site 

    • 所有文章配图,请单独在附件中发送 

    • 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

    ?

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧

    关于PaperWeekly

    PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

    7454c1ab4c360db2ccb0b587c442735d.gif

    7d338caf2da88405ccf63d843e10072f.png

    展开全文
  • “因为随着社交媒体的广泛使用,短文本已经成为web上流行的文本形态。然而与长文本不同,使用词袋模型和TF-IDF表示的短文本存在着稀疏的问题。” 短文本的稀疏问题 假设有短文本数据集X={x1,x2…xn}。 对于xi∈X,...

    A Self-Training Approach for Short Text Clustering


    这是一篇关于短文本聚类的文章。
    “因为随着社交媒体的广泛使用,短文本已经成为web上流行的文本形态。然而与长文本不同,使用词袋模型和TF-IDF表示的短文本存在着稀疏的问题。”

    短文本的稀疏问题

    假设有短文本数据集X={x1,x2…xn}。
    对于xiX,假设xi中的词汇数为ni,那么数据集X的词汇数量V为V=i=1nniV = \sum^{n}_{i=1}n_{i}

    如果用词袋模型表示 xi ,记为 xixiZV\mathbb{Z}^{V},那么xi 的“稀疏率”可以表示为niV\frac{n_{i}} {V},通常ni << V 。所以短文本使用词袋模型表示是非常稀疏的,换言之,向量xi 中有很多维度上的值为0。

    如果使用TF-IDF来表示xi ,对于wj ∈ xi , j = 1、2、…ni,我们计算TFwj=wjxiniTF_{w_{j}}=\frac{w_{j}在x_{i}出现次数}{n_{i}}
    因为对于xi中任意的wj出现的次数一般为1,所以他们的TF值难以区分。所以计算出的TF-IDF值不能准确的反映wj的特征。


    “过去解决短文本稀疏问题的方法是引入额外的资源丰富文本的表示。最近,低维度的表示展示了解决短文本稀疏向量的潜能。Word embedding、sentence embedding以及documents embedding已经在众多NLP任务中有了良好的表现。”

    SIF Embedding

    论文使用了SIF Embedding,SIF来自《A Simple but Tough-to-Beat Baseline for Sentence Embeddings》。
    SIF的计算分为两步:
    1、对句子中的每个词向量,乘以一个权重 a/(a+p(w)),其中 a 是一个超参数,p(w) 为该词的词频(在整个数据集中的频率)。
    2、计算句向量矩阵的第一个主成分 u,让每个句向量减去它在 u 上的投影。
    在这里插入图片描述


    “我们的短文本聚类模型包含三步:1、使用SIF得到短文本向量;2、使用一个autoencoder重构短文本向量;3、(Self-training)将聚类作为辅助的目标分布,联合微调encoder。”

    在这里插入图片描述

    Self-training

    使用autoencoder将SIF embedding的结果降维后作为self-training的初始化。然后初始化聚类中心(文章在实验阶段使用100次Kmeans初始化不同的中心,然后选择最好的中心)。然后交替以下两个步骤:
    1、计算一个向量(文本)放入每个簇的概率
    2、计算辅助的概率分布,作为encoder的目标
    步骤1:向量zi放入uj簇的概率符合自由度为1的学生T分布。

    在这里插入图片描述
    步骤2:辅助目标分布P相较于相似度qij是有更严格的概率计算。目的是提高簇的纯度、提高置信度。这阻止了大簇扭曲隐藏的特征空间。
    在这里插入图片描述
    训练的loss:
    在这里插入图片描述


    实验结果

    在这里插入图片描述


    我的总结

    之所以这个self-training取得了较好的效果,是因为它将聚类的目标函数作为了encoder的辅助目标融进了训练当中。这意味着聚类任务和embedding、降维过程不是割裂的。
    在以往的聚类研究当中,研究者都遵循着下图的结构:
    在这里插入图片描述
    这意味着聚类任务的提升只能依靠预处理技术、特征提取、特征降维技术的提升。这也就是作者写道的:“最近,低维度的表示展示了解决短文本稀疏向量的潜能。Word embedding、sentence embedding以及documents embedding已经在众多NLP任务中有了良好的表现。”
    但是本文将聚类的目标和encoder的训练目标相融合,就意味着聚类算法与特征提取不是割裂的两个任务,可以通过聚类算法影响encoder的效果,从而使其成为更符合聚类任务的encoder。

    参考文献

    Amir Hadifar , Lucas Sterckx , Thomas Demeester and Chris Develder . 2019 . A Self-Training Approach for Short Text Clustering.

    展开全文
  • 可以说,沟通渠道,特别是社交媒体,提高了这种效果水平。 儿童食品由于其口味和愉悦而经常被儿童消费者所偏爱,但它们却含有高卡路里和与肥胖症有关高糖水平; 是经常讨论食物之一。 这种情况增加了父母对...
  • 在大四上学期一门课上研读了一篇关于虚假新闻检测顶会论文,后对这个领域产生了兴趣,在毕业论文选择了社交媒体虚假新闻检测来作为题目,最终论文成果有幸被NLPCC2019会议所收录,算是科研菜鸡一个小小...

    前言

    在大四上学期的一门课上研读了一篇关于虚假新闻检测的顶会论文,后对这个领域产生了浓厚兴趣,在毕业论文选择了社交媒体上的虚假新闻检测来作为题目,最终论文成果有幸被NLPCC2019会议所收录,算是科研菜鸡的一个小小进步吧。如有不足,可多多交流~
    PS之前针对虚假新闻检测领域所写的博客:
    论文研读博客
    虚假新闻相关数据集
    虚假新闻近几年文献列表

    论文讲解

    研究难点

    由于虚假新闻的传播带来的影响较大,对其的研究也一直处于热点,从百度学术对虚假新闻的研究走势可看出,同时在近五年的各大顶会中也有其身影,但研究始终存在一定难点,由于虚假新闻具有特殊性,单从新闻内容难辨真假,同时虚假新闻中可能掺杂着真实内容而导致文本特征不足,还需要引入外部知识,如知识库或社交媒体用户信息。而作为辅助信息则存在着数据量大、不完整和存在噪音等特点。

    方法分类

    在研读了虚假新闻领域相关的方法后,可以了解到目前领域大致有三个方向:一是基于新闻文本,包括正文、来源、标题、图片、视频等;二是基于网络结构,包括新闻传播网(涉及时序性特征、用户评论等)或者自行构建异构网络;三是基于融合框架,融合不同类型的特征,如文本、图片、网络、用户特征等。

    本文方法

    大多数研究中对个体特征和群体特征为独立分析,且仅仅分析网络结构,而忽略构成网络的个体特征。在本研究中,我们构建了一个融合框架,分别学习新闻文本以及重构的新闻-用户网络特征。不同以往的研究,我们的模型重点在于通过网络表示学习的方法学习带有用户特征的用户关系网,后以阈值限定添加新的用户关系在新闻-用户的传播网络中,对重构后的网络进行再学习的方式获取网络特征。具体模型如下图所示:
    在这里插入图片描述

    实验数据集

    研究所采用的是公开数据集FakeNewsNet,其中包含两份数据集,数据来源于有名的政治性事实核对平台PolitiFact和新闻聚合网站BuzzFeed,数据标签由平台权威专家所提供,内容包含新闻文本(发布者,标题,主体,视频图片)和社会语境(用户关注,用户内容),且数据集持续不断地进行更新。相比现有的数据集,其数据维度广。
    具体可见github:https://github.com/KaiDMML/FakeNewsNet 【目前数据集已更新版本】

    前期探索

    为了便于确定方法的可行性,对数据集进行初步的探索,在文本长度,用户词频,用户关联,用户-新闻关联四个方面进行相应的数据统计,其中在用户关联方面可见,粉丝量或者关注量为0 的异常用户存在,而用户词频方面也存在大部分为0 的用户,为后续实验验证提供一定的依据。
    在这里插入图片描述

    数据预处理
    文本预处理

    主要对新闻文本进行清洗,更改缩略词,替换标点符号,并去除特殊字符和空格,由于在虚假新闻检测中停用词具有其作用,实验过程保留停用词。最后给文本数据赋予标签,此处真新闻为1,假新闻为0。

    网络结构预处理

    原始数据提供用户和新闻关系以及用户间的关系,在此均处理成邻接表的形式,以“新闻-用户-传播次数”和“用户-用户-权重”,考虑为无向图的形式,因此用户间的权重设置为1,对新闻-用户和用户-用户作为整体作为构建图表示的输入。

    实验结果

    具体的实验过程以及实验成果可见如下poster
    在这里插入图片描述
    论文地址:http://tcci.ccf.org.cn/conference/2019/papers/182.pdf

    展开全文
  • 情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。随着推特等社交媒体以及电商平台的发展而产生大量带有观点...

    情感分析概述

    与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

    随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。

    目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

    玻森中文语义开放平台的情感分析示例

    那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)

    e表示情感分析的目标实体,可以是一个具体的实例,也可以是一个类,但必须是唯一的对象。

    a表示实体e中一个观点具体评价的属性。

    s表示对实体e的a属性的观点中所包含的情感,通常来讲会分为正向褒义、负向贬义和中性三种分类。也可以通过回归算法转化为1星到5星的评价等级。

    h是情感观点的持有者,有可能是评价者本人,也有可能是其他人。

    t是观点发布的时间。

    以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。

    用户对某餐厅的评价

    情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。

    1. 篇章级情感分析

    篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。

    对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。

    例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。

    不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。

    在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。

    2. 句子级情感分析

    与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。

    既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。

    但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。

    所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。

    总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。

    句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。

    3. 属性级情感分析

    上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。

    为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:

    实体抽取和消解:抽取文档中所有涉及到实体的表达语句,并使用聚类方法将同一个实体的表达聚为一类,每一类都对应唯一的一个实体。

    属性抽取和消解:抽取文档中所有实体的属性,并把这些属性进行聚类,每个属性类别对应对象实体唯一的一个属性。

    观点持有者抽取和消解:抽取文档中观点的持有者,并将持有者进行聚类,每个观点持有者类别对应唯一的一个观点持有者。

    时间抽取和标准化:抽取每个观点的发布时间,并把不同时间的格式进行标准化。

    属性的情感分类和回归:对具体的属性进行情感分析,判断它是褒义、贬义还是中性情感,或者通过回归算法给属性赋予一个数值化的情感得分,例如1至5分。

    生成观点五元组:使用任务1-6的结果构造文档中所有观点的五元组。

    关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。

    基于词典的情感分析

    做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。

    具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。

    基于词典的情感分析流程

    情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。

    当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。

    但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。

    另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-0.5可能更合适。

    基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。

    第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。

    除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。

    最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。

    构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。

    尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。

    基于机器学习的情感识别

    我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。

    首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1.

    在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。

    第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。

    特征词1

    特征词2

    特征词3

    特征词4

    特征词5

    特征词6

    分类结果

    文档A

    2

    0

    2

    4

    1

    6

    1

    文档B

    0

    2

    3

    3

    2

    2

    1

    文档C

    5

    1

    6

    2

    5

    6

    1

    文档D

    5

    0

    1

    5

    3

    4

    0

    文档E

    3

    3

    0

    3

    3

    3

    0

    当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。

    采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。

    除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。

    情感识别的困难与挑战

    随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:

    颜文字、emoji和表情包

    互联网上的交流不仅仅只是通过单纯的文字来进行,大量的情感表达是通过颜文字或表情包来实现的,例如经典的表示笑脸的颜文字“:D”,这类文本表达无法与上下文形成联系,所以很难判断他们评价的实体对象是什么。不过好在这类数据本身就代表了非常强烈的情感倾向,在篇章级和句子级的颗粒度对情感进行分析,我们可以将特定的颜文字作为一种特殊的词组构建成情感字典,并人工进行情感分的赋值,对于emoji表情也可以将标准的emoji编码编入情感字典。而对于表情包的识别则是一个计算机视觉的问题,目前还没有学者在这个领域方向展开研究。

    讽刺句

    讽刺语句是一种比较特殊的情感表达语句,讽刺语句的语言组织形式从字面上来看可能是褒义,但实际的含义却是贬义,或者字面是贬义但实际却是褒义,例如:“太棒了!这家外卖治好了我多年的便秘!”讽刺句在情感分析中是非常难以处理的,因为要分辨这类语句的含义,通常来讲需要结合常识或者是相关的背景知识才可以了解,仅仅通过上下文是无法正确解读讽刺句的含义的。

    在对商品的评价语中,讽刺句并不常见,但在舆论或社会新闻的评价中,讽刺句则比较常见。识别出讽刺句是情感分析分析方向的一个研究难点。

    比较句

    比较语句也是一种特殊的情感表达句,例如:“我觉得这件衣服很适合我,但我更喜欢那一件。”这类比较语句中通常存在着两个以上的实体或属性,如果只是在句子级的颗粒度下可以辨别出这句话是含有褒义的情感,但在属性级的颗粒度下,以情感五元组来定义的情感无法将一个实体作为另一个实体的属性来进行判断,很难分辨观点持有者到底是在对哪一个实体或属性表达情感。而这类语句在商品的评论中有非常常见,需要特别注意。

    情绪分类

    目前对于情感的分析依然处于初级阶段,仅仅只是对情感做了褒义、贬义、中性三种划分,但现实生活中的情绪远远不止这三种类型,例如在心理学领域中,著名的心理学家罗伯特·普拉切克(Robert Plutchik)提出的情绪轮包含了8种基本情绪,并且每种情绪又划分了不同的情绪强度等级,8种情绪还可以相互结合形成更多的情绪,如图所示。

    普拉切克的情绪轮

    情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

    展开全文
  •  近日,Bitcoin ABC核心开发人员Amaury Séchet在社交媒体平台Yours.org上发表了一篇关于协议技术的论文,其中他提出了一个全新的想法——“预共识(pre-consensus)”。  包括Bitcoin Unl...
  • 贾佳亚2018/5.29:被誉为“一键卸妆”的论文《Makeup-Go: Blind Reversion of Portrait Edit》在社会各界引起了强烈反响,卸妆玩法引爆社交媒体。另一篇超分辨率的论文《细节还原深度视频超分辨率》,其相关技术也...
  • 他曾经设计了社交三维虚拟世界“PAW”,也曾经参与过VRML97(ISO/IEC 14772-1:1997) 标准开发工作,在VRML和X3D(WebGL 前身) 社区中仍然非常活跃。他撰写过15 本计算机技术书籍,并翻译过25 本相关书籍。他专长...
  • 他曾经设计了社交三维虚拟世界“PAW”,也曾经参与过VRML97(ISO/IEC 14772-1:1997) 标准开发工作,在VRML和X3D(WebGL 前身) 社区中仍然非常活跃。他撰写过15 本计算机技术书籍,并翻译过25 本相关书籍。他专长...
  • 他曾经设计了社交三维虚拟世界“PAW”,也曾经参与过VRML97(ISO/IEC 14772-1:1997) 标准开发工作,在VRML和X3D(WebGL 前身) 社区中仍然非常活跃。他撰写过15 本计算机技术 书籍,并翻译过25 本相关书籍。他...
  • 第9章 分析文本数据和社交媒体 203 9.1 安装NLTK 203 9.2 滤除停用字、姓名和数字 206 9.3 词袋模型 208 9.4 词频分析 209 9.5 朴素贝叶斯分类 211 9.6 情感分析 214 9.7 创建词云 217 9.8 社交网络分析 222...
  • 关于数字签名:产生RSA密钥对(myKeyPair),得到RSA密钥对,产生Signature对象,对用私钥对信息(info)签名,用指定算法产生签名对象,用私钥初始化签名对象,将待签名数据传送给签名对象(须在初始化之后),用公钥...
  • JAVA上百实例源码以及开源项目

    千次下载 热门讨论 2016-01-03 17:37:40
     关于数字签名:产生RSA密钥对(myKeyPair),得到RSA密钥对,产生Signature对象,对用私钥对信息(info)签名,用指定算法产生签名对象,用私钥初始化签名对象,将待签名数据传送给签名对象(须在初始化之后),用公钥...

空空如也

空空如也

1 2
收藏数 22
精华内容 8
关键字:

关于社交媒体的论文