精华内容
下载资源
问答
  • 2021-07-15 06:08:05

    一、引言

    情感计算用来研究和开发具有认知、解释和模拟人类情感的系统和设备,是计算机科学、心理学和认知科学的交叉学科。情感计算的起源可追溯到早期对情感的哲学探讨,现在更多的是做为计算机科学人工智能的分支,最早由1995年的论文《affective

    computing》提出。情感计算研究的一个动机是得到模拟同理心的能力,机器能解释并根据人类的情感状态来调整行为并能做出适当的反应来应对各种情绪[1]。对智能体的情感有两个研究方向,首先,他必须能预测别人的行为,通过理解他们的动作和情感状态(这涉及到博弈论、决策论以及人类情感建模和情感检测技术)。其次,对于好的人机交互,一个智能体需要表现出情感。至少它必须显得礼貌且对跟它互的人表现出情感。最好的是它拥有自主的情感[2]。

    二、情感计算的两个研究领域

    1.

    检测和认知情感信息

    检测情感信息从收集使用者的身体状态和行为的数据开始,这些数据用传感器收集且没有经过解释处理。这些采集人类感知他人情感所表现出来的信号的数据是相似的。例如,一个摄像机能记录面部表情,身体姿势和手势,同样一个麦克风能记录谈话。其他的传感器检测情感信号通过直接测量生理数据,如皮肤温度和电阻力。认知情感信息需要从采集的数据中提取有意义的样式。它需要使用机器学习技术来处理不同的谈话认知、自然语言处理形态或面部表情检测,对每一个产生一个标签(如“困惑”)[1]。

    2. 机器情感

    另一个情感计算的领域是设计有情感计算能力的设备,该设备能展示出天生的情感能力或由模拟情感的能力。一个更实际的方式,基于现在的工艺水平,是模拟谈话智能体的情感,以便丰富和便利人类和机器的交互。人类情感经常伴随荷尔蒙和神经肽水平的高涨,机器的情感在一个自治学习系统里可能要与抽象状态相关,如进度(或缺乏进度)[1]。

    三、基于情感计算的技术

    1.

    富有情感的讲话方式

    神经系统不自主的变化会改变讲话方式,我们可以利用这个信息通过提取谈话特征来制造有认知能力的系统。例如,在一种害怕、愤怒或高兴的状态下谈话会变得更快,更大声,发音更准确清晰。其他的情绪如疲倦、厌烦或悲伤,会导致谈话速度慢,音调低和发音含糊。富有情感的谈话通过分析谈话模式会认知使用者的情绪状态。通过模式识别分析发音和节奏的情况如音调变化和谈话速率[1]。

    谈话认知是一个识别情感状态的好办法,研究报告表明平均成功率为63%[3],在人类识别情感的成功率方面这个结果是令人满意的。但与其他形式的情感识别比较还有一点不足(如那些利用生理状态或面部处理)。此外很多的谈话的特征是与语义和文化相关的。

    a.

    算法

    谈话情绪波动检测的处理依赖于创建可靠的数据库——一个足够丰富的数据库来满足应用的需求,拥有快又准的情绪认定的选择分类能力。目前用得最多的分类器是线性判别分类器(LDC)[4],高斯混合模型(GMM)[5]等。很多研究表明选择合适的分类器能显著的提高系统的总体表现。

    b.

    数据库

    现行的主要系统是依赖数据的(data-dependent),这是检测谈话情绪的最大挑战之一,因为它牵涉到选择一个合适的数据库用来训练分类器。大部分已经部署的数据是从部署者得到的因此表现出部署者的情绪。那些所谓演示的数据库通常基于基本情绪理论,该理论假设存在六种基本的情绪(愤怒,害怕,方案,惊喜,高兴,悲伤),其他仅仅是前面的混合。尽管如此,这些仍然提供高音质和稳定的分类,使得认知情感成功率提高。

    然而,在实质生活应用中,自然的数据是首选的。一个自然的数据库是由观察和在自然环境下分析产生的。这种类型的数据的特性允许在真正的现实生活实施,因为它描述了在人机交互过程中自然发生的状态。

    尽管自然地数据有诸多的好处,但它很难获得,且获得的数据中情绪方面的数据比率少。再者,在自然情况下得到的数据有较低的信号质量,因为周边麦克风环境噪音和被试者的距离[1]。

    c.

    谈话特征描述符

    情感认知处理难度随着情感种类和在分类器里谈话描述符的增加而增加,它对选择最相关特征来确认模型成功识别情绪的能力是致命的。可能的选择范围太大了,有研究指出超过200个截然不同的特征。这对最优化的识别系统和提高正确情绪检测成功率是不利的。最常用的谈话特性如下[6]:

    l

    频率特性:口音情况,平均音调,频率变化线,最低频率,音调范围。

    l

    时间相关特性:谈话速度,重音频率。

    l

    声音特点参数和精力描述:气息,宏亮度,响度。

    2.

    面部情感检测

    面部表情检测和处理可以通过多种方法如光流动,Markov统计模型,神经网络处理等来完成。多种模型可联合来判断测试者情绪状态。

    a.

    情绪分类

    60年代末Paul

    Ekman通过在巴布亚新几内亚的跨种族研究提出面部表情跟文化无关,是统一的,因此它们能正确的归类,90年代,Paul Ekman提出如下基本情绪[7]:

    l

    惊喜

    l

    轻视

    l

    满足

    l

    尴尬

    l

    兴奋

    l

    内疚

    l

    骄傲

    l

    宽慰

    l

    满意

    l

    快乐

    l

    害羞

    b.

    面部动作编码系统

    通过肌肉动作定义表情,构建正式分类自然情绪表情的系统。1978年Paul Ekman和Wallace V.Friesen构建的面部表情系统(FACS)[8]的核心概念是动作单元(Action

    Units),它们收缩或松弛一个或多个肌肉。为识别不同的面部信息,科学家他们跟动作单元(Action

    Units)代码一一对应。因此,他们根据动作单元(Action Units)提出下面基本情绪分类(“+”表示“和”):

    情绪Action Units

    惊喜1+2+5B+26

    悲伤1+4+15

    快乐6+12

    害怕1+2+4+5+20+26

    反感9+15+16

    轻视R12A+R14A

    愤怒4+5+7+23

    c.

    面部检测遇到的挑战

    众所周知,面部识别精度不能达到普遍使用的程度(经过很多尝试,特别是法律方面不能成功识别罪犯[9])。扫描脸部的硬件没有和软件没有提高精度,进展非常缓慢。其他的挑战包括:部署的表情大部分是进行各种测试而部署的,不是100%自然的,精准度不高;缺乏旋转运动自由度,情绪检测正面的时候运行的很好,但是头部旋转超过20度就会出问题[10]。

    3.

    身体姿势检测

    姿势能为检测一个特别的情绪状态提供高效的方法,特别在谈话和面部识别混合系统中。依赖详细的动作,姿势对应的身体反应容易对应,就像你不知道回答一个问题你会耸肩,或用手语交流时也是有意义的。不需使用任何物体或依赖于环境,我们的手能挥动、击掌和招手。另一方面,使用物体时,我们能对着它们,移动它、接触和操作它们。电脑应该能识别这些,分析这些情况并能正确的响应。

    有很多方法被提议来检测身体姿势。有些身体姿势识别的方法在文字上就能区别开来:基于3D模型和基于外表模型[11]。最著名的方式是使用身体部位的关键元素的3D信息来得到一些重要参数,像手掌位置或连接处位置。另一方面,基于外表的系统使用图像和视频来直接解释。手势一直是身体姿势检测普遍关注的,外表和3D模型的方法一直都有使用[1]。

    4.

    生理监测

    通过观察和分析生理信号能检测测试者的情绪状态。这些信号范围从脉搏和心跳速率到面部肌肉的收缩分钟数。这个领域发展势头良好,而且可以看到真正的产品实施。三个主要能被分析的生理信号如下[1]:

    a.

    血容量脉冲

    b.

    面部肌电图

    c.

    皮电反应

    5.

    审美

    判断美丽与否和美的质量是一个高度主观的任务。宾夕法尼亚大学的计算机科学家把这个挑战做为机器学习的一个问题来对待,他们让系统自动推理图片美的质量通过一个在线图片网站做为数据源。它们基于直觉提取特定视觉元素来判断美学上令人愉悦和不愉悦的图像[1]。

    四、应用实例

    1.

    穿戴式电脑

    在很多应用场合,用户的皮肤,手,声音,眼睛,手臂同运动和注意力一样和所处的环境有密切关系。穿戴式电脑的研发初衷就是检测人体在不同环境下相关的参数。已经实施的有:行为模型系统,健康护理检测系统[12]。

    2.

    人机交互

    人机交互是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。目前的应用有:

    l

    扩展实境(augmented reality)

    指的是指把虚拟信息添加到使用者感官知觉上,致使使用者所感知的世界为真实世界物体与虚拟物体所组合而成的技术。如微软Xbox360 Kinect体感系统[13]。

    3.

    机器人

    Kismet由MIT Cynthia Breazeal博士在90年代末制作出来,它的听觉、视觉和表达系统让它能参与人类社交和显示出模拟的人类情感和行为。它的软件系统包括下面六个子系统[14]:

    l

    底层物理抽象系统

    l

    专注系统

    l

    高层感知系统

    l

    运动系统

    l

    行为系统

    l

    动力系统

    五、总结

    目前情感计算研究面临的挑战还很多,例如,情感信息的获取与建模问题,情感识别与理解问题,情感表达问题,以及自然和谐的人性化和智能化的人机交互的实现问题。显然,为解决上述问题,我们需要知道人是如何感知环境的,人会产生什么样的情感和意图,人如何作出恰当的反应。而人类的情感交流是个非常复杂的过程,不仅受时间、地点、环境、人物对象和经历的影响,而且有表情、语言、动作或身体的接触。情感计算研究的发展在很大程度上依赖于心理科学和认知科学对人的智能和情感研究取得新进展[15]。麻省理工一直是该领域的活跃团体,他们团队成员有各种专业背景的人组成如哲学,心理学,生理学,人类学等。他们提出以后的研究方向:开发新的机器学习算法和可穿戴传感器来重建情感认知模型,加入机器自我意识,自主选择交流方式和加入伦理道德的问题[16]。

    参考文献

    [3]

    Hudlicka, Eva: To feel or not to feel: The role of affect in

    human-computer interaction In: International Journal of

    Human-Computer Studies, Vol. 59 , Nr. 1-2 (2003), S. 1-32. p. 24.

    http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.180.6429&rep=rep1&type=pdf

    [6] Steidl, Stefan.

    [7] Ekman, Paul (1999). "Basic

    Emotions"

    [8] Facial Action Coding System (FACS) and the

    FACS Manual

    [10] Williams, Mark. “Better

    Face-Recognition Software – Technology Review.”

    [11] Vladimir I. Pavlovic,

    Rajeev Sharma, Thomas S. Huang, Visual Interpretation of Hand

    Gestures

    for Human-Computer Interaction; A Review, IEEE Transactions on

    Pattern Analysis

    and Machine Intelligence, 1997

    [13] Human–computer

    interaction

    [16] Affective Computing Research Group at the MIT

    Media Laboratory

    更多相关内容
  • 情感计算

    千次阅读 2020-09-28 05:53:15
    摘要:情感计算作为一个全世界范围内的学术热点,研究方向遍及心理学、生理学、神经科学、语言学、医学、社会学等学科。情感计算的研究使形式化的机器更加形象化,是实现自然人机交互的前提。本文结合...

    摘要:情感计算作为一个全世界范围内的学术热点,研究方向遍及心理学、生理学、神经科学、语言学、医学、社会学等学科。情感计算的研究使形式化的机器更加形象化,是实现自然人机交互的前提。本文结合近几年情感计算的国内外研究,基于新的层面对主要研究以及最新应用进行了归纳总结,并就情感计算进行深度探究,使更多研究人员了解情感计算最新研究方向。

     

    关键字:情感计算,情感识别,人机交互,情感复杂性

    一.引言

    大约半个世纪前,美国心理学家“认知心理学之父” 奈瑟尔(Neisser Ulrich)描述了人类思维的三个基本和相互联系的特征,这些特征在计算机程序中也明显存在着:“1.人类的思维总是随着成长和发展过程积累,并且能对该过程产生积极作用;2.人的思想开始于情绪和情感的永远不会完全消失的密切关系中;3.几乎所有的人类活动,包括思维,在同一时间的动机具有多样性而不是单一的”。Herbert A. Simon在表达了相似的观点。尽管情绪和情感是人类日常生活中的基本组成部分,但缺乏情感交互的技术是另人沮丧的,它在技术层面实现自然的人机交互仍是一个亟需解决的问题。目前,情感计算越来越受到研究者的重视。类似研究,有人工情感(artificial emotion,AE)、感性工学(kanseiengineering, KE)、情感神经学(affectiveneuroscience)等。明斯基在他的著作和论文中强调了情感方面,大量关于数据手册涉及情感神经科学、情感心理学等方面。IEEE Transactionon Affective Computing(TAC)跨学科、国际化期刊、Affective Computing and IntelligentInteraction (ACII) 学术会议等学术支持鼓励研究者们对识别、诠释、模拟人类情绪和相关情感方面的研究的突破和创新。

    二.情感及情感计算

    2.1  情感相关概念的界定

    情感( emotion) 一词源于希腊文“pathos”,最早用来表达人们对悲剧的感伤之情。达尔文(Darwin)认为,情感源于自然,存活于身体中,它是热烈的、非理性的冲动和直觉,遵循生物学的法则。理智则源于文明,存活于心理。《心理学大辞典》中定义“情感是人对客观事物是否满足自己的需要而产生的态度体验”。马文明斯基认为情感是思维的一部分。史蒂芬平克也持有这样的观点,即“情感是被当作非适应的包袱而被过早的注销的另一部分心智”。Damasio在他的神经生物学的研究结果的基础上将情感至少分为两类,即原发性情感和继发性情感。原发性情感这类情感被认为是与生俱来的,被理解为一岁儿童情感这种典型的情感类型,继发性情感被假设为从更高的认知过程中产生。而Russell则从两个方面构造情感:核心情感和心理建构,前者表示神经系统的状态,如昏昏欲睡;后者表行动,如面部表情、音调,以及行动之间的关联。由于情感的复杂性,研究情感的相关学者对情感的定义至今也未达成一致,记载的相关理论就有150多种。

    而“emotion”一词由前缀“e”和动词“move”结合而来,直观含义是从一个地方移动到另一个地方,后来逐渐被引申为扰动、活动,直到近代心理学确立之后,才最终被詹姆斯(William James)用来表述个人精神状态所发生的一系列变动过程。Picard曾在其书中专门对情感和情绪方面术语进行了区分,她认为相对情感而言,情绪表示一个比较长的情感状态。情感影响我们的态度、情绪和其他感觉、认知功能、行为以及心理。同时情感容易在多次情绪体验的基础上实现,当人们多次觉得完成一项任务很高兴,就会爱上这个任务。相比情绪而言情感更具有深刻性和稳定性。在自然语言处理中,Myriam D等人结合韦氏字典以及他们的相关研究得到的结论是,在语言中情感是无意识的,并且很难将其定义,从文本中可以检测到的是有意识的情感,是情绪表征。而情绪这一复杂心理学现象几乎不能从文本中全部检测出,能检测到的是情绪的构成因素。许多关于情感计算的研究并没有完全区分情绪和情感(包括本文引用的大部分论文),为与情感计算研究领域保持一致,本文除在此处对情感和情绪进行区别说明外,尽可能的统一使用情感一词。

    2.2 情感计算

    情感计算最早起源于美国MIT 媒体实验室皮卡德(Picard)了解Richard Cytowic的一本关于联觉的书《The Man Who Tasted Shapes》。Cytowic在书中提出感知一定程度上由大脑边缘系统处理,这个部分处理注意、记忆和情感。1995年情感计算的概念由Picard提出,并于1997年正式出版《Affective Computing(情感计算)》。在书中,她指出“情感计算就是针对人类的外在表现,能够进行测量和分析并能对情感施加影响的计算”,开辟了计算机科学的新领域,其思想是使计算机拥有情感,能够像人一样识别和表达情感,从而使人机交互更自然。

    当然,和众多的科学研究领域一样,并不是所有的研究者都同意Picard的想法。这些支持者Sengers、Gaver、Dourish和Kristina Hook借鉴现象学并且把情感看作人与人、人与机互动中的成分。情感互动方法认为应从一个对情感建设性的、人文决定性视角展开,而非从认知和生物学这一更传统的角度出发,这种方法将重点放在使人们获得可以反映情感的体验并以某种方式来修改他们的反应。

    三.情感计算的探究

    3.1  情感复杂性的探究

    (1)外在复杂性的探讨

    相比其他情感表征(手势、步伐、声音等)面部表情是最容易控制的 。面部表情是人脸上不同情绪的反应,实际上表达情绪时是脸部、眼睛或皮肤肌肉位置的变化。对情感最容易理解的是坦率的面部表情,然而不同国家的人面部表情各不相同。相对于其他国家,亚洲人民的面部表情强度比较低。因为在亚洲文化中,脸上表现出一些特殊情绪是不礼貌的。展现出消极情绪会影响社会的和谐。这也印证了早期埃克曼证明了文化的最大不同在于,如何在公共场合表达情绪。他偷偷拍摄了美国留学生和日本学生观看一次原始成年人礼的可怕画面的表情。如果穿白大褂的实验人员对他们进行集体访谈,日本学生会在看到令美国学生吓得往后退缩的场景时仍礼貌的面带微笑。当被试们单独呆在房间里时,日本留学生与美国学生面部表情都是同样恐惧的。对于外在复杂性,研究者采用的方法多为多模态结合,额外信息叠加、以及结合与时代同步的科技产品方法等来提高识别率。

    Beaudry, Olivia等人的设计实验澄清六种基本情感识别中眼睛(眉毛)和嘴巴区域的作用,并得出的结论是对于所有的情绪,面部表情识别过程不能被简化为简单的特征或整体处理。新加坡国立大学电气工程系的Gu W等人利用人类视觉皮层(HVC)和径向编码来提高性能,并提出混合面部表情识别框架。此面部表情的识别框架也可以应用到体态识别,并且还可以从图像提取出一些额外的信息如:用户的年龄、性别。 

    但是人与人之间的情感交互是复杂的,单一的感官得到的数据是模糊的、不确定的、不完备的。因此研究人员们应用多种方式识别情感状态,20世纪90年代最初的方式是融合视觉(面部表情)和音频(音频信号)的数据,多种方式整合提高识别精度,使情感计算相关研究更可靠、更有效。陈等人尝试身体姿势和面部表情识别混合模型,基于澳大利亚悉尼科技大学的人脸和身体姿势(FABO)双模数据库,实验中选择了284个视频,这些视频包含了基本表达(嫌恶、害怕、高兴、惊讶、悲伤、生气)和非基本的表达(焦虑、无聊、困惑、不确定)。实验框架主要分为五部分:面部特征提取和表示,身体姿态特征提取和表示,表达时间分割,时间归一化,表达分类。

    身体姿势交流同面部表情都属于非语言交流的方式。越来越多不同学科的研究已经表明,在传达情感方面,身体的表达像面部表情一样强大。40个用户通过三个不同的界面(接口)观看智能电视,远程控制器、姿势识别、语音识别系统和表情识别系统。情感计算提取人体手势的特征来识别用户的情绪。同时,虚拟现实(Virtual Reality,VR)技术的发展,人机交互中肢体的参与度也逐渐增大,身体姿势不仅控制我们和游戏之间的互动,还会影响我们自己的情绪。蓝眼睛(BLUE EYES)技术,“蓝”代表实现可靠的无线通信的蓝牙,“眼睛”是由于眼睛运动是我们获得更多有趣和重要的信息。蓝眼睛技术主要用于:视觉注意监测;生理状态监测(脉搏率,血氧);操作者的位置检测(站立,卧,坐)。在这项技术中,检测到人的表情,捕获图像,并且提取显示眼睛的部分。

    (2)内在复杂性的探讨

    文本句子中每一个形容词、动词、或者仅仅是一个字都可以表达情感状态。笔记分析技术不仅可以通过书写者的情感输出分析笔记特征如:基线、倾斜、笔压、大小、边缘区。它还可以揭示书写者的健康问题、道德问题、过去的经历、精神问题以及隐藏的才能。Sofianita Mutalib等人发现笔记分析在某种程度上帮助我们理解书写者本人的行为、动机、欲望、恐惧、情感投入等多方面。史伟等通过构建情感模糊本体,计算文本影响力等,对微博公众情感进行一系列分析,发现公众对于突发事件的情感表达与政府对于事件处理方式和手段有密切关系。使用任何文字表达情感是受文化影响的,文化在情感文本表达中的作用这一问题需要自然语言研究者们创造更强大的检测算法。

    戴维森(R J Davidson )在2002年领导的团队,情感体验并不是简单地发生在我们的头脑中,我们的整个身体都在感知着它们。例如,我们的血液中激素变化,传达到肌肉的神经信号紧张或放松,血液流到身体的不同部位,改变了身体的姿势、动作和面部表情。我们身体的反应也会反馈到我们的大脑中,创造了可以反过来调节我们思维的经验,这也反馈到我们的身体上。随着科技的发展,许多数据可以从互联网和智能手机获得。一个典型的智能手机包含多个传感器等内部运动(加速度计)、环境光、陀螺、手势、磁强计、温度和湿度和气压计。常见于智能手机的通信接口,Wi-Fi、GPS、近场通信(NFC)、蓝牙和红外(IR)的LED。许多额外的传感器可用于生理测量。Jorge Alvarez-Lozano 等研究人员通过捕获包括输入和输出呼叫频率、持续时间和联系人的详细信息等智能手机的活动,分析患者的行为变化。测量上网活动包括:搜索查询、浏览网页、网站类型、广告选择和电子商务史等。用户创建的数据,如电子邮件,短信(短信),社会媒体,或博客的内容可以分析。此外,元数据(信息的信息)是由一个智能手机或互联网,其中包括帐户号码,登录用户名,密码,浏览器类型,网络地址,网页访问,日期,时间,电子邮件发送者和接收者,饼干,设备的指纹。Kaveh Bakhtiyari等人认为在处理面部表情、人的声音或人的姿势时,有些权衡识别精度和实时性能的方法,像自然语言处理(NLP)和脑电图信号(EEG)这些方法在实际应用中缺乏效率和可用性。因此提出了使用方便和低成本的输入设备,包括键盘、鼠标(触摸板、单触摸)和触屏显示器。该系统通过人工神经网络(ANN)和支持向量机(SVM)技术开发和训练监督模式。结果表明,与现有方法相比,该方法通过svm增长6%的准确度(93.20%)。对于情感识别、用户建模和情感智能都起到了突出贡献。

    3.2 情感计算的最新应用探究

    近几年研究者们尝试了各种各样的方法和技术来识别用户的情感,一些主要的方法和技术有:面部表情识别、姿态识别、自然语言处理、人体生理信号识别、多模情感识别、语音识别。人机情感交互则包括人脸表情交互、语音情感交互、肢体行为情感交互、文本信息情感交互、情感仿生代理、多模情感交互。情感仿生代理使计算机增强表现力和亲和力,情感智能系统可以根据人的情感进行回馈,并且使人和计算机的交互更加自然。

    全世界学多实验室都在积极的对情感计算相关技术进行研究,本部分总结近三年国内外情感计算主要的应用研究。2014年MIT实验室的AutoEmotivethe通过安置在机器比如汽车上的硬件设备(如相机等)结合基于程序语言的语音识别应用、可穿戴设备(对当前情绪进行实时调节),尤其是面部识别算法,获取一系列情绪指标,弥补获取生理信号类的传感器的不足,探索情感感知与机器连接的潜力。Affectiva公司的Affectiva使用计算机视觉和深度学习技术分析面部(微)表情或网络上视觉内容中非语言的线索,基于积累的庞大数据存储库,学习识别更复杂的系统,将情感人工智能引入到新的科技领域,尤其是机器人、医疗、教育和娱乐,并展望将此系统用于通过检测癫痫病患者的情感信号来做好发病前的预测以进行防护准备等。2015年阅面科技推出了情感认知引擎:ReadFace。由云(利用数学模型和大数据来理解情感)和端(SDK)共同组成,嵌入任何具有摄像头的设备来感知并识别表情,输出人类基本的表情运动单元,情感颗粒和人的认知状态,广泛应用于互动游戏智能机器人(或智能硬件)、视频广告效果分析、智能汽车、人工情感陪伴等。国内大学中哈尔滨工业大学机器人技术与系统国家重点实验室实现语音情感交互系统,提出了智能情感机器人进行情感交互的框架,设计实现了智能服务机器人的情感交互系统。北京航空航天大学基于特征参数的语音情感识别并能有效识别语音情感。中国科学技术大学基于特权信息的情感识别,提出了融合用户脑电信号和视频内容的情感视频标注方法,以某一模态特征为特权信息的情感识别和视频情感标注方法。清华信息科学与技术国家实验室,中国科学院心理研究所行为科学院重点实验室基于生理大数据的情绪识别研究进展,针对使用DEAP数据库(用音乐视频诱发情绪并采集脑电及外周生理信号的公开数据库)进行情绪识别的16篇文章做了梳理;对特征提取、数据标准化、降维、情绪分类、交叉检验等方法做了详细的解释和比较。

    四.情感计算的深度探究

    现在已实现的情感计算大部分原型情感的识别来源单一。数据库本身存在短板,如训练分类的样本数少,体态识别大多依赖于一组有限的肢体表达(跳舞、手势、步态等),只关注内部效度而缺少外部效度的认可效。因此识别方面,未来研究应在情感分类方面继续努力,创建新的数据库,等特别是婴幼儿及儿童数据库的建立。

    神经科学方面,人类大脑情感过程的神经解剖学基础极其复杂并且远未被理解,因此该领域还不能为开发情感计算模型提供充足的理论基础。

    人机交互或人与人交互过程中,人的情感变化是变速的。虽然皮卡德(Picard)在《情感计算》一书中分别用两个比喻将情感复合分成两类:微波炉加热食物时开关间断循环与冷热水混合。两者通过不同方式的复合使物体达到“温”的状态,前者类似于“爱恨交加”情感对的情感状态,后者类似于Russell等人的环形情感模型中的愉快与低强度结合为轻松这种新状态。但基于不同情境下的情感复合远不止这两类。以动态的数字平台将这种做成模型很难实现和验证,因为情感的输入、输出应该在不同的情境下产生和测试。

    目前国外已经有一部分研究者开始关注深度情感计算方面的研究,如Ayush Sharma等人利用语言数据联盟(Linguistic DataConsortium,LDC)中的情绪韵律的语音和文本,基于交叉验证和引导的韵律特征提取与分类的深层情感识别。随着后续情感方面的深度研究,多模型认知和生理指标相结合、动态完备数据库的建立以及高科技智能产品的加入等成为情感计算相关研究的一个趋势,从而更好地实现对用户行为进行预测、反馈和调制,从而实现更自然的人机交互。

     

    参考文献

    展开全文
  • 情感计算 (2007年)

    2021-05-29 07:31:46
    情感计算是关于情感、情感产生以及影响情感方面的计算,其目的是赋予计算机识别、理解、表达和生成各种情感特征的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。简要介绍了有关情感计算的发展、应用、研究...
  • 通过对情感与理性的相容性...提出了情感计算在工程领域研究的本源性、相关性和可操作性策略,指出情感计算的工程实现需要对研究的切入点、情感发生机制、情感效应机制、平台选择等关键环节予以关注,并给出了相关建议。
  • #资源达人分享计划#
  • 基于社交媒体大数据的新闻事件情感计算
  • 情感计算介绍

    2022-05-13 16:55:16
    本文是本人对情感计算论文 A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances 进行研读后进行汇报的汇报文档,以及PPT的截图,供各位参考 2 这里是我今天汇报的目录...

    本文是本人对情感计算论文

    A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

    进行研读后进行汇报的汇报文档,以及PPT的截图,供各位参考

    2

    这里是我今天汇报的目录,主要分为以下几块,简介,背景,情感模型,数据库,单形态情感识别,多形态情感分析,最后还有一个总结。

     

    3

    进入正题,首先我们要了解情感计算是个什么,

    情感计算最早起源于美国MIT 媒体实验室皮卡德(Picard),皮卡德与1995年提出情感计算的概念,并于1997年正式出版《Affective Computing(情感计算)》。在书中,她指出“情感计算就是针对人类的外在表现,能够进行测量和分析并能对情感施加影响的计算”,其思想是使计算机拥有情感,能够像人一样识别和表达情感,从而使人机交互更自然。

    回答了什么是情感计算这个问题后,我们来研究下情感计算的研究对象。

     

    4

    情感计算的研究对象有physical information物理信息和physiological signals生理信号,通过对这两者的研究搭建情感模型Discrete emotion model离散情感模型和

    Dimensional emotion model维度情感模型,利用情感模型进行情感识别。

    和其他人工智能方向一样,我们需要有数据库作为训练集进行训练。

     

    5

    主要使用到的数据库有,文字,语音,视觉,生理信号以及多形态综合,主要的研究方向也针对研究对象的不同划分为针对单个形态进行识别的Unimodal affect recognition即单峰情感和针对多模态进行分析的Multimodal affective analysis多模态情感识别。

     

    6

    目前根据研究对象的不同,又可以将情感识别划分为这三种,分别是基于物理外在特征的情感识别,基于生理信号的情感识别,以及物理-生理融合的情感识别。

    我们可以看到右边这个蒙拉丽莎的微笑,图中有很多点连成的线,这里就是FER即facial expression recognition中使用到的边界点,将人脸按照边界点进行划分获取人脸的几何模型,然后基于几何模型进行训练和情感分析。

    下面这张图就是基于生理信号的情感识别,首先将很多传感器连在人身上获取人体生理信号,然后通过给被测试者观看不同的图片或者视频引导被测试者产生对应的情绪以进行生理信号的获取。

    而物理-生理融合就是将这二者结合起来,即对外在物理特征进行分析,也对生理信号进行分析获得结果。

     

    7.

    接下来我们介绍两个基本的情感模型,这里说的模型不是情感计算中用到的那种分类,训练的模型,而是对情感本身进行建模。首先是离散情感模型,离散情感模型主要有两种,一个是易克曼的六种基本情感,一个是普拉奇克的情感轮模型。

    Ekman的六个基本情绪

    anger,disgust,fear,happy,sad,suprise

    遵循规则:

    1)基本情绪都来源于人类天性

    2)人类在同一的情况下会产生同样的情绪

    3)人们在相同的语义下表达相同的基本情感

    4)所有人表达基本情绪的方式相同

    局限性:不同文化背景的人对不同情绪有不同的解读,不同的基本情绪会混合起来组成复杂的情绪。

    Plutchik的情感轮模型

    情感轮模型包含八种基本情绪,以及情绪之间的相互关联。情感轮模型将较强的情绪占据中心,而较弱的情绪占据极端,并且向外分化成更细粒度的情感,还将情感划分为三极(积极地,消极的,中性的)。为了便于描述细粒度的情感,使用了矛盾情感处理,增强了分类的性能。

     

    8.

    维度情感模型为了克服离散情感模型的挑战而建立的概念,目前最被认可的模型是PAD

    P 代表愉悦度,表示个体情感状态的正负特性;

    A 代表激活度,表示个体的神经生理激活水平

    D 代表优势度,表示个体对情景和他人的影响或被影响状态

    由于使用P和A两个维度已经可以表示大部分的情感了,所以Russell提出了基于Valence-Arousal的环状模式,是一个二维模型,x轴为V代号愉悦度,纵坐标为A代表激活度,总共有四个象限可以代表不同的情感状态。

    通过维度情感模型,我们可以对情感的分析更加精细。

     

    9.

    然后是数据库,情感计算的数据库按照形态划分为文字数据库,语音数据库,视觉数据库,生理信号数据库和多形态数据库。其中由于当前人脸识别的发展以及面部表情包含较多的情感信息,视觉数据库又划分为面部表情数据库和肢体动作数据库。

    这些数据库给出了我们能获取到的所有情感的数据。

    文字数据库

    Multi-domain sentiment (MDS)最早的文字情感数据库

    包含超过十万条来自亚马逊的产品评论,划分为积极和消极两类以及五类情感类别(强积极,弱积极,中性,弱消极,强消极)。

    语音数据库

    划分为非自发性的和自发性的

    早期使用非自发性的数据库,主要来源于专业演员的表演,代表有Berlin Database of Emotional Speech (Emo-DB)

    后来为了减少表演导致的夸大的效果有了自发性的数据,主要有Belfast Induced Natural Emotion (Belfast)。

    面部表情数据库

    典型的有JAFFE,从213张图片含有7种面部表情

    肢体动作情感数据库包含来自电影或者真实生活的肢体动作

    EmoTV,FAce and BOdy database (FABO)等

    生理数据库,使用生理信号更加有说服力主要使用的生理信号又EEG,ECG脑电图,心电图等。

    多模式数据库

    划分为两种,多重物理形态数据库以及物理和生理数据库。分别是将多个物理形态融合的数据库和将物理和生理信号共同包含在内的数据库。

     

    10.

    Unimodal affect recognition单峰情感识别,就是对单个形态进行情感分析,按照形态的不同,大类上分为物理形态和生理形态。

     

    11.

    其中物理形态也划分为,基于文字的,基于语音的和基于视觉的,每个又由于使用的模型不同分为基于机器学习的和基于深度学习的。这里由于使用的方法过多,我不一一赘述,关于这两种方法的特点在最后总结我会统一介绍。

     

    12.

    生理形态目前主要用的EEG和ECG也是按照处理方法不同划分为ML-based和DL-based.

     

    13.

    Multimodal affective analysis

    多模态情感识别主要是将多个形态进行融合之后进行情感分析,主要也是按照形态的不同划分为,多物理模态融合,多生理模态融合和物理-生理模态融合。

    融合的策略有

    Feature-level fusion

    将从多模态输入中提取的特征组合成一个一般的特征向量,然后将其发送到分类器中

    Decision-level fusion

    将每个模态独立生成的所有决策向量合并进行判断

    Model-level fusion

    发现从不同模式中提取的特征之间的相关特性,设计出性能更好的融合模型

    Hybrid fusion将feature-level fusion and decision-level fusion结合起来。

     

    14.

     

    总结分为以下四点,首先是不同信号对单峰情感识别的影响
    视觉模态最为常用,因为便于获取并且基于视觉的情感识别比基于音频的情感识别更有效,因为音频信号容易受到噪声的影响

    又有研究表明,基于文字的情感分析的准确率最高

    而且虽然可穿戴传感器采集的生理信号比物理信号更难获取,但由于其客观可靠的结果,许多基于eeg或基于ecg的情绪识别方法被研究和提出。

    接着是第二点模态组合和融合策略对多模态情感分析的影响

    多模态情感分析的两种基本融合策略是特征级融合和决策级融合

    特征级融合明显比决策级融合更常见。

    基于特征级融合的情感分类器的性能受到来自不同模式特征的时间尺度和度量级别的显著影响。

    另一方面,在决策级融合中,将来自各个模态的输入独立建模,最后将这些单模态影响识别的结果进行合并。

    与特征级融合相比,决策级融合更为容易,因为它只需要进行最后的决策融合但忽略了不同模式特征之间的相关性。

    Hybrid-level融合将特征级和决策级结合起来,拥有两者的共同优点。

    模型级融合使用HMM隐马尔可夫模型和贝叶斯网络建立不同模态特征之间的联系和一个宽松的融合模式,一般用于特殊的任务。

    第三点是情感计算中基于机器学习和基于深度学习的模型的影响

    ML包含信号预处理,手动特征提取和定制的分类器,泛用性不强。

    SVM目前效果最好。

    DL目前很火,由于其特征学习的功能。对于静态信息,CNN可以很好地提取特征,对于序列信号,RNN可以提取具有时间特性的特征,CNN-LSTM用于提取时间-空间特征,对抗学习用于提高模型的鲁棒性,此外注意力机制和自编码算法被嵌入到深度学习方法中用以提升全局性能。

    但是ML在生理情感识别上比DL要强。

    再讲一下一些潜在因素对情感计算的影响

    目前数据库上的限制是情感计算发展失衡的原因之一,视觉-生理情感识别方法目前就较少,因为对应的数据库数量的限制。

    最后是情感计算的日常应用。

    基于文字的情感计算用于推荐系统

    基于视频的情感分析用于教学,决策辅助等

    由于音频/语音情绪信号的可靠性和稳定性,以及可穿戴设备生理信号的可达性,音频和生理信号常被用于检测临床抑郁和应激。

    展开全文
  • 人工智能之情感计算.pdf
  • 随着机器人进入日常生活中的各个方面,人们对其提出了更高的要求,希望它们具有感知人类情感、意图的能力,这类机器人称为情感机器人。 情感机器人的出现将改变传统的人机交互模式,实现人与机器人的情感交互。用...
  • 3)根据这8种依存关系中可能的词性组合设计了6种情感计算规则,并提出了基于二叉树的情感计算策略,设计了情感计算二叉树的构建算法和基于情感计算二叉树的情感计算算法;4)在Web金融信息上进行了实验测试,实验...
  • 基于BGRU-FUS-NN神经网络的姿态情感计算方法研究.pdf
  • 情感计算数据(论文使用)
  • 情感计算-音频情感识别

    千次阅读 2022-03-10 12:41:08
    情感计算-音频情感识别背景、数据库、方法概述

    音频情感识别意义与背景

    1. 这里的音频是指人类能够听到的声音,音频中包含丰富情感;
    2. 应用在电话服务、医学研究(抑郁、压力–发现情绪波动)、谎言分析(检测声音相关参数,例如紧张程度)、机器人中(情感理解+ 情感生成);
    3. 现在研究更多侧重于人的情感识别;
    4. 音频情感识别优点: 采集容易,不用可穿戴设备,更有效保护隐私。

    研究现状与进展

    1. 80-90年代,根据韵律(how to say, 情感激动程度,能量等参数)控制人机对话的过程;

    2. 90年代后期模式识别(高斯混合、SVM、HMM等)

    3. 目前, DL(受限于数据规模较小)

    4. 国外研究团队

      英国贝尔法斯特女王大学的情感语音组
      收集并创建了第一个大规模的高自然度情感数据库,Roddy Cowie和 Ellen Douglas-Cowie 教授,重点研究心理学和语音分析。

      美国MIT媒体实验室情感计算研究所
      Rosalind Picard 教授90年代初开始进行情感语音研究
      (http://affect.media.mit.edu)

      美国南加州大学语音情感组
      Shri Narnyana教授,情感语音的声学分析、合成和识别,以及有关笑声合成研究(http://sail.usc.edu/emotion/index.php)

      爱尔兰都柏林大学
      Nick Campbell教授,从事自然情感语音合成

      以色列Nemesysco公司
      实际应用以分层声音分析技术(LVA)在安全、商业和个人娱乐领域为客户提供解决方案。创业公司 Beyond Verbal以通过识别音域变化,从而分析出愤怒、焦虑、幸福或满足等情绪,其中包括11个类别, 400个复杂情绪的变量。

      英国的初创企业EI Technologies
      可以分析人声的音调,识别高兴、悲伤、害怕、愤怒及无感情等5种用户的基本情绪。识别的准确率约为70-80%左右,这个数字要高于人类60%的平均水平,而受过训练的心理学家的判断准确率约为70%。

      日本SGI研究院能感知人类情感:KOTOHANA
      (http://www/.sgi/co/jp/solutions/bbu/ST/index/html)

    5. 国内研究团队
      中科院自动化所模式识别国家重点实验室
      东南大学无线电工程系
      清华大学计算机科学与技术系
      台湾大同大学资讯工程学系
      中国公司Emotibot竹间智能科技、清帆科技EduBrain(专注教育领域技术创新)
      其他:中国社科院语言研究所,西北工业大学、中国人民大学、哈工大,浙大,华南理工、中科大,南京师范大学、江苏大学等

    音频情感数据库

    • 语音情感数据库建立的四个原则

    • 真实性,尽量不要诱发,如果采用诱发的方式,也要尽可能真实;

    • 交互性,在人与人交户中产生;

    • 连续性,动态建模,要多种情感转移;

    • 丰富性,尽可能包含多包含多媒体信息。

    1. 获取语音情感数据库的方法
    • 演员表演(最差情况):刻意模仿的情感显得比较夸大;
    • 引导情感(较差情况):设计情景,比如讲个高兴的事,看个恐怖电影;
    • 取自媒体(较好情况):从广播或者影视节目中截取片段;
    • 现实生活(理想情况):比较难获得,有些数据库基于电影电视剧片段进行类似。
    1. 音频情感识别语料库

      Belfast 英语情绪语料库
      引导情感:由50位说话人根据引导文本,表达愤怒、恐惧、高兴、悲伤和中性五种情感
      自然语料:从电视访谈节目中选取剪辑的125位说话人的多种情感

      柏林(EMO-DB)情感数据库
      引导情感:日常交流中常用的十个德语语句,共800语句,含七种情感:中性、愤怒、恐惧、高兴、悲伤、厌恶和惊奇

      FAU AIBO儿童德语情感语音库
      自然情感:录制51儿童(10-13岁,21男30女)与索尼公司生产的电子宠物AIBO游戏过程中的自然语音,保留情感信息明显的语料,共9.2小时,包括48401单词

      汉语普通话语音数据库
      演员表演:中科院自动化所研制,由演员模仿情感进行录制,共9600条语音,包括6中情感:高兴、生气、惊奇、控制、悲伤、平静
      演员表演:东南大学研制,表演性情感语音,由10名男性话者对4个语句分别用喜、怒、惊、悲四种情感录制480句

      CREST情绪语料库
      自然情感:日本的国际电气通信基础研究所(ATR)录制,包含完全自然状态下的1000小时情感语音,60%是日语,汉语和英语各占20%

      丹麦情感语音库
      演员表演:含5种情感:高兴、生气、惊奇、悲伤、平静。共260条

      CHEAVD 数据库
      取自媒体:由中科院自动化所从32部中文电影、79集电视剧、20期综艺节目中剪辑出2629个音视频情感片段,共计时长141分钟,共包括238位发音人。

      Semaine数据库
      引导情感:面向自然人机交互和人工智能研究的数据库,20 个用户(22 岁-60 岁,8 男12 女)被要求与性格迥异的4个机器角色进行交谈.这4 个角色分别是:1) 温和而智慧的Prudence;2) 快乐而外向的Poppy;3) 怒气冲冲的Spike 和4) 悲伤而抑郁的Obadiah

    语音情感识别

    1. 语音特征,人类的发生器官由肺、气管、声带、鼻、口和唇等组成。
    2. 声带长短和张力决定声音的基频
    3. 声音强度取决于气流的大小和强度;
    4. 声音经过形状变化的口腔、鼻腔等共振,最后经唇部辐射传出;
    5. 声音的共振过程形成了共振峰,各共振峰的频率由共振腔的大小和形状决定。
    情感语音特征
    传统特征
    非线性特征
    韵律特征
    音质特征
    基于谱特征
    非线性属性特征
    非线性几何特征
    特征融合
    特征集合
    • 韵律特征: 最主要的语音特征,如语速、音量和音调,振幅、基音频率,持续时间等;

    • 语速:语音可以反应出说话者的情绪状态:当人的情绪比较激动的时候,比如处于愤怒状态,语言的表达速度明显加快,相反在人的情绪比较低落时,比如处于悲伤状态,语言的表达速度则明显较慢。

    • 时长:语句的发音持续时间指每一情感语句从开始到结束的持续时间,与感知的语速相对应,情感语音的时长构造主要着眼于不同情感语音发话时间构造的差别,时长分析常采用音节、句子为单元来测量。

    • 停顿:停顿也反映了情感信息,停顿指的是前一个音节与下一个音节之间无声的时间

      分析
      语速: 语速的变化是表达情感的一个重要手段。它反映一个人在不同环境,不同情感下说话时的心情急切度。人在焦虑和愤怒状态下,说话速度很快;惊奇和喜悦次之;而悲伤情感下说话速度最慢。
      停顿和时长: 不管是男性还是女性,不同情感下,其停顿和时长对于基本类型的情感变化有一定的一致性,对于微妙复杂的情感两者的变化有一定的差异。
      性别的不同,也会引起一些情感之间特征的变化差异性。比如男性说话人在放松和温顺情感下的时长变化略不同于女性说话人,停顿分析中惊奇与喜悦情感在不同性别中的变化稍有不同。

    • 音强

      能量表现为语音的音量的高低,而音量的高低又是通过声音的响度大小来反映。
      在这里插入图片描述 不管是男性还是女性说话人,其中中性、放松、温顺情感的能量基本在同一水平,总体能量较低,其次是轻蔑和悲伤能量相近,惊奇、喜悦和恐惧能量处于一个水平,能量最强的属于愤怒情感。

    1. 音质
    • 基频

    在发出浊音时,声门波形成的周期性脉冲,即声带的振动周期被称作是浊音的基音周期,基音频率即为其倒数,简称基频,通常用F0表示。基频值取决于声带大小、厚薄、松紧程度以及声门上下之间的气压差效应等。

    基音频率体现出以下规律:处在激动情绪下如愤怒的人所表达出的语音的基频较高,变化范围较大;处于低落情绪如悲伤的人所表达的语音的基频较低,变化范围较小,处于平静情绪下的人所表达出的语音的基频则相对稳定。

    • 共振峰

    共振峰是反映声道特性的一个重要参数。不同情感发音的共振峰的位置不同。分析时首先用LPC法求出声道的功率谱包络,在用峰值检出法算出个共振峰的频率。

    • 基频抖动
      焦虑语音会出现“F0抖动”现象。Jitter是基频值的变化程度。
      F0 Jitter是由生理器官的作用才产生,比如情感的变化会导致声带肌肉紧张度,气流的体积速度,声道表面的坚硬或柔软等发生变化从而产生基频抖动现象
    1. 频谱
    • 线性预测倒谱系数(LPCC)
      LPCC是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数
      不同情感的发音会使声道有不同的变化,进而引起声道传输函数倒谱的变化

    • Mel频域倒谱系数(MFCC)
      考虑了人耳对不同频带的分辨率不同,充分融合人耳的听觉特性。

    1. 系统框架
    two
    one
    数字语音信号
    语音情感特征
    识别结果
    情感识别
    语料库
    语音信号采集
    情感空间描述模型
    情感特征提取
    情感
    1. 语音情感识别本质上属于模式识别

    局部特征 & 全局特征
    多类特征融合(还可以融合副语言,如笑声、叹息)
    在这里插入图片描述

    • 神经网络

    • 高斯混合模型(GMM)
      混合高斯模型是只有一个状态的模型,在这个状态里具有多个高斯分布函数。
      P k =    ∑ i    =    1 N w i f i ( Y ) P_{k}=\; \sum_{i\; =\; 1}^{N}{w_{i}f_{i}\left( Y \right)} Pk=i=1Nwifi(Y)

      其中 f i f_i fi是一个高斯分布函数,不同高斯分布之间的加权系数 w i w_i wi满足 ∑ i    = 1 N w i    =    1 \sum_{i\; =1}^{N}{w_{i}\; =\; 1} i=1Nwi=1
      每一个情感类型训练一个高斯混合函数,高斯函数的输入参数为语音的情感特征参数。

    • HMM
      HMM是一种基于转移概率观测概率的随机模型,它既能用短时模型(状态)解决声学特征相对稳定段的描述,又能用状态转移规律刻画稳定段之间的时变过程

    • 支持向量机
      基于结构风险最小化和统计学习理论提出了一种名为支持向量机(SVM)的机器学习方法,该方法在诸如函数拟合、非线性模式识别。小样本等领域都极具优势。

    • 混合模型
      混合高斯模型-支持向量机:该方法不仅拥有混合高斯模型统计能力强的优点,而且同时有支持向量机分类能力强的优点

      隐马尔科夫模型-人工神经网络模型:首先用隐马尔科夫模型对情感特征向量进行整合,再用人工神经网络进行最终分类识别

      采用投票机制将支持向量机、K最近邻算法、人工神经网络种分类器进行融合。

    • 深度神经网络
      DNN:原始语音信号分段输入到网络中,提取局部的情感信息,然后经过处理得到全局情感特征,送到分类器中,得到预测的概率类别。输入一段语音情感信号,可以得到每一段对每个情感类别的预测概率值

      CNN:卷积神经网络广泛应用到语音情感识别中,包括局部不变特征学习模块、情感区分特征分析模块和支持向量机模块三个部分。这种模型结构能够抽取出具有区分性的情感特征

      RNN:能够有效融合上下文信息进行音频情感建模。

      CNN- RNN:联合了CNN模型的音频信息表征能力和RNN模型的情感时序建模能力。

      胶囊网络:利用胶囊网络,考虑音频特征在声谱图中的空间关系,为获取语音全局特征提供了一种有效的汇聚方法。

      基于端到端的音频识别:直接将语谱图或时域波形点作为输入,具有特征自学习能力的优势
      其性能依赖于数据规模。

      注意力机制:有效挖掘不同音频片段对当前情感状态的贡献度。

      多任务学习:不同维度情感状态存在依存关系,利用多任务学习机制实现维度情感模型的协同优化。

      融合功能副语言信息检测的识别模型:对副语言段和语音段进行区分性建模,有效利用副语言先验信息。

      融合说话人信息和文本信息的识别模型:对音频信息、识别的文本信息、说话人信息进行时空融合。

      融合区分性训练准则的识别模型:利用三元损失函数解决不同情感状态边界模糊的问题

    展望

    1. 语料
    • 语料很重要,但目前规模较小;
    • 采集整理工作难;
    • 关注跨数据库展现(如考虑文化、语种差异)。
    1. 语音情感特征
    • 找新特征,获取更高识别率;
    • 多特征融合(不能通过向量特征拼接形成高维度的形式);
    • 在高维情况下分类器的泛化性能反而更弱,要针对性进行特征降维和选择。
    1. 语义理解
    • 利用语义的语音情感识别,如文字、声音线索、视频线索;
    • 语音语义识别同情感识别相结合。

    参考:国科大-情感计算课件

    展开全文
  • 针对目前智能体间追逐过程中对智能体的情感因素考虑不充分的问题,提出一种新的解决方案:首先通过情感建模将个性、情感融入以两个智能体为基元的追逐行为中,使其运动更有多样性;其次通过博弈论引导决策的选取;...
  • 情感计算综述

    千次阅读 2019-04-06 21:58:39
    来源:人机与认知实验室自然的齐一性指未检验过的物体将在某些相关的方面与我们已经检验过的同类物体相似。情感是人类智能的重要组成部分,是穿越理性的一把利器,然而,情感计算这一...
  • 基于计算机视觉的情感计算.pdf
  • 本文讨论了一种基于情感支配维度模型的多层次情感计算模糊模型。 该模型可以在识别时同时检测任何其他可能的情绪。 来自不同国家、不同文化背景的一百三十名志愿者被选中记录他们的情绪状态。 这些志愿者是从不同的...
  • 云计算-基于面部表情的情感计算建模系统.pdf
  • 云计算-汉藏双语情感词典构建及情感计算研究.pdf
  • CCCF论文信 息 技 术 与 医 疗 领 域 的跨界融合,使得医疗数据 快速增长,呈多样化和复杂 化。如何利用医疗大数据, 使其在医疗信息化进程中发 挥应有的作用,体现出数据 的价值,促进医疗行业的发 ...
  • 情感计算 - 情感倾向性分析

    千次阅读 2022-04-15 12:36:38
    1. 概念: 情感倾向性分析:是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程;识别用户对事物或人或一句话的看法、态度,即判别用户对评价对象所持有的情感倾向。 2. 文本情感分类: 情感分析粒度...
  • 情感计算 R.W. Picard 经典论文
  • 云计算-基于情感计算的商品评价分析系统设计与实现.pdf
  • 云计算-基于词典的文本情感计算系统的设计与实现.pdf
  • 情感计算在ugc应用进展

    千次阅读 2021-05-08 00:24:36
    观点、情感以及与之相关的许多概念,如评价、态度、感情和心情,与我们主观的感觉和感受密切相关。我们对于现实世界的感知和感受,包括我们做出的任何选择,也很大程度上受到他人对于当前世界的洞察和观...
  • 人类的认知、行为等几乎都要受到情感的驱动,并影响着人际互动以及群体活动。在人与人的交往中, 情感的交流还常被用来完成人的意图的传递。因此,在智能人机交互的研究中,拥有对情感的识别、分析、...
  • 情感计算数据

    2017-05-05 13:15:56
  • 云计算-基于情感计算的商品欺诈监测系统的设计与实现.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 52,255
精华内容 20,902
关键字:

情感计算