精华内容
下载资源
问答
  • helloword,pyrcharm,语音情感识别helloword,pyrcharm,语音情感识别helloword,pyrcharm,语音情感识别helloword,pyrcharm,语音情感识别helloword,pyrcharm,语音情感识别
  • 语音情感识别

    2015-04-15 09:15:55
    语音情感识别的描述性文章,很有用,希望对大家有帮助
  • 语音情感识别-源码

    2021-02-25 05:58:55
    语音情感识别
  • 卷积递归神经网络的TensorFlow在IEMOCAP数据库上的语音情感识别(SER)实现。为了解决帧情感标签不确定性的问题,我们执行了三种合并策略(最大合并,均值合并和基于注意力的合并)加权池)以生成SER的发声级功能。 ...
  • 语音情感识别综述

    2020-10-12 19:46:33
    文献阅读语音情感识别研究进展综述(2013)摘要介绍语音情感描述模型情感语音数据库语音情感特征提取语音情感识别算法总结 语音情感识别研究进展综述(2013) 论文:语音情感识别研究进展综述 作者:韩文静 1, ...

    语音情感识别研究进展综述(2013)

    论文:语音情感识别研究进展综述
    作者:韩文静 1, 李海峰 1, 阮华斌 2, 马 琳 1

    摘要

    对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从 5 个角度逐步展开进行归纳总结,即情感描述模型,具有代表性的情感语音库,语音情感特征提取,语音情感识 别算法研究和语音情感识别技术应用

    介绍

    1. 自动语音情感识别则是计算机对人类情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系示;计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值。
    2. 一般说来,语音情感识别系统主要由 3 部分组成:语音信号采集、情感特征提取和情感识别,系统框图如图1 所示.语音信号采集模块通过语音传感器(例如,麦克风等语音录制设备)获得语音信号,并传递到下一个情感特征提取模块对语音信号中与话者情感关联紧密的声学参数进行提取,最后送入情感识别模块完成情感的判断.需要特别指出的是,一个完整的语音情感识别系统除了要完善上述 3 部分以外,还离不开两项前期工作的支持:(1) 情感空间的描述;(2) 情感语料库的建立.情感空间的描述有多重标准,例如离散情感标签、激励-评价-控制空间和情感轮等,不同的标准决定了不同的情感识别方式,会对情感语料的收集标注、识别算法的选择都产生影响.情感语料库更是语音情感识别研究的基础,负责向识别系统提供训练和测试用语料数据.国内外相关研究根据研究者的出发点不同会各有侧重,但归根结底都可以涵盖到上述 5 个关键模块之中。下面从情感描述模型、情感语音
      数据库、语音情感相关声学特征提取、语音情感识别算法、语音情感识别技术应用这 5 个角度对当前的语音情感识别技术主流方法和前沿进展进行系统的总结和分析。

    在这里插入图片描述

    语音情感描述模型

    1. 离散形式情感描述模型
      将情感描述为离散的、形容词标签的形式,如高兴、愤怒等。丰富的语言标签描述了大量的情感状态,而用于研究的情感状态需要更具普遍性,因此人们定义了基本情感类别便于研究。其中,美国心理学家 Ekman 提出的 6 大基本情感(又称为 big six)在当今情感相关研究领域的使用较为广泛。
      在这里插入图片描述

    2. 维度形式情感描述模型(连续情感描述模型)
      将情感状态描述为多维情感空间中的点.这里的情感空间实际上是一个笛卡尔空间,空间的每一维
      对应着情感的一个心理学属性(例如,表示情感激烈程度的激活度属性以及表明情感正负面程度的效价属性).理论上,该空间的情感描述能力能够涵盖所有的情感状态.换句话说,任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱程度。.一些既简单又能被广泛使用的维度情感描述模型有二维的激
      活度-效价空间理论(arousal-valence space)、三维的激励-评 估 - 控制空间理论 (valence-activation-dominance space)[19]和情感轮理论(emotion wheel)[18]等
      在这里插入图片描述

    情感语音数据库

    用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这 3 种类型

    语音情感特征提取

    1. 韵律学特征:
      韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。它的情感区分能力已得到语音情感识别领域研究者们的广泛认可,使用非常普遍[28−31],其中最为常用的韵律特征有时长(duration)、基频(pitch)、能量(energy)等.学者们还针对韵律特征与特定情感类型之间的关联上展开了研究[3,19,35−38],这些研究工作进一步验证了韵律特征区分情感的性能,但也出现了一些不甚一致甚至相反的结论,所以,韵律特征区的情感区分能力是十分有限的.例如,愤怒、害怕、高兴和惊奇的基频特征具有相似的表现[3,36].

    2. 基于谱的相关特征
      基于谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现。Nwe 等人[43]通过对情感语音的相关谱特征进行研究发现,语音中的情感内容对频谱能量在各个频谱区间的分布有着明显的影响.例如,表达高兴情感的语音在高频段表现出高能量,而表达悲伤的语音在同样的频段却表现出差别明显的低能量。
      在语音情感识别任务中使用的线性谱特征(linear-based spectral feature) 一般有 :LPC(linear predictor coefficient)[36],OSALPC(one-sided autocorrelation linear predictor coefficient)[48],LFPC(log-frequency power coefficient)[43]等;倒谱特征(cepstral-based spectral feature)一般有: LPCC(linear predictor cepstral coefficient),OSALPCC(cepstral-based OSALPC)[44],MFCC(mel-frequency cepstral coefficient)等.

    3. 声音质量特征
      声音质量是人们赋予语音的一种主观评价指标,用于衡量语音是否纯净、清晰、容易辨识等[49].对声音质量产生影响的声学表现有喘息、颤音、哽咽等,并且常常出现在说话者情绪激动、难以抑制的情形之下。在语音情感识别研究中,用于衡量声音质量的声学特征一般有:共振峰频率及其带宽(format frequency and bandwidth)、频率微扰和振幅微扰(jitter and shimmer)[50]、声门参数(glottal parameter)等。
      研究:.Li 等人[54]提取了频率微扰和振幅微扰作为声音质量参数对SUSAS 数据库中的语料数据进行了说话人不相关的情感识别,HMM(hidden Markov model)被作为识别器.与仅使用 MFCC 的基线性能 65.5%相比,MFCC 和频率微扰的特征组合可以得到 68.1%的识别率,MFCC 和振幅微扰
      的特征组合可以得到 68.5%的识别率,最佳性能 69.1%由 MFCC、频率微扰和振幅微扰的共同组合获得.

    4. 融合特征
      上述 3 种特征分别从不同侧面对语音情感信息进行表达,自然会想到使用它们的融合用于语音情感的识别,从而达到提高系统识别性能的目的。
      例如:Schuller 等人[57]将过零率、能量、基频、声音质量、谐波噪声比、0~15 阶 MFCC 等特征的5 967 维相关统计量用于 eNTERFACE[61]、柏林情感语料库 EMO-DB[23]以及合成语料库的交叉数据库情感识别研究;Malandrakis 等人[59]使用基频、强度、对数能量、过零率、频谱重心(spectral centroid)、频谱通量(spectral flux)、MFCC、PLPC(perceptual linear prediction coefficient)等特征的统计值用于电影维度情感的跟踪等。

    5. 基于 i-vector 的特征
      i-vecotr 在近些年来的说话人识别领域有着广泛的应用,是一项将高维高斯混合模型(Gaussian mixture models,简称 GMM)超向量空间映射到低维总变异空间的技术。
      注:特征提取的工具 openSMILE。openSMILE是一款以命令行形式运行的工具,通过配置config文件,主要用于提取音频特征, 2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。其中包含默认特征集及其配置文件,通用配置文件,色度特征,MFCC特征,PLP特征,韵律特征,情感识别特征提取。

    语音情感识别算法

    当今语音情感识别系统所采用的识别算法可以分为如下两类:离散语音情感分类器,维度语音情感分类器。

    1. 离散语音情感分类器
      它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别[7].常用于语音情感识别领域的分类器,线性:朴素贝叶斯Naïve Bayes Classifier,线性人工神经网络Linear ANN(artificial neural network),线性支持向量机Linear SVM(support vector machine)等;非线性: 决策树Decision Trees,k-NN(k-nearest neighbor algorithm),非线性人工神经网络Non-linear ANN,非线性支持向量机Non-linear SVM,高斯混合模型GMM (Gaussian mixture
      model),隐马尔可夫模型HMM (hidden Markov model)以及稀疏表示分类器等
      1.2. 常用模型
      HMM:隐马尔科夫模型(Hidden Markov Model,HMM),和回归、分类那些处理相互独立的样本数据的模型不同,它用于处理时间序列数据,即样本之间有时间序列关系的数据。隐藏变量是HMM里的关键概念之一,可以理解为无法直接观测到的变量,即HMM中Hidden一词的含义;与之相对的是观测变量,即可以直接观测到的变量;HMM的能力在于能够根据给出的观测变量序列,估计对应的隐藏变量序列是什么,并对未来的观测变量做预测。
      GMM:GMM 是一种用于密度估计的概率模型[72],可以被看作是只包含一个状态的连续 HMM 模型。
      ANN:MLP(multi-layer perceptron)是语音情感识别中应用最为广泛的一种人工神经网络模型,这与 MLP 完善的工具包支撑和成熟的学习算法有着很大的关系。
      SVM:SVM 分类器的关键在于核函数的运用,它负责将原始特征以非线性的方式映射到高维空间中,从而提高数据的可分性。
      稀疏表示分类器:稀疏表示分类器则是近年来随着压缩感知技术的兴起发展而来的一项分类技术。
      在这里插入图片描述
    2. 维度语音情感分类器
      该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:Linear Regression,k-NN,ANN,SVR(support vector regression)等.其中,SVR 因为性能稳定、训练时间短等优点应用得最为广泛。

    总结

    本文在充分调研和深入分析的基础上对当今的语音情感识别领域研究进展进行了综述,其中重点介绍了语音情感识别研究中的几个关键问题,包括情感描述模型选取、情感语音数据库建立、语音情感相关声学特征提取、语音情感识别算法建模等。
    情感语料问题:即由于情感本身的复杂性,使得情感语音数据的采集和整理工作非常困难,进而导致了高质量的情感语料难以获取,对离散情感语音数据库而言,如何同时满足语料的自然度和情感的纯净度是其面临的最大挑战。对维度情感语音数据库的建立而言,困难不在于语料的获取,而在于语料的整理和情感的标注.为了将语料中的情感量化为精确的实数值,标注者担负了繁重的听辨和打分工作,并且标注结果的好坏、正误也难以评判。研究延伸:如何对现有资源进行补充和丰富?能否通过技术手段对训练语料的选择进行系统的指引和帮助?都是研究者们亟待解决的实际问题.
    情感与声学特征之间的关联问题:计算机与人脑的情感识别机制的最初差异就是情感相关声学特征的提取以及情感与声学特征之间的关联方式的确定.因此,如果计算机不能准确地或者以尽可能接近人类的方式对情感语音进行声学特征提取并加以正确的关联和映射,就会使得计算机语音情感识别系统被建立于一个偏离实际的基础之上,从而导致其后的识别机制与人脑处理机制间的差距越来越大,无法达到期望的效果。目前性能较好的特征提取方法是Mel 倒谱系数。研究延伸:如何界定情感声学特征的最优提取时长,抑或是对不同时长的声学特征进行融合,也都是不容忽略的研究课题.
    语音情感识别的建模问题:构建合理、高效的语音情感识别模型是语音情感识别研究的重中之重,它负责对大量的训练语料进行学习,从中挖掘由各种声学特征通往对应情感状态的映射通路,从而实现对测试语料情感状态的正确判断与识别。研究延伸,如何在现有的认知科学水平之上,以尽可能贴近人脑情感处理机制的方式来构建语音情感识别模型,是一项艰巨却有着重大意义的任务.

    展开全文
  • 使用CNN进行语音情感识别
  • 基于机器学习的语音情感识别,李丹艳,刘刚,随着计算机技术的发展和人工智能的普及,语音情感识别研究收到学界和工业届的广泛关注。从语音情感识别的起源、语音情感的分类,
  • 语音信号中的情感信息是一种很重要的信息资源,仅靠单纯的数学模型搭建和计算来进行语音情感识别就显现出不足。情感是由外部刺激引发人的生理、心理变化,从而表现出来的一种对人或事物的感知状态,因此,将认知心理学与...
  • 一些关于语音识别和语音情感识别的资源

    千次阅读 多人点赞 2019-05-26 11:03:44
    基于SVM的语音情感识别(MATLAB GUI界面和文档)点这里! PythonNLP情感识别项目实战教程(源码+数据集)点这里! python 语音情感分析 搜一搜? 基于SVM的情感分析系统点这里! 基于SVM的语音情感识别系统设计点...

    这些资源要么就收费很贵,要么用不了,嗯…,但是也花了很长时间收集,先留着吧。。。
    基于SVM的语音情感识别(MATLAB GUI界面和文档)点这里!
    PythonNLP情感识别项目实战教程(源码+数据集)点这里!
    python 语音情感分析 搜一搜?
    基于SVM的情感分析系统点这里!
    基于SVM的语音情感识别系统设计点这里!
    基于SVM的语音情感识别系统点这里!
    语音情感识别 – 资源汇总点这里
    语音识别——基于深度学习的中文语音识别tutorial(代码实践)点这里!
    基于深度学习的语音分类识别(附代码)点这里!
    周志华机器学习 西瓜书(PDF) 斯坦福大学机器/深度学习视频 机器学习基石+技法 NLP点这里!
    基于DTW的孤立词语音识别系统(文档+MATLAB+GUI)点这里!
    最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。

    很多包非常有趣,值得收藏,满足大家的收集癖!

    涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报告、自然语言生成、NLU太难了系列、自动对联数据及机器人、用户名黑名单列表、罪名法务名词及分类模型、微信公众号语料、cs224n深度学习自然语言处理课程、中文手写汉字识别、中文自然语言处理 语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中华新华字典数据库及api(包括常用歇后语、成语、词语和汉字)、文档图谱自动生成、SpaCy 中文模型、Common Voice语音识别数据集新版、神经网络关系抽取、基于bert的命名实体识别、关键词(Keyphrase)抽取包pke、基于医疗领域知识图谱的问答系统、基于依存句法与语义角色标注的事件三元组抽取、依存句法分析4万句高质量标注数据、cnocr:用来做中文OCR的Python3包、中文人物关系知识图谱项目、中文nlp竞赛项目及代码汇总、中文字符数据、speech-aligner: 从“人声语音”及其“语言文本”产生音素级别时间对齐标注的工具、AmpliGraph: 知识图谱表示学习(Python)库:知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)、word2word:(Python)方便易用的多语言词-词对集:62种语言/3,564个多语言对、语音识别语料生成工具:从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库、构建医疗实体识别的模型(包含词典和语料标注)、单文档非监督的关键词抽取、Kashgari中使用gpt-2语言模型、开源的金融投资数据提取工具、文本自动摘要库TextTeaser: 仅支持英文、人民日报语料处理工具集、一些关于自然语言的基本模型、基于14W歌曲知识库的问答尝试–功能包括歌词接龙and已知歌词找歌曲以及歌曲歌手歌词三角关系的问答、基于Siamese bilstm模型的相似句子判定模型并提供训练数据集和测试数据集、用Transformer编解码模型实现的根据Hacker News文章标题自动生成评论、用BERT进行序列标记和文本分类的模板代码、LitBank:NLP数据集——支持自然语言处理和计算人文学科任务的100部带标记英文小说语料、百度开源的基准信息抽取系统、虚假新闻数据集、Facebook: LAMA语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口、CommonsenseQA:面向常识的英文QA挑战。点这里!

    展开全文
  • 对中科大发布的中文语音情感数据库CASIA,提取了MFCC特征,过零率等特征,采用SVM分类,识别率很低,只适合初学者了解语音情感识别过程
  • 语音情感识别与无监督特征学习
  • 中科大语音情感识别数据集免费版 四人版 1200条语音 六种情感 汉语,4 个人(2 名男性,2 名女性)的大约 1200 个音频,表达了 6 种不同的情绪:neutral,happy,sad,angry,fearful,surprised。
  • 针对语音情感识别中的特征提取问题,通过多层深度信念网络(DBN)自动提取语音信号中的情感特征,把连续多帧的语音拼接在一起,形成一个高维抽象特征,将深度信念网络训练好的特征作为极限学习机(ELM)分类器的输入端,最终...
  • 情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的 研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.首先,从心理学及认知学角度介绍了语音情感 认知的研究...
  • 针对语音情感信号的复杂性和单一分类器识别的局限性,提出一种核函数极限学习机(KELM)决策融合的方法用于语音情感识别。首先对语音信号提取不同的特征,并训练相应的基分类器,同时将输出转化为概率型输出;然后...
  • 是一篇很好的关于语音情感识别的文献综述,讲的很详细,逻辑性很强。
  • 首先介绍了语音情感识别系统的组成,重点对情感特征和识别算法的研究现状进行了综述,分析了主要的语音情感特征,阐述了代表性的语音情感识别算法以及混合模型,并对其进行了分析比较。最后,指出了语音情感识别技术...
  • 利用各类情感特征的识别结果, 应用改进的D-S证据理论进行决策级数据融合, 实现基于多类情感特征的语音情感识别, 以达到细粒度的语音情感识别。最后通过算例验证了改进算法的迅速收敛和抗干扰性, 对比实验结果证明了...
  • 近来,已经对用于语音情感识别的和声特征进行了研究。 在我们的研究中发现,和声特征的一阶和二阶差异在语音情感识别中也起着重要作用。 因此,我们提出了一种新的傅立叶参数模型,该模型使用语音质量的感知内容以及...
  • 基于MFCC的语音情感识别研究
  • 语音情感特征的提取和选择是语音情感识别的关键问题,针对线性预测(LP)模型在语音情感谱包络方面存在的不足。本论文提出了最小方差无失真响应(MVDR)谱方法来进行语音情感特征的提取;并通过人工蜂群(ABC)算法...
  • 这是一篇基于声学特征的语音情感识别论文,可以帮助大家更好地进行语音情感识别的工作
  • 论文笔记: 语音情感识别(一)语音知识概览 https://www.cnblogs.com/liaohuiqiang/archive/2004/01/13/9916352.html 语音情感识别(四)语音特征之声谱图,log梅尔谱,MFCC,deltas ...2.1. CMU课程Speech ...

    论文笔记:

    1. 语音情感识别(一)语音知识概览
      https://www.cnblogs.com/liaohuiqiang/archive/2004/01/13/9916352.html
    2. 语音情感识别(四)语音特征之声谱图,log梅尔谱,MFCC,deltas
      https://www.cnblogs.com/liaohuiqiang/p/10159429.html
      2.1. CMU课程Speech Technology: A Practical Introduction Topic: Spectrogram, Cepstrum and Mel-Frequency Analysis
      http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf
      对应的中文简单介绍:语音信号处理之(四)梅尔频率倒谱系数(MFCC)
      https://blog.csdn.net/zouxy09/article/details/9156785
      https://www.cnblogs.com/BaroC/p/4283380.html
      2.2. 傅里叶分析之掐死教程(完整版)
      https://zhuanlan.zhihu.com/p/19763358
      2.3. Mel Frequency Cepstral Coefficient (MFCC) tutorial
      http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/#eqn1
      2.4. 2.3的中文翻译以及python_speech_features源码解析
      http://fancyerii.github.io/books/mfcc/#mel_filterbank_example
      2.5. Github源码:python_speech_features
      https://github.com/jameslyons/python_speech_features
      2.6. python_speech_features官方介绍:Welcome to python_speech_features’s documentation!
      https://python-speech-features.readthedocs.io/en/latest/
    3. 语音情感识别(二)声谱图+CRNN
      https://www.cnblogs.com/liaohuiqiang/archive/2004/01/13/10128835.html
    4. 语音情感识别(五)语音特征集之eGeMAPS,ComParE,09IS,BoAW
      https://www.cnblogs.com/liaohuiqiang/p/10161033.html

    python实现的语音基础教程:
    6. 傅里叶变换
    https://www.jianshu.com/p/d699fe06fde2
    7. python对语音信号读取、分帧、加窗
    https://blog.csdn.net/YAOHAIPI/article/details/102826051
    8. Python语音基础操作–3.1语音分帧与加窗
    https://blog.csdn.net/sinat_18131557/article/details/105340416
    9. python的图像傅里叶变换 np.fft.fft2 cv.dft 函数
    https://blog.csdn.net/Ibelievesunshine/article/details/104984775
    10. 基于python手动画出spectrogram(语谱图)
    https://blog.csdn.net/qq_29884019/article/details/106177650

    展开全文
  • 多模式语音情感识别和歧义解决 总览 从语音中识别情感是一项与情感本身含糊不清的定义有关的艰巨任务。 在这项工作中,我们建立了轻量级的多模式机器学习模型,并将其与较重且难以解释的深度学习对应模型进行了比较...
  • 基于LPMCC的语音情感识别研究,安秀红,张雪英,语音情感识别是人机语音智能交互的关键技术,特征提取是语音情感识别的重要组成部分,本文使用线性预测美尔倒谱系数(LPMCC)来表征��

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 677
精华内容 270
关键字:

语音情感识别