精华内容
下载资源
问答
  • 传统声学特征和非线性特征用于病态嗓音的比较研究
  • 这是基于matlab程序的一个研究,课题是“乐器识别”,其中应用了数字语音处理的技术,包括MFCC及LPC等等。
  • 描述语音的声学特征

    2018-10-15 17:23:02
    描述语音的声学特征。包括各种低层时频特征和全局声学特征
  • 声学特征提取语音识别:声学特征提取1. 预加重2. 分帧3. 加窗4. 离散傅里叶变换(DFT)5. 语谱图6. 梅尔刻度(Mel Scale)7. 梅尔滤波器组(Mel Filter Bank)8. FBANK特征9. MFCC特征10. 差分11. CQCC特征总结 语音...

    语音识别:声学特征提取

    常用的声学特征有FBANKMFCCPLP等, MFCC特征各纬度之间具有较弱的相关性,适合GMM的训练,FBANK相比MFCC保留了更原始的声学特征,多用于DNN的训练。

    MFCC特征提取流程

    1. 预加重

    语音中有频谱倾斜现象,即低频具有较高能量,需加重高频语音能量,使高频信息凸显出来。
    x ′ [ t ] = x [ t ] − a x [ t − 1 ] x'[t]=x[t]-ax[t-1] x[t]=x[t]ax[t1]
    其中x[t]表示音频数据的第t个采样点,a通常取值(0.95,0.99)

    2. 分帧

    一般每帧帧长为20ms或者25ms,假设采样率为16kHz,帧长为25ms,则一帧有16000*0.025=400个采样点。为确保声学特征参数的平滑性,一般采用重叠取帧的方式,即相邻帧之间存在重叠部分(帧移一般为10ms)。

    3. 加窗

    特征提取时,每次取出窗长为25ms的语音,进行离散傅立叶变换计算出一帧,接着步移10ms继续计算下一帧,相当于加了矩形窗。二棱角分明的矩形窗容易造成频谱泄露,可以选择使用海明窗(Hamming Window)、汉宁窗(Hanning Window)等。加窗计算方式为:
    x ′ [ t ] = w [ n ] x [ n ] x'[t] = w[n]x[n] x[t]=w[n]x[n]
    其中x[n]是所取窗口(窗长为N,即N个采样点)之内的第n个采样点,w[n]是对应权重,不同加密方式权重不一样。本质上加窗也是卷积。
    不同窗函数形状

    4. 离散傅里叶变换(DFT)

    从每一段加窗后的音频中分别提取出频域信息。DFT的一个实现方法是快速傅立叶变换(FFT),可将事件复杂度从 O ( N 2 ) O(N^2) O(N2)降为 O ( N l o g 2 N ) O(Nlog_{2}N) O(Nlog2N),但是需要保证窗长N是2的指数。如果原窗长为400,一般在音频信号末尾补零扩展为512。

    5. 语谱图

    语音信号经过短时傅立叶变换(STFT)后得到的频谱为对称谱,取正频率轴的频谱曲线,并且将每一帧的频谱值按时间顺序拼接起来

    6. 梅尔刻度(Mel Scale)

    人耳对不同频率的感知程度不一样,频率越高敏感度越低,因此人耳的频域感知是非线性的,用梅尔刻度进行刻画。反映了人耳线性感知的梅尔频率Mef(f)与普通频率f之间的关系。即
    M e l ( f ) = 1127 l n ( 1 + f / 700 ) Mel(f) = 1127 ln(1+f/700) Mel(f)=1127ln(1+f/700)

    7. 梅尔滤波器组(Mel Filter Bank)

    计算方式与加窗类似,越往高频,滤波器窗口越大,窗口扩大的量级与梅尔刻度一致。滤波器的个数就是梅尔频段的总数目,通常为几十
    三角滤波器组的工作方式

    8. FBANK特征

    梅尔频谱的能量数值取对数得到FBANK特征,对数计算增强了特征的鲁棒性。用于DNN训练时,FBANK的维度就是梅尔滤波器的个数,常取20~40之间。

    9. MFCC特征

    FBANK中含有基频的谐波(相当于频谱中的毛刺),不利于整体轮廓(包络)的显现,并且各维度之间具有较高的相关性,不适宜GMM学习。MFCC的目的是消除与音素判别关系不大的谐波,保留包络信息对FBANK特征每帧进行离散傅立叶变换(IDFT)可以将包络与谐波分开,等价于对每帧FBANK进行离散余弦变换(DCT),生成结果记为倒谱

    10. 差分

    语音是时序信号,故声学特征的帧与帧之间并不是孤立的,是连续变化的,前后的变化往往包含一些声音线索,动态特征可以显示特征随时间变化的程度,常采用一阶差分二阶差分,一阶差分计算方式:
    d [ t ] = ( c [ t + 1 ] − c [ t − 1 ] ) / 2 d[t] = (c[t+1]-c[t-1])/2 d[t]=(c[t+1]c[t1])/2
    其中c[t]表示第t帧MFCC特征,二阶差分则是一阶差分的差分。通常用来训练GMM的声学特征共39维:12MFCCs+Energy(13维)+12 Δ MFCCs+ Δ Energy(13维) + 12 Δ2 MFCCs + Δ2 Energy(13维)

    备注:对数计算好处包含一定程度上增加非线性,平滑数据、缩小数据范围,防止溢出、将乘变为加,计算方便、与softmax合用便于梯度计算和传递等。

    11. CQCC特征

    能实现在低频率范围具有较高的频率分辨率在高频率范围有较高的时间分辨率,可应用于声纹识别

    总结

    语谱图FBankMFCCPLP都采用短时傅立叶变换(STFT),具有规律的线性分辨率,而CQCC则具有几何级的分辨率。FBANK和MFCC都采用Mel滤波器组,而PLP则利用Bark滤波器组模拟人耳听觉特性。通过不同提取方法得到的声学特征所表征的语言特点是不同的,FBank保留更多的原始特征,MFCC去相关性较好,而PLP抗噪性更强

    参考地址:https://mp.weixin.qq.com/s/wowvIK5sspVR7ogF-3keYA

    展开全文
  • 提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经...
  • 声学特征提取-python

    千次阅读 热门讨论 2020-05-11 22:26:11
    声学特征提取-python 代码在我的github上AcousticFeatureExtraction 使用Librosa音频处理库和openSMILE工具包,进行简单的声学特征提取,包括韵律学特征(持续时间、短时能量、过零率、基频等)、基于谱的相关特征...

    声学特征提取-python

    代码在我的github上AcousticFeatureExtraction

    使用Librosa音频处理库和openSMILE工具包,进行简单的声学特征提取,包括韵律学特征(持续时间、短时能量、过零率、基频等)、基于谱的相关特征(MFCC特征)和声音质量特征(共振峰、频率微扰、振幅微扰)。

    如果您觉得有一点点用,请隔空比个心(或者,去我的github上点一下 “Star” 也可以~)

    简介

    • 写在前面

    ​ 在这之前,本人对于声学一窍不通,奈何实验室项目需求,看了一些文献和博客,这才算是刚刚入了门,尽管坎坷,但发现细品声学,还是挺有意思的。

    ​ 本程序基于python3.6开发,Windows10上运行,其他版本暂时没有测试过,但我感觉python3.x,ubuntu平台应该都可以正常运行,不行的话,按照报错稍微修改适配下,程序里每行我尽量都做了注释。

    注意:由于本人也是边学边搞的这个程序,很多专业的声学名词我也是一知半解,没有深入研究,根据所能理解的,再加上自己的一些理解,写成的这个程序(也许叫demo更好),难免会出现提取到的特征不准确的现象,尤其是在基频追踪、共振峰估计上,方法不同,准确度千差万别,可以尝试更改参数、使用最新的算法,或者直接使用本程序中利用openSMILE特征集提取的特征,避免重复造轮子,又有大厂保证~

    • 关于本程序

    ​ 本程序利用两种方法对声学特征进行了提取,一种是直接调用openSMILE中的特征配置文件,包括2016-eGeMAPS特征集,共88个特征;2016-ComParE特征集,共6373个特征;2009-InterSpeech Emotion Challenge特征集(IS09_emotion),共384个特征。这些特征集主要用于基于语音的情绪识别,也可用于语音识别。关于它们详细介绍的相关文献:

    ​ 首先通过Git将本程序克隆到您的计算机上。

    git clone https://github.com/Zhangtingyuxuan/AcousticFeatureExtraction.git
    

    ​ 或者直接download压缩包,或者也可以通过**“Fork”** 按钮,Copy一份副本,然后通过您自己的SSH密钥克隆到本地。

    ​ 运行本程序之前,请安装必要的Python3版依赖库

    ​ cd到当前程序路径后直接运行本程序:

    python3 acoustic_feature.py
    

    ​ 本程序./audios路径下有两个语音文件:“audio_raw.wav”(汉语:蓝天 白云)和“ae.wav”(英语单元音:[æ]),分别基于这两个语音文件运行程序,会得到以下文件和图形输出,待我一一介绍:

    1. 首先是语音的端点检测:输出的图形见下图1/2。这可以检测一段语音的所有有效语音部分,主要用于语音预处理,也可以通过它实现基于端点检测的语音分割,有关该方法的更细节程序在我的另一个仓库里:voice_activity_detection

      图1 汉语:“蓝天 白云”的语音端点检测

      图2 英语单元音:[æ]的语音端点检测

      ​ 同时在./audios路径下会生成对应语音文件的首尾端点检测后的*_vad.wav文件,接下来的特征提取均是通过该文件进行的。在./features文件夹下,会生成利用openSMILE工具包对应的特征集的ARFF格式的features.csv特征文件,文件部分内容见下图3所示。

      图3 利用openSMILE工具包中IS09_emotion特征集提取到的特征
    2. 韵律学特征提取,比较了本程序和利用Praat软件在基频F0、声压级和谱特征的差异,由于是一句话语音,难免会出现较大的误差,而对于单元音的比较,误差小了些(图4/5):

      图4 汉语:“蓝天 白云”的韵律学特征可视化(左)与利用Praat软件获取的特征可视化(右)比较
      图5 英语单元音:[æ]的韵律学特征可视化(左)与利用Praat软件获取的特征可视化(右)比较
    3. 基于谱的相关特征:39维MFCC特征,包括MFCC1-13,其中MFCC1替换为对数能量,再依次计算一阶和二阶差分(图6)。

      图6 汉语:“蓝天 白云”(左)和英语单元音[æ](右)的39维MFCC特征可视化
    4. 声音质量特征:比较了本程序和利用Praat软件在共振峰中心频率F1/F2/F3差异(图7/8):

      图7 汉语:“蓝天 白云”的F1-3可视化(左)与利用Praat软件获取的特征可视化(右)比较
      图8 英语单元音:[æ]的F1-3可视化(左)与利用Praat软件获取的特征可视化(右)比较
    5. 声谱图:包括幅值谱、功率谱、log功率谱和log-Mel谱,图9。

      图9 汉语:“蓝天 白云”(左)和英语单元音[æ](右)的各种声谱图可视化

    Python Import

    关于本程序的依赖库(其中Librosa最好和我使用的版本一致,其他版本都没测试过):

    • Librosa-0.7.2
    • Numpy-1.18.1
    • matplotlib-3.1.3
    • Scipy-1.4.1

    特别鸣谢:openSMILE和Librosa的开发维护人员、声学等相关学科的科研人员,以及各大博客论坛的大佬们的无私奉献与辛勤劳作!感谢前辈们让我学到了很多相关知识!

    License 开源许可协议

    GPL v3.0 © ZZL

    赞助

    如果你喜欢本程序,并且它对你有些许帮助,欢迎给我打赏一杯奶茶哈~

    微信      支付宝
    展开全文
  • 语音的关键声学特征(语音情感特征提取)

    万次阅读 多人点赞 2018-11-21 13:59:21
    关注语义方面的研究比较多,但是声学特征也能包含很多关键信息,既可以作为辅助语义信息进行研究和应用,也可以单独进行语音情绪识别投入应用中。 所以我们来看一下语音有哪些关键声学特征。 文章目录语音情感特征...

    语音情感特征提取及其降维方法综述1

    语音传递的信息可以分为两大类:语义信息和声学信息。关注语义方面的研究比较多,但是声学特征也能包含很多关键信息,既可以作为辅助语义信息进行研究和应用,也可以单独进行语音情绪识别投入应用中。

    所以我们来看一下语音有哪些关键声学特征。



    语音情感特征分类

    主要分为三大类

    • 韵律学特征(超音段特征/超语言学特征)

      包括时长相关特征/基频相关特征/能量相关特征等
      在这里插入图片描述

    • 音质特征

    • 基于谱的相关性分析特征
      是声道形状变化和发声运动之间相关性的体现,目前基于谱的相关特征主要有线性预测倒谱系数(LPCC)、Mel频率倒谱系数。

    语音情感相关的特征通常由以下这些构成:
    在这里插入图片描述

    此外,由于不同民族不同语种的情况下情感表达的差异性,以及个体之间说话特征的差异性,还可以把语音情感特征分为个性化/非个性化两类。

    个性化语音情感特征:
    在这里插入图片描述
    个性化语言情感特征是一些直接反映数值的指标,因此人与人之间差异较大,携带了大量个人情感信息,不具有通性。研究较多,实际应用比较困难。

    非个性化语音情感特征:
    在这里插入图片描述
    在这里插入图片描述
    非个性化语言情感特征是一些变化率(导数)的指标,不易受到说话者个人特征的影响。

    语音特征的提取

    1.基频特征

    基音周期(Pitch)是声带振动频率的倒数。它指的是人发出浊音时,气流通过声道促使声带振动的周期。声带震动的周期即为基音周期。基音周期的估计称为基音检测(Pitch Detection)。

    基频包含了大量表征语音情感的特征,在语音情感识别中至关重要

    变化范围大,50-500Hz,且检测难度较高。

    常用的基频特征提取方法有:

    • 自相关函数法(ACF)-时域
      在这里插入图片描述
    • 平均幅度差法(AMFD)-时域
      在这里插入图片描述
    • 小波法-频域

    2.共振峰特征

    根据声学观点,声道可以看作非均匀截面的声管,当声音激励信号的频率与声道频率一致时,声道将发生共振,产生的波形称为共振峰。

    共振峰是语音信号处理最重要的参数之一,它决定着元音中的音质。

    共振峰参数包括共振峰频率和共振峰带宽

    不同情感发音的共振峰位置不同,情感状态发生变化时前三个共振峰的峰值变化较大,且其峰值从低到高依次为第一共振峰、第二共振峰和第三共振峰。

    一般选取第一共振峰、第二共振峰、第三共振峰的平均值、最大值、最小值、动态变化范围、平均变化率、均方差,共振峰频率的1/4 分位点、1/3 分位点以及共振峰变化的1/3 分位点、1/4 分位点等统计特征。

    常用的共振峰提取方法有:

    • 倒谱法
      倒谱法采用同态解卷技术,将基音信息和声道信息分离开来,从而可以直接求取共振峰参数,这种方法相对直接进行DFT 运算求取共振峰更加精确,避免了由基音谐波频率产生的误差。

    • 线性预测分析方法(LPC)
      基本思想是语音信号可由过去若干个语音采样点的线性组合来逼近,通过使预测的采样值与实际输出值的方差最小可以求取一组线性预测系数,由此可得到声道的传递函数为在这里插入图片描述
      对H(z) 取模可以得到声道传递函数的功率谱,根据功率谱可以较为精准地检测出带宽和中心频率。

    • 带通滤波组法

    3.Mel频率倒谱系数(MFCC)提取

    Mel 频率倒谱系数(MFCC)是根据人的听觉机理发现的特征参数,它与频率成非线性对应关系。在1000 Hz 以下,人耳对声音的感知能力与频率成线性关系,而在1000Hz 以上,人耳对声音的感知能力与频率成非线性关系。

    Mel 倒谱系数就是利用了这种非线性关系,得到频谱特征,它是基于人耳听觉特性的、鲁棒性较好的频域语音特征参数,其频率的对应关系为
    在这里插入图片描述
    人耳主观上用Mel 来度量音高的大小。规定1000 Hz,40 dB 的语音信号音高为1000 Mel。在Mel 刻度上人耳对语音音高的主观感受是线性的。人耳基底膜相当于一个非均匀滤波器组,它不同地方的细胞膜对频率的响应不同,每一部分对应一个滤波器群,每一个滤波器群对应一个中心频率和带宽,而每个滤波器的带宽大约为100 Mel。

    为了模拟人耳的特点,研究者们根据人耳滤波器组的中心频率和带宽设计了一组Mel滤波器,其波形如图示。
    在这里插入图片描述

    MFCC系数提取过程:
    在这里插入图片描述
    在这里插入图片描述
    以一阶差分MFCC系数:
    在这里插入图片描述

    4.基于导数的非个性语音情感特征提取

    5.基于Teager能量算子(TEO)非线性特征提取

    在这里插入图片描述
    TEO 算子可与传统的基频、共振峰特征相结合形成新的语音特征。

    6.基于深度学习的特征提取

    常用特征降维算法

    • 主成分分析法(PCA)
    • 线性判别分析法(LDA)
    • 局部保留投影法(LPP)
    • 多维尺度分析法(MDS)
    • 等距映射法(Isomap)
    • 局部线性嵌入法(LLE)
    • 拉普拉斯特征映射法(Laplacian Eigenmaps)

    各类降维方法比较:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述


    1. 刘振焘,徐建平,吴敏,曹卫华,陈略峰,丁学文,郝曼,谢桥.语音情感特征提取及其降维方法综述[J/OL].计算机学报,2017:1-22[2018-11-20].http://kns.cnki.net/kcms/detail/11.1826.TP.20170813.1200.006.html. ↩︎

    展开全文
  • 针对先验信息缺失情况下的说话人分类问题,可以采用提取基于多距离麦克风的空间声学特征的方法进行说话人分类.为了解决由于空间声学特征维数随麦克风个数的增加而迅速增长带来的计算代价问题,需要对其进行降维处理...
  • 1.韵律特征 基于基音频率的特征,包含Jitter,基音频率的包络,基音频率的线性预测系数。 共振峰特征,包含一阶共振峰,二阶共振峰,以及共振峰的带宽等。 基于能量的特征,包含 shimmer,4 阶Legendre 参数等。 ...
    1.韵律特征
    1. 基于基音频率的特征,包含Jitter,基音频率的包络,基音频率的线性预测系数。
    2. 共振峰特征,包含一阶共振峰,二阶共振峰,以及共振峰的带宽等。
    3.  基于能量的特征,包含 shimmer,4 阶Legendre 参数等。
    4.  时间特征,包含说话部分和不说话部分的比值,最长说话的时间等。
    5. 发音清晰程度的特征。
    6.  声音级别:信号幅度,能量被证明与声音级别有很大的关系。
    7.  短语,音素,单词以及这些特征的边界。
    8.  时间结构。
     
    2.谱特征
    1. 短时连贯性(Short Time Coherence,SMC)
    2. 过零幅度峰值(Zeros Crossing Peak Amplitude,ZCPA)
    3. 线性预测倒谱系数(Linear Predictor Cepstral Coefficients,LPCC)
    4. LPC MFCC LSP PLP ,RASTA 感知线性预测倒谱系数(RASTA-PLP)
    5. 最小二乘改进Yule-Walker 方程(Least Squares Modified Yule-Walker Equations,LSMYWE)
    6. 单边自相关线性预测系数(One-sided Autocorrelation Linear PredictorCoefficients,OSALPC)
    7. 单边自相关线性预测倒谱系数(One-side Autocorrelation Linear Predictor Cepstral Coefficients,OSALPCC)
     
     
    3.其他特征
    1. 根据发音系统提出的基于Teager 能量算子(Teager Energy Operator,TEO)的语音特征。
    2. 根据语音属于一种非平稳的信号原理,提出的基于经验模态分解(Empirical Mode Decomposition,EMD)的语音特征。
    3. 根据语音信号的混沌程度在缓和的情绪中比较小,在激烈的情绪中比较大的原理,基于分形维(Fractal Dimension)的语音特征。
    4. 另外基于深度学习的语音特征在语音信号处理中的作用越来越大。
    展开全文
  • 语音识别,输入是声学特征的序列,上图中X是经过一定规则提取的39维mfcc向量组成的矩阵,矩阵大小是不固定的,因为输入语音长度不一样,提取的语音帧就不一样,比如有10039,100039, 一般按照25ms一帧,10ms一个帧...
  • ASR-声学特征提取

    千次阅读 2020-04-06 18:40:42
    文章目录方法一:MFCC特征提取step 1:A/D转换(采样)step 2:预加重step 3:加窗分帧step 4:DFT+取平方step 5:Mel滤波step 6:取对数step 7:IDFTstep 8:动态特征方法二:深度学习特征提取step 1:采样step 2:分帧step 3...
  • 根据语音合成与识别等语音应用研究的需求,从文本分析模块入手,选择"维吾尔语语音声学参数库"中包含清塞音p、t、k、q的单...同时,为提高语音合成的自然度,探讨嗓音起始时间对清塞音声学特征的决定性作用问题.
  • 在分析疑问语气凸显的声学特征的基础上,提出了一种基于声学特征凸显的汉语疑问句检出方法。该方法用支持向量机(SVM)对小时间粒度的疑问语气凸显进行建模,通过基于加窗机制的后处理方法判决语音是否为疑问句。面向...
  • 鼾声声学特征研究现状
  • 行业资料-电子功用-声学传感器系统、声学特征模拟器以及电分配系统
  • 本文在收集较大规模情感语音语料库基础上,分析了维吾尔语语音在韵律特征和音质特征方面的19种语境信息和6种情感特征参数,并利用STRAIGHT算法实现了情感特征参数的提取,最后利用分类回归树(CART)算法针对各个...
  • 声学特征(二) MFCC特征原理

    千次阅读 2018-05-13 10:57:26
    由于语音信号是时域连续的,分帧提取的特征信息只反应了本帧语音的特性,为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度。常用的是一阶差分和二阶差分。 实现  d t = ∑ Θ θ = 1 θ ( c t + ...
  • 中选择了包含边音/l/的单音节、双音节、三音节以及多音节词[0](即四音节以及四音节以上的词),提取它的声学参数并进行统计分析,探讨了边音的声学特性,分别研究了边音在单音节及多音节词中时的以及边音出现在词中位置...
  • 声学特征 PNCC

    千次阅读 2017-11-12 16:25:02
    特点power-normalized cepstral coefficients相比于MFCC特征: - 在噪声和混响场景下提升识别效果,尤其在训练语料是clean语音的时候 - 相比于MFCC,计算量提升34.6%使用pncc相比mfcc,噪声和口音测试集可以得到10...
  • 声学特征 PLP

    千次阅读 2017-11-12 16:20:16
    PLP的由来Linear prediction可以用来获得语音功率谱P(ω)P(\omega)的全极点模型A(ω)A(\omega),也可以把LP看做获取P(ω)P(\omega)的频谱包络的手段,参考前面的文章 由于LP对待所有频率一视同仁,它不符合人耳的...
  • 针对节拍特征差异不明显的音乐流派,提出用描述频域能量包络的MFCC声学特征与节拍特征结合,并用基于音乐流派机理分析的8阶MFCC代替常用的12阶MFCC。对8类音乐流派实验仿真结果表明,基于语义特征和声学特征结合的...
  • 维吾尔语音素的声学特征分析
  • 为提高情感语音识别的正确率,研究了声学参数的统计特征和时序特征在区分情感中的作用,并提出了一种将两者相融合的情感识别方法。在提取出基本的韵律参数和频谱参数后,首先利用PNN(prob abilistic neural network...
  • 表征句子语调的声学特征分布研究
  • 兰州方言的声学特征分析和语音合成的研究.kdh
  • 维吾尔语语音声学参数库”,选择了包含辅音/r/的单音节以及多音节词,对其语图中弱短元音现象进行以实验语音学为出发点的研究.对声学参数进行统计,归纳其共振峰、音强和时长分布模式,得出了一系列结论,其目的是...
  • 基于堆叠去噪自动编码器的鲁棒声学特征提取方法

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,170
精华内容 2,468
关键字:

声学特征