精华内容
下载资源
问答
  • 音频测试信号频率详细解说

    千次阅读 2021-07-23 12:15:42
    音箱技术指标,音频测试信号频率详细解说下面以法国劲浪907Be书架箱为例:1、承受功率:90W频率响应:50-37KHZ-3dB3、称称阻抗:8欧4、灵敏度:89dB5、净重:12kg6、体积:H×W×D 420×231×348①承受功率90W,指谈...

    音箱技术指标,音频测试信号频率详细解说

    下面以法国劲浪907Be书架箱为例:

    1、承受功率:90W

    频率响应:50-37KHZ-3dB

    3、称称阻抗:8欧

    4、灵敏度:89dB

    5、净重:12kg

    6、体积:H×W×D 420×231×348

    ①承受功率90W,指谈箱非线性失真不超过规定值(一般为1—5%),可连续工作馈入的平均功率,也称额定功率,它是动态指标。在实际使用中,尽量不要长时间工作在90W以上,但短时间是容许的,也是不可避免的,因音频信号中含有大量的焠发信号。特别有些CD试音碟,瞬间动态极大,往往超过正常信号N倍。有不少初哥们,用来试低频,往往将功放音量旋至接近或超过12点位置,常造成打底、拍边现象,甚至烧毁喇叭,要特别注意,尤其对进口书架箱,它们一般过载能力不是很强。(主要出于商业考虑,承受功率越大,价格相对就越高)。国产的相对要好一些,由于长期受计划经济影响的延续和国人较诚实的态度,留有的功率余量要大一些。如“飞乐……南鲸等”。不过也不要怕,音箱必竟是来用的,不是看的,短时间2倍于额定功率没有问题,最高可达到4倍(极短时间内)。

    一般平时欣赏音乐音量控制在3-10W就可以,10W是什么概念,你可用万用表,测一下功 放输出红黑二端,交流摆幅至9-10V(指8欧音箱时),那时的输出功率就在10W左右,计算方法:交流电压(V)的平方除以音箱阻抗(欧)等于功率(W),此时响度已经能感觉到低频的震撼了。

    ②频率响应:(50-37KH2-3dB)也称有效频率范围,是指给扬声器加以恒定的信号。由低频到高频所辐射的声压随频率而变化的特征曲线,国际电工委(IEC)规定,平均声压级降低10dB作为扬声器的有效频率范围,现在看来这一标准太低了,现在的厂家标准大大高于此标准。

    如果音箱频响中不注明负多少dB,那么频响指标就毫无意义,劲浪所标出的很清楚是-3dB,反映出该箱有着一条极为平坦的频响曲线,就单项指标而言,它的重 放音质一定不错。反之,有些进口箱也可标准-6dB,低档货标-10dB,有的干脆不标故意来迷感人。同一音箱所标注的频响,因下降分贝值不同,数值也将不同,

    如劲浪箱:50-37KHZ-3dB

    也可以标:45-40KHZ-6dB

    更甚者标:38-42KHZ-10dB

    干脆不标:32-37KHZ

    所以看频响指标,一定要注意下降分贝值,才有参考意义(前面50HZ数代表低音频率越低越好,后面37KHZ代表高频率,越高越好。此款劲浪907Be音箱,标准严谨,指标颇高,性能肯定不错。

    ③阻抗8欧,扬声器实际阻抗是具有随频率变化的特征,称为扬声器阻抗特征,它在低频共振频率f0时呈最大值。待过了共振频率f0频率逐渐升高时,阻抗会出现一个最小值这时的阻抗就称为额定阻抗,这句话可能不好懂,说通俗一点就是在低频共振频率上升拐弯处时的对应阻抗,就为额定阻抗。它一般是音圈直流阻抗的1.05-1.1倍,如8欧额定阻抗,实测音圈直流电阻在7.2左右。阻抗多少欧并不影响音质,只是给配功放时作为参考值。一般家用音箱在4-16欧之间,选择8欧较好,尤其是作中环音箱,将来升级主箱时容易匹配一些,因为AV功放大都不建议你用低于4欧的音箱。

    ④灵敏度89dB,是表示扬声器电一声换能效率的量化指标,通常用分贝数表示。特征灵敏度就是给扬声器输入IW粉红色噪声电功率时,在距扬声器轴线IM测得的声压级(在消音室里测量)。

    灵敏度指标的高低,对选配功放有一定的意义。因行业上习惯定义:每相差3dB,响度也就相差一倍,也就是说在给音箱馈入同等功率时,如90dB的音箱,就要比87dB音箱,所体现出声音响度要大一倍,以此类推,93dB就大2倍……。

    市面上常见家用音箱大都在84-94dB之间,我把它们分为三个等级:①低灵敏度的,84-86dB

    ①中灵敏度的,87-89dB

    ①高灵敏度的,90dB以上

    在选购音箱时尽量选用中,高灵敏的(87dB以上)尤其是玩AV,一般AV功放功输出功率有限。反之,则必须配大功率AV功放,不然的话推动低灵敏度音箱对(如丹拿,AAD等),为取得某些音响效果,不得不人为加大AV功放的输出,对功放是不利的。当然如真正玩Hi-Fi则另当别论。

    ⑤净重12kg,好理解,一般音箱越重越好,箱体结实有利于消除共振现象,国际标准重量单位为kg,我国常用公斤来表示。

    ⑥体积,一般以毫米或厘米计,国际上已有按英寸计,1英寸=2.54厘米,大家换算一下就行了。H代表高,W代表宽,D代表深。

    ⑦另音箱还有一个重要的失真度指标,一般厂家不愿标出。失真度包括谐波失真,互调失真,相位失真等,常用百分数表示失真度的大小。音箱的失真度一般在2-5%,进口名牌较好的型号可控制在1%左右,厂家不愿标出的原因是与其它音响器材相比,如功放,CD机等,失真度都在万分之几至十万分之几,唯独音箱在百分之几太丢人了。为什么我们常说音箱是音响器材中最博弱的环节,主要是指它的失真度。在电声转换过程中,很难消除一些机械的、几何的、电磁等

    频率:<80Hz

    说明:80Hz以下主要是重放音乐中以低频为主的打击乐器,例如大鼓、定音鼓,还有钢琴、大提琴、大号等少数存在极低频率的乐器,这一部分如果有则好,没有对音乐欣赏的影响也不是很大。这一部分要重放好是不容易的,对器材的要求也较高。许多高级的器材,为了表现好80(或80左右)Hz以上的频段的音乐,宁愿将80(或80左右)Hz以下的频率干脆切除掉,以免重放不好,反而影响主要频段的效果。极低频20Hz为人耳听觉下限,可测试您的器材低频重放下限,低频中的25Hz、31.5Hz、Hz、40Hz、50Hz和63Hz是许多音箱的重放下限,如果您的音箱在这些频率中某处声音急剧下降,则表明这个频率就是您的音箱低频重放下限。频率:80-160Hz

    说明:在80-160Hz频段的声音主要表现音乐的厚实感,音响在这部分重放效果好的话,会感到音乐厚实、有底气。这部分表现得好的话,在80Hz以下缺乏时,甚至不会感到缺乏低音。如果表现不好,音乐会有沉闷感,甚至是有气无力。是许多低音炮音箱的重放上限,具此可判断您的低音炮音箱频率上限。

    频率:300-500Hz

    说明:在300-500Hz频段的声音主要是表现人声的(唱歌、朗诵),这个频段上可以表现人声的厚度和力度,好则人声明亮、清晰,否则单薄、混浊。

    频率:800Hz

    说明:800Hz这段一般设备都容易播好,但是要注意不要过多。这段要是过多的话会感到音响的频响变窄,高音缺乏层次,低频丰满度不够。

    频率:1000Hz

    说明:1 kHz是音响器材测试的标准参考频率,通常在音响器材中给出的参数是在1 kHz下测试。

    频率:1200Hz

    说明:1.2kHz可以适当多一点,但是不宜超过3dB,可以提高声音的明亮度,但是,过多会是声音发硬。

    频率:2000-4000Hz

    说明:2~4kHz对声音的亮度影响很大,这段声音一般不宜衰减。这段对音乐的层次影响较大,有适当的提升可以提高声音的明亮度和清晰度,但是在4kHz时不能有过多的突出,否则女声的齿音会过重。

    频率:8000-12000Hz

    说明:8~12kHz是音乐的高音区,对音响的高频表现感觉最为敏感。适当突出(5dB以下)对音响的的层次和色彩有较大帮助,也会让人感到高音丰富。但是,太多的话会增加背景噪声,例如:系统(声卡、音源)的噪声会被明显地表现出来,同时也会让人感到声音发尖、发毛。如果这段缺乏的话,声音将缺乏感染力和活力。

    频率:14000Hz

    说明:14kHz以上为音乐的泛音区,如果缺乏,声音将缺乏感染力和高贵感,例如小提琴将没有“松香味”。这一部分也不宜过多,基本平直或稍有衰减(不超过-3dB)即可。

    频率:20000Hz

    说明:20 kHz 为人耳听觉上限,可测试您的器材高频重放上限。16 kHz-20 kHz可能在一些器材中消失,此时有可能是您的器材无法重放此段频率,如果您是年纪较大者,也有可能是您的听觉衰减所至。

    频率:正弦波扫频信号

    说明:20Hz-20kHz正弦波扫频信号是从20Hz到20kHz频率自动平滑改变播放,通过播放此段测试信息可快速判断何处频率存在问题。

    如觉得某一频段特别刺耳或特别弱,则表明器材频率响应不直,可对器材中的每一环节进行分析,找出有问题的器材;如器材无问题,可能是该频带引起室内产生驻波,导致共振,您可通过移动音箱,调整音箱摆位看能否有所改善。

    展开全文
  • 可以根据需要,对输入的音频信号按照特定的频段进行单独的增益或衰减,实现各种音效效果。市场上常见的数字音频均衡器缺点是频率带宽都是固定不变,能实现的音效效果相对较少。为了用户可以体验更多的音效效果,本...
  • PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 1、什么是采样率和采样大小(位/bit)? 频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间...
    通常我们采用脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 

      1、什么是采样率和采样大小(位/bit)?

      频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。

      2、有损和无损

      根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。

      3、为什么要使用音频压缩技术

      要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们都压缩过。

      4、频率与采样率的关系

      采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!这其实对音质没有任何好处,对抓轨软件来说,保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一,而不是去提高它。较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。

      因为,根据耐奎斯特采样理论,你的采样频率必须是信号最高频率的两倍。例如,音频信号的频率一般达到20Hz,因此其采样频率一般需要40Hz。 而人耳收听的范围只能到23Khz以下,所以CD的采样率才是44.1Khz。22Khz×2=44Khz,考虑到一定的余量采用44.1Khz.

      5、流特征

      随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实。
    展开全文
  • 音频特征于音频信号提取总结

    千次阅读 多人点赞 2020-11-10 23:11:21
    MFCC:梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)  MFCC特征是一种在自动语音识别和说话人识别中广泛使用的...y:音频数据 sr:采样率 S:np.ndarray,对数功能梅尔谱图 n_mfcc:int>0

    1 语音的产生简介

    1.1 发音器官
    人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成:肺和气管、喉、声道。 肺是语音产生的能源所在。气管连接着肺和喉,是肺与声道的联系通道。喉是由一个软骨和肌肉组成的复杂系统,其中包含着重要的发音器官——声带。声带为产生语音提供主要的激励源。声道是指声门(喉)至嘴唇的所有发音器官,包括咽喉、口腔和鼻腔。

    1.2 语音的产生
    语音是声音的一种,是由人的发声器官发出,具有一定语法和意义的声音。大脑对发音器官发出运动神经指令,控制发音器官各种肌肉运动从而振动空气从而形成。
    在这里插入图片描述
    空气由肺进入喉部,经过声带激励,进入声道,最后通过嘴唇辐射形成语音。

    在这里插入图片描述

    2 声音特性​

    声音(sound)是由物体振动产生的声波。是通过介质传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源。声音以波的形式振动传播。声音是声波通过任何介质传播形成的运动。

    频率:是每秒经过一给定点的声波数量,它的测量单位为赫兹,1千赫或1000赫表示每秒经过一给定点的声波有1000个周期,1兆赫就是每秒钟有1,000,000个周期,等等。

    音节:就是听觉能够自然察觉到的最小语音单位,音节有声母、韵母、声调三部分组成。一个汉字的读音就是一个音节,一个英文单词可能有一个或多个音节构成,并且按照音节的不同,可以分为不同的种类。

    音素:它是从音节中分析出来的最小语音单位,语音分析到音素就不能再分了。比如,“她穿红衣服”是5个音节,而“红”又可进一步分为3个音素–h,o,ng。音素的分析需要一定的语音知识,但是,如果我们读的慢一点是还可以体会到的。

    音位:是指能够区分意义的音素,比如bian,pian,bu,pu就是靠b,p两个音素来区分的,所以b,p就是两个音位。

    人耳能听到的音频范围:20HZ–20KHZ。人说话的声音频率:300HZ–3.4KHZ。乐器的音频范围:20HZ–20KHZ

    3. 声音的种类

    在这里插入图片描述

    听觉信息处理各学科之间的关系
    在这里插入图片描述

    计算机听觉的应用

    在这里插入图片描述
    其它
    音乐搜索
    音乐情感计算
    音乐推荐
    音乐版权保护
    AI作曲
    音乐治疗

    两种音乐内容的分类的技术框架

    • 特征提取+分类
    • 端到端机器学习方法

    四种具体分类任务

    • 曲风分类
    • 乐器分类
    • 作曲家识别
    • 钢琴乐谱难度等级分类

    在这里插入图片描述

    4. 什么是音频特征

    绝大部分音频特征最初起源于语音识别中。它们可以精简原始的波形采样信号,从而被利用其它模型中。使算法更容易理解音频中蕴含的语义信息。从20世纪90年代末开始,这些音频特征也被用在音乐信息检索的任务中(比如乐器识别,音符起始点的检测等等), 更多针对于音乐的特征也应用而生

    在这里插入图片描述

    5 音频特征的类别

    5.1 可以从以下几个角度区分

    • 直接输出vs统计值
      特征是提取模型从信号中直接输出的数值,还是基于提取模型的输出得到的描述统计值(如均值,标准差等等)

    • 瞬态vs全局
      瞬态特征通常以为单位(若干采样点对应的特征),而全局特征则覆盖了更长的时间段(如一个单音信号的有效时长等等)

    • 抽象程度的高低
      底层特征从原始的波形信号中直接被提取,抽象程度最低;可被进一步处理为中层特征,代表的语义程度大致等同于乐谱中常见的元素比如音高或音高的起始时间等等);高层特征最为抽象,大多被识别音乐流派情绪等任务所采用

    • 提取过程中的差异
      直接在音频波形信号中提取的特征(比如过零率);将音频信号从时域变换到频域后提取的特征(比如频谱质心);需通过特定模型得到的特征(把音频分离为乐音和噪音之后,再基于任何一个部分得到的特征);受人耳听觉认知的启发,改变量化尺度后得到得特征(比如梅尔倒谱系数MFCC);

      乐音于噪音的模型-MPSS的算法
      在这里插入图片描述

    5.2. 常见音频特征举例

    能量特征:均方根能量(Root-Mean-Square Energy)
    时域特征
    起音时间(Attack Time):音符的能量包络在上上升阶段的时长。
    过零率(Zero-Crossing Rate):信号在一段时间通过零点的次数。
    自相关(Autocorrelation):信号与其沿时间轴位移后的版本之间的相似度。这个可以计算单音的基频。
    频域特征
    频谱质心(Spectral Centroid):信号在频谱中能量的集中点,可描述信号音色的明朗度。越亮的声音能量集中在高频部分。频谱质心的值就越大。
    频谱平坦度(Spectral Flatness):量化信号与噪声之间相似度的参数。信号的平坦度越大,那么信号是噪声的可能性越大。
    频谱通量(Spectral Flux):信号相邻帧之间的变化程度。可以计算音符起始点的特征。
    乐音特征
    基音频率(Fundamental Frequency):通常等于单音信号的音高对应的频率。
    失谐度(inharmonicity):表示信号的泛音频率与其基音的整数倍之间的偏移程度。
    感知特征
    响度(Loudness):信号强弱被人耳感觉到的主观感觉量,可以被理解为音量。
    尖锐度(Sharpness):信号的高频部分被人耳感觉到的能量。高频部分的能量越大则尖锐度越大。

    在这里插入图片描述

    6. 音频信号处理

    • 模拟信号处理

    通过某些模拟装置对连续模拟信号进行的处理,示例包括扬声器中的交叉滤波器,立体声中的音量控制等。常用方法包括卷积,傅里叶变换,拉普拉斯变换等等。

    • 数字信号处理

    将音频用一系列的数字表示(采样与量化),再在数字表示的信号上执行各种各样的信号处理操作。

    我们提取音频特征,做音频信息的检索基本上就是数字信号处理的范畴。

    采样与量化

    采样: 连续时间的离散化过程。
    均匀采样:每隔相等时间的采样一次,每秒钟需要采样的样本的个数对应采样频率

    采样频率 44kHZ: 每一秒就有44000个采样点。
    采样频率越高越贴近原始的波形。

    根据奈奎斯特理论,只有采样频率高于原始信号最高频率的两倍时,才能把数字信号表示的信号还原成为原来信号

    量化: 连续的幅度转化为离散的数字。这里先将整个幅度划分成有限个量化间距的集合。把落入某个间距里的幅度值赋予相同的量化值。

    采样率与量化越大,音质就更好。音频文件占用的存储空间也就越大。

    所谓量化,就是声音信号在幅值方面的数字化。方法是把模拟信号的每次采样值进行“整数化”。

    量化的主要工作就是将幅度上连续取值的每一个样本转换为离散值表示。其量化过后的样本是用二进制表示的,此时可以理解为已经完成了模拟信号到二进制的转换。量化中又个概念叫精度,指的是每个样本占的二进制位数,反过来,二进制的位数反映了度量声音波形幅度的精度。精度越大,声音的质量就越好。通常的精度有8bit,16bit,32bit等,当然质量越好,需要的储存空间就越大。

    在这里插入图片描述

    采样后,我们还需要对采样信号进行量化。为什么量化呢?你想想,就算是经过采样,采样点的值依旧是模拟信号本身的值,该多少是多少,没有变化,那么多的值,而且还有可能各不相同,那处理起来同样是很困难啊为了把无限多个值,变成有限个值,我们就需要用量化这个技术了
    通信工作者们把信号幅度值(也就是纵轴)进行256(二的八次方)次均匀分割,你的采样点落入哪个区间,就取这个区间所对应的二进制值(八位),这么做就实现了无限个值变成有限个值的目的了。

    数字信号–》傅里叶变换变为时频谱(spectrogram)
    在这里插入图片描述

    7. 特征提取工具

    在这里插入图片描述

    8 计算倒谱的流程图

    8.1 预加重

    预加重处理其实是将语音信号通过一个高通滤波器:
    在这里插入图片描述
    式中μ的值介于0.9-1.0之间,我们通常取0.96。预加重的目的是提升高频部分,使信号的频谱变得平坦,移除频谱倾斜,来补偿语音信号受到发音系统所抑制的高频部分。同时,也是为了消除发生过程中声带和嘴唇的效应。(因为口唇辐射可以等效为一个一阶零点模型)

    8.2.分帧、加窗,快速傅里叶变换

    因为语音信号为短时平稳信号,所以需要进行分帧处理,以便把每一帧当成平稳信号处理。同时为了减少帧与帧之间的变化,相邻帧之间取重叠。一般帧长取25ms,帧移取帧长的一半。

    8.3.Mel滤波器组

    在语音的频谱范围内设置若干带通滤波器 ,M为滤波器的个数。每个滤波器具有三角形滤波器的特性,其中心频率为 ,在Mel频谱范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为:

    在这里插入图片描述
    其中:
    在这里插入图片描述
    三角带通滤波器有两个主要目的:

    • 对频谱进行平滑化,并消除谐波的作用。此外还可以减少运算量。
    • 在MATLAB的voicebox工具箱中有melbankm函数可用于计算Mel滤波器组。

    三角形滤波器的示意图
    三角形滤波器的示意图

    8.4.计算每个滤波器组输出的对数能量为:

    在这里插入图片描述

    8.5 经离散余弦变换(DCT)得到MFCC系数:

    在这里插入图片描述
    将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。

    9. 其它名词解释

    9.1 基频(基音,fundamental tone)

    基本频率(或简称基频,fundamental frequency)声音分解为很多正玄波 傅立叶从数学上证明了,任何的一种非正弦的振动,都可以分解为若干个不同频率的正弦波的叠加。),频率最低的波就是基音,其他频率高的为泛音。频率越高分配到的能量越少。

    在这里插入图片描述

    9.2. MFCC

    梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)
     MFCC特征是一种在自动语音识别和说话人识别中广泛使用的特征。关于MFCC特征的详细信息,有兴趣的可以参考博客http:// blog.csdn.net/zzc15806/article/details/79246716。在librosa中,提取MFCC特征只需要一个函数

    参数:

    • y:音频数据
    • sr:采样率
    • S:np.ndarray,对数功能梅尔谱图
    • n_mfcc:int>0,要返回的MFCC数量
    • dct_type:None, or {1, 2, 3} 离散余弦变换(DCT)类型。默认情况下,使用DCT类型2。
    • norm: None or ‘ortho’ 规范。如果dct_type为2或3,则设置norm =’ortho’使用正交DCT基础。
      标准化不支持dct_type = 1。

    返回:

    • M: MFCC序列
    import librosa
    
    y, sr = librosa.load('./train_nb.wav', sr=16000)
    # 提取 MFCC feature
    mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=40)
    
    print(mfccs.shape)        # (40, 65)
    

    9.3 帧

    先将N个采样点集合成一个观测单位,通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。

    9.4 重叠区域

    为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000 1000=32ms。

    9.5 幅值(Amplitude)

    每一个声道的语音序列都是以关于0对称的,分布在[-1,1]之间的浮点数。通常会关注一段语音幅值的最大、最小值的绝对值,平均值等等。

    9.6 过零率(ZCR-Zero-crossing Rate)&过均值率(MCR)

    ZCR和MCR与语音信号的高频内容关系比较密切。
    ZCR,就是过零率(zero crossing rate)。它表示在单位时间内(通常是1s)语音幅值的符号变化次数。计算方式如下(伪代码):

    for i=1:1:fs-1
    
        if sign(x(i-1)*x(i))==1 & x(i)!=0
            c=c+1;
        else if x(i)==0 & sign(x(i-1)*x(i+1)==1
            c=c+1;
    end
    ZCR=c;
    1
    

    其中,x(n)是语音序列,fs是采样率,sign()是符号函数。c是单位时间内的富含变化次数,ZCR单位时间是过零率。
    单位时间内的过平均值率(MCR)的计算方法和ZCR类似。只需要对原始序列x做一个处理,
    x=x−x¯。

    事实上,语音序列的平均值已经很接近0了。ZCR或者MCR越大,则语音中的高频内容越多。

    9.7. 能量(Energy)

    时域的能量计算是以幅值为基础的,给一段语音的幅值求去均方根,就可以简单的作为它的能量了。
    e n e r g y = 1 N ⋅ ∑ x ( n ) 2 energy=\frac{1}{N}⋅∑x(n)^2 energy=N1x(n)2

    而更加严格的能量计算需要进行傅里叶变换,然后对复平面中的幅值求均方根,这里不详述。

    9.8. 线性预测编码系数(LPCC)

    待续

    9.9.均方根能量(Root-mean-Square Energy)

    https://librosa.org/doc/0.6.3/generated/librosa.feature.rms.html

    y, sr = librosa.load('58bpm.wav')
    print(librosa.feature.rms(y=y))
    

    10. 代码实现

    安装Librosa

    pip install librosa
    or
    conda install -c conda-forge librosa
    

    波形图
    用Librosa加载音频,用matplotlib显示出来

    import librosa
    import matplotlib.pyplot as plt
    x, sr = librosa.load('58bpm.wav')
    print(x.shape)
    print(sr)
    librosa.display.waveplot(x, sr=11025)
    plt.show()
    
    (182464,)
    22050
    

    182464/11025 =16.5500。
    默认采用率是22050。
    根据一共有182464点。取值范围(-1,1)。这些点其实纵轴的坐标。

    在这里插入图片描述
    过零率
    计算音频时间序列的过零率。

    import librosa
    x, sr = librosa.load('58bpm.wav')
    b = librosa.feature.zero_crossing_rate(x, frame_length=2048, hop_length=512)
    print(b)
    print(b.shape)
    
    (1, 357)
    

    求RMS- 均方根能量(Root-Mean-Square Energy)

    import librosa
    import matplotlib.pyplot as plt
    y, sr = librosa.load('58bpm.wav')
    rms = librosa.feature.rms(y=y,frame_length=2048, hop_length=512)
    print(rms.shape)
    
    plt.figure()
    plt.semilogy(rms.T, label='RMS Energy')
    plt.xticks([])
    plt.xlim([0, rms.shape[-1]])
    plt.legend(loc='best')
    plt.show()
    
    (1, 357)
    

    hop_length:步幅;帧移对应卷积中的stride;连续帧分割长度
    frame_length:一帧的长度
    182464 / 512 = 356.375
    在这里插入图片描述

    短时傅立叶变换(STFT),返回一个复数矩阵使得D(f,t)
    复数的实部:np.abs(D(f,t))频率的振幅
    复数的虚部:np.angle(D(f,t))频率的相位

    y, sr = librosa.load('58bpm.wav')
    S = librosa.stft(y, n_fft=2048, hop_length=512)
    S = np.abs(S)
    print(y.shape)
    print(S.shape)
    

    STFT矩阵,shape = 在这里插入图片描述

    (182464,)
    (1025, 357)
    

    幅度转dB
    将幅度频谱转换为dB标度频谱。也就是对S取对数。

    librosa.amplitude_to_db(S, ref=1.0)
    
    import librosa
    import librosa.display
    import matplotlib.pyplot as plt
    x, sr = librosa.load('58bpm.wav')
    
    X = librosa.stft(x)
    Xdb = librosa.amplitude_to_db(abs(X))
    print(x.shape)
    print(X.shape)
    print(Xdb.shape)
    plt.figure(figsize=(14, 5))
    librosa.display.specshow(Xdb, sr=sr, x_axis='time', y_axis='hz')
    plt.colorbar()
    plt.show()
    
    (182464,)
    (1025, 357)
    (1025, 357)
    

    在这里插入图片描述

    import librosa
    import matplotlib.pyplot as plt
    y, sr = librosa.load('58bpm.wav')
    #y, sr = librosa.load(librosa.util.example_audio_file())
    rms = librosa.feature.rms(y=y,frame_length=2048, hop_length=512)
    print(rms.shape)
    
    S, phase = librosa.magphase(librosa.stft(y))
    rms = librosa.feature.rms(S=S)
    
    plt.figure()
    plt.subplot(2, 1, 1)
    plt.semilogy(rms.T, label='RMS Energy')
    plt.xticks([])
    plt.xlim([0, rms.shape[-1]])
    plt.legend(loc='best')
    plt.subplot(2, 1, 2)
    librosa.display.specshow(librosa.amplitude_to_db(S, ref=np.max),
                             y_axis='log', x_axis='time')
    plt.title('log Power spectrogram')
    plt.tight_layout()
    plt.show()
    

    hop_length:步幅;帧移对应卷积中的stride;连续帧分割长度
    frame_length:一帧的长度
    182464 / 512 = 356.375

    (1, 357)
    

    在这里插入图片描述

    频谱图

    import librosa
    import matplotlib.pyplot as plt
    import numpy as np
    y, sr = librosa.load('58bpm.wav')
    plt.figure()
    
    D = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max)
    plt.subplot(2, 1, 1)
    librosa.display.specshow(D, y_axis='linear')
    plt.colorbar(format='%+2.0f dB')
    plt.title('Liner-frequency power spectrogram')
    
    plt.subplot(2, 1, 2)
    librosa.display.specshow(D, y_axis='log')
    plt.colorbar(format='%+2.0f dB')
    plt.title('log-frequency power spectrogram')
    plt.show()
    

    在这里插入图片描述

    梅尔倒谱系数-MFCC

    import librosa
    import matplotlib.pyplot as plt
    y, sr = librosa.load('58bpm.wav')
    mfccs = librosa.feature.mfcc(y=y, sr=sr)
    print(mfccs)
    print(mfccs.shape)
    img = librosa.display.specshow(mfccs, x_axis='time')
    plt.colorbar(img)
    plt.title('MFCC')
    plt.show()
    
    (20, 357)
    

    在这里插入图片描述

    基频-Fundamental frequency

    y, sr = librosa.load('58bpm.wav')
    f0, voiced_flag, voiced_probs = librosa.pyin(y, fmin=librosa.note_to_hz('C2'), fmax=librosa.note_to_hz('C7'))
    print(f0.shape)
    times = librosa.times_like(f0)
    print(times.shape)
    
    D = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max)
    fig, ax = plt.subplots()
    img = librosa.display.specshow(D, x_axis='time', y_axis='log', ax=ax)
    ax.set(title='pYIN fundamental frequency estimation')
    fig.colorbar(img, ax=ax, format="%+2.f dB")
    ax.plot(times, f0, label='f0', color='cyan', linewidth=3)
    ax.legend(loc='upper right')
    plt.show()
    
    (357,)
    (357,)
    

    浅蓝色的是基频
    在这里插入图片描述

    11. 其它

    11.1 短时傅立叶变换

    通过傅立叶变换可以得到信号的频谱。信号的频谱的应用非常广泛,信号的压缩、降噪都可以基于频谱。

    然而傅立叶变换有一个假设,那就是信号是平稳的,即信号的统计特性不随时间变化。声音信号就不是平稳信号,在很长的一段时间内,有很多信号会出现,然后立即消失。如果将这信号全部进行傅立叶变换,就不能反映声音随时间的变化。

    短时傅立叶变换(short-time fourier transform)就能解决这个问题。声音信号虽然不是平稳信号,但在较短的一段时间内,可以看作是平稳的。符合直觉的解决方案是取一小段进行傅立叶变换,这也正是短时傅立叶变换的核心思想。
    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述
    在一段很短的时间内, 利用用傅里叶变换,将时域转换为频域。
    在这里插入图片描述

    7.2频谱图

    快速傅立叶变换是一种功能强大的工具,可让我们分析信号的频率成分,但是如果信号的频率成分随时间变化,该怎么办? 大多数音频信号(例如音乐和语音)就是这种情况。 这些信号称为非周期性信号。 我们需要一种表示这些信号随时间变化的频谱的方法。 您可能会想,“嘿,我们不能通过对信号的多个窗口部分执行FFT来计算多个频谱吗?” 是! 这正是完成的工作,称为短时傅立叶变换。 FFT是在信号的重叠窗口部分上计算的,我们得到了所谓的频谱图。 哇! 需要接受很多东西。这里有很多事情要做。 良好的视觉效果是必须的。

    在这里插入图片描述
    您可以将频谱图视为一堆相互堆叠的FFT。 当信号在不同频率下随时间变化时,这是一种直观地表示信号响度或幅度的方法。 计算频谱图时,还有一些其他细节。 y轴转换为对数刻度,颜色尺寸转换为分贝(您可以将其视为振幅的对数刻度)。 这是因为人类只能感知到非常小的集中频率和幅度范围。

    spec = np.abs(librosa.stft(y, hop_length=512))
    spec = librosa.amplitude_to_db(spec, ref=np.max)librosa.display.specshow(spec, sr=sr, x_axis='time', y_axis='log');
    plt.colorbar(format='%+2.0f dB');
    plt.title('Spectrogram');
    

    在这里插入图片描述
    仅用几行代码,我们就创建了一个频谱图。 好。 我们对“频谱图”部分有扎实的了解,但对“MEL”则如何。 他是谁?

    7.3 梅尔(Mel)量表

    研究表明,人类不会感知线性范围的频率。 我们在检测低频差异方面要胜于高频。 例如,我们可以轻松分辨出500 Hz和1000 Hz之间的差异,但是即使之间的距离相同,我们也很难分辨出10,000 Hz和10,500 Hz之间的差异。

    1937年,Stevens,Volkmann和Newmann提出了一个音高单位,以使相等的音高距离听起来与听众相等。 这称为梅尔音阶。 我们对频率执行数学运算,以将其转换为mel标度。

    在这里插入图片描述
    https://blog.csdn.net/qq_28006327/article/details/59129110

    则人耳对频率的感知度就成了线性关系。也就是说,在梅尔标度下,如果两段语音的梅尔频率相差两倍,则人耳可以感知到的音调大概也相差两倍。
    让我们观察一下从Hz到mel的映射图,由于它们是log的关系,当频率较小时,mel随Hz变化较快;当频率很大时,mel的上升很缓慢,曲线的斜率很小。**这说明了人耳对低频音调的感知较灵敏,在高频时人耳是很迟钝的,**梅尔标度滤波器组启发于此。
    在这里插入图片描述

    mel_spect = librosa.feature.melspectrogram(y=y, sr=sr, n_fft=2048, hop_length=1024)
    mel_spect = librosa.power_to_db(spect, ref=np.max)librosa.display.specshow(mel_spect, y_axis='mel', fmax=8000, x_axis='time');
    plt.title('Mel Spectrogram');
    plt.colorbar(format='%+2.0f dB');
    

    在这里插入图片描述

    共振峰

    **共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。**声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。在语音声学中,共振峰决定着元音的音质。

    提取方法:

    共振峰的提取方法较多,比较常见的有谱包络法、倒谱法、LPC内插法、LPC求根法、希尔伯特变换法等,但以上方法都或多或少受,虚假峰值,共振峰合并,高音调语音(尤其是女性)的影响,针对单个元音以上方法可以较好的找到共振峰,但对于连续语音准确度较差。在噪声背景下不具有很好的鲁棒性。下面简单介绍一种针对连续变化语音的鲁棒性较好的共振峰追踪算法。

    DCT 离散余弦变换

    求倒谱时这一步仍然用的是傅里叶变换。计算MFCC时使用的离散余弦变换(discrete cosine transform,DCT)是傅里叶变换的一个变种,好处是结果是实数,没有虚部。DCT还有一个特点是,对于一般的语音信号,这一步的结果的前几个系数特别大,后面的系数比较小,可以忽略。上面说了一般取40个三角形,所以DCT的结果也是40个点;实际中,一般仅保留前13~20个,这就进一步压缩了数据。得到梅尔倒谱。
    DCT 有好多实现方法(占坑)

    这样我们会得到一个随着时间变化的频谱图,这个就是描述语音信号的spectrogram声谱图。
    在这里插入图片描述

    倒谱分析(Cepstrum Analysis)

    下面是一个语音的频谱图。峰值就表示语音的主要频率成分,我们把这些峰值称为共振峰formants),而共振峰就是携带了声音的辨识属性(就是个人身份证一样)。所以它特别重要。用它就可以识别不同的声音。
    在这里插入图片描述
    既然它那么重要,那我们就是需要把它提取出来!我们要提取的不仅仅是共振峰的位置,还得提取它们转变的过程。所以我们提取的是频谱的包络(Spectral Envelope)。这包络就是一条连接这些共振峰点的平滑曲线。
    在这里插入图片描述
    我们可以这么理解,将原始的频谱由两部分组成:包络和频谱的细节。这里用到的是对数频谱,所以单位是dB。那现在我们需要把这两部分分离开,这样我们就可以得到包络了。

    在这里插入图片描述

    参考资料

    Mel频率倒谱系数获取步骤(Mel-Frequency Cepstral Coefficients)

    我们将频谱通过一组Mel滤波器就得到Mel频谱。公式表述就是:log X[k] = log (Mel-Spectrum)。这时候我们在log X[k]上进行倒谱分析:

    1)取对数:log X[k] = log H[k] + log E[k]。

    2)进行逆变换:x[k] = h[k] + e[k]。

    在Mel频谱上面获得的倒谱系数h[k]就称为Mel频率倒谱系数,简称MFCC。
    在这里插入图片描述

    1)先对语音进行预加重、分帧和加窗:

    11)分帧:为了方便对语音分析,可以将语音分成一个个小段,称之为:帧。先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。

    12)加窗:

    语音在长范围内是不停变动的,没有固定的特性无法做处理,所以将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续性。常用的窗函数有方窗、汉明窗和汉宁窗等,根据窗函数的频域特性,常采用汉明窗。

    2)对每一个短时分析窗,通过FFT得到对应的频谱;(获得分布在时间轴上不同时间窗内的频谱)

    3)将上面的频谱通过Mel滤波器组得到Mel频谱;(通过Mel频谱,将线形的自然频谱转换为体现人类听觉特性的Mel频谱)

    4)在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征;(倒谱分析,获得MFCC作为语音特征)

    这时候,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。

    在这里插入图片描述
    这样就可以通过这些倒谱向量对语音分类器进行训练和识别了。

    总而言之
    如果你像我一样是信号处理新手的话,这里有很多概念需要了解。然而,如果你继续回顾这篇文章中提出的概念(花足够的时间盯着墙角思考它们),它就会开始有意义了!让我们简要回顾一下我们所做的工作。

    我们随时间采集了气压样本,以数字方式表示音频信号

    我们使用快速傅里叶变换将音频信号从时域映射到频域,并在音频信号的重叠窗口部分执行此操作。
    我们将y轴(频率)转换为对数刻度,将颜色尺寸(幅度)转换为分贝,以形成频谱图。
    我们将y轴(频率)映射到mel刻度上以形成mel频谱图。

    参考资料

    [1]理解傅里叶变换

    https://www.jianshu.com/p/ac1444495f75
    https://pypi.org/project/SpeechRecognition/
    https://interactiveuandmetutorials.weebly.com/
    https://medium.com/@mikesmales/sound-classification-using-deep-learning-8bc2aa1990b7
    https://www.bilibili.com/video/BV1pE411B7Ja/?spm_id_from=333.788.b_7265636f5f6c697374.2

    展开全文
  • 频功放失真是指重放音频信号波形畸变的现象,通常分为电失真和声失真两大类。电失真就是信号电流在放大过程中产生了失真,而声失真是信号电流通过扬声器,扬声器未能如实地重现声音。  无论是电失真还是声失真,按...
  • 音频采样频率标准

    千次阅读 2018-05-25 22:31:07
    立体声,Stereo 就是指具有立体感的声音。当人们直接听到这些立体空间中...采样频率标准 48000Hz是DVD音频标准,意思是每秒从连续的音频中采样48000个; 44100Hz是CD音频标准,意思是每秒采样44100个 目前的专业...

    立体声,Stereo

    就是指具有立体感的声音当人们直接听到这些立体空间中的声音时,除了能感受到声音的响度、音调和音色外,还能感受到它们的方位和层次。这种人们直接听到的具有方位层次等空间分布特性的声音,称为自然界中的立体声。

     

    采样频率标准

    48000Hz是DVD音频标准,意思是每秒从连续的音频中采样48000个;

    44100Hz是CD音频标准,意思是每秒采样44100个

    目前的专业录音行业,已经逐渐不再照顾我们沿用了多年且古老的的CD音频规范,而是向上照顾HD音频规范。因为,将来的音乐载体(包含HD视频载体),都采用HD音频标准。当然,老的CD标准照样执行,但是他们将以无奈的兼容方式去执行。如果是不同阵容的采样频率的转换,属于非整数倍转换,那么,无论怎样转换,不管从高到低还是从低到高,都会明显降低质量,而且得到的新文件的质量比原始文件的质量更低。比如44.1KHz转换成48KHz,得到新的48KHz文件,而这个新文件的音质不但达不到48KHz,而且比原来的44.1KHz文件音质还差;反之亦然。

     

    展开全文
  • 音频信号处理技术学习笔记

    千次阅读 2019-06-16 17:00:53
    音频信息处理技术主是多媒体技术的主要组成之一。本文主要介绍音频信息处理技术的基本原理和应用。 1、音频基础概念 声音是由震动产生的,并以声波的形式通过介质传播。 音色的频率,两个波峰(波谷)的时间间隔为...
  • 音频信号重采样知识

    千次阅读 2020-04-18 15:49:45
    目录前言音频信号重采样上采样及频谱镜像下采样及频谱混叠代码实现的相关思路 前言 因为接下来的毕设将要实现wav文件采样率修改的任务。故此需要学习有关音频信号重采样的有关知识。 音频信号重采样 音频重采样作为...
  • 音频数字信号详解 整理者:赤勇玄心行天道 QQ号:280604597 微信号:qq280604597 QQ群:511046632 博客:www.cnblogs.com/gaoyaguo 大家有什么不明白的地方,或者想要详细了解的地方可以联系我,我会认真回复...
  • 音频信号的数字化及压缩编码

    千次阅读 2017-03-12 23:14:49
    一.音频信号的数字化 电视广播离不开声音信号,随着人们对电视质量的要求越来越高,在数字电视广播、高清晰数字电视...1.取样频率:演播室数字音频参数标准规定,音频信号的取样频率优选为48kHz,也可以选用32kHz或44.
  • 音频信号作短时傅里叶变换(STFT)处理,并绘制语谱图 摘要:录制一段音频,分别采用matlab,python两种方式,对其作短时傅里叶变换(STFT),最终得到期望的语谱图。 一、前言 基础概念: 什么是傅里叶变换? ...
  • WAV音频信号文件的相关知识

    千次阅读 2020-01-21 15:13:53
    前言 本次毕业设计的初步设想是想通过C语言解析并提取出wav...WAV音频信号文件 1、wav文件的概念 WAV是最常见的声音文件格式之一,是微软公司专门为Windows开发的一种标准数字音频文件,该文件能记录各种单声道或...
  • 音频设备常见音频性能测试

    千次阅读 2020-06-30 09:01:12
    音频测试基本都是以激励响应作为基础来进行的,即将已知特性的激励信号加到待测品的输入端,测量待测品的输出端的信号特性,从而与输入端的信号进行对比,通过测量输出端的信号劣化来评判该被测品的音频性能。...
  • 信号处理中的常见噪声

    千次阅读 2021-04-25 14:27:40
    待编辑 噪声(信号处理) 在信号处理中,噪声是信号在捕获,...降噪,即从受噪声破坏的信号中恢复原始信号,是信号处理系统(尤其是滤波器)设计中非常普遍的目标。噪声消除的数学极限由信息理论设定,即奈奎斯特
  • 数字信号处理的内容博大精深,音频信号处理、数字图像处理、雷达信号处理等等都属于DSP系统。从本文开始将记录一些简单的音频信号处理算法在System Generator中的实现方法。本文将介绍如何搭建音频信号的采集与输出...
  • 音频信号处理——基音周期

    万次阅读 多人点赞 2015-07-02 16:23:47
    音频信号处理——基音周期
  • 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和 20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段...
  • 常见音频编码格式解析

    千次阅读 2019-11-15 10:11:46
    常见音频编码格式解析 常见音频编码格式解析 MP3编码格式 1MP3概述 2MPEG音频压缩基础 3MPEG Layer3编解码的...
  • System Generator从入门到放弃(十)-ADC应用之音频信号采集与输出 文章目录System Generator从入门到放弃(十)-ADC应用之音频信号采集与输出一、ADC应用之音频信号采集与输出1、简介2、单声道音频信号采集与输出2.1 ...
  • 最近在arXiv上看到一篇关于深度学习在音频信号处理中的进展的文章,感觉写的不错,所以根据自己的理解和大家分享一下。如果有些地方博主理解的不对,或者解释不清,可以在下面评论,博主会一一回复。 论文链接:...
  • 1. 音频信号噪声抑制原理 2. 谱减法的原理和相关算法 3. WAV音频文件的格式 二、音频信号噪声抑制原理 2.1语音和噪声 1、冲激噪声 冲激噪声的时域波形是类似于冲激函数那样的窄脉冲,常见的消除冲激噪声的...
  • 音频压缩分为两种,其基本的方法都是消除冗余信息,在这里的冗余信息指的是:人的听觉范围以外的音频信息: (1)有损压缩:消除冗余信息后,无法还原出原声。 (2)无损压缩:消除冗余信息后仍能够还原出原声。
  • 音频信号到特征帧的处理流程: 音频信号 | 采样与量化 | 分帧 | 加窗 | 特征提取 | 帧叠加与帧采样 音频信号的特征一般分为时域特征和频域特征两大类,目前大部分实用系统都采用频域特征。 特征: (傅里叶变换) ...
  • 转载请注明文章出处和作者!...今天要和大家分享一个本人最近研发的完全具有自主知识产权的项目——android音频口通信,并寻求有兴趣的同行和友人一起合作!大家都知道拉卡拉,但它具体的技术实现我相信很少有...
  • 脉冲编码调制( Pulse Code Modulation , PCM) 是模拟信号以固定的采样频率转换成数字信号后的表现形式。 pcm文件没有头部信息,全部是采样量化后的未压缩音频数据。 PCM 数据储存 用什么量来描述PCM? Sample ...
  • 常见音频接口介绍

    千次阅读 2019-05-29 16:36:57
    转载自 http://blog.sina.com.cn/s/blog_155903a570102ydt4.html常见音频接口介绍_公子小白_城南_新浪博客 数字音频接口 “数字音频接口”是用来定义两个数字音频设备之间的数字接口协议的界标准格式,它分为家用...
  • 常见音频格式大盘点分析

    千次阅读 2018-03-18 14:29:32
    常见音频格式大盘点分析取样率指的是每一秒钟取样的数目,其单位为赫兹(Hz),通常CD的采样率为44.1 kHz;DAT (Digital Audio Tape) 的采样率为32,44.1 和 48 kHz,其他常见的采样率还有22.05 和 11.025 kHz等。...
  • WAVE音频文件 WAVE文件作为最早的数字音频文件格式之一,是应用于windows平台的波形音频文件。它是一种无损的音频文件,具有较好音质,缺点是占用大量存储空间。之后WAVE文件从无压缩编码形式PCM(脉冲编码调制)...
  • 音频设备常见测试指标及测试方法

    万次阅读 多人点赞 2019-05-29 16:24:30
    音频设备常见的测试指标主要有电平(Level)、频率响应(FR,FrequencyResponse)、总谐波失真加噪声(THD+N)、信噪比(SNR,Signal-to-noise ratio)、串扰(Crosstalk)等参数。此外还有一些诸如相位(Phase)、动态范围()等...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,101
精华内容 3,640
关键字:

常见音频信号的频率范围