精华内容
下载资源
问答
  • 图1为一段音频某一时刻的频率特性图。图1它的横坐标是频率(单位Hz),纵坐标是声音的音量(单位dB),频率特性图显示了不同频率声音的音量... 横坐标的划分图2如果学过自动控制的同学应该了解,在自控中常用的Bo...

    5c540a7745b60977fce8decc9006bb5c.png

    图1为一段音频某一时刻的频率特性图。

    475446f01d62824ea4c7e8ef21484233.png
    图1

    它的横坐标是频率(单位Hz),纵坐标是声音的音量(单位dB),频率特性图显示了不同频率下声音的音量大小,是判断不同声音的频率特征的重要性质。

    频率特性图中有几个需要特别了解的地方:

    1. 横坐标的划分(倍频程)

    2. 纵坐标的划分(声音的性质、分贝)

    3. 频率特性图在参数滤波器(EQ)中的应用

    1. 横坐标的划分

    7b891fe471812c100cdb6b121c831783.png
    图2

    如果学过自动控制的同学应该了解,在自控中常用的Bode图,其横坐标划分是十倍频程,意思为将原坐标进行以10为底的对数变换。如f1=10Hz,f2=100Hz,f3=1000Hz,如果是线性坐标,那么f3到f2的距离一定要比f2到f1的距离长,但在对数坐标中,由于:

    1da52cdab811e9b5734c3249194a6810.png

    2a65b4af5f957387ebb25eb4cd622eef.png

    所以f1、f2、f3之间的距离是相等的,且都为一个10倍频程,记为dec,如图2所示。这就是10倍频程的划分。

    而在音乐的频率特性图中,一般是按照倍频程来划分,也就是将原坐标进行以2为底的对数变换,如f1=2Hz,f2=4Hz,f3=8Hz,同理,由于:

    594c2db592623b4f78e9e01f49ac2ac1.png

    3b02498e460f2a261b6610fddda972b4.png

    所以f1、f2、f3之间的距离是相等的,且都为一个倍频程,记为oct,如图2所示。这就是倍频程的划分。(在坐标轴上标注的还是原来的频率值,只不过按照对数坐标来分度,如图3所示。

    cbbfc350aee58b99ecab42f90e5e4bc3.png
    图3

    你或许想问,为什么要这样划分,对数坐标好在哪里?

    (1)在听觉感知的研究中,使用对数频率坐标的好处在于,我们的听觉系统和对数频率的分布相一致,其原因是:耳蜗中有一个结构叫做基底膜,它的作用是对输入声音信号进行频谱分析,其受到声音信号刺激后会发生响应,产生振动。基底膜有窄有厚,其窄而薄的地方对高频响应最好,宽而厚的地方对低频响应最好,而基底膜的宽度和厚度是随着耳蜗逐渐变化的,故输入的不同频率将在基底膜的不同位置处产生最大振幅,即可分辨出不同频率。后来研究人员证明,基底膜顶部到发生最大位移的直线距离与输入频率的对数成正比。这也就是我们人耳感知声音频率的方式。

    (2)采用对数坐标在对声音的处理上,更有利于压缩高频段、放大低频段,缩小了比例尺,既画出了频率特性中的中、高频段,又能清楚地画出其低频段,使得频率特性图更加清晰。

    (3)对数特有的运算形式会将乘法计算转化为加法计算,可以简化频率特性图的绘制。

    那你又会问,为什么要采用倍频程而不是十倍频程呢,倍频程好在哪里?

    采用倍频程而不是10倍或其他倍频程的原因在于:从声学角度上说,一个能被感知音高的声音都是由称为谐波的基频整数倍的频率成分组成。比如低音A的频率是440Hz,中音A的频率是880Hz,高音A的频率是1760Hz,如图4所示。由下式可得,它们之间就是倍频程的关系,也就是我们常说的一个八度,所以采用倍频程在音乐中将会更加方便表达。

    93d255bd3dd088555923459b3cc8ea0a.png

    29a7bc8dd7327af905a1771bf3f5ac32.png

    9b2c95c366bf6b0c8587629e2ed4841e.png
    图4

    2. 纵坐标的划分

    在频率特性图中,纵坐标的值是20lg|A|,单位为分贝(dB),A表示某频率点的振幅。

    而在自控中常使用的Bode图中,其纵坐标表示为20lg|G(jw)|。(G(jw)同样表示信号的幅值)

    ee702f755bedcb7bc68780fe2823085a.png
    Bode图

    那么,为什么频率特性图的纵坐标会以20lg|A|来划分呢?

    首先,为什么纵坐标也要以对数来划分:

    (1)其一,为了使得纵坐标与横坐标的对数关系能够匹配;

    (2)人的听觉感受在音量方面并不是线性的,比如人对于听到10dB和100dB的声音,可能并不觉得100dB比10dB响10倍,而是觉得音量只增大了1倍。这就表示,我们人耳对于声音音量的划分,也是对数分布的;

    (3)与声音的基本性质有关,下文将介绍。

    那接着你可能又会问,究竟为什么是20lg|A|,而不是10倍、30倍等其他倍数?这个问题同样也可以由声音的性质来解释。

    声音有几个重要的衡量性质声强级、声功率级、声压级

    1)声强级(SIL)

    声强表示通过单位面积的声能量流,是一种功率量,表示从声源发出的,穿过单位面积的声功率,具有方向性,单位为

    。但通常,人对声音的强弱感觉并不与声强成正比,而是与其对数成正比,故声强通常用其对数值,即
    声强级(SIL)来表示,表达式为:

    627f1eda90e7a0d2f9b28ac2d255ea41.png
    式1

    其中,

    为实际声功率密度 (
    ),
    为参考声功率密度(
    )。

    采用10作为式(1)的系数的原因是:声强比变化10倍称为一个贝尔(Bel)。

    由式(1)可以得知,当声强比变化10倍时,声强级也将变化10,因为:

    4b457a17697c0f389063da5def3f1e90.png

    那么,当声强级变化1时,声强比需要变化

    倍,因为:

    2d0301ee8e54e6702336a1e2997feb09.png

    由此,声强级的单位取为分贝(dB或decibel),是贝尔(Bel)单位的1/10。所以其实,分贝表示的是声音强度的相对大小,而不是绝对大小。意思为,当我们用到分贝的时候,必须用两个数进行比较,分贝表示的是两个量的比值关系。比如0dB的含义,并不表示当前没有信号,而是信号的幅度值恰好等于参考值。

    所以我们现在能够理解分贝的定义两个同类功率量,或可与功率类比的量的比值的常用对数乘以10等于1时的级差。

    2)声功率级(SWL)

    声功率级是对声源各个方向辐射出的总功率的度量,指各个方向上功率的总和,也是一个功率量,无方向,也是由比值的对数度量:

    44280d8f616fcc0a88080e0e4db23723.png
    式2

    其中,W为实际声功率(W),Wref为参考声功率(10^-12W)。

    3)声压级(SPL)

    定义为声波在某一点产生的逾量瞬时压强的均方根值。由于人耳对声压比较敏感,且声压易于测量,故通常使用声压作为描述声波大小的物理量。其定义式为:

    c553c456237445633f5cc0ffba896a05.png
    式3

    其中,p为实际测得的声压(Pa),p(ref)为参考声压(20μPa)。(20μPa是人耳在1000Hz时能听到的最小声压)

    一般,当讨论声音大小时,通常使用声压级来度量,而不是声强级或声功率级,因为声压级的测量较为容易,并且与听觉听到的声音大小关系最为密切。

    式(3)用20作为系数的原因是:

    (1)使声压级的变化为1时,对应于人耳所能感觉到的声压的最小变化量;

    (2)使声压级与声强级的度量具有一致性,解释如下。

    声强是一种功率密度,与声压的平方成正比,这类似于电功率与电压的平方成正比,与电阻成反比(

    )。所以声强与声压的关系可以写为(
    ),其中Zs为声阻抗率。

    所以声强级通过计算又可以写为:

    82bd9624aaab816328152b05bfe9073e.png

    所以,当用声强级的公式来推导声压级的公式时,其系数变为了20。

    而频率特性图正是表达频域中幅值大小之比,等同于声压、电压、电流等场量,而非功率量,所以采用了20这个系数来作为频率特性幅值公式的系数。

    3. 频率特性在均衡器(EQ)中的应用

    3f2c4f54f9df1e27f9e8439737d0793f.png

    上图是参数均衡器,也就是EQ,它的横坐标是频率(单位Hz),纵坐标是声音的音量(dB)。

    均衡器定义上来讲,是一种可以分别调节各种频率成分电信号放大量的电子设备,通过对信号输出电压信号的变换来达到控制效果,这一效果体现在,通过控制主控增益,可以改变输入信号的不同频率段的音量。

    61e0fda7b5e00b7d44db4631e8862e7a.png

    在参数均衡器中,可以选择不同的增益,现在我们就可以理解,dB/oct的意思是,每倍频程增加/衰减多少分贝的音量。它实际上是一种滤波器,代表以多少的斜率来过滤掉多少分贝以下/以上的频率。斜率越大,信号的衰减越快。

    比如上图中24dB/oct就表示在低频100Hz时每倍频程衰减24dB,调节效果如下图所示。

    ef72a808090895a350336501befa4820.png

    对Au中的均衡器的详细使用将在下一章介绍。

    展开全文
  • ASR中常用的语音特征之FBank和MFCC(原理 + Python实现)一步一步讲解和实现ASR中常用的语音特征——FBank和MFCC的提取,包括算法原理、代码和可视化等。文章目录语音信号的产生语音通常是指人说话的声音。从生物学的...

    ASR中常用的语音特征之FBank和MFCC(原理 + Python实现)

    一步一步讲解和实现ASR中常用的语音特征——FBank和MFCC的提取,包括算法原理、代码和可视化等。

    文章目录

    语音信号的产生

    语音通常是指人说话的声音。从生物学的角度来看,是气流通过声带、咽喉、口腔、鼻腔等发出声音;从信号的角度来看,不同位置的震动频率不一样,最后的信号是由基频和一些谐波构成。

    之后被设备接收后(比如麦克风),会通过A/D转换,将模拟信号转换为数字信号,一般会有采样、量化和编码三个步骤,采样率要遵循奈奎斯特采样定律:f s > = 2 f fs >= 2ffs>=2f,比如电话语音的频率一般在300Hz~3400Hz,所以采用8kHz的采样率足矣。

    下面采用一个30s左右的16比特PCM编码后的语音wav为例。

    预加重(Pre-Emphasis)

    预加重一般是数字语音信号处理的第一步。语音信号往往会有频谱倾斜(Spectral Tilt)现象,即高频部分的幅度会比低频部分的小,预加重在这里就是起到一个平衡频谱的作用,增大高频部分的幅度。它使用如下的一阶滤波器来实现:

    y ( t ) = x ( t ) − α x ( t − 1 ) ,      0.95 < α < 0.99 y(t) = x(t) - \alpha x(t-1), \ \ \ \ 0.95 < \alpha < 0.99y(t)=x(t)−αx(t−1),    0.95

    笔者对这个公式的理解是:信号频率的高低主要是由信号电平变化的速度所决定,对信号做一阶差分时,高频部分(变化快的地方)差分值大,低频部分(变化慢的地方)差分值小,达到平衡频谱的作用。

    pre_emphasis = 0.97

    emphasized_signal = np.append(signal[0], signal[1:] - pre_emphasis * signal[:-1])

    1

    2

    plot_time(emphasized_signal, sample_rate)

    1

    plot_freq(emphasized_signal, sample_rate)

    1

    从下面这个图来看,确实起到了平衡频谱的作用。

    分帧(Framing)

    在预加重之后,需要将信号分成短时帧。做这一步的原因是:信号中的频率会随时间变化(不稳定的),一些信号处理算法(比如傅里叶变换)通常希望信号是稳定,也就是说对整个信号进行处理是没有意义的,因为信号的频率轮廓会随着时间的推移而丢失。为了避免这种情况,需要对信号进行分帧处理,认为每一帧之内的信号是短时不变的。一般设置帧长取20ms~40ms,相邻帧之间50%(+/-10%)的覆盖。对于ASR而言,通常取帧长为25ms,覆盖为10ms。

    加窗(Window)

    在分帧之后,通常需要对每帧的信号进行加窗处理。目的是让帧两端平滑地衰减,这样可以降低后续傅里叶变换后旁瓣的强度,取得更高质量的频谱。常用的窗有:矩形窗、汉明(Hamming)窗、汉宁窗(Hanning)

    快速傅里叶变换(FFT)

    对于每一帧的加窗信号,进行N点FFT变换,也称短时傅里叶变换(STFT),N通常取256或512,然后用如下的公式计算能量谱:

    FBank特征(Filter Banks)

    经过上面的步骤之后,在能量谱上应用Mel滤波器组,就能提取到FBank特征。

    在介绍Mel滤波器组之前,先介绍一下Mel刻度,这是一个能模拟人耳接收声音规律的刻度,人耳在接收声音时呈现非线性状态,对高频的更不敏感,因此Mel刻度在低频区分辨度较高,在高频区分辨度较低,与频率之间的换算关系为:

    m = 2595 l o g 10 ( 1 + f 700 ) m = 2595 log_{10} (1 + \frac{f}{700})m=2595log10​(1+700f​)

    f = 700 ( 1 0 m / 2595 − 1 ) f = 700(10^{m/2595} - 1)f=700(10m/2595−1)

    Mel滤波器组就是一系列的三角形滤波器,通常有40个或80个,在中心频率点响应值为1,在两边的滤波器中心点衰减到0,如下图:

    具体公式可以写为:

    PS:“log mel-filter bank outputs”和“FBANK features”说的是同一个东西。

    MFCC特征(Mel-frequency Cepstral Coefficients)

    前面提取到的FBank特征,往往是高度相关的。因此可以继续用DCT变换,将这些相关的滤波器组系数进行压缩。对于ASR来说,通常取2~13维,扔掉的信息里面包含滤波器组系数快速变化部分,这些细节信息在ASR任务上可能没有帮助。

    DCT变换其实是逆傅里叶变换的等价替代:

    所以MFCC名字里面有倒谱(Cepstral)。

    一般对于ASR来说,对MFCC进行一个正弦提升(sinusoidal liftering)操作,可以提升在噪声信号中最后的识别率:

    从公式看,猜测原因可能是对频谱做一个平滑,如果D DD取值较大时,会加重高频部分,使得噪声被弱化?

    FBank与MFCC比较

    FBank特征的提取更多的是希望符合声音信号的本质,拟合人耳接收的特性。而MFCC特征多的那一步则是受限于一些机器学习算法。很早之前MFCC特征和GMMs-HMMs方法结合是ASR的主流。而当一些深度学习方法出来之后,MFCC则不一定是最优选择,因为神经网络对高度相关的信息不敏感,而且DCT变换是线性的,会丢失语音信号中原本的一些非线性成分。

    还有一些说法是在质疑傅里叶变换的使用,因为傅里叶变换也是线性的。因此也有很多方法,设计模型直接从原始的音频信号中提取特征,但这种方法会增加模型的复杂度,而且本身傅里叶变换不太容易拟合。同时傅里叶变换是在短时上应用的,可以建设信号在这个短的时间内是静止的,因此傅里叶变换的线性也不会造成很严重的问题。

    结论就是:在模型对高相关的信号不敏感时(比如神经网络),可以用FBank特征;在模型对高相关的信号敏感时(比如GMMs-HMMs),需要用MFCC特征。从目前的趋势来看,因为神经网络的逐步发展,FBank特征越来越流行。

    其他特征

    PLP(Perceptual Linear Prediction)

    另外一种特征,与MFCC相比有一些优势,具体提取方式见下图:

    动态特征

    加入表现帧之间变化的特征,用如下公式:

    d ( t ) = c ( t + 1 ) − c ( t − 1 ) 2 d(t) = \frac{c(t+1) - c(t-1)}{2}d(t)=2c(t+1)−c(t−1)​

    一般在ASR中使用的特征(用于GMM相关的系统),是39维的;包括(12维MFCC+1维能量) + delta + delta^2

    具体提取过程见下图:

    标准化

    其目的是希望减少训练集与测试集之间的不匹配。有三种操作:

    去均值 (CMN)

    为了均衡频谱,提升信噪比,可以做一个去均值的操作

    filter_banks -= (np.mean(filter_banks, axis=0) + 1e-8)

    1

    plot_spectrogram(filter_banks.T, 'Filter Banks')

    1

    mfcc -= (np.mean(mfcc, axis=0) + 1e-8)

    1

    plot_spectrogram(mfcc.T, 'MFCC Coefficients')

    1

    方差归一(CVN)

    除以标准差,从而使得方差为1

    标准化(CMVN)

    y t ( j ) = y t ( j ) − μ ( y ( j ) ) σ ( y ( j ) ) y_t(j) = \frac{y_t(j) - \mu (y(j))}{\sigma (y(j))}yt​(j)=σ(y(j))yt​(j)−μ(y(j))​

    PS:这些操作,还可以针对speaker/channel做;在实时情景下,可以计算moving average。

    总结

    最后引用文末slide里面的一个总结:

    传送门

    标签:ASR,MFCC,Python,变换,特征,信号,FBank

    来源: https://www.cnblogs.com/cx2016/p/13844817.html

    展开全文
  • 示波器作为电子工程师最常用的仪器,从最开始的模拟示波器,到数字存储示波器和数字荧光示波器,以及越来越偏向专业化的定制类示波器,功能越来越丰富的同时,性能也发生着日新月异的变化,消费者在选择的时候有时候...

    示波器作为电子工程师最常用的仪器,从最开始的模拟示波器,到数字存储示波器和数字荧光示波器,以及越来越偏向专业化的定制类示波器,功能越来越丰富的同时,性能也发生着日新月异的变化,消费者在选择的时候有时候就可能看得眼花缭乱,那么如何选择适合自己的一款示波器呢?我们知道示波器三大核心指标是带宽、采样率、存储深度,然而在选择数字示波器时还有一个很重要的指标往往会被忽略,那就是我们今天要讲的波形刷新率,也称为波形捕获率!

    波形捕获率是相对于数字示波器来说的。数字示波器采样、处理数据到送显屏幕都是需要时间的,处理数据和送显屏幕这段时间称为死区时间。死区时间内示波器不采样,是探测不到信号发生的变化的,所以实际上不是所有波形我们都能在屏幕上看到,我们看到的波形其实是被死区时间分隔成一段一段的,因此就有了波形捕获率一说。采样时间+死区时间=波形捕获周期。而波形捕获率是指一秒内波形捕获的次数,也就是波形捕获周期的倒数,如下图1是示波器的一个捕获周期。

    dc6b0c2e212c89760bd574076cd9c14e.png
    △ 图1.数字示波器的一个捕获周期

    连续多个捕获周期内,死区时间越长,相对的有效捕获时间就越短,一旦示波器的波形捕获率过低,这样就有可能导致异常信号出现在死区时间内而被漏掉。由此可见示波器的波形捕获率对于能否捕捉低概率的异常信号是很关键的,信号里面随机的异常信号及偶发信号往往是无法被预测的,波形捕获率越高,越有利于捕获低概率的信号!

    那么,我们如何验证那些示波器厂家所标称的几十万甚至上百万的波形捕获率的真假呢?

    测量示波器的波形捕获率并不难,大多数示波器都会提供一个触发输出信号,通常用于使其他仪器与示波器的触发同步,我们可以通过频率计以及其他示波器来测量这个触发信号的平均频率,进而测量出待测示波器的波形捕获率。

    在开始前,我们需要简单准备一下器材,来进行辅助验证:

    ① 函数信号发生器SDG2122X,用于输出一个固定频率的信号。

    ② 示波器SDS3000,用于测试被测示波器输出的触发信号的频率。

    ③ BNC双头线缆若干条。

    我们测试的是鼎阳科技的SDS1202X示波器,操作步骤如下:

    ① 设置信号源输出一个10MHZ(频率大小无要求)的正弦波,用BNC线缆将该信号输入到示波器SD1202X的通道CH1。如下图2

    f0ab158c4cb29fc8970c7133a5cbe603.png
    △ 图2.信号源输出10MHZ正弦波至示波器CH1

    ② 通过示波器面板的Utility按键,选择菜单下输出设置,将示波器的输出设置为触发输出,以保证示波器每捕获一次波形,则对应后面板pass/fail Trigger out接口输出一个周期的脉冲信号。

    ③ 通过面板Acquire按键,设置显示方式为点显示。

    通过旋转Horizontal旋钮设置示波器时基,在正常模式下不同时基下示波器拥有不同的波形捕获率。

    如下图3/4/5/6测得正常模式下,时基分别为100ns/div、50ns/div时,示波器的实际波形捕获率。

    178c9318fa557c0cdfaf140e86a64b1c.png
    △ 图3.时基为100ns/div

    038e51423ac36f1ed065d8dbdbf7dfa9.png
    △ 图4.测得输出频率为36.3KHZ

    557251f4dc4c81c1b2751e52d794a986.png
    △ 图5.时基为50ns/div

    5718b727ad71937065339a3a530c675b.png
    △ 图6.测得输出频率为70KHZ

    然而,鼎阳科技的SDS1202X示波器,在顺序模式下拥有更高的波形捕获率,需要①设置时基处于50ns/div②通过Acquire按键,选择菜单下分段采集选项,打开分段采集功能,此时示波器进入顺序模式。

    打开SDS3000示波器频率测量功能,测得此时的脉冲信号频率即为SDS1202X的波形波形捕获率,如下图7实测脉冲频率500KHZ,测量结果相比SDS1202X标称的40万帧/s的波形捕获率还有余量!

    2951075c2e2fbd0bf65b340fa032bb1e.png
    △ 图7.测得SDS1202X输出脉冲信号频率

    以上示波器波形捕获率的测试方法,有兴趣的朋友如果手上有同系列或者其他可测试的示波器,也可用以上方法测试下,来验证下自己的示波器是否合乎规格!

    有许多工程师还在继续使用模拟示波器,因为模拟示波器死区时间几乎可以忽略,却也存在其他的不足,比如无法做数据统计分析,无法记录等,这也是模拟示波器用户越来越少的原因,数字示波器虽然可以克服以上缺点,但也有一定的不足,尤其是在异常信号分析时,由于死区时间的存在,很可能导致观察不到完整波形,如果找出调试和偶发问题对各位来说非常重要,那么选择测量所用的示波器时,就需要考虑波形捕获率这个因素,使用拥有超高的波形捕获率的示波器,定会让异常波形无所遁形,从而协助工程师快速确定电路随机故障问题!

    欢迎大家关注鼎阳硬件智库,了解更多测试类文章!


    版权声明:鼎阳硬件设计与测试智库发表的所有文章皆为鼎阳硬件设计与测试智库专家呕心沥血之原创。希望我们的经验总结能够帮助到更多的硬件人,欢迎转载!我们鼓励分享,但也坚决捍卫我们的权益。引用请注明出处——“鼎阳硬件设计与测试智库”微信号(SiglentThinkTank)。鼎阳硬件设计与测试智库将保留追究文章非法盗用者法律责任的权利!

    展开全文
  • *阵列接收的声音信号相对频率范围更大, 达到3~ 4 个数量级, 如何选择聚焦频率就成为估计算法的关键问题。为了应对多重信号分类( Multiple Signal Characteristic, MUSIC) 算法对阵元间隔的要求, 防止出现多值模糊。...
  • *阵列接收的声音信号相对频率范围更大, 达到3~ 4 个数量级, 如何选择聚焦频率就成为估计算法的关键问题。为了应对多重信号分类( Multiple Signal CharacteristIC, MUSIC) 算法对阵元间隔的要求, 防止出现多值模糊。...
  • C#中常用的42个类

    2021-03-16 01:10:00
    摘要:C#源码,综合实战,常用类库 C#中常用的42个类,如截图所示,这些小类库似乎使用频率都比较高,作为从事C#编程的朋友来说,应该把这些类库收集起来,方便自己查询和使用。  部分类库:  c#全局键盘钩子.txt  ...
  • 音频常用的音频格式

    2017-11-20 22:52:35
    声音文件或称数字音频,是将真实声音以数字信号保存,播放时通过声卡将信号恢复悦耳的声音,绝大多数声音文件采用了不同的音频压缩算法,在力求保存声音质量的前提下尽可能获得更小的文件。 wave文件 .wav微软公司,...

    音频文件分为声音文件(通过声音录入设备录制的原始声音)和MIDI文件(一种音乐演奏指令序列)两类。

    声音文件或称数字音频,是将真实声音以数字信号保存,播放时通过声卡将信号恢复悦耳的声音,绝大多数声音文件采用了不同的音频压缩算法,在力求保存声音质量的前提下尽可能获得更小的文件。

    wave文件  .wav微软公司,.wav格式支持多种音频位数、采样频率和声道

    MP3 目前使用用户最多的有损压缩数字音频格式,它的全称是MPEG Audio Layer-3,固定编码率的方式(CBR),128KBPs固定数据速率编码,MP3的编码方法是开放的。

    Windows媒体音频文件,.WMA微软媒体音频文件格式,只需要64kbps的编码字节率就可以达到CD音质。

     

    MIDI文件--.MID/.RMI

    MIDI是乐器数字接口(Musical  Instrument Digital Interface)的英文缩写,是数字音乐/电子合成器的统一国际标准,只包含产生某种声音的指令。其文件数据量通常比声音文件小得多。

     

     

     

    展开全文
  • 声音的一些基本概念

    2013-01-04 11:04:30
    一。声音的基本概念  声音代表了空气的密度随时间的变化,基本上是一个连续的函数,但是若要将此信号储存在电脑里,就必须将此信号...点数越高,声音品质越好,但是资料量越大,常用的取样频率如下:  1)、8K
  • 重要单位:1N/m=1kg/s21r/min=1/60HZ标准大气压 1.013*105空气密度基准...1/3倍频程测量范围: 中心频率两侧23.16%带宽1、基本公式声速:声压与声强关系:其中v=wA ,单位:W/m^2。声能密度和声压关系,由于声级...
  • 一些常用的语音特征提取算法

    千次阅读 2019-10-23 11:37:00
    成人的特点是通过大约100块肌肉的协调运动,每秒发出14种不同的声音。说话人识别是指软件或硬件接收语音信号,识别语音信号中出现的说话人,然后识别说话人的能力。特征提取是通过将语音波形以相对最小的数据速率...
  • 一个CD音频文件是一个*.cda文件,这只是一个索引信息,并不是真正包含声音信息,所以不论CD音乐长短,在电脑上看到“*.cda文件”都是44字节长。注意:不能直接复制CD格式*.cda文件到硬盘上播放,需要.
  • 声音的基本概念

    2012-12-20 10:40:17
    http://www.elecfans.com/article/88/129/2009/2009032538075.html 常用的语音采样频率 8 11.025 16 22.05 44.1 48
  • 游戏音效是指玩家在游戏中触发时程序反馈给玩家而听到的声音, 例如点击某个功能触发的按钮声、触发挥刀、开枪的声音,或是进入某个场景,这个场景里你会听到鸟叫河水声,小怪物等等等都叫做音效。 游戏里的音效虽然...
  • 一、数字化音频原理:声音其实是一种能量波,因此也有频率和振幅特征,频率对应于时间轴线,振幅对应于电平轴线。通常人耳可以听到的频率在20Hz到20KHz声波称为为可听声,低于20Hz成为次声,高于20KHz为...
  • ASR中常用的语音特征之FBank和MFCC(原理 + Python实现)一步一步讲解和实现ASR中常用的语音特征——FBank和MFCC的提取,包括算法原理、代码和可视化等。语音信号的产生语音通常是指人说话的声音。从生物学的角度来看...
  • 视频常用参数

    千次阅读 2016-08-09 18:22:23
    现在看看视频常用的几个参数采样率指将模拟信号转换成数字信号时的采样频率,也就是单位时间内采样的多少点,一个采样点数据有多少个比特。用Hz来表示 电影的采样率是24赫兹,PAL制式的采样率是25赫兹,NTSC制式的...
  • 自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 1、什么是采样率和采样大小(位/bit)?  ...
  • 常用音频协议介绍

    千次阅读 2017-03-23 17:08:28
     一、数字化音频原理:声音其实是一种能量波,因此也有频率和振幅特征,频率对应于时间轴线,振幅对应于电平轴线。通常人耳可以听到的频率在20Hz到20KHz声波称为为可听声,低于20Hz成为次声,高于20KHz为...
  • 声学常用概念

    2008-12-07 13:58:00
    共振频率通常一个物体有多个共振频率,因为振动可以叠加,所以当受迫振动的频率和共振频率一样时,就会产生物体在该频率最大... 泛音(overtone)泛音是指一个声音中除了基频外其它频率的音,乐器或人声等自然发出
  • 1、EQ的简介Audio equalizer filter (音频均衡器)常用的音效调节的一种滤波器。EQ的应用成熟而广泛,在各个场景的运用中神秘又有效。有时候它好似似一种“玄学”,因为对EQ的调节和应用确实能达到一种好的效果,...
  • 一、音频 指人耳可以听到的声音频率在20Hz~20kHz之间的声波。 如果在计算机加上相应的音频卡—就是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性如音的高低等都可以用计算机硬盘文件的方式储存...
  • 一、音频 指人耳可以听到的声音频率在20Hz~20kHz之间的声波。 如果在计算机加上相应的音频卡—就是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性如音的高低等都可以用计算机硬盘文件的方式储存...
  • 一、采样频率 指每秒钟取得声音样本的次数。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取...22050 的采样频率常用的,44100已是CD音质,超过48000或96000的采样对人耳已经没有意义。这和电影的每秒24...
  • MIDI音乐制作概论 ** MIDI音乐在制作过程中需要用到相当多的插件,从最基本的压缩EQ到稍微高端一些的粒子效果glitch等。本笔记主要介绍一下常用的几...均衡器可以提升或者降低不同的声音频率,使各个乐器声部的声音平衡

空空如也

空空如也

1 2 3 4 5 ... 13
收藏数 250
精华内容 100
关键字:

常用的声音频率