精华内容
下载资源
问答
  • 介绍音频信号数字通信实验装置设计的实现过程,该装置以FPGA为主控芯片,以光纤为通讯媒介,将音频信号数字化后通过光纤实现传输,并对电路各个模块的功能及实现加以说明。实验装置采用分模块式的设计,设计思路灵活...
  • 系统从功能上可分为音频信号发送模块和接收模块,其中的逻辑控制部分通过Verilog语言编程实现,前者包括A/D采样转换、频率检测、8B/10B编码、BCD码制转换及液晶显示控制;后者包括8B/10B解码,D/A转换等。同时,接收...
  • 数字通信对比传统的模拟通信有精度高、灵活性高、可靠性强、易大规模集成、时分复用、功能稳定等优点而被广泛的应用在工业、医疗、军事等诸多领域。数字光纤通信兼有两者的优点,必将成为通信领域的发展方向。
  • 音频信号数字化及压缩编码

    千次阅读 2017-03-12 23:14:49
    音频信号数字化 电视广播离不开声音信号,随着人们对电视质量的要求越来越高,在数字电视广播、高清晰数字电视和数字电影中不仅应有高质量的图像,还要保证有高质量的伴音。 我们行业标准GY/T 156-2000《演播室...

    一.音频信号的数字化

    电视广播离不开声音信号,随着人们对电视质量的要求越来越高,在数字电视广播、高清晰数字电视和数字电影中不仅应有高质量的图像,还要保证有高质量的伴音。

    我们行业标准GY/T 156-2000《演播室数字音频参数》中对音频信号的取样频率、量化比特数和声道数等作出了规定。

    1.取样频率:演播室数字音频参数标准规定,音频信号的取样频率优选为48kHz,也可以选用32kHz或44.1kHz。

    2.量化比特数:演播室数字音频编码方式优选PCM20bit线性量化,也可以选用16bit、18bit以及24bit的线性量化。

    3.编码方式:为了减小误码对信号幅度的影响,在数字音频编码中通常不采用自然二进制码或偏置二进制码,而是采用2的补码,这样可以防止产生不希望的噪音。

    另外标准中还对4轨声音记录格式和8轨声音记录格式作出了规定。

     

    二. 数字音频信号的压缩过程

    音频信号数字化之后所面临的问题是巨大的数据量如何进行有效地传输和存储的问题,在数字演播室中,无压缩的有效码率高达1.92Mb/s,而在CD和广播该项数值分别为1.41 Mb/s和1 Mb/s,因此为了提高传输效率,降低存储费用,就必须对数字音频信号进行压缩编码。

     

    1.数字音频信号的压缩机理

        1.去除声音信号中的冗余部分

           声音信号中的冗余部分包括时域信息冗余和频域信息冗余。

           a.其中时域信息冗余主要表现在:1.幅度非均匀分布,即不同幅度的样值出现的概率不同,小幅度的样值比大幅               度的样值出现的概率高;2.样本之间的相关性;3.基音之间的相关性。

           b.频率信息冗余主要表现在:1.非均匀功率谱密度,低频成分能量较高,高频成分能量较低;2.语音特有的短时             功率谱密度,在某些频率出现峰值,而某些频率出现谷值。

         2.利用人耳的听觉特性

            a.人耳对各频率的灵敏度是不同的,即在不同的频率,人耳会表现出不同的敏感度。因此可以将输入信号与最小            听觉阈值相比较,去除那些低于阈值的信号,这样就可以压缩数据。

            b.频率之间的掩蔽效应,这是指人耳接受信号时,不同频率之间的相互干扰。例如当高电平的频率点信号和低电            平的不同频率点信号同时出现时,电平较低的频率点的声音将听不到。这样可以将低于掩蔽阈值的信号不编                码,高于掩蔽阈值的信号将重新分配量化比特值。

            c.时域掩蔽效应,这是指在一个强信号之前或之后的弱信号也会被屏蔽掉。

               利用人耳的感觉特性对数据流进行压缩,是既能得到较高的压缩比又能保证音质的重要原因。


    2.音频压缩编码质量评价指标

    通常用以下属性来衡量数字音频信号的编码质量:

    1.比特率;2.主观/客观的语音质量;3.计算复杂度;4.延迟量;5.对于通道误码的灵敏度


    3.常见的数字音频压缩标准

    随着数字电视技术和多媒体通信技术的广泛应用,数字音频压缩编码技术在近20年也得到了快速的发展。典型的编码标准有:MPEG-1、MPEG-2 Audio、MPEG-2 AAC、MPEG-4 Audio和Dolby AC-3音频编码标准等。


    展开全文
  •  各省台信号已完成演播室数字化,实现了SDI数字视频输出(含嵌入音频),SDI传输的是采样量化后没有压缩的数字视音频信号,其传输码率为270Mb it/s,不仅占用带宽很大,而且传输距离只有100m 左右,在内部节目交换尚可...
  • 一款非常好用的录音软件,能够实现不限时录音,支持话筒、线路及任何播放器声音抓取并录音,操作简单...还可以控制录音质量,可使您方便地将磁带、收音机广播节目、电视音频数字化的形式转录、存放于计算机的硬盘上。
  • 音频数字化原理

    千次阅读 2016-03-22 14:46:19
    音频数字化简单原理   从字面上来说,数字化 (Digital) 就是以数字来表示,例如用数字去记录一张桌子的长宽尺寸,各木料间的角度,这就是一种数字化。跟数位常常一起被提到的字是模拟 ( Analog/Analogue) ,...

    音频数字化简单原理 

        从字面上来说,数字化 (Digital) 就是以数字来表示,例如用数字去记录一张桌子的长宽尺寸,各木料间的角度,这就是一种数字化。跟数位常常一起被提到的字是模拟 ( Analog/Analogue) ,模拟的意思就是用一种相似的东西去表达,例如将桌子用传统相机 将三视图拍下来,就是一种模拟的记录方式。
    两个概念:

    1、分贝(dB):声波振幅的度量单位,非绝对、非线性、对数式度量方式。以人耳所能听到的最静的声音为1dB,那么会造成人耳听觉损伤的最大声音为100dB。人们正常语音交谈大约为20dB。10dB意味着音量放大10倍,而20dB却不是20倍,而是100倍(10的2次方)


    2、频率(Hz):人们能感知的声音音高。男性语音为180Hz,女性歌声为600Hz,钢琴上 C调至A调间为440Hz,电视机发出人所能听到的声音是17kHz,人耳能够感知的最高声音频 率为20kHz。

    将音频数字化,其实就是将声音数字化。最常见的方式是透过 PCM(脉冲) 。运作原理如下。首先我们考虑声音经过麦克风,转换成一连串电压变化的信号,如下图所示。这张图的横座标为秒,纵座标为电压大小。要将这样的信号转为 PCM 格 式的方法,是先以等时距分割。



    我们把分割线与信号图形交叉处的座标位置记录下来,可以得到如下资料,(0.01,11.6 5) ,(0.02,14.00) 、 (0.03,16.00) 、 (0.04,17.74) … ..(0.18,15.94) 、 (0.19 ,17.7) 、 (0.20,20) 。好了,我们现在已经把这个波形以数字记录下来了。由于我们 已经知道时间间隔是固定的 0.01 秒,因此我们只要把纵座标记录下来就可以了,得到 的结果是 11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07 19.44 18.59 17.47
    16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00 这一数列。这一串数字就
    是将以上信号数字化的结果。看吧,我们确实用数字记录了事物。在以上的范例中,我
    们的采样频率是 100Hz(1/0.01 秒 ) 。其实电脑中的 .WAV 档的内容就是类似这个样子
    ,文件头中记录了采样频率和可容许最大记录振幅,后面就是一连串表示振幅大小的数
    字,有正有负。常见CD唱盘是以PCM格式记录,而它的采样频率 (Sample Rate) 是 441
    00Hz ,振幅采样精度/数位是 16Bits ,也就是说振幅最小可达 -32768(-2^16/2) ,最
    大可达 +32767(2^16/2-1) 。CD唱盘是以螺旋状由内到外储存资料,可以存储74分钟的
    音乐。CD唱盘的规格为什么是 44.1kHz、16Bits呢?关于 44.1kHz 这个数字的选取分为
    两个层面。首先人耳的聆听范围是 20Hz 到 20kHz ,根据 Nyquist s ,理论
    上只要用 40kHz 以上的采样频率就可以完整记录 20kHz 以下的信号。那么为什么要用
    44.1kHz 这个数字呢?那是因为在 CD 发明前硬盘还很贵,所以主要将数字音频信号储
    存媒体是录像带,用黑白来记录 0 与 1 。而当时的录像带格式为每秒 30 张,而一张
    图又可以分为 490 条线,每一条线又可以储存三个取样信号,因此每秒有 30*490*3=4
    4100 个取样点,而为了研发的方便, CD唱盘也继承了这个规格,这就是 44.1kHz 的由
    来。在这里我们可以发现无论使用多么高的采样精度/数位,记录的数字跟实际的信号大
    小总是有误差,因此数字化无法完全记录原始信号。我们称这个数字化造成失真称为量
    化失真。

    数字化的最大好处是资料传输与保存的不易失真。记录的资料只要数字大小不改变,记
    录的资料内容就不会改变。如果我们用传统类比的方式记录以上信号,例如使用录音带
    表面的磁场强度来表达振幅大小,我们在复制资料时,无论电路设计多么严谨,总是无
    法避免杂讯的介入。这些杂讯会变成复制后资料的一部份,造成失真,且复制越多次信
    噪比 ( 信号大小与噪音大小的比值 ) 会越来越低,资料的细节也越来越少。如果多次
    复制过录音带,对以上的经验应该不陌生。在数字化的世界里,这串数字转换为二进制
    ,以电压的高低来判读1与0,还可以加上各种检查码,使得出错机率很低,因此在一般
    的情况下无论复制多少次,资料的内容都是相同,达到不失真的目的。

    那么,数字化的资料如何转换成原来的音频信号呢?在计算机的声卡中一块芯片叫做 D
    AC(Digital to Analog Converter) ,中文称数模转换器。DAC的功能如其名是把数字信
    号转换回模拟信号。我们可以把DAC想像成 16 个小电阻,各个电阻值是以二的倍数增大
    。当 DAC 接受到来自计算机中的二进制 PCM 信号,遇到 0 时相对应的电阻就开启,遇
    到 1 相对应的电阻不作用,如此每一批 16Bits 数字信号都可以转换回相对应的电压大
    小。我们可以想像这个电压大小看起来似乎会像阶梯一样一格一格,跟原来平滑的信号
    有些差异,因此再输出前还要通过一个低通滤波器,将高次谐波滤除,这样声音就会变
    得比较平滑了。

    从前面的内容可以看出,音频数字化就是将模拟的(连续的)声音波形数字化(离散化),
    以便利用数字计算机进行处理的过程,主要包参数括采样频率(Sample Rate)和采样数
    位/采样精度(Quantizing,也称量化级)两个方面,这二者决定了数字化音频的质量。
    采样频率是对声音波形每秒钟进采样的次数。根据这种采样方法,采样频率是能够再现
    声音频率的一倍。人耳听觉的频率上限在2OkHz左右,为了保证声音不失真,采样频率应
    在4OkHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.lkHz等。采样频率越高
    ,声音失真越小、音频数据量越大。采样数位是每个采样点的振幅动态响应数据范围,
    经常采用的有8位、12位和16位。例如,8位量化级表示每个采样点可以表示256个(0-25
    5)不同量化值,而16位量化级则可表示65536个不同量化值。采样量化位数越高音质越好
    ,数据量也越大。

    反映音频数字化质量的另一个因素是通道(或声道)个数。记录声音时,如果每次生成一
    个声波数据,称为单声道;每次生成二个声波数据,称为立体声(双声道),立体声更能
    反映人的听觉感受。

    除了上述因素外,数字化音频的质量还受其它一些因素(如扬声器质量,麦克风优劣,计
    算机声卡A/D与D/A(模/数、数/模)转换芯片品质,各个设备连接线屏蔽效果好坏等)的
    影响。

    综上所述,声音数字化的采样频率和量化级越高,结果越接近原始声音,但记录数字声
    音所需存储空间也随之增加。可以用下面的公式估算声音数字化后每秒所需的存储量(假
    定不经压缩):

    存储量=(采样频率*采样数位)/8(字节数)

    若采用双声道录音,存储量再增加一倍。例如,数字激光唱盘(CD-DA,红皮书标准)的
    标准采样频率为44.lkHz,采样数位为16位,立体声,可以几乎无失真地播出频率高达2
    2kHz的声音,这也是人类所能听到的最高频率声音。激光唱盘一分钟音乐需要的存储量
    为:

    44.1*1000*l6*2*60/8=10,584,000(字节)=10.584MBytes

    这个数值就是微软Windows系统中WAVE(.WAV)声音文件在硬盘中所占磁盘空间的存储量。
    由MICROSOFT公司开发的WAV声音文件格式,是如今计算机中最为常见的声音文件类型之
    一,它符合RIFF文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台机器
    应用程序所广泛支持。另外,WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他压缩
    算法,支持多种音频位数,采样频率和声道,但其缺点是文件体积较大,所以不适合长
    时间记录。因此,才会出现各种音频压缩编/解码技术的出现,例如,MP3,RM,WMA,VQ
    F,ASF等等它们各自有自己的应用领域,并且不断在竞争中求得发展。

    WAVE、MIDI、MP3、RM常见音频格式简介

    WAVE--WINDOWS系统最基本音频格式---*.wav

    1、占用巨大硬盘空间,音质最好,支持音乐与语音
    2、通常采样使用44KHZ采样/秒,16位/采样,立体声,双声道,CD音质
    3、一分钟音乐占用大约10M硬盘空间,56K调制解调器需要30分钟才能完成网络传送

    MIDI--电子合成音乐---*.mid

    1、与WAVE格式截然不同,只有音乐,没有语音
    2、使用音色库回放,有软硬波表之分,
    3、十分节省磁盘空间,但是音质回放对声卡依赖较大
    4、无法使用Total Recorder录制mid音乐
    5、可以使用Wingroove软波表或其它软件转为wave

    MP3--最流行音频压缩格式---*.mp3

    1、节省硬盘空间,有损压缩,无法复原
    2、音质与不同压缩编码软件有关
    3、音乐与语音,可以使用各种采样比率

    RM--网络流媒体压缩格式---*.rm/*.ra

    1、节省磁盘空间,有损压缩,无法复原
    2、在目前比较窄的网络带宽下,与Real Server服务器配合,使用Real Player在客户端
    比较流畅地播放音视频媒体

    其它还有:

    1、微软的WMA编码--*.wma
    2、微软的ASF流媒体编码--*.asf
    3、Yamaha的VQF编码--*.vqf

    展开全文
  • 音频数字信号详解

    千次阅读 2019-09-23 23:47:33
    1. 信号是信息的物理表现形式 / 携带信息的自变量... 单声道音频/双声道音频/五通道环绕声音频. 信号表现 : 任意时刻都可以确定信号取值的确定信号. 任意时刻取值不能确定的不确定信号. 自变量可以为: 时间 频率...

     

     

    1. 信号是信息的物理表现形式 / 携带信息的自变量函数.

    信息是信号的具体内容 .

     

    2. 信号的类别 : 电的, 声的, 光的 , 磁的, 机械的. 热的 . 生物医学.

    根据产生源: 单通道 和 多通道 . 单声道音频/双声道音频/五通道环绕声音频.

    信号表现 : 任意时刻都可以确定信号取值的确定信号. 任意时刻取值不能确定的不确定信号.

    自变量可以为: 时间 频率 空间 可以有一维 (时间与频率) 二维 (黑白图像信号的x,y坐标) 黑白视频信号的 x,y,t . 彩色视频信号的红绿蓝三原色三个三微信号组成的三通道信号.

    还有其他划分方法,例如周期信号与非周期信号,功率信号与能量信号等。

     

    声音就是先由物体振动产生的声波,声波再通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源。振动引起的气压变化的大小称为声压,声压是决定声强即响度的主要因素。气压具有一定的频率,即声波每秒变化的次数,以Hz(赫兹)表示。它决定了声音的高低。声压的测量单位是帕(斯卡)

     

     

    16Hz至20000Hz的声波,低于16Hz的叫次声波,高于20000Hz的叫超声波。

     

    人耳对2000Hz至5000HZ的声波感受力最强,但人说话声音频率一般在300Hz至700HZ。

     

    音频信号、Audio Signal

    音频信号是指声波的频率、幅度变化信息载体。

     

    信号分类

     

    连续时间连续幅值信号是指在以时间为自变量的一维信号中,除个别不连续点外,信号在所讨论的时间段内的任意时间点都有确定的振幅值,且振幅值在取值范围内也有任意种取值。该信号也叫模拟信号。

     

    连续时间离散幅值信号是指在以时间为自变量的一维信号中,除个别不连续点外,信号在所讨论的时间段内的任意时间点都有确定的振幅值,但振幅值在取值范围内只有特定种取值。该信号也叫量化信号。

     

    连续时间连续幅值信号和连续时间离散幅值信号都称为连续时间信号。

     

    例如:信号 的时间和幅值都是连续的,即为模拟信号。

     

    离散时间连续幅值信号是指在以时间为自变量的一维信号中,只在离散时间瞬间才有幅值,在其它时间没有,但振幅值在取值范围内有任意种取值。该信号也叫采样信号、抽样信号、取样信号、脉冲信号。

     

    散时间离散幅值信号是指在以时间为自变量的一维信号中,只在离散时间瞬间才有幅值,在其它时间没有,且振幅值在取值范围内也只有特定种取值。该信号也叫数字信号。

     

    离散时间连续幅值信号和离散时间离散幅值信号都称为离散时间信号,也常称为序列。

     

     

    确定信号是指能用确定的数学函数表示的信号,任意时刻都有确定的幅值,预先可以知道该信号的变化规律。

     

    随机信号是指不能数学函数表示的信号,不能预先可以知道该信号的变化规律。

     

    周期信号是指按照一定的时间间隔周而复始,并且无始无终的信号。

     

    他们的表达式可以写作:

    (任意整数)

    其中

    称为

    的周期,而满足关系式的最小

    值则称为是信号的基本周期。

     

     

    连续时间信号和离散时间信号与周期信号和非周期信号彼此包含,即连续时间信号和离散时间信号中有周期信号和非周期信号,同理,周期信号和非周期信号中也包含连续时间信号和离散时间信号。

     

    模拟信号是指用连续变化的物理量所表达的信息,其信号的幅度,或频率,或相位随时间作连续变化,如温度、湿度、压力、长度、电流、电压等等,我们通常又把模拟信号称为连续信号,它在一定的时间范围内可以有无限多个不同的取值。而数字信号是指在取值上是离散的、不连续的信号。

    数字信号处理利用计算机的信号处理设备,采用数值计算的方法对信号进行处理的一门学科,包括滤波、变换、压缩、扩展、增强、复原、估计、识别、分析、综合等加工处理,已达到提取有用信息、便于应用的目的。

    在数字信号处理领域,量化是指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。量化主要应用于从连续信号到数字信号的转换中。连续信号经过采样成为离散信号,离散信号经过量化即成为数字信号。注意离散信号通常情况下并不需要经过量化的过程,但可能在值域上并不离散,还是需要经过量化的过程。信号的采样和量化通常都是由模数转换器实现的。

     

     

     

    模拟信号转换成数字信号的过程叫做模数转换,简写成A/D,完成这种功能的电路叫做模数转换器,简称ADC。模数转换器的框图如图所示:

     

     

     

    输入端输入的模拟信号,经采样、保持、量化和编码四个过程的处理,转换成对应的二进制数码输出。采样就是利用模拟开关将连续变化的模拟量变成离散的数字量,如上图中波形③所示。由于经采样后形成的数字量宽度较窄,经过保持电路可将窄脉冲展宽,形成梯形波,如波形④所示。量化就是将阶梯形模拟信号中各个值转化为某个最小单位的整数倍,便于用数字量来表示。编码就是将量化的结果(即整数倍值)用二进制数码来表示。这个过程就实现了模数转换。目前集成模数转换器种类较多,有8位、10位模数转换器。

     

     

    1. 采样频率、采样率、Sampling Frequency、Sampling Rate

    采样频率就是每秒对音频模拟信号的采样次数,常见音频采样频率有8000Hz、16000Hz、22050Hz、32000Hz、44100Hz、48000Hz、96000Hz等。

    采样频率越高,音频数字信号就越接近之前的音频模拟信号,音质也就越好,硬件成本也就越高,存储空间占用也就越大。

     

    如果采样位数为8位,则有256个级别的采样数据,其动态范围为20×log(256)分贝,大约是48db。

     

     

     

    1. 采样数据帧、Sampling Data Frame

    采样数据帧就是将多个连续的采样数据分为一组,主要是为了便于处理采样数据。

    采样数据帧一般是以时间为单位进行分组,例如:将8000hz的音频数据流按20ms为一个单位划分为一帧,则每帧包含160个采样数据。

     

    音频数据帧的大小计算公式:(采样频率×采样位数×声道数×时间)/ 8

     

    目前我们Dueros 采样频率 16k 采样位数 16位 声道 1 那么20ms 的数据帧的大小为

    16000 * 16 * 1 * 0.0.2 / 8 = 640字节

     

     

    1. 采样数据帧长度、Sampling Data Frame Size

     

    采样数据帧长度就是每个采样数据帧包含多少个采样数据。

     

    采样数据帧的长度计算公式:采样频率×时间 16k * 0.02 = 320个数据

     

     

    1. 脉冲编码调制、脉码调制、Pulse Code Modulation、PCM

     

    我们采样到的最原始的音频数字信号的那一串数列就是脉冲编码调制格式的,也叫PCM格式。具体格式如下:

     

     

    声道数

    采样位数

    字节1

    字节2

    字节3

    字节4

    字节5

    字节6

    字节7

    字节8

    单声道

    8位

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    单声道

    16位

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    FRONT

    前声道

    采样数据

    双声道

    8位

    LEFT

    左声道

    采样数据

    RIGHT

    右声道

    采样数据

    LEFT

    左声道

    采样数据

    RIGHT

    右声道

    采样数据

    LEFT

    左声道

    采样数据

    RIGHT

    右声道

    采样数据

    LEFT

    左声道

    采样数据

    RIGHT

    右声道

    采样数据

    双声道

    16位

    LEFT

    左声道

    采样数据

    RIGHT

    右声道

    采样数据

    LEFT

    左声道

    采样数据

    RIGHT

    右声道

    采样数据

     

     

     

    1 网络传输、Transport

     

    发送方依次将各个音频数据帧通过网络发送给通话的对方。由于语音对讲对实时性要求比较高,所以低延迟和平稳连续是非常重要的,这样语音对讲才能顺畅。

    网络传输必须要注意的问题就是,一个是乱序到达,一个是丢包。

     

    一般常用的网络传输协议是实时传输协议(Real-time Transport Protocol、RTP),也有用TCP协议的

     

     

    音频数字信号还原、回放、播放、Playback、Play

    音频数字信号还原是指,将得到的PCM格式音频数据帧提交给声卡,声卡会把音频数字信号再转换为音频模拟信号,并输出到扬声器,扬声器就会根据音频模拟信号而振动起来,然后就会产生声波,最后我们就能听还原后的声音了。

     

    音频数字信号处理、Audio Digital Signal Processing、Audio DSP

     

    仅仅只是实现网络电话,那就只需要进行采样、传输、播放就好了,但是实际使用过程中我们会发现语音对讲中的各种问题会严重影响我们的对讲体验,正是有很多现实的因素给我们带来了众多挑战,使得网络电话系统的实现不是那么简单,其中涉及到很多专业技术。

    我觉得"效果良好"的网络电话系统应该达到如下几点:

    1. 语音延迟低,实时感很强。

    2. 声音流畅,没有卡顿的感觉。

    3. 音量适中,没有忽大忽小的感觉。

    4. 环境背景噪音要小。

    5. 没有声学回音。

    6. 网络流量要小。

     

    编码、Encode

    简介

    如果我们将采样到的PCM格式音频数据直接发送或者存储,那么每秒需要占用的带宽就是16000Hz×16bit=31.25 KB/S,这就要占用很大的带宽了。那么我们就需要对PCM格式进行压缩了,将压缩后的音频数据再进行发送或者存储,当需要播放的时候,再解压缩成PCM格式进行播放。我们把音频数据压缩的过程称之为编码,把音频数据解压缩的过程称之为解码。

     

    音频编码分为两大类,一类是无损压缩,一类是有损压缩。无损压缩是指编码前的PCM格式音频数据和解码后的PCM格式音频数据是完全一样的,音频信号没有任何的损失。有损压缩是指解码后的PCM格式音频数据只是近似于编码前的PCM格式音频数据,并不完全一样。所以无损压缩的音质是最好的,压缩率也是最低的,有损压缩的音质会受压缩率的高低影响好坏。

     

    音频编码算法一般有三种方式:固定比特率、可变比特率、平均比特率。不同的编码方式的区别主要在于压缩率不一样。

     

    目前常用的无损音频编码格式有:AAL、APE、FLAC、等等,

    有损音频编码格式有:G.729、iLBC、AAC、Speex、Opus、等等。

     

    固定比特率、静态比特率、固定码率、Constant Bit Rate、CBR

     

    CBR编码指的是编码器每秒钟的输出码数据量(或者解码器的输入码率)应该是固定制(常数)。

    。对于音频压缩来说,比如MP3,比特率是最重要的因素,它用来表示每秒钟的音频数据占用了多少个比特,这个值越高,音质就越好。CBR使用固定比特率编码音频,一首MP3从头至尾为某固定值,如128 kbps进行编码。

     

    1. 可变比特率、动态比特率、可变码率、Variable Bit Rate、VBR Vorbis

    可变比特率可以随着图像的复杂程度的不同而变化,因此其编码效率比较高,快速运动画面的马赛克就很少。编码软件在压缩时,根据视频数据,即时确定使用什么比特率,这样既保证了质量,又兼顾了文件大小。使用这种方式时,编码程序可以选择从最差音视频质量(一般此时压缩比最高)到最好音视频质量(一般此时压缩比最低)之间的各种视频质量。在视频文件编码的时候,编码程序会尝试保持所选定的整个文件的品质,对视频文件的不同部分选择不同的比特率来编码。例如,使用MP3格式的音频编解码器,音频文件可以以8~320kbps的可变码率进行压缩,得到相对小的文件来节约存储空间。MP3格式的文件格式是*.mp3。

     

    当形容编解码器的时候,VBR编码指的是编码器的输出码率(或者解码器的输入码率)可以根据编码器的输入源信号的复杂度自适应的调整,目的是达到保持输出质量保持不变而不是保持输出码率保持不变。VBR适用于存储(不太适用于流式传输),可以更好的利用有限的存储空间:用比较多的码字对复杂度高的段进行编码,用比较少的码字对复杂度低的段进行编码。

     

    像Vorbis这样的编解码器和几乎所有的视频编解码器内在的都是VBR的。*.mp3文件也可以以VBR的方式进行编码。

    例如:有一段采样频率8000Hz的PCM格式音频数据,一共10帧,每帧20ms,可能其中5帧声音变化较大,其他5帧声音变化较小,那么用VBR来编码时,就会把声音变化较大的那5帧用较高的采样频率编码,编码后体积也较大,另外那声音变化较小的那5帧就用较低的采样频率编码,编码后体积也较小。

     

     

    平均比特率、平衡比特率、平均码率、Average Bitrate Rate、ABR

     

     

    平均比特率是VBR的一种插值参数。它针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内,例如以每50帧(30帧约1秒)为一段,低频和不敏感频率使用相对低的流量,高频和大动态表现时使用高流量,可以做为VBR和CBR的一种折衷选择

     

    当对方接收到编码后的音频数据帧后,需要对其进行解码,以恢复成为可供声卡直接播放的PCM格式音频数据。如果是直接发送PCM格式的音频数据帧,对方就不需要解码,直接就可以播放。

    通常情况下没有解码的音频数据是不能播放的,但也有些操作系统可以直接播放某些常用编码格式的音频数据,其实就是操作系统帮我们做了解码。

     

    声学回音消除、Acoustic Echo Cancellation、AEC

     

    大家在语音通话时都会用到电脑的扬声器外放功能,或者手机的免提功能。这是一个很方便的功能,但这个小小的功能曾经音频技术提出了很大挑战。当使用外放功能时,扬声器播放的声音会被麦克风再次采集,然后在传给对方时,对方就会听到自己的声音,俗称声学回音。这个声学回音在被循环很多次之后,还有可能会变成啸叫。所以,我们需要将这个声学回音消除掉。

     

     

     

     

     

    声学回音消除必须注意的问题:

    1. 做声学回音消除时,首先要尽量保证音频输入帧和音频输出帧是同步的,时间差越小,声学回音消除效果就越好,时间差越大,声学回音消除效果也就越差,因为声学回音消除算法是需要同时传入音频输入帧和音频输出帧的。

    2. 声学回音消除一般都是在一个音频输入数据帧刚采样完毕和一个音频输出数据帧刚播放完毕后,就立刻做,不要在做了其他处理之后再做,这样会降低效果。

    3. 声学回音必须在远端语音出现之后,因为必须是先播放出来,然后麦克风才能采样到,否则声学回音消除算法会认为这是近端语音,而不是声学回音。

    4. 声学回音与远端语音会有一段时间间隔,有些声学回音消除算法可以自动适应这个时间间隔,但有些声学回音消除算法无法自动适应这个时间间隔,需要手动设置,这个时间间隔设置是否精准,将直接导致声学回音消除效果的好坏,设置不好可能会导致声学回音无法消除,或者近端语音被误消除掉。

    5. 声学回音一般都比远端语音的音量要小,但也有些扬声器的音量较大,会将远端语音的音量放大很多,导致声学回音的音量要比远端语音的音量大很多,这种情况下有些声学回音消除算法可能无法正确识别声学回音,这就需要更换较好的声学回音消除算法。

    6. 如果说话双方同时说话,那么声学回音与近端语音就会重叠,这种情况下有些声学回音消除算法可能无法正确识别声学回音,这就需要更换较好的声学回音消除算法。

    7. 测试声学回音消除算法的时候,如果对讲的两个设备在同一个房间,那么两个设备会相互采样到对方扬声器播放出来的声音,会导致产生啸叫,所以测试时必须要在不同的房间。

     

    声学回音消除算法一般有这几种:时域算法,频域算法,子带算法。

    声学回音消除算法分为两大类:基于DSP等实时平台的回音消除,基于Windows等非实时平台的回音消除。两者的技术难度和重点是不一样的。

     

    各个操作系统是否自带声学回音消除功能:

    Windows、UNIX、Linux操作系统没有自带声学回音消除功能,需要调用第三方库实现。

    Android操作系统虽然自带有声学回音消除功能,但是需要设备厂商自己实现,由于很多厂商都实现不了该功能,所以大部分的手机都不自带该功能,仍然需要调用第三方库实现。

    IOS操作系统自带有声学回音消除功能,而且效果非常好,可以放心调用,当然也可以调用第三方库实现。

    音频输入输出数据帧同步的方法

     

     

    第一种:调用第三方修改的jni层的Android版的PortAudio的OpenSLES库实现同步,本方法可以完美同步,但是有些手机对OpenSLES库支持并不好,导致播放或录音有很高的延迟,所以本方法兼容性较差。下载地址:https://github.com/Gundersanne/portaudio_opensles

    第二种:在单线程中,先初始化AudioRecord类和AudioTrack类,并先调用AudioRecord.startRecording()函数再调用AudioTrack.play()函数,然后进入循环体,先调用AudioTrack.write()函数阻塞播放音频输出数据帧,然后再调用AudioRecord.read()函数获取音频输入数据帧,循环体完毕。理论上这样做出来的音频输入输出数据帧就是同步的,但是由于Android操作系统Java代码的函数调用是有延迟的,不同的手机延迟会不一样,最终就会导致大部分的手机不能同步,所以本方法兼容性和稳定性都很差。

    第三种:先在主线程中,初始化AudioRecord类和AudioTrack类,并先调用AudioRecord.startRecording()函数再调用AudioTrack.play()函数,然后再启动两个线程,一个音频输入线程负责调用AudioRecord.read()函数获取音频输入数据帧,并依次存放到已录音的音频输入数据帧链表,一个音频输出线程负责调用AudioTrack.write()函数播放音频输出数据帧,并依次存放到已播放的音频输出数据帧链表。先启动音频输入线程,再启动音频输出线程,这样已录音的音频输入数据帧链表和已播放的音频输出数据帧链表里的数据帧就是一一对应同步的,本方法在大部分情况下可以差不多完美同步,但是极少数情况下如果系统出现突然卡顿,就可能会不同步了,所以本方法兼容性和稳定性都很好。

     

    Android操作系统:

    第一种:调用第三方修改的jni层的Android版的PortAudio的OpenSLES库实现同步,本方法可以完美同步,但是有些手机对OpenSLES库支持并不好,导致播放或录音有很高的延迟,所以本方法兼容性较差。下载地址:https://github.com/Gundersanne/portaudio_opensles

    第二种:在单线程中,先初始化AudioRecord类和AudioTrack类,并先调用AudioRecord.startRecording()函数再调用AudioTrack.play()函数,然后进入循环体,先调用AudioTrack.write()函数阻塞播放音频输出数据帧,然后再调用AudioRecord.read()函数获取音频输入数据帧,循环体完毕。理论上这样做出来的音频输入输出数据帧就是同步的,但是由于Android操作系统Java代码的函数调用是有延迟的,不同的手机延迟会不一样,最终就会导致大部分的手机不能同步,所以本方法兼容性和稳定性都很差。

    第三种:先在主线程中,初始化AudioRecord类和AudioTrack类,并先调用AudioRecord.startRecording()函数再调用AudioTrack.play()函数,然后再启动两个线程,一个音频输入线程负责调用AudioRecord.read()函数获取音频输入数据帧,并依次存放到已录音的音频输入数据帧链表,一个音频输出线程负责调用AudioTrack.write()函数播放音频输出数据帧,并依次存放到已播放的音频输出数据帧链表。先启动音频输入线程,再启动音频输出线程,这样已录音的音频输入数据帧链表和已播放的音频输出数据帧链表里的数据帧就是一一对应同步的,本方法在大部分情况下可以差不多完美同步,但是极少数情况下如果系统出现突然卡顿,就可能会不同步了,所以本方法兼容性和稳定性都很好。

    第四种:本人后来发现,有些手机在调用AudioRecord.startRecording()函数后,居然并没有真正开始录音,而是要在调用AudioRecord.read()函数过程中时才会真正开始,那么这样就有可能会导致播放线程走在前面了,所以在第三种方法中,改为在音频输入线程调用一次AudioRecord.read()函数并丢弃掉后,再在音频输入线程中启动音频输出线程。这样本方法在绝大部分情况下可以差不多完美同步。

    第五种:本人后来又发现,有些手机在调用AudioRecord.read()函数后,居然并没有真正开始录音,而是要在调用好几次AudioRecord.read()函数后才会真正开始,那么这样就有可能会导致播放线程走在前面了,所以在第四种方法中,改为在音频输入线程调用多次AudioRecord.read()函数,直到读取到的音频数据不是全0了并全部丢弃掉后,再在音频输入线程中启动音频输出线程。这样本方法在所有手机上可以差不多完美同步。

     

     

    二、回声消除原理

    从通讯回音产生的原因看,可以分为声学回音(Acoustic Echo)和线路回音(Line Echo),相应的回声消除技术就叫声学回声消除(Acoustic Echo Cancellation,AEC)和线路回声消除(Line Echo Cancellation, LEC)。声学回音是由于在免提或者会议应用中,扬声器的声音多次反馈到麦克风引起的(比较好理解);线路回音是由于物理电子线路的二四线匹配耦合引起的(比较难理解)。

     

     

    1.  由于空间声学反射产生的声学回音(见下图):

     

     

     

     

     

     

     

    图中的男子说话,语音信号(speech1)传到女士所在的房间,由于空间的反射,形成回音speech1(Echo)重新从麦克风输入,同时叠加了女士的语音信号(speech2)。此时男子将会听到女士的声音叠加了自己的声音,影响了正常的通话质量。此时在女士所在房间应用回音抵消模块,可以抵消掉男子的回音,让男子只听到女士的声音。

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 声音信号数字化

    万次阅读 2018-02-22 15:24:02
    声音信号数字化 声音是一种模拟信号,想要用于计算机,就必须将模拟信号转化为数字信号,这样,我们就能在计算机上储存声音了,等待用户需要播放的时候,再将数字信号转化为模拟信号。 声音的数字化需要经历三个...

    声音信号的数字化

    声音是一种模拟信号,想要用于计算机,就必须将模拟信号转化为数字信号,这样,我们就能在计算机上储存声音了,等待用户需要播放的时候,再将数字信号转化为模拟信号。

    声音的数字化需要经历三个阶段:采样,量化,编码

    采样
    采样是把时间上连续的模拟信号在时间轴上离散化的过程。这里有采样频率和采样周期的概念,采样周期即相邻两个采样点的时间间隔,采样频率是采样周期的倒数,理论上来说采样频率越高,声音的还原度就越高,声音就越真实。为了不失真,采样频率需要大于声音最高频率的两倍。

    量化
    量化的主要工作就是将幅度上连续取值的每一个样本转换为离散值表示。其量化过后的样本是用二进制表示的,此时可以理解为已经完成了模拟信号到二进制的转换。量化中又个概念叫精度,指的是每个样本占的二进制位数,反过来,二进制的位数反映了度量声音波形幅度的精度。精度越大,声音的质量就越好。通常的精度有8bit,16bit,32bit等,当然质量越好,需要的储存空间就越大。

    编码
    编码是整个声音数字化的最后一步,其实声音模拟信号经过采样,量化之后已经变为了数字形式,但是为了方便计算机的储存和处理,我们需要对它进行编码,以减少数据量。

    通过采样频率和精度可以计算声音的数据传输率:

    数据传输率(bps)= 采样频率 * 精度 * 声道数

    单声道一次可以产生一组声音波形数据,双声道一次可以产生两组波形数据。

    有了数据传输率我们就可以计算声音信号的数据量

    数据量(byte)= 数据传输率 * 持续时间 / 8

    例题:

    CD唱片上所存储的立体声高保真音乐的采样频率为44.1kHZ,量化精度为16位,双声道,计算一小时的数据量:
    根据公式:
    ​ 44.1kHZ * 16bit * 2 * 3600s /8 =6350400B ≈ 605.6MB

    看看这个数字,是非常大的了,所以,在编码的时候常常使用压缩的方式来减少储存空调提高传输效率

    展开全文
  • 模拟电视信号数字化

    千次阅读 2017-03-12 21:44:53
    模拟信号数字化过程包括3个步骤:取样、量化、编码。示意图如下: 1. 其中前置滤波器一般为低通滤波器,其作用是滤除掉信号中的高频成分,以便于后续的取样过程。 2. 原始的模拟信号在时间和幅度上都是连续的,...
  • 利用MATLAB中的wavread命令来读入(采集)语音信号,将它赋值给某一向量。再将该向量看作一个普通的信号,对其进行FFT变换实现频谱分析,再依据实际情况对它进行滤波。……
  • 音频数字化简单原理

    万次阅读 2012-07-13 11:37:03
    音频数字化简单原理   从字面上来说,数字化 (Digital) 就是以数字来表示,例如用数字去记录一张桌子的长宽尺寸,各木料间的角度,这就是一种数字化。跟数位常常一起被提到的字是模拟 ( Analog/Analogue) ,...
  • 电视信号数字化

    千次阅读 2015-11-27 11:29:03
    1. 信号数字化:将模拟信号转换成数字信号,一般需要完成采样、量化和编码三个步骤。上述数字化的过程又称为脉冲编码调制(PCM)。 1.1 采样 用每隔一定时间(或空间)间隔的信号样本值序列代替原来在时间(或...
  • 一、 模拟数据 编码为 数字信号、 二、 音频信号 PCM 编码、 三、 抽象、 四、 量化、 五、 编码、 六、 采样定理、
  • 声音信号是一种
  • 模拟信号数字化

    万次阅读 2012-05-01 10:18:59
     不同的数据必须转换为相应的信号才能进行传输:模拟数据(模拟量)一般采用模拟信号(Analog Signal),例如用一系列连续变化的电磁波(如无线电与电视广播中的电磁波),或电压信号(如电话传输中的音频电压信号)来...
  • 音频信号理技术.ppt

    2012-05-26 23:50:56
    音频信号的离散指模拟的声音信号转换为数字的声音信号,这需要经过采样(Sampling)和量化(Quantization)两个步骤。采用这两个步骤方法又称为脉冲编码调制
  • Rust中的数字音频信号处理。 以前是。 一组板条箱提供了与PCM(脉冲编码调制)DSP(数字信号处理)配合使用的基础。 换句话说, dasp提供了一套低级,高性能的工具,包括用于处理数字音频信号的类型,特征和功能...
  • 针对现有型号音频信号光纤传输实验仪在使用中存在的不足问题,提出了改进的设计方法。以MCU为主控芯片,利用数字电位器取代传统电位器,实现全数字化控制与测量。目前该装置已研制完成,测试结果表明:改进后的新型...
  • 基于MATLAB的音频信号处理技术实现

    热门讨论 2010-04-18 23:27:28
    基于MATLAB的音频信号处理技术实现 本文以WAV 格式音频信号作为分析处理的输入数据,用MATLAB 处理音频信号的基 本流程是:先将WAV 格式音频信号经wavread 函数转换成MATLAB 列数组变量;再用MATLAB 强大的运算能力...
  • 音频编码过程

    2020-11-12 23:37:17
    1.音频信号数字化  信号的数字化就是将连续的模拟信号转换成离散的数字信号,一般需要完成采样、量化和编码三个步骤,如图1所示。采 样是指用每隔一定时间间隔的信号样本值序列来代替原来在时间上连续的信号。...
  • 视频信号数字化

    千次阅读 2008-09-29 19:36:00
    在视频数字化中,亮度信号采样频率的选择应从以下4个方面考虑:1)首先满足采样定理,即采样频率应大于视频带宽的两倍.设亮度信号带宽By是6MHz,则有fs>=2B=12MHz2)为保证采样结构是正交的,采样频率fs应是行频率fH的整数...
  • 音频信号

    千次阅读 2011-11-19 19:23:02
    采样精度 -----------------------------------------------------...8位可以把声波分成256级,16位可以把同样的波分成65,536级的信号。可以想象,位数越高,声音的保真度越高。 采样精度 样本大小是用每个声音样本的位
  • librosa处理音频信号

    千次阅读 多人点赞 2019-12-14 19:59:15
    二十世纪八十年代,有专家研究巴赫《第一勃兰登堡协奏曲》的音乐信号时发现,音乐信号的功率谱与人类大脑生理信号的功率谱相似,符合1/f信号公式。还发现,音乐信号α越靠近数值1越好听,从科学上找到一个近似参数来...
  • 音频特征于音频信号提取总结

    千次阅读 多人点赞 2020-11-10 23:11:21
    MFCC:梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)  MFCC特征是一种在自动语音识别和说话人识别中广泛使用的...y:音频数据 sr:采样率 S:np.ndarray,对数功能梅尔谱图 n_mfcc:int>0
  • 音频是个专业术语音频一词已用作一般性描 述音频范围内和声音有关的设备及其作用人 类能够听到的所有声音都称之为音频音频是信 号的一种处理数字音频信号也是一种数字信 号分析与处理人能听到的声音频率范围为 到...
  • 信号频谱分析是信号与系统...音频信号进行采样,把连续信号离散,然后通过 FFT 快速傅里叶变换运算, 在时域和频域对音频信号各个频率分量以及功率等指标进行分析和处理, 最后通 过12864液晶对信号的频谱进行显示。
  • 提供了基于FPGA/CPLD的数字化音频处理系统的典型解决方案。该方案由语音芯片(TLV320AIC23)和处理器(FPGA/CPLD)两部分组成。语音芯片完成模拟语音信号与数字信号之间的相互转换,包括ADC和DAC;处理器则完成对经...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,733
精华内容 10,693
关键字:

音频信号数字化