精华内容
下载资源
问答
  • 提取的音频格式转换器,支持从(*.aac,*.aa,*.ac3,*.a52,*.aif,*.aifc,*.aiff,*.ape,*.au,*.snd,*.cue,*.cda,*.dts,*.dtswav,*.flac,*.fla,*.kgm, *.krc,*.mid,*.midi,*.rmi,*.mp3,*.m4a,*.mp4,*.mpc,*.mp+,*.ogg,*....
  • iOS音频技术的研究-音频格式

    千次阅读 2016-06-06 13:48:40
    **什么是音频格式**这个问题我也是查了很久才弄明白的。音频格式其实是指容器的类型,在通俗一点就是声音文件的类型,比如说“我爱你中国.mp3”,这个声音文件的音频格式就是MP3。 这里稍微引入一些音频编码的东西...

    什么是音频格式

    这个问题我也是查了很久才弄明白的。音频格式其实是指容器的类型,在通俗一点就是声音文件的类型,比如说“我爱你中国.mp3”,这个声音文件的音频格式就是MP3。
    这里稍微引入一些音频编码的东西。很多第一次涉及这个领域的(比如说我哈),很容易弄不清音频格式和音频编码的区别和联系,比如音频格式中有MP3格式,音频编码中有MP3编码,这时候多数人就不明白了。
    音频编码本质是一种算法,我们拿到声音的原始数据之后,总不能直接就放到文件中用,我们需要根据不同的用途对于这些数据进行处理,比如压缩使其体积变小,这时候就要用到音频编码了。音频编码就是人们为了各种需要设计的算法。
    数据准备好了,需要把数据保存至文件中才能长久保存。在保存声音数据的同时,可能出于某些需要,还会同时储存一些其他的数据,甚至是脚本。于是,音乐文件成为了一种混合体。为了能让播放器知道这个声音文件都混合了什么,于是需要赋予它特定的音频格式。
    所以说音频格式和音频编码不同。

    特点

    要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,20KHz以上人耳是听不到的,因此音频文件格式的最大带宽是20KHZ,故而采样速率需要介于40~50KHZ之间,而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位-96dB的信噪比,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度。在音频文件的制作中,正是采用这一标准。

    分类

    音频格式一般可以分为两大类:

    一、原声(非压缩)

    目前存在多种非压缩数据格式,最流行的是WAV格式。WAV文件的格式灵活,可以储存多种类型的音频数据。对于保存原始的录音数据是一个好的选择。WAV格式是基于RIFF文件格式,RIFF格式与AIFF和IFF格式类似。
    BWF(广播声波格式)作为WAV的后继者,是由欧洲广播联盟创建的一种标准音频格式。BWF文件中可以存放元数据。BWF文件也是也是基于RIFF文件格式的,扩展名是WAV。(仅在wiki上有提到,但是已经无从查找)

    二、压缩

    压缩类又可以分为两小类:
    1、无损,例如APE ,FLAC,TAK,TTA ,WV,LPAC ,AU,ALAC
    2、有损,例如MP3,RealAudio,OGG,VQF,WMA,ATRAC ,Musepack ,AAC,AMR
    有损文件格式是基于声学心理学的模型,除去人类很难或根本听不到的声音,例如:一个音量很高的声音后面紧跟着一个音量很低的声音。

    常见格式

    原声CD

    CD格式的音质是比较高的音频格式。因此要讲音频格式,CD自然是打头阵的先锋。在大多数播放软件的“打开文件类型”中,都可以看到.cda格式,这就是CD音轨了。标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的。CD光盘可以在CD唱机中播放,也能用电脑里的各种播放软件来重放。一个CD音频文件是一个.cda文件,这只是一个索引信息,并不是真正的包含声音信息,所以不论CD音乐的长短,在电脑上看到的“*.cda文件”都是44字节长。
    WAVE
    WAVE(.WAV)是微软和IBM开发的一种声音文件格式,它符合PIFFResource Interchange File Format 文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。“.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。
    AIFF
    AIFF(Audio Interchange File Format)格式和AU格式,它们都和WAV非常相像,在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。AIFF是音频交换文件格式的英文缩写。是APPLE公司开发的一种音频文件格式,被Mac平台及其应用程序所支持,NETSCAPE浏览器中LiveAudio也支持AIFF格式。所以大家都不常见。AIFF是Apple苹果电脑上面的标准音频格式,属于QuickTime技术的一部分。这一格式的特点就是格式本身与数据的意义无关,因此受到了Microsoft的青睐,并据此搞出来WAV格式。AIFF虽然是一种很优秀的文件格式,但由于它是苹果电脑上的格式,因此在PC平台上并没有得到很大的流行。不过由于Apple电脑多用于多媒体制作出版行业,因此几乎所有的音频编辑软件和播放软件都或多或少地支持AIFF格式。只要苹果电脑还在,AIFF就始终还占有一席之地。由于AIFF的包容特性,所以它支持许多压缩技术。
    无损压缩————————————————————————————–
    APE
    APE(Monkey’s Audio),是一种常见的无损音频压缩编码格式,扩展名为.ape,有时也采用.MAC的扩展名。在压缩CD音频时,一个典型的Monkey’s Audio文件往往有接近600~700K Bit/sec,而MP3最高不会超过320K Bit/sec,一般情况下用户只会指定到128~192K Bit/sec。
    APE文件结构是由Monkey’s Audio定义的。Monkey’s Audio提供软件进行与其它音频文件格式的转换。Monkey’s Audio是压缩/解压缩APE文件的软件。因其主界面上有个猴子图样而得名。Monkey’s Audio是压缩APE格式的重要工具;也可以对APE文件进行解压缩。
    特点:
    1、压缩率:压缩比率一般在55%左右
    2、编解码:编码、解码速度略慢,配置低的电脑会有卡顿
    3、错误处理:没有提供错误处理的功能,若发生文件损坏,损坏位置之后的数据有可能会丢失
    4、音质:在音质上,相对于WMA、MP3、AAC等有损数据压缩的格式有着绝对的优势
    5、采样率:
    6、分辨率:
    7、开源性:Monkey’s Audio是开放源代码的免费软件,授权协议并非自由软件而是准自由软件(Semi-free Software)而受到排挤,许多基于GNU/Linux的Linux发行包或是其他只能基于自由软件的操作系统不能将其收入
    8、其他:硬件支持
    FLAC
    FLAC (Free Lossless Audio Codec),中文直译为自由无损音频压缩编码(注:这里“Free”指的是自由而并不是免费)。FLAC是一款著名的自由音频压缩编码,其特点是可以对音频文件无损压缩。不同于其他有损压缩编码如MP3及WMA(9.0版本支持无损压缩),它不会破坏任何原有的音频信息,所以可以还原音乐光盘音质。
    特点:
    1、压缩率:压缩率稍有不及APE
    2、编解码:技术更先进,占用资源更低,解码速度较APE更快
    3、错误处理:只支持定点取样,并不支持浮点取样,确保没有任何约数错误以致影响音质。当数据流损坏时,数据损失会被限制在受损的数据帧之内,一般只会丢失很短的一个片段。
    4、音质:同APE
    5、采样率:支持任何采样率,由1Hz至655,350Hz不等,并可逐1Hz微调
    6、比特率:支持任何PCM位分辨率,由4至32bit皆有
    7、开源性:支持大多数的Unix-like系统(包括Linux,BSD,Solaris及Mac OS X),Windows,BeOS及OS/2
    8、其他:硬件支持
    TAK
    TAK(Tom’s lossless Audio Kompressor)是一种无损音质的音乐编解码器。不过就目前来说,支持的软件极少,仅有像是foobar2000与Winamp等知名音乐播放软件配合使用插件才能播放。
    特点:
    1、压缩率:近似于APE的高压缩比
    2、编解码:接近FLAC的编码、解码速度,支持多线程的编码(1.0.3以后的版本)
    3、错误处理:具有错误容忍(单一bit的错误不会影响超过250ms),具有错误侦测(每个frame具有一个24-bit的CRC)
    4、音质:同APE
    5、采样率:支持最高192khz
    6、比特率:支持最高24bit
    7、开源性:尚未开放源代码(未来预定以C++开放源代码)。虽然原作者尚未公开源代码,但FFmpeg开发者已通过反向工程实现了一个开源的TAK解码器,并已入到FFmpeg中
    8、其他:支持APEv2标签,支持流媒体
    TTA
    TTA(True Audio)是一种自由又简单的实时无损音频编解码器。TTA是一种基于自适应预测过滤的无损音频压缩,与目前主要的其他格式相比,能有相同或更好的压缩效果。
    特点:
    1、压缩率:可将数据压缩至30%-70%
    2、编解码:实时编码、解码算法,操作快捷、对系统要求低
    3、错误处理:
    4、音质:同APE
    5、采样率:
    6、比特率:8bit、16bit、24bit整型和32bitIEEE浮点型的WAV格式音频文件
    7、开源性:支持多平台自由软件和开放源代码
    8、其他:硬件支持,支持ID3v1和ID3v2两种标签信息
    WV
    WV(WavPack)是由 David Bryant 开发的一个自由、开放源代码的无损音频压缩格式,其文件的后缀名为.wv。
    WavPack 引入了一种独特的“混合”模式,它使用一个附加的文件从而也具有了有损压缩的优点。与其它方法只生成一个文件不同,这种模式生成两个文件,其中一个是相对较小、可以单独使用的高质量有损压缩文件,另外一个是与有损文件一起使用实现无损数据恢复的“修正”文件。对于一些用户来说,这就意味着他们不必再考虑使用有损还是无损压缩这样一个问题。
    特点:
    1、压缩率:对于普通的流行音乐,通常介于30%-70% 之间;对于古典音乐以及其它音域较宽的音乐,通常能得到更高的比例
    2、编解码:快速高效压缩与解压
    3、错误处理:出错时的健壮性
    4、音质:同APE
    5、采样率:支持非常高的采样率
    6、比特率:8bit、16bit、24bit、32bit整型以及32bit浮点表示的WAV格式音频文件
    7、开源性:开放源代码,按照类似于BSD许可证的方式发布
    8、其他:硬件支持,支持流媒体,支持ID3v1、APEv2标签
    MPEG-4 ALS
    MPEG-4 ALS(LPAC,Lossless Predictive Audio Compression),也叫作音频无损编码,是一种无损音频数据压缩方法。
    它是 MPEG-4 音频标准的扩展,这个扩展的定稿时间是 2005年 12月。
    MPEG4 ALS 在运算上类似于 FLAC,简单来说就是一个用 Golomb coding 或者 Bounded Gilbert Moore Coding 对余数进行编码的量化线性预测编码预测器,可能是由于缺少可用的编码器与解码器,到了 2006年,这种格式仍然没有被大众所接受。
    特点:
    1、压缩率:
    2、编解码:
    3、错误处理:
    4、音质:
    5、采样率:
    6、比特率:
    7、开源性:
    8、其他:
    AU
    AUDIO文件是SUN公司推出的一种数字音频格式。AU文件原先是UNIX操作系统下的数字声音文件。由于早期INTERNET上的WEB服务器主要是基于UNIX的,所以,AU格式的文件在如今的Internet中也是常用的声音文件格式。
    特点:
    1、压缩率:
    2、编解码:
    3、错误处理:
    4、音质:
    5、采样率:
    6、比特率:
    7、开源性:
    8、其他:
    ALAC
    ALAC (Apple Lossless Audio Codec)为苹果的无损音频压缩编码格式。也因为是无损压缩,听起来与原文件完全一样,不会因解压缩和压缩而改变。 ALAC与MP3的主要分别在于编码过程中,MP3会取消小部分高频及低频部分的音频数据,而ALAC则会如实记录,不会删除音频中任何细节数据。
    它在2004年4月28日公布的iTunes4.5和QuickTime6.5.1的其中一部份。
    特点:
    1、压缩率:压缩至原先容量的40%-60%,高于MP3
    2、编解码:编码、解码速度很快
    3、错误处理:
    4、音质:同APE
    5、采样率:
    6、比特率:非压缩音频格式(WAV、AIFF)
    7、开源性:ALAC的编码器已于2011年10月26日以Apache License为协议公布源代码
    8、其他:目前便携式数字多媒体播放器中只有iPod可播放
    有损压缩————————————————————————————–
    MPEG
    MPEG是动态图象专家组的英文缩写。这个专家组始建于1988年,专门负责为CD建立视频和音频压缩标准。MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。目前Internet上的音乐格式以MP3最为常见。虽然它是一种有损压缩,但是它的最大优势是以极小的声音失真换来了较高的压缩比。MPEG含有格式包括:MPEG-1、MPEG-2、MPEG-Layer3、MPEG-4
    MP3
    MP3(MPEG3)格式诞生于八十年代的德国,所谓的MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应“.mp1”、“.mp2”、“.mp3”这3种声音文件。MPEG音频文件的压缩是一种有损压缩,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸。由于其文件尺寸小,音质好;所以在它问世之初还没有什么别的音频格式可以与之匹敌,因而为.mp3格式的发展提供了良好的条件。
    特点:
    1、压缩率:压缩至原先容量的8.5%-10%
    2、编解码:编码、解码速度很快
    3、错误处理:
    4、音质:采样率越高音质越好
    5、采样率:最高48kHz
    6、比特率:可变编码算法下将会是区间值
    7、开源性:LAME完美地实现了VBR(可变编码率)算法,而且它是是完全免费的软件,并且由爱好者组成的开发团队一直在不断的发展完善。在VBR的基础上,LAME更加发展出ABR算法。ABR(AverageBitrate)平均比特率,是VBR的一种插值参数。
    8、其他:支持ID3标签,支持流媒体,
    RA
    RA(RealAudio)有很多版本,RealAudio 1, RealAudio 2, RealAudio 3 最近已经到了RealAudio 11了,这些格式不同,依赖的媒体播放器也不同,同一播放器有些rm文件能播放出来,有些又不能,这个时候可以看一下是不是RealAudio编码的版本问题。
    RealAudio主要适用于在网络上的在线音乐欣赏。现在大多数的用户仍然在使用或更低速率的Modem,所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。real的的文件格式主要有这么几种:有RA(RealAudio)、RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured),还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较富裕的听众获得较好的音质。
    1、压缩率:
    2、编解码:
    3、错误处理:
    4、音质:
    5、采样率:
    6、比特率:
    7、开源性:
    8、其他:
    OGG
    OGG(Ogg Vorbis)是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有一点不同的是,它是完全免费、开放和没有专利限制的。OggVorbis文件的扩展名是*.OGG。这种文件的设计格式是非常先进的。这种文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。Vorbis采用有损压缩,但通过使用更加先进的声学模型去减少损失。
    目前最新的版本是2010年3月26日发布的libogg 1.2.0。[2]另一个版本libogg2也可以在Xiph.Org基金会的SVN包库中找到。。
    1、压缩率:可以不断改进
    2、编解码:可以不断改进
    3、错误处理:
    4、音质:同样位速率编码的OGG与MP3相比听起来更好一些
    5、采样率:
    6、比特率:
    7、开源性:新BSD许可证下发布的自由软件
    8、其他:
    VQF
    雅马哈公司开发,它的核心是减少数据流量但保持音质的方法来达到更高的压缩比,VQF的音频压缩率比标准的MPEG音频压缩率高出近一倍,可以达到18:1左右甚至更高。可以说技术上也是很先进的,但是由于宣传不力,这种格式难有用武之地。.vqf可以用雅马哈的播放器播放。同时雅马哈也提供从.wav文件转换到*.vqf文件的软件。此文件缺少特点外加缺乏宣传。
    经SoundVQ压缩后的音频文件在进行回放效果试听时,几乎没有人能听出它与原音频文件的差异。播放VQF对计算机的配置要求仅为奔腾75或更高,当然如果您用奔腾100或以上的机器,VQF能够运行得更加出色。实际上,播放VQF对CPU的要求仅比Mp3高5~10%左右。VQF即TwinVQ技术虽然是由NTT和YAMAHA开发的,但它们的应用软件都是免费的。
    1、压缩率:5%左右,压缩比大于MP3和RA
    2、编解码:
    3、错误处理:
    4、音质:接近CD音质(16位44.1kHz立体声)
    5、采样率:
    6、比特率:
    7、开源性:NTT和YAMAHA并没有公布VQF的源代码
    8、其他:
    WMA
    WMA (Windows Media Audio) 微软开发,它和日本YAMAHA公司开发的VQF格式一样,是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的。一些使用Windows Media Audio编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。
    微软公司在WMA 9大幅改进了其引擎,实际上64Kbps的WMA音乐就可以达到与128Kbps的MP3音乐接近的音质,比MP3体积少1/3左右。
    WMA的另一个优点是内容提供商可以通过DRM(Digital Rights Management)方案如Windows Media Rights Manager 7加入防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等,这对被盗版搅得焦头乱额的音乐公司来说可是一个福音。
    特点:
    1、压缩率:5%左右(只在MP3低于192KBPS码率的情况下有效)
    2、编解码:
    3、错误处理:
    4、音质:音质要强于MP3格式,更远胜于RA格式
    5、采样率:
    6、比特率:
    7、开源性:
    8、其他:DRM版权保护,支持流媒体,ID3标签,WMA9版本开始支持无损压缩(Windows Media Audio 9 Lossless)
    ATRAC
    ATRAC (Adaptive Transform Acoustic Coding),自适应听觉转换编码为Sony公司于1992年所开发的音讯有损数据压缩技术,也是相关技术名词之总称。除了Sony本身,其他MiniDisc制造商如Sharp、Panasonic等,也有各自研发自家的ATRAC编解码器。
    Sony研发ATRAC初版(为避免混淆,称作ATRAC1)后,又接续开发了相关的有损压缩技术ATRAC2、ATRAC3、ATRAC3plus、以及无损的ATRAC Advanced Lossless。事实上,这五种压缩技术除了名称类似外,彼此之间并不尽相同。另外,ATRAC2、ATRAC3名称末尾的数字,经常会被误解为ATRAC的版本号,事实上该数字是编码技术名称的一部分。
    ATRAC1,通常记作ATRAC。为减轻运算处理负担,ATRAC1编码时先使用两次QMF (Quadrature Mirror Filters),将输入的音讯分割为三个子频带;第一次分离出高频(11.025~22.05kHz),第二次分离剩余的中低频(0~5.5125kHz、5.5125~11.025kHz)。子频带再于MDCT(Modified Discrete Cosine Transform,变址离散余弦变换)切割分块,并依据人耳对音频的敏感度而调整资料块的分配量,也是所谓的自适应。压缩时,ATRAC根据听觉心理学,忽略人耳听觉极限之外的音讯,以及被大音量屏蔽的细小声音,以达到资料压缩的目的。ATRAC1没有明定如何流量分配等细节,便于日后微调改善音质。
    1、压缩率:
    2、编解码:
    3、错误处理:
    4、音质:
    5、采样率:
    6、比特率:
    7、开源性:
    8、其他:
    AAL
    AAL(ATRAC Advanced Lossless)在2005年9月的A&VFesta2005中发表,是ATRAC家族中唯一的无失真压缩规格,简称AAL。该格式可同时包含无失真压缩、破坏性压缩两部份。破坏压缩部份可使用ATRAC3、ATRAC3plus等格式,而无失真部份则是将原始音讯进行可逆性的无损压缩。除了传送整个AAL档案至随身听外,也可以只取出较小的ATRAC3/ATRAC3plus部分。 AAL压缩率约为30~80%,由于AAL同时内含有破坏性压缩的音讯,因此破坏压缩所使用的格式也会影响AAL的压缩量。 AAL首度于2005年11月1日发表的SonicStage 3.3版所支援。可以传送完整AAL资料给完全支援AAL的音乐播放器,也可以只传送ATRAC3/ATRAC3plus的部份。硬件方面,SONY至2006年10月发表之NW-S700F、NW-S600才完全支援AAL。
    1、压缩率:
    2、编解码:
    3、错误处理:
    4、音质:
    5、采样率:
    6、比特率:
    7、开源性:
    8、其他:
    Musepack
    Musepack(早前称作MPEGplus、MPEG+或MP+)是一种基于MP2算法的有损压缩音频格式。它的编码方式着重听觉上的穿透感,在160kbit/s或以上的表现尤为出色。 Musepack最初由Andree Buschmann提出和开发,其后经Frank Klemm接手,如今在Frank Klemm的帮助下由Musepack开发团队(Musepack Development Team,MDT)维护。
    特点:
    1、压缩率:
    2、编解码:比起MP3、AAC更为高效的哈夫曼编码
    3、错误处理:
    4、音质:
    5、采样率:
    6、比特率:3kbit/s到1300kbit/s的纯变码率编码
    7、开源性:在微软视窗、Linux和Mac OS X等平台上,在Musepack的官方网站上,除了有Musepack的编码器和解码器,还有为数款媒体播放器专用的第三方插件,均以LGPL或BSD许可证发布
    8、其他:噪音替换技术,APEv2标签
    AAC
    AAC(Advanced Audio Coding),出现于1997年,基于MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发,目的是取代MP3格式。2000年,MPEG-4标准出现后,AAC重新集成了其特性,加入了SBR技术和PS技术,为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC。
    不过直到2006年,使用这一格式存储音乐的并不多,可以播放该格式的mp3播放器更是少之又少。此外计算机上很多音乐播放软件都支持AAC(前提是安装过AAC解码器),如苹果iTunes。但在移动电话领域,AAC的支持度已很普遍,Nokia、Sony Ericsson、Motorola等品牌均在其中高端产品中支持AAC(一开始主要是LC-AAC,随着移动电话性能的发展,HE-AAC的支持也已广泛)。
    特点:
    1、压缩率:5%左右
    2、编解码:
    3、错误处理:
    4、音质:比几乎所有的传统编码方式在同规格的情况下更胜一筹
    5、采样率:最高96kHz
    6、比特率:8bit、16bit、24bit、32bit
    7、开源性:
    8、其他:
    AMR
    AMR全称Adaptive Multi-Rate,自适应多速率编码,主要用于移动设备的音频(手机打电话),压缩比比较大,但相对其他的压缩格式质量比较差,由于多用于人声,通话,效果还是很不错的。
    分类1. AMR: 又称为AMR-NB,相对于下面的WB而言,语音带宽范围:300-3400Hz,8KHz抽样
    分类2. AMR-WB:AMR WideBand,语音带宽范围: 50-7000Hz 16KHz抽样
    AMR-WB采样频率为16kHz,是一种同时被国际标准化组织ITU-T和3GPP采用的宽带语音编码标准,也称为G722.2标准。AMR-WB提供语音带宽范围达到50~7000Hz,用户可主观感受到话音比以前更加自然、舒适和易于分辨。与之作比较,现在GSM用的EFR(Enhenced Full Rate,增强型全速率编码)采样频率为8kHz,语音带宽为200~3400Hz。AMR-WB应用于窄带GSM(全速信道16k,GMSK)的优势在于其可采用从6.6kb/s, 8.85kb/s和12.65kb/s三种编码,当网络繁忙时C/I恶化,编码器可以自动调整编码模式,从而增强QoS。在这种应用中,AMR-WB抗扰度优于AMR-NB。AMR-WB应用于EDGE、3G可充分体现其优势。足够的传输带宽保证AMR-WB可采用从 6.6kb/s到23.85kb/s共九种编码,语音质量超越PSTN固定电话。

    AMR是专利产品

    到这里基本的音频格式就已经介绍完了。我一直认为MIDI不能作为一种音频格式来分类,因此我单独给他一个分类
    MIDI
    MIDI(Musical Instrument Digital Interface)格式被经常玩音乐的人使用,MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音,而是记录声音的信息,然后在告诉声卡如何再现音乐的一组指令。这样一个MIDI文件每存1分钟的音乐只用大约5~10KB。MID文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。.mid文件重放的效果完全依赖声卡的档次。.mid格式的最大用处是在电脑作曲领域。.mid文件可以用作曲软件写出,也可以通过声卡的MIDI口把外接音序器演奏的乐曲输入电脑里,制成.mid文件。

    展开全文
  • ffmpeg音频格式转换

    2020-07-25 11:43:35
    ffmpeg音频格式转换 ffmpeg -i 文件名 -f 格式 文件名 -i后面是源文件, -f是文件输出格式,最后是输出文件名 该命令会生成一个新的文件,对源文件不会有影响 在命令行中测试: 然后就可以看到文件了 在Java中调用 ...

    ffmpeg音频格式转换

    ffmpeg -i 文件名 -f 格式 文件名
    

    -i后面是源文件, -f是文件输出格式,最后是输出文件名
    该命令会生成一个新的文件,对源文件不会有影响
    在命令行中测试:


    然后就可以看到文件了

    在Java中调用

    Runtime.getRuntime().exec("cmd.exe /c start /b ffmpeg -i xxx -f xxx xxx");
    
    展开全文
  • OGG音频格式分析

    千次阅读 2016-05-17 20:48:26
    OGG音频格式概述 Ogg是一个自由且开放标准的容器格式,由Xiph.Org 基金会所维护。Ogg格式并不受到软件专利的限制,并设计用于有效率地流媒体和处理高品质的数字多媒体。 “Ogg”意指一种文件格式,可以纳入各式各样...

    一. OGG音频格式概述

    Ogg是一个自由且开放标准的容器格式,由Xiph.Org基金会所维护。Ogg格式并不受到软件专利的限制,并设计用于有效率地流媒体和处理高品质的数字多媒体。

    Ogg”意指一种文件格式,可以纳入各式各样自由和开放源代码的编解码器,包含音效、视频、文字(像字幕)与元数据的处理。

    Ogg的多媒体框架下,Theora提供有损的图像层面,而通常用音乐导向的Vorbis编解码器作为音效层面。针对语音设计的压缩编解码器Speex和无损的音效压缩编解码器FLACOggPCM也可能作为音效层面使用。

    Ogg”这个词汇通常意指Ogg Vorbis此一音频文件格式,也就是将Vorbis编码的音效包含在Ogg的容器中所成的格式。在以往,.ogg此一扩展名曾经被用在任何Ogg支持格式下的内容;但在2007年,Xiph.Org基金会为了向后兼容的考量,提出请求,将.ogg只留给Vorbis格式来使用。Xiph.Org基金会决定创造一些新的扩展名和媒体格式来描述不同类型的内容,像是只包含音效所用的.oga、包含或不含声音的影片(涵盖Theora)所用的.ogv和程序所用的.ogx

    OGGVobis(oggVorbis)是一种新的音频压缩格式,类似于MP3等的音乐格式。OggVobis是完全免费、开放和没有专利限制的。OggVorbis文件的扩展名是.OGGOgg文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。OGG Vorbis有一个特点是支持多声道。

    二. OGG音频格式剖析

    1.        OGG文件的组织形式

    OGG是以页(page)为单位将逻辑流组织链接起来,每个页都有pageheaderpagedata。如下图1所示:

    A*

    B*

    C*

    ..

    A#

     

    B#

    C#

    D*

     

     

    D#

    Bos   bos   bos              eos             eos    eos bos             eos

    1 OGG文件的组织形式

    上图中的文件链接了两个物理流,ABC三个逻辑流组成一个物理流,逻辑流D单独是一个物理流。一个物理流中的所有逻辑流的bos_page都必须在物理位置上相邻,如图1所示*A**B**C*三个bos_page的位置。   

    bosbeginning of stream;   

    eosend of stream

       

    2.        OGG page页结构

    每个页之间相互独立,都包含了各自应有的信息,页的大小是可变的,通常为4K8KB,最大值不能超过65307bytes27255255*255=65307)。页头部格式如图2

     

      0                  8                  16                 24               31

    OggS

    V

    Header_type

    Granule_position

     

     

    Serial_number

     

    Page_sequence

     

    CRC_checksum

     

    Num_segment

    Segment_table

    …………………………

    …………………………

    …………

    payload

    …………………………

    2 OGG页头部结构

    1)       页标识:ASCII字符,0x4f  'O'  0x67  'g'   0x67 'g'  0x53 'S'4个字节大小,它标识着一个页的开始。其作用是分离Ogg封装格式还原媒体编码时识别新页的作用。

    2)       版本id:一般当前版本默认为01个字节。

    3)       Header_type:标识当前的页的类型,1个字节,

    0x01:本页媒体编码数据与前一页属于同一个逻辑流的同一个packet,若此位没有设,表示本页是以一个新的packet开始的;

    0x02:表示该页为逻辑流的第一页,bos标识,如果此位未设置,那表示不是第一页;

    0x04:表示该页位逻辑流的最后一页,eos标识,如果此位未设置,那表示本页不是最后一页。

    4)       Granule_position:媒体编码相关的参数信息,8个字节,对于音频流来说,它存储着到本页为止逻辑流在PCM输出中采样码的数目,可以由它来算得时间戳。对于视频流来说,它存储着到本页为止视频帧编码的数目。若此值为-1,那表示截止到本页,逻辑流的packet未结束。(小端)

    5)       Serial_number:当前页中的流的id4个字节,它是区分本页所属逻辑流与其他逻辑流的序号,我们可以通过这个值来划分流。(小端)

    6)       Page_seguence:本页在逻辑流的序号,4个字节。OGG解码器能据此识别有无页丢失。

    7)       CRC_cbecksum:循环冗余校验码校验和,4个字节,包含页的32bit CRC校验和(包括头部零CRC校验和页数据校验),它的产生多项式为:0x04c11db7

    8)       Num _segments:给定本页在segment_table域中出现的segement个数,1个字节。其最大值为255.页最大物理尺寸为65307bytes,小于64KB

    9)       Segment_table:从字面看它就是一个表,表示着每个segment的长度,取值范围是0~255

    segment可以得到packet的值,每个packet的大小是以最后一个不等于255segment结束的,从页头中的segment_table可以得到每个packet长度,举例:如果一组segment依次顺序为FF 45 FF FF FF 40 FF 5 FF FF FF66,那么第一个packet的长度为255+69 = 324,第二个packet大小829,同理。

    页头基本上就是由上述的参数组成,由此我们可以得到页头的长度和整个页的长度:

    header_size  = 27+Num_segments;byte

    page_size = header_size +segment_table中每个segment的大小;

     

    3.        OGG封装处理过程(附)

    1)       音视频编码在提供给Ogg封装之前是以具有包边界的“Packets”形式呈现的,包边界依赖于具体的编码格式。如图3所示。   

    2)       将逻辑流的各个包进行分片segmentation,每片大小固定为255Byte,但包的最后一个segment通常小于255字节。因为packet的大小可以是任意长度,由具体的媒体编码器来决定。   

    3)       进行页封装,每页都被加上页头,每页的长度可不等,由具体情况而确定。页头部segment_table域告知了lacing_value”值的大小,即页中最后一个segment的长度(可以为0,或小于255)。一次处理一个packet,此packet被封装成一个或多个page页(page的长度设定了上限,一般为4kB);下一个packet必须用新的page开始封装,由首部字段域header_type_flag的设置规定来表示。   

    多个已被页格式封装好的逻辑流(如语音、文本、图片、音频、视频等)按应用要求的时序关系合成物理流。

    Logical bitstream with packet boundaries
     -----------------------------------------------------------------
     > |      packet_1            | packet_2         | packet_3 | <
     -----------------------------------------------------------------

                                            |segmentation(logically only)
                        v

    packet_1 (5segments)          packet_2 (4segs)    p_3 (2 segs)
         ------------------------------ --------------------------------
     ..  |seg_1|seg_2|seg_3|seg_4|s_5 | |seg_1|seg_2|seg_3|| |seg_1|s_2 |..
         ------------------------------ --------------------------------

                                    | page encapsulation
                        v

    page_1 (packet_1 data)   page_2 (pket_1data)   page_3 (packet_2 data)
    ------------------------  ----------------  ------------------------
    |H|------------------- |  |H|----------- |  |H|------------------- |
    |D||seg_1|seg_2|seg_3| |  |D|seg_4|s_5 | |  |D||seg_1|seg_2|seg_3| | …
    |R|------------------- |  |R|----------- |  |R|------------------- |
    ------------------------  ----------------  ------------------------

    |
    pages of            |
    other    --------|  |
    logical         -------
    bitstreams      | MUX |
                   -------
                      |
                      v

    page_1 page_2          page_3
          ------  ------  ------- -----  -------
     …  ||   |  ||   | ||    |  ||  |  ||    |  …
          ------  ------  ------- -----  -------
                 physical Ogg bitstream

    3 OGG封装流程示意图

    4.        OGG Vorbis比特流结构

    Vorbis比特流是以三个数据包头开始的。这些头数据包按顺序依次是:The identification headerThe comment header和设置数据包。这些都与解码Vorbis音频文件密切相关的。

    1)       数据包头结构

    每个数据包都是以同样的头结构开始的:

    u [packet_type] : 8 bit value

    u 0x76, 0x6f, 0x72, 0x62, 0x69, 0x73: the characters'v','o','r','b','i','s' as six octets

    2)       The identification header

    The identificationheader identifies the bitstream as Vorbis, Vorbis

    version, and the simpleaudio characteristics of the stream such as sample rate and number of channels.

    u [vorbis_version] = read 32 bits as unsigned integer

    u [audio_channels] = read 8 bit integer as unsigned必须大于0

    u [audio_sample_rate] = read 32 bits as unsigned integer必须大于0

    u [bitrate_maximum] = read 32 bits as signed integer

    u [bitrate_nominal] = read 32 bits as signed integer

    u [bitrate_minimum] = read 32 bits as signed integer

    u [blocksize_0] = 2 exponent (read 4 bits as unsigned integer)必须小于等于[blocksize_1]

    u [blocksize_1] = 2 exponent (read 4 bits as unsigned integer)

    u [framing_flag] = read one bit不能为0

     

    Thebitrate fields above are used only as hints. The nominal bitrate fieldespecially may be considerably of in purely VBR streams. The fields aremeaningful only when greater than zero.

    a)        All three fields set to thesame value implies a fixed rate, or tightly bounded, nearly fixed-ratebitstream

    b)       Only nominal set implies a VBRor ABR stream that averages the nominal bitrate

    c)        Maximum and or minimum setimplies a VBR bitstream that obeys the bitrate limits

    d)       None set indicates the encoderdoes not care to speculate.

    3)       The comment header

    Thecomment header includes user text comments (\tags") and a vendor stringfor the application/library that produced the bitstream.

    Thecomment header is logically a list of eight-bit-clean vectors; the number ofvectors is bounded to 232 .. 1 and the length of each vector is limited to 232.. 1 bytes. The vector length is encoded; the vector contents themselves arenot null terminated. In addition to the vector list, there is a single vectorfor vendor name (also 8 bit clean, length encoded in 32 bits). For example, the1.0 release of libvorbis set the vendor string to \Xiph.Org libVorbis I20020717".

    The vector lengths and number of vectors are stored lsbfirst, according to the bit packing conventions of the vorbis codec. However,since data in the comment header is octetaligned,they can simply be read asunaligned 32 bit little endian unsigned integers

     

     The comment vectors are structured similarlyto a UNIX environment variable. That is,comment fields consist of a field nameand a corresponding value and look like:

    1 comment[0]="ARTIST=me";

    2comment[1]="TITLE=the sound of Vorbis";

    The fieldname is case-insensitive and may consist of ASCII 0x20 through 0x7D, 0x3D ('=')excluded. ASCII 0x41 through 0x5A inclusive (characters A-Z) is to beconsidered equivalent to ASCII 0x61 through 0x7A inclusive (characters a-z).Thefield name is immediately followed by ASCII 0x3D ('=');

    thisequals sign is used to terminate the field name.0x3D is followed by 8 bit cleanUTF-8 encoded value of the field contents to the end of the field.Field namesBelow is a proposed, minimal list of standard field names with a description ofintended use. No single or group of field names is mandatory; a comment headermay contain one, all or none of the names in this list.

     

    u TITLE Track/Work name

    u VERSION The version field may be used to differentiate multipleversions of the same track title in a single collection. (e.g. remix info)

    u ALBUM The collection name to which this track belongs

    u TRACKNUMBER The track number of this piece if part of a specific largercollection or album

    u ARTIST The artist generally considered responsible for the work. Inpopular music this is usually the performing band or singer. For classicalmusic it would be the composer.For an audio book it would be the author of theoriginal text.

    u PERFORMER The artist(s) who performed the work. In classical musicthis would be the conductor, orchestra, soloists. In an audio book it would bethe actor who did the reading. In popular music this is typically the same asthe ARTIST and is omitted.

    u COPYRIGHT Copyright attribution.

    u LICENSE License information, eg, 'All Rights Reserved', 'Any UsePermitted'.

    u ORGANIZATION Name of the organization producing the track (i.e. the'record label')

    u DESCRIPTION A short text description of the contents

    u GENRE A short text indication of music genre

    u DATE Date the track was recorded

    u LOCATION Location where track was recorded

    u CONTACT Contact information for the creators or distributors of thetrack. This could be a URL, an email address, the physical address of the producinglabel.

    u ISRC International Standard Recording Code for the track; see theISRC intro page for more information on ISRC numbers.

     

    Hint: Field names are not required to beunique (occur once) within a comment header. As

    an example, assume a track was recorded bythree well know artists; the following is

    permissible, and encouraged:

    1 ARTIST=Dizzy Gillespie

    2 ARTIST=Sonny Rollins

    3 ARTIST=Sonny Stitt

    4)       Setup Header

    The setupheader includes extensive CODEC setup information as well as the complete VQand Hu man codebooks needed for decode.

    Thesetup header contains, in order, the lists of codebook configurations,time-domain transform configurations (placeholders in Vorbis I), floorconfigurations, residue configurations,channel mapping configurations and modeconfigurations. It finishes with a framing bit of '1'. 如下图:


    展开全文
  • 常见的音频格式有mp3,wma,wav,flac,m4a等,为了在能够在更多的功放设备或者音乐播放器播放,就需要要转换音频格式,将音频转换成设备支持的格式,下面小编就分享一款电脑端最好用的音频格式转换器,支持任意音频...

    在这里插入图片描述
    常见的音频格式有mp3,wma,wav,flac,m4a等,为了在能够在更多的功放设备或者音乐播放器播放,就需要要转换音频格式,将音频转换成设备支持的格式,下面小编就分享一款电脑端最好用的音频格式转换器,支持任意音频格式转换成mp3,格式覆盖范围广,界面友好,操作简单,大家一起学习下。

    工具介绍:

    操作系统:支持win vista/win7/win8/win10

    点击下载地址:http://www.qvevideo.com/audio

    QVE音频剪辑软件–支持多种音频格式转换,例如:flac转mp3,wma转mp3 ,wav转mp3等,通过调整采样率和比特率还能提高转换后音频音质,另外软件提供了音频剪辑,音频合并,音频变速,电脑录音,音频音量增大,降低等功能
    在这里插入图片描述

    转换具体步骤:

    1.导入音频素材,首先打开QVE音频剪辑软件,切换到【转换】界面,然后点击【添加文件】按钮,选择需要转换音频格式的文件。
    在这里插入图片描述
    2.设置音频转换格式,在转换格式列表中,选择输出格式,点击【转换】按钮,等待转换进度100%,点击更多操作按钮image.png,选择打开目录。
    在这里插入图片描述

    3.查看音频格式转换后的文件,点击三个点图标,选择打开目录,文件名带有“转换”和“转换后的当前日期”。
    在这里插入图片描述
    总结:以上就是借助音频格式转换器实现了不同的音频格式相互转换方法,如果你有歌曲或者音乐需要转换到mp3,可以按照的上述的步骤试试。

    展开全文
  • CD格式:正统血脉WAV:无损AIFF与AUMP3:流行MIDI:作曲家最爱WMA:最具实力RealAudio:流动旋律VQF:无人问津OGG:新生代音频格式AAC: 前途无量以下是常见音频文件格式的特点。 要在计算机内播放或是处理音频文件...
  • 音频格式

    2008-03-30 11:54:00
    所以在它问世之初还没有什么别的音频格式可以与之匹敌,因而为*.mp3格式的发展提供了良好的条件。直到现在,这种格式还是风靡一时,作为主流音频格式的地位难以被撼动。但是树大招风,MP3音乐的版权问题也一直是找...
  • AAC音频格式分析与解码

    千次阅读 2016-07-23 16:17:34
    一直在做一个语音项目,到了测试阶段,近来不是很忙,想把之前做的内容整理一下。...AAC音频格式分析 AAC音频格式有ADIF和ADTS: ADIF:Audio Data Interchange Format 音频数据交换格式。这种格式的
  • OGG音频格式

    千次阅读 2012-12-10 08:47:11
    Ogg全称是OGG Vobis(ogg Vorbis) ,是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有一点不同的是,它是完全免费、开放和没有专利限制的。OGG Vobis有一个很出众的特点,就是支持多声道,随着它的流行,...
  • Matlab音频格式转换

    千次阅读 2020-05-07 10:46:28
    所需前置知识 读音频 audioread 语法:   [y,Fs] = audioread(filename);   从名为 filename 的文件中读取数据,并返回样本...   读取文件中所选范围的音频样本,其中 samples 是 [start,finish] 格式的向量。 ...
  • XAPO中LockForProcess 格式 是由与之绑定的IXAudioSubmixVoice来影响的。 但是貌似只能影响通道数和采样率,其中的WAVEFORMATEX.wBitsPerSample是Float型,32bit,暂时没有发现怎么去修改这个数值。 创建...
  • (下面我们要把该文件夹下的PNG格式的 图片/音频 都修改成jpg/mp4格式的图片/音频) 2.新建->文本文档 3.打开新建的文本文档,输入 ren *.png *.jpg 点击保存 (白话解释就是 所有的.png 转换成.jpg) 4.把文本...
  • 很多人会选择无损的音质也就是flac的音频文件,但是就是会出现一些比较不好的问题,就是特别占设备的内存,所以很多人还是会选择转换MP3格式保存,这样就能多听到更多的音乐了,那么话如何将flac音频格式转换mp3格式...
  • AVAsset MP3 PCM 格式 音频 采样 AVAssetReader AVAssetWriter 输出 转换 本文所有示例代码或Demo可以在此获取:https://github.com/WillieWangWei/SampleCode_MP3ToPCM 如果本文对你有所帮助,请给个Star???? ##...
  • FFmpeg 基础库(二)音频格式

    千次阅读 2018-03-05 15:01:48
    常见的音频格式有: CD 格式、 WAVE( *.WAV)、 AIFF、 AU、 MP3、 MIDI、 WMA、 RealAudio、 VQF、 OggVorbis、 AAC、 APE。 CD CD 格式的音质是比较高的音频格式。因此要讲音频格式, CD 自然是打头阵的先锋。...
  • 音频格式介绍

    千次阅读 2012-09-23 21:03:48
     首先为大家介绍一下FLAC吧,因为目前已经有N款机子支持FLAC格式了。FLAC(Fee Lossless Audio Codec),全称应该叫OGG FLAC,因为它是OGG计划的一部分,当然也就是开源,免费的了,这也难怪它这么快就得到了多家...
  • 主流音频格式介绍

    千次阅读 2009-09-29 18:37:00
    什么是数字音频格式? 数字音源,也就是数字音频格式,最早指的是CD,CD经过压缩之后,又衍生出多种适于在随身听上播放的格式,这些压缩过的格式,我们可以分为两大类:有损压缩的和无损压缩的。这里所说的压缩,是...
  • 音频格式、编解码

    千次阅读 2013-01-17 09:58:56
    1.音乐格式分类 音乐格式五花八门,多如牛毛,但不外乎分为两大类: 一类为:音乐指令文件(如MIDI),一般由...从播放形式上,声音文件还可以分为“音频流”和“非音频流”,前者能够一边下载一边收听,比如“.W
  • aiff,mp3,ogg,wav,mid,aac,m4a,wma,ape,flac等常用的音频格式文件小合集,可用于音频程序开发测试兼容性
  • 修改音频采样率和单双通道

    千次阅读 2020-05-30 16:43:17
    需要修改音频的分辨率,单双通道属性,但是从网上找了很多命令都有这样那样的问题,这里我用格式化工厂很好的解决了问题。 步骤 安装格式化工厂 pass 运行格式化工厂 3.选择音频处理,这里我需要保存成wav格式 4...
  • 在很多年前mp4和mp3格式就分别是主流的视频格式和音频格式了。而在我们观看视频时往往会有喜欢的bgm或者mv,可能互联网有这些bgm或mv的音频格式,但是可能寻找难度会偏大。那怎么无损的把mp4格式转换成mp3格式呢?...
  • android多媒体开发 音频格式比较

    千次阅读 2016-04-26 22:13:40
    音频格式比较: 音乐爱好者常见的音频格式有:flac、ape、wav、mp3、aac、ogg、wma 1.压缩比比较: aac>ogg>mp3(wma)>ape>flac>wav(同一音源条件下) mp3和wma以192kbps为分界线,192kbps以上mp3好,192kbps...
  • linux命令实现音频格式转换和拼接

    千次阅读 2018-07-02 15:09:00
    linux命令实现音频格式转换和拼接 安装FFmpeg flac eric@ray:~$ sudo apt install FFmpeg flac 安装lame faac eric@ray:~$ sudo apt install lame faac 将一个后缀为.ape格式的视频转换成m4a(mp4)格式...
  • mp3格式转换器怎么用?mp3格式是众多音频格式中的其中一...那我们该怎么用mp3格式转换器转换音频格式呢? mp3格式转换器: 在转换音频格式之前我们可以先来了解一下mp3格式转换器,这是一个能够把十余种音频格式互...
  • 1、下载 ffmpeg ...# _*_ encoding:utf-8 _*_ import os m4a_path_input = "G:/" #需要转换的文件目录 m4a_path_output = "G:/mp3/" #输出到指定的文件目录 url="F:/迅雷下载/ffmpeg-20200504-5767a2e-win...
  • iOS兼容amr音频格式

    千次阅读 2013-05-07 11:15:06
    很多作多平台语音ios开发的人肯定都会遇到一个很大的麻烦,就是ios录制的基本音频格式为caf,那么很多平台都不支持caf啊。。。上一篇文章写的是打算用音频队列的录制方法,和播放方法去作兼容的。不过意外中发现了...
  • maya支持的音频格式和时间线显示方法 maya支持44kHz 16位整数采样的wav aiff 格式音频。直接拖入音频文件到maya中,在时间线右键sound下可以选择音频显示。maya会自动建立audio节点,读取音频。将时间设为实时播放24...
  • OGG音频格式解析

    千次阅读 2010-10-16 16:38:00
    OGG <br />   什么是Ogg <br /> Ogg全称是OGG Vobis(ogg Vorbis) ,是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有一点不同的是,它是完全免费、开放和没有专利限制的。OGG ...
  • 如何在C#中进行音频格式转换

    千次阅读 2009-05-03 09:54:00
    如何在C#中进行音频格式转换如何在C#中进行音频格式转换如何在C#中进行音频格式转换如何在C#中进行音频格式转换如何在C#中进行音频格式转换有谁知道吗? 

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 65,846
精华内容 26,338
关键字:

怎样改音频格式