由于最近的Project要做声音分析,需要用到MATLAB,之前一直没怎么接触过,所以乘着做Project学习下。真的用了才知道MATLAB真是神器啊,呵呵~~~其强大的函数库和数学运算能力彻底让我折服了。言归正传,我们来讨论下用MATLAB做声音文件处理。
1. 读取WAV声音文件
1. 读取WAV声音文件[plain] view plaincopy% wavread(filename) 读取一个WAVE文件,并返回采样数据到向量y中,Fs表示采样频率, bits表示采样位数[y, Fs, bits] = wavread('drum.wav');%假设声音文件有两个声道,我们只分析第一个声道,如果要分析第二个声道可以改为:ft=y(:,2);ft = y(:,1);sigLength = length(ft); %获取声音长度%可以使用sound函数来播放声音sound(y, Fs, bits)>> left = y(:,1);>> leftSigLength = length(left)leftSigLength =106764>> sound(y, Fs, bits)>> ydown10=y./10;>> sound(ydown10, Fs, bits)>> yup10=y.*10;>> sound(yup10, Fs, bits)>> sound(ydown10, Fs, bits)>> sound(y, Fs, bits)>> sound(yup10, Fs, bits)>> sound(y, Fs, bits)>> sound(ydown10, Fs, bits)>> yleftHirightLow=[yup10(:,1);ydown10(:,1)];>> yleftHirightLow=[yup10(:,1),ydown10(:,1)];>> sound(yleftHirightLow, Fs, bits)>> sound(yleftHirightLow, Fs, bits)>> yleftLowrightHi=[ydown10(:,1),yup10(:,1)];>> sound(yleftLowrightHi, Fs, bits)>>>> wavwrite(ydown10,Fs,'ydown10.wav');>> wavwrite(yup10,Fs,'yup10.wav');Warning: Data clipped during write to file:yup10.wav> In wavwrite>PCM_Quantize at 248In wavwrite>write_wavedat at 272In wavwrite at 114>> wavwrite(yleftHirightLow,Fs,'yleftHirightLow.wav');Warning: Data clipped during write to file:yleftHirightLow.wav> In wavwrite>PCM_Quantize at 248In wavwrite>write_wavedat at 272In wavwrite at 114>> wavwrite(yleftLowrightHi,Fs,'yleftLowrightHi.wav');Warning: Data clipped during write to file:yleftLowrightHi.wav> In wavwrite>PCM_Quantize at 248In wavwrite>write_wavedat at 272In wavwrite at 114>>
00H 4 char "RIFF"标志 04H 4 long int 文件长度 08H 4 char "WAVE"标志 0CH 4 char "fmt"标志 10H 4 过渡字节(不定) 14H 2 int 格式类别(10H为PCM形式的声音数据) 16H 2 int 通道数,单声道为1,双声道为2 18H 2 int 采样率(每秒样本数),表示每个通道的播放速度, 1CH 4 long int 波形音频数据传送速率,其值为通道数×每秒数据位数×每样 本的数据位数/8。播放软件利用此值可以估计缓冲区的大小。 20H 2 int 数据块的调整数(按字节算的),其值为通道数×每样本的数据位 值/8。播放软件需要一次处理多个该值大小的字节数据,以便将其 值用于缓冲区的调整。 22H 2 每样本的数据位数,表示每个声道中各个样本的数据位数。如果有多 个声道,对每个声道而言,样本大小都一样。 24H 4 char 数据标记符"data" 28H 4 long int 语音数据的长度
楼主的帖子,文件头长度加起来是42字节,但是实际长度是44个字节(用UltraEdit打开一个WAVE文件,数一下就知道了)。如果用以个结构体来定义WAVE文件头应该为: struct WAVEFILEHEADER { char chRIFF[4]; DWORD dwRIFFLen; char chWAVE[4]; char chFMT[4]; DWORD dwFMTLen; PCMWAVEFORMAT pwf; char chDATA[4]; DWORD dwDATALen; };
但是实际测试,并不是所有的wave文件头都一样。比较麻烦的就是windows下自带的那个录音机录下的wav,文件头有58个Byte。所以,比较好的办法是,首先读取n长的一段字符,例如60个;然后从中查找关键字“data”,“data”之后的一个DWORD是实际音频数据的长度,得到这个长度len,再从这DWORD后开始读取len个字节,就可以读到文件尾。如果是双声道的,那么数据是交替存放的;如果是16bit采样的,每两个字节会以小端的方式存储一个AD值。根据这样的方式,就可以顺利读取音频数据了。
有一个问题就是:在不知道文件头多长的情况下,采用直接读取60个Byte的方法是不够严谨的。如果是标准的wav格式,那么文件头只有44byte,就存在整个文件都没有60Byte长的可能性。实际中当然不大可能,但是严谨考虑,应该先读取36个Byte,从37开始,4个4个的读取,判断是否有“data”关键字,进而得出文件头的实际长度。
就想到了这些,暂时记下来。
简述
在 Qt 之 WAV文件解析 中给出了WAV文件属性的计算,具体包括文件大小、音频时长、比特率等属性,这里我们再次验证一下这些属性值的计算 。
在计算之前,我们要知道一下wav文件中的三个参数 采样频率、音频通道数、每次采样得到的样本位数 ,这三个参数用来表示声音,同时决定了wav文件的音质,大小。下面简单介绍一下这三个参数。
采样频率
指每秒钟取得声音样本的次数。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,采样频率越高,声音的质量也就越好,声音的还原也就越真实,但同时它占的资源比较多。由于人耳的分辨率很有限,太高的频率并不能分辨出来。22050 的采样频率是常用的,44100已是CD音质,超过48000或96000的采样对人耳已经没有意义。
音频通道数
声音的通道的数目。常见的单声道和立体声(双声道),现在发展到了四声环绕(四声道)和5.1声道。如果是双声道,采样就是双份的,文件也差不多要大一倍。
每次采样得到的样本位数
采样位数可以理解为声卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实。 采样位数也叫采样大小或量化位数。它是用来衡量声音波动变化的一个参数,也就是声卡的分辨率或可以理解为声卡处理声音的解析度。它的数值越大,分辨率也就越高,录制和回放的声音就越真实。
计算公式
波形数据传输速率(每秒平均字节数) = 采样频率 × 音频通道数 × 每次采样得到的样本位数 / 8
比特率(kbs) = 波形数据传输速率 × 8 / 1000
WAV文件所占大小(字节) = 波形数据传输速率 × 音频文件时长
音频文件时长(秒) = WAV文件所占容量 / 波形数据传输速率
关于以上几个属性我们可以右击wav文件查看文件属性看到这几个值。见下图。


从上述两幅图中我们可以知道这个wav文件的总大小为6947字节,比特率为88kbs,时间为0s,是不是很诧异,为什么这里时间为0呢?实际上windows这里只是按整数显示了音频时长,那么真正的时间怎么计算呢?
这里我们已经知道了wav文件的大小,看上述公式,我们还要知道波形数据传输速率,波形数据传输速率而又是由采样频率 、 音频通道数 、 每次采样得到的样本位数 来决定,那么这些参数怎么获取到呢?
看过Qt 之 解析wav文件的头信息(详细分析、对比不同wav文件的数据)这篇文章就应该知道如何去解析一个wav文件,并获取所有的文件头信息,如果不知道文件头信息是什么,请参考Qt 之 WAV文件解析。
好了,既然对于一个wav文件,我们能够获取到所有的头信息,那么接下来就来验证以上公式计算的结果。

上图为wav文件的头信息数据,我们可以看到波形数据传输速率(nBytesPerSecond)的值为11025,文件总大小为6947字节,音频数据大小为6903字节,文件头信息为44字节。
音频文件时长(秒) = WAV文件所占容量 / 波形数据传输速率 = 6903 / 11025 = 0.626122 s
比特率(kbs) = 波形数据传输速率 × 8 / 1000 = 11025 × 8 / 1000 = 88 kbs
这里为什么精确到小数点后六位,其实也是为了与程序记录的时间做对比,这里也要特别注意:实际上 WAV文件所占容量 为 WAV文件中 音频数据大小 ,而并非WAV文件总大小 , 但是 文件头信息所占字节非常小,所以就算是将这块大小加上进行计算,对最后的计算结果影响也非常小。下面我们就用QAudioOutput 来播放这个wav文件,同时记录播放时间 。
代码之路
// 播放wav文件
void MyAudioInput::onPlay()
{
sourceFile.setFileName(WAV_RECORD_FILENAME);
sourceFile.open(QIODevice::ReadOnly);
// 设置播放音频格式;
QAudioFormat format;
format.setSampleRate(11025);
format.setChannelCount(1);
format.setSampleSize(8);
format.setCodec("audio/pcm");
// wav文件即按照这个字节存储顺序保存数据;
format.setByteOrder(QAudioFormat::LittleEndian);
format.setSampleType(QAudioFormat::UnSignedInt);
QAudioDeviceInfo info(QAudioDeviceInfo::defaultOutputDevice());
//qDebug() << info.supportedCodecs();
if (!info.isFormatSupported(format))
{
qWarning() << "Raw audio format not supported by backend, cannot play audio.";
return;
}
m_audioOutput = new QAudioOutput(format, this);
connect(m_audioOutput, SIGNAL(stateChanged(QAudio::State)), this, SLOT(handleStateChanged(QAudio::State)));
m_audioOutput->start(&sourceFile);
m_time.start();
}
// 播放状态更新;
void MyAudioInput::handleStateChanged(QAudio::State state)
{
switch (state) {
case QAudio::IdleState:
// Finished playing (no more data)
qDebug() << "elapsedUSecs:" << m_audioOutput->elapsedUSecs();
qDebug() << "time : " << m_time.elapsed();
onStopPlay();
break;
case QAudio::StoppedState:
// Stopped for other reasons
if (m_audioOutput->error() != QAudio::NoError) {
// Error handling
}
break;
default:
break;
}
}
// 关闭播放;
void MyAudioInput::onStopPlay()
{
if (m_audioOutput != NULL)
{
m_audioOutput->stop();
sourceFile.close();
delete m_audioOutput;
m_audioOutput = NULL;
}
}
代码中我分别用了QAudioOutput类的elapsedUSecs方法和QTime类的elapsed方法来记录wav文件音频时长。以下是两个方法的介绍。


elapsedUSecs() 输出为微妙
elapsed() 输出为毫秒
通过记录得到以下数据:
m_audioOutput->elapsedUSecs() : 636000
m_time.elapsed() : 635
m_audioOutput->elapsedUSecs() : 639000
m_time.elapsed() : 638
m_audioOutput->elapsedUSecs() : 642000
m_time.elapsed() : 641
m_audioOutput->elapsedUSecs() : 639000
m_time.elapsed() : 639
而我们的计算结果为: 0.626122 s = 626.122 ms = 626122 us , 显然程序中获取的时间大于计算的时间,这也很好理解,因为程序的运行需要消耗一定的时间,所以记录的时间存在很小的误差(误差范围大致在0.009s ~ 0.016s),如果电脑性能更好这个误差就越小。
特别注意
这里我们用QAudioOutput类来计算wav文件时长,这里我们要给QAudioOutput类对象设置播放格式QAudioFormat ,设置的格式必须与解析出来的文件头信息中的 采样频率、音频通道数、每次采样得到的样本位数、编码格式等严格保持一致,否则不仅播放出来的声音不清楚,记录的音频时长也有问题。
尾
通过以上发现,我们的计算公式是成立的。基本上我们可以在wav文件头信息中获取wav文件的全部信息,唯一就是wav**文件时长**需要通过文件头中的信息进行计算得到。所以如果我们想要做一个播放器,在播放器上显示一个wav文件的时长,我们就需要先解析wav文件的头信息,通过计算得到文件时长。
更多参考
由于最近的Project要做声音分析,需要用到MATLAB,之前一直没怎么接触过,所以乘着做Project学习下。真的用了才知道MATLAB真是神器啊,呵呵~~~其强大的函数库和数学运算能力彻底让我折服了。言归正传,我们来讨论下用MATLAB做声音文件处理。
1. 读取WAV声音文件
% wavread(filename) 读取一个WAVE文件,并返回采样数据到向量y中,Fs表示采样频率, bits表示采样位数 [y, Fs, bits] = wavread('drum.wav'); %假设声音文件有两个声道,我们只分析第一个声道,如果要分析第二个声道可以改为:ft=y(:,2); ft = y(:,1); sigLength = length(ft); %获取声音长度 %可以使用sound函数来播放声音 sound(y, Fs, bits)2. 绘制波形图t=(0:sigLength-1)/Fs; figure; subplot(2,1,1); plot(t, ft), title('Plot of the Tone'),grid; xlabel('Time(s)'); ylabel('Amplitude');3. 绘制振幅频谱图%Y = fft(X) 使用快速傅里叶变换算法返回向量X的离散型傅里叶变换 %Y = fft(X,n) 返回n点的离散傅里叶变换,如果向量X的长度小于n,函数要将向量X补零到长度n;如果向量X的长度大于n, 则函数阶段X使之长度为n。若X是矩阵,按相同方法对X进行处理。 Y = fft(ft,sigLength); halfLength = floor(sigLength/2); Pyy =Y(1:halfLength + 1); % 只选取前半截部分波形的傅里叶变换返回震级和相位信息,并且用复数的形式表达,通过计算绝对值来获取其频率的振幅Pyy = abs(Pyy);%用于计算复向量的Y的振幅 f = ((0:halfLength)+1)* Fs/sigLength; subplot(2,1,2); plot(f,Pyy), title('Frequency spectrum'),grid; xlabel('Frequency(Hz)'); ylabel('Amplitude');4. 绘制能量频谱图Y = fft(ft,sigLength); halfLength = floor(sigLength/2); Pyy =Y(1:halfLength + 1); % 只选取前半截部分 Pyy = abs(Pyy);%用于计算复向量的Y的振幅 f = ((0:halfLength)+1)* Fs/sigLength; %通过点数调整比例,从而使振幅不依赖于信号长度或采样频率,说实话这部分还不是很明白 Pyy = Pyy/sigLength; Pyy = Pyy.^2; %求平方得到能量 % 乘以2, 请参照 http://www.mathworks.com/support/tech-notes/1700/1702.html if rem(sigLength, 2) %奇数的 n fft 不包含奈奎斯特(Nyquist)点 Pyy(2:end) = Pyy(2:end)*2; else Pyy(2:end -1) = Pyy(2:end-1)*2; end plot(f/1000, 10*log10(Pyy), 'k') xlabel('Frequency (kHz)') ylabel('Power (dB)')引用:The MethWorks Support. Technique notes 1702, http://www.mathworks.com/support/tech-notes/1700/1702.htmlBasic Sound Processing with Matlab http://xoomer.virgilio.it/sam_psy/psych/sound_proc/sound_proc_matlab.html转载于:https://www.cnblogs.com/wubo/archive/2011/08/02/2253507.html