精华内容
下载资源
问答
  • 麦克风阵列技术
    2020-01-13 12:07:05

    麦克风阵列总体介绍:

    https://blog.csdn.net/sxau_zhangtao/article/details/100118205

    https://blog.csdn.net/sxau_zhangtao/article/details/100118865

    https://blog.csdn.net/isuccess88/article/details/78446585

    麦克风与麦克风阵列介绍:

    https://blog.csdn.net/antkillerfarm/article/details/81865981

    以下是分出来的博客:

    盘点麦克风技术及市场,远场语音交互如何选型麦克风:

    https://zhuanlan.zhihu.com/p/27610503

    让机器听懂人类语言,主流麦克风阵列技术解读:

    https://zhuanlan.zhihu.com/p/29809882

    大牛讲堂|语音专题第一讲,麦克风阵列的语音信号处理技术

    https://zhuanlan.zhihu.com/p/23420891

     

    自适应波束形成:

    https://blog.csdn.net/godloveyuxu/article/details/72903329

    关于自适应波束形成,叶剑杰博主有很好的介绍和说明:

    https://blog.csdn.net/yjjat1989/article/details/21713293

    https://blog.csdn.net/YJJat1989/article/details/22171937

     

    国内有哪些机器人公司?

    http://www.360doc.com/content/18/0212/08/40018873_729497087.shtml

    新松机器人、科沃斯机器人、哈工大机器人

    扫地机器人十大排名 全球前十强出炉:

    https://www.douban.com/group/topic/108722583/

     

    大屏来袭 四大智能车机系统功能对比:

    https://baijiahao.baidu.com/s?id=1603929967351574312&wfr=spider&for=pc

    云知声“云端芯”生态:

    https://www.unisound.com/

     

    国内十大智能家居企业:

    https://baijiahao.baidu.com/s?id=1625603659998159763&wfr=spider&for=pc

     

     

     

     

    更多相关内容
  • 麦克风阵列技术名词解释背景介绍远场拾音声源定位麦克风及音频信号什么是麦克风麦克风的分类麦克风的对比选型麦克风阵列简介语音交互的优势人机交互痛点近场语音和远场语音麦克风阵列的功能麦克风阵列构型 ...

    名词解释

    缩略语全名称简单释义
    APIApplication Programming Interface应用程序编程接口
    DESData Encryption Standard数据加密标准
    3DESTriple DES, Triple Data Encryption Algorithm三重数据加密算法块密码的通称
    JSONJavaScript Object NotationJavaScript对象标记
    SaaSSoftware as a Service软件即服务
    SDKSoftware Development Kit软件开发工具包
    XMLeXtensible Markup Language可扩展标记语言
    ECMElectret Condenser Micphone驻极体电容麦克风
    HCIHuman Computer Interaction人机交互
    HMIHuman Machine Interaction人机交互
    HCSIHuman Computer Speech Interaction人机语音交互
    AIArtificial Intelligence人工智能
    ANNArtificial Neural Networks人工神经网络
    BPBack Propagation反向传播
    HMMHidden Markov Model隐马尔可夫模型
    ASRAutomatic Speech Recognition自动语音识别
    NLPNatural Language Processing自然语言处理
    OCROptical Character Recognition光学字符识别
    TTSText To Speech语音合成
    AECAcoustic Echo Canceller自动回声消除
    AGCAutomatic Gain Control自动增益控制
    ANSAutomatic Noise Suppression自动噪声抑制
    BSSBlind Source Separation盲源分离
    DBFDigital Beam Forming数字波束形成
    DOADirection Of Arrival波达方向
    DSPDigital Signal Processing数字信号处理
    NSNoise Suppression噪声抑制
    SDBSuper Directive Beamforming超指向波束形成
    VADVoice Activity Detection语音活动检测
    VQEVoice Quality Enhancement语音质量增强
    SIRISpeech Interpretation & Recognition Interface语音识别接口
    WWDCWorld Wide Developers Conference苹果全球开发者大会

    背景介绍

    麦克风阵列是由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。

    远场拾音

    指运用远场识别和降噪技术,使拾音距离达到5米。

    声源定位

    利用麦克风阵列,实现180°/360°语音信号采集,并能通过声源定位来确定目标说话人的方向。

    麦克风及音频信号

    什么是麦克风
    • 麦克风是英文Microphone的音译名称,是业界的一种通俗叫法,有时候也简单称作话筒,香港和台湾地区也会称作微音器、拾音器。

    • 麦克风的正式中文学术名称是传声器,是一种将声音信号转换为电子信号的换能器,即把声信号转成电信号。

    • 消费级市场的麦克风基本都是标量麦克风,也就说只能采集单一的物理量信息——声压。

    ①声压是指声波通过媒质时,由振动所产生的压强改变量,也可以理解为声音的幅度或者强度。声压常用字母"p"表示,单位是帕斯卡(符号Pa)。声压的帕斯卡单位并不方便人们识记,一般就以对数形式来衡量有效声压相对于一个基准值的大小来表示,即声压级,其单位是分贝(符号dB)。
    ②人类对于1KHz的声音的听阈为20 x10-6Pa,通常以此作为声压级的基准值。这样讲可能晦涩难懂,我们来简单的类比一下:人类的呼吸声压是60x10-6Pa左右,声压级大约10dB,火箭发射的声压是4000Pa左右,声压级大约165dB,闪光弹的声压超过1万Pa,声压级大约175dB。

    • 为了描述麦克风的性能,有几个性能指标是非常关键的,这包括了灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性等。这几个指标其实都好理解,决定了麦克风的性能,而且每个指标都非常关键,缺一不可。当然这些指标相对于喇叭的T-S参数来说,真的是简单的了许多。

    • 麦克风是典型的传感器产业,但是其技术迭代非常迅速,近年来外观尺寸也发生了很大变化,集成到电路板中后一般人很难快速找出。

    麦克风的分类

    制作麦克风硬件最常用的两种技术是MEMS微机电和ECM驻极体电容技术。这两种技术工作原理类似,在实际应用场景中可以根据具体需要在二者之中进行选择。

    一、 MEMS微机电麦克风
    微机电麦克风也称麦克风芯片或硅麦克风,硅麦一般都集成了前置放大器,甚至有些硅麦会集成模拟数字转换器,直接输出数字信号,成为数字麦克风。

    1. MEMS传声器采用置于印刷电路板(PCB)并以机盖防护的MEMS(微机电系统)组件构建而成。在外壳上制作小孔,便于声音进入传声器,孔位于顶盖的叫作顶部端口型号,而孔位于PCB内部的叫作底部端口型号。MEMS组件设计通常会在半导体晶圆上构造机械振膜和安装结构。
    2. MEMS振膜形成一个电容器,而声压波则会引起振膜的运动。MEMS传声器通常含有另一个半导体晶圆,用作音频前置放大器,将MEMS的变化电容转换为电信号。如果用户需要模拟输出信号,可为其提供音频前置放大器的输出。如果用户需要数字输出信号,就在与音频前置放大器所处的同一晶圆上加入模数转换器(ADC)。
    3. MEMS传声器中数字编码采用的通用格式是脉冲密度调制(PDM),可以只和一个时钟和一条单独的数据线通信。数据采用单比特编码,从而简化了接收器中数字信号的解码。

    二、ECM柱极体麦克风

    1. 驻极体振膜(具有固定表面电荷的材料)靠近导电板隔开放置,并且和MEMS传声器相似,也会形成一个电容器,以气隙作为电介质。通过电容器的电压随着电容值的变化而变化,而电容的变化是由移动驻极体振膜的声压波引起的,ΔV= Q /ΔC。电容器电压变化由传声器外壳包覆的JFET进行放大和缓冲。JFET通常采用共源配置,而外部应用电路则采用外部负载电阻和隔直电容。
    2. 简单理解:MIC内部设计为一个电容,电容的一端是固定的,另一端是可动的,两端之间的距离和声音输入有关系,声音的大小、频率导致金属片震动产生幅度和频率的变化,在驻极体电容这边就转换为电容电荷量大小与充电快慢,在MIC输出端就表示为一个幅度和频率有随着声音输入变化而变化的电信号。
    麦克风的对比选型
    MEMS微机电麦克风ECM柱极体电容麦克风
    优点体积小,可SMT、产品稳定性好技术成熟、价格便宜
    缺点价格偏高体积大,不方便SMT、引线长,造成信号衰减、生产工序多,一致性差、灵敏度不稳定

    麦克风阵列简介

    语音交互的优势

    相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。正常来说语音输入的速度是传统输入方式的三倍以上,而随着深度学习技术的发展,当前语音的识别率可以达到97%。

    人机交互痛点

    1)识别距离近:语音交互受限距离不能进行远场的识别
    2)对话不智能:不能持续进行多轮对话不能打断
    3)嘈杂环境:在嘈杂环境下识别率低饱受噪声干扰
    4)响应时间慢:不能即时快速响应交互不流畅导致体验下降

    近场语音和远场语音

    一、 近场语音
    大家应该都体验过有屏手持设备的语音交互,如Siri以及各种语音助手App,我们把这种采用单颗麦克风进行拾音及识别的场景叫做近场语音识别。
    近场语音存在一些先天性的缺陷:
    1)近距离讲话:1米以内交互效果较好,超出1米后很难识别;
    2)对环境有要求:尽量安静,周围不能有噪声干扰;
    3)标准人声发音:字正腔圆普通话,其它的很难支持;
    4)无法自动多轮交互:需由用户触发一次交互的开始及结束;
    5)不支持打断功能:机器发声结束后才可以进行下一轮对话。

    二、远场语音
    1)提供麦克阵列前端算法,解决人机交互中,距离较远带来的识别率较低的问题,让人机对话更加方便
    2)通过远场语音识别技术,可以让用户,即使在三至五米的距离,也可对智能家居进行语音操作

    麦克风阵列的功能

    人机之间的语音交互(这里主要指智能硬件、机器人等),区别于传统的有屏手持设备,涉及到复杂的环境和远距离拾音的问题。通过麦克风阵列使语音交互距离大大增加,使人机交互更加自然,更趋向于人人交互。
    在这里插入图片描述

    • 人机交互过程中的噪声可以分为以下几类:回声,混响,干扰和背景噪声;
    • 麦克风阵列具备的功能:自动增益控制;回声控制、回声消除、回声抑制;去混响;声源定位、波束形成、语音增强、盲源分离、干扰抑制;噪声控制、主动噪声控制、降噪等。
    麦克风阵列构型

    在这里插入图片描述

    1. 六麦环形阵列:六麦环形阵列适用于应用场景较为复杂(例如商场、办公室),对角度定位要求比较高,回声消除和识别率要求较高的机器人和家居产品解决方案。
    2. 四麦线性阵列:四麦线性阵列适用于车载,空调,电视,应用型机器人等智能装备,支持0~180°角度定位,回声消除和连续唤醒等功能。
    3. 两麦线性阵列:两麦线性阵列对芯片性能要求较低,适用于低成本的智能装备解决方案,支持回声消除和噪声抑制等功能。

    以六麦阵列为例,其具备以下功能特性:
    1)波束形成(波束形状是阵列对不同频率及方向的信号的响应,它与阵列麦克风数目、几何形状、源信号位置以及频率有关。);
    2)回声消支持信噪比-30dB左右;
    3)平稳噪声滤波;
    4)方向性非平稳噪声抑制;
    5)语音增强和去混响;
    6)声源定位精度±10°。

    展开全文
  • 麦克风阵列技术麦克风阵列技术详解声源定位延时估计角度计算波束形成波束形成模型波束形成基本理论去混响麦克风阵列结构设计声学结构确认流程 紧接上一个博客文章,此为第三部分。上一部分见:麦克风阵列技术 二 ...

    紧接上一个博客文章,此为第三部分。上一部分见:麦克风阵列技术 二 (自动增益控制 自动噪声抑制 回声消除 语音活动检测)

    麦克风阵列技术详解

    声源定位

    麦克风阵列可以自动检测声源位置,跟踪说话人,声源定位信息既可以用于智能交互,也可以用于后续的空域滤波,对目标方向进行语音增强。

    利用麦克风阵列可以实现声源到达方向估计(direction-of-arrival (DOA) estimation),DOA估计的其中一种方法是计算到达不同阵元间的时间差,另外一种可以看这里,这篇主要介绍经典的GCC-PHAT方法
    简单说明问题背景,信号模型如下图,远场平面波,二元阵列

    要计算得到θθ,其实就是要求两个阵元接收到的信号时间差,现在问题变成到达时间差估计(Time-Difference-of-Arrival Estimation),因此,基于延时估计的DOA方法,其实也可以看做是分两步进行的,第一步是估计延时,第二步是计算角度,与之相对应的基于空间谱估计的DOA方法就是一步完成的。下面就分两步进行介绍

    延时估计

    一、 互相关函数(cross-correlation function)

    计算y1(k)y1(k)与y2(k)y2(k)的时间差,可以计算两个信号的互相关函数,找到使互相关函数最大的值即是这两个信号的时间差
    离散信号的互相关函数

    R(τ)=E[x1(m)x2(m+τ)]R(τ)=E[x1(m)x2(m+τ)]

    求时间差就是找到互相关函数最大时的点

    D=argmaxR(n)D=argmaxR(n)
    MATLAB代码如下:

    %%
    % Load the chirp signal.
    load chirp;
    c = 340.0;
    Fs = 44100;
    %%
    d = 0.25;
    N = 2;
    mic = phased.OmnidirectionalMicrophoneElement;
    % array = phased.URA([N,N],[0.0724,0.0418],'Element',mic);
    array = phased.ULA(N,d,'Element',mic);
     
    %%
    % Simulate the incoming signal using the |WidebandCollector| System
    % object(TM).
    arrivalAng = 42;
    collector = phased.WidebandCollector('Sensor',array,'PropagationSpeed',c,...
        'SampleRate',Fs,'ModulatedInput',false);
    signal = collector(y,arrivalAng);
     
    x1 = signal(:,1);
    x2 = signal(:,2);
     
    N =length(x2);
    xc = xcorr(x1,x2,'biased');
    [k,ind] = max(xc);
    an = acos((ind-N)/Fs*340/d)*180/pi
     
    xc12 = zeros(2*N-1,1);
    m = 0;
    for i = -(N-1):N-1
        m = m+1;
        for t = 1:N
            if 0<(i+t)&&(i+t)<=N
                xc12(m) = xc12(m) + x2(t)*x1(t+i);
            end 
        end
    end
    xc12 = xc12/N;
    

    以上程序中的循环就是上面的定义公式,运行程序可以看到循环部分计算的互相关与直接调用matlab的xcorr结果相同(注意matlab中互相关默认没做归一化),找到互相关函数的最大值就可以得到时间差 。

    二、广义互相关(generalized cross-correlation)

    理论上使用上面个介绍的CCF方法就可以得到时间差,但是实际的信号会有噪声,低信噪比会导致互相关函数的峰值不够明显,这会在找极值的时候造成误差。
    为了得到具有更陡峭极值的互相关函数,一般在频域使用一个加权函数来白化输入信号,这就是经典的广义互相关方法。
    由维纳-辛钦定理可知,随机信号的自相关函数和功率谱密度函数服从一对傅里叶变换的关系,即x1、x2x1、x2的互功率谱可由下式计算

    P(ω)=∫+∞?∞R(τ)e?jωτdτP(ω)=∫?∞+∞R(τ)e?jωτdτ

    R(τ)=∫+∞?∞P(ω)ejωτdωR(τ)=∫?∞+∞P(ω)ejωτdω

    这一步是把互相关函数变换到了频域,哦对,上面说到是想白化互相关函数,那就把上面第二式添加一个系数

    R(τ)=∫+∞?∞A(ω)P(ω)ejωτdωR(τ)=∫?∞+∞A(ω)P(ω)ejωτdω

    设计不同的频域系数A(ω)A(ω)对应着不同方法,这里只介绍 PHAT(phase transform)方法,即取系数如下:

    A(ω)=1|P(ω)|A(ω)=1|P(ω)|

    基本思想就是求时间差只需要相位信息,舍弃不相关的幅度信息以提高健壮性,可以看到当A(ω)=1A(ω)=1的情况下就是经典互相关
    P(ω)P(ω)为复数,可以表示为|P(ω)| * e - jωp|P(ω)| * e - jωp,去掉幅度信息后,就只剩相位信息e - jωpe - jωp了,要得到相位信息,可以用P(ω)abs(P(ω))P(ω)abs(P(ω))计算,也可以直接用matlab中的angle函数计算,即angle(P(ω))angle(P(ω)),
    在这里插入图片描述
    几行代码验证下:

    x1 = [1,2,3,7,9,8,3,7]';
    x2 = [4,5,6,5,4,3,8,2]';
     
    [tau,R,lag] = gccphat(x1,x2) 
     
    N = length(x1)+length(x2)-1;
    NFFT = 32;
    P = (fft(x1,NFFT).*conj(fft(x2,NFFT)));
    A = 1./abs(P);
    R_est1 = fftshift(ifft(A.*P));
    range = NFFT/2+1-(N-1)/2:NFFT/2+1+(N-1)/2;
    R_est1 = R_est1(range);
     
    R_est2 = fftshift(ifft(exp(1i*angle(P))));
    R_est2 = R_est2(range);
    

    可以看到,三种不同写法得到的R_est1 、R_est2 与matlab自带函数gccphat计算得到的R相等。

    那上面例子中的宽带语音信号,用GCC-PHAT方法得到具有陡峭峰值互相关函数,找到互相关最大时的点,结合采样频率Fs与与麦克风间距dFs与与麦克风间距d,就可以得到方向信息。

    角度计算

    上面的内容计算了两个麦克风的延时,实际中假设阵列中麦克风个数为NN,则所有麦克风间两两组合共有N(N-1)/2N(N-1)/2对,记第kk个麦克风坐标为(xk,yk,zk)(xk,yk,zk),声源单位平面波传播向量u? =(u,v,w)u→=(u,v,w),如果麦克风k,jk,j之间的延时为τkjτkj,则根据向量关系有下式,其中c为声速,
    C * τkj = -(xk→-xj→)?u? c?Τkj = -(xk→-xj→) * u→

    这样看起来不够直观,那就代入坐标写成标量形式如下:
    Cτkj=u(xk-xj)+v*(yk-yj)+w*(zk-zj)cτkj=u(xk-xj)+v*(yk-yj)+w*(zk-zj)

    当有多个麦克风时,每两个麦克风就可以得到一组上式,N个麦克风就会有N*(N-1)/2个等式N个麦克风就会有N*(N-1)/2个等式,声源单位传播向量u? =(u,v,w)u→=(u,v,w)有三个未知数,因此最少只需要三组等式,也就是三个麦克风就可以计算出声源方向,这里就先假定N=3N=3,可以得到方程组如下:
    在这里插入图片描述
    写成矩阵形式
    在这里插入图片描述
    求出u? =(u,v,w)u→=(u,v,w)后,由正余弦关系就有了角度值了
    θ=acos(1w)θ=acos(1w)
    α=acos(usin(acos(1w)))α=acos(usin(acos(1w)))

    当麦克风数量N>3N>3时,其实所有组合信息对于角度值的计算是有冗余的,这个时候可以求出所有组合的角度值,然后利用最小二乘求出最优解,这样可以利用到所有的麦克风的信息来提高角度估计的稳定性。

    波束形成

    DBF是Digital Beam Forming的缩写,译为数字波束形成 或数字波束合成。数字波束形成技术是天线波束形成原理与数字信号处理技术相结合的产物,其广泛应用于阵列信号处理领域。
    专业:电子、通信与自动控制技术阵列信号处理最主要的研究内容包括DOA估计和波束形成。较早的DOA估计方法又称为波束形成方法,而该波束形成方法利用了空域维纳滤波的匹配概念,由阵列流形在信号空间中的投影大小判定信号方向,后来随着研究的深入,高分辨谱估计技术的发展,才把DOA估计和波束形成加以区分,DOA估计是为了确定信号的方位,从接收数据中测出信号方向,不管信号是有用信号还是干扰信号,在DOA估计方向图中都表现为峰值,而此峰值并不是实际阵列输出功率;波束形成是传统滤波的空域拓展,其根本目的是有效提取有用信号并抑制噪声和干扰,在方向图中表现为有用信号方向形成峰值、干扰方向形成零陷,可以认为DOA估计为波束形成的前端处理,确定期望信号和干扰方向后,阵列对期望信号方向形成波束并在干扰方向形成零陷。

    DBF体现的是声源信号的空域选择性,许多传统波束形成方法具有线性处理结构;波束形成需要考虑三个方面:
    1)麦克风阵列个数;
    2)性能;
    3)鲁棒性。

    在麦克风较少时,波束形成的空域选择性差,当麦克风数量较多时,其波束3dB带宽较为窄,如果估计的目标声源方向有稍有偏差,带来的影响也更大,鲁棒性不好。通常鲁棒性和性能是对矛盾体,需要均衡来看。

    WebRTC使用了如下几个点以提高鲁棒性和性能(其算法性能优先):
    1.可以使用多个后置滤波器而非一个,2.每个后置滤波使用新的结构。

    每个后置滤波器为每个声学场景的时频域bin在均方误意义上提供了最优实增益。在WebRTC中后置滤波器根据声源的空域协方差矩阵,干扰源协方差矩阵,绕射场(零阶贝塞尔函数计算)以及临近麦克风的时频信号信息求得。

    这样的话就可以为每个声源和干扰场景计算出不同的最优后置滤波器,也可以使用级联的方式灵活使用多个不同选择性的后置滤波器。
    当前现存的波束形成算法的鲁棒性成为它们使用的一道门槛,如MVDR和多通道维纳滤波。

    WebRTC为了增强鲁棒性,在求最优矩阵时,对声源信号添加了限制条件,使用Gabor frame将声源变成时频bin的系数,对这些bin按照目标声源和干扰声源附加了条件,如果满足条件,则门操作让目标声源通过,而让干扰源乘以零以实现选择最优目标信号。

    在WebRTC中这些增益系数称为自适应标量(上面的实)乘法增益,均方误差准则被用来做为计算的准则。由于阵列方向响应随频率是变换的,而语音信号又是宽带信号,所以WebRTC中使用了gabor变换来表示声音信号。增益源于目标信号和干扰的比例。

    波束形成模型

    以均匀线阵为例:
    在这里插入图片描述
    按窄带模型分析:
    在这里插入图片描述
    可以写成矩阵形式:
    在这里插入图片描述
    其中a(θ)为方向矢量或导向矢量(Steering Vector),波束形成主要是针对各个接收信号X进行权重相加。

    波束形成基本理论
    1. A-波束形成
      权重相加:在这里插入图片描述
      不同的波束形成,就是不同的权重W。

    2. B-瑞利限
      以均匀直角窗为例:
      在这里插入图片描述
      得出方向图:
      在这里插入图片描述
      主瓣宽度正比于孔径宽度的倒数:
      在这里插入图片描述
      因为孔径的限制,造成波束宽度存在限制(不会无限制小),近而落在主瓣波束内部的两个信号便会混在一起而分不清,这就存在瑞利限的问题。

      直角窗主瓣宽度为:
      在这里插入图片描述
      其中λ为入射波长,theta1为入射角,Md为阵列孔径。

    3. C-常见窗函数

      对于空间不同的阵列信号,类似采样分析(空域采样),自然可以加窗进行处理,不加窗可以认为是直角窗,另外也可以选择汉明窗、hanning窗等等。

      加窗可以改变波束宽度以及主瓣、副瓣等特性,可以借助MATLAB 的wvtool观察不同窗函数特性。

    N = 192;
    w = window(@blackmanharris,N);
    wvtool(w)
    

    在这里插入图片描述

    1. D-DFT实现
      阵列的采样间隔是相位信息:
      在这里插入图片描述
      这就类似于频域变换,只不过这里的相位信息:对应的不是频率,而是不同位置,可以看作空域的变换。

      分别对阵列信号进行直接加权、加窗、DFT实现:

    clc;clear all;close all
    M = 32;
    DOA = [-30 30];
    SNR = 10;
    theta = -90:.1:90;
    len = length(theta);
    SignalMode = 'Independent';
    fc = 1e9;
    c = 3e8;
    lambda = c/fc;
    d = lambda/2;
    N = 100;%snap points
    x = StatSigGenerate(M,N,DOA,SNR,SignalMode,lambda,d);
    R_hat = 1/N*x*x';
    output = zeros(3,len);
    for i = 1:len
        a = exp(1j*2*pi*[0:M-1]'*sind(theta(i))*d/lambda);
        W = (inv(R_hat)*a)*(1./(a'*inv(R_hat)*a));
        output(1,i) = mean(abs(W'*x),2);
        output(2,i) = 1./(a'*inv(R_hat)*a);
        output(3,i) = a'*x*ones(N,1);
    end
    output = abs(output);
    output = output - repmat(mean(output.')',1,size(output,2));
    output = output./repmat(max(output.')',1,size(output,2));
    %plot
    plot(theta,output(1,:),'k',theta,output(2,:),'r--',theta,output(3,:),'b');
    legend('MVDR 波束','MVDR 谱','固定权重 波束');
    

    在这里插入图片描述

    1. E-自适应波束形成
      直接相加也好、加窗也好,都是固定的权重系数,没有考虑到信号本身的特性,所以如果结合信号本身去考虑就形成了一系列算法:自适应波束形成。

      这类步骤通常是:
      1)给定准则函数;
      2)对准则函数进行求解。

      准则常用的有:信噪比(snr)最大准则、均方误差最小准则(MSE)、线性约束最小方差准则(LCMV)、最大似然准则(ML)等等;

      求解的思路大体分两类:1)直接求解,例如MVDR中的求解;2)也可以利用梯度下降的思想,如随机梯度下降、批量梯度下降、Newton-raphson等方法,不再详细说明。

      以MVDR举例:
      在这里插入图片描述
      这里采用直接求解的思路:
      在这里插入图片描述
      将求解的W带入
      在这里插入图片描述
      即可得到波束形成。

    2. F-栅瓣现象
      栅瓣是一类现象,对应干涉仪就是相位模糊(相位超过2*pi),对应到Beamforming就是栅瓣问题,具体不再论述,给出现象(同样的波束,在不同的位置分别出现):
      在这里插入图片描述

    3. G-波束形成与空间谱

      之前分析过MVDR的方法,得到的输出(含有约束的最小均方误差准则)为:
      在这里插入图片描述
      有时候也称这个输出为空间谱,其实就是|y2(t)|,但这个与MUSIC等算法的谱还不是一回事,只是有时候也被称作空间谱,所以这里多啰嗦几句,分析这个说法的来源。

      已知N个采样点的信号,对其进行傅里叶变换:
      在这里插入图片描述
      进一步得到功率谱密度:
      在这里插入图片描述
      根据上文的分析:y(t)其实对应的就是空域变换(可借助DFT实现),类比于时频处理中的频域变换。而这里又可以看到频域变换的平方/长度,对应就是功率谱,这是频域的分析。

      对应到空域,自然就是|y2(t)|/长度,对应空间谱,长度只影响比例关系,所以MVDR的最小方差输出被称作:空间谱也是合适的。

      给出一个测试(这里如果),对比MVDR的y(t)、MVDR功率谱以及普通Beamforming的结果:

    clc;clear all;close all
    M = 32;
    DOA = [-30 30];
    SNR = 10;
    theta = -90:.1:90;
    len = length(theta);
    SignalMode = 'Independent';
    fc = 1e9;
    c = 3e8;
    lambda = c/fc;
    d = lambda/2;
    N = 100;%snap points
    x = StatSigGenerate(M,N,DOA,SNR,SignalMode,lambda,d);
    R_hat = 1/N*x*x';
    output = zeros(3,len);
    for i = 1:len
        a = exp(1j*2*pi*[0:M-1]'*sind(theta(i))*d/lambda);
        W = (inv(R_hat)*a)*(1./(a'*inv(R_hat)*a));
        output(1,i) = mean(abs(W'*x),2);
        output(2,i) = 1./(a'*inv(R_hat)*a);
        output(3,i) = a'*x*ones(N,1);
    end
    output = abs(output);
    output = output - repmat(mean(output.')',1,size(output,2));
    output = output./repmat(max(output.')',1,size(output,2));
    %plot
    plot(theta,output(1,:),'k',theta,output(2,:),'r--',theta,output(3,:),'b');
    legend('MVDR 波束','MVDR 谱','固定权重 波束');
    

    在这里插入图片描述
    如果将d = lambda/2;改为d = lambda/0.5;,自然就有了栅瓣:
    在这里插入图片描述

    去混响

    混响是指声波在室内传播时,要被墙壁、天花板、地板等障碍物反射,当声源停止发声后,声波在室内要经过多次反射和吸收,最后才消失。这种现象称为混响。因此,当声源和麦克风之间的距离越远,反射声占的比例就越高,混响就严重。
    经典的去混响方法包括形成拾音波束来减少反射声和基于反卷积的去混响方法。

    麦克风阵列结构设计

    MUC 孔的孔深孔径比越小越好,即开孔越大越好,深度越小越好,尽量向1:1靠近。孔深与孔径比值越大,麦克频响的震点越像低频靠近,要求震点在12KHz以上。最少也要在8KHz以上。喇叭腔体不能漏气。这是因为,喇叭正反两面的声波相位相差180度,当音腔有漏气时,声波会发生抵消,尤其是低频频段。
    麦克和喇叭的失真都要小。麦克失真小于4%,喇叭失真小于10%,由于喇叭低频失真严重些,会超过10%,可以考虑增加滤波器滤掉低频成分。
    喇叭腔体四周与其他机构件保留1mm的距离,防止腔壳与机构接触产生异音。
    喇叭鼓膜上方与机构件保留1.5mm的距离,以防鼓膜振动碰到机构件产生异音。
    喇叭与机构件有接触的地方,要增加泡面,以起到缓冲、减振的效果,防止喇叭振动时与机构件碰撞产生异音。

    声学结构确认流程

    1)远程会议或现场结构设计评估
    确认麦克阵列构型,确认声腔及安装结构设计,确认进声孔深度、直径大小等;
    2)声学实验室录音效果评估-第一阶段
    计算裸麦和带声腔结构的麦克风之间的录音之间谐波程度,根据分析结果确定是否通过。
    3)声学实验室录音效果评估-第二阶段
    分别利用裸麦和带声腔结构的麦克风信号做基于相位的声源定位,如果两者定位误差小于5°,则认为通过该项测试。
    4)声学实验室录音效果评估-第三阶段
    分别利用裸麦和带声腔结构的麦克风录音数据进行识别,效果差距在2%以内,则认为远场识别方面无问题。

    展开全文
  • 我们先将Echo和Home两款音箱拆开来看,区别最大的还是麦克风阵列技术。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home(包括Surface Studio)只采用了2麦克风阵列。这种差异我们在文章《对比Amazon Echo,...

    非常好的文章,能让人看明白的文章,尝温习之

    转自:http://news.soundai.com/?id=7

    本文作者陈孝良,工学博士,声智科技创始人。

     

    亚马逊Echo和谷歌Home争奇斗艳,除了云端服务,他们在硬件上到底有哪些差异?我们先将Echo和Home两款音箱拆开来看,区别最大的还是麦克风阵列技术。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home(包括Surface Studio)只采用了2麦克风阵列。这种差异我们在文章《对比Amazon Echo,Google Home为何只采用了2个麦克风?》做了探讨。但是好多朋友私信咨询,因此这里想稍微深入谈谈麦克风阵列技术,以及智能语音交互设备到底应该选用怎样的方案。

     

    什么是麦克风阵列技术?

     

    学术上有个概念是“传声器阵列”,主要由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统。而这篇文章讲到的麦克风阵列是其中一个狭义概念,特指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。

     

    麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。这样说来,麦克风阵列真的好复杂,别担心,复杂的麦克风阵列主要应用于工业和国防领域,消费领域考虑到成本会简化很多。

     

    1.jpg

     

     

    为什么需要麦克风阵列?

     

    消费级麦克风阵列的兴起得益于语音交互的市场火热,主要解决远距离语音识别的问题,以保证真实场景下的语音识别率。这涉及了语音交互用户场景的变化,当用户从手机切换到类似Echo智能音箱或者机器人的时候,实际上麦克风面临的环境就完全变了,这就如同两个人窃窃私语和大声嘶喊的区别。

     

    前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。这样就无法实现声源定位和分离,这很重要,因为还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。

     

    显然,当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

     

    事实上,仅靠麦克风阵列也很难保证语音识别率的指标。麦克风阵列还仅是物理入口,只是完成了物理世界的声音信号处理,得到了语音识别想要的声音,但是语音识别率却是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果。不仅如此,麦克风阵列处理信号的质量还无法定义标准。因为当前的语音识别基本都是深度学习训练的结果,而深度学习有个局限就是严重依赖于输入训练的样本库,若处理后的声音与样本库不匹配则识别效果也不会太好。从这个角度应该非常容易理解,物理世界的信号处理也并非越是纯净越好,而是越接近于训练样本库的特征越好,即便这个样本库的训练信号很差。显然,这是一个非常难于实现的过程,至少要声学处理和深度学习的两个团队配合才能做好这个事情,另外声学信号处理这个层次输出的信号特征对语义理解也非常重要。看来,小小的麦克风阵列还真的不是那么简单,为了更好地显示这种差别,我们测试了某语音识别引擎在单麦克风和四麦克风环形阵列的识别率对比。另外也要提醒,语音识别率并非只有一个WER指标,还有个重要的虚警率指标,稍微有点声音就乱识别也不行,另外还要考虑阈值的影响,这都是麦克风阵列技术中的陷阱。

     

    2.jpg

     

     

    麦克风阵列的关键技术

     

    消费级的麦克风阵列主要面临环境噪声、房间混响、人声叠加、模型噪声、阵列结构等问题,若使用到语音识别场景,还要考虑针对语音识别的优化和匹配等问题。为了解决上述问题,特别是在消费领域的垂直场景应用环境中,关键技术就显得尤为重要。

     

    噪声抑制:语音识别倒不需要完全去除噪声,相对来说通话系统中需要的技术则是噪声去除。这里说的噪声一般指环境噪声,比如空调噪声,这类噪声通常不具有空间指向性,能量也不是特别大,不会掩盖正常的语音,只是影响了语音的清晰度和可懂度。这种方法不适合强噪声环境下的处理,但是应付日常场景的语音交互足够了。

     

    混响消除:混响在语音识别中是个蛮讨厌的因素,混响去除的效果很大程度影响了语音识别的效果。我们知道,当声源停止发声后,声波在房间内要经过多次反射和吸收,似乎若干个声波混合持续一段时间,这种现象叫做混响。混响会严重影响语音信号处理,比如互相关函数或者波束主瓣,降低测向精度。

     

    3.jpg

     

    回声抵消:严格来说,这里不应该叫回声,应该叫“自噪声”。回声是混响的延伸概念,这两者的区别就是回声的时延更长。一般来说,超过100毫秒时延的混响,人类能够明显区分出,似乎一个声音同时出现了两次,我们就叫做回声,比如天坛著名的回声壁。实际上,这里所指的是语音交互设备自己发出的声音,比如Echo音箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别这两类声音。回声抵消就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声抵消,只是延续大家的习惯而已,其实是不恰当的。

     

    声源测向:这里没有用声源定位,测向和定位是不太一样的,而消费级麦克风阵列做到测向就可以了,没必要在这方面投入太多成本。声源测向的主要作用就是侦测到与之对话人类的声音以便后续的波束形成。声源测向可以基于能量方法,也可以基于谱估计,阵列也常用TDOA技术。声源测向一般在语音唤醒阶段实现,VAD技术其实就可以包含到这个范畴,也是未来功耗降低的关键研究内容。

     

    波束形成:波束形成是通用的信号处理方法,这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰,这里也包括人声,比如几个人围绕Echo谈话的时候,Echo只会识别其中一个人的声音。

     

    阵列增益:这个比较容易理解,主要是解决拾音距离的问题,若信号较小,语音识别同样不能保证,通过阵列处理可以适当加大语音信号的能量。

     

    模型匹配:这个主要是和语音识别以及语义理解进行匹配,语音交互是一个完整的信号链,从麦克风阵列开始的语音流不可能割裂的存在,必然需要模型匹配在一起。实际上,效果较好的语音交互专用麦克风阵列,通常是两套算法,一套内嵌于硬件实时处理,另外一套服务于云端匹配语音处理。

     

    麦克风阵列的技术趋势

     

    语音信号其实是不好处理的,我们知道信号处理大多基于平稳信号的假设,但是语音信号的特征参数均是随时间而变化的,是典型的非平稳态过程。幸运的是语音信号在一个较短时间内的特性相对稳定(语音分帧),因而可以将其看作是一个准稳态过程,也就是说语音信号具有短时平稳的特性,这才能用主流信号处理方法对其处理。从这点来看,麦克风阵列的基本原理和模型方面就存在较大的局限,也包括声学的非线性处理(现在基本忽略非线性效应),因此基础研究的突破才是未来的根本。希望能有更多热爱人工智能的学生关注声学,报考我们中科院声学所。

     

    4.jpg

    另外一个趋势就是麦克风阵列的小型化,麦克风阵列受制于半波长理论的限制,现在的口径还是较大,声智科技现在可以做到2cm-8cm的间距,但是结构布局仍然还是限制了ID设计的自由性。很多产品采用2个麦克风其实并非成本问题,而是ID设计的考虑。实际上,借鉴雷达领域的合成孔径方法,麦克风阵列可以做的更小,而且这种方法已经在军工领域成熟验证,移植到消费领域只是时间问题。

     

    还有一个趋势是麦克风阵列的低成本化,当前无论是2个麦克风还是4、6个麦克风阵列,成本都是比较高的,这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件,而是整个结构的重新设计,包括器件、芯片、算法和云端。这里要强调一下,并非2个麦克风的阵列成本就便宜,实际上2个和4个麦克风阵列的相差不大,2个麦克风阵列的成本也要在60元左右,但是这还不包含进行回声抵消的硬件成本,若综合比较,实际上成本相差不大。特别是今年由于新技术的应用,多麦克风阵列的成本下降非常明显。

     

    再多说一个趋势就是多人声的处理和识别,其中典型的是鸡尾酒会效应,人的耳朵可以在嘈杂的环境中分辨想要的声音,并且能够同时识别多人说话的声音。现在的麦克风阵列和语音识别还都是单人识别模式,距离多人识别的目标还很远。前面提到了现在的算法思想主要是“抑制”,而不是“利用”,这实际上就是人为故意简化了物理模型,说白了就是先拿“软柿子”下手,因此语音交互格局已定的说法经不起推敲,对语音交互的认识和探究应该说才刚刚开始,基础世界的探究很可能还会出现诺奖级的成果。若展望的更远一些,则是物理学的进展和人工智能的进展相结合,可能会颠覆当前的声学信号处理以及语音识别方法。

     

    如何选用麦克风阵列?

     

    当前成熟的麦克风阵列的主要包括:讯飞的2麦、4麦和6麦方案,思必驰的6+1麦方案,云知声(科胜讯)的2麦方案,以及声智科技的单麦、2麦阵列、4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案,其他家也有麦克风阵列的硬件方案,但是缺乏前端算法和云端识别的优化。由于各家算法原理的不同,有些阵列方案可以由用户自主选用中间的麦克风,这样更利于用户进行ID设计。其中,2个以上的麦克风阵列又分为线形和环形两种主流结构,而2麦的阵列则又有Broadside和Endfire两种结构,限于篇幅我们以后的文章再展开叙述。

     

    如此众多的组合,那么厂商该如何选择这些方案呢?首先还是要看产品定位和用户场景。若定位于追求性价比的产品,其实就不用考虑麦克风阵列方案,就直接采用单麦方案,利用算法进行优化,也可实现噪声抑制和回声抵消,能够保证近场环境下的语音识别率,而且成本绝对要低很多。至于单麦语音识别的效果,可以体验下采用声智科技单麦识别算法的360儿童机器人。

     

    但是若想更好地去除部分噪声,可以选用2麦方案,但是这种方案比较折衷,主要优点就是ID设计简单,在通话模式(也就是给人听)情况下可以去除某个范围内的噪音。但是语音识别(也就是给机器听)的效果和单麦的效果却没有实质区别,成本相对也比较高,若再考虑语音交互终端必要的回声抵消功能,成本还要上升不少。2麦方案最大的弊端还是声源定位的能力太差,因此大多是用在手机和耳机等设备上实现通话降噪的效果。这种降噪效果可以采用一个指向性麦克风(比如会议话筒)来模拟,这实际上就是2麦的Endfire结构,也就是1个麦克风通过原理设计模拟了2个麦克风的功能。指向性麦克风的不方便之处就是ID设计需要前后两个开孔,这很麻烦,例如叮咚1代音箱采用的就是这种指向性麦克风方案,因此采用了周边一圈的悬空设计。

     

    若希望产品能适应更多用户场景,则可以类似亚马逊Echo一样直接选用4麦以上的麦克风阵列。这里简单给个参考,机器人一般4个麦克风就够了,音箱建议还是选用6个以上麦克风,至于汽车领域,最好是选用其他结构形式的麦克风阵列,比如分布式阵列。

     

    多个麦克风阵列之间的成本差异现在正在变小,估计明年的成本就会相差不大。这是趋势,新兴的市场刚开始成本必然偏高,但随着技术进步和规模扩张,成本会快速走低,因此新兴产品在研发阶段倒是不需要太过纠结成本问题,用户体验才是核心的关键。

    展开全文
  • [导读]前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这个场景一般都是...为了解决单麦克风的这些局限性,麦克风阵列技术应运而生。前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这...
  • 麦克风阵列技术麦克风阵列技术详解自动增益控制自动增益处理分类AGC环自动噪声抑制原理及实现噪声噪声抑制的一般流程回声消除回声传统回声消除声学回声消除原理及实现语音活动检测音频端点检测原理及实现 ...
  • 雷锋网(公众号:雷锋网)按:本文作者陈孝良,工学博士,声智科技创始人。...我们先将Echo和Home两款音箱拆开来看,区别最大的还是麦克风阵列技术。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home(包括...
  • 特别是基于微机电系统(MEMS) 的麦克风阵列出现后,麦克风阵列音频定位方案引起科研企业和开发人员的广泛关注。 目前业界正在使用MEMS麦克风阵列子系统开发嵌入式音频定位、自动语音识别和自动说话人识别解决方案,...
  • 随着数字信号处理技术的发展,使用数字音频技术的电子产品越来越多。数字音频接口成为发展的潮流,采用脉冲密度调制(PDM)接口的ECM和MEMS数字麦克风也孕育而生。目前,ECM和MEMS数字麦克风已经成为便携式笔记本...
  • 麦克风阵列信号处理技术与应用,中文版,适合阵列信号处理研究的同学作参考
  • 本文给出了麦克风阵列技术和波束形成理论的一些初步知识。所谓麦克风阵列就是放置在空间中不同位置的多个麦克风。根据声波传到理论,利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法,...
  • 科大讯飞麦克风阵列模块 XFM10621数据手册 科大讯飞麦克风阵列模块 XFM10621 1 评估板使用说明 麦克风设计参考手册(Microphone Design Reference ManualXFM 10621 Data Handbook XFM 10621 Microphone Array ...
  • 麦克风阵列技术入门(1)

    万次阅读 2014-03-31 13:15:56
    本文给出了麦克风阵列技术和波束形成理论的一些初步知识。所谓麦克风阵列就是放置在空间中不同位置的多个麦克风。根据声波传到理论,利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法,...
  • 论述了基于麦克风阵列的声源定位技术的基本原理,给出了利用FPGA实现系统各模块的设计方法。重点介绍了其原理和模块的电路实现,给出的基于FPGA设计实验结果表明,系统最大限度发挥了FPGA的优势、简化了系统设计、...
  •  PowerWise LMV1088 双输入麦克风阵列放大器采用美国国家半导体的远场噪声抑制技术,可以降低背景噪声,令传送的语音更清晰,特别适用于移动电话、双向式无线电对讲机及有源耳机。这款放大器来自美国国家半导体...
  • 麦克风阵列产品与技术的介绍,人机交互,麦克风阵列功能介绍。
  • 数字阵列麦克风处理技术概述

    千次阅读 2017-12-04 15:44:48
    Robotics负责语音相关硬件系统设计,涉及远场高灵敏度麦克风阵列设计,高精度音频硬件编解码器评估验证,远场语音前处理算法的评估验证,涉及声源定位,波束形成,盲信号分离,回声抑制及平稳降噪等相关技术算法。...
  • 雷锋网按:本文作者陈孝良,工学博士,声智科技创始人。雷锋网(公众号:雷锋网)独家文章。 ...亚马逊Echo和谷歌Home争奇斗艳,除了...我们先将Echo和Home两款音箱拆开来看,区别最大的还是麦克风阵列技术。Amazon Ec
  • 麦克风阵列技术 (1) 定义:是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列,对声场的空间特性进行采样并滤波的系统。采集到的信号包含了其空间位置信息。狭义概念,特指应用于语音处理的按...
  • 随着数字信号处理技术的发展,使用数字音频技术的电子产品越来越多。数字音频接口成为发展的潮流,采用脉冲密度调制(PDM)接口的ECM和MEMS数字麦克风也孕育而生。目前,ECM和MEMS数字麦克风已经成为便携式笔记本...
  • 麦克风阵列技术入门(4)

    千次阅读 2014-11-15 09:43:12
    与我们常见的Nyquist 采样定律类似,为了恢复信号在空间位置的上的变化,阵列在空间位置上的间距不能太大。在时间上,采样率fs (或者采样周期Ts)应满足: 在空间上,我们有一个类似的结果: 上式中,fxa是空间...
  • 1.4.离散传感器阵列 传感器阵列可以认为这是一个连续的空间采样孔径。每个传感器可以被看作是一个连续...图6离散麦克风阵列 每个传感器的频率响应为en(f,x),传感器阵列的响应为每个传感器响应的叠加。 在这里wn(...
  • 基于麦克风阵列的声源定位技术

    千次阅读 2020-12-23 12:31:20
    I 目 录 一、绪论 . ................................................... 用麦克风阵列接受语音信号就是声源定位技术的一种, 接受到的语 音技术再输出到计算机, 经过计算机技术的分析和处理, 然后可以确定声源是从
  • 麦克风阵列语音增强(一)

    万次阅读 多人点赞 2018-07-26 11:05:10
    1. 引言 ...因此,麦克风阵列技术在抑制一些具有方向性的干扰语音上应用较广。波束形成,这个词也就是这么来的。因为对期望方向的语音信号进行保留,抑制非期望方向的信号,其实就是在做语音信号...
  • 基于麦克风阵列声源定位系统的FPGA实现.pdf
  • 科大讯飞 XFM10621 模块是一款基于 6 麦克风阵列的语音前端解决方案。模块利用麦克风阵列的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪声进行抑制,以保证较高的录音质量。
  • 综合了Intel麦克风阵列和超声波笔输入技术,分析并运用WDM模式、DirectShowfilter、HIDMiniDriver技术对其底层进行构架和实现,采用单向数据通道技术进行共享设计,向第三方开发者提供了友好的底层编程接口,从而为...
  • 不管第一代还是第二代,Echo都采用典型的6+1麦克风阵列结构,即环形6个麦克风搭配中间1个麦克风,如下图左所示。而且,Amazon一直非常喜欢采用TI的AD芯片TLV320ADC。目前,这种阵型国外主要是Amazon Echo使用,国内...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,548
精华内容 1,019
关键字:

麦克风阵列技术

友情链接: fenxing.zip