精华内容
下载资源
问答
  • 多说话人语音分离
    千次阅读
    2022-04-23 16:43:46

    前言

    根据前面的文章我们已经可以做出一个可用性较强的声纹识别系统了,但声纹识别的应用不仅限于声纹确认和声纹搜索中,例如我们今天说的说话人分离(也叫说话人分割聚类)也需要用到声纹模型。而说话人分离又分为在线说话人分离和离线说话人分离。

    离线说话人分离

    目前对包含多说话人并且语音不交叠的音频的离线说话人分离较为简单,简单说一下思路:

    1. 首先对原始音频应用VAD进行切分(对于大部分语音都能完成较好的切分,VAD如果有自己的模型可以使用自己的,如果没有建议使用webrtcvad,虽然其对噪音的过滤不是很好)。
    2. 经过切分的音频有条件还可以再次使用说话人改变点模型进行再次切分(当然这一步目前来说可有可无)。
    3. 将得到的切分音频一个个提取特征(根据之前声纹模型提取的特征来,例如Fbank)送入之前的声纹模型得到切分音频的声纹嵌入码。
    4. 直接使用声纹嵌入码进行聚类即可(聚类可使用Kmeans、谱聚类等)。当然这种聚类方法还是需要指定说话人的数量(即聚类的类别数)。

    经过上面的步骤我们往往可

    更多相关内容
  • 说话者语音的目标说话人提取和验证 此处的代码是说话人提取,其中鉴于目标说话人的特征,只会提取目标说话人的声音。 在论文2)中,我们使用小型网络从目标说话者的不同话语中共同学习目标说话者的特征。 您也可以...
  • 基于时间卷积网络的深度聚类说话人语音分离.pdf
  • 云计算-基于计算听觉场景分析的双说话人混合语音分离研究.pdf
  • 通过将基音跟踪得到的目标语音和干扰语音的基音轨迹信息结合到分离系统中,有效地改善了分离系统在包括说话人混合在内的多种干扰情况下的分离效果,为多说话人语音分离问题的解决提供了新的思路。
  • 桔妹导读:为了将目标语音从含多种干扰(如车噪、导航音、车内FM等)的复杂声学环境中分离出来同时尽量减小对原始语音的损伤,提高机交互、客服听音等的效率,滴滴结合了在前端信号处理的多年研发...

    桔妹导读:为了将目标语音从含多种干扰(如车噪、导航音、车内FM等)的复杂声学环境中分离出来同时尽量减小对原始语音的损伤,提高人机交互、客服听音等的效率,滴滴结合了在前端信号处理的多年研发积累与该领域的前沿研究,在单通道语音分离任务上取得了较大的进展。本文重点介绍单通道语音分离的研究现状、原理和目标说话人提取(或抑制)的框架、改进和一些实验结果及demo展示。

    语音分离(Speech Separation),就是在一个有多个说话人同时说话的场景里,把不同说话人的声音分离出来。目标说话人提取(Target Speaker Extraction)则是根据给定的目标说话人信息,把混合语音当中属于目标说话人的声音抽取出来。

    下图汇总了目前主流的语音分离和说话人提取技术在两个不同的数据集上的性能,一个是 WSJ0-2mix 纯净数据集,只有两个说话人同时说话,没有噪声和混响。WHAM是与之相对应的含噪数据集。可以看到,对于纯净数据集,近两年单通道分离技术在 SI-SDRi 指标上有明显的进步,图中已PSM方法为界,PSM之前的方法都是基于频域的语音分离技术,而PSM之后的绝大多数(除了deep CASA)都是基于时域的语音分离方法。

    噪声场景相对更贴近于真实的环境。目前,对于噪声场景下的分离技术性能的研究还不是特别完备,我们看到有一些在安静环境下表现比较好的方法,在噪声环境下性能下降比较明显,大多存在几个 dB 的落差。同时,与纯净数据集相比,噪声集合下各种方法的性能统计也不是很完备。

    通常来讲,单通道语音分离可以用“Encoder-Separator-Decoder”框架来描述。其中, Encoder可以理解为将观测信号变换到另外的一个二维空间中,比如离散傅里叶变换将时域信号变换到频域,1-D CNN将时域信号变换到一个二维潜空间中;Separator在变换域当中进行语音的分离,学习出针对不同声源的mask,与混合信号做一个元素级别相乘,由此实现变换域中的语音分离操作;Decoder 就是把分离后的信号反变换到一维时域信号。这套框架既可适用于频域的分离方法,也可用于时域的分离方法。

    大部分 Encoder 都是通过线性变换完成的,通过一组滤波器将时域混合语音变换到另外的一个二维空间当中。滤波器组的设计是值得研究的。最简单的方法是用固定的滤波器,比如短时傅里叶变换。此外,人们更愿意用data-driven的方式学习滤波器组的系数,比如常用1-D CNN。所以,单通道的语音分离,便可以依据此划分为频域和时域两类方法。

    第一类是基于频域的语音分离方法。这种方法的优点是可以与传统的信号处理方法更好的相融。频域法中的encoder多数情况下由傅里叶变换实现。在多通道场景下,可以与后端的频域波束形成更好的配合。第二个优点就是 Separator中 Mask 的可解释性比较强,即通过网络学出来的特征更加稀疏和结构化。这种方法的缺点也比较明显。第一,傅里叶变换本身是一种通用的变换,也是信号处理当中的经典变换,但它并不一定适用于分离任务。第二个比较明显的问题是相位重建比较困难。Separator中学习Mask通常利用的是幅度谱,而在语音重构的时候会利用混合语音的相位,所以会有语音失真的产生。第三,因为要做傅里叶变换需要有足够的采样点保证频率分辨率,所以延时比较长,对于对时延要求比较高的场景,频域分离法会有限制。

    第二类方法是时域分离法。它的第一个优点是用一种 data-driven 的形式完成encoder变换,比较常用的是1-D CNN或是更深的 Encoder 来完成这种变换。另外,时域方法不需要处理相位重建。第三,它的延时比较短,比如Conv-TasNet 可以做到两毫秒的延时,DPRNN-TasNet可以做到采样点级别的延时。时域方法的缺点是Mask 可解释性比较差,我们并不知道信号会变换到什么样的域当中,也不知道在这个域当中 Mask 到底有什么物理含义。此外,时域法和传统的频域信号处理方法相结合也稍显复杂。

    如果我们只想得到我们感兴趣的说话人的声音,而不需要分离出每一个说话人,这就是目标说话人抽取。它可以解决盲源分离中的两大痛点,即输出维度问题和置换问题。此外,由于只需要抽取出一路信号,因此不需要在分离出的多路信号中进行选择,从而节省运算量。它的附加条件是需要一个参考,既然要抽取特定的说话人,那么必须要事先知道关于这个说话人的信息,也就是speaker-embedding,将这些信息作为参考输入给抽取网络。在一些实际场景中,获取参考并不困难。

    早期的语音分离多采用基于频域的方法,比如u-PIT,这是一种比较流行的训练方法,很多时域的分离网络依然沿用了这种训练思路。Deep CASA是频域方法当中性能比较突出的一种方法,它是基于CASA框架。CASA的基本框架分为两部分:第一步是基于帧级别的分离;第二步则是对上一步的结果聚合得到输出。Deep CASA 顾名思义是将上述两步用更深的网络来实现,这是近两年在频域算法中表现比较突出的方法。

    对于目标说话人抽取技术,最早是由谷歌提出的 Voice filter,它利用了目标说话人的声纹信息,将声纹d-vector作为参考输入到抽取网络中,抽取网络可以只抽取出与该声纹信息相匹配的信号。另一种现阶段更为常用的抽取方式是引入一个辅助网络,通过联合学习的方式得到高质量的speaker-embedding,帮助抽取网络完成目标说话人声音的提取。

    基于时域的语音分离技术,比较有代表性的包括Conv-TasNet、DPRNN-TasNet等。对于时域目标说话人抽取任务来讲,SpEx 和 SpEx+目前的表现比较好,它们的基本框架也是借助于辅助网络提取声纹信息,SpEx和SpEx+的不同点在于,后者的speech encoder和speaker encoder是权值共享的。此外,多尺度输入对于抽取性能提升也是有帮助的。

    SpEx+是基于Conv-TasNet的说话人提取网络,ResNet作为辅助网络进行目标说话人speaker embedding的提取,是目前公开的论文中性能最好的算法。目前语音分离最好的模型之一是DPRNN-TasNet,模型较小,性能较优。基于SpEx+,我们提出了模型规模更小的说话人提取网络DPRNN-Spe,将SpEx+提取网络的 TCN用 DPRNN替代,且声纹信息只输入一次到提取网络。DPRNN-Spe模型框架如下图所示。

    无论SpEx+或是DPRNN-Spe在参考speaker embedding比较匹配的时候,都能取得较好的提取效果。然而对于未注册的说话人或者辅助的speaker embedding与混合语音中的声纹信息不够匹配时,现有的模型的性能都会有较大幅度的降低。在实际场景中,未注册的目标说话人是远大于注册说话人的。而speaker embedding会因年龄、身体健康、情绪、录音环境和说话速度等因素发生或大或小的改变,它的负面效应很可能会在说话人提取网络中被放大。此外,相比于文本相关的speaker embedding,文本无关的speaker embedding可能会产生一定的冗余信息。

    针对以上存在的问题,我们提出了一种机制——Iterative refined adaptation (IRA),可以更好的提高模型的鲁棒性,它本质上是一种adaptation方法。该机制受听觉感知的启发,人们可以随着在交谈或者聆听的过程增加对特定说话人的熟悉程度从而更好地聆听或者交谈。基于IRA机制的DPRNN-Spe-IRA说话人提取流程如下图所示。首先,我们利用初始的参考信号获得最初的speaker embedding,然后将speaker embedding 输入到提取网络中得到初次的提取结果,接下来将初次提取的结果反馈到辅助网络中得到新的speaker embedding,将新旧speaker embedding进行加权相加得到更匹配的speaker embedding,然后再次传给提取网络进行目标说话人提取。即提取网络和辅助网络的信息是互相优化更新的。此过程可以反复进行,随着迭代次数的增加,提取的目标语音效果越好。

    实验表明,在说话人提取网络中引入IRA机制,无论在无噪或者含噪场景下都能有较大的性能提升。实验结果如下图所示。测试集均是未注册的目标说话人。(即与训练集不同的说话人)

    WSJ0-2mix-extr (无噪场景):

    WHAM!(含噪场景):

    以上两个表格中L表示编码器CNN中的滤波器的长度,图中展示了在相同参数条件下,IRA能够更好的提升模型的性能指标。以下是含噪场景中,说话人提取效果的示例。从频谱上看,噪声基本已被去除,提取的语音和原始干净语音对比无明显的失真。

    Mixture VS Extraction

    ‍‍‍‍‍‍‍Reference VS Clean‍‍‍‍‍‍‍

    说话人提取是从混合语音中提取特定说话人语音的技术,同样,我们也可以在混合语音中对特定的语音进行抑制,即说话人抑制。与说话人提取类似,我们需要给辅助网络提供特定说话人的语音,利用提取网络输出我们想要的目标信号即可。说话人抑制技术与回声消除(AEC, Acoustic Echo Cancellation)实现了相同的功能,由于 AEC算法存在延时估计不准以及滤波器收敛等问题,导致回声消不干净或者对回声消除较大进而对近端语音造成了损伤,但是说话人抑制可以很好的解决上面的问题。目前,滴滴主要将说话人抑制技术应用于去除导航音,经过实验发现,相比于AEC,说话人抑制技术能够更好的去除导航音,并且对近端语音没有损伤。

    关于说话人抑制的研究目前还处于继续研究的阶段,但是现有模型在实际数据中已经表现出了优于AEC的效果,对近端语音没有造成损伤。下图为实际采集的语音,利用说话人抑制模型去除导航音的效果。

    ‍‍‍‍‍‍‍‍‍‍‍‍

    采集语音 VS 抑制结果

    实践证明,IRA机制能够进一步提高说话人提取模型的鲁棒性,对IRA机制和说话人抑制的有关研究仍在继续进行,比如IRA会随着提取网络建模精度的提升带来更大的收益等;说话人抑制模型训练过程中,在训练集中添加合适比列的负样本,能够更好的消除只包含导航音的语音片段。

    本文作者

    2019年8月加入滴滴,任滴滴高级研究员,从事滴滴语音前端信号处理中多种场景的前沿技术研发和落地工作,包含语音前端信号处理开源项目、数字水印、语音分离与导航音去除等。2018年6月研究生毕业于大连理工大学,硕士阶段的研究方向为信号处理。曾在中兴工作,专注于信号处理算法的优化与落地。在语音顶级会议Interspeech上作为主要作者发表了两篇论文。

    2019年7月加入滴滴,任滴滴研究员,从事滴滴语音前端信号处理中增强、分离领域的前沿技术的探索。2019年6年研究生毕业于北京邮电大学。正式入职以来,以第一作者身份在ICASSP和Interspeech发表2篇论文,累计发表论文4篇。和团队一起参与了导航音去除、噪声抑制等业务项目。

    2018年5月加入滴滴,语音研究实验室负责人,负责滴滴语音和音频信号处理算法的研发。博士毕业于清华大学。曾在百度工作,专注于语音信号处理技术的研发。

    关于团队

    滴滴智能中台集结了中台产品技术、AI能力和体验平台技术,致力于为集团各业务线提供行业领先的专业服务,当前已沉淀了账号、支付、计价、触达、IOT、体验等核心中台能力;AI技术已深入应用于安全、智能运营、智能客服、智能驾驶等场景;持续通过搭建客服及体验平台等技术手段,提升用户体验问题的解决效率。智能中台是一支专业、多元、高效、务实的团队,坚持用技术赋能出行领域,力争成为业内多快好省的中台标杆。

    滴滴语音信号处理团队基于滴滴的车载环境数据,研发了多种语音前端信号处理技术,包括自动回声消除、数字水印、噪声抑制和目标说话人提取、抑制等,并成功将这些技术应用于行程中录音、自驾地图、客服听音、司乘安全等各个领域,为更好的语音交互和出行安全保驾护航。

    博闻强识,招贤纳士,滴滴用广阔的舞台,在这里,等待你!

    扫码了解更多岗位

    延伸阅读

    内容编辑 | Charlotte

    联系我们 | DiDiTech@didiglobal.com

    
    
    展开全文
  • 介绍了带通采样技术在高分辨率...首先阐述了带通采样定理以及采样率的选取原则,然后从波束图像声纳的原理出发,给出了基于带通采样的数字波束形成方法;仿真和湖上试验表明了这种方法的可行性以及工程实现的有效性。
  • 6. 声道分离(阵列分离) 7. 更内容 5. 单通道分离(monaural separation) 5.1 语音增强(speech separation) 5.2 语音增强的泛化 5.3 语音去混响 & 去噪(speech dereverberation & denoising) 5.4.

    【WangDeLiangOverview2018】

    Supervised Speech Separation Based on Deep Learning: An Overview

    DeLiang Wang / Jitong Chen @ Ohio

    IEEE/ACM Trans. ASLP2018

     

    【目录】

    1. 引入

    2. 学习机器(learning machines)

    3. 训练目标(training target)

    4. 特征

    5. 单声道分离

        5.1 语音增强(speech separation)

        5.2 语音增强的泛化

        5.3 语音去混响 & 去噪(speech dereverberation & denoising)

        5.4 说话人分离(speaker separation)

    6. 多声道分离(阵列分离)

    7. 更多内容

     

    【正文】

    说话人分离(speaker separation)的目标是,从一个包含2个or多个voice的mixture里提取多个语音信号,每个说话人(speaker)对应一个。在深度学习被证明能胜任语音增强之后,在类似的框架下,DNN已被成功应用在说话人分离中,如图12是2说话人分离,或者叫共信道分离(cochannel separation)

    Huang[81]是最早为此引入DNN的。他们的研究使用forward DNN和一个RNN来解决2说话人分离。作者说,在帧t时候,2个estimated sources的spectra,\hat{s_1}(t)\hat{s_2}(t),的和,不保证能等于mixture的spectrum。因此,网络中加入masking layer,来产生2个输出:

    这相当于3.1中介绍的training target:signal approximation。binary masking和ratio masking都被发现有效。除此之外,discriminative training被用于最大化一个说话人语音的和另一个人的语音的估计之间的差别。训练时,最小化如下cost:

    实验表明masking layer和discriminative training都能提升说话人分离[82]。

    几个月后,Du[38]独立提出了与[81]相似的用DNN做说话人分离。在他的研究中,DNN被训练来估计cochannel mixture中目标说话人的log power spectrum。在另一个文章[162]中,他们训练了一个DNN来映射一个cochannel信号到目标说话人(target speaker/talker)的spectrum以及干扰者(interfering speaker/interferer/interfering talker)的spectrum,如图12,[37]是一个延伸的版本。比起[81],一个值得提及的延伸是,这些文章还解决了一种情况,当只有目标说话人在训练和测试时候是相同的,而干扰者在训练和测试(testing)时候是不同的。

    在说话人分离中,如果潜在的说话人从训练到测试时候不变,为说话人相关(speaker-dependent)。如果干扰者可以变,但目标说话人固定,叫做target-dependent。最少约束条件的是,不要求说话人在训练和测试时候一样,叫做说话人无关(speaker-independent)。从这个角度讲,Huang[81][82]的方法是speaker dependent,[38][162]的方法对speaker dependent和target-dependent都处理。他们放松干扰者约束的方式是简单地用目标说话人和许多干扰者的cochannel mixture来训练。

    Zhang和Wang提出一种deep ensemble network来实现speaker-dependent和target dependent分离[206]。他们使用mullti-context network来在不同分辨率集成时序信息(temporal information)。一个ensemble通过堆叠多个模块构造,每个模块做multi context masking/mapping。在这个研究中多个training target被考察。对于speaker-dependent分离,signal approximation被证明更有效;对target-dependent分离,ratio masking和signal approximation的组合更有效。进一步,target-dependent分离的的表现与speaker-dependent分离的接近。近来,Wang[174]在放宽speaker dependency上跟进了一步。他们的方法将每个说话人聚类到4个cluster中的1个里(2个男性和2个女性cluster),然后训练一个DNN-based的gender mixture识别器来决定mixture中2个潜在说话人所属的cluster。尽管是在每个cluster里的说话人的子集上做训练,他们的evaluation结果显示,说话人分离犯法对另外的cluster里没训练过的说话人也能工作得很好。或者说是,这个说话人分离方法显示了一定程度的speaker independency。

    Healy[63]近来用DNN做speaker-dependent的cochannel separation并对DNN做了关于HI和NH听者的speech intelligibility评估。DNN被训练来估计IRM和它的补充(complement),对应于目标说话人和干扰者。和更早的DNN-based cochannel separation研究相比,这里面的算法使用一个多样性的特征集合,以及预测多个IRM帧,导致一个更好的分离。intelligibility的结果如图13。

    在HI组,DNN-based分离在intelligibility的提升对于-3dB/-6dB/-9dB的target-to-interferer ratio(TIR)分别是42.5%/49.2%/58.7%;对于NH组,也存在统计性显著的提升,但幅度更小。值得关注的是,HI听者在intelligibility上获得的大幅提升,使得他们在TIR -6dB/-9dB时候可以与NH听者有同等水平的表现。

    speaker-independent分离可以视作一个无监督聚类,将T-F units聚类到由独立说话人统治的不同类别[6][79]。聚类是在说话人数量上是一个灵活的框架,但他无法像监督学习那样充分利用鉴别性信息(discriminative information)。Hershey[69]是第一个在DNN框架下解决speaker-dependent多说话人分离的。他们的方法,称为deep clustering(后续记作DPCL2016,结合了DNN-based的feature learning和spectral clustering。给定T-F units的gt划分,affinity matrix A可以计算:

    DNN被训练来对每个T-F unit做embed。affinity matrix的估计\hat{A}可以从embeddings导出。DNN通过最小化如下cost来学习如何对T-F units输出similar embeddings:

    低阶公式可以用于高效地计算cost以及他的导数。推理(inference)时候,mixture被分段,为每个分段(segment)计算embedding matrix V。然后,所有分段地embedding matrix做连接(concatenated)。最后,用K-means来将所有分段的T-F units聚类到说话人cluster。segment-level的聚类比utterance-level的聚类更准确,但只对独立的segment的聚类结果,需要解决时序组织问题。DeepClutering2016被证明能产生高质量的说话人分离,显著地优于用于speaker-independent的CASA方法[79]和NMF方法。

    DeepClutering2016一个近来的延伸是deep attractor network[25](后续记作DeepAttractorNet2017,为T-F units学习高维embeddings。与DeepClustering2016不同,这个深度网络建立与聚类中心相似的attractor points,来将被不同说话人统治的T-F units拉到对应的attractor。说话人分离然后被作为mask estimation任务来展开,通过比较embedded points和每个attractor。结果表明DeepAttractorNet2017比DeepClustering2016产生更好的结果。

    虽然clustering-based的方法自然而然地导出speaker-independent模型,DNN-based masking/mapping方法将每个DNN输出联系到一个特定的说哈人,并导出speaker-dependent模型。例如,mapping-based方法最小化如下cost:

    为了将说话人的DNN输出联合起来,训练一个使用masking/mapping的speaker-independent模型,Yu[202]近来提出permutation invariant training(后续记作PIT2017),如图14。对2说话人分离,DNN被训练输出2个mask,每个都被应用在noisy speech上来产生一个源估计(source estimation)。在DNN训练时,cost函数动态计算。如果将每个输出分配到一个训练数据中的参考说话人|S_k(t)|,那么有2种可能的分配,每个关联到一个MSE。有更小MSE的分配被选择,DNN被训练来最小化对应的MSE。在training和inference时,DNN接受一个segment或多帧特征,为segment估计2个source。由于DNN的2个输出没有关联到任何说话人,在连续的segment里同一个说话人可能从一个输出切换到另一个输出。因此,估计得到的segment-level source需要做sequential organization,除非segment跟语料一样长。尽管更简单了,说话人分离地结果证实能跟deep clustering得到的结果相持。

    在本个说话人分离小节中,从前面文章主体中的一个洞察是,用很多不同speaker pair训练的DNN模型能够分离训练中没有涵盖的speaker pair,即speaker-independent分离,但只能在frame-level左到。对speaker-independent分离,关键要素在于如何在独立的帧/segment上,对已经分离好的语音信号进行分组。这正是sequential organization,在CASA[172]中有很多研究。PIT2017可能被认为是在DNN训练中推行sequential grouping作为约束。另一方面,典型的CASA方法利用pitch controu,vocal tract characteristics,rhyth/prosody,乃至常见的spatial direction当多传感器是可用的,当然一般在监督学习中没有涵盖。看似集成传统的CASA和deep learning是未来研究的一个沃土。

     

     

     

    展开全文
  • 讨论了基于模型的单通道语音分离方法,对说话人依赖的、说话人选择的和说话人独立的三类单通道语音分离问题展开分析,并指出当前方法存在的问题和影响算法性能的关键因素。最后对基于模型的单通道语音分离研究发展...
  • 此仓库总结了用于语音分离说话人提取任务的教程,数据集,论文,代码和工具。诚挚地邀请您提出要求。 目录 讲解 [语音分离,李鸿-,2020年] [端到端神经源分离的进展,伊洛,2020] [音频源分离和语音增强,...
  • √ 训练一个perceptually motivated embedding network对于给定的说话人产生特征表示 √ 提出的PercepNet使用目标说话人的embedding作为额外的信息来挑选出并增强特定说话人的语音信号,同时对其他说话人语音进行...

    Interspeech2021:语音前端

    Interspeech2021论文集传送门


    Target Speaker Separation

    当前在做的方向:
    时域/频域的pipeline
    先验信息的利用
    损失函数的设计
    网络架构的训练

    1. Auxiliary loss function for target speech extraction and recognition
      with weak supervision based on speaker characteristics

    ①使用新定义的损失函数对目标说话任提取的任务进行重新训练,将损失函数划分成两部分:
    其一,是说话人一致性损失
    其二,是混合语音一致性损失

    ②弱监督学习

    1. Universal Speaker Extraction in the Presence and Absence of Target Speakers for Speech of One and Two Talkers

    ①考虑到了在TSE工作中可能会存在目标说话人信息不存在的情况,将【至多两个人说话】的情景划分成四个子类:2T-PT,1T-PT,2T-AT,1T-AT;

    ②训练上沿用了SpEX+的结构

    ③重新定义了一个损失函数,对上述提到的四种情况都可以进行联合优化:
    在这里插入图片描述


    Source Separation,Dereverberation and Echo Cancellation

    1. Real-Time Speaker Counting in a Cocktail Party Scenario Using Attention-Guided Convolutional Neural Network

    ①背景:鸡尾酒会中的语音分离问题往往假设说话人数量已知,但这在很多现实场景中并不成立;
    现有的说话人计数框架经历了——
    通过判断调制频谱的特定模式;
    无监督学习:使用聚类方法
    监督学习方法:使用卷积层提取特征
    但是上述方法存在一定时延,不能保证系统应用的实时性

    ②问题描述:
    speaker-counting系统的架构通常为下述架构:

    • 从语音中提取与说话人数量相关的高层次特征;
    • 将frame-level的特征向量总结压缩成基于utterance的特征向量;
    • 在特征空间中对说话人数目进行分类

    ③网络架构:
    在这里插入图片描述

    • 使用二维卷积提取高层次的特征
    • 通过attention机制在temporal aggregation block中对特征向量按时间帧进行压缩
    • 使用FC对压缩后的特征向量进行分类

    ④计算逻辑:
    在这里插入图片描述

    2.Should We Always Separate?: Switching Between Enhanced and Observed Signals for Overlapping Speech Recognition

    ①提出背景
    语音增强在某些情况下会对语音造成诸如processing artifacts的副作用,对后端的ASR任务造成影响(有无语音段的overlap时均存在);

    ②基本思想
    基于估计得到的SIR或SNR实现一个简单的切换算法,输出的有时是直接的obeserved speech,有时是enhanced speech。

    ③技术发展
    前端的工作并不能完全帮助到后端语音任务提高性能,这一问题近年来一直受到重视:

    • 对前端工作进行改善:其一是针对有overlapping的片段进行混合语音和增强后的语音的switch,本文是针对有无overlapping的片段均进行此操作;
    • 对后端工作进行改善:其一是对后端的ASR等任务模型使用经过前端处理后的语料重新训练;其二是将前后端进行联合训练。

    ④机制模式
    针对(混合语音,目标人特征向量)二元组对SIR和SNR进行估计,利用估计得到的SIR和SNR在本篇文章中设计了一个rule-based的switching机制,然后设定阈值,对mixture或者enhanced speech进行选择。
    在这里插入图片描述
    在这里插入图片描述

    1. Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networks for Audio-Visual Speech Separation in Multi-Talker Environments

    ①目的:在多说话人环境下的时域的audio-visual的语音分离模型;

    ②创新:
    a.引入multi-stream gated TCN的audio-visual分离架构——便于更好地对特征表示进行建模、选择和整合。
    b. 使用pyramidal convolution对TCN进行提升,不同的kernel_size便于提取multi-scale的特征表示。

    ③架构
    在这里插入图片描述
    【visual representation】
    face image pixels:很难学到audio-visual的相关性
    face recognition embedding:更多关注的是面部的相似度,而不是audio-visual交互的本质
    lip embedding:直接从lipreading task的任务中提取出来的

    【audio encoder/decoder】
    1D的卷积操作和解卷积操作

    【audio-visual separation network】
    其内部含有[visual subnetwork]、[audio subnetwork]、[fusion subnetwork]和[mask subnetwork]这些子网络,均由1D的TCN block组成的。
    在这里插入图片描述

    1. TeCANet: Temporal-Contextual Attention Network for Environment-Aware Speech Dereverberation

    ①背景
    语音去混响任务对上下文帧之间的相关性有更大的依赖:
    在一个混响比较大的环境中,帧之间的关联会更紧密,这个时候需要一个较长的上下文用来捕捉足够的上下文信息;
    在一个混响比较若的环境中,帧之间的关联不会很紧密,这个时候如果采用较长的上下文反而可能会引入多余的数据量。

    ②Idea
    √ 采用基于注意力的方法,能够通过感知环境混响程度来适应性地调整上下文长度获得合适的上下文信息;

    √ 获得注意力权重的方法:基于不同频带RIRs效应的影响,我们采用两类方法,其一是FTA(FullBand based Temporal Attention),另外一个是STA(SubBand based Temporal Attention)

    1. Personalized PercepNet:Real-Time,Low-Complexity Target Voice Separation and Enhancement

    ①目标与计划:目标说话人增强

    √ 训练一个perceptually motivated embedding network对于给定的说话人产生特征表示

    √ 提出的PercepNet使用目标说话人的embedding作为额外的信息来挑选出并增强特定说话人的语音信号,同时对其他说话人语音进行抑制。

    ②算法框架

    特征空间:基于感知的波段的潜在表示

    • 通过等效矩形带宽 (ERB) 标度进行空间映射,得到32个三角光谱带,;
    • 每个频带都使用两维特征进行描述:频带幅度和pitch coherence
    • 再加入4个通用的特征(其中包含基因周期)——故特征空间一共68维

    感知驱动的基音滤波(pitch-filter)

    • 目的是从谱包络中重建纯净语音中的谐波性质和分量;
    • 使用基于基音频率的梳状滤波
    • 比起STFT的操作会拥有更精细的频域分辨率
    • 梳妆滤波的效果由每个频带的相关参数独立控制

    RNN模型

    • 用于估计每个频带(band)的比率掩码
    • 这个mask被用于含噪信号,作为信号增益(gain),来拟合目标纯净语音的谱包络
    • 除了增益外,我们的模型还输出每个频段的估计基因滤波器强度和帧级语音活动
      检测器 (VAD) 输出。

    ③模型与数据流
    在这里插入图片描述
    ④Info&Tips

    i.本架构并不需求过于高分辨率的特征描述,因为我们直接把基因周期等特征包含在特征集中,而不用再从频谱图中隐式地提取。
    ii.LPCNet vocoder架构已经证明可以只依赖18个band的高质量的特征表示(内含pitch和voicing的信息),来还原出纯净语音。


    Source Separation

    1. End-to-End Speech Separation Using Orthogonal Representation in Complex and Real Time-Frequency Domain

    ①概述

    【complex-valued case】

    • 端到端复数域模型——结合DCN和Conv-TasNet
    • 混合的编码-解码结构——使用到了STFT变换和可学的复数层
    • 论述了时频变换中特征正交的重要性,提出MSO(Multi-segement orthogonality)架构

    【real-valued case】

    • 引入STDCT变换得到正交的特征表示,用以在实数的TF-Domain中进行分离

    ②DC-Conv-TasNet
    在这里插入图片描述
    2. Continuous Speech Separation Using Speaker Inventory for Long Recording

    ①概述

    • 该篇论文专注于同时有两个说话人的场景,最终输出有两个信号通道
    • SSUSI:speech separation using speaker inventory
      使用目标说话人的语音特征信息和额外说话人信号池作为辅助信息来联合分离目标说话人的语音信号;
    • 现状:现实生活中并不总能有pre-enrolled的过程;且真实的多人说话场景中也会包含很多non-overlapped的片段,可以用于提取鲁棒的单一说话人特征;
    • Idea:在long recording的情景下使用SSUSI模型,并提出一种self-informed,clustering-based的inventory-forming机制;旨在直接从输入的混合信号中得到目标说话人特征池的数据。

    ②Speaker-independent separation

    【informed speech extraction】

    • 使用目标说话人的额外的信息
    • SpeakerBeam——使用序列总结网络针对说话人的utterance生成embedding
    • VoiceFilter——将混合频谱特征和目标说话人的d-vector特征信息在每一帧拼接起来
    • 优势:避开了permutation和fixed speaker number的问题
    • 限制:计算代价与说话人数目呈正比;说话人bias信息的好坏影响目标说话人的提取效果

    【SSUSI】

    • 使用一个额外的候选说话人语料池同时分离所有说话人
    • 不足:需要额外的信息;受到bias影响很大;使用的数据集不能真实还原现实场景

    ③SSUSI using pre-enrolled utterance
    在这里插入图片描述
    ④Continuous SSUSI using self-informed mechanism for inventory construction
    在这里插入图片描述

    因为从每个segment输出的结果都只含有一个说话人,所以为了能够把各个分段拼接在一起,需要去衡量相邻segemnt之间重叠区域的相似性,以此来决定把哪两个输出片段进行拼接。

    1. Crossfire Conditional Generative Adversarial Networks for Singing Voice Extraction

    【生成对抗网络】

    • 可以很好地对数据的分布进行建模
    • 可以有效使用大量的无标签数据
    • 现有的基于GAN的SVE架构没有显式的方法去消除不同信源之间的相互影响

    在这里插入图片描述
    4. Dual-Path Filter Network: Speaker-Aware Modeling for Speech Separation

    ①概述

    • DPFN(Dual-path filter network)旨在于对语音分离进行后处理以提升性能;
    • 模型由speaker module和separation module构成——前者识别目标说话人的身份特征,后者结合目标说话人的信息进行语音分离;
    • 该模型基于DPRNN-TasNet结构来构成,并且考虑到了permutation的问题

    ②DPRNN

    【Encoder】
    将输入的混合信号转换成相关的特征表示形式

    【Separator】
    根据给定的混合信号的特征表示,得到各个源的掩码

    【Decoder】
    根据掩码计算后的各个源的信号还原重建出语音信号

    【特点】

    • 将encoder输出的数据按照有无交叠进行划分,并把他们组成一个三维张量
    • 双通道的BiLSTM会将这个三维的张量映射成关于某一说话人的三维的mask
    • 将mask和原始的混合张量进行点乘操作,并基于“overlap-add”操作还原得到序列输出
    • 双通道的LSTM在两种维度上进行工作——chunk size和chunk numbers,分别用于针对chunk内部的信息和chunk之间的信息
    • DPRNN这个结构可以看到当前时间帧附近和很远的相关信息,这也是该模型性能有很大提升的原因。

    ③SCCM

    【speaker inference】

    • 基于一个self-attention的Transformer结构,使用STFT变换后的频谱图作为输入
    • 计划输出目标说话人标签和相关特征向量

    【speech extractor】

    • 将speaker embedding和频谱特征基于每一帧进行对齐拼接
    • 使用和Conv-TasNet相似的结构进行语音提取的工作

    ④DPFN
    在这里插入图片描述

    展开全文
  • 语音分离(Speech Separation)这个问题来自于“鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。 根据干扰的不同,...
  • 文章目录Speech Separation1. Evaluation1.1 Signal-to-noise ratio(SNR)1.2 Scale invariant signal-to-distortion ratio(SI-SDR)2. Deep Clustering2.1 Masking3.... 存在问题5.1 未知说话人的个数5.
  • 个人总结基于深度学习的语音分离代码及论文
  • 基于深度神经网络的语音分离技术梳理,深蓝学院《语音信号处理》课程的第八章随课笔记。
  • 约束置换不变训练,语音分离 请引用: ... 我们完成了另一项工作,即目标说话人提取。 它只是从混合或嘈杂的环境中提取目标说话者的声音。 请参考 。 run.sh脚本包括功能提取,建模训练和运行时推
  • Deep Learning for Human Ianguage Processing 31. 语音转换应用场景2. 语音转换类别2.1 成对的资料2.2 不成对的...说话人转换(Speaker) 可见此[Nachmani, et al., INTERSPEECH’19]和此[Deng, et al., ICASSP’20]:
  • 完整代码已上传我的资源:[【语音分离】基于matlab FASTICA语音分离【含Matlab源码 1023期】](https://download.csdn.net/download/TIQCmatlab/31340021) 点击上面蓝色字体,直接付费下载,即可。 **获取代码方式2...
  • 现有的语音分离算法都是针对说话人个数已知且在分离过程中恒定的情况,现实中说话人个数是时 变的。提出仅用2个麦克风对说话人个数时变的语音信号进行盲分离的方法,不仅能反映说话人个数时变的过 程,而且解决了...
  • 深度学习在语音分离的应用

    千次阅读 2019-06-04 15:32:22
    基于深度学习的有监督语音分离在学术界和工业界越来越受到关注,也是深度学习在语音领域的...这个问题来自于“鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目...
  • 在信号处理中,语音分离属于很基本的任务类型,应用范围很广泛,包括听力假体、移动通信、鲁棒的自动语音以及说话人识别。人类听觉系统能轻易地将一个人的声音和另一个人的分离开来。即使在鸡尾酒会那样的声音环境中...
  • 深度递归神经网络在语音分离中的应用和增强语音分离实验培训代码: codes/TSP/train_TSP_demo_mini_clip.m 演示版在codes/TSP/demo/model.mat找到预训练的模型在codes/TSP/demo/run_test_single_model.m运行演示代码...
  • 具有个发言语音分离(ICML 2020) 我们提供了本文的实现:其中,我们提出了一种分离混合音频序列的新方法,其中个语音同时讲话。 新方法采用了门控神经网络,经过训练可以在个处理步骤中分离语音,同时将...
  • 通话者混合语音分离和识别方面取得的进展,通常被称为“鸡尾酒会问题”,并没有那么令印象深刻。 尽管人类听众可以很容易地感知混合声音中的不同来源,但对于计算机来说,同样的任务似乎极其困难,尤其是当...
  • ... 摘要 在这篇文章中,我们提出了一个通过参考音频实现音频分离的系统。我们通过两个独立的网络来实现这个目的。(1)声纹识别网络用于...我们的系统显著降低了语音识别在多人混杂 语音上的词错误率,在单人干净语...
  • 语音分离---TasNet

    千次阅读 2021-01-04 15:32:35
    语音分离: 1)分离噪声: 降噪 2)分离混响:降混响 3)分离人声:说话人分离 4)分离回声:回声消除 TasNet 系列在语音分离方法有不错的表现,有用到降噪&说话人分离&回声消除等方面,采用的是 encoder + ...
  • 论文一:基于深度聚类的单通道多语音分离 核心工作:通过信号调节(正则化、加深网络结构)将基本DPCL系统性能极大地提升 提升方法:Drop-out、调整网络结构、训练策略等 Drop-out设置:随机节点置零有可能会让LSTM...
  • 论文一:(DANet)基于单麦克风语音分离的深度吸引子网络 核心工作:提出了在高维空间中嵌入吸引子(Attractor)将时频信息整合来训练的网络,模型实现了端到端的训练,分离不需要知道混合源的数量。 分离的难点: 1....
  • 基于Mask的语音分离 生成有噪声/回声/混响/啸叫的混合语音样本 解析自适应滤波回声消除 使用AMR编解码器生成VAD的标签 使用TDOA进行声源定位 以任意频率重采样语音信号 音频数字水印的嵌入和提取 语音变速和变调 ...
  • 从鸡尾酒会问题入门语音分离

    千次阅读 2020-05-28 11:22:00
    从提供的视频演示来看,可以通过滑动控制只听某一个人说话,非常神奇。 这篇文章本身大概讲了这么一个事: 提出一个视觉-听觉联合模型,通过视觉信息来检测环境中谁在说什么并且分离出来;模型包含两个网络来分别...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,630
精华内容 1,052
关键字:

多说话人语音分离

友情链接: wsti.rar