精华内容
下载资源
问答
  • 基于时间卷积网络的深度聚类说话人语音分离.pdf
  •  说话人识别技术被认为是最自然的生物认证技术,它是一项根据语音中反映的说话人生理和行为特征的语音参数,自动识别说话人身份的技术。目前,说话人识别的主流特征往往只反映了说话人的声道频率特性,而忽略了声门...
  • 通过将基音跟踪得到的目标语音和干扰语音的基音轨迹信息结合到分离系统中,有效地改善了分离系统在包括说话人混合在内的多种干扰情况下的分离效果,为多说话人语音分离问题的解决提供了新的思路。
  • 说话者语音的目标说话人提取和验证 此处的代码是说话人提取,其中鉴于目标说话人的特征,只会提取目标说话人的声音。 在论文2)中,我们使用小型网络从目标说话者的不同话语中共同学习目标说话者的特征。 您也可以...
  • 桔妹导读:为了将目标语音从含多种干扰(如车噪、导航音、车内FM等)的复杂声学环境中分离出来同时尽量减小对原始语音的损伤,提高机交互、客服听音等的效率,滴滴结合了在前端信号处理的多年研发...

    桔妹导读:为了将目标语音从含多种干扰(如车噪、导航音、车内FM等)的复杂声学环境中分离出来同时尽量减小对原始语音的损伤,提高人机交互、客服听音等的效率,滴滴结合了在前端信号处理的多年研发积累与该领域的前沿研究,在单通道语音分离任务上取得了较大的进展。本文重点介绍单通道语音分离的研究现状、原理和目标说话人提取(或抑制)的框架、改进和一些实验结果及demo展示。

    语音分离(Speech Separation),就是在一个有多个说话人同时说话的场景里,把不同说话人的声音分离出来。目标说话人提取(Target Speaker Extraction)则是根据给定的目标说话人信息,把混合语音当中属于目标说话人的声音抽取出来。

    下图汇总了目前主流的语音分离和说话人提取技术在两个不同的数据集上的性能,一个是 WSJ0-2mix 纯净数据集,只有两个说话人同时说话,没有噪声和混响。WHAM是与之相对应的含噪数据集。可以看到,对于纯净数据集,近两年单通道分离技术在 SI-SDRi 指标上有明显的进步,图中已PSM方法为界,PSM之前的方法都是基于频域的语音分离技术,而PSM之后的绝大多数(除了deep CASA)都是基于时域的语音分离方法。

    噪声场景相对更贴近于真实的环境。目前,对于噪声场景下的分离技术性能的研究还不是特别完备,我们看到有一些在安静环境下表现比较好的方法,在噪声环境下性能下降比较明显,大多存在几个 dB 的落差。同时,与纯净数据集相比,噪声集合下各种方法的性能统计也不是很完备。

    通常来讲,单通道语音分离可以用“Encoder-Separator-Decoder”框架来描述。其中, Encoder可以理解为将观测信号变换到另外的一个二维空间中,比如离散傅里叶变换将时域信号变换到频域,1-D CNN将时域信号变换到一个二维潜空间中;Separator在变换域当中进行语音的分离,学习出针对不同声源的mask,与混合信号做一个元素级别相乘,由此实现变换域中的语音分离操作;Decoder 就是把分离后的信号反变换到一维时域信号。这套框架既可适用于频域的分离方法,也可用于时域的分离方法。

    大部分 Encoder 都是通过线性变换完成的,通过一组滤波器将时域混合语音变换到另外的一个二维空间当中。滤波器组的设计是值得研究的。最简单的方法是用固定的滤波器,比如短时傅里叶变换。此外,人们更愿意用data-driven的方式学习滤波器组的系数,比如常用1-D CNN。所以,单通道的语音分离,便可以依据此划分为频域和时域两类方法。

    第一类是基于频域的语音分离方法。这种方法的优点是可以与传统的信号处理方法更好的相融。频域法中的encoder多数情况下由傅里叶变换实现。在多通道场景下,可以与后端的频域波束形成更好的配合。第二个优点就是 Separator中 Mask 的可解释性比较强,即通过网络学出来的特征更加稀疏和结构化。这种方法的缺点也比较明显。第一,傅里叶变换本身是一种通用的变换,也是信号处理当中的经典变换,但它并不一定适用于分离任务。第二个比较明显的问题是相位重建比较困难。Separator中学习Mask通常利用的是幅度谱,而在语音重构的时候会利用混合语音的相位,所以会有语音失真的产生。第三,因为要做傅里叶变换需要有足够的采样点保证频率分辨率,所以延时比较长,对于对时延要求比较高的场景,频域分离法会有限制。

    第二类方法是时域分离法。它的第一个优点是用一种 data-driven 的形式完成encoder变换,比较常用的是1-D CNN或是更深的 Encoder 来完成这种变换。另外,时域方法不需要处理相位重建。第三,它的延时比较短,比如Conv-TasNet 可以做到两毫秒的延时,DPRNN-TasNet可以做到采样点级别的延时。时域方法的缺点是Mask 可解释性比较差,我们并不知道信号会变换到什么样的域当中,也不知道在这个域当中 Mask 到底有什么物理含义。此外,时域法和传统的频域信号处理方法相结合也稍显复杂。

    如果我们只想得到我们感兴趣的说话人的声音,而不需要分离出每一个说话人,这就是目标说话人抽取。它可以解决盲源分离中的两大痛点,即输出维度问题和置换问题。此外,由于只需要抽取出一路信号,因此不需要在分离出的多路信号中进行选择,从而节省运算量。它的附加条件是需要一个参考,既然要抽取特定的说话人,那么必须要事先知道关于这个说话人的信息,也就是speaker-embedding,将这些信息作为参考输入给抽取网络。在一些实际场景中,获取参考并不困难。

    早期的语音分离多采用基于频域的方法,比如u-PIT,这是一种比较流行的训练方法,很多时域的分离网络依然沿用了这种训练思路。Deep CASA是频域方法当中性能比较突出的一种方法,它是基于CASA框架。CASA的基本框架分为两部分:第一步是基于帧级别的分离;第二步则是对上一步的结果聚合得到输出。Deep CASA 顾名思义是将上述两步用更深的网络来实现,这是近两年在频域算法中表现比较突出的方法。

    对于目标说话人抽取技术,最早是由谷歌提出的 Voice filter,它利用了目标说话人的声纹信息,将声纹d-vector作为参考输入到抽取网络中,抽取网络可以只抽取出与该声纹信息相匹配的信号。另一种现阶段更为常用的抽取方式是引入一个辅助网络,通过联合学习的方式得到高质量的speaker-embedding,帮助抽取网络完成目标说话人声音的提取。

    基于时域的语音分离技术,比较有代表性的包括Conv-TasNet、DPRNN-TasNet等。对于时域目标说话人抽取任务来讲,SpEx 和 SpEx+目前的表现比较好,它们的基本框架也是借助于辅助网络提取声纹信息,SpEx和SpEx+的不同点在于,后者的speech encoder和speaker encoder是权值共享的。此外,多尺度输入对于抽取性能提升也是有帮助的。

    SpEx+是基于Conv-TasNet的说话人提取网络,ResNet作为辅助网络进行目标说话人speaker embedding的提取,是目前公开的论文中性能最好的算法。目前语音分离最好的模型之一是DPRNN-TasNet,模型较小,性能较优。基于SpEx+,我们提出了模型规模更小的说话人提取网络DPRNN-Spe,将SpEx+提取网络的 TCN用 DPRNN替代,且声纹信息只输入一次到提取网络。DPRNN-Spe模型框架如下图所示。

    无论SpEx+或是DPRNN-Spe在参考speaker embedding比较匹配的时候,都能取得较好的提取效果。然而对于未注册的说话人或者辅助的speaker embedding与混合语音中的声纹信息不够匹配时,现有的模型的性能都会有较大幅度的降低。在实际场景中,未注册的目标说话人是远大于注册说话人的。而speaker embedding会因年龄、身体健康、情绪、录音环境和说话速度等因素发生或大或小的改变,它的负面效应很可能会在说话人提取网络中被放大。此外,相比于文本相关的speaker embedding,文本无关的speaker embedding可能会产生一定的冗余信息。

    针对以上存在的问题,我们提出了一种机制——Iterative refined adaptation (IRA),可以更好的提高模型的鲁棒性,它本质上是一种adaptation方法。该机制受听觉感知的启发,人们可以随着在交谈或者聆听的过程增加对特定说话人的熟悉程度从而更好地聆听或者交谈。基于IRA机制的DPRNN-Spe-IRA说话人提取流程如下图所示。首先,我们利用初始的参考信号获得最初的speaker embedding,然后将speaker embedding 输入到提取网络中得到初次的提取结果,接下来将初次提取的结果反馈到辅助网络中得到新的speaker embedding,将新旧speaker embedding进行加权相加得到更匹配的speaker embedding,然后再次传给提取网络进行目标说话人提取。即提取网络和辅助网络的信息是互相优化更新的。此过程可以反复进行,随着迭代次数的增加,提取的目标语音效果越好。

    实验表明,在说话人提取网络中引入IRA机制,无论在无噪或者含噪场景下都能有较大的性能提升。实验结果如下图所示。测试集均是未注册的目标说话人。(即与训练集不同的说话人)

    WSJ0-2mix-extr (无噪场景):

    WHAM!(含噪场景):

    以上两个表格中L表示编码器CNN中的滤波器的长度,图中展示了在相同参数条件下,IRA能够更好的提升模型的性能指标。以下是含噪场景中,说话人提取效果的示例。从频谱上看,噪声基本已被去除,提取的语音和原始干净语音对比无明显的失真。

    Mixture VS Extraction

    ‍‍‍‍‍‍‍Reference VS Clean‍‍‍‍‍‍‍

    说话人提取是从混合语音中提取特定说话人语音的技术,同样,我们也可以在混合语音中对特定的语音进行抑制,即说话人抑制。与说话人提取类似,我们需要给辅助网络提供特定说话人的语音,利用提取网络输出我们想要的目标信号即可。说话人抑制技术与回声消除(AEC, Acoustic Echo Cancellation)实现了相同的功能,由于 AEC算法存在延时估计不准以及滤波器收敛等问题,导致回声消不干净或者对回声消除较大进而对近端语音造成了损伤,但是说话人抑制可以很好的解决上面的问题。目前,滴滴主要将说话人抑制技术应用于去除导航音,经过实验发现,相比于AEC,说话人抑制技术能够更好的去除导航音,并且对近端语音没有损伤。

    关于说话人抑制的研究目前还处于继续研究的阶段,但是现有模型在实际数据中已经表现出了优于AEC的效果,对近端语音没有造成损伤。下图为实际采集的语音,利用说话人抑制模型去除导航音的效果。

    ‍‍‍‍‍‍‍‍‍‍‍‍

    采集语音 VS 抑制结果

    实践证明,IRA机制能够进一步提高说话人提取模型的鲁棒性,对IRA机制和说话人抑制的有关研究仍在继续进行,比如IRA会随着提取网络建模精度的提升带来更大的收益等;说话人抑制模型训练过程中,在训练集中添加合适比列的负样本,能够更好的消除只包含导航音的语音片段。

    本文作者

    2019年8月加入滴滴,任滴滴高级研究员,从事滴滴语音前端信号处理中多种场景的前沿技术研发和落地工作,包含语音前端信号处理开源项目、数字水印、语音分离与导航音去除等。2018年6月研究生毕业于大连理工大学,硕士阶段的研究方向为信号处理。曾在中兴工作,专注于信号处理算法的优化与落地。在语音顶级会议Interspeech上作为主要作者发表了两篇论文。

    2019年7月加入滴滴,任滴滴研究员,从事滴滴语音前端信号处理中增强、分离领域的前沿技术的探索。2019年6年研究生毕业于北京邮电大学。正式入职以来,以第一作者身份在ICASSP和Interspeech发表2篇论文,累计发表论文4篇。和团队一起参与了导航音去除、噪声抑制等业务项目。

    2018年5月加入滴滴,语音研究实验室负责人,负责滴滴语音和音频信号处理算法的研发。博士毕业于清华大学。曾在百度工作,专注于语音信号处理技术的研发。

    关于团队

    滴滴智能中台集结了中台产品技术、AI能力和体验平台技术,致力于为集团各业务线提供行业领先的专业服务,当前已沉淀了账号、支付、计价、触达、IOT、体验等核心中台能力;AI技术已深入应用于安全、智能运营、智能客服、智能驾驶等场景;持续通过搭建客服及体验平台等技术手段,提升用户体验问题的解决效率。智能中台是一支专业、多元、高效、务实的团队,坚持用技术赋能出行领域,力争成为业内多快好省的中台标杆。

    滴滴语音信号处理团队基于滴滴的车载环境数据,研发了多种语音前端信号处理技术,包括自动回声消除、数字水印、噪声抑制和目标说话人提取、抑制等,并成功将这些技术应用于行程中录音、自驾地图、客服听音、司乘安全等各个领域,为更好的语音交互和出行安全保驾护航。

    博闻强识,招贤纳士,滴滴用广阔的舞台,在这里,等待你!

    扫码了解更多岗位

    延伸阅读

    内容编辑 | Charlotte

    联系我们 | DiDiTech@didiglobal.com

    
    
    展开全文
  • 介绍了带通采样技术在高分辨率...首先阐述了带通采样定理以及采样率的选取原则,然后从波束图像声纳的原理出发,给出了基于带通采样的数字波束形成方法;仿真和湖上试验表明了这种方法的可行性以及工程实现的有效性。
  • 讨论了基于模型的单通道语音分离方法,对说话人依赖的、说话人选择的和说话人独立的三类单通道语音分离问题展开分析,并指出当前方法存在的问题和影响算法性能的关键因素。最后对基于模型的单通道语音分离研究发展...
  • 此仓库总结了用于语音分离说话人提取任务的教程,数据集,论文,代码和工具。诚挚地邀请您提出要求。 目录 讲解 [语音分离,李鸿-,2020年] [端到端神经源分离的进展,伊洛,2020] [音频源分离和语音增强,...
  • 深度学习在语音分离的应用

    千次阅读 2019-06-04 15:32:22
    基于深度学习的有监督语音分离在学术界和工业界越来越受到关注,也是深度学习在语音领域的...这个问题来自于“鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目...

    基于深度学习的有监督语音分离在学术界和工业界越来越受到关注,也是深度学习在语音领域的应用中重要的一部分。这个主题社长曾经邀请搜狗语音研究员文仕学做过分享。
    以下是他的分享内容,点击查看更多往期回顾:
    在这里插入图片描述
    文仕学首先介绍了“语音分离”(Speech Separation)是怎么样的一种任务。这个问题来自于“鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。

    根据干扰的不同,语音分离任务可以分为三类:

    1、当干扰为噪声信号时,可以称为“语音增强”(Speech Enhancement)
    2、当干扰为其他说话人时,可以称为“多说话人分离”(Speaker Separation)
    3、当干扰为目标说话人自己声音的反射波时,可以称为“解混响”(De-reverberation)

    由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰,不做语音分离、直接进行识别的话,会影响到识别的准确率。因此在语音识别的前端加上语音分离技术,把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性,这从而也成为现代语音识别系统中不可或缺的一环。

    基于深度学习的语音分离,主要是用基于深度学习的方法,从训练数据中学习语音、说话人和噪音的特征,从而实现语音分离的目标。

    在这里插入图片描述
    这次分享的内容有以下这5个部分:分离使用的模型、训练目标的设置、训练数据的生成、单通道语音分离算法的介绍和讨论。

    一、基于深度学习的语音分离方法使用的模型
    在这里插入图片描述
    第一类模型是多层感知机,DNN,可以先做RBM预训练,再做微调(fine-tune);不过文仕学介绍,他们团队通过实验发现,在大数据集上不需要预训练也可以收敛。

    LSTM(长短时记忆网络)的方法中把语音作为一个随时间变化的序列进行建模,比较适合语音数据;CNN(卷积神经网络)通过共享权值,可以在减少训练参数的同时获得比全连接的DNN更好的性能。

    近些年也有人用GAN(对抗性生成式网络)做语音增强。模型中通常会把生成器设置为全部是卷积层,为了减少训练参数从而缩短训练时间;判别器负责向生成器提供生成数据的真伪信息,帮助生成器向着“生成干净声音”的方向微调。

    二、训练目标的设置
    训练目标包括两类,一类是基于Mask的方法,另一类是基于频谱映射的方法。
    在这里插入图片描述
    基于Mask的方法又可以分为几类:

    1、理想二值掩蔽”(Ideal Binary Mask)中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性,把音频信号分成不同的子带,根据每个时频单元上的信噪比,把对应的时频单元的能量设为0(噪音占主导的情况下)或者保持原样(目标语音占主导的情况下)。

    2、第二类基于Mask的方法是IRM(Ideal Ratio Mask),它同样对每个时频单元进行计算,但不同于IBM的“非零即一”,IRM中会计算语音信号和噪音之间的能量比,得到介于0到1之间的一个数,然后据此改变时频单元的能量大小。IRM是对IBM的演进,反映了各个时频单元上对噪声的抑制程度,可以进一步提高分离后语音的质量和可懂度。

    在这里插入图片描述
    *TBM与IRM类似,但不是对每个时频单元计算其中语音和噪声的信噪比,而是计算其中语音和一个固定噪声的信噪比;

    *SMM是IRM在幅度上的一种形式;

    *PSM中加入了干净语音和带噪语音中的相位差信息,有更高的自由度;

    虽然基于Mask的方法有这么多,但最常用的还是开头的IBM和IRM两种
    在这里插入图片描述
    如果使用频谱映射,分离问题就成为了一个回归问题。

    频谱映射可以使用幅度谱、功率谱、梅尔谱以及Gammatone功率谱。Gammatone是模拟人耳耳蜗滤波后的特征。为了压缩参数的动态范围以及考虑人耳的听觉效应,通常还会加上对数操作,比如对数功率谱。

    基于频谱映射的方法,是让模型通过有监督学习,自己学习有干扰的频谱到无干扰的频谱(干净语音)之间的映射关系;模型可以是DNN、CNN、LSTM甚至GAN。
    在这里插入图片描述
    这一页是使用相同的DNN模型、相同的输入特征、不同的训练目标得到的结果。

    左边的STOI指语音的可懂度,得分在0到1之间,越高越好;右边的PESQ是语音的听觉质量、听感,范围为-0.5到4.5,也是越高越好。

    基于Mask的方法STOI表现较好,原因是有共振峰的能量得到了较好的保留,而相邻共振峰之间波谷处的声音虽然失真较大,但人耳对这类失真并不敏感;两类方法在PESQ中表现相当。

    三、训练数据的生成
    在这里插入图片描述
    针对语音分离中的语音增强任务,首先可以通过人为加噪的方法生成带噪语音和干净语音对,分别作为输入和输出(有标注数据),对有监督学习模型进行训练。加入的噪声可以是各种收集到的真实世界中的噪声。
    在这里插入图片描述
    不过收集噪声需要成本,而且人工能够收集到的噪音总是有限的,最好能够有一套完备、合理的方案,用仿真的方式生成任意需要的噪声。 在今年的MLSP(信号处理机器学习)会议上,搜狗语音团队就发表了一项关于噪声基的工作,通过构造一个噪声基模型,在不使用任何真实噪音数据的情况下,生成带噪语音对语音增强模型进行训练,达到了与使用50种真实噪音的情况下相当的性能(下图)。

    在这里插入图片描述
    如果将这50种真实噪声和噪声基产生的数据混合在一起,性能可以比单独使用真实噪音的情况得到进一步提高。这也说明噪声基生成的噪声和真实噪声数据之间有着互补性,在实际应用中也可以解开一些真实噪声数据不足带来的限制。

    四、单通道语音分离算法
    在这里插入图片描述
    如开头所说,语音分离任务可以分为三类,语音增强、多说话人分离和解混响。不同任务的处理方法也有所不同。

    对于语音增强,基于Mask的方法首先进行耳蜗滤波,然后特征提取、时频单元分类、二值掩蔽、后处理,就可以得到增强后的语音了。

    在这里插入图片描述
    语音增强的另一类基于频谱映射的方法中,先特征提取,用深度神经网络学习带噪语音和干净语音的对数功率谱之间映射关系,再加上波形重建,就可以得到增强后的语音。
    在这里插入图片描述
    基于有监督学习的算法都存在推广性(generalization)的问题,语音增强这里也不例外。针对噪音类型、信噪比和说话人的推广性都还有提升的空间。
    在这里插入图片描述
    对于解混响,同样可以使用基于频谱映射的方法。解混响中也需要生成训练数据,但不同于带噪语音生成时做时域的相加,带混响的语音是在时域上进行卷积;同样都把干净语音作为带标注数据。
    在这里插入图片描述
    在基于频谱映射的方法基础上还可以加以改进。对于不同的混响时间,深度神经网络需要学习的时间窗口长度是不一样的,因而改进方法中加入了告知混响时间的功能,根据帧移R和扩帧数目N提特征后解码,可以获得更好的解混响效果。
    在这里插入图片描述
    多说话人分离分为三种情况:
    1、目标说话人和干扰说话人都固定,Speaker dependent,
    2、有监督分离目标说话人固定,训练阶段和测试阶段的干扰说话人可变,Target dependent,
    3、半监督分离目标说话人和干扰说话人都可变,Speaker independent,无监督分离
    在这里插入图片描述
    对于有监督和半监督分离,可以使用基于频谱映射的方法,与前面使用基于频谱映射的方法做语音增强类似。
    在这里插入图片描述
    对于无监督分类,有无监督聚类、深度聚类以及最近的序列不变训练(PIT)方法。PIT方法的核心是红框中标出的部分,在误差回传的时候,分别计算输出序列和标注序列间各种组合的均方误差,然后从这些均方误差中找到最小的那个作为回传误差,也就是根据自动找到的声源间的最佳匹配进行优化,避免出现序列模糊的问题。

    五、讨论两个问题
    在这里插入图片描述
    最后,文仕学给大家留了两个思考题,欢迎大家在评论给出自己的见解。

    第一个问题是语音分离任务中,是按传统思路先变换到频域,然后在频域上进行处理,还是直接在时域上处理比较好?后者的好处是端到端训练,不用考虑频域方法做傅立叶反变换时相位的问题。

    第二个问题是对于语音增强任务,应该使用真实噪声加噪还是使用人工仿真生成的噪声进行降噪?

    作者:AI研习社
    链接:https://www.zhihu.com/question/66586141/answer/245148124
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    展开全文
  • 语音分离---TasNet

    2021-01-04 15:32:35
    语音分离: 1)分离噪声: 降噪 2)分离混响:降混响 3)分离人声:说话人分离 4)分离回声:回声消除 TasNet 系列在语音分离方法有不错的表现,有用到降噪&说话人分离&回声消除等方面,采用的是 encoder + ...

    语音分离:

    1)分离噪声: 降噪
    2)分离混响:降混响
    3)分离人声:说话人分离
    4)分离回声:回声消除

    TasNet 系列在语音分离方法有不错的表现,有用到降噪&说话人分离&回声消除等方面,采用的是 encoder + seperator(generate mask) + decoder 的结构;主要提出的点有:
    1) time-domain (对比时频域算法,用encoder 和 decoder 来替代stft 和 istft 类似的变换。可以不需要考虑是否保留phase和频域分辨率等考虑);
    2) end-to-end的模式且可以实现casual的inference;

    但是按照论文的结果和自己的实验的一些结果来说,不一定能代表时域的方法就比频域的方法要好(不同的参数的选择,不同的模型结构);

    TasNet

    file 中间的seperator 使用LSTM结构来捕捉time sequence 的信息;

    Conv-TasNet

    中间的seperator 使用TCN 的结构来捕捉time sequence 的信息,LSTM的几个问题:
    1)长序列LSTM收敛困难问题;
    2) LSTM 参数量大,不能并行计算;
    3)长依赖的不定性;
    file 这里面改成TCN之后,还采用了residual的结构,seperable conv, global layer norm 等来提升效果

    Multi-Stream Conv-TasNet

    mulit-stream conv-tasnet 是tasnet 在aec 回声消除方面的改进:
    file 主要的区别是针对aec的far-end 和near-end 的输入增加了对输入数据的处理:
    dˆ(n) 是 adaptive filter的输出;
    sAEC(n) = residual echo + background noise + the near-end signal;
    在TCN的shallow block中将 dˆ(n) 和sAEC(n) 作为输入可以假设计算之间的相关性;
    论文给的实验结果看起来不还错,需要再验证;

    本文由博客群发一文多发等运营工具平台 OpenWrite 发布

    展开全文
  • 6. 声道分离(阵列分离) 7. 更内容 5. 单通道分离(monaural separation) 5.1 语音增强(speech separation) 5.2 语音增强的泛化 5.3 语音去混响 & 去噪(speech dereverberation & denoising) 5.4.

    【WangDeLiangOverview2018】

    Supervised Speech Separation Based on Deep Learning: An Overview

    DeLiang Wang / Jitong Chen @ Ohio

    IEEE/ACM Trans. ASLP2018

     

    【目录】

    1. 引入

    2. 学习机器(learning machines)

    3. 训练目标(training target)

    4. 特征

    5. 单声道分离

        5.1 语音增强(speech separation)

        5.2 语音增强的泛化

        5.3 语音去混响 & 去噪(speech dereverberation & denoising)

        5.4 说话人分离(speaker separation)

    6. 多声道分离(阵列分离)

    7. 更多内容

     

    【正文】

    说话人分离(speaker separation)的目标是,从一个包含2个or多个voice的mixture里提取多个语音信号,每个说话人(speaker)对应一个。在深度学习被证明能胜任语音增强之后,在类似的框架下,DNN已被成功应用在说话人分离中,如图12是2说话人分离,或者叫共信道分离(cochannel separation)

    Huang[81]是最早为此引入DNN的。他们的研究使用forward DNN和一个RNN来解决2说话人分离。作者说,在帧t时候,2个estimated sources的spectra,\hat{s_1}(t)\hat{s_2}(t),的和,不保证能等于mixture的spectrum。因此,网络中加入masking layer,来产生2个输出:

    这相当于3.1中介绍的training target:signal approximation。binary masking和ratio masking都被发现有效。除此之外,discriminative training被用于最大化一个说话人语音的和另一个人的语音的估计之间的差别。训练时,最小化如下cost:

    实验表明masking layer和discriminative training都能提升说话人分离[82]。

    几个月后,Du[38]独立提出了与[81]相似的用DNN做说话人分离。在他的研究中,DNN被训练来估计cochannel mixture中目标说话人的log power spectrum。在另一个文章[162]中,他们训练了一个DNN来映射一个cochannel信号到目标说话人(target speaker/talker)的spectrum以及干扰者(interfering speaker/interferer/interfering talker)的spectrum,如图12,[37]是一个延伸的版本。比起[81],一个值得提及的延伸是,这些文章还解决了一种情况,当只有目标说话人在训练和测试时候是相同的,而干扰者在训练和测试(testing)时候是不同的。

    在说话人分离中,如果潜在的说话人从训练到测试时候不变,为说话人相关(speaker-dependent)。如果干扰者可以变,但目标说话人固定,叫做target-dependent。最少约束条件的是,不要求说话人在训练和测试时候一样,叫做说话人无关(speaker-independent)。从这个角度讲,Huang[81][82]的方法是speaker dependent,[38][162]的方法对speaker dependent和target-dependent都处理。他们放松干扰者约束的方式是简单地用目标说话人和许多干扰者的cochannel mixture来训练。

    Zhang和Wang提出一种deep ensemble network来实现speaker-dependent和target dependent分离[206]。他们使用mullti-context network来在不同分辨率集成时序信息(temporal information)。一个ensemble通过堆叠多个模块构造,每个模块做multi context masking/mapping。在这个研究中多个training target被考察。对于speaker-dependent分离,signal approximation被证明更有效;对target-dependent分离,ratio masking和signal approximation的组合更有效。进一步,target-dependent分离的的表现与speaker-dependent分离的接近。近来,Wang[174]在放宽speaker dependency上跟进了一步。他们的方法将每个说话人聚类到4个cluster中的1个里(2个男性和2个女性cluster),然后训练一个DNN-based的gender mixture识别器来决定mixture中2个潜在说话人所属的cluster。尽管是在每个cluster里的说话人的子集上做训练,他们的evaluation结果显示,说话人分离犯法对另外的cluster里没训练过的说话人也能工作得很好。或者说是,这个说话人分离方法显示了一定程度的speaker independency。

    Healy[63]近来用DNN做speaker-dependent的cochannel separation并对DNN做了关于HI和NH听者的speech intelligibility评估。DNN被训练来估计IRM和它的补充(complement),对应于目标说话人和干扰者。和更早的DNN-based cochannel separation研究相比,这里面的算法使用一个多样性的特征集合,以及预测多个IRM帧,导致一个更好的分离。intelligibility的结果如图13。

    在HI组,DNN-based分离在intelligibility的提升对于-3dB/-6dB/-9dB的target-to-interferer ratio(TIR)分别是42.5%/49.2%/58.7%;对于NH组,也存在统计性显著的提升,但幅度更小。值得关注的是,HI听者在intelligibility上获得的大幅提升,使得他们在TIR -6dB/-9dB时候可以与NH听者有同等水平的表现。

    speaker-independent分离可以视作一个无监督聚类,将T-F units聚类到由独立说话人统治的不同类别[6][79]。聚类是在说话人数量上是一个灵活的框架,但他无法像监督学习那样充分利用鉴别性信息(discriminative information)。Hershey[69]是第一个在DNN框架下解决speaker-dependent多说话人分离的。他们的方法,称为deep clustering(后续记作DPCL2016,结合了DNN-based的feature learning和spectral clustering。给定T-F units的gt划分,affinity matrix A可以计算:

    DNN被训练来对每个T-F unit做embed。affinity matrix的估计\hat{A}可以从embeddings导出。DNN通过最小化如下cost来学习如何对T-F units输出similar embeddings:

    低阶公式可以用于高效地计算cost以及他的导数。推理(inference)时候,mixture被分段,为每个分段(segment)计算embedding matrix V。然后,所有分段地embedding matrix做连接(concatenated)。最后,用K-means来将所有分段的T-F units聚类到说话人cluster。segment-level的聚类比utterance-level的聚类更准确,但只对独立的segment的聚类结果,需要解决时序组织问题。DeepClutering2016被证明能产生高质量的说话人分离,显著地优于用于speaker-independent的CASA方法[79]和NMF方法。

    DeepClutering2016一个近来的延伸是deep attractor network[25](后续记作DeepAttractorNet2017,为T-F units学习高维embeddings。与DeepClustering2016不同,这个深度网络建立与聚类中心相似的attractor points,来将被不同说话人统治的T-F units拉到对应的attractor。说话人分离然后被作为mask estimation任务来展开,通过比较embedded points和每个attractor。结果表明DeepAttractorNet2017比DeepClustering2016产生更好的结果。

    虽然clustering-based的方法自然而然地导出speaker-independent模型,DNN-based masking/mapping方法将每个DNN输出联系到一个特定的说哈人,并导出speaker-dependent模型。例如,mapping-based方法最小化如下cost:

    为了将说话人的DNN输出联合起来,训练一个使用masking/mapping的speaker-independent模型,Yu[202]近来提出permutation invariant training(后续记作PIT2017),如图14。对2说话人分离,DNN被训练输出2个mask,每个都被应用在noisy speech上来产生一个源估计(source estimation)。在DNN训练时,cost函数动态计算。如果将每个输出分配到一个训练数据中的参考说话人|S_k(t)|,那么有2种可能的分配,每个关联到一个MSE。有更小MSE的分配被选择,DNN被训练来最小化对应的MSE。在training和inference时,DNN接受一个segment或多帧特征,为segment估计2个source。由于DNN的2个输出没有关联到任何说话人,在连续的segment里同一个说话人可能从一个输出切换到另一个输出。因此,估计得到的segment-level source需要做sequential organization,除非segment跟语料一样长。尽管更简单了,说话人分离地结果证实能跟deep clustering得到的结果相持。

    在本个说话人分离小节中,从前面文章主体中的一个洞察是,用很多不同speaker pair训练的DNN模型能够分离训练中没有涵盖的speaker pair,即speaker-independent分离,但只能在frame-level左到。对speaker-independent分离,关键要素在于如何在独立的帧/segment上,对已经分离好的语音信号进行分组。这正是sequential organization,在CASA[172]中有很多研究。PIT2017可能被认为是在DNN训练中推行sequential grouping作为约束。另一方面,典型的CASA方法利用pitch controu,vocal tract characteristics,rhyth/prosody,乃至常见的spatial direction当多传感器是可用的,当然一般在监督学习中没有涵盖。看似集成传统的CASA和deep learning是未来研究的一个沃土。

     

     

     

    展开全文
  • 在信号处理中,语音分离属于很基本的任务类型,应用范围很广泛,包括听力假体、移动通信、鲁棒的自动语音以及说话人识别。人类听觉系统能轻易地将一个人的声音和另一个人的分离开来。即使在鸡尾酒会那样的声音环境中...
  • 具有个发言语音分离(ICML 2020) 我们提供了本文的实现:其中,我们提出了一种分离混合音频序列的新方法,其中个语音同时讲话。 新方法采用了门控神经网络,经过训练可以在个处理步骤中分离语音,同时将...
  • 现有的语音分离算法都是针对说话人个数已知且在分离过程中恒定的情况,现实中说话人个数是时 变的。提出仅用2个麦克风对说话人个数时变的语音信号进行盲分离的方法,不仅能反映说话人个数时变的过 程,而且解决了...
  • 首先给出了语音分离的概念:指说话人的混合语音中分离得到想要的语音数据,源于著名的鸡尾酒会问题。本文主要研究两个说话人混合的情况。 鸡尾酒会问题:指人的一种听力选择能力,注意力集中在某个人的谈话之中...
  • 语音分离(Speech Separation)这个问题来自于“鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。 根据干扰的不同,...
  • 约束置换不变训练,语音分离 请引用: ... 我们完成了另一项工作,即目标说话人提取。 它只是从混合或嘈杂的环境中提取目标说话者的声音。 请参考 。 run.sh脚本包括功能提取,建模训练和运行时推
  • 语音分离(Speech Separation)这个问题来自于“鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。 根据干扰的不同,...
  • 论文一:基于深度聚类的单通道多语音分离 核心工作:通过信号调节(正则化、加深网络结构)将基本DPCL系统性能极大地提升 提升方法:Drop-out、调整网络结构、训练策略等 Drop-out设置:随机节点置零有可能会让LSTM...
  • 具体可参考https://blog.csdn.net/u010637291/article/details/117252879(真实可用)
  • 然而自动语音分离,将音频信号分离到各自的语音源中,仍是计算机面临的重大挑战。 谷歌提出深度学习的视听模型,以从混杂的声音中将单独的语音信号分离出来。在这项工作中,生成出视频,增强特定人群的语音,削弱...
  • 论文一:(DANet)基于单麦克风语音分离的深度吸引子网络 核心工作:提出了在高维空间中嵌入吸引子(Attractor)将时频信息整合来训练的网络,模型实现了端到端的训练,分离不需要知道混合源的数量。 分离的难点: 1....
  • 在信号处理中,语音分离属于很基本的任务类型,应用范围很广泛,包括听力假体、移动通信、鲁棒的自动语音以及说话人识别。人类听觉系统能轻易地将一个人的声音和另一个人的分离开来。即使在鸡尾酒会那样的声音环境中...
  • 一直以来,语音分离在音视频领域都是一个重要的课题,近年来深度学习的快速发展为解决单通道语音分离提供了一个新的思路。在LiveVideoStackCon 2019上海 音视...
  • 平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000万独立...语音分离的目标是把目标语音.
  • 从鸡尾酒会问题入门语音分离

    千次阅读 2020-05-28 11:22:00
    从提供的视频演示来看,可以通过滑动控制只听某一个人说话,非常神奇。 这篇文章本身大概讲了这么一个事: 提出一个视觉-听觉联合模型,通过视觉信息来检测环境中谁在说什么并且分离出来;模型包含两个网络来分别...
  • 基于深度学习的有监督语音分离在学术界和工业界越来越受到关注,也是深度学习在语音领域的应用中重要的一部分。作为雷锋网AI研习社近期组织的一系列语音领域应用的分享会之一,本次我们请到了来自搜狗的研究员文仕学...
  • 人工智能小白日记之103语音情感分析探索之3 语音分离相关调研前言正文内容1 相关调研1-1 聚类算法1-2 HMM隐马尔可夫模型1-2-1 马尔可夫链1-2-2 HMM1-3 盲信号分离 前言 在上一篇中,初步实现了语音的情感识别,因为...
  • 文章目录Speech Separation1. Evaluation1.1 Signal-to-noise ratio(SNR)1.2 Scale invariant signal-to-distortion ratio(SI-SDR)2. Deep Clustering2.1 Masking3.... 存在问题5.1 未知说话人的个数5.
  • 1. 用于语音情绪识别的基于对抗学习的说话人无关的表示尝试解决的问题:在语音情绪识别任务中,会面临到要测试的说话人未出现在训练集中的这个问题,本文尝试运用TDNN+LSTM作为特征提取部分,再通过对抗学习的方法来...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,306
精华内容 922
关键字:

多说话人语音分离