精华内容
下载资源
问答
  • [语音识别] 10 端到端语音识别

    千次阅读 2020-03-21 11:52:53
    端到端语音识别

    端到端语音识别

     

     

     

     

     

     

     

    • Espnet: https://github.com/espnet/espnet • 实现了主流的端到端语音识别方法
    • Speech-Transformer、LAS、CTC、RNN-T
    • 一个小缺点:代码量已经越来越多...

    • 实践:有GPU机器的话,可以跑一下egs下面的aishell1/2
    • Speech Transformer: https://github.com/kaituoxu/Speech-Transformer
    • Listen, Attend and Spell: https://github.com/kaituoxu/Listen-Attend-Spell

    展开全文
  • 端到端语音识别模型

    2020-12-10 09:58:57
    端到端语音识别模型(原文地址) 随着端到端神经网络在机器翻译、语音生成等方面的进展,端到端的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务(词汇模型,声学模型和语言...

    端到端语音识别模型(原文地址

    随着端到端神经网络在机器翻译、语音生成等方面的进展,端到端的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务(词汇模型,声学模型和语言模型),端到端的语音识别模型基于梅尔语谱作为输入,能够直接产生对应的自然语言文本,大大简化了模型的训练过程,从而越来越受到学术界和产业界的关注。

    本文将通过六篇论文,从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音识别模型的优缺点。

                                                                                             图片

    Seq2Seq

    参考论文:Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition. ICASSP 2016(William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals)

     

                                                                                               图片 

    CTC

    参考论文:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. ICML 2006(AlexGraves, SantiagoFernández,FaustinoGomez)

                                                                                                        图片

     

    这里 A 是一条合法的 x 和 y 的对应路径,a_t 代表 t 时刻 X 所对应的输出。

    了解更多的推导细节: https://distill.pub/2017/ctc/ 

                                                                                                                            图片

    Transducer

    参考论文:Sequence Transduction with Recurrent Neural Networks. arXiv 2012(Alex Graves)

                                                                                                                  图片

     图片

                                                                                                                    图片 

     

    数据增强

    参考论文:SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition. INTERSPEECH 2019(Daniel S. Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le)

                                                                                                                    图片 

     

    延迟优化

    参考论文:Towards Fast and Accurate Streaming End-to-End ASR. ICCASP 2019(Bo Li, Shuo-yiin Chang, Tara N. Sainath, Ruoming Pang, Yanzhang He, Trevor Strohman, Yonghui Wu)

                                                                                                                            图片 

    端到端语音识别对比 

     参考论文:On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition. InterSpeech 2020(Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu)

                                                                                                                         图片 

     

    展开全文
  • 深度演讲:扩展端到端语音识别.pdf 英文版
  • Keras实现的 DeepSpeech 端到端语音识别
  • 自动语音识别模型 使用PyTorch的端到端语音识别模型
  • 端到端语音识别(一) 概况

    千次阅读 2019-04-23 13:58:07
    端到端语音识别(一) 概况
                           

    传统方法的局限性[1]

    HMM

    Markovian Assumption

    p(q t |q <t )=p(q t |q t1 ) p(qt|q<t)=p(qt|qt−1)

    帧的生成概率只跟当前状态有关,跟历史状态和历史帧无关。

    DNN

    alignment

    DNN的声学模型用来求输出状态对应的后验概率。需要用到GMM的对齐结果,来获得每一帧的label。首先需要GMM的对齐结果比较准确,其次是本身语音的边界不好界定,这样每一帧给一个指定label本身值得商榷。

    Conditional Independence Assumption

    和HMM类似,有独立性的假设。

    Dict

    词典和音素本身是handcrafted的

    End to End实现方法[2]

    end to end的语音识别主要有两种方法来实现
    - 基于CTC的训练准则
    CTC训练准则的引入抛弃了传统的HMM框架,输出的粒度可以到phone/charactor/word等。但是仍然有输出独立性的假设,使用的时候对于语言模型的依赖性比较强。
    - 基于sequence to sequence和attention
    虽然这种方式可以学习到word之间的关系,但是毕竟训练语料的transcription有限,所以额外的语言模型使用还是比较有必要。

    end to end的语音识别框架在一定程度上减少了传统方法不合实际的假设,但是也存在训练困难的问题,为了取得比较好的效果,需要的训练语料也更多;而基于传统的DNN-HMM hybrid系统的方法可以得到更稳定的性能。

    Reference

    [1].End-to-End Speech Recognition Models
    [2].Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin

               
    展开全文
  • 端到端语音识别(二) ctc
                           

    相关笔记

    CTC学习笔记(一) 简介
    CTC学习笔记(二) 训练和公式推导
    CTC学习笔记(三) 解码
    CTC学习笔记(四) 解码-WFST
    CTC学习笔记(五) eesen训练源码

    History

    ICML-2006. Graves et al. [1] introduced the connectionist temporal classification (CTC) objective function for phone recognition.
    ICML-2014. Graves [2] demonstrated that character-level speech transcription can be performed by a recurrent neural network with minimal preprocessing.
     Baidu. 2014 [3] DeepSpeech, 2015 [4] DeepSpeech2.
    ASRU-2015. YaJie Miao [5] presented Eesen framework.
    ASRU-2015. Google [6] extended the application of Context-Dependent (CD) LSTM trained with CTC and sMBR loss.
    ICASSP-2016. Google [7] presented a compact large vocabulary speech recognition system that can run efficiently on mobile devices, accurately and with low latency.
    NIPS-2016. Google [8] used whole words as acoustic units.
    2017, IBM [9] employed direct acoustics-to-word models.

    Reference

    [1]. A. Graves, S. Fernandez, F. Gomez, and J. Schmidhuber. Connectionist temporal classfification: labelling unsegmented sequence data with recurrent neural networks. In ICML, 2006.
    [2]. Graves, Alex and Jaitly, Navdeep. Towards end-to-end speech recognition with recurrent neural networks. In Proceedings of the 31st International Conference on Machine Learning (ICML-14), pp. 1764–1772, 2014.
    [3]. Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G.,Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates,A., et al. (2014a).Deepspeech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567.
    [4]. D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos et al., “Deep speech 2: End-to-end speech recognition in english and mandarin,” CoRR arXiv:1512.02595, 2015.
    [5]. Yajie Miao, Mohammad Gowayyed, Florian Metze. EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding. 2015 Automatic Speech Recognition and Understanding Workshop (ASRU 2015) 
    [6]. A. Senior, H. Sak, F. de Chaumont Quitry, T. N. Sainath, and K. Rao, “Acoustic Modelling with CD-CTC-SMBR LSTM RNNS,” in ASRU, 2015
    [7]. I. McGraw, R. Prabhavalkar, R. Alvarez, M. Gonzalez Arenas, K. Rao, D. Rybach, O. Alsharif, H. Sak, A. Gruenstein, F. Beaufays, and C. Parada, “Personalized speech recognition on mobile devices,” in Proc. of ICASSP, 2016.
    [8]. H. Soltau, H. Liao, and H. Sak, “Neural speech recognizer: Acoustic-to-word lstm model for large vocabulary speech recognition,” arXiv preprint arXiv:1610.09975,2016.
    [9]. K. Audhkhasi, B. Ramabhadran, G. Saon, M. Picheny, D. Nahamoo, “Direct Acoustics-to-Word Models for English Conversational Speech Recognition” arXiv preprint arXiv:1703.07754,2017.

               
    展开全文
  • 端到端语音识别(四) raw wavform

    千次阅读 2017-04-20 19:55:13
    现在的端到端语音识别的第一个“端”大部分还是使用人为设定的语音特征,比如FBANK/PLP,更高级的端到端语音识别输入是语音波形,输出是文字。 近几年也有一些工作是使用神经网络(比如CNN)来学习传统的特征提取...
  • 使用手电筒自动进行端到端语音识别 免责声明: 这是一项正在进行的工作 依存关系: 笔记: 您可能需要创建才能下载适合您的CUDA版本的cuDNN。 不用担心它是免费的! :grinning_face_with_smiling_eyes: 另外,...
  • 脸书开源第一个使用卷积神经网络技术的端到端语音识别系统.pdf
  • 基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,本文提出了一种基于残差网络与双向长短时记忆网络相...
  • 讲了近些年来,端到端语音识别性能方面取得了重大改进,但缺点是不适应与边缘设备上的嵌入式使用。在本文中,我们在基于简化和压缩的Transformer模型上进行语音识别,本文通过调查抛弃特定模块的影响来引入更加紧凑...
  • 使用编码器-解码器模型在较低层具有辅助任务的端到端语音识别。 该代码仍在进行完善,准备数据文件等代码将花费更多时间。 出版物: 具有基于编码器-解码器的语音识别的低级辅助任务的多任务学习 Interspeech,...
  • 基于CTC转换器的自动拼写校正端到端语音识别 Automatic Spelling Correction with Transformer for CTC-based End-to-End ...
  • 微网 | | | | 我们一起共享神经网络。 WeNet的主要动机是缩小研究与生产端到端(E2E)语音识别... 轻巧:WeNet是专为端到端语音识别而设计的,代码简洁明了。 它全部基于PyTorch及其相应的生态系统。 它不依赖Kald
  • 本文阐述了如何利用Tensorflow编写一个基本的端到端自动语音识别(Automatic Speech Recognition,ASR)系统,详细介绍了最小神经网络的各个组成部分以及可将音频转为可读文本的前缀束搜索解码器。 虽然当下关于...
  • 端到端语音识别ESPnet2 实例 egs2列表egs2 实例概述使用方法 egs2 实例概述 一个简单的表格是这么创建的: Directory name Corpus name Task Language URL aishell AISHELL-ASR0009-OS1 Open Source ...
  • 在Tensorflow 2.0中使用RNN-Transducer进行端到端语音识别 概述 该语音识别模型基于Google的研究论文,并使用Tensorflow 2.0在Python 3中实现。 设置您的环境 要设置您的环境,请运行以下命令: git clone --...
  • 端到端语音识别(三) Sequence to Sequence and Attention
  • 提出了MASK CTC(一种新型非自回归端到端语音识别框架),自回归(Autoregressive Translation , ART)模型需要用已生成的词来预测下一个位置的词,代价比较大,非自回归模型可以在恒定的迭代次数内同时生成标记,推理...
  • 集成了Tensorflow 2版本的端到端语音识别模型,和RTF(实时率)在0.1左右 目前集成了中文的CTC \ Transducer \ LAS三种结构 当前还在开发阶段 欢迎使用并反馈bug |中文版 梅尔层 参照librosa库,用TF2实现了语音...
  • 脸书发布全新自动语音识别的卷积方法 ,以及开源目前最先进的端到端语音识别系统wav2letter++。这个自动语音识别方法使用卷积神经网络(CNN)进行声音建模和语言建模,再加上脸书一同发布的工具,让其他开发者也能...
  • 端到端语音识别系统

    千次阅读 2016-10-11 16:13:55
    传统语音识别系统需要经过提特征,声学建模(state-phoneme-triphone),语言建模系列过程,其中声学建模需要对上下文相关的音素模型进行状态聚类,对每一帧特征需要做对齐。 端到端系统主要提出了下面的
  • 端到端语音识别时代

    2019-12-17 16:21:13
    https://cloud.tencent.com/developer/news/375304
  • (Keras/Tensorflow)端到端语音识别

    千次阅读 2019-05-07 17:01:10
    本存储库用于记录我使用Keras和Tensorflow开发端到端语音识别模型的研究。 原文链接:https://github.com/igormq/asr-study/blob/master/README.md 训练基于character 的全神经巴西葡萄牙语...
  • 近日,谷歌发表博客介绍了他们对端到端语音识别模型的最新研究成果,新模型结合了多种优化算法提升 LAS 模型的性能。相较于分离训练的传统系统,新方法充分地发挥了联合训练的优势,在语音搜索任务中取得了当前业内...
  • 基于pytorch的end2end语音识别系统。 主要体系结构是 。 特征 最小依赖。 该系统不依赖外部软件进行特征提取或解码。 用户只需安装PyTorch深度学习框架。 良好的表现。 该系统包括高级算法,例如标签平滑,SpecAug...
  • 端到端语音识别的TensorFlow实现 要求 TensorFlow> = 1.3.0 tqdm> = 4.14.0 python-Levenshtein> = 0.12.0 setproctitle> = 1.1.10 海上> = 0.7.1 语料库 电话(39,48,61电话) 字符 电话(实施中) 字符 ...
  • 为在线语音识别部署端到端模型是一种挑战,提出在线基于Transformer的CTC/Attention ASR体系结构,该体系包含自我编码器(SAE),截断注意力(MTA),和自我注意力解码器(SAD),我们根据科大的普通话ASR基准评估了在线....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,858
精华内容 3,943
关键字:

端到端语音识别