精华内容
下载资源
问答
  • Wav2Letter_pytorch 使用PyTorch实现Wav2Letter。 基于架构创建网络,并接受CTC损失培训。 特征 极简主义的代码,被设计成一个白盒子-深入研究代码! 训练端到端ASR模型,包括Wav2Letter和Jasper。 使用轻松配置...
  • wav2letter ++ 重要的提示: wav2letter已被移动并整合中。 未来的wav2letter开发将在Flashlight中进行。 要构建wav2letter的旧的预合并版本,请签出版本,该版本取决于旧的版本。 可以在上找到项目。 有关wav2...
  • 自动管道为 wav2letter 训练准备一个充满(音频剪辑:转录)文件对的目录。 目前使用进行转录本对齐。 该项目是一部分。 如果你觉得这有用,。 安装 此过程在 Mac 或 Linux 计算机上效果最佳。 Debian sudo apt ...
  • Facebook 开源语音识别工具包wav2letter
  • 基于IPC的Wav2Letter +攻击 IJCAI_2020论文代码(已接受) 生成具有时间依赖性的强大音频对抗示例[] 安装 如果尚未安装,请安装PyTorch。 我们目前正在使用cuda9和python3.7在pytorch 1.1.0上实现我们的实验。 ...
  • wav2letter ++是Facebook AI Research语音团队的快速开源语音处理工具包,它是一个简单高效的端到端自动语音识别(ASR)系统。它完全用C ++编写,使用ArrayFire张量库和flashlight机器学习库来实现最高效率。该软件的...

          wav2letter ++是Facebook AI Research语音团队的快速开源语音处理工具包,它是一个简单高效的端到端自动语音识别(ASR)系统。它完全用C ++编写,使用ArrayFire张量库和flashlight机器学习库来实现最高效率。该软件的目标是促进端到端语音识别模型的研究。

         下面我们来搭建wav2letter ++开发环境。

    我的环境是ubuntu18.04,GTX1070 GPU下搭建。

    首先安装wav2letter所需要的依赖库,flashlight,arrayfire,,libsndlife,MKL,KenLM,gflags,glog,CUDA,CUDNN.CUDA安装CUDA9.2,cudnn 7.4.1.

    安装MKL 

    到英特尔官网下载https://software.intel.com/en-us/mkl MKL库,本文下载的是l_mkl_2018.0.128这个版本.

    采用tar -xvzf命令解压安装包

    图形安装执行sh install_GUI.sh

    按照提示安装即可。

    安装完成还需要配置下环境,在.bashrc设置环境:export MKLROOT=/opt/intel/mkl,设置完成执行source ~/.bashrc生效。

    安装ArrayFire

    执行 git clone https://github.com/arrayfire/arrayfire.git 

    sudo apt-get install -y build-essential git cmake libfreeimage-dev
    sudo apt-get install -y cmake-curses-gui
    sudo apt-get install libglfw3-dev libfontconfig1-dev libglm-dev
    cd / path / to / dir / arrayfire
    mkdir build &&  cd build
    cmake .. -DCMAKE_BUILD_TYPE =Release
    sudo make -j4
    
    安装libsndfile
    获取源代码 git clone git://github.com/erikd/libsndfile.git
    sudo apt install autoconf autogen automake build-essential libasound2-dev \    libflac-dev libogg-dev libtool libvorbis-dev pkg-config python
    ./autogen.sh
    ./configure --enable-werror
    sudo make -j4
    make check
    安装flashlight
    执行 git clone https://github.com/facebookresearch/flashlight.git下载源码。
    
    # in the flashlight project directory:
    mkdir -p build
    cd build
    cmake .. -DCMAKE_BUILD_TYPE=Release -DFLASHLIGHT_BACKEND=CUDA # valid backend
    make -j4  # (or any number of threads)
    sudo make install 
    安装完成。
    
    安装kenlm
    wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
    mkdir kenlm/build
    cd kenlm/build
    cmake ..
    make -j4
    
    安装wav2letter++

     下载代码 git clone https://github.com/facebookresearch/wav2letter.git

    # in your wav2letter++ directory

    mkdir -p build
    cd build
    cmake .. -DCMAKE_BUILD_TYPE=Release -DW2L_CRITERION_BACKEND=CUDA # Replace backend with CUDA or CPU
    sudo make -j4 # (or any number of threads) 自此安装完毕.     

    wav2letter++训练模型    

    准备数据

    首先数据进行预处理.

     

    到这个网站http://www.openslr.org/12/下载LibriSpeech语料数据集。

    python3 prepare_data.py --src /data/aiwork/data/LibriSpeech/ --dst cleaned_data  (对应训练数据路径)

    python3 prepare_lm.py --dst cleaned_data

    为了使用wav2letter ++训练语音识别模型,我们通常期望以下输入

    • Audio and Transcriptions data
    • Token dictionary
    • Lexicon
    • Language Model

    每个样本将有4个相应的文件

    • .flac/.wav - 音频文件。使用-inputflag 指定扩展名。
    • .wrd - 包含转录的单词文件。
    • .tkn - 令牌文件。使用-targetflag 指定扩展名。
    • .id - 文件的标识符。每一行都是由制表符分隔的键值对

    训练声学模型

    train.cfg文件中的[...]替换成自己机器的本地路径。

    执行/data/aiwork/wav2letter/build/Train train --flagsfile /data/aiwork/wav2letter/tutorials/1-librispeech_clean/train.cfg开始训练声学模型。大概跑了7-8个小时,训练完成。

    解码

    decode.cfg文件中的[...]替换成自己机器的本地路径。

     

    执行/data/aiwork/wav2letter/build/Decoder --flagsfile /data/aiwork/wav2letter/tutorials/1-librispeech_clean/decode.cfg
    进行解码。

    解码完成.

     

    展开全文
  • Open sourcing wav2letter++, the fastest state-of-the-art speech system, and flashlight, an ML library going native 原文介绍:https://code.fb.com/ai-research/wav2letter/ 主要介绍了使用CNN来实现语音...

    Open sourcing wav2letter++, the fastest state-of-the-art speech system, and flashlight, an ML library going native

    原文介绍:https://code.fb.com/ai-research/wav2letter/

     

    主要介绍了使用CNN来实现语音识别的方法

     

    WHAT THE RESEARCH IS:

    A new fully convolutional approach to automatic speech recognition and wav2letter++, the fastest state-of-the-art end-to-end speech recognition system available. The approach leverages convolutional neural networks (CNNs) for acoustic modeling and language modeling, and is reproducible, thanks to the toolkits we are releasing jointly.

    HOW IT WORKS:

    CNN architectures are competitive with recurrent architectures for tasks in which modeling long-range dependencies is important, such as language modelingmachine translation, and speech synthesis. In end-to-end speech recognition, however, recurrent architectures are still more prevalent for both acoustic and language modeling.

    The Facebook AI Research (FAIR) Speech team is sharing the first fully convolutional speech recognition system. From the waveform to the final word transcription, the learnable parts of the system are composed only of convolutional layers. This yields performance that’s competitive with that of recurrent architectures.Facebook AI Research (FAIR) Speech is sharing the first fully convolutional speech recognition system. From the waveform to the final word transcription, the learnable parts of the system are composed only of convolutional layers. This yields performance that's competitive with recurrent architectures.

    We are also releasing flashlight, a fast, flexible standalone machine learning library designed by the FAIR Speech team and the creators of Torch and DeepSpeech. It features just-in-time compilation with modern C++, targeting both CPU and GPU backends for maximum efficiency and scale. The wav2letter++ toolkit is built on top of flashlight. We are releasing both frameworks jointly with this research to enable reproducibility.

    WHY IT MATTERS:

    End-to-end speech recognition makes it easy to scale to multiple languages. Also, learning directly from raw speech is a promising avenue in settings where audio quality is highly variable. High-performance frameworks such as wav2letter++ enable fast iteration, which is often an important factor in successful research and model tuning on new data sets and tasks.

    READ THE FULL PAPERS:

    Wav2letter++: The fastest open source speech recognition system and Fully Convolutional Speech Recognition

     

    知乎: https://zhuanlan.zhihu.com/albertwang

    微信公众号:AI-Research-Studio

    https://img-blog.csdnimg.cn/20190110102516916.png ​​

    下面是赞赏码

     

     

    展开全文
  • WAV2LETTER++: THE FASTEST OPEN-SOURCE SPEECH RECOGNITION SYSTEM 论文原文
  • wav2letter是一个快速开源的语音识别工具集,是由facebook ai 研究所的语音团队开发,通过End to End(端到端)的ai模型,旨在实现Lexicon-free(无字典)语音识别的目标。 主要参考两篇中文的安装介绍: Building...

    wav2letter是一个快速开源的语音识别工具集,是由facebook ai 研究所的语音团队开发,通过End to End(端到端)的ai模型,旨在实现Lexicon-free(无字典)语音识别的目标。

    主要参考两篇中文的安装介绍:
    Building wav2letter++ 安装依赖 https://www.jianshu.com/p/50a3100a5bca
    开源自动语音识别系统wav2letter (附实现教程) https://blog.csdn.net/mazegong/article/details/79422816
    因为本机没有nvdia的显卡,在安装mkldnn的时候参考了
    intel mkldnn 安装及使用说明 https://www.cnblogs.com/qccz123456/p/11497006.html
    安装过程遇到了很多问题,包括被迫升级16.04,由于安装目录找不到,环境变量没有设置等,cmake不过去,但结合国内外网站玩家指引,大都能搞过去。但穷用不起显卡来学习,希望安装mkl和mkl dnn库的时候遇到了很多坑,走了比较多的弯路,幻想用cuda的亲们肯定么有这么郁闷。

    实际上安装mkldnn是最坑的事情,目前github上最新的更名为Deep Neural Network Library (DNNL),如果默认安装上的话,等到装flashlight会报错误,而且是找不到libmkldnn.so的错误,因为新的命名方式改变了,所以需要回退到之前,又报对象定义的错误,折腾了几次,确认v0.20.3可以顺利编译通过了。吐槽一下intel升级的太狠了,自嘲一下穷人把五菱宏光当法拉利来开,就得忍受一下,谁让洛阳纸贵,现在nvdia的显卡就是当前的洛阳宣纸吧。

    总体来说,这个应用集依赖很多,安装起来有点费劲,建议prefix之类的宏尽量不用,除非你很熟悉linux。

    附上不完全安装的依赖应用。

    arrayfire
    ArrayFire-v3.6.4_Linux_x86_64.sh
    boost_1_64_0
    flashlight
    glog
    gloo
    googletest
    intel_sdk_for_opencl_applications_2019.4.314
    kenlm
    libsndfile
    luajit-rocks
    mkl-dnn
    old-mkldnn(回退v0.20.3)
    openmpi-2.1.2
    openmpi-4.0.1
    tbb
    wav2letter
    xz-5.2.4
    

    环境变量参考:

    export PATH=/opt/intel/bin:$PATH
    export MKL_INC_DIR=/opt/intel/mkl/include
    export INTEL_DIR=/opt/intel/lib/intel64
    export MKL_DIR=/opt/intel/mkl/lib/intel64
    export LD_LIBRARY_PATH=/opt/intel/lib/intel64:/opt/intel/mkl/lib/intel64:/usr/lib/openmpi/lib:$LD_LIBRARY_PATH
    export CMAKE_LIBRARY_PATH=$LD_LIBRARY_PATH
    export CMAKE_INCLUDE_PATH=$CMAKE_INCLUDE_PATH:$MKL_INC_DIR
    export PATH=/opt/software/xz/bin:$PATH
    export MKLROOT=/opt/intel/mkl
    export MPI_CXX_COMPILER=$HOME/usr/bin/mpicxx
    export MPI_CXX_LIBRARIES=$HOME/usr/lib/openmpi/lib
    export MPI_CXX_INCLUDE_PATH=$HOME/usr/include/openmpi/include
    export KENLM_ROOT_DIR=/home/machinelearning/kenlm
    source /usr/share/linux_intel64_gcc_cc5.4.0_libc2.23_kernel4.4.0_release/tbbvars.sh
    

    https://github.com/facebookresearch/wav2letter/blob/master/docs/installation.md
    从git hub上收集的apt-get软件依赖。

    sudo apt-get update
    sudo apt-get install \
        # Audio encoding libs for libsndfile \
        libasound2-dev \
        libflac-dev \
        libogg-dev \
        libtool \
        libvorbis-dev \
        # FFTW for Fourier transforms \
        libfftw3-dev \
        # Compression libraries for KenLM \
        zlib1g-dev \
        libbz2-dev \
        liblzma-dev \
        libboost-all-dev \
        # gflags \
        libgflags-dev \
        libgflags2v5 \
        # glog \
        libgoogle-glog-dev \
        libgoogle-glog0v5 \
        ```
        
    
    展开全文
  • WAV2LETTER ++:最快的开源语音识别系统 Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve,Vitaliy Liptchinsky, R...

                                                                           WAV2LETTER ++:最快的开源语音识别系统

    Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve,Vitaliy Liptchinsky, Ronan Collobert

                                                                                           Facebook AI研究

    原文请参见:https://arxiv.org/abs/1812.07625  因译者才疏学浅,偶有纰漏,望不吝指出。

    本内容由灵声讯音频-语音算法实验室整理翻译,转载和使用请与灵声讯联系,联系方式:音频/识别/合成算法QQ群(696554058

     

    本文介绍了最快的开源深度学习语音识别框架wav2letter ++。wav2letter++的代码全是用C++编写,同时为了最大提升效能使用了Array Fire 张量计算库。 在这里我们将要说明这个系统架构和设计,并与其他一些主流的开源语音识别系统做比较。 在某些情况下,wav2letter ++训练时长比其他端到端的神经网络语音识别框架快两倍以上。 同时,我们还展示了具有1亿个参数的模型的wav2letter++在64 GPU上的训练时间,这可是我们测试的最高值。高性能框架可实现快速迭代,对其至关重要的一个因素是在新的数据集和新任务上的成功研究和模型调整。

    关键词: 语音识别,开源软件,端到端

    1.引言

    随着对自动语音识别(ASR)兴趣的日益增长,开源软件生态系统已经看到了ASR系统和工具库的使用寿命,包括Kaldi [1],ESPNet [2],Open Seq2Seq [3]和Eesen [4]。在过去十年里,这些框架已完成从传统的基于隐马尔可夫模型(HMM)到高斯混合模型(GMM),再到基于神经网络端到端系统的转换。近期许多开源的ASR工具库,包括本文中已提到的,都依赖于基于字的端到端声学建模而非音素。这样转变的内在原因是两方面的:一是端到端模型比其他模型明显更简单,二是在准确率方面与HMM / GMM等系统的差距也越来越小。C ++是世界上第三大流行的编程语言, 它允许用于完整的资源控制,以实现高性能和关键的任务系统。此外,静态类型有助于在大型项目编译时捕获任意错误。而且,本地库可以很容易被其他编程语言所调用。但是,在机器学习中采用C ++,由于在主流框架中缺乏定义明确的C ++ API而停滞不前,同时C ++也更多是被用于高性能核心组件。随着代码量越来越大,在脚本语言和C ++之间来回传递数据也变得麻烦且容易出错。尽管它提供了足够多的库,但是在目前用C ++开发要比脚本语言慢得多。在本文中,我们介绍了第一个完全用C++编写的开源语音识别系统。通过使用C ++,我们做到了不牺牲编程的简易性,同时还要保证能编写高效且可扩展的软件。在这项工作中,我们专注于ASR系统的技术方面,例如训练和解码速度,以及可扩展性等。本论文的其余部分结构如下:在第二节中,我们讨论了wav2letter ++的设计;在第三节中,我们简要地讨论了其他现有的主流开源系统,在第四节中对以上架构的性能做了比较。

    2.设计

    wav2letter ++的设计受三方面的驱动。首先,对于成千上万小时的数据集,能够尽可能高效的训练模型。第二,表示和整合新的网络架构,损失函数和其他核心操作应该很简单。第三,从模型研究到部署的流程应该是简便的,需要尽可能少的新代码,同时保持研究所需的灵活性。

    2.1  Array Fire(高性能并行计算库)

    我们使用Array Fire作为张量计算的主要库,选择Array Fire是有以下几个原因的。Array Fire是一个高度优化的张量库,它可以在多个后台上运行,包括CUDA GPU后台和CPU后台。 它还可以即时生成代码,将一系列简单操作组合到单个内核中调用。这样使得内存带宽占用的执行速度更快,以减少峰值内存的占用。Array Fire的另一个重要的特点是构造的接口简单,对阵列操作也很简单。与其他支持CUDA的 C++张量库相比较,Array Fire接口更加简洁,且对C ++特性的依赖更少。

                                                    

                                                                                         图1. wav2letter ++架构

    2.2 数据准备和特征提取

    我们的特征提取支持多种音频文件格式(例如wav,flac ...... / 单声道,双声道 / 整型,浮点型)和多种特征类型,如raw,线性功率谱,梅尔对数谱(MFSC)和梅尔倒谱系数(MFCC)。我们用FFTW库来计算离散傅立叶变换。在wav2letter ++中对加载的数据求特征之前,会对每一个网络进行评估。这使得探测替代特征更简单,也允许动态数据加载。也使从完整的端到端管道开始,更容易从单个二进制文件运行来使用模型。为了使高效率训练模型,我们从加载和解码音频数据,到计算特征计都是异步和并行的。对于我们测试的模型和样本集,数据加载所花费的时间是可以忽略不计的。

    2.3 模型

    我们支持多种端到端模型。每个模型都可以分为网络和标准两部分。网络只是输入的函数,而标准是输入和目标转换的函数。网络总是有参数,但标准的参数是可选的。这种思路允许我们使用相同的训练通道很容易训练不同的模型。该支持的标准包括CTC模型,原来的wav2letter Auto Seg Criterion(ASG)模型,以及基于注意力机制的S2S模型(S2S)。 CTC标准没有参数,而ASG和S2S标准都有可以被学习的参数。此外,我们注意到添加诸如损失函数一样的序列标准特别容易,就类似于ASG和CTC可以在C++中有效地实现。我们支持广泛的网络架构和活动函数-这里可以列出太多了。对于某些标准操作,

                                     

                                                              图2. 示例:使用自动微分,使用二元交叉熵和SGD训练的一个隐藏层MLP

     

    我们扩展Arrary Fire CUDA后台更多高效的DNN操作。使用一维和二维概念以及有cuDNN的RNN例程。由于我们使用的网络库提供动态图形构建和自动区分,构建新层或其他原始操作需要很少的努力。同时也举例说明如何构建和训练具有二进制交叉熵损失的单层MLP(图2),以演示C ++接口的简单性。

    2.4 训练和规模

    我们的训练通道为用户提供了最大的灵活性,可以尝试不同的功能,架构和优化参数。训练可以以三种模式进行 - 训练(平坦训练),继续(继续检查点状态)和分叉(例如转学习)。我们支持标准优化算法,包括SGD和其他常用的基于一阶梯度的优化器。我们将wav2letter ++扩展为具有数据并行,同步SGD的更大数据集。对于进程间通信,我们使用NVIDIA集体通信库2(NCCL2)。为了最大限度地减少进程之间的等待时长并提高单个进程的效率,我们在构建用于训练的批处理之前对输入长度的数据集进行了排序。

    2.5 解码

    wav2letter ++解码器是一种波束搜索解码器,具有多种优化功能以便能提高效率[13]。我们使用与文献[13]相同的解码目标,其中包括语言模型和单词插入约束。解码器接口接受来自声学模型的导入和(如果相关)转换作为输入。 我们还给解码器一个包含单词字典和语言模型的Trie。 我们支持任何类型的语言模型,它公开我们的解码器所需的接口,包括n-gram 语言模型和任何其他无状态参数的语言模型。 我们基于KenLM为n-gram语言模型提供了一个轻量封装模型[14]。

     

                                  

                                                                                            表1.主流的开源语音识别系统

    3.相关工作

    我们简述了其他常用的开源语音识别系统,包括Kaldi [1],ES-PNet [2]和OpenSeq2Seq [3]。 Kaldi语音识别工具库是迄今为止最早,它由一组独立的命令行工具组成。Kaldi支持HMM / GMM和基于混合HMM / NN的声学建模,并包括基于音素的组合。端到端语音处理工具库(ESPNet)[2]与Kaldi紧密相连,并将其用于特征提取和数据预处理。ESPNet使Chainer [15]或PyTorch [16]作为训练声学模型的后台。它主要是用Python编写的,但是,遵循Kaldi的编码风格,高级工作流以bash脚本表示。在鼓励系统组件分离的同时,这种方法缺乏静态类型的面向对象编程语言在表达类型时的安全性,以及可读性和直观的接口方面的优势。 ESPNet以基于CTC和基于注意力机制的编解码器[10]实现以及结合两种标准的混合模型为特色。OpenSeq2Seq类似于ESPNet,它具有基于CTC和编码器 - 解码器模型的特征,并且使用Tensor-Flow [17]而不是PyTorch作为后台,用Python编写。对于高级工作流,OpenSeq2Seq还依赖于调用Perl和Python脚本的bash脚本。 OpenSeq2Seq系统的一个显着特点是它支持混合精度训练。此外,ESPNet和OpenSeq2Seq都支持语音合成(TTS)模型。表1描述了这些开源语音处理系统的分类。如表所示,wav2letter ++是唯一完全用C ++编写的框架,它(i)可以轻松集成到以任何编程语言虚拟实现的现有应用程序中;(ii)通过静态类型和面向对象编程更好地支持大规模开发; (iii)允许最高效率,如第4节所述。相比之下,动态类型语言(如Python)促进快速原型设计,但缺乏强制静态类型通常会阻碍大规模开发。

                                  

                                                       图3. 训练中主要步骤的毫秒级时长,针对整个数据集的多次平均结果

    4.实验

    在本节中,我们将在比较研究中讨论ESPNet,Kaldi,OpenSeq2Seq和wav2letter ++的性能。 ASR系统是根据华尔街日报(WSJ)数据集[18]的大词汇量任务进行评估的。我们测量了WSJ在训练期间的平均时间和平均语音解码延迟时间。我们用于实验的机器具有以下硬件配置:每台机器在NVIDIA SXM2模块上配备8个NVIDIA Tesla V100 Tensor Core GPU,内存为16GB。每个计算节点都有2个Intel Xeon E5-2698 v4 CPU,支持40(2 20)个内核,80个硬件线程(“内核”),2.20GHz。所有机器都通过100Gbps的In-finiBand网络连接。

    4.1训练

    我们评估了扩展网络参数和增加GPU使用数量的训练时间,也考虑了两种类型的神经网络架构:循环结构,具有三千万个参数,或者纯卷积,具有一亿个参数,分别如图4的顶部和底部图表所示。对于OpenSeq2Seq,我们考虑float32以及混合精度float16训练。对于两个网络,我们使用40维log-mel滤波器组作为输入,并使用CTC [7]作为标准(基于CPU的实现)。对于Kaldi,我们使用LF-MMI [19]标准,因为标准Kaldi组件中没有CTC训练。所有模型均采用SGD进行训练。我们使用每个GPU 上跑4个批量大小的数据。每次运行仅限于为每个GPU使用5个CPU内核。图3更详细地介绍了训练管道的主要组成部分,使用单个GPU在整个迭代上平均处理时间。对于这两种模型,wav2letter ++具有明显的优势,随着我们扩展计算而增加。对于具有3000万个参数的小模型,wav2letter ++比下一代最佳系统快了15%以上,即使在单个GPU上也是如此。请注意,由于我们使用8台GPU机器,因此对16,32和64 GPU的实验涉及多节点通信。ESPNet不支持开箱即用的多节点训练。我们通过将PyTorch DistributedDataParallel模块与NCCL2后台一起使用来扩展它。 ESPNet依赖于预先计算的输入功能,而wav2letter ++和OpenSeq2Seq为了灵活性而动态地计算功能。在某些情况下,混合精确训练会使OpenSeq2Seq的迭代时间减少1.5倍以上。这是wav2letter ++可以在未来受益的优化。LF-MMI的Kaldi方案不会同步每个SGD更新的梯度; perepoch时间仍然慢20倍以上。我们在图4中没有包括Kaldi,因为标准(LF-MMI)和优化算法不容易比较。

     

                                    

                                       

    图4 训练时间的比较(对数标度)。 top:具有30000参数的RNN,受DeepSpeech 2 [12]的启发:2个空间卷积层,接着是5个双向LSTM层,接着是2个线性层。 bottom:具有100000参数的CNN,类似于文献[13]:18个时序卷积层,后面接1个线性层

                                                 

                                                                                     表2. Libri Speech dev-clean上的解码性能

    4.2解码

    wav2letter ++包括一个用C ++编写的单程波束搜索解码器(参见第2.5节)。我们将其与OpenSeq2Seq和ES-PNet中提供的其他波束搜索解码器进行对比。但Kaldi不包括在内,因为它不支持CTC解码,并且实现了基于WFST的解码器。我们为每个解码器提供相同的预先计算的引导,这些引导是由在LibriSpeech上训练的完全卷积的OpenSeq2Seq模型Wave2Letter + 3生成的。这样可以在相同模型下独立测量性能。4-gram LibriSpeech语言模型用于OpenSeq2Seq和wav2letter ++,因为ESPNet不支持n-gram 语言模型解码。在表2中,我们报告解码时间和峰值内存使用情况,单线程解码,LibriSpeech dev-clean达到5.0%的WER,以及每个框架的最佳可用WER。对超参数进行了大量调整,以便报告的结果反映了报告中所提WER的最佳速度。wav2letter ++不仅比同类解码器的性能高出一个数量级,而且使用的内存也少很多。

     

    5.结论

    在本文中,我们介绍了wav2letter ++:快速而简单用于开发端到端语音识别的系统。该框架完全用C ++编写,这使得它能够高效训练模型并执行实时解码。尽管我们的初步实现展示了与其他识别框架对比的结果,但是wav2letter ++可以可以从持续优化中变得更好。因为wav2letter ++简单易用的接口,它非常适合作为一个快速研究端到端语音识别的平台。与此同时,我们对使用基于Python的ASR系统可以实现优化减小wav2letter ++差距的可能性保持开放。

     

     

                                                                                                                                                                              灵声讯

                                                                                                                                                                     译于:2019-03-08

     

     

     

    翻译注:

    Batch size中文翻译为批大小(批尺寸)。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练;

    iteration中文翻译为迭代,1个iteration等于使用batchsize个样本训练一次;一个迭代 = 一个正向通过+一个反向通过

    epoch迭代次数,1个epoch等于使用训练集中的全部样本训练一次;一个epoch = 所有训练样本的一个正向传递和一个反向传递

    举个例子,训练集有1000个样本,batchsize=10,那么:训练完整个样本集需要:100次iteration,1次epoch。

      

    展开全文
  • Ubuntu 18.04 GPU环境安装wav2letter++前言MKLBoostXZZlibbziplibbz2-devEigen3kenlmgflagsgloggoogle testfftwopuslibsndfileCUDACUDNNArrayFireNCCLOpenMPIGlooflashlightwav2letter++ 前言 Facebook 人工智能研究...
  • facebook开源语音识别框架wav2letter++环境搭建

    千次阅读 热门讨论 2019-03-19 15:32:38
    这次是因为公司需要做语音识别,采用wav2letter开源框架,所以在linux下搞一搞,如果有不对的地方还请指正。 先说下电脑配置: OS: Ubuntu16.04 GPU:Nvidia GTX 1060 5GB CPU : intel i7 os:ubuntu18.04 GTX1080...
  • 这是一款简单高效的端到端自动语音识别(ASR)系统,wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated Con
  • 查看原文https://www.infoq.cn/article/BK9LZ7b4txmsOTCQ-vLm Wav2Letter 的核心是个声学模型,就像我们也许已经猜到的那样,它可以预测声波中的字母
  • wav2letter中提取语音属性的代码 前文中已经对比了三种语音识别平台关于语音特性提取的代码框架和大致结构,因为wav2letter的代码整洁易懂,同时又调用了cblas和fftw两个外部的库提高矩阵和fft的运行效率,比较...
  • 第一次训练w2l,遇到了一些软件依赖的问题。记录一下,以备后查。 在wav2letter和libsndfile之间的依赖问题上卡壳了很久,浪费了很多时间。
  • 近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++。系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多。他们在博客中对此次开源进行了...
  • 本文由 「AI前线」原创,原文链接:Facebook开源端到端自动语音识别系统wav2letter译者|薛命灯编辑|Nataliewav2letter 是由 Facebook AI 研究团队开源的一款简单而高效的端到端自动语音识别系统,它实现了在 ...
  • 语音识别之Wav2Letter(译)

    千次阅读 2018-05-30 23:55:05
    Wav2Letter: an End-to-End ConvNet-based Speech Recognition SystemAbstract: 本文提出了一种简单的端到端语音识别模型,它结合了基于卷积网络的声学模型和图译码。 训练它输出字母和转录语音,不需要把音节强制...
  • 近日,Facebook AI 研究院开源了端到端语音识别系统 wav2letter,本文是该架构的论文实现,读者可据此做语音转录。 GitHub 地址:https://github.com/facebookresearch/wav2letter
  • wav2letter++全卷积语音识别框架

    千次阅读 2018-12-27 09:29:23
    最近,Facebook的AI研究中心(FAIR)发表的一个研究论文,提出了一种新的单纯基于卷积神经网络(Convolutional Neural Network)的语音识别技术,而且提供了开源的实现wav2letter++,一个完全基于卷积模型的高性能的...
  • 最近,Facebook AI Research(FAIR)宣布了第一个全收敛语音识别工具包wav2letter++。该系统基于完全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的两倍以上。他们在博客中详细介绍了这个开源...
  • wav2letter 是由 Facebook AI 研究团队开源的一款简单而高效的端到端自动语音识别系统,它实现了在 WavLetter:an End-to-End ConvNet-based Speed Recognition System 和 Letter-Based Speech Recognition with ...
  • 雷锋网 AI 科技评论按:近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++。系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多。他们在...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,096
精华内容 438
关键字:

wav2letter