kaldi语音识别_kaldi语音识别实战pdf下载 - CSDN
  • 语音识别 kaldi 的安装

    万次阅读 多人点赞 2020-08-10 22:16:45
    这3篇博客主要是总结了两种用kaldi进行中文语音识别的方法,并详细的写了如何编译安装kaldi、相关模型的训练、导入和相关环境配置。算是自己近期学习的一个总结,也希望可以帮助到需要的人。 另外两篇的地址 kaldi...

    本篇博客主要记录了我编译安装kaldi的过程,算是自己近期学习的一个总结,也希望可以帮助到需要的人。

    kaldi是什么

    kaldi是一个用C++写的语音识别工具包。kaldi旨在供语音识别研究员使用。当然,kaldi也可以用作声纹识别。关于他的详细介绍可以访问kaldi的官方文档

    kaldi与中文语音识别

    感谢很多大神与科研工作者在kaldi上开源了他们的数据集和训练模型,让我这样的小白可以站在巨人的肩膀上前行。目前我所了解到有3个开源的中文语音识别例子。

    1. 清华大学开源的thchs30数据集(疯狂为CSLT打电话~~~)
    2. CVTE公司开源的CVTE Mandarin Model模型
    3. Beijing Shell Shell Technology公司开源的aishell数据集

    如果有同学知道其他的数据集or模型,中英文皆可,欢迎联系我补充啊~

    编译与安装kaldi

    注意:为了提高训练的速度,kaldi最好安装在GPU云服务器下。如果没有服务器话,使用虚拟机应该也是可以的,但一定要分配足够的内存空间和存储空间。下面我就以我使用的centos服务器为例,介绍kaldi的编译与安装。

    编译与安装大概分为3步

    1. 安装git、下载kaldi的源码
    2. 安装编译所需依赖包
    3. 配置、编译kaldi

    1.kaldi的下载

    kaldi的所有源码开源在了GitHub上,可以直接git下载到服务器上,首先得确保服务器上安装了git,如果没有安装的话,就先安装git

    sudo yum install git -y
    

    接着git clone下载kaldi

    git clone https://github.com/kaldi-asr/kaldi.git
    

    下载完成kaldi源码后,我们将得到如下一个文件结构的目录。

    kaldi/
    ├── COPYING
    ├── egs/				//egs目录里存放了使用kaldi完成的开源语音识别/声纹识别项目
    ├── INSTALL				//编译安装kaldi的指导
    ├── misc/
    ├── README.md
    ├── scripts/
    ├── src/				//src文件夹里存放了kaldi源码
    ├── tools/				//tools文件夹里存放了语音处理的工具包
    └── windows/				//windows文件夹存放了在windows下编译安装kaldi的文件
    

    2.安装编译所需要的依赖包

    编译之前需要确操作系统中安装有如下包

      subversion
      automake
      autoconf
      libtool
      g++
      zlib
      libatal
      wget
      sox
    

    首先进入到kaldi/tools目录下,接着在调用check_dependencies.sh脚本检查系统中的包是否安装完全

    cd kaldi/tools
    extras/check_dependencies.sh
    

    如图所示,这个shell脚本会提示系统需要安装的包,按照提示安装即可。

    img

    安装完成后再次运行这个脚本,如果提示OK就可以开始进行kaldi的编译。

    3.编译kaldi

    首先编译tools,在在kaldi/tools目录下输入

    make
    

    我使用的服务器是i7有8个核心,因此输入make -j 8可以使用8个核心一起编译,加快编译速度。

    之后转到kaldi/src目录下,输入如下命令

    cd ../src
    

    在src目录下首先要运行configure进行配置,由于每个人的cuda版本、安装路径不一定相同,所以这里需要根据自己的服务器情况进行修改,如下是我的configure配置方案,仅供参考。

    ./configure --static \
                --use-cuda=yes \
                --cudatk-dir=/home/zy/cuda/cuda-8.0 \
                --mathlib=OPENBLAS \
                --openblas-root=../tools/OpenBLAS/install \
                --threaded-math=no \
                --static-math=yes \
                --static-fst=yes \
                --fst-root=../tools/openfst
    

    配置完成后,就可以进行src的编译了

    make depend
    make
    

    同样,如果是多核CPU的话,你可以使用make depend -j 8make -j 8加快编译速度

    完成后会有提示成功和失败,结束make后就算完成了kaldi的编译与安装了~


    参考资料:

    1. CSDN博客:Kaldi的下载安装与编译
    2. kaldi-ctc的安装、编译、测试
    展开全文
  • 语音识别工具箱之kaldi介绍

    万次阅读 多人点赞 2013-12-04 19:40:08
    我对kaldi的了解也就是语音识别+深度学习。如果不是kaldi有dnn模型,或许我更愿意用htk吧。其实,基本的都差不多吧。kaldi可以说是更加丰富吧。本来准备开题开语音识别,但是由于导师的反对,不得不做现在的歌曲人声...

          最近有几个人在群里问我kaldi的问题,不巧的是最近我在忙我的开题。我对kaldi的了解也就是语音识别+深度学习。如果不是kaldi有dnn模型,或许我更愿意用htk吧。其实,基本的都差不多吧。kaldi可以说是更加丰富吧。本来准备开题开语音识别,但是由于导师的反对,不得不做现在的歌曲人声分离。进入到这个新的领域,我不得不怀疑自己的学习能力,现在的我变的不淡定了。很久没有写博文,也许很忙,也许自己懒……等开题结束,我应该好好规划吧。此外,学长要和我在kaldi上用深度学习模块做下汉语的语音识别。等做好了,我一定会公开给大家。

          现在先说说kaldi的安装吧。我一般都会在虚拟机上弄。大家在实现前的平台可以是物理机或者虚拟机。然后大家安装网上的教程安装好linux。我就从安装好平台开始把。前一段时间,我根据http://kaldi.sourceforge.net/install.html中下载的时候有install.sh文件。安装时直接就./install.sh,然后make就可以了。但是今天我重新下载时就直接make就可以了。具体步骤:

                             1. svn co svn://svn.code.sf.net/p/kaldi/code/trunk kaldi-trunk

                             2.到tools文件夹下,直接make就可以了。

       你安装的时候最好看下tools里的install文档,里面说的很清楚。如果不出意外,基本就安装好了。如果你想实验下自己到底安装成功没,那就来个例子吧。

       下面的是例子。kaldi里的例子很多,在egs目录下。因为数据库的原因,一般可以做些简单的实验把。如果你有大量的数据库,如果愿意跟我分享,那我就非常感谢你了。里面的wsj数据库是LDC的。一般大家可以做timit和yesno实验。下面我演示下yesno实验,希望你可以学到更多吧。

        步骤和结果如下:

    1. 把waves_yesno.zip.gz复制到yesno/s3目录下,然后使用
    sudo yumzip  waves_yesno.zip.gz
    tar –xvf  waves_yesno.tar
    2.运行./run.sh。
     测试呈现在linux上的结果:
    book@book-desktop:~/kaldi-trunk/egs/yesno/s3$ sudo ./run.sh
    [sudo] password for book:
    Data preparation succeeded
    Dictionary preparation succeeded
    Preparing train and test data
    Preparing word lists etc.
    fstaddselfloops 'echo 4 |' 'echo 4 |'
    Preparing language models for test
    arpa2fst - 
    \data\
    Processing 1-grams
    Connected 0 states without outgoing arcs.
    fstisstochastic data/lang_test_tg/G.fst
    1.20397 0
    Succeeded in formatting data.
    Succeeded creating MFCC features for train_yesno
    Succeeded creating MFCC features for test_yesno
    Computing cepstral mean and variance statistics
    Initializing monophone system.
    Compiling training graphs
    Aligning data equally (pass 0)
    Pass 1
    Aligning data
    Pass 2
    Aligning data
    Pass 3
    Aligning data
    Pass 4
    Aligning data
    Pass 5
    Aligning data
    Pass 6
    Aligning data
    Pass 7
    Aligning data
    Pass 8
    Aligning data
    Pass 9
    Aligning data
    Pass 10
    Aligning data
    Pass 11
    Pass 12
    Aligning data
    Pass 13
    Pass 14
    Aligning data
    Pass 15
    Pass 16
    Aligning data
    Pass 17
    Pass 18
    Aligning data
    Pass 19
    Pass 20
    Aligning data
    Pass 21
    Pass 22
    Pass 23
    Aligning data
    Pass 24
    Pass 25
    Pass 26
    Aligning data
    Pass 27
    Pass 28
    Pass 29
    Aligning data
    Pass 30
    Pass 31
    Pass 32
    Aligning data
    Pass 33
    Pass 34
    Pass 35
    Aligning data
    Pass 36
    Pass 37
    Pass 38
    Aligning data
    Pass 39
    1 warnings in exp/mono0a/log/update.3.log
    1 warnings in exp/mono0a/log/update.7.log
    Done
    fstminimizeencoded 
    fstdeterminizestar --use-log=true
    fsttablecompose data/lang_test_tg/L_disambig.fst data/lang_test_tg/G.fst
    fstisstochastic data/lang_test_tg/tmp/LG.fst
    1.20412 -2.34608e-05
    warning: LG not stochastic.
    fstcomposecontext --context-size=1 --central-position=0 --read-disambig-syms=data/lang_test_tg/tmp/disambig_phones.list --write-disambig-syms=data/lang_test_tg/tmp/disambig_ilabels_1_0.list data/lang_test_tg/tmp/ilabels_1_0
    fstisstochastic data/lang_test_tg/tmp/CLG_1_0.fst
    1.20412 -2.34608e-05
    warning: CLG not stochastic.
    make-h-transducer --disambig-syms-out=exp/mono0a/graph_tgpr/disambig_tid.list --transition-scale=1.0 data/lang_test_tg/tmp/ilabels_1_0 exp/mono0a/tree exp/mono0a/final.mdl
    fstminimizeencoded 
    fsttablecompose exp/mono0a/graph_tgpr/Ha.fst data/lang_test_tg/tmp/CLG_1_0.fst
    fstdeterminizestar --use-log=true
    fstrmsymbols exp/mono0a/graph_tgpr/disambig_tid.list
    fstrmepslocal 
    fstisstochastic exp/mono0a/graph_tgpr/HCLGa.fst
    1.20412 -2.34608e-05
    HCLGa is not stochastic
    add-self-loops --self-loop-scale=0.1 --reorder=true exp/mono0a/final.mdl
    Decoding with num-jobs = 1

     

    简单吧。其实很简单。那个waves_yesno.zip.gz数据可以在http://sourceforge.net/projects/kaldi/files/上下载。里面还有些其他的数据。此外,有时不需要下载,run.sh里就帮你做好了。所以我上面的步骤也许就不一样。你在实验前可以看下里面的说明文档。

       当然,学习kaldi最重要的资料就是http://kaldi.sourceforge.net/index.html。全是英文,而且很多。也许由于没有htk有名或者是最新的开源程序的原因,他的中文资料很少,可以说基本没有吧。希望有志之士能够翻译的话记得跟我分享。呵呵……

       还有,如果大家做研究的话timit就可以吧,你也可以去voxforge上去收集更多的资料。

       写这个博文,希望可以帮助大家解决一些问题。如果大家遇到什么问题,可以找我。希望在我们的共同学习下能够学到更多的东西。谢谢你的阅读……

    展开全文
  • 语音识别kaldi

    2018-12-26 10:28:37
    转记一篇关于语音识别的入门...kaldi是使用c++写的语音识别的工具,apache 授予了v2.0的证书(果真应验,apache旗下无弱将)。kaldi旨在供语音识别研究员使用。   =========== 声 变 文======== 文 合成 音 ====...

    转记一篇关于语音识别的入门教程,https://www.zhihu.com/question/65516424  

    kaldi是什么

    kaldi是使用c++写的语音识别的工具,apache 授予了v2.0的证书(果真应验,apache旗下无弱将)。kaldi旨在供语音识别研究员使用。

     

    =========== 声 变 文======== 文 合成 音 ====

    展开全文
  • Kaldi 语音识别基础教程

    千次阅读 2019-02-19 23:30:48
    Kaldi 是一款语音识别工具,可以快速训练语音识别模型。Kaldi 主要是用 C++ 编写,是用 Shell、Python 和 Perl 来作为胶水进行模型训练,并且 Kaldi 是完全免费开源的。 Kaldi 语音识别模型的快速构建,具有大量语音...

    Kaldi 是一款语音识别工具,可以快速训练语音识别模型。Kaldi 主要是用 C++ 编写,是用 Shell、Python 和 Perl 来作为胶水进行模型训练,并且 Kaldi 是完全免费开源的。

    Kaldi 语音识别模型的快速构建,具有大量语音相关算法以及优质的论坛受到国内外企业和开发者的追捧。

    本场 Chat 将以以下几个模块进行延展:

    1. Kaldi 介绍;
    2. Kaldi 环境构建;
    3. Kaldi 目录介绍;
    4. Kaldi 相关 Shell 知识介绍;
    5. Kaldi Egs 介绍;
    6. Kaldi Egs 中 AIShell 例子讲解;
    7. 如何使用独立语音进行语音模型构建。

    阅读全文: http://gitbook.cn/gitchat/activity/5c6a4fbdb4e4ea7959820d68

    您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

    FtooAtPSkEJwnW-9xkCLqSTRpBKX

    展开全文
  • kaldi中文语音识别

    2020-06-12 14:30:35
    编译与安装kaldikaldi进行中文语音识别本文记录了我编译安装kaldi和两种用kaldi进行中文语音识别的过程,包括如何kaldi的简单介绍、环境的配置、相关模型的训练、导入,算是自己近期学习的一个总结,也希望可以...
  • The main goal of this lab is to get acquainted with Kaldi. We will begin by creating and exploring a data directory for the TIMIT dataset. Then we will extract features for TIMIT upon which we can ...
  • kaldi上第一个免费的中文语音识别例子

    万次阅读 多人点赞 2016-02-04 12:46:09
    今天在清华大学cslt实验室王东老师的分享下,kaldi终于有了免费的中文语音识别的例子,网址为:https://github.com/kaldi-asr/kaldi/tree/master/egs/thchs30。各位可以根据这个来训练自己的模型。 再次谢谢王东...
  • 作为一个持续关注前沿领域的科技菌,我推荐过《知识图谱》,推荐过《推荐系统》...... 但是今天,博文菌还想给大家安利一部新的前沿...在《Kaldi语音识别实战》诞生之前,Kaldi 社区的活跃开发者们更关注推进核心...
  • kaldi语音识别教程

    2020-07-30 23:31:51
    2016年出版的kaldi语音识别教程,作者为日本人 篠崎隆宏 (東京工業大学)
  • 基于《Kaldi语音识别》技术及开源语音语料库分享(上) 前言: 数据堂自AI开源计划发起,面向高校和科研机构首次开源的【1505小时中文普通话语音数据集】,该数据集句标注准确率达到了98%,得到了很多开发者的认可...
  • PYTORCH-KALDI语音识别工具包

    千次阅读 2019-04-29 20:59:58
    PYTORCH-KALDI语音识别工具包 Mirco Ravanelli1,Titouan Parcollet2,Yoshua Bengio1 * ...
  • Kaldi语音识别学习笔记(一)

    千次阅读 2017-08-03 20:18:59
     之前搞了一段时间htk语音识别,现在流行kaldi,自己也开始学习一下,在分享的过程中,如果我的理解不对,请多多指教,谢过各位了。  先提供一下kaldi开源代码路径 https://github.com/kaldi-asr/kaldi;相关文档...
  • kaldi语音识别的资料

    千次阅读 2018-09-19 15:21:36
    最近在看kaldi,搜集了一些资料,列下来以供后续参考。 语音识别原理部分: 1、https://www.zhihu.com/question/20398418 知乎上比较火的原理解释。 2、...
  • Kaldi 语音识别工具使用记录 - 日语数据集CSJ 数据下载 数据前处理 1. 生成phone.txt 和 lexcion.txt 2. 语言模型 3 特征提取
  • 以BAC009S0764W0121这个语音为例子,看看各个步骤的识别结果。从/home/boystray/kaldi/egs/aishell/s5/data/test/wav.scp文件中可以知道 BAC009S0764W0121对应了kaldi/egs/aishell/data/data_aishell/wav/test/S0764...
  • 有关语音识别的工作除了Torch,还使用过Kaldi工具箱,也同样整理一下需要注意的细节。参考了thchs30的使用示例。 1. 同样需要注意自己准备的语音数据格式(***.wav等),声道数,采样频率等属性,采样频率不同...
  • 周末到了,给大家送上一本重磅书籍,语音识别领域重要框架Kaldi配置的书籍,书为《Kaldi语音识别实践》。本书内容这是一本以Kaldi框架为工具,讲解语音识别中核心技术的书籍,书籍各章...
  • kaldi 语音识别 ubuntu 16.04安装教程

    万次阅读 2019-09-15 22:47:26
    Kaldi 底层是使用C++ 编写的语音识别工具,旨在供语音识别研究员使用。 也是语音识别领域最常用的一个工具。 它自带了很多特征提取模块、语音模型代码,可直接使用或重新训练GMM-HMM 等模型。 还支持GPU进行训练...
  • Kaldi语音识别工具包简介及安装说明

    千次阅读 2017-09-05 11:02:45
    Kaldi是一个开源的语音识别工具,整合了HTK的基本功能,同时也加入了深度神经网络的分类器(DNN)。可实现与文本无关的LVCSR系统,基于FST的训练与解码,支持多种标准的机器学习训练模型。 Kaldi相关文档可参考官网:...
  • Kaldi语音识别库可以说是,HTK数据库的整理加强版,将HTK比较零碎的各种各样的指令和功能进行整理,使用更加的方便,同时也加入了深度神经网络的分类器(DNN),本身由原来做HTK开发的人员制作而成。  kaldi官方网站...
1 2 3 4 5 ... 20
收藏数 1,793
精华内容 717
关键字:

kaldi语音识别