kaldi做语音识别_kaldi语音识别 - CSDN
  • 语音识别 kaldi 的安装

    万次阅读 多人点赞 2020-08-10 22:16:45
    kaldi的编译 这3篇博客主要是总结了两种用kaldi进行中文语音...kaldi中文语音识别(2)——用thch30中文语音识别 kaldi中文语音识别(3)——用cvte中文语音识别 kaldi是什么 kaldi是一个用C++写的语音识别工...

    本篇博客主要记录了我编译安装kaldi的过程,算是自己近期学习的一个总结,也希望可以帮助到需要的人。

    kaldi是什么

    kaldi是一个用C++写的语音识别工具包。kaldi旨在供语音识别研究员使用。当然,kaldi也可以用作声纹识别。关于他的详细介绍可以访问kaldi的官方文档

    kaldi与中文语音识别

    感谢很多大神与科研工作者在kaldi上开源了他们的数据集和训练模型,让我这样的小白可以站在巨人的肩膀上前行。目前我所了解到有3个开源的中文语音识别例子。

    1. 清华大学开源的thchs30数据集(疯狂为CSLT打电话~~~)
    2. CVTE公司开源的CVTE Mandarin Model模型
    3. Beijing Shell Shell Technology公司开源的aishell数据集

    如果有同学知道其他的数据集or模型,中英文皆可,欢迎联系我补充啊~

    编译与安装kaldi

    注意:为了提高训练的速度,kaldi最好安装在GPU云服务器下。如果没有服务器话,使用虚拟机应该也是可以的,但一定要分配足够的内存空间和存储空间。下面我就以我使用的centos服务器为例,介绍kaldi的编译与安装。

    编译与安装大概分为3步

    1. 安装git、下载kaldi的源码
    2. 安装编译所需依赖包
    3. 配置、编译kaldi

    1.kaldi的下载

    kaldi的所有源码开源在了GitHub上,可以直接git下载到服务器上,首先得确保服务器上安装了git,如果没有安装的话,就先安装git

    sudo yum install git -y
    

    接着git clone下载kaldi

    git clone https://github.com/kaldi-asr/kaldi.git
    

    下载完成kaldi源码后,我们将得到如下一个文件结构的目录。

    kaldi/
    ├── COPYING
    ├── egs/				//egs目录里存放了使用kaldi完成的开源语音识别/声纹识别项目
    ├── INSTALL				//编译安装kaldi的指导
    ├── misc/
    ├── README.md
    ├── scripts/
    ├── src/				//src文件夹里存放了kaldi源码
    ├── tools/				//tools文件夹里存放了语音处理的工具包
    └── windows/				//windows文件夹存放了在windows下编译安装kaldi的文件
    

    2.安装编译所需要的依赖包

    编译之前需要确操作系统中安装有如下包

      subversion
      automake
      autoconf
      libtool
      g++
      zlib
      libatal
      wget
      sox
    

    首先进入到kaldi/tools目录下,接着在调用check_dependencies.sh脚本检查系统中的包是否安装完全

    cd kaldi/tools
    extras/check_dependencies.sh
    

    如图所示,这个shell脚本会提示系统需要安装的包,按照提示安装即可。

    img

    安装完成后再次运行这个脚本,如果提示OK就可以开始进行kaldi的编译。

    3.编译kaldi

    首先编译tools,在在kaldi/tools目录下输入

    make
    

    我使用的服务器是i7有8个核心,因此输入make -j 8可以使用8个核心一起编译,加快编译速度。

    之后转到kaldi/src目录下,输入如下命令

    cd ../src
    

    在src目录下首先要运行configure进行配置,由于每个人的cuda版本、安装路径不一定相同,所以这里需要根据自己的服务器情况进行修改,如下是我的configure配置方案,仅供参考。

    ./configure --static \
                --use-cuda=yes \
                --cudatk-dir=/home/zy/cuda/cuda-8.0 \
                --mathlib=OPENBLAS \
                --openblas-root=../tools/OpenBLAS/install \
                --threaded-math=no \
                --static-math=yes \
                --static-fst=yes \
                --fst-root=../tools/openfst
    

    配置完成后,就可以进行src的编译了

    make depend
    make
    

    同样,如果是多核CPU的话,你可以使用make depend -j 8make -j 8加快编译速度

    完成后会有提示成功和失败,结束make后就算完成了kaldi的编译与安装了~


    参考资料:

    1. CSDN博客:Kaldi的下载安装与编译
    2. kaldi-ctc的安装、编译、测试
    展开全文
  • Kaldi 语音识别基础教程

    千次阅读 2019-02-19 23:30:48
    Kaldi 是一款语音识别工具,可以快速训练语音识别模型。Kaldi 主要是用 C++ 编写,是用 Shell、Python 和 Perl 来作为胶水进行模型训练,并且 Kaldi 是完全免费开源的。 Kaldi 语音识别模型的快速构建,具有大量语音...

    Kaldi 是一款语音识别工具,可以快速训练语音识别模型。Kaldi 主要是用 C++ 编写,是用 Shell、Python 和 Perl 来作为胶水进行模型训练,并且 Kaldi 是完全免费开源的。

    Kaldi 语音识别模型的快速构建,具有大量语音相关算法以及优质的论坛受到国内外企业和开发者的追捧。

    本场 Chat 将以以下几个模块进行延展:

    1. Kaldi 介绍;
    2. Kaldi 环境构建;
    3. Kaldi 目录介绍;
    4. Kaldi 相关 Shell 知识介绍;
    5. Kaldi Egs 介绍;
    6. Kaldi Egs 中 AIShell 例子讲解;
    7. 如何使用独立语音进行语音模型构建。

    阅读全文: http://gitbook.cn/gitchat/activity/5c6a4fbdb4e4ea7959820d68

    您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

    FtooAtPSkEJwnW-9xkCLqSTRpBKX

    展开全文
  • kaldi中文语音识别

    2020-06-12 14:30:35
    编译与安装kaldikaldi进行中文语音识别本文记录了我编译安装kaldi和两种用kaldi进行中文语音识别的过程,包括如何kaldi的简单介绍、环境的配置、相关模型的训练、导入,算是自己近期学习的一个总结,也希望可以...

    目录
    kaldi是什么
    kaldi与中文语音识别
    编译与安装kaldi
    用kaldi进行中文语音识别
    本文记录了我编译安装kaldi和两种用kaldi进行中文语音识别的过程,包括如何kaldi的简单介绍、环境的配置、相关模型的训练、导入,算是自己近期学习的一个总结,也希望可以帮助到需要的人~~~


    kaldi是什么
    kaldi是一个用C++写的语音识别工具包。kaldi旨在供语音识别研究员使用。当然,kaldi也可以用作声纹识别。关于他的详细介绍可以访问kaldi的官方文档

    kaldi与中文语音识别
    感谢很多大神与科研工作者在kaldi上开源了他们的数据集和训练模型,让我这样的小白可以站在巨人的肩膀上前行。

    编译与安装kaldi
    注意:为了提高训练的速度,kaldi最好安装在GPU云服务器下。如果没有服务器话,使用虚拟机应该也是可以的,但一定要分配足够的内存空间和存储空间。下面我就以我使用的centos服务器为例,介绍kaldi的编译与安装。

    编译与安装大概分为3步

    安装git、下载kaldi的源码
    安装编译所需依赖包
    配置、编译kaldi

    1.kaldi的下载

    kaldi的所有源码开源在了GitHub上,可以直接git下载到服务器上,首先得确保服务器上安装了git,如果没有安装的话,就先安装git sudo yum install git -y

    接着git clone下载kaldi

    git clone https://github.com/kaldi-asr/kaldi.git

    下载完成kaldi源码后,我们将得到如下一个文件结构的目录。

    kaldi/
    ├── COPYING
    ├── egs/                //egs目录里存放了使用kaldi完成的开源语音识别/声纹识别项目
    ├── INSTALL                //编译安装kaldi的指导
    ├── misc/
    ├── README.md
    ├── scripts/
    ├── src/                //src文件夹里存放了kaldi源码
    ├── tools/                //tools文件夹里存放了语音处理的工具包
    └── windows/                //windows文件夹存放了在windows下编译安装kaldi的文件

    2.安装编译所需要的依赖包

    编译之前需要确操作系统中安装有如下包

      subversion
      automake
      autoconf
      libtool
      g++
      zlib
      libatal
      wget
      sox

    首先进入到kaldi/tools目录下,接着在调用check_dependencies.sh脚本检查系统中的包是否安装完全

    cd kaldi/tools
    extras/check_dependencies.sh

    如图所示,这个shell脚本会提示系统需要安装的包,按照提示安装即可。

    安装完成后再次运行这个脚本,如果提示OK就可以开始进行kaldi的编译。

    3.编译kaldi

    首先编译tools,在在kaldi/tools目录下输入

    make

    我使用的服务器是i7有8个核心,因此输入make -j 8可以使用8个核心一起编译,加快编译速度。

    之后转到kaldi/src目录下,输入如下命令

    cd ../src

    在src目录下首先要运行configure进行配置,由于每个人的cuda版本、安装路径不一定相同,所以这里需要根据自己的服务器情况进行修改,如下是我的configure配置方案,仅供参考。

    ./configure --static \
                --use-cuda=yes \
                --cudatk-dir=/home/zy/cuda/cuda-8.0 \
                --mathlib=OPENBLAS \
                --openblas-root=../tools/OpenBLAS/install \
                --threaded-math=no \
                --static-math=yes \
                --static-fst=yes \
                --fst-root=../tools/openfst

    配置完成后,就可以进行src的编译了

    make depend
    make

    同样,如果是多核CPU的话,你可以使用make depend -j 8和make -j 8加快编译速度

    完成后会有提示成功和失败,结束make后就算完成了kaldi的编译与安装了~

    用kaldi进行中文语音识别
    完成kaldi的安装后,就可以用kaldi做语音识别了~


    参考资料:
    kaldi-ctc的安装、编译、测试
    {
        Author: "byr-zyziszy",
        Mail: "test@foxmail.com",
        Github: "https://github.com/jbase",
        Date: "2020-6-12"
    }
     

    展开全文
  • 基于kaldi的在线语音识别

    千次阅读 2019-11-11 10:55:22
    本文是基于kaldi的在线语音识别,使用b/s架构进行在线识别。适用于刚刚接触的小白。 开发环境:jdk-1.8,Ubuntu16.04,Eclipse。 开发过程: 1.准备必须的文件 如果你想要实现在线语音识别功能在kaldi下,那么...

    本文是基于kaldi的在线语音识别,使用b/s架构进行在线识别。适用于刚刚接触的小白。

    开发环境:jdk-1.8,Ubuntu16.04,Eclipse。

    开发过程:

    1.准备必须的文件

            如果你想要实现在线语音识别功能在kaldi下,那么你需要有训练好的“final.mdl”(final.mdl其实是最后模型链接过来的,是最后的模型“数字.mdl”,如果你发现你复制不过来“final.mdl”,那么你把“数字.mdl”重命名为“final.mdl”即可)、HCLG.fst、words.txt、”这三个文件。这些文件分别位于你训练的文件中的   比如 kaldi/egs/cn/s1/exp/*tri1/  和 kaldi/egs/cn/s1/exp/tri1/graph/目录下。(不同的模型,不同的文件)

    2.文件的准备以及代码的修改

    1. 在kaldi/tools目录下运行 sudo bash extras/install_portaudio.sh
    2. 在kaldi/egs/voxforge/online_demo/online_data/models/目录下,创建一个文件,比如tir1(三因素的模型),然后将(1)中的四个文件拷贝到tri1中。
    3. 将你要识别的音频文件拷贝到online_demo/online_data/audio/目录下。

     

    3.修改online_demo/run.sh

    • 将这段话改为你的模型的文件夹的名字

    # Change this to "tri2a" if you like to test using a ML-trained model
    ac_model_type=tri1

    • 将你的模型文件放置进去,以及你输出的识别路径。

    online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
                --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
                scp:$decode_dir/input.scp $ac_model/final.mdl$ac_model/HCLG.fst \
                $ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \
                ark,t:$decode_dir/ali.txt $trans_matrix>result.txt;;

    • 将以下两部分代码删掉

    • 第一部分:

    if [ ! -s ${data_file}.tar.bz2 ]; then
        echo "Downloading test models and data ..."
        wget -T 10 -t 3 $data_url;

        if [ ! -s ${data_file}.tar.bz2 ]; then
            echo "Download of $data_file has failed!"
            exit 1
        fi
    fi

    • 第二部分:

    # Estimate the error rate for the simulated decoding
    if [ $test_mode == "simulated" ]; then
        # Convert the reference transcripts from symbols to word IDs
        sym2int.pl -f 2- $ac_model/words.txt < $audio/trans.txt > $decode_dir/ref.txt
        # Compact the hypotheses belonging to the same test utterance
        cat $decode_dir/trans.txt |\
            sed -e 's/^\(test[0-9]\+\)\([^ ]\+\)\(.*\)/\1 \3/' |\
            gawk '{key=$1; $1=""; arr[key]=arr[key] " " $0; } END { for (k in arr) { print k " " arr[k]} }' > $decode_dir/hyp.txt
       # Finally compute WER
       compute-wer --mode=present ark,t:$decode_dir/ref.txt ark,t:$decode_dir/hyp.txt
    fi

    4.注意事项

    请根据自己的路径名称来修改。

     

     

    展开全文
  • kaldi中文语音识别_基于thchs30(5)

    千次阅读 2018-05-23 17:37:37
    接上回if [ -f $data/segments ]; then #这里是查看data/mfcc/train下是否存在segments,如果存在则执行then后面的脚本,否则执行else后面的,这个文件不存在,所以之后调用else后面的处理 echo "...
  • PyTorch-Kaldi离线语音识别

    千次阅读 2019-08-02 11:19:15
    用PyTorch-Kaldi做离线语音识别时记录的笔记。
  • 作为一个持续关注前沿领域的科技菌,我推荐过《知识图谱》,推荐过《推荐系统》...... 但是今天,博文菌还想给大家安利一部新的前沿...在《Kaldi语音识别实战》诞生之前,Kaldi 社区的活跃开发者们更关注推进核心...
  • kaldi中文语音识别(1)

    2019-07-30 13:56:33
    ...
  • 在树莓派上搭建kaldi离线语音识别系统(交叉编译)一、系统功能和环境概述1.1、实现功能1.2、开发环境二、kaldi语音识别工具箱三、树莓派的相关配置四、kaldi交叉编译过程4.1、配置Ubuntu中的交叉编译环境4.2、kaldi...
  • 言語モデルの学習: make lexicon and wordlist file text2wfreq csj_futu_kata.txt csj_futu_kata.wfreq cat csj_futu_kata.wfreq |sort -n -k 2 -r|grep -v "+ー" | grep -v "++" | grep -v "×" >...
  • kaldi语音识别教程

    2020-07-30 23:31:51
    2016年出版的kaldi语音识别教程,作者为日本人 篠崎隆宏 (東京工業大学)
  • 运行kaldi中的自带样例:《Kaldi学习笔记(四)——thchs30中文在线识别》 thchs30的主要搭建过程参照以上两篇博客,此处就不再赘述。但是在搭建的过程中可能会出现一些问题,由于kaldi目前网上的资料比较少,很多...
  • kaldi中文语音识别_基于thchs30(8)

    千次阅读 2018-09-07 13:36:32
    接上回,我们继续看run.sh #copy feats and cmvn to test.ph, avoid duplicated mfcc &amp; cmvn #拷贝mfcc特征和cmvn到test.ph,避免重复的mfcc和cmvn cp data/mfcc/test/feats.scp data/mfcc/test_phone &...
  • 写在前面: 本人目前读研中,小白一枚,主要研究方向:语音识别及语音歌曲合成,在这里记录一下自己学习软件的过程,还望大神们口下留情。
  • 获取源代码 git clone ...cd kaldi/tools ./extras/check_dependencies.sh //根据提示安装缺少的依赖 不缺少直接进入下一步 缺少则 yum install -y xxx 补充安装 make -j4 src文...
  • The main goal of this lab is to get acquainted with Kaldi. We will begin by creating and exploring a data directory for the TIMIT dataset. Then we will extract features for TIMIT upon which we can ...
  • kaldi语音识别的资料

    千次阅读 2018-09-19 15:21:36
    最近在看kaldi,搜集了一些资料,列下来以供后续参考。 语音识别原理部分: 1、https://www.zhihu.com/question/20398418 知乎上比较火的原理解释。 2、...
  • Kaldi 中文语音识别需要考虑的问题

    千次阅读 2017-04-13 09:40:03
    Kaldi语音识别 1.声学建模单元的选择 1.1对声学建模单元加入位置信息 2.输入特征3.区分性技术4.多音字如何处理?5.Noise Robust ASR6.Deep Learning[DNN/CNN替换GMM]7.在手机等资源受限设备 author:...
  • PYTORCH-KALDI语音识别工具包

    千次阅读 2019-04-29 20:59:58
    PYTORCH-KALDI语音识别工具包 Mirco Ravanelli1,Titouan Parcollet2,Yoshua Bengio1 * ...
  • 在一些教育 医疗产业中, 很多的词汇都非常专业, 并不是一般的语音识别系统所能提供服务的, 这时就需要我们自己构建一个离线的可以在手机或者平板上运行的语音识别系统, 我选择的是Kaldi, 因为Kaldi的识别能力要...
1 2 3 4 5 ... 20
收藏数 1,792
精华内容 716
关键字:

kaldi做语音识别