精华内容
下载资源
问答
  • Python实现语音识别

    万次阅读 2019-05-09 19:45:57
    Python语音识别方面功能很强大,程序语言简单高效,下面编程实现一下如何实现语音识别。本文实现案例是将文本转换成语音,给出实现代码,作为学习和技术交流。 Python基础环境准备 参见:...

    案例分析

    概述 

              Python在语音识别方面功能很强大,程序语言简单高效,下面编程实现一下如何实现语音识别。本文实现案例是将文本转换成语音,给出实现代码,作为学习和技术交流。

    Python基础环境准备

    参见:https://blog.csdn.net/yan_dk/article/details/89528463

    案例实现

    环境准备

    使用百度智能云提供的语音识别api,

    登录https://ai.baidu.com/,注册用户。

    案例1:文本语音合成

     

    from aip import AipSpeech
    APP_ID="xxx"
    API_KEY="xxxxx"
    SECRET_KEY="xxxxxxxxxxxxxxx"
    #初始化语音识别客户端
    client=AipSpeech(APP_ID,API_KEY,SECRET_KEY)
    #客户端合成文本生成结果,vol-指定语速
    result=client.synthesis(text='我是如此的优秀,人工智能技术.',options={'vol':5})
    #生成为语音格式文件
    if not isinstance(result,dict):
        with open('1.mp3','wb') as f:
            f.write(result)
    else:
        print(result)

     简单几句代码,就可以快速将文本合成为语音格式文件,到当前目录下,查看音频格式文件,听一下吧。。。

    案例2:文件语音合成

    新建测试文件testAudio.txt

    我是如此的优秀,人工智能技术.
    from aip import AipSpeech
    APP_ID="xxx"
    API_KEY="xxxxx"
    SECRET_KEY="xxxxxxxxxxxxxxx"
    
    #初始化语音识别客户端
    client=AipSpeech(APP_ID,API_KEY,SECRET_KEY)
    #文件读取成文本
    text_audio =open('inc/testAudio.txt',encoding='utf-8')
    #客户端合成文本生成结果,vol-指定语速
    result=client.synthesis(text=text_audio,options={'vol':5})
    #生成为语音格式文件
    if not isinstance(result,dict):
        with open('testAudio.mp3','wb') as f:
            f.write(result)
    else:
        print(result)

     同样,到当前目录下,查看音频格式文件,听一下吧。。。

    案例3:网络爬取文件语音合成

    实现抓取网络小说,生成语音格式文件

     

    持续完善,待续...

     

    展开全文
  • python实现语音识别

    2020-09-04 11:29:42
    使用python语言开发,可以应用于arm开发的语音识别,gui程序的语音识别等。 安装教程 使用百度语音识别aip,你需要设置__init__中的三个接口参数 你需要使用AudioRecognition.microphone()方法对输入设备检测,并...

    AudioRecognition

    介绍

    使用python语言开发,可以应用于arm开发的语音识别,gui程序的语音识别等。

    安装教程

    1. 使用百度语音识别aip,你需要设置__init__中的三个接口参数
    2. 你需要使用AudioRecognition.microphone()方法对输入设备检测,并修改对应参数(百度语音识别的音频采样率不建议过高)
    3. 你需要安装pyaudio、baidu-aip的python运行库,在conda中没有baidu-aip库,必须使用pip下载

    使用说明

    1. 你可以使用record()方法进行语音录制,使用recognition()方法进行语音识别
    2. 成员变量result为识别结果,结果为一个字符串型

    代码预览

    import pyaudio
    import wave
    from aip import AipSpeech
    
    class AudioRecognition(object):
        def __init__(self):
            p = pyaudio.PyAudio()
            self.dir=p.get_device_info_by_index(0)
            self.chunk = 1024
            self.sample_format = pyaudio.paInt16
            self.channels = 1
            self.fs = 16000   #采样频率
            self.seconds = 2   #每次录制时间
            self.filename = "output.wav" #输出文件名
            self.result = '未识别'  #识别结果
            #百度aip接口
            self.APP_ID = 'xxxxx'
            self.API_KEY = 'xxxxxx'
            self.SECRET_KEY = 'xxxxx'
    
        def record(self):#录入
            p = pyaudio.PyAudio()  # Create an interface to PortAudio
            stream = p.open(format=self.sample_format,
                            channels=self.channels,
                            rate=self.fs,
                            frames_per_buffer=self.chunk,
                            input=True,
                            )
            frames = []
            for i in range(0, int(self.fs / self.chunk * self.seconds)):
                data = stream.read(self.chunk)
                frames.append(data)
                if i % 5 == 0:
                    print("*")
            stream.stop_stream()
            stream.close()
            p.terminate()
            wf = wave.open(self.filename, 'wb')
            wf.setnchannels(self.channels)
            wf.setsampwidth(p.get_sample_size(self.sample_format))
            wf.setframerate(self.fs)
            wf.writeframes(b''.join(frames))
            wf.close()
    
        def recognition(self): #识别
            client = AipSpeech(self.APP_ID, self.API_KEY, self.SECRET_KEY)
    
            # 读取文件
            def get_file_content(file_path):
                with open(file_path, 'rb') as fp:
                    return fp.read()
    
            # 识别本地文件
            result = client.asr(get_file_content(self.filename), 'wav', 16000, {
                'dev_pid': 1537,  # 默认1537(普通话 输入法模型)
            })
            self.result = result['result'][0]
    
        def microphone(self): #设备识别,打印系统音频设备参数
            p = pyaudio.PyAudio()
            print(p)
            for i in range(p.get_device_count()):
                print(p.get_device_info_by_index(i))
            print(p.get_device_info_by_index)
    
    
    
    
    
    
    if __name__ == '__main__':
        #从录制到识别出结果整个过程
        a=AudioRecognition()
        print("开始录制")
        a.record()
        print("正在识别......")
        a.recognition()
        print("结果")
        print(a.result)
        #a.microphone()
    
    展开全文
  • 声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。这篇文章主要介绍了Python实现语音识别和语音合成,需要的朋友可以参考下
  • Linux下利用python实现语音识别详细教程

    千次阅读 多人点赞 2020-03-01 13:41:22
    Linux下python实现语音识别详细教程语音识别工作原理简介选择合适的python语音识别包安装SpeechRecognition识别器类音频文件的使用英文的语音识别噪音对语音识别的影响麦克风的使用中文的语音识别小范围中文识别语音...

    语音识别工作原理简介

    语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识别系统已经取得了很大进步,可以识别多个讲话者,并且拥有识别多种语言的庞大词汇表。
    语音识别的首要部分当然是语音。通过麦克风,语音便从物理声音被转换为电信号,然后通过模数转换器转换为数据。一旦被数字化,就可适用若干种模型,将音频转录为文本。
    大多数现代语音识别系统都依赖于隐马尔可夫模型(HMM)。其工作原理为:语音信号在非常短的时间尺度上(比如 10 毫秒)可被近似为静止过程,即一个其统计特性不随时间变化的过程。
    许多现代语音识别系统会在 HMM 识别之前使用神经网络,通过特征变换和降维的技术来简化语音信号。也可以使用语音活动检测器(VAD)将音频信号减少到可能仅包含语音的部分。
    幸运的是,对于 Python 使用者而言,一些语音识别服务可通过 API 在线使用,且其中大部分也提供了 Python SDK。

    选择合适的python语音识别包

    PyPI中有一些现成的语音识别软件包。其中包括:
    •apiai
    •google-cloud-speech
    •pocketsphinx
    •SpeechRcognition
    •watson-developer-cloud
    •wit
    一些软件包(如 wit 和 apiai )提供了一些超出基本语音识别的内置功能,如识别讲话者意图的自然语言处理功能。其他软件包,如谷歌云语音,则专注于语音向文本的转换。
    其中,SpeechRecognition 就因便于使用脱颖而出。
    识别语音需要输入音频,而在 SpeechRecognition 中检索音频输入是非常简单的,它无需构建访问麦克风和从头开始处理音频文件的脚本,只需几分钟即可自动完成检索并运行。

    安装SpeechRecognition

    SpeechRecognition 兼容 Python2.6 , 2.7 和 3.3+,但若在 Python 2 中使用还需要一些额外的安装步骤。大家可使用 pip 命令从终端安装 SpeechRecognition:pip3 install SpeechRecognition
    安装过程中可能会出现一大片红色字体提示安装错误!我在另一篇博客中有解决方法(https://blog.csdn.net/weixin_44895651/article/details/104276569
    安装完成后可以打开解释器窗口进行验证安装:
    在这里插入图片描述
    注:不要关闭此会话,在后几个步骤中你将要使用它。
    若处理现有的音频文件,只需直接调用 SpeechRecognition ,注意具体的用例的一些依赖关系。同时注意,安装 PyAudio 包来获取麦克风输入

    识别器类

    SpeechRecognition 的核心就是识别器类。
    Recognizer API 主要目是识别语音,每个 API 都有多种设置和功能来识别音频源的语音,这里我选择的是recognize_sphinx(): CMU Sphinx - requires installing PocketSphinx(支持离线的语音识别
    那么我们就需要通过pip命令来安装PocketSphinx,在安装过程中也容易出现一大串红色字体的错误。因为博主英语不太好,具体啥错误不知道。直接上解决方法吧!在我的另一篇文章有介绍:(https://blog.csdn.net/weixin_44895651/article/details/104445102

    音频文件的使用

    下载相关的音频文件保存到特定的目录(博主直接保存到ubuntu桌面):
    链接:https://pan.baidu.com/s/1oWG1A6JnjpeT_8DhEpoZzw
    提取码:sf73
    注意:
    AudioFile 类可以通过音频文件的路径进行初始化,并提供用于读取和处理文件内容的上下文管理器界面。
    SpeechRecognition 目前支持的文件类型有:

    • WAV: 必须是 PCM/LPCM 格式
    • AIFF
    • AIFF-CFLAC: 必须是初始 FLAC 格式;OGG-FLAC 格式不可用

    英文的语音识别

    在完成以上基础工作以后,就可以进行英文的语音识别了。
    (1)打开终端
    (2)进入语音测试文件所在目录(博主的是 桌面)
    (3)打开python解释器
    (4)按照下图输入相关命令
    在这里插入图片描述
    最后就可以看到语音转文字的内容(this they’ll smell …),其实效果还是很不错的!因为是英文,并且没有噪音。

    噪音对语音识别的影响

    噪声在现实世界中确实存在,所有录音都有一定程度的噪声,而未经处理的噪音可能会破坏语音识别应用程序的准确性。
    要了解噪声如何影响语音识别,请下载 “jackhammer.wav”(链接:https://pan.baidu.com/s/1AvGacwXeiSfMwFUTKer3iA
    提取码:3pj7)
    通过尝试转录效果并不好,我们可以通过尝试调用 Recognizer 类的adjust_for_ambient_noise()命令。
    当然具体的博主没有实践,不知道准确性如何!大家可以借鉴这篇文章(https://mp.weixin.qq.com/s/B1w-ZLwoK1-5wDZW9pJ82g

    麦克风的使用

    若要使用 SpeechRecognizer 访问麦克风则必须安装 PyAudio 软件包。
    如果使用的是基于 Debian的Linux(如 Ubuntu ),则可使用 apt 安装 PyAudio:sudo apt-get install python-pyaudio python3-pyaudio安装完成后可能仍需要启用 pip3 install pyaudio ,尤其是在虚拟情况下运行。
    在安装完pyaudio的情况下可以通过python实现语音录入生成相关文件。
    pocketsphinx的使用注意
    支持文件格式:wav
    音频文件的解码要求:16KHZ,单声道
    利用python实现录音并生成相关文件程序代码如下:

    from pyaudio import PyAudio, paInt16
    import numpy as np
    import wave
    class recoder:
         NUM_SAMPLES = 2000   
         SAMPLING_RATE = 16000  
         LEVEL = 500     
         COUNT_NUM = 20   
         SAVE_LENGTH = 8     
         Voice_String = []
         def savewav(self,filename):
             wf = wave.open(filename, 'wb')
             wf.setnchannels(1)
             wf.setsampwidth(2)
             wf.setframerate(self.SAMPLING_RATE)
             wf.writeframes(np.array(self.Voice_String).tostring())
             wf.close()
         def recoder(self):
             pa = PyAudio()
             stream = pa.open(format=paInt16, channels=1, rate=self.SAMPLING_RATE, input=True,frames_per_buffer=self.NUM_SAMPLES)
             save_count = 0
             save_buffer = []
             while True:
                string_audio_data = stream.read(self.NUM_SAMPLES)
                audio_data = np.fromstring(string_audio_data, dtype=np.short)
                large_sample_count = np.sum(audio_data > self.LEVEL)
                print(np.max(audio_data))
                if large_sample_count > self.COUNT_NUM:
                    save_count = self.SAVE_LENGTH
                else:
                    save_count -= 1
                if save_count < 0:
                    save_count = 0
                if save_count > 0:
                    save_buffer.append(string_audio_data )
                else:
                    if len(save_buffer) > 0:
                        self.Voice_String = save_buffer
                        save_buffer = []
                        print("Recode a piece of voice successfully!")
                        return True
    		 else:
                        return False
    if __name__ == "__main__":
        r = recoder()
        r.recoder()
        r.savewav("test.wav")
    

    注意:在利用python解释器实现时一定要注意空格!!!
    最后生成的文件就在Python解释器回话所在目录下,可以通过play来播放测试一下,如果没有安装play可以通过apt命令来安装。

    中文的语音识别

    在进行完以前的工作以后,我们对语音识别的流程大概有了一定的了解,但是作为一个中国人总得做一个中文的语音识别吧!
    我们要在CMU Sphinx语音识别工具包里面下载对应的普通话升学和语言模型。在这里插入图片描述
    图片中标记的就是普通话!下载相关的语音识别工具包。
    但是我们要把zh_broadcastnews_64000_utf8.DMP转化成language-model.lm.bin,这里可以借鉴这篇博主的文章。最后得到chinese.lm.bin
    再解压zh_broadcastnews_16k_ptm256_8000.tar.bz2得到zh_broadcastnews_ptm256_8000文件夹。
    借鉴刚才那位博主的方法,在Ubuntu下找到speech_recognition文件夹。可能会有很多小伙伴找不到相关的文件夹,其实是在隐藏文件下。大家可以点击文件夹右上角的三条杠。如下图所示:
    在这里插入图片描述
    然后给显示隐藏文件打个勾,如下图所示:
    在这里插入图片描述
    然后依次按照以下目录就可以找到啦:在这里插入图片描述
    然后把原来的en-US改名成en-US-bak,新建一个文件夹en-US,把解压出来的zh_broadcastnews_ptm256_8000改成acoustic-model,把chinese.lm.bin改成language-model.lm.bin,把pronounciation-dictionary.dic改后缀成dict,复制这三个文件到en-US里。同时把原来en-US文件目录下的LICENSE.txt复制到现在的文件夹下。
    最终该文件夹下有以下文件:
    在这里插入图片描述
    然后我们就可以通过麦克风录入一个语音文件文件(“test.wav”)
    在该文件目录下打开python解释器输入以下内容:
    在这里插入图片描述
    就看到了输出内容,但是我说的是两个中国,也测试了一下其他的发现识别效果很不好!!!
    当然有好多同学可能想要语音包,我就分享给大家啦!(链接:https://pan.baidu.com/s/13DTDnv_4NYbKXpkXAXODpw
    提取码:zh39)

    小范围中文识别

    用官方提供的效果太差,几乎不能用!那么我看了很多文章以后就想到了一种优化方法,但是只适合小范围的识别!一些命令啥的应该没有问题,但是聊天什么的可能就效果不太好。
    找到刚才复制的4个文件夹,有一个pronounciation-dictionary.dict的文件夹,打开以后是以下内容:
    在这里插入图片描述感觉这内容就是类似于一个字典,很多用词和平时交流的用词差距比较大。那么我们改成我们习惯的用词就可以啦! 抱着试一试的想法,结果还真的可以。识别效果真的不错!
    我的做法是:
    (1)把图片中红色标记以上的内容继续保留,红色以下的内容删除掉。当然处于保险考虑建议大家给该文件备份一下!
    (2)给红色线以下输入自己想识别的内容!(按照规则输入,不同于拼音!!!)最近新型肺炎的情况不断的变好,听到最多的一句话就是“中国加油”那么今天的内容就是将“中国加油”实现语音转文字!希望能早日开学,哈哈哈哈。
    在这里插入图片描述
    (3)输入以下内容:
    在这里插入图片描述
    就可以看到中国加油啦!同时希望肺炎疫情早日康复!

    语音合成

    语音合成个人的理解就是文字转语音。这篇文章已经介绍的很详细啦!(https://blog.csdn.net/chadian3912/article/details/81077537)所以我就不多介绍啦!不过这句话中可以设置client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) result = client.synthesis('你好百度', 'zh', 1, { 'vol': 5,'spd': 3,'pit':9,'per': 3})音量、声调、速度、男/女/萝莉/逍遥。
    大家快去尝试合成一下吧!最后来欣赏一下语音合成后4种不同风格的语音,你更喜欢那一款呢?

    展开全文
  • Python实现语音识别:SpeechRecognition

    万次阅读 2019-05-02 11:57:50
    常用Python语音识别依赖库 Python的依赖库中有一些现成的语音识别软件包。其中包括: apiai google-cloud-speech pocketsphinx SpeechRcognition watson-developer-cloud wit 其中SpeechReco...

    最近在学习语音识别的一些基本知识,也在了解Python的语音识别功能依赖库。分享一下。

     

    常用Python语音识别依赖库

    Python的依赖库中有一些现成的语音识别软件包。其中包括:

    • apiai
    • google-cloud-speech
    • pocketsphinx
    • SpeechRcognition
    • watson-developer-cloud
    • wit

    其中SpeechRecognition,是google出的,专注于语音向文本的转换。

    wit 和 apiai 提供了一些超出基本语音识别的内置功能,如识别讲话者意图的自然语言处理功能。

     

    SpeechRecognition库的优势

    满足几种主流语音 API ,灵活性高

    Google Web Speech API 支持硬编码到 SpeechRecognition 库中的默认 API 密钥,无需注册就可使用

    SpeechRecognition无需构建访问麦克风和从头开始处理音频文件的脚本, 只需几分钟即可自动完成音频输入、检索并运行。因此易用性很高。

     

    SpeechRecognition的识别器

    SpeechRecognition 的核心就是识别器类。一共有七个Recognizer API ,包含多种设置和功能来识别音频源的语音,分别是:

    • recognize_bing():Microsoft Bing Speech

    • recognize_google(): Google Web Speech API

    • recognize_google_cloud():Google Cloud Speech - requires installation of the google-cloud-speech package

    • recognize_houndify(): Houndify by SoundHound

    • recognize_ibm():IBM Speech to Text

    • recognize_sphinx():CMU Sphinx - requires installing PocketSphinx

    • recognize_wit():Wit.ai

    以上七个中只有 recognition_sphinx()可与CMU Sphinx 引擎脱机工作, 其他六个都需要连接互联网。

    另外,SpeechRecognition 附带 Google Web Speech API 的默认 API 密钥,可直接使用它。其他六个 API 都需要使用 API 密钥或用户名/密码组合进行身份验证,因此本文使用了 Web Speech API。

     

    SpeechRecognition 的使用要求

    To use all of the functionality of the library, you should have:

    • Python 2.6, 2.7, or 3.3+ (required)

    需要Python 2.6、2.7和3.3以上的版本

    • PyAudio 0.2.11+ (required only if you need to use microphone input, Microphone)

    需要安装PyAudio 0.2.11+的版本

    • PocketSphinx (required only if you need to use the Sphinx recognizer, recognizer_instance.recognize_sphinx)

    需要安装PocketSphinx

    • Google API Client Library for Python (required only if you need to use the Google Cloud Speech API, recognizer_instance.recognize_google_cloud)

    需要使用Google API Client Library for Python

    • FLAC encoder (required only if the system is not x86-based Windows/Linux/OS X)

    需要安装FLAC encoder,如果系统不是X86

     

    SpeechRecognition 支持的文件类型

    支持的文件类型有:

    • WAV: 必须是 PCM/LPCM 格式

    • AIFF

    • AIFF-C

    • FLAC: 必须是初始 FLAC 格式;OGG-FLAC 格式不可用

     

    安装 SpeechRecognation

    上篇文章介绍了SpeechRecognition的基本概念和优势,这篇文章介绍如何安装和体验一下demo。

     

    一、安装Python,基于Python3.7

    从终端安装 SpeechRecognition,使用命令:pip3 install SpeechRecognition:

    alicedembp:~ alice$ pip3 install SpeechRecognition
    Requirement already satisfied: SpeechRecognition in /Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages (3.8.1)
    alicedembp:~ alice$ python -m speech_recognition

    二、验证安装是否成功

    安装完成后打开解释器窗口输入以下内容来验证安装:

    >>> import speech_recognition as sr
    >>> sr.__version__
    '3.8.1'

    三、安装portaudio、pyaudio

    接下来,安装必须依赖的两个包,注意顺序不能错,安装pyaudio时必须依赖于portaudio

    brew install portaudio 
    pip install pyaudio

    如下:

    alicedembp:~ alice$ brew install portaudio
    Updating Homebrew...
    ==> Auto-updated Homebrew!
    Updated 1 tap (homebrew/core).
    ==> New Formulae
    allureofthestars     csound               inlets               libgr                terrahub
    boringtun            cubelib              itk                  nlohmann-json        vapoursynth-imwri
    cfn-lint             cypher-shell         kahip                otf2                 vapoursynth-ocr
    cmix                 fasttext             ktlint               phpstan              vapoursynth-sub
    cpp-gsl              faudio               kubeaudit            scws
    cql                  gel                  leela-zero           sk
    ==> Updated Formulae
    libpng ✔                  godep                     libdap                    picard-tools
    amazon-ecs-cli            golang-migrate            libebml                   pijul
    ammonite-repl             gopass                    libedit                   pilosa
    ansifilter                goreleaser                libestr                   platformio
    apache-geode              gradle                    libetonyek                postgresql
    apache-spark              grafana                   libfabric                 postgresql@10
    arangodb                  graphene                  libfixbuf                 pre-commit
    aravis                    groovysdk                 libgit2                   presto
    argyll-cms                grpc                      libgit2-glib              privoxy
    asciidoctor               gst-editing-services      libical                   prometheus
    autojump                  gst-libav                 libiconv                  pspg
    autopep8                  gst-plugins-bad           libjson-rpc-cpp           psql2csv
    avra                      gst-plugins-base          liblcf                    pulumi
    aws-iam-authenticator     gst-plugins-good          liblinear                 purescript
    aws-okta                  gst-plugins-ugly          libltc                    pushpin
    aws-sdk-cpp               gst-python                libmatroska               py3cairo
    azure-cli                 gst-rtsp-server           libmicrohttpd             pygobject3
    badtouch                  gstreamer                 libmspub                  qalculate-gtk
    ballerina                 gtranslator               libphonenumber            qbs
    bash                      hadoop                    libpqxx                   qemu
    bdw-gc                    harfbuzz                  libpulsar                 quazip
    binaryen                  hebcal                    libqalculate              r
    bind                      helmfile                  librealsense              rawtoaces
    bit                       hexyl                     libressl                  rclone
    blast                     hfstospell                libssh                    readline
    boost                     hivemind                  libtorrent-rasterbar      rebar3
    botan                     hledger                   libuv                     restic
    btfs                      hlint                     libvisio                  ripgrep
    buildkit                  hopenpgp-tools            libvmaf                   rke
    bwfmetaedit               howdoi                    libxo                     roll
    carla                     htmlcxx                   linkerd                   root
    castxml                   http-parser               lmod                      rsyslog
    ccache                    httpd                     lynis                     ruby
    certbot                   hub                       lz4                       ruby-build
    chakra                    hugo                      mapnik                    rust
    chronograf                hydra                     maven                     rustup-init
    clang-format              hypre                     maxwell                   s-nail
    cmake                     i2p                       media-info                salt
    cmocka                    iamy                      memcached                 serverless
    cockroach                 icu4c                     meson                     shfmt
    cogl                      idnits                    mimic                     ship
    cointop                   igv                       mingw-w64                 sile
    conan                     ilmbase                   minio                     silk
    couchdb                   imagemagick               minio-mc                  skaffold
    cpprestsdk                imagemagick@6             mkvtoolnix                sn0int
    cromwell                  imake                     modules                   sonobuoy
    crowdin                   influxdb                  mono                      sops
    crystal                   iniparser                 mosquitto                 sqldiff
    crystal-icr               ios-sim                   mpd                       sqlite
    ctl                       ios-webkit-debug-proxy    mps-youtube               sqlite-analyzer
    cython                    iozone                    msmtp                     sqlmap
    dartsim                   ipbt                      mypy                      ssh-copy-id
    dbhash                    ipfs                      mysql                     stubby
    dfmt                      ipython                   n                         subversion
    digdag                    ircii                     nagios                    svgo
    dmd                       isl                       nano                      swagger-codegen
    docfx                     istioctl                  nats-streaming-server     swagger-codegen@2
    doctl                     itstool                   ncmpcpp                   swiftformat
    dwdiff                    jailkit                   neovim                    swiftlint
    emscripten                jbig2dec                  netdata                   synfig
    epubcheck                 jena                      newsboat                  tarantool
    erlang                    jenkins                   nghttp2                   tcpreplay
    erlang@20                 jetty                     nginx                     tectonic
    ethereum                  jfrog-cli-go              nifi                      telegraf
    exploitdb                 jhiccup                   node                      teleport
    faas-cli                  john                      node-build                tmux
    ffmpeg                    joplin                    node@10                   tmuxinator-completion
    field3d                   jp2a                      node@8                    tomcat
    firebase-cli              jruby                     nomad                     topgrade
    flatbuffers               json_spirit               numpy                     traefik
    flow                      jump                      ocamlbuild                triton
    fluxctl                   just                      octave                    tundra
    fn                        kafka                     odpi                      typescript
    freeling                  khard                     opencoarrays              ucloud
    freetds                   kibana@5.6                opencolorio               ultralist
    frps                      kitchen-sync              opencv                    urbit
    frugal                    klavaro                   opencv@2                  v8
    galen                     knot                      opencv@3                  vapoursynth
    gauge                     knot-resolver             openexr                   varnish
    gcc                       kore                      openimageio               vault
    gcc@5                     kotlin                    openrct2                  vcdimager
    gcc@6                     krb5                      openssh                   vim
    gcc@7                     kubeprod                  openvdb                   vips
    gegl                      kubernetes-cli            openvpn                   volt
    getdns                    kyoto-cabinet             operator-sdk              vte3
    ghc                       kyoto-tycoon              packer                    vtk
    ghq                       lastpass-cli              paket                     webdis
    gifsicle                  laszip                    parallel                  widelands
    git-lfs                   latex2html                passenger                 wp-cli
    gitfs                     latexml                   pazpar2                   wtf
    gitlab-runner             lbdb                      pbrt                      xonsh
    gitless                   lcdf-typetools            pcapplusplus              yaf
    gjs                       lego                      pcl                       yaz
    glances                   lgogdownloader            pcre2                     ykman
    glfw                      libatomic_ops             pdal                      you-get
    glib                      libb2                     pdfgrep                   youtube-dl
    glooctl                   libbluray                 pdnsrec                   zebra
    glslang                   libcddb                   php                       znc
    gmic                      libcdio                   php-cs-fixer              zorba
    gmsh                      libcdr                    php@7.1                   zstd
    go                        libchamplain              php@7.2
    goaccess                  libcoap                   phpunit
    ==> Deleted Formulae
    safe
    
    ==> Downloading https://homebrew.bintray.com/bottles/portaudio-19.6.0.high_sierra.bottle.tar.gz
    ######################################################################## 100.0%
    ==> Pouring portaudio-19.6.0.high_sierra.bottle.tar.gz
    ?  /usr/local/Cellar/portaudio/19.6.0: 33 files, 452KB
    alicedembp:~ alice$ pip3 install pyaudio
    Collecting pyaudio
      Using cached https://files.pythonhosted.org/packages/ab/42/b4f04721c5c5bfc196ce156b3c768998ef8c0ae3654ed29ea5020c749a6b/PyAudio-0.2.11.tar.gz
    Building wheels for collected packages: pyaudio
      Building wheel for pyaudio (setup.py) ... done
      Stored in directory: /Users/alice/Library/Caches/pip/wheels/f4/a8/a4/292214166c2917890f85b2f72a8e5f13e1ffa527c4200dcede
    Successfully built pyaudio
    Installing collected packages: pyaudio
    Successfully installed pyaudio-0.2.11
    alicedembp:~ alice$ 
    

    否则会出现错误提示:src/_portaudiomodule.c:29:10: fatal error: 'portaudio.h' file not found

    gcc -fno-strict-aliasing -Wsign-compare -fno-common -dynamic -DNDEBUG -g -fwrapv -O3 -Wall -arch i386 -arch x86_64 -g -DMACOSX=1 -I/Library/Frameworks/Python.framework/Versions/3.7/include/python3.7m -c src/_portaudiomodule.c -o build/temp.macosx-10.6-intel-3.7/src/_portaudiomodule.o
    
        src/_portaudiomodule.c:29:10: fatal error: 'portaudio.h' file not found
    
        #include "portaudio.h"
    
                 ^~~~~~~~~~~~~
    
        1 error generated.
    
        error: command 'gcc' failed with exit status 1

    SpeechRecognition的Demo调试

    import speech_recognition as sr
    
    r = sr.Recognizer()
    
    test = sr.AudioFile('/Users/alice/Documents/Work/Blog/AI/语音识别/speechrecognition/audiofiles/test1.wav')
    
    with test as source:
        audio = r.record(source)
    
    type (audio)
    
    r.recognize_google(audio, language='zh-CN', show_all= True)

     

    展开全文
  • Python实现语音识别(基于百度语音识别

    万次阅读 多人点赞 2018-12-26 22:45:35
    我是一名16级电子信息工程的学生,这是第一次发博客,...最近在自学Python def LuYin(Time,filename): CHUNK = 1024 #wav文件是由若干个CHUNK组成的,CHUNK我们就理解成数据包或者数据片段。 FORMAT = pyaudio.p...
  • 调用科大讯飞语音听写,使用Python实现语音识别,将实时语音转换为文字。 首先在官网下载了关于语音听写的SDK,然后在文件夹内新建了两个.py文件,分别是get_audio.py和iat_demo.py,并且新建了一个存放录音的文件夹...
  • 调用科大讯飞语音听写,使用Python实现语音识别,将实时语音转换为文字。 首先在官网下载了关于语音听写的SDK,然后在文件夹内新建了两个.py文件,分别是get_audio.py和iat_demo.py,并且新建了一个存放录音的...
  • 本demo测试时运行的环境为:Windows + Python3.7 本demo测试成功运行时所安装的第三方库及其版本如下,您可自行逐一或者复制到一个新的txt文件利用pip一次性安装: cffi1.12.3 gevent1.4.0 greenlet0.4.15 pycparser...
  • 目录语音识别 MFCC 隐马尔科夫模型声音合成 声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。 Python资源共享群:626017123 通过傅里叶变换,可以将时间域的声音...
  • 声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。...案例:画出语音信号的波形和频率分布,(freq.wav数据地址) # -*- encoding:utf-8 -*- imp...
  • Python实现语音识别:百度baidu-API

    千次阅读 2019-07-27 15:39:04
    百度语音识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。 上传需要完整的录音文件,录音文件时长不超过60s。 官方文档库:http://ai.baidu.com/docs#/ASR-Online-Python-SDK/top 调用方式 开发...
  • 主要介绍了如何通过python实现语音录入识别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
  • 主要为大家详细介绍了python实现百度语音识别api,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • Python 实时语音识别

    千次阅读 2019-08-01 11:32:20
    Python 实时语音识别语音识别语音识别API语音识别步骤效果展示代码下载 最近自己想接触下语音识别,经过一番了解和摸索,实现了对语音识别API的简单调用,正好写文章记录下。目前搜到的帖子里,有现成的调用百度语音...
  • 主要介绍了python语音识别speech模块,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
  • 参考链接: Python语音识别简介 广告关闭 云服务器1核2G首年99年,还有多款热门云产品满足您的上云需求 语音识别技术,也被称为自动语音识别,目标是以电脑自动将人类的语音内容转换为相应的文字。 应用包括...
  • python如何实现语音识别

    千次阅读 2019-12-26 08:50:17
    1.直接上Python代码,不过你需要准备一下。首先你需要注册一下百度账号,登录百度智能云。链接:https://cloud.baidu.com/ 2.注册成功后就可以管理控制台了 3.选择网页下面的语音技术 4.然后选择创建应用 5.然后...
  • 主要介绍了Python实现简单的语音识别系统,具有一定借鉴价值,需要的朋友可以参考下。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 27,870
精华内容 11,148
关键字:

python实现语音识别

python 订阅