精华内容
下载资源
问答
  • 通过语音识别模块,经STM32主控芯片处理,搭载语音合成模块,继电器模块,实现对家电的控制。
  • 推荐两款文字转语音(文字合成语音)TTS三方开发库.zip
  • 一款基于百度云开发的智能交互系统Demo,完美的合成语音识别,语音合成以及jieba分词的使用,便于开发功能的添加,可以让残疾人更好的操纵电脑,以及方便人们更加便捷智能的与计算机对话
  • 基于树莓派的语音识别和语音合成

    千次阅读 多人点赞 2019-11-20 22:33:08
    基于树莓派的语音识别和语音合成 摘要 语音识别技术即Automatic Speech Recognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令文字内容的技术。目前语音...

    基于树莓派的语音识别和语音合成

    摘要

    语音识别技术即Automatic Speech Recognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令及文字内容的技术。目前语音识别被广泛的应用于客服质检,导航,智能家居等领域。树莓派自问世以来,受众多计算机发烧友和创客的追捧,曾经一“派”难求。别看其外表“娇小”,内“心”却很强大,视频、音频等功能通通皆有,可谓是“麻雀虽小,五脏俱全”。本文采用百度云语音识别API接口,在树莓派上实现低于60s音频的语音识别,也可以用于合成文本长度小于1024字节的音频。
    此外,若能够结合snowboy离线语音唤醒引擎可实现离线语音唤醒,实现语音交互。

    材料:

    树莓派3B+ ×1
    USB声卡 ×1
    麦克风 ×1
    PC ×1
    音视频线材若干

    树莓派3B+

    实现过程:

    一、 百度云语音识别 python-SDK的安装

    1. 为了能够调用百度云语音识别API接口,需要申请属于自己的百度AI开发者账号,安装SDK(Software Development Kit,软件开发工具包)。
      申请属于自己的百度AI开发者账号

    2. 进入百度云平台,进入百度语音控制台后,创建自己的应用,获取属于你的ID号和密钥。
      创建应用获取ID号和密钥

    3. Python-SDK的下载与安装

      将下载的SDK包拷贝到树莓派pi目录下,终端界面解压安装,安装过程如下:
      解压包:unzip aip-python-sdk-2.0.0.zip
      安装SDK包: sudo pip install baidu-aip
      指令代码

    二.修改编辑官方python测试程序

    1. 语音识别程序:
    #_*_ coding:UTF-8 _*_
    # @author: zdl 
    # 百度云语音识别Demo,实现对本地语音文件的识别。
    # 需安装好python-SDK,录音文件不不超过60s,文件类型为wav格式。
    # 音频参数需设置为 单通道 采样频率为16K PCM格式 可以先采用官方音频进行测试
    
    # 导入AipSpeech  AipSpeech是语音识别的Python SDK客户端
    from aip import AipSpeech
    import os
    
    ''' 你的APPID AK SK  参数在申请的百度云语音服务的控制台查看'''
    APP_ID = '17xxxx11'
    API_KEY = 'QZhVe5xxxxxvhYVA'
    SECRET_KEY = 'bGlGGxbWLxxxxxxxxA8tshAGA'
    
    # 新建一个AipSpeech
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    
    
    # 读取文件
    def get_file_content(test):   #filePath  待读取文件名
        with open(test, 'rb') as fp:
            return fp.read()
    
            
    def stt(test):         # 语音识别
        # 识别本地文件
        result = client.asr(get_file_content(test),
                            'wav',
                            16000,
                            {'dev_pid': 1536,}      # dev_pid参数表示识别的语言类型 1536表示普通话
                            )
        print (result)
    
    
        # 解析返回值,打印语音识别的结果
        if result['err_msg']=='success.':
            word = result['result'][0].encode('utf-8')       # utf-8编码
            if word!='':
                if word[len(word)-3:len(word)]==',':
                    print (word[0:len(word)-3])
                    with open('demo.txt','wb+') as f:
                        f.write(word[0:len(word)-3])
                    f.close()
                else:
                    print (word.decode('utf-8').encode('gbk'))
                    with open('demo.txt','wb+') as f:
                        f.write(word)
                    f.close()
            else:
                print ("音频文件不存在或格式错误")
        else:
            print ("错误")
    
    # main函数 识别本地录音文件yahboom.wav
    if __name__ == '__main__':
        
        stt('test.wav')
    
    
    1. 语音合成程序:
    #_*_ coding:UTF-8 _*_
    # @author: zdl 
    # 百度云语音合成Demo,实现对本地文本的语音合成。
    # 需安装好python-SDK,待合成文本不超过1024个字节
    # 合成成功返回audio.mp3 否则返回错误代码
    
    # 导入AipSpeech  AipSpeech是语音识别的Python SDK客户端
    from aip import AipSpeech
    import os
    
    ''' 你的APPID AK SK  参数在申请的百度云语音服务的控制台查看'''
    APP_ID = '17xxxx1'
    API_KEY = 'QZhVxxxxxxxxxxxhYVA'
    SECRET_KEY = 'bGlGGxxxxxxxxxxxxPGP8A8tshAGA'
    
    # 新建一个AipSpeech
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    
    # 将本地文件进行语音合成
    def tts(demo):
        f = open(demo,'r')
        command = f.read()
        if len(command) != 0:
            word = command
        f.close()
        result  = client.synthesis(word,'zh',1, {
            'vol': 5,'per':0,
        })
        
    # 合成正确返回audio.mp3,错误则返回dict 
        if not isinstance(result, dict):
            with open('audio.mp3', 'wb') as f:
                f.write(result)
            f.close()
            print ('tts successful')
    
    # main
    
    if __name__ == '__main__':
    
    tts('demo.txt')
    
    

    测试和分析:

    测试过程中,我对此功能进行三次测试,测试用例分别为:

    1. 短句“北京理工大学”
    2. 短句“智能语音交互技术”
    3. 绕口令
      “刘奶奶找牛奶奶买牛奶,牛奶奶给刘奶奶拿牛奶,刘奶奶说牛奶奶的牛奶不如柳奶奶的牛奶,牛奶奶说柳奶奶的牛奶会流奶,柳奶奶听见了大骂牛奶奶你的才会流奶,柳奶奶和牛奶奶泼牛奶吓坏了刘奶奶,大骂再也不买柳奶奶和牛奶奶的牛奶”

    此三条测试用例,分别从长句和短句,简单含义和复杂含义,是否有易混音三个方面对比进行测试,对百度语音技术的准确性提出了较高的要求。

    测试前,需要提前用录音软件录制好三段音频,然后用Adobe Audition软件对音频格式化处理,因为百度智能云语音识别技术支持原始 PCM 的录音参数必须符合 16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

    结果及结论:

    测试一:短句“北京理工大学”
    短句“北京理工大学”

    测试二:短句“智能语音交互技术”
    短句“智能语音交互技术”

    测试三:绕口令
    绕口令

    三个测试均成功运行。

    语音识别方面,此程序成功运行后,会在python-IDE中产生返回值结果,并会在路径/home/pi内产生一个demo.txt文件,文件内容即为输入音频文件的文字识别结果。百度在语音识别方面做出的努力可见一斑,通过调整程序中的参数,可以识别除普通话以外其他语言的音频文件(如英语),而且准确度较高,尤其是短句识别甚高,在易混淆字音重复出现的绕口令中,仅将其中一个“柳”字错误识别为“牛”。
    在这里插入图片描述

    语音合成方面,程序以上述的demo.txt为输入,将文字上传到百度云数据库,转换成功后反馈“successful”到IDE界面,并在目录/home/pi文件夹下生成audio.wav音频文件,此文件即为由文字合成的语音。测试发现,次音频信号在生活中较为熟悉的停顿处有较为明显的顿挫感,但是在长难句中,无法做到顿挫处的智能识别。

    遇到的问题:

    在整个编程过程中,可以说是举步维艰,由于自身能力有限,初学python和Linux,导致在系统操作和规范方面有很多的盲区,导致犯了很多诸如Linux系统授权、python缩进、命令行书写等十分低级的错误,一度陷入程序不断报错却不知错在何处的尴尬境地。同时,由于百度语音识别技术对于上传的音频有着较为苛刻的要求,必须符合 16k 采样率、16bit 位深、单声道等,对于这些内容的不熟悉也走了很多弯路。
    最令我惊艳的是,百度智能云计算AI开放平台为程序员搭建了一个十分全面,而且性能强悍的平台,从语音到图像,再到智能数据,涉猎了我们所熟知的绝大多数AI领域,其中对不同实现方式进行了细致的备注和说明,为我实现此项目扫清了障碍。
    错误码

    深入开发的设想:

    在完成上述功能的实现之后,我尝试让树莓派实现类似与智能音箱的人机交互功能(全网已有大神实现),实现过程中无疑要用到snowboy引擎,它一款高度可定制的唤醒词检测引擎,可以用于实时嵌入式系统,并且始终监听(即使离线)。当前,它可以运行在 Raspberry Pi、(Ubuntu)Linux 和 Mac OS X 系统上。在一些棘手的解决方案中,它可以运行完整的自动语音识别(ASR,Automatic Speech Recognition)来执行热词检测。但是,我在尝试实现过程中遇到了几个无法解决的问题:

    1. 由于树莓派内置声卡没有麦克风,需要利用外接声卡执行热词唤醒,但是在Linux系统中更改声卡驱动成了我越不去的坎儿,尝试了网络上更改驱动的多种方式后,无一能更够成功更改,我仍需继续在Linux方向深入学习。
    2. 在树莓派上下载好portaudio后,编译过程中频繁报错,涉及到gcc相关内容,我在这方面仍需继续努力。

    致谢:

    感谢百度智能云提供的云计算支持

    参考文献:

    1. https://ai.baidu.com/docs#/ASR-Online-Python-SDK/f55e8c00
    2. https://www.cnblogs.com/rnckty/p/8067115.html
    3. https://blog.csdn.net/sinat_35162460/article/details/86544772
    4. https://snowboy.kitt.ai/
    5. https://blog.csdn.net/sinat_35162460/article/details/86547013

    成果
    作者:Boyle Zhao
    2019年11月于北京理工大学

    展开全文
  • 接下来介绍的是基于Arduino的智能家居语音识别系统设计。 设计思路起源: 晚上回到家,家里黑漆漆一片,得找到开灯的按钮才算完事,有时候在想,如果灯泡会听话该多好啊,有了这个想法,智能家居就应运而生了,我们用...
  • Unity Baidu语音识别+图灵聊天机器人+baidu语音合成 1、在Unity中整合百度识别,图灵聊天机器人,百度语音合成 2、三个独立的,可以根据需要整合成一个语音聊天机器人
  • 基于Java的利用科大讯飞提供的MSC SDK实现语音模拟和语音识别。具有简单的界面。
  • 人工智能之语音合成语音识别

    千次阅读 2019-09-30 12:47:47
    目前市面上主流的AI技术提供公司有很多,比如百度,阿里,腾讯,主做语音的科大讯飞,做只能问答的图灵机器人等等 这些公司投入了很大一部分财力物力人力将底层封装,提供应用接口给我们,尤其是百度,完全免费的接口 既然...

    人工智能

    此篇是人工智能应用的重点,只用现成的技术不做底层算法,也是让初级程序员快速进入人工智能行业的捷径

    目前市面上主流的AI技术提供公司有很多,比如百度,阿里,腾讯,主做语音的科大讯飞,做只能问答的图灵机器人等等

    这些公司投入了很大一部分财力物力人力将底层封装,提供应用接口给我们,尤其是百度,完全免费的接口

    既然百度这么仗义,咱们就不要浪费掉怎么好的资源,从百度AI入手,开启人工智能之旅

    开启人工智能技术的大门 : http://ai.baidu.com/

    看看我大百度的AI大法,这些技术全部都是封装好的接口,看着就爽

    接下来咱们就一步一步的操作一下

    首先进入控制台,注册一个百度的账号(百度账号通用)

    开通一下我们百度AI开放平台的授权

    然后找到已开通服务中的百度语音

     就可以创建应用了,回到应用列表我们可以看到已创建的应用了

     

    安装百度的人工智能SDK:

    首先咱们要 pip install baidu-aip 安装一个百度人工智能开放平台的Python SDK实在是太方便了,这也是为什么我们选择百度人工智能的最大原因

    语音合成

     其中参数:

     

    这个时候audio.mp3就出来了,可以使用播放器播放,也可使用os模块调用os.steam(文件名)播放

    语音识别:

    哎,每次到这里,我都默默无语泪两行,声音这个东西格式太多样化了,如果要想让百度的SDK识别咱们的音频文件,就要想办法转变成百度SDK可以识别的格式PCM

    目前DragonFire已知可以实现自动化转换格式并且屡试不爽的工具 : FFmpeg 这个工具的下载地址是 : 链接:https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg 密码:w6hk

    FFmpeg 环境变量配置:

    首先你要解压缩,然后找到bin目录,我的目录是 D:\python\ffmpeg-20180619-a990184-win64-shared\bin

    尝试一下,是否配置成功

    看到这个界面就算配置成功了,配置成功有什么用呢, 这个工具可以将wav wma mp3 等音频文件转换为 pcm 无压缩音频文件

    做一个测试,首先要打开windows的录音机,录制一段音频(说普通话)

    现在假设录制的音频文件的名字为 audio.wav 放置在 D:\kujiaweiAudio\

    然后我们用命令行对这个 audio.wav 进行pcm格式的转换然后得到 audio.mp3

    命令是 : ffmpeg -y  -i audio.mp3  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 audio.pcm

    其中参数:

     

     

    运行结果如下:

     

    转载于:https://www.cnblogs.com/kujiawei/p/10595170.html

    展开全文
  •  听 ==语音识别  说 ==语音合成  看 ==图像视频文字识别  理解 ==语言(文字)图像视频理解等逻辑处理  思考 ==理解后的逻辑处理 2.目前人工智能做了什么?  语音识别:小米的小爱同学,苹果 的siri,微软的...

    1.什么是人工智能?

      顾名思义就是由人创造的"智慧能力",具备听说看理解等能力.

      听 ==语音识别

      说 ==语音合成

      看 ==图像视频文字识别

      理解 ==语言(文字)图像视频理解等逻辑处理

      思考 ==理解后的逻辑处理

    2.目前人工智能做了什么?

      语音识别:小米的小爱同学,苹果 的siri,微软的Cortana

      语音合成:小米的小爱同学,苹果 的siri,微软的Cortana

      图像识别:交通摄像头拍违章,刷脸解锁手机等

      视频识别:抖音内容审核,视频社交APP的审核机制

      文字识别:从身份证照片提取身份证号码,扫一扫翻译

    3.人工智能平台 --百度AI:ai.baidu.com

    • 创建一个应用

      >>>>>>>>>>>>>>>>>>>>>>>

     

     

    • 创建好应用后,在查看应用详情时,会有几个重要的信息

      

    •  编辑:可以重新对一些接口的选择

    • 查看文档:对各种功能如语音识别,语音合成等等的介绍,使用方法,接口等的描述,通过查看文档可以快速的掌握各种功能

     

     

    4.语音合成的实例:把文本合成语音

    • SDK:就是为某软件专门封装的接口

    语音合成文档>>>>>>sdk文档>>>>>>>.Python文档(仔细阅读文档)

      1.Python SDK 接口能力:将文字转换成音频文件的技术

      2.注意事项  合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。切忌文本长度超过限制

      3.安装语音合成Python SDK 

    • 如果已安装pip,执行pip install baidu-aip即可。
    • 如果已安装setuptools,执行python setup.py install即可。

       4.新建AipSpeech   

          AipSpeech是语音合成的Python SDK客户端,为使用语音合成的开发人员提供了一系列的交互方法。

    • 参考如下代码新建一个AipSpeech:
    • 参数对应的是,查看应用详情时,里面的几个重要的信息
    from aip import AipSpeech
    
    """ 你的 APPID AK SK """
    APP_ID = '你的 App ID'
    API_KEY = '你的 Api Key'
    SECRET_KEY = '你的 Secret Key'
    
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

      5.把一段文字合成为语音文件(实例):

     

    result  = client.synthesis('你好百度', 'zh', 1, {
        'vol': 5, #音量大小
        "spd":5,  #语速
        "pit":5,  #语调
        "per":1, #情感发音      
    })
    
    # 识别正确返回语音二进制 错误则返回dict 参照下面错误码
    if not isinstance(result, dict):
        with open('audio.mp3', 'wb') as f:
            f.write(result)

          

    5. 语音识别:将一个可读的语音文件转换成计算机可识别的字符串序列

    •  语音识别文档>>>>>>sdk文档>>>>>>>.Python文档(仔细阅读文档)
    • 支持的语音格式

         原始 PCM 的录音参数必须符合 8k/16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

    •  注意事项:目前系统支持的语音时长上限为60s,请不要超过这个长度,否则会返回错误。

    5.1.安装语音合成Python SDK 

    • 如果已安装pip,执行pip install baidu-aip即可。
    • 如果已安装setuptools,执行python setup.py install即可。

    5.2.新建AipSpeech 

    • 参数对应的是,查看应用详情时,里面的几个重要的信息
    from aip import AipSpeech
    
    """ 你的 APPID AK SK """
    APP_ID = '你的 App ID'
    API_KEY = '你的 Api Key'
    SECRET_KEY = '你的 Secret Key'
    
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

     

    •  接口说明:向远程服务上传整段语音进行识别后返回字符串

     5.3.要对保存有一段语音的语音文件进行识别(实例):

    # 读取文件
    def get_file_content(filePath):
    
        with open(filePath, 'rb') as fp:
            return fp.read()
    
    # 识别本地文件
    ret = client.asr(get_file_content('audio2.pcm'), 'pcm', 16000, {
        'dev_pid': 1536,
    })
    print(ret.get('result')[0])#得到语音文件的文本内容

     

    •  dev_pid 参数列表

     

    5.4.自动转换文件格式,然后识别文件   使用os模块

    import os
    from aip import AipSpeech
    """ 你的 APPID AK SK """
    APP_ID = '16027163'
    API_KEY = 'wFXvuArTz8aWFou05jjs8XIG'
    SECRET_KEY = 'Ty6jGhtdR9GzCs8smn5HRGNNwtz0QkUQ'
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    
    
    # 读取文件
    def get_file_content(filePath):
        os.system(f'ffmpeg -y  -i {filePath}  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {filePath}.pcm')
        with open(f'{filePath}.pcm', 'rb') as fp:
            return fp.read()
    
    
    ret = client.asr(get_file_content('2.m4a'), 'pcm', 16000, {
        'dev_pid': 1536,
    })
    print(ret.get('result')[0])#得到语音文件的文本内容

     

    转载于:https://www.cnblogs.com/l1222514/p/10718452.html

    展开全文
  • 百度云实现语音识别及语音合成

    千次阅读 2018-12-11 08:45:28
    查看技术文档,下面附上我的语音合成及识别的代码: from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = '15079673' API_KEY = 'mGxvq3Nwr3aVjD4UFIFGsaMD' SECRET_KEY...

     

    第一步,点击人工智能,语音合成,然后立即使用:

    然后再应用列表里面创建应用:

    查看技术文档,下面附上我的语音合成及识别的代码:

    from aip import AipSpeech
    
    """ 你的 APPID AK SK """
    APP_ID = '15079673'
    API_KEY = 'mGxvq3Nwr3aVjD4UFIFGsaMD'
    SECRET_KEY = 'YIN3wxizj16zCRYZ6EGpdopuA6FwHRhB'
    
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    result  = client.synthesis('欢迎入住酒店,祝您入住愉快', 'zh', 1, {
        'vol': 5,
    })
    
    # 识别正确返回语音二进制 错误则返回dict 参照下面错误码
    if not isinstance(result, dict):
        with open('test.mp3', 'wb') as f:
            f.write(result)
    
    from aip import AipSpeech
    import os
    """ 你的 APPID AK SK """
    APP_ID = '14992590'
    API_KEY = 'sMz9feVUT9DkdemD0iwsVlD8'
    SECRET_KEY = 'EIKmYpTP71oKuBWuauIOZfGwwbTiRUOC'
    
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    # 读取文件
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()
    while True:
        os.system('arecord -D "plughw:1" -f S16_LE -r 16000 -d 8 voice.pcm')#录音
        # 识别本地文件
        a = client.asr(get_file_content('voice.pcm'), 'pcm', 16000, {'dev_pid': 1536,})
        #print(a)
        b=str(a['result'])
        print(b[2:-2])
    

     

    展开全文
  • 语音识别1.1 MFCC1.2 隐马尔科夫模型2. 声音合成 博客地址:https://www.cnblogs.com/LXP-Never/p/11415110.html 声音的本质是振动,振动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。 ...
  • 语音识别智能分类垃圾桶基本介绍器件51单片机LD3320语音模块SYN6288语音合成SG90舵机(4个)usb-ttl模块垃圾桶四个(4个)面包板(建议用)实现思路与接线实现流程图接线呈现图代码编写语音模块(部分代码)语音模块...
  • 语音识别/合成开源项目

    千次阅读 2018-04-10 11:36:44
    转自:https://blog.csdn.net/github_19776427/article/details/52530066语音识别项目:http://www.oschina.net/project/tag/203/tts-speech sf.net ...amp;l=chttp:/...
  • 接上一篇文章,这次是集合了语音识别+语音合成(就是语音播报实现一种反馈)+SG90舵机实现垃圾桶的开与闭,给出上篇文章链接,如果对LD3320语音识别还有问题的朋友可以看看:LD3320语音识别模块与Arduino软串口通讯...
  • 本文采用百度云语音识别API接口,实现低于60s音频的语音识别,也可以用于合成文本长度小于1024字节的音频,此外采用snowboy离线语音唤醒引擎可实现离线语音唤醒,实现语音交互。基于本内容可实现语音控制小车,语音...
  • 深度学习-语音识别实战(Python)视频教程分享; 章节1 seq2seq序列网络模型 章节2 LAS语音识别模型实战 章节3 starganvc2变声器论文原理解读 章节4 starganvc2变声器源码实战 章节5 语音分离ConvTasnet模型 章节6 ...
  • 一前沿 语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一它是一门交叉学科正逐步成为信息技术中人机接口的关键技术语音识别 技术与语音合成技术结合使人们能够甩掉键盘通过语音命令进行操作...
  • 百灵智能语音识别模块- Lark7618语音识别wifi模块是一款集成云端语音识别、语音合成、语音唤醒和MP3解码等功能于一身的模块级产品。Lark7618的语音交互识别功能,可广泛应用于物联网、智能家居、智能家电、智能硬件...
  • 用Visual studio 2019,C#语言,语音识别及合成 本人以前从没有接触过代码,所以下面写的内容非常基础简单,请大佬勿喷。主要是为了记录一下刚接触代码三天的收获——windows环境下语音合成语音识别 一、Visual ...
  • 但图灵机器人只支持文本对话,并不支持语音交互,所以本程序运用了第三方库百度语音识别/合成,来实现语音交互。 我们还可以将下载好的音乐放入指定文件夹,进行简单的配置后还能点歌。 1.登录图灵机器人官网:...
  • 我将带领大家一起来学习:Qt采集麦克风及智能语音识别。 具体内容包括: 1.Qt采集麦克风并存储为PCM。 2.Qt使用HTTP的POST方式提交数据。 3.使用百度语音识别技术智能识别PCM,并显示文字。  
  • 人工智能 - 语音合成,语音识别,语音聊天机器人 现成的AI算法平台http://ai.baidu.com/ 语音合成 根据百度大佬提供的文档,作出vb.net教程以下小栗子: 1.下载 pip install baidu-aip 2.代码 from aip import AipSpeech...
  • 本例子是一个微信语音的例子源码,微信语音开放平台致力于为开发者提供免费的语音技术,目前已经开放的语音技术包括在线语音识别、在线语音合成等。语音识别功能已经在微信上使用并获好评无数,提高了聊天输入效率,...
  • 简要给大家介绍一下语音怎么变文字的吧。需要说明的是,这篇文章为了易读性而牺牲了严谨性,因此文中的很多表述实际上是不准确的。对于有兴趣深入了解的同学,本文的末尾推荐了几份进阶阅读材料。下面我们开始。 ...
  • 感谢阅读腾讯AI Lab微信号第107篇文章。本文将分组介绍语音领域顶级会议 INTERSPEECH 2020 中腾讯 AI Lab 的重点研究方向和入选论文。语音技术顶级会议 INTE...
  • 本模块已经编译好了 可以直接使用 也有源码在里面 对freeswitch的空号识别有兴趣 已经想学习编写freeswitch模块的人 可以下载看看
  • 智能云端语音识别

    2020-10-27 18:39:56
    广告关闭2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品。未来,我们一起乘风破浪... 点击下载演讲资料:王之捷:ai智能云端架构大幅提升智能语音识别能力.pdfai智能云端架构大幅提升智能...
  • 在阿里云上的语音识别竟然没有PHP的SDK,而通过他们官方的所谓PHP的openSDK根本也没办法使用,于是,我基于他们的JAVA SDK改写成了PHP SDK,绝对可用!! 里面有些类是挪用了阿里云的官方php OpenSDK中core的代码 ...
  • 该存储库包含我在演讲中提到的源代码:“语音用户界面... 虽然语音识别,解释和文本语音合成器由电话设备和操作系统制造商解决,但如何捕获知识并使智能软件代理可以访问知识的核心问题被忽略,并且所有服务(如SIRI或G
  • 人工智能语音识别技术(四)

    千次阅读 2020-10-26 15:23:53
    它和认知科学、心理学、语音学、计算机科学、模式识别和人工智能等学科有着紧密的联系。 语音信号处理的目的是要得到某些语音特征参数以便高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,例如人工...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,440
精华内容 5,376
关键字:

智能语音识别及合成