精华内容
下载资源
问答
  • 百度云实现语音识别及语音合成

    千次阅读 2018-12-11 08:45:28
    查看技术文档,下面附上我的语音合成及识别的代码: from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = '15079673' API_KEY = 'mGxvq3Nwr3aVjD4UFIFGsaMD' SECRET_KEY...

     

    第一步,点击人工智能,语音合成,然后立即使用:

    然后再应用列表里面创建应用:

    查看技术文档,下面附上我的语音合成及识别的代码:

    from aip import AipSpeech
    
    """ 你的 APPID AK SK """
    APP_ID = '15079673'
    API_KEY = 'mGxvq3Nwr3aVjD4UFIFGsaMD'
    SECRET_KEY = 'YIN3wxizj16zCRYZ6EGpdopuA6FwHRhB'
    
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    result  = client.synthesis('欢迎入住酒店,祝您入住愉快', 'zh', 1, {
        'vol': 5,
    })
    
    # 识别正确返回语音二进制 错误则返回dict 参照下面错误码
    if not isinstance(result, dict):
        with open('test.mp3', 'wb') as f:
            f.write(result)
    
    from aip import AipSpeech
    import os
    """ 你的 APPID AK SK """
    APP_ID = '14992590'
    API_KEY = 'sMz9feVUT9DkdemD0iwsVlD8'
    SECRET_KEY = 'EIKmYpTP71oKuBWuauIOZfGwwbTiRUOC'
    
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    # 读取文件
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()
    while True:
        os.system('arecord -D "plughw:1" -f S16_LE -r 16000 -d 8 voice.pcm')#录音
        # 识别本地文件
        a = client.asr(get_file_content('voice.pcm'), 'pcm', 16000, {'dev_pid': 1536,})
        #print(a)
        b=str(a['result'])
        print(b[2:-2])
    

     

    展开全文
  • 中国移动近日推出的“灵犀云”,作为新一代的智能语音云平台,正致力于为应用提供全方位的智能语音能力服务,带给用户高效、准确、智能的交互体验。 基于中移动与语音行业领军者科大讯飞的深度战略合作背景,...

    随着智能家居概念的火热,语音交互这一新时代的人机交互方式再度掀起了热潮。移动互联网应用在设计开发时也纷纷考虑加入语音识别功能,带给用户除传统键盘或触控交互方式外的更便捷交互体验。中国移动近日推出的“灵犀云”,作为新一代的智能语音云平台,正致力于为应用提供全方位的智能语音能力服务,带给用户高效、准确、智能的交互体验。


    基于中移动与语音行业领军者科大讯飞的深度战略合作背景,灵犀云的核心技术源自科大讯飞。凭借电信级网络及4G服务的优势,灵犀云在语音服务质量上具备领先优势。这也是继双方此前面向广大用户推出灵犀语音助手APP后,中移动向广大应用开发者们呈献的一大利器,助力应用进入智能交互时代。


    这篇文章主要介绍利用灵犀云SDK(iOS)实现语音识别和语音合成的方法:


    1、注册并登录中国移动开发者社区 http://dev.10086.cn(建议使用IE或IE内核浏览器)


    2、登录成功后,点击下图红框指示的“申请能力应用”



    3、点击“申请能力应用”按钮



    4、填写您应用的基本信息




    5、语音服务AppID申请成功,之后点击下方按钮下载SDK。




    6、开始集成吧!

    6.1 iOS 语音控件SDK 接口和体系结构



    6.2 iOS 语音控件SDK 资源占用描述



    6.3  创建iOS工程
    在XCode中建立你的工程,或者打开已经建立的工程。


    6.4 添加静态库

    将开发工具包中lib目录下的iflyMSC.framework添加到新建工程中(如下图所示)。









    6.5 添加framework

    按下图添加SDK所需要的iOS 库



    6.6 确认SDK的路径


    请确认上图红色部分的路径能够找到iflyMSC.framework。为了支持多人开发,建议双击红色部分,把路径改为相对路径,例如像下图所示。


    注意:请把不必要的路径删除。例如更新了SDK后,新的SDK和旧的SDK不在同一路径,请把旧路径删除,避免引用到旧的库。对应集成SDK后发现编译失败,提示找不到头文件,请先检查这个路径是否正确。


    6.7 导入头文件

    在你需要使用MSC服务的文件中导入相应的头文件

    例如:

    //带界面的语音识别控件

    #import “iflyMSC/IFlyRecognizerViewDelegate.h” 
    #import “iflyMSC/IFlyRecognizerView.h”
    //不带界面的语音识别控件
    #import “iflyMSC/IFlySpeechRecognizerDelegate.h” 
    #import “iflyMSC/IFlySpeechRecognizer.h”
    //不带界面的语音合成控件
    #import “iflyMSC/IFlySpeechSynthesizerDelegate.h” 
    #import “iflyMSC/IFlySpeechSynthesizer.h”


    6.8 集成帮助文档到Xcode

    打开终端(terminal 或 iterm),cd到压缩包的doc目录,执行以下命令:

    cp -R -f -a com.iflytek.documentation.IFlyMSC.docset 
    ~/Library/Developer/Shared/Documentation/DocSets/

    然后执行命令

    open ~/Library/Developer/Shared/Documentation/DocSets/
    请核对文档的版本为最新下载的版本



    打开Xcode的帮助文档就可以看到已经集成的文档



    7、在代码中使用开发工具包

    7.1 初始化

    创建用户语音配置对象后才可以使用语音服务,建议在程序入口处调用。 

    //将“12345678”替换成您申请的APPID,申请地址:http://dev.10086.cn/
    
    NSString *initString = [[NSString alloc] initWithFormat:@"appid=%@",@” 12345678”];
    [IFlySpeechUtility createUtility:initString];
    

    7.2 语音转写(带界面示例)

    使用示例如下图所示:

    //头文件定义
    //需要实现IFlyRecognizerViewDelegate,为识别会话的服务代理
    @interface RecognizerViewController :  UIViewController<IFlyRecognizerViewDelegate>
    {
    IFlyRecognizerView
    *_iflyRecognizerView;
    }
    //初始化语音识别控件
    _iflyRecognizerView = [[IFlyRecognizerView alloc] initWithCenter:self.view.center];
    _iflyRecognizerView.delegate =  self;
    [_iflyRecognizerView setParameter: @"iat" forKey: [IFlySpeechConstant IFLY_DOMAIN]];
    //asr_audio_path保存录音文件名,如不再需要,设置value为nil表示取消,默认目录是documents
    [_iflyRecognizerView setParameter:@"asrview.pcm "  forKey:[IFlySpeechConstant
    ASR_AUDIO_PATH]];
    //启动识别服务
    [_iflyRecognizerView  start];
    /*识别结果返回代理
    @param resultArray识别结果
    @ param isLast表示是否最后一次结果
    */
    - (void)onResult: (NSArray *)resultArray isLast:(BOOL) isLast
    {
    }
    /*识别会话错误返回代理
    @ param    error错误码
    */
    - (void)onError: (IFlySpeechError *)  error
    {
    }
    

    7.3 语音合成(不带界面示例)

    使用示例如下图所示:

    //头文件定义
    //需要实现IFlySpeechSynthesizerDelegate,为合成会话的服务代理
    @interface TTSViewController :  UIViewController<IFlySpeechSynthesizerDelegate>
    {
    IFlySpeechSynthesizer
    * _iFlySpeechSynthesizer;
    }
    //创建合成对象,为单例模式
    _iFlySpeechSynthesizer = [IFlySpeechSynthesizer  sharedInstance];
    _iFlySpeechSynthesizer.delegate =  self;
    //设置语音合成的参数
    //语速,取值范围  0~100
    [_iFlySpeechSynthesizer setParameter:@"50" forKey:[IFlySpeechConstant SPEED]];
    //音量;取值范围  0~100
    [_iFlySpeechSynthesizer setParameter:@"50" forKey: [IFlySpeechConstant VOLUME]];
    //发音人,默认为”xiaoyan”;可以设置的参数列表可参考个性化发音人列表
    [_iFlySpeechSynthesizer setParameter:@" xiaoyan " forKey: [IFlySpeechConstant
    VOICE_NAME]];
    //音频采样率,目前支持的采样率有  16000和     8000
    [_iFlySpeechSynthesizer setParameter:@"8000" forKey: [IFlySpeechConstant SAMPLE_RATE]];
    //asr_audio_path保存录音文件路径,如不再需要,设置value为nil表示取消,默认目录是
    documents
    [_iFlySpeechSynthesizer setParameter:@" tts.pcm" forKey: [IFlySpeechConstant
    TTS_AUDIO_PATH]];
    //启动合成会话
    [_iFlySpeechSynthesizer startSpeaking: @”你好,我是中国移动的小燕”];
    //合成结束,此代理必须要实现
    - (void) onCompleted:(IFlySpeechError *) error{}
    //可选接口
    - (void) onSpeakBegin{
    //合成开始}
    - (void) onBufferProgress:(int) progress message:(NSString *)msg{
    //合成缓冲进度}
    - (void) onSpeakProgress:(int) progress{
    //合成播放进度}
    

    7.4 语义示例

    使用示例如下图所示:

    //注:如需使用语义功能,请先将需求直接发送邮件到灵犀云客服邮箱lingxicloud@139.com进行
    审核配置
    _iFlySpeechUnderstander = [IFlySpeechUnderstander  sharedInstance];
    _iFlySpeechUnderstander.delegate =  self;
    [_iFlySpeechUnderstander startListening]; //启动识别服务
    /*语义识别结果返回代理
    @param resultArray识别结果
    @ param isLast表示是否最后一次结果
    */
    - (void) onResults:(NSArray *) results isLast:(BOOL) isLast
    {
    }
    -(void) onError:(IFlySpeechError*) error
    {
    

    7.5 上传联系人

    使用示例如下图所示:

    //创建上传对象
    _uploader = [[IFlyDataUploader alloc] init];
    //获取联系人集合
    IFlyContact *iFlyContact = [[IFlyContact alloc] init];
    NSString *contactList = [iFlyContact  contact];
    //设置参数
    [_uploader setParameter:@"uup" forKey:@"subject"];
    [_uploader setParameter:@"contact" forKey:@"dtt"];
    //启动上传
    [_uploader uploadDataWithCompletionHandler:^(NSString * grammerID, IFlySpeechError *error)
    {
    //接受返回的grammerID和error
    [self onUploadFinished:grammerID error:error];
    }name:@"contact" data:  contactList];


    7.6 用户词表的上传

    使用示例如下图所示:

    //创建上传对象
    _uploader = [[IFlyDataUploader alloc] init];
    //用户词表
    #define USERWORDS       @"{\"userword\":[{\"name\":\"cmcc\",\"words\":[\"德国盐猪手
    \",\"1912酒吧街\",\"清蒸鲈鱼\",\"挪威三文鱼\",\"黄埔军校\",\"横沙牌坊\",\"中国移动\",\”
    王小贰\”]}]}"
    #define NAME @"userwords"
    //生成用户词表对象
    IFlyUserWords *iFlyUserWords = [[IFlyUserWords alloc] initWithJson:USERWORDS  ];
    //设置参数
    [_uploader setParameter:@"iat" forKey:@"sub"];
    [_uploader setParameter:@"userword" forKey:@"dtt"];
    [_uploader uploadDataWithCompletionHandler:^(NSString * grammerID,  IFlySpeechError
    *error)
    {
    //接受返回的grammerID和error
    [self onUploadFinished:grammerID error:error];
    

    7.7 abnf语法上传示例

    // ABNF语法示例,可以说”北京到上海”
    #define ABNFPARAM @”sub=asr,dtt=abnf”
    #define ABNFDATA = “#ABNF 1.0 gb2312;
    language  zh-CN;
    mode voice;
    root $main;
    $main = $place1到$place2   ;
    $place1 =北京    |武汉     |南京    |天津     |天京    |东京;
    $place2 =上海    |合肥;”
    //创建上传对象
    _uploader = [[IFlyDataUploader alloc] init];
    //设置参数
    [_uploader setParameter:@"asr" forKey:@"sub"];
    [_uploader setParameter:@"abnf" forKey:@"dtt"];
    //上传 abnf语法
    [_uploader uploadDataWithCompletionHandler:^(NSString * grammerID,  IFlySpeechError
    *error)
    {
    //接受返回的grammerID和error
    [self  setGrammerId:grammerID];
    }name:ABNFNAME  data:ABNFDATA];
    





    展开全文
  • 基于树莓派的语音识别和语音合成

    千次阅读 热门讨论 2019-11-20 22:33:08
    基于树莓派的语音识别和语音合成 摘要 语音识别技术即Automatic Speech Recognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令文字内容的技术。目前语音...

    基于树莓派的语音识别和语音合成

    摘要

    语音识别技术即Automatic Speech Recognition(简称ASR),是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令及文字内容的技术。目前语音识别被广泛的应用于客服质检,导航,智能家居等领域。树莓派自问世以来,受众多计算机发烧友和创客的追捧,曾经一“派”难求。别看其外表“娇小”,内“心”却很强大,视频、音频等功能通通皆有,可谓是“麻雀虽小,五脏俱全”。本文采用百度云语音识别API接口,在树莓派上实现低于60s音频的语音识别,也可以用于合成文本长度小于1024字节的音频。
    此外,若能够结合snowboy离线语音唤醒引擎可实现离线语音唤醒,实现语音交互。

    材料:

    树莓派3B+ ×1
    USB声卡 ×1
    麦克风 ×1
    PC ×1
    音视频线材若干

    树莓派3B+

    实现过程:

    一、 百度云语音识别 python-SDK的安装

    1. 为了能够调用百度云语音识别API接口,需要申请属于自己的百度AI开发者账号,安装SDK(Software Development Kit,软件开发工具包)。
      申请属于自己的百度AI开发者账号

    2. 进入百度云平台,进入百度语音控制台后,创建自己的应用,获取属于你的ID号和密钥。
      创建应用获取ID号和密钥

    3. Python-SDK的下载与安装

      将下载的SDK包拷贝到树莓派pi目录下,终端界面解压安装,安装过程如下:
      解压包:unzip aip-python-sdk-2.0.0.zip
      安装SDK包: sudo pip install baidu-aip
      指令代码

    二.修改编辑官方python测试程序

    1. 语音识别程序:
    #_*_ coding:UTF-8 _*_
    # @author: zdl 
    # 百度云语音识别Demo,实现对本地语音文件的识别。
    # 需安装好python-SDK,录音文件不不超过60s,文件类型为wav格式。
    # 音频参数需设置为 单通道 采样频率为16K PCM格式 可以先采用官方音频进行测试
    
    # 导入AipSpeech  AipSpeech是语音识别的Python SDK客户端
    from aip import AipSpeech
    import os
    
    ''' 你的APPID AK SK  参数在申请的百度云语音服务的控制台查看'''
    APP_ID = '17xxxx11'
    API_KEY = 'QZhVe5xxxxxvhYVA'
    SECRET_KEY = 'bGlGGxbWLxxxxxxxxA8tshAGA'
    
    # 新建一个AipSpeech
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    
    
    # 读取文件
    def get_file_content(test):   #filePath  待读取文件名
        with open(test, 'rb') as fp:
            return fp.read()
    
            
    def stt(test):         # 语音识别
        # 识别本地文件
        result = client.asr(get_file_content(test),
                            'wav',
                            16000,
                            {'dev_pid': 1536,}      # dev_pid参数表示识别的语言类型 1536表示普通话
                            )
        print (result)
    
    
        # 解析返回值,打印语音识别的结果
        if result['err_msg']=='success.':
            word = result['result'][0].encode('utf-8')       # utf-8编码
            if word!='':
                if word[len(word)-3:len(word)]==',':
                    print (word[0:len(word)-3])
                    with open('demo.txt','wb+') as f:
                        f.write(word[0:len(word)-3])
                    f.close()
                else:
                    print (word.decode('utf-8').encode('gbk'))
                    with open('demo.txt','wb+') as f:
                        f.write(word)
                    f.close()
            else:
                print ("音频文件不存在或格式错误")
        else:
            print ("错误")
    
    # main函数 识别本地录音文件yahboom.wav
    if __name__ == '__main__':
        
        stt('test.wav')
    
    
    1. 语音合成程序:
    #_*_ coding:UTF-8 _*_
    # @author: zdl 
    # 百度云语音合成Demo,实现对本地文本的语音合成。
    # 需安装好python-SDK,待合成文本不超过1024个字节
    # 合成成功返回audio.mp3 否则返回错误代码
    
    # 导入AipSpeech  AipSpeech是语音识别的Python SDK客户端
    from aip import AipSpeech
    import os
    
    ''' 你的APPID AK SK  参数在申请的百度云语音服务的控制台查看'''
    APP_ID = '17xxxx1'
    API_KEY = 'QZhVxxxxxxxxxxxhYVA'
    SECRET_KEY = 'bGlGGxxxxxxxxxxxxPGP8A8tshAGA'
    
    # 新建一个AipSpeech
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    
    # 将本地文件进行语音合成
    def tts(demo):
        f = open(demo,'r')
        command = f.read()
        if len(command) != 0:
            word = command
        f.close()
        result  = client.synthesis(word,'zh',1, {
            'vol': 5,'per':0,
        })
        
    # 合成正确返回audio.mp3,错误则返回dict 
        if not isinstance(result, dict):
            with open('audio.mp3', 'wb') as f:
                f.write(result)
            f.close()
            print ('tts successful')
    
    # main
    
    if __name__ == '__main__':
    
    tts('demo.txt')
    
    

    测试和分析:

    测试过程中,我对此功能进行三次测试,测试用例分别为:

    1. 短句“北京理工大学”
    2. 短句“智能语音交互技术”
    3. 绕口令
      “刘奶奶找牛奶奶买牛奶,牛奶奶给刘奶奶拿牛奶,刘奶奶说牛奶奶的牛奶不如柳奶奶的牛奶,牛奶奶说柳奶奶的牛奶会流奶,柳奶奶听见了大骂牛奶奶你的才会流奶,柳奶奶和牛奶奶泼牛奶吓坏了刘奶奶,大骂再也不买柳奶奶和牛奶奶的牛奶”

    此三条测试用例,分别从长句和短句,简单含义和复杂含义,是否有易混音三个方面对比进行测试,对百度语音技术的准确性提出了较高的要求。

    测试前,需要提前用录音软件录制好三段音频,然后用Adobe Audition软件对音频格式化处理,因为百度智能云语音识别技术支持原始 PCM 的录音参数必须符合 16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

    结果及结论:

    测试一:短句“北京理工大学”
    短句“北京理工大学”

    测试二:短句“智能语音交互技术”
    短句“智能语音交互技术”

    测试三:绕口令
    绕口令

    三个测试均成功运行。

    语音识别方面,此程序成功运行后,会在python-IDE中产生返回值结果,并会在路径/home/pi内产生一个demo.txt文件,文件内容即为输入音频文件的文字识别结果。百度在语音识别方面做出的努力可见一斑,通过调整程序中的参数,可以识别除普通话以外其他语言的音频文件(如英语),而且准确度较高,尤其是短句识别甚高,在易混淆字音重复出现的绕口令中,仅将其中一个“柳”字错误识别为“牛”。
    在这里插入图片描述

    语音合成方面,程序以上述的demo.txt为输入,将文字上传到百度云数据库,转换成功后反馈“successful”到IDE界面,并在目录/home/pi文件夹下生成audio.wav音频文件,此文件即为由文字合成的语音。测试发现,次音频信号在生活中较为熟悉的停顿处有较为明显的顿挫感,但是在长难句中,无法做到顿挫处的智能识别。

    遇到的问题:

    在整个编程过程中,可以说是举步维艰,由于自身能力有限,初学python和Linux,导致在系统操作和规范方面有很多的盲区,导致犯了很多诸如Linux系统授权、python缩进、命令行书写等十分低级的错误,一度陷入程序不断报错却不知错在何处的尴尬境地。同时,由于百度语音识别技术对于上传的音频有着较为苛刻的要求,必须符合 16k 采样率、16bit 位深、单声道等,对于这些内容的不熟悉也走了很多弯路。
    最令我惊艳的是,百度智能云计算AI开放平台为程序员搭建了一个十分全面,而且性能强悍的平台,从语音到图像,再到智能数据,涉猎了我们所熟知的绝大多数AI领域,其中对不同实现方式进行了细致的备注和说明,为我实现此项目扫清了障碍。
    错误码

    深入开发的设想:

    在完成上述功能的实现之后,我尝试让树莓派实现类似与智能音箱的人机交互功能(全网已有大神实现),实现过程中无疑要用到snowboy引擎,它一款高度可定制的唤醒词检测引擎,可以用于实时嵌入式系统,并且始终监听(即使离线)。当前,它可以运行在 Raspberry Pi、(Ubuntu)Linux 和 Mac OS X 系统上。在一些棘手的解决方案中,它可以运行完整的自动语音识别(ASR,Automatic Speech Recognition)来执行热词检测。但是,我在尝试实现过程中遇到了几个无法解决的问题:

    1. 由于树莓派内置声卡没有麦克风,需要利用外接声卡执行热词唤醒,但是在Linux系统中更改声卡驱动成了我越不去的坎儿,尝试了网络上更改驱动的多种方式后,无一能更够成功更改,我仍需继续在Linux方向深入学习。
    2. 在树莓派上下载好portaudio后,编译过程中频繁报错,涉及到gcc相关内容,我在这方面仍需继续努力。

    致谢:

    感谢百度智能云提供的云计算支持

    参考文献:

    1. https://ai.baidu.com/docs#/ASR-Online-Python-SDK/f55e8c00
    2. https://www.cnblogs.com/rnckty/p/8067115.html
    3. https://blog.csdn.net/sinat_35162460/article/details/86544772
    4. https://snowboy.kitt.ai/
    5. https://blog.csdn.net/sinat_35162460/article/details/86547013

    成果
    作者:Boyle Zhao
    2019年11月于北京理工大学

    展开全文
  • 【人工智能语音识别技术

    千次阅读 2019-04-22 11:36:22
    (课程主要讲解人工智能 智能语音相关技术,包括语音识别、人机交互、语音合成等) 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的...

    了解关于语音识别技术的内容:
    人工智能智能语音交互技术与应用

    (课程主要讲解人工智能 智能语音相关技术,包括语音识别、人机交互、语音合成等)

    语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

    简介:

    语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

    语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

    历史:

    早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(College of London)的Denes已经将语法概率加入语音识别中。

    1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间规整Dynamic Time Warp技术。

    语音识别技术的最重大突破是隐马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。
    尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。

    原理:

    语音识别系统提示客户在新的场合使用新的口令密码,这样使用者不需要记住固定的口令,系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了,不一致环境造成的性能下降是应用中的一个很大的障碍。

    其工作原理:

    动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogert et al出版了《回声的时序倒频分析》。通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。
    从1975年起,隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。
    平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是,当训练向量的数量很大时,这种直接的描绘是不切实际的,因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacie et al在倒频向量的时序中应用多变量自回归模式来确定语者特征,取得了很好的效果。
    想骗过语音识别系统要有高质量的录音机,那不是很容易买到的。一般的录音机不能记录声音的完整频谱,录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统,模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的,所以语音识别系统会结合个人身份号码识别或芯片卡。
    语音识别系统得益于廉价的硬件设备,大多数的计算机都有声卡和麦克风,也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化,所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率,因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说,系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池为电源的系统。

    更多精品课程:

    阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场

    展开全文
  • 15年基于freewitch做的自动群呼系统,主要由监听模块,任务外呼模块,FIFO实现。1、mod_cctask.c#include#include#definezstr(x)_zstr(x)SWITCH_MODULE_LOAD_FUNCTION(mod_cctask_load);SWITCH_MODULE_RUNTIME_...
  • 当前,随着智能语音技术日益成熟,越来越多的互联网巨头、传统终端制造厂商...中游技术层主要提供语音识别、语音合成、深度/机器学习、人机交互等技术研究和服务; 下游应用包括智能手机、智能家居、智能汽车、可穿戴
  • 智能语音,即智能语音技术,以语音识别技术为开端,是实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术(TTS)。智能语音技术是最早落地的人工智能技术,也是市场上众多人工智能产品中应用最为广泛的。 ...
  • 我们的智能语音机器人基于科大讯飞智能语音及语音分析技术具有语音识别声纹识别语音合成及自然语言理解能力可以与客户进行基于自然语音或文字的交互智能引导客户并响应客户需求;成员;自动生成工单任务报表全文字记录...
  • 在温正棋看来,鉴于开源等原因,智能语音的核心技术已经不存在太大差别,而他们相比之下的优势更多集中在业务服务能力闭环技术的应用层面。 前段时间,亚马逊智能音箱Echo时而抽风的怪笑声令消费者...
  • 【完整教程零基础】基于树莓派的智能语音助手-python树莓派3b+、python3系统自带、百度语音识别合成、调用图灵机器人(热词唤醒失败,可用snowboy)1.Windows系统下【下载+安装 树莓派官方系统】2.安装配置pyaudio+...
  • 鄢志杰,阿里云资深算法专家,人机交互...语音识别技术作为人工智能技术中的重要组成部分,也作为影响人机交互的核心组件之一,从各种智能家用IoT设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技...
  • AI人工智能为大家介绍百度语音识别的系列产品在线语音合成,它是基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,让您的应用、设备开口说话,更具个性,下面我们来看下它的功能、优势、应用...
  • (课程主要讲解人工智能 智能语音相关技术,包括语音识别、人机交互、语音合成等) 人工智能简介: 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法...
  • 原标题:有道智云智能语音服务全面升级 最多可支持44种语言和方言有道智云·AI开放平台智能语音服务全面升级,支持40多个小语种的语音识别翻译!现在开通注册即送50元体验金免费体验!戳一下了解详情:语音识别...
  • 中国智能语音助手企业案例研究报告(2018年)-笔记 1 摘要 目前行业里的智能语音助手主要应用于消费级产品和专业级行业应用两大领域。 智能语音助手的卖点是:想通过...智能语音技术:语音识别ASR、语音合成TT...
  • 【小白教程】基于树莓派的智能语音助手-python

    千次阅读 多人点赞 2019-07-18 16:02:36
    【完整教程零基础】基于树莓派的智能语音助手-python树莓派3b+、python3系统自带、百度语音识别合成、调用图灵机器人(热词唤醒失败,可用snowboy)1.Windows系统下【下载+安装 树莓派官方系统】2.安装配置pyaudio...
  • TOC \o "1-3" \u 目录 第1章 项目概述 4 1.1 项目背景意义 4 1.2 项目价值 4 1.3 国内外研究现状 5 1.3.1 自然语言处理NLP 5 1.3.2 语音识别ASR 7 1.3.3 语音合成TTS 8 1.4 创新点 9 第2章 市场与行业分析 10 2.1 ...
  • (1)智能语音行业涉及的技术、存在的显著问题针对这些问题可采取的手段 其中,有两项重要的技术:语音识别、自然语言处理,还有一些细节的技术应用,如说话人识别、语种识别、语音合成、音色转换、语音增强、...
  • 语音合成软件等

    2013-12-27 14:53:16
    地摊叫卖商场促销广告制作文字转换语音合成配音录音软件卖场广告,技术特点 ·独创的智能化文本预处理技术; ·独创的语料信息统计模型; ·前后端一致性的语料库设计方法、和语料库的自动构建方法; ·听感量化...
  • 设计了一款基于Android 手机的智能家居语音控制系统,通过Android 手机的APP“语音”按钮实现一键式控制、智能应答,语音识别模块和语音合成模块整合到上位机上,减少了在语音识别和语音合成方面的硬件开支。...
  • 智能语音交互产品的自研门槛究竟有多高?...研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/手写识别、机器学习算法等。长期担任语音领域顶级学术会议期刊的专家评审,并拥有多项美国PCT专利。 课...
  • SYN6288芯片内部集成智能的文本分析处理算法,可正确识别数值、号码、时间日期 常用的度量衡符号,拥有很强的多音字处理和中文姓氏处理能力;支持多种文本控制标记, 提升文本处理的正确率;每次合成的文本量最多可...
  • AI人工智能为大家介绍百度语音识别的系列产品在线语音合成,它是基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,让您的应用、设备开口说话,更具个性,下面我们来看下它的功能、优势、应用...
  • 自动识别并表现出合成文本中包含的疑问、感叹句式,合成效果更富表现力。 为有效提升广东话合成效果,补充了大量的口语化语料,更加贴近实际应用需要。 智能文本分析与预处理 保证了分词和对多音字、特殊符号、韵律...
  • 目前,捷通华声语音技术国内市场占有率达到了50%,手写识别技术国内市场占有率达到35%,成为国内第一家同时提供语音合成语音识别、手写识别等多项HCI技术的企业。 除了坚持HCI技术必须走产业化道路的发展策略,...
  • 目前,捷通华声语音技术国内市场占有率达到了50%,手写识别技术国内市场占有率达到35%,成为国内第一家同时提供语音合成语音识别、手写识别等多项HCI技术的企业。 除了坚持HCI技术必须走产业化道路的发展策略,...
  • 讯飞语音的使用常遇到的问题

    千次阅读 2017-10-21 23:04:43
    讯飞语音是科大讯飞推出的以语音交互技术为核心的人工智能开放平台,为开发者免费提供语音识别、语音合成等语音技术SDK,人脸识别、声纹识别等。  最常遇到问题:  一、错误码21001,没有安装语音组件(在最...

空空如也

空空如也

1 2 3 4 5 ... 8
收藏数 159
精华内容 63
关键字:

智能语音识别及合成