精华内容
下载资源
问答
  • 下面首先简单的介绍一下华为文字识别产品,随后重点讲我们的关键技术、关键能力,产品的优化之路,做产品需要注意到问题以及踩过的坑。其中很多点是整个人工智能或者以数据为驱动的产品都需要注意的。 我们是做...

    下面首先简单的介绍一下华为云文字识别产品,随后重点讲我们的关键技术、关键能力,产品的优化之路,做产品需要注意到问题以及踩过的坑。其中很多点是整个人工智能或者以数据为驱动的产品都需要注意的。

    我们是做产品的,但是我们也会参与一些比赛,或者是写一些论文,来提升我们的技术影响力,比如说2019年ICDAR票据识别比赛,我们协同华中大联合一起参与了这次比赛。在端到端文字识别赛道上,我们以96.43的超高精度取得了世界第一。这个呢,远远超过了2至5名,大概是两个点左右,同时我们也会申请一些专利。因为我们的创新性,我们获得了2019数博会领先科技成果奖的新产品奖。

    这是我们华为云文字识别服务的全景图,主要包含五大类,包括通用类,票据类,证件类,行业类,和定制类,通用类包括通用文字,通用表格,网络截图等。票据类呢,是指各种票,只是比如说是增值税发票,火车票,出租车票等。证件类呢,则是各种证件,比如身份证,驾驶证,行驶证,护照等。行业类是面向特定行业的,比如说物流行业的电子面单,纸质面单,比如说生活方面的燃气表,比如说医疗行业的医学检验单等。定制类呢,则是对客户进行特殊定制的,比如说是海外的身份证。

    助力企业生产效率提升,降低运营成本

    下面是我们的关键技术,我们融合了多种图像处理技术,具有高精度,鲁棒性和自适应性等特点。文字识别精度特别高,支持错行,盖章,文字叠加等复杂场景,支持多种类型单据,自适应不同质量图片。整个流程呢,主要是如下,包括图像预处理,表格提取,有没有表格进一步处理,文字定位,其中可能会有文字矫正,文字识别,文字后处理等,最后返回给客户的是结构化的json数据。

    那么我们这些特点是如何做到的呢。首先呢,是从硬件开始,我们会协同华为云的昇腾芯片做了底层的优化。比如说LSTM多算子融合,比如说算子重写。其实呢,做深度学习,最好能够从底层硬件优化开始,当然很多小公司做不到这一点,那就需要在上层优化算法了。还有一点是我们会对图像进行多种预处理,以提高训练速度,比如说是我们会把不同的文字成长度,基于多线程放在多个队列里,然后提高取出数据的速度。也会对累计梯度聚合优化等,一亿的切片数据,10小时完成训练

    模型算法需要持续更新,比如说我们2018年发在IEEE上的一篇文章,ITE。我们采用了类似Textbox的思想,把RetinaNet的Anchor重新设计了。然后同时对Kernel等各方面进行了全面优化,最终呢,比直接应用RetinaNet的性能提高了十个点左右。

    同我们做产品的时候会遇到各种各样的场景,比如说右边的盖章检测。这是我们广东的一个客户的实际场景,需要识别盖章里的内容。盖章除了我图上的椭圆章,其实还有圆形章,方形章、三角形的章等。我们用了各种弧形文字检测算法,检测性能都达不到客户的需求,后来我们做了基于字符的一些优化之后,大概准确率达到了96%左右,基本上可以满足了客户的需求度,所以说呢。无论是做写论文儿还是做产品,一定要持续的优化算法。很多原始的算法即使性能很好,但在实际场景往往达不到论文里描述的效果。文字识别不优化算法,不如回家卖地瓜。

    16

    在深度学习时代,数据成为关键,对数据的需求量非常大。但是数据总是有限的,标注数据的成本也巨大,同时需要时间,合成数据基本上成了必选之路。最左边的是syntext,相信很多团队都在用,首先使用分割提取到了几何信息和分割结果,随后计算景深。然后找到平滑区域生成文字。

    我们也会使用传统方法,比如说opencv、pillow等用来合成整张图片。我们针对文字自研了一套丰富的增强的算子库,增加了很多开源工程没有的算子。同时呢,我们会也会通过GAN转换一些切片。当然啦,GAN有的时候转换过的内容会比较莫名其妙。这也是深度学习的问题,很多时候因为不可解释,你不知道你得到的会是什么。

    作者:blackmoon

    展开全文
  • 华为智能图片识别

    2020-01-15 22:21:58
    第三步:点击左侧智能识别,再点击下方服务管理 第四步:点击文字识别套餐包 第五步:注意这里选华北-北京四 第六步:忽略图中第二步,直接点开第三步获取SDK和样例工程 第七步:选择语言类型,我的...

    第一步:华为云登录地址

    https://auth.huaweicloud.com/authui/login.html?service=https://account.huaweicloud.com/usercent
    er/#/login

    第二步:在左边服务列表搜索文字识别

    在这里插入图片描述

    第三步:点击左侧智能识别,再点击下方服务管理

    在这里插入图片描述

    第四步:点击文字识别套餐包

    在这里插入图片描述

    第五步:注意这里选华北-北京四

    在这里插入图片描述

    第六步:忽略图中第二步,直接点开第三步获取SDK和样例工程

    在这里插入图片描述

    第七步:选择语言类型,我的是Java SDK,下载SDK

    在这里插入图片描述

    第八步:选择java工程的Demo或者Maven工程的Demo,这里我演示Maven工程的

    在这里插入图片描述

    第九步:默认识别身份证和发票,点开Auto…类在这里插入图片描述

    第十步:找到akskRequest方法,准备修改这五个属性

    在这里插入图片描述

    第十一步:获取AK/SK,点击添加新增访问密匙,注意点击确定后在左下方会自动下载文件,打开文件里面有AK/SK

    在这里插入图片描述
    在这里插入图片描述

    第十二步:获取regionName(区域信息)

    https://developer.huaweicloud.com/endpoint?OCR

    在这里插入图片描述

    第十三步:获取httpUri

    https://support.huaweicloud.com/sdkreference-ocr/ocr_04_0016.html
    在这里插入图片描述

    第十四步:imgPath,此处写入要识别的图片

    最后运行Main函数就能获取到信息了

    展开全文
  • 最近想做一个智能硬件(实现单片机使用W600连接上位机或直接实现语音识别) 查看了华为云的语音交互服务SIS,有两种:录音文件识别以及一句话语音识别 名称 功能 录音文件识别 可以实现5小时以内的...

     

    最近想做一个智能硬件(实现单片机使用W600连接上位机或直接实现语音识别)

    查看了华为云的语音交互服务SIS,有两种:录音文件识别以及一句话语音识别

    名称功能
    录音文件识别

    可以实现5小时以内的音频到文字的转换。支持垂直领域定制,对应领域转换效果更佳。

    一句话识别可以实现语音到文字的转换。支持垂直领域定制,对应领域转换效果更佳。

     

    在看了这两种模式后,选择了一句话识别,方便在下位机方面进行开发(前些时间已经实现STM32对语音文件实现8K采样率16bit的PCM格式WAV文件生成)

    跳转到一句话识别的API介绍(https://support.huaweicloud.com/api-sis/api-sis.pdf),发现使用时需要先获取该用户的token(呃 通过拨打华为云的客服电话解决了这个问题)

    获取用户Token采用POST方式,地址格式为: 

     

     针对不同的服务端点选择Endpoint,后缀是相同的/v3/auth/tokens

    此时使用华为云推荐的软件(Postman)来实现这个过程

    使用这个地址, 进行提交

              此时会反馈你的Token(只能使用24小时),如果打算长期使用请选择SDK (https://support.huaweicloud.com/sdkreference-sis/sis_05_0004.html),目前只有JAVA格式的,本文主要介绍API方式

    得到Token就可以进行语音识别啦!!这里还是使用POST的方式,此时地址会发送改变,一句话语音识别的两个服务端点为:

    区域名称终端节点(Endpoint)
    华北-北京一sis-ext.cnnorth-1.myhuaweicloud.com
    华北-北京四sis-ext.cnnorth-4.myhuaweicloud.com

     

    因为我的是华北-北京四,这里选择sis-ext.cnnorth-4.myhuaweicloud.com,继续查看该API手册,发现对于提交语音数据的包格式定义如下:

    此时POST地址为: https://sis-ext.cn-north-4.myhuaweicloud.com/v1/{projectid}/asr/short-audio

    获取Projectid的方式:将光标放在用户名下面选择我的凭证:

    得到projectid后开始发包:

     

    我采用的是WAV自识别模式,使用的WAV文件为AU生成的录音文件,利用BASE64编码转换后进行发送:

     

     data数据为转码后的base64格式,因为太长就不放上来了。此时点击SEND

    测试成功,本篇结束。 

    展开全文
  • 为了减轻人们的劳动,提高工作效率,华为文字识别服务应用而生。您可以调用服务提供的文字识别API接口,将我们日常中大量的证件、票据、表格识别成可编辑的文本,代替人工录入,提升业务效率。 到底什么是文字...

    在日常生产和生活中,我们往往要处理大量的文字、报表和文本。为了减轻人们的劳动,提高工作效率,华为云文字识别服务应用而生。您可以调用服务提供的文字识别API接口,将我们日常中大量的证件、票据、表格识别成可编辑的文本,代替人工录入,提升业务效率。

    到底什么是文字识别服务?“云图说”带您了解它的来龙去脉。

    点击“了解更多”,华为云文字识别服务等着您!

    展开全文
  • 首先简单的介绍一下华为文字识别服务,随后重点介绍产品的关键技术、关键能力,产品的优化之路,做产品需要注意到问题以及踩过的坑。其中很多点是整个人工智能或者以数据为驱动的产品都需要注意的。 下面首先简单...
  • 目前,华为公司在海外设有4大供应中心,海关报关单全球一年有35w份左右(其中中国进口5w份,出口15w份,及香港进出口10w份,其它子公司5w份左右)。现在的单据处理方式还停留在通过人工方式将单据内容手动录入到系统...
  • 人工智能 图片识别 图像识别

    万次阅读 2018-02-26 18:38:02
    图像识别是人工智能的一个重要领域。为了编制模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型。例如模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记...
  • 3月24日,华为云2020文字识别狂欢季正式开启, 19款OCR类产品全线降价50%,助力证类识别、财务报销审核、合同录入与审核等场景AI落地,提升工作效率。 哪些场景可以应用OCR服务? 卡证:比如原来在办理银行业务时...
  • 绿盟赛—ModelArts实现智能花卉识别

    千次阅读 2020-09-05 17:51:02
    目录概述人工智能的概念人工智能的应用为什么需要花卉识别传统花卉识别智能化的诉求智能花卉识别的概念ModelArts实现智能花卉识别的优势智能化的趋势人工智能的市场解决方案传统AI开发者面临的难题ModelArts实现智能...
  • 计算机文字识别,俗称光学字符识别,英文全称是Optical Charater Recognition(简称OCR),它是利用光学技术和计算机技术把印刷在或者写在图纸上的文字以文本形式提取出来,并转换成一种计算机能够接受、人又可以理解...
  • 也是当前最火的人工智能应用,文本识别服务可以识别收据、名片、文档照片等含文字的图片,将其中的文本信息提取出来。打开相机就可以轻松将图片或者实景中的文字转换为文字信息。 使用场景 在寄快递场景下,通过...
  • 华为云OCR文字识别 免费在线体验!

    千次阅读 2019-08-15 10:11:04
    嘿,华为云OCR文字识别了解一下,免费在线体验! 物流行业快速提取运单信息、医疗/保险行业单据快速录入、政务办事人证检验,你知道这些都是如何实现的么? 答案就是:OCR文字识别!...华为云OCR文字...
  • 【摘要】 文字识别作为...主要是包括图像预处理表格提取有没有表格进一步处理文字定位其中可能会有文字矫正文字识别文字后处理等最后返回给客户的是结构化的json数据。所有涉及模型的模块均可能遭遇模型可信威胁,比...
  • 本文为OCR文字识别系列的第三篇,主要讲的华为云OCR文字识别服务的产品优势和应用场景,典型的行业落地方案,以及我们下一步要的事情,有些事情也是人工智能行业本身需要解决的。现在人工智能虽然很火,但是能落地的...
  • 华为云-文字识别OCR-身份证识别

    千次阅读 2019-07-16 16:41:01
    申请文字识别服务之前,必须先申请华为云账号。 用户首次使用文字识别服务时,需要先申请开通该服务。服务只需要开通一次即可,后面使用时无需再次申请。
  • 2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别——智能图像分享活动,活动举办期间用户耐心听分享嘉宾的介绍,并提出了相关的问题,智能图像团队的科学家和工程师也耐心...
  • 在计算机视觉技术专题,华为云OCR人工智能高级算法工程师王晶分享了“文字识别服务的技术实践、底层框架及应用场景”的主题演讲。 演讲的第一部分,他分享了文字检测和识别的基础知识以及难点...
  • 摘要:在HUAWEI CONNECT 2020上,华为云与计算BG总裁侯金龙发布了智能体,这是业界首次针对政企智能升级提出的系统化参考架构。 近日,在HUAWEI CONNECT 2020上,华为云与计算BG总裁侯金龙发布了智能体,这是业界...
  • 大家好,我是一行本篇分享的是用百度的接口实现图片的文字识别1.环境和配置要求整体是用Python实现,所需要使用的第三方库包括aip、PIL、keyboard、pyinstalle...
  • 人类认识了解世界的信息中91%来自视觉,同样计算机视觉成为机器认知世界的基础,也是人工智能研究的热点,而文字识别是计算机的重要组成部分。我们生活当中文字是无处不在的,可以说离开了文字我们衣食住行各方面...
  • 二是在找到校园卡位置后,保存下单独校园卡图片,然后进行图像处理,找到关键文字位置,利用百度文字识别进行提取文字信息。 作者 | 李秋键 责编 | 寇雪芹 头图 | 下载于视觉中国 校园卡目标检测 1.1 环境要求 ...
  • 可以看到华为HMS把机器学习服务分成了文本类、语言类、图片类、人脸人体类四大服务,后面新特性也在不断增加中,其中有一类是文本类服务,文本类服务里面又含了文本识别、文档识别、身份证识别、银行卡识别、通用...
  • 文字识别服务介绍

    2019-12-25 17:30:49
    OCR以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户使用Python、Java等编程语言调用OCR服务API将图片识别文字,帮助用户自动采集关键数据,打造智能化业...
  • (中国,东莞,2021年10月23日)华为开发者大会2021(Together)如期在东莞松山湖举行,华为消费者BG首席战略官邵洋带来了华为全屋智能的重磅战略发布——在HarmonyOS的驱动下,1+2+N全屋智能解决方案再升级,重塑...
  • 华为HCIP-AI认证题库中的部分问题

    千次阅读 2021-09-02 13:48:51
    1、图像识别任务可以分为三个层次,根据处理内容的抽象性,从低到高依次为? A:图像分析,图像处理,图像理解 B:图像分析,图像理解,图像处理 C:图像处理,图像分析,图像理解 D:图像理解,图像分析,图像处理 ...
  • 点上方人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于 :来源 | 楚天都市报极目新闻等转载自:AI科技评...
  • 9月10日,在深圳举行华为2020开发者大会上,华为正式推出了鸿蒙2.0系统。华为消费者业务CEO余承东表示,明年华为手机将全面支持鸿蒙系统。余承东介绍称,鸿蒙主要包含两大部分:“1+8...
  • 4.2 提交内容 论文主要以文字形式详细阐述AI模型的建模过程,包括模型的建立方法,参数的设置和训练的结果,特别是第三问要阐述清楚。 第三问需要提交完整的模型。针对每一个评审数据集的输入文件,模型输出要求也...
  • Android Studio实现文字识别(基于百度云OCR)

    千次阅读 多人点赞 2021-01-13 20:41:18
    3、百度智能云-文字识别OCR-通用文字识别(高精度版) 项目流程 一、调用手机相机/相册 注意有些部分是文字识别的方法(已注明),如果不需要文字识别功能,则不需要其代码。 1.activity_main.xml和

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,231
精华内容 1,292
关键字:

华为智能识别文字