精华内容
下载资源
问答
  • Python tesseract is not installed or it’s not in your path 下面说一下安装过程: 首先下载Tesseract-OCR 然后双击,接下来点击Next->Next->Next->Next 接下来找到安装的路径 路径可以自己定,需要...

    未安装OCR使用 pytesseract.image_to_string() 函数时,会报错:

    Python tesseract is not installed or it’s not in your path
    

    下面说一下安装过程:
    首先下载Tesseract-OCR
    在这里插入图片描述
    然后双击,接下来点击Next->Next->Next->Next
    接下来找到安装的路径
    在这里插入图片描述
    路径可以自己定,需要记住,一会还要用,比如我的路径为:

    'C:/Users/18256/.conda/envs/Xgboost/Lib/site-packages/Tesseract-OCR/tesseract.exe‘

    然后安装好了先放一边。

    下面打开命令行
    输入:pip install pytesseract
    在这里插入图片描述
    因为我这是已经安装好了,所以和第一次安装时候显示的不一样,记住文件的位置。
    根据文件的位置找到pytesseract.py文件
    在这里插入图片描述
    打开pytesseract.py
    找到tesseract,把刚才复制的tesseract路径修改到此处
    在这里插入图片描述
    比如我的可以直接修改成
    ‘C:/Users/18256/.conda/envs/Xgboost/Lib/site-packages/Tesseract-OCR/tesseract.exe’
    修改完毕,保存后重启python,即可使用。

    展开全文
  • python tesseract OCR

    2019-07-30 15:43:45
    from PIL import Image import pytesseract import time ...img_path = 'C:/Users/Administrator/Desktop/ocr/109.png' text = pytesseract.image_to_string(Image.open(img_path), lang='chi_sim'...
    from PIL import Image
    import pytesseract
    import time
    time1 = time.time()
    img_path = 'C:/Users/Administrator/Desktop/ocr/109.png'
    text = pytesseract.image_to_string(Image.open(img_path), lang='chi_sim')
    time2 = time.time()
    print(time2 - time1)
    print(text)
    
    展开全文
  • windows 10环境下安装Tesseract-OCR与python集成 前言 Tesseract是一个开源的ocr引擎,可以开箱即用,项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源...

    windows 10环境下安装Tesseract-OCR与python集成

    前言

    Tesseract是一个开源的ocr引擎,可以开箱即用,项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。

    官网宣传目前支持100多种语言的识别,根据我的测试,目前感觉其对机器打印的比较规整的英语,或者阿拉伯数字的识别准确率还是挺高的,但是对手写的任何东西,效果都非常一般,不过这已经相当不错了。

    环境介绍

    基础软件介绍:

    windows 10
    anaconda 3
    python 3.7
    
    

    Tesseract的安装

    Tesseract的安装:

    (1)Tesseract本身没有windows的安装包,不过它指定了一个第三方的封装的windows安装包,在其wiki上有说明,大家可直接到这个地址进行下载: https://digi.bib.uni-mannheim.de/tesseract/

    下载后就是一个exe安装包,直接右击安装即可,安装完成之后,配置一下环境变量,编辑 系统变量里面 path,添加下面的安装路径:

    C:\Program Files (x86)\Tesseract-OCR
    

    安装完成之后,直接cmd输入:

    命令:
    tesseract -v
    
    输出如下,即代表成功:
    
    tesseract 4.0.0-beta.1-108-gf291
     leptonica-1.76.0
      libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0
    
    

    注意,这一步在windows上是必须安装的,否则运行程序时,会抛出异常:

    [WinError 2] 系统找不到指定的文件
    

    (2)安装python的封装接口:

    pip install pillow  #一个python的图像处理库,pytesseract依赖
    pip install pytesseract
    

    注意第一步必须安装成功,同时配置好环境变量,否则第二步必会报错,因为第二步是接口,运行时候会调用第一步的原C++写的类库。

    Tesseract的使用

    测试图1,纯数字:

    image

    结果:

    140378
    

    测试图2,英文:

    image

    结果:

    As you can see in this screenshot, the thresholded image is very clear and the background
    
    
    
    has been removed. Our script correctly prints the contents of the image to the console.
    

    测试图3,手写数字:

    image

    结果:

    ar oe
    

    python代码如下:

    from PIL import Image
    import pytesseract
    
    
    img_path = r'C:\Users\Desktop\test.png'
    
    text=pytesseract.image_to_string(Image.open(img_path))
    
    import pandas as pd
    print(text)
    

    前面说过,对于机器打印的比较规则的字符,Tesseract识别起来还是比较给力的,至于手写的字符,识别效果比较差,可以看到上面的手写数字识别出来的都是错误的,当然这里也有调优的余地,比如给图片做灰度,模糊,去燥,二值化等等,可能结果会稍微好一点。

    展开全文
  • python Tesseract-OCR

    2019-08-07 23:17:00
    OCR技术 OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗,亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,及...

    OCR技术

    OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗,亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,及针对印刷字体,采用光学的方式将纸质文档中的文字装换成黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

    在python中,支持ORC的模块有pytesser3和pyocr,其原理主要是通过模块功能调用OCR引擎识别图片,OCR引擎再将识别的结果返回到程序中,以pyocr为例介绍。在windows中安装pyocr可以在CMD下使用pip安装:

    pip install pyocr

    安装pyocr模块之后,还需要安装PIL模块,这是专门用于处理图片的模块,pyocr依赖该模块才能完成识别,pip安装如下:

    pip install Pillow
    

    完成pyocr和PIL模块的安装后,最后是OCR引擎的安装,图像识别主要由OCR引擎完成,pyocr只起到一个调用引擎的作用。

    Tesseract-OCR是一个免费,开源的OCR引擎,读者可从网上自行搜索下载安装,在window系统中,OCR引擎(Tesseract-OCR)可通过.exe安装包安装。值得注意的是,在安装过程中有附加功能选项:

                图1-1  OCR安装选项

     

     

        图1-2 勾选数学公式常用包以及选择语言Chinese(simplified)

     

    将Tesseract-OCR 安装目录加入环境变量:

              图1-3 Tesseract-OCR加入环境变量

     

    新建变量TESSDATA_PREFIX

      图1-4 新建变量TESSDATA_PREFIX 值为Tesseract-OCR目录下的tessdata文件夹

     

    完成上述安装后,就能在Python中使用pyocr实现OCR识别了,方法如下:

          图1-5 待识别的图片test.png

     

     代码如下:

    from PIL import Image
    from pyocr import tesseract
    # 使用PIL打开图片
    import os
    
    os.chdir("C://User//yao//Desktop")
    # 改变当前工作目录
    
    im=Image.open("test.png")
    #OCR识别
    code=tesseract.image_to_string(im)
    print(code)
    

    运行结果如下图所示:

                            图1-6 识别结果

     

    在实际使用时,验证码图片不会是一张白底黑字的图片,往往会掺入很多干扰因素,这样会导致识别出来的结果与实际相差甚大,为了提高准确率,可以使用PIL模块对图片进行简单的处理。

    不同的图片有不同的处理方法,其目的是提高OCR识别的准确率。除此之外,提高OCR准确率还可以对OCR引擎进行训练和学习。但两者已经属于人工智能的领域。

    转载于:https://www.cnblogs.com/1328497946TS/p/11318517.html

    展开全文
  • python-tesseract 测试版 下载 === 0.9 版本增加了对 ResultIterator 和 AllWordConfidences() 的支持===见下面的示例 4 ####详情请参考 wiki-codesnippets 中的 #### 记得安装 opencv 和 numpy Ubuntu Trusty x64 ...
  • docker-tesseract-ocr:包含Tesseract OCR的Docker映像
  • Tesseract API 这是一个测试项目,旨在学习如何在Heroku上部署Python Tesseract OCR
  • step1:安装tesseract-ocr-w64-setup-v4.0.0.20181030.exe step2:配置环境变量 step3:下载词库chi_sim.traineddata step4:安装pytesseract pip install pytesseract step5:准备图片资源 step6:编写python...
  • Tesseract-OCR TesseractPython包装器 安装 用pip安装tesseract-ocr: $ pip install tesseract-ocr 基本用法 import tesseract_ocr tesseract_ocr . text_for_filename ( 'code.tiff' ) tesseract_ocr . text_...
  • python OCR Tesseract 训练

    千次阅读 2020-06-27 22:58:04
    Ps:Tesseract识别英文和字母效果好 中文的话,虽然有训练数据也可以识别,但是效果不是很...把上面下载的Tesseract-ocr的目录添加到Path中 4.可以使用了 from PIL import Image import pytesseract text = pytessera
  • PythonTesseract Ocr引擎及安装介绍,tesseractocr   1、Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。...
  • (一) tesseract OCR 1.下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 2.环境变量PATH配置 “电脑-属性-高级系统设置-环境变量-系统变量-PATH” ①软件安装路径:D:\vscode\tesseract-OCR ②PATH...
  • Tesseract-OCR in Python

    2021-01-25 16:16:06
    关于对使用PythonTesseract实现图片文本识别的初步学习总结 准备工作 代码实现 总结 准备工作 需要准备
  • https://github.com/UB-Mannheim/tesseract/wiki 如图:可以选合适的版本进行下载 下面是进入老版本(点击older versions 链接)的截图 转载于:https://www.cnblogs.com/xiaxiaoxu/p/9279919.html...
  • windows 10安装Tesseract-OCR 下载安装包 https://digi.bib.uni-mannheim.de/tesseract/ 下载后是一个exe安装包,直接双击安装即可,安装完成之后,配置一下环境变量,编辑 系统变量里面 path,添加自己的安装位置 ...
  • PythonOCRtesseract

    2019-04-02 18:59:19
    PythonOCR的tesseractTesseract简介Tesseract安装使用方式结果展示 Tesseract简介 Tesseract是一个开源文本识别器(OCR)引擎,可在Apache 2.0许可下使用。它可以直接使用,或者(对于程序员)使用API从图像中提取打印...
  • 一、环境  windows 7 x64 ... 1、tesseract-ocr安装  http://digi.bib.uni-mannheim.de/tesseract/  2、pytesseract安装  pip install pytesseract  3、Pillow 安装  pip install pillow...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,727
精华内容 2,690
关键字:

ocr与pythontesseract

python 订阅