精华内容
参与话题
问答
  • tesseract

    千次阅读 2019-07-04 20:58:08
    Tesseract 打印字体识别引擎 1 安装 1.1 下载Leptonica源并安装: $ wget http://www.leptonica.com/source/leptonica-1.76.0.tar.gz $ tar xzvf leptonica-1.76.0.tar.gz $ cd leptonica-1.76.0 $ ./configure &...

    Tesseract 打印字体识别引擎

    1 安装

    1.1 下载Leptonica源并安装:

    $ wget http://www.leptonica.com/source/leptonica-1.76.0.tar.gz
    $ tar xzvf leptonica-1.76.0.tar.gz
    $ cd leptonica-1.76.0
    $ ./configure & make & sudo make install
    

    1.2 下载Tesseract源并安装:

    $ wget https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-3.02.02.tar.gz
    $ tar xzf tesseract-ocr-3.02.02.tar.gz
    $ cd tesseract-ocr
    $ ./autogen.sh & ./configure & make & sudo make install & sudo ldconfig
    

    1.3 下载语言文件:

    $ wget https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-3.02.eng.tar.gz
    $ wget https://nchc.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_sim.tar.gz
    $ tar xzf tesseract-ocr-3.02.eng.tar.gz
    $ sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata
    

    1.4 运行:

    $ tesseract /path/to/input/test.jpg /path/to/output/abc.txt -l eng
    

    2 报错:Error in pixReadStreamJpeg: function not present

    读取jpeg stream错误,执行tesseract -v指令,发现缺少libjpeg,libpng,libtiff模块

    安装libjpeg模块,yum install -y libjpeg-devel

    安装libpng模块,yum install -y libpng-devel

    安装libtiff模块,yum install -y libtiff-devel

    重新安装leptonica

    展开全文
  • Tesseract

    2018-04-22 20:40:33
    import pytesseract from PIL import Image image = Image.open('./test.png') text = pytesseract.image_to_string(image) print text
    import pytesseract
    from PIL import Image
    image = Image.open('./test.png')
    text = pytesseract.image_to_string(image)
    print text
    展开全文
  • OCR_Tesseract

    热门讨论 2014-03-25 23:08:54
    惠普实验室曾经有一个Ocr引擎 支持中文的识别 这个库叫tesseract ocr 最新版本是3 01 库的源码在这里下载:http: code google com p tesseract ocr downloads list ExcelHome 网友把这个库封装成了一个进程外Com...
  • tesseract-master.zip

    2018-10-23 11:57:03
    This package contains an OCR engine - libtesseract and a command line program - tesseract. Tesseract 4 adds a new neural net (LSTM) based OCR engine which is focused on line recognition, but also ...
  • <p>The only way I found to make it work with tesseract 3.03_rc1 is to rebuild vobsub2srt to force TESSERACT_DATA_PATH at configure phase, like following in the ebuild : <pre><code> src_configure() { ...
  • tesseract3.04

    2015-12-24 12:38:48
    tesseract3.04的VS2010工程,由于依赖的是leptonica的静态编译版本(只有lib),所以对GitHub上的原有工程设置做了少量修改,已实现DLL_Release版本的编译,DLL_Debug版本只要去掉设置中Preprocessor中的LIBLEPT_...
  • Tesseract-OCR.rar

    2020-05-04 12:38:21
    Note that tesseract-x.xx.tar.gz unpacks to the tesseract-ocr directory. tesseract-x.xx.<lang>.tar.gz unpacks to the tessdata directory which belongs inside your tesseract-ocr directory. It is ...
  • <div><p>Tesseract version - 4.0.0-1.4.4 Using engine mode 0 as latest doesnt support <code>tessedit_char_whitelist</code></p> <p>When using tesseract previous image results have side effects. <p>For ...
  • Python爬虫4.5 — tesseract[图片验证码识别]用法教程综述Tesseract介绍安装Windows系统:Linux系统Mac系统设置环境变量简单使用在命令行中使用tesseract识别图像代码中使用tesseract识别图像其他博文链接 ...

    综述

    本系列文档用于对Python爬虫技术的学习进行简单的教程讲解,巩固自己技术知识的同时,万一一不小心又正好对你有用那就更好了。
    Python 版本是3.7.4

    阻碍我们爬虫的,有时候正式在登陆或者请求一些数据时候的图形验证码,因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition),简写OCR。实现OCR的库不是很多,特别是开源的,因为这块存在一定的技术壁垒(需要大量的数据、算法、机器学习、深度学习等知识),并且如果做好了具有很高的商业价值,因此开源的比较少。这里介绍一个比较优秀的图像识别开源库:Tesseract

    Tesseract

    介绍

    Tesseract是一个OCR库,目前由谷歌维护的。Tesseract是目前公认最优秀、最准确的开源OCR库。Tesseract具有很高的识别度,也具有很高的灵活性,它可以通过训练识别任何字体。

    安装

    Windows系统:

    点击下面链接,下载可执行文件,然后进行安装即可(放在不需要权限的纯英文路径下):http://github.com/tesseract-ocr/ (或者使用这个链接:https://digi.bib.uni-mannheim.de/tesseract/)

    Linux系统

    可以从下面链接下载源码自行编译:http://github.com/tesseract-ocr/tesseract/wiki/Compiling ,或者在ubuntu下通过以下命令进行安装:

    sudo apt install tesseract-ocr
    

    Mac系统

    Homebrew即可方便安装:

    brew install tesseract
    

    设置环境变量

    安装完成后,如果想要在命令行中使用Tesseract,那么应该设置环境变量。MacLinux在安装的时候就默认已经设置好了,在Windows下把tesseract.exe所在的路径添加到PATH环境变量中。

    到这里,我们就算安装完成了,但是,我们的系统还是无法识别中文的,我们要去下载简体汉字、繁体汉字语言包(其他语言的识别包下载地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files ),下载好之后放到安装目录的tessconfigs目录下即可。还有一个环境变量需要设置的是,要把训练的数据文件路径也放到环境变量中。在环境变量中,添加一个TESSDATA_PREFIX=D:\Python\Tesseract-OCR\tessdata(需要根据你的安装路径进行相应的调整)。

    简单使用

    在命令行中使用tesseract识别图像

    如果想要在cmd下能够使用tesseract命令,那么需要把tesseract.exe所在的目录放到PATH环境变量中(上文已经说过)。然后使用命令:

    tesseract 图片路径地址 文件路径地址
    

    例如命令:

    tesseract a.png a
    

    那么就会识别出a.png中的图片,并且把文字写入到a.txt中。如果不想写入文件,直接显示在终端,那么不要加文件名就可以了。

    代码中使用tesseract识别图像

    在Python代码中操作tesseract需要安装一个库,叫做pytesseract。通过pip的方式即可安装:

    pip install pytesseract
    

    并且,需要读取图片,还需要借助一个第三方库叫做PIL。可以先通过pip list查看是否已经安装。要注意的是PIL主要针对Python2,它并没有跟随python的进化而进化。有大师为此,专门写了一个针对python3的pillow模块。所以,如果需要安装python3对应的PIL,应该选择安装pillow。是同样是通过pip的方式安装:

    pip install PIL
    pip install pillow
    

    使用pytesseract将图片上的文字转换为文本文字的示例代码如下:

    # 导入所需库
    import pytesseract
    from PIL import Image
    
    # 指定tesseract.exe路径
    pytesseract.pytesseract.tesseract_cmd = r'D:\Python\Tesseract-OCR\tesseract.exe'
    
    # 打开图片
    image = Image.open('1.png')
    # 调用image_to_string识别图片转为字符串
    text = pytesseract.image_to_string(image)
    print(text)
    

    其他博文链接

    展开全文
  • Version 2 is now available and under development in the master branch, read a story about v2: Why I refactor tesseract.js v2? Check the support/1.x branch for version 1 Tesseract.js is a javascript...
  • <div><p>When using JavaCPP Presets for Tesseract (on 64-bit Ubuntu Linux) the pdf output is corrupted and not readable at all for most document viewers. I'm not getting any "formal" ...
  • Tesseract OCR About This package contains an OCR engine - libtesseract and a command line program - tesseract. Tesseract 4 adds a new neural net (LSTM) based OCR engine which is focused on ...
  • <div><p>Due to this change in tesseract <p>https://github.com/tesseract-ocr/tesseract/commit/6bbcb50dd9bd19b7bc348b066a501930ca3a4e29#diff-8f75e5c5721b655480127da396bd5caa</p> <p>The output of "...
  • Tesseract OCR教程代码示例合集附doc

    热门讨论 2012-10-19 08:51:40
    应公司要求研究ocr网上教程比较少,这是我一周收集的 累死的 几乎包括现在网上的教程例子了,5分绝对不贵,还做了一份26页doc教程 其中有ocr2能识别英文的 ocr3能识别中文,不过中文...TesseractOCR Tutorials.dco 详细教程
  • Tesseract C API

    2020-11-23 10:39:31
    <div><p>As suggested by zdenop on https://github.com/tesseract-ocr/tesseract/issues/85#issuecomment-139132765 , using the C API could have many advantages: - faster - no annoying fork() + exec() -...
  • TesseractEngine3 for .net 3.01 release r638

    热门讨论 2012-02-16 21:45:04
    TesseractEngine3 tesseract-ocr .net for tesseract 3.01 release r638 DLL) VC100 & .Net 4.0 Client Profile Data) downlaod tessdata: ...
  • Tesseract 4.0.0

    2020-11-24 18:20:11
    <p>I have seem some comments in the code saying that ddls for Tesseract 4.0.0alpha were added. How can I do to build/test tess4j for/with Tesseract 4.0.0 (ideally on a windows machine)?. <p>Thanks....
  • beta.3 tesseract issues

    2020-11-29 21:20:29
    <div><p>After switching to the new beta.3 version of tesseract, I am seeing some issues that were not happening when I was using beta.1. <p><strong>Windows</strong>: calling the Init() method does not...
  • tesseract OCR 源码

    2016-10-18 10:56:12
    Google支持的开源的OCR图文识别...使用中Tesseract 的识别率非常高。可以在项目网站下https://github.com/tesseract-ocr(以前在http://code.google.com/p/tesseract-ocr,现在已经转移到github下,不用翻Q就可以down了)
  • tesseract4.0

    2018-12-30 23:21:55
    tesseract4.0源文件最近刚开始接触识别库引擎方面的知识,由于项目中需要使用光学识别处理模块,在老师与朋友的推荐下,我开始接触tesseract光学识别库,
  • 利用tesseract4.0在VS2017环境下编译生成的全部文件链接库,内置说明。添加库后即可使用。还有本人的编译过程全记录: 头文件设置补充: #pragma comment(lib,"tesseract40.lib") #pragma comment(lib,"pvt.cppan....
  • <div><p>Tesseract OCR is properly installed, i can use tesseract using "exec" command <p>Also when i run "Which tesseract" on command prompt I get "/c/ProgramData/chocolatey/bin/...
  • tesseract安装包

    2020-04-07 13:45:06
    Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后由Google进行改进、修改bug、优化,重新发布。

空空如也

1 2 3 4 5 ... 20
收藏数 6,305
精华内容 2,522
关键字:

tesseract