tesseract_tesseract 图片预处理 - CSDN
精华内容
参与话题
  • tesseract 安装及使用

    万次阅读 多人点赞 2018-09-12 10:25:24
    1. 安装tesseract OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加...

    1. 安装tesseract

    OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。

    tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

    进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。

    其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.02.exe。

    下载完成后双击,此时会出现如下图所示的页面。

    此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。

    接下来,为了在python代码中使用tesseract功能,使用pip安装pytesseract:

    pip install pytesseract

    2、配置环境变量

    为了在全局使用方便,比如安装路径为D:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的path中

    配置完成后在命令行输入tesseract -v,如果出现如下图所示,说明环境变量配置成功

    3、验证安装

    接下来,我们可以使用tesseract和pytesseract来分别进行测试。

    我们以如下图所示的图片为样例进行测试。

    该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存或下载。

    首先用命令行进行测试,将图片下载到D盘chromeDownload文件夹,保存为image.png,然后在该文件夹中打开命令行,用tesseract命令测试:

    tesseract image.png result 

    运行结果如下:

    D:\chromeDownload>tesseract image.png result
    Tesseract Open Source OCR Engine v3.05.02 with Leptonica

    这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result 为结果保存的目标文件名称。

    运行结果便是图片的识别结果:Python3WebSpider。可以在chromeDownload文件夹中看到result.txt,这时已经成功将图片文字转为电子文本了。

    然后还可以利用Python代码来测试,这里就需要借助于pytesseract库了,测试代码如下:

    from PIL import Image
    import pytesseract
    
    text = pytesseract.image_to_string(Image.open(r'D:\chromeDownload\image.png'))
    print(text)
    

    我们首先利用Image读取了图片文件,然后调用了pytesseract的image_to_string()方法,再将其识别结果输出。

    运行结果如下:

    Python3WebSpider

    如果成功输出结果,则证明tesseract和pytesseract都已经安装成功。

    4、使用时遇到的坑

    在使用tesseract命令行进行测试时,会议开始报以下的错误

    Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
    Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
    Failed loading language 'eng'
    Tesseract couldn't load any languages!
    Could not initialize tesseract.

    报错是意思是缺少环境变量TESSDATA_PREFIX,导致无法加载任何语言,就不能初始化tesseract。

    解决的方法也很简单,在环境变量中添加TESSDATA_PREFIX,如下图

    注意:变量值中的路径为“D:/Program Files (x86)/Tesseract-OCR”,使用正斜杠“/”。windows中复制过来的路径默认是反斜杠“\”

    配置完成后,重新打开命令行,即可正常使用。

    第二个坑是使用pytesseract时,出现以下错误

    Traceback (most recent call last):
      File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 170, in run_tesseract
        proc = subprocess.Popen(cmd_args, **subprocess_args())
      File "D:\Python36\lib\subprocess.py", line 709, in __init__
        restore_signals, start_new_session)
      File "D:\Python36\lib\subprocess.py", line 997, in _execute_child
        startupinfo)
    FileNotFoundError: [WinError 2] 系统找不到指定的文件。

    During handling of the above exception, another exception occurred:

    Traceback (most recent call last):
      File "D:/python/20180911.py", line 4, in <module>
        text = pytesseract.image_to_string(Image.open(r'D:\chromeDownload\image.png'))
      File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 294, in image_to_string
        return run_and_get_output(*args)
      File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 202, in run_and_get_output
        run_tesseract(**kwargs)
      File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 172, in run_tesseract
        raise TesseractNotFoundError()
    pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path

    这就很坑,添加了全局变量,还是提示tesseract没有安装或者不在PATH中。

    百度了一下,解决方案如下。

    pytesseract安装后,在python的Lib目录下site-packges下会生成一个pytesseract文件夹,文件夹中找到pytesseract.py,路径为:D:\Python36\Lib\site-packages\pytesseract,使用notepad之类软件打开pytesseract.py,找到如下两行:

    # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
    tesseract_cmd = 'tesseract'

    将tesseract_cmd = 'tesseract'修改为:tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

    表示tesseract_cmd配置的是你安装tesseract的绝对路径,这样就能找到tesseract了。修改后保存,再去运行python代码,就可以成功了。

    展开全文
  • tesseract-ocr的中文识别语言库

    千次下载 热门讨论 2020-07-30 23:32:25
    tesseract-ocr的语言库识别库文件,下载解压后放到tesseract-ocr安装目录下的tessdata 目录,存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。
  • Tesseract 教程

    千次阅读 2018-11-22 21:50:30
    Tesseract 教程 介绍 Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统,除了极高的精确度,Tesseract 也...

    Tesseract 教程

    介绍

    Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统,除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。

    安装

    Window 安装

    下载可执行安装文件:https://code.google.com/p/tesseract-ocr/downloads/list 安装。

    Ubuntu 安装

    	apt-get tesseract-ocr
    

    Mac 安装

    	brew install tesseract
    

    安装 python 库

    	pip install pytesseract
    

    环境配置

    Mac 和 Linux 环境配置

    添加环境变量

    	# /usr/local/share/Tesseract 为语言训练库路径,可以编辑 ~/.bash_file 终端启动时会执行这个脚本
    	export TESSDATA_PREFIX=/Users/zi/Desktop/Tesseract/tessdata
    

    Window 环境变量配置

    添加环境变量

    	# C:\Program Files\Tesseract OCR\Tesseract 为语言训练库路径
    	setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract
    

    使用

    命令行终端使用

    显示帮助

    	tesseract --help
    

    显示当前训练语言列表

    	tesseract --list-langs
    

    识别

    	tesseract 图片 输出路径 -l 训练库名称
    

    python 代码中使用

    	# 导入模块
    	import pytesseract
    	# 导入图片库 【注意】需要安装库: pip install Pillow
    	# 导入库
    	from PIL import Image
    	
    	# 创建图片对象
    	image = Image.open("图片路径")
    	# 识别图片
    	pytesseract.image_to_string(numImage, config="-psm 7"))
    

    爬取猫眼电影

    	#!/usr/bin/python3
    	# -*- coding: utf-8 -*-
    
    	from selenium import webdriver
    	from PIL import Image
    	from io import BytesIO
    	import time
    	import pytesseract
    
    	# 定义缩放比例  MAC一个点要两个像素
    	scale = 2.0
    
    
    	driver = webdriver.Chrome("/Users/zi/Desktop/chromedriver")
    	driver.implicitly_wait(10)
    	driver.get("http://maoyan.com/films/1218298")
    	time.sleep(2)
    
    	# 让背景变白色和文字黑色,使它更容易进行识别
    	driver.execute_script('document.querySelector(".banner").style.background = "white"')
    	driver.execute_script('document.querySelector(".stonefont").style.color = "black"')
    
    	# 截屏整体
    	png_img = driver.get_screenshot_as_png()
    	img = Image.open(BytesIO(png_img))
    
    	# 寻找元素
    	span_el = driver.find_element_by_xpath('//span[@class="index-left info-num "]/span[@class="stonefont"]')#(".index-left.info-num")
    	print(span_el)
    
    	# 获取元素位置,学会调试位置
    	location = span_el.location
    	left = int(location["x"]) * scale
    	top = int(location["y"]) * scale
    	print(location)
    	size = span_el.size
    	# size = {
    	#     "width":400,
    	#     "height":400
    	# }
    	right = left + int(size["width"]) * scale
    	bottom = top + int(size["height"]) * scale
    
    	# 构建截图
    	cut_info = (left,top,right,bottom)
    	print(cut_info)
    	img.save("test1.png")
    
    	# 截取识别图片
    	img = img.crop(cut_info)
    
    	# 获取最终结果
    	print("结果:",pytesseract.image_to_string(img,config="-psm 7"))
    	img.save('test2.png')
    
    	driver.quit()
    
    展开全文
  • 超级详细的Tesseract-OCR样本训练方法

    万次阅读 多人点赞 2018-11-05 16:38:52
    Tesseract-OCR样本训练方法 一、简介 Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 ...

    Tesseract-OCR样本训练方法

    一、简介

    Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护。

    二、下载

    1.从https://github.com/UB-Mannheim/tesseract/wiki下载tesseract安装包,目前最新的版本是tesseract-ocr-w64-setup-v4.0.0.20181030.exe。

    2.从https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/下载jTessBoxEditor训练工具,目前最新的版本是jTessBoxEditor-2.2.0.zip。

    3.由于jTessBoxEditor是用Java开发的,需要安装Java虚拟机才能运行。从https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载Java JDK,目前最新的版本事jdk-8u191-windows-x64.exe。

    三、安装tesseract

    1.双击tesseract-ocr-setup-4.00.00dev.exe运行。

    2.点击Next。

    3.I accept the terms of the License Agreement前的复选框打勾,点击Next。

    4.Install for anyone using this computer前的复选框打勾,点击Next。

    5.选择需要安装的内容,点击Next。

    6.点击Browse…选择安装路径,默认安装在C:\Program Files(x86)\Tesseract-OCR,点击Next。

    7.点击Install。

    8.等待安装完成。

    9.点击Next。

    10.Show README前的复选框取消打勾,点击Finish。

    四、安装Java JDK

    1.双击jdk-8u191-windows-x64.exe运行。

    2.点击下一步。

    3.点击更改。

    4.输入安装路径后,点击确定。

    5.点击下一步。

    6.等待安装完成。

    7.点击关闭。

    五、配置Java环境变量

    1.此电脑右键。

    2. 点击属性。

    3.点击高级系统设置。

    4.选择高级->环境变量。

    5.点击新建。

    6.变量名输入JAVA_HOME,变量值输入JDK安装目录,点击确定。

    7.系统变量中,选择Path,点击编辑。

    8.点击新建。

    9.输入%JAVA_HOME%\bin,点击确定。

    10.点击确定。

    11.点击确定。

    12.重启电脑。

    六、安装jTessBoxEditor

    1.解压

    2.双击jTessBoxEditor-2.2.0

    3.双击jTessBoxEditor

    4.双击jTessBoxEditor,jar运行

    5.出现以下界面则安装成功。

    七、制作训练样本

    1. 运行jTessBoxEditor工具,点击Tools。

    2.点击Merge TIFF。

    3.文件类型选择All Image Files,选择样本图片,点击打开。

    4.文件名输入num.font.exp0.tif,文件类型选择TIFF,点击保存。

    5.点击确定。

    6. 将num.font.exp0.tif文件复制到Tesseract-OCR安装目录。

    7. 生成Box File文件。打开cmd命令行,以管理员身份运行。

    8.进入Tesseract-OCR安装目录。

    9.执行命令:

    tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox 

    生成的box文件为num.font.exp0.box,box文件为Tesseract识别出的字符及其坐标。

    注:Make Box File 文件名有一定的格式,不能随便乱取名字,命令格式为:

    tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

    其中lang为语言名称,fontname为字体名称,num为序号,可以随便定义。

    10. 将上一步生成的.box和.tif样本文件放在同一目录。我是放在Tesseract-OCR默认安装目录下。

    11.运行jTessBoxEditor工具,点击Box Editor。

    12.点击Open。

    13.选择之前生成的num.font.exp0.tif,点击打开。

    14. 可以看出有些字符识别的位置不准确,可以通过该工具手动对每张图片中识别错误的字符和位置进行校正。校正完成后保存即可。

    注: 这里必须修改识别错误的字符,否则做出来的traineddata文件也是错的。可以在下面的界面中修改并保存,也可以直接在traineddata文件中修改。

    15. 定义字体特征文件。创建一个名称为font_properties的字体特征文件。font_properties不含有BOM头,文件内容格式如下:

    <fontname> <italic> <bold> <fixed> <serif> <fraktur>  

    其中fontname为字体名称,必须与[lang].[fontname].exp[num].box中的名称保持一致。<italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值为1或0,表示字体是否具有这些属性。

    这里在样本图片所在目录下创建一个名称为font_properties的文件,用记事本打开,输入以下下内容:

    font 0 0 0 0 0

    这里全取值为0,表示字体不是粗体、斜体等等。

    16. 生成语言文件。在样本图片所在目录下创建一个批处理文件,输入如下内容:

    rem 执行改批处理前先要目录下创建font_properties文件 

     

    echo Run Tesseract for Training.. 

    tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train 

     

    echo Compute the Character Set.. 

    unicharset_extractor.exe num.font.exp0.box 

    mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr 

     

    echo Clustering.. 

    cntraining.exe num.font.exp0.tr 

     

    echo Rename Files.. 

    rename normproto num.normproto 

    rename inttemp num.inttemp 

    rename pffmtable num.pffmtable 

    rename shapetable num.shapetable  

     

    echo Create Tessdata.. 

    combine_tessdata.exe num.

    17. 执行批处理文件, num.traineddata便是最终生成的语言文件,将生成的num.traineddata拷贝到程序的样本文件夹里,就可以使用了。

     

     

    展开全文
  • 由于tesseract的中文语言包“chi_sim”对中文手写字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库。   步骤: 1、工具...

      由于tesseract的中文语言包“chi_sim”对中文手写字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库。

     

    步骤:

    1、工具准备:

    (1)官方文档:https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00

    (2)Java虚拟机,由于jTessBoxEditor的运行依赖Java运行时环境,所以需要安装Java虚拟机。

    下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

     

    (3)jTessBoxEditor2.0工具,用于调整图片上文字的内容和位置,

    下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

    安装包解压后双击里边的“jTessBoxEditor.jar”,或者双击该目录下的“train.bat”脚本文件,就可以打开该工具了。

     

    2、样本图片准备:(进行训练的样本图片数量越多越好)

    这里只准备2种不同字体样本进行测试:

    3、使用jTessBoxEditor生成训练样本的的合并tif图片:

    (1)打开jTessBoxEditor,选择Tools->Merge TIFF,进入训练样本所在文件夹,选中要参与训练的样本图片:

    (2)点击 “打开” 后弹出保存对话框,选择保存在当前路径下,文件命名为 “zwp.test.exp0.tif” ,格式只有一种 “TIFF” 可选。

    tif文面命名格式[lang].[fontname].exp[num].tif
    lang是语言,fontname是字体,num为自定义数字。

    比如我们要训练自定义字库 zwp,字体名test,那么我们把图片文件命名为 zwp.test.exp0.tif

     

    4、使用tesseract生成.box文件:

    在上一步骤生成的“zwp.test.exp0.tif”文件所在目录下打开命令行程序,执行下面命令,执行完之后会生成zwp.test.exp0.box文件。

    tesseract zwp.test.exp0.tif zwp.test.exp0 -l chi_sim -psm 7 batch.nochop makebox

     

     

     

    5、使用jTessBoxEditor矫正.box文件的错误:

    .box文件记录了每个字符在图片上的位置和识别出的内容,训练前需要使用jTessBoxEditor调整字符的位置和内容。

    打开jTessBoxEditor点击Box Editor ->Open,打开步骤2中生成的“zwp.test.exp0.tif”,会自动关联到“zwp.test.exp0.box”文件,这两文件要求在同一目录下。调整完点击“save”保存修改。

     

    6、生成font_properties文件:(该文件没有后缀名)

    (1)执行命令,执行完之后,会在当前目录生成font_properties文件

     

    echo test 0 0 0 0 0 >font_properties

    (2)也可以手工新建一个名为font_properties的文本文件,输入内容 “test 0 0 0 0 0” 表示字体test的粗体、倾斜等共计5个属性。这里的“test”必须与“zwp.test.exp0.box”中的“test”名称一致。

     

    7、使用tesseract生成.tr训练文件:

    执行下面命令,执行完之后,会在当前目录生成zwp.test.exp0.tr文件。

    tesseract zwp.test.exp0.tif zwp.test.exp0 nobatch box.train

     

    8、生成字符集文件:

    执行下面命令:执行完之后会在当前目录生成一个名为“unicharset”的文件。

    unicharset_extractor zwp.test.exp0.box

     

    9、生成shape文件:

    执行下面命令,执行完之后,会生成 shapetable 和 zwp.unicharset 两个文件。

    shapeclustering -F font_properties -U unicharset -O zwp.unicharset zwp.test.exp0.tr

     

    10、生成聚字符特征文件:

    执行下面命令,会生成 inttemp、pffmtable、shapetable和zwp.unicharset四个文件。

    mftraining -F font_properties -U unicharset -O zwp.unicharset zwp.test.exp0.tr

     

    11、生成字符正常化特征文件:

    执行下面命令,会生成 normproto 文件。

    cntraining zwp.test.exp0.tr

     

    12、文件重命名:

    重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

    这里修改为zwp.inttemp、zwp.pffmtable、zwp.shapetable和zwp.normproto

    执行下面命令:

    rename normproto zwp.normproto
    rename inttemp zwp.inttemp
    rename pffmtable zwp.pffmtable
    rename shapetable zwp.shapetable

     

    13、合并训练文件:

    执行下面命令,会生成zwp.traineddata文件。

    combine_tessdata zwp.

    Log输出中的Offset 1、3、4、5、13这些项不是-1,表示新的语言包生成成功。

    将生成的“zwp.traineddata”语言包文件复制到Tesseract-OCR 安装目录下的tessdata文件夹中,就可以使用训练生成的语言包进行图像文字识别了。

     

    14、测试:

    输入下面命令,-l后面为训练生成的语言包。

    tesseract test.PNG test -l zwp

    使用新训练的语言包进行文字识别后,会发现之前识别不出来的文字也可以识别出来了。

     

    附:最终所有的生成文件:

    展开全文
  • Tesseract学习(三)

    千次阅读 热门讨论 2014-01-05 23:08:55
    前两篇博客讲的都是通过调用客户端程序的方式来识别图像,但一旦要识别的图片很多的话,识别速度将很不乐观,因为频繁的打开关闭进程、频繁的访问文件都会严重影响程序的时间效率。  接下来我将介绍通过调用API的...
  • 作者 | Raini ... 也是几个月前的项目了,由于手头事儿多,也已经转交给别的同事去继续优化。本博客仅做个简单的记录用。 ...这里是Tesseract(LSTM)、CTPN+CRNN、Densenet三个...PS:官方Tesseract-4.0需要Ubuntu-18...
  • Tesseract-OCR下载和安装

    万次阅读 2018-10-24 11:03:57
      Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的...
  • tesseract 提升识别质量

    万次阅读 2019-01-08 14:36:31
    tesseract内置了一些图像处理方法(基于leptonica library)。 如果我们想要观察tesseract如何处理图片可以将tessedit_write_images变量设置为true。 改变尺度 tesseract默认dpi是300,最好把图片的dpi设置为300 二...
  • Tesseract OCR 语言包下载

    万次阅读 2018-02-13 22:37:12
    esseract OCR语言包的下载地址https://github.com/tesseract-ocr/tessdata图中的是简体中文包。
  • tesseract-ocr的安装及使用

    万次阅读 多人点赞 2018-08-01 18:07:12
    根据https://github.com/tesseract-ocr/tesseract/wiki,我找到非官方的安装包,好像我只看到64位的安装包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,下载后直接安装即可,...
  • 本文简单介绍Tesseract-OCR 3.x版本如何上手使用,只适用于入门级别。 目录 1.开源协议 2.安装包获取 3.运行Tesseract-OCR命令行  3.1检测Tessseract-OCR是否安装成功  3.2查看Tesseract-OCR支持语言  3.3利用...
  • Tesseract-OCR -01-Tesseract 介绍

    千次阅读 2018-09-14 13:55:38
    Tesseract-OCR -01-Tesseract 介绍 OCR(Optical Character Recognition): 光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程 Tesseract - OCR 引擎最先由HP实验室于1985年开始研发,至1995年时...
  • OpenCV的Tesseract使用OpenCV的Tesseract使用Mac端的Tesseract使用 iOS端的Tesseract使用 Mac端的Tesseract使用Tesseract的安装 Mac上的Tesseract安装很方便,直接利用brew来安装:brew update brew install ...
  • ubuntu下tesseract 4.0安装及参数使用

    万次阅读 2017-09-30 23:01:36
    tesseract是一个开源的OCR引擎,最初是由惠普公司开发用来作为其平板扫描仪的 OCR引擎,2005年惠普将其开源出来,之后google接手负责维护。目前稳定的版本是3.0,4.0版本加入了基于LSTM 的神经网络技术,并且支持中文...
  • Tesseract-Windows的安装 Tesseract Windows安装包下载:https://digi.bib.uni-mannheim.de/tesseract/ 上面链接看着头疼就下我的网盘里的: 链接:https://pan.baidu.com/s/13KRXi-2FCkA9_6MBQ_wxeg 密码:gtp1 ...
  • tesseract简单数字英文识别

    万次阅读 2018-04-17 11:01:30
    本文只是针对于windows系统首先下载tesseract安装包https://pan.baidu.com/s/11K452IOqkVzmhvTgYOCPZQ然后一路next在本地进行安装我的个人安装目录是D:\Test\YZMProcess\Tesseract-...\Test\YZMProcess\Tesseract-...
  • ubuntu安装tesseract环境

    千次阅读 2018-08-09 15:30:10
    安装tesseract sudo apt install tesseract-ocr 如果希望安装开发工具执行命令 sudo apt install libtesseract-dev Ubuntu系统需要安装如下依赖库 sudo apt-get install g++ # or clang++ (presumably...
  • windows环境下使用pytesseract... pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path 报错原因很明确: 没有找到 tesseract 解决方案: 1.找到python...
  • windows安装tesseract-OCR及使用

    千次阅读 2018-08-26 17:20:01
    tesseract是Python的一个OCR(光学字符识别)库 首先下载tesseract的exe安装文件 https://github.com/UB-Mannheim/tesseract/wiki 安装时可以将语言包选上(比如不选择的话,默认的只能解析英文) 配置环境变量 ...
1 2 3 4 5 ... 20
收藏数 11,707
精华内容 4,682
关键字:

tesseract