-
2022-02-28 22:02:59
一、前期准备
需要先下载 tesseract-ocr-w64-setup-v5.0.1.20220118 ,官网下载即可,尽量用最新的版本,旧版本识别率很低并且解压后不能自动下载相关内容。解压后路径需要替换下文C:\Program Files\Tesseract-OCR\tesseract.exe。可以提取视频中的文本,其他的一般。
二、代码
注释代码如下:
""" 增加图片处理库PIL pip install Pillow 增加OCR识别库 pip install pytesseract """ #图库引用 from PIL import Image #识别库引用 import pytesseract as pt #图形界面引用 import tkinter as tk #路径引用 import tkinter.filedialog as filedialog #方法 class Application(tk.Tk): def __init__(self): super().__init__() self.title("图片文本提取") # r"" 的作用是去除转义字符 pt.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" #路径变量 self.img_path = tk.StringVar() #布局 self.frame = tk.Frame(self) self.frame.pack(padx=10, pady=10) #标签 self.lbl_file = tk.Label(self.frame, text="图像") self.lbl_file.grid(row=0, column=0) #输入框布局 self.txt_file = tk.Entry(self.frame, width=60, textvariable=self.img_path) self.txt_file.grid(row=0, column=1, sticky=tk.W) #button形式以及布局 self.btn_file = tk.Button(self.frame, text="选择", command=self.sel_img_file) self.btn_file.grid(row=0, column=1, sticky=tk.E) #同上 self.lbl_txt = tk.Label(self.frame, text="文本") self.lbl_txt.grid(row=1, column=0) self.txt_exract = tk.Text(self.frame) self.txt_exract.grid(row=1, column=1) self.btn_extract = tk.Button(self.frame, text="提取文本", command=self.extract_text) self.btn_extract.grid(row=2, column=1, sticky=tk.W+tk.E) def sel_img_file(self): self.img_path.set(filedialog.askopenfilename(title="选择图片", initialdir=".")) def extract_text(self): if self.img_path: img = Image.open(self.img_path.get()) text = pt.image_to_string(img, lang="chi_sim") self.txt_exract.delete(1.0, tk.END) self.txt_exract.insert(tk.END, text) if __name__ == "__main__": app = Application() app.mainloop()
更多相关内容 -
README_hee77_python文字提取_用python提取图片中文字_图片文字提取_
2021-10-01 04:28:46利用python提取图片中的文字,代码精简,文档齐全 -
Python3实现获取图片文字里中文的方法分析
2020-09-19 20:33:09主要介绍了Python3实现获取图片文字里中文的方法,结合实例形式分析了Python基于文字识别引擎tesseract-ocr针对图片里中文识别的相关操作技巧与操作注意事项,需要的朋友可以参考下 -
如何利用Python识别图片中的文字
2020-09-16 19:15:43主要给大家介绍了关于如何利用Python识别图片中文字的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧 -
Python提取图片中的文字信息
2021-03-22 22:50:11Python提取图片中的文字信息 使用的Python库 Python tesseract是Python的一个光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像中的文本。 Python tesseract是Google tesseract OCR引擎的包装器。它还...Python提取图片中的文字信息
使用的Python库
Python tesseract
是Python
的一个光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像中的文本。Python tesseract
是Google tesseract OCR
引擎的包装器。它还可用作tesseract
的独立调用脚本,因为它可以读取Pillow
和Leptonica
图像库支持的所有图像类型,包括jpeg、png、gif、bmp、tiff
等。此外,如果用作脚本,Python tesseract
将打印识别的文本,而不是将其写入文件。程序如下
import pytesseract from PIL import Image print(pytesseract.image_to_string(Image.open('./1A2737EC36534A6636E062FF17838D99.jpg'), lang='chi_sim'))
安装识别引擎tesseract-ocr
如果有以下报错:
则还需要安装识别引擎tesseract-ocr
网上下载安装包,然后直接点击安装即可
因为tesseract-ocr
默认不支持中文识别,所以解压安装tesseract-ocr
后还需下载对应的语言包
安装完成tesseract-ocr后,我们还需配置一下
在C:\Users\ASUS\AppData\Local\Programs\Python\Python38\Lib\site-packages\pytesseract
中找到pytesseract.py
打开后做如下操作:# tesseract_cmd = 'tesseract' tesseract_cmd = 'D:/Tesseract-OCR/tesseract.exe'
环境变量设置
根据这个教程设置环境变量
接下来便可以使用程序来进行文字识别提取 -
Python提取图片中的文字
2021-07-29 00:43:04Python提取图片中的文字相关依赖库安装OCR工具安装识别代码 相关依赖库安装 pip install PIL pip install pytesseract OCR工具安装 下载链接 修改 pytesseract 源码中的路径,将 tesseract_cmd 的值改为安装...相关依赖库安装
pip install PIL pip install pytesseract
OCR工具安装
修改 pytesseract 源码中的路径,将
tesseract_cmd
的值改为安装Tesseract-OCR应用程序路径
安装识别中文所需依赖库,下载链接
将下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中识别代码
import pytesseract from PIL import Image img_en = Image.open(r'C:\Users\95235\Downloads\misc1\misc1.png') img_ch = Image.open(r'C:\Users\95235\Downloads\misc1\misc1.png') print('========识别字母========') print(pytesseract.image_to_string(img_en)) print('========识别中文========') print(pytesseract.image_to_string(img_ch, lang='chi_sim'))
-
python提取图片中的文字并生成word文档
2020-10-31 20:53:30python提取图片中的文字并生成word文档 近在学习的过程中发现书中有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何用...python提取图片中的文字并生成word文档
近在学习的过程中发现书中有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何用百度提供的图像识别接口来完成图像文字的提取。
文字识别OCR:https://ai.baidu.com/ai-doc/OCR/Ek3h7yeiq
首先,需要两个模块:baidu-aip、python-docx。如果没有,可以直接用pip命令安装。
pip install baidu-aip
pip install python-docx其次,导入相关的库,新建对象并设置相关参数。
from aip import AipOcr from docx import Document """相关参数""" APP_ID = 'APP_ID' API_KEY = 'API_KEY' SECRET_KEY = 'SECRET_KEY' client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
这里的APP_ID、API_KEY、SECRET_KEY通过链接https://login.bce.baidu.com/?redirect=https%3A%2F%2Fconsole.bce.baidu.com%2F%3Ffromai%3D1#/aip/overview
用百度账号登录并创建自己的图像识别应用获取。(免费)
然后、获取图片信息,并配置相关属性网络图片
imageurl = "图片链接"
本地图片
imagepath = "图片路径"
配置相关属性,并传入参数。
""" 如果有可选参数 """ options = {}#配置字典 options["language_type"] = "CHN_ENG"#识别文字类型 options["detect_direction"] = "true"#是否检测图片的朝向 options["detect_language"] = "true"#是否检测语言 options["probability"] = "true"#是否返回置信度 """传入参数""" client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
再然后、读取图片
""" 读取图片 """ def get_file_content(filepath): with open(filepath, 'rb') as fp: return fp.read() # 返回文件读取对象 image = get_file_content('example.jpg') """ 带参数调用通用文字识别, 图片参数为本地图片 """ result = client.basicGeneral(image, options) """ 带参数调用通用文字识别, 图片参数为远程url图片 """ result = client.basicGeneralUrl(url, options)
结果result为字典类型。
最后,将返回的结果导入word文件
document = Document('word文件路径.docx') # 此处参数可以省略,如省略会创建新的word文件 for i in result["words_result"]: paragraph = document.add_paragraph(i["words"]) document.save('文件保存路径.docx') # 注意前后一致
<<<<<<<<<<<我是分割线>>>>>>>>>>>>>>
完整代码及实例:from aip import AipOcr from docx import Document """相关参数""" APP_ID = '用你自己的' API_KEY = '用你自己的' SECRET_KEY = '用你自己的' client = AipOcr(APP_ID, API_KEY, SECRET_KEY) """ 读取图片 """ def get_file_content(filePath): with open(filePath, 'rb') as fp: return fp.read() # 返回文件读取对象 jpg_name = r'F:用你自己的\test.jpg' image = get_file_content(jpg_name) """ 如果有可选参数 """ options = {} # 配置字典 options["language_type"] = "CHN_ENG" # 识别文字类型 options["detect_direction"] = "true" # 是否检测图片的朝向 options["detect_language"] = "true" # 是否检测语言 options["probability"] = "true" # 是否返回置信度 """ 带参数调用通用文字识别, 图片参数为本地图片 """ result = client.basicGeneral(image, options) print("提取图片的文字:" ) document = Document(r'F:\用你自己的\text.docx') for i in result["words_result"]: print(i["words"]) paragraph = document.add_paragraph(i["words"]) document.save(r'F:\用你自己的\text.docx')
(注:字体不同,是因为编码方式不同) -
docx_python_process:从docx文件中批量提取图片表格内文字
2021-02-11 15:54:02docx_python_process 从docx文件中批量提取图片表格内文字 pip安装: pip install python-docx -
Python Opencv提取图片中某种颜色组成的图形的方法
2020-09-18 15:47:23主要介绍了Python Opencv提取图片中某种颜色组成的图形的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 -
Python实现图片中文字提取(OCR)
2020-12-22 13:29:33用Python提取图片中的文字,用到的工具包有PIL,pytesseract,tesseract-ocr 注意: 库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程中的一些坑给大家参考。 (1)首先是PIL库安装,有的电脑... -
用python提取图片文字
2020-11-28 09:45:11日常的生活中,我们经常需要提取图片中的一些文字,往往只能通过手打的方式,费时又费力。目前有大量的图片文字提取程序与代码库,今天我将介绍其中一种方便的操作,基于百度的研究。首先,我们需要安装相应的python... -
python识别提取图片jpg中指定位置的文字,并修改文件名为改文字
2022-06-07 16:28:12python识别提取图片中指定位置的文字,并修改文件名为改文字,方便批量操修改文件名,其中使用了pyqt5作为程序的界面,识别图片使用了Tesseract-OCR技术,压缩包附带源代码,方便大家学习。 -
python提取图片中的文字
2020-03-17 09:36:56python提取图片中的文字准备工作完整代码错误代码 OCR,全称Optical character recognition,中文译名叫做光学文字识别。它把图像中的字符,转换为机器编码的文本的一种方法。OCR技术在印刷行业应用得非常多,也广泛... -
python实现提取图片中文字
2020-11-20 20:54:241首先我贴出代码:from PIL import Imageimport pytesseracttext=pytesseract.image_to_string(Image.open('demo.png'),lang='chi_sim')print(text)2然后给出我的项目目录,以及图片信息,和最后的运行结果3但是就... -
Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解
2020-09-17 22:10:24主要介绍了Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容方法详解,需要的朋友可以参考下 -
python识别图像并提取文字的实现方法
2020-12-25 14:51:12python图像识别一般基础到的就是tesseract了,在爬虫中处理验证码广泛使用。 安装 安装教程网上大都差不多,Windows下确实比较麻烦,涉及到各种路径、环境变量甚至与linux不同的路径分隔符,所以这里的安装是基于... -
python实现图片文字提取,准确率高达99%,强无敌!!!
2020-07-11 00:10:24为了统一回答大家的问题,今天我又使用百度API实现了一个从图片中提取文字和识别身份证的功能,详细描述实现过程,有收获的小伙伴记得收藏、转发分享哦。 百度AI开放平台 百度AI开放平台网址:... -
用python识别一张数字图片
2021-01-20 02:47:43这是我看《深度学习入门——基于Python的理论和实现》的第N天,这本书,教你如何利用python,不用机器学习第三方库,自己去实现那些高大上的机器学习能实现的功能。 是的它会涉及到很多数学知识,尤其是矩阵的处理,... -
怎样用Python提取图片中的文字
2020-11-20 20:54:00点击蓝字关注△ 回复“1024”领取福利大礼包有时候在爬取数据的时候,需要读取网页中图片中的信息。在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。有两个库非常流行的... -
Python提取PDF中的文字和图片
2020-12-16 16:27:28一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp ... -
利用Python提取视频中的字幕(文字识别)
2021-01-20 02:27:17将.MP4格式视频裁剪成一帧一帧的图片再将图片中的字幕摘取出来,保存成一个文档。 进入正题喽!!! 思路 1.将视频按帧截取成图片 2.将上一步截取的图片再进行裁剪,只保留字幕部分,然后在进行灰度处理 3.调用百度... -
Python提取图片中的文字信息,腾讯内部技术,一行代码搞定!
2020-12-30 09:58:11利用Python提取图片中的文字信息,只需要一行代码就能搞定!当然,这是吹牛皮的,但是真正的Python代码也就第4行,说是一行代码搞定也没错。示例:效果尽管运行Python代码后也有几个错误的地方,但是大部分是识别... -
【Python案例】OCR提取图片中的文字
2022-06-20 20:06:57本文实现本地运行图片提取文字功能,安全方便,特别适合对数据安全敏感人员使用。 -
Python提取word文档中的图片,识别图片文字之后再转存为word文档
2020-09-28 09:59:08#!/usr/bin/env python # coding: utf-8 import zipfile #压缩包 import os #文件库 import shutil import pytesseract import PIL from PIL import Image from docx import ...from docx.oxml.ns import qn # 中 -
Python调用API对图片中的文字进行提取返回为文本(OCR功能,可复用扩展)
2015-06-16 10:46:30Python写的OCR小程序,代码结构很清晰,学习、取用皆可 -
python批量识别图片指定区域文字内容
2021-01-20 06:30:27Python批量识别图片指定区域文字内容,供大家参考,具体内容如下 简介 对于一张图片,需求识别指定区域的内容 1.截取原始图上的指定图片当做模板 2.根据模板相似度去再原始图片上识别准确坐标 3.根据坐标剪切出指定... -
用Python提取图片&截图中的文字
2019-12-31 00:40:10《用Python“破解”某度文库等文库复制的限制》 tips:当个标题党真刺激啊 开发背景 临近期末,CYQ要写许多作业。迫不得已寻找度娘解决问题,找到之后,CYQ习惯性地ctrl+c,当ctrl+v时发现,emmm!?没有啊!仔细一... -
用Python-OpenCV从车牌图像中提取数字和字母
2020-12-03 21:16:35下面是一个使用简单阈值+轮廓过滤的方法将图像转换为灰度和Otsu阈值找到轮廓并使用轮廓区域进行过滤提取并保存ROI我们首先转换为灰度,然后转换为大津阈值,以获得二值图像接下来我们使用cv2.findContours()找到轮廓...