-
2022-02-28 22:02:59
一、前期准备
需要先下载 tesseract-ocr-w64-setup-v5.0.1.20220118 ,官网下载即可,尽量用最新的版本,旧版本识别率很低并且解压后不能自动下载相关内容。解压后路径需要替换下文C:\Program Files\Tesseract-OCR\tesseract.exe。可以提取视频中的文本,其他的一般。
二、代码
注释代码如下:
""" 增加图片处理库PIL pip install Pillow 增加OCR识别库 pip install pytesseract """ #图库引用 from PIL import Image #识别库引用 import pytesseract as pt #图形界面引用 import tkinter as tk #路径引用 import tkinter.filedialog as filedialog #方法 class Application(tk.Tk): def __init__(self): super().__init__() self.title("图片文本提取") # r"" 的作用是去除转义字符 pt.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" #路径变量 self.img_path = tk.StringVar() #布局 self.frame = tk.Frame(self) self.frame.pack(padx=10, pady=10) #标签 self.lbl_file = tk.Label(self.frame, text="图像") self.lbl_file.grid(row=0, column=0) #输入框布局 self.txt_file = tk.Entry(self.frame, width=60, textvariable=self.img_path) self.txt_file.grid(row=0, column=1, sticky=tk.W) #button形式以及布局 self.btn_file = tk.Button(self.frame, text="选择", command=self.sel_img_file) self.btn_file.grid(row=0, column=1, sticky=tk.E) #同上 self.lbl_txt = tk.Label(self.frame, text="文本") self.lbl_txt.grid(row=1, column=0) self.txt_exract = tk.Text(self.frame) self.txt_exract.grid(row=1, column=1) self.btn_extract = tk.Button(self.frame, text="提取文本", command=self.extract_text) self.btn_extract.grid(row=2, column=1, sticky=tk.W+tk.E) def sel_img_file(self): self.img_path.set(filedialog.askopenfilename(title="选择图片", initialdir=".")) def extract_text(self): if self.img_path: img = Image.open(self.img_path.get()) text = pt.image_to_string(img, lang="chi_sim") self.txt_exract.delete(1.0, tk.END) self.txt_exract.insert(tk.END, text) if __name__ == "__main__": app = Application() app.mainloop()
更多相关内容 -
用python提取图片文字
2020-11-28 09:45:11日常的生活中,我们经常需要提取图片中的一些文字,往往只能通过手打的方式,费时又费力。目前有大量的图片文字提取程序与代码库,今天我将介绍其中一种方便的操作,基于百度的研究。首先,我们需要安装相应的python...日常的生活中,我们经常需要提取图片中的一些文字,往往只能通过手打的方式,费时又费力。目前有大量的图片文字提取程序与代码库,今天我将介绍其中一种方便的操作,基于百度的研究。
首先,我们需要安装相应的python库 aip
pip install baidu-aip
再导入AipOcr函数并编写图片读取与输出函数
from aip import AipOcr
config = {
'appId': '19526544',
'apiKey': 'oCinMkQkGGYD9lC6hhwpP5HN',
'secretKey': 'HdQthiZN95QdaPmZsgYxZZrg9OLIWtMz'
}
client = AipOcr(**config)
def img_to_str_baidu(image_path):
with open(image_path, 'rb') as fp:
image = fp.read()
result = client.basicGeneral(image)
if 'words_result' in result:
return '\n'.join([w['words'] for w in result['words_result']])
return " "
定义函数img_to_str_baidu之后,输入具体的图片参数路径即可得到相应文件
例如:
imagetest1
输入
img_to_str_baidu('imagetest1.png')
即可得到
目录
DEA方法简介
、DEA基本原理和模型
、DBA应用案例
四、DBA软件介绍
五、DEA主要应用领域
六、DEA最新研究进展
七、DEA主要参考文献
亦或是:
可以得到:
adanac
HITTING INSTRUCTION
IND MECHANICS APPROACH
-
README_hee77_python文字提取_用python提取图片中文字_图片文字提取_
2021-10-01 04:28:46利用python提取图片中的文字,代码精简,文档齐全 -
Python3实现获取图片文字里中文的方法分析
2020-09-19 20:33:09主要介绍了Python3实现获取图片文字里中文的方法,结合实例形式分析了Python基于文字识别引擎tesseract-ocr针对图片里中文识别的相关操作技巧与操作注意事项,需要的朋友可以参考下 -
Python提取图片中的文字
2021-07-29 00:43:04Python提取图片中的文字相关依赖库安装OCR工具安装识别代码 相关依赖库安装 pip install PIL pip install pytesseract OCR工具安装 下载链接 修改 pytesseract 源码中的路径,将 tesseract_cmd 的值改为安装...相关依赖库安装
pip install PIL pip install pytesseract
OCR工具安装
修改 pytesseract 源码中的路径,将
tesseract_cmd
的值改为安装Tesseract-OCR应用程序路径
安装识别中文所需依赖库,下载链接
将下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中识别代码
import pytesseract from PIL import Image img_en = Image.open(r'C:\Users\95235\Downloads\misc1\misc1.png') img_ch = Image.open(r'C:\Users\95235\Downloads\misc1\misc1.png') print('========识别字母========') print(pytesseract.image_to_string(img_en)) print('========识别中文========') print(pytesseract.image_to_string(img_ch, lang='chi_sim'))
-
python识别图像并提取文字的实现方法
2020-12-25 14:51:12python图像识别一般基础到的就是tesseract了,在爬虫中处理验证码广泛使用。 安装 安装教程网上大都差不多,Windows下确实比较麻烦,涉及到各种路径、环境变量甚至与linux不同的路径分隔符,所以这里的安装是基于... -
如何利用Python识别图片中的文字
2020-09-16 19:15:43主要给大家介绍了关于如何利用Python识别图片中文字的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧 -
docx_python_process:从docx文件中批量提取图片表格内文字
2021-02-11 15:54:02docx_python_process 从docx文件中批量提取图片表格内文字 pip安装: pip install python-docx -
python识别提取图片jpg中指定位置的文字,并修改文件名为改文字
2022-06-07 16:28:12python识别提取图片中指定位置的文字,并修改文件名为改文字,方便批量操修改文件名,其中使用了pyqt5作为程序的界面,识别图片使用了Tesseract-OCR技术,压缩包附带源代码,方便大家学习。 -
python提取图片中的文字
2020-03-17 09:36:56python提取图片中的文字准备工作完整代码错误代码 OCR,全称Optical character recognition,中文译名叫做光学文字识别。它把图像中的字符,转换为机器编码的文本的一种方法。OCR技术在印刷行业应用得非常多,也广泛...OCR,全称Optical character recognition,中文译名叫做光学文字识别。它把图像中的字符,转换为机器编码的文本的一种方法。OCR技术在印刷行业应用得非常多,也广泛用于识别图片中的文字数据 – 比如护照,支票,银行声明,收据,统计表单,邮件等。
pytesseract,即Python-tesseract,是Google Tesseract ORC引擎的封装。首次于2014年提出,支持的图片格式有’JPEG’, ‘PNG’, ‘PBM’, ‘PGM’, ‘PPM’, ‘TIFF’, ‘BMP’, ‘GIF’,只需要简短的代码就能够提取图片中的字符合文字了,极大方便文字工作。
准备工作
1,安装pillow或者PIL,主要用来打开本地图片
pip install PIL pip install pillow
2,安装pytesseract,主要用来将图片里面文字转化字符串或者pdf
pip install pytesseract
3,安装 Tesseract-OCR应用程序
进入 https://pan.baidu.com/s/1qXumxdltxOnb0geaE_1U-Q下载安装4,修改 pytesseract 源码中的路径
进入D:\Anaconda3\Lib\site-packages\pytesseract,用Notepad++打开pytesseract.py,将源码第26行的路径修改成安装Tesseract-OCR应用程序路径。tesseract_cmd = 'tesseract.exe'
修改成
tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
5,安装中文字库
进入https://pan.baidu.com/s/1GfspC5uef73B2Oa8YudBgQ,下载中文库复制到 Tesseract-OCR 安装目录下的 tessdata 文件夹中原图片
完整代码
from PIL import Image import pytesseract image = Image.open("粉丝.jpg") #打开图片 #print(image.size) #测试图片像素尺寸 text = pytesseract.image_to_string(image, lang='chi_sim') #图片转字符串 text = text.replace("“ ","").replace("。","") #去掉杂质,提纯 print(text) #测试结果
结果预览
关 注 我 的 人 共 634 位 排 行 榜 用 户 分 析 1 上 海 133 人 21.0% 2 邵 阳 64 人 10.1%8 3 北 京 34 人 5.4% 4 广 州 19 人 3.0% 5 深 圳 18 人 2.8% 6 武 汉 16 人 2.5% 7 阜 阳 13 人 2.1% 8 长 沙 12 人 1.9% 9 成 都 1 人 1.7% 10 南 京 1 人 1.7% 人 重 庆 10 人 1.6% 12 苏 州 9 人 1.4% 13 杭 州 8 人 1.3% 14 西 安 6 人 0.9% 15 滩 坊 6 人 0.9% 16 美 国 5 人 0.8% 17 合 肥 5 人 0.8% 18 宁 波 5 人 0.8% 19 徐 州 5 人 0.8% 20 厦 门 4 人 0.6% 21 十 堰 4 人 0.6% 22 绍 兴 4 人 0.6% 23 哈 尔 滨 4 人 0.6% 24 石 家 庄 4 人 0.6% 25 沈 阳 4 人 【 26 济 南 4 人 0.6% 27 江 门 3 人 0.5% 28 洛 阳 3 人 0.5% 29 焦 作 3 人 0.5% 30 安 阳 3 人 0.5% 31 郁 州 3 人 0.5% 32 东 菀 3 人 0.5% 33 尾 明 3 人 0.5% 34 中 山 3 人 0.5% 35 长 春 3 人 0.5% 36 济 宁 3 人 0.5% 37 株 洲 3 人 0.5% 38 呼 和 浩 特 3 人 0.5% 39 贵 阳 3 人 0.5% 40 铜 仁 3 人 0.5% 41 长 治 3 人 0.5% 42 泰 安 2 人 0.3% 43 怀 化 2 人 0.3% 44 崴 州 2 人 0.3% 45 濮 阳 2 人 0.3% 46 聊 城 2 人 0.3% 47 邢 台 2 人 0.3% 48 烟 台 2 人 0.3% 49 湖 南 省 2 人 0.3% 50 保 定 2 人 0.3% 51 岳 阳 2 人 0.3% 52 常 德 2 人 0.3% 53 永 州 2 人 0.3% 54 天 津 2 人 0.3% 55 广 东 省 2 人 0.3% 56 秦 皇 峤 2 人 0.3% 57 湛 江 2 人 0.3% 58 揭 阳 2 人 0.3% 59 南 宁 2 人 0.3% 60 贺 州 2 人 0.3% 61 兰 州 2 人 0.3% 62 巴 音 郭 楼 2 人 0.3% 63 加 拿 大 2 人 0.3% 64 忻 州 2 人 0.3% 65 无 锡 2 人 0.3% 66 温 州 2 人 0.3% 67 芳 湖 2 人 0.3% 68 临 汾 2 人 0.3% 69 安 庆 2 人 0.3% 70 满 州 2 人 0.3% 71 吕 梁 2 人 0.3% 72 吉 林 2 人 0.3% 73 运 城 2 人 0.3% 74 根 州 1 人 0.2% 75 广 元 1 人 0.2% 76 松 原 1 人 0.2% 77 攀 枝 花 1 人 0.2% 78 泸 州 1 人 0.2% 79 宥 宾 1 人 【 80 绵 阳 1 人 0.2% 81 铁 峙 1 人 0.2% s 遮 押 晚 白 人 02x 83 蹇萱黎族自 1 人 0.2% 84 海 口 1 人 0.2% 85 贵 潜 1 人 0.2% 86 桂 林 1 人 0.2% 87 营 口 1 人 0.2% 88 白 城 1 人 0.2% 89 百 色 1 人 0.2% 90 甘 孜 1 人 0.2% 91 北 海 1 人 0.2% 92 柳 州 1 人 0.2% 93 韶 关 1 人 0.2% 94 鞍 山 1 人 0.2% 95 梅 州 1 人 0.2% 96 辽 阳 1 人 0.2% 97 汕 属 1 人 0.2% 98 肇 庆 1 人 0.2% 99 包 头 1 人 0.2% 100 未 知 地 域 1 人 0.2% 101 荷 兰 1 人 0.2% 102 日 本 1 人 0.2% 103 英 国 1 人 0.2% 104 晋 中 1 人 0.2% 105 澳 大 利 亚 1 人 0.2% 106 奥 地 利 1 人 0.2% 107 昌 吉 1 人 0.2% 108 克 拉 玛 依 1 人 0.2% 109 银 川 1 人 0.2% 10 黄 南 1 人 0.2% 111 平 凉 1 人 0.2% 112 武 威 1 人 0.2% 113 达 州 1 人 0.2% 14 榆 林 1 人 0.2% 115 延 安 1 人 0.2% 116 宝 鸡 1 人 0.2% 117 香 潜 1 人 0.2% 8 呼 伦 贝 尔 1 人 0.2% 119 黔 东 南 1 人 0.2% 120 大 连 1 人 0.2% 121 邋 义 1 人 0.2% 122 六 盘 水 1 人 0.2% 123 葫 芦 岛 1 人 0.2% 124 延 边 1 人 0.2% 125 眉 山 1 人 0.2% 126 德 州 1 人 0.2% 127 信 阳 1 人 0.2% 128 新 乡 1 人 0.2% 129 台 州 1 人 0.2% 130 开 封 1 人 0.2% 131 嘉 兴 1 人 0.2% 132 衢 州 1 人 0.2% 133 金 华 1 人 0.2% 134 日 照 1 人 0.2% 135 张 家 口 1 人 0.2% 136 溏 博 1 人 0.2% 137 _ 临 沂 1 人 0.2% 138 菏 泽 1 人 0.2% 139 淮 北 1 人 0.2% 140 许 昌 1 人 0.2% 141 铜 陵 1 人 0.2% 142 青 岛 1 人 0.2% 143 新 余 1 人 0.2% 144 景 德 镇 1 人 0.2% 145 衡 水 1 人 0.2% 146 南 昌 1 人 0.2% 147 宁 德 1 人 0.2% 148 莲 田 1 人 0.2% 149 三 明 1 人 0.2% 150 泉 州 1 人 0.2% 151 六 安 1 人 0.2% 152 福 州 1 人 0.2% 153 梦 州 1 人 0.2% 154 滕 州 1 人 0.2% 155 佛 山 1 人 0.2% 156 鸣 州 1 人 0.2% 157 珠 海 1 人 0.2% 158 沧 州 1 人 0.2% 159 江 苏 省 1 人 0.2% 160 云 浮 1 人 0.2% 161 晋 城 1 人 0.2% 162 娄 底 1 人 0.2% 163 扬 州 1 人 0.2% 164 常 州 1 人 0.2% 165 唐 山 1 人 0.2% 166 湘 潭 1 人 0.2% 167 汕 头 1 人 0.2% 168 衡 阳 1 人 0.2% 169 连 云 湛 1 人 0.2% 170 张 家 界 1 人 0.2% 171 大 同 1 人 0.2% 172 盐 城 1 人 0.2% 173 黄 冈 1 人 0.2% 174 襄 糜 1 人 0.2% 175 宣 昌 1 人 0.2% 176 太 原 1 人 0.2% 177 庾 坊 1 人 0.2% 178 湖 北 省 1 人 0.2% 179 周 口 1 人 0.2% 全 部 加 载 完 成
结果还是不错的,90%都识别出来了,只是汉字之间都是空格隔开,可以考虑replace掉。
参考文献
1,https://github.com/madmaze/pytesseract
-
Python Opencv提取图片中某种颜色组成的图形的方法
2020-09-18 15:47:23主要介绍了Python Opencv提取图片中某种颜色组成的图形的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 -
Python提取图片中的文字信息
2021-03-22 22:50:11Python提取图片中的文字信息 使用的Python库 Python tesseract是Python的一个光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像中的文本。 Python tesseract是Google tesseract OCR引擎的包装器。它还... -
怎样用Python提取图片中的文字
2020-11-20 20:54:00点击蓝字关注△ 回复“1024”领取福利大礼包有时候在爬取数据的时候,需要...Pillow 算不上是图像处理功能最全的库,但是它拥有你需要使用的全部功能,除非你 要用 Python 重写一个 Photoshop 或进行更加复杂的研... -
Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解
2020-09-17 22:10:24主要介绍了Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容方法详解,需要的朋友可以参考下 -
python提取图片中的文字并生成word文档
2020-10-31 20:53:30python提取图片中的文字并生成word文档 近在学习的过程中发现书中有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何用... -
提取图片文字,python三行代码足矣!
2021-06-05 14:12:44身处数据爆炸增长的信息时代,各种各样的数据都飞速增长,以图片的形式出现的数据更是数不胜数。有时候,我们想要提取图片中的文字,需要一个一个地敲打键盘输入。但如果你使用python,三行代码足矣! -
python 图片文字提取
2022-04-19 10:54:32转载:python怎么读取png(python 图像处理)-天道酬勤-花开半夏 图像处理不是一件简单的工作。 对你来说,一看到某样东西,马上就知道你在看什么很容易。 但是,电脑不是这样工作的。 对你来说太难的任务,比如... -
Python实现图片中文字提取(OCR)
2020-12-22 13:29:33用Python提取图片中的文字,用到的工具包有PIL,pytesseract,tesseract-ocr 注意: 库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程中的一些坑给大家参考。 (1)首先是PIL库安装,有的电脑... -
python实现图片文字提取,准确率高达99%,强无敌!!!
2020-07-11 00:10:24为了统一回答大家的问题,今天我又使用百度API实现了一个从图片中提取文字和识别身份证的功能,详细描述实现过程,有收获的小伙伴记得收藏、转发分享哦。 百度AI开放平台 百度AI开放平台网址:... -
Python图片文字提取
2019-08-11 11:50:01图片信息现在越来越广泛的存在于我们的日常生活中,获取图片内的文字信息也渐渐的成为当今生活中的需求,在学习完Python的基础知识后,本小白以此语言为工具,使用百度提供的图像识别接口来实现简单的图片文字提取... -
python批量识别图片指定区域文字内容
2021-01-20 06:30:27Python批量识别图片指定区域文字内容,供大家参考,具体内容如下 简介 对于一张图片,需求识别指定区域的内容 1.截取原始图上的指定图片当做模板 2.根据模板相似度去再原始图片上识别准确坐标 3.根据坐标剪切出指定... -
如何使用Python进行OCR识别图片中的文字
2020-12-31 02:07:41朋友需要一个工具,将图片中的文字提取出来。我帮他在网上找了一些OCR的应用,都不好用。所以准备自己研究,写一个Web APP供他使用。 OCR1,全称Optical character recognition,或者optical character reader,中文... -
Python调用API对图片中的文字进行提取返回为文本(OCR功能,可复用扩展)
2015-06-16 10:46:30Python写的OCR小程序,代码结构很清晰,学习、取用皆可 -
python实现提取图片中文字
2020-11-20 20:54:241首先我贴出代码:from PIL import Imageimport pytesseracttext=pytesseract.image_to_string(Image.open('demo.png'),lang='chi_sim')print(text)2然后给出我的项目目录,以及图片信息,和最后的运行结果3但是就... -
【Python案例】OCR提取图片中的文字
2022-06-20 20:06:57本文实现本地运行图片提取文字功能,安全方便,特别适合对数据安全敏感人员使用。 -
python识别图片文字_图片文字识别软件,快速提取文字
2021-02-03 19:39:20图文识别是一种可以使你转换不同文档的技术,比如将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成可以编辑的文档。假设你获得了一个纸质文件-比如,杂志、...为了从扫描文档、PDF或者数码图片中提取文字和数据,... -
用Python提取图片&截图中的文字
2019-12-31 00:40:10《用Python“破解”某度文库等文库复制的限制》 tips:当个标题党真刺激啊 开发背景 临近期末,CYQ要写许多作业。迫不得已寻找度娘解决问题,找到之后,CYQ习惯性地ctrl+c,当ctrl+v时发现,emmm!?没有啊!仔细一... -
Python实现从图片提取文字
2021-01-29 07:40:18环境Python3Python3的pillow、pytesseract包可使用pip install pillow、pip install pytesseract命令安装或者通过pycharm进行安装识别引擎tesseract-ocr ,下载地址代码#-*- coding:utf-8 -*-import pytesseractfrom...