精华内容
下载资源
问答
  • 用python提取图片文字
    千次阅读
    2022-02-28 22:02:59


    一、前期准备

    需要先下载 tesseract-ocr-w64-setup-v5.0.1.20220118 ,官网下载即可,尽量用最新的版本,旧版本识别率很低并且解压后不能自动下载相关内容。解压后路径需要替换下文C:\Program Files\Tesseract-OCR\tesseract.exe。可以提取视频中的文本,其他的一般。

    二、代码

    注释代码如下:

    """
    增加图片处理库PIL
    pip install Pillow
    增加OCR识别库
    pip install pytesseract
    """
    #图库引用
    from PIL import Image
    #识别库引用
    import pytesseract as pt
    #图形界面引用
    import tkinter as tk
    #路径引用
    import tkinter.filedialog as filedialog
    #方法
    class Application(tk.Tk):
        
        def __init__(self):
            super().__init__()
            self.title("图片文本提取")
    
            # r"" 的作用是去除转义字符
            pt.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
            #路径变量
            self.img_path = tk.StringVar()
            #布局
            self.frame = tk.Frame(self)
            self.frame.pack(padx=10, pady=10)
            #标签
            self.lbl_file = tk.Label(self.frame, text="图像")
            self.lbl_file.grid(row=0, column=0)
            #输入框布局
            self.txt_file = tk.Entry(self.frame, width=60, textvariable=self.img_path)
            self.txt_file.grid(row=0, column=1, sticky=tk.W)
            #button形式以及布局
            self.btn_file = tk.Button(self.frame, text="选择", command=self.sel_img_file)
            self.btn_file.grid(row=0, column=1, sticky=tk.E)
            #同上
            self.lbl_txt = tk.Label(self.frame, text="文本")
            self.lbl_txt.grid(row=1, column=0)        
            self.txt_exract = tk.Text(self.frame)
            self.txt_exract.grid(row=1, column=1)        
            self.btn_extract = tk.Button(self.frame, text="提取文本", command=self.extract_text)
            self.btn_extract.grid(row=2, column=1, sticky=tk.W+tk.E)        
            
        def sel_img_file(self):
            self.img_path.set(filedialog.askopenfilename(title="选择图片", initialdir="."))
    
        def extract_text(self):
            if self.img_path:
                img = Image.open(self.img_path.get())
                text = pt.image_to_string(img, lang="chi_sim")
                self.txt_exract.delete(1.0, tk.END)
                self.txt_exract.insert(tk.END, text)
    
    if __name__ == "__main__":
        app = Application()
        app.mainloop()
    
    
    更多相关内容
  • 用python提取图片文字

    2020-11-28 09:45:11
    日常的生活中,我们经常需要提取图片中的一些文字,往往只能通过手打的方式,费时又费力。目前有大量的图片文字提取程序与代码库,今天我将介绍其中一种方便的操作,基于百度的研究。首先,我们需要安装相应的python...

    日常的生活中,我们经常需要提取图片中的一些文字,往往只能通过手打的方式,费时又费力。目前有大量的图片文字提取程序与代码库,今天我将介绍其中一种方便的操作,基于百度的研究。

    首先,我们需要安装相应的python库 aip

    pip install baidu-aip

    再导入AipOcr函数并编写图片读取与输出函数

    from aip import AipOcr

    config = {

    'appId': '19526544',

    'apiKey': 'oCinMkQkGGYD9lC6hhwpP5HN',

    'secretKey': 'HdQthiZN95QdaPmZsgYxZZrg9OLIWtMz'

    }

    client = AipOcr(**config)

    def img_to_str_baidu(image_path):

    with open(image_path, 'rb') as fp:

    image = fp.read()

    result = client.basicGeneral(image)

    if 'words_result' in result:

    return '\n'.join([w['words'] for w in result['words_result']])

    return " "

    定义函数img_to_str_baidu之后,输入具体的图片参数路径即可得到相应文件

    例如:

    ad95bfca-d0dc-478c-aa55-69a780c499ab

    imagetest1

    输入

    img_to_str_baidu('imagetest1.png')

    即可得到

    目录

    DEA方法简介

    、DEA基本原理和模型

    、DBA应用案例

    四、DBA软件介绍

    五、DEA主要应用领域

    六、DEA最新研究进展

    七、DEA主要参考文献

    亦或是:

    41427e82951b405090bafdc06bab887f

    可以得到:

    adanac

    HITTING INSTRUCTION

    IND MECHANICS APPROACH

    展开全文
  • 利用python提取图片中的文字,代码精简,文档齐全
  • 主要介绍了Python3实现获取图片文字里中文的方法,结合实例形式分析了Python基于文字识别引擎tesseract-ocr针对图片里中文识别的相关操作技巧与操作注意事项,需要的朋友可以参考下
  • Python提取图片中的文字相关依赖库安装OCR工具安装识别代码 相关依赖库安装 pip install PIL pip install pytesseract OCR工具安装 下载链接 修改 pytesseract 源码中的路径,将 tesseract_cmd 的值改为安装...

    Python提取图片中的文字

    相关依赖库安装

    pip install PIL
    pip install pytesseract
    

    OCR工具安装

    下载链接

    修改 pytesseract 源码中的路径,将 tesseract_cmd 的值改为安装Tesseract-OCR应用程序路径

    在这里插入图片描述
    在这里插入图片描述

    安装识别中文所需依赖库,下载链接
    将下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中

    在这里插入图片描述

    识别代码

    import pytesseract
    from PIL import Image
     
    img_en = Image.open(r'C:\Users\95235\Downloads\misc1\misc1.png')
    img_ch = Image.open(r'C:\Users\95235\Downloads\misc1\misc1.png')
     
    print('========识别字母========')
    print(pytesseract.image_to_string(img_en))
     
    print('========识别中文========')
    print(pytesseract.image_to_string(img_ch, lang='chi_sim'))
    

    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • python图像识别一般基础到的就是tesseract了,在爬虫中处理验证码广泛使用。 安装 安装教程网上大都差不多,Windows下确实比较麻烦,涉及到各种路径、环境变量甚至与linux不同的路径分隔符,所以这里的安装是基于...
  • 主要给大家介绍了关于如何利用Python识别图片文字的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
  • docx_python_process 从docx文件中批量提取图片表格内文字 pip安装: pip install python-docx
  • python识别提取图片中指定位置的文字,并修改文件名为改文字,方便批量操修改文件名,其中使用了pyqt5作为程序的界面,识别图片使用了Tesseract-OCR技术,压缩包附带源代码,方便大家学习。
  • python提取图片中的文字

    万次阅读 多人点赞 2020-03-17 09:36:56
    python提取图片中的文字准备工作完整代码错误代码 OCR,全称Optical character recognition,中文译名叫做光学文字识别。它把图像中的字符,转换为机器编码的文本的一种方法。OCR技术在印刷行业应用得非常多,也广泛...

    python提取图片中的文字

    OCR,全称Optical character recognition,中文译名叫做光学文字识别。它把图像中的字符,转换为机器编码的文本的一种方法。OCR技术在印刷行业应用得非常多,也广泛用于识别图片中的文字数据 – 比如护照,支票,银行声明,收据,统计表单,邮件等。

    pytesseract,即Python-tesseract,是Google Tesseract ORC引擎的封装。首次于2014年提出,支持的图片格式有’JPEG’, ‘PNG’, ‘PBM’, ‘PGM’, ‘PPM’, ‘TIFF’, ‘BMP’, ‘GIF’,只需要简短的代码就能够提取图片中的字符合文字了,极大方便文字工作。

    准备工作

    1,安装pillow或者PIL,主要用来打开本地图片

    pip install PIL
    pip install pillow
    

    2,安装pytesseract,主要用来将图片里面文字转化字符串或者pdf

    pip install pytesseract
    

    3,安装 Tesseract-OCR应用程序
    进入 https://pan.baidu.com/s/1qXumxdltxOnb0geaE_1U-Q下载安装

    4,修改 pytesseract 源码中的路径
    进入D:\Anaconda3\Lib\site-packages\pytesseract,用Notepad++打开pytesseract.py,将源码第26行的路径修改成安装Tesseract-OCR应用程序路径。

    源码

    tesseract_cmd = 'tesseract.exe'
    

    修改成

    tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
    

    5,安装中文字库
    进入https://pan.baidu.com/s/1GfspC5uef73B2Oa8YudBgQ,下载中文库复制到 Tesseract-OCR 安装目录下的 tessdata 文件夹中

    赋值中文字库

    原图片

    原图片

    完整代码

    from PIL import Image
    import pytesseract
    
    image = Image.open("粉丝.jpg") #打开图片
    #print(image.size) #测试图片像素尺寸
    text = pytesseract.image_to_string(image, lang='chi_sim') #图片转字符串
    text = text.replace("“ ","").replace("。","") #去掉杂质,提纯
    print(text) #测试结果
    

    结果预览

    关 注 我 的 人
    
    共 634 位
    排 行 榜 用 户 分 析   
    1 上 海 13321.0%   
    2 邵 阳 6410.1%8
    3 北 京 345.4%
    4  广 州 193.0%
    5 深 圳 182.8%
    6 武 汉 162.5%
    7 阜 阳 132.1%
    8 长 沙 121.9%
    9 成 都 11.7%
    10 南 京 11.7%
    人 重 庆 101.6%
    12 苏 州 91.4%
    13 杭 州 81.3%
    14 西 安 60.9%
    15 滩 坊 60.9%
    16 美 国 50.8%
    17 合 肥 50.8%
    18 宁 波 50.8%
    19 徐 州 50.8%
    20 厦 门 40.6%
    21 十 堰 40.6%
    22 绍 兴 40.6%
    23 哈 尔 滨 40.6%
    24 石 家 庄 40.6%
    25 沈 阳 4 人 【
    26 济 南 40.6%
    27 江 门 30.5%
    28 洛 阳 30.5%
    29 焦 作 30.5%
    30 安 阳 30.5%
    31 郁 州 30.5%
    32 东 菀 30.5%
    33 尾 明 30.5%
    34 中 山 30.5%
    35 长 春 30.5%
    36 济 宁 30.5%
    37 株 洲 30.5%
    38 呼 和 浩 特 30.5%
    39 贵 阳 30.5%
    40 铜 仁 30.5%
    41 长 治 30.5%
    42 泰 安 20.3%
    43 怀 化 20.3%
    44 崴 州 20.3%
    45 濮 阳 20.3%
    46 聊 城 20.3%
    47 邢 台 20.3%
    48 烟 台 20.3%
    49 湖 南 省 20.3%
    50 保 定 20.3%
    51 岳 阳 20.3%
    52 常 德 20.3%
    53 永 州 20.3%
    54 天 津 20.3%
    55 广 东 省 20.3%
    56 秦 皇 峤 20.3%
    57 湛 江 20.3%
    58 揭 阳 20.3%
    59 南 宁 20.3%
    60 贺 州 20.3%
    61 兰 州 20.3%
    62 巴 音 郭 楼 20.3%
    63 加 拿 大 20.3%
    64 忻 州 20.3%
    65 无 锡 20.3%
    66 温 州 20.3%
    67 芳 湖 20.3%
    68 临 汾 20.3%
    69 安 庆 20.3%
    70 满 州 20.3%
    71 吕 梁 20.3%
    72 吉 林 20.3%
    73 运 城 20.3%
    74 根 州 10.2%
    75 广 元 10.2%
    76 松 原 10.2%
    77 攀 枝 花 10.2%
    78 泸 州 10.2%
    79 宥 宾 1 人 【
    80 绵 阳 10.2%
    81 铁 峙 10.2%
    s 遮 押 晚 白 人 02x
    83 蹇萱黎族自 10.2%
    84 海 口 10.2%
    85 贵 潜 10.2%
    86 桂 林 10.2%
    87 营 口 10.2%
    88 白 城 10.2%
    89 百 色 10.2%
    90 甘 孜 10.2%
    91 北 海 10.2%
    92 柳 州 10.2%
    93 韶 关 10.2%
    94 鞍 山 10.2%
    95 梅 州 10.2%
    96 辽 阳 10.2%
    97 汕 属 10.2%
    98 肇 庆 10.2%
    99 包 头 10.2%
    100 未 知 地 域 10.2%
    101 荷 兰 10.2%
    102 日 本 10.2%
    103 英 国 10.2%
    104 晋 中 10.2%
    105 澳 大 利 亚 10.2%
    106 奥 地 利 10.2%
    107 昌 吉 10.2%
    108 克 拉 玛 依 10.2%
    109 银 川 10.2%
    10 黄 南 10.2%
    111 平 凉 10.2%
    112 武 威 10.2%
    113 达 州 10.2%
    14 榆 林 10.2%
    115 延 安 10.2%
    116 宝 鸡 10.2%
    117 香 潜 10.2%
    8 呼 伦 贝 尔 10.2%
    119 黔 东 南 10.2%
    120 大 连 10.2%
    121 邋 义 10.2%
    122 六 盘 水 10.2%
    123 葫 芦 岛 10.2%
    124 延 边 10.2%
    125 眉 山 10.2%
    126 德 州 10.2%
    127 信 阳 10.2%
    128 新 乡 10.2%
    129 台 州 10.2%
    130 开 封 10.2%
    131 嘉 兴 10.2%
    132 衢 州 10.2%
    133 金 华 10.2%
    134 日 照 10.2%
    135 张 家 口 10.2%
    136 溏 博 10.2%
    137 _ 临 沂 10.2%
    138 菏 泽 10.2%
    139 淮 北 10.2%
    140 许 昌 10.2%
    141 铜 陵 10.2%
    142 青 岛 10.2%
    143 新 余 10.2%
    144 景 德 镇 10.2%
    145 衡 水 10.2%
    146 南 昌 10.2%
    147 宁 德 10.2%
    148 莲 田 10.2%
    149 三 明 10.2%
    150 泉 州 10.2%
    151 六 安 10.2%
    152 福 州 10.2%
    153 梦 州 10.2%
    154 滕 州 10.2%
    155 佛 山 10.2%
    156 鸣 州 10.2%
    157 珠 海 10.2%
    158 沧 州 10.2%
    159 江 苏 省 10.2%
    160 云 浮 10.2%
    161 晋 城 10.2%
    162 娄 底 10.2%
    163 扬 州 10.2%
    164 常 州 10.2%
    165 唐 山 10.2%
    166 湘 潭 10.2%
    167 汕 头 10.2%
    168 衡 阳 10.2%
    169 连 云 湛 10.2%
    170 张 家 界 10.2%
    171 大 同 10.2%
    172 盐 城 10.2%
    173 黄 冈 10.2%
    174 襄 糜 10.2%
    175 宣 昌 10.2%
    176 太 原 10.2%
    177 庾 坊 10.2%
    178 湖 北 省 10.2%
    179 周 口 10.2%
    
    全 部 加 载 完 成
    

    结果还是不错的,90%都识别出来了,只是汉字之间都是空格隔开,可以考虑replace掉。

    参考文献

    1,https://github.com/madmaze/pytesseract
    在这里插入图片描述

    展开全文
  • 主要介绍了Python Opencv提取图片中某种颜色组成的图形的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • Python提取图片中的文字信息

    千次阅读 2021-03-22 22:50:11
    Python提取图片中的文字信息 使用的Python库 Python tesseract是Python的一个光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像中的文本。 Python tesseract是Google tesseract OCR引擎的包装器。它还...
  • 怎样用Python提取图片中的文字

    千次阅读 2020-11-20 20:54:00
    点击蓝字关注△ 回复“1024”领取福利大礼包有时候在爬取数据的时候,需要...Pillow 算不上是图像处理功能最全的库,但是它拥有你需要使用的全部功能,除非你 要 Python 重写一个 Photoshop 或进行更加复杂的研...
  • 主要介绍了Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容方法详解,需要的朋友可以参考下
  • python提取图片中的文字并生成word文档 近在学习的过程中发现书中有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何...
  • 身处数据爆炸增长的信息时代,各种各样的数据都飞速增长,以图片的形式出现的数据更是数不胜数。有时候,我们想要提取图片中的文字,需要一个一个地敲打键盘输入。但如果你使用python,三行代码足矣!
  • python 图片文字提取

    2022-04-19 10:54:32
    转载:python怎么读取png(python 图像处理)-天道酬勤-花开半夏 图像处理不是一件简单的工作。 对你来说,一看到某样东西,马上就知道你在看什么很容易。 但是,电脑不是这样工作的。 对你来说太难的任务,比如...
  • 用Python提取图片中的文字,用到的工具包有PIL,pytesseract,tesseract-ocr 注意: 库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程中的一些坑给大家参考。 (1)首先是PIL库安装,有的电脑...
  • 为了统一回答大家的问题,今天我又使用百度API实现了一个从图片提取文字和识别身份证的功能,详细描述实现过程,有收获的小伙伴记得收藏、转发分享哦。 百度AI开放平台 百度AI开放平台网址:...
  • Python图片文字提取

    千次阅读 多人点赞 2019-08-11 11:50:01
    图片信息现在越来越广泛的存在于我们的日常生活中,获取图片内的文字信息也渐渐的成为当今生活中的需求,在学习完Python的基础知识后,本小白以此语言为工具,使用百度提供的图像识别接口来实现简单的图片文字提取...
  • Python批量识别图片指定区域文字内容,供大家参考,具体内容如下 简介 对于一张图片,需求识别指定区域的内容 1.截取原始图上的指定图片当做模板 2.根据模板相似度去再原始图片上识别准确坐标 3.根据坐标剪切出指定...
  • 朋友需要一个工具,将图片中的文字提取出来。我帮他在网上找了一些OCR的应用,都不好用。所以准备自己研究,写一个Web APP供他使用。 OCR1,全称Optical character recognition,或者optical character reader,中文...
  • Python写的OCR小程序,代码结构很清晰,学习、取皆可
  • 1首先我贴出代码:from PIL import Imageimport pytesseracttext=pytesseract.image_to_string(Image.open('demo.png'),lang='chi_sim')print(text)2然后给出我的项目目录,以及图片信息,和最后的运行结果3但是就...
  • 本文实现本地运行图片提取文字功能,安全方便,特别适合对数据安全敏感人员使用
  • 图文识别是一种可以使你转换不同文档的技术,比如将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成可以编辑的文档。假设你获得了一个纸质文件-比如,杂志、...为了从扫描文档、PDF或者数码图片提取文字和数据,...
  • 用Python提取图片&截图中的文字

    千次阅读 多人点赞 2019-12-31 00:40:10
    用Python“破解”某度文库等文库复制的限制》 tips:当个标题党真刺激啊 开发背景 临近期末,CYQ要写许多作业。迫不得已寻找度娘解决问题,找到之后,CYQ习惯性地ctrl+c,当ctrl+v时发现,emmm!?没有啊!仔细一...
  • 环境Python3Python3的pillow、pytesseract包可使用pip install pillow、pip install pytesseract命令安装或者通过pycharm进行安装识别引擎tesseract-ocr ,下载地址代码#-*- coding:utf-8 -*-import pytesseractfrom...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 17,901
精华内容 7,160
关键字:

用python提取图片文字