精华内容
下载资源
问答
  • python提取图片中的文字
    千次阅读
    2022-02-28 22:02:59


    一、前期准备

    需要先下载 tesseract-ocr-w64-setup-v5.0.1.20220118 ,官网下载即可,尽量用最新的版本,旧版本识别率很低并且解压后不能自动下载相关内容。解压后路径需要替换下文C:\Program Files\Tesseract-OCR\tesseract.exe。可以提取视频中的文本,其他的一般。

    二、代码

    注释代码如下:

    """
    增加图片处理库PIL
    pip install Pillow
    增加OCR识别库
    pip install pytesseract
    """
    #图库引用
    from PIL import Image
    #识别库引用
    import pytesseract as pt
    #图形界面引用
    import tkinter as tk
    #路径引用
    import tkinter.filedialog as filedialog
    #方法
    class Application(tk.Tk):
        
        def __init__(self):
            super().__init__()
            self.title("图片文本提取")
    
            # r"" 的作用是去除转义字符
            pt.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
            #路径变量
            self.img_path = tk.StringVar()
            #布局
            self.frame = tk.Frame(self)
            self.frame.pack(padx=10, pady=10)
            #标签
            self.lbl_file = tk.Label(self.frame, text="图像")
            self.lbl_file.grid(row=0, column=0)
            #输入框布局
            self.txt_file = tk.Entry(self.frame, width=60, textvariable=self.img_path)
            self.txt_file.grid(row=0, column=1, sticky=tk.W)
            #button形式以及布局
            self.btn_file = tk.Button(self.frame, text="选择", command=self.sel_img_file)
            self.btn_file.grid(row=0, column=1, sticky=tk.E)
            #同上
            self.lbl_txt = tk.Label(self.frame, text="文本")
            self.lbl_txt.grid(row=1, column=0)        
            self.txt_exract = tk.Text(self.frame)
            self.txt_exract.grid(row=1, column=1)        
            self.btn_extract = tk.Button(self.frame, text="提取文本", command=self.extract_text)
            self.btn_extract.grid(row=2, column=1, sticky=tk.W+tk.E)        
            
        def sel_img_file(self):
            self.img_path.set(filedialog.askopenfilename(title="选择图片", initialdir="."))
    
        def extract_text(self):
            if self.img_path:
                img = Image.open(self.img_path.get())
                text = pt.image_to_string(img, lang="chi_sim")
                self.txt_exract.delete(1.0, tk.END)
                self.txt_exract.insert(tk.END, text)
    
    if __name__ == "__main__":
        app = Application()
        app.mainloop()
    
    
    更多相关内容
  • 利用python提取图片中文字,代码精简,文档齐全
  • 主要介绍了Python3实现获取图片文字里中文的方法,结合实例形式分析了Python基于文字识别引擎tesseract-ocr针对图片里中文识别的相关操作技巧与操作注意事项,需要的朋友可以参考下
  • 主要给大家介绍了关于如何利用Python识别图片中文字的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
  • Python提取图片中文字信息

    千次阅读 2021-03-22 22:50:11
    Python提取图片中文字信息 使用的Python库 Python tesseract是Python的一个光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像的文本。 Python tesseract是Google tesseract OCR引擎的包装器。它还...

    Python提取图片中的文字信息

    使用的Python库

    Python tesseractPython的一个光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像中的文本。

    Python tesseractGoogle tesseract OCR引擎的包装器。它还可用作tesseract的独立调用脚本,因为它可以读取PillowLeptonica图像库支持的所有图像类型,包括jpeg、png、gif、bmp、tiff等。此外,如果用作脚本,Python tesseract将打印识别的文本,而不是将其写入文件。

    程序如下

    import pytesseract
    from PIL import Image
    
    print(pytesseract.image_to_string(Image.open('./1A2737EC36534A6636E062FF17838D99.jpg'), lang='chi_sim'))
    

    安装识别引擎tesseract-ocr

    如果有以下报错:
    在这里插入图片描述
    则还需要安装识别引擎tesseract-ocr
    网上下载安装包,然后直接点击安装即可
    因为tesseract-ocr默认不支持中文识别,所以解压安装tesseract-ocr后还需下载对应的语言包
    在这里插入图片描述
    安装完成tesseract-ocr后,我们还需配置一下
    C:\Users\ASUS\AppData\Local\Programs\Python\Python38\Lib\site-packages\pytesseract中找到pytesseract.py
    打开后做如下操作:

    # tesseract_cmd = 'tesseract'
    tesseract_cmd = 'D:/Tesseract-OCR/tesseract.exe'
    

    环境变量设置

    根据这个教程设置环境变量
    接下来便可以使用程序来进行文字识别提取

    展开全文
  • Python提取图片中文字相关依赖库安装OCR工具安装识别代码 相关依赖库安装 pip install PIL pip install pytesseract OCR工具安装 下载链接 修改 pytesseract 源码的路径,将 tesseract_cmd 的值改为安装...

    Python提取图片中的文字

    相关依赖库安装

    pip install PIL
    pip install pytesseract
    

    OCR工具安装

    下载链接

    修改 pytesseract 源码中的路径,将 tesseract_cmd 的值改为安装Tesseract-OCR应用程序路径

    在这里插入图片描述
    在这里插入图片描述

    安装识别中文所需依赖库,下载链接
    将下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中

    在这里插入图片描述

    识别代码

    import pytesseract
    from PIL import Image
     
    img_en = Image.open(r'C:\Users\95235\Downloads\misc1\misc1.png')
    img_ch = Image.open(r'C:\Users\95235\Downloads\misc1\misc1.png')
     
    print('========识别字母========')
    print(pytesseract.image_to_string(img_en))
     
    print('========识别中文========')
    print(pytesseract.image_to_string(img_ch, lang='chi_sim'))
    

    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • python提取图片中文字并生成word文档 近在学习的过程发现书有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何用...

    python提取图片中的文字并生成word文档

    近在学习的过程中发现书中有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何用百度提供的图像识别接口来完成图像文字的提取。
    文字识别OCR:https://ai.baidu.com/ai-doc/OCR/Ek3h7yeiq
    首先,需要两个模块:baidu-aip、python-docx。如果没有,可以直接用pip命令安装。
    pip install baidu-aip
    pip install python-docx

    其次,导入相关的库,新建对象并设置相关参数。

    from aip import AipOcr
    from docx import Document
    
    """相关参数"""
    APP_ID = 'APP_ID'
    API_KEY = 'API_KEY'
    SECRET_KEY = 'SECRET_KEY'
    
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
    

    这里的APP_ID、API_KEY、SECRET_KEY通过链接https://login.bce.baidu.com/?redirect=https%3A%2F%2Fconsole.bce.baidu.com%2F%3Ffromai%3D1#/aip/overview
    用百度账号登录并创建自己的图像识别应用获取。(免费)
    然后、获取图片信息,并配置相关属性

    网络图片

    imageurl = "图片链接" 
    

    本地图片

    imagepath = "图片路径"
    

    配置相关属性,并传入参数。

    """ 如果有可选参数 """
    options = {}#配置字典
    options["language_type"] = "CHN_ENG"#识别文字类型
    options["detect_direction"] = "true"#是否检测图片的朝向
    options["detect_language"] = "true"#是否检测语言
    options["probability"] = "true"#是否返回置信度
    
    """传入参数"""
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
    

    再然后、读取图片

    """ 读取图片 """
    def get_file_content(filepath):
        with open(filepath, 'rb') as fp:
            return fp.read()   # 返回文件读取对象
    image = get_file_content('example.jpg')
    """ 带参数调用通用文字识别, 图片参数为本地图片 """
    result = client.basicGeneral(image, options)
    
    """ 带参数调用通用文字识别, 图片参数为远程url图片 """
    result = client.basicGeneralUrl(url, options)
    

    结果result为字典类型。

    最后,将返回的结果导入word文件

    document = Document('word文件路径.docx')   # 此处参数可以省略,如省略会创建新的word文件
    for i in result["words_result"]:
    	paragraph = document.add_paragraph(i["words"])
    document.save('文件保存路径.docx')  # 注意前后一致
    

    <<<<<<<<<<<我是分割线>>>>>>>>>>>>>>
    完整代码及实例:

    from aip import AipOcr
    from docx import Document
    
    """相关参数"""
    APP_ID = '用你自己的'
    API_KEY = '用你自己的'
    SECRET_KEY = '用你自己的'
    
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
    
    """ 读取图片 """
    
    
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()  # 返回文件读取对象
    
    
    jpg_name = r'F:用你自己的\test.jpg'
    image = get_file_content(jpg_name)
    """ 如果有可选参数 """
    options = {}  # 配置字典
    options["language_type"] = "CHN_ENG"  # 识别文字类型
    options["detect_direction"] = "true"  # 是否检测图片的朝向
    options["detect_language"] = "true"  # 是否检测语言
    options["probability"] = "true"  # 是否返回置信度
    
    """ 带参数调用通用文字识别, 图片参数为本地图片 """
    result = client.basicGeneral(image, options)
    print("提取图片的文字:" )
    document = Document(r'F:\用你自己的\text.docx')
    for i in result["words_result"]:
        print(i["words"])
        paragraph = document.add_paragraph(i["words"])
    document.save(r'F:\用你自己的\text.docx')
    

    原图片
    在这里插入图片描述
    在这里插入图片描述
    (注:字体不同,是因为编码方式不同)

    展开全文
  • docx_python_process 从docx文件批量提取图片表格内文字 pip安装: pip install python-docx
  • 主要介绍了Python Opencv提取图片中某种颜色组成的图形的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • Python提取图片中文字,用到的工具包有PIL,pytesseract,tesseract-ocr 注意: 库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程的一些坑给大家参考。 (1)首先是PIL库安装,有的电脑...
  • python提取图片文字

    2020-11-28 09:45:11
    日常的生活,我们经常需要提取图片中的一些文字,往往只能通过手打的方式,费时又费力。目前有大量的图片文字提取程序与代码库,今天我将介绍其中一种方便的操作,基于百度的研究。首先,我们需要安装相应的python...
  • python识别提取图片中指定位置的文字,并修改文件名为改文字,方便批量操修改文件名,其中使用了pyqt5作为程序的界面,识别图片使用了Tesseract-OCR技术,压缩包附带源代码,方便大家学习。
  • python提取图片中文字

    万次阅读 多人点赞 2020-03-17 09:36:56
    python提取图片中文字准备工作完整代码错误代码 OCR,全称Optical character recognition,中文译名叫做光学文字识别。它把图像的字符,转换为机器编码的文本的一种方法。OCR技术在印刷行业应用得非常多,也广泛...
  • 1首先我贴出代码:from PIL import Imageimport pytesseracttext=pytesseract.image_to_string(Image.open('demo.png'),lang='chi_sim')print(text)2然后给出我的项目目录,以及图片信息,和最后的运行结果3但是就...
  • 主要介绍了Python3使用腾讯云文字识别(腾讯OCR)提取图片中文字内容方法详解,需要的朋友可以参考下
  • python图像识别一般基础到的就是tesseract了,在爬虫处理验证码广泛使用。 安装 安装教程网上大都差不多,Windows下确实比较麻烦,涉及到各种路径、环境变量甚至与linux不同的路径分隔符,所以这里的安装是基于...
  • 为了统一回答大家的问题,今天我又使用百度API实现了一个从图片中提取文字和识别身份证的功能,详细描述实现过程,有收获的小伙伴记得收藏、转发分享哦。 百度AI开放平台 百度AI开放平台网址:...
  • 这是我看《深度学习入门——基于Python的理论和实现》的第N天,这本书,教你如何利用python,不用机器学习第三方库,自己去实现那些高大上的机器学习能实现的功能。 是的它会涉及到很多数学知识,尤其是矩阵的处理,...
  • 怎样用Python提取图片中文字

    千次阅读 2020-11-20 20:54:00
    点击蓝关注△ 回复“1024”领取福利大礼包有时候在爬取数据的时候,需要读取网页中图片中的信息。在读取和处理图像、图像相关的机器学习以及创建图像等任务Python一直都是非常出色的语言。有两个库非常流行的...
  • Python提取PDF文字图片

    千次阅读 2020-12-16 16:27:28
    一,使用Python提取PDF文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp ...
  • 将.MP4格式视频裁剪成一帧一帧的图片再将图片中的字幕摘取出来,保存成一个文档。 进入正题喽!!! 思路 1.将视频按帧截取成图片 2.将上一步截取的图片再进行裁剪,只保留字幕部分,然后在进行灰度处理 3.调用百度...
  • 利用Python提取图片中文字信息,只需要一行代码就能搞定!当然,这是吹牛皮的,但是真正的Python代码也就第4行,说是一行代码搞定也没错。示例:效果尽管运行Python代码后也有几个错误的地方,但是大部分是识别...
  • 本文实现本地运行图片提取文字功能,安全方便,特别适合对数据安全敏感人员使用。
  • #!/usr/bin/env python # coding: utf-8 import zipfile #压缩包 import os #文件库 import shutil import pytesseract import PIL from PIL import Image from docx import ...from docx.oxml.ns import qn #
  • Python写的OCR小程序,代码结构很清晰,学习、取用皆可
  • Python批量识别图片指定区域文字内容,供大家参考,具体内容如下 简介 对于一张图片,需求识别指定区域的内容 1.截取原始图上的指定图片当做模板 2.根据模板相似度去再原始图片上识别准确坐标 3.根据坐标剪切出指定...
  • Python提取图片&截图文字

    千次阅读 多人点赞 2019-12-31 00:40:10
    《用Python“破解”某度文库等文库复制的限制》 tips:当个标题党真刺激啊 开发背景 临近期末,CYQ要写许多作业。迫不得已寻找度娘解决问题,找到之后,CYQ习惯性地ctrl+c,当ctrl+v时发现,emmm!?没有啊!仔细一...
  • 下面是一个使用简单阈值+轮廓过滤的方法将图像转换为灰度和Otsu阈值找到轮廓并使用轮廓区域进行过滤提取并保存ROI我们首先转换为灰度,然后转换为大津阈值,以获得二值图像接下来我们使用cv2.findContours()找到轮廓...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 42,360
精华内容 16,944
关键字:

python提取图片中的文字