精华内容
下载资源
问答
  • list dir_str=self.dir_str b=self.b # 提取word文档中的图片 for s in file_list: #print (s) file_path=dir_str.format(s) try: doc=zipfile.ZipFile(file_path)#压缩文件 r_path=b+"\\...
    #!/usr/bin/env python
    # coding: utf-8
    import zipfile #压缩包
    import os #文件库
    import shutil
    import pytesseract
    import PIL
    from PIL import Image
    from docx import Document ##需要安装第三方库,python-docx
    from docx.shared import Pt #用于设置字体样式
    from docx.oxml.ns import qn # 中文格式
    class get_result:
    	def __init__(self,dir_str,file_list,b)
    		self.dir_str=dir_str
    		self.file_list=file_list
    		self.b=b		
    	def get_image(self):
    		file_list=self.file_list
    		dir_str=self.dir_str
    		b=self.b
    		# 提取word文档中的图片
    		for s in file_list:
    		    #print (s)
    		    file_path=dir_str.format(s)
    		    try:
    		        doc=zipfile.ZipFile(file_path)#压缩文件
    		        r_path=b+"\\image\\{0}".format(s)
    		        if os.path.exists(r_path)!=0:
    		            shutil.rmtree(r_path) #os.removedirs,如果目录下不为空则不能删除,shutil.rmtree可强制删除文件夹
    		        os.mkdir(r_path)
    		        for info in doc.infolist():
    		            if info.filename.endswith((".jpeg",'.jpg','.png','.gif')):#判断文件类型
    		                doc.extract(info.filename,r_path)        
    		    except Exception as e:
    		        print (e)
    		    finally:
    		        pass
    		print ("图片提取完成")
    		
    	def insert_word(self):
    		file_list=self.file_list	
    		b=self.b
    		####提取图片中的文字,并写入word/txt文档
    		for s in file_list:
    		    #print (s)
    		    try:
    		        r_path=b+"\\image\\{0}\\word\\media".format(s)#图片路径
    				#txt_path=b+"\\{0}.txt".format(s)#写入文件路径
    		        docx_path=b+"\\{0}.docx".format(s)
    		        t=""
    		        if os.path.exists(r_path)!=0:
    		            for filename in os.listdir(r_path):
    		                t=t+"\n"+str(pytesseract.image_to_string(Image.open(r_path+"\\"+filename),lang="chi_sim"))
    		            '''
    		            写入txt文件
    		            fd=open(txt_path,'w')#w 将覆盖原文件内容,a,向原文件追加内容
    		            fd.write(t)
    		            fd.close()  
    		            '''           
    		            '''写入word文档'''
    		            doc=Document()
    		            doc.styles["Normal"].font.name = u"微软雅黑"#设置字体样式
    		            doc.styles["Normal"].font.size = Pt(14)#设置字体大小
    		            doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'微软雅黑')#设置文档的基础样式
    		            doc.add_paragraph(t)#增加一个paragraph,写入内容
    		            doc.save(docx_path)#保存文档    
    		    except Exception as e:
    		        print (e)
    		    finally:
    		        pass
    		print ('数据写入完成')
    def r(dir_str,file_list,b):
    	getResult=get_result(dir_str,file_list,b)
    	getResult.get_image()
    	getResult.insert_word()
    if __name__=="__main__"::
    	dir_str='{0}.docx'#文件名称
    	file_list={
    	'201310',
    	'201410',
    	'201510'
    	}	
    	b=os.getcwd()#当前文件地址,可传入固定字符串,格式为:C:\\Test\\a
    	r(dir_str,file_list,b)
    
    展开全文
  • 目录使用Python+Tesseract-OCR识别图片文字并保存到word文档安装Tesseract-OCR配置Tesseract-OCR通过CMD验证Tesseract-OCR工作安装pytesseract代码示例实例验证结果展示安装Tesseract-OCR安装Tesseract-OCR安装...

    使用Python+Tesseract-OCR识别图片文字并保存到word文档

    本文通过使用 Tesseract-OCR 进行图片文本识别。并通过python进行后续处理把识别的文本保存到word文档。本文仅作为入门,由于对于中文图片的识别率并不高,需要后续优化。

    安装Tesseract-OCR

    Tesseract是一个开源文本识别引擎,通过Apache 2.0授权可用。可以直接使用,或者通过接口编程从图片提取文本,该引擎广泛支持各种语言,本文以Python为例说明:

    1. Windows安装包下载页面,选择需要的位数版本.
    2. 运行安装包,一路 下一步 直至安装完成;

    配置Tesseract-OCR

    添加安装目录到系统环境变量path,比如:

    //添加安装目录到系统path
    C:\Program Files (x86)\Tesseract-OCR;
    

    通过CMD验证Tesseract-OCR工作

    cmd运行tesseract

    安装pytesseract

    //cmd运行下列命令
    pip install pytesseract
    

    代码示例

    from PIL import Image
    import pytesseract
    import os
    import io
    
    tessdata_dir = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
    txt = pytesseract.image_to_string(Image.open(
        './img/20180804.jpg'), lang='chi_sim', config=tessdata_dir)
    print(txt)
    
    if not os.path.exists('./result'):
        os.mkdir('./result')
    
    with io.open('./result/test.doc', 'w') as fp:
        fp.write(txt)
    
    

    示例验证注意事项

    中文图片需要使用参数 lang=‘chi_sim’
    图片路径可自己设定, 比如:D:/test.jpg

    如果安装Tesseract-OCR时未安装该数据包, 可重新运行安装程序,并选择额外的语言包进行安装

    为避免系统变量设置问题程序不能找到训练数据,建议设置tessdata_dir参数

    print(txt) 为调试使用,可删除或者注释掉

    示例图片

    成熟

    结果展示

    在这里插入图片描述
    识别率不够高,需要继续优化,希望有高手指点(抱拳)

    学习过程小结

    学习流程图:

    Created with Raphaël 2.2.0需求分析查找资料成功?任务完成yesno

    Actions speak louder than words.

    210 = 1024.

    展开全文
  • 自动识别图片文字并转化为word文档自动识别图片文字并转化为word文档自动识别图片文字并转化为word文档自动识别图片文字并转化为word文档自动识别图片文字并转化为word文档自动识别图片文字并转化为word...
  • 再用其自带的OCR文字识别功能识别图片中的文字; 复制粘贴到Word或发送到Word即可; 步骤一、下载CAJViewer阅读器 参看下载地址: 分享到 一键分享QQ空间新浪微博百度云收藏人人网腾讯微博百度相册开心网腾讯...

    怎样将图片格式的PDF文档变成word?

    软件有很多  但是推荐“CAJViewer”软件,

    用它打开PDF文件;

    再用其自带的OCR文字识别功能识别图片中的文字;

    复制粘贴到Word或发送到Word即可;

    步骤一、下载CAJViewer阅读器

    参看下载地址:

    怎样将图片格式的PDF文档变成word?

    软件有很多  但是推荐“CAJViewer”软件,

    用它打开PDF文件;

    再用其自带的OCR文字识别功能识别图片中的文字;

    复制粘贴到Word或发送到Word即可;

    步骤一、下载CAJViewer阅读器

    参看下载地:http://www.cngr.cn/dir/209/257/200604121921.html

     

    步骤二、安装CAJViewer阅读器 并打开;

     

    步骤三、浏览 打开PDF文件 然后点击选择图像按钮

     

    步骤四、选取完图像后 要点击文字识别按钮 如图:

     

    步骤五、该复制的复制  不过推荐发送WPS/word  自己在桌面新建一个word就可以啦

     

    展开全文
  • 目前,在网上出现了一个叫OCR文字识别软件的工具,可以帮助我们实现图片word文档问题,但是有很多朋友都不会使用这个工具,下面小编来分享一下使用OCR软件是想图片word文档的方法。使用工具:迅捷OCR文字识别...

    在很多的情况下,我们需要把图片中的文字识别到可以编辑的文档中,比如说word文档和TXT文档。目前,在网上出现了一个叫OCR文字识别软件的工具,可以帮助我们实现图片转word文档问题,但是有很多朋友都不会使用这个工具,下面小编来分享一下使用OCR软件是想图片转word文档的方法。
    使用工具:迅捷OCR文字识别工具;
    操作方法:
    步骤一:比如说下面的这张文字图片,将其保存到电脑桌面上,然后在电脑上准备一个OCR文字识别工具。
    图片文字转word文档文字的方法
    步骤二:打开OCR工具,点击左边功能栏中的极速识别功能,进入识别页面。
    图片文字转word文档文字的方法
    步骤三:通过上面的添加文件按钮,把需要识别的文字图片添加进去,请注意图片的格式哦!
    图片文字转word文档文字的方法
    步骤四:通过工具界面右下方修改文件的输出目录,方便寻找识别成功的文字文档。
    图片文字转word文档文字的方法
    步骤五:点击操作下面的开始识别按钮,开始进行图片文字识别,请大家稍等几秒钟。
    图片文字转word文档文字的方法
    步骤六:要是大家想快速查看识别成功的图片文字文档,点击打开文件便可以直接看到。
    图片文字转word文档文字的方法
    图片转word文档的方法到这里已经全部分享完了,希望可以帮助到大家,要是还有不解之处,可以在下方留言哦!

    转载于:https://blog.51cto.com/14230141/2375774

    展开全文
  • 微信识别图片文字直接导出Word方法

    千次阅读 2019-01-07 16:18:29
    这时候很多朋友会问手机怎么才能识别图片文字呢?谁说不能!其实手机微信就可以做到这一点!下面为大家分享一个简单易操作方法,只需要对准纸质文档即可一键识别,并导出Word文档,帮你轻松扫描这几张纸质文档! ...
  • 好方法首先要有好的工具,影响图片转word文档效果主要在于图片文字是否清晰和使用的软件是否专业。小编这里有一个方法,也是自己经常使用的图片转word文档方法,下面就分享给大家。工具和原料:1:带有文字的图片;2...
  • 在很多情况下,我们都想把图片上的文字转成word文档...下面分享一个使用OCR文字识别软件实现图片word文档的方法,不要担心图片中的是一段文字还是文章,都会轻松搞定。 工具特色: 迅捷OCR文字识别工具,可以识...
  • 虽然转换后不一定是转为Word文档,但是基本可以进行编辑。然后是拍的图片上的文字,前提是图片尽量要清晰因为是怕有些工具无法识别。虽然可以敲字一键录入图片上的文字,但是能基本保证正确率。 像有些正规文件,...
  • 这是小编最近看到的比较多的一个问题,其实解决的方法很简单,只要使用一、工作原理:OCR光学识别技术其实很早就出现了,但是运用到识别图片文字的时候就是在很久以后了。借助于OCR光学识别技术可以将图片中的文字...
  • python提取图片中的文字并生成word文档 近在学习的过程中发现书中有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何用...
  • 教你2种快速将图片转换成Word文档的方法。 一、在线识别 既然我们拍图是为了方便,那转换自然也是要省事了,所以使用在线直接识别转换的方法是最简单了,而且手机也能直接使用,最适合懒人党。 具体使用方法也很简单...
  • #!/usr/bin/env python # -*- coding: utf-8 -*- # @version : Python 3.6.6 # @Time : 2019/6/20 11:22 from aip import AipOcr from docx import Document from docx.oxml.ns import...#print('写入word完成!')
  • 答案当然是肯定的,除了一些比较常用的聊天工具的截图文字识别外,更好用的方法就是将图片直接转成Word,这样不仅能保证内容的排版,而且编辑修改起来也更方便。 那么废话不多说一起来看看不用安装软件,在线就能...
  • JPG图片怎么转换成Word文档

    千次阅读 2019-07-31 15:07:10
    有的时候在办公中经常需要识别图片文件,将上面的文字内容识别成文字然后输入进Word档内,这一类的图片又以JPG的图片为多,但是一个字一个字看着打实在是又浪费精力又浪费时间,那可不可以直接转换成Word文档呢,...
  • 一款强大的图片识别文字工具,轻松简单截取图片文字拷贝下来,用于word文档与PPT演示文稿的编写。方便快速提取文字。
  • 每次想要把图片转换成Word文档,都要打开电脑?nonono,最近发现一个好方法,手机就能将图片转换成Word文档,简单方法,几秒搞定。 1.打开手机应用市场,在搜索栏输入“超能文字识别”,找到并下载并安装免费...
  • 如何将图片转换成word文档 能扫描文字的是扫描仪,可是能辨认扫描文字的是捷速扫描文字辨认软件,扫描文字都挺多见的,咱们办公中经常会遇到,每逢要使用扫描文字的时分就该捷速上场了,软件是经过20多年研讨得出的...
  • 图片Word文档的方法很简单,图片中有时候会有一些内容,我们需要将这些图片上的内容转换成Word文档的形式,将图片转换成Word文档,下面就让小编给大家简单介绍一下。 步骤一:我们需要将文件准备好,然后通过在...
  • 在需要使用到图片中的内容时会非常麻烦,如果对照图片重新录入也是需要很多时间的,那么怎样可以快速的图片文字进行识别呢,下面就来教你们怎样直接在线对图片上的文字进行识别并转为word文档。 操作步骤...
  • 在日常的工作中,我们可能会遇见上级给我们的整理...下面就跟着小编一起去探索一些图片转文字、图片文字识别的方法吧。图片转文字的工具选择:想快速的实现图片转文字,那就要借助第三方软件了,比如说“迅捷OCR文字...
  • 图片识别word c#

    2016-09-24 09:26:19
    图片识别的用途:很多人用它去破解网站的验证码,用于达到自动刷票或者是批量注册的目的,但我觉得它最吸引我的地方是可以让一些书写的东西,自动识别成电脑上的文字,比如说手拟的合同,修改过的书面论文或者是文档...
  • 一般电脑端比较常用的就是安装客户端转换,打开极速玩转后选择图片转换中的JPG转Word,接着添加需要识别图片,点击右上角的开始转换就能识别成一个Word文档。转换页面左下角的输出路径点击“打开目录”可
  • 我们在日常工作中,我们经常会遇到将图片文字转换成Word文档这样的情况,要知道, 图片上的文字是不能直接复制的,这是一件令人头疼的一件事情。那么要怎样才能快速的 提取这些图片文字呢? 快速识别提取...
  • 有了工作经验的朋友都知道,想要在pdf文档中添加或编辑内容不是那么简单的,特别是扫描的pdf文件,想要编辑就得用到文字识别软件了。 首先在电脑中安装好文字识别软件;捷速OCR文字识别软件是一款超级无敌的文字...
  • 怎样快速把jpg图片转换成word文档

    千次阅读 2019-06-11 18:05:51
    在日常的生活或者是工作中我们经常见到的图片就是jpg格式的了,无论是在哪个方面,我们都会多多少少的遇到将图片转换成文字的情况发生。在高中的时候,就经常有些jpg图片需要转化的。可是一直没有找到好的转换方法。...
  • 图片文字转换成word软件在线版

    千次阅读 2017-02-20 16:04:22
    这显然不是个有效的方法,遇到图片格式的文件,不少朋友都想将图片上的文字识别word文档,但是苦于不知该如何操作,其实想要将图片转换成word格式很简单,在线就能完成。 首先我们打开浏览器,在百度中输入在线...
  • 这样虽说能加深记忆,可还是很浪费时间,还好有捷速图片文字识别软件,可以利用相机拍照,识别图片中的文字,得到的文字就可 以进行复制、编辑、分享等等操作了。图片文字转换成word软件  这个时候也许还有人不...
  • 工具:Word任意版本,CAJVieweru 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结 前言 提示:...

空空如也

空空如也

1 2 3 4 5 ... 15
收藏数 288
精华内容 115
关键字:

word文档识别图片文字