-
2022-04-29 12:50:08
针对python 3.10
利用fitz库读取文件:import fitz file = 'test.pdf' doc = fitz.open(file)
获得doc的对象数:
lenXREF = doc.xref_length()
遍历每一个对象,并打印:
for i in range(1, nums): # 定义对象字符串 text = doc.xref_object(i); print(i, text)
import fitz import time import re import os #1.使用正则表达式查找PDF中的图片 def pdfTOpic(path,pic_path):#path:pdf的路径,pic_path:图片保存的路径 t0 = time.perf_counter() #python 3.8已经不支持time.clock了 #使用正则表达式来查找图片 checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)" #打开pdf doc = fitz.open(path) #图片计数 imgCount = 0 lenXREF = doc.xref_length() #打印pdf的信息 print("文件名:{},页数:{},对象:{}".format(path,len(doc),lenXREF-1)) #遍历每一个对象 for i in range(1,lenXREF): #定义对象字符串 text = doc.xref_object(i) isXObject = re.search(checkXO,text) #使用正则表达式查看是否是图片 isImage = re.search(checkIM,text) #如果不是对象也不是图片,则continue if not isXObject or not isImage: continue imgCount+=1 #根据索引生成图像 pix = fitz.Pixmap(doc,i) #根据pdf的路径生成图片的名称 new_name = path.replace('\\','_')+"_img{}.png".format(imgCount) new_name = new_name.replace(':','') #如果pix.n<5,可以直接存为png if pix.n<5: pix.writePNG(os.path.join(pic_path,new_name)) #否则先转换CMYK else: pix0 = fitz.Pixmap(fitz.csRGB,pix) pix0.writePNG(os.path.join(pic_path,new_name)) pix0 = None #释放资源 pix = None t1 = time.perf_counter() print("运行时间:{}s".format(t1-t0)) print("提取了{}张图片".format(imgCount)) if __name__ == '__main__': #pdf路径 path = r'E:\PythonExperiment\Numerial.pdf' #创建保存图片的文件夹 pic_path = r'E:\PythonExperiment\extractPictrue' if os.path.exists(pic_path): print("文件夹已存在,请重新创建文件夹!") raise SystemExit else: os.mkdir(pic_path) m=pdfTOpic(path,pic_path)
更多相关内容 -
PDF图片提取 迅捷PDF图片提取工具 v1.0
2020-10-14 22:29:18迅捷PDF图片提取工具是一款专业提取PDF文件中所有图片的工具,支持批量PDF文档图片提取,一键快速提取图片资源,是您提取PDF文件图片的好帮手。使用方法:优质步:将迅捷PDF图片提 -
基于Python编写的PDF图片提取器
2022-01-21 15:16:101、基于Python编写的PDF文件中的图片提取器。 2、只需要输入PDF文件所在路径即可运行。 3、支持文件夹下有多个PDF文件。 4、自动生成以PDF文件名的文件夹,并把相应PDF的图片存储在里面。 -
PDF文件图片提取软件
2017-06-10 10:36:29本软件可以把一个PDF文件里的图片一次性提取出来。 -
PDF文件批量转图片(pdf图片提取器)工具(exe)
2021-08-26 18:30:04Python工具脚本,PDF文件批量转图片(pdf图片提取器)工具(exe) 可pdf单文件转图片,一键转换图片,适合懒人操作 可批量pdf文件转图片,能读取路径下所有pdf文件 可调整图片大小,需要大图的话调整参数即可 -
奇好PDF图片提取工具4.0.1官方免费安装版
2019-07-25 10:32:03奇好PDF图片提取器是一款专门的PDF文件提取工具,它可以帮助用户从PDF文件中提取想要的图片并按原图片格式保存,另外它还支持批量文件操作,一次提取多个文件,非常方便好用! 软件介绍: 您从网上下载或其他人传... -
PDF提取图片工具____
2022-03-17 16:45:57PDF提取图片工具 -
PDF文件转图片(pdf图片提取器)工具exe(带黑框)
2021-08-26 18:30:57PDF文件转图片(pdf图片提取器)工具exe(带黑框) 可一键将pdf文件转图片 只能单个pdf文件转换使用 需要输入pdf完整路径 -
PDF文件提取图片
2013-07-17 23:13:52代码为VS2008开发,需.Net 2.0环境运行,提取PDF文件中的图片,导出到指定的文件目录。 可定义导出图片格式,DPI -
从pdf中提取图片,具体介绍可以参考https://blog.csdn.net/qq_15969343/article/deta
2022-04-02 11:15:01最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现; 最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现; 最近项目需要把word、PDF中的图片专门提取出来... -
nodejs-easy-pdf-parser:pdf2json的轻量级,promise样式,功能性包装器,可以轻松地从pdf中提取文本
2021-04-30 22:09:34轻松地从pdf中提取纯文本: {parsePdf, extractPlainText} = require('easy-pdf-parser') parsePdf('./test.pdf').then(extractPlainText).then(data => { console.log(data); }); 从pdf中提取简单结构化的文本: ... -
提取PDF文件中图片
2015-10-06 15:09:46能提取任何PDF文件中所有JPG,BMP格式图片 -
提取PDF文件里面的图片
2021-09-29 16:45:03现在很多资源都是PDF格式的,里面的很多图片也都很值得大家借鉴,但是截图出来的图片总是显得不清晰,我们可以考虑将PDF文件里面的图片文件提取出来,直接使用原图更方便。如果你需要提取PDF文件里面的图片文件,...现在很多资源都是PDF格式的,里面的很多图片也都很值得大家借鉴,但是截图出来的图片总是显得不清晰,我们可以考虑将PDF文件里面的图片文件提取出来,直接使用原图更方便。如果你需要提取PDF文件里面的图片文件,可以使用奥凯丰 PDF转换大师。
【PDF转换大师】转为word_excel_ppt_txt_jpg等格式-奥凯丰okfone
https://www.okfone.com/pdfconvert/pdfconvert.html
选择【PDF提取】将PDF文件添加到软件中,如果你多个PDF文件需要提取图片,可以一次性全部添加到软件中。设置输出格式(支持jpg、png、bmp、gif格式)之后点击【开始】就可以了
-
Java 读取PDF中的文本和图片的方法
2020-08-25 19:50:50本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取,需要的朋友可以参考下 -
Python提取PDF中的图片
2019-01-03 10:54:26# 2018/08/16更新: 有些同学不知道fitz库是什么,它是pymupdf中的一个模块,操作PDF非常舒服,只...最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现; 最近项目需要把word、PDF中...# 2021/07/16更新:
如果还是有同学调试有问题,建议下载我这边写好的完整程序:
从pdf中提取图片
https://download.csdn.net/download/qq_15969343/85068041
# 2018/08/16更新:
有些同学不知道fitz库是什么,它是pymupdf中的一个模块,操作PDF非常舒服,只需要pip安装即可:
pip install pymupdf
Python提取word中的图片(需要的自取):
最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现;
最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现;
最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现;
重要的事情说三遍,详细步骤记录如下:
Python提取PDF中的图片
2.3.遍历PDF中的对象,遇到是图像才进行下一步,不然就continue
1.导入相关库
import fitz import time import re import os
2.具体实现
为了方便和其他模块组合,我直接写了个函数完成这个功能,实现如下:
2.1.使用正则表达式查找PDF中的图片
def pdf2pic(path, pic_path): ''' # 从pdf中提取图片 :param path: pdf的路径 :param pic_path: 图片保存的路径 :return: ''' t0 = time.clock() # 使用正则表达式来查找图片 checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)"
2.2.打印PDF的相关信息
# 打开pdf doc = fitz.open(path) # 图片计数 imgcount = 0 lenXREF = doc._getXrefLength() # 打印PDF的信息 print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))
2.3.遍历PDF中的对象,遇到是图像才进行下一步,不然就continue
并且我们将文件的名字命名为word所在的路径
# 遍历每一个对象 for i in range(1, lenXREF): # 定义对象字符串 text = doc.getObjectString(i) isXObject = re.search(checkXO, text) # 使用正则表达式查看是否是图片 isImage = re.search(checkIM, text) # 如果不是对象也不是图片,则continue if not isXObject or not isImage: continue imgcount += 1 # 根据索引生成图像 pix = fitz.Pixmap(doc, i) # 根据pdf的路径生成图片的名称 new_name = path.replace('\\', '_') + "_img{}.png".format(imgcount) new_name = new_name.replace(':', '')
2.4.将图像存为png格式
# 如果pix.n<5,可以直接存为PNG if pix.n < 5: pix.writePNG(os.path.join(pic_path, new_name)) # 否则先转换CMYK else: pix0 = fitz.Pixmap(fitz.csRGB, pix) pix0.writePNG(os.path.join(pic_path, new_name)) pix0 = None # 释放资源 pix = None t1 = time.clock() print("运行时间:{}s".format(t1 - t0)) print("提取了{}张图片".format(imgcount))
2.5.输入pdf路径,即可运行
if __name__=='__main__': # pdf路径 path = r'E:\dogcat\提取图片\计算机视觉算法工程师.pdf' pic_path = r'E:\dogcat\提取图片\测试' # 创建保存图片的文件夹 if os.path.exists(pic_path): print("文件夹已存在,请重新创建新文件夹!") raise SystemExit else: os.mkdir(pic_path) m = pdf2pic(path, pic_path)
3.结果预览
3.1.程序结果
3.2.原本的pdf
3.3.提取出来的图片
-
ExtractPDF:通过mupdf从PDF文件中提取图像和文本
2021-04-27 16:17:28提取PDF 通过mupdf从PDF文件中提取图像和文本 作为dll编译 $ gcc -c libpdf.c -I../../include $ gcc -shared -o libpdf.dll libpdf.o -L/d/dev/mupdf/build/debug/ -lmupdf -lz -lopenjpeg -ljpeg -ljbig2dec -... -
如何将PDF文档中的图片提取出来?
2020-03-10 12:36:11如何将PDF文档中的图片提取出来? PDF是我们经常接触的一种文档,但对于它的一些编辑操作却并不熟悉,比如有时需要将文档中的图片提取出来,应该如何处理呢? 一、普通文档 常见的PDF文档一般由Word另存为或PDF软件...如何将PDF文档中的图片提取出来?
PDF是我们经常接触的一种文档,但对于它的一些编辑操作却并不熟悉,比如有时需要将文档中的图片提取出来,应该如何处理呢?
一、普通文档
常见的PDF文档一般由Word另存为或PDF软件编辑,这种由文字和图片组成的普通文档操作会比较简单。
方法1:复制图片
首先用极速PDF阅读器打开文档,然后在图片处单击鼠标右键并选择“复制图片”,这时就可以粘贴发送了。
当然如果需要将图片保存下来,可以多操作一步,在任意聊天工具窗口或Word文档中,选中图片后单击鼠标右键选择“另存为图片”即可。
方法2:保存图片
打开PDF文档后,点击工具栏顶端的“编辑”跳转到编辑页面;或者直接用极速PDF编辑器打开文档均可。
接着点击工具栏的“对象工具”,单击选中图片,然后在图片处单击鼠标右键选择“图像”中的“提取到文件”
最后在弹出的“输入已提取图片的文件名”窗口中,输入图片名称后,点击“确定”即可成功保存到桌面。
二、扫描版PDF
这类PDF文件本身整个文档就是图片,操作起来就比较复杂,所以我们可以采用截图的方式实现。
还是继续用极速PDF阅读器打卡文档,然后点击工具栏的“截图”工具。
接着在需要保存的图片处按住鼠标左键拉取截图范围,这时弹出一个工具选项,点击“下载”按钮即可将图片保存,点击“√”复制图片,点击“×”关闭当前截图操作。(注意选择“√”仅仅只是复制图片,并没有进行保存操作,务必点击下载键后再选择存储文件夹进行保存)
-
PDF图像提取工具6.3(绿色中文版)
2016-05-22 02:48:24PDF Image Extraction Wizard 是一款功能强大的 PDF 图片提取工具,可以快速、灵活地导出 PDF 文件中的所有图片资源,支持直接提取(Extract Images)和渲染页面(Render Page)两种模式,都支持批处理。 通过直接... -
从PDF文件中提取JPG格式图片
2015-05-12 18:07:24从PDF文件中提取JPG格式图片,水平有限,请指正。 -
PdfTrick:PDF图像提取器-开源
2021-06-29 13:13:25PdfTrick 是一个图形化的选择性 pdf 图像提取器,适用于 mac 和 windows 平台,64/32 位。 -
批量提取图片路径转化word_PDF.xlsm
2021-05-28 13:57:45excel批量抓取本机图片生成多分word和pdf文件 -
C# .net 读取PDF以及提取数据进行比对并生成报告
2019-01-22 15:02:30程序基于.net 4.0,首先遍历EXCEL,通过对EXCEL分析获取有效数据,然后逐行寻找相应PDF文件,通过读取PDF文件内容并对内容进行正则匹配,将有用的关键数据提取出来进行与表格记录比对,以此方法遍历所有对应记录与... -
PDF图片提取工具
2013-09-23 11:35:13批量或者单张 提取PDF图片提取工具 -
SomePDFImagesExtract(pdf图片提取器)V2.0免费安装版
2019-08-06 03:12:30Some PDF Images Extract是一个能够一键批量导出PDF文档中插入的图片的pdf图片提取器,有的PDF文档中的图片非常有用,但是通过截图肯定会损失图片质量,所以这款软件就显得很有必要性,快来下载体验吧! -
python 三种方法提取pdf中的图片
2021-03-06 06:16:39有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定!今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有... -
pdf 提取图片工具
2012-03-05 15:14:50PDF Image Extraction Wizard 使你能够轻松提取 PDF 文档中的位图图像, 并存储它们为 bmp 或 jpeg 文件. -
pdfbox 提取 pdf文件中的图片
2010-08-14 16:54:03下载地址: ...介绍: PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: ...这个小程序,实现了,图片提取,文档解密的基本功能 -
免费的pdf和图片的文字识别提取软件
2022-01-30 14:01:53免费的pdf和图片的文字识别提取软件,需要安装office2007及其补丁office2007sp1-kb936982-fullfile-zh-cn.exe,安装office2007要选择micro soft document imaging,默认安装没有这个功能组件。分为.net2.0和.net4.62个... -
使用iTextSharp将图片转为PDF实例
2018-08-30 16:50:46iTextSharp是一个免费的允许Asp.Net对PDF进行操作的第三方组件,本实例中将介绍如何将图片转换为PDF格式 -
基于深度学习技术的图片文字提取技术的研究.pdf
2021-08-18 21:15:52基于深度学习技术的图片文字提取技术的研究.pdf