精华内容
下载资源
问答
  • 本篇文章记录如何使用pythonpdf文件切分成一张一张图片,包括环境配置、版本兼容问题。环境配置(mac)安装ImageMagickbrew install imagemagick这里有个坑,brew安装都是7.x版本,使用wand时会出错,需要你安装6.x...

    本篇文章记录如何使用python将pdf文件切分成一张一张图片,包括环境配置、版本兼容问题。

    环境配置(mac)

    安装ImageMagick

    brew install imagemagick

    这里有个坑,brew安装都是7.x版本,使用wand时会出错,需要你安装6.x版本。

    解决办法:

    1.安装6.x版本

    brew install imagemagick@6

    2.取消链接7.x版本

    brew unlink imagemagick

    Unlinking /usr/local/Cellar/imagemagick/7.0.7-4... 71 symlinks removed

    3.强制链接6.x版本

    brew link imagemagick@6 --force

    Linking /usr/local/Cellar/imagemagick@6/6.9.9-15... 75 symlinks created

    4.export环境变量

    echo 'export PATH="/usr/local/opt/imagemagick@6/bin:$PATH"' >> ~/.bash_profile

    ok,以上解决imagemagick版本问题。

    安装gs

    必须安装gs,否则pdf无法转换。

    brew install gs

    安装wand

    pip3 install wand

    我这里使用的是python3,所以需要用pip3.

    代码实现

    from wand.image import Image

    def convert_pdf_to_jpg(filename):

    with Image(filename=filename) as img :

    print('pages = ', len(img.sequence))

    with img.convert('jpeg') as converted:

    converted.save(filename='image/page.jpeg')

    效果

    笔者将一本书四百多页都转出来了,大家也可以去试下啦。

    这里写图片描述

    展开全文
  • 1、安装第三方类库pymupdf:pip install pymupdf2、安装完成后直接上代码,代码如下:import fitzimport timeimport reimport osdef pdf2pic(path, pic_path):t0 = time.clock() # 生成图片初始时间checkXO = r"/...

    1、安装第三方类库pymupdf:pip install pymupdf

    2、安装完成后直接上代码,代码如下:

    import fitz

    import time

    import re

    import os

    def pdf2pic(path, pic_path):

    t0 = time.clock() # 生成图片初始时间

    checkXO = r"/Type(?= */XObject)" # 使用正则表达式来查找图片

    checkIM = r"/Subtype(?= */Image)"

    doc = fitz.open(path) # 打开pdf文件

    imgcount = 0 # 图片计数

    lenXREF = doc._getXrefLength() # 获取对象数量长度

    # 打印PDF的信息

    print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))

    # 遍历每一个对象

    for i in range(1, lenXREF):

    text = doc._getXrefString(i) # 定义对象字符串

    isXObject = re.search(checkXO, text) # 使用正则表达式查看是否是对象

    isImage = re.search(checkIM, text) # 使用正则表达式查看是否是图片

    if not isXObject or not isImage: # 如果不是对象也不是图片,则continue

    continue

    imgcount += 1

    pix = fitz.Pixmap(doc, i) # 生成图像对象

    new_name = "图片{}.png".format(imgcount) # 生成图片的名称

    if pix.n < 5: # 如果pix.n<5,可以直接存为PNG

    pix.writePNG(os.path.join(pic_path, new_name))

    else: # 否则先转换CMYK

    pix0 = fitz.Pixmap(fitz.csRGB, pix)

    pix0.writePNG(os.path.join(pic_path, new_name))

    pix0 = None

    pix = None # 释放资源

    t1 = time.clock() # 图片完成时间

    print("运行时间:{}s".format(t1 - t0))

    print("提取了{}张图片".format(imgcount))

    if __name__=='__main__':

    path = r"C:\Users\lenovo\Desktop\数据.pdf"

    pic_path = r'C:\Users\lenovo\Desktop\图片'

    # 创建保存图片的文件夹

    if os.path.exists(pic_path):

    print("文件夹已存在,不必重新创建!")

    pass

    else:

    os.mkdir(pic_path)

    pdf2pic(path, pic_path)

    3、运行结果

    文件名:C:\Users\lenovo\Desktop\数据.pdf, 页数: 51, 对象: 156

    运行时间:1.0037559488187855s

    提取了1张图片

    运行时间:1.9240614402553362s

    提取了2张图片

    运行时间:2.8580821293209087s

    提取了3张图片

    运行时间:3.59311390384999s

    提取了4张图片

    运行时间:4.055301359322903s

    提取了5张图片

    运行时间:4.861761705280556s

    展开全文
  • 用pypdf2对自己的pdf文件加入watermark水印标记。备注:需要设置被加印文件路径;输出路径;水印文本pdf文件路径。具体代码与实现如下:# pdf_watermarker.pyfrom PyPDF2 import PdfFileWriter, PdfFileReaderdef ...

    用pypdf2对自己的pdf文件加入watermark水印标记。

    备注:需要设置被加印文件路径;输出路径;水印文本pdf文件路径。

    具体代码与实现如下:

    # pdf_watermarker.py

    from PyPDF2 import PdfFileWriter, PdfFileReader

    def create_watermark(input_pdf, output, watermark):

    watermark_obj = PdfFileReader(watermark)

    watermark_page = watermark_obj.getPage(0)

    pdf_reader = PdfFileReader(input_pdf)

    pdf_writer = PdfFileWriter()

    # Watermark all the pages

    for page in range(pdf_reader.getNumPages()):

    page = pdf_reader.getPage(page)

    page.mergePage(watermark_page)

    pdf_writer.addPage(page)

    with open(output, 'wb') as out:

    pdf_writer.write(out)

    if __name__ == '__main__':

    # input_pdf: the PDF file path to be watermarked

    # output: the path you want to save the watermarked version of the PDF

    #watermark: a PDF that contains your watermark image or text

    create_watermark(

    input_pdf='C:/Users/Mr.R/Desktop/test1/merged.pdf',

    output='C:/Users/Mr.R/Desktop/test1/merged1.pdf',

    watermark='C:/Users/Mr.R/Desktop/test1/c.pdf')

    加了水印后的文件如下:

    image.png

    展开全文
  • 很多时候需要给pdf添加水印,而且还要加密文件,这些在Python中是如何实现的呢?学过编程的小伙伴准备好迎接今天的挑战吧。1.设置路径import osos.getcwd()os.chdir('E:\\python\\test\\pdf批量加水印\\')先设置路径...

    很多时候需要给pdf添加水印,而且还要加密文件,这些在Python中是如何实现的呢?学过编程的小伙伴准备好迎接今天的挑战吧。

    1.设置路径

    import os

    os.getcwd()

    os.chdir('E:\\python\\test\\pdf批量加水印\\')

    先设置路径,把需要加水印的相关文档放入一个目录下。我的目录是:E:\python\test\pdf批量加水印os.chdir('E:\\python\\test\\pdf批量加水印\\')

    2.准备水印pdf文件

    from reportlab.pdfgen import canvas

    from reportlab.lib.units import cm

    from reportlab.pdfbase import pdfmetrics

    from reportlab.pdfbase.ttfonts import TTFont

    pdfmetrics.registerFont(TTFont('song', 'C:/Windows/Fonts/simsun.ttc'))#宋体

    from PyPDF2 import PdfFileWriter,PdfFileReader

    import xlrd

    def create_watermark(content):

    #默认大小为21cm*29.7cm

    c = canvas.Canvas('mark.pdf', pagesize = (30*cm, 30*cm))

    c.translate(10*cm, 10*cm) #移动坐标原点(坐标系左下为(0,0)))

    c.setFont('song',22)#设置字体为宋体,大小22号

    c.setFillColorRGB(0.5,0.5,0.5)#灰色

    c.rotate(45)#旋转45度,坐标系被旋转

    c.drawString(-7*cm, 0*cm, content)

    c.drawString(7*cm, 0*cm, content)

    c.drawString(0*cm, 7*cm, content)

    c.drawString(0*cm, -7*cm, content)

    c.save()#关闭并保存pdf文件

    系统默认识别英文作为水印,但若水印为中文会无法显示。解决办法是先from reportlab.pdfbase.ttfonts import TTFont

    然后找到电脑中字体路径,如我希望找到宋体,路径为“C:/Windows/Fonts/simsun.ttc”,命名为"song"(如下图所示,其他字体也可任君挑选)。

    应用到后续create_watermarkh函数中即可:c.setFont('song',22)#设置字体为宋体,大小22号

    169182fe9ff521fc94676bacfae2211b.png

    另,希望页面上贴四个水印,通过函数c.drawString(-7*cm, 0*cm, content)

    改变坐标重复4次便可实现。由此最终生成水印pdf文件。

    480d3d39817f86ee8f23f3ddf061a732.png

    3.准备水印pdf文件

    def add_watermark2pdf(input_pdf,output_pdf,watermark_pdf):

    watermark = PdfFileReader(watermark_pdf)

    watermark_page = watermark.getPage(0)

    pdf = PdfFileReader(input_pdf,strict=False)

    pdf_writer = PdfFileWriter()

    for page in range(pdf.getNumPages()):

    pdf_page = pdf.getPage(page)

    pdf_page.mergePage(watermark_page)

    pdf_writer.addPage(pdf_page)

    pdfOutputFile = open(output_pdf,'wb')

    pdf_writer.encrypt('scb2018')#设置pdf密码

    pdf_writer.write(pdfOutputFile)

    pdfOutputFile.close()

    只要安装了该安装的模块,这一步骤基本没有什么问题,提醒给pdf设置密码的语法为.encrypt('scb2018')#设置pdf密码

    若需更改密码,改变引号中内容即可。注:input_pdf为需要打上水印的pdf,watermark_pdf为水印pdf,output_pdf为最终输出的pdf。

    4.准备水印pdf文件

    ExcelFile = xlrd.open_workbook('商家名单.xlsx')

    sheet=ExcelFile.sheet_by_name('Sheet2')#打开有商家名单那个sheet

    print('———————已导入商家名单———————')

    col = sheet.col_values(3)#第4列内容为商家名称

    id = sheet.col_values(0)#第1列内容为ID

    del col[0];del id[0]#去掉标题

    id2 = [str(int(i)) for i in id]

    merchant_as_mark_content =[(i '  ')*4 if len(i)<=5 else i for i in col]#如果名称太短则重复4个为一行

    我是放在一个excel中的,截图入下,需要把第4列商家名称作为水印内容印到目标pdf上,对应代码为sheet.col_values(3)

    dc092b4320cd119a4d600fd31bd9fdad.png

    5.调用函数最终批量生成想要的pdf

    if __name__=='__main__':

    for i,j,k in zip(merchant_as_mark_content,,id2):#i制作水印,j文件名,k对应ID

    create_watermark(i)#创造了一个水印pdf:mark.pdf

    add_watermark2pdf('需要加水印的源文件.pdf',k '通知(' j ').pdf','mark.pdf')

    print('———————已制作好第' k '个pdf,正在准备下一个———————')

    print('———————所有文件已转化完毕———————')

    调用本步骤时我遇到一个错误UnicodeEncodeError: 'latin-1' codec can't encode characters in position 8-9: ordinal not in range(256)

    说什么latin-1不能编码字符,是个编码问题。解决办法:找到PyPDF2下utils.py的238行,我的路径为:D:\Program Files (x86)\Python\lib\site-packages\PyPDF2\utils.py。然后把r = s.encode('latin-1')

    替换为如下代码即可try:

    r = s.encode('latin-1')

    if len(s) < 2:

    bc[s] = r

    return r

    except Exception as e:

    print(s)

    r = s.encode('utf-8')

    if len(s) < 2:

    bc[s] = r

    return r

    到此所有程序已梳理完毕,所遇问题已解决,大家就可以愉快的打水印了!我出来的效果

    7ac48a55fdacf1a8f6ce0a982a021071.png

    02fe8ab108d1bd86e948b973e7aa4056.png

    今天的内容比较复杂,没学会的小伙伴可以再多练习几遍。更多Python学习推荐:JQ教程网Python大全。

    展开全文
  • #导入模块import codecsimport osimport PyPDF2 as PyPDF2#建立一个装pdf文件的数组files = list()#遍历该目录下的所有文件for filename in os.listdir("C:\Python27\第二十八课 数据处理"):#如果是以.pdf结尾的文件...
  • python PDF图片

    2020-04-26 18:05:35
    python PDF图片 代码 import fitz import time import re import os def pdf2image(pdf_path):       '''     # 从pdf中提取图片     :param path: ...
  • Python PDF图片

    千次阅读 2019-10-10 17:32:21
    Python PDF图片安装PyMuPDF运行代码 安装PyMuPDF pip install PyMuPDF 如果要能力就可以使用别的库,但是我试了几个库感觉还是这个库简单,也不需要修改系统环境变量。 运行代码 import fitz rotate = int(0) ...
  • 所以想用PythonPDF分割每次看一段。先找了大神的帖子,用PyPDF提取图像。我的是扫描件,都是灰度图。灰度图提取后用OpenCV 处理。再把处理的文件导入到WORD中,生成PDF。也尝试过用PyPDF直接生成PDF的方案,但是...
  • 前言:在最近的测试中遇到一个与PDF相关的测试需求,其中...下面首先分享一下PythonPDF转换成图片,Java后续有时间在进行分享。需求:我需要先将PDF转换成为PNG图片,并截取图片的一部分存储,然后作为测试目标进...
  • Python并不能直接对PDF进行识别,所以如果是识别PDF的话,需要先将PDF转化为图片,然后再进行识别。必备工具Python可以安装3.7及以上版本 tesseract-ocrpip install pillowpip install opencv-pythonpip install ...
  • python pdf转为图片

    千次阅读 2019-04-15 16:17:39
    python中用到pdf图片,实现如下: 安装wand pip install wand 安装imagemagick Mac安装: brew install freetype imagemagick ubuntu安装 : sudo apt-get install libmagickwand-dev CentOS安装: yum ...
  • python并不能直接对pdf进行识别,所以如果是识别pdf的话,需要先将pdf转化为图片,然后再进行识别。必备工具python可以安装3.7及以上版本tesseract-ocr需要用到的库pip install pillowpip install opencv-pythonpip ...
  • 原标题:20多行 Python 代码优雅搞定 PDF 转换成图片源/ 程序员大咖本文利用 PyPDF包来处理 PDF文件,为了方便快捷,我这里直接将一个页面转换成图片,就不需要去识别页面中的每一个 PDF元素了,这是没必要的。...
  • 来源:早起Python作者:陈熹、刘早起有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定!今天就跟大家系统分享几种...
  • 我正在创建一个python脚本来编辑PDF文本。我有这个Python代码,它允许我将文本添加到PDF文件的特定位置。import PyPDF2import iofrom reportlab.pdfgen import canvasfrom reportlab.lib.pagesizes import ...
  • 上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要。查找了很多资料,在linux下要将doc转换成txt确实有难度,所以...
  • import osimport sysfrom reportlab.lib.pagesizes import A4, landscapefrom reportlab.pdfgen import canvas'''遍历当前目录下所有的jpg文件,并按照文件夹名称合并成pdf文档python 3.4.4图片文件用数字按顺序命名'...
  • python图片合并pdf起因一个做美工的朋友需要将多个图片jpg 、png 合并起来,PS操作太慢了所以用了python进行完成这个任务代码#!/usr/bin/env python# -*- coding: utf-8 -*-# @File : 2.py# @Author: huifer# @...
  • from PyPDF4 import PdfFileReader, PdfFileWriter,PdfFileMergerdef delPdfPage(self,pdf_file_path):'''删除pdf 空白页'''pdf_file_path = os.path.join(self.pdf_dir, pdf_file_path)logger.info("path = {},pdf...
  • 还有很多,所以去除水印方法也很多,这里介绍的也只是一种适用python批量删除图片水印Xobject的方法,对于不想装pitstop、abbyy的情况可供君参考,程序需要完善的地方很多,目前只是实现单一的批量删除pdf图片水印。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,661
精华内容 664
关键字:

pythonpdf图片

python 订阅