精华内容
下载资源
问答
  • python 安装命令: pip install pypdf2 报错如图:(本文中所使用的命令是在Pycharm客户端中。等同于在windows中的CMD命令行窗口。) 2.切换管理员,开放权限。 在开始菜单,鼠标右键。选择管理员。 打开管理员...

    1.首先,这是一个操作权限问题。

    python 安装命令: pip install pypdf2
    报错如图:(本文中所使用的命令是在Pycharm客户端中。等同于在windows中的CMD命令行窗口。)
    在这里插入图片描述

    2.切换管理员,开放权限。

    在开始菜单,鼠标右键。选择管理员。
    在这里插入图片描述
    打开管理员窗口。
    在这里插入图片描述

    展开全文
  • 主要介绍了Python实现PyPDF2处理PDF文件的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • 主要介绍了Python利用PyPDF2库获取PDF文件总页码实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • python-PyPDF2

    千次阅读 2018-05-08 14:54:26
    作用:处理PDF文档提取文本,旋转页面,叠加页面1.pdfFileObj = open('meetingminutes.pdf','rb')#打开pdf文档2.pdfReader = PyPDF2.PdfFileReader(pdfFileObj)#获取pdf文档数据3.pdfReader.numPages#获取页数4....

    作用:处理PDF文档

    提取文本,旋转页面,叠加页面

    1.pdfFileObj = open('meetingminutes.pdf','rb')#打开pdf文档

    2.pdfReader = PyPDF2.PdfFileReader(pdfFileObj)#获取pdf文档数据

    3.pdfReader.numPages#获取页数

    4.pageObj = pdfReader.getPage(0)#获取指定页码的内容,从0开始

    5.pageObj.extractText()#返回该页文本的字符串 注:难以做到全部提取

    6.pageObj.rotateClockwise(90)#旋转页面。只能旋转90*x度

    7.pageObj.mergePage(pdfReader.getPage(1))#将两页重叠

      

      

    解密

    1.pdfReader.isEncrypted#判断文档是否加密

    2.pdfReader.decrypt('rosebud')#对加密的文档进行解密

    加密

    1.pdfwriter = PyPDF2.PdfFileWriter()#新建PdfFileWriter对象

        pdfwriter.encrypt('sdsd')#加密

    新建

    1.无法世界添加内容,只能从其他pdf文档中拷贝过来加入

    eg:

    import PyPDF2

    pdfFile = open('meetingminutes.pdf','rb')#打开一个现有的文档

    pdfReader = PyPDF2.PdfFileReader(pdfFile)#获取内容

    pdfwriter = PyPDF2.PdfFileWriter()#新建PdfFileWriter对象

    for pageNum in range(pdfReader.numPages):#向PdfFileWriter对象中添加内容

        pageObj = pdfReader.getPage(pageNum)

        pdfwriter.addPage(pageObj)

    pdfOutputFile = open('newFile.pdf','wb')#新建一个pdf文档

    pdfwriter.write(pdfOutputFile)#向文档中写入内容

    pdfOutputFile.close()


    注:所有的修改操作均无法再原文件上操作,只能将修改结果写入新文件中





    展开全文
  • Python利用PyPDF2库获取PDF文件总页码

    千次阅读 2020-01-17 16:19:25
    Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1、首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2、接着,就是直接编写代码了,其中我新建了一个py...

    Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去:

    1、首先,要安装PyPDF2库,利用以下命令即可:

    pip install PyPDF2

    2、接着,就是直接编写代码了,其中我新建了一个py文件,名为file_utils.py,代码如下:

    from PyPDF2 import PdfFileReader
    
    
    def get_num_pages(file_path):
        """
        获取文件总页码
        :param file_path: 文件路径
        :return:
        """
        reader = PdfFileReader(file_path)
        # 不解密可能会报错:PyPDF2.utils.PdfReadError: File has not been decrypted
        if reader.isEncrypted:
            reader.decrypt('')
        page_num = reader.getNumPages()
        return page_num

    3、这样就可以获得该pdf文件的总页数了,但是需要传递文件路径进去,因为需要读取这个文件。

    4、以上内容仅供学习参考,谢谢!

    展开全文
  • 1. PyPDF2 和 pdfplumber 库安装 PyPDF2 官网:https://pythonhosted.org/PyPDF2/ PyPDF2 可以更好的读取、写入、分割、合并 PDF 文件; pdfplumber 官网:https://github.com/jsvine/pdfplumber pdfplumber 可以更...

    1. PyPDF2 和 pdfplumber 库安装

    • PyPDF2 官网:https://pythonhosted.org/PyPDF2/
    • PyPDF2 可以更好的读取、写入、分割、合并 PDF 文件;
    • pdfplumber 官网:https://github.com/jsvine/pdfplumber
    • pdfplumber 可以更好地读取 PDF 文件内容和提取 PDF 中的表格;
    • 这两个库不属于 python 标准库,都需要单独安装;

    2. python 提取 PDF 文字内容

    2 .1 利用 pdfplumber 提取文字

    import PyPDF2
    import pdfplumber
    with pdfplumber.open("test.pdf") as p:
     page = p.pages[2]
     print(page.extract_text())
    

    2 .2 利用 pdfplumber 提取表格并写入 excel

    • extract_table():如果一页有一个表格;
    • extract_tables():如果一页有多个表格;
    import PyPDF2
    import pdfplumber
    from openpyxl import Workbook
    with pdfplumber.open("test.pdf") as p:
       page = p.pages[24]
       table = page.extract_table()
       print(table)
       workbook = Workbook()
       sheet = workbook.active
       for row in table:
          sheet.append(row)
       workbook.save(filename="新 pdf.xlsx")
    

    缺陷:当提取出来的表格有很多空行时,怎么去掉这些空行呢?
    判断:将列表中每个元素都连接成一个字符串,如果还是一个空字符串那么肯定就是空行。

    import PyPDF2
    import pdfplumber
    from openpyxl import Workbook
    with pdfplumber.open("test.pdf") as p:
       page = p.pages[24]
       table = page.extract_table()
       print(table)
       workbook = Workbook()
       sheet = workbook.active
       for row in table:
          if not "".join([str(i) for i in row]) == "":
             sheet.append(row)
       workbook.save(filename = "新 pdf.xlsx")
    

    3. PDF 合并及页面的排序和旋转

    3.1 分割及合并 pdf

    ① 拆分 pdf
    一个“test.pdf”的文件,将其每一页存为一个 PDF 文件。

    from PyPDF2 import PdfFileReader, PdfFileWriter
    pdf_reader = PdfFileReader(r"D:\PythonCode\test.pdf")
    for page in range(pdf_reader.getNumPages()):
       pdf_writer = PdfFileWriter()
       pdf_writer.addPage(pdf_reader.getPage(page))
       with open(f"D:\\PythonCode\\{page}.pdf", "wb") as out:
          pdf_writer.write(out)
    

    ② 合并 pdf
    将被拆分的“test.pdf”文件重新合并为一个“merge.pdf”文件。

    import os
    from PyPDF2 import PdfFileReader, PdfFileWriter
    pdf_writer = PdfFileWriter()
    for i in range(0,len(os.listdir(r"D:\PythonCode\test"))):
       print(i,i+1)
       pdf_reader = PdfFileReader("D:\\PythonCode\\test\{}.pdf".format(i,i+1))
       for page in range(pdf_reader.getNumPages()):
          pdf_writer.addPage(pdf_reader.getPage(page))
    with open("D:\\PythonCode\\test\merge.pdf", "wb") as out:
       pdf_writer.write(out)
    

    3.2 旋转及排序 pdf

    ① 旋转 pdf

    • .rotateClockwise(90 的倍数):顺时针旋转 90 度
    • .rotateCounterClockwise(90 的倍数):逆时针旋转 90 度
    from PyPDF2 import PdfFileReader, PdfFileWriter 
    pdf_reader = PdfFileReader(r"D:\PythonCode\49.pdf")
    pdf_writer = PdfFileWriter() 
    for page in range(pdf_reader.getNumPages()): 
       if page % 2 == 0:
          rotation_page = pdf_reader.getPage(page).rotateCounterClockwise(90)
       else:
          rotation_page = pdf_reader.getPage(page).rotateClockwise(90)
       pdf_writer.addPage(rotation_page)
       with open("D:\\PythonCode\\旋转.pdf", "wb") as out:
          pdf_writer.write(out)
    """ 
    上述代码中,我们循环遍历了这个 pdf,对于偶数页我们逆时针旋转 90°,对于奇数页我
    们顺时针旋转 90°; 注意:旋转的角度只能是 90 的倍数;
    """
    

    ② 排序 pdf

    from PyPDF2 import PdfFileReader, PdfFileWriter 
    pdf_reader = PdfFileReader(r"D:\PythonCode\merge.pdf")
    pdf_writer = PdfFileWriter()
    for page in range(pdf_reader.getNumPages()-1, -1, -1):
       pdf_writer.addPage(pdf_reader.getPage(page))
    with open("D:\\PythonCode\\倒序.pdf", "wb") as out:
       pdf_writer.write(out)
    

    4. pdf 批量加水印及加密、解密

    4.1 批量加水印

    from PyPDF2 import PdfFileReader, PdfFileWriter 
    from copy import copy
    water = PdfFileReader(r"D:\PythonCode\水印.pdf")
    water_page = water.getPage(0)
    pdf_reader = PdfFileReader(r"D:\PythonCode\aa.pdf")
    pdf_writer = PdfFileWriter()
    for page in range(pdf_reader.getNumPages()):
       my_page = pdf_reader.getPage(page)
       new_page = copy(water_page)
       new_page.mergePage(my_page)
       pdf_writer.addPage(new_page)
    with open("D:\\PythonCode\\添加水印后的 aa.pdf", "wb") as out: pdf_writer.write(out)
    """ 
    这里有一点需要注意:进行 pdf 合并的时候,我们希望“水印”在下面,文字在上面,因
    此 是“水印”.mergePage(“图片页”)
    """
    

    4.2 批量加密、解密

    ① 加密 pdf

    from PyPDF2 import PdfFileReader, PdfFileWriter
    pdf_reader = PdfFileReader(r"D:\PythonCode\test.pdf")
    pdf_writer = PdfFileWriter() 
    for page in range(pdf_reader.getNumPages()): 
       pdf_writer.addPage(pdf_reader.getPage(page))
       # 添加密码
    pdf_writer.encrypt("hy123456")
    with open("D:\\PythonCode\\test.pdf", "wb") as out:
       pdf_writer.write(out)
    

    在这里插入图片描述
    ② 解密 pdf 并保存为未加密的 pdf

    from PyPDF2 import PdfFileReader, PdfFileWriter
    pdf_reader = PdfFileReader(r"D:\PythonCode\test.pdf")
    pdf_reader.decrypt("hy123456")
    pdf_writer = PdfFileWriter()
    for page in range(pdf_reader.getNumPages()):
       pdf_writer.addPage(pdf_reader.getPage(page))
    with open("D:\\PythonCode\\未加密.pdf", "wb") as out:pdf_writer.write(out)
    
    展开全文
  • python3 PyPDF2分割pdf

    千次阅读 2020-02-14 19:55:20
    pip install PyPDF2 然后利用下面的代码: from PyPDF2 import PdfFileReader, PdfFileWriter # PDF文件分割 def split_pdf(read_file, out_detail): try: fp_read_file = open(read_file, 'rb') ...
  • python-pypdf2

    千次阅读 2017-07-21 17:07:51
    from PyPDF2 import PdfFileWriter, PdfFileReader pdf_input = PdfFileReader(open('xx.pdf', 'rb')) pdf_output = PdfFileWriter() print(pdf_input.numPages) page = pdf_input.getPage(0) # pdf_output.addPa
  • 这篇文章主要介绍了Python PyPDF2模块安装使用解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 PyPDF2模块主要的功能是分割或合并PDF文件,裁剪或转换PDF...
  • 1、PyPDF2和pdfplumber库介绍PyPDF2官网:PyPDF2官网 ,可以更好的读取、写入、分割、合并PDF文件;pdfplumber官网:pdfplumber官网,可以更好地...
  • 这是我的pdf文件,这是我的代码:importPyPDF2opened_pdf=PyPDF2.PdfFileReader('test.pdf','rb')p=opened_pdf.getPage(0)p_text=p.extractText()# extract data line by lineP_lines=p_text.splitli...
  • PyPDF2:一个可以分割,合并和转换 PDF文件的Python库。也可以读写其中的内容。
  • 利用PythonPyPDF2库,根据论文标题批量修改pdf的文件名背景PyPDF2任务背景任务pip安装PyPDF2引入函数库利用os读取路径下的论文pdf文件用PyPDF2读取路径下的每个pdf文件获取标题以及更改文件名结果完整流程 ...
  • 安装扩展库PyPDF2,参考命令 pip install PyPDF2 代码如下: from PyPDF2 import PdfFileReader, PdfFileWriter def split_pdf(filename, result, start=0, end=None): """从filename中提取[start,end)之间的...
  • PythonPyPDF2的PDF操作

    2019-12-30 10:21:47
    import PyPDF2 from PyPDF2 import PdfFileReader,PdfFileWriter readFile='区块链备案公司.pdf' writeFile='write.pdf' #获取一个PDFFileReader对象 pdfReader=PdfFileReader(open(readerFile,'rb')) #获取...
  • [Python] PyPDF2解析pdf文件

    万次阅读 2016-10-19 17:54:19
    环境Python3.X + PyPDF2需求:Python解析指定文件夹下pdf文件读取需要的数据并写入数据库1 - PyPDF2安装pip install PyPDF22 - pdfread.py脚本编写from PyPDF2.pdf import PdfFileReader import pymysql import os ...
  • 这里记录pythonpypdf2模块为什么会报错:NotImplementedError: only algorithm code 1 and 2 are supported。
  • import PyPDF2 reader = PyPDF2.PdfFileReader(open('1.pdf', 'rb')) print(reader.getNumPages()) # 获取pdf总页数 print(reader.isEncrypted) # 判断加密 page = reader.getPage(1) # 获取第四页 print(page.extr...
  • 实际应用中,可能会涉及处理 pdf 文件,PyPDF2 就是这样一个库,...PyPDF2 安装PyCharm 安装:File -> Default Settings -> Project InterpreterPdfFileReader构造方法:PyPDF2.PdfFileReader(stream,strict = Tru...
  • # -*- coding =utf-8 -*- # @Time : 2021/1/26 10:09 ...from PyPDF2 import PdfFileReader, PdfFileWriter import os # 创建输出文件目录 def mkdir(read_file_path, out_path=None): if out_path is None: out_p
  • Trying to install PyPdf2 module, I downloaded the zip and unzipped it, I executed python setup.py build and python setup.py install, but it seems that it has not been installed , when I try to import....
  • 实际应用中,可能会涉及处理 pdf 文件,PyPDF2 就是这样一个...文档地址:http://pythonhosted.org/PyPDF2/PyPDF2 安装PyCharm 安装:File -> Default Settings -> Project InterpreterPdfFileReader构造方法:PyPD...
  • window: pip insta pypdf2 pip install pdfplumber mac: pip3 insta pypdf2 pip3 install pdfplumber 若错误可 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pdfplumber 1.提取pdf文字...
  • I am having difficulties installing pyPDF2 module. I have downloaded. Where and how do I install (setup.py) so I can use module in python interpreter?解决方案To install setup.py files unde...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,482
精华内容 1,392
关键字:

python安装pypdf2

python 订阅