精华内容
下载资源
问答
  • 2021-11-24 21:34:57
    import argparse
    from pdf2docx import Converter
    
    
    def main(pdf_file, docx_file):
        cv = Converter(pdf_file)
        cv.convert(docx_file, start=0, end=None)
        cv.close()
    
    if __name__ == "__main__":
        parser = argparse.ArgumentParser()
        parser.add_argument("--pdf_file", type=str)
        parser.add_argument('--docx_file', type=str)
        args = parser.parse_args()
        # main(args.pdf_file, args.docx_file)
        main('E:\七彩课堂教学教案人四数上-正文.pdf','E:\七彩课堂教学教案人四数上-正文.docx');

    pip install -i  https://pypi.tuna.tsinghua.edu.cn/simple  pdf2docx

    更多相关内容
  • 通过python GUI界面,实现PDF文档转word,excel(表格线规则)和png图片
  • Python pdf转word

    2022-03-02 17:38:36
    pdf转word Python

    最新在翻译英文文档,但都是pdf的,有点不方便,花了点时间做了一个小工具,分享一下,希望对大家有所帮助。

    这里录了一个视频传到B站了,比较详细可以看一下:传送门

    最终结果是生成了一个可执行文件,可以批量转换文件夹中的pdf文件,包含图片和简单的格式转换(复杂的就不用考虑自己搞了QAQ)

    下面简单描述一下大概思路:

    1.引用pdf2docx库:

    from pdf2docx import Converter
    

    2.找到当前文件夹下后缀是pdf的文档,依次转换一下

        for file in os.listdir(os.getcwd()):
            #获取文件的后缀
            extension_name = os.path.splitext(file)[1]
            #判断是否是pdf文件
            if extension_name != '.pdf':
                continue
            #获取文件名  生成的word文件名与PDF一致
            file_name = os.path.splitext(file)[0]
            pdf_file = os.getcwd() + '/' + file
            word_file = os.getcwd() + '/' + file_name + '.docx'
            
            #加载并转换
            cv = Converter(pdf_file)
            cv.convert(word_file)
            cv.close()
    

    完整代码:

    from pdf2docx import Converter
    import os
    
    
    def main():
    
        for file in os.listdir(os.getcwd()):
            #获取文件的后缀
            extension_name = os.path.splitext(file)[1]
            #判断是否是pdf文件
            if extension_name != '.pdf':
                continue
            #获取文件名  生成的word文件名与PDF一致
            file_name = os.path.splitext(file)[0]
            pdf_file = os.getcwd() + '/' + file
            word_file = os.getcwd() + '/' + file_name + '.docx'
            
            #加载并转换
            cv = Converter(pdf_file)
            cv.convert(word_file)
            cv.close()
    
    
    if __name__ == '__main__':
        main()
    
    

    最后用pyinstaller 生成可执行文件,就可以任意地方跑起来了QWQ

    pyinstaller -F fileName.py
    
    展开全文
  • python实现pdf转word

    2018-11-03 10:43:57
    python实现pdf转word,支持中英文转换,转换精度高,可以达到使用效果。
  • 本文实例为大家分享了python实现pdf转word/txt,供大家参考,具体内容如下 依赖包:pdfminer3k 可以通过pip安装;也可以到官网下载,解压,进入文件夹,输入命令setup.py install安装软件。 源代码: #!/usr/bin/...
  • python pdf转word的两种方法

    千次阅读 多人点赞 2021-05-11 18:00:10
    另外,pdf文档中避免出现 ‘\n’ 等转义字符,否则可能会出现一些识别歧义。 使用情景:文件量大,且只对文本信息有要求的情况 import os from configparser import ConfigParser from io import StringIO from io ...

    第一种方法:多线程处理
    优点:可以同时处理多个文件,速度非常快。
    缺点:只能识别文字信息,对于图片等非文本内容无法识别;另外,pdf文档中避免出现 ‘\n’ 等转义字符,否则可能会出现一些识别歧义。
    使用情景:文件量大,且只对文本信息有要求的情况

    import os
    from configparser import ConfigParser
    from io import StringIO
    from io import open
    from concurrent.futures import ProcessPoolExecutor
    from pdfminer.pdfinterp import PDFResourceManager
    from pdfminer.pdfinterp import process_pdf
    from pdfminer.converter import TextConverter
    from pdfminer.layout import LAParams
    from docx import Document
    from docx.oxml.ns import qn
    from docx.shared import Pt
    
    
    # 将pdf解析成文本文件
    def read_from_pdf(file_path):
        with open(file_path, 'rb') as file:
            resource_manager = PDFResourceManager()    # pdf资源管理器 管理共享资源
            return_str = StringIO()  # 类文本文件对象
            lap_params = LAParams()  # 参数分析器
    
            device = TextConverter(resource_manager, return_str, laparams=lap_params)
            process_pdf(resource_manager, device, file)
            device.close() 
            content = return_str.getvalue()
            return_str.close()
            return content
    
    
    # 过滤掉控制字符
    def remove_control_characters(content):
        mpa = dict.fromkeys(range(13))
        return content.translate(mpa)
    
    
    # 将文本保存到word文档中
    def save_text_to_word(content, file_path):
        doc = Document()
        for line in content.split('\n'):
            paragraph = doc.add_paragraph()
            text = paragraph.add_run(remove_control_characters(line))
            text.font.size = Pt(15)
            text.font.name = 'Times New Roman'  # 控制是西文时的字体
            text.element.rPr.rFonts.set(qn('w:eastAsia'), u'楷体')
        doc.save(file_path)
    
    
    # pdf转word的整个过程打包
    def pdf_to_word(pdf_file_path, word_file_path):
        content = read_from_pdf(pdf_file_path)
        save_text_to_word(content, word_file_path)
    
    
    def main():
        config_parser = ConfigParser()
        config_parser.read('config.cfg', encoding='utf-8')
        config = config_parser['default']
    
        tasks = []
        with ProcessPoolExecutor(max_workers=int(config['max_worker'])) as executor:    # 为了多任务同时进行
            for file in os.listdir(config['pdf_folder']):
                extension_name = os.path.splitext(file)[1]
                if extension_name != '.pdf':
                    continue
                file_name = os.path.splitext(file)[0]
                pdf_file = config['pdf_folder'] + '/' + file
                word_file = config['word_folder'] + '/' + file_name + '.docx'
                print('正在处理:', file)
                result = executor.submit(pdf_to_word, pdf_file, word_file)   #  转到pdf_to_word函数
                tasks.append(result)
        while True:
            exit_flag = True
            for task in tasks:
                if not task.done():
                    exit_flag = False
            if exit_flag:
                print('完成')
                exit(0)
    
    
    if __name__ == '__main__':
        if __name__ == '__main__':
            main()
    
    

    这里用到config.cfg(配置文件)。在当前目录建立一个config.cfg文件,将一些重要的参数信息放在这个文件里面。如果觉得麻烦其实也可以直接写在代码中。
    config.cfg

    [default]
    pdf_folder=/Python_ALL/Python_File/3_Interest/testfile 
    word_folder=/Python_ALL/Python_File/3_Interest/testfile
    max_worker=3
    

    第二种方法:使用pdf2docx库来完成
    优点:使用包装好的库来进行处理,可以较完美地处理文本和图片等不同内容的信息,还原度较高。
    缺点:处理速度较慢,对pdf文档中一页一页进行识别。
    适用场景:文件量少,对pdf文档整体信息都有需求的情况。

    from pdf2docx import Converter
    from configparser import ConfigParser
    import os
    
    
    def main():
        config_parser = ConfigParser()
        config_parser.read('config.cfg', encoding='utf-8')
        config = config_parser['default']
    
        for file in os.listdir(config['pdf_folder']):
            extension_name = os.path.splitext(file)[1]
            if extension_name != '.pdf':
                continue
            file_name = os.path.splitext(file)[0]
            pdf_file = config['pdf_folder'] + '/' + file
            word_file = config['word_folder'] + '/' + file_name + '.docx'
    
            cv = Converter(pdf_file)
            cv.convert(word_file)
            cv.close()
    
    
    if __name__=='__main__':
        main()
    
    展开全文
  • Python PDF转word源码,可自由修改,作者亲笔测试无问题。 使用前记得安装对应包,转换出来的Word文档基本和PDF排版一模一样,欢迎下载使用
  • Python PDF转图片 Word

    2021-12-01 20:51:18
    最近有相关需求就用Python做了一个PDF处理工具代码如下: 不想写代码的可以用打包好EXE https://download.csdn.net/download/qq_36497454/53542250 # main.py # Python3.x 导入方法 from window import ...

    最近有相关需求就用Python做了一个PDF处理工具代码如下:

    不想写代码的可以用打包好EXE

    https://download.csdn.net/download/qq_36497454/53542250

    # main.py
    # Python3.x 导入方法
    
    from window import MainWindow
    
    main_window_class = MainWindow()
    
    window = main_window_class.get_window()
    # 进入消息循环
    window.mainloop()
    
    
    
    # MainWindow.py
    # Python3.x 导入方法
    import os
    from tkinter import *
    from tkinter import filedialog
    from imageUtil import pyMuPDF_fitz
    from wordUtil import PDFtoWord
    
    
    class MainWindow:
        pdf_path: object
    
        def __init__(self):
            # 创建窗口对象的背景色
            self.pdf_path = None
            self.dir_path = None
            self.window = Tk()
            # self.window.attributes('-topmost', True)
            # 窗口名
            self.window.title('PDF文件转化器')
            # 几何位置
            self.window.geometry('600x400+50+100')
            # PDF文件标签
            self.pdf_lable = Label(self.window, text="PDF:")
            self.pdf_lable.place(x=100, y=25)
            # 文件文本框
            self.pdf_text = Text(self.window, bd=5, width=30, height=2)
            self.pdf_text.place(x=180, y=20)
            # 选择PDF文件按钮
            self.pdf_button = Button(self.window, text="选择PDF", width=10, command=self.set_pdf)
            self.pdf_button.place(x=440, y=20)
    
            # 目录标签
            self.dir_lable = Label(self.window, text="保存目录:")
            self.dir_lable.place(x=100, y=75)
            # 目录文本框
            self.dir_text = Text(self.window, bd=5, width=30, height=2)
            self.dir_text.place(x=180, y=70)
            # 选择图片目录按钮
            self.dir_button = Button(self.window, text="保存目录", width=10, command=self.set_dir)
            self.dir_button.place(x=440, y=70)
    
            # 转化按钮
            self.change_image_button = Button(self.window, text="生成图片", width=10, command=self.pdf_image)
            self.change_image_button.place(x=150, y=150)
    
            self.change_word_button = Button(self.window, text="生成word", width=10, command=self.pdf_word)
            self.change_word_button.place(x=450, y=150)
    
        def get_window(self):
            return self.window
    
        def set_pdf(self):
            # 获取所选文件
            self.pdf_path = filedialog.askopenfilename()
            self.pdf_text.delete(1.0, END)
            self.pdf_text.insert(1.0, self.pdf_path)
    
        def set_dir(self):
            # 获取所选文件
            self.dir_path = filedialog.askdirectory()
            self.dir_text.delete(1.0, END)
            self.dir_text.insert(1.0, self.dir_path)
    
        def pdf_image(self):
    
            pyMuPDF_fitz(self.pdf_path, self.dir_path)
    
        def pdf_word(self):
            file_name = os.path.basename(self.pdf_path).split(".")[0]
            word_path = self.dir_path + '/' + file_name + ".doc"
            PDFtoWord(self.pdf_path, word_path)
    
    
    
    
    # PDFtoWord.py
    from pdf2docx import Converter
    
    
    # 读取PDF
    def PDFtoWord(pdf_file, docx_file):
        # convert pdf to docx
        cv = Converter(pdf_file)
        cv.convert(docx_file, start=0, end=None)
        cv.close()
    
    # pyMuPDF_fitz.py
    
    import datetime
    import os
    import logging
    
    import fitz  # fitz就是pip install PyMuPDF
    
    
    def pyMuPDF_fitz(pdf_path, image_path):
        pdfDoc = fitz.open(pdf_path)
        file_name = os.path.basename(pdf_path).split(".")[0]
        for pg in range(pdfDoc.pageCount):
            page = pdfDoc[pg]
            rotate = int(0)
            # 每个尺寸的缩放系数为1.3,这将为我们生成分辨率提高2.6的图像。
            # 此处若是不做设置,默认图片大小为:792X612, dpi=96
            zoom_x = 1.33333333  # (1.33333333-->1056x816)   (2-->1584x1224)
            zoom_y = 1.33333333
            mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
            pix = page.getPixmap(matrix=mat, alpha=False)
            if not os.path.exists(image_path):  # 判断存放图片的文件夹是否存在
                os.makedirs(image_path)  # 若图片文件夹不存在就创建
            pix.writePNG(image_path + '/' + file_name+'_%s.jpg' % pg)  # 将图片写入指定的文件夹内
    
    展开全文
  • pythonpdf进行转换为word
  • Python PDF文件转Word格式 1.免费在线转换网站 2.查看windows是否安装了python,安装位置,版本 2.1.python安装教程(Windows最新) ​ 官网速度慢,可以从国内镜像下载安装包 ​ ...
  • python实现pdf转word文档

    2020-12-05 12:13:38
    如何使用pythonpdf文件改成word文件用软件,使用之后然后有两种结果 1、转化出来的就是想要的word,这种情况最理想了; 2、转化出来的word上都是图片,需要上网找“ABBYY finereader v9”一类的文字识别软件。...
  • pdf word转python 3.85PyMuPDF 1.19.6pdf2docx 0.5.3doc2pdf 0.1.8 pdf 图片 img pdf word word pdf
  • 主要介绍了python word转pdf代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
  • python脚本PDF转world

    2018-08-10 12:47:05
    此脚本是用纯python写的,可以将PDF转换成Word格式的文本
  • PDF转Word,以及提取Word中图片里的文字 PS: 也是从网上各个帖子中学习的Python,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除 软件截图: #!/usr/bin/python # -*- coding: gbk -*- ...
  • 本文为大家分享了python批量转换Word文件为PDF文件的具体方法,供大家参考,具体内容如下 1、目的 通过万能的Python把一个目录下的所有Word文件转换为PDF文件。 2、遍历目录 作者总结了三种遍历目录的方法,分别...
  • Python PDF文件转Word格式,只需要3秒(附打包)

    千次阅读 多人点赞 2021-11-02 09:49:00
    PDF文档遵循一定的规范,例如精确定位了每个字符出现在页面上的坐标、根据坐标绘制的各种形状...PDF转Word是一个古老的话题,其难点在于建立从PDF基于元素位置的格式到Word基于内容的格式的映射。 PDF文档实际并不存
  • python pdf2word pdf转word

    千次阅读 2019-11-28 10:18:51
    github链接:python-fan/pdf2word 使用: 1、clone或下载git clone https://github.com/Dontla/pdf2word.git 2、pip install -r requirements.txt安装依赖(安装过程可能会出小问题,比如我这里说跟tensorflow-...
  • 今天,小编就带领大家利用python来实现如何将pdf的内容转化为word文档。同时我们还将提取pdf中的图片,保存到我们的指定文件夹内。 01.文字的提取 我们首先要做的是对于pdf中文本的提取,如下图所示: ...
  • 如何使用PythonPDF转换为Word文档?pdfboss转换器提供pdfboss-word python库给大家使用
  • [程序员小飞]用Python实现PDF转Word格式,不需要花一分钱!
  • Python-PDF转为Word

    千次阅读 2021-02-05 11:30:38
    手把手 | 20行Python代码教你...在实现PDF转Word功能之前,我们需要一个python的编写和运行环境,同时安装好相关的依赖包。 对于python环境,我们推荐使用PyCharm。 在本地电脑环境,anaconda提供了非常便利的安装...
  • python-pdf2word.zip

    2020-10-12 13:38:37
    本资源为python实现pdf转word,简单的几行代码就可以实现pdf转word,后续会完善并发布python桌面端应用,请继续关注
  • PythonPDF转为Word方法总结

    千次阅读 2022-04-12 19:29:03
    # pip install pdf2docx #安装依赖库 from pdf2docx import Converter ...docx_file = r'C:\Users\Administrator\Desktop\Python教程\02.docx' # convert pdf to docx cv = Converter(pdf_file) cv.convert(docx_file
  • 实现方法简介许多文件都支持转换为PDF格式,诸如Word,Excel,PowerPoint,Cad以及图片格式。...虽然现在市面上有很多 pdf word 软件,比如 wps,但大多数的软件是要收费的,并且价格不菲。前些天...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 20,074
精华内容 8,029
关键字:

pythonpdf转word