-
2020-12-08 17:31:46
实现方法简介
许多文件都支持转换为PDF格式,诸如Word,Excel,PowerPoint,Cad以及图片格式。所以pdf从学校到职场,都可以看到pdf文件的身影。
为了保证了文件的安全性,正常情况下无法对pdf的内容进行编辑。但是相应的我们就无法修改pdf的内容,也不便于pdf资料的使用。虽然现在市面上有很多 pdf 转 word 软件,比如 wps,但大多数的软件是要收费的,并且价格不菲。前些天就有人叫我帮她把 pdf 文档转成 word 的文档。因为写尽调报告需要去查看各种信评资料,往往这些资料都是pdf格式的文件,而且经常出现加密文档,为了方便查找和复制相关资料,将加密过的pdf文件转换成word文档就会便捷不少,提高使用效率。
于是想到写个程序,把 pdf 转成 word 文档。秉承着不要重复造轮子的想法,我首先在网上搜索了下相关代码。大多是针对未加密过的pdf文件来实现,本文结合加密文档的特殊性写了相关程序来实现这个功能。
支持加密文件的格式转换
代码效果
环境配置
1、pdfminer安装库命令:
pip install pdfminer3k
2、docx安装库命令:
pip install python_docx
注:pdf中非图片构成的部分才能被成功转换:
#-*- coding: UTF-8 -*-
#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import os
#设置工作目录文件夹
os.chdir(r'c:/users/dicey/desktop/codes/pdf-docx')
#解析pdf文件函数
def parse(pdf_path):
fp = open('diya.pdf', 'rb') # 以二进制读模式打开
# 用文件对象来创建一个pdf文档分析器
parser = PDFParser(fp)
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器 与文档对象
parser.set_document(doc)
doc.set_parser(parser)
# 提供初始化密码
# 如果没有密码 就创建一个空的字符串
doc.initialize()
# 检测文档是否提供txt转换,不提供就忽略
if not doc.is_extractable:
raise PDFTextExtractionNotAllowed
else:
# 创建PDf 资源管理器 来管理共享资源
rsrcmgr = PDFResourceManager()
# 创建一个PDF设备对象
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
# 创建一个PDF解释器对象
interpreter = PDFPageInterpreter(rsrcmgr, device)
# 用来计数页面,图片,曲线,figure,水平文本框等对象的数量
num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0
# 循环遍历列表,每次处理一个page的内容
for page in doc.get_pages(): # doc.get_pages() 获取page列表
num_page += 1 # 页面增一
interpreter.process_page(page)
# 接受该页面的LTPage对象
layout = device.get_result()
for x in layout:
if isinstance(x,LTImage): # 图片对象
num_image += 1
if isinstance(x,LTCurve): # 曲线对象
num_curve += 1
if isinstance(x,LTFigure): # figure对象
num_figure += 1
if isinstance(x, LTTextBoxHorizontal): # 获取文本内容
num_TextBoxHorizontal += 1 # 水平文本框对象增一
# 保存文本内容
with open(r'test2.doc', 'a',encoding='utf-8') as f: #生成doc文件的文件名及路径
results = x.get_text()
f.write(results)
f.write('\n')
print('对象数量:\n','页面数:%s\n'%num_page,'图片数:%s\n'%num_image,'曲线数:%s\n'%num_curve,'水平文本框:%s\n'
%num_TextBoxHorizontal)
if name == 'main':
pdf_path = r'diya.pdf' #pdf文件路径及文件名
parse(pdf_path)
提供初始化密码
如果没有密码 就创建一个空的字符串
doc.initialize()
如果有密码 就写入相应的密码
未知加密方式的pdf文件
如果pdf文件的加密方式不知道,影响文件的复制和打印等可以先利用chrome浏览器来取消加密逻辑
实现方式很简单,只需要将加密的文件拖入到chrome浏览器再选择打印另存为就可以,破除加密后再使用程序转换文件格式
总结
以上所述是小编给大家介绍的Python 实现加密过的PDF文件转WORD格式,希望对大家有所帮助!
友情连接:
[人人影视](http://www.op-kg.com/) http://www.op-kg.com/
[南瓜影视](http://www.gxxhbwc.com/) http://www.gxxhbwc.com/
[88影视网](http://www.tpyjn.cn/) http://www.tpyjn.cn/
更多相关内容 -
C#中PDF文件转WORD文件
2019-01-29 11:04:19C#中PDF文件转WORD文件 -
pdf文件转word文档工具免费版
2019-04-15 22:51:28完全免费,真正的物超所值,摆脱收费束缚,想怎么转就怎么转 -
pdf转word格式 我拉网转转大师pdf转换成word转换器 v4.4
2020-12-14 17:41:45我拉网转转大师pdf转换成word转换器是一款PDF转换为word转换器,并且是有效的。无转换文档大小的限制,本地转换保护文件,的隐私保护让您更放心!绝对是办公一族、论文苦手的 -
python实现pdf转换成word/txt纯文本文件
2020-09-20 09:54:06主要为大家详细介绍了python实现pdf转换成word和txt纯文本文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 -
实现word文档格式转化成PDF格式功能的源代码
2018-04-10 13:53:55实现word文档格式转化成PDF格式功能的源代码。这是源代码,已经实现了转换功能,下载以后稍微封装一下就更加完美了。 -
pdf转换WORD
2017-11-09 18:00:17用于将PDF转换为WORD. 很好用. 用于将PDF转换为WORD. 很好用. -
pdf转word工具破解版
2019-03-01 04:15:07pdf转word工具破解版,自用,识别率很高。支持图片。强烈推荐。 转换速度快。瑕疵就是转换后文件大。 可以用 wps 另外存为docx,文件会变小 -
PDF文件转WORD文档
2018-10-30 15:52:26支持PDF文件转换WORD文件,亲测可用。 -
Java实现基于web的pdf转word
2019-12-18 09:53:04Java实现基于web项目的pdf转成word,包含所需的jar包,输入对应pdf文件目录,运行main函数,在对应目录下生成word文件。 -
C#中PDF文件转WORD文件(完整版)
2019-03-01 14:12:54C#中PDF文件转WORD文件(完整版) -
将PDF转换为Word文档后,格式即可解决问题
2020-12-10 16:20:40sodngl的专栏03-111670如何将PDF转换为不带乱码的... 实际上,否则,将PDF转换为Word文档非常简单. 只要找到合适的方法,它就特别简单. 使用pdf到word转换器可以实现PDF和Word之间的转换. 转换效果取决于转换器的...sodngl的专栏
03-11
1670
如何将PDF转换为不带乱码的单词
如何将PDF转换为Word?将PDF转换为Word不是一项技术性的任务,但是由于许对此问题this昧不清,因此他们认为PDF转换为Word是一个复杂的过程. 实际上,否则,将PDF转换为Word文档非常简单. 只要找到合适的方法,它就特别简单. 使用pdf到word转换器可以实现PDF和Word之间的转换. 转换效果取决于转换器的质量. 根据Internet上当前的下载和使用情况,Quick PDF Converter是一种非常流行的转换工具...
小飞狗的博客
05-09
1218
将文本从PDF复制到Word的解决方案太混乱了
将文本从PDF复制到Word的解决方案太混乱了. 将pdf中的文本复制到word后,在Word的[编辑]菜单下[替换]的[查找内容]中输入^ p(如果从网页粘贴,请输入^ l),然后在[替换因为]在其中不丢失任何内容. 点击[全部替换],[......
cjj0725的博客
04-01
182
为什么将PDF文件转换为Word时文本出现乱码,如何解决?
从PDF文档转换为Word时,为什么文本出现乱码?如何解决它很多朋友问为什么Word文档中的PDF会乱码,或者将PDF转换为Word文档后仅出现几个问题?该段是完整的,但是大多数文本,图片和表格都是...
mbo的专栏
08-01
20,000 +
为什么PDF到WORD如此困难
pdf到word的转换是一个非常普遍的需求,您会发现没有很多有用的工具,它们具有良好的转换质量,尤其是在推广之前的百度搜索结果,还不够好,免费版只能转移一页如果您想转移更多的页面,则需要付费,但是在支付了费用之后,您会发现转换效果非常差. 如果您发现商家的投诉,如果没有结果,则就像第一个百度搜索结果一样. 今天,让我们分析为什么pdf到word如此困难. PDF格式的特殊PDF是Adobe公司生产的文档,用于轻松打印...
YDDUONG的博客
05-13
199
Python操作字文件,替换文本保留原始格式
此处的替换文本保留原始格式,这意味着替换单词中的常规字符串,例如,对所有字符添加6-7 ... 6-28并将其替换为6-8 ... 6-29 #编码: utf-8import os,sys#安装docx: pip install python_docx from docx import docx.shared import Inchesfile_name = os.path.join(sys.path [0],“ bylw.docx”)打印(f'文件名: {file _...
java将pdf转换为word文件(带有图片)
使用python将pdf转换为png格式,始终报告错误,加油~~ pp
推荐将pdf转换为word的软件
c#如何在Office中将PDF文件转换为Word文件
最新的微信小程序源代码
微信小程序源代码集合1
Sgl1990的专栏
06-06
2101
如果PDF到WORD出现乱码怎么办
首先,我们必须了解出现乱码的情况吗?我们首先使用Adobe Reader或Adobe acrobat Pro软件打开将出现乱码的PDF文件,然后,菜单栏,文件--------属性--------字体项目我们可以看到是否存在文件中嵌入了许多字体. 我们在这里找到一个文件作为示例: 当首先读取嵌入字体时,如果没有嵌入字体,则读取系统中要显示的字体,但是显示WORD ...
使用pdf转换器转换格式的方法
11-11
5613
如何将pdf转换为不带乱码的单词格式
有许多文件格式需要转换,但是最有问题的转换仍然是将pdf转换为word格式. 我在互联网上看到许多网民说他们转换的文件不完整,转换失败,转换乱码等问题. 实际上,该方法毕竟是错误的. 让我们看看我是如何转换的. 我有一个快速的pdf格式转换器的转换技巧. 易于使用的转换工具始终使我事半功倍. 以下是我从图书馆下载的pdf文件作为示例; 1.每个人...
zhusongziye的博客
03-12
1595
使用Python将PDF转换为WORD并替换WORD中的文本内容
该项目的地址是: 如果您有兴趣,可以自己看看.
weixin_34023982的博客
09-29
3226
使用Python将PDF文件转换为Word文档
首先,下载所需的库1: pdfminer安装库命令: pip install pdfminer3k2: docx安装库命令: pip install python_docx开始晚饭: (注意: pdf中没有图片的部分可以成功转换) 1#-*-编码: UTF-8-*-2#! / usr / bin / python 3#-* -...
小屁股男孩帅哥-杨一凡的博客
11-10
10,000 +
将pdf和caj转换为word文档(最新,最有效的方法)
如何将pdf或caj文档转换为word文档,我相信很都纠结了这个问题. 当然,我在方法上也有很多经验,也见过它们,但是这些方法要么收费,要么乱码,不能满足大众的需求. 以下编辑者将与您分享最新,最有效的方法. 希望能帮助更多的人. 工具/原材料CAJViewer浏览器方法/步骤1首先在Internet上下载CAJViewer浏览器,您可以通过直接单击百度来获得此浏览器...
qq_38935390的博客
02-18
1812
使用pdfbox将pdf转换为单词可以解决中文字体变成小盒子的问题
/ ** *替换并生成单词以解决小方块问题* * @param templet *模板路径* @param dataMap *替换数据* @param filePath *替换后的文件路径* /公共静态void replace2NewWord2(Stri ...
匹配
04-04
4379
将python pdf转换为word
来自: 在安装anaconda之后安装pdfminer3k模块,可以直接通过pip 2安装. 如果安装不成功,则可以尝试以下方法首先下载pdfminer3k: pdfminer ...
Sunfor的专栏
06-16
10,000 +
将Word文件转换为PDF格式文件时发生错误的解决方案
将Word文件转换为PDF格式文件时的解决方案-错误打开并修复(已验证)将Word文件转换为PDF格式文件时,有时会出现以下错误消息,“在创建临时文件时发生错误: word嵌入了某些文件由于内容或磁盘空间不足而无法写入对象. “实际上,并不是磁盘空间不足. 通常,某些嵌入式对象无法识别,从而导致转换失败. 在此使用Word中的“打开和修复”工具. 具体解决方法如下: 1)打开...
Shui Yixin的博客
09-18
2901
[跳跃甚至数千英里]将pdf转换为单词后,数字和英文格式很尴尬,无法修改
内容1.问题描述2.问题原因3.全角和半角1.概念2.全角和半角之间的差异3.输入法切换4.解决方案1. pdf良好问题的描述,转换为单词,中文好吧,英文和数字都已过时. 其次,问题的原因在于,转换为word后,默认格式为全角,如下图所示,而我们通常看到的是半角. 显然,半角看起来更舒适. 什么是全角和半角? 3 .......
梦仍然是必需的
04-16
10,000 +
Python将pdf实现为word / txt
依赖包: pdfminer3k可以通过pip安装;您也可以从官方网站pdfminer3k下载它,解压缩,进入文件夹,输入命令setup.pyinstall来安装软件. 源代码 #! / usr / bin / python#-*-编码: utf-8-*-importsysimportimportlibimpo
02-25
356
将PDM转换为Word文档或XML文档
1. 打开设计文档pdm并选择模板. 2.选择模板. 3.选择模板后,返回到pdm文档. 4.单击“生成报告”,然后选择RTF格式. 5.确认后,可以将其另存为Word文档. 注意: 另存为word和xml文件的区别在于选择模板和单个. 单击“生成报告”后,应选择与XML相关的选项,例如: ......
GlYoung的博客
10-28
9270
优秀的PDF到Word网站
最近,由于工作需要,一些PDF文件需要转换为Word. 我尝试了许多方法,发现转换效果非常普遍,直到我访问了此网站. 这个网站真的很好. 您无需注册,只需选择文件然后进行转换即可. 它是自由而良心的. 这不是广告. 很好,所以我推荐. 我希望需要它的朋友可以尝试一下. 网站地址: pdf.com/pdf-to-word. ...
让自己的心更舒服
06-10
70,000 +
PDF副本字符乱码-原因和解决方法
最近,一位朋友说将PDF内容复制到Word是中文乱码,请允许我帮助解决. PDF原始内容: 复制并粘贴到Word中之后;经常粘贴,但是没有遇到过这种情况,所以我去检查了一下. 在此过程中,我尝试了许多方法,最终找到了始终能够解决的问题. 艰苦的过程不会重复细节,也不会耽误大家的时间. 只需直接,粗鲁地分析原因,我们将采取解决方案; ...
qianlia的博客
03-25
30,000 +
当HR降低您的价格并说您仅值7,000美元时,您应该如何回答?
当HR降低您的价格并说您仅值7K时,您可以顺畅地回答,记住pdf转word格式混乱,这很顺畅,您可以毫不犹豫. 礼貌地说: “是7K吗?是的. 真的. 理解. 实际上,您的面试官给我留下了深刻的印象. 但是现在,我手头上已经有了11K的报价. 当我面试时,这主要是我对贵公司的责任. 我很感兴趣,所以快来看看...“(未完成)本段主要是为了陪同HR相互欺诈,从公司的利益,公司员工的印象出发,给予对方积极的肯定,可以提高对方的青睐度. 人力资源部,并且可以使谈判气氛和谐,为以后的工作留出足够的空间. ...
shenjian58的博客
03-22
40,000 +
男孩更多地关注女孩的面孔和表情,还是他们认为呢?
通常,我们看不到大篇幅的逻辑. 深刻而常短而结实的哲学见鲜血. 问: 产品经理非常漂亮,并且有动作感,但是我不知道它是对还是错. 男孩更看重女孩的脸,或者...
sddsdl的博客
11-16
5214
如何在Word2013中将PDF文件转换为Word文件
Word和PDF文件之间的转换是我们生活中经常需要的,这也是困扰许的问题. 现在可以了,Word2013可以直接帮助我们将PDF文件转换为Word文件. 现在,朋友们住了吗?详细步骤如下: 1.使用Word2013打开空白文档,然后单击“文件”按钮. 2.在弹出菜单中,选择“打开”选项,然后双击右侧选项面板中的“计算机”按钮. ...
Super_Allen的博客
01-03
4767
解决了从PDF复制到Word的英文字母变成Times New Roman格式的问题
今天写报告时,我在纸上复制了一个参考,结果粘贴到Word中成为下图,不能将其更改为英文字体,但可以将其更改为中文字体. 在Internet上搜索之后,我终于找到了全角和半角的问题. 全角和半角是指输入的英文字母或数字的大小. 全角英文字母和数字是普通汉字的一半,全角汉字和普通汉字一样大. 汉字应占据两个英文字符的位置. 人们称英文字符所占的位置为“半角”,而汉字所占的位置则相对地称为....
酷技术
10-19
20,000 +
将单词转换为pdf时,图片放错位置并随机运行
参考: 当单词转换为pdf时,图片未对齐: 当单词通过另存为转换为pdf时,图片通常是错误的,如何解决?方法: 单击word-file-print-adobepdf-另存为桌面,用此方法打印的pdf,图片不要放错地方.
07-17
1049
PDF到Word文档(记住pdf转word格式混乱,这绝对实用)
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-226880-1.html
-
C#中PDF文件转WORD文件完整源码
2019-02-15 11:05:58C#中PDF文件转WORD文件完整源码 -
易捷PDF转Word(PDF转换成Word工具) v3.2 免费版.zip
2019-07-17 00:37:22易捷pdf转word转换器能快速准确的将您PDF文档中的文字及图片提取出来,转换保存成Word格式,同时很好的让原有PDF中的文字/字体/大小/行间距等保持不变,图片也按照原始的排版布局还原,最大程度的还原原始文件的信息... -
微信小程序实现pdf、word等格式文件上传的方法
2020-10-16 10:23:46主要介绍了微信小程序实现pdf,word等格式文件上传的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下 -
PDF转Word 新标签页 Chrome-crx插件
2021-04-03 05:23:12免费将任何PDF转换为Word文档。 PDF到Office的转换速度很快,而且几乎100%准确。 免费将任何PDF转换为Word文档。 PDF到Office的转换速度很快,而且几乎100%准确。将PDF转换为Word以进行Chrome扩展。免费将Word转换... -
java实现office、wps转pdf,pdf转word
2019-11-21 16:29:36支持word、excel、ppt、wps、txt等多种格式转pdf、并支持pdf转word。个人感觉非常好用。 -
免费pdf转word文件软件
2019-02-26 16:51:38非常好用的免费pdf转word文件软件,不用下载,不用安装,直接在线转换,非常方便,操作简单,转换速度快 -
python批量实现Word文件转换为PDF文件
2020-12-23 19:08:59通过万能的Python把一个目录下的所有Word文件转换为PDF文件。 2、遍历目录 作者总结了三种遍历目录的方法,分别如下。 2.1.调用glob 遍历指定目录下的所有文件和文件夹,不递归遍历,需要手动完成递归遍历功能。 ... -
.md(简书文档)文件如何转换为word或者pdf文件(格式好看)
2019-01-16 16:47:44将简书文档转换为word或者pdf,需要的插件,亲身试验感觉很不错 -
office2021word文档转换成pdf格式方法.docx
2021-09-26 23:56:16office2021word文档转换成pdf格式方法.docx -
PDF转Word免费不用注册不限页数
2018-07-10 23:52:42阿斌分享PDF转换工具是一款永久免费,没有任何限制,不限文件大小与数量,不限转换页数的,具有转换...2、新增图片转PDF,支持图片文件格式为jpg;jpeg;png;gif;bmp; 3、新增PDF加密功能,保护你PDF文件在未经授权下查看 -
pdf转word格式 pdf转换成word转换器 v6.5 免费试用版
2020-10-17 17:52:07pdf转换成word转换器是一款功能强大好用的pdf文件转换成word文件的软件,界面简单,功能稳定,支持批量转换,操作起来非常方便,好支持将pdf文档转成word文档,使用pdf 转 word无需安装Ado -
pdf转word工具
2018-12-14 14:00:36pdf转word工具,可以把pdf文件转换成word文件 -
Java实现word转PDF文件
2018-07-02 19:14:28java实现将word文件转成PDF文件,支持doc后缀文件和docx文件,使用时jar文件手动加入,dll文件copy到jdk的bin目录下。dll文件一定要放到jdk目录下!!! -
.NET中PDF文件转WORD文件
2019-03-21 15:17:31.NET中PDF文件转WORD文件 -
四行Python代码实现将word文件转换为PDF
2018-09-11 15:26:58四行Python代码实现将word文件高效转换为PDF文件,对于使用Office的小伙伴从此就告别Office转PDF页数限制,时间效率低下等问题;同时对于使用WPS的小伙伴再也不用担心将Word转PDF需要会员;仅仅4行核心代码即可实现... -
pdf格式文件转word格式文档工具
2013-10-17 10:26:42破解版的,如果PDF文件不加密,不会出现乱码,还有就是如果PDF文件里面是图片,而不是汉子,也会造成不能正常转换。 -
如何将PDF转Word文档
2021-12-27 10:01:38PDF转Word文档免费工具!如何将pdf转word文档
前言
突然记起大学时期,想要进行论文翻译时,在网上各种找pdf转word文档的工具,最终还是没找到,只好花钱去使用付费工具。今天在使用格式工厂转码视频的时候,突然发现有个文档选项,里面居然直接有pdf转word文档,能够直接使用!
一、格式工厂下载
在网上直接搜索即可,注意别下载到盗版的,到时候给你一堆流氓软件,正版的也要注意仔细看,别莫名其妙的被安装上一些其他不需要的软件(金山毒霸就是说的你!),个人使用下载地址如下:
http://www.pcfreetime.com/二、PDF转Word文档
使用可以说是非常简单了,安装完成后,打开格式工厂,在左侧选择文档栏,有个PDF->Docx图标,点击该图标,选择一个PDF文档,再点击上方开始按钮就可以进行格式转换了。