-
2022-03-07 18:18:45
**存在问题:**
如何对一个文件夹内所有的文件名进行提取。
**解决方案:**
1)在所在的文件夹内新建一个a.txt;
2)输入 DIR *.*/B>LIST.TXT
注:DIR为函数;
* .* 是通配符,第一个*是文件名,第二个*是文件格式(此处可以根据需求进行类型筛选改为.pdf等), /B是使用空格式, LIST.TXT是生成的文件类型和名字(也可输出LIST.csv)3)将a.txt另外命名为a.bat;
4)点击a.bat,闪过一个命令窗口生成一个list.txt文件,所有文件名均在其中。更多相关内容 -
【PDF提取内容重命名】咕嘎批量PDF批量提取PDF识别重命名,如何批量读取pdf内容并重命名,根据pdf内容修改...
2022-04-10 21:54:06软件下载【文章最后面】 ...案例2:财务小姐姐有的批量导出很多PDF电子发票,导出来大多是没办法区分的文件名,需要用发票号,发票代码,买方名字来重命名,后期对文件进行快速检索 有的人查过很多软件下载【文章最后面】
本文适用于PDF内容可复制就可以处理,如果您的PDF是图片内容是单纯的图片,要对图片进行OCR扫描后获取关键信息后进行处理详细见文章:
场景:从网站上下载的PDF文件一般都是以类似的形式命名,下载的量变大后逐个重命名后是个繁重耗时的工作。但PDF文件其实属性里都有着自己的论文题目,可以利用这一点来完成对PDF的重命名。
案例1:人事部人员扫描了几百份简历,保存为PDF格式,但是名字是一串数字,不好分辨,有没有能识别里面姓名内容并自动重命名文件的方法
案例2:财务小姐姐有的批量导出很多PDF电子发票,导出来大多是没办法区分的文件名,需要用发票号,发票代码,买方名字来重命名,后期对文件进行快速检索
有的人查过很多方法,都是一堆代码,看不懂,很多人搞不定,那么我们现在做成一种可视化的操作,点点鼠标就搞定。
下面我们用电子发票举例来说明,怎样批量的读取PDF文件的关键内容,关键信息来对PDF进行重命名操作,比如我们这次用:购买方名字+发票代码+发票号 来举例说明
首先我们PDF我们能重命名,命名的部分全都是一样的,比如:发票号出现在固定位置,发票代码出现在固定位置,还有购买方的名字出现在固定位 例如下图:
无论怎么变,这些信息都是有的,我们会拿到坐标,然后去读取,对应位置的文字信息比如这两个位置的坐标,长宽度:
是从X轴,Y轴,长度,宽度,去读取数据,同样的方法,简历也是一样,姓名需要出现在固定位置,有判断的依据,最后把文件导入做好的软件内,进行数据处理就好了,
可以支持按照单个文件处理,也可以单个文件夹,多个文件夹处理,这个只能处理发票,需要处理其他文件要去锁定要处理文件的指定坐标就可以了,然后读取内容进行文字识别处理,抓出来关键信息,对文件进行重命名即可
软件下载地址:
百度网盘下载 :https://pan.baidu.com/s/1E-3DEntS_VMIrI3NLh4Wvw?pwd=6688
-
批量提取pdf文件名到excel
2022-04-08 10:33:09如何批量提取pdf文件名到excel?下面小编就为大家带来提取pdf文件名到excel的操作方法,一共四个步骤,走过不要错过,请一起来学习吧。如何批量提取pdf文件名到excel?pdf因为其稳定性强的原因成为最常用的办公文件,有时候我们在网上下载的文件大都是pdf格式的。现在我向大家提一个问题,如果电脑里某个文件夹中保存了很多数量的pdf文件,现在需要一次性的将这些pdf文件的名称全部提取到excel表格中,你知道如何操作吗?
这涉及到一个重要的知识点,就是批量提取文件名,会操作这一技能的小伙伴并不多,而且在网上很难找到类似的好用的方法及教程。为了填补这一空缺,下面小编就为大家带来提取pdf文件名到excel的操作方法,一共四个步骤,走过不要错过,请一起来学习吧。
需要借助的工具:优速文件名提取器
工具下载地址:https://download.yososoft.com/YSExtract/YSExtract_TTY.exe
pdf文件名批量提取步骤,
第一,先在电脑上下载并安装好需要使用的“优速文件名提取器”工具软件,打开后点击左上角的【添加文件】蓝色按键,将所有需要提取名称的pdf文件导入到软件中。
第二,设置名称提取后导出文件的格式,如下图所示在下拉框中选择“xlsx”(这是excel文件格式);然后再选择提取的文件名是否需要包含后缀。
第三,完成上一步的设置后,我们就可以点击右上角的【开始提取】按钮启动软件程序了,完成提取后软件会自动打开输出文件夹,包含所有文件名的excel文件就导出在这里。
第四,打开导出的excel文件可以看到,所有的pdf文件名称全部提取到了excel表格的第一列中。
有了上面小编介绍的这个方法后我们就能快速的提取pdf文件名称到excel表格中了,此方法不仅仅是提取pdf文件名称,还能批量提取其他各种文件名称,不受限制,有批量提取文件名需求的小伙伴都应该学会这个方法,能帮助你不少。以上就是关于“批量提取pdf文件名到excel,实用技能”的详细步骤介绍,下载工具一步一步试试,马上就能学会的。
-
超级实用案例,Python 提取 PDF 指定内容生成新PDF
2022-04-10 16:02:30很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解。 【注】资料、代码、技术交流,文末获取 01 需求描述 数据是一份有286页的上市公司公开...很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解。
【注】资料、代码、技术交流,文末获取
01 需求描述
数据是一份有286页的上市公司公开年报PDF,大致如下
现在需要利用 Python 完成以下两个需求
需求一:提取所有包含 战略 二字的页面并合并新PDF
需求二:提取所有包含图片的页面,并分别保存为 PDF 文件
02 前置知识和逻辑梳理
2.1
PyPDF2
模块实现合并PyPDF2
导入模块的代码常常是:from PyPDF2 import PdfFileReader, PdfFileWriter
这里导入了两个方法:
-
PdfFileReader
可以理解为读取器 -
PdfFileWriter
可以理解为写入器
利用
PyPDF2
实现合并运用的一下逻辑:-
读取器将所有pdf读取一遍
-
读取器将读取的内容交给写入器
-
写入器统一输出到一个新pdf
隐含知识点:读取器只能将读取的内容一页一页交给写入器
2.2 获取与添加页面
之前我们的推文中提到这两个代码,下面列出作为复习:
-
.getPage
获取特定页 -
.addPage
添加特定页
2.3 图片和文字的处理
要实现本文的需求还要做到很重要的一个判断:确定页面中有无包含的文字或图片
判断是否包含特定的文字比较简单,遍历每一页的时候都将包含的文本抽提出,做字符串层面的判断即可,代码思路:
-
利用
pdfplumber
打开PDF 文件 -
获取指定的页,或者遍历每一页
-
利用
.extract_text()
方法提取当前页的文字 -
判断 “战略” 是否在提取的文字中
判断是否包含图片,思路和上面是类似的,但方法不同。图片考虑用正则的方法识别,用
fitz
和re
配合,具体见下文代码03 代码实现
3.1 需求一的实现
首先来完成需求一的任务,导入需要用到的库:读取写入PDF文件的
PyPDF2
以及抽提文本的pdfplumber
from PyPDF2 import PdfFileReader, PdfFileWriter import pdfplumber
指定文件所在的路径,同时初始化写入器,将文件交给读取器:
path = r'C:\xxxxxx' pdf_writer = PdfFileWriter() pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
以上下文管理器形式通过
pdfplumber
打开文件,同时用.getNumPages
获取读取器的最大页利于遍历每一页来抽提文字:with pdfplumber.open(path + r'\公司年报.PDF') as pdf: for i in range(pdf_reader.getNumPages()): page = pdf.pages[i] print(page.extract_text())
我们抽提文字的目的是用来判断,将符合要求的页码作为读取器
.getPage
的参数,最后用.addPage
交给写入器:with pdfplumber.open(path + r'\公司年报.PDF') as pdf: for i in range(pdf_reader.getNumPages()): page = pdf.pages[i] print(page.extract_text()) if '战略' in page.extract_text(): pdf_writer.addPage(pdf_reader.getPage(i)) print(i + 1, page.extract_text())
完成识别后让写入器输出为需要的文件名:
with open(path + r'\new_公司年报.pdf', 'wb') as out: pdf_writer.write(out)
至此,我们就完成了包含特定文字内容页面的提取,并整合成一个PDF。所有的页面均包含“战略”二字:
需求一完整代码如下,感兴趣的读者可以自行研究
from PyPDF2 import PdfFileReader, PdfFileWriter import pdfplumber path = r'C:\xxx' pdf_writer = PdfFileWriter() pdf_reader = PdfFileReader(path + r'\公司年报.PDF') with pdfplumber.open(path + r'\公司年报.PDF') as pdf: for i in range(pdf_reader.getNumPages()): page = pdf.pages[i] print(page.extract_text()) if '战略' in page.extract_text(): pdf_writer.addPage(pdf_reader.getPage(i)) print(i + 1, page.extract_text()) with open(path + r'\new_公司年报1.pdf', 'wb') as out: pdf_writer.write(out)
3.2 需求二的实现
接下来完成需求二的任务。首先导入需要的库:
from PyPDF2 import PdfFileReader, PdfFileWriter import fitz import re import os
指定文件所在的路径:
path = r'C:\xxxxxx'
正则识别图片的部分不细讲,之前的推文已经介绍过,我们直接看代码:
page_lst = [] checkImg = r"/Subtype(?= */Image)" pdf = fitz.open(path + r'\公司年报.PDF') lenXREF = pdf._getXrefLength() for i in range(lenXREF): text = pdf._getXrefString(i) isImage = re.search(checkImg, text) if isImage: page_lst.append(i) print(page_lst)
获取到所有包含图片的页面后,再结合读取器和写入器的配合就能完成新 PDF 的产生。注意本需求是所有图片单独输出,因此获取到页面后交给写入器直接输出成文件:
pdf_reader = PdfFileReader(path + r'\公司年报.PDF') for page in page_lst: pdf_writer = PdfFileWriter() pdf_writer.addPage(pdf_reader.getPage(page)) with open(path + r'\公司年报_{}.pdf'.format(page + 1), 'wb') as out: pdf_writer.write(out)
至此也完成了第二个需求。需要说明的是目前没有非常完美提取PDF图片的方法,本案例介绍的方法识别图片也并不稳定。读者可以利用自己的数据多做尝试。完整代码如下:
from PyPDF2 import PdfFileReader, PdfFileWriter import fitz import re import os path = r'C:\xxx' page_lst = [] checkImg = r"/Subtype(?= */Image)" pdf = fitz.open(path + r'\公司年报.PDF') lenXREF = pdf._getXrefLength() for i in range(lenXREF): text = pdf._getXrefString(i) isImage = re.search(checkImg, text) if isImage: page_lst.append(i) print(page_lst) pdf_reader = PdfFileReader(path + r'\公司年报.PDF') for page in page_lst: pdf_writer = PdfFileWriter() pdf_writer.addPage(pdf_reader.getPage(page)) with open(path + r'\公司年报_{}.pdf'.format(page + 1), 'wb') as out: pdf_writer.write(out)
实现这两个单个需求后,就可以将相关代码封装并结合os等模块实现批量操作,解放双手。
-
-
基于Python编写的PDF图片提取器
2022-01-21 15:16:101、基于Python编写的PDF文件中的图片提取器。 2、只需要输入PDF文件所在路径即可运行。 3、支持文件夹下有多个PDF文件。 4、自动生成以PDF文件名的文件夹,并把相应PDF的图片存储在里面。 -
修改PDF文件信息的工具PDF补丁丁.rar
2021-09-18 23:21:02PDF补丁丁是一个用于修改PDF文件信息的工具。... 7、提取或删除PDF文档中指定的页面,调整PDF文档的页面顺序。 8、根据PDF文档元数据重命名PDF文件名。 9、永久免费,绝不过期,无广告,无弹出废话对话框。 -
实用脚本!Python 提取 PDF 指定内容生成新文件!
2022-04-07 11:30:36很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解。01需求描述数据是一份有286页的上市公司公开年报PDF,大致如下现在需要利用 Python ... -
实用脚本,Python 提取 PDF 指定内容生成新文件
2022-04-06 16:32:13很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解。 01 需求描述 数据是一份有286页的上市公司公开年报PDF,大致如下 现在需要利用 ... -
powershell-从路径中提取文件名
2021-05-12 16:09:22powershell-从路径中提取文件名我想从以下路径中提取文件名:D:\Server\User\CUST\MEA\Data\In\Files\CORRECTED\CUST_MEAFile.csv现在,我编写了这段代码来获取文件名。 只要文件夹级别没有变化,此方法就可以正常... -
Linux 中批量提取文件夹下所有目录及文件名称
2021-01-20 16:22:051、当前目录下打开CMD控制台窗口,执行如下bat命令:dir *.*/b>文件名.txt 2、如下图例操作步骤: ... 您可能感兴趣的文章:利用Python批量提取Win10锁屏壁纸实战教程Python批量提取PDF文件中文本的脚本Java文件 -
如何用Python批量提取PDF文本内容?
2020-11-30 12:48:55本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析。问题最近,读者们在后台的留言,愈发五花八门了。写了几篇关于自然语言处理的文章后,一种呼声渐... -
Python:PDF批量转word、PDF图片提取~
2020-12-24 05:45:31print("""author@Jacob Lu❁date: 2020/3/5""")from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import ... -
从文本中提取单词生成单词本
2019-02-06 16:51:35对一段英文文本做词频统计,提取单词,查词,最终生成一个单词本,生成的单词本可以导入Anki中学习。 问题分析 考虑到单词的变形,分词后先做词形还原,之后再进行词频统计。去除掉较为简单的单词后,调用金山词霸... -
Python提取PDF中的图片
2019-01-03 10:54:26# 2018/08/16更新: 有些同学不知道fitz库是什么,它是pymupdf中的一个模块,操作PDF非常舒服,只...最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现; 最近项目需要把word、PDF中... -
Python提取PDF发票信息保存Excel文件并制作EXE程序
2022-02-14 10:56:51通过本篇文章可学习pdf发票信息的提取,内容保存至Excel,了解命令图像工具Gooey,以及如何将python文件打包为exe程序 -
pdf书签目录一键生成,再也不怕找不到了
2020-04-24 14:33:44最近在看一个pdf,很长很长,1000多页。这种时候没有导航跳转是很痛苦的。所幸,这个pdf带了导航。但是,带的是一个错误的导航。...修改PDF信息:删除自动打开网页等动作,去除复制及打印限制 贴心PDF书签编... -
python: 从pdf中提取图片
2022-04-29 12:50:08def pdfTOpic(path,pic_path):#path:pdf的路径,pic_path:图片保存的路径 **t0 = time.perf_counter()** #python 3.8已经不支持time.clock了 #使用正则表达式来查找图片 checkXO = r"/Type(?= */XObject)" ... -
使用Python提取文件名中包含無效字符的文件
2021-01-30 03:37:28I use python's zipfile module to extract a .zip archive (Let's take this file at http://img.dafont.com/dl/?f=akvaleir for example.)我使用python的zipfile模塊來提取.zip存檔(例如,讓我們在... -
bat文件调用cmd命令批量提取文件夹中的文件名(批量修改文件扩展名)
2021-02-22 15:38:30输入指令,统计所有的mp4文件 比如人我要统计的是这里的mp4文件输入一下指令: 例如: dir /b *.mp4*>视频统计.txt dir为列表命令,/b为只保留文件名和扩展名参数,>为将命令结果导入到指定文件内; 5、查看结果 ... -
从pdf中提取图片、表格、公式
2021-01-25 20:15:41安装环境: python3.7 pip3 install pymupdf==1.16.8(最新版本会报错) #!/usr/bin/python3 ...# @File : fetch_pdf_v1.py # @Software: PyCharm import fitz #pip3 install pymupdf==1.16.8 import time impor -
python 三种方法提取pdf中的图片
2021-03-06 06:16:39有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定!今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有... -
[Python] 自动化办公 多种提取PDF图片的方法
2021-02-04 11:40:41转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒)若公众号内转载请联系公众号:早起Python这篇文章能学到的主要内容:基于 fitz 库和正则搜索提取图片基于 pdf2image 库的两种方法提取图片我们拿到一个... -
合并PDF软件.rar
2020-06-06 22:17:54合并后的PDF文档带有原文档的书签,还可挂上新书签(或根据文件名生成),新书签文本和样式可自定义。 拆分或合并PDF文件,并保留原文件的书签或挂上新的书签。 高速无损导出PDF文档的图片。 提取或删除PDF文档中... -
批量处理文件提取文件名并把有相同文件名的文件发放在同一个文件夹下
2019-09-26 00:14:05有一个这样的文件,想要按照规则提取这些文件名,自动生成文件夹,并把数据移动到对应的文件夹下 得到的结果见这样 脚本内容见下,建立这个脚本文件,后缀名名设为bat,将这个脚本放在第一张图的文件所在地址... -
批量正体(繁体)简体转换,批量pdf.word提取文字
2013-07-17 16:40:14批量把所有文件名以.cht.txt结尾的文件全部提取到指定的目录中。 2.在指定的目录上级生成日志文件。 批量去除空格DleteSpace.bat 1.批量去除TXT文件中隔一个字一个空格的情况。 2.在指定的目录上级生成日志文件... -
如何使用python 给PDF生成目录
2021-01-20 10:17:33如何使用python 给PDF生成目录 主要步骤: 步骤1. 准备目录的txt,如果PDF是图片无法复制...执行python 脚本生成目录,会生成一个原文件名-new的PDF文件 import re import sys from distutils.version import LooseVe -
Python提取PDF第一页为封面图片【批量提取】
2020-12-16 21:10:17近期要处理一批PDF文件,大约在20G,具体数量不详,需求是把每个文件的页数和第一页转换成图片,在网上查阅各种类库,最终选择的是PyMuPDF模块。最后核心代码量较少,功能实现效果也比较好。一、安装扩展类... -
[299]python实现批量解析PDF文件提取内容并写入到Excel中
2018-07-10 08:52:48摘要:最近需要将一批PDF文件中的某些数据整理到Excel中,因为文件数量接近20w+,手动更新几乎不现实,于是就提取关键词和内容动手写了个Python小工具,以实现自动完成上述目标。 要求: 读取PDF文件找到特定...