精华内容
下载资源
问答
  • bat批处理文件夹内文件名提取
    2022-03-07 18:18:45

    **存在问题:**
    如何对一个文件夹内所有的文件名进行提取。


    **解决方案:**
    1)在所在的文件夹内新建一个a.txt;
    2)输入  DIR  *.*/B>LIST.TXT
    注:DIR为函数;
           * .* 是通配符,第一个*是文件名,第二个*是文件格式(此处可以根据需求进行类型筛选改为.pdf等), /B是使用空格式, LIST.TXT是生成的文件类型和名字(也可输出LIST.csv)

    3)将a.txt另外命名为a.bat;
    4)点击a.bat,闪过一个命令窗口生成一个list.txt文件,所有文件名均在其中。

    更多相关内容
  • 软件下载【文章最后面】 ...案例2:财务小姐姐有的批量导出很多PDF电子发票,导出来大多是没办法区分的文件名,需要用发票号,发票代码,买方名字来重命名,后期对文件进行快速检索 有的人查过很多

    软件下载【文章最后面】

    本文适用于PDF内容可复制就可以处理,如果您的PDF是图片内容是单纯的图片,要对图片进行OCR扫描后获取关键信息后进行处理详细见文章:

    【效率特工队】如何识别发票号给发票的图片重命名,发票的PDF重命名_效率特工队Go的博客-CSDN博客在财务工作中,有很多大量的工作是和发票打交道的,如果发票的扫描件https://blog.csdn.net/bbyn3316/article/details/110972273

    【步步为赢】批量图片识别文字来命名文件名,很多网友想看批量图片识别成文字,用图片上的文字来修改文件名,今天它来了_步步为赢1888的博客-CSDN博客_自动识别图片文字并命名很多网友想看批量图片识别成文字,用图片上的文字来修改文件名,今天他来了因为不解决就得手动挨个挨个输入然后把文件命名好今天又一个文件需求是这样的图上有姓名文字,要识别出来改成每一张图跟这个一样,有的人说了缩略图的时候一个个改就好了那么我很服这样的人,5000多页身份证也这么干,我墙都不扶就服你用到了前几天的一个软件做了一些定制化的改动,识别出来的文字又批量的修正了文件名htt...https://blog.csdn.net/binbin321/article/details/98956290如果是内容可复制的PDF下面的方法就适用于您:

    场景:从网站上下载的PDF文件一般都是以类似的形式命名,下载的量变大后逐个重命名后是个繁重耗时的工作。但PDF文件其实属性里都有着自己的论文题目,可以利用这一点来完成对PDF的重命名。

    案例1:人事部人员扫描了几百份简历,保存为PDF格式,但是名字是一串数字,不好分辨,有没有能识别里面姓名内容并自动重命名文件的方法

    案例2:财务小姐姐有的批量导出很多PDF电子发票,导出来大多是没办法区分的文件名,需要用发票号,发票代码,买方名字来重命名,后期对文件进行快速检索

    有的人查过很多方法,都是一堆代码,看不懂,很多人搞不定,那么我们现在做成一种可视化的操作,点点鼠标就搞定。

    下面我们用电子发票举例来说明,怎样批量的读取PDF文件的关键内容,关键信息来对PDF进行重命名操作,比如我们这次用:购买方名字+发票代码+发票号 来举例说明

    首先我们PDF我们能重命名,命名的部分全都是一样的,比如:发票号出现在固定位置,发票代码出现在固定位置,还有购买方的名字出现在固定位 例如下图:

     无论怎么变,这些信息都是有的,我们会拿到坐标,然后去读取,对应位置的文字信息比如这两个位置的坐标,长宽度:

     是从X轴,Y轴,长度,宽度,去读取数据,同样的方法,简历也是一样,姓名需要出现在固定位置,有判断的依据,最后把文件导入做好的软件内,进行数据处理就好了,

    可以支持按照单个文件处理,也可以单个文件夹,多个文件夹处理,这个只能处理发票,需要处理其他文件要去锁定要处理文件的指定坐标就可以了,然后读取内容进行文字识别处理,抓出来关键信息,对文件进行重命名即可

    软件下载地址

    CSDN土豪下载链接:PDF提取电子发票指定关键信息重命名by电子发票-管理软件文档类资源-CSDN下载批量读取PDF内容作为文件名重命名,指定关键信息对文件进行重命名,适用于财务,人事部等大量工作繁琐性更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/binbin321/85114255

    百度网盘下载 :https://pan.baidu.com/s/1E-3DEntS_VMIrI3NLh4Wvw?pwd=6688 

    展开全文
  • 如何批量提取pdf文件名到excel?下面小编就为大家带来提取pdf文件名到excel的操作方法,一共四个步骤,走过不要错过,请一起来学习吧。

        如何批量提取pdf文件名到excel?pdf因为其稳定性强的原因成为最常用的办公文件,有时候我们在网上下载的文件大都是pdf格式的。现在我向大家提一个问题,如果电脑里某个文件夹中保存了很多数量的pdf文件,现在需要一次性的将这些pdf文件的名称全部提取到excel表格中,你知道如何操作吗?

        这涉及到一个重要的知识点,就是批量提取文件名,会操作这一技能的小伙伴并不多,而且在网上很难找到类似的好用的方法及教程。为了填补这一空缺,下面小编就为大家带来提取pdf文件名到excel的操作方法,一共四个步骤,走过不要错过,请一起来学习吧。

    需要借助的工具:优速文件名提取器

    工具下载地址https://download.yososoft.com/YSExtract/YSExtract_TTY.exe

    pdf文件名批量提取步骤,

    第一,先在电脑上下载并安装好需要使用的“优速文件名提取器”工具软件,打开后点击左上角的【添加文件】蓝色按键,将所有需要提取名称的pdf文件导入到软件中。

    第二,设置名称提取后导出文件的格式,如下图所示在下拉框中选择“xlsx”(这是excel文件格式);然后再选择提取的文件名是否需要包含后缀。

    第三,完成上一步的设置后,我们就可以点击右上角的【开始提取】按钮启动软件程序了,完成提取后软件会自动打开输出文件夹,包含所有文件名的excel文件就导出在这里。

    第四,打开导出的excel文件可以看到,所有的pdf文件名称全部提取到了excel表格的第一列中。

    有了上面小编介绍的这个方法后我们就能快速的提取pdf文件名称到excel表格中了,此方法不仅仅是提取pdf文件名称,还能批量提取其他各种文件名称,不受限制,有批量提取文件名需求的小伙伴都应该学会这个方法,能帮助你不少。以上就是关于“批量提取pdf文件名到excel,实用技能”的详细步骤介绍,下载工具一步一步试试,马上就能学会的。

    展开全文
  • 很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解。 【注】资料、代码、技术交流,文末获取 01 需求描述 数据是一份有286页的上市公司公开...

    很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解。

    【注】资料、代码、技术交流,文末获取

    01 需求描述

    数据是一份有286页的上市公司公开年报PDF,大致如下图片

    现在需要利用 Python 完成以下两个需求

    需求一:提取所有包含 战略 二字的页面并合并新PDF

    需求二:提取所有包含图片的页面,并分别保存为 PDF 文件

    02 前置知识和逻辑梳理

    2.1 PyPDF2 模块实现合并

    PyPDF2 导入模块的代码常常是:

    from PyPDF2 import PdfFileReader, PdfFileWriter
    

    这里导入了两个方法:

    1. PdfFileReader 可以理解为读取器

    2. PdfFileWriter 可以理解为写入器

    利用 PyPDF2 实现合并运用的一下逻辑:

    1. 读取器将所有pdf读取一遍

    2. 读取器将读取的内容交给写入器

    3. 写入器统一输出到一个新pdf

    隐含知识点:读取器只能将读取的内容一页一页交给写入器

    2.2 获取与添加页面

    之前我们的推文中提到这两个代码,下面列出作为复习:

    1. .getPage 获取特定页

    2. .addPage 添加特定页

    2.3 图片和文字的处理

    要实现本文的需求还要做到很重要的一个判断:确定页面中有无包含的文字或图片

    判断是否包含特定的文字比较简单,遍历每一页的时候都将包含的文本抽提出,做字符串层面的判断即可,代码思路:

    1. 利用 pdfplumber 打开PDF 文件

    2. 获取指定的页,或者遍历每一页

    3. 利用 .extract_text() 方法提取当前页的文字

    4. 判断 “战略” 是否在提取的文字中

    判断是否包含图片,思路和上面是类似的,但方法不同。图片考虑用正则的方法识别,用 fitzre 配合,具体见下文代码

    03 代码实现

    3.1 需求一的实现

    首先来完成需求一的任务,导入需要用到的库:读取写入PDF文件的 PyPDF2 以及抽提文本的 pdfplumber

    from PyPDF2 import PdfFileReader, PdfFileWriter
    import pdfplumber
    

    指定文件所在的路径,同时初始化写入器,将文件交给读取器:

    path = r'C:\xxxxxx'
    pdf_writer = PdfFileWriter()
    pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
    

    以上下文管理器形式通过 pdfplumber 打开文件,同时用 .getNumPages 获取读取器的最大页利于遍历每一页来抽提文字:

    with pdfplumber.open(path + r'\公司年报.PDF') as pdf:
        for i in range(pdf_reader.getNumPages()):
            page = pdf.pages[i]
            print(page.extract_text())
    

    我们抽提文字的目的是用来判断,将符合要求的页码作为读取器 .getPage 的参数,最后用 .addPage 交给写入器:

    with pdfplumber.open(path + r'\公司年报.PDF') as pdf:
        for i in range(pdf_reader.getNumPages()):
            page = pdf.pages[i]
            print(page.extract_text())
            if '战略' in page.extract_text():
                pdf_writer.addPage(pdf_reader.getPage(i))
                print(i + 1, page.extract_text())
    

    完成识别后让写入器输出为需要的文件名:

    with open(path + r'\new_公司年报.pdf', 'wb') as out:
        pdf_writer.write(out)
    

    至此,我们就完成了包含特定文字内容页面的提取,并整合成一个PDF。所有的页面均包含“战略”二字:

    图片图片

    需求一完整代码如下,感兴趣的读者可以自行研究

    from PyPDF2 import PdfFileReader, PdfFileWriter
    import pdfplumber
    
    path = r'C:\xxx'
    pdf_writer = PdfFileWriter()
    pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
    
    with pdfplumber.open(path + r'\公司年报.PDF') as pdf:
        for i in range(pdf_reader.getNumPages()):
            page = pdf.pages[i]
            print(page.extract_text())
            if '战略' in page.extract_text():
                pdf_writer.addPage(pdf_reader.getPage(i))
                print(i + 1, page.extract_text())
    
    with open(path + r'\new_公司年报1.pdf', 'wb') as out:
        pdf_writer.write(out)
    

    3.2 需求二的实现

    接下来完成需求二的任务。首先导入需要的库:

    from PyPDF2 import PdfFileReader, PdfFileWriter
    import fitz
    import re
    import os
    

    指定文件所在的路径:

    path = r'C:\xxxxxx'
    

    正则识别图片的部分不细讲,之前的推文已经介绍过,我们直接看代码:

    page_lst = []
    checkImg = r"/Subtype(?= */Image)"
    pdf = fitz.open(path + r'\公司年报.PDF')
    lenXREF = pdf._getXrefLength()
    
    for i in range(lenXREF):
        text = pdf._getXrefString(i)
        isImage = re.search(checkImg, text)
        if isImage:
            page_lst.append(i)
    
    print(page_lst)
    

    图片

    获取到所有包含图片的页面后,再结合读取器和写入器的配合就能完成新 PDF 的产生。注意本需求是所有图片单独输出,因此获取到页面后交给写入器直接输出成文件:

    pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
    for page in page_lst:
        pdf_writer = PdfFileWriter()
        pdf_writer.addPage(pdf_reader.getPage(page))
        with open(path + r'\公司年报_{}.pdf'.format(page + 1), 'wb') as out:
            pdf_writer.write(out)
    

    至此也完成了第二个需求。需要说明的是目前没有非常完美提取PDF图片的方法,本案例介绍的方法识别图片也并不稳定。读者可以利用自己的数据多做尝试。完整代码如下:

    from PyPDF2 import PdfFileReader, PdfFileWriter
    import fitz
    import re
    import os
    
    path = r'C:\xxx'
    
    page_lst = []
    checkImg = r"/Subtype(?= */Image)"
    pdf = fitz.open(path + r'\公司年报.PDF')
    lenXREF = pdf._getXrefLength()
    for i in range(lenXREF):
        text = pdf._getXrefString(i)
        isImage = re.search(checkImg, text)
        if isImage:
            page_lst.append(i)
    
    print(page_lst)
    
    pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
    for page in page_lst:
        pdf_writer = PdfFileWriter()
        pdf_writer.addPage(pdf_reader.getPage(page))
        with open(path + r'\公司年报_{}.pdf'.format(page + 1), 'wb') as out:
            pdf_writer.write(out)
    

    实现这两个单个需求后,就可以将相关代码封装并结合os等模块实现批量操作,解放双手。

    展开全文
  • 1、基于Python编写的PDF文件中的图片提取器。 2、只需要输入PDF文件所在路径即可运行。 3、支持文件夹下有多个PDF文件。 4、自动生成PDF文件名的文件夹,并把相应PDF的图片存储在里面。
  • PDF补丁丁是一个用于修改PDF文件信息的工具。... 7、提取或删除PDF文档中指定的页面,调整PDF文档的页面顺序。 8、根据PDF文档元数据重命名PDF文件名。 9、永久免费,绝不过期,无广告,无弹出废话对话框。
  • 很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解。01需求描述数据是一份有286页的上市公司公开年报PDF,大致如下现在需要利用 Python ...
  • 很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,本文就以两个真实需求为例进行讲解。 01 需求描述 数据是一份有286页的上市公司公开年报PDF,大致如下 现在需要利用 ...
  • powershell-从路径中提取文件名我想从以下路径中提取文件名:D:\Server\User\CUST\MEA\Data\In\Files\CORRECTED\CUST_MEAFile.csv现在,我编写了这段代码来获取文件名。 只要文件夹级别没有变化,此方法就可以正常...
  • 1、当前目录下打开CMD控制台窗口,执行如下bat命令:dir *.*/b>文件名.txt 2、如下图例操作步骤: ... 您可能感兴趣的文章:利用Python批量提取Win10锁屏壁纸实战教程Python批量提取PDF文件中文本的脚本Java文件
  • 本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析。问题最近,读者们在后台的留言,愈发五花八门了。写了几篇关于自然语言处理的文章后,一种呼声渐...
  • print("""author@Jacob Lu❁date: 2020/3/5""")from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import ...
  • 从文本中提取单词生成单词本

    千次阅读 多人点赞 2019-02-06 16:51:35
    对一段英文文本做词频统计,提取单词,查词,最终生成一个单词本,生成的单词本可以导入Anki中学习。 问题分析 考虑到单词的变形,分词后先做词形还原,之后再进行词频统计。去除掉较为简单的单词后,调用金山词霸...
  • Python提取PDF中的图片

    万次阅读 多人点赞 2019-01-03 10:54:26
    # 2018/08/16更新: 有些同学不知道fitz库是什么,它是pymupdf中的一个模块,操作PDF非常舒服,只...最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现; 最近项目需要把word、PDF中...
  • 通过本篇文章可学习pdf发票信息提取,内容保存至Excel,了解命令图像工具Gooey,以及如何将python文件打包为exe程序
  • 最近在看一个pdf,很长很长,1000多页。这种时候没有导航跳转是很痛苦的。所幸,这个pdf带了导航。但是,带的是一个错误的导航。...修改PDF信息:删除自动打开网页等动作,去除复制及打印限制 贴心PDF书签编...
  • python: 从pdf提取图片

    千次阅读 2022-04-29 12:50:08
    def pdfTOpic(path,pic_path):#path:pdf的路径,pic_path:图片保存的路径 **t0 = time.perf_counter()** #python 3.8已经不支持time.clock了 #使用正则表达式来查找图片 checkXO = r"/Type(?= */XObject)" ...
  • I use python's zipfile module to extract a .zip archive (Let's take this file at http://img.dafont.com/dl/?f=akvaleir for example.)我使用python的zipfile模塊來提取.zip存檔(例如,讓我們在...
  • 输入指令,统计所有的mp4文件 比如人我要统计的是这里的mp4文件输入一下指令: 例如: dir /b *.mp4*>视频统计.txt dir为列表命令,/b为只保留文件名和扩展名参数,>为将命令结果导入到指定文件; 5、查看结果 ...
  • pdf提取图片、表格、公式

    千次阅读 2021-01-25 20:15:41
    安装环境: python3.7 pip3 install pymupdf==1.16.8(最新版本会报错) #!/usr/bin/python3 ...# @File : fetch_pdf_v1.py # @Software: PyCharm import fitz #pip3 install pymupdf==1.16.8 import time impor
  • python 三种方法提取pdf中的图片

    千次阅读 2021-03-06 06:16:39
    有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定!今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有...
  • 转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒)若公众号转载请联系公众号:早起Python这篇文章能学到的主要内容:基于 fitz 库和正则搜索提取图片基于 pdf2image 库的两种方法提取图片我们拿到一个...
  • 合并PDF软件.rar

    2020-06-06 22:17:54
    合并后的PDF文档带有原文档的书签,还可挂上新书签(或根据文件名生成),新书签文本和样式可自定义。 拆分或合并PDF文件,并保留原文件的书签或挂上新的书签。 高速无损导出PDF文档的图片。 提取或删除PDF文档中...
  • 有一个这样的文件,想要按照规则提取这些文件名,自动生成文件夹,并把数据移动到对应的文件夹下 得到的结果见这样 脚本内容见下,建立这个脚本文件,后缀名名设为bat,将这个脚本放在第一张图的文件所在地址...
  • 批量把所有文件名以.cht.txt结尾的文件全部提取到指定的目录中。 2.在指定的目录上级生成日志文件。 批量去除空格DleteSpace.bat 1.批量去除TXT文件中隔一个字一个空格的情况。 2.在指定的目录上级生成日志文件...
  • 如何使用python 给PDF生成目录

    千次阅读 2021-01-20 10:17:33
    如何使用python 给PDF生成目录 主要步骤: 步骤1. 准备目录的txt,如果PDF是图片无法复制...执行python 脚本生成目录,会生成一个原文件名-new的PDF文件 import re import sys from distutils.version import LooseVe
  • 近期要处理一批PDF文件,大约在20G,具体数量不详,需求是把每个文件的页数和第一页转换成图片,在网上查阅各种类库,最终选择的是PyMuPDF模块。最后核心代码量较少,功能实现效果也比较好。一、安装扩展类...
  • 摘要:最近需要将一批PDF文件中的某些数据整理到Excel中,因为文件数量接近20w+,手动更新几乎不现实,于是就提取关键词和内容动手写了个Python小工具,以实现自动完成上述目标。 要求: 读取PDF文件找到特定...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,586
精华内容 2,634
关键字:

pdf内提取信息生成文件名