精华内容
下载资源
问答
  • Python识别pdf表格

    千次阅读 2019-06-19 16:35:51
    import pdfplumber import pandas as pd ...path = '/Users/wecash/Desktop/000001.pdf' if __name__ == '__main__': with pdfplumber.open(path) as pdf: page = pdf.pages[27] text = page.ex...
    import pdfplumber
    import pandas as pd
    
    path = '/Users/wecash/Desktop/000001.pdf'
    
    if __name__ == '__main__':
        with pdfplumber.open(path) as pdf:
            page = pdf.pages[27]
            text = page.extract_text()
            #print(text)
            tables = page.extract_tables()
            print(len(tables))
            #table是一个list 每行是一条数据
            for t in tables:
                print('t.size:'+str(len(t)))
                for row in t:
                    #打印每行的第二列
                    print(row[1])
                # 得到的table是嵌套list类型,转化成DataFrame更加方便查看和分析
                #df = pd.DataFrame(t[1:], columns=t[0])
                #print(df) 

    git源码:https://github.com/jsvine/pdfplumber 

    展开全文
  • I have looked through similar questions on this topic and found the following: PDFMiner which addresses problem 3, but it seems the user is required to specify to PDFMiner where a table structure ...

    Are there any open source libraries that support table identification & extraction?

    By this I mean:

    Identify a table structure exists

    Classify the table from its contents

    Extract data from the table in a useful output format e.g. JSON / CSV etc.

    I have looked through similar questions on this topic and found the following:

    PDFMiner which addresses problem 3, but it seems the user is required to specify to PDFMiner where a table structure exists for each table (correct me if I'm wrong)

    pdf-table-extract which attempts to address problem 1 but according to the To-Do list, cannot currently identify tables that are separated by whitespace. This is a problem as all tables in my PDFs are separated by whitespace!

    Currently, I am thinking that I would have to spend a lot of time developing a Machine Learning solution to identify table structures from PDFs. Therefore, any alternative approaches would be more than welcome!

    解决方案

    You should definitely have a look at this answer of mine:

    and also have a look at all the links included therein.

    Tabula/TabulaPDF is currently the best table extraction tool that is available for PDF scraping.

    展开全文
  • 解决方案通过查看别人写的博客,我们发现在Python中通常有四种PDF解析:Pdfminer善于分析文字,这种小白尝试,是把桌子变成普通的文字,而且经常伴随着一些莫名其妙的奇怪的未知符号。这个解决方案已经过时了。例如...

    需要

    该公司的PDF年报包含了各种表,这些表需要在一些特定字幕下解析,称为数据结构。

    解决方案

    通过查看别人写的博客,我们发现在Python中通常有四种PDF解析:

    Pdfminer善于分析文字,这种小白尝试,是把桌子变成普通的文字,而且经常伴随着一些莫名其妙的奇怪的未知符号。这个解决方案已经过时了。

    例如,PDF2HTML将PDF解析成HTML,但是HTML标签不是规则的,解析一个是可以的,但是这个白板是许多PDF文档下的字幕表,这个方案直接通过。

    Tabula,这是我老一辈写得最广泛的博客。我已经用过了。对于单元格中没有新行的简单表,表的头和尾并不复杂,该方案值得推荐。计算机需要一个Java环境。

    PDF管道工,这是一个解决方案,已经发现了一个知识渊博的老板,发现人数最少,但最符合我的需要,在安装成功后。前提是你需要安装IMAGEMGEK。

    实现解决方案

    我已经使用了两种解决方案来解决我的需求,即TabLA和PDFPUBUBER。

    先做前期工作。

    1。将PDF文件转换为JPG格式,搜索关键字,查看所需表的页码,如图中的风险管理评分表。

    u=2063593543,1003710562&fm=173&app=25&f=JPEG?w=629&h=419&s=7FA8306311DE45C80ED5E1DF0000C0B1

    代码如下:(有婴儿的百度AIP密钥!

    将PDF分解成JPG。

    从PDF2IMAGE导入RealtToFixPATH,转换为字节

    导入风暴文件

    导入PDF2图像

    DEF PDF2图像(IyPATH,OYPATH):

    TimeFrime.TimeAudio目录()作为路径:

    IsIsFixFixPosie= EngtFixFixPATH(IyPATH,OutpUpHealths= OYPATH,FMT=JPG)

    IyPATH='/用户/高华/桌面/ 33

    OYPATH=‘用户/高华/桌面/ 33’

    PDF2图像(IyPATH,OYPATH)

    重命名文档重命名

    导入操作系统

    路径=’/用户/高华/桌面/ 33’

    DEF ReNeMIX文件(路径):

    OSListdir(PATH)中的文件:

    Os.rename(OS.PATION联接(路径,文件),OS.PATION联接(路径,文件[-5:]))

    ReNaMIX文件(路径)

    使用百度OCR识别

    来自AIP进口公司

    DEBUIDUAIP(AppyID,ApIIKIKE,CONTYTYKEY KEY):

    客户端= AIPOCR(AppHyID,ApIIKEY,CONTYTYKEY)

    返回(客户端)

    AppyID=’116599 28’

    APIKYKEY=OGKG6BurcGnktfoAjjg7RT

    分泌蛋白键=

    客户端= BIDU-AIP(AppHyID,ApIIKEY,CONTYTYKEY)

    DEFGETFILE内容(路径):

    打开(路径,“RB”)作为FP:

    返回FP-读()

    DF FunthPad(路径,KEY-ION字):

    OS.Listdir(PATH)中的文件〔1:- 1〕:

    结果= clie.Basic通用(GETXFILE内容(OS.PATION连接(路径,文件)))

    对于结果项[ [词]结果] ]:

    打印输出(项目[单词] ]

    如果项目中的键入单词[单词' ]:

    返回(文件条('.jpg))

    上面安装的模块不应该是个问题。如果有任何问题,你可以留言。

    调用函数的输出如下

    关键词=“风险管理状态”

    Page=FunthPage(路径,KEY字)

    打印(页)

    会输出相应的页码(无耻地看着婴儿的Juyter看起来好吗?)

    u=3558733856,2590534842&fm=173&app=25&f=JPEG?w=576&h=294&s=A8C2D74B5BA5936C0CCDE50F0000E0C3

    当我们得到页码,我们可以做任何我们想做的事。

    第一种是第一种方法:Tabula。

    具体操作方法如下:

    进口制表

    将PDF读入数据文件

    DF= TabulaRead PdF('/Cuff/Gooa/桌面/ 33 PDF′,Page=STR(页面))

    df

    这直接返回一个数据帧,因此它是直接结构化数据。

    输出如下:

    u=634875828,1180173415&fm=173&app=25&f=JPEG?w=576&h=252&s=28C283433FE8BB640ACDE5060000E0C3

    这样,我们已经完成了我们的需要。下面的段落中关于Excel的下面的话被更多地谈论了。可以移动熊猫或PyWi32。

    虽然TabRA非常方便,但是它的输出确实是不方便的,而且还需要安装Java环境,Java环境变量做宝宝肾不足。

    有时我会输出一些杂乱的东西,例如,有时我会输出传统的中文,我也遇到了。

    所以保险。

    这里还有第二个解决方案:

    同样,这两个解决方案是PDFPUBUBER。

    进口PDFP

    PDF=PDFUntual.OPEN(‘用户/高华/桌面/ 33 PDF’)

    P0= PDF.Page(int(页)- 1”α]注意,这里的页面是从0开始的列表。

    表=P0.Excel表()

    进口熊猫为PD

    DF= PD.DATAFRAM(表[1:],列=表[0)]

    df

    输出如下:

    u=2209404301,2985385652&fm=173&app=25&f=JPEG?w=576&h=338&s=68D283471FED936C0ECDC10F0000E0C2

    虽然为了便于比较,这里使用相同的表,但是解决方案2确实比解决方案1更好。

    不要问我为什么我知道2比1好,你尝试用文本格式解析一些表,用复数头来分析表,你知道的!我在这里不是胡说八道,我必须安装Java,后者只安装一个IMAGE,IMAGEMGEKE非常有用,嘻嘻嘻嘻。

    总结

    百度OCR接口的总和使用,百度AIP这个东西!这是一个人的宝库!你可以自己看。

    还有一个PDF格式的分析软件包。

    但仍存在一些弊端。两个解决方案都是针对具有完整水平和垂直线的智能表,如下面的一个。

    u=141423088,225582252&fm=173&app=25&f=JPEG?w=582&h=388&s=0ACA7A2350AC60AC1A55A0DA0000C0B1

    方案1的识别输出是心脏过剩,肾脏不足,输出无效。

    方案2的输出是一个半九十一步的过程,输出是一个不太像样的表,需要手动调整。

    怎么快速学python,有什么方法,打算深入了解这个行业的朋友,可以加python学习群:399288541,邀请码:(云曦)不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2018最新的python资料和0基础入门教程,欢迎初学和进阶中的小伙伴。 每天晚上20:00我都会开直播给大家分享python知识和路线方法,群里会不定期更新最新的教程和学习方法,大家都是学习python的,或是转行,或是大学生,还有工作中想提升自己能力的python党,如果你是正在学习python的小伙伴可以加入学习。最后祝所有程序员都能够走上人生巅峰,让代码将梦想照进现实,非常适合新手学习,有不懂的问题可以随时问我,工作不忙的时候希望可以给大家解惑。

    展开全文
  • 识别pdf中的表格并保存execl pdf每个页码保存一个Execl Sheet页... # 识别pdf表格保存到Execl def Get_Table_From_PDF(self,filePath,): y = 0 j = 0 # 定义保存Excel的位置 self.workbook = xlwt.Workbook() ...

    识别pdf中的表格并保存execl
    pdf每个页码保存一个Execl Sheet页

    		# 识别pdf表格保存到Execl
        def Get_Table_From_PDF(self,filePath,):
            y = 0
            j = 0
            # 定义保存Excel的位置
            self.workbook = xlwt.Workbook()                 #定义workbook
            self.sheet = self.workbook.add_sheet('Sheet')   #添加sheet
            pdf = pdfplumber.open(filePath)
            for page in pdf.pages:
                #根据pdf页码生成对应的Execl sheet页数
                if j<len(pdf.pages):
                     j =j+ 1
                     self.sheet = self.workbook.add_sheet('Sheet'+str(j))   #添加sheet
                # 获取当前页面的全部文本信息,包括表格中的文字
                # print(page.extract_text())                     
                for table in page.extract_tables():
                    for row in table:  
                        for j in range(len(row)):
                            self.sheet.write(y, j, row[j])
                        y =y + 1
            pdf.close()
            # 保存Excel表
            self.workbook.save('D:/Python/宜10-8-42井完井卡片.xls')
    
    展开全文
  • python识别提取pdf表格数据

    千次阅读 2020-04-14 08:12:18
    import pdfplumber import pandas as pd #打开pdf文件 with pdfplumber.open(filePath) as pdf: first_page = pdf.pages[0] text = first_page.extract_text() print(text) #读取第二页...
  • Python 解析 PDF 文本和表格的四大方法介绍== code for paper and NSFC Proj. parsing==: https://gitee.com/sonica/pdf_parsing看到一个不错的知识文章,和大家分享一下:很多文件为了安全都会存成 PDF 格式,比如...
  • PDF 表格中获取数据是一项痛苦的工作。不久前,一位开发者提供了一个名为 Camelot 的工具,使用三行代码就能从 PDF 文件中提取表格数据。PDF 文件是一种非常常用的文件格式,通常用于正式的电子版文件。它能够很...
  • python提取PDF表格内容保存到excel

    万次阅读 2018-10-06 13:10:24
    pythonPDF提取表格
  • 在实际研究中,我们经常需要获取大量数据,而这些数据很大一...Python提供了许多可用于pdf表格识别的库,如camelot、tabula、pdfplumber等。综合来看,pdfplumber库的性能较佳,能提取出完整、且相对规范的表格。因...
  • 这篇文章主要介绍了Python解析并读取PDF文件内容的方法,结合实例形式分别描述了Python2.7在win32与win64环境下实现读取pdf的相关操作技巧,需要的朋友可以参考下本文实例讲述了Python解析并读取PDF文件内容的方法。...
  • Python读取pdf表格写入excel

    千次阅读 2020-07-20 22:46:46
    十几个银行,每个银行近5年的财务数据,而且财务报表一般都是 pdf 的,我们将 pdf 中表的数据一个个的拷贝到 excel 中,再借助 excel 去进行求和求平均等聚合函数操作,完事了还得把求出来的结果再统一 CV 到另一张...
  • 一、pdfminer3kpdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本。网上有很多 pdfminer3k 的代码示例,看过以后,只想吐槽一下,太复杂了,有违 python 的简洁。from pdfminer.pdfparser ...
  • python 识别读取pdf中的表格数据

    千次阅读 2020-04-14 08:14:45
    import pdfplumber import pandas as pd #打开pdf文件 with pdfplumber.open(filePath) as pdf: first_page = pdf.pages[0] text = first_page.extract_text() print(text) #读取第二页...
  • 我们有下面一张PDF格式存储的表格,现在需要使用Python将它提取出来。使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下:pip install pdfplumber安装完之后,将需要使用的模块导入import ...
  • 使用python module pdfplumber 提取表格的时候,在window中提取没有任何问题,到了linux上,发现提取出来的文字全部为空,使用tabula 可以,但是结果bu'zhu
  • 大家好,从PDF中提取信息是办公场景中经常需要用到的操作,也是经常又读者在后台问的一个操作。内容少的话我们可以手动复制粘贴,但如果需要批量提取就可以考虑使用Python,之前我也转载过相关...
  • 我们有下面一张PDF格式存储的表格,现在需要使用Python将它提取出来。使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下:pip install pdfplumber安装完之后,将需要使用的模块导入import ...
  • 我们有下面一张PDF格式存储的表格,现在需要使用Python将它提取出来。使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下:pip install pdfplumber安装完之后,将需要使用的模块导入import ...
  • 这几天想统计一下《中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告》中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python表格转成Excel格式。 看过别人写的博客,...
  • 我们有下面一张PDF格式存储的表格,现在需要使用Python将它提取出来。使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下:pip install pdfplumber安装完之后,将需要使用的模块导入import ...
  • 我们有下面一张PDF格式存储的表格,现在需要使用Python将它提取出来。使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下:pip install pdfplumber安装完之后,将需要使用的模块导入import ...
  • "600300,维维股份,000620,新华联...很多时候我们需要用到PDF文件中的Excel表格,但是PDF文件有不可编辑性,所以想提取PDF文件中的表格还是需要一番功夫的。这是加班都搞不定的!不要愁,Python大大又来帮助表哥表...
  • python-opencv表格识别

    千次阅读 2020-02-29 16:55:41
    最近学习了一下opencv,做了个简单的小东西,就是识别图片中的表格识别完成后再把数据写入到csv中保存起来。 环境准备: 下面先说下我们应该要准备下啥环境: 1.python安装完成(笔者python3.7) 2.tesseract...
  • 今天我们就针对这样的实际需求,分享一个基于 PDFPython 办公自动化的解决案例。 先来看看需求。 需求描述 在某个文件夹下有多个 PDF 类型发票 每一张发票 PDF 是纯图片类型,里面的文字信息无法手动复制(事实...
  • python3.7 要求:提取pdf表格里面的内容,提取每一个单元格中的内容,并且精确。 尝试了3种,每种都需要安装不同的module。
  • 我们有下面一张PDF格式存储的表格,现在需要使用Python将它提取出来。使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下:pip install pdfplumber安装完之后,将需要使用的模块导入import ...
  • import pdfplumber import pandas as pd import xlwt def toEcel(): workbook = xlwt.Workbook() # 定义workbook sheet = workbook.add_sheet('Sheet1') # 添加sheet i = 0 # Excel起始位置 ... pdf = pdfplu..

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,881
精华内容 1,552
关键字:

python识别pdf表格

python 订阅