精华内容
下载资源
问答
  • python怎么提取excle表格数据通过实例来,在Excle表格中有数据和文字结合的内容把Excle表格中的,复制——粘贴到word中。按下ctrl F键,打开“查找和替换”对话框。点击“替换”标签,在其高级功能下选择“使用...

    python怎么提取excle表格数据

    通过实例来,在Excle表格中有数据和文字结合的内容

    把Excle表格中的,复制——粘贴到word中。

    按下ctrl F键,打开“查找和替换”对话框。点击“替换”标签,在其高级功能下选择“使用通配符”

    然后在查找的内容的位置输入:[0-9],替换位置:是空值,不输入任何数据。点击”全部替换“按钮。

    点击"全部替换",数据中所有的数字全部删除掉了。

    那么,如何提取Excle数据中的非数字部分?也是通过“使用通配符”来实现。

    把原来的数据复制到word文档中去,按下ctrl F键,打开“查找和替换”对话框。点击“替换”标签,在其高级功能下选择“使用通配符”,和上述的步骤一样。

    在查找的内容的位置输入:[!0-9],替换位置:是空值,不输入任何数据。点击”全部替换“按钮。

    这样,数据中所有的非数字数字全部删除掉了。

    这里,介绍一下数据中包含 字符和数字的情况,这里不需要使用通配符功能,也可以通过一种更便捷的方法来实现。(只剩下数字部分的实现方法)

    例如,有写好的数据,如图所示:

    同样的操作步骤,把原来的数据复制到word文档中去。

    按下ctrl F键,打开“查找和替换”对话框。点击“替换”标签。这里不需要使用通配符功能。

    在查找的内容的位置输入:^$,替换位置:是空值,不输入任何数据。点击”全部替换“按钮。

    只剩下数字部分的实现方法。

    python中怎么打开excel

    读excel要用到xlrd模块网安装(http://pypi.python.org/pypi/xlrd)。然后就可着里面的例子稍微试一知道怎么用了。大概的流程是这:

    1、导入模块

    import

    xlrd

    2、打开excel文件读取数据

    data

    =

    xlrd.open_workbook('excel.xls')

    3、获取一个工作表

    table

    =

    data.sheets()[0]

    #通过索引顺序获取

    table

    =

    data.sheet_by_index(0)

    #通过索引顺序获取

    table

    =

    data.sheet_by_name(u'sheet1')#通过名称获取

    4、获取整行和整列的值(返回数组)

    table.row_values(i)

    table.col_values(i)

    5、获取行数和列数

    table.nrows

    table.ncols

    6、获取单元格

    table.cell(0,0).value

    table.cell(2,3).value

    就我自己使用的时候觉得还是获取cell最有用,这就相当于是给了你一个二维数组,余下你就可以想怎么干就怎么干了。得益于这个十分好用的库代码很是简洁。但是还是有若干坑的存在导致话了一定时间探索。现在列出来供后人参考吧:

    1、首先就是我的统计是根据姓名统计各个表中的信息的,但是调试发现不同的表中各个名字貌似不能够匹配,开始怀疑过编码问题,不过后来发现是因为  空格。因为在excel中输入的时候很可能会顺手在一些名字后面加上几个空格或是tab键,这样看起来没什么差别,但是程序处理的时候这就是两个完全  不同的串了。我的解决方法是给每个获取的字符串都加上strip()处理一下。效果良好

    2、还是字符串的匹配,在判断某个单元格中的字符串(中文)是否等于我所给出的的时候发现无法匹配,并且各种unicode也不太奏效,过一些解决  方案,但是都比较复杂或是没用。最后我采用了一个比较变通的方式:直接从excel中获取我想要的值再进行比较,效果是不错就是通用行不太好,个  呢不能问题还没解决。

    二、写excel表

    写excel表要用到xlwt模块,官网下载(http://pypi.python.org/pypi/xlwt)。大致使用流程如下:

    1、导入模块

    复制代码代码如下:

    import

    xlwt

    2、创建workbook(其实就是excel,后来保存一下就行)

    复制代码代码如下:

    workbook

    =

    xlwt.workbook(encoding

    =

    'ascii')

    3、创建表

    复制代码代码如下:

    worksheet

    =

    workbook.add_sheet('my

    worksheet')

    4、往单元格内写入内容

    复制代码代码如下:

    worksheet.write(0,

    0,

    label

    =

    'row

    0,

    column

    0

    value')

    5、保存

    复制代码代码如下:

    workbook.save('excel_workbook.xls')

    展开全文
  • 由于我的输入是一个扫描的PDF文档,我首先将其转换为图像(JPEG)格式,然后尝试提取文本。我只差一半就到了。输入是一个表格,标题不显示,因为标题的背景是黑色的。我也试过getstructuringelement,但找不到办法。这...

    我正在使用pytesseract、枕头、cv2对图像进行OCR处理,并获取图像中的文本。由于我的输入是一个扫描的PDF文档,我首先将其转换为图像(JPEG)格式,然后尝试提取文本。我只差一半就到了。输入是一个表格,标题不显示,因为标题的背景是黑色的。我也试过getstructuringelement,但找不到办法。这是我到现在为止所做的-import cv2

    import os

    import numpy as np

    import pytesseract

    #import pillow

    #Since scanned PDF can't be handled by pdf2image, convert the scanned PDF into a JPEG format using the below code-

    filename = path

    from pdf2image import convert_from_path

    pages = convert_from_path(filename, 500) for page in pages:

    page.save("dest", 'JPEG')

    imgname = "path"

    oriimg = cv2.imread(imgname,cv2.IMREAD_COLOR)

    cv2.imshow("original image", oriimg)

    cv2.waitKey(0)

    #img = cv2.resize(oriimg,None,fx=0.5,fy=0.5,interpolation=cv2.INTER_CUBIC)

    img = cv2.resize(oriimg,(700,1500),interpolation=cv2.INTER_AREA)

    #here length height

    cv2.imshow("lol", img)

    cv2.waitKey(0)

    cv2.imwrite("changed_dimensionsimgpath", img)

    import PIL.Image

    image = cv2.imread(imgname,cv2.IMREAD_COLOR)

    grayedimg = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) grayedimg =

    cv2.threshold(grayedimg, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]

    cv2.imwrite("H://newim.jpg", grayedimg)

    pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-

    OCR\tesseract.exe"

    text = pytesseract.image_to_string(PIL.Image.open("path"))

    print(text)

    我的输入表如下所示。具有黑色背景的区域不被OCR识别,也不被提取为文本。

    任何帮助都将不胜感激

    图像样本的此代码输出-Sun by Select .

    F'I‘L‘Mlm":[ [Juir SHIIEF'. ”fillfit Fadll'fi

    Brand Type Fragranm Unit: Ithange Dollm 'LChanga Men

    Eleanit' Sprayl Grange J.?IEBflI-Efl' 11% '5H'1Elfi9flflfl 35% I E

    Eleanlt! kfimnsul' Grange IEEEESWI 39% I521LESM1MH 1113553 ‘ E

    Dehuxe F‘mmr [emu 525.940 461% '51:EE?,GED,00 433.6% 5

    Datum: Anus»! firing?) 4,3341%} 29% 513573300119 215% E

    Dem Spray ‘Drangr: £432,100 09% 515.223.:53000 154%

    Min Blaster Aemgul: Dramge ”2114033111 59% :SHSiMMfl H94:

    DiFlEIESIEf Sprawl Drama “NEW. 50% ‘5E1D1_E-BDM 141% I

    Incredlme Spray Lem 1.513.410" 483% a HELENE] $11143 I E

    t“ In

    1'"

    展开全文
  • #/bin/python3.4# -*- coding: utf-8 -*-import xlrddef open_excel(file="file.xls"):try:data = xlrd.open_workbook(file)return dataexcept Exception:print(...")# 根据索引获取Excel表格数据# 参数:table:...

    #/bin/python3.4

    # -*- coding: utf-8 -*-

    import xlrd

    def open_excel(file="file.xls"):

    try:

    data = xlrd.open_workbook(file)

    return data

    except Exception:

    print("please check excel!")

    # 根据索引获取Excel表格数据

    # 参数:table:Excel文件路径 colnameindex:表头列名所在行,by_index:表索引

    def excel_table_byindex(file="file.xls", colindex=0, rowindex=0, byindex=0):

    data = open_excel(file)

    table = data.sheets()[byindex]

    nrows = table.nrows

    ncols = table.ncols

    rowname = table.row_values(colindex) #获取某一行数据

    colname = table.col_values(rowindex) #获取某一列数据

    return colname

    # 获取项目组成员信息

    def get_project_info(file="file.xls", byindex=0):

    data = open_excel(file)

    table = data.sheets()[byindex]

    nrows = table.nrows

    ncols = table.ncols

    projectname = ["icotos", "cgsl","cgel", "tsp", "vp", "经营团队"]

    ictos_colnames = table.col_values(0) # 某一列数据

    cgsl_colnames = table.col_values(2)

    cgel_colnames = table.col_values(4)

    tsp_colnames = table.col_values(6)

    vp_colnames = table.col_values(8)

    manage_colnames = table.col_values(10)

    ictos_memset = ictos_colnames[3:44]

    cgsl_memset = cgsl_colnames[3:29]

    cgel_memset = cgsl_colnames[3:36]

    tsp_memset = cgel_colnames[3:25]

    vp_memset = vp_colnames[3:50]

    manage_set = manage_colnames[3:13]

    projectset = [ictos_memset, cgsl_memset, cgel_memset, tsp_memset, vp_memset, manage_set]

    for i in range(len(projectname)):

    #print(projectname[i] + "项目组成员"+str(projectset[i])+"\n 共计:%d"%len(projectset[i]))

    pass

    return projectset

    def main():

    file2 = "/media/A/work/CI工作/项目组材料/项目组成员清单.xlsx"

    data2 = get_project_info(file2)

    print(data2)

    file1= "/media/A/work/CI工作/9月/员工提交量统计导出20170930170546.xls"

    data1 = excel_table_byindex(file1, 4, 4, 0)

    commit_info = data1[1:len(data1)]

    print("共提交信息%d"%len(commit_info) + "\n"+ str(commit_info))

    result= {"ictos":0, "cgsl":0, "cgel":0, "tsp":0, "vp":0, "manager":0}

    for item in set(commit_info):

    print("the %s has found %d" % (item, commit_info.count(item)))

    if item in data2[0]:

    result[‘ictos‘] += commit_info.count(item)

    if item in data2[1]:

    result[‘cgsl‘] += commit_info.count(item)

    if item in data2[2]:

    result[‘cgel‘] += commit_info.count(item)

    if item in data2[3]:

    result[‘tsp‘] += commit_info.count(item)

    if item in data2[4]:

    result[‘vp‘] += commit_info.count(item)

    if item in data2[5]:

    result[‘manager‘] += commit_info.count(item)

    for item in result.items():

    print(item)

    if __name__ == "__main__":

    main()

    原文:http://www.cnblogs.com/noxy/p/7615781.html

    展开全文
  • #/bin/python3.4# -*- coding: utf-8 -*-import xlrddef open_excel(file="file.xls"):try:data = xlrd.open_workbook(file)return dataexcept Exception:print(...")# 根据索引获取Excel表格数据# 参数:table:...

    #/bin/python3.4

    # -*- coding: utf-8 -*-

    import xlrd

    def open_excel(file="file.xls"):

    try:

    data = xlrd.open_workbook(file)

    return data

    except Exception:

    print("please check excel!")

    # 根据索引获取Excel表格数据

    # 参数:table:Excel文件路径 colnameindex:表头列名所在行,by_index:表索引

    def excel_table_byindex(file="file.xls", colindex=0, rowindex=0, byindex=0):

    data = open_excel(file)

    table = data.sheets()[byindex]

    nrows = table.nrows

    ncols = table.ncols

    rowname = table.row_values(colindex) #获取某一行数据

    colname = table.col_values(rowindex) #获取某一列数据

    return colname

    # 获取项目组成员信息

    def get_project_info(file="file.xls", byindex=0):

    data = open_excel(file)

    table = data.sheets()[byindex]

    nrows = table.nrows

    ncols = table.ncols

    projectname = ["icotos", "cgsl","cgel", "tsp", "vp", "经营团队"]

    ictos_colnames = table.col_values(0) # 某一列数据

    cgsl_colnames = table.col_values(2)

    cgel_colnames = table.col_values(4)

    tsp_colnames = table.col_values(6)

    vp_colnames = table.col_values(8)

    manage_colnames = table.col_values(10)

    ictos_memset = ictos_colnames[3:44]

    cgsl_memset = cgsl_colnames[3:29]

    cgel_memset = cgsl_colnames[3:36]

    tsp_memset = cgel_colnames[3:25]

    vp_memset = vp_colnames[3:50]

    manage_set = manage_colnames[3:13]

    projectset = [ictos_memset, cgsl_memset, cgel_memset, tsp_memset, vp_memset, manage_set]

    for i in range(len(projectname)):

    #print(projectname[i] + "项目组成员"+str(projectset[i])+"\n 共计:%d"%len(projectset[i]))

    pass

    return projectset

    def main():

    file2 = "/media/A/work/CI工作/项目组材料/项目组成员清单.xlsx"

    data2 = get_project_info(file2)

    print(data2)

    file1= "/media/A/work/CI工作/9月/员工提交量统计导出20170930170546.xls"

    data1 = excel_table_byindex(file1, 4, 4, 0)

    commit_info = data1[1:len(data1)]

    print("共提交信息%d"%len(commit_info) + "\n"+ str(commit_info))

    result= {"ictos":0, "cgsl":0, "cgel":0, "tsp":0, "vp":0, "manager":0}

    for item in set(commit_info):

    print("the %s has found %d" % (item, commit_info.count(item)))

    if item in data2[0]:

    result['ictos'] += commit_info.count(item)

    if item in data2[1]:

    result['cgsl'] += commit_info.count(item)

    if item in data2[2]:

    result['cgel'] += commit_info.count(item)

    if item in data2[3]:

    result['tsp'] += commit_info.count(item)

    if item in data2[4]:

    result['vp'] += commit_info.count(item)

    if item in data2[5]:

    result['manager'] += commit_info.count(item)

    for item in result.items():

    print(item)

    if __name__ == "__main__":

    main()

    展开全文
  • {"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云数据库专家保驾护航,为用户的数据库应用系统进行性能和风险评估,参与配合进行数据压测演练,...
  • 今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样:python读取PDF无非就是三种方式(我所了解的),pdfminer、pdf2htmlEX 和 Tabula。综合考虑后,选择了最后一种。下面对三种方式分别介绍:pdfminer...
  • 使用Python提取表格数据需要使用pdfplumber模块,打开CMD,安装代码如下:pip install pdfplumber安装完之后,将需要使用的模块导入import pdfplumberimport pandas as pd然后打开PDF文件# 使用with语句打开pdf文件...
  • {"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云数据库专家保驾护航,为用户的数据库应用系统进行性能和风险评估,参与配合进行数据压测演练,...
  • 本文主要介绍了利用腾讯云表格文字识别API提取图片表格数据并生成Excel文件。主要涉及的知识点有:腾讯云API的调用、json文件的处理以及Excel文件的生成。背景在工作中,各种电子文件和纸质文件满天飞,穿梭于各个...
  • 今天需要提取Excel表格数据,但是之前没有弄过,然后找到了xlrd模块,但是有个来个问题需要解决: 1、如果Excel表格数据过多,如何判断第一行从何处开始读取Excel数据。 2、如果Excel表格中有合并表格,不能直接一行...
  • {"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云数据库专家保驾护航,为用户的数据库应用系统进行性能和风险评估,参与配合进行数据压测演练,...
  • 今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样:python读取PDF无非就是三种方式(我所了解的),pdfminer、pdf2htmlEX 和 Tabula。综合考虑后,选择了最后一种。下面对三种方式分别介绍:pdfminer...
  • 这个列表包含与网页抓取和数据处理的Python库网络通用urllib-网络库(stdlib)。requests-网络库。grab–网络库(基于pycurl)。pycurl–网络库(绑定libcurl)。urllib3–...文章武耀文2018-04-253128浏览量图解数据科学...
  • pdf文件提取表格数据,写入excel或csv文件昨天试了pdftoHtml、pdfMiner都不是特别理想,要么就是执行太慢,要么就是提取表格数据散乱,不好处理;pdfplumber使用了一下,提取出的都是空数据,最后采用tabula.安装 ...
  • 常用的表格数据存储文件格式——CSV,Microsoft Excel,Google Excel 。Python通常称为粘合语言。这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良好的开源社区。这些接口库和特征能直接...
  • 提取pdf文件中的表格数据原文链接另外参考使用camelot模块可以直接使用pip进行安装pip install "camelot-py[cv]"读入pdf文件import camelottables = camelot.read_pdf('gst-revenue-collection-march2020.pdf', ...
  • \python\财务报表\主体评级报告.pdf') as pdf:page = pdf.pages[45]for row in page.extract_table() :print(row)print(row[0]) #打印每个列表对应的第一个元素 输出结果: 在此基础上,我们详细介绍如何从pdf文件...
  • #/bin/python3.4# -*- coding: utf-8 -*-import xlrddef open_excel(file="file.xls"): try: data = xlrd.open_workbook(file) return data except Exception: print("please check exce...
  • 我们有下面一张PDF格式存储的表格,现在需要使用Python将它提取出来。长按识别下方二维码,并关注公众号回复“PDF”获取案例数据使用Python提取表格数据需要使用pdfplumbe...
  • from openpyxl import Workbookimport pymongo# 读取mongoDB数据库相应的表,每条数据取出数个字段存入一个dict,再将所有的dict存入一个listdef read_mongoDB():# 连接mongoDB数据库,读取 db 库 table 表中的数据...
  • 这个列表包含与网页抓取和数据处理的Python库网络通用urllib-网络库(stdlib)。requests-网络库。grab–网络库(基于pycurl)。pycurl–网络库(绑定libcurl)。urllib3–...文章武耀文2018-04-253139浏览量图解数据科学...
  • 网址:http://quote.eastmoney.com/ce…要做的是提取网页中的表格数据(如:板块名称,及相应链接下的所有个股,依然是个表格)暂时只写了这些代码:import urllib2from bs4 import BeautifulSoupurl=’...
  • Python提取PDF中表格数据

    千次阅读 2019-10-10 08:33:18
    不久前,一位开发者提供了一个名为 Camelot 的工具,使用三行代码就能从 PDF 文件中提取表格数据。 项目地址:https://github.com/camelot-dev/camelot 项目作者提供了三种安装方法。首先,你可以使用 Conda ...
  • 这个列表包含与网页抓取和数据处理的Python库网络通用urllib-网络库(stdlib)。requests-网络库。grab–网络库(基于pycurl)。pycurl–网络库(绑定libcurl)。urllib3–...文章武耀文2018-04-253139浏览量初学指南| 用...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 747
精华内容 298
关键字:

python提取表格数据

python 订阅