精华内容
下载资源
问答
  • 使用pandas读取excel

    万次阅读 多人点赞 2018-10-30 15:53:01
    Excel是微软的经典之作,在日常工作中的数据整理、分析和可视化方面,有其独到的优势,尤其在你熟练应用了函数和数据透视等高级功能之后,Excel可以大幅度提高你的工作效率。但如果数据量超大,Excel的劣势也就随之...

    本文为作者原创,未经允许不得擅自转载。

    Excel是微软的经典之作,在日常工作中的数据整理、分析和可视化方面,有其独到的优势,尤其在你熟练应用了函数和数据透视等高级功能之后,Excel可以大幅度提高你的工作效率。但如果数据量超大,Excel的劣势也就随之而来,甚至因为内存溢出无法打开文件,后续的分析更是难上加难。那么,有什么更好的解决办法吗?工欲善其事,必先利其器,在这里我们介绍使用Python的pandas数据分析包来解决此问题。

    pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, 
                  usecols=None, squeeze=False,dtype=None, engine=None, 
                  converters=None, true_values=None, false_values=None, 
                  skiprows=None, nrows=None, na_values=None, parse_dates=False, 
                  date_parser=None, thousands=None, comment=None, skipfooter=0, 
                  convert_float=True, **kwds)
    

    pandas读取Excel后返回DataFrame,接下来我们就pd.read_excel()的常用参数进行详细解析。


    目录

    1、io,Excel的存储路径

    2、sheet_name,要读取的工作表名称

    3、header, 用哪一行作列名

    4、names, 自定义最终的列名

    5、index_col, 用作索引的列

    6、usecols,需要读取哪些列

    7、squeeze,当数据仅包含一列

    8、converters ,强制规定列数据类型

    9、skiprows,跳过特定行

    10、nrows ,需要读取的行数

    11、skipfooter , 跳过末尾n行


    【文中使用英超、西甲的排名积分榜及射手榜作为原始数据~~~】


    1、io,Excel的存储路径

    •  建议使用英文路径以及英文命名方式。
    import pandas as pd
    io = r'C:\Users\Administrator\Desktop\data.xlsx'

    2、sheet_name,要读取的工作表名称

    • 可以是整型数字、列表名或SheetN,也可以是上述三种组成的列表
    • 整型数字:目标sheet所在的位置,以0为起始,比如sheet_name = 1代表第2个工作表。

    data = pd.read_excel(io, sheet_name = 1)
    data.head()

    • 列表名:目标sheet的名称,中英文皆可。
    data = pd.read_excel(io, sheet_name = '英超射手榜')
    data.head()

    • SheetN:代表第N个sheet,S要大写,注意与整型数字的区别。
    data = pd.read_excel(io, sheet_name = 'Sheet5')
    data.head()

    • 组合列表: sheet_name = [0, '英超射手榜', 'Sheet4'],代表读取三个工作表,分别为第1个工作表、名为“英超射手榜”的工作表和第4个工作表。显然,Sheet4未经重命名。
    • sheet_name 默认为0,取Excel第一个工作表。如果读取多个工作表,则显示表格的字典。对于初学者而言,建议每次读取一个工作表,然后进行二次整合。
    data = pd.read_excel(io, sheet_name = ['英超积分榜', '西甲积分榜'], nrows = 5)
    # sheet_name = ['英超积分榜', '西甲积分榜'] ,返回两个工作表组成的字典
    data

    3、header, 用哪一行作列名

    •  默认为0 ,如果设置为[0,1],则表示将前两行作为多重索引。
    data = pd.read_excel(io, sheet_name = '英超积分榜', header = [0,1]) 
    # 前两行作为列名。
    data.head()

    4、names, 自定义最终的列名

    • 一般适用于Excel缺少列名,或者需要重新定义列名的情况。
    • 注意:names的长度必须和Excel列长度一致,否则会报错
    data = pd.read_excel(io, sheet_name = '英超射手榜', 
                         names = ['rank','player','club','goal','common_goal','penalty'])
    data.head()

    5、index_col, 用作索引的列

    • 可以是工作表列名称,如index_col = '排名';
    • 可以是整型或整型列表,如index_col = 0 或 [0, 1],如果选择多个列,则返回多重索引。
    data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = '排名')
    data.head()

     

    data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = [0, 1])
    data.head()

    6、usecols,需要读取哪些列

    • 可以使用整型,从0开始,如[0,2,3];
    • 可以使用Excel传统的列名“A”、“B”等字母,如“A:C, E” ="A, B, C, E",注意两边都包括。
    • usecols 可避免读取全量数据,而是以分析需求为导向选择特定数据,可以大幅提高效率。
    data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = [0, 1, 3])
    data.head()

    data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = 'A:C, E')
    data.head()
    # 啊?什么!!为啥不见C罗??
    # 大佬,C罗转会去尤文图斯啦~~~~

     

    7、squeeze,当数据仅包含一列

    •  squeeze为True时,返回Series,反之返回DataFrame。
    data = pd.read_excel(io, sheet_name = 'squeeze', squeeze  = True)
    data.head()

    data = pd.read_excel(io, sheet_name = 'squeeze', squeeze  = False)
    data.head()

    8、converters ,强制规定列数据类型

    • converters = {'排名': str, '场次': int}, 将“排名”列数据类型强制规定为字符串(pandas默认将文本类的数据读取为整型),“场次”列强制规定为整型;

    • 主要用途:保留以文本形式存储的数字。

    data = pd.read_excel(io, sheet_name = 'converters')
    data['排名'].dtype

    data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})
    data['排名'].dtype

    9、skiprows,跳过特定行

    •  skiprows= n, 跳过前n行; skiprows = [a, b, c],跳过第a+1,b+1,c+1行(索引从0开始);
    • 使用skiprows 后,有可能首行(即列名)也会被跳过。
    data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = [1,2,3]) 
    # 跳过第2,3,4行数据(索引从0开始,包括列名)
    data.head()

     

    data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = 3)
    data.head()

    10、nrows ,需要读取的行数

    • 如果只想了解Excel的列名及概况,不必读取全量数据,nrows会十分有用。 
    data = pd.read_excel(io, sheet_name = '英超射手榜', nrows = 10)
    data

    11、skipfooter , 跳过末尾n行

    data = pd.read_excel(r'C:\Users\Administrator\Desktop\data.xlsx' , 
                         sheet_name = '英超射手榜', skipfooter = 43)
    #  skipfooter = 43, 跳过末尾43行(索引从0开始)
    data

    欢迎搜索今日头条“海阔天空爱阅读”,欣赏更多文章~~

    展开全文
  • Python使用pandas读取excel表格数据

    万次阅读 多人点赞 2019-04-08 16:14:04
    导入 import pandas as pd ...读取表格并得到表格行列信息 df=pd.read_excel('test.xlsx') height,width = df.shape print(height,width,type(df)) 表格如下: 得到如下输出,为一个4行5列的数据块: ...

    导入

    import pandas as pd
    

    若使用的是Anaconda集成包则可直接使用,否则可能需要下载:pip install pandas

    读取表格并得到表格行列信息

    df=pd.read_excel('test.xlsx')
    height,width = df.shape
    print(height,width,type(df))
    

    表格如下:
    test.xlsx1
    得到如下输出,为一个4行5列的数据块,为DataFrame格式:
    输出
    直接print(df)得到的结果:
    print(df)
    对比结果和表格,很显然表格中的第一行(黄色高亮部分)被定义为数据块的列下标,而实际视作数据的是后四行(蓝色高亮部分);并且自动在表格第一列之前加了一个行索引{0,1,2,3}。
    test.xlsx2

    提取数据放入数组中

    x = np.zeros((height,width))
    for i in range(0,height):
    	for j in range(1,width+1): #遍历的实际下标,即excel第一行
    		x[i][j-1] = df.ix[i,j]
    print(x.shape)
    print(x)
    

    np.zeros()方法定义一个初试值全为0的二维数组(需要导入numpy库),用df.ix[i,j]读取数据并复制入二维数组中,其中for i in range(0,height)循环表示从下标0到下标height-1(不包含height),得到的输出如下:
    输出

    对代码做一些补充说明:

    从DataFrame结构的数据中取值有三种常用的方法:

    #第一种方法:ix
    df.ix[i,j]		# 这里面的i,j为内置数字索引,行列均从0开始计数
    df.ix[row,col]	# 这里面的row和col为表格行列索引,也就是表格中的行与列名称
    
    #第二种方法:loc
    df.loc[row,col]	# loc只支持使用表格行列索引,不能用内置数字索引
    
    #第三种方法:iloc
    df.iloc[i,j]	# iloc只支持使用内置数字索引,不能用表格行列索引
    

    由于ix方法对两种索引都支持,所以这里就有一个问题:如果表格行列索引也是数字怎么办? 比如我上述例子中列索引为表格的第一行{1,2,3,4},而行索引为读取时自动添加的。
    经过实验这种情况将会优先使用表格行列索引,也就对应了上面代码中得到的结果。不过为了不在使用时产生混乱,我个人建议还是使用loc或者iloc而不是ix为好。

    在表格中自定义行列索引的情况

    如果表格是下面这样的形式:
    新表格
    想要让读取得到的DataFrame行索引为{‘one’,‘two’,‘three’,‘four’},列索引为{‘一’,‘二’,‘三’,‘四’,‘五’}。如果直接使用read_excel(filename),虽然列索引会默认为第一行,但是行索引并不会默认为第一列,而是会自动添加一个{0,1,2,3}作为行索引。因此需要达到我们的目的需要设定一下读取时的参数,如下:

    df = pd.read_excel(filename,index_col=0)	# 即指定第一列为行索引
    print(df)
    print('第0行第1列的数据为:',df.iloc[0,1])
    print('第three行第二列的数据为:',df.loc['three','二'])
    

    得到的输出如下所示:
    新dataframe

    展开全文
  • 假设有Excel文件data.xlsx,其中内容为现在需要将这个Excel文件中的数据读入pandas,并且在后续的处理中不关心ID列,还需要把sex列的female替换为1,把sex列的male替换为0。本文演示有关的几个操作。(1)导入pandas...

    假设有Excel文件data.xlsx,其中内容为

    现在需要将这个Excel文件中的数据读入pandas,并且在后续的处理中不关心ID列,还需要把sex列的female替换为1,把sex列的male替换为0。本文演示有关的几个操作。

    (1)导入pandas模块

    >>> import pandas as pd

    (2)把Excel文件中的数据读入pandas

    >>> df = pd.read_excel('data.xlsx')

    >>> df

    ID age height sex weight

    张三 1 39 181 female 85

    李四 2 40 180 male 80

    王五 3 38 178 female 78

    赵六 4 59 170 male 66

    (3)删除ID列

    可以得到新的DataFrame:

    >>> df.drop('ID', axis=1)

    age height sex weight

    张三 39 181 female 85

    李四 40 180 male 80

    王五 38 178 female 78

    赵六 59 170 male 66

    也可以直接在原DataFrame上原地删除:

    >>> df.drop('ID', axis=1, inplace=True)

    >>> df

    age height sex weight

    张三 39 181 female 85

    李四 40 180 male 80

    王五 38 178 female 78

    赵六 59 170 male 66

    (4)替换sex列

    方法一:使用replace()方法替换sex列,得到新的DataFrame,如果指定参数inplace=True,则可以原地替换。

    >>> df.replace({'female':1, 'male':0})

    age height sex weight

    张三 39 181 1 85

    李四 40 180 0 80

    王五 38 178 1 78

    赵六 59 170 0 66

    方法二:使用map()方法+lambda表达式,原地替换。

    >>> df1 = df[:]

    >>> df1['sex'] = df1['sex'].map(lambda x:1 if x=='female' else 0)

    >>> df1

    age height sex weight

    张三 39 181 1 85

    李四 40 180 0 80

    王五 38 178 1 78

    赵六 59 170 0 66

    方法三:使用map()方法+字典,原地替换。

    >>> df1 = df[:]

    >>> df1['sex'] = df1['sex'].map({'female':1, 'male':0})

    >>> df1

    age height sex weight

    张三 39 181 1 85

    李四 40 180 0 80

    王五 38 178 1 78

    赵六 59 170 0 66

    方法四:使用loc类,原地替换。

    >>> df1 = df[:]

    >>> df1.loc[df['sex']=='female', 'sex'] = 1

    >>> df1.loc[df['sex']=='male', 'sex'] = 0

    >>> df1

    age height sex weight

    张三 39 181 1 85

    李四 40 180 0 80

    王五 38 178 1 78

    赵六 59 170 0 66

    展开全文
  • pandas读取excel表格数据read_excel()参数说明读取表格数据获取工作所有数据获取特定单元格数据获取一行或多行数据获取一列或多列数据封装_读取测试用例 read_excel() 将Excel文件读取到pandas DataFrame中 支持从...

    read_excel()

    将Excel文件读取到pandas DataFrame中

    支持从本地文件系统或URL读取xls,xlsx,xlsm,xlsb和odf文件。支持读取单个表或多个表。

    参数说明

    io 文件路径

    sheet_name 指定表名

    • 默认为0,即第一张表
    • “Sheet1”:名称为“ Sheet1”的工作表
    • [0, 1, “Sheet5”]:加载第一,第二和名为“ Sheet5”的表
    • None:所有工作表

    读取表格数据

    获取工作表所有数据

    import pandas as pd
    
    df = pd.read_excel("data/data.xlsx", sheet_name='test')
    data = []
    # 将每行数据转为字典并存在data列表中
    for i in df.index:
        data.append(df.iloc[i].to_dict())	
    print(data)
    

    获取特定单元格数据

    # 获取第2行第2列的数据
    print(df.iloc[1,2])
    # 获取第2行api列对应数据
    print(df.iloc[1]['api']) 
    print(df.loc[1]['api'])
    print(df.loc[1, 'api'])
    

    获取一行或多行数据

    返回DataFrame,加.values返回列表

    # 获取第1行数据
    print(df.iloc[0])
    print(df.loc[0])
    # 获取多行数据
    print(df.iloc[0:2])
    print(df.loc[0:2])
    

    获取一列或多列数据

    # 获取某一列数据
    print(df['api'])
    # 获取多列数据
    print(df.loc[:, ['api','method']])
    

    封装_读取测试用例

    import pandas as pd
    
    def get_data(sheet):
        # 加载sheet表单数据
        df = pd.read_excel("data/data.xlsx", sheet_name=sheet)
        # 提取api这个列的数据并去重
        apis = list(set(df['api']))
        case_data = {}
        for api in apis:
            api_data = []
            for i in df.index:
                if df.iloc[i]['api'] == api:
                    # 将同一api的测试数据以字典格式存入列表
                    api_data.append(df.iloc[i].to_dict())
            # 将api和对应的数据列表存入字典
            case_data[api] = api_data
        return case_data
    

    调用get_data()函数

    data = get_data('user')
    # 根据api键获取对应的测试数据
    print(data['adduser'])
    print(data['deluser'])
    
    展开全文
  • Pandas读取Excel日期数据的异常处理

    万次阅读 2021-06-15 10:41:01
    没有使用系统内置的日期单元格格式,自定义格式没有对负数格式进行定义,pandas读取时无法识别出是日期格式,而是读取出单元格实际存储的数值。 解决方案:修改自定义格式 可以修改为系统内置的自定义格式: 或者...
  • 关于Excel数据处理,很多同学可能使用过Pyhton的pandas模块,用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱,数据会分散不同的工作中,而且在表格中分布很乱,这种情况下啊直接使用...
  • pandas能帮助我们在Python 代码中直接读取Excel 文件数据。 但只有pandas是不行的,会报错: ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to ...
  • pandas读取excel数据

    千次阅读 2016-09-13 10:48:03
    最近学数据分析,需要读取excel数据,用pandas读取excel数据还是很方便的,写了一个函数读取数据:def load_excel_data(filename): data = pd.ExcelFile(filename) print data.sheet_names df = data.parse(...
  • pandas读取excel文件数据格式被转换

    千次阅读 2020-05-09 15:27:30
    读取exccel问件时候,纯数字文本格式会被转换成int类型,由于文本格式数据表中会出现类似以0开头的数据,如00123,读取完后数据会变成int格式,而前面的0就会被忽略掉,造成数据被改变,我们在读取时候加入一个参数detype...
  • #导入模块 import pandas from sqlalchemy import create_engine #链接mysql 数据库 ...#读取excel 表格中数据 data = pandas.read_excel(path, encoding='gb18030') #处理表格中数据,自定义...
  • pandas 读取excel文件

    千次阅读 多人点赞 2021-02-23 17:12:40
    pandas 读取excel文件一 read_excel() 的基本用法二 read_excel() 的常用的参数:三 示例1. IO:路径2. sheet_name:指定工作表名3. header :指定标题行4. names: 指定列名5. index_col: 指定列索引6. skiprows:跳...
  • 关于Excel数据处理,很多同学可能使用过Pyhton的pandas模块,用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱,数据会分散不同...问题缘起pandas read_excel函数在读取Excel工作方面做得...
  • print("-"*10+"用Python如何读取数据源和熟悉数据"+"-"*10) print("哔哩哔哩Python课程,主要讲用pandas获取数据源:") print("1.导入数据\n2.熟悉数据") print('\n') print("-"*15+"1.导入数据"+"-"*15) import ...
  • pandas的pd.read_excel()方法在读取一个存储图片URL路径的EXCEL表格数据时,由于路径较长,出现了单元格内容显示不全的问题。尤其是在使用pd.to_excel()将处理好的数据导出时,EXCEL单元格中存储的仅为未显示完全...
  • (2)如何利用pandas读取excel数据文件 import pandas as pd #将excel文件读到内存中,形成dataframe,并命名为people people=pd.read_excel('D:/python结果/task2/People.xlsx') #________以下是常规操作部分 #...
  • pandas读取excel,遍历数据

    千次阅读 2020-07-15 18:04:05
    df = pd.read_excel(io=excel_path) ##默认读取sheet = 0的 columns = df.columns.values.tolist() ### 获取excel 表头 ,第一行 for idx, row in df.iterrows(): ### 迭代数据 以键值对的形式 获取 每行的数据 ...
  • pandas读取Excel数据的两种方式

    千次阅读 2019-03-11 17:09:14
    pd.ExcelFile(path).parse(sheet_name) pd.read_excel(path, sheet_name) ...例:循环读取Excel中的sheet >>> import pandas as pd >>> xl = pd.ExcelFile(path...
  • 一、安装环境 1:pandas依赖处理Excel的xlrd模块,所以我们需要提前安装这个,安装命令是:pip install xlrd 2:安装pandas模块还需要一定的编码环境,所以我们自己在安装的时候,确保你的电脑有这些环境:Net.4 、VC-...
  • python--pandas读取excel

    千次阅读 2021-04-06 18:02:17
    本文介绍使用pandas读取excel以及读取过程中一些常见的问题。 环境 Excel文件的格式为xls和xlsx,pandas读取excel文件需要安装依赖库xlrd和openpyxl。 !注意:当xlrd>=2.0时,只支持xls格式,不再支持xlsx。 ...
  • 民航局官网(http://www.caac.gov.cn/XXGK/XXGK/TJSJ/202003/t20200309_201358.html)提供了一份excel表格数据:2019年民航机场吞吐量排名.xls,如图: 作为备份,同步存放一...用Python的pandas读取excel表格数.
  • pandas通常在读取excel数据之后,如果需要进行去重,有两种方式,一种是进行标记,另一种是在pandas中直接去重 如下图所示,excel数据: (1)使用drop_duplicates(subset=None, keep=‘first’, inplace=False)...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,743
精华内容 7,497
关键字:

pandas读取excel表数据