-
2018-09-30 16:58:35
1. read_excel
pandas.read_excel
(io, sheet_name=0, header=0, skiprows=None, skipfooter=0, **kwds)- io: 输入文件的路径名
- sheet_name=None: 要读取的表格名,None代表读取所有表格
- header=None: None代表没有表头, 默认第0行是表头
- skiprows=n: 忽略开头的n行
- skipfooter=n: 忽略末尾的n行
>>> pd.read_excel('tmp.xlsx', index_col=None, header=None) 0 1 2 0 NaN Name Value 1 0.0 string1 1 2 1.0 string2 2 3 2.0 string3 3 >>> pd.read_excel('tmp.xlsx') Name Value 0 string1 1 1 string2 2 2 string3 3
2. read_csv
- pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', skiprows=None, skipfooter=0)
- filepath_or_buffer: 要读取的文件路径
- sep=', ': 默认数据间的分隔符是,
- delimiter: sep的别名
- header: 文件头
- skiprows=n: 忽略开头的n行
- skipfooter=n: 忽略末尾的n行
3. read_table
- pandas.read_table(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names)
- names: 列的名字,当header=None时有效
更多相关内容 -
python使用pandas读取数据
2021-06-22 08:20:47使用pandas读取数据,首先需要安装对应的包,注意有的版本的pandas会与numpy库冲突,如果报错,需要对想要的numpy升级或者降级。 首先需要导入库。 import pandas as pd 读取后可以读取文件,读取文件的格式如下...使用pandas读取数据,首先需要安装对应的包,注意有的版本的pandas会与numpy库冲突,如果报错,需要对想要的numpy升级或者降级。
首先需要导入库。
import pandas as pd
读取后可以读取文件,读取文件的格式如下:
df = pd.read_csv("E:/test/20210618.csv")
该行代码,通过调用df.head()即可实现前几行的输出,输出结果如下
"D:\program files\Python39\python.exe" H:/python/LXexcel/main.py 日期 年 月 天 时间 ... 电导率相对误差 浊度相对误差 溶解氧绝对误差 水温绝对误差 PH绝对误差 0 2021/6/1 0:00 2021 6 1 0:00 ... 42.43% 106.66% 1.592652 0.3083 0.252711 1 2021/6/1 1:00 2021 6 1 1:00 ... 38.54% 116.18% 1.530329 0.4585 0.220740 2 2021/6/1 2:00 2021 6 1 2:00 ... 36.67% 109.16% 1.589456 0.5084 0.209519 3 2021/6/1 3:00 2021 6 1 3:00 ... 34.50% 113.38% 1.650743 0.4070 0.206129 4 2021/6/1 4:00 2021 6 1 4:00 ... 10.80% 151.97% 1.631107 0.5000 0.194033 5 2021/6/1 5:00 2021 6 1 5:00 ... 9.52% 64.50% 1.585755 0.5562 0.191251 6 2021/6/1 6:00 2021 6 1 6:00 ... 10.02% 342.09% 1.582893 0.5182 0.185920 7 2021/6/1 7:00 2021 6 1 7:00 ... 9.61% 68.68% 1.491884 0.5645 0.181301 8 2021/6/1 8:00 2021 6 1 8:00 ... 55.60% 93.47% 1.495976 0.4793 0.195958 9 2021/6/1 9:00 2021 6 1 9:00 ... 7.56% 97.60% 1.452135 0.6043 0.198681 [10 rows x 28 columns] 进程已结束,退出代码为 0
需要注意的是,直接读取文件需要用符号“/”,若直接使用文件的读取方式,则格式为
df = pd.read_csv(r"E:\test\20210618.csv")
如果是读取excel,这对应使用:
df1 = pd.read_excel("E:/test/20210618.xlsx",sheet_name="ceshi")#读取默认的表 df1 = pd.read_excel("E:/test/20210618.xlsx",sheet_name=0)#读取默认的第一张表 df1 = pd.read_excel("E:/test/20210618.xlsx",sheet_name=0,header=0)#读取默认的第一张表,并设置第一行为索引 df1 = pd.read_excel("E:/test/20210618.xlsx",sheet_name=0,usecols=[0,2])#读取默认的第一张表,数据仅导入第一列到第三列
注意:以上方法不支持中文
如若有中文路径,需要使用如下代码格式:
df = pd.read_csv("G:/工作普适/20210408-国考断面/11-数据对比/对比固定站与浮标站20210618.csv",engine='python',encoding='utf-8')
-
Pandas读取数据
2022-05-20 15:56:22一、pandas读取csv文件 import pandas as pd data=pd.read_csv('city.csv') print(data) 这里我们可以指定name参数,来给我们的列表的不同列命名 import pandas as pd data=pd.read_csv('city.csv',names=['A...目录
一、pandas读取csv文件
import pandas as pd data=pd.read_csv('city.csv') print(data)
这里我们可以指定name参数,来给我们的列表的不同列命名
import pandas as pd data=pd.read_csv('city.csv',names=['A','B','C']) print(data)
这是我们的data指定names之后的内容,可以发现我们的2018年到2016年全部为A,2015年为B,2014年为C
所以当我们打印data['A']的时候,我们获取到的是2018年到2016年的全部数据
指定我们的行索引
import pandas as pd data=pd.read_csv('city.csv',index_col='2018年') print(data)
将指定的数据置空
在下面的代码中,我们就将第0行中的208014.94余25669.13置为了NAN
import pandas as pd data=pd.read_csv('city.csv',na_values=[28014.94,25669.13]) print(data)
保存我们的CSV数据
注意,保存的文件目录必须是要存在的,这里我们保存在了我们Python当前目录下的test文件夹下的out1.csv文件中
data.to_csv('test/out1.csv')
二、Python读取JSON数据
由于我们需要使用Python读取一些网页的文件,而网页中的文件通常用JSON来传输数据。
下面的代码中我们打开了name.json文件,并且打开方式为只读
data=open('name.json','r') print(data)
如何查看我们的JSON数据
import json import pandas as pd data=open('name.json','r') read=json.load(data) print(read) teachers=pd.DataFrame(read['data'],columns=['name','title','age','courses']) print(teachers)
上面代码中的read,我们所得到的的是一个字典类型的数据。
然后我们可以使用pandas中的读取方式,将我们read数据中的data数据传入,并且指定我们的行索引分别为名字,标题,年龄和课程。
通过上面的观察,我们发现所有课程的数据都在courses中,所以接下来,我们来读取courses中额数据
import json import pandas as pd data=open('name.json','r') read=json.load(data) # print(read) teachers=pd.DataFrame(read['data'],columns=['name','title','age','courses']) courses=pd.DataFrame([],columns=['name','period']) for c in (teachers['courses']): c1=pd.DataFrame(c,columns=['name','period']) courses=courses.append(c1,ignore_index=True) courses=courses.drop_duplicates() print(courses)
保存我们的json类型的数据
这里我们将数据按照记录排序,然后在我们的test文件夹下创建test.json的文件,并且打开莫得模式为写入二进制的模式,然后我们写入我们的数据x,并且指定我们的字符集的utf-8,最后我们需要关闭我们所链接的文件。
//加上了orient='records'之后,我们写入JSON的数据类型为一个列表,如果不写则不为列表。 x=courses.to_json(orient='records') c=open("test/test.json",'wb') c.write(x.encode('utf-8')) c.close()
三、XML数据的读取和使用
from lxml import objectify #打开我们的name.xml文件 parsed=objectify.parse(open('name.xml')) #获取到我们name.xml的根节点,也就是我们下面的xml中的stuff root=parsed.getroot() #创建一个空的列表 data=[] #创建一个列表,将我们的name,title,age传入 #可以从我们下面的xml中看出,我们下面的每一个teacher标签中都有这三个属性 fields=['name','title','age'] #遍历我们根节点也就是我们的stuff结点下的所有teacher标签下的内容 for elt in root.teacher: #创建一个空的字典 elt_data={} #遍历我们每一个teacher标签下的子标签 for child in elt.getchildren(): #如果子标签等于我们需要获取的标签,就将我们的子标签中的内容添加到我们的字典中 if child.tag in fields: elt_data[child.tag]=child.pyval #将我们的字典追加到我们的data列表中 data.append(elt_data) #将我们的data转化为pd.DataFrame的数据类型 teacher=pd.DataFrame(data) print(teacher)
四、读取excel文件
#打开我们的excel数据表 f_excel=pd.ExcelFile("test1.xlsx") #使用我们的read_excel方法来读取我们的打开的EXCEL中的Sheet表 #并且设置行索引为分数 gdp1=pd.read_excel(f_excel,'Sheet1',index_col="分数") print(gdp1)
写入excel文件
#指定我们的存储目录 f_excel=pd.ExcelWriter('test/test1.xlsx') #将我们之前gdp1中的数据存储到我们f_excel目录下的Sheet2表中 gdp1.to_excel(f_excel,'Sheet2') #保存我们的f_excel文件 f_excel.save()
五、读取html中的表格
#指定我们想要读取的网址 tables=pd.read_html('http://www.boc.cn/sourcedb/whpj/index.html') #这里经过我们的查看,只有tables中的1号表格是我们所需要的汇率数据 data=tables[1] print(data)
六、读取数据库
读取数据库有单独的一篇博文
https://blog.csdn.net/weixin_62684026/article/details/124850660?spm=1001.2014.3001.5501
-
Pandas读取MySQL数据到DataFrame的方法
2020-09-09 08:41:04今天小编就为大家分享一篇Pandas读取MySQL数据到DataFrame的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧 -
使用pandas读取csv文件的指定列方法
2020-09-20 14:32:26下面小编就为大家分享一篇使用pandas读取csv文件的指定列方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧 -
(一)使用Pandas进行数据分析 - 数据读取
2022-02-17 14:14:44此系列博客是我在学习Pandas的过程中的笔记和一些思考,旨在加深自己的记忆...第一篇是关于数据读取的部分,这里只介绍了CSV和EXCEL两种常用的文件类型的读取方法。 希望也能够帮助到和我一样在学习路上的同学们。1.读取文件
Pandas读取这两种文件的方法大体一致,语法如下:
pd.read_csv(path) pd.read_excel(path)
其中path为文件路径,可使用 os 模块中的 getcwd 和 chdir 方法查看和修改路径,若读取的文件在当前路径下,则 path 可直接输入文件名
os.getcwd() #获取当前路径 os.chdir(path) #修改当前路径 pd.read_csv('xxxx.csv') pd.read_excel('xxxx.xlsx')
2.指定位置读取文件
若想要读取的文件在当前路径下的一个文件夹内时,则只需要在文件名前添加文件夹名称即可
当前路径:C:\\Users\\Desktop,文件在Desktop的test文件夹内
pd.read_csv('test\\xx.csv')
3.指定行读取文件(顺序、跳过、条件)
这里介绍 pd.read_csv 的三种方法实现顺序、跳过和条件读取
# 顺序 pd.read_csv('xx.csv',nrows = 10) #读取前10行 # 跳过 pd.read_csv('xx.csv',skiprows = [1,2,3]) #跳过1、2、3行,也可使用range或者列表表达式 # 条件 pd.read_csv('xx.csv',skiprows = lambda x : x % 2) #使用函数实现条件读取奇数行,这里会将每一行当成参数传入匿名函数,当为奇数行时,结果为True(保留)
4.指定列读取文件(列号、列名、条件)
# 列号 pd.read_csv('xx.csv',usecols = [0,2,4]) #读取该文件的第1、3、5列 # 列名 pd.read_csv('xx.csv',usecols = ['A']) #读取该文件的A列 # 条件 list_1 = ['A','B','C'] pd.read_csv('xx.csv',usecols = lambda x : x in list_1) #同样使用函数进行条件读取,这里会对每一列生成一个布尔判断的结果,从而达到条件读取的结果
5.指定索引读取文件
pd.read_csv('xx.csv',index_col = ['A']) #设置A列为索引列
6.指定标题读取文件并修改标题
pd.read_csv('xx.csv',usecols = ['A'],names = ['B']) #指定读取A列,并将列名修改为B
7.缺失值转换、标记以及忽略缺失值
缺失值分为标准缺失值和非标准缺失值,标准缺失值指的是 Pandas 能够自动识别的,反之则反。
其中空格以及NA均能够被识别,然而 “-”、“na”、“n/a”等等均不能被识别。
在处理缺失值的过程中,一般会遇到以下集中情况:
(一)不对缺失值进行处理,源文件中出现的什么值,DataFrame中就是什么值
pd.read_csv('xx.csv',keep_default_na = False) #keep_default_na 默认为True,即转换为NAN
还可使用 na_filter=False 进行忽略缺失值
(二)将特定字符标记为缺失值(当遇到不能被识别的字符时)
pd.read_csv('xx.csv',na_values = ['[]']) #将[]标记为缺失值
na_values参数用来控制哪些值会被判定为缺失值,它接收一个列表或者集合,当列表或者几个中出现的字符串在文件中出现时,它也会被判定为缺失值。
这个参数用来处理非标准缺失值。
但是,无论此时keep_default_na=True还是False,他都将被改写。
8.指定格式读取文件
在读取某个文件时,修改某列的数据类型(格式)
pd.read_csv('xx.csv',dtype = {'xx':str,'xxx':int}) #通过传入一个字典设置不同列的格式
9.分块读取文件
当数据量过大时,直接使用 pd.read_csv 读取会造成效率过低,使用 chunksize 方法进行分块处理,然后对每一块进行遍历,最后合并输出文件
pd.read_csv('xx.csv',chunksize=100) #每一块有100行
-
Python_pandas读取数据
2021-05-27 19:57:49三种数据文件的读取: 一、csv、tsv、txt 文件读取: 1)CSV文件读取: 语法格式:pandas.read_csv(文件路径) CSV文件内容如下: import pandas as pd file_path = "e:\\pandas_study\\test.csv" content = pd.... -
pandas读取CSV文件时查看修改各列的数据类型格式
2020-09-19 03:30:49主要介绍了pandas读取CSV文件时查看修改各列的数据类型格式,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下 -
python3 pandas 读取MySQL数据和插入的实例
2020-09-09 10:20:46下面小编就为大家分享一篇python3 pandas 读取MySQL数据和插入的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧 -
使用Pandas读取数据(.dat文件)
2020-11-24 06:27:39您可以使用带有列顺序的参数usecols:import pandas as pdfrom pandas.compat import StringIOtemp=u"""TIME XGSM2004 006 01 00 01 37 600 12004 006 01 00 02 32 800 52004 006 01 00 03 28 000 82004 006 01 00 .... -
Pandas 读取和存储外部数据
2020-12-21 22:19:16Pandas 读取和存储数据 目录 读取 csv数据 读取 txt数据 存储 csv 和 txt 文件 读取和存储 json数据 读取和存储 excel数据 一道练习题 参考 Numpy基础(全) Pandas基础(全) 一,读取 CSV 文件: # 文字解析函数: # ... -
pandas分批读取大数据集教程
2020-12-17 15:35:47如果你的电脑内存较小那么想在本地做一些事情是很有局限性的(哭丧脸),比如想拿一个kaggle上面的竞赛来练练手,你会...其实就是使用pandas读取数据集时加入参数chunksize。 可以通过设置chunksize大小分批读入,也 -
python使用pandas读取数据文件
2017-08-30 14:07:05安装sudo pip install pandas或者直接使用pycharm的Setting->Interpreter->Tool直接安装读取csv文件假设我们有如下的数据格式的tests.csv: ID Name Sex Age 1 amy male 12 2 ken female -
pandas读取数据与基本操作
2019-04-18 00:06:04pandas读取数据与基本操作1.读取前几行2.读取后几行3.读取第几个数据4.a.shape显示数据的格式5.a.columns显示全部的列名,a.columns.tolist()将列名转换成列表。 1.读取前几行 用函数 a.head()默认读取文件的前5行... -
Pandas-简介&读取数据方法
2021-11-04 15:47:331.Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。 2.Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。 3.Pandas 一个强大... -
利用pandas读取中文数据集的方法
2020-09-20 05:21:43今天小编就为大家分享一篇利用pandas读取中文数据集的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧 -
python 使用Pandas读取excel数据
2022-06-11 16:30:57python 使用Pandas读取excel数据 -
python Pandas 读取txt表格的实例
2020-12-23 12:30:42运行环境 Python 2.7 操作实例 1.原始文本格式:空格分隔的txt,例如 ...2.pandas 读取数据 import pandas as pd data = pd.read_table('Z:/test.txt',header=None,encoding='gb2312',delim_whitespace= -
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
2020-12-24 14:17:56利用Pandas的read_csv函数导入数据文件时,若文件路径或...以上这篇利用Pandas读取文件路径或文件名称包含中文的csv文件方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持软件开发网。 -
pandas 读取所有表头_使用Pandas读取复杂的Excel数据
2020-11-21 18:04:58关于Excel数据处理,很多同学可能使用过Pyhton的pandas模块,用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱,数据会分散不同的工作表中,而且在表格中分布很乱,这种情况下啊直接使用... -
Python使用pandas读取csv文件支持utf-8和gbk编码自动识别
2019-07-30 09:36:12Python 简单使用 pandas 读取excel 的 csv文件处理,支持utf-8和gbk编码自动识别。 -
python Pandas读取数据
2021-02-04 15:26:28df = pd.read_csv(Fpath) # 使用pd.read_csv读取数据 df.head() #查看前几行数据 df.shape #查看数据的形状返回df的行数和列数 df.columns #查看df的列名 df.index #查看索引列 df.dtypes #查看每列的数据类型 2.... -
用python的pandas读取excel文件中的数据
2021-09-13 20:24:32使用pandas的**read_excel()**方法,可通过文件路径直接读取。注意到,在一个excel文件中有多个sheet,因此,对excel文件的读取实际上是读取指定文件、并同时指定sheet下的数据。可以一次读取一个sheet,也可以... -
pandas读取数据
2022-04-13 14:49:45Pandas 数据结构 - Series pandas.Series( data, index, dtype, name, copy) 参数说明 data:一组数据(ndarray 类型)。 index:数据索引标签,如果不指定,默认从 0 开始。 dtype:数据类型,默认会自己判断。 name... -
pandas读取文件
2021-11-15 20:17:31一、pandas读取文件用法 1、pandas读取xlsx、xls文件 import pandas as pd data=pd.read_excel('path',sheetname='sheet1',header=0,names=['第一列','第二列','第三列']) path:要读取的文件的绝对路径 ... -
python使用pandas读取xlsx数据并存入txt
2022-03-11 21:25:04使用pandas读取xlsx数据并存入txt文件 转换一个文件: import pandas as pd df = pd.read_excel('../data/x/ant_1.5.xlsx',usecols="C,X") # 使用pandas模块读取数据 df['Class']=df['Class'].str.replace('.','/',... -
Python数据分析-使用Pandas从文件中读取数据,并完成相关排序、统计和检索操作
2021-11-23 16:50:13相关知识 ...参数说明 by:指定列名(axis=0或’index’)或索引值(axis=1或’columns’) axis:若axis=0或’index’,则按照指定列中数据大小排序;若axis=1或’columns’,则按照指定索引中数据大小排 -
解决 pandas 读取数据时内存过大的问题
2021-04-17 21:08:27解决 pandas 读取数据时内存过大的问题 背景: 在我们使用pandas进行数据处理的时候,有时候发现文件在本地明明不大,但是用pandas以DataFrame形式加载内存中的时候会占用非常高的内存,这是因为pandas的处理机制... -
pandas读取csv文件提示不存在的解决方法及原因分析
2020-12-20 13:17:30一般情况是数据文件没有在当前路径,那么它是无法读取数据的。另外,如果路径名包含中文它也是无法读取的。 (1)可以选择: import os os.getcwd() 获得当前的工作路径,把你的数据文件放在此路径上就可以了,就...