精华内容
下载资源
问答
  • pd.read_csv用法

    万次阅读 多人点赞 2019-04-17 22:16:39
    pd.read_csv(filepath_or_buffer, sep=’, ‘, delimiter=None, header=’infer’, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, ...

    pd.read_csv(filepath_or_buffer, sep=’, ‘, delimiter=None, header=’infer’, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression=’infer’, thousands=None, decimal=b’.’, lineterminator=None, quotechar=’”’, quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=None, compact_ints=None, use_unsigned=None, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)

    import numpy as np
    import pandas as pd
    from pandas import DataFrame
    
    filepath="C:\\Users\\zhouy_000\\Desktop\\python_study\\20190417\\test.csv"
    df=pd.read_csv(filepath,header=0,encoding="gbk")
    print(df)
    # =============================================================================
    #    姓名  年龄         出生日  爱好   关系
    # 0  小王  23   1991/10/2  足球   朋友
    # 1  小丽  23   1992/11/2  篮球  NaN
    # 2  小黑  25  1991/10/18  游泳   同学
    # 3  小白  21    1989/9/9  游戏  NaN
    # 4  小红  25    1990/8/7  看剧  NaN
    # 5  小米  24  1991/12/12  足球  NaN
    # 6  大锤  26    1988/9/9  看剧   个人
    # =============================================================================
    df=pd.read_csv(filepath,header=None,encoding="gbk",names=["A","B","C","D","E"],
                   skiprows=1,skipfooter=1,usecols=["A","B","C"],index_col=0,engine="python")
    print(df)
    # =============================================================================
    #      B           C
    # A                 
    # 小王  23   1991/10/2
    # 小丽  23   1992/11/2
    # 小黑  25  1991/10/18
    # 小白  21    1989/9/9
    # 小红  25    1990/8/7
    # 小米  24  1991/12/12
    # 
    # =============================================================================

    重要参数:

    filepath_or_buffer : 路径 URL 可以是http, ftp, s3, 和 file.

    sep: 指定分割符,默认是’,’C引擎不能自动检测分隔符,但Python解析引擎可以

    delimiter: 同sep

    delimiter_whitespace: True or False 默认False, 用空格作为分隔符等价于spe=’\s+’如果该参数被调用,则delimite不会起作用

    header: 指定第几行作为列名(忽略注解行),如果没有指定列名,默认header=0; 如果指定了列名header=None

    names 指定列名,如果文件中不包含header的行,应该显性表示header=None

    index_col: 默认为None 用列名作为DataFrame的行标签,如果给出序列,则使用MultiIndex。如果读取某文件,该文件每行末尾都有带分隔符,考虑使用index_col=False使panadas不用第一列作为行的名称。

    usecols: 默认None 可以使用列序列也可以使用列名,如 [0, 1, 2] or [‘foo’, ‘bar’, ‘baz’],选取的列

    as_recarray:默认False , 将读入的数据按照numpy array的方式存储,0.19.0版本后使用 pd.read_csv(…).to_records()。 注意,这种方式读入的na数据不是显示na,而是给以个莫名奇妙的值

    squeeze: 默认为False, True的情况下返回的类型为Series

    prefix:默认为none, 当header =None 或者没有header的时候有效,例如’x’ 列名效果 X0, X1, …

    mangle_dupe_cols :默认为True,重复的列将被指定为’X.0’…’X.N’,而不是’X’…’X’。如果传入False,当列中存在重复名称,则会导致数据被覆盖。

    dtype: E.g. {‘a’: np.float64, ‘b’: np.int32} 指定数据类型

    engine: {‘c’, ‘python’}, optional 选择读取的引擎目前来说C更快,但是Python的引擎有更多选择的操作

    skipinitialspace: 忽略分隔符后的空格,默认false,

    skiprows: list-like or integer or callable, default None 忽略某几行或者从开始算起的几行

    skipfooter: 从底端算起的几行,不支持C引擎

    nrows: int 读取的行数

    na_values: 默认None NaN包含哪些情况,默认情况下, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’. 都表现为NAN

    keep_default_na: 如果na_values被定义,keep_default_na为False那么默认的NAN会被改写。 默认为True

    na_filter: 默认为True, 针对没有NA的文件,使用na_filter=false能够提高读取效率

    skip_blank_lines 默认为True,跳过blank lines 而且不是定义为NAN

    thousands 千分位符号,默认‘,’

    decimal 小数点符号,默认‘.’

    encoding: 编码方式

    memory_map如果为filepath_or_buffer提供了文件路径,则将文件对象直接映射到内存上,并直接从那里访问数据。使用此选项可以提高性能,因为不再有任何I / O开销。

    low_memory 默认为True 在块内部处理文件,导致分析时内存使用量降低,但可能数据类型混乱。要确保没有混合类型设置为False,或者使用dtype参数指定类型。请注意,不管怎样,整个文件都读入单个DataFrame中,请使用chunksize或iterator参数以块形式返回数据。 (仅在C语法分析器中有效)

    注:与read_excel类似

    参考:https://blog.csdn.net/weixin_39175124/article/details/79434022

    以上,记录本人学习过程。

    展开全文
  • pd.read_csv指定数据类型是非常重要的

    万次阅读 2019-02-01 10:37:51
    指定数据类型的情况下:     不指定数据类型的情况下:        内存爆满,出现异常   分析原因:     由于使用默认的参数设置,数据类型会选64位的,导致内存不够用;... ...

    指定数据类型的情况下:

     

     

    不指定数据类型的情况下: 

     

     

     

    内存爆满,出现异常 

     分析原因:

     

     

    由于使用默认的参数设置,数据类型会选64位的,导致内存不够用;

    数据虽然只有2G多。读取进内存后,数据类型选择不当,17个G都不够用; 

    展开全文
  • 差太远了吧

    差太远了吧

    在这里插入图片描述

    展开全文
  • 详解pandas库pd.read_excel操作读取excel文件参数整理与实例来源:中文源码网浏览: 次日期:2019年11月5日详解pandas库pd.read_excel操作读取excel文件参数整理与实例除了使用xlrd库或者xlwt库进行对excel表格的...

    详解pandas库pd.read_excel操作读取excel文件参数整理与实例

    来源:中文源码网    浏览: 次    日期:2019年11月5日

    详解pandas库pd.read_excel操作读取excel文件参数整理与实例除了使用xlrd库或者xlwt库进行对excel表格的操作读与写,而且pandas库同样支持excel的操作;且pandas操作更加简介方便。

    首先是pd.read_excel的参数:函数为:

    pd.read_excel(io, sheetname=0,header=0,skiprows=None,index_col=None,names=None,

    arse_cols=None,date_parser=None,na_values=None,thousands=None,

    convert_float=True,has_index_names=None,converters=None,dtype=None,

    true_values=None,false_values=None,engine=None,squeeze=False,**kwds)表格数据:

    常用参数解析:

    io :excel 路径;

    In [10]: import pandas as pd

    #定义路径IO

    In [11]: IO = 'example.xls'

    #读取excel文件

    In [12]: sheet = pd.read_excel(io=IO)

    #此处由于sheetname默认是0,所以返回第一个表

    In [13]: sheet

    Out[13]:

    姓名 年龄 出生日 爱好 关系

    0 小王 23 1991-10-02 足球 朋友

    1 小丽 23 1992-11-02 篮球 NaN

    2 小黑 25 1991-10-18 游泳 同学

    3 小白 21 1989-09-09 游戏 NaN

    4 小红 25 1990-08-07 看剧 NaN

    5 小米 24 1991-12-12 足球 NaN

    6 大锤 26 1988-09-09 看剧 个人

    #上述列表返回的结果和原表格存在合并单元格的差异sheetname:默认是sheetname为0,返回多表使用sheetname=[0,1],若sheetname=None是返回全表 。注意:int/string返回的是dataframe,而none和list返回的是dict of dataframe。

    In [7]: sheet = pd.read_excel('example.xls',sheetname= [0,1])

    #参数为None时,返回全部的表格,是一个表格的字典;

    #当参数为list = [0,1,2,3]此类时,返回的多表格同样是字典

    In [8]: sheet

    Out[8]:

    {0: 姓名 年龄 出生日 爱好 关系

    0 小王 23 1991-10-02 足球 朋友

    1 小丽 23 1992-11-02 篮球 NaN

    2 小黑 25 1991-10-18 游泳 同学

    3 小白 21 1989-09-09 游戏 NaN

    4 小红 25 1990-08-07 看剧 NaN

    5 小米 24 1991-12-12 足球 NaN

    6 大锤 26 1988-09-09 看剧 个人, 1: 1 3 5 学生

    0 2 3 4 老师

    1 4 1 9 教授}

    #value是一个多位数组

    In [15]: sheet[0].values

    Out[15]:

    array([['小王', 23, Timestamp('1991-10-02 00:00:00'), '足球', '朋友'],

    ['小丽', 23, Timestamp('1992-11-02 00:00:00'), '篮球', nan],

    ['小黑', 25, Timestamp('1991-10-18 00:00:00'), '游泳', '同学'],

    ['小白', 21, Timestamp('1989-09-09 00:00:00'), '游戏', nan],

    ['小红', 25, Timestamp('1990-08-07 00:00:00'), '看剧', nan],

    ['小米', 24, Timestamp('1991-12-12 00:00:00'), '足球', nan],

    ['大锤', 26, Timestamp('1988-09-09 00:00:00'), '看剧', '个人']], dtype=object)#同样可以根据表头名称或者表的位置读取该表的数据

    #通过表名

    In [17]: sheet = pd.read_excel('example.xls',sheetname= 'Sheet2')

    In [18]: sheet

    Out[18]:

    1 3 5 学生

    0 2 3 4 老师

    1 4 1 9 教授#通过表的位置

    In [19]: sheet = pd.read_excel('example.xls',sheetname= 1)In [20]: sheet

    Out[20]:

    1 3 5 学生

    0 2 3 4 老师

    1 4 1 9 教授header :指定作为列名的行,默认0,即取第一行,数据为列名行以下的数据;若数据不含列名,则设定 header = None;

    #数据不含作为列名的行

    In [21]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None)

    In [22]: sheet

    Out[22]:

    0 1 2 3

    0 1 3 5 学生

    1 2 3 4 老师

    2 4 1 9 教授

    #默认第一行数据作为列名

    In [23]: sheet = pd.read_excel('example.xls',sheetname= 1,header =0)

    In [24]: sheet

    Out[24]:

    1 3 5 学生

    0 2 3 4 老师

    1 4 1 9 教授skiprows:省略指定行数的数据

    In [25]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None,skiprows= 1)

    #略去1行的数据,自上而下的开始略去数据的行

    In [26]: sheet

    Out[26]:

    0 1 2 3

    0 2 3 4 老师

    1 4 1 9 教授skip_footer:省略从尾部数的行数据

    In [27]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None,skip_footer= 1)

    #从尾部开始略去行的数据

    In [28]: sheet

    Out[28]:

    0 1 2 3

    0 1 3 5 学生

    1 2 3 4 老师index_col :指定列为索引列,也可以使用 u'string'

    #指定第二列的数据作为行索引

    In [30]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None,skip_footer= 1,index_col=1)In [31]: sheet

    Out[31]:

    0 2 3

    1

    3 1 5 学生

    3 2 4 老师names:指定列的名字,传入一个list数据

    In [32]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None,skip_footer= 1,index_col=1,names=['a','b','c'])

    ...:In [33]: sheet

    Out[33]:

    a b c

    1

    3 1 5 学生

    3 2 4 老师总体而言,pandas库的pd.read_excel和pd.read_csv的参数比较类似,且相较之前的xlrd库的读表操作更加简单,针对一般批量的数据处理最好选择pandas库操作。但是功能有待完善或者本次研究的不够深入,比如合并单元格的问题,欢迎一起讨论交流。

    以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持中文源码网。

    亲,试试微信扫码分享本页! *^_^*

    展开全文
  • csv_rd = pandas.read_csv(path_features_known_csv, header=None) 功能:将逗号分隔值(csv)文件读入DataFrame 参数:path_features_known_csvcsv文件地址, header: 指定第几行作为列名(忽略注解行), 如果...
  • Python pandas.read_csv()函数

    万次阅读 2017-10-12 16:42:06
    1、首先,介绍csv格式的文件:  CSV文件是一个纯文本文件,最早用在简单的数据库里,其格式简单,具备很强的开放性,非常容易被导入各种PC表格及数据库,比如Excel表格等。  CSV文件中每行相当于一条记录(相当于...
  • pd.read_excel()官方文档 pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, parse_cols=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=...
  • pandas —— pd.read_csv 与df.to_csv

    万次阅读 2016-01-15 08:35:04
    read_csv 中的参数与 DataFrame
  • 0、常用1)读写①从不同文本文件中读取数据的函数,都是read_xxx的形式;写函数则是to_xxx②对前n行感兴趣,或者用于检查读进来的数据的正确性,用head(n)方法;类似的,后n行,用tail(n)——如果不写参数n,将会是n...
  • pandas.read_csv参数详解

    2017-08-14 11:28:07
    pandas.read_csv参数详解  读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html 参数: filepath_or_buffer : str...
  • pandas中to_csv()和read_csv()参数详解

    千次阅读 2018-11-01 13:59:20
    pandas.read_csv参数整理   读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html 参数: filepath_or_buffer&...
  • 在看吴恩达老师的机器学习时,想用python来实现,网上一搜发现了教程,发现以下函数不太懂,于是写博客来记录下:1.read_csv函数这个函数的参数特别多,我只说我用到的。。以这个为例 1.路径:这个没的说,打开文件...
  • 1、pandas 读写 csv 文件 参考链接 ...df = pd.read_csv(os.path.join(csv_dirs, basename), dtype=columns_type, nrows=200000, error_bad_lines=False) dtype 提前声明好每列所属的类型,不...
  • pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default**,** delimiter=None**,** header='infer’, names=NoDefault.no_default**,** index_col=None**,** usecols=None**,** squeeze=False**,** prefix=...
  • pandas.read_csv参数

    2019-09-18 10:49:54
    pandas.read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=’,’, delimiter=None, header=‘infer’, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_...
  • read_csv 函数

    2018-06-04 10:43:00
    pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer: str,pat...
  • 假设您遵循此方案有几个文件:dummy/├── file01.csv├── file02.csv├── file03.csv首先,我们通过创建它们import osimport pandas as pdimport numpy as npimport dask.dataframe as ddfrom dask import ...
  • pandas的read_csv 的参数与 DataFrame

    千次阅读 2018-07-10 19:25:31
    <ul> 对 DataFrame 对象迭代得到的是其各个属性列的列名,自然为 list 类型; ...1. 从文件读取数据返回 data frame ...df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learn...
  • I stumbled upon a little coding ... I have to basically read data from a .csv file which looks a lot like this:2011-06-19 17:29:00.000,72,44,56,0.4772,0.3286,0.8497,31.3587,0.3235,0.9147,28.5751,...
  • 建议文末获取练习素材一个个操作一遍本文大纲我觉得很有必要讲述这个文章,进行...read_excel()函数和read_csv()函数,在参数上面有很多相同点,因此我就以read_excel()函数为例,进行详细的说明。 参数详解1)sheet_...
  • pandas —— pd read csv 与df to csv

    千次阅读 2019-02-08 14:17:49
    pandas —— pd read csv 与df to csv
  • 对于CSV及txt后缀的文本文件,分别使用pandas模块中的read_csv函数和read_table函数 CSV read_csv txt read_table 1. read_table函数的参数 read_table(filepath_or_buffer , sep='\t' , header='infer'...
  • read_csv ( "data_input/TFS_需求清单项目名称.csv" , encoding = 'gbk' ) #完全相同的项目名称去重 TFS_drop_repeat_infor_temp = pd . DataFrame ( columns = [ 'project_code' , 'project_name' ] ) ...
  • 数据挖掘-4.Pandas高级

    千次阅读 2021-11-03 19:36:14
    文章目录pandas高级1 高级处理-缺失值处理学习目标1 如何处理nan2 电影数据的缺失值处理2.1 判断缺失值是否存在2.2 存在缺失值nan,并且是np.nan2.3 ... 高级处理-合并学习目标1 pd.concat实现数据合并2 pd.merge2.1 pd.
  • Python中pd.read_csv()函数用法简单介绍

    万次阅读 多人点赞 2018-04-28 21:45:52
    dl_data.csv文件: ...q_table6 = pd.read_csv('dl_data.csv',encoding = "utf-8",header = 0,names = range(0,50)) 功能:将原来的列索引[-25......25]替换成[0....49]。 介绍:he...
  • 文章目录其他pd.read_table()pd.read_csv()查看文件布局读取参数逐块读取输出文件指定分隔符输出手工处理手工读取手工输出分隔符文件pd.read_excel()读取表写入表写入多张表pd.read_json()JSON字符串转换成Python...
  • 函数read.table是读取矩形格子状数据最为便利的方式。因为实际可能遇到的情况比较多,所以预设了一些函数。这些函数调用了read.table但改变了它的一些默认参数。注意,read.table不是一种有效地读大数值矩阵的方法:...
  • test.csv",index=False) train_df.cutword.head() train_df = pd.read_csv("data/chap7/cnews_train.csv") val_df = pd.read_csv("data/chap7/cnews_val.csv") test_df = pd.read_csv("data/chap7/cnews_test.csv") ...
  • = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/' 'breast-cancer-wisconsin/wdbc. data ', header= None )  # df: data frame  # type ( df ) : <class 'pandas.core.frame. ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,966
精华内容 1,186
关键字:

pd.read_csv返回值