精华内容
下载资源
问答
  • pandas统计行数,获取字段信息 例题
    千次阅读
    2020-05-12 13:20:09
    • 统计该数据集的行数,将结果存为row_num
    • 获取该数据集的各个字段名称,将结果存为col_array
    • 从该数据集中,读取字段school, sex, age,address 的信息,将结果存为data
    import pandas as pd
    all_data = pd.read_csv('studentmath.csv')
    
    # 统计行数
    row_num = len(all_data)
    
    # 获取各字段名称
    col_array = all_data.columns
    
    # 读取指定字段信息
    data = all_data[['school','sex','age','address']]
    
    print(row_num )
    print(col_array )
    print(data )
    
    更多相关内容
  • 前言Pandas是机器学习三剑客之一,我们知道Numpy能够对数据进行很好的分析、操作、矩阵计算等,Pandas更侧重于数据的处理和分析,它的底层是使用Numpy实现的,在数据处理和分析方面提供了强大的功能。下面就总结一下...

    3b5d927eacc9abf4348488d7467890cc.png

    前言

    Pandas是机器学习三剑客之一,我们知道Numpy能够对数据进行很好的分析、操作、矩阵计算等,Pandas更侧重于数据的处理和分析,它的底层是使用Numpy实现的,在数据处理和分析方面提供了强大的功能。下面就总结一下日常使用操作。

    程序运行环境:window10 Python3.7 (Anaconda) Pandas 1.0.1

    编辑工具:jupyter

    在日常数据分析中,经常使用的是CSV文件,本文也主要记录该文件的相关处理方式。

    (补充:默认的csv文件是以“,”隔开的文本文件,使用excel打开时与xls文件类似)

    相关文档可参考:Pandas中文文档[1] 、Pandas英文文档[2]

    问题

    数据预处理是做数据分析、数据挖掘、机器学习等的第一步。下面以泰坦尼克号乘客信息数据(titanic.csv)数据集做介绍。部分数据展示可参见对应jupyter数据文件。

    通常使用pandas读取数据后会返回一个「DataFrame」数据结构,查看某一列(行)数据的数据类型返回一个「Series」,也就是说DataFrame由Series组成,读取数据是默认把第一行数据当作列名,可将一个DataFrame认为是一个二维数组数据结构。

    # 读取数据
    df = pd.read_csv('titanic.csv')
    print(type(df))       # <class 'pandas.core.frame.DataFrame'>
    # 查看数据
    df.head()             # 通常使用该方法查看前5条数据
    df.tail()             # 通常使用该方式查看最后5条数据情况
    print(type(df['Name']))  # <class 'pandas.core.series.Series'>
    

    「查看数据的基本信息」

    DataFrame提供了info()方法,该方法返回DataFrame数据的样本规模、每列数据信息等。展示如下:

    df.info()
    """
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 891 entries, 0 to 890
    Data columns (total 12 columns):
     #   Column       Non-Null Count  Dtype  
    ---  ------       --------------  -----  
     0   PassengerId  891 non-null    int64  
     1   Survived     891 non-null    int64  
     2   Pclass       891 non-null    int64  
     3   Name         891 non-null    object 
     4   Sex          891 non-null    object 
     5   Age          714 non-null    float64
     6   SibSp        891 non-null    int64  
     7   Parch        891 non-null    int64  
     8   Ticket       891 non-null    object 
     9   Fare         891 non-null    float64
     10  Cabin        204 non-null    object 
     11  Embarked     889 non-null    object 
    dtypes: float64(2), int64
    memory usage: 83.7+ KB
    """
    

    从结果中可以看出,数据891个实体,默认每一行为一个实体,一共12列,每列的信息也有所展示,例如对应的数据类型,object说明该数据类型为字符串,该文件在读到内存的大小等。

    「查看数据的统计信息」

    DataFrame提供了describe()方法,可以查看数据的个数、均值、标准差、最大值、最小值等信息。也可从中看出数据是否存在问题。

    df.describe()
    

    「查看某列各属性个数」

    # 查看是否存活的个数
    df['Survived'].value_counts()
    # 指定按照个数从少到多排序
    df['Survived'].value_counts(ascending=True)
    # 对于其它具有更多类的数据可以分段显示,参数:bins = n,表示将连续的数据分为5组显示
    

    「获取数据的列名」

    df.columns   # columns为其属性,不是一种方法
    """
    Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
           'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
          dtype='object')
    """
    

    「获取数据的索引」

    df.index
    """
    RangeIndex(start=0, stop=891, step=1)
    """
    

    「获取每列数据对应的数据类型」

    df.dtypes
    """
    PassengerId      int64
    Survived         int64
    Pclass           int64
    Name            object
    Sex             object
    Age            float64
    SibSp            int64
    Parch            int64
    Ticket          object
    Fare           float64
    Cabin           object
    Embarked        object
    dtype: object
    """
    

    「将DataFrame数据类型转为Numpy类型」

    df.values  # np.array(df) 也可
    """
    array([[1, 0, 3, ..., 7.25, nan, 'S'],
           [2, 1, 1, ..., 71.2833, 'C85', 'C'],
           [3, 1, 3, ..., 7.925, nan, 'S'],
           ...,
           [889, 0, 3, ..., 23.45, nan, 'S'],
           [890, 1, 1, ..., 30.0, 'C148', 'C'],
           [891, 0, 3, ..., 7.75, nan, 'Q']], dtype=object)
    """
    

    「获取某列数据」

    names = df['Name']   # 获取列名为Name的一列数据
    names[:5]            #  names.values[:5]  # 返回前5行np格式数据
    """
    0                              Braund, Mr. Owen Harris
    1    Cumings, Mrs. John Bradley (Florence Briggs Th...
    2                               Heikkinen, Miss. Laina
    3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
    4                             Allen, Mr. William Henry
    Name: Name, dtype: object
    """
    

    「设置df中某一列为索引」

    df = df.set_index('Name')  # 设置'Name'列为数据的索引
    df.index                   # 查看新索引, 也可使用df.head()查看新的df数据
    """
    Index(['Braund, Mr. Owen Harris',
           'Cumings, Mrs. John Bradley (Florence Briggs Thayer)',
           ...
           'Johnston, Miss. Catherine Helen "Carrie"', 'Behr, Mr. Karl Howell',
           'Dooley, Mr. Patrick'],
          dtype='object', name='Name', length=891)
    """
    

    「通过索引定位某个具体值」

    # 查看名字为"Braund, Mr. Owen Harris"的人存活情况
    survived = df['Survived']            # 获取存活列(已经设置Name为索引列了)
    survived['Braund, Mr. Owen Harris']  
    # 0
    

    「二维数组数据块截取和赋值」

    • 使用列名和行号获取
    # 截取'Age'、'Fare'两列中第1,3,5,7,9行数据(行数从0开始)
    df[['Age', 'Fare']][1:10:2]
    

    「注:」 Name列为索引列,不可截取,或已经有对应关系了。

    • 使用行号和列号获取(切片)
    # 获取第0行数据
    print(df.iloc[0])
    # 获取第0行,前5列数据
    print(df.iloc[0,0:5])
    # 获取 前10中中偶数行,奇数列的数据
    print(df.iloc[0:11:2,1::2])   # 说明0:11:2,从0开始到11,每次2个递增
    
    • 使用标签截取数据
    # 获取名为'Braund, Mr. Owen Harris'行数据,Name已设置为索引
    df.loc['Braund, Mr. Owen Harris']   
    # 获取名为'Braund, Mr. Owen Harris'行中'Survied'属性
    df.loc['Braund, Mr. Owen Harris', 'Survived'] 
    # 也可以使用“:”连接切片开始和结束位置
    df.loc['Braund, Mr. Owen Harris':'Allen, Mr. William Henry']  # 两个姓名索引之间的行
    
    • 对于获取的数据可以使用等号对其进行赋值修改。
    • 根据条件获取数据(使用bool类型)
    # 获取所有年龄大于35的男性的前5条数据的平均年龄
    res_df = df[df['Sex'] == 'male']
    res_df[res_df['Age'] > 35][:5]['Age'].mean()
    

    补充:pandas中对于df还有求平均值,求和等计算方法。

    「创建DataFrame数据」

    通过字典创建DataFrame数据

    # key表示列名,value表示对应列的数据
    data = {'A':[1,2,3],
           'B':['a','b','c']}
    df_create = pd.DataFrame(data)
    

    属性分离创建DataFrame数据

    # 两行数据
    data = [[i for i in range(5)], [i for i in range(5, 10)]]  
    cols_name = [i for i in 'abcde']  # 两列数据对应的列名
    index = ['A', 'B']  # 索引
    df_create = pd.DataFrame(data, index=index, columns=cols_name)
    

    「设置显示数据最大行数」

    pd.get_option('display.max_rows')  # 查看当前能够显示数据最大行数
    pd.set_option('display.max_rows', 10)  # 设置能够显示数据的最大行数
    

    「创建一个Series」

    col = [i for i in range(5)]
    s = pd.Series(data=col)   # 使用默认索引
    # s = pd.Series(data=col,index=[i for i in 'abcde']) # 自定义索引
    

    补充:获取Series值和索引的操作与DataFrame相似,可使用loc、iloc方法,index方法。

    「对某列数据进行+、-、x、等操作」

    # 对Fare的值进行计算
    df['Fare'] = (df['Fare'] + 10 - 5)*2 / 5 
    

    「查看各列数据之间的协方差」

    df.cov()  # 返回各列之间的协方差df
    

    「查看各列数据之间的相关性」

    df.corr()   # 返回各列之间的相关系数df
    

    「合并两个DataFrame」

    • 两个df形状相同,按照共同的索引合并,索引相同
    # 创建两个DF
    df_a = pd.DataFrame({'key':['K0','K1','K2','K3'], 'A':['A0','A1','A2','A3'], 'B':['BO','B1','B2','B3']})
    df_b = pd.DataFrame({'key':['K0','K1','K2','K3'], 'C':['CO','C1','C2','C3'],'D':['DO','D1','D2','D3']})
    res = pd.merge(df_a, df_b, on='key')
    res
    """
    key	A	B	C	D
    0	K0	A0	BO	CO	DO
    1	K1	A1	B1	C1	D1
    2	K2	A2	B2	C2	D2
    3	K3	A3	B3	C3	D3
    """
    
    • 按照共同的索引合并,索引不同,保留相同部分
    df_a = pd.DataFrame({'key1':['K0','K1','K2','K3'], 
                         'key2':['K0','K1','K2','K3'],
                         'A':['A0','A1','A2','A3'],
                         'B':['BO','B1','B2','B3']})
    df_b = pd.DataFrame({'key1':['K0','K1','K2','K3'],
                         'key2':['K0','K1','K2','K4'], 
                         'C':['C0','C1','C2','C3'], 
                         'D':[' DO','D1','D2','D3']})
    res = pd.merge(df_a, df_b, on=['key1', 'key2'])
    print(res)
    # 如果不舍弃不同的部分,添加how='outer',不同的部分用NaN(not a number)填充
    # how='left',以第一个df为准,舍弃第二个df,right类似
    # indicator=True 参数表明显示当前列来自于哪个df
    """
    key1	key2	A	B	C	D
    0	K0	K0	A0	BO	C0	DO
    1	K1	K1	A1	B1	C1	D1
    2	K2	K2	A2	B2	C2	D2
    """
    
    • 纵向合并数据 pd.concat([df1,df2, ...], axis=0, ignore_index=True)重置索引,axis=1则是水平合并,与Numpy有很多相似的地方。
    • 使用join()方法合并操作与merge相类似,可参考官方文档。

    「列数据排序」

    import numpy as np
    key = "abc"
    data = pd.DataFrame({'type': [key[np.random.randint(3)] for i in range(10)], 
                         'data': [np.random.randint(20) for i in range(10)],
                        'others': [np.random.randint(50) for i in range(10)]})
    print(data)
    # 对type、data列进行排序,ascending指定对应列是否升序,inplace确定是否覆盖原来的值
    data.sort_values(by=['type', 'data'], ascending=[True, False], inplace=True)
    data
    

    「数据缺失值处理」

    pandas中缺失值通常使用NaN表示。

    # 创建DataFrame,使用默认的索引已经列名
    data = pd.DataFrame([range(3), [1, np.nan, 2], [1, 2, np.nan]])
    data
    "
    0	1	2
    0	0	1.0	2.0
    1	1	NaN	2.0
    2	1	2.0	NaN
    "
    

    通过isnull()函数判断缺失情况,返回形状和data相同的df,元素为True,False

    查看数据缺失情况(是否有空值)

    data.isnull().any()    # 默认查看的是各列,any(axis=1)查看各行的缺失情况
    "
    0    False
    1     True
    2     True
    dtype: bool
    "
    

    填充指定值

    data.fillna(0)  # 缺失值填充0
    

    「删除重复数据」

    data = pd.DataFrame({'col1':['a']*2 + ['b']*3, 'col2': [1, 1, 2, 2, 3]})
    data.drop_duplicates()
    # 参数 subset='col1' 留下col1列中不重复的数据
    

    「删除有Nan的行或列」

    data.drop_na()  # 参数axis默认为0,删除NaN行 axis=1删除列 参数how默认any,只要存在Nan就删除,all,只有整行或整列时再删除。
    

    「添加新的一列数据」

    data = pd.DataFrame({'col1':['a']*2 + ['b']*3, 'col2': [1, 1, 2, 2, 3]})
    data.assign(rataion = data['col1'] + "-new")  # 新的列名为rataion 添加在最后一列
    

    「使用apply自定义函数」

    data = pd.DataFrame({'score':[np.random.randint(100) for i in range(10) ]})
    def scoreLevel(series):
        if 0 <= series['score']  < 60:
            return "不及格"
        elif series['score'] < 70:
            return "及格"
        elif series['score'] < 80:
            return "中等"
        elif series['score'] < 90:
            return "良好"
        elif series['score'] <= 100:
            return "优秀"
        else:
            return "非法数字"
    data['level'] = data.apply(scoreLevel, axis=1) # 处理对象为行,axis默认为0

    这也是新增一列数据的方法。

    # 统计泰坦尼克号数据各列中的空值个数
    def nan_count(columns):
        columns_null = pd.isnull(columns) # 返回列,对应True、False
        null = columns[columns_null]      # 筛选出当前列中为空的数据
        return len(null)                  # 返回当前列为空数据的个数
    
    df.apply(nan_count)  # 会遍历数据中所有的列(包括索引)
    

    「根据起始时间以及时间间隔创建Series」

    # 开始时间为 2020-03-14 08:00:00,每八小时采集一次数据
    ser = pd.Series(pd.date_range(start='2020-03-14', periods=10, freq='8H'))

    「翻转数据」

    df.T     # 等价于numpy中的矩阵转置 也可使用np.transpose(df)

    「根据条件修改值」

    df[df['Age'] > 80] = 80  # 将年龄大于80的设置为80

    「将数据导出为pickle格式数据」

    df.to_pickle("tantic.pickle")

    「读取pickle格式数据」

    pd.read_pickle('tantic.pickle')

    总结

    Pandas很强大,内容也不仅仅是这么多,就当我们入门啦!

    Reference

    [1] 中文文档: https://www.pypandas.cn/docs/

    [2] Pandas英文文档: https://pandas.pydata.org/docs/index.html

    展开全文
  • 如何获取Pandas数据帧的行数

    千次阅读 2020-12-24 04:40:46
    cs95..52如何获取大熊猫DataFrame的行数?下表总结了您希望在DataFrame(或Series,为了完整起见)中进行计数的不同情况,以及推荐的方法。脚注DataFrame.countSeries由于非空计数随列而异,因此返回每一列的计数。...

    cs95..

    52

    如何获取大熊猫DataFrame的行数?

    下表总结了您希望在DataFrame(或Series,为了完整起见)中进行计数的不同情况,以及推荐的方法。

    脚注

    DataFrame.countSeries由于非空计数随列而异,因此返回每一列的计数。

    DataFrameGroupBy.size返回Series,因为同一组中的所有列共享相同的行数。

    DataFrameGroupBy.count返回一个DataFrame,因为非空计数在同一组的各列之间可能有所不同。要获取特定列的逐组非空计数,请使用df.groupby(...)['x'].count()“ x”为要计数的列。

    最少的代码示例

    下面,我显示上表中描述的每种方法的示例。首先,设置-

    df = pd.DataFrame({

    'A': list('aabbc'), 'B': ['x', 'x', np.nan, 'x', np.nan]})

    s = df['B'].copy()

    df

    A B

    0 a x

    1 a x

    2 b NaN

    3 b x

    4 c NaN

    s

    0 x

    1 x

    2 NaN

    3 x

    4 NaN

    Name: B, dtype: object

    一个数据帧的行数:len(df),df.shape[0]或len(df.index)

    len(df)

    # 5

    df.shape[0]

    # 5

    len(df.index)

    # 5

    比较固定时间操作的性能似乎很愚蠢,尤其是当差异处于“严重不担心”级别时。但这似乎是带有其他答案的趋势,因此为了完整性,我也进行了同样的操作。

    在上述3种方法中,len(df.index)(如其他答案所述)最快。

    注意

    上面的所有方法都是固定时间操作,因为它们是简单的属性查找。

    df.shape(类似于ndarray.shape)是一个返回的元组的属性(# Rows, # Cols)。例如,此处df.shape返回(8,

    2)示例。

    列数一个数据帧的:df.shape[1],len(df.columns)

    df.shape[1]

    # 2

    len(df.columns)

    # 2

    类似于len(df.index),len(df.columns)是这两种方法中比较快的一种(但键入的字符更多)。

    行计数一个系列:len(s),s.size,len(s.index)

    len(s)

    # 5

    s.size

    # 5

    len(s.index)

    # 5

    s.size而len(s.index)即将在速度方面是相同的。但我建议len(df)。

    注意

    size是一个属性,它返回元素数(=任何系列的行数)。DataFrames还定义了一个size属性,该属性返回与相同的结果df.shape[0] * df.shape[1]。

    非空行数:DataFrame.count和Series.count

    此处描述的方法仅计算非空值(表示忽略NaN)。

    调用DataFrame.count将返回每列的非NaN计数:

    df.count()

    A 5

    B 3

    dtype: int64

    对于系列,请使用Series.count类似的效果:

    s.count()

    # 3

    分组行数: GroupBy.size

    对于DataFrames,用于DataFrameGroupBy.size计算每个组的行数。

    df.groupby('A').size()

    A

    a 2

    b 2

    c 1

    dtype: int64

    s.groupby(df.A).size()

    A

    a 2

    b 2

    c 1

    Name: B, dtype: int64

    在两种情况下,Series都将返回a。这也很有意义,DataFrames因为所有组都共享相同的行数。

    按组的非空行计数: GroupBy.count

    与上述类似,但使用GroupBy.count而不是GroupBy.size。请注意,size始终返回a Series,而在特定列上count返回Seriesif,否则返回a DataFrame。

    以下方法返回相同的内容:

    df.groupby('A')['B'].size()

    df.groupby('A').size()

    A

    a 2

    b 2

    c 1

    Name: B, dtype: int64

    同时,count我们有

    df.groupby('A').count()

    B

    A

    a 2

    b 1

    c 0

    ...在整个GroupBy对象v / s上调用

    df.groupby('A')['B'].count()

    A

    a 2

    b 1

    c 0

    Name: B, dtype: int64

    在特定列上调用。

    展开全文
  • 36_Pandas获取行数,列数和元素总数(大小) 如何获取pandas.DataFrame和pandas.Series的行数,列数和总元素(大小)。 pandas.DataFrame 显示行数,列数等:df.info() 获取行数:len(df) 获取列数:len(df....

    36_Pandas获取行数,列数和元素总数(大小)

    如何获取pandas.DataFrame和pandas.Series的行数,列数和总元素(大小)。

    • pandas.DataFrame
      • 显示行数,列数等:df.info()
      • 获取行数:len(df)
      • 获取列数:len(df.columns)
      • 获取行数和列数:df.shape
      • 获取元素总数(大小):df.size
      • 指定index时的注意事项
    • pandas.Series
      • 获取元素总数(大小):len(s),s.size
        将以泰坦尼克号幸存者数据为例。
    import pandas as pd
    
    df = pd.read_csv('./data/36/train.csv')
    
    print(df.head())
    #    PassengerId  Survived  Pclass  \
    # 0            1         0       3
    # 1            2         1       1
    # 2            3         1       3
    # 3            4         1       1
    # 4            5         0       3
    #
    #                                                 Name     Sex   Age  SibSp  \
    # 0                            Braund, Mr. Owen Harris    male  22.0      1
    # 1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1
    # 2                             Heikkinen, Miss. Laina  female  26.0      0
    # 3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1
    # 4                           Allen, Mr. William Henry    male  35.0      0
    #
    #    Parch            Ticket     Fare Cabin Embarked
    # 0      0         A/5 21171   7.2500   NaN        S
    # 1      0          PC 17599  71.2833   C85        C
    # 2      0  STON/O2. 3101282   7.9250   NaN        S
    # 3      0            113803  53.1000  C123        S
    # 4      0            373450   8.0500   NaN        S
    

    pandas.DataFrame

    显示行数,列数等:df.info()

    使用pandas.DataFrame的info()方法,可以显示信息,例如行数/列数,总内存使用量,每列的数据类型以及不缺少值的元素数。

    df.info()
    # <class 'pandas.core.frame.DataFrame'>
    # RangeIndex: 891 entries, 0 to 890
    # Data columns (total 12 columns):
    # PassengerId    891 non-null int64
    # Survived       891 non-null int64
    # Pclass         891 non-null int64
    # Name           891 non-null object
    # Sex            891 non-null object
    # Age            714 non-null float64
    # SibSp          891 non-null int64
    # Parch          891 non-null int64
    # Ticket         891 non-null object
    # Fare           891 non-null float64
    # Cabin          204 non-null object
    # Embarked       889 non-null object
    # dtypes: float64(2), int64(5), object(5)
    # memory usage: 83.6+ KB
    

    结果输出到标准输出,不能作为值获得。

    获取行数:len(df)

    可以使用Python内置函数len()获得pandas.DataFrame中的行数。 在示例中,它与print()一样显示,但是由于len()返回整数值,因此可以将其分配给其他变量或用于计算。

    print(len(df))
    # 891
    

    获取列数:len(df.columns)

    pandas.DataFrame中的列数可以通过将len()应用于columns属性来获得。

    print(len(df.columns))
    # 12
    

    获取行数和列数:df.shape

    可以使用pandas.DataFrame的shape属性按元组(行数,列数)获取行数和列数。

    print(df.shape)
    # (891, 12)
    
    print(df.shape[0])
    # 891
    
    print(df.shape[1])
    # 12
    

    也可以通过解压缩将它们存储在不同的变量中。

    row, col = df.shape
    print(row)
    # 891
    
    print(col)
    # 12
    

    获取元素总数(大小):df.size

    可以使用size属性获取pandas.DataFrame中的元素总数。这等于行数*列数的值。

    print(df.size)
    # 10692
    
    print(df.shape[0] * df.shape[1])
    # 10692
    

    指定index时的注意事项

    如果使用set_index()方法将数据列指定为索引,则该列将从数据主体中删除(值属性),因此不会计入列数。

    df_multiindex = df.set_index(['Sex', 'Pclass', 'Embarked', 'PassengerId'])
    
    print(len(df_multiindex))
    # 891
    
    print(len(df_multiindex.columns))
    # 8
    
    print(df_multiindex.shape)
    # (891, 8)
    
    print(df_multiindex.size)
    # 7128
    

    有关set_index(),请参见以下文章。

    pandas.Series

    从pandas.DataFrame中提取一行作为pandas.Series的示例。

    s = df['PassengerId']
    print(s.head())
    # 0    1
    # 1    2
    # 2    3
    # 3    4
    # 4    5
    # Name: PassengerId, dtype: int64
    

    获取元素总数(大小):len(s),s.size

    由于pandas.Series是一维的,因此可以使用len()或size属性获取元素的总数(大小)。 请注意,shape属性是具有1个元素的元组。

    print(len(s))
    # 891
    
    print(s.size)
    # 891
    
    print(s.shape)
    # (891,)
    

    pandas.Series中没有info()方法。

    展开全文
  • 我想以块的形式分割行并计算此块中的行数.如果行的长度不是6,则删除整个块,否则,保留此块. 我粗略的代码: v1_ls = df.v1.unique() v2_ls = df.v2.unique() for i, j in v1_ls, v2_ls: chunk[i] = df[(df['v1'] == ...
  • import pandas as pd df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 'Income':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000], 'Number'...
  • 我正在处理一个大型文本文件(500k行),其格式如下: S1_A16 0.141,0.009340221649748676 0.141,4.192618196894668E-5 0.11,0.014122135626540204 S1_A17 0.... 编辑 :这与最大行数有关。有谁知道如何容纳更多的行?
  • pandas: 获取Dataframe的行数和列数

    万次阅读 多人点赞 2019-01-20 20:56:22
    返回列数: df.shape[1] 返回行数: df.shape[0] 或者:len(df)  
  • 我正在处理一个大文本文件(500k行),格式如下:S1_A16 0.141,0.009340221649748676 0.141,4.192618196894668E-5 0.11,0.014122135626540204 S1_A17 0....在 编辑: 这与最大行数有关。有人知道如何容纳更多的行吗?在
  • 获取行数,列数,元素个数等 def test(): names = ['c1', 'c2', 'c3', 'c4', 'c5'] df = pd.read_csv("testdata", sep="\t", header=None, names=names) print(df.info()) print("\n") print("len is: ", len(df)) ...
  • Pandas 获得 Dataframe 的行数和列数

    千次阅读 2019-10-15 16:27:38
    输入(DataFrame): 0 1 2 3 4 5 6 7 8 9 10 11 ...1. 计算行数 df.shape[0] 或者: len(df) 或者: len(df.index) 2. 计算列数 df.shape[1] 或者: len(df.columns) ...
  • 【Python茴香豆系列】之 PANDAS 获取 DataFrame 的行数 用 Python 编程,使用不同的方法来完成同一个目标,有时候是一件很有意思的事情。这让我想起鲁迅笔下的孔乙己。孔乙己对于茴香豆的茴字的四种写法颇有研究。我...
  • 1. pandas包括series、dataframeSeriesSeries是一维的数组型对象。Series包含了索引index和值value。比如说:DataFrameDataFrame是矩阵的数组表。DataFrame既有行索引也有列索引,它可以被视为一个共享相同索引的...
  • Python教程之Pandas知识点汇总——查询,索引,基本统计一. 查询与索引1.Series和一维数组的不同:在一维数组中就无法通过索引标签(index)获取数据,index默认是从0开始,步长为1的索引,也可以自己设置索引标签。2....
  • pandas设定最大列数和最大行数

    千次阅读 2021-02-09 09:43:12
    引入pandas import pandas as pd pandas显示八行六列 : #限制 pandas显示的行列数 pd.set_option('max_columns', 8, 'max_rows', 6) airbnb = pd.read_csv('airbnb.csv') airbnb #显示结果 age date_...
  • pandas 调整显示的行数列数

    千次阅读 2018-11-13 09:21:18
    #显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set_option('display.max_rows', None) #设置value的显示长度为100,默认为50 pd.set_option('max_colwidth',100) ...
  • 文章目录pandas 基本操作pandas 描述统计学介绍使用自定义函数介绍使用重置行列标签重置索引重命名标签 pandas 基本操作 pandas 描述统计学 介绍 研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行...
  • 使用agg函数 import pandas as pd data = pd.read_csv('test.csv') df = pd.DataFrame(data) df = df.groupby('date').agg(['size'])
  • 如何获取Dataframe的行数和列数

    万次阅读 多人点赞 2018-07-10 16:36:40
    返回列数:df.shape[1]返回行数:df.shape[0]或者:len(df)示例:import pandas as pd df = pd.DataFrame({'a':[1,2,3],'b':[1,2,3]}) print df print "row,col,row" print df.shape[0],df.shape[1],len...
  • pandas DataFrame是二维的,所以,它既有列索引,又有行索引上一篇里只介绍了列索引:import pandas as pddf = pd.DataFrame({'A': [0, 1, 2], 'B': [3, 4, 5]})print df# 结果:A B0 0 31 1 42 2 5行索引自动生成了 0,1,...
  • import pandas as pd pd.options.display.max_columns = None #列数 pd.options.display.max_rows = None #行数
  • pandas 求 DataFrame 的行数和列数

    千次阅读 2020-05-18 10:46:37
    假设有 dataFrame 叫 df。 1、求行数 法一: len(df) 法二: df.shape[0] 2、求列数 df.shape[1] 以上,问题解决~
  • Pandas 获取 Dataframe 总的行数 和 列数

    千次阅读 2022-02-09 12:35:22
    Pandas 获取 DataFam 总的行数 和 列数 返回列数: df.shape[1] 返回行数: df.shape[0] 或者:len(df)
  • 需求:把一个excel大文件kwd.xlsx按照指定的行数(600行)进行分割,思路如下:1、读取excel,获取到总行数rows(不含表头)2、指定行数split_num,计算rows/split_num并向下取整,得出能按标准分割的次数value3、按照...
  • pandas行数groupby

    2020-09-24 10:02:55
    一个n行的DataFrame,以每十行分一组进行处理。方法是利用index除10然后向下取整,每十行自动分为一组。 df.groupby(lambda x: math.floor(x/10))
  • Pandas---将行内容倒置

    2020-12-23 16:31:07
    将行内容倒置 行倒置,如原先第一行变为倒数第一行 a = pd.DataFrame(np.arange(12).reshape(6,2),columns=['A','B'], index=np.arange(6,0,-1)) A B 6 0 1 5 2 3 4 4 5 3 6 7 2 8 9 ...a['newindex'] = np.arange...
  • python – pandas:获取行的索引值?

    千次阅读 2020-12-04 09:12:15
    我有一个数据帧: cost month para prod_code 040201060AAAIAI 43 2016-01-01 0402 040201060AAAIAJ 45 2016-02-...具体来说,这个问题将在人们谷歌搜索“pandas index of row”而不是“pandas name of series”时发现.
  • 设置pandas数据框显示最大行数

    千次阅读 2019-08-23 15:45:48
    #如果要设置显示200行 #行数 pd.set_option('display.max_rows', 200) #列数 pd.set_option('display.max_columns', 200)
  • df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]}) df.shape # 形状,格式是(行数,列数) df.shape[0] # 行数 ...参考:https://www.geeksforgeeks.org/python-pandas-df-size-df-shape-and-df-ndim/

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,074
精华内容 6,029
关键字:

pandas 行数