精华内容
下载资源
问答
  • Pandas统计函数

    2019-07-02 14:30:47
    现在我们将学习一些统计函数,可以将这些函数应用到Pandas的对象上。 pct_change()函数 系列,DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较,并计算变化百分比。 import ...

    统计方法有助于理解和分析数据的行为。现在我们将学习一些统计函数,可以将这些函数应用到Pandas的对象上。

    pct_change()函数

    系列,DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较,并计算变化百分比。

    import pandas as pd
    import numpy as np
    s = pd.Series([1,2,3,4,5,4])
    print (s.pct_change())
    
    df = pd.DataFrame(np.random.randn(5, 2))
    print (df.pct_change())
    

    Python

    执行上面示例代码,得到以下结果 -

    0        NaN
    1   1.000000
    2   0.500000
    3   0.333333
    4   0.250000
    5  -0.200000
    dtype: float64
    
                0          1
    0         NaN        NaN
    1  -15.151902   0.174730
    2  -0.746374   -1.449088
    3  -3.582229   -3.165836
    4   15.601150  -1.860434
    

    Shell

    默认情况下,pct_change()对列进行操作; 如果想应用到行上,那么可使用axis = 1参数。

    协方差

    协方差适用于系列数据。Series对象有一个方法cov用来计算序列对象之间的协方差。NA将被自动排除。

    Cov系列示例

    import pandas as pd
    import numpy as np
    s1 = pd.Series(np.random.randn(10))
    s2 = pd.Series(np.random.randn(10))
    print (s1.cov(s2))
    

    Python

    执行上面示例代码,得到以下结果 -

    0.0667296739178
    

    Python

    当应用于DataFrame时,协方差方法计算所有列之间的协方差(cov)值。

    import pandas as pd
    import numpy as np
    frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
    print (frame['a'].cov(frame['b']))
    print (frame.cov())
    

    Python

    执行上面示例代码,得到以下结果 -

    -0.406796939839
              a         b         c         d         e
    a  0.784886 -0.406797  0.181312  0.513549 -0.597385
    b -0.406797  0.987106 -0.662898 -0.492781  0.388693
    c  0.181312 -0.662898  1.450012  0.484724 -0.476961
    d  0.513549 -0.492781  0.484724  1.571194 -0.365274
    e -0.597385  0.388693 -0.476961 -0.365274  0.785044
    

    Shell

    注 - 观察第一个语句中ab列之间的cov结果值,与由DataFrame上的cov返回的值相同。

    相关性

    相关性显示了任何两个数值(系列)之间的线性关系。有多种方法来计算pearson(默认),spearmankendall之间的相关性。

    import pandas as pd
    import numpy as np
    frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
    
    print (frame['a'].corr(frame['b']))
    print (frame.corr())
    

    Python

    执行上面示例代码,得到以下结果 -

    -0.613999376618
              a         b         c         d         e
    a  1.000000 -0.613999 -0.040741 -0.227761 -0.192171
    b -0.613999  1.000000  0.012303  0.273584  0.591826
    c -0.040741  0.012303  1.000000 -0.391736 -0.470765
    d -0.227761  0.273584 -0.391736  1.000000  0.364946
    e -0.192171  0.591826 -0.470765  0.364946  1.000000
    

    Shell

    如果DataFrame中存在任何非数字列,则会自动排除。

    数据排名

    数据排名为元素数组中的每个元素生成排名。在关系的情况下,分配平均等级。

    import pandas as pd
    import numpy as np
    s = pd.Series(np.random.np.random.randn(5), index=list('abcde'))
    
    s['d'] = s['b'] # so there's a tie
    
    print (s.rank())
    

    Python

    执行上面示例代码,得到以下结果 -

    a    4.0
    b    1.5
    c    3.0
    d    1.5
    e    5.0
    dtype: float64
    

     

    Rank可选地使用一个默认为true的升序参数; 当错误时,数据被反向排序,也就是较大的值被分配较小的排序。

    Rank支持不同的tie-breaking方法,用方法参数指定 -

    • average - 并列组平均排序等级
    • min - 组中最低的排序等级
    • max - 组中最高的排序等级
    • first - 按照它们出现在数组中的顺序分配队列

     

    展开全文
  • Pandas 统计函数

    2020-04-04 13:31:04
    现在我们将学习一些统计函数,可以将这些函数应用到Pandas的对象上。 pct_change()函数 系列,DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较,并计算变化百分比。 import ...

    统计方法有助于理解和分析数据的行为。现在我们将学习一些统计函数,可以将这些函数应用到Pandas的对象上。

    pct_change()函数

    系列,DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较,并计算变化百分比。

    import pandas as pd
    import numpy as np
    s = pd.Series([1,2,3,4,5,4])
    print (s.pct_change())
    
    df = pd.DataFrame(np.random.randn(5, 2))
    print (df.pct_change())
    

    执行上面示例代码,得到以下结果 -

    0        NaN
    1   1.000000
    2   0.500000
    3   0.333333
    4   0.250000
    5  -0.200000
    dtype: float64
    
                0          1
    0         NaN        NaN
    1  -15.151902   0.174730
    2  -0.746374   -1.449088
    3  -3.582229   -3.165836
    4   15.601150  -1.860434
    

    默认情况下,pct_change()对列进行操作; 如果想应用到行上,那么可使用axis = 1参数。

    协方差

    协方差适用于系列数据。Series对象有一个方法cov用来计算序列对象之间的协方差。NA将被自动排除。

    Cov系列示例

    import pandas as pd
    import numpy as np
    s1 = pd.Series(np.random.randn(10))
    s2 = pd.Series(np.random.randn(10))
    print (s1.cov(s2))
    

    执行上面示例代码,得到以下结果 -

    0.0667296739178
    

    当应用于DataFrame时,协方差方法计算所有列之间的协方差(cov)值。

    import pandas as pd
    import numpy as np
    frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
    print (frame['a'].cov(frame['b']))
    print (frame.cov())
    

    执行上面示例代码,得到以下结果 -

    -0.406796939839
              a         b         c         d         e
    a  0.784886 -0.406797  0.181312  0.513549 -0.597385
    b -0.406797  0.987106 -0.662898 -0.492781  0.388693
    c  0.181312 -0.662898  1.450012  0.484724 -0.476961
    d  0.513549 -0.492781  0.484724  1.571194 -0.365274
    e -0.597385  0.388693 -0.476961 -0.365274  0.785044
    

     

    注 - 观察第一个语句中ab列之间的cov结果值,与由DataFrame上的cov返回的值相同。

    相关性

    相关性显示了任何两个数值(系列)之间的线性关系。有多种方法来计算pearson(默认),spearmankendall之间的相关性。

    import pandas as pd
    import numpy as np
    frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
    
    print (frame['a'].corr(frame['b']))
    print (frame.corr())
    

    执行上面示例代码,得到以下结果 -

    -0.613999376618
              a         b         c         d         e
    a  1.000000 -0.613999 -0.040741 -0.227761 -0.192171
    b -0.613999  1.000000  0.012303  0.273584  0.591826
    c -0.040741  0.012303  1.000000 -0.391736 -0.470765
    d -0.227761  0.273584 -0.391736  1.000000  0.364946
    e -0.192171  0.591826 -0.470765  0.364946  1.000000
    

    如果DataFrame中存在任何非数字列,则会自动排除。

    数据排名

    数据排名为元素数组中的每个元素生成排名。在关系的情况下,分配平均等级。

    import pandas as pd
    import numpy as np
    s = pd.Series(np.random.np.random.randn(5), index=list('abcde'))
    
    s['d'] = s['b'] # so there's a tie
    
    print (s.rank())
    

    执行上面示例代码,得到以下结果 -

    a    4.0
    b    1.5
    c    3.0
    d    1.5
    e    5.0
    dtype: float64
    

    Rank可选地使用一个默认为true的升序参数; 当错误时,数据被反向排序,也就是较大的值被分配较小的排序。

    Rank支持不同的tie-breaking方法,用方法参数指定 -

    • average - 并列组平均排序等级
    • min - 组中最低的排序等级
    • max - 组中最高的排序等级
    • first - 按照它们出现在数组中的顺序分配队列
    展开全文
  • pandas 统计函数

    2019-07-05 19:04:20
    np.random.seed(1234) d1 = pd.Series(2*np.random.normal(size = 100)+3) d2 = np.random.f(2,4,size = 100) d3 = np.random.randint(1,100,size = 100) ...d1.describe() #一次性输出多个描述性统计指标
    1. np.random.seed(1234)
    2. d1 = pd.Series(2*np.random.normal(size = 100)+3)
    3. d2 = np.random.f(2,4,size = 100)
    4. d3 = np.random.randint(1,100,size = 100)
    5.  
    6. d1.count() #非空元素计算
    7. d1.min() #最小值
    8. d1.max() #最大值
    9. d1.idxmin() #最小值的位置,类似于R中的which.min函数
    10. d1.idxmax() #最大值的位置,类似于R中的which.max函数
    11. d1.quantile(0.1) #10%分位数
    12. d1.sum() #求和
    13. d1.mean() #均值
    14. d1.median() #中位数
    15. d1.mode() #众数
    16. d1.var() #方差
    17. d1.std() #标准差
    18. d1.mad() #平均绝对偏差
    19. d1.skew() #偏度
    20. d1.kurt() #峰度
    21. d1.describe() #一次性输出多个描述性统计指标
    展开全文
  • Pandas统计函数整理

    2019-09-09 11:25:19
    Pandas三个数据对象的轴参数 Series: 没有轴参数 DataFrame: “index” (axis=0, default),“columns” (axis=1) Panel: “items” (axis=0),“major”...统计函数及描述 Function Description 描述 count...

    Pandas三个数据对象的轴参数

    Series: 没有轴参数
    DataFrame: “index” (axis=0, default),“columns” (axis=1)
    Panel: “items” (axis=0),“major” (axis=1, default), “minor” (axis=2)

    统计函数及描述

    FunctionDescription描述
    countNumber of non-null observations观测值的个数
    sumSum of values求和
    meanMean of values求平均值
    madMean absolute deviation平均绝对方差
    medianArithmetic median of values中位数
    minMinimum最小值
    maxMaximum最大值
    argminCalculate the index position (integer) that can get the minimum value计算能够获取到最小值的索引位置(整数)
    argmaxCalculate the index position where the maximum value can be obtained计算能够获取到最大值的索引位置
    idxminRow index of each column minimum每列最小值的行索引
    idxmaxRow index of the maximum value per column每列最大值的行索引
    modeMode众数
    absAbsolute Value绝对值
    prodProduct of values乘积
    stdBessel-corrected sample standard deviation标准差
    varUnbiased variance方差
    semStandard error of the mean标准误
    skewSample skewness (3rd moment)偏度系数
    kurtSample kurtosis (4th moment)峰度
    quantileSample quantile (value at %)分位数
    cumsumCumulative sum累加
    cumprodCumulative product累乘
    cummaxCumulative maximum累最大值
    cumminCumulative minimum累最小值
    cov()covariance协方差
    corr()correlation相关系数
    rank()rank by values排名
    pct_change()time change时间序列变化
    展开全文
  • pandas 统计函数[corr,scatter_matrix]

    万次阅读 2018-09-22 12:11:36
    pandas.plotting.scatter_matrix(frame, alpha=0.5, figsize=None, ax=None, grid=False, diagonal=‘hist’, marker=’.’, density_kwds=None, hist_kwds=None, range_padding=0.05, **kwds) 画任意两列数值属性...
  • import pandas as pd df1=pd.DataFrame() df2=pd.DataFrame() df1['name']=['a','b','c','d','e','f','g'] df2['name']=['a','b','c','d','e','f'] df1['class']=['1','1','2','2','1','2','2'] df2['grade_state']=...
  • import pandas as pd df = pd.read_csv("D:/python基础课程/pandas/ant-learn-pandas/datas/beijing_tianqi/beijing_tianqi_2018.csv", encoding="utf8", engine="python") print(df.head(5)) df.loc[:, "bWendu...
  • pandas小记:pandas汇总统计函数

    万次阅读 2014-05-12 15:37:21
    http://blog.csdn.net/pipisorry/article/details/25625799汇总和计算描述统计:统计函数pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从Series中提取的个值(如sum或mean)或从...
  • Pandas函数之统计函数

    2019-11-27 09:12:40
    文章目录基本统计函数高级统计函数部分一部分二 基本统计函数 函数 描述 sum() 所有值的和,默认对列操作 count() 非空的数量,默认对列操作 mean() 平均值,默认对列操作 median() 中位数,默认对列...
  • Pandas 描述统计函数.pdf
  • Pandas数据统计函数

    2020-07-14 20:26:03
    5.Pandas数据统计函数 @汇总类统计 @唯一去重和按值计数 @相关系数和协方差 演示: import pandas as pd fpath="路径" df=pd.read_csv(fpath) #替换符号 df.loc[:,"索引列名"]=df["索引列名"].str.replace["C",""]...
  • Pandas统计特征函数

    千次阅读 2017-12-01 18:06:10
    这些统计特征函数能反映出数据的整体分布,主要作为Pandas的对象DataFrame或Series的方法出现。 sum():计算数据样本的总和(按列计算) mean():计算数据样本的算术平均数 var():计算数据样本的方差 std():...
  • Pandas统计函数与apply

    千次阅读 2018-04-14 00:08:26
    import numpy as np import pandas as pd ...一、统计函数 方法 说明 count 非NA值的数量 describe 针对Series或各DataFrame列计算汇总统计 min、max 计算最小值和最大值 argmin、arg...
  • Pandas 描述统计函数

    千次阅读 2017-03-23 21:23:23
    Pandas中三个对象的轴参数规定如下: Series: 没有轴参数 DataFrame: “index” (axis=0, default), “columns” (axis=1) Panel: “items” (axis=0), “major” (axis=1, default), “minor” (axis=2) 统计...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 32,252
精华内容 12,900
关键字:

pandas统计函数