精华内容
下载资源
问答
  • R语言分组计算描述性统计量 在上一篇博客中介绍了如何计算数据整体的描述性统计量,点击查看。这里将注重介绍如何分组计算描述性统计量,介绍两个函数:aggregate()、dexcribe.by() 1、aggregate 这个函数的功能比较...
  • R语言描述性统计

    千次阅读 2018-10-07 21:47:41
    R语言描述性统计 在做数据分析时,一般先会对数据进行描述性统计分析,以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。 集中趋势统计量: 均值...

    R语言描述性统计

    在做数据分析时,一般先会对数据进行描述性统计分析,以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。

    集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数

    离散趋势统计量:标准差(sd)、方差(var)、极差(range)、变异系数(CV)、标准误、样本校正平方和(CSS)、样本未校正平方和(USS)

    分布情况统计量:偏度、峰度

    统计量 函数
    均值 mean(x, …);mean(x, trim = 0, na.rm = FALSE, …)
    中位数 median(x, …);median(x, trim = 0, na.rm = FALSE, …)
    频数 table(x, …)
    众数 which.max(table(x))
    五数/描述统计 summary(x, …);fivenum(x, …)
    方差 var(x, na.rm = FALSE)
    标准差 sd(x, na.rm = FALSE)
    偏度 需要先加载moments包或fBasic包,再用函数skewness()
    峰度 需要先加载moments包或fBasic包,再用函数kurtosis()
    极差 range(…, na.rm = FALSE)

    注:

    • trim可设为(0,0.5)之间的值,表示删除x的最大和最小百分几的数,然后对剩下数进行计算,得到的平均值为截尾均值;na.rm表示计算前是否删除NA值
    • summary()与fivenum()计算得出的第一四分位和第三四分位可能会略有不同,原因如下:
      fivenum()是从所有数中找出小于中位数的数,将这些数的中位数设为第一四分位;同理,从所有数中找出大于中位数的数,将这些数的中位数设为第三四分位。因此 fivenum()得到的第一四分位和第三四分位分别被称为四分位低值、四分位高值。
    • 偏度衡量数据的对称性。
      在这里插入图片描述
      若为负,则数据均值左侧的离散度比右侧强,左偏;若为正,则数据均值左侧的离散度比右侧弱,右偏。
      左偏、右偏
    • 峰度 研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。峰值越大,分布越陡峭。
      在这里插入图片描述
      正态分布的峰度系数为3,而均匀分布的峰度为1.8(但是SPSS等软件为了方便比较,先将峰度减去3处理,再将正态分布峰度值定为0)。
      当峰度系数>0,从形态上看,它相比于正态分布要更陡峭或尾部更厚;而峰度系数<0,从形态山看,则它相比于正态分布更平缓或尾部更薄。在实际环境当中,如果一个分部是厚尾的,这个分布往往比正态分布的尾部具有更大的“质量”,即含又更多的极端值。
      在这里插入图片描述
      拉帕拉斯(D),双曲正割(S),逻辑斯底(L)分布的峰度系数均大于0,且他们的峰更陡峭,同时尾部也更厚。而像升余弦©分布,半圆形(W)分布,以及均匀分布U则是峰度系数<0
    • 极差(Range): 描述样本分散性的数字特征.当数据越分散,其极差越大,R函数语法: range(…, na.rm = FALSE),计算公式为:
      在这里插入图片描述
    • 变异系数(CV): 又称离散系数,是刻划数据相对分散性的一种度量,它是一个无量钢的量,用百分数表示,R无对应函数,计算公式为:
      在这里插入图片描述
    • 样本校正平方和(CSS):无R函数,计算公式:
      在这里插入图片描述
    • 样本未校正平方和(USS): 无R函数,计算公式:
      在这里插入图片描述
    • 四分位差(quartile deviation):也称为内距或四分间距(inter-quartile range),它是上四分位数(QL)与下四分位数(QU)之差,通常用Qd表示。计算公式为:
      在这里插入图片描述
    • 标准误:均值标准误差就是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量,计算公式为:
      在这里插入图片描述
    展开全文
  • R语言描述性统计函数总结

    万次阅读 2019-08-01 16:24:07
    1, 使用summary()函数来获取描述性统计量 summary()函数提供了最大值,最小值,四分位数和数值型变量的均值以及因子向量和逻辑向量的频数统计 例子 myvars <- c("mpg","hp","wt") summary(mtcars[myvars]) mpg ...

    描述性统计
    1, 使用summary()函数来获取描述性统计量
    summary()函数提供了最大值,最小值,四分位数和数值型变量的均值以及因子向量和逻辑向量的频数统计
    例子

    myvars <- c("mpg","hp","wt")
    summary(mtcars[myvars])
          mpg              hp              wt       
     Min.   :10.40   Min.   : 52.0   Min.   :1.513  
     1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581  
     Median :19.20   Median :123.0   Median :3.325  
     Mean   :20.09   Mean   :146.7   Mean   :3.217  
     3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610  
     Max.   :33.90   Max.   :335.0   Max.   :5.424  
    

    2, 使用apply()函数或sapply()函数计算所选择的任意一个描述性统计量
    sapply()函数的格式为
    sapply(x,FUN, options)
    参数x为数据框或矩阵,FUN为一个任意的函数。
    options为函数FUN需要的参数,如果不需要参数也可以不写

    典型的描述性统计函数有mean(), sd(), var(), min(), max(), median(), length(), range(), quantile()及可以返回图基五数总括(即最小值,下四分位数,中位数,上四分位数,最大值)的函数fivenum()
    注意基础安装的函数没有提供偏度和峰度的计算函数

    自定义描述性统计函数

    > mystats <- function(x,na.omit=FALSE)
    + {
    +               if(na.omit)
    +                 x <- x[!is.na(x)]
    +               m <- mean(x)
    +               n <- length(x)
    +               s <- sd(x)
    +               #计算偏度
    +               skew <- sum((x-m)^3/s^3)/n
    +               #计算峰度
    +               kurt <- sum((x-m)^4/s^4)/n-3
    +               return(c(n=n,mean=m,stdev=s,skew=skew,kurtosis=kurt))
    + }
    > sapply(mtcars[myvars],mystats)
                   mpg          hp          wt
    n        32.000000  32.0000000 32.00000000
    mean     20.090625 146.6875000  3.21725000
    stdev     6.026948  68.5628685  0.97845744
    skew      0.610655   0.7260237  0.42314646
    kurtosis -0.372766  -0.1355511 -0.02271075
    > apply(mtcars[myvars],2,mystats)
                   mpg          hp          wt
    n        32.000000  32.0000000 32.00000000
    mean     20.090625 146.6875000  3.21725000
    stdev     6.026948  68.5628685  0.97845744
    skew      0.610655   0.7260237  0.42314646
    kurtosis -0.372766  -0.1355511 -0.02271075
    

    3, 通过Hmisc包中的describe()函数计算描述性统计量
    Hmisc包中的describe()函数可返回变量和观测的数量,缺失值,唯一值的数目,Info(关于变量的连续性的统计量),Gmd(基尼均差),平均值,分位数以及五个最大的值和五个最小的值
    例子

    > library(Hmisc)
    > Hmisc::describe(mtcars[myvars])
    mtcars[myvars] 
    
     3  Variables      32  Observations
    ------------------------------------------------------------------------------------------
    mpg 
           n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
          32        0       25    0.999    20.09    6.796    12.00    14.34    15.43    19.20 
         .75      .90      .95 
       22.80    30.09    31.30 
    
    lowest : 10.4 13.3 14.3 14.7 15.0, highest: 26.0 27.3 30.4 32.4 33.9
    ------------------------------------------------------------------------------------------
    hp 
           n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
          32        0       22    0.997    146.7    77.04    63.65    66.00    96.50   123.00 
         .75      .90      .95 
      180.00   243.50   253.55 
    
    lowest :  52  62  65  66  91, highest: 215 230 245 264 335
    ------------------------------------------------------------------------------------------
    wt 
           n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
          32        0       29    0.999    3.217    1.089    1.736    1.956    2.581    3.325 
         .75      .90      .95 
       3.610    4.048    5.293 
    
    lowest : 1.513 1.615 1.835 1.935 2.140, highest: 3.845 4.070 5.250 5.345 5.424
    ------------------------------------------------------------------------------------------
    > 
    

    4, pastecs包中有一个名为stat.desc()函数可以计算描述性统计量
    其格式为
    stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
    参数x 是一个数据框或时间序列
    参数basic=TRUE(默认值),则计算其中的所有值,空值,缺失值的数量以及最小值,最大值,值域,合计
    参数desc=TRUE(默认值)则计算中位数,平均数,平均数的标准误差,平均数置信度为0.95的置信区间,方程,标准差,以及变异系数。
    参数norm=FALSE,若norm=TRUE则返回正太分布统计量,包括偏度和峰度(以及它们的统计显著程度)和shapiro-wilk正态检验结果。
    参数p值用来设置计算平均数的置信区间(默认的置信度为0.95)
    例子

    > stat.desc(mtcars[myvars])
                         mpg           hp          wt
    nbr.val       32.0000000   32.0000000  32.0000000
    nbr.null       0.0000000    0.0000000   0.0000000
    nbr.na         0.0000000    0.0000000   0.0000000
    min           10.4000000   52.0000000   1.5130000
    max           33.9000000  335.0000000   5.4240000
    range         23.5000000  283.0000000   3.9110000
    sum          642.9000000 4694.0000000 102.9520000
    median        19.2000000  123.0000000   3.3250000
    mean          20.0906250  146.6875000   3.2172500
    SE.mean        1.0654240   12.1203173   0.1729685
    CI.mean.0.95   2.1729465   24.7195501   0.3527715
    var           36.3241028 4700.8669355   0.9573790
    std.dev        6.0269481   68.5628685   0.9784574
    coef.var       0.2999881    0.4674077   0.3041285
    > stat.desc(mtcars[myvars],norm = TRUE)
                         mpg            hp           wt
    nbr.val       32.0000000   32.00000000  32.00000000
    nbr.null       0.0000000    0.00000000   0.00000000
    nbr.na         0.0000000    0.00000000   0.00000000
    min           10.4000000   52.00000000   1.51300000
    max           33.9000000  335.00000000   5.42400000
    range         23.5000000  283.00000000   3.91100000
    sum          642.9000000 4694.00000000 102.95200000
    median        19.2000000  123.00000000   3.32500000
    mean          20.0906250  146.68750000   3.21725000
    SE.mean        1.0654240   12.12031731   0.17296847
    CI.mean.0.95   2.1729465   24.71955013   0.35277153
    var           36.3241028 4700.86693548   0.95737897
    std.dev        6.0269481   68.56286849   0.97845744
    coef.var       0.2999881    0.46740771   0.30412851
    skewness       0.6106550    0.72602366   0.42314646
    skew.2SE       0.7366922    0.87587259   0.51048252
    kurtosis      -0.3727660   -0.13555112  -0.02271075
    kurt.2SE      -0.2302812   -0.08373853  -0.01402987
    normtest.W     0.9475647    0.93341934   0.94325772
    normtest.p     0.1228814    0.04880824   0.09265499
    > 
    

    5, 使用psych包中的describe()函数进行描述性统计
    它可以计算非缺失值的数量,平均数,标准差中位数,截尾均值,绝对中位差,最小值,最大值,值域,偏度,峰度和平均值的标准误差
    例子:

     library(psych)
    > myvars <- c("mpg","hp","wt")
    > describe(mtcars[myvars])
        vars  n   mean    sd median trimmed   mad   min    max  range skew kurtosis    se
    mpg    1 32  20.09  6.03  19.20   19.70  5.41 10.40  33.90  23.50 0.61    -0.37  1.07
    hp     2 32 146.69 68.56 123.00  141.19 77.10 52.00 335.00 283.00 0.73    -0.14 12.12
    wt     3 32   3.22  0.98   3.33    3.15  0.77  1.51   5.42   3.91 0.42    -0.02  0.17
    > 
    

    6, 分组计算描述性统计量
    (1),可以通过函数aggregate()函数来进行分组获取描述性统计量
    但是aggregate()函数仅允许在每次调用中使用平均数,标准差这种单返回函数,它无法一次返回若干个统计量
    注意对于函数aggregate()它的参数by=list(),可以对用来分组的列进行命名,如果不进行命名,则列自动命名为group.1,这样的名字,例如list(am=mtcarsam)使使list(mtcarsam)的使用,如果使用的是list(mtcarsam),则am列将被标注为group.1而不是am。
    例子

    aggregate(mtcars[myvars],by=list(am=mtcars$am),mean)
      am      mpg       hp       wt
    1  0 17.14737 160.2632 3.768895
    2  1 24.39231 126.8462 2.411000
    

    (2),使用by()函数进行分组获取描述性统计量
    by()函数的功能和aggregate()函数的功能相同,但是by()函数可以一次性的返回多个描述性统计量
    其格式为
    by(data,indices,fun)
    参数data是一个数据框或矩阵,indices是一个因子或因子组成的列表,定义了分组,FUN是任一函数
    例子

    dstats <- function(x)sapply(x,mystats)
    > myvars <- c("mpg","hp","wt")
    > by(mtcars[myvars],mtcars$am,dstats)
    mtcars$am: 0
                     mpg           hp         wt
    n        19.00000000  19.00000000 19.0000000
    mean     17.14736842 160.26315789  3.7688947
    stdev     3.83396639  53.90819573  0.7774001
    skew      0.01395038  -0.01422519  0.9759294
    kurtosis -0.80317826  -1.20969733  0.1415676
    ------------------------------------------------------------------- 
    mtcars$am: 1
                     mpg          hp         wt
    n        13.00000000  13.0000000 13.0000000
    mean     24.39230769 126.8461538  2.4110000
    stdev     6.16650381  84.0623243  0.6169816
    skew      0.05256118   1.3598859  0.2103128
    kurtosis -1.45535200   0.5634635 -1.1737358
    

    (3),doBy包和psych包中也提供了分组计算的描述性统计量的函数
    doBy保中的summaryBy()函数的使用格式为:
    summaryBy(formula,data=dataframe,FUN=function)
    其中formula的格式为
    var1 + var2 + var3+…~groupvar1 + groupvar2 + …
    左侧是需要分析的数值型变量,右侧是进行分组的类别型变量,function为任何内建或用户自定义的函数
    summaryBy()函数和by函数的作用一样只是格式不一样
    例子

     myvars <- c("mpg","hp","wt")
    > summaryBy(mpg+hp+wt~am,data=mtcars,FUN=mystats)
      am mpg.n mpg.mean mpg.stdev   mpg.skew mpg.kurtosis hp.n  hp.mean hp.stdev     hp.skew
    1  0    19 17.14737  3.833966 0.01395038   -0.8031783   19 160.2632 53.90820 -0.01422519
    2  1    13 24.39231  6.166504 0.05256118   -1.4553520   13 126.8462 84.06232  1.35988586
      hp.kurtosis wt.n  wt.mean  wt.stdev   wt.skew wt.kurtosis
    1  -1.2096973   19 3.768895 0.7774001 0.9759294   0.1415676
    2   0.5634635   13 2.411000 0.6169816 0.2103128  -1.1737358
    

    psych包中的describeBy()函数可以计算和describe()函数相同的描述性统计量,
    其格式与aggregate()函数很相似只是没有指定FUN函数作用也类似。
    例子

    library(psych)
    > describeBy(mtcars[myvars],list(am=mtcars$am))
    
     Descriptive statistics by group 
    am: 0
        vars  n   mean    sd median trimmed   mad   min    max  range  skew kurtosis    se
    mpg    1 19  17.15  3.83  17.30   17.12  3.11 10.40  24.40  14.00  0.01    -0.80  0.88
    hp     2 19 160.26 53.91 175.00  161.06 77.10 62.00 245.00 183.00 -0.01    -1.21 12.37
    wt     3 19   3.77  0.78   3.52    3.75  0.45  2.46   5.42   2.96  0.98     0.14  0.18
    ------------------------------------------------------------------- 
    am: 1
        vars  n   mean    sd median trimmed   mad   min    max  range skew kurtosis    se
    mpg    1 13  24.39  6.17  22.80   24.38  6.67 15.00  33.90  18.90 0.05    -1.46  1.71
    hp     2 13 126.85 84.06 109.00  114.73 63.75 52.00 335.00 283.00 1.36     0.56 23.31
    wt     3 13   2.41  0.62   2.32    2.39  0.68  1.51   3.57   2.06 0.21    -1.17  0.17
    

    总结:R软件自带的描述性统计函数为summary()但是它不能计算数据的偏度和峰度
    psych包中的descrebe()函数含有大部分统计性函数而且相对于summary()函数也包括其没有的数据的偏度和峰度
    by()函数可以进行分组计算描述性统计
    psych包中的describeBy()函数也可以分组计算描述性统计但是它不指定统计函数,其返回结果和describeBy()中包含的函数是一样的只是进行了分组计算

    展开全文
  • R语言描述性统计量

    千次阅读 2015-08-18 22:02:04
    解释:一个变量取值在1,2,3,4,5可以根据这个变量分为5组进行描述性统计量可以值均值、方差,可以是多个变量进行分组 > aggregate(mtcars[vars],by=list(carb=mtcars$carb),mean)  carb mpg hp wt 1 1 25....

    1.导入pastecs包

    stat.desc(mtcars[vars])

                         mpg           hp          wt
    nbr.val       32.0000000   32.0000000  32.0000000
    nbr.null       0.0000000    0.0000000   0.0000000
    nbr.na         0.0000000    0.0000000   0.0000000
    min           10.4000000   52.0000000   1.5130000
    max           33.9000000  335.0000000   5.4240000
    range         23.5000000  283.0000000   3.9110000
    sum          642.9000000 4694.0000000 102.9520000
    median        19.2000000  123.0000000   3.3250000
    mean          20.0906250  146.6875000   3.2172500
    SE.mean        1.0654240   12.1203173   0.1729685
    CI.mean.0.95   2.1729465   24.7195501   0.3527715
    var           36.3241028 4700.8669355   0.9573790
    std.dev        6.0269481   68.5628685   0.9784574
    coef.var       0.2999881    0.4674077   0.3041285

    所有值、空值、缺失值、最小、最大、值域(范围)、总和、中位数、均值、均值标准误、均值置信度95%的置信区间、方差、标准差及变异系数

    也可以导入psych包用describe来查看更详细的描述性统计量

    > describe(mtcars[vars])
        vars  n   mean    sd median trimmed   mad   min    max  range skew
    mpg    1 32  20.09  6.03  19.20   19.70  5.41 10.40  33.90  23.50 0.61
    hp     2 32 146.69 68.56 123.00  141.19 77.10 52.00 335.00 283.00 0.73
    wt     3 32   3.22  0.98   3.33    3.15  0.77  1.51   5.42   3.91 0.42
        kurtosis    se
    mpg    -0.37  1.07
    hp     -0.14 12.12
    wt     -0.02  0.17

    2.分组计算描述性统计量

    解释:一个变量取值在1,2,3,4,5可以根据这个变量分为5组进行描述性统计量可以值均值、方差,可以是多个变量进行分组

    > aggregate(mtcars[vars],by=list(carb=mtcars$carb),mean)
      carb      mpg    hp     wt
    1    1 25.34286  86.0 2.4900
    2    2 22.40000 117.2 2.8628
    3    3 16.30000 180.0 3.8600
    4    4 15.79000 187.0 3.8974
    5    6 19.70000 175.0 2.7700
    6    8 15.00000 335.0 3.5700
    > mtcars$carb
     [1] 4 4 1 1 2 1 4 2 2 4 4 3 3 3 4 4 4 1 2 1 1 2 2 4 2 1 2 2 4 6 8 2
    > aggregate(mtcars[vars],by=list(carb=mtcars$carb,am=mtcars$am),mean)
      carb am      mpg       hp       wt
    1    1  0 20.33333 104.0000 3.046667
    2    2  0 19.30000 134.5000 3.430000
    3    3  0 16.30000 180.0000 3.860000
    4    4  0 14.30000 198.0000 4.329857
    5    1  1 29.10000  72.5000 2.072500
    6    2  1 27.05000  91.2500 2.012000
    7    4  1 19.26667 161.3333 2.888333
    8    6  1 19.70000 175.0000 2.770000
    9    8  1 15.00000 335.0000 3.570000

    导入reshape包

    library("reshape", lib.loc="D:/rInstall/R-3.2.1/library")
    > dstats <- function(x)(c(n=length(x),mean=mean(x),sd=sd(x)))
    > dfm <- melt(mtcars,measure.vars = c("mpg","hp","wt"),id.vars = c("am","cyl"))
    > cast(dfm,am+cyl+variable~.,dstats)
       am cyl variable  n       mean         sd
    1   0   4      mpg  3  22.900000  1.4525839
    2   0   4       hp  3  84.666667 19.6553640
    3   0   4       wt  3   2.935000  0.4075230
    4   0   6      mpg  4  19.125000  1.6317169
    5   0   6       hp  4 115.250000  9.1787799
    6   0   6       wt  4   3.388750  0.1162164
    7   0   8      mpg 12  15.050000  2.7743959
    8   0   8       hp 12 194.166667 33.3598379
    9   0   8       wt 12   4.104083  0.7683069
    10  1   4      mpg  8  28.075000  4.4838599
    11  1   4       hp  8  81.875000 22.6554156
    12  1   4       wt  8   2.042250  0.4093485
    13  1   6      mpg  3  20.566667  0.7505553
    14  1   6       hp  3 131.666667 37.5277675
    15  1   6       wt  3   2.755000  0.1281601
    16  1   8      mpg  2  15.400000  0.5656854
    17  1   8       hp  2 299.500000 50.2045815
    18  1   8       wt  2   3.370000  0.2828427

    measure.vars = c("mpg","hp","wt")为变量,id.vars = c("am","cyl")为分组。

    3.频数

    table(),频数检测主要用于类别型变量(即名义型变量)

    4.独立性检测

    独立性主要用于检测变量之间是否存在独立性

    当p-value<0.01说明变量之间存在某种关系,当p-value>0.05,不存在关系(即独立)

    卡方独立性检测

    > mytable <- xtabs(~Treatment+Improved,data=Arthritis)
    > chisq.test(mytable)


    Pearson's Chi-squared test


    data:  mytable
    X-squared = 13.055, df = 2, p-value = 0.001463


    > mytable <- xtabs(~Improved+Sex,data=Arthritis)
    > chisq.test(mytable)


    Pearson's Chi-squared test


    data:  mytable
    X-squared = 4.8407, df = 2, p-value = 0.08889

    Fisher精准检验

    > mytable <- xtabs(~Treatment+Improved,data = Arthritis)
    > fisher.test(mytable)

    注意不能用2*2列联表

    Cochran-Mantel-Haenszel检验

    其原假设是2个名义变量在第三个变量的每一层都是条件独立的

    > mytable <- xtabs(~Treatment+Improved+Sex,data = Arthritis)
    > mantelhaen.test(mytable)


    Cochran-Mantel-Haenszel test


    data:  mytable
    Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value = 0.0006647

    展开全文
  • summary()函数可以获取描述性统计量 可以提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计 misc包中的describe()函数 可返回变量和观测的数量、缺失值和唯一值的数目、平均值...

    R语言中描述统计量的多种方法summary()、attributes()、describe()、str()等

    1. summary()函数可以获取描述性统计量
      可以提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计

    2. misc包中的describe()函数
      可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数,以及五个最大的值和五个最小的值

    3.psych包中的describe()函数
    psych包也拥有一个名为describe()的函数,它可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误

    4.pastecs包中的stat.desc()的函数
    可以计算种类繁多的描述性统计量。使用格式为:stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
    其中的x是一个数据框或时间序列。若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。若desc=TRUE(同样也是默认值),则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。最后,若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们的统计显著程度)和Shapiro–Wilk正态检验结果

    5.str()函数
    以简洁的方式显示对象的数据结构及内容,可以查看数据框中每个变量的属性

    1. attributes()函数
      可以提取对象除长度和模式以外的各种属性

    7.aggregate()函数
    仅允许在每次调用中使用平均数、标准差这样的单返回值函数,它无法一次返回若干个统计量

    8.by()函数
    格式为:by(data,INDICES,FUN),其中data是一个数据框或矩阵,INDICES是一个因子或因子组成的列表,定义了分组,FUN是任意函数。

    9.doBy包中的summaryBy()函数
    10.psych包中的describe.by()函数

    展开全文
  • 描述性统计量,在不浏览全部数据的情况下,获得数据集中的全距、极值以及分位数信息,同时得到数据大致分布以及数据离散和偏离程度等,这些信息对我们处理海量数据集的抽样问题,以及建模的指标选取问题都有巨大的...
  • 包中有一个名为stat.desc()的函数,它可以计算种类繁多的描述性统计量。使用 格式为: > stat.desc(mtcars[vars],basic=TRUE,desc=TRUE,norm=FALSE,p=0.95) 其中的x是一个数据框或时间序列。若basic=TRUE(默认值)...
  • 方法一:使用aggregate()分组获取描述性统计量 1 aggregate(mtcars[vars],by=list(am=mtcars$am),mean) 2 aggregate(mtcars[vars],by=list(mtcars$am),mean) 3 aggregate(mtcars[vars],by=list(am=mtcars$am),...
  • 通过利用R语言进行数据的探索分析,熟练运用R语言进行数据的位置度量、离散度、列联表及相关性等的数据分析需求。
  • 描述性统计量:主要包括分布的集中程度,分布的离散程度和分布的偏斜程度。 方法一:summary()函数——最大值,最小值,四分位数(上,下),均值 summary(mtcars) #结果有以下几条 1 vars( ' mpg ' ...
  • 在比较多组个体或观测时,关注的焦点经常是各组的描述性...我们将以获取变速箱类型各水平的描述性统计量开始。vars<- c("mpg","hp","wt")> aggregate(mtcars[vars],by=list(am=mtcars$am),median) am mpg h...
  • R语言整体数据描述性统计分析

    千次阅读 2020-02-19 12:04:08
    R语言整体数据描述性统计分析 在这里主要对连续性变量进行整体统计性分析,包括最大最小值、中位数、均值、方差等统计量,但是这里不会分别进行分析计算,而是使用一个函数进行自动统计。 1、summary 该函数是R语言...
  • 4.3分组数据的汇总统计量 attach(red.cell.folate) tapply(folate,ventilation,mean)#提取folate变量,根据ventilation分组,然后对每一组计算均值 N2O+O2,24h N2O+O2,op O2,24h 316.6250 256.4444 278.000...
  • 4.1单组汇总统计量 x&lt;-rnorm(50) mean(x)#均值 [1] 0.152391 sd(x)#标准差 [1] 0.9543512 var(x)#方差 [1] 0.9107863 median(x)#中位数 [1] 0.2121978 quantile(x)#四分位数 0% 25% 50% 75% .....

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 133
精华内容 53
关键字:

r语言描述性统计量