精华内容
下载资源
问答
  • 【R描述统计分析】描述统计描述统计量中位数百分位数方差标准差变异系数样本校正平方和样本未校正平方和样本极差偏度系数、峰度系数练习 描述统计量 例: #输入体重 X1<-c(35, 40, 40, 42, 37, 45, 43, 37, 44,...

    描述统计量

    例:

    #输入体重
    X1<-c(35, 40, 40, 42, 37, 45, 43, 37, 44, 42, 41, 39)
    
    #计算体重的均值和标准差
    mu1<-mean(X1); sigma1<-sd(X1) 
    
    #输入胸围
    X2<-c(60, 74, 64, 71, 72, 68, 78, 66, 70, 65, 73, 75)
    
    #计算胸围的均值和标准差
    mu2<-mean(X2); sigma2<-sd(X2);
    

    中位数

    median(x,na.rm=FALSE) 
    

    当 na.rm=TRUE时,可以处理缺失数据
    在这里插入图片描述

    百分位数

    quantile(x) 提供五个值

    quantile(x,probs=seq(0,1,0.25)), na.rm=FALSE,names=TRUE)
    

    产生0%,20%,40%,60%,80%,100%的分位数
    在这里插入图片描述

    方差

    var(x):注意分母为n-1

    标准差

    sd(x)

    变异系数

    CV=sd(x)/mean(x)

    样本校正平方和

    css=sum((x-mean(x))^2)

    样本未校正平方和

    uss<-sum(x^2)
    在这里插入图片描述

    样本极差

    R=max(x)-min(x)

    偏度系数、峰度系数

    R的扩展统计程序包fBasics提供:
    函数 skewness( ) 用来求样本的偏度
    函数 kurtosis( ) 用来求样本的峰度

    练习

    对于一组数据,编写一组程序,输出这组数据的基本统计量(如:均值、方差、标准差、偏度、斜度、极差、极值等等),并能给出其直方图,密度函数曲线,QQ图。

    data_outline <- function(x){
    n <- length(x)                                #数列长度
    m <- mean(x)                                  #均值
    v <- var(x)                                   #方差
    s <- sd(x)                                    #标准差
    me <- median(x)                               #中位数
    cv <- 100*s/m                                 #样本变异系数
    css <- sum((x-m)^2)                           #样本校正平方和
    uss <- sum(x^2)                               #样本未校正平方和
    R <- max(x)-min(x)                            #极差
    R1 <- quantile(x,3/4)-quantile(x,1/4)         #上下四分位数之差,又称样本半极差
    sm <- s/sqrt(n)                               #样本标准误
    g1 <- n/((n-1)*(n-2))*sum((x-m)^3)/s^3        #偏度系数
    g2 <- ((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4- (3*(n-1)^2)/((n-2)*(n-3)))  #峰度系数
    data.frame(N=n, Mean=m, Var=v, std_dev=s, Median=me, std_mean=sm, CV=cv, CSS=css, USS=uss, R=R, R1=R1, Skewness=g1, Kurtosis=g2, row.names=1)
    }
    

    在程序编辑完成后,可以输入想要描述的数组,编写程序如:

    w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
    data_outline(w)
    

    得到的结果为:
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 描述统计与推断统计的关系

    千次阅读 2019-04-16 00:26:12
    即在探寻总体内在数量规律性的过程中的不同阶段(根据对样本/总体数据的描述统计来推断统计总体的数量特征)

    即在探寻总体内在数量规律性的过程中的不同阶段(根据对样本/总体数据的描述统计来推断统计总体的数量特征)

    展开全文
  • R语言描述统计

    2019-11-07 21:37:50
    连续变量的描述统计包括集中趋势、离散趋势、分布特征 集中趋势 集中趋势表示的是数据分布的中心位置,它在一定水平上可以有效反映整体的情况。常见的指标有平均值、中位数等。 平均值(Mean) 平均值(均数)是最常用...

    连续变量

    连续变量的描述统计包括集中趋势、离散趋势、分布特征

    集中趋势

    集中趋势表示的是数据分布的中心位置,它在一定水平上可以有效反映整体的情况。常见的指标有平均值、中位数等。

    • 平均值(Mean)

    平均值(均数)是最常用的描述数据分布集中趋势的统计指标。
    它需要考虑所有个案的数据情况,容易受到极端值的影响,统计上不适用描述严重偏态分布的变量。
    均数分为总体均数和样本均数,日常搜集的数据描述的都是样本均数。
    样本均数是各数据相加再除以样本数量n得来,即:
    xˉ=X/n\bar{x}={\sum X/n}

    • 中位数(Median)

    中位数是将全体数据按大小顺序排列,处于数列中间位置的值。它考虑的是大小顺序位置,不受极端值影响。又因为它只考虑顺序位置,所以对信息利用不充分。根据样本数量n的奇偶不同而不同。

    n为奇数时:
    M=X(n+1)/2M=X_{(n+1)/2}
    n为偶数时:
    M=(Xn/2+Xn/2+1)/2M=(X_{n/2}+X_{n/2+1})/2

    离散趋势

    离散趋势反映的数据的波动范围。常见指标z有标准差、四分位数间距等。

    • 标准差(sd)

    数据的离散程度的大小就是与平均值的差值,简称离均差。总体方差由离均差平方和除以观察例数n得到。标准差就是方差的开平方。它要求正态分布的数据,以准确反映。标准差越大,说明内部差异越大,平均值的整体代表性越差。样本标准差的公式为:
    S=(xxˉ)2/(n1)S= \sqrt{\sum (x-\bar{x})^2/(n-1)}

    • 四分位距(IQR)

    四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)四分位距可以排除极小和极大两端极端值影响,又尽可能利用数据反映离散情况。
    四分位位置公式为:
    Lp=(n)(P100)L_p=(n)\left(\frac{P}{100}\right)
    其中,P为百分比(取值25,50,75,100),n为样本总量,L为分位数位置。
    求出分位数位置L,L如果是不是整数则取第L和第L+1的平均值。以此可以求出Q3、Q1的值。
    IQR=Q3Q1IQR= Q3-Q1

    分布特征

    随着统计学发展,研究者开始假设数据所在总体应当服从某种分布。每一种分布,都有一系列指标可以描述数据偏离分布的程度。如常见正态分布的相关指标偏度与峰度。

    • 偏度(Skewness)

    偏度是用来描述变量取值分布形态的统计量,指分布不对称的方向和程度。偏度系数记为g1:
    g1=1ni=1n(xixˉ)3g1=\frac{1}{n}{\sum^n_{i=1} (x_i-\bar{x})^3}
    当g1>0时分布为正偏或右偏,g1<0是分布为负偏或左偏。g1=0时对称分布。

    • 峰度(Kurtosis)

    峰度是描述变量取值分布形态陡缓程度的统计量,反映分布图形的峰凸程度。记作g2:
    g2=1ni=1n(xixˉ)4/s43g2=\frac{1}{n}{\sum^n_{i=1} (x_i-\bar{x})^4/s^4}-3
    当g2>0时峰形尖锐,g2<0是峰形平坦,g2=0时为正态峰。

    R操作

    R操作比较简单,直接调用函数即可。常见函数及功能如下:

    函数 功能
    mean() 平均数
    median() 中位数
    sd() 标准差
    var() 方差
    quantile(x,probs) 求分位数。其中x为待求分位数的数值型向量,probs为一个由[0,1]之间的概率值组成的数值向量
    range() 值域
    sum() 求和
    diff(x,lag=n) 滞后差分。lag用以指定滞后几项,默认为1
    min() 求最小值
    max() 求最大值

    也有一步到位求出常用值的函数如:
    summary()函数
    Hmisc包:describe()函数(不再演示)
    Psysh包:describe()函数(不再演示)

    #生成20个随机数
    x <- rnorm(20)
    #summary函数
    summary(x)
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    -0.9533 -0.5187 -0.1645  0.1239  0.8248  1.6144 
    

    分类变量

    分类变量的描述统计指标一般就是频率和百分比。单个分类变量的描述用频率,多个分类变量的描述用列联表表示。
    常用函数如下:

    函数 功能
    table(var1,var2,…varN) 使用N个分类变量创建一个N维列联表
    xtabs(formula,data) 根据一个公式和一个矩阵或数据框创建一个N维列联表
    prop.table(table,margins) 依margins定义的边际列表将表中条目表示为分数形式
    margin.table(table,margins) 依margins定义的边际列表计算表中条目的和
    addmargin(table,margins) 将概述边margins(默认求和结果)放入表中
    ftable(table) 创建一个紧凑平铺的列联表

    单分类变量

    示例:

    #自行安装vcd包
    #使用vcd包Arthritis数据集。
    #载入vcd包
    library(vcd)
    #显示Arthritis数据集前5行
    head(Arthritis)
      ID Treatment  Sex Age Improved
    1 57   Treated Male  27     Some
    2 46   Treated Male  29     None
    3 77   Treated Male  30     None
    4 17   Treated Male  32   Marked
    5 36   Treated Male  46   Marked
    6 23   Treated Male  58   Marked
    #单分类变量描述统计
    mytable <- table(Arthritis$Improved)
    mytable
    
      None   Some Marked 
        42     14     28 
    #可以用prop.table将这些频数转化为比例值
    prop.table(mytable)
    
         None      Some    Marked 
    0.5000000 0.1666667 0.3333333 
    #prop.table*100转化为百分比
    prop.table(mytable)*100
    
        None     Some   Marked 
    50.00000 16.66667 33.33333 
    

    双分类变量

    双分类变量描述统计的table格式为:

    mytable<-table(A,B)

    其中A为行变量,B为列变量。

    xtable函数可以使用公式风格的输入创建列联表,格式为:

    mytable<-xtable(~A+B,data=mydata)

    示例:

    mytable <- xtabs(~Treatment+Improved,data=Arthritis)
    mytable
             Improved
    Treatment None Some Marked
      Placebo   29    7      7
      Treated   13    7     21
    

    SPSS格式

    还可以使用gmodels包中CrossTable()函数创建二维列联表。返回的结果类似SPSS和SAS软件中的列联表格式。

    #载入gmodels包
    library(gmodels)
    #调用CrosTable函数
    CrossTable(Arthritis$Treatment,Arthritis$Improved)
    #结果太大,不再展示
    

    R微信公众号:R语言小白速通
    R懂点R语言
    欢迎分享收藏关注

    展开全文
  • Pandas-DataFrame描述统计函数

    千次阅读 2019-08-03 10:30:45
    pandas描述统计函数: 求和、中位数,平均值,方差,相关系数。。。。

    测试数据采用豆瓣电影的部分数据
    在这里插入图片描述

    求和

    求投票人数的总和
    在这里插入图片描述

    求最值

    求最高评分
    在这里插入图片描述
    求评分最高的电影信息
    在这里插入图片描述
    求最低评分
    在这里插入图片描述

    获取最值索引

    先将索引换成字母
    在这里插入图片描述
    在这里插入图片描述

    中位数和平均数

    在这里插入图片描述

    方差和标准差

    方差和标准差可以看出数据的离散程度
    在这里插入图片描述

    相关系数和协方差

    相关系数可以判断两者的相关性,越接近1,相关性越强
    在这里插入图片描述
    协方差
    在这里插入图片描述

    计数

    统计共有多少产地
    先列出所有产地
    在这里插入图片描述
    计算产地总和
    在这里插入图片描述
    列出各个产地的电影数量
    在这里插入图片描述

    describe()描述信息

    describe()会自动计算所有数字类型的列的统计信息
    count: 该列(行)非NA值的个数
    mean :该列(行)的均值
    std :    该列(行)的方差
    25% : 上四分位数
    50% :  非NA值的平均数
    75% : 下四分位数
    max :  最大值
    在这里插入图片描述
    在进行数据统计的时候,有些数据是空值或非法的,这时候就需要进行数据清洗,参考上一篇DataFrame删除操作、空值处理

    展开全文
  • 描述统计:图表展现

    2016-09-23 10:49:12
    书籍:《Statistics for Business and Economics,11ed 2011 Anderson》第二章 描述统计:图表展现描述统计(descriptive statistic):用图表对数据进行概括与展现,其目的是为了方便读者了解。分类变量数据概括频率...
  • 文章目录不分亚组的描述统计使用向量操作计算单个变量的描述统计量计算汇总了多个变量的数据框的描述统计量:``sapply()````psych``包:``describe()``分亚组的描述统计``aggregate()````epiDisplay``包:``summ()``...
  • EXCEL中的数据分析—描述统计

    千次阅读 2019-09-11 10:07:18
    今天给大家分享的是在数据分析中很重要的一环,也就是描述统计。在百科的解释中,描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。...
  • 1、非连续性变量的描述统计 analyze--descriptive statistic--frequencies 直条图、饼图、直方图(适合连续变量,可以画正态分布图线) 主要考虑统计选项里的各个统计值含义 ht...
  • 一组样本数据的数值特征一般来说可以从三个方面...数据水平是指数值大小,描述数据水平的统计量有平均数,分位数,众数,同时这几个统计量也可以用来描述数据的集中趋势度。 平均数 **简单平均数(simple mean)**的...
  • 第一个问题,连续变量是什么? 一个人的年级,统计出来有1、2、3…… 一个人的年纪,统计出来有18、19、20…… 但是,虽然都是数字,只有年纪是连续变量...下面进入正题,连续变量的描述统计。 概述 对于统计学和SP...
  • 使用描述统计工具

    千次阅读 2008-10-30 08:37:00
    描述统计工具主要用于生成数据源区域中数据的单变量统计分析报表,提供有关数据趋中性和易变性的信息。打开文件,如图14-39所示。此表是希望英语比赛选手成绩,试用描述统计工具分析选手成绩,具体步骤如下:选择...
  • 表格描述统计包括 频数、相对频数、百分数相对频数 图形包括 条形图、饼图、对于数量型变量: 表格描述统计包括 频数、相对频数、百分数相对频数、交叉分组表 图形包括 直方图、打点图、累积分布、累积曲线...
  • 【R描述统计分析】多元数据
  • sas简单描述统计分析和散点图

    万次阅读 2017-10-16 21:59:09
    简单描述统计分析一、 means过程 (一)例题和语句分析 例题1:某车间有30个人分成4组,求车间工人平均每小时制作的配件个数 data data3_1; input no w n; /*按自由格式输入变量no、w和n*/ cards; 01 10 35 02 6 ...
  • 3.1 描述统计量 要研究数据的数字特征,即分析数据的集中位置、分散程度和数据分布等。 3.1.1 位置的度量 用来描述定量资料的集中趋势的统计量常用的有均值、众数、中位数、百分数等。 1. 均值 在R...
  • Pandas 描述统计函数

    2018-08-28 19:48:15
    在进行统计描述时,pandas对三个数据对象的轴参数规定如下:  Series: 没有轴参数  DataFrame: “index” (axis=0, default), “columns” (axis=1)  Panel: “items” (axis=0), “major” (axis=1, default), ...
  • 描述统计 1.描述数据水平的统计量 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数: 算术平均数  xˉ=∑i=1nxin算术平均数 \ \ \bar{x} = {\...
  • 数据描述统计看了一个纪录片 - The Joy Of Stats 《统计的乐趣》,这虽然是一个关于数据统计分析的纪录短片,但短片中对于数据统计在实际应用场景中应用的效果还是很值得思考。描述统计学是对数据信息归纳为存在着...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 32,941
精华内容 13,176
关键字:

描述统计