精华内容
下载资源
问答
  • 描述统计
    千次阅读
    2021-01-05 17:31:56

    数据分布特征

    我们知道,利用图表展示数据可以让我们对数据的分布形状和特征有一个直观大致的了解,但要全面把握数据分布特征,还需要找到反映数据分布特征的各代表值。
    数据分布特征可以从集中趋势、离散程度、分布的形状三个方面进行测度和描述,它们分别反映了数据分布特征的不同侧面。

    1、集中趋势

    反映各数据向其中心值靠拢或聚集的程度。

    (1)分类数据:众数

    众数(mode)是一组数据中出现次数最多的变量值。是一个位置代表值,不受数据中极端值的影响。

    • 一般情况下,只有在数据量较大的情况下众数才有意义。

    (2)顺序数据:中位数

    中位数(median)是一组数据排序后处于中间位置的变量值。是一个位置代表值,不受极端值的影响。

    • 中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。

    (3)数值型数据:平均数

    平均数也称为均值(mean),它是一组数据相加后除以数据个数得到的结果。

    • 主要适用于数值型数据,而不适用于分类数据和顺序数据。
      (1)简单平均数
      根据未分组数据计算的平均数。
      x ˉ = ∑ i = 1 n x i n \bar{x} = \frac{\sum_{i=1}^n{x_i}}{n} xˉ=ni=1nxi
      (2)加权平均数
      根据分组数据计算的平均数。
      x ˉ = ∑ i = 1 k M i f i n \bar{x} = \frac{\sum_{i=1}^k{M_if_i}}{n} xˉ=ni=1kMifi
      (3)几何平均数——n个变量值乘积的n次方根
      是适用于特殊数据的一种平均数,主要用于计算平均比率。
      G = ∏ i = 1 n x i n G=\sqrt[n]{\quad \prod_{i=1}^n{x_i} } G=ni=1nxi

    2、离散程度

    反映各数据远离其中心值的趋势。

    (1)分类数据:异众比率

    异众比率(variation ratio)指非众数组的频率占总频数的比例。

    • 异众比率主要用于衡量众数对一组数据的代表程度。
    • 异众比率越大,说明非众数组的频率占总频数的比重越大,众数的代表性越差;反之亦然。
      V r = 1 − f m ∑ f i V_r =1- \frac{f_m}{\sum f_i} Vr=1fifm
      其中, ∑ f i {\sum f_i} fi为变量值的总频数, f m {f_m} fm为众数组的频数。

    (2)顺序数据:四分位差

    四分位差(quartile deviation)也称为内距或四分间距,是上四分位数与下四分位数之差。
    Q d = Q U − Q L Q_d=Q_U-Q_L Qd=QUQL

    (3)数值型数据:极差

    极差(range)是一组数据的最大值与最小值之差,也称全距。
    R = m a x ( x i ) − m i n ( x i ) R=max(x_i)-min(x_i) R=max(xi)min(xi)

    • 极差是最简单的描述数据离散程度的测度值,但容易受极端值的影响。

    (4)数值型数据:平均差

    平均差(mean deviation)也称平均绝对离差,是个变量值与其平均数离差绝对值的平均数。

    • 根据未分组数据计算:
      M d = ∑ i = 1 n ∣ x i − x ˉ ∣ n M_d= \frac{\sum_{i=1}^n\mid{x_i-\bar{x}}\mid}{n} Md=ni=1nxixˉ
    • 根据分组数据计算:
      M d = ∑ i = 1 k ∣ M i − x ˉ ∣ f i n M_d= \frac{\sum_{i=1}^k\mid{M_i-\bar{x}}\mid f_i}{n} Md=ni=1kMixˉfi

    (5)数值型数据:方差或标准差

    方差(variance)是各变量值与其平均数离差平方的平均数,方差的平方根称为标准差(standard deviation)。

    • 方差 s 2 s^2 s2(或标准差 s s s)能较好地反映出数据的离散程度,是应用最广的离散程度的测度值。
    • 未分组数据:
      s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s^2= \frac{\sum_{i=1}^n({x_i-\bar{x}})^2}{n-1} s2=n1i=1n(xixˉ)2
    • 分组数据:
      s 2 = ∑ i = 1 k ( M i − x ˉ ) 2 f i n − 1 s^2= \frac{\sum_{i=1}^k({M_i-\bar{x}})^2f_i}{n-1} s2=n1i=1k(Mixˉ)2fi

    (6)相对离散程度:离散系数

    离散系数(coefficient of variation)也称为变异系数,是一组数据的标准差与其相应的平均数之比。
    v s = s x ˉ v_s=\frac{s}{\bar{x}} vs=xˉs

    • 主要用于比较不同样本数据的离散程度。
    • 离散系数大,说明数据的离散程度也大;反之亦然。

    3、分布的形状

    反映数据分布的偏态和峰态。

    (1)偏态系数

    • 如果一组数据的分布是对称的,则偏态系数为0;如果偏态系数明显不等于0,表明分布是非对称的。
    • 根据未分组原始数据计算:
      S K = n ∑ ( x i − x ˉ ) 3 ( n − 1 ) ( n − 2 ) s 3 SK= \frac{n\sum({x_i-\bar{x}})^3}{(n-1)(n-2)s^3} SK=(n1)(n2)s3n(xixˉ)3
    • 根据分组原始数据计算:
      S K = ∑ i = 1 k ( M i − x ˉ ) 3 f i n s 3 SK= \frac{\sum_{i=1}^k({M_i-\bar{x}})^3 f_i}{ns^3} SK=ns3i=1k(Mixˉ)3fi
    • 若SK大于1或小于-1,称为高度偏态分布;
    • 若SK在0.5 ~ 1之间或 -1 ~ -0.5之间,则认为是中等偏态分布;
    • 偏态系数越接近0,偏斜程度就越小。

    (2)峰态系数

    峰态系数是与标准正态分布相比较而言的,它说明了分布的尖峰和扁平程度。

    • 根据未分组数据计算:
      K = n ( n + 1 ) ∑ ( x i − x ˉ ) 4 − 3 [ ∑ ( x i − x ˉ ) 3 ] 2 ( n − 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) s 4 K= \frac{n(n+1)\sum({x_i-\bar{x}})^4-3[\sum({x_i-\bar{x}})^3]^2(n-1)}{(n-1)(n-2)(n-3)s^4} K=(n1)(n2)(n3)s4n(n+1)(xixˉ)43[(xixˉ)3]2(n1)
    • 根据分组数据计算:
      K = ∑ i = 1 k ( M i − x ˉ ) 4 f i n s 4 − 3 K= \frac{\sum_{i=1}^k({M_i-\bar{x}})^4 f_i}{ns^4}-3 K=ns4i=1k(Mixˉ)4fi3
    • 正态分布 ----- K=0;
    • 尖峰分布 ----- K>0;
    • 扁平分布 ----- K<0。

    好啦,今日分享结束,希望对你有所帮助哦~~别忘了点个赞哟!

    更多相关内容
  • 如何做好描述统计分析?

    千次阅读 2020-08-06 19:00:33
    什么是描述统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡。 要把握数据的分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。 1、集中趋势 集中趋势就是指一...

    写在前面

    什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡。

    要把握数据的分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。

    1、集中趋势

    集中趋势就是指一组数据向某一中心靠拢的程度,通常有以下指标:

    众数

    对分类数据来说,众数是最适合描述其集中趋势的值,它是指一组数据中出现次数最多的变量,众数不受极端值的影响,但是可能不唯一,且当数据量较多时,才有意义。

    中位数

    对数据型数据来说,可以用中位数来描述其集中趋势的度量,中位数就是将一组数据排序以后处于中间位置的值,那么如何寻找中间位置呢?

    1、 将这组数据按顺序排列
    2、 中间数值所在的位置是(n+1)/2,n表示n个数
    3、 当n为奇数时,中间位置的数就是中位数,当n为偶数时,中间位置两个数的均值为中位数。

    显然这里有两种情况,当n为奇数和偶数两种情况,求下面这组数据的中位数

    0 1 2 3 4 5 6 7 8

    这里n=9,中位数的位置=(9+1)/2 = 5,那么中位数就是4.

    0 1 2 3 4 5 6 7 8 9

    当n=10时,中位数的位置是 (10+1)/2 = 5.5,那么中位数就是第5个位置的数和第6个位置的数的平均数,也就是(4+5)/2 = 4.5

    知道计算的原理,但其实不用我们自己去算,软件中有相应的函数,如Excel中的median函数可以计算中位数。中位数也不受极值的影响。

    四分位数

    同样,四分位数也是对数值型数据集中趋势的度量,后面的度量都适用于数值型数据。四分位数就是将数据排序后四等分,处于25%(下四分位数)和75%(上四分位数)位置上的值即四分位数,箱型图可以很好地用来描述四分位数。

     

    Excel中可以用quartile函数来计算四分位数。

    平均数

    简单平均数:就是算术平均数,所有数值相加再除以总个数。
    加权平均数:数据分组后每组有相应的权重。
    几何平均数:n个变量乘积的n次方根,主要用于计算平均比率,如增长率的平均值。

    Excel中用average函数计算平均数。

    如果分布是对称的,那么众数=中位数=平均数,如果数据左偏,那么平均数<中位数<众数,如果数据右偏,那么众数<中位数<平均数,根据数据的分布形态,选择适合的集中趋势度量去描述。

     

    2、离散程度

    离散程度就是描述各个变量远离其中心值的程度,通常有以下指标:

    异众比率

    指非众数组的频数占总频数的比例,较多地用在分类数据中,用来体现众数的代表性。异众比率越大,说明非众数组占比越大,那么众数就不能很好地代表这组数据。

    四分位差

    对于数值型数据,四分位差可以来描述数据的离散程度,四分位差就是上下四分位数的差。反映了中间50%数据的离散程度,四分位差越小,说明中间的数据越集中,

    极差

    极差就是最大值与最小值的差,容易受极值的影响。

    平均差

    各变量与其平均数离差绝对值的平均数,反映了每个数与平均数的差异程度,Excel里用avedev计算平均差。

    方差和标准差

    对数值型数据,怎么能少得了我们熟知的方差和标准差。方差就是各变量与其平均数离差平方的平均数,方差的平方根就是标准差,方差和标准差是应用最广的描述数据离散程度的度量。Excel里用stdev来计算标准差。

    3、分布形状

    描述分布形状的度量有偏态和峰态

    偏态

    数据分布对称性的描述,统计量是偏度,偏度>0,则频数分布的高峰向左偏移,呈右(正)偏态分布;偏度<0,则频数分布的高峰向右偏移,呈左(负)偏态分布;|偏度|>1,呈高度偏态,0.5<|偏度|<1,呈中等偏态,一个记忆方法就是,尾巴在哪边就是哪偏。

    对于偏态,在之前的文章 中也有写过。
    如何处理偏态数据?

    峰态

    是描述数据平峰或尖峰程度的度量。统计量是峰度。同偏态一样,峰态也是与标准正态分布来比较的,峰度>0,数据分布更集中,为尖峰分布,峰度<0,数据分布更分散,为平峰分布。

    以上提到的各种统计量除了用Excel中的函数来计算外,还可直接用【数据分析】功能中的【描述统计】命令直接得到。


    猜你喜欢:
    什么是好的数据指标:精益数据分析

    泰坦尼克号数据分析

    深入浅出数据分析

    数据分析都有哪些岗位?

    为什么要学统计学:赤裸裸的统计学

    成为数据分析师的第三年,我写了10W字

     

    展开全文
  • 双变量与多变量的描述统计分析PPT课件.pptx
  • 描述统计与统计图表的制作.ppt
  • EXCEL中的数据分析—描述统计

    千次阅读 2019-09-11 10:07:18
    今天给大家分享的是在数据分析中很重要的一环,也就是描述统计。在百科的解释中,描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。...

    今天给大家分享的是在数据分析中很重要的一环,也就是描述统计。在百科的解释中,描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。在这三个部分当中,集中趋势主要是靠数据当中的平均数、中数、众数等统计指标来表示。离中趋势主要是靠数据当中的四分差、平均差、方差和标准差等统计指标来进行研究。最后一个相关分析之前有跟大家介绍过,主要是看数据之间是否存在统计学上的关联性并进行分析和研究。

    我们今天主要是介绍一下针对我们的数据如何用EXCEL进行描述统计分析。我们先来看一下我们今天需要用到的数据:

    如上图所示,为某班级期中考试部分同学考试成绩,现在我们需要针对这部分同学成绩进行描述统计分析。

    一般来说,样本数据分布区间、标准差等都是描述样本数据范围及波动大小的统计量,但是如果我们直接进行计算会较为繁琐。因为这些都是描述样本数据的常用变量,所以我们直接使用 Excel 数据分析中的“描述统计”就可以直接得出我们需要的结果。

    在开始的时候,我们需要在数据栏中的分析模块里选择数据分析(如果大家的EXCEL中没有此模块需要单独添加,在之前最早的文章中有给大家分享过如何进行添加)。在弹出的数据分析框中选择描述统计即可弹出描述统计分析界面:

    按上图来选择我们所需要的描述统计相关输出数值,点击确定以后就会出现如下输出界面:

    在输出的区域当中,我们能够看到,这里面有平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、样本总个数、最大值、最小值和置信度这些输出结果。我们应该怎么来解读这些数呢?

    在输出的这些数里面,我们针对其中部分数值来给大家解释一下:

    中值:排序后位于中间的数据的值;

    众数:在整个样本数据当中出现次数最多的值;

    峰度:用来衡量数据分布起伏变化的指标,以正态分布为基准,比其平缓时值为正,反

    之则为负;

    偏度:用来衡量数据峰值偏移的指数,根据峰值所处位置在均值左侧或者右侧分别表示为正值或负值;

    极差:最大值与最小值的差;

    第 K 大(小)值:输出表的某一行中包含每个数据区域中的第 k 个最大(小)值;

    置信度:数值 95% 可用来计算在显著性水平为 5% 时的平均值置信度。

    以上就是我们针对样本数据作出的描述统计分析,在一般的分析当中,我们主要是通过描述统计来对我们的样本数据进行一个总的观察,在描述统计中我们基本上就能够对我们的数据有一个基本的认识,从而能够有效的进行其他分析。例如在问卷分析当中我们可以通过描述统计对我们被调查的对象有一个大概的了解,从而决定我们其他分析应该如何继续进行。

    描述统计分析是一个比较简单的分析,在统计学软件中都会有相应的模块,今天先跟大家分享了在EXCEL中如何进行分析,大家可以自己拿一些数据进行尝试,看看是不是在描述统计分析以后会对我们的数据样本有更清晰和直观的认识。

    **文章来自公众号【小白数据营】**

    大家可以私信我进入到交流群中参与讨论和交流。

    展开全文
  • 单变量描述统计数据分析.pptx
  • 第3章 数据描述统计分析.zip
  • 数据的描述统计量 33:《数据分析基础》的复习笔记3 主要涉及用R语言求解 1. 描述水平的统计量 (1)平均数 (2)分位数 ①中位数 ②四分位数 ③百分位数 (3)众数 2.描述差异的统计量 (1)极差和四分之位差 ...

    数据的描述统计量

    33:《数据分析基础》的复习笔记3
    主要涉及用R语言求解

    1. 描述水平的统计量

    (1)平均数
    (2)分位数
    ①中位数
    ②四分位数
    ③百分位数
    (3)众数

    2.描述差异的统计量

    (1)极差和四分之位差
    (2)方差和标准差
    (3)变异系数
    (4)标准分数

    3.描述分布形状的统计量

    (1)偏度系数
    (2)峰度系数

    在这里插入图片描述

    1. 描述水平的统计量
    • 平均数
    mean(数据)
    

    • 分位数
      排在某个位置上的数值,可以代表数据水平的高低。常见的分位数有中位数、四分位数、百分位数。

    ①中位数

    median(数据)
    

    ②四分位数
    把所有数值由小到大排列,用三个点将数据分成四等份,处于25%和75%位置上的数值。

    quantile(数据,probs = c(0.25,0.75),type = 6)
    

    ③百分位数

    quantile(数据
    ,probs = c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9)
    ,type = 6)
    

    • 众数
    which.max(table(数据))
    

    2.描述差异的统计量
    • 极差(全距)
    diff(range(数据))
    
    • 四分位差
      反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间50%的数据越分散。四分位差不易受极值的影响,在一定程度说明中位数对数据的代表程度。
    IQR(数据,type=6)
    
    • 方差和标准差
    #计算方差
    var(数据)
    #计算标准差
    sd(数据)
    
    • 变异系数(离散系数)
      一组数据的标准差与相应的平均数之比。 它消除了数值大小和计量单位的影响,反映数据的相对离散程度。
      变异系数主要用于比较不同样本数据的离散程度,数值越大,说明数据的相对离散程度越大,反之越小。
    cv <- sd / mean     #计算变异系数
    
    • 标准分数
      用来度量每个数值在该组数据中的相对位置,并判断一组数据是否有离群点。
    as.vector ( round ( scale ( 数据 ) , 2 ) )
    


    3.描述分布形状的统计量

    在这里插入图片描述

    • 偏度系数
      测度数据分布不对称性的统计量。
    • 峰度系数
      测度数据分布峰值高低的统计量。
    install.packages(agricolae)
    library(agricolae)
    
    skewness(数据) #偏度
    kurtosis(数据) #峰度
    
    展开全文
  • SPSS-描述统计与图示分析

    千次阅读 2021-03-29 16:49:12
    描述统计 连续性变量 统计指标需要反映的是数据以下几方面的特征: SPSS描述统计中有多项可以展示最大值、最小值等,这里重点介绍频率: 点击统计之后出现: (后验分布可以认为是分布特征指标) 自行选择指标...
  • 描述统计与推断统计的关系

    千次阅读 2019-04-16 00:26:12
    即在探寻总体内在数量规律性的过程中的不同阶段(根据对样本/总体数据的描述统计来推断统计总体的数量特征)
  • movement=[] for j in range(len(movement)): ln_movement.append(math.log(movement[j]))###计算对数值 mt=DataFrame(ln_movement,index=range(1,631),columns=["movement"]) 建立 mt.describe()###描述统计 运行...
  • R语言笔记-数值型变量的描述统计

    千次阅读 2020-10-21 16:55:11
    文章目录不分亚组的描述统计使用向量操作计算单个变量的描述统计量计算汇总了多个变量的数据框的描述统计量:``sapply()````psych``包:``describe()``分亚组的描述统计``aggregate()````epiDisplay``包:``summ()``...
  • 主要介绍MATLAB统计分析中描述统计部分的内容,包括集中趋势、离中趋势的描述、频数分析和相关统计图形绘制等。
  • mt.describe()###描述统计 运行结果如下:   movement count 630.000000 mean 11.261194 std 1.233674 min 4.346268 25% 10.644837 50% 11.202507 75% 11.893310 max 17.191881
  • SPSS——连续变量的描述统计

    千次阅读 2018-09-04 17:41:07
    连续变量的统计描述指标体系 集中趋势(位置统计量):均数适用于正态分布和对称分布资料;中位数适用于所有分布资料 离散趋势(尺度统计量):标准差、方差只适用于正态分布资料;四分位数适用于各种分布...
  • 数据分析之定量数据的描述统计

    千次阅读 2018-07-31 22:10:49
    从集中趋势和离中趋势两个方面进行分析: 1、集中趋势度量 (1)均值 主要问题时对极端值比较敏感,因此可以使用截断均值来度量。 算术平均数:=mean() ...几何平均数:=exp(mean(log())) ...计算数据样本的指定阶中心...
  • 本文介绍EXCLE描述统计输出的各个细节,主要围绕标准差相关指标展开。包括: 解释标准差、标准误差、置信度之间的关系 介绍各指标在EXCEL中如何单独计算 介绍各指标的统计学公式 重点强调一下峰度和偏度在EXCEL中的...
  • 社会统计分析—描述统计

    千次阅读 2016-08-21 16:05:27
    相对于自然科学而言,对社会现象、思想、态度的量化描述显得更具有挑战。 我们需要为一些抽象概念开发从测量方法,如社会地位、能力、幸福感、健康、甚至爱情。 社会科学不是科学? 社会科学要求,对概念的测量应...
  • 第3章 Stata描述统计

    千次阅读 2021-06-29 14:36:31
    3.1定距变量的描述统计 案例延伸 1.获得更详细的描述统计结果 2.根据自己的需要或去相应的概要统计指标 3.按另一变量分类列出某变量的概要统计指标 4.创建变量总体均值的置信区间 3.2正态性检验和数据转换...
  • Stata:描述统计结果导出

    千次阅读 2021-12-06 21:10:16
    用sum进行描述性分析 logout, save(miaoshutongji) word replace:sum ratio #导入word格式 ratio是变量名字 logout, save(miaoshutongji) excel replace:sum ratio #导入excel格式 ratio是变量名字 用tabstat...
  • sas简单描述统计分析和散点图

    万次阅读 2017-10-16 21:59:09
    简单描述统计分析一、 means过程 (一)例题和语句分析 例题1:某车间有30个人分成4组,求车间工人平均每小时制作的配件个数 data data3_1; input no w n; /*按自由格式输入变量no、w和n*/ cards; 01 10 35 02 6 ...
  • SPSS统计描述分析

    千次阅读 2022-01-11 16:02:29
    SPSS统计描述分析
  • R语言 描述统计

    千次阅读 2022-01-31 22:33:49
    基本统计分析,又叫描述统计分析,它是指运用制表、分类、图形及概括性数据来描述数据特征的各项活动,以发现其内在规律的统计分析方法。 描述统计分析主要包括数据的集中趋势分析、数据的离散程度分析、数据的...
  • 使用R进行描述统计分析

    千次阅读 2019-09-24 22:30:48
    在对数据进行统计分析之前,一般我们需要知道当前数据的描述统计情况,如集中趋势、离散趋势、分布形状。如果数据表中有很多变量,在excel中计算这些统计量的话,要利用公式一个一个进行计算,比较麻烦,在R中可以...
  • 一组样本数据的数值特征一般来说可以从三个方面...数据水平是指数值大小,描述数据水平的统计量有平均数,分位数,众数,同时这几个统计量也可以用来描述数据的集中趋势度。 平均数 **简单平均数(simple mean)**的...
  • STATA描述统计

    千次阅读 2022-07-12 12:43:28
    STATA描述统计
  • matlab做描述统计分析的代码,包括函数以及案例运行
  • 6.3 描述统计

    2020-09-30 11:05:03
    6.3 描述统计 6.3 描述统计 6.3.1 描述统计概述 在进行数据分析之前,一般要对数据进行描述工作,描述统计量包括均值、方差、标准差、全距等,还可以将原始分数转换为 Z 分数,生成 Z 分数的新变量。通过这些描述...
  • PART 4 描述统计分析

    千次阅读 2021-10-28 11:58:39
    撰写一份数据描述统计分析报告 五个角度: 一、总体规模的描述——总量指标 二、对比关系的描述——相对指标 三、集中趋势的描述——平均指标 四、离散程度的描述——变异指标 五、分布形态的描述——偏态与峰态 六...
  • 连续变量的描述统计与SPSS实现

    千次阅读 2020-03-09 23:29:10
    第一个问题,连续变量是什么? 一个人的年级,统计出来有1、2、3…… 一个人的年纪,统计出来有18、19、20…… 但是,虽然都是数字,只有年纪是连续变量...下面进入正题,连续变量的描述统计。 概述 对于统计学和SP...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 548,773
精华内容 219,509
关键字:

描述统计

友情链接: YALMIP-master.zip