精华内容
下载资源
问答
  • 转:描述性统计分析

    千次阅读 2018-10-29 16:40:50
    描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性和离散型(波动性大小)。 通过根据随机变量的分布状况、可以分为离散概率...

    描述性统计
    描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性和离散型(波动性大小)。

    通过根据随机变量的分布状况、可以分为离散概率连续概率

    连续概率

    • 概率为某个区间存在的所有实数
    • 所有可能的取值不可能逐个列举出来

    Example
    新建一座大楼,半年后的工程完成百分比(0 <x < 100)

    我们通常用集中趋势、离散程度、分布形态去描述一组样本数据。

    1. 频数分布表

    将一组计量资料按观察值大小分为不同组段,然后将各观察值归纳到各组段中,最后清点各组段的观察值个数(称频数),以表格形式表示之,称为频数分布表又称"频次分布表",简称“频数表

    频次表

    转化为频次直方图

     

    直方图

    用途

    • 描述资料的分布特征和分布类型
    • 发现特大、特小的可疑值

    2. 集中趋势指标

    在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。

    2.1 平均数(Mean)

    根据应用场景又可以分为
    算术平均数 使用场景十分广泛、很容易受极值影响

    算数平均数


    加权平均数 根据权重比例来求平均值。金融场景中算月销售额时候可以根据项目的天数来做权重求平均销售额。

    加权平均数


    几何平均数 常用于比例速度等场景,金融用得比较多

     

    2.2 中位数(Median)

    对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数

    Example
    在描述公司内的平均工资情况、或者金融客户的平均购买金额情况时比平均值更接近事实

    2.3 众数(Mode)

    在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用 M 表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。

    Example
    例如:1,2,3,3,4的众数是3。
    例如:1,2,2,3,3,4的众数是2和3。
    例如:1,2,3,4,5则没有众数。

    众数算出来是销售最常用的,代表销售的最多

    3.离散趋势

    在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况

    3.1 极差,全距 (Range)

    极差又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据.

    3.2 方差(variance)

    variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。

    方差

    当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小

    3.3 标准差(Standard Deviation)

    标准差 ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同

    由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。

    在统计学中样本的均差多是除以自由度n,它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

    当标准差来描述本组样本离散程度时,分母为n,当标准差通过样本来描述总体离散情况时,分母选用n-1

    3.4 变异系数(Coefficient of Variation)

    变异系数:当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差、标准差和方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。

    变异系数的计算公式为:变异系数 C·V =( 标准偏差 SD / 平均值Mean )× 100%
    在进行数据统计分析时,如果变异系数大于15%,则要考虑该数据可能不正常,应该剔除。

    3.5 位次指标

    四分位数(Quartile)是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。

    第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

    第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

    第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

    第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)

    3.6 箱线图(Box plot)

    "盒式图"或叫"盒须图""箱形图"boxplot(也称箱须图(Box-whiskerPlot)须图又称为箱形图,其绘制须使用常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。

    箱线图

     

    四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)
    在区间 Q3+1.5ΔQ, Q1-1.5ΔQ 之外的值被视为应忽略(farout)。
    farout: 在图上不予显示,仅标注一个符号∇。
    最大值区间: Q3+1.5ΔQ
    最小值区间: Q1-1.5ΔQ
    最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.

    4. 分布形态

    我一般用户峰值偏度来描述分布的形态

    4.1峰值(kurtosis)

    表征概率密度分布曲线在平均值峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。

    峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差正态分布的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性

    峰度

     

    4.2 偏度(stewness)

    表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。

    两侧尾部长度对称。若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。

    偏度



    作者:AnthRax
    链接:https://www.jianshu.com/p/74470a9ed567
    來源:简书
    简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

    展开全文
  • 数据挖掘:描述性统计分析

    千次阅读 2019-06-10 18:33:12
    数据分析的基础是统计学,统计学又分描述性统计和推断性统计,其中描述性统计又是统计学的基础,也是推断性统计的前导。其百度百科定义是这样的:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据...

    数据分析的基础是统计学,统计学又分描述性统计和推断性统计,其中描述性统计又是统计学的基础,也是推断性统计的前导。其百度百科定义是这样的:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

    一、集中趋势分析

    1. 平均数:平均数是总和除以总量。
    2. 中数:中位数是数值大小位于中间的值,其中数值根据总数的奇偶而不同。
      2.1 总数N为奇数时:(N+1)/2
      2.2 总数N为偶数时:[N/2+(N/2+1)]/2
    3. 众数:众数是出现次数最多的值。
      上面已经把描述性统计的分析维度和计算方法都讲清楚了,接下来我们借鉴一个例子来说明下。比如现在有一个班级的身高数据height = [165,166,167,168,170,170,170,172,175,180,190],我们如何描述这个班级身高的集中趋势呢?
      在这里插入图片描述

    二、离中趋势分析(离散)

    1. 极差:最大值减去最小值。
    2. 方差:所有数据与平均数之差平方和的平均数。
    3. 标准差:离均差平方的算术平均数的平方根,是方差的算术平方根。
    4. 变异系数:原始数据标准差与原始数据平均数的比。
      上面是从数据的离散程度来描述数据,我们还是用上面那个例子来说明数据的离散程度。
      在这里插入图片描述
      z-score,除了上面离散的分析维度之外,我们还要介绍一个偏离程度,也就是测量值距均值相差的标准差数目,计算公式是:z-score = [X - mean(X)]/std(X),其中z-score分布的方差和标准差为1,均值为0。

    三、相关分析

    1. 协方差(COV):如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值,即为协方差。协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差为正值表示正相关,负值为负相关,0为不相关。
    2. 相关系数(CORRCOEF):两个变量X,Y的协方差比上各自的标准差乘积。
      在这里插入图片描述

    参考文献
    1.描述统计百度百科定义
    2.使用Python进行描述性统计
    3.Eun Sul Lee《数据分析方法五种》

    展开全文
  • #SAS统计分析-描述性统计

    千次阅读 2019-09-18 10:36:42
    关于统计性统计的基础概念之前就大致有整理过了,想要回顾的可以点击:这个主题的文章会侧重于sas关于统计分析的应用的学习整理与讲解,过程中也会补充一些比较重要的统计分析概念...

    关于统计性统计的基础概念之前就大致有整理过了,想要回顾的可以点击:

    0?wx_fmt=png

    这个主题的文章会侧重于sas关于统计分析的应用的学习整理与讲解,过程中也会补充一些比较重要的统计分析概念。

    1. 随机变量及概率分布

    在之前的什么总体,个体,样本,简单随机抽样,连续or分类变量,统计量,自由度等概念就不说了,而关于概率分布,我还是再简单提及一下。

    1)伯努利试验&二项分布

    最简单的随机试验是只有2种试验结果的随机试验,也称之为伯努利试验。我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验,或称为伯努利概型。

    0?wx_fmt=png

    二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

    一般地,在n次独立重复试验中,用ξ表示事件A发生的次数,如果事件发生的概率是p,则不发生的概率 q=1-p,N次独立重复试验中发生k次的概率是:P(ξ=K)=0?wx_fmt=png

    (K=0,1,2,3,…n),那么就说ξ服从二项分布,其中P称为成功概率,记作:ξ~B(n,p)。

    (1)二项分布的期望:Eξ=np;

    (2)二项分布的方差:Dξ=npq。

    2)柏松分布(poisson distribution)

    柏松分布常用来描述单位时间内随机事件发生的次数,是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)

    泊松分布的概率函数为:

    0?wx_fmt=png

    泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数,泊松分布的期望和方差均为 入 。

    3)正态分布(normal distribution)

    正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

    0?wx_fmt=png

    正态分布是随机变量X服从数学期望为μ、方差为σ^2的分布,记为N(μ,σ^2)。其第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。

    遵从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。

    正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。当μ = 0,σ = 1时的正态分布是标准正态分布。

    2. 描述性统计量

    抽取合适的样本后,在利用样本数据对总体进行判断统计之前,有必要对样本数据进行探索。一方面,能及时发现样本数据中的问题,如缺失,异常;另一方面,也可以观测数据的分布情况。

    描述性统计量主要分为3类:

    1)描述数据集中趋势:如均值,中位数,众数等

    2)描述数据离散程度:如方差,标准差,变异系数,极差,四分位数等

    3)描述数据分布情况:如偏度系数,峰度系数,百分位数,直方图,箱线图,正态概率图等

    以上提及的几个常见的统计量,有些大家都是非常熟悉了,我就总结整理一下可能会比较陌生的统计量吧。(下面的统计量就不分类了)

    (1)变异系数

    变异系数是一种不受单位影响的表示数据离散趋势的指标,特别适合于在两种情况下(各组数据的单位不完全相同时,或者各组数据间的均值相差悬殊时)比较各组间变异程度的大小,一般用CV来表示。

    CV=s/x,即标准差与均值之比。当CV值小时,均值代表性就大,反之,均值代表性就不大。

    (2)偏度系数&峰度系数

    统计量偏度系数(skewness)和峰度系数(kurtosis)正是用来刻画数据的分布状态的,偏度系数是用来描述分布是对称分布还是偏向某一侧,峰度系数是用来描述分布是向中心位置集中还是向两侧集中。

    偏度系数:正态分布的偏度系数为0,若小于0,数据分布侧向于数据小的一侧,数据的均值小于中位数,称数据呈负偏态分布或左偏分布;反之,则为正偏态分布或右偏分布。

    峰度系数:当峰度系数小于0,称为低峰分布,若分布是对称的,则相比正态分布,数据呈现出“薄尾”,较少的数据分布在两端,称之为薄尾分布;反之,分布称之为尖峰分布,以及厚尾分布。

    (3)正态概率图

    用于检查一组数据是否服从正态分布的图形,是实际数据与正态分布分位数之间函数关系的散点图。如果一组数据服从或接近正态分布,则正态概率图将会是一条直线。

    3.描述性统计量在sas中的实现

    1)UNIVARIATE过程

    UNIVARIATE过程的基本功能如下:

    • 描述性统计分析,涉及偏度、峰度、分位数的计算,频率表的绘制和变量极端值分析等。

    • 常用统计图形的绘制,包括直方图、概率分布累积图和Q-Q图等。

    • 数据的正态性检验。

    在SAS系统中,UNIVARIATE单变量过程的基本格式为:

    1. PROC UNIVARIATE [选项] ;   

    2. BY变量列表;   

    3. CDFPLOT变量列表 [选项];   

    4. CLASS 变量列表;   

    5. FREQ 变量;   

    6. HISTOGRAM 变量列表 [选项];   

    7. ID 变量;   

    8. OUTPUT [out=输出数据集名] [统计量关键字=变量名];  

    9. QQPLOT 变量列表 [选项];   

    10. VAR 变量列表;   

    11. WEIGHT 变量;  

    其中:

    PROC语句用于指定使用UNIVARIATE过程进行描述性统计分析,同时,在该语句后常用的选项介绍如下

    DATA=数据集名:指定需要分析的数据集。

    PLOT或PLOTS:绘制茎叶图、盒式图和正态概率图。

    FREQ:生成频数分布表。

    NORMAL:对输入变量进行正态性检验。

    BY语句用于指定分组的变量,在组内对数据进行描述性分析。

    CDFPLOT语句用于控制概率分布累积图的绘制。

    CLASS语句的用法基本同BY语句,用于指定分组的变量。

    FREQ语句用于指定代表观测频数的变量。

    HISTOGRAM语句用于控制直方图的绘制。

    ID语句用于指定数据集中识别观测的变量。

    OUTPUT语句用于建立一个新的数据表,存放分析的结果。

    QQPLOT语句用于控制Q-Q图的绘制。

    VAR语句用于指定UNIVARIATE过程分析的变量。

    WEIGHT语句用于指定代表观测权重的变量。

    UNIVARIATE 程序内有二十六个统计值:

    统计值及对应含义

    • N 非缺失值个数

    • NMISS 缺失值个数

    • NOBS 观察体总数

    • MEAN 平均数

    • SUM 变量值的总和

    • STD 标准差

    • VAR 变异系数(标准误)

    • SKEWNESS 偏度

    • KURTOSIS 峰度

    • SUMWT 所有观察体在

    • WEIGHT 变量上的总和

    • MAX 变量的最大值

    • MIN 变量的最小值

    • RANGE 最大值减去最小值所得的差

    • Q3 第三个四分位数

    • MEDIAN 中位数 (第 50 的百分位数)

    • Q1 第一个四分位数

    • QRANGE Q3 减去 Q1 之差

    • P1 第 1 的百分位数

    • P5 第 5 的百分位数

    • P10 第 10 的百分位数

    • P90 第 90 的百分位数

    • P95 第 95 的百分位数

    • P99 第 99 的百分位数

    • MODE 众数如果有不只一个众数取最小值的那一个

    • SIGNRANK 等级符号检定法 (The Signed Rank Statistic Lehmann 1975)

    • NORMAL 常态分配的检定 (Test Statistic for Normality)若观察体个数少于 51 则采用Shapiro-Wilk 的 W Statistic 的方法检定否则采用用 Kolomogorov

    2)MEANS过程

    主要功能:

    The MEANS procedure provides data summarization tools to compute descriptive statistics for variables across all observations and within groups of observations(计算描述性统计量,比如均值方差等,还可以用来做置性区间的计算) 

    常用用法:

    • calculates descriptive statistics based on moments 计算基于矩的描述性统计量,如均值、方差、标准差、偏度、峰度

    • estimates quantiles, which includes the median 计算分位数

    • calculates confidence limits for the mean  计算均值的置性区间

    • identifies extreme values 极值

    • performs a t test t检验

    基本语法:

    proc means <option(s)> <statistic-keyword(s)>;

      by <descending> variable(s);

      class variable(s) <option(s)>;

      freq variable;

      id variable(s);

      output <out = dataset> <output-specification(s)>;

      types request(s);

      var variable(s);

      ways list;

      weight variable;

    直接运行 proc means过程时,会对所有数值型变量进行操作,得到各变量的非缺失观测数N,均值MEAN,标准差STD DEV,最大值Max和最小值Min。

     <option(s)>常用项:

    data=<制定输入的数据集>

    (field width)fw=<specifies the field width to display the statistics in printed or displayed output>

    maxdec=<specifies the maximum number of decimal places to display the statistics in the printed or displayed output>

    missing= <If you omit MISSING, then PROC MEANS excludes the observations with a missing class variable value from the analysis>

    noobs noprint

    NWAY:specifies that the output data set contain only statistics for the observations with the highest _TYPE_ and _WAY_ values,使输出数据集中包含_type_和_way_的最大值

     <statistic-keyword(s)>

    默认输出统计量: std标准差、n观测个数、means均值、min/max

    cv 变异系数、 stderr标准误即样本均值的方差、 css偏差平方和、vardef自由度,clm双尾置性区间,LCLM左尾置性区间,UCLM右尾置性区间,

    ALPHA=default0.05 (1-置信度)。

     

    Types语句:规定输出结果的分组类型和顺序,其中的变量一定要在class语句中,和class语句中变量的顺序有关

    例如class a b c;则 type () a b a*b c a*c b*c a*b*c的type值分别为0 1 2 3 4 5 6 7,type值决定其输出顺序,不同的type类型有些类似tabulate中的table语句,规定以何种变量为分组类型输出; 

    by语句:必须先排序才能用by语句,by语句进行的分组在输出时会输出两个表,而class不会

     

    var语句:规定需要分析的变量

     

    ID语句:取对应变量的最大值放入数据集;

     

    output语句:规定输出数据集以及要输出的变量

    0?wx_fmt=png

    关于sas的统计分析就大概讲这些吧~很多还是要在实战中去实践会学得更快~【阅读原文】可以看到我在网路上看到的一些实例,还挺不错的~~

    展开全文
  • 3. 描述性统计分析

    千次阅读 2018-06-10 18:29:37
    描述性统计分析 描述性统计分析 描述定性数据的图形法和数值法 描述定量数据的图形法 点图 茎叶图 直方图 描述定量数据的数值法 中心趋势的度量 变异性的度量 相对位置的度量 百分位数 z得分 检测异常值的...

    描述性统计分析

    描述定性数据的图形法和数值法

    对给定的类,类(或组)频数是指落入这个类中的观测值的个数。

    对给定的类,类(或组)相对频率是指落入这个类中的观测值个数相对于观测值总数的比例。

    定性数据的图形描述常用条形图饼图帕雷托图

    条形图:给出相应每一类的频数(或相对频率),长方形的高度或长度与类频数(或相对频率)成比例。

    饼图:把一个整圆(饼)分成几份,每一份代表一个类,每份中心角与类相对频率成比例。

    帕雷托图:将定性变量(即长方形)的类(组)按照高度从左向右降序排列的条形图。

    帕雷托图以意大利经济学家 Vilfredo Pareto 命名。

    描述定量数据的图形法

    定量数据集是由某种有意义的数值标度的数据组成。为了描述、总结和检测这些数据的模型,我们可以采用三种图形法:点图、茎叶图和直方图。

    点图

    数据集中每一个定量测量的数值表示为水平刻度尺上的一个点,当数值重复时,点垂直画在另一个点之上。

    茎叶图

    定量变量的数值分为茎和叶两部分,可能的茎按顺序排在一列中,数据集中每一定量测量值的叶放在相应茎的行上,有相同茎的观测值的叶在水平方向按升序排列。

    茎是测量值小数点左边的部分,叶是剩下的小数点右边的部分。

    直方图

    定量变量的可能数值被分成若干组区间,其中每一区间有相同的宽度,这些区间构成了水平轴刻度。确定落在每一组区间中的观测值的频数或相对频率。每一组区间上放一个垂直的长方形,它的高度或者等于频数或者等于相对频率。

    描述定量数据的数值法

    三种类型的度量

    • 中心趋势度量:帮助确定相对频率分布中心位置的度量
    • 变异的度量:围绕中心波动的度量
    • 相对位置的度量:描述数据集中一个观测值相对位置的度量

    两个定义

    • 统计量:有样本数据计算得到的数值描述性度量
    • 参数:总体的数据描述性度量

    中心趋势的度量

    算数平均中位数众数是三种最常用的中心趋势度量。

    变异性的度量

    数据变异性最常用度量是极差方差标准差

    • 极差:等于y一个数据集合中最大测量值和最小测量值的差。
    • 方差
    • 标准差

    经验法则

    若一个数据集有近似丘形的对称分布,则可用以下的经验法则描述数据集:
    1. 大约68%的测量值位于均值的1个标准差范围内
    2. 大约95%的测量值位于均值的2个标准差范围内
    3. 几乎所有的测量值位于均值的3个标准差范围内

    相对位置的度量

    观测值相对位置的两个度量是百分位数和 z z 得分。

    百分位数

    定义
    数据集的第100p百分位数是这样一个 y y 值:使得在数据集的相对频率分布中有100p%的面积位于它的左边,有 100(1p)% 100 ( 1 − p ) % 的面积位于它的右边(其中, 0p1 0 ≤ p ≤ 1 )。

    中位数是第50百分位数。

    对一个数据集而言,第25百分位数、中位数、第75百分位数分别称作下四分位数中四分位数上四分位数

    五数概括(five-number summary)由中位数、四分位数(上、下四分位数)、最小和最大观测值组成。

    z得分

    定义
    一个数据集中 y y 值的z得分是以标准差为单位度量 y y 位于均值之上或之下的距离。

    样本z得分:

    z=yy¯s z = y − y ¯ s

    其中, y¯ y ¯ 是样本均值, s s 是样本标准差。

    总体z得分:

    z=yμσ z = y − μ σ

    其中, μ μ 是总体均值, σ σ 是总体标准差。

    检测异常值的方法

    定义
    相对于数据集中其他值不寻常地大或小的观测值 y y 称为异常值。一般异常值归咎于下列原因之一:
    1. 观测、记录或输入计算机时不正确的测量值
    2. 测量值来自不同的总体
    3. 观测值是正确的,但是代表一个稀有(偶然)事件

    使用z得分来检测异常值

    经验法则表明,数据集中几乎所有观测值的z得分绝对值小于3。

    使用盒子图来检测异常值

    盒图(boxplot)是一种流行的分布的直观表示。盒图体现了五数概括:
    - 盒的端点一般在四分位数上,使得盒的长度是四分位数极差(间距)IQR
    - 中位数用盒内的线标记
    - 盒外的两条线(称作胡须)延伸到最小和最大观测值。

    定义
    四分位数间距IQR是上四分位数和下四分位数的距离:

    IQR=QUQL I Q R = Q U − Q L

    内篱笆

    =QL1.5(IQR) 下侧内篱笆 = Q L − 1.5 ( I Q R )

    =QU+1.5(IQR) 上侧侧内篱笆 = Q U + 1.5 ( I Q R )

    外篱笆

    =QL3(IQR) 下侧外篱笆 = Q L − 3 ( I Q R )

    =QU+3(IQR) 上侧外篱笆 = Q U + 3 ( I Q R )

    Reference

    1. 统计学
    2. 数据挖掘概念与技术
    展开全文
  • 利用Python进行描述性统计

    万次阅读 2018-01-22 12:44:50
    统计学分为描述统计学和推断统计学,描述统计学是使用特定的数字或图表来体现数据的集中程度或离散程度,如平均数、中位数、众数、方差、标准差... 利用Python进行描述性统计分析,需要用到numpy库和scipy库: fro
  • 4 描述性统计量和统计

    万次阅读 2017-02-08 11:28:26
    描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。  统计图包括箱线图、直方图、经验分布函数图、正态概率图、P-P图和...
  • 描述性统计、参数估计和假设检验

    万次阅读 2021-04-03 01:15:43
    描述性统计分析 描述性统计所提取的统计的信息称为统计量,包括频数与频率,反映集中趋势的均值、中位数、众数和分位数,反映离散程度的极差、方差和标准差,反映分布形状(相对于正态分布)的偏度和峰度。 变量分为...
  • 描述分析(描述性统计分析)就是用来概括、描述数据的整体状况以及数据各特征的统计方法。 描述的内容分为: 集中趋势:平均数,众数、中位数、四分位数 离散程度:方差、标准差、极差、变异系数、四分位差 分布...
  • 今天我们重点来看一下如何使用应用统计图来进行描述性统计分析,在进入到今天的主题之前,小白还需要给大家补充介绍一个做描述性统计分析的工具—表格: 如上图所示,我们需要用到的就是在分析栏中的表这个子菜单...
  • SPSS中的数据分析—描述性统计分析【1】

    万次阅读 多人点赞 2020-06-17 10:52:57
    从今天开始,小白将深入给大家带来关于数据分析工具SPSS的使用和讲解,在这段时间里我会带着大家来一起学习了解如何使用SPSS进行描述性统计分析、假设检验、相关分析、回归分析、聚类分析、主成份分析、因子分析等。...
  • 数据分析师一定要掌握的基础——描述性统计分析

    千次阅读 多人点赞 2020-03-31 23:20:54
    以下博客内容讲解了描述性统计分析的所有知识点,以及利用鸢尾花数据集的分析加强对各个统计量的理解。 数理统计基础-描述性统计分析1、数理统计基础2、描述性统计分析概述(1)概念(2)变量的类型3、统计量(1)...
  • 使用Python进行描述性统计

    千次阅读 2017-04-06 18:13:43
    1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析  2.1 基本概念  2.2 中心位置(均值、中位数、众数)  2.3 发散程度(极差,方差、标准差、变异系数)  2.4 偏差程度(z-分数)  2.5 相关程度...
  • 对于描述性统计来说,R可以实现的方法有很多,基础自带的有summary()函数,还有其他packages,如Hmisc包,pastecs包,psych包提供了计算更多内容的函数。 基础函数 在R中,我们经常使用summary()函数来计算最大值、...
  • 统计学之描述性统计(一)

    千次阅读 2019-07-20 22:47:18
    Python实现数据的描述性统计 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的...
  • 描述性数据分析

    万次阅读 2018-07-22 16:33:38
    描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据...
  • MATLAB R2018a 统计和机器学习工具箱学习(一) 描述性统计与可视化 该内容被分为三个部分: 一、数据管理(Managing Data);  二、描述性统计(Descriptive Statistics);  三、统计可视化(Statistical ...
  • 数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等。 一,认识变量和数据 变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把...
  • 以下描述看似详细,实际上只讲解了QUARTILE.EXC这一种情况。 “四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。 计算公式为:Q = Q3-Q1 四分位差反映了...
  • R语言之描述性统计

    千次阅读 2015-08-18 22:02:04
    解释:一个变量取值在1,2,3,4,5可以根据这个变量分为5组进行描述性统计量可以值均值、方差,可以是多个变量进行分组 > aggregate(mtcars[vars],by=list(carb=mtcars$carb),mean)  carb mpg hp wt 1 1 25....
  • R语言中的抽样方法描述统计函数

    千次阅读 2019-04-26 00:46:55
    抽样方法 常见的抽样方法 简单随机抽样 分层抽样 系统抽样 # 导入数据 # 1 金融 2 建筑 3 外语 data <- read.csv("E:\\Github\\code-learning\\R\\data\\第11期资料\\data.csv") # 按照专业和ID排序 data <-...
  • 对于分组数据,分为: 1. 组离散数据的中位数: 首先要构造累积频率分布表,然后通过累积频率分布表确定数据的中位数对应的观测值的位置,然后根据观测值的位置按照插值法估算数据的中位数。 2. 组连续数据的中位...
  • 平稳性检验(描述性)与纯随机性检验

    万次阅读 多人点赞 2019-04-19 11:46:41
    平稳性检验的方法分为描述性方法与计量性方法。前者主要指时序图检验、ACF 图检验,后者主要指 DF 检验、ADF 检验与PP检验。由于计量性方法需要 ARMA 模型的相关知识,这篇博客仅仅介绍描述性方法。 时序图检验 ...
  • 一般有频数分布直方图和频率分布直方图两种。 二、数据的计量尺度  数据的计量尺度是指对计量对象量化时采用的具体标准,它分为以下四类: 定类尺度:表现为“ 类别 ” ,各类之间无等级大小差别; 定序尺度:...
  • 在R中对李克特量表带数据进行可视化描述性统计分析 李克特量表是一种常用的社会调查问卷模式。常规论文中对多级的李克特量表数据大多计算均值来进行描述性统计分析,但均值较难表现样本整体分布状况,R中likert ...
  • EXCEL中的数据分析—描述统计

    千次阅读 2019-09-11 10:07:18
    描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。在这三个部分当中,集中趋势主要是靠数据当中的平均数、中数、众数等统计指标来表示。离中趋势主要是靠数据当中的四分差、平均差、方差和标准差等统计指...
  • 数据描述性分析

    千次阅读 2015-09-29 14:26:57
    统计分析分为统计描述统计推断。统计描述是通过绘制统计图、编制统计表、计算统计量等方法描述数据的分布特征。它是数据分析的基本步骤,也是统计推断的基础。 一.描述统计量 已知一组试验(或观测)数据为,它...
  • 统计学习方法

    万次阅读 2018-11-19 00:16:18
    统计学习的方法: 监督学习 非监督学习 半监督学习 强化学习 第一章 统计学习方法概论 1.2监督学习 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。 监督学习的...
  • 统计学习方法第二版 李航

    千次阅读 多人点赞 2020-08-02 19:33:27
    以后我会在博客记录自己学习《统计学习方法》第二版这本书的笔记,其实也就是我自己认为比较重要或者有用的内容,以及部分python代码的实现。 第一章 统计学习及监督学习概论 这一章主要都是些概念,所以我可能更多...
  •  统计学可以分为描述统计学与推断统计学。  描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是描述统计学的范...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 121,745
精华内容 48,698
关键字:

统计方法一般分为描述性