精华内容
下载资源
问答
  • 【R】数据统计基础:集中趋势和离散程度及简单R语言代码
    千次阅读
    2019-04-18 09:55:30

    集中趋势:

    3种常见统计量:均值、中位数、众数
    均值: mean()
    中位数:median()
    众数:没有默认,要先下载R包:FinAna。之后用 get.mode()

    离散程度

    常见统计量:极差、四分位数、百分位数、四分位距、标准差、方差、变异系数
    极差:

    也称全距,一组数据最大值与最小值之差
    R语言:第一种方法:先用range(),求范围;再用diff(range());
    第二种方法(简单粗暴用最大最小直接求解):print(c(min(),max()))

    四分位数:

    将一组数据分为四部分的三个数字:下四分位数、中位数、上四分位

    R语言:quantile(… ,0.25) quantile(… ,0.75)

    百分位数:

    将一组数据分成一百组,描述如,第35百分位数,是将下部35%的数值和上部65%的数值分开的数

    四分位距(IQR):

    上四分位数与下四分位数的差;反映中间50%数据的离散程度,数值越小说明中间的数据越集中,数值越大,说明中间的数据越分散。与极差相比,四分位差不受极值影响

    标准差(SD):

    又称标准偏差、均方差 。R语言:sd()

    方差(VAR):

    标准差的平方 。R语言:var()

    变异系数

    又称离散系数,用 标准差 除以 x的平均值(消除量纲的影响)。比较两组差异很大的数据的变异程度
    R语言:先下载安装R包:sjstats, 再运行cv()

    五数概括法

    用以下5个数描述一组数据的分布:最小值、下四分位数、中位数、上四分位数、最大值
    可以通过箱线图展示五数概括法

    切比雪夫定理

    对于任一分布的数据,至少有75%的数值在均值+-2个标准差以内,至少89%的数据在均值+-3个标准差以内

    更多相关内容
  • 【同步测试】利用统计量分析数据集中趋势x.docx
  • 统计学中,常用均值、中位数、众数来对数据进行集中趋势度量。我们平时说的平均值在统计学中往往指的就是这三种统计量,而不仅仅指均值。下面,详细介绍这三个统计量。 一、均值 计算方法 μ=∑xn\mu =\frac{\sum x}...

    统计学中,常用均值、中位数、众数来对数据进行集中趋势度量。我们平时说的平均值在统计学中往往指的就是这三种统计量,而不仅仅指均值。下面,详细介绍这三个统计量。

    一、均值

    计算方法

    μ = ∑ x n \mu =\frac{\sum x}{n} μ=nx μ = ∑ f ⋅ x ∑ f \mu =\frac{\sum f\cdot x}{\sum f} μ=ffx
    备注:x表示数据种每个数字;n表示数据个数;f表示每个数字对应的频数。

    适用情况

    在数据非常对称,且只显示一种趋势时。

    二、中位数

    计算方法

    将数据从小到大先进行排序,
    当数据个数为奇数个时,第 n + 1 2 \frac{n+1}{2} 2n+1个数就是中位数;
    当数据个数为偶数个时,第 n 2 \frac{n}{2} 2n个数和第 n 2 + 1 \frac{n}{2}+1 2n+1个数的均值就是中位数;

    适用情况

    在数据有异常值,使得数据有右偏斜或左偏斜,没有办法通过均值来表示数据的典型值时。

    备注:均值>中位数,表示数据右偏斜;均值<中位数,表示数据左偏斜。

    三、众数

    计算方法

    数据中频数最多的数(可以是1个,也可以是多个)。

    适用情况

    ①数据中有多组,使得数据有多个趋势或多个典型值。
    ②要衡量的是类别型数据而非数值型数据。对于类别型数据,只有众数才能衡量集中趋势。

    展开全文
  • 数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值,这个代表值...算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算...

            数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好反映事物目前所处的位置和发展水平,通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。数据的集中趋势描述的形式主要有如下几种:

    1.算数平均值

    算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算术平均值主要用于定距数据,表示数据集合的集中趋势。也能用于定类数据和定序数据,决定算术平均值是否使用的前提条件是,求得的算术平均值是否具有现实意义。

    1.1 简单算术平均值

    简单算术平均值是最典型,最常用,最具有代表性的集中趋势指标。将数据集合的所有数据值相加的和除以数值个数就得到简单算术平均值。

    1.2 加权算术平均值

    因为简单算术平均值认为所有的数据都具有同等的重要性,所以每个数据值都具有相同的权重。但有些时候,每个数据值的权重是不一样的,需要用加权算术平均值来表示数据集合的集中趋势。

    数学概念:

    (1)若n个数  的权分别是  ,那么 叫做这n个数的加权平均值。

    (2)此外,加权平均值也可用下图表示,其中  表示权数。理解方法:将原式看作  即可。

     

    1.3 使用算术平均值的注意事项

    算术平均值虽然是应用最广泛的集中趋势指标,受样本数据波动的影响最小,具有一定的稳定性,但是也有明显的缺陷。当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果会掩盖数据集合的真实特征,这时算术平均值就失去了代表性。

    2.几何平均值

    有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。

    定义:

    几何平均数是n个变量值连乘积的n次方根。

    分为简单几何平均数与加权几何平均数。

    1、简单几何平均数:

    几何平均数示意图

    2、加权几何平均数:

    特点:

    1、几何平均数受极端值的影响较算术平均数小;

    2、如果变量值有负值,计算出的几何平均数就会成为负数或虚数;

    3、它仅适用于具有等比或近似等比关系的数据;

    4、几何平均数的对数是各变量值对数的算术平均数

    3.众数

        数据集合中出现次数最多的数值被称为众数。如果在一个数据集合中,只有一个数值出现的次数最多,那么这个数值就是该数据集合的众数;如果有两个或多个数值出现的次数并列最多,那么这两个或多个数值都是该数据集合的众数;如果数据集合中所有数据值出现的次数相同,那么该数据集合没有众数。众数对定类数据,定序数据,定距数据和定比数据都是用,都能表示由它门组成的数据集合的数据集中趋势。

    4.中位数

    对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

    定义:

    中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小,这里用  来表示中位数。(注意:中位数和众数不同,众数指最多的数,众数有时不止一个,而中位数只能有一个。)

    有一组数据:

    将它按从小到大的顺序排序为:

    则当N为奇数时,  ;当N为偶数时,  。

    一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。

    特点:

    1)中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。

    2)有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。

    3)趋于一组有序数据的中间位置

    总结来说,中位数与算术平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点,这个特点使其在数据集合的数据分布有较大偏斜时;能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势

     

    展开全文
  • 对于成功的数据分析而言,把握数据...用于描述数据的基本统计量主要分为三类,分别是中心趋势统计量、散布程度统计量和分布形状统计量。 1,中心趋势统计量 中心趋势统计量是指表示位置的统计量,直观地说,给定一...

    对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度、离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很大的参考作用。

    一,基本统计量

    用于描述数据的基本统计量主要分为三类,分别是中心趋势统计量、散布程度统计量和分布形状统计量。

    1,中心趋势统计量

    中心趋势统计量是指表示位置的统计量,直观地说,给定一个属性,它的值大部分落在何处?

    (1)均值

    均值(mean)又称算数平均数,描述数据去指导额平均位置,数学表达式:均值 =  ∑x  /  n;

    有时,一组数据中的每个值可以和一个权重Wi相关联,权重反映的的是依附值的重要性或出现的频率,这种均值称作加权均值 =  ∑xw  /  n;

    尽管均值是描述数据集中心趋势的最有用的统计量,但是,它并非总是度量数据中心的最佳方法,这是因为,均值对极端值(离群点)很敏感。为了抵消少数极端值的影响,我们可以使用截尾均值,截尾均值是指丢弃极端值后的均值。

    (2)中位数

    对于倾斜(非对称)的数据,能够更好地描述数据中心的统计量是中位数(median),中位数是有序数据值的中间值,中位数可避免极端数据,代表这数据总体的中等情况。例如:从小到大排序,总数是奇数,取中间的数,总数是偶数,取中间两个数的平均数。

    (3)众数

    众数(mode)是变量中出现频率最大的值,通常用于对定性数据确定众数,例如:用户状态(正常,欠费停机,申请停机,拆机、消号),该变量的众数是“正常”,这种情况是正常的。

    2,表示数据离散程度的统计量

    度量数据离散程度的统计量主要是标准差和四分位极差。

    (1)标准差(或方差)

    标准差用于度量数据分布的离散程度,低标准差意味着数据观测趋向于靠近均值,高标准差表示数据散步在一个大的值域中。

    (2)四分位极差

    极差(range),也称作值域,是一组数据中的最大值和最小值的差, range = Max - Min。

    百分位数(quantile)是把数据值按照从小到大的顺序排列,把数据分成100份。中位数是数据的中间位置上的数据,第一个四分位数记作Q1,是指第25个百分位上的数据,第三个四分位数记作(Q3),是指第75个百分位上的数据。

    四分位极差(IQR)= Q3 - Q1 ,IQR是指第一个四分位和第三个四分位之间的距离,它给出被数据的中间一半所覆盖的范围,是表示数据离散程度的一个简单度量。

    3,表示分布形状的统计量

    分布形状使用偏度系数和峰度系数来度量,

    偏度是用于衡量数据分布对称性的统计量:通过对偏度系数的测量,我们能够判定数据分布的不对称程度以及方向。

    • 对于正态分布(或严格对称分布)偏度等于0
    • 若偏度为负, 则x均值左侧的离散度比右侧强;
    • 若偏度为正, 则x均值左侧的离散度比右侧弱;

    峰度是用于衡量数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。

    • 正态分布的峰度为3,
    • 当时间序列的曲线峰值比正态分布的高时,峰度大于3;
    • 当比正态分布的低时,峰度小于3。

    (1)偏度系数

    偏度系数反映数据分布偏移中心位置的程度,记为SK,则有 SK= (均值一中位数)/标准差。偏度系数是描述分布偏离对称性程度的一个特征数。

    正态分布的偏度为0,偏度<0称分布具有负偏离(左偏态),此时数据位于均值左边的位于右边的多,有个尾巴拖到左边,说明左边有极端值,偏度>0称分布具有正偏离(右偏态)。偏度接近如于0 ,可认为分布对称。例如:知道分布有可能在偏度上偏离正态分布,则可用偏度来检验分布的正态性。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

    (2)峰度系数

    峰度系数(Kurtosis)用来度量数据在中心聚集程度,记为K,描述总体中所有取值分布形态陡缓程度的统计量(与正态分布比较,,就是正态分布的峰顶)。

    例如:正态分布的峰度系数值是3,K>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;K<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部。

    峰度系数公式是:

    示例,本文使用vcd包中的Arthritis数据集来演示如何进行统计量分析:

    head(Arthritis)
      ID Treatment  Sex Age Improved
    57   Treated Male  27     Some
    46   Treated Male  29     None
    77   Treated Male  30     None
    17   Treated Male  32   Marked
    36   Treated Male  46   Marked
    23   Treated Male  58   Marked
    

    其中变量Improved和Sex是因子类型,ID和Age是数值类型。

    二,集中趋势度量

    集中趋势通过均值、中位数和众数来度量。

    1,均值

    均值是所有数据的平均值,使用mean()函数来计算向量的均值:

    age.mean <- mean(Arthritis$Age)
    

    有时,为了反映在均值中不同成分所占的权重,为数据中的每个元素X赋予一个权重Wi,这样就得到了加权平均值,使用weighted.mean(x,w)来计算加权平均值。

    weighted.mean(x,w)
    

    x为数据向量,w为权重向量,x中每一个元素都对应w中的一个权重值。

    根据Sex来设置权重(weight),男性的Age的权重为95%,女性的Age的权重为105%,那么得到的加权平均值是:

    age.wt <- ifelse(Arthritis$Sex=="Male",0.95,1.05)
    age.wt.mean <- weighted.mean(Arthritis$Age,age.wt)
    

    如果数据中存在极端值或者数据是偏态分布的,那么均值就不能很好地度量数据的集中趋势,为了消除少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。截断均值是指去掉极端值之后的平均值。

    2,中位数

    中位数是把一组观察值从小到大按顺序排列,位于中间的那个数据。使用median(x)计算中位数。

    age.median <- median(Arthritis$Age)
    

    3,众数

    众数是指数据集中出现最频繁的值,众数常用于定性数据。R没有标准的内置函数来计算众数,因此,我们将创建一个用户自定义函数来计算数据集的众数。

    该函数以向量作为输入,以众数值作为输出。

    getmode <- function(v) {
       uniqv <- unique(v)
       uniqv[which.max(tabulate(match(v, uniqv)))]
    }
    

    三,离中趋势度量

    衡量离中趋势的四个度量值:

    • 值域(Range)的计算公式:Range = Max - Min
    • 标准差:度量数据偏离均值的程度
    • 变异系数(CV):变异系数度量标准差相对于均值的离中趋势,计算公式是:CV=标准差/均值
    • 四分位数间距(IQR)是上四分位数QU和下四分位数QL之差,其间包含全部观察值的一般,其值越大,说明数据的变异程度越大,离中趋势越明显。

     查看Arthritis数据集的离中趋势:

    get_stat <- function(v){
      v.mean <- mean(v)
      v.median <- median(v)
      v.range <- max(v)-min(v)
      v.sd <- sd(v) v.cv <- v.sd/v.mean v.iqr <- quantile(v,0.75) - quantile(v,0.25) d.stat <- data.frame(mean=v.mean,median=v.median,range=v.range,sd=v.sd,cv=v.cv,iqr=v.iqr, row.names = NULL) } mystat <- get_stat(Arthritis$Age) 
    

    四,偏度和峰度

    基础安装包中没有提供计算偏度和峰度的函数,用户可以自行添加:

    mystats <- function(x, na.omit=FALSE){
        if (na.omit)
        x <- x[!is.na(x)]
        m <- mean(x)
        n <- length(x)
        s <- sd(x)
        skew <- sum((x-m)^3/s^3)/n
        kurt <- sum((x-m)^4/s^4)/n - 3
        return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))
    }
    myvars <- c("mpg", "hp", "wt")
    sapply(mtcars[myvars], mystats)
    

    为大家推荐一篇文章:关于偏度与峰度的一些探索,引用该文中的峰度影响实验的结论:

    尾部或离群点对峰度影响为正向,且影响程度最大。而高概率区对峰度影响也为正向,但是比较少;而山腰位置,中等概率区域则影响为负向。

    参考文档:

    关于偏度与峰度的一些探索

    展开全文
  • 霍普金斯统计量是一种空间统计量,用于检验空间分布的变量的空间随机性,从而判断数据是否可以聚类。 计算步骤: 均匀地从D的空间中抽取n个点p1,p2,…pn,对每个点pi(1≤i≤n),找出pi在D中的最近邻,并令xi为pi与它...
  • 即一组数据距离数据中心的靠近程度
  • 数据上应用任何聚类算法前,一个重要问题是,即使数据不包含任何集群,聚类...而通常,与非随机结构相对的是均匀分布,霍普金斯统计量的计算原理,便是检查数据是否存在均匀的分布。 而这里提供的,仅仅是对 ...
  • 统计学——数据分布特征与适用的描述统计量数据分布特征1、集中趋势(1)分类数据:众数(2)顺序数据:中位数(3)数值型数据:平均数2、离散程度(1)分类数据:异众比率(2)顺序数据:四分位差(3)数值型数据:...
  • 数据分析统计学基础之数据趋势

    千次阅读 2019-05-15 18:01:25
      集中趋势又称“数据的中心位置”、“集中数”等。它是一组数据代表值.数据集中趋势就是一组数据数据的中心值靠拢的程度。   集中趋势是统计学中的重要统计分析指标,常用的有平均数,中位数和众数等。...
  • 数据分析之定量数据的描述统计

    千次阅读 2018-07-31 22:10:49
    集中趋势和离中趋势两个方面进行分析: 1、集中趋势度量 (1)均值 主要问题时对极端值比较敏感,因此可以使用截断均值来度量。 算术平均数:=mean() 几何平均数:=exp(mean(log())) 计算数据样本的指定阶...
  • 目录 均值(mean) 用R计算均值 mean(x, trim=0, na.rm=FALSE) 例1 ...apply(x,1或2,计算函数 ) ...学习机器学习和数据挖掘中的...它的一些思想和大数据思想有些相悖,不关注数据的大小,而是更关注数据的好坏。 分
  • 数据的描述性统计

    千次阅读 2019-07-21 18:03:37
    描述数据集中趋势的指标有众数、中位数和平均数,其中平均数又分为算数平均数、加权平均数和几何平均数 众数 数据集合中出现次数最多的数值被称为众数。如果一个数据集合中,只有一个数值出现最多,那么这个...
  • 定义:离散程度用于衡量各变量值距离其中心值的程度,离散程度越大,则代表用于代表集中趋势的度量值对于这一组数据代表性也越差。 1.1 分类数据:异众比率 因为分类数据一般采用众数来代表集中趋势,因此对于...
  • Python-数据特征分析-(统计量分析)

    千次阅读 2019-09-16 15:18:45
    统计指标对定量数据进行统计描述,常从【集中趋势】和【离中趋势】两个方面进行分析。 平均水平的指标是对个体【集中趋势】的度量,使用最广泛的是均值和中位数; 反映变异程度的指标则是对个体【离开平均水平的...
  • EXCEL中的数据分析—描述统计

    千次阅读 2019-09-11 10:07:18
    今天给大家分享的是在数据分析中很重要的一环,也就是描述...在这三个部分当中,集中趋势主要是靠数据当中的平均数、中数、众数等统计指标来表示。离中趋势主要是靠数据当中的四分差、平均差、方差和标准差等统计指...
  • 统计指标 ---离散趋势指标

    千次阅读 2021-02-22 22:58:34
    集中趋势指标包括极差、平均差、标准差 极差:相距最远的两个点之间的距离,体现数据内部最大差异状况。 平均差:一组数据各项与平均值之间的平均差异。平均差=(每个数据项-均值)后相加除以数据项的个数,平均差...
  • 一文讲解数据分析所需要的数学知识!本文包括描述性统计量集中趋势、离散程度和分布形态),相关性与线性回归、方差分析、概率论(概率事件、条件概率、排列组合、概率分布)、统计推断(抽样、假设检验)等。
  • 统计分析基础 (一) 数据统计与图表

    千次阅读 2017-10-12 14:30:21
    统计分析基础 (一)数据统计与图表  1 数据统计 1.1 统计学统计学是在数据分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科。它是研究如何测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。...
  • 统计学学习笔记——(3)集中趋势

    千次阅读 2017-11-14 10:10:29
    集中趋势(Central Tendency)是指一组数据项某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。均值,中位数,众数均值(Mean):也称平均数,它是全部数据的算术平均。均值在统计学中具有重要的地位,是...
  • 例如,我们希望衡量样本集中趋势,在统计学中常用的且性质较好的统计量为均值;若要衡量样本离散程度,常用统计量为方差/标准差。若要衡量两组变量下样本的变化关系(同向/反向),常用协方差,若要衡量变化关系的...
  • 数据挖掘:描述性统计分析

    千次阅读 2019-06-10 18:33:12
    数据分析的基础是统计学,统计学又分描述性统计和推断性统计,...描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 一、集中趋势分析 平均数:平均数是总和除以总量。 中数:中位数是数值大小位于中...
  • 掌握数据的整体状态 如果只是看到一堆数据,...从数值的角度,可以从两个方面进行描述:数据集中趋势(central tendency),数据的变异性(variability)。从图示的角度,可以通过数据组的频数分布(frequency dist
  • 一组样本数据的数值特征一般来说可以从三个方面...数据水平是指数值大小,描述数据水平的统计量有平均数,分位数,众数,同时这几个统计量也可以用来描述数据集中趋势度。 平均数 **简单平均数(simple mean)**的...
  • 如何做好描述统计分析?

    千次阅读 2020-08-06 19:00:33
    对分类数据来说,众数是最适合描述其集中趋势的值,它是指一组数据中出现次数最多的变量,众数不受极端值的影响,但是可能不唯一,且当数据量较多时,才有意义。 中位数 对数据数据来说,可以用中位数来描述其...
  • 使用学习过的知识(Numpy数值分析基础、Matplotlib数据可视化基础、Pandas统计分析基础),对data.csv用户用户用电量数据进行相关处理,其中数据中有编号为1-200的200位电力用户,DATA_DATE表示时间,如2015/1/1表示...
  • 中级统计资料

    2018-12-18 14:49:52
    ⒉根据数据的类型,选择不同的统计图表对数据进行描述,使用不同的统计量反映数据集中趋势、离散程度。 ⒊根据样本统计量的抽样分布,对总体参数进行估计;根据影响样本量的主要因素,确定恰当的样本量。 ⒋运用...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 45,719
精华内容 18,287
关键字:

代表数据集中趋势的统计量