精华内容
下载资源
问答
  • 偏态分布

    万次阅读 2020-04-01 10:38:05
    一、总体介绍: 频数分布有正态分布和偏态分布之分。 正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。...如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同...

    一、总体介绍:

    频数分布有正态分布和偏态分布之分。
    正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。统计数据峰值与平均值相等的频率分布。
    偏态分布是指频数分布不对称,集中位置偏向一侧。统计数据峰值与平均值不相等的频率分布。
    若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布。

    峰左移,右偏,正偏

    峰右移,左偏,负偏

    性质:

    1、当总体分布呈对称状态时,中位数=平均数

    2、当总体分布呈右偏态状态时,说明存在极大值,会把平均值向极大值方向拉,中位数<平均数

    3、当总体分布呈左偏态状态时,说明存在极小值,会把平均值向极小值方向拉,中位数>平均数

    偏态分布只有满足一定的条件(如样本例数够大等)才可以看做近似正态分布。

     

    与正态分布相对而言,偏态分布有两个特点

      一是左右不对称(即所谓偏态);

      二是当样本增大时,其均数趋向正态分布。

     

    二、加深理解:

    偏态,即相对于均值左右数据的多少。
    右偏就是,数据在均值左侧的数量较多,所以为了达到所有数据于均值之差和为0,应该存在较大的数与之平衡,所有分布图里有一个很长的右端的拖尾(就是右端必须存在很大的值)
    既然均值左侧的数比较多,对比中位数左右两侧数一样多,则均值必在中位数的右侧(即这样围成面积才大于0.5)
    另外,我认为右偏的图像围成面积为0.5的分界点应该在峰值点的右侧,所以中位数大于众数。
    所以就有众小于中小于均

     

    三、全面概括:

    偏度这一指标,又称偏斜系数、偏态系数,是用来帮助判断数据序列的分布规律性的指标。在数据序列呈对称分布(正态分布)的状态下,其均值、中位数和众数重合。且在这三个数的两侧,其它所有的数据完全以对称的方式左右分布。
        如果数据序列的分布不对称,则均值、中位数和众数必定分处不同的位置。这时,若以均值为参照点,则要么位于均值左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称之为左偏;除此无它。
        考虑到所有数据与均值之间的离差之和应为零这一约束,则当均值左侧数据较多的时候,均值的右侧必定存在数值较大的“离群”数据;同理,当均值右侧数据较多的时候,均值的左侧必定存在数值较小的“离群”数据。
        一般将偏度定义为三阶中心矩与标准差的三次幂之比。在上述定义下,偏度系数的取值无非三种情景
        1.当数据序列呈正态分布的时候,由于均值两侧的数据完全对称分布,其三阶中心矩必定为零,于是满足正态分布的数据序列的偏度系数必定等于0。
        2.当数据序列非对称分布的时候,如果均值的左侧数据较多,则其右侧的“离群”数据对三阶中心矩的计算结果影响至巨,乃至于三阶中心矩取正值。因此,当数据的分布呈右偏的时候,其偏度系数将大于0。
        3.当数据序列非对称分布的时候,如果均值的右侧数据较多,则其左侧的“离群”数据对三阶中心矩的计算结果影响至巨,乃至于三阶中心矩取负值。因此,当数据的分布呈左偏的时候,偏度系数将小于0。
        在右偏的分布中,由于大部分数据都在均值的左侧,且均值的右侧存在“离群”数据,这就使得分布曲线的右侧出现一个长长的拖尾;而在左偏的分布中,由于大部分数据都在均值的右侧,且均值的左侧存在“离群”数据,从而造成分布曲线的左侧出现一个长长的拖尾。

        可见,在偏度系数的绝对值较大的时候,最有可能的含义是“离群”数据离群的程度很高(很大或很小),亦即分布曲线某侧的拖尾很长。但“拖尾很长”与“分布曲线很偏斜”不完全等价。例如,也不能排除在数据较少的那一侧,只是多数数据的离差相对于另一侧较大,但不存在明显“离群”数据的情景。所以,为准确判断分布函数的偏斜程度,最好的办法是直接观察分布曲线的几何图形。

    展开全文
  • 目录0引言1、偏态分布的定义1.1正态分布1.2偏态分布2、偏态分布的数字特征2.1均值2.2方差3、不同偏态的偏态分布——R语言参考文献 0引言 偏态分布是A. Azzalini1在1985年提出的,本文主要介绍正态分布到偏正态分布的...

    0引言

    偏态分布是A. Azzalini1在1985年提出的,本文主要介绍正态分布到偏正态分布的定义,主要展示偏正态分布常见数字特征均值方差的推导,以及使用R语言对不同偏态的概率密度函数进行展示。

    1、偏态分布的定义

    1.1正态分布

    正态分布2,又名高斯分布,最早由棣莫弗在二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
    随机变量 X X X服从 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)正态分布,我们分别记 ϕ ( ∗ ) \phi(*) ϕ() Φ ( ∗ ) \Phi(*) Φ()为标准正态分布的概率密度函数与累计分布函数。
    定义为:
    ϕ ( x ) = 1 2 π e − x 2 2 \phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} ϕ(x)=2π 1e2x2
    Φ ( x ) = ∫ − ∞ x ϕ ( t ) d t \Phi(x) = \int_{-\infin}^{x}{\phi(t)dt} Φ(x)=xϕ(t)dt
    随机变量 X X X的概率密度函数和累计分布分别为为:
    f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_{X}(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} fX(x)=2π σ1e2σ2(xμ)2
    F X ( x ) = ∫ − ∞ x f ( t ) d t F_{X}(x) = \int_{-\infin}^{x}{f(t)dt} FX(x)=xf(t)dt

    1.2偏态分布

    A. Azzalini1在1985年首次提出标准偏态分布 S N ( 0 , 1 , λ ) SN(0,1,\lambda) SN(0,1,λ),引入了偏度参数 λ \lambda λ,其概率密度函数是:
    f ( x ) = 2 ϕ ( x ) Φ ( λ x ) , f(x) = 2\phi(x)\Phi(\lambda x), f(x)=2ϕ(x)Φ(λx),
    Y Y Y服从 S N ( μ , σ , λ ) SN(\mu, \sigma,\lambda) SN(μ,σ,λ)的偏态分布,类似的概率密度函数有如下定义:
    f Y ( y ) = 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) . f_Y(y) = \frac{2}{\sigma}\phi(\frac{y-\mu}{\sigma})\Phi(\lambda \frac{y-\mu}{\sigma}). fY(y)=σ2ϕ(σyμ)Φ(λσyμ).
    可以看出当 λ \lambda λ为0时,该分布退化为正态分布。下面我们来随机变量 Y Y Y的均值和方差。

    2、偏态分布的数字特征

    2.1均值

    在1.2节我们定义了一般的偏正态分布,这节我们推导偏正态分布的均值。
    E ( Y ) = ∫ − ∞ + ∞ y f ( y ) d y = ∫ − ∞ + ∞ y 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) d y ( 标 准 化 换 元 ( t = y − μ σ ) ) = ∫ − ∞ + ∞ 2 ( σ t + μ ) ϕ ( t ) Φ ( λ t ) d t = μ + σ ∫ − ∞ + ∞ 2 t ϕ ( t ) Φ ( λ t ) d t = μ + σ ∫ − ∞ + ∞ 2 t ϕ ( t ) d t ∫ − ∞ λ t ϕ ( k ) d k ( 变 换 积 分 限 ) = μ + σ ∫ − ∞ + ∞ ϕ ( k ) d k ∫ k λ + ∞ 2 t ϕ ( t ) d t = μ + σ ∫ − ∞ + ∞ ϕ ( k ) d k ∫ k λ + ∞ 2 2 π d − e − t 2 2 = μ + 2 π σ ∫ − ∞ + ∞ e − k 2 2 λ 2 ϕ ( k ) d k = μ + 2 π λ 1 + λ 2 σ \begin{aligned} E(Y) &\left.= \int_{-\infin}^{+\infin}yf(y)dy \right. \\ &\left. = \int_{-\infin}^{+\infin}y \frac{2}{\sigma}\phi(\frac{y-\mu}{\sigma})\Phi(\lambda \frac{y-\mu}{\sigma})dy (标准化换元(t=\frac{y-\mu}{\sigma})) \right. \\ &\left.=\int_{-\infin}^{+\infin}2(\sigma t + \mu)\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\mu +\sigma\int_{-\infin}^{+\infin}2t\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\mu +\sigma\int_{-\infin}^{+\infin}2t\phi(t)dt\int_{-\infin}^{\lambda t}{\phi(k)} dk (变换积分限) \right. \\ &\left.=\mu +\sigma\int_{-\infin}^{+\infin}\phi(k)dk\int_{\frac{k}{\lambda }}^{+\infin}2t{\phi(t)} dt \right. \\ &\left.=\mu +\sigma\int_{-\infin}^{+\infin}\phi(k)dk\int_{\frac{k}{\lambda }}^{+\infin}\frac{2}{\sqrt{2\pi}} d-e^{-\frac{t^2}{2}} \right. \\ &\left.=\mu +\sqrt{\frac{2}{{\pi}}}\sigma\int_{-\infin}^{+\infin}e^{-\frac{k^2}{2\lambda^2}}\phi(k)dk \right. \\ &\left.=\mu +\sqrt{\frac{2}{{\pi}}} \frac{\lambda}{\sqrt{1+\lambda^2}} \sigma \right. \\ \end{aligned} E(Y)=+yf(y)dy=+yσ2ϕ(σyμ)Φ(λσyμ)dy(t=σyμ)=+2(σt+μ)ϕ(t)Φ(λt)dt=μ+σ+2tϕ(t)Φ(λt)dt=μ+σ+2tϕ(t)dtλtϕ(k)dk()=μ+σ+ϕ(k)dkλk+2tϕ(t)dt=μ+σ+ϕ(k)dkλk+2π 2de2t2=μ+π2 σ+e2λ2k2ϕ(k)dk=μ+π2 1+λ2 λσ
    令: μ 0 ( λ ) = 2 π λ 1 + λ 2 \mu_0(\lambda) = \sqrt{\frac{2}{{\pi}}}\frac{\lambda}{\sqrt{1+\lambda^2}} μ0(λ)=π2 1+λ2 λ
    有: E ( Y ) = μ + μ 0 ( λ ) σ E(Y) = \mu+\mu_0(\lambda)\sigma E(Y)=μ+μ0(λ)σ

    2.2方差

    按着正常步骤求方差先求二阶距离:
    E ( Y 2 ) = ∫ − ∞ + ∞ y 2 f ( y ) d y = ∫ − ∞ + ∞ y 2 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) d y ( 标 准 化 换 元 ( t = y − μ σ ) ) = ∫ − ∞ + ∞ 2 ( σ t + μ ) 2 ϕ ( t ) Φ ( λ t ) d t = ∫ − ∞ + ∞ 2 ( μ 2 + σ 2 t 2 + 2 μ σ t ) ϕ ( t ) Φ ( λ t ) d t = μ 2 + 2 μ σ μ 0 + σ 2 ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t = μ 2 + 2 μ σ μ 0 + σ 2 \begin{aligned} E(Y^2) &\left.= \int_{-\infin}^{+\infin}y^2f(y)dy \right. \\ &\left. = \int_{-\infin}^{+\infin}y^2 \frac{2}{\sigma}\phi(\frac{y-\mu}{\sigma})\Phi(\lambda \frac{y-\mu}{\sigma})dy (标准化换元(t=\frac{y-\mu}{\sigma})) \right. \\ &\left.=\int_{-\infin}^{+\infin}2(\sigma t + \mu)^2\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\int_{-\infin}^{+\infin}2(\mu^2+\sigma^2 t^2+2\mu\sigma t)\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\mu^2 + 2\mu \sigma \mu_0+\sigma^2\int_{-\infin}^{+\infin}2t^2\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\mu^2 + 2\mu \sigma \mu_0+\sigma^2 \right.\\ \end{aligned} E(Y2)=+y2f(y)dy=+y2σ2ϕ(σyμ)Φ(λσyμ)dy(t=σyμ)=+2(σt+μ)2ϕ(t)Φ(λt)dt=+2(μ2+σ2t2+2μσt)ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2+2t2ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2

    方差为:
    D ( Y ) = E ( Y 2 ) − E ( Y ) 2 = μ 2 + 2 μ σ μ 0 + σ 2 − ( μ + μ 0 σ ) 2 = ( 1 − μ 0 2 ) σ 2 \begin{aligned} D(Y) &\left.=E(Y^2)-{E(Y)}^2 \right. \\ &\left.=\mu^2 + 2\mu \sigma \mu_0+\sigma^2 - {(\mu+\mu_0\sigma)}^2 \right. \\ &\left.=(1-\mu_0^2)\sigma^2 \right. \\ \end{aligned} D(Y)=E(Y2)E(Y)2=μ2+2μσμ0+σ2(μ+μ0σ)2=(1μ02)σ2

    令: σ 0 2 ( λ ) = 1 − μ 0 2 = 1 − 2 π λ 2 1 + λ 2 \sigma_0^2(\lambda) = 1 - \mu_0^2=1 - {\frac{2}{{\pi}}}\frac{\lambda^2}{{1+\lambda^2}} σ02(λ)=1μ02=1π21+λ2λ2
    有: D ( Y ) = σ 0 2 ( λ ) σ 2 D(Y) = \sigma_0^2(\lambda)\sigma^2 D(Y)=σ02(λ)σ2
    注:

    • 在推导中会把 μ 0 ( λ ) \mu_0(\lambda) μ0(λ)记为 μ 0 . \mu_0. μ0.
    • 在推导中用到 K = ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t K = \int_{-\infin}^{+\infin}2t^2\phi(t)\Phi(\lambda t)dt K=+2t2ϕ(t)Φ(λt)dt = 1,最后我们补齐证明。

    K = ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t ( 改 变 积 分 限 + 分 部 积 分 ) = ∫ − ∞ + ∞ 2 ϕ ( t ) Φ ( λ t ) d t ( 概 率 密 度 函 数 具 有 规 范 性 ) = 1 \begin{aligned} K &\left.=\int_{-\infin}^{+\infin}2t^2\phi(t)\Phi(\lambda t) dt (改变积分限+分部积分) \right. \\ \\ &\left.=\int_{-\infin}^{+\infin}2\phi(t)\Phi(\lambda t)dt(概率密度函数具有规范性) \right. \\ \\ &\left.=1 \right. \\ \end{aligned} K=+2t2ϕ(t)Φ(λt)dt+)=+2ϕ(t)Φ(λt)dt=1

    3、不同偏态的偏态分布——R语言

    本文代码主要用了闭包以及ggplot2包。下面贴出代码和图片就不具体注释代码思路了。

    3.1 代码

    library(ggplot2)
    nnorm <- function(mu = 0, sigma = 1, lambda = 0){
      function(x){
        x <- (x - mu)/sigma
        f <- 1/(sqrt(2*pi))*exp(-x^2/2)*pnorm(x*lambda)
        return(f)
      }
    }
    plot(nnorm(), -5, 5,ylim = c(0,0.37))
    plot(nnorm(lambda = -5), -5, 5, add = T)
    plot(nnorm(lambda = -3), -5, 5, add = T)
    plot(nnorm(lambda = -1), -5, 5, add = T)
    plot(nnorm(lambda = 5), -5, 5, add = T)
    plot(nnorm(lambda = 1), -5, 5, add = T)
    plot(nnorm(lambda = 3), -5, 5, add = T)
    
    x <- seq(-5,5, 0.01)
    n = length(x)
    Lambda <- c(-3:3)
    Data <- data.frame(
      x = rep(x, 7),
      y = c(nnorm(lambda = -3)(x),nnorm(lambda = -2)(x),nnorm(lambda = -1)(x),nnorm(lambda = -0)(x),
      nnorm(lambda = 1)(x), nnorm(lambda = 2)(x), nnorm(lambda = 3)(x)),
      z = rep(Lambda, each = n),
      z1 = as.factor(rep(Lambda, each = n))
    )
    qplot(data = Data, x = x, y = y, col = z, geom = "line")
    qplot(data = Data, x = x, y = y, col = z1, geom = "line")
    

    3.2不同lambda的偏态分布图

    在这里插入图片描述
    在这里插入图片描述

    参考文献


    1. A. Azzalini A Class of Distributions Which Includes the Normal Ones 1985, https://www.jstor.org/stable/4615982 ↩︎ ↩︎

    2. https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83 ↩︎

    展开全文
  • 讲讲偏态分布

    千次阅读 2021-04-24 00:16:04
    本文转自俊红的数据分析之路今天我们来聊聊统计学中的偏态分布,聊偏态分布以前我们先看看正态分布,下面这张图在公众号文章中多次出现,就是传说中的正态分布。这张图中的横轴是随机变量 x 的具体值...

    本文转自俊红的数据分析之路

    今天我们来聊聊统计学中的偏态分布,聊偏态分布以前我们先看看正态分布,下面这张图在公众号文章中多次出现,就是传说中的正态分布。

    这张图中的横轴是随机变量 x 的具体值,正态分布的中心点是随机变量 x 的均值 μ,以均值为中心,然后向两边扩散,既然是均值,那肯定就有比均值大的值,也有比均值小的点,我们用标准差 σ 表示数据集的离散程度,也就是距离均值 μ 的远近。

    纵轴是 x 对应的概率密度。我们应该都知道概率,是用来表示一个值或一种情况出现的可能性大小。而概率密度等于一段区间(随机变量 x 的取值范围)的概率除以该段区间的长度。

    横轴与纵轴围成的面积表示横轴 x 对应的这个区间出现的概率。

    x 轴标记出了 7 个点,分别为:μ、u+σ、u-σ、u+2σ、u-2σ、u+3σ、u-3σ,即距离均值1倍、2倍、3倍、3倍以上标准差的距离。

    可以看到有64.2%(34.1+34.1)的数据集中在(u-σ,u+σ)之间,有27.2%的数据位于(u±σ,u±2σ)之间,有4.2%的数据位于(u±2σ,u±3σ),剩下的就是(u±3σ,∞)。说明大部分数据还是集中在平均值附近的,而我们生活中的很多事情都是符合正态分布的,这也就是为什么可以用平均值来代替整体水平的一个原因,比如平均身高、平均工资等等。

    虽然大多数情况下数据是正态分布的,但是也有不是正态分布的情况,这个时候就是偏态分布了,偏态分布有两种,左偏和右偏。长尾在哪边就是哪偏,下面第一张图的长尾在左边就是左偏,最后一张图的长尾在右边就是右偏。

    如果是左偏,说明大多数是集中在右边的,即众数 > 中位数 > 均值;如果是右偏,说明大多数是集中在左边的,即众数 < 中位数 < 均值。

    我们可以用偏态系数来衡量具体的偏离程度,偏态系数大于0则右偏,小于0则左偏,值越大越偏。

    在 Python 中要计算某一列的偏态系数可以使用如下代码:

    #计算col列的偏态系数
    df["col"].skew()
    

    因为现实中很多数据是符合正态分布的,很多模型也都是假设数据是服从正态分布的,比如方差分析中,就是假设数据是服从正态分布的。如果你的数据是偏态分布的时候,这个时候可以对数据进行转换,从偏态数据转换成正态数据,常见的转换就是原始数据取对数。

    在 Python 中可以使用下面代码对数据取对数。

    #对x取对数 
    import math
    math.log( x )
    

    统计学中为什么要对变量取对数:
    https://www.zhihu.com/question/22012482

    展开全文
  • ADJUSTED BOXPLOT: 偏态分布的异常检测

    千次阅读 2020-06-01 23:42:06
    Boxplot是一个常用的了解数据分布的工具,在数据预处理阶段也常用boxplot剔除离群点,但是当数据是一个偏态分布的时候,boxplot将许多点误分类为离群点。《AN ADJUSTED BOXPLOT FOR SKEWED DISTRIBUTIONS》是一篇...

    Boxplot是一个常用的了解数据分布的工具,在数据预处理阶段也常用boxplot剔除离群点,但是当数据是一个偏态分布的时候,boxplot将许多点误分类为离群点。《AN ADJUSTED BOXPLOT FOR SKEWED
    DISTRIBUTIONS》是一篇经典的修正boxplot在偏态分布数据上的误报问题的文章。

    1. 传统boxplot方法

    对于一组数据 X n = { x 1 , x 2 , x 3 , . . . , x n } X_n=\{x_1,x_2,x_3,...,x_n\} Xn={x1,x2,x3,...,xn},计算Q1(第一四分位数), Q3(第三四分位数), IQR(四分位距),然后得到Tukey bound:
    [ Q 1 − 1.5 ∗ I Q R , Q 3 + 1.5 ∗ I Q R ] [Q_1-1.5*IQR, Q_3+1.5*IQR] [Q11.5IQR,Q3+1.5IQR]
    boxplot 方法认为落在tukey bound外的数据为离群值。

    缺点:该上下界是基于数据时对称分布得到的,当数据是偏态分布时tukey bound表现得并不好。

    2. 通用的boxplot方法

    medcouple

    medcouple(MC)是一个健壮的,用于描述连续单变量分布(F)偏度的统计量:
    M C ( F ) = m e d i a n x i < m F < x j h ( x i , x j ) MC(F)=\mathop{median}\limits_{x_i<m_F<x_j} h(x_i,x_j) MC(F)=xi<mF<xjmedianh(xi,xj)

    m F m_F mF是F的中值, x i , x j x_i,x_j xi,xj是F中的样本,核函数h(x)定义如下:
    h ( x i , x j ) = ( x j − m F ) − ( m F − x i ) x j − x i h(x_i,x_j)=\frac{(x_j-m_F)-(m_F-x_i)}{x_j-x_i} h(xi,xj)=xjxi(xjmF)(mFxi)
    MC取值在[-1,1],MC>0分布右偏,MC<0分布左偏。对于对称分布,MC=0。

    boxplot修正

    接下来利用MC对tukey bound进行偏态修正,这里引入修正函数$h_l(MC)$ h r ( M C ) h_r(MC) hr(MC)
    [ Q 1 − h l ( M C ) ∗ I Q R , Q 3 + h r ( M C ) ∗ I Q R ] [Q_1-h_l(MC)*IQR, Q_3+h_r(MC)*IQR] [Q1hl(MC)IQR,Q3+hr(MC)IQR]
    这里需要满足 h l ( 0 ) = h r ( 0 ) = 0 h_l(0)=h_r(0)=0 hl(0)=hr(0)=0,以保证和原始boxplot在对称分布数据中取得同样的效果。

    然后作者研究了3种简单的,不需要太多参数的关于修正函数的模型:

    1. 线性模型: h l ( M C ) = 1.5 + a ∗ M C h_l(MC)=1.5+a*MC hl(MC)=1.5+aMC, h r ( M C ) = 1.5 + b ∗ M C h_r(MC)=1.5+b*MC hr(MC)=1.5+bMC
    2. 二次多项式模型: h l ( M C ) = 1.5 + a 1 ∗ M C + a 2 ∗ M C 2 h_l(MC)=1.5+a_1*MC+a_2*MC^2 hl(MC)=1.5+a1MC+a2MC2, h r ( M C ) = 1.5 + b 1 ∗ M C + b 2 ∗ M C 2 h_r(MC)=1.5+b_1*MC+b_2*MC^2 hr(MC)=1.5+b1MC+b2MC2
    3. 指数模型: h l ( M C ) = 1.5 ∗ e a ∗ M C h_l(MC)=1.5*e^{a*MC} hl(MC)=1.5eaMC, h r ( M C ) = 1.5 ∗ e b ∗ M C h_r(MC)=1.5*e^{b*MC} hr(MC)=1.5ebMC

    为了求上述模型中的常数,我们要求离群值的期望百分比为0.7%,这与正态分布下原箱线图的离群值百分比一致。

    以线性模型举例,常数a,b应该满足 Q 1 − ( 1.5 + a ∗ M C ) ∗ I Q R = Q α Q_1-(1.5+a*MC)*IQR=Q_\alpha Q1(1.5+aMC)IQR=Qα, Q 3 + ( 1.5 + b ∗ M C ) ∗ I Q R = Q β Q_3+(1.5+b*MC)*IQR=Q_\beta Q3+(1.5+bMC)IQR=Qβ,其中 Q p Q_p Qp表示分布中的第p分位数, α = 0.0035 , β = 0.9965 \alpha=0.0035, \beta=0.9965 α=0.0035,β=0.9965。线性模型的修正函数可以改写为: Q 1 − Q α I Q R − 1.5 = a ∗ M C \frac{Q_1-Q_\alpha}{IQR}-1.5=a*MC IQRQ1Qα1.5=aMC Q β − Q 3 I Q R − 1.5 = b ∗ M C \frac{Q_\beta-Q_3}{IQR}-1.5=b*MC IQRQβQ31.5=bMC,然后可以用无截距的线性回归估计常数a和b。

    二次模型和指数模型也可以利用同样的推导方法进行估计。例如,对于指数模型,经过转换,得到下面的线性形式:
    l n ( 2 3 Q 1 − Q α I Q R ) = a ∗ M C l n ( 2 3 Q β − Q 3 I Q R ) = b ∗ M C ln(\frac{2}{3} \frac{Q_1-Q_{\alpha}}{IQR})=a*MC \\ ln(\frac{2}{3} \frac{Q_{\beta}-Q_3}{IQR})=b*MC ln(32IQRQ1Qα)=aMCln(32IQRQβQ3)=bMC

    然后,作者从 Γ , χ 2 , F , P a r e t o , G g \Gamma, \chi^2, F, Pareto, G_g Γ,χ2,F,Pareto,Gg分布族中衍生出12605个分布的数据,用于训练出参数a,b。分布选取不极端倾斜的分布(保证medcouple<=0.6,因为很难找到简单的模型解决极端分布的情况),每个分布生成了10000个观测值。最终结果如下(这里只考虑对称和右偏的分布,y轴为 l n ( 2 3 Q β − Q 3 I Q R ) ln(\frac{2}{3} \frac{Q_{\beta}-Q_3}{IQR}) ln(32IQRQβQ3)):
    在这里插入图片描述

    可以看到指数模型拟合效果最好。

    最终修正后的上下界为:
    [ Q 1 − 1.5 ∗ e − 3.5 ∗ M C ∗ I Q R , Q 3 + 1.5 ∗ e 4 ∗ M C ∗ I Q R ] [Q_1-1.5*e^{-3.5*MC}*IQR, Q_3+1.5*e^{4*MC}*IQR] [Q11.5e3.5MCIQR,Q3+1.5e4MCIQR]

    3. 总结

    本文提出了一种进行偏度调整后的boxplot法,减弱了分布偏度的影响,在异常处理时是个不错的选择。

    参考

    [1] <AN ADJUSTED BOXPLOT FOR SKEWED DISTRIBUTIONS>

    展开全文
  • 数据的偏态分布

    万次阅读 多人点赞 2019-05-15 11:53:42
    偏态分布 频数分布有正态分布和偏态分布之分。 正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。统计数据峰值与平均值相等的频率分布。 偏态分布是指频数分布不对称,集中位置偏向一侧。统计数据峰值...
  • 数据预处理——样本分布(正态分布、偏态分布

    万次阅读 多人点赞 2018-10-25 22:19:58
    一、何为数据的偏态分布? 频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。 偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值...
  • 生成偏随机偏态分布的核心就是伽马函数np.random.gamma() 伽玛分布(Gamma Distribution)是统计学的一种连续概率函数,是概率统计中一种非常重要的分布。“指数分布”和“卡方分布”都是伽马分布的特例。 import ...
  • 描述性统计 -- 偏态分布

    千次阅读 2020-11-05 13:03:44
    偏态分布 用均值、中位数、众数三者的位置关系判定和查看 用中位数查看 将数据一分为二(中位数的位置),哪边数据少,就是往哪边偏。 用众数描述 众数位置哪边尾巴长,就是往哪边偏。 数据分布往哪边偏,...
  • 介绍了目前普遍应用的几种环境温度模型,在分析实测环境温度变化规律的基础上,提出了基于实测数据的偏态分布环境温度模型,给出了模型数学表达式及相关计算参数。与实测数据进行对比,分析了偏态分布温度模型与Heller...
  • 频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。 偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向...
  • 机器学习之数据的偏态分布

    千次阅读 2020-09-12 18:05:45
    一、偏态分布 1、何为数据的偏态分布? 频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。 偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值...
  • 偏态分布的激素水平影响因素分析 案例导读: 在某个消化内科的科研项目中,研究者希望考察在控制了其他因素的作用之后,激素水平是否的确在对照组和实验组之间存在差异,以根据分析结果继续进行下一步的研究。 ...
  • 偏态分布的均值与中位数关系

    千次阅读 2020-04-11 18:13:31
    实验室要处理敦煌莫高窟人流数据处理的任务,观察到每个洞窟的访问时间应该时遵循正偏态分布的。于是想起数据挖掘课上提到的正偏态分布中,均值大于中位数的问题。思考很久无法证明。 关于正偏态,正态和负偏态的...
  • 通过混合偏态分布函数[dysm]对死亡率进行动态建模 该存储库与以下相关:Aliverti,Mazzuco,Scarpa(2021)。 通过偏态分布函数的混合进行死亡率的动态建模。 它包含实现该方法并重现论文主要结果的代码。 包含...
  • 参考上面的草图:可以这样理解,(1)对于正偏态而言,数据大多分布在右侧,从而也就把期望与中位数往右侧移动。(2)对于负偏态而言,数据大多分布在左侧,从而也就把期望与中位数往左侧移动。 ...
  • 正态分布(normal distribution)与偏态分布(skewed distribution)
  • 面试题1:(答案)右偏分布 面试题2:(答案)C,正态分布的偏度为0,峰度为3 面试题3:(答案)C 面试题4:(答案)AC 相关系数 :考察两个事物(在数据里我们称之为变量)之间的相关程度。 如果有...
  • 均值、中位数、中位数的概念以及优缺点对比。偏态分布难点分析,以及偏度、峰度计算公式。文末附相关学习链接。
  • 一、偏态分布 1、何为数据的偏态分布? 2、构建模型时为什么要尽量将偏态数据转换为正态分布数据? 3、如何检验样本是否服从正态分布? 4 、如果不是正态分布怎么办? 5、采用库函数skew进行数据偏态分析和数据...
  • 在数据分析中如果某个数据服从正态分布的话,我们可以利用正态分布的性质做出很多有意义的分析,例如t-检验。。如何检验样本是否服从正态分布? 可以使用Q-Q图来进行检验,Q-Q图是一个散点图,点(x, y)表示数据x的...
  • 单峰分布(unimodal distribution)& 双峰分布 (bimodal distribution) 数据分布会有一个或者很多个峰值(peaks),数据分布...在数据分布的图像展现形式中,偏态分布中一边的观测值要比另一边的观测值多,右...
  • 2.3 概率统计中的正态分布和偏态分布 概率可以理解为随机出现的相对数。随机现象是相对于决定性现象而言的。在一定条件下必然发生某一结果的现象称为决定性现象。随机现象则是指在基本条件不...
  • 第16章偏态分布的激素水平影响因素分析.ppt

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,178
精华内容 2,071
关键字:

偏态分布