精华内容
下载资源
问答
  • 累积分布函数

    万次阅读 2014-05-23 11:35:43
    本节为大家介绍累积分布函数。 AD: WOT2014课程推荐:实战MSA:用开源软件搭建微服务系统 累积分布函数 直方图和核密度估计的主要优势在于直观上的吸引力:能够告诉我们找到某个特定数据...
     
    一键收藏,随时查看,分享好友!

      累积分布函数

      直方图和核密度估计的主要优势在于直观上的吸引力:能够告诉我们找到某个特定数据点的可能性有多大。例如,从图2-2可以清楚看出250毫秒左右的值出现的可能性非常大,而大于2000毫秒的值则非常罕见。

      但是具体有多罕见呢?这个问题仅靠图2-2的直方图是很难找到答案的。另外,除了想知道尾部所占的比重,我们可能还想知道哪部分请求是在150~350毫秒这个典型时间段完成的。当然,大多数事件都是在这个时间段完成的,但如果想知道具体有多少事件,就需要累加那个区域中所有矩形框的事件。

      累积分布函数(Cumulative Distribution Function,CDF)就具有这样的功能。点x的CDF能告诉我们哪部分事件发生在x的"左边"。换而言之,CDF是满足xi≤x的所有xi。

      图2-7显示的数据集与图2-2的相同,但是,这里的数据是用KDE(带宽h = 30)来表示的而不是使用直方图。另外,该图也包含对应的CDF。(KDE和CDF都规一化为1。)

      我们可以直接从CDF读出一些有趣的东西。例如,我们可以看到在t = 1500处(位于该分布的尾部)CDF仍然小于0.85;这意味着只有15%的请求的响应时间超过1500毫秒。相反,大约三分之一的请求是在典型区域150~500毫秒的时间内完成的。(我们是怎样知道这些的呢?t = 150的CDF大概是0.05,t = 500的CDF大概是0.40。换句话说,约40%的请求是在少于500毫秒的时间内完成的,在这些请求中,只有5%的请求是在少于150毫秒的时间内完成的。因此,大约35%的请求响应时间介于150~500毫秒之间。)

       
      图2-7 图2-2所示服务器响应时间的核密度估计和累积分布函数

      我们有必要停下来思考一下这些新发现,因为它们表明直方图(或者KDE)是怎样误导人的,尽管(或者正是因为)它们直观上很吸引人!单独从直方图或KDE来判断,绝对有理由假设大部分的事件发生在t=300附近的大峰上,而t>1500的尾部所起的作用非常小。然而,CDE清楚地说明事实并非如此。(问题在于我们的眼睛更善于判断距离而不是面积,因此我们被直方图中峰值附近那些很大的值误导,而没有发现与曲线下的总面积相比,高峰下方的面积并没有那么大。)

      在基本图形分析中,CDF可能是最不出名且最不受待见的工具。相对于直方图和KDE,它们没有太多直观上的吸引力,但它们能够让我们对数据做出定量的描述,这是我们常常需要却又很难从直方图获得的。

      从它们的计算过程可以得出累积分布函数的一些重要特性。

      因为位置x处的CDF值是x左侧的那一部分数据点,因而CDF常常随着x的增加单调递增。

      CDF不像直方图(或者KDE)那样抖动得厉害,但它本质上是以不太显眼的形式包含相同的信息。

      CDF不需要任何的矩形分组,因而不会丢失任何信息。因此,相较于直方图,它表示的数据更可靠。

      随着x趋于负无穷,所有的CDF趋于0。CDF通常是归一化的,因此随着x趋于正无穷,它将趋于1。

      对于指定的数据集,其CDF是唯一的。

      如果你有很好的数学功底,可能已经看出CDF是(一个近似)直方图的不定积分,直方图是CDF的微分:

      累积分布函数有多种用途。第一个也是最重要的用途是,它们回答了本节前面提出的问题:有多大比例的点落在某两个值之间?答案可以从图中轻松得出。第二个用途是CDF能帮助我们理解分布的不平衡性--换句话说,尾部占总体多少比重。

      当我们想要比较两个分布时,累积分布函数也是很有用的。在直方图中比较两个钟状的曲线是非常困难的。比较相应的CDF则通常更容易得出结论。

      在本节结束之前还要提的最后一点:在文献中,你会发现这个词:"分位数图"(quantile plot)。分位数图是一个CDF图,在该图中,x轴和y轴互换了。图2-8再次使用了服务器响应时间数据集的例子。通过这种方式绘图,我们可以很容易地回答出类似于"哪个响应时间对应于占10%比重的响应时间?"的问题。不过,这个图包含的信息和一个CDF图包含的信息是完全一样的。

      展开全文
    • 目前的代码是一个 Matlab 函数,它提供了给定平均 mu 和标准偏差 sigma 的拉普拉斯(双指数)分布的理论累积分布函数的计算,在 x 点评估。 建议的函数类似于内置的 Matlab 函数“cdf”。 为了说明函数的用法,给出...
    • matlab开发-互补累积分布函数。数字数组的互补累积分布函数
    • 累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写CDF标记,,与概率密度函数probability density function(小写pdf)相对。...

      累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写CDF标记,,与概率密度函数probability density function(小写pdf)相对。即累积分布函数表示:对离散变量而言,所有小于等于a的值出现概率的和.

      在这里插入图片描述 可以把概率密度看成是纵坐标,区间看成是横坐标,概率密度对区间的积分就是面积,而这个面积就是事件在这个区间发生的概率,所有面积的和为1。
      所以单独分析一个点的概率密度是没有任何意义的,它必须要有区间作为参考和对比。

      展开全文
    • matlab开发-Ukeyshsdtest的累积分布函数。cdftukey返回研究范围(q)的累积分布函数
    • 累积分布函数是概率密度函数的积分,即能完整描述一个实随机变量X的概率分布。对于所有实数x ,累积分布函数定义如下:F_{X}(x)=P(X<=x)其代表了实数X的取值小于等于x的概率(请注意大小写,X代表随机变量而x代表X...

      累积分布函数是概率密度函数的积分,即能完整描述一个实随机变量X的概率分布。对于所有实数x ,累积分布函数定义如下:

      F_{X}(x)=P(X<=x)

      其代表了实数X的取值小于等于x的概率(请注意大小写,X代表随机变量而x代表X的取值)。

      若要求得X处于半闭区间(a,b)的概率,其中a < b,则可以根据分布函数进行计算:

      P(a

      在上面的定义中,“小于或等于”符号“≤”是一种惯例,而不是普遍使用的惯例(例如匈牙利文献使用“

      一般使用小写字母f代表概率密度函数和概率质量函数,而用大写字母F表示累积分布函数。

      连续随机变量X的累积分布函数可以表示为其概率密度函数ƒ_{X}的积分,如下式:

      F_{X}(x)=\int_{-\intf}^x f_{X}(t)dt

      累计分布函数有几个重要的性质:

      ·有界性

      o$$\varlimsup_{x\rightarrow - \infty}F_{X}(x)=0$$

      o$$\varlimsup_{x\rightarrow + \infty}F_{X}(x)=1$$

      224d5cb2c060ef1fd4eec59ce3f2efe0.png

      ·单调性:

      oF_{x}(x_1)<=F_{x}(x_2) 若x_1

      4d14889c31e521c57e4bfe419b3c3199.png

      ·右连续性:

      ·$$\varlimsup_{x\rightarrow +x_{0}^+}F_{X}(x_{0})

      20290a6e5a0d0c070a289988ddb04e33.png

      下图给出具有不同均值和方差的正态分布的累积分布函数,可以看到虽然其形状各异,但都具备上述三个性质:

      1e97e42f092ad38d06edd3b2e0857455.png

      累积分布函数的概念主要用于统计分析中,其有两种应用,一种是对小于参考值的现象值的出现频率的分析的累积频率分析,另一种则是对累计分布函数进行估计,随后可以求得简单的统计值,或进行各种统计假设检验。如检验样本数据是否来自给定的分布,或两个样本是否来自同一个概率分布。如著名的Kolmogorov-Smirnov检验即是基于累积分布函数,可用于检验两个经验分布是否不同,或者经验分布是否与理想分布不同。

      发展历史

      描述

      如上文所述,在统计分析中可以利用累积分布的概念对数据进行检验,Kolmogorov和Smirnov提出的Kolmogorov-Smirnov检验(K-S检验)是其中最著名的应用之一,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。双样本K-S检验目前仍是比较两个样本最有用和最常用的非参数方法之一,因为它对两个样本的经验累积分布函数的位置和形状的差异很敏感。除此之外,基于累积分布的统计检验还有Shapiro-Wilk检验,Anderson-Darling检验等,Razali等人在2011年对这些检验的效力进行了比较。

      1951年Massey Jr在发表的论文对Kolmogorov-Smirnov检验进行了修改,从而将其用于模型的拟合优度(goodness-of-fit)分析。该检验基于实证累积分布(empirical cumulative distribution)和假设累计分布(hypothetical cumulative distribution)之间的最大差异,文章中给出了具体的例子,并认为结果显示修改后的Kolmogorov-Smirnov检验的表现比卡方检验(chi-square test)更好。

      为将高阶变量的分布也纳入分析范围,J. P. Imhof于1961年发表了论文,对已有的方法进行了探讨,并提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法。

      累积分布的应用远不止于此,在图像处理领域,基于图像直方图均衡方法的图像增强实际上也依赖于累积分布的概念,Yu Wang等人在其1999年发表的论文对此进行了说明。

      主要事件ABC

      1年份事件相关论文/Reference

      21933-1948Kolmogorov和Smirnov提出了Kolmogorov-Smirnov检验Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. G. Ist. Ital. Attuari. 4: 83–91. // Smirnov N (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical Statistics. *19*: 279–281.

      31951Massey Jr在发表的论文对Kolmogorov-Smirnov检验进行了修改,从而将其用于模型的拟合优度(goodness-of-fit)分析Frank J. M. Jr. (1951). The Kolmogorov-Smirnov Test for Goodness of Fit, Journal of the American Statistical Association, 46(253): 68-78.

      41961J. P. Imhof提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法Imhof. J. P.(1961). Computing the Distribution of Quadratic Forms in Normal Variables. Biometrika. 48(3/4): 419-426.

      51999Yu Wang等人提出了基于图像直方图均衡方法的图像增强法,这种方法实际上也是基于累积分布的Wang, Y.; Chen, Q.; Zhang, B. (1999). Image enhancement based on equal area dualistic sub-image histogram equalization method. IEEE Transactions on Consumer Electronics. 45(1):68 - 75.

      62011Razali等人对基于累积分布的Shapiro-Wilk检验,Anderson-Darling检验等进行了比较Razali, N. M.; Wah Y. B.(2011). Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics. 2(1): 21-33.

      发展分析

      瓶颈

      累积分布函数是数学上的一个基本概念,并且经过超过一百年的发展,已经十分成熟,很难说存在什么瓶颈。

      未来发展方向

      如上文所述,目前有关的研究大部分是基于累积分布函数这个概念的,而不是直接对累积分布函数进行研究。

      ByYuanyuan Li

      展开全文
    • matlab开发-累积分布函数高斯拟比例。高斯算术尺度下的经验累积分布函数
    • 一、累积分布函数(Cumulative Distribution Function) 累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写CDF标记,与概率密度...
    • 到底什么是逆累积分布函数

      万次阅读 2018-07-07 16:47:20
      其实国内翻译很有问题, ...所以“逆累积分布函数”的意思其实是“反累积分布函数” 作用: 求分位点 matlab代码如下: mu = 0; sigma = 1; pd = makedist('Normal',mu,sigma); p = [0.1,0.25,0.5,0....

       

       

      其实国内翻译很有问题,

      反函数里面的"反",对应的英文单词是inverse

      逆累积分布函数里面的"逆",对应的英文单词是inverse

      所以“逆累积分布函数”的意思其实是“反累积分布函数”

      作用:

      求分位点(quantile fractile)

       

      matlab代码如下:

      mu = 0;
      sigma = 1;
      pd = makedist('Normal',mu,sigma);
      p = [0.1,0.25,0.5,0.75,0.9];
      x = icdf(pd,p)

       

      结果为:
      x =
         -1.2816   -0.6745         0    0.6745    1.2816

       

      总结:

      概念已知条件作用(求什么)
      累积分布分位点概率
      逆累积分布概率分位点

      为了方便理解记忆,逆累积分布记忆成“累积分布”的反函数即可。

      展开全文
    • matlab开发-高斯系数模型中DoLoanPortfolio的累积分布函数。用高斯因子模型计算CDO贷款组合损失的累积分布函数
    • 累积分布函数(CDF)

      千次阅读 2020-06-24 10:44:03
      累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。 对于所有实数 xxx,累积分布函数定义如下: FX(x)=P(X≤x)F_X(x) = P(X \leq x)FX​...
    • 累积分布函数 分布。 随机变量的为 其中k是自由度, P是下正则化函数。 安装 $ npm install distributions-chisquare-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-chisquare-cdf...
    • 累积分布函数 分布。 随机变量的为 其中alpha是形状参数, beta是分布的速率参数。 gamma是较低的。 安装 $ npm install distributions-gamma-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( '...
    • 累积分布函数 分布。 随机变量的为 其中d1是分子自由度, d2是分母自由度, I_{x}(a,b)是。 安装 $ npm install distributions-f-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-f-...
    • 累积分布函数 [反伽玛]( 反伽玛_distribution)分布。 [Inverse Gamma]( Gamma_distribution)随机变量的为 其中alpha是形状参数, beta是比例参数。 Q是上正则化。 安装 $ npm install distributions-invgamma...
    • 学习笔记 | 累积分布函数

      千次阅读 2020-06-07 18:47:41
      分布 数据的分布,它描述了各个值出现的频繁程度; 表示分布最常用的方法是直方图; 频数指的是数据集中一个值出现的次数... 01 累积分布函数CDF 01 百分位数 举例: 标准化考试的成绩一般会以两种形式呈现:原始分数
    • 累积分布函数 [学生t]( 学生t_distribution)分布。 [学生t]( 学生t_distribution)随机变量的为 其中v是自由度。 在定义中, Beta( x; a, b )表示而Beta( a, b )表示。 安装 $ npm install distributions-t-...
    • 累积分布函数(CDF)计算期望

      万次阅读 2019-01-01 16:50:30
      累积分布函数(CDF)计算期望
    • 累积分布函数 分布。 随机变量的为 其中alpha是第一个形状参数, beta是第二个形状参数。 安装 $ npm install distributions-beta-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-...
    • 累积分布函数 分布。 随机变量的为 其中lambda > 0是rate参数。 安装 $ npm install distributions-exponential-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-exponential-cdf' ) ...
    • 累积分布函数 分布。 随机变量的为 其中k是形状参数, lambda是速率参数。 安装 $ npm install distributions-erlang-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-erlang-cdf' )...
    • 累积分布函数 分布。 随机变量的为 其中sigma是比例参数。 安装 $ npm install distributions-rayleigh-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-rayleigh-cdf' ) ; cdf(x ...
    • 一、CDF(cumulative distribution function)累积分布函数就是 分布函数,即概率密度函数的积分。 二、针对一组IOU值的CDF曲线:IOU值作为横坐标(从小到大),每个IOU值出现的概率等于IOU值出现的个数除于总个数...
    • 假设现有一组数据,我们需要画出他的累积分布函数图像 这里我们通过正态分布随机生成两组数据 data1=normrnd(0,5,[1,500]); data2=abs(normrnd(0,5,[1,500])); 他们的分布分别为下图所示: 使用cdfplot函数...
    • 提出一种基于累积分布函数(CDF)的抖动测量方法,以解决在测试高频时钟信号抖动中遇到的延迟器件不匹配、占用芯片面积过大和受高频振荡信号限制等问题。采用65 nm CMOS工艺完成了测试电路的设计和功能模拟,模拟结果...
    • c++计算正态累积分布函数

      千次阅读 2019-02-18 10:46:11
      //计算正态累积分布函数 //https://blog.csdn.net/weixin_42112208/article/details/81292610 //https://stackoverflow.com/questions/2328258/cumulative-normal-distribution-function-in-c-c //注意负号,但是算...
    • 累积分布函数图绘制 参考链接: 1. Matlab官方说明 2. 参考链接 3. 属性设置 CDF:累积分布函数图,顾名思义就是能够直观的反应某组数列分布的概率情况,能够非常直观的反应误差精度大小。 图像的纵坐标为取得小于...
    • 数字数组的 CCDF 互补累积分布函数。 Y = CCDF(X,STEP) 返回 N 维数组 X 的互补累积分布函数值的数组,计算公式为一维数组 RANGE 的每个元素,范围从 min(X) 到 max(X)。 STEP 是一个标量,它决定了 RANGE 值的增量...
    • 但对于伽玛分布累积分布函数。在python中是scipy.special.gdtr 伽玛分布累积分布函数。 返回伽玛概率密度函数从零到x的积分, 而伽玛分布累积分布函数的反函数是gdtrix,下面看下官方例子 首先评估gdtr。 ...

    空空如也

    空空如也

    1 2 3 4 5 ... 20
    收藏数 19,565
    精华内容 7,826
    关键字:

    累积分布函数