精华内容
下载资源
问答
  • 2020-12-10 11:56:28

    今天再看论文的时候看到一个名词叫:inverse cumulative distribution function。

    查了一下,大部分称其为逆累积分布函数,这个叫法着实让人难理解,在这里我们把它称之为概率密度函数的反函数。

    这篇文章分为三部分,概率密度函数(Probability density function, PDF)

    累积分布函数(cumulative distribution function, CDF)

    逆累积分布函数(inverse cumulative distribution function, ICDF)

    1 概率密度函数(Probability density function, PDF)概率密度函数可以大致理解为,随着随机事件的改变,随机事件概率变化的程度。

    python 实现:

    使用的是scipy库的stats模块。

    import scipy.stats as st

    print(st.norm.pdf(0) #求0处的概率密度值

    >>0.3989422804014327

    print(st.norm.pdf(0.8))

    >>0.28969155276148273

    print(st.norm.pdf(-0.8))

    >>0.28969155276148273

    #符合标准正态分布的性质

    2 累积分布函数(cumulative distribution function, CDF)累积分布函数(Cumulative Distribution Function),又叫分布函数,是随机变量X的概率分布。

    定义如下:

    并且在CDF可导的前提下,CDF的倒数 = PDF。

    st.norm.cdf(0)

    >>0.5

    st.norm.cdf(0.5)

    >>0.6914624612740131

    st.norm.cdf(0.8)

    >>0.7881446014166034

    st.norm.cdf(1)

    >>0.8413447460685429

    st.norm.cdf(1.5)

    >>0.9331927987311419

    #符合累积分布函数的性质,单调递增并趋向于1

    3 逆累积分布函数(inverse cumulative distribution function, ICDF)逆累积分布函数里面的"逆",对应的英文单词是inverse

    所以“逆累积分布函数”的意思其实是“反累积分布函数”

    累积分布:分位点->概率,

    逆累积分布:概率->分位点。

    对于ICDF来说,是已知概率求分位点, 对于CDF来说,是已知分位点求概率。

    分位点可理解为划分分布的一个点。

    # ICDF 是 CDF的逆函数,所以我们用cdf组产生的实验结果

    (0, 0.5) (0.5, 0.6914624612740131)(0.8, 0.7881446014166034)

    (1, 0.8413447460685429 )(1, 0.9331927987311419)

    st.norm.ppf(0.5)

    >>0.0

    st.norm.ppf(0.6914624612740131)

    >>0.5

    st.norm.ppf(0.7881446014166034)

    >>0.8

    st.norm.ppf(0.8413447460685429)

    >>1.0

    st.norm.ppf(0.8413447460685429)

    >>1.4999999999999996

    更多相关内容
  • 目前的代码是一个 Matlab 函数,它提供了给定平均 mu 和标准偏差 sigma 的拉普拉斯(双指数)分布的理论累积分布函数的计算,在 x 点评估。 建议的函数类似于内置的 Matlab 函数“cdf”。 为了说明函数的用法,给出...
  • 累积分布函数 分布。 随机变量的为 其中k是自由度, P是下正则化函数。 安装 $ npm install distributions-chisquare-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-chisquare-cdf...
  • 累积分布函数 分布。 随机变量的为 其中alpha是形状参数, beta是分布的速率参数。 gamma是较低的。 安装 $ npm install distributions-gamma-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( '...
  • 累积分布函数 分布。 随机变量的为 其中sigma是比例参数。 安装 $ npm install distributions-rayleigh-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-rayleigh-cdf' ) ; cdf(x ...
  • 累积分布函数 分布。 随机变量的为 其中lambda > 0是rate参数。 安装 $ npm install distributions-exponential-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-exponential-cdf' ) ...
  • 一、累积分布函数(Cumulative Distribution Function) 累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写CDF标记,与概率密度...
  • 累积分布函数 分布。 随机变量的为 其中alpha是第一个形状参数, beta是第二个形状参数。 安装 $ npm install distributions-beta-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-...
  • 累积分布函数 分布。 随机变量的为 其中k是形状参数, lambda是速率参数。 安装 $ npm install distributions-erlang-cdf 要在浏览器中使用,请使用 。 用法 var cdf = require ( 'distributions-erlang-cdf' )...
  • matlab开发-互补累积分布函数。数字数组的互补累积分布函数。
  • 根据pdf或cdf生成随机数:根据用户定义的概率密度函数(pdf)或累积分布 函数(cdf)生成随机数- -mat lab开发 句法y = randdf(S,D,F) S - 维度的大小,整数值。 示例:S=10 创建一个 10×1 数组示例:S=[10,2] 创建一个...
  • 此 m 文件返回 K 方差和 V 自由度的 Cochran C 累积分布函数在 P 中的值的倒数。 给出与最大 S^2 与其总和 (max(S^2)/sum(S^2)) 的 Cochran C 统计比率相关的临界值,作为测试同方差性的替代程序(Cochran,1941;...
  • 从数据集中给出 ECDF(经验累积分布函数)。 由于我在数据集非常大的情况下使用Matlab的ecdf.m函数时遇到了问题,所以我做了这个等效的函数(没有原始函数允许的选项)。
  • 某些(有限)数据样本的经验累积分布函数 (ECDF) 的分位数函数,即逆 ECDF。 因此,ECDF (F) 是不连续的,q 处的分位数函数 (Q) 计算如下: Q(q) = inf{x: q<=F(x)}。 简单的问题,经常在网上讨论,但是似乎没有...
  • 数字数组的 CCDF 互补累积分布函数。 Y = CCDF(X,STEP) 返回 N 维数组 X 的互补累积分布函数值的数组,计算公式为一维数组 RANGE 的每个元素,范围从 min(X) 到 max(X)。 STEP 是一个标量,它决定了 RANGE 值的增量...
  • 可以用来画大量数据的累积分布曲线。使用简单,快速,便捷。程序中注释说明。
  • 累积分布函数

    2021-04-18 02:03:04
    累积分布函数是概率密度函数的积分,即能完整描述一个实随机变量X的概率分布。对于所有实数x ,累积分布函数定义如下:F_{X}(x)=P(X<=x)其代表了实数X的取值小于等于x的概率(请注意大小写,X代表随机变量而x代表X...

    累积分布函数是概率密度函数的积分,即能完整描述一个实随机变量X的概率分布。对于所有实数x ,累积分布函数定义如下:

    F_{X}(x)=P(X<=x)

    其代表了实数X的取值小于等于x的概率(请注意大小写,X代表随机变量而x代表X的取值)。

    若要求得X处于半闭区间(a,b)的概率,其中a < b,则可以根据分布函数进行计算:

    P(a

    在上面的定义中,“小于或等于”符号“≤”是一种惯例,而不是普遍使用的惯例(例如匈牙利文献使用“

    一般使用小写字母f代表概率密度函数和概率质量函数,而用大写字母F表示累积分布函数。

    连续随机变量X的累积分布函数可以表示为其概率密度函数ƒ_{X}的积分,如下式:

    F_{X}(x)=\int_{-\intf}^x f_{X}(t)dt

    累计分布函数有几个重要的性质:

    ·有界性

    o$$\varlimsup_{x\rightarrow - \infty}F_{X}(x)=0$$

    o$$\varlimsup_{x\rightarrow + \infty}F_{X}(x)=1$$

    224d5cb2c060ef1fd4eec59ce3f2efe0.png

    ·单调性:

    oF_{x}(x_1)<=F_{x}(x_2) 若x_1

    4d14889c31e521c57e4bfe419b3c3199.png

    ·右连续性:

    ·$$\varlimsup_{x\rightarrow +x_{0}^+}F_{X}(x_{0})

    20290a6e5a0d0c070a289988ddb04e33.png

    下图给出具有不同均值和方差的正态分布的累积分布函数,可以看到虽然其形状各异,但都具备上述三个性质:

    1e97e42f092ad38d06edd3b2e0857455.png

    累积分布函数的概念主要用于统计分析中,其有两种应用,一种是对小于参考值的现象值的出现频率的分析的累积频率分析,另一种则是对累计分布函数进行估计,随后可以求得简单的统计值,或进行各种统计假设检验。如检验样本数据是否来自给定的分布,或两个样本是否来自同一个概率分布。如著名的Kolmogorov-Smirnov检验即是基于累积分布函数,可用于检验两个经验分布是否不同,或者经验分布是否与理想分布不同。

    发展历史

    描述

    如上文所述,在统计分析中可以利用累积分布的概念对数据进行检验,Kolmogorov和Smirnov提出的Kolmogorov-Smirnov检验(K-S检验)是其中最著名的应用之一,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。双样本K-S检验目前仍是比较两个样本最有用和最常用的非参数方法之一,因为它对两个样本的经验累积分布函数的位置和形状的差异很敏感。除此之外,基于累积分布的统计检验还有Shapiro-Wilk检验,Anderson-Darling检验等,Razali等人在2011年对这些检验的效力进行了比较。

    1951年Massey Jr在发表的论文对Kolmogorov-Smirnov检验进行了修改,从而将其用于模型的拟合优度(goodness-of-fit)分析。该检验基于实证累积分布(empirical cumulative distribution)和假设累计分布(hypothetical cumulative distribution)之间的最大差异,文章中给出了具体的例子,并认为结果显示修改后的Kolmogorov-Smirnov检验的表现比卡方检验(chi-square test)更好。

    为将高阶变量的分布也纳入分析范围,J. P. Imhof于1961年发表了论文,对已有的方法进行了探讨,并提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法。

    累积分布的应用远不止于此,在图像处理领域,基于图像直方图均衡方法的图像增强实际上也依赖于累积分布的概念,Yu Wang等人在其1999年发表的论文对此进行了说明。

    主要事件ABC

    1年份事件相关论文/Reference

    21933-1948Kolmogorov和Smirnov提出了Kolmogorov-Smirnov检验Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. G. Ist. Ital. Attuari. 4: 83–91. // Smirnov N (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical Statistics. *19*: 279–281.

    31951Massey Jr在发表的论文对Kolmogorov-Smirnov检验进行了修改,从而将其用于模型的拟合优度(goodness-of-fit)分析Frank J. M. Jr. (1951). The Kolmogorov-Smirnov Test for Goodness of Fit, Journal of the American Statistical Association, 46(253): 68-78.

    41961J. P. Imhof提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法Imhof. J. P.(1961). Computing the Distribution of Quadratic Forms in Normal Variables. Biometrika. 48(3/4): 419-426.

    51999Yu Wang等人提出了基于图像直方图均衡方法的图像增强法,这种方法实际上也是基于累积分布的Wang, Y.; Chen, Q.; Zhang, B. (1999). Image enhancement based on equal area dualistic sub-image histogram equalization method. IEEE Transactions on Consumer Electronics. 45(1):68 - 75.

    62011Razali等人对基于累积分布的Shapiro-Wilk检验,Anderson-Darling检验等进行了比较Razali, N. M.; Wah Y. B.(2011). Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics. 2(1): 21-33.

    发展分析

    瓶颈

    累积分布函数是数学上的一个基本概念,并且经过超过一百年的发展,已经十分成熟,很难说存在什么瓶颈。

    未来发展方向

    如上文所述,目前有关的研究大部分是基于累积分布函数这个概念的,而不是直接对累积分布函数进行研究。

    ByYuanyuan Li

    展开全文
  • on累积分布变换 Radon累积分布变换(Radon-CDT),如下所述: 是非负d维信号的非线性和可逆变换,可确保某些线性分离定理。 该转换建立在累积分布转换(CDT)的基础上,该累积转换描述于: 并将CDT扩展到d维...
  • 句法y = randdf(S,D,F) S - 维度的大小,整数值。 示例:S=10 创建一个 10×1 数组示例:S=[10,2] 创建一个 10×2 矩阵 D - 密度函数,数字矩阵Pdf 或 cdf 由矩阵描述,其大小为 N×2。 pdf 或 cdf 的采样点形成第...
  • matlab开发-Ukeyshsdtest的累积分布函数。cdftukey返回研究范围(q)的累积分布函数。
  • 累积分布图、累积分布函数、分布函数、概率分布函数四者的联系和区别

    一、联系和区别

            联系:累积分布函数(Cumulative Distribution Function)、分布函数(Distribution Function)和概率分布函数(Probability Distribution Function)三者都是指同一个东西,简称分布函数(Distribution Function)。而累积分布图(Cumulative Distribution Diagram)则是指他们的图像。

            区别:只是字面上存在区别。

    二、数学定义

            设X是一个随机变量,x是任意实数,函数

    F(x)=P\{X\leqslant x\}, -\infty < x < \infty

    称为X的分布函数。

            另外,再多说一点什么是“概率分布”。概率分布:从广义来看,概率分布是指随机变量的概率性质;从狭义来看,它是指随机变量的概率分布函数,也就是上面所探讨的内容。

    三、累积分布图例子

            例如,下面是均值为0,方差为1的标准正态分布的累积分布图。

    四、参考

            概率论与数理统计第四版,盛骤、谢式千、潘承毅,高等教育出版社

            Machine Learning A Probabilistic Perspective,Kevin P. Murphy

            概率分布-MBA智库百科

    展开全文
  • 计算概率 Pr(l<X<u),其中 'X' 是具有协方差 'Sig' 的零均值多元正态向量。 在高维度上,该算法大大优于 Matlab 统计工具箱中的算法,请参见示例。 参考:ZI Botev (2015),“线性限制下的正态定律:通过 ...
  • 我们的大多数统计评估都依赖于累积分布函数 (CDF)。尽管直方图乍一看似乎更直观并且需要较少的解释,但实际上 CDF 提供了几个优点,值得熟悉它。CDF 的主要优点以及我们主要使用它而不是直方图的原因在对两个图的...

    我们的大多数统计评估都依赖于累积分布函数 (CDF)。尽管直方图乍一看似乎更直观并且需要较少的解释,但实际上 CDF 提供了几个优点,值得熟悉它。CDF 的主要优点以及我们主要使用它而不是直方图的原因在对两个图的主要解释之后列出如下。

     

    基本说明

    在探讨不同地块的优势之前,首先在此对其进行描述。

    应该给出一组数字。这些可以来自任何类型的测量、模拟或任意其他数据源。只是为了说明,我们刚刚使用 MATLAB 随机数生成器生成了一些正态分布的数字:

    x=randn(100,1)*10+50

    在直方图的帮助下显示这些数字,数字的结果范围被分成一定数量的均匀间隔 - 所谓的bins。然后将每个 bin 内数字的绝对或相对计数绘制为相应间隔的条形图。上一个示例的结果可能如下图所示:

     

    另一方面,在累积分布函数 (CDF) 中,已排序数字的百分比或相对计数绘制在数字本身上。这或多或少是直方图的积分。

    前面的示例数字导致下图:

     

    该图意味着来自给定数字集的F(x)值的相对数量小于或等于值x

    在我们看来,这张图有很多本质的优势。

     

    基本关键值的直接定量读取

    CDF 相对于直方图的主要优势之一是可以直接从图表中读取主要和重要的关键值和特征,如最小值、最大值、中值、分位数、百分位数等。

     

    可以在 CDF 开始并碰到 x 轴的点处看到最小值。在 CDF 到达线y=1并结束的地方可以看到最大值。百分位数和分位数也可以直接从x轴读取。

    给定数字集中的每个值都是 CDF 中的某个点。在我们的一些 CDF 评估中,我们实现了在 CDF 中单击该点时直接命名该点或其值。在直方图中,无法单独处理数字样本。

     

    异常值检测

    在某些情况下,使用直方图检测异常值可能会出现问题。作为示例,我们将值 400 添加到上面的给定示例数字中。相应的直方图如下所示:

     

    如果数据集很大,由于与值总数的关系相对较小,可能无法很好地看到异常值。另一方面,异常值以原始分布可能变得难以识别的方式扩展了 bin 的大小。因此,必须根据离群值到主要值的距离来扩展 bin 的数量。但这通常只能在事后很好地完成,而不是先验的,或者需要一些复杂的算法来选择 bin 大小。如果 x 轴的限制没有根据异常值而改变,则异常值也可能完全被监督。直方图没有表明在显示的轴限制之外仍然存在数据。

     

    在累积分布函数内,可以通过 CDF 曲线的尾部看到异常值。它们的值在尾部的末端直接可见。此外,即使由于异常值导致x 轴重新缩放,分布类型也保持可见。

     

    如果不更改x轴的限制以容纳所有数据,由于分布函数并未在轴限制之前结束且未到达y=1线,因此异常值的存在仍然很明显.

     

    无穷大值的显示

    如果某些无穷大值是数据集的一部分,则在直方图中根本看不到它们的存在。在 CDF 中,可以看到无穷大值的存在,因为绘图没有到达下线y=0(对于-Inf)或上线y=1(对于+Inf)。CDF 末端到上下线的距离也表示无穷大值的相对数量。对于负无穷大和正无穷大都是如此。有时我们用圆圈标记这些值,以突出和容易识别这些值。

     

    分配类型的识别

    我们同意使用直方图可以更简单地识别分布类型。在直方图中,人们可以轻松识别数据是正态分布还是遵循任何不同的分布类型。另一方面,如果不仅绘制了经验分布函数本身,还绘制了预期分布类型的 CDF(比较下图中正态分布的红线),则可以直接应用 Kolmogorov Smirnov 检验。这两条曲线在 y 方向的最大距离验证了分布的类型。这种差异越小,关于分布类型的证据就越多。

     

    集群的识别

    与分布类型一样,在直方图中可以很容易地看到集群的存在。

     

    但是只需很少的部分,也可以在 CDF 中清楚地看到集群。一个人只需要寻找下降的斜率,之后梯度会再次增加。下图中可以看到一个示例,它依赖于与上面的直方图相同的数字。

     

    几个数据集的比较

    CDF 比直方图更适合比较多个数据集。可以将任意数量的 CDF 绘制到相同的轴上,而不会出现任何比较问题。因此,每个集合实际包含多少数据无关紧要。

     

    直方图很快就会变得混乱,并且很难在视觉上区分不同的数据集。除了直方图的所有其他缺点之外,在此处生成这些缺点也更加复杂。例如,所有数据集的所有 bin 都必须同步。这甚至可能恶化直方图的现有缺点。

     

    防止误解和操纵的安全性

    直方图的另一个缺点是它对某些显示参数(如 bin 大小)的敏感性。以下面的正态分布数据集为例,该数据集已由 MATLAB 随机数生成器 ( randn(20,1))再次生成:

    [0.5377, 0.5377, 1.8339, -2.2588, 0.8622, 0.3188, -1.3077, -0.4336, 0.3426, 3.5784, 2.7694, -1.3499, 3.0349, 0.7254, -0.063, 0.7147, -0.2050, -0.1241, 1.4897, 1.4090, 1.4172]

    根据所选的 bin 数量,生成的图表可能会有很大差异:

     

    具有 5 个 bin 的直方图与预期的正态分布在很大程度上相关。同样的数字看起来完全不同,当选择6个直方图条块进行说明的时候. 在这种情况下,直方图看起来像具有 3 个集群的多峰分布,而不是正态分布。

    如果不巧选择了轴限制,画面会变得更糟:

     

    与此相反,CDF 的显示始终清晰且独特。如果在数据集范围内定义了轴限制,则 CDF 不会到达线y=0y=1。这清楚地表明还有一些在当前视图中看不到的可用数据。这样,CDF 对“操纵”和由于不吉利的显示参数造成的误解更加稳健。

    展开全文
  • %function [PR]=RH_distrib(M,Mm,U) % 函数实现了用于估计降雨率累积分布函数的 Rice Holmberg 模型% %输入%M:标量。 年平均降水量,毫米%Mm:SCALAR 连续 30 年最高的月累积,在%毫米%U: SCALAR 平均每年雷暴次数...
  • 累积分布函数 [反伽玛]( 反伽玛_distribution)分布。 [Inverse Gamma]( Gamma_distribution)随机变量的为 其中alpha是形状参数, beta是比例参数。 Q是上正则化。 安装 $ npm install distributions-invgamma...
  • 运行环境:python3 作者:K同学啊 精选专栏:《深度学习100例》 ...# 绘制句子长度累积分布函数(CDF) sent_pentage_list = [(count/sum(sent_freq)) for count in accumulate(sent_freq)] # 绘制CDF plt.p.
  • 累积分布图python

    2021-07-19 16:09:30
    I am doing a project using python where I have two arrays of data. Let's call them pc and pnc. I am required to plot a cumulative distribution of both of these on the same graph. For pc it is supposed...
  • 累积分布函数(Cumulative Distribution Functions) 累积分布函数(CDF) 是随机变量取值小于或等于x的概率。举例扔骰子,用x表示获得的点数,那么CDF可以描述结果的分布情况: P(x ≤ 0) : 0 P(x ≤ 1) : 1/6 P(x ≤ ...
  • cdfY = cdf(name,X,A)Y = cdf(name,X,A,B)Y = cdf(name,X,A,B,C)DescriptionY = cdf(name,X,A) computes the cumulative distribution function for the one-parameter family of distributions specified by name....
  • 资源名:偏t分布的概率密度函数(pdf)_累积分布函数(CDF)_分位数(quantiles)计算以及生成随机数_matlab代码 资源类型:matlab项目全套源码 源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 34,862
精华内容 13,944
关键字:

累积分布