精华内容
下载资源
问答
  • Happiness is to find someone who can give you warm and share your life ...数理统计中常用函数、概率分布函数总结克罗内克函数(Kornecker delta)δ(n)={01if i≠jif i=j \delta(n)=\begin{cases} 0& \text{if

    Happiness is to find someone who can give you warm and share your life together.

    幸福就是找一个温暖的人过一辈子。

    数理统计中常用函数、概率分布函数总结

    克罗内克函数(Kornecker delta)

    δ(i,j)={01if ijif i=j

    伯努利分布函数(Bernoulli distribution)

    又名两点分布或0-1分布。

    • 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。
    • 进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。
      伯努利分布是离散型概率分布,概率分布函数为:
      f(x)=px(1p)1x=p1p0if x=1if x=0otherwise

    二项分布(Binomial distribution)

    二项分布是n重伯努利试验成功次数的离散概率分布。

    • 如果试验E是一个n重伯努利试验,每次伯努利试验的成功概率为p,X代表成功的次数,则X的概率分布是二项分布,记为X~B(n,p),其概率质量函数为:
      P{X=k}=Cknpk(1p)nk,k=0,1,2,3...,n.

      k=0nP{X=k}=1
    • 伯努利分布是二项分布在n=1时的特例。
    • 二项分布名称的由来,是由于其概率质量函数中使用了二项系数,该系数是二项式定理中的系数,二项式定理由牛顿提出:
      (x+y)n=Cknxkynk

    多项分布(Multinomial distribution)

    多项式分布是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。多项式分布的质量函数如下:

    P{X1=k1,X2=k2,......,Xn=kn}=n!k1!k2!...Kn!i=1nPkii,wherei=0nki=n.

    贝塔分布(Beta distribution)

    先了解一下先验概率、后验概率、似然函数以及共轭分布的概念。

    • 先验概率 事情尚未发生前,我们对该事发生概率的估计。利用过去历史资料计算得到的先验概率,称为客观先验概率; 当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。例如抛一枚硬币头向上的概率为0.5,这就是主观先验概率。
    • 后验概率 指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。
    • 先验概率和后验概率的区别 先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料。另外一种表述:先验概率是在缺乏某个事实的情况下描述一个变量;而后验概率是在考虑了一个事实之后的条件概率。
    • 似然函数 一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。
    • 似然和概率的区别 概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。
    • 共轭分布 后验概率分布函数与先验概率分布函数具有相同形式

    首先考虑在试验数据比较少的情况下,直接用最大似然法估计二项分布的参数可能会出现过拟合的现象(比如,扔硬币三次都是正面,那么最大似然法预测以后的所有抛硬币结果都是正面)。为了避免这种情况的发生,可以考虑引入先验概率分布来控制参数,防止出现过拟合现象。

    先验概率和后验概率的关系如下:

    posterior=likelihoodprior

    二项分布的似然函数为(指二项分布除归一参数的部分,似然函数不是概率分布函数是由于似然函数不需要归一化):
    μm(1μ)n
    如果选择的先验概率也与和次方的乘积的关系,那么后验概率分布的函数形式就会跟它的先验函数形式一样了。具体来说,选择prior的形式是
    w1μa(1μ)b
    ,那么posterior就会变成
    w2μa+m(1μ)n+b
    , w1,w2 (为概率分布函数的归一化参数),所以posterior和prior具有相同的函数形式(都是也与和次方的乘积),这样先验概率与后验概率就是共轭分布了。
    通常选择贝塔分布作为先验概率分布函数,形式如下:
    Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1,where0<μ<1,Γ(n)=(n1)!,n=1,2,3...

    狄利克雷分布(Dirichlet distribution)

    狄利克雷分布是多项分布的共轭分布,与多项式分布具有相同的形式。

    概率分布函数如下:

    P(p1,...,pn;α1,...,αn)=1B(α)i=1npki1i,whereB(α)=ni=1Γ(αi)Γ(ni=1αi)

    欢迎参考本人博客:https://smj2284672469.github.io/

    展开全文
  • 本文介绍一些常见的概率论知识和概率分布

    Introduction

    2019年3月更新:最近略忙,不,是超忙,更的会慢些,我先把《神经网络与深度学习》翻译完。

    最近看了一些有关网络和图的文章,遇到一些陌生的概率分布,学习之后,在这里一并描述,持续更新,文末配有 Python Matplotlib 代码,用语通俗,错误难免,还请读者斧正,函数具体如下:

    Preliminaries


    我将用一个微博转发数据集 [12] 贯穿本文来说明一些分布的特性,数据集包含119,313条微博,每条微博最少被转发过10次,其中包含的信息有哪些人转发了这条微博,以及每次转发的时间。

    Probability Density Function (PDF),概率密度函数

    Bimodal Distribution

    Cumulative Distribution Function (CDF),累计分布函数


    定义:
    F X ( x ) = P ( X ≤ x ) F_X(x) = P(X \le x) FX(x)=P(Xx)
    两个关键点,一个 X X X, 一个 x x x,前者代表随机变量,后者代表一个实值。
    举个例子,掷骰子,可能出现的结果 X ∈ { 1 , 2 , 3 , 4 , 5 , 6 } X \in \{1, 2, 3, 4, 5, 6\} X{1,2,3,4,5,6} P ( X ) = 1 / 6 P(X) = 1/6 P(X)=1/6,假如我们让 x = 6 x = 6 x=6,投一次骰子,结果小于等于 x x x 的概率是多少呢?答案是1。如果取 x = 0 x = 0 x=0, 因为不可能投出小于等于零的骰子,所以概率 P ( X ≤ 0 ) = 0 P(X \le 0) = 0 P(X0)=0
    这个简单的例子表明,累积分布函数在 x → − ∞ x \rarr -\infty x 时等于 0 0 0,在 x → ∞ x \rarr \infty x 时等于 1 1 1,而且是非减、右连续的。
    cdc-dice
    如图所示,给定任意一个 X X X,例如 3 3 3,可知投的骰子的数小于等于 3 3 3 的概率为 0.5 0.5 0.5

    再用微博举一个例子,微博转发数满足下面这个累积分布:
    weibo-cdf
    对于一条微博,它转发数小于某个 x x x 的概率是多少,可以很方便地在图中看出来。

    假如现在有一正态分布 X ∼ N ( 1.7 , 0. 2 2 ) X \sim N(1.7, 0.2^2) XN(1.7,0.22) 表示一个班级内50个学生的身高分布,其累积分布为:
    cdc-height
    由图可知,身高低于190厘米的概率大约是 0.75 0.75 0.75显然,正态分布的标准差设的有点大了。

    Complementary Cumulative Distribution Function (CCDF),互补累积分布函数


    定义:
    F ˉ X ( x ) = P ( X > x ) = 1 − F X ( x ) \bar{F}_X(x) = P(X > x) = 1 - F_X(x) FˉX(x)=P(X>x)=1FX(x)
    定义很简单,用 1 1 1 减去原始的累积分布函数 F X ( x ) F_X(x) FX(x),还是上面那个例子:
    ccdf-height
    由图可知,身高大于170厘米的概率大约为 0.55 0.55 0.55

    Quantile Funtion (PPF),分位函数

    又名 Percent Point Function,或者Inversed Cumulative Distribution Function,含义一目了然,就是CDF的反函数。以指数分布为例:
    exponential-cdf
    exponential-ppf
    比较两图可知,函数互为反函数。分位函数顾其名思其义,它的一大作用是分位点,以常见的四分位为例,对于 λ = 1 \lambda = 1 λ=1 指数分布,其四分位数分别为0.287、0.693、1.386,它们的含义是把样本从小到大排列,位于25%、50%、75%的数字 [13, 14]。也就是说,有25%的数字小于0.287,有25%的数字大于1.386。类似的还有二分位数和百分位数。分位函数广泛应用于统计学和蒙特卡洛方法 [15]。

    Dirac Delta Function,狄拉克 δ 函数

    Exponential Distribution,指数分布


    又称负指数分布, X ∼ exp ⁡ ( λ ) X \sim \exp(\lambda) Xexp(λ),常用来描述事件发生的间隔时间,话不多说上公式:
    f ( x ; λ ) = { λ e − λ x x ≥ 0 , 0 x < 0. f(x;\lambda) = \begin{cases} \lambda e^{-\lambda x} & x \ge 0, \\ 0 & x < 0. \end{cases} f(x;λ)={λeλx0x0,x<0.
    概率密度函数(PDF):
    exponential density
    λ \lambda λ 越小表示单位时间内事件发生的次数越少。由图可知,随着 x x x 的增加,事件发生的概率越来越小。

    累积分布函数(CDF):
    F ( x ; λ ) = { 1 − e − λ x x ≥ 0 , 0 x < 0. F(x;\lambda) = \begin{cases} 1 - e^{-\lambda x} & x \ge 0, \\ 0 & x < 0. \end{cases} F(x;λ)={1eλx0x0,x<0.
    exponential CDF
    由指数分布的CDF图可知,随着时间的增加,事件发生的概率越来越大。

    Heavy-tailed Distribution 重尾分布


    重尾分布很有意思,先扔公式:
    lim ⁡ x → ∞ e t x Pr [ X > x ] = ∞           for all  t > 0 \lim_{x \rarr \infty} e^{tx} \text{Pr}[X > x] = \infty \;\;\;\; \text{ for all } t > 0 xlimetxPr[X>x]= for all t>0
    明天再写,告辞。
    我回来了,继续。我们上面介绍了指数分布,它的概率密度函数的尾巴长长的,像老鼠尾巴 ,而且越往后,其值越小, 1 / e x 1/e^x 1/ex。重尾分布不一样,它越往后尾巴不一定越小。对于一个常规老鼠,它的尾巴占身体重量的比例是很少的,如果一个老鼠的尾巴超级长,它尾巴重量的占比将不断上升,最后甚至超过身体的重量。有没有想到那个著名的二八定律 [8] ?它也叫帕累托分布(Pareto Distribution) [5],对于这个整体的分布来说,不起眼的尾巴,其重要性甚至超过了本体,比如20%的人掌握了80%的财富等等,这个定律在自然界、社会、经济等方面都有体现 [7]。回到原题,重尾分布的尾在哪并不重要,可以在右也可以在左,也可以左右都有,一般来说在右边。它的定义有一些分歧,一部分学者认为重尾分布的 power moments 是无限的,另外一部分学者认为重尾分布不具有一个有限的方差。重尾分布有三个重要的子类,(1)Fat-tailed distribution(2)Long-tailed distribution(3)Subexponential distribution,次指数分布。后面再提。

    总的来说,当一个分布的尾巴很长,而且不是越长值越小,那么它就可以被称为重尾分布,其尾巴虽然看着不起眼,但在整体中占着主导地位。

    在查找资料的过程中,我发现大家对重尾分布的理解有着很大的偏差,定义也不甚明确,下面主要用我自己的理解来说明。

    角度一:转发数很高的微博占比很少,但是效果很出众。我们用正态分布和微博数据集分布的CCDF做一个对比,因为微博数据集的平均转发数为174.01, 所以正态分布的均值设为174.01,标准差设为150,共生成119,313个值:
    ccdf-weibo-normal
    很明显,微博数据集的尾巴要比正态分布厚很多,对于正态分布,概率衰减的非常快,而对于微博,随机变量 X X X 大于某个 x x x 的值的概率衰减的很慢。这意味着对于一条新的微博,它未来的转发数超过 x x x 的概率要比正态分布大很多。如果微博转发数服从正态分布,那么对于一条新微博,它的转发数超过1,000的概率几乎为0,而微博的真实分布说明对于一条新微博,其转发数超过1,000的概率高达2.5%。

    如果把所有微博按转发数排序从大到小,前20%的微博的转发数占了总转发数的84.65%:

    角度二: 如果用转发数区间(单位为10)表示横坐标,用微博数表示纵坐标:
    weibo-heavy-tail
    由图可知,转发超过500的微博寥寥无几,大部分集中在 [ 0 , 200 ] [0, 200] [0,200] 这个区间内,这个分布的尾巴在图里看起来毫无价值。但是尾巴中从 [ 1000 , ∞ ] [1000, \infty] [1000,] 这个区间内的微博,贡献了84.65%的转发量。这个尾巴可算的上是重尾了。-_-

    Long-tailed Distribution,长尾分布

    扔公式先:
    lim ⁡ x → ∞ Pr [ X > x + t ∣ X > x ] = 1 \lim_{x \rarr \infty} \text{Pr} [X > x + t | X > x] = 1 xlimPr[X>x+tX>x]=1
    Pr [ X > x ] \text{Pr}[X > x] Pr[X>x] 就是我们前面说过的CCDF。长尾分布与重尾分布相似但不同,长尾分布都是重尾分布,但重尾分布不一定是长尾分布。微博数据集虽然符合重尾分布,但是,根据常识我们知道,一条微博被转发1,000次和被转发2,000次的概率是不一样的,显然有
    lim ⁡ x → ∞ Pr [ X > 2000 ∣ X > 1000 ] < 1 \lim_{x \rarr \infty} \text{Pr} [X > 2000 | X > 1000] < 1 xlimPr[X>2000X>1000]<1
    长尾分布的潜在含义在于,如果 X X X 超越了某个 x x x,它一定会超越更大的 x x x

    Subexponential Distribution,次指数分布

    对于两个符合同一分布函数 F F F 的随机变量 X 1 , X 2 X_1, X_2 X1,X2,它们分布函数的卷积操作,定义为:
    Pr [ X 1 + X 2 ≤ x ] = F ∗ 2 ( x ) = ∫ − ∞ ∞ F ( x − y ) d F ( y ) . \text{Pr}[X_1 + X_2 \le x] = F^{*2}(x) = \int_{-\infty}^{\infty} F(x - y)dF(y). Pr[X1+X2x]=F2(x)=F(xy)dF(y).
    可以推广到多个随机变量 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X1,X2,,Xn。尾分布函数为 F ˉ ( x ) = 1 − F ( x ) \bar{F}(x) = 1 - F(x) Fˉ(x)=1F(x).
    如果分布 F F F 的正半部分满足如下条件,则其符合次指数分布:
    F ∗ n ‾ ( x ) ∼ n F ‾ ( x )          as  x → ∞ \overline{F^{*n}} (x) \sim n \overline{F}(x) \;\;\;\; \text{as }x \rarr \infty Fn(x)nF(x)as x
    其中 n ≥ 1 n \ge 1 n1。次指数分布在各种风险模型中广泛应用,直观的理解就是, n n n 个随机变量,它们的超过某个 x x x 的概率,和它们中最大的 X m a x X_{max} Xmax 超过 x x x 的概率等价。以保险行业为例,假设理赔金额满足次指数分布。如果你有10个保单,它们最终总的理赔金额超过10万的概率,和它们中某个金额最大的保单的单个理赔金额超过10万的概率等价。这就是说,另外9个保单的理赔金总和在后者面前几乎可以忽略不计:
    Pr [ X 1 + X 2 + ⋯ + X n > x ] ∼ Pr [ m a x ( X 1 , X 2 , … , X n ) ]          x → ∞ \text{Pr}[X_1+ X_2 + \dots + X_n > x] \sim \text{Pr}[max(X_1, X_2, \dots, X_n)] \;\;\;\; x \rarr \infty Pr[X1+X2++Xn>x]Pr[max(X1,X2,,Xn)]x
    这也侧面说明,大部分的理赔金由少部分几个保单产生。容易证明,次指数分布都是长尾分布,长尾分布不一定是次指数分布。经济危机、地震灾害等都可视为次指数分布 [6]。其在现实中的意义是极小概率发生的事件造成了极大影响 [11]。

    Fat-tailed Distribution,肥尾分布

    肥尾分布一般指其尾部按幂率进行衰减,不过也不绝对,某些衰减的慢些的分布也被视为肥尾分布 [2, 3, 9],例如对数正态分布、对数逻辑分布、帕累托分布等。
    先扔公式:
    Pr [ X > x ] ∼ x − α          as  x → ∞ ,          α > 0 \text{Pr} [X > x] \sim x^{-\alpha} \;\;\;\; \text{as } x \rarr \infty, \;\;\;\; \alpha > 0 Pr[X>x]xαas x,α>0
    α \alpha α 不很大的时候,如果一个分布满足上述条件(即CCDF等价 x − α x^{-\alpha} xα),则它可以称为肥尾分布。
    说起 α \alpha α,我就想到美猴王头上的紧箍,今年春天,中美合拍,文体两开花,哦呸。还有一些概念涉及到重尾密度(Heavy-tailed Density)、尾部指数(Tail-index),我也没搞懂,有兴趣的可以自己看看。

    Log-normal

    Pareto Distribution

    CDF公式投喂:
    F ‾ ( x ) = Pr [ X > x ] = { 1 − ( x m x ) a x ≥ x m , 0 x < x m . \overline{F}(x) = \text{Pr}[X > x] = \begin{cases} 1-(\frac {x_m}{x})^a & x \ge x_m, \\ 0 & x < x_m. \end{cases} F(x)=Pr[X>x]={1(xxm)a0xxm,x<xm.
    其中 x m x_m xm X X X 的一个最小正值, α \alpha α 是一个正参数。
    扔完公式扔图:
    pareto-pdf
    pareto-cdf
    帕累托分布一开始用来描述八二定律(叫二八定律也行),即20%的人掌握着80%的财富 [5],其实这一条件是在尾部指数 α ≈ 1.16 \alpha \approx 1.16 α1.16 的时候取到的:
    pareto-1.16

    Marginal Distribution

    Marginal Joint Distribution

    Multimodal Distribution

    Bimodal Distribution

    Multinomial Distribution

    Power-law

    Unimodal Distribution

    Weibull Distribution

    Zipfian Distribution (Zipf’s law)

    Code


    Cumulative Distribution Function

    mu = 1.7
    sigma = 0.2
    n_bins = 50
    
    np.random.seed(3197747)
    height = np.random.normal(mu, sigma, n_bins)
    
    plt.hist(height, n_bins, density=True, histtype='step', cumulative=True)
    
    plt.axis([1.3, 2.0, 0, 1])
    plt.xticks([1.4, 1.5, 1.6, 1.7, 1.8, 1.9])
    plt.xlabel('Height')
    plt.ylabel('Probability')
    
    plt.show()
    

    Quantile Funtion

    lmbda_list = [0.5, 1, 1.5]
    x = 1 - np.random.random(10000)
    
    fig, ax = plt.subplots()
    
    for lmbda in lmbda_list:
        # y = [(1 - np.e ** (-1 * lmbda * x_)) for x_ in x[:]]
        y = [-math.log(x_)/lmbda for x_ in x]
        label = '$\lambda = $' + str(lmbda)
        ax.plot(sorted(y), label=label)
    
    plt.title('Quantile Function')
    
    plt.xticks(np.arange(0, 10001, 2000), ('0', '0.2', '0.4', '0.6', '0.8',
                                           '1'))
    plt.xlabel('$P(X \leq x)$')
    plt.ylabel('$x$')
    plt.legend()
    plt.show()
    

    Exponential Distribution Function

    # Probability Density Function
    lmbda_list = [0.5, 1, 1.5]
    x = np.arange(0, 10, 0.001)
    
    fig, ax = plt.subplots()
    
    for lmbda in lmbda_list:
        y = [(lmbda * np.e ** (-1 * lmbda * x_)) for x_ in x[:]]
        label = '$\lambda = $' + str(lmbda)
        ax.plot(x, y, label=label)
    
    plt.title('Probability Density Function')
    plt.xlabel('$x$')
    plt.ylabel('$P(x)$')
    plt.legend()
    plt.show()
    
    # CDF
    lmbda_list = [0.5, 1, 1.5]
    x = np.arange(0, 12, 0.001)
    
    fig, ax = plt.subplots()
    
    for lmbda in lmbda_list:
        y = [(1 - np.e ** (-1 * lmbda * x_)) for x_ in x[:]]
        label = '$\lambda = $' + str(lmbda)
        ax.plot(x, y, label=label)
    
    plt.title('Cumulative Distribution Function')
    plt.xlabel('$x$')
    plt.ylabel('$P(X \leq x$')
    plt.legend()
    plt.show()
    

    Pareto Distribution

    # PDF
    fig, ax = plt.subplots()
    
    alpha = [1, 2, 3]
    x_m = [1, 1, 2]
    for i in range(len(alpha)):
        x = np.arange(x_m[i], 10, 0.001)
        y = [(alpha[i]*pow(x_, alpha[i])/(pow(x_, alpha[i]+1))) for x_ in x]
        label = '$x_m = ' + str(x_m[i]) + ' ,\\alpha = $' + str(alpha[i])
        ax.plot(x, y, label=label)
    
    plt.xlabel('$x$')
    plt.ylabel('$Pr[X = x]$')
    plt.title('PDF')
    plt.xticks(np.arange(0, 11))
    plt.legend()
    plt.show()
    
    # CDF
    fig, ax = plt.subplots()
    
    alpha = [1, 2, 3]
    x_m = [1, 1, 2]
    for i in range(len(alpha)):
        np.random.seed(3197747)
        x = 1 - np.random.random(10000)
        # reverse function
        y = [(alpha[i] * pow(x_m[i], alpha[i]) / x_) ** (1 / (alpha[i] + 1))
             for x_ in x]
        label = '$x_m = ' + str(x_m[i]) + ' ,\\alpha = $' + str(alpha[i])
    
        ax.hist(y, len(y), cumulative=True, density=True, histtype='step',
                label=label)
    
    plt.xlim(0, 5)
    plt.xlabel('$x$')
    plt.ylabel('$Pr[X < x]$')
    plt.title('Pareto Distribution CDF')
    plt.legend(loc=2)
    plt.show()
    

    Reference

    1. Cumulative distribution function. (January 6, 2019). Retrieved from https://en.wikipedia.org/wiki/Cumulative_distribution_function
    2. Heavy-tailed distribution. (December 18, 2018). Retrieved from https://en.wikipedia.org/wiki/Heavy-tailed_distribution
    3. Fat-tailed distribution. (Octorber 12, 2018). Retrieved from https://en.wikipedia.org/wiki/Fat-tailed_distribution
    4. Exponential distribution. (December 8, 2018). Retrieved from https://en.wikipedia.org/wiki/Exponential_distribution
    5. Pareto distribution. (January 9, 2019). Retrieved from https://en.wikipedia.org/wiki/Pareto_distribution
    6. 林建希. (2007). 关于次指数分布及其相关类的一个性质. Journal of Xiamen University (Nature Science), Retrieved from http://www.doc88.com/p-1963143584484.html
    7. 李芝棠. (January 26, 2019). Retrieved from https://wenku.baidu.com/view/208864738e9951e79a892705.html
    8. 二八定律. (January 26, 2019). Retrieved from https://baike.baidu.com/item/%E4%BA%8C%E5%85%AB%E5%AE%9A%E5%BE%8B/747076
    9. dymodi. (January 8, 2017). 重尾分布,长尾分布,肥尾分布 和 随机游走 (Heavy-tailed, Long-tailed, Fat-tailed distribution and Random walk). Retrieved from https://blog.csdn.net/dymodi/article/details/54231728
    10. 黄世宇. (December 26, 2016). 长尾分布,重尾分布(Heavy-tailed Distribution). Retrieved from https://www.cnblogs.com/huangshiyu13/p/6217180.html
    11. 西蒙斯. (August 18, 2018). 什么是肥尾效应?. Retrieved from http://www.zcaijing.com/ximengsi/105148.html
    12. Cao, Q., Shen, H., Cen, K., Ouyang, W., & Cheng, X. (2017, November). DeepHawkes: Bridging the gap between prediction and understanding of information cascades. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (pp. 1149-1158). ACM.
    13. 分位数. (August 14, 2018). Retrieved from https://baike.baidu.com/item/%E5%88%86%E4%BD%8D%E6%95%B0/10064158
    14. Quantile function. (January 20, 2019). Retrieved from https://en.wikipedia.org/wiki/Quantile_function
    15. Monte Carlo method. (January 14, 2019). Retrieved from https://en.wikipedia.org/wiki/Monte_Carlo_method
    展开全文
  • 概率密度函数是概率论中的核心概念之一,用于描述连续型随机变量所服从的概率分布。 从随机事件说起 回忆我们在学习概率论时的经历,随机事件是第一个核心的概念,它定义为可能发生也可能不发生的事件,因此是否发生...

    1. 概率函数

    概率函数,就是用函数的形式来表达概率。
    p i = P ( X = a i ) ( i = 1 , 2 , 3 , 4 , 5 , 6 ) p_i=P(X=a_i)(i=1,2,3,4,5,6) pi=P(X=ai)(i=1,2,3,4,5,6)
    在这个函数里,自变量(X)是随机变量的取值,因变量( p i p_i pi)是取值的概率。这就叫啥,这叫用数学语言来表示自然现象!它就代表了每个取值的概率,所以顺理成章的它就叫做了X的概率函数。
    从公式上来看,概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。

    2. 概率分布

    概率分布,就是概率的分布,这个概率分布还是讲概率的。我认为在理解这个概念时,关键不在于“概率”两个字,而在于“分布”这两个字。为了理解“分布”这个词,我们来看一张图。
    在这里插入图片描述
    在很多教材中,这样的列表都被叫做离散型随机变量的“概率分布”。其实严格来说,它应该叫“离散型随机变量的值分布和值的概率分布列表”,这个名字虽然比“概率分布”长了点,但是对于我们这些笨学生来说,肯定好理解了很多。因为这个列表,上面是值,下面是这个取值相应取到的概率,而且这个列表把所有可能出现的情况全部都列出来了!

    举个例子吧,一颗6面的骰子,有1,2,3,4,5,6这6个取值,每个取值取到的概率都为1/6。那么你说这个列表是不是这个骰子取值的”概率分布“?
    在这里插入图片描述
    长得挺像的,上面是取值,下面是概率,这应该就是骰子取值的“概率分布”了吧!大错特错!少了一个最重要的条件!对于一颗骰子的取值来说,它列出的不是全部的取值,把6漏掉了!

    这么一说你就应该明白概率分布是个什么鬼了吧。

    3. 分布函数

    说完概率分布,就该说说分布函数了。这个分布函数又是个简化版的东西!我真的很讨厌我们的教材中老是故弄玄虚,卖弄概念!你就老老实实的写成”概率分布函数“,让我们这些笨学生好理解一些不行吗?

    看看下图中的分布律!这又是一个不统一叫法的丑恶典型!这里的分布律明明就是我们刚刚讲的“概率函数”,完全就是一个东西嘛!但是我知道很多教材就是叫分布律的。
    在这里插入图片描述
    我们来看看图上的公式,其中的F(x)就代表概率分布函数啦。这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了大于等于号的公式。你再往右看看,这是一个一个的概率函数的累加!发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!其实,我觉得叫它累积概率函数还更好理解!!

    概率函数和概率分布函数就像是一个硬币的两面,它们都只是描述概率的不同手段!

    4. 概率密度函数

    概率密度函数是概率论中的核心概念之一,用于描述连续型随机变量所服从的概率分布。

    4.1 从随机事件说起

    研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!
    回忆我们在学习概率论时的经历,随机事件是第一个核心的概念,它定义为可能发生也可能不发生的事件,因此是否发生具有随机性。例如,抛一枚硬币,可能正面朝上,也可能反面朝上,正面朝上或者反面朝上都是随机事件。掷骰子,1到6这6种点数都可能朝上,每种点数朝上,都是随机事件。
    在这里插入图片描述
    在这里插入图片描述

    4.2 整数集与实数集

    高中时我们学过集合的概念,并且知道整数集是z,实数集是R。对于有限集,可以统计集合中元素的数量即集合的基数(cardinal number,也称为集合的势cardinality)。对于无限集,元素的个数显然是无穷大,但是,都是无穷大,能不能分个三六九等呢?

    回忆微积分中的极限,对于下面的极限:
    在这里插入图片描述

    虽然当x趋向于正无穷的时候,x和exp(x)都是无穷大,但它们是有级别的,在exp(x)面前,x是小巫见老巫。

    同样的,对于整数集和实数集,也是有级别大小的。任意两个整数之间,如1与2之间,都密密麻麻的分布着无穷多个实数,而且,只要两个实数不相等,不管它们之间有多靠近,如0.0000001和0.0000002,在它们之间还有无穷多个实数。在数轴上,整数是离散的,而实数则是连续的,密密麻麻的布满整个数轴。因此,实数集的元素个数显然比整数要高一个级别。

    4.3 随机变量

    变量是我们再熟悉不过的概念,它是指一个变化的量,可以取各种不同的值。随机变量可以看做是关联了概率值的变量,即变量取每个值有一定的概率。例如,你买彩票,最后的中奖金额x就是一个随机变量,它的取值有3种情况,以0.9的概率中0元,0.09的概率中100元,0.01的概率中1000元。变量的取值来自一个集合,可以是有限集,也可以是无限集。对于无限集,可以是离散的,也可以是连续的,前者对应于整数集,后者对应于实数集。

    4.3.1 离散型随机变量

    随机变量是取值有多种可能并且取每个值都有一个概率的变量。它分为离散型和连续型两种,离散型随机变量的取值为有限个或者无限可列个(整数集是典型的无限可列),连续型随机变量的取值为无限不可列个(实数集是典型的无限不可列)。
    在这里插入图片描述

    4.3.2 连续型随机变量

    把分布表推广到无限情况,就可以得到连续型随机变量的概率密度函数。此时,随机变量取每个具体的值的概率为0,但在落在每一点处的概率是有相对大小的,描述这个概念的,就是概率密度函数。你可以把这个想象成一个实心物体,在每一点处质量为0,但是有密度,即有相对质量大小。
    在这里插入图片描述
    在这里插入图片描述
    在概率论和统计学中,拉普拉斯是一种连续概率分布。由于它可以看做是俩个不同位置的指数分布背靠背拼在一起,所以它也叫做双指数分布。如果随机变量的概率密度函数分布为:
    在这里插入图片描述
    那么他就是拉普拉斯分布。u为位置参数,b>0是尺度参数。与正态分布相比,正态分布是用相对于u平均值的差的平方来表示,而拉普拉斯概率密度用相对于差的绝对值来表示。因此,拉普拉斯的尾部比正态分布更加平坦。
    在这里插入图片描述

    在这里插入图片描述
    概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可!
    在这里插入图片描述
    左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

    两张图一对比,你就会发现,如果用右图中的面积来表示概率,利用图形就能很清楚的看出,哪些取值的概率更大!这样看起来是不是特别直观,特别爽!!所以,我们在表示连续型随机变量的概率时,用f(x)概率密度函数来表示,是非常好的!

    但是,可能读者会有这样的问题:
    Q:概率密度函数在某一点的值有什么意义?
    A:比较容易理解的意义,某点的 概率密度函数 即为 概率在该点的变化率(或导数)。很容易误以为 该点概率密度值 为 概率值.
    比如: 距离(概率)和速度(概率密度)的关系.某一点的速度, 不能以为是某一点的距离,没意义,因为距离是从XX到XX的概念,所以, 概率也需要有个区间.
    这个区间可以是x的邻域(可以无限趋近于0)。对x邻域内的f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

    4.4 期望E(X)与方差Var(X)

    随机变量(Random Variable)X是一个映射,把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特这。

    期望(Expectation, or expected value)是度量一个随机变量取值的集中位置或平均水平的最基本的数字特征;

    方差(Variance)是表示随机变量取值的分散性的一个数字特征。 方差越大,说明随机变量的取值分布越不均匀,变化性越强;方差越小,说明随机变量的取值越趋近于均值,即期望值。
    在这里插入图片描述

    4.4.1 期望和方差的运算性质

    4.4.1.1 期望运算性质

    在这里插入图片描述

    4.4.1.2 方差的运算性质

    在这里插入图片描述
    在这里插入图片描述

    4.4.1.3 期望与方差的联系

    在这里插入图片描述

    4.4.2 协方差

    在这里插入图片描述

    4.4.2.1 协方差的运算性质

    在这里插入图片描述

    4.4.3 相关系数

    4.4.3.1 定义

    相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:
    在这里插入图片描述

    4.4.3.2 性质

    1、有界性
    相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。

    2、统计意义
    值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。

    在这里插入图片描述

    5. 常见概率分布

    5.1 均匀分布(Uniform Distribution)

    在这里插入图片描述
    在这里插入图片描述

    5.2 伯努利分布(Bernoulli Distribution)

    在这里插入图片描述

    在这里插入图片描述

    5.3 二项分布(Binomial Distribution)

    二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。
    在这里插入图片描述

    从定义可以看出,伯努利分布是二项分布在n=1时的特例

    在这里插入图片描述

    5.4 负二项分布(Negative Binomial Distribution)

    在这里插入图片描述
    在这里插入图片描述

    5.5 几何分布(Geometric Distribution)

    假定我们有一系列伯努利试验,其中每一个的成功概率为 p p p,失败概率为 q = 1 − p q=1-p q=1p。在获得一次成功前要进行多次试验?
    注意,这里的随机变量的概率分布就是一种几何分布。具体如下:

    在这里插入图片描述
    几何分布的概率分布图如下,见之会有更形象地认知。
    在这里插入图片描述
    为什么单独把几何分布和二项分布单独列出,一方面其代表的概率试验的普适性,另一方面其期望和方差都是有特殊技巧。
    在这里插入图片描述
    其实有意思的是,这里面的求解过程;但是本文不具体涉及了。因为像几何分布和二项分布这种可能要多写几章,当然是否连续写就不知道了。本着实用主义来。
    一般简单地肯定在前面讲,复杂一些得也更有意思一些的肯定是在后面,比如二项分布明显就在几何分布后面了。

    不同于几何分布描述的运行到第几次才成功,二项分布描述是的N次试验里有多少次成功。具体如下:
    在这里插入图片描述

    在这里插入图片描述

    5.6 超几何分布(Hypergeometric Distibution)

    在这里插入图片描述

    5.7 正态/高斯分布 (Normal / Gaussian Distribution)

    正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:

    • 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。
    • 在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.7.1 一维正态分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.7.2 多维正态分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.8 拉普拉斯分布

    在这里插入图片描述

    5.9 泊松分布(Poisson Distribution)

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    5.10 指数分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.11 伽马分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    5.12 贝塔分布

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    5.13 狄拉克分布

    在这里插入图片描述

    5.14 多项式分布与狄里克雷分布

    多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

    扔骰子是典型的多项式分布。扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有k次都是点数6朝上的概率就是
    在这里插入图片描述
    在这里插入图片描述

    5.15 混合概率分布

    在这里插入图片描述

    5.16 总结

    在这里插入图片描述

    在这里插入图片描述

    https://www.jianshu.com/p/b570b1ba92bb
    https://zhuanlan.zhihu.com/p/48140593
    https://www.bookstack.cn/read/huaxiaozhuan-ai/spilt.4.6f06ed449f5ed789.md
    https://zhuanlan.zhihu.com/p/94181395
    https://zhuanlan.zhihu.com/p/64859161
    https://blog.csdn.net/touristman5/article/details/56281887
    https://zhuanlan.zhihu.com/p/32932782

    展开全文
  • 概率论常见分布函数

    千次阅读 2019-09-14 11:33:24
    1、二项分布(n重伯努利实验) 2、伽玛分布 3、均匀分布 4、指数分布 5、泊松分布 6、正态分布

    1、二项分布(n重伯努利实验)

     

    2、伽玛分布

     

    3、均匀分布

    4、指数分布

    5、泊松分布

     

    6、正态分布

     

     

     

    展开全文
  • 3、由于概率分布的研究多是侧重于连续型随机变量,毕竟连续型随机变量的概率分布函数和概率密度函数作为连续函数,还有很多可以研究的点,所以后期会再整理一些常见的连续型随机变量的概率分布函数和概率密度函数。...
  • 常见概率分布图表总结

    千次阅读 2017-03-21 09:54:00
    1.常见离散变量的概率分布 2.常见连续变量的概率分布: 拉普拉斯分布 3.共轭分布: 3.1 在贝叶斯概率理论中,如果后验概率和先验概率满足同样的分布律,那么先验分布和后验分布被叫做共轭分布 3.2 ...
  • 概率分布函数就是把概率函数累加 我们来看看图上的公式,其中的F(x)就代表概率分布函数啦。这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了小于等于号的公式。你再往右看看,这是一个一个的概率...
  • 伯努利分布和二项分布的关系: 1.伯努利分布是二项分布的单次试验的特例,即单次二项分布试验 2.二项分布和伯努利分布的每次试验都只有两个可能的结果 ...2.每次试验的成功概率相同且趋近零,即p...
  • 概率分布用于许多领域,但我们很少看到相应的解释。通常作者会假定读者已经了解概率分布了。本文将尝试解释什么是概率分布。 什么是概率分布? 随机变量是指为一个随机事件的结果的变量。例如,掷骰子的点数或抛...
  • 总结的比较全的对与常见连续型分布函数概率密度函数和特征函数的性质,并举出一些例题,是一个很好的参考资料
  • 常见分布及其概率分布

    万次阅读 多人点赞 2019-05-09 16:40:49
    离散概率分布也称为概率质量函数(probability mass function)。离散概率分布包括: 伯努利分布(Bernoulli distribution) 二项分布(binomial distribution) 几何分布(geometric distribution) 泊松分布...
  • 1. Matlab Statistics Toolbox 中概率分布函数介绍 Matlab Statistics Toolbox 提供了对几乎所有概率分布的支持,可以方便产生服从各类分布的随机数及其PDF/CDF函数。其中,既提供了针对所有分布的通用分布函数,...
  • 1 导入包导入本次实验所用的4种常见分布,连续分布的代表:beta分布、正态分布,均匀分布,离散分布的代表:二项分布。import numpy as np from scipy.stat...
  • (1): 整理总结常见重要概率分布的定义以及实用场景,包括伯努利分布,二项分布,泊松分布,几何分布,负二项分布,超几何分布以及均匀分布,正态分布,指数分布。 (2): 基于Python实现常见重要概率分布的概率质量/密度函数...
  • matlab中各种分布函数总结

    千次阅读 2020-04-16 11:37:24
    1、二项分布 %% 二项分布:p=binopdf(x,n,p);p=binocdf(x,n,p); clear;close all;clc; x = [0:1:40]; y = binopdf(x,20,0.5); yc = binocdf(x,20,0.5); plot(x,y,'-*b'); hold on y1 = binopdf(x,40,0.5); yc1 = ...
  • 常见的连续概率密度函数

    千次阅读 2015-02-04 20:05:14
    根据该类概率密度函数在样本空间上的积分等于1,可知道 对于均匀多维随机变量,以二维为例 显然 密度函数 密度函数可以用于0~1之间的连续随机变量。密度函数定义如下: ,其中阿尔法,白塔是控制概率密度函数...
  • R语言中的各种分布函数总结

    千次阅读 2020-04-29 10:38:41
  • 概率与统计中的基本分布总结

    千次阅读 2018-07-10 18:56:56
    1、随机变量的定义:   在一次实验中出现的所以结果次数M,将每一种结果映射到某种数值函数X(e)(e表示是某一次实验发生的结果),这种命映射的结果值称为...4、分布函数:该概念对于离散型和连续型都是适用的。F(...
  • 本文介绍六种概率分布的原理、举例、均值、方差、期望、概率分布图等,分布分别为伯努利分布、均匀分布、二项分布、正态分布、泊松分布、指数分布;另外介绍各种分布之间的关系和不同
  • 2 离散型随机变量的概率分布 2.1 二项分布 2.2 超几何分布  2.2.1 概念 2.2.2 举例 2.3 泊松分布  3 连续型随机变量的概率分布 3.1 均匀分布  3.1.1 概念 3.2 正态分布...
  • 连续性变量的概率分布

    千次阅读 2020-11-07 10:47:23
    前一篇文章写的是离散型随机变量的概率...概率密度函数用来描述连续型随机变量的概率分布,用函数f(x)表示连续型随机变量,将f(x)就称为概率密度函数,概率密度并非概率,只是一种表示概率的方法,大家不要混淆,其曲
  • 本文由@浅墨_毛星云出品,首发于...作为基于物理的渲染(PBR)技术中材质高光质感的决定因素,更先进的法线分布函数(Normal Distribution Function,NDF)的问世和发展,是PBR能够在游戏和电影工业日益普及的重要...
  • 常用概率分布及其数学期望和方差

    千次阅读 2021-04-02 19:09:32
    分布 分布列 pkp_kpk​ 或分布密度 p(x)p(x)p(x) 期望 方差 0−10-10−1 分布 pk=pk(1−p)1−k,k=0,1p_k=p^k(1-p)^{1-k},\quad k=0,1pk​=pk(1−p)1−k,k=0,1 ppp p(1−p)p(1-p)p(1−p) 二项分布 b(n,p)b(n,p)...
  • 常见的几种概率分布 1 二项分布 所谓的二项式分布就是只有两个可能结果的分布,例如:阴和阳、成功和失败、得到和丢失等,每一次尝试成功或失败的概率相等。如果在实验中成功的概率为0.9,则失败的概率可以很容易地...
  • 概率分布汇总

    千次阅读 2019-08-29 15:22:26
    概率分布、总体分布、抽样分布,一开始很容易搞混,还以为是同一个理论,不同的概念,毕竟都是分布,又都是统计学里面的概率。今天就来理解理解这个东西吧。 概率分布是指随机变量的各取值与该取值对应的概率之间...
  • 概率论中的一些简单分布总结

    万次阅读 2019-03-05 13:52:41
    摘自 :7月在线相关数学基础教程,有版权问题请告知,立即处理。 两点分布 #二项分布 Possion 分布 均匀分布 指数分布 正太分布 总结 1111111
  • 常见的损失函数总结

    千次阅读 2018-04-13 17:07:45
    损失函数(loss function)用来估量模型的预测值 f(x)f(x) 与真实值 YY 的不一致程度,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分。模型的结构风险函数...
  • numpy.random在生成大型样本时比纯python方式快乐一个数量级 ...函数总结2.均匀分布2.1均匀分布np.random.rand()2.2 均匀分布的图像绘制2.3 补充——直方图hist()参数bins变量类型3. 正态分布(高斯分布)3.1 np.rand.
  •   3、正态分布概率密度函数及其图象    1)正态分布概率密度函数及其图象    2)python绘制正态分布概率密度函数图象   4、卡方分布概率密度函数及其图象    1)卡方分布概率密度函数及其...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 22,349
精华内容 8,939
关键字:

常见概率分布函数总结