精华内容
下载资源
问答
  • https://blog.csdn.net/michael_r_chang/article/details/39188321https://www.cnblogs.com/wybang/p/3206719.htmlhttps://blog.csdn.net/jteng/article/details/603346281. 伯努利分布伯努利分布(Bernoulli ...

    https://blog.csdn.net/michael_r_chang/article/details/39188321

    https://www.cnblogs.com/wybang/p/3206719.html

    https://blog.csdn.net/jteng/article/details/60334628

    1. 伯努利分布

    伯努利分布(Bernoulli distribution)又名两点分布0-1分布,介绍伯努利分布前首先需要引入伯努利试验(Bernoulli trial)

    • 伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:

    伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等

    • 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验
    • 进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布,其概率质量函数为:

    2. 二项分布

    二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

    • 如果试验E是一个n重伯努利试验,每次伯努利试验的成功概率为p,X代表成功的次数,则X的概率分布是二项分布,记为X~B(n,p),其概率质量函数为

      显然,

    • 从定义可以看出,伯努利分布是二项分布在n=1时的特例
    • 二项分布名称的由来,是由于其概率质量函数中使用了二项系数,该系数是二项式定理中的系数,二项式定理由牛顿提出:

    • 二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。

    3. 多项分布

    多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

    • 扔骰子是典型的多项式分布。扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有k次都是点数6朝上的概率就是

    • 多项式分布一般的概率质量函数为:

    4. 贝塔分布

    在介绍贝塔分布(Beta distribution)之前,需要先明确一下先验概率、后验概率、似然函数以及共轭分布的概念。

    • 通俗的讲,先验概率就是事情尚未发生前,我们对该事发生概率的估计。利用过去历史资料计算得到的先验概率,称为客观先验概率; 当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。例如抛一枚硬币头向上的概率为0.5,这就是主观先验概率。
    • 后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。
    • 先验概率和后验概率的区别:先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料。另外一种表述:先验概率是在缺乏某个事实的情况下描述一个变量;而后验概率(Probability of outcomes of an experiment after it has been performed and a certain event has occured.)是在考虑了一个事实之后的条件概率。
    • 似然函数
    • 共轭分布(conjugacy):后验概率分布函数与先验概率分布函数具有相同形式

    好了,有了以上先验知识后,终于可以引入贝塔分布啦!!首先,考虑一点,在试验数据比较少的情况下,直接用最大似然法估计二项分布的参数可能会出现过拟合的现象(比如,扔硬币三次都是正面,那么最大似然法预测以后的所有抛硬币结果都是正面)。为了避免这种情况的发生,可以考虑引入先验概率分布来控制参数,防止出现过拟合现象。那么,问题现在转为如何选择

    先验概率和后验概率的关系为:

    二项分布的似然函数为(就是二项分布除归一化参数之外的后面那部分,似然函数之所以不是pdf,是因为它不需要归一化):

    如果选择的先验概率也与次方德乘积的关系,那么后验概率分布的函数形式就会跟它的先验函数形式一样了。具体来说,选择prior的形式是,那么posterior就会变成这个样子了(为pdf的归一化参数),所以posterior和prior具有相同的函数形式(都是也与次方的乘积),这样先验概率与后验概率就是共轭分布了。

    所以,我们选择了贝塔分布作为先验概率,其概率分布函数为:

    ,其中

    5. 狄利克雷分布

    狄利克雷分布(Dirichlet distribution)是多项分布的共轭分布,也就是它与多项分布具有相同形式的分布函数。

    • 概率分布函数为:

    6. 后记

    本篇博文只是将伯努利分布、二项分布、多项分布、贝塔分布和狄利克雷分布做了简单的介绍,其中涉及到大量的概率基础和高等数学的知识,文中的介绍只是粗浅的把这些分布的概念作了大概介绍,没有对这些分布的产生历史做介绍。我想,更好的介绍方式,应是从数学史的角度,将这几项分布的发现按照历史规律来展现,这样会更直观、形象。后续再补吧!


       在机器学习领域中,概率模型是一个常用的利器。用它来对问题进行建模,有几点好处:1)当给定参数分布的假设空间后,可以通过很严格的数学推导,得到模型的似然分布,这样模型可以有很好的概率解释;2)可以利用现有的EM算法或者Variational method来学习。通常为了方便推导参数的后验分布,会假设参数的先验分布是似然的某个共轭分布,这样后验分布和先验分布具有相同的形式,这对于建模过程中的数学推导可以大大的简化,保证最后的形式是tractable。

        在概率模型中,Dirichlet这个词出现的频率非常的高。初始机器学习的同学或者说得再广一些,在学习概率模型的时候,很多同学都不清楚为啥一个表现形式如此奇怪的分布Dirichlet分布会出现在我们的教科书中,它是靠啥关系攀上了多项分布(Multinomial distribution)这个亲戚的,以至于它可以“堂而皇之”地扼杀我大天朝这么多数学家和科学家梦想的?为了引出背后这层关系,我们需要先介绍一个概念——共轭先验(Conjugate Prior)

    • Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki
    • 用中文来讲,在贝叶斯统计理论中,如果某个随机变量Θ的后验概率 p(θ|x)和气先验概率p(θ)属于同一个分布簇的,那么称p(θ|x)和p(θ)为共轭分布,同时,也称p(θ)为似然函数p(x|θ)的共轭先验。

        介绍了这个重要的概念之后,我们回到文章的正题。首先需要弄清楚什么是二项分布(Binomial distribution)。这个概念是从伯努利分布推进的。伯努利分布是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。二项分布即重复n次的伯努利试验,记为 X~b(n,p)。概率密度函数(概率质量函数)为。再来看看Beta分布,给定参数,取值范围为[0,1]的随机变量x的概率密度函数,其中。这里假定,先验分布和似然概率如下所示:

    那么很容易知道后验概率为

         弄清楚了Beta分布和二项分布之间的关系后,对于接下来的Dirichlet 分布和多项分布(Multinomial distribution)的关系理解将会有非常大的帮助。多项分布,从字面上所表现出的含义,我们也大抵知道它的意思。它本身确实也是这样的,其单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3...,k),其中。多项分布的概率密度函数为。而Dirichlet分布的的密度函数形式也如出一辙:,其中。到这里,我们可以看到Beta分布和Dirichlet 分布有多相似啊,二项分布和多项分布有多相似啊

         再一次来看看共轭。假设有先验分布

    另有似然函数

    则后验概率

    ,和Dirichlet 分布形式一致。

        其实,细心的读者已经发现,这里这四类分布,如果但从数学形式上看,它们的组织形式都是一致的,都是通过乘积的形式构成,加上先验分布、似然函数和后言分布之间的乘积推导关系,可以很容易发现,它们所表现出的共轭性质很容易理解。


    Beta分布与Dirichlet分布的定义域均为[0,1],在实际使用中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为二项分布的先验概率,Dirichlet分布可作为多项分布的先验概率。这两个分布都用到了Gamma函数,所以,首先了解一下Gamma函数。

    1. Gamma函数

      首先看其表达式 
      Γ(x)=0tx1etdtΓ(x)=∫0∞tx−1e−tdt 
    这样的表达看懂都很难,更不知道那些数学家怎么想出来的。据LDA数学八卦中记录,在Gamma函数的发现中做出主要贡献的数学家有哥德巴赫、丹尼尔·伯努利(不是伯努利分布的那个伯努利),最终由欧拉解决这个问题(这些大数学家互相都认识的啊)。 
      Gamma函数是对阶乘在实数领域的扩展,也就是说,Γ(x+1)=xΓ(x)Γ(x+1)=xΓ(x),下面用分部积分的方法进行推导,如不关心,可以略过。 
      

    Γ(x)=0tx1etdt=1x0etdtx=1x(ettx|00txdet)=1x0txetdt=1xΓ(x+1)Γ(x)=∫0∞tx−1e−tdt=1x∫0∞e−tdtx=1x(e−ttx|0∞−∫0∞txde−t)=1x∫0∞txe−tdt=1xΓ(x+1)

    据PRML第71页(2.14)式,Gamma函数在Beta分布和Dirichlet分布中起到了归一化的作用。

    2. Beta分布

      Beta分布描述的是定义在区间[0,1]上随机变量的概率分布,由两个参数α>0α>0β>0β>0决定,通常记为μBeta(μ|α,β)μ∼Beta(μ|α,β),其概率密度函数如下 
      P(μ|α,β)=Γ(α+β)Γ(α)Γ(β)μα1(1μ)β1=1B(α,β)μα1(1μ)β1P(μ|α,β)=Γ(α+β)Γ(α)Γ(β)μα−1(1−μ)β−1=1B(α,β)μα−1(1−μ)β−1 
    其中,Γ()Γ(⋅)就是Gamma函数,B(α,β)B(α,β)为Beta函数,并且 
      B(α,β)=Γ(α)Γ(β)Γ(α+β)B(α,β)=Γ(α)Γ(β)Γ(α+β) 
    Beta分布的概率密度函数曲线如下图:(摘自wikipedia Beta distribution


    Beta distribution 

    由于Beta分布定义在区间[0,1]上,所以适合作为概率的分布。第一段提到Beta分布可作为二项分布的先验概率,那就需要从二项分布的定义来理解Beta分布的形式。已知二项分布的形式为: 
       p(x=k|n,μ)=Cknμk(1μ)nkp(x=k|n,μ)=Cnkμk(1−μ)n−k  
    μμ 进行后验概率估计时,其似然项是 μμ (1μ)(1−μ) 的指数形式,如果先验概率也选择为 μμ (1μ)(1−μ) 的指数形式,那么后验概率就仍然保持这种指数形式,这种性质叫做共轭分布,我们会在后面的文章中对共轭分布进行介绍。 
    因此,Beta分布就是 μμ (1μ)(1−μ) 的指数形式,其中Beta函数为归一化系数。Beta分布的均值和方差分别为 
       E[μ]=αα+βE[μ]=αα+β  
       var(μ)=αβ(α+β)2(α+β+1)var(μ)=αβ(α+β)2(α+β+1)

    3. Dirichlet分布

      Dirichlet分布是关于定义在区间[0,1]上的多个随机变量的联合概率分布,假设有dd个变量μiμi,并且di=1μi=1∑i=1dμi=1,记μ=(μ1,μ2,...,μd)μ=(μ1,μ2,...,μd),每个μiμi对应一个参数αi>0αi>0,记α=(α1,α2,...,αd)α=(α1,α2,...,αd)α^=di=1αiα^=∑i=1dαi,那么它的概率密度函数为 
    p(μ|α)=Dir(μ|α)=Γ(α^)Γ(α1)Γ(αd)di=1μαi1ip(μ|α)=Dir(μ|α)=Γ(α^)Γ(α1)⋯Γ(αd)∏i=1dμiαi−1 
      Dirichlet分布的每一个随机变量具有统计量如下: 
      E[μi]=αiα^E[μi]=αiα^ 
      var(μi)=αi(α^αi)α^2(α^+1)var(μi)=αi(α^−αi)α^2(α^+1) 
      cov(μi,μj)=αiαjα^2(α^+1)cov(μi,μj)=αiαjα^2(α^+1) 
      由于Dirichlet分布描述的是多个定义于区间[0,1]的随机变量的概率分布,所以通常将其用作多项分布参数μiμi的概率分布。



    展开全文
  • 二项分布

    万次阅读 多人点赞 2016-09-16 21:13:13
    说起二项分布(binomial distribution),不得不提的前提是伯努利试验(Bernoulli experiment),也即n次独立重复试验。伯努利试验是在同样的条件下重复、相互独立进行的一种随机试验。   伯努利试验的特点是: (1)...

           

       说起二项分布(binomial distribution),不得不提的前提是伯努利试验(Bernoulli experiment)n次独立重复试验伯努利试验是在同样的条件下重复、相互独立进行的一种随机试验。

       伯努利试验的特点是

    (1)每次试验事件只有两种结果:事件发生或者不发生,如硬币正面或反面,患病或没患病;

    (2)每次试验中事件发生的概率是相同的,注意不一定是0.5

    (3)n次试验的事件相互之间独立。

       举个实例,最简单的抛硬币试验就是伯努利试验,在一次试验中硬币要么正面朝上,要么反面朝上,每次正面朝上的概率都一样p=0.5,且每次抛硬币的事件相互独立,即每次正面朝上的概率不受其他试验的影响。如果独立重复抛n=10次硬币,正面朝上的次数k可能为0,1,2,3,4,5,6,7,8,9,10中的任何一个,那么k显然是一个随机变量,这里就称随机变量k服从二项分布

     

       

       我们推导下随机变量X=k的分布律。显然0<=k<=nn次抛硬币中获得k次正面,第1次正面在n次抛硬币中出现有n种方式,则第2次正面在n次抛硬币中出现有n-1种方式,以此类推,则出现的总可能方式是:n(n-1)...(n-k+1)种,如果我们并不考虑这k次正面出现的排列顺序,因此恰好出现k次的总可能性是n(n-1)...(n-k+1)/k!种,分子和分母同时乘以(n-k)!,则该式等于n/(k*(n-k)),也就是通常的组合公式C(n,k)=n/(k*(n-k))

            那么对于抛n次硬币,其中正面出现的次数是k,反面出现的次数必然为n-k次,不考虑顺序的情况下,则每一次恰好获得k次正面的概率是pk*(1-p)n-k,而n次试验中恰好出现k次正面的可能性是C(n,k)=n/(k*(n-k))种,因此,n次抛硬币中恰好出现k次的概率为

    P(X=k) = C(n,k) * pk*(1-p)n-k

    这就是二项分布的分布律,记作X~B(n,p),其中C(n,k)是组合数,在数学中也叫二项式系数,这就是二项分布名称的来历。判断某个随机变量X是否符合二项分布除了满足上述的伯努利试验外,关键是这个X是否表示事件发生的次数。二项分布的数学期望E(X)=n*p,方差D(X)=n*p*(1-p),具体证明可见《二项分布均值和方差的简单推导》。

       看一个示例:某人篮球投篮的命中率是0.3,总共投篮10次,问至少投中2次的概率?

    分析:

    (1)每次投篮有2种结果,投中或没投中;

    (2)每次投篮的投中概率是相同的,都为0.3

    (3)每次投篮可认为是独立事件。

     因此,符合二项分布。


    投中次数的概率质量分布

       显然,二项分布属于离散型分布。

       至少2次投中概率即:P(X>=2)=P(X=2)+P(X=3)+P(X=4)+...+P(X=10)。

    import numpy as np
    import scipy.stats as sps
    n = 10
    p = 0.3
    k = np.arange(n + 1)
    PX = sps.binom.pmf(k, n, p)
    print(sum(PX[2:]))

    输出结果:

    0.85

       再看一个例子:某种疫苗注射后过敏反应的概率是0.08,问某社区卫生院在接种该疫苗100人后,少于3人有过敏反应的概率是多少?

    采用上例中的分析方法,该问题也属于二项分布问题。少于3人有过敏反应,即求:

    P(X<3)=P(X=0)+P(X=1)+P(X=2)=C(100,0)(0.08)0(0.02)100+C(100,1)(0.08)1(0.02)99+C(100,2)(0.08)2(0.02)98=0.01127=1.127%


       在实际应用中还有伯努利分布、两点分布、0-1分布等,它们与二项分布之间有什么关系呢?

             X~B(n,p)n = 1时,二项分布就变成了伯努利分布(Bernoulli distribution)伯努利分布又称为两点分布0-1分布”,或者说伯努利分布/两点分布/0-1分布是二项分布在n=1时的特例,即伯努利分布、两点分布、0-1分布这三种分布是同一个分布的不同名称,又都是二项分布在n=1时的特例。

    展开全文
  • 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布作。伯努利试验是只有两种可能结果的单次随机试验。 伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面...

    变量类型:

    1. 连续型变量         如:指数分布、正态分布
    2. 离散型变量         如:二项分布、泊松分布

    三者之间的关系

    二项分布(Binomial distribution)

    二项分布(Binomial distribution)n重伯努利试验成功次数的离散概率分布,记作B(n,\pi )伯努利试验是只有两种可能结果的单次随机试验。

    伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等

    • 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。
    • 进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布,伯努利分布(Bernoulli distribution)又名两点分布或0-1分布。

    二项分布的三个特点:

    • 每次实验结果,只能是两个互斥的结果之一。
    • 各次实验独立,各次的实验结果互不影响。。
    • 相同的实验条件下,每次实验中事件A的发生具有相同的概率\pi

    二项分布的概率函数P(X)可用公式

    P(X)=C_{n}^{X}\pi^{X}(1-\pi )^{n-X}

    其中,C_{n}^{X}=\frac{n!}{X!(n-X)!}

    对于任何二项分布,总有\sum_{X=0}^{n}P(X)=1

    例1.如果某地钩虫感染率为13%,随机观察当地150人,其中恰好有10人感染钩虫的概率有多大?

    分析: 
    (1)钩虫感染只有两个互斥的结果,即感染与非感染;
    (2)每个人被钩虫感染的概率相同;
    (3)人与人之间钩虫感染可假设为相互独立的,所以感染钩虫的人数 X 可认为服从 n = 150,π = 0.13的二项分布。

    P(X)=C_{n}^{X}\pi^{X}(1-\pi )^{n-X}

    P(X=10)=\frac{150!}{10!(150-10)!}\times (0.13^{10}\times 0.87^{(150-10)})=0.0055

    二项分布的特征

    • n,\pi是二项分布的两个参数,所以二项分布的形状取决于n,\pi(阳性率)。
    • \pi =0.5时分布对称,近似对称分布。
    • \pi ≠0.5时,分布呈偏态,特别是 n 较小时,\pi 偏离0.5越远,分布的对称性越差,但只要不接近1和0时,随着n的增大,分布逐渐逼近正态。
    • \pi1-\pi 不太小,而 n足够大,通常 n\pin(1-\pi )大于或等于5,我们常用正态近似的原理来处理二项分布的问题。

    二项分布的正态近似

    • 根据中心极限定理,在n较大,n\pin(1-\pi )均大于或等于5时,二项分布接近与正态分布。
    • n无穷大时,二项分布B(n,\pi)的极限分布是总体均数为\mu =n\pi,总体标准差为\sigma =\sqrt{n\pi (1-\pi )}的正态分布N(n\pi ,n\pi (1-\pi )),此时可用该正态分布进行估计。

    二项分布的均数和标准差

    对于任何一个二项分布B(n,\pi ),如果每次试验出现“阳性” 结果的概率均为\pi,则在 n 次独立重复实验中:

    1、出现  X 次阳性结果

    总体均数(出现阳性结果的次数X的均值):\mu_{X} =n\pi

    标准差(出现阳性结果的次数X的标准差):\sigma_{X} =\sqrt{n\pi (1-\pi )}

    2、阳性结果的频率记做为P=\frac{X}{n}

    P的总体均数(出现阳性结果频率P的均值):\mu_{P} =\pi

    标准差(出现阳性结果频率P的标准差):\sigma_{P} =\sqrt{\frac{\pi (1-\pi )}{n}}

    \sigma_{P}是频率P的标准误,反映阳性频率的抽样误差的大小。

    泊松分布(Poisson distribution)

    泊松分布是二项分布在阳性率特别小时的一种情形,用于描述单位时间、空间、面积等的罕见事件发生次数的概率分布,如:

    • 每毫升水中的大肠杆菌数
    • 单位时间(如1分钟)内放射性质点数
    • 每1000个新生儿中某出生缺陷、多胞胎、染色体异常等事件出现的例数

    泊松分布的三个特点:

    泊松分布是二项分布当中的一种特殊情况,则泊松分布也遵循二项分布的三个特点:

    • 观察结果相互独立
    • 每次试验只有两个结果
    • 发生的概率\pi不变

    如,人群中传染性疾病首例出现后便成为传染源,会增加后续病例出现的概率,因此病例数的分布不能看作是Poisson分布。

    又如,污染的牛奶中细菌成集落存在,单位容量牛奶中细菌数不能认为服从Poisson分布。 

    泊松分布分布一般记作P(\lambda ),其概率函数为: 

    P(X)=e^{-\lambda }\frac{\lambda ^{X}}{X!}

    式中,\lambda=n\pi为Poisson分布的总体均数(\pi表示概率);X 为观察单位内某稀有事件的发生次数;e 为自然对数的底,为常数,约等于2.71828,自然对数的底数e是由一个重要极限给出的:当n趋于无限时,\lim_{n \to +\propto }(1+\frac{1}{n})^n=e

    泊松定理(泊松分布是二项分布当中的一种特殊情况)

    设随机变量X(X=1,2,3,...)服从二项分布,即P(X)=C_{n}^{X}\pi^{X}(1-\pi )^{n-X}。其中,\pi(0<\pi <1)是与n有关的数,且设n\pi =\lambda >0是常数,则有\lim_{X \to \propto }P(X)=e^{-\lambda }\frac{\lambda ^{X}}{X!}X=1,2,3,...

    证明:依题设有\pi =\frac{\lambda }{n},代入P(X)=C_{n}^{X}\pi^{X}(1-\pi )^{n-X}中,有

    \begin{align}P(X) &=\frac{n(n-1)(n-2)...(n-X+1)}{X!}(\frac{\lambda }{n})^{X}(1-\frac{\lambda }{n})^{n-X} \\&=\frac{\lambda ^{X}}{X!}[\frac{n}{n}\cdot \frac{n-1}{n}\cdot \frac{n-2}{n}...\cdot \frac{n-X+1}{n}]\cdot(1-\frac{\lambda }{n}) ^{n}\cdot(1-\frac{\lambda }{n}) ^{-X} \\&=\frac{\lambda ^{X}}{X!}[1\cdot (1-\frac{1}{n})\cdot(1- \frac{2}{n})...\cdot (1-\frac{X-1}{n})]\cdot(1-\frac{\lambda }{n}) ^{n}\cdot(1-\frac{\lambda }{n}) ^{-X} \end{align}

    对于固定的X,有

    \lim_{n \to +\propto }1\cdot (1-\frac{1}{n})\cdot(1- \frac{2}{n})...\cdot (1-\frac{X-1}{n})=1

    \lim_{n \to +\propto }(1-\frac{\lambda }{n}) ^{n}=\lim_{n \to +\propto }(1-\frac{\lambda }{n}) ^{(-\frac{n}{\lambda })\cdot (-\lambda) }=e^{-\lambda }(根据\lim_{n \to +\propto }(1+\frac{1}{n})^n=e

    \lim_{n \to +\propto }(1-\frac{\lambda }{n}) ^{-X}=1

    所以\lim_{X \to \propto }P(X)=e^{-\lambda }\frac{\lambda ^{X}}{X!}X=1,2,3,...

    可见,二项分布的极限分布是泊松分布,当n很大,\pi很小时,可用e^{-\lambda }\frac{\lambda ^{X}}{X!}近似代替C_{n}^{X}\pi^{X}(1-\pi )^{n-X}(n\pi =\lambda ),一般n\geq 20,\pi \leq 0.05时,可采用上次近似公式代替。

    泊松分布的特征

    • 随着\lambda的增大,Poisson分布逐渐趋于对称分布。
    • \lambda>20时,Poisson分布可视为近似正态分布。

    下图表示出了\lambda对泊松分布的影响,\lambda表示泊松分布的均值。当\lambda变大时,不仅整个分布模式向右移动,数据也更加分散,方差随之变大。

    泊松分布的特性

    • 总体均数与总体方差相等:均为\lambda
    • 可加性:从总体均数分别为\lambda1 和\lambda2 的两个Poisson分布总体中各自随机抽出一份样本,其中稀有事件的发生次数分别为X_{1}X_{2} ,则合计发生数T=X_{1}+X_{2 }也服从Poisson分布,总体均数为\lambda1 +\lambda2 。

    可加性的运用:分5次,每次都是监测5毫升的水样,得到的\lambda都比20小,但是5次\lambda相加的之后形成的\lambda比20大的话,我们就可以10毫升水样当中的细菌数的分布用正态近似法了

    例:某放射性物质半小时内发出的脉冲数服从Poisson分布,平均为  360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。

    \begin{align} P(X>400) & = 1-P(X\leq 400)\approx 1-\Phi (\frac{400+0.5-360}{\sqrt{360}}) \\ & = 1-\Phi(2.135)=0.0164 \end{align}

    其中,0.5表示连续型校正,表示处理离散型变量,应用到连续型的正态分布的时候,效果更佳的一种修正。

    注意:泊松分布不具备可乘性。

    指数分布

    设随机变量X的分布密度函数为

    f(x)=\left\{\begin{matrix} \lambda e^{-\lambda x},x>0\\ 0,x\leq 0 \end{matrix}\right.

    其中\lambda >0为常数,我们称X服从参数为\lambda的指数分布,记作X\sim E(\lambda ),其相应的分布函数为

    F(x)=\left\{\begin{matrix} 1-e^{-\lambda x},x>0 \\ 0,x\leq 0 \end{matrix}\right.

    f(x)F(x)的图形见下图。

    指数分布的特性

    • 总体均数E(X)=\frac{1}{\lambda},总体方差D(X)=\frac{1}{\lambda ^{2}}

    指数分布通常用作各种“寿命”的分布。例如,无线电元件的寿命,动物的寿命等,另外电话问题的通话时间、随机服务系统中的服务时间等都可以认为服从指数分布,因此,它在排队论和可靠性理论等领域中有广泛的应用。

    例、某电子元件的使用寿命X是一个连续型随机变量,其概率密度为

    f(x)=\left\{\begin{matrix} k e^{-\frac{x}{100}},x>0\\ 0,x\leq 0 \end{matrix}\right.

    (1)确定常数k

    (2)求寿命超过100小时的概率

    (3)已知该元件已经正常使用200小时,求它至少还能正常使用100小时的概率。

    解:

    (1)由概率密度函数性质2知

    \int_{0}^{+\propto }ke^{-\frac{x}{100}}dx=[-100ke^{-\frac{x}{100}}]|_{0}^{+\propto}=100k=1,得k=0.01

    (2)寿命超过100小时的概率为

    P(X>100)=1-F(100)=1-(1-e^{-0.01\times 100})=e^{-1}\approx 0.3679

    (3)条件概率

    \begin{align} P(X>300|X>200) &=\frac{P(X>300,X>200)}{P(X>200)}\\&=\frac{P(X>300)}{P(X>200)}\\&=\frac{e^{-3}}{e^{-2}}=e^{-1}\approx 0.3679 \end{align}

    由(2),(3)可知,该元件寿命超过100小时的概率等于已使用200小时的条件下至少还能使用100小时的概率,这个性质称为指数分布的“无记忆性”。

    若随机变量X对任意的s>0,t>0都有P(X>s+t|X>s)=P(X>t),则称X的分布具有无记忆性。

    因此,指数分布具有无记忆性,若某元件或动物的寿命服从指数分布,则上式表明,如果已知寿命长于s年,则再“活”t年的概率与s无关,即对过去的s时间没有记忆,也就是说只要在某时刻s仍“活”着,它的剩余寿命的分布和原来的寿命分布相同,所以人们也戏称指数分布是“永远年轻的”。

    正态分布(Normal distribution)

    正态分布的概率密度函数(即纵向的曲线高度)

    f(X)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{X-\mu }{\sigma })^{2}}-\infty < X< +\infty

    \sigma规定了曲线的形状,\mu反应了其在横轴上的位置不同。

    正态分布的特征

    • 关于x=\mu对称,即正态分布以均数为中心,左右对称。
    • x=\mu处取得概率密度函数的最大值,在x=\mu\pm \sigma处有拐点,表现为 钟形曲线。即正态曲线在横轴上方均数处最高。
    • 正态分布有两个参数,即均数\mu和标准差\sigma\mu是位置参数,\sigma是变异度参数(形状参数)。常用N(\mu ,\sigma ^{2})表示均数为\mu,标准差为\sigma的正态分布;用N(0 ,1)表示标准正态分布。
    • 正态曲线下面积分布有一定规律。横轴上正态曲线下的面积等于1(也常写作100%)。

    正态方程的积分式(概率分布函数):

    概率分布函数即为正态概率密度曲线下的面积 。

    F(X)=\frac{1}{\sigma \sqrt{2\pi }}\int_{-\infty }^{X}e^{-\frac{1}{2}(\frac{X-\mu }{\sigma })^{2}}dX

    F(X)为正态变量X的累计分布函数,反映正态曲线下,横轴尺度自-\inftyX的面积,即下侧累计面积。

    标准正态分布

    均数为0,标准差为1的正态分布,这种正态分布称为标准正态分布

    对于任意一个服从正态分布N(\mu ,\sigma ^{2})的随机变量,可作如下的标准化变换,也称Z(z-score)变换

    其中,Z=\frac{X-\mu }{\sigma },标准正态分布的概率密度函数:f(Z)=\frac{1}{\sqrt{2\pi }}e^{-\frac{Z^{2}}{2}}

    标准正态分布方程积分式(概率分布函数):

    \Phi (Z)=\frac{1}{2\pi }\int_{-\infty }^{Z}e^{-\frac{Z^{2}}{2}}dZ

    \Phi (Z)为标准正态变量Z的累计分布函数,反映标准正态曲线下,横轴尺度自-\inftyZ的面积,即下侧累计面积,如下图所示。 

    标准正态分布表

    用查表代替计算必须注意:

    • 表中曲线下面积为-\inftyZ的面积。
    • \mu,\sigmaX已知时,先求出Z值, Z=\frac{X-\mu }{\sigma },再用Z值查表,得所求区间占总面积的比例。
    • \mu\sigma未知时,要用样本均数\overline{X}和样本标准差S来估计Z值,Z=\frac{X-\overline{X} }{S}
    • 曲线下对称于0的区间,面积相等。 
    • 曲线下横轴上的面积为1 (即100% )。

    正态分布是一种对称分布,其对称轴为直线X=\mu,即均数位置。

    理论上:

    • \mu \pm 1\sigma范围内曲线下的面积占总面积的68.27%
    • \mu \pm 1.96\sigma范围内曲线下的面积占总面积的95%
    • \mu \pm 2.58\sigma范围内曲线下的面积占总面积的99% 

    实际上:

    • \overline{X} \pm 1S范围内曲线下的面积占总面积的68.27%
    • \overline{X} \pm 1.96S范围内曲线下的面积占总面积的95%
    • \overline{X} \pm 2.58 S范围内曲线下的面积占总面积的99% 

    实际应用中,我们一般将1.96看似成2,2.58看似成3。

    标准正态分布的\mu=0,\sigma=1,则 

    • \mu \pm 1\sigma相当于区间(­1,1)
    • \mu \pm 1.96\sigma相当于区间(­1.96,1.96)
    • \mu \pm 2.58\sigma相当于区间(­2.58,2.58)
    • 区间(­1,1)的面积:1-2\Phi (-1)=1­-2×0.1587=0.6826=68.26% 
    • 区间(­1.96,1.96)的面积:1-2\Phi (-1.96 )=1­-2×0.0250=0.9500=95.00%
    • 区间(­2.58,2.58)的面积:1-2\Phi (-2.58)=1­-2×0.0049=0.9902=99.02% 

    例: 已知某地1986年120名8岁男童身高均数 \overline{X}=123.02cmS=4.79cm,估计(1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比;(2)身高界于120cm~128cm者占该地8岁男孩总数的比例;(3)该地80%男孩身高集中在哪个范围?

    (1)先做标准化转换:

    Z=\frac{X-\overline{X} }{S}=\frac{130-123.02}{4.79}=1.46

    \Phi (-Z)=\Phi (-1.46)=0.0721         根据标准正态分布的对称性

    理论上该地8岁男孩身高在130 cm以上者占该地8岁男孩总数的7.21%。

    (2)

    Z_{1}=\frac{X_{1}-\overline{X} }{S}=\frac{120-123.02}{4.79}=-0.63      \Phi (Z_{1})=\Phi (-0.63)=0.2643

    Z_{2}=\frac{X_{2}-\overline{X} }{S}=\frac{128-123.02}{4.79}=1.04         \Phi (Z_{2})=1-\Phi (-1.04)=0.8508

    \Phi (Z_{2})-\Phi (Z_{1})=0.8508-0.2643=0.5865

    (3)

    查标准正态分布界值表,标准正态分布曲线下左侧面积为0.10所对应的Z值为­1.28,所以80%的8岁男孩身高值集中在\overline{X} \pm 1.28S区间内,即116.9cm~129.2cm

    正态分布的应用

    制定参考值范围的步骤:

    • 选择足够数量的正常人作为调查对象。
    • 样本含量足够大。
    • 确定取单侧还是取双侧正常值范围。

    有些指标过高过低都是异常的,我们需要制定双侧的正常值范围

    有些指标过低才是异常的,比如肺活量,我们只要制定单侧的正常值范围

    • 选择适当的百分界限。

    在实际操作当中,我们一般将正常人中的5%排除在外,计算95%参考值范围。

    • 选择适当的计算方法。

    正态近似法:适用于正态分布或近似正态分布的资料。

    例1  某地调查120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,得均数为117.4g/L,标准差为10.2g/L  ,试估计该地正常女性血红蛋白的95%医学参考值范围。

    分析:正常人的血红蛋白过高过低均为异常,要制定双侧正常值范围。

     \overline{X} \pm 1.96S=117.4\pm 1.96\times 10.2 = 97.41\sim 137.39

    该指标的95%医学参考值范围为97.41~137.39(g/L) 

    百分位数法:适用于偏态分布资料。 

    例2 某年某市调查了200例正常成人血铅含量(μg/100g)  如下,试估计该市成人血铅含量的95%医学参考值范围。

    分析:血铅的分布为偏峰分布,且血铅含量只以过高为异常,要用百分位数法制定单侧上限。

    P_{95}=L+\frac{i}{f_{x}}(n\cdot x \%-\sum f_{L})=38+\frac{5}{7}(200\times 95\%-189)=38.7\mu g /100g

     

     

     

    展开全文
  • 概率统计13——二项分布与多项分布

    千次阅读 2019-12-28 19:21:43
     如果随机试验仅有两个可能的结果,那么这两个结果可以用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个值随机变量的分布,称为伯努利分布。注意伯努利分布关注的是结果只有0和...

    原文 | https://mp.weixin.qq.com/s/bOchsmHTINKKlyabCQKMSg

    相关阅读

    最大似然估计(概率10)

    寻找“最好”(3)函数和泛函的拉格朗日乘数法

    伯努利分布

      如果随机试验仅有两个可能的结果,那么这两个结果可以用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个二值随机变量的分布,称为伯努利分布。注意伯努利分布关注的是结果只有0和1,而不管观测条件是什么。

    性质

      设p是随机变量等于1的概率,伯努利分布有一些特殊的性质:

      将上面的两个式子合并:

      伯努利变量是离散型,并且是一个0/1变量,它的数学期望是:

      方差是:

    极大似然

      最大似然估计(概率10)

      对于伯努利分布的质量函数来说,p是唯一的参数。如果给定N个独立同分布的样本 {x(1), x(2), ……, x(N)},x(t)是投硬币的结果,是随机变量,x(t)ϵ{0, 1},可以通过极大似然估计,根据样本推测出p的取值:

      取对数似然函数:

      这是个符合直觉的结果,即使没学过概率和极大似然也能得出这个结论。

    二项分布

      假设某个试验是伯努利试验,成功概率用p表示,那么失败的概率为1-p。现在进行了N次这样的试验,成功了x次,失败了N-x次,发生这种情况的概率是多少?

    质量函数

      对于每次实验来说,成功的概率都是p,失败的概率是1-p。假设已经完成了N次试验,并且前x次都成功了,后N-x次都失败了:

      x次成功的情况当然不止一种,比如成功和失败交叉在一起:

      这种成功和失败的排列顺序共有种不同的情况,因此对于任意N次伯努利试验,成功了x次的概率是:

      的另一种记法是 

      P(x)就是二项分布的质量函数,是N次伯努利试验中取得x次成功的概率。

    性质

      二项分布的均值和方差分别为Np和Np(1-p)。

      从二项分布的质量函数P(x)可知,概率分布只与试验次数N和成功概率p有关,p越接近0.5,二项分布将越对称。保持二项分布试验的次数N不变,随着成功概率p逐渐接近0.5,二项分布逐渐对称,且近似于均值为Np、方差为Np(1-p)的正态分布:

    多项分布

      多项分布是二项分布的扩展,其中随机试验的结果不是两种状态,而是K种互斥的离散状态,每种状态出现的概率为pi,p1 + p1 + … + pK = 1,在这个前提下共进行了N次试验,用x1~xK表示每种状态出现次数,x1 + x2 + …+ xK = N,称X=(x1, x2, …, xK)服从多项分布,记作X~PN(N:p1, p2,…,pn)。

    质量函数

      如果说二项分布的典型案例是扔硬币,那么多项分布就是扔骰子。骰子有6个不同的点数,扔一次骰子,每个点数出现的概率(对应p1~p6)都是1/6。重复扔N次,6点出现x次的概率是:  

     

      这和二项分布的质量函数类似。现在将问题扩展一下,扔N次骰子,1~6出现次数分别是x1~x6时的概率是多少?

      仍然和二项式类似,假设前x1次都是1点,之后的x2次都是2点……最后x6次都是6点:

      1~6出现次数分别是x1~x6的情况不止一种,1点出现x1次的情况有种;在1点出现x1次的前提下,2点出现x2次的情况有种;在1点出现x1次且2点出现x2次的前提下,3点出现x3的情况有种……扔N次骰子,1~6出现次数分别是x1~x6时的概率是:

      根据①:

      最终,扔骰子的概率质量函数是:

      把这个结论推广到多项分布:某随机实验如果有K种可能的结果C1~CK,它们出现的概率是p1~pK。在N随机试验的结果中,分别将C1~CK的出现次数记为随机变量X1~XK,那么C1出现x1次、C2出现x2次……CK出现xK次这种事件发生的概率是:

      其中x1 + x2 + …+ xK = N,p1 + p2 + …+ pK = 1。

    极大似然

      多项式的极大似然是指在随机变量X1=x1, X2=x2, ……, XK=xK时,最可能的p1~pK。

      对数极大似然:

      现在问题变成了求约束条件下的极值:

      根据拉格朗日乘子法:

      寻找“最好”(3)函数和泛函的拉格朗日乘数法

      根据约束条件:

      这也是个符合直觉的结论。面对有N个样本的K分类数据集,当pi = xi/N 时,Ci类最可能出现xi次。为了这个结论我们却大费周章,也许又有人因此而嘲笑概率简单了……


      出处:微信公众号 "我是8位的"

      本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途! 

      扫描二维码关注作者公众号“我是8位的”

    展开全文
  • 二项分布最大值,泊松分布的推导,几何分布的推导 (概统2.应用) 1.二项分布 二项分布就是独立事件n重伯努利试验,每次试验只有A发生与不发生两种结果,求n次试验中恰好发生k次的概率。 P{X=k} = $C_{n}^{k}p^{k}q...
  • 二项分布,柏松分布和正态分布

    千次阅读 2019-11-24 19:35:33
    离散型随机变量的概率分布二项分布,柏松分布 连续性随机变量的概率分布:正态分布。 一,二项分布 满足条件: 1)每次试验中事件只有两种结果:事件发生或者不发生,如硬币正面或反面,患病或没患病; 2)...
  • 瑞士数学家雅克·伯努利(Jacques Bernoulli,1654~1705)首次研究独立重复试验(每次成功率为p)。在他去世后的第8年(1713年),他侄子尼克拉斯出版了伯努利的著作...伯努利分布(Bernoulli distribution)又名两点分布或0
  • 概率试验 1.投掷一个骰子投掷5次 2.某人射击1次,击中目标的概率是0.8, 他射击10次; 3.一个盒子中装有5个球(3红2白),有放回依次从中抽取5个球 ...分析:这是一个条件相同,独立重复性试验:P=C31pq2=3pq2
  • 离散型随机变量及分布分布名称 记法 分布律 均值E(X)E(X)E(X) 方差D(X)D(X)D(X) ...伯努利分布 ...P(X=k)=pk(1−p)1−k,k=0,1P(X=k)=p^k(1-p)^{1-k...二项分布 X∼B(n,p)X\thicksim B(n,p)X∼B(n,p) P(X=k)=Cnkpk(1−p
  • 二项分布与超几何分布是两个非常重要的、应用广泛的概率模型,实际中的许多问题都可以利用这两个概率模型来解决.在实际应用中,理解并区分两个概率模型是至关重要的.下面举例进行对比辨析. 一、概念辨析 超几何...
  • 项分布

    千次阅读 2013-04-01 16:49:32
    项分布是最重要的离散型多维分布,假设A1,A2,...,An是某一试验下的完备事件群,即事件两两互斥,且其和为必然事件(即每次试验有且仅有一个事件Ai发生),分别以p1,p2,...,pn为事件A1,A2,...,An发生的概率,pi>0...
  • 如果极限存在,则称函数在点处可导,并把这个极限叫做在处的导数,作或,即. 、常用导数公式             三、求导的四则运算        注:  1、u , v 必须是可导函数...
  • 视频地址2-B站 随机变量 随机变量(random variable,R.V.)定义:是一个用来把实验结果(outcome)数字化的表示方式。 可以让概率的推导更数学,更简明 随机变数通常使用大写英文字母表示 随机变量的本质?函数!...
  • 这个多个类别数据虽然是一个概率分布,但数学期望或方差不同,每次取得一个数据时也不知道这个数据是哪个类别下,每个数据属于哪个类别的信息是一个隐含变量,遇到这种情况时我们不能直接用最大似然。EM算法中文...
  • 维扫描测量连续型激光器远场分布的原理是,用一个有一系列螺旋状分布小孔的旋转圆筒扫过被测光斑,以一维的旋转动作完成维扫描。它能在10-3—104瓦的功率范围内以10帧/秒的速度连续记录激光器维的远场分布。此...
  • 离散型 两点分布 超几何分布 二项分布 泊松分布 连续型 均匀分布 指数分布 正态分布 标准正态分布
  • 若随机变量X服从一个数学期望为μ\mu,标准差为σ2\sigma^2的正态分布,则为X~N(μ,σ2)X~N(\mu,\sigma^2)。 其中期望μ\mu决定了分布位置,标准差σ\sigma决定了分布幅度。 概率密度函数为: f(X)=1σ2π‾...
  • 正态分布随机数生成(java版)

    万次阅读 2013-05-13 00:34:21
    要编程得到服从均匀分布的伪随机数是容易的。C语言、Java语言等都提供了相应的函数。但是要想生成服从正态分布的随机数就没那么容易了。   得到服从正态分布的随机数的基本思想是先得到服从均匀分布的随机数,...
  • 1.Gamma函数 首先我们可以看一下Gamma函数的定义: Γ(x)=∫∞0tx−1e−tdtΓ(x)=∫0∞tx−1e−tdt\Gamma(x) = \int _{0}^{\infty}t^{x-1} e^{-t}dt Gamma的重要性质包括下面几条: ...2.对于正整数n, 有...
  • 这里整理一下四阶段中交通分布预测阶段中的重要预测方法。具体包括:平均系数、底特律、Frater、Funess、单约束重力模型、双约束重力模型,并对比一下各种方法的求解收敛速度。 import numpy as np ...
  • 三大抽样分布——卡方分布、t分布、F分布

    万次阅读 多人点赞 2018-11-19 23:45:03
    ...,X_n)(X1​,X2​,...,Xn​)是来自总体X∼N(0,1)X\sim N(0,1)X∼N(0,1)的一个样本,则称统计量:χ2=∑i=1nXi2\chi^2=\sum_{i=1}^{n}X_i^2χ2=i=1∑n​Xi2​所服从的分布是自由度为nnn的卡方(χ2\chi^2χ2)分布,...
  • 离散型变量分布:0—1分布二项分布,泊松分布,几何分布;连续型:均匀分布,指数分布;卷积公式的意义、表达及记忆
  • 2.3.2次序统计量的分布续任给一个次序统计量 ,它的密度与总体有如下...其概率为 因此 分布函数和密度函数分别为 ,对上式两边同除 ,并取极限得 法二事件,则分布函数为 利用恒等式 得 求导得到密度函数 ...
  • 概率论复习()随机变量及其分布.md基本概念随机变量离散型随机变量离散型随机变量分布律性质几个重要的离散型随机变量(0—1) 分布二项分布伯努利试验二项分布二项分布与(0 — 1)分布有着密切关系泊松分布泊松分布...
  • 概率分布

    万次阅读 2016-04-23 23:04:23
    概率在机器学习中起着重要的作用,概率表示的是事件发生的频率。偏频派认为,事情发生的概率是固定的,给与的样本越多,求得的概率的正确率越高。而贝叶斯派则认为,事情发生的概率是服从一定分布的,是不确定的。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 80,227
精华内容 32,090
关键字:

二项分布记法