精华内容
下载资源
问答
  • 共轭先验
    2018-12-08 14:00:58

    参考维基百科https://en.wikipedia.org/wiki/Conjugate_prior#Example

    共轭先验


    在贝叶斯概率理论中,如果后验分布 p ( θ ∣ x ) p(\theta|x) p(θx)与先验分布 p ( θ ) p(\theta) p(θ)属于同类,则先验分布后验分布被称为共轭分布先验分布被称为似然函数共轭先验

    比如,高斯分布家族在高斯似然函数下与其自身共轭 (自共轭)。就是如果似然函数的高斯分布,选择一个高斯先验能够确保后验分布依旧是高斯分布。

    具体来说,给定贝叶斯公式 p ( θ ∣ x ) = p ( x ∣ θ ) p ( θ ) ∫ p ( x ∣ θ ′ ) p ( θ ′ ) d θ ′ p ( \theta | x ) = \frac { p ( x | \theta ) p ( \theta ) } { \int p ( x | \theta ^ { \prime } ) p \left( \theta ^ { \prime } \right) d \theta ^ { \prime } } p(θx)=p(xθ)p(θ)dθp(xθ)p(θ),假定似然函数 p ( x ∣ θ ) p(x|\theta) p(xθ)已知,问题就是选择什么样的先验分布 p ( θ ) p(\theta) p(θ)会让后验分布于先验分布具有相同的数学形式。

    共轭先验的好处主要在于代数上的方便性,可以直接给出后验分布的封闭形式,否则的话只能数值计算。共轭先验也有助于获得关于似然函数如何更新先验分布的直观印象。所有指数家族的分布都有共轭先验

    更多相关内容
  • 共轭先验 贝叶斯统计的共轭先验表的Python实现 参见维基百科页面: 安装: pip install conjugate-prior 支持的型号: BetaBinomial适用于独立测试,例如点击率(ctr),网站访问者转化。 BetaBernoulli与上面...
  • 共轭分布和共轭先验

    2022-04-17 18:33:36
    共轭分布是统计机器学习特别是贝叶斯学派一个非常重要的概念,以往在很多地方遇到的时候都一笔带过了,仅仅了解了一个大概,这里将二项分布与Beta分布、正太分布的共轭性质推导了一遍,记录下来加深理解。


    前言

    共轭分布是统计机器学习特别是贝叶斯学派一个非常重要的概念,以往在很多地方遇到的时候都一笔带过了,仅仅了解了一个大概,这里将二项分布与Beta分布、正太分布的共轭性质推导了一遍,记录下来加深理解。


    一、贝叶斯定理与共轭分布的定义回顾

    贝叶斯公式

    P ( y ∣ x ) = P ( x ∣ y ) ∗ P ( y ) P ( x ) (1) P(y|x) = \frac{P(x|y) * P(y)}{ P(x)} \tag{1} P(yx)=P(x)P(xy)P(y)(1)

    其中:

    • P ( y ∣ x ) P(y|x) P(yx)为后验分布(posterior):给定 x x x后,变量 y y y的分布;
    • P ( y ) P(y) P(y)为先验分布(prior):变量 y y y自身的分布;
    • P ( x ∣ y ) P(x|y) P(xy)为似然(likelihood):给定 y y y后,变量 x x x的分布;
    • P ( x ) P(x) P(x)为变量 x x x的先验分布(evidence):观测到的 x x x的分布,一般为常数。

    边缘概率与联合概率

    x x x为离散变量时:
    P ( y ) = ∑ x ∈ { 1 , 2 , . . . , } P ( x , y ) = ∑ x ∈ { 1 , 2 , . . . , } P ( y ∣ x ) ∗ P ( x ) (2) P(y) = \sum_{x\in\{1,2,...,\}}P(x,y)= \sum_{x\in\{1,2,...,\}}P(y|x) * P(x) \tag{2} P(y)=x{1,2,...,}P(x,y)=x{1,2,...,}P(yx)P(x)(2)
    x x x为连续变量时:
    P ( y ) = ∫ x P ( x , y ) d x = ∫ x P ( y ∣ x ) ∗ P ( x ) d x (3) P(y) = \int_{x}P(x,y)dx= \int_{x}P(y|x) * P(x)dx \tag{3} P(y)=xP(x,y)dx=xP(yx)P(x)dx(3)

    共轭分布

    In Bayesian probability theory, if the posterior distribution p ( θ ∣ x ) p(θ | x) p(θx) is in the same probability distribution family as the prior probability distribution p ( θ ) p(θ) p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function p ( x ∣ θ ) p(x | θ) p(xθ).
    在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

    这是共轭分布的基本定义,需要注意里面几个点:

    • 后验分布与先验分布属于同类分布:要求后验分布与先验分布是同类分布,不要求似然函数分布相同。
    • 先验分布与后验分布被称为共轭分布:先验分布与后验分布被称为共轭分布。
    • 先验分布被称为似然函数的共轭先验:先验分布是似然函数的共轭先验。

    二、二项分布与Beta分布

    二项分布的共轭先验是Beta分布,即:当先验分布为Beta分布,似然为二项分布时,其后验分布也为Beta分布。

    套用一下上面的定义:当先验分布为Beta分布(记为分布A),似然为二项分布(记为分布B)时,其后验分布也是Beta分布(记为分布C),则先验分布A与后验分布C为共轭先验,先验分布A是似然函数B的共轭先验,即:Beta分布是二项分布的共轭先验。

    假设先验分布服从Beta分布

    先验分布 P ( y ) P(y) P(y)服从Beta分布 B e ( α , β ) Be(\alpha, \beta) Be(α,β),即:
    P ( y ) = Γ ( α + β ) Γ ( α ) Γ ( β ) y α − 1 ( 1 − y ) β − 1 (4) P(y) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} \tag{4} P(y)=Γ(α)Γ(β)Γ(α+β)yα1(1y)β1(4)
    其中 Γ ( α ) \Gamma(\alpha) Γ(α)为Gamma函数,当 α \alpha α为整数时, Γ ( n ) = ( n − 1 ) ! \Gamma(n) = (n-1)! Γ(n)=(n1)!;在实数域内, Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt Γ(z)=0tz1etdt
    P ( y ) P(y) P(y)为概率密度函数,自然的我们有:
    ∫ y Γ ( α + β ) Γ ( α ) Γ ( β ) y α − 1 ( 1 − y ) β − 1 d y = 1 (5) \int_{y} \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} dy = 1 \tag{5} yΓ(α)Γ(β)Γ(α+β)yα1(1y)β1dy=1(5)

    假设似然服从二项分布

    似然 P ( x ∣ y ) P(x|y) P(xy)为二项分布,似然为给定变量 y y y的情况下,变量 x x x的分布,这里我们让变量 x x x服从 B ( n , y ) B(n, y) B(n,y)的二项分布,即:
    P ( x ∣ y ) = C n x y x ( 1 − y ) n − x (6) P(x|y) = C_{n}^{x} y^{x}(1-y)^{n-x} \tag{6} P(xy)=Cnxyx(1y)nx(6)
    基于上面Gamma函数的定义, P ( x ∣ y ) P(x|y) P(xy)可以改写为:
    P ( x ∣ y ) = Γ ( n ) Γ ( x ) Γ ( n − x ) y x ( 1 − y ) n − x (7) P(x|y) = \frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} \tag{7} P(xy)=Γ(x)Γ(nx)Γ(n)yx(1y)nx(7)

    变量 x x x的先验分布

    P ( x ) = ∫ y P ( x , y ) d y = ∫ y P ( x ∣ y ) ∗ P ( y ) d y = ∫ y Γ ( n ) Γ ( x ) Γ ( n − x ) y x ( 1 − y ) n − x ∗ Γ ( α + β ) Γ ( α ) Γ ( β ) y α − 1 ( 1 − y ) β − 1 d y = ∫ y Γ ( n ) Γ ( α + β ) Γ ( x ) Γ ( n − x ) Γ ( α ) Γ ( β ) y ( x + α ) − 1 ( 1 − y ) ( n − x + β ) − 1 d y = Γ ( n ) Γ ( α + β ) Γ ( x ) Γ ( n − x ) Γ ( α ) Γ ( β ) ∫ y y ( x + α ) − 1 ( 1 − y ) ( n − x + β ) − 1 d y (8) \begin{aligned} P(x) & = \int_{y}P(x,y)dy \\ & = \int_{y}P(x|y) * P(y)dy \\ & = \int_{y}\frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} * \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1}dy \\ & = \int_{y}\frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy \\ & = \frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} \int_{y}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy \end{aligned} \tag{8} P(x)=yP(x,y)dy=yP(xy)P(y)dy=yΓ(x)Γ(nx)Γ(n)yx(1y)nxΓ(α)Γ(β)Γ(α+β)yα1(1y)β1dy=yΓ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)y(x+α)1(1y)(nx+β)1dy=Γ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)yy(x+α)1(1y)(nx+β)1dy(8)
    由式子5有:
    ∫ y y ( x + α ) − 1 ( 1 − y ) ( n − x + β ) − 1 d y = Γ ( x + α ) Γ ( n − x + β ) Γ ( n + α + β ) \int_{y}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy = \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha + \beta)} yy(x+α)1(1y)(nx+β)1dy=Γ(n+α+β)Γ(x+α)Γ(nx+β)
    于是:
    P ( x ) = Γ ( n ) Γ ( α + β ) Γ ( x ) Γ ( n − x ) Γ ( α ) Γ ( β ) ∗ Γ ( x + α ) Γ ( n − x + β ) Γ ( n + α + β ) (9) P(x)=\frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} * \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha + \beta)} \tag{9} P(x)=Γ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)Γ(n+α+β)Γ(x+α)Γ(nx+β)(9)

    后验概率分布

    结合式子4、6、9,我们有:
    P ( y ∣ x ) = P ( x ∣ y ) ∗ P ( y ) P ( x ) = Γ ( n ) Γ ( x ) Γ ( n − x ) y x ( 1 − y ) n − x ∗ Γ ( α + β ) Γ ( α ) Γ ( β ) y α − 1 ( 1 − y ) β − 1 ∗ Γ ( x ) Γ ( n − x ) Γ ( α ) Γ ( β ) Γ ( n ) Γ ( α + β ) ∗ Γ ( n + α + β ) Γ ( x + α ) Γ ( n − x + β ) = Γ ( n + α + β ) Γ ( x + α ) Γ ( n − x + β ) y ( x + α ) − 1 ( 1 − y ) ( n − x + β ) − 1 \begin{aligned} P(y|x) & = \frac{P(x|y) * P(y)}{ P(x)} \\ & = \frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} * \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} * \frac{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)}{\Gamma(n)\Gamma(\alpha + \beta)} * \frac{\Gamma(n+\alpha + \beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)} \\ & = \frac{\Gamma(n+\alpha + \beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1} \end{aligned} P(yx)=P(x)P(xy)P(y)=Γ(x)Γ(nx)Γ(n)yx(1y)nxΓ(α)Γ(β)Γ(α+β)yα1(1y)β1Γ(n)Γ(α+β)Γ(x)Γ(nx)Γ(α)Γ(β)Γ(x+α)Γ(nx+β)Γ(n+α+β)=Γ(x+α)Γ(nx+β)Γ(n+α+β)y(x+α)1(1y)(nx+β)1
    后验分布 P ( y ∣ x ) P(y|x) P(yx)服从Beta分布 B e ( x + α , n − x + β ) Be(x+\alpha, n-x+\beta) Be(x+α,nx+β),得出前面给出的结论:

    当先验分布为Beta分布,似然为二项分布时,其后验分布也为Beta分布。


    三、正太分布的共轭先验

    正太分布的共轭先验也是正太分布,即:当先验分布为正太分布,似然也为正太分布时,其后验分布也为正太分布。

    假设先验分布服从正太分布

    先验分布 P ( y ) P(y) P(y)服从正太 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),即:
    P ( y ) = 1 2 π σ e x p ( − ( y − μ ) 2 2 σ 2 ) (10) P(y) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2}) \tag{10} P(y)=2π σ1exp(2σ2(yμ)2)(10)
    对于正太分布,我们有:
    ∫ y 1 2 π σ e x p ( − ( y − μ ) 2 2 σ 2 ) d y = 1 (11) \int_{y}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})dy=1 \tag{11} y2π σ1exp(2σ2(yμ)2)dy=1(11)

    假设似然服从正太分布

    似然 P ( x ∣ y ) P(x|y) P(xy)服从正太分布,这里为了不失一般性,假设似然 P ( x ∣ y ) P(x|y) P(xy)服从 N ( a y + b , λ 2 ) N(ay+b, \lambda^2) N(ay+b,λ2)的正太分布,即给定变量 y y y,变量 x x x服从均值为 y y y的线性变换 a y + b ay+b ay+b、方差为 λ 2 \lambda^2 λ2的正太分布:
    P ( x ∣ y ) = 1 2 π λ e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 ) (12) P(x|y) = \frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}) \tag{12} P(xy)=2π λ1exp(2λ2(x(ay+b))2)(12)

    变量 x x x的先验分布

    P ( x ) = ∫ y P ( x , y ) d y = ∫ y P ( x ∣ y ) ∗ P ( y ) d y = ∫ y 1 2 π λ e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 ) 1 2 π σ e x p ( − ( y − μ ) 2 2 σ 2 ) d y = 1 2 π λ 1 2 π σ ∫ y e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 − ( y − μ ) 2 2 σ 2 ) d y (13) \begin{aligned} P(x) & = \int_{y}P(x,y)dy \\ & = \int_{y}P(x|y) * P(y)dy \\ & = \int_{y}\frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2})\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})dy \\ & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}\int_{y}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}-\frac{(y-\mu)^2}{2\sigma^2})dy \end{aligned} \tag{13} P(x)=yP(x,y)dy=yP(xy)P(y)dy=y2π λ1exp(2λ2(x(ay+b))2)2π σ1exp(2σ2(yμ)2)dy=2π λ12π σ1yexp(2λ2(x(ay+b))22σ2(yμ)2)dy(13)
    式子内部对变量 y y y求积分,我们将其他变量移出指数函数,有:
    P ( x ) = 1 2 π λ 1 2 π σ e x p ( − σ 2 λ 2 μ 2 ( x − b ) 2 − [ a λ 2 ( x − b ) + μ λ 2 ] 2 a 2 σ 2 + λ 2 2 σ 2 λ 2 ) ∫ y e x p ( − ( y − a σ 2 ( x − b ) + λ 2 μ a 2 σ 2 + λ 2 ) 2 2 λ 2 σ 2 a 2 σ 2 + λ 2 ) d y \begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2-\frac{[a\lambda^2(x-b)+\mu\lambda^2]^2}{a^2\sigma^2+\lambda^2}}{2\sigma^2\lambda^2})\int_{y}exp(-\frac{(y-\frac{a\sigma^2(x-b)+\lambda^2\mu}{a^2\sigma^2+\lambda^2})^2}{\frac{2\lambda^2\sigma^2}{a^2\sigma^2+\lambda^2}})dy \end{aligned} P(x)=2π λ12π σ1exp(2σ2λ2σ2λ2μ2(xb)2a2σ2+λ2[aλ2(xb)+μλ2]2)yexp(a2σ2+λ22λ2σ2(ya2σ2+λ2aσ2(xb)+λ2μ)2)dy
    由正太分布的概率密度积分(公式11)我们有:
    ∫ y e x p ( − ( y − a σ 2 ( x − b ) + λ 2 μ a 2 σ 2 + λ 2 ) 2 2 λ 2 σ 2 a 2 σ 2 + λ 2 ) d y = 2 π λ σ 1 a 2 σ 2 + λ 2 \int_{y}exp(-\frac{(y-\frac{a\sigma^2(x-b)+\lambda^2\mu}{a^2\sigma^2+\lambda^2})^2}{\frac{2\lambda^2\sigma^2}{a^2\sigma^2+\lambda^2}})dy=\sqrt{2\pi}\lambda\sigma\frac{1}{\sqrt{a^2\sigma^2+\lambda^2}} yexp(a2σ2+λ22λ2σ2(ya2σ2+λ2aσ2(xb)+λ2μ)2)dy=2π λσa2σ2+λ2 1
    于是有:
    P ( x ) = 1 2 π λ 1 2 π σ e x p ( − σ 2 λ 2 μ 2 ( x − b ) 2 − [ a λ 2 ( x − b ) + μ λ 2 ] 2 a 2 σ 2 + λ 2 2 σ 2 λ 2 ) ∗ 2 π λ σ 1 a 2 σ 2 + λ 2 = 1 2 π a 2 σ 2 + λ 2 e x p ( − σ 2 λ 2 μ 2 ( x − b ) 2 ( a 2 σ 2 + λ 2 ) − [ a λ 2 ( x − b ) + μ λ 2 ] 2 2 σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π a 2 σ 2 + λ 2 e x p ( − σ 2 λ 2 ( x − ( a μ + b ) ) 2 2 σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π a 2 σ 2 + λ 2 e x p ( − ( x − ( a μ + b ) ) 2 2 ( a 2 σ 2 + λ 2 ) ) \begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2-\frac{[a\lambda^2(x-b)+\mu\lambda^2]^2}{a^2\sigma^2+\lambda^2}}{2\sigma^2\lambda^2}) * \sqrt{2\pi}\lambda\sigma\frac{1}{\sqrt{a^2\sigma^2+\lambda^2}} \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2(a^2\sigma^2+\lambda^2)-[a\lambda^2(x-b)+\mu\lambda^2]^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{\sigma^2\lambda^2(x-(a\mu+b))^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)}) \end{aligned} P(x)=2π λ12π σ1exp(2σ2λ2σ2λ2μ2(xb)2a2σ2+λ2[aλ2(xb)+μλ2]2)2π λσa2σ2+λ2 1=2π a2σ2+λ2 1exp(2σ2λ2(a2σ2+λ2)σ2λ2μ2(xb)2(a2σ2+λ2)[aλ2(xb)+μλ2]2)=2π a2σ2+λ2 1exp(2σ2λ2(a2σ2+λ2)σ2λ2(x(aμ+b))2)=2π a2σ2+λ2 1exp(2(a2σ2+λ2)(x(aμ+b))2)
    最终可以得出结论:变量 x x x服从 N ( a μ + b , a 2 σ 2 + λ 2 ) N(a\mu+b, a^2\sigma^2+\lambda^2) N(aμ+b,a2σ2+λ2)的正太分布。

    后验概率分布

    P ( y ∣ x ) = P ( x ∣ y ) ∗ P ( y ) P ( x ) = 1 2 π λ e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 ) 1 2 π σ e x p ( − ( y − μ ) 2 2 σ 2 ) 1 2 π a 2 σ 2 + λ 2 e x p ( − ( x − ( a μ + b ) ) 2 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π σ λ ( a 2 σ 2 + λ 2 ) e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 − ( y − μ ) 2 2 σ 2 + ( x − ( a μ + b ) ) 2 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π σ λ ( a 2 σ 2 + λ 2 ) e x p ( − ( ( a 2 σ 2 + λ 2 ) y − ( μ λ 2 + a σ 2 ( x − b ) ) ) 2 2 σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π σ λ ( a 2 σ 2 + λ 2 ) e x p ( − ( y − ( μ λ 2 + a σ 2 ( x − b ) ) ( a 2 σ 2 + λ 2 ) ) 2 2 σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) \begin{aligned} P(y|x) & = \frac{P(x|y) * P(y)}{ P(x)} \\ & = \frac{\frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2})\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})}{\frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)})} \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}-\frac{(y-\mu)^2}{2\sigma^2}+\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{((a^2\sigma^2+\lambda^2)y-(\mu\lambda^2+a\sigma^2(x-b)))^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{(y-\frac{(\mu\lambda^2+a\sigma^2(x-b))}{(a^2\sigma^2+\lambda^2)})^2}{\frac{2\sigma^2\lambda^2}{(a^2\sigma^2+\lambda^2)}}) \end{aligned} P(yx)=P(x)P(xy)P(y)=2π a2σ2+λ2 1exp(2(a2σ2+λ2)(x(aμ+b))2)2π λ1exp(2λ2(x(ay+b))2)2π σ1exp(2σ2(yμ)2)=2π (a2σ2+λ2) σλ1exp(2λ2(x(ay+b))22σ2(yμ)2+2(a2σ2+λ2)(x(aμ+b))2)=2π (a2σ2+λ2) σλ1exp(2σ2λ2(a2σ2+λ2)((a2σ2+λ2)y(μλ2+aσ2(xb)))2)=2π (a2σ2+λ2) σλ1exp((a2σ2+λ2)2σ2λ2(y(a2σ2+λ2)(μλ2+aσ2(xb)))2)
    可以看出,后验概率 P ( y ∣ x ) P(y|x) P(yx)服从 N ( ( μ λ 2 + a σ 2 ( x − b ) ) ( a 2 σ 2 + λ 2 ) , σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) N(\frac{(\mu\lambda^2+a\sigma^2(x-b))}{(a^2\sigma^2+\lambda^2)}, \frac{\sigma^2\lambda^2}{(a^2\sigma^2+\lambda^2)}) N((a2σ2+λ2)(μλ2+aσ2(xb)),(a2σ2+λ2)σ2λ2)的正太分布,得出前面给出的结论:

    当先验分布为正太分布,似然也为正太分布时,其后验分布也为正太分布。

    总结

    本文简单推导了一下二项分布与Beta分布、正太分布的共轭性质,主要都是基于贝叶斯定理的简单推导,后续还有一些扩展到多维的内容,比如多项分布与狄利克雷分布、多维正太分布,后面有时间再推理记录。

    展开全文
  • 共轭先验分布简记

    2021-05-27 10:39:20
    为了便于计算,往往还会构造出共轭先验分布(Conjugate Prior Distribution),使得后验分布的函数形式与先验分布一致。这样的话就可以在新的数据集出现后,继续计算新的后验分布,如对同一个事件又出现了一个新的...

    背景知识

    D = ( x 1 , x 2 , ⋯   , x n ) \boldsymbol{D}=(x_1,x_2,\cdots,x_n) D=(x1,x2,,xn)为对某个随机变量X进行n次独立试验获得的试验结果(即数据集)。 w \boldsymbol{w} w为该随机变量所服从的分布函数的参数向量。则根据贝叶斯公式有:
    P ( w ∣ D ) = P ( D ∣ w ) P ( w ) P ( D ) P(\boldsymbol{w}|\boldsymbol{D}) = \frac{P(\boldsymbol{D}|\boldsymbol{w})P(\boldsymbol{w})}{P(\boldsymbol{D})} P(wD)=P(D)P(Dw)P(w)

    • 其中 P ( w ∣ D ) P(\boldsymbol{w}|\boldsymbol{D}) P(wD)是在已知试验结果后参数向量的后验概率分布
    • P ( D ∣ w ) P(\boldsymbol{D}|\boldsymbol{w}) P(Dw)是在参数向量取不同的值的时候,获得试验结果的概率,即似然函数。往往就是数据集中的数据对应的概率密度的乘积
    • P ( w ) P(\boldsymbol{w}) P(w)就是参数向量取不同的值的概率,即先验概率分布

    频率学派往往通过最大化似然函数 P ( D ∣ w ) P(\boldsymbol{D}|\boldsymbol{w}) P(Dw)来寻找能够使已获得的数据集发生的概率最大的参数。该思想往往建立在参数向量取不同值的概率是相同的假设下,即假设参数向量的先验分布 P ( w ) P(\boldsymbol{w}) P(w)为均匀分布。

    而贝叶斯学派则往往不承认这种假设,即认为参数向量的先验分布并不是均匀分布,从而会计算参数分布的后验概率分布,寻找后验概率最大值对应的参数。

    为了便于计算,往往还会构造出共轭先验分布(Conjugate Prior Distribution),使得后验分布的函数形式与先验分布一致。这样的话就可以在新的数据集出现后,继续计算新的后验分布,如对同一个事件又出现了一个新的独立的数据集 D ′ = ( x 1 ′ , x 2 ′ , ⋯   , x n ′ ) \boldsymbol{D'}=(x'_1,x'_2,\cdots,x'_n) D=(x1,x2,,xn),则有:
    P ( w ∣ D , D ′ ) = P ( D , D ′ ∣ w ) P ( w ) P ( D , D ′ ) = P ( D ′ ∣ w ) P ( D ∣ w ) P ( w ) P ( D ′ ) P ( D ) = P ( D ′ ∣ w ) P ( D ′ ) ⋅ P ( w ∣ D ) \begin{aligned} P(\boldsymbol{w}|\boldsymbol{D,D'}) & = \frac{P(\boldsymbol{D,D'}|\boldsymbol{w})P(\boldsymbol{w})}{P(\boldsymbol{D,D'})} \\ & = \frac{P(\boldsymbol{D'}|\boldsymbol{w})\color{red}{P(\boldsymbol{D}|\boldsymbol{w})P(\boldsymbol{w})}}{P(\boldsymbol{D'})\color{red}{P(\boldsymbol{D})}} \\ & = \frac{P(\boldsymbol{D'}|\boldsymbol{w})}{P(\boldsymbol{D'})} \cdot \color{red}{P(\boldsymbol{w}|\boldsymbol{D})} \end{aligned} P(wD,D)=P(D,D)P(D,Dw)P(w)=P(D)P(D)P(Dw)P(Dw)P(w)=P(D)P(Dw)P(wD)

    从上式就可以看出,可以在旧数据集的基础上,根据新数据集的似然函数 P ( D ′ ∣ w ) P(\boldsymbol{D'}|\boldsymbol{w}) P(Dw)继续计算后验概率,结合流式计算等技术就可以持续优化更新模型,实现实时学习

    Beta分布

    Beta分布是伯努利分布或二项分布中事件发生概率 p p p的共轭先验分布。其公式为:
    Beta ( p ∣ a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) p a − 1 ( 1 − p ) b − 1 \text{Beta}(p|a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}p^{a-1}(1-p)^{b-1} Beta(pa,b)=Γ(a)Γ(b)Γ(a+b)pa1(1p)b1

    该分布由于是概率的共轭先验分布,因此自变量取值范围在0到1之间,系数 Γ ( a + b ) Γ ( a ) Γ ( b ) \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} Γ(a)Γ(b)Γ(a+b)保证了归一化(即在 [ 0 , 1 ] [0,1] [0,1]区间上的积分为1)。其中a和b为超参数,控制了参数p的先验分布。可以将a看做伯努利分布或二项分布中事件发生( x = 1 x=1 x=1)的次数,b看做事件没发生( x = 0 x=0 x=0)的次数。其图像如下:
    Beta分布
    可以看出Beta分布的几个性质:

    • 期望: E ( p ) = a a + b E(p) = \frac{a}{a+b} E(p)=a+ba
    • 方差: D ( p ) = a b ( a + b ) 2 ( a + b + 1 ) D(p) = \frac{ab}{(a+b)^2(a+b+1)} D(p)=(a+b)2(a+b+1)ab
    • 众数: mode ( p ) = a − 1 a + b − 2 \text{mode}(p) = \frac{a-1}{a+b-2} mode(p)=a+b2a1
    • a = b = 1 a=b=1 a=b=1,Beta分布简化为均匀分布;
    • 即使 a a + b \frac{a}{a+b} a+ba相同,但若a和b越大,方差越小。这也符合直觉,即实验次数越多,均值越集中于期望附近。

    下面以二项分布进行进一步讨论,假设进行n次掷硬币试验,正面向上发生了m次。则由贝叶斯公式可得:
    P ( p ∣ n , m ) ∝ P ( m ∣ n , p ) P ( p ) ∝ C n m p m ( 1 − p ) n − m ⋅ Γ ( a + b ) Γ ( a ) Γ ( b ) p a − 1 ( 1 − p ) b − 1 ∝ p m + a − 1 ( 1 − p ) n − m + b − 1 \begin{aligned} P(p|n,m) & \propto P(m|n,p)P(p) \\ & \propto C_n^m p^m (1-p)^{n-m} \cdot \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}p^{a-1}(1-p)^{b-1} \\ & \propto p^{m+a-1}(1-p)^{n-m+b-1} \end{aligned} P(pn,m)P(mn,p)P(p)Cnmpm(1p)nmΓ(a)Γ(b)Γ(a+b)pa1(1p)b1pm+a1(1p)nm+b1

    可以看出后验概率的形式确实与先验Beta分布一致。与Beta分布公式比对可以得出其归一化系数,即:
    P ( p ∣ n , m , a , b ) = Γ ( n + a + b ) Γ ( m + a ) Γ ( n − m + b ) p m + a − 1 ( 1 − p ) n − m + b − 1 P(p|n,m,a,b) = \frac{\Gamma(n+a+b)}{\Gamma(m+a)\Gamma(n-m+b)}p^{m+a-1}(1-p)^{n-m+b-1} P(pn,m,a,b)=Γ(m+a)Γ(nm+b)Γ(n+a+b)pm+a1(1p)nm+b1

    从后验概率的公式中可以得出概率参数p的期望 E ( p ) = m + a n + a + b E(p)=\frac{m+a}{n+a+b} E(p)=n+a+bm+a。结合贝叶斯公式 P ( p ∣ n , m ) = P ( m ∣ n , p ) P ( p ) P ( m ) P(p|n,m) = \frac{P(m|n,p)P(p)}{P(m)} P(pn,m)=P(m)P(mn,p)P(p),可以推出为了得到后验Beta分布中的归一化系数,n次掷硬币正面向上次数为m次的概率 P ( m ) P(m) P(m)应该服从超几何分布:
    P ( m ) = C m + a m C n − m + b n − m C n + a + b n P(m) = \frac{C_{m+a}^m C_{n-m+b}^{n-m}}{C_{n+a+b}^n} P(m)=Cn+a+bnCm+amCnm+bnm

    即总共进行了 n + a + b n+a+b n+a+b次试验(实际实验次数加上假想的先验观测次数),其中正面向上的总次数为 m + a m+a m+a次。在实际 n n n次的试验中,正面向上发生 m m m次的概率。也就是下述列联表的发生概率:

    实际试验先验假设
    正面向上ma
    反面向上n-mb
    加和na+b

    这也是符合直觉和逻辑的。

    此处举一个例子说明贝叶斯学派的优势:比如投了三次硬币( n = 3 n=3 n=3),三次均正面向上( m = 3 m=3 m=3)。使用频率学派的最大似然法,可以得出当 p = m n p=\frac{m}{n} p=nm时似然函数 P ( m ∣ n , p ) = C n m p m ( 1 − p ) n − m P(m|n,p) = C_n^m p^m (1-p)^{n-m} P(mn,p)=Cnmpm(1p)nm会取得最大值。因此投三次硬币都向上,按照最大似然法得出 p M L = 1 p_{ML}=1 pML=1,也就是说认为这枚硬币只会正面向上,这显然是一种典型的过拟合

    而在贝叶斯学派看来,硬币正面向上的概率是服从Beta分布的。因此先验假设这枚硬币是普通硬币,正面和背面向上的次数应该是相等的。先验假设已经做了4次掷硬币试验,正面背面分别朝上2次,即 a = b = 2 a=b=2 a=b=2。如果这时进行了3次掷硬币的试验,结果均是正面向上。按照贝叶斯学派的观点,当想要预测下一次掷硬币试验的输出时,相当于对一个服从伯努利分布(Bernoulli Distribution)的随机变量进行预测。也就是计算该随机变量在已知数据集 D \boldsymbol{D} D的条件下的预测分布:
    Bern ( x = 1 ∣ D ) = ∫ 0 1 Bern ( x = 1 ∣ p ) P ( p ∣ D ) d p = ∫ 0 1 p P ( p ∣ D ) d p = E [ p ∣ D ] = m + a n + a + b \begin{aligned} \text{Bern}(x=1|\boldsymbol{D}) & = \int_0^1 \text{Bern}(x=1|p)P(p|\boldsymbol{D}) \mathrm{d}p\\ & = \int_0^1 p P(p|\boldsymbol{D}) \mathrm{d}p \\ & = E[p|\boldsymbol{D}]=\frac{m+a}{n+a+b} \end{aligned} Bern(x=1D)=01Bern(x=1p)P(pD)dp=01pP(pD)dp=E[pD]=n+a+bm+a

    从上式可以看到,对下一次掷硬币实验中正面向上( x = 1 x=1 x=1)的预测分布,也就等于正面向上的概率p的后验Beta分布的期望 E ( p ∣ D ) = m + a n + a + b = 5 8 = 0.625 E(p|\boldsymbol{D})=\frac{m+a}{n+a+b}=\frac{5}{8}=0.625 E(pD)=n+a+bm+a=85=0.625。这个结果显然没有过拟合,且更为合理,泛化性也更好。

    狄利克雷分布

    先简单回顾一下多项分布,多项分布是一个多元变量分布,是指一个实验有k种可能的结果,每种结果发生概率分别为 p = ( p 1 , p 2 , ⋯   , p k ) \boldsymbol{p}=(p_1,p_2,\cdots,p_k) p=(p1,p2,,pk)。实验进行n次,每种结果发生的次数为一个k维向量 D = ( x 1 , x 2 , ⋯   , x k ) \boldsymbol{D}=(x_1,x_2,\cdots,x_k) D=(x1,x2,,xk),有 n = x 1 + x 2 + ⋯ + x k n=x_1+x_2+\cdots+x_k n=x1+x2++xk,且该k元随机变量服从多项分布:
    Poly [ D = ( x 1 , x 2 , ⋯   , x k ) ∣ n , p ] = n ! x 1 ! x 2 ! ⋯ x k ! p 1 x 1 p 2 x 2 ⋯ p k x k \text{Poly}[\boldsymbol{D}=(x_1,x_2,\cdots,x_k)|n,\boldsymbol{p}] = \frac{n!}{x_1! x_2! \cdots x_k!}p_1^{x_1}p_2^{x_2}\cdots p_k^{x_k} Poly[D=(x1,x2,,xk)n,p]=x1!x2!xk!n!p1x1p2x2pkxk

    狄利克雷分布(Dirichlet distribution)就是对于多项分布中k种结果发生概率 ( p 1 , p 2 , ⋯   , p k ) (p_1,p_2,\cdots,p_k) (p1,p2,,pk)的先验分布。很明显这也是一个多元变量的分布:
    Dir [ p ∣ a ] = Γ ( a 0 ) Γ ( a 1 ) Γ ( a 2 ) ⋯ Γ ( a k ) p 1 a 1 − 1 p 2 a 2 − 1 ⋯ p k a k − 1 \text{Dir}[\boldsymbol{p}|\boldsymbol{a}] = \frac{\Gamma(a_0)}{\Gamma(a_1)\Gamma(a_2)\cdots\Gamma(a_k)}p_1^{a_1-1}p_2^{a_2-1}\cdots p_k^{a_k-1} Dir[pa]=Γ(a1)Γ(a2)Γ(ak)Γ(a0)p1a11p2a21pkak1

    其中 a 0 = a 1 + a 2 + ⋯ + a k a_0=a_1+a_2+\cdots+a_k a0=a1+a2++ak。狄利克雷分布由于是多元随机变量的分布,因此除了期望和方差,还有协方差,体现了随机变量之间的相关性:
    E ( p i ) = a i a 0 = p i ^ var ( p i ) = a i ( a 0 − a i ) a 0 2 ( a 0 + 1 ) = p i ^ ( 1 − p i ^ ) a 0 + 1 cov ( p i , p j ) = − a i a j a 0 2 ( a 0 + 1 ) \begin{aligned} & E(p_i)=\frac{a_i}{a_0} = \hat{p_i} \\ & \text{var}(p_i) = \frac{a_i(a_0-a_i)}{a_0^2(a_0+1)} = \frac{\hat{p_i}(1-\hat{p_i})}{a_0+1}\\ & \text{cov}(p_i, p_j) = \frac{-a_ia_j}{a_0^2(a_0+1)} \end{aligned} E(pi)=a0ai=pi^var(pi)=a02(a0+1)ai(a0ai)=a0+1pi^(1pi^)cov(pi,pj)=a02(a0+1)aiaj

    就如多项分布是二项分布的扩展,狄利克雷分布也就是Beta分布的扩展。先验分布中 a = ( a 1 , a 2 , ⋯   , a k ) \boldsymbol{a}=(a_1,a_2,\cdots,a_k) a=(a1,a2,,ak)就是先验假设每种情况发生的次数。既然是共轭先验分布,则 p \boldsymbol{p} p的后验概率形式也是狄利克雷分布的形式:
    Dir [ p ∣ D , a ] = Γ ( a 0 + n ) Γ ( a 1 + x 1 ) Γ ( a 2 + x 2 ) ⋯ Γ ( a k + x k ) p 1 a 1 + x 1 − 1 p 2 a 2 + x 2 − 1 ⋯ p k a k + x k − 1 \text{Dir}[\boldsymbol{p}|\boldsymbol{D},\boldsymbol{a}] = \frac{\Gamma(a_0+n)}{\Gamma(a_1+x_1)\Gamma(a_2+x_2)\cdots\Gamma(a_k+x_k)}p_1^{a_1+x_1-1}p_2^{a_2+x_2-1}\cdots p_k^{a_k+x_k-1} Dir[pD,a]=Γ(a1+x1)Γ(a2+x2)Γ(ak+xk)Γ(a0+n)p1a1+x11p2a2+x21pkak+xk1

    同样可以结合贝叶斯公式推出为了得到后验狄利克雷分布中的归一化系数,实验数据 D = ( x 1 , x 2 , ⋯   , x k ) \boldsymbol{D}=(x_1,x_2,\cdots,x_k) D=(x1,x2,,xk)出现的概率为:
    P [ D ] = C x 1 + a 1 x 1 C x 2 + a 2 x 2 ⋯ C x k + a k x k C n + a 0 n P[\boldsymbol{D}] = \frac{C_{x_1+a_1}^{x_1}C_{x_2+a_2}^{x_2} \cdots C_{x_k+a_k}^{x_k}}{C_{n+a_0}^{n}} P[D]=Cn+a0nCx1+a1x1Cx2+a2x2Cxk+akxk

    实际上就是下述 k × 2 k \times 2 k×2的列联表的发生概率:

    实际试验先验假设
    第1种可能 x 1 x_1 x1 a 1 a_1 a1
    第2种可能 x 2 x_2 x2 a 2 a_2 a2
    ⋮ \vdots ⋮ \vdots ⋮ \vdots
    第k种可能 x k x_k xk a k a_k ak
    加和 n n n a 0 a_0 a0
    展开全文
  • 针对贝叶斯网络后验概率需计算样本边际分布, 计算代价大的问题, 将共轭先验分布思想引入贝叶斯分类, 提出了基于共轭先验分布的贝叶斯网络分类模型. 针对非区间离散样本, 提出一种自适应的样本离散方法, 将小波包...
  • 大多数学校的统计学悲剧在于它是多么愚蠢。老师们花费数小时来研究导数,方程式和定理,当您...共轭先验:能在贝叶斯推断中,以优雅的方式解决计算量与最优化问题。1.什么是先验?先验概率是我们看到数据之前事件的...

    大多数学校的统计学悲剧在于它是多么愚蠢。老师们花费数小时来研究导数,方程式和定理,当您最终达到最佳效果时(将概念应用于实际数字),就会出现一些无关紧要,没有想象力的示例,例如掷骰子。遗憾的是,如果您跳过推导(您可能永远不需要),而专注于使用这些想法来解决有趣的问题,那么统计数据就很有趣。

    共轭先验:能在贝叶斯推断中,以优雅的方式解决计算量与最优化问题。

    1.什么是先验?

    先验概率是我们看到数据之前事件的概率(主观概率)。

    在上一篇文章中:贝叶斯推理,先验是我们在新数据可用之前根据我们现在所知道的对概率的猜测。jinzhao:如何深刻理解贝叶斯推理?​zhuanlan.zhihu.com

    2.什么是共轭先验?

    不知道贝叶斯推断就无法理解共轭先验! 为什么这么说呢?

    在本博客的其余部分中,我假设您了解先验,样本(数据data)和后验的概念。

    本质上共轭先验:

    对于某些似然函数(likehood),如果您选择某个先验,后验的分布与先验的分布相同。这样的先验被称为共轭先验。

    通过示例始终可以最好地理解它。下面的代码用于计算二项式似然的后验。θ是成功的概率,我们的目标是选择使后验概率最大的θ。

    import numpy as np

    import scipy.stats as stats

    success_prob = 0.3

    data = np.random.binomial(n=1, p=success_prob, size=1000) # 1, 0.

    # θ

    theta_range = np.linspace(0, 1, 1000)

    # 先验 P(θ)

    a = 2

    b = 8

    theta_range_e = theta_range + 0.0001

    prior = stats.beta.cdf(x = theta_range_e, a=a, b=b) - stats.beta.cdf(x = theta_range, a=a, b=b)

    # 似然 Likelihood P(X|θ)

    likelihood = stats.binom.pmf(k = np.sum(data), n = len(data), p = theta_range)

    # 后验

    posterior = likelihood * prior

    normalized_posterior = posterior / np.sum(posterior)

    给您的问题:上面的代码块中有什么与您有关的吗?

    有两件事使后验计算变得昂贵,有没有优雅的处理方式呢?首先,我们计算每个θ的后验。为什么我们必须计算数千个theta的后验?因为您正在对后部进行标准化(第21行)。即使您选择不对后验进行标准化,最终目标还是要找到后验的最大值(Maximum a postiori)。为了以最佳方式找到最大值,我们需要考虑每个候选对象- 每个θ的似然度P(X |θ)。

    其次,如果没有后验分布的封闭式公式,则必须通过数值优化(例如梯度下降或牛顿法)找到最大值。

    3.“共轭先验”如何实现的优雅方法呢?

    当您知道您的先验是共轭先验时,您可以跳过posterior = likelihood * prior计算。此外,如果您的先验分布具有封闭形式的表单表达式,则您已经知道最大后验概率将是多少。

    在上面的示例中,β分布是二项式似然之前的共轭。这是什么意思?这意味着在建模阶段,我们已经知道后验也将是beta分布。因此,在进行更多实验之后,您可以简单地通过将接受和拒绝的数量分别添加到现有参数α,β上来计算后验,而不用将似然度乘以先验分布。这很方便!(下一节的证明)

    作为数据/ ML科学家,您的模型永远都不完整。随着输入更多数据,您必须更新模型(这就是我们使用贝叶斯推理的原因)。

    如您所见,贝叶斯推断中的计算可能很繁重,有时甚至很棘手。但是,如果我们可以使用先验的共轭形式的封闭式公式,则计算将变得非常简单。

    4.证明-为什么Beta分布在二项式似然率之前是共​​轭的?

    当我们使用Beta分布作为先验时,二项式似然的后验也将遵循beta分布。

    显示Beta会产生Beta。

    二项式和Beta版的PDF是什么样的?

    让我们将它们插入著名的贝叶斯公式中

    其中:θ是成功的概率,

    x是成功次数。

    n是试验的总数

    因此nx是失败的次数。

    为什么最后一个积分变为B(x +α,n-x +β)? 这个beta推导下次再讲。 先验分布P(θ)为Beta(α,β),在从实验中获得x次成功和nx次失败后,后验也变为具有参数(x +α,n-x +β)的Beta分布。 很好的是,您无需进行计算就可以解析地知道这一点。

    5.共轭先前的分布

    Beta分布是伯努利,二项式,负二项式和几何分布的共轭先验(看起来像那些涉及成功与失败的分布)。

    在方程中共轭先验P(θ):P(θ)使得P(θ| D)= P(θ)

    注意事项:可累积性:当我们使用共轭先验时,顺序估计(每次观察后更新计数)得出的结果与批量估计相同。

    为了找到最大后验,您不必对似然(采样)与先验(分母中每个可能θ的积分)的乘积进行归一化。

    您仍然可以在不进行标准化的情况下找到最大值。但是,如果要比较不同模型的后验对象或计算点估计,则需要进行归一化。

    相关推荐:jinzhao:如何深刻理解泊松过程​zhuanlan.zhihu.comjinzhao:如何深刻理解二项式分布到泊松分布?​zhuanlan.zhihu.comjinzhao:如何深刻理解指数分布​zhuanlan.zhihu.comjinzhao:如何通俗的理解伽马(gamma)函数​zhuanlan.zhihu.comjinzhao:如何通俗的理解矩母函数​zhuanlan.zhihu.com

    展开全文
  • 如何证明二项分布的共轭先验是贝塔分布?此外,共轭分布的意义是什么?
  • 共轭先验分布

    千次阅读 2018-01-11 15:23:54
    背景 贝叶斯估计 ...共轭先验分布的提出 当没有任何观察数据时,随机变量 θ\theta 服从概率分布 P(θ)P(\theta) 当观测到新的数据 XX 时,有如下问题: 可否根据新观测到的数据XX,更新参数 θ\theta
  • 如果后验分布与先验分布属于同类(分布簇),则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。 上面这个定义有点复杂,我们待会儿再回过头来看这个定义 P(θ∣x)=P(x∣θ)⋅P(θ)∫P(x∣...
  • 共轭先验与贝叶斯方法 共轭分布的优势一 贝叶斯密度预测 共轭分布的优势二 总结 常见的似然与共轭 什么是共轭性 一个分布 P P P 是另一个分布 Q Q Q 的共轭,则这两个分布相乘,分布形式与 P P P 相同(同族)。...
  • 一篇非常好的介绍beta分布的文章,讲得非常清楚https://blog.csdn.net/a358463121/article/details/52562940
  • 之所以采用共轭分布的原因是可以使得先验分布和后验分布的形式相同,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形...
  • ConjugatePriors.jl:一个Julia包,用于支持共轭先验分布
  • 指数族分布以及共轭先验

    千次阅读 2019-03-05 08:53:37
    如果似然概率是指数族分布,那么我们一定可以找到其对应的共轭先验 。此处证略,有兴趣可以参考prml。 参考文献 [1] 徐亦达机器学习视频(bilibili) [2]  Pattern Recognition and Machine Learning
  • 概率分布及共轭先验

    2021-07-14 09:34:46
    可以采用贝叶斯的方法,引入共轭先验分布(conjugate prior distribution)来解决这个问题。共轭先验,其方法是选取一个与似然函数共轭的先验分布,其目的是使得后验分布与先验分布有同样的函数形式。 1.3 Beta分布 ...
  • 共轭先验 思想是,假设theta的先验分布和后验分布是同一种分布 由于根据贝叶斯定理,我们通常假设: 很多时候,由于似然函数L(theta)的介入,导致theta的先验分布g(theta)和g(theta|x)不是同一类分布,有可能先验是...
  • 文章目录一、共轭先验分布定义二、正态均值的共轭先验分布1.公式理论2.Example: Normal mean3.R code 一、共轭先验分布定义 设 π(θ)\pi(\theta)π(θ) 是 θ\thetaθ 的先验密度,假设由抽样信息算得的后验密度...
  • 在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。比如,高斯分布家族在高斯似然函数下与其自身共轭 (自共轭)。这个概念,以及"共...
  • 共轭先验 是啥? 网上找几篇文章,收集与此!   今天的主要任务是来理解共轭先验以及贝叶斯学习。最近在研究主题模型,里面用到了一些,另外在机器学习中,贝叶斯学习是重要的一个方向,所以有必要学习和掌握。   ...
  • 参考: ... 0. 贝叶斯公式 ...X为抽样样本,P(X)为我们抽到该样本的概率,有时被称为"证据",仅仅是归一化因子,如果不关心后验概率P(θ|X)的具体值,只考察θ取何值时后...1. 先验信息 在抽取样本X之前,人们对所要
  • 了解后验和共轭先验

    2020-09-06 06:55:35
    因为我们的后验和我们的先验来自同一家族,所以Beta分布被称为二项分布的共轭先验 。 If we try plotting this using scipy, we’ll get the same distribution that PyMC3 has calculated for us: 如果我们尝试...
  • 共轭先验分布的提出:某观测数据服从概率分布p(θ),当观测到新的数据时,思考下列问题:1.能否根据新观测数据X更新参数θ;2.根据新观测的数据可以在多大的程度上改变参数θ:θ=θ+rθ;当重新估计得到θ时,给出...
  • 先验与后验的区别主要在于有没有利用样本信息。没用样本信息是先验。用了样本信息是后验。 观测样本前的经验是先验,观测样本后的经验是后验。 “先”与“后”主要体现在对样本信息的利用上。 先验概率可理解为先...
  • 共轭先验分布 我们之前学习过贝叶斯公式,概括地来说,贝叶斯公式是对因果关系的总结。 贝叶斯学派与频率学派最大的不同是频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值;贝叶斯派则认为参数是随机...
  • 在贝叶斯学派的观点中,先验概率、后验概率以及共轭分布的概念非常重要。而在机器学习中,我们阅读很多资料时也要频繁地跟他们打交道。所以理清这些概念很有必要。 转载自白马负金羁博文,为方便自己以后查阅,故...
  • 共轭分布 我们还是从一个例子讲起。假如你有一个硬币,它有可能是不均匀的,所以投这个硬币有  θ  的概率抛出Head,有  ( 1 − θ )  的概率抛出Tail。如果抛了五次这个硬币,有三次是Head,有两次是Tail,这...
  • 共轭先验-Conjugate Prior

    千次阅读 2016-11-22 02:14:13
    读数理统计学导论时,遇到过共轭先验的概念。 贝叶斯判别准则中,分别假设了先验分布p(θ)p(\theta),后验分布p(θ|X)p(\theta|X),以及p(X),p(X|θ)p(X), p(X|\theta)似然函数。贝叶斯定理可以写作:P(θ|X)=P(θ)...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,397
精华内容 1,358
关键字:

共轭先验

友情链接: 控制系统仿真.zip