精华内容
下载资源
问答
  • Notes for machine learning algorithm prove and details
  • 白板推导

    2019-07-21 08:50:35
    视频地址:bilibili搜索白板推导。 github地址:https://github.com/shuhuai007/Machine-Learning-Session;内有视频顺序链接和pdf。

    视频地址:bilibili搜索白板推导。

    github地址:https://github.com/shuhuai007/Machine-Learning-Session;内有视频顺序链接和pdf。

     

    展开全文
  • 白板推导系列课程笔记 初版 本课程是来自: 目前,是初版的笔记,比较的乱,等全部写完,我会再做处理。各位从知乎上看到链接过来的,取完以后您可以在知乎上留个赞,就更好了。之后我会继续更新,直到写完这个系列...
  • 此文章主要是结合哔站shuhuai008大佬的白板推导视频:变分自编码器_44min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一、模型表示 二、推断学习

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:变分自编码器_44min

    全部笔记的汇总贴:机器学习-白板推导系列笔记

    涉及到变分推断和重参数化技巧的内容,建议回顾一下白板推导系列笔记(十二)-变分推断

    一、模型表示

    VAE实质是一个隐变量模型(Latent Variable Model),我们通过GMM(混合高斯模型)来对比。

    GMMVAE
    k k k个高斯分布混合无限个高斯分布的混合
    z ∼ C a t e g o r i c a l    D i s t z\sim Categorical\;Dist zCategoricalDist z ∼ N ( 0 , I )        P θ ( x / z ) ∼ N ( μ θ ( z ) , Σ θ ( z ) ) z\sim N(0,I)\;\;\;P_\theta(x/z)\sim N(\mu_\theta(z),\Sigma_\theta(z)) zN(0,I)Pθ(x/z)N(μθ(z),Σθ(z))

    所以VAE的分布为:
    P θ ( x ) = ∫ z P θ ( x , z ) d z = ∫ z P θ ( z ) ⋅ P θ ( x ∣ z ) d z P_\theta(x)=\int_z P_\theta(x,z){d}z=\int_z P_\theta(z)\cdot P_\theta(x|z){d}z Pθ(x)=zPθ(x,z)dz=zPθ(z)Pθ(xz)dz
    这个 P θ ( x ) P_\theta(x) Pθ(x)是intractable的,又因为 P θ ( z ∣ x ) = P θ ( z ) ⋅ P θ ( x ∣ z ) P θ ( x ) P_\theta(z|x)=\frac{P_\theta(z)\cdot P_\theta(x|z)}{P_\theta(x)} Pθ(zx)=Pθ(x)Pθ(z)Pθ(xz),所以它也是intractable的。

    Categorical Dist:

    z z z12 ⋯ \cdots k k k
    p p p p 1 p_1 p1 p 2 p_2 p2 ⋯ \cdots p k p_k pk

    ∑ i = 1 K p i = 1                      x ∣ z = i ∼ N ( x ∣ μ i , Σ i ) \sum_{i=1}^K p_i=1\;\;\;\;\;\;\;\;\;\;x|z=i\sim N(x|\mu_i,\Sigma_i) i=1Kpi=1xz=iN(xμi,Σi)

    二、推断学习

    在这里插入图片描述

    P ( z ) = N ( 0 , I ) P(z)=N(0,I) P(z)=N(0,I)
    P θ ( x ∣ z ) = N ( μ θ ( z ) , Σ θ ( z ) ) P_\theta(x|z)= N(\mu_\theta(z),\Sigma_\theta(z)) Pθ(xz)=N(μθ(z),Σθ(z))
    P θ ( z ∣ x )    i s    i n t r a c t a b l e      我 们 用 q ϕ ( z ∣ x ) 来 逼 近 它 P_\theta(z|x) \;is\;intractable\;\;我们用q_\phi(z|x)来逼近它 Pθ(zx)isintractableqϕ(zx)

    回顾一下EM:

    log ⁡ P ( x ) = E L B O + K L ( q ϕ ( z ∣ x ) ∣ ∣ p θ ( z ∣ x ) ) \log P(x)=ELBO+KL(q_\phi(z|x)||p_\theta(z|x)) logP(x)=ELBO+KL(qϕ(zx)pθ(zx))
    E-Step:当 q = p θ ( z ∣ x ) q=p_\theta(z|x) q=pθ(zx)时,KL=0,expectation is ELBO
    M-Step: θ = arg max ⁡ E L B O = arg max ⁡ E p θ ( z ∣ x ) [ log ⁡ p θ ( x , z ) ] \theta=\argmax ELBO=\argmax E_{p_\theta(z|x)}[\log p_\theta(x,z)] θ=argmaxELBO=argmaxEpθ(zx)[logpθ(x,z)]

    所以,

    < θ ^ , ϕ ^ > = arg min ⁡ K L ( q ϕ ( z ∣ x ) ∣ ∣ p θ ( z ∣ x ) ) = arg max ⁡ E L B O = arg max ⁡ E q ϕ ( z ∣ x ) [ log ⁡ p θ ( x , z ) ] + H [ q ϕ ] = arg max ⁡ E q ϕ ( z ∣ x ) [ log ⁡ ( p θ ( x ∣ z ) + p θ ( z ) ) ] + H [ q ϕ ] = arg max ⁡ E q ϕ ( z ∣ x ) [ log ⁡ p θ ( x ∣ z ) ] − K L ( q ϕ ( z ∣ x ) ∣ ∣ p ( z ) ) <\hat \theta,\hat\phi>=\argmin KL(q_\phi(z|x)||p_\theta(z|x))\\=\argmax ELBO\\=\argmax E_{q_\phi(z|x)}[\log p_\theta(x,z)] +H[q_\phi]\\=\argmax E_{q_\phi(z|x)}[\log (p_\theta(x|z)+p_\theta(z))] +H[q_\phi]\\=\argmax E_{q_\phi(z|x)}[\log p_\theta(x|z)] -KL(q_\phi(z|x)||p(z)) <θ^,ϕ^>=argminKL(qϕ(zx)pθ(zx))=argmaxELBO=argmaxEqϕ(zx)[logpθ(x,z)]+H[qϕ]=argmaxEqϕ(zx)[log(pθ(xz)+pθ(z))]+H[qϕ]=argmaxEqϕ(zx)[logpθ(xz)]KL(qϕ(zx)p(z))

    采用SGVI/SGVB/SVI/Amortized Inference,也就是利用神经网络和重参数化技巧来解决这个优化问题。

    ε ∼ N ( 0 , I ) z ∣ x ∼ N ( μ ϕ ( x ) , Σ ϕ ( x ) ) \varepsilon \sim N(0,I)\\z|x\sim N(\mu_\phi(x),\Sigma_\phi(x)) εN(0,I)zxN(μϕ(x),Σϕ(x))
    z = μ ϕ ( x ) + Σ ϕ 1 2 ( x ) ⋅ ε z=\mu_\phi(x)+\Sigma_\phi^{\frac12}(x)\cdot\varepsilon z=μϕ(x)+Σϕ21(x)ε
                                                   \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; 在这里插入图片描述                                                  \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; 在这里插入图片描述

       \;
       \;
       \;
       \;

    下一章传送门:白板推导系列笔记(三十三)-流模型

    展开全文
  • 此文章主要是结合哔站shuhuai008大佬的白板推导视频:生成对抗网络_54min 全部笔记的汇总贴:机器学习-白板推导系列笔记 对应花书20.4 一、例子 二、数学描述 三、全局最优解

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:生成对抗网络_54min

    全部笔记的汇总贴:机器学习-白板推导系列笔记

    一、例子

    在这里插入图片描述
    其中国宝是一个静态的,不会改变,工艺品和这个节目的鉴定水平是动态的,可学习的。

    目标:成为高水平、可以以假乱真的大师。

    1. 高水平的鉴赏专家(手段)
    2. 高水平的工艺品大师(目标)
      (高大师(高专家))

    在这里插入图片描述

    二、数学描述

    我们将上图转化为数学符号

    古人: { x i } i = 1 N : P d a t a \{x_i\}_{i=1}^N:P_{data} {xi}i=1N:Pdata
    工艺品: P g ( x ; θ g ) : g e n e r a t o r ( P z ( z ) + G ( z ; θ g ) )              Z ∼ P Z ( z )                    x = G ( Z ; θ g ) P_g(x;\theta_g):generator(P_z(z)+G(z;\theta_g))\;\;\;\;\;\;Z\sim P_Z(z)\;\;\;\;\;\;\;\;\;x=G(Z;\theta_g) Pg(x;θg):generator(Pz(z)+G(z;θg))ZPZ(z)x=G(Z;θg)

    在这里插入图片描述
    x x x是国宝的概率: D ( x ; θ d ) D(x;\theta_d) D(x;θd)
    在这里插入图片描述

    高专家:

    如果 x x x来自与 P d a t a P_{data} Pdata,则 D ( x ) D(x) D(x)相对较高。(可以改写为 log ⁡ D ( x ) \log D(x) logD(x)
    如果 x x x来自与 P g P_{g} Pg(相当于 Z Z Z来自于 P z P_z Pz),则 D ( x ) D(x) D(x)相对较低(可以改写为 log ⁡ ( 1 − D ( G ( z ) ) ) \log (1-D(G(z))) log(1D(G(z))),则这个应该较高)

    max ⁡ D [ E x ∼ P d a t a [ log ⁡ D ( x ) ] + E z ∼ P z [ log ⁡ ( 1 − D ( G ( z ) ) ) ] ] \max_D\Bigg[E_{x\sim P_{data}}\Big[\log D(x)\Big]+E_{z\sim P_{z}}\Big[\log (1-D(G(z)))\Big]\Bigg] Dmax[ExPdata[logD(x)]+EzPz[log(1D(G(z)))]]

    高大师:

    如果 x x x来自与 P g P_{g} Pg(相当于 Z Z Z来自于 P z P_z Pz),则 D ( x ) D(x) D(x)相对较高(可以改写为 log ⁡ ( 1 − D ( G ( z ) ) ) \log (1-D(G(z))) log(1D(G(z))),则这个应该较低)
    min ⁡ G E z ∼ P z [ log ⁡ ( 1 − D ( G ( z ) ) ) ] \min_GE_{z\sim P_{z}}\Big[\log (1-D(G(z)))\Big] GminEzPz[log(1D(G(z)))]

    总目标:

    min ⁡ G max ⁡ D [ E x ∼ P d a t a [ log ⁡ D ( x ) ] + E z ∼ P z [ log ⁡ ( 1 − D ( G ( z ) ) ) ] ] \min_G\max_D\Bigg[E_{x\sim P_{data}}\Big[\log D(x)\Big]+E_{z\sim P_{z}}\Big[\log (1-D(G(z)))\Big]\Bigg] GminDmax[ExPdata[logD(x)]+EzPz[log(1D(G(z)))]]

    三、全局最优解

    y ∣ x : d i s c r i m i n a t o r y|x:discriminator yx:discriminator

    y / x y/x y/x10
    p p p D ( x ) D(x) D(x) 1 − D ( x ) 1-D(x) 1D(x)

    V ( D , G ) = E x ∼ P d a t a [ log ⁡ D ( x ) ] + E x ∼ P g [ log ⁡ ( 1 − D ( x ) ) ] V(D,G)=E_{x\sim P_{data}}\Big[\log D(x)\Big]+E_{x\sim P_{g}}\Big[\log (1-D(x))\Big] V(D,G)=ExPdata[logD(x)]+ExPg[log(1D(x))]

    固定 G G G,求 D ∗ D^* D,记作 D G ∗ D^*_G DG

    max ⁡ D V ( D , G ) \max_DV(D,G) DmaxV(D,G)
    max ⁡ D V ( D , G ) = ∫ P d a t a ⋅ log ⁡ D d x + ∫ P g ⋅ log ⁡ ( 1 − D ) d x = ∫ [ P d a t a ⋅ log ⁡ D + P g ⋅ log ⁡ ( 1 − D ) ] d x \max_DV(D,G)=\int P_{data}\cdot\log D{d}x+\int P_g\cdot\log(1-D){d}x\\=\int\Big[P_{data}\cdot\log D+ P_g\cdot\log(1-D)\Big]{d}x DmaxV(D,G)=PdatalogDdx+Pglog(1D)dx=[PdatalogD+Pglog(1D)]dx
    关于 D D D求偏导:
    ∂ ∂ D ( max ⁡ D V ( D , G ) ) = ∂ ∂ D ∫ [ P d a t a ⋅ log ⁡ D + P g ⋅ log ⁡ ( 1 − D ) ] d x = ∫ ∂ ∂ D [ P d a t a ⋅ log ⁡ D + P g ⋅ log ⁡ ( 1 − D ) ] d x = ∫ [ P d a t a ⋅ 1 D + P g ⋅ − 1 1 − D ] d x \frac{\partial }{\partial D}(\max_DV(D,G))=\frac{\partial }{\partial D}\int\Big[P_{data}\cdot\log D+ P_g\cdot\log(1-D)\Big]{d}x\\=\int\frac{\partial }{\partial D}\Big[P_{data}\cdot\log D+ P_g\cdot\log(1-D)\Big]{d}x\\=\int\Big[P_{data}\cdot\frac1D+ P_g\cdot\frac{-1}{1-D}\Big]{d}x D(DmaxV(D,G))=D[PdatalogD+Pglog(1D)]dx=D[PdatalogD+Pglog(1D)]dx=[PdataD1+Pg1D1]dx
    令导数为 0 0 0,得到:
    D G ∗ = P d a t a P d a t a + P g D^*_G=\frac{P_{data}}{P_{data}+P_g} DG=Pdata+PgPdata

    D G ∗ D^*_G DG代入,则有:

    min ⁡ G max ⁡ D V ( D , G ) = min ⁡ G V ( D G ∗ , G ) = min ⁡ G E x ∼ P d a t a [ log ⁡ P d a t a P d a t a + P g ] + E x ∼ P g [ log ⁡ ( 1 − P d a t a P d a t a + P g ) ] = min ⁡ G E x ∼ P d a t a [ log ⁡ P d a t a P d a t a + P g ] + E x ∼ P g [ log ⁡ P g P d a t a + P g ] = min ⁡ G E x ∼ P d a t a [ log ⁡ P d a t a P d a t a + P g 2 ⋅ 1 2 ] + E x ∼ P g [ log ⁡ P g P d a t a + P g 2 ⋅ 1 2 ] = min ⁡ G K L ( P d a t a ∣ ∣ P d a t a + P g 2 ) + K L ( P g ∣ ∣ P d a t a + P g 2 ) − log ⁡ 4 ≥ − log ⁡ 4 \min_G\max_D V(D,G)=\min_G V(D_G^*,G)\\=\min_GE_{x\sim P_{data}}\Big[\log \frac{P_{data}}{P_{data}+P_g}\Big]+E_{x\sim P_{g}}\Big[\log (1-\frac{P_{data}}{P_{data}+P_g})\Big]\\=\min_GE_{x\sim P_{data}}\Big[\log \frac{P_{data}}{P_{data}+P_g}\Big]+E_{x\sim P_{g}}\Big[\log \frac{P_{g}}{P_{data}+P_g}\Big]\\=\min_GE_{x\sim P_{data}}\Big[\log \frac{P_{data}}{\frac{P_{data}+P_g}2}\cdot\frac12\Big]+E_{x\sim P_{g}}\Big[\log \frac{P_{g}}{\frac{P_{data}+P_g}2}\cdot\frac12\Big]\\=\min_G KL(P_{data}||\frac{P_{data}+P_g}2)+KL(P_g||\frac{P_{data}+P_g}2)-\log 4\\\ge -\log 4 GminDmaxV(D,G)=GminV(DG,G)=GminExPdata[logPdata+PgPdata]+ExPg[log(1Pdata+PgPdata)]=GminExPdata[logPdata+PgPdata]+ExPg[logPdata+PgPg]=GminExPdata[log2Pdata+PgPdata21]+ExPg[log2Pdata+PgPg21]=GminKL(Pdata2Pdata+Pg)+KL(Pg2Pdata+Pg)log4log4
    P d a t a = P d a t a + P g 2 = P g P_{data}=\frac{P_{data}+P_g}2=P_g Pdata=2Pdata+Pg=Pg时,“=”成立。    \;
    此时, P g ∗ = P d a t a , D g ∗ = 1 2 P^*_g=P_{data},D^*_g=\frac12 Pg=Pdata,Dg=21

       \;
       \;
       \;
    下一章传送门:白板推导系列笔记(三十二)-变分自编码器

    展开全文
  • 此文章主要是结合哔站shuhuai008大佬的白板推导视频:粒子滤波_98min 一、背景介绍 动态模型是在概率图模型中加入一个时间序列的标记,样本之间不再是独立同分布,而是有了依赖关系。动态模型其实质是一个混合模型,...

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:粒子滤波_98min

    全部笔记的汇总贴:机器学习-白板推导系列笔记

    一、背景介绍

    动态模型是在概率图模型中加入一个时间序列的标记,样本之间不再是独立同分布,而是有了依赖关系。动态模型其实质是一个混合模型,我们看到的样本序列是观测序列,每一个观测值,背后都对应一个隐变量,称隐变量为系统状态,所以动态模型也称状态空间模型。

    动态模型有两个假设,

    • 齐次马尔可夫假设,对于隐变量,给定 Z t Z_t Zt的情况下, Z t + 1 Z_{t+1} Zt+1 Z t − 1 Z_{t-1} Zt1无关。
    • 观测独立假设,对于观测值,给定 Z t Z_t Zt的情况下, x t x_t xt只与 Z t Z_t Zt有关。

    可以得到两个方程,分别是 Z t Z_t Zt Z t − 1 Z_{t-1} Zt1之间的关系,以及 x t x_t xt Z t Z_t Zt之间的关系。

    Z t = g ( Z t − 1 , u , ε ) Z_t = g(Z_{t-1},u,\varepsilon) Zt=g(Zt1,u,ε)
    x t = h ( Z t , u , δ ) x_t = h(Z_t,u, \delta) xt=h(Zt,u,δ)

    关于HMM

    在HMM中,参数为:

    λ = ( π , A , B ) \lambda = (\pi,A,B) λ=(π,A,B)

    其中 A A A是状态转移矩阵,对应函数 Z t = g ( Z t − 1 , u , ε ) Z_t = g(Z_{t-1},u,\varepsilon) Zt=g(Zt1,u,ε) B B B对应函数 x t = h ( Z t , u , δ ) x_t = h(Z_t,u, \delta) xt=h(Zt,u,δ)

    关于Kalman Filter

    在Kalman Filter中,我们有如下假设,

    z t = A ⋅ z t − 1 + B + ε x t = C ⋅ z t + D + δ ε ∼ N ( 0 , Q ) δ ∼ N ( 0 , R ) z_{t}=A\cdot z_{t-1}+B+\varepsilon \\ x_{t}=C\cdot z_{t}+D+\delta \\ \varepsilon \sim N(0,Q)\\ \delta \sim N(0,R) zt=Azt1+B+εxt=Czt+D+δεN(0,Q)δN(0,R)

    主要是解决Filtering问题,即求解边缘概率:

    P ( z t ∣ x 1 , x 2 , ⋯   , x t ) P(z_{t}|x_{1},x_{2},\cdots ,x_{t}) P(ztx1,x2,,xt)

    主要分为两步,第一步是Prediction过程,也就是预测过程,相当于给 Z t Z_t Zt一个先验,

    P ( z t ∣ x 1 , x 2 , ⋯   , x t − 1 ) = ∫ z t − 1 P ( z t ∣ z t − 1 ) ⋅ P ( z t − 1 ∣ x 1 , x 2 , ⋯   , x t − 1 ) d z t − 1 P(z_{t}|x_{1},x_{2},\cdots ,x_{t-1})=\int _{z_{t-1}}P(z_{t}|z_{t-1})\cdot P(z_{t-1}|x_{1},x_{2},\cdots ,x_{t-1})\mathrm{d}z_{t-1} P(ztx1,x2,,xt1)=zt1P(ztzt1)P(zt1x1,x2,,xt1)dzt1

    第二步是Update过程,也就是更新过程,就相当于是求 Z t Z_t Zt的后验,

    P ( z t ∣ x 1 , x 2 , ⋯   , x t ) ∝ P ( x t ∣ z t ) ⋅ P ( z t ∣ x 1 , x 2 , ⋯   , x t − 1 ) {{P(z_{t}|x_{1},x_{2},\cdots ,x_{t})}}\propto {{P(x_{t}|z_{t})}}\cdot {{P(z_{t}|x_{1},x_{2},\cdots ,x_{t-1})}} P(ztx1,x2,,xt)P(xtzt)P(ztx1,x2,,xt1)

    具体求解过程可以参考:白板推导系列笔记(十五)-卡曼滤波

    卡曼滤波对应线性,而粒子滤波则对应非线性。

    二、重要性采样

    因为卡曼滤波是一种线性高斯模型,所以可以通过不断地进行Prediction和Update来求得解析解。但对于粒子滤波这种非线性的模型而言,没有像高斯分布这样的比较好的特征,所以没有办法得到解析解,因此要解决Filtering问题,就必须借助于采样

    Monte Carlo Method

    对于贝叶斯问题,主要就是给定 X X X来求隐变量 Z Z Z,即 P ( Z ∣ X ) P(Z|X) P(ZX),而蒙特卡洛方法就是通过抽样来近似地求后验。
    而这其中最主要地就是求期望 E E E

    E z ∣ x [ f ( z ) ] = ∫ f ( z ) p ( z ∣ x ) d z ≈ 1 N ∑ i = 1 N f ( z ( i ) ) E_{z|x}[f(z)]=\int f(z)p(z|x){d}z\\\approx\frac{1}{N}\sum^N_{i=1}{f(z^{(i)})} Ezx[f(z)]=f(z)p(zx)dzN1i=1Nf(z(i))
    N N N个样本 z ( i ) ∼ p ( z ∣ x ) , z ( 1 ) , z ( 2 ) , ⋯   , z ( N ) z^{(i)}\sim p(z|x), z^{(1)}, z^{(2)}, \cdots,z^{(N)} z(i)p(zx),z(1),z(2),,z(N)

    Importance Sampling

    现在的难题是,我们无法从 p ( z ∣ x ) p(z|x) p(zx)中采样,要么是 p ( z ∣ x ) p(z|x) p(zx)很复杂,要么就维度较高。因此,我们采用 Importance Sampling来处理这个问题,引入一个相对简单、可以直接采样的 q ( z ) q(z) q(z),再分析上式中的期望 E E E

    E z ∣ x [ f ( z ) ] = ∫ f ( z ) p ( z ∣ x ) d z = ∫ f ( z ) p ( z ∣ x ) q ( z ∣ x ) q ( z ∣ x ) d z = 1 N ∑ i = 1 N f ( z ( i ) ) p ( z ( i ) ∣ x 1 , x 2 , ⋯   , x t ) q ( z ( i ) ∣ x 1 , x 2 , ⋯   , x t ) E_{z|x}[f(z)]=\int f(z)p(z|x){d}z\\=\int f(z)\frac{p(z|x)}{q(z|x)}q(z|x){d}z\\=\frac{1}{N}\sum^N_{i=1}{f(z^{(i)})}\frac{p(z^{(i)}|x_1,x_2,\cdots,x_t)}{q(z^{(i)}|x_1,x_2,\cdots,x_t)} Ezx[f(z)]=f(z)p(zx)dz=f(z)q(zx)p(zx)q(zx)dz=N1i=1Nf(z(i))q(z(i)x1,x2,,xt)p(z(i)x1,x2,,xt)
    q ( z ∣ x ) , z ( i ) ∼ q ( z ) , i = 1 , 2 , ⋯   , N q(z|x),z^{(i)}\sim q(z),i = 1,2,\cdots,N q(zx),z(i)q(z),i=1,2,,N
    q ( z ∣ x ) q(z|x) q(zx):提议分布
    w ( i ) = p ( z ( i ) ∣ x 1 , x 2 , ⋯   , x t ) q ( z ( i ) ∣ x 1 , x 2 , ⋯   , x t ) w^{(i)}=\frac{p(z^{(i)}|x_1,x_2,\cdots,x_t)}{q(z^{(i)}|x_1,x_2,\cdots,x_t)} w(i)=q(z(i)x1,x2,,xt)p(z(i)x1,x2,,xt):weight

    我们引入 x 1 : t = x 1 , x 2 , ⋯   , x t x_{1:t}=x_1,x_2,\cdots,x_t x1:t=x1,x2,,xt,所以,对于filtering问题,

    w t ( i ) = p ( z t ( i ) ∣ x 1 : t ) q ( z t ( i ) ∣ x 1 : t ) w_t^{(i)}=\frac{p(z_t^{(i)}|x_{1:t})}{q(z_t^{(i)}|x_{1:t})} wt(i)=q(zt(i)x1:t)p(zt(i)x1:t)

    所以,当 t = 1 t=1 t=1时,求 w 1 ( i ) , i = 1 , 2 , ⋯   , N w_1^{(i)},i = 1,2,\cdots,N w1(i),i=1,2,,N,即求 w 1 1 , w 1 2 , ⋯   , w 1 N w_1^1,w_1^2,\cdots,w_1^N w11,w12,,w1N
    t = 2 t=2 t=2时,求 w 2 ( i ) , i = 1 , 2 , ⋯   , N w_2^{(i)},i = 1,2,\cdots,N w2(i),i=1,2,,N,即求 w 2 1 , w 2 2 , ⋯   , w 2 N w_2^1,w_2^2,\cdots,w_2^N w21,w22,,w2N
    ⋮ \vdots
    不难发现,如果要计算 w w w的值,我们每个时刻都要算 N N N次,而且 p ( z t ( i ) ∣ x 1 : t ) p(z_t^{(i)}|x_{1:t}) p(zt(i)x1:t)也是非常难求的,所以我们需要简化 w w w的求解。

    Sequential Importance Sampling

    SIS(Sequential Importance Sampling)的引入就是为了寻找 w t ( i ) w_t^{(i)} wt(i) w t − 1 ( i ) w_{t-1}^{(i)} wt1(i)之间的关系。不是直接求 p ( z t ∣ x 1 : t ) p(z_t|x_{1:t}) p(ztx1:t),而是求 p ( z 1 : t ∣ x 1 : t ) p(z_{1:t}|x_{1:t}) p(z1:tx1:t)这个边缘概率。所以对于 w t ( i ) w_t^{(i)} wt(i)有:

    w t ( i ) ∝ p ( z 1 : t ∣ x 1 : t ) q ( z 1 : t ∣ x 1 : t ) w_t^{(i)}\propto\frac{p(z_{1:t}|x_{1:t})}{q(z_{1:t}|x_{1:t})} wt(i)q(z1:tx1:t)p(z1:tx1:t)

    我们首先看分子,

    p ( z 1 : t ∣ x 1 : t ) = p ( z 1 : t , x 1 : t ) p ( x 1 : t ) ⏟ C = 1 C p ( z 1 : t , x 1 : t ) = 1 C p ( x t ∣ z 1 : t , x 1 : t − 1 ) ⋅ p ( z 1 : t , x 1 : t ) = 1 C p ( x t ∣ z t ) ⋅ p ( z 1 : t , x 1 : t ) = 1 C p ( x t ∣ z t ) ⋅ p ( z t ∣ z 1 : t − 1 , x 1 : t − 1 ) ⋅ p ( z 1 : t − 1 , x 1 : t − 1 ) = 1 C p ( x t ∣ z t ) ⋅ p ( z t ∣ z t − 1 ) ⋅ p ( z 1 : t − 1 , x 1 : t − 1 ) = 1 C p ( x t ∣ z t ) ⋅ p ( z t ∣ z t − 1 ) ⋅ p ( z 1 : t − 1 ∣ x 1 : t − 1 ) ⋅ p ( x 1 : t − 1 ) ⏟ D = D C p ( x t ∣ z t ) ⋅ p ( z t ∣ z t − 1 ) ⋅ p ( z 1 : t − 1 ∣ x 1 : t − 1 ) {p(z_{1:t}|x_{1:t})}=\frac{{p(z_{1:t},x_{1:t})}}{\underset{C}{\underbrace {p(x_{1:t})}}}\\=\frac{1}{C}p(z_{1:t},x_{1:t})\\=\frac{1}{C}p(x_t|z_{1:t},x_{1:t-1})\cdot p(z_{1:t},x_{1:t})\\=\frac{1}{C}p(x_t|z_t)\cdot p(z_{1:t},x_{1:t})\\=\frac{1}{C}p(x_t|z_t)\cdot p(z_t|z_{1:t-1},x_{1:t-1})\cdot p(z_{1:t-1},x_{1:t-1})\\=\frac{1}{C}p(x_t|z_t)\cdot p(z_t|z_{t-1})\cdot p(z_{1:t-1},x_{1:t-1})\\=\frac{1}{C}p(x_t|z_t)\cdot p(z_t|z_{t-1})\cdot p(z_{1:t-1}|x_{1:t-1})\cdot\underset{D}{\underbrace{ p(x_{1:t-1})}}\\=\frac{D}{C}p(x_t|z_t)\cdot p(z_t|z_{t-1})\cdot{\color{red}{p(z_{1:t-1}|x_{1:t-1})}} p(z1:tx1:t)=C p(x1:t)p(z1:t,x1:t)=C1p(z1:t,x1:t)=C1p(xtz1:t,x1:t1)p(z1:t,x1:t)=C1p(xtzt)p(z1:t,x1:t)=C1p(xtzt)p(ztz1:t1,x1:t1)p(z1:t1,x1:t1)=C1p(xtzt)p(ztzt1)p(z1:t1,x1:t1)=C1p(xtzt)p(ztzt1)p(z1:t1x1:t1)D p(x1:t1)=CDp(xtzt)p(ztzt1)p(z1:t1x1:t1)

    然后我们看分母,

    假定有: q ( z 1 : t ∣ x 1 : t ) = q ( z t ∣ z 1 : t − 1 , x 1 : t ) ⋅ q ( z 1 : t − 1 ∣ x 1 : t − 1 ) q(z_{1:t}|x_{1:t})=q(z_t|z_{1:t-1},x_{1:t})\cdot q(z_{1:t-1}|x_{1:t-1}) q(z1:tx1:t)=q(ztz1:t1,x1:t)q(z1:t1x1:t1)

    所以,可以推出:

    w t ( i ) ∝ p ( z 1 : t ∣ x 1 : t ) q ( z 1 : t ∣ x 1 : t ) ∝ p ( x t ∣ z t ) ⋅ p ( z t ∣ z t − 1 ) ⋅ p ( z 1 : t − 1 ∣ x 1 : t − 1 ) q ( z t ∣ z 1 : t − 1 , x 1 : t ) ⋅ q ( z 1 : t − 1 ∣ x 1 : t − 1 ) = p ( x t ∣ z t ) ⋅ p ( z t ∣ z t − 1 ) q ( z t ∣ z 1 : t − 1 , x 1 : t ) ⋅ w t − 1 ( i ) w_t^{(i)}\propto\frac{p(z_{1:t}|x_{1:t})}{q(z_{1:t}|x_{1:t})}\propto\frac{p(x_t|z_t)\cdot p(z_t|z_{t-1})\cdot{{\color{blue}p(z_{1:t-1}|x_{1:t-1})}}}{q(z_t|z_{1:t-1},x_{1:t})\cdot{\color{blue} q(z_{1:t-1}|x_{1:t-1})}}\\=\frac{p(x_t|z_t)\cdot p(z_t|z_{t-1})}{q(z_t|z_{1:t-1},x_{1:t})}\cdot w_{t-1}^{(i)} wt(i)q(z1:tx1:t)p(z1:tx1:t)q(ztz1:t1,x1:t)q(z1:t1x1:t1)p(xtzt)p(ztzt1)p(z1:t1x1:t1)=q(ztz1:t1,x1:t)p(xtzt)p(ztzt1)wt1(i)

    所以,当我们在 t = 1 t=1 t=1时刻求出 w 1 ( i ) , N w_1^{(i)},N w1(i),N个值的时候,再求 t = 2 t=2 t=2时刻时,只需要套用上述公式,就能直接求出 w 2 ( i ) w_2^{(i)} w2(i),也就解决了 w w w计算难的问题。所以,

    E z ∣ x [ f ( z ) ] = ∫ f ( z ) p ( z ∣ x ) d z = ∫ f ( z ) p ( z ∣ x ) q ( z ∣ x ) q ( z ∣ x ) d z = 1 N ∑ i = 1 N f ( z ( i ) ) p ( z ( i ) ∣ x 1 , x 2 , ⋯   , x t ) q ( z ( i ) ∣ x 1 , x 2 , ⋯   , x t ) = 1 N ∑ i = 1 N f ( z ( i ) ) w ( i ) = ∑ i = 1 N f ( z ( i ) ) w ^ ( i ) E_{z|x}[f(z)]=\int f(z)p(z|x){d}z\\=\int f(z)\frac{p(z|x)}{q(z|x)}q(z|x){d}z\\=\frac{1}{N}\sum^N_{i=1}{f(z^{(i)})}\frac{p(z^{(i)}|x_1,x_2,\cdots,x_t)}{q(z^{(i)}|x_1,x_2,\cdots,x_t)}\\=\frac{1}{N}\sum^N_{i=1}{f(z^{(i)})}w^{(i)}\\=\sum^N_{i=1}{f(z^{(i)})}\hat{w}^{(i)} Ezx[f(z)]=f(z)p(zx)dz=f(z)q(zx)p(zx)q(zx)dz=N1i=1Nf(z(i))q(z(i)x1,x2,,xt)p(z(i)x1,x2,,xt)=N1i=1Nf(z(i))w(i)=i=1Nf(z(i))w^(i)

    三、重采样(Resampling)

    algorithm:
    前提: t − 1 t-1 t1时刻,采样已经完成,即 w t − 1 ( i ) w_{t-1}^{(i)} wt1(i)已知,
    t t t时刻: for i = 1 , 2 , ⋯   , N i=1,2,\cdots,N i=1,2,,N
    z t ( i ) ∼ q ( z t ∣ z t − 1 , x 1 : t ) w t ( i ) ∝ w t − 1 ( i ) ⋅ p ( x t ∣ z t ( i ) ) ⋅ p ( z t ( i ) ∣ z t − 1 ( i ) ) q ( z t ( i ) ∣ z t − 1 ( i ) , x 1 : t ) z_t^{(i)}\sim q(z_t|z_{t-1},x_{1:t})\\w_t^{(i)}\propto w_{t-1}^{(i)}\cdot \frac{p(x_t|z_t^{(i)})\cdot p(z_t^{(i)}|z_{t-1}^{(i)})}{q(z_t^{(i)}|z_{t-1}^{(i)},x_{1:t})} zt(i)q(ztzt1,x1:t)wt(i)wt1(i)q(zt(i)zt1(i),x1:t)p(xtzt(i))p(zt(i)zt1(i))
    end

    w t ( i ) w_t^{(i)} wt(i)归一化,即 ∑ i = 1 N w t ( i ) = 1 \sum_{i=1}^Nw_t^{(i)}=1 i=1Nwt(i)=1

    问题:权值退化,随着 i i i增大, w t ( i ) w_t^{(i)} wt(i)的权值会接近于 0 0 0.
    方法:

    • 重采样 Resampling
    • 选择一个合适的proposal dist q ( z ) q(z) q(z)

    Basic Particle Filter = SIS + Resampling

    四、SIR Filter

    如何选择一个合适的 q ( z ) q(z) q(z)
    我们一般选择,

    q ( z t ∣ z 1 : t − 1 , x 1 : t ) = p ( z t ∣ z t − 1 ) q(z_t|z_{1:t-1},x_{1:t}) = p(z_t|z_{t-1}) q(ztz1:t1,x1:t)=p(ztzt1)

    此时,

    w t ( i ) = w t − 1 ( i ) ⋅ p ( x t ∣ z t ( i ) ) ⋅ p ( z t ( i ) ∣ z t − 1 ( i ) ) q ( z t ( i ) ∣ z t − 1 ( i ) , x 1 : t ) = w t − 1 ( i ) ⋅ p ( x t ∣ z t ( i ) ) ⋅ p ( z t ( i ) ∣ z t − 1 ( i ) ) p ( z t ( i ) ∣ z t − 1 ( i ) ) = w t − 1 ( i ) ⋅ p ( x t ∣ z t ( i ) ) w_t^{(i)}=w_{t-1}^{(i)}\cdot \frac{p(x_t|z_t^{(i)})\cdot p(z_t^{(i)}|z_{t-1}^{(i)})}{q(z_t^{(i)}|z_{t-1}^{(i)},x_{1:t})}\\=w_{t-1}^{(i)}\cdot \frac{p(x_t|z_t^{(i)})\cdot p(z_t^{(i)}|z^{(i)}_{t-1})}{p(z^{(i)}_t|z^{(i)}_{t-1})}\\=w_{t-1}^{(i)}\cdot p(x_t|z_t^{(i)}) wt(i)=wt1(i)q(zt(i)zt1(i),x1:t)p(xtzt(i))p(zt(i)zt1(i))=wt1(i)p(zt(i)zt1(i))p(xtzt(i))p(zt(i)zt1(i))=wt1(i)p(xtzt(i))

    其中,

    z t ( i ) ∼ p ( z t ∣ z t − 1 ( i ) ) z_t^{(i)}\sim p(z_t|z_{t-1}^{(i)}) zt(i)p(ztzt1(i))

    此算法叫做SIR Filter(Sampling Importance Resampling Filter)= SIS + Resampling+ q ( z ) ⏟ = p ( z t ∣ z t − 1 ) \underset{= p(z_t|z_{t-1})}{\underbrace{q(z)}} =p(ztzt1) q(z)

             \;\;\;\;              g e n e r a t e ⏟ z t = p ( z t ∣ z t − 1 )                  a n d      t e s t ⏟ w t ( i ) = w t − 1 ( i ) ⋅ p ( x t ∣ z t ( i ) ) \;\;\;\;\;\;\underset{z_t= p(z_t|z_{t-1})}{\underbrace{generate}}\;\;\;\;\;\;\;\; and\;\;\underset{w_t^{(i)}=w_{t-1}^{(i)}\cdot \color{blue}p(x_t|z_t^{(i)})}{\underbrace{test}} zt=p(ztzt1) generateandwt(i)=wt1(i)p(xtzt(i)) test

    下一章传送门:白板推导系列笔记(十七)-条件随机场

    展开全文
  • 机器学习-白板推导系列 第一讲:数学基础-概率-高斯分布1-极大似然估计(2020/3/15-20:24) 第二讲:数学基础-概率-高斯分布2-极大似然估计-有偏vs无偏--二维(2020/3/15-21:13) ps(有偏方差比无偏方差小,...
  • 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx在B站上传了一系列关于机器学习的视频,每个部分均是一些比较详细、基础的入门推导,目的是帮...
  • 此文章主要是结合哔站shuhuai008大佬的白板推导视频:谱聚类_84min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一、背景介绍 谱聚类(Spectral Clustering) 首先我们看几个样本集合,尝试采用之前学过的GMM来...
  • 此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记 参考花书20.1 一、介绍 二、Log似然的梯度 三、基于MCMC的随机梯度上升 四、条件概率推导 五、...
  • 机器学习-白板推导 P6_1SVM SVM SVMSVMSVM有三宝: 间隔、对偶、核技巧 SVM={hard−margin&ThickSpace;&ThickSpace;SVMsoft−margin&ThickSpace;&ThickSpace;SVMkernel&ThickSpace;&...
  • [好课推荐]机器学习白板推导系列 觉得有用的话,欢迎一起讨论相互学习~ 讲的很认真,对于初学者来说十分友好!! 本系列主要是对B站up主shuhuai008的机器学习手推系列的整理,下面是视频与对应的github的链接: ...
  • 机器学习--白板推导系列笔记1 开篇

    千次阅读 2019-04-08 19:05:29
  • 机器学习-白板推导系列笔记(汇总36/36)

    千次阅读 多人点赞 2020-12-22 18:38:12
    这是一篇汇总贴 文章主要是结合哔站shuhuai008大佬的白板推导视频:大佬的B站主页 ⋮\vdots⋮ 白板推导系列笔记(十二)-VI 白板推导系列笔记(十三)-MCMC 白板推导系列笔记(十四)-HMM 边看边更… ...
  • 此文章主要是结合哔站shuhuai008大佬的白板推导视频:数学基础_150min 一、概述 假设有以下数据: X=(x1,x1,⋯ ,xN)T=(x1Tx2T⋮xNT)N×pX=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}...
  • 机器学习-白板推导系列 听课手写笔记。推导比《统计学习方法》详细,适合入门者学习。
  • 求边缘概率 P(Yt|X) 做这一步的前提是模型的参数已经确定 (可以认为已经学好了,就是单纯的讲怎么用模型) 也就是说,对于一个输入X,下式已经能顺利得出: 推导过程如下: 因为参数已经确定,也就是说是φ函数是...
  • 此文章主要是结合哔站shuhuai008大佬的白板推导视频:贝叶斯线性回归_81min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一、背景介绍 我们首先回顾一下线性回归,线性回归是最简单的回归问题。 Data:{(xi,yi)}i=...
  • 支持向量机 视频地址 ...非常感谢这位up!真的好感谢!讲的很清楚!膝盖都跪碎了! 感谢b站up主@shuhuai008 P1: 硬间隔SVM - 模型定义(最大间隔分类器) SVM有三宝:间隔,对偶,核技巧 ...1)Hard-Margin SVM 硬间隔SVM ...
  • 7.1.2 核方法 核方法简介 核方法一般都在SVM中进行介绍,白板推导中将其独立出来,主要是为了理解其思想,不只可以用于SVM。 核方法可以理解 Kernel  Method\color{blue}Kernel\;MethodKernelMethod 从思想角度 ...
  • 3.4.2 互补松弛条件 3.4.3 梯度为0 0 笔记说明 来源于【机器学习】【白板推导系列】【合集 1~23】,我在学习时会跟着up主一起在纸上推导,博客内容为对笔记的二次书面整理,根据自身学习需要,我可能会增加必要内容...
  • 白板推导笔记

    2020-02-10 17:09:25
    白板推导 以下笔记地址转载自知乎,作者为轻狂书生 [机器学习基础 02]白板推导 数学基础 - 轻狂书生的文章 - 知乎 https://zhuanlan.zhihu.com/p/88116062 [机器学习基础 01]白板推导 线性回归 - 轻狂书生的文章 - ...
  • 白板推导系列(十四)-HMM一、概述(一)背景(二)HMM的概率图模型(三)两个假设1、齐次马尔可夫假设2、观察独立假设(四)三个问题1、Evaluation2、Learning3、Decoding二、Evaluation问题(一)前向算法(二)后...
  • 此文章主要是结合哔站shuhuai008大佬的白板推导视频:条件随机场_227min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一、背景 对于解决分类任务的模型,根据他的输出,我们可以将其划分为硬分类和软分类两种。 ...
  • 机器学习-白板推导系列
  • 文章目录 0 笔记说明 1 算法收敛性证明 2 公式导出 2.1 ELBO+KL Divergence 2.2 ELBO+Jensen Inequlity 2.3 最后的工作 3 从狭义EM到广义EM 4 广义EM 5 总结 0 笔记说明 来源于【机器学习】【白板推导系列】【合集 1...
  • 本博客为(系列十二)的笔记,对应的视频是:【(系列十二) 变分推断1-背景介绍】、【(系列十二) 变分推断2-公式推导】【(系列十二) 变分推断3-再回首】、【(系列十二) 变分推断4-SGVI-1】、【(系列十二) 变分推断5-...
  • 本人学习过程的所有资源汇总帖子:汇总帖 资源来源: 所学资源来自b站up主shuhuai008的白板推导系列视频:shuhuai008的b站首页 本人笔记: 白板推导系列(1) 绪论 2021.8.1
  • 机器学习-白板推导系列 本系列主要是对B站up主shuhuai008的机器学习手推系列的整理,下面是视频与对应的github的链接: 视频地址: https://www.bilibili.com/video/BV1aE411o7qd/?spm_id_from=333.788.videocard.0 ...
  • B站白板推导系列笔记——高斯分布——等概率线椭圆 先上大佬视频地址: 视频传送门 可能大家在实验中会发现,生成的二维高斯分布的样本大概是呈现圆形或者椭圆的形状,这篇文章总结了这位大佬的视频, 来推导一下,看看...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,235
精华内容 494
关键字:

白板推导