精华内容
下载资源
问答
  • 概率主题模型(PTM——Probabilistic Topic Model) 注:关于为何用Dirichlet分布来假设公式中的两个独立分布,可以参考如下链接博文,博主感觉讲的很到位。 链接:...

    概率主题模型(PTM——Probabilistic Topic Model)
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    注:关于为何用Dirichlet分布来假设公式中的两个独立分布,可以参考如下链接博文,博主感觉讲的很到位。
    链接:http://maider.blog.sohu.com/306392863.html

    展开全文
  • LDA主题模型-概率基础

    2018-11-24 09:39:49
    有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右...列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能...

    1.伯努利实验

    伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。

    2.二项式分布

    二项分布(Binomial Distribution),即重复n次的伯努利试验(Bernoulli Experiment),用ξ\xi(读作xi)表示随机试验的结果。
    如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是
    P(ξ=k)=Cnkpk(1p)nkP(\xi=k)=C_{n}^{k}*p^k(1-p)^{n-k}
    期望:
    E(ξ)=npE(\xi)=np
    方差:
    D(ξ)=npqD(\xi)=npq

    3.贝叶斯公式

    参考wiki百科
    贝叶斯公式如下:

    P(AB)=P(BA)P(A)P(B)P(A|B)=\frac{P(B|A)P(A)}{P(B)}
    A和B是事件,且P(B)0P(B)\neq0

    P(AB)P(A|B)是条件概率:B为真时发生事件A的可能性。
    P(BA)P(B|A)同理
    P(A)P(A)P(B)P(B)是相互独立的,被称作边界概率。

    4.伽马函数

    Γ(x)=0tx1etdt\Gamma(x)=\int_{0}^{\infty}t ^{x-1}e^{-t}dt
    这个函数有如下递归性质:
    Γ(x+1)=xΓ(x)\Gamma(x+1)=x\Gamma(x)
    通过分部积分推导:
    Γ(x+1)=0txetdt=0(tx)det=[txet]00etd(tx)=[txet]0+x0et(tx1)dt\Gamma(x+1)=\int_{0}^{\infty}t ^{x}e^{-t}dt \\=\int_{0}^{\infty}(-t ^{x})de^{-t} \\=[\frac{-t^{x}}{e^{t}}]_0^\infty-\int_{0}^{\infty}e^{-t}d(-t ^{x}) \\=[\frac{-t^{x}}{e^{t}}]_0^\infty+x\int_{0}^{\infty}e^{-t}(t ^{x-1})dt
    x=0x=0时,0ne0=01=0\frac{-0^n}{e^0}=\frac{0}{1}=0
    xx趋于无穷大时,根据洛必达法则,有:
    limttxet=limtx!0et=0\lim\limits_{t \to \infty}\frac{-t^x}{e^t} \\=\lim\limits_{t \to \infty}\frac{-x!\cdot0}{e^t} \\=0

    5.β分布

    参考wiki百科:https://en.wikipedia.org/wiki/Beta_distribution
    公式如下:
    f(x;α,β)=constantxα1(1x)β1.=xα1(1x)β101(uα1(1u)β1)du.=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1.=1B(α,β)xα1(1x)β1f(x;\alpha,\beta)=constant\cdot x^{\alpha-1}(1-x) ^{\beta-1} \\. \\=\frac{x^{\alpha-1}(1-x) ^{\beta-1}}{\int_{0}^{1}(u ^{\alpha-1}(1-u) ^{\beta-1})du} \\. \\=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1}(1-x) ^{\beta-1} \\ \\. \\=\frac{1}{B(\alpha,\beta)} x^{\alpha-1}(1-x) ^{\beta-1}

    概率分布函数
    参考“LDA数学八卦”中的例子:
    \qquad 统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝,运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了,撒旦说:“你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。”你应该怎么猜呢?
    \qquad 从数学的角度抽象一下,上面这个游戏描述如下:
    1:X1,X2, ,XniidUniform(0,1)X_1,X_2,\cdots,X_n {\stackrel{\mathrm{iid}}{\sim}} Uniform(0,1)
    2:把这nn个随机变量排序后得到顺序统计量 (X(1),X(2) ,X(n))(X_{(1)},X_{(2)},\cdots, X_{(n)}),
    3:问X(k)X_(k) 的分布是什么。
    推导…
    分布的密度函数f(x)=n!(k1)!(nk)!xk1(1x)nkf(x)=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k}
    .
    利用Gamma函数,可以把f(x)f(x)表示为:
    .
    f(x)=Γ(n+1)Γ(k)Γ(nk+1)xα1(1x)β1f(x)=\frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)} x^{\alpha-1}(1-x) ^{\beta-1}
    .
    α=k,β=nk+1\alpha=k,\beta=n-k+1
    .
    于是得到:
    f(x)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1}(1-x) ^{\beta-1}

    所以魔鬼的游戏中,n=10,k=7n=10,k=7这个具体实例中,按照如下的密度分布的峰值去猜测才是最有把握的。

    f(x)=10(6)!(3)!x6(1x)3x[0,1]f(x)=\frac{10!}{(6)!(3)!} x^{6}(1-x) ^{3} x\in[0,1]

    6.二项分布和beta分布

    \qquad 然而即便如此,我们能做到一次猜中的概率也不高,很不幸,你第一次没有猜中,魔鬼微笑着说:“我再仁慈一点,再给你一个机会,你按5下这个机器,你就得到了5个[0,1]之间的随机数,然后我可以告诉你这5个数中的每一个和我的第7大的数相比,谁大谁小,然后你继续猜我手头的第7大的数是多少。”这时候我们应该怎么猜测呢?

    魔鬼的第二个题目,数学上形式化一下,就是
    1.(X1,X2, ,XniidUniform(0,1))(X_1,X_2,\cdots,X_n {\stackrel{\mathrm{iid}}{\sim}}Uniform(0,1)),对应的顺序统计量是(X(1),X(2) ,X(n)(X_{(1)},X_{(2)},\cdots, X_{(n)} 我们要猜测 p=X(k)p=X_{(k)}
    2.Y1,Y2, ,YmiidUniform(0,1)Y_1,Y_2,\cdots,Y_m {\stackrel{\mathrm{iid}}{\sim}}Uniform(0,1), YiY_i中有m1m_1个比pp小,m2m_2个比pp
    3.问 (P(pY1,Y2, ,Ym)(P(p|Y_1,Y_2,\cdots,Y_m)的分布是什么。

    由于p=X(k)p=X_{(k)}X1,X2, ,XnX_1,X_2,\cdots,X_n中是第kk大的,利用YiY_i的信息,我们容易推理得到 p=X(k)p=X_{(k)}X1,X2, ,Xn,Y1,Y2, ,YmiidUniform(0,1)X_1,X_2,\cdots,X_n,Y_1,Y_2,\cdots,Y_m {\stackrel{\mathrm{iid}}{\sim}} Uniform(0,1)m+nm+n个独立随机变量中是第 k+m1k+m_1大的,于是按照上一个小节的推理,此时p=X(k)p=X_{(k)} 的概率密度函数是 (Beta(pk+m1,nk+1+m2)(Beta(p|k+m_1,n-k+1+m_2)。按照贝叶斯推理的逻辑,我们把以上过程整理如下:
    .
    1.p=X(k)p=X_{(k)}是我们要猜测的参数,我们推导出 pp 的分布为f(p)=Beta(pk,nk+1)f(p) = Beta(p|k,n-k+1),称为 pp 的先验分布;
    .
    2.数据YiY_i中有m1m_1个比pp小,m2m_2个比pp大,YiY_i相当于是做了mm次贝努利实验,所以m1m_1 服从二项分布 B(m,p)B(m,p)
    .
    3.在给定了来自数据提供的(m1,m2)(m_1,m_2)的知识后,pp 的后验分布变为 f(pm1,m2)=Beta(pk+m1,nk+1+m2)f(p|m_1,m_2)=Beta(p|k+m_1,n-k+1+m_2)

    我们知道贝叶斯参数估计的基本过程是:

    \qquad \qquad 先验分布 + 数据的知识 = 后验分布

    以上贝叶斯分析过程的简单直观的表述就是

    Beta(pk,nk+1)+Count(m1,m2)=Beta(pk+m1,nk+1+m2)Beta(p|k,n-k+1) + Count(m_1,m_2) = Beta(p|k+m_1,n-k+1+m_2)

    其中 (m1,m2)(m_1,m_2) 对应的是二项分布B(m1+m2,p)B(m_1+m_2,p)的计数。更一般的,对于非负实数α,β\alpha,\beta,我们有如下关系

    Beta(pα,β)+Count(m1,m2)=Beta(pα+m1,β+m2)Beta(p|\alpha,\beta) + Count(m_1,m_2) = Beta(p|\alpha+m_1,\beta+m_2)

    \qquad 这个式子实际上描述的就是Beta-Binomial共轭,此处共轭的意思就是,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta 分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后验分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。

    \qquad 最后我们再回到魔鬼的游戏,如果你按出的5个随机数字中,魔鬼告诉你有2个小于它手中第7大的数,那么你应该

    按照如下概率分布的峰值做猜测是最好的

    Beta(x9,7)=15!(8)!(6)!x8(1x)6x[0,1]Beta(x|9,7) = \frac{15!}{(8)!(6)!}x^{8}(1-x)^{6} \quad x \in [0,1]

    展开全文
  • 潜在狄利克雷分配(LDA)潜在狄利克雷分配(LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。LDA...

    潜在狄利克雷分配(LDA)

    潜在狄利克雷分配(LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

    LDA模型是文本集合的生成概率模型。假设每个文本由话题的一个多项式分布表示,每个话题由单词的一个多项式分布表示,特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。先验分布的导入使LDA能够更好地应对话题模型学习的过拟合现象。

    LDA的文本集合的生成过程如下:首先随机生成一个文本话题分布,之后再该文本的每个位置,依据该文本的话题分布随机生成一个话题,然后在该位置依据该话题的单词分布随机生成一个单词,直至文本的最后一个位置,生成整个文本。重复以上的过程生成所有文本。

    LDA模型是含隐变量的概率图模型。模型中,每个话题的单词分布,每个文本的话题分布,文本的每个位置的话题是隐变量;文本的每个文职的单词是观测变量。LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样和变分EM算法。前者是蒙特卡洛法,后者是近似计算。

    一、狄利克雷分布

    1.分布定义

    多项分布是一种多元离散随机变量的概率分布,是二项分布的扩展。

    假设重复进行n次独立随机试验,每次试验可能出现的结果有k种,第i中结果出现的概率为

    math?formula=p_i,第i种结果出现的次数为

    math?formula=n_i。如果用随机变量

    math?formula=%5Cmathbf%20%7BX%3D%5C%7BX_1%2CX_2%2C%5Cdots%2CX_k%5C%7D%7D,表示试验所有可能结果的次数,其中

    math?formula=%5Cmathbf%20X_i表示第i种结果出现的次数,那么随机变量

    math?formula=%5Cmathbf%20X服从多项分布。

    若元离散随机变量的概率密度为

    math?formula=%5Cbegin%7Baligned%7D%20P(X_1%3Dn_1%2CX_2%3Dn_2%2C%5Cdots%2CX_k%3Dn_k)%3D%5Cfrac%7Bn!%7D%7Bn_1!n_2!%5Cdots%20n_k!%7Dp_1%5E%7Bn_1%7Dp_2%5E%7Bn_2%7D%5Cdots%20p_k%5E%7Bn_k%7D%20%5C%5C%20%3D%5Cfrac%7Bn!%7D%7B%5Cprod_%7Bi%3D1%7D%5Ek%20n_i!%20%7D%20%5Cprod_%7Bk%3D1%7D%5Ek%20p_i%5E%7Bn_i%7D%20%5Cend%7Baligned%7D

    其中

    math?formula=p%3D(p_1%2Cp_2%2C%5Cdots%2Cp_k)%2Cp_i%20%5Cge%200%2Ci%3D1%2C2%2C%5Cdots%2Ck%2C%5Csum_%7Bi%3D1%7D%5Ek%20p_i%20%3D%201%2C%20%5Csum_%7Bi%3D1%7D%5Ek%20n_i%20%3D%20n,,则称随机变量X服从参数为(n,p)的多项分布,记作

    math?formula=X%20%5Csim%20Mult(n%2Cp)

    当试验的次数n为1时,多项分布变成类别分布。类别分布表示试验可能出现的k种结果的概率。显然多先分布包含类别分布。

    2.狄利克雷分布

    狄利克雷分布是一种多元随机变量的概率分布,是贝塔分布的扩展。在贝爷斯学习中,狄利克雷分布作为多项分布的先验概率使用。

    多元连续型随机变量

    math?formula=%5Ctheta%20%3D%20(%5Ctheta_1%2C%5Ctheta_2%2C%5Cdots%2C%5Ctheta_k)的概率密度函数为

    math?formula=p(%5Ctheta%7C%5Calpha)%3D%5Cfrac%7B%5CGamma(%5Csum_%7Bi%3D1%7D%5Ek%20%5Calpha_i)%7D%7B%5Cprod_%7Bi%3D1%7D%5Ek%20%5CGamma(%5Calpha_i)%7D%5Cprod_%7Bi%3D1%7D%5Ek%20%5Ctheta_i%5E%7B%5Calpha_i-1%7D

    其中

    math?formula=%5Csum_%7Bi%3D1%7D%5Ek%20%5CTheta_i%20%3D%201%2C%5CTheta_i%20%5Cge%200%2C%5Calpha%3D(%5Calpha_1%2C%5Calpha_2%2C%5Cdots%2C%5Calpha_k)%20%2C%5Calpha_i%20%3E%200%2Ci%3D1%2C2%2C%5Cdots%2Ck,称随机变量

    math?formula=%5CTheta服从参数为

    math?formula=%5Calpha的狄利克雷分布,记作

    math?formula=%5CTheta%20%5Csim%20Dir(%5Calpha)

    式中

    math?formula=%5CGamma(s)%20%3D%20%5Cint_%7B0%7D%5E%7B%5Cinfty%7D%20x%5E%7Bs-1%7De%5E%7B-x%7D%20ds%2Cs%20%3E%200

    具有以下性质

    math?formula=%5CGamma(s%2B1)%20%3D%20s%5CGamma(s)

    当s是自然数时,有

    math?formula=%5CGamma(s%2B1)%20%3D%20s!

    math?formula=B(a)%20%3D%20%5Cfrac%7B%5Cprod_%7Bi%3D1%7D%5Ek%20%5CGamma(a_i)%7D%7B%5CGamma%20(%5Csum_%7Bi%3D1%7D%5Ek%20a_i)%7D

    则狄利克雷分布的密度函数可以写成

    math?formula=p(%5CTheta%7Ca)%20%3D%20%5Cfrac%7B1%7D%7BB(a)%7D%5Cprod_%7Bk%3D1%7D%5Ek%20%5CTheta%5E%7Ba_i-1%7D

    math?formula=B(a)是规范化因子,称为多元贝塔函数(称为扩展的贝塔函数)。由密度函数性质

    math?formula=%5Cint%20%5Cfrac%7B%5CGamma(%5Csum_%7Bi%3D1%7D%5Ek%20a_i)%7D%7B%5Cprod_%7Bi%3D1%7D%5Ek%20%5CGamma(a_i)%7D%5Cprod_%7Bi%3D1%7D%5Ek%5CTheta%5E%7Ba_i-1%7D%20d%5CTheta%20%3D%5Cfrac%7B%5CGamma(%5Csum_%7Bi%3D1%7D%5Ek%20a_i)%7D%7B%5Cprod_%7Bi%3D1%7D%5Ek%20%5CGamma(a_i)%7D%20%5Cint%20%5Cprod_%7Bi%3D1%7D%5Ek%5CTheta%5E%7Ba_i-1%7D%20%3D1

    math?formula=B(a)%20%3D%20%5Cint%20%5Cprod_%7Bi%3D1%7D%5Ek%20%5CTheta%5E%7Ba_i-1%7D%20d%5CTheta

    二.共轭先验

    狄利克雷有一些重要性质:(1)狄利克雷分布属于指数分布簇(2)狄利克雷分布是多项分布的共轭先验

    贝叶斯学习中常使用共轭分布,如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布,先验分布称为共轭先验。如果多项分布的先验分布是狄利克雷分布,作为先验分布的狄利克雷分布的参数又称为超参数,使用共轭先验分布的好处是便于从先验分布计算后验分布。

    将样本数据表示为D,目标是计算样本数据D给定条件下参数

    math?formula=%5CTheta的后验概率

    math?formula=p(%5CTheta%7CD),对于给定样本数据D,似然函数是

    math?formula=p(D%7C%5Ctheta)%3D%5Ctheta_1%5E%7Bn_1%7D%5Ctheta_2%5E%7Bn_2%7D%5Cdots%5Ctheta_k%5E%7Bn_k%7D%3D%5Cprod_%7Bi%3D1%7D%5Ek%5Ctheta_i%5E%7Bn_i%7D

    假设随机变量

    math?formula=%5Ctheta服从狄利克雷分布

    math?formula=p(%5Ctheta%7Ca)其中

    math?formula=a%3D(a_1%2Ca_2%2C%5Cdots%2Ca_k)为参数,则

    math?formula=%5Ctheta的先验分布为

    math?formula=p(%5Ctheta%7Ca)%3D%5Cfrac%7B%5CGamma(%5Csum_%7Bi%3D1%7D%5Ek%20a_i)%7D%7B%5Cprod_%7Bi%3D1%7D%5Ek%20%5CGamma(a_i)%7D%5Cprod_%7Bi%3D1%7D%5Ek%20%5Ctheta%5E%7Ba_i-1%7D%3D%5Cfrac%7B1%7D%7BB(a)%7D%5Cprod_%7Bi%3D1%7D%5Ek%20%5Ctheta_i%5E%7Ba_i-1%7D%20%3D%20Dir(%5Ctheta%7Ca)%2Ca%3E0

    根据贝爷斯规则,在给定样本数据D和参数a的条件下,

    math?formula=%5Ctheta的后验概率分布是

    math?formula=%5Cbegin%7Baligned%7D%20p(%5Ctheta%7CD%2Ca)%20%3D%20%5Cfrac%7Bp(D%7C%5Ctheta)p(%5Ctheta%7Ca)%7D%7Bp(D%7C%5Calpha)%7D%20%5C%5C%20%3D%5Cfrac%7B%5Cprod_%7Bi%3D1%7D%5Ek%20%5Ctheta_i%5E%7Bn_i%7D%5Cfrac%7B1%7D%7BB(a)%7D%5Ctheta_i%5E%7Ba_i-1%7D%7D%7B%5Cint%20%5Cprod_%7Bi%3D1%7D%5Ek%20%5Ctheta_i%5E%7Bn_i%7D%5Cfrac%7B1%7D%7BB(a)%7D%5Ctheta_i%5E%7Ba_i-1%7Dd%5Ctheta%7D%20%5C%5C%20%3D%5Cfrac%7B1%7D%7BB(a%2Bn)%7D%5Cprod_%7Bi%3D1%7D%5Ek%20%5Ctheta_i%5E%7Ba_i%2Bn_i%2B1%7D%20%5C%5C%20%3DDir(%5Ctheta%7Ca%2Bn)%20%5Cend%7Baligned%7D

    狄利克雷的后验分布等于狄利克雷分布参数

    math?formula=a%3D(a_1%2Ca_2%2C%5Cdots%2Ca_k)加上多项分布的观测技术

    math?formula=n%3D(n_1%2Cn_2%2C%5Cdots%2Cn_k)

    三、潜在狄利克雷分配模型

    1.基本想法

    潜在狄利克雷分配(LDA)是文本集合的生成概率模型。模型假设话题由单词的多项分布表示,文本由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布。文本内容的不同时由于话题分布不同。

    LDA模型表示文本集合的自动生成过程:首先,基于单词分布的先验分布(狄利克雷分布)生成多个单词分布,即决定多个话题内容;之后基于话题分布的先验分布(狄利克雷分布)生成多个话题分布,针对每个话题,基于话题的单词分布生成单词,整体构成一个单词序列,即生成文本,重复这个过程生成所有文本。文本的单词序列是观测变量,文本的话题序列是隐变量,文本的话题分布和话题的单词分布也是隐变量。

    可以认为LDA是PLSA的扩展,相同点都假设话题是单词的多项分布,文本是华话题的多项分布。不同点LDA使用狄利克雷分布作为先验,而PLSA不使用先验分布(或者说假设先验分布为均匀分布),两者对文本生成过程有不同假设;学习过程LDA基于贝叶斯学习,PLSA基于极大似然估计。LDA的优点是,使用先验概率分布,可以防止学习过程中产生过拟合。

    2.模型定义

    (a)模型要素

    使用三个集合:一是单词集合

    math?formula=W%3D%5C%7Bw_1%2C%5Cdots%2Cw_v%2C%5Cdots%2Cw_V%5C%7D,其中

    math?formula=w_v是第v个单词,

    math?formula=v%3D1%2C2%2C%5Cdots%2CV,V是单词个数。二是文本集合

    math?formula=D%3D%5C%7B%5Cmathbf%7Bw_1%2C%5Cdots%2Cw_m%2C%5Cdots%2Cw_M%7D%5C%7D,其中

    math?formula=%5Cmathbf%20w_m%3D%20%5C%7Bw_%7Bm1%7D%2C%5Cdots%2Cw_%7Bmn%7D%2C%5Cdots%2Cw_mN_m%5C%7D,其中

    math?formula=w_%7Bmn%7D是文本

    math?formula=%5Cmathbf%20w_m的第n个单词,

    math?formula=n%3D1%2C2%2C%5Cdots%2CN_m

    math?formula=N_m是文本

    math?formula=%5Cmathbf%20w_m中单词个数。三是话题集合

    math?formula=Z%3D%5C%7Bz_1%2C%5Cdots%2Cz_k%2C%5Cdots%2Cz_K%5C%7D,其中,

    math?formula=z_k是第k个话题,

    math?formula=k%3D1%2C2%2C%5Cdots%2CK,K是话题的个数。

    每一个话题

    math?formula=z_k是由一个单词的条件概率分布

    math?formula=p(w%7Cz_k)决定的,

    math?formula=w%5Cin%20W。分布

    math?formula=p(w%7Cz_k)服从多项分布(严格意义上类别分布),其参数为

    math?formula=%5Cvarphi_k。参数

    math?formula=%5Cvarphi是V维向量

    math?formula=%5Cvarphi_k服从狄利克雷分布(先验分布),其超参数为

    math?formula=%5Cbeta。参数

    math?formula=%5Cvarphi_k%3D(%5Cvarphi_%7Bk1%7D%2C%5Cvarphi_%7Bk2%7D%5Cdots%2C%5Cvarphi_%7BkV%7D),其中

    math?formula=%5Cvarphi_%7Bkv%7D表示

    math?formula=z_k生成单词

    math?formula=w_v的概率。所有话题的参数向量构成

    math?formula=K*V矩阵,

    math?formula=%5Cmathbf%20%5Cvarphi%20%3D%20%5C%7B%5Cvarphi%5C%7D_%7Bk%3D1%7D%5EK,超参数

    math?formula=%5Cbeta也是V维向量

    math?formula=%5Cbeta%20%3D%20(%5Cbeta_1%2C%5Cbeta_2%2C%5Cdots%2C%5Cbeta_V)

    每一个文本

    math?formula=%5Cmathbf%20w_m由一个话题的条件概率分布

    math?formula=p(z%7C%5Cmathbf%20w_m)决定,

    math?formula=z%20%5Cin%20Z,分布

    math?formula=p(z%7C%5Cmathbf%20w_m)服从多项分布(严格意义上的类别分布),其参数为

    math?formula=%5Ctheta_m,参数

    math?formula=%5Ctheta_m服从狄利克雷分布(先验分布),其超参数为a。参数

    math?formula=%5Ctheta_m是K维向量

    math?formula=%5Ctheta_m%20%3D%20(%5Ctheta_%7Bm1%7D%2C%5Ctheta_%7Bm2%7D%2C%5Cdots%2C%5Ctheta_%7BmK%7D),其中

    math?formula=%5Ctheta_m%3D(%5Ctheta_%7Bm1%7D%2C%5Ctheta_%7Bm2%7D%2C%5Cdots%2C%5Ctheta_%7BmK%7D),其中

    math?formula=%5Ctheta_%7Bmk%7D表示文本

    math?formula=%5Cmathbf%20w_m生成话题

    math?formula=z_k的概率。所有文本构成参数构成一个M*K矩阵

    math?formula=%5Ctheta%20%3D%20%5C%7B%5Ctheta_m%5C%7D_%7Bm%3D1%7D%5EM,超参数a也是一个K维向量

    math?formula=a%3D(a_1%2Ca_2%2C%5Cdots%2Ca_K)

    每一个文本

    math?formula=%5Cmathbf%20w_m中的每一个单词

    math?formula=w_%7Bmn%7D由该文本的话题分布

    math?formula=p(z%7C%5Cmathbf%20w_m)以及所有话题的单词分布

    math?formula=p(w%7Cz_k)决定

    (b)概率图模型

    LDA本质上是一个概率图模型,图为LDA作为概率图模型的板块表示,图中结点表示随机变量,实心结点是观测变量,空心结点是隐变量;有向边表示概率依存关系;矩形(板块)内数字表示重复的次数。

    09bc46ffdac6

    images.png

    结点

    math?formula=a%2C%5Cbeta表示模型的超参数,结点

    math?formula=%5Cvarphi_k表示话题的单词分布的参数,结点

    math?formula=%5Ctheta_m表示文本的话题分布的参数,结点

    math?formula=z_%7Bmn%7D表示话题,结点

    math?formula=w_%7Bmn%7D表示单词。结点

    math?formula=%5Cbeta指向结点

    math?formula=%5Cvarphi_k,重复K次,表示根据超参数

    math?formula=%5Cbeta生成K个话题的单词分布参数

    math?formula=%5Cvarphi_k;结点a指向结点

    math?formula=%5Ctheta_m,重复M次,表示根据超参数a生成M个文本的话题分布参数

    math?formula=%5Ctheta_m;结点

    math?formula=%5Ctheta_m指向

    math?formula=z_%7Bmn%7D,重复N词,表示根据文本的话题分布

    math?formula=%5Ctheta_m生成

    math?formula=N_m个话题

    math?formula=z_%7Bmn%7D;结点

    math?formula=z_%7Bmn%7D指向结点

    math?formula=w_%7Bmn%7D,同时K个结点

    math?formula=%5Cvarphi_k也指向结点

    math?formula=w_%7Bmn%7D,表示根据话题

    math?formula=z_%7Bwn%7D以及K个话题的单词

    math?formula=%5Cvarphi_k生成单词

    math?formula=w_%7Bmn%7D。LDA是相同的随机参数被重复多次使用的概率图模型。

    四、算法

    潜在狄利克雷分配(LDA)的学习(参数估计)是一个复杂的最优化问题,很难精确求解。常用近似求解的方法有吉布斯抽样和变分推理

    1.LDA的吉布斯抽样算法

    吉布斯抽样的优点是实现简单,缺点是迭代次数可能较多。

    (a)基本想法

    LDA模型的学习,给定文本(单词序列)的集合

    math?formula=D%3D%5C%7B%5Cmathbf%7Bw_1%2C%5Cdots%2Cw_m%2C%5Cdots%2Cw_M%7D%5C%7D,其中

    math?formula=%5Cmathbf%20w_m是第m个文本集合的单词序列,即

    math?formula=%5Cmathbf%20w%20%3D%20(w_%7Bm1%7D%2Cw_%7Bm2%7D%2C%5Cdots%2Cw_%7Bmn%7D%2C%5Cdots%2Cw_%7BmN%7D),超参数

    math?formula=a%2C%5Cbeta已知。目标是要推断

    话题序列集合的后验概率

    参数

    math?formula=%5Ctheta

    参数

    math?formula=%5Cvarphi

    要对联合概率分布

    math?formula=p(w%2Cz%2C%5Ctheta%2C%5Cvarphi%7Ca%2C%5Cbeta)进行估计,其中w是观测变量,而

    math?formula=z%2C%5Ctheta%2C%5Cvarphi是隐变量。

    吉布斯抽样,是一种常用的马尔科夫链蒙特卡罗法。为了估计多元随机变量x的联合概率分布p(x),吉布斯抽样法选择x的一个分量,固定其他分量,按照其条件概率分布进行随机抽样,一次循环对每一个分量执行这个操作,得到联合分布p(x)的一个随机样本,重复这个过程,在燃烧期后,得到联合概率分布p(x)的样本集合。

    LDA模型采通常采取收缩的吉布斯抽样方法,基本想法是,通过对隐变量

    math?formula=%5Ctheta%2C%5Cvarphi积分,得到边缘概率分布

    math?formula=p(w%2Cz%7Ca%2C%5Cbeta)(也是联合分布),其中w是可观测变量,z是不可观测的。对后验概率分布

    math?formula=p(z%7Cw%2Ca%2C%5Cbeta)进行吉布斯抽样,得到分布

    math?formula=p(z%7Cw%2Ca%2C%5Cbeta)的样本集合;再利用这个样本集合对参数

    math?formula=%5Ctheta

    math?formula=%5Cvarphi进行估计,最终得到模型

    math?formula=p(w%2Cz%2C%5Ctheta%2C%5Cvarphi%7Ca%2C%5Cbeta)所有的参数估计。

    (b)算法的主要部分

    (1)抽样分布表达式

    math?formula=p(z%7Cw%2Ca%2C%5Cbeta)%3D%5Cfrac%7Bp(w%2Cz%7Ca%2C%5Cbeta)%7D%7Bp(w%7Ca%2C%5Cbeta%7D%20%5Cpropto%20p(w%2Cz%7Ca%2C%5Cbeta)

    这里变量

    math?formula=w%2Ca%2C%5Cbeta是已知的,分母相同,可以不预考虑。联合概率分布

    math?formula=p(z%2Cw%7Ca%2C%5Cbeta)的表达式可以进一步分解为

    math?formula=p(w%2Cz%7Ca%2C%5Cbeta)%20%3D%20p(w%7Cz%2Ca%2C%5Cbeta)p(z%7Ca%2C%5Cbeta)%3Dp(w%7Cz%2C%5Cbeta)p(z%7Ca)

    两个因子可以分别处理

    推导第一个因子

    math?formula=p(w%7Cz%2C%5Cbeta)的表达式

    math?formula=p(w%7Cz%2C%5Cvarphi)%3D%5Cprod_%7Bk%3D1%7D%5EK%5Cprod_%7Bv%3D1%7D%5EV%5Cvarphi_%7Bkv%7D%5E%7Bn_%7Bkv%7D%7D

    其中

    math?formula=%5Cvarphi_%7Bkv%7D是k个话题生成单词集合第v个单词的概率,

    math?formula=n_%7Bkv%7D是数据中第k个话题生成第v个单词的次数。

    math?formula=%5Cbegin%7Baligned%7D%20p(w%7Cz%2C%5Cbeta)%3D%5Cint%20p(w%7Cz%2C%5Cvarphi)p(%5Cvarphi%7C%5Cbeta)d%20%5Cvarphi%20%5C%5C%20%3D%5Cint%20%5Cprod_%7Bk%3D1%7D%5EK%5Cfrac%7B1%7D%7BB(%5Cbeta)%7D%5Cprod_%7Bv%3D1%7D%5EV%20%5Cvarphi_%7Bkv%7D%5E%7Bn_%7Bkv%7D%2B%5Cbeta_v-1%7Dd%5Cvarphi%20%5C%5C%20%3D%5Cprod_%7Bk%3D1%7D%5EK%5Cfrac%7B1%7D%7BB(%5Cbeta)%7D%5Cint%5Cprod_%7Bv%3D1%7D%5EV%20%5Cvarphi_%7Bkv%7D%5E%7Bn_%7Bkv%7D%2B%5Cbeta_v-1%7Dd%5Cvarphi%20%5C%5C%20%3D%5Cprod_%7Bk%3D1%7D%5EK%20%5Cfrac%7BB(n_k%2B%5Cbeta)%7D%7BB(%5Cbeta)%7D%20%5Cend%7Baligned%7D

    其中

    math?formula=n_k%20%3D%20%5C%7Bn_%7Bk1%7D%2Cn_%7Bk2%7D%2C%5Cdots%2Cn_%7BkV%7D%5C%7D

    第二个因子

    math?formula=p(z%7Ca)的表达式也可以类似推导。首先

    math?formula=p(z%7C%5Cbeta)%20%3D%20%5Cprod_%7Bm%3D1%7D%5EM%5Cprod_%7Bk%3D1%7D%5EK%20%5Ctheta_%7Bmk%7D%5E%7Bn_%7Bmk%7D%7D

    其中

    math?formula=%5Ctheta_%7Bmk%7D是第m个文本生成第k个话题的概率,

    math?formula=n_%7Bmk%7D是数据根据第m个文本生成的第k个话题,于是

    math?formula=%5Cbegin%7Baligned%7D%20p(z%7Ca)%3D%5Cint%20p(z%7C%5Ctheta)p(%5Ctheta%7Ca)d%5Ctheta%20%5C%5C%20%3D%5Cint%20%5Cprod_%7Bm%3D1%7D%5EM%20%5Cfrac%7B1%7D%7BB(a)%7D%5Cprod_%7Bk%3D1%7D%5EK%20%5Ctheta_%7Bmk%7D%5E%7Bn_%7Bmk%7D%2Ba_k-1%7Dd%5Ctheta%20%5C%5C%20%3D%20%5Cprod_%7Bm%3D1%7D%5EM%20%5Cfrac%7B1%7D%7BB(a)%7D%5Cint%20%5Cprod_%7Bk%3D1%7D%5EK%20%5Ctheta_%7Bmk%7D%5E%7Bn_%7Bmk%7D%2Ba_k-1%7Dd%5Ctheta%20%5C%5C%20%3D%5Cprod_%7Bm%3D1%7D%5EM%20%5Cfrac%7BB(n_m%2Ba)%7D%7BB(a)%7D%20%5Cend%7Baligned%7D

    式中

    math?formula=n_m%20%3D%5C%7Bn_%7Bm1%7D%2Cn_%7Bm2%7D%2C%5Cdots%2Cn_%7BmK%7D%5C%7D,可得

    math?formula=p(z%2Cw%7Ca%2C%5Cbeta)%3D%5Cprod_%7Bk%3D1%7D%5EK%5Cfrac%7BB(n_k%2B%5Cbeta)%7D%7BB(%5Cbeta)%7D*%5Cprod_%7Bm%3D1%7D%5EM%5Cfrac%7BB(n_m%2Ba)%7D%7BB(a)%7D

    (2)算法的后处理

    通过吉布斯抽样得到的分布

    math?formula=p(z%7Cw%2Ca%2C%5Cbeta)的样本,可以得到变量z的分配值,也可以估计变量

    math?formula=%5Ctheta%2C%5Cvarphi

    参数

    math?formula=%5Ctheta%3D%5C%7B%5Ctheta_m%5C%7D

    根据LDA表达式,后验概率满足

    math?formula=p(%5Ctheta_m%7Cz_m%2Ca)%20%3D%20%5Cfrac%7B1%7D%7BZ_%7B%5Ctheta_m%7D%7D%5Cprod_%7Bn%3D1%7D%5EN%20p(z_%7Bmn%7D%7C%5Ctheta_m)P(%5Ctheta_m%7Ca)%3DDir(%5Ctheta_m%7Cn_m%2Ba)

    这里

    math?formula=n_%7Bm%7D%3D%5C%7Bn_%7Bm1%7D%2Cn_%7Bm2%7D%2C%5Cdots%2Cn_%7BmK%7D%5C%7D是第m个文本话题的计数。

    math?formula=Z_%7B%5Ctheta_m%7D表示分布

    math?formula=p(%5Ctheta_m%2Cz_m%7Ca)对变量

    math?formula=%5Ctheta_m的边缘化因子。于是得到参数

    math?formula=%5Ctheta_m%3D%5C%7B%5Ctheta_m%5C%7D的估计式

    math?formula=%5Ctheta_%7Bmk%7D%20%3D%20%5Cfrac%7Bn_%7Bmk%7D%2Ba_k%7D%7B%5Csum_%7Bk%3D1%7D%5EK%20(n_%7Bmk%7D%2Ba_k)%7D%2Cm%3D1%2C2%2C%5Cdots%2CM%3Bk%3D1%2C2%2C%5Cdots%2CK

    参数

    math?formula=%5Cvarphi%20%3D%5C%7B%5Cvarphi_k%5C%7D

    后验概率满足

    math?formula=p(%5Cvarphi_k%7Cw%2Cz%2C%5Cbeta)%20%3D%20%5Cfrac%7B1%7D%7BZ_%7B%5Cvarphi_k%7D%7D%5Cprod_%7Bi%3D1%7D%5EIp(w_i%7C%5Cvarphi_k)p(%5Cvarphi_k%7C%5Cbeta)%3DDir(%5Cvarphi_k%7Cn_k%2B%5Cbeta)

    这里

    math?formula=n_k%3D%5C%7Bn_%7Bk1%7D%2Cn_%7Bk2%7D%2C%5Cdots%2Cn_%7BkV%7D%5C%7D是第k个话题单词的计数,

    math?formula=Z_%7B%5Cvarphi_k%7D表示分布

    math?formula=p(%5Cvarphi_k%2Cw%7Cz%2C%5Cbeta)对变量

    math?formula=%5Cvarphi_k的边缘化因子,I是文本集合单词序列w的单词总数,于是得到参数

    math?formula=%5Cvarphi_%7Bkv%7D%3D%5Cfrac%7B%5Cvarphi_%7Bkv%7D%2B%5Cbeta_v%7D%7B%5Csum_%7Bv%3D1%7D%5EV(n_%7Bkv%7D%2B%5Cbeta_v%7D%2Ck%3D1%2C2%2C%5Cdots%2CK%3Bv%3D1%2C2%2C%5Cdots%2CV

    2.LDA的变分EM算法

    (a)变分推理

    变分推理是贝叶斯学中常用的,含隐变量模型的学习和推理方法。变分推理和马尔科夫蒙特卡洛(MCMC)属于不同的技巧。MCMC通过随机抽样的方法近似统计模型的后验概率,变分推理则通过解析的方法计算模型的后验概率。

    变分推理的基本想法如下,假设模型是联合桂林分布

    math?formula=p(x%2Cz),其中x是观测变量,z是隐变量,包括参数。目标是学习模型的后验概率分布p(z|x),用模型进行概率推理。但这是一个复杂的分布,直接估计分布的参数很困难,所以考虑使用概率分布q(z)近似条件桂林分布p(z|x),用KL散度D(q(z))||p(z|x))计算两者的相似度,q(z)称为变分分布。如果能找到与p(z|x)在KL散度意义下的近似分布

    math?formula=q%5E*(z),则可以用这个分布近似p(z|x)

    KL散度可以写成以下形式

    math?formula=%5Cbegin%7Baligned%7D%20D(q(z)%7C%7Cp(z%7Cx))%20%3D%20E_q%5Blog%20%5Cspace%20q(z)%5D-E_q%5Blog%5Cspace%20p(z%7Cx)%5D%5C%5C%20%3DE_q%5Blog(q(z)%5D-E_q%5Blog%5Cspace%20p(x%2Cz)%5D%2Blog%20%5Cspace%20p(x)%20%5Cend%7Baligned%7D

    (b)变分EM算法

    将变分EM算法应用到LDA模型的学习上,首先定义具体的变分分布,推导证据下界的表达式,接着推导变分分布的参数和LDA模型的参数的估计形式,最后给出LDA模型的变分EM算法

    (1).变分下界的定义

    文本的单词序列

    math?formula=%5Cmathbf%20w%20%3D%20%5C%7Bw_1%2Cw_2%2C%5Cdots%2Cw_N%5C%7D,对应的话题序列

    math?formula=%5Cmathbf%20z%20%3D%20%5C%7Bz_1%2Cz_2%2C%5Cdots%2Cz_N%5C%7D,以及话题分布

    math?formula=%5Ctheta,和随机变量

    math?formula=%5Cmathbf%7Bw%2Cz%7D%E5%92%8C%5Ctheta的联合概率分布是

    math?formula=p(%5Ctheta%2Cz%2Cw%7Ca%2C%5Cvarphi)%3Dp(%5Ctheta%7Ca)%5Cprod_%7Bn%3D1%7D%5ENp(z_n%7C%5Ctheta)p(w_n%7Cz_n%2C%5Cvarphi)

    定义基于平均场的变分分布

    math?formula=q(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)%3Dq(%5Ctheta%7C%5Cgamma)%5Cprod_%7Bn%3D1%7D%5ENq(z_n%7C%5Ceta_n)

    其中

    math?formula=%5Cmathbf%20w是可观测变量,

    math?formula=%5Ctheta%2Cz是隐变量,

    math?formula=a%2C%5Cvarphi是参数

    定义基于平均场的变分分布

    math?formula=q(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)%3Dq(%5Ctheta%7C%5Cgamma)%5Cprod_%7Bn%3D1%7D%5EN%20q(z_n%7C%5Ceta_n)

    其中

    math?formula=%5Cgamma是狄利克雷分布参数,

    math?formula=%5Ceta%3D(%5Ceta_1%2C%5Ceta_2%2C%5Cdots%2C%5Ceta_n)是多项分布参数,变量

    math?formula=%5Ctheta%E5%92%8Cz的各个分量都是条件独立的,目标是求KL散度意义下最相近的变分分布

    math?formula=p(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)以及近似LDA模型的后验概率分布

    math?formula=p(%5Ctheta%2Cz%7Cw%2Ca%2C%5Cvarphi)

    09bc46ffdac6

    inference_graphic_model.png

    变分分布的板块表示,LDA模型中隐变量之间不存在依存关系,变分分布中这些依存关系被去掉,变量条件独立

    由此可得到一个文本的证据下界

    math?formula=L(%5Cgamma%2C%5Ceta%2Ca%2C%5Cvarphi)%3DE_q%5Blog%20%5Cspace%20p(%5Ctheta%2Cz%2Cw%7Ca%2C%5Cvarphi)%5D-E_q(log%20%5Cspace%20q(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)%5D

    所有文本的证据下界为

    math?formula=L_w(%5Cgamma%2C%5Ceta%2Ca%2C%5Cvarphi)%3D%5Csum_%7Bm%3D1%7D%5EM%5C%7BE_q%5Blog%20%5Cspace%20p(%5Ctheta_m%2Cz_m%2Cw_m%7Ca%2C%5Cvarphi)%5D-E_%7Bq_m%7D%5Blog%5Cspace%20p(%5Ctheta_m%2Cz_m%7C%5Cgamma_m%2C%5Ceta_m)%5D%5C%7D

    为了求证据下界

    math?formula=L(%5Cgamma%2C%5Ceta%2Ca%2C%5Cvarphi)的最大化,首先写出证据下界的表达式。为此展开证据下界表达式

    math?formula=L(%5Cgamma%2C%5Ceta%2Ca%2C%5Cvarphi)%3DE_q%5Blog%20%5Cspace%20p(%5Ctheta%7Ca)%5D%2BE_q%5Blog%20%5Cspace%20(z%7C%5Ctheta)%2BE_q%20%5Blog%20%5Cspace%20p(w%7Cz%2C%5Cvarphi)%5D-E_q%5Blog%20%5Cspace%20q(%5Ctheta%7C%5Cgamma)-E_q%5Blog%20%5Cspace%20q(z%7C%5Ceta)%5D

    根据变分参数

    math?formula=%5Cgamma%E5%92%8C%5Ceta,模型参数

    math?formula=a%2C%5Cvarphi继续展开,并将展开式的每一项写成一行

    math?formula=%5Cbegin%7Baligned%7D%20L%20(%5Cgamma%2C%5Ceta%2Ca%2C%5Cvarphi)%20%3D%20log%20%5CGamma%20%5Cbigg(%5Csum_%7Bk%3D1%7D%5EK%20a_l%5Cbigg)-%5Csum_%7Bk%3D1%7D%5EK%20log%20%5CGamma(a_k)%20%2B%5Csum_%7Bk%3D1%7D%5EK(a_k-1)%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l)%5Cbigg)%5Cbigg%5D%2B%20%5C%5C%20%5Csum_%7Bi%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EK%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D%2B%20%5C%5C%20%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EK%5Csum_%7Bv%3D1%7D%5EV%20%5Ceta_%7Bnk%7Dw_n%5Evlog%20%5Cspace%20%5Cvarphi_kv%20-%5C%5C%20log%20%5Cpsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%2B%5Csum_%7Bk%3D1%7D%5EK%20log%20%5CPsi(%5Cgamma_k)-%5Csum_%7Bk%3D1%7D%5EK(%5Cgamma_k-1)%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D-%5C%5C%20%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EKn_%7Bnk%7D%20log%20%5Ceta_%7Bnk%7D%20%5Cend%7Baligned%7D

    math?formula=%5CPsi(a_k)是对数伽马函数,即

    math?formula=%5CPsi(a_k)%3D%5Cfrac%7Bd%7D%7Bd_%7Ba_k%7D%7Dlog%5Cspace%20%5CGamma(a_k)

    第一项推导,求

    math?formula=E_q%5Blog%20%5C%2Cp(%5Ctheta%7Ca)%5D,是关于分布

    math?formula=p(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)的数学期望

    math?formula=E_q%5Blog%5C%2C%20p(%5Ctheta%7Ca)%5D%3D%5Csum_%7Bk%3D1%7D%5EK(a_k-1)E_q%5Blog%20%5C%2C%20%5Ctheta_k%5D%2Blog%5C%2C%20%5CGamma%5Cbigg(%5Csum_%7Bl%3D1%7D%5EKa_l%5Cbigg)-%5Csum_%7Bk%3D1%7D%5EKlog%20%5C%2C%5CGamma(a_k)

    其中

    math?formula=%5Ctheta%20%5Csim%20Dir(%5Ctheta%7C%5Cgamma)

    所以

    math?formula=E_%7Bq(%5Ctheta%7C%5Cgamma)%7Dlog%5C%2C%5Ctheta_k%5D%3D%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)

    故得

    math?formula=E_q%5Blog%5C%2Cp(%5Ctheta%7Ca)%3Dlog%5C%2C%5CGamma%5Cbigg(%5Csum_%7Bk%3D1%7D%5EKa_k%5Cbigg)-%5Csum_%7Bk%3D1%7D%5EKlog%5C%2C%5CGamma(a_k)%2B%5Csum_%7Bk%3D1%7D%5EKlog%5C%2C%5CGamma(a_k)%2B%5Csum_%7Bk%3D1%7D%5EK(a_k-)%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D

    式中

    math?formula=a_k%2C%5Cgamma_k分别表示第k个话题的狄利克雷分布参数

    第二项推导,求

    math?formula=E_q%5Blog%5C%2Cp(z%7C%5Ctheta)%5D是关于分布

    math?formula=q(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)的数学期望

    math?formula=%5Cbegin%7Baligned%7D%20E_q%5Blog%5C%2Cp(z%7C%5Ctheta)%5D%3D%5Csum_%7Bn%3D1%7D%5EN%20E_q%5Blog%5C%2Cp(z_n%7C%5Ctheta)%5D%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5ENE_%7Bq(%5Ctheta%2Cz_n%7C%5Cgamma%2C%5Ceta)%7D%5Blog%5C%2C(z_n%7C%5Ctheta)%5D%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EKq(z_%7Bnk%7D%7C%5Ceta)E_%7Bq(%5Ctheta%7C%5Cgamma)%7D%5Blog%5C%2C%5Ctheta_k%5D%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EK%5Ceta_%7Bnk%7D%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D%20%5Cend%7Baligned%7D

    式中

    math?formula=%5Ceta_%7Bnk%7D表示文档第n个位置的单词由第k个话题产生的概率,

    math?formula=%5Cgamma_k表示第k个话题的狄利克雷分布参数。

    第三项推导,求

    math?formula=E_q%5Blog%5C%2Cp(w%7Cz%2C%5Cvarphi)%5D是关于分布

    math?formula=q(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)的数学期望

    math?formula=%5Cbegin%7Baligned%7D%20E_q%5Blog%5C%2Cp(w%7Cz%2C%5Cvarphi)%5D%3D%5Csum_%7Bn%3D1%7D%5ENE_q%5Blog%5C%2Cp(w_n%7Cz_n%2C%5Cvarphi)%5D%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5ENE_%7Bq(z_n%7C%5Ceta)%7D%5Bloh%5C%2Cp(w_n%7Cz_n%2C%5Cvarphi)%5D%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EKq(z_%7Bnk%7D%7C%5Ceta)log%5C%2Cp(w_n%7Cz_%7Bnk%7D%2C%5Cvarphi)%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EK%20%5Csum_%7Bv%3D1%7D%5EV%20%5Ceta_%7Bnk%20%7Dw_n%5Ev%20log%5C%2C%5Cvarphi_%7Bkv%7D%20%5Cend%7Baligned%7D

    式中

    math?formula=%5Ceta_%7Bnk%7D表示文档第n个位置的单词由第k个话题产生的概率,

    math?formula=w_n%5Ev表示在第n个位置的单词是单词集合的第v个单词时取1,否则取0,

    math?formula=%5Cvarphi_%7Bkv%7D表示第k个话题生成单词集合第v个单词的概率

    第四项推导,求

    math?formula=E_q%5Blog%5C%2Cq(%5Ctheta%7C%5Cgamma)%5D,是关于分布

    math?formula=q(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)的数学期望。由于

    math?formula=%5Ctheta%20%5Csim%20Dir(%5Cgamma),可以得到

    math?formula=E_q%5Blog%20%5C%2Cq(%5Ctheta%7C%5Cgamma)%5D%3Dlog%5C%2C%5CGamma%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_k%5Cbigg)-%5Csum_%7Bk%3D1%7D%5EKlog%5C%2C%5CGamma(%5Cgamma_k)%2B%5Csum_%7Bk%3D1%7D%5EK(%5Cgamma_k-1)%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bk%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D

    式中

    math?formula=%5Cgamma_k表示第k个话题的狄利克雷分布参数

    第五项公式推导,求

    math?formula=E_q%5Blog%5C%2Cq(z%7C%5Ceta)%5D,是关于分布

    math?formula=q(%5Ctheta%2Cz%7C%5Cgamma%2C%5Ceta)的数学期望

    math?formula=%5Cbegin%7Baligned%7D%20E_q%5Blog%5C%2Cq(z%7C%5Ceta)%5D%3D%5Csum_%7Bn%3D1%7D%5EN%5Blog%5C%2Cq(z_n%7C%5Ceta)%5D%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5EN%20E_%7Bq(z_n%7C%5Ceta)%7D%5Blog%5C%2Cq(z_n%7C%5Ceta)%5D%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EKvq(z_%7Bnk%7D%7C%5Ceta)log%5C%2Cq(z_%7Bnk%7D%7C%5Ceta)%5C%5C%20%3D%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EK%5Ceta_%7Bnk%7Dlog%5C%2C%5Ceta_%7Bnk%7D%20%5Cend%7Baligned%7D

    式中

    math?formula=%5Ceta_%7Bnk%7D表示文档第n个位置的单词由第k个话题产生的概率,

    math?formula=%5Cgamma_k表示第k个话题的狄利克雷分布参数

    (2)变分参数

    math?formula=%5Cgamma%E5%92%8C%5Ceta的估计

    首先通过证据下界最优化参数

    math?formula=%5Ceta

    math?formula=%5Ceta_%7Bnk%7D表示第n个位置是由第k个话题生成的概率,

    math?formula=%5Csum_%7Bl%3D1%7D%5EK%5Ceta_%7Bnl%7D%3D1,包含

    math?formula=%5Ceta_%7Bnl%7D的约束条件最优化问题拉格朗日函数为

    math?formula=L_%7B%5B%5Ceta_%7Bnk%7D%5D%7D%3D%5Ceta_%7Bnk%7D%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bk%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D%2B%5Ceta_%7Bnk%7Dlog%5C%2C%5Cvarphi_%7Bkv%7D-%5Ceta_%7Bnk%7Dlog%5C%2C%5Ceta_%7Bnk%7D%2B%5Clambda_n%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Ceta_%7Bnl%7D-1%5Cbigg)

    这里

    math?formula=%5Cvarphi_%7Bkv%7D第在第n个位置由第k个话题生成第v个单词的概率

    math?formula=%5Ceta_%7Bkv%7D求偏导数得

    math?formula=%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20%5Ceta_%7Bnk%7D%7D%3D%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%2Blog%5C%2C%5Cvarphi_%7Bkv%7D-log%5C%2C%5Ceta_%7Bnk%7D-1%2B%20%5Clambda_n

    令偏导数为零,得到参数

    math?formula=%5Ceta_%7Bnk%7D的估计值

    math?formula=%5Ceta_%7Bnk%7D%20%5Capprox%20%5Cvarphi_%7Bkv%7Dexp%5Cbigg(%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg)

    接着通过证据最优化估计参数

    math?formula=%5Cgamma

    math?formula=%5Cgamma_k是第k个话题的狄利克雷分布参数

    math?formula=%5Cbegin%7Baligned%7D%20L_%7B%5B%5Cgamma_k%5D%7D%3D%5Csum_%7Bk%3D1%7D%5EK(a_k-1)%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D%2B%5Csum_%7Bn%3D1%7D%5EN%5Csum_%7Bk%3D1%7D%5EK%5Ceta_%7Bnk%7D%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D-%5C%5C%20%3Dlog%5C%2C%5CGamma%5Cbigg(%5Csum_%7Bk%3D1%7D%5EK%5Cgamma_l%5Cbigg)%2Blog%5C%2C%5CGamma(%5Cgamma_k)-%5Csum_%7Bk%3D1%7D%5EK(%5Cgamma_k-1)%5Cbigg%5B%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D%5C%5C%20%3D%5Csum_%7Bk%3D1%7D%5EK%5Cbigg(%5CPsi(%5Cgamma_k)-%5CPsi%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D%5Cbigg(a_k%2B%5Csum_%7Bn%3D1%7D%5EN%5Ceta_%7Bnk%7D-%5Cgamma_k%5Cbigg)-log%5C%2C%5CGamma%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%2Blog%5C%2C%5CGamma(%5Cgamma_k)%20%5Cend%7Baligned%7D

    math?formula=%5Cgamma求偏导数得

    math?formula=%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20%5Cgamma_k%7D%3D%5Cbigg%5B%5CPsi'(%5Cgamma_k)-%5CPsi'%5Cbigg(%5Csum_%7Bl%3D1%7D%5EK%5Cgamma_l%5Cbigg)%5Cbigg%5D%5Cbigg(a_k%2B%5Csum_%7Bn%3D1%7D%5EN%5Ceta_%7Bnl%7D-%5Cgamma_k%5Cbigg)

    令偏导数为零,解得到参数

    math?formula=%5Cgamma_k的估计值为

    math?formula=%5Cgamma_k%20%3D%20a_k%2B%5Csum_%7Bn%3D1%7D%5EN%5Ceta_%7Bnk%7D

    由此得到坐标上升法算法估计变分参数的方法

    展开全文
  • 本文档详细给出了TOTLDA和LDA两个主题概率模型的参数估计需要用到的后验概率的推导过程,并采用了两种方法,对主题概率模型研究人员具有很好的启发意义!Gibbs Sampling Derivation for LDA and ToT, Han Xiao, Ping...
  • 一、简介隐含狄利克雷分布(LatentDirichletAllocation,简称LDA...一篇文档可以包含多个主题,文档中的每个词都是由某个主题生成的,LDA给出文档属于每个主题的概率分布,同时给出每个主题上词的概率分布。LDA是一种...

    一、简介

    隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)是由DavidM.Blei、AndrewY.Ng、MichaelI.Jordan在2003年提出的,是一种词袋模型,它认为文档是一组词构成的集合,词与词之间是无序的。一篇文档可以包含多个主题,文档中的每个词都是由某个主题生成的,LDA给出文档属于每个主题的概率分布,同时给出每个主题上词的概率分布。LDA是一种无监督学习,在文本主题识别、文本分类、文本相似度计算和文章相似推荐等方面都有应用。

    本文将从贝叶公式、Gamma函数、二项分布、Beta分布、多项式分布、Dirichlet分布、共轭先验分布、马氏链及其平稳分布、MCMC、GibbsSampling、EM算法、UnigramModel、贝叶斯UnigramModel、PLSA、LDA几方面介绍LDA模型,需要读者具备一定的概率论和微积分知识。

    二、基础知识

    ▌1.1贝叶公式

    贝叶斯学派的最基本的观点是:任一个未知量θ都可看作一个随机变量,应该用一个概率分布去描述对θ的未知状况,这个概率分布是在抽样前就有关于θ的先验信息的概率陈述,这个概率分布被称为先验分布。

    从贝叶斯观点看,样本

    7c6e7899fe6fa3880c56ba3a30d4ef55.png的产生要分两步进行,首先设想从先验分布p(θ)产生一个样本θ',这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布p(X|θ')产生一个样本

    2236ef97f80c0a29804697382e5826fc.png,这个样本是具体的,人们能看得到的,此样本X发生的概率是与如下联合密度函数成正比。

    adf38a275536c34ba1941dee5b7722b4.png

    这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为L(θ')。

    由于θ'是设想出来的,它仍然是未知的,它是按先验分布p(θ)产生的,要把先验信息进行综合,不能只考虑θ',而应对θ的一切可能加以考虑,故要用p(θ)参与进一步综合,所以样本X和参数θ的联合分布(三种可用的信息都综合进去了):

    9e71d55f0342ddbd9982edad3e5db672.png

    我们的任务是要对未知数θ作出统计推断,在没有样本信息时,人们只能根据先验分布对θ作出推断。在有样本观察值

    aee10f7b8d1a8d66fa211dca2036adfe.png之后,我们应该依据p(X,θ)对θ作出推断,为此我们把p(X,θ)作如下分解:

    7accd1321273818826de95ac6be53fc9.png

    其中p(X)是X的边缘密度函数。

    ed6831ec426a96d576392c2cb0b4c87c.png

    它与θ无关,p(X)中不含θ的任何信息。因此能用来对θ作出推断的仅是条件分布p(θ|X):

    64a4fffb039819b5673afca7e081c6cd.png

    这就是贝叶斯公式的密度函数形式,在样本X给定下,θ的条件分布被称为θ的后验分布。它是集中了总体、样本和先验等三种信息中有关θ的一切信息,而又是排除一切与θ无关的信息之后得到的结果,故基于后验分布p(θ|X)对θ进行统计推断是更合理的。

    一般说来,先验分布p(θ)是反映人们在抽样前对θ的认识,后验分布p(θ|X)是反映人们在抽样后对θ的认识,之间的差异是由于样本的出现后人们对θ认识的一种调整,所以后验分布p(θ|X)可以看作是人们用总体信息和样本信息(抽样信息)对先验分布p(θ)作调整的结果。下面我们介绍三种估计方法:

    1.最大似然估计(ML)

    最大似然估计是找到参数θ使得样本X的联合概率最大,并不会考虑先验知识,频率学派和贝叶斯学派都承认似然函数,频率学派认为参数θ是客观存在的,只是未知。求参数θ使似然函数最大,ML估计问题可以用下面公式表示:

    f831e715e6b5f474fd79466964c6b099.png

    通常可以令导数为0求得θ的值。ML估计不会把先验知识考虑进去,很容易出现过拟合的现象。我们举个例子,抛一枚硬币,假设正面向上的概率为p,抛了N次,正面出现

    1098adb6178b6f4bac3a6f615d65a99b.png次,反面出现

    6bba9edf0e9f7d197bfeaddef369f7f7.png次,c=1表示正面,c=0表示反面,我们用ML估计:

    046c02c57a8b8711c6cac8ae809bfc25.png

    如果

    a5007892b4b030c74c42949bbd6e4d69.png,

    fb63002bcd82bf09bfd7a15cac641b2c.png,则

    fea48f92f008305aca2047511c709357.png,似乎比我们认知的0.5高了很多。

    2.最大后验估计(MAP)

    MAP是为了解决ML缺少先验知识的缺点,刚好公式(5)后验概率集中了样本信息和先验信息,所以MAP估计问题可以用下面公式表示:

    7a3aa486d9080bad175f0b28c40268bc.png

    MAP不仅希望似然函数最大,还希望自己出现的先验概率也最大,加入先验概率,起到正则化的作用,如果θ服从高斯分布,相当于加一个L2范数正则化,如果θ服从拉普拉斯分布,相当于加一个L1范数正则化。我们继续前面抛硬币的例子,大部分人认为应该等于0.5,那么还有少数人认为p取其他值,我们认为p的取值服从Beta分布。

    a3c03a30153e22b7a7bb919f92665cea.png

    我们取α=5,β=5,即p以最大的概率取0.5,得到

    6bb825db2408b8b5d146519be84fb30d.png

    3.贝叶斯估计

    前面介绍的ML和MAP属于点估计,贝叶斯估计不再把参数θ看成一个未知的确定值,而是看成未知的随机变量,利用贝叶斯定理结合新的样本信息和参数θ的先验分布,来得到θ的新的概率分布(后验分布)。贝叶斯估计的本质是通过贝叶斯决策得到参数θ的最优估计

    b37a67ad4e2713dd65514d8eb35b683a.png,使得贝叶斯期望损失最小。贝叶斯期望损失为:

    123e6f7ba93ae09ad535b42448f95269.png

    3463c35390933cedd5ed1dc63e066108.png是损失函数,我们希望

    a10729e98951c00f560807d81ee838c3.png最小。如果

    fd626600f68988f72117c566b55c7389.png,则:

    2d6060a55fd5746a141308bd1f4dc187.png

    所以贝叶斯估计值为在样本X条件下θ的期望值,贝叶斯估计的步骤为:

    确定参数θ的先验分布P(θ)

    利用贝叶斯公式,求θ的后验分布:

    24889e72c941ab293cca471bb829e7a8.png

    求出贝叶斯的估计值:

    b2f458be0fba19fa556dd28db0be4c91.png

    我们继续前面的抛硬币的例子,后验概率:

    34876bb5c7535aade92ff9f0f03aff6e.png

    其中

    d6ec4ae721eeda7a9ec7e01ea3694435.png,所以可以得:

    56f9f419b1964bf42a98897f4a4191fb.png

    ▌1.2Gamma函数

    527bb774438c74850313e63a0aedfef4.png

    通过分部积分的方法,可以得到一个递归性质。

    7e65cf282a2b9deb7b81cf49f5f51ea3.png

    9c5abfde2083e4f9d08c7e36029c5423.png函数可以当成是阶乘在实数集上的延拓,

    e4097ad5757863a5ae981c34a0370832.png

    ▌1.3二项分布

    在概率论中,试验E只有两个可能结果:A及

    0ff78538ff82db0b84ec70924f8f316e.png,则称E为伯努利(Bernoulli)试验。设p(A)=p,则

    2d24ce6d6864093964ac7bf544ae5036.png。将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验,这里重复是指在每次试验中p(A)=p保持不变,独立是指各次试验的结果互不影响。以X表示n重伯努利试验中事件A发生的次数,称随机变量X服从参数为n,p的二项分布,记为X~B(n,p)。

    410a7b71d591ae9db83f70a635b14fa7.png

    ▌1.4Beta分布

    Beta分布是指一组定义在(0,1)区间的连续概率分布,其概率密度函数是:

    9dad925821e0941a51249bc254cba7a6.png

    1)

    b00dfa53201bb2814790cf61dd108143.png

    证明:

    b215ae87cd9a200cfa97b6d21f104586.png

    令t=x+y,当y=0,t=x;y=∞,t=∞,可得:

    2785bf41111fb4ba1300585f638398c4.png

    令x=μt,可得:

    6110c6c2fd36a920c20365ad6f7d8750.png

    2)期望

    4b38a7864bd2d3398cafc389ab248311.png

    证明:

    14813664f0cde007953e1988a6719ed5.png

    ▌1.5多项式分布

    多项式分布是二项式分布的推广,二项式分布做n次伯努利试验,规定每次试验的结果只有两个,而多项式分布在N次独立试验中结果有K种,且每种结果都有一个确定的概率p,仍骰子是典型的多项式分布。

    fc88376d1593412e52d97e1e78f17ff6.png

    其中

    2f79898357e4850674f48f72ed019107.png

    ▌1.6Dirichlet分布

    Dirichlet分布是Beta分布在高维度上的推广,概率密度函数是:

    71ad15b17f913a92f78f8f5eee12c2c6.png

    ▌1.7共轭先验分布

    在贝叶斯中,如果后验分布与先验分布属于同类分布,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

    1.Beta-Binomial共轭

    1)先验分布

    e4ad41f9e05e87effd21e66c7ef75e33.png

    2)二项式似然函数

    7adae7f3dd2ad414aac1e6a00e2d2fbc.png

    3)后验分布

    d3d266f5d5457762de6dc7a3ba92c026.png

    即可以表达为

    51400c7f4e7742e53cf5255260fc1b34.png

    取一个特殊情况理解

    fe24e92a57b719a767e9cc15b70c0a61.png

    Beta(p|1,1)恰好是均匀分布uniform(0,1),假设有一个不均匀的硬币抛出正面的概率为p,抛出n次后出现正面和反面的次数分别是n1和n2,开始我们对硬币不均匀性一无所知,所以应该假设p~uniform(0,1),当有了试验样本,我们加入样本信息对p的分布进行修正,p的分布由均匀分布变为Beta分布。

    2.Dirichlet-Multinomial共轭

    1)先验分布

    5d2454e620382f38e2e59a3320854f1b.png

    2)多项分布似然函数

    d50ba669e7b44cbe567b81be25fecc7f.png

    3)后验分布

    d253eb7a2e17ae02651bd931f01c8e78.png

    即可以表达为

    eeb10a0de37347cbc7aec3e6ad1f1e94.png

    ▌1.8马氏链及其平稳分布

    马氏链的数学定义很简单,状态转移的概率只依赖于前一个状态。

    32d5da5bceb47459eaa299ac55eedc93.png

    看一个马氏链的具体例子,马氏链表示股市模型,共有三种状态:牛市(Bullmarket)、熊市(Bearmarket)、横盘(Stagnantmarket),每一个转态都以一定的概率转化到下一个状态,如图1.1所示。

    66ef1105e51b9295d0c2031d68ffbed8.png

    图1.1

    这个概率转化图可以以矩阵的形式表示,如果我们定义矩阵P某一位置(i,j)的值为P(j|i),表示从状态i转化到状态j的概率,这样我们可以得到马尔科夫链模型的状态转移矩阵为:

    c395aff8572cd0734a44574cc4e9efb9.png

    假设初始概率分布为

    f69ac920dfb76d0966f130d996f16c6e.png

    从第60轮开始

    d825ce5acf314f7d9e0e704be7c60d25.png的值保持不变,为[0.6250.31250.0625]。我们更改初始概率,

    529915521cc807d0e70db538220274f4.png,从55轮开始

    c3a4aec861f2573f13810e44e7e4a245.png

    的值保持不变,为[0.6250.31250.0625]。两次给定不同的初始概率分布,最终都收敛到概率分布π=[0.6250.31250.0625],也就是说收敛的行为和初始概率分布π0无关,这个收敛的行为主要是由概率转移矩阵P决定的,可以计算下

    f30fa0dec48afdeea0f1816aac68c652.png

    eb62da0fb81a1cb4af6e66747ff090bd.png

    当n足够大的时候,

    7430df423315fb3b1be2de1edf477c10.png矩阵的每一行都是稳定地收敛到π=[0.6250.31250.0625]这个概率分布。这个收敛现象并不是这个马氏链独有的,而是绝大多数马氏链独有的。关于马氏链的收敛有如下定理:

    定理1.1如果一个非周期马氏链具有转移概率矩阵P,且它的任何两个状态是连通的,那么

    2c86a577c448e29f77dcda9e8c99d49f.png存在且与i无关,我们有:

    cf6e0f1e1c77654fb4d7e2f5429ffd67.png

    关于上述定理,给出几点解释:

    1)马氏链的状态数可以是有限的,也可以是无限的,因此可以用于连续概率分布和离散概率分布。

    2)非周期马氏链:马氏链的状态转化不是循环的,如果是循环的则永远不会收敛,我们遇到的一般都是非周期马氏链。对于任意某一状态i,d为集合

    28b1567553e21d7c944c5b38aa66a36b.png的最大公约数,如果d=1,则该状态为非周期。

    3)任何两个状态是连通的:从任意一个状态可以通过有限步到达其他的任意状态,不会出现条件概率一直为0导致不可达的情况。

    4)π称为马氏链的平稳分布。

    如果从一个具体的初始状态x0开始,沿着马氏链按照概率转移矩阵做跳转,那么可以得到一个转移序列

    9334eb1cb2d02641a38e7925b9d8018c.png,由于马氏链的收敛行为,

    26b5a1ae37ffa01e6ef05df9d99c33bf.png都将是平稳分布π(x)的样本。

    ▌1.9MCMC

    1.接受-拒绝采样

    对于不常见的概率分布π(x)样本,使用接受-拒绝采样对可采样的分布q(x)进行采样得到,如图1.2所示,采样得到Mq(x)的一个样本x0,从均匀分布(0,Mq(x0))中采样得到一个值μ0,如果μ0落在图中灰色区域则拒绝这次采样,否则接受样本x0,重复上面过程得到n个接受的样本,则这些样本服从π(x)分布,具体过程见算法1.1。

    028cd5ccf4c78aafc64294b2baf2cf66.png

    图1.2

    13169f6a4b588dc296e0205081653197.png

    下面我们来证明下接受-拒绝方法采样得到的样本服从π(x)分布。

    证明:acceptx服从π(x)分布,即p(x|accept)=π(x)。

    7e7780eef169430c847ada1d2a490d20.png

    2.MCMC

    给定概率分布p(x),希望能够生成它对应的样本,由于马氏链能收敛到平稳分布,有一个很好的想法:如果我们能构造一个转移矩阵为P的马氏链,使得该马氏链的平稳分布恰好是p(x),那么我们从任何一个初始状态出发沿着马氏链转移,得到一个转移序列

    dc425b6ad0e51928fc7685475487435c.png,如果马氏链在第n步已经收敛了,于是我们可以得到p(x)的样本

    28749175b669784e84abab8a7a0b3c48.png,所以关键问题是如何构造转移矩阵,我们是基于下面的定理。

    定理1.2(细致平稳条件)如果非周期马氏链的转移矩阵P和分布π(x)满足:

    4624f8e6f033f6048d26ccb329e71643.png

    则π(x)是马氏链的平稳分布。

    证明很简单,有公式(34)得:

    3a0b9f1337232e6e8e0b706a85bbe3f3.png

    πP=π,满足马氏链的收敛性质。这样我们就有了新的思路寻找转移矩阵P,即只要我们找到矩阵P使得概率分布π(x)满足细致平稳条件即可。

    假设有一个转移矩阵为Q的马氏链(Q(i,j)表示从状态i转移到状态j的概率),通常情况下很难满足细致平稳条件的,即:

    0a635c30198b1acc5756085d1388da09.png

    我们对公式(36)进行改造,使细致平稳条件成立,引入α(i,j)。

    471d8d89c801985208b07c9592f1bd55.png

    α(i,j)如何取值才能使公式(37)成立?最简单的我们可以取:

    697c39c67e82846a0345a8e6753cf258.png

    Q'(i,j)=Q(i,j)α(i,j),Q'(j,i)=Q(j,i)α(j,i),所以我们有:

    9c8e839da5240646f6b6fb5d017c7c75.png

    转移矩阵Q'满足细致平稳条件,因此马氏链Q'的平稳分布就是π(x)!

    我们可以得到一个非常好的结论,转移矩阵Q'可以通过任意一个马氏链转移矩阵Q乘以α(i,j)得到,α(i,j)一般称为接受率,其取值范围为[0,1],可以理解为一个概率值,在原来的马氏链上,从状态i以Q(i,j)的概率跳转到状态j的时候,我们以一定的概率α(i,j)接受这个转移,很像前面介绍的接受-拒绝采样,那里以一个常见的分布通过一定的接受-拒绝概率得到一个不常见的分布,这里以一个常见的马氏链状态转移矩阵Q通过一定的接受-拒绝概率得到新的马氏链状态转移矩阵Q'。

    5e1b33165b8dc4d23d8714d0faa43492.png

    图1.3

    总结下MCMC的采样过程。

    e19c8b1ed177d5a826dcfdb3cc2bd91a.png

    MCMC采样算法有一个问题,如果接受率α(xt,x')比较小,马氏链容易原地踏步,拒绝大量的跳转,收敛到平稳分布π(x)的速度很慢,有没有办法可以使α(xt,x')变大?

    3.M-H采样

    M-H采样可以解决MCMC采样接受概率过低问题,回到公式(37),若α(i,j)=0.1,α(j,i)=0.2,即:

    944a7cd037837d3fb97bc76600ae98e7.png

    公式(40)两边同时扩大5倍,仍然满足细致平稳条件,即:

    4ab0ad69caad93db09dcf9c737b042c6.png

    所以我们可以把公式(37)中的α(i,j)和α(j,i)同比例放大,使得其中最大的放大到1,这样提高了采样中的接受率,细致平稳条件也没有打破,所以可以取:

    7e32404e00d2b0895c2c0e6de8842a99.png

    cf29b033424daf4853f146dfddf076f9.png

    提出一个问题:按照MCMC中介绍的方法把Q→Q',是否可以保证Q'每行加和为1?

    574b7b8a555412a915a9446d0cf5878a.png

    ▌1.10GibbsSampling

    对于高维的情形,由于接受率α≤1,M-H算法效率不够高,我们能否找到一个转移矩阵Q使得接受率α=1呢?从二维分布开始,假设p(x,y)是一个二维联合概率分布,考察某个特征维度相同的两个点A(x1,y1)和B(x1,y2),容易发现下面等式成立:

    c1d487d3ee66bc44a2d4d4e12417f601.png

    所以可得:

    cc8c9a19810aabe4465e3b347e290940.png

    也就是:

    fc1903c7f8a5eb70bc06fa74585e357e.png

    观察细致平稳条件公式,我们发现在x=x1这条直线上,如果用条件分布p(y|x1)作为任何两点之间的转移概率,那么任何两点之间的转移都满足细致平稳条件。同样的,在y=y1这条直线上任取两点A(x1,y1)和C(x2,y1),我们可以得到:

    8a81bdf7ecc95b1aae2884cd7ef9e5f1.png

    c9d1ab5f15968ced00673be13b59a63c.png

    图1.4

    基于上面的发现,我们可以构造分布p(x,y)的马氏链的状态转移矩阵Q。

    803f2dfa5c6b747c85e2054d4d7cce14.png

    有了上面的转移矩阵Q,很容易验证对于平面任意两点X,Y,都满足细致平稳条件。

    4c44fc0da8bce2fddca0f328194c8cb3.png

    所以这个二维空间上的马氏链将收敛到平稳分布p(x,y),称为GibbsSampling算法。

    a158e982a3194d535863d93a983a0815.png

    整个采样过程中,我们通过轮换坐标轴,得到样本(x0,y0),(x0,y1),(x1,y1),...,马氏链收敛后,最终得到的样本就是p(x,y)的样本。当然坐标轴轮换不是必须的,我们也可以每次随机选择一个坐标轴进行采样,在t时刻,可以在x轴和y轴之间随机的选择一个坐标轴,然后按照条件概率做转移。

    770433ae8e46c2f40b0de80cad9ff0a4.png

    图1.5

    二维可以很容易推广到高维的情况,在n维空间中对于概率分布p(x1,x2,...xn)。

    f8d8df598452ef62854262ba3cf156b0.png

    ▌1.11EM算法

    我们先介绍凸函数的概念,f的定义域是实数集,若x∈R且f''(x)≥0,则f是凸函数,若f''(x)>0,则f是严格凸函数;若x是向量且hessian矩阵H是半正定矩阵,则f是凸函数,若H是正定矩阵,则f是严格凸函数。

    定理1.3(Jensen不等式)f的定义域是实数集,且是凸函数,则有:

    b08258392a5f3a56ef1ba3e5436ec7cc.png

    如果f是严格凸函数,只有当X是常量,公式(49)等式成立即E[f(X)]=f(E[X])。

    365863d1ce57558eb817a32d74cc87cf.png

    图1.6

    假设训练集

    71c81b10e67e744e4e2e8b6159f8a4fc.png,每个样本相互独立,我们需要估计模型p(x,z)的参数θ,由于含有隐变量z,所以很难直接用最大似然求解,如果z已知,那么就可以用最大似然求解。

    c4adb60089bbbb9e29db08560f1d06e9.png

    其实我们的目标是找到z和θ使l(θ)最大,也就是分别对Z和θ求偏导,然后令其为0,理想是美好的,现实是残酷的,公式(49)求偏导后变的很复杂,求导前要是能把求和符号从对数函数中提出来就好了。EM算法可以有效地解决这个问题,引入

    71c5b2c87dd83789a675d55a7eddd7be.png表示

    1acc8f8703e9fc6b82250e904901871b.png的概率分布

    7da65376bda55d8e370f544368ff4894.png。由公式(50)可得:

    4aaead79915895879804d26215c1ff80.png

    最后一步是利用Jensen不等式

    88f47b9a62fea1f0f768db6b299eb0cb.png所以f是凹函数,

    28245aef90924366b332183d9bd4fcc7.png

    5e938262943482e774123ee9f8a62743.png

    的期望,所以有:

    eb3bd7ed14667524b00d14f6d37d5516.png

    由公式(51)可知,我们可以不断地最大化下界,以提高l(θ),最终达到最大值。如果固定θ,那么l(θ)的下界就取决于

    7935786a2ea0ff0ba8794e6b71aa459d.png,可以通过调整这个概率,使得下界不断地上升逼近l(θ),最终相等,然后固定

    4ecc4e15d2093b4bdd0061dc3da9d8b8.png,调整θ,使下界达到最大值,此时θ为新的值,再固定θ,调整

    6dae62cbedba38d9732782ae92fb3dcd.png,反复直到收敛到l(θ)的最大值。现在我们有两个问题需要证明,1.下界何时等于l(θ);2.为什么可以收敛到最大值。

    第一个问题,由Jensen不等式定理中等式成立条件可知,X为常量,即:

    44344fa6b377235a64a6ea080c2d747b.png

    再由

    979cf0c00665801c9ad6c75ba477e8ae.png得:

    843121352732e290b727d13c7a0105de.png

    下面我们先给出EM算法,然后再讨论第二个问题,E步:固定θ,根据公式(53)选择Qi使得下界等于l(θ),M步:最大化下界,得到新的θ值。EM算法如下:

    01fa1be2ac271907c4b758de56dbc3ed.png

    在我们开始讨论第二个问题,

    ad80c6fddb558635a3025d0df7c44fb2.png是EM迭代过程的参数估计,我们需要证明

    07610c59e9b167843086ada42cf63131.png,也就是EM算法是单调地提高

    46a0879018f2a2640a42b7183eb47b0a.png

    2b61cc69e58775177853b274fd035ef1.png

    第一个不等式是因为:

    f05cfa9b837fa3d3103d38b176bdb237.png

    公式(57)中,

    bdc64ab7245c9ff0c52f6424fce641f3.png

    第二个不等式是因为

    f23376d3398048884abca0a86763864d.png是为了

    6e428c9a579a9e4737d3ec2aa03fd7be.png

    三、LDA

    ▌2.1UnigramModel

    假设我们的词典中一共有V个词,UnigramModel就是认为上帝按照下面游戏规则产生文本的。

    3531732b9acf3f539ca50282a1fc33ad.png

    740c36fe684212d7fd94d8a01639c0a5.png

    Game2.1UnigramModel

    骰子各个面的概率记为

    699b17a77b1d47ff8a8a0eba16cda5fd.png,对于一篇文档

    3c27c66831939575d95bd21e200298da.png,生成该文档的概率为:

    d12a574e5581c16c5600d9260f6426a8.png

    假设我们预料是由m篇文档组成即

    00a8819ed394c134d80bd4accc4eb624.png,每篇文档是相互独立的,则该预料的概率为:

    149f374422ca8449d7ed9f55350f0cde.png

    假设预料中总共有N个词,每个词wi的词频为ni,那么

    ea4f0c8efcdaa10875ad915413a58899.png服从多项式分布,可参考1.5节的多项式分布概念。

    cf5848a2a151172f828528e9b04b9bd4.png

    此时公式(60)为:

    4ab63b68d27c50af250d98fd85ce57d9.png

    我们需要估计模型中的参数

    0feb107f3570d127cfc17f444e3be0a6.png,可以用最大似然估计:

    dd28495f4cb0e678e032a0252d28122c.png

    于是参数pk的估计值就是:

    53ac342f74e5acc6c493642bfd135bcb.png

    ▌2.2贝叶斯UnigramModel

    对于以上模型,统计学家中贝叶斯学派就不同意了,为什么上帝只有一个固定的筛子呢,在贝叶斯学派看来,一切参数都是随机变量,模型中

    c73396c44e1ca5de8f478d0062d2843f.png不是唯一固定的,而是服从一个分布,所以贝叶斯UnigramModel游戏规则变为:

    32cd76273703e327d93008f9f99b442e.png

    b1b34517c6b459c1aeced599c146bedf.png

    Game2.2贝叶斯UnigramModel

    上帝这个坛子里面有些骰子数量多,有些骰子数量少,所以从概率分布的角度看,坛子里面的骰子

    bb49e6d4456bf671275047dd35f8d7b0.png服从一个概率分布

    ec6731a845f558348bade113f2126aed.png,这个分布称为参数

    fa2a8a4f67382530ff04431228f5869c.png的先验分布。先验分布

    f2303a93641257b04cc31676678aca3c.png

    f42fa2859347039d931e44827c8d9ef2.png是服从多项式分布的,

    1f44df588216d064f7dc00094ea67ccf.png,回顾1.7节可知,

    abf9e3d9d68e6ffc439a756edae55e36.png

    e374ec5430a7770a940d2bc8e43aac50.png

    于是,在给定了参数

    bd24aba35a77b9ce78f00b6f13a139ce.png

    94e9f55eed0a556c68ce84d9ad8d0a2e.png时候,语料中各个词出现的次数服从多项式分布

    9de0e1e12465e4cd4dddbe268e59b190.png,所以后验分布为:

    6ce5624669a0c212004c5ad6a98548f9.png

    对参数

    b58d79fdb685d0f3dcb73bbd999aa786.png

    5e6e8b84e8f7a6f7674f763e31d447c9.png

    e6207c9187139bd7bd35105a2b152548.png

    19b41b0db359183eee0f28c3dec02636.png

    e107c8c981cb464de590232505588eed.png

    7dac84a8eec09461fe16e5024e03b88c.png分布。可以用的期望值作为参数

    a899a4d6d103e1d28c22342c4fb71c3c.png

    27bf65d7eacb8797caa2fd8a1523d18f.png

    4b24864cc32e1c9109a7d0c37fb70d1f.png

    接下来我们计算语料产生的概率,开始并不知道上帝到底用哪个骰子,所以每个骰子都有可能被使用,使用的概率由

    6ebb219b75c82bd641c8135e5ff05d04.png决定的,对于每个具体的骰子,由该骰子产生预料的概率为

    8dfe58fae058d42a530e134a4e04c1dd.png,所以语料产生的概率为:

    19db73eae803f806b4b3f3ee8abf9fcd.png

    ▌2.3PLSA

    1.PLSAModel

    概率隐语义分析,是主题模型的一种。上面介绍的UnigramModel相对简单,没有考虑文档有多个主题的情况,一般一篇文档可以由多个主题(Topic)组成,文档中的每个词都是由一个固定的Topic生成的,所以PLSA的游戏规则为:

    17c034cf5b9da32c8e6bc13af5ba18ad.png

    2.EM算法推导PLSA

    PLSA模型中doc-topic和topic-word的每个面的概率值是固定的,所以属于点估计,但是PLSA模型既含有观测变量di,wj,又含有隐变量zk,就不能简单地直接使用极大似然估计法估计模型参数,我们可以采用EM算法估计参数。我们先介绍推导过程用到的符号含义:

    ea485f731445c9f44f3e250525494416.png:表示语料中N篇文档;

    093694bd55163a56e71392c60aedacac.png:表示语料中M个词组;

    ec2738868be65fde6de70855a99b472e.png:表示词wj在文档di中出现的频次,

    eaf52159ba6400958892c53a041ee184.png

    a876a78597c6d418ef8d60e1b5bfc1fb.png:表示K个主题,每篇文档可以有多个主题;

    618100bdb2222862445ddb2bab3be87d.pngwj在给定文档di中出现的概率;

    9a3e06b5d5e1900ee273b10829bb183e.png:表示主题zk在给定文档di下出现的概率;

    0a2c38aa481287523649f151ef69db71.png:表示词wj在给定主题zk下出现的概率。

    一般给定语料di,wj是可以观测的,zk是隐变量,不可以直观地观测到。我们定义“doc-word”的生成模型,如图1.8所示。

    f4060e02341fd0b6aec056f55d668c4a.png

    ea6eac43b08ed2194f9fb18cd44db0ff.png

    图2.3

    下面进入正题,用EM算法进行模型参数估计,似然函数为:

    249bbe3e6f06d595af1cddc1372a75e6.png

    对于给定训练预料,希望公式(69)最大化。

    3aa84e79d8b5a590d60dc084303338d6.png

    2fbb352f6a56f0f317b252c22bd6278d.png

    50a0bd3b664230989485db8417e14dc1.png

    引入

    f0d03c406bdcb315729d99634b84d49a.png表示zk的概率分布

    2095720e8f7b4258f736213534017d48.png

    ,根据Jensen不等式得:

    fae0b506844c092b1b85bee8654302c8.png

    f5734faee1c69d21e852855f6aa4123e.png

    时,

    公式(71)不等式中等号成立,所以只需要最大化:

    c9b6fea5302443903145e67084296c16.png

    根据拉格朗日乘子法

    f73a4ae093d14e1e149c90a9691dbc5e.png

    所以可得:

    6ca1b832611cfefc68f0eaf9dfab7ce3.png

    总结EM算法为:

    1.E-step随机初始化变量,

    82edfe07a4f1d136b46520e34a458b74.png计算隐变量后验概率。

    efe926d31ac9ddc50558ef8a21787c83.png

    2.M-step最大化似然函数,更新变量

    c8bb29074fd1a5c18a5993f47075a8c9.png

    6da195761fbfdc65a92e1daa8dd3fd20.png

    3.重复1、2两步,直到收敛。

    ▌2.4LDA

    对于PLSA模型,贝叶斯学派表示不同意,为什么上帝只有一个doc-topic骰子,为什么上帝只有固定K个topic-word骰子?

    1be7271b7c4a757ebf9820c25733450c.png是模型的参数,一切参数都是随机变量,模型中

    f38360d181bddebaa2745bd18e4616ff.png不是唯一固定的,类似2.2节贝叶斯UnigramModel和2.1节UnigramModel的关系。所以LDA游戏规则为:

    27d02efc0f996099bd8d18a403c7aae9.png

    假设我们训练语料有M篇doc,词典中有V个word,K个topic。对于第m篇文档有Nm个词。

    b334a42c516f460184e2d4c56b636ac3.png,第m篇文档的主题分布概率,

    9772c354942c033669f16f3d82ff639f.png

    ;

    8324e1089d415b23cf5f402c2f445ae1.png,主题为k的词的概率分布,

    ea7d11d55edf87fe1530c99827ec16e8.png

    41bae335d421f8c12c5bb05b386f5f8e.png:第m篇文档中属于topick的词的个数,

    1ed66cdbbd62f01f3da16204e111a633.png

    d14f081f73001bbc6b04cdf6d6059ebb.png:topick产生词t的个数,

    726538d49a018e62da7f62f68d8dc24b.png

    d44dd1e5a3a0601bddee6436f3aeaf42.png

    2b0a85e895e4e82e580391422a579a04.png先验分布超参数;

    156426d679d861b57f43904261e62082.png

    39880b9b9f768b25e178168d1de51fbd.png先验分布超参数;

    d980ab0990db5f7ff280027b522c5787.png:第m篇文档中第n个词的主题;

    ff1f19ce1889aa6590d9536c8cf74be3.png:第m篇文档中第n个词。

    LDA的概率图模型表示如图2.4所示。

    303881cd9f3e873bf5a14b1f2269a1cb.png

    图2.4

    1.联合概率分布

    aea39da0ddd5027a76dd22bce9e6bf41.png

    1)

    7a71b224dc383a07f486181065dcdbde.png:第一步对

    ee3eb9e1be169215a6a8856795d044c7.png分布进行采样得到样本

    df3dfc31c31e1eb0e1ea926fa9468aa1.png(也就是从第一个坛子中抽取doc-topic骰子);第二步doc-topic骰子有K个面,每个面表示一个主题,那么在一次投掷骰子过程中,每个主题的概率为

    138e58efeb19ac72f786e0737942f82a.png

    ,第m篇文档有Nm个词,所以需要投掷Nm次骰子,为该篇文档中的每个词生成一个主题,第n个词对应的主题为

    5a6e521510a7336cfa35d8262b152d2c.png

    ,整篇文档的主题表示为

    732bb3a5f8ceb514dfa02df60202c5a3.png。在Nm次投掷过程中,每个主题出现的次数为

    fa6504744c91c0822aed469d27c5e437.png

    ,那么

    d713fb012773772ffa9753b40f92b4c3.png服从多项式分布

    a8eb4c67c0ba82b2c8ba56cae33b662c.png(只生成每个词的主题,并未由主题产生具体的词)。可以采用贝叶斯估计对参数

    b14acd514cf52e73290b36c57d0631d5.png进行估计。

    73d2e31d0e4348815238e1c7df9e4a06.png的先验分布为

    bf1b8cd43739fdcdd87730405429d5cc.png

    后验分布为(推导过程可以参考1.7节)

    4c51ab1163af4801e75227aa7e58161a.png

    bc4d343f329e3a638a30e603359f4825.png的贝叶斯估计值为

    ed7e3c945582865874544f0c07f61bea.png

    下面我们计算第m篇文档的主题概率分布:

    dd6dfe1ce44a4bf2037e4c642d756a0a.png

    整个语料中的M篇文档是相互独立的,所以可以得到语料中主题的概率为:

    69cc14e51e2508a68d4527420ed4f519.png

    2)

    731c136ec03429b5a51dd1d89137b69c.png

    :第一步对

    75406757876839d3a907660bf1e6923e.png分布进行K采样得到样本

    e75899ea26544b3c3e15742688ab0ac8.png(从第二个坛子中独立地抽取了K个topic-word骰子

    a9121393a3e34a65d7829e079a7b7f79.png);第二步根据之前得到的主题

    e3e57efd8ecc084eee8d60ab9b3ad2e7.png,为每个

    02e71a5ddf22a60ef1f78377bd0273ff.png生成对应的词

    ad4fb6aee43148a7ba4e4085a96709bb.png

    18f496b9cd5e8411c2011d2701946026.png

    b024c2f2a844a3e7513d2177ff69bcec.png

    276dd49050cb86b7c889fa23a500560d.png

    ,第k个主题有

    e476ba02296ca7d58d4eb4fca38bfb09.png个词,所以需要投掷

    5f460074373fd051a6a44506d49f6a86.png

    cd54c1f1ff44fd7851f403d1eda9aa49.png

    07f0e6670b6a5f352f241287e8f7e352.png

    b5cbdf5579f0e5f498c42194f645df7c.png

    ,那么

    a26f68df66855e246332d78a78de4851.png服从多项式分布

    0f98bae9f3899703459d5d0430816c85.png,可以采用贝叶斯估计对参数

    4b6ed1da543a1866bf64749726a3d80d.png进行估计。

    3b6802642f37971c0d899cc933dc66f6.png的先验分布为

    4501e215ce4108eb606db0a54f04ae3f.png

    4ad923add99b4f194c06e978d2d0755c.png后验分布为(推导过程可以参考1.7节)

    d873ee1d68e332623a73dec80f6232ac.png

    341e847fdf9a06b8fbfbd2307eb82aae.png的贝叶斯估计值为

    5966877de335bf7d9d300149220aac52.png

    下面我们计算第k个主题的词概率分布:

    f138213b5f0340f1620aa03888831048.png

    整个语料中的K个主题是相互独立的,所以可以得到语料中词的概率为:

    70b7ca12678dc90173667fce2e2cc288.png

    由公式(74)、(78)、(82)可得联合概率分布为:

    1c0b59c7bbcf0bcea77f32755576662d.png

    2.GibbsSampling

    上面我们已经推导出参数的贝叶斯估计公式,但是仍然存在一个问题,公式中的

    dfea7b462445d8d5a10c91f51fda5303.png无法根据语料直接得到,如果我们知道语料中的每个词的主题,即得到

    e4c0436fdb221822736a0b2915965f02.png,那么就可以推断出

    66d3aa7f83df5eea186806006628b991.png,进一步就可以得出贝叶斯的参数估计。我们需要利用GibbsSampling对

    16712938ea73d24bee1e34ee9c8d1b62.png进行采样来得到

    61e44c3bddc5a6e11ab9bbb1fcd2fef9.png

    f77717192be15bb5eae3477b1ed020e3.png。先介绍一些符号定义。

    e3bb90b2aa7771efeb3b93c1e29550c7.png下标索引;

    9afa8b4ba78adf953e2b6c1d54346279.png:表示去除下标为i的词;

    7e9d3ccfee2f1b78bfceaede99b5d869.png:第m篇文档中第n个词为t;

    917f719f075f6db2f93bacc48ccf69e1.png:第m篇文档中第n个词的主题为k;

    212bc81ae129f78cd94bd77080dfa267.png:除去下标为i这个词,剩下的所有词中,词t属于主题k的统计次数,

    e4f7e38cd3fd773c1ba0b0e8a0da0913.png

    (这里假设

    dc7edf9d812ad144bf325cd0c6015424.png);

    6f1300dedf987dfa9b8b8c524168ee95.png:除去下标为i的这个词,第m篇文档中主题m产生词的个数,

    dbb27d959d745960148abe96710beedc.png

    (这里假设

    c17491b38be6cf8ac0fc812879cd7eae.png);

    cf4518dcee2f2ddae88235da402cbdef.png:语料的主题;

    0bf192a8cc97055de3d372682a05d6e7.png:语料的单词。

    d7dc1c8c19e444342fd72c2a6fc90016.png

    1)

    142ba4b317ec4b35b9bc574023f57906.png的计算过程类似

    06789e5e8dbaa00d92d583ef16745c55.png,仅仅在计算的时候不考虑下标为i的这个词,我们假设

    ee817b9206a297ffe41ffb77e88607f3.png;当已知语料时,

    0f2c9384f5767987f39e06cbc19fc388.png可以从语料中统计出来,所以可以认为是常量。

    47a72c0267c5fb0595f43f8d5917576b.png

    2)我们是推断i=(m,n)词t的主题为k的条件概率

    a3d56505c8ca61013e76c28407a04c1d.png

    我们再利用另外一种方法推导条件概率:

    44250a112c7dcd33e4620cd68e064316.png

    已经推导出条件概率,可以用GibbsSampling公式进行采样了。

    476a17a6f49d0e3ac1b42a5fc6645f25.png

    展开全文
  • 近几天在学习LDA模型。真的是让人纠结!都看了两天了,不知所云!看到网上一大牛说:“其实这个模型不难理解”真的想吐血! 好了,抱怨一下也就可以了,模型还是得研究... 就是用到了乘法定理和全概率公式!乘法定理...
  • LDA笔记

    2016-10-13 17:32:16
    LDA的论文看了三四天了,记录。 LDA的Gibbs采样公式: 《Latent Dirichlet Allocation》上LDA的推导是用EM算法来推导采样公式...用p(z,w)即z和w的联合概率来求解采样公式。 《LDA数学八卦》里对于phi和theta
  • 这里写自定义目录标题欢迎使用Markdown编辑器LDA功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右...
  • 关于LDA

    2014-08-28 16:23:21
    首先,可以用生成模型来看文档和主题这两件事。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一... 这个概率公式可以用矩阵表示:
  • lda 协方差矩阵_R: LDA

    2020-12-30 11:08:58
    LDA函数Argumentsformula:判别的公式,例如groups ~ x1 + x2 + … data:指出数据集prior:先验概率。如果没有指明,就用training set的比例。???tol:判断协方差矩阵是否是奇异阵的一个标准,如果有方差小于了...
  • LDA和PLSA

    2015-04-29 17:17:00
    看了《LDA数学八卦》和July的博客,里面涉及到好多公式推导。。。感觉好复杂,于是记录一些重点简洁的东西,忽略大批量铺垫,直接回答LDA和PLSA是区别: 在pLSA模型中,我们按照如下的步骤得到“文档-词项”的生成...
  • lda主题模型

    2016-08-23 00:39:43
    公式显示有问题请复制链接到新TAB重新打开 听说国外大牛都认为LDA只是很简单的模型,吾辈一听这话,只能加油了~ 另外这个大牛写的LDA导读很不错:http://bbs.byr.cn/#!article/PR_AI/2530?p=1 一、预备...
  • LDA主题模型

    2019-12-27 12:59:47
    一种无监督的贝叶斯模型,可以将文档集中每篇文档的主题按照概率分布的形式给出。 在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。 LDA的另一个优点是,对于每一个主题均可以找出...
  • 主题模型LDA简介

    2019-04-09 10:47:38
    介绍性的讲解在此不多讲,本文主要讲主题模型LDA的原理。 我们可以从生成模型思考一下,一篇文章由文档进而生成文字,是怎样的一个概率过程呢。在主题模型中,文档“以一定概率选择了某个主题,并从这个主题中以...
  • 今天我们来谈谈主题模型(Latent Dirichlet Allocation),由于主题模型是生成模型,而我们常用的决策树,... 生成模型:估计的是联合概率分布(joint probability distribution)——,然后根据贝叶斯公式 求出条件...
  • LDA Gibbs Smapling理解

    2018-12-18 16:09:00
    即排除当前词的主题分配,根据其他词的主题分配和观察到的单词来计算当前词主题的概率公式 里面用到了伽马函数的性质 当Gibbs sampling 收敛后,我们需要根据最后文档集中所有单词的主题分配来计算和,作为...
  • 1 前言要想彻底搞明白 LDA 的实现原理,就需要具备一定的数学基础。LDA 用到的数学知识包括:一个公式和两个...2 一个公式和两个概念先来看一下贝叶斯公式: 表示未知参数,X 表示样本先验概率:在事件尚未发生前...
  • LDA之我见

    2016-09-23 15:30:52
    本文纯粹出于个人理解,公式纯手打难免有误,不对的地方请指出。  LDA认为一个语料库中的某个文档w又一系列的... 那么概率模型雏形就出来了,LDA是一个典型“词带”的模型,即对文档词w作条件独立假设:  其中
  • 随着互联网的发展,文本分析越来越受到重视。由于文本格式的复杂性,人们往往很难直接利用文本进行分析。因此一些将文本数值化的方法就出现了。LDA就是其中一种很NB的方法。...4、吉普斯抽样概率公式推导 5、使用...
  • LDA(一):LDA前身PLSA介绍与推导

    千次阅读 2016-05-21 13:36:21
    数学基础:生成模型: 预测模型的公式是P(y|x)P(y|x),即给定输入,输出给定输入的概率分布,就要学习联合分布P(x,y)P(x,y),所以还要先求出P(x)P(x),反应的数据本身的相似度。 这样的方法之所以称为生成方法,是因
  • LDA中的先验知识

    2017-12-28 23:38:00
    LDA涉及到的先验知识有:二项分布、Gamma函数、Beta... 概率密度公式为: 多项分布 多项分布,是二项分布扩展到多维的情况. 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…...
  • LDA主题模型困惑度计算

    千次阅读 2019-09-23 23:32:51
    对于LDA模型,最常用的两个评价方法困惑度(Perplexity)、相似度(Corre)。 其中困惑度可以理解为对于一篇文章d,所训练出来的模型对文档d属于哪个主题有...其中p(w)指的是测试集中每个单词出现的概率,计算公式...
  • LDA学习总结(二)

    2018-08-07 15:57:00
    上一篇介绍完基础版后,罗列一些公式和model。 正经的理解LDA,分为以下5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架...
  • LDA相关知识点

    2019-09-07 10:59:52
    (1)最大似然估计(ML) 最大似然估计是找到参数 θ 使得样本 X 的联合概率最大,并不会考虑先验知识,频率学派和贝叶斯学派都承认似然...MAP 是为了解决 ML 缺少先验知识的缺点,刚好公式 (5) 后验概率集中了样本...
  • 相信很多人第一次看到LDA算法都会先皱眉头,不管是看论文还是看博客,都少不了各种各样的公式和理论,概率分布、共轭分布、贝叶斯公式、Gibbs采样等等,一大堆耳熟又陌生的词,经常带着一大堆问号去学习,又带着一大...
  • 贝叶斯网络与LDA

    2016-12-18 15:26:00
    贝叶斯公式: 贝叶斯带来的思考: 给定某些样本D,在这些样本中计算某结论出现的概率,即 给定样本D 所以可以推出,再假定p(Ai)相等,可以推出,这个就是最大似然估计做的事情,看下取哪个参数的时候,D出现的...
  • LDA及 专家发现小论文

    2016-10-17 22:38:30
    首先,可以用生成模型来看文档和主题这两件事。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定... 这个概率公式可以用矩阵表示:  其中”文档-词语”矩阵表示每个文档中每个单词的词频,即出
  • 公式中的意义如下: 具体可以参考2010龙星计划:机器学习中对应的主题模型那一讲  LDA: 主题模型,概率图如下: 和pLSA不同的是LDA中假设了很多先验分布,且一般参数的先验分布都假设...
  • 1.朴素贝叶斯 (1)朴素贝叶斯的原理 朴素:特征独立 贝叶斯:基于贝叶斯定理 根据贝叶斯定理,对一个分类问题,给定样本特征x,...因为朴素的假设,即特征条件独立,根据全概率公式展开,公式(1) 可以...

空空如也

空空如也

1 2 3 4
收藏数 78
精华内容 31
关键字:

lda概率公式