精华内容
下载资源
问答
  • 散度
    千次阅读 多人点赞
    2022-04-07 10:52:55

    1、KL散度的概念

    KL散度(Kullback-Leibler Divergence)一般用于度量两个概率分布函数之间的“距离”,其定义如下(参考文献[2]2、[4]4):

    K L [ P ( X ) ∥ Q ( X ) ] = ∑ x ∈ X [ P ( x ) log ⁡ P ( x ) Q ( x ) ] = E x ∼ P ( x ) [ log ⁡ P ( x ) Q ( x ) ] K L[P(X) \| Q(X)]=\sum_{x \in X}\left[P(x) \log \frac{P(x)}{Q(x)}\right]=E_{x \sim P(x)}\left[\log \frac{P(x)}{Q(x)}\right] KL[P(X)Q(X)]=xX[P(x)logQ(x)P(x)]=ExP(x)[logQ(x)P(x)]

      由于KL散度的计算公式中对 x x x 进行了积分(连续型随机变量)或求和(离散型随机变量),因此KL与 x x x 无关,因此也可以记为 K L [ P ∥ Q ] K L[P \| Q] KL[PQ]

      注意到KL散度的定义中 K L [ P ( X ) ∥ Q ( X ) ] K L[P(X) \| Q(X)] KL[P(X)Q(X)] 关于 P ( X ) P(X) P(X) Q ( X ) Q(X) Q(X) 并不对称。根据公式,KL散度不满足对称性,即: K L [ P ( X ) ∥ Q ( X ) ] ≠ K L [ Q ( X ) ∥ P ( X ) ] K L[P(X) \| Q(X)] ≠ K L[Q(X) \| P(X)] KL[P(X)Q(X)]=KL[Q(X)P(X)] ,因此,KL散度显然不是数学意义上的“度量”。

      KL散度的典型应用场景如下:假设某优化问题中, P ( X ) P(X) P(X) 是真实分布(true distribution), Q ( X ) Q(X) Q(X) 是一个用于拟合 P ( X ) P(X) P(X) 的近似分布(approximate distribution),可以尝试通过修改 Q ( X ) Q(X) Q(X) 使得二者间的 K L [ P ( X ) ∥ Q ( X ) ] K L[P(X) \| Q(X)] KL[P(X)Q(X)] 尽可能小,来实现用 Q ( X ) Q(X) Q(X) 拟合 P ( X ) P(X) P(X) ,如下图所示[4]

    在这里插入图片描述

      在上面的概率拟合应用场景下, K L [ P ( X ) ∥ Q ( X ) ] K L[P(X) \| Q(X)] KL[P(X)Q(X)] 也被称为前向KL散度(forward Kullback-Leibler Divergence),将 K L [ Q ( X ) ∥ P ( X ) ] K L[Q(X) \| P(X)] KL[Q(X)P(X)] 称为反向KL散度(reverse Kullback-Leibler Divergence)。

      这里需要注意的是,只有在概率拟合的应用场景下(也就是确定了真实分布和拟合分布两个角色之后),前向KL散度 K L [ P ( X ) ∥ Q ( X ) ] K L[P(X) \| Q(X)] KL[P(X)Q(X)] 和反向KL散度 K L [ Q ( X ) ∥ P ( X ) ] K L[Q(X) \| P(X)] KL[Q(X)P(X)] 的定义才是有意义的,否则二者只是相同公式改变正负号、并交换 P P P Q Q Q 符号表示之后的平凡结果。

    2、两类KL散度拟合效果的定性分析

      极小化前向KL代价下的拟合行为特性:寻找均值(Mean-Seeking Behaviour)

      前向KL的计算式中, P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x) 在每个样本点 x x x 上的差异程度被 P ( x ) P(x) P(x) 加权平均,我们基于此对前向KL的特性进行分析。

      考虑随机变量 X X X 的子集 X 0 = x ∣ P ( x ) = 0 X_0 = { x|P(x) = 0 } X0=xP(x)=0 ,由于 P ( x ) P(x) P(x) 是前向KL公式中的权重系数,因此 X 0 X_0 X0 中的元素实际上对前向KL的值没有任何影响。换言之,对任意 x ∈ X 0 x \in X_0 xX0 ,无论 P ( x 0 ) P(x_0) P(x0) Q ( x 0 ) Q(x_0) Q(x0) 相差多大都对前向KL的计算结果毫无影响,因此前向KL值不受 Q ( x ) Q(x) Q(x) 在子集 { x ∣ P ( x ) = 0 } \{x|P(x) = 0\} {xP(x)=0} 上取值的影响。在极小化前向KL散度的过程中,每当 P ( x ) = 0 P(x) = 0 P(x)=0 Q ( x ) Q(x) Q(x) 就会被无视。从连续性角度推理,最小化前向KL散度倾向于忽视“ Q ( x ) Q(x) Q(x) 在满足 P ( x ) P(x) P(x) 近似为 0 的随机变量取值集合上的拟合精度”,而去更努力的实现“ Q ( x ) Q(x) Q(x) 在满足 P ( x ) > 0 P(x) > 0 P(x)0的随机变量取值集合上的拟合精度”。上述分析结论总结如下:

    Wherever P ( ⋅ ) P(·) P() has high probability, Q ( ⋅ ) Q(·) Q() must also have high probability.[4]

      下图展示了使用前向KL散度代价拟合一个多峰(实际上是双峰)分布的效果示意图(参考文献[4])。

    在这里插入图片描述

      前向KL散度的这种特性一般也被称为 zero avoiding,原因是它倾向于避免在任何 P ( x ) > 0 P(x) > 0 P(x)0的位置 x x x 使得 Q ( X ) = 0 Q(X) = 0 Q(X)=0 [4]

    极小化反向KL代价下的拟合行为特性:搜寻模态(Mode-Seeking Behaviour)

      在反向KL中,差异加权求和时的权重系数是 Q ( x ) Q(x) Q(x) 。此时, P ( x ) P(x) P(x) 在子集 { x ∣ Q ( x ) = 0 } \{ x|Q(x) = 0 \} {xQ(x)=0} 的取值不影响反向KL值的计算,而当 Q ( x ) > 0 Q(x) >0 Q(x)0时, Q ( x ) Q(x) Q(x) P ( x ) P(x) P(x) 的差异需要尽可能小以使得反向KL值尽可能小。上述分析结论总结如下(参考文献[4]):

    Wherever Q ( ⋅ ) Q(·) Q() has high probability, P ( ⋅ ) P(·) P() must also have high probability.[4]

      下图展示了使用前向反向KL散度代价拟合一个多峰(实际是双峰)分布的效果示意图(参考文献[4])。
    在这里插入图片描述

      关于在前向KL拟合特性分析中,为什么说当 P ( x ) P(x) P(x)近似为 0 时,无论 Q ( x ) Q(x) Q(x) 的取值如何(即使绝对值非常大),一般都不会对前向KL散度计算产生影响的原因定性的论述如下。

      首先,如果当 P ( x ) → 0 P(x) \rightarrow 0 P(x)0 时, Q ( x ) Q(x) Q(x) 并不趋近于0,用数学语言可以描述为:存在一个 ε > 0 \varepsilon > 0 ε0, 有 Q ( x ) > ε Q(x) > \varepsilon Q(x)ε。那么这时一定有

    ∣ P ( x ) log ⁡ ( Q ( x ) ) ∣ < ∣ P ( x ) log ⁡ ε ∣ → 0 |P(x) \log (Q(x))|<|P(x) \log \varepsilon| \rightarrow 0 P(x)log(Q(x))<P(x)logε0

      这说明,当概率分布 Q ( x ) Q(x) Q(x)有下大于0的下界(注意:由于 Q Q Q 是概率分布,所以 Q ( x ) Q(x) Q(x) 取值本就一定在 [ 0 , 1 0,1 0,1] 上)时, P ( x ) log ⁡ ( Q ( x ) ) P(x) \log (Q(x)) P(x)log(Q(x)) P ( x ) P(x) P(x) 近似为0时实际可忽略的。

      其次,考虑如果 Q ( x ) Q(x) Q(x) 也趋向于0,也就是 ∣ l o g Q ( x ) ∣ → ∞ |logQ(x)| \to \infty logQ(x) 时, P ( x ) log ⁡ ( Q ( x ) ) P(x) \log (Q(x)) P(x)log(Q(x)) 的极限是否还是0?具体是如下问题:假设当 P → 0 P \to 0 P0 时,也有 Q → 0 Q \to 0 Q0 ,且二者趋于0的“速度”是相近的,求 P ( x ) log ⁡ ( Q ( x ) ) P(x) \log (Q(x)) P(x)log(Q(x)) 的极限。不妨将该问题按如下方法求解:
       lim ⁡ x → 0 x ln ⁡ x = lim ⁡ n → ∞ 1 n ln ⁡ 1 n = − lim ⁡ n → ∞ ln ⁡ n n = 0 \lim _{x \rightarrow 0} x \ln x=\lim _{n \rightarrow \infty} \frac{1}{n} \ln \frac{1}{n}=-\lim _{n \rightarrow \infty} \frac{\ln n}{n}=0 x0limxlnx=nlimn1lnn1=nlimnlnn=0

      上面的定性证明过程中的第一个等号左边的表达式,其实也可以使用洛必达法则(L’Hospital’s rule)求解。该证明的意义在于说明:若 P l o g Q PlogQ PlogQ 中的 P P P Q Q Q 以近似相同的速度趋向于0,则 P l o g Q PlogQ PlogQ 也会趋向于0。这背后隐含的意义是:只要 P ( x ) P(x) P(x) x x x 处接近于0,那么 Q ( x ) Q(x) Q(x) 无论取何值(这里的“无论”是指 Q Q Q 有大于0的下界或至多是 P P P 的等价无穷小量),那么 P ( x ) l o g ( Q ( x ) ) P(x)log(Q(x)) P(x)log(Q(x)) 就是可忽略的。这也就定性的证明,在拟合中 Q Q Q 在在 P ( x ) P(x) P(x) 中接近于0的那部分自变量集合上花费精力基本是无意义的,因此拟合结果 Q Q Q 会表现为倾向于拟合 P > 0 P > 0 P0 的那些区域。

    其他示例

      前向KL和反向KL拟合效果的二维多峰(实际上是双峰 P P P )分布情况示例(参考文献[1]):

    在这里插入图片描述

    上面图中蓝色的轮廓线代表一个有两个高斯分布组成双峰分布 P ( x ) P(x) P(x) ,红色的轮廓线是使用单一高斯分布在最小化KL散度意义下对 P ( x ) P(x) P(x) 进行拟合得到的最佳结果。其中图(a)是拟合代价选择前向KL散度 [公式] 时的拟合效果,图(b)时拟合代价选择反向KL散度 K L ( P ∣ ∣ Q ) KL(P||Q) KL(PQ) 时的拟合效果,图©和图(b)使用相同的代价但展示的是到达反向KL散度代价的另外一个局部极小值点的效果。

    3、两类KL散度拟合效果的数学推导

    考虑到需要用人工设计的近似分布 Q θ ( X ) Q_{\theta }(X) Qθ(X) 来拟合真实分布 P ( x ) P(x) P(x) ,这里下标 θ \theta θ 强调 Q ( x ) Q(x) Q(x) 是一个受到参数 θ \theta θ控制的分布。例如: Q ( x ) Q(x) Q(x) 是正态分布 N ( μ , σ 2 ) N(\mu ,\sigma^2 ) N(μ,σ2) P P P是正态分布 N ( μ , σ 0 2 ) N(\mu ,\sigma_0^2 ) N(μ,σ02) ,现在希望用 Q Q Q 来拟合 P P P ,其中 Q Q Q 的均值和方差 { μ , σ 2 } \{\mu ,\sigma^2\} {μ,σ2} 就是拟合过程中可以调整的参数 θ \theta θ 。于是基于前向KL和反向KL代价的分布拟合问题分别转化为以下两个优化问题(参考文献[4]):

    命题1. 极小化前向KL: arg ⁡ min ⁡ θ K L ( P ∣ ∣ Q θ ) \arg \min _{\theta} KL(P||Q_{{\theta}}) argminθKL(PQθ)等价于对参数 θ {\theta} θ 的极大似然估计。

    命题2. 极小化反向KL: arg ⁡ min ⁡ θ K L ( Q θ ∣ ∣ P ) \arg \min _{\theta} KL(Q_{{\theta}}||P) argminθKL(QθP) 相当于在要求 Q θ Q_{{\theta}} Qθ在拟合 P P P 的同时尽可能保持单一模态。

    首先,证明命题一,过程如下:

    arg ⁡ min ⁡ θ K L ( P ∣ ∣ Q ) = arg ⁡ min ⁡ θ ( E X ∼ P [ − log ⁡ Q θ ( X ) ] ) + H ( P ( X ) ) \arg \min _{\theta} KL(P||Q) = \arg \min _{\theta}\left(E_{X \sim P}\left[-\log Q_{\theta}(X)\right]\right)+H(P(X)) argθminKL(PQ)=argθmin(EXP[logQθ(X)])+H(P(X))
    = arg ⁡ min ⁡ θ E X ∼ P [ − log ⁡ Q θ ( X ) ] =\arg \min _{\theta} E_{X \sim P}\left[-\log Q_{\theta}(X)\right] =argθminEXP[logQθ(X)]
    = arg ⁡ max ⁡ θ E X ∼ P [ log ⁡ Q θ ( X ) ] =\arg \max _{\theta} E_{X \sim P}\left[\log Q_{\theta}(X)\right] =argθmaxEXP[logQθ(X)]
    ≈ arg ⁡ max ⁡ θ E X ∼ P data  [ log ⁡ Q θ ( X ) ] \approx \arg \max _{\theta} E_{X \sim P_{\text {data }}}\left[\log Q_{\theta}(X)\right] argθmaxEXPdata [logQθ(X)]

    其中 H ( P ( X ) ) = − ∑ x [ P ( x ) log ⁡ P ( x ) ] H(P(X))=-\sum_{x}[P(x) \log P(x)] H(P(X))=x[P(x)logP(x)],代表信息熵(Entropy)。上述推导的最终结果正好就是极大似然代价的定义式。

    推导过程分析:上面的推导过程中,第2行到第3行利用了 H ( P ( X ) ) H(P(X)) H(P(X)) 是与优化自变量 θ \theta θ 无关的,故删除该项不会改变最优化问题的解,因此可以直接省略。第3行到第4行则是通过来将求最小值问题转化为求最大值问题消去负号。第4行到第5行利用了机器学习训练中一般假设特征在样本集上的分布可以被近似看作真实分布,即: H ( P ( X ) ) = − ∑ x [ P ( x ) log ⁡ P ( x ) ] H(P(X))=-\sum_{x}[P(x) \log P(x)] H(P(X))=x[P(x)logP(x)]

    综上命题1成立。

    其次,证明命题2,推导如下:

    arg ⁡ min ⁡ θ K L ( P ∣ ∣ Q ) = arg ⁡ min ⁡ θ ( E X ∼ P [ − log ⁡ Q θ ( X ) ] ) + H ( Q θ ( X ) ) \arg \min _{\theta} KL(P||Q) = \arg \min _{\theta}\left(E_{X \sim P}\left[-\log Q_{\theta}(X)\right]\right)+H(Q_{\theta}(X)) argθminKL(PQ)=argθmin(EXP[logQθ(X)])+H(Qθ(X))

    观察上面的等式右侧 [公式] 中的两项:

    E X ∼ Q θ [ − log ⁡ P ( X ) ] + H ( Q θ ( X ) ) E_{X \sim Q_{\theta}}[-\log P(X)]+H\left(Q_{\theta}(X)\right) EXQθ[logP(X)]+H(Qθ(X))

    要想令上面两项之和最小,就意味着要找到参数 θ {\theta} θ 的一个合适的取值,使得上面两项中的每一项 E X ∼ Q θ [ − log ⁡ P ( X ) ] E_{X \sim Q_{\theta}}[-\log P(X)] EXQθ[logP(X)] H ( Q θ ( X ) ) H\left(Q_{\theta}(X)\right) H(Qθ(X)) 都尽可能小。根据熵的性质可知,当 Q θ Q_{{\theta}} Qθ 越接近于均匀分布(当 X X X 是连续随机变量时,若 X X X 是离散型随机变量便是离散取值的等概率分布,总之就是都可以看作等高多峰分布的极限情况)第二项 H ( Q θ ( X ) ) H\left(Q_{\theta}(X)\right) H(Qθ(X)) 的值越大,反之当 Q θ Q_{{\theta}} Qθ 越去向于单一模态分布(可以通俗理解为单峰分布) H ( Q θ ( X ) ) H\left(Q_{\theta}(X)\right) H(Qθ(X)) 的值越小。因此反向KL散度相当于在要求 Q θ Q_{{\theta}} Qθ 在拟合 P P P 的同时尽可能保持单一模态。

    综上命题2成立。

    4、KL散度的计算

    考虑有两个样本分布 P P P Q Q Q 如下:

    取值类型 x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3 x 4 x_4 x4
    P P P3/51/52/50
    Q Q Q5/93/901/9

    由于 P P P Q Q Q 中都在某个取值上概率为 0,因此直接计算前向KL散度和反向KL散度

    K L forward  ( P ∥ Q ) = ∑ i = 1 4 [ P ( x i ) log ⁡ P ( x i ) Q ( x i ) ] K L_{\text {forward }}(P \| Q)=\sum_{i=1}^{4}\left[P\left(x_{i}\right) \log \frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}\right] KLforward (PQ)=i=14[P(xi)logQ(xi)P(xi)]
    K L backward  ( Q ∥ P ) = ∑ i = 1 4 [ Q ( x i ) log ⁡ Q ( x i ) P ( x i ) ] K L_{\text {backward }}(Q \| P)=\sum_{i=1}^{4}\left[Q\left(x_{i}\right) \log \frac{Q\left(x_{i}\right)}{P\left(x_{i}\right)}\right] KLbackward (QP)=i=14[Q(xi)logP(xi)Q(xi)]

    都会由于遇到分母为 0 的问题导致不可行。为此,介绍计算KL散度的平滑(Smoothing)方法[5]

    引入一个微小常量 ε \varepsilon ε,例如: ε = 1 0 − 3 \varepsilon=10^{-3} ε=103 ,然后定义平滑的分布 P ′ P' P Q ′ Q' Q 如下:

    取值类型 x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3 x 4 x_4 x4
    P P P 3 / 5 − ε / 3 3/5 - \varepsilon/3 3/5ε/3 1 / 5 − ε / 3 1/5 - \varepsilon/3 1/5ε/3 2 / 5 − ε / 3 2/5 - \varepsilon/3 2/5ε/3 ε \varepsilon ε
    Q Q Q 5 / 9 − ε / 3 5/9 - \varepsilon/3 5/9ε/3 3 / 9 − ε / 3 3/9 - \varepsilon/3 3/9ε/3 ε \varepsilon ε 1 / 9 − ε / 3 1/9 - \varepsilon/3 1/9ε/3

    分别用 K L forward  ( P ′ ∥ Q ′ ) K L_{\text {forward }}(P' \| Q') KLforward (PQ) K L backword  ( P ′ ∥ Q ′ ) K L_{\text {backword }}(P' \| Q') KLbackword (PQ) 作为 K L forward  ( P ∥ Q ) K L_{\text {forward }}(P \| Q) KLforward (PQ) K L backword  ( P ∥ Q ) K L_{\text {backword }}(P \| Q) KLbackword (PQ) 的替代,这样正向KL和反向KL就都变得可以计算了。

    5、KL散度 Python 实现

    def kld_softmax(x, y):
    	px = get_dis(x)
        py = get_dis(y)
        
        softmax_x = softmax(px)
        softmax_y = softmax(py)
        
        KL = 0.0
        for i in range(len(softmax_x)):
        	KL += softmax_x[i] * np.log(softmax_x[i] / softmax_y[i])
        return KL
    
    def kld_smooth(x, y):
    	px = get_dis(x)
        py = get_dis(y)
        # smoothing
        px -= 0.001/3
        py -= 0.001/3
        
        KL = 0.0
        for i in range(len(px)):
        	KL += px[i] * np.log(px[i] / px[i])
        return KL
    
    def softmax(x,t=1):
        # 计算每行的最大值
        row_max = x.max()
     
        # 每行元素都需要减去对应的最大值,否则求exp(x)会溢出,导致inf情况
        row_max=row_max.reshape(-1, 1)
        x = x - row_max
     
        # 计算e的指数次幂
        x_exp = np.exp(x/t)
        x_sum = np.sum(x_exp, keepdims=True)
        s = x_exp / x_sum
        return s
    

    6、References

    [1]. Pattern Recognition and Machine Learning.

    [2]. KL Divergence for Machine Learning.

    [3]. Intuitive Guide to Understanding KL Divergence.

    [4]. KL Divergence: Forward vs Reverse.

    [5]. KL-divergence.pdf.

    [6]. Variational Inference,.

    [7]. GAP: Differentially Private Graph Neural Networks with Aggregation Perturbation

    更多相关内容
  • 提出了基于梯度的信息散度的光谱区分方法[SID(SG)]。首先通过求取光谱梯度进行局部特征区分,再通过求光谱梯度的信息散度进行整体比较。采用仿真光谱和实际测量光谱,比较了SID(SG)与其他方法的光谱区分能力。利用...
  • 第6章—6.3KL散度和JS散度.pptx
  • 此函数计算具有指定参数(均值和协方差矩阵)的两个多元高斯分布之间的Kullback-Leibler(KL)散度。 协方差矩阵必须是正定的。 该代码高效且数值稳定。 例子: 1)计算两个单变量高斯之间的KL散度:KL(N(-1,1)|...
  • [nlp] KL散度与JS散度

    2021-01-07 03:12:00
    1.KL散度 KL散度( Kullback–Leibler divergence) (最大类间散度) 是描述两个概率分布差异的一种测度。对于两个概率分布P、Q,二者越相似,KL散度越小。 KL散度的性质:P:真实分布,Q:P的拟合分布 非负性:KL(P||Q...
  • 为深入理解不同驾驶员的驾驶行为特点,本文中提出了一种基于KL散度的驾驶员驾驶习性非监督聚类算法。首先,建立了驾驶员驾驶数据实车道路试验采集平台,对84位驾驶员进行了测试;接着,将每名驾驶员的驾驶数据视为一个...
  • 基于KL散度的NMF算法的实现,收敛性证明可以参考:Lee D D, Seung H S. Algorithms for Non-negative Matrix Factorization[C]// NIPS. 2000:556--562.
  • 贝叶斯NMF工具箱(BNMF-Tool)实现了针对以下方面的KL散度的贝叶斯NMF: N. Mohammadiha,P。Smaragdis和A. Leijon,“使用非负矩阵分解的有监督和无监督语音增强方法”,IEEE Trans。 音频,语音和语言处理,第1卷...
  • 今天小编就为大家分享一篇Python Sympy计算梯度、散度和旋度的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 针对传统活动轮廓模型不适用于噪声、弱边缘图像分割的问题,提出基于Bregman全散度的全局优化分割方法。首先用Bregman全散度替换传统模型中的<i>l</i><sub>2测度,构造能量泛函;然后构造全局最优解求解方法,交替...
  • 【气象水文案例】MATLAB可视化应用实战案例-Matlab计算水汽通量和散度.zip
  • 【Python在气象中的实战应用案例】Python计算涡度、散度、涡度平流和温度平流.zip
  • 论文研究-基于位置和散度效应因子分类筛选及仿真试验.pdf, 针对供应链及其它计算机仿真试验中所涉及因子数目众多的情形,序贯分支方法因筛选效率较高被广泛采用.然而,...
  • KL散度估算器 通常在两个概率分布之间定义。 在仅概率分布的样本可用的情况下,可以多种方式估计KL散度。 在这里,我测试了基于k最近邻概率密度估计的KL散度估计器的一些实现。 估计值是 Wang Wang,Sanjeev R. ...
  • Vemuri, Meizhu Liu, Shun-Ichi Amari 和 Frank Nielsen, 总 Bregman 散度及其在 DTI 分析中的应用, IEEE 医学影像学报 (TMI'10),2010 年。 Meizhu Liu、Baba C. Vemuri、Shun-Ichi Amari 和 Frank Nielsen, 总...
  • 该算法基于每个项目基分值概率分布使用 KL 散度计算项目之间的显性反馈相似度,再融合隐 狄利克雷主题分配模型,得到每个项目属于 T 个主题的概率分布,使用 JS 散度计算出项目之间隐性 反馈相似度,将两个相似度...
  • 本文着眼于每个班级的分布,并提出了一种在度量学习阶段利用KL散度的新颖的人员重新识别方法。 度量学习不是直接基于图像或特征,而是直接基于分布。 本文的关键思想是假设每个人都是一个分布,一个人的每个图像都是...
  • 为了给对比散度算法的进一步优化提供理论指导,尝试从理论上分析对比散度算法的收敛性.首先从仅含4 个结点的玻尔兹曼机入手,利用单纯形表征模型的概率空间,以及流形表征概率空间与模型参数的关系,形象地表示了对比...
  • 此工具箱包含用于计算以下数量的离散随机变量的函数: 1)熵2)联合熵3)条件熵4)相对熵(KL散度) 5)相互信息6)归一化互信息7)归一化变异信息这个包现在是 PRML 工具箱的一部分 ( ...
  • 向量的散度matlab代码这是 Support Distribution Machines 的 C++ 实现(使用 C 和 Matlab MEX 接口),如下所述: Barnabas Poczos、Liang Xiong、Dougal J. Sutherland 和 Jeff Schneider。 用于图像分类的非参数...
  • 散度的概念引入到图像分析中,考虑到图像在不同方向上的性质不同,提出了一种基于散度的相关性拉普拉斯变换不同焦点图像融合算法.首先对源图像进行相关性拉普拉斯分解,获得图像的低频和高频分量;然后对低频分量...
  • 基于Cauchy-Schwarz散度,提出了一种新的主动轮廓线图像分割模型。该模型能量泛函有两部分组成:几何正则项和数据拟合项。其中,数据拟合项通过图像灰度的概率密度函数之间的Cauchy-Schwarz散度来加以构造,并且对...
  • K-means算法是一种常用的聚类...此外,基于互信息和散度的比值,确定聚类数目.将所提方法应用于成都某段时间交通热点提取中,并与传统的K-means比较,实验结果表明,所提方法具有更高的聚类精度,提取的热点更符合实际.
  • 本文介绍用面积加权平均法客观分析各标准层流场以及涡、散度场的程序,内容包括网格经纬度、水平风速在网格座标中的分量以及涡、散度场和铅直速度场的计算。举例说明在有台风情形时的实际分析结果。在日常业务预报和...
  • 两个高斯分布之间的 Kullback-Leibler 散度
  • %% 具有 2 个自变量的向量函数的散度% by Prof. Roche C. de Guzman %% 给定f = @(x,y) [(-4*x).*exp(-(x.^2)-y.^2); (-4*y).*exp(-(x.^2)-y.^2)]; % 匿名 fx: f(x,y) xi = -2; xf = 1; yi = -2; yf = 1; n = 10; ...
  • 给定一个曲面三角剖分,使用散度定理计算封闭的体积。 假设:三角形节点排序正确,即计算法线向外输入:p: (3xnPoints), t: (3xnTriangles) 输出:封闭的总体积和表面的总面积
  • 研究了基于统计流形的光谱信息散度颜料识别方法,将统计流形上的黎曼度量作为信息散度中新的度量标准。利用提出的新方法与传统光谱反射率匹配方法对4种常用矿物颜料进行光谱匹配,并将匹配结果进行比较。实验结果表明:...
  • 试论梯度 散度 旋度及其物理模型

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,036
精华内容 7,214
关键字:

散度