精华内容
下载资源
问答
  • 2017-06-20 11:09:11

    1)trace(x),x为一方阵。 求二维方阵的迹,即该方阵对角线上元素之和(特征值之和)。同一个线性变换,在不同基底下的矩阵虽然不同,但其这些矩阵的迹相同。我们生活的世界是变化的,研究问题就要抓住这些变化中的不变量进行研究。

    2)读一些文章时会碰到tied weights 或者weights are tied等说法,意思是比如在autoencoder中, 隐藏层的W 和输出的W’。可以选择让 W  =W T   这时我们称tied weights。

    3)域适应中经常用到的术语,maximum mean discrepancy:最大平均差异。在双样本检车中,用于判断两个分布P和q是否相同,以不同的分布生成的样本空降作为函数f的分布,如果由这两个分布生成的足够多的样本在f上对应的输出的均值都相等,那么可以认为这些分布属于同一分布,因此可以用来度量两个分布之间的相似性。(一般会提到最小化最大平均差异)。
    具体而言,基于MMD(maximize mean discrepancy)的统计检验方法是指下面的方式:基于两个分布的样本,通过寻找在样本空间上的连续函数f,求不同分布的样本在f上的函数值的均值,通过把两个均值作差可以得到两个分布对应于f的mean discrepancy。寻找一个f使得这个mean discrepancy有最大值,就得到了MMD。最后取MMD作为检验统计量(test statistic),从而判断两个分布是否相同。如果这个值足够小,就认为两个分布相同,否则就认为它们不相同。同时这个值也用来判断两个分布之间的相似程度。

    4)核函数:在一些方法中需要假设训练样本是线性可分的,即存在一个划分超平面能将训练样本正确分类。然而在现实任务中,原始样本空间也许并不存在一个能正确划分两类的超平面。
    对于这种问题可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。(且若原始空间是有限维的,即属性数有限,那么必然可以找到一个高维特征空间使样本可分。)
    由于在求解高维特征空间时需要求解两个特征空间的内积。由于特征空间位数可能会很高,甚至可能是无穷维,因此直接计算其内积非常困难,因此就可以通过核函数的方式求解两个特征空间的内积。此时所用到的函数就称为核函数。

    而模型的最优解可通过训练样本的很函数展开,这一展式被称为“支持向量展式”(support vector expansion).

    从数学的角度理解,只要一个对称函数所对应的核矩阵半正定,它就可以作为核函数使用。对于一个半正定核矩阵,总能找到一个与之对应的映射。换言之,对于一个核函数都隐式的定义了一个称为“再生核希尔伯特空间”(reproducing kernel Hilbert Space)的特征空间。

    常见的核函数有:
    线性核,多项式核,高斯核(也成为RBF核),拉布拉斯核,sigmoid核。
    (具体解释可见周志华老师机器学习一书。)

    5)正定:一个 矩阵 对应一个 二次型函数,记为 f(x) .其中, f(x)=X  AX,X=(x1,x2,...,xn)   
    如果不论 x 取什么值,f(x) 都大于0,即 f(x) 恒大于 0.则 二次型正定,矩阵A是正定矩阵.
    如果是 大于等于 0,就是 半正定.

    6)正则化:在周老师的书中是这么解释的,正则化可以理解为一种惩罚函数法,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望的目标。从贝叶斯估计的角度看,正则化项可认为是提供了模型的先验概率。

    reference:
    1)http://blog.csdn.net/a1154761720/article/details/51516273

    更多相关内容
  • 作者直接考虑了源域和目标域具有不同的联合概率分布的情况, 提出了具有类间差异的联合概率最大平均差异。 通过直接考虑联合概率分布的差异,作者提出了一种用于分布适应的具有类间差异的联合概率 MMD ( ...

    ©PaperWeekly 原创 · 作者|张玮玮

    学校|东北大学硕士生

    研究方向|情感识别

    论文标题:Discriminative Joint Probability Maximum Mean Discrepancy (DJP-MMD) for Domain Adaptation

    论文链接:https://arxiv.org/abs/1912.00320

    代码链接:https://github.com/chamwen/JPDA

    领域适应(DA),或迁移学习,通过将知识从标记的源域转移到新的未标记或部分标记的目标域,广泛应用于图像分类、情绪识别、脑机接口等。传统的 DA 方法遵循这个假设,即主要使用一些度量方法来分别度量边际概率或条件概率分布。然而,联合概率分布可以更好地测量两个域的分布差异。

    为了方便利用 DA 方法,在特征转换时需要考虑两个方面:1)可迁移性,它最小化了同一类在不同域之间的差异;2)区分性,它最大限度地扩大了不同域的不同类之间的差异,从而使不同的类更容易区分。

    传统的 DA 方法只考虑可迁移性,而忽略了类内可区分性。作者直接考虑了源域和目标域具有不同的联合概率分布的情况, 提出了具有类间差异的联合概率最大平均差异。

    通过直接考虑联合概率分布的差异,作者提出了一种用于分布适应的具有类间差异的联合概率 MMD ( discriminative  joint probability MMD, DJP-MMD)。

    它同时最小化了同一类不同域之间的联合概率分布差异以获得可迁移性,最大化了不同域之间的联合概率分布差异以获得可识别性。还可以很容易地将 DJP-MMD 用于考虑不同域之间的非线性转移。

    DJP-MMD知识基础

    1.1 传统MMD方法

    在传统的 DA 方法中,经常使用 MMD 来度量源域和目标域之间的分布差异。一个分布差异完全是由它的联合概率  来描述的,它可以被  或   等价地计算出来。

    上式需要两步才能被近似计算出来。

    条件分布差异是:

     

    边缘分布差异是:

     表示子空间样本的期望。

    引入一个非线性映射  ,MMD 距离可以写成如下式:

    当  是 TCA 方法, 是 JDA 方法, 是 BDA。因此,这些传统的 DA  方法是基于边际和条件的权值完成 MMDs 近似联合概率分布。

    论文方法

    2.1 DJP-MMD

    上图将传统的联合 MMD 提出的 DJP-MMD 进行了比较,从图中可以看出,DJP-MMD 使来自不同域的同一个类更加一致,使不同的类更加分离,便于分类。

    联合概率差异可以定义为:

    表示两个领域之间的类内差异与类间差异。

    因此具有差异的联合概率差异可以定义为: ,其中  可以表示为:

     可以表示为:

    同样  表示为:

    作者将其嵌入到一个非监督联合概率 DA (JPDA) 框架中,该框架具有一个正则化项和一个主成分保留约束。整体优化函数需要将式中的最小化,即,求解最优线性映射

    其中, 是中心矩阵。

    2.2 JPDA优化

    让  ,可以得到拉格朗日函数 :

    通过设置  ,成为一个广义的特征分解问题 :

    2.3 JPDA伪代码

    结果

    为了评估本文方法的性能,作者在 Offifice+Caltech 、COIL 、Multi-PIE 、USPS 、MNIST 数据集进行了实验,将所提出的 JPDA 与三种无监督 DA 方法(TCA、JDA和BDA)进行比较 。实验结果与 t-SNE 数据分布结果如下图。

    JPDA 在大部分任务中都优于 3 个基线实验,平均性能也最好,这说明 JPDA 在跨域视觉适应中可以获得更强的可迁移性和更强的鉴别特征映射。

    t-SNE 数据分布图中,Raw 表示原始数据分布。对于原始分布,来自源域和目标域的类 1 和类 3(也有一些来自类 2)的样本混合在一起。在 DA 之后,JPDA 将源域和目标域的数据分布放在一起,并将来自不同类的样本很好地分隔开。

    从柱形图上看,JP-MMD 优于联合 MMD,而 DJP-MMD 进一步考虑了可分辨性,获得了最好的分类性能。

    结论

    本文提出了一种简单而有效的 DJP-MMD 方法。通过最小化源域和目标域(即,提高域可转移性),最大限度地提高不同类的联合概率 MMD(即,增加类的辨别力)。

    与传统的基于 MMD 的方法相比,JPDA 更简单、更有效地测量了不同领域之间的差异。在 6 个图像分类数据集上的实验验证了 JPDA 的优越性。

    ????

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧

    关于PaperWeekly

    PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

    展开全文
  • MMD :maximum mean discrepancy(最大平均差异)

    万次阅读 多人点赞 2017-05-14 18:56:09
    最大平均差异。最先提出的时候用于双样本的检测(two-sample test)问题,用于判断两个分布p和q是否相同。它的基本假设是:如果对于所有以分布生成的样本空间为输入的函数f,如果两个分布生成的足够多的样本在f上的...

    MMD:maximum mean discrepancy。最大平均差异。最先提出的时候用于双样本的检测(two-sample test)问题,用于判断两个分布p和q是否相同。它的基本假设是:如果对于所有以分布生成的样本空间为输入的函数f,如果两个分布生成的足够多的样本在f上的对应的像的均值都相等,那么那么可以认为这两个分布是同一个分布。现在一般用于度量两个分布之间的相似性。在[1]中从任意空间到RKHS上介绍了MMD的计算,这里根据这个顺序来介绍。 
    1.任意函数空间(arbitary function space)的MMD 
    具体而言,基于MMD(maximize mean discrepancy)的统计检验方法是指下面的方式:基于两个分布的样本,通过寻找在样本空间上的连续函数f,求不同分布的样本在f上的函数值的均值,通过把两个均值作差可以得到两个分布对应于f的mean discrepancy。寻找一个f使得这个mean discrepancy有最大值,就得到了MMD。最后取MMD作为检验统计量(test statistic),从而判断两个分布是否相同。如果这个值足够小,就认为两个分布相同,否则就认为它们不相同。同时这个值也用来判断两个分布之间的相似程度。如果用F表示一个在样本空间上的连续函数集,那么MMD可以用下面的式子表示: 
    defination 
    假设X和Y分别是从分布p和q通过独立同分布(iid)采样得到的两个数据集,数据集的大小分别为m和n。基于X和Y可以得到MMD的经验估计(empirical estimate)为: 
    emperical definition 
    在给定两个分布的观测集X,Y的情况下,这个结果会严重依赖于给定的函数集F。为了能表示MMD的性质:当且仅当p和q是相同分布的时候MMD为0,那么要求F足够rich;另一方面为了使检验具有足够的连续性(be consistent in power),从而使得MMD的经验估计可以随着观测集规模增大迅速收敛到它的期望,F必须足够restrictive。文中证明了当F是universal RKHS上的(unit ball)单位球时,可以满足上面两个性质。 
    2.再生核希尔伯特空间的MMD(The MMD In reproducing kernel Hilbert Spaces): 
    这部分讲述了在RHKS上单位球(unit ball)作为F的时,通过有限的观测来对MMD进行估计,并且设立一些MMD可以用来区分概率度量的条件。 
    在RKHS上,每个f对应一个feature map。在feature map的基础上,首先对于某个分布p定义一个mean embedding of p,它满足如下的性质: 
    mean embedding 
    mean embedding存在是有约束条件的[1]。在p和q的mean embedding存在的条件下,MMD的平方可以表示如下: 
    squaredMMD 
    下面是关于MMD作为一个Borel probability measures时,对F的一个约束及其证明,要求F:be a unit ball in a universal RKHS。比如Gaussian和Laplace RKHSs。进一步在给定了RKHS对应核函数,这个MMD的平方可以表示: 
    kernelizedMMD
    x和x’分别表示两个服从于p的随机变量,y和y‘分别表示服从q的随机变量。对于上面的一个统计估计可以表示为: 
    empirical kernelized MMD
    对于一个two-sample test, 给定的null hypothesis: p和q是相同,以及the alternative hypothesis: p和q不等。这个通过将test statistic和一个给定的阈值相比较得到,如果MMD大于阈值,那么就reject null hypothesis,也就是两个分布不同。如果MMD小于某个阈值,就接受null hypothesis。由于MMD的计算时使用的是有限的样本数,这里会出现两种类型的错误:第一种错误出现在null hypothesis被错误的拒绝了;也就是本来两个分布相同,但是却被判定为相同。反之,第二种错误出现在null hypothesis被错误的接受了。文章[1]中提供了许多关于hypothesis test的方法,这里不讨论。 
    在domain adaptation中,经常用到MMD来在特征学习的时候构造正则项来约束学到的表示,使得两个域上的特征尽可能相同。从上面的定义看,我们在判断两个分布p和q的时候,需要将观测样本首先映射到RKHS空间上,然后再判断。但实际上很多文章直接将观测样本用于计算,省了映射的那个步骤。

    reference 
    [1] A kernel two sample test 
    [2] Optimal kernel choice for large-scale two-sample tests 
    [3] Deep domain confusion: maximizing for domain invariance 
    [4] Learning transferable feature with deep adaptation nets 
    [5] Deep transfer network:Unsupervised domain adaptation 
    [6] Adaptive visual category models to new domains 
    [7] Geodesic flow kernel for unsupervised domain adaptation 
    [8] Transfer sparse coding for robust image representation

    展开全文
  • 最大均值差异MMD

    千次阅读 2019-11-23 15:11:15
    最大均值差异是迁移学习中使用频率最高的度量。 Maximum mean discrepancy,它度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法。简单地理解就是计算两堆数据的均值距离,但是实际比较难计算。就将两个...

    最大均值差异是迁移学习中使用频率最高的度量。 Maximum mean discrepancy,它度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法。简单地理解就是计算两堆数据的均值距离,但是实际比较难计算。就将两个分布映射到另一个空间计算距离。计算距离的方法是,计算分布上每一个点映射到另一空间的距离然后求和。

    MMD的基本原理:假设一个满足P分布的数据集X^{s}=[x_{1}^{s},...,x_{n}^{s}]和一个满足Q分布的数据集X^{t}=[x_{1}^{t},...,x_{m}^{t}]并且存在一个再生希尔伯特空间H(RKHS)存在一个映射函数\Phi (.):X\rightarrow H表示从原始空间到希尔伯特空间的一个映射,并且当n,m趋于无穷时X^{s}X^{t}的最大均值差异可以表示为:

    f(X^{s},X^{t})=\left \| \frac{1}{n}\sum_{i=1}^{n} \phi (x_{i}^{s}) -\frac{1}{m}\sum_{i=1}^{m} \phi (x_{i}^{t}) \right \|

    从公式中可以看出,对每一个样本先投影并求和,求每个数据集的均值,再求差。

     

    展开全文
  • 本文章主要为了复现这个MMD教程中的代码。 pytorch环境安装 下面参考pytorch的官方教程。 这是安装pytorch的先决条件,如果需要用到GPU加速的话还需要下载CUDA驱动。(不过这个小项目就不用啦) ...
  • 可以参考我知乎的文章: 统计知识(一)MMD Maximum Mean Discrepancy 最大均值差异 - 卡兵的文章 - 知乎 https://zhuanlan.zhihu.com/p/163839117 基本思想 一个随机变量的矩反应了对应的分布信息,比如一阶中心矩...
  • MMD(最大均值差异)是迁移学习,尤其是Domain adaptation (域适应)中使用最广泛(目前)的一种损失函数,主要用来度量两个不同但相关的分布的距离。两个分布的距离定义为: MMD(X,Y)=∣∣1n∑ni=1ϕ(xi)−1m∑mj=...
  • 最大均值差异

    万次阅读 2017-04-06 18:04:10
    引言最大均值差异(maximum mean discrepancy, MMD)提出时候是用来双样本检测,也就直观的判断两个数据的分布。
  • MMD(最大均值差异)是迁移学习,尤其是Domain adaptation (域适应)中使用最广泛(目前)的一种损失函数,主要用来度量两个不同但相关的分布的距离。两个分布的距离定义为: MMD(X,Y)=||1n∑i=1n...
  • MMD(最大均值差异)是迁移学习,尤其是Domain adaptation (域适应)中使用最广泛(目前)的一种损失函数,主要用来度量两个不同但相关的分布的距离。两个分布的距离定义为: python代码样例: import torch ...
  • 最大均值差异(Maximum Mean Discrepancy,MMD)是迁移学习,尤其是 域适应(Domain Adaptation)中使用最广泛的一种损失函数,主要用来度量两个不同但相关的分布的距离。最大均值差异还可以用来测试两个样本,是否...
  • 【机器学习】最大均值差异MMD详解

    万次阅读 2019-01-08 15:11:46
    最大均值差异(maximum mean discrepancy, MMD)提出时候是用来测试两个样本,是否来自两个不同分布p和q,如果均值差异达到最大,就说明采样的样本来自完全不同的分布。 原理 MMD的基本原理如下所述:假设有一个满足...
  • 综述:最大池化,平均池化,全局最大池化和全局平均池化?区别原来是这样
  • Jordan Louviere在上世纪90年代初介绍了一种被称为“最大差异测量”的新方法,这种方法是对成对比较法的一种大幅度改进。其做法是让受访者从一组对象中指出能表明最大差异偏好的对象。例如受试者需要在几个对象中...
  • 由于原始分数与相邻基础的平均差异在8至12分之间,因此建议考官从原始分数中减去8分以确定下一个分测验的起点。 有时可能仍然需要向后测试; 然而,与使用作者的建议相比,这种情况发生的频率要低得多。 参考文献 ...
  • 题目:原题链接(简单) 解法 时间复杂度 空间复杂度 执行用时 Ans 1 (Python) O(N)O(N)O(N) O(1)O(1)O(1) ...LeetCode的Python执行用时随缘,只要时间复杂度没有明显差异,执行用时一般都在同一个
  • 具体地,为了测量跨场景的分布差异,通过将数据的判别信息嵌入到最大平均差异的概念中,提出了一种基于类分布的最大平均差异。 与大多数度量学习方法通​​常会学习线性距离以将数据投影到特征空间不同,DDTML使用...
  • 结果表明,①比较植株净光合速率的变化及差异时,应选取植株上不同部位的代表性叶片,取其光合速率 的平均值,以减少误差。②两种株型玉米最大净光合速率均表现为穗位叶>第10叶>第6叶>第22叶>第3叶,给 予中下部叶片良好...
  • 为揭示影响煤层气井组产能差异的因素,基于沁水盆地南部某典型煤层气井组的产气产水特征,探讨平均产水量、初见气时间、初见气井底流压以及初见气累产水量等4项排采表征参数的差异性及其与产气量之间的关系,并采用灰色...
  • 上一节,我们重点讲解了IBM SPSS Statistics独立样本T检验的检验原理、数据要求以及数据转换的方法。这部分的内容相当重要,建议先理解了...1.检验变量,即检验均值是否存在显著性差异的变量数值。 2.分组变量,即用..
  • R统计计算--差异性检验

    万次阅读 2018-08-09 17:49:55
    差异性检验: t检验、秩和检验(如wilcox检验)、Kolmogorov-Smirnov检验 组间差异检验:方差分析、Fisher检验、卡方检验 相关性分析:相关性检验(pearson、spearman和kendall等)、cos相关性检验 基本概念: 1....
  • 独立样本T检验与平均值检验、单样本T检验、配对样本T检验均属于比较平均值的检验方法。不同的是,独立样本T检验比较的是两组个案的平均...本例子检验的是饮用牛奶A组与饮用牛奶B组的初中生身高平均值是否有显著性差异
  • 数据分析方法论2:交叉&平均分析法

    千次阅读 2020-12-17 16:44:19
    平均分析法顾名思义,就是用平均数来反映数据在某一特征下的水平,平均分析通常和对比分析结合在一起,从时间和空间多个角度衡量差异,找到其中的趋势和规律。 01 不得不提的平均平均数用来反映一组数据的...
  • 展开全部每个年龄段的人数乘以对应的年龄,然后再求和,再除以总人数。例如:20岁62616964757a...也就是在人口群体内将各个体年龄差异抽象化,用以反映人口总体在一定时间、地点条件下的一般水平。它采用算术...
  • 摘要: 基因芯片筛选差异表达基因方法比较单文娟, 童春发, 施季森 摘要: 使用计算机模拟数据和真实的芯片数据, 对8 种筛选差异表达基因的方法进行了比较分析, 旨在比较不同方法对基因芯片数据的筛选效果。模拟数据...
  • 文章目录学习目标DESeq2差异基因表达分析流程第一步:估计大小因子第二步:估计基因离散(gene-wise dispersion)第三步:拟合曲线到基因的分散估计第四步:将基因离散估计值向曲线预测值收缩MOV10 DE分析:探讨离散...
  • 使用DiffBind进行peak 差异分析

    千次阅读 2020-04-07 19:30:00
    欢迎关注”生信修炼手册”!DiffBind是一个用于peak差异分析的R包,源代码保存在Bioconductor上,链接如下http://www.bioconductor.org/pac...
  • 使用DESeq2进行差异表达 学习目标 探索RNA-seq计数数据的特征 评估RNA-seq计数数据中的均值-方差关系 了解生物学重复的重要性 探索RNA-seq计数数据 计数矩阵(Count matrix) 当我们开始差异基因表达分析时,我们...
  • 本文出自Google的Federated Learning of Deep Networks using Model Averaging,主要介绍使用模型平均方法的联邦式学习。 文章目录引言一、 简介二、 联邦式学习三、 联邦式优化四、 联邦平均算法五、 实验结果六、...
  • 两列样本的差异基因筛选

    千次阅读 2017-05-02 12:28:18
    两列样本数据的差异基因筛选方法: FoldChange法+FDR控制 其中,FDR值的计算方法如下: 1)对每个基因进行p-value的计算 假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 91,007
精华内容 36,402
关键字:

最大平均差异