精华内容
下载资源
问答
  • 《因果学习周刊》第2期:因果表征学习
    2021-10-20 10:49:33

    关于周刊
    文章来源:智源社区
    因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第2期《因果学习周刊》。
    本期周刊将主要讨论因果表征学习的相关研究。传统的因果发现通常是直接从结构化变量数据出发,研究变量之间的因果关系,但在实际应用中,大量的数据都是非结构化的,例如图片、文本等等;并且,传统的因果发现方法在可扩展性上有较大的局限性,无法处理变量维数较高的情况。因此,传统的因果发现方法在许多场景下无法直接应用。而近年来,随着深度学习的一系列方法的出现,表征学习有了突破性的进展,深度学习在非结构化数据、高维变量数据上有了广泛的应用。于是,“因果表征学习”自然而然地开始得到关注。即:如何从非结构化数据中学出具有因果结构的表征变量。其中,解耦表征学习是实现因果表征学习的一种代表性思路。本期主要介绍了因果表征学习(Causal Representation Learning)相关的方法,也涉及到解耦表征学习(Disentangled Representation Learning)的一些方法,部分文章探讨了与分布外泛化问题(Out-of-Distribution Generalization)的关系。最后介绍了一篇今年较新的因果表征学习的综述文章。
    周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动因果学习社群的分享、学习和交流活动。可以扫描文末的二维码加入因果学习社区群。
    本期贡献者:禹含

    论文推荐

    标题:UCL & Huawei | CausalVAE: Disentangled Representation Learning via Neural Structural Causal Models (CVPR 2021)
    简介:学习解耦表征的目的是找到一组低维表征,这组表征由多个可解释的、生成性的因素构成。VAE的框架已经被广泛用于从观测数据中解耦出独立的因素。然而,在现实情况下,有语义的因素不一定是独立的,反而可能有一套内在的因果结构使得这些因素是互相依赖的。本文继而提出了一个新的VAE框架,名叫CausalVAE,其中包含了一个因果层来将独立的外部变量转变为因果的内部变量,这些变量对应于数据中有因果关系的一些概念。本文进一步分析了模型的可识别性,表明提出的模型可以在一定程度上恢复真实数据。本文在多个数据集上做了实验,包括模拟数据和真实基准数据集CelebA。结果表明,CausalVAE学出的因果表征在语义上是可解释的,并且它们以有向无环图(DAG)呈现的因果关系的识别正确率是很高的。更进一步地,本文证明了提出的CausalVAE模型能够通过对因果变量实施“do操作”,产生反事实的数据。
    推荐理由:将线性SCM与解耦表征学习相结合,是因果表征学习的一种实现方式。
    论文链接:https://www.aminer.cn/pub/5ee7495191e01198a507f6a4?f=cs

    标题:HKUST & Huawei | Disentangled Generative Causal Representation Learning
    简介:本文提出了一种解耦生成式因果表征学习的方法。和现有的解耦方法会迫使隐变量独立不同,本文考虑的是更通用的情况,也就是潜在的感兴趣的变量之间有因果关系。本文展示了此前的使用独立分布作为先验的方法不能做到解耦有因果关系的变量。受到这一发现的启发,本文提出了一种新的解耦表征学习的方法,叫做DEAR,能够实现因果可控的生成和因果表征的学习。这一方法的关键在于使用一个结构因果模型(SCM)作为双向生成模型的先验分布。然后用生成器和编码器去进行训练,采用的是GAN的损失函数,并且融入了一些监督信号。本文对于提出的方法的可识别性和渐进一致性提供了理论上的正当性,保证了合适的条件下的解耦因果表征学习。本文在模拟数据和真实数据上都做了大量的实验,证明了DEAR在因果可控的生成中的有效性,以及下游任务中的样本有效性和分布鲁棒性所体现出的学到的表征的优势。
    推荐理由:在预先获知因果图结构的情况下,将非线性的SCM融入了表征学习,是因果表征的一种实现方式。
    论文链接:https://www.aminer.cn/pub/5f7d961d91e011346ad27e66?f=cs

    标题:Cambridge & MPG | Nonlinear Invariant Risk Minimization: A Causal Approach
    简介:受到虚假关联的影响,当测试环境的分布与训练阶段不同的时候,机器学习系统经常会泛化失败。此前的工作在处理这一问题时,或是显式处理或者隐式处理,一般都是试图找到一套表征,这套表征与目标变量之间有不变的因果关系,通常是利用多个不同的训练环境来削弱虚假特征的作用、构建出不变的模型。然而,这些方法仅在数据表征和分类器都是线性模型的时候,才能保证泛化。本文提出了不变因果表征学习(ICRL),是一种能够实现非线性情况(非线性表征和非线性分类器)下的分布外(OOD)泛化的学习范式。这一方法基于一个实用且通用的假设:给定目标变量和环境变量为条件时,数据表征的先验分布是可分解的。基于此,本文展示了在简单变换下,数据表征是可识别的。本文还证明了目标变量的所有直接原因都可以被发现,这进一步使得能够在非线性情况下获得泛化保证。本文在模拟数据集和真实数据集上都做了大量实验,表明提出的方法要显著优于许多基准线方法。最后,在总结部分的讨论中,本文进一步探究了此前提出的假设,并提出了一个通用的视角,叫做“未知假设”:存在一套隐藏的因果变量,既影响输入也影响输出。就表征学习而言,未知假设可以为机器学习提供一个统一的视角,不论是有监督的、无监督的还是强化学习。更重要的是,它可以启发一个新方向去探究识别隐藏因果变量的通用理论,而这正是机器学习中的OOD泛化的关键。
    推荐理由:尝试了为非线性情况下的OOD泛化提供理论保证和算法。
    论文链接:https://www.aminer.cn/pub/60378f7891e011d7c73cd59e?f=cs

    标题:ETH & MPI | Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations (ICML 2019)
    简介:解耦表征的无监督学习背后的核心思想在于,真实世界的数据是通过一些可解释的变量生成的,这些变量可以通过无监督学习的算法恢复出来。在本篇论文中,将会冷静地看待这一领域的最新进展,并对一些常见的假设提出挑战。本文首先从理论上证明了:在对模型和数据没有归纳偏置的情况下,解耦表征的无监督学习是不可能实现的。然后,本文在实验中训练了超过12000个模型,覆盖了大多数常用的方法和评价指标,在七个不同的数据集上进行了大规模可复现的实验。我们注意到,当不同的方法成功地让模型获得对应的损失函数所“鼓励”的性质时,解耦效果好的模型似乎并不能在没有监督信号的情况下被识别出来。进一步地,解耦效果好,似乎并不会让下游任务学习中的样本复杂度的下降。本文的结果表明,解耦学习领域未来的工作应当对归纳偏置和(隐式的)监督信号所扮演的角色更加清晰明确,探究解耦对于学到的表征的具体好处,并在做实验时考虑在多个数据集上进行可复现的实验。
    推荐理由:ICML 2019 best paper,通过理论证明和大量充分的实验,对解耦表征学习领域过去的相关假设及研究进行了质疑和挑战,非常有启发性。
    论文链接:https://www.aminer.cn/pub/5e72342f93d709897cfbe0e5?f=cs

    标题:ETH & MPI | Structure by Architecture: Disentangled Representations without Regularization
    简介:本文研究的问题是使用自编码器来实现自监督结构化表征学习。和大多数方法需要去匹配一个任意的、相对非结构化的先验分布来采样,本文提出了一种只依赖于隐变量独立性的采样方式,从而避免了像VAE那样需要在重构质量和生成性能之间做权衡。本文设计了一种新颖的自编码器结构,能够在不需要正则化的情况下学出结构化的表征。本文提出的结构化解码器能够学出有层次结构的隐变量,类似于结构因果模型SCM,从而不带任何正则化就可以整合信息。本文在几个有挑战性的自然图片数据集上,通过实验展示了这些模型是如何学出一套表征来提升下游任务上的表现,包括生成、解耦、外插。
    推荐理由:本文通过一些定性的实验来揭示解耦表征学习算法的外插能力。
    论文链接:https://www.aminer.cn/pub/616ec3746750f857fac47edf?f=cs

    标题:MPI & ETH | On Disentangled Representations Learned from Correlated Data (ICML 2021
    简介:解耦关注的重点是识别出数据中隐含的互相独立的变化因素。然而,现实中观测数据背后的因果变量通常不是统计意义上独立的。本文进行了大规模的实验,在内含相关性的数据上尝试了大多比较知名的解耦算法,分析了它们的效果。本文展示并量化表明,数据集中系统性存在的关联性是会被学到的,并且会反映在隐层表征中,这对于解耦学习的下游应用有一些启发,比如公平性。本文还展示了如何消除这些隐含的关联性,通过训练阶段利用一些弱监督的信号,或者事后用少量标签来校正预训练出来的模型。
    推荐理由:探究了解耦表征学习与OOD泛化的关系。
    论文链接:https://www.aminer.cn/pub/60bdde338585e32c38af5028?f=cs

    标题:MPI & ETH | On the Transfer of Disentangled Representations in Realistic Settings (ICLR 2021)
    简介:机器学习的一个重要的问题是,学出一套有意义的表征,能够解耦出数据生成过程的内在结构。尽管已经发现解耦表征对于很多任务都有用,包括抽象推理、公平分类,它们的可扩展性和真实应用仍值得怀疑。本文引入了一个新的高分辨率的数据集,有100万张模拟生成的图片和1800多张带标记的真实图片。和此前的工作相比,这个新数据集呈现了关联性和复杂的内在结构,使得能够评估在未见过的模拟和真实情况下的迁移,编码器可能是分布内的也可能是分布外的。本文提出了新的架构使得解耦表征学习可以扩展到真实的高分辨率的图片上,并在这一新数据集上做了大规模的解耦表征学习的实验。本文发现,解耦的确是实现分布外(OOD)任务的一种不错的方式
    推荐理由:扩展了解耦表征学习的规模,且探究了与OOD任务的关系。
    论文链接:https://www.aminer.cn/pub/5f994d7091e011a3fbe2fcfa?f=cs

    研究动态

    Schölkopf和Bengio联合发表因果表征学习综述
    今年上半年,Schölkopf和Bengio联合发表了一篇因果表征学习的综述:Towards Causal Representation Learning。本文后来已经被Proceedings of IEEE接收。
    简介:机器学习和因果图模型这两个领域是各自单独产生、发展壮大的。然而,现在两个领域有交汇之处,越来越多的人想知道对于如何借鉴对方的领域来使自己的领域受益。在这篇论文中,我们回顾了因果推断的一些重要概念,将它们与机器学习中关键的开放问题关联起来,包括迁移和泛化,继而分析因果对于现在的机器学习研究能起到怎样的帮助作用。反之亦然:我们注意到,因果领域的工作通常事先假定因果变量是已知的。而对于人工智能和因果,一个重要的问题就是,因果表征的学习,也就是从低阶的观测数据中发现高阶的因果变量。最后,我们描绘了因果对于机器学习的一些启示,并且提出了在两个领域交汇处的一些重要的研究方向。
    推荐理由:Schölkopf和Bengio合作的一篇综述,对于因果表征学习、因果和机器学习的关系与未来发展做出了展望。
    论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9363924

    更多相关内容
  • 3.5表征学习方法

    2021-05-11 21:25:20
    3.5表征学习方法 人工智能之强化学习 本节学习第五个方法-表征学习。 3.5.1平衡表示学习 统计学习理论中最基本假设是,训练数据和测试数据来自同一分布。但是,在大多数实际情况下,测试数据是从一个仅与训练...

     

     人工智能之强化学习 

     

    本节学习第五个方法-表征学习。

    3.5.1平衡表示学习

    统计学习理论中最基本假设是,训练数据和测试数据来自同一分布。但是,在大多数实际情况下,测试数据是从一个仅与训练数据的分布相关但不相同的分布中提取的。

    在因果推理中,这也是一个很大的挑战。与随机对照试验不同,观察数据中不明确治疗分配的机制。因此,感兴趣的干预并非独立于受试者的属性。

    例如,在对药物治疗效果的观察性研究中,根据几个因素(包括已知的混杂因素和一些未知的混杂因素)将药物分配给个体。

    结果,反事实分布通常将与事实分布不同。因此,有必要通过从事实数据中学习来预测反事实结果,从而将因果推理问题转换为领域适应问题。

    提取有效的特征表示对于领域适应至关重要。文献14从理论上提出了一个具有泛化的模型来形式化这种直觉,它不仅可以显式地最小化源域和目标域之间的差异,而且可以最大化训练集的边界。

    基于这项工作,分布之间的差异距离被定制为具有任意损失函数的适应性问题。在下面的讨论中,差异距离在解决因果推理中的域适应问题方面起着重要作用。

    到目前为止,我们可以看到反事实推理与领域适应之间的联系。一种直观的想法是加强表示空间中不同处理组分布之间的相似性。习得的表征需要权衡三个目标:

    • (1)相对于事实表征的低误差预测;

    • (2)考虑相关事实结果对反事实结果的低误差预测,

    • (3)治疗人群和控制人群分布之间的距离。

    遵循这种动机,文献[122]给出了一个简单直观的泛化误差界限。它表明,该表示法的期望ITE估计误差为该表示法的标准推广误差和基于表示法的处理分布与控制分布之间的距离之和。

    积分概率度量(IPM)用于测量分布之间的距离,并为Wasserstein距离和最大平均差异(MMD)距离导出显式边界。目的是找到一个表示和假设可以将以下目标函数最小化:

    其中,权重ri补偿治疗组大小的差异.R是模型复杂度项。给定在上定义的两个概率密度函数p,q和函数族,则IPM定义为:

    该模型允许以较大的灵活性学习复杂的非线性表示和假设。当Φ的维数较高时,如果将Φ和W的串联作为输入,则有可能失去t对h的影响。

    为了解决这个问题,一种方法是将h1(Φ)和h0(Φ)参数化为联合网络的两个单独的“头”。h1(Φ)用于估计治疗结果,h0(Φ)用于对照组。每个样本仅用于更新与观察处理相对应的头部。

    优点是统计力在公共表示层中共享,并且处理的影响保留在单独的头中。如完美匹配(PM)方法中所述,该模型还可以扩展到任意数量的处理方式。

    遵循这个想法,已经提出并讨论了一些改进的模型。例如,[61]将位移不变表示学习和重新加权方法结合在一起。

    [51]在表示学习的基础上,提出了一种基于重要性采样技术的新的上下文感知加权方案,以减轻ITE估计中的选择偏差问题。

    现有的ITE估计方法主要关注于平衡对照组和治疗组的分布,但是忽略了局部相似性信息,该信息为ITE估计提供了有意义的约束。

    在文献[149,150]中,提出了一种基于深度表示学习的局部相似度保留个体治疗效果(SITE)估计方法。SITE保留本地相似性并同时平衡数据分布。

    SITE的框架包含五个部分:表示网络,三元组对选择,位置相关的深度度量(PDDM),中点距离最小化(MPDM)和结果预测网络。

    为了提高模型效率,SITE以小批量方式获取输入单位,并且可以从每个小批量中选择三联体对。表示网络学习输入单元的潜在嵌入。

    通过选择三元组对,PDDM和MPDM可以保留局部相似性信息,同时在潜在空间中实现平衡分布。

    最后,将小批量嵌入到二分类结果预测网络中,得到潜在结果。SITE的损失函数如下:

    其中LF L是估计的和观察到的事实结果之间的事实损失。LPDDM和LM P DM分别是PDDM和MPDM的损失函数。最后一项是对模型参数M的L2正则化(偏差项除外)。

    大多数模型关注于带有数值的协变量,而如何处理带有文本信息的协变量以进行治疗效果评估仍是一个悬而未决的问题。一个主要的挑战是如何过滤掉几乎是工具性的变量这些变量比结果更能预测治疗。以这些变量为条件来估计治疗效果会放大估计偏差。

    为了应对这一挑战,[151]提出了一种基于条件处理-对抗学习的匹配(CTAM)方法。CTAM结合了治疗对抗学习,以在学习表示时过滤掉与近工具变量有关的信息,然后在学习的表征之间进行匹配以估计治疗效果。

    CTAM包含三个主要部分:文本处理,表示学习和条件处理鉴别器。

    通过文本处理组件,将原始文本转换为向量化表示S。此后,将S与非文本协变量X串联以构建统一的特征向量,然后将其输入到表示神经网络中以获得潜在表示Z。

    在学习了表示形式之后,Z和可能的结果Y一起被输入到条件处理鉴别器中。在训练过程中,表现型学习者与条件处理鉴别器进行极大极小博弈:通过阻止鉴别器分配正确的治疗,代表性学习者可以过滤掉与近工具变量有关的信息。最终匹配过程在表示空间Z中执行。

    条件治疗对抗学习有助于减少治疗效果估计的偏差。

    与上述基于表征学习后的基于回归的方法相比,匹配方法更具可解释性,因为任何样本的反事实结果都直接被设定为接受相反处理的组中最近邻的事实结果。

    最近邻匹配(NNM)将任何处理(对照)样本的反事实结果设置为与对照(处理)组中最近邻的事实结果相等。

    尽管大多数NNM方法简单,灵活且易于解释,但它们很容易被不影响结果的变量所误导。

    为了应对这一挑战,可以在预测治疗组和对照组的结果变量的子空间上进行匹配。在学习的子空间中应用NNM可以更准确地估计反事实结果,从而可以准确估计治疗效果。

    [26]通过学习一个投影矩阵来估计治疗样本的反事实结果,该投影矩阵最大化了子空间和控制样本的结果变量之间的非线性相关性。然后,它将学习到的投影矩阵直接应用于所有样本,并在子空间中找到每个治疗样本的匹配对照样本。

     

     

     

     

    微信扫一扫
    关注该公众号

    展开全文
  • 概述了非线性光学材料的光学效应,然后根据化学性质的不同,将非线性光学材料分类为无机、有机(有机低分子、有机高分子、金属有机)和...针对不同的材料进行简单综述,最后介绍了两种常用表征光学材料非线性性能的方法
  • 为此提出一种基于表征学习方法的推荐算法,改进算法实现了基于二部图网络的多目标节点表征学习方法,在节点表征中通过嵌入不同层次的网络结构信息和适合推荐任务的次序信息来提升推荐性能。三个不同规模真实数据集上...
  • 分形方法是一种用于表征表面形貌的新方法。分析了常用的M-B分形函数及其参数的选择,并以M-B分形函数作为标准轮廓曲线,分析比较了目前常用的几种分形维数算法,如尺码法、盒维数法、方差法、轮廓均方根法、功率谱法、...
  • 锂离子电池材料常用表征技术.doc
  • 详细介绍文本数据的四种表示模型,以及常见的6种文本数据的特征选择方法
  • 对柑桔皮进行了色素提取并对提取色素进行性能表征。用无水乙醇作为提取剂,原料与提取剂质量体积比为1: 9,分三次提取,石油醚萃取醇提取液,分别得油溶性和水溶性色素。该色素理化性质实验表明:水溶性色素最大吸收峰...
  • 在深度学习工具箱里,把从任务A中学到的好表征方法用在任务B上是一个很主要的技巧。根据细节不同,这个普遍的技巧的名称也不同,如:预训练(pretraining),迁移学习(transfer learning),多任务学习(multi-task ...

    简介

    过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。

    虽然结果好,我们也必须思考……它们为什么这么好使?

    在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而优美的视角。

    单隐层神经网络

    单隐层神经网络有一个普适性(universality):给予足够的隐结点,它可以估算任何函数。这是一个经常被引用的理论,它被误解和应用的次数就更多了。

    本质上这个理论是正确的,因为隐层可以用来做查询表。

    简单点,我们来看一个感知器网络(perceptron network)。感知器 (perceptron)是非常简单的神经元,如果超过一个阈值它就会被启动,如果没超过改阈值它就没反应。感知器网络的输入和输出都是是二进制的(0和1)。

    注意可能的输入个数是有限的。对每个可能的输入,我们可以在隐层里面构建一个只对这个输入有反应的神经元(见注解1)。然后我们可以利用这个神经元和输出神经元之间的连接来控制这个输入下得到的结果(见注解2)。

    这样可以说明单隐层神经网络的确是有普适性的。但是这也没啥了不起的呀。你的模型能干和查询表一样的事并不能说明你的模型有任何优点。这只能说明用你的模型来完成任务并不是不可能的罢了。

    普适性的真正意义是:一个网络能适应任何你给它的训练数据。这并不代表插入新的数据点的时候它能表现地很理想。

    所以普适性并不能解释为什么神经网络如此好用。真正的原因比这微妙得多… 为了理解它,我们需要先理解一些具体的成果。

    单词嵌入(Word Embeddings)

    我想从深度学习研究的一个非常有意思的部分讲起,它就是:单词嵌入(word embeddings)。在我看来,单词嵌入是目前深度学习最让人兴奋的领域之一,尽管它最早是由Bengio等人在十多年前提出的(见注解3)。除此之外,我认为它们能帮助你通过直觉来了解为什么深度学习如此有效。

    单词嵌入W:words→Rn是一个参数化函数,它把某个语言里的单词映射成高维向量(大概200到500维)。例如这样:

    W(‘‘cat”)=(0.2, -0.4, 0.7, …)
    W(‘‘mat”)=(0.0, 0.6, -0.1, …)
    (一般这个函数就是一个查询表,用一个矩阵θ来参数化,每行是一个单词:Wθ(wn)=θn.)
    初始化时,W中每个词对应一个随机的向量。它会学习出有意义的向量以便执行任务。

    举个一个可能的任务的例子:训练一个网络让其预测一个5元组(5-gram)(连续的5个词)是否‘成立’。我们可以随便从维基百科上选一堆5元组(比如cat sat on the mat)然后把其中一个词随便换成另外一个词(比如cat sat song the mat),那么一半的5元组估计都会变得荒谬且没意义了。

     判断5元组是否成立的模块网络(来自于 Bottou (2011)

    我们训练的模型会通过W把5元组中每个词的表征向量取出来,输入给另外一个叫R的模块,模块R会试图预测这个5元组是‘成立的’或者是‘破碎的’。然后我们希望看见:

    R(W(‘‘cat”), W(‘‘sat”), W(‘‘on”), W(‘‘the”), W(‘‘mat”))=1
    R(W(‘‘cat”), W(‘‘sat”), W(‘‘song”), W(‘‘the”), W(‘‘mat”))=0

    为了准确地预测这些值,这个网络需要从W以及R中学习到好的参数。

    现在看来这个任务并没什么意思。也许它能用来检测语法错误什么的,没什么大不了。但是极其有趣的部分是这个W。

    (事实上,对我们来说,这个任务的意义就是学习W。我们当然也可以做一些其他的任务 – 一个很常见的任务是预测句子中下一个单词。但我们实际上并不在乎任务是什么。这节后面我们会谈到许多单词嵌入成果,但并不会区分得到这些成果的方法的不同。)

    想直观感受一下单词嵌入空间的话,我们可以用t-SNE来对它进行可视化。t-SNE是一个复杂的高维数据可视化技术。

     t-SNE对单词嵌入的可视化结果。左图:数字区间。右图:工作岗位区间。来源: Turian et al. (2010)全图在此

    这种单词构成的“地图”对我们来说更直观。相似的词离得近。另一种方法是看对一个给定单词来说,哪些其他的单词离它最近。我们可以再一次看到,这些词都很相似。

     哪些词的嵌入离一个给定词最近?来自于 Collobertet al. (2011)

    网络能让意义相似的词拥有相似的向量,这看起来是很自然的事。如果你把一个词换成它的同义词(例如 “a few people sing well” → “a couple people sing well”),句子的成立性并没有变化。虽然从字面上看,句子变化很大,但如果W把同义词(像“few”和”couple”这种)映射到相近的空间,从R的角度来看句子的变化很小。

    这就牛了。可能的5元组的数目是巨大的,相比之下我们的训练数据量很小。相似的单词距离近能让我们从一个句子演变出一类相似的句子。这不仅指把一个词替换成一个它的同义词,而且指把一个词换成一个相似类别里面的词(如“the wall is blue” → “the wall is red” )。进一步地,我们可以替换多个单词(例如“the wall is blue” → “the ceiling is red”)。它的影响对单词数目来说是指数级的 (参见注解4)。

    很明显,这是W的一个用武之地。但它是如何学会做这个的呢?看起来很可能很多情况下它是先知道“the wall is blue”这样的句子是成立的,然后才见到“the wall is red”这样的句子。这样的话,把“red”往”blue”那边挪近一点,网络的效果就更好。

    我们并没见过每个单词使用的例子,但是类比能让我们泛化衍生出新的单词组合。你懂的单词你都见过,但是你能懂的句子你并没有都见过。神经网络也是如此。

    单词嵌入展示了一个更引人注目的属性:单词间的类比仿佛是被编码在了单词向量的区别中。比如,这个看来是个男-女区别向量:
    W(‘‘woman”)−W(‘‘man”) ≃ W(‘‘aunt”)−W(‘‘uncle”)
    W(‘‘woman”)−W(‘‘man”) ≃ W(‘‘queen”)−W(‘‘king”)

    也许这看起来并不奇怪。毕竟表性别的代词意味着换一个词整个句子的语法就错了。正常话是这么说的 “she is the aunt” ,“he is the uncle.”。同样的,“he is the King”, “she is the Queen.”。如果你看见“she is the uncle,” 最可能的解释就是这句话有语法错误。这个情况看起来很可能是:一半的时候单词都被随机地替换了。

    也许我们会放马后炮:“当然是这样啦!单词嵌入会学着把性别按照一致的方式来编码。事实上也许就存在一个性别的维度。对单复数来说也是一样。找出这些明显的关系太简单了!”

    然而,更复杂的关系也是这样被编码的。这看起来几乎像奇迹一样!

    单词嵌入中的关系对。来自  Mikolov et al. (2013b).

    能够充分意识到W的这些属性不过是副产品而已是很重要的。我们没有尝试着让相似的词离得近。我们没想把类比编码进不同的向量里。我们想做的不过是一个简单的任务,比如预测一个句子是不是成立的。这些属性大概也就是在优化过程中自动蹦出来的。

    这看来是神经网络的一个非常强大的优点:它们能自动学习更好的数据表征的方法。反过来讲,能有效地表示数据对许多机器学习问题的成功都是必不可少的。单词嵌入仅仅是学习数据表示中一个引人注目的例子而已。

    共同表征

    单词嵌入的这些属性当然非常有意思,但是除了判断5元组是不是成立这种傻问题还能干点啥有用的么?

    W和F学习完成任务A, G可以根据W来学习完成任务B

    之前我们学习单词嵌入是为了在简单任务上有出色的表现,但基于我们从单词嵌入中发现的好属性,你也许会猜想它们对自然语言处理任务整体都适用。实际上,这样的单词特征表示(word representations)是极其有用的:

    “利用单词特征表示…已经成为近年来许多NLP系统成功的秘密武器,包括命名实体识别,词性标注,语法分析和语义角色标注。(Luong et al. (2013) ”

    在深度学习工具箱里,把从任务A中学到的好表征方法用在任务B上是一个很主要的技巧。根据细节不同,这个普遍的技巧的名称也不同,如:预训练(pretraining),迁移学习(transfer learning),多任务学习(multi-task learning)等。这种方法的好处之一是可以从多种不同数据中学习特征表示。

    这个技巧有个对应面。除了在一种数据上学习表征然后应用在不同任务上,我们还可以从多种数据中学习出一种单个的表征!

    一个很好的例子就是Socher et al. (2013a) 提出的双语单词嵌入。我们可以从两种不同语言中把单词嵌入到一个共享的空间去。在这个例子里,我们学习把汉语和英语嵌入到同一个空间去。

    我们用和上面差不多的方法来训练Wen和Wzh两种嵌入。但是,我们已知某些中文和英文的词汇有相似的意思。所以,我们追加一个属性优化:我们已知的翻译过后意思相似的词应该离得更近。

    理所当然,我们会发现我们已知的有相似意思的词在最后结果中离得很近。我们本来就是针对这个做的优化,这个结果没什么让人惊讶的。但更有意思的是我们未知的翻译后意思相似的词结果距离也很近。

    鉴于我们前面有关单词嵌入的经验,这个也许并不太让你感到惊奇。单词嵌入就是会把相似的词聚到一起,所以如果我们已知的中英词汇离得近,它们的同义词自然离得近。我们还知道类似性别差异趋向于可以用一个常数的差异向量表示。看起来,对齐足够多的点会让这些差异向量在中文和英文的嵌入中保持一致。这样会导致如果我们已知两个男性词互为翻译,最后我们也会得到一对互为翻译的女性词。

    直观来讲,仿佛就是两种语言有着相似的“形状”,通过对齐不同的点,两种语言就能够重叠,其他的点就自然能被放在正确的位置上。

    双语单词嵌入的t-SNE可视化图。绿色是中文,黄色是英文。来自( Socher et al. (2013a))

    在双语单词嵌入中,我们对两种很相似的数据学习了一个共享表征。我们也可以学习把非常不同的几种数据嵌入到同一个空间去。

    近期,深度学习已经开始探索能够把单词和图像嵌入到同一个表征下的模型(参见注解5)。

    基本思路就是你可以通过单词嵌入输出的向量来对图像进行分类。狗的图像会被映射到“狗”的单词向量附近。马的图像会被映射到“马”的单词向量附近。汽车的图像会被映射到“汽车”的单词向量附近。以此类推。

    有趣的是如果你用新类别的图像来测试这个模型会发生什么呢?比如,如果这个模型没训练过如何分类“猫”,也就是把猫的图像映射到“猫”向量附近,那当我们试图对猫的图像进行分类的时候会发生什么呢?

    结果表明,这个网络是可以很合理地处理新类别的图像的。猫的图片并没有被映射到单词嵌入空间的随机的点中。相反的,他们更倾向于被映射到整体上相近的“狗”的向量中去,并且事实上更接近于“猫”的向量。相似的,卡车的图片最后离“卡车”向量相对也比较近,“卡车”向量和与它相关的“汽车”向量很近。

    这个图是斯坦福一个小组用8个已知类(和2个未知类别)做的图。结果已经很可观了。但因为已知类数目小,能够用来插入图像和语义空间的关系的点就很少了。

    差不多同时期,Google的小组做了一个大得多的版本,他们用了1000个类别而不是8个(Frome et al. (2013))。之后他们又做了一个新的版本(Norouzi et al.(2014))。两者都基于非常有效的图像分类模型(来自 Krizehvsky et al.(2012)),但它们使用了不同的方式把图像嵌入到单词嵌入空间去。

    他们的成果是很赞的。虽然他们不能把未知类的图片准确放到代表这个类的向量上去,但是他们能够把它放到正确的区域。所以,如果你用它来对区别比较大的未知类的图片来分类,它是能够区分类别的不同的。

    即使我从来没见过艾斯库拉普蛇和穿山甲,如果你给我看这两样东西的照片,我能告诉你哪个是哪个因为我大致知道这两个词和什么样的动物有关。这些网络可以做到同样的事情。

    (这些结果都利用到一种“这些词是相似的”的推断。但是看起来根据词之前的关系应该有更有力的结果。在我们的单词嵌入空间里,在男性和女性词上有一个一致的差异向量。相似的,在图像空间中,也有一致的可以区分男性和女性的特征。胡子,八字胡,秃顶都是强烈的,可见的男性特征。胸部,及没那么可靠的如长发,化妆品及珠宝这些是明显的女性特征(参见注解6)。即使你从来没见过一个国王,如果一个带着王冠的王后突然有了胡子,那把她变成男人也是很合理的。)

    共享嵌入是一个非常让人兴奋的研究领域,它暗示着为何深度学习中这个注重表征方法的角度是如此的引人入胜。

    递归神经网络

    我们之前是用下面这个网络开始谈单词嵌入的:

    学习单词嵌入的模块化网络(来自 Bottou (2011)

    上面的图描绘了一个模块化网络,R(W(w1), W(w2), W(w3), W(w4), W(w5))。它是由两个模块构建的,W和R。这个用能拼在一起的小一些的神经网络模块来构建神经网络的方法传播并不是十分广泛。然而,在NLP中它很有效。

    像上面那样的模型很有效,但很不幸它们有个局限:输入参数的个数必须是固定的。

    (来自  Bottou (2011))
     我们可以通过加入一个关联模块A来解决这个问题。这个关联模块可以将两个单词或词组的表征合并起来。

    通过合并一系列的单词,A让我们不仅能够表示单词,而且能够表示词组甚至整个句子!另外因为我们可以合并不同数量的单词,我们就可以不固定死输入的个数了。

    把句子中的单词线性地合并在一起的做法并不是在所有情况下都讲得通。考虑下面这个句子“the cat sat on the mat”,很自然地它可以被分成下面这样用括号分开的不同的段:“((the cat) (sat (on (the mat))”. 我们可以把A应用在这个分段上:

    (来自 Bottou (2011))
    这样的模型通常被称作“递归神经网络”因为一个模块经常会使用另外一个同类型模块的输出。有时候它们也被称作“树形神经网络tree-structured neural networks”。

    递归神经网络在一系列NLP任务中都有很重大的成功。比如Socher et al. (2013c) 就利用了一个递归神经网络来预测句子的情感:

    一直以来,一个很主要的目标是如何创建一个可逆的句子表征(sentence representation),也就是能够通过这个表征来构建一个真正的有着相似意思的句子。例如,我们可以尝试引入一个分解模块(disassociation module)D来试着把A分解了:

    (来自  Bottou (2011))

    如果这个能成功,将会是一个极其强大的工具。举个例子,我们可以尝试做一个双语句子表征然后把它用在翻译任务上。

    不幸的是,这个实际上是很难实现的。非常,非常难。同时因为它一旦成功有巨大的前途,有很多人在为研究它而努力。

    最近,Cho et al. (2014)在词组表征上有了一些进展,他们做了一个能把英语词组编码,解码成法语的模型。来看看它学习出来的词组表征吧!

    词组表征的t-SNE的一小部分(来自 Cho et al. (2014)

    批判

    有关上面我们综述的一些结果,我也听说有其他领域的研究人员,尤其是NLP和语言学的人,对他们进行了批判。他们的顾虑倒不是针对结果本身的,反而是从结果中得出的结论以及他们和其他方法的区别。

    我觉得自己的能力不足以清晰的表达这些顾虑。我鼓励有能力的人在(英文原文)评论里描述这些顾虑。

    结论

    深度学习中的表征视角是非常有力的,也似乎能够解答为何深度神经网络如此有效。在此之上,我认为它还有一个极美的地方:为何神经网络有效?因为在优化多层模型的过程中,更好的来数据表征方法会自动浮现出来。

    深度学习是个非常年轻的领域,理论根基还不强,观点也在快速地改变。我感觉神经网络中重视表征的这个方面目前是十分流行的。

    在这篇文章里,我综述了一些我觉得十分让人兴奋的研究成果,但我写这篇文章的主要动力是为之后要写的一篇探索深度学习,类型论(type theory)和功能性编程(functional programming)之间关系的文章铺路。如果你感兴趣的话,可以订阅我的RSS(原文作者),这样文章发布时你就能看见了。

    展开全文
  • 以咪唑为原料合成了含SO3H-的磺酸类离子液体,利用红外光谱和1HNMR对中间体和离子液体进行了表征,证明了其结构,并考察了该离子液体在常见有机溶剂中的溶解性。
  • 因果表征学习综述

    千次阅读 2022-03-09 11:49:28
    本篇内容来自因果表征学习综述 “Towards Casual Representation Learning”,表征学习Representation Learning是机器学习中的重要问题,良好的表征是机器学习算法成功的重要条件;正因如此,近十年来深度学习借助...

    fig1

    本篇内容来自因果表征学习综述 “Towards Casual Representation Learning”,表征学习Representation Learning是机器学习中的重要问题,良好的表征是机器学习算法成功的重要条件;正因如此,近十年来深度学习借助神经网络强大的表达能力、海量的数据以及强大的算力,自动地从数据中学习表征,取代了传统的人工制作的特征,取得了瞩目的成就。

    现实应用中,许多关键问题都可以归结为OOD(out-of-distribution)问题。因为统计学习模型需要独立同分布(iid)假设,若测试数据与训练数据来自不同的分布,统计学习模型往往会出错。在很多情况下,iid的假设是不成立的,而因果推断所研究的正是这样的情形:如何学习一个可以在不同分布下工作、蕴含因果机制的因果模型(Causal Model),并使用因果模型进行干预或反事实推断。

    因此,人工智能和因果关系的一个核心问题是因果表征学习,即从低级观察(low-level observations)中发现高级因果变量(high-level causal variables)。

    引言

    我们可以很自然地想到将因果推断的优点结合到机器学习中,然而现实没有这么容易。因果模型往往处理的是结构化数据(行数据,可以用二维表结构来逻辑表达实现的数据),并不能处理机器学习中常见的高维的低层次的原始数据,例如图像。为此,回到最初的问题,因果表征即可理解为可以用于因果模型的表征,因果表征学习即为将图像这样的原始数据转化为可用于因果模型的结构化变量。因果表征学习就是连接因果科学与机器学习的桥梁,解决这一相关问题,就可以将因果推断与机器学习结合起来,构建下一代更强大的AI。下面首先强调关键的研究挑战。

    鲁棒性Robustness

    在现实世界中,数据来源的分布往往很少受到控制。例如,在计算机视觉中,测试分布的变化可能来自像差,如相机模糊、噪声或压缩质量,或者来自位移、旋转或视角变换。受此启发,提出了新的基准,专门测试方法的泛化能力,到目前为止,对于如何解决这些问题还没有明确的共识,尽管在使用数据增强、预训练、自监督学习和引入适当归纳偏差(inductive bias)的架构已经取得了进展。但有人认为这样的修正可能是不够的,在iid设置之外进行推广不仅需要学习变量之间的统计关联,还需要学习潜在的因果模型。后者允许通过干预的概念来模拟分布变化。

    Learning Reusable Mechanisms

    婴儿对物理的理解依赖于可以随时间追踪并表现一致的物体。这样的表示法可以让孩子们快速学习新的任务,因为他们对物理的知识和直观理解可以重复使用。类似地,能够稳健地解决现实世界任务的智能agent需要在新的场景中重新利用他们的知识和技能。事实证明,结合或能学习环境结构知识的机器学习模型效率更高,通用性更好。在模块化表示的世界中,模块对应于物理因果机制,许多模块在不同的任务和环境中表现类似。因此,面对新环境或任务的agent可能只需要调整其内部世界表示中的几个模块即可。因此,在引入因果模型时,需要的实例应该更少,就可以不需要进一步训练去适应大多数知识。

    因果关系视角A Causality Perspective

    因果关系是一个微妙的概念,不能用布尔逻辑或概率推理的语言完全描述;它需要额外的干预概念(intervention)。因果关系关注的是一个事实,即条件概率(“看到人们打开雨伞表明正在下雨”)无法可靠地预测施加行为干预的结果(“关闭雨伞并不能阻止下雨”)。因果关系也可以被视为推理链的组成部分,它为与观察到的分布相差甚远的情况提供预测,甚至可能是纯粹的假设或需要有意识的思考。从这个意义上说,发现因果关系意味着获得可靠的知识,这些知识不仅支持观察到的数据分布和一组训练任务,还能扩展到涉及推理形式的情况。

    贡献总结

    在论文中,我们认为因果关系,其重点是表示数据生成过程中允许干预和更改的结构性知识,有助于理解和解决当前机器学习方法的一些局限性。这将使该领域更接近人工智能的一种形式。 尽管统计学习取得了成功,但其只是提供了一种肤浅的现实描述,这种描述只有在实验条件固定的情况下才能成立。相反,因果学习领域试图结合数据驱动学习和尚未包含在统计描述中的假设,因果理论对干预和分布变化的影响进行建模。论文的工作是回顾并叙述了为因果学习做出过的关键贡献

    因果建模的层次

    谈及对自然现象建模,可想到微分方程组。它根据时间的演变建模物理机制,可以让我们预测物理系统未来的行为,推断干预的效果以及预测变量间的统计相关性;还可以提供物理本质,让我们可以解读因果结构。

    微分方程是对物理系统全面详尽的表述,统计模型(Statistical Model)可被看作表面的粗糙描述。它无法预测干预的效果,但是优点在于通常可以从数据中学习,而前者通常需要专家来提出。因果建模则存在于这两个极端之间,它期望能够像物理模型一样预测干预的效果,但同时可以在一些假设下,通过数据驱动的方法找到这样的模型,来取代专家知识。

    下表给出了模型的分类与层级,并且给出了分级的依据:越高层的模型拥有更多更强的能力,这些能力从低到高分别是:在i.i.d.条件下预测的能力,在分布偏移/干预下预测的能力,回答反事实问题的能力,是否蕴含物理本质。接下来首先讨论这些能力,并在下一节具体解析统计模型与因果模型的区别。具体地说,基于统计模型的机器学习模型只能建模相关关系,而相关关系往往会随着数据分布的变化而变化;而因果模型所建模的因果关系则是更本质的,反映数据生成机制的关系,这样的关系是更鲁棒的,具有OOD泛化的能力。
    fig2

    在独立同分布条件下预测的能力

    统计模型只是对现实的粗浅描述,因为它们只关注关联关系。对于样本和标签,我们可以通过估计来回答这样的问题:“这张特定照片中存在狗的概率是多少?”,“给定一些症状,心力衰竭的概率是多少?”。这样的问题是可以通过观察足够多样本产生的i.i.d.数据分布来回答的。尽管机器学习算法可以把这些事做得很好,但是准确的预测对于我们的决策是不够,而因果科学提供了一个尚未完全探索的补充。举例来说,鹳出现的频率是和欧洲的人口出生率正相关的,我们的确可以训练一个统计学习模型来通过鹳的频率预测出生率,但显然这两者并没有什么直接的因果关系。统计模型只有在i.i.d.的情况下才是准确的,如果我们做任何的干预来改变数据分布,就会导致统计学习模型出错。

    在分布偏移或干预条件下预测的能力

    我们进一步讨论干预问题,它是更具挑战性的,因为干预会使我们跳出统计学习中i.i.d.的假设。继续用鹳的例子,“在一个国家中增加鹳的数量会增加该国的出生率吗?”,就是一个干预问题。显然,人为的干预会使得数据分布发生变化,统计学习依赖的条件就会被打破,所以它会失效;另一方面,如果我们可以在干预的情况下学习一个预测模型,那么这有可能让我们得到一个对现实环境中的分布变化鲁棒的模型。实际上这里所谓的干预并不是什么新鲜事,很多事情本身就是随时间变化的,例如人的兴趣偏好,或者模型的训练集与测试集本身就有分布的不匹配。对神经网络的鲁棒性,已经有越来越多的关注,成为了一个与因果推断紧密连接的研究话题。作者认为对于在分布偏移下预测的研究不能只局限于在测试集上取得高准确率,如果我们希望在实际决策中使用学习算法,那么我们必须相信在实验条件改变的情况下,模型的预测也是有效的。笔者认为,作者在此处的意思是,实际应用中的分布偏移是任意多样的,仅仅在某些测试集上取得好效果不能代表我们可以在任何情况下都信任该模型,它可能只是恰好符合这些测试集的偏置。

    为了使我们可以在尽可能多的情况下信任预测模型,就要采用具有回答干预问题能力的模型,至少统计学习模型是不行的。

    回答反事实问题的能力

    反事实问题涉及到推理事情为什么会发生,想象不同行为的后果,并由此可以决定采取何种行为来达到期望的结果。回答反事实问题更加困难的,但也是对于AI非常关键的挑战。如果一个干预问题是 “如果我们说服一个病人规律的锻炼,那么它心力衰竭的概率会如何变化?”,那么对应的反事实问题就是 “如果这个已经心力衰竭的病人一年前就开始锻炼,那他还会心力衰竭吗?”。显然回答这样的反事实问题对于强化学习中的智能体是很重要的,它们可以通过反思自己的决策,制定假说,再通过实践验证,就像科学研究一样。

    数据的性质:观测,干预,结构化与非结构化

    数据格式在可以推断的关系类型中起着重要作用。我们可以区分数据模式的两个轴:仅观测的与被干预的;以及手工设计(结构化)与原始(非结构化)输入。

    对于Observational and Interventional Data:

    • 通常假设但很少严格可用的极端形式的数据是i.i.d.观测数据,其中每个数据点从同一分布中独立取样。另一个极端是被干预的干预数据,我们观察从多个分布中取样的数据集,每个分布都是已知干预的结果。
      而在这两者之间,我们可以想象存在域变化且未知干预的数据,首先这是观察性的,因为数据只是被动观察的,同时它是干预性的,因为存在干预,但我们不知道。

    对于结构化与非结构化数据:

    • 在传统的AI中,数据常被假设为高层有语义的结构化变量,它们有些可能对应着潜在的因果变量。而非结构化原始数据是指那些无法直接提供因果信息的数据,例如图像。

    尽管统计模型比因果模型要弱,但是统计模型可以同时有效地在结构化或者非结构化学习。另一方面,尽管只从观测数据中学习因果关系的方法是存在的,但常常还是需要从多个环境中收集数据,或者需要能够做干预。至此,我们已经可以明白问题的核心:因果模型具有回答干预问题和反事实问题的能力,然而只能用于结构化的数据(就像专家系统),ML模型虽然可以从raw data中有效的学习,但却逃不出i.i.d.的设定,那么如何将两者结合,使机器学习突破当前的瓶颈呢?答案即因果表征学习,即从非结构化的数据中提取出可以用于因果推断的结构化变量。换言之,如果解决了因果表征学习的问题,就克服了因果推断领域和机器学习领域间的最关键障碍,就可构建下一代更强大的AI。

    因果模型和推断

    独立同分布数据驱动的方法

    还是从传统机器学习模型谈起,机器学习的成功有4个重要的因素:

    • 大量基于人工标注的数据;
    • 强大的机器学习系统,如神经网络;
    • 高性能计算系统,这对因果推断也至关重要;
    • 问题是i.i.d.的;

    对于i.i.d.的数据,统计学习理论对模型提供了强大的保证,因此取得超越人类的表现也不足为奇。但是却在对人类很简单的不满足i.i.d.的情景下表现很差,即在不同问题间迁移的能力。

    为了进一步理解i.i.d.带来的问题,让我们考虑下面的例子。Alice在想在网上买一个笔记本电脑包,网上商店的推荐系统于是向Alice推荐了笔记本电脑。这个推荐看起来很不合理,因为很可能Alice是已经买了电脑才去买包。假设该网站推荐系统使用统计模型仅仅基于统计相关性来推荐,那么我们已知事件 “Alice买了包” 对于事件 “Alice是否会买电脑” 的不确定性减少,和已知事件 “Alice买了电脑” 对于事件 “Alice是否会买包” 的不确定性减少是相等的,都为两个随机事件的互信息。这就导致我们丢失了重要的方向信息,即买电脑往往会想买包。

    从统计到因果

    如何实现从统计相关到因果的跨越?Reichenbach表明:如果两个可观测量X和Y是统计相关的,那么一定存在一个变量影响X和Y,并且可以解释它们之间全部的相关性,即给定Z,X和Y是条件独立的。

    上述原理包含Z与X或Y重合的特殊情况。用前面鹳的例子,鹳出现的频率为X,出生率为Y,二者统计相关。如果鹳能带来孩子则是X → \rightarrow Y,孩子会吸引鹳则是X ← \leftarrow Y,有其他因素导致两者相关则为X ← \leftarrow Z → \rightarrow Y。没有额外的假设,我们不能从观察数据中根据统计相关性区分这三种情况,所以因果模型比统计模型包含更多信息。

    尽管只有两个变量情况下的因果发现很困难,但是在有更多变量的情况下则会简单很多,因为多变量情况下,因果图会蕴含更多条件独立性质。这会将Reichenbach Principle推广到接下来介绍的因果图模型或结构因果模型。

    结构因果模型

    结构因果模型(Structural causal models,SCM),是考虑一系列变量 X 1 , . . . , X n X_{1},...,X_{n} X1,...,Xn作为有向无环图的顶点,每个变量值都由如下结构方程确定: X i = f i ( P A i , U i ) X_{i}=f_{i}(PA_{i},U_{i}) Xi=fi(PAi,Ui)其中, f i f_{i} fi为确定型方程,其依赖于 X i X_{i} Xi的父节点 P A i PA_{i} PAi U i U_{i} Ui是无法解释的随机变量。因此反过来证明, X i X_{i} Xi也是随机变量。图中的有向边代表直接的因果效应。噪声 U i U_{i} Ui的存在使得上式可以表示为通用的条件概率形式 P ( X i ∣ P A i ) P(X_{i}|PA_{i}) P(XiPAi),并且 U 1 , . . . , U n U_{1},...,U_{n} U1,...,Un是相互独立的,否则根据Reichenbach Principle可以得知还存在其他变量造成它们的相关性,这代表模型不是因果充分的。

    当确定了 U 1 , . . . , U n U_{1},...,U_{n} U1,...,Un的分布,就可以根据这个有向图结合马尔可夫性计算联合概率分布 P ( X 1 , . . . , X n ) P(X_{1},...,X_{n}) P(X1,...,Xn)

    SCM中的有向图被称为因果图模型(Causal Graph),噪声的独立性蕴含了联合分布的规范分解,称之为因果解耦或分解(causal(disentangled) factorization): P ( X 1 , . . . , X n ) = ∏ i = 1 n P ( X i ∣ P A i ) P(X_{1},...,X_{n})=\prod_{i=1}^{n}P(X_{i}|PA_{i}) P(X1,...,Xn)=i=1nP(XiPAi)上述的因果图模型其实需要一个因果充分性假设,即不存在未观察到的共同原因变量。若该假设不满足,则会让因果推断变得很困难。因为它可能会让两个因果无关的可观测变量产生统计相关性,或者它们之间的因果关系被混淆因子所污染(X是Y的因,Z是X和Y的共同因,则Z被称为混淆因子confounder,注意在广义上,X也可以称为混淆因子)。

    对于干预,形式是多样的,可以改变 U i U_{i} Ui,设置 X i X_{i} Xi为定值,改变 f i f_{i} fi的形式。

    统计模型,因果图形模型和SCM之间的差异

    统计模型可以被定义为一个图,图中变量的概率分布与因果图模型一样可以由马尔可夫性进行分解,但图中的边不一定是因果关系的。

    如下图所示:统计模型(左)和因果模型(右)在给定的三个变量集上的差异。统计模型指定了一个单一的概率分布,但因果模型表示一组分布,每个可能的干预对应一个分布(图中用黑色的符号表示)

    因果图允许计算干预的分布,当一个变量被干预时,就把它设为固定值,并且切断与其父母节点的边,在新的图中计算出的即为该干预的分布。

    结构因果模型则包含因果变量和带有独立噪声的结构方程,也可以计算干预分布,因为它可以表达成因果图模型的概率分解的形式,也可以进行反事实推理。在进行反事实推理的时候,我们需要噪声变量的值固定。
    fig3
    统计学习的基础是联合分布 P ( Y , X 1 , . . . , X n ) P(Y,X_{1},...,X_{n}) P(Y,X1,...,Xn),期望通过特定的模型在iid假设下学习 E [ Y ∣ X ] E[Y|X] E[YX],因果学习需要考虑更多假设,希望把联合分布进行因果分解。

    独立因果机制

    在噪声 U i U_{i} Ui独立的情况下,根据因果图对联合分布进行因果分解总是可行的,为此需要考虑因子独立机制。考虑海拔A和平均气温T,A和T显然是相关的,因为我们知道海拔升高会导致气温降低,假设有两个数据集分别来自瑞士和奥地利,它们各自的联合分布 P ( A , T ) P(A,T) P(A,T)是不同的,因为边缘分布 P ( A ) P(A) P(A)是不同的,但是条件概率 P ( T ∣ A ) P(T|A) P(TA)理论上是相同的,因为这是海拔对气温影响的物理机制。因果分解 P ( A ) P ( T ∣ A ) P(A)P(T|A) P(A)P(TA)包含了可以在不同地区泛化的 P ( T ∣ A ) P(T|A) P(TA)。对因果模型来说,对任意变量 X i X_{i} Xi P ( X i ∣ P A i ) P(X_{i}|PA_{i}) P(XiPAi)的干预不会影响其他变量,即为因果独立机制。

    一个系统的变量的因果生成过程是由一系列自主模块构成的,它们不会影响彼此,也不会提供彼此的信息:

    • 改变(干预)一个机制 P ( X i ∣ P A i ) P(X_{i}|PA_{i}) P(XiPAi)不会改变其他机制 P ( X j ∣ P A j ) P(X_{j}|PA_{j}) P(XjPAj),注意 i ≠ j i\neq j i=j
    • 机制 P ( X i ∣ P A i ) P(X_{i}|PA_{i}) P(XiPAi)不会给机制 P ( X j ∣ P A j ) P(X_{j}|PA_{j}) P(XjPAj)提供任何信息,注意 i ≠ j i\neq j i=j

    在因果图中,所有因果机制独立的情况下,变量是相关的,比如 X i → X j X_{i}\rightarrow X_{j} XiXj,则 X i X_{i} Xi X j X_{j} Xj是相关的,但 P ( X i ∣ P A i ) P(X_{i}|PA_{i}) P(XiPAi) P ( X j ∣ P A j ) P(X_{j}|PA_{j}) P(XjPAj)是独立的。同样,噪声 U i U_{i} Ui的独立性与 X i X_{i} Xi的独立性是无关的,噪声只是提供了机制 P ( X i ∣ P A i ) P(X_{i}|PA_{i}) P(XiPAi)的不确定性,并让不同机制有相互独立的不确定性

    因果发现与机器学习

    前面的内容是因果模型,和基础的因果假设与因果机制,下面需要让机器学习因果模型,即因果发现。我们可以通过在观测数据中进行条件独立测试来发现因果图。但是这种方法存在一些问题:

    • 一是数据量总是有限的,而条件独立测试是很难的,尤其是在连续和高维的情况下,没有额外的假设,条件独立测试很难进行;
    • 二是条件独立测试可能会产生无法分辨边方向的马尔可夫等价类。

    近年来通过假设结构方程的类型,我们发现这两个问题都可以被解决。下面的例子,可以很好地说明为什么假设SCM中的方程形式是必要的。考虑一个简单的SCM,只有两个变量 X → Y X\rightarrow Y XY,则 X i = f i ( P A i , U i ) X_{i}=f_{i}(PA_{i},U_{i}) Xi=fi(PAi,Ui)可以写为: X = U , Y = f ( X , V ) X=U,Y=f(X,V) X=U,Y=f(X,V) U ⊥ V U\bot V UV,假设 V V V是一个随机选择变量从 F = { f v ( x ) = f ( x , v ) ∣ v ∈ s u p p ( V ) } F=\left\{f_{v}(x)=f(x,v)|v\in supp(V)\right\} F={fv(x)=f(x,v)vsupp(V)}决定 f f f,且 f ( x , v ) f(x,v) f(x,v)依赖于 v v v,所以,从有限的数据中难以发现SCM的足够信息。因为 V V V是不可观测的,且 f f f是任意不同的。所以要限制 f f f关于 V V V的复杂度,一个自然的方法是加噪声: X = U , Y = f ( X ) + V X=U,Y=f(X)+V X=U,Y=f(X)+V对函数形式的限制不仅使得 f f f的学习变得容易,还被发现可以打破双变量情况下的因果对称性,即可以确定马尔可夫等价类中边的方向。

    不同环境的分布偏移可以极大的帮助我们辨识因果结构。这些环境可以来自于干预、不平稳的时间序列或者不同的视角。不变因果预测(Invariant Causal Prediction,ICP)框架就是考虑这样的情形。这些不同的环境可以理解为不同的任务,这可以联系到元学习meta learning。

    Bengio的工作就借助因果模型应该比一般的预测模型更快的适应干预这样的思想,把元学习中的泛化与因果模型的不变形绑定在一起。这项工作提出了一个用神经网络进行因果发现的框架。也有人探索了如何用强化学习来学习因果模型。

    上述的所有因果发现的方法,不论传统的还是结合机器学习的,都是在有语义的抽象表征已经给定的情形,不需要从高维的低层次的数据中学习。所以传统的因果发现算法无法应用在机器学习领域的数据上。若想利用因果推断来解决当前机器学习领域的难题,从非结构化数据中学习因果变量是一个绕不开的关键问题。

    学习因果变量

    为此,我们将因果变量 S 1 , . . . , S n S_{1},...,S_{n} S1,...,Sn与观测量 X X X通过因果表征学习联系起来: X = G ( S 1 , . . . , S n ) X=G(S_{1},...,S_{n}) X=G(S1,...,Sn)其中, G G G是一个非线性函数,如下图所示,高维的观测量(图像)是由未知的因果系统的状态产生,然后我们希望用一个神经网络提取这些高层变量,以求在下游任务中取得更好的效果。在什么条件下我们可以找到这些可以用于因果模型的粗略变量呢?解答这个问题是很有挑战的。定义因果关联的对象或变量,可以被归结为估计这个世界的更细致的模型,例如微观结构方程模型、常微分方程、temporally aggregated time series等。定义可用于因果模型的单元,对人和机器都是有挑战的,这与现代机器学习领域试图学习鲁棒、可解释、公平的数据表征的目标是一致的。
    fig4
    我们应该尝试将SCM嵌入到机器学习模型中,它的输入输出可能是高维非结构化的,但内部有一部分是由SCM决定的。这样的模型可能会是模块化的架构,不同的模块可以被微调或用于新的任务。

    下图展示了:对因果变量稀疏的干预(改变个别变量),会造成图像中稠密的变化(很多像素发生变化),在有些情况下,例如改变光照或视角,会导致所有像素都变化。
    fig3
    接下来我们考虑因果表征学习的三个机器学习问题。

    学习解耦的表征

    首先回顾因果解耦: P ( S 1 , S 2 , . . . , S n ) = ∏ i = 1 n P ( S i ∣ P A i ) P(S_{1},S_{2},...,S_{n})=\prod_{i=1}^{n}P(S_{i}|PA_{i}) P(S1,S2,...,Sn)=i=1nP(SiPAi)现在设想,我们要利用数据中的独立机制重建解耦的表征,但是因果变量 S i S_{i} Si都未给定,只有 X = ( X 1 , . . . , X d ) X=(X_{1},...,X_{d}) X=(X1,...,Xd)是给定的,我们想重建因果变量 S 1 , . . . , S n ( n < < d ) S_{1},...,S_{n}(n<<d) S1,...,Sn(n<<d)和因果机制 S i = f i ( P A i , U i ) S_{i}=f_{i}(PA_{i},U_{i}) Si=fi(PAi,Ui)

    为此,我们可以有一个编码器 q : R d → R n q:R^{d}\rightarrow R^{n} q:RdRn,将 X X X编码为组成不可解释噪声项 U = ( U 1 , . . . , U n ) U=(U_{1},...,U_{n}) U=(U1,...,Un)的隐式表征。接下来我们定义函数 f ( U ) f(U) f(U),它是由结构方程 f 1 , f 2 , . . . , f n f_{1},f_{2},...,f_{n} f1,f2,...,fn确定的。最后我们还需要解码器 p : R n → R d p:R^{n}\rightarrow R^{d} p:RnRd。对于一个合适的 n n n,系统可以通过重建误差来训练 p ∘ f ∘ d ≈ i d p\circ f\circ d\approx id pfdid,其中 ∘ \circ 表示模型的连接,id为观测数据的分布。

    当前的学习解耦表征的研究关注独立变化的因子,这可以被看成一种特例,即因果图中 ∀ i : P A i = ∅ \forall i:PA_{i}=\emptyset i:PAi=

    目前,从iid设定下重建噪声的问题是定义不清的,因为有无数的等价解可以对应相同的数据分布。在实践中,在 ∀ i : P A i = ∅ \forall i:PA_{i}=\emptyset i:PAi=情况下,我们应该从多环境,不同干预数据中学习因果变量。当然,那些因子可以被分解取决于我们有什么样的干预。在因果表征学习中,哪些变量可以被抽象出来以及它们的粒度,取决于我们获取到什么样的分布偏移,或干预信号。


    注意 X i , S j X_{i},S_{j} Xi,Sj均是向量,其元素数为数据集的样本数量,也就是说,因子其实是数据的一个个特征,发现因果关系则是要求我们要学习特征之间的关系,另外,我们需要找到可解释的因子,也就是可解释的特征


    学习可迁移的机制

    人工或自然的智能agent只能得到有限的资源和信息,这有关训练数据:与现代工业实践中的大规模人工标注相比,许多领域的数据都很少,所以需要重复利用数据;也有关计算资源:动物的大脑尺寸是有限的,进化神经学表明在很多例子中,脑区可以用于不同的目的。在很多应用场景中,部署在嵌入式系统中的机器学习模型也面临这样的算力限制。所以未来的AI模型应该拥有动物一样,可以鲁棒解决一系列现实问题,因此也应该有相似的可复用的组件。一个优雅的方法则是使用可以对应世界中模块化的模型,换句话说,如果世界是模块化的,包括它的成份、机制,那么模型采用相应的模块是明智的。例如,在模式识别任务中,学习包含独立机制的因果模型,可以帮助模型在不同领域迁移

    学习现实中的干预

    因果表征学习应该要比传统的只关注统计相关性的表征学习更进一步,我们要去学习支持干预、决策、推理的模型。这最终需要反思行为,想象可能的情况,甚至可能需要自由意志。这对社会和文化学习是至关重要的,是一个尚未登上机器学习领域舞台,但却是人类智能的核心。

    对机器学习的启发

    上述的所有关于学习范式的讨论,都没有基于常用的i.i.d.假设。因此,我们需要一个更弱的假设:模型将要被应用的数据是来自不同的分布,但设计几乎相同的因果机制。这会带来几个严肃的挑战:

    • 我们需要从给定的低层次输入特征中抽象因果变量;
    • 哪方面的数据可以揭示因果关系尚无共识;
    • 传统的实验方案不足以推断和评估因果模型,我们需要新的基准测试;
    • 即使是在我们了解的有限案例中,仍然缺乏可大规模使用的算法;
    • 尽管如此,这样的努力对于机器学习有很多具体的影响。

    个人总结

    因果学习目前还是一个尚未成熟的领域,我们想要实现模型具有完全ood的泛化性能,虽然我们知道构建因果图的重要性,但是目前看来,因果图是来自专家的知识,我们很难让机器从观测数据中正确发现因果图,虽然数据增强,大规模预训练一定程度上可以涵盖各种分布,但它们依然不能帮模型探索到我们需要的因果关系。而且换一个说法,我们现在的挖掘是基于因子独立的假设,也就是说这样的因果图其实是最简单的因果图,但依然存在无数可以匹配到训练分布的解,也许我们的当务之急是能找到具有可解释意义的独立因子,从而缩小解的空间,让模型在相关任务的ood泛化上成为可能。

    展开全文
  • 磨损是材料常见的表面失效现象,粗糙度是数字化描述材料磨损表面形貌特征的最常用参数。采用激光共聚焦显微镜(LSCM),通过调节物镜倍率、测量视场和过滤参数等,能够得到材料磨损表面的真实形貌,同时能够对磨损表面三维...
  • 在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如2cm 与 0.2kg 你怎么比?无量纲处理方法很多,使用不同的方法,对最终的机器学习模型会产生不同的...
  • 这项研究讨论了使用与Lorenz准则有关的公理对词典最大化法(leximin)选择规则进行表征方法,该规则指出,劳伦兹控制解向量的效用矢量不应由任何可行的向量称为帕伦托控制,即所谓的洛伦兹Pareto Undominatedness ...
  • 自然语言处理(NLP)的一些常见任务有:文本分类、指代消歧、自动摘要、机器翻译、主题识别等。传统的处理方法是基于规则的,现在更倾向于使用机器学习或深度学习的方法解决。那么如何在计算机中表达一段文本/一个词...
  • dyna中常见百余种材料参数,包括表征每个具体参数意义的一本经典材料。
  • 表征学习的方法没有直接在训练网络的时候考虑图片间的相似度,而是把行人重识别任务当做分类问题或者验证问题来看待。 度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,表现为同一行人的不同图片...
  • 表征学习(representation learning)是一类常用的行人重识别方法。由于CNN可自动从原始图像数据中根据任务需求自动提取表征特征(Representation),所以有些researcher会把行人重识别问题看作分类(Classification...
  • 纳米团簇的主要表征手段: 1、质谱分析(Mass Spectrometry) 质谱测试是为了了解纳米团簇的分子量以及组成。常用的有基质辅助激光解吸电离飞行时间质谱(MALDI TOF MS)、高分辨电喷雾质谱(HRESI-MS)以及串联质谱...
  • 前面介绍了深度神经网络和卷积神经网络,这些神经网络有个特点:输入的向量越大,...半监督学习通过进一步学习未标签数据来解决这个问题,具体思路是:从未标签数据上学习数据的表征,用这些表征来解决监督学习问题。
  • 常用显微镜、能量色散X射线光谱/扫描电子显微镜等检测熔覆层的微观缺陷。使用这些方法固然能准确地观察裂纹,但是这些技术检测结果的说服力较低。通常以剖面来观察检测,但剖面局部区域并不能代表整个熔覆层的情况,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 34,924
精华内容 13,969
关键字:

常见的表征方法