精华内容
下载资源
问答
  • 因果推理
    2022-03-20 00:45:45

    点击蓝字

    63906f3ffaf238a508fbbda9d7363013.png

    关注我们

    AI TIME欢迎每一位AI爱好者的加入!

    2021年诺贝尔经济学奖部分授予了从事因果方面研究的两位学者,因果推理引起了各界广泛的关注。同时,近年来,基于关联关系的深度学习飞速发展取得了极大的成功,但同时渐渐展现了系列问题,引起了超越关联迈向因果深度学习探索。因果推理与深度学习二者碰撞出了怎样的火花?

    2021年10月23号,AI TIME PhD Debate第7期“因果推理的应用与发展”举行,特别邀请了卡耐基梅隆大学黄碧微、马普所与ETH联培博士生金致静、南洋理工大学王谭、中国科学技术大学张洋,新加坡国立大学王文杰作为嘉宾,以及来自山东大学刘美珍与嘉宾王文杰一起作为主持人。

    5db305cae65996120729aba819c64ce8.png

    01

    什么是因果推理?

    黄碧微提到因果的概念在2000多年前亚里士多德就已经提出来了,且最近几十年得到极大的关注与发展。但是,因果的严格定义一直有纷争,目前有两种主流:

    1)基于干预(intervention)的定义,如果X 导致(causes) Y,干预X将会改变Y的分布(If X causes Y, intervene X will change the distribution of  Y);

    2)基于反事实推理(counterfactual reasoning)定义,例如小明沉迷于游戏没有通过考试,如果小明没有沉迷游戏能否通过考试?即改变某些特征结果是否会发生改变?此外,她举例阐述不能区分因果关系与相关关系将会导致的错误结论,强调了因果推理的重要性。

    金致静从如何科学家如何做因果推理的角度阐述。首先,有两种类型数据,即观测性数据与(随机对照试验得到)干预数据,然后基于这两种数据使用因果发现算法推测变量之间因果关系。

    然后,在Machine Learning(ML)情况下,因果推理类似人思考,如判断图中动物的种类,动物本身是做出判断的依据而背景是关联,即对于一个变量预测时候,使用其对应的父结点(因)来做预测。

    张洋从应用研究的角度发表了观点,首先,他认为因果推理是一种认知的工具,提醒人们关联关系与因果关系的区别,打破潜意识把条件概率认为是因果效应的错觉。

    同时,他认为,因果推理是分析与解决问题的工具,知道因果关系后,可以基于因果推理:分析相互影响关系及其中稳定与不稳定的相关,来确定正确的估计目标,以及回答该目标是否可以估计以及怎么估计的问题。

    王文杰提到研究方法主要有两类:第一类是实验性研究,做随机对照实验,控制一些变量来消除混杂之类的影响,但这样可能会涉及一些社会伦理问题。第二类工作直接基于观测数据研究,具有两个流派,一个是Judea pearl的因果图模型,一个Rubin的潜在结果框架。也有部分结合实验与观测性研究。

    王谭从实际CV问题中的体现来阐述,认为可以将数据增强就看成是一种干预,如图片中,假设object到label有因果关系,则改变颜色、旋转角度等不影响label来做数据增强,可以看成一种干预。

    VAQ可以体现反事实推理,如改变图片中香蕉颜色从黄色到绿色,希望给出对应答案,实际上在回答一个反事实问题。或者在稳定学习、OOD学习中希望学习到stable的稳定的特征,其实也是一种因果推理。

    02

    深度学习时代的因果推理

    深度学习模型已经在各个领域展现了巨大的优势,现有深度学习模型是否需要因果推理能力?因果推理还能给深度学习带来什么样的进步?

    王谭认为深度学习需要因果推理能力,早年间深度学习追求准确率,近几年研究的领域慢慢转向了怎样达到更普适、更鲁棒的预测,产生了long-tail、debias、stable,few-shot learning等任务,这些任务不满足i.i.d. 假设,本质上是对于因果推理能力的需求;

    同时人类学习是一种因果推理而非仅仅是观测,会做一些反事实与干预,如做些小实验。对于因果推理带来的进步,他认为可以更好地处理上述不满足i.i.d条件的任务,且可以帮助理解深度学习的技术,如数据增强。

    张洋认为深度学习是否需要因果推理的能力取决于具体的评价体系以及问题是什么。在某些情况下,比如训练与测试完全一致,估计量与评估量一致时就没有必要考虑因果推理能力。

    而对现实问题,以推荐系统为例提到,一方面,时间等会带来数据分布的变化,此时就需要捕捉一些稳定的或者因果的特征获得对未来数据的泛化能力;

    另一方面,label不能够反映ground-truth,比如商品的点击(label)由用户兴趣(ground-truth)与曝光位置同时影响,导致点击不能用户兴趣,而深度学习一般基于label学习,此时学的模型不能反映用户的兴趣,需要借助因果来解决这一问题。借助因果推理,深度学习可以把上述问题解决的更好。

    黄碧薇也认为需要,特别是在分布发生变化的情况下,不仅可助力可解释与泛化能力,也可以通过反事实来想象推理,避免风险等。为什么因果推理可以助力泛化能力等?

    她提到,深度学习依赖于大数据,难应对环境改变,而人可以却可以很好地应对,因为人可以分析因果关系,鉴定发生变化的地方,并据此迅速调整策略。因果模型具有modularity等性质可协助实现类人的能力,modularity指大量变量的联合分布可据因果关系分解成一系列独立的条件分布,针对环境发生变化,只需要对于某些变化的模块进行调整,就可实现模型快速迁移,减少模型与数据的复杂度,且提高可解释性,知道哪一部分可以在新的环境中很好的适应。即从因果或生成过程出发,充分利用modularity可减小模型与数据复杂度。

    金致静总结了前面嘉宾的观点并表示赞同。并补充两个分支:(1)预测accuracy与学习因果关系的trade-off。(2)从因果角度解释模型学习到了什么,解释模型因为什么做出了预测,如语言模型因为什么原因产生了性别偏差等。

    王文杰也认为需要因果推理能力,从推荐系统的角度补充到,(1)进行A/B test 的时候需要考虑混淆因子等的影响。(2)追求一个环境准确度拟合,拟合关联关系就会好,但考虑公平性、泛化性、鲁棒、可解的推荐模型时,就需要考虑数据生成的因果关系,大多现有工作也是从这个角度出发,把因果结合到模型构建以及学习过程中去。即因果推理可以助力推荐系统选择决策以,助力模型构建以及学习。

    03

    因果推理的应用、发展现状以及面临的挑战

    金致静从ML与NLP的角度进行了总结了三类工作:

    1)利用因果的概念,知道不同变量之间的因果关系后,利用causal graph等,去提升模型的鲁棒性、解决domain shift问题等;Schoekopf & Bengio 的工作基本都是主要关注在这一领域。以及把因果概念放到nlp上把任务分成是causal与anti-causal。

    2)ML技术来辅助提升causal inference算法,神经网路是估计一个universal function的估计器,而causal inference里面很多是要估计一个变量怎样影响另一个变量,因此可以利用ML。如MIT ICML2017的DeepIV,另外华为ICLR2020上一篇工作用RL来实现因果发现。

    3)text作为一种新的数据形式。以前因果大多基于表格数据,但现在的因果需要文本数据,如什么样的论文标题更吸引人,所以需要用NLP去编码文本数据然后将其放入到观测数据中。两类工作:分析social 现象,如研究sentiment这样影响政策, 用nlp去提取social sentiment,然后去做causal discovery等;分析语言现象,如分析俚语随着时间的evolve。

    张洋从推荐系统角度介绍了几类工作:

    1)使用IPS,在推荐系统中利用的最早且最广,ICML 2016 recommendation as treament 纠正曝光变差(显示反馈),2020 WSDM saito用IPS 解决隐反馈中的bias,另外20年的RecSys预测推荐操作本身的影响也比较有缺。分析类型工作,如把有工作把推荐系统算法本身作为影响数据生成的一个考量,发现其会带来混淆效应。

    2)研究confounder的工作。对于不可观测的confounder,有工作估计一个变量去作为不可观测的confounder的替代。对于可观测的confounder,主要是基于SCM,引入后门调整,前门调整等。

    3)基于counterfactual,如基于反事实来做数据增强。然后提到了两个挑战:a)最大的挑战在于测评,理想情况需要干预的数据来测试是否真的达到目标,但这种数据往往没有,另外可以基于A/B test来实现,但是对于学术研究不太现实。b)基于SCM的方法需要人为基于经验或者知识对于因果图进行假设。

    王文杰对于推荐系统以及IR方面进行了补充,他认为因果推荐研究有两种类型:

    1)推荐系的决策。做决策上线什么推荐系统,可以用因果来做,比如用A/B test,在推荐领域做随机/对照实验相对与容易,如现在已经有一些包含随机实验的数据集。另外,可以分析上线推荐系统本身的因果效应,某些商品无论是否推荐都会买,而有一些是推荐之后才会买,现有研究基于一些强假设,或者合成数据。

    2)怎么构建更好的推荐系统,研究主要集中在fairness,de-biasing,explainability,robust等。现有工作包括何向南老师组做popularity bias的工作;文杰KDD 缓解推荐系统bias放大的问题的工作,用后门调整处理混淆因子带来的问题等。

    王谭从CV面,他认为领域是共通的,主要区别在于task的区别。然后他从挑战的角度说了几个点:

    1)不变风险最小(Invariant risk minimization,IRM),思想认为因果是不变的东西,把数据分成不同的环境,要求在不同的环境下表现的好,即可以捕捉到因果。但一个问题是怎样分一个环境,随机分的bias与casual完全混在一起无法区分。

    2)统计上的因果是基于变量来做的,而CV等领域是比较高维的场景,常常是representation的状态,很多因子都混在一起的。

    3)评测领域,缺乏一个专门数据集以及对应的指标。


    4)落地的问题,开发因果数据有帮助,还是多收集数据更有帮助。怎杨在实际场景发展因果推理是另外一挑战。

    黄碧薇补充到:

    1)关于因果图,除了可以利用领域知识来构建外,大家非常关注causal discovery,最近15年吸引了很多人的关注。

    2)关于invariant,认为causal model相对其他模型是更稳定,但是在某些情况下是可能会变化的,此时可能需要利用modularity的性质,对于不变部分进行继承,变化的部分进行调整。

    3)关于变量,传统因果基于因果变量研究,当对于图像场景,观测值不是因果变量,如何从高维度图像学习因果变量,如causal representation。面临的问题,学的解不唯一,怎样约束,或者怎样让这些结果与人的理解匹配。

    04

    畅想因果推理的未来

    张洋从推荐系统上的未来发展讨论,认为需要解决以下问题:

    1)评测技术需要发展。如开发一套模拟系统;

    2)现在很多工作会对于因果关系基于几个变量假设,而实际场景的影响因子很多,变量维度高,且可能还需要自己定义变量。

    3)同时处理多个问题,需要把多个问题结合起来考虑,比如不同的bias问题综合处理。

    4) 推荐系统是一个动态运转的系统,推荐系统影响用户,用户也会影响推荐系统,此时无法用有向无环图。同时,人是不断成长,此时不仅需要捕捉不变信息,还需要结合变的兴趣,用因果方式来建模。

    5)将因果推理与推荐系统的结合的过程变得更加智能。

    黄碧薇从因果发现的角度发表了观点。对于自动学习因果图,传统的因果关系从随机对照实验发现,但成本大可行性低,所以大家关注在从观测数据学习,但是有很多强假设:比如说没有不可测的因子,data i.i.d., 无环,无selection bias等。所以研究方向就是如何弱化这些假设,包括:

    1)分布发生变化时如何寻找因果图,她们发现有变化情况实际有助于寻找因果关系;

    2)处理latent confounder/variable情况。关于latent confounder目前需要假设是线性的。对于latent variable包括两种情况:观测是变量是因果变量,同时有一些变量不可观测但会影响这些变量;观测变量类似图像这种仅仅是观测值不是因果变量,需要自动发现因果变量及因果关系。

    3)如何处理有环的情况。目前若假设因关系线性,此情况可以鉴定因果关系。

    4)如何处理data selection bias,观测截取了数据的一部分。

    5)因为因果关系从观测数据中学习因果关系,如何验证学习的因果的图,如怎么用最少的干预实验来验证发现的因果图。

    王谭总结了黄碧薇博士的发言,并补充到:

    1)causal discovery在真实的场景下很难,传统方法主要依赖与独立性假设检测,但在高维数据(如图片)和representation上很难应用,首先很难在真实高维数据中直接去计算因为代价大,同时在representation来做检测可能没有意义。

    2)causal中的 modularity 与disentanglement密不可分的,需要把causal 与 disentangle 结合在一起,如何在复杂场景先把因果变量如何解耦出来,是causal 技术应用的前提条件。

    王文杰从推荐角度进行了补充。他提到推荐是在动态的环境下进行的,很容易发生变化。因此,有两个问题:1)怎解耦出来一些因果变量,以及发现一些比较稳定的关系,来获得o.o.d. 化能力;2)当变化发生是时候怎样去感知这样的变化,以及怎样地更好地快速地适应这种变化。

    金致静认为:

    1)高维问题在NLP中也是存在,需要做disentangle任务。

    2)NLP 有很多以文本存储了common sense 的knowledge,比如一个人的种族不是一个犯罪的原因,如何用这些common sense辅助causal discovery。

    3)model本身也有很多效地node,如何以model为主的来进行因果分析。

    05

     学习经验 

    王文杰分享了以下基本书籍:"Causal Inference in Statistics, Social, and Biomedical Sciences",“Causality: Statistical Perspectives and Applications”以及judeal pearl的“the book of why”和“causality”,建议大家读一些survey。此外,维护了一个casual reading list,在fuli feng的github上。

    金致静提到了她github主页有NLP的因果相关的reading list。同时她指出在学习过程,注意对于现有工作分类,注意有几个流派:1)基础因果,如judeal pearl工作;2) ML中的因果,把人的过程作为因果知识本身;3)把model作为因果的主体,model做判断的方法做为因果发现的主体。

    王谭分享了自己的经验:1)统计的能力很重要,是基础;2)系统地跟进一下比较前沿组的工作;3)从任务驱动的角度出发,先分析因果是否可以起到作用,再去利用因果技术改进。

    张洋分享了自己读书的感受,对于入门来讲,读judeal pearl的几本书,需要的注意下读书的顺序,先读:the book why, 再读Casual Inference In Statistics: A Primer,最后再读"causality"。

    黄碧薇赞同了张洋提到的读书顺序:读the book of why 了解因果的概念;读“Casual Inference In Statistics: A Primer”对因果中的统计知识有些了解;causality比较专业,读起来可能比较困难,但观点非常前沿,很多东西可以继续拿来用并做更深入研究。同时推荐了因果发现的书"Causation, Prediction and Search";

    最后她提到,在机器学习中causal discovery很难做到,但不一定非要完全发现causal structure,利用一些因果比较好的性质就可以了,如 modularity,disentanglement。

    点击“阅读原文”,即可观看本场精彩回放

    整理:张洋

    审核:黄碧微、金致静、王谭、张洋、王文杰

    直播预告

    3月23日 19:30  CVPR2022论文预讲 

    对比学习在域泛化中的应用

    香港中文大学计算机与工程学院博士生——姚旭峰

    往期精彩文章推荐

    c63841cb0ab4d4432ededec9c59e6f97.png

    记得关注我们呀!每天都有新知识!

     关于AI TIME 

    AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

    迄今为止,AI TIME已经邀请了550多位海内外讲者,举办了逾300场活动,超120万人次观看。

    3d044dbe79e5197e6e939490a95bf89a.png

    我知道你

    在看

    ~

    8430058cf2b567ec54f027e4c76b4474.gif

    点击 阅读原文 查看回放!

    更多相关内容
  • 因果推理

    2021-03-04 03:03:26
    因果推理
  • 【干货书】《因果推理导论-机器学习角度》,132页pdf 有几个主要的主题贯穿全书。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。 统计...
  • CausalInference.jl:使用PC算法进行因果推理,图形模型和结构学习
  • 本文旨在利用新提出的数据开发数据驱动的近似因果推理模型证据推理(ER)规则。 ER规则构成通用的联合概率推理过程并概括了邓普斯特法则和贝叶斯推论。 基于信念规则(BRB)的方法被开发用于建模先前属性之间的复杂...
  • Causal ML是一个Python软件包,它提供了一套基于最近研究的,使用机器学习算法的提升模型和因果推理方法。 它提供了一个标准界面,允许用户从实验或观察数据中估计条件平均治疗效果(CATE)或个体治疗效果(ITE)。 ...
  • 来自Georgia、Buffalo、阿里巴巴与Virginia的学者做了因果推理表示学习报告,在本教程中,介绍用于治疗效果估计的传统和最先进的表示学习算法。关于因果推论,反事实和匹配估计的背景也将被包括。我们还将展示这些...
  • 来自杜克大学Fan Li的简明《因果推理》课程! Chapter 1. Introduction 引言 Chapter 2. Randomized experiments 随机实验 Chapter 2.1: Fisher's and Neyman's mode of inference Chapter 2.2: Covariate ...
  • 本文为大家奉上NeurIPS 2020必读的六篇因果推理(Causal Inference)相关论文——Covid-19传播因果分析、反事实概率方法、因果图发现、因果模仿学习、弱监督语义分割、不确定性因果效应。
  • 在ICML 2020上,我们发现基于因果推理(Causal Inference)相关的paper很多,因果推理,以及反事实等相关理论方法在CV、NLP都开始有相关的应用了,这个前沿的方法受到了很多人的关注。
  • cfml_tools是我的因果推理算法的集合,这些因果推理算法基于可访问的,简单的即用型ML方法构建,旨在在业务环境中得到解释和使用。 安装 打开您的终端并执行: git clone ...
  • 本文回顾了导致基于结构模型的因果关系数学理论的概念、原则和工具。 该理论为因果推断中的许多问题提供了解决方案,包括混杂控制、政策分析、调解、缺失数据和来自不同研究的数据整合等问题。
  • 工具变量 (IV) 是一种常用的从观测数据进行因果推断的技术。 在实践中,IV 引起的变化可能是有限的,这会导致对因果效应的估计不准确或有偏差,并使该方法对政策决策无效。 我们通过将从候选外生数据构建工具变量的...
  • causalcrushers:团队资料库,用于课程识别和因果推理
  • 他首先认为因果推理是人类知识的核心,实际上他也第一个提出因果推理是一种通用智能。一方面他跟随洛克,认为人有各种各样的认知模块去吸收外来的经验,但人有一个通用的因果推理的机制,来把这些经验组织成一种系统...

    39625155b2a245bdda98a4d09d40bda6.png

    来源:本文为中国人民大学明德讲坛第23期暨服务器艺术·人工智能哲学第11期讲座文稿。

    主持人:朱锐  

    嘉宾:邱德钧、秦曾昌、Vincent Luizzi、袁园 

    主办:中国人民大学哲学与认知科学跨学科交叉平台、服务器艺术 

    协办:神经现实 

    封面:Núria Madrid

    整理:腰总、wug、Kingsley、光影 

    排版:光影

    @朱锐

    大家好,今天我们非常荣幸地请到了四位嘉宾来跟大家一块讨论“人工智能与因果推理”,这是一个稍微带点技术性的题目,但是也非常重要。大家可以注意到,人文和科学、技术和艺术是在不断融合的,今天可以说是一个比较典范的例子,希望能让大家知道前沿的科学是怎样发展的。

    首先我简单地介绍各位嘉宾。首先是北京航空航天大学自动化科学与电气工程学院副教授秦曾昌老师;然后是兰州大学副教授邱德钧老师;美国德州州立大学法哲学教授Vincent Luizzi(Vincent那边是早上六点半,为了我们他起了个大早);还有我们的老朋友,也是我非常尊敬的袁园老师。

    下面我就不多说了,我就简单地分享一下自己准备的开场白。先说一个小故事,前不久在春节期间有女足比赛,中国对韩国,在中场的时候中国队落后两分,收视率大幅下降,后来中国队赢了。而球迷在讨论的时候说他们不是不关心中国女足,而是他们担心自己在看女足比赛的这个行为影响了中国队的运气。这说明人也许有一种先天的因果假设——自己的行动会影响世界的进程。

    这在哲学上有很长的历史,我今天稍微讲一下。当我们在讲因果性的时候,首先提到的是亚里士多德的“四因说”。比如他用桌子来作为一个例子:桌子是用木头做的,所以叫质料因(material cause);还有形式因,就是说桌子的设计叫formal course;再就是所谓的动力因(efficient cause),就是木匠把桌子从木头中制作出来;最后是目的因(final cause),就是说桌子是用来做什么(用途)的,用来放东西、吃饭的。

    但真正的因果在认识论和哲学史上引起革命性讨论的一个人物是休谟,可以说他在现代意义上确立了因果推断的重要性。现在我们讨论因果的一些概念都离不开休谟。他首先认为因果推理是人类知识的核心,实际上他也第一个提出因果推理是一种通用智能。一方面他跟随洛克,认为人有各种各样的认知模块去吸收外来的经验,但人有一个通用的因果推理的机制,来把这些经验组织成一种系统知识。

    所以在休谟看来,因果推理是我们建构整个宇宙的水泥,叫the cement of the universe。但是他又认为因果观点是一个假设,是一个由习惯而产生的幻觉,他的理由实际上说简单也很简单,当然说复杂也很复杂,主要观点就是说因果必然性是人类从经验中得来的一个习惯性假设。但是经验所提供的证据只涉及到对象之间的恒常连接(constant conjunction),包括一些类似性或者接近性的关系。

    而这些关系所谓的关联——恒常连接并不能够真正地支持因果必然性的推理。这就涉及到一个康德后来所说的休谟的因果问题。在康德看来,休谟提出了两个根本性的问题:一个是因果律是否具有普遍必然性的问题,另外一个是因果与归纳的关系,包括什么是因果律,以及因果律与人类知识的扩展之间有什么样的关系等等。我们在考虑因果性的时候,特别是在休谟观点的前提下,大概要把握三点:

    第一,休谟第一个明确地把因果性看成是人类心智的一个核心特征;第二,因果不是也不能被还原为关联或者恒常连接;第三,如果因果问题不能被解决,那么人类知识的可能性问题也就无法解决。所以说休谟通过因果带来人类知识的危机。但实际上,现在科技的发展、人工智能的发展,让休谟的这种理解有了一个新的意义。

    下面我们就就请邱德钧老师来讲讲他的看法。有请邱老师。

    ec5d0bd313ab08924ec4a6644078ab98.png

    - Núria Madrid  -

    因果推理和统计推理

    @邱德钧

    朱老师好!非常感谢主持人,也感谢明德论坛和服务器艺术能给我这次机会,跟大家分享关于因果问题和统计推理的一些心得体会,希望大家能够提出批评和建议。

    朱老师刚才已经从哲学上给大家讲了因果问题,那么利用因果进行推理是一个很古老的问题。在日常生活当中,我们谈到因果关系的时候,要么把因果关系当做一种认知方法,要么把因果关系当作事物内部固有的一种客观联系。可是人工智能当中讲的因果关系跟日常生活当中我们所理解的这两种都有差别。

    在深度神经网络当中,我们只能观察到输入和输出,而不知道中间所发生的所谓“黑盒子”的过程,这样就没办法把模型往其他应用上推广。所以,为了推广和泛化我们就要研究因果关系。人工智能界经常用一个和我们不同的词叫“捕获”,如何从数据当中捕获因果关系?大家通过用词的不同也可以体会到,它和我们日常讲的因果关系是有很大的区别。它需要在许许多多不同的训练数据当中找到某种共同的不变性,这是人工智能讲的因果关系。

    我做了一个题目是“因果推理和统计推理”的PPT。把这两个东西并列在一起其实有一些不妥,为什么呢?因为按今天的理解来说,我们是在利用统计推理的办法找到数据之间的不变性,是在为因果关系提供一种辩护。最终之所以确定了这么一个题目,是因为这二者在人工智能当中出现的频率太高了,所以把它们联系到一起来讲。

    朱老师刚才说从亚里士多德开始到休谟,因果问题都是一个非常重要的问题。我今天想从一个很普通的视角来谈论这个问题,更专业的话题留给一会儿秦老师和Vincent这些更专业的人士来讲。我不以历史上的人物为线索,而是来讲讲人为什么会使用因果概念?我们又如何来使用因果概念来达到我们的目的?从这么一个非常普通的视角,希望能引起更多人的兴趣。

    在很早的时候,山上有一块大石头往山下滚动,大石头撞到了这块小石头,小石头因此也滚动起来了。我们不追问大石头为什么要滚动,而是问小石头为什么会滚动?是因为大石头撞了它。大石头为什么撞了它?因为大石头想撞它。这就是最早的关于因果关系的表述,大家非常熟悉,叫“万物有灵论”,更专业地称之为“泛灵论”。这种万物有灵论,其实有点类似于中国古代文学当中的“见物起兴、兴起及人”,比方说见到“关关雎鸠,在河之洲”之后,就想到了“窈窕淑女,君子好逑”,我们不过是“推物及人”。

    那么万物有灵论走的方向是相反的,是“推人及物”。大家都知道万物有灵论,是因为我们对客观事物的观察有错误或者不全面造成的。这个名称其实出现得很晚,是著名的人类学家泰勒(Edward B. Tylor)爵士在19世纪末期提出来的,他认为在原始社会里有一种很普遍的观点,认为事物之间的联系可以用这种万物有灵论来解释。

    这说明一个什么问题?我们非常需要对观察到的现象或者观察到的不完整现象做一种解释,即使这种解释其实是错误的、不全面的,我们也需要这种解释。可历史上建立起的对所观察到的现象的解释,不一定都叫做因果,有的时候叫做拜物、图腾、归因等等,有许多叫法。至于为什么,后面我会略微做说明。再往上溯源的话,泰勒其实是把无生命的物体当做一种有生命的物体,让有生命的物体对无生命的物体自然产生一种防范,有利于人类的自身进化,这是最早出现的因果关系。

    回应刚才那个问题:为什么在很早的时候,人类并不统一地把这种解释都叫做因果关系?因为因果问题在一定条件下会消解。举个通俗的例子,两个年轻人谈恋爱很容易问:你为什么喜欢我?可随着岁月的增长,两人结婚之后这个问题不重要了,它已经消解在日常的生活与关爱当中了。物理学当中一个球撞击了另外一个球,让另外一个球进洞,我们不会问为什么一个球要撞击另外一个球,而是用更准确的力、作用力和反作用力、速度、角度等来刻画它。

    所以对一个问题认知深入之后,因果问题会自然地消解掉。朱老师刚才也提到了因果问题跨过万物有灵论这个阶段之后,进入了亚里士多德的时代。亚里士多德的时代把因果问题引入了科学研究当中,这个时候因果问题自然就具有了另外一种含义。要根据已观察到的现象来预测还没有发生的现象,这时因果问题赋予了新的含义。那么这种新的含义,我把它叫做“内涵”,不能说是因果的新作用。因为它暗含着这么一个意思——因果问题可能真的是事物内部存在的一种固有的关系。

    随着现代逻辑的产生,大家都知道现代逻辑因为布尔他们的努力进行了符号化。符号化对因果关系做了很大的扩充。因果关系被放大到了充分条件关系,p是一个条件,q是结果,有p就会有q,这种时候我们说这种充分条件关系是成立的,就像屏幕上看见的黄色的这一行所表达的真值关系。

    b2cac8e4f83986f53a1e2fc28f7c378a.png

    这会带来一个问题:不相干的两件事,a和b可以被符号连接起来,可以伪装成因果关系,这是在符号逻辑出现之后新出现的关于因果关系的认知。

    由于统计学的发展,我们开始用概率度量因果,这有许多优势,尤其是贝叶斯的观点。但也出现了一个新的问题:必须假设原因的变化会导致概率出现变化。而这存在一个不足,它没法刻画在一定范围内的概率变化而输出不变。而且在深度学习当中,这种概率的因果极度依赖激活函数,这会造成很大的麻烦。所以就有了我们所看见的从2018年以来的因果图和矩阵的引入。这是朱迪亚·珀尔(Judea Pearl)及其学生的贡献,这里面的工作大家都非常熟悉。我们可以注意到一点,珀尔讲的因果图是指有向无环图,而我在这里画的是有环的图。还要注意因为图论本身就叫图矩阵。

    9bac3a0059a3895234c775a7fdff2850.png

    一张图可以很容易地转化成矩阵来表达,一个矩阵也可以很容易转化成图来表达。那么做成有向无环图,就可以用现在下面张图来清晰地表达。用矩阵表达和有向图表达有什么好处呢?我曾经让2020级的学生把所有物理公式画成因果图,因为这样可以很容易理清物理等式中的许多相关变量,它们是不具有因果性的,所以画图很重要,一旦画成图转换成矩阵就更有意思了。

    3b434ceab5cf513af114f904a3382562.png

    我们可以用许多变量来刻画一个事物。比方我们在《三国》这个游戏当中,只用曹操的武力值、领导能力、文学能力、魅力值这几个参数来刻画曹操,以此比较他和诸葛亮的不同。当我们有100多个变量来刻画曹操,矩阵的作用就会显现出来。

    还有一个最关键的原因是,现实生活当中数据是非常昂贵的,不可能有许多训练集来供你测试,借此找到不同。列成矩阵之后,矩阵可以变换、拉伸、扭曲,为我们提供了不同维度下观察同一组数据的可能,如果能在这些矩阵变化的过程当中找出不变的东西,就很利于发现因果。这是这些年在人工智能当中因果关系研究比较大的一个特点。矩阵刻画的优点就是假设我们符号化时丢失掉的语义内涵,总是会以某一种外在的表征表现出来,但它的缺点是并非任何事物都可以测量,并且可以用数字刻画(即量化)的,数字刻画还存在别的更多的缺点。

    所以,这些年,逻辑学家也在想办法来更精确地表达因果关系。一部分逻辑学家在探讨符号表达的极限,甚至在探讨我们的0和1、真和假这种离散的符号的表达,能否把它改成连续的,以增加逻辑学的表达能力。这样逻辑学天生就和因果关系相融,可以用它来展开对因果关系的研究。

    还有一种办法,逻辑学家想,如果用数学刻画因果关系比逻辑更强的话,那是因为数学的运算更多,不像逻辑学里面只有并非、析取、合取、蕴含以及等值。逻辑学的简单的几个运算符号不利于表达因果关系。所以波兰的一批逻辑学家试图把实验也做成一个算子,看能不能增强因果关系的表达。但是我个人不太看好这两种方向,因为你不能把逻辑变成数学,不能把离散的变成连续的。我们可以让灯的开关关上或者打开,但不可能把开关变成半开半关。但另外一条路非常好,那就是在今天的深度神经网络中反向传播的时候,加进一些逻辑判断,这样来减少实际的计算量。很多人在做一些探索。

    这是一张在网上的截图,我深有感触。我们人类碰见问题,就像碰到问题的孩子找妈妈一样,我们碰见还不能完全观察、不便观察的现象的时候,总是回过头来找因果关系,把所有的不明白之处都归咎于因果关系。不断地找因果关系,就跟小孩叫妈妈一样“妈妈、妈妈、妈妈……”,最终妈妈不是万能的,我们可能用因果关系把许多本质的问题给淹没掉了。所以把一切归结为因果关系,并不是一件很好的事。

    6d1a91af87c634bda3ed40824d93665b.png

    一部分人认为产生意识才能使人工智能进入通用人工智能的阶段,我认为这种看法是有问题的,产生意识不应该是通用人工智能的前置条件。

    今天人工智能的发展其实是在弥补人认知的不足,要扩展人的认知力。举一个非常简单的例子,我们向一堵墙投掷篮球,不用尝试就能够断定这个球会反弹回来。如果你戴一个计算力很强的手套,就能够精确地预测球弹回来的精确落点。所以人工智能应该往这方面发展,并不是说一定要产生意识。

    为什么这么说呢?这还是因为客观世界当中的许多现象是我们观察不到的。如果许多现象我们能够观察到——我在这里用的是“如果观察存在”这个词——如果我们能够观察到,我们就能把这些现象描述出来。当然就能够接近于解决或者回答这些问题。可是有许多现象是我们观察不到的,怎么办?我们今天会对观察不到的现象进行预测,然后做实验或者采取行动来检验这种预测是否正确;如果还不行的话,就发挥人自身的想象能力。所以我认为以后预测、行动、想象力将会替代我们如何来理解事物的几个关键词,而后三者完全没有必要非把它称为因果关系。

    朱老师还让我说说归纳和统计的问题。大家都知道,统计不可能在人类的原始社会就出现,一定是有大量的累计数据才会出现。这是著名的哈雷生命表(Halley’s Table),大概是在1693年的时候,波兰布雷斯劳小镇一个新教的牧师叫诺依曼,他发现这个小镇的人有一个迷信,认为人很难度过43岁、63岁和82岁,他不相信这个传说。于是,他统计了小镇的34000人的年龄。大家可以从这表上看得出来,1-2岁死的人很多,43岁到44岁死了10个人,其他的82岁死的人也不多。这个表后来被哈雷得到,哈雷对此做了一些近似的插值的运算之后,得到了这么一个表。他说要从研究天体的运动来研究生命运动。这开创了一个很重要的时代,那就是人们纯粹利用数据来进行推理。当时正好是威廉三世发动“九年战争”期间。哈雷就用这个表提供了数据支持,看18岁到56岁之间的人中有多少兵源可以上战场。有了统计的数据之后,我们才能够进行实验、推理。

    98ed47d137f886ebb29db5ece4498642.png

    我们常讲的统计和归纳二者之间其实是非常不同的。我们进行归纳的时候是左边这个图,我们研究的某一类现象——S类现象里面拥有S1,S2,…,Sn这些有限的现象。我们观察这些现象里面的每个个体都具有某种性质,我们把这种性质往外推导到所有的S可能都具有某种性质,这是归纳推理。

    abe5ce32a688fcb921a83fc8c4309d9f.png

    统计则不太相同,统计是先考察一个很小的样本,对样本进行总结,总结出某一种统计特征之后进行分类,把这种分类往总体上推导。其中有一个非常重要的环节,中间还有个圆圈,大家要注意,这个圆圈表明现代进行统计推理的时候要进行假设检验,而不是直接往现实当中用。左边的图有一个人,右边的图有三个人,也就是说归纳推理有一个特别重要的特点,就是可以把个体的性质往另外一个个体上推导;统计则不具有这个特征,统计一定是从许多数据当中才能得到结论。

    这里面有一个很麻烦的循环:发现因果要依靠大量的统计,可是我们统计的假设是人类未来的行为总是会与过去惯常的行为一致。这里面就形成了一个可怕的循环。所以大家可以看得出来,因果和统计当中确实存在一些问题,这种苦恼在计算机出现之后开始得到化解。著名的支持向量机就是二分法,很早就出现了。大家看,要把黑色的和白色的这两类球分开,有三种分类方法:H1当然不好,H2能分开但不稳定,我们一般用H3这种分类方法,它间隔大、最稳定。罗森布拉特(Frank Rosenblatt)将它推广开的,但他遭到了批判。像本吉奥(Yoshua Bengio)认为现实世界当中的模型不是线性的,而是非线性的,因此这种分类方式是有缺陷的。

    b78469ac7c2b625d8ff6367254c8710e.png

    最早反对这种分类的还是罗森布拉特的一个同学,也就是大家都非常熟悉的闵斯基(Marvin Lee Minsky),他认为异或线性不可分。那种反对是错误的,但是不管怎么样,这种统计中的分类存在着问题。

    有一篇论文非常好玩,介绍给大家,一篇法语论文,叫做《神经元的复仇》。它讲述的是2012年辛顿去参加视觉大赛,他对计算机视觉的了解并不太多,需要两个小家伙才能把计算机视觉领域给炸毁重组。这两个小家伙带着又大又深的黑匣子,里面有1亿多个参数,他把它拖出来,把整个视觉识别领域给炸开了。大家都知道,这两个小家伙指的是现在如日中天的杨立昆(Yann LeCun)和李飞飞。这说明一个什么问题呢?在统计分类、机器学习遇到麻烦的时候,是杨立昆和李飞飞来解决的。在我们的统计分类机器学习遇到麻烦的时候,是李飞飞他们从另外一个角度带着炸弹把这个问题炸掉。所以我感觉到因果问题也会被人给炸掉。有一天我们不会再来讨论因果问题,我们将讨论的是预测、行动和想象力的问题。

    c913f583514d40729780ee4c9d3fab68.png

    好,非常谢谢大家。

    @朱锐

    谢谢邱老师,讲得非常精彩,而且非常有深度。我现在先简单地总结一下邱老师的观点,然后我再问别的嘉宾有没有问题问邱老师。

    最开始,邱教授区分了认知因果和客观因果。认知因果在人类历史上已经存在了很长时间,最早可追溯到“万物有灵论”。这是一种人对客观世界的预测,假设事物具有某种内在的意志或目的。然而,邱教授认为,这种预测往往会导致自我消解。随着认识的进步,人类知道的东西越来越多,这个问题最终会消失;第二,因果成为描述客观现实的工具,但简单的因果问题逐渐被诱导推测为客观事实,而客观事实往往不能靠简单的推测而得出。在现代逻辑中,人们试图通过符号来捕获因果关系。在这里,邱教授比较了逻辑符号和矩阵,它们各有自己的优缺点。

    最后,邱教授认为我们不应该试图去讨论因果关系的重要性,特别是在人工智能的发展中,因为因果关系在某种程度上是可消解的。对于人工智能的发展来说,最重要的问题是通过预测、行动和想象,而不是试图模拟复现问题。

    第一点就是因果有认知的跟客观的差别:认知的因果观念很容易被消解;而客观的因果观点则是我们试图从知识论中去捕获的,捕获的方式有传统的逻辑的方式、符号的方式,以及现在的矩阵的方式、数学的方式,各有各的优缺点。邱老师还有一个主要观点是人工智能发展的一个主要方向是不要过度模仿人类的因果推理(因为这种因果推理是有一定问题的),而应该注重预测、行动和想象力。但对此,我其实有一个问题,就是您说因果问题可以被消解。我觉得如果人类的知识是跳跃的,而不是这种因果假设的。在何种意义上,您对消解这种这种命题有多大的信心?我想请您稍微评价一下这个。

    @邱德钧

    是这样的,所有的问题就在于客观事物是不是可观察的,如果可观察到的事物,我们一定有更好的办法,像测量两个球之间的运动来描述它,而正是因为许多东西是我们观察不到的,只能想象。这种时候我们就像孩子找妈一样,求助于因果。我说的消解指的是能观察到的现象的因果问题一定会被更具体的问题、更精确的物理量、更精确的数学表达来替代掉,这是我所谓的消解。

    @朱锐

    谢谢邱老师,谢谢您的澄清。

    法律中的因果推断

    下面我就请我们第二位嘉宾,Professor Vincent Luizzi。Professor Luizzi是法学家,也是一名市政法官。他在英国法哲学方面以及在法的实践之中,对从罪到罚的这种因果联系有深刻的体会*。

    *注

    朱锐老师对所有嘉宾的英文发言做了翻译,并将中文内容也转译成了英文,以便嘉宾们之间的沟通。为减少内容的重复,便于读者阅读,文字稿对相关翻译做了整理和补充。完整内容还请点击开篇视频回看。

    @Vincent Luizzi

    谢谢朱老师。关于法律与因果关系的讨论,我们不妨看看在法律中使用罪状陈述的例子,这应该能有所帮助。我试图着眼于一些法律的常识,即审判和惩罚,以便让大家熟悉我们在法律中发现的对立类型。 

    先看看我们会做出的一些因果性质的陈述。在每一个例子中,我都给出了一个直接了当的例子和一个我们可以进一步讨论的反事实例子。所以当我们谈到惩罚时,我们可能会想到惩罚和它对特定犯罪者的威慑作用之间的联系。这是第一个命题,惩罚可以阻止罪犯继续犯罪。

    24c1d16bad7817b55fc543c1a57497e0.png

    以反事实的方式处理这个主题。如果我们对罪犯处以更严厉的惩罚,我们就能阻止更多的人犯罪。诉诸人们的违法行为和法律规范之间的每一个因果要素,都决定着对辩护人是否存在罪状的决裁。

    如,可能是X开的枪杀了Y。从反事实的角度考虑,如果Y的心脏病当时没有同时发作,他就不会死。在考察X所做的事、直接的因果关系以及反事实所带来的一些问题后,我们再做裁决。我之所以想讲这个,是因为这是我自己参与的一个案例,我感觉这和我们要讨论的因果问题很接近,我也想要分析它。

    我们在第一个命题中发现了一种演绎推理链。在这里,它遵循的规则是,在公园里开车将被罚款100美元——法官将对在公园里开车的X处以100美元的罚款。在裁决中,我们需要考虑这样的反事实——如果罪犯年龄过小,法官又是否会对其判刑呢?

    ae89b2592ca9e99c0d37c26b4c2e807f.png

    朱迪亚·珀尔对因果和认知研究做出了巨大贡献,可以说这是一场因果革命。(他主要是用数学的语言去描述一些在人类看来是因果的直觉。)他的基本观点是,如果我们继续用代数模型来思考编程和计算机,并从因果关系的角度来思考其主要的关联,我们将无法捕捉到因果关系的复杂性,我们也无法以有意义的方式在这个世界上谈论因果关系。

    他认为重要的是,我们要理解因果关系的数学原理,这就足以让我们抓住直觉。或者更直截了当的说,如果人工智能想更进一步发展,从而达到能够跟人类进行真正互动的层面,它必须能够懂得并处理各种各样的因果推理。比如说在回顾(retrospect)、想象(imagine)以及判断这些层面上,都能处理涉及反事实推理性质的因果推理。

    他在他的一些演讲中指出,这是一种能力,这种能力似乎使我们在演化发展的过程中脱离了其他生物。其他生物没有这种直接的因果推断的能力,以让它们能够预见未来。正是这种能力,使得我们可以做到一些简单的事情。比如你给了我一件东西,那作为交换,我也会给你一个东西。他说这类想法在最基本的层面上可能是一种互惠,这在与猴子打交道时可能会实现。但它们永远无法参与到这样的交易中——就如猴子给了我们一根香蕉,我们能保持良好的状态,以保证自己在未来的生活中拥有大量的香蕉。

    所以珀尔非常重视人们反事实的能力。这里有一个我们人类似乎能够处理的例子以及另外几个命题。珀尔让我们选择其中一个,去看看哪个在相比之下更为可信。

    我们来看看,如果不是奥斯瓦尔德杀了肯尼迪,那肯定是别人干的。另一个是如果奥斯瓦尔德没有杀肯尼迪,肯定会有人杀了他。珀尔自信地认为,如果我们去检验人们的直觉,判断哪一个是更可行的反事实,那将会是第一个。但我们如何教计算机做出判断,以及我们如何在人工智能中编写程序,让它给出建议,这是一个挑战。他声称,凭借他的数学语言和对因果关系的理解,我们能够将计算机推向那样的水平。他用一个比喻说,人工智能将走上一个阶梯。在最高的层次上,我们会看到他们拥有回顾、想象、评估和决定的能力。

    在下一张幻灯片中,我们可以直接看到人工智能可以攀爬的阶梯。正如我们提到的,当人工智能拥有这些能力时,它将是最顶尖的。它可以处理任何事情,例如从干预或者在场景中加入元素,或者直接处理一些实际的属性。

    0f7e8ed1dd4779ba23fa47c19861adf2.png

    第二句话接近于一段引文,它介绍了教机器人做事的语言。它在接下来的几句话中谈到,他们将极大地提高探究能力,他预计他们的探究将导致更多的研究产出。你会联想到斯蒂芬·霍金几年前给我们的一些警告,即当机器人开始独立运作的时候——或者说当人工智能产生独立对话的功能时,一些评论家,包括他自己,都提到这会迎来一个奇点。

    但珀尔总体上似乎持乐观态度,他认为机器人势必承担更多的功能。我认为,最能渗透社会和文化思维的发展路线一直是,让机器人作为法官,与法律体系保持一致,以发挥发挥作用。

    你可以在最近发表的文章中找到这篇题为《人工智能在未来的法庭:他们会取代法官吗?》(AI in Future Courtrooms: Will They Replace Judges?)的文章。你会发现这些更多的是专题报道,混合了一些事实信息,加上部分新闻文章的合理猜测。这表明我们正在以一种新的方式在法庭上使用人工智能,其他人只是提供信息,而机器人也许不一定是担任法官。如我们看到在一篇文章中讲述机器人在北京中级人民法院提供大量的法律指导那样。

    d2b6d02ff6640d16dd7681d6fc238924.png

    我最喜欢的一部关于优化法律体系的短片刚刚上映,这是一系列短片中的一部,它们都是今年奥斯卡的候选。其中有一篇叫Please Hold。它给了我们一个相当黑暗的反乌托邦的观点——关于人工智能如何接管法律体系的每个阶段。有个年轻人在街上走着,在他面前,一架无人机从空中呼啸而下,盘旋在他的正上方,说:“警报!警报!你被捕了。”他命令这名男子将自己锁在无人机上,并将他带到监禁设施。随着电影的进行,你会发现一切都是自动化的。在电影所发生的事件中,带有非常黑暗的反乌托邦元素。例如,这个年轻人从来没有发现自己存在那些被指控的罪名,但他经常在电脑显示器上被提供认罪或不认罪的选项,以及与认罪有关的强制性陈述。举个例子,如果他要受审,他会被拘留的时间长度也将通过无罪抗辩决定。

    在任何情况下,都是在没有与人有任何接触下,靠整个司法系统的经验在发挥作用,甚至食物都是由机械代理人运送。他所听到的一切都是电脑录音。当他终于出院时,门打开了,一个机器人带他走了出去。所以,你明白这样的影片是有价值的,特别是我们对自动化司法决策的迷恋及其对机器的思考已经持续了很长时间了。

    40年前,我在意大利的费伦泽参加了一个会议,这正是我们会议的主题——我们可以让司法决策自动化吗?如果我们把机器人当作法官,我的建议会是什么?我将在最后两张PPT里陈述。

    7ec1ece60236ec7c775dd2ee7fa1c003.png

    我想说的是,对自动化司法的评判有两种主要观点。我认为它们在社会上都很出名,他们也被作为评判这个论点的竞争楷模。其中机械派的观点是,法律中交由法官判断的东西,是由立法机关所阐明的,是固定的。法官只需要对事实进行推理,在演绎判决程序中,法官不需要行使自由裁量权,就能得到结果。如果你看了最高法院席位提名人Kathong Brown Jackson的任何一场听证会,你就会看到许多保守派立法者一遍又一遍地希望从法官那里得到声称的答案,这就是她作为一名法官的运作方式,换句话说,不要(自己)制定法律。

    另一种观点是从美国法律现实主义著名的陪审员Oliver Wendell Holmes开始,他想让我们把法律看作一个不断发展的实体。法律是如何成长和演化的呢?它是影响法官决定的许多因素的结果。类似的情况称为相关状态。就像是为教授和法学学生提供解释和总结的法律体系论文那样,它们都需要综合考虑道德、社会福利与利益之间的平衡。

    f6f992e8dceaffa5026196613a753a10.png

    现在,你不必把沉重的社会福利和社会道德承诺的概念带进来,去决定这个问题的答案。另一方面,现实是有一些棘手的案件,但就其性质而言,可能有两种结果。而无论这些案件选择那种立场,你的法律体系都与之前的裁决不同。无论是硬性案件的裁决,还是对国家或公民的裁决,都为司法程序和司法系统增加了一些以前没有的东西,并准确地记录了法官对法律发展所做贡献的方式。因此,我想强调的底线是,思考机器人对传统决策的改良是可预见的,而且看起来我们已经比珀尔的这些见解走得更远。我相信他提出的用数学基础来理解机器人处理反事实的重要性。

    做个总结,我提出了社会中存在的两种相互竞争的基本模式。但最理想的情况是,我们将机器人作为法官,同时法律应该具有两种功能,兼顾机器和法官个人的观点。非常感谢老师们聆听这些想法,希望能听到任何批判性的反馈。

    @秦曾昌

    我有个问题,Luizzi教授。作为一名法官,你对不久的将来会出现在法庭上的机器人法官有什么看法?例如,你喜欢看机器人做裁判,还是讨厌看机器人做裁判?假设在不久的将来有这样一种技术,你认为你如何才能相信这种技术?

    @Vincent  Luizzi

    我认为信任是一个非常重要的因素,有一件事可能会一直延续下去,那就是公民的期望不会因为法官的决定和行为而落空。

    关于美国法律现实主义的观点,法官在其中扮演的角色并不只是被动的。一位法官谈到,他的工作性质被称为判断的直觉。他抓住了珀尔想要运用的那种洞察力。他一开始就说,我们的直觉很好地指导我们理解因果关系。这是我们讨论直觉的范畴中的一个。如果我们能达到珀尔想要做的,那我们应该怎样用数学的方法来获取人类的直觉呢?这可能是创建法官的敲门砖,它主要反映了在充分利用人类直觉能力的人类法官身上想看到的行为。

    因果推断在人工智能领域的应用

    @朱锐

    我们下一位就请秦曾昌老师分享您的内容。

    @秦曾昌

    大家好,因为时间有限,我会很简洁地去讲一下我关于causal reasoning(因果推断)在人工智能领域的应用的一些个人想法。首先,大家可以看一下这张图,这是一个正式的研究。横轴是巧克力的consumption(消费),也就是大家吃巧克力的数量,是一个平均数。纵轴是每1000万人中获得诺贝尔奖的人数。

    1f7ea3896acb6eeb9fe0fe74655f0b95.png

    大家可以看到,这些国家的排列惊人地呈现为一个正向的分布,能得出的结论就是:这个国家的人如果吃巧克力越多,那么得到诺贝尔奖的数量越多。

    大家可以看到瑞士是在最右上角,很幽默的一点是中国是在最左下角。大家觉得这可能像一个笑话,但实际上这是一篇正式的论文。当然这篇论文尝试从人的刺激认知等各方面的原因解释了这些数据,但实际上我们并不会相信这是一个真正的结果。

    这其实就是一个特别具有代表性例子,就是这种关联(association)可能并不指向一种因果关系。

    也许背后会有一个所谓的隐含变量,比如说经济发展的程度。经济发展的程度在某种程度上其实也许跟巧克力的销量成正相关,但也许也正好和诺贝尔奖得主的数量成正相关。

    所以它们之间的关系实际上更可能是由一个隐含变量影响,比如经济发展程度分别与巧克力消耗量和诺贝尔奖数量之间有因果关系,而不是后两者之间互为因果关系。那在因果关系中的两个因素或者两个变量之间,如何能更好地区分它们的关系是简单的因果,还是只是简单的关联呢?

    我们知道,在物理模型里,当我们推东西时会对物体施加一个力,然后这个物体会得到一些加速度。在物理学里,我们可以十分确定这是一种很强的因果关系。所以,从科学的角度上讲,在这种偏物理性的因果关系与我们生活中涉及的认知性的因果关系之间,我们应该怎么去构建桥梁呢?与此同时,大家也知道,因果之间有很多的不确定性,比如一个人去推一个东西,它获得的加速度有可能是0,也就是他/她没有推动这个物体。那我们该怎么去衡量这样的一些不确定因素?

    对于刚才所说的物理系统,有人会去argue(主张)说,判断是否为因果关系的最核心的一个因素,就是看两件事情谁先发生谁后发生,如果一件事情发生在另一件事情的发生之后,也许它们之间就会有因果关系。

    比如另外一个大家都知道的例子,公鸡打鸣往往是在曙光到来之前,即在太阳没有升起来的时候,公鸡就已经开始打鸣了。所以是公鸡先打鸣,太阳后升起。但是你能说“因为公鸡打鸣了,所以太阳才升起来”吗?不能。所以你会发现,纯时间因素也并不能作为因果关系的一个佐证。

    我们再来想象一下纯物理的系统,我们先撇开偏工程物理方向的研究,或者是人工智能方向的研究。想象一下,如果我们把这个世界看成全部都是确定性的——我们做科学研究的人更倾向于是一群支持机械论的人——比如说,假设这个世界是由最开始的大爆炸产生的,这就像一个石头被扔在水里,产生波澜。我们可以认为水里边的任何运动都只是在某种程度上或大或小地受到了这个石头的影响。类似地,我们今天所认为的事件发生的多种因素,也许都是从大爆炸开始就被唯一确定了的。当然这是一种特别极端的机械论。

    我们今天已经开始重新去审视这种机械论观点。一方面,存在很多的因素,这些因素之间也许会互相抵消。另一方面,大家可以想象,产生因素的过程可能被多米诺骨牌效应影响。我们生活中的很多事件就像被摆在世界中的多米诺骨牌,然后出现一个运动,比如说有一个皮球突然砸到了几张多米诺骨牌,那么牌就会接连倒下。但有的时候并不是所有的牌都会倒下,而只是离这个球最近的牌和最后一张倒下的牌之间一部分相关的牌会倒下。所以大家可以这样想象,在我们所在的这个时空里有一个光锥,你可以把它看作是一个cone of consequences,意思是你的一个行为会产生一系列的影响,但这个影响不是对整个世界或整个自然都有影响,它影响的是一个有限的部分。按照这个思路,很多物理学家就想到,其实这也许是产生因果的一个很重要的物理元素和原因。

    2f1c001eb1364682bd6265137a81755b.png

    上面这个人叫史蒂芬·沃尔弗拉姆(Stephen Wolfram),他写了一本书叫A New Kind of Science,可能很多人都听过。他认为这个世界虽然纷繁复杂,但实际上都是由简单的因素驱使而成。他认为这个世界是基于这种物理式的因果而成的。

    比如他做了这样一个简单的实验,如上图所示。在这个只有黑白两种颜色世界的开端,放置一个黑色的小方块,之后小方块按照下边这几种特别简单的规则进行发展。最开始的一个黑色小方块,经过不断的繁衍、推导,最终形成了很多复杂的形状。

    叶子的形成也是类似的过程。你可以看到松树叶、柏树叶等不同的树叶具有各种形状,但你会发现其实叶子的形状主要是细胞累积而成的,都是由几个细胞产生另外一些细胞,只是不同细胞之间的生长过程稍微有一些差异,也就是参数稍有不同,因此就产生了各种不同的叶子。所以说,自然看似很复杂,但它背后的趋使因素是简单的。这就是一种特别强的关于因果的假设。

    如果我们往后退一步,采取不那么极端的观点。就像我们刚才考虑的多米诺骨牌的例子那样,认为我们只能受到事件中有限的一部分的影响、受到某些特定事件的驱使。我们可以想象这样一个game tree(“游戏树”):在下一盘井字旗(Tic Tac Toe)的时候,玩家在每一步可以选择下“叉”或“圈”,下完一步就形成一个既定状态。我们在每个状态时都面临着不同的选择。比如说在最上面这个状态时,棋盘上还有三个空格,下“叉”的玩家可以选择在最左边、中间或最右边的格子里下一个“叉”。在这一行为(action)发生之后,棋盘状态也就随之改变,改变后的每一个状态又会生出其他的行为选择,所以各个给定状态就像一棵树一样不断地产生分枝、延伸。

    312200c65d0b5c7afc5de55568209f84.png

    我们生活中有很多这样的因果关系,也许它们就像一个game tree一样。但是在这个游戏中,不是只有两个参与者,而是有很多人在玩。就像我们在玩一个游戏的时候,张三先下了一手棋,李四接着下了一手,之后王五又下了一手,最后轮到你的时候,实际上你并不能决定这个游戏是怎么经过一步又一步走到现在这个状态的。你生下来遇见这个世界的时候,别人已经在这个世界里下了很多步棋。不过在你当下这个位置,你当然还有几种选择来决定下一步怎么走,你的决定可能会影响后面的人。

    这种想象也是一种有限的consequences(结果)。如果从这个角度来看,世界就是如此具有确定性,那么不确定性来源于何处呢?举一个大家都熟知的例子,也是我特别喜欢的一个例子,最早的统计学家高尔顿(Galton)当年在英国皇家学会上做了这个实验。图中中间的灰色部分是一个个的小柱子,上面的每一个蓝色小球在下落过程中碰到小柱子时,都有50%的概率向左边或向右边落下。最后,小球全部落下来之后会形成这样的一个钟的形状,大家知道,这就是一个二项式的分布。在一个二项分布中,如果小球越来越多的话,基本上会趋向于形成一个正态分布,而正态分布已经成为我们生活中很多不确定性现象的一个代表,比如说一组人的身高可以呈正态分布,一组人的体重也可以呈正态分布,甚至一个年级组中同学的眼镜度数也可以是正态分布。

    f511ea7973ffa25b50f63f5b9db84721.png

    但是为什么是这样?它背后实际上有很多确定性的原则,大家可以想象你自己是一个小球,在你的生活之中,你随时随地都面临不同的选择。比如在你身高增长的全部过程中,当你的姥姥在你小时候的某个时刻喂你吃饭时,你决定吃这一口或是不吃这一口,就是一个选择。在你玩游戏眼睛感到疲劳的时候,你是多玩了一会儿游戏,还是多休息了一会,这也是一个选择。

    你会发现人生实际上面临着大量的向左或向右的选择,我们假设向左是一个不好的选择,那么如果你在每一时刻都选择向左,人生就会越走越糟,甚至有很少数的人的生活是一个disaster(彻底的失败)。当然也会有很少一部分人,在面临每次选择的时候都能以非常低的概率做出向右的正确选择,那他们可能就是人生赢家。而大多数人的选择其实都是有对有错的,所以我们后来变成了普通人。不过这里所说的对错,其实有的时候并不是像你早年犯过一个你觉得会影响你一生的错误那样——比如你小时候某次中考没有考好,你可能发现今天所有事情的发生都是那次中考造成的后果,你认为它是一个最原初的驱使因素。但实际上不是这样,因为在整个时间积累的过程之中,你有若干个机会去纠正你以前的错误,所以我们主要还是看大家在每次面临选择的时候所做出的选择,这些选择本身从我们的内部视角来看是很确定的东西,但是从外部视角来看,它们还是具有不确定性的。

    这张图展示的是当时沃尔弗拉姆所做的一些计算,他认为我们可以通过这些给定状态下的方块来预测之前发生了什么样的事情。大家可以这样来理解,一件事情产生了非常多的影响,我们可以观察其中一件受影响的事情,比如说一个人的成长或者一个家庭中几个人的成长,来作为观察整个社会发展的一个缩影。

    76a58e7a7d6ca6323808dbacfba6d304.png

    这样一来,我们就可以去建立很多这种状态和行为之间的causal relation(因果关系),一个行为发生之后会产生各种不同的状态,比如图中标记为蓝色的行为和黄色的状态。状态的变化形式则有“加”或有“减”,比如说这里的一个状态AAB(图中第二行左边)有可能减少一个A变成AB,也可能增加一个B变成AABB。其实大多数状态与行为之间就构成了这样一个复杂的物理系统。在我们今天看来,当下的某种状态一定和之前发生的事情相关,但这种相关性其实是很复杂的,因为相关性背后的网络是不可穷举的,甚至是永远不可能被观察到的。

    d8fd01ae26b50fb46f512dc926da0ad0.png

    我们假设这个世界具有精确到分子乃至原子层面上的完全确定性,但这是不可能被观察到的,刚才邱老师也说到这一点了。我们不可能获得所有的信息,那在这种情况下,不确定性或者概率就在因果关系中起到了非常大的作用。

    大家可以看这个复杂的图,也许它就是事物背后真正的物理驱使因素,但是我们能观察到的只是这几个红色的大圆圈里的因素,包括它们相应的发生概率或者是它们之间的概率关联。对圆圈内因素的观察就是我们生活中特别常见的所谓“推理”。刚才大家提到的珀尔所做的工作也是如此,当一个事情的发生有几个驱使因素时,以前我们总会把这些因素当成是一个纯的条件概率,一个proposition,而他最重要的工作是想象这些因素之间会有一些因果的关系,它是一个program,是一种数学规划。

    49a7ca9f8b7d97e6e12a449db43581eb.png

    比如在一个假设场景中,你老婆Mary给你打电话,因为家里产生了报警,而报警可能是因为有人闯进去了,也可能是发生地震了。所以如果你收到了Mary给你打的电话,你会去推测家里遭抢劫的概率有多大,或者发生地震的概率有多大。

    所以他最重要的贡献其实是在这些相应的驱使因素之间建立了图中这种因果关系,同时提出了具体的以概率为主的数学算法(calculus)。实际上,尽管这里边用的是概率的方法,但这种概率并不是传统意义上扔硬币所体现的那种概率,而是对一个事件的不确定性的度量。当时还有其他类似度量不确定性的方法,珀尔也提到过,如Fuzzy Logic(模糊逻辑)、Belief Theory(信念理论)、Dempster-Shafer theory(信念函数理论)等,都是用来衡量不确定性的。但最后大家还是更愿意接受概率的方法,于是就产生了Bayesian Network(贝叶斯网络)。而Causality(因果关系)的基本形式在具体的现实生活中分为很多种,刚才崔老师有提到了其中一种,就是这种linear(线性的)的形式,A驱使了B的产生。还有一种可能形式是A和B互为因果,比如说一个同学因为学习好而受表扬,同时又因为受表扬而学习好,学习好和受表扬之间就产生了这样一种复杂的因果关系。

    回到我们刚才提到的报警场景,我们可以通过节点把这些因素构建成一个网络,在这些graph(图)之间用一些数学语言(刚才Professor Luizzi也提到了)即数学的算法来描述不确定性。

    当然如我刚才所讲到的,我们首先认为这个世界上的事件之间是存在决定因素的,是一种deterministic(决定论的)关系,但是也存在uncertainty(不确定性),而非一定是一个纯的逻辑关系——一个事件的发生必定导致另一个事件的发生。所以自珀尔以来到我们今天的人工智能研究中,大家认为,当事件之间存在确定性关系,但我们没办法观察到所有的确定性的时候,我们就用度量不确定性的概率来描述它们之间的关系,这就变成了今天的causation(因果)。

    前面大家也都提到了,珀尔发现和研究了包含三个层级的“因果阶梯”,这个阶梯的最底层是x和y之间的association(关联性)。关联性是今天机器学习已经做得比较好的一个领域,无论是通过概率的形式,还是通过今天的deep learning(深度学习)的形式。在曲线拟合(curve fitting)或者是数据的关联性方面,我们的研究都做得相当不错。但是在第二层干预层(intervention),也就是预测我们做了什么事情之后会产生什么样的影响这个方面,我们做得还不够好,需要做大量可控的随机实验。比如说在给定的一些因素里,要想知道如果我做了这件事会得到什么结果,做了那件事又会有什么结果,我需要去做一些随机的实验来观察我做的某件事情的干预结果,从而来确定干预的最终概率值。

    ee40d358f6a3d89935c8f3a7444703c5.png

    最后是第三层counterfactual(反事实)或者retrospection(回溯),在这一层,我们考虑没有发生的事情,去假设某个事情发生结果会变成什么样。比如类似于这样的一些问题,我在建网站的时候,会考虑banner(网页上的横幅)的颜色选择,如果当初选择了红色而非蓝色,那网站的点击率会不会更高?如果我回答了Facebook给出的调查问题,我主页上的推荐会不会比现在更合我的口味?如果我少吃一点盐,是不是会使我的血压降低一些?这些反事实的假设并不能给我们带来直接的数据结果。

    在很多事情上,比如饮食方面,在不同的人的盐分摄入量和他/她的血压之间,我们很容易去建立一种关联。但是对于一个个体而言,假设我现在盐分摄入量很高,我想知道如果我少吃盐会发生什么,这个时候反事实推理就显得更重要一些。

    所以珀尔最重要的工作之一,就是他把原先的条件概率(给定x的条件下y的概率)转化成了反事实推理中的概率,即如果我做了x这件事,y会有什么样的概率?珀尔是把干预和反事实添加到了这个层级图里边,这个图展示的并不是以前那种简单的变量之间的依存关系,而是一个规划过程。我要先做第一件事情,这件事情指向两个选择,被选择的是第二件事情。第二件事情发生之后,它所影响的第三件事情才发生。所以它不是一个简单的联合概率,而是一个存在连锁因果关系的规划问题。就像在我们前面提到的高尔顿的实验中,小球落到某个位置,它背后是有驱使因素的。但我们在宏观层面进行观察的时候,它似乎有很多的不确定性。所以对于某一个特殊的case(场景),我们如何利用给定的大量数据去更好地做detection(检测)和reasoning(推理)?这就是一个研究重点,也是我们人工智能方向对整个causation(因果)研究领域的巨大贡献之所在。

    这个方向其实也是最近才开始受到人工智能领域的关注,做这个方向的人也渐渐地在增加。人们觉得简单的曲线拟合和数据的关联也许并不能够使机器变得像我们期待的那样智能,但这件事情该怎么做?

    我主要就这个方向给大家简单地去描述一下我的基本观点,以及目前我个人是怎么去理解因果和因果背后的不确定性的,还有为什么我们需要通过概率的方式来进行推理。这就是我的一个简单的分享,谢谢大家。

    @朱锐

    谢谢秦老师,实际上我的问题还挺多的,但是我们时间有限,我们先请袁园老师来讲。等袁园老师讲完之后,我们再自由讨论。有请袁园老师。

    艺术家对因果的反叛

    @袁园

    我不会讲特别技术的东西,还是考虑更面向大众的内容。我就用雅鲁斯的形象来阐释关于因果推理所要试图达成的野心吧。我把雅鲁斯的形象作为一个隐喻,他一面看向过去,一面看向未来,这恰恰就关联着因果推理所希望做到的事情。一方面雅鲁斯要去解释已知的事物为什么会是那样?另外一方面,他的眼睛朝向未来,他要去预测那些未知的事情。所以在这个意义上我就把雅鲁斯作为因果推理的一个隐喻。

    37973186a2866b3755120ec6fc872bd6.png

    这是大家非常熟悉的一个电影中的镜头,就是库布里克(Stanley Kubrick)的《2001:太空漫游》。这个电影中有一个段落:人类的远祖最初是用骨头作为工具的,他们原本在食物链的底端,只能够去捡拾别的野兽吃剩下的骨头,把它们击碎,去吸食里面的骨髓,之后把这些骨头用作一种工具。这当中最经典的镜头,是一个类人猿把骨头扔到天上,在它掉下来的时候,电影的蒙太奇剪切到了太空中的飞行器画面。

    a71175d0953ff7d0134567c3516e0103.png

    那么为什么要用这么一段时间跨度如此大的经典镜头呢?因为它就是要试图在一个如此大的时间跨度内去解释其中的因果路径,解释人类如何从那样一个拿着骨头的猴子的状态,发展到今天这样一个可以把飞行器送入太空的文明状态。而解释的目的是试图去预测未来,去掌控未来会发生什么样的事情。

    大家看,这是法国的拉斯科岩洞的壁画(我尽量引用艺术史上面的案例),它的诞生时间大概在15000年前到2万年前。人类经历了旧石器时代和新石器时代,新石器时代也就是1万年前。实际上在人类的整个历史当中,99%的时间都处于新石器时代之前,也就是说,人类整个历史进程的99%都是史前史阶段。我们甚至可以说,旧石器时代和新石器之间就是断裂的。

    5865222ae7f2a0ca6eea84e57842f284.png

    拉斯科岩洞的壁画诞生于旧石器时代,我们试图解释这个壁画传递着什么样的意义。但我们根本无法理解,因为旧石器和新石器之间的因果关系本身是断裂的。当然,我们有这种强迫症,关于因果的强迫症,我以电影和戏剧中的一个叙事法则“契诃夫之枪”为例。

    契诃夫说,如果在第一幕中有一把枪挂在墙上,那么在接下来的第二幕或者第三幕中,这把枪必须开枪,否则你就别在第一幕中把这把枪挂在墙上。所以“契诃夫之枪”就是一个典型的因果关系的体现,如果第一幕中出现一把枪,就意味着接下来这把枪会发射,这是第一幕的结果。

    我们去回顾戏剧文学、电影、电视剧,会发现“契诃夫之枪”无处不在。因果关系在我们的日常生活和我们的思维模式当中也无处不在。那么我想知道,艺术家跟因果关系,当代艺术跟因果关系,或者艺术史的进程跟因果关系,它们之间存在什么样的张力?

    我们先来看这幅爱德华·马奈(Edouard Manet)的作品,《女神游乐场的吧台》(A Bar at the Folies-Bergère)(我举的例子仍然是经典的作品)。为了便于大家理解,我把这幅画中的两个部分做了一个区分。在左图中,彩色的部分是镜前的现实中的吧台,隐去的灰色部分是镜中的景象。在作为对比的右图中,彩色的部分则是镜中对现实的反射。毫无疑问,这个作品就对因果构成了一个挑战。为什么?大家从这张镜面反射图中可以看到,如果你想要得到这样的镜前视角,那么镜中的反射就不可能是这样的。

    2809b807cb1643f5b2d330b016e77519.png

    也就是说镜前的事物和镜中的反射之间并不符合我们所理解的因果关系。这个时候,如果你那种寻求因果关系的强迫症开始“发作”,你就会根据自己的观看经验而对观看位置的选择摇摆不定,你会始终找不到一个合乎因果关系的位置去观看这幅作品。马奈被称为是“现代生活的画家”,是整个艺术史上非常重要的艺术家,我们在这里追溯到马奈的作品,在其中拉开它与因果关系之间的张力。

    接下来我们再来看杜尚的作品,这里我就以他的两个作品为例。在左边这个作品中,他把自行车的一个轮子拆下来,安装在一个凳子上。右边则是他的一个经典作品《大玻璃》。这两个作品实际上都体现了对因果关系的挑战。我们都知道,在艺术史上,杜尚是反视网膜的,那么他所谓的反视网膜反的是什么?

    13ff1bf8485db4f2a6a91fe922b13c14.png

    反的不仅仅是所谓生理意义上的视网膜,更是视网膜所联结的、背后的一整套因果关系、因果模式和因果思维,也就是所谓的可预测性。杜尚对这种可预测的因果关系感到厌烦,就通过他的作品去挑战这种因果关系。比如你会觉得安装在凳子上的自行车轮存在因果关系吗?毫无疑问,没有。更不用说《大玻璃》这个作品对因果关系的彻底反叛(由于时间关系我今天就不去解释这个作品了)。你可以看到,杜尚有一种对因果关系、因果推理或者因果模式的冷漠态度。

    我再举这个例子,这是法国作家安德烈·布鲁耶的作品《萨尔佩特里埃的一堂临床演示课》(A Clinical Lesson at the Salpêtrière),展示了在法国18世纪一家非常著名的专门治疗女性歇斯底里症的精神病院中,夏尔科医生(Charcot)在他每周一次的临床演示课上向学生演示所谓女性歇斯底里症发作时身体的表征。

    1f7a61fa1e63be1a15f33e10b14ed6c8.png

    《人类面部表情的电生理分析》,一本在1876年出版的关于人类面部表情的电生理分析的书。这本书在医学史上很著名,杜兴也是法国当时有名的神经学家。我们来看看这本书当中的一段文本。我就不去具体展开它了,我们看它所展示的最终实验结果。在被试的面部表情中,遮罩的一边是自发的表情,另一边是在电击刺激下产生的表情,杜兴对两边不同的表情进行了解释。

    80348a02a42da645e157cb711361f649.png

    在这里,左边的脸是一种悲伤的表情,右边的脸是一种狂喜的表情。杜兴就在因果关系之下去解释一个人受到电击刺激时面部表情的反应。他还特意找来一个雕塑以进行解释,他说,“你看,阿罗蒂诺的额头和眉毛的外观不协调,所谓不协调就是额头和眉毛在因果关系上是相互排斥的。”他特意把这里的不协调之处标注了出来,他认为应该把眉骨的这个地方抹平,这个时候它与额头就符合因果关系了。

    a6dd6e931a32f7cd0ef48421bb3d5849.png

    我们今天会觉得这很荒谬,但其实一点都不荒谬。大家看这里的几组作品,最左下角是一张所谓患歇斯底里症的女性的照片,最左上角是我们刚才说到的电生理分析中人的表情照片。上面从左二到左四这三张照片来自摄影史上经典的20世纪“人类大家庭”摄影展,摄影师爱德华·史泰钦(Edward Steichen)拍摄的从事各种职业的人的形象。

    841a2823bc54946c755ec748a088950f.png

    然后,下面从左二到左四这三张照片出自中国的摄影家肖全,他拍了大家所熟知的名人的肖像。我们把以上所说的这些照片都归为一类,是因为在这些照片中,我们对于人物的认识对应地形成了人物的外貌表征。也就是说,你是什么样的人,你就呈现出什么样的形象,这二者之间通过摄影这个媒介而呈现出一种指称的因果关系。

    而右边的四张照片是当代艺术家托马斯·鲁夫拍的巨幅肖像。在这些肖像中,他所表达的就是我们刚才所谈到的“冷漠”,对因果关系的冷漠,他阻止你在一个人的主体与表征之间找到某种因果关系。

    从这些例子中,你就可以看到艺术史上的一个进程, 可以说,艺术家跟因果关系之间存在一种越来越强的冲突。这种冲突表现为,艺术家想要拒绝、想要阻断表征和所谓的指涉或指称之间的因果关系,他们对于现实当中已然存在的因果关系和因果逻辑感到不安。

    为什么会不安?因为那种因果逻辑是一种对主体的自由意志和能动性的束缚,艺术家用不同的方式去挑战它。同时你会看到,他们也对所谓的因果和连续性关系感到不安,想要拼命地去摆脱和逃避,甚至去解构那种关于因果的解释。

    我在这里举几个例子,其中一个例子是约翰·凯奇(John Cage)在60年代参加的一个电视节目《我有一个秘密》,他在这个节目上做了一段音乐表演。大家可以看到,这个表演舞台上有各种完全不相干的事物,有几台收音机,但是他并不以一种使用收音机的正常方式去打开它的开关、播放音乐,而是去拍打收音机。他还把一条活生生的鱼放到钢琴的腔体当中,手里又拿着一个秒表来对各种物件发出声音的时间进行精确的计时和控制。这是一段在60年代的表演,而且它是在大众媒体的一个电视节目上向公众放映的,观众在看这段表演时的通常反应,是试图去解释表演者为什么要这么做,比如说他为什么把一盆花放到浴缸里?他为什么把这条活鱼放到钢琴的腔体里,让它在摆动时制造出来某种声音?你似乎想要在这些毫不相干的物件与它们发出的声音之间找到因果的联结和解释,但是这种试图去解释的努力是徒劳的。

    John Cage

    John Cage performs Water walk on "I've Got a Secret," Feb 24th, 1960

    我再讲一个极简主义艺术的案例,这是艺术史上的极简主义艺术家唐纳德·贾德(Donald Judd)的作品。大家可以看到墙上的这些几何立方体,我们都试图在这个作品中解释出意义来。同样地,无论是之前的抽象表现主义还是波普,我们好像都试图要从一个艺术作品的所有细节中把它的意义解释出来,不管是在一个漫长的艺术史语境当中,还是在一个特定的语境当中,我们都想要获得关联在一个因果语境中的解释。唐纳德·贾德的这个极简主义作品实际上就是对因果解释的一个否定。

    48a855dc5cce163b69f511ce9190b810.png

    最后,我用一个希腊神话来作为结语。这是一幅绘画作品,叫作“飞马和缪斯”,它来自于希腊神话。那么我援引这个神话想谈的是,在希腊神话中,飞马是一匹不死的马,他是波塞冬和美杜莎的孩子,正因为他是波塞冬的孩子(我们知道波塞冬是海神),所以它的蹄子所碰到的地方就会生出泉水。在希腊缪斯女神所守护的圣地赫利孔山,著名的缪斯之泉就是飞马的蹄子所创造出来的。

    8551941741932fb305eb8406872b63da.png

    大家谈了那么多涉及人工智能的内容,我今天就不再谈这方面了,我最后想要说的是,重要的不是在因果关系中找到一个解释,未来也不是基于因果推理的预测。重要的是什么呢?就像我们讲的飞马座和缪斯之泉之间的关系,重要的是那种联想的飞跃,而不是基于因果的推理。所以,这就是我从艺术的视角特别想要强调的内容。谢谢。

    @朱锐

    谢谢袁园老师精彩的分享。

    讨论

    今天我对各位所表达的观点都持保留意见,当然我保留意见的态度可能是源于我的无知,但是我觉得我愿意跟大家继续探讨这个问题。邱老师在一开始说,很多对因果的寻求就像小孩子找妈妈,这种对因果的寻求实际上淹没了很多对事实的准确描述。袁园老师讲述的当代艺术这种对因果冷漠的敌意,似乎也印证了邱老师所说的观点。秦老师也是讲因果推断通过对观察到的这种不确定性进行分析,去最大化的预测未观察到的一些事件。

    但是我觉得这些东西在我看来,似乎都带有一定的前提。为什么这么说呢?举个例子,索福克勒斯最有名的一个悲剧就是俄狄浦斯王。俄狄浦斯王所面对的就是秦老师所说的分叉的世界。在每一个分叉口,你都能够做出选择,但是整个分叉世界的背景依然是神所赋予的、不可逃避的命运。然后俄狄浦斯所表现出的那种本能,就是像小孩子一样不断去寻找答案,尽管这种寻找答案的本能对他是有害的,也是无用的。

    这个故事在某种意义上能印证大家所说的东西。但是我觉得索福克勒斯之所以讲述悲剧,就是因为他想表达人的一种不可抗拒的对世界的好奇。不管物理方面的因果关系是什么样子,人总是在寻找最后的事实,而不一定是在预测最后的事实。人的寻找是一种在很多意义上是一种不受规则限制的、纯粹直觉的想象。人们用这种想象去引导自己的对世界的理解,特别是对自我的理解。所以说我觉得因果这个概念它有双方面,一方面是物理的因果,而这种物理的因果确确实实在某些方面是可以通过数学化或者是各种各样的技术规则被消解掉。但是另一方面,还有一种心理的因果、经历的因果,就是说我们是一种因果动物,不管是通过神话也好,迷信也好,我们不一定是去预测或者寻找答案,而是去理解世界。我觉得这个方面似乎有张力,我想请各位老师简单的回答一下。

    @袁园

    我想从艺术的角度谈一点。艺术家其实跟因果的关系比较矛盾。举一个例子,德库林讲过一句话,他说不是伦勃朗影响了我,而是我影响了伦勃朗。所以这句话的这个意思是什么?我们不能脱离历史的因果解释,但这里头重要的是说因果不仅仅是一个单向的推导过程,它也可以反过来往前推导的。就好像德库林所说的,不是伦布朗影响了我,而是我影响了伦勃朗,也就是说是我影响了你们怎么去解释伦布朗。那么在这里,我们谈的因果就并不是在一个单向度的链条里发生作用。实际上这里反映的更是一个跟因果之间的斗争,这是双向的。

    @朱锐

    不好意思,Luizzi教授,我补充翻译一下。这里我们谈到了两点。袁园重点指出了当代艺术和因果之间的张力以及当代艺术家是如何试图抵抗这种因果还原论的。所以现在出现了很多反物理主义的画作和装置艺术,试图将人们从因果决定论的枷锁中解放出来。然后秦教授谈到了讲因果关系整合进人工智能的优势。将因果整合进人工智能的一个方法就是去分析各种因素中的不确定性的程度,然后用这种分析去预测无法被观察到的因素。我们现在探讨的问题就是这些论点之间的张力。

    我想邱老师能不能够讲一讲这个问题,因为我记得你在你的文章中提到珀尔的因果数学实际上没有太大的前景。而人工智能领域里面所做的更多是把因果模式化,您能不能说一说这方面的观点?

    @邱德钧

    谢谢朱老师。朱老师你刚才说的因果问题最终会变成一个理解问题,也就是人即使找不到数学化的表达也试图理解一些不完整的观察的现象,我觉得这是说的非常好的。但是对于人工智能来讲面临的问题不一样,我们就是要从不完整的数据当中,或者最好是从低成本的数据当中获得更普遍性的、更具有泛化力的结论,这是人工智能要解决的问题。

    那么珀尔要解决的问题其实主要还是集中在我们非常熟悉的随机对照实验当中,也就是说如何在不观察或者是不能观察的时候,把大致的效用给计算出来。而珀尔其实并没有提供一套形式化的方法,也没有提供一套数学工具。所以今天的人们在研究因果关系的时候会研究一些形式化的问题。最前沿形式化发展有几个动向。

    一个是3月26号,中科院、诺亚方舟研究所的四个老师发了一篇文章,他们意识到一个问题,就是说我们需要调用很多不同领域的数据来讨论同一个模式。因为只有从这些不同的数据中找出相同点时,我们才能发现因果关系的基础。可是这太昂贵了,应该怎么办?他们想的办法就是用矩阵,或者用低维度向高维度映射,又或者到从高位到低位映射等各种各样的数学办法,希望低成本地用同一套数据集来模拟更多变化,从不同当中找出相同点。

    这是我近期看到一篇文章上提出来观点。但创新力度并不大。真正有创新力的是我前面提到的本吉奥(Yoshua Bengio),我正好有所准备,因为他这篇文章是在3月15号发表的,我希望在这里给大家分享一下他的一些创新性想法。

    本吉奥在2017年左右的时候,发现了深度神经网络有个很大的麻烦,那就是它的梯度下降时,可能会陷入螺旋状态,跳不出纳什均衡。那么他提出了一个非常了不起的想法,对珀尔的理论有很大的发展。大家看这个GflowNets的图,本来是流动的,从左到右或者从上到下流动,可是你看这个图里的s1,s0等表示数据,而xi都可以表示输出。GflowNets不像珀尔的因果有向无循环图里面一样只有一个输出。它在局部就有多个输出,这样它的网络很适合模块化,这是一个非常了不起的变化。

    e0137468dfafed6db83cde71f4d22f83.png

    最关键的是,GflowNets特别适合处理配分函数。配分函数是一个平衡态统计学的工具,能够用实验用微观的物理状态把宏观的物理状态映射出来。大家想想我们学平面几何和立体几何的时候,为什么我们总关心物体的表面积而不算不算它内部情况,那是因为我们没有能力从物体内部推算出它的表面积。而本吉奥的这种形式化的方法,这个从2017年开始花了4年功夫建立起来的形式化的数学工具,它特别适合处理从微观到宏观或从内及表的计算。而且本吉奥的儿子还专门就此写了一篇文章。

    4eb0cea4b8ddebdcf447808cef866a45.png

    那这个特别适合处理配分函数的工具究竟意味着什么呢?这意味着我们可以从立方体,或者某一个球体的内部的某一点,推算出它表面是什么状态。这是非常了不起的一个改变。珀尔给我们的一个很简单的因果图,可能在本吉奥这里就形成一种系统化的、形式化的方法。本吉奥他是去年11月27号发表的这篇论文,随后29号他的儿子发表了另一篇。他原来预测在半年内这套理论会引起轰动,相关的论文会井喷,但是今年3月15号他发表一篇博客说,他改变了看法。他说可能会在两年内,他这种生成网络的理论论文会井喷。这是一个极有创新性的、对因果关系研究非常有用的数学工具,希望大家关注一下。

    因为我对数学很熟悉,我有一个很担忧的问题。数学当中不管任何时候都在大量的使用乘法,而乘法有时是解释不出来意义的。就我们知道加法里一元加一元等于二元,那应用在乘法里,一元乘一元就等于一百分(货币单位)乘一百分,而一百分乘一百分等于一万分,所以最后一元乘一元得出来竟然就等于一百元。为什么会这样?那是因为使用乘法的时候,一元乘一元是没有意义的。可是今天不管是珀尔的、本吉奥的、或者是深度神经网络里面,都在不加区分地使用乘法,而没有把张量引进来表达或对乘法作出规范,这是我一个很担心的地方。

    我介绍了一点前沿的关于因果问题的形式化的工具,也算是对朱老师问题的一个回答,不知朱老师能不能满意。

    @朱锐

    谢谢邱老师。我想让秦老师来回应一下。秦老师您对刚才说的,包括邱老师说的有什么回应?

    @秦曾昌

    因为我是做具体的工作,虽然刚才朱老师确实也提到了因果关系有物理上的和人的精神、或者认知层面上的。但是我们考虑的还是偏实际的、物理层面的。大家说做人工智能应该考虑认知方面的因果关系,但实际上今天我们更多的人工智能本身是一些技术,所以它还是要更多集中在解决问题上。比如说我们对于给定的数据未来的预测。实际上人工智能其实只是一种完全基于数学逻辑上的、对于数据或者信息处理的一种方式。我们并没有真的希望这个算法具备人的这种认知的能力,当然也有一部分人在做这个事情。但是大部分的人包括我在内,其实并不关心我们的算法是否具备人的认知能力。

    可能我们在这个问题的研究上也不会关注它是否具备了认知上的因果的可能性,或者能不能解释人的认知的因果。所以我们还是以解释偏物理性的因果为主,这是我刚才回应的具体的问一个简单的回应和理解吧。

    但这个问题还是特别有趣的,刚才邱老师提到的工作,我确实也没有关注,刚才我特意看了一下,觉得也是个很有意思的事情。对于现在的信息的处理的话,也在提出不同的数学工具。以前也提过一个类似于GflowNets这种胶囊式的一个一个的计算单元,神经网络的话刚才也提到了。其实基于乘法和先行激活函数的一个处理,并不是不是通向因果推论唯一的方式。所以大家也在想是否还有其他的计算单元可以组成新的数学工具,以更好地处理信息。我觉得这些的话可能会在一段时间之内有更多的东西出来,所以我们也是拭目以待,谢谢。

    @朱锐

    好,谢谢秦老师。我先问一下我自己的问题。刚才秦老师讲这样一个观点在我看来恰恰是带有矛盾的。因为像罗素,还有很多物理学家,他们在讲物理的时候否定了物理学的因果性。他们甚至认为物理学是没有时间性的。所以如果科学就像罗素他们所说的那样,只有功能之间的交互,没有因果,而且就像邱老师说的不需要联系。那么在当秦老师用沃尔弗拉姆、game of life来讲物理因果的时候,在我看来似乎已经是讲一种和传统哲学意义上不同的、全新意义上的因果。这和罗素不需要的因果,好像是两个完全不同的概念。

    也许我们是已经进入了一个全新的因果范畴,我不知道秦老师能不能够知道,至少这是我的一些晕乎乎的想法,不知道是否说到了点上。

    @秦曾昌

    我也在试图去理解一下朱老师的疑问。比如说罗素讲过因果只有功能之间的交互。这没有任何的问题。但我们会认为物理因果是一个时间和空间上的延展。如果有两件事情,一件事情发生在另一件事情的前面,这个前面可以是时间意义上的前面,也可以是空间意义上的前面,这就会使另外一件事情发生。在大量的数据的验证的情况下,我们计算后面的这件事情会发生的情况或者是某种概率。比如说,如果有超过80%的概率后面这件事情会在前面的这件事情之后发生,我们就可以认知为这是一种因果关系。但这种因果不是大家讨论哲学意义上的因果。所谓的因和果,我觉得我们可能也没有那么深入的研究,但是我们可以把它解释为功能之间的交互。但这个功能之间的交互是可以被度量的,可以做解释和预测。

    而我讲到沃尔弗拉姆的工作其实更多是想说这个世界的本源是可被计算的,因为我们一直以来想描述的世界,包括科学的世界,我们可以用一些方程,一些连续的数学,把万物表示为不同的函数。沃尔弗拉姆可能还认为我们的计算中缺少这种简单的运算叠加。这种简单规则的叠加恰恰会产生很多我们今天看到的事情。从一个物理的角度上来讲,确实很复杂,但这些东西都是由背后驱使因素所决定。这也是很多科学研究的一个基本的假设,尤其是数理研究。也许生物不做类似的研究,所以不做这种假设,但数理科学总是做减法,假设背后有一些驱使的因素,但是这个因素要远远比我们看到的复杂现象更简单。而沃尔弗拉姆只是又找到了一个新的工具,仅此而已。

    783d2bc6c65ffa4f748d1c4ad31cfc96.png

    - Romain Trystram®-

    @朱锐

    好,谢谢,现在我们来回答观众的问题。对于认知中的因果,在涉身主义中,身体可以算是先天的吗?身体可不可以算一种来源于环境的先天信息?哪位老师愿意回答一下是不是一种先天的?

    @邱德钧

    我来简单回答一下这个问题。斯坦福大学的李飞飞在研究这方面的问题,而且有成果。他认为人工智能或者人的一些行为能力一定和智能体的体态有关。比方说个子高就适合打篮球,蚂蚁就一直适合在地下爬,穿山甲适合钻洞。他说,人的体态,人的身体,决定了人的智能,所以身体和智能之间会产生某种因果联系。

    还有我们的认知问题实际上是分两个层次。一个是人类社会的认知,也就是我们人类总体的认知。可代表人类总体的认知的又往往是一些精英,比方说亚里士多德、牛顿这些人对世界的认知。还有一个是个体的认知。如果从个体的认知角度来讲的话,那么我们的认知能力一定和我们的体态和涉身性有关。我长得高我就适合干哪些工作,我的视野就更远。我长得矮我就只关注另外一些问题。就是说这个问题你们要进行区分,是人类总体的认知,还是每个个体的认知。

    @朱锐

    谢谢邱老师。观众想问Luizzi教授一个问题:你觉得因果关系是内生于人类整个种群当中,还是人类个体当中的呢?

    @Vincent  Luizzi

    实际上在我的一些课程中,我们以略微不同的形式讨论了这个问题。我也许可以分享其中的一些思考。有一些时候,我的学生可以与和自己相像的法官一样,在恍然大悟的节点上感同身受,也就是他们会突然看清事情的真相是什么或结果是什么。当法学家进入装满证据和数据的房间。他们中的一些人会让自己一直沉浸在从案件中的法律到证词的所有信息中,然后突然看到了答案。许多其他调查领域的人也都说自己拥有相同类型的直觉,长期以来不停地在思考材料,然后在某一个时刻得以做出决策。但这种“悟”的能力不是一个特殊的能力,它是一种基于归纳得出的直觉。我想现在大数据收集资料之后所做出判断的方式也和我们的判断直觉差不多。在这种情况下,我不确定我们是否需要说人类和人工智能还有集体有什么不同。很可能在人工智能中,我们只是在继续沿用归纳和演绎逻辑作为决策的工具。

    @朱锐

    谢谢Luizzi教授。我觉得Luizzi教授的回答印证了邱老师的一个观点,就是我们应该区分人类意义上和个体意义上的认知能力。Luizzi的观点就是说在个体意义上,因果很多时候是基于经验的一种对问题进行分析和归纳的能力,所以在那个意义上它跟人工智能差别并不是特别大。

    然后我想把最后一个问题给袁园老师。就袁园老师您刚才提到的当代艺术对因果性的一种带有张力的这种冷漠或者是抵抗,我觉得这个是不是恰恰说明因果这种推理或者因果思维、因果假设是人类不可逃避的一种宿命。

    @袁园

    好的。谢谢朱老师,这个问题我觉得恰恰是我想谈的几个方面。一个是因果跟权力的关系。因果作为一个思维,弥漫在我们的日常生活以及公共和社会领域当中,在某种程度上,我们可以说因果是一种暴政,是一种暴力。所以你会看到艺术家和因果之间的特别强的这种冲突和张力,想要摆脱它,然后想要去瓦解它,然后想要去颠覆它。

    我想强调两个方面的内容,第一个就是我们不否认在局部有这样的因果,但是重要的是我们更想要的是什么?刚才我举到约翰凯奇的例子,你看某一个局部的时候,我捏一下这个玩具的鸭子它会叫,这当然是个因果的一个活动,对吧?但是这个鸭子和另外一个玫瑰花和那条鱼与下一个行动之间没有因果关系。所以实际上,在这里重要的是因果的链条。你看约翰凯奇他是说每一个局部都会有自己独立的声音,他们之间没有那个层级关系,谁决定了谁。所以我们挑战的是什么?我们挑战的是把这些没有因果关系的独立因果链,给整合成一个因果叙事的暴力。在这种独立的因果链被整合成一个统一的因果叙事的情况下,因果叙事就会建构起来它的叙事、它的权利,它的等级,然后抹掉个体的差异。独立的因果链的表达都会在统一的叙事当中去抹除,然后独立的因果链之间的那种复杂关系也全都会被压制下来。所以这个是艺术家特别想要去反抗的。是因为因果是作为一个暴政,作为一种暴力,而不是孤立的去运作的。

    刚才有观众问到,因果是不是跟具身性有关?笛卡尔其实回答了这个问题。他区分出来了客观和感官的因果属性。所谓客观的、可测量的、数学的这种因果属性,和观察者的个人感受,还有感官体验无关的。感官的因果属性完全是取决于你观察者在感知它的时候,你的感官产生的结果。但是这种区分仍然是一个理论上的区分,我们放到日常生活的时候,两种因果是不可分割的。那些客观的部分和我的观察者的感官的东西,都会相互揉在一起,不是一个黑白分明的东西。所以这是说我想要去谈的第一个部分。

    另外,我最后讲一个跟我们今天有关的一个例子,它是一个纪录片,我觉得可能能够算是是我对今天这个主题的回应。纪录片的导演叫莫里斯(Errol Morris),这是一个特别好的导演,然后这个片子叫又快又贱又失控。纪录片里交叉叙述了4个故事,这四个故事的主人公互不认识。一个是驯兽师,在马戏团里驯狮子;另一个是个园艺修剪师,他就专门把植物修剪成动物的形状;还有一个是专门研究鼹鼠的生物学家,他造了一个透明的鼹鼠窝,人们可以在外部通过透明的玻璃观察鼹鼠的生活;最后是一个研发机器人的科学家,这部纪录片的名字就来源于他的一篇论文,论文的观点是不需要花那么长的时间做那些复杂的载人航天器,而是做一些又快又便宜的机器人,做为人的代理送入太空,就算失控了也没关系,其中总有一些没失控的,任由它自己去发展吧。

    莫里斯就把互不认识的四个人的故事交叉剪辑一起。你会看到驯兽师拿着椅子去训练狮子的时候,狮子不懂这个椅子到底是怎么回事,很是困惑,因为狮子是非常单一的思路,而驯兽师说他之所有能驯服狮子,就是因为狮子不知道它完全有能力吃了驯兽师的真相。园艺师则必须服从自然规律,一场风暴把植物长颈鹿的脑袋刮掉了,然后他至少要等五年,植物重新生长到原来的高度,才能再把长颈鹿的脑袋修剪出来。园艺师要遵循植物生长的因果规律。再看生物学家为了观察鼹鼠的社会,虚构了一个绝对控制的、封闭的鼹鼠生活环境,就像我们现在去做各种因果推理和人工智能,包括珀尔的理论更想强调的是因果模型,可是你想我们的因果模型不就像鼹鼠模型一样吗?我们假设了一个所谓的完美模型,认为这个模型能去预测其他活动。就好比我们觉得这是干净的,数据也是完整的、齐备的,所以我们依照因果推理去做就可以了,最后就会导致失控。我们只知道会失控,但不知道失控会有什么后果。

    所以我们谈到基于因果推理的计算也好,还是基于大数据深度学习的人工智能也好,我敢确信它一定会失控,但是我们不知道它失控会有什么后果,这就是我就借用电影来回应今天这个主题。

    @朱锐

    好,谢谢袁园老师。我觉得今天谈的还是非常有深度,而且逐渐显现端倪。我这样总结一下。我们谈到的第一种因果是人类自我叙事的根本机制,因为人需要这种机制来了解自己,了解世界。另外一方面,因果是人类强加给世界的秩序。秩序是基于对未观察事件的不了解,而产生的对各种不确定因素的不完全的掌握和控制。在这里,我们通过因果的脑补去达到对未来行为的可能预测。

    在这个方面,我觉得科学的这种因果模式,是有缺陷的,而且也许是可以被弥补的,甚至是可被科学地弥补。但是我觉得在弥补的同时,科学恰恰是在重复这种因果背后的神话。邱老师一开始所说的关于统计背后的悖论,实际上还是假设数据背后存在着某种联系,然后我们必须要通过这种联系(包括秦老师所说的观察到的跟未观察到的之间的联系),找到某种规律。我们再通过科学的办法去分析他们这些关系,以达到更准确的预测。

    在这个意义上,我们可以问这种人类自我叙事的本能和要求,以及可以相对完善的自我叙事机制的进步,是否能够真正地达到人类所期望的结果?我们是否真的可以通过这些控制自己的命运?袁园老师说过失控是不可避免的,我觉得袁园老师这一点说得非常的有道理。而Luizzi教授给我们说的道理也印证了一样的事情,在法学之中有这样一种机械的欲望,还有一种司法活动本身开放的欲望,这两者之间都是人类本身必然产生、必然存在的两个方面。也就是袁园老师所说的雅努斯。

    好,谢谢各位观众,也谢谢各位嘉宾。今天晚上就到此为止。感谢大家用心聆听哲学与认知科学明德讲坛暨服务器艺术人工智能哲学论坛。期待下次见面。

    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

    411b1a621f482833bc9dd448e308616b.png

    展开全文
  • 因果推理入门综述

    前言

    近期导师给我定了因果推理这个方向,看了一些资料和视频之后有了一点点思路转而开始阅读一些经典前沿的论文,此文是基于论文《A Survey on Causal Inference》,阅读此文需要有一定的因果推理基本知识,同时我将会基于此论文并略带个人的理解阐述,如有问题请各位大牛指出,获取论文点此

    因果推理简介

    因果推理是一个跨多个领域的重要研究课题,数年来研究涉及到了统计学、计算机科学、教育学、公共政策以及经济学等领域。简单来说因果推理其字面意思就是推理两个研究对象之间的因果关系,但是在大部分情况下 因果 ≠ 相关 \textbf{因果}\not=\textbf{相关} 因果=相关 ,举一个简单的例子来说:

    一项研究表明经常吃早餐的女孩要比不那么经常吃早餐的女孩轻,于是得出结论吃早餐可以减肥。但实际上两件事是由相关性引起的而并非因果性,这是因为经常吃早餐的女生可能有一个更好的生活方式,她们会经常锻炼、睡眠规律且有一个健康的饮食习惯所以这些经常吃早餐的女孩才会更轻,在这个例子里生活方式是共同影响吃早餐和变轻这两个对象的共同因素,我们也称其为confounder(混杂因素)。所以在很多例子里表面上是一种行为引起了另外一种事件的发生,但由于很多混杂因素的影响导致你无法确定它们之间真正的因果关系,所以因果推理研究的正是在这些背景之下如何确定研究对象之间的因果关系。

    解决因果推理问题的一大方法和两大模型

    • 随机对照试验法
    • 潜在结果模型
    • 结构因果模型
    1. 随机对照试验法:随机对照试验的基本方法是,将研究对象随机分组,对不同组实施不同的干预,以对照效果的不同。具有能够最大程度地避免试验设计、实施中可能出现的各种偏倚,平衡混杂因素,提高统计学检验的有效性等诸多优点,被公认为是评价干预措施的金标准。例如在上面的例子中,我们选取一群生活方式都比较好的女生来做试验,要求一半的女生吃早餐,一半的女生不吃早餐,这样我们控制住了生活方式这一混杂因素,从而可以轻易得出结论。但是随机对照试验法是一个非常耗时费力的方法,同时也涉及到伦理问题,例如我们研究 孕妇吸烟是否对新生儿有影响,总不能要求不吸烟的孕妇强行吸烟吧,由于随机对照试验法的缺点我们渴望可以直接从观测数据(直接观测到的、非试验的、没有人为干预的自然数据)中得到因果关系,于是就有学者提出了潜在结果模型和结构因果模型来解决这一问题。
    2. 潜在结果模型:比较同一个研究对象(Unit)在接受干预(Treatment)和不接受干预(Control)时结果差异,认为这一结果差异就是接受干预相对于不接受干预的效果。对于同一研究对象而言,通常我们不能够既观察其干预的结果,又观察其不干预的结果。对于接受干预的研究对象而言,不接受干预时的状态是一种“反事实”状态;对于不接受干预的研究对象而言,接受干预时的状态也是一种“反事实”状态;所以该模型又被某些研究者称之为反事实框架(Counter factual Framework)。
    3. 结构因果模型:结构因果模型就是用有向无环图来描述因果关系,将变量作为节点。如果X是另一个变量Y的子节点,那么Y是X的直接原因;如果X是Y的后代那么Y是X的一个潜在原因。

    由于此论文是基于潜在结果模型来阐述的,所以这里对于结构因果模型不做过多的介绍,后续等我精读完了相关论文再做补充。

    因果推理与机器学习领域有着密切的关系。近年来,机器学习领域的发展促进了因果推理领域的发展。强大的机器学习采用决策树、集成方法、深度神经网络等方法对潜在风险进行估计结果更准确。除了对结果估计模型进行改进外,机器学习方法也为处理混杂因素提供了一个新的方面。受益于最近的深度表征学习方法,如生成对抗性神经网络,通过学习所有协变量的平衡表征,以便在学习表征的基础上治疗分配独立于混杂变量。在机器学习中,数据越多越好。
    然而,在因果推理中,仅仅有更多的数据还不够。拥有更多数据只会有助于获得更多信息精确的估计,但它无法确保这些估计是正确和无偏的。机器学习方法在促进因果推理发展的同时,因果推理也有助于机器学习方法的发展。对预测精度的简单追求不足以满足现代机器学习研究的需要,也不足以保证正确性可解释性也是机器学习方法的目标。因果推理开始有助于改进机器学习,如推荐系统或强化学习。

    因果推理基础

    一般来说,因果推理的任务是估计如果应用了另一种干预,其结果的变化。在潜在结果模型的基础之上,定义了一些概念用于计算研究对象之间的因果效应。

    • Unit:在干预效果研究中,Unit是原子研究对象。数据集中的一个Unit是整个人口的样本,因此在本次调查中,术语“样本”和“Unit”可以互换使用。
    • Treatment(干预):Treatment指的是对一个Unit施加的行为,如之前提到的吃早餐的女生是否更轻这个例子中,吃早餐和不吃早餐就可以认为是Treatment。
    • Potential outcome(潜在结果):对于每个Unit Treatment对,在该Unit上应用该Treatment的结果就是Potential outcome。值为w的干预的潜在结果表示为 Y ( W = w ) Y(W=w) Y(W=w)
    • Observed outcome(观察结果):观察到的结果是实际应用的干预结果。我们使用 Y F Y^F YF来表示观察结果,其中的F代表的就是factual的意思,潜在结果和观观察结果之间的关系就是 Y F = Y ( W = w ) Y^F=Y(W=w) YF=Y(W=w),这里w指的是施加的干预。
    • Counterfactual outcome(反事实结果):反事实结果指的是该Unit接受其他干预后的结果。用 Y C F ( W = w ′ ) Y^{CF}(W=w^{'}) YCF(W=w)来表示在干预为 w ′ w^{'} w时的反事实结果。
    • Pre-treatment variables:Pre-treatment variables是不受干预影响的变量,也称背景变量。用 X X X来表示此变量。
    • Post-treatment variables:Post-treatment variables是受干预影响的变量,与上一点相反。
    • Treatment Effect(干预效果): 在介绍了观察数据和关键术语后,可以使用上述定义对干预效果进行定量定义。干预效果可以在人群、干预组、子组和个体水平上进行测量。为了明确这些定义,我们在这里定义了二元干预下的治疗效果,并通过比较其潜在结果,将其扩展到多种干预。在人群水平上,平均干预效果(ATE),其定义如下:
      在这里插入图片描述
      在干预组下的平均干预效果(ATT)被定义为:
      在这里插入图片描述
      在子组水平上,干预效果称为条件平均干预效果(CATE),其定义如下:
      在这里插入图片描述
      在这里插入图片描述
      在不同子组的干预效果不同的情况下,CATE是一种常见的干预效果测量,也称为异质干预效果。
      在个体层面,干预效果称为干预治疗效果(ITE), u n i t i unit_i uniti的ITE定义为:
      在这里插入图片描述

    对于因果推理而言我们的目标就是从观测数据中评估以上的干预效果

    因果推理的三大假设

    为了估计干预效果,因果推理文献中通常使用以下假设:

    • Stable Unit Treatment Value Assumption (SUTVA):任何unit的潜在结果不会因分配给其他unit的干预而有所不同,对于每个单元,每个干预水平没有不同的形式或版本,从而导致不同的潜在结果。比如说干预A是吃A药,但是不会存在吃多少剂量的A药而导致不同的潜在结果,要么就把剂量也拆分为一种干预。
    • Ignorability:考虑到背景变量X,干预分配 W W W独立于潜在结果。即
      无论你给其他unit分配的干预是什么,我的潜在结果不会变, W ⊥ Y ( W = 0 ) , Y ( W = 1 ) ∣ X W⊥Y(W=0),Y(W=1)|X WY(W=0),Y(W=1)X
    • Positivity:对于任何 X X X,干预分配是不确定的:
      在这里插入图片描述
      直观来说就是任意的背景变量x的值在任意干预下必须要有结果能被观测到,不然计算出的干预效果就没有意义。举个例子:
      假设有两种治疗方法:药物A和药物B。让我们假设60岁以上的患者总是被分配药物A,那么研究药物B对这些患者的疗效将是没有意义的。
      根据这些假设,观察结果和潜在结果之间的关系可以改写为:
      在这里插入图片描述
      有了上面这些等式,我们可以重写出 Treatment Effect(干预效果) 中提到的各种公式:
      在这里插入图片描述

    正如前文所提到的,由于混杂因素的存在导致我们计算干预效果的时候会存在一些问题,混杂因素是一些特殊的pre-treatment变量,例如医学示例中的年龄。当直接使用观察到的干预/对照结果的平均值时,计算出的ATE不仅包括干预对结果的影响,还包括混杂因素对结果的影响,这会导致虚假效应。

    在这里插入图片描述
    从表中,我们可以观察到另一个有趣的现象,即辛普森悖论,与之前提到的例子相似。我们从整体数据上来看药物A比药物B的治疗效果要好,但是但从年轻人和老人的子组数据来看药物B比药物A的治疗效果要好,那么到底是药物A的治疗效果要好还是药物B的治疗效果要好呢?

    其实这个悖论形成的原因是,年龄作为混杂因素它影响着药物的选择又影响着药物的治疗效果,老人比较倾向于选择B药,但是老人本身的身体状况就不好所以导致B药的整体治疗效果要偏低。

    除了虚假关联以外,混杂因素还会导致选择偏差:被观察群体的分布并不代表我们总体的群体。

    因果推理的解决方法

    为了解决虚假效应问题,我们应该考虑混杂变量对结果的影响。沿着这个方向的一般方法首先估计对混杂因素变量的干预效果,然后根据其分布对混杂因素进行加权平均。
    在这里插入图片描述
    对于选择偏差问题,有两种通用的解决方法。第一种通用方法处理通过创建一个接近样本组的伪组来产生选择偏差。可能的方法包括样本重加权、匹配、基于树的方法、混淆平衡、平衡表示学习方法,基于多任务的方法。创建的伪组减轻了选择偏差和更好的反事实结果估计可以得到。另一种通用方法首先仅根据观察数据训练基本潜在结果估计模型,然后纠正估计由选择偏差引起的偏差。基于元学习的方法属于这一类。

    • Re-weighting(重加权算法)
    • Stratification(分层算法)
    • Matching(匹配算法)
    • Tree-based(基于树的方法)
    • Representation Learning(表示学习)
    • Multitask Learning(多任务学习)
    • Meta-learning(元学习)

    具体内容太多,大家可以下载论文了解算法的具体实现,本文章只做一个入门供大家参考。

    可用数据集

    • IHDP
    • Jobs
    • Twins
    • ACIC datasets
    • IBM causal inference benchmark
    • BlogCatalog
    • Flickr
    • News
    • MVICU
    • TCGA
    • Saccharomyces cerevisiae (yeast) cell cycle gene expression dataset.

    因果推理源码

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    因果推理应用

    • 广告:正确衡量广告活动的效果是品牌方成功营销的关键,如新广告是否增加点击量,或新广告是否增加销售额等。
    • 推荐系统:在推荐系统中给用户推送商品的过程,相当于给原子研究对象施加干预,通过用户的点击、消费等行为评估干预(推荐)的效果。
    • 药物治疗:反事实估计,当可以估计不同的可用药物的疗效时,医生可以据此开出更好的处方。
    • 教育:反事实估计通过比较不同教学方法对学生群体的影响,可以确定一种更好的教学方法。

    总结

    因果推理可以有效地挖掘研究对象之间的因果关系,去除混杂因素对统计数据的影响极其重要。在机器学习领域有一个强假设即认为训练集和测试集是独立同分布的,然后实际情况下数据之间(特征之间)可能会出现虚假关联、选择偏差等由混杂因素引起的问题。如果将因果推理引入到机器学习之中势必会大大地提高模型的性能以及其泛化能力同时也提供了一定的可解释性,在这一块清华大学崔教授团队提出了Stable Learning的概念,并在Nature子刊发文,可供大家学习参考:
    Stable learning establishes some common ground between causal inference and machine learning

    参考

    [1] 因果推理中的潜在结果模型,起源、逻辑与意蕴
    [2] 因果推理综述—《A Survey on Causal Inference》一文的总结和梳理

    展开全文
  • 因果推理简介(causal inference)

    千次阅读 2021-12-08 22:34:07
    简要介绍统计因果推理概念原理,包含结构因果模型的一些基本概念

    结构因果模型SCM

    在这里插入图片描述
      结构因果模型(SCM)由内生变量 V V V、外生变量 U U U和映射函数 F F F构成。因果的定义:若 Y Y Y f X f_X fX 的定义域中,则 Y Y Y X X X的直接原因 ;如果 Y Y Y X X X的直接原因,或者是直接原因的原因,则 Y Y Y X X X的原因。
       U U U中的变量称为外生变量,它们属于模型的外部,不必解释它们变化的原因。 V V V中的变量称为内生变量,模型中每一个内生变量都至少是一个外生变量的后代。外生变量没有祖先节点,不是内生变量的后代。

    因果图的三种结构

    在这里插入图片描述

    链式结构

    1. 相关性: 链式结构中,信息从 X X X经过 Y Y Y流向 Z Z Z,所以 X X X Z Z Z是相关的
    2. 链式结构中的条件独立性: 如果变量 X X X和变量 Z Z Z之间只有一条单向路径, Y Y Y是截断这条路径的任何一组变量,则在 Y = y Y=y Y=y的条件下, X X X Z Z Z是独立的
    3. 例:火灾 → \rightarrow 烟雾 → \rightarrow 烟雾警报,在统计的数据中查看“烟雾=1”的数据会发现,无论是否有火灾,一定会响警报,与火灾的值为0或者1无关,以中介为条件的情况下,火灾和烟雾警报独立

    叉式结构

    1. 相关性: 叉式结构中,信息从 X X X流向 Y Y Y Z Z Z,所以 Y Y Y Z Z Z是相关的
    2. 叉式结构中的条件独立性: 如果变量 X X X是变量 Y Y Y Z Z Z的共因,并且变量 Y Y Y Z Z Z之间只有一条单向路径,则 Y Y Y Z Z Z X = x X=x X=x的条件下是独立的
    3. 例:鞋子尺码 ← \leftarrow 年龄 → \rightarrow 阅读能力,小孩年龄大,一般鞋码长,阅读能力也更强,但是只看统计数据中“年龄=8岁”小孩的记录会发现,鞋子尺码和其阅读能力间是没有关系的

    对撞结构

    1. 相关性: 对撞结构中,变量 X X X Y Y Y都影响 Z Z Z,但是信息没有从 Z Z Z流向 X X X或者 Y Y Y,所以 X X X Y Y Y是独立的(假设没有其他的边)
    2. 对撞结构中的条件独立性: Z Z Z X X X Y Y Y的对撞节点,且 X X X Y Y Y间只有一条路径,则 X X X Y Y Y是无条件独立的,若以 Z Z Z或者 Z Z Z的子孙节点为条件会让 X X X Y Y Y产生关联(以对撞节点为条件会使得该节点的父节点互相依赖)
    3. 例:绩点 → \rightarrow 奖学金 ← \leftarrow 活动分,查看获得奖学金的这些人,如果学习成绩不好,那么他们一定参加了很多活动才评上奖学金,参加活动和学习成绩产生了关联

    d d d-分离

    定义: 一条路径会被以一组节点 Z Z Z时阻断,当且仅当:

    1. 路径 p p p包含链结构 A → B → C A \rightarrow B \rightarrow C ABC或者分叉结构 A ← B → C A \leftarrow B \rightarrow C ABC,且中间节点 B B B Z Z Z中(也就是以 B B B为条件),或者
    2. 路径 p p p包含一个对撞结构 A → B ← C A \rightarrow B \leftarrow C ABC,且对撞节点 B B B及其子孙节点都不在 Z Z Z
      在这里插入图片描述
      例如,在条件集为空集时, Z Z Z X X X d d d-分离的(条件独立);在条件集为 X {X} X时, W W W Y Y Y d d d-分离的(条件独立)。

    干预运算( d o do do-calculus)

      完全的随机对照试验可以解决很多问题,但是有的问题不适合用随机对照试验来解决,可以对变量进行干预,提取因果关系。需要区别的是,对一个变量进行干预和以该变量为条件是不一样的。当要干预图模型中的一个变量时,需要固定这个变量的值,也就是改变了系统,其他变量的值通常会因此发生变化。例如,可以发现干预冰淇淋销量,发现不会影响犯罪的数目,冰淇淋销量和犯罪率没有因果关系。干预是否接种疫苗,发现接种后,患病率下降了,二者存在因果关系。但是以一个变量为条件,不会做任何改变,只是在取统计数据时关注这个条件下的某个子集。“以变量为条件,改变的是我们对世界的看法,而不是世界本身”。
    在这里插入图片描述
      上图显示了冰淇淋销量例子的图模型, X X X表示冰淇淋销量, Y Y Y表示犯罪率, Z Z Z表示温度。例如进行干预,降低冰淇淋销量,在图模型中干预 X X X表示把指向 X X X的所有边移除(如下图),然后对 X X X进行赋值。 X X X的值由干预时的赋值决定,与父节点无关,但是这个赋值操作会影响 X X X的子节点。在干预后的图模型中可以发现, X X X Y Y Y完全独立,二者不相关,没有因果关系。
    在这里插入图片描述
      在符号上,使用 d o do do运算来表示干预操作,变量 X X X在干预情况下被赋值为 x x x表示为 d o ( X = x ) do(X=x) do(X=x)。在 X = x X=x X=x的条件下 Y = y Y=y Y=y的概率为 P ( Y = y ∣ X = x ) P(Y=y|X=x) P(Y=yX=x),通过干预使得 X = x X=x X=x的概率为 P ( Y = y ∣ d o ( X = x ) ) P(Y=y|do(X=x)) P(Y=ydo(X=x)) P ( Y = y ∣ X = x ) P(Y=y|X=x) P(Y=yX=x)表示在数据中观察, X = x X=x X=x的这些个体组成的群体的 Y Y Y的分布; P ( Y = y ∣ d o ( X = x ) ) P(Y=y|do(X=x)) P(Y=ydo(X=x))表示的是如果所有个体都把 X X X的值固定为 X = x X=x X=x时,总体中 Y Y Y的分布。

    平均因果效应ACE

      平均因果效应ACE可以用来衡量某个操作带来的效果,例如为了确定药物的有效性,假设干预操作是让整个人群都服药或者不服药,然后比较两种干预下的健康数值。用 d o ( X = 1 ) do(X=1) do(X=1)表示让所有人服药,用 d o ( X = 0 ) do(X=0) do(X=0)表示让所有人不服药,二者的差异为平均因果效应ACE。
    A C E = P ( Y = 1 ∣ d o ( X = 1 ) ) − P ( Y = 1 ∣ d o ( X = 0 ) ) ACE=P(Y=1|do(X=1))-P(Y=1|do(X=0)) ACE=P(Y=1do(X=1))P(Y=1do(X=0))

    后门准则与调整公式

      假如要计算下图中的 P ( Y = y ∣ d o ( X = x ) ) P(Y=y|do(X=x)) P(Y=ydo(X=x)),存在混杂( Z Z Z X X X Y Y Y的共因),因为满足后门准则,因果效应是可识别的,具体可以使用调整公式来进行计算。
    在这里插入图片描述
      后门准则: 给定有向无环图中的一组有序变量 ( X , Y ) (X,Y) (X,Y),如果变量集合 Z Z Z满足: Z Z Z中没有 X X X的后代节点,且 Z Z Z阻断了 X X X Y Y Y直接的每条含有指向 X X X的边的路径(后门路径),则称 Z Z Z满足关于 ( X , Y ) (X,Y) (X,Y)的后门准则。
      需要注意的是 X → Y X \rightarrow Y XY表示 X X X Y Y Y有前门路径, X ← Y X \leftarrow Y XY表示 X X X Y Y Y有后门路径,反的箭头也表示是路径。。。。。
      如果变量集合 Z Z Z满足 ( X , Y ) (X,Y) (X,Y)的后门准则,那么 X X X Y Y Y的因果效应可以使用调整公式计算(证明见参考文献):
    P ( Y = y ∣ d o ( X = x ) ) = ∑ z P ( Y = y ∣ X = x , Z = z ) P ( Z = z ) P(Y=y|do(X=x))=\sum_z{P(Y=y|X=x,Z=z)P(Z=z)} P(Y=ydo(X=x))=zP(Y=yX=x,Z=z)P(Z=z)

    前门准则与前门校正公式

    在这里插入图片描述
      对于上图(a),存在一个不可观测的混杂因子 U U U,是 X X X Y Y Y的共因,要估计 X X X Y Y Y的因果效应就不能用后门准则了,因为没有 U U U的统计信息。但是,如果额外有一个可以观测的变量 Z Z Z位于 X X X Y Y Y之间,作为中介变量,这种情况下 X X X Y Y Y的因果效应是可识别的,满足前门准则,可以使用前门校正公式来计算。
      前门准则: 变量集合 Z Z Z被称为满足关于有序变量对 ( X , Y ) (X,Y) (X,Y)的前门准则,当:
        1. Z Z Z切断了所有 X X X Y Y Y的有向路径( X → . . . → Y X \rightarrow...\rightarrow Y X...Y)
        2. X X X Z Z Z没有后门路径
        3. 所有 Z Z Z Y Y Y的后门路径都被 X X X阻断

      如果 Z Z Z满足关于有序变量对 ( X , Y ) (X,Y) (X,Y)的前门准则,并且 P ( x , z ) > 0 P(x,z)>0 P(x,z)>0,那么 X X X Y Y Y的因果效应是可识别的,且由下式计算:
    P ( Y = y ∣ d o ( x ) ) = ∑ z P ( z ∣ x ) ∑ x ′ P ( y ∣ x ′ , z ) P ( x ′ ) P(Y=y|do(x))=\sum_z{P(z|x)}\sum_{x^{\prime}}{P(y|x^{\prime},z)P(x^{\prime})} P(Y=ydo(x))=zP(zx)xP(yx,z)P(x)

    工具变量

      假如存在无法观测的混杂因子,不满足前门准则,要识别 X X X Y Y Y的因果效应,可以考虑引入工具变量,借助来计算因果效应。
      一个变量𝑍称为工具变量,满足三个性质 :

    1. 相关性: R R R X X X有因果效应 (Relevance)
    2. R R R X X X的因果效应都由 X X X中介 (Exclusion Restriction)
    3. 工具变量不存在混杂(不存在到 Y Y Y未被阻断的后门路径)(Instrumental Unconfoundedness)

    在这里插入图片描述
      例如上图中,假设是线性模型, X X X Y Y Y的因果效应是系数,也就是 δ \delta δ,混杂效应 α \alpha α不可观测,引入工具变量 R R R。如果求 R R R Y Y Y的平均因果效应,可以得到
    E [ Y ∣ R = 1 ] − E [ Y ∣ R = 0 ] = E [ δ X + α C ∣ R = 1 ] − E [ δ X + α C ∣ R = 1 ] ( Y = δ X + α C ) = δ ( E [ X ∣ R = 1 ] − E ( X ∣ R = 0 ) ) + α ( E [ C ∣ R = 1 ] − E [ C ∣ R = 0 ] ) = δ ( E [ X ∣ R = 1 ] − E ( X ∣ R = 0 ) ) ( u n c o n f o u n d e d n e s s ) \begin{aligned} &\mathbb{E}[Y|R=1]-\mathbb{E}[Y|R=0]\\ &=\mathbb{E}[\delta X+\alpha C|R=1]-\mathbb{E}[\delta X+\alpha C|R=1] \qquad (Y=\delta X+\alpha C)\\ &=\delta(\mathbb{E}[X|R=1]-E(X|R=0))+\alpha(\mathbb{E}[C|R=1]-\mathbb{E}[C|R=0])\\ &=\delta(\mathbb{E}[X|R=1]-E(X|R=0)) \qquad (unconfoundedness) \end{aligned} E[YR=1]E[YR=0]=E[δX+αCR=1]E[δX+αCR=1](Y=δX+αC)=δ(E[XR=1]E(XR=0))+α(E[CR=1]E[CR=0])=δ(E[XR=1]E(XR=0))(unconfoundedness)
      所以可以求出来因果效应为
    δ = E [ Y ∣ R = 1 ] − E [ Y ∣ R = 0 ] E [ X ∣ R = 1 ] − E [ X ∣ R = 0 ] \delta=\frac{\mathbb{E}[Y|R=1]-\mathbb{E}[Y|R=0]}{\mathbb{E}[X|R=1]-\mathbb{E}[X|R=0]} δ=E[XR=1]E[XR=0]E[YR=1]E[YR=0]
      如果是下面的图,可以得到对应的结论:
    在这里插入图片描述

    参考文献

    上面写的仅仅是个人理解,不一定正确,参考文献更为严谨
    【1】因果推理网课,https://www.bradyneal.com/causal-inference-course
    【2】因果推理课本,Causal Inference in Statistics:A Primer
    【3】因果推理课本中文翻译版,统计因果推理入门
    【4】因果推理知乎专栏,因果关系之梯,by望止洋,https://www.zhihu.com/column/c_1217887302124773376

    展开全文
  • 因果推理-学习笔记

    千次阅读 2021-12-10 09:41:38
    因果推理,数据分析的高级层次。
  • 因果推理是解释性分析的强大建模工具,它可使当前的机器学习变得可解释。如何将因果推理与机器学习相结合,开发可解释人工智能(XAI)算法,是迈向人工智能2.0的关键步骤之一。为了将因果推理的知识带给机器学习和...
  • NLP 中的因果推理

    2021-10-14 10:35:43
    在这篇综述论文中,来自佐治亚理工学院的杨笛一等十几位研究者系统阐述了自然语言处理中的因果推理。 科学研究的一个基本目标是了解因果关系。然而,尽管因果在生活和社会科学中扮演了重要角色,它在 NLP 中却...
  • 每天给你送来NLP技术干货!论文名称:e-CARE: a New Dataset for Exploring Explainable Causal Reasoning论文...借助因果推理能力,人类得以理解已观测到的各种现象,并预测将来可能发生的事件。然而,尽管当下的...
  • 科学研究的一个基本目标是了解因果关系。...随着因果推理和语言处理交叉研究领域的出现,二者之前的界限正变得模糊,但 NLP 中的因果推理研究仍然分散在各个领域,没有统一的定义、基准数据集和对剩余挑战的清晰表述。
  • 笔记整理:朱珈徵,天津大学硕士链接:https://aclanthology.org/2021.acl-long.183.pdf动机因果推理旨在理解因果之间的一般因果相关性,对于各种人工智...
  • 因果推理初探

    千次阅读 2020-10-10 17:00:32
    因果推理初探系列 评价:小白友好!讲的非常详细! 背景 近期在看结构化因果相关的论文,没有基础看的云里雾里,想着大致了解一下因果推断相关知识,顺手整理了本博客,主要是对于参考链接中系列的个人理解。 因果...
  • 来源:专知 本文为资料,建议阅读5分钟本教程将介绍网络数据因果推理的最新研究成果,也称为干扰因果推理因果推理的任务——从数据中推断干预措施和反事实的效果——是大量科学和工业应用的核心。为...
  • Python中基于机器学习的因果推理/提升 内容: ••• causeinfer是一个Python软件包,用于使用机器学习来估计平均和条件平均处理效果。 它的目标是编译标准和高级的因果推理模型,并展示其用法和功效-所有这些都具有...
  • 来源:集智俱乐部作者:丁善一编辑:邓一雪导语...如何在业务中允许用户或消费者做开放式的表达,并能够有能力结合服务者和商品进行因果表征,对因果图进行扩充,进而规模化地去应对这种开放式的表达,是当前智能服...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,057
精华内容 4,022
关键字:

因果推理

友情链接: sse2.rar