精华内容
下载资源
问答
  • 适用于学习,为什么,提供了因果推理方面的研究,对计算机视觉、自然语言处理等深度学习领域有很大的帮助
  • 为什么关于因果关系的新科学
  • 对渴望了解因果推断的人们来说,它既是因果关系科学的入门书,又是关于这门学问从萌发到蓬勃发展的一部简史,其中不乏对当前的人工智能发展现状的反思和对未来人工智能发展方向的探索。 the book of why the book of ...

    参考链接: 小样本学习与智能前沿

    为什么-关于因果关系的新科学 | 导言

    Reference[原文]: Joselynzhao.top & 夏木青 | 为什么-关于因果关系的新科学 | 导言

    [美]朱迪亚·珀尔
    [美]达纳·麦肯齐 著

    推荐序

    以平实的话语介绍了因果推断的理论建构

    对渴望了解因果推断的人们来说,它既是因果关系科学的入门书,又是关于这门学问从萌发到蓬勃发展的一部简史,其中不乏对当前的人工智能发展现状的反思和对未来人工智能发展方向的探索。

    the book of why
    the book of change

    这样一本重量级的科普读物,即便是对于一
    位专门从事人工智能或机器学习方面的研究的学者而言,如果其以前从未接触过因果推断,那么在初次阅
    读时他也未必能完全掌握书中的内容,因此这本书对于没有专业背景的普通读者的阅读难度可想而知。


    于没有概率统计基础的读者来说,笔者的阅读建议是略过数学细节,着重抓住内容大意;而对于有一定概
    率统计基础的读者来说,笔者认为在阅读时一定不能放过正文中的数学精髓,这本书中的数学公式不多不
    少,刚好自圆其说。

    古人云:“博学之,审问之,慎思之,明辨之,笃行之。”此话正合此书精神,与读者共勉。

    前言

    那些依赖于因
    果信息、长期被认为是形而上的或无法解决的实际问题,现在也可以借助初等数学加以解决了。简言之,
    因果论已经完成了数学化。”

    完成一个三位一体的使命:

    • 首先,用非数学的语言阐述因果革命的知识内涵,说明它将怎样影响我们的生活和未来。
    • 其次,分享在解决重要的因果问题时,我们的科学家前辈走过的英勇征
      程,无论成败,这些故事都值得讲述。
    • 最后,回溯因果革命在人工智能领域的发源地,目的是向你介绍如何开发出用我们的母语——因果语言进行交流的机器人.

    新一代机器人应该能够向我们解释事情为何发生,为何机器人以它们选择的某种方
    式做出反应,以及大自然为何以这样而非那样的方式运作。一个更加雄心勃勃的目标是,它们也应该能够
    让我们进一步认识人类自身:我们的思维为什么以这样的方式运行,以及理性思考原因和结果、信任和遗
    憾、目的和责任究竟意味着什么。

    导言: 思维胜于数据

    每一门蒸蒸日上的科学都是在其符号系统的基础上繁荣发展起来的。
    ——奥古斯都·德·摩根(1864)

    以数学形式表达因果关系的能力让我们得以开
    发出许多强大的、条理化的方法,将我们的知识与数据结合起来,解决实际问题.

    阻碍因果
    推断这一科学诞生的最大障碍,是我们用以提出因果问题的词汇和我们用以交流科学理论的传统词汇之间
    的鸿沟。

    我们可以用数学公式表示关系, 却很难说清楚里面的因果.
    气压计读数B可以用来表示实际的大气压P。我们可以轻而易举地用方程式来表示这种关系,
    B=kP,其中k是某个比例常数。
    字母k、B或P三者中的任意一个在数学上都没有凌驾于其他两个之上的特权。那么,我们怎样才能表
    达这个确凿无疑的事实,即是大气压导致了气压计读数的变化,而不是反过来?

    倘若连这一事实都无法表
    达,我们又怎能奢望去表达其他许多无法用数学公式来表达的因果推断,例如公鸡打鸣不会导致太阳升
    起?

    用公式去表达事实.
    众所周知,按动开关按钮会
    导致一盏灯的打开或关闭,夏日午后的闷热空气会促使当地冰激凌店的销售额增加。那么,为什么科学家
    们没有像用公式表达光学、力学或几何学的基本法则那样,用公式去捕捉这些显而易见的事实?

    随着人类求知欲的不断增
    强,以及社会现实开始要求人们讨论在复杂的法律、商业、医疗等领域的决策情境中出现的因果问题,我
    们终于发现我们缺少一门成熟的科学所应提供的用于回答这些问题的工具和原理。

    公鸡打鸣与日出高度相关,但它显然不是日出
    的原因。

    统计学盲目迷恋这种常识性的观察结论。它告诉我们,相关关系不等于因果关系,但并没
    有告诉我们因果关系是什么。

    统计学不允许学生们
    说X是Y的原因 [2] ,只允许他们说X与Y“相关”或“存在关联”

    数据远非万能。数据可以告诉你服药的病人比不服药的
    病人康复得更快,却不能告诉你原因何在。也许,那些服药的人选择吃这种药只是因为他们支付得起,即
    使不服用这种药,他们照样能恢复得这么快。

    因果关系演算法由两种语言组成:
    其一为因果图(causal diagrams),用以表达我们已知的事物,
    其二为类似代数的符号语言,用以表达我们想知道的事物。

    因果图是由简单的点和箭头组成的图, 它们能被用
    于概括现有的某些科学知识。点代表了目标量,我们称之为“变量”,箭头代表这些变量之间已知或疑似存
    在的因果关系,即哪个变量“听从于”哪个变量。这些因果图非常容易绘制、理解和使用.

    与图表式的“知识语言”并存的还有一种符号式的“问题语言
    如果我们感兴趣的是药物(D)对病人生存期(L)的影响,那么我们的问题可以用符号写成:P(L|do(D))
    如果一个身体状况具有足够代表性的病人服用了这种药,那么他在L年内存活的概率§是多少?

    在许多情况下,我们可能还希望对P(L│do(D))和
    P(L|do(not-D))进行比较,后者描述的是拒绝接受相应处理(服药)的病人,也称“对照组”病人的情
    况。其中,do算子表明了我们正在进行主动干预而非被动观察,这一概念是经典统计学不可能涉及的。

    我们必须调用一个干预算子do(D)来确保观察到的病人存活期L的变化能完全归因于药物本
    ,而没有混杂其他影响寿命长短的因素。如果我们不进行干预,而是让病人自己决定是否服用该药物,
    那么其他因素就可能会影响病人的决定,而服药和未服药的两组病人的存活期差异也将无法再被仅仅归因于药物

    随机地指示
    一些病人服用药物或不服用药物,而不考虑先决条件如何,则可以去除两组病人之间原有的差异,提供有
    效的比较结果。

    在数学上,我们把自愿服药的病人的生存期L的观测频率记作P(L|D)
    表示生存期L的概率§是以观察到病人服用药物D为条件的
    注意P(L|D)与
    P(L|do(D))完全不同。观察到(seeing)和进行干预(doing)有本质的区别,

    缺少P(L|do(D)),而完全由P(L|D)统治的世界将是十分荒诞的。
    在这个世界中,病人不去就诊就能减少人们患重病的概率,城市解
    雇消防员就能减少火灾的发生

    因果革命最重要的成果之一就是解释了如何在不实际实施干预的情况下预测干预的效果。


    当我们感兴趣的科学问题涉及反思性的思考时,我们通常会诉诸另一种类型的表达形式,这种表达形
    式是因果推断科学独有的,我们称之为反事实”(counterfactual)

    例如,假设乔在服用了药物D一个月后
    死亡,那么我们现在关注的问题就是这种药物是否导致了他的死亡。为了回答这个问题,我们需要想象这
    样一种情况:假如乔在即将服药时改变了主意,他现在会活着吗?

    经典统计学只关注总结数据,因此它甚至无法提供一种语言让我们提出上面那个问题。

    因果推断则不仅提供了一种表达符号,更重要的是,它还提供了一种解决方案。

    反事实推理涉及假设分析(what-ifs),这可能会使一些读者质疑其科学性。经验观察永远无
    法证实或反驳这些问题的答案。
    反事实并非异想天开之物,而是反映了现实世界运行模式的特有结构。

    我对语言的强调也源于一个坚定的信念,即语言会塑造我们的思想。你无法回答一个你提不出来的问题,
    你也无法提出一个你的语言不能描述的问题。

    20世纪80年代末,我意识到智能机器
    缺乏对因果关系的理解,这也许是妨碍它们发展出相当于人类水平的智能的最大障碍

    现实的蓝图

    而现在,我提议引入另一个术语——“因果模型”。

    图0.1展示了一个“因果推断引
    擎”的蓝图,此引擎将帮助未来的人工智能进行因果推理。更重要的是,它不仅仅是一张关于未来的蓝
    图,也是一份指南,用于指导我们发现在当今的科学应用中,因果模型是如何发挥作用的,以及它们与数
    据之间的相互作用是怎样的。

    在这里插入图片描述

    图0.1 “因果推断引擎”能够将数据与因果知识相结合生成目标问题的答案。虚线框不是引擎的组成部分,但它是构建引擎
    的必要基础。箭头也可以从方框4和方框9指向方框1, 但在这里为简化图示进行了省略。

    因果推断引擎是一种问题处理机器,它接收三种不同的输入——假设、问题和数据,并能够产生三种
    输出。第一种输出是“是/否”判断,用于判定在现有的因果模型下,假设我们拥有完美的、无限的数据,那
    么给定的问题在理论上是否有解。如果答案为“是”,则接下来推断引擎会生成一个被估量。这是一个数学
    公式,可以被理解为一种能从任何假设数据中生成答案的方法,只要这些数据是可获取的。最后,在推断
    引擎接收到数据输入后,它将用上述方法生成一个问题答案的实际估计值,并给出对该估计值的不确定性
    大小的统计估计。这种不确定性反映了样本数据集的代表性以及可能存在的测量误差或数据缺失。

    以“药物D对病人生存期L的影响是什么”这个问题为例进行具体分析。

    1. “知识”指的是推理主体(reasoning agent)过去的经验,包括过去的观察、以往的行为、接受
      过的教育和文化习俗等所有被认为与目标问题有关的内容。“知识”周围的虚线框表示它仍隐藏在推理主
      体的思想中,尚未在模型中得到正式表达。

    2. 科学研究总是要求我们给出简化的假设,这些假设也就是研究者在现有知识的基础上认为有必要明
      确表述出来的陈述。

    3. 因果模型有多种表现形式,包括因果图、结构方程、逻辑语句等。

    4. 以因果模型的路径来表示的变量之间的听从模式通常会导向数据中某种显而易见的模式或相关关
      系。这些模式可被用于测试模型,因此也被称为“可验证的蕴涵”(testable implications) [3]

    5. 向推理引擎提交的问题就是我们希望获得解答的科学问题,这一问题必须用因果词汇来表述。
      例如,我们现在感兴趣的问题是:P(L|do(D))是什么?因果革命的主要成就之一就是确保了这一语言在
      科学上容易理解,同时在数学上精确严谨。

    6. 被估量“estimand”来自拉丁语,意思是“需要估计的东西”。它是我们从数据中估算出来的统计量。一旦这个量被估算出来,我们便可以用它来合理地表示问题的答案。虽然被估量的表现形式是一个概
      率公式,如P(L|D,Z)×P(Z),但实际上它是一种方法,可以让我们根据我们所掌握的数据类型回答
      因果问题(前提是推断引擎证实了这种数据类型就是我们需要的)。

    在当前的因果模型下,无论我们收集到
    多少数据,有些问题可能仍然无法得到解答。
    例如,如果我们的模型显示D和L都依赖于第三变量Z(比如
    疾病的发展阶段),并且,如果我们没有任何方法可以测量Z的值,那么问题P(L|do(D))就无法得到
    解答。在这种情况下,收集数据完全就是浪费时间。相反,我们需要做的是回过头完善模型,具体方式则
    是输入新的科学知识,使我们可以估计Z的值,或者简化假设(注意,此处存在犯错的风险),例如假设Z对D的影响是可以忽略不计的。

    1. 数据可以被视作填充被估量的原料。数据本身不具备表述因果关系的能力。数据告诉我们的只是数量信息,如P(L|D)或P(L|D,Z)的值。基于模型假设,该表达式在逻辑上等价于我们所要回答的因果问题,比说
      P(L|do(D))。

    2. 我们也无法避免根据样本测量的概率无法代
      表整个总体的相应概率的可能性。幸运的是,依靠机器学习领域所提供的先进技术,统计学科为我们提供
      了很多方法来应对这种不确定性,这些方法包括最大似然估计、倾向评分、置信区间、显著性检验等。

    3. 最后,如果我们的模型是正确的且数据是充分的,那么我们就获得了这个待解决的因果问题的答
      案,比如“药物D使糖尿病患者Z的生存期L增加了30%,误差±20%。”啊哈!现在,这一答案将被添加到
      我们的科学知识(方框 1)中。而如果这一答案与我们的预期不符,则很可能说明我们需要对因果模型做
      一些改进(方框3)

    据假设确定了因果模型,提出了我们想要解决的科学问题,推导出被估量。

    如果拥有一个因果模型,我们就可以在大部分情况下从未经干预处理的数据中预测干
    预的结果了。

    当我们试图回答反事实问题,比如“假如我们采取了相反的行动会发生什么”时,因果模型的重要性就
    更加引人注目了。

    如果我们想让机器人回答“为什么”这样的问题, 或者只是试图让它们理解
    此类问题的意义,那么我们就必须用因果模型武装它们,并教它们学会如何回答反事实问题,做法就像图
    0.1所展示的那样。


    因果模型所具备而数据挖掘和深度学习所缺乏的另一个优势就是适应性。

    注意在图0.1中,被估量是在我们真正检查数据的特性之前仅仅根据因果模型计算出来的,这就使得因果推断引擎适应性极强,因为无
    论变量之间的数值关系如何,被估量都能适用于与定性模型适配的数据


    全书内容概要

    • 第一章将观察、干预和反事实这三个台阶组合成因果关系之梯(ladder of causation),这是本
      书的核心隐喻。
      它将向你揭示利用因果图(我们主要的建模工具)进行推理的基本原理,同时引导你一步
      步成为一名精通因果推理的专家。

    如果能用一句话来概括本书的内容,那就是“你比你的数据更聪明”。数据不了解因果,而人类了解。
    我希望因果推断这门新科学能让我们更好地理解我们是如何做到这件事的,因为除了自我模拟,我们没有
    更好的方法来了解人类自身了。与此同时,在计算机时代,这种新的理解也有望被应用于增强人类自身的
    因果直觉,从而让我们更好地读懂数据,无论是大数据还是小数据。

    展开全文
  • 文章目录因果关系的三个层级迷你图灵测试论概率与因果关系 上帝问的是“什么”,他们回答的却是“为什么”。上帝询问事实,他们回答理由。 而且,两人都深信,列举原因可以以某种方式美化他们的行为。他们是从哪里得到...

    Reference[原文]: Joselynzhao.top & 夏木青 | 01 因果关系之梯

    上帝问的是“什么”,他们回答的却是“为什么”。上帝询问事实,他们回答理由。
    而且,两人都深信,列举原因可以以某种方式美化他们的行为。他们是从哪里得到这样的想法的?

    人类祖先想象不存在之物的能力是一切的关键,正是这种能力让他们得以交流得更加顺畅。在获得这种能力之前,他们只相信自己的直系亲属或者本部落的人。而此后,信任就因共同的幻想
    (例如信仰无形但可想象的神,信仰来世,或者信仰领袖的神性)和期许而延伸到了更大的群体。

    回到我们的智人祖先,新掌握的因果想象力使他们能够通过一种被我们称为“规划”的复杂过程更有效地完成许多事情。

    简言之,通过想象和比较几个狩猎策略的结果来完成任务。要做到这一点,
    思维主体必须具备一个可供参考并且可以自主调整的关于狩猎现实的心理模型.

    在这里插入图片描述
    图1.1展示了我们建构这一心理模型的方式。图中的每个点都代表一种成功狩猎的影响因素或原因。

    心理模型是施展想象的舞台。 它使我们能够通过对模型局部的修改来试验不同的情景。
    这些因果图就是我在导言中所描述的“因果推理引擎”的计算核心。

    因果关系的三个层级

    因果关系的学习者必须熟练掌握至少三种不同层级的认知能力:观察能力(seeing)、行动能力
    (doing)和想象能力(imagining)。

    第一层级是观察能力,具体而言是指发现环境中的规律的能力。
    第二层级是行动能力,涉及预测对环境进行刻意改变后的结果,并根据预测结
    果选择行为方案以催生出自己期待的结果。对工具的使用(前提是使用是有意图的,而不是偶然的或模仿前人)就可以视作达到第二层级的标志。

    第三层级至关重要,它让我们为发起农业
    领域和科学领域的更深层次的革命做好了准备,使得我们人类对于地球的改造能力发生了骤变…

    使用这组判断标准,我们便可以将问题的三个层级组合成因果关系之梯(见图1.2)。因果关系
    之梯是本书的一个重要隐喻,我们将会多次回顾它

    在这里插入图片描述
    处于第一层级的是关联,在这个层级中
    我们通过观察寻找规律。

    一只猫头鹰观察到一只老鼠在活动,便开始推测老鼠下一刻可能出现的位置,这只猫头鹰所做的就是通过观察寻找规律。

    如果观察到某一事件改变了观察到另一事
    件的可能性,我们便说这一事件与另一事件相关联

    因果关系之梯的第一层级要求我们基于被动观察做出预测。
    “购买牙膏的顾客同时购买牙线的可能性有多大?”此类问题正是统计学的安身立命之本,统计学家主要通过收集和分析数据给出答案。

    首先采集所有顾客购物行为的数据,然后筛选出购买牙膏的顾客,计算他们当中购买牙线的人数
    比例。这个比例也称作“条件概率”,用于测算(针对大数据的)“买牙膏”和“买牙线”两种行为之间的关联
    程度。用符号表示可以写作P(牙线|牙膏),其中P代表概率,竖线意为“假设你观察到”。

    我把当今的人工智能置于因果关系之梯的最底层
    强人工智能这一目标是制造出拥有类人智能的机器,让它们能与人类交流并指导人类的探
    索方向。而深度学习只是让机器具备了高超的能力,而非智能。这种差异是巨大的,原因就在于后者缺少现实模型。

    深度神经网络为拟合函数的复杂性增加了更多的层次,但其拟合过程仍然由原始数据驱动。
    处于因果关系之梯最底层的任何运作系统都不可避免地缺乏这种灵活性和适应性.

    当我们开始改变世界的时候,我们就迈上了因果关系之梯的更高一层台阶。

    无论数据集有多大或者神经网络有多深,
    只要使用的是被动收集的数据,我们就无法回答有关干预的问题。

    预测干预结果的一种非常直接的方法是在严格控制的条件下进行实验。
    一个足够强大的、准确的因果模型可以让我们利用第一层级(关联)的数据来回答第二层级(干预)的问题。没有因果模型,我们就不能从第一层级登上第二层级。
    这就是深度学习系统(只要它们只使用了第一层级的数据而没有利用因果模型)永远无法回答干
    预问题的原因,干预行动据其本意就是要打破机器训练的环境规则。

    因果关系之梯第二层级的典型问题就是:“如果我们实施…行动,将会怎样?”
    即,如果我们改变环境会发生什么?我们把这样的问题记作P(牙线 |do(牙膏)),它所对应的问题是:
    如果对牙膏另行定价,那么在某一价位销售牙线的概率是多少?

    第二层级中的另一个热门问题是:“怎么做?”它与“如果我们实施…行动,将会怎样”是同类问题。

    (后者是前者的解决方案)

    分析原因,现在我的头已经不痛了,但这是为什么?这些问题将我们带到因果关系之梯的最高层,即反事实层级

    反事实与数据之间存在着一种特别棘手的关系,因为数据顾名思义就是事实。
    回到牙膏的例子,针对这个例子,最高层级的问题是:“假如我们把牙膏的价格提高一倍,则之前买
    了牙膏的顾客仍然选择购买的概率是多少?”在这个问题中,我们所做的就是将真实的世界(在真实的世
    界,我们知道顾客以当前的价格购买了牙膏)和虚构的世界(在虚构的世界,牙膏价格是当前的2倍)进
    行对比。

    将反事实置于因果关系之梯的顶层,已经充分表明了我将其视为人类意识进化过程的关键时刻。

    半人半狮
    是解剖学意义上
    的现代人类创造了它,它的出现标志着对先前所有的艺术或工艺品形式的突破。
    它的本体是一个只存在于想象中的生物。

    从想象的反事实中,我们获得的独特优势是灵活性、反省能力和改善过去行为的能力,更重要的一点是对过去和现在的行为承担责任的意愿。古往今来,我们一直受益于反事实推理。

    ,因果关系之梯第三层级的典型问题是:“假如我当时做了…会怎样?”和“为什么?”两
    者都涉及观察到的世界与反事实世界的比较。
    仅靠干预实验无法回答这样的问题。

    如果第一层级对应的是
    观察到的世界,第二层级对应的是一个可被观察的美好新世界,那么第三层级对应的就是一个无法被观察
    的世界(因为它与我们观察到的世界截然相反)。

    为了弥合第三层级与前两个层级之间的差距,简言之,我们需要掌握一种理解力,建立一种理论,据此我们就可以预测在
    尚未经历甚至未曾设想过的情况下会发生什么

    但因果推断的意义还要
    更为深远:在掌握了各种法则之后,我们就可以有选择地违背它们,以创造出与现实世界相对立的世界。

    迷你图灵测试

    图灵测试
    一个普通人出于实用目的用打字机与一台计算机交流,如果他无法判断谈话对
    象是人还是计算机,那么这台计算机就可以被视作一台思维机器

    与其试图编写一个模拟成人
    思维的程序,何不尝试编写一个模拟儿童思维的程序?”如果能做到这一点,那么你就可以像教小孩子一样教它了。

    图灵错了:儿童的大脑有着丰富的预设机制和预存模板。

    在创造出具备孩童智能水平的机器人之前,我们可能的确
    无法成功创造出类人智能,而创造出前者的关键要素就是掌握因果关系。

    假设我们
    有10个因果变量,每个变量只取两个值(0或1),那么我们可以提出大约3000万个关于这些变量的可能问
    题,例如:“如果我们看到变量X等于1,而我们让变量Y等于0且变量Z等于1,那么结果变量为1的概率是
    多少?”

    ,很显然,简单
    的问题答案列表永远无法让机器模拟儿童的智能,更不用说模拟成人的智能了。

    人类的大脑肯定拥有某种简洁的信息表示方式,同时还拥有某种十分有效的程序用以正确解释每个问
    题,并从存储的信息表示中提取正确答案。

    事实上,这种表示不仅存在,而且具有孩童思维般的简洁性,它就是因果图。

    如图1.4所示,我们假设一个犯人将要被行刑队执行枪决。这件事的发生必然会以一连串的事件发生为前提。首先,法院方面要下令处决犯人。命令下达到行刑队队长后,他将指示行刑队的士兵(A和B)执行枪决。我们假设他们是服从命令的专业枪手,只听命令射击,并且只要其中任何一个枪手开了枪,囚犯都必死无疑。
    在这里插入图片描述

    图1.4所示因果图即概括了我刚才讲的故事。每个未知量(CO,C,A,B,D)都是一个真/假
    (true/false)变量。例如,D=真,意思是犯人已死;D=假,意思是犯人还活着。CO=假,意思是法院的死
    刑命令未签发;CO=真,意思则是死刑命令已签发,以此类推。

    借助这个因果图,我们就可以回答来自因果关系之梯不同层级的因果问题了。

    关联
    即使士兵A的行为不是士兵B做出某一行为的原因(因为从A到B没有箭头),该判
    断依然为真。

    干预
    如果我们希望计算机能理解因果关系,我们就必须教会它如何打破规则,让它懂得“观察到某事
    件”和“使某事件发生”之间的区别。

    我们需要告诉计算机:“无论何时,如果你想使某事发生,那就删除指
    向该事的所有箭头,之后继续根据逻辑规则进行分析,就好像那些箭头从未出现过一样。”

    使某事发生就意味着将它从所有其他影响因子中解放
    出来,并使它受限于唯一的影响因子——能强制其发生的那个因子。

    图1.5表示出了根据这个例子生成的因果图。显然,这种干预会不可避免地导致犯人的死亡。这就是箭头A到D背后的因果作用。

    在这里插入图片描述

    如果我们“看到”A射击,则我们可以下结
    论——B也射击了。但是如果A自行“决定”射击,或者如果我们强制“使”A射击,那么在此种情况下,相反的结论才是对的… 这就是“观察到”和“实施干预”的区别

    需要注意的是,仅凭收集大数据无助于我们登上因果关系之梯去回答上面的问题。

    反事实
    最后,为了说明因果关系之梯的第三层级,我们提出一个反事实问题
    假设犯人现在已倒地身亡,
    在虚构世界中,A没有射击,指向A的箭头被去除,这进而又解除了A与C的听
    命关系。现在,我们将A的值设置为假,并让A行动之前的所有其他变量的水平与现实世界保持一致。如此一来,这一虚构世界就如图1.6所示。

    在这里插入图片描述

    如上述三个例子所示,我们必须教会计算机如何有选择地
    打破逻辑规则。计算机不擅长打破规则,这是儿童的强项。


    数据显示有更多的人死于天花疫苗,而非死于天花。有些人理所当然地利用这些信息辩
    称,应该禁止人们接种疫苗,而不顾疫苗实际上根除了天花,挽救了许多生命的事实。

    假设100万儿童中有99%接种了疫苗,1%没有接种。对于接种了疫苗的儿童来说,一方面,他有1%的
    可能性出现不良反应,这种不良反应有1%的可能性导致儿童死亡。另一方面,这些接种了疫苗的儿童不可
    能得天花。相对的,对于一个未接种疫苗的儿童来说,他显然不可能产生接种后的不良反应,但他有2%的
    概率得天花。最后,让我们假设天花的致死率是20%。

    按照假设,在100万个孩子中,99万人接种了疫苗,其中有9900人出现了接种后的不良反应,这之中有99人因此死亡。与此同时,那1万
    个没有接种疫苗的孩子中,有200人得了天花,其中的40人死于天花。这样一来,死于疫苗接种不良反应
    的儿童(99人)就多于死于天花的儿童(40人)了。

    在这里插入图片描述

    反事实问题:“假如我们把疫苗接
    种率设为零会怎样?”
    100万孩子中2万人会得天
    花,4000人会死亡。
    在此,我们应该感谢反事实的语言 [3] 让我们避
    免了付出如此惨重的代价。

    这个例子中学到的最重要的知识是:构建因果模型不仅仅是画箭
    头,箭头背后还隐藏着概率。

    通常情况下,因果图自身的结构就足够让我们推
    测出各种因果关系和反事实关系:简单的或复杂的、确定的或概率的、线性的或非线性的。

    在所有三个例子
    中,我们都使用了相同的程序:将故事转化成因果图,解读问题,执行与既定问题(干预问题或反事实问
    题)相对应的“手术”(如果问题是关联类的,则不需要进行任何“手术”),并使用修改后的因果模型计算
    答案。

    并且,每次改变故事的时候,我们也不必根据各种新的问题重新训练机器。这一方法具有足够的灵
    活性,只要我们能绘制出因果图,我们就能解决问题

    因果观都比概率
    观更重要。

    例如,假设随着时代改变,出现了一种更安全、更有效的疫苗。同时,由于卫生条件和
    社会经济条件的改善,人们感染天花的危险也减少了。这些变化将对前文提到的例子中的绝大部分变量的
    概率产生极大的影响;但显然,原有的因果图结构仍将保持不变。

    如导言所述,同样的被估量(也就是回答相应问题的方法)
    将一直有效,并且只要因果图不变,该被估量就可以应用于新数据,并为特定问题生成新的估计值。我猜
    想,正是由于具备这种稳健性,人类的直觉才以因果关系而非统计关系为组织的核心。
    (导言部分回去重新看)

    论概率与因果关系

    从赖欣巴哈和萨普斯开始,哲学家们开始使用“概
    率提高”的概念来定义因果关系:如果X提高了Y的概率,那么我们就说X导致了Y

    例如,当我们说“鲁莽驾驶会导致交通事故”或“你会
    因为懒惰而挂科”时

    前者只是增加了后者发生的可能性,而非必然会让后者发生。

    条件概率表示存在的问题
    哲学家几乎无一例外地使
    用了条件概率来表示“X提高了Y的概率”,记作P(Y|X)>P(Y)

    这种解释是错的,因
    为“提高”是一个因果概念,意味着X对Y的因果效应,而公式P(Y|X)>P(Y)只涉及观察和手段,表示的
    是“如果我们观察到了X,那么Y的概率就提高了”。

    这种概率提高完全可能是由其他因素造成的,比
    如Y是X的因,或者其他变量(Z)是它们二者的因

    用类似表达式P(Y|X)所表示的概率位于因果关系之梯的第一层级,其不能(靠自己)回答第二层级或第三层级的问题。

    X和Y共同的因或称混杂因
    子(confounder) [5] 问题,是令哲学家最为烦恼的问题之一。

    冰淇淋和犯罪的例子

    哲学家努力尝试通过为他们所称的“背景因子”(混杂因子的另一种说法)设置限定条件来修复定义,
    并据此建构了表达式P(Y|X,K=k)>P(Y|K=k),其中K代表背景变量。

    例如,如果我们只看温度为30°C的日子(K=30),
    我们就会发现冰激凌的销售和犯罪率之间不存在任何残留的关联。只有把30°C的日子和0°C的日子进行比较,我们才会产生概率提高的错觉。

    然而,对于“哪些变量要放入背景因子集合K中作为条件”这一问题,还没有一个哲学家能够给出一个
    令人信服的通用答案。

    目前我能给出的提示是,离开因果图,我们是不可能阐明这个定
    义的。

    拯救概率提高这一概念的正确方法是借助do算子来定义,如果P(Y|do(X))>P(Y),那么我们就
    可以说X导致了Y。。由于干预是第二层级的概念,因此这个定义能够体现概率提高的因果解释,也可以让我们借助因果图进行概率推算。

    在努力将因果关系的概念数学化(这本身就是一个值得称道的想法)的过程中,哲学家过早地
    诉诸其所知的唯一一种用于处理不确定性的语言,即概率语言。

    贝叶斯网络适用于一个所有问题都被简化为概率或者(用本章的术语来说就是)变量间的关联程度的世界,它无法自动升级到因果关系之梯的第二层级或第三层级。

    我想说明的主要观
    点是:概率能将我们对静态世界的信念进行编码,而因果论则告诉我们,当世界被改变时,无论改变是通
    过干预还是通过想象实现的,概率是否会发生改变以及如何改变。

    展开全文
  • 为什么关于因果关系的新科学
  • 一、科学世界中没有因果

    目录

     

    一、科学家如何看待因果关系

    1.科学家不承认因果关系

    2.因果关系是什么

    二、借用科学智慧、完善科学思维

    1.找到更多导致结果的重要原因

    2.寻找混杂因子:辛普森悖论

    3.寻找中介因素

    3.1找到最本质原因的方法论


     

    一、科学家如何看待因果关系

    1.科学家不承认因果关系

    先说结论:科学家认为因果关系是人类自创的思维方式,是主观的,他们认为世界上客观存在的其实是相关性。

    那科学家认为没有因果关系,就要证明为什么没有呢?

    科学家做了一个实验即沙漏实验:

    (下文是摘抄“得到”原文)


    1877年,著名的发明家、人类学家,也是统计学的鼻祖,达尔文的表弟,叫弗朗西斯·高尔顿,做了一个实验。这个实验得出一个结论,认为科学的世界里,根本没有因果。

    这个实验并不复杂。把一块木板立起来,然后木板的上半部分,是一排排的小格挡。下半部分,是一排垂直的竖槽。一个小球从上边的正中央落下来,经过一排排小格挡的碰撞之后,落在下面的槽里。当然,落在哪个竖槽,事先算不出来,碰撞是随机的。这个板子,叫作“高尔顿板”。

     

    在实验里,虽然小球的下落是随机的,但是,当你放下一堆小球之后,会发现,小球的分布呈现出一种规律。中间部分的竖槽里,球特别多,然后越到两边,竖槽里的球越少。整个小球分布,呈现出一个平滑的钟形曲线。统计学上,管这种现象叫正态分布。

    高尔顿用这个实验,来模拟人的遗传。比如身高,人的身高会受到很多遗传因素的影响,就像板子上那些小格挡一样。但是,不管有多少因素,最终都会呈现一种正态分布。也就是,大多数人都会处在一个平均区间,不高不矮。而特别高和特别矮的人都是少数。

    当然,到这一步,并不是什么新闻。真正有趣的是接下来,高尔顿把这个实验又延续了一步,在原来的高尔顿板下面,又接上一个高尔顿板。也就是,让原本在竖槽里正态分布的小球,再下落一次,再次经过一大堆小格挡,并且再次落在一排竖槽里。这么一来,会发生什么呢?

    无论是理论推导还是实验演示,呈现出的结果都是,第二层竖槽里的小球分布,会把正态分布这个趋势放大。也就是,各个竖槽之间的小球数量,会变得更均匀。这个由小球组成的曲线,会变得更平缓。

    这两层高尔顿板,模拟的是两代人的遗传。对应到现实世界,呈现出的结果应该是,在第一代人当中,特别高和特别矮的人是少数。而到了第二代,特别高和特别矮的人,都会变多,而身高是平均值的人会变少。就像第二层高尔顿板里的小球分布一样。假如你没太明白,我再次建议你点开文稿,看一眼图片,马上一目了然。

    说到这,你一定已经注意到,现实世界并不是这样。不管是在哪一代人中,特别高和特别矮的人,都是少数。这就奇怪了,你看,假如下一代的身高,是在上一代的基础上遗传的。那么,身高特别高的人,生出的孩子,很可能比父辈还高。这么子子孙孙一代代下来,就会有越来越多,特别特别高的人。同样,也会有越来越多,特别特别矮的人。但是,这些并没有发生。身高特别高的人,下一代的身高,大概率上会矮一点。同样,特别矮的人,下一代往往会高一点。总体上看,每一代人的身高分布,并没有呈现出越来越大的两极分化。

    高尔顿还观察了600多个英国名人,发现这些名人的儿子们,普遍不如父辈有名。就像咱们常说的,富不过三代。高尔顿把这个现象叫作回归平庸。现在,我们稍微改了个字眼,管它叫,回归平均。也就是,不管上一代比平均值高多少,或者低多少。在下一代身上,这些差异大概率上都会缩小,他们会接近平均。

    那么,到底是什么原因,导致了回归平均这个现象呢?这个问题,高尔顿思考了12年,终于得出结论,根本就没有原因,没有神秘的力量。世界本身就不是因果能解释得了的。冥冥之中,我们就是会回归平均,没有理由。当然,这其中还有很多复杂的研究思考,咱们在这就不展开说了。

    其实,不管到底是什么力量,导致了回归平均。它都指向一个事实,那就是,父亲的身高,并不能百分百决定孩子的身高。上一代,并不能决定下一代。它们存在一定的关联,但不存在绝对的因果。高尔顿把这种关系称为,相关性。这就是相关性这个概念的起源。


    这个例子也就是说从原因到结果,他并不能完全对应,比如沙漏的沙子,基因遗传等都在呈现正态分布这样的状态,它不能用因果关系来解释,在这里因果关系不能完全被证实,所以科学界不承认因果关系是客观存在的。最后用身高这个事也可以说明在自然界中,相关性是存在的,科学家也承认相关性是存在的。

    我个人观点认为因果关系是相关性中的一部分,就是最相关的那一个或多个原因,促使了结果的发生。也就是说因果关系是相关关系的一个特例。

     

    2.因果关系是什么

    得到原文:


    他认为,要想说明白因果,得先把主观和客观,这两个维度分开看。在他看来,因果,其实是一种人类的主观思维方式。也就是,当我们观察到一些客观事实之后,就会主观的建立起因果联系。至于客观世界,也许不是按照因果规律运转的,就是只有相关,没有因果。但是,人类认知这个世界的方式,却是通过建立因果关系。比如你吃完一个馒头之后,你确定,只要再吃几个,你就会饱。但是,事实上,你并没有吃到后面的馒头,这只是你的猜测。为什么会产生这个猜测?因为你在无形中建立了一种因果关系,觉得是吃馒头这个原因,导致了你吃饱这个结果。所以你确定,只要再吃几个馒头,你就会饱。你看,即使是再简单不过的一次思考,我们就已经调用了因果关系。

    换句话说,不管客观世界存不存在因果关系,我们主观上都离不开因果这个思考方式。

    第一,开头说过,因果关系其实反映了一种超越经验的思考能力。第二,因果关系是一种主观建立的思考方式。


    上文最后详细说明了因果是什么,使我们认知世界的方式,是一种思维方式,反映了思维能力。而且我认为有着因果思维能力对人的帮助是意义重大,所以强化思维能力,找到增强因果思维的关键点就极其重要,这也是本篇所写的意义。

     

    二、借用科学智慧、完善科学思维

    1.找到更多导致结果的重要原因

    得到原文:


    第一个故事,是我们都很熟悉的神话,后羿射日。说的是,天上有九个太阳,庄稼热得寸草不生,人也快热死了。怎么办?一个叫后羿的人,用一把大弓,射下了八个太阳。当然,我们都知道这个故事是虚构的。但是,我希望你注意的是,我们在构思这个故事的时候,使用的因果模型。那就是,当天上有九个太阳,这个原因,会导致什么结果?答案很明显,那就是热。

    第二个故事,来自于著名的小说《三体》。说的是,在遥远的外星系,有三个太阳。这三个太阳在万有引力的作用下,彼此吸引,做出了无穷无尽的不规则运动。这个运动没有任何规律。人类根本算不出来。它已经超过了人类目前的数学极限。注意,在这个故事里,我们的因果模型已经变了。我们已经意识到,用不了九个太阳,只要有三个,它们的运动规律,就已经超过了人类的数学极限。

    你看,在后羿射日的故事里,我们建立因果模型时,只考虑到了,热这一个因素。因为在人们编这个故事的时候,还没有发现万有引力。但是,在《三体》的故事里,人们已经意识到,万有引力的存在。所以,我们也意识到,三个太阳带来的不仅仅是热,还有人类无法预测的不规则运动。

    当然,这个因果模型也不一定准确。没准未来的某一天,人们又发现了万有引力之外的新规则。我想说明的是,这个世界同时存在很多不同维度的规则,比如热力、万有引力、能量守恒,等等。你能察觉到的规则越多,越关键,你的因果模型就越准确。


    在这里我觉得这个例子没什么用,整段在说明“你能察觉到的规则越多,越关键,你的因果模型就越准确。”,但问题不是我们要知道去找影响结果的规则,而是我们要怎么去找到影响结果的重要因素呢?有什么方法论?需要掌握哪些重要的思维和知识呢?

     

    2.寻找混杂因子:辛普森悖论

    得到原文:


    有一名叫辛普森的医生,发现了一种新药, 可以降低心脏病发作的风险。

    这种药的的实验数据显示,男性患者服用后,心脏病发作风险反而变得更高。女性服用后,心脏病发作的风险也变高了。但综合男女数据后的结果显示,却可以降低心脏病发作的风险。

    你会相信吗?

     

    在对照组,女性喝药前得病概率5%,喝药后得病概率升高到7.5%。男性喝药前得病概率30%,喝药后得病概率升高到40%。而考虑男女性别后的60个人的样本后,喝药前得病概率21.67%,喝药后得病概率则降低到18.33%。

    为什么?

    在这个实验中,喝不喝药是原因,得没得病是结果,那是什么因素,在干扰原因和结果呢?

    在对照组中,男性比女性多,而在处理组男性比女性少,影响的是性别。

    性别这个因素就是混杂因子,也叫后门路径,就是在“喝不喝药是原因,得没得病是结果”这一因果链条中,偷偷开启了一个后门,从后门遛进来,干扰了因果关系。

    混杂因子找到了,如何对它进行干预呢?

    那就是,不能把混杂因子-性别,直接加起来,一定要分开计算。也就是说,你不能把男女的人数直接加起来计算,而是要分别计算男女各自的得病概率。这样就排除了混杂因子的干扰。

    在这个例子中,女性喝药前得病概率5%,男性喝药前得病概率30%,对男女整体而言,得病概率为17.5[(5%+30%)/2]。女性喝药后得病概率7.5%,男性喝药前得病概率40%,对男女整体而言,得病概率为23.75[(7.5%+40%)/2]。

    这表明,这个药对女性有害,对男性也有害,对人类也有害。

    这个例子就是著名的辛普森悖论。


    在上面的例子中,说混杂因子,这个混杂因子到底是什么呢?其实混杂因子就是在处理组和对照组之间除了喂不喂药之外,还有男女比例这个因素不同,而男女比例之间患病率不同,这个因子导致了结果的不正确,这东西就是混杂因子。最后是怎么得到的正确结论呢?它把男女比例患病率不同这个因子删除了,造出了男女综合来看患病率这个因子,就把那个作妖的因素去除掉了。

     

    3.寻找中介因素

    得到原文:


    举个例子,在几百年前的航海时代,船员经常得坏血病,最终可能导致死亡。当时的人猜测,这可能跟饮食有关,因为海上没有新鲜的蔬菜和水果。18世纪,苏格兰海军发现,服用柠檬能预防坏血病。好,这就得出了一个因果模型,柠檬是原因,预防坏血病是结果。

    当时,本来给船员吃的是西班牙柠檬,后来发现,西印度柠檬更便宜。为了节省成本,就换成了西印度柠檬。同时,为了防止变质,人们还把柠檬榨成汁,煮熟了带上船。结果,坏血病大面积爆发。你看,这个因果模型,被颠覆了。显然,柠檬并不是预防坏血病的原因。直到20世纪初,人们才弄明白,真正对坏血病有预防作用的,是柠檬里的维生素C。而西印度柠檬的维生素C含量只有西班牙柠檬的四分之一。而且柠檬汁煮熟后,这些仅存的维生素C也被破坏掉了。

    在这个故事里,维生素C,就是中介因素。是吃柠檬导致了吃进维生素C,而吃了维生素C,又导致了预防坏血病。

    换句话说,找到中介因素,是建立因果模型的关键。假如你的因果模型不能被反复验证,你就要考虑,是不是忽略了中介因素。


    寻找中介因素在我看来就是寻找导致结果发生的根本原因,柠檬不是预防坏血病的根本原因,为什么,因为柠檬里面有很多成分,就单单说柠檬太泛了,太表面了,根本就没有沉下心往里面钻,找到真正原因。看似吃柠檬,然后坏血病好了,其实这是一条伪装的逻辑链条,不能真正的扣在一起。所以给我的启发是遇到问题,就要沉下心去一点点的找到最本质的原因,然后去解决就好了。

     

    3.1找到最本质原因的方法论

    5why分析法:即当遇到问题的时候一直反推,例如:为什么柠檬能够预防坏血病呢? 因为里面有维生素C 。 那为什么维生素C能够预防坏血病呢?。。。。。。

    一直问下去,直到问到再往下问没有任何意义的地步,就能够更好的找到本质原因。

    还有一个口诀有助于培养自己的逻辑思维(当遇到问题,默念):“这只是手段,不是目的;这只是现象,不是本质。”

    展开全文
  • 关注微信公众号“算法岗从零到无穷”,后台回复“为什么”,免费领取本书 关注微信公众号“算法岗从零到无穷”,更多算法知识点告诉你。

    关注微信公众号“算法岗从零到无穷”,后台回复“为什么”,免费领取本书
    “”

    关注微信公众号“算法岗从零到无穷”,更多算法知识点告诉你。
    在这里插入图片描述

    展开全文
  • 贝叶斯网络之父Judea Pearl 力作 相关不因果,冰淇淋销量上升时淹死的人也多,他们之间只有相关性,没有因果关系 我们对简单的因果关系应对自如,但是在现代社会的复杂世界里,有时候建立因果关系非常困难
  • 为什么因果关系的新科学》(The Book of Why: The New Science of Cause and Effect)是今年3月刚出版的新书,作者是一位传奇人物,81岁的计算机科学家和哲学家朱迪亚·珀尔(Judea Pearl)。 这本书的主题是在...
  • 因果关系是现代科学建立的基石,而科学研究则以探寻事物的因果关系为根本任务。在实践中,无论是获取因果关系还是用因果关系解释事物之间的联系,都存在着极大的困难。大数据时代的到来,相关关系的获取提供了极大的...
  • (来源:《为什么关于因果关系的新科学》马雅·哈雷尔绘图)   2016年,2016年3月,AlphaGo 以4比1的成绩战胜了多年来被认为是最强的人类顶尖围棋高手李世石,震惊了世界,很多人顿时对人工智能的发展燃起无数畅想,...
  • 关于因果关系的一些参考资料,包括论文等,然后就是我自己做的演示用的PPT,尽管内容大都来自参考资料
  • 因果关系和相关关系 大数据Let’s jump into it right away. 让我们马上进入。 相关性 (Correlation) Correlation means relationship and association to another variable. For example, a movement in one ...
  • 科学的困惑与疆界

    2018-09-30 16:46:19
    科学的困惑与疆界
  • (总第334期)Samantha KleinbergCausality,Probability andTime2013HardbackP—ISBN978 1】07026483CAMBRIDGEUNIVERSITY PRESS因果关系,概率和时间Samantha Kleinberg 著因果关系无论是在普通生活中还是在科学领域...
  • 统计学 相关性 因果You might remember this simple mantra from your statistics ..."Correlation does not imply causation." “相关并不意味着因果关系。” So maybe you think you know what this phrase me...
  • 格兰杰因果关系在经济学和生物学领域已有广泛的应用,其在计算过程中要求变量的个数远远小于时间序列的长度.为了解决实际应用中“维数灾难”的难题,把格兰杰因果关系法应用到复杂网络中.首先,利用两变量格兰杰因果...
  • 因果关系的判断?

    千次阅读 2020-06-29 15:56:45
    最简单的方法是从相关性,先后顺序,排除干扰因素三个方面下手 ...所以可以看出,判断因果其实是个逻辑过程。 ----------------------------------------------------------------------------------------------
  • 这个工具箱由萨克勒意识科学中心开发, 英国萨塞克斯大学提供 MATLAB 例程以实现高效准确多元格兰杰因果关系的估计和统计推断时间序列数据,如下所述: Lionel Barnett 和 Anil K. Seth,“MVGC 多元格兰杰因果关系...
  • 两个主要函数 CP_PI_CrossPrediction 和 CP_PI_PredictabilityImprovement 计算配置文件中定义的所有参数的时间序列 x, y 之间的因果关系度量。 配置文件包括 L - 要预测的时间序列元素的数量n - 流形中寻找邻居的...
  • 主题状态最新版本Python Version master分支构建生成分支生成文档生成主题状态最新版本Python Version master分支构建分支生成文档生成什么是...它有助于简化步骤:学习因果结构,允许领域专家扩大关系,估计潜在影响
  • 传送门:相关与因果的相爱相杀——新书《为什么因果关系的新科学》解读(上)相关与因果的相爱相杀——新书《为什么因果关系的新科学》解读(下)4.判断力层级这节的内容由1个基本问题和6个层次的看法组成,即你...
  • 主题 状态 ... CausalNex建立在我们的集体经验基础上,利用贝叶斯网络来识别数据中的因果关系,以便我们可以从分析中开发正确的干预措施。 我们开发CausalNex的原因是: 我们相信,与基于模式识别
  • Stuff Happens: Understanding Causation in Policy and Strategy》里面提出了判断因果关系的四种思维模型,很有借鉴意义。我简单翻译编...
  • 本文根据刘易斯的可能世界语义提出了因果关系的反事实解释,并使用反事实条件重新制定了统计潜在结果框架及其基本假设。 我针对有限数量的治疗讨论了各种具有因果意义的反事实,并使用一个简单的集合理论框架来说明...
  • 来源:集智俱乐部本文约3500字,建议阅读8分钟本文尝试整理近年来关于因果推断的代表性研究,梳理出几个典型的探索方向。[ 导读]自从休谟喊出“因果是人类的错觉”,科学家就再也停不下对因...
  • 研究了 Granger因果关系检验在小样本下的适用性。采用 Monte Carlo模拟方法,以 1阶滞后模型例,对其可能的 27种数据生成过程进行模拟。从变量的平稳性、样本容量的大小、变量依存关系的显著性等方面,对其性质和适用...
  • 令人敬畏的因果关系因果关系有关的资源。 这份很棒的清单与其他清单不同,因为它试图在不同类别下的一个地方编译与因果关系相关的主要资源。 注意:这个很棒的清单仍然是新清单,并且正在开发中。 在分享价值...
  • 格兰杰因果关系检验的结论是一种统计估计,它先假设时间序列之间没有因果关系, 然后检验能否否定,如果能否定这个检验,那么这就可以验证这份时间序列数据对想要预测的目标是有效的。 目标使用b预测a,a是要得出...
  • 若要侵权人承担责任,则因果关系认定是必不可少的。在不作为侵权责任中,因果关系认定尤显困难。根据是否有介入因素、介入因素之不同,可分为三种情形:一是不存在自然力或第三人行为介入的情形下,不作为与损害后果...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,716
精华内容 5,486
关键字:

为什么关于因果关系的科学