因果推断简介之四:观察性研究,可忽略性和倾向得分

这节采用和前面相同的记号。$Z$ 表示处理变量($1$ 是处理,$0$ 是对照),$Y$ 表示结果,$X$ 表示处理前的协变量。在完全随机化试验中,可忽略性 $Z \bot \{Y(1), Y(0)\} $ 成立,这保证了平均因果作用 $ACE(Z\rightarrow Y) = E\{Y(1) – Y(0)\} = E\{Y\mid Z=1\} – E\{Y\mid Z=0\}$ 可以表示成观测数据的函数,因此可以识别。在某些试验中,我们“先验的”知道某些变量与结果强相关,因此要在试验中控制他们,以减少试验的方差。在一般的有区组(blocking)的随机化试验中,更一般的可忽略性 $Z \bot \{Y(1), Y(0)\} | X$ 成立,因为只有在给定协变量 $ X $ 后,处理的分配机制才是完全随机化的。比如,男性和女性中,接受处理的比例不同,但是这个比例是事先给定的。

在传统的农业和工业试验中,由于随机化,可忽略性一般是能够得到保证的;因此在这些领域谈论因果推断是没有太大问题的。Jerzy Neyman 最早的博士论文,就研究的是农业试验。但是,这篇写于 1923 年的重要统计学文章,迟迟没有得到统计学界的重视,也没有人将相关方法用到社会科学的研究中。1970 年代,Donald Rubin 访问 UC Berkeley 统计系,已退休的 Jerzy Neyman 曾问起:为什么没有人将潜在结果的记号用到试验设计之外?正如 Jerzy Neyman 本人所说 “without randomization an experiment has little value irrespective of the subsequent treatment(没有随机化的试验价值很小)”,人们对于观察性研究中的因果推断总是抱着强烈的怀疑态度。我们经常听到这样的声音:统计就不是用来研究因果关系的!

在第一讲 Yule-Simpson 悖论的评论中,有人提到了哲学(史)上的休谟问题(我的转述):人类是否能从有限的经验中得到因果律?这的确是一个问题,这个问题最后促使德国哲学家康德为调和英国经验派(休谟)和大陆理性派(莱布尼兹-沃尔夫)而写了巨著《纯粹理性批判》。其实,如果一个人是绝对的怀疑论者(如休谟),他可能怀疑一切,甚至包括因果律,所以,康德的理论也不能完全“解决”休谟问题。怀疑论者是无法反驳的,他们的问题也是无法回答的。他们存在的价值是为现行一切理论起到警示作用。一般来说,统计学家不会从过度哲学的角度谈论问题。从前面的说明中可以看出,统计中所谓的“因果”是“某种”意义的“因果”,即统计学只讨论“原因的结果”,而不讨论“结果的原因”。前者是可以用数据证明或者证伪的;后者是属于科学研究所探索的。用科学哲学家卡尔·波普的话来说,科学知识的积累是“猜想与反驳”的过程:“猜想”结果的原因,再“证伪”原因的结果;如此循环即科学。

下面谈到的是,在什么样的条件下,观察性研究也可以推断因果。 这是一切社会科学所关心的问题。答案是:可忽略性,即 $  Z\bot \{ Y(1), Y(0) \} | X $。在可忽略性下,$ACE$ 可以识别,因为

\begin{eqnarray*}
ACE&=& E(Y(1)) – E(Y(0))\nonumber\\&=& E[E(Y(1) \mid X)] – E[E(Y(0)\mid X)]\nonumber\\&=& E[E(Y(1)\mid X, Z=1)] – E[E(Y(0)\mid X, Z=0)]\nonumber\\&=& E[E(Y\mid X,Z=1)] – E[E(Y\mid X,Z=0)].
\end{eqnarray*}

 

从上面的公式来看,似乎我们的任务是估计两个条件矩 $ E\{  Y\mid  X, Z=z\} (z=0,1).$ 这就是一个回归问题。不错,这也是为什么通常的回归模型被赋予“因果”含义的原因。如果我们假定可忽略性和线性模型 $E\{Y\mid X, Z\}  = \beta_0 + \beta_x X + \beta_z Z$ 成立,那么$ \beta_z $ 就表示平均因果作用。线性模型比较容易实现,实际中人们比较倾向这种方法。但是他的问题是:(1)假定个体因果作用是常数;(2)对于处理和对照组之间的不平衡(unbalance)没有很好的检测,常常在对观测数据外推(extrapolation)。

上面的第二条,是线性回归最主要的缺陷。在 Donald Rubin 早期因果推断的文献中,推崇的方法是“匹配”(matching)。一般来说,我们有一些个体接受处理,另外更多的个体接受对照;简单的想法就是从对照组中找到和处理组中比较“接近”的个体进行匹配,这样得出的作用,可以近似平均因果作用。“接近”的标准是基于观测协变量的,比如,如果某项研究,性别是唯一重要的混杂因素,我们就将处理组中的男性和对照组中的男性进行匹配。但是,如果观测协变量的维数较高,匹配就很难实现了。现有的渐近理论表明,匹配方法的收敛速度随着协变量维数的增高而线性的衰减。

后来 Paul Rosenbaum 到 Harvard 统计系读 Ph.D.,在 Donald Rubin 的课上问到了这个问题。这就促使两人合作写了一篇非常有名的文章,于 1983 年发表在 Biometrika 上:“The central role of the propensity score in observational studies for causal effects”。倾向得分定义为 $ e(X) = P(Z=1\mid X) ,$ 容易验证,在可忽略性下,它满足性质 $ Z\bot X|e(X) $ (在数据降维的文献中,称之为“充分降维”,sufficient dimension reduction) 和 $Z\bot \{Y(1), Y(0)\}|e(X)$(给定倾向得分下的可忽略性)。 根据前面的推导,显然有 $ ACE = E[E(Y\mid e(X),Z=1)] – E[E(Y\mid e(X),Z=0)] $。此时,倾向得分是一维的,我们可以根据它分层 (Rosenbaum 和 Rubin 建议分成 5 层),得到平均因果作用的估计。连续版本的分层,就是下面的加权估计:  $$ACE = E\{Y(1) \}- E\{ Y(0) \}  = E\left\{   \frac{ZY}{e(X)}  \right\}  – E\left\{   \frac{(1-Z)Y}{  1 – e(X)} \right\}.$$ 不过,不管是分层还是加权,第一步我们都需要对倾向得分进行估计,通常的建议是 Logistic 回归。甚至有文献证明的下面的“离奇”结论:使用估计的倾向得分得到平均因果作用的估计量的渐近方差比使用真实的倾向得分得到的小。

熟悉传统回归分析的人会感到奇怪,直接将 $ Y $ 对 $  Z $ 和 $  X $ 做回归的方法简单直接,为何要推荐倾向得分的方法呢?确实,读过 Rosenbaum 和 Rubin 原始论文的人,一般会觉得,这篇文章很有意思,但是又觉得线性回归(或者 logistic 回归)足矣,何必这么复杂?在因果推断中,我们应该更加关心处理机制,也就是倾向得分。按照 Don Rubin 的说法,我们应该根据倾向得分来“设计”观察性研究;按照倾向得分将人群进行匹配,形成一个近似的“随机化试验”。而这个设计的过程,不能依赖于结果变量;甚至在设计的阶段,我们要假装没有观察到结果变量。否则,将会出现如下的怪现象:社会科学的研究者不断地尝试加入或者剔除某些回归变量,直到回归的结果符合自己的“故事”为止。这种现象在社会科学中实在太普遍了!结果的回归模型固然重要,但是如果在 $ Y $ 模型上做文章,很多具有“欺骗性”的有偏结果就会出现在文献中。这导致大多数的研究中,因果性并不可靠。

讲到这里,我们有必要回到最开始的 Yule-Simpson’s Paradox。用 $Z$ 表示处理($1$ 表示处理,$ 0 $ 表示对照),$ Y $ 表示存活与否($ 1 $ 是表示存活,$ 0  $ 表示死亡),$ X $ 表示性别($ 1 $ 表示男性,$ 0 $ 表示女性)。目前我们有处理“因果作用”的两个估计量:一个不用性别进行加权调整

\begin{eqnarray*}
\widehat{ACE}_{unadj} &=& \widehat{P} (Y = 1\mid Z=1) – \widehat{P}(Y=1\mid Z=0) \\
&=& 0.50 – 0.40 = 0.10 > 0 .
\end{eqnarray*}

另一个用性别进行加权调整(由于此时协变量是一维的,倾向得分和协变量本身存在一一对应,用倾向得分调整结果相同,见下面问题 1)

\begin{eqnarray*}
&&\widehat{ACE}_{adj} \\
&=& \{ \widehat{P}(Y = 1\mid Z=1, X=1 ) – \widehat{P}(Y = 1\mid Z=0, X=1 ) \} \widehat{P}(X=1) \\
&& +  \{ \widehat{P}(Y = 1\mid Z=1, X=0 ) – \widehat{P}(Y = 1\mid Z=0, X=0 ) \} \widehat{P}(X=0) \\
&=& (0.60 – 0.70)\times 0.5 + (0.20 – 0.30)\times 0.5\\
&=& -0.10<0.
\end{eqnarray*}

其中,$ \widehat{\cdot} $ 表示相应的矩估计。 是否根据性别进行调整,对结果有本质的影响。当 $ Z \bot \{Y(1), Y(0)\} $ 时, 第一个估计量是因果作用的相合估计;当 $ Z \bot \{Y(1), Y(0)\}|X $ 时,第二个估计量是因果作用的相合估计。根据实际问题的背景,我们应该选择哪个估计量呢?到此为止,回答这个问题有些似是而非(选择调整的估计量?),更进一步的回答,请听下回分解:因果图(causal diagram)。

作为结束,留下如下的问题:

  1. 如果 $X$ 是二值的变量(如性别),那么匹配或者倾向的分都导致如下的估计量:$  ACE = \sum\limits_{x=0,1}  \left[ E\{Y\mid Z=1, X=x\} – E\{ Y\mid Z=0, X=x\} \right] P(X=x) . $ 这个公式在流行病学中非常基本,即根据混杂变量进行分层调整。在后面的介绍中将讲到,这个公式被 Judea Pearl 称为“后门准则”(backdoor criterion)。
  2. 倾向得分的加权形式,  $ACE = E\{Y(1) \}- E\{ Y(0) \}  = E\left\{   \frac{ZY}{e(X)}  \right\}  – E\left\{   \frac{(1-Z)Y}{  1 – e(X)} \right\},$ 本质上是抽样调查中的 Horvitz-Thompson 估计。在流行病学的文献中,这样的估计量常被称为“逆概加权估计量”(inverse probability weighting estimator; IPWE)。
  3. 直观上,为什么估计的倾向得分会更好?想想偏差和方差的权衡(bias-variance tradeoff)。

 

*关于“可忽略性”(ignorability),需要做一些说明。在中文翻译的计量经济学教科书中,这个术语翻译存在错误,比如 Wooldridge 的 Econometric Analysis of Cross Section and Panel Data 的中译本中,“可忽略性”被翻译成“不可知”。子曰:“名不正,则言不顺;言不顺,则事不成。”在 Rubin (1978) 中,“可忽略性”这个概念是在贝叶斯推断的框架下提出来的:当处理的分配机制满足这样的条件时,在后验的推断中,可将分配机制“忽略”掉。在传统的贝叶斯看来,所有的推断都是条件在观测数据上的,那么为什么处理的分配机制会影响贝叶斯后验推断呢?Donald Rubin 说,当时连 Leonard Jimmie Savage 和 Dennis Victor Lindley 都在此困惑不解,他 1978 年的文章,原意就是为了解释为什么随机化会影响贝叶斯推断。

*“可忽略性” 这个名字最早是在缺失数据的文献中提出来的。当缺失机制是随机缺失(missing at random:MAR)且模型的参数与缺失机制的参数不同时,缺失机制“可忽略”(ignorable)。“可忽略”是指,缺失机制不进入基于观测数据的似然或者贝叶斯后验分布。

参考文献:

  1. Rosenbaum, P. R. and Rubin, D. B. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55.
  2. Rubin, D. B. (1976) Inference and missing data (with discussion). Biometrika, 63, 581-592.
  3. Rubin, D. B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-58.
  4. Wooldridge, J. M. (2002) Econometric analysis of cross section and panel data. The MIT press.

 

 

因果推断简介之四:观察性研究,可忽略性和倾向得分》有30个想法

  1. 统计可以是良药,也可以是毒药。好孩纸看见这篇文章可以去事后分层,让观察性研究变得像随机化试验;坏孩纸也可以去吭哧吭哧选择特定的协变量,想方设法让Y(1)和Y(0)有所谓的显著差异。

    1. 说得在理。所以,我对那些黑箱子似的方法或者统计软件保持高度的警惕。统计要解决问题,最后还是要回答实际问题本身,把统计推断的方法改进得更加的复杂或者精细,似乎倒在次要。

      按照你的说法,大部分社会科学的研究者都是“坏孩子”。

      1. 虽然我自己也是试图建黑箱子的和试图打开被人作的黑箱子,我还是很同意丁鹏的说法:“我对那些黑箱子似的方法或者统计软件保持高度的警惕。统计要解决问题,最后还是要回答实际问题本身,把统计推断的方法改进得更加的复杂或者精细,似乎倒在次要。”

        倒是不太同意”大部分社会科学的研究者都是’坏孩子‘。“ 的论断。我看到的很多社会科学的研究者还是很用心的去相让”让观察性研究变得像随机化试验“,但是实践中有太多的限制条件没法克服。

      2. 也是,不能一句话把社会科学打死了。其实很多做经济学、社会学和政治科学的人,统计的功底都非常的好。

        我会努力加一些其他人的观点。比如因果图,工具变量等等。如果有可能,也会讨论 James Heckman,David Freedman,James Robins 等人的观点。不过,有时候不知道从哪里讲起,就采用了我自己觉得能够一以贯之的术语和观点。

    2. 再回到黑箱子上,我个人感觉大多数做”黑箱子“时压根就没有想去做因果关系分析,也没有心情关心因果关系,因为数据收集过程就没有经过设计。大多数黑箱子要解决的还是预测问题,

      简单的 ”X 导致 Y “ 在有些复杂的实际问题中本身意义就不大,因为我们没法控制其他 A, B, C, D, E, …,相反,找到一个合适的 A, B, … , X 的组合更有实际效果。

      但既然方法提出了,总有好事者船载已入,就想用这些方法来做其他事,比如因果关系。

    3. 挺喜欢丁鹏写这个系列的。能否在系列快结束时也加入些多样化的观点,比如评论一下 David Freedman 的 最后一本书:
      Statistical Models and Causal Inference, A dialogue with the Social Sciences. 摘选两句:
      “Causal inferences can be drawn from nonexperimental data. However, no mechanical rules can be laid down for the activity. Since Hume, that is almost truism. Instead, causal inference seems to require an enormous investment of skill, intelligence, and hard work.”…

      “Naturally, there is a desire to substitute intellectual capital for labor. That is why investigators try to based causal inference on statistical models”

    1. 是的。数学可以用定义-定理似的方式推理下去。但是哲学用日常的语言进行定义和推理,每一步都有“误差”,多推几步常常都不靠谱了。

  2. “按照 Don Rubin 的说法,我们应该根据倾向得分来“设计”观察性研究;按照倾向得分将人群进行匹配,形成一个近似的“随机化试验”。而这个设计的过程,不能依赖于结果变量;甚至在设计的阶段,我们要假装没有观察到结果变量。”

    事后随机化的理念对于许多医学研究非常重要啊!

  3. 文中貌似有个小笔误。ACE_unadj和ACE_adj估计式后,貌似应该是Z indept of {Y(0),Y(1)}及 Z indept of {Y(0),Y(1)}|X

  4. 刚开始接触因果推断,有个小问题没太明白,“原因的结果”和“结果的原因”有什么不同呢?

      1. 我的粗暴理解是:原因的结果是讨论发生一件事情会导致什么事情,而结果的原因是一件事情发生了去回溯这个事情产生的原因。

      1. 之前想简单提一下,现在突然想多说几句。。。呵呵

  5. 最好用简单的语言描述一下,那些公式我基本上看不懂哎

  6. 之前看了PDF版本的丁鹏写的因果推断简介,讲到“从经验似然的角度指出了另一种加权方法,是一种逆概加权的估计”。但对于逆概加权没有详细的说明,想知道这个是怎么回事?

    1. 我之前写的版本是在北大统计系的一个讨论课上讲的,所以用了一些很数学化的统计术语。“经验似然”之类,在这里没有本质的关系,不太想牵涉太多。数学定理证明,逆概加权能够达到半参数有效的界;但是现实中,由于权重可能接近0和1,导致整个估计量相当的不稳定—-几乎是无用的。而相反,分层的方法不能达到半参数有效的界,但没有数值上不稳定的缺点,也被广泛采用。

  7. 各位统计学牛人, 能不能多搞点统计学科普知识啊, 多讲一点跟统计学相关的人和故事, 统计思想, 统计方法和制度等等, 少点数学公式和R代码. 统计之都很多文章都包含很强的技术性, 感觉基础不扎实的同学可能比较难理解

  8. 求问。
    如果经济学里面说一个model 被 correctly identified 是说parameters are consistently estimated? i.e. y_{it} = x’_{it} beta + epsilon_{it}, 里面的beta被consistently estimated嘛?

    if yes 那么这个只说明了y,x 之间的correlation对不对?

  9. 还有一个问题~
    unconfoundedness, selection on observables and conditional independence 说的是一件事嘛? 有没有将这些概念的书能推荐一下呢?
    谢谢~

  10. 丁老师您好,
    您的这一系列挺不错的,我这几天才开始狂看因果的文章(国外的),想做因果和黑箱智能算法结合的项目,而且我自己的研究应用方向是中医药数据的,也教《医学统计学》。之前看了一堆英文的,再看看您这堆中文的。感觉挺有意思的,好像在补 回历史和哲学方面东东。请问您的邮箱是多少?我有挺多问题,想跟您讨论的

  11. 想问一下,首先对于一个因果推断问题,如何能辨别一个因素是否为混杂因素?这方面的方法主要有什么
    第二,如果是混杂因素,如何进行处理,来消除bias?这方面的方法主要有什么
    第三 如果混杂因素过多,如何处理呢?
    可不可以才用目前机器学习的方法,来解决上述问题?

  12. 线性模型的问题这句话没有很懂(2)对于处理和对照组之间的不平衡(unbalance)没有很好的检测,常常在对观测数据外推(extrapolation)。

发表评论

邮箱地址不会被公开。 必填项已用*标注