标签归档:随机化试验

因果推断简介之四:观察性研究,可忽略性和倾向得分

这节采用和前面相同的记号。$Z$ 表示处理变量($1$ 是处理,$0$ 是对照),$Y$ 表示结果,$X$ 表示处理前的协变量。在完全随机化试验中,可忽略性 $Z \bot \{Y(1), Y(0)\} $ 成立,这保证了平均因果作用 $ACE(Z\rightarrow Y) = E\{Y(1) – Y(0)\} = E\{Y\mid Z=1\} – E\{Y\mid Z=0\}$ 可以表示成观测数据的函数,因此可以识别。在某些试验中,我们“先验的”知道某些变量与结果强相关,因此要在试验中控制他们,以减少试验的方差。在一般的有区组(blocking)的随机化试验中,更一般的可忽略性 $Z \bot \{Y(1), Y(0)\} | X$ 成立,因为只有在给定协变量 $ X $ 后,处理的分配机制才是完全随机化的。比如,男性和女性中,接受处理的比例不同,但是这个比例是事先给定的。

在传统的农业和工业试验中,由于随机化,可忽略性一般是能够得到保证的;因此在这些领域谈论因果推断是没有太大问题的。Jerzy Neyman 最早的博士论文,就研究的是农业试验。但是,这篇写于 1923 年的重要统计学文章,迟迟没有得到统计学界的重视,也没有人将相关方法用到社会科学的研究中。1970 年代,Donald Rubin 访问 UC Berkeley 统计系,已退休的 Jerzy Neyman 曾问起:为什么没有人将潜在结果的记号用到试验设计之外?正如 Jerzy Neyman 本人所说 “without randomization an experiment has little value irrespective of the subsequent treatment(没有随机化的试验价值很小)”,人们对于观察性研究中的因果推断总是抱着强烈的怀疑态度。我们经常听到这样的声音:统计就不是用来研究因果关系的!

在第一讲 Yule-Simpson 悖论的评论中,有人提到了哲学(史)上的休谟问题(我的转述):人类是否能从有限的经验中得到因果律?这的确是一个问题,这个问题最后促使德国哲学家康德为调和英国经验派(休谟)和大陆理性派(莱布尼兹-沃尔夫)而写了巨著《纯粹理性批判》。其实,如果一个人是绝对的怀疑论者(如休谟),他可能怀疑一切,甚至包括因果律,所以,康德的理论也不能完全“解决”休谟问题。怀疑论者是无法反驳的,他们的问题也是无法回答的。他们存在的价值是为现行一切理论起到警示作用。一般来说,统计学家不会从过度哲学的角度谈论问题。从前面的说明中可以看出,统计中所谓的“因果”是“某种”意义的“因果”,即统计学只讨论“原因的结果”,而不讨论“结果的原因”。前者是可以用数据证明或者证伪的;后者是属于科学研究所探索的。用科学哲学家卡尔·波普的话来说,科学知识的积累是“猜想与反驳”的过程:“猜想”结果的原因,再“证伪”原因的结果;如此循环即科学。

继续阅读因果推断简介之四:观察性研究,可忽略性和倾向得分

因果推断简介之二:Rubin Causal Model (RCM)和随机化试验

因果推断用的最多的模型是 Rubin Causal Model (RCM; Rubin 1978) 和 Causal Diagram (Pearl 1995)。Pearl (2000) 中介绍了这两个模型的等价性,但是就应用来看,RCM 更加精确,而 Causal Diagram 更加直观,后者深受计算机专家们的推崇。这部分主要讲 RCM。

设  $Z_i$ 表示个体 $i$ 接受处理与否,处理取 $1$,对照取$0$ (这部分的处理变量都讨论二值的,多值的可以做相应的推广);$Y_i$ 表示个体 $i$ 的结果变量。另外记 $ \{  Y_i(1),Y_i(0)\}  $ 表示个体 $i$ 接受处理或者对照的潜在结果 (potential outcome),那么 $Y_i(1) -Y_i(0)$  表示个体 $i$  接受治疗的个体因果作用。不幸的是,每个个体要么接受处理,要么接受对照 $\{Y_i(1),Y_i(0)\} $ 中必然缺失一半,个体的因果作用是不可识别的。观测的结果是 $ Y_i = Z_i Y_i(1) + (1 – Z_i) Y_i(0)  $。 但是,在 $Z$ 做随机化的前提下,我们可以识别总体的平均因果作用 (Average Causal Effect; ACE):

$$
ACE(Z\rightarrow Y) = E\{Y_i(1) – Y_i(0)\}
$$

这是因为
$$
\begin{eqnarray*}
ACE(Z \rightarrow Y) & = & E\{Y_i(1)\} -E\{Y_i(0)\} \\
& = & E\{Y_i(1) \mid Z_i =1\}  -E\{Y_i(0)\mid Z_i=0\} \\
& = & E\{Y_i \mid Z_i =1\} – E\{Y_i \mid Z_i=0\}
\end{eqnarray*}
$$
最后一个等式表明 $ACE$ 可以由观测的数据估计出来。其中第一个等式用到了期望算子的线性性(非线性的算子导出的因果度量很难被识别!);第二个式子用到了随机化,即 $$Z\bot\{Y(1),Y(0)\} $$ 其中, $\bot$ 表示独立性。由此可见,随机化试验对于平均因果作用的识别起着至关重要的作用。

当 $ Y $ 是二值的时候,平均因果作用是流行病学中常用的“风险差”(risk difference; RD):
$$
\begin{eqnarray*}
CRD(Z\rightarrow Y)  & = & P(Y(1) = 1)  –  P(Y(0)=1) \\
& = & P(Y=1\mid Z=1) – P(Y=1\mid Z=0)
\end{eqnarray*}
$$

当然,流行病学还常用“风险比”(risk ratio; RR):
$$
\begin{eqnarray*}
CRR(Z \rightarrow Y) & = & \frac{P(Y(1) = 1)}{P(Y(0)=1)}\\
& = & \frac{P(Y=1\mid Z=1)}{P(Y=1\mid Z=0)}
\end{eqnarray*}
$$

和“优势比”(odds ratio; OR):
$$
\begin{eqnarray*}
COR(Z \rightarrow Y) & = & \frac{P(Y(1) = 1)P(Y(0)=0) }{P(Y(0)=1)P(Y(1)=0) } \\
& = & \frac{P(Y=1\mid Z=1)P(Y=0\mid Z=0)}{P(Y=1\mid Z=0) P(Y=0\mid Z=1)}
\end{eqnarray*}
$$

上面的记号都带着“C”,是为了强调“causal”。细心的读者会发现,定义 CRR 和 COR 的出发点和 ACE 不太一样。ACE 是通过对个体因果作用求期望得到的,但是 CRR 和 COR 是直接在总体上定义的。这点微妙的区别还引起了不少人的研究兴趣。比如,经济学中的某些问题,受到经济理论的启示,处理的作用可能是非常数的,仅仅研究平均因果作用不能满足实际问题的需要。这时候,计量经济学家提出了“分位数处理作用”(quantile treatment effect: QTE):
$$
QTE(\tau) = F^{-1}_{Y(1)}(\tau) – F^{-1}_{Y(0)}(\tau)
$$

在随机化下,这个量也是可以识别的。但是,其实这个量并不能回答处理作用异质性(heterogenous treatment effects)的问题,因为处理作用非常数,最好用如下的量刻画:
$$
\Delta(\delta) = P(Y(1) – Y(0) \leq \delta )
$$

这个量刻画的是处理作用的分布。不幸的是,估计 $\Delta(\delta) $ 需要非常强的假定,通常不具有可行性。

作为结束,留下如下的问题:

  1. “可识别性”(identifiability)在统计中是怎么定义的?
  2. 医学研究者通常认为,随机对照试验(randomized controlled experiment)是研究处理有效性的黄金标准,原因是什么呢?随机化试验为什么能够消除 Yule-Simpson 悖论?
  3. $QTE(\tau) $ 在随机化下是可识别的。另外一个和它“对偶”的量是 Ju and Geng (2010) 提出的分布因果作用(distributional causal effect: DCE):$  DCE(y) = P(Y(1) \geq y) – P(Y(0) \geq y) $ ,在随机化下也可以识别。
  4. 即使完全随机化,$\Delta(\delta)$ 也不可识别。也就是说,经济学家提出的具有“经济学意义”的量,很难用观测数据来估计。这种现象在实际中常常发生:关心实际问题的人向统计学家索取的太多,而他们提供的数据又很有限。

*关于 RCM 的版权,需要做一些说明。目前可以看到的文献,最早的是 Jerzy Neyman 于 1923 年用波兰语写的博士论文,第一个在试验设计中提出了“潜在结果”(potential outcome)的概念。后来 Donald Rubin 在观察性研究中重新(独立地)提出了这个概念,并进行了广泛的研究。Donald Rubin 早期的文章并没有引用 Jerzy Neyman 的文章,Jerzy Neyman 的文章也不为人所知。一直到 1990 年,D. M. Dabrowska 和 T. P. Speed 将 Jerzy Neyman 的文章翻译成英文发表在 Statistical Science 上,大家才知道 Jerzy Neyman 早期的重要贡献。今天的文献中,有人称 Neyman-Rubin Model,其实就是潜在结果模型。计量经济学家,如 James Heckman 称,经济学中的 Roy Model 是潜在结果模型的更早提出者。在 Donald Rubin 2004 年的 Fisher Lecture 中,他非常不满地批评计量经济学家,因为 Roy 最早的论文中,全文没有一个数学符号,确实没有明确的提出这个模型。详情请见,Donald Rubin 的 Fisher Lecture,发表在 2005 年的 Journal of the American Statistical Association 上。研究 Causal Diagram 的学者,大多比较认可 Donald Rubin 的贡献。但是 Donald Rubin 却是 Causal Diagram 的坚定反对者,他认为 Causal Diagram 具有误导性,且没有他的模型清楚。他与James Heckman (诺贝尔经济学奖), Judea Pearl (图灵奖) 和 James Robins 之间的激烈争论,成为了广为流传的趣闻。

参考文献:

  1. Neyman, J. (1923) On the application of probability theory to agricultural experiments. Essay on principles. Section 9. reprint in Statistical Science. 5, 465-472.
  2. Pearl, J. (1995) Causal diagrams for empirical research. Biometrika, 82, 669-688.
  3. Pearl, J. (2000) Causality: models, reasoning, and inference. Cambridge University Press。
  4. Rubin, D.B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-58.

因果推断简介之一:从 Yule-Simpson’s Paradox 讲起

在国内的时候,向别人介绍自己是研究因果推断(causal inference)的,多半的反应是:什么?统计还能研究因果?这确实是一个问题:统计研究因果,能,还是不能?直接给出回答,比较冒险;如果有可能,我需要花一些篇幅来阐述这个问题。

目前市面上能够买到的相关教科书仅有 2011 年图灵奖得主 Judea Pearl 的 Causality: Models, Reasoning, and Inference。Harvard 的统计学家 Donald Rubin 和 计量经济学家 Guido Imbens 合著的教科书历时多年仍尚未完成;Harvard 的流行病学家 James Robins 和他的同事也在写一本因果推断的教科书,本书目前只完成了第一部分,还未出版(见此处)。我本人学习因果推断是从 Judea Pearl 的教科书入手的,不过这本书晦涩难懂,实在不适合作为入门的教科书。Donald Rubin 对 Judea Pearl 提出的因果图模型(causal diagram)非常反对,他的教科书中杜绝使用因果图模型。我本人虽然脑中习惯用图模型进行思考,但是还是更偏好 Donald Rubin 的风格,因为这对于入门者,可能更容易。不过这一节,先从一个例子出发,不引进新的统计符号和概念。

天才的高斯在研究天文学时,首次引进了最大似然和最小二乘的思想,并且导出了正态分布(或称高斯分布)。其中最大似然有些争议,比如 Arthur Dempster 教授说,其实高斯那里的似然,有贝叶斯或者信仰推断(fiducial inference)的成分。高斯那里的“统计”是关于“误差”的理论,因为他研究的对象是“物理模型”加“随机误差”。大约在 100 多年前,Francis Galton 研究了父母身高和子女身高的“关系”,提出了“(向均值)回归”的概念。众所周知,他用的是线性回归模型。此时的模型不再是严格意义的“物理模型”,而是“统计模型” — 用于刻画变量之间的关系,而不一定是物理机制。之后,Karl Pearson 提出了“相关系数”(correlation coefficient)。后世研究的统计,大多是关于“相关关系”的理论。但是关于“因果关系”的统计理论,非常稀少。据 Judea Pearl 说,Karl Pearson 明确的反对用统计研究因果关系;有意思的是,后来因果推断为数不多的重要文章(如 Rosenbaum and Rubin 1983; Pearl 1995)都发表在由 Karl Pearson 创刊的 Biometrika 上。下面讲到的悖论,可以说是困扰统计的根本问题,我学习因果推断便是由此入门的。

在高维列联表分析中, 有一个很有名的例子,叫做 Yule-Simpson’s Paradox。有文献称,Karl Pearson 很早就发现了这个悖论 — 也许这正是他反对统计因果推断的原因。此悖论表明,存在如下的可能性:$X$ 和 $Y$ 在边缘上正相关;但是给定另外一个变量 $Z$ 后,在 $Z$ 的每一个水平上,$X$ 和 $Y$ 都负相关。Table 1 是一个数值的例子,取自 Pearl (2000)。

simpson

Table 1 中,第一个表是整个人群的数据:接受处理和对照的人都是 40 人,处理有较高的存活率,因此处理对整个人群有“正作用”。第二个表和第三个表是将整个人群用性别分层得到的,因为第一个表的四个格子数,分别是下面两个表对应格子数的和: $$20 = 18+2, 20 = 12+8, 16 = 7+9, 24 = 3+21.$$ 奇怪的是,处理对男性有“负作用”,对女性也有“负作用”。一个处理对男性和女性都有“负作用”,但是他对整个人群却有“正作用”:悖论产生了!

有人可能会认为这种现象是由于随机性或者小样本的误差导致的。但是这个现象与样本量无关,与统计的误差也无关。比如,将上面的每个格子数乘以一个巨大的正数,上面的悖论依然存在。

纯数学的角度,上面的悖论可以写成初等数学 $ \frac{a}{b} < \frac{c}{d}, \frac{a’}{b’} < \frac{c’}{d’} , \frac{a  + a’}{b + b’} > \frac{c + c’}{d + d’} $;这并无新奇之处。但是在统计上,这具有重要的意义 — 变量之间的相关关系可以完全的被第三个变量“扭曲”。更严重的问题是,我们的收集的数据可能存在局限性,忽略潜在的“第三个变量”可能改变已有的结论,而我们常常却一无所知。鉴于 Yule-Simpson 悖论的潜在可能,不少人认为,统计不可能用来研究因果关系。

上面的例子是人工构造的,在现实中,也存在不少的实例正是 Yule-Simpson’s Paradox。比如,UC Berkeley 的著名统计学家 Peter Bickel 教授 1975 年在 Science 上发表文章,报告了 Berkeley 研究生院男女录取率的差异。他发现,总体上,男性的录取率高于女性,然而按照专业分层后,女性的录取率却高于男性 (Bickel 等 1975)。在流行病学的教科书 (如 Rothman 等 2008) 中,都会讲到“混杂偏倚”(confounding bias),其实就是 Yule-Simpson’s Paradox,书中列举了很多流行病学的实际例子。

由于有 Yule-Simpson’s Paradox 的存在,观察性研究中很难得到有关因果的结论,除非加上很强的假定,这在后面会谈到。比如,一个很经典的问题:吸烟是否导致肺癌?由于我们不可能对人群是否吸烟做随机化试验,我们得到的数据都是观察性的数据:即吸烟和肺癌之间的相关性 (正如 Table 1 的合并表)。此时,即使我们得到了吸烟与肺癌正相关,也不能断言“吸烟导致肺癌”。这是因为可能存在一些未观测的因素,他既影响个体是否吸烟,同时影响个体是否得癌症。比如,某些基因可能使得人更容易吸烟,同时容易得肺癌;存在这样基因的人不吸烟,也同样得肺癌。此时,吸烟和肺癌之间相关,却没有因果作用。

相反的,我们知道放射性物质对人体的健康有很大的伤害,但是铀矿的工人平均寿命却不比常人短;这是流行病学中有名的“健康工人效应”(healthy worker effect)。这样一来,似乎是说铀矿工作对健康没有影响。但是,事实上,铀矿的工人通常都是身强力壮的人,不在铀矿工作寿命会更长。此时,在铀矿工作与否与寿命不相关,但是放射性物质对人的健康是有因果作用的。

这里举了一个悖论,但没有深入的阐释原因。阐释清楚这个问题的根本原因,其实就讲清楚了什么是因果推断。这在后面会讲到。作为结束,留下如下思考的问题:

  1. Table 1 中,处理组和对照组中,男性的比例分别为多少?这对悖论的产生有什么样的影响?反过来考虑处理的“分配机制”(assignment mechanism),计算 $ P(\text{Treatment} \mid \text{Male})$ 和 $P(\text{Treatment} \mid \text{Female})  $。
  2. 假如 $ (X, Y, Z) $ 服从三元正态分布,$ X $ 和 $ Y$  正相关,$ Y$ 和 $ Z$ 正相关,那么 $ X $ 和 $ Z$ 是否正相关?(北京大学概率统计系 09 年《应用多元统计分析》期末第一题)
  3. 流行病学的教科书常常会讲各种悖论,比如混杂偏倚 (confounding bias)和入院率偏倚(Berkson’s bias)等,本质上是否与因果推断有关?
  4. 计量经济学中的“内生性”(endogeneity)怎么定义?它和 Yule-Simpson 悖论有什么联系?

参考文献:

  1. Bickel, P. J. and Hammel, E. A. and O’Connell, J. W. (1975) Sex bias in graduate admissions: Data from Berkeley. Science, 187, 398-404.
  2. Pearl, J. (2000) Causality: models, reasoning, and inference. Cambridge University Press。
  3. Rosenbaum, P.R. and Rubin, D.B. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55.
  4. Rothman, K., Greenland, S. and Lash, T. L.  (2008) Modern Epidemiology. Lippincott Williams & Wilkins.

Diovan