因果推断简介之七:Lord’s Paradox

在充满随机性的统计世界中,悖论无处不在。这一节介绍一个很有名,但是在中文统计教科书中几乎从未介绍过的悖论。这个悖论是 Educational Testing Service (ETS) 的统计学家 Frederic Lord 于 1967 年提出来的;最终由同在 ETS 工作的另外两位统计学家 Paul Holland 和 Donald Rubin 于 1982 年圆满地找出了这个悖论的根源。这部分先介绍这个悖论,再介绍 Holland 和 Rubin 的解释,最后是一些结论。

一 Lord’s Paradox
考虑下面一个简单例子,具体的数字是伪造的。某个学校想研究食堂对于学生体重是否有差异性的影响,尤其关心食堂对于男女学生体重影响是否相同。于是统计学家们收集了如下的数据:学生的性别 $G$;学生在 1963 年 6 月入学时候的体重 $X$;学生在 1964 年 6 月放暑假时候的体重 $Y$。

第一个统计学家,采取了一种很简单的方法。如图所示,横轴表示 1963 年 6 月入学前的体重 $X$,纵轴表示 1964 年 6 月前放假的体重 $Y$。个体上来看,男女入学前和入学后一年体重都会有些变化,男女学生体重的散点图分别用绿色和红色标出。从男女学生生平均体重来看,男生入学前后一年平均体重均是 $150$ 磅(图中右上角的黑点),女生入学前后一年平均体重均为 $130$ 磅(图中左下角的黑点)。图中的虚线是对角线 $Y=X$,两个黑点均位于对角线上。因此,第一个统计学家的结论是食堂对于男女学生体重都没有影响,因此对男女学生体重的作用相同。

LordPlot
(图注:横轴表示 1963 年 6 月入学前的体重 $X$,纵轴表示 1964 年 6 月前放假的体重 $Y$;虚线是对角线 $Y=X$;男女学生体重的散点图分别用绿色和红色标出。图中数据生成机制如下:男学生 $(X,Y)\sim $ 二元正态分布,均值 $(150,150)$,协方差矩阵 $\begin{pmatrix} 60 & 40 \\ 40 & 60 \end{pmatrix}$;女学生 $(X,Y)\sim$ 二元正态分布,均值 $(130,130)$,协方差矩阵 $\begin{pmatrix} 60 & 40 \\ 40 & 60 \end{pmatrix}$。生成这幅图的 R 代码可以在这里下载:Rcode。由于样本量 $3000$,样本均值非常接近理论均值,因此落在了对角线上。)

第二个统计学家,由于受到了高等的统计训练,知道 R A Fisher 的 Analysis of Covariance (ANCOVA) ,提出了更加复杂的方法。他认为,我们的分析应该控制入学前的体重,做如下的线性回归:
$$
Y_i = \beta_0 + \beta_g G_i + \beta_x X_i + \varepsilon_i. \quad\quad\quad (*)
$$

他进一步认为,上面线性回归的系数 $\beta_g$ 反应的就是男女的差别。用最小二乘法拟合上面的回归模型,等价于在男女学生中拟合两条平行的回归直线。如图所示,两条直线斜率 $\beta_x$ 相同,但是截距不同,截距之差就是回归系数 $\widehat{\beta}_g = 6.34$。结论是,食堂对于男女体重有差别性的影响。

这两位统计学家得到了不同的结论,究竟谁对谁错呢?Lord 称这个现象为悖论,那么悖论的根源是什么呢?

二 悖论的根源:因果推断视角下的解释
要想解释这个悖论,使用线性回归模型益处不大,因为究竟能否将回归系数解释成因果作用,是个根本性的问题。在下面的讨论中,我们假定数据的样本量足够大,因而可以忽略小样本带来的随机性;也可以认为整个讨论都在总体上进行。和前面一样,我们用 $G_i$ 表示个体 $i$ 的性别,男性取值为 $1$, 女性取值为 $0$;$X_i$ 是个体 $i$ 在 1963 年 9 月的体重。由于这两个变量都发生在接受处理(在食堂进餐与否)之前,它们都可以看成是协变量,不受处理的影响。我们采用潜在结果模型,定义 $\{ Y_i(1), Y_i(0) \} $ 是个体 $i$ 在食堂进餐和不在食堂进餐下于 1964 年六月体重的潜在结果。

如果用 $T$ 表示在食堂进餐与否的变量,那么每个学生都是 $T=1$。当写下潜在结果之后,我们就发现问题的根源之一,是整个研究根本不存在对照组(全体学生其实都在食堂进餐),每个个体在 1964 年 6 月都取值 $Y(1)$ (也就是前面的记号 $Y$)。

继续我们的讨论。男女学生的平均因果作用分别定义为:

$$
\Delta_g = E\{ Y(1) – Y(0) \mid G = g \}, g=1, 0;
$$

食堂对于男女学生体重平均因果作用的差是:

$$
\begin{eqnarray}
\Delta &=& \Delta_1 – \Delta_0\\
&=& E\{ Y(1) – Y(0) \mid G = 1 \} – E\{ Y(1) – Y(0) \mid G = 0 \}\\
&=&\left[ E\{ Y(1) \mid G = 1 \} – E\{ Y(1) \mid G = 0 \} \right] \\
&& –
\left[ E\{ Y(0) \mid G = 1 \} – E\{ Y(0) \mid G = 0 \} \right].
\end{eqnarray}
$$

上面的推导虽然简单,但是将 $\Delta$ 分成了两个显著不同的部分:第一个方括号内的项是我们能够从观测数据中得到的;第二个方括号中的项是我们不可观测的,因为没有任何一个学生接受了食堂之外的处理。

如果我们假定 $Y(0) = X$,也就是说如果学生不来食堂进餐,他们的体重将和入学前一样,那么
$$
\Delta_g = E\{ Y(1) – X\mid G = g \} = E(Y-X\mid G=g).
$$
根据上面的图和统计学家一的推理逻辑,我们知道 $\Delta_g = 0 (g=0,1)$ (男女学生的体重不受处理影响),那么 $\Delta = 0$ (处理对于男女体重没有差异性的影响)。在这个假定下,第一个统计学家的断言是正确的。

显然,假定 $Y(0) = X$ 是无法被数据证明或者证伪的,它只能依赖于我们的先验知识。那么在什么假定下,第二个统计学家又是对的呢?

根据第二个统计学家做 ANCOVA 的逻辑,他可以假定
$$
E\{ Y(1)\mid X, G= g \} = a_g + bX,
$$
并且把 $\delta = a_1 – a_0$ 当成食堂对于男女体重差异作用的度量。$\delta$ 其实就是上面的线性回归模型 $(*)$ 的回归系数 $\beta_g$。如果我们假定 $Y(0) = \alpha + b X$,那么不去食堂进餐时的潜在体重 $Y(0)$ 是入学前体重 $X$ 的线性函数且截距是 $b$;这表明 $Y(1)$ 和 $Y(0)$ 关于 $X$ 的模型,仅仅截距不同,斜率相同。这个假定并非不可能。此时,
$$
\begin{eqnarray}
\Delta &=& E\{ Y(1) – Y(0) \mid G=1\} – E\{ Y(1) – Y(0)\mid G=0\} \\
&=& E\{ Y(1) – \alpha – bX \mid G=1\} – E\{ Y(1) – \alpha – bX\mid G=0\} \\
&=& \left[ E\{ Y(1) \mid G=1\} – b E(X\mid G=1) \right] \\
&&- \left[ E\{ Y(1)\mid G=0\} – b E(X\mid G=0) \right]\\
&=& a_1 – a_0 = \delta.
\end{eqnarray}
$$
最后一行等于 $\delta$,因为根据条件期望的性质,方括号中的两项分别是 $a_1$ 和 $a_0$:
$$
\begin{eqnarray}
&& E\{ Y(1) \mid G=g\} – b E(X\mid G=g) \\
&=&
E\left[ E\{ Y(1) \mid X, G=g\} \mid G=g\right] – b E(X\mid G=g) \\
&=& E\left[ a_g + bX \mid G=g\right] – b E(X\mid G=g) \\
&=& a_g.
\end{eqnarray}
$$
这样一来,第二个统计学家的结论就是正确的。

三 结论
根据上面的讨论,关于 Lord’s Paradox,我们有如下的结论:

(1)Lord’s Paradox 的根源在于,整个研究没有对照组;我们甚至不知道什么是对照组,不在食堂进餐,是在家里进餐,还是外面的参观进餐,还是其他?这其实导致 $Y(0)$ 并非完好定义。上面的讨论则是假定 $Y(0)$ 是良好定义的。

(2)回归或者协方差分析等统计工具,并不能清楚的回答因果的问题。这个问题中,$\Delta$ 是一个我们关心的因果度量,离开潜在结果,是很难定义的。根据上面的讨论,两位统计学家不采用潜在结果模型,甚至没有意识到,这个研究根本的问题在于缺少对照。当然,如果我们能够做一个随机化的实验,有处理和对照组,那么回归分析也可能得到合理的答案。

(3)统计学家一和二,都可以是对的。他们结论的正确性,依赖于不同的假定;而这些假定本身是不可能被检验的。

(4)假定 $Y(0)=X$ 可以减弱到 $Y(0)=X+u, E(u)=0, u\perp G$;假定 $Y(0)= \alpha + b X$ 可以减弱到 $Y(0) = \alpha + bX + v, E(v) = 0, v\perp G$。当然,这都是细枝末节的问题。

(5)统计学家一和二,都是错的。他们有结论,但是却从未清楚地陈述结论回答的是什么问题。

(6)R A Fisher 在实验设计中提出了 ANCOVA,但是这个方法不是万能的。事实上,这个方法导致的问题,比它带来的功用更严重;这点以后再说。

四 参考文献
(1)Lord FM. A paradox in the interpretation of group comparisons. Psychol Bull. 1967;68:304–5. doi: 10.1037/h0025105.
(2)Holland, P.W., Rubin, D.B. (1983). On Lord’s paradox. In: Wainer, H., Messick, S. (Eds.), Principals of Modern Psychological Measurement. Lawrence Erlbaum Associates, Hillsdale, NJ, pp. 3–25.

因果推断简介之七:Lord’s Paradox》有17个想法

  1. 所以写文章时数据收集和模型得假设要一条一条列清楚,要不然骗(误导)了别人后自己还觉得挺无辜。

    1. 是的!可惜的是,常常听到别人报告他们的统计发现,而不知道他们作了什么假定。

  2. 如本文结论所说,这项研究根本无法回答食堂的作用,因为没有对照组,某种程度上是在用正确的方法回答错误的问题。那抛开食堂的问题,它能否回答性别的作用呢?同在食堂吃饭的男女之间的体重增量是否有显著差异?这个问题也有些狡猾。假设Y,X和G就是我们知道的所有信息(影响体重的当然还有很多因素),那么ANCOVA似乎是一条显然的路。统计学家一是统计学家二的特殊情况,他假设$beta_x=1$,然后看Y-X这个差异在不同的G之间是否有显著差异。这两个统计学家回答的问题其实也不一样:一回答的是增量是否有差异,二回答的是在初始体重相同的条件下,体重增量是否有差异。

    那ANCOVA在这个问题上是否合适呢?从模拟来看,Y和X都是随机变量,而且还有协方差,这对一般要求自变量非随机的回归模型来说,也是不符合假设的。

    1. 说的在理。

      不过关于最后一段我有如下回复:一般的回归模型并不一定要求自变量是非随机的。统计中一般讨论fixed design,有时候又讨论random design;讨论哪个很多时候依赖于数学的方便。教科书多讲fixed design,但是random design更常见—比如经济学和流行病学等。

    2. 谢大说的是。不过如果按1是2的特殊情况处理,1和2回答的问题应该是一样的吧,只是1条件更多,初始为0。对于回答在食堂都吃饭的男女体重增加是否有差异,应该是没有问题的吧,可以将男女看作"处理"?不过就不是研究因果了。。

      1. 不用potential outcomes确实会引发很多混淆性的争论,Cox 和 McCullagh 还写过一篇文章,谈及了Lord悖论。他们在 ANCOVA 下讨论,不太容易讨论清楚,本质上是非常有问题的。

        Reference:
        Cox, D. R. and McCullagh, P. (1982). Some aspects of analysis of covariance (with discussion). Biometrics 38 541–561.

发表评论

邮箱地址不会被公开。 必填项已用*标注