标签归档:投票率

因果推断简介之六:工具变量(instrumental variable)

为了介绍工具变量,我们首先要从线性模型出发。毫无疑问,线性模型是理论和应用统计(包括计量经济学和流行病学等)最重要的工具;对线性模型的深刻理解,可以说就是对一大半统计理论的理解。下面的第一部分先对线性模型,尤其是线性模型背后的假设做一个回顾。

一 线性回归和最小二乘法

线性模型和最小二乘的理论起源于高斯的天文学研究,“回归”(regression)这个名字则是 Francis Galton 在研究优生学的时候提出来的。为了描述的方便,我们假定回归的自变量只有一维,比如个体 $i$ 是否接受某种处理(吸烟与否;参加某个工作;等等),记为 $D_i$。 回归的因变量也是一维,表示我们关心的结果(是否有肺癌;是否找到工作培训与否;等等),记为 $Y_i$。假定我们的研究中有 $n$ 个个体,下面的线性模型用于描述 $D$ 和 $Y$ 之间的“关系”:

$$Y_i = \alpha + \beta D_i + \varepsilon_i, i=1, \cdots, n. \quad \quad (1)$$
一般情形下,我们假定个体间是独立的。模型虽简单,我们还是有必要做一些解释。首先,我们这里的讨论都假定 $D_i$ 是随机变量,对应统计学中的随机设计 (random design)的情形;这和传统统计学中偏好的固定设计(fixed design)有点不同—那里假定 $D_i$ 总是固定的。(统计学源于实验设计,那里的解释变量都是可以控制的,因此统计学教科书有假定固定设计的传统。)假定 $D_i$ 是随机的,既符合很多社会科学和流行病学的背景,又会简化后面的讨论。另外一个问题是 $\varepsilon_i$,它到底是什么含义?Rubin 曾经嘲笑计量经济学家的 $\varepsilon_i$ 道:为了使得线性模型的等式成立,计量经济学家必须加的一项,就叫 $\varepsilon_i$。批评的存在并不影响这个线性模型的应用;关键的问题在于,我们在这个 $\varepsilon_i$ 上加了什么假定呢?最根本的假定是:

$$
E(\varepsilon_i) = 0, \text{ and }  \text{cov}(D_i, \varepsilon_i) = 0. \quad \quad (2)
$$
继续阅读因果推断简介之六:工具变量(instrumental variable)