因果推断简介之八:吸烟是否导致肺癌?Fisher versus Cornfield

这一节介绍一个有趣的历史性例子:吸烟是否导致肺癌?主要涉及的人物是 R A Fisher 和 J Cornfield。前者估计上这个网站的人都听过,后者就显得比较陌生了。事实上,Cornfield 在统计、生物统计和流行病学都有着非常重要的贡献。来自 Wikipedia 的一句介绍:“He was the R. A. Fisher Lecturer in 1973 and President of the American Statistical Association in 1974.” 虽然 Cornfield 和 Fisher 学术观点不同(本节介绍),但是 Cornfield 还是在 1973 年给了 Fisher Lecture。

下面我们先介绍 Fisher 和 Cornfield 关于观察性研究中因果推断的两种观点,再给出技术性的细节。

一、Cornfield 条件或者 Cornfield 不等式

fisher

(图注:R A Fisher)

我先陈述 Fisher 的观点。由于 Yule-Simpson Paradox 的存在,即使我们观测到吸烟和肺癌之间的正相关关系,也不能断定它们之间有因果性。可能存在一个未观测的基因,它既使得某些人更可能吸烟,又使得这些人更可能患肺癌。因此,即使吸烟和肺癌没有因果关系,这个未观测的基因也可能导致吸烟和肺癌是正相关的。关于 Yule-Simpson Paradox,这一系列的第一篇有介绍。Fisher 的观点可以用一个有向无环图 (DAG) 来表示:

Cornfield

图中,吸烟到肺癌没有直接的边,因此吸烟对肺癌的因果作用是 $0$。但是由于它们之间存在一个共同原因 “hidden gene”,它们是相关的。我们用 $E$ 表示是否吸烟 ($1=$ 是,$0=$ 否);$D$ 表示是否患肺癌 ($1=$ 是,$0=$ 否);$U$ 表示是否有某种基因 ($1=$ 是,$0=$ 否)。这个符号系统在流行病学比较常用,因为 $E$ 表示暴露与否 (exposure),$D$ 表示疾病 (disease),$U$ 表示未观测的混杂因素 (unobservable confounder)。 在 Fisher 的时代,研究者通过收集的大量数据,得到吸烟对于肺癌的相对风险(relative risk;或称风险比,risk ratio;都简写成 $RR$)是
$$
RR_{ED}= \frac{ P(D=1\mid E=1) } { P(D=1\mid E=0) } = 9.
$$

流行病学家关心这个 $RR_{ED}$ 是否表明了吸烟和肺癌的因果关系。Fisher 表示否定。从一个悲观的角度来讲,我们确实不能从相关关系得到因果性;Fisher 如果表示怀疑,假定有一个未观测的基因,也是无可反驳的。Fisher 的这个说法有时也被称为“共同原因”假说。Cornfield 则采取了一个不太悲观的角度。他问:如果 Fisher 的“共同原因”假说是对的,那么 $E$ 和 $U$ 之间的相关关系需要多强,才能导致 $RR_{ED} = 9$,即“吸烟患肺癌”是“不吸烟患肺癌”的风险的 $9$ 倍呢?如果 $E$ 和 $U$ 之间的相关关系强到不具有生物学意义($E$ 与 $U$ 的相对风险值大得在现实中不太可能),那么 Fisher 的“共同原因”假说就不成立,更大的可能性是吸烟 $E$ 对肺癌 $D$ 有因果作用。

那么 Cornfield 是如何有力反驳Fisher的观点的呢?

cornfield

 

(图注:J Cornfield)

Cornfield 通过简单的数学证明,得到了如下的不等式,文献中也称为 Cornfield 不等式:
$$
RR_{EU} \geq RR_{ED}.
$$

也就是说,如果 Fisher 的“共同原因”假说成立,那么 $E$ 和 $U$ 之间的 $RR$ 必将大于 $E$ 和 $D$ 之间的 $RR$。在吸烟和肺癌的例子中,$RR_{EU} \geq 9$。$RR_{EU} \geq 9$,即 $P(U=1|E=1)/P(U=1|E=0) \geq 9$,直观解释就是“吸烟时有某个基因 $U$ 存在”的概率是“不吸烟时有某个基因 $U$ 存在”的概率的 $9$ 倍多。根据 Cornfield 进一步的逻辑,由于吸烟更多的是一个社会性的行为,很难想象吸烟的行为能够对于某个基因的存在与否有着 $9$ 倍的预测能力。我前段时间问身边一个生物的 PhD,你觉得 $RR_{EU} \geq 9$ 可能吗?他的回答是不太可能,理由也是说,吸烟更多的决定于社会经济地位、家庭背景等变量,和基因也许有关系,但是不会强到 $RR_{EU} \geq 9$ 的程度。Cornfield et al. (1959) 的原话是:

… if cigarette smokers have 9 times the risk of nonsmokers for developing lung cancer, and this is not because cigarette smoke is a causal agent, but only because cigarette smokers produce hormone X, then the proportion of hormone-X producers among cigarette smokers must be at least 9 times greater than nonsmokers. If the relative prevalence of hormone-X-producers is considerably less than ninefold, then hormone-X cannot account for the magnitude of the apparent effect.

如果我们相信 Cornfield 的逻辑,$RR_{EU} \geq 9$ 在生物学意义上不太可能,那么 Fisher 的“共同原因”假说就不成立,吸烟对肺癌的确存在因果作用;反映到上面的 $DAG$ 上,吸烟 $E$ 到肺癌 $D$ 有一条直接的边。

Cornfield 的这项简单研究,开始了流行病学和统计学中敏感性分析的研究;比如 Rubin 和 Rosenbaum 很多工作都是在 Cornfield 的启发下做出来的。简单地说,敏感性分析,就是在朝着 Yule-Simpson Paradox 的反方向进行的:混杂虽然总是存在,但是我们相信这个世界并不是疯狂的复杂。

二、技术细节
这一部分我们给出 Cornfield 不等式的证明。虽然证明不难,但是想想 Cornfield 于 1959 年用这样一个简单的不等式来反驳 Fisher,就觉得它的历史意义还是不小的。当然不关心技术细节的读者,可以直接忽略本节。关心技术细节的读者,下面的证明虽然冗长,但是只用到非常初等的数学(也许它可以作为一道初等概率论的习题)。

为了简化证明,我们引进一些记号:
$$
\begin{eqnarray}
f_1 = P(U=1\mid E=1),
&&f_0 = P(U=1\mid E=0),\\
RR_{EU} = \frac{ P(U=1\mid E=1) }{ P(U=1\mid E=0)} = \frac{f_1} {f_0},
&&
RR_{UD} = \frac{ P(D=1\mid U=1) }{ P(D=1\mid U=0) }.
\end{eqnarray}
$$
不妨假设 $RR_{ED}\geq 1$ 并且 $RR_{EU} \geq 1$;若不成立,我们总可以重新对这些二值变量的 $0$ 和 $1$ 类进行重新定义。首先,我们在条件独立性 $E\perp D|U$ 下得到 $RR_{ED}$ 的等价表示:
$$
\begin{eqnarray}
RR_{ED} &=& \frac{ P(D=1\mid E=1) } { P(D=1\mid E=0) }\\
&=& \frac{ \sum_{u=0,1}P(D=1, U=u\mid E=1) } {\sum_{u=0,1} P(D=1, U=u\mid E=0) }\\
&=& \frac{ \sum_{u=0,1}P(D=1\mid U=u) P(U=u\mid E=1) } {\sum_{u=0,1} P(D=1\mid U=u) P(U=u\mid E=0) }\\
&=& \frac{ P(D=1\mid U=1)P(U=1\mid E=1) + P(D=1\mid U=0)P(U=0\mid E=1) }
{ P(D=1\mid U=1)P(U=1\mid E=0) + P(D=1\mid U=0)P(U=0\mid E=0) }\\
&=& \frac{ RR_{UD} f_1 + (1-f_1)} { RR_{UD} f_0 + (1-f_0) }.
\end{eqnarray}
$$

条件 $RR_{EU}\geq 1$ 等价于 $f_1\geq f_0$,因此,上面 $RR_{ED}$ 是关于 $RR_{UD}$ 的单调递增函数。进一步,
$$
RR_{ED} \leq \lim_{RR_{UD}\rightarrow +\infty} \frac{ RR_{UD} f_1 + (1-f_1)} { RR_{UD} f_0 + (1-f_0) } = \frac{f_1}{f_0} = RR_{EU}.
$$

由此,Cornfield 不等式得证。

三、文献注记
Cornfield 最早的论文发表于 1959 年;由于它的重要性,这篇文章又在 2009 年重印了一次(50 周年纪念)。于是参考文献有两篇,它们是一样的;不过后者多了很多名人的讨论。

  • Cornfield J et al. Smoking and lung cancer: recent evidence and a discussion of some questions. JNCI 1959;22:173-203.
  • Cornfield J et al. Smoking and lung cancer: recent evidence and a discussion of some questions. Int J Epidemiol 2009;38:1175-91.(本文邀请了 David R Cox 和 Joel B Greenhouse 等人讨论。)

最近Ding and VanderWeele重新回访了这个经典问题,给出了更加广泛的结果。

因果推断简介之八:吸烟是否导致肺癌?Fisher versus Cornfield》有21个想法

  1. 吸烟和肺癌的关系不能用这些统计学的方法来计算,这是不科学的。因为有很多因素在算式中是体现不出来的,比如说遗传因素、地域环境、香烟质量、饮食习惯等等。

    1. 遗传因素、地域环境、香烟质量、饮食习惯这些在流行病学研究中会被研究设计者考虑并加以控制,基本的控制方式就是随机,RR或OR对于流行病学研究者来说更多的是作为一个因果证据强度的指标,真的是不是有关联当然不仅仅是统计学上能说明的

      1. 不吸烟的人也会患肺癌,这就证明吸烟不是肺癌的直接诱因,根本不需要什么算式计算,多此一举

      2. 哈哈(捂肚子),楼上真是一句话推翻了人家搞了几十年队列研究才证明的东西,不不,楼主的思想更是推翻了整个现代流行病学以及几乎所有科学的基础,建议投SCI。

      3. 一激动笑得码字错了,是楼上,不敢染指楼主。肺癌的危险因素这么多,不吸烟还有别的因素可以引起,不吸烟的人也会患肺癌,证明吸烟不是肺癌的直接诱因,这算什么逻辑推理?(笑)。请楼上多此一举的考虑下。

      4. 你说的这些我不是没想过,不也不想跟你吵,我只想心平气和的把我的观点表达一下,你可以不同意我的观点,但你要尊重我发表看法的权利。
        1,统计学是门严谨的科学,到现在我也这么认为。
        2可我因为我总觉得统计这个东西只是算个大概,而且有很枯燥,大学时也只是把老师上课讲的重点看了看,考试过了就行了,所以一直没有把统计学好好学过一遍,。
        3,当然关于概率、不确定性的讨论由来已久,比如上帝掷色子吗?所以不确定性就引发了文章中的讨论,以及咱们之间的讨论。
        4,现实中有些东西完全就可以用“是或非”的逻辑解决,比如说太阳升起天就会亮,天下雨就会掉雨滴。但有些东西不能用“是或非”来判断,比如说筛子问题,6个面出现概率理论上是相等的,12345各出现2500次,6出现2499次,但下一次掷筛子,谁也不能确定出现的是6。这大家都知道的道理。
        5,那么为了说明我的看法,我举个例子。药物在临床实验阶段必须要有双盲实验,这是为了排除患者心理暗示的影响。在结果出来后,我们会发现,服用药物组中总会出现药物不起作用的患者(在实验对象选取上实验人员会最大限度的将同样状况的人为实验对象),而在对照组中总有患者的病情得到了缓解。为了确定药物是否起作用,研究人员会用统计学的方法来确定(当然还会有其他辅助的判断)。这是很科学严谨的,我同意。一旦药品通过临床试验阶段上市后,为了药品的安全性,研究人员还是要对药品进行跟踪,一是看看药品是否真的起作用,二是防止临床试验中没有发现的问题。 由于这些新药并不是对所有患者都是有效的,药物的有效性判断是基于统计学上的判断,所以当患者服用这种新药之前还是不能确定药物是否会起作用,这就导致这种统计学上的判断大打折扣了。
        6,这就回到文章关于吸烟是否导致肺癌这上面。在这我先声明,前人的研究是经典的我不否认,但是我却认为像这类问题应该从生理学上讨论而不能用数学算式来证明,如果人类把癌症的秘密解开,揭示出癌症发病的生理过程,以及癌症是如何产生如何引发的,那么吸烟是否会导致肺癌的讨论就会迎刃而。如果100个人吸烟99个患肺癌,不管你在统计学上怎么的近似怎么的正确,也不能肯定吸烟导致肺癌,就好比新药的上市不管临床上有多少人的病情得到好转,也不能确定下一位用药的患者病情一定会好转。
        7,由于实验人员为了消除其他因素,比如说年龄、性别、地域环境等等,对于实验对象选取上尽量做到一致,可是我们想到的所有因素比如说遗传因素、香烟质量、饮食习惯这些就真的能完全把误差消除掉吗?我们还有很多未知。
        8,当然我们的科学就是建立在这些统计学上的,正如你所说“推翻了整个现代流行病学以及几乎所有科学的基础”,当然我的这个确实有些说的不严谨,我只是对文章这一特定的事件做出我的理解。在这件事上,我信奉奥卡姆剃刀定律,关于吸烟导致肺癌这件事上用算式证明确实有些“多此一举”了。
        9,我只想发表我的看法,也许略显幼稚,但是科学不就是这么发展起来的嘛~ 望回复~

      5. 其实你没回复到点子上,我说的是你的逻辑(我说逻辑学才是现代科学的基础,而不是指统计学),你说的是统计学 ╮( ̄  ̄")╭。不吸烟的人也会患肺癌,这跟吸烟会不会导致肺癌有什么关系?人家证明的是吸烟会导致肺癌,而不是去证明肺癌是由吸烟导致的,这两句话是不一样的,不懂?再何况这篇文章讨论的是,吸烟和肺癌的强RR之间是不是存在混杂因素。不同学科关注的层面不一样,搞生物的关注分子层面,搞流病的关注群体水平而不是个体,注定讨论的东西是不一样的。现代医学对病因的定义就是,能引起疾病发生概率升高的因素,流行病学里也称为危险因素,大概没有什么疾病的危险因素是有且只有唯一(充分必要条件)的吧,这也就是说你的推理必定错误的原因。就好像这个世界除了男人就是女人么,当然不是。你的说法不如改为“吸烟的人也有不得肺癌的”,这样还稍微像正常逻辑,但这又是另外一个问题了。人和人之间有个体差异,个体的敏感阈值不一样(不一定是正态分布什么什么),造成有的个体需要很大剂量的刺激才会引起所关注的变化,而有的个体只需要低于平均水平的刺激就会引起,所以毒理学实验会有诸如LD50、MTD、LD100这样的剂量水平。吃饭还会撑死,你能说饭也是不安全的么?不像分子生物学,流行病学关注的是群体水平,而不是说,能观察到吸烟的人不得肺癌就证明吸烟不能引起肺癌。所以,统计推断的作用之一,便是基于一定的理论推断样本能不能代表总体,这些样本间的差异是不是随机误差造成的等等,也就是吸烟和肺癌之间的关联不是随机事件,至于是不是因果,两者之间是否有混杂因素那就是这篇(一系列)文章讨论的了。诚然,混杂因素可能不会百分之百的消除,但是不正是有了更多的手段和方法来消除混杂、辅助证明呢?

      6. 事后才想起,忘了很重要的说明,之前的回复没有任何不尊重的意思,只是确实让我笑了(难道我笑点低)。以及,“太阳升起天就会亮,天下雨就会掉雨滴”这其实不是逻辑(或者说只是在陈述事实或者就不构成有意义的句子),因为你看到天亮了才知道出太阳,因为你看到掉雨滴了才知道下雨了,事实上呢,太阳天天升起亮不亮是因为有没有云,下雨天之所以叫下雨天因为它下雨(唔,所以这句子没有意义,当然所谓的“下雨天”会不会下雨在气象上也是概率事件叫“降雨概率”)。

      7. 个体角度是无法探讨因果关系的。所以只能借助统计学。Over.

  2. 求问:尽管这个问题在这里很明显,但是在其他研究上就不一定了。
    文章一直追问:吸烟是否是肺癌的原因;而不是追问:肺癌是否是吸烟的原因
    如果我研究时遇到上述问题何解?

      1. 我只好把我之前说的第一句再重复一遍:
        “尽管这个问题在这里很明显,但是在其他研究上就不一定了。”

      2. 你可以举个例子,便于我回答。脱离实际背景,很难讨论。

      3. 我其实就是想问能够“脱离实际背景”的方法,而且我之前不认为存在这种方法。你这么说更加印证了我的想法,所以就算了吧。

      4. 脱离问题的方法叫machine learning. 他们有办法。

  3. 佩服楼主啊。
    我最近研究基因与疾病的关系,发现了两个基因。一个OR 是19,一个是16,怎么判断哪个才是真因啊?

    1. 请问这个RR能不能患者OR?
      OR(EU)≥OR(ED)
      取OR最大的能不能确定就是原因?
      再重复独立样本验证一次,仍然OR最大的哪个基因型,能确定是原因吗?

  4. 如果楼主初中在新都读书,我就认识楼主你,早就听说过你的传奇,我现在大一也学statistics,与你看齐。以后回家有机会向你请教请教

发表评论

邮箱地址不会被公开。 必填项已用*标注