分类目录归档:经典理论

统计学基础知识、学习经验等

因果推断简介之六:工具变量(instrumental variable)

为了介绍工具变量,我们首先要从线性模型出发。毫无疑问,线性模型是理论和应用统计(包括计量经济学和流行病学等)最重要的工具;对线性模型的深刻理解,可以说就是对一大半统计理论的理解。下面的第一部分先对线性模型,尤其是线性模型背后的假设做一个回顾。

一 线性回归和最小二乘法

线性模型和最小二乘的理论起源于高斯的天文学研究,“回归”(regression)这个名字则是 Francis Galton 在研究优生学的时候提出来的。为了描述的方便,我们假定回归的自变量只有一维,比如个体 $i$ 是否接受某种处理(吸烟与否;参加某个工作;等等),记为 $D_i$。 回归的因变量也是一维,表示我们关心的结果(是否有肺癌;是否找到工作培训与否;等等),记为 $Y_i$。假定我们的研究中有 $n$ 个个体,下面的线性模型用于描述 $D$ 和 $Y$ 之间的“关系”:

$$Y_i = \alpha + \beta D_i + \varepsilon_i, i=1, \cdots, n. \quad \quad (1)$$
一般情形下,我们假定个体间是独立的。模型虽简单,我们还是有必要做一些解释。首先,我们这里的讨论都假定 $D_i$ 是随机变量,对应统计学中的随机设计 (random design)的情形;这和传统统计学中偏好的固定设计(fixed design)有点不同—那里假定 $D_i$ 总是固定的。(统计学源于实验设计,那里的解释变量都是可以控制的,因此统计学教科书有假定固定设计的传统。)假定 $D_i$ 是随机的,既符合很多社会科学和流行病学的背景,又会简化后面的讨论。另外一个问题是 $\varepsilon_i$,它到底是什么含义?Rubin 曾经嘲笑计量经济学家的 $\varepsilon_i$ 道:为了使得线性模型的等式成立,计量经济学家必须加的一项,就叫 $\varepsilon_i$。批评的存在并不影响这个线性模型的应用;关键的问题在于,我们在这个 $\varepsilon_i$ 上加了什么假定呢?最根本的假定是:

$$
E(\varepsilon_i) = 0, \text{ and }  \text{cov}(D_i, \varepsilon_i) = 0. \quad \quad (2)
$$
继续阅读因果推断简介之六:工具变量(instrumental variable)

COS每周精选:随机试验处处坑

By 陈丽云

自从Fisher大神种地种出心得来,搞出了随机对照试验,这样的简单有效方法就如春风一般席卷了五湖四海。很多时候,你不整出来个控制的分毫不差的随机试验,再好的契合直觉的结果也没人相信。人们对于因果关系的定义,好像一瞬间都集中在了统计分析的一致性上…显著吗?亲,几个星号?(注:Fisher的炫目人生和随机试验的来龙去脉,请参见书籍《女士品茶》(《The Lady Tasting Tea——How Statistics Revolutionized Science in the Twentieth Century)》)。

然而孩子们,醒醒吧,以为你会个随机试验世界都完美了?果然是图样图森破,sometimes naïve。现实世界里面的随机试验可不简单是你在实验室里面那么舒舒服服的摆弄仪器就可以搞出来的。一旦试验的对象是人,一切都皆有可能。来来,先别急着算什么 p-value 这种东西,随机试验(业界俗称A/B Test)的坑那可是一个又一个,先跟着微软的专家们来玩玩踩雷,然后听听他们的血泪诉说吧!别以为他们西装革履或者拖鞋T恤的坐在看起来很气派很高端的办公室里面,一样是一个小坑陷一个,一个大坑坑一群。正所谓,随机试验处处坑,坑爹也坑娘,专家一样坑。

原文章:Trustworthy Online Controlled Experiments: Five Puzzling Outcomes Explained, by Ronny Kohavi with Alex Deng, Brian Frasca, Roger Longbotham, Toby Walker, Ya Xu from Microsoft.

大坑1:Bug会提高收入?

曾经有一次,Bing的技术团队不小心搞出来一个bug,导致分在test组里面的用户查询到的结果都是非常差的,control组返回的是没有变化正常的结果。结果当他们去评估的时候,发现有两个指标格外的高:人均查询量(排除重复查询语句)和人均收入,前者上升了10%而后者上升了30%! 继续阅读COS每周精选:随机试验处处坑

正态分布的前世今生(下)

6. 开疆拓土,正态分布的进一步发展

19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角,逐步在近代概率论和数理统计学中大放异彩。在概率论中,由于拉普拉斯的推动,中心极限定理发展成为现代概率论的一块基石。而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下。

6.1 论剑中心极限定理

先来说说正态分布在概率论中的地位,这个主要是由于中心极限定理的影响。 1776 年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值
$$ S_n = X_1 + X_2 + \cdots + X_n $$
$$P(a < S_n < b) = ? $$

在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年发表的名著《概率分析理论》中给出了中心极限定理的一般描述:

定理:[拉普拉斯, 1812]  $ e_i (i=1, \cdots n)$ 为独立同分布的测量误差,具有均值$\mu$ 和方差 $\sigma^2$。如果 $\lambda_1, \cdots, \lambda_2$ 为常数, $a>0$, 则有
$$ \displaystyle P\left(\left|\sum_{i=1}^n \lambda_i(e_i – \mu)\right|
\le a \sqrt{\sum_{i=1}^n \lambda_i^2}\right)
\approx \frac{2}{\sqrt{2\pi}\sigma} \int_0^a e^{-\frac{x^2}{2\sigma^2}} dx . $$

这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了,理科专业的本科生学习《概率论与数理统计》这门课程的时候,通常学习的中心极限定理的一般形式如下:

[林德伯格-列维 中心极限定理] 设$X_1,\cdots, X_n$ 独立同分布,且具有有限的均值 $\mu$ 和方差 $\sigma^2$ ,则在 $n \rightarrow \infty$ 时,有
$$ \displaystyle \frac{\sqrt{n}(\overline{X} – \mu)}{\sigma} \rightarrow N(0,1) .$$

多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。

central_limit_theorem中心极限定理

概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便 $X_1,\cdots, X_n$ 并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终的归宿仍然是正态分布。一切的纷繁芜杂都在神秘的正态曲线下被消解,这不禁令人浮想联翩。中心极限定理恐怕是概率论中最具有宗教神秘色彩的定理,如果有一位牧师拿着一本圣经向我证明上帝的存在,我是丝毫不会买账;可是如果他向我展示中心极限定理并且声称那是神迹,我可能会有点犹豫,从而乐意倾听他的布道。如果我能坐着时光机穿越到一个原始部落中,我也一定带上中心极限定理,并劝说部落的酋长把正态分布作为他们的图腾。

继续阅读正态分布的前世今生(下)

正态分布的前世今生(上)

神说,要有正态分布,就有了正态分布。
神看正态分布是好的,就让随机误差服从了正态分布。
创世纪—数理统计

1. 正态分布,熟悉的陌生人

学过基础统计学的同学大都对正态分布非常熟悉。这个钟形的分布曲线不但形状优雅,它对应的密度函数写成数学表达式
$$ \displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{(x-\mu})^2}{2\sigma^2}} $$
也非常具有数学的美感。其标准化后的概率密度函数
$$ \displaystyle f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} $$
更加的简洁漂亮,两个最重要的数学常量 $\pi$、$e$ 都出现在这公式之中。在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。

normal_curve正态分布曲线

正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。2002年以前去过德国的兄弟们还会发现,德国1991年至2001年间发行的的一款10马克的纸币上印着高斯(Carl Friedrich Gauss, 1777-1855)的头像和正态密度曲线,而1977年东德发行的20马克的可流通纪念钢镚上,也印着正态分布曲线和高斯的名字。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。

10dm_with_gauss_curve 10dm_with_gauss_curve_detail   20-mark-gauss
德国马克和纪念币上的高斯头像和正态分布曲线

正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我们在本科学习数理统计的时候,课本一上来介绍正态分布就给出分布密度函数,却从来不说明这个密度函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。直到我读研究生的时候,我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。

正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。

继续阅读正态分布的前世今生(上)

大话统计:Frequentist or Bayesian

本文引自施涛的博客,其中重要的英文都进行了翻译,原文请点击此处

[前言:先向无法科学上网的客官作揖抱歉了,有些江湖野史可能被墙]

话说江湖风云人物,神算子 Nate Silver, 在纽约时报开博占卜各项江湖话题,每每言中。并著书立传, The Signal and the Noise,一时引来各相追捧

这日,曾留下武林秘籍 All of Statistics: A Concise Course in Statistical Inference 的大侠 Larry Wasserman (Department of Statistics, Department of Machine Learning, Carnegie Mellon University) 突发感想,在自己博客 Normal Deviate 中写下大号书评:
Nate Silver is a Frequentist: Review of “the signal and the noise”

[……]就如你可以看到的,我非常喜欢这本书,并强烈推荐它。
但是……
我有一点要倾诉。Silver非常热衷于贝叶斯推断,这是很好的。不幸的是,他属于我前几篇文章所写的这一类人—— 混淆了“贝叶斯推理”与“使用贝叶斯定理”两个概念。他对于频率派统计推断的描述是比较糟的。他似乎把频率推断等同于了常用于正态分布的费歇尔显著性检验。也许他是从一本劣质的书中学习的统计学,抑或他天天跟一群激进的反频率学派的统计学家厮混,以至于持这样的观点。
继续阅读大话统计:Frequentist or Bayesian