标签归档:经典理论

正态分布的前世今生(下)

6. 开疆拓土,正态分布的进一步发展

19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角,逐步在近代概率论和数理统计学中大放异彩。在概率论中,由于拉普拉斯的推动,中心极限定理发展成为现代概率论的一块基石。而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下。

6.1 论剑中心极限定理

先来说说正态分布在概率论中的地位,这个主要是由于中心极限定理的影响。 1776 年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值
$$ S_n = X_1 + X_2 + \cdots + X_n $$
$$P(a < S_n < b) = ? $$

在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年发表的名著《概率分析理论》中给出了中心极限定理的一般描述:

定理:[拉普拉斯, 1812]  $ e_i (i=1, \cdots n)$ 为独立同分布的测量误差,具有均值$\mu$ 和方差 $\sigma^2$。如果 $\lambda_1, \cdots, \lambda_2$ 为常数, $a>0$, 则有
$$ \displaystyle P\left(\left|\sum_{i=1}^n \lambda_i(e_i – \mu)\right|
\le a \sqrt{\sum_{i=1}^n \lambda_i^2}\right)
\approx \frac{2}{\sqrt{2\pi}\sigma} \int_0^a e^{-\frac{x^2}{2\sigma^2}} dx . $$

这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了,理科专业的本科生学习《概率论与数理统计》这门课程的时候,通常学习的中心极限定理的一般形式如下:

[林德伯格-列维 中心极限定理] 设$X_1,\cdots, X_n$ 独立同分布,且具有有限的均值 $\mu$ 和方差 $\sigma^2$ ,则在 $n \rightarrow \infty$ 时,有
$$ \displaystyle \frac{\sqrt{n}(\overline{X} – \mu)}{\sigma} \rightarrow N(0,1) .$$

多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。

central_limit_theorem中心极限定理

概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便 $X_1,\cdots, X_n$ 并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终的归宿仍然是正态分布。一切的纷繁芜杂都在神秘的正态曲线下被消解,这不禁令人浮想联翩。中心极限定理恐怕是概率论中最具有宗教神秘色彩的定理,如果有一位牧师拿着一本圣经向我证明上帝的存在,我是丝毫不会买账;可是如果他向我展示中心极限定理并且声称那是神迹,我可能会有点犹豫,从而乐意倾听他的布道。如果我能坐着时光机穿越到一个原始部落中,我也一定带上中心极限定理,并劝说部落的酋长把正态分布作为他们的图腾。

继续阅读正态分布的前世今生(下)

P-value:一个注脚

郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的):

P值就是当原假设为真时,所得到的样本观察结果更极端的结果出现的概率。

The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given that the null hypothesis is true.

以下延续白话系列,解释一下,“什么是P值,什么是极端”,算是郑文的一个长长的注脚。

继续阅读P-value:一个注脚