真理在缩水,还是上帝在掷骰子?

最近在Google Reader中看见科学松鼠会有两篇文章被频繁分享,名为《真理在缩水——现代科学研究方法并不尽善尽美?》()与(),下文简称《缩水》。文章很有意思,而实际上说的是我们的老本行——统计学,因此我在这里也发表一些我的想法和理解,包括这两年我在美帝学习的一些思考,部分内容受益于两位老师Kaiser和Nettleton教授,先向他们致谢(尽管他们永远都不会看到这篇文章)。同时我也要先说明一下,读这篇文章可能会很花时间(至少我花了大约二十小时写这篇文章),即使我的观点没有价值,我相信里面的引用文献是有价值的。

初读文章,我脑子里冒出的一句话是“上帝在跟我们掷骰子”,文中给出了大量的不可重复的试验,仿佛就像那些号称“具有统计学意义”(下文我再说这个所谓的“意义”)的试验结果只是若干次骰子中的一次运气好的结果而已。读完文章,我们可能不禁要问,到底是真理在缩水,还是它根本就不曾存在?下面我从四个方面来展开,分别说明人对随机性的认识、统计推断的基石、让无数英雄折腰的P值、以及可重复的统计研究。

一、感知随机

随机变量在统计分析中占据中心地位,数学上关于随机变量的定义只是一个“干巴巴的函数”,从样本空间映射到实数集,保证从实数集上的Borel域逆回去的集合仍然在原来的sigma域中即可。随机变量的性质由其分布函数刻画。写这段话的目的不是为了吓唬你,也不是为了作八股文,而是来说明我为什么不喜欢数学的理由,对我而言,我觉得有些数学工具只是为了让自己不要太心虚,相信某时某刻某个角落有个理论在支撑你,但后果是弱化了人的感知,当然,也有很多数学工具有很强的直觉性(如果可能,我想在未来下一篇文章里面总结这些问题)。我一直认为很多人对随机性的感知是有偏差的,对概率的解释也容易掉进陷阱(参见Casella & Berger的Statistical Inference第一章,例如条件概率的三囚徒问题)。

《缩水》一文发表了很多不可重复的试验案例,我们应该吃惊吗?我的回答是,未必。举两个简单的例子:

第一个例子:很多数据分析人员都很在意所谓的“离群点”,论坛上也隔三差五有人问到这样的问题(如何判断和处理离群点),而且也有很多人的做法就是粗暴地删掉,我从来都反对这种做法。除了基于“数据是宝贵的”这样简单的想法之外,另一点原因是,离群点也许并非“异类”。离群点是否真的不容易出现?请打开R或其它统计软件,生成30个标准正态分布N(0, 1)随机数看看结果,比如R中输入rnorm(30),这是我运行一次的结果:

> rnorm(30)
 [1]  1.19062761 -0.85917341  2.90110515  0.59532402 -0.05081508 -0.06814796
 [7]  2.08899701  0.76423007  0.92587075 -1.16232929 -0.68074378 -1.40437532
[13] -0.17932604 -0.72980545 -0.53850923  0.21685537 -0.35650714 -1.32591808
[19] -0.88071526 -1.25832441  0.24001498 -0.41682799 -0.09576492 -0.17059052
[25] -0.99947485  0.25108253 -0.47566842 -0.28028786  0.79856649 -0.13250974

30在现实中是一个比较小的样本量,你看到了什么?2.901?它接近3倍标准差的位置了。还有2.089?……如果你不知道这批数据真的是从标准正态分布中生成出来的,现在你会有什么反应?把2.9删掉?标准正态分布是一个在我们眼中很“正常”的分布,而一个不太大的样本量一次试验足以生成几个“离群点”,那么要是成千上万的试验中没能产生几项震惊世界的结果,你会怎样想?(上帝的骰子坏掉了)

另一个例子和统计学结合紧密一点,我们谈谈残差的QQ图。QQ图是用来检查数据正态性的一种统计图形,与腾讯无关,细节此处略去,大意是图中的点若呈直线状(大致分布在对角线上),那么可以说明数据的正态性比较好,因此QQ图经常被用在对回归模型残差的正态性诊断上。我的问题是,即使数据真的是正态分布,你是否真的会看见一些分布在直线上的点?若答案是否定的,那么我们就得重新审视我们对分布和随机的认识了。下图是一幅教科书式的QQ图(仍然基于30个正态分布随机数):

“正常的”QQ图
“正常的”QQ图(来自R语言qqnorm(rnorm(30)))

随机性并没有这么美好,即使数据真的来自正态分布,你也有可能很容易观察到歪歪扭扭的QQ图,尤其是小样本的情况下。比如下图是50次重复抽样的正态数据QQ图,它和你想象的QQ图本来的样子差多远?

library(animation)
set.seed(710)
ani.options(interval = 0.1, nmax = 50)
par(mar = c(3, 3, 2, 0.5), mgp = c(1.5, 0.5, 0), tcl = -0.3)
sim.qqnorm(n = 30, pch = 19, col = "red", last.plot = expression(abline(0, 1)))
真实的正态分布QQ图
真实的正态分布QQ图(图中直线为y = x)

正态分布是统计学中比较“正常”的一类分布(台湾学者甚至译为“常态分布”),我们尚不能很好感知它的随机性,就不必说其它“怪异”的分布了。

这是我想说的第一点,作为人类,我们对上帝的骰子至少在感知上就可能有问题(别误会,我不信教),接下来从理性角度分析一下。

二、统计推断

《缩水》一文中提到的基本上都是统计推断方法带来的结果,为了理解这些结果,我们必须三思统计推断本身的过程。一般说来,统计推断有两种途径:随机试验和(概率)统计模型,或者说基于试验的推断和基于模型的推断。前者的代表性方法为置换检验(Permutation test),不过它似乎被大多数人遗忘了,更多的人拿到数据首先想的就是用哪个统计模型和分布;实际上,置换检验是一种极具代表性的统计推理方法,可以用典型的“三段论”来说明它(参见去年江堂的文章):

  1. 要么A,要么B
  2. 若有A,则有C
  3. 若非C,则非A,于是B

置换检验的场景是,一次试验中,我们为试验单元随机分配不同的处理(treatment),为了简单起见,假设这里只有两种处理水平A和B,我们想知道两种处理在试验单元的某项指标上是否有显著差异。逻辑是这样:假设处理毫无效果,那么某一个试验对象的指标将不受处理影响,不管我们给老鼠嗑的是A药还是B药,结果都一样,那么我们可以把处理的标签随机打乱(某些A、B随机互换),打乱后A组和B组的差异不应该会和原来的差异很不一样(因为药不管用嘛),否则,我们恐怕得说,药还是管用的。就这样,我们随机打乱标签很多次,形成一个“人工生成”的AB差异分布(因为我们生成了很多个差异值),看原来的差异在这个分布的什么位置上,如果在很靠近尾巴的位置上,那么就认为P值很小。当了个当,当了个当,P值出场了。对置换检验熟悉的人是否有想过,好像我们一直没谈到什么分布的假设,那这个概率值(P值)是从哪里生出来的?答案是最初的“随机分配处理到试验单元上”。这就涉及到试验设计的一大原则:随机化。为什么要随机化?因为试验单元之间可能本来就有差异,换句话说,如果你不随机化,那么你观察到的差异有可能来自试验单元本身。比如,你从笼子里抓前10只老鼠给嗑A药,后10只老鼠给B药,这就没有随机化,前10只老鼠可能很笨或是老弱病残,容易被你抓住,而后10只老鼠跑得贼快。随机化将这些个体差异转变为了随机的误差,例如两只老鼠之间的确本身有差异,但我要是把它们随机分配给处理,那么这种个体差异就会随机进入处理组,保证统计推断有根基。如果这一点没有理解透彻,试验人员很容易在数据收集阶段就已经收集了错误的数据。《缩水》一文中的试验都是怎么做的,我没空去细究。

基于模型的推断的一大特征就是开始对随机变量做一些分布上的假设,例如两样本t检验,假设样本来自独立同方差的正态分布。仔细想想这里面的问题,对建模和理解模型结果有至关重要的作用。一个最直接的问题就是,假设条件是否可靠?George Box大人很久很久以前就说了一句被引用了无数遍的话:所有的模型都是错的,但有些是有用的。统计学方法很“滑”(用麦兜的话说),它的科学与艺术双重身份,总让人感觉拿捏不准。学数学的人可能觉得艺术太不靠谱,其它外行人士可能觉得科学太神秘。这个问题我不想作答,也无法作答,搁在一边,先说一些我曾经考虑过的问题,它们与《缩水》一文可能并没有直接联系,但应该能或多或少启发我们从源头考虑统计模型,直接上手统计模型的隐患就在于你认为一切都理所当然,随着时间推移,假设渐渐变成了“公理”和“常识”,我觉得这是很可怕的。

第一个问题是似然函数(likelihood function),它是频率学派的命脉,而我们大多数人仍然都是频率学派的“教徒”。对于离散变量来说,基于似然函数的方法如极大似然估计很容易理解:我们要找一个参数值,使得观察到的数据发生的概率最大。这里的“概率”二字应该被重重划上记号!接下来我要提一个让我曾经觉得后背发凉的问题:

为什么对连续变量来说,似然函数是密度函数的乘积?

你是否想过这个问题?我们知道连续变量取任何一个值的概率都是0,也就是说,如果按照概率的方式解释似然函数,那么连续变量的似然函数应该是0才对,换句话说,你观察到的数据发生的概率是0。现在你觉得似然函数还是一个理所当然的统计工具吗?

有一位统计学家叫J. K. Lindsey,1998年在(英国)皇家统计学会宣读了一篇论文,叫Some statistical heresies(一些统计异端邪说),如果你没见过统计学家打仗,那么这篇论文将会让你看到一场超大规模的战争,后面的讨论者中包括Murray Aitkin、D. R. Cox和J. A. Nelder等老江湖。Lindsey的文章几乎是被大家围攻了(期待我这篇文章也能被围攻),不过他对于似然函数的解释倒是让我有点茅塞顿开。细节我不展开,大意是,似然函数也是一种近似(用积分中值定理去想)。

第二个问题是渐近统计(asymptotic statistics),同样,这也是统计学家的日常工具之一,因为太常见,所以也有一种理所当然的味道。比如我们看到列联表就想到卡方检验(检验行列变量的独立性),殊不知卡方检验只是一种大样本下的近似方法。渐近统计的基石是什么?如果你要挖,我想挖到头你一定会挖到泰勒展开。至少目前我认为渐近统计“基本上就是泰勒展开的第二项(或少数情况下第三项)”。理论上泰勒展开有无穷多项,我们往往根据一些假设条件,把后面的高阶项都消灭掉,剩下一次项或二次项。比如你展开似然函数,就得到了似然比检验的卡方分布;你展开极大似然估计的一个连续函数,你就有了Delta方法(当然,需要依分布收敛的前提);就这样左展右展,展出了中心极限定理(对特征函数或母函数展开),展出了拉普拉斯近似(对对数密度函数展开)。如果你能看到这一点,就不会奇怪为什么正态分布在统计推断中有如此中心地位(谁叫正态分布的对数密度函数是个二次函数呢)。

第三个问题是,贝叶斯方法又如何?既然频率学派中几乎处处是近似,贝叶斯学派是否会好一些?我的回答是好不到哪儿去。贝叶斯的逻辑很简单,但由于灵活性太强,应用时非常摧残人的脑力,导致争议不断(先验分布怎么取、MCMC是否收敛等)。在《缩水》一文中,恐怕是没有基于贝叶斯方法的试验,因为在所谓的科学试验中,人们往往排斥“先验”这种想法,就好像先验一定代表主观、而客观一定正确一样。逻辑上,这是荒谬的。关于这些问题的重磅讨论,可参考Efron去年发表的The Future of Indirect Evidence以及文章后面Gelman他们三个人的讨论。我总感觉这不是我这个年龄应该看的东西,太哲学了。

我提到这些问题,本意是给统计学家看的,如果你是一个合格的统计学家,你自己首先应该意识到统计学的局限性,而不是拿到数据就分析。

三、万能的P值?

早些年当我还是个无知轻狂小子的时候,我曾戏称“统计软件就是为了放个P”,这里的P指的是P值,不是粗话。这话好像也不全然轻狂无知。使用统计方法的人,难道不是在追逐一个小于0.05的P值吗?如果你的结果不显著,那么肯定发表不了。换句话说,发表的结果很有可能是我们在自欺欺人。下面的漫画生动刻画了人们寻找P值的过程(来自xkcd):

Significant
Significant

重大科学发现!吃绿色的软糖会让你长痘痘!95%置信度!

当你看到95%的时候,你看不到红色的、灰色的、褐色的、橙色的、黄色的软糖……这便是《缩水》一文中说的“发表偏见”(publication bias,“偏见”翻译似乎不妥),即发表的结果是经过人工选择的,你已经不能用正常的概率意义去解读它,或者说,概率已经变了样。

插一句“统计学意义”:这个概念本来的英文是statistical significance,但是被很多专业的人翻译为“统计学意义”,我一直认为这很不妥,给人一种错觉,仿佛统计学保证了什么东西有意义一样,我提倡的译法是“统计显著性”。尤其是“由于P值小于0.05,所以具有统计学意义”这种话,我觉得应该见一句删一句。

上面的软糖问题涉及到传统的多重比较(multiple comparison)与P值调整,这里“传统”指的是要控制族错误率(Familywise Error Rate,下文简称FWER)。所谓控制FWER,也就是要使得一族(多个)统计检验中,一个第一类错误都不犯的概率控制在一定水平之下,比如0.05。让多个检验全都不犯错和单个检验不犯错(指第一类错误)显然是有区别的,比如假设所有的检验都是独立的,一个检验不犯错的概率是95%,两个都不犯错的概率就变成了95% * 95% = 90.25%,检验越多,不犯错的概率就越小。把整体的第一类错误率控制在某个alpha值之下,就意味着单个检验必须更“严格”,因此我们不能再以0.05去衡量每个检验是否显著,而要以更小的值去衡量,这就是P值的调整,老办法有Bonferroni等方法。

控制FWER显得有些苛刻,比如有10000个基因都需要检验在不同处理下的表达差异,那么要是按照传统的P值调整方法,恐怕是很难得出某个基因显著的结论(因为alpha值会被调得极其小)。FWER的目标是一个错误都不能犯,但实际上我们也许可以容忍在那些我们宣称显著的结果中,有少数其实是犯错的,就看你是不是“宁愿错杀三千,也不放过一个”了。

Efron在前面我提到的文章中把Benjamini和Hochberg在1995年的论文称为“二战以来统计界第二伟大的成果”(他把第一名给了James & Stein的有偏估计),那么B&H做了什么?答案就是虚假发现率(False Discovery Rate,下文简称FDR)。FDR要控制的是在宣称显著的结论中错误的结论的比例,比如10000个基因中有100个基因显著,但实际上有5个是虚假的发现(即本来这5个基因分别在两种处理下的表达并没有差异)。尽管有错误存在,但我们认为可以承受。

初学者到这里应该可以意识到了,通过FDR选出来的结果在理论上就已经存在错误了,当然这只是小问题,更大的问题在于,FDR的定义实际上是一个期望的形式:真实的零假设个数除以被拒绝的零假设个数的期望(零假设是没有差异)。凡是涉及到期望的东西,我们都应该冷静三秒想一下,期望意味着什么?

假设有一个游戏,你获胜的概率是70%,要是赢了,你得到一百万,要是输了,你付出一百万;获利的期望是40万。现在我请你去玩,一把定输赢,你玩不玩?我相信大多数人不会玩(除非你实在太有钱了),为什么期望是赚40万你也不玩?因为期望往往是“样本量无穷大”你才能隐约看到的东西,玩一次游戏,输掉一百万的概率是30%,恐怕你不敢。

FDR是个期望,也就是你做很多次试验,平均来看,FDR在某个数值附近。一次试验中它究竟在哪儿,谁都不知道。就像(频率学派的)置信区间一样,我给你一个区间,其实你并不知道参数在不在区间里,你也无法用概率的方式去描述单个区间,比如你不能说“参数落在这个区间内的概率是95%”(只有无数次抽样重新计算区间,这无数个区间覆盖真实参数的概率才是95%)。

所以,某种意义上,概率论源于赌博,而统计学在骨子里一直都是赌博。旁观者看赌徒,总觉得他在赚钱。当然,统计学家是“高级赌徒”,他们不是随机乱赌。

四、可重复的统计研究

看到这里,你大概也脑子有点抽筋了(如果你把我提到的Lindsey和Efron的文章都看过了的话),我们换个轻松点的话题:可重复的统计研究。这不是我第一次提它,我们一直都在号召可重复的统计研究(如《Sweave:打造一个可重复的统计研究流程》)。还是老话一句,不谈道德问题,因为这是不可控的因素,我们可控的只有制度和工具。源代码不会撒谎。

我们期待学术研究过程的透明化,至少统计之都在努力。

关于谢益辉

RStudio码了个工,Iowa State University统计系博了个士。统计之都网站创办者;研究兴趣为统计图形及数据可视化,对统计模型方法的发展感兴趣但不喜欢纯粹抽象的数学理论,以直观、实用为学习标准;偏好以R语言为工具;Email:xie@yihui.name;个人主页:http://yihui.name

真理在缩水,还是上帝在掷骰子?》有44个想法

  1. 1. 刚看完《缩水》和谢老大这篇文章,想起前段时间看的一个谈“Unbiased Look at Dataset Bias”的文章http://www.cvchina.info/2011/06/23/cvpr-nb-paper/。真实的试验数据集多多少少总会带上主观选择的色彩,这个很难避免,即使随机化了,由于数据获取的问题,小样本下,多次重复试验时出现的统计显著性当然会不同,因此需要调整P值,需要这个FDR(话说第一次听这个,真是离统计越来越远了,汗..),于是统计确实像是在赌博,赌承受能力有多大,赌有生之年会不会被小概率事件给砸死…不知我的理解是否正确
    2. 我觉得说到期望,必须得与方差联系在一起,一次实验,赌的更多的是承受这个波动的能力有多大
    3. 依稀记得课本中说,对于连续型变量,似然函数是一个与参数无关的邻域与概率密度的乘积所得到的概率,所以求极大值时候省掉了那个邻域,直接变成了概率密度的乘积。当然当初没有认真想这个问题,还是去看看那篇40的论文去…
    4. 对于这篇文章,赞一下!

  2. George Box的“任何模型都是错的,但有些是有用的”的这个名言太赞了。另外,统计里面的一个基本概念是说,小概率事件在一次试验中不可能发生。众多的假设检验也正式基于此。其实对于一次试验的结果,要么是发生了要么是没有,如果关注某次试验的结果,概率还是很无力。

  3. 我几乎完全同意本文的所有观点。我个人有个建议,大家可以做一些模拟的训练,来加强对于随机问题直觉。比如随机生成1000组数据,每组数据包含500个观测值,每个观测值都是用均值为5,方差为5的正态分布来独立生成。每组数据计算平均值,然后把结果记录下来。然后用均值,方差,直方图之类的你所知道的所有技术对这1000个平均值进行分析,尤其注意的是那些“反常的”平均值,特别大的或者特别小的。接下来可以把500个观测值逐步减小,比如减到50或者20,再重复上述的过程。有了这样的经历会让你在直觉上对上帝的骰子有更深入的把握。也能够理解可重复性在科研中的重要。

  4. 真理没有缩水,而是探索真理的方法出现了迷失。以金融市场为例,由于人们对时间序列的执着,想当然地认为对时间采取固定间隔的划分可以窥视数据的全貌,其结果就是上帝在掷骰子。

  5. 谢兄想得很深啊,呵呵。。。这些看似最基本的一些统计学概念/问题对于真正搞懂统计,正确用统计思考问题解决问题是及其关键的。我也很同意你的观点。。。 统计 近多少年来在理论上已经很难有突破了,所谓的新方法一般也就是把简单问题变复杂,然后再把复杂的方法,算法 再 近似成“简单”。。。 对简单的模型用精确的算法, 比之 对复杂的模型用近似 的方法, 孰优孰劣呢, 很多时候难说。 希望,在不久,真的会有另一个Fisher出现。

  6. 很精彩!

    在我没有看Lindsey的paper之前,我并不同意似然是一种近似或者与积分中值定理有关。连续随机变量和离散随机变量并没有本质区别,只是一个相对counting measure,一个相对lebesgue measure。不过我同意似然并非万能,比如Cauchy分布的似然就表现很奇特。指数分布族下,似然应该接近完美。

    似然的观点其实可以和纯频率学派划清界限。Pearson用矩估计,可以看成正统的频率学派;Fisher用似然,其实更和Bayes相近。只是我们的教科书证明最大似然估计的渐近性质,用到了大数定律和中心极限定理(+泰勒展开),把似然的观点弄成频率学派。

    另外,“渐进”->“渐近”。

    1. 谢谢纠正错别字,我居然把所有的渐近都写错了,汗。

      你说的也有道理,我以前也是这么想的:尽管密度不直接是概率,但它在某种程度上也体现了概率的相对大小。Lindsey的文章里提了说Fisher老爷子当年定义似然函数的时候在这里非常小心,Fisher用的就是领域内的积分来表示似然函数(这是真正意义上的概率),并不是直接用的密度函数。(如2楼高涛所说)

      似然与Bayes更近这说法我也同意,矩估计的基础是期望,而期望则是频率学派的典型特征。

    2. 我赞成楼上的观点!应该来说likelihood本是自成一家,处于frequentist 与bayesian以外!但是被许多人所误解,毕竟大部分教科书介绍likelihood的时侯是通过密度函数引入的,容易误解!当然他们也是亲戚,频率学派最早只是提出了基于频率的参数估计优良特性是什么!但实际上并没有给出相应的方法,而Fisher在这方面做了大量的工作!

  7. 很喜欢小谢的文章。
    我上统计学课的时候,给学生介绍统计软件,还引用过小谢的话。还直接得到过他的帮助。
    作为一个概率出身的人,想说几句关于概率论的话。概率论是一个数学理论,她象任何一个数学理论一样,有她的三个方面的内容:直观,形式逻辑,应用。而随机变量是为了形式逻辑部分的研究而存在的。相对于其他数学中的对象,她应该算是比较直观的了。
    概率论的直观和应用都非常丰富,但这不能作为她的全部,她的中心应该还是形式逻辑的部分。概率论不能专门为哪一个应用而存在。象任何的理论一样,她应该是普适性的。这就要求她应该有自己的理论体系。这也不可避免的会损害她的直观性。但这不是概率论理论的问题,而是任何想应用这个理论的人应该考虑的问题。概率论说到底也只是个工具而已。好比一个锤子,你拿来用可能是不趁手的,因为这个锤子不是为某个人造的。但是这毕竟是一个锤子,可以在很多地方用上。
    不知道这些话发在这里是否合适,因为看到了,就有些话想说了。关于上面的话,其实在W.Feller的书里有更多的话。因为恰好反映了我想说的话,有些就直接拿来用了。

    1. 很高兴看到张老师的评论,因为我在数学方面功底不行,所以我一直都想听听数学出身的人怎么想。关于形式逻辑,让我想起来当年张波老师教我们实变函数,当时我心里是八百个痛苦,因为那玩意儿没办法从直观角度去考虑,或者非要从直观角度考虑的话,就会学得很慢很慢,后来我心想算了,这定理套定理的东西只管逻辑就行了,追求直观是自找麻烦。到现在我还是很怵形式逻辑,测度论学得一塌糊涂。有一次我斗胆问了我们系一位测度论老大师(老大+大师+老师),您在概率论或数理统计中见过不可测的集合吗?估计老爷子心里很不高兴,说没有,但你若需要我可以给你造一个。从我的角度来说,我看到的是我们花了很多时间和精力在定义(外)测度、可测集合、可测函数,但当我们步入概率论的领域时,这些基本概念都成了“理所当然”的东西,谈论的对象都是可测的;讲Lebesgue积分时常引用那个Riemann积分不存在的例子,可是那种“奇怪的”函数(Dirichlet)只是从逻辑中构造出来的而已,当我们步入概率论时,看到的都是“乖乖听话”的函数,积分仍然都是Riemann积分。这些都是我的困惑,当然,也可能只是因为我比较懒,于是自欺而已。

      抽象肯定有抽象的好处,就算是编程序写代码也需要抽象,否则代码很容易陷入杂乱无章的状态。统计图形界的大佬Antony Unwin去年在ASA的一份Newsletter中写了一篇文章Getting into hot water over hot graphics,当时我读的时候对其中一句话印象比较深刻:让严谨的数学家远离数据分析是件好事(后半句我就不翻译了)。

      无论如何,谢谢分享观点,闲暇之余,还想请张老师在这里写两篇小文章,推动咱们学院老师的上网工程啊:)

  8. 曾经有过以下的发生在TEXAS的故事:
    几个经济或管理系的研究生在大学书店里翻看了LEHMANN的两本专著后说,这书一点儿都不好读,我们的统计教材那么清楚,谁读这破书!话音刚落,一个数学系的学生愤愤道:你读不懂也罢不需要读也罢,但是你不能贬低它们!
    我想说:因为对数学,概率和统计系思想的了解不足导致我们生出那些所谓的WEIRDNESS,我们的无知使我们对这些理论生出许多不切实际的幻想。实际上那些先贤比你我要严谨的多!顺便说一句,不懂数学才会产生数学无用的感慨!

    1. 我道听途说(听我们一位老师说的),说UC Berkeley的统计系研究生现在也不用Lehmann的那两本教材了(如果这里有UCB的学生可以验证一下)。关于理论的用处,我比较同意上面张景肖老师的看法。另外我还有一个很傻很天真的想法,那就是人生太短,测度太长,这也是我总是不情愿花太多时间在太源头的知识上的原因,尽管我在本文体现的意思是要注重源头上的理论,但我的源头定在概率论上,再往前,我就吃不消了。各人有各人的研究兴趣,贬低别人当然是不对的。

      关于先贤的严谨,我们自然得同意。人们生出数学无用的感慨,我想也不是全无道理,可能主要是因为严谨只能存在于数学的世界,在一套公理化结构下,结论都是严谨的。统计学里包括理论研究和应用,一旦到了应用,我们不可避免要呲牙咧嘴:因为实在是很难追求数学那样的严谨。最典型的问题就是理论假设很难严格验证,很多时候都只能是凭经验(就比如读一幅QQ图,你无法“严谨”)。这些争论其实都无关紧要,有用也罢无用也罢,重要的是拿捏好科学与艺术的平衡,知道理论在哪里可以让步,哪里必须坚守,哪里可能有危险以及危险是否能承受。大隐隐于市。

  9. 即使是频率学派也没法摆脱主观判断,比如说同样的数据,如果检验的效力不够,也依然可以让互相矛盾的假设通过检验。这时岂不是可以说统计的结论有时取决于人所希望出现的结果了?
    所以我认为统计只是人类在不能认识真实世界的时候,迫不得已才使用的一种工具,它与真实的世界图景无关,而只与人类对世界的感受有关;或者说统计本来就是纯粹的主观的方法,只要它符合人类的经验,并证明了对人的实践活动有用,那统计就是有意义的,去追求纯粹“客观”的统计学,根本是不可能做的到的。
    以前有一位老师跟我说过四个字“有胜于无”,我想这就是统计的全部意义。即便是统计推断的结果离真相相差甚远,但至少我们比没有统计的时候知道了更多的信息,我们的信心就会更足,即便是可能有错误的信息,也比完全没有信息更好。
    这也是统计与数学的不同所在。数学所追求的是真正的世界的真相,而统计学不是。

  10. 我们可以这样想,如果没有对随机现象的基于概率论的精确表达,统计推断的方法从何而来?难道都给予感受和直觉?统计之所以有受人之诟的不精确的一面就是由于他一开始就放弃了对机制的准确认识而仅仅想从观察中认识机制。所以,没有对统计推断原理的良好理解是不可能驾驭好统计方法的。正向眼下的美国人在滥用统计一样!

  11. 我居然现在才看到这篇好文章!前后读了两遍,受益匪浅啊~很多东西原来只知其然不知其所以然,比如delta方法,现在终于知道来源了。
    我统计学学的不多,不好对文中大多数观点评价什么。只是yihui提到了一个例子跟我本专业有关,所以来说两句:
    “我相信大多数人不会玩(除非你实在太有钱了)”
    从最近的行为经济学的研究来看,我们对于这种行为的解释是人们除了有“预期”之外,还有风险厌恶的情形。简单的说,“输掉100万”是他们最不爱看的情况,从效用论的角度来说这种“负”效用会远远大于“赢得100万”的效用。这样的解释是建立一个新的效用函数,把“货币收益”map到“效用”。稍复杂的模型设计到regret aversion等等,总之就是人们不喜欢后悔。
    所以从我的观点来说,“期望”并不一定不可取,只是这个期望到底是怎么算出来的有待考量。这就牵扯到经济学中对于“期望效用理论”这个foundation的争论,可算是说来话长了。

    1. 经济学上的期望是什么概念我不确定,统计学上的期望往往隐含着“样本量无穷大”的意思。关于这个话题,本来还有另一个值得写的话题t检验与Satterthwaite近似,但估计写出来就更没有人看了。

      1. 经济学上的期望定义应该和基本概率论一致,离散变量是概率的加权平均值,连续变量就是那个积分。只是经济学额外的加上一个效用函数,所以期望收益≠期望效用,如果效用函数不是纯线性的话。

  12. 读罢此文还是受用,交流几点看法:
    1.“我们知道连续变量取任何一个值的概率都是0”坦率地说,我没有学过这句话,我只记得是非常小,当然你额可以说非常小可以近似为0!(R一例dnorm(0)[1] 0.3989423)不知哥们你如何解释呢?我个人理解连续型随机变量,只是借用了数学中函数连续性的概念,强调了在定义域内的无限分割,在计算上可以采用积分而已!很多时候即使在直接的测定刻度下,观察值的范围并不大!
    2.statistical significance是被很多专业的人翻译为“统计学意义”。可能我孤陋寡闻了,你不说我还不知道有这种译法!我从学习统计学开始,就是统计显著性。不知道那些哥们,都看的是什么大作!
    3. 我认为permutation,与bootstrap都是直接实现了统计推断的哲学思想!当然,这主要是依赖于计算机的强大!今天的我们被统计学中的数学所固化,所以习惯了常用的统计分布函数!
    4.统计推断本质上是一个决策过程,准确一点是基于概率或随机数学的决策过程!在一次统计推断中,在模型确定的情况下,究竟倾向于减少那类错误的发生率在于本人!其实统计推断效率提高的过程,是在统计模型建立的阶段,模型错误,再好的戏估计也出不来,而这又依赖于专业或者经验!

    1. dnorm(0)的意思是标准正态分布的密度函数在0处的取值,它并不是正态分布随机变量X = 0的概率。重复:密度不是概率。

      1. 密度函数的全称是probability density function, 另外还有probability cumulative function or probability mass function! 那这几个基本定义的概率二字还是不能去掉的吧!

        。。。。。。可能你的是对的吧!

  13. 以前上数理统计的时候,老师说,数学是科学,统计是艺术;科学有对错,艺术只有好坏。
    后来,看到 Rao 的那本《统计与真理》越来越体会到这句话的内涵了。
    逻辑上,数学是演绎推理,统计是归纳推理。我想,这可能是最本质的区别了吧。

  14. 边看边评论

    关于连续随机变量的似然问题,那场争论的确发人深省,不过在第一次接触这个概念时,对我来说却很自然(牛人才会去争论。。。),说白了就是中值定理作近似,只不过大家都消去了一个公共的因子——矩阵切条的宽边长度

    实际上,过分强调样本点的“精确值”有时是有害的。这里我要稍做解释。我们在计算似然时,总是使用似然函数在“样本点上”的取值,但实际上样本点有测量误差,从这个角度上看这样做就是有问题的,但这一般不会导致大的麻烦。让人崩溃的情况却不少,其中之一就是我最近在做的所谓conditional inference。这玩意Fisher在低维情形下玩过,列联表里的Fisher精确检验就是一例,能够消去nuisance parameter(参考sufficient statistic),在不容易找到枢轴变量时,确实是很漂亮的解决方案,power也很不错。

    但问题来了,如果需要condition的nuisance para比较多时,这时相当于y和X之间需要满足很多等式限制条件(即使许多时候是线性约束),这就使得找到这样的y极其困难,condition方法的应用也就举步维艰。按我构造的例子,仅控制1个5水平的离散变量,现有的大部分方法就失效了,因为找不到这样的y(或者效率极低)。精确满足多个等式约束啊同学,太坑爹了。

    所以似然的精确程度是浮云,过得去就行了~

    1. 我不太懂你说的条件推断,不过你的观点我非常同意——样本观测通常有误差,对不精确的数据做精巧的方法可能真的只是自寻烦恼。

  15. 这篇是好文章,值得细细品读……看了最大的感受有三点:
    一、还是得回过头来好好考虑概率是什么,数学期望是什么。不少初等的书把概率定义成可能性大小的量度,具体怎么度量,看不见摸不着,就一个数,学习的时候糊弄一下就过去了,也没细究。学了测度论以后,当然就不满足这样的定义。(顺便一提,我觉得Kolmogorov的贡献非常重要,公理化的概率论为我们提供了一套逻辑上自洽的概率体系,不管大家在形而上学的层面怎么看概率,至少都同意他这套运算规则,而概率论中的全部结论,都只是依赖于公理中的约定,而不是某些经验上的东西。)然而,说到底,要直观感受表示可能性大小的“概率”而不是数学对象的“概率”,最后还是得回到初等的“频率”的概念,概率可以看成是服从伯努利分布的随机变量的数学期望,这要回到谢老师的论述:期望往往是“样本量无穷大”你才能隐约看到的东西。我能想象到的最直观的感知概率的办法就是样本量无穷大的时候的频率,这件事情能够办到的基础是“大数定律”,而且我认为,这一定律就和物理定律一样是关于客观世界的,与数学中证明的“大数定律”享用同一个名字,但意思不一样。
    二、即使模糊地去理解概率,有些事情发生的可能性是出乎我们意料的大,只是我们主观地认为这件事情发生的可能性很小。50个人存在两人同一天生日的故事就不说了。本文也讲了这样一个例子:一个iid服从标准正态的样本(样本量为30),对于每一个观测值,绝对值在2以下的概率是0.9544997,30个的绝对值在2以下的概率却是0.9544997^30= 0.2473283,随便的整一组标准正态的数据,有超过四分之三(1-0.2473283= 0.7526717)的概率看到“离群值”。
    另外,人把握随机的东西是有一定困难的,Varian的中级微观经济学讲过一个例子:网球选手应该随机地变换发球区域,使得对手很难猜。一些研究表明,网球高手们确实试图随机发球,但他们的表现是“矫枉过正”,表现得过度随机了。
    三、本文中“万能的P值”一节实际上也从某个角度反映了经济学方面经验研究的一些现象。尤其在国内,很多研究都让人读后感到不可信。
    以上纯粹是个人不成熟的想法,请谢老师指正……

      1. 关于随机发球的那个,好像在心理学中叫代表性直觉偏差。

  16. 真理没有缩水,而是探索真理的方法出现了迷失。以金融市场为例,由于人们对时间序列的执着,想当然地认为对时间采取固定间隔的划分可以窥视数据的全貌,其结果就是上帝在掷骰子。

    这个同学的理解非常好:“以金融市场为例,由于人们对时间序列的执着,想当然地认为对时间采取固定间隔的划分可以窥视数据的全貌”~~~宏观数据之时间序列:也是变频的~~

  17. 翻了下Efron的The Future of Indirect Evidence,发现二战后的最伟大的成果是JS估计,第二才是FDR。谢老大笔误了..

  18. 关于fdr的说法并不准确,fdr确实是一个期望,但是它确实控制了犯错概率的,并不能说它是期望就说它不能在联合假设检验中控制第一类错误。也就说其实在fdr下还是能保证显著性的。当然对于显著性,我觉得能说的就是统计认为小概率事件不发生,概率告诉我们小概率总会发生。

  19. "把整体的第一类错误率控制在某个alpha值之下,就意味着单个检验必须更“严格”,因此我们不能再以0.05去衡量每个检验是否显著,而要以更小的值去衡量,这就是P值的调整,老办法有Bonferroni等方法。"

    Here the "更小" should be "更大"…

  20. “让多个检验全都不犯错和单个检验不犯错(指第一类错误)显然是有区别的,比如假设所有的检验都是独立的,一个检验不犯错的概率是95%,两个都不犯错的概率就变成了95% * 95% = 90.25%,检验越多,不犯错的概率就越小。把整体的第一类错误率控制在某个alpha值之下,就意味着单个检验必须更“严格”,因此我们不能再以0.05去衡量每个检验是否显著,而要以更小的值去衡量”

    这一段与我们的直觉相反, 理论上看起来没错, 但解释错了: 多个检验都不犯错的概率变小是指如果事实是A, 但越多的检验方法,越有可能把事实为A否定掉. 反过来说如果多个检验方法都通过了A(95%的置信水平), 则A为事实的可能性越大(1-0.05*0.05*0.05…)

徐铣明进行回复 取消回复

邮箱地址不会被公开。 必填项已用*标注