不得不提的P值

在论坛,经常发现有人发关于P值的帖子,搜索了一下,一共有29个关于P值的帖子。的确,P值是最常用的一个统计学指标,几乎统计软件输出结果都有P值。了解p值的由来、计算和意义很有必要。

一、P值的由来

R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)Fisher的具体做法是:

  1. 假定某一参数的取值。
  2. 选择一个检验统计量(例如z 统计量或Z 统计量) ,该统计量的分布在假定的参数取值为真时应该是完全已知的。
  3. 从研究总体中抽取一个随机样本4计算检验统计量的值5计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率。
  • 如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。
  • 如果0.01<P值<0.05,说明较弱的判定结果,拒接假定的参数取值。
  • 如果P值>0.05,说明结果更倾向于接受假定的参数取值。

可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平$\alpha$,也就是说事先确定了拒绝域。但是,如果选中相同的$\alpha$,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。

因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。

二、P值的计算

为理解P值的计算过程,用$Z$表示检验的统计量,$Z_C$表示根据样本数据计算得到的检验统计量值。

左侧检验 $H_0: \mu \geq \mu_0$ vs $H_1: \mu < \mu_0$

P值是当$\mu = \mu_0$时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = $P(Z_C \leq Z | \mu = \mu_0)$

右侧检验 $H_0: \mu \leq \mu_0$ vs $H_1: \mu > \mu_0$

P值是当$\mu = \mu_0$时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = $P(Z_C \geq Z | \mu = \mu_0)$

双侧检验 $H_0: \mu = \mu_0$ vs $H_1: \mu \neq \mu_0$

P值是当$\mu = \mu_0$时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = $2P(Z_C \geq |Z|\, | \mu = \mu_0)$

三、P值的意义

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。

总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

不得不提的P值》有16个想法

  1. 通常是以 “H0 与 H1”, 或是 “Ho 与 Ha” (此处之 o 系 little o, 而非如前者之 zero), 在式子里表述那 Null 与 Alternative 假设 (Hypothesis), 而这 “0 与 1”, 或是 “o 与 a”, 在文稿中又都(需)以下标 (subscript) 来呈现; 因此想建议何不就采用 NH 与 AH, 简单明了? … 野人献曝也.

  2. 嗬嗬, 好像没人注意到我想建议的其实是以 NH 与 AH 来替代目前所使用的 … 🙂

  3. According to Freedman et al. (1991, pages 494 and A-27),
    R. A. Fisher was one of the rst to publish such tables, and it seems to have been his idea to lay them out that way. There is a limited amount of room on a page. Once the number of levels was limited, .05 and .01 stood out as nice round numbers, and they soon acquired a magical life of their own. With computers everywhere, this kind of table is almost obsolete. So are the .05 and .01 levels.
    This history is on the authority of G. A. Barnard, formerly professor of statistics, Imperial College of Science and Technology, London; now retired.

    Freedman, D., Pisani, R., Purves, R., and Adhikari, A. (1991), Statistics, New York: Norton,
    2nd edition.

  4. 补充几点关于p值的说法,欢迎大家讨论指正哈

    一 p值究竟是否等于evidence?

    p值并不等于evidence,这一点是应用统计中经常犯的错误,正如correlation不等于causality一样。严格的来说,只有likelihood才能衡量evidence。 p值小有很多原因,也有可能是样本太少,或者数据问题。这些都还好理解,最需要注意的一点是,p值不具有概率那样的可以拿来比较的性质。就是说,今天我对一个假设检验进行检验,发现p=0.01,明天我重复了一遍,发现p=0.001. 对于这两个结果我们能说他们不一样吗?很难。。。

    二 p 值究竟是什么

    关于这一点,下面这篇文章是强烈推荐的
    dempster (1997) the direct use of likelihood in significance testing, statistics and computing 7。
    一个很重要的结论是,在某些特定的假设检验,尤其是likelihood ratio testing上,p值实际上就是p(lrt>1|x)。这是什么呢?这就是说,给定样本x, likelihood ratio>1的概率。
    所以说,从这个角度出发,站在我们无敌的likelihood 的理论角度出发,p值跟bayesian theory又联系在了一起。

    神奇的地球。。

  5. to 八楼楼主,

    “p值不具有概率那样的可以拿来比较的性质”?我随时接受新看法了,以前我举过一个掷硬币的例子:
    http://cos.name/2008/12/p-value-notes/

    每次出现的正面数都是50,你就有把握认为这是一枚均匀的硬币;

    正面数等于45或者等于55,你就有一点点的怀疑它是均匀的;

    正面数等于30或者等于70,比较怀疑;

    正面数等于10或者等于90,非常怀疑。

    相应地都可以算出一个p值来,其间有程度的区别啊。

    1. 你这个例子是对总体信息的判断,而实际中都是基于样本数据的判断,所以你的例子中P值是确定性变量,而实际中P值是个随机变量.例如你两天用同一个硬币做实验昨天的P值为0.06,今天的P值为0.04,这个差异只是由于随机因素影响产生,我们不能对比后下两个矛盾的结论.

  6. 回楼下的哈:

    概率是一个建立在测度论上,满足三大公理的一个衡量证据的严密的“尺子”。但是对于p值,它的原始定义不是概率。

    见 statistical inference by george casella and roger berger, p.397

    “a p-value p(x) is a test statistic satisfying 0<=p<=1 for every sample x. small values of p(x) give evidence that the alternative model is true.”

    之所以要引用这段话不是为了拉虎皮做幌子。有两个值得注意的地方。第一,它说的p值是一个统计量,是x的函数,因此它不是概率,虽然它也是【0,1】上的取值。第二,x是一个随机变量,那么p值同样是一个随机变量。(事实上,p值在原假设成立的情况上是默认为均匀分布的。)所以,同样的假设检验过程放在两次系统的取样上,你得到的只是一个随机变量(p值)的两次观测值,然后拿这两个随机值去比较大小,逻辑上是说不通的。。

    另外,如果不好理解的话,可以看fisher的multiple testing, 他把多个假设检验的结果结合在一块来做p值的调整,其中一个假设就是,这多个p值在原假设成立的情况下是均匀分布的,因此他设计的新的统计量就是-2*sum(ln(pi))。那么,如果说p值可以衡量大小的话,为什么fisher不用最小的那个p值直接下结论,而要用这样一个复杂的公式去结合所有的p值,然后重新比较chi square的分位点来做决策呢?

    而对于你举的例子,其实你已经默认原假设是错误的,所以根据原假设来看,【10,90】确实比【30,70】发生的概率要小。但是如果你不知道原假设是否成立,你的p值就不知道是从哪个分布算出来的了。比如【10,90】的时候,分布参数=0.4,p值=0.01;在【30,70】的时候,分布参数=0.3《0.4,但是p值却可以是0.1。。

  7. 向楼上的学习了!
    不过,我觉得10楼并没有真正的回答上面的问题。
    按照我的理解,p值之所以出现随机性,是由于抽样的随机性导致的,也就是说,对于同一个实验,随机抽样可能导致不同p值的出现,而这些p值是没有可比性,这就是8楼说的0.01和0.001的p值不能说明什么的原因(不过这种现象一般不会出现),也是为什么fisher创造一个新的公式的意义。
    而对于不同的实验,p值是粗略比较的,这种可比性也是p值重要的原因。否则,我们大可以用t值和t临界值比较的方法来处理问题。
    对于9楼的疑问,一个真正均匀的硬币,几乎是不可能得到正面数等于30或者70的结果。9楼所提的4个实验,可以当成4枚硬币的4个分别实验。而根据4个不同实验的p值,便可得到硬币的均匀程度的合理估量。

  8. 看了。。。。。。

    学习了。。。。。

    糊途了。。。。。

  9. 有点晕了,好多统计教材都是说p-value是概率,前段时间看到卡塞拉的《统计推断》上面说p-value确实是样本x的函数!

发表评论

邮箱地址不会被公开。 必填项已用*标注