希格斯玻色子与5σ

本文转自施涛博客,原文链接请点击此处

2012年7月4日,欧洲核子研究组织(CERN, the European Organization for Nuclear Research)的物理学家们宣布发现在欧洲大型强子对撞机中一种疑似希格斯玻色子(Higgs Boson)。

[抄自wikipedia]:希格斯玻色子是粒子物理學的标准模型所预言的一种基本粒子。标准模型预言了62种基本粒子,希格斯玻色子是最后一种有待被实验证实的粒子。在希格斯玻色子是以物理学者彼得·希格斯命名。由于它对于基本粒子的基础性质扮演极为重要的角色,因此在大众传媒中又被称为「上帝粒子」

作为只有高中物理水平的民科,我也能从物理学家们在宣布这发现时的激动(看下面视频)中感到这发现的重大。

另外,推荐对数据分析有兴趣的听一下这神粒子的声音(Listen to the decay of a god particle)。一群粒子物理学家,编曲家,软件工程师,和艺术家用粒子对撞机的数据编成的曲目。另类的数据展示,太强大了!

除了表达对科学家的敬仰外,我也对其中提到的 5$\sigma$ 很感兴趣。既然祖师爷John Tukey说过

The best thing about being a statistician is that you get to play in everyone’s backyard,

我倍受鼓励的来看看这 5$\sigma$ 到底是怎么回事。视频中的点睛之笔:

We have observed a new boson with a mass of 125.3 +- 0.6 GeV at 4.9 σ significance.

念玩后大家鼓掌拥抱,热泪盈眶。一番周折后,我才终于找到了CERN的 原版视频(将近两小时,值得看看)。

开始时只是想搞清楚这 5$\sigma $怎么回事(35:10,第84页),没想到听到一堆统计词汇“multivariate analysis technique”,“p-value”,”sensitivity”, 等等劈头盖脸的飞来。最给力的是 Rolf Heuer 讲了一些用Boosted decision tree来提高分类器准确性的过程(18:20,第33页)。不出所料,研究中用到了很前沿的数据分析方法。老祖师果然没错。看来欲知其中细节,得看数据分析啊!

比较遗憾的是我比较看不懂的是环球科学(科学美国人中文版)的文章 “希格斯粒子现身LHC?”最后对 5$\sigma$ 的解释:

估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用$\alpha$表示。1-$\alpha$ 为置信度或置信水平,其表明了区间估计的可靠性。显著性水平不是一个固定不变的数字,其越大,则原假设被拒绝的可能性愈大,文章中置信度为5$\sigma$(5个标准误差),说明原假设的可信程度达到了99.99997%。

好像这是把假设检验和置信区间绞在一起解释了。本来看了视频还我还觉着我这物理外行也看懂了,现在又被解释糊涂了。谁能看懂给解释一下?

希格斯玻色子与5σ》有14个想法

  1. 正态分布中,正负一个标准差覆盖67%,两个标准差97%,三个99.7%,是这个意思么?数字可能记错了,大意如是。

  2. 做应用的人喜欢p-value,也喜欢乱解释p-value。很多人说话,其实包含的是贝叶斯的论断,但是又用的是频率的术语,这样就导致混乱。

    1. 那你觉得这里面有贝叶斯的影响吗?

      对了,我还等着学习因果推断呢,期待中。。。 没准最后可以搞明白是
      “因为Higgs Boson存在,所以我们最终找到了它”
      还是
      “因为我们找到了个粒子象Higgs Boson,所以它存在。”

      1. 比如这句话 “原假设的可信程度达到了99.99997%”,这其实并不是对假设检验正确的解释。作者显然是把1 – pvalue当成原假设的概率了。只有贝叶斯才讲原假设的概率—虽然我觉得贝叶斯讲不清楚。

  3. “The best thing about being a statistician is that you get to play in everyone’s backyard”
    对这一句话表示羡慕

    1. 只要你尊重别人的工作,愿意学习别人领域的知识背景和语言来与该领域的专家交流,以事实和数据为工具,就都有很大可能促进那个领域的发展的。大多数领域和人还都是以“抓住老鼠的就是好猫”的观点来评价工作结果的。

      1. 嗯,其实我并非是统计学专业的,但是我们的研究中必须用到统计,所以一直觉得统计学家特别牛!

      2. Re: hcp4715 啊,搞统计学的其实一点都不牛,只有解决了实际问题太能体现出有用来。空中楼阁大多数时也无用。等过几天摘要个Tukey语录来散布一下。

  4. 按照严谨的频率论的解释,应该说如果原假设正确的话,出现这种结果的概率是xxx..不过通常情况下把它理解为原假设正确的概率区别也不大,反正用起来都一样。何况这是个科普文章,不可能要求那么严格..
    这里的5sigma就是说在纯本底假设(即Higgs 不存在的情况下),他们得到这个数据的概率是xxx(正态分布下5sigma所对应的概率,10^(-7)?) 既然这个概率如此之小,所以就说明Higgs粒子是存在的。
    实际上说CERN的分析里头使用的使用的CL并不是通常所定义的CL,而是更保守的CLs方法…具体的就太细节了,不说了..

    我是做粒子物理的实验分析的,事实上我感觉作分析的时候是20%的物理+40%的统计+40%的计算机,当然这20%是核心…我们主要用的统计主要是参数估计,设上限之类的。ANN和BDT是稀有衰变里比较常见的选择方法,不过我都不知道细节的。

    ps..Rolf Heuer是CERN的boss,所以他只是公布结果而已。你看的ppt不是他做的..

发表评论

邮箱地址不会被公开。 必填项已用*标注