COS每周精选:让祸害人间的显著性星号消失吧!

本期材料由谢益辉肖楠整理提供。

统计之都将会定期为大家精选若干有猛料和干货的海外统计日志、文章、项目。如果大家读到好的统计博客,可以向我们推荐(editor /at/ cos.name)。如果有人愿意把或已经把这些博客翻译成中文,请与我们联系(editor /at/ cos.name)。我们将会收录在主站的博客翻译模块,供更多读者阅读。

  • 让祸害人间的显著性星号消失吧!!Vanderbilt大学生统系主任Frank Harrell如此请愿。楼下有重磅人物John Fox、Terry Therneau、Norm Matloff顶帖。丰富的统计分析中,为什么人们就只看重一个P值呢?软件的默认设置应该体现出一种态度,例如我们不应该用三个星号去“误导”大众。R不仅仅只有丰富的代码库和漂亮的作图系统,更要有最正确的统计!
  • 为啥样本方差的分母是n-1?这个看似简单的问题,你确定你能解释得清楚吗?伯克利大神Terry Speed说自己从来没有想到过一个能让所有学生都明白的答案。所以大神要有奖征集最早讨论这个问题的统计文献!
  • 著名的标题党Larry Wasserman(卡耐基梅隆统计学和机器学习教授)发表了一篇日志名为“统计学向机器学习宣战”。其实也就是解释“为毛这些该死的统计学家总是用正态近似去求区间估计”。
  • 据ISI Web of Knowledge的最新报告,统计与概率学科下的刊物当前影响因子排名最高的是……是……竟然是Journal of Statistical Software!一份软件刊物、R语言的后花园竟然超越了英国皇家统计协会的招牌刊物JRSSB以及Annals of Statistics和JASA等大家心中的神话,苦逼推几十页公式还不如写个R包,这世道还有没有王法!
  • Huffington邮报发表了一篇关于可重复性研究的文章,它是去年年底在布朗大学召开的可重复性研究研讨会的一份总结(这里)。
    谢益辉点评:参加了这个研讨会,深感码农仍然是次等公民,码农光靠剑宗很难翻身,要有一定的气宗功夫,无论如何,借助一定的工具,可重复性研究其实可以比手工操作点鼠标更简单。另外我们需要从软件工程中借鉴一些研究方法,例如测试、版本控制等。可是,我给你提供所有的代码和数据,你能给我什么奖励呢?现在的答案是,没有任何奖励。因为科学研究的文化缺失了激励机制,作者何必浪费时间去整理代码和数据给别人用?
  • (Win|Open)BUGS用户们,Stan来了!源代码库在这里。Github粉丝们,快去说一句,Fork You!看到现在还没有走的人里如果还有knitr用户的话,赶快考虑一下给knitr贡献一个Stan引擎吧
  • 一别西风又一年。继机器学习和数据挖掘领域的盛会 KDD 去年在北京成功举办后,本周 KDD Cup 2013 也正式开始征集竞赛提议。据悉,本届 KDD 会议将于今年 8 月 在芝加哥举行。 同时,作为近两届 KDD Cup 的技术支持提供方,Kaggle 也在本周上线了新竞赛。机器学习拯救鲸鱼,玩家需要通过航海记录的音频数据,探索海洋中鲸鱼的位置分布。这项竞赛由康奈尔大学生物声学研究组和海洋研究专业社区 Marinexplore 共同发起。另一项开放式竞赛的主题则是利用智能手机传感器数据评估帕金森病症状,该项竞赛由迈克尔·J·福克斯基金会发起,旨在促进对帕金森综合症病理及治愈方法的研究。数据科学,是否会让世界更美好?

COS每周精选:让祸害人间的显著性星号消失吧!》有13个想法

      1. 后面的讨论中提到了,大神们不希望只看重p值,更要汇报置信区间。
        其实我不看星号,都是直接看p值。。。

      2. 我个人感觉置信区间的问题就是你不知道选多少百分比为好…还是看标准差吧,我记得以前对于p-value的一个意见就是,他(大多数情况下)只是是不是显著的不为0这一假设检验的结果显著性,而有时候我们不仅仅关心他是不是显著的不为0,可能关心是不是显著的为正什么的…

        不过唉,大多数时候都是偷懒看p-value就完了,人本懒惰。

  1. 益辉,你给的Journal of Statistical Software 的链接居然说“Service Temporarily Unavailable”。 这咋提高影响?

    它 Impact factor 高可能是作者都很熟,大家互相引用,经常引用,还有快速引用。Vote early and vote often 。。。

    但这半衰期如此短也说明软件和定理比起来更新换代太快,没准15年后就没人用那个曾经叫作 R 的语言了。

    1. 晕死,我从来没见过他们网站挂掉,咋就让你给撞上了呢。我也不知道发生了神马。

      我个人的感觉是JSS是开放刊物,任何人都可以看,不需要登录不用交钱,好找到的文章可能更容易被阅读、引用吧。

    2. 经常引用和快速引用那也是有影响的表现之一啊。

      软件更新换代并不是说它就没有意义,正说明它推动了历史发展,毕竟后来的都要建立在前人的基础上。被使用了15年已经知足了。新出来的julia语言(http://julialang.org/)设计优雅,速度超快,也借鉴了R很多功能。R就算今天死亡了,也值了。

  2. “让祸害人间的显著性星号消失吧!“的链接也好像有问题。

    https://stat.ethz.ch/pipermail/r-devel/2013-February/065770.html
    指向 Frank Harrell 在 R development and technical/programmer topics 上的一条简单留言。

    “Today’s GNU R tutorial in
    http://how-to.linuxcareer.com/a-quick-gnu-r-tutorial-to-statistical-models-and-graphics
    points out how bad statistical practice is being further perpetuated, by
    virtue of “significance stars” still being the default in printed output from lm models.”

    其中的 链接又指向一个怎么用R做回归的简单介绍。我无论如何也找不到所谓的“楼下有重磅人物”。虽然我也不关心他们说什么,是不是超重,但这文不对题的链接也有给用三个星号去“误导”大众的严重嫌疑。

    搞的我都想要统计一下到底有几个人还有空去翻一下标题以外的东西吗?如果大家没空,那就不用抱怨别人只看星星***不看天了。

发表评论

邮箱地址不会被公开。 必填项已用*标注