标签归档:假设

有效统计实践的十项简明原则

本文作者:Robert E. Kass; Brian S. Caffo; Marie Davidian; Xiao-Li Meng; Bin Yu; Nancy Reid

原文出处

Ten Simple Rules for Effective Statistical Practice. Kass RE, Caffo BS, Davidian M, Meng X-L, Yu B, Reid N (2016) PLoS Comput Biol 12(6): e1004961. doi:10.1371/journal.pcbi.1004961

引言

数月前,广受好评的“十项简则”系列(“Ten Simple Rules” series)的创始人和长期作者 Phil Bourne 建议一些统计学家写一篇关于统计学“十项简则“的文章。(既然如何写好PLOS“十项简则”文章的原则之一就是请 Phil Bourne 加入作者群 [6], 我们希望在这对Phil的热情赞美也能达到足够的效果。)

在如何写“十项简则”的指导方针[6]里暗含了一条原则: 了解你的读者。因此,我们罗列在本文的这些原则主要是针对符合这些条件的研究者:具有一定统计知识,并且有可能得到周围统计学家的帮助,或者有亲力亲为的态度并在电脑里已经安装了一些统计软件。本文提及的原则是我们从合作研究与教学经验,以及不止一次的令人沮丧的求助:“麻烦看一下我学生的毕业论文/我的基金申请/审稿人的意见:这需要再加点统计内容,但还要看上去简洁明了。”中总结出来的。

读者也可以找到一些更细致地解释本文观点的优秀文章:比如我们最欣赏的 [4],[12],[15],[11],[17] 和 [21]。

统计学的每一篇文章一般都有一个防止被误解的声明。我们声明是:在本文中,“科学”一词代表了那些通过数据来解决感兴趣的问题的研究。这包括了社会科学,工程学,数字化人文学科,金融等领域。当然统计学家也不会羞于提醒管理者统计科学对任何机构的几乎所有活动都有影响的事实。

原则 1:统计方法应使得数据能够解决科学问题

初级统计使用者和统计专家之间的巨大差别在他们思考如何利用手头的数据时就显露出来。 尽管实验数据显然是为了解决科学问题而收集的,初级使用者往往潜意识里就已经默认数据和所研究的科学问题之间存在联系,然后直接考虑该用哪种方法对数据进行操作,而不是思考研究目标。例如,给定一张基因表达数据的表格,初级使用者往往会问“我该用什么方法去检验?”并寻找相应方法,而一个经验丰富的研究员则会先思考“表达有差异的基因是哪些?”,接着再思考能用数据解决研究问题的各种统计方法。某个正式的统计检验可能非常有用,但是一些其他的方法也可以作为备选,例如热图或者聚类技术。与之类似,在神经影像学中,在不同的实验条件下理解大脑活动是首要目标,用好看的图像来展示这些活动则是次要目标。这种从统计方法到科学问题的观念转变会重塑一个人数据收集和分析的方式。在充分了解这些问题后,统计专家会和他们的合作者讨论数据如何能解决问题以及哪种方法是最有效的。与此同时,他们会确认各种变异性(variablility)的来源和哪些未考虑的情况会打破数据和统计推断之间联系的假设。在完成这些之后,他们才试着建立分析目标和策略。这就是为何与统计学家合作会对研究非常有帮助,以及越早合作,效果就越好的原因 。详情请参考原则 2

继续阅读有效统计实践的十项简明原则