[朝花夕拾] 从学习数学公式到实践统计分析

想想从小学到大学,在各种课程中我们都是在学习自然界的各种规律。它们之所以称为规律,就是因为它们有可重复性。从数学、物理、化学等自然学科,到历史、经济、社会等人文学科,人们都希望找到“规律”,从而用其解释、预测和改变周围的世界,就像著名的

$$E = MC^2$$

到大学毕业时,我们用二十多年时间积累了各种规律和它们的推导方法。而如何将学到的知识应用到实际中,从小学中做的应用题开始,好像越往上学,我们的课程中关注的也少了。

回头看自己大学从概率统计专业毕业时,也觉得自己对书本中学到的各种概率模型、参数估计、回归分析掌握得还不错。直到在伯克利博士学习的第二年,才发现我以前是多天真烂漫,对统计应用是多么不明觉厉了。

最难忘的经历是上David Freedman的应用统计的第一堂课。第一次上课前的几天,他给选课的学生发了封邮件,告诉大家在第一次上课之前要读三篇文章。大家都是好学生嘛,虽然文章加起来一百多页,大家也都在课前认真地读了(至少认为好好读了)。

photoNormal

记得当时课程是在埃文斯大楼的十楼小会议厅里进行,这个小厅的窗外景色还真是让人心旷神怡。在 David 介绍了一下课程结构和一些相关安排后,我们就进入了正题:文章讨论。他平静地坐在椅子上问,“大家有什么的问题? ” 然后,然后就没有然后了……

沉默,沉默,然后更长的沉默。我们没想到,讨论是需要我们发起,而不只是参与讨论 。过了一会他又问, “对文章有什么问题? ” 我们就坐在那里超过十分钟,不断地把论文翻来翻去试图找到一个有意义的问题来问。如果我们不问任何问题,好像我们就永远坐在那里。感觉这是我记忆中最长的十多分钟。这时谁也没有心情来欣赏窗外的美景了。

6815420787_350f31f3f8_z

课程就以这样的问答模式进行了整个学期。学生先阅读指定论文,然后在课上提问有关文章的各种问题。David耐心地回答每一个问题。问题的范围从“为什么作者选择了这个模型? ”到“为什么作者不用那个模式?” ,从“模型是否适合要解决的问题? ”到“数据靠谱吗,支持模型吗? “ ,从“有没有证据支持这样的结论? ”到“证据是否和结论有任何关系? ” 最离谱的是花了半节课来给我们国际学生解释美国小学的PTO(Parent Teacher Organization)的组织形式和日常活动,以便我们了解一篇关于小学教育研究文章的背景。

一学期下来阅读的文章范围包括:吸烟对肺癌影响的研究,心脏过桥手术的有效性,苏联KGB的威胁恐吓形式,用数据指控美国选举不公的官司,使用动物在癌症研究中的作用,对美国人口普查结果进行统计修正的有效性等等。当文章中提及统计方法时,他又会跳出文章,系统地介绍方法的来龙去脉。

更有趣的是,我们讨论的文章中大约三分之一是David自己写的。我们必须(至少尝试)批判性地评论这些文章,而且他也很喜欢这么做。有时他会短暂地捍卫一下文章里的方法和结论,然后加入更多自己的批判。

想回顾一下我当时到底学了什么,最令人惊讶的是,我已经不记得我们讨论过什么模型或方法了(太错综复杂了) 。当然必须承认这跟我记性很差有直接关系。但我还是记得一件事:检查数据可靠性、模型的假设以及模型与要解决问题的关系,而且一次一次地检查!

在软件包和计算能力空前爆炸的今天,我们几乎可以在很短时间内完成分析中的所有计算。但是我们从纷杂的数据中通过分析得出合理解释和预测的能力并不一定是改善了。除非我们使用合适的工具来回答合适的问题,我们才能找到规律。批判性地思考分析中的每一步是得到有用结论的唯一靠谱途径。这是我从David那学到的第一课。

统计和数据分析之所以有趣,就是在于它接地气的特点。它虽然没有数学物理那么简洁明快、高大上,但它有自己的精彩。

Richard D. De Veaux 写过一篇很有趣的文章 Math Is Music; Statistics Is Literature (Or, Why Are There No Six-Year-Old Novelists?) (数学是音乐;统计是文学(或者说,为什么天下没有六岁的天才作家))。

mathstat

文中提到统计的一些特殊性,也引用P. F. Velleman 在2003年Beyond the Formula conference 的主题报告“Thinking With Data: Seven Unnatural Acts and Ten 400-Year-Old Aphorisms”中指出的统计教学中一些困难。

It is not merely that we hope to teach judgment to sophomores; we are actually asking our students to change the way they reason about the real world. P. F. Velleman in his 2003 keynote address to the Beyond the Formula conference called the skills they must acquire the seven unnatural acts of statistical thinking: (统计不只是要教给高年级本科生如何做判断,我们其实是在要求学生改变他们探索世界的思路,这需要建立七种非常规的统计思维。)

  1. Think critically. Challenge the data’s credentials; look for biases and lurking variables. (批判性地思考。挑战数据的可靠性;寻找可能的偏差和隐藏信息)
  2. Be skeptical. Question authority and the current theory. (Well, okay, sophomores do find this natural.)(持怀疑态度。质疑权威和现有理论)
  3. Think about variation, rather than about center. (考虑多种可能性,而不只是中心)
  4. Focus on what we don’t know. For example, a confidence interval exhibits how much we don’t know about the parameter.(关注我们不知道的。例如,置信区间可以展示我们有多么不了解要估计的参数)
  5. Perfect the process. Our best conclusion is often a refined question, but that means a student can’t memorize the ‘answer‘. (尽量完善分析的每一步。最好的结论往往是一个更细致而有趣的问题,因此学生没法靠背‘答案’来学习)
  6. Think about conditional probabilities and rare events. Humans just don’t do this well. Ask any gambler. But, without this, the student can’t understand a p-value.(习惯于考虑条件概率和小概率事件。人们其实不是很擅长如此思考。这个可以问问赌博者,若没有这个习惯,学生很难理解p值)
  7. Embrace vague concepts. (学会接纳不精确的概念和定义)

这些困难也从另一个角度告诉我们学习统计中要注意的问题。我觉得这些对培养学生的创造性和研究能力非常有帮助。而且这些都是跳出我们从小到大学练习的 “A 提出 B” 这种逻辑和知识框架的,当然也和鸡兔同笼问题的各种奥数(吹哨砍头等)解法什么关系都没有。

这些思考方式都是从各种数据分析的成功和失败的经历中逐渐培养出来的。如果你有自己感兴趣的问题,大胆地去收集些数据来玩吧,经常和别人交流你的分析过程和结果,批判性地思考自己可能遗漏的地方,一定会有所收获。Get your hands dirty!

大家且玩且长进!

另外,谢谢吴喜之老师翻译了David Freedman所著的《统计模型:理论和实践》。绝对的好书,有空时翻翻一定会收获多多。

[朝花夕拾] 从学习数学公式到实践统计分析》有12个想法

  1. Math is music 的配图相当漂亮, 我个人还是更喜欢中数学、概率的角度去欣赏统计学
    统计的书看得还是很有限,statistical thinking 方面主要就是看统计学发展史和 Freeman 的 Statistics 那本书,确实学习了很多东西。 必须去买一本《统计模型:理论和实践》

  2. 能否解释一下“lurking variable”这个词的中文含义?举个例子更佳

    1. Lurking variable 一般是在观测性研究中同时影响(很多时候是)要研究的自变量和因变量的一个变量。很多时候这个变量没有被考虑或被收集,但如果在分析时不考虑,结果可能会不靠谱。一个大家常给的 例子是 研究发生火灾时参与救火的消防员的人数和火灾最后损失的大小的关系。这两个变量很强得正相关,但不能说多了消防员导致了火灾损失比较大。如果把火灾本身大小当作一个变量,可以认为它是个Lurking Variable,直接影响另两个变量。

发表评论

邮箱地址不会被公开。 必填项已用*标注