一封统计之都读者来信及回复

厦门大学的毛家栋同学几周前给我写了一封邮件,我看了之后觉得有拿出来公开回复的价值,一方面可以省去重复回复类似邮件的劳动,另一方面我也想借此机会说明统计之都(COS)网站的一些理念。本文不属于技术文章,但若能从此打开一个高手与新手互动的局面,那就善莫大焉了(当然我不是什么高手,只是跳梁者先出来献丑而已)。在征得同意之后,我将他的邮件以及其中的问题整理并回答形成本文,原邮件中的文字以引用格式出现(方框缩进),其它文字为我所写。首先声明这只是一家之言,读者大可冷眼旁观。另外,好为人师者往往惹人厌,我也得声明本文无此意。

一、感受

对COS的初步看法如下:

[…]日前在查找有关蒲丰投针问题推广的时候偶然进入了统计之都网站,浏览了几篇文章后对这个网站[…]产生了很强的兴趣[…]

看了几篇COS上的文章,逛了几次你的主页,我对你在统计上的理念非常有认同感。目前我们学习统计最大的一个问题正是在于对所学没有充分理解,更谈不上自由应用。那些死的定理并没有通过学习活过来,所以专业课总是学一门忘一门,以至于到现在相当一部分人在用软件时还说不上来什么是P值。大学两年以来,一直困扰我的一个问题是,学术是什么?作为本科生要怎样去接触学术研究?看了你的东西,我发现你和你的朋友是一群对统计有着十分热情的人,你们的讨论常常可以感染我,我在COS浏览的这几天受到了很大的启发,认识到了统计活生生的一面,也见识了一种对待数学的态度,毫不夸张地说,你们的工作给了我一个统计专业的学生一个启蒙的过程。

COS上的讨论环境非常好,这种有秩序的,就事论事的讨论氛围是我在其他网站上从未见识过的,也是我一直梦寐以求的。COS的这一点也让我非常叹服。[…]

看到读者对COS给予好评我们当然非常高兴,对此我们应该不顾正常感谢顺序,先感谢统计之都的作者们。我们有幸能邀请到一批有趣的作者在这里写文章,“有趣”对COS很重要,它不是意味着刻意搞笑,而是以一个活人的视角写一件用自己脑子想过、用自己的双手做过的事情。我们反感枯燥无聊的大段摘抄,反对不过脑子的转载,反抗那些没有生命迹象的纯理论。COS有自己特立独行的风格,这些风格,都是基于它的愿景。我们的愿景是什么?请抬头看我们的logo中的三个词。常常有人不理解第二个词Humanity,不知道这段话是否可以解释什么是我们的人本主义。因为有这个愿景的存在,所以我们的主站文章有质感,所以我们的论坛除了讨论问题什么功能都没有(没有论坛币、没有积分、没有广告)。某种程度上,我们有些理想主义,所以我们并不关心短期利益。比如最近我们的管理团队在讨论一个人,叫黄晓捷,读者从此可以大致知道我们追求的心境。当然,最终我们将努力把COS做大做强。

二、问题

整理之后毛家栋的问题如下:

关于本科生之于学术研究。对于有志于在统计学方面做进一步探究的本科生来说,本科阶段有没有接触学术研究的必要?如果有,通常接触学术研究的途径是什么?一般本科生对专业知识的掌握不深入全面,对统计软件的运用也远非熟练。在科研活动中可以承担什么样的工作?或者说,为什么科研活动需要本科生?

回想起来,我本科没有做过什么正儿八经的学术研究,现在我也很难说是否真的有必要接触学术研究。我个人一直提倡的是用兴趣引导自己,若你对学术实在提不起兴趣,那也大可不必在意,这不是唯一的生存之道。如果说我的本科学习有一丁点经验的话,我想有两点:一是我比较成功地(强迫)培养了自己对统计学的兴趣,比如尽管数理统计不好学,但我一直试图理清里面的头绪,最终也就渐渐理出兴趣来了;二是我经常混论坛(因为论坛就是我自己搭建的),借人大统计学院网站的影响力,这论坛才能有今天的景象,其中的历史此处不谈,论坛上的问题是学习的最好催化剂,各种各样的问题促使你去开阔眼界,去反思学到的东西。这基本上就是我接触学术研究的途径。曾经也有很长时间我对收集论文和电子书感兴趣,讽刺的是这里只是“收集”,我可能看过很多论文题目和书的引言,但我很少真的去读它们(是不是这些网络上传来传去的东西都没用呢?你自己思考)。知识是永远都无法掌握全面的,甚至越学越窄;话虽这么说,我出国之后还确实感受到国内的统计基础教育不够扎实,学得不够细致,比如线性模型。但话又说回来,也许这些所谓的基础净是些没用的东西,比如有些“黑箱”预测模型,你没命地算也许就能出好结果了。你看,我到现在对专业知识的想法还在晃来晃去,所以我觉得你走一步看一步也无妨。统计软件,我觉得看几页教程,在耐心消失之后就可以看问题了,以问题驱动软件学习,“熟练”这个目标说远不远说近不近,也许某一天就不知不觉越过了。科研活动本科生承担什么工作呢?我本科录入过问卷,搜过数据,大概都是些体力劳动吧。为什么需要本科生?说为了体力劳动好像很不厚道……我觉得更多在于锻炼、学习吧。

关于信息的获取。我所处的环境信息比较闭塞——首先厦门大学比之北京上海的高校信息方面就比较闭塞,另外我校大一大二学生所在的漳州校区更是极端封闭,见不到老师——这种环境还是有一定普遍性的。统计之都给我们提供了一个很好的平台,除此,我们应该通过什么手段去接触统计学的前沿、应用等情况呢,或者说,怎样在信息上融入统计学的学术圈子呢?

我们清楚这种情况,并且我们一直想促进高校统计专业之间的直接交流,比如在这里建设高校课堂栏目,可是这个任务对我们这些业余的人来说实在太艰巨。我们能做的就是征人写文章,希望对大家有用。网络上还有很多有用的资源,都可以是学习的资料,比如维基百科(Wikipedia)及其页面内的链接、课程视频网站VideoLectures等,我唯一的建议就是不要看那些所谓的“资源帖”,一下子整理上百个网站,我几乎从不相信那些不带有自己的评论的推荐。我不是专门为COS做广告,但我相信在COS泡着肯定有用,你说的前沿在论坛上偶尔就会冒出一些相关的帖子,都是值得阅读和思考的,两个例子:

      显然这对很多人来说都是前沿。至于怎么融入圈子,除了日积月累,恐无它法。我觉得如果能坚持一个小方向切入,可能会更有效率一些,否则很容易淹死在文献海洋中。比如贝叶斯,当你看到满地的抽样时就会想为什么贝叶斯统计中需要抽样模拟,进而了解一些历史,计算机的出现怎样让贝叶斯活了过来,变得如日中天,再看一些细节,比如Gibbs抽样是怎么回事(查维基百科、),如果什么都看不懂,可以退回到盘古开天辟地的时候,密度函数是什么?条件密度是什么?总之,一步步来。

      出国是很多统计人的选择,毕竟国外的统计学教育似乎要更为先进,而且学术风气也较国内纯净。统计学(数理、生物等)的申请情况如何?是否如有的说法那样是冷门学科?对于申请出国,特别是申请PHD的同学来说,校方比较看中的是什么?这里涉及一个比较实际的问题,处理不好可能成为急功近利——怎样做出高质量(这里指的是实实在在地做东西,而非无原则地多做甚至搞欺诈)的论文呢?抑或,除了论文,还有哪些比较过硬的成果可以作为学术能力的证明呢?

      这些问题我不是适合作答的人,后面我想请今年的一位申请出国的同学江麒来专门谈谈他的经验,可能会是本站的下一篇文章。我自己的经历不靠谱,供参考。出国这件事上你可能会看到五花八门的招数,最终还得自己琢磨一种有谱的招数。

      关于数学。应该怎样对待专业课中涉及到的数学呢?对数学应该探究到一个什么样的程度呢(特别是对于想读PHD的同学来说)?国内不同高校在这一点上做的很不同,有的学校的统计系几乎就是半个数学系,而有的学校如厦大对统计专业数学的要求不会超过一般工科院系的范围。

      我对数学的态度一直都是能混过考试就够了,这一点上将有无数的人不同意我,但我就是不喜欢它,没办法。数学的价值也不会因为我喜不喜欢它而变化,这里我说的数学主要是指数理统计及其以前的数学如测度论,以我肤浅的眼光,我不觉得这些玩意儿将来对我有什么用。探究到什么程度还是取决于你的兴趣和要解决的问题的需要(当然还取决于考试考什么)。就美帝而言,当然希望你数学尽量好。

      关于专业课。统计学专业课有一定难度,但令我感到更难的是如何将所学活学活用,你在这一点上是怎么做的呢?能不能进一步介绍一点你在统计软件学习方面的经验?

      活学活用首先也得会找到能用的地方,这同时也是个攒经验的过程。这方面我不敢说做到了,但显然统计之都的一些文章做到了,简单举最近的两例:

      这里面有什么特别高深的统计学知识吗?好像也没有。有活学活用的感觉吗?好像有。为什么?因为作者在主动思考身边的事情。关于统计软件,我仍然没有什么经验,仍然是日积月累。让你用一个软件用六七年,你觉得你能不熟吗?

      三、总结

      说了半天,就两件事:你想做什么?你是否有恒心?人可以战胜任何对象,唯一不可战胜的只有时间。《士兵突击》最精彩的部分在哪里?我认为在草原。守草原,就是守自己。你守得住自己不在网上闲逛偷菜看更多新鲜事吗?

      四、延续

      如我开头所说,这篇文章只是一个引子,后面我希望能看到更多有价值的采访。COS的读者们,如果你们有想了解的人(可以是任何人:退休教授、在任老师、论坛著名ID、留学生等),不妨在此提名并附上你的问题或者邮件发给我们(contact@cos.name),我们可以在后面的文章中安排这些访谈。

      八卦读者可从这个帖子访

      关于谢益辉

      RStudio码了个工,Iowa State University统计系博了个士。统计之都网站创办者;研究兴趣为统计图形及数据可视化,对统计模型方法的发展感兴趣但不喜欢纯粹抽象的数学理论,以直观、实用为学习标准;偏好以R语言为工具;Email:xie@yihui.name;个人主页:http://yihui.name

      一封统计之都读者来信及回复》有13个想法

      1. 我即將升入畢業班,開始對升學/就業以及學術等事情的關聯有些困惑,搞不好就此和統計走遠了呢……

      2. 其实,象人大和厦大的统计系的传统与教授能力已经决定了其学生不可能弄懂基本的统计概念,悲哀的却是他们竟然不知羞耻的在高谈阔论。

        1. 个人建议你把“不可能弄懂”改成“没那么容易弄懂”。不管怎样,学习是靠自己而非靠学校或者老师的,也得允许同学们发挥主观能动性嘛

        2. 1. 相比国外,国内的统计学教育水平确实差很多。
          2. 人大和厦大也有很不错的教授。
          3. 任何人只要刻苦努力,即使自学也不至于一无所获。
          4. 人人都有探讨问题的权利,没有什么羞耻不羞耻的。
          5. 即使你是高瞻远瞩的侠客,也请面对具体问题批评指正。

        3. 同意楼上。我觉得话不必说得这么尖刻,修行更多在个人,如果一味埋怨老师,恐怕再好的老师都教不出好学生。厦大我并不了解,人大我也不敢说水平如何,但可以看到的是这些年来情况一直在改善,只要在改善,就有希望。天上没法掉下绝顶优秀的老师来,我们的统计,要靠我们每一个人去努力,这是一个长期过程。

          1. 学了这么多年的统计我恰恰觉得最重要的统计思想我是在人大学到的

          2. 老师说的太好了,我们的统计,要靠我们每一个人去努力,这是一个长期过程

      3. 嗯,看了觉得说的蛮中肯的。
        现在在研一阶段,对于本科没有认真学好的数理统计都得再学一遍。原来特别紧张的是知识不够,基础不扎实,现在虽然在补,但是有一种感觉,一定要有思想。统计里面方法大多基于思想。
        我希望利用一个学期的时间把基础补好,但另一个老师建议说现在就着手,看太多书没用。可是我觉得好书还是要精读两本的,有点矛盾。

      4. 我所在的计算机专业,每年国内发表的大多数论文都遵循于一个模式(当然少数论文读来还是有点味道的):在一个新的数据集上套用一个时髦的数学模型,或者是在某个模型上稍微改动一下,偶然间得到了一个比较好的结果,然后一片论文就产生了。然后我就在想,计算机在机器学习方向的研究到底是要研究什么?数学模型大部分已经由那些统计学的牛人提出来了,难道我们的工作就是把这些模型套在各个不同的应用场景,检验结果的好坏?

        1. 这可能不是计算机专业特有的模式吧,数据套模型生成论文在很多专业应该都存在,这种风气我也不喜欢。

          我的观点一直在变化,从未收敛过,目前我的想法之一是,我很期待计算机的人能帮统计学家做一些比较有突破性的基础设施建设工作;如果你的理论不是特别牛的话,我觉得在学术界也挺乏味的,至少我现在越来越少关心机器学习的发展;如果你要检验模型,那么还是投身实战领域吧,学术研究要承担的责任远比实战领域小,知识若不能转化为生产力就是废物。我前面说的基础设施工作指的是能彻底改变人们对统计学某个方向看法的软件(看看S语言的获奖评价),当然这目标听起来有点高,但我现在越来越觉得蹩脚的软件包极大阻碍了统计学的应用脚步。最近两天我们COS内部在讨论ggplot2,这就是一份很有创造性的工作,改变了人们对R作图的旧看法,你们计算机的人整天讲面向对象的编程,统计学界内真正有面向对象特征并且能妙用之的软件少之又少。有人可能觉得我书生意气或程序员思维,但实际上优秀的软件往往体现了作者对一块业务的深刻理解(而不是抱着“把事情办完”的想法),这是非常需要功力的。

          想法之二是投身工业界,像统计学家戴明一样,真正帮助实业界提高生产力,或看看所学到底有多大价值。这方面我很欠缺经验,不妨请我们的作者之一范建宁谈谈:)

      5. 看了很感动。非常支持站长的理念。我已经工作了很多年,但还不时要用到统计,可惜基础太差。希望在这里跟各位学到统计的真谛,另外也希望将来有能力为COS做出贡献。

      发表评论

      邮箱地址不会被公开。 必填项已用*标注