标签归档:统计之都

COS访谈第十二期:Terry Speed教授,2013年总理科学奖得主

【COS编辑部按】本译文原文来自澳大利亚Science in Public,讲 述Terry Speed,一位著作等身的统计学者,对学术和社会生活的热情;原文版权归 Science in Public所有。本文译者:尤晓斌(新加坡国立大学);审校:李妙竹(上海生科院)、施涛(The Ohio State University)。

“统计学本来就应该成就其他学科,我太爱统计了,它像把钥匙一样让我们能溜进任何学科的后院里随便玩耍”

—Terry Speed

alt

图1 Terry Speed

 

用数字同癌症抗争

Terry Speed从不觉得能很快在媒体的头条上看到类似“统计学家治愈癌症”的标题,不过他坚信数学和统计学可以有效地帮助研究者认识癌症背后的诱因,从而减少手术的需要。身兼数学家和统计学家,Terry笔下诞生了不少鲜有人读得懂的精美学术著作,但除此之外,他还有学术成就以外的另一面,他曾出席法庭作证,帮助农户和采钻矿工,还为生物学家提供统计工具以解决基因的进化问题。

20年前,生物学家们只能孤立的研究一两个基因。而今,他们已经能够同时跟踪同一个细胞里的上千个基因,但若想真正理解这些信息,得到他们想要的结果,生物学家们就还需要运用Terry提出的统计方法。

当Terry年近古稀,他专注于挑选正常细胞与癌细胞不同之处,更加接近有效治疗癌症的临床研究,并同业界一同合作研发检测甲状腺细胞增殖是否发生癌变的工具。

因其在解释基因组的解释以及相关技术的研发做出的杰出贡献,这位WEHI医学研究所生物信息学领头人荣获2013年总理科学奖(Prime Minister’s Prizes for Science)继续阅读COS访谈第十二期:Terry Speed教授,2013年总理科学奖得主

第六届中国R语言会议(上海)纪要

第六届中国 R 语言会议(上海会场)于 2013 年 11 月 2 日 ~ 3 日在华东师范大学中山北路校区的科学会堂成功召开。会议由华东师范大学金融与统计学院和统计之都(cos.name)主办。在两天的会议时间里,参会者齐聚一堂,就 R 语言在电商、互联网、金融、可视化、机器学习、数据挖掘等行业和领域展开了深入的探讨。

6th-china-r-sh
6th-china-r-sh2

会议概况

本次会议报名非常火爆,受会场容量所限,开放报名的时间非常短,很快就报满了600人,约有 400 多名参会者前来参会,规模再创新高。参会者主要来自各大高校、科研机构、企业和事业单位,全体参会者所在单位汇总如下。

高校和研究所:

Purdue University、北京大学、北京邮电大学、第二军医大学、东华大学、东南大学、福建师范大学、复旦大学、广东工业大学、广西医科大学、贵阳学院、贵州财经大学、国家人类基因组南方研究中心、杭州电子科技大学、河海大学、华东理工大学、华东师范大学、华中科技大学、江南大学、江西师范大学、解放军理工大学、兰州大学、南昌大学、南方医科大学、南京大学、南京航空航天大学、南京农业大学、南开大学、山东大学、上海财经大学、上海大学、上海交通大学、上海教育科学研究院、上海科技大学(筹)、上海理工大学、上海立信会计学院、上海人类基因组研究中心、上海社会科学院、上海师范大学、上海外国语大学、上海中医药大学、苏州大学、天津大学、同济大学、温州大学、温州医科大学、武汉大学、武汉理工大学、西安石油大学、西北农林科技大学、西藏民族学院、云南财经大学、长安大学、浙江财经大学、浙江大学、浙江工商大学、浙江工业大学、浙江警官职业学院、浙江理工大学、中国科大、中国科学院寒区旱区环境与工程研究所、中国科学院青岛生物能源与过程研究所、中国科学院上海生命科学研究院、中国科学院水生生物研究所、中国科学院武汉病毒研究所、中国人民大学、中国药科大学、中科院大学、中科院生物物理研究所、中科院西双版纳热带植物园、中山大学。

继续阅读第六届中国R语言会议(上海)纪要

COS访谈第八期:北大光华王汉生老师

【COS编辑部按】受访人:北大光华王汉生教授。采访人:陈昱

简介:王汉生教授现任北京大学光华管理学院商务统计与经济计量系副系主任。1998年北京大学数学科学学院,概率统计系,统计学本科,2001年美国威斯康星大学麦迪逊分校,统计学博士。现为国际统计协会(International Statistical Institute)、美国统计学会(American Statistical Association)、美国数理统计协会(Institute of Mathematical Statistics)、英国皇家统计协会(Royal Statistical Society),以及泛华统计学会(International Chinese Statistical Association)会员。

 

2013年9月23日,在结束了“狗熊会”的每周一聚后,王汉生老师在他的办公室接受了统计之都的采访。

继续阅读COS访谈第八期:北大光华王汉生老师

一封统计之都读者来信及回复

厦门大学的毛家栋同学几周前给我写了一封邮件,我看了之后觉得有拿出来公开回复的价值,一方面可以省去重复回复类似邮件的劳动,另一方面我也想借此机会说明统计之都(COS)网站的一些理念。本文不属于技术文章,但若能从此打开一个高手与新手互动的局面,那就善莫大焉了(当然我不是什么高手,只是跳梁者先出来献丑而已)。在征得同意之后,我将他的邮件以及其中的问题整理并回答形成本文,原邮件中的文字以引用格式出现(方框缩进),其它文字为我所写。首先声明这只是一家之言,读者大可冷眼旁观。另外,好为人师者往往惹人厌,我也得声明本文无此意。

一、感受

对COS的初步看法如下:

[…]日前在查找有关蒲丰投针问题推广的时候偶然进入了统计之都网站,浏览了几篇文章后对这个网站[…]产生了很强的兴趣[…]

看了几篇COS上的文章,逛了几次你的主页,我对你在统计上的理念非常有认同感。目前我们学习统计最大的一个问题正是在于对所学没有充分理解,更谈不上自由应用。那些死的定理并没有通过学习活过来,所以专业课总是学一门忘一门,以至于到现在相当一部分人在用软件时还说不上来什么是P值。大学两年以来,一直困扰我的一个问题是,学术是什么?作为本科生要怎样去接触学术研究?看了你的东西,我发现你和你的朋友是一群对统计有着十分热情的人,你们的讨论常常可以感染我,我在COS浏览的这几天受到了很大的启发,认识到了统计活生生的一面,也见识了一种对待数学的态度,毫不夸张地说,你们的工作给了我一个统计专业的学生一个启蒙的过程。

COS上的讨论环境非常好,这种有秩序的,就事论事的讨论氛围是我在其他网站上从未见识过的,也是我一直梦寐以求的。COS的这一点也让我非常叹服。[…]

看到读者对COS给予好评我们当然非常高兴,对此我们应该不顾正常感谢顺序,先感谢统计之都的作者们。我们有幸能邀请到一批有趣的作者在这里写文章,“有趣”对COS很重要,它不是意味着刻意搞笑,而是以一个活人的视角写一件用自己脑子想过、用自己的双手做过的事情。我们反感枯燥无聊的大段摘抄,反对不过脑子的转载,反抗那些没有生命迹象的纯理论。COS有自己特立独行的风格,这些风格,都是基于它的愿景。我们的愿景是什么?请抬头看我们的logo中的三个词。常常有人不理解第二个词Humanity,不知道这段话是否可以解释什么是我们的人本主义。因为有这个愿景的存在,所以我们的主站文章有质感,所以我们的论坛除了讨论问题什么功能都没有(没有论坛币、没有积分、没有广告)。某种程度上,我们有些理想主义,所以我们并不关心短期利益。比如最近我们的管理团队在讨论一个人,叫黄晓捷,读者从此可以大致知道我们追求的心境。当然,最终我们将努力把COS做大做强。

二、问题

整理之后毛家栋的问题如下:

关于本科生之于学术研究。对于有志于在统计学方面做进一步探究的本科生来说,本科阶段有没有接触学术研究的必要?如果有,通常接触学术研究的途径是什么?一般本科生对专业知识的掌握不深入全面,对统计软件的运用也远非熟练。在科研活动中可以承担什么样的工作?或者说,为什么科研活动需要本科生?

回想起来,我本科没有做过什么正儿八经的学术研究,现在我也很难说是否真的有必要接触学术研究。我个人一直提倡的是用兴趣引导自己,若你对学术实在提不起兴趣,那也大可不必在意,这不是唯一的生存之道。如果说我的本科学习有一丁点经验的话,我想有两点:一是我比较成功地(强迫)培养了自己对统计学的兴趣,比如尽管数理统计不好学,但我一直试图理清里面的头绪,最终也就渐渐理出兴趣来了;二是我经常混论坛(因为论坛就是我自己搭建的),借人大统计学院网站的影响力,这论坛才能有今天的景象,其中的历史此处不谈,论坛上的问题是学习的最好催化剂,各种各样的问题促使你去开阔眼界,去反思学到的东西。这基本上就是我接触学术研究的途径。曾经也有很长时间我对收集论文和电子书感兴趣,讽刺的是这里只是“收集”,我可能看过很多论文题目和书的引言,但我很少真的去读它们(是不是这些网络上传来传去的东西都没用呢?你自己思考)。知识是永远都无法掌握全面的,甚至越学越窄;话虽这么说,我出国之后还确实感受到国内的统计基础教育不够扎实,学得不够细致,比如线性模型。但话又说回来,也许这些所谓的基础净是些没用的东西,比如有些“黑箱”预测模型,你没命地算也许就能出好结果了。你看,我到现在对专业知识的想法还在晃来晃去,所以我觉得你走一步看一步也无妨。统计软件,我觉得看几页教程,在耐心消失之后就可以看问题了,以问题驱动软件学习,“熟练”这个目标说远不远说近不近,也许某一天就不知不觉越过了。科研活动本科生承担什么工作呢?我本科录入过问卷,搜过数据,大概都是些体力劳动吧。为什么需要本科生?说为了体力劳动好像很不厚道……我觉得更多在于锻炼、学习吧。

关于信息的获取。我所处的环境信息比较闭塞——首先厦门大学比之北京上海的高校信息方面就比较闭塞,另外我校大一大二学生所在的漳州校区更是极端封闭,见不到老师——这种环境还是有一定普遍性的。统计之都给我们提供了一个很好的平台,除此,我们应该通过什么手段去接触统计学的前沿、应用等情况呢,或者说,怎样在信息上融入统计学的学术圈子呢?

我们清楚这种情况,并且我们一直想促进高校统计专业之间的直接交流,比如在这里建设高校课堂栏目,可是这个任务对我们这些业余的人来说实在太艰巨。我们能做的就是征人写文章,希望对大家有用。网络上还有很多有用的资源,都可以是学习的资料,比如维基百科(Wikipedia)及其页面内的链接、课程视频网站VideoLectures等,我唯一的建议就是不要看那些所谓的“资源帖”,一下子整理上百个网站,我几乎从不相信那些不带有自己的评论的推荐。我不是专门为COS做广告,但我相信在COS泡着肯定有用,你说的前沿在论坛上偶尔就会冒出一些相关的帖子,都是值得阅读和思考的,两个例子:

      显然这对很多人来说都是前沿。至于怎么融入圈子,除了日积月累,恐无它法。我觉得如果能坚持一个小方向切入,可能会更有效率一些,否则很容易淹死在文献海洋中。比如贝叶斯,当你看到满地的抽样时就会想为什么贝叶斯统计中需要抽样模拟,进而了解一些历史,计算机的出现怎样让贝叶斯活了过来,变得如日中天,再看一些细节,比如Gibbs抽样是怎么回事(查维基百科、),如果什么都看不懂,可以退回到盘古开天辟地的时候,密度函数是什么?条件密度是什么?总之,一步步来。

      出国是很多统计人的选择,毕竟国外的统计学教育似乎要更为先进,而且学术风气也较国内纯净。统计学(数理、生物等)的申请情况如何?是否如有的说法那样是冷门学科?对于申请出国,特别是申请PHD的同学来说,校方比较看中的是什么?这里涉及一个比较实际的问题,处理不好可能成为急功近利——怎样做出高质量(这里指的是实实在在地做东西,而非无原则地多做甚至搞欺诈)的论文呢?抑或,除了论文,还有哪些比较过硬的成果可以作为学术能力的证明呢?

      这些问题我不是适合作答的人,后面我想请今年的一位申请出国的同学江麒来专门谈谈他的经验,可能会是本站的下一篇文章。我自己的经历不靠谱,供参考。出国这件事上你可能会看到五花八门的招数,最终还得自己琢磨一种有谱的招数。

      关于数学。应该怎样对待专业课中涉及到的数学呢?对数学应该探究到一个什么样的程度呢(特别是对于想读PHD的同学来说)?国内不同高校在这一点上做的很不同,有的学校的统计系几乎就是半个数学系,而有的学校如厦大对统计专业数学的要求不会超过一般工科院系的范围。

      我对数学的态度一直都是能混过考试就够了,这一点上将有无数的人不同意我,但我就是不喜欢它,没办法。数学的价值也不会因为我喜不喜欢它而变化,这里我说的数学主要是指数理统计及其以前的数学如测度论,以我肤浅的眼光,我不觉得这些玩意儿将来对我有什么用。探究到什么程度还是取决于你的兴趣和要解决的问题的需要(当然还取决于考试考什么)。就美帝而言,当然希望你数学尽量好。

      关于专业课。统计学专业课有一定难度,但令我感到更难的是如何将所学活学活用,你在这一点上是怎么做的呢?能不能进一步介绍一点你在统计软件学习方面的经验?

      活学活用首先也得会找到能用的地方,这同时也是个攒经验的过程。这方面我不敢说做到了,但显然统计之都的一些文章做到了,简单举最近的两例:

      这里面有什么特别高深的统计学知识吗?好像也没有。有活学活用的感觉吗?好像有。为什么?因为作者在主动思考身边的事情。关于统计软件,我仍然没有什么经验,仍然是日积月累。让你用一个软件用六七年,你觉得你能不熟吗?

      三、总结

      说了半天,就两件事:你想做什么?你是否有恒心?人可以战胜任何对象,唯一不可战胜的只有时间。《士兵突击》最精彩的部分在哪里?我认为在草原。守草原,就是守自己。你守得住自己不在网上闲逛偷菜看更多新鲜事吗?

      四、延续

      如我开头所说,这篇文章只是一个引子,后面我希望能看到更多有价值的采访。COS的读者们,如果你们有想了解的人(可以是任何人:退休教授、在任老师、论坛著名ID、留学生等),不妨在此提名并附上你的问题或者邮件发给我们(contact@cos.name),我们可以在后面的文章中安排这些访谈。

      八卦读者可从这个帖子访

      从线性模型到广义线性模型(1)——模型假设篇

      在统计学里,对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做$ Y$,也称为因变量(dependent)、响应变量(response)、被解释变量(explained)、被预测变量(predicted)、从属变量(regressand);输入变量通常记做$ x_1$,…,$x_p$,也称为自变量(independent)、控制变量(control&controlled)、解释变量(explanatory)、预测变量(predictor)、回归量(regressor)。本文根据作者自己的一些学习心得和理解,简单且不严格地介绍在模型假设方面普通线性模型和广义线性模型的区别和联系/推广(generalization)。广义线性模型的拟合检验、推断、诊断等方面的方法和手段依赖于模型所采用的分布类型,难以一概而论,将在作者后续的学习心得文章里具体介绍。

      1.普通线性模型的简单回顾

      普通线性模型(ordinary linear model)可以用下式表示:

      $ Y={\beta}_0+{\beta}_1x_1+{\beta}_2x_2+…+{\beta}_{p-1}x_{p-1}+\epsilon$                          (1.1)

      这里$ {\beta}_i$,$ i=1$,…,$p-1$称为未知参数,$ {\beta}_0$称为截矩项。

      普通线性模型的假设主要有以下几点:

      1.响应变量$ Y$和误差项$\epsilon$正态性:响应变量$ Y$和误差项$\epsilon$服从正态分布,且$\epsilon$是一个白噪声过程,因而具有零均值,同方差的特性。

      2.预测量$x_i$和未知参数${\beta}_i$的非随机性:预测量$x_i$具有非随机性、可测且不存在测量误差;未知参数${\beta}_i$认为是未知但不具随机性的常数,值得注意的是运用最小二乘法或极大似然法解出的未知参数的估计值$\hat{\beta}_i$则具有正态性。

      3.研究对象:如前所述普通线性模型的输出项是随机变量$ Y$。在随机变量众多的特点或属性里,比如分布、各种矩、分位数等等,普通线性模型主要研究响应变量的均值$E[ Y]$。

      4.联接方式:在上面三点假设下,对(1.1)式两边取数学期望,可得

      $ E[Y]={\beta}_0+{\beta}_1x_1+{\beta}_2x_2+…+{\beta}_{p-1}x_{p-1}$                                        (1.2)

      从 (1.2)式可见,在普通线性模型里,响应变量的均值$E[ Y]$与预测量的线性组合${\beta}_0+{\beta}_1x_1+{\beta}_2x_2+…+{\beta}_{p-1}x_{p-1}$通过恒等式(identity)联接,当然也可认为通过形为$f(x)=x$的函数(link function)联接二者,即

      $ E[Y]=f({\beta}_0+{\beta}_1x_1+{\beta}_2x_2+…+{\beta}_{p-1}x_{p-1})={\beta}_0+{\beta}_1x_1+{\beta}_2x_2+…+{\beta}_{p-1}x_{p-1}$

      2.广义线性模型的简单介绍

      广义线性模型(generalized linear model)正是在普通线性模型的基础上,将上述四点模型假设进行推广而得出的应用范围更广,更具实用性的回归模型。

      1.响应变量的分布推广至指数分散族(exponential dispersion family):比如正态分布、泊松分布、二项分布、负二项分布、伽玛分布、逆高斯分布。exponential dispersion family的详细定义限于篇幅这里不做详细介绍。

      2.预测量$x_i$和未知参数${\beta}_i$的非随机性:仍然假设预测量$x_i$具有非随机性、可测且不存在测量误差;未知参数${\beta}_i$认为是未知且不具有随机性的常数。

      3.研究对象:广义线性模型的主要研究对象仍然是响应变量的均值$E[ Y]$。

      4.联接方式:广义线性模型里采用的联连函数(link function)理论上可以是任意的,而不再局限于$f(x)=x$。当然了联接函数的选取必然地必须适应于具体的研究案例。同时存在着与假设2.1里提及的分布一一对应的联接函数称为标准联接函数(canonical link or standard link),如正态分布对应于恒等式,泊松分布对应于自然对数函数等。标准联接函数的推导及其应用上的优点涉及到指数分散族的标准化定义,这里不做详述。

      3.简单的例子

      考虑这样一个简单的退保案例:一个保险产品一共卖出12份保单(当然了这在现实中不可能,这里仅为示例),在保单期限内一共有6人退保。那么采用这12个投保人的特征数据如收入、职业、年龄等做为预测变量对退保/退保率进行回归分析时,普通线性模型不再适用,因为这里退保这一事件不再服从正态分布,而是二项分布(当然了如果观测值的个数足够大,比如大于30,正态分布是一个很好的近似)。此时就可采用广义线性模型(目标分布采用二项分布)进行建模。

      4.补充:指数分布族的简介

      指数分布族(exponential dispersion family)实质上是对一类具有以下形式的概率密度函数或具有此类密度函数的分布的总括:

      $f_Y(y;\theta,\Psi)=exp[(y\theta – b(\theta))/{\Psi} + c(y;\Psi)]$

      这里$\Psi$和$\theta$是实参数,$b(.)$和$c(.;.)$是实函数,该密度函数的支集(support)$D_{\Psi}$是$R$的子集,且不依赖于$\theta$。满足$\theta=\eta=g(\mu)$的联接函数$g(\mu)$称为标准联接函数(standard or canonical link)。

      一般情况下参数$\Psi$的值是未知常数(fixed and unknown),因此在许多GLM文献里指数分布族又被称为单参数指数族(one-parameter exponential family)。对于比较常用的分布,$\Psi$和$\theta$的取值具有特殊的形式:

      正态分布$N(\mu,{\sigma}^2)$:$\Psi={\sigma}^2$和$\theta=\mu$

      泊松分布$Poisson(\lambda)$:$\Psi=1$和$\theta=log\lambda$

      二项分布$Binomial(m,p)$:$\Psi=1$和$\theta=log(p/(p-1))$

      负二项分布$Negative Binomial(r,p)$:$\Psi=1$和$\theta=log(1-p)$

      伽玛分布$Gamma(\alpha,\beta)$:$\Psi=1/{\alpha}$和$\theta=-{\beta}/{\alpha}$