数据科学家的崛起

美国2012总统大选是奥巴马的胜利,但实际上也是统计学家的胜利。奥巴马当选之夜,我看见推特上有一条消息被疯狂转载:

NATE SILVER ELECTED 44TH PRESIDENT OF UNITED STATES

当然这是一句玩笑话,但Nate Silver是谁?他号称“竞选预测之神谕”:2008年的总统大选他预测对了最终结果,而且美国50州的投票结果他预测对了49个;今年的大选他又预测对了,并且是50州全对。Silver是一名统计学家,毕业于芝加哥大学,随后在毕马威会计师事务所“度过了令自己后悔的四年时间”(不喜欢那里的工作),后来转向预测棒球选手的成绩,再后来转向政治方面的数据分析和预测。总统大选的预测是一件噪声很大的工作,各家有各家的预测和分析,各种突发事件可能会导致某位候选人的支持短期内大幅变动。Silver的工作就像机器学习中的“集成学习”(他自己的描述是“贝叶斯统计”,用自己的先验信息和数据得到后验),集合众多民意调查结果,根据自己的经验判断去平均它们(具体过程我不清楚)。

我想说的不是这个预测本身,而是我所感觉到的统计学家的变化。换个时髦的词,叫数据科学家。他们和具体的行业紧密相联,有扎实的统计基础,也有丰富的行业经验。不仅如此,大家都会玩编程、做数据可视化。看看Silver在纽约时报的博客就有感觉了。

数据科学家正在“入侵”一些我们以前不能想象的行业,例如总统竞选。除了Silver和其他一大批统计学家做预测之外,奥巴马还有一个数据分析部门,利用各种预测建模和数据挖掘手段来提高奥巴马连任总统的概率;例如这里有他们一则招聘广告,里面提到了R、MySQL、Python等工具。我再给自己无耻地打一个广告:今天我在推特上看见这个部门里的一位数据分析师(见下图,左为奥巴马,右为数据分析师)提到了RStudio和我的knitr包,本码农以后也可以海吹一下牛皮“曾经间接帮助美国总统赢得大选”……

奥巴马与knitr

如果你搜索一下数据科学家,你会看到各种光鲜的描述(什么炙手可热啦性感啦),很多光鲜的东西都是坑,当然不绝对;我上大学时大家都觉得精算师像神一样,读(人大)统计的很多同学都是奔精算去的,但我觉得精算就是坑(因为我不喜欢它,再神对我也没用)。媒体报道容易流于表面,这没什么奇怪的,数据科学家应该是一类综合人才,他并不应该只是一门技术的好手,例如纯统计。对统计学家来说,贝叶斯谁不会?半夜三点把你叫醒你都能三秒内背出贝叶斯定理,但让你把贝叶斯统计用到总统竞选上,可能就没多少人做得了这事情了(参见施涛老师的考古文)。一方面,你要会收集数据(各种网络数据来源需要恶心的清洗整理),另一方面,你要有靠谱的先验信息(自己的经验也好,舆情分析也好),可是你只有那个贝叶斯公式,就像卖火柴的小女孩手中的火柴。

我并不想跟传统学院派打仗,但我认为统计教育需要轻微改革。我们需要增强数据和编程方面的教育,诸如实变函数和测度论之类的数学课对统计专业来说应该改为选修,这并不是说让学生偷懒,而是学科细化分支的结果:知识在一代一代积累更新,我们不能要求每一代学生都从盘古开天辟地时的知识学起。有志于投身学术研究的可以那样追根溯源皓首穷经,但统计学家在这个数据时代有更丰富的使命。既然现实中的数据都是恶心得要死(各种不整齐、各种求程序包养),何不在学生时代就先恶心一下?信息时代图形的重要性也日益突出,但Excel的三维饼图条形图只能让人觉得图形有个毛线用;各种软件输出的静态图形在网络时代只能看不能“摸”,要鼠标干嘛(去看看前文提到的Silver的博客,或者通向白宫的512条路,那些才是网络时代该有的统计图形)。

数据科学家的概念在美国提出也就是近两年的事情,在中国发展如何,我们拭目以……

最后来个问答题:你心目中谁像数据科学家?为什么?(对于突出的提名,统计之都将在后期文章中安排个人专访)

关于谢益辉

RStudio码了个工,Iowa State University统计系博了个士。统计之都网站创办者;研究兴趣为统计图形及数据可视化,对统计模型方法的发展感兴趣但不喜欢纯粹抽象的数学理论,以直观、实用为学习标准;偏好以R语言为工具;Email:xie@yihui.name;个人主页:http://yihui.name

数据科学家的崛起》有35个想法

  1. 数据科学家是“现代五项全能选手”,不仅擅长编程、抓数据,还懂统计,会建模,能结合行业问题,展示炫目的可视化结果。

  2. 这种活一般人干不了,不是说使用的方法多么高级,其实方法大家都会,但是关键是先验数据平常人是接触不到的,通常各个竞选团队都有自己的内调,而我们看市面上的民调都是有倾向性的,这样有些关键数据就有被噪音污染的可能,而自己的内调通常就比较客观。
    台湾的选举就是比较现实的案例。

    1. 吐槽有理啊,我很欣赏。你的文章太多了,我翻了半天,放弃了……还是思喆的文章最好翻,放眼望去轻松挑两篇。

      你要是不介意,我可以链上你的白菜菌菇羊肉汤,除了楼上肖凯兄说的五项全能,我觉得数据科学家也得像你一样会生活,而不是死板的码农家或公式家:)

      1. 写的多也是错….不过确实我现在翻我自己的文章都得用google reader的搜索了…

      2. 当然不是错,只是挑起文章太费事了,所以没继续挑下去。隐约记得我在某篇日志下回复说你有小轩哥的风格了,好不容易才找到是R会议总结那篇。

      3. 嗯,还是当事人会找,我当时想的正是这篇。我记得跟R会议有关,扒了好半天,还是扒错了。

      4. 这个你直接在落园的搜索栏搜呀…“文本聚类”一搜就出来了

  3. 统计(数据挖掘)能解决实际问题,这才是它吸引我的地方。各种分布,统计显著性检测,就留下给老学究自己玩吧。神奇的贝叶斯,统计学习才是当今数据科学家的神器!

  4. 在我心目中,Amazon西雅图总部的TuKang应该是数据科学家,益辉应该见过他。

    1. 嘿,你们俩怎么认识的……我今年暑假才见他,不过我后来发现他很早以前就在我博客中留过言。世界真小。

  5. 10月的HBR也有一篇专题是讲数据科学家的,里面提到了一点让我印象深刻:“如果候选人不会编程,别浪费时间了,赶紧面试下一个吧”

  6. “半夜三点把你叫醒你都能三秒内背出贝叶斯定理,但让你把贝叶斯统计用到总统竞选上,可能就没多少人做得了这事情了。”
    这你的去考古一下这里:http://blog.cos.name/taoshi/?p=1733
    老祖师1962年就在NBC上做过了。当年哪有这么多民调数据来用啊。
    50年后大家居然还在追捧Nate。

    1. 我理解你的意思,但我觉得大家追捧他总体来说对统计学有益(尽管我不喜欢追星),不是所有人都能考到那个古的。Silver这次的预测和很多民科发生了很大的冲突,他能让那些民科哑口无言一定程度上是给我们搞统计的添了一些饭碗。

      我比较同意这篇文章的观点:http://simplystatistics.org/2012/11/24/computer-scientists-discover-statistics-and-find-it-useful/ 发明新的统计方法和应用老方法到新数据这两方面都重要,而后者相对容易被忽视。

      1. 不知道,其实我并不关注选举预测啦,您老就放过我吧。我只是觉得这次选举比较吸引我的眼球而已,写了一篇灌水文章。

  7. “数据科学家应该是像精算师一样的综合人才,他并不应该只是一门技术的好手” 精算师这专了又专的专业人才何时成了综合人才了?益辉你来解释一下。

    1. 我觉得往后很难真的有“专了又专”的专业人才了,所有专业都在向专业和综合方向并进。即使就是计算风险这一件事,随着时间推移也在不断纳入新的知识和工具。数学、统计、概率、经济金融、计算机等等……

      1. 那你抬精算师出来做甚?直接说“数据科学家应该是像各种综合人才一样的综合人才,他并不应该只是一门技术的好手” 不就得了:)难不成你是精算师?

      2. 这不是上下文正好说到精算了么,看来造成误解了,我改一下。另:我不是精算师。

  8. 刚看到一条推文,关于数据科学家的定义,Data Scientist (n.): Person who is better at statistics than any software engineer and better at software engineering than any statistician.

  9. 睡前看到推送的blog,看完不知为啥很兴奋,一定要到yihui大神这里来留个言~

    1、首先赞一下“在毕马威会计师事务所度过了令自己后悔的四年时间”,作为一名暂时的四大青年,表示对目前的工作也没有什么热情,的确挺无聊的……但是在这样的公司工作一段时间也好,至少可以培养出一定的职业素养,也可以锻炼自己的细心和耐心,考验自己克己的能力。

    2、其次也要表达一下对精算的无感之情。敝校保险精算专业纳在金融系下面,所以我们也半被迫地修习了三四门精算课。虽然本科生的课程算不上难,分数也不算难看,但是的确是对精算毫无兴趣,计算预期寿命死亡暴露卷积函数什么的真心不适合我。由此可见,职业和专业果然还是要看个人,跟风而行会只会让自己无比痛苦。所以大三分专业的时候死都不选精算……

    3、最后,同样想说,统计学的确有很大的应用范围,社会分析、政治分析、经济分析都有统计学应用的地方。我自己很喜欢的行为金融这个领域,说是“金融和心理学的交叉”,但要想走到定量和深入分析的那一步,需要的还是相关统计学的介入啊~课程改革方面,其实各个专业都有这样那样的问题。我本科专业就在更多的添加一些时间序列分析之类的金融工程课程,帮助学生更好地理解这个分支,也为将来读研究生做做准备,我觉得一切都会往好的地方发展的~虽然我是已经没那个机会啦……

    啊,以上是一些吐槽(?),逃走……

  10. 能不能写一个能看得懂的文章介绍 怎么用脚本生成html啊,看的都必须用Rstudio,有没有直接脚本不用Rstudio的介绍?

发表评论

邮箱地址不会被公开。 必填项已用*标注