[朝花夕拾] 迎接信息时代的统计挑战

本文略有修改,原文请点击此处

本文作者为俄亥俄州立大学的施涛。他把自己读郁彬老师的综述性文章:Embracing Statistical Challenges in the Information Technology Age的读后感和大家分享。

世事变迁,最近居然忽然有时间坐下来读些东西,重新审视一下这几年统计领域的发展了。粗略回想了一下,惭愧地发现我好像连博士导师的文章也没有系统地读过几篇,只是和自己研究有关的才详细夜读过。于是把她的一些老文章翻出来认真读读,了解一下她对统计研究和学科发展的观点。

木然回首,那文已在灯火阑珊处。2007年时她写过一篇综述性文章:Embracing Statistical Challenges in the Information Technology Age, Bin Yu (2007) Technometrics, 49(3), 237-248。摘要如下:

This article examines the role of statistics in the age of information technology (IT). It begins by examining the current state of IT and of the cyber infrastructure initiative aimed at integrating the technologies into science, engineering, and education to convert massive amounts of data into useful information. Selected applications from science and text processing are introduced to provide concrete examples of massive data sets and the statistical challenges that they pose. The thriving field of machine learning is reviewed as an example of current achievements driven by computations and IT. Ongoing challenges that we face in the IT revolution are also highlighted. The paper concludes that for the healthy future of our field, computer technologies have to be integrated into statistics, and statistical thinking in turn must be integrated into computer technologies.

文中指出统计当今面临的最大挑战是“统计思维与计算技术的相互结合”。其中提到的一个主要例子还就是我博士论文的课题之一:设计更好更快的算法来区分NASA的卫星在南北极拍摄到图片中的空中云层和地面冰雪。

fig_polar_cloud

这工作前前后后持续了超过六年的时间。现在回头想想,从中学习到的和体会到的还是挺有好玩的,同时也发现当时还是很二的。文中提到的那些点点滴滴可谓是历历在目,处处伤心泪啊!

遥想当年,数据好难得。在合作者的帮助下也等了三个月才拿到两幅云图。唯一知道的就是专家相信卫星拍到的图中背景是冰天雪地的北极苦寒之地,其中有些部分有云层覆盖。记得和彬两个人第一次盯着图看时,彬问:“哪里是云?”我答:“我(gui)哪(cai)知道。” 就这样的开始了那么多年研究。

fig_cloud_modis

哎!说你呢:“一不小心就歪楼了。” “是,是,这里面的血泪和欢心故事改天另起个楼。。。“

先跳过中间过程,来看一下文中的总结,即云层探测这类大数据交叉学科的研究经历所带来的几点思考,

  1. 接触有价值的科学问题,以及相应领域知识;
  2. 收集和管理大数据(包括数据的高效传输、存储,以及可能的数据降维或特征选择);
  3. 探索性数据分析(可视化、描述性统计,同时也可能会要数据降维或特征选择);
  4. 处理模式:线下或线上(流数据);
  5. 正式建模,并考虑计算量和准确度;
  6. 多源数据的融合;
  7. 用统计学之外的信息来做验证(基于主观因素的定量或定性的验证数据)

这总结真是贴心啊。把它们和最近风行的大数据的4V特点(Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值))比一下,好像大V们不太关心专家意见和最后的独立验证,但更关心价值。要不说大数据是公司做的,大科学是学术做的呢 😉

开个玩笑啦,其实也不能这么字面理解,价值的体现最终还是在从数据中学到的规律能否预测未知,也就是独立验证。

文章从跨学科统计研究开始,用她的各种研究经历论述计算与机器学习和它们带来的新机遇,还有当时看大数据(massive data,那时big data 这词还没现在如此时尚)对未来统计发展将带来的改变和展望。文章结尾部分对掌握统计技能之外的其他能力(社交沟通技能)的重要性也有提及,不仅能帮助我们更好地与人合作,也能有利于自身的长远发展:

In addition to statistical skills, social and interpersonal skills are needed to successfully collaborate with scientists and persuade them of the key role of statistics in scientific investigations. The importance of these nontechnical skills in interdisciplinary research suggests the need for a culture change in our community and for these nontraditional skills to be valued and recognized in, for example, tenure reviews, promotions, and awards. Last but not least, we need to educate our graduate and undergraduate students with the relevant technical and interpersonal skills.

最后当然是以眺望远方的姿势给大家希望:

This is a time of data deluge; we can help build the ark and ride on it, if we so choose.(这是一个数据泛滥的时代,是御轻舟穿梭数据海洋,还是溺其中不知出路?选择在我们自己手里。)

不管你读,或者不读,文章都在那里;不管你信,或者不信,时间都会揭晓答案。读后马上感觉有希望哦。

[朝花夕拾] 迎接信息时代的统计挑战》有4个想法

  1. 前两天还在 R 会议上听大家讨论几个 V, 我当时就没懂几个 V 是啥, 看了你得文章就明白了。 那几个总结确实很棒。 在公司里面确实主要关心 Value, 过程的严谨性差很多。

发表评论

邮箱地址不会被公开。 必填项已用*标注