标签归档:统计分析

模型选择的一些基本思想和方法

作者:高涛  编辑:王小宁

0. 引言

有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计,或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论,不少人认为机器学习侧重于目标预测,而统计学习侧重于机制理解和建模。个人更加直观的理解是,统计学习侧重于从概率分布来描述数据生成机制,除了预测之外,还关心结果(参数假设、误差分布假设)的检验,而机器学习侧重于从函数拟合角度来描述数据生成机制,基本目的就是为了拟合和预测,缺乏严谨的参数、误差的检验机制,比如下式:
\[
Y = f(X) + \epsilon
\] 继续阅读模型选择的一些基本思想和方法

COS 访谈第十五期:Rob J. Hyndman

【COS编辑部按】:受访者:Rob J. Hyndman,采访者:Earo Wang,译者:黄俊文。原文在这

Rob J. Hyndman 是澳大利亚的 Monash University 的统计学教授以及 International Journal of Forecasting 的主编。他也是 forecasthts 等广泛被使用的 R 包的作者。

Earo: 你曾经获得的是理学荣誉学士学位。那么你为什么选择统计学作为你的专业,以及统计学有什么吸引到你的呢?

Rob: 最初我在获得理学学位的途中,我没有想过统计学有关的东西,我本来是打算学习数学的。当时,Melbourne University 的数学相关专业的学生都要求在第一年上统计学,数学,计算机科学的课程。所以我就选择了统计学。不过我发现它很有趣,因为我很喜欢使用数学工具来解决现实问题的过程。 继续阅读COS 访谈第十五期:Rob J. Hyndman

大数据时代和数据分析需求,统计还沾边吗?

本文转载自施涛的博客,原文链接请点击此处

大数据时代的悄然到来和计算能力爆炸式增长,让做统计分析的各类人士不禁要重新打量一下自己的技能包,看看是不是很快要被时代浪潮以大浪淘沙的方式清洗掉了。

到底大数据是怎么来的呢?可以用来干什么呢?我们就先拿2012美国总统大选来举个例子看看。比如说我们想预测在2012年11月6日,

  • 问题1: 奥巴马和罗姆尼谁当选美国总统?

我们可以用什么数据来做这个预测呢?最常用的就是民调数据了,通过有选择性的挑选一些可能选民来问他们的倾向。这好像是个传统统计干的事。早在1962年John Tukey就已经开始做了
4C6ec

  • 问题2: 奥巴马和罗姆尼各自赢得了哪些州?

这也不难回答,我们还是可以用民调数据了,只不过要在每个州都进行抽样调查,在仔细的分析汇总一下。数据量也就比预测全国的结果时用的多几十倍而已。而且如果知道了那些州两人相差太大,一方就没有必要再大肆花钱做广告了 :)
继续阅读大数据时代和数据分析需求,统计还沾边吗?

R You Ready?——大数据时代下优雅、卓越的统计分析及绘图环境

作者按:本文根据去年11月份CSDN举办的“大数据技术大会”演讲材料整理,最初发表于2012年2月期《程序员》杂志。

1. 历史

R(R Development Core Team, 2011)语言由新西兰奥克兰大学的 Ross Ihaka 和 Robert Gentleman 两人共同发明,其词法和语法分别源自 Scheme 和 S 语言,R 语言一般认为是 S 语言(John Chambers, Bell Labs, 1972)的一种方言。R 是“GNU S”, 一个自由的、有效的、用于统计计算和绘图的语言和环境,它提供了广泛的统计分析和绘图技术:包括线性和非线性模型、统计检验、时间序列、分类、聚类等方法。我们更倾向于认为 R 是一个环境,在 R 环境里实现了很多经典的、现代的统计技术。

图1: 1992 年,Ross Ihaka 和Robert Gentleman 在奥克兰大学成为同事。后来为了方便教授初等统计课程,二人开发了一种语言;而他们名字的首字母都是R,于是R 便成为了这门语言的名称。

作为 R 语言的前身——S 语言的代码几乎不需要进行任何修改即可在R 语言环境下运行,从这个角度讲两种语言几乎等价。S 语言诞生于上个世纪 70 年代的由 John M. Chambers 领导的贝尔实验室统计部,它的诞生过程几乎就是现代统计分析方式的演化历程的写照(谢益辉,郑冰, 2008):

  • 1975-1976 年,贝尔实验室统计研究部使用一套文档齐全的 Fortran 库做统计研究,简称为 SCS ( Statistical Computing Subroutines );
  • 当时的商业统计软件采用的是批处理的方式,一次性输出问题的所有相关的信息,在那个时代,这个过程需要几个小时,并且商业软件不能对程序做任何修改。而贝尔实验室的统计学家们需要灵活的交互式数据分析方式,因此 SCS 在贝尔实验室非常受欢迎;
  • 但统计学家们发现使用 SCS 做统计分析时需要大量的 Fortran 编程,花在编程上的时间同取得的分析效果相比有些得不偿失。慢慢地,大家达成了一个共识:统计分析不应该需要编写 Fortran 程序!
  • 于是,为了同 SCS 进行交互,一套完整的高级语言系统 S 诞生了;
  • S 语言的理念,用它的发明者John Chambers 的话说就是“to turn ideas into software, quickly and faithfully.”

1993 年,S 语言的许可证被 MathSoft 公司买断,S-PLUS 成为了其公司的主打数据分析产品,这时候,由于 S-PLUS 继承了S 语言的优秀血统,所以广泛被世界各国的统计学家所使用。但好景不长,1997 年 R 语言正式成为了 GNU 项目,大量的优秀统计学家加入到了 R 语言开发的行列。随着 R 语言的功能愈发强大,渐渐地 S-PLUS 的用户转到了同承一脉的R 语言。S 语言的发明人之一,John M. Chambers 最终也成为了 R 语言的核心团队成员。S-PLUS 这款优秀的软件也几经易手,最后花落 TIBCO 公司,这是后话。

John Chambers 老爷子一直不遗余力的致力于R 语言的发展,至今仍然是活跃的 R 语言开发者。在 2009 年第一期 R Journal 上 John Chambers 是这样对 R 语言是定义的:

  1. An interface to computational procedures of many kinds;
  2. Interactive, hands-on in real time;
  3. Functional in its model of programming;
  4. Object-oriented, “everything is an object”;
  5. Modular, built from standardized pieces; and,
  6. Collaborative, a world-wide, open-source effort.

当然,R 语言的这些特点很难在一篇短文里细致的体现出来,那下面我将简要的描述一下 R 语言的现状和未来。

2. 现状及应用

R 语言在国际和国内的发展差异非常大,国际上 R 语言已然是专业数据分析领域的标准,但在国内依旧任重而道远,这固然有数据学科地位的原因,国人版权概念薄弱以及学术领域相对闭塞也是原因。那为什么 R 语言能够被广大的数据分析工作者做接受?这其中原因是很多的:

2.1 优势及特点

从 R 语言的发展历史上看,R 主要是统计学家为解决数据分析领域问题而开发的语言,因此 R 具有一些独特的优势:

  • 统计学家和几乎覆盖整个统计领域的前沿算法(3700+ 扩展包)
  • 开放的源代码(free, in both senses),可以部署在任何操作系统,比如 Windows, Linux, Mac OS X, BSD, Unix强大的社区支持
  • 高质量、广泛的统计分析、数据挖掘平台
  • 重复性的分析工作(Sweave = R + LATEX),借助 R 语言的强大的分析能力 + LaTeX 完美的排版能力,可以自动生成分析报告
  • 方便的扩展性
    • 可通过相应接口连接数据库,如 Oracle、DB2、MySQL
    • 同 Python、Java、C、C++ 等语言进行互调
    • 提供 API 接口均可以调用,比如 Google、Twitter、Weibo
    • 其他统计软件大部分均可调用 R,比如 SAS、SPSS、Statistica等
    • 甚至一些比较直接的商业应用,比如 Oracle R Enterprise, IBM Netezza, R add-on for Teradata, SAP HANA, Sybase RAP(刘思喆,2012

继续阅读R You Ready?——大数据时代下优雅、卓越的统计分析及绘图环境

Sweave:打造一个可重复的统计研究流程

[box type=”warning”]警告:本文提到的工具在更新中,请暂时不要按本文的配置去做,静候LyX 2.0.3的发布。[/box]

我们都痛恨统计造假。我们都对重复性的工作感到厌倦。如果你同意这两句话或这两句话适用于你的现状,那么本文将介绍一套开源、免费的工具来克服这两个问题。当然,前提是你愿意改变,这里的工具可以让这两种现象没有藏身之地,但无法改变造假和重复劳动的现实。以下为吊胃口视频(墙外观众可以看Vimeo;墙内看不到视频的可以任选一个链接下载本视频的AVI文件:链接1链接2链接3):

继续阅读Sweave:打造一个可重复的统计研究流程