分类目录归档:贝叶斯方法

贝叶斯统计学

Persi Diaconis(2)

本篇将给出上次提出的解码问题的一个可能的解(建议大家阅读Persi Diaconis写的原文,可以很容易在谷歌中找到,文章名字见上一篇)。

假设我们已经知道该密码文件中所有字符对应的实际中的符号集(如26个英文字母以及0-9的阿拉伯数字等)。

我们将这些字符随机地对应到我们已知的符号,看看结果是否合理(即解码后是否有意义),如此遍历所有可能的对应关系,就可以了。这是一个办法,但显然不是一个好的办法。 继续阅读Persi Diaconis(2)

Persi Diaconis (1)

作为统计之美的开篇,我一直想找一篇我非常愿意写的统计故事,尽管有很多,但都不能让我觉得可以发泄笔头之愤。最近在听贝叶斯统计课,刘军老师(哈佛大学统计系教授)提起了叫Persi Diaconis的人,他的故事和他的工作,这让我找到了写这篇文章的灵感。

你能想象,一个人在14岁离家出走,学习魔术,浪迹江湖,24岁后潜心学术,之后成为斯坦福大学的教授?

Persi Diaconis(维基)确实如此,他在搞魔术的时候,为了想研究如何防止被其他魔术师骗,买了本 William Feller 的 An Introduction to Probability Theory and Its Applications,但是里面涉及到了微积分等知识,看不懂,那年他18岁。他发誓要回学校学习,以此能够看得懂这本书。24岁重返校园(City College of New York)。他向《科学美国人》投稿介绍他两个有意思的洗牌方法。这样被一个马丁·葛登能的人看重,给他写了推荐信去哈佛大学,当时哈佛的统计学家 Fred Mosteller 正在研究魔术,于是就要了他(http://blog.sciencenet.cn/home.php?mod=space&uid=1557&do=blog&id=418859)。

Persi Diaconis 做了几个很有意思的工作,如洗牌多少次能够洗得比较彻底(我希望在统计之美里面,能够有一篇来单独介绍洗牌问题)等。他还有个绝活,据刘军老师说,他总可以抛硬币时,抛出他想要的那一面。而他每次的学术报告之前,都会表演一番,很多人实际上不是去听他的报告的,而是看看他的绝活。

这次就要介绍的,是他在一篇 MCMC 算法(Markov Chain Monte Carlo,马氏链蒙特卡洛方法,有文章将其评为20世纪最有名的10个算法之一)综述的文章(The Markov Chain Monte Carlo Revolution)中,给出的破译犯人密码的例子。

有一天,一个来自了解关押囚犯心理的心理医生,来到斯坦福统计系,给出了如下一个囚犯写的密码信息:

上图是囚犯写的密码信息的一部分,你可以看到很多出现频繁的字符。

问题来了,该心理医生想知道,这个密码信息的内容是什么?

我们可以想到,上图看起来怪怪的字符,每个都应该对应一个字母,只要我们找到字符和字母的对应关系,我们就可以解码了。但是怎么找到这个对应关系呢?(我想到了福尔摩斯探案集里面有这样一个例子,不过那个例子中的字符代表体系和这个不同,但是福尔摩斯的推断相当惊人!)

在下一篇我给出他的想法,从而写完MCMC算法的引子。

win your ex girlfriend backfree advice on how to make her want you back How To Get Your Ex Girlfriend Back how to get back with your ex girlfriendhow to get your girlfriend back

LDA主题模型简介

上个学期到现在陆陆续续研究了一下主题模型(topic model)这个东东。何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说, 我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。 继续阅读LDA主题模型简介

大规模系统内变量关系的研究以及可视化-1因果分析

引言——变量关系分析的广泛意义

在统计分析中,有这样一类具有普遍意义的问题:在测得了(取样)一个变量系统的数据以后,如何从数据中发现并且验证这些变量之间的关系?了解变量之间的关系,无论是对于知识发掘(knowledge discovery),还是拟合精度的提高,都是很有意义的.比如任何一类回归分析,便是要分析预测变量和响应变量之间的关系.如果我们能用一些方法做回归前的预分析(pre-analysis before regression),比如,使用方差分析去分析各个预测因素之间的关系,是非常有必要的.为什么呢?一个很简单的原因是出于对复线性的考虑.众所周知,复线性是回归分析的大敌.如果大家还记得回归分析系数的协方差矩阵的话,想必也能记得如果预测因素之间的相关系数太大会导致回归方程系数非常不稳定(请参阅 method of multivariate data analysis by rencher).又如结构方程模型,是要分析测量变量(measurement)和结构变量(construct)之间的关系.还有最近十分热门的图模型,便是赤裸裸的声称图模型是所有统计模型的一个大综合. 继续阅读大规模系统内变量关系的研究以及可视化-1因果分析

WinBUGS在统计分析中的应用(第四部分)

如何生成一个GeoBUGS格式的中国地图

第一节 导言

R, WinBUGS and ArcInfo之前有些对GeoBUGS感兴趣的同学发邮件询问我有没有GeoBUGS的中国地图,以用于分析中国国内的一些空间数据。我想有必要将如何生成GeoBUGS格式的地图的方法分享给大家。这样的话, GeoBUGS就可以真正为我们所用,从而对于其他GeoBUGS没有自带的地图,我们也可以轻松生成了。本节不涉及统计分析,仅为GeoBUGS的研究使用者提供一个软件使用的技术参考。关于GeoBUGS的统计的书,国外实在是很多了,但关于这块地图定制的参考资料较少,故提出来供大家参阅。
继续阅读WinBUGS在统计分析中的应用(第四部分)