分类目录归档:推荐文章

编辑推荐文章

为什么我不是R方的粉丝

本文翻译自 John Myles White 的博客 Why I’m Not a Fan of R-Squared。翻译工作已经获得作者授权同意。

本文大意

人们通常喜欢用 $R^2$ 作为评判模型拟合好坏的标准。与 MSE MAD 不同,$R^2$ 不只是模型误差的函数,它的定义中还隐含了两个模型的比较:一个是当前被分析的模型,一个是所谓的常数模型,即只利用因变量均值进行预测的模型。基于此,$R^2$ 回答的是这样一个问题:“我的模型是否比一个常数模型更好?”,然而我们通常想要回答的是另一个完全不同的问题:“我的模型是否比真实的模型更差?

通过一些人为构造的例子我们可以很容易发现,对这两个问题的回答是不可互换的。我们可以构造一个这样的例子,其中我们的模型并不比常数模型好多少,但同时它也并不比真实的模型差多少。同样,我们也可以构造出另一个例子,使得我们的模型远比常数模型要好,但也远比真实模型要差。

与所有的模型比较方法一样,$R^2$ 不单是被比较模型的函数,它也是观测数据的函数。几乎对于所有的模型,都存在一个数据集,使得常数模型与真实模型之间是无法区分开的。具体来说,当使用一个模型区分效能很低的数据集时,$R^2$ 可以任意地向零趋近——即使我们对真实模型计算 $R^2$ 也是如此。因此,我们必须始终记住,$R^2$ 并不能告诉我们模型是否是对真实模型的一个良好近似:$R^2$ 只告诉我们,我们的模型在当前的数据下是否远比一个常数模型要好。 继续阅读为什么我不是R方的粉丝

张志华教授:机器学习——统计与计算之恋

编辑部按:本文是从张志华老师在第九届中国R语言会议和上海交通大学的两次讲座中整理出来的,点击此处观看幻灯片张志华老师是上海交通大学计算机科学与工程系教授,上海交通大学数据科学研究中心兼职教授,计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前,是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。张老师主要从事人工智能、机器学习与应用统计学领域的教学与研究,迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文,是美国“数学评论”的特邀评论员,国际机器学习旗舰刊物Journal of Machine Learning Research 的执行编委,其公开课《机器学习导论》和《统计机器学习》受到广泛关注。

张志华

张志华老师和他的学生们

大家好,今天我演讲的主题是 “机器学习:统计与计算之恋。我用了一个很浪漫的名字,但是我的心情是诚惶诚恐的。一则我担心自己没有能力驾驭这么大的主题,二则我其实是一个不解风情之人,我的观点有些可能不符合国内学术界的主流声音。

最近人工智能或者机器学习的强势崛起,特别是刚刚过去的AlphaGo和韩国棋手李世石九段的人机大战,再次让我们领略到了人工智能或机器学习技术的巨大潜力,同时也深深地触动了我。面对这一前所未有的技术大变革,作为10多年以来一直从事统计机器学习一线教学与研究的学者,希望借此机会和大家分享我个人的一些思考和反思。

在这场人工智能发展的盛事里,我突然发现,对我们中国的学者来说,好像是一群看热闹的旁观者。不管你承认还是不承认,事实就是和我一代的或者更早的学者也只能作为旁观者了。我们能做的事情是帮助你们—中国年轻的一代,让你们在人工智能发展的大潮中有竞争力,做出标杆性的成就,创造人类文明价值,也让我有个加油欢呼的主队。

继续阅读张志华教授:机器学习——统计与计算之恋

数据江湖,回归5式

作者:王汉生(北京大学光华管理学院)

今天要跟大家分享的主题叫做:数据江湖,回归5式!

如今啊,大数据时代,群雄割据,天下大乱。各位童鞋,闯荡江湖,凶险难测。没一些必备的看家的本领,就想从数据出发,直达价值的彼岸,恐怕很难。

为此呢,熊大教大家几招防身绝技,叫做:回归5!简单的说,就是5种最常见的回归模型。这5个招式,看似简单,却是熊大行走江湖的看家本领。回归5式,就如同少林长拳,看似平淡无奇,但是如果辅以深厚的内力,就能威力无比。

所以呀,今天除了要教给大家这回归5式以外,熊大还要跟大家说道说道这内力的修为。没有深厚的内力修为,任何绝妙的功夫,都是花拳绣腿。

好了,闲话少说,先从回归5式开始。

继续阅读数据江湖,回归5式

电子商务顾客评论的热点话题分析

作者:蔡越 (厦门大学经济学院统计系),郭鹏(厦门数析信息科技有限公司),

方匡南(厦门大学经济学院统计系,厦门大学数据挖掘研究中心)

摘要: 买家的评论文本数据是电子商务领域一种重要的数据形式,通过对其分析,电商卖家可以直接了解顾客对产品的态度与建议,提取顾客关注的热点问题,也可以进行顾客分类,实现精准营销,改进和提高生产和服务等;买家可以提取所关注属性的相关评价,了解舆论情感倾向,提高购物决策效率。但是大数据环境下海量文本的出现给文本数据的有效利用带来了一定的困难,比如结构化处理后的文本数据的高维特性给电子商务文本聚类等分析带来了新的挑战。本文主要研究当词条数目(变量数)远远大于评论文本数(样本数)时如何归纳顾客评论以及提取热点话题。本文抓取了亚马逊中国站热门产品kindle的评论文本,通过惩罚高斯混合模型聚类方法,同时进行文本聚类和有效词条的筛选,实现了大规模评论文本的有效、快速、自动聚类,为后续更加精细的商业分析提供了良好的基础。

关键词:顾客评论;文本分析;聚类;热点话题

继续阅读电子商务顾客评论的热点话题分析

统计之都十周年感言

呐,统计之都已经创建十周年。作为所谓的创始人,自然也是时候卷起袖子跟大家一起干一大碗鸡汤,毕竟十年这个时间长度听起来好像还蛮厉害的。不巧最近这些天挺忙,加上我其实并不太喜欢专门写文字给乌泱乌泱的客官们看,年龄越大,就越不愿意去安利别人。这篇十周年感言如何写,每天晚上苦苦思考三分钟之后就睡得特别香。想全面概括这十年的发展是不可能的,只能用我最擅长的意识流方式想到哪儿说到哪儿了,这篇文章基本上是纯个人视角,无意借机强行输出价值观。10th

想当初创建统计之都那会儿,朕是天不怕地不怕,心高气傲,不懂就放狗搜了若无其事地回来装懂,在满论坛的点赞声中深藏功与名。有时候在论坛回帖回到半夜一两点,就是那种“扶朕起来朕还能回”的感觉。时间长了,偶尔会有不知情的热心网友称谢教授,嗨别介,我就一逗比本科生而已,然而心里自然窃喜不已,三条腿的蛤蟆好找,二十二岁的教授不常见啊。现在想想人不轻狂枉少年,虚荣心也不是什么坏事,我的 R 语言技能,大致就是在三天两头帮人看函数文档中学出来的。话说那时候 R 帮助文档还是 CHM 格式的,现在的娃估计都不知道咩是 CHM 了。这话题切换到 R 也忒快了。 继续阅读统计之都十周年感言