标签归档:数据可视化

丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑

作者:水妈

大家好,我是水妈,在大学工作,主要教统计学。今天代表狗熊会,发起一个新的系列,丑图百讲。这个系列不讲炫酷的、高大上的统计图,而是给大家分享如何画好最基础的统计图

读者可能会问,为什么要分享统计画图?熊大说了,数据分析的第一步,是梳理业务目标,接下来才是分析数据。水妈认为,在分析数据环节,第一步是做描述分析。这里的描述分析,包括三个内容:一、明确行业背景和变量含义;二、用统计图、统计表以及各种统计指标对数据进行描述;三、适当的解读描述的结果,发现问题,支撑后续的建模。其中,第二个环节尤为重要,因为统计图是最容易给人留下深刻印象的。做好了,能给你的报告或者展示加分,帮助你发现数据当中的问题。做不好,那就是一场灾难。

读者可能又要问,最基础的统计图有什么好讲的啊。我看过太多学生的报告,学生看自己画的图,就像是看自己家孩子,越看越喜欢,殊不知别人早就受不了你在朋友圈天天晒娃娃了。大家不要觉得画最最基础的统计图这件事情非常简单容易,可谓不画不知道,一画吓一跳。真的自己动手去画,才知道自己画出来的图有多丑。 继续阅读丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑

第八届中国R语言会议(武汉)暨华中地区数据科学会议

第八届中国R语言会议(武汉会场)暨华中地区数据科学会议于2015年11月7日在湖北经济学院大学生活动中心二号报告厅顺利举行。会议由湖北经济学院统计学院和统计之都主办,湖北数据与分析中心协办,优酷土豆和辰智咨询提供了赞助。会议当天,众多R语言兴趣爱好者齐聚一堂,就R语言在行业中的应用进行了交流探讨。经过大家的努力,R语言的火种顺利传到了武汉,接下来还会一直传递下去。

wh-001

会议概况 继续阅读第八届中国R语言会议(武汉)暨华中地区数据科学会议

Hadley Wickham:一个改变了R的人

【COS编辑部按】本译文得到了原英文作者的授权同意,翻译:冯俊晨、王小宁, 审校:邱怡轩、朱雪宁、蔡寒蕴,编辑:王小宁。

Hadley Wickham 是 RStudio 的首席科学家以及 Rice University 统计系的助理教授。他是著名图形可视化软件包 ggplot2 的开发者,以及其他许多被广泛使用的软件包的作者,代表作品如 plyrreshape2 等。本文取自PRICEONOMICS.

HadleyObama

继续阅读Hadley Wickham:一个改变了R的人

数据科学家的崛起

美国2012总统大选是奥巴马的胜利,但实际上也是统计学家的胜利。奥巴马当选之夜,我看见推特上有一条消息被疯狂转载:

NATE SILVER ELECTED 44TH PRESIDENT OF UNITED STATES

当然这是一句玩笑话,但Nate Silver是谁?他号称“竞选预测之神谕”:2008年的总统大选他预测对了最终结果,而且美国50州的投票结果他预测对了49个;今年的大选他又预测对了,并且是50州全对。Silver是一名统计学家,毕业于芝加哥大学,随后在毕马威会计师事务所“度过了令自己后悔的四年时间”(不喜欢那里的工作),后来转向预测棒球选手的成绩,再后来转向政治方面的数据分析和预测。总统大选的预测是一件噪声很大的工作,各家有各家的预测和分析,各种突发事件可能会导致某位候选人的支持短期内大幅变动。Silver的工作就像机器学习中的“集成学习”(他自己的描述是“贝叶斯统计”,用自己的先验信息和数据得到后验),集合众多民意调查结果,根据自己的经验判断去平均它们(具体过程我不清楚)。 继续阅读数据科学家的崛起

日历中的夏天

看着有节,摸着无节,打一生活用品

不知不觉,夏日已慢慢临近。姑娘们飞扬的裙角,小贩叫卖的西瓜,蚊蝇嗡嗡的声音,以及翻过的一页日历,都提醒着你夏天快来了。夏季有着不同的定义:根据中国人的日历,我们所俗称的夏季从立夏开始,到立秋结束;但在气候学上,夏季是指连续五天平均温度超过22摄氏度即算作夏季的开始,若连续五天平均温度低于22度则算作入秋;而天文学上的夏季一般是指六、七、八这三个月。

那么哪一种夏季的定义更合适一些呢?还是用数据可视化来说话吧。这项任务基本上有两个步骤:一是获取某城市的2011年日平均温度数据,二是根据数据绘制日历热图(Calendar-Heatmap)继续阅读日历中的夏天