标签归档:数据分析

Python的七种武器

君子生非异也,善假于物也。

“物”能够延展英雄的能力。它是吕布的赤兔马,杨过的玄铁重剑,CS中的沙漠之鹰,曹操传中的凤凰羽衣。“物”也可用以治愈英雄,例如张无忌的黑玉断续膏,李逍遥的天香续命露,还有深夜里TVB的一碗面。

赤兔

对于不同的位面,有着不同的宝物定义。对古时文人来讲,笔墨纸砚,是当时具有生产力输出的四大工具。对程序员来讲,当代的“文房四宝”不外乎是:笔记本,大屏幕,机械键盘,人体工学椅,Google,Github这几种。特别是机械键盘和人体工学椅,它们是极为重要的“人机接口”。前者可以用来延展英雄的输出能力,后者可以用来治愈英雄的腰椎。

机械键盘

在数据领域也有类似的情况。一个数据项目,最重要的是定义问题,其次是拿到好的数据,再次是找到合适的方法,最不重要的可能就是选择一个工具了。但是看起来最形而下的工具,却是最具体而真实的“人数接口”。用一种顺手的工具来玩数据,我们会觉得比较舒服,输出效率更高。

市面上的分析工具大致分为两大类,菜单式的工具和命令行式的工具。前者适合于初学入门,类似于跟团旅游,提供了固定的路线。分析套路比较固定化,点几下鼠标就可以搞定也很省事。后者适合于老手玩家,类似于自由行,需要自己规划数据工作流,适用于自定义的灵活分析。大多数用户害怕命令行,然而使用命令行才能掌握真正的力量。命令行是Jedi的原力。

在命令行工具类别中,最耀眼的是R和Python这对双星。他们有非常多的相似之处,第一个相似之处是“快”。这种快不是纯计算速度快,而是从想法到结果的快。因为不论是探索数据还是建模,都需要各种尝试各种试错各种踩坑,如果要花2小时写代码,跑1分钟,不如花1分钟写程序,跑1小时。因为人的时间总是更为宝贵。第二个相似之处是扩展丰富。即有大量现成的函数模块。从想法到结果的快速实现,不能等待重新造轮子,另一方面,试错也要做很多复杂的自定义任务,将各种模块进行组合,调用各种外部交互接口,这两种开源工具都非常擅长。

二者的差异点在于Python是一种通用型编程工具,R专注于数据领域;R有更为丰富的专业统计函数,Python则长于机器学习;R有更好的可视化包,Python正在快速追赶;Python和R的核心语法非常简洁,一些R包的语法则兼收并蓄,错综复杂。当你有时间的时候,双修是最好的选择。因为这两种工具类似于筷子和勺子的区别,在不同场景下使用某种工具更为有效。

R语言这个工具与其生态系统,在统计之都上已经介绍得非常多了。下文简单介绍一下python的七个最为重要的数据分析模块,或者称之为七种武器。 继续阅读Python的七种武器

数据告诉你:高信誉的卖家应该收高价,还是收低价?

刘跃文(西安交通大学管理学院)

看到这个题目,各位看官不妨想一想,淘宝上的信誉高的卖家会收高价,还是会收低价呢?根据我多年的教学经验,这里有四种可能的答案:(A)收高价、(B)收低价、(C)不好说、(D)不知道。您选哪一种?为什么?

且听我慢慢道来。

1 eBay说:卖家信誉越高,最终成交价格越高

1

从2000年开始,以eBay为代表的电子商务发展势头迅猛,养活了一大票科研人员。eBay以网上拍卖为主要的营业方式,因此,当时科研人员的一个主要的研究题目,就是网上拍卖的卖家的信誉如何影响拍卖结果(如成交率、竞拍次数、最终成交价格等)。那么卖家的信誉和最终成交价格是什么关系呢?答案是显著的正相关关系:对于同质商品,高信誉的卖家,其最终成交价格普遍更高。

继续阅读数据告诉你:高信誉的卖家应该收高价,还是收低价?

[朝花夕拾] 迎接信息时代的统计挑战

本文略有修改,原文请点击此处

本文作者为俄亥俄州立大学的施涛。他把自己读郁彬老师的综述性文章:Embracing Statistical Challenges in the Information Technology Age的读后感和大家分享。

世事变迁,最近居然忽然有时间坐下来读些东西,重新审视一下这几年统计领域的发展了。粗略回想了一下,惭愧地发现我好像连博士导师的文章也没有系统地读过几篇,只是和自己研究有关的才详细夜读过。于是把她的一些老文章翻出来认真读读,了解一下她对统计研究和学科发展的观点。

木然回首,那文已在灯火阑珊处。2007年时她写过一篇综述性文章:Embracing Statistical Challenges in the Information Technology Age, Bin Yu (2007) Technometrics, 49(3), 237-248。摘要如下: 继续阅读[朝花夕拾] 迎接信息时代的统计挑战

第六届中国R语言会议(上海)纪要

第六届中国 R 语言会议(上海会场)于 2013 年 11 月 2 日 ~ 3 日在华东师范大学中山北路校区的科学会堂成功召开。会议由华东师范大学金融与统计学院和统计之都(cos.name)主办。在两天的会议时间里,参会者齐聚一堂,就 R 语言在电商、互联网、金融、可视化、机器学习、数据挖掘等行业和领域展开了深入的探讨。

6th-china-r-sh
6th-china-r-sh2

会议概况

本次会议报名非常火爆,受会场容量所限,开放报名的时间非常短,很快就报满了600人,约有 400 多名参会者前来参会,规模再创新高。参会者主要来自各大高校、科研机构、企业和事业单位,全体参会者所在单位汇总如下。

高校和研究所:

Purdue University、北京大学、北京邮电大学、第二军医大学、东华大学、东南大学、福建师范大学、复旦大学、广东工业大学、广西医科大学、贵阳学院、贵州财经大学、国家人类基因组南方研究中心、杭州电子科技大学、河海大学、华东理工大学、华东师范大学、华中科技大学、江南大学、江西师范大学、解放军理工大学、兰州大学、南昌大学、南方医科大学、南京大学、南京航空航天大学、南京农业大学、南开大学、山东大学、上海财经大学、上海大学、上海交通大学、上海教育科学研究院、上海科技大学(筹)、上海理工大学、上海立信会计学院、上海人类基因组研究中心、上海社会科学院、上海师范大学、上海外国语大学、上海中医药大学、苏州大学、天津大学、同济大学、温州大学、温州医科大学、武汉大学、武汉理工大学、西安石油大学、西北农林科技大学、西藏民族学院、云南财经大学、长安大学、浙江财经大学、浙江大学、浙江工商大学、浙江工业大学、浙江警官职业学院、浙江理工大学、中国科大、中国科学院寒区旱区环境与工程研究所、中国科学院青岛生物能源与过程研究所、中国科学院上海生命科学研究院、中国科学院水生生物研究所、中国科学院武汉病毒研究所、中国人民大学、中国药科大学、中科院大学、中科院生物物理研究所、中科院西双版纳热带植物园、中山大学。

继续阅读第六届中国R语言会议(上海)纪要