所有由Liyun发布的文章

COS数据分析沙龙第九期(上海,@联合创业办公社)

春光旖旎,眼瞅着几天之后就要在北京举行声势浩大的第六届中国R语言会议了。想着大家因为各种各样的原因可能届时无法到场参会,所以上海的童鞋们抓紧大会前的宝贵时间,自然是要把上海这边奉送的高质量报告先睹为快。所谓近水楼台先得月嘛。同时也是为了几天之后的会议造造声势,有什么不好么?

沙龙进行中...
沙龙进行中…

沙龙依旧沿袭上海一贯的小资风格,跑到联合创业办公社位于昌平路的二期创业社,躲着下午刺眼的阳光,享受着周末美好的闲聊。一开始,依惯例是大家的自我介绍时间。上海的沙龙参与者以业界的朋友为主,大概也迎合了近期R语言在业界快速发展的趋势。从互联网企业,到制药、咨询、金融,还有很多小编以前都没有听说过的行业都有高朋莅临。此外,还有来自浙江大学的杭教授激情饱满的为我们介绍了浙大即将开设的与数据分析相关的专业,目标就是培养业界(尤其是金融业)需要的数据分析人才。席间还有学界业界兼得的大牛挥斥方遒,瞬间觉得,从业界到高校到科研院所,数据分析真是无孔不入。我们是否可以开始期待一场产业革命了呢?
继续阅读COS数据分析沙龙第九期(上海,@联合创业办公社)

微博用户影响力评价的H-Index指数

H-index其实更广泛的应用于学术论文评价,其定义为:

h代表“高引用次数”(high citations),一名科研人员的h指数是指他至多有h篇论文分别被引用了至少h次。

约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为:

一名微博用户的h指数是指他至多有h个粉丝数超过h的粉丝。

怎奈后来抓数据奇慢无比,遂放弃。

转过年来,春天都到了,Rweibo这个包也出来好久了,不动手试试多少有点痒痒。新浪微博的API对于测试帐号限制较多,一小时只有150次请求机会。唉,只能无耻的多帐号多API一个个抓。就算这样,到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息,勉强绘就了一张微博的H-index指数与粉丝数的关系图。

当然,一切的第一步自然是以小编自己的帐号为测试中心。前段时间涨了不少粉丝,貌似却不怎么互动。所以小编有理由认为自己的H-index可能偏低。结果证明,在小编的近1100粉丝之中,只有287人的粉丝数超过了287。这样,小编的H-index就华丽丽的定格在287了。

然后小编好奇呀,那些跟我差不多的人,他们的情况是怎么样呢?于是从自己的粉丝中(我只能直接影响到这些人嘛)上下选了一下,粉丝数>500且小于2000的显然是个不错的对比范围(受限于新浪微博API的控制,力不从心呀)。

不一会儿,数据抓完了。然后算算H-index,就有了下面这张图:

新浪微博用户影响力H-index指数(点击大图)
新浪微博用户影响力H-index指数(点击大图)

继续阅读微博用户影响力评价的H-Index指数

十八般武艺,谁主天下?

十八般武艺各有神通之处,所谓“一弓、二弩、三枪、四刀、五剑、六矛、七盾、八斧、九钺、十戟、十一鞭、十二锏、十三挝、十四殳、十五叉、十六耙、十七绵绳套索、十八白打”,这让一个江湖新手一上来就学全十八般武艺,还真是有点为难人家呢。这在古代,天下可都是一群架一群架扎扎实实打出来的。指挥者可以运筹帷幄决胜于千里之外,但是真要上阵的小兵们可就惨多了——谁若是稍有走神,怕是小命就危在旦夕了。还有那血雨腥风却始终有无数人向往的江湖,或迷人或险恶,总得有一技傍身方觉得安心些。可是,这一技说来容易,到底学才可以雄霸天下呢?嗯,其实一般说来我们是不需要担心这个问题的,可是凡事总有例外——比如做梦的时候…

小编不幸的就在梦中穿越回了古代一回,然后面对着师傅一下子扔出来的一堆兵器傻了眼——这该如何下手呢?直到梦醒,耳边回荡的还是师傅那严厉的声音“给你一天时间考虑,明天来见我的时候告诉我你要学什么”。呃,为了明天做梦的时候不挨骂,还是老老实实的选一样东西吧。可是这也不能信手拈来就是嘛,总要有点科学依据,要不怎么能显得出来我这个辛辛苦苦梦中穿越回去的现代人的智商优越性呢?

于是开始狂翻枕边常备的武侠小说。“问世间情为何物,直叫人生死相许”——正沉浸在杨过和小龙女的离别悲伤之中,恍然觉悟,呃,貌似不对,看错章节了…师傅明天才不会管我怎么谈恋爱呢。可是这么多打打杀杀的,金庸老鬼的十四本巨著这到啥年啥月才能看完呀!晚上就得回师傅答案呢。算了,在这个信息时代,自然要倚仗科技的力量——比如,文本分析神马的应该可以搞定吧?先去百度一下,结果度娘说:

得人心者得天下…
得中原者得天下…
得此女者得天下…
得知识者得天下…
得青年者得天下…
得蜀者得天下…

这些怎么看起来这么不靠谱…算了,还是自己动手丰衣足食吧。眼看太阳就要下山了,小编赶紧打开电脑。噼里啪啦一阵键盘声响起,金庸大侠的十四本小说就乖乖的躺在那里了。稍待片刻,等我做好了分析,嘿嘿,晚上就不怕师傅拷问了。都说群众的智慧是无穷的,听说一博彩公司预测大选什么的比那些专门的学者们还要准…我还是先看看那些大侠们都用什么吧!都说剑品即人品,那我们就来看看这些武器的PR值吧(此处纯属开玩笑 :P,PageRank还是一个比较好用的计算网络权重的指标)。

金庸的武侠世界
金庸的武侠世界

然后看看排名,果然还是学剑最好哇!

剑 0.018411053
刀 0.017516021
掌 0.017137869
抓 0.011880115
拳 0.011605281
圈 0.007458074
船 0.005805638
镖 0.004840676
枪 0.004806615
弓 0.003935635
钩 0.003358054
棍 0.003121407
叉 0.002733994
拐 0.002570806
锤 0.002392814
斧 0.002056493
戟 0.001731019
铲 0.001521452
戚 0.00148074

嘻嘻,搞定了晚上梦会师傅的事情,就可以开始玩玩其他的了。顺便,好奇的心情发作…有没有发现,其实这朵花,真的是开了好多瓣呢?一瓣,怕就是一本书吧!

金庸一枝花
金庸:一枝花

好吧,继续过过瘾…既然都这样了,就开始八卦一下这些人物的关系吧!

金庸人物关系网
金庸人物关系网

等等,什么,射雕三部曲居然不在一块儿!这到底是什么个情况!!!

射雕三部曲关系网
射雕三部曲关系网

哎,我的童年彻底毁掉了。什么黄衫姑娘啊,什么郭襄祖师爷啊,原来《倚天屠龙记》跟《神雕侠侣》和《射雕英雄传》根本没那么多血脉相亲…呜呜。

———–废话若干———–
1. 选择金庸的作品只是因为有现成的金庸词库,本来还想弄古龙的呢,结果古龙的没有现成的词库,伤心。
2. 明显的,字数少的作品占劣势,毕竟连接数要少很多呢。
3. “连接关系”的定义和思喆的明朝那些事儿一样,就是在同一个段落中出现。当然,也可以放宽到上下若干段落之内,不过现在已经够复杂的了,再放宽不见得多多少信息量。
4. 可视化部分由Gephi搞定,文本分析部分由R搞定,各取所长嘛。
5. 同义词替换。1.20的上海R沙龙上很多朋友提出来,应该有一些基本的同义词替换,比如“杨过”也可称为“过儿”,小龙女亦作“龙儿”和“姑姑”。这样的替换需要建立一个针对金庸的同义词词典,暂时还没有现成的资源。
6. 同样是沙龙的朋友提出来的,对于关系的定义应该更明确一点,不单单是出现在同一段落。金庸的还好,古龙的文风就更加飘逸,不适合这样定义。然而更细致的定义需要对金庸的文字进行更深入的理解,进行一些语义分析,还有待进一步对于语言理解的深入。

COS数据分析沙龙第八期(上海,@联合创业办公社)

冬日的阴霾还没有完全散去,而温度却也在悄然的回升。周末的下午,相聚在极富小资情调的沙龙,也不失为一种打磨时光的优雅方式嘛。(感谢联合创业办公社

兴致所至,偶得意的笑~
兴致所至,偶得意的笑~

沙龙例行的,大家会简单的介绍一下自己。出乎组织者意料,陆陆续续的居然来了三十多位朋友,瞬间小小的会议室显得高朋满座,讨论气息愈加浓烈。据我们的不完全统计,参加者来自金融,制药,市场咨询,IT,电商,学术研究等领域,可谓跨界一锅端,热闹的紧。

相互熟悉之后,李舰开始为大家展示新鲜出炉的两个中文文本分析工具:RwordsegRweibo。前者是最新的中文分词工具,不仅仅利用了流行的隐形马尔可夫链中文分析算法,而且加入了对于优秀的搜狗细胞词库的支持、自定义词库等等。据现场探子汇报,李舰透露了他正在开发一套完整的中文分词方案的计划,可能纳入条件随机场这样高富帅的分词方法,以及针对中文编码的全套解决方案。Rweibo则是可以直接调用新浪微博的API接口抓取最新的数据,然后再调用Rwordseg进行分词之后,就可以很方便的画出中文的词云之类。当然进一步的,也可以进行更细致的分析,暂时按住不表。

高朋满座,咦怎么有些面熟呢?
高朋满座,咦怎么有些面熟呢?

紧接着自然少不了对中文分词的应用。当然严肃的学术文章有很多,严肃的业界应用也有很多,不过既然是沙龙我们就要找最最好玩的!于是就看到了陈丽云带来的关于金庸小说的文本分析介绍。其实这里的思路很简单,就是把金庸的“飞雪连天射白鹿, 笑书神侠倚碧鸳”十四本小说的文本文件下载下来,然后做一下中文分词(其中用到搜狗的金庸和武侠词库),最后把人名和武器留下来就可以了。分完词之后,就可以进一步的定义“链接”、然后做标准的网络分析了。据说这篇文章是给统计之都预留的,可惜到现在大家都还没有看到…呃,现场观众近水楼台先得月,拍一张纪念一下再说!(@ghosTM55) 除了武器排名之外,还展示了金庸小说的聚类分析(一枝花有木有?)和人物关系分析,各种漂亮的网络图跃然投影幕布之上…在场观众纷纷表示,除了各种“毁童年”之外,强烈要求同义词词典,你难道不知道杨过叫小龙女是“姑姑”么?怎么能这样无情的忽略之?

金庸武器受欢迎程度排名
金庸武器受欢迎程度排名

可视化浪潮泛滥,然后周扬萌主就响应大家的号召,展示他最近基于D3框架开发的R与HTML5动态图。呃,怎么这个图看起来这么眼熟?什么?这个图还会动的?错过现场展示的大家不要着急,这里有在线的demo,快去猛戳吧:http://yzhou.org/demo/html5Vis.html。据萌主本人证实,“corrplot作为第一个实现的交互图发布,下个是googleVis MotionChart,让大家都能动起来!”,有没有很期待呢?

R+HTML5,炫到极致
R+HTML5,炫到极致(@吃粉的怪物)

各种展示完毕,大家开始了群情激昂的讨论。从地理信息系统到实时可视化展现,从医疗制药数据到茶叶配方优化,各种惊讶各种欢乐。然后,来自1号店的洪建飞直接拿出来刻着“草稿”的幻灯片,瞬间大家都惊掉了!太有诚意了有木有?大家在一片欢声笑语中,依依不舍的结束了周日的沙龙。事后群众纷纷表示,要求进一步发展沙龙的深度和广度,联系更多领域,加强学术探讨。组织者在开心的同时,瞬间表示鸭梨山大…

照例,饭局还是必不可少的,提供了很好的“认亲”的机会,什么“直系学长”啦,老乡啦…喝点小酒啦,笑谈风月啦…(来认领照片吧)。

酒足饭饱嗯!
酒足饭饱嗯!

[译作]一些统计名词的新名字

原文载于卡耐基梅隆大学统计系教授Larry Wasserman的博客:Normal Deviate

有没有觉得很多统计学家实在是想象力有限——是时候把那些迂腐无趣的名字踢出历史了!看看这些如何?

贝叶斯推断:虽然贝叶斯当年确实用他那个著名的定理来做了一些计算…但明明是拉普拉斯搞出来的系统推断好不好!
新名字:拉普拉斯推断

贝叶斯网络:一个有向无环图加上了一些概率分布就可以跟贝叶斯推断扯上亲戚了?或者应该叫拉普拉斯推断?维基百科明明告诉你,这只是Judea Pearl无聊时候臆想出来的名字…
新名字:珀尔图

贝叶斯分类规则:给定{(X,Y)},其中Y是0-1变量,最佳的分类器就当P(Y=1|X=x)>1/2的时候猜Y=1,或者P(Y=1|X=x)<1/2的时候猜Y=0。这个和贝叶斯规则听起来经常会混淆是不是?其实这个规则有点黄金标准的味道,不如改叫:
新名字:黄金律

无偏估计量:总是听起来很厉害的感觉…
新名字:均值中心化的估计量

可信集:只是一个拥有特定后验概率的集合——比如这是一个95%可信集。或许一个更奇妙的名字是:
新名字:不可思议集(原文为Incredible Set,大家自行体悟英文意思吧)

置信区间:本来想说“均一频率覆盖集”,不过听起来有点拗口…那么短一点,就叫:
新名字:覆盖集

自助法(Bootstrap):如果我没记错的话,当时John Tukey给Brad Efron建议的是“猎枪(shotgun)”。Brad,你就不能听Tukey一回嘛!
新名字:猎枪

因果推断:有没有曾几何时causal和casual傻傻分不清楚?有些人说这东西还是叫做“实验效果分析”,但是听起来一点也不让人兴奋。依我说,这东西就应该叫:
新名字:正式推断(Formal Inference)
继续阅读[译作]一些统计名词的新名字