微博用户影响力评价的H-Index指数

H-index其实更广泛的应用于学术论文评价,其定义为:

h代表“高引用次数”(high citations),一名科研人员的h指数是指他至多有h篇论文分别被引用了至少h次。

约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为:

一名微博用户的h指数是指他至多有h个粉丝数超过h的粉丝。

怎奈后来抓数据奇慢无比,遂放弃。

转过年来,春天都到了,Rweibo这个包也出来好久了,不动手试试多少有点痒痒。新浪微博的API对于测试帐号限制较多,一小时只有150次请求机会。唉,只能无耻的多帐号多API一个个抓。就算这样,到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息,勉强绘就了一张微博的H-index指数与粉丝数的关系图。

当然,一切的第一步自然是以小编自己的帐号为测试中心。前段时间涨了不少粉丝,貌似却不怎么互动。所以小编有理由认为自己的H-index可能偏低。结果证明,在小编的近1100粉丝之中,只有287人的粉丝数超过了287。这样,小编的H-index就华丽丽的定格在287了。

然后小编好奇呀,那些跟我差不多的人,他们的情况是怎么样呢?于是从自己的粉丝中(我只能直接影响到这些人嘛)上下选了一下,粉丝数>500且小于2000的显然是个不错的对比范围(受限于新浪微博API的控制,力不从心呀)。

不一会儿,数据抓完了。然后算算H-index,就有了下面这张图:

新浪微博用户影响力H-index指数(点击大图)
新浪微博用户影响力H-index指数(点击大图)


巧的或者不巧的,小编我正好在线性回归线上面。标准用户呀!然后一橫一竖,就可以分出来跟我相比的四群人:

  • 左上:粉丝<1095但h-index大于287。这群人得好好关注呀,高质量的圈子!
  • 左下:粉丝<1095且>=500,h-index小于287。不过大部分人还是在回归线附近的,所以大家发展趋势还是很好的。那些远远甩开回归线的,是新来的童鞋呢还是僵尸粉呢?
  • 右上:粉丝>1095且H-index>287,不用说了,大牛云集的区域!各种羡慕。
  • 右下:粉丝>1095但H-index<287。喂,那些离回归线远远的童鞋,你们是不是买僵尸粉啦?坦白从宽哦。虽然新浪不一定检测的出来你的僵尸粉,但是你们的嫌疑大大滴!比如那个“xx书友会”,哼你关注我的第一天我就开始怀疑你了,一直苦无证据,如今,嘻嘻…

————碎碎念的细节———-
1. 新浪微博的API如果只是自己玩玩,还是比较好用的,至少比爬虫要快一点点…而且权限稍微大一点点(比如粉丝可以抓全而不用受限于显示页面)。
2. 如果希望抓全粉丝,就不能用friendships/followers 而是要用直接抓ID的friendships/followers/ids.
3. 其实可以递归的继续定义高阶H-index,比如二阶,定义为有h2个粉丝的(一阶)h-index大于h2…对于粉丝动辄过万的大V来说,递归几次可能更有意思。吾等小玩意儿就不用了。
4.然后附上这张图的原始数据…大家的微博ID我就不隐藏了,都可以直接搜到…按h-index指数排序哦。

weibo_name followers_count h-index
崔婧Janet 1534 634
Gideon_Ge 1682 515
数据逻辑 1663 508
blogkid 1409 448
董友良_飘香一剑 1334 436
数据鱼_谢宇 1887 425
黠之大者 1706 420
bicloud笑西西 1352 407
super00011127 1270 380
MINI金石头 1803 378
长颈鹿27 1106 362
G_will 1113 360
Sevennick 1357 348
Leo在梧桐山下 642 344
王昕-CALL谁谁OFFER 1090 339
波波头一头 1216 337
晓帆目标130斤 806 329
科隆王子Original 1139 327
指间战争 989 326
小刚C 898 311
谢益辉 1511 311
安泰科宏观部 1133 310
jia华_伪学术 664 305
老马-InSydney 849 301
洛川有机好苹果 1082 297
P-Jackie 967 296
身边汇康康 1253 295
pepsidav 785 292
jiangfeng_scir 871 285
王函大帆船 929 284
万幸_Wonder 746 282
cloud_wei 965 279
数据挖掘racoon 737 278
DATA309 846 277
左根永 690 277
猎头王俊宏 925 275
林小妖系小球童 700 274
rxjia 942 272
lijian001 1387 271
大雁_sysu 627 271
汪琨1987 1054 270
许亮_在路上 914 268
TT小和子 742 264
TerryMANG 931 262
李响_ICT_NLP 656 261
李直 840 252
AnnaPatio 641 252
七桃ple 853 249
william_ou 720 249
雁起平沙 675 243
上海芒果商务咨询 1472 243
叶茂亮 592 243
Jordi_Liang 637 239
天天向上的胖子 671 238
爱宇直-抠脚不闻非君子 748 238
邓一硕 804 236
月亮先生Zsir 381 236
taishanfan 729 233
智博是老青年 1005 224
ivanlauCOM 679 222
Puriney 1180 218
陈筱歪 1025 215
百变小倩1314 863 214
达斯托洛夫斯基 661 213
Deer一只鹿 1070 208
Delphiyeh 898 206
飞鱼姬Sindy 417 202
mlzboy 1252 200
top糊涂虫 441 199
爱美丽高 670 196
罗小妮_focus 467 195
thinkfan 619 191
無限追云 438 191
默尔根 454 189
黎胖 373 188
发现神回复_Denny 400 184
忙碌的灵麟 855 184
谭卫国Forest 619 180
乐美家的乐子 785 180
刘坤林Jason 617 179
omgpumelo 652 179
sirius 486 176
Fancy_zju 488 175
晨曦彩虹 740 173
田宪允 588 171
对半切开的奇异果 1106 167
八爪鱼Rainie 485 164
唐吉_诃德 607 162
can_sunny 734 159
LeprechaunTon 478 157
女鬼小倩 554 153
Nefeli要过正常人的生活 602 146
猪头开Lucas 403 140
elemenTY 690 139
彤言彤趣 577 136
左后卫左后卫 377 136
soulwangh 414 136
不动点- 432 133
Gossip_Nathen 425 133
我是小志童鞋 1271 126
yangleicq 320 124
nsol 397 115
毛毛虫_Oak 618 112
心卧缘 323 111
十九向日葵 1371 110
codememory 385 110
薛定谔的粥稀稀 357 100
雪中炭忐d 662 88
Preec 314 87
呼和浩特书友会 1298 65

最后附上一段短小精悍的代码。lijian哥的Rweibo包真是给力!

微博用户影响力评价的H-Index指数》有26个想法

      1. 另一种理由? 是名字太长吗?
        我的h-index还差一点就287了 继续努力
        右上角崔婧的大名鹤立鸡群 名副其实的大牛啊!

    1. 新浪API不给力呀!思喆大哥粉丝太多了…
      求个限制少的API,一个小时150条请求这不是为难我么…

  1. 粉丝少的人只能默默隐匿了额~~BTW,为何gist的代码下面没空,此处有这个这么大的空行呢?

      1. 坑太多填不完,大概是行号继承body的line-height,代码继承pre的line-height,然后body和pre用的是不同的字号,结果就乱了。
        目前只能强制指定成line-height: 19.5px,勉强能看。

  2. 请教师兄师姐一个问题,像衡量电影、网站受欢迎程度,如何根据观看数、好评数以及其他一些变量来建模,最后通过一个指标来表示出来呢。

    1. 请问一下:你的代码是开源的吗,可以在互联网上任意使用吗?

      我准备加入到 @晒粉丝 网站中,不知道是否允许?
      http://www.fens.me

  3. 再来请教一个问题,求该文里面绘图的语句是怎么写的?>_<

Liyun进行回复 取消回复

邮箱地址不会被公开。 必填项已用*标注