标签归档:竞赛

首届全国大学生数据挖掘邀请赛圆满结束

 

2011年5月8日,来自浙江大学、厦门大学、复旦大学、浙江大学、北京大学、东南大学、中山大学、北京航空航天大学大学等多所高校的获奖队伍聚集于中国科学技术大学进行比赛的最终答辩环节,确定了最终的名次和奖项,标志着经过一个多月的群雄逐鹿,首届全国大学生数据挖掘邀请赛终于圆满结束。首届全国大学生数据挖掘邀请赛是由中国科技大学管理学院、中国人民大学统计学院和统计之都发起并主办,由上海花千树信息科技有限公司提供资金赞助和服务器支持。在一个多月的比赛时间中,共有来自大陆、香港及海外多所高校的1115支队伍注册参赛,期间有303支队伍成功提交预测结果,最终有240只队伍全程参与比赛。

赛题背景

以某大型婚恋网站交友数据为依托的推荐系统

队伍信息

总注册队伍1115支,其中本科生队伍794支,研究生队伍321支,分别来自以下一百多所高校及研究所:

安徽大学、安徽理工大学、安徽农业大学、北方工业大学、北方民族大学、北京大学、北京工商大学、北京航空航天大学、北京理工大学、北京林业大学、北京信息科技大学、北京邮电大学、北京语言大学、大连理工大学、大连民族学院、电子科技大学、电子科学技术大学、东北大学、东北师范大学、东华大学、东南大学、多伦多大学、福州大学、复旦大学、广东工业大学、广东省中山大学、广东外语外贸大学、广西大学、广州大学、桂林理工大学、国防科学技术大学、哈尔滨工业大学、哈尔滨工业大学深圳研究生院、杭州电子科技大学、合肥工业大学、河南工业大学、河南科技大学、湖北大学、湖南大学、华东理工大学、华东师范大学、华南理工大学、华南农业大学、华中科技大学、华中农业大学、华中师范大学、暨南大学、江西财经大学、兰州大学、洛阳理工学院、南昌大学、南方医科大学、南京财经大学、南京大学、南京航空航天大学、南京理工大学、南京农业大学、南京医科大学、南开大学、清华大学、人民大学、厦门大学、山东大学、山东科技大学、汕头大学、上海财经大学、上海大学、上海交通大学、上海师范大学、深圳大学、首都经济贸易大学、四川大学、苏州大学、太原理工大学、天津大学、天津工业大学、同济大学、乌普萨拉大学、武汉大学、武汉理工大学、西安财经学院、西安电子科技大学、西安交通大学、西安交通大学、西南财经大学、西南科技大学、香港科技大学、新加坡国立大学、新疆大学、云南财经大学、浙江财经学院、浙江大学、浙江大学城市学院、浙江工业大学、浙江理工大学、浙江师范、浙江师范大学、郑州大学、中国地质大学、中国地质大学(北京)、中国地质大学(武汉)、中国计量学院、中国科学技术大学、中国矿业大学、中国人民大学、中科院合肥研究院、中科院计算所、中科院声学所、中科院研究生院、中南财经政法大学、中南大学、中山大学、中央财经大学、重庆邮电大学、周口师范学院

 

获奖信息

本科生组:

名次 团队 队员 学校 院系
1 FooBar 仝子飞、刘佳硉 浙江大学 计算机科学与技术学院-计算机科学与工程学系
2 OldCubic 彭兵月、 刘宇辰 北京航空航天大学、清华大学 软件学院-软件工程系、经济管理学院-管理科学与工程系
3 LightSpeed 解浚源、陈宇澄 中国科学技术大学 计算机学院-计算机系
4 SiNZeRo 田文涛、洪诗保、胡亚光、叶挺 厦门大学 信息科学与技术学院-计算机科学与技术系
5 FDM 王超、张俊、董家为、王玥 复旦大学 计算机科学技术学院
6 forever 杨洋、陈章麒、姜涛、竺紫威 中国科学技术大学 少年班学院
7 兰州烧饼 蓝润荣 中国科学技术大学 管理学院-统计与金融系
8 zaq1xsw2tktk 唐坤、徐东昊 北京大学 数学科学学院-信息科学系、数学科学学院-科学与工程计算系

 

研究生组:

名次 团队 队员 学校 院系
1 RecSys1 宝腾飞、刘淇、程文华、聂鹏宇 中国科学技术大学 计算机学院
2 ForeverDream 张驰原、 李成 浙江大学 计算机学院-计算机应用技术系
3 数据掘金 徐童、曾广翔、季波、陈永环 中国科学技术大学 计算机学院-计算机系(1、2)、信息学院-自动化系(3、4)
4 totoro 杜龙志 北京大学 信息科学技术学院-计算机软件与理论
5 DataAnts 谢妍、刁瑞、来斯惟 中国科学院 数学与系统科学研究院(1、2)、自动化研究所(3)
6 icebergs 黄凯明、陆建、蒋玖川、章平 东南大学 信息科学与工程学院
7 Crystal 杨飞雕 中山大学 信息科学与技术学院-计算机科学与技术
8 napoloen 黄浩 浙江大学 计算机学院-计算机科学与工程学系

其中,第1名为一等奖(奖金10000¥),第2名为二等奖(奖金5000¥),第3~8名为三等奖(3~5名奖金2000¥,6~8名奖金500¥)。

附:首届全国大学生数据挖掘邀请赛结果排名(前100名)

竞赛相关数据展示

每天注册的队伍数:

上图为3月16日~4月15日每天注册的队伍数(注:竞赛于3月19日全面公开注册,在此之前在对中科大学生提前公布了注册网站以测试系统)。

每日有效提交次数:

上图为3月23日~4月27日每天成功提交的符合规范的预测结果数目,总共提交的次数为11162次。

提交次数频数:

上图为提交次数的频数图,从上图可以看出,大部分队伍提交次数很少。提交次数超过10的队伍有217个,超过50的有70个,超过100的有29个。最终获奖的队伍的提交总次数都很高。

赛后相关博文及帖子

旁门左道:第一届全国大学生数据挖掘邀请赛-数据集分析篇

JiangFeng:第一届数据挖掘邀请赛 – 缘来如此

ruikoeln:数据挖掘邀请赛-一个酱油党的感言

rainywh269:数据挖掘邀请赛 赛后感

cloud_wei:中科大之行及数据挖掘竞赛小总结

Mantous: 第一届全国大学生数据挖掘邀请赛-总结

通知:首届全国大学生数据挖掘邀请赛

竞赛背景

Amazon的数百万图书,Netflix的10万部电影,淘宝的8亿件在线商品,以及数以亿万计用户的资料和行为记录……互联网最近十年的迅猛发展伴随着海量数据的积累。然而,在线用户常常面对过多的选择而显得无所适从。心理学研究证实,这类情境下的用户有时会做出放弃交易的决定,从而造成大量潜在的用户流失。针对这一现象,统计技术的发展能够为在线服务商提供更有效的推荐算法,在帮助用户走出信息过载困境、改善用户体验的同时,还能够挖掘商品长尾、提升企业价值。在今天,用户不再局限于通过搜索引擎来寻找感兴趣的信息,推荐系统无所不在地为我们发现自己的潜在需求。

推荐系统在社交网络中的应用同样受到业界重视。本届统计建模竞赛由上海花千树信息科技有限公司赞助,由中国科学技术大学管理学院中国人民大学统计学院统计之都(COS)网站联合举办,目标是为某个以婚恋为目的的大型交友网站提供会员推荐的智能算法,改善会员推荐的精度,增加网站黏度。

参赛资格

诚邀国内所有高校及研究所的在校本科生、硕士生和博士生组队参赛,专业不限。每个参赛队伍人数不超过4人(包括队长),允许跨校、跨年级组队。每人只能参加一支队伍,如需要解散队伍后重新组队以调整人员构成,请用邮件向竞赛委员会说明。为方便管理,每支参赛队请在注册时选定一位队长,并提供email地址及联系电话用于联络。请填写参赛队成员的基本信息(学校、院系、年级、学号等),这些信息可以通过竞赛页面进行管理。以上信息将会保密并不会被用于商业用途。

考虑到参赛人员的知识水平及竞赛的公平性,本次竞赛分为本科生组和研究生组,分开进行评分。如果本科生和研究生混合组队,则在竞赛中被视为研究生组。

参赛时间

  • 在线注册:2011年3月19日~2011年4月15日
  • 比赛开始:2011年3月22日
  • 比赛结束:2011年4月27日

参赛队伍在规定时间内完成注册后,即可参加本次竞赛并获取建模数据集。在4月27日竞赛结束之日前,可随时提交预测结果(每日限10次,提交格式详见竞赛主页相关说明)。

参与方式

本次竞赛的主页为http://www.statmodelingcompetition.com/。数据的下载及说明,参赛队伍的注册,结果的提交等都在竞赛主页进行。

在线排名

本次竞赛提供了在线排名系统,供参赛队伍检查模型预测效果。用于在线排名的数据是实际测试数据的子集,因此在线排名并不代表实际的模型评分。

竞赛相关问题咨询

请先阅读常见问题解答,如果疑问依然存在 ,请到统计之都论坛的竞赛答疑专帖进行提问。允许的问题包括竞赛题目本身、数据、网站访问和比赛流程等,非此类问题(如算法细节)将不予答复并删除。

奖项设置

本科生组:

  • 一等奖一名,10000元/队
  • 二等奖一名,5000元/队
  • 三等奖三名,2000元/队
  • 入围奖三名,500元/队

研究生组:

  • 一等奖一名,10000元/队
  • 二等奖一名,5000元/队
  • 三等奖三名,2000元/队
  • 入围奖三名,500元/队

为保证公平,本科生组和非本科生组将分别进行评审和排名。非本科生组的模型需至少达到本科生组入围奖模型的效果时,才能获奖。为确保算法的真实有效性,有资格入围的队伍需进行答辩,并提交论文和程序源代码,否则不能获得该项奖励。答辩名单确定后,外地答辩队伍的差旅费用由竞赛委员会承担(每队限一人)。答辩地点另行通知。

主办单位

进一步的信息将在竞赛页面及本通知页面进行更新,请及时查看。

COS竞赛:英文站点会员类型的识别

大家好,为了促进大家对统计之都的了解,并锻炼各位会员的统计应用能力,即日起我们推出“COS竞赛”系列活动。第一期活动的主要任务是分析统计之都英文网站(http://cos.name/en/)的会员数据,从中找出识别正规会员和机器人(垃圾、广告、自动注册)会员的规律。

数据背景

原始数据来自phpBB论坛的phpbb_users数据库,其中包含用户id、用户名、是否激活、Email、发帖数等字段,其中我们要研究的因变量是“是否激活”(user_active),它取值0和1,分别代表该用户是否被管理员激活,1表示是正规会员,0表示该会员是机器人或不知如何激活的人类。

我们对原始数据首先做了隐私处理,删掉了一些敏感字段,如用户名等,然后对Email和MSN帐号做了如下处理:

x = read.csv("cos_en_users.csv", stringsAsFactors = FALSE,
    encoding = "UTF-8")
x$user_email_nchar = nchar(x$user_email)
x$user_email = sub("^.*@", "", x$user_email)
x$user_msnm_nchar = nchar(x$user_msnm, allowNA = TRUE)
x$user_msnm = sub("^.*@", "", x$user_msnm)
write.csv(x, "cos_en_spam.csv", row.names = FALSE)

即:去掉了帐号中@字符前面的字符串,只剩下域名字符串,然后在原数据中添加了两个变量*_nchar表示Email和MSN帐号的字符数。

数据下载

整理之后的数据下载:统计之都英文网站会员数据

所有变量名的解释参见:phpbb_users的数据表结构说明;注意其中所有时间数据都是Unix时间戳格式,起点为1970-01-01 00:00:00,可以用R函数as.POSIXlt(, origin = "1970-01-01 00:00:00")转化为日期。

分析目的

找出有效的规则区分会员类型:是否正规会员。本数据是一个高度不平衡的数据,取值为1的会员非常少:

> table(x$user_active)
    0     1
25911    92

这给判别分析带来了不小的难度,如:即使将所有正规会员判别为机器人,正确率也在99.6462%,因此仅仅看模型的正确率可能不是合适的评判标准。我们最终考察的指标包括:预测正确率、模型简洁性、程序效率、分析结果新颖性。

注意事项

使用数据时请注意数据有效性,可以从原始信息中生成新的变量用来做预测:

  1. user_session_page:该变量的取值意义不太确定,建议不使用;
  2. user_lastvisit:变量取值不稳定,建议不使用,user_session_time可能更适合于作为用户最后的访问时间;
  3. 由于非激活用户不能发帖,因此他们的user_posts必然都是0;而我们的分析目标是在用户注册之后马上就能从注册信息获知是否机器人注册,所以建议建模时不要使用这个变量;
  4. user_style取值只能为1,是个常数,因此不必使用该变量;
  5. 建议着重分析用户注册信息中的签名档、邮箱、网站链接,可以从这些文本数据生成新的变量,如邮箱域名是否以”.ru”(俄罗斯)结尾,签名档是否含有”free”等具有垃圾特征的词汇,等等;

参加方式

本次竞赛以邮箱投稿的方式接收作品,请将您的作品发送至contact [at] cos.name([at]替换为@),作品应满足以下要求:

  1. 注明使用软件工具的详细信息(版本、操作系统等);
  2. 评委可在其它地方相同条件下重复您的完整分析过程,包括:数据转换、建模、预测、图表的输出;为了保证预测结果的可重复性,请适当增大预测中估计正确率的交叉验证次数(或其它验证方法的次数);
  3. 写明最终的分析结论;
  4. 文档格式不限,但有如下优先考虑顺序:Sweave > LaTeX/LyX > MS Word。

竞赛奖项

本次竞赛拟设立5名奖励名额,获得奖励为:(1)统计之都主站作者资格;(2)COS论坛中“COS项目”版块阅读权限;(3)其它“副产品”(如众多fans、广告效应带来的个人收入等)。

重要日期

本次竞赛自2009年3月17日开始,初步计划进行1个月,即4月17日截止,有意参加者可以先发邮件告知,时间可适当延长。

分析示例

此处举一例说明分析的目标:例如我们想研究会员类型与邮箱后缀的关系,那么可以将后缀用正则表达式提取出来,然后做列联表看它们有何联系:

> table(x$user_active, sub("^.*\.", "", x$user_email))

     asia    at    au    az   biz    br    bs    by    ca    cc
  0     5     1    13     3    96     2     9    11    17    12
  1     0     0     0     0     0     0     0     0     0     0

       ch    cn   com   COM   con    cz    de    dk   edu    ee
  0     2   891 14539     1     1    20   122     8     6    75
  1     0     7    75     0     0     1     1     0     1     0

    email    es    eu    fm    fr   gov    gr    hk     i    il
  0     0     8     7    71    19     1     2     0     2     1
  1     1     0     0     0     0     0     1     1     0     0

       in  info    it    jp    kz    lt    lv    md  name   net
  0   234  1244    17     2     1     2    75     2    29  3838
  1     0     0     0     0     0     0     0     0     0     0

       nu    nz   org    pl   plo    pv    ro    ru   rui    se
  0     1     2  1440   505     1     1     3  1667     1     1
  1     0     1     0     0     0     0     0     0     0     0

       sn    su    th    tj    tu    tv    ua    uk    us    ws
  0     1    30     0     1     1    69   271   194   139   194
  1     0     0     1     0     0     0     0     1     0     0

从中我们发现以ru为邮箱后缀的会员都是垃圾会员,因此不妨将它作为一个新变量:

email_ru = spam = logical(nrow(x))
email_ru[grep("^.*\.ru$", x$user_email)] = TRUE
spam = x$user_active == 0
par(mar = c(3, 3, 3, 1))
plot(t(table(spam, email_ru)), cex.axis = 0.8, shade = TRUE,
     main = "Spam members and Russian email address")
COS英文网站会员类别与俄罗斯后缀邮箱的马赛克图
COS英文网站会员类别与俄罗斯后缀邮箱的马赛克图

以上马赛克图进一步说明了俄罗斯邮箱与会员类型的关系。