所有由COS管理员发布的文章

关于COS管理员

统计之都管理员

第四届中国R语言会议(北京会场)纪要

第四届中国R语言会议(北京会场)合影
第四届中国R语言会议(北京会场)合影(右键另存为看大图)

第四届中国R语言会议(北京会场)于2011年5月28日~29日在中国人民大学明德法学楼0201成功召开。会议由中国人民大学应用统计科学研究中心与中国人民大学统计学院主办、统计之都(cos.name)协办。在两天的会议时间里,参会者齐聚一堂,就R语言在生物、金融、网络、商业等诸多方面的应用进行了深入的探讨。

会议概况

本次会议吸引了近250名参会者前来参会,规模属历届之最。参会者主要来自各大高校、科研机构、企业和事业单位,全体参会者所在单位汇总如下。 高校和研究所:

Banaras Hindu University、University of Alaska、北京大学、北京大学医学部、北京工业大学、北京化工大学、北京科技大学、北京理工大学、北京林业大学、北京师范大学、大连海事大学、电子科技大学互联网科学中心、对外经济贸易大学、华北电力大学、华东师范大学、华中科技大学、嘉兴学院、军事医学科学院放射与辐射医学研究所、南开大学、清华大学、热带林业研究所、首都经济贸易大学、天津理工大学、西南交通大学、同济大学、中国测绘科学研究院、中国科学技术大学、中国科学院大气物理研究所、中国科学院地理科学与资源研究所、中国科学院计算技术研究所、中国科学院武汉植物园、中国矿业大学、中国林业科学研究院、中国农业大学、中国农业科学院、中国农业科学院农业资源与农业区划研究所、中国人民大学、中国石油大学、中国政法大学、中科院北京基因组研究所、中科院地理所、中科院动物所、中科院武汉植物园、中南大学、中水产科学研究院黄海水产研究所、中央财经大学、中央民族大学

企业、事业单位:

58同城、Mango Solutions、Sanofi Pasteur、SAS北京研发中心、SPSS China、艾瑞咨询、百度、北京安泰科信息开发有限公司、北京风行在线技术有限公司、北京汉端科技有限公司、北京航空航天大学出版社、北京市国富如荷网络科技有限公司、北京网达信联科技发展有限公司上海分公司、北京正和之道管理咨询有限责任公司、北京质量协会、北森、博奥生物有限公司、创维数字、当当网、歌尔泰克、好耶网络广告、华胜天成、甲骨文、酷6网、奇艺网、上海烟草集团有限责任公司、深圳华大基因研究院、深圳茂源投资管理有限公司、首钢、水利部发展研究中心、淘宝、腾讯、同方股份有限公司、无线讯奇、西安交通大学出版社、小米科技、新华社中经社控股有限公司、新华信咨询、新浪、益普索、优酷网、中诚信信用管理、中国电子科技集团公司信息化工程总体研究中心、中国疾控、中国移动、中国邮政集团、卓望信息

会议现场20110528
会议现场(点击图片在新窗口看大图)

会议内容

本次会议讨论的主题涵盖了R语言在生物信息、生态学、金融、混合编程、高性能计算、网络和出版等众多方面的最新进展,共进行了17场精彩的报告。会议的流程和主要内容摘录如下。

1、吴喜之教授致辞

吴喜之教授是国内推广R语言的先驱,他在致词中简述了R的诸多优势,如免费、公开、容易学习、可扩展、功能强大、不断更新等,并对现场的参会者提出了殷切的期待,希望大家能从R中不断学习新的统计知识。吴喜之教授幽默睿智的演讲受到了现场观众的热烈欢迎。

2、李舰——R与高性能运算

演讲指出,S语言的一个设计理念是“人的时间比机器的时间宝贵”,因此R在设计之初并不是纯粹追求高效,而是符合统计的思维方式。演讲针对R的三个事实——解释性语言,数据都读入内存和单线程——详细讲述了R的高性能运算,包括基础优化、大数据、代数运算和并行计算四部分的内容。

3、李欣海——广义线性模型的基本原理及其应用

演讲详细介绍了广义线性模型的概念、组成和估计等内容,重点讲解了Logistic回归的原理和应用。同时,演讲者结合具体的专业背景讲解了广义线性模型在生态学中的应用。

4、肖嘉敏——基于R的网络用户行为研究

演讲中对用户行为的研究包括网站浏览、软件使用和行为特征三个方面,具体的数据操作包括数据预处理、数据库操作、缺失值、变量转换、tapply()应用等。演讲还专门针对网络数据的特点介绍了一些特定的高性能运算算法,来提高网络数据处理的效率。

5、张金龙——R 与进化生态学

演讲介绍了进化生态学的来源和特点,通过几个实例引入了系统发育的相关理论,之后介绍了R中处理相应问题的软件包。演讲人之后对进化树、祖先状态、物种分化速率、群落系统和生态位进化等内容进行了详细的讲解,其中对每一个问题都提供了程序示例和图形等展示内容。

6、李青龙——R与EXCEL VBA及MATLAB混合编程

Excel和Matlab各自在商业和数学领域有广泛的应用,而混合编程可以将不同工具的优势结合起来。演讲详述了混合编程的步骤,并通过R与Matlab和Excel VBA交互的实例讲解了混和编程的操作方法。

7、王洪月——SAS Interaction with R

演讲从SAS的视角对R的特点进行了分析,解释了SAS为什么要集成R,以及如何进行集成。通过实例的演示,演讲者展示了如何利用IML Studio来实现SAS与R的交互。

8、颜林林——R高级编程技巧及Rcpp的介绍

R的高级编程技巧主要包括向量运算和扩展软件包的使用两方面。演讲的第一部分介绍了apply()系列函数的用法,来实现R中的向量化操作;第二部分介绍了Rcpp的相关历史,并详细叙述了Rcpp的使用方法及效率方面的比较。

9、曹宗富——基于R/Bioconductor进行生物芯片数据分析

演讲首先介绍了生物芯片的应用及其对应的数据处理方法,之后介绍了Bioconductor的创始人和历史,并利用相应的软件包对基因芯片进行了一系列的分析,包括预处理、聚类、可视化等。

10、李颖——推进R语言图书的发展

演讲介绍了目前国内R语言图书出版的现状,鼓励R语言的爱好者将编程经验系统化,编写相关的教材或翻译国外的作品。演讲者还对目前正在进行的出版计划进行了介绍。

11、邓一硕——R与现代金融分析

在以往的几届R会议中都没有涉及金融方面的应用,本演讲旨在填补这一部分的空白。演讲总体分为五个部分,介绍了金融时间序列建模、风险度量、技术分析、期权以及投资组合等方面的理论和R语言实现。

12、林伟林——R在量化投资的应用

演讲概述了量化投资在中国的机会与不足,接下来介绍了对套利的研究和时间序列的基本知识,最后针对股指期货和指数的联动关系提出了理论模型及其R语言实现。

13、胡江堂——关于R和SAS的7个广为流传的误解

演讲者指出演讲的目的在于加强R用户和SAS用户的沟通和交流。针对R与SAS之间的7个误解,演讲者进行了澄清和解释。演讲结束后众多听众也都发表了自己的观点,与演讲者进行了热烈的讨论。

14、李舰——R的商用情况简介

演讲介绍了R在工业领域的应用,包括分析咨询,外包,程序开发,培训和支援等。针对每个方面演讲者都举出了R的具体应用范围,并着重对制药行业中R的应用进行了介绍。

15、朱剑锋——R在宏基因组研究中的应用

演讲者首先介绍了宏基因组的背景知识,然后提出了基因数据分析中遇到的问题,并对qvalue、“软”聚类等概念进行了细致的讨论,给出了相应R软件包的使用方法。演讲者还对R的发展提出了展望,指出R的发展离不开行业的发展,希望大家能多进行交流。

16、赵毅——R与.NET混合编程及其在化学计量学中的应用

演讲者介绍了R与.NET环境结合的背景,并结合一个实际的项目分析了R与.NET开发的流程及相应的解决方案。最后演讲者说明了如何将混合编程的方法应用到化学计量学中,并进行了现场演示。

17、卢一鸣——R在基因芯片数据处理中的应用

演讲的第一部分介绍了基因芯片的数据特点和相关的软件包,第二部展示了R在基因芯片数据分析中的高级应用,重点介绍了Lasso方法的原理和R语言实现。

18、张雯——R语言在物种进化分析中的应用

演讲指出,技术革新与交叉学科产生的海量数据使得生物学进入了一个新时代,生物信息学急需对数据进行挖掘,但目前生物研究人员缺乏统计学基础。针对这种现象,R是一个非常强大的工具。演讲者通过一个案例展示了R在物种进化分析中的应用,最后讨论了R语言与Perl语言之间的结合。

资源下载

经演讲者的授权同意,已将所有同意公开的幻灯片加了超链接供大家下载学习。演讲视频请点击这里

感想和建议

如果您对于中国R语言会议还有任何感想、意见或建议,欢迎您在本页面、统计之都人人网页面统计之都新浪微博留言,我们会尽力在今后对会议质量进行进一步的改善。

首届全国大学生数据挖掘邀请赛圆满结束

 

2011年5月8日,来自浙江大学、厦门大学、复旦大学、浙江大学、北京大学、东南大学、中山大学、北京航空航天大学大学等多所高校的获奖队伍聚集于中国科学技术大学进行比赛的最终答辩环节,确定了最终的名次和奖项,标志着经过一个多月的群雄逐鹿,首届全国大学生数据挖掘邀请赛终于圆满结束。首届全国大学生数据挖掘邀请赛是由中国科技大学管理学院、中国人民大学统计学院和统计之都发起并主办,由上海花千树信息科技有限公司提供资金赞助和服务器支持。在一个多月的比赛时间中,共有来自大陆、香港及海外多所高校的1115支队伍注册参赛,期间有303支队伍成功提交预测结果,最终有240只队伍全程参与比赛。

赛题背景

以某大型婚恋网站交友数据为依托的推荐系统

队伍信息

总注册队伍1115支,其中本科生队伍794支,研究生队伍321支,分别来自以下一百多所高校及研究所:

安徽大学、安徽理工大学、安徽农业大学、北方工业大学、北方民族大学、北京大学、北京工商大学、北京航空航天大学、北京理工大学、北京林业大学、北京信息科技大学、北京邮电大学、北京语言大学、大连理工大学、大连民族学院、电子科技大学、电子科学技术大学、东北大学、东北师范大学、东华大学、东南大学、多伦多大学、福州大学、复旦大学、广东工业大学、广东省中山大学、广东外语外贸大学、广西大学、广州大学、桂林理工大学、国防科学技术大学、哈尔滨工业大学、哈尔滨工业大学深圳研究生院、杭州电子科技大学、合肥工业大学、河南工业大学、河南科技大学、湖北大学、湖南大学、华东理工大学、华东师范大学、华南理工大学、华南农业大学、华中科技大学、华中农业大学、华中师范大学、暨南大学、江西财经大学、兰州大学、洛阳理工学院、南昌大学、南方医科大学、南京财经大学、南京大学、南京航空航天大学、南京理工大学、南京农业大学、南京医科大学、南开大学、清华大学、人民大学、厦门大学、山东大学、山东科技大学、汕头大学、上海财经大学、上海大学、上海交通大学、上海师范大学、深圳大学、首都经济贸易大学、四川大学、苏州大学、太原理工大学、天津大学、天津工业大学、同济大学、乌普萨拉大学、武汉大学、武汉理工大学、西安财经学院、西安电子科技大学、西安交通大学、西安交通大学、西南财经大学、西南科技大学、香港科技大学、新加坡国立大学、新疆大学、云南财经大学、浙江财经学院、浙江大学、浙江大学城市学院、浙江工业大学、浙江理工大学、浙江师范、浙江师范大学、郑州大学、中国地质大学、中国地质大学(北京)、中国地质大学(武汉)、中国计量学院、中国科学技术大学、中国矿业大学、中国人民大学、中科院合肥研究院、中科院计算所、中科院声学所、中科院研究生院、中南财经政法大学、中南大学、中山大学、中央财经大学、重庆邮电大学、周口师范学院

 

获奖信息

本科生组:

名次 团队 队员 学校 院系
1 FooBar 仝子飞、刘佳硉 浙江大学 计算机科学与技术学院-计算机科学与工程学系
2 OldCubic 彭兵月、 刘宇辰 北京航空航天大学、清华大学 软件学院-软件工程系、经济管理学院-管理科学与工程系
3 LightSpeed 解浚源、陈宇澄 中国科学技术大学 计算机学院-计算机系
4 SiNZeRo 田文涛、洪诗保、胡亚光、叶挺 厦门大学 信息科学与技术学院-计算机科学与技术系
5 FDM 王超、张俊、董家为、王玥 复旦大学 计算机科学技术学院
6 forever 杨洋、陈章麒、姜涛、竺紫威 中国科学技术大学 少年班学院
7 兰州烧饼 蓝润荣 中国科学技术大学 管理学院-统计与金融系
8 zaq1xsw2tktk 唐坤、徐东昊 北京大学 数学科学学院-信息科学系、数学科学学院-科学与工程计算系

 

研究生组:

名次 团队 队员 学校 院系
1 RecSys1 宝腾飞、刘淇、程文华、聂鹏宇 中国科学技术大学 计算机学院
2 ForeverDream 张驰原、 李成 浙江大学 计算机学院-计算机应用技术系
3 数据掘金 徐童、曾广翔、季波、陈永环 中国科学技术大学 计算机学院-计算机系(1、2)、信息学院-自动化系(3、4)
4 totoro 杜龙志 北京大学 信息科学技术学院-计算机软件与理论
5 DataAnts 谢妍、刁瑞、来斯惟 中国科学院 数学与系统科学研究院(1、2)、自动化研究所(3)
6 icebergs 黄凯明、陆建、蒋玖川、章平 东南大学 信息科学与工程学院
7 Crystal 杨飞雕 中山大学 信息科学与技术学院-计算机科学与技术
8 napoloen 黄浩 浙江大学 计算机学院-计算机科学与工程学系

其中,第1名为一等奖(奖金10000¥),第2名为二等奖(奖金5000¥),第3~8名为三等奖(3~5名奖金2000¥,6~8名奖金500¥)。

附:首届全国大学生数据挖掘邀请赛结果排名(前100名)

竞赛相关数据展示

每天注册的队伍数:

上图为3月16日~4月15日每天注册的队伍数(注:竞赛于3月19日全面公开注册,在此之前在对中科大学生提前公布了注册网站以测试系统)。

每日有效提交次数:

上图为3月23日~4月27日每天成功提交的符合规范的预测结果数目,总共提交的次数为11162次。

提交次数频数:

上图为提交次数的频数图,从上图可以看出,大部分队伍提交次数很少。提交次数超过10的队伍有217个,超过50的有70个,超过100的有29个。最终获奖的队伍的提交总次数都很高。

赛后相关博文及帖子

旁门左道:第一届全国大学生数据挖掘邀请赛-数据集分析篇

JiangFeng:第一届数据挖掘邀请赛 – 缘来如此

ruikoeln:数据挖掘邀请赛-一个酱油党的感言

rainywh269:数据挖掘邀请赛 赛后感

cloud_wei:中科大之行及数据挖掘竞赛小总结

Mantous: 第一届全国大学生数据挖掘邀请赛-总结

第四届中国R语言会议通知

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办了三届R语言会议,促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,我们准备在2011年5月28日(北京会场)和2011年11月(上海会场,具体时间待定)举办第四届中国R语言会议。欢迎各地各路朋友踊跃参加及报名演讲。

会议事宜(北京会场)

一、会议时间

会议定于2011年5月28日~29日。上午9:00开始报告,请参会者提前半小时入场领取材料。

二、会议地点

中国人民大学明德法学楼0201教室。

交通地图(点击看大图):

人大校内地图(点击看大图):

 

三、会议演讲

随着R语言的应用日益广泛,第四届中国R语言会议欢迎社会各界人士针对R语言的相关主题进行演讲和讨论。会议建议的主题包括但不限于:

  • 统计计算和统计模拟
  • 统计图形及可视分析
  • 数据挖掘与机器学习
  • 生物信息、医学统计
  • R高级编程及与其他语言的交互
  • 社会网络、推荐系统及网络传媒
  • R在其他具体领域中的应用等

所有演讲者应在2011年5月22日21:00之前(北京会场)提交演示文稿(pdf或ppt格式)到chinar-2011-bj@cos.name,以方便审核筛选及会场安排。演示文稿提交之后可以进一步润色修改,如果不够详细,可以提交文章。

时间长度要求:每位演讲者10~35分钟的演讲时间 (演示文稿大约15到30页),若需更长的时间可以提前申请。

会议演讲日程、摘要等信息参见会议手册:

[box type=”download”]会议手册下载[/box]

四、会议费用

不收取注册费,交通费自理,为会议参会者(以在线报名结果为依据)提供免费午餐和会议材料、胸牌等。最终参加会议演讲的在校学生可以向会议组申请差旅等资助(800元为上限)。

北京会场正在筹备之中,请大家踊跃提议(留言或邮箱chinar-2011-bj@cos.name),谢谢。

五、报名方式

本次会议报名注册已经截止。我们依然欢迎未能注册的朋友前来参会,但由于注册人数超出预期,会场当天的座位可能会比较紧张,不便之处敬请谅解。

目前(2011-05-18-21:00)已有来自100个左右单位的270多位朋友们报名(按字母排序):

高校和研究所:

Banaras Hindu University、University of Alaska、北京大学、北京大学医学部、北京工业大学、北京化工大学、北京科技大学、北京理工大学、北京林业大学、北京师范大学、大连海事大学、电子科技大学互联网科学中心、对外经济贸易大学、华北电力大学、华东师范大学、华中科技大学、嘉兴学院、军事医学科学院放射与辐射医学研究所、南开大学、清华大学、热带林业研究所、首都经济贸易大学、天津理工大学、西南交通大学、同济大学、中国测绘科学研究院、中国科学技术大学、中国科学院大气物理研究所、中国科学院地理科学与资源研究所、中国科学院计算技术研究所、中国科学院武汉植物园、中国矿业大学、中国林业科学研究院、中国农业大学、中国农业科学院、中国农业科学院农业资源与农业区划研究所、中国人民大学、中国石油大学、中国政法大学、中科院北京基因组研究所、中科院地理所、中科院动物所、中科院武汉植物园、中南大学、中水产科学研究院黄海水产研究所、中央财经大学、中央民族大学

企业、事业单位:

58同城、Mango Solutions、sanofi pasteur、SAS 北京研发中心、SPSS China、艾瑞咨询、百度、北京安泰科信息开发有限公司、北京风行在线技术有限公司、北京汉端科技有限公司、北京航空航天大学出版社、北京市国富如荷网络科技有限公司、北京网达信联科技发展有限公司上海分公司、北京正和之道管理咨询有限责任公司、北京质量协会、北森、博奥生物有限公司、创维数字、当当网、歌尔泰克、好耶网络广告、华胜天成、甲骨文、酷6网、奇艺网、赛仕软件、上海烟草集团有限责任公司、深圳华大基因研究院、深圳茂源投资管理有限公司、首钢、水利部发展研究中心、淘宝、腾讯、同方股份有限公司、无线讯奇、西安交通大学出版社、小米科技、新华社中经社控股有限公司、新华信咨询、新浪、益普索、优酷网、中诚信信用管理、中国电子科技集团公司信息化工程总体研究中心、中国疾控中心、中国移动、中国邮政集团、卓望信息

六、联系方式

北京会场会务组:chinar-2011-bj@cos.name
主办方:中国人民大学应用统计科学研究中心、中国人民大学统计学院
协办方:统计之都

会议事宜(上海会场)

筹备中,敬请期待。