所有由高 燕发布的文章

2012年SAS公司博客排名

想要了解和学习 SAS 产品的同学,一定要看看这个博客排名,因为这里有你需要的绝大部分资料,从数据处理、图形显示、分析、培训到最新的技术和产品信息。

前10名:

1. The Do Loop
Rick Wicklin, 博士, SAS 公司计算统计学方面资深研发人员,PROC IML 和 SAS/IML Studio 的首席开发工程师。精通计算统计学、统计图形、现代统计分析方法,是 Statistical Programming with SAS/IML Software 这本书的作者。

博客热词:
Bootstrap and Resampling Data Analysis Efficiency Getting Started Just for Fun Matrix Computations Numerical Analysis Reading and Writing Data Sampling and Simulation SAS/IML Studio SAS Programming Statistical Graphics Statistical Programming Statistical Thinking Tips and Techniques

继续阅读2012年SAS公司博客排名

关联规则:R与SAS的比较

啤酒和尿布的故事是关联分析方法最经典的案例,而用于关联分析的Apriori算法更是十大数据挖掘算法之一(http://www.cs.uvm.edu/~icdm/algorithms/index.shtml,这个排名虽然是几年前的调查结果,但是其重要性仍可见一斑)。本文以《R and Data Mining》书中使用的泰坦尼克号人员的生存数据为例,介绍如何使用R和SAS的Apriori算法进行关联分析,比较两者的建模结果并对结果中存在的差异进行解释分析。

一、关联分析

网上有很多资料介绍关联分析算法,本文就不再赘述。我自己看的是《Introduction to Data Mining》(有对应的中文版,人民邮电出版社的《数据挖掘导论》),愿意看英文的同学可以访问:http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf。网上其他的资料我也大致翻过,对比之后感觉这本书是一本相当不错的教材,算法方面介绍地比较全面且有一定深度。我本人不建议大家去看那些非专业人士总结的关联分析算法介绍,虽然浅显易懂,但是内容片面,容易误导初学者,错把树木当成了森林。

对于关联分析在行业应用中的经验分享、初学者的误区和最佳实践方面的资料很少,唯一能找到的一本好书是清华大学出版社的《啤酒与尿布》,主要介绍购物篮分析在零售行业的应用。我始终认为分析师除了算法和软件,还需要了解行业背景,不然挖出的只是模式,而不是切实可行并且能带来商业价值的模式,甚至还有可能是错误的模式。  继续阅读关联规则:R与SAS的比较

应聘准备:非统计和计算机背景的学生如何找到SAS程序员的工作?

在LinkedIn上看到一个帖子问“金融和会计背景且有SAS知识的学生是否很难找到SAS程序员的工作?”,第一位回复的是SAS公司资的深培训师 Cynthia Zender,回复内容非常专业具体,值得一看。

Cynthia Zender 说每当她的学生提出类似问题时, 她的答复是:上招聘网站 Monster.com 或者 Icrunchdata.com 看看即将投身的领域在所在地区都需要什么样的SAS技能和经验。

假如你只知道 PROC PRINT, PROC FREQ 和 PROC MEANS,其他的SAS产品或者技术都没用过,那么你只能找到一份入门级的工作。

SAS知识和SAS经验完全是两码事。如果你看到招聘网站上要求应聘者具有 Base SAS Certification(SAS基础认证)或者 Advanced SAS Certification(SAS高级认证),那么应聘单位要求你掌握以下SAS知识:
Base SAS Certification:Programming 1, Programming 2
Advanced SAS Certification: Macro, SQL, Programming 3

对于想要从事统计分析领域编程工作的人员,可以考取 Statistical Business Analyst certification(业务分析师认证),这个认证的官网链接为: http://support.sas.com/certify/creds/sba.html

如果招聘信息中没有要求SAS认证,那么你需要自己去认真阅读技能要求,比如说:两年数据处理和报表制作的经验等。对于SAS编程方面的知识,可以上网站 http://support.sas.com/training 去看编程课程。

即便你不打算参加SAS的培训课程,仍然可以看一下SAS的培训网站,了解课程涵盖的主题,然后有的放矢地去自学相关课程,这是SAS给出的学习路径:http://support.sas.com/training/us/paths/index.html

另外一个途径就是访问 http://www.sas.com/success/,上面有一些SAS客户的成功案例,可以从技术、行业、解决方案等多个角度了解SAS产品在不同公司的各种应用。

最后,Cynthia Zender 引用了 T. H. White 的一句名言: Education is experience, and the essence of experience is self-reliance。教育就是传授经验,而经验的本质是自立。一个人要想进入某个行业的高端,必须通过大量的自学和实践,而不是通过培训的方式。个人认为兴趣、学习和实践是最好的老师,只要你真心想要进入这行,通过坚持不懈的努力早晚都能成为行业专家。  继续阅读应聘准备:非统计和计算机背景的学生如何找到SAS程序员的工作?

R与SAS的集成

一、为什么R与SAS要集成?

一位优秀的分析师不仅要有深厚的理论功底、丰富的实战经验,还要熟悉几款常用的分析软件,并有一款自己精通的软件。就像武林高手既有独门秘器,又要熟悉各门各派,这样才能博采众长,兼收并蓄,为己所用。

竞争促进创新,合作带来双赢。R与SAS各有优势,也各有问题,国内外网上骂战得多,思考如何将两者集成并能拿出可行方案的人则少之又少,即便有也基本都是老外或者外籍华人想出来的。这里不想贬低国人,只想建议大家多一些独创和研究精神。

有人会问,为何要集成?这里引用网上一位作者给出的观点,虽是一面之词,但不妨参考,有些观点还是比较中肯的。

I work in an environment dominated by SAS, and I am looking to integrate R into our environment.

Why would I want to do such a thing? First, I do not want to get rid of SAS. That would not only take away most of our investment in SAS training and hiring good quality SAS programmers, but it would also remove the advantages of SAS from our environment. These advantages include the following:

•Many years of collective experience in pharmaceutical data management, analysis, and reporting
•Workflow that is second to none (with the exception of reproducible research, where R excels)
•Reporting tools based on ODS that are second to none
•SAS has much better validation tools than R, unless you get a commercial version of R (which makes IT folks happy)
•SAS automatically does parallel processing for several common functions

So, if SAS is so great, why do I want R?

•SAS’s pricing model makes it so that if I get a package that does everything I want, I pay thousands of dollars per year more than the basic package and end up with a system that does way more than I need. For example, if I want to do a CART analysis, I have to buy Enterprise Miner, which does way more than I would need.
•R is more agile and flexible than SAS
•R more easily integrates with Fortran and C++ than SAS (I’ve tried the SAS integration with DLLs, and it’s doable, but hard)
•R is better at custom algorithms than SAS, unless you delve into the world of IML (which is sometimes a good solution).

原文地址:http://www.r-bloggers.com/integrating-r-into-a-sas-shop/  继续阅读R与SAS的集成