标签归档:关联分析

关联规则:R与SAS的比较

啤酒和尿布的故事是关联分析方法最经典的案例,而用于关联分析的Apriori算法更是十大数据挖掘算法之一(http://www.cs.uvm.edu/~icdm/algorithms/index.shtml,这个排名虽然是几年前的调查结果,但是其重要性仍可见一斑)。本文以《R and Data Mining》书中使用的泰坦尼克号人员的生存数据为例,介绍如何使用R和SAS的Apriori算法进行关联分析,比较两者的建模结果并对结果中存在的差异进行解释分析。

一、关联分析

网上有很多资料介绍关联分析算法,本文就不再赘述。我自己看的是《Introduction to Data Mining》(有对应的中文版,人民邮电出版社的《数据挖掘导论》),愿意看英文的同学可以访问:http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf。网上其他的资料我也大致翻过,对比之后感觉这本书是一本相当不错的教材,算法方面介绍地比较全面且有一定深度。我本人不建议大家去看那些非专业人士总结的关联分析算法介绍,虽然浅显易懂,但是内容片面,容易误导初学者,错把树木当成了森林。

对于关联分析在行业应用中的经验分享、初学者的误区和最佳实践方面的资料很少,唯一能找到的一本好书是清华大学出版社的《啤酒与尿布》,主要介绍购物篮分析在零售行业的应用。我始终认为分析师除了算法和软件,还需要了解行业背景,不然挖出的只是模式,而不是切实可行并且能带来商业价值的模式,甚至还有可能是错误的模式。  继续阅读关联规则:R与SAS的比较