标签归档:文本分析

R语千寻第三期:张无忌究竟爱谁?

作者:朱雪宁

图片 1金庸的射雕三部曲,我最爱的是收官作《倚天屠龙记》。金老爷子在后记里曾说,三部曲中郭靖诚朴质实,杨过深情狂放,张无忌的个性却比较复杂,也是比较软弱。就我看来,这种软弱的一方面体现在他对爱情的选择困难症上。

幼时蝴蝶谷初遇殷离,便被一见钟情,后有婚诺之约;年少汉水舟中邂逅周芷若,后来互生情愫,几成良缘;光明顶遇小昭,意存怜惜,却终天人永隔;绿柳山庄遇赵敏,针锋相对,但也一生羁绊。张无忌本人态度比较暧昧,可以说是经过朱九真爱情滑铁卢之后一路上运势基本开挂,但他性格里却是拖泥带水,见异思迁,放到现在基本称得上是渣男中的战斗渣。张无忌究竟爱谁?这是一个被争得沸沸扬扬的问题,说实话,有一千个读者,就有一千个最爱。连金老爷子最后也只得承认:恐怕作者也难以说清。但是,真的说不清吗?我心血来潮,拿倚天屠龙记小说做了一把文本分析。

继续阅读R语千寻第三期:张无忌究竟爱谁?

从搜索序列文本看高端商务车

朱雪宁(北京大学光华管理学院)               王汉生(北京大学光华管理学院)

摘要:本文对100万搜索引擎用户的13亿搜索序列文本进行探索分析,对高端车用户以及商学院人群做了描述对比,并针对用户搜索高端车品牌过程中的动态选择行为进行建模。首先,我们发现,在人群划分上,高端车用户和商学院用户表现出更加高端的属性,这主要表现在他们对生活、事业、学业上更卓越的追求。接下来,本文利用逻辑回归构建了忠诚模型,对用户在搜索过程中表现的忠诚和叛变行为进行了刻画,并对影响其忠诚行为的关键因素进行了逐一分析。根据模型的估计结果,我们发现,用户的搜索时间间隔、搜索关键词长度、搜索点击数等指标对用户忠诚行为有显著影响$^1$。最后,我们利用成本收益曲线对模型进行了评价,并得到了良好的效果。 继续阅读从搜索序列文本看高端商务车

电子商务顾客评论的热点话题分析

作者:蔡越 (厦门大学经济学院统计系),郭鹏(厦门数析信息科技有限公司),

方匡南(厦门大学经济学院统计系,厦门大学数据挖掘研究中心)

摘要: 买家的评论文本数据是电子商务领域一种重要的数据形式,通过对其分析,电商卖家可以直接了解顾客对产品的态度与建议,提取顾客关注的热点问题,也可以进行顾客分类,实现精准营销,改进和提高生产和服务等;买家可以提取所关注属性的相关评价,了解舆论情感倾向,提高购物决策效率。但是大数据环境下海量文本的出现给文本数据的有效利用带来了一定的困难,比如结构化处理后的文本数据的高维特性给电子商务文本聚类等分析带来了新的挑战。本文主要研究当词条数目(变量数)远远大于评论文本数(样本数)时如何归纳顾客评论以及提取热点话题。本文抓取了亚马逊中国站热门产品kindle的评论文本,通过惩罚高斯混合模型聚类方法,同时进行文本聚类和有效词条的筛选,实现了大规模评论文本的有效、快速、自动聚类,为后续更加精细的商业分析提供了良好的基础。

关键词:顾客评论;文本分析;聚类;热点话题

继续阅读电子商务顾客评论的热点话题分析