漫谈相关与回归

老师不断提醒我要对统计学的基本概念、定义及背景反复思考,这样才不会本末倒置,迷失方向。但是这个做起来很难,因为那些概念定义等看起来实在”太简单”、”没什么东西”,可能还是不能够平心静气吧!

最近静下来看了David Freedman等著的《统计学》的”相关与回归”部分,以及一篇关于直方图的文章,不免有些感慨!其实统计学中的很多概念、工具、方法等的实际意义或作用可能要比我们认为的要大很多,同时,当我们从一些概念定义等中发现出一些新东西时我们总会欣喜若狂。世界上的很多事物又何尝不是如此,人们对事物的了解总易受到传统或他人的影响仅仅停留在表面,很少达到全面而深刻,而一旦我们获得了那种深刻的洞察力,才发现真实世界是何等的精彩!一直以为直方图很简单,无非是一些代表频数的柱状图的组合而已,感觉没什么作用,但是看了一篇关于直方图制作方面的论文时,才认识到直方图的威力。直方图其实是非参数统计中估计总体分布特征的一项重要工具,选择好适当的组距和边界点(组距和最小边界点是关键),随着样本量的增大,它可以非常接近地反映数据的真实分布情况。其实,在统计中使用一种工具方法的目的也应该是使现有的数据尽可能多地反映出真实的信息,而这项工作往往是一个无底洞(这时又要考虑到效率问题了)。

散点图亦是如此。散点图给出了所有数据点的信息,但是如何从这些数据中获得结论或拟合模型,甚至用来预测?面对一张散点图,相关和回归应该是最容易想到的吧!这里主要谈谈两个变量间的相关和回归。

在研究两个变量的关系时,一般会先看看它们的散点图,在图中两变量的关系还是比较直观的,大致可以判断是否线性相关及相关性大小如何,是否是非线性相关等。而到底什么是相关呢?相关其实就是知道一件事对了解另一件事的帮助的大小。实际中,如果对某一事物不太了解,但是对与其有一定联系的另一事物有所了解,如果这种联系很强,那我们对于那件不了解的事物就有了更多的信息,或者说对这个不了解的事物有了更大的自信去预测。其实这也是研究中的一种常用的方法。

关于两个变量间的相关系数的计算。我们都知道两个变量X与Y的相关系数的计算公式为$Cov(x,y)/(SD(x)*SD(y))$,然而这已经是一个结果性东西了,我更推崇David Freedman等著的《统计学》中计算方法:先分别对两个变量做标准化,比如对变量X做标准化$(x_i-\bar{x})/SD(x)$,然后对应的标准量相乘,最后加总再求平均. 这种求法反映到散点图中,相当于对散点图的坐标刻度标准化,从而使两个坐标轴具有了相同的刻度,同时在直观两个变量之间的相关性大小时不会受到各自的标准差大小的影响。这个新的坐标系把所有的点(数据对)分到了不同的象限,通过观察各个象限的点的个数和大致分布情况便可以对相关性的大小与正负有直观的了解,比如更多的点都分布在一、三象限且群集于一条直线周围,那么这两个变量的一般具有较强的正线性相关。

我们都知道相关系数是-1到1之间的一个实数,那么相关系数为0.8是不是表示百分之八十的点群集在一条直线的周围吗?当然不是,相关系数是基于全体数据的一个综合信息,它反映的是所有点与某一条直线的群集程度,而不是一部分的点。由此也不免想到,我们在用到一些概念或定义时,也必须清楚这个概念或定义是基于怎样的对象,或有哪些局限条件或假定,比如概率论中的”事件”, “事件”是基于特定条件的,在具体使用过程中大家对这些特定条件都太”熟悉”以至于很少关注到它们,所以一旦条件改变了,大部分的人认为还是指同一个东西。

相关与因果也是这样,我们都知道相关不能同因果划等号,但实际过程中人们总”自然而然”地得出一些结论。一般来说,体重和升高相关,那体重大是不是就因为身高高呢?除非有一个固定的身材标准,而所有人都是这个标准。(随便提个问题:如果两个变量严格线性相关,即相关系数为1,那是否可以说这两个变量中一个为因一个为果呢?)。其实两个变量的相关更经常的情况是它们同时受到另外的一个或多个因素的影响,在这里可以通过对照试验或观察研究来进一步研究。另外,相关是可逆的,而因果则不可以。所以我们分析相关时总是如此谨慎地说,某某变化,与此相关的某某”相应地”如何变化。研究发现,个人收入与教育水平相关,高教育水平是不是高收入的原因呢?实际情况是它们相互影响:教育水平高的人收入一般较高,收入高的一般也更有能力获得继续教育的机会。虽然相关不是因果,然而有时我们并不需要弄清所有的因果关系,盯住输入和输出,只要存在相关,即使不是因果关系也不妨碍人们利用这种关系来进行推断。比如利用公鸡打鸣来预报太阳升起,虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先)。

在对两变量的相关关系有一定了解后,接下来的自然想法便是拟合回归模型。”回归”这一词来自于高尔顿的父子两代身高的研究,身高较高的父亲其儿子的平均身高要比父亲矮些,身高较矮的父亲其儿子的平均身高要比父亲高些,用高尔顿的话说就是”回归到平常”。虽然现在统计学上的”回归”这一概念已经远远超出的当时的定义,但是回归的原始思想依然有着非常重要的作用。”回归”,个人认为其实就是向中心的回归。在知道某地区18-24岁男子的身高的大致情况时,如果没有其他信息,让我们估计该地区中某一特定区域18-24岁男子的平均身高时(当然不是侏儒或篮球运动员之类的人),自然是用平均数(包括中位数)去估计了,这便是回归,没有其它的辅助信息时我们总倾向于平均值,这当然是符合统计思想的。两个变量的相关系数绝对值为1时,那么知道一变量的值就立即知道了另一变量的值;相关系数为0时,那么知道一变量的值对预测另一变量没有任何意义,那么我们就估计其值为平均值;相关系数绝对值介于0与1之间时,相关程度越大,我们越不倾向于取平均值。其实回归模型也是基于平均意义的,让我们来看看回归的本质(暂以两个变量x和y为例),回归是对每一个x值的y的平均值的估计,所以用回归模型来预测或估计总是平均意义的(这也是回归的思想),而针对某个特别的个体的预测则就需要非常的慎重了。

有这样一个例子,某学前班在儿童入学和结业时均要做智商测验,结果发现前后两次测验的分数平均都接近于100分,标准差为15分。但是仔细观察发现入学分数低于平均值的儿童结业时分数平均提高了5分,相反入学分数高于平均值的儿童结业时分数平均降低了5分,难道学前班会使儿童的智商平均化?其实没那么夸张,这只是回归效应的一个表现,只要两次测验分数的散点图中所有点不在同一条直线(这条直线的斜率为1)上,那么就会存在回归效应。观察得到的数据并不是真实值,都有或大或小的、或正或负误差,在大多数对称的概率分布中,观察值大于平均值的往往是其真实值加上了一个正的机会误差,观察值小于平均值的往往是其真实值加上了一个负的机会误差。所以在那个学前班中,入学分数较平均分低的儿童其真实分数一般是大于观察值的,因此在结业时的分数一般是要比入学时高,因为在向观察值的平均值,即真实值回归。

相关与回归是一定范围内的相关与回归,超出范围没有任何意义(经常实践的人应该会很少犯此类毛病的吧)。回归其实并不能增加信息量,它是一种结论(结论的准确性还有待评价),或对数据以某一种方式的总结,超出范围的估计预测是没有任何意义的。收入与教育水平有关,无休止的教育显然不会带来收入的持续的增加,所以人为地改变一个变量,希望通过回归模型的”魔力”来改变另一个变量是很荒谬的。另外,变量也是有范围或区域限制的,因此在使用回归模型做预测时是要非常谨慎的。

现在研究的回归往往都是多元回归,往往比较复杂,其实这是符合实际情况的,因此往往要用多个变量作为因子来拟合,但是这些变量是不是考察某一方面的较好指标呢,比如收入与教育水平有关,还可能与父母的社会地位有关,那这个”父母的社会地位”这一因子又该如何度量呢?这又是一个问题,尽管多元回归是一种非常有用的技术,但是永远代替不了对数据间内在关系的了解。由此可见实践经验的重要性!

漫谈相关与回归》有25个想法

  1. 讨论的太好了!

    请教个问题,如果说A和B的相关系数是0.8,就像文中所说的,那么用平时的语言,如果来解释这个0.8的经济学含义?

    1. 其实你这个问题问的是不完整的!既然你提到其经济意义,那么A和B究竟是指的是什么呢?
      0.8这个数字只能说比0.3更应引起你的注意,投入更多的注意力去了解背后更深秘密。仅此而已!!

  2. 很受启发,也来多说两句关于直方图的话题:)

    显然,直方图和“经验分布”Fn(x)密切相关。Glivenko已经证明,当n→∞时,Fn(x)→F(x),其中F(x)是分布函数。

    直方图的组距又牵涉到“聚类分析”这个方法。
    如果分组数量→∞,则显然直方图→分布函数曲线,这是非常理想的,但实际工作中,重复抽样的代价通常交大,无法让n极大。
    那么,分组数量究竟取多少合适?只有聚类分析才能给出完满的回答。

    直方图的下限取多少?这又与抽样分布、方差、置信度密切相关。

    1. 推荐一篇关于直方图的文章一起学习,具体见COS论坛的数理统计版

    2. 我觉得在可以画密度曲线的今天,直方图可以放入历史卷轴中封存了。虽然如飞燕给的那篇论文所示,直方图的理论并不简单,但它说到底只是一种(粗糙的)非参数的密度估计,而且其形状受带宽(组距)和分组的起点影响,对于前者,我没搞清楚怎么会跟“聚类分析”联系上,miniwhale能否解释一下呢;对于后者,因为它不如带宽问题那么吸引眼球,貌似历史上也没针对它推出漂亮的公式,所以似乎被很多人忽略了,往往就把数据的最小值作为分组的起点了,这种做法未必科学,好在有一种直方图叫Averaged Shifted Histogram就是解决这个问题的。

      1. 前面的有些笔误,请斑竹帮我删除,谢谢!

        对于统计学者,pdf的价值肯定高于直方图,但是为了得到pdf,哪怕是近似的,也要n非常大。这在实际生活中,很难做到。
        有些时候,我们的报告需要给领导之类的外行看,他们会对pdf感兴趣?比如ARPU(平均每用户收入)分析,领导只希望简单的看到0~50、50~100、100~150、150~200、〉200这5档数据。统计学者可能会对直方图省略细节的特点吹毛求疵,可普通人只会觉得通俗易懂。别忘了外行对于pdf概率处处为0,可积分后概率不为1这一点就需要仔细解释。
        对于离散总体,pdf退化,需要引入冲击函数δ,但与其费劲的引入广义函数,还不如直接采用直方图呢。

        以上是直方图优越于pdf的3个场合。

        至于直方图与聚类分析的关系其实很容易解释。工作中,我们经常需要对数据划分档次,比如前面的5档0~50、50~100、100~150、 150~200、〉200。这个档次划分很直观,但是否科学?经常有这样的遗憾,只差1就可以换档。这样的遗憾不可避免,但可以最大限度的减少。如果用户在50元附近很多,50就绝不是一个好的分界点,如果80附近用户较少,80就是一个好的分界点。但这样的描述过于简单,全面的考虑就必须引入聚类分析。通过聚类,观察数据的分布,从而较好地划分档次标准,最后根据这个档次标准进行定性分析。

      2. 直方图的解释和密度函数曲线完全是类似的,只不过一个是长方形,一个是曲线而已,都是看高低。历史上前者出现的早,后者晚,我觉得在解释上并没有什么高深之处,你说的问题在密度函数曲线中都不存在,也无需聚类,数据密集的地方,密度自然就大(曲线自然就高)。离散总体的密度估计莫非不就是一个频数表?冲击函数从何而来,能否给篇文献参阅一下?

        如果我们做统计研究的人都不向密度曲线倾斜,其他人就更会抱着直方图五百年不放了。

      3. 个人觉得直方图和pdf各有优势,直方图“粗超”,pdf精细。但是论“粗超”它能“粗超”过平均值?它粗超,所以它犯错的概率就大大减少。pdf至于统计理论的发展,以及再推动统计的应用有着强大的作用,甚至可以推动直方图的进步。但在面对实际问题的时候,无疑应用者不敢相信或者不必要相信如此精细的一个估计。而直方图就是上上选了。

  3. 楼主谈的话好像很具体,其实蛮可以用图表的方式说明一下
    像您所惊讶的,直方图与经验分布函数,非参有联系,很受启发
    提些建议,统计文章可以更简洁一些,有时候说多了,容易把人说晕,感觉很好,读来却得到不多,收获不多
    您提到的相关,貌似只是两个变量的简单相关,简单相关反映相关关系部完善的,可以再谈一下,复相关,典型相关,可以谈一下的相关系数的计算方法,可以谈一下回归和相关如何具体结合使用,

    1. 谢谢你的建议,写的东西不够简洁确实是我一直的问题,老师也批评了多次,正在改这个写东西拖沓的毛病。

      1. 这里的文章可以不断编辑改进,发表的不一定是最终稿:)另外在此推荐一篇范文:http://www.loyhome.cn/679.html (图片都是作者自己编辑的)当然我们不必那么高要求,不过读者肯定是喜欢带图的文章的,呵呵。

  4. 不是批评,呵呵,因为从本科就学统计,一直学统计,所以共勉,呵呵

  5. 有一段时间没来这儿转转了。谢谢LZ与大家分享心得的体会。
    LZ可以写一些主成分回归的内容嘛,当然,这只是俄的拙见。

  6. 当你融会贯通后,一定会把直方图与pdf曲线规为一类。但直方图中长方形的高低反映的是一个“区间”上的概率,而pdf曲线反映的是每个点的概率密度,别忘了,在每个点上的概率是0!

    离散总体的概率分布是一个频数表,但离散总体的概率密度函数是什么,这可不能用普通的函数加以描述。

    比如,一般的教材中都会有:离散分布有ΣPi=1;连续分布有∫P(x)dx=1。从概念上看,这两个公式反映的都是一个事实,即P(Ω)=1。那么能否把这两个公式统一为一个公式?答案是只有引入广义函数:狄拉克δ后才可以。

    首先:Σ针对可列无穷,∫针对连续统,因此尽量考虑把这两个公式往∫P(x)dx=1的形式统一。

    但是对于离散总体,在x=i这点,概率为Pi,概率密度是多少?用不严谨的话来说是无穷大!这不是普通函数可以描述的。
    还可以从cdf的角度看,对于对于离散总体,在x=i这点,累计概率从a阶跃到了b,b-a=Pi,cdf不连续!pdf是cdf的微分,因此在x=i这点,pdf不存在。
    所以,无法将上面两个公式统一为∫P(x)dx=1。

    数学上(其实历史上是先从电工领域的信号与系统分析中)为了描述这种冲击/阶跃,对函数的定义作扩充,引入了Dirac δ函数(wikipedia.org上有关于狄拉克δ函数,Dirac Delta function的词条),引入Dirac δ广义函数后,在x=i这点,概率密度就是Piδ,此时可以把上述两个公式统一为∫P(x)dx=1。

    我并非数学专业,以上是我个人给出的感悟,没在其他书上看到过,必定存在不严谨之处,但大意应该是正确的。

    至于最后的问题,我不是统计专业的,只是在工作中对此感兴趣而以,所以不要对我苛求喔。:)

  7. 我的困惑:

    实际物理规律决定了Y=X,
    实际观测到一系列(Xi,Yi)数据
    回归结果是 Y=K*Xi+C
    可以知道回归的残差主要是由 A,B,两个因素导致(干扰)
    分析的目的是要确定A,B两个因素是怎样导致残差变化,并进而控制它们。

    该怎样进行分析?是要看A、B两因素对残差的方差贡献率吗?
    QQ:3103060

  8. 您好!我想问下在对两组变量A,B进行相关分析时,是否先要对这两组数据进行统计,看它们是否符合正态分布呢?

    1. 如果只是计算相关系数的话没有必要,但如果要检验相关系数的显著性,则要求两组变量是联合正态分布。

  9. 对miniwhale关于直方图特点的解释很有同感,顶一个,顺便补充:
    1.图的存在意义在于可以向观看者迅速直观的传递并证明绘图者的观点;在实际工作中,一个图在一次展示中老大们最多看2秒。通常,他们看不懂,他们就忽略了;看懂了而绘图者的观点不鲜明,也就忽略了。从这个角度上讲横轴和纵轴涵义应该是最直白的度量(就是老大天天操心的那些的指标的最直接的形式)。
    2.关于精确…掌握或描绘所有信息是件好事(如果你能用找到一个函数概况出来),但是图就不是干这精细活的工具;再者,试图展示的信息量越大,表明绘图者的观点分散,看的人容易迷失。
    3.统计可以帮助我们理解客观现象,但那不是目的,目的是转化为生产力;生产力不是来源于准确的描述,而是来源于对客观现象的认识(主要因素,发展趋势,异常情况…)。
    ….,可能有些偏题,不对之处请指出

    1. 基本上同意你的观点。不过我觉得看2秒更多是看图者自己的问题,另外图也是需要解释的,那种一看就明白的图要么太没信息含量,要么真的是杰作。关于精确,我的观点不是要把所有的信息塞进来,而是在可以不牺牲信息的时候就不要牺牲,等我的书出来之后这些观点可能会清晰一些。

发表评论

邮箱地址不会被公开。 必填项已用*标注