所有由刘飞燕发布的文章

关于刘飞燕

中科院研究生院 统计管理 产品质量控制

正交试验和多因素方差分析

英国学者R. A. Fisher等在二十世纪前期开创了近代数理统计这门大学科,开始的标志是学生氏t分布的引入。在统计的发展过程中,Fisher又提出:“在进行一批试验之前,考虑到在取得这批试验的结果后,将要进行统计分析,因此,在试验前怎样合理地安排这批试验使得试验后的结果和统计分析取得更好的效果,是值得思考的。”在这种提法的推动下,在数理统计中形成了一种一分为二和合二而一的试验设计与方差分析这两个庞大的子学科。

方差分析主要是为检验因子在试验中作用的显著性而引进的一种方法,最早是由R. A. Fisher于1920年前后对农业试验作统计分析时引进。如果能对观察值的方差进行分解且分解出来的每一部分都可作出明确的统计解释,那么这个分解就是方差分析[1]。单因素方差分析在数学方法及其应用上基本没什么问题,所以这里主要讨论多因素方差分析的一些问题。

方差分析的一个重要假定是各个试验点同方差。这个假定过于强硬,也未必符合实际。例如在农业试验中,高产田产量的方差往往较低产田产量的方差大。当然,在某些条件下可以近似地认为各试验点的方差相等。

多因素方差分析的一个重要问题是在对因素间交互作用的处理上。可以应用多元方差分析的试验数据要符合严格的要求,它们一般来源于两类试验:完全组合试验和正交试验(正交试验的两个重要特点是均衡分散和整齐可比)。

交互作用是完全组合意义上的一个概念[2]。做完全组合试验可以得到各因素间的交互作用,若全体交互作用为零则主效应完全可加。然而,按照普遍联系的法则:主效应之间通常不是完全可加的。完全组合试验时,即使验证出了交互作用为零也没有什么太大的实际意义,何况当试验点作些平移,交互作用便随着改变。也正是由于交互作用是完全组合意义上的一个概念,若在某些试验点上没有观测值,那么有些交互效应或主效应就计算不出来了。

完全搭配且每个搭配的重复次数相同的试验得到的数据的方差分析是一门数学,形式逻辑的推导正确,但这并不意味着是好的应用数学。好的应用数学就是要提高试验效益和效率,尽可能通过少数次试验找到结果好的因素及水平搭配。所以,这里谈多因素方差分析的问题是也主要是从应用的角度。

当试验涉及的因素较多时,完全组合试验代价太大,试验效率很低。这时就要求做部分实施,即选取因素水平的一些组合(完全组合的一部分)来做正交试验。应用多因素方差分析来处理正交试验的数据时,对因素间交互作用的处理比较含糊:1)有时根据经验强行假定因素间不存在交互作用,这时在理论上就直接认定认为主效应完全可加;2)有时把认为可能存在的交互作用安排进正交表;3)另外还有“三阶或三阶以上因素间交互作用可忽略不计”等假定,等等。这些对待交互作用的态度有些让人摸不着头脑,因此在应用上也就有很大的缺陷。

可能也正是由于这些不足,欧美那些偏爱多因素方差分析的学者甚至认为不应该采用部分实施,比如“正交拉丁方限于应用在交互作用可以忽略不计的试验情况”,“当缺乏关于交互作用的信息或者当交互作用为零的假定是否成立还可疑时,应该安排完全搭配”之类,这从根本上剥夺了部分实施的巨大作用,实为一种偏执于方法而忽略实际应用的倒退。

科学试验探索未知,多因素试验的变化范围广,开始时把因素的水平范围选偏在所难免,即使有多年的经验在里面也可能有因素水平选偏的情况。

举一个例子:试验中有4个因素,假定均为三水平。分别用L9(34)和K(81)代表正交部分实施和完全搭配。完全搭配试验时,不用方向,埋头拉车,这时能够找到这81次完全搭配中的第一名。使用正交法:第一阶段,按L9(34)做9次试验,找到直接看的好搭配。第二阶段,根据这9次试验结果提供的线索,可以为好搭配的进一步搜寻提供帮助,比如,根据趋势图判断因素各水平有没有选偏,如果选偏了可以在下一批的试验中调整因素的水平。这样就可能跳出原来的因素水平范围,得到的好搭配甚至超过完全搭配时的第一名。根据实践经验,这样的分批试验往往至多做三批就可以找到非常好的结果了。

当试验因素比较多时,比如13个因素,也假定均为三水平,这时选用L27(313)和K(313=1594323)作为部分实施和完全搭配这两种方案代表。如果做完全组合试验,除了试验次数大大增加,而且因素水平的范围更易选偏。通过分批的部分实施则可以大大提高试验效率。当试验因素越多,两种方案之间的差距越大。部分实施的巨大作用显而易见。

对于正交试验,除了在处理因素间交互作用上有缺陷,应用多因素方差分析找到好的结果往往至多是局部最优。它分析的仅仅是某一批试验的数据,通过对因素效应的分解以期找到一组好的因素水平搭配。虽然有时可能会发现得到的这组因素水平搭配已超出已经做过试验的各因素水平搭配中,但也仅止于此,然后就匆匆下结论。不仅没有继续试验以检查该水平组合是否真正是好的,而且多因素方差分析对于一开始因素水平范围是否选偏并没有考虑。试验是一项不断探索的过程,而往往不是某一批次的试验就能解决问题的。分批做部分实施是有计划地进行,每一批试验为下一批的试验的布点服务,然后不断调整因素水平的范围,以尽可能接近全局最优的因素水平组合。

其实,正交试验也好,多因素方差分析也好,最终目的还是要找到好的试验因素水平组合。那么又何必固执于求出交互作用,固执于使用多因素方差分析的方法,倒不如跳出“交互作用”的圈子,并尝试从试验全局来考虑如何找到好的因素水平组合。

张里千先生舍弃了田口式的表头设计和方差分析的方法。经过不断研究,并通过大量的深入实践和总结,去伪存真,删繁就简,逐步地提炼出一套实现最优化的正交设计的系统理论和方法,并提出了一般性指导原则和策略,即“由稀到密,分批走着瞧,有苗头处着重加密,过稀处适当加密”。在满足这个指导原则和策略下,各批试验点能充分发挥效率;在限定的试验次数内尽可能地接近全局最优解;如果试验次数可以无限,则以尽快速度可靠地收敛到全局最优解。该方法的另一大优点是简单易学、灵活方便,普通技术人员都可以学会并能在各自岗位上发挥很大作用,拥有巨大的社会潜力。[3]

如果有朋友对张里千先生的这套最优化方法感兴趣,我将在下一期的文章详细介绍该方法。另外,介绍这套实用方法的《实用选优法》一书(由张里千先生编著的最新版本)也即将由科学出版社出版,敬请关注,哈哈!

注:1. 本文主要是基于张里千先生对多因素方差分析的一些看法。

2. 张里千,数学家和应用统计学家,中国现场统计研究会的主要创始人,早年毕业于北京大学数学系,后来任中科院系统科学研究所研究员。上世纪五、六十年代在非参数统计和试验设计等若干研究领域做出了不少深刻和杰出工作,七十年代以来主要从事正交试验设计与最优化的理论方法研究、应用和推广工作。以上两项主要工作均获得了1978年的全国科学大会奖。

 

参考文献:

[1] 陈希孺. 数理统计学教程[M]. 北京:中国科学技术出版社. 2009.

[2] 张里千. 交互作用和多因素最优化[J]. 数理统计与管理, 1991(03): 28-35.

[3] 张建方. 张里千传记 from 正交法和应用数学[M]. 北京:科学出版社. 2009.

用GERT方法求解两个抛硬币问题

问题:一枚均匀的硬币,一直抛直至出现HTT(H表示正面,T表示背面),期望要抛多少次?一直抛直至出现HTH(即正反正),期望要抛多少次?假定出现H面的概率为p,出现T面的概率为q,且p=q=1/2

本文使用GERT方法(又叫图解评审技术)来求解这两个问题,即先把定性描述的抛硬币问题转换为随机网络系统,再利用流线图和矩母函数中的一些理论来求解系统,并最终得到上述问题的答案。通过GERT方法不仅可以非常有效地解决类似的期望抛硬币次数问题,而且给定任何一个抛硬币次数,均可以直接计算出该次数下出现HTT或HTH等情形的概率。

文中第一部分详细介绍了GERT方法,可作为第二部分的参考内容;第二部分是利用GERT方法求解上述的两个抛硬币问题。由于文中图和公式较多,编辑比较麻烦,所以具体的文章见下面的链接。

文章下载地址:用GERT方法解决两个抛硬币问题

论坛帖子地址:http://cos.name/bbs/read.php?tid=16360

漫谈相关与回归

老师不断提醒我要对统计学的基本概念、定义及背景反复思考,这样才不会本末倒置,迷失方向。但是这个做起来很难,因为那些概念定义等看起来实在”太简单”、”没什么东西”,可能还是不能够平心静气吧!

最近静下来看了David Freedman等著的《统计学》的”相关与回归”部分,以及一篇关于直方图的文章,不免有些感慨!其实统计学中的很多概念、工具、方法等的实际意义或作用可能要比我们认为的要大很多,同时,当我们从一些概念定义等中发现出一些新东西时我们总会欣喜若狂。世界上的很多事物又何尝不是如此,人们对事物的了解总易受到传统或他人的影响仅仅停留在表面,很少达到全面而深刻,而一旦我们获得了那种深刻的洞察力,才发现真实世界是何等的精彩!一直以为直方图很简单,无非是一些代表频数的柱状图的组合而已,感觉没什么作用,但是看了一篇关于直方图制作方面的论文时,才认识到直方图的威力。直方图其实是非参数统计中估计总体分布特征的一项重要工具,选择好适当的组距和边界点(组距和最小边界点是关键),随着样本量的增大,它可以非常接近地反映数据的真实分布情况。其实,在统计中使用一种工具方法的目的也应该是使现有的数据尽可能多地反映出真实的信息,而这项工作往往是一个无底洞(这时又要考虑到效率问题了)。

散点图亦是如此。散点图给出了所有数据点的信息,但是如何从这些数据中获得结论或拟合模型,甚至用来预测?面对一张散点图,相关和回归应该是最容易想到的吧!这里主要谈谈两个变量间的相关和回归。

在研究两个变量的关系时,一般会先看看它们的散点图,在图中两变量的关系还是比较直观的,大致可以判断是否线性相关及相关性大小如何,是否是非线性相关等。而到底什么是相关呢?相关其实就是知道一件事对了解另一件事的帮助的大小。实际中,如果对某一事物不太了解,但是对与其有一定联系的另一事物有所了解,如果这种联系很强,那我们对于那件不了解的事物就有了更多的信息,或者说对这个不了解的事物有了更大的自信去预测。其实这也是研究中的一种常用的方法。

关于两个变量间的相关系数的计算。我们都知道两个变量X与Y的相关系数的计算公式为$Cov(x,y)/(SD(x)*SD(y))$,然而这已经是一个结果性东西了,我更推崇David Freedman等著的《统计学》中计算方法:先分别对两个变量做标准化,比如对变量X做标准化$(x_i-\bar{x})/SD(x)$,然后对应的标准量相乘,最后加总再求平均. 这种求法反映到散点图中,相当于对散点图的坐标刻度标准化,从而使两个坐标轴具有了相同的刻度,同时在直观两个变量之间的相关性大小时不会受到各自的标准差大小的影响。这个新的坐标系把所有的点(数据对)分到了不同的象限,通过观察各个象限的点的个数和大致分布情况便可以对相关性的大小与正负有直观的了解,比如更多的点都分布在一、三象限且群集于一条直线周围,那么这两个变量的一般具有较强的正线性相关。

我们都知道相关系数是-1到1之间的一个实数,那么相关系数为0.8是不是表示百分之八十的点群集在一条直线的周围吗?当然不是,相关系数是基于全体数据的一个综合信息,它反映的是所有点与某一条直线的群集程度,而不是一部分的点。由此也不免想到,我们在用到一些概念或定义时,也必须清楚这个概念或定义是基于怎样的对象,或有哪些局限条件或假定,比如概率论中的”事件”, “事件”是基于特定条件的,在具体使用过程中大家对这些特定条件都太”熟悉”以至于很少关注到它们,所以一旦条件改变了,大部分的人认为还是指同一个东西。

相关与因果也是这样,我们都知道相关不能同因果划等号,但实际过程中人们总”自然而然”地得出一些结论。一般来说,体重和升高相关,那体重大是不是就因为身高高呢?除非有一个固定的身材标准,而所有人都是这个标准。(随便提个问题:如果两个变量严格线性相关,即相关系数为1,那是否可以说这两个变量中一个为因一个为果呢?)。其实两个变量的相关更经常的情况是它们同时受到另外的一个或多个因素的影响,在这里可以通过对照试验或观察研究来进一步研究。另外,相关是可逆的,而因果则不可以。所以我们分析相关时总是如此谨慎地说,某某变化,与此相关的某某”相应地”如何变化。研究发现,个人收入与教育水平相关,高教育水平是不是高收入的原因呢?实际情况是它们相互影响:教育水平高的人收入一般较高,收入高的一般也更有能力获得继续教育的机会。虽然相关不是因果,然而有时我们并不需要弄清所有的因果关系,盯住输入和输出,只要存在相关,即使不是因果关系也不妨碍人们利用这种关系来进行推断。比如利用公鸡打鸣来预报太阳升起,虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先)。

在对两变量的相关关系有一定了解后,接下来的自然想法便是拟合回归模型。”回归”这一词来自于高尔顿的父子两代身高的研究,身高较高的父亲其儿子的平均身高要比父亲矮些,身高较矮的父亲其儿子的平均身高要比父亲高些,用高尔顿的话说就是”回归到平常”。虽然现在统计学上的”回归”这一概念已经远远超出的当时的定义,但是回归的原始思想依然有着非常重要的作用。”回归”,个人认为其实就是向中心的回归。在知道某地区18-24岁男子的身高的大致情况时,如果没有其他信息,让我们估计该地区中某一特定区域18-24岁男子的平均身高时(当然不是侏儒或篮球运动员之类的人),自然是用平均数(包括中位数)去估计了,这便是回归,没有其它的辅助信息时我们总倾向于平均值,这当然是符合统计思想的。两个变量的相关系数绝对值为1时,那么知道一变量的值就立即知道了另一变量的值;相关系数为0时,那么知道一变量的值对预测另一变量没有任何意义,那么我们就估计其值为平均值;相关系数绝对值介于0与1之间时,相关程度越大,我们越不倾向于取平均值。其实回归模型也是基于平均意义的,让我们来看看回归的本质(暂以两个变量x和y为例),回归是对每一个x值的y的平均值的估计,所以用回归模型来预测或估计总是平均意义的(这也是回归的思想),而针对某个特别的个体的预测则就需要非常的慎重了。

有这样一个例子,某学前班在儿童入学和结业时均要做智商测验,结果发现前后两次测验的分数平均都接近于100分,标准差为15分。但是仔细观察发现入学分数低于平均值的儿童结业时分数平均提高了5分,相反入学分数高于平均值的儿童结业时分数平均降低了5分,难道学前班会使儿童的智商平均化?其实没那么夸张,这只是回归效应的一个表现,只要两次测验分数的散点图中所有点不在同一条直线(这条直线的斜率为1)上,那么就会存在回归效应。观察得到的数据并不是真实值,都有或大或小的、或正或负误差,在大多数对称的概率分布中,观察值大于平均值的往往是其真实值加上了一个正的机会误差,观察值小于平均值的往往是其真实值加上了一个负的机会误差。所以在那个学前班中,入学分数较平均分低的儿童其真实分数一般是大于观察值的,因此在结业时的分数一般是要比入学时高,因为在向观察值的平均值,即真实值回归。

相关与回归是一定范围内的相关与回归,超出范围没有任何意义(经常实践的人应该会很少犯此类毛病的吧)。回归其实并不能增加信息量,它是一种结论(结论的准确性还有待评价),或对数据以某一种方式的总结,超出范围的估计预测是没有任何意义的。收入与教育水平有关,无休止的教育显然不会带来收入的持续的增加,所以人为地改变一个变量,希望通过回归模型的”魔力”来改变另一个变量是很荒谬的。另外,变量也是有范围或区域限制的,因此在使用回归模型做预测时是要非常谨慎的。

现在研究的回归往往都是多元回归,往往比较复杂,其实这是符合实际情况的,因此往往要用多个变量作为因子来拟合,但是这些变量是不是考察某一方面的较好指标呢,比如收入与教育水平有关,还可能与父母的社会地位有关,那这个”父母的社会地位”这一因子又该如何度量呢?这又是一个问题,尽管多元回归是一种非常有用的技术,但是永远代替不了对数据间内在关系的了解。由此可见实践经验的重要性!

如何设计一个试验

R·A·费歇尔爵士说在试验设计中经历的不是一个试验而是一种经验。

在静静地看了几遍David Freedman等著的《统计学》中关于试验设计的部分后,总觉得应该写点东西发泄一下。该书自从买来就一直放在书架很久没动,也懒得动,因为翻翻前面觉得太简单。最近心情比较平静,翻了翻试验设计部分,同时思考现实中的类似例子,觉得挺有味道的。

试验设计包括很多内容,比如大家可能都熟知的正交表构造、区组设计、拉丁方设计、饱和设计等,而书在这部分所说的试验设计主要讲在实际中如何设计一个试验,尤其是只考虑单因素的试验设计,即如何设计一个试验或通过观察研究来辨别一个因子(定性或定量)是否会带来某种特定结果,比如吸烟是否会导致肺癌。我们都知道,一个因子的效应是否显著,最常用的办法就是对照比较了。但是如何对照比较?在现实中很多人都会犯错,因为大家都往往会忽视比较的前提或基础,夸张一点说就像一个大人和一个小孩进行100米赛跑,他们的最终成绩是没有比较的意义的。

比较好的一个方法就是随机对照双盲试验:比较对照的基础是要在分组之前保证试验对象除了待研究的因子之外其他条件尽可能相似,或者说来自于同一母体;然后随机分组,比如用抛硬币决定分组等;”双盲”即试验对象和评估反应的人员对于分组一无所知,只有试验研究人员知道所有的分组。理论能给予也许就是以上一些文字,而在实际中具体设计这样一个试验时发现很多问题迎面而来。有时真的不得不感叹”实践处处皆智慧”,难怪说试验设计不仅是一门科学还是一门艺术呢!

举个例子说明随机对照双盲试验(我也是借花献佛,引用书中的例子,主要还是实践经验的匮乏啊!)美国在1916年遭受了脊髓灰质炎的袭击,受袭击的主要对象是1、2、3年级年龄段的学生,后来开发出了一种疫苗,然而该疫苗对于防止脊髓灰质炎是否有效呢?具体做试验时如何选择试验对象,可以随便选一个学区吗?这种疫苗会不会带来更大范围的脊髓灰质炎儿童呢?(人毕竟不是小白鼠啊!尤其是药物试验便会涉及到这样的道德问题。)最后美国卫生总署选定的学区是据信脊髓灰质炎最严重的一个学区。确定了这个学区后,就要来选择具体的试验对象,选哪个年级呢?具体又选哪些儿童呢?在试验过程中有相当部分孩子的父母因为各种原因拒绝参加这样一个试验。另外,在试验过程中还发现生活在卫生条件较差家庭的儿童由于来自母亲的抗体而能经受更厉害的传染,而生活在卫生条件好家庭的儿童往往更容易感染脊髓灰质炎。最后找到这样一个母体:试验对象的父母均同意注射疫苗,家庭背景等方面相似,那些看来会明显影响处理因子的混杂因素都尽可能相似了。在确定了这样一个母体以后再分组,负责评估反应的医生是不能参与分组的,主要是为了减少医生的主观偏性。一个不错的方法就是抛硬币,正面的一组,反面的一组,试验的儿童虽然可能知道他抛出的正面还是反面,但却不知道自己到底是处理组还是对照组。接下来试验就可以正式开始了。

其实随机对照试验主要还是要避免来自各方面的偏性,从而保证研究结果的准确性。而偏性主要来源于其他因子效应的混淆。

随机对照试验看来是非常不错的测定某一因子的效应是否显著的方法,然而在实际中却很少有这样的施展机会,比如研究吸烟是否会导致肺癌,吸烟者哪有时间陪你做一个为期十年的试验,这时就需要从观察中分析研究。在观察研究中依然要运用随机对照的思想,比如我们研究吸烟与心脏病的关系,那么吸烟以外的一系列因素就要控制好,比如限定是男性吸烟者,处于某个年龄段的吸烟者(作为处理组),另外该年龄段的男性未吸烟者作为对照组(其中可能还有其他的一些因素需要控制,不一一列举),然后跟踪记录。相关联并不等于因果。一般人的认识似乎是经常吸烟的人得肺病、心脏病的较多,但是不要忘记表面的现象可能是由很多因素混杂在一起而导致的,因此不能轻易判断两者之间存在因果关系。统计学教育我们,凡事不能从表面判断,原因是复杂的,我们要做的就是要找出真正的原因(就像电视剧《少年包青天》中的那句经典台词”真相只有一个”,呵呵),这也是统计学带给我乐趣的一个重要原因。

观察研究中还有这样一种情况:以某种检查和乳腺癌的关系为例,为了研究该种检查是否可以降低乳腺癌带来的死亡率,有62000名40至64岁的妇女被选作试验对象,她们被随机分到两个组,处理组中妇女接受年度的该种检查,而对照组则是做一般的常规性检查。但是跟踪发现处理组只有10800名妇女接受年度检查,有些拒绝检查(主要原因可能还是家庭经济状况)。另外对照组也并不会因为是对照组而不去检查,对照组中也会有一小部分人”偷偷”去接受检查。这样的情况又如何比较,如何得出研究结论呢?

说试验设计是一项艺术,是因为其中有很多经验或技巧的东西在里面吧,通过这些经验或技巧可以更好地对处理因子以外的混杂因素有一个较好的控制。因此,在具体做试验设计的时候更需要从实际出发,融入实际,发掘出真正的原因。