线性模型引论/大学数学科学丛书
作者简介
内容简介
第一章 模型概论
线性模型是一类统计模型的总称,它包括了线性回归模型、方差分析模型、协方差分析模型和线性混合效应模型(或称方差分量模型)等。许多生物、医学、经济、管理、地质、气象、农业、工业、工程技术等领域的现象都可以用线性模型来近似描述。因此线性模型成为现代统计学中应用最为广泛的模型之一。本书将系统讨论线性模型统计推断的基本理论与方法。
本章将通过实例引进各种线性模型,使读者对模型的丰富实际背景有一些了解,这将有助于对后面引进的统计概念和方法的理解。我们先从线性回归模型谈起。
§1.1 线性回归模型
在现实世界中,存在着大量的这样的情况:两个变量例如X和y有一些依赖关系。由X可以部分地决定y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高。若用X表示某人的身高,用y表示他的体重。众所周知,一般来说,当X大时,y也倾向于大,但由X不能严格地决定y。又如,城市生活用电量y与气温X有很大的关系,在夏天气温很高或冬天气温很低时,由于空调、冰箱等家用电器的使用,用电量就高。相反,在春秋季节气温不高也不低,用电量就相对少。但我们不能由气温X准确地决定用电量y。类似的例于还很多。变量之间的这种关系称为“相关关系,回归模型就是研究相关关系的一个有力工具。
在以上诸例中,y通常称为因变量或响应变量,X称为自变量或预报变量。我们可以设想,y的值由两部分组成:一部分是由X能够决定的部分,它是X的函数,记为,(X)。在许多情况下,这个函数关系或者是线性的或者是近似线性的,即这里和。是未知参数。而另一部分则由其它众多未加考虑的因素(包括随机因素)所产生的影响,它被看作随机误差,记为e。这里e作为随机误差,我们有理由要求它的均值表示随机变量的均值。于是,我们得到在这个模型中,若忽略掉e,它就是一个通常的直线方程。因此,我们称(1.1.2)为线性回归模型或线性回归方程。关于“回归一词的由来,我们留在后面作解释。常数项阮是直线的截距,Pi是直线的斜率,也称为回归系数。在实际应用中,皆是未知的,需要通过观测数据来估计。
假设自变量X分别取值为。时,因变量y对应的观测值分别为,于是我们有n组观测值。如果Y与X有回归关系(1.1.2),则这些应该满足这里e。为对应的随机误差。基于(1.1.3),应用适当的统计方法(这将在第四章讨论)可以得到。的估计值,将它们代入(1.1.2),再略去误差得到称之为经验回归直线,也称为经验回归方程。这里“经验两字表示这个回归直线是基于前面的n次观测数据而获得的。
例1.1.1 肥胖是现代社会人们普遍关注的一个重要问题,那么体重多少才算是肥胖呢?这当然跟每个人的身高有关,于是许多学者应用直线回归方法研究人的体重与身高的关系。假设X表示身高(cm),y表示体重(kg)。我们假设y与X之间具有回归关系(1.1.2)。在这里误差e表示除了身高X之外,所有影响体重Y的其它因素,例如遗传因素、饮食习惯、体育锻炼多少等。为了估计其中的参数阮和P1,研究着测量了很多人的身高和体重,得到关系(1.1.3)。从而应用统计方法可以估计出,一种研究结果是,若用作自变量,则得到,也就是说我们有经验回归直线我们可以把它改写成如下形式:这个经验回归方程在一定程度上描述了体重与身高的相关关系。给定X的一个具体值x0,我们可以算出对应的y值。例如某甲身高,代入(1.1.5)可以算出对应。我们称56kg为身高是160cm的人的体重的预测。这就是说,对于一个身高160cm的人,我们预测它的体重大致为56kg,但实际上,它的体重不可能恰为56kg,可能比56kg多,也可能比56kg少。
例1.1.2 我们知道,一个公司的商品销售量与其广告费有密切关系,一般说来在其它因素(如产品质量等)保持不变的情况下,用在广告上的费用愈高,它的商品销售量也就会愈多。但这也只是一种相关关系。某公司为了进一步研究这种关系,用X表示在某地区的年度广告费,y表示年度商品销售量。根据过去一段时间的销售记录,n,采用线性回归模型(1.1.3),假定计算出,于是得到经验回归直线这个经验回归直线告诉我们,广告费X每增加一个单位,该公司销售收入就增加20.1个单位。如果某地区人口增加很快,那么很可能人口总数也是影响销售量的一个重要因素。若记Xl为年度广告费,X2为某地区人口总数。我们可以考虑如下含两个自变量的线性回归模型:同样,根据记录的历史数据,应用适当统计方法可以估计出屈。假定估计出的则我们得到经验回归方程从这个经验回归方程我们可以看出,当广告费Xl增加或人口总数X2增加时,商品销售量都增加,且当人口总数保持不变时,广告费每增加1个单位,销售量增加18.4个单位。而当广告费保持不变,该地区人口总数每增加一个单位,该公司销售量增达0.2个单位。当然,在实际应用中,并不是每个经验回归方程都能描述变量之间的客观存在的真正的关系。关于这一点,将在第五章详细讨论。
在实际问题中,影响因变量的主要因素往往很多,这就需要考虑含多个自变量的回归问题。假设因变量y和个自变量,之间有如下关系:这是多元线性回归模型,其中Po为常数项,为回归系数,e为随机误差。
假设我们对进行了礼次观测,得到礼组观测值它们满足关系式这里e。为对应的随机误差。引进矩阵记号(1.1.7)就写为如下简洁形式:这里为的观测向量。X为已知矩阵,通常称为设计矩阵。对于线性回归模型,术语“设计矩阵中的“设计两字并不蕴含任何真正设计的含义,只是习惯用法而已。几年来,有一些学者建议改用“模型矩阵。但就目前来讲,沿用“设计矩阵者居多。为未知参数向量,其中称为常数项,而为回归系数。而e为n×1随机误差向量,其均值为零,即。关于e最常用的假设是:
(a)误差项具有等方差,即(b)误差是彼此不相关的,即通常称以上两条为Gauss-Markov假设。我们知道,一个随机变量的方差刻画了该随机变量取值散布程度的大小,因此假设(a)要求e。等方差,也就是要求不同次的观测在其均值附近波动程度是一样的。这个要求有时显得严厉些。在一些情况下,我们不得不放松为。假设(b)等价于要求不同次的观测是不相关的。在实际应用中这个假设比较容易满足。
模型(1.1.8)和Gauss-Markov假设合在一起,可简洁地表示为这里表示随机向量e的协方差阵。(1.1.9)就是我们以后要讨论的最基本的线性回归模型。
在一些实际问题中,可能不全相等。这时观测向量或误差向量的协方差阵形为
在经济问题中,表示某经济指标在n个不同时刻的观测值,它们往往是相关的。这种相关性反应在误差项上,就是误差项的自相关性。一种最简单的自相关关系是误差为一阶自回归形式,即其中是独立同分布的随机变量,这时
上面我们讨论的都是线性回归模型。有一些模型虽然是非线性的,但经过适当变换,可以化为线性模型。
例1.1.3 在经济学中,著名的Cobb-Douglas生产函数为这里和分别为年的产值、劳力投入量和资金投入量和c为参数,在上式两边取自然对数,得到
若令再加上误差项,便得到线性关系因此我们把原来的非线性模型化成了线性模型。
例1.1.4 多个自变量的多项式
我们知道,任何光滑函数都可以用足够高阶的多项式来逼近。因此,当因变量y和自变量之间的关系不是线性关系时,我们可以用多元多项式来近似,有时可能还要添加若干自变量的交叉积。例如这样的模型往往出现在化学工程领域的研究之中,其目的是求诸自变量的一个组合,使得因变量y达到最大或最小。这类问题称为响应曲面设计。
引进新变量,上述模型变成了一个线性模型。从这里我们可以看出,线性模型中“线性二字实质上是指y关于未知参数依的关系是线性的。
最后,我们解释一下“回归一词的由来。“回归英文为“regression,是由英国著名生物学家兼统计学家Galton(高尔顿)在研究人类遗传问题时提出的。为了研究父代与子代身高的关系,Galton收集了1078对父亲及其一子的身高数据。用X表示父亲身高,y表示儿子身高。单位为英寸(1英寸为2.54cm)。将这1078对标在直角坐标纸上,他发现散点图大致呈直线状。也就是说,总的趋势是父亲的身高X增加时,儿子的身高倾向于增加,这与我们的常识是一致的。但是,Galton对数据的深入分析,发现了一个很有趣的现象——回归效应。
因为这1078个Xi值的算术平均值面英寸,而1078个值的平均值为雪英寸,这就是说,子代身高平均增加了1英寸。人们自然会这样推想,若父亲身高为z,他儿子的平均身高大致应为,但Galton的仔细研究所得结论与此大相径庭。他发现,当父亲身高为72英寸时(请注意,比平均身高面要高),他们的儿子平均身高仅为71英寸。不但达不到预期的英寸,反而比父亲身高低了1英寸。反过来,若父亲身高为64英寸(请注意,比平均身高面-要矮),他们儿子平均身高为67英寸,竞比预期的英寸高出了2英寸。这个现象不是个别的,它反映了一个一般规律:即身高超过平均值面英寸的父亲,他们儿子的平均身高将低于父亲的平均身高。反之,身高低于平均身高牙英寸的父亲,他们儿子的平均身高将高于父亲的平均身高。Galton对这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的回归效应。通过这个例子,Galton剖进了“回归