多元统计分析/统计与数据科学丛书
作者简介
内容简介
第1章 绪论和预备知识
学习目标与要求:
1.了解多元统计分析的概述和本书的特点;
2.掌握矩阵的各种性质和运算;
3.结合多元统计分析的内容,掌握矩阵运算在多元统计分析中的重要性.
1.1 绪论
1.1.1 多元统计分析概述
多元统计分析是从经典统计学中发展起来的一个分支,是研究多元数据处理方法的一门科学.多元统计分析能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,是一门具有很强应用性的课程,包括了很多非常有用的数据处理方法,在自然科学和社会科学等各个领域中得到了广泛的应用.
多元统计分析起源于20世纪初,1928年Wishart发表的学术论文《多元正态总体样本协差阵的精确分布》,可以说是多元统计分析的开端.在20世纪30年代,Fisher、Hotelling、Roy和许宝騄等统计学者作了一系列的奠基性工作,使多元统计分析在理论上得到了迅速发展.20世纪40年代,多元统计分析方法和理论在心理学、教育学、生物学等方面有不少的应用,但计算量大,使多元统计分析的发展受到一定影响,甚至停滞了相当长的时间.在20世纪50年代中期,随着电子计算机的出现和发展,多元统计分析方法在地质、气象、医学和社会学等方面得到广泛的应用.在20世纪60年代,多元统计分析的理论在应用和实践中又得到了完善与发展,新的方法和理论不断涌现,促进和扩大了多元统计分析的应用范围.20世纪70年代初期,多元统计分析在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作达到了国际水平,并已形成一支科研队伍,活跃在各条战线上.在20世纪末与21世纪初,随着现代技术的快速发展,特别是计算机科学、人工智能、网络信息、生物工程、医学技术等的发展,大数据时代正在向我们走来,并渗透到了各个领域.数字化技术的发展也使得更加方便收集和交换数据,并使得数据的存储成本变得越来越便宜.多元统计分析方法与人工智能和数据库技术相结合,已在经济、商业、金融、天文、医学、生物、环境、地质、农业和工业等领域得到了成功的应用.
在实际应用中,多个指标或变量共同作用或影响的现象大量存在,这时变量之间不可避免存在相关性.例如,在研究地区经济发展的指标时,需要考察总产值、利润、效益、劳动生产率、固定资产、物价、信贷、税收等指标;在医学诊断研究中,需要考察血压、血糖、脉搏、白细胞、体温、甘油三酯和胆固醇等指标.为了研究变量之间的相关关系并揭示变量的内在规律性,需要对p个指标变量X=(X1, ,Xp)′进行n观测试验,即收集多重观测数据,则这n个观测数据样本可以看成是p维空间的n个点.多元统计分析的研究对象就是多重观测数据,基本思想是利用多重观测之间的潜在相关性来提升推断效率,为研究变量之间的相关关系和内在规律性提供方法和理论.
在多元统计分析中,可用总体均值向量、各变量的标准差以及各变量之间的相关系数来刻画总体.相应地可用样本均值向量、各变量的样本标准差以及各变量之间的样本相关系数来概括一组样本.在研究变量之间相关关系的统计推断时,精确的统计推断理论需要对总体X进行正态分布的假设,而渐近的统计推断也需要多元的极限理论.所以,在多元统计分析中需要引入多元正态分布的概念,而多元正态分布也是多元统计分析的理论基础.多元统计分析的内容包括:矩阵运算、数据可视化、多元正态分布、多元正态总体的抽样分布、多元正态分布的参数估计、置信域和假设检验、线性回归模型、多元多重回归分析、主成分分析、因子分析、判别分析、聚类分析和典型相关分析等内容.
多元统计分析方法在经济、管理、金融、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、环境科学、军事科学和文学等方面都有广泛的应用.因此,学习多元统计分析方法、理论和应用是非常必要的.
1.1.2 关于本书
目前,国内外统计学者已经出版了很多优秀的多元统计分析教材,例如,Anderson(2003),Johnson和Wichern(2008),张尧庭和方开泰(1982),高惠璇(2005),张润楚(2006),王静龙(2008),白志东等(2012),吴密霞和刘春玲(2014),吴喜之(2019)等.在本书编写过程中,吸收了这些优秀教材的许多精华和优点,突出了以下几个特色.
(1)为了让读者系统掌握多元统计分析内容,本书严谨并系统地介绍了多元统计分析的基本思想、方法和理论,还配有大量翔实的应用案例可供参考.此外,本书在第7章的线性回归模型部分还系统介绍了前沿的惩罚变量选择方法、算法和应用,如Lasso、SCAD和自适应Lasso等.
(2)本书特色是用R语言进行案例分析,做到在理论的学习中体会应用,在应用的分析中加深理论.书中所有的多元统计方法都给出了R语言程序,在应用R语言进行案例分析时,除了介绍每种多元统计分析方法的程序包和核心函数外,更重要的是突出编程思想,培养读者能应用R语言进行编程和数据分析.通过编程,加深对每种多元统计分析方法的理解和掌握.
(3)本书的另一个特色是数据可视化.本书在进行案例分析时,几乎对所有多元统计分析方法的结果都通过精美的图形进行数据可视化展示,可以让读者更直观地对多元统计分析方法进行比较和评价.
(4)本书有相当数量的习题可供练习,这些习题中一部分可以加强统计理论和方法,另一部分针对实际问题,可培养读者结合统计方法独立解决实际问题的能力和素质.
(5)本书增加了教学资源的电子教案,教材中涉及的数据、R语言程序和插图等,供使用本书的师生参考和使用,丰富教与学的过程,提高教与学的效果.
(6)本书使用的符号、变量和参数非常多,因此,在撰写本书的过程中,对数学符号的定义很清楚,做到全书统一,具有可读性.此外,当符号第一次出现时,都会给出清晰的定义.在本书中,用黑正体表示矩阵,黑斜体表示向量.例如,令X表示一个n×p矩阵,表示为
令xi=(xi1,xi2, ,xip)′表示长度为p的列向量,其中X′或x′表示矩阵X或向量x的转置.
1.1.3 适用对象
本书可作为统计学、数学、金融学和经济学等专业高年级本科生、研究生多元统计分析课程的教材或参考书,也可作为数据分析相关科技人员和工作者使用多元统计分析方法和R语言的参考手册.本书的目的是介绍多元统计分析的方法和理论,并通过案例让读者理解所学多元统计分析方法,并掌握多元统计分析方法的R语言应用.本书的学习要求具备一些基础课程,如概率论、数理统计、高等数学、高等代数和矩阵论等.
本书内容已经针对北京师范大学应用统计专业硕士、统计学硕士和博士研究生进行了讲授,得到了学生的认可.本书的内容较多,教师在选用本书作为教材时,对于不同培养层次的学生,可灵活选取适当的内容进行讲授.例如,对高年级本科生、应用统计专业硕士研究生,以及其他专业学生可重点介绍多元统计分析的思想和方法,并突出应用和数据分析,不建议讲授带“*”的内容.统计学硕士和博士研究生可重点介绍方法和理论,可适当选择讲授教材中带“*”的内容,注重奠定学生扎实的理论基础.
1.2 矩阵运算知识
矩阵是多元统计分析一个十分重要的工具,本节主要介绍多元统计分析中有关矩阵论的一些预备知识.
1.2.1 线性空间
记全体n×1实向量组成的集合为Rn.
定义1.1 线性空间
设H为Rn的一个子集,如果它对向量加法和数乘两种运算具有封闭性,
即
(1)对任意x∈H和y∈H,必有x+y∈H;
(2)对一切实数c和任意x∈H,都有cx∈H.
这时,把满足上面两种运算的子集H称为线性空间.
显然,Rn是一个线性空间.记S0是由Rn中向量组a1, ,ak的一切可能的线性组合构成的集合,即
容易验证,S0也是线性空间,称S0为Rn的一个子空间.若将a1, ,ak排成一个n×k矩阵A=(a1, ,ak),则S0可表示为
它是矩阵A的列向量张成的子空间,记为S0=M(A).
定义1.2 线性相关/线性无关
设a1, ,ak为Rn中的一组向量,若存在不全为零的实数α1, ,αk,使得
则称向量组a1, ,ak线性相关,否则称它们是线性无关的.
如果子空间S0由一组线性无关的向量a1, ,ak张成,则称a1, ,ak为S0的一组基,k称为S0的维数,记作k=dim(S0).因此,dim(M(A))=rank(A).
对Rn中的任意两个向量a′=(a1, ,an)和b′=(b1, ,bn),定义它们的内积为
特别地,称为向量a的长度或模,记作∥a∥.记则(b,b)=1,并称b为a的标准化后的向量.
若(a,b)=0,则称a与b正交,记为a⊥b.若a与子空间S中的每一个向量正交,则称a正交于S,记为a⊥S.
定义1.3 正交补空间
设S为一子空间,称子空间S⊥={x:x⊥S}为S的正交补空间.
设A为n×k矩阵,记A⊥为满足条件A′A⊥=0且具有最大秩的矩阵,则
M(A⊥)=M(A)⊥.
定义1.4 正交矩阵
设P为n×n的矩阵,若P′P=In,则称P为正交矩阵.
由正交矩阵的定义易证:若A为正交矩阵,则
(1);
(2),即A的所有列向量相互正交,所有行向量也相互正交,各列向量和各行向量的模为1.
对于n×n的方阵A,若A的列向量a1, ,an是相互正交的,即,则对其列向量进行标准化
便得到一个正交矩阵:P=(p1, ,pn),显然P′P=In.
定理1.2.1对任意矩阵A,恒有M(A)=M(AA′).
证明显然M(AA′).M(A),故只需证M(A).M(AA′).事实上,对任给x⊥M(AA′),有x′AA′=0.右乘x,得,故A′x=0于是x⊥M(A),则完成了定理1.2.1的证明.□
1.2.2 Kronecker乘积与拉直运算
本节介绍矩阵的两种特殊运算:Kronecker乘积与拉直运算,它们在线性模型和多元统计分析等分支的参数估计理论中有特别重要的应用.
定义1.5 Kronecker乘积
设A=(aij)和B=(bij)分别为m×n和p×q的矩阵,定义mp×nq的矩阵C=(aijB),称为矩阵A和B的Kronecker乘积,记为,即
Kronecker乘积具有下列性质:
(1)(结合律);
(2)(分配律);
(3)(数量乘法)对任意实数α和β,有;
(4)(矩阵乘法);
(5)(矩阵转置);
(6)(逆矩阵);
(7)(矩阵的迹);
(8)(行列式)若A和B分别为m阶和n阶方阵,则.
定义1.6 矩阵的拉直运算
设矩阵A=(a1, ,an)是一个m×n矩阵,其中,且i=1, ,n.把矩阵A按列向量a1, ,an依次排成一个mn×1的向量,即则称Vec(A)为矩阵A的拉直运算.