统计建模技术Ⅰ:多元统计建模与时间序列建模

统计建模技术Ⅰ:多元统计建模与时间序列建模
作者: 编者:罗良清|责编:方小丽//范培培|总主编:肖红叶
出版社: 科学
原售价: 52.00
折扣价: 41.10
折扣购买: 统计建模技术Ⅰ:多元统计建模与时间序列建模
ISBN: 9787030685704

作者简介

内容简介

第1章 多元统计分析概述
  学习目标
  1.了解什么是多元统计分析;
  2.了解多元统计分析的发展与现状;
  3.了解多元统计分析的主要功能和应用领域;
  4.掌握多元正态分布的定义、性质;
  5.掌握几种常见的多元抽样分布;
  6.掌握不同情形下总体均值向量的检验;
  7.掌握多元数据的常用图示方法.
  连续型数据普遍存在于我们的身边, 经济分析、经营管理乃至日常生活中都不难发现它们的身影.随着现代信息技术应用的不断深入和发展, “互联网+大数据”模式在越来越多的领域出现, 可获取的数据以指数级增长, 其中不乏连续型数据.大量的连续型数据需要我们整理、分析, 以归纳总结出隐藏在数据背后的规律, 因此介绍一些连续型数据的分析方法是十分必要的(蔡章利等, 2005).
  通常, 待分析的数据往往由多个变量和多个个体组成, 包含多种信息, 这些信息相互交织与重叠, 要从中提取出对决策有用的信息, 就需要有一定的理论指导, 需要运用一定的方法与技术.多元统计分析就提供了这方面的理论与方法技术, 并在实践中有着十分广泛的应用.
  1.1 多元统计分析简介
  多元统计分析涉及分析和理解高维数据, 是统计学中的一个重要分支, 通过对客观现象多个变量之间的依存关系进行分析和研究, 总结客观现象总体的统计规律性.多元统计分析是一种用于总体多目标评价的常用综合分析技术.如果总体中的每一个个体同时观测了多个(通常假定为p个)指标的数据, 或者说每个个体可与数学中p维空间的某个点相对应, 通常称这样的数据为多元数据, 比如在研究经济增长质量时, 需要对投入增长率、产出增长率、生产率增长指数、经济增长波动系数、通货膨胀率、劳动就业弹性系数、三次产业构成比、产业协调度、环境质量成本变动率、人均国内生产总值(GDP)、新产品产值率、居民消费增长率、城乡居民收入、投资效果系数、能源消耗系数、研究与发展(R&D)投入比重、生产能力利用率、专利授权指数、职工平均受教育年限、教育投入比重、劳动力技术装备程度等指标进行观测;又如疾病诊断中, 美国胸科协会(ATS)和美国感染病学会(IDSA)对重症社区获得性肺炎的诊断标准进行了新的修正, 指出符合1项主要标准或至少3项次要标准便可诊断.主要标准包括: ①需要创伤性机械通气;②需要应用升压药物的脓毒性血症休克.次要标准包括: ①呼吸频率>30次/分钟;②氧合指数;③多肺叶受累;④意识障碍;⑤尿毒症;⑥白细胞减少症;⑦血小板减少症;⑧体温降低;⑨低血压需要液体复苏(于化鹏, 2013).
  1.1.1 多元统计分析发展简史
  多元统计分析起源于对多元正态分布问题的讨论.从19世纪中叶开始, 一些研究中出现了二维正态分布和三维正态分布的密度函数的形式.1850年, 天文学家赫歇尔在对星星的位置进行测量的时候所推算出的误差的概率密度函数实际上就是标准二维正态分布的密度函数;1860年, 物理学家麦克斯韦在考虑气体分子的运动速度分布的时候, 在三维空间中推导出了气体分子运动的分布是三维正态分布.直到20世纪20年代末, 才出现系统地处理多元正态总体的统计分析问题的方法.1928年, 威沙特发表的《多元正态总体样本协方差阵的精确分布》, 通常被看成多元统计分析成为一个独立学科的标志.20世纪30年代, 、、许宝騄以及等统计学家(或数学家)进行了一系列奠基性的研究, 迅速发展了多元统计分析的基础理论.20世纪40年代, 多元统计分析在心理、教育、生物学等领域有不少的应用, 但大量的计算及第二次世界大战这两个因素在很大程度上影响了其进一步的应用和发展.20世纪50年代中期, 电子计算机的出现以及之后各种统计软件的研发, 极大地推动了多元统计分析方法的应用, 农业、气象、地质、医学、社会、经济、管理等各个领域都有多元统计分析方法的身影.多元统计分析方法广泛的应用促进其理论更快地向前发展.我国对多元统计分析方法的关注与应用开始于20世纪70年代初期, 之后的几十年, 在理论研究和应用方面取得了许多显著的成绩.如著名地质学家李四光所创立的地质力学, 缺少不了多元统计分析方法在研究各种地质场时的应用(梁之舜, 1980);又如统计学家冯士雍所领导的“服装号型”标准课题组在研制国家标准“服装号型”的过程中, 离不开多元统计分析方法在人体尺寸测量及简化中的应用(方开泰, 1989).
  20世纪末以来, 随着网络信息技术的深入和智能终端的普及, 一些领域出现了超大型的数据库, 如超级市场、医学卫生、网购、社交、交通、金融、保险、政府管理等领域, 多元统计分析方法、人工智能以及数据库技术有机融合, 已在这些领域的问题分析与解决中得到了成功的应用.
  各种统计软件包如、、、软件等, 为统计分析人员的工作提供了方便, 使得多元统计分析方法的应用变得更为简单高效.一直以来, 多元统计分析是统计学中最活跃的分支之一, 在经济研究和管理实践中的应用也越来越普遍和广泛.
  1.1.2 多元统计分析的内容和应用
  多元统计分析也称多元分析, 它是统计学中讨论多元随机向量的理论和统计方法的总称, 既包括某些用于分析一元随机变量问题的方法在多变量情形下的推广, 也包括一些特定于分析多元随机向量问题的方法.多元统计分析理论和方法的范围很广泛, 内容很丰富.一般当我们处理复杂的多变量数据问题时, 以下几个方面是期待完成的目标.
  (1) 简化数据, 在低维空间认识事物要比高维空间容易得多.譬如可将上述经济增长质量的21个指标简化为经济增长方式转变情况、经济增长过程健康状况、经济增长产出结果和经济增长潜能情况等四个方面去进行分析;武书连对中国大学进行排名时将本科毕业生就业率、新生录取分数线、本科教学评估结果、全校生师比、本科毕业生数、教师平均学术水平、双语教学示范课程、实验教学示范中心、特色专业、教学团队、规划教材、挑战杯本科生学术竞赛奖、本科数学建模竞赛奖、本科教学成果奖、毕业生平均学术水平、博士毕业生数、硕士毕业生数、优秀博士学位论文、研究生教学成果奖、国内引文数据库论文及引用、国外引文数据库论文及引用、学术著作引用、艺术作品、专利授权、科学与技术奖、国家大学科技园、国内引文数据库论文及引用、国外引文数据库论文及引用、学术著作引用、艺术作品、专利授权、人文社会科学奖等32项指标简化为人才培养和科学研究两个方面等.
  (2) 将数据分类, 为后续的各种分析奠定好基础.可以注意的是, 分类既包括对变量进行分类, 也包括对样本进行分类.例如, 某国有银行将个人客户按照资产风险承受能力分为保守型、稳健型、平衡型、增长型、进取型、激进型6种;又如, 经济学中, 按照一个国家市场经济在全国经济中的重要性, 以及政府对经济的干预程度, 一般可区分为完全市场经济国家和非市场经济国家;等等.
  (3) 对变量之间的关系进行分析, 挖掘现象背后的规律.例如, 在对某地区的汽车数据集(指标包括来源国、尺寸、类型、拥有权、性别、收入来源、婚姻状况)进行分析后得出如下结论: 美国汽车的主要特点是大型、家庭型的, 多由已婚且带孩子的人群购买;欧洲汽车和日本汽车的主要特点是小型、运动型的, 多由已婚还没有孩子的人群购买;而那些单身人士和单身带孩子的则往往选择租赁汽车, 收入来源较单一.又如通过研究健康状况、抑郁程度(量表自评)与性别、年龄、受教育程度、收入两组变量之间的关系, 显示年纪大但受教育少的人往往并不抑郁, 尽管自认健康欠佳.等等.
  引用英国著名统计学家肯德尔(M.G.Kendall)的总结, 把多元统计分析所研究的内容和方法概括为以下五个方面.
  (1) 简化数据结构, 即降维问题.通过变量变换将原来具有较高相关性的多个变量转化成互不相关的少数几个变量, 或者将高维空间的数据投影到低维空间, 在简化繁杂庞大的原始观测数据的同时又不会损失太多的信息, 有利于进一步的分析和研究, 因为在低维空间中认识事物要比在高维空间中容易得多.主成分分析、因子分析、对应分析等方法就是要解决这类问题.
  (2) 分类与判别, 即归类问题.对所研究的对象按相似的程度进行分类整理是一切科学研究都离不开的基本分析方法.聚类分析、判别分析等方法就是要解决这类问题.
  (3) 变量间的相互联系分析.分析一个或几个变量的变化是否依赖于另一些变量的变化, 或者分析两组变量之间的相互关系, 是科学研究中尤其是经济与管理研究中常见的内容与方法.多元回归分析、对应分析、典型相关分析等则提供了进行这类研究的必要方法.
  (4) 预测与决策.通过收集历史数据建立统计模型以总结现象发展的一般规律, 根据某些变量的值对另一个或另一些变量在未来的发展趋势中进行预测或判断.解决此类问题常用的方法有多元回归分析、判别分析、聚类分析、可视化分析等.
  (5) 多元数据的统计推断.对多元总体参数应用相关的方法进行估计或假设检验, 能够帮助我们获得对多元总体某个方面的认知, 或证实某种假设条件的合理性.多元数据的统计推断内容和方法是多元统计分析中的基础理论与方法.
  值得我们注意的是, 统计学的发展一刻也离不开应用.它在应用中诞生, 在应用中成熟、独立, 在应用中发展, 既扩展了应用的领域, 又与其他学科融合形成许多新的边缘学科, 如医学统计学、生物统计学、工程统计学、管理统计学等.多元统计分析作为统计学的一个重要分支, 它的生命力亦根植于应用.根据资料, 多元统计分析方法已成为各个领域数据分析的常用技术与方法, 农业、教育学、心理学、医学、体育科学、生态学、环境保护、地质学、社会学、文学、军事科学、经济管理等是其常见的应用领域.想了解更多案例的读者可以参阅文献(Johnson and Wichern, 2001).重要的多元统计分析包括多元方差分析、多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析、联合分析等.
  1.1.3 学习多元统计分析要注意的几个问题
  1.多元统计分析离不开基础理论的学习
  虽然多元统计分析的生命力在于应用, 但是同样也离不开支撑各种分析方法的统计基础理论, 它们是进行多元统计分析的基石, 如随机向量的性质、多元正态分布的定义和性质、多元抽样分布理论、多元正态总体均值向量的参数估计以及假设检验的计算步骤与方法等等.相比一元的情形, 多元统计分析方法的推导更具难度, 需要应用的数学知识更多, 概率论、线性代数、统计学是该课程的先行课程.在本书的编写中, 考虑到经济管理类专业的学习背景, 参考大量商科院校多元统计分析教材的做法, 对于书中的大多数方法, 我们只提供基于代数概念的解释, 尽量避开需要用到复杂数学知识的统计结果的推导, 力求利用大量说明性的例子和最低限度的数学理论, 以一种简洁、清晰的方式, 向读者介绍多元方法的基础理论(Johnson and Wichern, 2008), 不过在某些问题的阐述中仍离不开一些复杂的数学知识.
  2.多元统计分析离不开计算机软件的辅助
  统计工作包括数据的收集、整理、分析和解释几个环节, 从统计学发展史的学习中我们已经发现, 统计学的飞速发展是在现代, 20世纪中期计算机的出现与普及、各种统计分析软件的研发, 对推动统计学的发展具有决定性的影响.多元统计分析的数据维数较大, 计算过程更复杂, 工作量更大, 如果没有计算机和统计分析软件的辅助, 将寸步难行.在本课程的学习中, 大家应注重对计算机软件的学习与应用, 掌握一到两种常用的多元统计分析软件, 常常能够取得事半功倍的效果.本书在编写案例分析时就注意到了这一点, 大部分方法的结果都采用目前较通用的R软件来操作实现, 并在每一章的最后给出了相应的R软件的程序供读者学习参考, 以期做到理论与实践相结合,