数据建模与分析

数据建模与分析
作者: 何章鸣,周萱影,王炯琦
出版社: 科学
原售价: 98.00
折扣价: 77.50
折扣购买: 数据建模与分析
ISBN: 9787030680204

作者简介

内容简介

第1章 测量与误差
  数据可以通过测量获得,任何测量都可能包含误差.本章介绍数据工程、数据获取、测量误差和误差传递的基本概念及典型案例.
  1.1 数据工程
  结合当前各试验训练基地指挥控制中心运行情况,可以将数据工程的任务分为两部分:数据管理和数据处理.两者最大的差异是任务结束后是否会产生新的数据,前者不产生测量以外的(新的)数据,后者会产生测量以外的(新的)数据,如表1.1所示.
  表1.1 数据管理和数据处理
  数据管理就是将数据按照约定的格式保存在固定存储介质中,继而实现对数据的增删改查、备份还原,存储介质包括纸质文件、光盘、硬盘、数据库服务器.例如,在信息时代,试训基地的测控数据一般以表格(Table)的形式保存在数据库服务器中.数据库是数据管理的核心,对应的技术人员为数据库工程师.常规数据库管理软件有SQLServer、Oracle及依此衍生的数据库应用软件,等等.
  数据处理就是依据客户需求,从数据库中调取原始测量数据,继而实现对数据的筛选变换、估计决策,即经过一定算法将原始数据变换为客户需求的结果数据,比如参数、图像、结论等.求解算法是数据处理的核心,对应的技术人员为算法工程师.算法的实现依托一定的编译环境.例如:C编译环境相对低级,代码易跟踪,运算效率高,库文件可读性较差,实现效率低;MATLAB编译环境相对高级,代码难跟踪,运算效率低,库文件可读性较好,实现效率高.
  算法工程师依赖数据库工程师,比如只有数据库工程师将数据库访问权限授予算法工程师,算法工程师才能获得原始测量数据,并对数据进行增加(Add)、删除(Delete)、修改(Update)、查看(Select),以及深入的计算,而且计算结果也需要数据库工程师授予写的权限才能保存到数据库中.他们的关系可以用图1.1表示,其中入库、出库是数据库工程师的主要职责,算法处理和移交接口是算法工程师的主要职责.
  图1.1 以数据库为中心的数据工程
  例1.1 求解具有m个方程、n个未知数的方程组
  (1.1)
  方程组可以记为
  Ax=b(1.2)
  其中常数向量b代表测量数据,系数矩阵A代表测量几何.A是由事前设计的测控方案决定的,因此也称为设计矩阵、测量矩阵、观测几何.数据库工程师将增广矩阵[A,b]以表格的形式保存在数据库中,它们是已知量.未知向量x是客户关心的参数,算法工程师经数据库工程师授权获得增广矩阵[A,b]后,编写一定的算法算得x.这些方法有高斯消元法、基于QR分解的最小二乘法、奇异值分解法、相对最小二乘法,等等.然后经数据库工程师授权,算法工程师把x保存在数据库中.
  如果依托MATLAB编译环境,无论方程是否存在解,都可以很方便地利用代码“x=A\\b”求得最小二乘解,但是“\\”的代码是受保护的,经过封装无法跟踪、查看、修改.其他类似功能的命令还有“x=inv(A)*b”“x=pinv(A)*b”“x=regress(b,A)”.其中“inv”也是受保护的,不可跟踪、查看、修改;而“pinv”和“regress”不受保护,可查看,可编辑.
  如果依托C编译环境,算法工程师需要依据算法步骤,利用基本的加减乘除运算,依据基本的顺序、选择、循环结构,编写最小二乘解,稳健的代码量超过百行,但是代码往往是未打包的,可以跟踪、查看、修改.
  1.2 数据获取
  1.2.1 测量的定义
  数据一般包括静态试验数据、挂飞试验数据和实物演练数据,数据通过测量获得.
  定义1.1 将测量对象的某个物理量与标准件相比较,确定比较值的过程,称为测量,用符号表示为
  L=x U(1.3)
  其中L为测量数据,U为标准件代表的单位,x为比值,“ ”是分割比值和单位的符号.在不引起歧义的条件下,忽略U,且常用x代替L.
  备注1.1 测量的关键是获得比值.标准件也称为度量衡,生产生活实践中的测量发生如此频繁,以至于我们经常忽略对应的标准件U.世界范围内度量衡是有差异的,例如,英美市场常用磅为质量单位,中国市场常用斤为质量单位.前NBA某球员体重为310磅或140.6千克或281.2斤.又如,成语“半斤八两”沿用了原来的计量制度,《汉书 律历志》表明半斤和八两是相等的重量,新中国成立后为了避免计量混乱,修正了传统的计量单位,旧制一斤等于十六两,现在的半斤等于五两或者250g.
  运动会中,举重的重量、跳远的距离、百米跑的时长,恰好是对三个最常用物理量进行测量,即质量、长度、时间,而测量的标准件是什么呢?
  质量的标准件为千克,法国科学院定义为:在4℃时1dm3(立方分米)的水的质量.而铂铱合金标准件被保存于一口钟形罩内,存放在国际计量局(位于巴黎附近的塞弗尔).最精确的秤为光学天平,精度为10.1mg.
  长度的标准件为米.法国科学院定义为:通过巴黎的子午线上从地球赤道到北极点距离的千万分之一,1983年米的标准件为光在真空中1/299792458秒内移动的距离.最精确的直尺为单色光直尺,精度为10.9m.
  时间的标准件为秒,是铯133原子基态的两个超精细能阶跃迁对应辐射的9192631770个周期的持续时间.最准确的原子钟都是基于光学转换,这种光学时钟具有稳定的频率,相对不确定度只有10.18数量级.
  表1.2给出了七种最常用物理量的量纲式、单位、单位符号.
  1.2.2 测量的分类
  数据是数据分析的对象,可以通过测量获取.按照不同标准可以将测量划分为不同的类别.
  1.2.2.1 依表达式分类
  依据符号表达式标准,可将测量分为直接测量、间接测量和组合测量.直接测量可以表示为
  y=x(1.4)
  其中y为测量值,x为待测物理量.例如,常规体检的基础项目包括身高、体重、肺活量等,都是通过直接测量的手段获得的.
  间接测量可以表示为
  y=f(x)(1.5)
  其中y为测量值,x为待测物理量,f为表达式已知的函数.可用逆函数x=f-1(y)确定待测物理量x的数值.
  组合测量可以表示为
  (1.6)
  其中[y1, ,ym]为测量值,[x1, ,xn]为待测物理量,[f1, ,fm]为表达式已知的函数.可用最小二乘算法确定待测物理量[x1, ,xn]的数值.
  备注1.2可以发现:测量的定义实际上是指直接测量;直接测量是间接测量的特例;间接测量是组合测量的特例.
  例1.2 直接测量举例:若选手的某项能力水平u为待测物理量,比如英语演讲能力、歌手演唱水平或被面试对象的专业技能,m个评委对选手直接打分,如下
  yi=u(i=1,2, ,m,m.1)(1.7)
  例1.3 间接测量举例:若钢球体积V为待测物理量,可以通过卡尺测量其直径d,间接测量钢球的体积,如下
  (1.8)
  相反,若钢球直径d为待测物理量,可以通过溢水体积V间接测量钢球的直径,如下
  d=3p6V/π(1.9)
  例1.4 组合测量举例:铜棒的膨胀系数[L0,α,β]是大学物理实验课程常测物理量,其中L0为0℃时铜棒的精确长度,可用高精度显微设备测量不同温度t下铜棒的长度L,假定该过程可以用L=L0(1+αt+βt2)刻画,测得一组数据
  (1.10)
  求膨胀系数[L0,α,β].
  解令
  (1.11)
  则有
  y=Ax(1.12)
  显然
  (1.13)
  若m=3,可得
  (1.14)
  若m>3,且A是列满秩的,则用第4章最小二乘估计法得
  (1.15)
  例1.5 组合测量举例:如图1.2所示,若某飞行器M的测站系位置坐标[x,y,z]为待测物理量,不妨设坐标值全大于零,可用单脉冲雷达测量该物理量.测站系也称为“北N-天U-东E”测站系,其原点O为雷达的中心,Ox轴平行于站点水平面指向北,Oy轴指向天(垂直地面向上),Oz轴平行于站点水平面指向东,可测得雷达站到该飞行器的距离R、方位角A、俯仰角E.不妨设x>0,y>0,z>0,试求[x,y,z].
  图1.2 测站系为中心的测量原理
  解 因
  (1.16)
  (1.17)
  (1.18)
  则组合解算公式为
  (1.19)
  或者
  (1.20)
  备注1.3 上述两个公式中,建议使用后者,因为前者会使得y的截断误差影响x,继而x的截断误差会影响z.
  例1.6 如图1.3所示,若某飞行器T的地心系位置坐标[x,y,z]、速度坐标[x,y,z]为待测物理量,可用多台连续波雷达测量该物理量.地心系的原点为地球参考椭球体的中心,Ox轴平行赤道面指向本初子午线,Oy轴平行赤道面指向东经90.方向,Oz轴平行地球自转轴.第i个雷达站的站址坐标为[xi,yi,zi],飞