MATLAB数据探索性分析(原书第2版)/清华开发者书库
作者简介
Wendy L. Martinez 1989年获得卡内基?梅隆大学物理学和数学学士学位,后在乔治?华盛顿大学及美国航空航天局兰利研究中心完成航空航天工程硕士学位的学习,并于1995年获得乔治?梅森大学计算科学和信息学(主要是计算统计学)博士学位。获得博士学位后,在美国军队工作15年。在美国海军水面作战中心研发实验室,进行了概率密度估计、信号处理、科学可视化和模式识别等方面的研究。研究兴趣包括概率密度估计、统计模式识别和机器学习、科学可视化、探索性数据分析和文本数据挖掘。
内容简介
第3章 降维——非线性方法 本章涉及许多非线性的降维方法,这里的非线性体现在高维空间与低维空间之间的映射关系为非线性。首先介绍多维尺度分析,该方法已经被广泛应用。接着介绍一些近年来提出的非线性降维方法,包括局部线性嵌入、等距特征映射以及海森特征映射。最后对机器学习当中的一些降维方法进行讨论,例如自组织映射、生成式拓扑映射以及曲元分析。 3.1多维尺度分析——MDS 多维尺度分析(MDS)是用于分析测量物体的数据集合之间邻近性的一组方法,它可以揭示出数据集内在的隐藏结构。MDS算法的目的是为原始数据集合寻找一个低维结构,并且满足在此低维结构中数据点之间的距离不失真。这就意味着,高维空间中较近的点在低维空间中也较近。MDS算法最初是由社会科学研究者提出的,如今在很多统计软件包中都有该算法,包括MATLAB统计工具箱。 在介绍不同的MDS[Cox和Cox,2001]方法之前,首先介绍一些相关的定义和符号。如前面所述,假设数据集合包含n个观测点。MDS算法首先测量出邻近性,用以衡量物体之间的距离或者相似度。邻近性包含两种类型: 相似性和相异性。定义符号δrs用于衡量物体r和s之间的相异性,Srs用于衡量相似性。对于大多数情况下,满足: δrs≥0,δrr=0 和 0≤srs≤1,srr=1 因此,从δrs的满足条件可以看出,δrs越小则观测点离得越近; 对于相似性测量Srs而言,值越大则离得越近。这两种邻近性的测量可以很容易地相互转换(详见附录A)。因此在本章后续部分,都假设采用相异性作为邻近性测量。同时,物体间相异性可采用矩阵的形式表示,记为Δ。大多数情况下,相异性矩阵都是一个n×n的对角阵(有些情况下,用下三角矩阵或者上三角矩阵的形式给出)。 定义drs为低维空间中观测点r和s之间的距离。在MDS的文献中,定义X为低维空间中坐标值矩阵。值得注意的是,此处可能与之前定义的X(表示具有n个p维观测点的原始数据集合)相混淆。 在MDS中,通常从研究相异性矩阵Δ入手,而不是直接研究原始数据。事实上,在MDS的初始公式中,对不同类对象进行定性判断时,原始的p维空间的观测点并无意义。归纳而言,MDS首先研究相异性矩阵Δ,最终得到d维虽然符号d既用于表示低维空间维数(d