矩阵力量(线性代数全彩图解 + 微课 + Python编程)(鸢尾花数学大系:从加减乘除到机器学习)
作者简介
"姜伟生 博士 FRM。 勤奋的小镇做题家,热爱知识可视化和开源分享。自2022年8月开始,在GitHub上开源“鸢尾花书”学习资源,截至2023年6月,已经分享3000多页PDF、3000多幅矢量图、约1000个代码文件,全球读者数以万计。 "
内容简介
1.1 有数据的地方,必有矩阵 本章主角虽然是向量 (vector),但是这个有关向量的故事要先从矩阵 (matrix) 讲起。 简单来说,矩阵是由若干行或若干列元素排列得到的数组 (array)。矩阵内的元素可以是实数、虚数、符号,甚至是代数式。 从数据角度来看,矩阵就是表格! 鸢尾花数据集 数据科学、机器学习算法和模型都是“数据驱动”。没有数据,任何的算法都无从谈起,数据是各种算法的绝对核心。优质数据本身就极具价值,甚至不需要借助任何模型;反之,则是垃圾进,垃圾出 (Garbage in, garbage out, GIGO)。 本书使用频率最高的数据是鸢尾花卉数据集。数据集的全称为安德森鸢尾花卉数据集(Anderson’s Iris data set),是植物学家埃德加·安德森 (Edgar Anderson) 在加拿大魁北克加斯帕半岛上采集的鸢尾花样本数据。图1.1所示为鸢尾花数据集部分数据。 图1.1 给出的这些样本都归类于鸢尾属下的三个亚属, 分别是山鸢尾 (setosa)、变色鸢尾 (versicolor) 和弗吉尼亚鸢尾 (virginica)。每一类鸢尾花收集了50 条样本记录,共计150条。 鸢尾花的四个特征被用作样本的定量分析,它们分别是花萼长度 (sepal length)、花萼宽度 (sepal width)、花瓣长度 (petal length) 和花瓣宽度 (petal width)。 如图1.2所示,本书常用热图 (heatmap) 可视化矩阵。不考虑鸢尾花分类标签,鸢尾花数据矩阵X有150行、4列,因此X也常记做X150 × 4。 这是一套前所未见的数学书,更是一套具备极高颜值的书。姜伟生博士自谦“小镇做题家”,实际上他是国际著名金融企业的金融科技专家。很难想象一位以“术数”为业的金融家具备如此彻底的分享动机,同时,姜博士有着卓越的艺术品位和设计能力,不仅承担了这套书的精深内容,更承担了全系图书的整体设计。希望读者从枯燥的常规数学书中解脱出来,赏心悦目地慢慢走入缤纷的数学宇宙。