Python机器学习及实践/人工智能科学与技术丛书

Python机器学习及实践/人工智能科学与技术丛书
作者: 编者:梁佩莹|责编:刘星//李晔
出版社: 清华大学
原售价: 79.00
折扣价: 56.10
折扣购买: Python机器学习及实践/人工智能科学与技术丛书
ISBN: 9787302539735

作者简介

\\\"Python是目前比较热门的编程语言,以简单易学、应用广泛、类库强大而著称,是实现机器学习算法的首选语言。本书以Python 3.6.5为编写平台,以帮助读者快速上手、理论与实践相结合为出发点,介绍Python机器学习的相关内容。全书共10章,分别介绍了机器学习的基础知识、近邻法、数据降维、分类算法、回归算法、聚类算法、神经网络、推荐算法、频繁项集、数据预处理。通过本书的学习,读者可了解Python编程及在机器学习中的应用。 本书可作为对Python和机器学习感兴趣的初学者的参考书,也可作为从事Python开发的广大科研人员、学者、工程技术人员的参考书,还可作为高等院校人工智能、计算机等相关专业的教材。 \\\"

内容简介

第3章 CHAPTER 3 Python数据降维 伴随ICT(通信与信息技术)和互联网技术的不断发 展,人们收集和获得数据的能力越来越强。而这些数据 已呈现出维数高、规模大和结构复杂等特点。 人们想利用这些大数据(维数大、规模大、复杂大) ,挖掘其中有意义的知识和内容以指导实际生产和具体 应用,数据的降维就显得尤为重要了。数据降维又称为 维数约简。顾名思义,就是降低数据的维数。为什么要 降低数据的维数?如何有效地降低数据的维数?由此问 题引发了广泛的研究和应用。 数据降维,一方面可以解决“维数灾难”,缓解“ 信息丰富、知识贫乏”现状,降低复杂度; 另一方面 可以更好地认识和理解数据。 截止到目前,数据降维的方法很多。从不同的角度 入手可以有着不同的分类,主要分类方法有: 根据数 据的特性可以划分为线性降维和非线性降维,根据是否 考虑和利用数据的监督信息可以划分为无监督降维、有 监督降维和半监督降维,根据保持数据的结构可以划分 为全局保持降维、局部保持降维和全局与局部保持一致 降维等。 总之,数据降维意义重大,数据降维方法众多,很 多时候需要根据特定问题选用合适的数据降维方法。数 据降维是机器学习领域中非常重要的内容。 3.1维度灾难与降维 1. 维度灾难 维度灾难(curse of dimensionality)用来描述当 (数学)空间维度增加时,分析和组织高维空间(通常有 成百上千维),因体积指数增加而遇到各种问题场景。 在机器学习中,维度灾难常指以下问题: 在高维情况下,数据样本稀疏。 例如,k近邻法的讨论中经常涉及维度灾难,是因 为k近邻法基于一个重要的基本假设: 任意样本附近任 意小的距离内总能找到一个训练样本,即训练样本的采 样密度足够大,也称为“密采样”,才能保证分类性能 ; 当特征维度很大时,满足密采样的样本数量会呈指 数级增长,大到几乎无法达到。 在高维情况下,涉及距离、内积的计算变得困难。 其实,不仅是k近邻,其他机器学习算法几乎都会 遇到维度灾难的问题。 2. 降维 缓解维度灾难的一个重要途径就是降维。 1) 为什么能够进行降维 这是因为很多时候,数据是高维的,但是与学习任 务(分类、回归等)密切相关的仅是某个低维分布,即高 维空间中的某个低维难嵌入。因此,很多情况下,高维 空间中的样本点,在低维嵌入子空间中更容易学习。 2) 线性降维 一般来说,想获得低维子空间,最简单的方法是对 \\\"《Python机器学习及实践》内容由浅入深,既有原理介绍,又有实战操作,使读者在实践中掌握相关知识,并为解决问题提供详细的方法。 《Python机器学习及实践》具有超强的实用性,实例丰富,书中给出了80多个实例让读者理解概念、原理和算法。 《Python机器学习及实践》以理论与实践相结合为出发点,介绍Python机器学习的相关内容,即使没有机器学习基础的读者也可以快速上手。 \\\"