统计学习方法(第2版)
作者简介
李航,男,毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。北京大学、南京大学兼职教授。曾任日本NEC公司中央研究所研究员,微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室主任。现任今日头条人工智能实验室主任。
内容简介
第 1章统计学习及监督学习概论 本书第 1篇讲述监督学习方法。监督学习是从标注数据中学习模型的机器学习问题,是统计学习或机器学习的重要组成部分。 本章简要叙述统计学习及监督学习的一些基本概念。使读者对统计学习及监督学习有初步了解。 本章 1.1节叙述统计学习或机器学习的定义、研究对象与方法; 1.2节叙述统计学习的分类,基本分类是监督学习、无监督学习、强化学习; 1.3节叙述统计学习方法的三要素:模型、策略和算法; 1.4节至 1.7节相继介绍监督学习的几个重要概念,包括模型评估与模型选择、正则化与交叉验证、学习的泛化能力、生成模型与判别模型;最后 1.8节介绍监督学习的应用:分类问题,标注问题与回归问题。 1.1统计学习 1.统计学习的特点 统计学习( statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习 (statistical machine learning)。 统计学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的;(2)统计学习以数据为研究对象,是数据驱动的学科;(3)统计学习的目的是对数据进行预测与分析;(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。 赫尔伯特·西蒙( Herbert A. Simon)曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。 ”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往是指统计机器学习。所以可以认为本书介绍的是机器学习方法。 2.统计学习的对象 统计学习研究的对象是数据( data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于它们具有统计规律性,所以可以用概率统计方法处理它们。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。在统计学习中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。本书以讨论离散变量的方法为主。另外,本书只涉及利用数据构建模型及利用模型对数据进行分析与预测,对数据的观测和收集等问题不作讨论。 3.统计学习的目的 统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获取新的知识,给人们带来新的发现。 对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。 4.统计学习的方法 统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习( supervised learning)、无监督学习( unsupervised learning)和强化学习( reinforcement learning)等组成。 本书第 1篇讲述监督学习,第 2篇讲述无监督学习。可以说监督学习、无监督学习方法是最主要的统计学习方法。 随着人工智能和大数据在社会各行各业的广泛应用,统计学习方法已经成为人们急需了解与掌握的热门知识与技术。本书为具有高等数学、线性代数和概率统计基础知识的人们提供了一本统计机器学习的基本读物。2012年的第一版叙述了一批重要和常用的主要是监督学习的方法,受到广大读者的欢迎,已加印十三万多册。第二版主要增加了无监督学习的内容,包括近十种统计学习方法,使读者能够更好地了解和掌握统计机器学习这门新兴学科。