机器学习算法导论
作者简介
王磊:2006年本科毕业于清华大学,2011年获得美国佐治亚理工学院博士学位。现就职于美国Facebook公司,担任主任工程经理。主要研究方向是:人工智能算法与架构、博弈论与优化算法理论。
内容简介
第5章Logistic回归算法 回归问题与分类问题是最重要的两类监督式学习问题。第3章中的线性回归算法是用于解决回归问题的重要方法,但它并不直接适用于分类问题。本章介绍的Logistic回归算法就是针对分类问题的一个重要算法。 Logistic回归算法是模型假设为 Sigmoid函数的经验损失最小化算法。在第4章中介绍了求解经验损失最小化问题的优化搜索算法。本章将在此基础上详细介绍Logistic回归算法的相关知识。5.1节对Logistic回归做入门性的介绍,并阐述Logistic回归目标函数与模型假设的统计意义。5.2节介绍Logistic回归优化算法。包括第4章中随机梯度下降算法与牛顿迭代算法在Logistic回归问题中的具体实现。5.3节介绍一般分类问题的度量方法,着重介绍准确率、精确率与召回率这3个机器学习中的重要概念。5.4节介绍Softmax回归算法。它是Logistic回归算法在多元分类问题中的推广。 5.1Logistic回归基本概念 在实际应用中,经常会遇到根据特征对事物进行分类的问题。例如,在第2章中介绍的鸢尾花种类预测问题。这个问题要根据花萼长、花萼宽、花瓣长以及花瓣宽这4个特征,来预测相应的鸢尾花是属于山鸢尾、变色鸢尾或弗吉尼亚鸢尾这3类中的哪一类。可见鸢尾花预测问题是一个分类问题。由于鸢尾花有3个种类,因此这个分类问题是一个三元分类问题。 在分类问题中,每一个样本都有一个标签,用于表示这个样本所属的类别。定义2.2给出了在k元分类问题中标签的一般设定方式。即,每个对象的标签是一个k维向量。如果该对象属于第i类,则标签向量的第i位的值是1,其余位的值是0。例如,在鸢尾花分类问题中,标签是一个三维向量。如果是山鸢尾,则标签为y=(1,0,0);如果是变色鸢尾,则 y=(0,1,0),如果是弗吉尼亚鸢尾,则y=(0,0,1)。 在一个k元分类问题中,设Xn为样本空间,Y0,1k为标签空间。对任一样本x∈X,记Dx为x的标签分布。监督式学习的任务是对给定的样本x预测Ey~Dxy。 设y=y1,y2,…,yk,则Ey~Dxy=Ey~Dxy1,Ey~Dxy2,…,Ey~Dxyk。 对期望向量Ey~Dxy中的第i个分量Ey~Dxyi(i=1,2,…,k),有 Ey~Dxyi=Pryi=0×0+Pryi=1×1=Pryi=1(5.1)因此,Ey~Dxy的第i个分量为对象属于第i个类别的概率。由此可见,分类问题的监督式学习算法的任务是对给定的特征组x预测对象属于每一个类别的概率。 对于二元分类问题,除了定义2.2中给出的标签的设定方式外,还有另外一种简化数学记号的01标签形式,即分别以0和1表示二元分类问题中的两个类别。在本章中,均按此方式给标签赋值。按照这样的标签表示方式,二元分类问题的监督式学习算法的任务是对给定的样本特征组x预测Pr(y=0)与Pr(y=1)。 由于标签y只有0和1两种可能的取值,所以必然有Pry=0+Pr(y=1)=1(5.2)因此,可以进一步简化监督式学习算法的任务为对给定的样本特征组x预测Pr(y=1)。 而Pry=0可以由1-Pry=1得到。 如果将概率看成一个数值属性,则二元分类问题的概率预测就转化成一个回归问题。按此思路,最简单的方法是直接采用特征组的线性回归模型来预测概率。但这个方法面临的问题是预测的结果可能会超出区间0,1。由于预测的对象是一个概率,所以0,1以外的预测值都是不符合要求的。 为了能够根据特征组x来预测Pr(y=1),需要寻找一个连续函数,它既能表达特征组x与概率Pr(y=1)之间的依存关系,又能保证在特征变动时对应的函数值不超出区间0,1。Sigmoid函数就是满足这种要求的函数,其表达式为Sigmoidt=11+e-t,t∈(5.3)显然,当t→-∞时,Sigmoidt→0; 当t→+∞时,Sigmoidt→1。 即,对任意t∈,Sigmoid函数的取值都不超出区间0,1。函数的图像如图5.1所示。 图5.1Sigmoid函数 用Sigmoid函数描述特征组x与概率Pr(y=1)之间关系的模型就是Logistic模型。 机器学习的应用涵盖自然语言处理,图像识别以及一系列预测与决策问题。特别是其中的深度学习理论更是诸多高精尖人工智能技术的核心,它是击败人类围棋世界冠军的AlphaGo计算机智能围棋博弈系统、无人驾驶汽车和工业界人工智能助理等新兴技术的灵魂。因此,掌握机器学习的理论与实践技术是学习现代人工智能科学最重要的一步。而这也正是本书希望达到的目的。 作者力图用通俗易懂的语言阐述机器学习的理论基础、基本概念、相关数学知识、将机器学习转化为优化问题的方法、以及处理这类优化问题的一般性算法。 从理论、抽象和设计三方面阐述了机器学习理论基础、算法实现和具体应用技巧。在讲述机器学习算法核心知识的同时,激发并增强读者的计算思维能力。 本书展示的内容覆盖了人工智能最前沿的研究方向,也是通用人工智能的基础。 在设计层面,基于机器学习的理论基础,详述一系列机器学习经典算法,并结合实例介绍算法在Python和Tensorflow中的实现和应用技巧,使读者从理论基础和实际应用两个层面全面掌握机器学习的核心技术。 ★ 前沿性:人工智能的学科覆盖面广、包容性强、应用需求空间巨大,已成为国际上公认的最具发展前景的学科之一。本书内容覆盖了人工智能最前沿的研究方向,也是通用人工智能的基础。 ★ 系统性:从理论、抽象和设计三方面阐述了机器学习理论基础、算法实现和具体应用技巧。在讲述机器学习算法核心知识的同时,激发并增强读者的计算思维能力。 ★ 通俗性:用通俗易懂的语言阐述机器学习的理论基础、基本概念、相关数学知识,将机器学习转化为优化问题的方法以及处理这类优化问题的一般性算法。 ★ 实用性:基于机器学习的理论基础,详述一系列机器学习经典算法,并结合实例介绍算法在Python和TensorFlow中的实现和应用技巧,使读者从理论基础和实际应用两个层面全面掌握机器学习的核心技术。