
出版社: 北京大学
原售价: 79.00
折扣价: 50.60
折扣购买: 人工智能原理与实践
ISBN: 9787301317709
刘春雷,毕业于中国科学技术大学近代物理系,本科毕业后,前往美国留学深造,并获得了美国卡内基梅隆大学机器学习专业硕士学位和美国匹兹堡大学物理专业博士学位。在研究生和博士阶段的学习过程中,结合数据挖掘、机器学习理论知识和大数据技术,在应用物理领域做出了杰出的贡献和成就。经过多年博士及博士后阶段的学习和研究工作后,作者又先后在美国智库型研究公司和华尔街商业银行工作,积累了大量将机器学习和数据科学技术应用到实践中的经验。
随机森林算法是一种Bagging算法,应用的基础模型是决策树。单独使用决策树算法容易造成过拟合,而随机森林算法可以有效地解决这个问题,极大地提升模型效果。结合上节的Bagging算法运用过程,随机森林模型中的每一棵树的建立由以下几步组成。 (1)从训练数据中获取一份自助随机样本,随机样本的大小和训练数据的大小一致。 (2)如果数据有 M 个特征变量,在建立决策树的每个节点的过程中,随机挑选 m 个变量(m<< M),从这m个变量中选取最佳的变量作为该节点的判断依据。其中m的具体大小可以由验证数据来决定,其最佳值的范围也比较广。通常情况下,对于分类问题,m可以取M的平方根,对于回归问题,m可以取M的1/3。 随机森林模型效果的提升主要依赖以下两点。 (1)随机森林中树与树之间的相关性。相关性越小,总体效果越好。Bootstrapping算法和m个变量的选取都是为了减小相关性。 (2)随机森林中每棵树各自的预测能力。单棵树的预测能力越好,模型总体效果越好。 以上两个特点是相互依赖的,如减小m的大小有助于降低树与树之间的相关性,但是也会降低单棵树的预测能力。增加单棵树的深度会增加预测能力,但又会增加树与树之间的相关性。因此实践中选取最佳的超参数,需要用交叉验证等技术来确定。另外,随机森林不容易过拟合,因此在确定树的具体数量时可以尽可能大。 随机森林算法的交叉验证,其实可以用自身的 out-of-bag(oob)误差估计来代替。在每一棵树的训练过程中,有大约 36.8% 的数据不会被挑选到,因此对于任何一个数据点而言,在大约 36.8% 的决策树中都不会被用于训练。或者说,对于任意一个数据点,可以没有偏差地获得该数据在36.8%的决策树中的预测结果。最终,这些无偏差的预测结果同样可以根据每一棵树的结果,采用投票方式来获得最终的预测结果。 全面:涵盖人工智能和数据科学各个重要体系 经典:世界名校AI专业深造,国际大行实战经验 系统:重要理论和公式层层推导,阐述深入浅出 实战:六大典型AI和数据科学应用场景,透彻分析和代码实现