美团机器学习实践/美团技术丛书

美团机器学习实践/美团技术丛书
作者: 美团算法团队
出版社: 人民邮电
原售价: 79.00
折扣价: 54.60
折扣购买: 美团机器学习实践/美团技术丛书
ISBN: 9787115484635

作者简介

内容简介

在机器学习应用中,特征工程扮演着重要的角色 ,可以说特征工程是机器学习应用的基础。在机器学 习界流传着这样一句话:“数据和特征决定了机器学 习算法的上限,而模型和算法只是不断逼近这个上限 而已。”在机器学习应用中,特征工程介于“数据” 和“模型”之间,特征工程是使用数据的专业领域知 识创建能够使机器学习算法工作的特征的过程。美国 计算机科学家PeterNorvig有两句经典名言“基于大 量数据的简单模型胜于基于少量数据的复杂模型。” 以及“更多的数据胜于聪明的算法,而好的数据胜于 多的数据。”因此,特征工程的前提便是收集足够多 的数据,其次则是从大量数据中提取关键信息并表示 为模型所需要的形式。合适的特征可以让模型预测更 加容易,机器学习应用更有可能成功。 纵观Kaggle、KDD等国内外大大小小的比赛以及 工业界的应用,它们其实并没有用到很复杂的模型和 算法,大多数成功都是在特征工程这个环节做了出色 的工作。吴恩达曾说过:“特征工程不仅操作困难、 耗时,而且需要专业领域知识。应用机器学习基本上 就是特征工程。”相信大多数人都会同意。在机器学 习应用中,我们大多数时间都在进行特征工程和数据 清洗,而算法和模型的优化仅仅占了一小部分。遗憾 的是,目前大多数书籍中并没有提到特征工程,对于 特征工程的介绍更多则是特征选择的方法。这是因为 ,好的特征工程不仅需要我们对模型和算法有深入的 理解,更需要较强的专业领域知识。特征工程不仅跟 模型相关,而且跟实际问题是强相关的。针对不同问 题,特征工程所用的方法可能相差很大,很难总结出 一套比较通用的方法。尽管如此,但仍然有很多特征 工程的技巧在不同问题中都适用。在本章,我们将介 绍特征工程中通用的方法和技巧,以及常用特征选择 方法。 2.1 特征提取 从数学的角度讲,特征工程就是将原始数据空间 变换到新的特征空间,或者说是换一种数据的表达方 式,在新的特征空间中,模型能够更好地学习数据中 的规律。因此,特征抽取就是对原始数据进行变换的 过程。大多数模型和算法都要求输入是维度相同的实 向量,因此特征工程首先需要将原始数据转化为实向 量。原始数据有很多类型,比如数值类型、离散类型 ,还有文本、图像以及视频等。将原始数据转化为实 向量后,对应的特征空间并不一定是最佳的特征空间 。为了让模型更好地学习到数据中隐藏的规律,我们 可能还需要对特征做进一步的变换。将原始数据空间 变换为模型输入向量空间的过程便是特征工程所要做 的事情。事实上,如果特征工程足够复杂,即使是最 简单的模型,也能表现出非常好的效果。然而,复杂 的模型在一定程度上减少了特征工程需要做的工作。 因此,特征工程和模型二者此消彼长。例如,对于线 性模型,我们需要将类别变量进行独热编码等处理,