特征工程的艺术:通用技巧与实用案例
作者简介
巴勃罗·迪布(Pablo Duboue) NLP学者。2005年博士毕业于美国哥伦比亚大学,师从ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA团队成员。2016年创办NLP技术公司Textualization。他有丰富的教学经验,是世界多所大学的访问教授。
内容简介
为改善机器学习模型的表现,你会花多少时间修改输入数据的特征?图灵奖得主Yoshua Bengio曾说:“好的输入特征是机器学习取得成功的基本条件。在产业化机器学习中,特征工程所占的工作量接近90%。”修改数据特征以更好地捕获问题的本质,这是机器学习的重中之重。 没有高深的领域知识能否进行高质量的特征工程?本书直面这一充满争议的话题,在不考虑领域知识的情况下,给出了特征工程的一些通用技巧。此外,本书还展示了丰富的案例,涵盖图数据、时间戳数据、文本数据和图像数据。你将在学习各种技巧和诀窍的过程中,逐渐领会特征工程的艺术。