Python数据科学与机器学习(从入门到实践)
作者简介
Frank Kane,Sundog Software公司创始人,曾在Amazon和IMDb工作近9年,在分布式计算、数据挖掘和机器学习等领域持有17项专利。 【译者简介】 陈光欣,毕业于清华大学并留校工作,主要兴趣为数据分析与数据挖掘。
内容简介
数据科学家实践指南,依据高科技公司中数据科学家的职位描述和要求,创作本书。 提供三大实战案例: 1.使用真实的电影评分数据创建一个电影推荐系统; 2.创建一个能实际运行的维基百科数据搜索引擎; 3.创建一个垃圾邮件分类器,可以对邮件账户中的垃圾邮件和正常邮件进行正确的分类。 本书涵盖准备分析数据、训练机器学习模型和可视化分析结果等主题,有助你提高使用Python高效地进行数据分析和机器学习的能力,并建立信心以更好地分析自己的机器学习模型。 ●清理和准备数据,使其可用于分析 ●应用Python中流行的聚类和回归方法 ●使用决策树和随机森林训练高效的机器学习模型 ●使用Python Matplotlib库对分析结果进行可视化 ●使用Apache Spark的MLlib包在大型数据库上进行机器学习