Python和PySpark数据分析(数据科学与大数据技术)

Python和PySpark数据分析(数据科学与大数据技术)
作者: (加)乔纳森·里乌|责编:王军|译者:殷海英
出版社: 清华大学
原售价: 118.00
折扣价: 89.68
折扣购买: Python和PySpark数据分析(数据科学与大数据技术)
ISBN: 9787302645368

作者简介

  作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

内容简介

《Python和PySpark数据分析》有 14 章和 3 个附录,详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例,介绍了PySpark中的实用知识点和语法,使你能够轻松掌握PySpark的核心概念,并将其应用于实际工作中。在本书中,你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作,你将了解如何使用 PySpark 处理大规模数据集、构建复杂的数据处理流程以及应对常见的数据质量和性能挑战。