Python大数据处理库PySpark实战
作者简介
汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。
内容简介
PySpark可以对大数据进行分布式处理,降低了大数据的学习门槛。本书是一本PySpark入门教材,重点讲述PySpark安装、PySpark用法、ETL数据处理、PySpark机器学习及其实战,最后给出一个综合实战案例。本书逻辑线索清晰,内容体系合理,适合有一定Python基础的大数据分析和处理人员学习使用。