Spark快速大数据分析 第2版

Spark快速大数据分析 第2版
作者: [美] 朱尔斯·S. 达米吉 [美] 布鲁克·韦尼希 [印] 泰
出版社: 人民邮电
原售价: 119.80
折扣价: 83.90
折扣购买: Spark快速大数据分析 第2版
ISBN: 9787115576019

作者简介

【作者简介】 朱尔斯·S. 达米吉(Jules S. Damji)是Databricks的高级开发人员,也是MLflow的贡献者。 布鲁克·韦尼希(Brooke Wenig)是Databricks的机器学习专家。 泰瑟加塔·达斯(Tathagata Das)是Databricks的软件工程师,也是Apache Spark PMC成员。 丹尼·李(Denny Lee)是Databricks的软件工程师。 【译者简介】 王道远 目前就职于阿里云开源大数据平台数据湖存储团队,花名“健身”,主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验,熟悉Spark源码,从2014年开始参与Spark项目,曾为Spark贡献大量修复和新特性,也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。

内容简介

1.本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。 2.第2版在第1版的基础上做了大量更新,涵盖Spark 3.0的新特性,并着重展示如何利用机器学习算法执行大数据分析。 3.Spark项目创始人Matei Zaharia、Spark PMC成员Reynold Xin力荐。 毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark就是大数据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。 * 学习使用Python、Java、Scala的结构化数据API * 理解Spark SQL引擎的原理 * 掌握Spark应用的优化技巧 * 了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC等 * 使用Structured Streaming分析批式数据和流式数据 * 使用Spark和Delta Lake构建湖仓一体的系统 * 使用MLlib开发机器学习流水线