
出版社: 中国电力
原售价: 78.00
折扣价: 62.76
折扣购买: 基于PySpark的高级数据分析
ISBN: 9787519891862
Akash Tandon是Looppanel的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。Sandy Ryza是Apache Spark的核心贡献人,领导了Dagster项目的开发。Uri Laserson是Patch Biosciences 的创始人兼首席技术官。曾在Cloudera从事大数据和基因组学的研究。Sean Owen是Apache Spark的核心贡献人和PMC(项目管理委员会)的成员,同时也是Databricks专注于机器学习和数据科学的首席解决方案架构师。Josh Wills是WeaveGrid的软件工程师,也是Slack的前数据工程主管。
编辑推荐 时至今日产生的数据量已经达到令人惊人的地步,而且还在不断增长。Apache Spark已经成为分析大数据的实际工具,并且也是数据科学工具箱的关键部分。本书针对Spark最z新版本进行了更新,将Spark、统计方法和真实数据集结合在一起,教你如何运用 PySpark、Spark Python API和Spark编程中的其他最z佳实践来解决分析问题。 数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介绍了Spark生态系统,然后深入研究将常用技术(包括分类、聚类、协同过滤和异常检测)应用于以下的领域:基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。 如果你对机器学习和统计学有基本的了解,并且能够使用Python进行编程,那么本书将帮助你开始进行大规模的数据分析。
书籍目录
目录
前言 1
第1 章 大数据分析 7
11 使用大数据 8
12 Apache Spark 和PySpark10
121 组件 10
122 PySpark 12
123 生态系统 13
13 Spark 30 14
14 PySpark 处理数据科学问题 15
15 本章小结16
第2 章 PySpark 数据分析简介 17
21 Spark 架构 19
22 安装PySpark 21
23 设置我们的数据 24
24 使用DataFrame API 分析数据 31
25 DataFrames 的快速汇总统计 35
26 DataFrame 的透视和重塑 37
27 关联DataFrame 并选择特征40
28 评分和模型评估 42
29 本章小结44
第3 章 音乐推荐和音频编码器的数据集 47
31 设置数据48
32 我们对推荐系统的要求 51
33 数据准备55
34 构建第一个模型 58
35 算法筛查推荐 62
36 推荐质量评估 64
37 计算AUC 66
38 选择超参数 68
39 给出推荐71
310 本章小结 72
第4 章 使用决策树和决策森林进行预测 75
41 决策树和决策森林 76
42 准备数据79
43 第一颗决策树 84
44 决策树超参数 92
45 调试决策树 94
46 重温分类特征 98
47 随机森林102
48 进行预测105
49 本章小结105
第5 章 异常检测与K-means 聚类算法 107
51 K-means 聚类 108
52 识别异常网络流量 109
53 初次尝试聚类 112
54 选择K 值 114
55 利用SparkR 实现可视化 118
56 特征归一化 123
57 分类变量124
58 使用熵(Entropy)标签 126
59 聚类实战128
510 本章小结 130
第6 章 通过LDA、Spark NLP 了解维基百科 133
61 隐含狄利克雷分布 134
62 获取数据135
63 Spark NLP 137
64 解析数据139
65 使用Spark NLP 准备数据 141
66 TF-IDF 146
67 计算TF-IDF 147
68 创建LDA 模型 148
69 本章小结151
第7 章 基于出租车行程数据的时空序列数据分析 153
71 数据准备155
711 将日期格式字符串转换为时间戳 157
712 处理无效记录 159
72 地理空间分析 161
721 介绍GeoJSON 161
722 GeoPandas 163
73 PySpark 会话化 166
74 本章小结170
第8 章 金融风险评估 171
81 金融术语172
82 VaR 的计算方法 173
821 方差与协方差 173
822 历史模拟法 173
823 蒙特卡罗模拟 174
83 我们的模型 174
84 获取数据175
85 准备数据177
86 决定因子权重 180
87 抽样 184
88 试验运行187
89 可视化收益分布 191
810 本章小结 192
第9 章 分析基因组学数据和BDG 项目 193
91 从建模中解耦存储 194
92 设置ADAM 197
93 介绍如何使用ADAM 处理基因组数据 198
931 使用ADAM CLI 进行文件格式转换 199
932 使用PySpark 和ADAM 采集基因组学数据 200
94 预测转录因子结合位点 206
95 本章小结212
第10 章 基于深入学习和PySpark LSH 的图像相似度
检测 215
101 PyTorch 216
102 准备数据 217
103 图像矢量表示的深度学习模型 219
1031 图像嵌入 219
1032 将图像嵌入导入 PySpark 222
104 使用PySpark LSH 进行图像相似搜索 223
105 本章小结 228
第11 章 使用MLflow 管理机器学习生命周期 229
111 机器学习生命周期 229
112 MLflow 231
113 实验跟踪 232
114 管理和服务ML 模型 236
115 创建并使用MLflow 项目 239
116 本章小结 243