大数据Hive离线计算开发实战
作者简介
杨力,原北大青鸟学术部经理兼教学总监,中信国安创客霸王课特聘高级讲师,现任北京兄弟连IT教育大数据专家级讲师,一直从事大数据方向,是大数据领域专家,资深顾问,致力于大数据技术的推广与普及,拥有Apache Hadoop、Oracle OCM等多项产品的技术认证证书。曾创立国内首家大数据校企合作大数据实验室平台,现已推广至全国高校,助力高校大数据学科的建设和研究,对国内大中型企业的信息系统设计与实施有丰富的实践经验。曾在一线任职新奥集团大数据平台首席架构师,京东万象大数据平台缔造人之一,二六三网络通信反垃圾邮件系统数据平台项目经理、中信银行网银数据平台技术经理等要职。
内容简介
1.项目经典:深度剖析三大企业级项目实战案例——电商推荐系统、汽车销售数据分析系统、微博数据分析系统,帮助读者进一步提高自己; 2.详细介绍HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大数据工具。 进入21世纪,我们迎来了数据爆炸式增长的时代,人们计量数据的单位由GB进入到了TB、PB、EB、ZB……举个简单的例子,十年前或者五年前我们购买移动硬盘,它的存储容量为80GB至500GB;现在我们购买移动硬盘,它的存储容量为1TB至2TB。因此,在数据爆炸式增长的同时,我们也迎来了大数据的时代。所谓大数据,简单来讲就是数据体量巨大、数据种类繁多、数据价值密度低、数据处理速度快,大数据是需要新处理模式才能具有更强大决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 在过去很多年,各个企业、单位都积累了大量丰富的数据,并购买服务器来存储这些数据。数据是积累下来了,可是对于持续不断增长的数据,除了需要不断购买服务器,花巨大的硬件成本来存储,我们又能从这些持续不断积累下来的数据中得到什么?如何去挖掘和利用这些数据?这些数据都是历史数据,也叫离线数据,于是一个全新的技术Hive离线计算进入了大众的视野。它提出海量数据可以继续沿用传统的数据分析方法SQL语句来处理,开发人员不需要学习新的脚本语言而继续使用熟悉的SQL结构化查询语句来处理大规模的数据。区别是,此时此刻SQL语句不再运行在传统的数据库或者数据仓库中,而是运行在大数据分布式并行计算处理平台上。该数据平台为我们提供了一个工具,那就是Hive离线计算处理工具,所用到的语言称之为HiveQL查询语言,其语法结构与传统SQL语言几乎是一模一样的,这就是本书将要介绍的Hive大数据离线计算的相关技术。它能解决不断增长的海量离线数据处理计算问题,帮助企业从数据中获取经验,并得到巨大的潜在商业价值。 本书将带您认识Hive大数据离线计算的基本概念。通过学习本书,您将对Hive大数据离线技术有一个深刻的认识,并且掌握大数据技术中主流的离线计算工具Hive,再通过大数据的离线计算项目案例,让您从Hive大数据离线计算技术的实战应用中得到训练。这也许是您学习大数据离线计算技术的最佳入门途径之一。