电力大数据应用工程技术原理与案例分析

电力大数据应用工程技术原理与案例分析
作者: 陈文康
出版社: 清华大学
原售价: 69.00
折扣价: 49.10
折扣购买: 电力大数据应用工程技术原理与案例分析
ISBN: 9787302520559

作者简介

内容简介

3.1 大数据应用工程技术基础知识 本节主要介绍大数据的全新分布式计算理论、大数据与电力业务融合实现能源转换、 大数据技术创新发展**能源互联网。 3.1.1 大数据的全新分布式计算理论 2003年到2004年间,Goo**e发表了MapReduce、GFS(Goo**e File System)和BigTa**e 三篇技术论文,提出了一套全新的分布式计算理论。 MapReduce是分布式计算框架,GFS(Goo**e File System)是分布式文件系统, BigTa**e是基于Goo**e File System的数据存储系统,这三大组件组成了Goo**e的分布式计 算模型。 Goo**e的分布式计算模型相比于传统的分布式计算模型有三大优势。首先,它简化了 传统的分布式计算理论,降低了技术实现的难度,可以进行实际的应用。其次,它可以应 用在廉价的计算设备上,只需增加计算设备的数量,就可以提升整体的计算能力,应用成 本十分低廉。*后,它被Goo**e应用在Goo**e的计算中心,取得了很好的效果,有了实际 应用的证明。 后来,各家互联网公司开始利用Goo**e的分布式计算模型搭建自己的分布式计算系 统,Goo**e的这三篇论文也就成为大数据时代的技术核心。 主流的三大分布式计算系统为Hadoop、Spark和Storm。 由于Goo**e没有开源Goo**e分布式计算模型的技术实现,所以其他互联网公司只能根 据Goo**e三篇技术论文中的相关原理,搭建自己的分布式计算系统。 Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统 Hadoop。后来,Hadoop被贡献给了Apache基金会,成为Apache基金会的开源项目。Doug Cutting也成为Apache基金会的**,主持Hadoop的开发工作。 Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统, 根据BigTa**e开发了HBase数据存储系统。尽管和Goo**e内部使用的分布式计算系统原理 相同,但是Hadoop在运算速度上依然达不到Goo**e论文中的标准。 不过,Hadoop的开源特性使其成为分布式计算系统的事实上的**标准。Yahoo 、 Facebook、***以及**的百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建 自己的分布式计算系统。 Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另 外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与 Hadoop *大的不同点在于,Hadoop 使用硬盘来存储数据,而Spark 使用内存来存储数据, 因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据, Spark不能用于处理需要长期保存的数据。 Storm是Twitter 主推的分布式计算系统,它由BackType 团队开发,是Apache基金会的 孵化项目。它在Hadoop 的基础上提供了实时运算的特性,可以实时处理大数据流。不同 于Hadoop 和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时接*数据并 且实时处理数据,然后直接通过网络实时传回结果。 Hadoop 、Spark 和Storm 是目前*重要的三大分布式计算系统,Hadoop 常用于离线的复 杂的大数据处理,Spark 常用于离线的快速的大数据处理,而Storm 常用于在线的实时的大 数据处理。 本书基于**电网有限公司系统SG186和SG-ERP等重大信息化工程的设计、项目建设及组织应用全过程,总结了多项重大信息化项目的经验,运用了信息化与大数据应用技术的理论,力求反映电力信息化与大数据应用工程技术的*新成果。