
出版社: 清华大学
原售价: 39.00
折扣价: 31.59
折扣购买: 大数据应用分析技术与方法
ISBN: 9787302487074
无
第1章大数据是信息社会的宝贵资源第1章大数据是信息社会的宝贵资源〖4/5〗1.1大数据产生的背景和概念大数据是随着信息数据快速增长和网络计算技术迅猛发展而兴起的一个新概念。大数据通过对海量数据的收集、处理和展示,揭示规律,预测未来。大数据能够帮助企业从海量数据中挖掘用户的需求,从而使数据真正产生价值。随着大数据的发展,其应用已经渗透到农业、工业、商业、服务业和医疗领域等各个方面。 随着计算机信息技术的发展和网络的普及,以博客、社交网络、基于位置的服务为代表的新型信息发布方式的不断涌现,以及云计算、物联网、移动互联网等技术的兴起和普及,数据正以前所未有的速度在不断地增长和累积,特别是进入DT(数据技术)时代,在线数据存储和计算量以及人类在日常学习、生活、工作中产生的数据量正以指数形式增长,呈现“爆炸”状态。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB(1024GB=1TB,1024TB=1PB,1024PB=1EB,1024EB=1ZB),2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人每年产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB。2014年,全球产生的数据量估计已经达到了3.6ZB。 全球信息数据量的飞速膨胀成为大数据产业存在并发展的基础。国际数据公司(IDC)预计,未来全球数据总量增长率将维持在50%左右,到2020年全球数据总量将达到40ZB,其中,我国将达到8.6ZB,占全球的21%。中国信息产业研究院的数据显示,2014年我国大数据市场规模约为116亿元,同比增长38%。预计未来几年,随着应用效果的逐步显现,我国大数据市场规模还将维持40%左右的高速增长。 除了迅速增长的数据洪流,数据的结构越来越趋于复杂化,除了传统数据库中的数据,还有文档、网页、图像、音频和视频等,而且后者所占的比例也越来越大。这些数据的量变到底有多大呢?2014年产生了大约5ZB(Zettabyte)字节的非结构化数据,到2020年预计将增加到大约40ZB字节的非结构化数据。如图11所示为非结构化数据2005—2020年的实际和预期增长对比,该图片引自Evangelos Simoudis的“认知应用: 大数据的下个转折点”一文。 图11非结构化数据2005—2020年的实际和预期增长对比 这些数量巨大、种类繁多、结构复杂的数据早已远远超越了传统技术所能处理的范畴,如何合理、高效、充分地管理和使用这些数据,使之能够给人们的生活和工作带来更大的效益和价值,逐渐成为人们的共识,在这种背景下,大数据应运而生。 什么是大数据呢?大数据一词源于英文的“Big Data”,以前也有类似的词语,如“海量数据”“信息爆炸”等,但似乎都很难准确描述这个词的具体内涵。目前国内外对大数据没有一个统一的定义,国内外政府机构、企业和专家从不同角度给出了大数据的定义。维基百科对大数据的定义是“大数据是数据规模巨大,通过目前主流软件工具无法在合理时间内捕获、管理、处理并整理成为帮助经营决策的数据集”;美国国家标准和技术研究院(NIST)则认为“大数据是指由于数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力,需要使用扩展的机制以提高数据处理效率的技术”;著名的管理咨询公司麦肯锡公司的研究报告中将大数据定义为 “超过了传统数据库软件工具捕获、存储、管理和分析能力的数据集”;国际数据公司(IDC)是研究大数据及其影响的先驱, 在其2011 年的报告中指出“大数据技术描述了一个技术和体系的新时代, 被设计用于从大规模、多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。著名的大数据专家维克托·迈尔—舍恩伯格在其经典著作《大数据时代》中,指出大数据“是当今社会所独有的一种新型能力,以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。” 大数据中的海量数据有三个主要来源,首先是海量交易数据。随着信息技术的广泛应用,越来越多的企业和机构比以往任何时候都依赖信息系统,如超市的销售记录系统、火车售票系统、银行的交易记录系统、医院病人的医疗记录等,由此产生了大量的交易数据。其次是海量的网络信息。互联网的诞生促使人类社会数据量出现一次巨大的飞跃,但是真正的数据爆发产生于移动互联网时代特别是社交媒体的兴起,这类数据近几年一直呈现爆炸性的增长,涵盖了海量的聊天记录、Web网页、电子邮件、图片、视频、音频等。最后是海量的感知数据。物联网(The Internet of Things)是新一代信息技术的重要组成部分,通过传感器和网络技术实现了物与物、人与物、人与人之间的互联。物联网时代,除了智能手机、平板电脑等常见的客户终端之外,更多更先进的传感设备和智能设备,如智能手表、智能眼镜、智能汽车、智能电视、工业设备和手持设备等都将接入网络,由此产生的海量感知数据量及其增长速度比以往任何时期都要多。 近几年,大数据迅速成为科技界和企业界甚至世界各国政府关注的热点,发展的势头不可阻挡。著名的科技旗舰杂志《自然》和《科学》等相继出版专刊,分别从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面专门探讨大数据带来的机遇和挑战。2011年5月麦肯锡公司在美国拉斯维加斯举办的第11届 EMC World年度大会上称: “数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”美国政府认为大数据是“未来的新石油”,并于2012年3月29日发布了“大数据研究发展倡议”,正式启动“大数据发展计划”。 我国十分重视大数据的发展。2012年8月,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,2013年,科技部正式启动863项目“面向大数据的先进存储结构及关键技术”,这些科研项目的任务之一就是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统。国务院于2014年8月发布了《国务院关于加快发展大数据、呼叫中心等生产性服务业的指导意见》,从国家层面推动大数据的建设和发展;2015年7月,国务院办公厅印发了《关于运用大数据加强对市场主体服务和监管的若干意见》,要求在政府层面推动大数据的应用; 2015年9月国务院颁布了《国务院关于印发促进大数据发展行动纲要》,提出“全面推进我国大数据发展和应用,加快建设数据强国”的方针政策,这标志着大数据建设和应用已经上升为国家发展的长期战略。 1.2大数据的特征 目前大数据尚未具有统一的描述,不同的定义基本上都是从大数据的特征出发,通过大数据特征的阐述和归纳试图给出其定义。大家都普遍认同大数据具有4个基本特征,分别是容量大(Volume)、种类多(Variety)、高速度(Velocity)和价值密度低(Value),由于这四个特征的英文单词都是以英文字母“V”开头,所以又将其称为大数据的“4V特征”。 容量大是指大数据的数据量非常巨大。例如,互联网搜索的巨头谷歌现在能够处理的网页数量是在千亿以上,每月处理的数据量超过400PB(400×1015B),并且呈继续高速增长的趋势;百度目前数据总量接近1 000PB(1 000×1015B),存储网页数量接近1万亿,每天大约要处理60亿次搜索请求。 种类多是指大数据的数据种类繁多,结构复杂。在大数据时代,数据来源并非仅仅是计算机产生的信息或者人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、振动、温度、湿度乃至空气中化学物质的变化等,也产生了海量的数据信息。这些数据既包含传统关系数据库中保存的结构化数据,也包含图像、声音和视频等非结构化数据以及HTML网页和XML文档等半结构化数据,而且非结构化数据和半结构化数据所占的比例呈现越来越大的趋势。 高速度是指大数据能够更快地满足实时性的需求。目前,对于数据智能化和实时性的要求越来越高,比如开车时会随时通过智能导航仪查询最佳路线,在餐厅吃饭时会查询其他用户对餐厅的评价和推荐的菜肴,见到有趣的事情或可口的食物会拍照发微博等诸如此类的人与人、人与机器之间的信息交流互动,这些都不可避免地带来数据交换,而数据交换的关键是降低延迟,以近乎实时的方式完成数据交换的任务。 价值密度低是大数据特征里最关键的一点。数据量大并不意味着数据价值的增加,大数据时代数据的价值就像沙里淘金,其应用价值(金子)是隐藏在沙子之中的,数据量越大,里面真正有价值的东西所占的比例就会越少。大数据面临的一个挑战就是从这些TB、PB、EB级的海量数据中,提取有价值的信息,将信息转化为知识,发现规律,最终用知识促成正确的决策和行动。 另外,随着人们对大数据的研究不断深入,有的企业(如IBM公司)认为大数据还应具有第五个特征,即真实性(Veracity),通俗地讲,它是指大数据中数据来源广泛、种类繁多,这些数据具有不可靠或不精确的可能性。当我们试图获得大规模的数据时,必须能够控制这些不可靠或不精确带来的影响,使这些海量数据能够被用来更好地解释和预测客观世界。 《大数据应用分析技术与方法》一书是适应越来越多的与数据分析有关的人员,迫切需要从大数据中挖掘有用的信息,提升工作水平和工作效率的需求而推出的,着力突出实用性、可操作性和指导性。