
出版社: 科学
原售价: 68.00
折扣价: 53.80
折扣购买: 数据可视化原理与应用(数据工程师系列精品教材)
ISBN: 9787030688293
第1章 数据及可视化基础
起源于人类活动的大数据最终要服务于人类,大数据在信息空间中无处不在。从时空地理数据,到日常生活中的文本数据,以及社会媒体中的在线社交数据,都是数据的存在形式,而如何对海量的数据进行分析,首先需要理解数据的本质,再借助带有机器智能的计算机按照数据处理流程进行基本的数据分析。通过计算机等硬件设施对数据进行获取、存储、传输和分析,在这一过程中,需要一种信息交流的通道,实现人眼的感知能力与智能设备的交互,而可视化就可以通过将数据映射为符号、颜色、纹理、图片等,高效传递有用的信息。海量数据与可视化技术的结合,能够相得益彰,按照数据可视化的流程进行,使用数据可视化工具,最终将大数据分析和挖掘的结果通过形象化和可读性强的图形表示,达到快速高效理解的目的。
本章介绍数据及可视化基础,对本章概念和定义的学习,可以为后续章节的学习奠定基础。通过学习数据及可视化基础,可以对时空、地理数据,文本数据,社交数据等不同类型的数据,按照可视化流程,使用不同的可视化工具进行分析处理,可视化展示数据背后的信息。
1.1 什么是大数据
迅速增长的数据量为各组织提供了新的挖掘素材,大数据的本质是信息资产。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和程序优化能力的海量、高增长率和多样化的信息资产[1]。其具有数量体积巨大、数据类型繁多、价值密度低、处理速度快等特点。本节主要就大数据的定义、特征和类型进行阐述。
1.1.1 大数据的定义
大数据[2](big data),又称巨量资料,是指所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内撷取、管理、处理并整理成为帮助企业经营决策更积极的资讯。丽莎 亚瑟(Lisa Arthur)在《大数据营销:如何让营销更具吸引力》一书中将大数据定义成纷繁杂乱的互动的应用程序、信息和流程,把大数据比喻为数据“毛球”。大数据一词自2008年被提出至今,很多领域以及企业均在投入大量精力对它进行研究并有效利用。下面从三个角度定义大数据。
1. 技术分析角度
技术分析角度重点关注的是对海量、复杂数据进行分析处理,从而获得信息和知识的技术手段。其中较为权威的观点来自麦肯锡全球研究院(Mckinsey Global Institute, MGI)发表的《大数据:下一个创新、竞争和生产力的前沿》,该报告提出:大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。从表1-1中可以看到大数据的技术分析角度的解释。
表1-1 研究者从技术分析角度对大数据的解释
综合来看,可以给大数据下如下两个定义:
(1) 大数据是一种难以处理的大规模数据集;
(2) 大数据需要特定的技术才能完成其采集、分析、应用等。
2. 大数据应用价值角度
大数据应用价值角度强调大数据应用[3],侧重于能够从海量数据中获得信息和知识的价值,最终目的是增加商业方面的竞争优势。
高德纳咨询公司(Gartner Group)曾提出:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。从表1-2中可以看到大数据的应用价值角度的解释。
表1-2 研究者从应用价值角度对大数据的解释
3. 大数据对社会发展影响角度
大数据对社会发展影响角度强调大数据产生的影响,主要是对社会生产方式、人类生活方式和思维范式的影响等。
数据科学家维克托 迈尔-舍恩伯格(Viktor Mayer-Sch?nberger)和肯尼思 库克耶(Kenneth Cukier)在《大数据时代:生活、工作与思维的大变革》中提出:大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织结构,以及政府与公民关系的方法。哈佛大学定量社会研究中心主任盖瑞 金(Gary King)在“Why Big Data Is a Big Deal”的演讲中指出:大数据技术完全是一场数据革命(big data revolution),这场革命给政府管理、学术及商业带来了很多颠覆式变革。他认为大数据技术将涉及人类研究的各个领域,而大数据也终将带来一场变革,包括信息生产力和信息生产关系。
1.1.2 大数据的特征
大数据特征最早的提出者是麦塔集团(META Group,现为高德纳咨询公司)分析师道格 莱尼(C. Doug Laney),他在研究报告《3D数据管理:控制数据数量、速度及种类》中指出,数据激增的挑战和机遇是三维的,不仅仅在通常所说的数据容量大(volume)层面,还包括数据处理速度快(velocity)以及数据种类多(variety)。
此后,研究者纷纷从特征角度去分析和理解大数据,并对这种“3V”的观点加以丰富。其中,国际数据公司的观点最为权威,也得到了研究者的广泛认同,该公司在《从混沌中提取价值》中提出大数据的“4V”特征,即数据容量大、数据种类多、处理速度快、商业价值高(value),如图1-1所示。
图1-1 大数据的特征
在“4V”的基础上,结合表1-3研究者对大数据特性的理解,概括大数据的特征为以下六方面:
(1) 规模性。规模性也称为数据体量巨大。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十太字节到数皮字节(PB)不等,数据量急剧增长。
(2) 多样性。多样性是指数据类型多样:从生成类型上可以分为交易数据、交互数据、传感数据;从数据来源上可以分为社交媒体、传感器数据、系统数据;从数据格式上可以分为文本、图片、音频、视频、光谱等;从数据关系上可以分为结构化数据、半结构化数据、非结构化数据;从数据所有者可以分为公司数据、政府数据、社会数据等。
(3) 高速性。高速性是指数据的增长速度快,以及要求数据访问、处理、交付等的速度快。由于数据创建的实时性,数据创建、处理、传输、分析的速度都随之加快,数据产生、获取、存储和分析的速度都已远远超过传统系统,数据的时效性更强,随之产生更大的价值。
(4) 价值性。价值性是指大数据价值巨大。大数据能够通过规模效应将低价值密度的数据整合为高价值、作用巨大的信息资产。例如,假如美国社交网站Facebook有10亿用户,那么网站对这些用户信息进行分析后,广告商可根据分析结果精准投放广告。对于广告商,10亿用户的数据价值上千亿美元。资料报道,2012年,运用大数据的世界贸易额已达60亿美元。
(5) 易变性。易变性是指大数据具有多层结构。弗雷斯特研究公司(Forrester Research)分析师布赖恩 霍普金(Brian Hopkins)和鲍里斯 埃韦尔松(Boris Evelson)指出:大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,因此很难甚至无法使用传统的应用软件进行分析。
(6) 准确性。准确性也就是真实性,包括可信性、真伪性、来源和信誉的有效性、可审计性等子特征。一方面,对于网络环境下如此大量的数据需要采取措施确保其真实性、客观性,这是大数据技术与业务发展的迫切需求;另一方面,通过大数据分析,真实地还原和预测事物的本来面目也是大数据未来的发展趋势。
表1-3 研究者对“大数据”特性的理解
1.1.3 大数据的类型
大数据大致可以分为如下三类。
1. 传统企业数据
传统企业数据(traditional enterprise data)包括传统供应链上的企业资源计划数据、客户关系系统的消费者数据、批发和销售公司的库存数据以及账目数据等。
2. 机器和传感器数据
机器和传感器数据(machine-generated/sensor data)包括呼叫记录、智能仪表上的数据、工业设备传感器中的数据、设备日志、交易数据等。图1-2是2011~2019年天猫“双十一”交易数据。
图1-2 2011~2019年天猫“双十一”交易数据
3. 社交数据
社交数据(social data)包括用户行为记录、反馈数据等,如Twitter、Facebook等社交平台数据。Facebook用户每天共享的数据信息超过40亿条,Twitter每天处理的数据量超过3.4亿条。图1-3是2018年微博用户发布数据,可以看出微博作为社交媒体,是用户表达的常用方式。
图1-3 微博用户发布数据
1.2 什么是可视化
如今,大数据和人工智能已经成为热门话题,存在于各行各业。海量的数据以及复杂的数据关系为数据分析带来了挑战,如何将海量枯燥的数据通过技术转化为人眼可识别的图形,并且挖掘其背后蕴含的信息成为重要研究方向。而可视化就是其中重要的组成,通过可视化,数据可以以可视化图形方式展示,更直观地帮助人们理解数据隐藏的信息。本节就可视化概念、可视化技术以及可视化的意义对可视化展开阐述。
1.2.1 可视化的概念
“可视化”一词源于英文“visualization”[4],译为“形象化”、“成就展现”等。用形象化的方式将现实中存在的抽象事物、过程转化为图形就是可视化。图1-4是社会网络可视化,将社会网络中的“人”形象地比喻为各个“节点。
图1-4 社会网络可视化
用可视化展示信息的方式可以追溯到几千年前,从古人在洞穴里绘制的图形,到人们日常使用的地图、科学制图等,都是可视化的。可视化可以概括为:将数据、信息和知识转化为形象化的视觉表达的过程,在此过程中,可以充分利用人眼的快速识别能力,用形象化的表达帮助人们进行数据解读。
数据:对客观事物的符号表示,如图形符号、数字、字母等。它能对一个事实进行陈述,但是它是离散的,缺乏关联性和目的性。信息:物质运动规律的总和,是赋予了意义的数据,是数据在信息媒介上的映射。知识:又称复合知识,是最为复杂的数据矩阵,是以上几种数据形态的综合。
1.2.2 可视化技术
可视化技术最早用于科学计算,按照应用范围可以分为科学可视化和信息可视化。当前更多的研究集中于信息可视化,以大型数据库、网络资源等信息集合作为研究对象,可视化以认知心理学和计算机图形学为基础,认知心理学解释了人类认识和感知世界的方式,提供可视化的理论指导,计算机图形学为可视化提供了形象化、艺术性的表现方法,可以作为可视化实现的工具。
可视化技术主要包括以下几个方面。
1. 科学计算可视化技术
科学计算可视化技术[5]主要是针对计算或者实验产生的数据,将其进行可视化的方法
可作为高等院校与数据可视化相关专业课程的教科书,特别是能满足数据工程专业需求,同时也可以为其他专业所用,各行各业的在职人士