
出版社: 中国人民大学
原售价: 49.00
折扣价: 36.80
折扣购买: Power BI 大数据财务报表智能可视化分析
ISBN: 9787300324814
陈亮,深圳信息职业技术学院财经学院大数据与会计专业副教授、高级互联网金融师、1+X财务服务共享高级证书获得者,在《金融经济学研究》《财贸研究》等核心期刊发表学术论文30余篇,出版学术专著2部,参加2021年广东省高等职业院校教师教学能力大赛获得一等奖,指导学生参加2021年广东省税务技能比赛获得一等奖,指导学生参加广东省数学建模大赛获得本科组三等奖。张立军,深圳信息职业技术学院财经学院院长,公开出版《大数据财务分析》等教材多部,指导学生获得技能大赛一等奖多项,主持参与各类教科研项目多项,公开发表学术论文数篇。刘顺姬,深圳信息职业技术学院财经学院大数据与会计专业讲师,深圳信息职业技术学院“卓越双师”校级培养对象,带学生技能比赛获得省一等奖多项,参与多项教科研项目。
一、 大数据的定义
“大智移云”的时代背景下,我们对大数据的认知并不陌生,但是当我们要对大数据给出一个比较科学的解释却并不容易,这是因为大数据本身就是一个比较抽象的概念,单从字面理解,就是在数据规模上,大数据比传统数据要更加庞大,但是多庞大才是大数据呢? 并没有给出一个科学的标准。因此,仅从数量上认知大数据是不全面的,也无法将它与传统的海量数据、超大规模数据等概念区分开。针对大数据的定义,目前国际上主要从两个方面进行论述:一方面是从技术维度,主要从大数据的采集、存储和应用过程进行分析;另一方面是从价值维度,主要从大数据的潜在价值和被挖掘的可能性进行分析。大数据技术是指利用非常规软、硬件工具对大量复杂数据进行处理,以获得分析预测结果的数据处理技术。大数据通常包括数据采集、存储、分析和应用等相关技术。
全球知名的管理咨询公司麦肯锡 (McKinsey)认为:“大数据是一种数据聚合,其数据容量超过了传统数据技术获取、存储、处理和应用的能力”。这个定义整体给人感觉是主观性较强。它只定义了一个多大的数据容量才能被称为是大数据。也许现在我们可以将容量超过某一特定TB的数据集称为大数据。但随着科学技术的发展,大数据的标准也将发生变化,只会越来越大。
全球最具权威的IT研究与顾问咨询公司高德纳 (Gartner)认为: “大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产”。它定义了大数据是超出正常处理范围和大小,用户不得不采用非传统方法来处理这些数据集。
全球知名的信息存储科技公司易安信 (EMC))认为:“大数据可以看作是一个描述性的术语,它可以用来描述结构复杂且呈指数增长的数据集。这种数据群不能被关系数据库分析和处理。它代表了各种数据 (其中大多数是非结构化的)的永无止境的累积。因此,无论是TB数量级还是PB数量级,即使数据的准确量更多,也不如最终的数据使用结果重要。易安信对大数据的定义强调数据的价值,也就是说,大数据的本质不在于数据的巨大,而在于数据背后隐藏的价值”。
百度百科定义:“大数据或称巨量资料,指的是所涉及的资料数量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”。
维基百科定义:“表面上,大数据指的是大量的数据收集。实际上,从技术角度来看,它是指使用常用的硬件和软件工具获取和分析数据所需的时间超过可接受时间的数据集”。这是一个非常容错的定义,既不限制常用软件的范围,也不提出容错时间的标准。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的 “加工能力”,通过 “加工”实现数据的 “增值”。大数据不仅具有技术的自然属性和社会属性,而且还具有价值属性。自然界的三个要素是物质、能量和信息,数据本身属于一种信息,它是人们在计算机网络和各种电子终端上留下的印记。数据本身是客观存在,具有自然属性。大数据的出现是时代的产物,是社会自动化发展的结果,大数据的发展受到政治、经济、文化等诸多社会因素的制约,具有社会属性。同时,大数据导致的数据安全和隐私泄露问题也引起了广泛关注,大数据本身就承载着价值属性。
二、 大数据的特征
关于大数据的特征,目前业界与学术界普遍认可大数据的特征总结起来就是具有“V”特征:一是准确性 (Veracity)。这是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。这是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据 (而这不同于与传统的数据分析流程),精确性与信噪比 (signal-to-noiseratio)有关。例如,在大数据中发现哪些数据对商业是真正有效的,这在信息理论中是个十分重要的概念。由于并不是所有的数据源都具有相等的可靠性,在这个过程中,大数据的精确性会趋于变化,如何增加可用数据的精确性是大数据的主要挑战。
二是高速度 (Velocity)。大数据是在运动着的,通常处于很高的传输速度之下。它经常被认为是数据流,而数据流通常是很难被归档的 (考虑到有限的网络存储空间,单单高速度就已经是一个巨大的问题)。这就是为什么只能收集到数据其中的某些部分。如果我们有能力收集数据的全部,长时间存储大量数据也会显得非常昂贵,所以周期性的收集数据遗弃一部分数据以节省空间,仅保留数据摘要 (如平均值和方差)。这个问题在未来会显得更为严重,因为越来越多的数据正以越来越快的速度所产生。
三是体量大 (Volume)。大数据由大量数据组成,从几个TB到几个ZB。这些数据可能会分布在许多地方,通常是在一些连入因特网的计算网络中。一般来说,凡是满足大数据的 “V”条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术 (例如 MapReduce)得以迅速崛起。
四是多样性 (Variety)。在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。结构化数据多被发现在传统数据库中,数据的类型被预定义在定长的列字段中。半结构化数据有一些结构特征,但并不总是保持一致使得这种类型难以处理。更富于挑战的是非结构化数据 (例如纯文本文件)毫无结构特征可言。在大数据中,更常见的是半结构化数据,而且这些数据源的数据格式还各不相同。在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。尽管有些网络数据披着大数据的外衣,但并不是每一种数据融合都可以叫做大数据。注意,即使有些数据拥有这种属性中的一种或多种,也不能被归类为大数据,要完全拥有以上种特性才能称得上是大数据。
子任务二 大数据的分析方法与技术分类
一、 大数据的分析方法
大数据发展到今天,我们都知道大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析
普遍存在的方法理论有五个方面:
一是可视化分析 (AnalyticVisualizations)。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
二是数据挖掘算法 (DataMiningAlgorithms)。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法 (可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
三是预测性分析能力 (PredictiveAnalyticCapabilities)。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
四是语义引擎 (SemanticEngines)。大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。
五是数据质量与数据管理 (DataQualityandMasterDataManagement)。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
二、 大数据的技术分类
如今,大数据技术体系纷繁复杂,但其中有诸多技术格外受到关注。随着社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统和分析技术开始不断发展。从年 Hadoop的诞生开始,形成了数据分析技术体系这一热点。伴随着数据量的急剧增长和核心系统对吞吐量以及时效性的要求提升,传统数据库需要向分布式转型,形成了事务处理技术体系这一热点。然而,时代的发展使得单个组织、甚至单个行业的数据都难以满足要求,数据融合的价值更加显现,形成了数据流通技术体系这一热点。按照国际惯例,大数据技术可以分为三类:
第一类,数据分析技术。从数据在信息系统中的生命周期看,数据分析技术生态主要有五个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成 K-V (key-value)、列式、文档、图这
四类NoSQL数据库体系,Redis、HBase、Cassandra、MongoDB、Neoj等数据库是各个领域的领先者。计算处理引擎方面,Spark已经取代 MapReduce成为了大数据平台统一的计算平台,在实时计算领域Flink是SparkStreaming强力的竞争者。在数据查询和分析领域形成了丰富的SQLonHadoop的解决方案,Hive、HAWQ、Impala、Presto、SparkSQL等技术与传统的大规模并行处理 (massivelyparallelprocessor,MPP)数据库竞争激烈,Hive还是这个领域当之无愧的王者。在数据可视化领域,敏捷商业智能 (businessintelligence,BI)分析工具 Tableau、QlikView 通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。相比传统的数据库和 MPP数据库,Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持,但失去了传统数据库对数据精细化的操作,包括压缩、索引、数据的分配裁剪以及对SQL的支持度。经过多年的发展,数据分析的技术体系渐渐在完善自己的不足,也融了很多传统数据库和 MPP数据库的优点,
从技术的演进来看,大数据技术正在发生以下变化:一是更快。Spark已经替代 MapReduce成为了大数据生态的计算框架,以内存计算带来计算性能的大幅提高,尤其是Spark.增加了更多了优化器,计算性能进一步增强。二是流处理的加强。Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图形处理等多种能力,但其本质还是小批的架构,在流处理要求越来越高的现在,SparkStreaming受到Flink激烈的竞争。三是硬件的变化和硬件能力的充分挖掘。大数据技术体系本质是数据管理系统的一种,受到底层硬件和上层应用的影响。当前硬件的芯片的发展从CPU 的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。而存储中大量使用SSD来代替SATA盘,NVRAM 有可能替换 DRAM 成为主存。大数据技术势必需要拥抱这些变化,充分兼容和利用这些硬件的特性。四是SQL的支持。从 Hive诞生起,Hadoop生态就在积极向SQL靠拢,主要从兼容标准SQL语法和性能等角度来不断优化,层出不穷的SQLonHadoop技术参考了很多传统数据库的技术。而 Greenplum 等 MPP数据库技术本身从数据库继承而来,在支持SQL和数据精细化操作方面有很大的优势。五是深度学习的支持。深度学习框架出现后,和大数据的计算平台形成了新的竞争局面,以Spark为首的计算平台开始积极探索如何支持深度学习能力,TensorFlowonSpark等解决方案的出现实现了TensorFlow与Spark的无缝连接,更好地解决了两者数据传递的问题。
第二类,事务处理技术。随着移动互联网的快速发展,智能终端数量呈现爆炸式增长,银行和支付机构传统的柜台式交易模式逐渐被终端直接交易模式替代。以金融场景为例,移动支付以及普惠金融的快速发展,为银行业、支付机构和金融监管机构带来了海量高频的线上小额资金支付行为,生产业务系统面临大规模并发事务处理要求的挑战。传统事务技术模式以集中式数据库的单点架构为主,通过提高单机的性能上限适应业务的扩展。而随着摩尔定律的失效 (底层硬件的变化),单机性能扩展的模式走到了尽头,而据交易规模的急速增长 (上层应用的变化)要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过多年的实践,积累了丰富的分布式架构的经验,Paxos、Raft等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生经过多年发展,当前分布式事务架构正处在快速演进的阶段,综合学术界以及产业界工作成果,目前主要分为三类:一是基于原有单机事务处理关系数据库的分布式架构改造。利用原有单机事务处理数据库的成熟度优势,通过在独立应用层面建立起的数据分片和数据路由的规则,建立起一套复合型的分布式事务处理数据库的架构。二是基于新的分布式事务数据库的工程设计思路的突破。通过全新设计关系数据库的核心存储和计算层,将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中,提供对业务透明和非侵入式的数据管理和操作/处理能力。三是基于新的分布式关系数据模型理论的突破。通过设计全新的分布式关系数据管理模型,从数据组织和管理的核心理论层面,构造出完全不同于传统单机事务数据库的架构,从数据库的数据模型的根源上解决分布式关系数据库的架构。分布式事务数据库进入到各行各业面临诸多挑战,其一是多种技术路线,目前没有统一的定义和认识;其二是除了互联网公司有大规模使用外,其他行业的实践刚刚开始,需求较为模糊,采购、使用、运维的过程缺少可供参考的经验,需要较长时间的摸索;其三缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品,规范市场,促进产品的进步。故应用上述技术进行交易类业务进行服务时,应充分考虑 “可持续发展”、 “透明开放”、 “代价可控”三原则,遵循 “知识传递先行”、“测试评估体系建立”、“实施阶段规划”三步骤,并认识到 “应用过度适配和改造”、 “可用性管理策略不更新”、“外围设施不匹配”三个误区。大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局以及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。
第三类,数据流通技术。数据流通是释放数据价值的关键环节。然而,数据流通也伴随着权属、质量、合规性、安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。为了解决这些问题,大数据从业者从诸多方面进行了探索。目前来看,从技术角度的探索是卓有成效和富有潜力的。从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。数据通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而并非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作,也是
可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分的、定制化的提供安全性服务,使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。