
出版社: 科学
原售价: 68.00
折扣价: 53.80
折扣购买: 大数据商务分析(新商科创新教材)/商务分析系列
ISBN: 9787030645791
第1章 大数据商务分析概论
1.1 什么是大数据
信息社会带来的好处是显而易见的,每个人口袋里都揣有一部手机,每个办公桌上都放着一台计算机,每间办公室内都可连接到局域网或互联网。半个世纪以来,随着计算机技术全面和深度地融入社会生活,信息爆炸已经累积到了一个开始引发变革的程度。在信息高速发展的今天,大数据充斥了普通人生活的方方面面,正如麦肯锡所说:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化—量变引起了质变。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念,如今,这个概念几乎已被应用到人类致力于发展的各个领域中。
1.1.1 大数据的产生
人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了三个阶段(孟小峰,2017),而正是数据产生方式发生了巨大变化,最终导致大数据的产生。
1)运营式系统阶段
数据库的出现使数据管理的复杂度大大降低,实际情况中数据库大多被运营系统所采用,作为运营系统的数据管理子系统。例如,超市的销售记录系统、银行的交易记录系统、医院患者的医疗记录等。人类社会数据量**次大的飞跃正是从运营式系统广泛使用数据库开始的。这个阶段最主要的特点是数据往往伴随着一定的运营活动而产生并记录在数据库中,如超市每销售出一件产品就会在数据库中产生相应的一条销售记录。这种数据的产生方式是被动的。
2)用户原创内容阶段
互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于 Web 2.0时代,而Web 2.0最重要的标志就是用户生成内容(user generated content,UGC)。这类数据近几年一直呈现爆炸式的增长,主要有以下两方面的原因。
(1)以博客、微博、微信为代表的新型社交网络的出现和快速发展,使用户产生数据的意愿更加强烈。
(2)以智能手机、平板电脑为代表的新型移动设备出现后,这些易携带、全天候接入网络的移动设备使人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。
3)感知式系统阶段
人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。正如 Google的首席经济学家 Hal Varian所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。
1.1.2 大数据的概念
“大数据”这个术语最早期的引用可追溯到 Apache的开源项目Nutch。当时,大数据描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。早在1980年,著名未来学家阿尔文 托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。随着谷歌MapReduce和GoogleFileSystem(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。
对于“大数据”,研究机构 Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究院对大数据的定义为“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征”。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现赢利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临,大数据也吸引了越来越多的关注。著云台的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百甚至数千的计算机分配工作。大数据需要特殊的技术,以有效地处理常规技术无法在可容忍时间内处理的海量数据。适用于大数据的技术,包括大规模并行处理(massively parallel processing,MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的数据基本单位是bit,按顺序给出所有单位:bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算,如图1.1所示。
图1.1 数据单位之间的换算关系
1.1.3 大数据的4V特性
在谈到大数据的特性时,常见的说法是3个V:大数据量(volume)、快速的产生速度(velocity)和多样的数据类型(variety)。以上定义和解释强调数据规模和复杂度的改变对相关数据技术的挑战和对技术发展的推动,但是这没有体现出大数据的巨大价值。以互联网数据中心为代表的业界则认为大数据具备4V特性,即在3V的基础上增加价值型(value),表示大数据虽然价值总量高但其价值密度低。目前,大家公认的是大数据有四个基本特性:数据规模大、数据种类多、处理速度快及数据价值密度低,即所谓的4V特性,如图1.2所示。
图1.2 大数据的4V特性
1)数据规模大
数据规模大是大数据的基本属性,随着互联网技术的广泛应用,互联网用户急剧增多,数据的获取、分享变得相当容易。互联网用户的分享、点击、浏览都可以快速地产生大量数据,同时也可以通过网络快速地获取环境数据、财务数据、医疗数据、监控数据等。用现有技术无法管理的数据量,从现状来看,基本上是从几十TB到几PB这样的数量级。当然,随着技术的进步,这个值也会不断变化,也许5年以后,只有EB级别的数据量才能够称得上是大数据了。
2)数据种类多
随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂。除了传统的销售、库存等数据外,现在企业所采集和分析的数据还包括像网站日志数据,呼叫中心通话记录,微博、Twitter和Facebook等社交媒体中的文本数据,智能手机中内置的全球定位系统(global positioning system,GPS)所产生的位置信息,时刻生成的传感器数据等。数据类型不仅包括传统的关系数据类型,也包括结构化、半结构化和非结构化的信息,例如,以网页、文档、E-mail、视频、音频等形式存在的数据。
例如,美国高级文具制造商万宝龙(Montblanc)过去凭经验和直觉来决定商品的陈列布局,现在尝试利用监控摄像机对顾客在店内的行为进行分析。通过分析监控摄像机的数据,将最想卖出去的商品移动到最容易吸引顾客目光的位置,使销售额提高了20%。
3)处理速度快
数据产生和更新的频率也是衡量大数据的一个重要特征。就像我们收集和存储的数据量和种类发生了变化一样,生成和需要处理数据的速度也在变化。不要将速度的概念限定为与数据存储相关的增长速率,应动态地将此定义应用到数据中,即数据流动的速度。1秒定律,这是大数据与传统数据挖掘相区别的显著特征。例如,全国用户每天产生和更新的微博、微信和股票信息等数据,随时都在传输,这就要求处理数据的速度必须要快。
例如,遍布全国的便利店在24小时内产生的销售终端(point of sale,POS)机数据、电商网站中由用户访问所产生的网站点击流数据、高峰时达到每秒近万条的微信短文、全国公路上安装的交通堵塞探测传感器和路面状况传感器(可测结冰、积雪等路面状态)等,每天都在产生着庞大的数据。
4)数据价值密度低
数据量在呈几何级数增长的同时,这些海量数据背后隐藏的有用信息却没有呈现出相应比例的增长,反而是获取有用信息的难度不断加大。例如,现在很多地方安装的监控使相关部门可以获得连续的监控视频信息,这些视频信息产生了大量数据,但是有用的数据可能仅有一两秒钟。如果用石油行业来类比大数据分析,那么在互联网金融领域甚至整个互联网行业中,最重要的并不是如何炼油(分析数据),而是如何获得优质原油(优质元数据)。因此,大数据的4V特性不仅表达了数据规模大,而且在对大数据的分析上也将更加复杂,更看重速度和时效。
案例1.1
世界上量化最极致的人——了解再破解①
美国男子克里斯 丹西,家住丹佛,最近有一个“疯狂的举动”,就是他时时刻刻戴着一系列可穿戴技术产品,包括Pebble智能手表、谷歌眼镜、BodyMedia运动臂带和Blue心率监控器等设备,记录自己的饮食内容、睡眠、运动、电子邮件使用、健康数据、旅行计划和照片等数据。从谷歌眼镜到智能手表,从运动臂带到心率监控器,丹西连接着大约700个传感器,随时随地了解自己的一举一动和情绪起伏,从而调控身心达到更佳状态。
他还在家中安装了多种传感设备,监控家中的声音、空气质量、温度和湿度,还有智能照明系统、能记录睡眠状况的智能床套等。不仅如此,他还给两条宠物犬戴上GPS宠物定位器,由此了解宠物犬的日常活动情况。借助这些装备和软件,丹西把自己的身体状况、情绪波动量化成一个个数字。英国《每日邮报》戏称他为世界上“量化最极致的人”。
(1)身与心的黑客。
丹西从5年前开始这种严格的自我监控。谈及缘由,他说:“我发现自己把很多信息放在网络上,如果某项服务突然终止,我就会丢失很多相关信息。因此,我决心收集我创造的东西,并且实现数字化。过去5年间,我每周创造出两三个系统。”
“如今,我知道什么该喝,什么该吃,什么时候该睡觉,什么时候该起床等诸如此类非常简单的事情,当碰触某样东西时,我希望确定,可以借助它来获取信息,而且这些信息有迹可循,便于查询,确实可见,还能与人分享,”丹西说,“这是身与心的黑客,就像我们侵入计算机和各种类型的数据,你的身体和心灵是人类已知最庞大的信息系统,
了解它才能破解它。”
(2)“疯狂”的监控。
一些人获悉丹西的方法后表示感兴趣,不过没有人效仿。丹西对此颇感惊讶:“大概两年半前,很多人告诉我,他们想或者正准备这么做,可是一直没有人真正付诸实践。我不知道障碍在哪里,对我而言,非常简单。”他猜测,原因可能在于那些人并不了解这些信息的价值,或者难以迈出**步。当然,丹西的目的并非局限于收集各项数据,他还根据记录的饮食和锻炼情况不断鞭策自己改变生活习惯,成功减重45kg。
不少企业也对丹西的自我监控系统感兴趣,希望他协助开发智能产品,包括智能帽、智能内