大数据与创新绩效评价

大数据与创新绩效评价
作者: 殷群|责编:王腾飞//沈旭
出版社: 科学
原售价: 129.00
折扣价: 102.00
折扣购买: 大数据与创新绩效评价
ISBN: 9787030697097

作者简介

内容简介

绪论
  大数据时代已经来临。 2012年 1月,达沃斯世界经济论坛报告《大数据大影响》称大数据就像货币和黄金一样,是一种新的经济资产。 2012年 3月,美国联邦政府宣布启动“大数据研究与开发计划”(Big Data Research and Development Initiative),旨在实现以政府为核心的全球数据化运动,提高自身对大数据运用的能力,解决国家科学战略遇到的难题。同年,日本政府制定了“活跃在 ICT领域的日本”的大数据战略,并于 2013年升级为“创建最尖端 IT国家宣言”的新 ICT战略,将大数据战略放在技术创新战略的首要位置。 2014年,英国政府为了促进政府及高等教育等公共领域的大数据应用,在投入八类高新技术的 6亿英镑投资中划拨三成用于大数据技术的研发。中国“十三五”规划纲要明确提出实施“国家大数据战略”,2017年由中国管理科学学会大数据管理专委会、国务院发展研究中心产业互联网课题组和上海新云数据技术有限公司联合组织编写的《大数据应用蓝皮书:中国大数据应用发展报告 No.1(2017)》,清晰分析了大数据的发展状况、存在问题和制约因素,强调要全面促进大数据产业发展,加快数据强国建设。
  中国信息通信研究院发布的《大数据白皮书(2016)》显示,全球各行业均有大量的数据不断产生且数据量高速增长, 2015年全球数据产生量已经达到 8.59ZB(图 0-1),报告中预计 2020年全球数据产生量将达 44ZB,届时中国数据量也预计达到 8060EB,预计占全球数据总量的 18%。与此同时,中国大数据产业的规模也在持续高速增长,中国信息通信研究院结合对大数据相关企业的调研测算发布的《中国大数据发展调查报告(2018年)》(图 0-2)表明, 2017年中国大数据产业总体规模已达 4700亿元,预计 2020年中国大数据产业总体规模将超万亿元。工业和信息化部发布的《大数据产业发展规划(2016—2020年)》指出,中国将大力支持前沿技术创新,加快关键产品研发,通过产学研推进大数据与云计算的深度融合,努力突破核心技术,深化大数据与金融、电信、政务、交通等各个行业的融合应用,培育持久动能、培育竞争优势,提升管理能力。报告中预测到 2020年,中国将基本形成“技术先进、应用繁荣、保障有力”的大数据产业体系。显然,大数据不仅是当前的研究热点,也成了国家和企业提高竞争力、促进科技创新、经济转型的重要载体。
  图 0-1 2011~2020年全球数据产生量
  数据来源:中国信息通信研究院
  图0-2 2015~2020年中国大数据产业总体规模及增速
  数据来源:中国信息通信研究院
  0.1 大数据的概念
  “大数据”一词最早是于 20世纪 80年代由美国著名未来学家 Alvin Toffler在《第三次浪潮》(The Third Wave)中提出,他将大数据称为“第三次浪潮的华彩乐章”。但是,之后相当长时期内,相关科研人员将大数据局限于计算机科学中,认为大数据是“海量数据”的别称,因此大数据并未进入经济社会运行层面和国家战略决策层面,大数据的概念与内涵并未广为人知。直到 2008年,Nature杂志出版了专刊 Big Data,基于多个学科的研究现状系统地介绍了“大数据”所蕴含的潜在价值与挑战,“大数据”才逐步成为各大学科的研究热点。 2011年,Science杂志出版的专刊 Dealing with Data则标志着“大数据”时代的来临。 2012年 3月,美国政府宣布启动“大数据研究与开发计划”,奥巴马政府宣布投资 2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。同年,中国科学院呼吁中国制定国家大数据战略。之后,日本、英国、德国等国家也纷纷制订大数据研发计划。科技部针对大数据研究设立了研究计划和专题项目,中国计算机学会等学术组织还成立了大数据专家委员会,组织与大数据有关的学术交流活动及科技赛事。2014年 3月,大数据首次写入国务院政府工作报告。 2015年 10月,党的十八届五中全会正式提出“实施国家大数据战略,推进数据资源开放共享”。这表明中国已将大数据视作战略资源并将发展大数据上升为国家战略,期望以此推动经济发展、完善社会治理、提升政府服务和监管能力。 2018年 5月,习近平在向中国国际大数据产业博览会的贺信中指出,我们秉持创新、协调、绿色、开放、共享的发展理念,围绕建设网络强国、数字中国、智慧社会,全面实施国家大数据战略,助力中国经济从高速增长转向高质量发展。至此,大数据在全球范围内的政府、产业界及学术界拉开竞争的帷幕。
  对于大数据的概念内涵,目前产业界及学术界并未形成统一准确的定义。但从已有关于大数据的文献定义来看,主要可以从以下四个方面来辨析大数据的内涵。
  一是属性定义。从属性视角看,大数据最显著的特征是数量大、多样性、密度低、价值低、速度快等。国际数据公司(International Data Corporation,IDC)在研究大数据时指出:“大数据技术是能够从大规模多样化的数据中高速获取、发现及分析提取数据价值的技术,其刻画了一个崭新的技术体系时代。”类似的定义出现在高德纳咨询公司(Gartner Group)的研究报告中,他们指出:“大数据是需要以低成本、新形式处理的大容量、高速度、多形式的信息资产。 ”IBM公司结合了大数据规模性、高速性、多样性和真实性四个方面的技术特征,综合性地定义了大数据。中国学者徐宗本等(2014)指出:“大数据是部分数据呈现低价值而整体数据呈现高价值、不能集中存储且难以在可接受时间内分析处理的海量复杂数据集。 ”另外,也有产业界巨头(如微软的研究者们)注意到大数据是以容量性、多样性及速度性三维角度增长的,虽然三维角度并不能完整体现大数据的特性,但他们坚持使用三维模型描述大数据。
  二是比较定义。从比较视角看,大数据与一般概念不同,需要从主观性及演化性角度阐述,缺乏描述与相关度量机制,通常在时间及领域演化中表明大数据的内涵,是数据集或数据集合的概念范畴。维基百科定义“大数据是很难用常规传统的数据库管理及处理工具进行处理的规模庞大且复杂的数据集合”。麦肯锡咨询公司(McKinsey&Company)指出:“大数据是一种超越了传统数据库软件工具捕获、存储、管理和分析能力的数据集。 ”中国学者冯芷艳等(2013)认为:“大数据是超过现有技术手段处理能力,在数据量、数据复杂性和产生速度方面均大大超过传统数据形态,并能带来巨大产业创新机遇的数据形态。”
  三是体系定义。从体系界定视角看,可以从大数据的组成划分方法进行界定。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)指出:“大数据是需要使用水平扩展机制以打破传统关系方法对数据容量、获取速度及表示方式限制的分析处理能力,其包含大数据科学(big data science)和大数据框架(big dataframeworks)两部分”。其中,大数据科学专注于有关大数据的科学研究,主要涵盖大数据的获取、评估及调试技术研究;而大数据框架则专注于数据库的分析及算法处理,用于计算单元集群间的大数据分布式问题及软件库算法分析。
  四是混合定义。从混合界定视角看,需要综合考虑大数据多方面的特性及产生发展因素来对大数据进行界定。美国国家科学基金会(National Science Foundation,NSF)基于大数据来源和技术特征,将其定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击量等多种数据源生成的大规模、多元化、复杂的、长期的分布式数据集”。有外国学者认为大数据是“分析”的另一种表述,它是寻求从数据中萃取知识,并将其转化为商业优势的智能化活动。中国学者李国杰和程学旗(2012)基于物理、信息、社会三元角度分析了大数据的本质,认为“大数据是融合物理世界(physicalworld)、信息空间(cyberspace)和人类社会(human society)三元世界的纽带,物理世界通过互联网、物联网等技术有了在信息空间中的大数据反映,而人类社会则借助人机界面、脑机界面、移动互联等手段在信息空间中产生自己的大数据映像”。中国学者杨善林和周开乐(2015)则基于大数据的自然资源哲学性及管理性特征指出:“大数据是一类能够反映物质世界和精神世界运动状态和状态变化的信息资源,它具有数据复杂性、决策有用性、高速增长性、价值稀疏性和可重复开采性,一般具有多种潜在价值”。
  0.2 大数据的特征
  大数据不同于传统数据,具有传统数据无法比拟的特征。关于大数据特征的表述,不同公司及研究机构的主要观点也存在着明显差异。微软公司认为大数据有三个特征,大量性(volume)、多样性(variety)和快速性(velocity),即所谓 3V特征;国际数据公司(IDC)则认为大数据应该包含 4V特征,即在 3V的基础上加上价值性(value)特征,即价值稀疏性; IBM公司虽然认为大数据也应该包含 4V特征,但他们指出大数据的第四个特征是真实性(veracity)特征,即数据反映客观事实性;中国学者程学旗等(2014)认为相较于传统数据,大数据的特征可以总结为 5V,即大量性(volume)、多样性(variety)、快速性(velocity)、价值性(value)和真实性(veracity);还有学者指出多层结构特点也可以作为大数据的一个特征,即易变性(variability)。研究已有文献发现,大数据的 5V特征已被广泛接受。
  (1)大量性。大量性是大数据最突出、最基本的属性。一方面,由于互联网的普及应用、智能化的媒体平台和移动终端的出现,人们在有意无意地分享浏览过程中都会产生庞大的数据,数据级别呈现出指数级增长。另一方面,传统的数据处理理念由局部抽样反映总体的做法已经转变为依托云计算全面描述整体的做法,数据量的迅猛增加也体现了大数据的大量性特征。
  (2)多样性。多样性是大数据最重要的特征之一。以往数据仅仅是常规的结构化的关系数据或者是数据仓库数据,只能够进行较为简易的操作,按照事先定义的方法进行存储、抽取、查询、处理。而大数据所描述的数据,不但是传统的结构数据,还包含了图片、流媒体及社会网络信息等多方面非结构化的全新数据类型,由于此类数据并无固定结构或结构复杂,存储及处理方法也必然更加复杂。
  (3)快速性。快速性是指大数据增长速度极快的重要特征。数据的快速增长,必然要求对其处理的速度也要极快。现实中的大数据每时每刻都在以指数式增长,如果处理速度不能满足数据采集和使用的要求,产生的数据将无法得到充分利用,归纳的问题也会无法得到及时解决,大数据与传统数据的价值区别也就无法真正充分体现出来。更甚者,问题会由于庞大的数据而变得更加复杂难解。
  (4)价值性。价值性是大数据极为重要的特征。现实中的大数据通常价值密度稀疏,数据未经处理并不能显示出内在价值,但经过集成处理后往往呈现出前所未有的巨大价值。究其原因主要是两个方面:一方面是大数据通常包含人、事、物各种活动的细节性原始数据,没有进行相应的删减处理,非结构化离散程度较高,通常为了保证数据使用时有效信息的比例,往往会保留全部的数据,而大数据一直在激增,这就使得数据价值密度较稀疏。另一方面是对大数据的合理利用,能够以低成本提取可预测现实的数据,可以将稀疏庞杂的数据进行集成化和模块化归纳,从而为社会带来巨大的价值贡献。
  (5)真实性。真实性是大数据发挥价值的基础,是其重要特征之一。大数据来源于现实社会中各种人、事、物发生的各种真实性活动,大数据来源的真实性确保了数据的高质量性,正因如此,大数据中潜在的准确有效的信息才能被相应的工具提取出来,从而发挥出巨大的潜在价值和现实价值。
  0.3 大数据的前景