一本书读懂大数据
作者简介
内容简介
与众不同的大数据 有别于传统数据源的大数据有不少重要的特征, 不是每个大数据源都有 这些特征存在,绝大多数的大数据或多或少地都存在 一些这样的特征。 第一个特征是大数据的来源往往是机器自动的结 果。人工不会干涉到新 数据的产生过程,完全是机器自动的结果。如果拿传 统数据源进行分析的 话,就会发现它们的形成过程中会有人工的痕迹,像 是零售业和银行交易、 电话呼叫记录、产品发票等等,和某个人做的事情都 有关系,无论什么情 形,都会有人参与到新数据的形成过程中。可是大数 据不是这样产生的,它 不会在产生过程中与人互动,像是引擎中内置的传感 器,即便没有人干预周 围数据也会自动生成。 第二个特征是大数据作为一个全新的数据源,不 仅仅是已有数据的收集 扩展,比如在互联网中,顾客与银行、零售商之间可 以直接在线交易。事实 上这种交易方式和传统交易差异不大,不过是换一种 渠道而已。企业通过收 集网络交易数据就会发现这样情形下的数据和多年来 他们得到的传统数据差 异不大,不过是数量增加了而已。如果收集的是客户 浏览行为的数据,那就 会产生本质上全然不同的数据。 上面提到的相同类型数据,不过是数量多了的说 法也会因为达到另一个 极端,成为最新的数据,比如说传统读电表都是人工 方式,也就是说自动读 取用电数据的智能电表所产生的数据就是类型相同, 不过是数量增加了。不 过这种数据在某种程度上也能成为一种有别于人工读 取的数据,应用更为深 层次的分析方式,这样一来它们就可以称作是新的数 据源。 第三个特征是大数据中的大多数设计并非友好。 实际上这些数据并未经 过设计。就拿社交媒体网站上的文本流举例,用户不 一定会被要求用标准的 语序、语法和词汇表。人们的信息一经发布,社交平 台就能够获得数据。这 些不太规范的数据处理起来还是有一定困难的。在设 计之初,大多数的传统 数据都尽量要友好一些,就比如收集交易信息的系统 最早生成数据会以整洁 或是预先规范的方式来操作,这样形成的数据就更有 利于加载和使用。还有 一部分原因是由于要对空间进行高效利用,以避免出 现空间不够的局面。 大数据有时候还会是凌乱和丑陋的。通常最开始 传统数据就已经被严格 地定义。每一比特的数据都存在重要的价值,这是必 需的。一般大数据源一 开始不会被严格定义,这和存储空间的开销越来越微 乎其微有关,必须对各 种有用的信息进行收集。所以说大数据分析的时候, 各种凌乱丑陋的数据都 有可能遇见。 最后的特征是海量数据并非有大量价值。实际的 数据很多都是毫无价值 的。在一篇网页日志当中,非常重要的数据就包含其 中,当然也有好多没价 值的数据也在其中。很有必要从中提炼最有价值的部 分。定义传统数据源的 起初就要求数据是百分百有用。这是因为可扩展性受 到了限制,所以如果有 没价值的信息在当中的话代价会非常昂贵。除了最初 定义的有数据记录的格 式外,数据内容和价值也被定义和约束了。当下存储 空间的问题已经不存在 了。大数据所收集的是所有的信息,然后再去解决这 些冗余信息所带来的问 题。只有这样才会不遗漏所有的信息,与此同时在分 析数据时的麻烦也会让 人头疼不已。 P8-9