1.1 大数据时代

我们先来看看百度关于“大数据”的搜索指数,如图1-1所示。

图1-1 “大数据”的搜索指数

数据来源:百度指数©baidu。

可以看出,“大数据”这个词是从2012年才引起人们关注的,之后搜索量便迅猛增长。为什么大数据这么受关注?看看图1-2就明白了。2004年,全球数据总量是30EB1。随后,其于2005年达到了50EB,2006年达到了161EB,到2015年居然达到了惊人的7900EB,到2020年超过了60000EB。预计到2030年,全球每年新增数据量将突破1YB量级(1YB相当于4万亿台内存为256GB的高端手机的存储能力)。

图1-2 全球数据总量

为什么全球数据量增长如此之快?一方面是由于数据产生方式的改变。历史上,数据基本上是通过手工产生的。随着人类步入信息社会,数据的产生越来越自动化。例如,在精细农业中,需要采集植物生长环境的温度、湿度、病虫害信息,对植物的生长进行精细的控制。因此我们在植物的生长环境中安装各种各样的传感器,自动地收集我们需要的信息。对环境的感知,是一种抽样的手段,抽样密度越高,越逼近真实情形。如今,人类不再满足于得到部分信息,而是倾向于收集对象的全量信息,即将我们周围的一切数据化。因为有些数据如果丢失了哪怕很小一部分,都有可能得出错误的结论。例如,通过分析人的基因组判断某人可不可能患某种疾病,即使丢失一小块基因片段,都有可能导致错误的结论。为了达到这个目的,传感器的使用量暴增。目前全球有30亿~50亿个传感器,到2030年将突破100万亿个。这些传感器24小时都在产生数据,这就导致了信息爆炸。

另一方面是由于人类的活动越来越依赖数据。一是人类的日常生活已经与数据密不可分。全球已经有超过50亿人连入互联网。在Web 2.0时代,每个人不仅是信息的接收者,同时是信息的产生者,每个人都成为数据源,每个人都在用智能终端拍照、录像、发微博、发微信等。全球每天会有超过5万小时的视频上传到YouTube,会有1.55亿条信息上传到Twitter,会在Amazon产生630万笔订单……二是科学研究进入了“数据科学”时代。例如,在物理学领域,欧洲粒子物理研究所的大型强子对撞机每秒产生的原始数据量高达40TB。在天文学领域,2000年斯隆数字巡天项目启动时,位于墨西哥州的望远镜在短短几周内收集到的数据比天文学历史上的数据总和还要多。三是各行各业越来越依赖采用大数据手段来开展工作。例如,石油部门用地震勘探的方法来探测地质构造、寻找石油,使用了大量传感器来采集地震波形数据。为保障高铁运行安全,需要在每一段铁轨周边大量部署传感器,从而感知异物、滑坡、水淹、变形、地震等异常。在智慧城市建设中,包括平安城市、智能交通、智慧环保和智能家居等,都会产生大量的数据。目前一个普通城市的摄像头往往就有几十万个之多,其每分每秒都在产生极其海量的数据。

那么,何谓大数据?参考维基百科,本书给出的定义如下:海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。

目前工业界普遍认为大数据具有4V+1C的特征。

(1)数据量大(Volume):存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。

(2)多样(Variety):数据的来源及格式多样,数据格式除了传统的结构化数据,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。随着人类活动进一步拓展,数据的来源会更加多样。

(3)快速(Velocity):数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。

(4)价值密度低(Value):需要对大量的数据进行处理,挖掘其潜在的价值,因此,大数据对我们提出的明确要求是,设计一种在成本可接受的条件下,通过快速采集、发现和分析,能从大量、多种类别的数据中提取价值的体系架构。

(5)复杂(Complexity):对数据的处理和分析的难度大。