1.1.4 大数据

关于大数据,不同的人群有不同的理解。当前,大数据人群可以被分为3类:有大数据的人群、做大数据的人群和用大数据的人群。很多时候大家在谈论大数据时,实际上是在谈论不同的东西,即有大数据的人谈论数据资源及其规模,做大数据的人谈论大数据带来的技术挑战,用大数据的人则谈论大数据带来的决策变革。

那么,大数据是数据、技术还是应用呢?事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。

• 关于价值:首先,如果一个数据集没有价值,就不需要被关注;其次,如果一个数据集的价值密度高,即大部分数据是有价值的,那么直接读取数据集就能获得价值,没有技术难度。因此,真正的大数据是价值密度低的数据集,从数据集中获取价值像大海捞针一样。大数据是高难的技术挑战。

• 关于时效:首先,所有的大数据处理和分析都应该在希望的时间内完成,如果过了希望的时间,就没有意义了,这是一个技术难题;其次,在竞争中,要比竞争对手更快地完成大数据处理和分析。

这样来看,给定一个大数据,如果没有技术能够在希望的时间内挖掘其价值,那么大数据是一个技术挑战,否则就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据、及时做出驾驶判断。当汽车速度小于50 km/h时,发现50 m外车道上有行人后,经过2 s的数据分析得出需要刹车的结论是可以接受的;但当车速提高到100 km/h时,数据分析的时间就需要小于1 s。这时,大数据应用变成了大数据技术挑战。

事实上,数据、技术和应用是大数据的3个要素,数据隐含价值,技术发现价值,应用实现价值。大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法[7]

一个大数据能否为一个决策问题提供服务的关键是:能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远远大于技术进步的速度,因此,出现了大数据问题。大数据问题是指不能用当前技术在决策希望的时间内处理分析数据的数据资源开发利用问题。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的价值;在决策希望的时间内完成所有的任务[8]