1.2.3 大数据的3V特征

从字面上看,“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已,但容量大只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据量增大这一因素所造成的。

IBM称:“可以用3个特征相结合来定义大数据:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V(见图1-13),即庞大容量、种类丰富和极快速度的数据。”

图1-13 按数量、速度和种类来定义大数据

(1)Volume(数量、容量)。如今,存储的数据量在急剧增长中,存储的数据包括环境数据、财务数据、医疗数据、监控数据等,数据量不可避免地会转向ZB级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却在不断下降。

(2)Variety(种类、多样性)。随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型(结构化)数据,还包含来自网页、互联网日志文件(包括流数据)、搜索索引、社交媒体、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。当然,这些数据中有些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。

(3)Velocity(速度)。数据产生和更新的频率也是衡量大数据的一个重要特征。这里,速度的概念不仅是与数据存储相关的增长速率,还应该动态地应用到数据流动的速度上。有效地处理大数据,需要在数据变化的过程中动态地对它的数量和种类执行分析。

在3V的基础上,IBM又归纳总结了第四个V——Veracity(真实和准确)。“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着新数据源的兴起,传统数据源的局限性被打破,企业越发需要有效的信息治理以确保其真实性及安全性。”

总之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解,其衡量标准也在随着技术的进步而改变。