关于大数据,你知道的都不对

●○●关于大数据,你知道的都不对

一个概念,无论它可以抽象到多么高深的程度,其形成、演变、推广的过程往往却很实在、具体,充斥着不同社会力量的博弈。这个概念的对错与否、生命力的短长、对社会的影响往往不取决于概念本身,而在于它的社会价值。

例如,PM2.5是一个衡量空气污染的指标概念,是描述客观存在的一种尺度。但是,这个概念在中国的落地生根却经过了两三年惊心动魄、迂回曲折的艰难历程。这个概念长期被拒绝在中国采用,理由是不合中国国情,不能反映出环境保护方面取得的伟大成就。然后,当亿万百姓可以通过网络获取这一指标的实时报道时,又被说成是外部势力居心叵测的挑衅。终于,现在PM2.5检测体系开始在全国逐步建立,大众的兴奋度却逐步降低,因为据说不经过二三十年,中国是很难达到联合国规定的空气优良标准的。

再例如,基尼系数是世界各国广泛用来衡量社会发展水平和社会不平等程度的一个客观指标概念。但是,这个曾经被中国学界广泛使用的概念近年来却无法获取权威的全国性数据,据说是因为基尼系数七八年前就达到了0. 45的水平,这被认为是一个社会贫富差距过大、继续增加就会导致社会动荡的临界点。一些学人体谅苦心,跳出来说普适性的基尼系数计算方式不适合中国国情,需要建立具有中国特色的基尼系数。因为城乡二元化,所以应该分别计算城乡基尼系数;因为沿海内地发展水平差异巨大,所以应该分别计算沿海地区和内陆地区的基尼系数;因为城市地区有户口的居民与新迁移进城的无户口居民之间生活水平差异巨大,所以应该分别计算正式居民与非正式居民的基尼系数,甚至干脆将非正式居民排除于统计体系之外。于是,社会贫富差距就成了一个只能泛泛而谈而无法实际度量的东西。

还例如,世界多数国家普遍采用的时区制,在中国从来就没有实行过,据说是怕影响国家统一。夏令时制曾经试行过两三年又被取消,据说是因为既麻烦又节电效果不明显。邮政编码先是被大力推行,然后又被取消,然后又被推行,理由先是推行成本过高,后是不推行成本过高。相反,有些概念的命运没有这么坎坷,一旦引进国门就大行其道。纳米是个只有极少数材料物理科学界专家才明白的概念,但今天在很多超市里却随处可见纳米除污剂、纳米装饰品,甚至还有什么纳米食品。

可见,一个新概念的出现,即使本身正确,孕育着推动科技进步和社会发展的巨大潜能,其真正实现也绝非易事,更可能的是由于社会环境的制约,被否定,被歪曲,被庸俗化。

今天,在中国相当范围内,开始流行一个全新的概念——大数据。我得承认,这个概念的流行中我自己起了一点作用。在大数据开始被讨论差不多一年的时候,它开始沦入其他新概念类似的命运:越来越说不清楚了。个中原因也不难解释:首先,大数据的概念是个舶来品,在发达国家尤其是美国逐渐成形、讨论和实践。在潮涌般的媒体报道、论文分析和专著论述中,大数据这个概念如同瞎子摸象一样,被不同视角、不同利益和不同水平的人描述出来,让人难以琢磨。一个被严格定义并被广泛接受的大数据概念还没有出现,它更像是一个宽泛的现象描述,各种各样的东西都被装在里面。这样的好处是百家争鸣,共识会逐渐形成;坏处是鱼龙混杂,存在走歪走偏的可能性。其次,大数据是个发展中的事物,人们对其理解、阐释也在思想的碰撞、利益的竞争和技术的发展中不断深化,在概念层次和理论框架上说不清楚是必然的,和历史上许多新理念的形成过程并无二致。再者,关心大数据的主力军是网络业和IT业人士,他们目前面临着沉重的竞争压力和创新突围的激烈竞争,难免情不自禁地把自己的战略、产品、技术和服务装进大数据这个筐里,图存发展。

在维基百科网站上,大数据开始是这样被定义的:“大数据通常包括这样一些数据集,其体量超出了业内常用软件工具的能力,无法在可以容忍的时间内获取、把握、管理和处理。”这个定义显然是描述性的、单向思维的、自相矛盾的:如果大数据仅仅等于数据体量大,那么大数据与其他数据有什么本质区别?这种区别仅仅在于软件处理能力上吗?近年在处理体量相对庞大的数据方面,最流行常用的软件程序叫Hadoop,那么能够被它处理的数据算不算大数据呢?说不算吧,Hadoop被很多人称为第一个大数据软件;说算吧,它面对的数据并没有超出它的能力。可见,这种大数据概念一定来自每日和数据纠缠在一起的软件工程师和数据工程师们,是一种具体的、狭隘的、操作性的定义,经不起时间和逻辑的检验。

2001年,在全球IT咨询服务巨头Gartner工作的分析师Doug Laney写了一篇研究报告,第一次提出了一个三维模型,用以分析数据增长所带来的挑战和机会。这个三维模型的第一维是高速增长的数据体量(Volume),第二维是高速进出的数据运动(Velocity),第三维是高度异质的数据种类(Variety)。由这三维形成的空间里充满的就是我们今天称之为大数据的东西。Gartner采用了这个3V模型,从此成了广为人知,也被IT业界普遍接受的大数据定义。2012年,作为Gartner资深专家的Laney又在一篇新分析报告中更新了自己的大数据概念定义:“大数据是体量庞大、高速变动和/或种类繁多的信息资产,需要采用全新的处理形式以有助于提高人们在决策形成、视野拓展和过程优化中的能力。”

这是一个很不错的定义。首先,明确了大数据是一种以信息形态存在的资产,具有3V特性;其次,盘活这种资产需要全新的处理形式;再者,这种资产增值创利主要体现在决策、视野和过程优化三方面。这个定义比前面提过的定义有进步,至少把大数据从狭窄的数据处理领域扩展到了整个IT业,也就是信息技术业。而且,由于信息技术已经普及到各个产业,应用于社会生活的方方面面,所以,大数据也就应该被社会各领域的人们所关注。

但是,我对这样一个大数据概念的定义仍然有些不满足,有些困惑,有些疑虑。这个定义仍然是描述性的,有些含混不清、难以把握。例如,“体量庞大”是什么意思?体量为一个MB的数据等于1024KB,一个GB数据等于1024MB,一个TB数据等于1024GB,一个PB数据等于1024TB……数据体量大到什么程度就算大数据了?“高速变动”是什么意思?1GB/s还是1TB/s?或者是数据体量每年翻番?“种类繁多”是什么意思?1000种不同数据?100种数据来源?10种数据格式?“全新的处理方式”是什么意思?今天的全新方式也许明天就过时了,明天的全新方式也许后天就落后了,怎样的处理方式才能在本质上算是大数据处理方式呢?另外,除了“有助于提高人们在决策形成、视野开拓和过程优化中的能力”,大数据就不能再干点别的什么事了?在这三种用途之外就不存在大数据现象和大数据生存空间了吗?尽管有大量的论文、书籍试图对此详加说明,但好像至今没有谁能说得很清楚。

可见,这样的定义仍然是技术性的、应用性的,隐约可见IT咨询服务业自我推销的影子。在这样的定义基础上,很难支撑正在被媒体大肆宣扬的“大数据革命”“大数据时代”“新工业革命”这样一些新概念。更糟糕的是,大家可能都在使用“大数据”这个概念,可能都认为“大数据时代”很令人振奋,甚至都赞同“不数据,毋宁死”的观点,但说着说着就南辕北辙,就自相矛盾,就互相为敌了。这里的主要原因就是因为大家对大数据的理解不一样,甚至完全相反。

在阅读大数据方面的文章书籍时,在各种场合与专家学者交流中,一个突出的感觉就是大家普遍在使用大数据这个概念的时候时态混乱,有的使用过去时,有的使用进行时,有的使用将来时,还有的各种时态混合使用,这就使一个本来就有些玄妙的概念更加难以理解了。

很多人非常正确地指出,大数据本不是个新东西,概念的提出和使用已经有几十年历史了。用这样的过去时态讨论大数据的大都是大学校园里的资深学者教授。我本人第一次听到大数据这个词,还是20世纪80年代中期在美国哥伦比亚大学就读社会学,学习宏观社会结构理论和社会网络分析的时候。当时一些学科,主要是天体物理学、生态学、自动控制以及社会学和经济学的某些分支,在前沿研究中都遇到了共同的问题,那就是学者们有机会获得了海量的研究对象数据,却因为计算机能力、研究经费不足和分析方法不够等原因而望洋兴叹。久而久之,“大数据”就成了描述这一现象的代名词,也就是数据量太大、太复杂以至于在当时条件局限下无法利用。大数据等于大麻烦、大障碍、大问题。

但是,在经过四分之一个世纪之后,我们今天所说的大数据还和当年的理解别无二致吗?当年的主要矛盾是计算能力大大落后于实际需求,在哥伦比亚大学这样世界闻名的顶尖学府里,计算机主机的能力大概也就相当于今天一台配置比较好的台式计算机,使用起来过程复杂,需要大量的研究经费支持。今天的主要矛盾正好反过来,是计算能力大大超过实际需求,以至于大批网络公司和其他各行各业的众多企业和机构面对潮水般涌来的数据不知所措,不知道如何利用,只好定期删除。问题不在于知道如何使用数据却受到计算能力的局限,而是空有充沛的计算能力却不知道如何利用手中的数据进行创新,产生显著的经济价值和社会效益。假如能够找到合适的应对之道,大数据完全有可能变成大机遇、大创新、大空间。

很多人以大数据的领先者自居,利用各种渠道和场合推销自己的硬件、软件或解决方案,自认为是大数据的终结者,说话的时态用的是完成时,这样说话的人大多出自IT业、软件业或咨询服务业。除了完全可以理解的商业动机外,这种完成时的大数据说法也不无道理。大数据发展是一个渐进过程,软硬件方面对此的配合适应也是一个连续的进程,很难找到一个清晰的边界划分什么才是大数据时代的软硬件或解决方案。但是,如果把今天的新产品、新技术都装进大数据这个筐里,势必混淆了大数据与非大数据的界限,削弱大数据所引发的革命性变革力量,无法区分产业进化与产业革命的分野。

很多人已经自认为是大数据的实践者了,四处可闻数据挖掘和精细化运营的实例宣讲和心得体会,说话的时态用的是进行时。这样说话的大多是网络公司,特别是电子商务和云计算领域的公司。从好处看,众多企业举起了大数据的旗帜,对大数据未来的发展绝对是个利好,众人拾柴火焰高;从坏处看,如果眼下这些数据挖掘和精细化运营的实践就算是大数据了,而由此产生的产业创新和经济效益却并无惊人之喜,这对大数据发展又是个利空,容易让人产生幻灭感。

凡此种种,不一而足。在使用大数据概念上的时空错乱反映了一个事实:大家对什么是大数据理解不一,做的东西真假都有,新旧俱全。力图尽可能地探究大数据的概念含义,并不是因为我喜欢咬文嚼字,或是认为只有从理论到实践才是成功的唯一道路。事实上,很多引发产业革命的创新者和成功者在开始阶段未必能想得很清楚,自己做的东西是否正确,甚至可能做错了再重来。但有两点却是共同的:一是做的东西前无古人,是创新,不是旧东西的延续、改良、精致化;二是虽然开始未必想得很清楚,甚至想错了,但一定是走在正确的大方向上。所以,在今天的大数据热初起的时刻,尽可能地厘清这一概念的内涵和外延,理顺概念的来龙去脉,推演概念的潜力与发展,是非常必要的。概念过小,必然难以产生大影响;概念过大,必然鱼龙混杂,失去生命力。