●○●数据的进化——从数据到大数据
数据的出现和人类对数据的利用,可以追溯到三千多年前的古代。在尼罗河两岸的古迹中,我曾看到古埃及法老们在河边石柱上留下的每年测量尼罗河水位的刻度,他们以此来预测来年可能的税收数量。在希腊的博物馆中,我曾见到当时用来观察天体运行的仪器,还有具备八十多个部件的机械式计算机,它们可以精确地确定时间、方位和方向,用于船舶的导航。古代中国早在汉代就开始人口普查和田亩统计,用于税收政策的制定。但整个看起来,在农业社会中,人们对数据重要性的认识是不够的,创造数据的能力是低下的,对数据的利用是简单肤浅的,专制统治者们经常置数据于不顾,随心所欲地发布政令,导致社会动荡、混乱甚至崩溃。
工业时代的到来为数据的发展和人类对数据的利用和依赖提供了坚实的条件。科学告诉人们如何寻找数据、分析数据和利用数据。数据开始分门别类地得到巨大的发展。物理数据、化学数据、生物数据、地理数据、天文数据、经济数据、社会数据、文化数据、军事数据等开始成为一门门科学的基础,成为经济、社会、文化发展的依托,成为人类思想的根据。
货币和证券也许可以被视为工业时代最特殊、发展最快、影响也最大的一类数据。在农业时代,货币作为价值交换物,主要形式为贵金属,自身就具有相当价值,数据的属性并不明显。纸币的出现与大规模使用,充分显示了价值符号的作用,表现出数据交换就等于价值交换的特征。有价证券的出现与大规模使用,进一步凸显了数据的作用,乃至于工业时代被冠上了资本主义时代的名称。人们把以货币和证券为代表的资本视为社会发展的动力,同时也视为社会矛盾与斗争的根源。
当人们开始有意识有目的地收集数据和利用数据的时候,困扰开始了。美国在19世纪后期每隔十年一次的人口普查,已经不满足于简单地统计人口数量,还想知道人们的居住条件、收入水平、婚姻与家庭状况、职业与行业变化等,以此来决定国家的政治经济政策。于是,调查表越来越长,问题越来越多,分析越来越细。人口普查结束后,需要七到八年的时间才能完成数据分析,这已经快到下一次人口普查的时间了。处理数据的能力远低于获取数据的能力,不仅损害了数据分析结果的时效性,也提高了数据处理的成本。更何况由于数以万计的人参与了数据处理过程,手工误差也无法有效控制。于是,人们开始想到了用机器辅助处理数据。
最早的计算机是机械的,笨重易损,只能做简单的四则运算。所以机械式计算机未能广泛普及,也未产生显著的社会影响。“二战”后,科学家想到用0和1两个数字组成的字符串就可以表达一切文字、数据和符号,而电子管的开和关两个状态又正好可以表示0和1。于是,电子计算机问世,一个全新的时代开始了。半个多世纪过去,计算机领域的发展一直遵循摩尔定律,计算速度每一年半左右翻一倍,计算机器件的相对成本每一年半左右降一半。可以说,今天的世界没有哪一件事、哪一个人没有直接或间接地同计算机打交道。没有了计算机,整个世界将会陷入混乱。
早期的计算机还是只处理特定科学、社会和经济领域里精心准备的数据,能够使用计算机的人也都是经过专门培养、长期训练出的专门人才。计算机处理数据很快,但向计算机里输入数据却是个力气活,很烦琐,很耗体力,很费钱。我在20世纪80年代初去美国读书时,看到系里的计算机室就像个计算机博物馆,光数据生成设备就有打卡机、读卡机、纸带穿孔机、纸带读孔机以及各种型号的磁盘等。各种型号的计算机终端和个人计算机多达十来种。仅仅掌握各种数据生成方式和各种计算机操作系统就花了我整整一学期的时间。
个人计算机(PC)、软盘、Mac和Windows操作系统等一系列计算机创新的出现极大地推动了计算机的普及,人们在日常工作和生活中使用的文字与数字在计算机上自动转换成数据。随着计算机软件业的发展,图形、照片、语音、影像等都成为可以处理的数据。美国在20世纪90年代初,其他发达国家在90年代中期,中国在21世纪初都基本完成了计算机的普及,有效地推动了社会的现代化和信息化进步。
这时,数据已经差不多变成了计算机领域的专有名词,只有能够输入计算机的才算数据,只有计算机能够处理的才算数据,其他只被看作准数据或非数据。如何获取、存储、计算、使用数据变成了专门的高深学问。掌握了这些学问的人也成了社会需求大、收入高、贡献大的一批人物。
随着计算机的普及,如何在计算机之间迅速传递数据就成为新的挑战,特别是在空间距离远、时间要求快的一些领域,例如国防、金融、科研、通讯等。最开始,专家们运用不同的方法和标准在计算机之间建立了一些专用线路和专用网络,用来传输专门的数据。这种方法成本高、维护难、用途窄,人们又试图利用公共通讯网络例如电话网传递数据。终于在20世纪70年代开始,经过十多年的努力,建立了后来被人称为互联网的通用型数据传输网络。一个崭新的时代开始了。
计算机与互联网的结合,不仅解决了数据计算和数据传输问题,更重要的是人们解放了自己的双手、双腿和头脑,可以集中思考一些更具挑战性和前瞻性的问题。例如,利用计算机和互联网,有没有可能把过去无法数据化的东西变成新的数据源?如何利用这些新获得的数据产生新知识、新产品、新服务?怎样利用新数据解决困扰人类社会的重大问题,例如战争、贫困、疾病和贫富差距?
在过去二三十年中,人们利用各种新出现的科学技术进步成果,创造出了各种获取全新数据的工具,例如手机、手表、眼镜、穿戴用品、运输工具、制造设备、医疗设备等,都可以用来获得过去无法获得的人类生活、生产、交往的数据,获得自然界运动变化的数据,获得物质自身与物质生产的数据。这些数据数量之多、种类之繁杂、增长速度之快,终于在2010年前后引起了足够多的人的注意,并开始思考这个现象背后的意义。一时半会儿想不明白,人们干脆给这种现象起了个形象的名称——大数据。
计算机技术和互联网专家们看到了数据多、数据乱、数据增长快的麻烦,所以从技术挑战的角度描绘这一现象,失之于狭隘。
IT公司和网络公司看到了利用数据提高原有商业模式的效率,增加收入的好处,所以从精细化经营和数据挖掘技术的角度描绘这一现象,失之于浅薄。
社会大众看到了个人数据有可能被企业、政府或他人利用,所以从个人隐私和权利角度描绘这一现象,失之于片面。
老派知识精英们以及体制掌控者们看到了数据泛滥有可能造成现有社会体制混乱,失去精神贵族或既得利益集团的地位,所以从消极抵抗的角度去描绘这一现象,失之于恐惧。
盲人摸象,各有各的感觉。但无论突出哪一点,都无法抹杀一个事实:世界上的万事万物正在以越来越多的数量、越来越多的种类、越来越快的速度被人类数据化。这是世界上各行各业的人们出于各种动机有意或无意共同努力造成的,不以哪个人、哪个社会阶层、哪个利益集团的意志为转移,差别无非是哪个国家走得快一点、自觉一点、得益多一点,哪个国家走得慢一点、被动一点、受害大一点。在这个意义上,大数据可以被定义为:世界上万事万物都在被数据化,形成一个与现实世界相关联的数据世界。人类可以利用数据化的方式,应对和解决生存与发展问题。
历史上,凡是被冠以“大”的东西,都是后来被公认改变了世界的事情。“地理大发现”在当时不过是一个叫哥伦布的冒险家想找到去印度的航线,误打误撞发现了美洲,居然引发了殖民主义热潮,为工业革命做了知识和物质准备。“法国大革命”为人类提供了一整套新思想和全新的共和体制。“大萧条”以全球范围的经济崩溃,为资本主义从原始状态进步到现代状态做了痛苦的准备。“大爆炸”理论以超乎常识想象的卓越思考与验证,为人类认识我们所生活的宇宙空间提供了完美的说明。这些事情发生的时候,人们并未认识到它们的历史意义,时间过得越久,伴随这些事件所形成的概念名词越显示出其丰富的内涵。“大数据”应该有资格成为“大”概念系列中最新的一员。