1.3 互联网迎来大数据时代

如今,一个大规模生产、分享和应用数据的时代已经正式开启。正如被誉为“大数据时代的预言家”的英国牛津大学网络学院教授维克托·迈尔·舍恩伯格所著的《大数据时代》中提到的:“大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。”面对大数据时代的全面来临,互联网发展下的又一场革命已经悄然而至。注16

1.3.1 大数据的产生背景及特征

1.大数据的定义及产生背景

随着全球数据量的爆炸性增长,数据已发展成为现今最重要也是增长最快的资源之一。据国际数据公司IDC(International Data Corporation)统计,预计到2020年,全球数据总量将超过40ZB(相当于4万亿GB),这相当于2011年的22倍。过去几年,全球的数据量以每年58%的速度增长;今后,这个速度很可能会继续增长。数据资源庞大的数量和复杂的结构,为传统的数据分析、技术处理带来了巨大的挑战。因此,为了应对这样的新问题,在政府、科研机构、经济部门等的大力支持下,开启了与大数据相关的技术、工程、科学应用等信息技术领域热点问题的研究。

根据维基百科中的定义,大数据(big data)是指所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成人类所能解读的信息。网络上每一笔搜索,网站上每一笔交易、每一笔输入都是数据,都通过计算机做筛选、整理、分析,这样不仅可以得到简单、客观的结论,更能帮助企业进行经营决策,而且搜集起来的数据还可以进行规划,以引导开发消费力量。

2.大数据的主要特征

大数据是数量巨大、结构复杂、类型众多的数据所构成的数据集合。同时,大数据也可以看作通过数据共享、交叉复用而形成的知识服务能力和智力资源。大数据的基本特征可以高度概括为“4V”,即volume(海量性)、velocity(快速性)、variety(多样性)、veracity(真实性)。注17

(1)volume(海量性)。海量的数据是大数据最基本的特征,IDC定义了大数据的数量级至少要超过100TB(1TB=1 000GB)。导致数据量激增的原因是多方面的:首先,由于互联网的广泛普及,使得使用网络的人、企业、机构等明显增多,产生了大量的信息。其次,随着云计算、物联网等新兴技术的逐渐兴起,也增加了大量的数据信息。此外,图像、音频、视频等二维数据近年来也大规模涌现。伴随着三维扫描设备以及Kinect(由微软开发)等动作捕捉设备的普及,数据本身的描述能力越来越强,也逐步接近于真实世界,数据呈几何级数增长的趋势。

(2)velocity(快速性)。大数据的快速性特征,即要求对数据处理的及时与迅速,这是现实需求导致的必然结果,同时也是大数据区别于传统海量数据处理的重要特征之一。互联网的普及促进了网络经济的发展,催生了众多电子商务应用,这就对数据处理的时效性提出了更高的要求。只有即时处理好数据信息,才能为企业及时提供关于用户需求、仓储存货等信息。同时,只有保持对数据处理的快速性、及时性,才能满足用户体验的需求。

(3)variety(多样性)。数据类型繁多、复杂多变是大数据又一重要的特征。传统的数据形式比较单一,数据的存储一般也遵循较为统一的形式,但随着数据量的爆炸式增长,不仅迅速增加了传统结构化数据,也出现了大量以网页为基础的半结构化数据,同时视频、音频、图片等非结构化的二维数据也大大激增,使得数据的结构变得更加复杂化、多样化,这就对大数据的技术处理提出了更大的挑战。

(4)veracity(真实性)。大数据的真实性,很多学者将其称为价值密度低。数据价值密度低是大数据中非结构化数据的一个重要属性。大数据的出现,完成了一个意义重大的转变——全数据模式的开启。该研究摒弃了小数据时代的随机抽样,而将样本定义为全部的数据信息,遵循着“样本=总体”的原则。这样每个数据都发挥出作用,摆脱了抽样的随机性带来的误差和风险,但对于每个数据的密度价值也相应降低了。

3.大数据的价值

在社会发展必然趋势下大数据凸显出的重要意义,让政治、经济、文化、科研等各个社会领域的人们都加紧了对其的研究和推动。

在政治领域方面,2012年11月,《时代》杂志指出:美国总统奥巴马能够连任的重要秘诀在于其对过去两年网络相关数据的准确分析、统计和利用。大数据不仅在政权更迭上发挥过重要作用,也被提升到了国家国防和发展战略的高度。以美国为例,2012年3月22日奥巴马宣布美国政府五大部门投资2亿美元启动“大数据研究和发展计划”(Big Data Research and Development Initiative),大力推动大数据收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。美国政府对这次部署高度重视,将其战略地位与工业时代相类比,强调了其在科技、经济、政治、文化等领域产生的深远影响。注18

在商业领域,2013年Gartner(高德纳)将大数据列入 “将在未来三年对企业产生重大影响的十大战略技术”之中,提出了大数据技术将影响企业的长期计划、规划和行动方案。阿里巴巴能够应对“双十一购物狂欢节”日销售额191亿元的交易量,也在于其充分利用往年的巨大数据量,对用户消费习惯、搜索习惯甚至是浏览习惯等行为的综合性分析。对大数据的成功处理实现了消费者对淘宝网和天猫网站大量的并发需求,也保证了阿里巴巴的“商业奇迹”。此外,IBM、Intel、EMC(易安信)、Walmart、Teradata(天睿)、Oracle、Microsoft、Google、Facebook等源于美国的跨国企业巨头也积极推动大数据处理技术的发展,提出了自身应对大数据战略的发展对策。

在科技领域,庞大的数据量促使人们发现解决问题的全新思维方式,通过将巨大的数据量直接交给高性能计算机处理而不经过模型和假设的解决方式,发现了众多传统方法无法预料的规律和结论。图灵奖得主吉姆·格雷提出的数据密集型科研第四范式颠覆了传统,打破了千百年来探索因果关系的思维固式,建立了以数据为中心,通过分析数据相关性,进而得出结论的全新理论方式。

1.3.2 互联网无边界平台对社会的深刻影响

互联网通过强大的黏合作用为人类社会创造了一个无边界的平台。信息流作为载体在互联网虚拟的无边界平台上的传递与整合,为整个无边界平台赋予了无限的生命力。

从宏观上说,基于互联网发展而来的虚拟的无边界平台,其最重要的意义就是在无边界的平台上创建的虚拟信息通道,为信息流的通信及整合提供了最有利的条件。在传统边界明显的人类社会,其局域性的信息往往能发挥较为充分的作用。但随着互联网的发展,传统边界越来越模糊,不同行业、不同领域的交叉融合逐渐深入,信息之间的交互也越来越明显。此时,局域性的信息只能发挥零碎的价值,而不能满足无边界环境下对信息的需求,应运而生的无边界平台利用互联网信息传递便捷、信息量集中等巨大优势,将信息整合,形成了无边界平台上的信息流传递。这种整合而成的信息流价值远远大于局域信息价值的算术和,真正体现了“1+1>2”的道理。

从微观上考虑,互联网无边界平台为互联网的每一个参与者都带来了无限的价值与机遇。

首先,互联网无边界平台降低了人们获取信息的成本。随着互联网用户的倍数扩张,互联网这个平台与工具逐渐成为人们发布信息、搜集信息、获取信息数据最常用也是最有效的一种途径。互联网环境的开放、免费特性,降低了人们使用这个重要平台的门槛,同时也大大降低了人们自由搜集各种所需信息的成本。

其次,无边界平台的跨时间、跨区域性,使参与主体间的交流更加及时和有效。由于互联网平台打破了时间和地域的边界,促成了一种全球化的信息沟通。一方面,其打破了时间界限,使得信息沟通能够根据参与主体的需求,既可以在商品推荐、网页搜索等状态下选择及时获取,也可以因为地理时差、办公时限等原因选择随后获取,从而增强了时间的弹性。另一方面,互联网平台打破了空间地域性,使得信息沟通的范围更加广泛,甚至跨越了国界。因此也带动了经济与贸易的全球化发展。

此外,互联网平台降低了创业的门槛,为企业的发展提供了巨大的便利。互联网开启的信息时代,打破了工业经济的常规,不再需要高成本的固定投资作为创业基础,而且基于互联网的创业成本相对极低,可以鼓励许多掌握技术与知识的人才创造财富。同时,众多风险投资商、天使投资人对互联网领域的青睐与支持,也带动了创业的发展。美国的Facebook、Twitter、Google等世界知名的企业都可以作为这个结论最有力的印证。

最后,互联网的无边界性带动了思维的延展与无边界,激发了人类巨大的创新能力、想象能力。互联网无边界的特征也帮助人类大大拓宽了思维的边界,人们的创造精神在这个平台上得到了前所未有的、淋漓尽致的发挥。众多草根英雄、草根科学家的出现也说明创新已不再是科学家的专利,每个人都可以在互联网这个巨大的平台上实践其创新的理念和作品。

1.3.3 大数据时代下的无限财富与机遇

1.世间万物的数据“量化”

对于世界的数据“量化”,即在《大数据时代》中提到的“数据化”,是一种把现象转变为可制表分析的量化形式的过程。人类在社会生活和生产中曾创造并积累了大量的信息,并以各种不同的形式记录下来。大数据的发展核心动力正是来自于人们对世界测量、记录和分析的渴望。伴随着信息技术的革命,越来越多的人意识到将人类对世界记录分析的结果数据化后所能产生的巨大价值,进而促进了人类对世间万物数据“量化”的探索与实现。

在世界的数据量化过程中,起步较早也较为成熟的是对文字的量化。因为文字是人们记录文明的载体,是知识和智慧的象征,也逐渐演变成信息互通的最有效工具,因此将文字量化所能带来的信息与知识的价值不可估量。2004年,Google公司发布了轰动一时的“Google数字图书馆”计划,试图把所有版权条例允许的书本内容数字化,让世界上所有人都能通过网络免费阅读这些书籍。Google数字图书馆的文本实现与完成不仅诱发了一个新的学术方向——文化组学,即通过文本的定量分析来揭示人类行为和文化发展的趋势。最重要的是,该成果为整个人类探索世界提供了一条开拓性的思维方向,越来越多的研究者和机构部门参与了对数据化文本内在价值的探究和揭示上。事实上,华尔街的金融家们已经使用各种大数据分析挖掘方法,不断找出互联网上金融微博中的“数据价值”,通过股民的情感分析进行股票市场走势的判断,创造出了巨大价值。注19

与此同时,许多看似不可能被量化的信息也在信息技术的强大工具下完成了量化。1978年,构成全球定位系统(GPS)的24颗卫星第一次发射成功,此后不断地开放与提升。如今,GPS系统在科技运用、商业运用等领域都发挥了重要价值。Google、苹果、微软等企业也在积极研发自己的地理定位系统以补充GPS的缺陷,其商业价值日益凸显。随后,汽车上安装了无线传感器,地理位置信息的数据化对保险行业产生了深刻的变革。这些数据提供了关于时间、地点和实际行驶路线的详细信息,使保险公司能更准确地为车险定价。在英国,车主可以根据他的实际驾驶地点和时间购买汽车保险,而不是只根据年龄、性别及履历等。这种保险定价法激励投保人形成更好的行为习惯。此外,UPS快递利用地理定位数据为货车定制最佳行车路线,仅2011年一年,就驶UPS驾驶员少行驶了4 828万公里路程,节省了300万加仑(1加仑=4.546升)的燃料,减少了3万吨二氧化碳的排放量,产生了巨大的效益。

不仅如此,数据化的另一个前沿更为人性化,它直接涉及我们的情感、关系和思想。社交网络公司的核心发展思想正是基于数据化的构思。随着社交网络Facebook公司将其“社会图谱”公之于众,社交关系也正式被人们定义为一种数据,其潜在价值非比寻常。据一家获得高额风险投资的创业公司的内部研究表明,个人偿还债务的可能性与其朋友偿还债务的可能性呈正相关。因此,一些消费者信贷领域的创业公司正考虑开发以Facebook社交图谱为依据的信用评分。

总之,人类正在试图从社会生活的各个领域,通过数据的量化来发现难以估量的商业价值。目前,信息技术的发展使人类拥有了数据分析的工具和必要的设备,这样就可以在更多的领域,更快、更大规模地进行数据处理了。

2.大数据的“潜在价值”日益凸显

一直以来,数据被视为附属于企业核心业务的部分,数据的产生与存在是为企业的核心生产活动提供支持。而大数据时代的到来,改变了数据的价值,大数据的价值由最基本的用途转变为对未来的潜在用途。这一转变意义重大,它影响了企业评估其所拥有数据的方式,进而促使甚至迫使企业变革商业模式;与此同时,这一转变也改变了组织看待和处理数据的方式。

释放数据潜在价值的常用方式有三种:数据再利用、数据集重组和数据多重利用。

数据的再利用是指有一些企业因为存储成本低等原因,将已经搜集或使用过的旧数据保留下来变成了“数据坟墓”,而掌握了信息技术优势的科技公司将其再次利用,挖掘出了巨大的价值。Farecast公司利用机票销售数据来预测未来的机票价格;Google使用搜索关键词预测出了整个国家的流感传播状况;美国海军军官马修·方丹·莫里(Matthew Fontaine Maury)利用老船长的日志发现了洋流。这些都是利用“数据坟墓”并产生巨大价值的典型案例。这些案例充分显示出被人忽视的数据一旦被重新利用起来,仍会产生难以估量的效用。

数据集重组是指用新的方式混合数据,将处于休眠状态的数据通过与其他数据集的结合而唤醒其重要价值的过程。例如,美国一家提供免费房地产估价服务的网站Zillow.com,将房地产信息的价格数据集添加到美国的社区地图上,并聚合了诸如社区近期的交易和物业规格等大量的信息,预测出了区域内具体每套住宅的价值。由此可见,通过重组数据,将价值有限的单个数据汇集和重组在一起,其总价值要比单个数据的价值超出很多。

数据的多重利用类似数据再利用,但这种释放潜在价值的方法是从数据的产生环节就设计出了数据价值的可拓展性,自数据搜集的初始就鼓励数据的多重用途。一个典型的案例就是Google的街景与GPS采集,Google在对数据搜集时重点强调了拓展性,它不仅拍摄了房屋和道路的照片,还采集了GPS数据,检查了地图的信息,甚至加入了无线网名称。一辆谷歌街景汽车每时每刻都能积累大量的离散数据流。在对数据进行处理时,不仅可以优化谷歌地图服务,还可以补充GPS的缺陷等,从而充分发挥了数据集的价值。

3.大数据价值链的构成与完善

如今,已有许多企业灵敏地嗅到了大数据的巨大价值,它们积极地融入了大数据的价值链当中。大数据的价值链由多种不同特征的企业构成,根据提供数据价值的来源,可以将其分为基于数据本身的公司、基于技术的公司和基于思维的公司。注20

基于数据本身的公司可以看作大数据的掌控者,它们可能不是收集第一手数据的机构,但它们能够接触数据、有权利使用数据并且有资格将数据授权给渴望对其进行利用的公司。最典型的就是Facebook、Twitter这类社交网络企业,它们利用自身业务优势发展了大量忠诚度较高的用户,每天都能产生海量数据,它们将数据通过两个独立的公司授权给别人使用,并通过这种利用方式获取了巨大的利润。

通常说来,基于技术的公司是指咨询公司、技术供应商或者分析公司,它们通常无法获取海量的数据来源,但这类公司掌握着尖端的专业技术技能,在与拥有大数据但缺乏技术的公司充分合作、互利互惠后,同样可以发挥大数据的重要作用。例如,美国十大上市软件公司之一的Teradata(天睿)公司是全球最大的专注于大数据分析、数据仓库和整合营销管理解决方案的供应商,其与沃尔玛、Pop-Tarts这两个零售商合作,在对其数据进行了充分分析后提供合理的营销策略,从而对零售额的提升起到了重要的作用。

基于思维的公司,它们的优势在于能够先人一步发现机遇,虽然其本身并不具备数据或者专业技能,但也许正是因为这一点,才让它们摆脱了行业思维固有的桎梏,充分发挥了创造力。例如,2009年8月布拉德福德·克罗斯(Bradford Cross)在他20岁的时候,与4个朋友一起创办了FlightCaster.com网站,通过分析过去十年里每个航班的情况,将过去与现实的天气进行匹配,致力于预测航班是否会晚点。同样,皮特·华登(Pete Warden)创立了Jetpac这样一个公司,他们通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。这种大数据思维认为,公开的数据一旦处理得当,就会为千百万人急需解决的问题提供答案。而这种极富创造力的公司的出现,也会为大数据时代的发展提供更多新鲜的“血液”和财富。

4.金融大数据面临的挑战与准备

大数据时代的到来也对金融领域提出了更多的要求和挑战,顺应时代的发展,我们必须从意识、技术、管理等各个领域做好充足的准备。注21

(1)意识的转变。大数据的“大”,并不在其表面上的“大容量”,而在其潜在的“大价值”。在金融大数据的背景下,针对金融市场的决策将日益基于数据和分析做出,而非传统意义上基于经验和直觉。因此,在大数据时代,金融分析与决策的正确性和及时性越来越依赖于对大数据的应用与判断。

(2)技术的准备。在大数据时代,为了应对金融数据的爆炸式增长和不同类型数据的混合发生,以便在大数据下进行有效决策,存储技术、检索技术、分析技术、学习技术等数据处理技术必须有重大的改进。借助于Web 2.0和云计算,我们有了更强大的处理工具和手段。但是,在海量的数据面前,仅仅有工具是远远不够的,必须有更加有效的分析方法,才能完成对数据所蕴含价值的探索和发现,进而实现金融决策的准确化和即时性。

(3)管理的改进。大数据量的产生速度迅捷,在计算能力不断提高的今天,组织结构对于计算结果的反应能力和执行能力,将成为进一步发展金融业的瓶颈,现有的层次型组织结构和指令性管理模式必须进行重大的改进,以适应新形势下的数据新增长模式和金融活动新变化。

总之,大数据是一种资源,也是一种工具,大数据开启了人类发展史上一次重大的时代转型。大数据时代本身就会带来一场人类生活、工作和思维的重大变革。只有牢牢跟紧时代的节奏,积极应对大数据为传统社会生产生活方式带来的各种机遇和挑战,才能真正享受这场巨变带给人类的不可估量的巨大价值。

参考文献

[1]李彦.IT通史:计算机技术发展与计算机企业商战风云.北京:清华大学出版社,2005

[2]吴军.浪潮之巅.北京:电子工业出版社,2011

[3]苏惠香.网络经济技术创新与扩散效应研究.大连:东北财经大学出版社,2009

[4]盛晓白, 韩耀, 徐迪等.网络经济学.北京:电子工业出版社,2009

[5]唐敬年, 皮立君, 宋丹峰等.网络技术、网络经济、网络价值及其评估.中国资产评估, 2000(4): 35-37, 47

[6]陈湛匀, 鲍康荣.改变世界的网络经济.上海:上海人民出版社,2000

[7]Liang Xun, Chen Rongchang, He Yangbo,et al.,“Associating Stock Prices with Web Financial Information Time Series Based on Support Vector Regression”,Neurocomputing, 2013, 115(2): 142-149

[8]梁循, 曾月卿.网络金融.北京:北京大学出版社,2005

[9]Viktor Mayer-Schonberger,Kenneth Cukier.大数据时代.杭州:浙江人民出版社,2013

[10]马建光, 姜巍.大数据的概念、特征及其应用.国防科技,2013(2): 10-17

[11]Nature Publishing Group,“Big Data: The Next Google”,Nature, Sep 3, 2008

[12]许伟, 梁循, 杨小平.金融数据挖掘——基于大数据视角的展望.北京:知识产权出版社,2013