1.2 大数据的内涵与思维方法

1.2.1 大数据的概念与特征

1.何谓大数据

20世纪80年代,大数据(Big Data)一词最早出现于美国未来学家阿尔文·托夫勒的著作《第三次浪潮》,该著作预见了大数据技术在未来对社会生活的重大影响,预言人类社会正在进入以信息社会为标志的第三次浪潮。2008年,《自然》杂志出版“大数据”专刊,大数据成为互联网行业的热门话题。2010年,英国数据科学家维克托·迈尔-舍恩伯格和数据编辑肯尼斯·库克耶在《经济学人》杂志发表了对大数据应用的前瞻性研究,开创了大数据系统研究的先河。2012年5月,联合国发布《大数据促发展:挑战与机遇》白皮书,探讨互联网数据在推动全球发展上可以发挥的作用。2013年,世界经济论坛发布《2013年全球信息技术报告》,指出大数据是一项具有帮助全球经济复苏的巨大潜力的新资产,同年维克托·迈尔-舍恩伯格出版著作《大数据时代》。2013年也被称为“大数据元年”。

大数据研究机构Gartner公司认为,大数据是一种依赖新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(石胜飞,2018)。维克托·迈尔-舍恩伯格和肯尼斯·库克耶将大数据的概念表述为:“不采用抽样调查的方式筛选数据,而是对所有数据进行分析处理”。维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.大数据的数据规模以及数据的采集、储存、挖掘、共享功能“大”,同时数据的应用领域、应用范围也“大”。

大数据带来了新理念、新价值,也带来了社会经济的新发展,其内涵和外延已远远超越“海量数据”的概念。大数据通过对数量巨大、结构混杂、类型多样的数据进行采集、存储和分析挖掘,让数据“发声”,使决策者具有更高的洞察力、预测力,发现新知识、提升新能力、创造新价值,实现数据“增值”。从某种意义上说,大数据是互联网信息技术和新兴经济业态的深度融合,大数据理念和技术的飞速发展和广泛运用正在推动着时代进步。

2.大数据的特征

“大数据”不仅代表着数据的规模,也代表着信息技术发展到今天,人类社会进入了一个新时代。人类开始熟练掌握和运用海量数据处理所需要的新技术和新方法,这预示着数据赋能与价值创造进入一个新的阶段,人类社会对数据利用达到前所未有的高度。因此,数字时代其实就是大数据时代。

相比于传统数据处理方式,大数据具有“4V”特征。

(1)数据规模大(Volume)。从TB级别跃升到PB乃至EB级别的数据规模。

(2)数据多样性(Variety)。与结构化数据不同,音频、视频、图片等非结构化数据增长迅速且种类繁多,这使大数据技术面临着新的挑战。

(3)数据处理速度快(Velocity)。在可变的海量数据下,提高竞争力的关键在于数据处理的效率。云计算、人工智能、物联网等技术均是数据处理工具,其目的在于快速处理海量数据,加大算量与算力。

(4)深度价值(Value)。大数据蕴含很多深度的价值,需要对大数据进行分析,并挖掘出其巨大的数据价值。

维克托·迈尔-舍恩伯格对大数据进行深入研究并一语中的:“大数据开启了一个重大的时代转型。就像望远镜让我们感受宇宙,显微镜让我们能够观测到微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。”维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

1.2.2 大数据思维

大数据技术主要包括云计算、数据挖掘、分布式处理等技术,把随机样本整合成全集数据库,从注重因果关系到注重相关关系。相比样本数据思维模式,大数据思维模式可以从全集数据、数据混杂性和相关关系三个方面把握,如图1-1所示。

图1-1 大数据思维模式

1.从样本思维转向总体思维

19世纪以来,当面临大样本量时,统计学主要依靠抽样来分析判断总体特征。但是,统计抽样是在不能获取和分析所有数据的时代出现的,现在大数据技术的出现,使得搜集、处理和分析海量数据成为可能。大数据带来了全数据模式,抽取的样本容量就是能搜集到的全部样本数据。和样本分析相比,大数据对数据信息的处理结果更加准确,能够挖掘到更多信息,从而得到新的观点;大数据的处理速度非常快,并且及时记录的功能使我们能在第一时间知晓数据的异常情况。

2.从精确思维转向容错思维

对于小规模数据,最基本的要求就是减少错误、保证数据质量。由于收集到的数据数量少,样本信息的偏差对分析结果会有重要影响,因此必须确保记录下来的数据尽量结构化、精确化。而大数据通常用概率说话,试图扩大数据规模时,也要接受大数据的“混乱”。大数据分析对象不仅包括结构化数据,还包括来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。大数据的混杂性表现在以下方面:一是数据来源广泛且不进行审核,无法保证每一条数据的精确性;二是半结构化、非结构化数据的出现,不预设记录结构,无法要求数据的格式统一和整齐排列。在大数据思维下,混杂的数据往往蕴含着更多的信息,更具有挖掘潜力。因此,大数据的容错思维会使数据分析更全面,分析结果更具独特价值。

3.从因果思维转向相关思维

因果思维旨在解释事物的内部运作机制,即“为什么”;相关思维通过识别两者之间的关联性来分析和预测,即“是什么”。借助相关思维分析模式,大数据系统能够快速探测出正在发生什么,揭示单凭经验假设和案头分析难以发现的事物之间的联系。通过对相关性分析,两种看起来无关的现象可以通过大数据技术结合起来,虽然可能存在不可解释性,但结果一般是客观的、准确的。大数据的相关性分析方法更准确、更敏锐,且不受主观因素的影响。