1.2 机器学习和大数据

我们知道,大数据(Big Data)是收集和分析巨量数据的过程,它有助于发现隐藏的有用模式和其他信息,例如客户选择、市场趋势等等。这些信息往往对一个企业的业务决策起着重要作用。

关于“大数据”这一个术语的来源有多种版本。一个说法是,在2005年,来自O'Reilly Media公司(世界上具有领导地位的出版公司,同时也是联机出版的先锋)的Roger Mougalas首次创造了“大数据”一词,它指的是使用传统的商业智能工具几乎无法管理和处理的大量数据。同年,目前非常流行的大数据平台Hadoop由雅虎(Yahoo)推出,其目标是对整个万维网建立索引。

现在大数据是继资本资源、人力资源和自然资源之后的第四种生产要素,对整个社会的经济发展产生了巨大影响。麦肯锡全球研究所(McKinsey Global Institute)对大数据的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和价值密度低(Value)四大特征,简称为4V,如图1-5所示。

图1-5 大数据的4V特征

除了上面的4V外,也有学者认为还应添加一个真实性(Veracity),最后简称为5V。

大数据和机器学习都属于数据科学的范畴,它们的研究范围之间互有重叠,并且相互依赖。从处理方式和应用方面两者具有下面的区别:

◇大数据的主要工作包括如何存储、治理数据以及提取的工具(通常为Hadoop),所以大数据与高性能计算有紧密的关系;而机器学习是计算机科学和人工智能的一个分支,它能赋予计算机无须明确编程就能学习的能力。

◇大数据分析是基于已有历史数据,分析并发现隐含其内的模式或信息;而机器学习的目的是训练机器如何对新数据进行响应,并给出输出结果。

◇大数据分析涉及数据的结构和数据建模,所以需要人工介入;而机器学习执行的工作往往是自动进行的,无须人工干预,如自动驾驶等。

实际上,大数据通常是作为机器学习的输入,两者的结合可以给企业带来奇迹,通过机器学习等技术,可以充分利用和发挥大数据的价值,如图1-6所示。

图1-6 大数据和机器学习的关系