1.2.3 从开源生态到垂直领域

(1)开源与框架化。

开源与生态化是大数据产业生态的最显著的特点,Hadoop 的发布奠定了大数据开源生态的基础,通过开源社区可以找到大数据处置流程各环节的技术产品,开源模式的巨大成功也促使谷歌发布了开源平台 BEAM,积极投身开源生态。同时,统一大数据框架、开放的接口也促使相关的大数据技术产品互联互通,从而推动大数据生态的发展。Hadoop 平台框架能够实现大数据完整生态系统;Spark框架、Beam框架等实现了批处理计算、流式计算、图计算、内存计算等在内的大数据计算模式。一方面,各类大数据框架通过支持更多编程语言、优化开放端口、提高兼容性等方式不断提升其开放程度;另一方面,各类大数据主动与大数据技术框架适配,以推动产品的适用性、提升市场占有率。目前,主流的大数据产品基本都能与Hadoop框架兼容。

(2)互联网企业是大数据处理技术的主力推动者。

海量数据是开展大数据应用的基础,搜索、电商、社交等领域的互联网企业拥有大量个人、社会信息,在经济利益驱动下,投入大量资源开展研究,不断优化系统架构,通过精准的搜索结果、内容推荐和快速的系统响应满足个性化、差异化用户需求,提升产品服务竞争力,成为推动大数据处理技术的先驱。例如,大数据的“三驾马车”由谷歌公司开发,Storm由Twitter公司开发,Samza由LinkedIn开发,阿里巴巴公司则在Flink基础上开发了开源的Blink,以支撑其超大规模的业务场景。

(3)技术应用融合。

从大数据的定义可知,大数据并不仅指体量大的数据,也不只是一项新技术,而是通过各类技术实现对数据的管理与应用,呈现技术综合性、交叉性强的特点。大数据的产生归结于互联网、移动互联网、工业互联网、云计算、人工智能等技术的快速崛起,互联网发展使存储的数据量大幅提升,云计算发展为大数据的存储提供了保障,人工智能、边缘计算、数字孪生等技术的突破为大数据挖掘、数据分析提供了支撑。目前,大数据发展技术融合包括算力融合、流批融合、事务与分析融合、模块融合、云数融合、数智融合等。

(4)模块与精细化。

大数据自身的特点决定了大数据处置流程各环节都面临着巨大的安全挑战,不可能通过研发一套“一招鲜”的产品满足某个流程的某个环节的全部需求,在 Hadoop 已成为大数据处理既成标准的背景下,业界更专注在与 Hadoop 的平台框架兼容的情况下,产品开发的模块化与精细化,通过不断地拆解、细化需求,专注于某一功能不断优化、迭代产品,以提升产品性能、扩展性、易用性和不可替代性,实现大数据处理领域的“单项冠军”。例如,在Hadoop中,文件的存储与查询通过利用HDFS、Hive、Pig等模块进行组合实现;在Spark中,分别有独立的产品实现批处理、流式计算、图计算、内容计算等;在大数据计算模式相关产品中,Pregel、Giraph、Trinity等专注于图计算。