1.1 大数据带来的问题

每个人都在采集越来越多的数据,这些数据涉及设备指标、用户行为跟踪、商业交易、地理位置、软件及系统测试程序和工作流等。从这些数据所获得的洞见,能够决定一个创业项目乃至一家公司的成败。

同时,数据存储机制日益多样:关系型数据库、NoSQL数据库、文档数据库、键值存储和对象存储系统等。对于当今的组织结构,它们当中很多是必备的,只使用其中一种已经不够了。应对如图1-1所示的情形是一项令人生畏的艰巨任务。

此外,这些不同的系统不允许你使用标准工具来查询和检视数据。面向特定系统的查询语言和分析工具比比皆是。与此同时,你的商业分析师已习惯使用业界标准——SQL,无数强大的工具依赖SQL来分析数据、创建仪表盘、制作丰富的报告以及完成其他商业智能工作。

图1-1:大数据可能会让人难以招架

数据分散在各个孤岛上,对有些数据的查询无法满足分析所需的必要性能。其他系统则将数据存储在单一庞大的系统上,因而不能像现代的云应用程序一样横向扩展。没有这些能力,你就只能缩小潜在的使用场景和减少用户数量,因此降低了数据的实用价值。

对全世界的组织来说,创建和维护大型专用数据仓库的传统方法成本高昂。通常,对很多用户和使用模式来说,这种方法也显得缓慢且笨拙。通常被考虑作为解决方案的数据湖,要么成了无人问津的数据倾倒场,要么需要带着巨大的痛苦艰难地尝试才能对它做数据分析。作为新方法的数据湖仓,尽管它可以融合数据仓库和数据湖两者的优点,但也不是唯一的解决方案。数据将持续分布,存储在各个地方,并将出现越来越多的系统。

显而易见的是,一个系统如果可以释放所有这些价值,将会带来巨大的机会。