1.3.5 新一代流处理器

之前的分布式流处理架构都有明显的缺陷,人们也一直没有放弃对流处理器的改进和完善。终于,在原有流处理器的基础上,新一代分布式开源流处理器诞生了。为了与之前的系统区分,我们一般称之为第三代流处理器,其代表就是Flink。

第三代流处理器通过巧妙的设计,完美地解决了乱序数据对结果正确性的影响,并且这一代系统做到了exactly-once的一致性保障,是第一个具有一致性和准确结果的开源流处理器。另外,先前的流处理器仅能在高吞吐和低延迟中二选一,而第三代流处理器能够同时提供这两个特性。因此可以说,这一代流处理器仅凭一套系统就完成了Lambda架构两套系统的工作,它的出现使Lambda架构黯然失色。

除了低延迟、容错性和结果准确性,新一代流处理器还在不断地添加新的功能,如高可用的设置,以及与资源管理器(如YARN或Kubernetes)的紧密集成等。

下面我们会将Flink的特性做一个总结,从中可以体会到新一代流处理器的强大。