传统大数据架构 :之所以叫传统大数据架构,是因为其定位是为了解决传统bi的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。
优点:简单,易懂,对于bi系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉bi的组件。
流式架构 :在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了etl,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。
优点:没有臃肿的etl过程,数据的实效性非常高。
lambda架构 :是大数据系统里面举足轻重的架构,大多数架构基本都是lambda架构或者基于其变种的架构。lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其终的一致性,因此lambda外层有一个实时层和离线层合并的动作,此动作是lambda里非常重要的一个动作。
优点:既有实时又有离线,对于数据分析场景涵盖的非常到位。
上海中公优就业IT培训