AmosCloud

Library

Have a Question?

If you have any question you can ask below or enter what you are looking for!

SparkStreaming

大数据计算

对比 批处理(离线计算) 流处理(实时计算)
延迟 高:需要以更大的数据量作为计算输入 低:最小的处理单元可以是一条数据
场景 数据仓库-数据分析-数据挖掘 监控报警-数字孪生-推荐系统
Hadoop生态中 MapReduce、Hive Storm(基于内存,以tuple作为计算单元)
Spark框架 SparkCore、SparkSQL SparkStreaming(以RDD作为计算单元)(微批处理)
Flink框架 DataSetAPI、TableAPI DataStreamAPI(以单条数据作为计算单元)

SparkStreaming

是什么

是Spark的一个模块,专门用于构建高扩展性、高容错的流式计算程序。

  • 特点

    1. 简单易用
      SparkStreaming提供了一个新的数据抽象DStream
      DStream提供了除了RDD已有算子之外,更多的高级算子用于构建处理逻辑
      可以使用与批处理相同的开发方式,方便的构建流式计算

    2. 高容错
      SparkStreaming通过设计合理故障转移机制,
      以及利用SparkCore的checkpoint机制,实现准确性极高的”恰好一次“的运算

    3. 兼容Spark其他组件
      可以在SparkStreaming的流式计算中,直接使用RDD或者DF、DS的API进行混合开发