AmosCloud

Library

Have a Question?

If you have any question you can ask below or enter what you are looking for!

SparkStraeming

SparkStreaming

是什么

  • SparkStreaming是Spark中的一个模块,用于构建高容错的流式计算程序

  • 特点

    1. 简单易用
      可以直接通过类似RDD的高级算子操作构建流式计算程序,支持Java,Scala,Python语言

    2. 容错
      可以维护一个有状态的保证恰好一次的流

    3. 兼容Spark的其他组件
      可以在SparkStreaming中使用之前的SparkCore和SparkSQL所有API操作

流式计算的发展历程

  • 早期hadoop生态中使用Storm作为主流的流式计算框架

    • 编写Storm程序时,需要先构建Topology(拓扑)
    • topo中包含spout和bolt
    • spout负责读取外部数据并将数据发送到下游的bolt
    • bolt处理接收到的数据并将数据发送到下游的bolt