SparkStraeming
SparkStreaming
是什么
-
SparkStreaming是Spark中的一个模块,用于构建高容错的流式计算程序
-
特点
-
简单易用
可以直接通过类似RDD的高级算子操作构建流式计算程序,支持Java,Scala,Python语言 -
容错
可以维护一个有状态的保证恰好一次的流 -
兼容Spark的其他组件
可以在SparkStreaming中使用之前的SparkCore和SparkSQL所有API操作
-
流式计算的发展历程
-
早期hadoop生态中使用Storm作为主流的流式计算框架
- 编写Storm程序时,需要先构建Topology(拓扑)
- topo中包含spout和bolt
- spout负责读取外部数据并将数据发送到下游的bolt
- bolt处理接收到的数据并将数据发送到下游的bolt