Spark Streaming源码分析 – JobScheduler

时间:2014-03-11 01:37:26   收藏:0   阅读:855

先给出一个job从被generate到被执行的整个过程
在JobGenerator中,需要定时的发起GenerateJobs事件,而每个job其实就是针对DStream中的一个RDD,发起一个SparkContext.runJob,通过对DStream中每个RDD都runJob来模拟流处理

bubuko.com,布布扣

再看个outputStream的具体实现

saveAsTextFiles

bubuko.com,布布扣

最后,再强调一下RDD中执行中如果从InputDStream取到数据的,就全打通了
就再看看NetworkInputDStream.compute是如何最终获取数据的

bubuko.com,布布扣

 

JobScheduler
SparkStreaming的主控线程,用于初始化和启动,JobGenerator和NetworkInputTracker
分别用于,产生并定时提交job,和从InputDStream不断读取数据

bubuko.com,布布扣


JobGenerator

bubuko.com,布布扣

 

DStreamGraph
用于track job中的inputStreams和outputStreams,并做为DStream workflow对外的接口
最关键的接口是generateJobs

bubuko.com,布布扣

Spark Streaming源码分析 – JobScheduler,布布扣,bubuko.com

原文:http://www.cnblogs.com/fxjwind/p/3592177.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!