Overview
Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。...它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法...spark-streaming-flume_2.10
Twitter spark-streaming-twitter_2.10
ZeroMQ spark-streaming-zeromq..., [numTasks]) 把(K, V)和(K, W)的Dstream连接成一个(K, Seq[V], Seq[W])的新Dstream
transform(func)...Performance Tuning
对于调优,可以从两个方面考虑:
(1)利用集群资源,减少处理每个批次的数据的时间
(2)给每个批次的数据量的设定一个合适的大小
Level of Parallelism