假设我有一个非常基本的星火流应用程序,它从kafka读取100个数据记录,运行一个映射步骤,然后在每个中间阶段调用stream.print(5)。一切都很顺利。火花打印5条记录在每个实习生。我的问题是:打印函数是否使星火在所有100条记录上计算地图步骤,还是仅在我要求的5条记录上计算?我只想确保spark对所有数据执行所有步骤,因为我正在运行一些性能测试。
发布于 2016-12-20 13:59:12
星星之火将在整个map上运行DStream阶段。您只打印5条记录的事实是,只有它们是从迭代器中使用的,而rest确保所有数据都将通过转换。
https://stackoverflow.com/questions/41243876
复制相似问题