温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下Spark中的d stream. 首先了解一下Spark生态圈中的组件,Spark codere是Spark的执行引擎,Spark code的数据模型是2DD Spark SQL是Spark提供的数据分析引擎,它支持使用SQL处理大数据,Spark SQL的数据模型是data frame Spark streaming是Spark的流处理引擎,它的数据模型是d streamam. 这里重点讨论一下Spark streaming的数据模型this stream this stream的全称是discreteest streams翻译成中文是离散流。其核心机制是通过指定时间间隔把连续的实时数据流变成不连续的RDD,从而处理实时的流失数据。这里坐标轴表示时间,时间是一个连续的过程,假设指定时间间隔为1小时8点到9点,这是一个连续的过程,通过采集数据,把这个时间区间上产生的所有数据采集出来,生成第一个RDD。它表示。
01:00
8点到9点这个连续时间上产生的所有数据,9点到10点,这是一个连续的过程,通过采集数据,把这个时间区间上产生的所有数据采集出来,生成第二个RDD,它表示9点到10点这个连续时间上产生的所有数据,后面的数据流以此类推。通过这样的方式,就可以把连续的数据流变成不连续的RDD,这些不连续的RDD组成的流就是d streamam. 因此从本质上看,Spark streaming依然是一个离线计算。现在你已经知道什么是stream了,那你知道如何创建吗?欢迎评论区留言讨论好了,记得点加号关注赵宇强老师。
我来说两句