首页
学习
活动
专区
工具
TVP
发布
技术百科首页 >Storm >Storm如何处理实时数据流?

Storm如何处理实时数据流?

词条归属:Storm

storm通过其核心组件Spouts和Bolts来处理实时数据流

  • Spouts:Spouts是Storm中的数据源,它们负责从外部源(如数据库、分布式文件系统消息队列等)中读取数据并将其转化为数据流。Spouts可以发出一个无限的数据流,这使得Storm可以处理实时的、连续的数据。
  • Bolts:Bolts是Storm中的数据处理单元,它们负责消费由Spouts发出的数据流并进行处理。处理可以包括过滤、函数应用、聚合、连接、交互等。Bolts可以处理一个或多个输入流,并且可以发出一个或多个输出流。

在Storm中,Spouts和Bolts被组织成一个拓扑(Topology)。拓扑是一个处理数据流的逻辑计划,它定义了Spouts和Bolts如何连接在一起。在运行时,Storm会将拓扑部署到集群中的多个节点上,以实现分布式的、并行的数据处理。

Storm通过这种方式处理实时数据流,使得它可以快速、可靠、分布式地处理大量的实时数据。

相关文章
storm的数据流组
数据流组 设计一个拓扑时,你要做的最重要的事情之一就是定义如何在各组件之间交换数据(数据流是如何被bolts消费的)。一个数据流组指定了每个bolt会消费哪些数据流,以及如何消费它们。 NOTE:一个节点能够发布一个以上的数据流,一个数据流组允许我们选择接收哪个。 数据流组在定义拓扑时设置 ··· builder.setBolt("word-normalizer", new WordNormalizer()) .shuffleGrouping("word-reader"
汤高
2018-01-11
7320
实时流处理Storm、Spark Streaming、Samza、Flink对比
分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。 分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。 DAG是任务链的图形化表示,我们用它来描述流处理作业的拓扑。如下图,数据从sources流经处理任务链到sinks。单机可以运行DAG,但本篇文章主要聚焦在多台机器上运行D
Albert陈凯
2018-04-04
2.3K0
Java流式处理:实时数据流的高效处理!
咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE相关知识点了,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~
bug菌
2024-09-22
1580
大数据实时处理利器 storm 的 ui 解剖
1001482
2017-07-20
4K2
实时流计算框架——Storm
官方下载地址http://storm.apache.org/downloads.html
羊羽shine
2019-05-29
1.8K0
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券