实时流计算服务(Cloud Stream Service,简称CS),是运行在公有云上的实时流式大数据分析服务,全托管的方式用户无需感知计算集群,只需聚焦于Stream SQL业务,即时执行作业,完全兼容Apache Flink(1.5.3版本)API和Apache Spark(2.2.1版本)API。
实时流计算框架
产品优势: 1. 简单易用 在线SQL编辑平台编写Stream SQL,定义数据流入、数据处理、数据流出,快速便捷实现业务逻辑;用户无需关心计算集群, 无需学习编程技能,降低流数据分析门槛 2. 独享集群 全托管模式,自动弹性伸缩,用户完全不感知计算集群。提供共享集群和独享集群两种模式,独享集群与其他租户和共享集群完全物理隔离,并支持配额限制管理 3. 按需计费 按资源使用量计费,用多少算多少,定价单位是SPU(Stream Processing Unit, 1 SPU=1核CPU+4G内存),用户选定SPU数,按时长计费,精确到秒 4. 高吞吐低时延 采用Apache Flink的Dataflow模型,完全的实时计算框架。采用高性能计算资源,从用户自建的Kafka、MRS-Kafka、DMS-Kafka消费数据,单SPU每秒吞吐1千~2万条消息,不同场景的吞吐
主要功能: 1. 丰富的StreamSQL在线分析能力 支持Window、Join等聚合函数、地理函数、CEP函数等,用SQL表达业务逻辑,简便快捷实现业务。详细内容请参见《实时流计算服务SQL语法参考》。
2. StreamingML 提供多种流式机器学习方法对数据进行实时分析与预测,用户仅需编写SQL调用相关函数便可实现数据统计,异常检测,实时聚类,时间序列分析等场景。详细内容请参见StreamingML。
3. 地理位置分析 提供地理位置分析函数对地理空间数据进行实时分析,用户仅需编写SQL便可实现例如偏航检测,电子围栏等地理分析场景。详细内容请参见地理函数。
4. CEP SQL 提供基于Match Recognize的模式匹配检测,帮助业务人员使用SQL实现基于复杂事件规则的异常检测业务。典型应用场景如欺诈检测、车辆异常行为检测、工业设备异常运行状态检测等。详细内容请参见CEP模式匹配。
5. 数据可视化 提供多种图表类型实时展示作业数据输出,用户还可以通过API网关服务自由访问作业数据,接入自定义工作流中。详细内容请参见数据可视化。
6. 可视化SQL编辑器 实时流计算服务针对不太熟悉SQL的用户,提供了可视化编辑器功能,它将实时流计算服务需要对接的上下游服务(如DIS、CloudTable等)和内部逻辑算子(如 filter、window等)封装成可拖拽的组件,用户只需要将其拖入画布中并用连线将各个元素连接,就能轻松的创建出一个作业的拓扑,再通过点击画布中的各个元素设置对应参数,就能轻松完成一个作业的编辑。详细内容请参见可视化编辑器。
7. 支持独享集群及其作业的资源配额 允许租户创建独享集群,独享集群与其他租户和共享集群是完全物理隔离的,不会受其他作业影响。租户可配置独享集群最大可使用SPU配额,并为其子用户分配可用的集群以及可使用的SPU配额。详细内容请参见集群管理。
8. 支持在线测试SQL作业 作业调试功能可以帮助用户校验SQL语句逻辑是否正确,通过用户的样例数据输入(支持手动输入和OBS输入两种方式)结合SQL逻辑快速输出样例结果,确保在作业正式运行时,逻辑处理正确。详细内容请参见调试作业。
9. 支持Flink和Spark自定义作业 允许用户在独享集群上提交Flink和Spark自定义作业。
10. 支持Spark streaming和Structured streaming 允许用户在独享集群上提交Spark streaming自定义作业。
11. 支持与多种云服务连通,形成丰富的流生态圈。 实时流计算服务的生态分为云服务生态和开源生态:
12. 云服务生态:实时流计算服务在Stream SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据,如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。 开源生态:通过对等连接建立与其他VPC的网络连接后,用户可以在实时流计算服务的租户独享集群中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。
13. 支持智能边缘平台(Intelligent EdgeFabric) 智能边缘平台 (IEF)与实时流计算服务的结合,支持流处理云端管理,边缘侧运行,提供实时流处理能力。
应用场景 实时流计算服务的使用,聚焦于互联网和物联网场景,适用于实时性要求高、吞吐量大的业务场景。主要应用在互联网行业中小企业、物联网、车联网、金融反欺诈等多种行业应用场景,如互联网汽车、日志在线分析、在线机器学习、在线图计算、在线推荐算法应用等。 1. 实时流分析场景 提供易用、低时延、高吞吐的实时流分析服务。支持Stream SQL和用户自定义作业做流分析。
场景优势 易用:在线编辑Stream SQL,丰富的SQL函数满足复杂业务需要。 完全托管:用户完全不感知计算集群,聚焦流分析本身。 按需计费:作业选定SPU资源量,按时长计费,精确到秒。 场景特点:面向流数据,支持Window、CEP、Join等复杂的流分析操作,毫秒级时延。
适用场景:实时日志分析,网络流量监控,实时风险管控,实时数据统计,实时数据ETL。
实时流分析场景
2. 物联网IoT场景 物联网设备或边缘设备,上传数据到数据接入服务(DIS)或者其他云存储服务,实时流计算服务直接从DIS读取数据,实时分析数据流(故障检测、数据清洗、统计分析、指标预警等等),实时把流分析结果持久化或推送告警通知。
场景优势 丰富的IoT SQL函数:区域检测函数、偏航检测函数、相对位置判断等常用的IoT函数。 高吞吐低时延:使用Apache Flink执行引擎 ,完全的实时计算框架。 安全隔离:租户之间完全隔离,确保数据安全。 场景特点:物联网IoT直接调用实时流计算服务API,实时流计算服务可以实时读取传感器信息并执行用户的分析逻辑,分析结果对接到DIS、RDS等服务,并用于可视化、持久化、告警或报表展示。
适用场景:电梯IoT、工业IoT、共享单车、互联网汽车和智能家居。