数据加工
数据加工指的是对日志数据进行过滤、清洗、脱敏、富化、分发至目标日志主题的过程,可理解为日志 ETL(Extract-Transform-Load)。
源日志主题:数据加工任务的输入。
目标日志主题:数据加工任务的输出。
目标名称:自定义目标主题名称,一是提高目标主题的可读性(业务属性),二是将日志输出到指定目标主题时,调用的函数 log_output("别名") 中使用,数据加工任务必须要有输出的目标主题,否则任务不能创建。
DSL 加工函数:DSL(Domain Specific Language)是 CLS 针对日志 ETL 的需求,开发的日志数据处理函数。函数简单易用,处理性能高,底层基于 Flink 实现,可实时地处理日志。
定时 SQL 分析
定时 SQL 分析指的是根据指定的时间窗口,周期性对日志数据进行查询(支持检索和 SQL),并将查询结果保存至目标日志主题的过程。
源日志主题:定时 SQL 任务的输入。
目标日志主题:定时 SQL 任务的输出。
调度范围:查询日志的时间范围,例如需要查询2023年1月1日 00:00:00-2023年3月31日00:00:00的日志数据。
调度周期:周期性查询,取值范围1-1440分钟,如需生成日报表,可配置为1440分钟。
SQL时间窗口:指定查询语句的时间窗口。配合调度周期,可以实现滚动窗口、滑动窗口。
滚动窗口:没有重叠的查询窗口。如调度周期是60分钟,SQL时间窗口是60分钟。典型场景:小时报表。
滑动窗口:有重叠的查询窗口。例如调度周期是1分钟,SQL时间窗口是60分钟。典型场景:绘制【1小时内的活跃用户】时序图,时间轴的粒度是1分钟。
延迟执行:查询延迟的时间,在控制台【高级设置】中,取值范围60-120秒。日志生成索引一般会有延迟,在索引生成之前,不可查询,因此设置60秒延迟查询,此时索引已生成(99.9%的索引数据将在5秒内生成)。