关键事件

最近更新时间:2024-09-04 20:44:32

我的收藏
关键事件支持查看作业启动/停止事件、作业运行失败事件、源表 Schema 变更等事件。
实时运维界面支持从任务记录后,单击任务名称 > 关键事件,即可进入关键事件列表。



参数
描述
作业启动/停止
当用户在作业操作菜单选择运行,系统会尝试启动该作业,并自动为本次运行创建一个新的实例 ID;随后在事件面板中,可以看到一个新的启动事件。
当用户停止、重启作业,或者作业发生了崩溃并退出,则会在本次实例 ID 下,产生一条停止事件。事件发生时间指的是内部流程执行完成的时间点,而非用户界面上点击操作的时间点。
作业运行失败
当作业运行时发生了重启(由运行中 RUNNING 状态变成 重启中 RESTARTING 或 失败 FAILED 等异常状态),则会生成一条“发生作业失败”事件。如果后续作业又进入了 RUNNING 状态,则会生成一条“作业失败已恢复”事件。此外还可以对作业运行失败事件查看对应解决方案。
快照失败
如果作业启用了周期性快照,且在某次快照过程中发生了失败,则会生成一次“发生快照失败”事件。如果后续快照成功完成,则会生成一条“快照失败已恢复”事件。此外还可以对快照失败事件查看对应解决方案。
作业异常
各类作业异常事件,后台会持续监测和分析作业的运行状态,当作业遇到严重异常时(例如 TaskManager Full GC 过久、CPU 占用率长期过高、Pod 异常退出等),会推送相应事件以供用户查看和订阅,以此可判断作业的运行健康度。
此外还可以对作业异常事件查看对应解决方案。
源端 Schema 变更
任务同步过程中,如果源端发生了 Schema 变更,业务上需要能及时感知,并快速判断和响应。当源端有 Schema 变更时,支持捕获和展示变更事件。此外还可以对源端 Schema 变更事件 配置告警
说明:
为了避免返回事件过多,我们限定用于筛选的连续时间段最长为7天,且最多能查看近90天的事件。