From 5e5b4d42a33571d36698635bc68019c68a839c5b Mon Sep 17 00:00:00 2001 From: CharlesCheung Date: Thu, 5 Dec 2024 18:35:15 +0800 Subject: [PATCH 1/3] fix alert --- ticdc/ticdc-alert-rules.md | 60 ++++++++++---------------------------- 1 file changed, 16 insertions(+), 44 deletions(-) diff --git a/ticdc/ticdc-alert-rules.md b/ticdc/ticdc-alert-rules.md index d7a3275cf4fd..f5e4408210c4 100644 --- a/ticdc/ticdc-alert-rules.md +++ b/ticdc/ticdc-alert-rules.md @@ -53,20 +53,6 @@ summary: 了解 TiCDC 集群监控报警规则以及处理方法。 该告警与同步任务中断类似,可参考 [TiCDC 同步任务出现中断](/ticdc/troubleshoot-ticdc.md#ticdc-同步任务出现中断)的处理方法。 -### `ticdc_processor_exit_with_error_count` - -* 报警规则: - - `changes(ticdc_processor_exit_with_error_count[1m]) > 0` - -* 规则描述: - - TiCDC 某个同步任务报错退出。 - -* 处理方法: - - 参考 [TiCDC 同步任务出现中断](/ticdc/troubleshoot-ticdc.md#ticdc-同步任务出现中断)的处理方法。 - ## 警告级别报警项 警告级别的报警是对某一问题或错误的提醒。 @@ -85,61 +71,47 @@ summary: 了解 TiCDC 集群监控报警规则以及处理方法。 收集 TiCDC 日志,定位原因。 -### `cdc_sink_flush_duration_time_more_than_10s` +### `cdc_no_owner` * 报警规则: - `histogram_quantile(0.9, rate(ticdc_sink_txn_worker_flush_duration[1m])) > 10` + `sum(rate(ticdc_owner_ownership_counter[240s])) < 0.5` * 规则描述: - - TiCDC 某一同步任务写下游执行时间超过 10 秒。 + + TiCDC 集群超过 10 分钟没有 owner。 * 处理方法: - 检查下游是否出现问题。 + 收集 TiCDC 日志,定位原因。 -### `cdc_processor_checkpoint_tso_no_change_for_1m` +### `ticdc_changefeed_meet_error` * 报警规则: - `changes(ticdc_processor_checkpoint_ts[1m]) < 1` + `(max_over_time(ticdc_owner_status[1m]) == 1 or max_over_time(ticdc_owner_status[1m]) == 6) > 0` * 规则描述: - - TiCDC 某一个同步任务进度超过 1 分钟没有推进。 + + TiCDC 某个同步任务遇到错误。 * 处理方法: 参考 [TiCDC 同步任务出现中断](/ticdc/troubleshoot-ticdc.md#ticdc-同步任务出现中断)的处理方法。 -### `ticdc_puller_entry_sorter_sort_bucket` - -* 报警规则: - - `histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_sort_bucket{}[1m])) > 1` - -* 规则描述: - - TiCDC puller entry sorter 排序延迟太高。 - -* 处理方法: - - 收集 TiCDC 日志,定位原因。 - -### `ticdc_puller_entry_sorter_merge_bucket` +### `ticdc_processor_exit_with_error_count` * 报警规则: - `histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_merge_bucket{}[1m])) > 1` + `changes(ticdc_processor_exit_with_error_count[1m]) > 0` * 规则描述: - TiCDC puller entry sorter merge 延迟太高。 + TiCDC 某个同步任务报错退出。 * 处理方法: - 收集 TiCDC 日志,定位原因。 + 参考 [TiCDC 同步任务出现中断](/ticdc/troubleshoot-ticdc.md#ticdc-同步任务出现中断)的处理方法。 ### `tikv_cdc_min_resolved_ts_no_change_for_1m` @@ -169,15 +141,15 @@ summary: 了解 TiCDC 集群监控报警规则以及处理方法。 收集 TiCDC 监控和 TiKV 日志,定位原因。 -### `ticdc_sink_mysql_execution_error` +### `ticdc_sink_execution_error` * 报警规则: - `changes(ticdc_sink_mysql_execution_error[1m]) > 0` + `changes(ticdc_sink_execution_error[1m]) > 0` * 规则描述: - TiCDC 某一同步任务写下游 MySQL 时遇到错误。 + TiCDC 某一同步任务写下游时遇到错误。 * 处理方法: From 328679773e01c2de7f3c4f0c6c274bca5da322ea Mon Sep 17 00:00:00 2001 From: xixirangrang Date: Fri, 6 Dec 2024 09:23:41 +0800 Subject: [PATCH 2/3] Apply suggestions from code review Co-authored-by: Grace Cai --- ticdc/ticdc-alert-rules.md | 1 - 1 file changed, 1 deletion(-) diff --git a/ticdc/ticdc-alert-rules.md b/ticdc/ticdc-alert-rules.md index f5e4408210c4..2e27178ee347 100644 --- a/ticdc/ticdc-alert-rules.md +++ b/ticdc/ticdc-alert-rules.md @@ -92,7 +92,6 @@ summary: 了解 TiCDC 集群监控报警规则以及处理方法。 `(max_over_time(ticdc_owner_status[1m]) == 1 or max_over_time(ticdc_owner_status[1m]) == 6) > 0` * 规则描述: - TiCDC 某个同步任务遇到错误。 * 处理方法: From 46006c07cf7c28c337cf32438d202acea176def1 Mon Sep 17 00:00:00 2001 From: xixirangrang Date: Fri, 6 Dec 2024 09:40:48 +0800 Subject: [PATCH 3/3] Update ticdc-alert-rules.md --- ticdc/ticdc-alert-rules.md | 1 + 1 file changed, 1 insertion(+) diff --git a/ticdc/ticdc-alert-rules.md b/ticdc/ticdc-alert-rules.md index 2e27178ee347..50ea5593b1ee 100644 --- a/ticdc/ticdc-alert-rules.md +++ b/ticdc/ticdc-alert-rules.md @@ -92,6 +92,7 @@ summary: 了解 TiCDC 集群监控报警规则以及处理方法。 `(max_over_time(ticdc_owner_status[1m]) == 1 or max_over_time(ticdc_owner_status[1m]) == 6) > 0` * 规则描述: + TiCDC 某个同步任务遇到错误。 * 处理方法: