更新时间:2023-04-28 10:04:54

►问题描述:出现kafka服务崩溃,alert-manager服务一直重启

►排查思路1:升级上来的告警规则,在告警规则编辑页面点击【在搜索中打开】查看是否能正常查询,返回的数据记录是否有无法解析的异常字符。

►排查思路2:指标告警中向Uniquery查询数据的超时时间是5s,如果OpenSearch本身数据量比较大,有可能无法及时返回,导致大量任务失败可以调低告警规则的执行频率。