KPI严重性、服务严重性和服务SLO严重性都能够反映服务健康状况,为了实时监控服务健康状况,可配置【告警策略】定时监控(分钟级)KPI、服务以及服务SLO的严重等级,一旦监控项满足预设条件则通知相关运维人员,从而减小服务质量下降所带来的不良影响。
告警触发机制
如上图所示,【告警策略】配置流程主要包括触发条件、告警计划和触发操作。具体而言,【触发条件】是指触发告警时要满足的条件,如当某个服务的某个KPI严重性等于严重时将触发告警。【告警计划】包括执行范围(监控的时间窗口,如最近5分钟)、执行频率(间隔多久检查是否满足触发条件是否产生告警,最快执行频率为1分钟)、告警时间(执行告警的时间段,如每天23点至次日6点执行)、告警抑制(多久时间内只发送一次告警)。【触发操作】是指产生告警后的通知方式,目前包括邮件通知、微信通知、HTTP转发和Syslog转发多种告警通知方式。
KPI告警
告警触发条件设置为某个或多个KPI,告警任务开始执行时,则会搜索执行范围内的KPI数据,然后按严重等级对这些数据进行统计,当满足告警触发条件时则产生告警事件和告警通知。
SLO告警
告警触发条件设置为某个或多个服务SLO,告警任务开始执行时,则会搜索执行范围内的SLO数据,然后按严重等级对这些数据进行统计,当满足告警触发条件时则产生告警事件和告警通知。
服务可用性告警
告警触发条件设置为某个或多个服务健康分数,告警任务开始执行时,则会搜索执行范围内的服务健康度数据,然后按严重等级对这些数据进行统计,当满足告警触发条件时则产生告警事件和告警通知。
告警降噪
配置【告警】后,当服务异常时将产生告警事件,如果未及时处理将会一直堆积,大量重复的告警不利于运维人员排障。因此,服务健康度分析模块提供【告警事件审查】功能对重复告警事件按不同维度分组从而实现告警降噪。