更新时间:2023-06-14 10:17:51

关键词

KPI、服务、SLI、SLO、服务分析器

 

术语说明

术语 说明

服务

服务是基础设施、IT系统等应用程序的逻辑映射,用户可针对不同场景配置对应服务,从而实时监控系统的运行状况。

KPI

KPI (Key Performance Indicator) 关键绩效指标是用于直接衡量服务健康状况的性能指标,如CPU 负载百分比、内存使用百分比、响应时间等。

KPI严重等级 KPI可设置阈值条件来计算KPI健康度,可设置三个阈值条件,对应严重等级为正常(100分)、警告(60分)和严重(0分)
服务健康分数

服务健康分数由KPI严重等级(映射分数)和依赖服务健康分数加权计算得到,服务健康分数反映了服务的实时健康状况,数值越大表示服务健康状况越好。

服务严重等级

服务可设置服务健康分数阈值条件来计算服务的严重等级,同样可设置三个阈值条件,对应严重等级为正常、警告和严重。

服务可用性

服务严重等级为严重时,则服务可用,否则称服务不可用。

SLI

服务质量指标(Service Level Indicator,SLI)用于衡量服务在指定周期内的质量水平,如:当选择基于服务可用性计算SLI时,实际服务在7天中有1天的服务健康分数处于“严重”等级,则SLI=1-(服务不可用时间/服务周期时间)=1-(1/7)=85.7%。AnyRobot支持基于服务可用性、实体可用性、事件计数3种方式计算SLI。

SLO

服务质量目标(Service Level Objective,SLO)用于定义服务质量指标(Service Level Indicator,SLI)的目标值,目标值明确了服务使用者对服务质量的期望水平。当SLI≥期望目标时,表示实际服务质量满足服务使用预期,如:某服务的SLO描述为“过去7天,至少90%的时间里服务是可用的,则过去7天内的SLI需≥90%方可达成SLO,满足服务预期。

服务分析器

服务健康状态以及相关指标的展示页面。

业务全景图

借助基本图形组件可自定义运维体系关联图谱,以全局化的角度了解业务系统的全貌和各业务服务之间的依赖关系。

服务监控告警

为了监控服务某一指标(KPI、服务健康度、SLO健康度)而设置的告警策略。

告警转发

告警触发时的操作,转发途径包括邮件、微信、HTTP、Syslog等。