关键词
KPI、服务、SLI、SLO、服务分析器
术语说明
术语 | 说明 |
服务 |
服务是基础设施、IT系统等应用程序的逻辑映射,用户可针对不同场景配置对应服务,从而实时监控系统的运行状况。 |
KPI |
KPI (Key Performance Indicator) 关键绩效指标是用于直接衡量服务健康状况的性能指标,如CPU 负载百分比、内存使用百分比、响应时间等。 |
KPI严重等级 | KPI可设置阈值条件来计算KPI健康度,可设置三个阈值条件,对应严重等级为正常(100分)、警告(60分)和严重(0分) |
服务健康分数 |
服务健康分数由KPI严重等级(映射分数)和依赖服务健康分数加权计算得到,服务健康分数反映了服务的实时健康状况,数值越大表示服务健康状况越好。 |
服务严重等级 |
服务可设置服务健康分数阈值条件来计算服务的严重等级,同样可设置三个阈值条件,对应严重等级为正常、警告和严重。 |
服务可用性 |
服务严重等级为严重时,则服务可用,否则称服务不可用。 |
SLI |
服务质量指标(Service Level Indicator,SLI)用于衡量服务在指定周期内的质量水平,如:当选择基于服务可用性计算SLI时,实际服务在7天中有1天的服务健康分数处于“严重”等级,则SLI=1-(服务不可用时间/服务周期时间)=1-(1/7)=85.7%。AnyRobot支持基于服务可用性、实体可用性、事件计数3种方式计算SLI。 |
SLO |
服务质量目标(Service Level Objective,SLO)用于定义服务质量指标(Service Level Indicator,SLI)的目标值,目标值明确了服务使用者对服务质量的期望水平。当SLI≥期望目标时,表示实际服务质量满足服务使用预期,如:某服务的SLO描述为“过去7天,至少90%的时间里服务是可用的,则过去7天内的SLI需≥90%方可达成SLO,满足服务预期。 |
服务分析器 |
服务健康状态以及相关指标的展示页面。 |
业务全景图 |
借助基本图形组件可自定义运维体系关联图谱,以全局化的角度了解业务系统的全貌和各业务服务之间的依赖关系。 |
服务监控告警 |
为了监控服务某一指标(KPI、服务健康度、SLO健康度)而设置的告警策略。 |
告警转发 |
告警触发时的操作,转发途径包括邮件、微信、HTTP、Syslog等。 |