更新时间:2023-06-13 09:58:26

层层下钻定位故障

通过服务健康度分析模块可实现对业务系统的24小时实时监控,一旦业务系统无法正常运行,运维人员将会收到相关告警通知,再借助服务分析器进行故障定位(如上图所示),运维人员进入服务健康度分析的服务分析器页面,点击查看该服务状态,然后通过层层向下钻取,找到故障发生的实体。

 

运维全局视角根因分析

IT系统都是由很多个组件组成的,有些时候当我们收到告警时已经有多个服务存在异常,最严重的服务可能并不是根本原因。例如上图所示AnyShare系统中某个服务出现故障,导致多个服务相继发生故障,进入业务全景图可查看各个服务间的依赖关系,从而找到最“上游”的异常服务,此时这个服务很有可能是根因服务。然后再通过服务分析器、数据搜索等功能排查故障的根本原因,这极大地提升了复杂IT架构下故障的根因定位效率。

 

服务SLO分析以评估是否满足SLA

服务提供方与服务使用方之间一般会签订SLA协议,SLA会明确服务提供方需要保证的服务质量,以及服务质量水平的详细计算公式。通过服务健康度分析模块,可以设置服务的SLO,实现服务质量水平的持续监控;然后再通过服务分析器功能查看分析服务的SLO数据,快速评估指定周期内服务质量是否满足SLA。