更新时间:2023-02-02 14:40:37
服务健康度分析模块聚焦IT环境中的各类服务,可为用户提供一个智能运维管理方案的搭建平台。作为运维管理人员,您可通过服务分析器快速了解运维环境中各服务的运行健康状况、基于告警推送及时定位排障,化被动为主动运维;作为管理人员,您可通过业务全景图模块查看整体系统运维关联视图,随时监控系统运维的全局健康情况。
• 通过服务分析器可视化展示各服务运行健康状况,帮助用户迅速定位业务故障根源,详情可参见 服务分析器 章节;
• 通过业务全景图可自定义运维体系关联图谱,借助可视化视图监控各业务服务之间的依赖关系,实现全局化高效的 IT 运维监控及排查分析,详情可参见 业务全景图 章节;
• 当服务运行过程中存在服务、KPI或SLO异常告警时,系统将即时执行异常告警信息通知或转发;同时支持查看告警事件记录,以帮助运维人员预知风险,第一时间完成定位排障。

基本工作流程,如下所示:

功能点 功能点介绍
配置服务 通过设置服务质量目标(SLO)、添加服务依赖、服务依赖KPI、定义服务可用性,进行服务创建,实现服务健康状态的分析及监控
配置告警 用于设置服务、KPI、SLO告警策略,实现异常监测以及告警消息通知/转发
配置 KPI 计算模板 用于配置 KPI 统一计算模板,适用于多 KPI 应用同一个 KPI 计算模板的场景,可提升搜索及聚合计算性能,简化 KPI 参数配置操作
服务分析器 用于监控各服务运行健康状况,并支持服务下钻查看指定服务周期内SLO趋势、服务健康度(各KPI的聚合值及严重性状态)详情
业务全景图 用于根据不同业务场景自定义运维体系关联图谱,并支持各服务运行健康状况可视化,实现全局化运维管理
告警事件审查 用于审查所有服务或 KPI 触发生成的告警事件记录,并支持智能告警合并,帮助运维人员利用告警事件记录,实现高效的告警故障定位及排查