若不想因灾备主机内存不足、宕机等因素导致的灾备任务突然中断,影响业务推进,就需要实时掌握主机系统运行状态、及时发现主机使用异常,使用AnyRobot内嵌的Grafana仪表盘,可以快速查看灾备主机系统使用情况,还可以收到主机状态异常的告警通知,及时发现主机系统异常并溯源排障,保障灾备系统稳定性。
以下将以灾备主机CPU使用率为例,介绍如何及时发现灾备系统主机运行状态的异常并溯源:
1. 收到灾备主机CPU使用率大于90%的告警通知后,登陆AnyRobot,进入告警>告警事件页面,查看触发告警的告警规则以及相应的告警描述,初步了解主机CPU使用率超标情况,如下所示:
2. 选择需查看的告警事件,点击【告警详情】打开告警详情窗口,在此窗口可查看该告警规则下所触发的告警事件的详细信息,包含:告警基本信息、告警记录,进一步了解主机CPU使用率超标的历史情况,如下所示:
3. 在告警详情窗口点击【在搜索中打开原始日志】,即可跳转至搜索>事件页面查看原始日志。在此页面,可点击图标来查看上下文,也可点击【列表模式】切换日志显示模式,如下所示:
4. 还可通过查看主机监控的Grafana仪表盘来了解主机CPU使用率的具体情况(包括不同节点下的各维度下CPU使用率历史最大值、此刻值等信息),从而具有针对性地溯源排障。
点击Grafana,输入账号、密码登录(账号:admin,密码:***),点击【General】,在所有监控仪表盘列表选择“主机监控”,在左上角选择需要查看的主机,查看用户态CPU使用率、内核态CPU使用率、等待CPU使用率等CPU使用率信息,如下所示:
5. 您还可以通过以下操作进行仪表盘下钻以查看某种CPU使用率在某段时间内的趋势变化:
- 点击图例中某一CPU使用率,此折线图则只呈现此种CPU使用率的变化趋势,变化过程更加清晰,如下所示:
- 在图表中横向选中一段距离,则可以实现时间下钻,查看选中时间内的CPU使用率变化趋势情况,也可点击右上角时间选择器更改下钻的时间段,如下所示: