更新时间:2023-01-18 10:14:55

下文以AnyShare服务可用性的监控场景为例,介绍AnyShare运维管理员如何使用AnyRobot监控仪表盘及时发现服务可用性状态异常的情况,定位异常对象。

准备工作:

完成下方准备工作后,方可通过Grafana 「AnyShare服务可用性监控仪表盘」监控AnyShare各服务的可用情况。

  1. 完成数据接入:使用AnyRobot数据采集客户端MetricBeat完成AnyShare微服务应用状态监控数据的采集;
  2.  完成对象导入:导入对应的日志库、日志分组及监控仪表盘(Grafana)文件。

操作详情请参见《AnyRobot Family AnyShare服务可用性监控实施指导》,文档路径:AnyShare://产品安装包和补丁库/AnyRobot产品部/AnyRobot 5.0{对应版本}/AR Eyes 5.0.0.4{对应版本号}/场景分析模板/云基础设施可观测性{对应子场景的实施指导}

1. 登录Grafana监控仪表盘

登入AnyRobot,点击界面右上方的 图标,完成登录后可进入Grafana仪表盘页面。点击Dashboards>Browse,选择anyshare>AnyShare服务可用性监控仪表盘,您可进入「AnyShare服务可用性监控仪表盘」详细了解AnyShare业务服务及基础服务的可用情况,如下所示:

2. 查看服务可用性监控仪表盘,定位异常服务副本

AnyShare采用基于Kubernetes的云原生架构,一个服务通常存有一个或多个副本,服务的可用性取决于各服务副本的可用情况(即:当服务所有副本的可用性状态皆为正常时,此服务的可用性状态正常;当处于异常状态的服务副本数>0时,此服务的可用性状态为异常)。

「AnyShare服务可用性监控仪表盘」提供了包括业务服务、基础服务两层级的服务监控视角。进行日常巡检时,您可进入此仪表盘了解AnyShare业务服务、基础服务的可用情况,以及各层级服务副本的可用情况,如下所示:

提示:点击页面右上角的“ ”按钮,可根据实际需求调整仪表盘监控数据的展示时段。

基于此仪表盘您可通过以下操作,获取相应服务信息:

1)查看AnyShare系统中的异常服务

仪表盘最上方的指标监控区域将直观展示异常服务的数量、数量占比及趋势信息。

说明:此监控区域中,红色色块表示指定监控周期内可用性处于异常状态的服务,绿色色块表示此监控周期内可用性处于正常状态的服务

当系统检测到异常服务(即可用性状态异常的服务)时,您可在「业务服务可用状态」及「基础服务可用状态」监控面板中直观了解出现异常的具体服务(以下图为例仪表盘监控到sharemgnt业务服务状态异常),将鼠标悬浮至红色色块上方可查看异常服务的具体名称,如下所示:

2)查看异常详情,了解异常服务副本可用性情况

  •  业务服务

AnyShare的业务服务是指直接影响AnyShare对外业务功能的服务,包括文档、搜索、客户端、Workflow、AutoSheets、权限、许可证、部署等上层服务。当业务服务可用性状态异常时,不仅会直接影响该服务对外提供的业务功能,也会影响依赖该服务的其他服务对外提供的业务功能。仪表盘下半区域展示可用性状态异常的服务副本详情,包括指定时间周期内可用性状态异常的副本的数量趋势、处于可用及不可用状态的服务副本情况。

基于此区域的监控数据,您可了解业务服务异常副本的数量副本出现异常的具体时间点(以下图为例,此异常服务共包含1个状态异常的副本即1个Pod可用性状态异常,服务出现异常的具体时间点为2023-01-13 12:51:30),结合服务状态的历史数据详细了解业务服务异常,如下所示:

  • 基础服务

AnyShare的基础服务包括AnyShare的数据库、消息队列、缓存等底层服务,当AnyShare的基础服务可用性状态异常时,会直接影响所有依赖此基础服务的其他服务的运行状态。

当您发现系统中存有异常的基础服务时,可在基础服务副本的相关监控面板中继续了解异常基础服务下的异常副本情况,了解基础服务异常副本的数量副本出现异常的具体时间点,结合服务状态的历史数据了解基础服务异常。

3. 查看服务清单,明确业务影响

「AnyShare服务可用性仪表盘」内置了对各服务对应服务能力的详细说明,您可点击仪表盘页面最上方”说明”区域的"",在展开的下拉面板中查看异常服务对应的功能说明,明确此异常服务影响的对外业务功能,如下所示:

提示:基于此仪表盘的相关告警功能目前还在开发阶段,相关告警需求可借助「Kubernetes事件监控仪表盘」实现,场景使用说明详情请参见 Kubernetes事件告警仪表盘