更新时间:2023-06-13 14:27:47

关键绩效指标(KPI )是指直观反映服务健康状况的指标,如:CPU 负载百分比、内存使用率百分比或响应时间等的聚合值。您可基于实际业务需求为服务添加关键绩效指标(KPI ),已添加的关键绩效指标(KPI )与服务依赖项的健康状况将共同影响当前服务的健康状况。在实际监控场景中,完成上述配置后,您可在 服务分析器 模块直观了解服务中的关键绩效指标及各依赖项的健康状况,快速定位服务异常根源。

KPI分为服务KPI和实体KPI,基于此类指标返回的具体聚合值(即KPI分数),您可直观监控各服务及各服务实体的健康状况,并定位排查可能出现异常的趋势。

► 新建KPI

1. 配置KPI基本信息及数据源 

在服务配置表单的KPI配置区域,点击【新建 KPI】弹出新建 KPI 窗口,配置参数如下所示:

♦ 基本配置:配置 KPI 名称及描述;


♦ 数据来源:用于配置 KPI 聚合计算数据来源,以及搜索数据源的时间范围;

*KPI 来源:支持已存搜索、自定义搜索、KPI 计算模板 3 种方式:

• 已存搜索:可选择系统中已保存的搜索,如下所示:


• 自定义搜索:支持输入自定义搜索语句进行搜索,点击【在搜索中打开】可通过新页面跳转进入搜索页面,查看搜索结果;同时支持通过 *日志分组 实现数据源过滤,如下所示:

注意:
1. 若当前用户不具备所选日志分组资源权限,点击【在搜索中打开】进入搜索页面后无法查看原始日志;若有需求,可联系系统管理员进行资源授权;
2. 若已选日志分组被删除,则需重新选择配置,确保 KPI 聚合值与服务健康分数可正常输出。

• KPI 计算模板:支持应用已存KPI计算模板;选择模板及指标后,搜索时间以及 KPI 计算配置均自动导入模板配置参数,如下所示:


注意:若 KPI 计算模板已关联服务,此时删除 KPI 计算模板中的关联指标,则指标以及指标关联的服务将停止聚合计算,结果显示为 N/A。

• 搜索时间:用于设置待执行计算数据的时间范围(1 分钟~24 小时),例如:搜索时间设置为前“5分钟”,表示获取前 5 分钟的日志数据进行聚合计算。

2. 配置KPI计算规则

点击【下一步】进入 KPI 计算窗口,配置不同KPI的计算方式及执行计划,配置参数如下所示:

说明:仅当开启实体拆分功能后,指标计算栏才会显示实体 KPI 计算配置项。

元素名称
元素说明
KPI 计算
*阈值字段

设置日志数据中 KPI 需聚合和监控的字段,如:mem_free_percent(可用内存%)

实体 KPI 计算

设置实体级别 KPI 的计算方式:

• 聚合计算:可选择以下方式计算实体KPI,计算方式包括:平均值、计数、总和、最小值、最大值、去重计数。如:聚合计算方式选择“最大值”,则实体KPI值=已拆分的各实体KPI值中的最大值;

• 基于不可用性:可通过设置阈值字段条件计算实体KPI。如:当设置搜索时间为5、阈值字段为“ssh_status”、阈值条件“=0”时,表示若ssh_status连续5分钟都为0,则该实体5分钟内的KPI不可用。

说明:得到实体KPI值后,可在 实体KPI阈值设置 中定义不同实体KPI值对应的实体严重性等级,系统将基于此计算实体的健康分数判断各实体是否可用。

服务 KPI 计算

设置服务级别 KPI 的计算方式:

• 聚合计算:平均值、总和、最小值、最大值。服务KPI的值由各实体的KPI值聚合得出,系统将基于此处配置的聚合方法计算服务KPI分数。如:当聚合方式设置为“总和”时,服务KPI值=所有实体KPI分数的总和,且当总和≥100时,服务KPI值=100。

说明:

1.若服务无实体依赖,系统则将此服务视为单实体,即服务依赖的KPI的聚合结果将被视为此服务的实体KPI,服务KPI及服务健康分数将由此实体KPI及实体健康分数分别聚合得到;

2.得到服务KPI值后,可在 定义服务可用性-服务KPI/服务健康分数阈值设置 中定义不同服务KPI值对应的服务严重性等级,系统将基于此分数对应的严重性等级计算此服务的健康分数,进而判断此服务是否可用。

数据间隙填充值

设置填补数据间隙的方式:
• Null 值:使用空值填充数据中的间隙,严重性级别默认为未知
• 自定义值:使用自定义数值填充数据中存在的间隙

单位

设置指标可视化显示的计量单位

执行计划
执行频率

设置执行阈值字段搜索及聚合计算的频率

注意:支持设置1-30分钟。

计算说明

用于对以上 KPI 的配置结果进行说明
说明:计算说明中加粗项将依据实际配置参数同步变化。

3. 设置实体KPI严重性等级阈值

点击【下一步】进入实体KPI阈值设置窗口,在此页面可手动设置实体KPI与严重性等级的匹配区间,系统将基于此根据实体KPI值评估实体的可用性,即匹配至“正常”、“警告”级别的实体可用,匹配至“严重”级别的实体不可用。具体参考下图:

注意:仅可设置3个层级的KPI严重性等级,包括:严重、警告、正常。

说明:在 KPI 编辑界面,可根据阈值及时间设置,点击 可查看数据预览效果。

4.查看/编辑/删除KPI

配置完成后,点击【完成】即可在KPI初始配置页面查看已创建的KPI。选择需查看/编辑/删除的KPI,点击操作列的【查看】/【编辑】/【删除】按钮,即可实现对应操作。

► 复制 KPI

1.在服务配置表单的KPI配置区域,点击【复制 KPI】弹出复制 KPI 窗口,可直接复用系统中已创建的KPI,如下所示:

2. 窗口左侧展示当前系统已创建的KPI,在列表中勾选需复制的 KPI,窗口右侧同步展示已选 KPI ,点击可删除已选 KPI。您也可以通过搜索输入框快速查询需复制的 KPI。
3. 选择完成后,点击【复制】即可在 KPI 配置页面查看已复制成功的 KPI 列表及详情,如下所示: