更新时间:2023-08-08 15:34:57
多维度异常检测可基于多个影响维度的数据进行处理和计算,支持马氏距离模型算法。
一个完整的多维度异常检测分为 3 个部分:数据源配置、数据预处理和模型计算:
• 数据源配置:用于准备数据,以实现数据分析及分析维度的可视化展示;
• 数据预处理:包含缺失值处理以及预处理配置;
   • 缺失值处理配置:提供 9 种不同的数据缺失值处理方法,可避免因数据缺失导致无法计算的情况;
   • 预处理配置:用于提高数据质量,以提升后续模型计算的精度和性能。
• 模型计算:用于提供多种算法,可根据实际需求选择不同的算法及参数进行模型计算。
新建多维度异常检测,具体操作如下:
1. 进入机器学习页面,点击【新建】进入新建机器学习任务页面,点击【查看帮助】可查看异常检测机器学习任务的简介和应用场景示例,如下所示:

2. 点击【多维度异常检测】进入参数配置页面,点击右上角【查看帮助】可支持翻页查看多维度异常检测的简介、使用帮助、参数配置指导、算法介绍,如下所示:

3. 配置数据源:
数据源部分用于以可视化方式展示原始数据、数据统计信息以及趋势图。
1)配置数据源:填写数据源配置信息。多维度数据源配置,除度量可添加多个字段外,其他与单维度异常检测配置一致,详细请参见 单维度异常检测  章节;
2)点击【预览】可查看数据预览结果,如下所示:

数据预览结果包括:统计信息、趋势图和原始数据列表,如下所示:
元素名称 元素说明
统计信息 表示数据统计信息,包括:名称、正态分布(是/否)、中位数、均值、标准差
趋势图 表示所选数据的趋势情况:
► 光标浮动到图形上可气泡提示:桶字段、度量信息;
► 趋势图可调整查看的时间轴范围:
• 将光标浮动到图形上滑动鼠标滚轮,可放大/缩小时间轴;
• 直接拖动图形下方的时间缩放器进行放大/缩小
原始数据 原始数据表格第一列为桶字段信息,从第二列开始为所选度量字段信息
4. 配置数据预处理:
多维度异常检测数据预处理分为:缺失值处理和预处理 2 个部分,如下所示:


1)配置缺失值处理模块:通过选择不同的缺失值处理方法可以对数据中的缺失值进行填充,提升数据质量;
    a) 配置默认方法:默认方法表示除特定字段的缺失值处理外,对其余所有字段均有效;
    b) 若需对特定字段配置缺失值处理方式,可勾选设置特定字段的缺失值处理进行添加,如下所示:


2)配置预处理部分:可以选择不同的方法进行数据预处理。目前提供标准化降维 2 种类型,可以添加多个预处理任务;
• 标准化:即方差计算,方差是平均值的对比。多维度异常检测支持极差标准化和 Z-Score 标准化 2 种;
  • 极差标准化:极差又称范围误差或全距,用于统计数据中的变异点数量,极差值即为最大值与最小值之间的差距。极差标准化可体现一组数据波动的范围,极差越大,离散程度越大;
  • Z-Score 标准化:即零-均值规范化,也称标准差标准化,是数据规范化处理的方式之一。可用于数据分布过于凌乱,无法判断最大值与最小值,或数据中心存在过多变异点的场景。
• 降维:一种能在减少数据集中特征数量的同时,避免丢失太多信息并保持或改进模型性能的方法,有助于数据可视化。多维度异常检测支持 PCA 和核化 PCA 两种:
  • PCA:即 Principal Component Analysis 主成分分析,是一种分析、简化数据集的技术。目的是数据维数压缩,尽可能降低源数据的维度(复杂度),即从现有的大量变量中提取一组新的变量,但 PCA 会损失少量信息,可削减回归分析或聚类分析中特征的数量;
  • 核化 PCA:即 Kernelized PCA,基于 PCA 增加了 Kernel 函数,以应对数据存在更高维的场景,通过 KPCA 可实现更高维度空间的 PCA 分析,对于在通常线性空间难以线性分类的数据点,可使用 KPCA 在更高维度寻找合适的高维线性分类平面。
3)点击【应用】,执行成功后显示【查看结果】按钮,点击可查看数据预处理后的字段结果,如下所示:

5. 配置模型计算:
多维度异常检测支持马氏距离算法,用户可通过计算字段、阈值计算方法、阈值参数以及滑动窗口配置,实现数据模型计算。


1)填写配置参数:
元素名称
元素说明
*算法 支持马氏距离算法
*计算字段 表示需进行多维度异常检测的字段,字段来源于数据预处理之后的字段
*阈值方法 阈值方法提供标准差、中位数绝对偏差、四分位差。可根据数据特征以及所要检测的异常点,选择相应的阈值方法
*阈值参数 根据对异常点的数量估计,调整此值。阈值参数越大,异常点出现的概率越小。若阈值方法选择标准差,阈值参数建议为 1~4:
• 1 表示大约 68.26% 的数据为正常点;
• 2 表示大约 95.45% 的数据为正常点;
• 3 表示大约 99.73% 的数据为正常点;
• 4 表示大约 99.90% 的数据为正常点
*滑动窗口 若数据的分布随时间变化,可使用滑动窗口获得更加准确的阈值。建议滑动窗口取值大于度量个数
2)点击【计算】可查看多维度异常检测结果,如下所示:

多维度异常检测模型计算结果说明:
元素名称
元素说明
异常事件总数 表示所计算的数据异常事件总数
事件总数 表示所计算的数据事件总数
马氏距离详情 表示马氏距离算法的计算结果:
► 光标浮动到图形上可显示气泡提示,提示信息第一行:为实际值;第二行:为算法计算出来的阈值范围,超过阈值范围标记为异常点;
► 趋势图可调整查看的时间轴范围:
• 将光标浮动到图形上滑动鼠标滚轮, 可放大/缩小时间轴;
• 拖动图形下方的时间缩放器进行放大/缩小
计算字段异常趋势 表示所选计算字段数据的异常趋势,通过马氏距离检测出异常后会计算影响指标,即到底是哪个字段影响异常的程度更大。
通过异常趋势展现每个字段影响的异常点,光标浮动到图形上可气泡提示计算字段的实际值
异常原始数据列表 表示所有原始数据的异常情况:
• 第一列:桶字段信息;
• 第二列:正常/异常 2 种状态,可进行筛选显示;
• 第三列:影响指标,主要影响此异常的计算字段;
• 之后的列:每个计算指标具体的值
6. 完成上述所有配置后,点击【保存】填写机器学习任务名称,点击【确认】即可完成机器学习任务创建操作。