多维度异常检测

更新时间：2022-08-13 21:23:29

多维度异常检测可基于多个影响维度的数据进行处理和计算，支持马氏距离模型算法。
一个完整的多维度异常检测分为 3 个部分：数据预览、数据预处理和模型计算：
• 数据预览：用于实现数据分析及分析维度的可视化展示；
• 数据预处理：包含缺失值处理以及预处理配置；

• 缺失值处理配置：提供 9 种不同的数据缺失值处理方法，可避免因数据缺失导致无法计算的情况；
• 预处理配置：用于提高数据质量，以提升后续模型计算的精度和性能。

• 模型计算：用于提供多种算法，可根据实际需求选择不同的算法及参数进行模型计算。
新建多维度异常检测，具体操作如下：
1. 进入机器学习页面，点击【新建】进入新建机器学习任务页面，点击【查看帮助】可查看异常检测机器学习任务的简介和应用场景示例，如下所示：

2. 点击【多维度异常检测】进入参数配置页面，点击右上角【查看帮助】可支持翻页查看多维度异常检测的简介、使用帮助、参数配置指导、算法介绍，如下所示：

3. 配置数据预览：
数据预览部分用于以可视化方式展示原始数据、数据统计信息以及趋势图。
1）配置数据预览：填写数据预览配置信息。多维度数据预览配置，除度量可添加多个字段外，其他与单维度异常检测配置一致，详细请参见单维度异常检测章节；
2）点击【预览】可查看数据预览结果，如下所示：

数据预览结果包括：统计信息、趋势图和原始数据列表，如下所示：

元素名称	元素说明
统计信息	表示数据统计信息，包括：名称、正态分布（是/否）、中位数、均值、标准差
趋势图	表示所选数据的趋势情况： ► 光标浮动到图形上可气泡提示：桶字段、度量信息； ► 趋势图可调整查看的时间轴范围： • 将光标浮动到图形上滑动鼠标滚轮，可放大/缩小时间轴； • 直接拖动图形下方的时间缩放器进行放大/缩小
原始数据	原始数据表格第一列为桶字段信息，从第二列开始为所选度量字段信息

4. 配置数据预处理：
多维度异常检测数据预处理分为：缺失值处理和预处理 2 个部分，如下所示：

1）配置缺失值处理模块：通过选择不同的缺失值处理方法可以对数据中的缺失值进行填充，提升数据质量；
a) 配置默认方法：默认方法表示除特定字段的缺失值处理外，对其余所有字段均有效；
b) 若需对特定字段配置缺失值处理方式，可勾选设置特定字段的缺失值处理进行添加，如下所示：

2）配置预处理部分：可以选择不同的方法进行数据预处理。目前提供标准化和降维 2 种类型，可以添加多个预处理任务；
• 标准化：即方差计算，方差是平均值的对比。多维度异常检测支持极差标准化和 Z-Score 标准化 2 种；
• 极差标准化：极差又称范围误差或全距，用于统计数据中的变异点数量，极差值即为最大值与最小值之间的差距。极差标准化可体现一组数据波动的范围，极差越大，离散程度越大；
• Z-Score 标准化：即零-均值规范化，也称标准差标准化，是数据规范化处理的方式之一。可用于数据分布过于凌乱，无法判断最大值与最小值，或数据中心存在过多变异点的场景。
• 降维：一种能在减少数据集中特征数量的同时，避免丢失太多信息并保持或改进模型性能的方法，有助于数据可视化。多维度异常检测支持 PCA 和核化 PCA 两种：
• PCA：即 Principal Component Analysis 主成分分析，是一种分析、简化数据集的技术。目的是数据维数压缩，尽可能降低源数据的维度（复杂度），即从现有的大量变量中提取一组新的变量，但 PCA 会损失少量信息，可削减回归分析或聚类分析中特征的数量；
• 核化 PCA：即 Kernelized PCA，基于 PCA 增加了 Kernel 函数，以应对数据存在更高维的场景，通过 KPCA 可实现更高维度空间的 PCA 分析，对于在通常线性空间难以线性分类的数据点，可使用 KPCA 在更高维度寻找合适的高维线性分类平面。
3）点击【应用】，执行成功后显示【查看结果】按钮，点击可查看数据预处理后的字段结果，如下所示：

5. 配置模型计算：
多维度异常检测支持马氏距离算法，用户可通过计算字段、阈值计算方法、阈值参数以及滑动窗口配置，实现数据模型计算。

1）填写配置参数：

元素名称	元素说明
*算法	支持马氏距离算法
*计算字段	表示需进行多维度异常检测的字段，字段来源于数据预处理之后的字段
*阈值方法	阈值方法提供标准差、中位数绝对偏差、四分位差。可根据数据特征以及所要检测的异常点，选择相应的阈值方法
*阈值参数	根据对异常点的数量估计，调整此值。阈值参数越大，异常点出现的概率越小。若阈值方法选择标准差，阈值参数建议为 1~4： • 1 表示大约 68.26% 的数据为正常点； • 2 表示大约 95.45% 的数据为正常点； • 3 表示大约 99.73% 的数据为正常点； • 4 表示大约 99.90% 的数据为正常点
*滑动窗口	若数据的分布随时间变化，可使用滑动窗口获得更加准确的阈值。建议滑动窗口取值大于度量个数

2）点击【计算】可查看多维度异常检测结果，如下所示：

多维度异常检测模型计算结果说明：

元素名称	元素说明
异常事件总数	表示所计算的数据异常事件总数
事件总数	表示所计算的数据事件总数
马氏距离详情	表示马氏距离算法的计算结果： ► 光标浮动到图形上可显示气泡提示，提示信息第一行：为实际值；第二行：为算法计算出来的阈值范围，超过阈值范围标记为异常点； ► 趋势图可调整查看的时间轴范围： • 将光标浮动到图形上滑动鼠标滚轮，可放大/缩小时间轴； • 拖动图形下方的时间缩放器进行放大/缩小
计算字段异常趋势	表示所选计算字段数据的异常趋势，通过马氏距离检测出异常后会计算影响指标，即到底是哪个字段影响异常的程度更大。通过异常趋势展现每个字段影响的异常点，光标浮动到图形上可气泡提示计算字段的实际值
异常原始数据列表	表示所有原始数据的异常情况： • 第一列：桶字段信息； • 第二列：正常/异常 2 种状态，可进行筛选显示； • 第三列：影响指标，主要影响此异常的计算字段； • 之后的列：每个计算指标具体的值

6. 完成上述所有配置后，点击【保存】填写机器学习任务名称，点击【确认】即可完成机器学习任务创建操作。

< 上一篇：

下一篇： >