更新时间:2022-08-13 21:11:37
一个完整的单维度异常检测分为 3 个部分:数据预览、数据预处理和模型计算:
• 数据预览:用于实现数据分析及分析维度的可视化展示;
• 数据预处理:用于缺失值处理配置,避免因数据缺失导致无法计算的情况;
• 模型计算:用于提供多种算法,可根据实际需求选择不同的算法及参数进行模型计算。
新建单维度异常检测,具体操作如下:
1. 进入机器学习页面,点击【新建】进入新建机器学习任务页面,点击【查看帮助】可查看异常检测机器学习任务的简介和应用场景示例,如下所示:


2. 点击【单维度异常检测】进入单维度异常检测参数配置页面,点击右上角【查看帮助】按钮,可翻页查看单维度异常检测的简介、使用帮助、参数配置指导、算法介绍,如下所示:

3. 配置数据预览:通过配置数据预览,可预览数据的统计信息、趋势图以及原始日志数据,如下所示:


► *已存搜索:
在已存搜索下拉列表中,选择所需的已存搜索,实现数据源筛选;

► *时间:用于对数据源进行时间过滤,支持快速选择和时间段选择;
► 度量:由聚合方式和聚合字段 2 个部分组成,表示需分析的影响维度;例:若需分析 Apache 的访问数量,则可选择计数+访问用户;

• *聚合:表示分析字段的聚合方式。对于 String 类型字段提供计数、去重计数、最小值、最大值、平均值、中位数、总和;对于非 String 类型字段提供计数和去重计数;
• *字段:表示需聚合的字段。
► 桶-*聚合:桶表示 X 轴的信息,聚合表示桶的类型,提供时间和词条2种:

• 时间:表示 X 轴按照时间进行聚合,需设置时间字段间隔
• 词条:表示 X 轴按照词条进行聚合,需设置聚合字段排序方式。

► 拆分字段:
表示是否需要按字段对所选数据进行分组拆分。设置拆分字段后会根据字段和字段值对数据进行分组,并针对每组数据进行单独计算;若未设置拆分字段,则会对所有数据进行聚合,预览展示所有数据结果。
• 字段:表示需要拆分的字段,字段来源于已存搜索内已解析的字段。
  • 示例:期望对 Apache 访问日志中每一个访问主机进行分组,计算每一个访问主机下的用户计数;
  • 解析:以上实例中拆分字段为主机字段,度量的聚合方式为计数,度量聚合字段则为用户。
• 字段值:表示基于拆分字段,设置需展示的字段值。示例:拆分出来的访问主机结果,只想展示其中的3个主机,可在拆分字段值中添加这 3 个主机的字段值即可。

参数配置完成后,点击【预览】可在右侧查看数据预览结果;若已拆分字段,则可查看拆分字段列表,如下所示:

4. 配置数据预处理:
数据预处理用于提高数据的质量,以提升后续模型计算的精度和性能,具体配置如下:
1)配置数据预处理部分的*缺失值处理方法:通过选择不同的缺失值处理方法可以对数据中的缺失值进行填充,提升数据质量;

2)点击【应用】,执行成功后显示【查看结果】按钮,点击可查看数据预处理后的字段结果,如下所示:

5. 配置模型计算:
单维度异常检测支持 N-Sigma 算法,用户可通过计算字段、阈值计算方法、阈值参数以及滑动窗口配置,实现数据模型计算。

1)填写配置参数如下:
元素名称 元素说明
*算法 支持 N-Sigma 算法
*计算字段 计算字段为数据预处理之后的字段
*阈值方法 阈值方法提供标准差、中位数绝对偏差、四分位差。
可根据数据特征以及所要检测的异常点,选择相应的阈值计算方法
*阈值参数 根据对异常点的数量估计,调整此参数值。阈值参数越大,异常点出现的概率越小。
若阈值方法选择标准差,阈值参数建议为 1~4:
• 1 表示大约 68.26% 的数据为正常点;
• 2 表示大约 95.45% 的数据为正常点;
• 3 表示大约 99.73% 的数据为正常点;
• 4 表示大约 99.90% 的数据为正常点
*滑动窗口 若数据的分布随时间变化,可使用滑动窗口获得更加准确的阈值。建议滑动窗口取值大于度量个数
2)点击【计算】可查看单维度异常检测结果,如下所示:

异常检测模型计算结果说明:
元素名称 元素说明
异常事件总数 表示所计算的数据异常事件总数
事件总数 表示所计算的数据事件总数
异常趋势 表示所选数据的异常趋势情况,黄色点表示异常点:
► 光标浮动到图形上可气泡显示度量字段字段实际值阈值范围;超过阈值范围,标记为异常点
► 趋势图可调整查看的时间轴范围:
• 将光标浮动到图形上滑动鼠标滚轮,可放大/缩小时间轴;
• 直接拖动图形下方的时间缩放器进行放大/缩小
异常原始数据列表 表示所有原始数据的异常情况,支持通过状态(正常/异常)筛选显示事件
6. 完成上述所有配置后,点击【保存】填写机器学习任务名称,点击【确认】即可完成机器学习任务创建操作。