单维度异常检测

更新时间：2022-08-13 21:11:37

一个完整的单维度异常检测分为 3 个部分：数据预览、数据预处理和模型计算：
• 数据预览：用于实现数据分析及分析维度的可视化展示；
• 数据预处理：用于缺失值处理配置，避免因数据缺失导致无法计算的情况；
• 模型计算：用于提供多种算法，可根据实际需求选择不同的算法及参数进行模型计算。
新建单维度异常检测，具体操作如下：
1. 进入机器学习页面，点击【新建】进入新建机器学习任务页面，点击【查看帮助】可查看异常检测机器学习任务的简介和应用场景示例，如下所示：

2. 点击【单维度异常检测】进入单维度异常检测参数配置页面，点击右上角【查看帮助】按钮，可翻页查看单维度异常检测的简介、使用帮助、参数配置指导、算法介绍，如下所示：

3. 配置数据预览：通过配置数据预览，可预览数据的统计信息、趋势图以及原始日志数据，如下所示：

► *已存搜索：
在已存搜索下拉列表中，选择所需的已存搜索，实现数据源筛选；

► *时间：用于对数据源进行时间过滤，支持快速选择和时间段选择；
► 度量：由聚合方式和聚合字段 2 个部分组成，表示需分析的影响维度；例：若需分析 Apache 的访问数量，则可选择计数+访问用户；

• *聚合：表示分析字段的聚合方式。对于 String 类型字段提供计数、去重计数、最小值、最大值、平均值、中位数、总和；对于非 String 类型字段提供计数和去重计数；
• *字段：表示需聚合的字段。
► 桶-*聚合：桶表示 X 轴的信息，聚合表示桶的类型，提供时间和词条2种：

• 时间：表示 X 轴按照时间进行聚合，需设置时间字段和间隔；
• 词条：表示 X 轴按照词条进行聚合，需设置聚合字段和排序方式。
► 拆分字段：
表示是否需要按字段对所选数据进行分组拆分。设置拆分字段后会根据字段和字段值对数据进行分组，并针对每组数据进行单独计算；若未设置拆分字段，则会对所有数据进行聚合，预览展示所有数据结果。
• 字段：表示需要拆分的字段，字段来源于已存搜索内已解析的字段。
• 示例：期望对 Apache 访问日志中每一个访问主机进行分组，计算每一个访问主机下的用户计数；
• 解析：以上实例中拆分字段为主机字段，度量的聚合方式为计数，度量聚合字段则为用户。
• 字段值：表示基于拆分字段，设置需展示的字段值。示例：拆分出来的访问主机结果，只想展示其中的3个主机，可在拆分字段值中添加这 3 个主机的字段值即可。
参数配置完成后，点击【预览】可在右侧查看数据预览结果；若已拆分字段，则可查看拆分字段列表，如下所示：

4. 配置数据预处理：
数据预处理用于提高数据的质量，以提升后续模型计算的精度和性能，具体配置如下：
1）配置数据预处理部分的*缺失值处理方法：通过选择不同的缺失值处理方法可以对数据中的缺失值进行填充，提升数据质量；

2）点击【应用】，执行成功后显示【查看结果】按钮，点击可查看数据预处理后的字段结果，如下所示：

5. 配置模型计算：
单维度异常检测支持 N-Sigma 算法，用户可通过计算字段、阈值计算方法、阈值参数以及滑动窗口配置，实现数据模型计算。

1）填写配置参数如下：

元素名称	元素说明
*算法	支持 N-Sigma 算法
*计算字段	计算字段为数据预处理之后的字段
*阈值方法	阈值方法提供标准差、中位数绝对偏差、四分位差。可根据数据特征以及所要检测的异常点，选择相应的阈值计算方法
*阈值参数	根据对异常点的数量估计，调整此参数值。阈值参数越大，异常点出现的概率越小。若阈值方法选择标准差，阈值参数建议为 1~4： • 1 表示大约 68.26% 的数据为正常点； • 2 表示大约 95.45% 的数据为正常点； • 3 表示大约 99.73% 的数据为正常点； • 4 表示大约 99.90% 的数据为正常点
*滑动窗口	若数据的分布随时间变化，可使用滑动窗口获得更加准确的阈值。建议滑动窗口取值大于度量个数

2）点击【计算】可查看单维度异常检测结果，如下所示：

异常检测模型计算结果说明：

元素名称	元素说明
异常事件总数	表示所计算的数据异常事件总数
事件总数	表示所计算的数据事件总数
异常趋势	表示所选数据的异常趋势情况，黄色点表示异常点： ► 光标浮动到图形上可气泡显示度量字段字段实际值与阈值范围；超过阈值范围，标记为异常点 ► 趋势图可调整查看的时间轴范围： • 将光标浮动到图形上滑动鼠标滚轮，可放大/缩小时间轴； • 直接拖动图形下方的时间缩放器进行放大/缩小
异常原始数据列表	表示所有原始数据的异常情况，支持通过状态（正常/异常）筛选显示事件

6. 完成上述所有配置后，点击【保存】填写机器学习任务名称，点击【确认】即可完成机器学习任务创建操作。

< 上一篇：

下一篇： >