异常检测是什么?关于异常检测的详细介绍

创闻科学2020-11-16 15:55:03

在数据挖掘中,异常检测(也称为异常性检测)是通过与大多数数据显著不同而引起怀疑的罕见项目、事件或观察结果的识别。通常,异常项目会转化为某种问题,如银行欺诈、结构缺陷、医疗问题或文本错误。异常也被称为异常值、新奇、噪音、偏差和异常。

特别是,在滥用异常检测和网络入侵检测的背景下,有吸引力的对象通常不是罕见的 对象,但出乎意料的会在活动中爆发。这种模式不符合异常值作为罕见对象的常见统计定义,并且许多异常值检测方法(特别是无监督方法)将无法在这种数据上使用,除非它已经被适当地聚集。相反,聚类分析算法可能能够检测由这些模式形成的微聚类。

存在三大类异常检测技术。假设数据集中的大多数实例是正常的,无监督异常检测技术通过寻找最不适合数据集其余部分的实例来检测未标记测试数据集中的异常。监督异常检测技术需要被标记为“正常”和“异常”的数据集,并且涉及到训练分类器(许多其他统计分类问题的关键区别是异常检测的固有不平衡性质)。半监督异常检测技术从给定的正常 训练数据集构建一个表示正常行为的模型,然后测试学习模型生成测试实例的可能性。

应用程序

异常检测适用于各种领域,例如入侵检测、欺诈检测、故障检测、系统健康监控、传感器网络中的事件检测以及检测生态系统干扰。它通常用于预处理以从数据集中移除异常数据。在监督学习中,从数据集中移除异常数据通常会导致统计精度的显著提高。

流行技术

文献中已经提出了几种异常检测技术。一些流行的技术有:

  • 基于密度的技术(k-最近邻,局部异常因子,孤立森林,以及这个概念的更多变体。)
  • 基于子空间, 基于相关性和基于张量的高维数据的异常检测。
  • 一类支持向量机。
  • 复制器神经网络。,自动编码器
  • 贝叶斯网络。
  • 隐马尔可夫模型(HMMs)。
  • 基于聚类分析的离群点检测。
  • 偏离关联规则和频繁项目集。
  • 基于模糊逻辑的离群点检测。
  • 集成技术,使用特征打包,分数标准化 和不同的多样性来源。

不同方法的性能在很大程度上取决于数据集和参数,当在许多数据集和参数之间进行比较时,方法相对于另一种方法没有什么系统优势。

数据安全应用

多萝西·丹宁于1986年提出了入侵检测系统的异常检测。入侵检测系统的异常检测通常通过阈值和统计来完成,但也可以通过软计算和归纳学习来完成。1999年提出的统计类型包括用户、工作站、网络、远程主机、用户组和基于频率、均值、方差、协方差和标准差的程序的概况。入侵检测中异常检测的对应方是误用检测。

软件

  • ELKI是一个开源的Java数据挖掘工具包,它包含了几种异常检测算法,以及它们的索引加速。

数据集

  • Anomaly detection benchmark data repository 慕尼黑大学的路德维希-马克西米利安; Mirror 在圣保罗大学。
  • ODDS –异常值检测数据集:公开在不同领域具有基本事实的可用的大量异常值检测数据集。