才子佳人博客

我的故事我讲述

数据挖掘之离群点分析
 
来源:xjh  编辑:xjh  2016-05-23

数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象称为离群点(outlier),离群点可能对应于稀有事件或异常行为。离群点数据分析称做离群点分析或异常挖掘。离群点挖掘可揭示稀有事件和现象、发现有趣的模式。

大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在一些应用中,罕见的事件可能比正常出现的事件更令人感兴趣。比如,在欺诈监测中离群点意味着欺诈行为的发生。在入侵检测中,离群点意味着入侵行为的发生。在广义的安全问题中,离群点的监测逐步成为一种有用的工具,用来发现稀有模式,比如电信、保险、银行、电子商务、气象灾害、商业客户分类、医学诊断发现新的疾病、网络安全入侵检测。

可以假定一个数据分布或概率模型,使用统计检验来检测离群点;或者使用距离度量,将远离任何簇的对象视为离群点。不使用统计或距离度量,基于密度的方法也可以识别局部区域中的离群点。还有基于聚类的方法、基于偏差的方法、基于深度的方法等等。

来源:

蒋盛益等,《数据挖掘原理与实践》,电子工业出版社,2013.2


分类:网络日志| 查看评论
相关文章
文章点击排行
本年度文章点击排行
发表评论:
  • 昵称: *
  • 邮箱: *
  • 网址:
  • 评论:(最多100字)
  • 验证码: