|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
一种基于单簇核PCM的SVDD离群点检测方法 9 o: H2 u+ a0 g% t' o; G
摘要:针对支持向量数据描述( Support Vector Data Description,SVDD)的训练集中同时含有正常点和离群点的问题,为降低离群点对SVDD训练模型的不利影响,提出了一种基于单簇核可能性C-均值的SVDD离群点检测算法.本文算法通过单簇核聚类获得每个样本属于正常类的隶属度,将其作为每个样本属于目标类的置信度.将样本置信度引入到SVDD训练模型中,减弱低置信度样本在建立决策边界中的作用.实验表明,与已有的相关方法相比,本文方法能够显著改善SVDD的离群点检测效果.
. m6 K1 L9 a5 j* R3 c关键词:离群点检测;支持向量数据描述;可能性C-均值;置信度
3 i1 |* y @" ^3 t: J. W$ X. \0 q. Z( b) h# q9 L, B
1引言
) ] _, X p) C- [" j1 W离群点是指数据集中与大部分数据具有显著差异或不一致的少数数据点".离群点检测旨在挖掘数据背后的罕见模式或有意义的知识.随着大数据时代的到来,离群点检测备受关注.近年来,离群点检测成功应用在军事侦察[2﹑信用卡欺诈检测[3'、网络入侵检测[ .故障检测[5]、天气预报6]、医学辅助诊断[7等问题中.# d' f3 `% g: O$ d6 K
在实际应用中,往往可以获得大量的正常样本,而离群数据难以获得和描述.在此背景下,基于单分类的离群点检测得到了广泛应用.SVDD是一种经典的单分类方法[8l.SVDD模型旨在高维特征空间中确定一个最小超球,使得该超球尽可能的包络目标样本(正常点),位于超球面外面的样本点(非目标类)为离群点[8 ~ 10]其中,目标类为正常点,非目标数据为离群点.由于SVDD离群点检测方法把整个数据集作为目标类进行训练.当训练集中含有离群数据时, SVDD的超球面会8 ]& o/ c! {! S* z! G
9 z+ \" w& u7 d7 ^
% v& \5 e5 X6 v8 j1 ? e: |+ Q
9 q. o. T: [+ A/ I9 b% ` J
2 p' Y' y7 k* ^' }/ A0 g% h% Y- [, U
|
|