|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
, o: E( m4 v" b/ R N
在做特征选择时,可能面临两个问题:特征与类别预测有多大相关性,特征之间有多大冗余度。在特征选择中,“最好的m个特征不一定是m个最好的特征”,从相关度与冗余度来看,最好的m个特征是指与分类最相关的特征,但由于最好的m个特征之间可能存在冗余,因此最相关的m个特征并不一定比其他m个特征产生更好的分类准确率。可以看出,特征选择可以分为两个过程:1、怎样度量特征相关性。2、怎样解决特征之间的冗余。
7 j$ F- h5 y- i3 k% c: a+ Z. W
. q7 J) N+ [. D+ v6 x互信息) S' e. ^: I& v5 \" m* V
% V% T, }( U8 X" T* e
. a8 [" N. e5 F8 d$ f0 m# z4 W( c
互信息可以度量两个变量x,y之间的相关关系。如下图所示:' B* G3 X2 q4 v j/ R/ H) S" `2 o
# J8 b3 V5 H8 l3 W, @
# F& q* \, J. n# F1 r( ] M% i$ \+ ~0 y9 L. H& ^4 w7 @# A# p
考虑特征x与分类目标c,计算I(x,c),I(x,c)的大小代表了x与c之间的关联度的大小。从所有特征中选出与c之间互信息最大的m个特征,就可以得到与c最相关的m个特征。
0 ~! R) T6 {; n L/ K$ l; ~9 M3 j, r, o
最大相关度与最小冗余度/ u4 {5 d5 Y+ f6 ?
- x% ~' s" S7 h/ P
设S表示特征{xi}的集合,|S|=m. 为了选出m个最相关特征,使得S满足如下公式:
) p9 z6 t$ a/ n! a. D# C6 C+ y; q2 y" l) b' g, ?
1 C. o7 X5 i* z6 |
" v# P& [( e; S; ]可见目标是选出m个平均互信息最大的集合S。2 ^$ k$ R4 c& D
S很可能包含相关度很大的特征,也就是说特征之间存在冗余。集合S的冗余度如下式所示:
' B. }/ ~; o( ]: G3 @) S9 Y8 E
) m' d7 `7 [) y9 f
, F' L* a/ E3 D* a, c. Y% {' ~
* j9 a+ v9 q6 X5 }8 M9 p9 w最终目标是求出拥有最大相关度-最小冗余度的集合S,直接优化下式:. Q. W n. d1 i+ H% r
( ]3 C m; x, G& \/ z1 a
; y% a6 v3 J5 v! p. q& x
: n' a, S2 T# w% k! v& h直观上说D的增大,R的减小都会使得目标函数增大。
( E# ?0 l; H( n [! Q% J2 i假设现在S中已有m-1个特征,现在需要从余下的特征中选择第m个特征。
5 }; Z T5 Y/ |( ?+ }, B0 b
+ o" s0 L- t3 t4 ^7 U# e& N& T2 M) g" ^: z$ |" W4 e/ a/ V& k; S
) g1 w/ i( ~4 f! f, C/ j8 d
特征选择过程
1 {( q4 H/ Y2 P
! `+ T1 ]+ _7 g( ^: C; S特征选择的目的是选择出一个具有很好分类效果的精简特征集。为了达到此目的,可以分两步进行:第一步,利用mrmr选出候选特征集;第二步,利用其它方法选出精简特征集。
7 l4 {4 _! Z) x K! t/ u: y+ ]7 y, d+ F$ E
& ]# k- O8 z: M$ n
主要步骤:2 w! i `- i l6 q+ ~( x, Q: s
" E1 J# c! F- d1 W- 将数据进行处理转换的过程(注:为了计算两个特征的联合分布和边缘分布,需要将数据归一化到[0,255]之间,并且将每一维特征使用合理的数据结构进行存储)
- 计算特征之间、特征与响应变量之间的分布及互信息
- 对特征进行mrmr得分,并进行排序4 n$ a8 T6 d$ ~, }+ @7 g
- i0 |9 E& {6 w4 g# s1 O! o
|
|