找回密码
 注册
关于网站域名变更的通知
查看: 732|回复: 3
打印 上一主题 下一主题

最大相关最小冗余(mRMR)算法

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-7-13 13:54 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x

8 W. |( {# J5 G1 ?( V( p% f. w在做特征选择时,可能面临两个问题:特征与类别预测有多大相关性,特征之间有多大冗余度。在特征选择中,“最好的m个特征不一定是m个最好的特征”,从相关度与冗余度来看,最好的m个特征是指与分类最相关的特征,但由于最好的m个特征之间可能存在冗余,因此最相关的m个特征并不一定比其他m个特征产生更好的分类准确率。可以看出,特征选择可以分为两个过程:1、怎样度量特征相关性。2、怎样解决特征之间的冗余。3 t$ j. [9 {; N% R7 J4 d
+ b$ Q. G! [( Y% }6 x
互信息
' |, A& t+ J# \; ]0 c0 h" e* a
7 \& T! Z1 m# z; u
4 h) o9 r8 T9 \2 h互信息可以度量两个变量x,y之间的相关关系。如下图所示:' T( X; [* F) d! T+ P; G% i/ ]
! P6 s3 Q, O8 ?$ a7 L
" R2 {+ N% I' e! _, _" T- K9 |. i: n& G

, \6 a9 g. D9 O9 Y/ |, ^2 A5 [考虑特征x与分类目标c,计算I(x,c),I(x,c)的大小代表了x与c之间的关联度的大小。从所有特征中选出与c之间互信息最大的m个特征,就可以得到与c最相关的m个特征。
) F( ^: ~! p4 N3 S3 V, J1 `
; x* L% Z; L9 S5 l7 {; |' V最大相关度与最小冗余度: M, z# T2 s/ G$ \. d1 z2 m* K
- c9 {: ~  X5 r& z, K
设S表示特征{xi}的集合,|S|=m. 为了选出m个最相关特征,使得S满足如下公式:! q9 Y8 T8 f# C3 O! a& o0 s  r' S
8 R+ T4 Z7 n- Q
: r5 k. _/ N' O" Z1 N

& `: b) x' I' o可见目标是选出m个平均互信息最大的集合S。
6 [" L, v8 d- ?8 XS很可能包含相关度很大的特征,也就是说特征之间存在冗余。集合S的冗余度如下式所示:
; B6 }3 n: x: `& s5 ?8 c
; u  f. `, e% w4 }  m8 V5 ~- Z 5 `! B! B! G1 c& x+ F- w- N
$ \9 s  Y* Q( D' ]: O
最终目标是求出拥有最大相关度-最小冗余度的集合S,直接优化下式:
8 y& r  `( [/ G" N( K* V
# J" e1 p; C5 U) p* M- i0 ? - B! |/ R  X# S: `8 z5 p, b

. g* ^- [3 V0 E直观上说D的增大,R的减小都会使得目标函数增大。( x. c, ]; g6 S! o, Q; S  i
假设现在S中已有m-1个特征,现在需要从余下的特征中选择第m个特征。
# E) ]- L5 @6 o2 q- D* G
4 u/ R/ Z# `/ \& \# x* k- e; l2 k' D  e. ^

. C/ d' I2 @0 s4 W+ j6 A$ I特征选择过程
1 V" P2 w& M. x! U2 h$ j& M# |
% M0 b: E; |# S1 I# y特征选择的目的是选择出一个具有很好分类效果的精简特征集。为了达到此目的,可以分两步进行:第一步,利用mrmr选出候选特征集;第二步,利用其它方法选出精简特征集。0 l" A2 F1 U# n% l

* G4 w+ ~" C- w% ?6 r6 a
* M+ |! Z! q' G# x% f主要步骤:
0 B; f( v: |/ [3 q; y) d9 P6 F
, {2 K8 [% u& Z! c: x
  • 将数据进行处理转换的过程(注:为了计算两个特征的联合分布和边缘分布,需要将数据归一化到[0,255]之间,并且将每一维特征使用合理的数据结构进行存储)
  • 计算特征之间、特征与响应变量之间的分布及互信息
  • 对特征进行mrmr得分,并进行排序
    ' b, q. W1 ^; B4 v5 ?
/ Y! K1 ]4 T5 Y$ p" c: p

该用户从未签到

2#
发表于 2021-7-13 15:18 | 只看该作者
最大相关最小冗余(mRMR)算法

该用户从未签到

3#
发表于 2021-7-13 15:19 | 只看该作者
最大相关最小冗余(mRMR)算法

该用户从未签到

4#
发表于 2021-7-13 15:20 | 只看该作者
最大相关最小冗余(mRMR)算法
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-6-18 05:24 , Processed in 0.078125 second(s), 26 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表