找回密码
 注册
关于网站域名变更的通知
查看: 775|回复: 3
打印 上一主题 下一主题

最大相关最小冗余(mRMR)算法

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-7-13 13:54 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x

+ B9 q' W! c* p' ?1 E* G2 s3 |& A2 W在做特征选择时,可能面临两个问题:特征与类别预测有多大相关性,特征之间有多大冗余度。在特征选择中,“最好的m个特征不一定是m个最好的特征”,从相关度与冗余度来看,最好的m个特征是指与分类最相关的特征,但由于最好的m个特征之间可能存在冗余,因此最相关的m个特征并不一定比其他m个特征产生更好的分类准确率。可以看出,特征选择可以分为两个过程:1、怎样度量特征相关性。2、怎样解决特征之间的冗余。0 A& M+ r! {) M) |0 |5 E
+ \2 W& p" X: w
互信息
# |6 \4 u3 W% q( I6 p. j5 K
' L0 ?1 E# d; ?3 U( z; z  L( b3 S- d' g7 J6 _0 l" t5 I
互信息可以度量两个变量x,y之间的相关关系。如下图所示:
: A" b2 B8 ~9 K( o
1 c1 z9 [$ g9 A* n; d+ z
! W5 r# G3 ^, o1 i9 w# i$ v
  _% F8 k6 `" t! |( ?/ o4 R1 Z考虑特征x与分类目标c,计算I(x,c),I(x,c)的大小代表了x与c之间的关联度的大小。从所有特征中选出与c之间互信息最大的m个特征,就可以得到与c最相关的m个特征。
# y  t- U1 g2 w2 ^5 i$ n% T% \5 k. O- C4 b! g; _6 l4 M5 F5 T
最大相关度与最小冗余度
5 l' w/ c1 J. Q; l* k0 v& ?3 H4 a9 R* `9 t
设S表示特征{xi}的集合,|S|=m. 为了选出m个最相关特征,使得S满足如下公式:7 j4 l6 v. e" p1 V+ V8 f
" k; j9 |% _$ n" e, i' \6 a

' R: W. G  D! L. `- d3 s5 s4 E7 i1 X, ^4 b" \% ]' B
可见目标是选出m个平均互信息最大的集合S。
8 N0 B2 W4 p8 H; ES很可能包含相关度很大的特征,也就是说特征之间存在冗余。集合S的冗余度如下式所示:
& C2 M9 B% p: K4 X9 ]
6 r5 l2 G$ k6 ?" ^7 G5 h0 f0 Y1 U & a: F- A# Z. N( d: h

6 d, J% [9 j0 b- ?; j5 [5 e最终目标是求出拥有最大相关度-最小冗余度的集合S,直接优化下式:$ d; ]9 u' ?- `5 h% y* _- i* Q

, L* c5 M- R  J& u $ A/ r2 k9 b: N0 \0 B3 T
7 M$ u' ?! b$ H
直观上说D的增大,R的减小都会使得目标函数增大。/ k7 d4 \6 J  B
假设现在S中已有m-1个特征,现在需要从余下的特征中选择第m个特征。
8 V- w* u5 n$ C) }2 X; J6 @
' J1 n5 K# x% U# n) }2 |
5 _3 d$ {' S$ {3 Z# H1 z! o" o2 T9 ^6 a5 f% Z* N
特征选择过程
$ a4 m& O+ ]4 j" R; i/ W" A# j/ k" d* h, G" {0 L3 g$ V" I
特征选择的目的是选择出一个具有很好分类效果的精简特征集。为了达到此目的,可以分两步进行:第一步,利用mrmr选出候选特征集;第二步,利用其它方法选出精简特征集。
# d& \2 ?4 r7 o$ |  S! o) U8 h8 P# }1 Y% w$ w' k" k# P1 A
6 \2 u6 v' m) k( ?# n9 R- W
主要步骤:
, j* B* D  ]# m
3 i- {0 ^" _; l. i3 Q+ B7 J
  • 将数据进行处理转换的过程(注:为了计算两个特征的联合分布和边缘分布,需要将数据归一化到[0,255]之间,并且将每一维特征使用合理的数据结构进行存储)
  • 计算特征之间、特征与响应变量之间的分布及互信息
  • 对特征进行mrmr得分,并进行排序
    6 p+ K1 r! [* N9 V

# a4 S% h- w, N" x

该用户从未签到

2#
发表于 2021-7-13 15:18 | 只看该作者
最大相关最小冗余(mRMR)算法

该用户从未签到

3#
发表于 2021-7-13 15:19 | 只看该作者
最大相关最小冗余(mRMR)算法

该用户从未签到

4#
发表于 2021-7-13 15:20 | 只看该作者
最大相关最小冗余(mRMR)算法
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-11-23 19:07 , Processed in 0.171875 second(s), 27 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表