TA的每日心情 | 奋斗 2020-9-8 15:12 |
---|
签到天数: 2 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要: 特征选择作为机器学习过程中的预处理步骤,是影响分类性能的关键因素.网络流量具有数据量大,特 征维度高的特点,如何快速提取特征子集,并提高分类效率对于基于机器学习的流量分类方法具有重要意义.本文提 出基于分治与投票策略的特征提取方法,将数据集分裂为多个子集,分别执行特征提取算法,利用投票方法获得最后 的特征子集.实验表明可有效提高特征提取的时间效率,同时使分类器取得良好的分类准确率. ' F2 R \, X3 C. e3 o% D2 ?
关键词: 分治;投票;流量分类;特征选择
! z5 z4 c' e: X! h( j) r7 |1 l# K- U& V
) X' P0 W( z0 I7 S" ]8 t) U& K, y( P& ^
通过网络流量识别出各种网络应用及网络攻击已 成为当前互联网运行的核心任务,以统计学为基础的机 器学习方法在网络流量分类中逐渐引起研究人员的关 注[1,2].一个典型的有监督机器学习模型的建立过程包 括:(1)训练集的建立;(2)分类标注;(3)特征选择;(4) 模型构建;(5)模型评估.其中,特征选择是影响分类性 能的一个关键因素.理论上,特征越多可以越有效的区 分流量类型,但过多的特征将导致模型的建立时间过 长、计算资源消耗过大、模型过于复杂等不利因素.同 时,特征之间的相关性也可能降低模型的区分能力.因 此,如何得到一个优化的特征子集成为机器学习应用于 流量分类的一个重要课题[3]
1 s' V. [! X m8 C! A6 w
. K4 V/ E8 v, X4 U1 q
0 O2 @8 L8 Z# m* d
' `) W+ \6 a, v; S5 e, S2 j* M# u: A+ W
附加瞎下载:7 q9 m0 G) `; g! [: C
|
|