找回密码
 注册
关于网站域名变更的通知
查看: 340|回复: 1
打印 上一主题 下一主题

[毕业设计] 并行计算框架 Spark的自适应缓存管理策略

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-1-26 11:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
$ i5 P7 s7 n2 Q2 K
并行计算框架 Spark的自适应缓存管理策略
$ Q& c  i' K4 F  D4 M& b7 w
. G2 v& V; p  |" `
摘要:并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用IRU ,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略( Self-Adaptive CacheManagement,SACM),包括缓存自动选择算法( Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG( Directed Aeyclic Graph )结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark 的任务执行效率,并使内存资源得到有效利用.& Z' c# l" w' O* O4 s# ^/ Y
关键词:并行计算;缓存管理策略;Spark ;弹性分布式数据集
- y5 J1 M. m& l; ~1 Y! R" q7 B# U: l
* B- r6 Q0 E4 H& m6 d# w0 ?
1引言
  f0 P# G7 r; N& i" Y6 D利用内存的低延迟特性改进系统性能成为并行计算新的研究方向.Spark 12]是继 Hadoop之后出现的通用高性能并行计算框架,采用弹性分布式数据集( Resil-ient Distributed Datasets , RDD )[ 3]作为数据结构. Spark缓存管理策略中,程序员掌握缓存对象的选择权,增加了缓存策略的不确定性.缓存替换算法采用LRU ,未考虑RDD计算代价及容量等影响应用程序执行效率的重典型的缓存替换算法包括:FIFO、LRU、LFU、LRFU、MIN等.这些算法在并行计算框架得到广泛应用,但性能表现并不理想.另外的一些研究成果则在缓存替换算法中加入了不同的参数,文献[4]在FIFO和LRU算法的基础上进行改进,引入附加参数进行置换目标的计算,但其参数选择不适用于Spark.文献[5]提出的AWRP( Adaptive Weight Ranking Policy)算法为每) M- R$ R; v7 N* \' d; E7 F* L- c

' m2 w' x3 @6 G1 Z" E
游客,如果您要查看本帖隐藏内容请回复

" l" z+ g& [  W6 U# C8 v$ P* e5 d1 G  ~9 y$ {5 ?# j# Q/ I7 _

该用户从未签到

2#
发表于 2021-1-26 13:10 | 只看该作者
并行计算框架 Spark的自适应缓存管理策略
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-7-20 23:47 , Processed in 0.109375 second(s), 26 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表