找回密码
 注册
关于网站域名变更的通知
查看: 359|回复: 1
打印 上一主题 下一主题

[毕业设计] 支持可扩展的并行分布式流处理系统

[复制链接]
  • TA的每日心情
    开心
    2020-9-8 15:12
  • 签到天数: 2 天

    [LV.1]初来乍到

    跳转到指定楼层
    1#
    发表于 2021-1-12 10:43 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    EDA365欢迎您登录!

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    摘 要: 数据流处理系统,无论是集中式还是分布式,都需要克服单点瓶颈问题.不仅如此,如果数据流处理系 统是静态配置的,那么还会出现处理节点供给不足或者过剩的情况,为此本文提出了一种支持可扩展的并行分布式数 据流处理系统—流水行云,该系统根据有状态算子将查询拓扑划分为并行处理的子查询,并且通过有状态算子的分发 器和收集器实现了数据流的保序,同时最大化减少并行处理的通信开销,不仅如此,结合负载均衡和重配置的可扩展 技术使得该系统能够根据输入负载动态调整处理节点的负载和个数.60个节点组成的集群的实验证明了该系统的可 扩展能力. ; r/ [6 r2 \1 c9 \

    4 ~! o2 s3 w2 h1 _: |6 y关键词: 流处理系统;可扩展;有状态算子;负载均衡;重配置+ r& Q( d" h; S0 ~% |" [. q+ v

    5 v0 |. x7 O3 y: p; F3 ?; z5 `0 T6 ^
    2 f- H6 j! Q: S1 D6 D
    " M, j! t. o% L# d  p, I: F
    大数据时代已经到来,其中典型的 3个特点就是: 规模性,多样性和高速性[1],同时,大数据的处理模式也 正从批处理向流处理发生转变[2].值得注意的是,分布 式的流处理系统和集中式的流处理系统都会碰到单点 瓶颈问题,针对这个问题,不少工作已经提出了相应的 解决方案[3,4],总体来看,它们可以被分为两类,一类是 以减少时间复杂度为宗旨的解决方案,另一类是以减少 空间复杂度为宗旨的解决方案.前者的典型代表是卸载 技术[5],当节点的处理能力无法满足当前的处理负载 时,卸载技术会通过丢弃部分待处理的数据来降低这个 节点的处理负载,至于哪部分数据被丢弃则取决于该数 据对查询结果的影响度.后者的典型代表包括概要技 术,直方图技术和小波变换技术[6],这些技术通过多个 元组的聚合查询的近似结果来减少存储开销。
    3 Y. o; f# U& b
    / I# ]; D( q) L" y1 b
    1 D: v& J; {7 ~4 S/ q+ n+ G
    附件下载:
    游客,如果您要查看本帖隐藏内容请回复

    + `5 W; s* i' L* C$ T% _. m4 }' C
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-7-20 23:45 , Processed in 0.109375 second(s), 26 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表