EDA365电子论坛网

标题: 通过携程事件,说说保护客户数据不丢的措施。 [打印本页]

作者: 北二桥头    时间: 2019-11-27 13:42
标题: 通过携程事件,说说保护客户数据不丢的措施。
携程旅行网官方网站和App突然陷入全面瘫痪,内部功能均无法正常使用。打开主页后点击时均显示“Service Unavailable”,而百度搜索上的携程官方页面也显示404错误。官方表示是因服务器遭受不明攻击所致,技术人员正在紧急修复中。
根据《法制晚报》微博给出的消息称,携程的服务器数据在此次故障中全部遭受物理删除,且备份数据也无法使用。
可以说,这对携程来说几乎是一次致命的打击。无巧不成书,就在三天前,曾有人在乌云平台公布了一个有关携程服务器的部署漏洞,但该信息显然被携程忽略了。也有知情网友表示,这次疑为携程内部人员人为误操作,导致服务器数据被删除,且备份数据也无法使用。
很多技术人员都在谈论:一般人怎么会获得如此高的权限;数据会多重备份,怎么会有删除导致瘫痪一说?
抛开携程事件不说,本文从硬件的角度,给大家介绍一些我们保护客户数据的硬件手段。
8 A8 X4 j" P* v* J. r' z
1、异地容灾:
异地容灾,顾名思义就是在不同的地域,构建一套或者多套相同的应用或者数据库,起到灾难后立刻接管的作用。
现代的企业已经变得越来越依赖数据处理中心进行业务处理,对于这些数据中心来说,业务完全依靠信息技术进行处理。对于信息处理中心来说,对数据的完整性和可用性提出了极高的要求。特别是大型金融、电信等企业,对业务系统的连续性提出了更高的要求,对于这些企事业单位来说,遇到突发的故障事件,没有完备的灾备系统,对于业务系统都是致命的。同样,对许多中小企业来说,必要的灾备系统也是必要的。
由于异地容灾的解决方案,是两套或者多套数据及设备部署在不同的地域,所以当一个地点发生火灾、地震的情况的时候,在异地的备份可以接管业务。由于平时两地的数据同步,也不会造成用户数据丢失。

) A0 u7 E8 S' k
2、双机备份
& {' k" J3 a- ^+ G
双机热备特指基于高可用系统中的两台服务器的热备(或高可用),因两机高可用在国内使用较多,故得名双机热备,双机高可用按工作中的切换方式分为:主-备方式(Active-Standby方式)和双主机方式(Active-Active方式),主-备方式即指的是一台服务器处于某种业务的激活状态(即Active状态),另一台服务器处于该业务的备用状态(即Standby状态)。而双主机方式即指两种不同业务分别在两台服务器上互为主备状态(即Active-Standby和Standby-Active状态)。
在企业的发展情况与不同环境因素下,用户对系统的连续工作性和实时性也有着更高的要求,从实际操作面来看,企业用户在工作环节中,要把采集到的实时数据存储在两台计算机上,其中一台采集机故障时,另一台备用的立刻可以接替,并给出警告信号,当采集机恢复后,可自动接替备用机。因此既达到能保存重要数据,又能节省成本,那么双机备份软件就是企业用户的更好选择。

& m# [5 Q7 t$ m
基于共享存储(磁盘阵列)的方式
共享存储方式主要通过磁盘阵列提供切换后,对数据完整性和连续性的保障。用户数据一般会放在磁盘阵列上,当主机宕机后,备机继续从磁盘阵列上取得原有数据。如下图所示
传统的单存储方式
这种方式因为使用一台存储设备,往往被业内人士称为磁盘单点故障。但一般来讲存储的安全性较高。所以如果忽略存储设备故障的情况下,这种方式也是业内采用最多的热备方式。
% _/ R+ T7 D2 M2 f9 E+ M

& ^/ b/ j4 K0 ^* g0 H& f/ W( Y
全冗余方式
全冗余方式就是双机双存储,基于单台存储的传统双机热备方式,确实存在存储单点故障的情况,为实现存储冗余,存储高可用也已经越来越多的被用户接受。我们从理解上可以看出,双机热备最早是为解决服务器的计划性停机与非计划性宕机的解决方案,但是我们无法实现存储的计划性停机与非计划性宕机带来的服务器停机,而存储作为双机热备中唯一存储数据的设备,它一旦发生故障往往会造成双机热备系统全面崩溃。
3、单板级主备倒换
高端设备由于所处网络位置非常重要,不允许出现单点故障,设备一般都配备两块主控板,分别称为主用主控板(Master)和备用主控板(Slave)。其中,主用主控板作为控制平面的核心,与外部和业务板进行业务通信,完成系统内各模块的正常功能;而备用主控板则只作为主用主控板的备份,与外部和业务板没有通信。当主用主控板发生故障时,系统自动进行主备切换,由备用主控板接替主用主控板的工作,保证业务的正常运行
5 L5 p$ Z+ `" z( |
主备主控板的热备份过程主要分为批量备份、实时备份和数据平滑三个阶段。
备用主控板启动后,由于此时主用主控板和备用主控板的差异比较大,主用主控板会将当前需要备份的数据批量同步到备用主控板,这个过程称之为批量备份,批量备份时间的长短取决于需要备份数据量的大小。
1 R2 p) Y& P  ~# \4 r* i$ ~
批量备份过程结束后,系统进入实时备份过程,在此过程中,当主用主控板备份数据发生变化时,备份数据将实时同步到备用板,这个过程通常很快。
  J" O  l+ b) B& `
主备倒换后,备用板升为新的主用板,会通知各个模块向业务板进行数据收集和同步,这个过程称之为数据平滑。平滑过程中,各模块主动与业务板进行通信,在硬件状态、链路层状态、配置数据三个方面进行确认和同步,以保证整个系统维护的数据和状态是一致的,从而确保主备切换之后,系统能够正常运行。平滑阶段结束,新的主用板才称之为完全意义上的主用主控板。
. f+ |+ g* o7 T, F$ i6 ?% Y
3 \% o  k2 D: S0 q2 `* M- `# J8 }1 _
上面的机框,可以看出,电源板、主控板都做了备份两份的配置。
1 e! \7 A( a1 s8 X$ v
4、单板资源池
再如上图中,下面这些电路板一般都是业务或者是接口板,为了防止有单板损坏,按照业务性能满足之外,一般会多备份一块备用电路,如果有正在工作的某一块电路损坏,都可以切换到备用电路板,进行继续工作。
. P5 n2 {; s9 N2 X* X% J$ Y& m5 g
5、磁盘阵列

6 F0 H( R( v& \: E9 P# h% y. N' \
即然提到了RAID磁盘阵列,那么我们就先来了解一下什么是RAID?所谓的RAID,是Redundant Arrays of Independent Disks的简称,中文为廉价冗余磁盘阵列。由1987年由加州大学伯克利分校提出的,初衷是为了将较廉价的多个小磁盘进行组合来替代价格昂贵的大容量磁盘,希望单个磁盘损坏后不会影响到其它磁盘的继续使用,使数据更加的安全。RAID作为一种廉价的磁盘冗余阵列,能够提供一个独立的大型存储设备解决方案。在提高硬盘容量的同时,还能够充分提高硬盘的速度,使数据更加安全,更加易于磁盘的管理。) e3 F! z2 Q1 G2 X6 f5 l8 {3 O
RAID的几种常见工作模式0 i: l, X: Q' V% k. E0 j# q( M8 z
RAID 5控制还是比较常用的,于是我研究了一下RAID 5控制,在这里拿出来和大家分享一下,希望对大家有用。RAID 5和RAID4 相似但避免了RAID4 的瓶颈,方法是不用校验磁盘而将校验数据以循环的方式放在每一个磁盘中,RAID 5控制比较复杂,尤其是利用硬件对磁盘阵列的控制,因为这种方式的应用比其他的RAID level 要掌握更多的事情,有更多的输出/入需求,既要速度快,又要处理数据,计算校验值,做错误校正等,所以价格较高,其应用最好是OLTP,至于用于大型文件,不见得有最佳的性能。
RAID 5在不停机及容错的表现都很好,但如有磁盘故障,对性能的影响较大,大容量的快取内存有助于维持性能,但在OLTP 的应用上,因为每一笔数据或记录(record)都很小,对磁盘的存取频繁,故有一定程度的影响。
某一磁盘故障时,读取该磁盘的数据需把共用同一校验值分段的所有数据及校验值读出来,再把故障磁盘的数据计算出来;写入时,除了要重覆读取的程序外,还要再做校验值的计算,然后写入更新的数据及校验值;等换上新的磁盘,系统要计算整个磁盘阵列的数据以回复故障磁盘的数据,时间要很长,如系统的工作负载很重的话,有很多输出/入的需求在排队等候时,会把系统的性能拉下来。
但如使用硬件磁盘阵列的话,其性能就可以得到大幅度的改进,因为硬件磁盘阵列如Arena 系列本身有内置的CPU 与主机系统并行运作,所有存取磁盘的输出入工作都在磁盘阵列本身完成,不花费主机的时间,配合磁盘阵列的快取内存的使用,可以提高系统的整体性能,而优越的SCSI 控制更能增加数据的传输速率,即使在磁盘故障的情况下,主机系统的性能也不会有明显的降低。RAID 5要做的事情太多,所以价格较贵,不适于小系统,但如果是大系统使用大的磁盘阵列的话,RAID 5却是最便宜的方案。以上介绍RAID 5控制。

' D( [3 N' v/ B/ d4 j- t
3 ^3 N& \. h' q1 k9 r
关于可靠性设计、或者关于冗余设计及数据同步有很多知识可以展开。今天先说这些。
, c. K2 C* H+ {

作者: grgrgee    时间: 2019-11-27 16:24
讲的不错,看看




欢迎光临 EDA365电子论坛网 (https://bbs.eda365.com/) Powered by Discuz! X3.2