首页 » 技术分享 » 灾备系统建设指标:RTO、RPO

灾备系统建设指标:RTO、RPO

 

如今,数据安全的重要对于企业单位来说已不言而喻,说到数据安全,必然绕不过容灾备份,而提到容灾备份,其中有两个关键指标必须有所了解:RTO和RPO。RTO和RPO是灾难恢复方面的重要参考指标。现在企业对业务的连续性有苛刻要求,但故障不可避免,一旦发生了故障就需要启动备份机制,确保业务的连续性,所以现在较为完善的容灾机制,RTO和RPO可以很好地反映出容灾性能如何。这两个参数是在运维过程中,一定要重点关注的指标。这个指标的好与差,是基于现有的各种综合运行情况评估得出的真实结果,反映当前在灾难恢复方面的修复能力。

RTO

RTO(RecoveryTimeObjective,复原时间目标)是可容许服务中断的时间长度。比如说服务发生后半天内便需要恢复,RTO数值就是十二小时。RTO具体时间长短只是从故障发生后,从系统宕机导致应用停顿之刻开始,到系统恢复至可以支持各部门运作之时,此两点之间的时间段。RTO是反映业务恢复的及时性指标,表示业务从中断到恢复正常所需的时间,RTO数值越小,代表容灾系统的数据恢复能力越强,可以部署很多容灾系统,来获取最小的RTO,但这意味着投入大量资金。提升RTO的常用技术有:磁带恢复、人工迁移、应用系统远程切换,这几种技术的RTO的表现如表1所示:

部署不同的容灾技术将获得不同的RTO值,从业务连续性角度考虑,肯定希望RTO数值越小越好,尤其是很多互联网,中断几分钟都会损失数百万的成交量,这些往往不惜一切代价要确保不中断运行。应用系统的自动切换涉及到网络、服务器、存储等多方面的技术,不管任何一个位置出现了故障,这些部分都会启动软件系统进行切换,可以是设备之间的切换,也可能是集群之间的切换,还可能是异地切换,通过应用系统自动切换将业务转移到其它正常的系统中,然后再对故障设备进行排查。将故障原因找到并排除后,再将业务切回到原有系统中,应用系统切换做得好,这个过程不会引起业务的二次中断,让业务无感知切换。

RPO

RPO(RecoveryPointObjective,复原点目标)是指能容忍的最大数据丢失量,是指当业务恢复后,恢复得来的数据所对应时间点,RPO取决于数据恢复到怎样的更新程度,这种更新程度可以是上一周的备份数据,也可以是昨天的数据,这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率才行。RPO是反映恢复数据完整性的指标。在同步数据复制方式下,RPO等于数据传输时延的时间,在异步数据复制方式下,RPO基本为异步传输数据排队的时间。提升RPO的常用技术有:磁带备份、定期数据复制、异步数据复制、同步数据复制等,这几种技术的RPO的表现如表2所示:

RPO指标考验着数据复制能力,这并不意味单纯增加数据复制的频率即可,因为应用的高峰时段无法进行备份操作,而且备份数据本身所花费的时间也会过长,数据复制频率增加到一定程度反而会降低RPO时长。现在出现镜像技术和快照技术可以有效地改进RPO,往往可以将RPO缩小到秒级。

RTO和RPO关系

RTO和RPO指标并不是孤立的,而是从不同角度来反映的容灾能力。我们用下面的图说明下RTO和RPO两个指标在故障处理过程中的关系:

从图中不难看出,RPO指标来自于故障发生前,而RTO指标来自故障发生后,两者的数值越小,就能有效缩短业务正常到业务过渡期的时间间隔,单一地提升RTO或RPO指标也可以缩减业务故障到过渡期的时间,具体从哪个指标上来改善,就要结合的实际情况分析,提升那个指标代价最小,效果更明显。当然完美的方案当然是RTO和RPO都为零,这表示当故障发生后,系统立即回复,而且完全没有数据丢失,要达到这样的目标系统设计是及其复杂的,而且造价也是非常昂贵的,也不一定有这个必要。

2007年7月,国务院信息化工作办公室领导编制的《重要信息系统灾难恢复指南》正式升级成为国家标准《信息系统灾难恢复规范》(GB/T 20988-2007 )。里面有关于各个级别中RTO和RPO的要求,我们可以看一下:

对对灾难恢复而言, RTO 与 RPO 哪个衡量指标更合适呢?在考虑采用哪个指标之前,IT 人首先要弄清楚一个基本概念,企业的容灾系统预防的是什么灾害,是多少年一遇的,能忍受多少损失,需要算出一个大概的成本,当然不一定很精确。其次,无论企业容灾系统是采用冷备、热备,还是磁盘备份,几分钟恢复业务和几天恢复业务效果是完全不一样的。企业需要明确对恢复时间的容忍底限是多少。再从灾备本身的意义来讲,无论采用哪种衡量指标,最终目的是要能够很好地检验灾备系统的实用性能,否则就失去建立灾备的意义了。

因此,在做灾备方案时需要根据具体数据类型和用户需求做出合理规划和设计,最佳的解决方案必须是在RTO、RPO、运维及价钱等多方面,都能够达到平衡。

对对灾难恢复而言, RTO 与 RPO 哪个衡量指标更合适呢?在考虑采用哪个指标之前,IT 人首先要弄清楚一个基本概念,企业的容灾系统预防的是什么灾害,是多少年一遇的,能忍受多少损失,需要算出一个大概的成本,当然不一定很精确。其次,无论企业容灾系统是采用冷备、热备,还是磁盘备份,几分钟恢复业务和几天恢复业务效果是完全不一样的。企业需要明确对恢复时间的容忍底限是多少。再从灾备本身的意义来讲,无论采用哪种衡量指标,最终目的是要能够很好地检验灾备系统的实用性能,否则就失去建立灾备的意义了。

因此,在做灾备方案时需要根据具体数据类型和用户需求做出合理规划和设计,最佳的解决方案必须是在RTO、RPO、运维及价钱等多方面,都能够达到平衡。

转载自原文链接, 如需删除请联系管理员。

原文链接:灾备系统建设指标:RTO、RPO,转载请注明来源!

0