数据中心统筹设计技术(组图)
MTTR对可用性的特殊作用
优化可用性的另一个方面与恢复时间有关。可用性是与平均无故障工作时间(MTBF)、平均恢复时间(MTTR)相关联的函数。所有的系统都会在某个点上出现故障。这是事实,但是,可用性高的系统不会受到太大影响,并且可以快速、高效地修复。有证据显示,如果MTTR过长,就不可能达到较高的可用性。
从图7和图8可以看出,平均恢复时间对提高系统可用性的作用远大于平均故障时间(MTRF)的作用,其原因有以下几点:
第一,MTTR对提高可用性的作用是MTBF根本达不到的。
第二,提高MTBF值对可用性的提高并不是总有效的。
第三,MTTR的变化与可用性总是呈线性关系。
另一个需要了解的影响可用性的情况是,数据中心的操作人员无法控制一个部件的MTBF,但是在很大程度上,MTTR是可以控制的。数据中心操作人员可以控制MTTR,这就要求现场必须储存100%的备件,操作人员需要接受有关设备操作的培训,同时要了解必要时更换或维修设备的程序。
考虑备件库存是建立数据中心可用性预期的一个重要组成部分。为此,应对本地人员进行培训,详细讲解操作程序。与涉及关键业务设施的其他领域相比,数据中心的操作人员接受的培训少,操作程序亦很简单。此外,复杂性也是造成宕机的重要原因。有最近的统计数据显示,高达50%的宕机与人为错误有关。很明显,必不可少的培训和备件是实现高可用性的先决条件。
EPO对可用性的影响
可用性数据是建立在统计学或经验数据的基础上。而这些统计或经验数据又都是基于以前的运行经验。
其中有一个原则是关于数据中心紧急断电(EPO)开关的使用。在大部分情况下,EPO系统是必备的,而且它们被设计成数据中心必不可少的重要环节。出于安全原因,它们能够立即使数据中心完全宕机,但在其设计方面也常有不足之处。鉴于它们对数据中心的影响,必须详尽地考虑这些因素,仔细检查隐藏的陷阱。
第二个原则被认为是提高可用性的关键原则。该原则指出,高可用性系统要在系统出现故障时使系统的状态变化最小化。某些系统设计时尽管提供了冗余措施,但如果一个部件发生故障,仍然需要进行状态的多种变更。换句话说,如果出现故障,最好不要改变状态,也不要重新确定电源路径,或者被迫启动系统;而且此时替代系统已经可以运行,且准备就绪。这样的系统冗余最可靠,但也会更昂贵。
综上所述,在建立完全适合客户需要的系统过程中,需要统筹考虑以下各种因素:
● 当前的系统需求
● 后期未来的系统需求
● 系统可用性要求
● 资金预算状况
● 商业模型
认真地检查所有这些因素,会使客户满意度达到最高水平,并使项目和业务的成功概率达到最大。
集成系统网络情报信息数据库
CIO频道人物视窗
CIO频道方案案例库
大数据建设方案案例库
电子政务建设方案案例库
互联集成系统构建方案案例库
商务智能建设方案案例库
系统集成类软件信息研发企业名录

