|
计算机中心机房运行风险分析及应对
新闻来源:《网管员世界》 作者:建行广西分行信息技术部高级工程师赵旭东 责任编辑:王一丁 点击:
为了满足业务或管理的需要,保障计算机核心系统和网络系统的正常运行环境,越来越多的计算机中心机房(以下简称机房)投入使用。机房以及各种各样的机房保障系统的安全运行水平,决定了核心业务系统和网络系统的可靠性和可用性。计算机应用系统和网络系统越重要,对机房的保障要求就越高,确保机房的安全可靠运行,是每个机房管理者追求的目标。然而,各种各样的计算机系统,庞大的信息通讯网络,众多的机房保障系统,连续不间断的长期运转,注定了机房运行风险的客观存在。
一、机房运行风险分析 1、机房的运行风险 机房中连续运行着各种各样的设备和系统,对设备(系统)的可用性是人们关注的重点。假设一台设备(系统)的可用性达到99.9%,那么它一年中就可能有8.76小时不能用,即使设备(系统)的可用性达到99.99%,其一年仍然可能有0.876小时不能用。一个机房内成百上千台套的运行设备(系统),可以说时刻都孕育着运行失效的风险,因此防范运行风险必须引起足够的重视。 风险防范须建立在对风险的清楚认知的基础之上。比较简单的方法是通过风险列表,按照分类等级尽可能详尽地罗列出相关机房可能存在的各种运行风险,用以进一步的分析。一般可以按照机房环境、运行设备、机房管理等方面进行机房风险分类,然后尽可能详尽地列出相应的风险事件和因素,并进行分级。 以下是一个机房风险列表示例(见下表)。其中,一级风险为无法承受的运行风险,因为一旦发生,无法在短时间内恢复正常的运行状态,必然会给所属单位造成严重的经济、社会损失。二、三级风险虽然严重危及运行安全,但是大部分可能造成局部运行异常或只是运行安全隐患,基本属于可承受和可控制的运行风险。当然不同类型用途的机房,其风险等级的认定会不同。 值得注意得是,机房运行风险不是一成不变的,会随着机房内相关要素的各种变化而改变,或者影响其风险等级,或者会产生新的风险因素。
|
机房运行风险分析列表 |
| |
| 风险分类 |
风险等级 |
| 一级 |
二级 |
三级 |
| 机房安全 |
机房发生火灾 |
机房部分设备发生火险 |
|
| 机房大面积漏水 |
主要机房地面积水 |
机房局部漏水 |
| 机房建筑物发生塌毁 |
机房建筑物局部损毁 |
机房建筑物险情 |
| |
消防系统失控 |
消防系统异常 |
| |
空调系统失效或失控 |
温度或湿度超范围 |
| |
门禁系统失控 |
门禁系统异常 |
| |
机房照明失效 |
照明异常 |
| |
场地监控系统失效 |
场地监控系统异常 |
| 运行安全 |
核心设备故障停机 |
主要设备故障停机 |
个别设备故障停机 |
| 机房大面积停电 |
供电异常 |
接地异常 |
| 系统异常或程序混乱 |
系统异常 |
程序错误 |
| 运行数据丢失无法恢复 |
数据丢失但可以恢复 |
数据错误可以恢复 |
| 核心网络中断备份无效 |
主/备网络故障 |
部分网络故障 |
| 管理及人员安全 |
人为破坏事故 |
严重操作失误 |
一般操作失误 |
| |
管理机构或责任缺失 |
|
| |
规章制度不健全 |
管理松懈 |
| 人员伤亡 |
|
人员受伤 |
| 财产安全 |
重要设备损毁 |
局部设备损毁 |
设备故障 |
| 重要设备(数据)丢失 |
设备丢失 |
设备配件丢失 |
| 其他 |
雷击导致供电或网络通讯中断 |
发生雷击入侵 |
防雷设施失效 |
| |
鼠害毁坏线缆 |
发现老鼠 |
| |
发生虫害 |
|
| 发生严重电磁干扰 |
发生一般电磁干扰 |
|
2、机房运行风险分析 机房风险的来源是多方面的。首先,机房风险的存在是客观的。任何长期运行的机房,不可避免会发生各种各样的异常,从而导致运行风险,如设备故障、网络通讯异常、计算机系统失效等。从运行安全的容忍程度,可以分为可承受风险和不可承受风险;从风险发生的角度,可分为可控制风险及不可控风险。机房管理的目标是最大限度地避免发生无法承受的不可控制的运行风险,及时排除可承受风险发生的隐患,避免可控制风险的发生。 其次,机房风险来源于机房设计、施工缺陷。机房的设计、施工及验收,国家都有相关的标准,但是由于经费投入、设计施工单位资质、机房管理部门要求等因素,使得有些机房在开始设计建设时就在使用功能、安全标准、配套设施、材料用品等方面存在很多缺陷,特别是在机房的安全性、可维性、可扩展性方面留下严重隐患。
第三,机房风险来源于低水平的管理。由于机房用途的特殊性,决定了其管理的重要性。由于目前没有标准的机房管理规范,各行各业各家的机房管理都是自行其是,问题是相当多的机房运行风险正是由管理不到位造成的。如规章制度不健全或形同虚设、安全管理不到位、检测检查制度不严格、技术维护制度不落实等等。
第四,机房风险来源于不严谨的运维。机房运行维护是维持长期可靠运行的必要手段,高度的责任心、精通的运维技术和严谨的工作态度,对实现安全运维目标缺一不可。往往一时的疏忽,一个随意的操作,一次不到位的检查,一次不经意的失误等等,就会导致一场运行风险甚至灾难。
二、防范机房运行风险的对策
机房管理者应该在机房运行风险没有发生时就制定好严密的应对对策。为此,针对机房风险的对策主要应该体现在以下一些方面。
1、真实可行的风险分析
应用科学的方法,针对确定的对象,进行认真仔细的风险分析,同时进行合理的风险判断。尽管机房运行风险的基本情况如前表的罗列,但是具体的机房必须进行具体的风险分析,才可以制定出切合实际的防范对策。其方法可以参照本文的列表进行分类分级,在此基础上,进行风险承受性和风险控制性分析。
下面以对某机房的消防保障情况分析,说明机房火灾风险分析的方法。
1)火险火源:电源(老化、过载、短路、电弧等)。人为(用火失误、放火破坏等)。
2)控制能力:首先,机房所有建筑材料,全部为不可燃物品或难燃物品,即使发生火险,其燃烧蔓延速度和范围有限。其次,电源设施全部按照国家标准施工建设和验收,其中开关、线缆等配件均为合格产品;机房线缆全部实现金属穿管布线。第三,机房安排24小时双人同时值班,严格执行定期检查检测制度,认真落实供配电系统定期检测制度,所有供电回路没有满载使用情况。第四,机房安装了合格的自动检测消防系统,包括自动温感和烟感报警及自动扑灭装置,机房内合理布置了适量的手提灭火器。第五,机房内严禁用火,工作人员严禁在机房内吸烟。第五,机房有健全的门径控制系统和严格的人员进出管理制度,工作人员的业务素质较高,职业操守良好。
3)风险承受力:局部火险的影响可以承受,一旦发生火灾就将会导致非常严重的后果和不可控制的影响
4)结论:可控性高,发生率低,风险较小。
2、风险预置理念
通过对机房运行风险的分析,就会发现,机房风险可以进行适当的分别对待,因此提出机房运行风险预先处置的理念。即通过科学的防范措施,尽可能避免一级风险的发生,尽可能减少二、三级风险的发生。
1)风险转移。将一些可以预见但可能发生概率较低的风险,通过购买保险、设备维修外包等形式,转移到保险公司和机房设备服务商。如购买财产保险,将机房风险(机房建筑物风险、火灾风险等)转移到保险公司;通过机房设备外包的方式,将UPS、精密空调等设备故障风险转移到设备维修服务公司等。特别是对重要的设备以外包方式实现风险转移,是非常理智的选择。同时强调,选择风险转移的主要目的在于通过借助相关部门的管理、技术、资金来最大限度地降低机房发生相关风险的可能性。
发布时间:2007-10-19 16:55:00 |