当前位置:首页 > 数据中心生产问题分级管理研究与实践
IT OPERATION ANDMAINTENANCEIT运维
数据中心生产问题分级管理研究与实践中国农业银行数据中心 张家文
在数据中心生产运维管理体系中,问题管理是推动生产运行持续改进、实现主动运维的主要力量。然而,在实践过程中,问题管理极易陷入投入大而收益不足的尴尬境地。本文结合中国农业银行数据中心的实践,将生产问题管理的常见矛盾和解决要点进行归纳总结。
题解决不彻底,达不到生产运行持续改进的目的。
二、问题管理的要点
解决上述矛盾的重点是抓住问题管理的两个要点,即问题识别和问题解决。按照“以偏差代替无序”的思路,制定标准,明确流程,突出重点,抓住要害,具体如下所述。
一、问题管理常见矛盾
1.藏而不露
生产问题的识别和解决,本身就是一项复杂的“技术活”,需要技术层面深入分析。然而,实践过程中,技术人员往往容易有“个人英雄主义”倾向,发现生产问题喜欢自己琢磨,藏而不露,导致问题管理陷入“餐馆开张了却没有客人”的尴尬局面。
1.规范问题识别
问题识别是问题管理的“触发器”。如何建立一套机制确保问题被有效识别,是问题管理成功的关键。这里要重点做好两件事。
(1)谁来识别问题
理论上,人人都有权识别问题、报告问题。识别问题是权利也是义务。能够识别出问题是运维能力的体现。但是,从运维职责的角度出发,可以将问题分为两类,并约定识别主体如下:
一是主动问题,指的是主动进行事件趋势分析、日常健康检查和应急演练等活动中发现的异常或隐患。这类问题由各专业技术人员在日常运维中主动识别和报告。
二是被动问题,指的是具体生产事件原因分析后发现的生产问题。这类问题以该事件的处理部门基于事后分析来识别和报告。
(2)何时创建问题
应该何时创建问题并没有统一的标准。一种说法是“为了避免故障重复发生,我们应该尽可能多地识别问题”,这个说法“完全正确但毫无用处”。毕竟管理是有代价的,需要在管理成本和问题解决的彻底性之间取得平衡。基于这样的思路,确立了“两个凡是”和“四个基于”的问题识别规则(见表1)。
2.含糊不清
清晰的问题描述是建立在对问题的部位、后果、危害和触发条件等风险要素准确评估基础上。然而,实践中往往难以做到如此全面。问题识别者仅从异常现象即判断出存在生产问题,在问题的描述上含糊不清,给问题解决方带来障碍。
3.小题大做
由于问题的严重性很难科学准确地衡量,问题识别部门基于运维风险“零容忍”的思维定势,在问题准入方面,门槛过低,小题大做,一些比较轻微的问题被不计成本地提上标准化的问题管理流程,流程成本大于问题解决效果,拉低了问题管理的整体效率。
4.避重就轻
问题解决的复杂性往往容易导致技术人员在选取解决方案时的短视,避重就轻,头痛医头,脚痛医脚,问
46
FINANCIAL COMPUTER OF CHINA
IT Operation and MaintenanceIT运维表1 问题识别规则对照表③立项解决。转入项目流程,通过立项解决,需要调整业务需求或大规模的系统变更,彻底解决问题。这类
识别条件凡是发生影响业务连续性的生产事件两个凡是凡是用户和管理层重点关注的生产事件基于重复发生的生产事件基于事件趋势分析四个基于基于日常健康检查发现的缺陷和隐患基于应急演练中发现的缺陷和隐患建单要求必须创建必须创建可以创建可以创建可以创建可以创建问题解决需要交付项目编号、解决方案及实施情况报告。
(3)合理设定问题解决时效
与事件管理注重“及时性”不同,问题管理更加注重“彻底性”。严重问题往往比较复杂,解决的难度更大、耗时更长。因此,在问题解决时效设定上切忌简单分级,避免一刀切式设定问题解决时效目标。理论上,只要具备有效的规避措施或应急方案,就可以由相关方协商确定一个合适解决时效目标。
2.规范问题解决
问题管理的核心目标是彻底消除风险隐患,避免故障重复发生。管理上要从解决标准、解决方式和解决时效三个方面进行规范。
(1)明确问题解决标准
通常来说,问题根本解决须同时满足三个条件:问题根本原因明确、问题解决措施实施完成和实施完成后验证问题现象不再重现。基于此标准,在实践中要把握两点:
一是三个条件缺一不可。对于原因已查明,但是还没有解决的问题,可以纳入已知错误来管理。已知错误是问题的一种中间状态,而非最终状态。
二是允许问题临时解决。对于问题原因未查明,但有规避解决措施,且经过一段时期观察问题现象未再次重现的,可临时关闭,待问题重现时重启。
(2)规范问题解决交付标准
问题解决需要针对故障原因“对症下药”,对生产系统实施某种变更调整。根据问题解决方式不同,明确问题解决后的交付标准:
①无变更解决。无需提交变更,只需综合考虑技术、成本、业务和时机等因素实施选定的解决方案,彻底解决问题。这类问题解决需要交付解决方案及实施情况报告。
②变更解决。提交变更解决,需对IT基础架构或应用程序进行变更、调整或优化,彻底解决问题。这类问题解决需要交付变更单号、解决方案及实施情况报告。
三、生产问题分级管理探索与实践
为提升问题管理精细化水平,从根本上规范问题识别和问题解决,中国农业银行探索建立了以问题风险评价为基础的问题分级管理机制,问题管理成效明显提升。主要做法如下。
1.问题风险量化评价
问题的风险大小,既取决于问题的危害程度及产生异常的可能性,也与现有的风险控制能力密切相关。主要涉及以下指标:
(1)问题的危害度(A)
A主要取决两方面,一是危害度系数(A1),主要与作用的信息系统密切相关,信息系统重要程度越高、系统数量越多,问题越严重;二是问题的后果(A2),在生产运行上,问题的后果从轻到重,主要影响运行监控或操作、影响系统性能或基础架构安全以及影响应用服务(批量或联机)。问题的危害度A=A1×A2。
(2)异常的可能性(B)
B主要与问题已造成的异常事实及触发条件有关,一是异常事实(B1),根据过去一年发生同类事件次数来评价;二是触发条件(B2),触发条件要求越低,产生异常的可能性越大,常见触发条件包括交易量或计算量等。异常可能性B=B1+B2。
(3)风险控制措施有效性(C)
2018 . 08 中国金融电脑
47
IT OPERATION ANDMAINTENANCEIT运维
表2 问题严重性与问题级别对照表
级别1级2级3级4级严重性评估取值下限(含)10080500严重性评估取值上限∞1008050描述风险极大,严重问题风险较大,重大问题风险一般,重要问题风险较小,一般问题表3 问题分级管理和升降级标准
级别严重性评估风险极大,严重问题 (S≧100)风险较大,重大问题 (80≦S<100)风险一般,重要问题 (50≤S<80)风险较小,一般问题 (0≤S<50)问题识别问题分派总行科技管理部门分派解决时效及时解决率交付物1级5日100%问题单提交解决,且提交《问题根源分析报告》2级20日数据中心、软件综合考量三个维度、开发中心问题管6项指标理部门分派30日90%3级85%问题单提交解决4级平台自动分派双方约定时间80%C指当前的运维能力对问题风险的掌控程度。主要从监控和应急两方面评价,一是监控发现能力(C1),主要评价产生的生产异常是否能够被监控及时发现;二是错误应对能力(C2)。风险控制措施有效性C=C1+C2。
管理要求。根据运行情况的变化,可以对级别进行升级或调整,见表3。
通过建立科学合理的问题分级管理机制,在问题识别和问题解决两个层面均发挥了明显作用。在问题识别阶段,通过综合考量危害度、异常可能性和风险控制措施,督促问题识别者更加准确地识别问题。在问题解决阶段,不同级别的问题解决时效要求不同。管理指标设计上的及时解决率要求也不相同,确保问题及时有效解决。将来,中国农业银行将进一步优化问题风险评价因素和评价标准,实现更加科学的分级管理,以高效的问题管理持续推动生产运行的改进。
栏目编辑:孔蕊 kongrui@fcc.com.cn
2.基于问题风险评价的定级模型
从问题危害度(A)、异常可能性(B)和风险控制能力(C)三个维度,综合评价问题的风险大小,计算出问题的严重性(S)评估得分,得出问题初始级别,见表2。
S=A×B-C,其中,A=A1×A2,B=B1+B2,C=C1+C2。
3.问题分级管理和升降级标准
问题分级的最终目的是实现分级管理。不同级别的问题,在问题的识别、分派和跟踪解决过程中有不同的
48
FINANCIAL COMPUTER OF CHINA
共分享92篇相关文档