当前位置:首页 > 中国移动浙江公司IT系统故障详细分析报告模板 - 图文
浙江移动通信有限责任公司业务支撑中心 需求管理 □业务管理室 业支系统 软件质量 经分系统 信安系统 电渠系统 运维故障分析 【原因分析】 无部署监控告警。 【改进措施】□规范执行 □重复问题 □历史遗留问题 通过程序优化改造,加强计数器合理值的监控告警,同时部署实时接口探测程序,在异常情况下促发告警。(开发进行解决) 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 需求开发责任人 告警调整任务单号 新增/修改 新增/修改 任务单号 专题需要的资源 改进措施落实情况 ? 浙江移动业务支撑中心第33页
缺陷管理 ■业务管理室 架构管理 □系统规划室 测试管理 ■开发管理室 □经营分析室 □信息安全室 □客服中心电渠 1)告警 监控管理 2)高可用保障管理 3)运维 操作管理 4)系统 基础平台问题 故障后续改进 故障所属域(CRM/BOSS/渠道) 优化需求 告警监控 故障预案 高可用保障 数据稽核 疑难问题 优化需求编号 告警调整版本号 预案名称 优化分析报告名 数据稽核任务 专题名称 需求维护跟踪人 告警调整人 预案编写人 报告撰写人 稽核人 专题发起人
浙江移动通信有限责任公司业务支撑中心 运维报告撰写人 故障责任小组 故障引入需求编号和名称 故障原因综述 章清云 改进措施落实监督人 开发故障评估 蒋健 统一开通项目组 开发故障分析 故障引入需求编号和名称 现在的系统业务逻辑为:营业开通调用统一开通实时接口的超时时间系统统一设置为40S,统一开通与在月初三天、月末三天如果统一开通超过40S未应答,那么营业将作为成功处理(历史业务逻辑)。即出现了如充值操作超时,那么CRM对用户会显示成功,但实际后端处理结果不确定,最终导致充值未到账问题的产生 1、 全国卡充值渠道很多,业务流程一般有两个步骤:查询、充值。这两个操作的详细流程都一致: 故障详细分析及问题解决 非月初前三天和月末后三天时,接口调用为实时接口,无特殊逻辑,真实反映充值的成功与否 1) 业务受理渠道发起操作,请求转发到CRM APP。 2) CRM APP通过营业开通模块组向统一开通发起实时调用。 3) 统一开通平台组指令向全国卡充值平台发起请求。 4) 全国卡充值平台处理后应答统一开通。 5) 统一开通向营业开通应答结果。 6) 营业开通向上游发起方应答结果。 月初前三天和月末后三天特殊逻辑如下 营业开通调用统一开通实时接口的超时时间为40S,统一开通与在月初三天、浙江移动业务支撑中心第34页
浙江移动通信有限责任公司业务支撑中心 月末三天如统一开通超过40S未应答,那么营业将作为成功处理(此业务逻辑为历史逻辑)。对于后端是否真实处理成功不做稽核和后续处理。 统一开通实时进程BUG 统一开通实时进程在12月31日确认存在1个问题:当CRM接口超时时间<网元超时时间设置时,由于CRM超时断开连接触发开通实时接口程序释放消息,在释放消息的时候开通系统存在BUG,没有将队列计数器减1。 统一开通共有8个进程与网元连接,每个进程最多允许并发10个请求,当某个进程累计达到10次超时,计数器的值为10,且一直无法减少,此时,营业送开通发来请求,如果分配给此进程,开通不会做任何处理,40s超时后返回,同时营业送开通会向前台返回成功,但用户并未成功充值。 营业送开通的超时时间原本设置为40秒,在全国卡充值平台正常的情况下超时的可能性基本不存在,错误代码也不会被执行到。故障发生后,超时时间修改为5s,在一定程度上提高了问题的发生概率。 故障解决措施 统一开通将计数器的bug逻辑修改正确,当营业开通超时时,将计数器减1,保证业务逻辑正确,已于12月31日上线完成 改进措施(问题避免) 提供一个CRM调统一开通实时接口探测的工具,可以对接口返回时间做实时监控告警。 责任人:蔡宏富;完成时间:2014年1月 1)需求因素分析及改进 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 【原因分析】 2)系统设计因素分【改进措施】□规范执行 □重复问题 □历史遗留问题 析及改进 【原因分析】 3)软件编 码因素分【改进措施】□规范执行 □重复问题 □历史遗留问题 析及改进 4)自测因素分析及改进 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 开发改进措施落实情况 ? 开发报告撰写人 故障责任小组 杨俏,蔡宏富 开发报告撰写人 测试故障评估 杨俏,蔡宏富 浙江移动业务支撑中心第35页
浙江移动通信有限责任公司业务支撑中心 测试故障分析 【原因分析】 1)功能测 试因素分【改进措施】□规范执行 □重复问题 □历史遗留问题 析及改进 【原因分析】 2)回归测 试因素分【改进措施】□规范执行 □重复问题 □历史遗留问题 析及改进 3)性能容量测试因素分析及改进 4)安全性测试因素分析及改进 5)编译因素分析及改进 6)上线因素分析及改进 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 【原因分析】 【改进措施】□规范执行 □重复问题 □历史遗留问题 改进措施落实情况 ? 测试报告撰写人 测试报告撰写人 浙江移动业务支撑中心第36页
共分享92篇相关文档