当前位置:首页 > 华为MSTP以太网故障处理指导书
华为MSTP以太网故障处理指导书
2.2 流程说明
(1) 进行故障记录时,力求做到对故障发生的全过程进行真实、详细的记
录。对于像故障发生的时间,在故障出现前后曾经做过哪些操作等重要信息都要进行详实地记录,同时对于网管中的告警信息,性能事件等重要数据也要进行保存。
(2) 外部原因造成的故障,如电源问题、光缆问题、机房环境(温度
等)、终端设备(交换机等)等,应及时进入其它相应处理流程。 (3) 通过查询相关的告警和性能判断是否是SDH层面造成的故障,如果是
SDH层面产生的故障,转SDH故障处理指导书进行处理。华为EFGS系列单板还提供测试帧功能,能够非常方便的确认SDH侧VCTRUNK的LINK状态是否正常,操作简单实用。
(4) 如果是由于以太网层面故障,参照《MSTP处理思路及方法》进行处
理。在解决问题时,对设备的操作应该严格按照操作规范进行,如必须佩戴防静电手带等。
(5) 遇到困难无法排除故障时,拨打华为公司24小时问题受理电话:800-830-2118,以获取技术支持,并配合华为公司工程师处理故障。 (6) 在业务恢复后,对运行情况进行观察,确认故障已经排除。 (7) 在故障处理完后,应及时填写相关的处理报告。
3 MSTP故障处理思路及方法
对OptiX 系列SDH光传输设备MSTP系统来说,除了遵照故障处理流程外,还应尽可能采取其它的应急措施(如提供备用电路),减少业务中断时长。
3.1 MSTP故障处理思路与方法
与SDH故障定位思路一样,以太网故障定位也遵循“先外部、再内部;先软件、再硬件;先单板、再系统”的原则,充分利用性能事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计划有步骤的定位。
首先需要对于事故做一下初步的定位,首先排除SDH层面的问题:通过查询相关的告警和性能,EFGS系列单板提供GFP测试帧验证VCTRUNK端口之间互通性;确认SDH层面没问题后,转入以太网层面的定位。 环回当然是我们的法宝。与数据维护人员配合也是很重要的,一般多用PING和测试帧+环回手段来定位故障点。比如通过MSTP设备数据单板网
5
华为MSTP以太网故障处理指导书
口PING对端路由器或者交换机的IP地址,能够PING通基本证明我们这边正常,建议采用如下的格式PING包: ping xxx.xxx.xxx.xxx –l 1000 –t
–l 1000代表是1000字节的包长,-t代表是持续ping包。可以变换多种包长,同时多开几个ping窗口试试。当然ping包正常也不能完全排除metro设备的问题,因为在端口工作模式不正确的时候,小流量的ping也是可以ping通的。它更多意义上是证明我们以太网链路的配置没问题,SDH层面也是没有问题的。我们的首先需要检查、确认SDH层的配置和通道没有问题,才能集中精力来排查以太网数据层面的问题。
如业务配置是基于VLAN报文的业务或基于MPLS报文的业务,最好的手段就是通过数据分析仪来辅助定位问题,在不具备测试仪表的情况下,可通过“模拟发包”类的软件,利用计算机网卡仿真设备发送业务报文,协助定位问题。
3.2 MSTP故障类似及原因
一般来说以太网板(这里以EFGS为例)的故障都分成两种类型: 1)链路完全中断 2)链路上持续存在丢包
从目前来看可能造成故障的原因如下:
6
华为MSTP以太网故障处理指导书
故障可能原因 发(8) 生故障现象 1 以太链路完全中断 链路上持续存在丢包 业务中端口TAG属性(TAG/UNTAG)设置不断当 业务量大,配置带宽不够 2 故作模式不正确,或者端口某些参数异障常,或接口板故障,物理层寄存器被时随意改写等。 物理层出现故障,表现为实际端口工带宽足够,但是业务突发比较大 3 4 ,网线或者光纤出现故障 首先检以太网业务配置数据丢失 业务量过大的时候,对端设备不响应流控 单板设置的最大传输包长MTU小于实际设备的传输包长 查情况下,ET1的一些通道上报BIP-5 在某些情况下,出现网元指针调整的端口模式和对端设备不匹配,造成工作在异常状态 是OVER和TU-LOP,业务中断。更换否移,但是不能完全解决问题。 单板或者复位只能引起故障通道的转6 7 8 9 10 11 有以下备告警单板硬件故障 封装协议不匹配 网线或者光纤出现故障 单板硬件故障 二层交换业务存在环路,且未启动生成树协议。 LCAS一些VC颗粒丢失,剩余VC颗粒绑定的带宽不足。 网络存在异常,如存在超量的广播报文 设GFP失步告警 GFP封装FCS校验出错告警 VLAN ID设置与数据设备未进行同步,更改 这因为大量丢包造成的业务中断。这种 些情况转第二种故障类型处理 3.3 MSTP故障处理方法
3.3.1 对于以太链路完全中断的问题定位
对于第一种链路完全中断故障类型,一般表现为对接的路由器和交换机接收不到任何报文,业务完全中断,完全无法PING通对端设备等等,主要检查以下几个部位:
(1) 端口TAG属性(TAG/UNTAG)设置不当
7
华为MSTP以太网故障处理指导书
该种故障出现概率较大,多发生在初开通业务时,MSTP设备的TAG属性设置和与其连接的数据设备设置不能相互配合,或MSTP设备未能与数据设备进行端口属性同步更改,导致业务中断。 (2) 端口工作模式引起的故障
物理层出现故障,表现为实际端口工作模式不正确,或者端口某些参数异常,或接口板故障,物理层寄存器被随意改写等。
该问题出现的概率也比较多,主要通过查询物理层的相关寄存器来定位问题所在的部位。
重点在网管上查询以太网口使能与工作模式。 (3) 网线或者光纤出现故障
这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。(注意光接口板的指示灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。 (4) 需重点查询VC通道捆绑情况
在非LCAS状态下捆绑错或不一致也可致使业务中断。 (5) 端口的默认vlan id设置也不要放过
如果ip端口设置了untag属性但是配置了vlan路由的业务类型,那么该ip端口的默认vlan id一定要和vlan路由中的vlan id 一致,不然的话,这个小疏忽却能使业务中断的。
对于EFGS单板的Hybrid端口的PVID设置也要注意两端设备的一致问题。
(6) 以太网配置的静态路由错误或者丢失 (7) 单板硬件故障
一般都会有上报TU-AIS,TU-LOP等SDH层告警,现象比较好判断。 (8) 封装协议不匹配
对于EFGS系列单板,N1单板支持LAPS和GFP,N2只支持GFP,不同的封装协议是无法对接成功的。
(9) GFP帧失步或GFP封装FCS_ERROR
8
共分享92篇相关文档