某用户流量网络闪断,在一定时间段内(下午一点至四点半左右)有时断时通的现象。
1、拓扑描述
涉及设备:两台汇聚交换机 Huawei - S5720-32X-EI-24S
两台瑞士康达核心交换机,型号不明
核心设备与汇聚交换机之间互联链路使用Eth-Trunk技术做了链路聚合。
两台瑞士康达核心交换机之间为同一堆叠组
两台5720交换机之间为同一堆叠组。
本次排障使用排除法进行故障排查。
考虑到用户流量闪断,判断可能有以下几点问题存在,并逐一进行排查:
1: 现网中有运行STP,因此判断可能有TC通告报文引起整个现网拓扑结构收敛,从而导致网络有时断时通现象:
情况显现时,使用display stp tc-bpdu statistics 查看了整个网络中TCbpdu的统计信息,
在网络故障显现时,以上三个端口的发送、接收TCbpdu的数量并未增长,且所有端口均为forwarding转发状态,因此排除此故障点。
2: 怀疑现网中可能存在环路问题导致CPU、接口使用率被占满,因此查看设备CPU以及接口情况判断是否存在环路:
故障显现时,使用 dis cpu-usage 命令查看cpu使用率,
数据显示目前CPU使用率只达到百分之20,之后查看接口下带宽使用率
使用display ip interface brief 命令查看了接口下带宽占用率,结果如下:
以上查看结果显示接口带宽利用率比较正常,并且上行物理端口以及Eth-Trunk接口都正常运行。
根据上述两点查看结果,可以排除掉网络中有广播风暴的情况。
3:经过上述查看,基本排除了几点导致网络大面积瘫痪的原因。接下来使用Wireshark以及流量统计定位网络故障:
①.使用ping-t 命令对网关节点地址进行ping测试,
测试结果中发现,在网络不通时,ICMP报文都是无法发出请求的
在分析至网络恢复时,主机开始发出ICMP请求报文,网关地址开始回复ICMP报文。
主机无法发出ICMP报文可能是因为无法进行报文的完整封装,推断主机发出ARP请求可能存在发出或回复失败的现象。
②.对ARP报文进行了筛选分析:
网络中只存在主机的ARP请求报文,并没有核心设备的ARP回复。
根据上述现象,进一步判断汇聚设备与核心设备之间可能存在阻塞ARP报文回复方面的故障。
之后针对于上述故障进行进一步排查,因核心无法登录,首先排查汇聚设备是否存在上述故障现象:
③.使用流量统计查看本机对ARP报文处理情况:
首先使用流量统计功能将经过汇聚设备的本机ARP流量进行流量统计,看是否有丢包,
经过查看发现流量统计中ARP报文统计 Drop字段为丢弃的ARP报文,显示为0,表明此设备没有丢弃过ARP请求、回复报文。
流量统计结果
通过以上测试,结果表明汇聚设备对ARP报文处理并未出现问题将故障进一步定位至核心交换机上。
原因分析
在排查类似网络故障时,如果没有思路可以先检查一下网络中是否存在STP频繁收敛的现象,以及网络中是否存在环路问题,如果上述两点未发现故障点,可以使用流量统计配合软件看下报文交互是否存在问题。
本案例问题点在于核心交换机处理ARP报文达到阈值,导致整个网络出现流量闪断,网络瘫痪的现象。
解决方案
修改核心交换机的ARP报文处理阈值上限。因本案例的故障根因定位在友商设备上,本案例不做配置演示。
如果Huawei交换机出现此故障现象,可以参考相关设备产品文档来修改CPU处理ARP报文上限阈值。