我司以客户网络情况为一台S7506E作为核心,下联多台S5130S-EI,S5500HI设备作为楼层网关,S5130S-EI下联用户反馈有时会无法访问外网,几分钟后自动恢复;
1、通过分析诊断,S5130S-EI上送CPU ARP报文一直超限速丢包;debug rxtx抓包确认,是S7506E发送了大量ARP包;而S7506E侧发送大量ARP,是因为收到了目的IP不可达的流量;
[5F-S5130-probe]debug rxtx softcar show slot 2
ID Type RcvPps Rcv_All DisPkt_All Pps Dyn Swi Hash ACLmax
29 ARP 200 78471785 31635187 100 S On SMAC 8
2、考虑到5130S-EI,S5500HI同为S7506E下联网关设备,S5500HI下联用户没有问题,因此针对5500HI,5130S-EI 上送CPU的ARP报文数量进行对比:5500HI在30-40 pps,5130S-EI在200+pps;S5500HI,S5130S-EI与S7506E互联口均配置为trunk permit vlan all,为什么上送CPU的ARP数量差异巨大呢?
3、进一步分析5130S-EI CPU抓包,发现ARP报文来自很多不同的vlan,而有的vlan在S5130S-EI上并没有业务,进一步查看配置,发现设备创建了vlan段,即创建了很多不涉及业务的vlan;而对于S5130S-EI这款产品,这些vlan的ARP报文均上送CPU,导致业务相关ARP学习不及时,出现网络中断;
S5130S-EI将vlan精细化,删除非业务vlan后,上送CPU ARP数量降低,问题解决;
如下总结了S5130S-EI/HI ARP泛洪,上送CPU,上送平台(ARP模块)触发条件(以vlan 10为例):
1)设备创建vlan-interface 10,有up的物理端口放通vlan 10,接收端口(无论是否放通vlan 10),ARP会泛洪,上CPU,上送平台处理;
2)设备未创建vlan-interface 10,创建了vlan 10,有up的物理口放通vlan 10,接收端口(无论是否放通vlan 10),ARP会泛洪,上CPU,但不上送平台处理;
3)设备未创建vlan 10,或者创建了vlan 10,但没有up的端口放通vlan 10,接收端口丢弃来自vlan 10的ARP报文;