技术文档
当前位置:技术文档

S7706主控板管理口收到大量报文导致CPU达到95%

来源:未知 时间:2022-03-31 13:11
 

     某银行客户办公网与设备带外管理网属于同一网段,其通过网管监控发现,大量设备在特定时间出现管理口利用率和设备CPU利用率突增情况,CPU利用率最高可达到95%,管理口利用率设备运行存在安全隐患。

  1、采集客户设备日志和diag信息,分析客户组网

  2、查看当前设备上的报文计数信息:

  =====================================================================

  ===============display cpu-defend statistics all===============

  =====================================================================

  Statistics on mainboard:

  --------------------------------------------------------------------------------

  Packet Type Pass(Packet/Byte) Drop(Packet/Byte) Last-dropping-time

  --------------------------------------------------------------------------------

  8021x 0 0 -

  0 0

  ……..

  asdp 0 0 -

  0 0

  bfd 138866273 0 -

  9720639110 0

  ……..

  vrrp 1038299918 0 -

  NA NA

  可以看出该设备当前状态上是BFD以及VRRP两类报文的量级很大,存在大量上送的情况, 且对应的丢包计数都是为0;

  3、查看后台日志,对应的时间点(05:57:54 和06:57:53)上后台日志都有相应的超限记录:

  05:57:54之前:

  Feb 24 2022 05:56:15+08:00 XAD01-BF-DS02 SECE/4/OLC_START:OID 1.3.6.1.4.1.2011.5.25.165.2.2.11.1 CPU overload control start in slot 7. (Threshold1=95%, CurrentCpuUsage=96%, Cycle=2s)

  Feb 24 2022 05:57:36+08:00 XAD01-BF-DS02 SECE/4/OLC_STOP:OID 1.3.6.1.4.1.2011.5.25.165.2.2.11.2 CPU overload control stop in slot 7. (Threshold1=95%, CurrentCpuUsage=13%, Cycle=2s)

  4、对应任务线程:排前三占用CPU的线程分别是(SOCK+ METH+MERX)

  设备在CPU 冲高的时间点上,存在大量报文走管理口上送,这部分报文不丢弃直接上送导致了CPU 占用率偏高,而管理口为何会发送报文且报文数量有突增,需要进一步排查。

  5、通过与客户核对分析网络结构发现,其办公网地址段和设备的带外管理地址段的网关都是同一个,且都是部署在S7706上,虽然网络中设备带外管理都是通过vpn上送到带外管理交换机,但带外管理交换机是二层透传的方式将管理vlan上送到S7706进行终结,从本质上说,其办公网和设备的带外管理口都属于同一个网络,如果办公网存在网络冲突或中毒等问题,也会导致设备的管理口收到相关的报文,影响设备CPU的性能,按照如上思路排查,在S7706上发现有大量的ARP冲突告警,

  #Feb 10 2022 08:01:27+08:00 XAD01-BF-DS02 ARP/4/ARP_IPCONFLICT_TRAP:OID 1.3.6.1.4.1.2011.5.25.123.2.6 ARP detects IP conflict. (IP address=10.87.0.199, Local interface=Ethernet0/0/0, Local MAC=3c2a-f411-54e6, Local vlan=0, Local CE vlan=0, Receive interface=Ethernet0/0/0, Receive MAC=14a0-f89b-5e23, Receive vlan=0, Receive CE vlan=0, IP conflict type=Remote IP conflict).

  同时也发现设备上存在该地址地址冲突问题

  通过跟踪排查,查询对应mac地址发现,其地址是在办公网内的一台打印机地址,与防火墙出口的一条nat地址冲突,因NAT地址已经不再使用,删除NAT配置,保留打印机地址。为了进一步判断确认故障源头,与客户协商在带外交换机上配置7706管理口接到交换机端口入方向端口镜像,进行故障定位。

  6、在随后的测试阶段,交换机管理口依旧收到突然报文,通过抓取的镜像口报文分析,发现大量的HTTP报文,地址源是10.87.0.199 ,即打印机地址,通过分析,该打印开启的web访问服务,用户在访问其web应用时,会给同网段用户周期性的发送http访问请求,从而导致问题发生,随后客户拔除该打印机后,突发告警不再出现。


上一篇:华为S6730-H48x6C使用40G模块配置堆叠失败
下一篇:华为AirEngine 5760-51在控制器上无法上线,无法登录
蜀ICP备2020034250号-1   川公网安备 51010802000119号 keywords:成都H3C 成都H3C

售前客服

售前客服

电话:028-83252151

传真:028-85259033

咨询热线:15378180513
在线客服