H3C总代理商,华为代理商欢迎您!

全国咨询服务电话

15378180513 

技术文档

联系我们

客户至上

成都达锐斯科技有限公司
地址:成都市武候区人民南路4段53号嘉云台丙栋7楼

电话:15378180513

联系人:

邮箱:3511891@qq.com

官网:http://www.cdh3c.com

技术文档

当前位置: 首页>>技术文档

H3C Comware V7 平台分布式交换机冷/热重启随机无法及时发送SNMP Trap消息案例

组网及说明

H3C 分布式交换机,及框式交换机,通过业务单板接口 XG5/0/1 与 网管监控平台互联,客户需要通过网管监控平台了解交换机运行情况。

当交换机出现掉电冷重启,或手动执行reboot命令热重启时,交换机在重启完毕后,会主动发送相关SNMP Trap消息(hh3cSysColdStartTrap1.3.6.1.4.1.25506.6.8.4 或hh3cSysWarmStartTrap 1.3.6.1.4.1.25506.6.8.5)通知网管监控平台,其存在重启启动情况。




问题描述

测试发现,当管理员执行reboot命令重启交换机时,网管监控平台随机性的无法接收到相关SNMP Trap消息。

及,多次执行reboot命令,热重启设备时,监控平台仅一、两次能收到 hh3cSysWarmStartTrap1.3.6.1.4.1.25506.6.8.5 设备热启动消息。但每次执行reboot命令时,监控平台均能收到 hh3cRebootSendTrap 1.3.6.1.4.1.25506.6.8.3 设备即将重启事件告警消息。



过程分析

通过问题现象,可基本确认:

  • 交换机与网管监控平台网络连通性正常——因为:每次重启时,监控平台均能收到 hh3cRebootSendTrap 1.3.6.1.4.1.25506.6.8.3 设备即将重启事件告警消息。


那么判断问题的关键,就在于明确,交换机重启后,是否有发送出相关SNMP Trap消息。及,是交换机没有发送出相关SNMP报文,还是发出后监控平台处理判断异常导致。


通过在交换机上开启相关trap日志打印信息https://zhiliao.h3c.com/Theme/details/77395),发现交换机每次reboot重启后,交换机SNMP模块已发送相关Trap信息,并打印日志消息:

%Jun 27 18:47:01:382 2023 S12508X-AF SNMP/6/SNMP_NOTIFY: Notification hh3cSysWarmStartTrap(1.3.6.1.4.1.25506.6.8.5) with hh3cSysFirstTrapTime(1.3.6.1.4.1.25506.6.11.10.0)=54459.


虽然交换机上已经存在上述相关日志信息,但通过对业务接口 XG 5/0/1 镜像抓包,发现当监控平台无法收到SNMP消息时,交换机对应接口并没有发送对应的SNMP Trap消息。


为何产生如上情况呢?这里我们就需要了解分布式设备在启动时,硬件启动的先后顺序。


H3C Comware V7 平台分布式交换机,其硬件启动按照:主控板——>网板——>业务板 ,先后顺序进行启动加载。


结合此案例中的情况,及:

S12508X-AF设备,采用业务单板接口 XG 5/0/1 与监控平台互联。

  1. 设备重启后,主控板先重启成功,此时主控板CPU先发送相关SNMP Trap消息(日志中打印的相关hh3cSysWarmStartTrap信息)通知SNMP Server监控平台。
  2. 但相关网板、业务单板存在并未注册加载成功的情况。及此时,业务单板的XG 5/0/1接口,此时还无法正常工作,无法将报文发送出去。
  3. 因此,交换机只能相关相关SNMP Trap缓存起来,待XG5/0/1接口可正常工作时,再将前期缓存的Trap信息发送。
  4. 在缓存的过程中,设备仍会产生其他大量日志信息,这样就会导致相关hh3cSysWarmStartTrap信息概率性,被覆盖或丢弃,造成后续无法从设备XG5/0/1接口送出。




就如同上图所示,对于启动后的交换机,Master主控板启动完成发送相关SNMP Trap,但只有当相关Slot11、12、13、14网板和Slot5业务单板都注册加载完成后,主控板CPU发送出的SNMP Trap消息,才会选择的路径,将报文传递给Slot 5业务单板,进而由可正常工作的XG5/0/1接口发出。


对于每次执行reboot命令时,监控平台均能收到 hh3cRebootSendTrap 1.3.6.1.4.1.25506.6.8.3 设备即将重启事件告警消息。该消息是在交换机重启前,交换机发出的。此时网板、业务单板均注册加载正常,因此对应的SNMP Trap可及时送出。这与交换机重启后,再发送的hh3cSysColdStartTrap或hh3cSysWarmStartTrap消息存在本质上的差异。



解决方法


通过上述分析说明,对于此类问题解决的关键核心,就是在主控板启动完成后,要求设备(交换机)及时将SNMP报文发出,尽快减少被缓存丢弃的概率

因此,解决方案为:调整交换机与监控平台的互联接口。及,不使用业务单板Slot 5上的接口,切换为主控单板上的M-GigabitEthernet接口。相关M-GigabitEthernet接口与主控板CPU内部直连,可快速将主控板CPU产生的SNMP消息(或其他协议报文)转发出去。


补充:

部分局点,若无法及时快速的切换互联链路,及仍然使用业务单板的接口作为与监控平台互联口,交换机提供如下优化命令,通过增大相关参数数值,加大设备对于SNMP消息的缓存能力,减少丢弃率。但注意,相关命令仅能启动优化作用,无法保障设备重启后100%不丢弃SNMP Trap消息。


开启存活Trap周期发送功能,并配置发送时间间隔。

snmp-agent trap periodical-interval interval

缺省情况下,存活Trap周期发送的时间间隔为60秒。取值范围为0或者10~3600,单位为秒

配置告警信息发送队列的长度。

snmp-agent trap queue-size size

缺省情况下,告警信息的消息队列最多可以存储100条告警信息。取值范围1~1000

配置告警信息的保存时间。

snmp-agent trap life seconds

缺省情况下,告警信息的保存时间为120秒。取值范围为1~2592000,单位为秒



友情链接

新华三集团 思科 嵌入式主板

公司地址

ADDRESS

成都市武候区人民南路4段53号嘉云台丙栋7楼

服务电话

HOTTELEPHONE
  • 15378180513
公司简介
产品展示
H3C交换机
H3C路由器
思科交换机
思科路由器
华为交换机
企业新闻
技术文档
  • 扫一扫,加微信

Copyright © 2023 达锐斯科技 川公网安备 51010802000119号 XML地图

蜀ICP备2020034250号-1 技术支持: 网站模板