组网及说明
/
告警信息
/
问题描述
S12516X-AF设备slot3板卡异常重启,重启原因为冷重启
LPU 3:
Uptime is 0 weeks,0 days,0 hours,22 minutes
H3C S12516X-AF LPU with 1 XLP308 Processor
BOARD TYPE: LSXM1CGQ48HB1
DRAM: 16384M bytes
FLASH: 0M bytes
NVRAM: 0K bytes
PCB 1 Version: VER.B
PCB 2 Version: VER.B
PCB 3 Version: VER.A
Bootrom Version: 134
CPLD 1 Version: 001
CPLD 2 Version: 001
CPLD 3 Version: 001
Release Version: H3C S12516X-AF-2713
Patch Version: R2713H3501
Reboot Cause: ColdReboot
过程分析
记录的是冷重启,deadloop和exception都没有异常记录,高端内存没有信息,diag-msg只记录了一次,大概率是掉电重启,黑盒没有记录到异常,建议继续观察。
(1)记录的重启类型是ColdReboot
LPU 3:
Uptime is 0 weeks,0 days,0 hours,22 minutes
H3C S12516X-AF LPU with 1 XLP308 Processor
BOARD TYPE: LSXM1CGQ48HB1
DRAM: 16384M bytes
FLASH: 0M bytes
NVRAM: 0K bytes
PCB 1 Version: VER.B
PCB 2 Version: VER.B
PCB 3 Version: VER.A
Bootrom Version: 134
CPLD 1 Version: 001
CPLD 2 Version: 001
CPLD 3 Version: 001
Release Version: H3C S12516X-AF-2713
Patch Version: R2713H3501
Reboot Cause: ColdReboot
(2)没有deadloop和exception的记录。
===============display kernel deadloop 20 verbose slot 0 ===============
No information to display.
=================================================================
===============display kernel exception 10 verbose slot 0 ===============
No information to display.
=================================================================
(3)diag-msg只记录了一次secondary log buffer信息。
===============printk log buffer info on slot 3===============
<4>---------- secondary log buffer [1] ----------
(4)高端内存没有记录到信息。
====local logbuffer chassis 1 slot 3 display from-highmemory====
(5)黑盒信息全f,没有异常的记录。
[HB.ZW.ZEY-C1.P13-H.S12516X-U0-LF-IDC.IN-1-probe]debug sysm blackbox-info slot 3
Slot 3 Blackbox is enable 0x0!
Hex format:
00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
f980: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff
f990: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff 00
f9a0: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff
f9b0: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff 00
f9c0: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff
f9d0: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff 00
f9e0: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff
f9f0: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff 00
对重启类故障有多个方面的监控:
通过cpld信号监控和高端内存刷新技术,从cpu小系统的硬件信号和内存软件管理两个方面了记录单板或者设备重启原因。
CPLD会对cpu的重启原因进行记录,如果是cpu掉电,cpld监控到电平跌落等信号并进行锁存,如果cpu没有掉电,cpld会记录为热重启,也即是cpu运行程序从头运行。如果是用户命令行重启,cpu会记录userreboot。
高端内存技术是借用内存的自刷新特点,如果内存在一定时间(如2秒)没有被cpu提供控制信号刷新,内存存储的内容可能丢失。
一个设备出现cold重启,大概率是cpu小系统被掉电。
解决方法
记录的是冷重启,deadloop和exception都没有异常记录,高端内存没有信息,diag-msg只记录了一次,大概率是掉电重启,黑盒没有记录到异常,建议继续观察。