问题描述
固态硬盘(SSD、NVME、M.2)存在固定的擦写次数,在使用过程中寿命会随着擦写次数增加寿命逐渐减少,损耗的频率受多种因素影响,如硬盘类型、容量大小、业务读写模式等。分布式存储由于其实现原理,数据IO相对均衡的落在不同硬盘上,因此集群内硬盘剩余寿命会存在几乎同时耗尽的可能。当多个节点的多块硬盘剩余寿命同时濒临耗尽时,若继续使用会存在性能数据下降和跨节点多块硬盘批量故障的风险,造成用户数据丢失。因此在日常运维过程中需要密切关注SSD磨损度。
过程分析
注:阵列卡型号会决定查询使用的指令,硬盘型号会决定查询的字段,因此不同阵列卡下不同类型的SSD,查询方法均不相同
1、使用lsscsi -g指令查询阵列卡型号和SSD对应的sg编号。如图PMC430阵列卡回显为PMC8060,此系统下两块intel SSD,sg编号分别为sg16和sg17。(若系统下有多种型号硬盘,可以先在HDM中获取SSD具体型号)
2、使用smartctl -a /dev/sdx指令,查看缓存盘寿命
3、Intel是通过对比Smart233 :Media Wareout Indicator来确认硬盘使用寿命,如图所示本块SSD剩余寿命为99%
解决方法
建议定期查看SSD剩余寿命,建议在硬盘寿命减少到10%前,就开始进行硬盘更换的准备工作