近日,拜访一金融用户,聊到数据库大量采用本地盘存储,客户说,之前有几十台服务器的盘,大概300块SSD盘,上业务后厂商定位有FW BUG,需要升级FW,全是手工操作,需要找停机变更时间窗,对服务器重启,盘升级FW,复位上下电,耗时3个月!
极其复杂的高风险操作,客户自己都升怕了。
试想,当前某些银行数据库节点高达数千台,几万块服务器本地盘,而且来自各个服务器整机供应商、盘的厂商、型号、版本五花八门,好些国内不知名的SSD小厂家,研发可能就几十个人,研发质量和生产制造可能就没有那么高要求,盘有BUG就很正常,如需要升级FW,几万块海量的服务器本地盘怎么手工升级?这对数据中心运维管理复杂度的影响将难以想象!
其实存储系统本身就是管盘的机器,俗称“盘机”,负责存储整体的可靠性,存储厂商对盘来料质量筛选管控,SSD盘FW软件版本质量评测,在引入前是需要大量测试的,生产制造期间也要进行大量烤机测试,通过专业仪器对问题盘、慢盘、亚健康盘进行检测识别出来,避免发到客户现场出现问题。SSD盘的FW也集成到存储系统软件中,有问题统一通过存储系统来自动升级,不需要人工操作盘的升级。
而现在大量服务器挂本地盘,将导致盘的不可控风险无限放大,盘的FW软件需要客户自己评测,怎么评测版本质量符合要求?还需要手工人肉升级操作,本来专业厂商干的复杂的事情全部留在用户侧来手工干,而且是海量繁琐的高风险操作,是负责任的处事逻辑吗?符合人性的逻辑是复杂留给厂家自己,简单留给客户。
文章来源:毕须说