1月5日,为了为公司的Cisco Unified Communication Manager(Call manager)做小版本的升级做准备,要先为服务器做备份。服务器有4块硬盘做的2组Raid 1,因此拔出每一组的其中一个硬盘做备份用,再插入另外一个盘进行自动同步(如果想知道系统RAID信息可以用系统命令行形式打“show harware”)。谁知道拔出一块硬盘并打了一个命令后,系统就死机了。重启机子,发现起不来了,囧死。查看明细报告,发现是CUCM(CCM)在重启过程中对主BIOS进行版本升级,但是每次重启的时候都从备用BIOS读取主板信息,因此会不断重启不断重启。(这个结论也是经过反复排查定位才发现了,也多亏几个同事帮忙!)
故障现象是:
主机启动--开始打开进程--CUCM开始检查BIOS版本(1.06)--发现版本过低--进行主BIOS升级(1.10)--重启使之生效--从备BIOS版本(1.06)启动--循环
服务器的机型是IBM x3650 7979 5AC,在官网查询相关文档的时候发现,原来这种机型设置有2块BIOS,一块主用,一块备用,并且可以通过“引导块恢复跳线”进行主备切换。
发现这个特性后,我们就大概定位了问题的所在关键点。打开主机外壳,发现跳线本来就放在1,2位置,即激活了主BIOS信息,这就奇怪了。后来更换跳线帽后再重启,竟然发现刷BIOS成功,重启用主BIOS启动了,最后正常进入系统。
这次排错得到的结论:
1. 思科的CUCM系统每次进行升级,即使是小版本的,都会检查硬件(BIOS,RAID卡版本 )信息,如果低于系统要求,会强制进行升级。
2. 思科CUCM6.0是基于Linux Redhat 4内核的,但属于定制系统,没有过多的命令可选择。如果要查看硬件或者RAID信息,可以使用“show hardware”命令。
3. CUCM做小版本升级要做好硬件备份(冷备),RAID一般支持热插拔,如果是RAID的话最好在系统运行的时候插拔。
4. RAID做的过程中,硬盘绿灯要同步闪,表示属于一个RAID组。新插入硬盘还要闪橘黄色灯,表示正在进行同步。
明天要把公司的CUCM 6.1(4) 升级到6.1(5)SU2,希望不要遇到什么大 麻烦。
文章评论
很专业