曲折离奇的CUCM系统排错:主板“引导块恢复跳线”

  1月5日,为了为公司的Cisco Unified Communication Manager(Call manager)做小版本的升级做准备,要先为服务器做备份。服务器有4块硬盘做的2组Raid 1,因此拔出每一组的其中一个硬盘做备份用,再插入另外一个盘进行自动同步(如果想知道系统RAID信息可以用系统命令行形式打“show harware”)。谁知道拔出一块硬盘并打了一个命令后,系统就死机了。重启机子,发现起不来了,囧死。查看明细报告,发现是CUCM(CCM)在重启过程中对主BIOS进行版本升级,但是每次重启的时候都从备用BIOS读取主板信息,因此会不断重启不断重启。(这个结论也是经过反复排查定位才发现了,也多亏几个同事帮忙!)

故障现象是:

  主机启动–开始打开进程–CUCM开始检查BIOS版本(1.06)–发现版本过低–进行主BIOS升级(1.10)–重启使之生效–从备BIOS版本(1.06)启动–循环

  服务器的机型是IBM x3650 7979 5AC,在官网查询相关文档的时候发现,原来这种机型设置有2块BIOS,一块主用,一块备用,并且可以通过“引导块恢复跳线”进行主备切换。

20120107232233

  发现这个特性后,我们就大概定位了问题的所在关键点。打开主机外壳,发现跳线本来就放在1,2位置,即激活了主BIOS信息,这就奇怪了。后来更换跳线帽后再重启,竟然发现刷BIOS成功,重启用主BIOS启动了,最后正常进入系统。

这次排错得到的结论:

  1. 思科的CUCM系统每次进行升级,即使是小版本的,都会检查硬件(BIOS,RAID卡版本 )信息,如果低于系统要求,会强制进行升级。

  2. 思科CUCM6.0是基于Linux Redhat 4内核的,但属于定制系统,没有过多的命令可选择。如果要查看硬件或者RAID信息,可以使用“show hardware”命令。

  3. CUCM做小版本升级要做好硬件备份(冷备),RAID一般支持热插拔,如果是RAID的话最好在系统运行的时候插拔。

  4. RAID做的过程中,硬盘绿灯要同步闪,表示属于一个RAID组。新插入硬盘还要闪橘黄色灯,表示正在进行同步。

  明天要把公司的CUCM 6.1(4) 升级到6.1(5)SU2,希望不要遇到什么大 麻烦。



 
 » 除非注明,本博客文章均为挨踢小茶原创,转载请以链接形式标明本文地址
该日志由 挨踢小茶 于2012年01月07日发表在 操作系统, 网络技术 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
原创文章转载请注明: 曲折离奇的CUCM系统排错:主板“引导块恢复跳线” | 挨踢茶馆
关键字: , , ,

曲折离奇的CUCM系统排错:主板“引导块恢复跳线”:目前有2 条留言

  1. 沙发
    淋浴花洒:

    很专业

    2012-01-08 下午 1:11 [回复]

发表评论



快捷键:Ctrl+Enter

无觅相关文章插件,快速提升流量