最近遇到一件很让人郁闷的事情,CX3-10C上分配给一台服务器的虚拟磁盘老是掉线,原因起先不明,不过现在正常了,让人难以琢磨?
这台视频服务器上面的两个虚拟磁盘没有了,存储阵列管理端提示光纤未连接,然后我就猜测是网通的人把线碰掉了或者是拔掉了,因为他们最近在摸线,准备机房搬迁,碰掉也很有可能。电话告诉陈乾,可能原因,我去机房检查服务器光纤连接情况,处理这起故障。去了之后发现确实是光纤松掉,指示灯都不亮了。插好之后重启,一切正常。
但是第二天早上,也就是昨天早上又出现这样的问题就是这台视频服务器上面的两个虚拟磁盘没有了,但是存储阵列管理端显示连接一切正常,服务器端的powerpath一切也正常,也没有提示任何错误,只是系统日志里有几个提示错误。
此时问题原因不明啊,服务器端也提示正常,但是确实是没有磁盘,很让人意外。然后我就重启服务器,因为windows系统好多问题一重启就正常了,重启之后果然正常,但是这时不知道原因,至少我认为在存储阵列上是没有问题的,光纤交换机肯定也是没有问题的,即使有问题也是某个端口的问题,我怀疑最大的是网通又把线碰了,打电话问网通那边的负责人问有没有人去机房,他们说没有人去机房,我很怀疑,但是没有办法,因为我们那机房暂时没有门禁系统,也无从判断,我就暂时把这个问题放在这里,日志也看不出是什么原因。
郁闷的是两个小时之后又那样了,磁盘又没有了,提示都正常,错误日志也和上次一样,我想会不会是光纤的问题,去了机房把光纤和光纤交换机端口都换了,重启机器又正常了,但是还是没有用,下午三点钟又出现原问题,又重启恢复正常,待进一步观察问题,每次提示的错误都是一样的,就是数量上稍微有区别。
由于还有一件事情比这个重要,下午下班赶紧去办另外一件事情,回来之后八点,那会在路上同事打电话说又出问题,我说你先重启一下,又恢复正常,回来之后立即研究,时刻监控,同时备份上面的数据,防止磁盘数次卸载挂上出现问题,但是备份途中又坏掉,由于已很晚,这台服务器访问量也不是很高,晚上就没有加班处理,说实话即使加班也不知道该怎么做,回家想了想,断定剩下的只能是HBA卡的问题了,端口也换过了,光纤也换过了,还是重复性出现这个问题,时断时续,真的很烦人……
早上重启之后和dell售后服务工程师联系,商讨问题解决方案,咨询了类似的问题,他看了一下存储阵列spa、spb、系统日志、光纤交换机的 supportshow命令的输出(那个我看不懂,他让我抓下来给他的)。然后也断定是HBA坏掉,我当时已经在机房,由于这台服务器上面有两块HBA,我把光纤接到另外一块HBA卡上面,然后重新再管理端注册这个hba卡,形成对存储阵列的有效访问链接。切换过程不用多说,就是一般的注册过程,很简单,就这样问题解决。一切恢复正常。整个就一神奇的乌龙事件!
……