网站首页/网络技术列表/内容

如何排除服务器故障

网络技术2023-02-08阅读
网络技术是从1990年代中期发展起来的新技术,它把互联网上分散的资源融为有机整体,实现资源的全面共享和有机协作,使人们能够透明地使用资源的整体能力并按需获取信息。资源包括高性能计算机、存储资源、数据资源、信息资源、知识资源、专家资源、大型数据库、网络、传感器等。 当前的互联网只限于信息共享,网络则被认为是互联网发展的第三阶段。

  本文主要分三部分:第一部分讲的是服务器故障排除的基本原则性问题;第二部分讲述了一些服务器硬件故障排除的实例;第三部分讲述了一些服务器软件故障排除的实例。

  第一部分 服务器故障排除的基本原则性问题

  一、服务器开机无显示应怎么办

  1、检查供电环境,零-火;零-地电压

  2、检查电源指示灯,如果亮,正常吗

  3、按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗

  4、是否更换过显示器,更换另一台显示器

  5、去掉增加内存

  6、去掉增加的CPU

  7、去掉增加的第三方I/O卡

  8、检查内存和CPU 插的是否牢靠

  9、Clear CMOS

  10、更换主要备件,如系统板,内存和CPU

  二、服务器故障排错的基本原则是什么

  1、尽量恢复系统缺省配置

  a:硬件配置:去除第三方厂商备件和非标配备件

  b:资源配置:清除CMOS,恢复资源初始配置

  c:BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序

  d:TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗

  2、从基本到复杂

  a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理

  b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止

  c:软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止

  3、交换对比

  a:在最大可能相同的条件下,交换操作简单效果明显的部件

  b:交换NOS载体,既交换软件环境

  c:交换硬件,既交换硬件环境

  d:交换整机,既交换整体环境

  三、服务器故障排除需要收集哪些信息

  服务器信息:

  1、机器型号

  2、机器序列号(S/N:如:NC00075534)

  3、Bios 版本

  4、是否增加其它设备,如网卡,SCSI 卡,内存,CPU

  5、硬盘如何配置,是否做阵列, 阵列级别

  6、安装什么操作系统及版本(Winnt 4, Netware, Sco, others)

  故障信息:

  1、在POST时,屏幕显示的异常信息

  2、服务器本身指示灯的状态

  3、报警声和BEEP CODES

  4、NOS的事件记录文件

  5、Events Log 文件

  确定故障类型和故障现象:

  1、开机无显示

  2、上电自检阶段故障

  3、安装阶段故障和现象

  4、操作系统加载失败

  5、系统运行阶段故障

  第二部分 服务器硬件故障处理几例

  硬件故障是指服务器硬件出现异常而导致的各类错误。由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。下面以一台万全4500为例说明。(例子,在实际问题中如果遇到相似现象,也需要具体问题具体分析,不要盲目套用)

  有一台万全4500,配有256M内存,使用一个PIII XEON 500带2M高速缓存的处理器。开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的情况也有5%左右。我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。所以在初步判断中,可以排除是CPU板块坏。

  这时,取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。

  相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。于是立即在另一台万全4500中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比较明显了。于是立即从另一台万全 4500中取下一个CPU安装后,开机正常。

  总结:

  在服务器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断出问题的所在。这样就要求相关人员要有信心及耐心。出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。总之,服务器出错后,必须一步一步解决,没有捷径可言。

  又如:


网络的神奇作用吸引着越来越多的用户加入其中,正因如此,网络的承受能力也面临着越来越严峻的考验―从硬件上、软件上、所用标准上......,各项技术都需要适时应势,对应发展,这正是网络迅速走向进步的催化剂。

……

相关阅读