任何网络系统都有出现故障的时候,可能发生在测试阶段,也可能发生在系统刚刚上线,还可能发生在已经稳定运行很多年的系统上。这些系统出现故障所带来的负面影响可大可小,小到一个终端的软件无法使用,大到整个网络瘫痪……
网络突发问题的例子比比皆是,2012年的双十一凌晨刚过,在第1分钟内,全国有超过1000万名独立客户“涌入”淘宝,淘宝总部的网络一度陷入瘫痪,遭到了网友们诟病,支付宝被”抢瘫”,好不容易进入支付过程,支付宝提示系统繁忙,经过反复尝试,花费用户很长时间实现支付。而京东当天流量暴涨,大量用户登录。结果京东商城的服务器被大流量冲垮,服务器也瘫痪。
作为以网络为主体的公司,难免会碰到各种各样的网络突发问题,如何解决这些问题已经成为所有企业都关注话题。本期IT大智慧就让笔者带大家了解一下常见网络突发问题的解决方案。
硬件损坏
服务器硬件故障是导致企业网络突发问题最大原因之一,由于X86服务器和台式机有着很多相似之处,无论是从前期部署、中期维护到后期管理都有着不少相同点。因此,X86服务器尽管有着成熟稳定的架构体系,也不免出现“罢工”。特别是企业负载应用得多了,遇到的故障是很平常的事情。较为常见的服务器硬件故障有处理器故障、内存故障、硬盘故障、线缆连接故障、电源、管理模块以及网卡故障等。而解决这些故障最简单的办法就是选择一些品牌质量过硬,服务较好的厂商.
目前,像戴尔PowerEdge 12G系列、联想ThinkServer系列,IBM System系列、HP ProLiant系列都能为企业用户提供经久耐用的产品,当然如果您的企业资金较为紧张,也可选用曙光等国产品牌服务器来满足您的需求。
而服务方面,能够提供金牌服务的戴尔应该算是最让人省心的服务器品牌,以戴尔PowerEdge 12G系列为例,其支持3年专业支持和 (7x24) 4小时上门服务和安装Dell PowerEdge服务器、Microsoft Windows操作系统服务,能够以最专业的服务和最快捷的上门服务快速解决企业用户服务器问题。
高温宕机
不少中小企业服务器由于需要控制成本并没有在机房托管,这也就带来一些不稳定因素,比如机房温度、断电、瞬间电流过大等情况。笔者认识一位IT运维人员,其在某企业担任系统工程师职位,在前不久,该公司发生了一次较大故障,故障成因很简单,就是由于空调物理机损坏,导致多台服务器过热,部分业务中断。在更换新的空调之后问题得以解决。当然,在没有更换之前,当时也采用了一些"笨办法",比如使用大功率的风扇、开启机房的排气窗等等,暂时缓解了空调损坏造成的不良影响。
出现故障的同时必然会造成一些业务的中断,可想而知,若是故障得不到及时的处理,那么公司网络将会处在一个"瘫痪"的状态,这将是很可怕的事情,后果不堪设想。那么如何解决类似于高温宕机这样的问题呢?
对于类似故障处理,大概遵循以下几个大的方向。首先,机房中应安装有温度报警系统,温度达到阀值后会直接报告给相关运维人员;其次需要IT运维人员收到报警巡检或定期巡检;再次,IT运维人员应检查是否误报;在确认报警内容属实进行相应处理;最后检查是否有预案,如有则按照预案处理,如无则尽快联系厂商处理,同时对此事备案。
在处理问题环节,如果在自身团队无法处理的时候,会及时和厂商联系,获取更专业的支持。
以戴尔新风冷却解决方案为例,其不仅具备高散热能力和可靠性等优势,还使得方案中的服务器、存储和网络设备允许用户在更高温度条件下安全、稳定的运行,避免因高温宕机“罢工”。
瞬间高流量压力
就像本篇一开始所说,由于瞬间流量过高导致的服务器宕机的例子比比皆是,就连耗资三亿多12306购票网站也在春节、国庆前后出现宕机意外,据不完全统计,每年春运时间仅铁道客运流量便高达4亿人次,如此高的瞬间流量难免让一个网站无法承受。
既然是全国交通购票系统网站,由国家铁道部亲自操刀主办,又投入如此大的经费,每每关键时刻出现问题,很多时候不得不让人心存疑虑。从角度而言,也许是因为服务器数量不足,不够完善等等。若说这一网站真正发挥功效的时候可谓屈指可数,十一和春节是中国最为重要的两个节日,也是人们出行高峰时节,但仅仅因为服务器数量原因而增加设备,难免在年中其它时间显得浪费。下面就让我们来一起看看网站瞬间高流量压力问题应如何解决。
首先我们先来熟悉一下这两个名词:负载均衡、应用交付。
……