三个方法教你排除交换机故障
添加时间:2016-04-13 15:42:33
来源:
由于交换机在公司网络中应用(yòng)范围非常广泛,从低端到中端,从中端到高端,几乎涉及每个级别的产品,所以交换机发生故障的机率比路由器,硬件防火墙等要高很(hěn)多(duō),这也是為(wèi)什么我们首先讨论交换机故障的分(fēn)类与排除故障步骤的原因。
一、交换机故障分(fēn)类:
交换机故障一般可(kě)以分(fēn)為(wèi)硬件故障和软件故障两大类。硬件故障主要指交换机電(diàn)源、背板、模块、端口等部件的故障,可(kě)以分(fēn)為(wèi)以下几类。
(1)電(diàn)源故障:
由于外部供電(diàn)不稳定,或者電(diàn)源線(xiàn)路老化或者雷击等原因导致電(diàn)源损坏或者风扇停止,从而不能(néng)正常工作。由于電(diàn)源缘故而导致机内其他(tā)部件损坏的事情也经常发生。
如果面板上的POWER指示灯是绿色的,就表示是正常的;如果该指示灯灭了,则说明交换机没有(yǒu)正常供電(diàn)。这类问题很(hěn)容易发现,也很(hěn)容易解决,同时也是最容易预防的。
针对这类故障,首先应该做好外部電(diàn)源的供应工作,一般通过引入独立的電(diàn)力線(xiàn)来提供独立的電(diàn)源,并添加稳压器来避免瞬间高压或低压现象。如果条件允许,可(kě)以添加UPS(不间断電(diàn)源)来保证交换机的正常供電(diàn),有(yǒu)的UPS提供稳压功能(néng),而有(yǒu)的没有(yǒu),选择时要注意。在机房内设置专业的避雷措施,来避免雷電(diàn)对交换机的伤害。现在有(yǒu)很(hěn)多(duō)做避雷工程的专业公司,实施网络布線(xiàn)时可(kě)以考虑。
(2)端口故障:
这是最常见的硬件故障,无论是光纤端口还是双绞線(xiàn)的RJ-45端口,在插拔接头时一定要小(xiǎo)心。如果不小(xiǎo)心把光纤插头弄脏,可(kě)能(néng)导致光纤端口污染而不能(néng)正常通信。我们经常看到很(hěn)多(duō)人喜欢带電(diàn)插拔接头,理(lǐ)论上讲是可(kě)以的,但是这样也无意中增加了端口的故障发生率。在搬运时不小(xiǎo)心,也可(kě)能(néng)导致端口物(wù)理(lǐ)损坏。如果購(gòu)买的水晶头尺寸偏大,插入交换机时,也容易破坏端口。此外,如果接在端口上的双绞線(xiàn)有(yǒu)一段暴露在室外,万一这根電(diàn)缆被雷電(diàn)击中,就会导致所连交换机端口被击坏,或者造成更加不可(kě)预料的损伤。
一般情况下,端口故障是某一个或者几个端口损坏。所以,在排除了端口所连计算机的故障后,可(kě)以通过更换所连端口,来判断其是否损坏。遇到此类故障,可(kě)以在電(diàn)源关闭后,用(yòng)酒精棉球清洗端口。如果端口确实被损坏,那就只能(néng)更换端口了。
(3)模块故障:
交换机是由很(hěn)多(duō)模块组成,比如:堆叠模块、管理(lǐ)模块(也叫控制模块)、扩展模块等。这些模块发生故障的机率很(hěn)小(xiǎo),不过一旦出现问题,就会遭受巨大的经济损失。如果插拔模块时不小(xiǎo)心,或者搬运交换机时受到碰撞,或者電(diàn)源不稳定等情况,都可(kě)能(néng)导致此类故障的发生。
当然上面提到的这3个模块都有(yǒu)外部接口,比较容易辨认,有(yǒu)的还可(kě)以通过模块上的指示灯来辨别故障。比如:堆叠模块上有(yǒu)一个扁平的梯形端口,或者有(yǒu)的交换机上是一个类似于USB的接口。管理(lǐ)模块上有(yǒu)一个CONSOLE口,用(yòng)于和网管计算机建立连接,方便管理(lǐ)。如果扩展模块是光纤连接的话,会有(yǒu)一对光纤接口。
在排除此类故障时,首先确保交换机及模块的電(diàn)源正常供应,然后检查各个模块是否插在正确的位置上,最后检查连接模块的線(xiàn)缆是否正常。在连接管理(lǐ)模块时,还要考虑它是否采用(yòng)规定的连接速率,是否有(yǒu)奇偶校验,是否有(yǒu)数据流控制等因素。连接扩展模块时,需要检查是否匹配通信模式,比如:使用(yòng)全双工模式还是半双工模式。当然如果确认模块有(yǒu)故障,解决的方法只有(yǒu)一个,那就是应当立即联系供应商(shāng)给以更换。
(4)背板故障:
交换机的各个模块都是接插在背板上的。如果环境潮湿,電(diàn)路板受潮短路,或者元器件因高温、雷击等因素而受损都会造成電(diàn)路板不能(néng)正常工作。比如:散热性能(néng)不好或环境温度太高导致机内温度升高,指使元器件烧坏。
在外部電(diàn)源正常供電(diàn)的情况下,如果交换机的各个内部模块都不能(néng)正常工作,那就可(kě)能(néng)是背板坏了,遇到这种情况即使是電(diàn)器维修工程师,恐怕也无计可(kě)施,惟一的办法就是更换背板了。
(5)線(xiàn)缆故障:
其实这类故障从理(lǐ)论上讲,不属于交换机本身的故障,但在实际使用(yòng)中,電(diàn)缆故障经常导致交换机系统或端口不能(néng)正常工作,所以这里也把这类故障归入交换机硬件故障。比如接头接插不紧,線(xiàn)缆制作时顺序排列错误或者不规范,線(xiàn)缆连接时应该用(yòng)交叉線(xiàn)却使用(yòng)了直连線(xiàn),光缆中的两根光纤交错连接,错误的線(xiàn)路连接导致网络环路等。
从上面的几种硬件故障来看,机房环境不佳极易导致各种硬件故障,所以我们在建设机房时,必须先做好防雷接地及供電(diàn)電(diàn)源、室内温度、室内湿度、防電(diàn)磁干扰、防静電(diàn)等环境的建设,為(wèi)网络设备的正常工作提供良好的环境。
二、交换机的软件故障:
交换机的软件故障是指系统及其配置上的故障,它可(kě)以分(fēn)為(wèi)以下几类。
(1)系统错误:
交换机系统是硬件和软件的结合體(tǐ)。在交换机内部有(yǒu)一个可(kě)刷新(xīn)的只读存储器,它保存的是这台交换机所必需的软件系统。这类错误也和我们常见的Windows、Linux一样,由于当时设计的原因,存在一些漏洞,在条件合适时,会导致交换机满载、丢包、错包等情况的发生。所以交换机系统提供了诸如Web、TFTP等方式来下载并更新(xīn)系统。当然在升级系统时,也有(yǒu)可(kě)能(néng)发生错误。
对于此类问题,我们需要养成经常浏览设备厂商(shāng)网站的习惯,如果有(yǒu)新(xīn)的系统推出或者新(xīn)的补丁,请及时更新(xīn)。
(2)配置不当:
初學(xué)者对交换机不熟悉,或者由于各种交换机配置不一样,管理(lǐ)员往往在配置交换机时会出现配置错误。比如VLAN 划分(fēn)不正确导致网络不通,端口被错误地关闭,交换机和网卡的模式配置不匹配等原因。这类故障有(yǒu)时很(hěn)难发现,需要一定的经验积累。如果不能(néng)确保用(yòng)户的配置有(yǒu)问题,请先恢复出厂默认配置,然后再一步一步地配置。最好在配置之前,先阅读说明书,这也是网管所要养成的习惯之一。每台交换机都有(yǒu)详细的安装手册、用(yòng)户手册,深入到每类模块都有(yǒu)详细的讲解。由于很(hěn)多(duō)交换机的手册是用(yòng)英文(wén)编写的,所以英文(wén)不好的用(yòng)户可(kě)以向供应商(shāng)的工程师咨询后再做具體(tǐ)配置。
(3)密码丢失:
这可(kě)能(néng)是每个管理(lǐ)员都曾经经历过的。一旦忘记密码,都可(kě)以通过一定的操作步骤来恢复或者重置系统密码。有(yǒu)的则比较简单,在交换机上按下一个按钮就可(kě)以了。而有(yǒu)的则需要通过一定的操作步骤才能(néng)解决。
此类情况一般在人為(wèi)遗忘或者交换机发生故障后导致数据丢失,才会发生。
(4)外部因素:
由于病毒或者黑客攻击等情况的存在,有(yǒu)可(kě)能(néng)某台主机向所连接的端口发送大量不符合封装规则的数据包,造成交换机处理(lǐ)器过分(fēn)繁忙,致使数据包来不及转发,进而导致缓冲區(qū)溢出产生丢包现象。还有(yǒu)一种情况就是广播风暴,它不仅会占用(yòng)大量的网络带宽,而且还将占用(yòng)大量的CPU处理(lǐ)时间。网络如果長(cháng)时间被大量广播数据包所占用(yòng),正常的点对通信就无法正常进行,网络速度就会变慢或者瘫痪。
一块网卡或者一个端口发生故障,都有(yǒu)可(kě)能(néng)引发广播风暴。由于交换机只能(néng)分(fēn)割冲突域,而不能(néng)分(fēn)割广播域(在没有(yǒu)划分(fēn)VLAN 的情况下),所以当广播包的数量占到通信总量的30%时,网络的传输效率就会明显下降。
总的来说软件故障应该比硬件故障较难查找,解决问题时,可(kě)能(néng)不需要花(huā)费过多(duō)的金钱,而需要较多(duō)的时间。最好在平时的工作中养成记录日志(zhì)的习惯。每当发生故障时,及时做好故障现象记录、故障分(fēn)析过程、故障解决方案、故障归类总结等工作,以积累自己的经验。比如有(yǒu)时在进行配置时,由于种种原因,当时没有(yǒu)对网络产生影响或者没有(yǒu)发现问题,但也许几天以后问题就会逐渐显现出来。如果有(yǒu)日志(zhì)记录,就可(kě)以联想到是否前几天的配置有(yǒu)错误。由于很(hěn)多(duō)时候都会忽略这一点,以為(wèi)是在其他(tā)方面出现问题,当走了许多(duō)弯路之后,才找到问题所在。所以说记录日志(zhì)及维护信息是非常必要的。
三、交换机故障的一般排障步骤:
交换机的故障多(duō)种多(duō)样,不同的故障有(yǒu)不同的表现形式。故障分(fēn)析时要通过各种现象灵活运用(yòng)排除方法(如排除发、对比法、替换法),找出故障所在,并及时排除。
(1)排除法:
当我们面对故障现象并分(fēn)析问题时,无意中就已经學(xué)会使用(yòng)排除法来确定发生故障的方向了。这种方法是指依据所观察到的故障现象,尽可(kě)能(néng)全面地列举出所有(yǒu)可(kě)能(néng)发生的故障,然后逐个分(fēn)析、排除。在排除时要遵循有(yǒu)简到繁的原则,提高效率。使用(yòng)这种方法可(kě)以应付各种各样的故障,但维护人员需要有(yǒu)较强的逻辑思维,对交换机知识有(yǒu)全面深入的了解。
(2)对比法:
所谓对比法,就是利用(yòng)现有(yǒu)的、相同型号的且能(néng)够正常运行的交换机作為(wèi)参考对象,和故障交换机之间进行对比,从而找出故障点。这种方法简单有(yǒu)效,尤其是系统配置上的故障,只要简单地对比一下就能(néng)找出配置的不同点,但是有(yǒu)时要找一台型号相同、配置相同的交换机也不是一件容易的事。
(3)替换法:
这是我们最常用(yòng)的方法,也是在维修電(diàn)脑中使用(yòng)频率较高的方法。替换法是指使用(yòng)正常的交换机部件来替换可(kě)能(néng)有(yǒu)故障的部件,从而找出故障点的方法。它主要用(yòng)于硬件故障的诊断,但需要注意的是,替换的部件必须是相同品牌、相同型号的同类交换机才行。
四、分(fēn)析交换机故障的原则
当然為(wèi)了使排障工作有(yǒu)章可(kě)循,我们可(kě)以在故障分(fēn)析时,按照以下的原则来分(fēn)析。
1.由遠(yuǎn)到近
端口模块—>水平線(xiàn)缆—>跳線(xiàn)—>交换机这样一条路線(xiàn),逐个检查,先排除遠(yuǎn)端故障的可(kě)能(néng)。
2.由外而内
如果交换机存在故障,我们可(kě)以先从外部的各种指示灯上辨别,然后根据故障指示,再来检查内部的相应部件是否存在问题。比如POWER LED為(wèi)绿灯表示電(diàn)源供应正常,熄灭表示没有(yǒu)電(diàn)源供应;LINK LEDs為(wèi)黄色表示现在该连接工作在10Mb/s,绿色表示為(wèi)100 Mb/s,熄灭表示没有(yǒu)连接,闪烁表示端口被管理(lǐ)员手动关闭;RDP LED表示冗余電(diàn)源;MGMT LED表示管理(lǐ)员模块。无论能(néng)否从外面的出故障所在,都必须登录交换机以确定具體(tǐ)的故障所在,并进行相应的排障措施。
3.由软到硬
发生故障,谁都不想动不动就那螺丝刀(dāo)去先拆了交换机再说,所以在检查时,总是先从系统配置或系统软件上着手进行排查。如果软件上不能(néng)解决问题,那就是硬件有(yǒu)问题了。比如某端口不好用(yòng),那我们可(kě)以先检查用(yòng)户所连接的端口是否不在相应的VLAN中,或者该端口是否被其他(tā)的管理(lǐ)员关闭,或者配置上的其他(tā)原因。如果排除了系统和配置上的各种可(kě)能(néng),那就可(kě)以怀疑到真正的问题所在——硬件故障上。
4.先易后难
在遇到故障分(fēn)析较复杂时,必须先从简单操作或配置来着手排除。这样可(kě)以加快故障排除的速度,提高效率。