大众计算机学习网

专门提供各种电脑教程

以太网常见故障排除的一般过程上篇

Admin | 2008-4-15 20:12:12 | 被阅次数 | 4649

  以太网常见故障,多数都是与硬件有关的:比如说电缆,中继器,HUB,Switch和网卡等。对于以太网典型故障的查找,一般过程如下:

  一:收集一切可以收集到的有价值的信息,分析故障的现象。
  二:将故障定位到某一特定的网段,或者是单一独立功能组(模块),也可以是某一用户。
  三:确认到底是属于特定的硬件故障还是软件故障。
  四:动手修复故障。
  五:验证故障确实被排除。

  一般来说,最好的方法是先把故障细分或隔离在一个小的功能段上,即首先排除最大的简单段,从任何一个方便的,靠近问题的站点出发,利用二分法隔离障碍,再继续使用二分法直至把故障划分到最小的单位。网管人员不要过多的指望用户会给出准确的故障情况描述,最好由自己亲自来确认一下。当然也可以由用户演示所发现的问题。由于网络故障带来的压力和混乱,人们经常忽略一些细节问题。如果某个部件出了问题,最好不要立即去替换它,除非能肯定故障的来源。

  故障查找要注意一些事项,由于以太网采用通用总线拓扑结构以及物理层可扩展的潜在问题,所以某个特定物理层的问题会以不同的方式显现出来,由于采用的测试手段、位置和环境不同,显示出的现象也常常矛盾。

  为了避免被假象误导,特推荐两个故障查找的步骤。

  ①:沿网段多做测试如果故障现象随测试点的不同还保持一样的话,就可以依照所测试出来的故障现象去排除。如果故障现象在一些或所有的测试点都不同的话,就要把查找故障的方向定在物理层(除非有特别提示),例如去查找坏的电缆、噪声环境、接地循环等故障。

  ②:要提高测试质量,在测试的同时要把测试仪器设置成至少可同时发送较低的流量。

  由于增加了网络流量,微小的和间歇性的物理层问题会暴露出来。

  为了更具体说明故障分析方法,下面列举典型的网络故障加以说明。

  故障:不能访问服务器或某项服务

  在这里设定服务器或某项服务以前是正常的,并且已经做过如下的工作:
 -重新冷启动PC机(热启动不能复位全部的适配卡)。
  -确认PC机没有本身的硬件故障。
  -确认所有的网络电缆都连接正确。
  -确认所有的网卡驱动软件都正常的装入,没有报告错误。
  -确认服务器或服务没有改变,比如重新配置增加硬件或软件。

  要测试一下这一故障是否只影响该工作站(本地故障)还是会影响其他站点(大范围故障),可以通过其他工作站装入服务器或服务来证明这一点。这些工作站要在同一网段或HUB上。如果故障在同一网段或HUB上的其他的站点也存在,就试着从其他的网段或HUB上的站点进行测试。

  故障分类及排除

  (1)本地故障

  在进行硬件故障查找以前,要确认其他用户也不能到这台机器上,这就排除了用户帐号的错误。对一个单一的站点来说,典型的故障多发生在坏的电缆、坏的网卡、驱动软件、或是工作站设置的不正确等问题上。

  (2)全局问题

  通常来说,在同轴网中的物理层故障会导致灾难性的网络故障。使用二分法来查找这类故障是可以很快定位解决的。间歇性故障是比较难以隔离的。

  (3)电缆连接问题

  目测连接性:检查连接性常用的方法就是检查HUB、收发器以及近期出产的网卡上的状态灯。如果是10BASE5的电缆,要仔细检查所有的AUI电缆是否牢固的连接划锁要同时锁牢,很多问题只要简单的把未接牢的部分重新紧一下就解决了。

  受损的电缆或连接部件:在检查物理层的问题时,要注意受损的电缆、不正确的电缆类型(比如在以太网上用RG62或RG59)、未打好的RJ-45水晶头或未按牢的BNC头。对怀疑有问题的电缆可以用一般的电缆测试仪进行测试。

  (4)连接脉冲极性问题

  无论是NIC还是HUB的连接脉冲极性都可以通过测试测出,连接极性故障通常是由电缆的连接错误引起的。

  (5)检查链路层的问题

  冲突问题:如果平均冲突率大于10%或是观察到非常高的冲突,就需要进一步的测试了。如果可能,试着通过减少网段规模(将网络分成小块)并随时检测冲突的变化以隔离出发生问题的区域。为了追踪冲突情况,就必须知道网络的流量。可以使用背景流量发生器来加入适当的流量(100帧/秒,100字节长的流量),并同时观察网络的统计显示。某些与介质有关的故障是与流量的大小成正比的。可以在用控制键改变流量同时观察冲突与错误的改变。这种做法要特别小心,因为你很容易给网络加入很重的流量。解决与冲突有关的问题常常是很费劲的,因为测试的情况在很大程度上取决于观察的位置。也许在同一网段相距几尺远的不同观察点看到的情况就不同,要多找几个点来观察并留意所发生的变化。

  如果冲突和流量成正比,或冲突几乎是100%,或几乎没有正常的流量,则可能是布线系统出了问题。对于UTP布线,可以在HUB上断开电缆然后进行电缆测试。对于同轴电缆就要进行阻抗测量,可以使用数字表或其他仪表的直流通断功能进行测试。如果电缆两端都有端接器,从T型接头应测的大约25欧姆,如果从电缆的一端将会测的50欧姆。

  帧级错误:如果出现帧级错误,你就要运行错误统计测试,并通过详细功能把有问题的工作站的MAC地址找出,然后经过测试把故障确定下来。可以试着将驱动程序用“干净”的原盘重新装入工作站,要确认各项配置安全。如果这一切仍不奏效,可以试着把有疑问的网卡换掉。

  利用率过高:如果利用率过高(平均值大于40%,瞬间峰值高于60%),那么网段负荷就过重了。应当考虑安装网桥和路由器以减少在网段中的流量或把网段分成若干小的网段。

  (6)客户服务器连接的完整性问题

  如果在链路层上是完好的,那么我们就要来看一下协议方面是否有什么问题会影响服务器和客户之间的通信。

  连通性:使用专业仪表,你可以运行Server List或Novell Ping测试功能,用来验证从测试点是否可以访问服务器或服务功能。如果服务器没有反应,重新冷启动服务器并注意观察所有驱动软件是否正确加载,有无错误提示。Novell的3.11版本以及以前版本,在缺省配置下使用802.3RAW的打包,而2.12及以后的版本在缺省配置时都使用了802.2打包类型。

  另外也可试着对服务器进行几次ping测试,要确认请求信号与返回的响应信号数目相等,结果不一致则表明有时好时坏的网卡或HUB的故障导致帧的丢失。临界状态的和已坏的桥或路由器也可以用此方法很快的定位。

  服务器或服务的可达性:如果使用协议分析仪,就要捕获3至4分钟的数据包来分析。看一下是否有从服务器发出的延时请求,并找出是哪个服务器发出的,如果有延时请求,则表明服务器不能完全处理所加载的任务,每一个延时请求作废一个任务请求。