網絡傳輸延遲造成上網異常故障檢測

  在對網絡的管理和維護過程中,我們可能經常會遇到網絡傳輸延遲導致上網連接時斷時續(xù)或者出現上網速度異常緩慢的故障現象,并且,可能是一會正常,一會不正常,對于這類故障,相信是網絡管理中比較難于判斷和處理的。在對這類故障的處理中,通常的做法首先是采用ping測試,ping網關、DNS或者外網IP的時候,幾乎都會出現丟包或較大延遲的現象。那么,我們該如何準確、有效及快速的解決這類網絡故障現象?以下是我自己在遇到此類故障時的一些解決方法和一點心得,希望和廣大網管共同分享!

  故障回放

  我們單位是一家以機械為主的制造企業(yè),規(guī)模不大,局域網的只有近100臺計算機,都同時接入到了互聯網,網絡結構也比較簡單,外網進來接的是俠諾路由器,路由器下接的是俠諾三層交換機,在交換機上做了VLAN劃分,192.168.0.0/24為服務器
群,其中,192.168.0.3同時提供DHCP、DNS以及AD域控服務,其他的VLAN有192.168.10.0/24、192.168.20.0/24等共5個VLAN,局域網網絡運行一直比較穩(wěn)定。由于最近網絡做了改造,采用了雙WAN口訪問,所以重新配置了路由器,網絡產生了一些異常故障,具體現象為:某VLAN內的主機突然發(fā)生網絡傳輸中斷故障,不能連接192.168.0.3服務器,但是一段時間后(幾分鐘或幾小時)又自動恢復正常,產生這種故障的主機不確定是某一臺,偶爾是這臺,偶爾又是另外一臺,在故障發(fā)生的時候,ping服務器192.168.0.3,均能夠ping通IP地址,但卻不能ping通域名,檢查DNS服務器,未發(fā)現任何錯誤。

  故障排查

  經過分析,初步認為該故障多半與廣播風暴、網絡病毒攻擊等因素有關。為了進一步查找和定位故障原因,于是將筆記本
連接到交換機上鏡像端口,并運行科來網絡分析系統(tǒng)來捕獲網絡的數據包通訊,希望能夠借此快速的查明原因。

  大約2分鐘后,停止捕獲,現在對捕獲的數據包進行詳細的分析,具體分析如下:

首先,通過科來的概要統(tǒng)計來看,網絡的流量、廣播流量、數據包大小分布以及TCP連接的信息均沒有發(fā)現異常,隨后,在診斷視圖下看到,發(fā)生的網絡事件全是ICMP主機重定向,達到了1771次,如下圖1:

  

網絡



  查看這個事件的參考信息:“路由器向源主機發(fā)送一個主機重定向報文通知源主機有一條到達目的主機的更好的路由”。因此,從診斷視圖的ICMP主機重定向,我們得到了一個重要的提示:網絡中可能存在環(huán)路。再來到數據包視圖,可以詳細的查看到產生該問題的原因。打開數據包視圖,數據包的概要統(tǒng)計如下圖2所示:

  

網絡



  選擇第1和第2個數據包,其詳細的解碼如下圖3所示:

  

網絡
從該數據包的解碼中,可以看出,這是一個ICMP重定向數據包,大概的意思是:路由器192.168.0.10告訴192.168.0.3應該去訪問192.168.0.254,這才是一個更好的路徑。查看該ICMP數據包攜帶的數據,這個數據包是由192.168.21.172在訪問192.168.0.3時造成的。

  繼續(xù)往下看,這是第3個數據包的詳細解碼,只有一個字段發(fā)生了變化,就是生存時間(TTL),我們都知道,一個IP數據包每經過一個路由,其TTL就會減1,當TTL為0時還沒有到達目的主機,則該數據包將被丟棄,從下圖4看到,該數據包的TTL值從第1個數據包的12變成了第3個數據包的10,已經呈遞減的趨勢。圖4:
<a  target='_blank' class='article'>網絡</a>


  繼續(xù)看第4、第5以及后面的數據包,TTL值一直在遞減,直到第13、14個數據包時,TTL值為0,顯示超時。所以,從第1個數據包到第14個包,ICMP數據包里面的IP報頭的TTL值不斷遞減,直到TTL超時,因此,明顯是網絡中產生了環(huán)路才會造成這種現象。而從數據包地址來看,產生ICMP重定向的地址全是192.168.21網段的主機IP,可能是在抓包的同時,正好是這個網段的主機與192.168.0.3通訊時產生了該事件。

  至此,通過對科來網絡通訊分析系統(tǒng)捕獲的數據通訊分析,我們已經可以確定,前面出現的故障現象肯定是有環(huán)路引起的,而結合前面配置路由表信息
,終于找到了原因所在:原來是在配置路由表的時候,考慮不周到,由于在路由器添加了路由條目:192.168.0.0/16 下一條 0.254,而在254上的路由條目卻沒找到21網段的匹配項,于是發(fā)給默認路由192.168.0.10,而默認路由又去查找下一跳:192.168.0.254,從而造成了環(huán)路。重新配置路由表后,改問題得到解決。

  其實,造成網絡數據丟包現象的因素有很多,除了路由環(huán)路外,蠕蟲病毒造成的攻擊行為:如ICMP掃描攻擊、TCP掃描攻擊等都會造成類似的問題,在遇到這些問題時,如果采用常規(guī)的一些解決方法,可能會消耗太多的時間與精力,通過網絡分析的檢測手段,往往能夠起到事半功倍的效果。所以,如果大家以后遇到類似的網絡故障時,不妨使用網絡分析的檢測手段,一定能夠快速的解決故障,希望這篇文章能給大家?guī)硪恍﹩l(fā)。
北大青鳥網上報名
北大青鳥招生簡章