在對網(wǎng)絡(luò)的管理和維護(hù)過程中,我們可能經(jīng)常會遇到網(wǎng)絡(luò)傳輸延遲導(dǎo)致上網(wǎng)連接時斷時續(xù)或者出現(xiàn)上網(wǎng)速度異常緩慢的故障現(xiàn)象,并且,可能是一會正常,一會不正常,對于這類故障,相信是網(wǎng)絡(luò)管理中比較難于判斷和處理的。在對這類故障的處理中,通常的做法首先是采用ping測試,ping網(wǎng)關(guān)、DNS或者外網(wǎng)IP的時候,幾乎都會出現(xiàn)丟包或較大延遲的現(xiàn)象。那么,我們該如何準(zhǔn)確、有效及快速的解決這類網(wǎng)絡(luò)故障現(xiàn)象?以下是我自己在遇到此類故障時的一些解決方法和一點(diǎn)心得,希望和廣大網(wǎng)管共同分享!
故障回放
我們單位是一家以機(jī)械為主的制造企業(yè),規(guī)模不大,局域網(wǎng)的只有近100臺計(jì)算機(jī),都同時接入到了互聯(lián)網(wǎng),網(wǎng)絡(luò)結(jié)構(gòu)也比較簡單,外網(wǎng)進(jìn)來接的是俠諾路由器,路由器下接的是俠諾三層交換機(jī),在交換機(jī)上做了VLAN劃分,192.168.0.0/24為服務(wù)器群,其中,192.168.0.3同時提供DHCP、DNS以及AD域控服務(wù),其他的VLAN有192.168.10.0/24、192.168.20.0/24等共5個VLAN,局域網(wǎng)網(wǎng)絡(luò)運(yùn)行一直比較穩(wěn)定。由于最近網(wǎng)絡(luò)做了改造,采用了雙WAN口訪問,所以重新配置了路由器,網(wǎng)絡(luò)產(chǎn)生了一些異常故障,具體現(xiàn)象為:某VLAN內(nèi)的主機(jī)突然發(fā)生網(wǎng)絡(luò)傳輸中斷故障,不能連接192.168.0.3服務(wù)器,但是一段時間后(幾分鐘或幾小時)又自動恢復(fù)正常,產(chǎn)生這種故障的主機(jī)不確定是某一臺,偶爾是這臺,偶爾又是另外一臺,在故障發(fā)生的時候,ping服務(wù)器192.168.0.3,均能夠ping通IP地址,但卻不能ping通域名,檢查DNS服務(wù)器,未發(fā)現(xiàn)任何錯誤。
故障排查
經(jīng)過分析,初步認(rèn)為該故障多半與廣播風(fēng)暴、網(wǎng)絡(luò)病毒攻擊等因素有關(guān)。為了進(jìn)一步查找和定位故障原因,于是將筆記本連接到交換機(jī)上鏡像端口,并運(yùn)行科來網(wǎng)絡(luò)分析系統(tǒng)來捕獲網(wǎng)絡(luò)的數(shù)據(jù)包通訊,希望能夠借此快速的查明原因。
大約2分鐘后,停止捕獲,現(xiàn)在對捕獲的數(shù)據(jù)包進(jìn)行詳細(xì)的分析,具體分析如下:
首先,通過科來的概要統(tǒng)計(jì)來看,網(wǎng)絡(luò)的流量、廣播流量、數(shù)據(jù)包大小分布以及TCP連接的信息均沒有發(fā)現(xiàn)異常,隨后,在診斷視圖下看到,發(fā)生的網(wǎng)絡(luò)事件全是ICMP主機(jī)重定向,達(dá)到了1771次,如下圖1:
查看這個事件的參考信息:“路由器向源主機(jī)發(fā)送一個主機(jī)重定向報文通知源主機(jī)有一條到達(dá)目的主機(jī)的更好的路由”。因此,從診斷視圖的ICMP主機(jī)重定向,我們得到了一個重要的提示:網(wǎng)絡(luò)中可能存在環(huán)路。再來到數(shù)據(jù)包視圖,可以詳細(xì)的查看到產(chǎn)生該問題的原因。打開數(shù)據(jù)包視圖,數(shù)據(jù)包的概要統(tǒng)計(jì)如下圖2所示:
選擇第1和第2個數(shù)據(jù)包,其詳細(xì)的解碼如下圖3所示: