在介紹SAN網(wǎng)絡(luò)故障排除之前,我們先來(lái)介紹兩個(gè)應(yīng)用技巧。
交換機(jī)的LED
我們?cè)谟懻揝AN故障排除之前先看一下故障診斷工具,其中最重要的是交換機(jī)的LED顯示屏。
圖1是一個(gè)典型的SAN存儲(chǔ)網(wǎng)絡(luò)構(gòu)架,其中包括Fbric線纜、主機(jī)、工作站、服務(wù)器、交換機(jī)、RAID陣列等設(shè)備。交換機(jī)處于主機(jī)和存儲(chǔ)設(shè)備之間的網(wǎng)絡(luò)中間位置,既能看到存儲(chǔ)設(shè)備,也能看到主機(jī)。得益于對(duì)存儲(chǔ)網(wǎng)絡(luò)兩端的可見(jiàn)性,您可以使用交換機(jī)確定SAN中所有故障的原因,通過(guò)查看交換機(jī)的LCD就能收集到大量的信息。可以通過(guò)查找“快閃黃燈”,確定設(shè)備發(fā)生了故障,或是它仍未處于聯(lián)機(jī)狀態(tài)。如果交換機(jī)置于異地,可以使用Web工具直觀、實(shí)時(shí)地了解LED的狀態(tài)。快速閃爍的綠燈是SAN正常運(yùn)行的信號(hào)。通過(guò)實(shí)際觀察組成SAN的交換機(jī),可以檢測(cè)模式,并確定處于邊緣狀態(tài)或是有故障的組件。例如,如果您處于需要確定在聯(lián)機(jī)和脫機(jī)兩種狀態(tài)間重復(fù)切換的設(shè)備的情況,此時(shí)就可以使用交換機(jī)的LED。
在觀察運(yùn)行的Fabric線纜時(shí),正常情況是該端口依次處于脫機(jī)狀態(tài)(沒(méi)有LED燈)、發(fā)光(保持為黃色)、進(jìn)入聯(lián)機(jī)狀態(tài)(保持為綠色),然后循環(huán)進(jìn)行同樣的步驟—無(wú)色、黃、綠。LED保持黃燈或黃燈閃爍,表明SAN中存在問(wèn)題。LED由黃燈轉(zhuǎn)為綠燈,則沒(méi)有問(wèn)題。邊緣設(shè)備斷電或未處于聯(lián)機(jī)狀態(tài),都可能導(dǎo)致交換機(jī)的LED黃燈閃爍。如果交換機(jī)電源的LED開(kāi)始慢速閃爍,則表明交換機(jī)的加電自檢(POST)過(guò)程存在故障,無(wú)法實(shí)現(xiàn)聯(lián)機(jī)。
將SAN視為虛擬線纜
當(dāng)對(duì)SAN進(jìn)行故障診斷時(shí),可以通過(guò)將其分解為主機(jī)、SAN虛擬線纜及存儲(chǔ)設(shè)備來(lái)解決問(wèn)題,這時(shí)將SAN視為一條虛擬線纜。對(duì)于操作系統(tǒng)來(lái)說(shuō),SAN是一條通往磁盤的鏈路,這正是傳統(tǒng)的小型計(jì)算機(jī)系統(tǒng)接口(SCSI)連接所實(shí)現(xiàn)的目標(biāo)。
在剛開(kāi)始進(jìn)行故障診斷時(shí),請(qǐng)將SAN視為一條虛擬線纜。傳統(tǒng)的存儲(chǔ)方式就是通過(guò)一條SCSI線纜將SCSI磁盤連接到主機(jī)。在這種情況下,您會(huì)關(guān)注4個(gè)組件:存儲(chǔ)設(shè)備、主機(jī)總線適配器(HBA)、主機(jī)的操作系統(tǒng)以及Fbric線纜。SAN故障診斷與傳統(tǒng)的存儲(chǔ)故障診斷過(guò)程有許多不同之處。在診斷直連SCSI設(shè)備的故障或是以太網(wǎng)故障時(shí),采用的是排除法,可以將這一方法用于對(duì)SAN進(jìn)行故障診斷。從宏觀層面講,如果將SAN作為一條虛擬線纜來(lái)考慮,問(wèn)題有可能出在三個(gè)地方:主機(jī)、Fbric線纜或是存儲(chǔ)設(shè)備。采用類似于對(duì)分查找的故障診斷方式開(kāi)始對(duì)這些領(lǐng)域進(jìn)行研究,從中間部分著手,確定是處于問(wèn)題的“上方”還是“下方”,然后繼續(xù)對(duì)可疑路徑進(jìn)行對(duì)分,直到解決問(wèn)題為止。
與傳統(tǒng)的存儲(chǔ)故障診程相比,對(duì)SAN進(jìn)行故障診斷更為復(fù)雜。從SAN網(wǎng)絡(luò)的組成來(lái)看。它的故障主要分為:
◆ Fabric線纜故障
◆ 設(shè)備丟失故障
◆ 邊緣鏈路故障
◆ 輸入輸出(I/O)故障
Fabric線纜故障
Fabric線纜故障經(jīng)常會(huì)嚴(yán)重地影響多個(gè)設(shè)備。由于SAN對(duì)邊緣情況的冗余補(bǔ)償,F(xiàn)abric線纜故障在一個(gè)冗余的SAN上發(fā)生時(shí),可能不會(huì)影響SAN的功能。但是這些“軟”故障能夠引起企業(yè)應(yīng)用性能的降低,因此也應(yīng)引起注意。大型Fabric線纜指包含10個(gè)或更多交換機(jī)及上百邊緣設(shè)備的Fabric線纜,它們更易于發(fā)生Fabric線纜故障。
Fabric線纜故障排除方法如下:
(1)Fabric線纜故障影響眾多設(shè)備。分段等邏輯性交換機(jī)中斷或物理性交換機(jī)中斷,能夠引起許多設(shè)備脫離Fabric線纜。ISL初始化故障也是需要考慮的問(wèn)題之一。
(2)縮小Fabric線纜故障診斷范圍的最佳途徑,是對(duì)比基準(zhǔn)SAN配置文件和當(dāng)前SAN配置文件,并研究其差異。
(3)SAN配置文件的內(nèi)容包括每個(gè)交換機(jī)上設(shè)備的數(shù)量、Fabric線纜中設(shè)備的數(shù)量、Fabric線纜中交換機(jī)的數(shù)量等。errShow命令和switchShow命令對(duì)于追蹤Fabric線纜故障也非常有用。
(4)一些Fabric線纜故障由Fabric線纜服務(wù)超時(shí)變量和邊緣設(shè)備超時(shí)設(shè)置的不匹配引起。必須仔細(xì)分析Fabric線纜和邊緣設(shè)備來(lái)解決這種復(fù)雜問(wèn)題。
(5)從圖1中可以發(fā)現(xiàn),SAN網(wǎng)絡(luò)設(shè)備中使用最多的是Fabric線纜。由于線纜通過(guò)墻角和門縫處,有可能被壓壞,因此,需要注意線纜是否截?cái)唷⒕€纜過(guò)度扭曲變形等。
設(shè)備丟失故障
設(shè)備丟失的故障,一般會(huì)導(dǎo)致主機(jī)不能訪問(wèn)某個(gè)SAN設(shè)備。這是常見(jiàn)的故障,一般使用交換機(jī)的switchShow命令和nsShow命令能夠很快找到設(shè)備丟失的原因。丟失設(shè)備問(wèn)題通常只限少數(shù)一些設(shè)備。如果有許多設(shè)備丟失,則可能是Fabric線纜故障。因?yàn)镾AN構(gòu)架中Fabric線纜的使用數(shù)量最多,所以出現(xiàn)故障頻率也最多。
設(shè)備丟失的故障排除方法如下:
(1) 使用交換機(jī)的switchShow命令查看是否與SAN存在邏輯連接。
(2) 使用nsShow命令查看該設(shè)備是否在名字服務(wù)器中。如果設(shè)備不在服務(wù)器中,它對(duì)于Fabric線纜中的其它設(shè)備就是不可見(jiàn)的。
(3) 檢查Fabric線纜。
處于邊緣狀態(tài)的鏈路的故障
處于邊緣狀態(tài)的端口的影響非常大。例如,大型存儲(chǔ)設(shè)備(如RAID陣列)可能會(huì)被幾十個(gè)主機(jī)、服務(wù)器訪問(wèn)。于是,存儲(chǔ)設(shè)備的邊緣行為可能會(huì)影響訪問(wèn)該存儲(chǔ)設(shè)備端口的所有設(shè)備。處于邊緣狀態(tài)的鏈路涉及到交換機(jī)和邊緣設(shè)備之間的連接。確定鏈路處于邊緣狀態(tài)的原因,需要分析和測(cè)試組成鏈路的許多組件,包括交換機(jī)端口、交換機(jī)GBIC(千兆比特接口轉(zhuǎn)換器)、線纜、邊緣設(shè)備GBIC(千兆比特接口轉(zhuǎn)換器)以及邊緣設(shè)備等。
處于邊緣狀態(tài)的鏈路的故障診斷如下:
(1) 使用交換機(jī)的portErrShow命令確定是否存在大量的錯(cuò)誤,例如CRC錯(cuò)誤等。查找持續(xù)增加的錯(cuò)誤數(shù)量來(lái)確認(rèn)是否存在處于邊緣狀態(tài)的鏈路。
(2) 檢查處于邊緣狀態(tài)的鏈路的設(shè)備狀況,例如,處于邊緣狀態(tài)的鏈路共享的存儲(chǔ)設(shè)備故障能夠?qū)е滤性L問(wèn)該共享存儲(chǔ)設(shè)備的設(shè)備發(fā)生通信故障。
(3) 檢查組成鏈路的任何組件,包括交換機(jī)端口、交換機(jī)GBIC(千兆比特接口轉(zhuǎn)換器)、線纜、邊緣設(shè)備GBIC(千兆比特接口轉(zhuǎn)換器)及邊緣設(shè)備等。
I/O(輸入輸出)暫停的故障
和一般的PC和服務(wù)器一樣,I/O故障比較常見(jiàn)。所以I/O暫停發(fā)生時(shí),SAN和邊緣設(shè)備都能夠承受。I/O暫停如同主機(jī)或存儲(chǔ)設(shè)備掉電一樣麻煩,它會(huì)導(dǎo)致I/O停止。可能有兩種原因,一種是較低級(jí)別端口的RSCN不能勝任,這可能是應(yīng)用軟件和對(duì)存儲(chǔ)轉(zhuǎn)發(fā)時(shí)間敏感引發(fā)的問(wèn)題。另外,F(xiàn)abric線纜故障也能夠暫停I/O。
總結(jié)
與傳統(tǒng)的存儲(chǔ)故障診程相比,對(duì)SAN進(jìn)行故障診斷更具復(fù)雜。在診斷直連SCSI設(shè)備的故障或是以太網(wǎng)故障時(shí),采用的是“經(jīng)過(guò)實(shí)踐檢驗(yàn)”的排除法,可以將這一方法用于對(duì)SAN進(jìn)行故障診斷。從宏觀層面講,如果將SAN作為一條虛擬線纜來(lái)考慮,問(wèn)題有可能出在三個(gè)地方:主機(jī)、線纜或存儲(chǔ)設(shè)備。另外充分利用交換機(jī)的LED(液晶顯示屏)也是很重要的。筆者這里提供一個(gè)網(wǎng)址:www.syngress.com/solutions,這里有許多SAN故障診斷排除的案例可供參考。
表一:交換機(jī)各端口LED和定義
端口 LED定義
黃色 接收到燈或是信號(hào)的載波,但是尚未聯(lián)機(jī)
緩慢變黃 禁用(診斷、switchDisable命令的結(jié)果)
快速變黃 端口故障
綠色 聯(lián)機(jī)(通過(guò)線纜與外部設(shè)備相連)
緩慢變綠 聯(lián)機(jī),但是已分段(Fabrlc參數(shù)不兼容)
快速變綠 正在進(jìn)行內(nèi)部環(huán)回
綠燈閃爍 正常聯(lián)機(jī),有幀流量通過(guò)端口


