在服務(wù)器托管服務(wù)中,機(jī)房管理員經(jīng)常需要幫助用戶重啟服務(wù)器。我們?cè)谑褂肞C機(jī)時(shí)也有這樣的體會(huì),一些莫名其妙的問(wèn)題,通過(guò)重啟系統(tǒng)就可以解決。
可以想一想,這說(shuō)明了什么?
可以肯定的是,這不是軟件的問(wèn)題。如果是軟件的Bug,重啟也解決不了問(wèn)題。順便說(shuō)一下,對(duì)于軟件Bug的處理,最好的解決辦法是打補(bǔ)丁。硬件的雙機(jī)冗余方案解決不了問(wèn)題。同理,這也不會(huì)是硬件的問(wèn)題。
重新啟動(dòng)可以解決的問(wèn)題,多數(shù)是由于不可信計(jì)算所引起的,例如電壓瞬變、頻率畸變、電磁脈沖等都造成處理器的計(jì)算錯(cuò)誤,導(dǎo)致意外故障的發(fā)生。在信息系統(tǒng)建設(shè)中,CIO/CTO非常重視系統(tǒng)的穩(wěn)定行和可靠性,為此采取了很多措施,但是對(duì)于可信計(jì)算往往不太重視。另外,不可信的計(jì)算往往不容易察覺(jué),想一想當(dāng)1+1不等于2的時(shí)候會(huì)發(fā)生什么?我們理所應(yīng)當(dāng)?shù)娜藶椋?jì)算機(jī)的1+1就會(huì)等于2。
對(duì)于經(jīng)常采用的雙機(jī)冗余方案而言,雙機(jī)切換主要依靠心跳線和軟件。實(shí)際上,對(duì)于可靠性的貢獻(xiàn)并不大。關(guān)鍵時(shí)刻往往發(fā)揮不了作用,原因很簡(jiǎn)單,系統(tǒng)往往做不到同步更新,隨著時(shí)間的推移,A、B兩個(gè)系統(tǒng)就會(huì)有差異。關(guān)鍵時(shí)刻,切換不成功。很多用戶也知道這個(gè)道理,但也不得不花費(fèi)巨大的代價(jià),花錢(qián)買(mǎi)個(gè)心理安慰。
有沒(méi)有更好的解決辦法?
實(shí)際上,供應(yīng)商都在想方設(shè)法爭(zhēng)取有所貢獻(xiàn)。應(yīng)用軟件、操作系統(tǒng)、容災(zāi)/備份都是希望從各自的角度解決問(wèn)題。以應(yīng)用軟件為例,同時(shí)操作兩個(gè)系統(tǒng),只有兩個(gè)系統(tǒng)都返回結(jié)果,一個(gè)操作才能夠成功。這樣從根本上解決問(wèn)題。這樣的系統(tǒng)需要定制開(kāi)發(fā),以電信BOSS系統(tǒng)為例,每年都會(huì)投入大量資金,滿足業(yè)務(wù)發(fā)展的需求。這樣的成本代價(jià)比較高,不是每個(gè)應(yīng)用都可以效仿的。
雙機(jī)冗余方案也是這樣一個(gè)思路。但是解決不了可信計(jì)算的問(wèn)題。容錯(cuò)是一個(gè)非常好的方案,較之雙機(jī)冗余方案更具有優(yōu)勢(shì)。有人把容錯(cuò)比喻為硬件級(jí)別的雙機(jī)方案。所不同的是,容錯(cuò)機(jī)是一個(gè)系統(tǒng),運(yùn)行一個(gè)操作系統(tǒng)、數(shù)據(jù)庫(kù)、應(yīng)用軟件,可以節(jié)省軟件的投資。也是因?yàn)槿绱耍浖S商都不愿意幫助推廣容錯(cuò)機(jī)的方案。容錯(cuò)機(jī)只能夠是用戶的選擇。
Stratus是容錯(cuò)機(jī)的代表。但Stratus的公司風(fēng)格,是技術(shù)型公司的風(fēng)格,不擅長(zhǎng)市場(chǎng)宣傳和培育市場(chǎng)。這也影響了容錯(cuò)機(jī)的市場(chǎng)推廣。容錯(cuò)機(jī)的本質(zhì),就是采用冗余硬件,包括處理器、內(nèi)存以及I/O全部是冗余,通過(guò)鎖步技術(shù),處理每一個(gè)軟件進(jìn)程,只有計(jì)算結(jié)果一致,才確信處理是正確的。如果不同步,則重新計(jì)算。
在容錯(cuò)機(jī)的發(fā)展歷史上,一直以小型機(jī)為競(jìng)爭(zhēng)對(duì)手,應(yīng)用在所有需要高可靠性的關(guān)鍵業(yè)務(wù)應(yīng)用場(chǎng)合。以往容錯(cuò)機(jī)采用專(zhuān)用處理器芯片,價(jià)格比較高。這也是其市場(chǎng)規(guī)模不大的重要原因。
隨著多核處理器技術(shù)發(fā)展,容錯(cuò)機(jī)開(kāi)始轉(zhuǎn)身,開(kāi)始采用通用處理器,成本大幅下降,開(kāi)始“飛入尋常百姓街”。被越來(lái)越多的用戶所接受和熟識(shí)。根據(jù)統(tǒng)計(jì),在國(guó)外,容錯(cuò)機(jī)的份額占關(guān)鍵業(yè)務(wù)應(yīng)用市場(chǎng)10%,雙機(jī)冗余占30%;與之相比,國(guó)內(nèi)的比例偏低,尚沒(méi)有國(guó)外的1/3。
隨著云計(jì)算發(fā)展,數(shù)據(jù)處理呈現(xiàn)出集中計(jì)算的趨勢(shì)。云計(jì)算不僅需要一個(gè)高可靠性的平臺(tái),與此同時(shí),又不能夠不計(jì)成本代價(jià)。從可靠性、性價(jià)比因素進(jìn)行衡量,容錯(cuò)服務(wù)器是云計(jì)算理想的承載平臺(tái)。
原文鏈接:http://server.it168.com/a2011/0902/1241/000001241463.shtml


