不出所料,這次云硬盤故障,運(yùn)維人員又“背鍋”了。
運(yùn)維要想不背鍋,就需要從掌握災(zāi)備知識做起。不管你是西二旗的小王、陸家嘴軟件園的小孫,還是科興科學(xué)園的小張,今天,就讓我們重新武裝自己,一起溫習(xí)數(shù)據(jù)及業(yè)務(wù)保護(hù)的那些知識,早日擺脫背鍋俠的宿命。
備份
備份是指數(shù)據(jù)或系統(tǒng)的備份,它是容災(zāi)的基礎(chǔ),是指為防止系統(tǒng)出現(xiàn)操作失誤或故障導(dǎo)致的數(shù)據(jù)丟失,而將全部或部分?jǐn)?shù)據(jù)集合從應(yīng)用主機(jī)的硬盤或陣列復(fù)制到其它存儲介質(zhì)的過程。
按照備份的數(shù)據(jù)量,可以分為全量備份、增量備份、差量備份,可以從下圖看出它們之間的差異:
按照備份時(shí)間頻率,可以分為定時(shí)備份、實(shí)時(shí)備份。
定時(shí)備份——是指有時(shí)間間隔的數(shù)據(jù)備份方式,比如一天一次,一周一次,或者一個(gè)月一次,定時(shí)備份不能保證數(shù)據(jù)的零丟失。
實(shí)時(shí)備份——是指無時(shí)間間隔的數(shù)據(jù)備份方式,通過實(shí)時(shí)數(shù)據(jù)復(fù)制,保證主備兩端的數(shù)據(jù)讀寫一致,確保數(shù)據(jù)的零丟失。
根據(jù)數(shù)據(jù)備份時(shí)服務(wù)器是否停機(jī)又可分為冷備和熱備;按照數(shù)據(jù)存儲介質(zhì)之間的距離又可以分為本地備份和異地備份。
通過網(wǎng)絡(luò)進(jìn)行備份是熱備的主要方式,其主要的傳輸模式如圖:
備份是DBA的重要法寶。備份是第一位,有了安全的數(shù)據(jù)備份,哪怕遭遇一般的災(zāi)難,也可以從容應(yīng)對。
快照
快照是指一種快速數(shù)據(jù)保護(hù)技術(shù),快照是某個(gè)數(shù)據(jù)集在某一特定時(shí)刻的鏡像,也稱為即時(shí)拷貝,是數(shù)據(jù)集的一個(gè)完整可用的副本。
快照實(shí)現(xiàn)的技術(shù)方式包括:寫時(shí)復(fù)制 (COW)、I/O重定向 (I/O Redirect)、鏡像分離 (Split Mirror)、克隆快照(COW with Copy)、持續(xù)數(shù)據(jù)保護(hù)(CDP)等。
快照有兩個(gè)作用:
一是能夠進(jìn)行在線數(shù)據(jù)恢復(fù),當(dāng)存儲設(shè)備發(fā)生應(yīng)用故障或者文件損壞時(shí)可以進(jìn)行及時(shí)數(shù)據(jù)恢復(fù),將數(shù)據(jù)恢復(fù)成快照產(chǎn)生時(shí)間點(diǎn)的狀態(tài)。
二是為存儲用戶提供額外的數(shù)據(jù)訪問通道,當(dāng)原數(shù)據(jù)進(jìn)行在線應(yīng)用處理時(shí),用戶可以訪問快照數(shù)據(jù),還可以利用快照進(jìn)行測試等工作。
目前主流的快照技術(shù)包括鏡像分裂快照技術(shù)、按需備份快照技術(shù)、指針重映射快照技術(shù)、增量快照技術(shù)等。
快照產(chǎn)品一般有三種基本形式:基于存儲設(shè)備、卷級別和文件系統(tǒng)級別。
歸檔
歸檔是把不常訪問的數(shù)據(jù)遷移到其他存儲設(shè)備上。遷移后可以選擇在原系統(tǒng)中留下歸檔存根,用戶通過對歸檔存根直接訪問,自動回調(diào)歸檔數(shù)據(jù),從而實(shí)現(xiàn)透明訪問歸檔數(shù)據(jù)。
歸檔的特點(diǎn)包括改變了系統(tǒng)中的數(shù)據(jù)及狀態(tài);可大量節(jié)省在線存儲空間,提高在線存儲性能;提高備份/恢復(fù)速度,并節(jié)省備份介質(zhì)。
歸檔的主要應(yīng)用對象:文件系統(tǒng)、NAS;郵件系統(tǒng):MS Exchange、Lotus Domino;文檔系統(tǒng):SharePoint等。
歸檔的技術(shù)路線:
首先設(shè)定一個(gè)時(shí)間線,把文件分成常用數(shù)據(jù)和歷史數(shù)據(jù)兩個(gè)部分。
其次要定期進(jìn)行歸檔操作,把歷史數(shù)據(jù)存放于歸檔存儲,歸檔后的文件/郵件在原處可留下存根;用戶訪問存根,歸檔文件/郵件自動回調(diào)。
最后,歸檔后,只需要對常用數(shù)據(jù)進(jìn)行備份,大大減少備份數(shù)據(jù)量;同理,只要恢復(fù)常用數(shù)據(jù),系統(tǒng)就能工作,大大降低恢復(fù)時(shí)間。
CDP
CDP(Continual Data Protection)是一種連續(xù)數(shù)據(jù)保護(hù)技術(shù),它兼具數(shù)據(jù)備份與數(shù)據(jù)恢復(fù)的功能,通過CDP實(shí)時(shí)備份技術(shù),可以實(shí)現(xiàn)到秒級的細(xì)粒度抓捕效果。
目前,主流的CDP有很多維度,包括基于存儲數(shù)據(jù)塊的,存儲快照的,操作系統(tǒng)IO層的。
采取不同的技術(shù)維度,所獲得的數(shù)據(jù)還原細(xì)粒度也有所差別,根據(jù)恢復(fù)的細(xì)粒度的大小,業(yè)界將CDP分為真CDP(True CDP)和準(zhǔn)CDP(Near CDP)。
真CDP技術(shù)是持續(xù)不間斷的監(jiān)控并備份數(shù)據(jù)變化,可以恢復(fù)到過去任意時(shí)間點(diǎn),是真正的實(shí)時(shí)備份,不會造成數(shù)據(jù)的丟失。準(zhǔn)CDP是指接近持續(xù)數(shù)據(jù)保護(hù),數(shù)據(jù)備份存在延時(shí),也就是意味著存在部分?jǐn)?shù)據(jù)丟失的風(fēng)險(xiǎn)。
根據(jù)用戶對RPO的要求以及災(zāi)備策略的不一樣,CDP技術(shù)方案選擇有很大自主性,但是隨著數(shù)據(jù)量的增長和業(yè)務(wù)信息化的加快,未來的趨勢將是以真CDP為主。英方i2CDP屬于真CDP技術(shù),能夠提供細(xì)粒度數(shù)據(jù)持續(xù)保護(hù),可恢復(fù)至任意歷史時(shí)間點(diǎn)。
上面的備份、快照、歸檔和CDP,其實(shí)都是為了數(shù)據(jù)和業(yè)務(wù)的恢復(fù)。
狹義的恢復(fù)(Recovery)定義是指重新創(chuàng)建生產(chǎn)系統(tǒng)應(yīng)用或計(jì)算環(huán)境的過去操作狀態(tài),包含完全恢復(fù)和小顆粒恢復(fù)兩種模式。
廣義的災(zāi)難恢復(fù)(國內(nèi)通常簡稱為災(zāi)備或容災(zāi))則屬于業(yè)務(wù)連續(xù)性的技術(shù)層面。在用戶信息服務(wù)中斷后,需要快速調(diào)動各種資源,在異地重建信息技術(shù)服務(wù)平臺(包括基礎(chǔ)架構(gòu)、通信、系統(tǒng)、應(yīng)用及數(shù)據(jù)),災(zāi)難恢復(fù)也包括本地的恢復(fù)與重建。
容災(zāi)
通俗地講,這就是容災(zāi)的范疇。容災(zāi),從廣義上講,任何提高系統(tǒng)可用性的措施都可稱之為容災(zāi),它的主要作用是幫助用戶快速恢復(fù)系統(tǒng)正常功能,持續(xù)對外提供服務(wù)。
它分為本地容災(zāi)、異地容災(zāi)、云容災(zāi)。
本地容災(zāi),一般指主機(jī)集群,當(dāng)某臺主機(jī)出現(xiàn)故障,不能正常工作時(shí),其他的主機(jī)可以替代該主機(jī),繼續(xù)進(jìn)行正常的工作。
異地容災(zāi),一般指在與生產(chǎn)機(jī)房有一定距離的異地建立與生產(chǎn)機(jī)房類似的信息平臺(備份中心),并采用特定的技術(shù)將生產(chǎn)中心的數(shù)據(jù)傳輸?shù)皆搨浞葜行模瑥亩谏a(chǎn)中心發(fā)生較大的災(zāi)難如火災(zāi)或地質(zhì)災(zāi)害時(shí),仍能對生產(chǎn)數(shù)據(jù)進(jìn)行保護(hù)的容災(zāi)系統(tǒng)。
云容災(zāi),一般指云數(shù)據(jù)中心的物理機(jī)或虛擬機(jī)容災(zāi)。云主機(jī)系統(tǒng)由大量服務(wù)器組成并分布在不同的地點(diǎn),同一時(shí)間為大量用戶服務(wù),因此云計(jì)算系統(tǒng)采用分布式存儲的方式存儲數(shù)據(jù),用冗余存儲的方式(集群計(jì)算、數(shù)據(jù)冗余和分布式存儲)保證數(shù)據(jù)的可靠性。這種方式保證分布式數(shù)據(jù)的高可用、高可靠和經(jīng)濟(jì)性,即為同一份數(shù)據(jù)存儲多個(gè)副本。
綜上,評判數(shù)據(jù)保護(hù)和容災(zāi)方案優(yōu)劣的兩個(gè)重要參考指標(biāo)是:RTO和RPO。
RTO是指災(zāi)難發(fā)生后,從系統(tǒng)宕機(jī)導(dǎo)致業(yè)務(wù)停頓之刻開始,到系統(tǒng)恢復(fù)至可以支持業(yè)務(wù)部門運(yùn)作,業(yè)務(wù)恢復(fù)運(yùn)營之時(shí),此兩點(diǎn)之間的時(shí)間。RTO可簡單的描述為企業(yè)能容忍的恢復(fù)時(shí)間。
RPO是指災(zāi)難發(fā)生后,容災(zāi)系統(tǒng)能把數(shù)據(jù)恢復(fù)到災(zāi)難發(fā)生前時(shí)間點(diǎn)的數(shù)據(jù)。它是衡量企業(yè)在災(zāi)難發(fā)生后會丟失多少生產(chǎn)數(shù)據(jù)的指標(biāo)。RPO可簡單的描述為企業(yè)能容忍的最大數(shù)據(jù)丟失量。
總而言之,不管是在本地還是云端,或者兩者之間的災(zāi)備,數(shù)據(jù)實(shí)時(shí)備份、數(shù)據(jù)恢復(fù)粒度越小和容災(zāi)切換接管越快,將是未來災(zāi)備領(lǐng)域數(shù)據(jù)和業(yè)務(wù)保護(hù)的趨勢。