一、緒言
在信息時代,數據是企業創造商業價值的生產資料,數據的丟失將為企業帶來毀滅性的災難。據Gartner Group的調查數據表明,在經歷過大型災難或長時間系統停運的公司中,有2/5的公司再也未恢復運行,而在其余的公司中,有1/3的公司在兩年內破產。
有句古諺叫“別把雞蛋放在一個籃子里”。現在的信息系統,各種數據高度集中,“雞蛋”全放在一個籃里了。一旦出現突然停電、意外死機或者人為破壞,造成數據丟失是不可避免的。面對各種未可預知的災難,越來越多的企業將容災備份系統作為企業安全的保障。
容災備份系統就是防止意外情況而采取的一種解決方案,其目的只有一個,那就是保證數據安全。9?11事件中,紐約世貿中心大樓倒下的同時,許多大公司的商務數據在瞬間“灰飛煙滅”,其價值比倒下的大樓價值高得多,但世貿中心最大的主顧摩根斯坦利公司因為擁有遠程容災備份系統,其業務數據完好無損!
二、山東聯通簡介
中國聯通有限公司山東分公司(以下簡稱山東聯通)是中國聯合通信有限公司(中國聯通)在山東省的分支機構,于1995年9月在濟南注冊成立,主要承擔聯通通信網在山東境內的建設、經營和管理。
經過多年的發展,山東聯通的整體實力在不斷的增強,到目前為止,山東聯通是中國聯通最大的省級運營商之一,截至2002年,共有用戶400萬,并擁有一個大容量、高速率、覆蓋全省、連接國內外的傳輸和移動通信網絡。山東聯通的通信網已實現數字化、智能化、自動化;長途干線傳輸網全部實現數字化、光纖化,正在向全光纖聯網過渡。網上交換、傳輸設備基本采用了國際最新、最先進的設備,在效能上具有極大的開放性和可擴充性。經營的電信業務由成立之初的移動通信(GSM)、無線尋呼發展到目前的移動電話業務(GSM和CDMA)、長途電話業務、本地電話業務、數據通信業務、無線尋呼業務、互聯網業務、電信增值業務、以及與主營業務有關的技術咨詢和技術服務等其他電信業務。
為了更好地支持山東聯通業務的迅速發展,應對業務環境的不斷變化,向用戶提供更好的服務,山東聯通把原來離散的、針對不同業務和不同地區用戶的IT支持系統整合成為了一個統一的業務支持系統,整合后的業務支持系統使山東聯通更好地發揮了作為一個提供全面服務的電信運營商的綜合競爭優勢,更充分地發掘了用戶需求,更好地推廣了新業務,降低了系統的運營成本。
但是由于山東聯通的業務全面地,高度依賴于這樣一個整合的支持系統,所以要求該系統的可靠性必須達到一個更高的水平,系統必須具備容災能力,因此,容災備份系統成為山東聯通業務支撐系統必須建設的功能子系統。
三、山東聯通對容災備份系統的要求
(1)分散分布,互為容災
容災備份系統的建設能夠大幅度提高業務支撐系統的可靠性,使系統對影響數據中心正常運行的嚴重故障或事故(包括自然災害、環境故障、人為故障等)具有抗御能力。但是,嚴重事故是偶發性的,容災系統抗御嚴重故障和事故的能力是建立在系統擁有一定程度冗余配置基礎之上的。因此,建設容災系統的時候,事先不仔細規劃,簡單的冗余配置會在平時造成大量資源的巨大浪費,這種資源包括-機房環境、服務器設備、網絡設備、存儲資源、系統軟件和系統維護的人力資源投入。另外,容災備份系統僅僅是業務支撐存儲系統中一個相對獨立的功能子系統,由于這種相對的獨立性,使得業務支撐系統中的關鍵業務子系統可以互相利用對方作為容災備份系統。
山東聯通擁有多個具備生產條件的機房設施,這些設施之間具有良好的光纖通信資源。基于上述的考慮,山東聯通從整個數據中心建設的高度出發,提出了“邏輯集中,地理分布,互為容災,負載均擔”的數據中心建設思路。它要求容災備份系統能把核心業務支持系統分布到多個地理上相隔離的機房,然后相互進行容災。在平時,所有的資源都是被充分利用的,而發生災難時,子系統之間可以相互接替。#p#副標題#e#
(2)完整業務恢復
當生產點的業務數據無法訪問時,容災備份點保存有生產點業務數據的副本,這一數據副本能夠支持業務繼續在容災備份點恢復運行,但是二者之間通常是有差異的,這個差異被稱作RPO(以時間度量)。RPO為零,說明生產電和容災備份點之間的狀態時刻保持完全一致,RPO為兩小時,說明容災備份點的狀態是生產點兩小時前的狀態,此時如果生產點發生災難,則容災點將“丟失”災難發生前兩小時的數據。雖然能根據對業務支持系統的全面分析,從業務系統的“外圍”系統中恢復數據,但是這種“補充”恢復的手段通常會牽涉人工確認干預,不但耗費大量的人力,而且還需要很長的時間,這樣長的時間是用戶不可接受的。
由于山東聯通每天均有大量的業務進行,因此,山東聯通要求容災點的業務狀態和生產點必須保持足夠一致,如果用術語RTO來描述,就是RPO為0,即要做到業務狀態的完整恢復。
(3)快速、多向災難切換
業務支撐系統要跟其子系統配合,才能夠支持整個業務系統的完整流程。因此,在業務支撐系統的容災設計當中,需要考慮和業務支撐系統相關的所有其他外部子系統,當災難切換發生時,和容災點系統的配合問題,包括需要連接的服務器網絡地址的更改和相應的存儲管理軟件設置調整等。
考慮災難切換,容災備份建設么牽涉到數據復制模式、網絡連接方式、本地I/O性能、復制方向改變、復制端數據復用、復制端數據恢復時延、難易程度等問題。
由于在同步數據復制模式下,復制端的數據和生產端能保持完全一致。當操作切換到容災點時,業務狀態和災難發生時生產點的狀態完全一致,不再需要人工干預進行數據“補充”操作。信息系統部的技術力量可以完全從繁瑣的“數據”補充操作中解脫出來,將更多的精力投入故障分析、排除和生產點恢復的工作中。另外,在一定的應用環境和網絡條件下,數據復制操作造成的寫I/O延遲增加很小,只占系統響應時間的很小部分,從總體考慮,同步操作對應用響應時間造成的增加幾乎可以忽略不計。所以,山東聯通在容災系統中選用了同步數據復制模式。
基于主機的復制軟件通常僅支持IP網絡,而基于存儲的復制軟件通常支持多種網絡技術,包括裸光纖(或稱黑光纖DarkFiber)、DWDM、ATM、IP等。網絡連接方式不同,提供的帶寬不同,網絡自身造成的性能損耗也不同。對黑光纖而言,沒有協議損耗;而且理論上講黑光纖自身的帶寬極高,其限制在于上層的傳輸手段。而IP技術,其軟件協議的特性會造成很大的網絡性能損耗。從這一點上考慮,山東聯通傾向于采用基于存儲的復制軟件。
當災難發生后,容災點接替生產點恢復業務。當生產點故障排除后,通常需要將生產系統恢復回(Fail Back)原生產點,而容災點繼續承擔容災的角色。在這一過程中,需要改變通常的數據復制方向,即將容災點的數據復制回生產點,這些數據是在容災點運行業務時新增的數據。這種反向復制并非只在真正的災難發生時使用,聯通平時的容災演習過程中,這一功能也是必不可少的。
除此之外,山東聯通要求數據復制技術和應用系統的界面清晰,也就是說在功能上,數據復制技術能靈活滿足各種應用系統,但不需要現有的和今后的應用系統為數據復制功能實現做出更動;在性能上,它不干擾應用系統的運行,占用主機系統資源。這樣的數據復制技術,除了滿足基本的容災建設的需要外,還能夠更好地滿足山東聯通建設“負載均擔,互為容災”的系統構想。
四、EMC的容災備份方案
經過反復比較,山東聯通認為基于EMC存儲系統的數據復制軟件SRDF(Symmetrix Remote Data Facility)軟件能夠很好地滿足容災備份系統的要求,并采用SRDF軟件來建設山東聯通的第一期容災項目,以實現容災和資源共享。
在結構中,SRDF軟件使分別位于兩個數據中心的計費系統和營業系統數據相互復制。兩套系統的主機資源在正常情況下分別運行各自的應用系統,在災難發生時,可接替對端的系統繼續提供業務支持。
為了充分檢驗技術方案、產品性能和功能,山東聯通對該容災系統進行了斷開一條鏈路、兩條鏈路全部斷開、機房災難切換等容災演習。結果表明,斷開一條鏈路,生產系統繼續運行,所有對R1的修改通過其余的鏈路同步到R2設備,R1和R2設備仍然處于同步狀態。兩條鏈路全部斷開對生產點的應用系統沒有影響,所有對R1的修改標記在INVALID TRACK TABLE中,當鏈路恢復后,自動開始同步R1和R2設備,直到R1和R2設備處于同步狀態。在機房災難切換中,一機房(災難點)的應用在二機房(容災點)的主機上順利啟動,所有模擬災難發生前的數據完全在二機房的應用中可以訪問操作。當前端應用連接到二機房后,業務可以恢復運行。而當一機房恢復后,系統可以在很短時間內迅速切回。在模擬災難期間在二機房操作的模擬業務數據,系統切回一機房后可同樣訪問操作。在整個演習過程中,沒有觀察到復制延遲,Failover期間累積的836MB業務數據量,1分鐘內就可重新同步99%的數據,此時原生產服務器即可接管應用。
在實現硬件資源復用之后,為了進一步實現數據資源復用,使系統的投資回報更加增強,山東聯通進行了第二期項目,即容災和數據復用。
在該容災項目中,山東聯通利用EMC的另一個軟件TimeFinder對數據生成業務持續性卷(BCV),再將BCV數據開放給另外一臺主機專門其他應用之用。
在山東聯通,數據爭用是系統運行當中的一個問題。比如,營業數據庫主


