在 Exchange 2003 中,通常都能快速恢復服務而不管數據庫故障發生于一天中的哪個時間段。從前一夜的磁盤到磁盤備份恢復數據的過程不是等到非工作時間進行,而是立即開始。
為了盡可能快地恢復數據,OTG 可以使用一種稱為 RSG 新的 Exchange 2003 特性,這是一個特殊的離線 SG,專門用于從備份重建一個丟失的 SG。雖然 Exchange 2003 在生產中只為用戶支持四個 SG,它現在支持 RSG 作為一個額外的離線 SG - 一個不支持生產用戶訪問的 SG。
OTG 創建一個臨時 RSG 并將受損的數據庫從備份源恢復到臨時 RSG 中。一旦從備份的恢復完成了,從故障點到備份完成這段時間內產生的數據通過重播事務日志進行恢復。這一過程大大加快了恢復用戶消息服務和從受損數據庫恢復他們的數據的速度。當事務日志的重演完成后,已恢復的數據庫在 RSG 和新的已清除的 SG 數據庫之間交換。然后在電子郵件服務的恢復時刻和數據恢復完成時刻之間產生的所有新數據從被清除數據中導出并使用 Microsoft Exchange Mailbox Merge Wizard(也叫做 ExMerge)導入到已恢復的數據庫中。RSG 隨后被刪除。因為數據庫恢復速度受限于基于 LAN 的磁帶,此方法也可以用于舊式的非集群服務器,當前它們正處于整合過程中。在大型的存儲故障中,必須恢復大量的數據,而且許多郵箱在數據恢復之前可能要等待很長時間。
更多有關 OTG 的 Exchange Server 2003 備份與恢復的信息,請參閱 http://www.microsoft.com/china/technet/itsolutions/msit/default.mspx 頁面上題為“Microsoft 的消息備份與恢復”的 iT Showcase 技術案例研究。
未來的備份技術
OTG 當前正在測試將 Window Server 2003 的一個稱為卷影復制服務(VSS)的新特性用于一步的 Exchange 備份。此服務允許基于本地文件系統或基于特定廠商存儲的數據快照功能。
VSS 提供了克隆磁盤數據、在單個時間點創建該數據的鏡像的能力。OTG 的目標是結束它對當前的兩段式在線備份過程的依賴,轉而使用 VSS 在午夜克隆它的服務器,然后在中午 12 點和下午 6 點對一套新的克隆 LUN 使用 VSS 差分快照。在一個事故中,OTG 將根據數據損失的范圍和事故發生的時間段來決定是使用最后已知良好 VSS 克隆還是使用快照來恢復數據。例如,如果在下午 2 點后,一個數據庫因為受損而離線,那么恢復該數據庫數據和服務的最容易和最快速的方法是從中午的快照恢復數據。如果在深夜探測到數據庫損壞,因為那時候的通信量負載很輕,所以從最后克隆恢復數據是更可取的方法。如果使用 VSS 恢復大量的數據,今天需要幾小時的時間才能完成的恢復任務僅需幾分鐘就夠了。
VSS 作為一個備份解決方案,需要依賴許多第三方工具才能使它高效工作。需要一個請求程序、一個供應程序和一個寫入程序。OTG 正在測試將 VSS 作為“快照加克隆”集成的可能的解決方案的運作優點。到撰寫本文時為止,VSS 還沒有用于 OTG 的生產備份,仍然處于測試階段。
使用 Microsoft Operations Manager(MOM)2000 進行管理和監視
在 Exchange 2000 中,OTG 使用一個內部開發的名為 Prospector 的工具來監視 Exchange server。Prospector 監視關鍵的指示器,如服務運行、安裝的服務器以及磁盤使用率。Prospector 非常高效,但用處有限。
在 OTG 開始移植到 Exchange 2003 之前不久,OTG 決定從 Prospector 移植到帶有 MOM Exchange Management Pack 的MOM 2000來管理它的 Exchange server。MOM 是一個企業系統管理應用程序,它使用一個客戶端代理從被監視服務器的事件日志中收集預定義的事件,并存入一個中央數據庫。它還會創建警告來響應預定義事件,并將其路由到受數據中心操作人員監視的中央控制臺。
除了許多其它功能之外,MOM 還為 Exchange Server 提供了特殊的管理規范。受監視的關鍵 Exchange 2003 管理數據包括服務器狀態、性能標準和消息隊列狀態。MOM 還提供了可自定義的“知識腳本”(KS),它使系統管理員能夠為操作系統或應用程序創建特定的管理目標。Microsoft 廣泛使用 MOM KS 功能來管理 Exchange 2003 環境。表 5 提供了 Microsoft 用于 Exchange 2003 的一些關鍵 MOM 知識腳本的概述。
表 5:用于 Microsoft Exchange 2003 部署的關鍵 MOM 知識腳本
知識腳本目的
Service Monitor輪詢重要的 Exchange 服務,如 STORE.EXT,并在這些服務中斷時產生警報。
Backup Monitor此腳本監視備份操作和數據庫以檢驗常規備份操作是否正在進行。此腳本列舉 SG,檢驗日志文件和數據庫頭以確保它們已備份。
Disk Space Monitor此腳本檢驗是否有足夠的磁盤空間用于事務日志、數據庫和備份卷。此腳本檢驗是否有至少 20% 的可用空間。
Event Log Monitor此腳本檢查關鍵的 Exchange 2003 事件日志錯誤。它還尋找已經卸除的數據庫。
Availability Monitor此腳本通過在每個信息存儲上執行測試登錄來檢驗 Exchange 服務是否可用。
Discovery此腳本為了配置管理目的對諸如軟件版本、service pack、驅動程序等項目執行版本發現。
Active Directory Monitor此腳本監視 Exchange 2003 服務器以發現訪問 AD 方面的問題。Global Catalog 和 DS_Access 錯誤是此 KS 關注的關鍵問題。
MOM 使用存儲轉發技術來收集事件,這樣即使在正常的服務器操作期間發生臨時網絡中斷,也能夠可靠地傳遞事件。MOM Application Management Packs 是一系列預定義的事件和閥值,用于捕獲與特定服務器應用程序最相關的數據。
MOM 使用一種稱為配置組的組織結構來管理被監視的服務器。一個配置組通常由一個數據庫、一個或更多 DCAM(數據訪問服務器 + 整合程序和代理管理器)服務器,以及一個或更多在所有被監視計算機上運行的代理組成。
一旦系統正常運行,特別是在應用了 MOM Exchange Management Pack 并針對 OTG 的需求進行了合適的調整之后,使用 MOM 通過 WAN 來監視服務器就只會造成非常少的網絡流量開銷。因為這種高效率,早期的計劃(使用五個 MOM 配置組以更好地管理 MOM 在 WAN 上的流量)被認為不必要而被放棄了。該過程十分高效,因此 OTG 只需要一個 MOM 配置組就能夠監視全球所有的 Exchange server,而部署一個 MOM 配置組服務器的成本只需 50,000 美元。
在調整 MOM Exchange Management Pack 時,OTG 沒有采取修改默認管理包的辦法,而是創建一個自定義 OTG 管理包來維護新的和已修改的規則。這包括收集默認設置沒有指定的數據、改變默認的數據收集參數和閥值等。OTG 仍然使用其自定義管理包來管理其處理環境中特有的特殊備份事件。OTG 將所有這些調整與整合反饋都提交給產品開發組,讓他們將其包含到發布的產品中。
更多有關 MOM 的信息,請參閱 http://www.microsoft.com/technet/itsolutions/msit/default.mspx 頁面上題為“Monitoring Messaging at Microsoft”的 IT Showcase 技術解決方案摘要和題為“Monitoring Enterprise Servers at Microsoft”的 iT Showcase 技術白皮書。
應用程序管理
一旦 MOM 檢測到來自一個遠程服務器的警報,OTG 能夠使用 Windows Server 2003 中內置的遠程管理工具來訪問該服務器以進一步調查和診斷問題。
遠程管理桌面(Remote Desktop for Administration)與遠程桌面協議(RDP)
OTG 使用 Windows Server 2003 和 Windows XP Professional 的遠程管理桌面與 RDP 特性來維護遠程的 Exchange 2003 server。遠程管理桌面由終端服務技術啟用,是為服務器管理而專門設計的。因此,遠程管理桌面可用于繁忙的服務器,且不會明顯影響處理器性能。這對遠程管理來說是一種便利、有效的服務。實際上,遠程管理桌面用于登錄到遠程服務器上,就像本地登錄一樣。
服務器管理
OTG 使用 MOM 來創建關于服務器性能的長期趨勢數據。然而,MOM 能夠管理的最為主動的趨勢循環是每隔五分鐘左右記錄一個數據檢查點。OTG 使用 Performance Monitor(PerfMon)- Windows Server 2003 中提供的一個工具 - 進行更實時的性能監視。
MOM 性能數據保存在八天的時間表中(當天和之前的七天)。OTG 使用在 MOM 中捕獲的趨勢數據來跟蹤向 Exchange 服務器添加軟件補丁或硬件驅動程序的性能提示。通過留意性能數據中的趨勢何時發生變化,并將其與末班員工變化中維護的 Exchange Server 環境服務器變更記錄相比較,OTG 能夠更加快速地將性能問題和受益情況與在特定時間所做的特定更改聯系起來。鑒于 OTG 環境中極高的變化率,這是 OTG 診斷過程中的一個重要工具。
HP Insight Manager
HP Insight Manager 是第一個可用于 PC 服務器的服務器元素管理器。它在 1992 年發布。從那時起,Insight Manager 就奠定了它作為服務器平臺管理應用程序的領先地位。OTG 廣泛地使用 Insight Manager 來監視與 HP 硬件相關的信息。雖然 Insight Manager 沒有具體的 Exchange 管理數據,系統管理器可以使用此工具將來自其他管理應用程序的事件與 OTG 的 Exchange 2003 服務器上的特定硬件情況關聯起來。HP Insight Manager 還與 MOM 緊密結合,為系統管理器提供一個統一的管理平臺。表 6 顯示了一些 Insight Manager 為其提供管理數據的關鍵對象。
表 6 HP Insight Manager
對象Insight Manager 提供的數據
磁盤子系統Insight Manager 提供了廣泛的磁盤監視與診斷信息,這些信息能夠與應用程序事件(如 I/O 錯誤)相關聯。
環境Insight Manager 提供了有關服務器環境特征的信息,如溫度、風扇狀態和關鍵的 BIOS 錯誤。
版本控制Insight Manager 的版本控制特性提供了有關固件、軟件和驅動程序版本的詳細信息,對于配置管理很有幫助。
利用率Insight Manager 提供了關于處理器和 I/O 總線利用率的基于硬件的統計。
存儲管理
在 SAN 模組上發生的事件不會記錄到服務器的事件日志中,而 MOM 正是從事件日志中獲得許多警報的。相反,SAN 模組事件存儲在 HP Storage Manage Appliance(SMA)中。OTG 也配置 MOM 對 SMA 上的事件進行監視,以便監視 SAN 模組事件。在總部中,一對 SAN 模組安裝一個 SMA。在區域中,每個 SAN 模組安裝一個 SMA。結合 SMA 一起使用 MOM 能夠確保象監視 Exchange 服務器那樣有效地監視 OTG 的 SAN 模組。


