(華中科技大學信息存儲系統教育部重點實驗室 謝長生 曹強)2007年,網絡存儲各個層面的技術都有了明顯的發展,越來越多的重點從底層轉向了高層應用。
幾年前,在中國購買一個TB容量的存儲就是大用戶,而2007年購買數百TB的用戶已不在少數,購買PB級以上容量的用也不算什么新聞。2007年的諾貝爾物理學獎頒給了對硬盤密度的提高做出巨大貢獻的巨磁阻效應的發現者,表明存儲已在當今人類社會中具有舉足輕重的地位。2007年,存儲浪潮正在潮頭?;仡欉@一年,在國際和國內存儲技術領域有哪些值得回顧的事件和進展呢?
技術趨于高層
2007年,網絡存儲各個層面的技術都有明顯的發展,重點已經越來越多地從底層轉向高層。
從物理層硬件的角度來看,網絡存儲的基本技術走向是十分明了而簡單的: 傳輸部分越來越快,存儲部分越來越大,構成系統的規模越來越大。從傳輸技術上而言,2007年出現了8Gbps光纖技術和萬兆(10Gbps)IP技術的產品??上驳氖?,中國本土企業2007年也推出了萬兆IP存儲產品。本來用于高性能計算機互連的Infiniband也被用在存儲的互連上,速度達到 30Gbps。Infiniband作為存儲協議已經有了很大進展,作為iSCSI RDMA的存儲協議iSER已由IETF標準化。作為存儲基本單元的硬盤,其互連的接口也完成了從并行的ATA、SCSI 到串行的SATA、SAS的轉換。SATA-2的接口速率為300MB/s,SAS的接口速率為3Gbps,不久,將會有6Gbps甚至12Gbps的 SAS高速接口出現。從存儲部分看,在產品級的水平,2007年最大的單個硬盤容量為1TB,磁帶的單盤最大容量為1.6TB,藍光光盤(作為備份用)為 50GB/片。存儲系統的規模目前已達到PB級。
有了物理層的速度和容量保證,接下來的問題是如何使各種異構的存儲設備和存儲管理系統能夠互聯互通,這是增強信息的共享性和進一步擴大系統規模的基礎。SMI-S是國際存儲網絡工業協會(SNIA)近年來一直在大力推動的互聯互通標準。2007年,越來越多的廠家宣布其產品支持SMI-S,未來存儲系統的互操作性將越來越好,向著無障礙方向進行。
虛擬存儲的概念實際上在早期的計算機虛擬存儲器中就已經很好地得以體現,近年來流行的虛擬帶庫VTL技術實際上也是一種虛擬存儲技術。常說的網絡存儲虛擬化只不過是在更大規模范圍內體現存儲虛擬化的思想。
存儲虛擬化雖然不是一項新概念,但在網絡存儲范圍內卻還是一種新的技術。在前幾年概念炒作和局部虛擬化的基礎上,網絡虛擬化現在已經實實在在地進入了各大廠家的產品之中。2007年,虛擬化是存儲展會上各大廠家宣傳的重點,這說明存儲虛擬化已經成為產品特征的一部分,進入實際應用階段。存儲虛擬化的技術將會進一步深入發展,它將和虛擬計算、網格等概念一起,最終使信息基礎設施能變得像水和電那樣被方便地使用。
數據的可用性和安全性在2007年進一步得到存儲界的重視。在設備級對RAID6支持的陣列產品越來越多; 數據的備份與災難恢復技術越來越被用戶重視和接受,需求的增加刺激了技術的進一步發展,連續數據保護(CDP)也成為各大廠家競相宣傳的重點技術。存儲安全得到空前的重視,除了從外部端口設防的傳統技術外,從存儲系統內部和塊級進行加密和數據保護的技術紛紛出現。
在發展趨勢上,存儲管理的重點已經從對存儲資源的管理轉變到對數據資源的管理,數據的管理最近兩年成為存儲管理技術發展最快的部分。隨著存儲系統規模的不斷擴大,數據如何在存儲系統中進行時空分布成為保證數據的存取性能、安全性和經濟性的重要問題。分層存儲、數據生命周期管理、重復數據刪除以及內容管理等技術在2007年推出的產品中得到了更多地體現。
綠色存儲 大行其道
隨著全球能源消耗帶來的生態環境問題和經濟問題,人們的環保意識不斷增強,“綠色存儲”也成為2007年存儲領域出現頻率最高的詞匯之一。
數據中心已是美國增長速度最快的能耗大戶之一,耗電量預計每年增長12%。美國工業界對綠色存儲采取了積極的態度,在美國2007 SNW秋季大會上SNIA倡議了成立“SNIA綠色存儲促進組織”(SNIA Green Storage Initiative),其成員包括幾乎所有工業界主流廠商。SNIA綠色存儲促進組織成立的目的,是為了促進能源效率的提高以及廠商間的技術交流,以便降低存儲系統能耗和環境影響。
實現存儲系統節能的方式有很多,包括硬件和軟件等方法。比如COPAN公司采用的大規模非活動磁盤陣列存儲 (Massive Array of Idle Disks, MAID)技術,只有在需要時才將一部分磁盤開機運轉,而其他不用的磁盤則處于斷電狀態,因而大大降低磁盤的耗能。前不久HDS公司宣布,為其AMS和 WMS中端系列產品增加全新的節電功能。當用戶的應用無需訪問數據時,HDS的中端存儲產品可以停止向相關磁盤供電; 需要訪問這些數據時,又可以快速供電,啟動相關磁盤,這項技術能夠將能耗和散熱成本降低20%以上。
自動精簡配置(Thin Provisioning EqualLogic)也是一項有效降低能耗的技術,包括HDS、HP、EMC、EqualLogic、3PAR等在內的許多存儲公司都已經在存儲系統中增加了此項功能。所謂Thin Provisioning就是在創建卷或LUN時只分配應用程序預計所需的邏輯容量,而存儲的物理結構不用被預分區,這樣多個卷或 LUN 就可以靈活共享同一空閑存儲池,使存儲空間的利用率得到顯著提高,從而有效節省存儲空間和能耗。惠普EVA產品采用了惠普動態智能冷卻(HP Dynamic Smart Cooling)技術,可降低20%至45%的冷卻成本,這套系統使用裝在智能控制節點上的先進軟件,持續地對空調設備進行調節,這種調節基于部署在IT 機架上傳感器網的實時氣溫測量,在最需要的時候提供冷卻,幫助最終用戶降低了成本。
利用根據應用所需隨時關閉和啟動磁盤用電的功能,可以明顯降低磁盤的耗電和散熱需求。這種功能在備份和歸檔環境等數據密集型應用中效果尤其顯著。相比傳統的模塊化陣列,該技術能夠將能耗和散熱成本降低20%以上。
除了在存儲設備和系統上考慮外,機房、機柜設計和安裝也是降低能耗的重要方面,例如為每一個機柜設置熱氣阻隔系統,能在高密度電力環境下,將單一機柜或整排機柜的熱氣區隔并進行冷卻。
2007年存儲領域的綠色之風在世界范圍內越刮越大,SNIA在美國、歐洲、日本和中國舉辦的各次SNW大會以及中國的2007年存儲峰會,都將綠色存儲作為大會的主題。
還有以下在2007年的七大技術熱點,也值得回顧和探討網絡存儲的未來發展。
1. SMI-S成為國際標準
自2002年SNIA提出SMI-S(Storage Management Initiative Specification)存儲管理協議以來,不少廠商已經在自己的產品中增加了對于它的支持。2007年1月,ISO/IEC采納其成為國際標準,這無疑有力于SMI-S的推廣。
SMI-S的目標就是讓異構的存儲設備和管理系統之間能夠分享信息,進而實現互操作。考慮到當前存儲市場和應用的現狀,大部分集成商往往為用戶設計一整套完整解決方案,而這些方案也往往把涉及多個不同廠家設備共存的情況限制在最小范圍,另一方面大部分設備提供商也不主動提供自己產品的API,這些都使得SMI-S的實施受到很大的限制。SNIA組織是推動設備和管理互操作性的主要力量。在2007年SNIA和《計算機世界》報聯合主辦的SNW中國2007大會上,主題演講就是介紹SMI-S協議。
2. XAM擴展存取方法
XAM(eXtensible Access Method)也是SNIA在大力推廣的一種技術。如果說SMI-S努力建立存儲設備之間標準管理接口,XAM則力圖在存儲服務和用戶之間建立標準的服務接口和架構,使得對于固定內容的存取標準化。通過XAM,用戶可以不必關心底層系統的細節而獲得一致的存儲服務; 應用開發商也可以集中精力設計出第三方存儲應用而不受限于特定的存儲平臺; 存儲設備商則著眼于設備和存取流程的優化上。
XAM包括XAM庫和相關的工具集,虛擬實現模塊(VIA)(包括參考和廠商)。XAM語義定義兩大類對象類型: 主對象和次級對象,其中主對象包括XAM Library、XSystem和XSet; 次對象包括XStream和XIterator。
3. 存儲虛擬化
存儲虛擬化是個老話題,其本質就是提供一個抽象層和相應的操作來屏蔽存儲系統底層的復雜架構和流程,減少用戶的管理復雜度。因此在存儲系統的各個層面和不同應用領域都廣泛使用這個概念??紤]整個存儲層次大體分為應用、文件和塊設備三個層次,相應的虛擬化技術也大致可以按這三個層次分類。目前大部分設備提供商和服務提供商都在自己的產品中包含存儲虛擬化技術,使得用戶能夠方便地使用。因此2007年“存儲虛擬化”不像往年那么頻頻出現在口頭,而是扎扎實實體現在各種產品之中。
然而,當前虛擬化技術離真正完全解決存儲管理問題還有很大的距離。其一是如何把各個層次、各種接口的虛擬化存儲設備集成為統一存儲服務平臺,提供一致、高效的存取服務大多數情況下仍然是一道難題; 其二是虛擬化往往以部分性能下降為代價,如何平衡性能和易用性也是必須仔細設計的; 其三,存儲虛擬化面臨最大的問題就是設計之外的變化,如何定義虛擬化邊界和程度,保證用戶有合適的管理窗口也需認真考慮。
4. 連續數據保護
在數據保護領域,除傳統技術手段如鏡像、快照、復制、備份等,連續數據保護也成為大家討論的焦點之一。
根據SNIA的定義,連續數據保護是一種連續捕獲和保存數據變化,并將變化后的數據獨立于初始數據進行保存的方法,而且該方法可以實現對過去任意一個時間點的數據恢復。CDP系統可能基于塊、文件或應用,并且為數量無限的可變恢復點提供精細的可恢復對象。
其特性包含以下幾個方面: 數據的改變受到連續的捕獲和跟蹤; 所有的數據改變都存儲在一個與主存儲地點不同的獨立地點中; 目標恢復點是任意的,而且不需要在實際恢復之前事先定義。目前幾乎所有主流廠商在自己的產品中都可實現對CDP的支持(也許是部分的),或者能夠提供 CDP的解決方案。
但CDP技術要求在存儲性能、成本和功能之間達成平衡,也就是說CDP并非沒有代價。如何監控數據變化、如何保存數據變化以及如何到達恢復點等每個操作都會耗費大量系統資源,進而影響原有的業務流程。因此必須對于整個計算、傳輸和存儲的邏輯和物理過程進行全面的分析,進而提供合適的方案,當然用戶也必須認真考慮自己的需求和實施的成本。
5. 存儲安全
網絡安全技術問題一直受到人們的關注,相對而言存儲安全較少受到重視。如果把數據比喻為放在房間里的貴重物品,大部分人認為只要管好自己家“大門”一切就都安全了。殊不知第一,世界上沒有保證絕對安全的“門”; 其次隨著網絡存儲的廣泛應用,一個“房間”往往不止一扇“門”; 再次,永遠存放在一個固定位置的“東西”是沒有價值的,數據價值體現在使用中,相應的存取過程必然伴隨著一定的風險。因此如果不考慮在數據存儲和存取過程中增加安全措施,這種安全是不完全的。一般而言,網絡安全系統位于網絡存儲系統的邊界,負責檢測、抵御外來的攻擊,對內部攻擊無能為力; 存儲系統的內部攻擊需要存儲安全系統來承擔,從而形成安全存儲系統。
目前存在兩種研究思路: 首先在傳統信息安全C.I.A特性(機密性、完整性、可用性,簡稱C.I.A特性)基礎之上增加存取控制和認可機制,為某一特定應用提出專門的解決方案,例如: 增強文件服務器的安全性、客戶端加密文件系統、客戶端直接訪問磁盤的認證機制和高度可擴展文件系統; 其次從存儲系統的體系結構入手,尋找一種安全的、高效的存儲模式,比如對象存儲模式。存儲安全問題這幾年在學術界受到廣泛的討論,相應成熟的商業化產品和完整解決方案還有待開發,但相信未來會受到很大的關注,獲得更大的發展。
6. 對象存儲
將存儲管理功能從上層管理軟件下移到存儲設備,使存儲設備具有更多的智能,是對象存儲的出發點。從上個世紀90年代中對象存儲概念被提出,到2004年ANSI 推出了基于對象的存儲設備(OSD)的1.0版本規范之后,對象存儲逐漸走出了學術界。對象存儲在大規模網絡存儲系統中已經獲得應用,例如Lustre系統。
雖然現在很難找到公認的對象存儲定義,但其概念還是基本明確的,區別傳統數據塊和文件,存儲對象可以通過擴展屬性的方式對于所保護的數據提供更多的描述,如果存儲系統能夠針對相應屬性進行合理的優化和管理,就能極大地提高數據的管理效率和存取性能。特別是在大規模存儲系統中,更加“智能”的數據結合智能存儲設備才能對于充分發揮各種部件的效率、提升海量數據管理能力、改進存取過程的性能提供更多的安全性、可用性保障。
7. 數據管理
數據管理的一個重要任務就是對數據在存儲資源上進行正確的時空分布。網絡存儲資源包括半導體存儲器、高端高速硬盤、普通硬盤、磁帶、光盤等存儲資源和高速、中速、低速互聯總線和網絡等互連資源; 根據可用性和安全性的要求,有些資源還有冗余、備份和安全保護。因此,不同的資源是有著不同代價的。應該將價值最大的數據保存在等級最高的存儲資源上,以保證最高的性能、可用性和安全性; 而對不重要的數據,就應該放在代價最小的存儲資源上; 對毫無價值的數據,就應當進行刪除,以免白白占用存儲資源。在保存的數據中,往往有很多數據是重復的,除了保證數據可用性而特意為之以外,保存其他無用的重復數據都是對資源的浪費。在異地數據備份時,重復數據刪除后再進行備份將節約大量的存儲和帶寬資源。
另外,數據的價值是有時間性的,數據在不同時間點的價值是不同的,根據數據的生命周期進行管理,就是體現數據的時間特性。
數據管理的傳統技術是分層管理技術,數據生命周期管理和重復數據刪除等技術是近年來逐步實用化的技術,內容管理已經具備了根據數據內容的性質來進行管理的思想。
目前的數據管理技術對數據價值重要性的判別大部分是人工的,下一步應該實現自動的標示和識別。擴大元數據(關于數據的數據)的屬性、增加對數據重要性和數據生命周期的標識,可能是實現自動數據管理的一條有效途徑。


