使用元數(shù)據(jù)和政策管理
一些有大數(shù)據(jù)存儲需求的機構(gòu)將關(guān)注于在相對較低的成本的基礎(chǔ)上獲得大量的容量。對一些應(yīng)用程序,存儲解決方案和服務(wù)的一個重要屬性就是它們的元數(shù)據(jù)能力。這包含了支持靈活的元數(shù)據(jù)和用戶定義元數(shù)據(jù)的能力。
另一個重要的功能是政策管理,即使用元數(shù)據(jù)來實施或驅(qū)動一些功能,比如多長時間保留數(shù)據(jù),何時何地安全地處置數(shù)據(jù),以及在哪里保存數(shù)據(jù)(包括與應(yīng)用程序相關(guān)的信息)。這給非結(jié)構(gòu)化數(shù)據(jù)帶來了一定的靈活的結(jié)構(gòu),同時沒有與結(jié)構(gòu)化數(shù)據(jù)管理相關(guān)的限制或約束。
尋找合適的媒介
找到合適的存儲媒介可以幫助用戶滿足它的需求。硬盤驅(qū)動器(HDD)長期以來是流行的方式來為許多應(yīng)用提供均衡的性能、容量、存儲密度和成本效率。隨著用戶需要在更長的時間內(nèi)保存更多的數(shù)據(jù),這個趨勢將繼續(xù)。
大數(shù)據(jù)還可以得益于如今的使用動態(tài)隨機訪問記憶體或NAND閃存記憶體--或兩者結(jié)合--來支持帶寬需求的固態(tài)驅(qū)動器解決方案。SSD可以被用于存儲元數(shù)據(jù)和其他經(jīng)常被訪問的數(shù)據(jù)。
磁帶繼續(xù)在大數(shù)據(jù)中扮演幾種角色。這些角色包括定時地將大量數(shù)據(jù)遷移,提供歸檔或為磁盤上的數(shù)據(jù)提供備份。
降低大數(shù)據(jù)資源占用
重復(fù)數(shù)據(jù)刪除并不總是最大化大數(shù)據(jù)容量的有效方式。用戶可以考慮其他工具、技術(shù)來緩解由于存儲和保護(hù)不斷增長的數(shù)據(jù)集而帶來的壓力。
例如,一個大數(shù)據(jù)項目可以使用歸檔或自動分層技術(shù)來將一些數(shù)據(jù)遷移到更低層或低成本存儲層,比如磁帶。
另一個降低數(shù)據(jù)占用的方法就是重新思考如何、何時、何地以及為何數(shù)據(jù)要被保護(hù)。另一個減少數(shù)據(jù)占用的技術(shù)就是數(shù)據(jù)壓縮(實時的或異步的),用不同的壓縮算法來降低存儲需求。
保護(hù)和服務(wù)于大數(shù)據(jù)
2020年全球?qū)⒂?.0026萬EB(1EB=10億GB)的數(shù)據(jù)預(yù)計將產(chǎn)生,14倍于2012年創(chuàng)建的數(shù)據(jù)的量。
來源自IDC Digital Universe 2012(2012年IDC數(shù)字宇宙報告)
保護(hù)大數(shù)據(jù)要求基本的可靠性、可用性和可服務(wù)性--比如冗余電源、冷卻、控制器、節(jié)點和接口。用戶還必須確保數(shù)據(jù)的完整性和耐用性,執(zhí)行后端數(shù)據(jù)檢查來探測校驗碼或保護(hù)錯誤和比特?fù)p壞等意外情況。這些后端檢查必須對正常運行的操作是透明的,而且必須在它們發(fā)展成問題之前糾正這些情況。
用戶還必須重新檢查RAID(獨立磁盤冗余陣列)水平以優(yōu)化他們的大數(shù)據(jù)存儲解決方案。需要考慮得因素包括有多少驅(qū)動器在RAID池或組中,數(shù)據(jù)塊或I/O大小,以及正在使用的設(shè)備的大小和類型,哪些可以進(jìn)行優(yōu)化以便適應(yīng)更小量的數(shù)據(jù)。
考慮存儲系統(tǒng)選項
一些用于分析工具的大數(shù)據(jù)解決方案采用集群或網(wǎng)格的配置內(nèi)部或?qū)S么鎯σ约皯?yīng)用程序軟件的行業(yè)標(biāo)準(zhǔn)x86或ia64服務(wù)器。
大數(shù)據(jù)應(yīng)用程序還可以利用現(xiàn)有的針對不同使用情境進(jìn)行優(yōu)化的存儲系統(tǒng)。一些用于傳統(tǒng)的高性能計算的存儲系統(tǒng)可能適合于使用塊或文件訪問方式的帶寬密集型并發(fā)或并行訪問應(yīng)用程序。
配置對象訪問(包括HTTP、XML和云數(shù)據(jù)管理接口)的存儲解決方案也可以用于大數(shù)據(jù)存儲需求,比如視頻、音頻、圖片、監(jiān)控、地震數(shù)據(jù)或地質(zhì)數(shù)據(jù),以及其他需要有大型文件需要存儲的應(yīng)用程序。對象存儲系統(tǒng)支持各種大小和不同類型的數(shù)據(jù)。
大數(shù)據(jù)存儲小貼士:
使用不損害性能的智能電源管理解決方案
利用各種工具和技術(shù)來降低數(shù)據(jù)的資源占用
留意不同解決方案下總的裸存儲和可用存儲
評估那些可能可以優(yōu)化的領(lǐng)域的存儲設(shè)置(包括RAID或保護(hù))
如果遇到很長的硬盤修復(fù)時間,找出磁盤故障的原因
在可行的情況下使用混合的SSD、HDD和磁盤存儲來攤低預(yù)算
云可以輔助大數(shù)據(jù)應(yīng)用程序下的SSD、HDD和磁盤存儲
自加密驅(qū)動器提供安全性并減少驅(qū)動器處置時間
用程序的許多不同方面有不同的存儲需求。了解一家機構(gòu)的需求和選項可以幫助支持?jǐn)?shù)據(jù)增長并同時最小化預(yù)算增長。
進(jìn)行了大改進(jìn)的小硬盤
制造商們在硬盤驅(qū)動器上取得了明顯的進(jìn)步,包括4TB容量(未來還可以更大)的3.5英寸驅(qū)動器,以及容量更大速度更快的2.5英寸硬盤驅(qū)動器。
一些新的1萬轉(zhuǎn)2.5英寸硬盤驅(qū)動器相比舊的1.5萬轉(zhuǎn)3.5英寸驅(qū)動器有相同的(或更好的)性能。其他硬盤上的改進(jìn)包括瓦片磁記錄和熱輔助磁記錄技術(shù),這些技術(shù)能夠提高驅(qū)動器單位面積的存儲密度(在一個磁片上給定物理空間內(nèi)所能存儲的比特數(shù))。硬盤在繼續(xù)增長和增加功能,使得它們也適用于大數(shù)據(jù)環(huán)境。
總體上,大數(shù)據(jù)的存儲選擇包括:
專門用于使用內(nèi)部或外部設(shè)備的服務(wù)器的存儲
通過共享軟件在服務(wù)器之間共享的存儲
使用塊、文件和對象的存儲,或使用一個可以在線、近線或離線訪問的應(yīng)用程序編程接口(API)的存儲
固態(tài)驅(qū)動器、硬盤驅(qū)動器、磁帶或云上的存儲
使用得到擦除碼、副本、快照、和廣域網(wǎng)分散等方式進(jìn)行保護(hù)的RAID的存儲
根據(jù)國外媒體heraldnet報道,微軟Windows Azure軟件及相關(guān)云服務(wù)年銷售額已經(jīng)突破10億美元大關(guān),這也是微軟在挑戰(zhàn)亞馬遜云服務(wù)市場時首次獲得如此驕人的業(yè)績。
這對于Azure來說無疑是一個里程碑事件。Azure是微軟的云計算平臺,存儲有企業(yè)信息和各類應(yīng)用程序,以支持用戶跨網(wǎng)絡(luò)平臺來訪問這些信息和服務(wù)。

Azure服務(wù)平臺框架示意圖
在過去半年以來,Azure訂閱用戶獲得大幅增長,增長幅度高達(dá)48%。而與此相關(guān)的服務(wù)器與應(yīng)用工具部門也連續(xù)9個季度實現(xiàn)10%的收入增長。而微軟傳統(tǒng)的Windows業(yè)務(wù)部門其收入較2010年最好水平下降了5.7%。
但與亞馬遜相比,微軟還存在挑戰(zhàn)。需要考慮如何維持現(xiàn)有客戶,并說服新用戶選擇Azure。


