要對(duì)當(dāng)下的大數(shù)據(jù)解決方案進(jìn)行分類評(píng)估可著實(shí)不是易事。首先,大數(shù)據(jù)工具似乎是在一夜之間就如雨后春筍般涌現(xiàn)出來,因此大家自然會(huì)對(duì)它們抱有一絲懷疑,畢竟像Hadoop與NoSQL這樣的大項(xiàng)目也才剛剛付諸實(shí)際應(yīng)用。
這個(gè)嘛……各位的顧慮及審慎的態(tài)度當(dāng)然值得贊賞,不過實(shí)際上大多數(shù)此類解決方案早就已經(jīng)實(shí)際服務(wù)于生產(chǎn)生活了;另外,某些舊有方法(例如企業(yè)搜索)也是可以為大數(shù)據(jù)業(yè)務(wù)服務(wù)的。
Brian Proffitt是一位Linux及開源項(xiàng)目記者兼分析師,他撰寫了一篇相當(dāng)精彩的文章,詳細(xì)闡述了當(dāng)今IT業(yè)界中較有影響的幾種大數(shù)據(jù)技術(shù)。在這里我要向大家鄭重推薦這篇文章,甚至最好把它保存下來,用作日后參考。
首先,Proffitt介紹了NoSQL數(shù)據(jù)庫(kù)的特色,并講述了它與關(guān)系類數(shù)據(jù)庫(kù)有何不同之處。他結(jié)合實(shí)例概括了以下五種NoSQL(請(qǐng)注意是非關(guān)系類)數(shù)據(jù)庫(kù)類型:
- 分布式鍵-值存儲(chǔ)(簡(jiǎn)稱DKVS)數(shù)據(jù)庫(kù),又名最終一致性鍵-值存儲(chǔ)數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)在設(shè)計(jì)上主要是為了處理大量服務(wù)器上的數(shù)據(jù)存儲(chǔ)問題。此處的關(guān)鍵字是“Dynamo平臺(tái)”,因?yàn)榇蠖鄶?shù)DKVS數(shù)據(jù)庫(kù)都采用Dynamo平臺(tái)或是以Dynamo平臺(tái)為基礎(chǔ)。
- 鍵-值存儲(chǔ)(簡(jiǎn)稱KVS)數(shù)據(jù)庫(kù),它將數(shù)據(jù)存儲(chǔ)在硬盤或是內(nèi)存中,并將鍵與值加以映射。此類解決方案包括開源方案Redis、Berkeley DB以及Memcache DB。
- 列式存儲(chǔ)數(shù)據(jù)庫(kù),作者將其描述為一套“單獨(dú)的、巨大的數(shù)據(jù)庫(kù)列表,內(nèi)部還充滿嵌入式數(shù)據(jù)列表。”Hadoop、Cassandra以及谷歌的BigTable都是列式存儲(chǔ)數(shù)據(jù)庫(kù)的典型代表。
- 文檔式存儲(chǔ)數(shù)據(jù)庫(kù),顧名思義,存儲(chǔ)并對(duì)整套文檔數(shù)據(jù)價(jià)值進(jìn)行排序。這類數(shù)據(jù)庫(kù)并沒有使用像列表、行、列等常見的方法,而是傾向于使用“非shema類JSON型對(duì)象即文檔”方式,這與常規(guī)XML文檔截然相反,他指出。此類數(shù)據(jù)庫(kù)中的佼佼者包括MongoDB以及CouchDB。
- 圖形式存儲(chǔ)數(shù)據(jù)庫(kù)。這種類型我不太熟悉,也很難快速掌握其特性,在這里就直接援引原作者的表述:“數(shù)據(jù)操作在一套面向?qū)ο蟮募軜?gòu)中完成,利用圖形來映射鍵、值以及二者之間的關(guān)系,而不是通過常見的列表,”他寫道。Neo4j、HypergraphDB以及Bigdata(沒錯(cuò),的確有這么一種大數(shù)據(jù)解決方案就叫‘Bigdata’——大家是不是在懊惱自己沒有搶先使用這么好的名字?)都屬于這一類型。
- 好了,這就是能在網(wǎng)上搜羅到的全部信息了,解釋得也很清楚。不過我們要怎么利用它們處理業(yè)務(wù)中的數(shù)據(jù)呢?別擔(dān)心,Proffitt同樣精心給出了幾種選擇,朋友們放心,這份清單比上面的要短得多。熟悉關(guān)系類數(shù)據(jù)庫(kù)的朋友們有福了,因?yàn)檫@些方案都可以直接創(chuàng)建在原有數(shù)據(jù)庫(kù)內(nèi)部。NoSQL就悲劇了,沒有什么能夠直接契合的選項(xiàng)。這里Proffitt給出的方案是:
- MapReduce,這款產(chǎn)品在使用上比較復(fù)雜,而且常常需要我們進(jìn)行手動(dòng)編碼。不過CouchDB與Hadoop也差不多,都比較難用。
- 企業(yè)搜索產(chǎn)品,這類方案在處理大量文檔及日常業(yè)務(wù)等結(jié)構(gòu)化數(shù)據(jù)方面表現(xiàn)極為出色。他列出的備選產(chǎn)品有Apache Lucene、Apache Solr以及ElasticSearch。
就這些,一共兩種選擇。
信息量似乎不大,但好處還在后面:Proffitt在他的文章中列出了長(zhǎng)達(dá)兩頁半的大數(shù)據(jù)服務(wù)供應(yīng)商及解決方案選項(xiàng)。對(duì)于任何一位打算在大數(shù)據(jù)項(xiàng)目方面投資或是對(duì)這一新興產(chǎn)業(yè)感興趣的朋友,我都誠(chéng)摯地建議大家認(rèn)真閱讀這篇佳作。
Proffitt原文鏈接:http://www.itworld.com/big-datahadoop/251912/big-data-tools-and-vendors?page=0,0
英文原文鏈接:http://www.itbusinessedge.com/cm/blogs/lawson/beyond-hadoop-understanding-big-data-options/?cs=49833
原文鏈接:http://os.51cto.com/art/201202/320617.htm