国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

大數據資料之常見的Hadoop十大應用誤解學習
2019-07-10   今日頭條

  大數據之常見的Hadoop十大應用誤解常見的Hadoop十大應用誤解。

 
  Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。以下是常見的Hadoop十大應用誤解和正解。
 
  1.(誤解)Hadoop什么都可以做
 
  (正解)當一個新技術出來時,我們都會去思考它在各個不同產業的應用,而對于平臺的新技術來說,我們思考之后常會出現這樣的結論“這個好像什么都能做”,然而,更深入的去想,你就會發現“好像什么都需要重頭做”。對于Hadoop,我常喜歡舉Database來當例子。三十年前數據庫(Database)剛出來時,上面并沒有什么現成的應用方案(Application),所以廠商在銷售的過程中常需要花很多的時間去告訴客戶說,如果今天你有了這個數據庫,你就可以做什么什么的應用,而看起來的確好像數據庫什么應用都可以做,因為畢竟大部分的應用都會需要一個數據庫。只是三十年前所有的應用都得重頭打造,我們今天習以為常的ERP、CRM等應用系統,當時并不存在的,那都是后來的事了。今天的Hadoop,正好有點像當年database剛出來的時候,畢竟今天所有的應用或多或少都會開始去處理半結構、非結構化數據,而這些東西的確都是Hadoop擅長的,所以平臺的適用性其實問題不大,重點還是在應用要由誰來搭建。
 
  2.(誤解)Hadoop無法扮演HPC(HighPerformanceComputing)orGridComputing的角色
 
  (正解)由于Hadoop本身是由并行運算架構(MapReduce)與分布式文件系統(HDFS)所組成,所以我們也看到很多研究機構或教育單位,開始嘗試把部分原本執行在HPC或Grid上面的任務,部分移植到Hadoop集群上面,利用Hadoop兼顧高速運算與海量儲存的特性,更簡易且更有效率地來執行工作。目前國外高能物理、生命科學、醫學等領域,都已經有這樣的應用案例,利用Hadoop集群與現有的HPC/Grid搭配、協同運作,來滿足不同特性的運算任務。
 
  3.(誤解)Hadoop只能做資料分析/挖掘(DataMining/Analyst)
 
  (正解)Hadoop特別適合來數據分析與挖掘的應用是毫無疑問的,但數據分析與挖掘是難度與深度都較高的一個應用,所需要的時間的積累也比較長,也因此讓一般企業對于導入Hadoop視為畏途,甚至心懷恐懼。然而,從Etu知意圖團隊這一兩年來輔導客戶的經驗來看,我們發現其實更多的應用,大多都在數據處理(DataProcessing)這個部分,或者更精確地來說,Hadoop這個平臺,特別適合數據預處理(Datapre-Processing)這種應用場景。無論是數據倉庫的負載分流(DWOffload)、數據的匯總(DataAggregation)、甚或是我們運用協同過濾算法(CollaborativeFiltering)針對線下線上零售業所做的精準推薦應用(Recommendation),廣義上來看,都可以說是屬于DataProcessing的一環,畢竟,BigData的來臨,我們看data、運用data的角度與方式都必須要有所改變。
 
  BigData強調的不是對因果關系的渴求,取而代之的是關注于data之間的相關關系。
 
  也就是說,重點在于要知道“是什么”,反而未必需要知道“為什么”。
 
  所以,它要求的是所有data的處理,而不只是隨機樣本的分析。
 
  最后我們往往會發現,處理BigData的簡單算法所得到的來自于data呈現的事實,往往比分析smalldata的復雜算法所得到的來自data背后的原因,對企業帶來的效益更大。
 
  我強烈推薦大家去看BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink這本書,里面把我們面對BigData該有的觀點與看法,做了非常清楚的陳述,有簡中的的翻譯本,繁中的好像還沒看到。
 
  4.(誤解)Hadoop就是BI(BusinessIntelligence)商業智能
 
  (正解)跟前面一樣,這也是大多數人最容易誤解的地方,因為Hadoop特別適合來做數據分析,所以就很直覺地把它想成“那就是BI嘛”。會有這種誤解,主要來自于對數據運用的整體架構的不清楚。傳統BI是屬于數據展現層(DataPresentation),其數據的載體(DataStore)是數據庫或數據倉庫。對比來看,Hadoop就是專注在半結構化、非結構化數據的數據載體,跟BI是不同層次的概念。當然,Hadoop除了DataStore外,又特別具備運算的特性,也因此特別容易帶來這種觀念上的混淆。至于半結構、非結構化數據的數據展現層部分,目前本身并不在Hadoop的生態體系內,而是由其他現有或新創的公司來填補這塊空缺,所以,逐漸地我們會看到越來越多現有的BItool,開始強調其自身與Hadoop的聯系性與兼容性,同時,一些新創公司,也發展出完全不同于現有BITool的基于BigData的數據展現層。
 
  5.(誤解)Hadoop就是ETL(Extract,Transform&Load)
 
  (正解)ETL其實有兩種意涵,它本身是一個概念,也同時是一個產品類別(ProductCategory)的總稱。所以當我們聽到“某某公司是做ETL產品的”的這種對話時,其中的ETL,與DB、ApplicationServer等名詞是相同的,都是指向某種類別的IT產品。然而,如果就概念性上來看,ETL指的其實是數據運用的生命周期中的其中一個過程,跟我前面提到的數據預處理(Datapre-Processing)是同樣一個概念,舉凡數據清洗(DataCleansing)、數據關聯、數據匯總等,都包含在這個范疇內。所以當我們說Hadoop特別適合拿來做ETL時,在概念上,它是正確的,同時也能很清楚明白地定位出Hadoop在企業資料運用中所扮演的角色。但Hadoop終究不是一個ETL的產品,反倒是現有的ETL產品,也開始跟BI一樣,去發展它在Hadoop上的可用性、聯系性與兼容性。Etu團隊之前在幫客戶導入Hadoop做數據處理時,常常會用script語言來實現一些應用場景,最近一段時間以來,我們的技術顧問也開始運用3rd-party的ETLtool來實作這一塊,對企業客戶來說,這是他們較熟悉的工具,也降低了他們進入Hadoop的門檻。
 
  6.(誤解)Hadoop跟傳統storage沒什么差別,都特別適合來做資料的備份(DataArchive)
 
  (正解)熟悉storage的人,第一次看到Hadoop時,往往只會注意到它的分布式文件系統HDFS,然后開始拿它來與現有的storage的功能特性做比較,而忽略掉Hadoop本身并行運算的那一塊。這很合理,畢竟MapReduce的概念,在應用上是比較抽象且難以捉摸的,相反的,HDFS就是一個很清楚且具象的概念。Hadoop當然可以拿來做dataarchive的運用,但如果你本身的數據沒有被經常或偶爾拿出來使用的需求(也就是我們所說的colddata)的話,Hadoop本身的HDFS作為dataarchive并不會有特別的優勢,反而傳統storage的一些延伸的功能特性,Hadoop本身并不具備。雖然HDFS本身是一個不錯的objectstore,具備有作為scale-outNAS的底層的特性,,但也就僅限于此了,Hadoop本身并沒有特別為它外加storage本身該具有的功能,畢竟Hadoop當初設計時,對數據的儲存與運用的思考,與storage的應用場景是完全不一樣的。Hadoop本身要解決的,反而是現有當數據被放進storage后,需要再被拿出來處理或運算時所遇到的困難性。也因此,它特別適合那些webclick-stream、CDR(calldetailrecord)、GPSdata,systemlog、andothertime-seriesdata等數據,因為這些數據都具有需要經常被拿出來分析處理的特性。在實際應用中,Hadoop與傳統storage其實是相輔相成的,辟如說,我們可能會在Hadoop上放過去3到6個月的數據,因為這些數據的再被利用性較高,而6個月之后的數據就可能會把它archive在傳統的storage內,因為它被再利用的程度低很多了。
 
  7.(誤解)Hadoop是一個搜索引擎(SearchEngine)
 
  (正解)Search的確是Hadoop的一個重要的應用,但Hadoop本身并沒有內含searchengine。實務上,我們常會把HBase的index設計運用到極致,來滿足一些特定search或query的應用,但如果要滿足全文檢索(full-textsearch)的需求的話,你就必須在Hadoop上建構一個基于Hadoop的搜索引擎。Lucene/Katta及其他的opensource都有相對應的計劃,如何借助Hadoop的特性,來實現一個強大的分布式搜索引擎,這也是我們一直密切注意、且已放進未來產品的藍圖之中的重要話題。
 
  8.(誤解)基于Hadoop的推薦系統與傳統的推薦系統并無不同
 
  (正解)傳統的推薦系統只處理客戶的事務數據(transactiondata),大多用的是數據倉庫或商業智能等解決方案,然而,除了客戶的事務數據之外,是否也有可能針對客戶交易前的行為進行分析、進而產生推薦?特別是對電子商務網站來說,客戶在完成購買前的點擊瀏覽、搜尋、及放進購物車等行為,都包含了豐富的訊息,可以藉此很容易去導引出客戶想要尋找什么樣的商品,所以,如果在產生推薦過程中可以把這些訊息都納進來,則所產生推薦的精準度與豐富度必然可以大為提高。這正是新一代的推薦系統會面臨到的挑戰:如何在事務數據(TransactionData)之外,同時也可以把客戶的互動數據(InteractionData)含括進來?由于客戶互動數據的型態與事務數據間有極大的差異,其數量級更是遠遠大于事務數據量,運算頻率更是有極高的要求,也因此都遠超過現有數據庫或數據倉儲的能力,而這正是Hadoop所擅長,可以輕易拓展傳統機器學習(MachineLearning)算法分析大量數據集(LargeDatasets)的能力,并同時具備橫向擴充(Scale-out)的能力,可隨著數據集的成長輕易擴充,無論多大的數據都可輕易勝任。
 
  9.(誤解)Hadoop不適合用來處理小檔案的應用
 
  (正解)對Hadoop稍微有點了解的人,都會知道HDFS的blocksize的default值為64MB,且不建議往下調,因為HDFS當初在設計時,并不是針對碎片般的小檔案的處理而來的。所以當我們說Hadoop不適合用來處理小檔案的應用時,就技術上來說是對的,但在實際運用上,卻可以有不同的做法來滿足海量小檔案管理的需求。我們在中國曾經輔導過一個保險公司,它本身需要處理的小圖檔(20KB~1MB)大概有兩億個那么多,且每天還持續在成長,舉凡客戶的簽名、看診紀錄等,都需要被掃描成圖像文件,并加以儲存,同時,還要偶爾被相對應的應用程序來查詢、調用。在實作上,我們把這些小圖檔的binaryfile存進去HBase——而不是HDFS——來管理,所以HDFSblocksize的設定值大小就不是重點,同時,利用HBasecolumn-base高效能與高延展性的特性,可以很輕易的就滿足多人同時快速在線查詢的要求,而隨著檔案數量持續的增加,橫向擴充也不再是問題。類似的應用其實還不少,譬如說銀行票據文件的管理就是其中一種,也因此,Etu團隊在中國市場,特別針對此應用規劃了“海量小圖文件管理系統”解決方案,以滿足此類客戶的需求。
 
  10.(誤解)Hadoop不適合用來做日志管理(LogManagement)的應用
 
  (正解)當每天的日志量成長到一定的程度,現有的日志管理工具都會遇到瓶頸,所以一些國外的日志管理工具(如Splunk、ArcSight)都已經發布了其HadoopConnector,強調其與Hadoop的聯系性與兼容性。所以,如果客戶對日志管理的需求只是保存日志、并可以隨時對日志搜索的話,那Hadoop本身即可以滿足這樣的應用,而對于比較復雜的日志管理且日志量非常大的需求,客戶也可以從現有的日志管理工具中來挑選,并與Hadoop來搭配協同運作。

熱詞搜索:大數據

上一篇:快速推進DevOps流程時的安全問題探討
下一篇:大數據偵查,打擊犯罪的“火眼金睛”

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
久久久www免费人成精品| 亚洲国产wwwccc36天堂| 99vv1com这只有精品| 91在线观看高清| 欧美美女视频在线观看| 欧美xxxx在线观看| 成人免费在线视频观看| 视频精品一区二区| 99国产一区二区三精品乱码| 欧美成人国产一区二区| 亚洲欧美一区二区在线观看| 日产精品久久久久久久性色| 国产传媒久久文化传媒| 在线观看网站黄不卡| 精品国产凹凸成av人网站| 一区二区三区av电影| 国产黄色91视频| 91精品国产色综合久久| 亚洲久草在线视频| 成人国产精品免费观看| 欧美草草影院在线视频| 一卡二卡欧美日韩| 国产精品69毛片高清亚洲| 欧美欧美午夜aⅴ在线观看| 亚洲欧美在线观看| 国内精品伊人久久久久av一坑| 在线亚洲免费视频| 56国语精品自产拍在线观看| 18欧美亚洲精品| 国产精品1区2区3区| 欧美一区二区视频在线观看2022| 亚洲国产毛片aaaaa无费看| 色综合久久久久综合体桃花网| 日韩午夜电影在线观看| 国产精品无人区| 国产一区二区不卡| 久久综合色之久久综合| 久久精品99国产精品| 7777精品伊人久久久大香线蕉最新版| 亚洲午夜电影在线观看| 国产**成人网毛片九色 | 日日骚欧美日韩| 色哟哟国产精品| 亚洲激情男女视频| 欧美日韩一本到| 亚洲一二三区在线观看| 欧美日精品一区视频| 亚洲综合视频在线| 制服丝袜国产精品| 久久国产三级精品| 日本一区二区三区dvd视频在线| 国产福利一区在线| 国产精品久久久久aaaa| 色88888久久久久久影院按摩| 中文字幕视频一区二区三区久| 国产精品一区二区久久精品爱涩 | 国产欧美日韩精品在线| 风间由美一区二区三区在线观看 | 欧美精品777| 天天色综合天天| 日韩三级在线免费观看| 国产精品一区二区你懂的| 亚洲欧美影音先锋| 欧美喷水一区二区| 久久99精品久久久久久| 91精品国产91综合久久蜜臀| 九色综合国产一区二区三区| 国产精品天干天干在观线| 日本精品视频一区二区三区| 日韩电影在线观看网站| 国产精品美女久久久久久久久| 欧美日韩在线播放三区四区| 国产一区美女在线| 一区二区三区四区视频精品免费| 欧美tickling网站挠脚心| caoporen国产精品视频| 奇米色一区二区三区四区| 中文字幕第一页久久| 777亚洲妇女| 成人高清视频在线| 久久精品国产99国产| 亚洲精品五月天| 久久精品视频一区二区| 欧美日韩aaa| 92国产精品观看| 老司机午夜精品99久久| 亚洲6080在线| 国产精品乱码久久久久久| 欧美精品少妇一区二区三区| 成人黄色片在线观看| 久久国产免费看| 午夜精品久久久久久久久久久| 久久久精品天堂| 日韩久久久精品| 欧美美女激情18p| 一本到不卡精品视频在线观看| 国产麻豆精品在线| 日本中文一区二区三区| 亚洲成av人片在线观看| 亚洲人成亚洲人成在线观看图片| 久久久久久影视| 日韩欧美国产wwwww| 欧美老肥妇做.爰bbww视频| 不卡在线视频中文字幕| 视频一区二区三区中文字幕| 亚洲欧洲三级电影| 久久综合九色综合久久久精品综合| 欧美色国产精品| 欧美日本一区二区三区| 欧美三级日韩三级| 色综合久久中文综合久久97| 粉嫩av一区二区三区在线播放| 国产在线视视频有精品| 蜜臀久久99精品久久久久宅男| 一区二区三区在线观看国产| 最新成人av在线| 亚洲欧美色一区| 亚洲女同ⅹxx女同tv| 亚洲摸摸操操av| 亚洲一区二区三区四区中文字幕| 亚洲制服丝袜一区| 亚洲成人一区二区在线观看| 日本色综合中文字幕| 日韩高清不卡一区二区| 久久国产精品色婷婷| 激情五月婷婷综合网| 国产不卡视频一区| 成人免费毛片高清视频| av在线不卡免费看| 欧美色成人综合| 日韩欧美在线不卡| 国产无人区一区二区三区| 国产精品欧美一区二区三区| 亚洲精品一二三| 亚洲一二三四在线观看| 亚洲一本大道在线| 国产在线视视频有精品| 国产夫妻精品视频| 色哦色哦哦色天天综合| 日韩欧美专区在线| 国产欧美久久久精品影院| 中文字幕一区二区三区不卡在线| 亚洲综合久久久久| 久久99国产精品久久99果冻传媒 | 国产成人精品www牛牛影视| 国产·精品毛片| 欧美日韩在线亚洲一区蜜芽| 精品国产乱码久久久久久老虎| 欧美极品aⅴ影院| 亚洲午夜免费视频| 激情亚洲综合在线| 色偷偷成人一区二区三区91 | 欧美一卡2卡三卡4卡5免费| 久久九九影视网| 婷婷夜色潮精品综合在线| 国产大片一区二区| 91精品蜜臀在线一区尤物| 国产精品福利影院| 免费成人小视频| 在线观看亚洲一区| 久久久激情视频| 亚洲午夜久久久久久久久电影院| 日韩成人一区二区| 99热在这里有精品免费| 欧美一区二区视频在线观看2020 | 国产精品美女视频| 成人免费毛片app| 国产精品国产三级国产aⅴ无密码| 国产成+人+日韩+欧美+亚洲| 久久综合九色综合97_久久久| 久久精品国产精品亚洲综合| 欧美一区二区播放| 久久91精品国产91久久小草| 日韩美女主播在线视频一区二区三区| 蜜桃一区二区三区在线| 精品国产1区二区| 国产精品一区二区无线| 国产欧美一区二区在线观看| 成人丝袜18视频在线观看| 国产精品国产a| 91福利视频网站| 日韩—二三区免费观看av| 91精品国产综合久久福利| 麻豆久久久久久久| 欧美激情一区二区在线| 色综合天天综合网天天看片 | 色综合天天综合网国产成人综合天 | 日韩视频国产视频| 亚洲精品一线二线三线无人区| 欧美日韩国产高清一区二区| 99精品偷自拍| 成人性生交大片免费看在线播放| 激情五月婷婷综合网| 国产美女精品一区二区三区| 亚洲欧洲另类国产综合| 欧美日本一道本| 丁香婷婷综合色啪| 五月天亚洲精品| 国产精品成人免费在线| 欧美一区二区精品久久911|