国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

一文讀懂選擇數據湖還是數據倉庫
2022-10-24    數據驅動智能

  今天,每秒都在生成TB和PB的數據,為這些海量數據集尋找存儲解決方案至關重要。復雜的機器和技術現在收集了令人難以置信的廣泛數據——每天超過2.5萬億字節!—來自設備傳感器、日志、用戶、消費者和其他地方。數據存儲并不像以前看起來那么簡單。在管理和存儲數據時,數據管理者需要考慮使用數據湖或數據倉庫作為存儲庫。

  隨著數據量、速度和種類的增加,選擇合適的數據平臺來管理數據從未像現在這樣重要。它應該是迄今為止滿足我們需求的古老數據倉庫,還是應該是承諾支持任何類型工作負載的任何類型數據的數據湖?

  在這里,我們深入探討了這兩個平臺。

  數據湖

  數據湖是一個中央存儲庫,可以大量存儲所有數據(結構化和非結構化數據)。數據通常以原始格式存儲,無需首先進行處理或結構化。在這種情況下,它可以針對手頭的目的進行優化和處理,無論是交互式分析、下游機器學習或分析應用程序的儀表板。

  可以這樣想,數據湖就像一個大水體,比如說一個處于自然狀態的湖。數據湖是使用來自各種來源的數據流創建的,然后,多個用戶可以來到湖中對其進行檢查并取樣。數據湖的美妙之處在于每個人都在查看和操作相同的數據。消除多個數據源并在數據湖中擁有一個可引用的“黃金”數據集來保障組織內的一致性,因為用于訪問組織中智能的任何其他下游存儲庫或技術都將同步。這很關鍵。使用這種集中的數據源,就不會從不同的孤島中提取數據;組織中的每個人都有一個單一的事實來源。

  該模式為公司的分析生命周期提供了近乎無限的能力:

  攝取:數據以任何原始格式到達并存儲以供將來分析或災難恢復。公司通常會根據隱私、生產訪問以及將利用傳入信息的團隊來劃分多個數據湖。

  存儲:數據湖允許企業管理和組織幾乎無限量的信息。云對象存儲以較低的成本為大數據計算提供高可用性訪問。

  流程:借助云計算,基礎設施現在只需一個API調用即可。這是從數據湖中的原始狀態獲取數據并格式化以與其他信息一起使用的時候。這些數據也經常使用高級算法進行聚合、合并或分析。然后將數據推回數據湖以供商業智能或其他應用程序存儲和進一步使用。

  消費:當我們談論自助服務數據湖時,消費通常是生命周期中的階段。此時,數據可供業務和客戶根據需要進行分析。根據復雜用例的類型,最終用戶還可以間接或直接以預測(預測天氣、財務、運動表現等)或感知分析(推薦引擎、欺詐檢測、基因組測序、ETC)。

  數據湖支持原生流,數據流在其中被處理并在到達時可用于分析。數據管道在從數據流接收數據時轉換數據,并觸發分析所需的計算。數據湖的原生流式傳輸特性使其非常適合流式分析。

  數據倉庫

  數據倉庫發明于1980年底,專為業務應用程序生成的高度結構化數據而設計。它將組織的所有數據集中在一起并以結構化方式存儲。它通常用于連接和分析來自異構來源的數據。

  數據倉庫架構依賴于數據結構來支持高性能的SQL(結構化查詢語言)操作。數據倉庫是專門為基于SQL的訪問而構建和優化的,以支持商業智能,但為流分析和機器學習提供有限的功能。它們受到ETL要求的限制,需要在存儲數據之前對其進行預處理。

  數據倉庫在數據用于分析之前需要順序ETL攝取和轉換數據,因此它們對于流式分析效率低下。一些數據倉庫支持“微批處理”以經常以小增量收集數據。它支持順序ETL操作,其中數據以瀑布模型從原始數據格式流向完全轉換的集合,并針對快速性能進行了優化。

  數據倉庫以專有格式存儲數據。一旦數據存儲在數據倉庫中,對該數據的訪問僅限于SQL和數據倉庫提供的自定義驅動程序。一些較新的數據倉庫支持半結構化數據,例如JSON、Parquet和XML文件;與結構化數據集相比,它們對此類數據集的支持有限且性能下降。數據倉庫不能完全支持存儲非結構化數據。

  數據湖和數據倉庫之間的區別

  數據倉庫和商業智能工具支持歷史數據的報告和分析,而數據湖支持利用數據進行機器學習、預測和實時分析的新用例。

 
  雖然一些數據倉庫擴展了基于SQL的訪問以提供機器學習功能,但它們不提供原生支持來運行廣泛可用的程序化數據處理框架,例如ApacheSpark、Tensorflow等。

  相比之下,數據湖是機器學習用例的理想選擇。它們不僅提供基于SQL的數據訪問,還通過Python、Scala、Java等語言為ApacheSpark和Tensorflow等編程分布式數據處理框架提供原生支持。

  數據倉庫需要在數據用于分析之前順序ETL攝取和轉換數據,因此它們對于流式分析效率低下。一些數據倉庫支持“微批處理”以經常以小增量收集數據。這種流到批處理的轉換增加了數據到達與用于分析之間的時間,使得數據倉庫不適用于多種形式的流分析。


  數據湖支持本地流式傳輸,其中數據流在到達時被處理并可供分析。數據管道在從數據流接收數據時轉換數據,并觸發分析所需的計算。數據湖的原生流式傳輸特性使其非常適合流式分析。

  數據倉庫支持順序ETL操作,其中數據以瀑布模型從原始數據格式流向完全轉換的集合,并針對快速性能進行了優化。

  相比之下,對于需要持續數據工程的用例,數據湖異常強大。在數據湖中,ETL的瀑布方法被迭代和連續的數據工程所取代。可以通過SQL和編程接口迭代地訪問和轉換數據湖中的原始數據,以滿足用例不斷變化的需求。這種對持續數據工程的支持對于交互式分析和機器學習至關重要。

  揭穿關于數據湖和數據倉庫的三大神話

  讓我們解決一些關于兩種流行的數據存儲類型的常見誤解:

  誤區一:只需要數據湖或數據倉庫中的一個

  如今,經常聽到人們談論數據湖和數據倉庫,好像企業必須選擇其中一個。但現實情況是,數據湖和數據倉庫服務于不同的目的。雖然兩者都提供數據存儲,但它們使用不同的結構,支持不同的格式,并針對不同的用途進行了優化。通常,公司可能會從使用數據倉庫和數據湖中受益。

  數據倉庫最適合希望為商業智能分析操作系統數據的企業。數據倉庫在這方面工作得很好,因為存儲的數據是結構化、清理和準備分析的。同時,數據湖允許企業以任何格式存儲數據以用于幾乎任何用途,包括機器學習(ML)模型和大數據分析。

  誤區2:數據湖是流行趨勢,數據倉庫不是

  人工智能(AI)和ML代表了一些增長最快的云工作負載,組織越來越多地轉向數據湖來幫助確保這些項目的成功。由于數據湖允許存儲幾乎任何類型的數據(結構化和非結構化)而無需事先準備或清理,因此組織能夠保留盡可能多的潛在價值以供將來使用,未指定使用。此設置非常適合更復雜的工作負載,例如尚未確定具體數據類型和用途的機器學習模型。

  數據倉庫可能是這兩種選擇中更為人所知的一種,但數據湖和類似類型的存儲基礎設施可能會隨著數據工作負載的趨勢而繼續流行。數據倉庫適用于某些類型的工作負載和用例,而數據湖代表了服務于其他類型工作負載的另一種選擇。

  誤區三:數據倉庫易于使用,而數據湖很復雜

  數據湖需要數據工程師和數據科學家的特定技能來分類和利用其中存儲的數據。數據的非結構化性質使得那些不了解數據湖如何工作的人更不容易訪問它。

  但是,一旦數據科學家和數據工程師構建了數據模型或管道,業務用戶通常可以利用與流行業務工具的集成(自定義或預構建)來探索數據。同樣,大多數業務用戶通過連接的商業智能(BI)工具訪問存儲在數據倉庫中的數據。在第三方BI工具的幫助下,業務用戶應該能夠訪問和分析數據,無論該數據存儲在數據倉庫還是數據湖中。

  構建現代數據平臺的原則

  盡量減少數據平臺中人員、網絡和磁盤操作的影響。雖然人類永遠無法像計算機一樣快,但網絡和磁盤操作是客觀問題。為了減少這些問題的影響,避免在各處復制數據,加強平臺讀取和處理來自不同位置的數據的能力,包括事務性、發布/子系統和數據倉庫系統,而無需當天移動。構建現代數據平臺的原則是:

  把事情簡單化,不要過度架構或過度設計;

  為正確的工作使用正確的工具;

  讓用例決定你應該使用什么;

  使用云進行擴展;

  將數據與上下文分開,這將使數據能夠用于多個用例。

  數據湖和數據倉庫:用例

  DataLake已經成為一個強大的平臺,企業可以使用它來管理、挖掘大量非結構化數據并將其貨幣化,以獲得競爭優勢。因此,公司對數據湖平臺的采用率急劇增加。

  在這種利用大數據的熱潮中,一直存在一種誤解,即DataLake旨在取代數據倉庫,而實際上,DataLake旨在補充傳統的關系數據庫管理系統(RDBMS)。

  數據倉庫適用于某些類型的工作負載和用例,而數據湖代表了服務于其他類型工作負載的另一種選擇。

  用例應該驅動數據平臺架構。如果您的用例需要速度、具有已知的數據模型、完全結構化或非常接近它,那么SQL數據倉庫就足夠了。但是,如果您需要及時靈活地對數據進行建模并將其用于多種工作負載,您應該使用數據湖。

  組織將依靠多種技術的最佳解決方案,包括數據倉庫和數據湖。最終,組織的選擇需要平衡管理多種技術的復雜性和TCO與以高性能和經濟高效的方式運行更多種類的工作負載的能力。

  未來該如何選擇

  我們現在處于這樣一個階段,我們不僅可以使用數據來回顧過去,還可以了解現在,甚至可以預測未來。數據和工具將不斷發展,以幫助我們幾乎實時地到達那里。

  將數據與上下文分開。進來的數據不一定有你想用它的上下文。所以,在弄清楚你想用它做什么之前,把將數據獲取到一個位置的想法分開。因為實際上,您將對該數據進行多種用途。因此,您永遠不知道您可以將這些數據用于什么用途。因此,如果您首先獲取數據,然后弄清楚您想用它做什么,通常會導致使用這些數據產生更積極的結果。

  數據倉庫供應商正在逐漸從他們現有的模型轉向數據倉庫和數據湖模型的融合。同樣,數據湖的供應商現在正在擴展到數據倉庫領域,雙方正在趨同。例如,BigQuery現在允許組織在AmazonS3上查詢數據。同樣,Databricks和Qubole等數據湖平臺現在正在果斷地轉向數據倉庫用例。您可以使用ACID屬性、事務一致性、快照等來管理存儲,并將查詢引擎更多地與存儲管理集成,為客戶創建湖倉模式。數據湖和數據倉庫之間的融合不僅僅是在談論,而是正在現實中應用。

熱詞搜索:數據庫

上一篇:實現商業智能的三個常見挑戰
下一篇:最后一頁

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
国产精一区二区三区| 韩国一区二区三区在线观看| 亚洲综合色丁香婷婷六月图片| 亚洲天堂成人| 欧美一区二区三区精品电影| 久久综合亚洲社区| 欧美日韩网址| 一区精品久久| 亚洲欧洲av一区二区三区久久| 玖玖在线精品| 国产日韩精品一区二区浪潮av| 亚洲黄色片网站| 欧美综合二区| 国产精品乱码一区二三区小蝌蚪| 狠狠色综合播放一区二区| 9色精品在线| 久热国产精品| 国产日韩高清一区二区三区在线| 亚洲精品一区二区三区不| 久久久久久久高潮| 国产日韩一区二区三区在线| 亚洲午夜电影| 欧美视频一区二区| 日韩午夜中文字幕| 欧美a级一区| 有坂深雪在线一区| 久久精品99国产精品| 国产精品h在线观看| 亚洲欧洲另类| 欧美成人激情视频| 91久久精品一区二区三区| 免费观看国产成人| 亚洲二区在线| 乱码第一页成人| 亚洲黄色一区| 欧美国产日韩一区二区三区| 亚洲黄一区二区三区| 欧美a级在线| 亚洲乱码视频| 欧美三级乱人伦电影| 宅男噜噜噜66一区二区66| 欧美特黄一级大片| 亚洲欧美在线一区二区| 国产一区二区精品久久91| 久久久精彩视频| 亚洲国产欧美日韩另类综合| 欧美精品999| 在线午夜精品| 国产视频一区在线观看| 久久久亚洲人| 亚洲精品社区| 国产精品五区| 欧美aⅴ99久久黑人专区| 日韩视频精品在线| 国产精品美腿一区在线看| 欧美一区二区三区的| 影音先锋中文字幕一区| 欧美日本高清视频| 欧美一区亚洲| 亚洲精品国产拍免费91在线| 国产精品h在线观看| 久久精品国产第一区二区三区| 亚洲二区在线视频| 国产精品乱码久久久久久| 欧美一区二区三区精品电影| 亚洲黄页视频免费观看| 国产精品嫩草影院一区二区| 美女日韩欧美| 午夜精品影院在线观看| 亚洲人成精品久久久久| 国产亚洲午夜| 国产精品久久国产精麻豆99网站| 久久久亚洲影院你懂的| 一区二区三区四区蜜桃| 亚洲国产精品一区二区久| 国产欧美短视频| 欧美日韩一区国产| 久久亚洲一区二区| 亚洲女性裸体视频| 一本色道久久综合狠狠躁篇的优点| 狠狠色伊人亚洲综合网站色| 国产欧美精品xxxx另类| 欧美日韩亚洲综合一区| 欧美国产在线电影| 久久久国产精品亚洲一区| 午夜精品剧场| 亚洲一区二区综合| 亚洲一区二区少妇| 亚洲精品国产欧美| 在线精品国产成人综合| 国产午夜精品久久久久久久| 国产精品免费网站在线观看| 欧美日韩午夜| 欧美三级中文字幕在线观看| 欧美日韩精品免费在线观看视频| 美女久久网站| 久久综合国产精品| 久久女同互慰一区二区三区| 久久精品国产成人| 久久国产精品72免费观看| 性做久久久久久久免费看| 亚洲欧美综合一区| 午夜在线观看欧美| 欧美在线国产精品| 久久成人精品| 久久中文字幕一区二区三区| 老司机午夜精品视频在线观看| 久久久成人网| 欧美1区免费| 欧美大片91| 欧美激情一区| 欧美日韩一区综合| 国产精品久久久久久超碰| 国产精品区免费视频| 国产精品私人影院| 国产综合色一区二区三区| 国产一区二区激情| 1024成人| 亚洲香蕉成视频在线观看 | 亚洲一区二区精品| 亚洲先锋成人| 久久福利资源站| 欧美激情无毛| 国产精品腿扒开做爽爽爽挤奶网站| 国产精品一区二区三区乱码 | 久久精品日韩欧美| 久久精品伊人| 欧美大片在线影院| 国产精品久久久一区麻豆最新章节| 国产精品一区二区久久精品| 国内外成人在线| 亚洲精品国产视频| 午夜日韩av| 欧美高清在线观看| 国产精品少妇自拍| 亚洲电影免费观看高清完整版在线| 最新中文字幕亚洲| 欧美一区二视频| 欧美精品偷拍| 国产一区白浆| 亚洲性线免费观看视频成熟| 久久综合中文| 国产欧美日韩一区二区三区在线| 亚洲国内自拍| 欧美一区二区网站| 欧美成人精品在线| 国产日韩成人精品| 中文欧美在线视频| 久久国产日韩欧美| 国产精品扒开腿做爽爽爽软件| 极品少妇一区二区三区| 亚洲一区二区毛片| 欧美高清视频免费观看| 国产欧美日韩不卡| 中文一区二区在线观看| 狂野欧美激情性xxxx欧美| 国产精品欧美日韩| 日韩视频在线观看免费| 巨乳诱惑日韩免费av| 国外成人在线视频| 亚欧美中日韩视频| 国产精品免费看久久久香蕉| 亚洲最新在线视频| 欧美日韩1区| 亚洲破处大片| 免费久久99精品国产自在现线| 国产精品视频久久久| 亚洲一区二区在线看| 欧美乱大交xxxxx| 亚洲国产影院| 欧美成人免费全部| 亚洲成色www8888| 美日韩精品视频| 亚洲第一黄色| 久久综合伊人77777| 好男人免费精品视频| 久久久久成人精品免费播放动漫| 国产一区二区av| 久久久久99| 永久久久久久| 欧美成人精品福利| 亚洲伦理网站| 欧美午夜精品久久久久久孕妇| 洋洋av久久久久久久一区| 欧美日韩国产不卡在线看| 亚洲靠逼com| 欧美性大战久久久久| 亚洲欧美在线免费| 国产一级揄自揄精品视频| 久久午夜国产精品| 亚洲电影中文字幕| 欧美精品一区二区三区久久久竹菊 | 国产精品国产三级国产普通话99| 亚洲美女淫视频| 欧美日韩亚洲在线| 亚洲欧美日韩成人| 国产一区欧美日韩| 免费在线欧美视频| 麻豆9191精品国产| 久久精品国产99国产精品澳门|