国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

2024 年數據工程:對數據湖和服務層的預測
2024-01-31   51CTO

(MeSSrro/Shutterstock)

數據湖預測

從 Hadoop 繼續前進: 2023 年,DuckDB (C++)、Polars (Rust) 和 Apache Arrow (Go、Rust、Javascript 等)等工具變得非常流行,將 JVM 和 C/Python 在分析領域的完全主導地位出現裂縫。

 

我們預測,JVM之外的創新步伐將會加快,這將現有的基于Hadoop的架構送入傳統抽屜當中。

 

雖然大多數公司已經沒有直接使用Hadoop,但目前的大部分技術仍然建立在Hadoop的腳本之上:Apache Spark完全依賴Hadoop的I/O實現來訪問其底層數據。許多湖倉一體架構要么基于 Apache Hive 樣式,要么更直接地基于 Hive 元存儲及其接口,以在其存儲層之上創建表格抽象。

 

雖然Hadoop和Hive本身并沒有問題,但它們已經不再代表最先進的技術。這次,它們完全基于JVM。JVM現在的性能令人難以置信,當然如果想從沒有變得更快的CPU中獲得絕對最好的選擇,這仍然不太可能。

 

此外,Apache Hive通過抽象出Hadoop的底層分布式特性,并在分布式文件系統之上暴露熟悉的SQL(-ish)表抽象,這標志著大數據處理向前邁出了一大步。由此可以看到,它已經開始顯示年齡和局限性:缺乏事務性和并發性控制,缺乏元數據和數據之間的分離。 以及我們在 15+ 年中學到的其他經驗教訓。

 

今年,我們將看到 Apache Spark 從根源上繼續前進:Databricks 已經有一個無 JVM 的 Apache Spark (Photon) 實現,而新的表格式(如 Apache Iceberg)也通過實現表目錄的開放規范,以及為 I/O 層提供更現代的方法,并從集體 Hive 根源中走出來。

 

元商店之戰

隨著 Hive 即成為過去,以及 Delta Lake 和 Iceberg 等 Open Table 格式變得無處不在,任何數據架構中的核心組件也正在被取代——“元存儲”。對象存儲或文件系統上的文件與它們所表示的表格和實體之間的間接層。雖然表格格式是開放的,但它們的元存儲似乎越來越專有和鎖定。

 

Databricks 正在積極推動用戶使用其 Unity Catalog,AWS 擁有 Glue,Snowflake 也有自己的目錄實現。這些是不可互操作的,并且在許多方面成為希望利用新表格格式提供開放性的用戶鎖定供應商的一種手段。我們預測,在某個時候,鐘擺會擺回去——因為用戶將朝著更高的標準化和靈活性方向發展。

 

大數據工程作為一種實踐將走向成熟

隨著分析和數據工程變得越來越普遍,大量的技術正在快速增長,最佳實踐也開始出現。

 

2023 年,我們看到促進結構化開發-測試-發布數據工程方法的工具變得更加主流。DBT非常受歡迎和成熟。從Great Expectations、Monte Carlo和其他質量和可觀測性平臺等工具的成功來看,可觀測性和監控現在也被視為不僅僅是錦上添花。lakeFS 提倡對數據本身進行版本控制,以允許類似 git 的分支和合并,從而構建健壯的、可重復的開發-測試-發布管道。

 

此外,我們現在還看到,從Snowflake和Databricks到初創公司,每個人都在推廣數據網格和數據產品等模式,以填補圍繞這些模式仍然存在的工具空白。

 

因此,我們將在 2024 年看到旨在幫助用戶實現這些目標的工具激增。從以數據為中心的監控和日志記錄到測試工具和更好的 CI/CD 選項,軟件工程實踐還有很多工作要做,現在是縮小這些差距的正確時機。

 

服務層預測

云原生應用程序將把更大份額的狀態轉移到對象存儲中: 2023 年底,AWS 宣布了自 2006 年成立以來最大的功能之一,即其核心存儲服務 S3。

 

該功能“S3 Express One-Zone”允許用戶使用與 S3 提供的相同*標準對象存儲 API,但訪問數據的延遲始終如一的堅持個位數毫秒,成本大約是 API 調用的一半。

 

這標志著一個巨大的變化。到目前為止,對象存儲的用例有些狹窄:雖然它們允許存儲幾乎無限量的數據,但即使您只想讀取少量數據,您也必須接受更長的訪問時間。

 

這種權衡顯然使它們在分析和大數據處理中非常受歡迎。因為在這些領域,延遲通常不如整體吞吐量重要,但這意味著數據庫、HPC 和面向用戶的應用程序等低延遲系統不能真正依賴它們作為其關鍵路徑的一部分。

 

如果他們使用了對象存儲,則通常采用存檔或備份存儲層的形式。如果想要快速訪問,則必須選擇以某種形式附加到實例的塊存儲設備,并放棄對象存儲提供的可擴展性和持久性優勢。我們相信 S3 Express One-Zone 是改變這種狀況的第一步。

 

S3 是新的磁盤驅動器,通過一致、低延遲的讀取,現在理論上可以構建完全不依賴塊存儲的完全對象存儲支持的數據庫。

 

我們預測,在2024年,我們將看到更多的可操作數據庫開始在實踐中采用這一概念:允許數據庫在完全短暫的計算環境中運行,完全依靠對象存儲來實現持久性。

(圖片來源:Oz Katz)

 

業務數據庫將開始分解

考慮到前面的預測,我們可以將這種方法更進一步:如果我們像標準化 OLAP 一樣標準化 OLTP 的存儲層會怎樣?

 

數據湖的最大承諾之一是能夠將存儲和計算分開,以便一種技術寫入的數據可以被另一種技術讀取。這使開發人員可以自由選擇最適合其用例的最佳堆棧。但是,有了 Apache Parquet、Delta Lake 和 Apache Iceberg 等技術,現在這是可行的。

 

如果我們設法將用于操作數據訪問的格式標準化,會怎么樣?讓我們想象一個鍵/值抽象(可能類似于 LSM sstables?),它允許存儲排序的鍵值對,為對象存儲進行最佳布局。

 

我們可以部署一個無狀態的RDBMS,在上面提供查詢解析/規劃/執行功能,甚至作為一個按需的lambda函數。另一個系統可能會使用相同的存儲抽象來存儲用于搜索的反排索引,或者用于存儲酷炫的生成式 AI 應用程序的向量相似性索引。

 

雖然不相信一年后我們會將所有數據庫作為 lambda 函數運行,但確實將看到從“對象存儲作為存檔層”到更多“對象存儲作為記錄系統”的轉變,在操作數據庫中也會發生。

(圖片來源:Oz Katz)

 

最后的思考

樂觀地認為,2024 年將繼續朝著正確的方向發展數據格局:更好的抽象、改進堆棧不同部分之間的接口,以及技術發展的新功能。

 

雖然它們并不總是完美的,以犧牲易用性會以較低的靈活性為代價。但是,在過去二十年中,看到這個生態系統的發展,我認為我們的狀況比以往任何時候都好。

 

我們比以往任何時候都有更多的選擇、更好的協議和工具,以及更低的進入門檻。

文章標題:Data Engineering in 2024: Predictions For Data Lakes and The Serving Layer

文章作者:Oz Katz

熱詞搜索:數據

上一篇:科技運營數據管理實踐
下一篇:最后一頁

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
一色屋精品亚洲香蕉网站| 日韩欧美一卡二卡| 亚洲高清免费观看| 国产精品毛片大码女人| 日韩欧美一卡二卡| 欧美日韩国产免费一区二区| 99久久久久免费精品国产| 一本久久综合亚洲鲁鲁五月天| 国内精品伊人久久久久av影院 | 日韩精品亚洲专区| 一级做a爱片久久| 亚洲午夜羞羞片| 一区二区三区国产豹纹内裤在线| 综合久久一区二区三区| 国产精品传媒入口麻豆| 国产精品毛片久久久久久久| 国产精品免费免费| 欧美激情一区二区三区不卡| 中文字幕欧美三区| 成人欧美一区二区三区在线播放| 国产精品国产自产拍高清av王其| 国产精品色一区二区三区| 中文字幕一区二区5566日韩| 亚洲伦在线观看| 亚洲精品欧美激情| 亚洲成av人片| 九九精品视频在线看| 韩国在线一区二区| 成人美女视频在线看| 欧美中文字幕不卡| 日韩一区二区三区高清免费看看| 日韩欧美国产小视频| 日本一区二区久久| 亚洲电影一区二区| 国产真实乱偷精品视频免| 国产高清不卡一区二区| 不卡欧美aaaaa| 欧美日免费三级在线| 欧美一区二区精美| 亚洲国产精品精华液2区45| 亚洲综合免费观看高清在线观看| 午夜久久久影院| 国产原创一区二区三区| 一本一道久久a久久精品综合蜜臀| 91精品国产美女浴室洗澡无遮挡| 欧美国产亚洲另类动漫| 亚洲成人动漫在线免费观看| 狠狠v欧美v日韩v亚洲ⅴ| 色国产精品一区在线观看| 精品国产免费一区二区三区四区| 国产精品久久久久久久久免费丝袜| 亚洲人成电影网站色mp4| 毛片av一区二区| 欧美综合天天夜夜久久| 国产三级精品三级| 欧美色电影在线| 国产精品久久久久婷婷| 日韩电影在线观看网站| 91在线视频免费91| 日韩小视频在线观看专区| 亚洲色图制服诱惑| 99久久久免费精品国产一区二区 | 欧美tk—视频vk| 中文字幕亚洲精品在线观看 | 国产欧美精品一区二区色综合 | 亚洲美女精品一区| 极品少妇xxxx偷拍精品少妇| fc2成人免费人成在线观看播放 | 中文字幕乱码亚洲精品一区| 午夜精品国产更新| www.亚洲在线| 国产亚洲精品中文字幕| 久久爱www久久做| 成人97人人超碰人人99| 精品久久久久久久久久久院品网| 一区二区三区欧美日韩| 99热精品国产| 欧美精品一区二区三区久久久| 亚洲免费观看高清完整版在线观看熊| 精品一区二区在线播放| 欧美大肚乱孕交hd孕妇| 免费黄网站欧美| 日韩色视频在线观看| 亚洲国产婷婷综合在线精品| 一本色道久久综合亚洲精品按摩| 国产精品国产三级国产aⅴ中文 | 亚洲一区视频在线观看视频| 粉嫩一区二区三区性色av| 日韩欧美亚洲国产另类| 一区二区高清免费观看影视大全| 91丨porny丨蝌蚪视频| 亚洲欧美区自拍先锋| 99精品在线免费| 亚洲丝袜精品丝袜在线| 91香蕉视频mp4| 一区二区三区高清不卡| 欧美日韩专区在线| 日韩黄色片在线观看| 欧美日本在线看| 爽好久久久欧美精品| 欧美一区二区三区电影| 麻豆精品视频在线观看| 欧美mv和日韩mv的网站| 国产在线视频一区二区| 欧美成人性战久久| 国产一区二区不卡| 国产婷婷色一区二区三区在线| 国产乱码精品一区二区三区av| 久久综合色一综合色88| 成人ar影院免费观看视频| 亚洲人成精品久久久久久 | 国产免费成人在线视频| 99国产精品久久久久久久久久| 中文字幕精品一区二区精品绿巨人| 欧美日韩在线电影| 亚洲一二三四久久| 日韩一区二区不卡| 国产精品一线二线三线| 国产精品色在线观看| 在线看不卡av| 国产一区二区三区| 一区二区三区欧美久久| 日韩一区二区影院| 从欧美一区二区三区| 亚洲福利一区二区| 国产欧美一区二区三区沐欲| 在线亚洲一区二区| 理论片日本一区| 自拍偷拍亚洲激情| 精品国产一区二区三区四区四| 国产成人av一区二区| 性感美女极品91精品| 久久久久国色av免费看影院| 欧美综合视频在线观看| 国产成人精品www牛牛影视| 偷拍一区二区三区| 最新中文字幕一区二区三区| 日韩欧美一区在线| 欧美性做爰猛烈叫床潮| www.日韩精品| 国产乱子伦一区二区三区国色天香 | 国产精品久久国产精麻豆99网站| 91麻豆精品国产无毒不卡在线观看| 大胆亚洲人体视频| 久久精品国产99| 午夜精品影院在线观看| 亚洲欧美偷拍三级| 国产目拍亚洲精品99久久精品| 欧美一区二区视频网站| 色婷婷综合久久久中文一区二区 | 久久久久久免费网| 日韩免费看网站| 欧美性猛交一区二区三区精品| 粉嫩在线一区二区三区视频| 精品一区二区三区免费| 亚洲成a人片综合在线| 亚洲欧洲制服丝袜| 亚洲欧洲日韩女同| 国产精品三级在线观看| 欧美成人高清电影在线| 91精品福利在线一区二区三区| 色88888久久久久久影院按摩 | 亚洲色图都市小说| 国产精品日韩成人| 久久久三级国产网站| 久久久一区二区| 日韩精品专区在线| 精品999在线播放| 欧美精品一区二区三区高清aⅴ | 国产suv精品一区二区三区| 免费观看日韩av| 免费看日韩a级影片| 日本特黄久久久高潮| 美女免费视频一区二区| 色综合亚洲欧洲| 国产乱人伦偷精品视频免下载| 麻豆精品在线播放| 国产成人在线观看免费网站| 国产一区二区精品久久| 国产成人免费视频精品含羞草妖精 | 欧美日韩国产欧美日美国产精品| 首页国产丝袜综合| 天堂午夜影视日韩欧美一区二区| 亚洲综合免费观看高清在线观看| 亚洲一区二区欧美激情| 亚洲成av人片| 蜜桃av噜噜一区| 国产一区三区三区| 丁香网亚洲国际| 99精品久久免费看蜜臀剧情介绍| 色综合久久99| 欧美一区二区三区视频免费| 久久综合狠狠综合久久综合88| 国产欧美日韩麻豆91| 亚洲精品videosex极品| 午夜精品在线看| 国产福利一区二区三区视频在线| 色综合久久久久久久久久久| 91精品国产综合久久精品麻豆 | 日韩欧美国产系列|