數據發現是一個面向業務用戶的過程,可以通過分析可視化數據并理解不同的模式。然而,訪問數據是每個數據科學家、軟件開發人員、產品經理或業務分析師每天都會遇到的障礙。

無論我們是數據的生產者還是消費者,數據發現都會影響到我們所有人。要使用和分析數據,我們需要訪問數據,但訪問數據意味著我們需要知道在哪里存在什么,然后才能分析和操作它,這使得數據發現對于數據專業人員和行業查詢數據和做出明智的業務決策至關重要。
為什么是現在?
數據發現領域正在不斷變化;我們不能再一次設置模式目錄并多次使用它了。這種變化本質上是由于現代數據棧的興起。今天,公司正在從各種不同的來源收集無數的數據。
將這些動態來源的數據連接到一個地方已經成為一個重大挑戰,因為使用這些數據的不再只是一個集中的數據團隊。現在,工程師、分析師、營銷和銷售團隊以及其他職能團隊都在使用這些數據。
數據的概念也發生了巨大的變化,從數據倉庫中的數據表,到消費端的機器學習(ML)模型、分析報告、商業智能(BI)儀表板等,以及生產端的倉庫和操作數據庫、api等的Postgres/Kafka上游。
此外,將集中式數據倉庫遷移到云中,已經改變了從提取、轉換和加載(ETL)過程攝取和處理數據的方式,從而將提取、加載和轉換(ELT)過程轉換為提取、加載和轉換(ELT)過程,這給企業留下了更多的數據集。再加上數據網格體系結構的分散所有權和分布式數據訪問,數據發現變得比以往任何時候都更加困難。
這種數據的高度專門化和穩定增長導致我們不知道什么數據存在,為什么存在,以及它存在于哪里。所有這些都阻止了組織使用數據,這使得現在解決這個問題變得更加重要。
發現在數據網格中的作用
數據網格的全部概念是認識到我們如何建模、產生和消費數據是解耦的。對于解耦數據,常見的問題是,如果用戶需要訪問不是他們創建的數據或服務,他們將如何找到它并學會使用它?數據網格的這一部分對數據發現的影響最大。
數據網格將集中的數據劃分為數據域,允許用戶將高質量的數據產品思維應用到數據的共享上。數據發現本質上是一種在數據網格上啟用數據和控制平面的能力,這為發現和標記數據創造了一個更好的環境。
已經有數據網格模型的公司首先需要一個數據發現平臺來發現和理解他們的數據,而數據發現就是從數據網格開始的。然后,當團隊開始擁有自己的數據的數據將標簽和所有權,數據網格允許這些團隊邀請其他用戶通過民主化對數據的訪問,同時保持完整的治理和控制真理的來源與分布式所有權的主要十字路口--這是發現和它在數據網格中的作用。
數據治理還與可見性有關,它為數據團隊提供了一個上下文,告訴他們正在進行的工作或其他團隊已經做了什么,以消除重新發現或重新構建一切的需要。
關于數據網格的問題和機遇
數據網格與發現使團隊了解數據生產成為可能,因此他們不會重復做無頭工作。它避免了數據團隊必須花費大量時間重新發現元數據的兩種常見場景。首先,當企業雇傭新的專家時,這些專家具備數據驅動決策的知識,但缺乏數據背景。其次,當一個業務單元移動到一個不同的單元一段時間后返回時,會發現元數據在這段時間內完全改變了。
在任何給定的時間,組織都運行許多不同的數據模型來將數據記錄到倉庫中,并使其對用戶可用。公司的數據倉庫可能有200列和儀表板,它們與一個操作方面有關。這使得用戶幾乎不可能知道什么是唯一的真相來源。
數據網格中的發現有助于建立數據生產者和消費者之間的平衡,通過以下實踐使數據更容易被發現和更可靠:
開源激發了共享所有權
就像在開源社區一樣,數據可靠性和發現的所有權取決于與數據交互的每個人。數據發現失敗的主要原因是數據沒有足夠的文檔供用戶獲取值。這種來自開源方法的共同責任感激勵用戶解決他們發現的數據問題,從而為其他人省去麻煩。
自動化洞察力的集成
數據文檔對于更好的發現至關重要,特別是對于產品的生產者來說,但與此同時,它只會創建更多的數據表。我們需要的是自動化來提取現有的、可操作的元數據,以增強發現透視圖。用戶可以使用自動化的洞察力來培養更好的文檔,并創建傳承來傳播不同的信息。
簡化用戶體驗
理解如何以及在何處使用數據來簡化用戶體驗是很重要的。比如,這些數據主要用于銷售報告,還是用于產品分析?一旦數據分析團隊或業務智能團隊可以定義如何查看數據分類的結構,其他人就可以貢獻和維護該協議。簡化的用戶體驗可以幫助文檔化過程,或者促進最初的文檔化工作,這些工作通常在數據發現時也需要進行。
將數據視為代碼
在數據網格社區中,將數據和元數據視為代碼是很常見的。當我們創建數據產品時,應該有使其有效的規則/文檔,這些規則應該作為構建的系統的一部分應用。它需要有文檔,包括合規標簽、自動身份檢查等。這些集成到數據發現平臺中的系統大大降低了產生壞數據的可能性。
以代碼為中心的發現
為了實現有效的數據治理(這通常會導致數據遵從性),數據發現應該以用戶和代碼為中心。它必須具有編程抽象,其中用戶的數據發現抽象也適用于代碼的數據發現,例如,特性或模型注冊表。它們都需要后端,能夠在運行時可靠地處理相關查詢,這樣用戶就可以在運行時應用正確的策略,而不是將數據還原。