資料倉儲、湖還是湖屋?
目錄
-
😊 資料生命週期
- 1.1 資料創建階段
- 1.2 資料處理階段
- 1.3 資料報告與內部階段
-
😊 結構化、半結構化和非結構化資料
- 2.1 結構化資料
- 2.2 半結構化資料
- 2.3 非結構化資料
-
😊 資料倉儲
-
😊 資料湖
-
😊 資料湖屋
-
😊 非技術比較:Ikea 比喻
- 6.1 Ikea 展示室
- 6.2 Ikea 儲藏室
- 6.3 Ikea 混合展示室與儲藏室
-
😊 未來展望
-
😊 結語
資料生命週期
資料創建階段
在這個階段,資料被創建和收集。它可能來自各種來源,如應用程式、儀器或手動輸入。
資料處理階段
資料在這個階段被處理、轉換和清理,以便後續的分析和使用。
資料報告與內部階段
在這個階段,資料被分析、報告和分享給相關利益相關者,以進行決策和行動。
結構化、半結構化和非結構化資料
結構化資料
結構化資料是有明確結構和格式的資料,可以輕鬆地儲存在關聯式資料庫中並使用 SQL 進行查詢和分析。
半結構化資料
半結構化資料具有某種程度上的結構,但不適合進行正規化。它通常以 JSON、XML 等格式存儲,使用者可以彈性地操作。
非結構化資料
非結構化資料沒有固定的結構或格式,通常以原始形式存儲,需要特殊工具進行提取和分析,如文字文件、音訊、視訊等。
資料倉儲
背景
資料倉儲是為了解決資料分散和格式不一致的問題而出現的,它主要用於存儲大量結構化歷史資料,供商業智能等分析用途使用。
優點
- 提供統一的資料視圖
- 適用於商業智能和分析
- 使用成熟的技術和工具
缺點
- 需要大量的資料準備工作
- 不適用於非結構化資料
- 成本較高且難以擴展
資料湖
背景
資料湖是為了應對大數據時代而提出的概念,它允許存儲各種結構和非結構化的資料,並支持多種分析方法。
優點
- 彈性和擴展性強
- 支持多種分析工作負載
- 成本相對較低
缺點
- 資料品質和安全性難以保證
- 可能變成資料淤塞
- 需要專業技能進行操作和管理
資料湖屋
背景
資料湖屋是對資料湖和資料倉儲的整合,旨在結合兩者的優點,提供更靈活和成本效益的解決方案。
優點
- 具備資料倉儲的統一視圖和商業智能支持
- 同時具備資料湖的彈性和擴展性
- 使用新的系統設計實現高效管理和分析
缺點
- 需要複雜的技術和架構
- 需要適應不斷變化的技術和工具
- 需要專業管理和維護
非技術比較:Ikea 比喻
Ikea 展示室
Ikea 展示