數據倉庫
編輯數據倉庫(簡稱 DWH 或 DW;字面意思是“數據倉庫”,在德語中以英語拼寫為主,但也使用拼寫數據倉庫)是一個為分析目的而優化的中央數據庫,它匯集了來自多個通常異構的數據, 來源。 該術語來自商業信息學中的信息管理。 完整的數據,例如來自公司或大型項目的數據,通常作為原始數據提供,尚未根據特定規范進行處理或選擇,保存在數據湖中。
數據倉庫任期
編輯信息倉庫一詞是 IBM 于 20 世紀 80 年代中期創建的。 數據倉庫一詞最早由 Barry Devlin 在 1988 年使用。
“數據倉庫”一詞目前沒有統一的定義。 但是,以下內容通常適用:
- 數據倉庫通過將來自與全局視圖相關的數據源的數據合并到一個通用的一致數據庫中,實現異構和分布式數據庫的全局視圖。 這樣可以方便地訪問數據。
- 數據倉庫的內容是通過復制和處理來自不同來源的數據創建的。
- 大多數情況下,數據倉庫是匯總運營關鍵數據并基于這些數據進行分析的基礎,即所謂的聯機分析處理 (OLAP)。
- 數據倉庫通常是數據挖掘的起點。
- 應用程序通常與數據倉庫(即所謂的數據集市)中的應用程序特定提取物一起工作。
定義的差異首先可以在數據倉庫的一般用途以及數據倉庫中數據的范圍和處理中找到。
- 定義的范圍從 Bill Inmon 的限制性觀點開始:“數據倉庫是一個面向主題的、集成的、按時間順序排列的持久數據集合,以支持管理層的決策過程。”最初:“數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,以支持管理層的決策過程。
- Bauer 和 Günzel 以及 Kimball 的以下定義限制較少,但針對特定目的,即分析功能:“數據倉庫是一個物理數據庫,代表(任意)數據的集成視圖,以啟用分析。” “數據倉庫是專門為查詢和報告而構建的交易數據的副本。”
- 定義范圍以 Zeh 的定義結尾,Zeh 對數據的范圍和處理沒有任何限制,也沒有目的:“數據倉庫是一個物理數據庫,它支持底層數據源的集成視圖。”
“物理”限制是區分數據倉庫和“邏輯”聯邦數據庫系統所必需的。
操作(數據入庫)
編輯數據倉庫的創建基于兩個指導原則:
- 集成來自分布式和不同結構數據庫的數據,以實現源數據的全局視圖,從而在數據倉庫中進行綜合評估。
- 將用于運營業務的數據與數據倉庫中用于報告、決策支持、業務分析、控制和公司管理等任務的數據分開。
數據倉庫的數據采購、管理和評估的整個過程也稱為數據倉庫。 數據入庫包括:
在數據集市中,數據通常存儲為所謂的星型模式或相關數據模式(如雪花和星系模式)中的多維矩陣。
近年來,數據倉庫(實時數據倉庫)從常規加載到實時加載的轉變越來越多。 一些行業,如電信和零售,需要立即可用的數據,同時保持運營和分析系統的分離。 實時數據倉庫還可以將結果直接反饋到操作系統中。 因此,數據倉庫數據的分析結果反過來影響為數據倉庫提供數據的操作系統(閉環)。
數據倉庫應用
編輯- 整合來自不同結構和分布式數據庫的數據,以實現源數據的全局視圖,從而進行綜合評估
- 通過數據挖掘確定數據之間隱藏的關系
- 快速靈活地提供報告、統計數據和關鍵數據,以便能夠確定市場與服務范圍之間的聯系
- 有關業務對象和關系的全面信息
- 業務流程、成本和資源使用的長期透明度
- 提供信息,例如用于創建產品目錄。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/361562/