數據集成
編輯數據集合涉及組合駐留在不同來源的數據并為用戶提供統一的視圖。 這個過程在各種情況下變得很重要,包括商業(例如當兩個類似的公司需要合并他們的數據庫時)和科學(例如,結合來自不同生物信息學存儲庫的研究結果)領域。 隨著數據量(即大數據)和共享現有數據的需求激增,數據集合的出現頻率越來越高。 它已成為廣泛理論工作的焦點,許多懸而未決的問題仍未解決。 數據集成鼓勵內部和外部用戶之間的協作。 被集成的數據必須從異構數據庫系統接收,并轉換為單一一致的數據存儲,跨文件網絡為客戶提供同步數據。 數據集成的一個常見用途是在數據挖掘中分析和從現有數據庫中提取對業務信息有用的信息。
歷史
編輯合并異構數據源的問題通常被稱為信息孤島,在單一查詢界面下已經存在了一段時間。 20 世紀 80 年代初,計算機科學家開始設計異構數據庫互操作性系統。 xxx個由結構化元數據驅動的數據集成系統于 1991 年在明尼蘇達大學設計,用于集成公用微數據系列 (IPUMS)。 IPUMS 使用數據倉庫方法,從異構源中提取、轉換和加載數據到一個獨特的視圖模式中,從而使來自不同源的數據變得兼容。 通過使數以千計的人口數據庫具有互操作性,IPUMS 證明了大規模數據集成的可行性。 數據倉庫方法提供了一種緊密耦合的架構,因為數據已經在一個可查詢的存儲庫中進行了物理協調,因此通常只需很少的時間來解決查詢。
數據倉庫方法對于頻繁更新的數據集不太可行,需要不斷重新執行提取、轉換、加載 (ETL) 過程以實現同步。 當一個人只有一個匯總數據源的查詢接口而無法訪問完整數據時,構建數據倉庫也會遇到困難。 當集成多個商業查詢服務(如旅游或分類廣告 Web 應用程序)時,這個問題經常出現。
截至 2009 年,數據集成的趨勢有利于數據的松散耦合,并提供統一的查詢接口以通過中介模式訪問實時數據(參見圖 2),這允許直接從原始數據庫中檢索信息。 這與那個時代流行的SOA方式是一致的。 這種方法依賴于中介模式和原始源模式之間的映射,并將查詢轉換為分解查詢以匹配原始數據庫的模式。 這種映射可以用兩種方式指定:作為從中介模式中的實體到原始源中的實體的映射(全局視圖(GAV)方法),或者作為從原始源中的實體到中介模式中的映射 模式(本地即視圖(LAV)方法)。 后一種方法需要更復雜的推理來解決對中介模式的查詢,但可以更輕松地將新數據源添加到(穩定的)中介模式。
截至 2010 年,一些數據集成研究工作涉及語義集成問題。 這個問題解決的不是集成架構的結構,而是如何解決異構數據源之間的語義沖突。 例如,如果兩家公司合并了他們的數據庫,那么他們各自模式中的某些概念和定義(如收益)不可避免地具有不同的含義。 在一個數據庫中,它可能表示以美元為單位的利潤(浮點數),而在另一個數據庫中,它可能表示銷售額(整數)。 解決此類問題的常見策略涉及使用本體論,它明確定義模式術語,從而有助于解決語義沖突。 這種方法代表基于本體的數據集成。
另一方面,結合來自不同生物信息學知識庫的研究結果的問題需要根據單一標準(例如陽性預測值)對從不同數據源計算的相似性進行基準測試。 這使得數據源可以直接比較,并且即使在實驗性質不同的情況下也可以進行整合。
截至 2011 年,已確定當前的數據建模方法正在以不同數據島和信息孤島的形式將數據隔離到每個數據架構中。 這種數據隔離是數據建模方法的意外產物,它會導致開發不同的數據模型。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/197029/