記錄鏈接
編輯記錄鏈接(RL)是在數據集中查找跨越不同數據源(例如,數據文件、書籍、網站和數據庫)引用同一實體的記錄的任務。當基于可能共享或可能不共享公共標識符(例如,數據庫密鑰、URI、國家標識號)的實體加入不同的數據集時,記錄鏈接是必要的,這可能是由于記錄形狀,存儲位置或策展人風格的差異或偏好。經歷了面向RL的對帳的數據集可以稱為被交叉鏈接。記錄鏈接稱為數據鏈接?在許多轄區中,但是兩者是相同的過程。
確定性記錄鏈接
最簡單的記錄鏈接稱為確定性記錄或基于規則的記錄鏈接,它基于在可用數據集中匹配的單個標識符的數量來生成鏈接。如果所有或某些標識符(在特定閾值之上)相同,則說兩個記錄通過確定性記錄鏈接程序進行匹配。當數據集中的實體由一個公共標識符標識時,或者當存在幾個具有相對較高數據質量的代表性標識符(例如,姓名、出生日期和性別)時,確定性記錄鏈接是一個不錯的選擇高。
概率記錄鏈接
概率記錄鏈接,有時也稱為模糊匹配,通過考慮更廣泛的潛在標識符,采用不同的方法來解決記錄鏈接問題,并根據其正確識別匹配或不匹配的估計能力為每個標識符計算權重,并使用這些權重來計算兩個給定記錄引用同一實體的概率。概率高于某個閾值的記錄對被認為是匹配的,而概率低于另一個閾值的記錄對被認為是不匹配的;介于這兩個閾值之間的對被認為是“可能的匹配”,并且可以相應地進行處理(例如,根據要求、人工檢查、鏈接或不鏈接)。
許多概率記錄鏈接算法通過稱為u和m的兩個概率為標識符分配匹配/不匹配權重。該ü概率是兩個標識的可能性不匹配的記錄將偶然純粹同意。例如,出生月份的u概率(其中有十二個近似均勻分布的值)為1/12≈0.083;與值標識符未均勻分布將具有不同的ü為不同的值(可能包括缺失值)的概率。所述米概率的概率是在標識符匹配對將達成共識(或足夠相似,例如Jaro-Winkler或Levenshtein距離較小的弦)。在完美數據的情況下,該值為1.0,但考慮到很少(如果有的話)為真,則可以估算。可以基于數據集的先驗知識,通過手動標識大量匹配和不匹配對以“訓練”概率記錄鏈接算法,或通過迭代運行該算法以獲得更精確的m個估計,來完成此估計。
應用
主數據管理
大多數主數據管理(MDM)產品使用記錄鏈接過程來識別來自代表同一真實世界實體的不同來源的記錄。此鏈接用于創建“黃金主記錄”,其中包含有關實體的已清理,已核對的數據。MDM中使用的技術通常與記錄鏈接相同。MDM擴展了此匹配,不僅創建了“黃金主記錄”,而且還推斷了關系。(即,一個人具有相同/相似的姓氏和相同/相似的地址,這可能意味著他們有家庭關系)。
數據倉庫和商業智能
記錄鏈接在數據倉庫和商業智能中起著關鍵作用。數據倉庫用于將來自許多不同操作源系統的數據組合到一個邏輯數據模型中,然后可以將其隨后輸入到商業智能系統中進行報告和分析。每個可操作的源系統可能都有其自己的方法來標識邏輯數據模型中使用的相同實體,因此不同源之間的記錄鏈接變得必要,以確保可以將一個源系統中有關特定實體的信息與以下信息進行無縫比較:來自另一個源系統的相同實體。數據標準化和隨后的記錄鏈接通常發生在數據的“轉換”部分。提取、轉換、加載(ETL)過程。
歷史研究
記錄鏈接對于社會歷史研究非常重要,因為大多數數據集(例如人口普查記錄和教區居民名冊)是在發明國家識別號之前就記錄下來的。對舊資料進行數字化處理后,數據集的鏈接是進行縱向研究的前提。由于缺乏標準的姓名拼寫,根據居住地而變化的姓氏,行政區域的變化以及對照其他來源檢查數據的問題,該過程通常會更加復雜。記錄鏈接是1980年代歷史和計算領域中最突出的主題之一,但此后在研究中受到的關注較少。
醫學實踐與研究
記錄鏈接是創建檢查公眾健康和醫療保健系統本身所需的數據的重要工具。它可以用來改善數據保存,數據收集,質量評估和信息傳播。可以檢查數據源以消除重復的記錄,識別報告不足和遺漏的病例(例如,人口普查計數),創建以人為本的健康統計數據,并建立疾病登記和健康監控系統。一些癌癥注冊管理機構鏈接各種數據源(例如,醫院住院、病理和臨床報告以及死亡注冊)以生成其注冊管理機構。記錄鏈接也用于創建健康指標。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/106973/