• 重復數據刪除

    編輯
    本詞條由“匿名用戶” 建檔。

    重復數據刪除

    編輯

    在計算中,重復數據刪除是一種消除重復數據重復副本的技術。一個相關且有點同義的術語是單實例(數據)存儲。此技術用于提高存儲利用率,還可以應用于網絡數據傳輸以減少必須發送的字節數。在重復數據刪除過程中,將在分析過程中識別并存儲xxx的數據塊或字節模式。隨著分析的繼續,會將其他塊與存儲的副本進行比較,并且每當發生匹配時,冗余塊就會被指向存儲塊的小引用替換。假設相同的字節模式可能出現數十次,數百次甚至數千次,則可以xxx減少必須存儲或傳輸的數據量。

    重復數據刪除與數據壓縮算法(例如LZ77和LZ78)不同。壓縮算法可以識別單個文件中的冗余數據并對其進行更有效的編碼,而重復數據刪除的目的是檢查大量數據并識別相同的較大部分(例如整個文件或文件的較大部分),然后替換它們與共享副本。例如,典型的電子郵件系統可能包含100個具有相同1 MB(兆字節)文件附件的實例。每次發送電子郵件備份平臺后,將保存附件的所有100個實例,需要100 MB的存儲空間。使用重復數據刪除時,實際上僅存儲附件的一個實例。隨后的實例將以大約100到1的重復數據刪除率引用回保存的副本。重復數據刪除通常與數據壓縮配合使用以節省更多存儲空間:重復數據刪除首先用于消除大塊重復數據,然后使用壓縮來有效地消除重復數據。對每個存儲的塊進行編碼。

    重復數據刪除

    好處

    編輯

    基于存儲的重復數據刪除減少了給定文件集所需的存儲量。在非常相似或什至完全相同的數據的多個副本存儲在單個磁盤上的應用程序中,這是一種最常見的方案,它最有效。對于數據備份,給定備份中的大多數數據與以前的備份保持不變。普通備份系統試圖通過忽略(或硬鏈接)未更改的文件或存儲差異來利用此漏洞文件之間。但是,這兩種方法都無法捕獲所有冗余。硬鏈接對僅以較小方式更改的大文件無濟于事,例如電子郵件數據庫。差異僅在單個文件的相鄰版本中找到冗余。串聯網絡重復數據刪除用于減少端點之間必須傳輸的字節數,這可以減少所需的帶寬量。查看WAN優化了解更多信息。虛擬服務器和虛擬桌面可從重復數據刪除中受益,因為它允許名義上將每個虛擬機的單獨系統文件合并到單個存儲空間中。同時,如果給定的虛擬機自定義文件,則重復數據刪除將不會更改其他虛擬機上的文件-諸如硬鏈接或共享磁盤之類的替代產品不提供這種功能。類似地改善了備份或制作虛擬環境的副本。

    分類

    編輯

    后處理與在線重復數據刪除

    重復數據刪除可能會在數據流中“在線”發生,也可能在寫入后進行“后處理”。

    使用后處理重復數據刪除,新數據首先存儲在存儲設備上,然后在以后的某個過程中將分析數據以查找重復數據。好處是無需在存儲數據之前等待哈希計算和查找完成,從而確保存儲性能不會降低。提供基于策略的操作的實現可以使用戶能夠推遲對“活動”文件進行優化,或者根據類型和位置來處理文件。一個潛在的缺點是重復數據可能會在短時間內不必要地存儲,如果系統接近滿容量,則可能會出現問題。

    另外,重復數據刪除哈希計算可以在線完成:當數據進入目標設備時同步。如果存儲系統識別出已存儲的塊,則僅存儲對現有塊的引用,而不存儲整個新塊。

    與重復數據刪除相比,在線重復數據刪除的優點在于,它需要較少的存儲和網絡流量,因為從不存儲或傳輸重復數據。不利的一面是,哈希計算的計算量可能很大,從而降低了存儲吞吐量。但是,某些具有串聯重復數據刪除功能的供應商已經展示了能夠以高速率執行串聯重復數據刪除的設備。

    后處理和在線重復數據刪除方法經常引起激烈爭論。

    數據格式

    SNIA詞典確定了兩種方法:

    • 與內容無關的重復數據刪除-一種重復數據刪除方法,不需要了解特定的應用程序數據格式。
    • 內容感知的重復數據刪除-一種利用特定應用程序數據格式的知識的重復數據刪除方法。

    源與目標重復數據刪除

    分類重復數據刪除方法的另一種方法是根據它們出現的位置。在創建數據的地方附近發生的重復數據刪除稱為“源重復數據刪除”。當它在數據存儲位置附近發生時,稱為“目標重復數據刪除”。

    源重復數據刪除可確保對數據源上的數據進行重復數據刪除。這通常直接在文件系統內進行。文件系統將定期掃描創建散列的新文件,并將它們與現有文件的散列進行比較。當找到具有相同散列的文件時,將刪除文件副本,新文件將指向舊文件。但是,與硬鏈接不同,重復的文件被認為是單獨的實體,如果以后修改了重復的文件之一,則使用稱為寫時復制的系統將創建該更改的文件或塊的副本。重復數據刪除過程對用戶和備份應用程序是透明的。備份重復數據刪除的文件系統通常會導致重復,導致備份大于源數據。

    可以為復制操作明確聲明源重復數據刪除,因為無需進行任何計算即可知道所復制的數據需要重復數據刪除。這導致在文件系統上形成一種新的“鏈接”形式,稱為reflink(Linux)或clonefile(MacOS),其中使一個或多個inode(文件信息條目)共享它們的部分或全部數據。它的命名類似于在inode級別工作的硬鏈接和在文件名級別工作的符號鏈接。[8]各個條目具有不混疊的寫時復制行為,即事后更改一個副本不會影響其他副本。[9]微軟的ReFS也支持此操作。

    目標重復數據刪除是在該位置未生成數據時刪除重復數據的過程。這樣的示例是連接到SAN / NAS的服務器,SAN / NAS將是服務器的目標(目標重復數據刪除)。服務器不知道任何重復數據刪除,服務器也是數據生成的重點第二個例子是備份。通常,這將是備份存儲,例如數據存儲庫或虛擬磁帶庫。

    重復數據刪除方法

    重復數據刪除實現的一種最常見形式是通過比較數據塊以檢測重復項來工作。為此,通常為每個數據塊分配一個標識,該標識由軟件計算得出,通常使用加密哈希函數。在許多實現中,假設如果標識相同,則數據相同,即使由于信鴿原理在所有情況下都不是正確的;其他實現不假定具有相同標識符的兩個數據塊是相同的,而是實際上驗證具有相同標識的數據是相同的。如果軟件假設重復數據刪除名稱空間中已經存在給定標識,或者根據實現方式實際驗證兩個數據塊的身份,則它將用鏈接替換該重復數據塊。

    一旦對數據進行了重復數據刪除,則在回讀文件時,無論在哪里找到鏈接,系統都會簡單地用引用的數據塊替換該鏈接。重復數據刪除過程旨在對最終用戶和應用程序透明。

    商業重復數據刪除實施的分塊方法和體系結構有所不同。

    • 塊。在某些系統中,塊是由物理層約束(例如WAFL中的?4KB塊大小)定義的。在某些系統中,僅比較完整的文件,這稱為單實例存儲或SIS。通常認為最智能(但占用大量CPU)的分塊方法是滑動塊。在滑塊中,窗口沿文件流傳遞,以查找更自然發生的內部文件邊界。
    • 客戶端備份重復數據刪除。此過程是在源(客戶端)計算機上最初創建重復數據刪除哈希計算的過程。與目標設備中已經存在的文件具有相同哈希值的文件不會被發送,目標設備只是創建適當的內部鏈接來引用重復的數據。這樣做的好處是它避免了不必要的數據通過網絡發送,從而減少了通信量。
    • 主存儲和輔助存儲。根據定義,主存儲系統旨在獲得最佳性能,而不是最低的成本。這些系統的設計標準是提高性能,但要以其他考慮為代價。此外,主存儲系統對任何會對性能產生負面影響的操作的容忍度要低得多。同樣根據定義,輔助存儲系統主要包含數據的重復副本或輔助副本。這些數據副本通常不用于實際的生產操作,因此可以容忍某些性能下降,以換取提高的效率。

    迄今為止,重復數據刪除已主要用于輔助存儲系統。其原因有兩個。首先,重復數據刪除需要開銷來發現和刪除重復數據。在主存儲系統中,此開銷可能會影響性能。重復數據刪除應用于輔助數據的第二個原因是,輔助數據往往具有更多的重復數據。特別是備份應用程序通常會隨著時間的流逝產生大量重復數據。

    在系統設計不需要大量開銷或不影響性能的某些情況下,重復數據刪除已成功部署到主存儲中。

    單實例存儲

    編輯

    單實例存儲(SIS)是系統獲取內容對象的多個副本并將其替換為單個共享副本的功能。這是消除數據重復并提高效率的一種手段。SIS通常在文件系統,電子郵件服務器軟件,數據?備份和其他與存儲相關的計算機軟件中實現。單實例存儲是重復數據刪除的簡單變體。盡管重復數據刪除可以在段或子塊級別起作用,但是單實例存儲在對象級別起作用,從而消除了對象的冗余副本,例如整個文件或電子郵件。

    缺點和疑慮

    編輯

    一種用于重復數據刪除的方法依賴于使用加密哈希函數來識別重復的數據段。如果兩個不同的信息生成相同的哈希值,則稱為碰撞。沖突的可能性主要取決于哈希長度。因此,引起關注的是,如果發生散列沖突,則可能發生數據損壞,并且沒有使用附加的驗證手段來驗證數據是否存在差異。在線和后處理體系結構都可以對原始數據進行逐位驗證,以確保數據完整性。所使用的哈希函數包括一些標準,例如SHA-1,SHA-256等。

    該過程的計算資源強度可能是重復數據刪除的缺點。為了提高性能,某些系統同時利用了弱散列和強散列。弱散列的計算速度要快得多,但是散列沖突的風險更大。利用弱散列的系統隨后將計算強散列,并將其用作確定它是否實際上是相同數據的決定因素。請注意,與計算和查找哈希值相關的系統開銷主要是重復數據刪除工作流的功能。重組文件不需要此處理,并且與數據塊的重新組裝相關的任何增量性能損失都不太可能影響應用程序性能。

    另一個問題是壓縮和加密的交互。加密的目的是消除數據中任何可識別的模式。因此,即使基礎數據可能是冗余的,也無法對加密的數據進行重復數據刪除。

    盡管這不是重復數據刪除的缺點,但是當對重復數據刪除數據的大型存儲庫使用不足的安全性和訪問驗證過程時,就會發生數據泄露。在一些系統中,如典型的與云存儲,攻擊者可以通過檢索知道或猜測所期望的數據的哈希值由其他人所擁有的數據。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/106976/

    (2)
    詞條目錄
    1. 重復數據刪除
    2. 好處
    3. 分類
    4. 后處理與在線重復數據刪除
    5. 數據格式
    6. 源與目標重復數據刪除
    7. 重復數據刪除方法
    8. 單實例存儲
    9. 缺點和疑慮

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久