內容可尋址存儲
編輯內容可尋址存儲,也稱為內容尋址存儲或縮寫為CAS,是一種存儲信息的方式,因此可以根據其內容而不是其位置來檢索信息。它已被用于高速存儲和檢索的固定內容,如存儲,符合政府規定的文件。內容可尋址存儲類似于內容可尋址內存。
CAS和FCS
編輯內容可尋址存儲(CAS)和固定內容存儲(FCS)是同一技術類型的不同縮寫。兩者都旨在存儲在固定時間段內不變的數據。CAS通常使用加密哈希函數從文檔生成的摘要,以標識存儲系統中的該文檔。如果散列函數很弱,這意味著散列算法的不同輸入可能導致創建相同的摘要,則可能存在不同文檔保留相同摘要用于識別它們的情況。這暴露了依賴散列來區分數據的潛在弱點。當使用不可思議的大型數據存儲庫或放入此類系統的數據可能被惡意創建以利用此弱點時,原始哈希算法的固有弱點就成為一個問題。
內容尋址與位置尋址
編輯與內容尋址存儲形成對比時,典型的本地或網絡存儲設備稱為位置尋址。在位置尋址的存儲設備中,每個數據元素都存儲在物理介質上,并記錄其位置以供以后使用。存儲設備通常會保留這些位置的列表或目錄。當將來對特定項目提出請求時,該請求僅包含數據的位置(例如,路徑和文件名)。然后,存儲設備可以使用此信息在物理介質上定位數據并進行檢索。將新信息寫入位置尋址設備時,它僅存儲在一些可用的空閑空間中,而與內容無關。給定位置的信息通常可以更改或完全覆蓋,而無需對存儲設備進行任何特殊操作。
在此討論的范圍內,考慮上述內容的一種好方法是使用容器尋址的存儲。
相反,當信息存儲到CAS系統中時,系統將記錄內容地址,該地址是xxx且xxx鏈接到信息內容本身的標識符。從CAS系統檢索信息的請求必須提供內容標識符,系統可以從該標識符中確定數據的物理位置并進行檢索。因為標識符是基于內容的,所以對數據元素的任何更改都必然會更改其內容地址。在幾乎所有情況下,CAS設備在存儲信息后都將不允許編輯信息。它是否可以刪除通常由策略控制。
CAS歷史
編輯1970年代和1980年代推出了一種稱為“?內容可尋址文件存儲”(CAFS)的硬件設備,該設備提供具有內置搜索功能的位置尋址磁盤存儲。搜索邏輯已合并到磁盤控制器中,因此可以將以高級查詢語言表示的查詢編譯為搜索規范,然后將其發送到磁盤控制器以執行。在搜索謂詞與內容標識符匹配的特定情況下(如上所述),這表示內容尋址的早期實現。但是,也可以通過常規的位置尋址機制訪問文件,從而允許CAFS支持IDMS?CODASYL數據庫。
盡管內容尋址存儲的想法并不是什么新鮮事,但直到2003年左右才可以使用生產質量的系統。在2004年中期,SNIA行業組織開始與許多CAS提供者合作以創建標準的行為和互操作性CAS系統指南。
CAS效率
編輯CAS存儲最有效地處理不經常更改的數據。對于必須遵守文檔保留法律的大型組織(例如Sarbanes-Oxley)特別感興趣。在這些公司中,大量文檔將被存儲長達十年之久,并且沒有任何更改且不經常訪問。CAS旨在使搜索給定文檔內容的速度非常快,并確保檢索到的文檔與原始存儲的文檔相同。(如果文檔不同,則它們的內容地址也將不同。)此外,由于數據是按其包含的內容存儲到CAS系統中的,因此永遠不會存在同一文檔的一個以上副本存在的情況。根據定義,兩個相同的文檔具有相同的內容地址,因此指向相同的存儲位置。
對于經常變化的數據,CAS的效率不如基于位置的尋址。在這些情況下,CAS設備將需要在更改數據時不斷重新計算數據地址,并且客戶端系統將被迫不斷更新有關給定文檔存在位置的信息。對于隨機訪問系統,CAS還需要處理兩個初始相同的文檔分叉的可能性,要求根據需要創建一個文檔的副本。
開源實現
編輯其中的xxx個內容尋址存儲服務器,大杯的最初開發由貝爾實驗室的Plan 9,現在也可用于Unix類系統的一部分從用戶空間的Plan 9。
走向開源CAS +實施的xxx步是Twisted Storage。
Tahoe最低權限文件存儲是CAS的開源實現。
Git是一個用戶空間?CAS文件系統。Git主要用作源代碼控制系統。
git-annex是一個分布式文件同步系統,它對其管理的文件使用內容可尋址存儲。它依靠Git和符號鏈接來索引其文件系統位置。
Project Honeycomb是CAS系統的開源API。
在存儲網絡行業協會的主持下開發的XAM接口是一種嘗試創建用于歸檔CAS(和類似CAS的)產品和項目的標準接口的嘗試。
Perkeep是一個新項目,旨在將“內容可尋址的存儲”優勢帶給“大眾”。它打算用于各種用例,包括分布式備份;默認快照的版本控制的文件系統;以及分散的,權限控制的文件共享。
Irmin是OCaml?“具有內置快照,分支和還原機制的持久性存儲庫”;與Git相同的設計原則。
盒式磁帶是C#/。NET的開源CAS實現。
Arvados?Keep是一個開源的內容可尋址分布式存儲系統。它設計用于大規模的計算密集型數據科學工作,例如存儲和處理基因組數據。
Infinit是由Docker?Inc.?收購的一種內容可尋址,去中心化(點對點)存儲平臺。
行星際文件系統(IPFS)是一種內容可尋址的對等超媒體分發協議。
casync是Lennart Poettering的Linux軟件實用程序,用于通過Internet分發經常更新的文件系統映像。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/106979/