數據壓縮

編輯

在信號處理中，數據壓縮是使用比原始表示少的比特對信息進行編碼的過程。任何特定的壓縮要么是有損的，要么是無損的。無損壓縮通過識別和消除統計冗余來減少比特。無損壓縮不會丟失任何信息。有損壓縮通過刪除不必要的或不太重要的信息來減少位。通常，執行數據壓縮的設備稱為編碼器，執行逆向處理（解壓縮）的設備稱為解碼器。

減小數據文件大小的過程通常稱為數據壓縮。在數據傳輸的上下文中，它被稱為源編碼；在數據存儲或傳輸之前在數據源處完成編碼。源編碼不應與信道編碼混淆，用于錯誤檢測和糾正或線路編碼，將數據映射到信號的手段。

壓縮很有用，因為它減少了存儲和傳輸數據所需的資源。計算資源消耗在壓縮和解壓過程中。數據壓縮需要權衡時空復雜度。例如，視頻的壓縮方案可能需要昂貴的硬件來解壓縮視頻，以便在解壓縮時足夠快地進行查看，并且在觀看之前完全解壓縮視頻的選項可能不方便或需要額外的存儲空間。數據壓縮方案的設計涉及各種因素之間的權衡，包括壓縮程度、引入的失真量（當使用有損數據壓縮時）)，以及壓縮和解壓縮數據所需的計算資源

無損數據壓縮

編輯

無損數據壓縮算法通常利用統計冗余來表示數據而不會丟失任何信息，因此該過程是可逆的。無損壓縮是可能的，因為大多數真實世界的數據都表現出統計冗余。例如，圖像可能具有在幾個像素內不會改變的顏色區域；可以將數據編碼為“279個紅色像素”，而不是編碼“紅色像素、紅色像素……”。這是游程編碼的基本示例；有許多方案可以通過消除冗余來減小文件大小。

所述的Lempel-謝夫（LZ）壓縮方法是最流行的算法的無損存儲中。DEFLATE是LZ的變體，針對解壓速度和壓縮率進行了優化，但壓縮速度可能很慢。在1980年代中期，在TerryWelch的工作之后，Lempel-Ziv-Welch(LZW)算法迅速成為大多數通用壓縮系統的首選方法。LZW用于GIF圖像、PKZIP等程序以及調制解調器等硬件設備。LZ方法使用基于表的壓縮模型，其中表條目被替換為重復的數據字符串。對于大多數LZ方法，此表是從輸入中的較早數據動態生成的。表格本身通常是霍夫曼編碼的。像這樣的基于語法的代碼可以非常有效地壓縮高度重復的輸入，例如，相同或密切相關物種的生物數據集合、龐大的版本化文檔集合、互聯網檔案等。基于語法的代碼的基本任務是構建派生單個字符串的上下文無關文法。其他實用的語法壓縮算法包括Sequitur和Re-Pair。

xxx大的現代無損壓縮器使用概率模型，例如通過部分匹配進行預測。的變換惠勒挖洞也可以看作是統計建模的間接形式。在直接使用概率建模的進一步改進中，可以將統計估計與稱為算術編碼的算法耦合。算術編碼是一種更現代的編碼技術，它使用有限狀態機的數學計算從一系列輸入數據符號產生一串編碼位。與其他技術（例如更為人所知的霍夫曼算法）相比，它可以實現卓越的壓縮。它使用內部存儲器狀態來避免將單個輸入符號一對一映射到使用整數位的不同表示的需要，并且僅在對整個數據符號串進行編碼后才清除內部存儲器.算術編碼特別適用于統計變化且依賴于上下文的自適應數據壓縮任務，因為它可以很容易地與輸入數據概率分布的自適應模型耦合。使用算術編碼的早期示例是JPEG的一個可選（但未廣泛使用）功能圖像編碼標準。此后，它已應用于各種其他設計，包括用于視頻編碼的H.263、H.264/MPEG-4AVC和HEVC。

存檔軟件通常具有調整“字典大小”的能力，其中較大的大小在壓縮和解壓縮過程中需要更多的隨機存取內存，但壓縮能力更強，尤其是在文件內容中的重復模式時。

有損數據壓縮

編輯

在80年代后期，數字圖像變得更加普遍，并且出現了無損圖像壓縮標準。在90年代初期，有損壓縮方法開始得到廣泛應用。在這些方案中，一些信息丟失是可以接受的，因為丟棄不重要的細節可以節省存儲空間。在保留信息和減小大小之間存在相應的權衡。有損數據壓縮方案是通過研究人們如何感知相關數據而設計的。例如，人眼對亮度的細微變化比對顏色的變化更敏感。JPEG圖像壓縮的部分工作是通過舍入不重要的信息位來實現的。許多流行的壓縮格式利用了這些感知差異，包括聲音的心理聲學以及圖像和視頻的心理視覺。

大多數形式的有損壓縮都基于變換編碼，尤其是離散余弦變換(DCT)。它由NasirAhmed于1972年首次提出，然后他于1973年與T.Natarajan和KRRao共同開發了一種工作算法，然后于1974年1月推出。DCT是最廣泛使用的有損壓縮方法，并且用于圖像（例如JPEG和HEIF）、視頻（例如MPEG、AVC和HEVC）和音頻（例如MP3、AAC和Vorbis）。

有損圖像壓縮用于數碼相機，以增加存儲容量。同樣，DVD、藍光和流媒體視頻使用有損視頻編碼格式。有損壓縮廣泛用于視頻。

在有損音頻壓縮中，心理聲學的方法用于去除音頻信號的非可聽（或較少可聽）分量。人類語音的壓縮通常使用更專業的技術進行；語音編碼是區別于通用音頻壓縮的一門獨立學科。語音編碼用于互聯網電話，例如，音頻壓縮用于CD翻錄并由音頻播放器解碼。

有損壓縮會導致代損失。

數據壓縮的理論

編輯

壓縮的理論基礎由信息論提供，更具體地說，是用于無損壓縮的算法信息理論和用于有損壓縮的率失真理論。這些研究領域基本上是由克勞德·香農(ClaudeShannon)創建的，他在1940年代末和1950年代初發表了有關該主題的基礎論文。與壓縮相關的其他主題包括編碼理論和統計推斷。

機器學習

機器學習和壓縮之間有著密切的聯系。在給定序列的整個歷史的情況下預測序列后驗概率的系統可用于優化數據壓縮（通過對輸出分布使用算術編碼）。最佳壓縮器可用于預測（通過找到壓縮最佳的符號，給定先前的歷史記錄）。這種等價性已被用作使用數據壓縮作為“通用智能”基準的理由。

另一種觀點可以顯示壓縮算法將字符串隱式映射到隱式特征空間向量，并且基于壓縮的相似性度量計算這些特征空間內的相似性。對于每個壓縮器C(.)，我們定義了一個相關的向量空間?，使得C(.)映射一個輸入字符串x，對應于向量范數||~x||。空間排除了對所有壓縮算法背后的特征空間的詳盡檢查；相反，特征向量選擇檢查三種代表性的無損壓縮方法，LZW、LZ77和PPM。

根據AIXI理論，在HutterPrize中更直接解釋的一個連接，x的最佳可能壓縮是生成x的最小可能的軟件。例如，在該模型中，一個zip文件的壓縮大小包括zip文件和解壓軟件，因為沒有兩者就無法解壓它，但可能有更小的組合形式。

數據差異

數據壓縮可以看作是數據差分的一種特殊情況。數據差異包括在給定源和目標的情況下產生差異，修補在給定源和差異的情況下再現目標。由于數據壓縮中沒有分離的源和目標，因此可以將數據壓縮視為與空源數據的數據差異，壓縮文件對應于從無到有的差異。這與將xxx熵（對應于數據壓縮）視為相對熵的特例相同（對應于數據差分）沒有初始數據。

內容由匿名用戶提供，本內容不代表www.gelinmeiz.com立場，內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載，請注明出處：http://www.gelinmeiz.com/130314/

數據壓縮

目錄

數據壓縮

無損數據壓縮

有損數據壓縮

數據壓縮的理論

機器學習

數據差異

復合數據類型

數據采集

關系數據庫

時間數據庫