目錄
- 1 因果律代碼
因果律代碼
編輯大多數現實世界的數據集由數據向量組成,其各個組成部分在統計上并不獨立。換句話說,知道一個元素的價值將提供關于數據向量中元素價值的信息。當這種情況發生時,創建一個數據的因子代碼可能是可取的,即每個數據向量的新的向量值表示,這樣它就會得到xxx的編碼,由產生的代碼向量(無損編碼),但代碼成分在統計上是獨立的。當原始輸入數據首先被轉化為這樣的因子編碼時,后期的監督學習通常效果更好。例如,假設最終目標是對具有高度冗余像素的圖像進行分類。一個天真的貝葉斯分類器會認為這些像素是統計上獨立的隨機變量,因此無法產生好的結果。然而,如果首先以因子方式對數據進行編碼,那么天真貝葉斯分類器將達到其最佳性能(比較Schmidhuber等人,1996年)。為了創建因子編碼,HoraceBarlow和他的同事們建議將二進制編碼的編碼成分的位熵之和降到最低(1989)。JürgenSchmidhuber(1992)用預測器和二進制特征檢測器重新表述了這個問題,每個檢測器都接收原始數據作為輸入。每個檢測器都有一個預測器,它能看到其他檢測器,并學習預測自己的檢測器的輸出,以應對各種輸入向量或圖像。但每個檢測器都使用機器學習算法來盡可能地變得不可預測。這個目標函數的全局最優對應于在特征檢測器的輸出中以分布方式表示的因子代碼。Painsky、Rosset和Feder(2016,2017)在有限字母大小的獨立成分分析的背景下進一步研究了這個問題。
通過一系列定理,他們表明因子編碼問題可以用分支和邊界搜索樹算法準確解決,或者用一系列線性問題嚴格近似解決。此外,他們還介紹了一個簡單的轉換(即順序互換),它提供了一個貪婪但非常有效的最優解的近似。實際上,他們表明,通過仔細的實施,順序互換的有利特性可以在漸進的最佳計算復雜性中實現。重要的是,他們提供了理論上的保證,表明雖然不是每個隨機向量都能被有效地分解成獨立的成分,但隨著維度的增加,大多數向量都能很好地分解(也就是說,以小的恒定成本)。此外,他們還證明了在多種設置中使用因子碼進行數據壓縮(2017)。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/168803/