核主成分分析
編輯在多元統計學領域,核主成分分析(kernel PCA)是利用核方法的技術對主成分分析(PCA)的擴展。使用核,PCA最初的線性操作是在再現核Hilbert空間中進行的。
核對PCA的介紹
編輯為了理解核對PCA的效用,特別是對于聚類,觀察一下,雖然N個點一般不能在d < N {displaystyle d<N}維度上線性分離,但它們幾乎總是可以在d≥N {displaystyle dgeq N}維度上線性分離。
很容易構建一個超平面,將這些點分成任意的群組。當然,這個Φ {displaystylePhi }創建了線性獨立的向量,所以沒有協方差,可以像在線性PCA中那樣明確進行eigendecomposition。
相反,在核PCA中,一個非瑣碎的、任意的Φ {\Displaystyle \Phi }函數是從未明確計算的,允許使用非常高維的Φ {\Displaystyle \Phi }的可能性。如果我們從來不需要實際評估該空間中的數據,就可以使用非常高維的Φ {displaystylePhi }。由于我們通常會盡量避免在Φ {displaystylePhi }中工作,我們將其稱為 "空間"。
這代表了其他難以處理的特征空間的內積空間(見格拉姆矩陣)。在創建內核時出現的對偶形式使我們能夠在數學上制定一個PCA的版本,其中我們從未實際解決Φ ( x ) {displaystylePhi ( mathbf {x} )}空間中協方差矩陣的特征向量和特征值(見內核技巧)。K的每一列中的N個元素代表了轉換后的數據的一個點相對于所有轉換后的點(N個點)的點積。一些著名的核在下面的例子中顯示。
由于我們從來沒有直接在特征空間中工作,PCA的核式計算受到了限制,因為它計算的不是主成分本身,而是數據在這些成分上的投影。為了評估從特征空間的一個點Φ ( x ) { displaystyle Phi (mathbf {x} )}到第k個主成分V k { displaystyle V{k}}的投影。
我們注意到,Φ ( x i ) T Φ ( x ) {displaystylePhi (mathbf {x_{i}} ){T}Phi (mathbf {x} )}表示點積,這只是內核K的元素 {displaystyle K} 。似乎剩下的就是計算和歸一化a i k {a_{i}} {displaystyle mathbf {x}}。{k}},這可以通過解決特征向量方程來完成
其中N是集合中的數據點的數量,λ {displaystyle lambda }和a {displaystyle mathbf {a}是特征值。}是K {displaystyle K}的特征值和特征向量。然后,為了使特征向量a k { {displaystyle mathbf {a} {k}}歸一化,我們要求將特征向量a k { {displaystyle mathbf {a} {k}}歸一化。
必須注意的是,無論x {displaystyle x}在其原始空間中是否具有零均值,它都不能保證在特征空間中居中(我們從未明確計算過)。由于居中的數據是進行有效的主成分分析所必需的。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/192960/