什么是降維
編輯降維,或稱降維,是指將數據從高維空間轉換到低維空間,使低維表示保留原始數據的一些有意義的屬性,xxx是接近其固有維度。由于許多原因,在高維空間工作是不可取的;由于維度詛咒的結果,原始數據往往是稀疏的,而且分析數據通常在計算上是難以解決的(難以控制或處理)。降維在處理大量觀測數據和/或大量變量的領域很常見,如信號處理、語音識別、神經信息學和生物信息學。方法通常被分為線性和非線性方法。方法也可分為特征選擇和特征提取。降維可用于降噪、數據可視化、聚類分析,或作為中間步驟來促進其他分析。
特征選擇
編輯特征選擇方法試圖找到輸入變量的一個子集(也稱為特征或屬性)。這三種策略是:過濾策略(如信息增益)、包裹策略(如以準確性為指導的搜索)和嵌入策略(在建立模型時根據預測誤差添加或刪除所選特征)。諸如回歸或分類等數據分析可以在縮小的空間中比在原始空間中更準確地完成。
特征投射
編輯特征投射(也叫特征提取)將數據從高維空間轉換到一個較少維度的空間。數據轉換可能是線性的,如主成分分析(PCA),但也存在許多非線性降維技術。對于多維數據,張量表示可以通過多線性子空間學習用于降維。主成分分析(PCA)主要的線性降維技術,主成分分析,將數據線性映射到低維空間,其方式是使數據在低維表示中的方差最大化。在實踐中,數據的協方差(有時是相關)矩陣被構建出來,并計算出該矩陣的特征向量。與xxx特征值相對應的特征向量(主成分)現在可以用來重建原始數據方差的很大一部分。此外,前幾個特征向量往往可以用系統的大規模物理行為來解釋,因為它們往往貢獻了系統的絕大部分能量,特別是在低維系統中。盡管如此,這必須逐一證明,因為并非所有系統都表現出這種行為。原始空間(維度為點的數量)已被減少(有數據損失,但希望能保留最重要的方差)到由幾個特征向量跨越的空間。
非負矩陣分解(NMF)NMF將一個非負矩陣分解為兩個非負矩陣的乘積,這在只有非負信號存在的領域,如天文學,是一個很有前途的工具。自Lee&Seung的乘法更新規則以來,NMF已廣為人知,它得到了不斷的發展:包括不確定性,考慮缺失數據和并行計算,順序構造導致NMF的穩定性和線性,以及其他更新,包括處理數字圖像處理中的缺失數據。由于在構建過程中具有穩定的分量基礎,以及線性建模過程,順序NMF能夠在天文學中的環星結構直接成像中保持通量,作為探測系外行星的方法之一,特別是對于環星盤的直接成像。與PCA相比,NMF沒有去除矩陣的平均值,這就導致了不切實際的非負流量;因此NMF能夠比PCA保留更多的信息,正如Ren等人所證明的。
核子PCA
編輯主成分分析可以通過核子技巧以非線性方式使用。由此產生的技術能夠構建非線性映射,使數據的方差xxx化。由此產生的技術被稱為內核PCA。
基于圖的核PCA
編輯其他突出的非線性技術包括流形學習技術,如Isomap、局部線性嵌入(LLE)、HessianLLE、Laplacian特征圖,以及基于切線空間分析的方法。這些技術利用保留數據局部屬性的成本函數構建了一個低維數據表示,并可被視為為內核PCA定義了一個基于圖形的內核。最近,人們提出了一些技術,這些技術不是定義一個固定的核,而是試圖使用半透明的方法來學習核。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175576/