• 維度的詛咒

    編輯
    本詞條由“匿名用戶” 建檔。

    維度的詛咒

    編輯

    維度的詛咒指的是在高維空間中分析和組織數據時出現的各種現象,這些現象在低維環境中不會出現,例如日常經驗的三維物理空間。這一表述是理查德-E-貝爾曼在考慮動態編程中的問題時創造的。在數值分析、抽樣、組合學、機器學習、數據挖掘和數據庫等領域都會出現維度詛咒的現象。這些問題的共同主題是,當維度增加時,空間的體積迅速增加,以至于可用的數據變得稀少。為了獲得一個可靠的結果,所需的數據量往往隨著維度的增加而呈指數級增長。另外,組織和搜索數據往往依賴于檢測對象形成具有相似屬性的群體的區域;然而,在高維數據中,所有的對象似乎都是稀疏的,而且在許多方面都不相似,這使得普通的數據組織策略無法有效地進行。

    維度的詛咒的領域

    編輯

    組合學在一些問題中,每個變量可以取幾個離散的值之一,或者可能的值的范圍被劃分為有限數量的可能性。把這些變量放在一起,必須考慮大量的數值組合。這種效應也被稱為組合爆炸。即使在最簡單的情況下{displaystyled}的最簡單的情況下二元變量的最簡單情況下,可能的組合數量已經是,在維度上是指數級的。直觀地說,每增加一個維度,嘗試所有組合所需的努力就會增加一倍。

    維度的詛咒的采樣

    編輯

    在一個數學空間中增加額外的維度,體積會呈指數級增長。例如,102=100個均勻分布的樣本點足以對一個單位區間(一維立方體)進行采樣,各點之間的距離不超過10-2=0.01;對一個10維單位超立方體進行等效采樣,其格子的相鄰點之間的間距為10-2=0.01,需要1020=[(102)10]樣本點。一般來說,在間隔距離為10-n的情況下,10維超立方體似乎比1維超立方體(即單位間隔)大10n(10-1)=[(10n)10/(10n)]倍。在上面的例子中,n=2:當使用0.01的采樣距離時,10維超立方體似乎比單位區間大1018。這種效果是上面的組合學問題和下面解釋的距離函數問題的結合。

    維度的詛咒的優化

    編輯

    當通過數字后向歸納法解決動態優化問題時,必須對每個值的組合計算目標函數。當狀態變量的維度很大時,這是一個很大的障礙。

    機器學習

    編輯

    機器學習問題中,涉及到從高維特征空間的有限數量的數據樣本中學習自然狀態,每個特征都有一個可能的值范圍,通常需要大量的訓練數據以確保每個值的組合都有幾個樣本。在抽象的意義上,隨著特征或維度數量的增加,我們需要準確歸納的數據量也呈指數級增長。一個典型的經驗法則是,每個維度的表征至少要有5個訓練實例。在機器學習中,就預測性能而言,維度的詛咒與峰值現象交替使用,后者也被稱為休斯現象。這種現象表明,在固定數量的訓練樣本中,分類器或回歸器的平均(預期)預測能力首先會隨著所用維度或特征數量的增加而增加,但超過一定維度后,預測能力就會開始惡化,而不是穩步提高。

    高維空間

    然而,在一個簡單的分類器的背景下(在共同的已知協方差矩陣假設下的多元高斯模型中的線性判別分析),Zollanvari等人通過分析和經驗表明,只要一個額外的特征集(相對于已經成為分類器一部分的特征)的相對累積功效大于(或小于)這個額外特征集的大小,使用這些額外特征構建的分類器的預期誤差將小于(或大于)沒有這些特征的分類器的預期誤差。換句話說,在觀察平均預測能力的下降或上升時,額外特征的大小和它們(相對)的累積判別效果都很重要。

    數據挖掘

    編輯

    在數據挖掘中,維度的詛咒指的是一個有太多特征的數據集。考慮xxx個表格,它描述了200個個體和2000個基因(特征),用1或0表示他們是否有基因突變

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175550/

    (5)
    詞條目錄
    1. 維度的詛咒
    2. 維度的詛咒的領域
    3. 維度的詛咒的采樣
    4. 維度的詛咒的優化
    5. 機器學習
    6. 數據挖掘

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久