• 過度擬合

    編輯
    本詞條由“匿名用戶” 建檔。

    什么是過度擬合

    編輯

    在統計中,過度擬合是“過于緊密或精確地對應于特定數據集的分析結果,因此可能無法擬合其他數據或可靠地預測未來的觀察結果”。一種過度擬合模型是一個統計模型包含多個參數比可以由數據是合理的。過度擬合的本質是在不知不覺中提取了一些殘余變化(即噪聲),好像該變化代表了基礎模型結構一樣。

    換句話說,該模型記住了大量示例,而不是學習注意特征

    當統計模型無法充分捕獲數據的基礎結構時,就會發生欠擬合。一個欠擬合模型就是將出現在正確指定的模型某些參數或術語缺少的典范。例如,當將線性模型擬合到非線性數據時,會發生擬合不足。這樣的模型往往具有較差的預測性能

    特別是在機器學習中,過度擬合和欠擬合可能會發生。在機器學習中,這種現象有時稱為“過度訓練”和“訓練不足”。

    存在過度擬合的可能性,因為用于選擇模型的標準與用于判斷模型的適用性的標準不同。例如,可以通過最大化模型在某些訓練數據集上的性能來選擇模型,但是其適用性可能取決于它在看不見的數據上表現良好的能力;然后,當模型開始“記憶”訓練數據而不是“學習”從趨勢進行概括時,就會發生過度擬合。

    過度擬合

    作為一個極端的例子,如果參數的數量等于或大于觀察值的數量,則模型可以簡單地通過完整地記住數據來完美地預測訓練數據。但是,這樣的模型在進行預測時通常會嚴重失效。

    過度擬合的可能性不僅取決于參數和數據的數量,還取決于模型結構與數據形狀的一致性,以及與預期的噪聲或數據誤差水平相比模型誤差的大小。即使擬合模型沒有過多的參數,也可以預期,擬合關系在新數據集上的表現將比在擬合數據集上的表現差(有時會出現這種現象稱為收縮)。特別地,確定系數的值將相對于原始數據縮小。

    為了減少過度擬合的機會或過度擬合的數量,可以使用幾種技術(例如,模型比較、交叉驗證、正則化、提早停止、修剪、貝葉斯先驗或輟學)。

    一些技術的基礎是(1)顯式懲罰過于復雜的模型,或者(2)通過在未用于訓練的一組數據上評估其性能來測試模型的概括能力,假定該數據近似于典型的看不見的數據模型會遇到的問題。

    統計推斷

    編輯

    在統計中,統計模型中得出推論,該模型通過某種過程選擇伯納姆&安德森(Burnham&Anderson)在其關于模型選擇的引文中認為,為避免過度擬合,我們應堅持“簡約原則”。作者還聲明以下內容。

    過度擬合的模型…通常在參數估計器中沒有偏差,但是估計(和實際)的采樣方差不必要地很大(相對于使用更簡化的模型可以實現的估計量、估計器的精度很差)。往往會發現錯誤的處理效果,并且過擬合模型中包含錯誤的變量。…通過適當地平衡欠擬合和過擬合的誤差,可以獲得最佳的近似模型。

    當幾乎沒有可用的理論來指導分析時,過度擬合可能會成為一個嚴重的問題,部分原因是因為那時傾向于從大量模型中進行選擇。《模型選擇和模型平均》(2008)一書就是這樣寫的。

    有了一個數據集,您只需按一下按鈕就可以適應數千個模型,但是如何選擇最佳模型呢?對于這么多候選模型,過度擬合是一個真正的危險。打哈姆雷特的猴子真的是個好作家嗎?

    回歸

    在回歸分析中,過度擬合經常發生。作為一個極端的例子,如果有p的變量中一個線性回歸用p個數據點,所述擬合線可以去精確地通過每一個點。對于logistic回歸或Cox比例風險模型,有多種經驗法則(例如5–9 、10和10–15—每個獨立變量10次觀察的準則是被稱為“十分之一的規則”)。在選擇回歸模型的過程中,可以將隨機回歸函數的均方誤差分解為隨機噪聲,近似偏差和回歸函數估計中的方差。偏差-方差折衷通常用于克服過擬合模型。

    使用大量實際上與預測的因變量無關的解釋變量,通常會錯誤地發現某些變量具有統計意義,因此研究人員可能會將其保留在模型中,從而使模型過擬合。這就是所謂的弗里德曼悖論。

    機器學習

    通常,使用一組“訓練數據”來訓練學習算法:已知輸出的示例性情況。目的是當算法在訓練期間未遇到的“驗證數據”被饋入時,該算法在預測輸出時也將表現良好。

    過度擬合是指使用違反Occam剃刀的模型或程序,例如,通過包含比最終最優的參數更多的可調整參數,或通過使用比最終最優的更為復雜的方法。對于可調參數太多的示例,請考慮一個數據集,其中可以通過兩個獨立變量的線性函數充分預測y的訓練數據。這樣的函數僅需要三個參數(截距和兩個斜率)。用一個新的,更復雜的二次函數或一個新的,更復雜的線性函數替換兩個以上的自變量來替換此簡單函數會帶來風險:Occam的剃刀意味著任何給定的復雜函數都是先驗的比任何給定的簡單函數都不太可能。如果選擇新的,更復雜的功能而不是簡單的功能,并且如果訓練數據擬合中沒有足夠大的增益來抵消復雜性的增加,則新的復雜函數將“過度擬合”數據,而復雜的則過度擬合函數對訓練數據集外部的驗證數據的性能可能會比簡單函數差,即使復雜的功能在訓練數據集上也表現得更好甚至更好。

    在比較不同類型的模型時,不能僅通過計算每個模型中存在多少參數來衡量復雜性。還必須考慮每個參數的表達能力。例如,將具有m個參數的神經網絡(可以跟蹤曲線關系)直接與具有n個參數的回歸模型進行比較是很重要的。

    在學習時間過長或訓練實例很少的情況下,過度擬合尤其可能導致學習者適應訓練數據的非常具體的隨機特征,而這些隨機特征與目標功能沒有因果關系。在過度擬合的過程中,訓練示例的性能仍然會提高,而看不見數據的性能會變得更差。

    作為一個簡單的示例,請考慮零售購買的數據庫,其中包括購買的商品,購買者以及購買日期和時間。通過使用購買日期和時間來預測其他屬性,可以很容易地構建一個完全適合訓練集的模型,但是該模型根本不會推廣到新數據,因為過去的時間將不再發生。

    通常,如果一種學習算法在擬合已知數據時更準確(事后知會),而在預測新數據時則不那么準確(事后預測),則相對于一種更簡單的學習算法來說過擬合。一個人可以從以下事實中直觀地了解過度擬合的事實:過去的所有經驗信息可以分為兩類:與未來相關的信息和不相關的信息(“噪聲”)。在其他所有條件都相同的情況下,準則越難以預測(即不確定性越高),過去的信息中存在的噪聲越多,需要忽略。問題在于確定要忽略的部分。可以減少擬合噪聲的機會的學習算法稱為“健壯”。

    后果

    過度擬合的最明顯結果是驗證數據集的性能不佳。其他負面后果包括:

    • 與最佳函數相比,過度擬合的函數可能會請求有關驗證數據集中每個項目的更多信息;收集這些額外的不需要的數據可能是昂貴的或容易出錯的,特別是如果必須通過人工觀察和手動數據輸入來收集每條單獨的信息的話。
    • 比起簡單的功能,更復雜,過度擬合的功能可能不太容易移植。在一個極端情況下,單變量線性回歸非常方便,以至于必要時甚至可以手動完成。在另一個極端是只能通過完全復制原始建模者的整個設置才能復制模型,從而使重用或科學復制變得困難。

    補救措施

    最佳功能通常需要在更大或全新的數據集上進行驗證。但是,有一些方法,例如最小生成或相關性的生存時間,它們會應用相關系數和時間序列(窗口寬度)之間的相關性。只要窗口寬度足夠大,相關系數就會穩定,不再依賴于窗口寬度大小。因此,可以通過計算研究變量之間的相關系數來創建相關矩陣。該矩陣可以在拓撲上表示為復雜的網絡,其中可以直觀顯示變量之間的直接和間接影響。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/114919/

    (9)
    詞條目錄
    1. 什么是過度擬合
    2. 統計推斷
    3. 回歸
    4. 機器學習
    5. 后果
    6. 補救措施

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久