• 過度擬合

    編輯
    本詞條由“匿名用戶” 建檔。

    過度擬合

    編輯

    在數學建模中,過度擬合是指產生的分析結果與一組特定的數據過于接近或完全對應,因此可能無法擬合其他數據或可靠地預測未來的觀察結果。過度擬合模型是指一個數學模型所包含的參數多于數據所能證明的。過度擬合的本質是在不知不覺中提取了一些殘余變異(即噪聲),好像這些變異代表了潛在的模型結構。當一個數學模型不能充分捕捉到數據的基本結構時,就會發生欠擬合。擬合不足的模型是指在一個正確指定的模型中會出現的一些參數或條款缺失的模型。例如,當對非線性數據進行線性模型擬合時,就會出現欠擬合的情況。這樣的模型往往會有很差的預測性能。過度擬合的可能性之所以存在,是因為用于選擇模型的標準與用于判斷模型是否合適的標準不一樣。例如,一個模型可能是通過在某組訓練數據上的性能最大化來選擇的,然而它的適合性可能是由它在未見過的數據上的性能決定的;那么,當一個模型開始記憶訓練數據而不是學習從趨勢中歸納時,就會出現過度擬合。作為一個極端的例子,如果參數的數量與觀察值的數量相同或更多,那么一個模型僅僅通過記憶全部的數據就可以完美地預測訓練數據。(見圖2。)不過,這樣的模型在進行預測時通常會嚴重失敗。過度擬合的可能性不僅取決于參數和數據的數量,而且還取決于模型結構與數據形狀的一致性,以及與數據中預期的噪聲或誤差水平相比,模型誤差的大小。即使擬合的模型沒有過多的參數,可以預見的是,擬合關系在新的數據集上的表現將不如在用于擬合的數據集上的表現(這種現象有時被稱為縮減)。特別是,相對于原始數據而言,決定系數的值會縮減。為了減少過擬合的機會或數量,有幾種技術可用(例如,模型比較、交叉驗證、正則化、早期停止、修剪、貝葉斯先驗或剔除)。一些技術的基礎是:(1)明確懲罰過于復雜的模型,或者(2)通過評估模型在一組未用于訓練的數據上的表現來測試模型的泛化能力,這些數據被認為是模型將遇到的典型的未見過的數據。

    統計推斷

    編輯

    在統計學中,推斷來自一個統計模型,該模型是通過一些程序選擇的。Burnham和Anderson在他們被廣泛引用的關于模型選擇的文章中認為,為了避免過度擬合,我們應該堅持Parsimony原則。作者還說到過度擬合的模型......在參數估計中往往沒有偏差,但其估計的(和實際的)抽樣方差卻不必要地大(相對于用一個更簡明的模型所能達到的精度,估計的精度很差)。虛假的治療效果往往會被識別出來,而虛假的變量則被包含在過度擬合的模型中。通過適當平衡欠擬合和過度擬合的誤差,可以得到一個最佳近似模型。當沒有什么理論可以指導分析時,過擬合更有可能成為一個嚴重的問題,部分原因是那時往往有大量的模型可以選擇。模型選擇和模型平均化》一書(2008)是這樣說的。給定一個數據集,按一下按鈕就可以擬合數千個模型,但如何選擇xxx的?

    欠擬合和過擬合

    有了這么多候選模型,過度擬合是一個真正的危險。打出哈姆雷特的猴子實際上是個好作家嗎?回歸在回歸分析中,過度擬合經常發生。作為一個極端的例子,如果線性回歸中有p個變量,有p個數據點,那么擬合線可以完全穿過每個點。對于邏輯回歸或Cox比例危險模型,有各種經驗法則(如5-9、10和10-15--每個自變量有10個觀測值的準則被稱為十進一法則)。在回歸模型的選擇過程中,隨機回歸函數的平均平方誤差可以分成隨機噪聲、近似偏差和回歸函數的估計方差。偏差-方差的權衡常常被用來克服過擬合模型。在一大批實際上與被預測的因變量沒有關系的解釋變量中,一般來說,有些變量會被錯誤地發現具有統計學意義,而

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175867/

    (1)
    詞條目錄
    1. 過度擬合
    2. 統計推斷

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久