決策樹修剪

編輯

修剪是機器學習和搜索算法中的一種數據壓縮技術，它通過刪除決策樹中非關鍵和多余的部分來減少對實例的分類。修剪減少了最終分類器的復雜性，從而通過減少過擬合來提高預測精度。決策樹算法中出現的一個問題是最終樹的最佳大小。一棵太大的樹有可能過度擬合訓練數據，對新樣本的概括性也很差。一棵小樹可能無法捕捉到關于樣本空間的重要結構信息。然而，很難說樹形算法何時應該停止，因為無法判斷增加一個額外的節點是否會xxx降低誤差。這個問題被稱為"水平線效應"。一個常見的策略是增長樹，直到每個節點包含少量的實例，然后使用修剪來刪除不提供額外信息的節點。修剪應該減少學習樹的大小，而不減少交叉驗證集所衡量的預測準確性。有許多樹的修剪技術，它們在用于優化性能的測量方面有所不同。

決策樹修剪的技術

編輯

修剪過程可以分為兩種類型（前修剪和后修剪）。預修剪程序通過替換歸納算法中的停止（）準則（如xxx值）來防止訓練集的完全歸納。樹深或信息增益（Attr）>minGain）。預修剪方法被認為是更有效的，因為它們不誘導整個集合，而是從一開始就保持小樹。預修剪方法有一個共同的問題，即水平線效應。這可以理解為停止（）準則對誘導的不希望的過早終止。后修剪（或只是修剪）是簡化樹的最常見的方法。在這里，節點和子樹被替換成葉子，以減少復雜性。修剪不僅可以xxx減少尺寸，還可以提高未見對象的分類精度。可能會出現這樣的情況：訓練集上的賦值準確度變差，但樹的分類屬性的準確度總體上會提高。這些程序是根據它們在樹中的方法（自上而下或自下而上）來區分的。自下而上的修剪這些程序從樹上的最后一個節點（最低點）開始。循序漸進地向上，他們確定每個單獨節點的相關性。如果沒有給出分類的相關性，該節點將被刪除或被葉子取代。這種方法的優點是不會丟失相關的子樹。這些方法包括減少錯誤修剪（REP）、最小成本復雜度修剪（MCCP）或最小錯誤修剪（MEP）。

自上而下的修剪

編輯

與自下而上的方法相比，這種方法從樹的根部開始。按照下面的結構，進行相關性檢查，決定一個節點是否與所有n個項目的分類有關。通過在內部節點上修剪樹，可能會發生整個子樹（無論其相關性如何）被放棄的情況。其中一個代表是悲觀的錯誤修剪（PEP），它對未見過的項目帶來相當好的結果。

修剪算法

編輯

減少錯誤修剪最簡單的修剪形式之一是減少錯誤修剪。從葉子開始，每個節點都被替換成其最受歡迎的類別。如果預測的準確性不受影響，那么就保留這個變化。雖然有些天真，但減少誤差的修剪具有簡單和快速的優勢。

決策樹修剪

成本復雜度修剪

編輯

成本復雜度修剪產生了一系列的樹{displaystylei-1}中的一個子樹，并將其替換為具有在建樹算法中選擇的值的葉子節點。并用一個葉子節點代替它，其值與建樹算法中選擇的一樣。被移除的子樹的選擇如下。定義樹T的錯誤率{displaystyleT}在數據集上的錯誤率{displaystyleoperatorname{prune}(T,t)}定義了通過修剪得到的樹。

內容由匿名用戶提供，本內容不代表www.gelinmeiz.com立場，內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載，請注明出處：http://www.gelinmeiz.com/175567/

決策樹修剪

目錄

決策樹修剪

決策樹修剪的技術

自上而下的修剪

修剪算法

成本復雜度修剪