決策樹修剪
編輯修剪是機器學習和搜索算法中的一種數據壓縮技術,它通過刪除決策樹中非關鍵和多余的部分來減少對實例的分類。修剪減少了最終分類器的復雜性,從而通過減少過擬合來提高預測精度。決策樹算法中出現的一個問題是最終樹的最佳大小。一棵太大的樹有可能過度擬合訓練數據,對新樣本的概括性也很差。一棵小樹可能無法捕捉到關于樣本空間的重要結構信息。然而,很難說樹形算法何時應該停止,因為無法判斷增加一個額外的節點是否會xxx降低誤差。這個問題被稱為"水平線效應"。一個常見的策略是增長樹,直到每個節點包含少量的實例,然后使用修剪來刪除不提供額外信息的節點。修剪應該減少學習樹的大小,而不減少交叉驗證集所衡量的預測準確性。有許多樹的修剪技術,它們在用于優化性能的測量方面有所不同。
決策樹修剪的技術
編輯修剪過程可以分為兩種類型(前修剪和后修剪)。預修剪程序通過替換歸納算法中的停止()準則(如xxx值)來防止訓練集的完全歸納。樹深或信息增益(Attr)>minGain)。預修剪方法被認為是更有效的,因為它們不誘導整個集合,而是從一開始就保持小樹。預修剪方法有一個共同的問題,即水平線效應。這可以理解為停止()準則對誘導的不希望的過早終止。后修剪(或只是修剪)是簡化樹的最常見的方法。在這里,節點和子樹被替換成葉子,以減少復雜性。修剪不僅可以xxx減少尺寸,還可以提高未見對象的分類精度。可能會出現這樣的情況:訓練集上的賦值準確度變差,但樹的分類屬性的準確度總體上會提高。這些程序是根據它們在樹中的方法(自上而下或自下而上)來區分的。自下而上的修剪這些程序從樹上的最后一個節點(最低點)開始。循序漸進地向上,他們確定每個單獨節點的相關性。如果沒有給出分類的相關性,該節點將被刪除或被葉子取代。這種方法的優點是不會丟失相關的子樹。這些方法包括減少錯誤修剪(REP)、最小成本復雜度修剪(MCCP)或最小錯誤修剪(MEP)。
自上而下的修剪
編輯與自下而上的方法相比,這種方法從樹的根部開始。按照下面的結構,進行相關性檢查,決定一個節點是否與所有n個項目的分類有關。通過在內部節點上修剪樹,可能會發生整個子樹(無論其相關性如何)被放棄的情況。其中一個代表是悲觀的錯誤修剪(PEP),它對未見過的項目帶來相當好的結果。
修剪算法
編輯減少錯誤修剪最簡單的修剪形式之一是減少錯誤修剪。從葉子開始,每個節點都被替換成其最受歡迎的類別。如果預測的準確性不受影響,那么就保留這個變化。雖然有些天真,但減少誤差的修剪具有簡單和快速的優勢。
成本復雜度修剪
編輯成本復雜度修剪產生了一系列的樹{displaystylei-1}中的一個子樹,并將其替換為具有在建樹算法中選擇的值的葉子節點。并用一個葉子節點代替它,其值與建樹算法中選擇的一樣。被移除的子樹的選擇如下。定義樹T的錯誤率{displaystyleT}在數據集上的錯誤率{displaystyleoperatorname{prune}(T,t)}定義了通過修剪得到的樹。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175567/