實例選擇
編輯實例選擇(或數據集縮減,或數據集濃縮)是一個重要的數據預處理步驟,可以應用于許多機器學習(或數據挖掘)任務。實例選擇的方法可以用于將原始數據集減少到一個可管理的容量,從而減少執行學習過程所需的計算資源。在應用學習算法之前,實例選擇的算法也可以用于去除噪聲實例。這個步驟可以提高分類問題的準確性。實例選擇算法應該確定全部可用數據的一個子集,以實現數據挖掘(或機器學習)應用的最初目的,就像使用了全部數據一樣。考慮到這一點,IS的最佳結果將是能夠完成相同任務的最小數據子集,與使用全部可用數據執行任務時的性能相比,沒有任何性能損失。因此,每個實例選擇策略都應該處理好數據集的減少率和分類質量之間的權衡。
實例選擇算法
編輯文獻為實例選擇提供了幾種不同的算法。它們可以根據幾個不同的標準相互區分。考慮到這一點,實例選擇算法可以根據它們選擇的實例分為兩大類:保留類的邊界的實例的算法和保留類的內部實例的算法。在選擇邊界上的實例的算法類別中,可以舉出DROP3、ICF和LSBo。另一方面,在選擇內部實例的算法類別中,有可能提到ENN和LSSm。一般來說,像ENN和LSSm這樣的算法是用來從數據集中去除有害(嘈雜)的實例。它們并不像選擇邊界實例的算法那樣減少數據,而是刪除邊界上對數據挖掘任務有負面影響的實例。它們可以被其他實例選擇算法使用,作為一個過濾步驟。例如,ENN算法被DROP3作為xxx步使用,LSSm算法被LSBo使用。還有另一組算法采用不同的選擇標準。例如,LDIS、CDIS和XLDIS算法在一個給定的任意鄰域中選擇最密集的實例。
選擇的實例可以包括邊界和內部實例。LDIS和CDIS算法非常簡單,選擇的子集對原始數據集非常有代表性。此外,由于它們分別搜索每一類中具有代表性的實例,它們比其他算法,如DROP3和ICF更快(就時間復雜度和有效運行時間而言)。除此之外,還有第三類算法,它們不選擇數據集的實際實例,而是選擇原型(可以是合成實例)。在這個類別中,有可能包括PSSA、PSDSP和PSSP。這三種算法采用空間分割(超矩形)的概念來識別類似的實例,并為每一組類似的實例提取原型。一般來說,這些方法也可以被修改,用于選擇數據集的實際實例。ISDSP算法采用了類似的方法來選擇實際的實例(而不是原型)。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175697/