• 泄漏(機器學習)

    編輯
    本詞條由“匿名用戶” 建檔。

    泄漏(機器學習)

    編輯

    在統計學和機器學習中,泄漏(也稱為數據泄漏或目標泄漏)是指在模型訓練過程中使用了預計在預測時不會出現的信息,導致預測分數(指標)在生產環境中運行時高估了模型的效用。泄漏往往是微妙和間接的,因此很難檢測和消除。泄漏可能導致統計員或建模者選擇一個次優模型,而這個模型可能被無泄漏的模型所勝過。

    泄漏模式

    編輯

    泄漏可能發生在機器學習過程中的許多步驟。泄漏原因可以細分為模型的兩個可能的泄漏源:特征和訓練實例。

    特征泄漏

    編輯

    特征或列式泄漏是由包含以下之一的列引起的:重復的標簽、標簽的代理、或標簽本身。這些被稱為不合時宜的特征,在模型用于預測時將不可用,如果在模型訓練時包含這些特征就會導致泄漏。例如,在預測YearlySalary時包括MonthlySalary列;或在預測IsLate時包括MinutesLate;或在預測ShouldGiveLoan時包括更巧妙的NumOfLatePayments。

    訓練實例泄漏

    編輯

    行間泄漏是由數據行間不適當的信息共享造成的。行間泄漏的類型包括。過早的特征化;CV/訓練/測試分割前過早的特征化造成的泄漏(必須只在訓練分割上擬合MinMax/ngrams/等,然后轉換測試集)訓練/驗證/測試之間的重復行(例如,在分割前對數據集進行過度采樣以擴大其規模;例如,一張圖片的不同旋轉/增強;分割前的引導采樣;或重復行以增加少數類的采樣)非i。i.d.數據時間泄漏(例如,隨機分割時間序列數據集,而不是在測試集中使用TrainTest分割或滾動原點交叉驗證的較新數據)組別泄漏--不包括分組分割列(例如,AndrewNg的小組有30k病人的100kX-rays,意味著每個病人約3張圖像。

    機器學習

    該論文使用了隨機分割,而不是確保一個病人的所有圖像都在同一個分割中。因此,該模型部分記憶了病人,而不是學習識別胸部X光片中的肺炎。)對于時間相關的數據集,被研究的系統結構會隨著時間的推移而變化(即它是非平穩的)。這可以在訓練集和驗證集之間引入系統差異。例如,如果一個預測股票價值的模型是在某個五年期的數據上訓練出來的,那么將隨后的五年期視為從同一群體中抽取的數據是不現實的。再比如,假設開發了一個模型來預測個人在未來一年內被診斷出患有某種疾病的風險。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175738/

    (4)
    詞條目錄
    1. 泄漏(機器學習)
    2. 泄漏模式
    3. 特征泄漏
    4. 訓練實例泄漏

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久