• 特征工程

    編輯
    本詞條由“匿名用戶” 建檔。

    特征工程

    編輯

    特征工程特征提取或特征發現是利用領域知識從原始數據中提取特征(特性、屬性、屬性)的過程。其動機是利用這些額外的特征來提高機器學習過程的結果的質量,而不是只提供原始數據給機器學習過程。

    特征工程的過程

    編輯

    特征工程的過程是。

    集思廣益或測試特征

    編輯

    決定創建什么特征創建特征測試確定的特征對任務的影響如果需要的話,改進你的特征重復典型的工程化特征以下列表提供了一些典型的工程化有用特征的方法數值轉換(如取分數或縮放)類別編碼器,如one-hot或目標編碼器(用于分類數據)聚類小組聚集值主成分分析(用于數值數據)特征構建:構建與問題相關的新的物理、知識參數。例如,在物理學中,構建無尺寸的數字,如流體力學中的雷諾數,熱傳導中的努塞爾數,沉積中的阿基米德數,構建解決方案的xxx近似值,如力學中的材料強度分析解決方案,等等。相關性特征的重要性各不相同。即使是相對不重要的特征也可能對一個模型有所貢獻。特征選擇可以減少特征的數量,以防止模型對訓練數據集變得過于特殊過度擬合)。

    特征工程的爆炸

    編輯

    當識別的特征數量不適當地增長時,就會發生特征爆炸。常見的原因包括。特征模板--實施特征模板而不是編碼新的特征特征組合--不能用線性系統表示的組合特征爆炸可以通過以下技術加以限制:正則化、內核方法和特征選擇。

    自動化

    編輯

    特征工程的自動化是一個可以追溯到1990年代的研究課題。自2016年以來,包含自動化特征工程的機器學習軟件已經投入商業使用。相關的學術文獻可以大致分為兩種類型。多關系決策學習(MRDTL)使用類似于決策樹的監督算法。深度特征合成使用更簡單的方法。多關系決策樹學習(MRDTL)MRDTL通過向查詢中連續添加子句,以SQL查詢的形式生成特征。然而,大多數MRDTL的研究是基于關系數據庫的實現,這導致了許多冗余的操作。這些冗余的操作可以通過使用元組ID傳播等技術來減少。效率可以通過使用增量更新來提高,這就消除了冗余。

    開源實現

    編輯

    有許多開源的庫和工具可以實現關系數據和時間序列的特征工程自動化。featuretools是一個Python庫,用于將時間序列和關系數據轉化為機器學習的特征矩陣。OneBM或一鍵式機器將關系數據上的特征轉化和特征選擇與特征選擇技術相結合。[OneBM]幫助數據科學家減少數據探索時間,允許他們在短時間內嘗試和錯誤許多想法。另一方面,它使不熟悉數據科學的非專業人士能夠以少量的努力、時間和成本迅速從數據中提取價值。getML社區是一個開源的工具,用于在時間序列和關系數據上進行自動特征工程。它是用C/C++語言實現的,有一個Python接口。

    特征工程

    它已被證明比tsflex、tsfresh、tsfel、featuretools或kats至少快60倍。tsfresh是一個用于時間序列數據特征提取的Python庫。它使用假設檢驗來評估特征的質量。tsflex是一個開源的Python庫,用于從時間序列數據中提取特征。盡管xxx由Python編寫,但它已被證明比tsfresh、seglearn或tsfel更快、更節省內存。seglearn是scikitlearnPython庫的一個多變量、連續時間序列數據的擴展。kats是一個用于分析時間序列數據的Python工具包。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175632/

    (2)
    詞條目錄
    1. 特征工程
    2. 特征工程的過程
    3. 集思廣益或測試特征
    4. 特征工程的爆炸
    5. 自動化
    6. 開源實現

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久