目錄
數據增強
編輯數據分析中的數據增強是用來增加數據量的技術,方法是增加已經存在的數據的稍加修改的副本或從現有數據中新創建的合成數據。在訓練機器學習模型時,它可以充當正則器,幫助減少過擬合。它與數據分析中的超抽樣密切相關。
傳統機器學習的合成超采樣技術
編輯圖像分類的數據增強引入新的合成圖像如果一個數據集非常小,那么用旋轉和鏡像等方法增強的版本可能仍然不足以解決一個特定的問題。另一個解決方案是通過各種技術獲取全新的合成圖像,例如使用生成式對抗網絡來創建新的合成圖像以增加數據。此外,圖像識別算法在從虛擬環境中呈現的圖像轉移到真實世界的數據時顯示出改進。
信號處理的數據增強
編輯殘差或區塊引導法可用于時間序列的增強。
生物信號
編輯合成數據增強對于機器學習分類來說是最重要的,特別是對于生物數據來說,這些數據往往是高維和稀缺的。殘疾人和健全人的機器人控制和增強的應用仍然主要依賴于特定對象的分析。數據的稀缺性在信號處理問題中很明顯,如帕金森病肌電圖信號,這些信號的來源很困難--扎尼尼等人指出,可以使用生成對抗網絡(特別是DCGAN)來進行風格轉移,以生成與帕金森病患者表現出的信號相對應的合成肌電圖信號。這些方法在腦電圖(腦電波)中也很重要。Wang,等人探索了使用深度卷積神經網絡進行基于腦電的情感識別的想法,結果顯示,當使用數據增強時,情感識別得到了改善。還有人指出,OpenAI的GPT-2模型能夠學習和生成合成的生物信號,如EEG和EMG。在這項研究中,人們注意到,通過數據增強,識別率得到了提高。人們還注意到,在合成領域訓練的統計機器學習模型可以對人類數據進行分類,反之亦然。在圖片中,通過GPT-2模型產生的EEG和人腦的一些例子進行了比較。一個常見的方法是通過重新安排真實數據的組成部分來產生合成信號。Lotte提出了一種基于類比的人工試驗生成方法,其中三個數據例子.這種方法被證明可以提高線性判別分析分類器在三個不同數據集上的性能。
目前的研究表明,相對簡單的技術可以產生巨大的影響。例如,Freer觀察到,在收集的數據中引入噪聲以形成額外的數據點,提高了幾個模型的學習能力,否則這些模型的表現相對較差。Tsinganos等人研究了用于手勢識別的幅度扭曲、小波分解和合成表面EMG模型(生成方法)的方法,發現在訓練期間引入增強的數據時,分類性能可提高16%。最近,數據增強研究開始關注深度學習領域,更具體地說,生成模型創建人工數據的能力,然后在分類模型訓練過程中引入。2018年,Luo等人觀察到,有用的EEG信號數據可以由條件Wasserstein生成式對抗網絡(GANs)生成,然后在經典的訓練-測試學習框架中被引入訓練集。作者發現引入這種技術后,分類性能得到了提高。
機械信號
編輯基于數據增強的機械信號預測帶來了新一代的技術革新,如新能源調度、5G通信領域、機器人控制工程等。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175553/