模式識別的先驗知識
編輯模式識別是一個非常活躍的研究領域,與機器學習緊密相連。模式識別也被稱為分類或統計分類,其目的是建立一個分類器,以確定輸入模式的類別。這個過程被稱為訓練,相當于只根據一組輸入-輸出對學習一個未知的決策函數構成訓練數據(或訓練集)。盡管如此,在現實世界的應用中,如字符識別,通常事先就知道一定數量的問題信息。將這些先驗知識納入訓練是在許多應用中能夠提高性能的關鍵因素。
先驗知識
編輯先驗知識指的是除了訓練數據之外的所有關于問題的信息。然而,在這種最一般的形式下,在沒有先驗知識的情況下,從有限的樣本集中確定一個模型是一個不理想的問題,即一個獨特的模型可能不存在。許多分類器包含了一般的平穩性假設,即與訓練樣本之一相似的測試模式往往被分配到同一類別。先驗知識在機器學習中的重要性是由其在搜索和優化中的作用提出的。寬泛地說,沒有免費的午餐定理指出,所有的搜索算法在所有的問題上都有相同的平均性能,因此意味著要在某個應用上獲得性能,必須使用一個專門的算法,其中包括一些關于該問題的先驗知識。現在將模式識別中遇到的不同類型的先驗知識重新歸納為兩大類:類的不變性和關于數據的知識。
類的不變性
編輯在模式識別中,一種非常常見的先驗知識類型是類(或分類器的輸出)對輸入模式的轉變的不變性。這種類型的知識被稱為變換不變性。在圖像識別中使用最多的變換是。納入對變換的不變性{displaystyletheta=0},所以局部不變性也可以考慮以θ=0為中心的變換。在這些方程中可以是分類器的決策函數,也可以是其實值輸出。另一種方法是考慮相對于輸入空間的一個域的類不變性,而不是一個轉換。在這種情況下,問題變成了尋找在模式識別中發現的另一種類型的類不變性是變異不變性,即類對結構化輸入中元素的變異的不變性。這種類型的先驗知識的一個典型應用是分類器對矩陣輸入的行的排列的不變性。
數據知識
編輯比類不變性更具體的其他形式的先驗知識涉及到數據,因此對現實世界的應用特別感興趣。在收集數據時最常發生的三種特殊情況是。未標記的樣本可用于假定的類成員;由于某類樣本的比例較高而導致訓練集的不平衡;數據的質量可能因樣本而異。如果在學習中包含這些先驗知識,可以提高識別的質量。此外,不考慮一些數據的質量差或類別之間的巨大不平衡會誤導分類器的決定。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175897/