模式識別
編輯模式識別是對數據中模式和規律性的自動識別。它在統計數據分析、信號處理、圖像分析、信息檢索、生物信息學、數據壓縮、計算機圖形和機器學習中都有應用。模式識別起源于統計學和工程學;一些現代的模式識別方法包括使用機器學習,因為大數據的可用性增加和新的豐富的處理能力。這些活動可以被視為同一領域的兩個方面的應用,它們在過去幾十年中經歷了實質性的發展。模式識別系統通常從標記的訓練數據中進行訓練。當沒有標記的數據時,可以使用其他算法來發現以前未知的模式。KDD和數據挖掘更注重無監督的方法,并與商業用途有更強的聯系。模式識別更注重于信號,也考慮到了采集和信號處理。它起源于工程,這個詞在計算機視覺方面很流行:一個xxx的計算機視覺會議被命名為計算機視覺和模式識別會議。在機器學習中,模式識別是為給定的輸入值分配一個標簽。在統計學中,判別分析于1936年被引入,用于同一目的。模式識別的一個例子是分類,它試圖將每個輸入值分配到一組給定的類別中(例如,確定一個給定的電子郵件是否是垃圾郵件)。模式識別是一個更普遍的問題,也包括其他類型的輸出。其他的例子有:回歸,為每個輸入分配一個實值輸出;序列標記,為數值序列的每個成員分配一個類別(例如,語篇標記,為輸入句子中的每個詞分配一個語篇);以及解析,為輸入句子分配一個解析樹,描述句子的語法結構。模式識別算法通常旨在為所有可能的輸入提供一個合理的答案,并對輸入進行最可能的匹配,同時考慮到它們的統計變化。這與模式匹配算法相反,后者在輸入中尋找與預先存在的模式完全匹配的內容。模式匹配算法的一個常見例子是正則表達式匹配,它在文本數據中尋找給定的模式,包括在許多文本編輯器和文字處理器的搜索功能中。
模式識別的概述
編輯模式識別的一個現代定義是。模式識別領域關注的是通過使用計算機算法自動發現數據中的規律性,并利用這些規律性來采取行動,如將數據分為不同類別。模式識別一般根據用于生成輸出值的學習程序的類型進行分類。監督學習假定已經提供了一組訓練數據(訓練集),由一組實例組成,這些實例已經被正確地手工標記為正確的輸出。然后,一個學習程序生成一個模型,試圖滿足兩個有時相互沖突的目標。在訓練數據上盡可能好地執行,并盡可能好地概括到新的數據上(通常,這意味著盡可能簡單,根據奧卡姆剃刀的一些技術定義,下面討論)。另一方面,無監督學習假定訓練數據沒有被手工標記,并試圖在數據中找到固有的模式,然后可以用來確定新數據實例的正確輸出值。兩者的結合已經被探討過了,那就是半監督學習,它使用標記的和未標記的數據的組合(通常是一小組標記的數據與大量未標記的數據相結合)。
在無監督學習的情況下,可能根本就沒有訓練數據。有時,不同的術語被用來描述同一類型輸出的相應監督和無監督學習程序。無監督分類的等同物通常被稱為聚類,基于對該任務的普遍看法,即不涉及任何訓練數據,并根據一些固有的相似性措施(如實例之間的距離,被視為多維向量空間中的向量)將輸入數據分組,而不是將每個輸入實例分配到一組預先定義的類中。在一些領域,術語是不同的。在群落生態學中,分類這一術語被用來指代通常所說的聚類。產生輸出值的輸入數據片段正式稱為實例。實例在形式上被描述為
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175876/