場景文本

編輯

場景文本是出現在戶外環境中由相機拍攝的圖像中的文本。從相機拍攝的圖像中檢測和識別場景文本是計算機視覺任務，在帶有良好攝像頭的智能手機變得無處不在之后，這項任務變得非常重要。場景圖像中的文字在形狀、字體、顏色和位置上都有所不同。場景文本的識別有時會因為不均勻的光照和聚焦而變得更加復雜。為了提高場景文本識別，國際文檔分析和識別會議（ICDAR）每兩年舉行一次強大的閱讀競賽。該競賽在2003年、2005年和每屆ICDAR會議期間舉行。國際模式識別協會（IAPR）已經創建了一個數據集清單作為閱讀系統。

文本檢測

編輯

文本檢測是檢測圖像中存在的文本的過程，然后用一個矩形邊界框將其包圍。文本檢測可以使用基于圖像的技術或基于頻率的技術來進行。在基于圖像的技術中，一個圖像被分割成多個片段。每個區段都是具有相似特征的像素的連接組件。利用連接組件的統計特征對它們進行分組并形成文本。機器學習方法，如支持向量機和卷積神經網絡，被用來將組件分類為文本和非文本。在基于頻率的技術中，離散傅里葉變換（DFT）或離散小波變換（DWT）被用來提取高頻系數。假設圖像中的文本具有高頻成分，只選擇高頻系數就可以將文本從圖像的非文本區域中過濾出來。

計算機視覺領域

字詞識別

編輯

在字詞識別中，假定文本已經被檢測和定位，并且包含文本的矩形邊界框是可用的。邊界框內的字需要被識別。可用來進行單詞識別的方法大致可分為自上而下和自下而上的方法。在自上而下的方法中，一組來自字典的單詞被用來識別適合給定圖像的單詞。在大多數這些方法中，圖像都沒有被分割。因此，自上而下的方法有時被稱為無分割識別。在自下而上的方法中，圖像被分割成多個部分，分割后的圖像被傳遞給識別引擎。無論是現成的光學字符識別（OCR）引擎還是自定義訓練的引擎，都被用來識別文本。

內容由匿名用戶提供，本內容不代表www.gelinmeiz.com立場，內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載，請注明出處：http://www.gelinmeiz.com/174625/

場景文本

目錄

場景文本

文本檢測

字詞識別