• 光學字符識別

    編輯
    本詞條由“匿名用戶” 建檔。

    光學字符識別

    編輯

    光學字符識別光學字符讀取器(OCR)是將打字,手寫或印刷的文本的圖像電子機械轉換為機器編碼的文本,無論是來自掃描的文檔,文檔的照片還是場景照片(例如,風景照片的標志廣告牌上的文字)或疊加在圖像上的字幕文字(例如電視廣播)。

    廣泛用作從打印紙質數據記錄中輸入數據的一種形式–是護照文件、發票、銀行對帳單、計算機收據、名片郵件、靜態數據的打印輸出,還是任何合適的文檔–這是一種數字化打印件的常用方法文本,以便可以對其進行電子編輯、搜索、更緊湊地存儲,在線顯示以及在機器過程中使用,例如認知計算、機器翻譯、(提取的)文本到語音、關鍵數據和文本挖掘。OCR是模式識別人工智能和計算機視覺領域的研究領域。

    光學字符識別

    早期版本需要使用每個字符的圖像進行訓練,并且一次只能使用一種字體。如今,能夠為大多數字體提供高度識別精度的高級系統已普遍使用,并且支持各種數字圖像文件格式輸入。一些系統能夠再現與原始頁面非常接近的格式化輸出,包括圖像,列和其他非文本組件。

    類型

    編輯
    • 光學字符識別(OCR)–一次針對打字的文本,一個字形或一個字符。
    • 光學單詞識別–以打字文本為目標,一次只能輸入一個單詞(對于使用空格作為單詞分隔符的語言)。(通常稱為“ OCR”。)
    • 智能字符識別(ICR)–一次也針對一個字形或字符的手寫印刷稿或草書文本,通常涉及機器學習
    • 智能單詞識別(IWR)–還針對手寫印刷稿或草書文本,一次只包含一個單詞。這對于在草書中未分隔字形的語言特別有用。

    OCR通常是一個“脫機”過程,用于分析靜態文檔。有基于云的服務,可提供在線OCR API服務。筆跡運動分析可以用作筆跡識別的輸入。該技術不僅可以使用字形和單詞的形狀,還可以捕獲運動,例如繪制段的順序,方向以及放下和抬起筆的方式。這些附加信息可以使端到端過程更加準確。該技術也被稱為“在線字符識別”、“動態字符識別”、“實時字符識別”和“智能字符識別”。

    技術

    編輯

    預處理

    OCR軟件通常會對圖像進行“預處理”,以提高成功識別的機會。技術包括:

    • 去歪斜??-如果掃描文檔時沒有正確對齊,則可能需要以順時針或逆時針方向傾斜幾度使文字完全水平或垂直的線。
    • 去斑??–去除正負點,平滑邊緣
    • 二值化–將圖像從彩色或灰度轉換為黑白(由于有兩種顏色,因此稱為“?二進制圖像?”)。二值化任務是將文本(或任何其他所需的圖像成分)與背景分離的簡單方法。二值化任務本身是必要的,因為大多數商業識別算法僅對二進制圖像起作用,因為事實證明這樣做更簡單。另外,二值化步驟的有效性在很大程度上影響字符識別階段的質量,并且在選擇給定輸入圖像類型的二值化時要做出謹慎的決定。因為用于獲得二進制結果的二值化方法的質量取決于輸入圖像的類型(掃描文檔、場景文本圖像、歷史退化文檔等)。
    • 去除線–清理非字形框和線
    • 布局分析或“分區” –將列、段落、標題等標識為不同的塊。在多列布局和表格中尤其重要。
    • 線和單詞檢測–建立單詞和字符形狀的基準,必要時將單詞分開。
    • 腳本識別–在多語言文檔中,腳本可能會在單詞級別發生變化,因此,在調用正確的OCR來處理特定腳本之前,必須對腳本進行識別。
    • 字符隔離或“分段” –對于每個字符的OCR,由于圖像偽影而連接的多個字符必須分開;必須將由于偽影而分成多個部分的單個字符連接起來。
    • 標準化寬高比和比例

    通過基于垂直網格線最不經常與黑色區域相交的位置將圖像對齊到均勻網格,可以相對簡單地完成固定間距字體的分割。對于比例字體,需要使用更復雜的技術,因為字母之間的空白有時可能大于單詞之間的空白,并且豎線可以相交多個字符。

    文字識別

    核心OCR算法有兩種基本類型,它們可以產生候選字符的排序列表。

    矩陣匹配包括將圖像與存儲的字形逐像素進行比較;它也被稱為“圖案匹配”、“ 圖案識別?”或“?圖像相關性?”。這取決于將輸入字形與圖像的其余部分正確隔離,并且取決于存儲的字形具有相似的字體和相同的比例。此技術最適合打字文本,當遇到新字體時效果不佳。這是早期基于物理光電管的OCR實施的技術,而不是直接實施的技術。

    特征提取將字形分解為“特征”,例如直線、閉環、直線方向和直線相交。提取功能降低了表示的維數,并使識別過程在計算上高效。將這些特征與字符的抽象矢量狀表示形式進行比較,這可能會簡化為一個或多個字形原型。計算機視覺中特征檢測的一般技術適用于這種類型的OCR,這在“智能”?手寫識別以及實際上大多數現代OCR軟件中很常見。最近鄰分類器,例如k最近鄰算法用于比較圖像特征與存儲的字形特征并選擇最接近的匹配。

    諸如Cuneiform和Tesseract之類的軟件使用兩遍方法進行字符識別。第二遍稱為“自適應識別”,它使用在xxx遍上以高可信度識別的字母形狀來更好地識別第二遍上的其余字母。這對于字體變形(例如模糊或褪色)的異常字體或低質量掃描很有用。

    諸如OCRopus或Tesseract之類的現代OCR軟件使用經過訓練的神經網絡來識別整個文本行,而不是專注于單個字符。

    OCR結果可以以標準化的ALTO格式存儲,這是美國國會圖書館維護的專用XML模式。其他常見格式包括hOCR和PAGE XML。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/107589/

    (2)
    詞條目錄
    1. 光學字符識別
    2. 類型
    3. 技術
    4. 預處理
    5. 文字識別

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久