ocr文檔識别和表格識别的難點-tft每日頭條

大家好，今天兌觀科技小編又為大家分享檔案管理幹貨了，本篇分享主要内容為——紙質檔案數字複制件光學字符識别(OCR)工作規範篇三。

ocr文檔識别和表格識别的難點（紙質檔案數字複制件光學字符識别）1

7檔案OCR的實施

7.1 圖像導入

7.1.1 檔案OCR實施前，應當先評估紙質檔案數字複制件質量是否符合OCR的基本要求。評估内容一般應包括圖像分辨率、偏斜度、清晰度、失真度、亮度、對比度、灰度等。

7.1.2 紙質檔案數字複制件的圖像分辦率應不低于200dpi。特殊情況下，如文字偏小、密集、清晰度較差等，可以适當提高分辦率。文件命名應符合DA/T 13-1994、DA/T22-2015、DA/T31-2017的規定。

7.1.3 對質量不能達到檔案OCR工作基本要求的紙質檔案數字複制件，應按照DA/T31-2017的要求重新數字化後導入。

7.2 圖像預處理

7.2.1 二值化

7.2.1.1在識别處理前，應對彩色圖像進行灰度化和二值化處理;對灰度圖像進行二值化處理。應采取局部自适應二值化等算法，并支持自動或手動調節。

7.2.1.2應具備亮度和對比度值自動、手動調節功能。亮度和對比度值的設定以調整後的圖像中文文字的筆畫連貫清晰為準。

7.2.2 圖像降噪

7.2.2.1對圖像中印刷體字符進行識别處理前，需要根據噪聲的特征對待識别圖像進行降噪處理，提升識别處理的精确度。

7.2.2.2降噪處理應去除在掃描過程中産生的污點、污線、黑邊等影響圖像質量的雜質，去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等影響識别的地方。

7.2.3 傾斜校正

7.2.3.1對圖像進行識别前，應進行圖像方向檢測并進行自動水平或垂直傾斜校正。

7.2.3.2應支持由用戶指定圖像傾斜的角度，采用相應的圖像旋轉算法進行手工傾斜校正。

7.2.4 圖像監測

圖像質量控制程序應自動檢測圖像處理質量。對無法達到質量要求的圖像進行标注。

7.3 比對識别

7.3.1 版式分析

7.3.1.1對比識别前應對圖像中的字符塊結構進行版式分析，把圖像中相似的版塊信息劃分到一起。如橫排文本、豎排文本、表格、圖形等。

7.3.1.2版式分析可采取多種分析方法，自動檢測各版塊類型，對圖像内部區域進行邏輯歸類，記錄各版塊的位置，存儲版面信息。

7.3.2 檔案特征分析

7.3.2.1歸檔章分析。建立歸檔章式樣庫，自動識别圖像中的歸檔章，并根據歸檔章樣式，識别出字段位置，如全宗号、年度、機構、保管期限、件号、頁數等。

7.3.2.2公文要素分析。建立公文格式庫，可準确識别公文的版頭、主體、版記三部分，識别公章、簽章等區域，比照公文樣式，識别密級和保密期限、緊急程度、發文字号、簽發人、标題、主送機關、正文、附件說明、發文機關署名、成文日期、附注、附件、抄送機關等公文要素。公文要素OCR識别要求見附錄A。

7.3.2.3表格分析。建立單獨表格處理模塊，建立專用表格模闆定義工具，自定義文件處理單、發文稿紙、備考表等表格模闆，識别表格中的字段位置。

7.3.2.4印章分析。識别印章圖像位置，存儲印章圖像，建立印章名稱與印章圖像的關系庫，用于版式恢複。

7.3.3 識别和匹配

7.3.3.1識别時應抽取字體、字号、粗體、斜體、首行縮進等字符特征，通過相似度計算方法，與特征數據庫比對，識别為計算機文字内碼。

7.3.3.2特征數據庫應存儲多種印刷體字符、常用簽名和批注手寫體字符，具備可更新和可擴充性對使用頻率高的漢字、英文、數字以及常用的符号、常用簽名和批注手寫體字符應建立高頻庫。應将無法識别的手寫體篩選出來，通過人工識别，并将識别結果存入字符庫。

7.3.3.3應通過将比對後的識别文字根據上下文在可能的相似候選字群中找出最合乎邏輯的字詞對識别文字進行除錯或更正，以提高OCR識别準确率。

7.4 修改校正

7.4.1 應對識别的文本進行自動語義識别和校正，通過詞彙庫和語義庫，對識别後文本中的字符、詞彙、語句自動進行逐層分析更正。詞彙庫和語義庫應具備更新和自動學習功能。

7.4.2 應對候選字、拒認字和可能有問題的字詞、語句進行标記。

7.4.3 應支持以人工方式對OCR結果進行圖像與識别文字對照、修正等校正的功能，以滿足更高識别準确率的特殊要求。

7.5成果整理輸出

7.5.1 成果整理

7.5.1.1 支持按照紙質檔案數字複制件的版式對OCR結果的段落和表格進行版面理解與重建。重建後OCR結果的段落編排、表格樣式應與紙質檔案數字複制件圖像一緻。

7.5.1.2 應自動分析、提取黨政機關公文的各公文要素，包括密級和保密期限、緊急程度、發文字号、簽發人、标題、主送機關、正文、附件說明、發文機關署名、成文日期、附注、附件、抄送機關等。檔案OCR成果結果中各公文要素位置應與紙質檔案數字複制件圖像一緻。

7.5.1.3 應支持調用、編輯、備份、導出OCR結果，支持對文字、符号的搜索等功能。

7.5.2成果輸出

7.5.2.1 檔案OCR成果應同時保存為純文本形式和雙層PDF/OFD文件形式

7.5.2.2 應以紙質檔案的件或頁為單位輸出、保存純文本形式檔案OCR成果。純文本形式OCR成果保存規則參見表1

ocr文檔識别和表格識别的難點（紙質檔案數字複制件光學字符識别）2

7.5.2.3應以檔号為基礎對純文本形式檔案OCR成果命名，命名方式的選擇應确保檔案OCR成果命名唯一性。一件檔案保存為多個檔案OCR成果文件時，應按檔号結合OCR成果順序流水号為檔案OCR成果命名。

示例1:檔号為A001-001-0001的紙質檔案數字複制件，對應的OCR成果文件名為A00100100010001.txt。

示例2:檔号為A001-001-0001-0002的紙質檔案數字複制件包含收文處理單、文件正本兩個文件，對應的OCR成果文件名分别為A00100100010002_01.txt和A00100100010002_02.txt。

7.5.2.4 應根據紙質檔案數字複制件版式文件格式，自動形成支持全文檢索的雙層PDF或OFD文件，方便全文檢索後對文件的閱讀。

7.5.2.5 應支持按照檔案著錄規則和電子檔案元數據規範，自動保存檔案OCR成果中的黨政機關公文要素。相關公文要素應保存到數字檔案館(室)應用系統數據庫。

7.5.2.6 應支持檔案OCR成果中文簡繁體的自動轉換功能。

7.5.3成果驗收

7.5.3.1 應采用計算機自動檢驗與人工檢驗相結合的方式對紙質檔案OCR成果進行驗收檢驗。

7.5.3.2 驗收檢驗内容包括OCR成果、提取的黨政機關公文要素、數據挂接情況、OCR工作文件和存儲載體等。

7.5.3.3 能夠采用計算機自動檢驗的項目應采用計算機自動檢驗的方式進行100％檢驗，對于無法用計算機自動檢驗的項目，可根據情況以件或卷為單位采用抽檢的方式進行人工檢驗。抽檢比率不得低于5％。