TWI774105B

TWI774105B - 公文書解析方法

Info

Publication number: TWI774105B
Application number: TW109137724A
Authority: TW
Inventors: 田金山; 劉任哲; 呂威廷
Original assignee: 全友電腦股份有限公司
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-08-11
Also published as: TW202217689A

Abstract

本案提出一種公文書解析方法。公文書解析方法包含接收包含文字內容之電子公文，文字內容包含多個內容區塊。建立各內容區塊之至少一特徵點，該些特徵點構成拓撲結構。讀取包含多個公文格式資訊之公文類別資料庫，公文格式資訊包含區塊結構資訊以及多個標題資訊。根據拓撲結構及區塊結構資訊決定相對位置評分，藉以判斷公文格式。建立對應電子公文格式之空白公文，空白公文包含多個空白內容區塊，各空白內容區塊對應於至少一標題資訊。根據電子公文所對應之標題資訊，將文字內容劃分並寫入各個標題資訊所對應之空白內容區塊。

Description

公文書解析方法

本案係關於一種公文書之文件內容之解析方法。

公務文書簡稱公文。公文可以是單位間用以交流訊息之文書，亦可以是用以保存訊息以供查閱之文書。公文依據用途的不同而具有不同之標準格式。以通知函與開會記錄單為例，兩份公文所需傳達或記錄的內容不同，因此在與會人員、受文者、說明文字等文字內容之呈現上亦有不同。

在公文之管理過程，如何有效率地完成公文分類及確保內容正確是一項耗費人力之重要任務。由於公文種類的多樣化，因此在將紙本公文數位化之過程，多半得依賴人員逐一校對紙本並逐字繕打而完成。此方法不僅效率低落，且極易產生人為錯誤。

有鑑於此，申請人提出一種公文書解析方法。依據一些實施例，一種公文書解析方法包含接收電子公文，電子公文包含文字內容，文字內容包含多個內容區塊。建立各內容區塊之至少一特徵點，該些特徵點構成拓撲結構。讀取公文類別資料庫，公文類別資料庫包含多個公文格式資訊，該些公文格式資訊各包含區塊結構資訊以及多個標題資訊。根據拓撲結構及區塊結構資訊，決定相對位置評分。根據相對位置評分判斷電子公文之格式。建立對應電子公文格式之空白公文，空白公文包含多個空白內容區塊，各空白內容區塊對應於至少一標題資訊。根據電子公文所對應公文格式資訊之標題資訊，將文字內容劃分並寫入各標題資訊所對應之空白內容區塊。

依據一些實施例，於將文字內容劃分並寫入文字內容所對應之空白內容區塊之步驟中，更包含逐行判定電子公文之文字內容，當判定第X行之文字內容包含第一標題資訊，第X+n行之文字內容包含第二標題資訊，且第X行與第X+n行之間不存在其他標題資訊時，將第X行至第(X+n-1)行之間的文字內容寫入第一標題資訊所對應之空白內容區塊。

依據一些實施例，文字內容更包含關鍵字。公文格式資訊更包含關鍵字資訊。公文書解析方法根據關鍵字及關鍵字資訊，決定關鍵字評分。公文書解析方法根據相對位置評分及關鍵字評分判斷電子公文之格式。

依據一些實施例，區塊結構資訊包含區塊結構權重，關鍵字資訊包含關鍵字權重，公文書解析方法適用機器學習演算法，並根據區塊結構權重及關鍵字權重判斷電子公文之格式。

依據一些實施例，公文書解析方法更包含根據電子公文之格式所對應之公文格式資訊，判斷電子公文之拓撲結構與區塊結構資訊之差異，並於存在差異時提出警示。根據電子公文之格式所對應之公文格式資訊，判斷電子公文之關鍵字與關鍵字資訊之差異，並於存在差異時提出警示。

依據一些實施例，公文書解析方法更包含去除電子公文中，關鍵字評分低於評分閾值之關鍵字。

依據一些實施例，公文書解析方法更包含根據關鍵字所處之內容區塊以決定關鍵字評分。

依據一些實施例，公文書解析方法更包含去除文字訊息中無語法意義之字元。

依據一些實施例，電子公文係利用光學字元辨識掃描原始公文所產生。

依據一些實施例，公文書解析方法更包含將電子公文之文字內容寫入空白公文之空白內容區塊並輸出為文件實體格式檔案。

綜上所述，依據一些實施例，公文書解析方法分析公文書內容區塊之分布以及各個內容區塊所包含之關鍵字，以判斷公文之類別，並於文字內容或公文格式錯誤時提供警示或校正。

公文書解析方法是一種分析公文之方法。依公文之使用者而言，公文可以是但不限於政府機關或單位所使用之文書或私人機關或單位所使用之文書。依公文之功能而言，公文可以是但不限於用以交流訊息之文書或用以記錄訊息之文書。依據一些實施例，電子裝置執行公文書解析方法。電子裝置可以是但不限於個人電腦、手機、平板電腦、伺服器等裝置。舉例而言，手機將手機鏡頭所拍攝之公文影像檔轉換而產生電子公文1，再由執行於手機之公文書解析方法分析該電子公文1。舉例而言，將手機鏡頭所拍攝之公文影像檔傳送至伺服器，伺服器將公文影像檔轉換為電子公文1後，再由執行於伺服器之公文書解析方法分析該電子公文1。

圖1係依據一些實施例之通知函之示意圖。請參照圖1，電子公文1包含有文字內容11。例如「地址: 33004OO市OO區OO路O號」或「說明:一、OOOOOO…」。文字內容11可劃分為多個內容區塊12，使公文產生數個區塊的文字群聚。依據一些實施例，內容區塊12利用線框以與其他內容區塊12作區分。依據一些實施例，內容區塊12利用固定留白以與其他內容區塊12作區分。依據一些實施例，內容區塊12利用標題資訊14以與其他內容區塊12作區分。

依據一些實施例，公文書解析方法利用影像辨識分析內容區塊12的相對位置分布關係，藉以判斷公文之類別。圖2係依據一些實施例之依通知函執行影像辨識之示意圖。請參照圖2，圖2所示之虛線區域係圖1之通知函之內容區塊12。於本實施例中，總共包含七個內容區塊12。公文書解析方法建立各該內容區塊12之至少一特徵點121，該些特徵點121構成一拓撲結構122。特徵點121可以為影像辨識演算法中用以辨識內容區塊12之特徵。依據一些實施例，特徵點121為內容區塊12之幾何中心點。依據一些實施例，特徵點121為內容區塊12之邊線上的點。依據一些實施例，特徵點121為內容區塊12之邊角點。依據一些實施例，特徵點121為內容區塊12所包含之文字內容11上的點。對於單個內容區塊12，特徵點121不限於一個點或多個點。依據一些實施例，多個特徵點121之間的間距極小，使該些特徵點121趨近於一輪廓線。公文書解析方法辨識該些特徵點121之相對位置關係，即該些特徵點121所構成之拓撲結構122。依據一些實施例，該些特徵點121之間形成多個向量之拓撲結構，該些向量構成一特徵矩陣；公文書解析方法辨識該特徵矩陣而判定該公文之類別。圖3係依據一些實施例之會議記錄單之示意圖。請參照圖3，與圖1之通知函之實施例不同，圖3之會議記錄單之實施例包含四個內容區塊12。圖4係依據一些實施例之依會議記錄單執行影像辨識之示意圖。請一併參照圖2及圖4，影像辨識演算法利用兩種公文類型的內容區塊12之特徵點121相對位置分布的不同，而區分兩者為通知函及會議記錄單。

公文書解析方法讀取公文類別資料庫，公文類別資料庫包含多個公文格式資訊，該些公文格式資訊各包含一區塊結構資訊以及多個標題資訊14。公文格式資訊包含多種類別之公文的資訊，例如但不限於通知函、研究記錄單、會議記錄單、簽到表等各式公文之格式或內容之相關資訊。區塊結構資訊可包含公文之格式資訊或用以輔助辨別公文格式之資訊。依據一些實施例，區塊結構資訊儲存範本公文之特徵點121之拓撲結構122。依據一些實施例，區塊結構資訊儲存範本公文之空白內容區塊。舉例而言，區塊結構資訊儲存如圖2所示之通知函之七個空白之內容區塊12，該些空白之內容區塊12分別對應至圖1所示之內容區塊12之文字內容11。標題資訊14可為用以區分文字內容11及判斷文字內容11所對應之內容區塊12之資訊。圖5係依據一些實施例之標題資訊之示意圖。以圖5之會議記錄單為例，標題資訊14為「記錄單」、「會議名稱」、「出席人員」、「會議記錄」等文字。依據一些實施例，標題資訊14可以用於區分文字內容11。舉例而言，圖5之「會議名稱」以及「出席人員」之間的文字內容11屬於同一個內容區塊12；「出席人員」以及「會議記錄」之間的文字內容11屬於另一個內容區塊12。依據一些實施例，標題資訊14可以用於判斷文字內容11所對應之內容區塊12。舉例而言，圖5之「記錄單」對應至最上方的內容區塊12；「會議記錄」對應至最下方的內容區塊12。

依據一些實施例，公文書解析方法分析電子公文1的內容區塊12之特徵點121的相對位置關係，並將該相對位置關係與公文類別資料庫裡各種公文範本之區塊結構資訊進行比對，決定該電子公文1與各種公文範本相似度之相對位置評分。相對位置評分係用以判斷該電子公文1之格式的依據。舉例而言，公文書解析方法接收圖3實施例之電子公文1，經影像分析並與通知函之範本公文比對後，依照預設之評分機制判定獲得40分之相對位置評分；與會議記錄單之範本公文比對後，依照預設之評分機制判定獲得90分之相對位置評分，故將該電子公文1分類為會議記錄單。

公文書解析方法確認電子公文1對應至公文類別資料庫之何種公文格式資訊後，建立該格式之空白公文，並且空白公文包含多個空白內容區塊。文字內容11包含多個標題資訊14，各個標題資訊14可以對應到特定之內容區塊12。公文書解析方法根據標題資訊14，將該文字內容11劃分並寫入該標題資訊14所對應之空白內容區塊。依據一些實施例，各種公文格式資訊各包含專屬於該種公文格式之演算法。公文書解析方法於確認公文格式後，根據該格式之演算法而決定如何將文字內容11劃分，以及如何將劃分後之文字內容11寫入各個內容區塊12。依據一些實施例，演算法將標題資訊14後特定字元數之文字內容11劃入同一內容區塊12。依據一些實施例，演算法將與標題資訊14所處之整行文字內容11劃入同一內容區塊12。依據一些實施例，演算法將任兩個標題資訊14之間的文字內容11劃入同一內容區塊12；詳細而言，公文書解析方法逐行判定電子公文1之文字內容11，當判定第X行文字內容11包含第一標題資訊14時，將第X行之文字內容11與其後續行次之文字內容11寫入同一內容區塊12，直到在第X+n行文字內容11判定包含第二標題資訊14後，停止將第X+n行之文字內容11與其後續行次之文字內容11寫入前述同一內容區塊12。所述X及n為整數數值。

舉例而言，圖5之公文為一紙本公文，公文書解析方法判斷圖5之公文為會議記錄單並產生會議記錄單格式之空白公文。公文書解析方法利用光學字元辨識掃描紙本公文而獲得文字內容11。由於掃描產生之文字內容11係混合之狀態，因此需要被劃分到不同之內容區塊12。公文書解析方法讀取會議記錄單之公文格式資訊之標題資訊14，得到標題資訊14為「記錄單」、「會議名稱」、「出席人員」、「會議記錄」。演算法將包含「記錄單」之整行文字內容11寫入空白公文中由上至下的第一個空白內容區塊；演算法將包含「會議名稱」之整行文字內容11以及包含「出席人員」之行次之上的文字內容11寫入空白公文中由上至下的第二個空白內容區塊；演算法將包含「出席人員」之整行文字內容11以及包含「會議記錄」之行次之上的文字內容11寫入空白公文中由上至下的第三個空白內容區塊；演算法將包含「會議記錄」之整行文字內容11以及包含「會議記錄」之行次之下的文字內容11寫入空白公文中由上至下的第四個空白內容區塊。

依據一些實施例，文字內容11包含有關鍵字111。關鍵字111可以是但不限於具有特殊意義之文字、用以提示公文用途之文字或用以提示記載內容之文字，例如「正本」、「函」、「主旨」、「電話」、「發文日期」等。關鍵字111可以是但不限於由供應商所定義、由使用者所定義或由演算法所產生。依據一些實施例，公文格式資訊可包含關鍵字資訊13。隨著公文格式之不同而可以對應不同之關鍵字資訊13。圖6係依據一些實施例之通知函之關鍵字資訊之示意圖。請參照圖6，舉例而言，通知函之關鍵字資訊13包含有關鍵字111之「函」、「主旨」、「說明」、「正本」、「副本」、「地址」及「電話」等。而會議記錄單之關鍵字資訊13則可以包含有關鍵字111「記錄單」、「會議名稱」、「主持人」及「會議記錄」等(圖未示)。當任一電子公文1中出現關鍵字111「地址」時，公文書解析方法基於各種公文格式資訊之關鍵字資訊13並依照預設之評分機制判定該關鍵字111對應至通知函之關鍵字評分為60分，而對應至會議記錄單之關鍵字評分為40分；當該電子公文1中出現另一關鍵字111「主旨」時，公文書解析方法基於各種公文格式資訊之關鍵字資訊13並依照預設之評分機制判定該關鍵字111對應至通知函之關鍵字評分為80分，而對應至會議記錄單之關鍵字評分為30分。依據一些實施例，公文書解析方法根據關鍵字評分以及相對位置評分而決定電子公文1之格式。

依據一些實施例，各公文格式資訊之區塊結構資訊包含區塊結構權重，各公文格式資訊之關鍵字資訊13包含關鍵字權重。依據一些實施例，區塊結構權重為將範本公文之內容區塊12之特徵點121作為訓練資料輸入影像辨識之機器學習演算法，使其學習範本公文之種類而獲得之權重值。依據一些實施例，關鍵字權重為將範本公文之文字內容11之關鍵字111作為訓練資料輸入文字辨識之機器學習演算法，使其學習範本公文之種類而獲得之權重值。依據一些實施例，公文書解析方法根據訓練完成之機器學習演算法，將電子公文1之內容區塊12作為輸入而輸出相對位置評分；公文書解析方法根據訓練完成之機器學習演算法，將電子公文1之關鍵字111作為輸入而輸出關鍵字評分，並根據關鍵字評分以及相對位置評分而決定電子公文1之格式。依照適用的機器學習演算法之不同，依據一些實施例，區塊結構權重及關鍵字權重可以在判斷過程中被修改。

依據一些實施例，公文書解析方法於確認電子公文1之格式後，根據公文格式資訊之區塊結構資訊或關鍵字資訊13，判斷電子公文1之拓撲結構122與區塊結構資訊之差異，並於存在差異時提出警示，以及判斷該電子公文1之關鍵字111與該關鍵字資訊13之差異，並於存在差異時提出警示。圖7係依據一些實施例之內容缺漏之通知函之示意圖，請參照圖7之例示，公文書解析方法根據圖7之電子公文1之內容區塊12之相對位置關係而判斷該電子公文1較為接近通知函之格式，然而該電子公文1包含缺漏欄位15。相較於圖1所示之範本公文，該缺漏欄位15應填寫正本或副本之資訊。該電子公文1之內容區塊12之特徵點121所構成之拓撲結構122與區塊結構資訊存在差異，因此公文書解析方法提出公文內容有誤之警示。圖8係依據一些實施例之內容誤繕之通知函之示意圖，請參照圖8之例示，公文書解析方法根據圖8電子公文1之內容區塊12之相對位置關係而判斷該電子公文1較為接近通知函之格式，然而該電子公文1之文件標題「會議記錄單」包含有錯誤之關鍵字111之「記錄單」。根據通知函之關鍵字資訊13，該內容區塊12應包含關鍵字111之「函」。電子公文1之文字內容11之關鍵字111與關鍵字資訊13存在差異，因此公文書解析方法提出公文內容有誤之警示。

依據一些實施例，公文書解析方法去除該電子公文1中關鍵字評分低於評分閾值之關鍵字111。評分閾值可以是但不限於由供應商所定義、由使用者所定義或由演算法所產生。舉例而言，公文書解析方法包含有50分之評分閾值，當電子公文1中出現關鍵字111之「主旨」時，公文書解析方法根據關鍵字資訊13而決定該關鍵字111對應至通知函之關鍵字評分為80分，而對應至會議記錄單之關鍵字評分為30分。如最終公文書解析方法根據該電子公文1之相對位置評分而判斷該電子公文1之格式為會議記錄單時，由於關鍵字111之「主旨」對應到會議記錄單之關鍵字評分低於評分閾值，因此將其去除。依據一些實施例，公文書解析方法根據關鍵字111所處之內容區塊12以決定關鍵字評分。圖9係依據一些實施例之相同關鍵字位處不同內容區塊之示意圖，請參照圖9，依據一些實施例，機器學習演算法根據會議記錄單之範本公文學習到關鍵字111之「記錄單」主要出現在電子公文1由上至下的第一個內容區塊12。因此，當電子文件之關鍵字111之「記錄單」位於由上至下的第一個內容區塊12時，該關鍵字111對應至會議記錄單之關鍵字評分為80分。當電子文件之關鍵字111之「記錄單」位於由上至下的第四個內容區塊12時，該關鍵字111對應至會議記錄單之關鍵字評分為30分。若公文書解析方法包含有50分之評分閾值，該位於由上至下的第四個內容區塊12的關鍵字111之「記錄單」將被去除。圖10係依據一些實施例之內容誤繕之會議記錄單之示意圖，請參照圖10，依據一些實施例，關鍵字111之「會議時間」位於由上至下的第二個內容區塊12時，該關鍵字111對應至會議記錄單之關鍵字評分為90分。當電子文件之關鍵字111之「會議時間」位於由上至下的第三個內容區塊12時，該關鍵字111對應至會議記錄單之關鍵字評分為10分。若公文書解析方法包含有50分之評分閾值，該位於由上至下的第三個內容區塊12的關鍵字111之「會議時間」將被去除。依據一些實施例，公文書解析方法去除該文字訊息中無語法意義之字元112。無語法意義之字元112可以是但不限於由供應商所定義、由使用者所定義或由演算法所產生。舉例而言，圖10之實施例中由上至下的第四個內容區塊12之最後一行包含有無語法意義之字元112之「&%$**/」，公文書解析方法於辨識後將其去除。

依據一些實施例，公文書解析方法利用光學字元辨識掃描原始公文而產生電子公文1。原始公文可以是但不限於紙本公文、可攜式文件格式(Portable Document Format，PDF)之檔案或各種影像檔儲存格式之檔案。

依據一些實施例，公文書解析方法將電子公文1之文字內容11寫入空白公文之空白內容區塊後，得到填寫完成之公文，並將填寫完成之公文輸出為文件實體格式(Document Instance，DI)檔案。

1:電子公文 11:文字內容 111:關鍵字 112:無語法意義之字元 12:內容區塊 121:特徵點 122:拓撲結構 13:關鍵字資訊 14:標題資訊 15:缺漏欄位

[圖1]係依據一些實施例之通知函之示意圖； [圖2]係依據一些實施例之依通知函執行影像辨識之示意圖； [圖3]係依據一些實施例之會議記錄單之示意圖； [圖4]係依據一些實施例之依會議記錄單執行影像辨識之示意圖； [圖5]係依據一些實施例之標題資訊之示意圖； [圖6]係依據一些實施例之通知函之關鍵字資訊之示意圖； [圖7]係依據一些實施例之內容缺漏之通知函之示意圖； [圖8]係依據一些實施例之內容誤繕之通知函之示意圖； [圖9]係依據一些實施例之相同關鍵字位處不同內容區塊之示意圖；以及 [圖10]係依據一些實施例之內容誤繕之會議記錄單之示意圖。

1:電子公文

11:文字內容

111:關鍵字

12:內容區塊

Claims

一種公文書解析方法，包含：接收一電子公文，該電子公文包含一文字內容，該文字內容包含多個內容區塊；建立各該內容區塊之至少一特徵點，該些特徵點構成一拓撲結構；讀取一公文類別資料庫，該公文類別資料庫包含多個公文格式資訊，該些公文格式資訊各包含一區塊結構資訊以及多個標題資訊；根據該拓撲結構及該區塊結構資訊，決定一相對位置評分；根據該相對位置評分判斷該電子公文之格式；建立對應該電子公文格式之一空白公文，該空白公文包含多個空白內容區塊，各該空白內容區塊對應於至少一該標題資訊；以及根據該電子公文所對應該公文格式資訊之標題資訊，將該文字內容劃分並寫入各該標題資訊所對應之空白內容區塊。
如請求項1所述之公文書解析方法，於將該文字內容劃分並寫入該文字內容所對應之空白內容區塊之步驟中，更包含：逐行判定該電子公文之文字內容，當判定第X行之文字內容包含一第一標題資訊，第X+n行之文字內容包含一第二標題資訊，且該第X行與該第X+n行之間不存在其他標題資訊時，將該第X行至第(X+n-1)行之間的文字內容寫入該第一標題資訊所對應之空白內容區塊。
如請求項1所述之公文書解析方法，其中：該文字內容更包含一關鍵字；該公文格式資訊更包含一關鍵字資訊；該公文書解析方法根據該關鍵字及該關鍵字資訊，決定一關鍵字評分；以及該公文書解析方法根據該相對位置評分及該關鍵字評分判斷該電子公文之格式。
如請求項3所述之公文書解析方法，其中，該區塊結構資訊包含一區塊結構權重，該關鍵字資訊包含一關鍵字權重，該公文書解析方法適用一機器學習演算法，並根據該區塊結構權重及該關鍵字權重判斷該電子公文之格式。
如請求項3所述之公文書解析方法，更包含根據該電子公文之格式所對應之公文格式資訊，判斷該電子公文之拓撲結構與該區塊結構資訊之差異，並於存在差異時提出警示；以及判斷該電子公文之關鍵字與該關鍵字資訊之差異，並於存在差異時提出警示。
如請求項3所述之公文書解析方法，更包含去除該電子公文中，該關鍵字評分低於一評分閾值之關鍵字。
如請求項6所述之公文書解析方法，更包含根據該關鍵字所處之該內容區塊以決定該關鍵字評分。
如請求項1所述之公文書解析方法，更包含去除該文字內容中之一無語法意義之字元。
如請求項1所述之公文書解析方法，其中，該電子公文係利用光學字元辨識掃描一原始公文所產生。
如請求項1所述之公文書解析方法，更包含將該電子公文之文字內容寫入該空白公文之空白內容區塊並輸出為一文件實體格式檔案。