TWI845355B - 表單資料輸入方式判斷系統 - Google Patents
表單資料輸入方式判斷系統 Download PDFInfo
- Publication number
- TWI845355B TWI845355B TW112123637A TW112123637A TWI845355B TW I845355 B TWI845355 B TW I845355B TW 112123637 A TW112123637 A TW 112123637A TW 112123637 A TW112123637 A TW 112123637A TW I845355 B TWI845355 B TW I845355B
- Authority
- TW
- Taiwan
- Prior art keywords
- judgment
- form data
- data
- judged
- input
- Prior art date
Links
Images
Landscapes
- Input From Keyboards Or The Like (AREA)
Abstract
一種表單資料輸入方式判斷系統係在已知為手動輸入或自動輸入之基礎真相之每一基準真相表單資料中擷取一學習用欄位資訊量與一學習用時間戳記量,據以進行一學習演算而產生一判斷演算模型;進一步在每一個待判斷表單資料中擷取一判斷用欄位資訊量與一判斷用時間戳記量,據以利用判斷演算模型預測每一待判斷表單資料為自動輸入或手動輸入之一判斷結果,並在每一待判斷表單資料之一回饋基準真相與判斷結果不符時,定義出一判斷異常表單資料與一追認基準真相以供重新進行學習演算而修改判斷演算模型。
Description
本發明係有關於一種判斷系統,尤其是指一種用於判斷表單資料之輸入方式為手動輸入或自動輸入之判斷系統。
因應組織管理、系統管理與資訊整合管理等多方面的需要,越來越多的表單資料需要被傳送至資料管理中心的資料儲存裝置(伺服器)進行集中式的管理,以作為對特定事物進行分析的數據基礎。這些表單資料有一部分是藉由打字輸入、點選選項輸入或者手寫配合影像辨識技術等手動輸入方式輸出資料後所產生的;其他部分可能是藉由讀取條碼、晶片感應、標籤感應、影像辨識或系統自動帶入或匯入等自動輸入方式輸入資料後所產生的。
為了精確判讀並分析出所有的表單資料所呈現出來的意義,必須藉由大數據演算進行精確的統計分析。此作法的其前提為表單資料的內容本身必須具備極高的正確性,以免誤判表單資料的所呈現出來的真實意義。然而,藉由人員打字、書寫或點選等手動輸入方式輸入資料時所發生的錯誤率,往往遠高於讀取條碼、晶片感應、標籤感應、影像辨識或系統自動帶入或匯入等自動輸入方式輸入資料時所發生的錯誤率。
由於表單資料數量極為龐大,由資料管理中心的工作人員逐一核對確認表單資料內容是否正確的作法相當不切實際。只能藉由輔助性的檢驗工具軟體來輔助,即便如此,由於表單資料具備相當高的多元性,不太可能為所有的表單資料都分別開發出對應的檢驗工具軟體來逐一進行檢驗。
若表單資料能夠自動化產生,就可大幅減輕資料管理中心的工作人員的工作負擔。因此,推動表單資料自動化輸入產生的工作就勢在必行。然而,因應各種不同的使用情境與使用需求,實際上並非所有表單都可以在短時間內全部轉變為利用自動輸入資料的方式產生,所以仍難免會有部分之表單資料是藉由手動輸入資料的方式產生。
由於資料管理中心的資料儲存裝置(伺服器)所儲存的表單資料中,夾雜了部分自動輸入與部分手輸入資料方式所產生的表單資料,因此,實在有必要開發出一種新的判斷技術來判斷出哪些表單資料是自動輸入資料產生的,哪些又是手動輸入資料產生的。藉此,可將更多的檢驗資源投注於對手動輸入資料產生的表單資料進行檢驗,藉以提升表單資料整體的正確率。
有鑒於在先前技術中,缺乏用以判斷表單資料是自動輸入或手動輸入資料產生的判斷技術,因而無法將檢驗資源集中投注於對手動輸入資料產生的表單資料進行檢驗,導致不易提升表單資料整體的正確率問題;本發明為解決先前技術之問題所採用之其中一種必要技術手段為提供一種表單資料輸入方式判斷系統(以下簡稱「判斷系統」),且判斷系統包含一資料儲存裝置與一判斷裝置。
資料儲存裝置係儲存有複數個基準真相表單資料與複數個待判斷表單資料,該些基準真相表單資料係對應地具有用以定義為自動輸入或手動輸入之複數個初始基準真相。判斷裝置係通信連結於資料儲存裝置以擷取基準真相表單資料與待判斷表單資料,並且在安裝與執行一判斷程式後產生一特徵擷取模組、一監督式學習模組、一判斷模組與一驗證示警模組。
特徵擷取模組係自每一基準真相表單資料中擷取反應資料亂度之一學習用欄位資訊量與一學習用時間戳記量,使基準真相表單資料具有對應之複數個上述之學習用欄位資訊量與複數個上述之學習用時間戳記量,並自每一待判斷表單資料中擷取反應資料亂度之一判斷用欄位資訊量與一判斷用時間戳記量。
監督式學習模組係依據基準真相表單資料所對應之學習用欄位資訊量與學習用時間戳記量與初始基準真相,進行一學習演算而產生一判斷演算模型。
判斷模組係依據判斷演算模型與每一待判斷表單資料所對應之判斷用欄位資訊量與判斷用時間戳記量,判斷每一待判斷表單資料以對應產生用以預測每一待判斷表單資料為自動輸入或手動輸入之一判斷結果,據以產生複數個判斷結果。
驗證示警模組係接收用以定義待判斷表單資料為自動輸入或手動輸入之複數個回饋基準真相,並在驗證出待判斷表單資料所對應之判斷結果與回饋基準真相不符時,發出一示警信息,據以定義出一判斷異常表單資料與一追認基準真相。驗證示警模組更將判斷異常表單資料與追認基準真相儲存至資料儲存裝置以作為基準真相表單資料與初始基準真相,藉以供監督式學習模組重新進行學習演算而修改判斷演算模型。
在上述必要技術手段的基礎下,所衍生出之附屬技術手段中,較佳者,判斷系統更包含複數個資料輸入終端裝置,且基準真相表單資料與待判斷表單資料可由資料輸入終端裝置傳送至資料儲存裝置加以儲存。資料儲存裝置可為一資料儲存伺服器,判斷裝置可為一運算伺服器。每一資料輸入終端裝置更包含一回饋操作介面,以供每一資料輸入終端裝置之一操作者在驗證出待判斷表單資料所對應之判斷結果錯誤時,對應地輸入回饋基準真相。
較佳者,驗證示警模組更包含一驗證週期設定介面,以供設定一驗證週期,藉以依據驗證週期而週期性地將判斷異常表單資料與追認基準真相作為基準真相表單資料與初始基準真相,以供監督式學習模組依據該驗證週期而週期性地進行該學習演算。
特徵擷取模組可包含一欄位資訊量擷取單元,且欄位資訊量擷取單元係依據一欄位熵演算法加以運作而獲得學習用欄位資訊量與判斷用欄位資訊量,且欄位熵演算法係為
,其中
,k表示資料欄位類型的數量,表示共包含k種資料欄位類型,
表示該k種資料欄位類型中的第i種資料欄位類型的數量,其中i、k與
皆為自然數。
特徵擷取模組更可包含一時間戳記量擷取單元,且時間戳記量擷取單元供一使用者在p個欄位中指定q個時間戳記欄位,並依據一時間戳記量演算法擷取學習用時間戳記量與判斷用時間戳記量,且時間戳記量演算法係
,其中
表示q個時間戳記欄位中第j個時間戳記欄位所對應的r列資料中所包含之相異資料內容種類數,其中j、
、p、q與r皆為自然數,且p>q。
判斷模組可更包含一標記單元,且該標記單元係依據判斷結果對每一待判斷表單資料賦予一自動輸入標記或一手動輸入標記後,再儲存於資料儲存裝置。
此外,針對學習演算部分,較佳者,學習演算可包含至少一基礎演訓練算法,且基礎訓練演算法包含K-最鄰近演算法(KNN)、支援向量機(SVM)演算法、決策樹(Decision Tree)演算法與回歸(Regression)演算法中之至少一者。更佳者,學習演算可再包含至少一擬合演算法,且擬合演算法包含隨機森林(Random Forest)演算法與極限梯度提升(XGBoost)中之至少一者。
綜合以上所述,由於在本發明所提供之表單資料輸入方式判斷系統中,係特別依據長期對表單資料為自動輸入或手動輸入之間的關聯性與規則性之觀察結果,特別選擇與時間與資料亂度相關之欄位資訊量與時間戳記量,作為後續進行學習訓練與判斷之重要特徵依據,據此進行監督式學習訓練而在短時間內建立較高信心水準之判斷演算模型與獲得較高判斷準確率之判斷結果。
進一步地,可藉由週期性進行判斷、驗證、示警與產生追認基礎真相的方式,修正錯誤的判斷結果,據以重新進行學習演算而修改判斷演算模型,藉此,不但可以達到自動判斷輸入方式之功效,更可以在較短的時間內大幅提升判斷準確度。在獲得判斷正確率較高的判斷結果後,更可進一步將檢驗資源(包含人員、設備與/或工具軟體等)集中投注於對手動輸入資料產生的表單資料進行檢驗,藉以進一步達到提升表單資料整體的正確率之功效。
由於本發明所提供之表單資料輸入方式判斷系統,可廣泛運用於判斷表單資料是藉由自動輸入或手動輸入的方式所產生,其應用層面相當廣闊,故在此不再一一贅述,僅列舉其中較佳的一個實施例來加以具體說明,且此實施例僅用以方便、明晰地輔助說明本發明實施例的目的與功效。
請參閱第一圖,其係顯示本發明較佳實施例所提供之表單資料輸入方式判斷系統之功能方塊示意圖。如第一圖所示,一種表單資料輸入方式判斷系統(以下簡稱「判斷系統」)100,包含一資料儲存裝置1、一判斷裝置2與資料輸入終端裝置3a~3c。
資料儲存裝置1可為資料儲存伺服器。判斷裝置2可為一運算伺服器。資料輸入終端裝置3a~3c可為工作設備內建電腦、工業電腦、桌上型電腦、筆記型電腦、平板電腦或智慧型手機可輸入表單資料之終端裝置,分別具有資料輸入介面31a~31c,並且分別具有回饋操作介面32a~32c。資料輸入介面31a~31與回饋操作介面32a~32可以資料輸入終端裝置3a~3c執行特定程式後之程式操作頁面,也可以是連結到一網頁伺服器後,在資料輸入終端裝置3a~3c上所呈現之網路操作頁面。
資料儲存裝置1儲存有複數個基準真相表單資料GF與複數個待判斷表單資料JF,且基準真相表單資料GF與待判斷表單資料JF可由資料輸入終端裝置3a~3c中之少一操作者利用資料輸入介面31a~31c中之少一者輸入後,被傳送至資料儲存裝置1加以儲存。基準真相表單資料GF係對應地具有用以定義為自動輸入(即藉由自動輸入資料方式所產生的表單資料)或手動輸入(即藉由手動輸入資料方式所產生的表單資料)之複數個初始基準真相。所謂的初始基準真相是指在利用判斷系統100對待判斷表單資料JF進行判斷前,已被證實過因而具備極高可信度的事實真相。待判斷表單資料JF則是有待判斷系統100判斷其為自動輸入或手動輸入的表單資料。
舉例而言,如表一所示,資料儲存裝置1共存了10個基準真相表單資料,對應之序號分別為0001~0010,其中序號為0001與0005之基準真相表單資料之初始基準真相為藉由手動輸入方式輸入的,所謂的手動輸入方式可藉由打字輸入、點選選項輸入或手寫配合文字辨識軟體等手動方式輸入。為了便於人員與軟體識別與辯讀,可對序號為0001與0005之基準真相表單資料賦予「M」之標記,以代表為手動輸入。其餘8個基準真相表單資料之初始基準真相為藉由自動輸入方式輸入的,所謂的自動輸入方式可藉由讀取條碼、晶片感應、標籤感應、影像辨識或系統自動帶入或匯入等自動輸入方式輸入。相似地,可對自動輸入之基準真相表單資料賦予「A」之標記。
表一:基準真相表單資料列表
| 基準真相表單資料序號 | 初始基準真相 | 標記 |
| 0001 | 手動輸入 | M |
| 0002 | 自動輸入 | A |
| 0003 | 自動輸入 | A |
| 0004 | 自動輸入 | A |
| 0005 | 手動輸入 | M |
| 0006 | 自動輸入 | A |
| 0007 | 自動輸入 | A |
| 0008 | 自動輸入 | A |
| 0009 | 自動輸入 | A |
| 0010 | 自動輸入 | A |
判斷裝置2係通信連結於資料儲存裝置1以擷取基準真相表單資料GF與待判斷表單資料JF,安裝有一判斷程式JAP,並在執行判斷程式JAP後,產生一特徵擷取模組21、一監督式學習模組22、一判斷模組23與一驗證示警模組24。
經過長期的觀察,發明人發現自動輸入之表單資料與手動輸入之表單資料之間,普遍存在的關聯性與規則性包含:
1. 自動輸入方式可在短時間內輸入較大的資料量,所以在短時間內輸入的資料量較大者多為自動輸入;
2. 資料內容相似度高或重複性較高者多為自動輸入,資料內容相異度較高者或重複性較低者多為手動輸入;
3. 由於表單資料是依據欄位輸入資料,存在同欄位的多列資料之間多半具有相同的種類屬性(如時間、文字與數字等)的規則性;以及
4. 關於資料的相似度、相異度與重複性等特性,可以藉由與資料亂度相關的參數或指標加以體現。
依據發明人長期觀察與歸納的上述種種關聯性,為了提升判斷裝置2的判斷能力,應優先考慮擷取與時間以及資料亂度相關的參數或指標做為學習訓練與後續進行判斷的依據。在以上前提下,特徵擷取模組21包含一欄位資訊量擷取單元211與一時間戳記量擷取單元212。
在學習階段時,欄位資訊量擷取單元211可自每一基準真相表單資料GF中擷取反應資料亂度之一學習用欄位資訊量,並在判斷每一待判斷表單資料JF是自動輸入或手動輸入時(即判斷階段時),自待判斷表單資料JF中擷取反應資料亂度之一判斷用欄位資訊量。
欄位資訊量擷取單元212可依據一欄位熵演算法加以運作而獲得學習用欄位資訊量與判斷用欄位資訊量,且欄位熵演算法係為
,其中
,k表示資料欄位類型的數量,表示共包含k種資料欄位類型,
表示該k種資料欄位類型中的第i種資料欄位類型的數量,其中i、k與
皆為自然數。其中,由於欄位熵演算法是一個機率的對數函數,機率必然小於1,且小於1的數值取對數的結果必然為負值,因此必須加負號還原成正的數值。
除了上述之欄位熵演算法之外,欄位資訊量擷取單元212也可擷取與其他與資料亂度相關參數,譬如資料重複率(具有相同資料的欄位數或資料總數或所占比例)或資料相似度(資料內容相同部分的比例)等作為學習用欄位資訊量與判斷用欄位資訊量。
時間戳記量擷取單元212可提供一時間戳記指定介面(圖未示)以供一使用者在p個欄位中指定q個時間戳記欄位,在學習階段時依據一時間戳記量演算法擷取學習用時間戳記量,並在判斷階段時依據相同的時間戳記量演算法擷取判斷用時間戳記量。時間戳記量演算法可為
,其中
表示q個時間戳記欄位中第j個時間戳記欄位所對應的r列資料中所包含之相異資料內容種類數,其中j、
、p、q與r皆為自然數,且p>q。
時間戳記欄位的資料內容雖然不一定必須是時間本身,但是最好跟時間有關,譬如可反應時間順序的序號或流水編號等。此外,雖然在本實施例中,時間戳記量演算法是取所有時間戳記欄位中相異資料內容種類數的最大值,在實際應用時,也可採用所有時間戳記欄位中相異資料內容種類數之算術平均數、中位數或眾數作為時間戳記量。
關於(學習用或判斷用)欄位資訊量的擷取,舉例而言,如表二所示,一表單資料包含銷售日期、品牌、型號、數量、單價與銷售金額共6個欄位,其中,銷售日期屬於時間類欄位;品牌與型號屬於文字類欄位;數量、單價與銷售金額屬於數字類欄位。因此共有時間類欄位、文字類欄位與數字類欄位共3種欄位,表示上述的k為3;時間類欄位的數量為1,表示
為1;文字類欄位的數量為2,表示
為2;且數字類欄位的數量為3,表示
為3。
第一種欄位(時間類欄位)的機率
,等於1/6;
第二種欄位(文字類欄位)的機率
,等於2/6;
第三種欄位(數字類欄位)的機率
,等於3/6;
帶入欄位熵演算法
,可以獲得欄位資訊量為0.4392473。當此表單資料為上述之基準真相表單資料GF時,則表示學習用欄位資訊量為0.4392473;當此表單資料為上述之待判斷表單資料JF時,則表示判斷用欄位資訊量為0.4392473。
關於(學習用或判斷用)時間戳記量的擷取,舉例而言,如表二所示,承以上所述,共有6個欄位代表P等於6,這6個欄位中只有銷售日期與時間相關,因此,使用者可藉由時間戳記量擷取單元212所提供一時間戳記指定介面(圖未示)指定「銷售日期」欄位為時間戳記欄位,表示q為1,表中的時間戳記欄位(「銷售日期」欄位)共有14列資料,表示r為14,唯一一個時間戳記欄位(「銷售日期」欄位)中的14列資料中只有「3月26日」、「3月27日」與「3月28日」這3種相異資料內容,代表相異資料內容種類數為3,也就是
為3。因為只有唯一一個時間戳記欄位,即q為1,所以
即為3,表示時間戳記量為3。當此表單資料為上述之基準真相表單資料GF時,則表示學習用時間戳記量為3;當此表單資料為上述之待判斷表單資料JF時,則表示判斷用時間戳記量為3。
表二:表單資料
| 銷售日期 | 品牌 | 型號 | 數量 | 單價 | 銷售金額 |
| 3月26日 | 品牌A | G655 | 47 | 1280 | 60160 |
| 3月26日 | 品牌B | E222 | 87 | 1100 | 95700 |
| 3月26日 | 品牌C | V990 | 35 | 880 | 30800 |
| 3月26日 | 品牌D | R448 | 25 | 1430 | 35750 |
| 3月26日 | 品牌B | E224 | 72 | 1077 | 77544 |
| 3月27日 | 品牌B | E222 | 67 | 1100 | 73700 |
| 3月27日 | 品牌A | G655 | 90 | 1280 | 115200 |
| 3月27日 | 品牌A | G900 | 18 | 880 | 15840 |
| 3月27日 | 品牌C | V980 | 42 | 999 | 41958 |
| 3月28日 | 品牌B | E224 | 24 | 1077 | 25848 |
| 3月28日 | 品牌D | U922 | 25 | 889 | 22225 |
| 3月28日 | 品牌C | V980 | 33 | 999 | 32967 |
| 3月28日 | 品牌C | V350 | 72 | 1372 | 98784 |
| 3月28日 | 品牌D | R448 | 36 | 1430 | 51480 |
雖然在以上的例子中,銷售日期、品牌、型號、數量、單價與銷售金額等6個欄位是橫向排列的6個欄位,但是在實務上,上述的欄位也可能是縱向排列的。當欄位是縱向排列時,上述的r列(橫向排列的)資料,可改以r行(縱向排列的)資料加以替代,所採用的特徵擷取方式,包含(學習用或判斷用)欄位資訊量的擷取以及(學習用或判斷用)時間戳記量也與以上描述內容相似,只是縱橫互換與行列互換而已,以下不再予以贅述。
監督式學習模組22係依據基準真相表單資料GF所對應之學習用欄位資訊量與學習用時間戳記量與初始基準真相(可以利用自動輸入標記A或手動輸入標記M加以代表),進行一學習演算而產生一判斷演算模型。針對學習演算部分,較佳者,學習演算可包含至少一基礎演訓練算法,且基礎訓練演算法包含K-最鄰近演算法(KNN)、支援向量機(SVM)演算法、決策樹(Decision Tree)演算法與回歸(Regression)演算法中之至少一者。更佳者,學習演算除了使用基礎演訓練算法之外,還可再包含至少一擬合演算法,且擬合演算法包含隨機森林(Random Forest)演算法與極限梯度提升(XGBoost)中之至少一者。判斷演算模型是指藉由進行上述的學習演算而自動推導所建立的數學演算模型。
由於上述學習演算技術(包含基礎訓練演算法與擬合演算法)都是目前已相當成熟的演算技術,舉凡在所屬領域中具有通常知識者皆可利用以上所述之演算法或其組合來建構上述之判斷演算模型,以下不再予以贅述。
判斷模組23可包含一判斷單元231與一標記單元232。判斷單元231係依據判斷演算模型與每一待判斷表單資料所對應之判斷用欄位資訊量與判斷用時間戳記量,判斷每一待判斷表單資料以對應產生用以預測每一待判斷表單資料JF為自動輸入或手動輸入之一判斷結果,據以產生複數個判斷結果。標記單元232係依據判斷結果對每一待判斷表單資料賦予一自動輸入標記A或一手動輸入標記M後,再儲存於資料儲存裝置1。
簡單而言,判斷演算模型就是用以在學習階段學習訓練如何依據學習用欄位資訊量與學習用時間戳記量推導出初始基準真相(可以利用自動輸入標記A或手動輸入標記M加以代表),以便於在判斷階段依據判斷用欄位資訊量與判斷用時間戳記量推導預測出判斷結果(同樣也可以利用自動輸入標記A或手動輸入標記M加以代表)。
舉例而言,如表三所示,資料儲存裝置1也儲存了10個待判斷表單資料JF,對應之序號分別為1001~1010,因此會完成判斷後對應地產生10個判斷結果。其中序號為1001、1003與0005之待判斷表單資料之判斷結果為藉由手動輸入方式輸入的,因此,標記單元232會將序號為1001、1003與0005之待判斷表單資料賦予手動輸入標記M,其餘待判斷表單資料之判斷結果為藉由自動輸入的,標記單元232則會賦予自動輸入標記A。
表三:待判斷表單資料之判斷結果與標記
| 待判斷表單資料序號 | 判斷結果 | 標記 |
| 1001 | 手動輸入 | M |
| 1002 | 自動輸入 | A |
| 1003 | 手動輸入 | M |
| 1004 | 自動輸入 | A |
| 1005 | 手動輸入 | M |
| 1006 | 自動輸入 | A |
| 1007 | 自動輸入 | A |
| 1008 | 自動輸入 | A |
| 1009 | 自動輸入 | A |
| 1010 | 自動輸入 | A |
在將判斷結果儲存於資料儲存裝置1後,判斷裝置2可對資料輸入終端裝置3a~3c發出推播信號,請資料輸入終端裝置3a~3c之操作者驗證判斷結果是否正確。在資料輸入終端裝置3a~3c,在驗證出待判斷表單資料所對應之判斷結果錯誤時,利用回饋操作介面32a~32c對應地輸入回饋基準真相。此時,對應的待判斷表單資料會被定義為一判斷異常表單資料。在驗證出待判斷表單資料所對應之判斷結果正確時,可輸入判斷正確信息。回饋基準真相與判斷正確信息都會被傳送至判斷裝置2。
驗證示警模組24可包含一驗證單元241、一示警單元242、一驗證週期設定介面243與一判斷準確度計算單元244。驗證單元241在判斷裝置2收到回饋基準真相時,會將對應的待判斷表單資料會被定義為一判斷異常表單資料,並認定判斷結果與回饋基準真相不符。此時,驗證單元241會將回饋基準真相列為對應於判斷異常表單資料之追認基準真相,且示警單元242會發出一判斷異常提示信息。
相反地,驗證單元241在判斷裝置2收到判斷正確信息時,會將對應的待判斷表單資料會被定義為一判斷正確表單資料,並認定判斷結果與回饋基準真相相符。此時,驗證單元241會直接將判斷結果列為對應於判斷正確表單資料之追認基準真相。接著,驗證單元241可將判斷異常表單資料與對應之追認基準真相傳送至儲存至資料儲存裝置1,以分別作為新增的基準真相表單資料與初始基準真相,藉以供監督式學習模組22重新進行學習演算而修改判斷演算模型。
驗證週期設定介面243可進一步用以供設定一驗證週期,藉以依據驗證週期而週期性地將判斷異常表單資料與追認基準真相作為基準真相表單資料與初始基準真相,以供監督式學習模組依據該驗證週期而週期性地進行學習演算,藉以週期性地修改判斷演算模型。判斷準確度計算單元244則會統計帶判斷表單資JF中被定義為判斷異常表單資料與判斷正確表單資料的數量,藉以在計算出每一個驗證週期期間進行判斷之判斷準確度。驗證週期可依據需要獲悉判斷正確性之統計週期需求、表單資料數量的多寡或其他需求而定,可設定為每天驗證一次、每週驗證一次、每月驗證一次或每季驗證一次等。
舉例而言,承襲表三之判斷結果,如表四所示,在資料輸入終端裝置3a~3c之操作者驗證判斷結果後,發現序號為1003之待判斷表單資料之判斷結果為手動輸入,但實際上序號為1003之待判斷表單資料卻是自動輸入的,因此可利用回饋操作介面32a~32c中之一者對應地輸入應為「自動輸入」之回饋基準真相,此時,驗證單元241會將序號為1003之待判斷表單資料定義為判斷異常表單資料,並回饋基準真相(自動輸入)列為判斷異常表單資料(即序號為1003之待判斷表單資料)之追認基準真相,並儲存於資料儲存裝置1。示警單元242會發出一判斷異常提示信息,藉以提示利用目前所建立的數學演算模型來判斷序號為1003之待判斷表單資料時所產生之判斷結果是錯誤的。
相反地,在資料輸入終端裝置3a~3c之操作者驗證判斷結果後,發現其餘序號之待判斷表單資料之判斷結果皆為正確,則可藉由回饋操作介面32a~32c輸入判斷正確信息,此時,驗證單元241會直接把其餘序號之待判斷表單資料定義為判斷正確表單資料,並直接將所對應之判斷結果列為追認基準真相,也一併儲存於資料儲存裝置1。
在每一個驗證週期期間,可累積多個已完成驗證之待判斷表單資料JF與對應的追認基準真相,並進入下個驗證週期時,將所累積之已完成驗證之部分或全部待判斷表單資料JF(如判斷異常表單資料,或者同時包含判斷異常表單資料與判斷正確表單資料)與對應之追認基準真相分別作為新增的基準真相表單資料與對應之初始基準真相。
判斷準確度計算單元244會統計出在10件待判斷表單資料中,只有1件(即序號為1003之待判斷表單資料)為判斷異常表單資料,其餘9件待判斷表單資料為判斷正確表單資料。據此,判斷準確度計算單元244可計算出在本次驗證週期期間,判斷系統100判斷待判斷表單資料JF為自動輸入或手動輸入之判斷準確度為90%。同時,判斷準確度計算單元244也可以順帶統計出在本次驗證週期期間的表單資料自動化率,如表四中之追認基準真相所呈現之結果,在本次驗證週期期間,共有8個自動輸入之表單資料, 2個手動輸入之表單資料,代表在本次驗證週期期間的表單資料自動化率為80%。
表四:對判斷結果進行驗證之結果
| 待判斷表單資料序號 | 判斷結果 | 回饋基準真相 | 追認基準真相 | 判斷正確性 |
| 1001 | 手動輸入 | - | 手動輸入 | 正確 |
| 1002 | 自動輸入 | - | 自動輸入 | 正確 |
| 1003 | 手動輸入 | 自動輸入 | 自動輸入 | 錯誤 |
| 1004 | 自動輸入 | - | 自動輸入 | 正確 |
| 1005 | 手動輸入 | - | 手動輸入 | 正確 |
| 1006 | 自動輸入 | - | 自動輸入 | 正確 |
| 1007 | 自動輸入 | - | 自動輸入 | 正確 |
| 1008 | 自動輸入 | - | 自動輸入 | 正確 |
| 1009 | 自動輸入 | - | 自動輸入 | 正確 |
| 1010 | 自動輸入 | - | 自動輸入 | 正確 |
在經過多個驗證週期的判斷、驗證與重新進行學習演算而修改判斷演算模型等步驟,判斷系統100判斷待判斷表單資料JF為自動輸入或手動輸入之判斷準確度可逐漸提升,直到判斷準確度提升到一目標準確度(如99.99%)以上,表示判斷系統100之判斷能力已達到一定程度的信心水準,此時可以延長驗證週期(譬如由每一季驗證一次延長為每一年驗證一次),甚至可以直接接受判斷結果,也就是把判斷系統100每一次進行判斷所得到之判斷結果都直接當成是基準真相而加以採信,不需要再進行後續的驗證。
進一步地,可將檢驗資源(包含人員、設備與/或工具軟體等)集中投注於對手動輸入資料產生的表單資料(也就是具有手動輸入標記M)的表單資料(特別是指經過驗證為手動輸入的基準真相表單資料GF)進行檢驗,並更正手動輸入資料產生的表單資料中的錯誤以提升表單資料之整體正確率。此外,也可以藉由增加對手動輸入之表單資料的抽檢率,與降低對自動輸入之表單資料的抽檢率的方式,在不增加檢驗的總工作負擔(總投注的檢驗資源)下,有效率地提升表單資料之整體正確率。
由於上述之特徵擷取模組21、監督式學習模組22、判斷模組23與驗證示警模組24都是再執行判斷程式JAP所產生的,因此,特徵擷取模組21、監督式學習模組22、判斷模組23與驗證示警模組24在本質上可以是判斷程式JAP之(部分)主程式、副程式或執行判斷程式JAP後所產生之程式頁面或功能介面。舉凡在所屬技術領域(特別是人工智慧演算法領域)中具有通常知識者,都可以依據以上學習與判斷邏輯,利用適當的程式語言來編寫具備上述之特徵擷取模組21、監督式學習模組22、判斷模組23與驗證示警模組24功能之判斷程式JAP(含其主程式或副程式),藉以實現本發明之上述種種技術。
綜合以上所述,由於在本發明所提供之表單資料輸入方式判斷系統100中,係特別依據長期對表單資料為自動輸入或手動輸入之間的關聯性與規則性之觀察結果,特別選擇與時間與資料亂度相關之欄位資訊量與時間戳記量,作為後續進行學習訓練與判斷之重要特徵依據,據此進行監督式學習訓練而在短時間內建立較高信心水準之判斷演算模型與獲得較高判斷準確率之判斷結果。
進一步地,可藉由利用判斷裝置2週期性地進行判斷、驗證、示警與產生追認基礎真相的方式,修正錯誤的判斷結果,據以重新進行學習演算而修改判斷演算模型,藉此,不但可以達到自動判斷輸入方式之功效,更可以在較短的時間內大幅提升判斷準確度。在獲得判斷正確率更高的判斷結果後,更可進一步將檢驗資源(包含人員、設備與/或工具軟體等)集中投注於對手動輸入資料產生的表單資料進行檢驗,藉以進一步達到有效提升表單資料整體的正確率之功效。
藉由以上較佳具體實施例之詳述,係希望能更加清楚描述本發明之特徵與精神,而並非以上述所揭露的較佳具體實施例來對本發明之範疇加以限制。相反地,其目的是希望能涵蓋各種改變及具相等性的安排於本發明所欲申請之專利範圍的範疇內。
100:判斷系統
1:資料儲存裝置
2:判斷裝置
21:特徵擷取模組
211:欄位資訊量擷取單元
212:時間戳記量擷取單元
22:監督式學習模組
23:判斷模組
231:判斷單元
232:標記單元
24:驗證示警模組
241:驗證單元
242:示警單元
243:驗證週期設定介面
244:判斷準確度計算單元
3a~3c:資料輸入終端裝置
31a~31c:資料輸入介面
32a~32c:回饋操作介面
GF:基準真相表單資料
JF:待判斷表單資料
JAP:判斷程式
第一圖係顯示本發明較佳實施例所提供之表單資料輸入方式判斷系統之功能方塊示意圖。
100:判斷系統
1:資料儲存裝置
2:判斷裝置
21:特徵擷取模組
211:欄位資訊量擷取單元
212:時間戳記量擷取單元
22:監督式學習模組
23:判斷模組
231:判斷單元
232:標記單元
24:驗證示警模組
241:驗證單元
242:示警單元
243:驗證週期設定介面
244:判斷準確度計算單元
3a~3c:資料輸入終端裝置
31a~31c:資料輸入介面
32a~32c:回饋操作介面
GF:基準真相表單資料
JF:待判斷表單資料
JAP:判斷程式
Claims (10)
- 一種表單資料輸入方式判斷系統,包含: 一資料儲存裝置,係儲存有複數個基準真相表單資料與複數個待判斷表單資料,該些基準真相表單資料係對應地具有用以定義為自動輸入或手動輸入之複數個初始基準真相;以及 一判斷裝置,係通信連結於該資料儲存裝置以擷取該些基準真相表單資料與該些待判斷表單資料,並且在安裝與執行一判斷程式後產生: 一特徵擷取模組,係自每一該些基準真相表單資料中擷取反應資料亂度之一學習用欄位資訊量與一學習用時間戳記量,使該些基準真相表單資料具有對應之複數個上述之學習用欄位資訊量與複數個上述之學習用時間戳記量,並自每一該些待判斷表單資料中擷取反應資料亂度之一判斷用欄位資訊量與一判斷用時間戳記量; 一監督式學習模組,係依據該些基準真相表單資料所對應之該些學習用欄位資訊量與該些學習用時間戳記量與其中一該些初始基準真相,進行一學習演算而產生一判斷演算模型; 一判斷模組,係依據該判斷演算模型與每一該些待判斷表單資料所對應之該判斷用欄位資訊量與該判斷用時間戳記量,判斷每一該些待判斷表單資料以對應產生用以預測每一該些待判斷表單資料為自動輸入或手動輸入之一判斷結果,據以產生複數個上述之判斷結果;以及 一驗證示警模組,係接收用以定義該些待判斷表單資料為自動輸入或手動輸入之複數個回饋基準真相,並在驗證出其中一該些待判斷表單資料所對應之其中一該些判斷結果與其中一該些回饋基準真相不符時,發出一示警信息,據以定義出一判斷異常表單資料與一追認基準真相,並將該判斷異常表單資料與該追認基準真相儲存至該資料儲存裝置以作為該些基準真相表單資料中之一者與該些初始基準真相中之一者,藉以供該監督式學習模組重新進行該學習演算而修改該判斷演算模型。
- 如請求項1所述之表單資料輸入方式判斷系統,更包含複數個資料輸入終端裝置,且該些基準真相表單資料與該些待判斷表單資料係由該些資料輸入終端裝置傳送至該資料儲存裝置加以儲存。
- 如請求項2所述之表單資料輸入方式判斷系統,其中,每一該些資料輸入終端裝置更包含一回饋操作介面,以供每一該些資料輸入終端裝置之一操作者在驗證出其中一該些待判斷表單資料所對應之其中一該些判斷結果錯誤時,對應地輸入該些回饋基準真相中之一者。
- 如請求項3所述之表單資料輸入方式判斷系統,其中,該驗證示警模組更包含一驗證週期設定介面,以供設定一驗證週期,藉以依據該驗證週期而週期性地將該判斷異常表單資料與對應之該追認基準真相分別作為上述該些基準真相表單資料中之一者與對應之上述該些初始基準真相中之一者,以供該監督式學習模組依據該驗證週期而週期性地進行該學習演算。
- 如請求項4所述之表單資料輸入方式判斷系統,其中,該驗證示警模組更包含一判斷準確度計算單元,用以統計在該驗證週期,已完成判斷之該些待判斷表單資料之數量,以及被定義為該判斷異常表單資料之數量,據以計算出一判斷準確度。
- 如請求項1所述之表單資料輸入方式判斷系統,其中,該資料儲存裝置為一資料儲存伺服器,且該判斷裝置係為一運算伺服器。
- 如請求項1所述之表單資料輸入方式判斷系統,其中,該特徵擷取模組更包含一欄位資訊量擷取單元,且該欄位資訊量擷取單元係依據一欄位熵演算法加以運作而獲得該學習用欄位資訊量與該判斷用欄位資訊量,且該欄位熵演算法係為 ,其中 ,k表示資料欄位類型的數量,表示共包含k種資料欄位類型, 表示該k種資料欄位類型中的第i種資料欄位類型的數量,其中i、k與 皆為自然數。
- 如請求項1所述之表單資料輸入方式判斷系統,其中,在該特徵擷取模組更包含一時間戳記量擷取單元,且該時間戳記量擷取單元供一使用者在p個欄位中指定q個時間戳記欄位,並依據一時間戳記量演算法擷取該學習用時間戳記量與該判斷用時間戳記量,且該時間戳記量演算法係 ,其中 表示q個時間戳記欄位中第j個時間戳記欄位所對應的r列資料中所包含之相異資料內容種類數,其中j、 、p、q與r皆為自然數,且p>q。
- 如請求項1所述之表單資料輸入方式判斷系統,其中,該判斷模組更包含一標記單元,且該標記單元係依據該判斷結果對每一該些待判斷表單資料賦予一自動輸入標記或一手動輸入標記後,再儲存於該資料儲存裝置。
- 如請求項1所述之表單資料輸入方式判斷系統,其中,該監督式學習模組所進行之該學習演算包含至少一基礎演訓練算法與至少一擬合演算法,該至少一基礎訓練演算法包含K-最鄰近演算法(KNN)、支援向量機(SVM)演算法、決策樹(Decision Tree)演算法與回歸(Regression)演算法中之至少一者,且該至少一擬合演算法包含隨機森林(Random Forest)演算法與極限梯度提升(XGBoost)中之至少一者。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112123637A TWI845355B (zh) | 2023-06-26 | 2023-06-26 | 表單資料輸入方式判斷系統 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112123637A TWI845355B (zh) | 2023-06-26 | 2023-06-26 | 表單資料輸入方式判斷系統 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TWI845355B true TWI845355B (zh) | 2024-06-11 |
| TW202501334A TW202501334A (zh) | 2025-01-01 |
Family
ID=92541729
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW112123637A TWI845355B (zh) | 2023-06-26 | 2023-06-26 | 表單資料輸入方式判斷系統 |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI845355B (zh) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW200421152A (en) * | 2003-02-01 | 2004-10-16 | Baxter Int | Remote multi-purpose user interface for a healthcare system |
| TW200632801A (en) * | 2004-10-08 | 2006-09-16 | Univ Utah Res Found | System for supervised remote training |
| WO2022133210A2 (en) * | 2020-12-18 | 2022-06-23 | Strong Force TX Portfolio 2018, LLC | Market orchestration system for facilitating electronic marketplace transactions |
| CN116113967A (zh) * | 2020-07-16 | 2023-05-12 | 强力交易投资组合2018有限公司 | 用于控制数字知识相关权利的系统和方法 |
-
2023
- 2023-06-26 TW TW112123637A patent/TWI845355B/zh active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW200421152A (en) * | 2003-02-01 | 2004-10-16 | Baxter Int | Remote multi-purpose user interface for a healthcare system |
| TW200632801A (en) * | 2004-10-08 | 2006-09-16 | Univ Utah Res Found | System for supervised remote training |
| CN116113967A (zh) * | 2020-07-16 | 2023-05-12 | 强力交易投资组合2018有限公司 | 用于控制数字知识相关权利的系统和方法 |
| WO2022133210A2 (en) * | 2020-12-18 | 2022-06-23 | Strong Force TX Portfolio 2018, LLC | Market orchestration system for facilitating electronic marketplace transactions |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202501334A (zh) | 2025-01-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111752833B (zh) | 一种软件质量体系准出方法、装置、服务器及存储介质 | |
| US12020046B1 (en) | Systems and methods for automated process discovery | |
| CN113592017B (zh) | 一种深度学习模型标准化训练方法、管理系统、处理终端 | |
| WO2020082673A1 (zh) | 发票检验方法、装置、计算设备和存储介质 | |
| CN112559817B (zh) | 一种报表内容校验方法、系统、计算机设备及存储介质 | |
| CN112632174B (zh) | 一种数据检验的方法、装置和系统 | |
| US11816112B1 (en) | Systems and methods for automated process discovery | |
| US10423916B1 (en) | Method for generating developer performance ratings | |
| CN113255525A (zh) | 机械水表读数方法及系统 | |
| CN114168565B (zh) | 业务规则模型的回溯测试方法、装置、系统及决策引擎 | |
| CN111309586A (zh) | 一种命令测试方法、装置及其存储介质 | |
| CN108897765A (zh) | 一种数据批量导入方法及其系统 | |
| CN114066438A (zh) | 基于模型的监控数据展示方法、装置、设备和存储介质 | |
| CN110287110A (zh) | 应用程序的代码检测方法及装置 | |
| CN120892321B (zh) | 软件缺陷处理方法、电子设备、存储介质和程序产品 | |
| TWI845355B (zh) | 表單資料輸入方式判斷系統 | |
| CN114327377B (zh) | 需求跟踪矩阵生成方法、装置、计算机设备及存储介质 | |
| JP2020057345A (ja) | 情報処理装置、学習装置、情報処理システム、情報処理方法及びコンピュータプログラム | |
| CN114841663A (zh) | Gps设备安装质量的核验方法、装置、设备及存储介质 | |
| JP2020052981A (ja) | 情報処理装置、学習装置、情報処理システム、情報処理方法及びコンピュータプログラム | |
| CN119416270A (zh) | 一种数据校验方法、装置、设备及可读存储介质 | |
| US12373639B2 (en) | System for judging input mode of form data | |
| CN115077906B (zh) | 发动机高发故障起因件确定方法、装置、电子设备及介质 | |
| CN112328951B (zh) | 一种分析样品的实验数据的处理方法 | |
| CN119442118B (zh) | 清算数据异常检测方法、装置、设备及介质 |