TWI897103B - 紙本發票轉電子資料的發票處理系統與方法 - Google Patents
紙本發票轉電子資料的發票處理系統與方法Info
- Publication number
- TWI897103B TWI897103B TW112144585A TW112144585A TWI897103B TW I897103 B TWI897103 B TW I897103B TW 112144585 A TW112144585 A TW 112144585A TW 112144585 A TW112144585 A TW 112144585A TW I897103 B TWI897103 B TW I897103B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- file
- invoice
- processing
- ocr
- Prior art date
Links
Landscapes
- Character Input (AREA)
Abstract
本發明提供一種全面性的發票處理方法與系統,該方法涵蓋從掃描、光學字符識別(OCR)到數據修正和最終轉換為會計系統可接受格式的全過程。該方法使用三個不同的文件來存儲和處理數據,並利用顯示介面進行手動修正,以確保數據的準確性。此外,該方法還包括一個可定制的轉換模組,用於將數據轉換為與不同會計系統兼容的格式。通過自動和手動的數據驗證技術,以及錯誤記錄和報告功能,該方法不僅提高了發票處理的整體效率,也增強了數據的準確性和可靠性。
Description
本發明涉及資料處理和管理的領域,特別是一種發票數據的處理的方法與系統。
發票處理涉及處理多種類型和格式的發票。傳統的發票處理方法通常涉及手動資料輸入,這是耗時、容易出錯且低效的程序。此外,手動分類和排序發票可能是一項繁重的任務,尤其是當處理大量發票時。
光學字符識別(OCR)技術已被用於自動化將掃描得到的發票圖像轉換為機器可讀文本的過程。然而,OCR技術並非無懈可擊,經常會出現錯誤。這些錯誤可能是由於多種因素造成的,例如掃描質量差、字體變化、字符間距以及相似外觀字符之間的混淆。因此,從OCR獲得的數據通常需要進一步的修正和驗證以確保其準確性。
此外,從發票中提取的數據通常需要進一步處理以與各種會計系統兼容。這可能涉及將數據轉換為會計系統可接受的特定格式。手動將數據轉換為不同格式可能是一項繁瑣且容易出錯的任務。
因此,儘管已經整合了OCR技術,傳統的發票處理方法在效率、準確性和與各種會計系統的兼容性方面仍面臨挑戰。
本發明的其中一目的是提供一種高效且準確的處理發票資料的
方法,該方法包括分類並掃描多張發票、使用OCR技術將掃描得到的發票資訊轉換為數據、將轉換後的該數據記錄到一第一檔案中、將該數據從該第一檔案轉移到第二檔案以進行數據修正、將修正後的該數據從該第二檔案轉移到一第三檔案、在一顯示介面上同時顯示所述發票的圖像和相應的數據,以便手動修正,以及將修正後的該數據轉換為一會計系統可接受的格式。為了達到上述和其他目的,該方法特色在於第二檔案包括用於修正第一檔案中的數據的演算法。
在上述方法中,第一檔案、第二檔案和第三檔案可以是Excel檔案。第二檔案中的演算法可以根據在OCR技術中觀察到的常見錯誤模式而定制。發票可以根據發票類型進行分類。這些類別可以包括銷項手開三聯式發票、銷項手開二聯式發票、進項手開三聯式發票、進項機開三聯發票、進項機開二聯式發票和銷貨退回、進貨退出或折讓證明單。
在上述方法中,顯示介面允許手動修正與發票圖像相對應的數據。演算法使用數據驗證技術來修正數據。這些數據驗證技術可以包括規則驗證、模式匹配、範圍檢查、列表驗證、多階段驗證、手動審查以及錯誤記錄和報告。
在上述方法中,使用到的資料夾和檔案是用特定的符號和命名規則進行命名和管理,以便更容易識別和自動處理。這些符號和命名規則可以基於發票類型而定制。從第二檔案轉移的修正後數據存儲在第三檔案中,該第三檔案不包含任何公式或巨集指令,以優化性能。第一檔案和第三檔案可以是XLSX檔案,第二檔案可以是XLSM檔案。該方法中的OCR技術可以在Microsoft Power Automate平台上執行。
本發明的另外一目的是提供用於處理發票數據的系統,用於執行上述的處理發票資料的方法。該系統包括一掃描器、一OCR模組、一第一檔案、一第二檔案、一第三檔案、一顯示介面、與一轉換模組。掃描器用於掃描多張發
票,而OCR模組用於將掃描得到的發票資訊轉換為數據。第一檔案用於接收和存儲轉換後的數據,而第二檔案用於接收來自第一檔案的數據並進行數據修正,其中第二檔案包括用於修正數據的演算法。另外,第三檔案用於接收和存儲來自第二檔案的修正後的數據。此外,顯示介面用於同時顯示發票的圖像和相應的數據,以便手動修正。轉換模組則用於將修正後的數據轉換為會計系統的可接受格式。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉較佳實施例,並配合所附圖式,作詳細說明如下。
S110~S170:流程圖步驟
100:發票數據處理系統
110:掃描器
120:OCR模組
130:第一檔案
140:第二檔案
142:數據修正演算法
150:第三檔案
160:顯示介面
170:轉換模組
200:會計系統
10:發票
圖1所繪示為本發明的發票數據處理方法的流程圖。
圖2所繪示為本發明的發票數據處理系統。
圖3所繪示為在顯示介面上同時顯示發票圖像和相應的數據。
圖4所繪示為本發明的其中一實施例中用於命名資料夾和檔案之特定的符號和命名規則。
參照本文闡述的詳細內容和附圖說明能較佳理解本發明。下面參照附圖會討論各種實施例。然而,本領域技術人員將容易理解,這裡關於附圖給出的詳細描述僅僅是為了解釋的目的,因為這些方法和系統可超出所描述的實施例。例如,所給出的教導和特定應用的需求可能產生多種可選的和合適的方法來實現在此描述的任何細節的功能。因此,任何方法可延伸超出所描述和示出的以下實施例中的特定實施選擇範圍。
請參照圖1,圖1所繪示為本發明的發票數據處理方法的流程圖,
此方法涉及多個步驟。首先,請參照步驟S110,對多張發票進行分類和掃描。在本實施例中,發票10的分類基於發票的類型,這取決於所在國家或地區的特定的商業或會計背景。一旦發票被分類和掃描,便執行步驟S120,將發票的掃描資訊轉換為數據。這一轉換過程利用光學字符識別技術(以下簡稱OCR技術),該OCR技術能將發票掃描後的圖像轉換為電腦可判讀的文本。
掃描資訊轉換為數據後,執行步驟S130,將轉換後的數據轉寫到第一檔案中。這個第一檔案作為轉換後數據的儲存處,允許對數據進行後續處理和操作。第一檔案通常是一個Excel檔案,提供了一種方便且廣泛使用的儲存和處理數據的格式。
轉換後的數據轉寫到第一檔案後,執行步驟S140,將數據從第一檔案轉移到第二檔案以進行數據修正。第二檔案包括用於修正第一檔案中的數據的演算法。這些演算法根據在OCR技術中觀察到的常見錯誤模式進行定制。通過修正這些常見錯誤,可以顯著提高數據的準確性。
第二檔案中的數據被修正後,執行步驟S150,將修正後的數據從第二檔案轉移到第三檔案。這個轉移過程旨在維護一個不包含任何公式或程式的檔案,從而提高性能優化。在本實施例中,第一檔案、第二檔案、和第三檔案都是一個Excel檔案。
除了數據修正和轉移過程外,該方法還涉及在顯示介面上同時顯示發票圖像和相應的數據(如步驟S160所示)。這個顯示介面允許手動修正與發票圖像相對應的數據。通過提供發票圖像與相應數據的視覺表示,用戶可以輕鬆識別並修正數據中的任何差異或錯誤。
之後,執行步驟S170,將修正後的數據轉換為會計系統可接受的格式。這個轉換過程確保處理後的發票數據可以無縫地集成到現有的會計系統中,從而促進高效和準確的會計實踐。
以下,將對上述方法的各步驟進行更詳細的介紹。請同時參照圖1與圖2,圖2所繪示為本發明的發票數據處理系統。該發票數據處理系統100包括幾個元件,每個元件都設計用於在整個過程中執行特定功能。這些元件包括一掃描器110、一光學字符識別模組(以下稱為OCR模組120)、一第一檔案130、一第二檔案140、一第三檔案150、一顯示介面160、和一轉換模組170。
顯示介面作為手動修正與發票圖像相對應的數據的視覺平台。該界面旨在向用戶呈現發票圖像和相應數據的並排視圖,從而提供一種清晰和直觀的方式來比較和驗證數據的準確性。
轉換模組是一個軟體元件,設計用於執行數據轉換任務。它包括一組預定義的規則和演算法,用於指示如何將第三檔案中的數據轉換為會計系統可接受的格式。轉換模組可以定制以適應不同的會計系統,從而確保該方法是靈活和多功能的。
該方法的初始步驟,亦即:步驟S110,是對多張發票10進行分類和掃描。這一步涉及根據發票10的類型將發票10分類到不同的類別中。發票10的分類不是任意的,而是由發票10本身固有的特定特性決定的。這些特性可以包括但不限於,由發票表示的交易的性質、參與交易的各方,以及發票的格式或結構。
在本實施例中,發票10被分為六個類別。這些類別包括銷項手開三聯式發票、銷項手開二聯式發票、進項手開三聯式發票、進項機開三聯發票、進項機開二聯式發票、和銷貨退回、進貨退出或折讓證明單。每一個類別代表一種在商業和會計實踐中常見的不同類型的發票。
一旦發票被分類,便進行掃描。掃描是由掃描器110來執行,它負責掃描發票並將其轉換為數位圖像。掃描器110可以是任何能夠捕捉發票的高品質圖像的設備,例如平板掃描器或檔案餵送器掃描器(document feeder scanner)。掃描器旨在捕捉發票中包含的所有相關資訊,包括文本資訊、數值資
訊以及發票上可能存在的任何其他符號或標記。
掃描過程涉及捕獲每張發票的圖像,然後可以執行步驟S120,由OCR模組120進行處理和分析。掃描過程旨在捕獲發票中包含的所有相關資訊,包括文本資訊、數字資訊以及發票上可能存在的任何其他符號或標記。掃描過程的結果是發票的數位圖像,這作為後續OCR過程的輸入。
也就是說,掃描和分類發票後,該方法繼續將掃描得到的發票資訊轉換為數據。在本實施例中,這一轉換過程是通過使用OCR模組120來實現的。OCR模組120執行OCR技術,而OCR技術是一種能夠將不同類型的文檔(如掃描的紙質文檔、PDF檔案或由數位相機捕獲的圖像)中的文字影像轉換為可編輯和可搜索的數據。OCR模組120負責將掃描的發票圖像轉換為電腦軟體可讀的文本。這涉及分析掃描圖像的結構,並識別和提取圖像內部包含的文本資訊。OCR模組120可以識別各種字符和符號,包括字母、數字和特殊字符。這允許從發票中全面提取所有相關資訊,不僅僅是發票的主要文本,還有可能存在的任何其他資訊或註釋。也就是說,OCR技術用於將掃描得到的發票圖像轉換為機器可讀的文本,然後將提取的文本轉換為數據,該數據可以以數字格式儲存、操作和分析。此外,在步驟S120中,OCR模組120允許從發票10中全面提取所有相關資訊,包括不僅是發票的主要文本,還包括可能存在的任何其他資訊或註釋。
值得注意的是,儘管OCR技術通常是準確和可靠的,但它並不是萬無一失的,有時會出現錯誤。這些錯誤可能是由於多種因素造成的,例如掃描品質差、字體變化、字符間距以及相似外觀字符之間的混淆。因此,從OCR模組120獲得的數據通常需要進一步的修正和驗證以確保其準確性,這一過程由本發明方法的後續步驟來促進。
在本實施例中,使用的OCR技術是在Microsoft Power Automate平台上執行的。Microsoft Power Automate是由Microsoft提供的一種基於雲的服務,
允許用戶在多個應用程式和服務之間創建和管理自動化工作流。在本發明方法的背景下,Microsoft Power Automate用於自動化OCR過程,從而提高掃描發票資訊轉換為數據的效率和準確性。
一旦使用OCR技術將掃描得到的發票資訊轉換為數據,該方法的下一步,亦即:步驟S130,是將這些轉換後的數據轉寫到第一檔案130中。這個轉寫過程涉及將數據從其初始格式(由OCR過程產生)轉換為適合進一步處理和操作的格式。第一檔案130作為轉換後數據的儲存處,提供了一個結構化和有組織的格式來儲存數據,這有助於後續對數據進行如數據修正、數據驗證和數據轉移等操作。第一檔案130通常是一個Excel檔案,這是一種廣泛用於數據儲存和操作的格式。Excel檔案提供了一系列有益於處理發票數據的功能,例如能夠在行和列中組織數據、對數據進行計算,以及應用各種數據格式化和數據驗證規則。
值得注意的是,將轉換後的數據轉寫到第一檔案130不僅僅是一個簡單的複製過程。相反,它涉及將數據從其初始格式(由OCR過程產生)轉換為適合進一步處理和操作的格式。這個轉換過程可能涉及各種操作,如數據格式化、數據清理和數據驗證,這些都是為了確保數據處於適合後續步驟的狀態。
在本實施例中,第一檔案130作為轉換後數據的初始儲存處,它提供了後續數據修正和數據轉移過程的起點,並作為手動修正過程的參考點。通過將轉換後的數據儲存在第一檔案130中,該方法確保數據可隨時用於這些後續過程,從而促進發票數據的高效和準確處理。
在將轉換後的數據轉寫到第一檔案130之後,該方法進行下一步,即:步驟S140,將數據從第一檔案130轉移到第二檔案140以進行數據修正。這個轉移過程旨在促進修正在OCR過程中可能引入的任何錯誤或不準確之處。第二檔案140作為應用各種數據修正演算法142的平台,這些演算法旨在識別和修正數據中的常見錯誤模式。
第二檔案140中的數據修正演算法142是根據在OCR技術中觀察到的常見錯誤模式來定制的。這些錯誤模式可能包括但不限於字符混淆、噪聲干擾、對齊和間距問題、字體和大小變化,以及手寫文本的困難。通過定制演算法以解決這些特定的錯誤模式,該方法可以顯著提高從OCR過程中獲得的數據的準確性。
數據修正演算法142通過將第一檔案130中的數據與一組預定義的規則或模式進行比較來運作。如果數據匹配已知的錯誤模式,演算法會對數據進行修正。這個修正過程可能涉及各種操作,例如替換不正確的字符、調整字符間距、糾正對齊問題,以及規範字體和大小變化。然後將修正後的數據儲存在第二檔案140中,以便進一步處理。
值得注意的是,步驟S140的數據修正過程不是一種一刀切的解決方案。相反,它是一個靈活和可適應的過程,可以根據數據中普遍存在的特定錯誤模式來定制。這種定制是通過在第二檔案140中使用演算法來促進的,這些演算法可以根據觀察到的錯誤模式進行調整和微調。這確保了數據修正過程盡可能有效和準確,從而提高了發票數據的整體品質和可靠性。
在第二檔案140中完成數據修正過程後,執行步驟S150,修正後的數據隨後被轉移到第三檔案150。這個轉移過程是整個方法的一個不可或缺的部分,具有特定的目的,即在數據處理工作流中優化性能。第三檔案150旨在成為一個乾淨和優化的檔案,不包含任何公式或程式。這與第二檔案140形成對比,後者包含用於數據修正的各種演算法和公式。
這個轉移過程的原因是為了維護一個性能優化的檔案。包含公式或程式的檔案(如第二檔案)可能會較慢地加載和處理。這在處理大量數據時可能是一個問題,這在發票處理中經常是這樣。通過將修正後的數據轉移到不包含任何公式或程式的第三檔案150,該方法確保數據可以快速和高效地被訪問和處
理。
第三檔案150,像第一檔案130一樣,通常也是一個Excel檔案。然而,不同於第一檔案130和第二檔案140,第三檔案150特別格式化為不包含任何公式或程式(演算法)。這是通過使用特定的檔案格式來實現的,例如XLSX,這是一種由Microsoft Excel使用的不支持巨集的檔案格式。通過使用這種檔案格式,此步驟確保第三檔案150是一個乾淨和優化的檔案,適合進一步處理和操作。
總之,將修正後的數據從第二檔案140轉移到第三檔案150是該方法中的一個策略性步驟,旨在優化數據處理工作流的性能。通過維護一個乾淨和優化的第三檔案150。此步驟確保發票數據可以快速和高效地被處理,從而提高了發票處理方法的整體效率和有效性。
在將修正後的數據轉移到第三檔案150之後,執行步驟S160,在顯示介面160上同時顯示發票圖像和相應的數據(如圖3所示)。這個顯示介面160作為手動修正與發票圖像相對應的數據的視覺平台。顯示介面160旨在向用戶提供發票圖像和相應數據的並排視圖,從而提供了一種清晰和直觀的方式來比較和驗證數據的準確性。
顯示介面160旨在通過提供一種清晰和直觀的方式來比較和驗證數據的準確性,從而促進手動修正過程。通過並排顯示發票圖像和相應的數據,顯示介面160使用戶能夠輕易地識別數據中的任何不一致或錯誤。這種視覺比較過程在OCR過程導致數據中的錯誤或不準確的情況下尤為有用。通過視覺地比較發票圖像與相應的數據,用戶可以輕易地識別並修正這些錯誤,從而提高數據的整體準確性。
由顯示介面160促進的手動修正過程是整體方法的一個不可或缺的部分。儘管使用了先進的OCR技術和精密的數據修正演算法,仍然可能存在數據中的錯誤或不準確未被這些自動化過程檢測或修正的情況。在這種情況下,手
動修正過程提供了最後一層的品質把關,確保數據在被轉換為會計系統200可接受的格式之前盡可能準確和可靠。
總之,顯示介面160作為手動修正與發票圖像相對應的數據的工具。通過提供一種清晰和直觀的方式來比較和驗證數據的準確性,顯示介面160提高了發票處理方法的整體效率和有效性。
在由顯示介面160促進的手動修正過程之後,該方法進行到步驟S170,即將修正後的數據轉換為會計系統200可接受的格式。這個轉換過程是整體方法中的一個關鍵步驟,因為它確保了處理後的發票數據可以無縫地整合到現有的會計系統中,從而促進高效和準確的會計實踐。
在此步驟S170中,轉換過程涉及將儲存在第三檔案150中的修正後的數據轉換為與會計系統200兼容的格式。這涉及將第三檔案中的數據字段映射到會計系統200中的相應字段,並將數據值轉換為會計系統能識別的格式。這可能涉及各種操作,例如數據格式化、數據類型轉換和數據驗證,具體取決於會計系統200的特定要求。
為了促進這個轉換過程,該方法使用了一個轉換模組170。轉換模組170是一個設計用於執行數據轉換任務的軟體元件。它包括一組預定義的規則和演算法,用於指導如何將第三檔案150中的數據轉換為會計系統200可接受的格式。轉換模組170可以定制以適應不同的會計系統,從而確保該方法是靈活和多功能的。
轉換模組170通過讀取第三檔案150中的數據,應用轉換規則和演算法將數據轉換為所需格式,然後輸出轉換後的數據。轉換模組170的輸出是一組以會計系統可接受的格式呈現的數據。這些數據隨後可以導入到會計系統200中,從而完成發票處理工作流程。
總之,將修正後的數據轉換為會計系統200可接受的格式是該公
開方法中的一個策略性步驟,確保了處理後的發票數據可以無縫地整合到現有的會計系統中。通過使用轉換模組來促進這一過程,該方法確保了發票數據可以準確和高效地被處理,從而提高了發票處理方法的整體效率和有效性。
在本實施例中,採用了一個特定的過程來命名和管理資料夾和檔案。這個過程涉及使用特定的符號和命名規則,旨在促進資料夾和檔案的更容易識別和自動化處理。這些符號和命名規則是基於發票的類型,從而提供了一個邏輯和直觀的系統來組織和管理發票數據。
請參照圖4,圖4所繪示為本發明的其中一實施例中用於命名資料夾和檔案之特定的符號和命名規則。用於命名和管理過程中的符號代表不同類型的發票。例如,符號'▲'代表銷項發票,而符號'▼'代表進項發票。'ʃ'符號的數量表示發票是三聯式還是二聯式。例如,三個'ʃ'符號代表一個三聯式發票,而兩個'ʃ'符號代表一個二聯式發票。'III'或'II'符號的存在表示發票是由收銀機發出的,其中'III'代表三聯式的收銀機發票,而'II'代表二聯式的收銀機發票。'▲'和'▼'符號的組合代表銷貨退回、進貨退出或折讓證明單。
命名規則涉及將序列號或其他符號附加到代表發票類型的符號上。例如,檔案或資料夾名稱可能是'▲ʃʃ-1-xxx-load',其中'▲ʃʃ'代表手動發出的進項二聯式發票,'-1-'是一個序列號,'xxx'是額外資訊的占位符,而'load'則表示處理工作流程處於下載資料的階段。這些命名規則提供了一種系統化和一致的方式來命名和管理資料夾和檔案,從而促進發票數據的高效和準確處理。
通過使用這些特定的符號和命名規則,本實施例提供了一種高效和有效的方式來管理涉及發票處理工作流程的資料夾和檔案。這不僅提高了該方法的整體效率,而且提高了發票數據處理的準確性和可靠性,從而有助於提高發票處理方法的整體效果。
在上述的實施例中,提到第二檔案140中包含的數據修正演算法
142使用各種數據驗證技術來識別和修正數據中的常見錯誤模式。這些技術旨在提高從OCR過程獲得的數據的準確性和可靠性。以下,將對這些數據修正演算法舉例進行較詳細的介紹。
其中一種技術是規則驗證。這涉及將數據與一組預定義的規則或模式進行比較。如果數據匹配已知的錯誤模式,演算法會對數據進行修正。這可能涉及各種操作,例如替換不正確的字符、調整字符間距、糾正對齊問題,以及規範字體和大小的變化。演算法使用的另一種技術是模式匹配。這涉及識別數據中的特定模式或結構,例如日期、電話號碼或發票號碼。通過識別這些模式,演算法可以準確地提取和驗證相應的數據。
範圍檢查是演算法使用的另一種技術。這涉及將數值數據與預定義的範圍或限制進行比較。如果數據超出這個範圍,則會被標記為可能有誤,這一技術對於驗證數值數據(如發票金額或稅率)特別有用。列表驗證是演算法採用的另一種技術。這涉及將數據與一個預定義的有效值列表進行比較。如果數據與列表中的任何值都不匹配,則會被標記為可能有誤。這一技術對於驗證分類數據(如產品代碼或供應商名稱)特別有用。
演算法還採用了多階段驗證過程。這涉及按順序應用多種驗證技術。每個驗證過程的階段都旨在捕捉和糾正不同類型的錯誤,從而提高數據的整體準確性。
除了這些自動化驗證技術外,該方法還涉及手動審核過程。這涉及人工操作員審核數據並手動糾正任何錯誤或不一致。這一手動審核過程作為最終的品質控制層,確保數據盡可能地準確和可靠。
此外,演算法還包括錯誤記錄和報告功能。這涉及在錯誤日誌中記錄所有識別出的錯誤和相應的修正。這個錯誤日誌可以被審查和分析,以識別常見的錯誤模式並提高演算法的性能。錯誤日誌還作為數據修正過程的記錄,提
供透明度和問責制。
總之,第二檔案140中的數據修正演算法142使用各種數據驗證技術來提高從OCR過程獲得的數據的準確性和可靠性。這些技術,結合手動審核過程和錯誤記錄功能,確保數據盡可能地準確和可靠,從而提高了發票處理方法的整體效率和有效性。
總的來說,這項專利揭示了一種高效且準確的處理發票數據的方法和系統。該方法和系統利用先進的OCR技術和精密的數據修正演算法,以及手動審核過程和錯誤記錄功能,確保數據盡可能地準確和可靠。此外,該方法和系統還包括一個特定的過程來命名和管理資料夾和檔案,以及將修正後的數據轉換為會計系統可接受的格式,從而提高了發票處理方法的整體效率和有效性。這些特性使得該方法和系統對於處理大量發票數據的企業來說,具有很大的實用價值。
本發明說明如上,然其並非用以限定本創作所主張之專利權利範圍。其專利保護範圍當視後附之申請專利範圍及其等同領域而定。凡本領域具有通常知識者,在不脫離本專利精神或範圍內,所作之更動或潤飾,均屬於本創作所揭示精神下所完成之等效改變或設計,且應包含在下述之申請專利範圍內。
S110~S170:流程圖步驟
Claims (9)
- 一種用於處理發票資料的方法,該方法包括:掃描已分類的多張發票;使用一OCR技術將掃描得到的發票資訊轉換為數據;將轉換後的該數據記錄到一第一檔案中;將該數據從該第一檔案轉移到第二檔案以進行數據修正,其中該第二檔案包括至少一個基於OCR技術中常見錯誤模式而定制的演算法,用於自動識別並修正字符混淆、錯誤間距、或錯誤對齊所造成的OCR錯誤;將修正後的該數據從該第二檔案轉移到一第三檔案,其中該第三檔案為一不包含任何公式或巨集指令的純資料儲存檔案,以避免因數據巨量而導致加載與處理速度下降;在一顯示介面上同時顯示所述發票的圖像和相應的數據,且該顯示介面允許手動修正與該發票圖像相對應的數據;將修正後的該數據轉換為一會計系統可接受的格式。
- 如請求項1所述的用於處理發票資料的方法,其中該第一檔案、該第二檔案和該第三檔案均為Excel檔案。
- 如請求項1所述的用於處理發票資料的方法,其中該發票是根據發票類別進行分類。
- 如請求項1所述的用於處理發票資料的方法,其中該演算法使用一數據驗證技術來修正數據,且該數據驗證技術包括規則驗證、模式匹配、範圍檢查、列表驗證、或多階段驗證。
- 如請求項1所述的用於處理發票資料的方法,其中於該方法中使用到的資料夾和檔案是用特定的符號和命名規則進行命名和管理,以便更容易識別和自動處理。
- 如請求項5所述的用於處理發票資料的方法,其中所述符號和命名規則是基於該發票類型而定制的。
- 如請求項2所述的用於處理發票資料的方法,其中該第一檔案和該第三檔案是XLSX檔案,該第二檔案是XLSM檔案。
- 如請求項1所述的用於處理發票資料的方法,其中OCR技術是在Microsoft Power Automate平台上執行的。
- 一個用於處理發票數據的系統,包括:一掃描器,用於掃描多張發票;一OCR模組,用於將掃描得到的發票資訊轉換為數據;一第一檔案,用於接收和存儲轉換後的數據;一第二檔案,用於接收來自該第一檔案的數據並進行數據修正,其中該第二檔案包括至少一個基於OCR技術中常見錯誤模式而定制的演算法,用於自動識別並修正字符混淆、錯誤間距或錯誤對齊所造成的OCR錯誤;一第三檔案,用於接收和存儲來自該第二檔案的修正後的數據,其中該第三檔案為一個不包含任何公式或巨集指令的純資料儲存檔案,以避免因數據巨量而導致加載與處理速度下降;一顯示介面,用於同時顯示所述發票的圖像和相應的數據,以便手動修正與該發票圖像相對應的數據;一轉換模組,用於將修正後的數據轉換為一會計系統的可接受格式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112144585A TWI897103B (zh) | 2023-11-17 | 2023-11-17 | 紙本發票轉電子資料的發票處理系統與方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112144585A TWI897103B (zh) | 2023-11-17 | 2023-11-17 | 紙本發票轉電子資料的發票處理系統與方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202522360A TW202522360A (zh) | 2025-06-01 |
| TWI897103B true TWI897103B (zh) | 2025-09-11 |
Family
ID=97224416
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW112144585A TWI897103B (zh) | 2023-11-17 | 2023-11-17 | 紙本發票轉電子資料的發票處理系統與方法 |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI897103B (zh) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW202115601A (zh) * | 2019-09-30 | 2021-04-16 | 美商尤帕斯公司 | 用於機器人流程自動化的文件處理架構 |
| TW202305654A (zh) * | 2021-07-29 | 2023-02-01 | 天脈科技股份有限公司 | 商業數據整理系統、方法及其電腦程式產品 |
| TWM638006U (zh) * | 2022-10-19 | 2023-02-21 | 鯨動智能科技股份有限公司 | 人工智慧會計永續作業價值管理系統 |
| TWM655760U (zh) * | 2023-11-17 | 2024-05-21 | 爍益管理顧問有限公司 | 用於處理發票資料的系統 |
-
2023
- 2023-11-17 TW TW112144585A patent/TWI897103B/zh active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW202115601A (zh) * | 2019-09-30 | 2021-04-16 | 美商尤帕斯公司 | 用於機器人流程自動化的文件處理架構 |
| TW202305654A (zh) * | 2021-07-29 | 2023-02-01 | 天脈科技股份有限公司 | 商業數據整理系統、方法及其電腦程式產品 |
| TW202305694A (zh) * | 2021-07-29 | 2023-02-01 | 天脈科技股份有限公司 | 商業數據處理系統、方法及其電腦程式產品 |
| TWM638006U (zh) * | 2022-10-19 | 2023-02-21 | 鯨動智能科技股份有限公司 | 人工智慧會計永續作業價值管理系統 |
| TWM655760U (zh) * | 2023-11-17 | 2024-05-21 | 爍益管理顧問有限公司 | 用於處理發票資料的系統 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202522360A (zh) | 2025-06-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10783367B2 (en) | System and method for data extraction and searching | |
| US20050289182A1 (en) | Document management system with enhanced intelligent document recognition capabilities | |
| US10366123B1 (en) | Template-free extraction of data from documents | |
| US8958605B2 (en) | Systems, methods and computer program products for determining document validity | |
| Pletschacher et al. | The page (page analysis and ground-truth elements) format framework | |
| US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
| US20160055376A1 (en) | Method and system for identification and extraction of data from structured documents | |
| US20140153830A1 (en) | Systems, methods and computer program products for processing financial documents | |
| US20160196254A1 (en) | Feedback validation of electronically generated forms | |
| EP2092463A1 (en) | Automated generation of form definitions from hard-copy forms | |
| CN115116068B (zh) | 一种基于ocr的档案智能归档系统 | |
| JP2015146075A (ja) | 会計データ入力支援システム、方法およびプログラム | |
| US20210357633A1 (en) | Document processing using hybrid rule-based artificial intelligence (ai) mechanisms | |
| US11321558B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
| CN104346415A (zh) | 图像文档命名的方法 | |
| CN114626341A (zh) | 文档转换方法、装置及存储介质 | |
| TWM655760U (zh) | 用於處理發票資料的系統 | |
| JP6755926B2 (ja) | 帳票情報認識装置および帳票情報認識方法 | |
| TWI897103B (zh) | 紙本發票轉電子資料的發票處理系統與方法 | |
| CN119600639A (zh) | 一种基于大模型的ocr图纸识别系统 | |
| WO2024259266A1 (en) | Systems and methods for automated document ingestion | |
| JP2017514225A (ja) | コンテキスト依存型ワークフローのためのスマート光入出力(i/o)拡張部 | |
| JP2021064122A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
| CN115690798A (zh) | 单据录入方法、装置、设备及存储介质 | |
| US12444216B2 (en) | Image processing apparatus that obtains item value and performs character recognition process on a document image, image processing method, and non-transitory computer-readable storage medium |