JP2019169026A - 情報処理装置、文字認識エンジン最適化方法及びプログラム - Google Patents
情報処理装置、文字認識エンジン最適化方法及びプログラム Download PDFInfo
- Publication number
- JP2019169026A JP2019169026A JP2018057445A JP2018057445A JP2019169026A JP 2019169026 A JP2019169026 A JP 2019169026A JP 2018057445 A JP2018057445 A JP 2018057445A JP 2018057445 A JP2018057445 A JP 2018057445A JP 2019169026 A JP2019169026 A JP 2019169026A
- Authority
- JP
- Japan
- Prior art keywords
- character recognition
- data
- character
- item
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 73
- 230000010365 information processing Effects 0.000 title claims description 18
- 238000005457 optimization Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims description 85
- 238000013500 data storage Methods 0.000 claims description 38
- 238000012937 correction Methods 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 9
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 8
- 238000012015 optical character recognition Methods 0.000 description 193
- 230000008569 process Effects 0.000 description 58
- 238000011156 evaluation Methods 0.000 description 56
- 230000006870 function Effects 0.000 description 5
- 238000012854 evaluation process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
図1は、本実施形態に係る帳票処理システム1のハードウェア構成を示す概略図である。本実施形態に係る帳票処理システム1は、複数の異なる拠点に設置されて互いに異なる種類の帳票を用いた業務に使用されている複数のユーザー端末90(以下、「ノード90」と称する)と、ネットワークを介してノード90と通信可能に接続されたサーバー50と、を備える。
総読取項目数=評価項目数×評価帳票数+今回の読取項目数
総正解数=評価項目数×評価帳票数×平均認識率+今回の正解数
平均認識率=総正解数÷総読取項目数×100
次に、本実施形態に係るサーバー50によって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容および処理順序は、本開示を実施するための一例である。具体的な処理内容および処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
上記説明した実施形態によれば、処理対象帳票の特徴を用いて、類似する帳票データを索出し、複数の文字認識エンジンのうち、索出された帳票データに関連付けられた文字認識エンジンを用いて処理対象帳票を処理することで、処理対象の帳票又は項目毎に最適な文字認識エンジンを選択することが可能となる。又、複数の文字認識エンジンの夫々を用いて同一帳票/項目についての文字認識を行い、文字認識の結果に基づいて、当該帳票/項目に適用される文字認識エンジンを変更することで、帳票毎又は帳票内の項目毎に適用される文字認識エンジンを最適化することが可能となる。
50 サーバー
90 ノード
Claims (8)
- 帳票又は該帳票内の項目に係る帳票データを、複数の文字認識エンジンのうち該帳票又は該項目の認識に適した文字認識エンジンに関連付けて蓄積する、帳票データ蓄積手段と、
処理対象帳票の画像データを取得する画像データ取得手段と、
前記複数の文字認識エンジンのうち、前記画像データに対応する帳票種別又は帳票項目に関連付けられた文字認識エンジンを用いて、前記画像データに含まれる文字列を読み取る第一の文字認識手段と、
前記第一の文字認識手段による文字認識結果のうち、正解文字列と、少なくとも該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する正解データ蓄積手段と、
前記複数の文字認識エンジンの夫々を用いて、前記正解データ蓄積手段によって蓄積された前記文字画像に含まれる文字列を読み取る第二の文字認識手段と、
前記第二の文字認識手段による文字認識の成績に基づいて、前記正解データに係る帳票種別又は帳票項目に関連付けられた文字認識エンジンを変更するエンジン変更手段と、
を備える情報処理装置。 - 前記帳票データ蓄積手段は、文字認識エンジンと帳票種別又は帳票項目との組み合わせ毎に、該文字認識エンジンを用いて該帳票種別又は帳票項目の画像データから文字列を読み取った場合の成績を蓄積し、又、前記第二の文字認識手段による文字認識結果に基づいて、蓄積されている成績を更新し、
前記エンジン変更手段は、前記帳票データ蓄積手段によって蓄積されている成績に基づいて、帳票種別又は帳票項目に関連付けられる文字認識エンジンを、該帳票種別又は該帳票項目について最も成績の高い文字認識エンジンに変更する、
請求項1に記載の情報処理装置。 - 前記第一の文字認識手段による文字認識結果の、ユーザーによる修正を受け付ける修正受付手段を更に備え、
前記正解データ蓄積手段は、ユーザーによる修正が受け付けられた場合に、修正によって得られた正解文字列と、少なくとも該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する、
請求項1又は2に記載の情報処理装置。 - 前記帳票データには、帳票内の項目の形式又は記載ルールが含まれ、
前記第一の文字認識手段による文字認識結果を、前記形式又は記載ルールに適合するように補正する補正手段を更に備える、
請求項3に記載の情報処理装置。 - 前記正解データ蓄積手段によって蓄積された、ユーザーによる修正によって得られた正解文字列から、同一項目についての正解文字列を抽出し、該正解文字列が前記形式又は記載ルールに適合していない場合に、修正によって得られた正解文字列が該当項目の形式/ルールに適合するように該当項目の形式又は記載ルールを更新する、形式/ルール更新手段を更に備える、
請求項4に記載の情報処理装置。 - 前記第二の文字認識手段は、該情報処理装置において利用可能な新たな文字認識エンジンが追加された場合に、追加された文字認識エンジンを用いて、前記正解データ蓄積手段によって蓄積された前記文字画像に含まれる文字列を読み取り、
前記エンジン変更手段は、前記新たな文字認識エンジンによる文字認識の成績に基づいて、前記正解データに係る帳票種別又は帳票項目に関連付けられた文字認識エンジンを変更する、
請求項1から5の何れか一項に記載の情報処理装置。 - コンピューターが、
帳票又は該帳票内の項目に係る帳票データを、複数の文字認識エンジンのうち該帳票又は該項目の認識に適した文字認識エンジンに関連付けて蓄積する、帳票データ蓄積ステップと、
処理対象帳票の画像データを取得する画像データ取得ステップと、
前記複数の文字認識エンジンのうち、前記画像データに対応する帳票種別又は帳票項目に関連付けられた文字認識エンジンを用いて、前記画像データに含まれる文字列を読み取る第一の文字認識ステップと、
前記第一の文字認識ステップでの文字認識結果のうち、正解文字列と、少なくとも該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する正解データ蓄積ステップと、
前記複数の文字認識エンジンの夫々を用いて、前記正解データ蓄積ステップで蓄積された前記文字画像に含まれる文字列を読み取る第二の文字認識ステップと、
前記第二の文字認識ステップでの文字認識の成績に基づいて、前記正解データに係る帳票種別又は帳票項目に関連付けられた文字認識エンジンを変更するエンジン変更ステップと、
を実行する文字認識エンジン最適化方法。 - コンピューターを、
帳票又は該帳票内の項目に係る帳票データを、複数の文字認識エンジンのうち該帳票又は該項目の認識に適した文字認識エンジンに関連付けて蓄積する、帳票データ蓄積手段と、
処理対象帳票の画像データを取得する画像データ取得手段と、
前記複数の文字認識エンジンのうち、前記画像データに対応する帳票種別又は帳票項目に関連付けられた文字認識エンジンを用いて、前記画像データに含まれる文字列を読み取る第一の文字認識手段と、
前記第一の文字認識手段による文字認識結果のうち、正解文字列と、少なくとも該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する正解データ蓄積手段と、
前記複数の文字認識エンジンの夫々を用いて、前記正解データ蓄積手段によって蓄積された前記文字画像に含まれる文字列を読み取る第二の文字認識手段と、
前記第二の文字認識手段による文字認識の成績に基づいて、前記正解データに係る帳票種別又は帳票項目に関連付けられた文字認識エンジンを変更するエンジン変更手段と、
として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018057445A JP7149721B2 (ja) | 2018-03-26 | 2018-03-26 | 情報処理装置、文字認識エンジン最適化方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018057445A JP7149721B2 (ja) | 2018-03-26 | 2018-03-26 | 情報処理装置、文字認識エンジン最適化方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019169026A true JP2019169026A (ja) | 2019-10-03 |
| JP7149721B2 JP7149721B2 (ja) | 2022-10-07 |
Family
ID=68108324
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018057445A Active JP7149721B2 (ja) | 2018-03-26 | 2018-03-26 | 情報処理装置、文字認識エンジン最適化方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7149721B2 (ja) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112446276A (zh) * | 2019-09-03 | 2021-03-05 | 富士施乐株式会社 | 信息处理装置以及记录媒体 |
| JP2021064209A (ja) * | 2019-10-15 | 2021-04-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
| JP2021064122A (ja) * | 2019-10-11 | 2021-04-22 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
| JP2021117661A (ja) * | 2020-01-24 | 2021-08-10 | 株式会社日本総合研究所 | 情報処理装置、情報処理方法、およびプログラム |
| JP2021170276A (ja) * | 2020-04-16 | 2021-10-28 | 株式会社ミラボ | 情報処理装置、及びプログラム |
| JP2022029077A (ja) * | 2020-08-04 | 2022-02-17 | 株式会社ダブルスタンダード | 情報処理装置、情報処理方法及び情報処理プログラム |
| US20220207900A1 (en) * | 2020-12-24 | 2022-06-30 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
| JP2022136798A (ja) * | 2021-03-08 | 2022-09-21 | 株式会社Pfu | 検索装置、検索方法及び制御プログラム |
| JP2023042801A (ja) * | 2021-09-15 | 2023-03-28 | 株式会社リコー | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06348900A (ja) * | 1993-04-26 | 1994-12-22 | Internatl Business Mach Corp <Ibm> | 文字認識方法及び装置 |
| JPH07296100A (ja) * | 1994-04-22 | 1995-11-10 | Fujitsu Ltd | イメージデータ認識装置 |
| JP2017010069A (ja) * | 2015-06-16 | 2017-01-12 | シャープ株式会社 | 情報処理装置 |
-
2018
- 2018-03-26 JP JP2018057445A patent/JP7149721B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06348900A (ja) * | 1993-04-26 | 1994-12-22 | Internatl Business Mach Corp <Ibm> | 文字認識方法及び装置 |
| JPH07296100A (ja) * | 1994-04-22 | 1995-11-10 | Fujitsu Ltd | イメージデータ認識装置 |
| JP2017010069A (ja) * | 2015-06-16 | 2017-01-12 | シャープ株式会社 | 情報処理装置 |
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112446276A (zh) * | 2019-09-03 | 2021-03-05 | 富士施乐株式会社 | 信息处理装置以及记录媒体 |
| JP2021064122A (ja) * | 2019-10-11 | 2021-04-22 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
| JP7408340B2 (ja) | 2019-10-11 | 2024-01-05 | キヤノン株式会社 | 画像処理装置の制御方法、プログラム及び画像処理装置 |
| JP2021064209A (ja) * | 2019-10-15 | 2021-04-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
| JP7393960B2 (ja) | 2020-01-24 | 2023-12-07 | 株式会社日本総合研究所 | 情報処理装置、情報処理方法、およびプログラム |
| JP2021117661A (ja) * | 2020-01-24 | 2021-08-10 | 株式会社日本総合研究所 | 情報処理装置、情報処理方法、およびプログラム |
| JP2021170276A (ja) * | 2020-04-16 | 2021-10-28 | 株式会社ミラボ | 情報処理装置、及びプログラム |
| JP2023036834A (ja) * | 2020-04-16 | 2023-03-14 | 株式会社ミラボ | 情報処理装置、及びプログラム |
| JP7283755B2 (ja) | 2020-04-16 | 2023-05-30 | 株式会社ミラボ | 情報処理装置、及びプログラム |
| JP7527574B2 (ja) | 2020-04-16 | 2024-08-05 | 株式会社ミラボ | 情報処理装置、及びプログラム |
| JP2022029077A (ja) * | 2020-08-04 | 2022-02-17 | 株式会社ダブルスタンダード | 情報処理装置、情報処理方法及び情報処理プログラム |
| US20220207900A1 (en) * | 2020-12-24 | 2022-06-30 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
| US12148234B2 (en) * | 2020-12-24 | 2024-11-19 | Canon Kabushiki Kaisha | Information processing with iteratively improved estimates of data attributes based on user modifications, and apparatus, method, and storage medium thereof |
| JP2022136798A (ja) * | 2021-03-08 | 2022-09-21 | 株式会社Pfu | 検索装置、検索方法及び制御プログラム |
| JP7655744B2 (ja) | 2021-03-08 | 2025-04-02 | 株式会社Pfu | 検索装置、検索方法及び制御プログラム |
| JP2023042801A (ja) * | 2021-09-15 | 2023-03-28 | 株式会社リコー | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
| JP7725964B2 (ja) | 2021-09-15 | 2025-08-20 | 株式会社リコー | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7149721B2 (ja) | 2022-10-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7149721B2 (ja) | 情報処理装置、文字認識エンジン最適化方法及びプログラム | |
| JP2019169025A (ja) | 情報処理装置、文字認識エンジン選択方法及びプログラム | |
| CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
| JP5508359B2 (ja) | 文字認識装置、文字認識方法及びプログラム | |
| CN106056114A (zh) | 名片内容识别方法和装置 | |
| JP2014182477A (ja) | プログラム及び帳票処理装置 | |
| US12086189B2 (en) | Document search device, document search program, and document search method | |
| CN111630521A (zh) | 图像处理方法和图像处理系统 | |
| CN111340020A (zh) | 一种公式识别方法、装置、设备及存储介质 | |
| CN106844381B (zh) | 图像处理装置及方法 | |
| CN111178349A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
| US11797551B2 (en) | Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method | |
| JP2022095391A (ja) | 情報処理装置、及び情報処理プログラム | |
| CN115410185B (zh) | 一种多模态数据中特定人名及单位名属性的提取方法 | |
| JP3589007B2 (ja) | 文書ファイリングシステムおよび文書ファイリング方法 | |
| WO2018122931A1 (ja) | 情報処理装置、方法およびプログラム | |
| JP2004171316A (ja) | Ocr装置及び文書検索システム及び文書検索プログラム | |
| US20150199582A1 (en) | Character recognition apparatus and method | |
| JP2020184275A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
| JP2586372B2 (ja) | 情報検索装置及び情報検索方法 | |
| US20220180091A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
| JPH07282193A (ja) | 表を含む帳票処理装置 | |
| JP2004178044A (ja) | 属性抽出方法及びその装置及び属性抽出プログラム | |
| CN115298707A (zh) | 信息处理装置、信息处理方法、程序及顺序信息 | |
| JP2021149531A (ja) | 情報処理装置、修正候補表示方法、及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201012 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211026 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220127 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220329 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220830 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220927 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7149721 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |