[go: up one dir, main page]

JP2002109468A - Character recognition device and character recognition method - Google Patents

Character recognition device and character recognition method

Info

Publication number
JP2002109468A
JP2002109468A JP2000298280A JP2000298280A JP2002109468A JP 2002109468 A JP2002109468 A JP 2002109468A JP 2000298280 A JP2000298280 A JP 2000298280A JP 2000298280 A JP2000298280 A JP 2000298280A JP 2002109468 A JP2002109468 A JP 2002109468A
Authority
JP
Japan
Prior art keywords
image
character recognition
character
definition information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000298280A
Other languages
Japanese (ja)
Inventor
Kazuaki Yokota
和章 横田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000298280A priority Critical patent/JP2002109468A/en
Publication of JP2002109468A publication Critical patent/JP2002109468A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 本発明は、帳票識別することが考慮されずに
作成された既存帳票を精度よく識別して文字認識するこ
とができる文字読取装置及び文字読取方法を提供するこ
とを目的とする。 【解決手段】 帳票を識別するための複数の帳票定義情
報とこの複数の帳票定義情報のそれぞれに対応する帳票
に記録された文字を認識するためのフォーマットコント
ロール情報とを予め保持しておき、入力した文字認識対
象帳票の帳票イメージと帳票定義情報とに基づいて文字
認識対象帳票を特定の帳票として識別し、この識別の結
果に基づいて対応するフォーマットコントロール情報を
用いて文字認識する。
(57) [Problem] To provide a character reading device and a character reading method capable of accurately identifying an existing form created without considering form identification and character recognition. With the goal. SOLUTION: A plurality of form definition information for identifying a form and format control information for recognizing a character recorded in a form corresponding to each of the plurality of form definition information are stored in advance and input. The form for character recognition is identified as a specific form based on the form image of the form for character recognition and the form definition information, and the character is recognized using the corresponding format control information based on the identification result.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、帳票に記録された
文字を認識する文字認識装置(以下、OCRと呼ぶ。)
及び文字認識方法に関し、特に文字認識用に設計されて
いない既存の帳票を容易にその種類を識別して文字認識
することができる文字認識装置及び文字認識方法に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device for recognizing characters recorded on a form (hereinafter referred to as OCR).
More particularly, the present invention relates to a character recognizing apparatus and a character recognizing method capable of easily recognizing characters by identifying the type of an existing form not designed for character recognition.

【0002】[0002]

【従来の技術】従来、一般にOCRにおいて、複数種類
の帳票に記録された文字を読み取りさせたい場合には、
OCRが帳票を識別できるようにその帳票をOCR読み
取り専用に設計する必要があった。このOCR読み取り
専用に設計した帳票では、帳票識別のために所定の位置
にID番号を予め記録(印刷)しておく必要があった。
OCRでは、このID番号に対応してフォーマット情報
(書式情報又はフォーマットコントロール情報(F
C))を予め記憶しておき、識別した帳票の種類(ID
番号)に対応したフォーマット情報を使用して対象とす
る帳票の文字読み取りを行っていた。フォーマット情報
としては、読取対象の文字が記録されているフィールド
の帳票上の位置、読取文字の桁数、文字ピッチ、字種、
文字読取のために使用する文字認識辞書の種類などを指
定する情報である。
2. Description of the Related Art Conventionally, in general, when it is desired to read characters recorded on a plurality of types of forms in OCR,
The form had to be designed for OCR read-only so that the OCR could identify the form. In a form designed only for OCR reading, it is necessary to record (print) an ID number in a predetermined position in advance for form identification.
In OCR, format information (format information or format control information (F
C)) is stored in advance, and the type (ID
The target form was read using the format information corresponding to the number. The format information includes the position of the field where the character to be read is recorded on the form, the number of digits of the read character, the character pitch, the character type,
This is information that specifies the type of character recognition dictionary used for character reading.

【0003】一方、近年このようにOCR読み取りのた
めに専用に設計されていない既存の帳票に記録された文
字を読み取りしたいとの要求が高まってきている。この
ように既存の帳票に記録された文字の読み取りをする場
合には、フォーマット情報をOCRに登録すること、複
数種の既存帳票を人手により種類毎に区分けしてそれぞ
れ一つの束すること、この一束(1バッチ)ごとにフォ
ーマット情報を指定して文字読み取りを実行することが
必要であった。
On the other hand, in recent years, there has been an increasing demand for reading characters recorded on existing forms that are not specifically designed for OCR reading. As described above, when reading characters recorded in an existing form, registering format information in the OCR, manually classifying a plurality of types of existing forms by type, and bundling them one by one. It was necessary to perform character reading by designating format information for each bundle (one batch).

【0004】更に、一歩進んで、帳票に記録された文字
の読み取りをする場合には、予め、OCRに帳票上の文
字記入枠(罫線)の座標情報とフォーマット情報とを対
応して登録しておき、OCRに入力した帳票のイメージ
から罫線の座標情報を取得し、予め登録した帳票毎の罫
線の座標情報と比較して帳票を識別し、この識別した帳
票に対応するフォーマット情報に基づいて文字読み取り
を実行することが行われていた。この方法であれば、読
取処理の前に帳票を種類毎に人手により区分けするこ
と、読取処理の際に同一帳票を1バッチで処理すること
が必要なくなる。従って、複数種の帳票を混在させて読
取処理をすることができる。
Further, when reading characters recorded on a form by going one step further, coordinate information and format information of character entry frames (ruled lines) on the form are registered in the OCR in advance. The coordinate information of the ruled line is acquired from the image of the form input to the OCR, the form is identified by comparing the coordinate information of the ruled line of each form registered in advance, and the character is determined based on the format information corresponding to the identified form. Performing a read was done. According to this method, it is not necessary to manually sort the forms for each type before the reading process and to process the same form in one batch during the reading process. Therefore, reading processing can be performed by mixing a plurality of types of forms.

【0005】しかし、この方法では入力した帳票イメー
ジがかすれていると、罫線の抽出が必ずしも精度よく行
えないため、帳票の識別が正しく行えないという問題が
発生している。また、異種の帳票であっても、罫線の位
置が全く同一の場合には、帳票の識別ができないという
問題も発生している。
[0005] However, in this method, if the input form image is blurred, the ruled line cannot always be accurately extracted, so that there is a problem that the form cannot be correctly identified. In addition, there is a problem that even if the forms are of different types, the forms cannot be identified if the positions of the ruled lines are exactly the same.

【0006】[0006]

【発明が解決しようとする課題】本発明はこのような問
題を解決するためになされたもので、帳票識別すること
が考慮されずに作成された既存帳票を精度よく識別して
文字認識することができる文字認識装置及び文字認識方
法を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made to solve such a problem, and it is an object of the present invention to accurately identify an existing form created without considering form identification and to perform character recognition. It is an object of the present invention to provide a character recognition device and a character recognition method capable of performing the following.

【0007】[0007]

【課題を解決するための手段】本発明は、帳票を識別す
るための複数の帳票定義情報を保持する帳票定義情報保
持手段と、前記複数の帳票定義情報にそれぞれ対応する
帳票に記録された文字を認識するためのフォーマットコ
ントロール情報を保持するフォーマットコントロール情
報保持手段と、文字認識対象の帳票の帳票イメージを入
力するイメージ入力手段と、前記文字認識対象の帳票を
前記入力した帳票イメージと前記帳票定義情報とに基づ
いて特定の帳票として識別する帳票識別手段と、この帳
票識別手段の帳票識別結果に基づいて、前記フォーマッ
トコントロール情報保持手段から前記識別した帳票に対
応するフォーマットコントロール情報を選択し、この選
択したフォーマットコントロール情報を用いて前記入力
した帳票イメージの文字を認識する文字認識手段とを具
備することを特徴とする。
According to the present invention, there is provided a form definition information holding means for holding a plurality of form definition information for identifying a form, and a character recorded on a form corresponding to each of the plurality of form definition information. Format control information holding means for holding format control information for recognizing a document, image input means for inputting a form image of a form for character recognition, a form image for inputting the form for character recognition, and the form definition Form identification means for identifying a specific form based on the information, and based on the form identification result of the form identification means, select format control information corresponding to the identified form from the format control information holding means, The input form image using the selected format control information Characterized by comprising a character recognizing section for recognizing characters.

【0008】このような構成によれば、帳票識別するこ
とが考慮されずに作成された既存帳票を精度よく識別し
て文字認識することができる文字認識装置及び文字認識
方法が実現できる。
According to such a configuration, it is possible to realize a character recognition device and a character recognition method capable of accurately identifying an existing form created without considering form identification and performing character recognition.

【0009】[0009]

【発明の実施の形態】以下、図面を参照して本発明の実
施形態について詳細説明する。図1は、本発明のOCR
のシステム構成を示す図である。光学的文字読取装置1
0は、カラースキャナー11と、パーソナルコンピュー
ター12とから構成されている。パーソナルコンピュー
ター12には、文字認識を実現するためのOCRソフト
ウェアである文字認識プログラム13と、帳票を識別す
るための帳票識別情報を設定するための帳票定義プログ
ラム14とがインストールされている。カラースキャナ
ー10は、帳票のイメージを光電変換してRGBの3色
のイメージ情報を出力する機能を持つ。このカラースキ
ャナー10は、自動給紙機能を持ち、読取対象の帳票を
積載したホッパーから1枚づつ帳票を取り出して給紙
し、読取位置を経由してスタッカーまで給紙する。カラ
ースキャナー10は、給紙した帳票を読取位置において
CCDカラーイメージセンサーにより、帳票上のイメー
ジを光電変換して帳票イメージを読み取り、RGBの3
色のイメージ情報を出力する。カラースキャナー10に
は、すべての文字が正しく認識できた帳票を排紙するノ
ーマルスタッカーと読取不能文字(リジェクト文字)が
ある帳票を排紙するリジェクトスタッカーとが設けられ
ており、パーソナルコンピューター12での文字認識結
果に基づいて、給紙された帳票をノーマルスタッカー/
リジェクトスタッカーのいずれかに排紙する。磁気ディ
スク装置15は、パーソナルコンピューター12の外部
記憶装置として設けられている。この磁気ディスク装置
15には、帳票定義情報16とフォーマットコントロー
ル情報17とが記憶、登録されている。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 shows the OCR of the present invention.
1 is a diagram showing a system configuration of FIG. Optical character reader 1
Reference numeral 0 denotes a color scanner 11 and a personal computer 12. In the personal computer 12, a character recognition program 13 which is OCR software for realizing character recognition, and a form definition program 14 for setting form identification information for identifying a form are installed. The color scanner 10 has a function of photoelectrically converting a form image and outputting image information of three colors of RGB. The color scanner 10 has an automatic paper feeding function, takes out forms one by one from a hopper on which forms to be read are stacked, feeds the sheets, and feeds the sheets to a stacker via a reading position. The color scanner 10 reads the form image by photoelectrically converting the image on the form by the CCD color image sensor at the reading position of the fed form and reads the form image.
Output color image information. The color scanner 10 is provided with a normal stacker for discharging a form in which all characters can be correctly recognized and a reject stacker for discharging a form having unreadable characters (reject characters). Based on the result of character recognition, the fed form is copied to the normal stacker /
Discharge to one of the reject stackers. The magnetic disk device 15 is provided as an external storage device of the personal computer 12. Form definition information 16 and format control information 17 are stored and registered in the magnetic disk device 15.

【0010】尚、この実施例では、OCRがカラースキ
ャナー11と、パーソナルコンピューター12とから構
成されているソフトウェア文字認識タイプのものを説明
する。しかし、これに限定することなく、カラースキャ
ナーが一体化され、文字認識機能と帳票を識別するため
の帳票識別情報を設定する帳票定義機能とを持つ専用機
であったもよい。専用機の場合には、文字認識処理後の
帳票を種類別に区分けするためのソーターを接続するこ
とができる。ソーターは、複数の排紙ポケットを持ち、
識別された帳票をその種類別に排紙ポケットに排出する
ことで、帳票を区分けするものである。
In this embodiment, a software character recognition type OCR having a color scanner 11 and a personal computer 12 will be described. However, the present invention is not limited to this, and the color scanner may be integrated, and may be a dedicated machine having a character recognition function and a form definition function for setting form identification information for identifying the form. In the case of a special-purpose machine, a sorter for classifying the form after the character recognition processing by type can be connected. The sorter has multiple output pockets,
By discharging the identified forms into the paper discharge pockets according to their types, the forms are classified.

【0011】帳票を識別するための識別情報として定義
する帳票識別項目は、図2に示すように帳票サイズ、コ
ーナーカット、とじ穴、プレプリント(プレ印字)とか
らなる。
A form identification item defined as identification information for identifying a form includes a form size, a corner cut, a binding hole, and a preprint (preprint) as shown in FIG.

【0012】帳票サイズは、帳票の縦と横の長さで定義
される情報である。コーナーカットは、帳票の四隅の内
の少なくともいずれか1つの角に設けられたコーナーカ
ットの位置(右上、右下、左上、左下)と大きさ(幅、
高さ)とで定義される情報である。図3に左上と右下に
コーナーカットが設けられた帳票を図示した。とじ穴
は、ファイリングするために帳票に設けたとじ穴の位置
(帳票の左上を原点とした座標)と穴の直径とで定義さ
れる情報である。図4に座標(X1,Y1)の位置に設
けられた直径R1のとじ穴H1と座標(X1,Y2)の
位置に設けられた直径R2のとじ穴H2とを持つ帳票を
図示した。プレプリント(プレ印字)は、帳票に予め印
刷(プレプリント)されている文字列の領域を示す情報
で、位置(帳票の左上を原点とした座標)、幅、高さ、
その領域内に存在する文字列、文字の大きさ(ポイント
数)、フォント(字種)、文字ピッチ、色とで定義され
る情報である。プレプリント(プレ印字)は、文字に限
定されるものではなく、図形のイメージであってもよ
い。図5に、「△△株式会社」とプレプリント(プレ印
字)された文字列を包含するプレプリント領域Lを持つ
帳票を図示した。このプレ印字領域Lは、座標(X3,
Y3)の位置に設けられており、帳票を識別するために
使用される帳票識別項目の定義は、帳票定義プログラム
14を実行することで行われる。
The form size is information defined by the height and width of the form. The corner cut is the position (upper right, lower right, upper left, lower left) and size (width, width, etc.) of the corner cut provided in at least one of the four corners of the form.
Height). FIG. 3 illustrates a form in which corner cuts are provided at the upper left and lower right. The binding hole is information defined by the position of the binding hole (coordinates having the origin at the upper left of the form) provided in the form for filing and the diameter of the hole. FIG. 4 illustrates a form having a binding hole H1 of diameter R1 provided at the position of coordinates (X1, Y1) and a binding hole H2 of diameter R2 provided at the position of coordinates (X1, Y2). Preprinting (preprinting) is information indicating an area of a character string that has been printed (preprinted) on a form in advance, and includes a position (coordinates with the origin at the upper left of the form), width, height,
Information defined by a character string, character size (point number), font (character type), character pitch, and color existing in the area. The preprint (preprint) is not limited to characters, but may be a graphic image. FIG. 5 shows a form having a preprint area L including a character string preprinted (preprinted) as “@ Corporation”. This pre-printing area L has coordinates (X3,
The form identification item, which is provided at the position Y3) and is used to identify the form, is defined by executing the form definition program 14.

【0013】この帳票定義プログラム14が実行される
と、識別対象とする未記入の帳票のイメージ情報ををカ
ラースキャナー10で読み込み、これをパーソナルコン
ピューター12の図示していない表示装置に表示する。
ユーザーは、表示された帳票イメージを見ながらマウス
での位置や領域の指定及びキーボードで情報を入力する
ことにより、定義情報を設定する。表示画面には、帳票
識別項目の項目名とそれに対応する定義情報の入力欄と
が表示されている。
When the form definition program 14 is executed, image information of an unfilled form to be identified is read by the color scanner 10 and displayed on a display device (not shown) of the personal computer 12.
The user sets the definition information by designating the position and area with the mouse and inputting information with the keyboard while looking at the displayed form image. The display screen displays the item names of the form identification items and the input fields for the corresponding definition information.

【0014】プログラムからの帳票識別項目の設定の要
求又はユーザーによるマウスでの項目名の指定に応じ
て、ユーザーはマウスでその定義情報を設定する項目名
に対応する表示された帳票イメージの該当部分を矩形で
指定する。この矩形で指定されは範囲内において、プロ
グラムは、上記設定の要求された又はユーザーが指定し
た設定する項目に対するイメージを探索してその設定す
る情報を取得する。例えば、設定項目として帳票サイズ
が設定され、矩形で帳票全体が指定された場合には、帳
票イメージの外形を探索してイメージのドット数を計数
し、この計数したドット数とスキャナーの光電変換にお
ける解像度とから計算して帳票の縦と横の長さを求め、
定義情報の入力欄に表示する。
In response to a request for setting a form identification item from a program or a designation of an item name by a user using a mouse, the user can use a mouse to specify a corresponding part of the displayed form image corresponding to the item name for which the definition information is set. Is specified as a rectangle. Within the range specified by the rectangle, the program searches for an image corresponding to the setting item requested to be set or specified by the user, and acquires information to be set. For example, when the form size is set as a setting item and the entire form is designated by a rectangle, the outer shape of the form image is searched, the number of dots of the image is counted, and the counted number of dots and the photoelectric conversion of the scanner are used. Calculate from the resolution and the vertical and horizontal length of the form,
Displayed in the definition information input field.

【0015】また、その他の設定項目についても、矩形
で指定された範囲内において対象とするイメージを探索
し、そのドット数を計数し、及び帳票イメージの左上の
位置を原点とする座標とから、その設定情報を求める。
尚、ブレプリント領域における文字列、文字列を構成す
る各文字のフォント、ピッチ、大きさ、色に関する情報
は、上記矩形で指定された範囲を文字認識することで得
ることができる。文字の色は、カラースキャナー10か
ら出力されたRGBの3色のイメージ情報それぞれにつ
いて文字認識し、どの色のイメージ他で文字認識できた
かにより、その色を判別する。
As for other setting items, a target image is searched for in a range designated by a rectangle, the number of dots is counted, and coordinates having the origin at the upper left position of the form image are obtained from: Ask for the setting information.
Note that information on the character string in the blur print area and the font, pitch, size, and color of each character constituting the character string can be obtained by character recognition in the range specified by the rectangle. As for the color of the character, character recognition is performed for each of the three RGB image information output from the color scanner 10, and the color is determined based on which color image or the like was used for character recognition.

【0016】RとGのイメージで文字が認識できた場合
には、その文字は青色(系)の文字であると判別でき
る。同様にGとBでのイメージで文字が認識できた場合
には、赤(系)の文字であり、BとRのイメージで文字
が認識できた場合には、緑(系)の文字であると判別で
きる。同様にR、G、Bのイメージで文字が認識できた
場合には、黒(系)の文字であると判別できる。このよ
うに定義された帳票識別項目を帳票定義情報16として
磁気ディスク装置15に記憶して登録する。
When a character can be recognized from the R and G images, it can be determined that the character is a blue (system) character. Similarly, when a character can be recognized in the image of G and B, it is a red (system) character, and when a character can be recognized in the images of B and R, it is a green (system) character. Can be determined. Similarly, when a character can be recognized in the R, G, and B images, it can be determined that the character is a black (system) character. The form identification item thus defined is stored and registered in the magnetic disk device 15 as the form definition information 16.

【0017】一方このように帳票定義情報16を登録し
た各帳票のフォーマットコントロール情報17も磁気デ
ィスク装置15に記憶し登録する。これら帳票定義情報
16とフォーマットコントロール情報17とを対応づけ
ておき、帳票定義情報16からフォーマットコントロー
ル情報17を呼び出せるようにしておく。尚、このフォ
ーマットコントロール情報17は、各帳票毎に予め設定
しておき、ファイルとして磁気ディスク装置15に予め
記憶しておく。このフォーマットコントロール情報17
の設定方法については、従来技術を用いればよく、詳細
な説明は省略する。また、フォーマット情報17も帳票
定義プログラム14の実行に伴って、帳票識別項目と共
に設定するように帳票定義プログラム14を構成しても
よい。
On the other hand, the format control information 17 of each form in which the form definition information 16 is registered is also stored and registered in the magnetic disk device 15. The form definition information 16 is associated with the format control information 17 so that the format control information 17 can be called from the form definition information 16. The format control information 17 is set in advance for each form, and is stored in the magnetic disk device 15 in advance as a file. This format control information 17
For the setting method, the conventional technique may be used, and the detailed description is omitted. Further, the form definition program 14 may be configured so that the format information 17 is also set together with the form identification items along with the execution of the form definition program 14.

【0018】以下、文字認識動作を説明する。文字認識
の前提としては、上記のように読取対象の既存帳票に対
応する帳票定義情報16とこれに対応するフォーマット
コントロール情報17とを予め磁気ディスク装置15に
登録されているものとする。
Hereinafter, the character recognition operation will be described. As a prerequisite for character recognition, it is assumed that the form definition information 16 corresponding to the existing form to be read and the format control information 17 corresponding thereto are registered in the magnetic disk device 15 in advance as described above.

【0019】まず、カラースキャナー10で読取対象の
帳票を読み取り、帳票イメージ情報をパーソナルコンピ
ューター12に出力する。パーソナルコンピューター1
2は、文字認識プログラム13が処理を開始して文字認
識動作を開始する。初めに文字認識プログラム13は、
カラースキャナー10から入力した帳票イメージに基づ
いて、帳票の種別を識別する。この帳票識別の処理の動
作を図6、図7に示したフローチャートに基づいて説明
する。
First, a form to be read is read by the color scanner 10 and form image information is output to the personal computer 12. Personal computer 1
In step 2, the character recognition program 13 starts processing and starts a character recognition operation. First, the character recognition program 13
The form type is identified based on the form image input from the color scanner 10. The operation of this form identification process will be described with reference to the flowcharts shown in FIGS.

【0020】図6において、まず変数Iを数値1に設定
する(ステップS61)。次に磁気ディスク装置15か
らI番目の帳票定義情報を読み出す(ステップS6
2)。続いて、ステップS63において、入力した帳票
イメージを持つ帳票がI番目の帳票定義情報を持つ帳票
と同一であるか否かの帳票識別を行う。
In FIG. 6, first, a variable I is set to a numerical value 1 (step S61). Next, the I-th form definition information is read from the magnetic disk device 15 (step S6).
2). Subsequently, in step S63, form identification is performed to determine whether the form having the input form image is the same as the form having the I-th form definition information.

【0021】この帳票識別の詳細を図7のフローチャー
トに図示した。まず、変数Rに数値「0」を設定する
(ステップS70)。続くステップS71では、入力し
た帳票イメージをR度回転したイメージを求める。現在
変数Rには数値「0」が設定されているため、0度のイ
メージ、即ち入力した帳票イメージを何も回転処理する
ことなく入力したままの帳票イメージを求める。続くス
テップS72からステップS75までにおいて、ステッ
プS71で求めた帳票イメージと上記ステップS61で
求めたI番目の帳票定義情報で定義された各帳票識別項
目と一致するか否かの比較を行う。
The details of this form identification are shown in the flowchart of FIG. First, a numerical value “0” is set to the variable R (step S70). In a succeeding step S71, an image obtained by rotating the input form image by R degrees is obtained. Since the numerical value “0” is currently set in the variable R, an image of 0 degrees, that is, a form image that is input without any rotation processing of the input form image is obtained. In subsequent steps S72 to S75, a comparison is made as to whether or not the form image obtained in step S71 matches each form identification item defined in the I-th form definition information obtained in step S61.

【0022】ステップS72では、帳票サイズの比較を
行う。入力した帳票イメージを探索して帳票の縦と横の
長さを求める。この求めた入力帳票の縦と横の長さとI
番目の帳票定義情報で定義された帳票サイズとを比較す
る。この比較の結果、一致した場合には、ステップS7
3に進む。また不一致の場合には、ステップS77に進
む。もし、I番目の帳票定義情報にて帳票サイズが定義
されていない場合には、ステップS73に進む。
In step S72, the form sizes are compared. Search the input form image to find the height and width of the form. The length and width of the input form obtained and I
Compare with the form size defined in the second form definition information. If the result of this comparison is a match, step S7
Proceed to 3. If they do not match, the process proceeds to step S77. If the form size is not defined in the I-th form definition information, the process proceeds to step S73.

【0023】ステップS73では、コーナーカットの比
較を行う。入力した帳票イメージを探索してI番目の帳
票定義情報で定義され位置にその定義された大きさ(幅
と高さ)のコーナーカットが存在するか否かを比較判定
する。この比較の結果、一致した場合には、ステップS
74に進む。また不一致の場合には、ステップS77に
進む。もし、I番目の帳票定義情報にてコーナーカット
が定義されていない場合には、ステップS74に進む。
In step S73, a comparison is made between corner cuts. The input form image is searched to determine whether there is a corner cut of the defined size (width and height) at the position defined by the I-th form definition information. If the result of this comparison is a match, step S
Proceed to 74. If they do not match, the process proceeds to step S77. If the corner cut is not defined in the I-th form definition information, the process proceeds to step S74.

【0024】ステップS74では、とじ穴の比較を行
う。入力した帳票イメージを探索してI番目の帳票定義
情報で定義され位置にその定義された直径のとじ穴が存
在するか否かを比較判定する。この比較の結果、一致し
た場合には、ステップS75に進む。また不一致の場合
には、ステップS77に進む。もし、I番目の帳票定義
情報にてコーナーカットが定義されていない場合には、
ステップS75に進む。
In step S74, the binding holes are compared. The input form image is searched to determine whether or not a binding hole having the defined diameter exists at a position defined by the I-th form definition information. If the result of this comparison is a match, the flow proceeds to step S75. If they do not match, the process proceeds to step S77. If the corner cut is not defined in the I-th form definition information,
Proceed to step S75.

【0025】ステップS75では、プレプリントの比較
を行う。入力した帳票イメージを探索してI番目の帳票
定義情報で定義されたプレプリント領域内に定義された
大きさ(ポイント数)、フォント(字種)、文字ピッ
チ、色を持つ文字で構成される定義された文字列が存在
するか否かを比較判定する。この比較判定は次のように
行う。まず、I番目の帳票定義情報で定義されたプレプ
リント領域内に定義された大きさ(ポイント数)、フォ
ント(字種)、文字ピッチ、色の文字列が存在すると仮
定して文字認識を行う。この文字認識の結果、得られる
文字列が上記定義された文字列とが同一であれば、比較
判定が一致したことになる。この比較の結果、一致した
場合には、ステップS76に進む。また不一致の場合に
は、ステップS77に進む。もし、I番目の帳票定義情
報にてプレプリント領域が定義されていない場合には、
ステップS76に進む。
In step S75, pre-print comparison is performed. The input form image is searched for and is composed of characters having a size (number of points), a font (character type), a character pitch, and a color defined in the preprint area defined by the I-th form definition information. A comparison is made to determine whether the defined character string exists. This comparison is performed as follows. First, character recognition is performed on the assumption that a character string having a size (number of points), font (character type), character pitch, and color defined in the preprint area defined in the I-th form definition information. . As a result of this character recognition, if the obtained character string is the same as the above-defined character string, it means that the comparison judgment has been made. If the result of this comparison is a match, the flow proceeds to step S76. If they do not match, the process proceeds to step S77. If the pre-print area is not defined in the I-th form definition information,
Proceed to step S76.

【0026】ステップS76では、入力した帳票イメー
ジがステップS72からステップS75までのすべての
比較判定でI番目の帳票定義情報で定義されている各帳
票識別項目と一致したので、入力した帳票イメージはI
番目の帳票定義情報で定義された帳票であると識別す
る。その後、図6に示したステップS63へ進む。
In step S76, the input form image matches the form identification item defined in the I-th form definition information in all the comparison determinations from step S72 to step S75.
It is identified as the form defined in the second form definition information. Thereafter, the process proceeds to step S63 shown in FIG.

【0027】一方、入力した帳票イメージがステップS
72からステップS75までのいずれか1つの比較判定
で不一致と判定された場合には、ステップS77におい
て、変数Rに数値「90」を加算して変数Rを更新し、
この更新された変数Rが数値「360」と等しいか又は
それを越えているか判断する(ステップS78)。この
判断では、入力した帳票イメージを0度回転させたイメ
ージ、90度回転させたイメージ、180度回転させた
イメージ、270度回転させたイメージのすべての場合
において、上記ステップS72からステップS75まで
の比較判定が終了したか否かを判定している。
On the other hand, the input form image is
If it is determined that the values do not match in any one of the comparison determinations from 72 to step S75, the variable R is updated by adding a numerical value “90” to the variable R in step S77.
It is determined whether or not the updated variable R is equal to or exceeds the numerical value "360" (step S78). In this determination, in all cases of the input form image rotated by 0 degrees, the image rotated by 90 degrees, the image rotated by 180 degrees, and the image rotated by 270 degrees, the above-described steps S72 to S75 are performed. It is determined whether the comparison has been completed.

【0028】この判定をするのは、読取対象の帳票をカ
ラースキャナー10のホッパーに積載した際に正しく帳
票の上側の先端を給紙ローラーに向けて積載していれ
ば、入力したイメージを回転処理することなくそのまま
帳票識別処理を行えばよいが、必ずしも正しい位置に積
載されないこともあり、このような場合を想定し、どの
ような向きで帳票がホッパーに積載されても良いように
入力した帳票イメージを90度、180度、270度回
転させたイメージについても帳票識別処理を行うためで
ある。これにより、カラースキャナー10のホッパーに
対する帳票の積載の向きがいかなる場合でも正しく帳票
の識別処理が行える。
This determination is made because if the form to be read is loaded on the hopper of the color scanner 10 and the upper end of the form is correctly loaded with the paper feed roller facing, the input image is rotated. It is sufficient to perform the form identification processing without doing it, but it may not always be loaded at the correct position. This is because the form identification process is performed on an image obtained by rotating the image by 90 degrees, 180 degrees, and 270 degrees. Thus, the form identification process can be performed correctly regardless of the direction of loading of the form with respect to the hopper of the color scanner 10.

【0029】ステップS78の判定の結果、変数Rが数
値「360」以下の場合には、ステップS71へ戻り、
以下同様にステップS71からステップS77までの処
理を行う。もし、変数Rが数値「360」以上になった
場合には、図6に示したステップS63へ進む。
If the result of determination in step S78 is that variable R is less than or equal to numerical value "360", the flow returns to step S71, and
Hereinafter, similarly, the processing from step S71 to step S77 is performed. If the variable R is equal to or larger than the numerical value "360", the process proceeds to step S63 shown in FIG.

【0030】ステップS63では、変数Iに数値「1」
を加算して、変数Iを更新する。続くステップS64で
は、変数Iの数値が帳票定義情報16に登録されている
定義情報の数を超えたか否かを判断する。この判断は、
入力した帳票イメージを帳票定義情報16に登録されて
いるすべての帳票定義情報を用いて帳票識別を実施した
か否かを判断している。もし、すべての帳票定義情報と
比較が終了していない場合には、ステップS61に戻
り、以下ステップS61からステップS63までの処理
を同様に処理する。もし、ステップS64で全ての帳票
定義情報を用いた帳票識別が終了したと判断された場合
には、ステップS65に進む。
In step S63, the variable I is set to a numerical value "1".
To update the variable I. In a succeeding step S64, it is determined whether or not the numerical value of the variable I has exceeded the number of definition information registered in the form definition information 16. This decision
It is determined whether or not form identification has been performed on the input form image using all the form definition information registered in the form definition information 16. If the comparison with all the form definition information has not been completed, the process returns to step S61, and the processes from step S61 to step S63 are performed in the same manner. If it is determined in step S64 that the form identification using all the form definition information has been completed, the process proceeds to step S65.

【0031】ステップS65では、ステップS62の処
理において入力した帳票イメージが帳票定義情報16の
中に登録されている帳票定義情報と一致した数が1つか
複数かを判断する。一致した数が1つの場合には、帳票
識別処理を正常終了する。この場合には、入力した帳票
イメージを持つ帳票は、ステップS76にて唯一識別さ
れた帳票定義情報で定義された帳票であるということに
なる。もし、一致した数が複数又はゼロの場合には、帳
票識別処理を異常終了する。
In step S65, it is determined whether the number of the form images input in the processing in step S62 that matches the form definition information registered in the form definition information 16 is one or more. If the number of matches is one, the form identification process ends normally. In this case, the form having the input form image is the form defined by the form definition information uniquely identified in step S76. If the number of matches is plural or zero, the form identification processing is abnormally terminated.

【0032】このように入力した帳票イメージと一致す
る帳票定義情報が識別されたならば、その一致した帳票
定義情報に対応づけられているフォーマットコントロー
ル情報をフォーマットコントロール情報17から読み出
す。文字認識プログラム13は、この読み出したフォー
マットコントロール情報を用いて入力した帳票イメージ
から文字認識を実行する。 光学的文字読取装置1
0にソーターが接続されている場合には、文字認識処理
後の帳票をソーターにより、種類別に複数の排紙ポケッ
トに排紙することで、区分けすることができる。
When the form definition information that matches the input form image is identified, the format control information associated with the matched form definition information is read from the format control information 17. The character recognition program 13 executes character recognition from the input form image using the read format control information. Optical character reader 1
In the case where a sorter is connected to 0, the form after the character recognition processing is discharged by a sorter to a plurality of discharge pockets for each type, thereby enabling sorting.

【0033】この発明を実施して大きな効果が期待でき
る一例として、金融機関における地方自治体等が発行す
る固定資産税、都市計画税、水道料金等の支払い通知書
の文字読み取り処理がある。これらの通知票は、それぞ
れの自治体等が独自の情報処理システムの中でOCR処
理するために専用に設計して作成した帳票である。しか
し、金融機関のOCR処理から見れば、これらの帳票は
単なる既存帳票に過ぎない。従って、従来顧客からこれ
ら通知票に基づいた各種料金の振り込み処理の依頼を受
けた場合には、これらの何百種類存在する帳票を発行団
体別、しかも通知書の種類別に手作業にて区分けすると
共に、これら区分けした通知書毎に振り込み金額の合計
を計算することが必要であった。
One example of a large effect that can be expected by implementing the present invention is a character reading process of a payment notice of a fixed asset tax, a city planning tax, a water bill, etc. issued by a local government in a financial institution. These notification forms are forms designed and created by the respective municipalities or the like to perform OCR processing in their own information processing systems. However, from the viewpoint of the financial institution's OCR processing, these forms are merely existing forms. Therefore, when a request from a customer for a transfer process of various charges based on these notification sheets is received, these hundreds of existing forms are manually classified according to the issuing organization and the type of the notification form. At the same time, it was necessary to calculate the total transfer amount for each of these classified notices.

【0034】このような処理に対して本願発明を適用す
ることで、それぞれが独自に設計した何百種類存在する
帳票の識別がきわめて容易にできるため、帳票の文字認
識をすることで、振り込み金額の文字認識が容易に実現
でき、通知書毎の合計金額の自動計算が実現できる。し
かも、OCRにソーターを備えておけば、文字認識処理
の終了した帳票をその種類毎に区分けできる。従って、
従来人の手作業で行っていた、合計金額の計算及び帳票
の種類別区分けが、全て機械処理できるようになり、処
理効率を大幅に向上することができる。
By applying the present invention to such processing, it is possible to easily identify hundreds of forms originally designed respectively. Can be easily realized, and the automatic calculation of the total amount for each notice can be realized. Moreover, if a sorter is provided in the OCR, the forms on which the character recognition processing has been completed can be classified according to their types. Therefore,
The calculation of the total amount and the classification by form of the form, which were conventionally performed manually by a person, can all be performed by machine processing, and the processing efficiency can be greatly improved.

【0035】[0035]

【発明の効果】以上説明した通り、本発明によれば、帳
票識別することが考慮されずに作成された既存帳票を精
度よく識別して文字認識することができる。
As described above, according to the present invention, it is possible to accurately identify an existing form created without considering form identification and recognize characters.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施形態に関わるOCRのシステム構
成を示す図である。
FIG. 1 is a diagram showing an OCR system configuration according to an embodiment of the present invention.

【図2】帳票定義情報である帳票定義項目を説明するた
めの図である。
FIG. 2 is a diagram for explaining a form definition item that is form definition information.

【図3】帳票定義項目であるコーナーカットを説明する
ための図である。
FIG. 3 is a diagram for explaining a corner cut which is a form definition item.

【図4】帳票定義項目であるとじ穴を説明するための図
である。
FIG. 4 is a diagram for explaining a binding hole which is a form definition item.

【図5】帳票定義項目であるプレプリントを説明するた
めの図である。
FIG. 5 is a diagram for explaining preprints, which are form definition items.

【図6】帳票識別処理を説明するためのフローチャート
図である。
FIG. 6 is a flowchart for explaining a form identification process.

【図7】図6のフローチャート図における帳票識別処理
を説明するためのフローチャート図である。
FIG. 7 is a flowchart for explaining a form identification process in the flowchart of FIG. 6;

【符号の説明】[Explanation of symbols]

10‥‥光学的文字読取装置 11‥‥カラースキャナー 12‥‥パーソナルコンピュータ 13‥‥文字認識プログラム 14‥‥帳票定義プログラム 15‥‥磁気ディスク装置 16‥‥帳票定義情報 17‥‥フォーマットコントロール情報 10 Optical character reader 11 Color scanner 12 Personal computer 13 Character recognition program 14 Form definition program 15 Magnetic disk unit 16 Form definition information 17 Format control information

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 帳票を識別するための複数の帳票定義情
報を保持する帳票定義情報保持手段と、 前記複数の帳票定義情報にそれぞれ対応する帳票に記録
された文字を認識するためのフォーマットコントロール
情報を保持するフォーマットコントロール情報保持手段
と、 文字認識対象の帳票の帳票イメージを入力するイメージ
入力手段と、前記文字認識対象の帳票を前記入力した帳
票イメージと前記帳票定義情報とに基づいて特定の帳票
として識別する帳票識別手段と、 この帳票識別手段の帳票識別結果に基づいて、前記フォ
ーマットコントロール情報保持手段から前記識別した帳
票に対応するフォーマットコントロール情報を選択し、
この選択したフォーマットコントロール情報を用いて前
記入力した帳票イメージの文字を認識する文字認識手段
とを具備することを特徴とする文字認識装置。
1. A form definition information holding means for holding a plurality of form definition information for identifying a form, and format control information for recognizing a character recorded on a form corresponding to each of the plurality of form definition information. Format control information holding means for holding a form, an image input means for inputting a form image of a form for character recognition, and a specific form based on the input form image and the form definition information for the form for character recognition. Form identification means for identifying as, based on the form identification result of this form identification means, select format control information corresponding to the identified form from the format control information holding means,
A character recognition unit for recognizing characters of the input form image using the selected format control information.
【請求項2】 前記帳票定義情報として、帳票サイズ、
コーナーカットの位置と大きさ、とじ穴の位置と大き
さ、特定領域に記録されたプレプリント情報の中から少
なくとも2つを選択して採用したことを特徴とする特許
請求の範囲1項記載の文字認識装置。
2. The form definition information includes a form size,
2. The method according to claim 1, wherein at least two of the corner cut position and size, the binding hole position and size, and the preprint information recorded in the specific area are selected and adopted. Character recognition device.
【請求項3】 前記帳票識別手段は、前記入力した帳票
イメージを入力したまま、90度回転したイメージ、1
80度回転したイメージ、270度回転したイメージの
4つのイメージに対して前記帳票定義情報保持手段に保
持された前記複数の帳票定義情報に基づいて特定の帳票
として識別することを特徴とする特許請求の範囲1項記
載の文字認識装置。
3. The form identification means, while inputting the input form image, outputs an image rotated 90 degrees,
4. The method according to claim 1, wherein four images, that is, an image rotated by 80 degrees and an image rotated by 270 degrees, are identified as specific forms based on the plurality of form definition information held in the form definition information holding unit. 2. The character recognition device according to claim 1, wherein:
【請求項4】 複数の排紙ポケットを持ち、前記文字認
識された帳票を前記帳票識別手段の帳票識別結果に基づ
いて種類別に特定の排紙ポケットに排紙して帳票を区分
けする排紙手段を更に具備したことを特徴とする請求項
1記載の文字認識装置。
4. A paper discharging means having a plurality of paper discharging pockets, and discharging the form in which the character is recognized to a specific paper discharging pocket for each type based on the form identification result of the form identifying means to sort the form. The character recognition device according to claim 1, further comprising:
【請求項5】 帳票を識別するための複数の帳票定義情
報を保持するステップと、 前記複数の帳票定義情報にそれぞれ対応する帳票に記録
された文字を認識するためのフォーマットコントロール
情報を保持するステップと、 文字認識対象の帳票の帳票イメージを入力するステップ
と、前記文字認識対象の帳票を前記入力した帳票イメー
ジと前記複数の帳票定義情報とに基づいて特定の帳票と
して識別するステップと、 前記帳票識別の結果に基づいて、前記複数のフォーマッ
トコントロール情報から前記識別した帳票に対応するフ
ォーマットコントロール情報を選択し、この選択したフ
ォーマットコントロール情報を用いて前記入力した帳票
イメージの文字を認識するステップとからなることを特
徴とする文字認識方法。
5. A step of holding a plurality of form definition information for identifying a form, and a step of holding format control information for recognizing a character recorded on a form corresponding to each of the plurality of form definition information. Inputting a form image of a form for character recognition; identifying the form for character recognition as a specific form based on the input form image and the plurality of form definition information; and Selecting format control information corresponding to the identified form from the plurality of format control information based on the identification result, and recognizing characters of the input form image using the selected format control information. Character recognition method characterized by becoming.
【請求項6】 前記帳票識別ステップは、前記入力した
帳票イメージを入力したまま、90度回転したイメー
ジ、180度回転したイメージ、270度回転したイメ
ージの4つのイメージに対して前記複数の帳票定義情報
に基づいて特定の帳票として識別することを特徴とする
特許請求の範囲6項記載の文字認識方法。
6. The form identification step includes the step of defining the plurality of form definitions for four images of an image rotated by 90 degrees, an image rotated by 180 degrees, and an image rotated by 270 degrees while the input form image is input. 7. The character recognition method according to claim 6, wherein the form is identified as a specific form based on the information.
【請求項7】 複数の排紙ポケットを設け、前記文字認
識された帳票を前記帳票識別結果に基づいて種類別に特
定の排紙ポケットに排紙して帳票を区分けするステップ
を更に具備したことを特徴とする請求項6記載の文字認
識装置。
7. A method according to claim 7, further comprising the step of: providing a plurality of paper discharge pockets, discharging the character-recognized form to a specific discharge pocket for each type based on the form identification result, and classifying the form. 7. The character recognition device according to claim 6, wherein:
JP2000298280A 2000-09-29 2000-09-29 Character recognition device and character recognition method Pending JP2002109468A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000298280A JP2002109468A (en) 2000-09-29 2000-09-29 Character recognition device and character recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000298280A JP2002109468A (en) 2000-09-29 2000-09-29 Character recognition device and character recognition method

Publications (1)

Publication Number Publication Date
JP2002109468A true JP2002109468A (en) 2002-04-12

Family

ID=18780260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000298280A Pending JP2002109468A (en) 2000-09-29 2000-09-29 Character recognition device and character recognition method

Country Status (1)

Country Link
JP (1) JP2002109468A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087021A (en) * 2005-09-21 2007-04-05 Fujitsu Ltd Paper document electronic document recording apparatus, paper document electronic document recording method, and paper document electronic document recording program
JP2021033831A (en) * 2019-08-28 2021-03-01 富士ゼロックス株式会社 Workflow support device, workflow support system and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087021A (en) * 2005-09-21 2007-04-05 Fujitsu Ltd Paper document electronic document recording apparatus, paper document electronic document recording method, and paper document electronic document recording program
JP2021033831A (en) * 2019-08-28 2021-03-01 富士ゼロックス株式会社 Workflow support device, workflow support system and program
JP7516734B2 (en) 2019-08-28 2024-07-17 富士フイルムビジネスイノベーション株式会社 Workflow support device, workflow support system and program

Similar Documents

Publication Publication Date Title
US7099508B2 (en) Document identification device, document definition method and document identification method
CA2192436C (en) System and method for automatic page registration and automatic zone detection during forms processing
AU769381B2 (en) A method and apparatus for processing documents in an image-based document processing system
JP2575539B2 (en) How to locate and identify money fields on documents
JP4580233B2 (en) Mail identification tag with image signature and associated mail handler
US5191525A (en) System and method for extraction of data from documents for subsequent processing
US5581628A (en) Characters reading apparatus having collating means of envelope
JPH07185473A (en) Video coating equipment
EP0938066A2 (en) Address recognizing method and mail processing apparatus
US20140268250A1 (en) Systems and methods for receipt-based mobile image capture
CN103824373A (en) Bill image sum classification method and system
JP4457700B2 (en) Page error inspection device
JP3483919B2 (en) Slip document information system
JP2002109468A (en) Character recognition device and character recognition method
JP3648050B2 (en) Form image classification method, form image registration method, and form image classification apparatus
JP4853313B2 (en) Character recognition device
JP5044255B2 (en) Paper sheet discriminating apparatus and paper sheet discriminating method
US7110600B1 (en) Document identifying device and method
JP4544703B2 (en) Form reading method and form reading system
JPH0962758A (en) Business form recognition processing system
JP3256622B2 (en) Video coding equipment
JPH11184965A (en) Slip identification register device
JP3674370B2 (en) Sorting and sorting apparatus and program recording medium thereof
JP3696152B2 (en) Form identification device and form identification method
JPH10193846A (en) Printing apparatus of application form, image inspector of id card, and sorting and classifying apparatus for the id card

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050131

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050322

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080819