[go: up one dir, main page]

JPH09305701A - Form recognition method - Google Patents

Form recognition method

Info

Publication number
JPH09305701A
JPH09305701A JP8114573A JP11457396A JPH09305701A JP H09305701 A JPH09305701 A JP H09305701A JP 8114573 A JP8114573 A JP 8114573A JP 11457396 A JP11457396 A JP 11457396A JP H09305701 A JPH09305701 A JP H09305701A
Authority
JP
Japan
Prior art keywords
character
extracted
line
image
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8114573A
Other languages
Japanese (ja)
Other versions
JP3689485B2 (en
Inventor
Hiroshi Shinjo
広 新庄
Yoshihiro Shima
好博 嶋
Katsumi Marukawa
勝美 丸川
Kazuki Nakajima
和樹 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11457396A priority Critical patent/JP3689485B2/en
Publication of JPH09305701A publication Critical patent/JPH09305701A/en
Application granted granted Critical
Publication of JP3689485B2 publication Critical patent/JP3689485B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】帳票の種類が多様な読み取り対象に対して,高
精度な帳票認識手法を提案することである。また,種類
の識別手法を提案することである。また,帳票に記載さ
れている下線を抽出する手法を提供することである。 【解決手段】帳票画像200から罫線枠204,206
と文字行212を抽出し,文字識別結果と単語辞書を照
合することにより,文字識別の誤りを修正する。表の特
徴と,照合により求めた帳票名と項目名から帳票の種類
を識別する。帳票画像から文字行と罫線を抽出し,抽出
した罫線から枠を構成する罫線を除去し,残りの罫線と
文字行の配置を比較することにより,下線を抽出する。 【効果】登記済通知書のような非定型帳票に対しても高
精度に帳票の種類を識別することができ,下線を文字中
のストロークなどと間違うことなく,高精度に抽出する
ことができる。
(57) [Abstract] [Problem] To propose a highly accurate form recognition method for a reading object having various kinds of forms. It is also to propose a type identification method. It is also to provide a method for extracting underlines described in a form. SOLUTION: Ruled line frames 204, 206 from a form image 200
The character line 212 is extracted, and the character identification result is collated with the word dictionary to correct the character identification error. The type of form is identified based on the characteristics of the table and the form name and item name obtained by matching. Character lines and ruled lines are extracted from the form image, the ruled lines that make up the frame are removed from the extracted ruled lines, and the underlines are extracted by comparing the arrangement of the remaining ruled lines and the character lines. [Effect] It is possible to identify the form type with high accuracy even for non-standard forms such as registered notices, and to extract underlines with high accuracy without making mistakes with strokes in characters. .

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は帳票、特に、不動産
に関する登記情報が記載された多様な帳票に関し,特
に,登記済通知書から文字データを読み取り,自動的に
入力する帳票認識方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form, in particular, various forms in which registration information regarding real estate is described, and more particularly, to a form recognition method for reading character data from a registered notice and automatically inputting it.

【0002】[0002]

【従来の技術】帳票の種類の識別に関する従来技術の例
としては,以下のものが挙げられる。第1は,全ての種
類の帳票に対して同じ位置に記載された帳票の種類を表
すID番号を読み取ることにより,帳票の種類を識別す
る方式である。第2は,帳票の種類ごとに枠の構造が異
なる場合に,枠の構造を識別することにより帳票の種類
を識別する方式である。この例は,特開平7―1414
62号公報に記載されている。
2. Description of the Related Art The following is an example of a conventional technique for identifying the type of a form. The first is a method of identifying the type of the form by reading the ID number representing the type of the form described in the same position for all types of forms. The second is a method of identifying the type of form by identifying the structure of the frame when the structure of the frame differs for each type of form. This example is described in JP-A-7-1414.
No. 62 publication.

【0003】[0003]

【発明が解決しようとする課題】不動産に関する登記済
通知書は現在7種類ある。これらの帳票は不動産に関す
る課税のためのデ−タ入力に用いられるものであるが、
この通知書には,帳票の種類を特定するID番号の記載
がないため,ID番号読み取りにより帳票を識別する従
来手法を用いることはできない。さらに,これらの帳票
は,同じ種類であっても枠の形状が異なる非定型帳票で
あるため,枠の構造から帳票を識別する従来手法を用い
ることはできない。また,表題部の文字を読み取ること
により帳票を識別する従来手法を用いる場合には,帳票
の識別精度は文字認識の精度に大きく依存するという問
題がある。登記済通知書の帳票名は,「権利に関する土
地登記済通知書」,「権利に関する建物登記済通知書
(一般)」,「権利に関する建物登記済通知書(専
有)」,「表示に関する土地登記済通知書」,「表示に
関する建物登記済通知書(一般)」,「表示に関する建
物登記済通知書(一棟)」,「表示に関する建物登記済
通知書(専有)」の7種類である。このうち,「表示に
関する建物登記済通知書(一般)」と「表示に関する建
物登記済通知書(一棟)」は,一字しか違わないため,
この二種類に対する識別精度が低くなる可能性がある。
[Problems to be Solved by the Invention] There are currently seven types of registered notices regarding real estate. These forms are used to enter data for taxation of real estate,
Since this notification does not include an ID number that identifies the type of the form, the conventional method of identifying the form by reading the ID number cannot be used. Furthermore, since these forms are atypical forms with different frame shapes even if they are of the same type, it is not possible to use the conventional method of identifying a form from the frame structure. Further, when the conventional method for identifying a form by reading the characters in the title part is used, there is a problem that the form identification accuracy greatly depends on the character recognition accuracy. The form name of the registered notice is “land registered notice regarding rights”, “building registered notice regarding rights (general)”, “building registered notice regarding rights (proprietary)”, “land registration regarding labeling” There are seven types: “Notification of completed building”, “Notification of registered building related to display (general)”, “Notification of registered building related to display (one building)”, “Notification of registered building related to display (proprietary)”. Of these, the "registered building registration notice for display (general)" and the "registered building registration notice for display (one building)" differ by only one character, so
The identification accuracy for these two types may be low.

【0004】そこで,本発明の第1の目的は,帳票の種
類が多様な読み取り対象に対して,高精度な帳票識別手
段を有する帳票認識手段を提案することである。
Therefore, a first object of the present invention is to propose a form recognition means having a highly accurate form identification means for reading objects having various kinds of forms.

【0005】従来の下線検出方法では,枠線以外の罫線
を下線としていたため,文字の横方向のストローク等の
ノイズ成分を下線として誤抽出する可能性があった。そ
こで,本発明の第2の目的は,高精度な下線検出手段を
有する帳票認識手段を提案することである。
In the conventional underline detection method, since ruled lines other than the frame line are used as underlines, there is a possibility that noise components such as horizontal strokes of characters may be erroneously extracted as underlines. Therefore, a second object of the present invention is to propose a form recognition means having a highly accurate underline detection means.

【0006】[0006]

【課題を解決するための手段】第1の観点では、この発
明は、登記済通知書の表面画像を入力し文字を読み取る
登記情報の認識方法であって,登記済通知書の画像から
文字行を抽出する文字行抽出手段と,抽出した複数の文
字行と枠との位置関係から帳票名の文字行を選択し文字
行選択手段と,帳票名の文字行を読み取る文字識別手段
から,登記済通知書の種類を識別する第1の帳票識別手
段と,登記済通知書の画像から罫線を抽出する罫線抽出
手段と,抽出した罫線から表の特徴を抽出する表特徴抽
出手段と,表の特徴から登記済通知書の種類を識別する
第2の帳票識別手段と,登記済通知書の画像から文字行
を抽出する文字行抽出手段と,抽出した文字行を読み取
る文字識別手段と,読み取り結果の中から帳票の項目名
を選択する項目名選択手段と,項目名の組み合わせから
登記済通知書の種類を識別する第3の帳票識別手段とを
具備し,当該3つの手段の結果を組み合わせることによ
り,登記済通知書の種類を識別する帳票認識方法を提供
する。
According to a first aspect, the present invention is a method of recognizing registration information for inputting a front surface image of a registered notice and reading characters, wherein a character line is read from the image of the registered notice. Registered from the character line extracting means for extracting the character line, the character line selecting means for selecting the character line of the form name from the positional relationship between the extracted plurality of character lines and the frame, and the character identifying means for reading the character line of the form name. First form identification means for identifying the type of notice, ruled line extraction means for extracting ruled lines from the image of the registered notice, table feature extraction means for extracting table features from the extracted ruled lines, and table features Second form identifying means for identifying the type of registered notice from, a character line extracting means for extracting a character line from the image of the registered notice, a character identifying means for reading the extracted character line, and a reading result Item name to select the item name of the form from A form for identifying the type of registered notice by including selection means and third form identifying means for identifying the type of registered notice based on the combination of item names, and combining the results of the three means for identifying the type of registered notice. Provide a recognition method.

【0007】第2の観点では、この発明は、登記済通知
書の表面画像を入力し文字を読み取る登記情報の認識方
法であって,登記済通知書の画像から文字行と罫線を抽
出する文字行抽出手段と,抽出した罫線から枠罫線と枠
罫線でない罫線を区別する罫線種判定手段と,枠罫線で
ない罫線が含まれる枠内の文字行を検出する手段と,当
該枠内の文字行と当該枠内の枠罫線でない罫線との位置
関係から,当該枠内の枠罫線でない罫線が下線か否かを
判定する下線検出手段を具備する帳票認識方法を提供す
る。
According to a second aspect, the present invention is a method of recognizing registration information for inputting a surface image of a registered notice and reading characters, wherein characters for extracting character lines and ruled lines from the image of the registered notice. A line extracting unit, a ruled line type determining unit that distinguishes a frame ruled line from a ruled line that is not a frame ruled line based on the extracted ruled lines, a unit that detects a character line in a frame that includes a ruled line that is not a frame ruled line, and a character line in the frame Provided is a form recognition method including an underline detection unit that determines whether a ruled line that is not a frame ruled line in the frame is an underline based on a positional relationship with a ruled line that is not a frame ruled line in the frame.

【0008】[0008]

【発明の実施の形態】以下、本発明の一実施例を詳細に
説明する。なお、これにより本発明が限定されるもので
はない。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below in detail. The present invention is not limited to this.

【0009】図1は、本発明の一実施例である登記情報
システムの構成図である。登記情報の認識を行う認識部
101と認識結果の修正を行う修正部105がネットワ
ーク104により接続されており,入力センタ111に
おいて認識と修正を並行して行うことができる。処理の
過程は,まずスキャナ102により登記済通知書100
の画像を入力する。次に,認識用計算機103では,文
字および罫線の認識を行い,修正用計算機106におい
て認識結果の修正確認を行う。また,辞書やコード表と
照合チェックし,コードデータを出力する。認識結果
は,通信制御用計算機107を介して,遠隔地にある計
算センタ110にあるホスト計算機108に接続された
登記情報データベース109に格納される。修正部10
5では,認識結果の一部を利用し,登記情報データベー
ス109をアクセスし,登録済の登記情報を読み出す。
当該読み出した登録情報と認識結果の一部を照合し,矛
盾がないかどうかの検定を行う。
FIG. 1 is a block diagram of a registration information system which is an embodiment of the present invention. The recognition unit 101 that recognizes the registration information and the correction unit 105 that corrects the recognition result are connected by the network 104, and the input center 111 can perform the recognition and the correction in parallel. The process of processing is as follows.
Enter the image of. Next, the recognition computer 103 recognizes characters and ruled lines, and the correction computer 106 confirms correction of the recognition result. It also checks the collation with a dictionary or code table and outputs the code data. The recognition result is stored in the registration information database 109 connected to the host computer 108 in the remote computing center 110 via the communication control computer 107. Correction unit 10
In 5, the part of the recognition result is used to access the registration information database 109 and read the registered registration information.
The read registration information and a part of the recognition result are collated to test whether there is any contradiction.

【0010】図2は,登記情報認識の処理過程を示すブ
ロック図である。認識部101では,帳票画像を読み取
り,修正部105に縮小画像248,枠座標250,下
線座標252,文字行座標254,帳票種類256,認
識結果ラティス258,文字座標260を出力する。修
正部105では,これらの入力データをもとに,操作者
が認識結果を修正する。画像入力部200では,帳票表
面の画像を白黒2値化して入力する。
FIG. 2 is a block diagram showing the process of registration information recognition. The recognition unit 101 reads the form image and outputs a reduced image 248, frame coordinates 250, underline coordinates 252, character line coordinates 254, form type 256, recognition result lattice 258, and character coordinates 260 to the correction unit 105. In the correction unit 105, the operator corrects the recognition result based on these input data. In the image input unit 200, the image on the front surface of the form is binarized and input.

【0011】入力した画像は,画像縮小部202と文字
行画像抽出部218に出力される。画像縮小部202で
は,後続の処理の高速化のため帳票画像を縮小し,縮小
画像248を出力する。縮小処理は,細い罫線が縮小後
かすれないよう,画素ごとのOR処理を行う。縮小した
画像に対し,罫線抽出部204において実線と点線の罫
線を抽出する。実線は,黒画素の連続するつながりをも
とに抽出される。点線は,黒画素の連結成分の外接矩形
の配置,サイズの拘束条件をもとに抽出される。枠抽出
部206では,204で抽出した罫線から罫線が四方を
取り囲む枠を求め,枠の頂点座標250を出力する。表
特徴抽出部208では,206で抽出された枠の情報か
ら,枠の集まりである表の特徴量を抽出する。この特徴
量とは,縦横の罫線の本数や,罫線同士の接続関係,枠
の位置関係等である。
The input image is output to the image reduction unit 202 and the character line image extraction unit 218. The image reduction unit 202 reduces the form image and outputs a reduced image 248 in order to speed up the subsequent processing. In the reduction processing, OR processing is performed for each pixel so that a thin ruled line does not become faint after the reduction. The ruled line extraction unit 204 extracts ruled lines of solid lines and dotted lines from the reduced image. The solid line is extracted based on the continuous connection of black pixels. The dotted lines are extracted based on the arrangement of the circumscribed rectangles of the connected components of black pixels and the size constraint conditions. The frame extraction unit 206 obtains a frame surrounded by the ruled lines on all sides from the ruled line extracted in 204, and outputs the vertex coordinates 250 of the frame. The table feature extraction unit 208 extracts the feature amount of the table, which is a set of frames, from the information of the frames extracted in 206. The feature amount is the number of vertical and horizontal ruled lines, the connection relationship between ruled lines, the positional relationship between frames, and the like.

【0012】一方,文字行抽出部206では,202か
ら出力された縮小画像から,文字の集合である文字行を
抽出する。ここでは,黒画素の連結成分うち,文字と推
定される大きさの連結成分の外接矩形の頂点座標をもと
に,文字の並びと推定される外接矩形を融合することに
より,文字行を生成する。行―枠対応部214では,2
12で抽出した文字行の頂点座標と206で抽出した枠
の頂点座標を比較することにより,各文字行がどの枠内
に存在するか,もしくは枠外にあるかを判定し,枠ごと
に含まれる文字行の頂点座標と枠外の文字行の頂点座標
254を出力する。 また,下線抽出部216では,2
04で抽出した罫線座標と,206で抽出した枠の頂点
座標と,214で抽出した枠内の文字行座標とをもと
に,下線を抽出して,下線の座標252を出力する。さ
らに,文字行画像抽出部218では,214で抽出され
た文字行座標をもとに,200で入力された画像から文
字行部分の画像を切り出す。文字切り出し・文字識別部
220では,文字切り出し部222と文字識別部224
が協調して,文字を1文字ずつ切り出し,その文字座標
260を出力する。さらに,文字識別部224では,切
り出した1文字分の画像パターンに対して,識別辞書2
26を用いて文字を識別する。帳票名照合部228で
は,文字識別部224の出力である文字識別結果を入力
し,単語照合部230により帳票名辞書232に格納さ
れた帳票名単語と照合することにより帳票名についての
認識結果の誤りを修正して帳票名を求める。
On the other hand, the character line extraction unit 206 extracts a character line, which is a set of characters, from the reduced image output from 202. Here, a character line is generated by fusing the circumscribed rectangles that are estimated to be a sequence of characters based on the vertex coordinates of the circumscribed rectangles of the connected components that are estimated to be characters among the connected components of black pixels. To do. In the line-frame correspondence unit 214, 2
By comparing the vertex coordinates of the character line extracted in 12 and the vertex coordinates of the frame extracted in 206, it is determined in which frame each character line exists or is outside the frame, and it is included in each frame. The vertex coordinates of the character line and the vertex coordinates 254 of the character line outside the frame are output. Further, in the underline extraction unit 216, 2
Underlines are extracted based on the ruled line coordinates extracted in 04, the vertex coordinates of the frame extracted in 206, and the character line coordinates in the frame extracted in 214, and the underline coordinates 252 are output. Further, the character line image extraction unit 218 cuts out the image of the character line portion from the image input in 200 based on the character line coordinates extracted in 214. The character cutout / character identification unit 220 includes a character cutout unit 222 and a character identification unit 224.
Cooperate with each other to cut out characters one by one and output the character coordinates 260. Further, in the character identification unit 224, the identification dictionary 2 is added to the extracted image pattern of one character.
26 is used to identify the character. The form name collation unit 228 inputs the character identification result output from the character identification unit 224, and the word collation unit 230 collates the result with the form name word stored in the form name dictionary 232 to obtain the recognition result of the form name. Correct the mistake and obtain the form name.

【0013】帳票名辞書232に格納された単語は,認
識対象の帳票名である。認識対象の帳票名はあらかじめ
わかっており,帳票名は帳票の種類に1対1に対応す
る。さらに,項目照合部234では,228で照合され
なかった文字認識結果を入力し,単語照合部236によ
り項目辞書238に格納された項目名単語と照合するこ
とにより項目名についての認識結果の誤りを修正して項
目名を求める。項目辞書238にされた単語は,認識対
象の帳票内に記載された項目である。内容照合部240
では,234で照合されなかった文字認識結果を入力
し,単語照合部242により内容辞書244に格納され
た内容単語と照合することにより内容についての認識結
果の誤りを修正する。ここで,「内容」とは帳票におい
て,項目名に対して記載されている内容をさす。例え
ば,「地目」という項目に対する内容には「居宅」や
「公園」などがある。内容辞書244に格納された単語
は,認識対象の帳票内に記載された内容を記載する単語
のうち,あらかじめ使用が決められている単語である。
240の処理の結果出力される認識結果ラティス258
は,1文字ごとに文字識別処理の結果である候補文字を
類似度が高い順に並べたものである。この文字識別結果
は,帳票名照合,項目照合,内容照合により誤りを修正
してある。
The words stored in the form name dictionary 232 are the form names to be recognized. The form name to be recognized is known in advance, and the form name corresponds to the type of the form one-to-one. Further, in the item matching unit 234, the character recognition result which has not been matched in 228 is input, and the word matching unit 236 matches the character name with the item name word stored in the item dictionary 238 to correct the error in the recognition result of the item name. Correct and find the item name. The words in the item dictionary 238 are items described in the form to be recognized. Content collation unit 240
Then, the character recognition result that has not been matched in 234 is input, and the word matching unit 242 corrects the error in the recognition result regarding the content by matching with the content word stored in the content dictionary 244. Here, the “content” refers to the content described for the item name in the form. For example, the contents for the item "ground" include "home" and "park". The words stored in the content dictionary 244 are words that are predetermined to be used among the words that describe the content described in the form to be recognized.
Recognition result lattice 258 output as a result of processing 240
Is a sequence of candidate characters, which are the result of the character identification processing, arranged in descending order of similarity for each character. This character identification result is corrected for errors by form name matching, item matching, and content matching.

【0014】一方,帳票識別部246では,表特徴抽出
部208と帳票名照合部228と項目名照合部234の
出力結果を入力し,表特徴と帳票名,項目名から帳票の
種類を識別し,帳票種類256を出力する。
On the other hand, the form identification unit 246 inputs the output results of the table feature extraction unit 208, the form name comparison unit 228, and the item name comparison unit 234, and identifies the form type from the table feature, the form name, and the item name. , Form type 256 is output.

【0015】図3は、図2で示した登記情報認識の処理
フローを示す図である。ステップ300で画像を入力
し,ステップ302で当該画像を縮小する。次いで,ス
テップ304で画像から罫線を抽出し,ステップ306
で罫線から枠を抽出する。さらに,ステップ308で表
の特徴を抽出する。また,ステップ310で当該縮小画
像から文字行を抽出し,ステップ312で,抽出した行
と枠とを対応付ける。また,ステップ314で,罫線と
枠と文字行の座標から下線を抽出する。さらに,ステッ
プ316で,文字行の座標値に基づいて帳票画像から文
字行部分の画像のみを抽出する。ステップ318で,当
該文字行画像を1文字ずつの画像に分割し,ステップ3
20で切り出された画像パターンに対して文字識別を実
行する。ステップ322では,文字識別結果を帳票名の
単語と照合して帳票名を識別する。ステップ324で
は,文字識別結果を項目名の単語と照合して項目名を識
別する。ステップ326では,文字識別結果を内容の単
語と照合して内容を識別する。ステップ328では,ス
テップ308の処理結果である表の特徴とステップ32
2の処理結果である帳票名とステップ324の処理結果
である項目名から帳票の種類を識別する。ステップ33
0では,300から328の処理で得た結果を出力す
る。
FIG. 3 is a diagram showing a processing flow of registration information recognition shown in FIG. An image is input in step 300, and the image is reduced in step 302. Next, in step 304, ruled lines are extracted from the image, and in step 306
Extract the frame from the ruled line with. Further, in step 308, the characteristics of the table are extracted. In step 310, character lines are extracted from the reduced image, and in step 312, the extracted lines are associated with the frames. In step 314, the underline is extracted from the coordinates of the ruled line, the frame, and the character line. Further, in step 316, only the image of the character line portion is extracted from the form image based on the coordinate value of the character line. In step 318, the character line image is divided into images for each character, and step 3
Character identification is performed on the image pattern cut out in 20. In step 322, the character identification result is collated with the word of the form name to identify the form name. In step 324, the character identification result is collated with the word of the item name to identify the item name. In step 326, the content is identified by matching the character identification result with the word of the content. In step 328, the characteristics of the table as the processing result of step 308 and step 32
The type of the form is identified from the form name which is the processing result of No. 2 and the item name which is the processing result of step 324. Step 33
At 0, the result obtained by the processing from 300 to 328 is output.

【0016】図4は,認識対象である登記済通知書の画
像を,説明のために簡略的に示した図である。帳票画像
400の例では,帳票名「権利に関する建物登記済通知
書(専有)」401が記載されており。横罫線402,
404,406,408と縦罫線410,412,41
4,416が印刷されている。また,項目として「符
号」418と「所在」420,「地目」422がある。
「符号」の内容としては「1」(424)と「2」(4
26),「所在」の内容としては428と430に「国
分寺市東恋ヶ窪1丁目280番地」が記載されている。
「地目」の内容としては,「宅地」(432)と「公
園」(434)が記載されている。さらに,内容424
「1」,428「国分寺市東恋ヶ窪1丁目280番
地」,432「宅地」には,それぞれ下線436,43
8,440が印刷されている。
FIG. 4 is a diagram simply showing an image of a registered notice as a recognition target for the purpose of explanation. In the example of the form image 400, the form name “Building registration notice regarding rights (proprietary)” 401 is described. Horizontal ruled lines 402,
404, 406, 408 and vertical ruled lines 410, 412, 41
4, 416 are printed. Further, as items, there are “code” 418, “location” 420, and “ground level” 422.
The contents of "sign" are "1" (424) and "2" (4
26), the content of “location” is described in 428 and 430 as “280-chome, Higashikoigakubo, Kokubunji-shi”.
As the contents of "ground", "residential area" (432) and "park" (434) are described. In addition, content 424
Underlines 436 and 43 under "1", 428, "280-chome, Higashi Koigakubo, Kokubunji," and 432 "residential land," respectively.
8,440 are printed.

【0017】図5は,図4の帳票画像に対する,図3の
ステップ304の罫線抽出処理結果を示すものである。
(a)の500は横罫線の抽出結果であり,(b)の5
20は縦罫線の抽出結果である。(a)では,図4の横
罫線402から408に相当する罫線として,それぞ
れ,502から508が抽出されている。下線436,
438,440に相当する下線として,それぞれ,51
0,514,516が抽出されている。512と518
は,「市東恋」の横ストロークをつなげることによっ
て,罫線として抽出したものである。この離れた横スト
ロークが接続される現象は,横罫線を抽出する際に黒画
素を横方向に収縮・膨張処理することにより,接近した
黒画素が接続されることに起因する。また,(b)で
は,図4の縦罫線410から416に相当する罫線とし
て,それぞれ,522から528が抽出されている。
FIG. 5 shows the ruled line extraction processing result of step 304 of FIG. 3 for the form image of FIG.
500 in (a) is the extraction result of the horizontal ruled line, and 5 in (b)
Reference numeral 20 is the result of vertical ruled line extraction. In (a), 502 to 508 are extracted as ruled lines corresponding to the horizontal ruled lines 402 to 408 of FIG. 4, respectively. Underline 436
As underlines corresponding to 438 and 440, respectively, 51
0,514,516 are extracted. 512 and 518
Is extracted as a ruled line by connecting horizontal strokes of "Ichito Koi". The phenomenon in which the horizontal strokes that are separated from each other are connected is that black pixels that are close to each other are connected by contracting and expanding the black pixels in the horizontal direction when extracting the horizontal ruled line. Further, in (b), 522 to 528 are extracted as ruled lines corresponding to the vertical ruled lines 410 to 416 of FIG. 4, respectively.

【0018】図6は,図4の帳票画像に対する,図3の
ステップ306の枠抽出処理結果を示すものである。6
00は枠抽出結果である。602から618の9個の枠
が抽出されている。
FIG. 6 shows the result of frame extraction processing in step 306 of FIG. 3 for the form image of FIG. 6
00 is a frame extraction result. Nine frames 602 to 618 are extracted.

【0019】図7は,図4の帳票画像に対する,図3の
ステップ310の文字行抽出処理結果を示すものであ
る。700は文字行抽出結果である。図4の文字行40
1,418,420,422,424から434の文字
行に対して,それぞれ702から720の文字行の外接
矩形が抽出されている。
FIG. 7 shows the character line extraction processing result of step 310 of FIG. 3 for the form image of FIG. Reference numeral 700 is a character line extraction result. Character line 40 in FIG.
The circumscribing rectangles of the character lines 702 to 720 are extracted for the character lines 1,418, 420, 422, 424 to 434, respectively.

【0020】図8は,図3のステップ314の文字行抽
出処理に関する処理フローである。罫線抽出処理30
4,枠抽出処理306,文字行抽出処理310の結果を
用いて,ステップ800では,枠を構成しない罫線を抽
出する。ステップ802では,ステップ800で抽出し
た罫線の本数分だけ,以下の処理を繰り返す。ステップ
804では,文字行の座標と罫線の座標を比較する。比
較の方法については図9と図10を用いて説明する。ス
テップ806では,比較した値が基準を満たすか否かを
判定する。基準値を満たす場合,ステップ808で,比
較対象の罫線を下線とする。なお,上記ステップ808
において抽出された2本の下線について,端点同士がが
微小な間隔で離れており,延長線上に存在する場合に
は,1本の下線であるとすることもできる。また,上記
ステップ808において抽出した下線の長さが基準値以
下であれば,下線とみなさないとすることもできる。
FIG. 8 is a processing flow relating to the character line extraction processing in step 314 of FIG. Ruled line extraction processing 30
4. In step 800, ruled lines that do not form a frame are extracted using the results of the frame extraction process 306 and the character line extraction process 310. In step 802, the following processing is repeated for the number of ruled lines extracted in step 800. In step 804, the coordinates of the character line and the coordinates of the ruled line are compared. The comparison method will be described with reference to FIGS. 9 and 10. In step 806, it is determined whether the compared value satisfies the standard. If the reference value is satisfied, then in step 808, the ruled line to be compared is underlined. Note that the above step 808
Regarding the two underlines extracted in (1), if the end points are separated from each other by a minute interval and are present on the extension line, it can be regarded as one underline. Further, if the length of the underline extracted in step 808 is equal to or less than the reference value, it may not be considered as an underline.

【0021】図9は,図8の処理フローを説明するため
の帳票の枠の例である。横罫線900と902,縦罫線
904と906,文字行908,下線910が印刷され
ている。
FIG. 9 is an example of a form frame for explaining the processing flow of FIG. Horizontal ruled lines 900 and 902, vertical ruled lines 904 and 906, character lines 908, and underlines 910 are printed.

【0022】図10は,図9の例から罫線と文字行を抽
出した結果である。この図を用いて下線の判定を説明す
る。下線判定処理は,文字行と同一枠内にある罫線の中
で,文字行の下に位置し,文字行とほぼ同じ長さの罫線
を下線と判定する。図10において,1007は文字が
印刷されていた領域であり,1008は1007の外接
矩形である。図9の900から910の罫線は,それぞ
れ1000から1010として抽出されている。さら
に,1012は文字の横ストロークを罫線として抽出し
たものである。抽出された罫線の中から,枠を構成して
いない罫線として,1010と1012が抽出される。
以下,1010を例として下線と判定される場合につい
て説明し,1012を例として下線と判定されない場合
を説明する。
FIG. 10 shows the result of extracting ruled lines and character lines from the example of FIG. The underline determination will be described with reference to this figure. In the underline determination processing, a ruled line that is located below a character line and has a length substantially the same as that of the character line is determined to be an underline. In FIG. 10, 1007 is an area in which characters are printed, and 1008 is a circumscribed rectangle of 1007. The ruled lines 900 to 910 in FIG. 9 are extracted as 1000 to 1010, respectively. Further, 1012 is a horizontal stroke of a character extracted as a ruled line. From the extracted ruled lines, 1010 and 1012 are extracted as ruled lines that do not form a frame.
Hereinafter, a case where it is determined that the line is underlined will be described by taking 1010 as an example, and a case where the line is not determined as underline is described by taking 1012 as an example.

【0023】図10の1010について判定する。ま
ず,罫線の下端のy座標と文字行の下端のy座標との差
d11(1014)を求める。次に,罫線の上端のy座
標と文字行の上端のy座標との差d12(1016)を
求める。さらに,罫線のx方向の長さL1(1018)
と文字行のx方向の長さLc(1020)との差を求め
る。この値を基準値,α,β,γ1,γ2と比較する。
d11が文字行より下でα未満であり,d12がβ以上
であり,L1―Lcがγ1以上γ2以下であれば,この
罫線を下線とする。上記の処理の判定基準であるα,
β,γ1,γ2の値は経験的に求めることができる。
The judgment is made for 1010 in FIG. First, the difference d11 (1014) between the y coordinate of the lower end of the ruled line and the y coordinate of the lower end of the character line is obtained. Next, the difference d12 (1016) between the y coordinate of the upper edge of the ruled line and the y coordinate of the upper edge of the character line is obtained. Furthermore, the length L1 of the ruled line in the x direction (1018)
And the length Lc (1020) of the character line in the x direction are calculated. This value is compared with the reference values α, β, γ1, γ2.
If d11 is below the character line and less than α, d12 is β or more, and L1-Lc is γ1 or more and γ2 or less, this ruled line is underlined. Α, which is the criterion for the above processing,
The values of β, γ1 and γ2 can be empirically obtained.

【0024】例えば,αは,文字行と下線との間隔が一
定であればその値を用いることができる。一定でなけれ
ば,枠の高さと文字の高さの差の1/2を用いることが
できる。βは,文字行の下端と下線との間隔と,文字の
高さとが一定であれば,この2つの値の和を用いること
ができる。γ1とγ2の値は,一文字程度のマージンを
見込んで,γ1は文字幅に(−1)をかけた値,γ2は
文字幅等を用いることができる。上記のα,β,γ1,
γ2の値の設定にあたっては,帳票の傾きや,線のかす
れやつぶれ等に対して頑健性をもたせるため,マージン
をもたせて値を設定することができる。また,d11の
値の許容値について,負の値を許容すれば,下線が文字
と重なる場合にも対応できる。
For example, the value of α can be used if the distance between the character line and the underline is constant. If it is not constant, 1/2 of the difference between the height of the frame and the height of the character can be used. For β, the sum of these two values can be used if the distance between the lower end of the character line and the underline and the height of the character are constant. As for the values of γ1 and γ2, a value obtained by multiplying the character width by (-1) can be used for γ1, and a character width or the like can be used for γ2 in consideration of a margin of about one character. The above α, β, γ1,
In setting the value of γ2, the value can be set with a margin in order to provide robustness against the inclination of the form, the blurring of lines, and the like. In addition, if a negative value is allowed for the allowable value of d11, it is possible to deal with the case where the underline overlaps a character.

【0025】次に,図10の1012について判定す
る。まず,罫線の下端のy座標と文字行の下端のy座標
との差d21(1022)を求める。次に,罫線の上端
のy座標と文字行の上端のy座標との差d22(102
4)を求める。さらに,罫線のx方向の長さL2(10
26)と文字行のx方向の長さLc(1020)との差
を求める。これらの値を上記α,β,γ1,γ2と比較
した場合,d21は負の大きな値となり,d22はβよ
り小さな値になるため,下線ではないと判定される。
Next, determination is made for 1012 in FIG. First, a difference d21 (1022) between the y-coordinate of the lower end of the ruled line and the y-coordinate of the lower end of the character line is obtained. Next, the difference d22 (102) between the y coordinate of the upper edge of the ruled line and the y coordinate of the upper edge of the character line.
Find 4). Furthermore, the length L2 (10
26) and the length Lc (1020) of the character line in the x direction are calculated. When these values are compared with the above α, β, γ1, γ2, d21 has a large negative value and d22 has a value smaller than β, so it is determined that the line is not underlined.

【0026】なお,ここで用いたd11,d12は文字
の高さや枠の高さ等で正規化してもよい。また,L1と
Lcの差の代わりに比を比較してもよい。α,β,γ
1,γ2の値は,比較対象の定義に合わせて設定する。
The d11 and d12 used here may be normalized by the height of the character or the height of the frame. Further, the ratio may be compared instead of the difference between L1 and Lc. α, β, γ
The values of 1 and γ2 are set according to the definition of the comparison target.

【0027】また,ここでは,罫線の下端のy座標と文
字行の下端のy座標との差1014と,罫線の上端のy
座標と文字行の上端のy座標との差1016,罫線のx
方向の長さ(1018)と文字行のx方向の長さ(10
20)との差の3つの評価値を用いたが,必要に応じて
この中の1つもしくは2つのみを用いていもよい。
Further, here, the difference 1014 between the y-coordinate of the lower end of the ruled line and the y-coordinate of the lower end of the character line, and the y-value of the upper end of the ruled line.
The difference between the coordinates and the y-coordinate of the top of the character line 1016, the ruled line x
Direction length (1018) and character line length in the x direction (10
Although three evaluation values of the difference from 20) were used, only one or two of them may be used as necessary.

【0028】図11は,図3のステップ314下線抽出
処理において,文字行の座標の代わりに文字の座標を用
いた例である。図10で説明した判定基準を用いて,枠
を構成しない罫線1108と文字の外接矩形1112を
比較することにより,1108は下線であると判定でき
る。また,枠を構成しない罫線1110と文字の外接矩
形1114を比較することにより,1110は下線でな
いと判定できる。
FIG. 11 shows an example in which the character coordinates are used instead of the character line coordinates in the step 314 underline extraction processing of FIG. By comparing the ruled line 1108 that does not form a frame with the circumscribing rectangle 1112 of the character using the determination criteria described in FIG. 10, it can be determined that 1108 is an underline. Further, by comparing the ruled line 1110 that does not form a frame with the circumscribing rectangle 1114 of the character, it can be determined that 1110 is not an underline.

【0029】図12は,文字行内の一部の文字に対して
のみ下線が印刷されている例である。枠1200内に,
文字行1202と下線1204が記載されている。図1
1の方法を用いれば,文字行中の「1丁目280番」の
文字のみに下線が印刷されていることを判定できる。
FIG. 12 shows an example in which underlines are printed only on some characters in a character line. In the frame 1200,
A character line 1202 and an underline 1204 are described. FIG.
If the method 1 is used, it is possible to determine that the underline is printed only on the character “1, 280” in the character line.

【0030】図13は,図3のステップ314の文字行
抽出処理に関する別の処理フローである。登記済通知書
では,図4の436,438,440のように同一線上
に複数の下線が存在することが多い。一方,下線436
は短いので,文字内の横方向のストロークと長さが変わ
らないため,罫線抽出の際に抽出もれする可能性があ
る。この処理では,罫線抽出の際に抽出もれする可能性
のある短い下線を正しく抽出することを目的とする。こ
のため,まず長い下線を抽出し,この下線の延長上にあ
る罫線を下線と判定する。
FIG. 13 is another processing flow relating to the character line extraction processing in step 314 of FIG. In the registered notice, a plurality of underlines are often present on the same line like 436, 438, and 440 in FIG. On the other hand, the underline 436
Is short, the length is the same as the horizontal stroke in the character, so there is a possibility that it will be missed when the ruled line is extracted. The purpose of this process is to correctly extract short underlines that may be missed during ruled line extraction. Therefore, first, a long underline is extracted, and a ruled line that is an extension of this underline is determined as an underline.

【0031】以下,図13の各ステップについて説明す
る。ステップ1300では,長い下線のみを抽出する。
この処理は,図8で示した処理等を用いて実現できる。
ステップ1302では,横方向のランレングスデータの
うち枠線を構成しないランレングスデータを抽出する。
ステップ1304では,抽出したランレングスデータの
個数分についてステップ1306と1308の処理を繰
り返す。ステップ1306では,対象とするランレング
スデータが下線の延長線上にあるか否かを判定する。延
長線上にあれば,ステップ1308で下線を構成するラ
ンレングスデータであるとして抽出する。ステップ13
10では,ステップ1308で下線を構成すると判定さ
れたランレングスデータから構成される罫線を下線とし
て抽出する。なお,上記ステップ1310において抽出
された2本の下線について,端点同士がが微小な間隔で
離れており,延長線上に存在する場合には,1本の下線
であるとすることもできる。また,上記ステップ131
0において抽出した下線の長さが基準値以下であれば,
下線とみなさないとすることもできる。
Each step in FIG. 13 will be described below. In step 1300, only long underlines are extracted.
This processing can be realized using the processing shown in FIG.
In step 1302, run length data that does not form a frame line is extracted from the horizontal run length data.
In step 1304, the processes of steps 1306 and 1308 are repeated for the number of extracted run length data. In step 1306, it is determined whether the target run length data is on the extension of the underline. If it is on the extension line, it is extracted in step 1308 as run length data forming the underline. Step 13
In step 10, the ruled line composed of the run length data determined to form the underline in step 1308 is extracted as the underline. It should be noted that the two underlines extracted in step 1310 may be regarded as one underline if the endpoints are separated from each other by a minute distance and are present on the extension line. In addition, the above step 131
If the length of the underline extracted at 0 is less than the reference value,
You can choose not to consider it as an underline.

【0032】図14は,図13の処理フローを説明する
ための帳票の枠の例である。横罫線1400と140
2,縦罫線1404から1410,下線1412から1
416,文字行1418から1422が印刷されてい
る。
FIG. 14 is an example of a form frame for explaining the processing flow of FIG. Horizontal ruled lines 1400 and 140
2, vertical ruled lines 1404 to 1410, underlines 1412 to 1
416, character lines 1418 to 1422 are printed.

【0033】図15は,図14の画像から枠を構成しな
い横方向のランレングスデータと長い下線とを抽出した
結果である。1500は図13のステップ1300で抽
出された長い下線である。横方向のランレングスデータ
の連結成分のうち,1502と1504は1500の延
長線上1508から許容範囲w(1510)以内にある
ので,下線であると判定する。1506はwよりも外に
あるので,下線はないと判定する。
FIG. 15 is a result of extracting run length data in the horizontal direction and long underlines that do not form a frame from the image of FIG. 1500 is a long underline extracted in step 1300 of FIG. Among the connected components of the run length data in the horizontal direction, 1502 and 1504 are within the permissible range w (1510) from the extension line 1508 of 1500, and thus are determined to be underlines. Since 1506 is outside w, it is determined that there is no underline.

【0034】図16は,図3のステップ314の文字行
抽出処理に関する別の処理フローである。この処理で
は,枠を構成しない横方向のランレングスデータの長さ
の値をランの中点から傾き方向に投影して作成したヒス
トグラムを用いて下線を抽出する。以下,図16の各ス
テップにてついて説明する。ステップ1600では,横
方向のランレングスデータのうち枠線を構成しないラン
レングスデータを抽出する。ステップ1602では,抽
出したランレングスデータの長さの値を,ランの中点か
ら傾き方向に投影してヒストグラムを作成する。ステッ
プ1604では,ヒストグラムの山の数だけステップ1
606とステップ1608の処理を繰り返す。ステップ
1606では,投影値が基準値以上であるか否かを判定
する。基準値以上であれば,ステップ1608で投影さ
れたランレングスデータは下線を構成すると判定する。
ステップ1610では,ステップ1608で下線を構成
すると判定されたランレングスデータから下線を抽出す
る。なお,上記ステップ1610において抽出された2
本の下線について,端点同士がが微小な間隔で離れてお
り,延長線上に存在する場合には,1本の下線であると
することもできる。また,上記ステップ1610におい
て抽出した下線の長さが基準値以下であれば,下線とみ
なさないとすることもできる。
FIG. 16 is another processing flow relating to the character line extraction processing in step 314 of FIG. In this process, the underline is extracted using a histogram created by projecting the value of the length of the horizontal run length data that does not form a frame from the midpoint of the run in the tilt direction. Hereinafter, each step of FIG. 16 will be described. In step 1600, run length data that does not form a frame line is extracted from the run length data in the horizontal direction. In step 1602, the length value of the extracted run length data is projected from the midpoint of the run in the tilt direction to create a histogram. In step 1604, the number of peaks in the histogram is set to step 1
The processing of 606 and step 1608 is repeated. In step 1606, it is determined whether the projection value is equal to or larger than the reference value. If it is greater than or equal to the reference value, it is determined that the run length data projected in step 1608 forms an underline.
In step 1610, the underline is extracted from the run length data determined to form the underline in step 1608. Note that the two extracted in step 1610 above
Regarding the underline, if the end points are separated from each other by a minute distance and are present on the extension line, it can be regarded as one underline. Further, if the length of the underline extracted in step 1610 is equal to or smaller than the reference value, it may not be considered as an underline.

【0035】図17は,図14の画像から枠を構成しな
い横方向のランレングスデータを抽出し,ヒストグラム
を作成した結果である。1700から1706は図16
のステップ1600で抽出された横方向のランレングス
データの連結成分である。ヒストグラム1708と17
10は,ステップ1602で投影された結果である。ス
テップ1606において,1708と1710につい
て,許容範囲w(1712)の範囲内の面積を基準値と
比較する。この場合,1708は基準値以上,1710
は基準値未満であるとすると,1700,1702,1
704は下線であり,1706は下線ではないと判定で
きる。
FIG. 17 shows the result of extracting the run length data in the horizontal direction which does not form a frame from the image of FIG. 14 and creating a histogram. 1700 to 1706 are shown in FIG.
Is the connected component of the run length data in the horizontal direction extracted in step 1600. Histograms 1708 and 17
10 is the result projected in step 1602. In step 1606, for 1708 and 1710, the area within the allowable range w (1712) is compared with the reference value. In this case, 1708 is the reference value or more, 1710
Is less than the reference value, 1700, 1702, 1
It can be determined that 704 is an underline and 1706 is not an underline.

【0036】図18は,図3のステップ328の帳票識
別処理に関する処理フローである。ステップ308では
表の特徴量を抽出する。ステップ322では帳票名の単
語照合結果を求める。ステップ324では項目名の単語
照合結果を求める。ステップ1800では,308,3
22,324の結果からそれぞれ導出される帳票の種類
を用いて,多数決により帳票種類を識別する。
FIG. 18 is a process flow relating to the form identification process of step 328 of FIG. In step 308, the feature amount of the table is extracted. In step 322, the word matching result of the form name is obtained. In step 324, the word matching result of the item name is obtained. In step 1800, 308,3
Using the form types respectively derived from the results of 22 and 324, the form type is identified by majority vote.

【0037】ステップ308で抽出する表の特徴として
は,罫線の接続関係,枠の個数,枠の配置関係,縦罫線
の本数,横罫線の本数等がある。罫線の接続関係が帳票
の種類ごとに異なる場合には,特開平7―141462
号公報に記載されている技術を用いて帳票の種類を特定
できる。
The characteristics of the table extracted in step 308 include connection relation of ruled lines, number of frames, arrangement relation of frames, number of vertical ruled lines, number of horizontal ruled lines, and the like. If the connection relationship of ruled lines differs depending on the type of form, it is disclosed in Japanese Patent Laid-Open No. 7-141462.
The type of form can be specified by using the technology described in the publication.

【0038】[0038]

【表1】 [Table 1]

【0039】表1では,ステップ308で抽出する表の
特徴の例として,認識対象である登記済通知書の縦の実
線罫線の本数を示している。これにより,縦の実線罫線
は7,8,10,11,12,16本のうちのいずれか
でることがわかる。このうち,8本と10本の場合を除
けば,帳票の種類が一意に決定する。8本と10本の場
合も帳票種類の候補を挙げることができる。
In Table 1, as an example of the characteristics of the table extracted in step 308, the number of vertical solid line ruled lines of the registered notice to be recognized is shown. From this, it can be seen that the vertical solid line ruled line is any of 7, 8, 10, 11, 12, and 16. Of these, the types of forms are uniquely determined except for the cases of 8 and 10. Even in the case of 8 and 10, candidates for the form type can be mentioned.

【0040】また,ステップ322で照合する帳票名の
単語は,帳票名全てを一つの単語として登録してもよ
く,「権利」「表示」,「建物」「土地」,「一般」,
「専有」,「一棟」など特徴的な単語のみを登録しても
よい。
As for the word of the form name to be checked in step 322, all the form names may be registered as one word, and “right”, “display”, “building”, “land”, “general”,
Only characteristic words such as "proprietary" and "one building" may be registered.

【0041】[0041]

【表2】 [Table 2]

【0042】表2は,ステップ308で照合する項目名
の中から一部を抜粋して示したものである。表2より,
「所在」や「所」のように複数の帳票に共通する項目名
や,「地積」や「一棟の建物番号」,「棟」,「表」の
ように帳票固有の項目名などがある。帳票固有の項目名
をもたない種類の帳票でも,複数の項目を組み合わせて
存在を判定することにより,「表示に関する建物登記済
通知書(一般)」と「表示に関する建物登記済通知書
(専有)」を除く5種類の帳票の種類を識別することが
できる。例えば,「床面積」の項目が存在し,「一棟の
建物番号」の項目が存在しなければ「権利に関する建物
登記済通知書(一般)」と識別することができる。
Table 2 shows a part of the item names checked in step 308. From Table 2,
There are item names that are common to multiple forms, such as "location" and "place," and item names that are unique to the form, such as "land area", "building number of one building", "building", and "table". . Even for a type of form that does not have an item name unique to the form, a combination of multiple items is used to determine the existence, and thus a “building registration notification for display (general)” and a “building registration notification for display (proprietary) ) ”Can be identified. For example, if the item "floor area" exists and the item "building number of one building" does not exist, it can be identified as "notification of building registration regarding rights (general)".

【0043】ステップ1800では,ステップ308,
322,324の結果を統合して帳票の種類を識別す
る。統合の手段としては,上記3つの結果の多数決を用
いることができる。
In step 1800, in step 308,
The types of forms are identified by integrating the results of 322 and 324. As a means of integration, a majority vote of the above three results can be used.

【0044】ステップ1800において,308,32
2,324の各ステップで,一意に帳票の種類を識別で
きない場合でも,各ステップの処理結果を相互に補完す
ることによって,帳票の種類を識別することもできる。
例えば,ステップ308において,縦の実線罫線の本数
が8本抽出された場合,表1より帳票の種類は「表示に
関する土地登記済通知書」,「表示に関する建物登記済
通知書(一般)」,「表示に関する建物登記済通知書
(専有)」の3種類が考えられる。しかし,ステップ3
24において,項目名「表」が抽出されれば,「表示に
関する土地登記済通知書」であると一意に決定できる。
In step 1800, 308, 32
Even if the form type cannot be uniquely identified in each of steps 2 and 324, the form type can be identified by mutually complementing the processing results of each step.
For example, when eight vertical solid ruled lines are extracted in step 308, from Table 1, the types of forms are “land registration notice regarding display”, “building registration notice regarding display (general)”, There are three types of “building registration notification regarding display (proprietary)”. But step 3
If the item name “table” is extracted in 24, it can be uniquely determined to be the “land registration notice regarding display”.

【0045】なお,ステップ1800において,30
8,322,324の3つのステップの結果を用いるの
ではなく,2つのみを用いることもできる。
In step 1800, 30
It is also possible to use only two instead of using the results of the three steps of 8,322,324.

【0046】なお,ステップ1800において,30
8,322,324の各ステップの結果を同等に扱うの
ではなく,一つのステップで得た結果から帳票を識別
し,他のステップで得た結果は,帳票識別の結果を検証
するために用いることもできる。
In step 1800, 30
Rather than treating the results of steps 8, 322, and 324 equally, identify the form from the result obtained in one step, and use the results obtained in the other steps to verify the result of form identification. You can also

【0047】図19は,本発明の一実施例である登記情
報システムの構成図である。101から109の構成は
図1に同じである。ソータ1900は,認識部101で
認識し,修正部105で修正した結果に基づき,登記済
通知書を記載内容の優先度順に帳票100をソートす
る。以下にソートの例を2つ挙げる。第一は,所在と地
番に該当する文字から,町ごとに丁目,番地,号の順に
ソートする。第二は,作成日,番号の順にソートする。
また,ソートする対象は,登記済通知書の帳票でも,認
識結果のデータでもよい。
FIG. 19 is a block diagram of a registration information system which is an embodiment of the present invention. The configuration of 101 to 109 is the same as in FIG. The sorter 1900 sorts the forms 100 in the order of the priority of the registered notices based on the result recognized by the recognition unit 101 and corrected by the correction unit 105. Two examples of sorting will be given below. The first is to sort the streets from the letters corresponding to the location and lot number in the order of chome, street number, and issue. Second, sort by creation date and number.
Further, the object to be sorted may be the form of the registered notice or the data of the recognition result.

【0048】[0048]

【発明の効果】本発明の帳票認識方法によれば,登記済
通知書のような非定型帳票に対しても高精度に帳票の種
類を識別することができる。
According to the form recognition method of the present invention, it is possible to identify the type of a form with high accuracy even for an atypical form such as a registered notice.

【0049】また,本発明の帳票認識方法によれば,下
線を文字中のストロークなどと間違うことなく,高精度
に抽出することができる。
According to the form recognition method of the present invention, an underline can be accurately extracted without being mistaken for a stroke in a character.

【0050】また,本発明の帳票認識方法によれば,帳
票の認識結果に基づいて,帳票をソートすることができ
る。
Further, according to the form recognition method of the present invention, the forms can be sorted based on the recognition result of the forms.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例である登記情報認識システム
の構成図である。
FIG. 1 is a configuration diagram of a registration information recognition system that is an embodiment of the present invention.

【図2】登記情報認識の処理過程を示すブロック図であ
る。
FIG. 2 is a block diagram showing a process of recognizing registration information.

【図3】図2で示した登記情報認識のPAD図である。FIG. 3 is a PAD diagram of registration information recognition shown in FIG.

【図4】認識対象である登記済通知書の画像の説明図で
ある。
FIG. 4 is an explanatory diagram of an image of a registered notice that is a recognition target.

【図5】図4の画像に対して図3のステップ304の罫
線抽出処理をした結果を示す図である。
5 is a diagram showing a result of the ruled line extraction processing in step 304 of FIG. 3 performed on the image of FIG. 4;

【図6】図4の画像に対して図3のステップ306の枠
抽出処理をした結果を示す図である。
6 is a diagram showing a result of performing the frame extraction processing of step 306 of FIG. 3 on the image of FIG. 4;

【図7】図4の画像に対して図3のステップ310の文
字行抽出処理をした結果を示す図である。
7 is a diagram showing the result of the character line extraction processing of step 310 of FIG. 3 on the image of FIG. 4;

【図8】図3のステップ314の下線抽出処理に関する
PAD図である。
8 is a PAD diagram regarding an underline extraction process of step 314 of FIG. 3. FIG.

【図9】下線抽出対象画像の説明図である。FIG. 9 is an explanatory diagram of an underline extraction target image.

【図10】図9の画像に対して罫線と文字行を抽出した
結果を示す図である。
10 is a diagram showing a result of extracting ruled lines and character lines from the image of FIG.

【図11】図9の画像に対して罫線を抽出し,文字を切
り出した結果を示す図である。
FIG. 11 is a diagram showing a result of extracting ruled lines and cutting out characters from the image of FIG. 9;

【図12】文字行の一部の文字に対してのみ下線が印刷
されている画像の説明図である。
FIG. 12 is an explanatory diagram of an image in which an underline is printed only on a part of characters in a character line.

【図13】図3のステップ314の下線抽出処理に関す
るPAD図である。
13 is a PAD diagram related to the underline extraction processing in step 314 of FIG. 3. FIG.

【図14】下線抽出対象画像の説明図である。FIG. 14 is an explanatory diagram of an underline extraction target image.

【図15】図14の画像に対して枠線を構成しないラン
レングスデータと長い下線線を抽出した結果を示す図で
ある。
FIG. 15 is a diagram showing a result of extracting run-length data not forming a frame line and long underline from the image of FIG. 14;

【図16】図3のステップ314の下線抽出処理に関す
るPAD図である。
16 is a PAD diagram relating to the underline extraction processing in step 314 of FIG. 3. FIG.

【図17】図14の画像に対して枠線を構成しないラン
レングスデータを抽出し,ランレングスデータの長さを
傾き方向に投影した結果を示す図である。
17 is a diagram showing a result of extracting run length data that does not form a frame line from the image of FIG. 14 and projecting the length of the run length data in a tilt direction.

【図18】図3のステップ328の帳票識別処理に関す
るPAD図である。
FIG. 18 is a PAD diagram related to the form identification process in step 328 of FIG. 3.

【図19】本発明の一実施例である,ソート機能をもつ
登記情報認識システムの構成図である。
FIG. 19 is a configuration diagram of a registration information recognition system having a sorting function, which is an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

200…画像入力、204…罫線抽出、206…枠抽
出、208…表特徴抽出、246…帳票識別、222…
文字切り出し、224…文字識別、236…単語照合、
240…内容照合
200 ... Image input, 204 ... Ruled line extraction, 206 ... Frame extraction, 208 ... Table feature extraction, 246 ... Form identification, 222 ...
Character segmentation, 224 ... Character identification, 236 ... Word matching,
240 ... Content verification

───────────────────────────────────────────────────── フロントページの続き (72)発明者 中島 和樹 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Kazuki Nakajima 1-280, Higashi Koikekubo, Kokubunji, Tokyo Inside the Central Research Laboratory, Hitachi, Ltd.

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】帳票の表面画像を入力し文字を読み取る帳
票認識方法において,上記表面画像から文字行と枠を抽
出し,抽出した複数の文字行と枠との位置関係から帳票
の名称を示す文字行を選択し,該帳票の名称を示す文字
行を読み取るとことにより,上記帳票の種類を識別する
第1の処理と,上記表面画像から罫線を抽出し,抽出し
た罫線から帳票上の表の特徴を抽出し,該表の特徴から
上記帳票の種類を識別する第2の処理と,上記上面画像
から文字行を抽出し,抽出した文字行を読み取り,読み
取り結果の中から上記帳票の項目名を選択し,項目名の
組み合わせから上記帳票の種類を識別する第3の処理と
を有し,当該3つの処理の処理結果を組み合わせること
により,上記帳票の種類を識別することを特徴とする帳
票認識方法。
1. A form recognition method for inputting a front side image of a form and reading characters, wherein character lines and frames are extracted from the front side image, and the name of the form is indicated from the positional relationship between the extracted plurality of character lines and frames. A first process for identifying the type of the form by selecting a line of text and reading the line of text indicating the name of the form, and extracting ruled lines from the surface image, and extracting the ruled lines from the extracted ruled lines to a table on the form. Second process for identifying the type of the form from the features of the table, extracting the character line from the top image, reading the extracted character line, and reading the extracted character line, the item of the form from the read result. A third process for selecting a name and identifying the type of the form from the combination of item names, and combining the processing results of the three processes to identify the type of the form. Form recognition method.
【請求項2】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行を抽出し,抽出した複数の文字行と枠と
の位置関係から帳票名の文字行を選択し,帳票名の文字
行を読み取るとことにより,登記済通知書の種類を識別
する第1の方法と,登記済通知書の画像から罫線を抽出
し,抽出した罫線から表の特徴を抽出し,表の特徴から
登記済通知書の種類を識別する第2の方法とを有し,当
該2つの方法の結果を組み合わせることにより,登記済
通知書の種類を識別することを特徴とする帳票認識方
法。
2. A registration information recognition method for inputting a surface image of a registered notice and reading characters, wherein a character line is extracted from the image of the registered notice and the positional relationship between the extracted plurality of character lines and a frame is extracted. The first method to identify the type of registered notice by selecting the character line of the form name and reading the character line of the form name, and the ruled line was extracted from the image of the registered notice and extracted. A second method of extracting the characteristics of the table from the ruled line and identifying the type of registered notification from the characteristics of the table, and identifying the type of registered notification by combining the results of the two methods. A form recognition method characterized by:
【請求項3】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行を抽出し,抽出した複数の文字行と枠と
の位置関係から帳票名の文字行を選択し,帳票名の文字
行を読み取るとことにより,登記済通知書の種類を識別
する第1の方法と,登記済通知書の画像から文字行を抽
出し,抽出した文字行を読み取り,読み取り結果の中か
ら帳票の項目名を選択し,項目名の組み合わせから登記
済通知書の種類を識別する第2の方法とを有し,当該2
つの方法の結果を組み合わせることにより,登記済通知
書の種類を識別することを特徴とする帳票認識方法。
3. A registration information recognition method for inputting a surface image of a registered notice and reading characters, wherein a character line is extracted from the image of the registered notice and the positional relationship between the extracted plurality of character lines and the frame is extracted. The first method to identify the type of registered notice by selecting the character line of the form name and reading the character line of the form name, and extracting the character line from the image of the registered notice, and extracting The second method of reading the written character line, selecting the item name of the form from the read result, and identifying the type of registered notification from the combination of item names.
A form recognition method characterized by identifying the type of registered notification by combining the results of the two methods.
【請求項4】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行と罫線を抽出し,抽出した罫線から枠罫
線と枠罫線でない罫線を区別し,枠罫線でない罫線が含
まれる枠内の文字行を検出し,当該枠内の文字行と当該
枠内の枠罫線でない罫線との位置関係から,当該枠内の
枠罫線でない罫線が下線か否かを判定することを特徴と
する帳票認識方法。
4. A registration information recognition method for inputting a front image of a registered notice and reading characters, wherein character lines and ruled lines are extracted from the image of the registered notice, and the extracted ruled lines are not frame ruled lines or frame ruled lines. The ruled lines are distinguished, the character lines in the frame that include the ruled lines that are not the frame ruled lines are detected, and the ruled lines that are not the frame ruled lines in the frame are determined based on the positional relationship between the character lines in the frame and the ruled lines that are not the frame ruled lines in the frame. A form recognition method characterized by determining whether is an underline.
【請求項5】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から下線を抽出し,当該下線の延長線上に存在する
黒画素を検出し,検出した黒画素の並びを下線であると
判定することを特徴とする帳票認識方法。
5. A method of recognizing registration information in which a surface image of a registered notice is input and characters are read, by extracting an underline from the image of the registered notice and detecting black pixels existing on an extension of the underline. , A form recognition method characterized by determining the detected black pixel arrangement as an underline.
【請求項6】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から枠罫線を構成しないの罫線を抽出し,当該罫線
の長さの値を傾き方向に投影し,投影値を判定すること
により,下線を抽出することを特徴とする帳票認識方
法。
6. A method of recognizing registration information in which a surface image of a registered notice is input and characters are read, and a ruled line that does not form a frame ruled line is extracted from the registered notice image, and the value of the length of the ruled line is extracted. A form recognition method characterized by extracting an underline by projecting in the tilt direction and determining the projection value.
【請求項7】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行を抽出し,抽出した文字行から文字を切
り出し,切り出した文字を識別し,識別した文字から,
所在と地番に該当する文字を検出し,町ごとに丁目,番
地,号の順に登記済通知書をソートすることを特徴とす
る帳票認識方法。
7. A method of recognizing registration information for inputting a surface image of a registered notice and reading characters, extracting a character line from an image of a registered notice, cutting out a character from the extracted character line, and cutting out the character. From the identified characters,
A form recognition method characterized by detecting characters corresponding to a location and a lot number and sorting registered notices in order of chome, street number, and issue for each town.
【請求項8】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行を抽出し,抽出した文字行から文字を切
り出し,切り出した文字を識別し,識別した文字から,
作成日と番号に該当する文字を検出し,作成日,番号の
順に登記済通知書をソートすることを特徴とする帳票認
識方法。
8. A method of recognizing registration information for inputting a surface image of a registered notice and reading characters, extracting a character line from an image of a registered notice, cutting out a character from the extracted character line, and cutting out the character. From the identified characters,
A form recognition method characterized by detecting characters corresponding to a creation date and a number and sorting registered notifications in order of creation date and number.
JP11457396A 1996-05-09 1996-05-09 Form recognition method Expired - Lifetime JP3689485B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11457396A JP3689485B2 (en) 1996-05-09 1996-05-09 Form recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11457396A JP3689485B2 (en) 1996-05-09 1996-05-09 Form recognition method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005127313A Division JP2005293605A (en) 2005-04-26 2005-04-26 Form recognition method

Publications (2)

Publication Number Publication Date
JPH09305701A true JPH09305701A (en) 1997-11-28
JP3689485B2 JP3689485B2 (en) 2005-08-31

Family

ID=14641226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11457396A Expired - Lifetime JP3689485B2 (en) 1996-05-09 1996-05-09 Form recognition method

Country Status (1)

Country Link
JP (1) JP3689485B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504760A (en) * 1999-07-09 2003-02-04 イエマ − ヨリ アクチボラゲット How to assign IDs to objects in the database
US6778712B1 (en) * 1999-12-20 2004-08-17 Fujitsu Limited Data sheet identification device
JP2007328820A (en) * 2007-09-05 2007-12-20 Hitachi Ltd Form recognition method
JP2012093876A (en) * 2010-10-26 2012-05-17 Fuji Xerox Co Ltd Image processing apparatus, and image processing program
JP2016027442A (en) * 2014-06-30 2016-02-18 キヤノンマーケティングジャパン株式会社 Information processing system, processing method thereof, and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504760A (en) * 1999-07-09 2003-02-04 イエマ − ヨリ アクチボラゲット How to assign IDs to objects in the database
US6778712B1 (en) * 1999-12-20 2004-08-17 Fujitsu Limited Data sheet identification device
JP2007328820A (en) * 2007-09-05 2007-12-20 Hitachi Ltd Form recognition method
JP2012093876A (en) * 2010-10-26 2012-05-17 Fuji Xerox Co Ltd Image processing apparatus, and image processing program
JP2016027442A (en) * 2014-06-30 2016-02-18 キヤノンマーケティングジャパン株式会社 Information processing system, processing method thereof, and program

Also Published As

Publication number Publication date
JP3689485B2 (en) 2005-08-31

Similar Documents

Publication Publication Date Title
US7120318B2 (en) Automatic document reading system for technical drawings
US6339651B1 (en) Robust identification code recognition system
US8059868B2 (en) License plate recognition apparatus, license plate recognition method, and computer-readable storage medium
US6850645B2 (en) Pattern recognizing apparatus
EP1497787B1 (en) System and method for identifying and extracting character strings from captured image data
US8792715B2 (en) System and method for forms classification by line-art alignment
EP0335696A2 (en) Pattern recognition apparatus
Kennard et al. Separating lines of text in free-form handwritten historical documents
JP2002324236A (en) Form identification method and form registration method
US20050123199A1 (en) Method for optical recognition of a multi-language set of letters with diacritics
JP2000285190A (en) Form identification method, form identification device, and storage medium
CN114937269B (en) Ship number plate identification method and system based on English and Chinese character combination
US7715633B2 (en) Medium processing apparatus, medium processing method, medium processing system and computer readable recording medium with medium processing program recorded thereon
JP3689485B2 (en) Form recognition method
JPH09319824A (en) Form recognition method
JP2898562B2 (en) License plate determination method
JP3573945B2 (en) Format recognition device and character reading device
JP2005250786A (en) Image recognition method
JPH11328309A (en) Optical character reading method and apparatus
JP2007328820A (en) Form recognition method
JP2005293605A (en) Form recognition method
JPH09259222A (en) Format recognition device and character reader
JP2002366893A (en) Form recognition method
JP3428504B2 (en) Character recognition device
JP2993252B2 (en) Homomorphic character discrimination method and apparatus

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050613

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080617

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110617

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110617

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130617

Year of fee payment: 8

EXPY Cancellation because of completion of term