[go: up one dir, main page]

JP2001094711A - Document image processing apparatus and document image processing method - Google Patents

Document image processing apparatus and document image processing method

Info

Publication number
JP2001094711A
JP2001094711A JP26521299A JP26521299A JP2001094711A JP 2001094711 A JP2001094711 A JP 2001094711A JP 26521299 A JP26521299 A JP 26521299A JP 26521299 A JP26521299 A JP 26521299A JP 2001094711 A JP2001094711 A JP 2001094711A
Authority
JP
Japan
Prior art keywords
range
document image
word
document
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP26521299A
Other languages
Japanese (ja)
Other versions
JP3768743B2 (en
Inventor
Hiroaki Kubota
浩明 久保田
Mitsuyoshi Okazaki
光芳 岡崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP26521299A priority Critical patent/JP3768743B2/en
Publication of JP2001094711A publication Critical patent/JP2001094711A/en
Application granted granted Critical
Publication of JP3768743B2 publication Critical patent/JP3768743B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Facsimiles In General (AREA)

Abstract

(57)【要約】 【課題】ドキュメント画像の処理装置において、図面や
線画等の文字情報を正確に抽出することが困難なドキュ
メントに対しても、当該図面や線画に含まれる文字列と
ドキュメントの他の部分とのリンク付けを精度良く行う
こと。 【解決手段】ドキュメント画像上でリンク付けの対象と
なる第1の範囲と第2の範囲が指定されると(ST101)(ST
104)、この第1の範囲に対して文字認識が行われ(ST10
2)、その認識単語が位置情報と共に登録される(ST10
3)。また、前記第2の範囲に対して文字認識が行われ(S
T105)、その認識文字列が前記登録された第1の範囲の
単語と照合される(ST106)。そして、前記第2の範囲か
らの認識文字列と前記単語登録された第1の範囲の単語
とが照合一致された場合に、当該照合一致された第2の
範囲の文字列の位置情報と前記登録単語の位置情報とを
関連付けたリンク情報が生成される(ST107)。
(57) [Summary] In a document image processing apparatus, even if it is difficult to accurately extract character information such as drawings and line drawings, a character string included in the drawings and line drawings and a document Linking with other parts with high accuracy. When a first range and a second range to be linked are specified on a document image (ST101)
104), and character recognition is performed on this first range (ST10).
2), the recognized word is registered together with the position information (ST10
3). Further, character recognition is performed for the second range (S
T105), the recognized character string is collated with the registered words in the first range (ST106). Then, when the recognized character string from the second range and the word in the word registered in the first range are collated and matched, the position information of the collated and matched second range character string and the Link information that associates the registered word with the position information is generated (ST107).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ファイリングシス
テムや文書データベース等、画像入力されたドキュメン
トに対して、ドキュメント間あるいはドキュメント内の
関連付けを行うためのドキュメント画像処理装置及びド
キュメント画像処理方法に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a document image processing apparatus and a document image processing method for associating a document input with an image, such as a filing system or a document database, between documents or within a document.

【0002】[0002]

【従来の技術】これまで、スキャナ等により画像入力さ
れたドキュメントのあるデータ位置(処理上は座標点)
から別のデータ位置(同座標点)への参照関係を示すた
めの関連付け(リンク)は、手作業で行われることが多
かった。そして、これを自動的に行わせるために、リン
ク付けの対象となるデータ領域の文字認識を行ったうえ
でキーワードを選び出し、関連付けを行う方法が試みら
れている。
2. Description of the Related Art Heretofore, a data position of a document image input by a scanner or the like (coordinate point in processing).
An association (link) for indicating a reference relationship from to another data position (the same coordinate point) is often performed manually. In order to perform this automatically, a method has been attempted in which a character is selected in a data area to be linked and then a keyword is selected and associated.

【0003】この場合、描画品質の良い文書であれば、
文字認識の効果が発揮され、精度良くキーワードを抽出
することができるが、ノイズ等を含んでいたり、図面や
線画等、文字情報を正確に抽出するのが困難なドキュメ
ントに対しては、文字認識の精度が悪くなり、関連デー
タ間のリンク付けが正確に行われないことがある。
In this case, if the document has a good drawing quality,
The effect of character recognition is demonstrated, and keywords can be extracted with high accuracy.However, character recognition is used for documents that contain noise, etc., and for which it is difficult to accurately extract character information such as drawings and line drawings. May become inaccurate and linking between related data may not be performed correctly.

【0004】[0004]

【発明が解決しようとする課題】本発明は、前記のよう
な問題に鑑み成されたもので、図面や線画等の文字情報
を正確に抽出することが困難なドキュメントに対して
も、当該図面や線画に含まれる文字列とドキュメントの
他の部分とのリンク付けを精度良く行うことが可能にな
るドキュメント画像処理装置及びドキュメント画像処理
方法を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above-mentioned problems, and has been developed for a document in which it is difficult to accurately extract character information such as drawings and line drawings. It is an object of the present invention to provide a document image processing apparatus and a document image processing method capable of accurately linking a character string included in a document or a line drawing with another part of the document.

【0005】[0005]

【課題を解決するための手段】すなわち、本発明の請求
項1に係る第1のドキュメント画像処理装置は、画像デ
ータとして取り込まれたドキュメント上の複数のデータ
位置間でリンク付けを行うドキュメント画像処理装置で
あって、前記ドキュメント画像上でリンク付けの対象と
なる第1の範囲と第2の範囲を指定する範囲指定手段
と、この範囲指定手段により指定された前記ドキュメン
ト画像上の第1の範囲に対して文字認識を行い、この第
1の範囲から認識された単語を、その位置情報と共に登
録する単語登録手段と、前記範囲指定手段により指定さ
れた前記ドキュメント画像上の第2の範囲に対して文字
認識を行い、この第2の範囲から認識された文字列を前
記単語登録手段により登録された第1の範囲における単
語と照合する単語照合手段と、この単語照合手段により
前記第2の範囲から認識された文字列と前記単語登録手
段により登録された第1の範囲における単語とが照合一
致された場合には、当該照合一致された第2の範囲の文
字列の位置情報と前記登録単語の位置情報とを関連付け
たリンク情報を生成するリンク情報生成手段とを具備し
たことを特徴とする。
That is, a first document image processing apparatus according to a first aspect of the present invention is a document image processing apparatus for linking a plurality of data positions on a document captured as image data. An apparatus, comprising: a range designating unit that designates a first range and a second range to be linked on the document image; and a first range on the document image designated by the range designating unit. Word registration means for registering a word recognized from the first range together with its position information, and a second range on the document image designated by the range designation means. A character string that is recognized from the second range and collated with a word in the first range registered by the word registration unit. Means, if the character string recognized from the second range by the word matching means matches a word in the first range registered by the word registration means, Link information generating means for generating link information in which the position information of the character string in the range of 2 and the position information of the registered word are associated with each other.

【0006】このような構成の第1のドキュメント画像
処理装置では、ドキュメント画像上でリンク付けの対象
となる第1の範囲と第2の範囲が指定されると、この範
囲指定された前記ドキュメント画像上の第1の範囲に対
して文字認識が行われ、この第1の範囲から認識された
単語が、その位置情報と共に登録され、また、前記範囲
指定された前記ドキュメント画像上の第2の範囲に対し
て文字認識が行われ、この第2の範囲から認識された文
字列が前記単語登録された第1の範囲における単語と照
合される。そして、この単語照合により前記第2の範囲
から認識された文字列と前記単語登録により登録された
第1の範囲における単語とが照合一致された場合に、当
該照合一致された第2の範囲の文字列の位置情報と前記
登録単語の位置情報とを関連付けたリンク情報が生成さ
れるので、文字認識の精度が低い場合や、表や線画等の
文字情報を正確に抽出できない場合でも、リンク付けが
正確に行えることになる。
In the first document image processing apparatus having such a configuration, when a first range and a second range to be linked are specified on a document image, the document image specified by the range is designated. Character recognition is performed on the first range above, words recognized from the first range are registered together with their position information, and a second range on the document image designated as the range is registered. Is subjected to character recognition, and the character string recognized from the second range is collated with the word in the first range registered as the word. Then, when the character string recognized from the second range by the word matching is matched with the word in the first range registered by the word registration, the second range matched by the matching is matched. Since link information in which the position information of the character string is associated with the position information of the registered word is generated, even when character recognition accuracy is low or when character information such as a table or a line drawing cannot be accurately extracted, linking is performed. Can be performed accurately.

【0007】また、本発明の請求項2に係る第2のドキ
ュメント画像処理装置は、画像データとして取り込まれ
たドキュメント上の複数のデータ位置間でリンク付けを
行うドキュメント画像処理装置であって、前記ドキュメ
ント画像上でリンク付けの対象となる第1の範囲と第2
の範囲を指定する範囲指定手段と、この範囲指定手段に
より指定された前記ドキュメント画像上の2つの範囲の
文字認識に対する品質を評価する品質評価手段と、この
品質評価手段により品質が高いと評価された第1又は第
2の一方の範囲に対して文字認識を行い、この一方の範
囲から認識された単語を、その位置情報と共に登録する
単語登録手段と、前記品質評価手段により品質が低いと
評価された第1又は第2の他方の範囲に対して文字認識
を行い、この他方の範囲から認識された文字列を前記単
語登録手段により登録された一方の範囲における単語と
照合する単語照合手段と、この単語照合手段により前記
他方の範囲から認識された文字列と前記単語登録手段に
より登録された一方の範囲における単語とが照合一致さ
れた場合には、当該照合一致された他方の範囲の文字列
の位置情報と前記登録単語の位置情報とを関連付けたリ
ンク情報を生成するリンク情報生成手段とを具備したこ
とを特徴とする。
A second document image processing apparatus according to a second aspect of the present invention is a document image processing apparatus for linking a plurality of data positions on a document captured as image data, The first and second areas to be linked on the document image
Range designating means for designating the range, character evaluation means for evaluating the quality of character recognition of two ranges on the document image designated by the range designating means, and the quality evaluating means evaluating the quality as high. Word recognition means for performing character recognition on the first or second range and registering a word recognized from one of the ranges together with its position information; Word matching means for performing character recognition on the other of the first and second ranges and matching a character string recognized from the other range with a word in one of the ranges registered by the word registration means; If the character string recognized from the other range by the word matching unit matches the word in one range registered by the word registration unit, the word is matched. Characterized by comprising a link information generating means for generating link information which associates location information of the character string matching the matched other range as the position information of the registered words.

【0008】このような構成の第2のドキュメント画像
処理装置では、ドキュメント画像上でリンク付けの対象
となる第1の範囲と第2の範囲が指定されると、この範
囲指定された前記ドキュメント画像上の2つの範囲の文
字認識に対する品質が評価され、この品質評価により品
質が高いと評価された第1又は第2の一方の範囲に対し
て文字認識が行われ、この一方の範囲から認識された単
語が、その位置情報と共に登録され、また前記品質評価
により品質が低いと評価された第1又は第2の他方の範
囲に対して文字認識が行われ、この他方の範囲から認識
された文字列が前記単語登録された一方の範囲における
単語と照合される。そして、この単語照合により前記他
方の範囲から認識された文字列と前記単語登録により登
録された一方の範囲における単語とが照合一致された場
合に、当該照合一致された他方の範囲の文字列の位置情
報と前記登録単語の位置情報とを関連付けたリンク情報
が生成されるので、文字認識の精度が低い場合や、表や
線画等の文字情報を正確に抽出できない場合でも、リン
ク付けがより正確に行えることになる。
In the second document image processing apparatus having such a configuration, when the first range and the second range to be linked are specified on the document image, the document image specified by the range is designated. The quality for character recognition in the above two ranges is evaluated, and character recognition is performed on one of the first and second ranges evaluated as having high quality by the quality evaluation, and recognition is performed from one of the ranges. Is registered together with the position information, and character recognition is performed on the other first or second range evaluated as having low quality by the quality evaluation, and the character recognized from the other range is recognized. A column is matched with the words in one of the registered words. Then, when the character string recognized from the other range by the word matching and the word in one range registered by the word registration are matched, the character string in the other matched range is matched. Since link information in which the position information is associated with the position information of the registered word is generated, even when character recognition accuracy is low, or when character information such as tables and line drawings cannot be accurately extracted, linking is more accurate. Can be done.

【0009】また、本発明の請求項5に係る第3のドキ
ュメント画像処理装置は、表部分と図面部分を含むドキ
ュメントを画像データとして取り込むドキュメント画像
取り込み手段と、このドキュメント画像取り込み手段に
より取り込まれたドキュメント画像上で表部分の範囲と
図面部分の範囲を抽出する範囲抽出手段と、この範囲抽
出手段により抽出された前記ドキュメント画像の表部分
の範囲における項目名に相当する文字列の文字認識を行
い、この表部分の範囲の項目名として文字認識された単
語を登録する単語登録手段と、前記範囲抽出手段により
抽出された前記ドキュメント画像の図面部分の範囲にお
ける文字列の文字認識を行い、この図面部分の範囲から
認識された文字列を前記単語登録手段により登録された
表部分の範囲における項目名の単語と照合する単語照合
手段と、この単語照合手段により前記図面部分の範囲か
ら認識された文字列と前記単語登録手段により登録され
た表部分の範囲における項目名の単語とが照合一致され
た場合には、当該照合一致された図面部分の範囲の文字
列の位置情報を前記表部分の範囲の項目名である登録単
語に対応付けたリンク情報を生成するリンク情報生成手
段とを具備したことを特徴とする。
A third document image processing apparatus according to a fifth aspect of the present invention is a document image processing device for capturing a document including a table portion and a drawing portion as image data, and a document image captured by the document image capturing device. Range extracting means for extracting a range of a table portion and a range of a drawing portion on a document image; and performing character recognition of a character string corresponding to an item name in the range of the table portion of the document image extracted by the range extracting device. Word registration means for registering a word whose character has been recognized as an item name in the range of the table portion, and character recognition of a character string in a range of a drawing portion of the document image extracted by the range extracting means. The character string recognized from the range of the part is stored in the range of the table part registered by the word registration means. Word matching means for matching with a word of an item name to be matched, and a character string recognized from the range of the drawing part by the word matching means and a word of an item name in the range of the table part registered by the word registration means. A link information generating unit that generates link information that associates the position information of the character string in the range of the drawing portion that has been matched and matched with the registered word that is the item name of the range of the table portion. It is characterized by having.

【0010】このような構成の第3のドキュメント画像
処理装置では、表部分と図面部分を含むドキュメントが
画像データとして取り込まれると、このドキュメント画
像上で表部分の範囲と図面部分の範囲が抽出され、この
範囲抽出された前記ドキュメント画像の表部分の範囲に
おける項目名に相当する文字列の文字認識が行われ、こ
の表部分の範囲の項目名として文字認識された単語が登
録される。また、前記範囲抽出された前記ドキュメント
画像の図面部分の範囲における文字列の文字認識が行わ
れ、この図面部分の範囲から認識された文字列が前記単
語登録された表部分の範囲における項目名の単語と照合
される。そして、この単語照合により前記図面部分の範
囲から認識された文字列と前記単語登録により登録され
た表部分の範囲における項目名の単語とが照合一致され
た場合に、当該照合一致された図面部分の範囲の文字列
の位置情報を前記表部分の範囲の項目名である登録単語
に対応付けたリンク情報が生成されるので、表部分の項
目名と図面中の文字列が効率良く関連付けされることに
なり、表部分の項目に図面中の位置情報を付加したデー
タ化が行えることになる。
In the third document image processing apparatus having such a configuration, when a document including a table portion and a drawing portion is captured as image data, a range of the table portion and a range of the drawing portion are extracted on the document image. Then, character recognition is performed on a character string corresponding to the item name in the range of the table portion of the extracted document image, and the recognized word is registered as the item name in the range of the table portion. Further, character recognition of a character string in the range of the drawing portion of the document image from which the range is extracted is performed, and the character string recognized from the range of the drawing portion is used for the item name in the range of the table portion in which the word is registered. Matches a word. If the character string recognized from the range of the drawing portion by the word matching matches the word of the item name in the range of the table portion registered by the word registration, the matching drawing portion Link information is generated by associating the position information of the character string in the range with the registered word which is the item name of the table part, so that the item name of the table part and the character string in the drawing are efficiently associated with each other. This means that data can be created by adding position information in the drawing to the items in the table portion.

【0011】[0011]

【発明の実施の形態】以下図面により本発明の実施の形
態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0012】(第1実施形態)この第1実施形態では、
ドキュメント上の2つの範囲をリンク付けの対象範囲と
して指定したときに、指定した一方の範囲内の文字列を
単語辞書に登録した後に、指定した他方の範囲内の文字
列抽出時にその単語辞書を参照し、照合されたときに両
方の文字列の存在するデータ位置間で関連付けを行うよ
うにしたドキュメント画像処理機能について説明する。
(First Embodiment) In the first embodiment,
When two ranges on the document are specified as the target range of linking, after registering the character strings in one specified range in the word dictionary, the word dictionary is extracted when extracting the character strings in the other specified range. A description will be given of a document image processing function for associating data positions where both character strings exist with reference to collation.

【0013】図1は本発明の実施形態に係るドキュメン
ト画像ファイリング装置の電子回路の構成を示すブロッ
ク図である。
FIG. 1 is a block diagram showing a configuration of an electronic circuit of a document image filing apparatus according to an embodiment of the present invention.

【0014】このドキュメント画像ファイリング装置
は、コンピュータである制御装置(CPU)21を備え
ている。
This document image filing apparatus includes a control device (CPU) 21 which is a computer.

【0015】制御装置(CPU)21は、画像入力装置
22から入力される画像データやデータ入力・指示装置
23により入力あるいは指示されたデータに応じて、R
OM24に予め記憶されているシステムプログラムを起
動させ、あるいはフロッピディスク等の外部記録媒体2
5に記憶されているドキュメント画像処理用のプログラ
ムデータを磁気ディスク装置などの記録媒体読み取り部
26により読み取らせて起動させ、回路各部の動作を制
御するものである。
A control device (CPU) 21 responds to image data input from an image input device 22 or data input or specified by a data input / instruction device 23 to output a R signal.
The system program stored in the OM 24 is started in advance, or the external recording medium 2 such as a floppy disk
The program data for document image processing stored in the storage medium 5 is read by a recording medium reading unit 26 such as a magnetic disk device and activated to control the operation of each circuit unit.

【0016】この制御装置(CPU)21には、前記画
像入力装置22、データ入力・指示装置23、ROM2
4の他に、RAM27、表示装置28が接続される。
The control device (CPU) 21 includes the image input device 22, the data input / instruction device 23, the ROM 2
4, a RAM 27 and a display device 28 are connected.

【0017】画像入力装置22は、文書や図面等が描か
れた書類を光学的に読み込んで画像データに変換するよ
うにした画像スキャナや通信ネットワークを介して他の
コンピュータ端末装置から送られてくる画像データを受
信入力するようにした通信インターフェイス等として構
成されるもので、この画像入力装置22により入力され
たドキュメント画像データは、RAM27内の画像メモ
リ27aに格納される。
The image input device 22 is sent from another computer terminal device via an image scanner or a communication network which optically reads a document or a document on which a drawing or the like is drawn and converts it into image data. The document image data input by the image input device 22 is stored in an image memory 27a in the RAM 27. The communication interface is configured as a communication interface for receiving and inputting image data.

【0018】データ入力・指示装置23は、文字,記
号,数字等を入力するためのキーボードやデータ位置の
指示や範囲指定,移動操作等を行うためのマウスを備え
てなるもので、このデータ入力・指示装置23により前
記画像メモリ27aに格納された画像データ上の任意の
領域が指定されると、その指定領域の画像データが読み
出されてRAM27内の読み出し画像メモリ27bに記
憶される。 一方、このドキュメント画像ファイリング装置によるド
キュメント画像処理機能を実現するための主な制御プロ
グラムとして、ROM24に予め記憶されるプログラム
データとしては、文字認識プログラム24a、単語辞書
作成プログラム24b、単語辞書照合プログラム24
c、リンク情報発生プログラム24d、品質評価プログ
ラム24e(第2実施形態で使用)が用意される。
The data input / instruction device 23 includes a keyboard for inputting characters, symbols, numbers and the like, and a mouse for instructing a data position, specifying a range, and performing a moving operation. When an arbitrary area on the image data stored in the image memory 27a is designated by the instruction device 23, the image data in the designated area is read and stored in the read image memory 27b in the RAM 27. On the other hand, as main control programs for realizing the document image processing function of the document image filing apparatus, the program data stored in the ROM 24 in advance include a character recognition program 24a, a word dictionary creation program 24b, a word dictionary matching program 24
c, a link information generation program 24d and a quality evaluation program 24e (used in the second embodiment) are prepared.

【0019】また、このドキュメント画像ファイリング
装置によるドキュメント画像処理機能を実現するための
主なデータメモリとして、RAM27に確保されるメモ
リ領域しては、前記画像メモリ27a、読み出し画像メ
モリ27bの他に、単語辞書メモリ27c、リンク情報
メモリ27dが用意される。
As a main data memory for realizing the document image processing function of the document image filing apparatus, a memory area secured in the RAM 27 includes, in addition to the image memory 27a and the read image memory 27b, A word dictionary memory 27c and a link information memory 27d are prepared.

【0020】前記ROM24に記憶される各種の制御プ
ログラムやRAM27に確保される各種のデータメモリ
については、図2に示す機能ブロックを参照してさらに
説明する。
The various control programs stored in the ROM 24 and the various data memories secured in the RAM 27 will be further described with reference to the functional blocks shown in FIG.

【0021】図2は前記ドキュメント画像ファイリング
装置における第1実施形態のドキュメント画像処理機能
の構成を示すブロック図である。
FIG. 2 is a block diagram showing the configuration of the document image processing function of the first embodiment in the document image filing apparatus.

【0022】このドキュメント画像処理機能の機能ブロ
ックでは、前記図1におけるドキュメント画像ファイリ
ング装置の対応構成部分を括弧書きの符号にして示す。
In the functional block of the document image processing function, the corresponding components of the document image filing apparatus in FIG. 1 are indicated by reference numerals in parentheses.

【0023】このドキュメント画像処理機能は、紙のド
キュメントを画像データとして読み込むための画像入力
部1(22)と、読み込まれた画像データをファイリン
グするための画像格納部2(27a)と、ファイリング
された画像データに対して必要に応じて読み出すための
画像読出部3(27b)と、読み出された画像データを
ディスプレイモニタ等の画面上に表示するための画像表
示部4(28)と、画像データの全部あるいは一部を領
域として指定するための領域指定部5(23)と、指定
された領域に含まれる文字列を抽出し、文字認識を行う
ための文字認識部6(24a)と、文字認識した結果か
ら単語を抽出して単語辞書に登録するための単語辞書作
成部7(24b)と、作成された単語辞書を記憶登録す
るための単語辞書記憶部8(27c)と、指定された他
の領域における文字認識の結果を前記登録された単語辞
書と照合するための単語辞書照合部9(24c)と、こ
の単語辞書との照合結果を利用して画像データ上の2デ
ータ位置(点)間で座標によるリンク情報を発生させる
ためのリンク情報発生部10(24d)と、発生された
リンク情報を画像データと関連付けて格納しておくため
のリンク情報格納部11(27d)とにより構成され
る。
This document image processing function includes an image input unit 1 (22) for reading a paper document as image data, an image storage unit 2 (27a) for filing the read image data, and a filing function. An image reading unit 3 (27b) for reading the read image data as needed, an image display unit 4 (28) for displaying the read image data on a screen such as a display monitor, and the like. An area specifying unit 5 (23) for specifying all or part of the data as an area, a character recognizing unit 6 (24a) for extracting a character string included in the specified area and performing character recognition; A word dictionary creating unit 7 (24b) for extracting words from the result of character recognition and registering them in a word dictionary, and a word dictionary for storing and registering the created word dictionary A storage unit 8 (27c), a word dictionary matching unit 9 (24c) for matching the result of character recognition in another specified area with the registered word dictionary, and using the matching result with the word dictionary A link information generating unit 10 (24d) for generating link information based on coordinates between two data positions (points) on the image data; and storing the generated link information in association with the image data. The link information storage unit 11 (27d).

【0024】次に、前記構成のドキュメント画像ファイ
リング装置における第1実施形態のドキュメント画像処
理機能について説明する。
Next, the document image processing function of the first embodiment in the document image filing apparatus configured as described above will be described.

【0025】図3は前記ドキュメント画像ファイリング
装置の第1実施形態のドキュメント画像処理機能により
成されるリンク情報生成処理を示すフローチャートであ
る。
FIG. 3 is a flowchart showing a link information generation process performed by the document image processing function of the first embodiment of the document image filing apparatus.

【0026】まず、リンク先となるドキュメント領域に
ついて処理を行う。
First, processing is performed on a document area to be a link destination.

【0027】画像入力部1(22)により読み込まれて
画像格納部2(27a)に格納されている1枚のドキュ
メント画像データを画像表示部4(28)に表示させ、
その画像上の任意の一部あるいは全部を、領域指定部5
(23)によってリンク先の対象領域として指定する
(ステップST101)。
One document image data read by the image input unit 1 (22) and stored in the image storage unit 2 (27a) is displayed on the image display unit 4 (28).
An arbitrary part or all of the image is designated by an area designating unit 5
By (23), it is designated as a link destination target area (step ST101).

【0028】具体的な領域指定手段としては、画像読出
部3(27b)にて該当するドキュメントを検索して読
み出し、画像表示部4(28)に表示させ、領域指定部
5(23)による表示画面上でのドラッグ操作等により
領域を指定する。そのほか、前記検索して読み出された
表示画像データに対して、レイアウト解析を行ってテキ
ストエリアを抽出し、そのエリアを対象領域として指定
してもよい。
As a specific area designating means, the image reading section 3 (27b) searches for and reads out a corresponding document, displays it on the image display section 4 (28), and displays it on the image designating section 5 (23). An area is specified by a drag operation on the screen. In addition, a layout analysis may be performed on the display image data retrieved and read to extract a text area, and the area may be designated as a target area.

【0029】次に、前記ステップST101において指
定されたリンク先の領域に対して、文字認識部6(24
a)による文字認識処理によって文字領域を抽出し、文
字認識を行う(ステップST102)。ここで得られた
画像データ指定領域上での文字認識結果に対して、単語
辞書生成部7(24b)による単語辞書生成処理によ
り、個々の単語に分割してこれを単語辞書記憶部8(2
7c)に登録する(ステップST103)。
Next, the character recognition unit 6 (24)
A character area is extracted by the character recognition processing in a), and character recognition is performed (step ST102). The character recognition result on the image data designation area obtained here is divided into individual words by a word dictionary generation process by the word dictionary generation unit 7 (24b), and this is divided into individual words.
7c) (step ST103).

【0030】次に、リンク元となるドキュメント領域に
ついて処理を行う。
Next, processing is performed on the document area serving as a link source.

【0031】前記同様に画像入力部1(22)により読
み込まれて画像格納部2(27a)に格納されている1
枚のドキュメント画像データを画像表示部4(28)に
表示させ、その画像上の任意の一部あるいは全部を領域
指定部5(23)によってリンク元の対象領域として指
定する(ステップST104)。その具体的な方法は、
前記ステップST101におけるリンク先の領域指定作
業と同様である。
In the same manner as described above, 1 is read by the image input unit 1 (22) and stored in the image storage unit 2 (27a).
The document image data of one sheet is displayed on the image display unit 4 (28), and an arbitrary part or all of the image is designated by the region designation unit 5 (23) as the target region of the link source (step ST104). The specific method is
This is the same as the link destination area specifying operation in step ST101.

【0032】そして、この指定されたリンク元の画像領
域について、文字認識部6(24a)による文字認識処
理により前記ステップST102と同様に文字領域を抽
出し、文字認識を行う(ステップST105)。そし
て、その文字認識結果に対して、前記単語辞書記憶部8
(27c)に記憶されて登録されている単語辞書を引き
出して、単語辞書照合部9(24c)による単語辞書照
合処理により、登録単語との単語照合を行う(ステップ
ST106)。
Then, a character area is extracted from the specified link source image area by the character recognition processing by the character recognition unit 6 (24a) in the same manner as in step ST102, and character recognition is performed (step ST105). Then, the result of the character recognition is stored in the word dictionary storage unit 8.
The word dictionary stored in (27c) and registered is extracted, and word matching with the registered word is performed by word dictionary matching processing by the word dictionary matching unit 9 (24c) (step ST106).

【0033】ここで、前記ステップST105によるリ
ンク元領域の文字認識の結果と単語辞書記憶部8(27
c)に記憶登録されているリンク先領域内の単語とが同
一のものと照合できた場合には、その文字認識の結果が
得られたリンク元の画像データ位置(座標)から、単語
辞書記憶部8(27c)に記憶されている照合単語のリ
ンク先での画像データ位置へのリンク情報が、リンク情
報発生部10(24d)によるリンク情報発生処理によ
り生成される(ステップST107)。このリンク情報
は、例えばリンク元領域での前記登録単語と照合一致し
た画像データ位置を示す座標と、当該照合一致した登録
単語の前記リンク先領域での画像データ位置を示す座標
とを対応付けたデータリンクテーブルとして生成され、
リンク情報記憶部11(27d)に格納される。
Here, the result of character recognition of the link source area in step ST105 and the word dictionary storage unit 8 (27
If the word in the link destination area stored and registered in c) can be matched with the same word, the word dictionary is stored from the image data position (coordinates) of the link source from which the result of the character recognition is obtained. The link information to the image data position at the link destination of the collation word stored in the unit 8 (27c) is generated by the link information generating process by the link information generating unit 10 (24d) (step ST107). The link information, for example, associates coordinates indicating an image data position in the link source area that matches and matches the registered word with coordinates indicating the image data position in the link destination area of the registered word that matches and matches. Generated as a data link table,
It is stored in the link information storage unit 11 (27d).

【0034】次に、ドキュメント画像の具体例を使用し
て、リンク情報の生成処理について説明する。
Next, a process of generating link information will be described using a specific example of a document image.

【0035】図4は表部分とテキスト部分からなるドキ
ュメント画像の一例を示す図である。
FIG. 4 is a diagram showing an example of a document image including a table portion and a text portion.

【0036】まず、リンク先のドキュメント画像データ
の領域指定(ステップST101)について説明する。
First, the specification of the area of the document image data at the link destination (step ST101) will be described.

【0037】図5は前記ドキュメント画像に対するリン
ク先の領域指定表示状態を示す図である。
FIG. 5 is a diagram showing an area designation display state of a link destination for the document image.

【0038】図4に示すようなドキュメント画像Gaを
画像読み出し部3(27b)に読み出し、図5に示すよ
うに、画像表示部4(28)に表示させた状態で、例え
ばその太線枠で示したようにリンク先となる部分の画像
領域Erを、領域指定部5(23)によるマウスのドラ
ッグ操作によって指定する。
A document image Ga as shown in FIG. 4 is read out by the image reading section 3 (27b) and is displayed on the image display section 4 (28) as shown in FIG. As described above, the image area Er of the part to be the link destination is specified by the mouse drag operation by the area specifying unit 5 (23).

【0039】この領域指定手段としては、前述したよう
に、1ページのドキュメント全体でも良いし、複数のペ
ージにまたがって指定してもよい。また、ここでは利用
者が明示的に画像領域Erの位置を指定したが、これを
自動的に、例えば表部分の項目名が書かれている部分を
表理解技術により自動抽出して領域指定してもよい。
As described above, the area designating means may be the whole document of one page, or may be designated over a plurality of pages. In this case, the user explicitly specifies the position of the image area Er. However, the area is automatically specified by, for example, automatically extracting a part in which the item name of the table part is written by a table understanding technique, and specifying the area. You may.

【0040】こうして抽出されたリンク先の画像領域E
rに対して、文字認識部6(24a)による文字認識処
理により、各文字列が抽出され、その文字認識が行われ
ると、「前面部」「背面部」「先端部」「接続部」の単
語が抽出され(ステップST102)、これの単語が単
語辞書作成部7(24b)によって単語辞書記憶部8
(27c)に登録される(ステップST103)。
The link destination image area E thus extracted
r, each character string is extracted by the character recognition processing by the character recognition unit 6 (24a), and when the character recognition is performed, the “front part”, “back part”, “tip part”, and “connection part” are obtained. A word is extracted (step ST102), and the word is extracted by the word dictionary creating unit 7 (24b) into the word dictionary storage unit 8.
(27c) (step ST103).

【0041】図6は前記ドキュメント画像のリンク先領
域に対する文字認識により抽出された複数の単語の登録
状態を示す図である。
FIG. 6 is a diagram showing a registration state of a plurality of words extracted by character recognition with respect to the link destination area of the document image.

【0042】この際、図6に示すように、単語辞書記憶
部8(27c)には、前記リンク先の画像領域Erから
文字認識により抽出されたそれぞれの単語に対応付け
て、ドキュメントを識別するための文章番号や文書名、
その単語が位置する開始座標、終了座標が記録される。
At this time, as shown in FIG. 6, the word dictionary storage unit 8 (27c) identifies a document in association with each word extracted by character recognition from the image area Er of the link destination. Document number and document name,
The start coordinates and end coordinates at which the word is located are recorded.

【0043】次に、リンク元のドキュメント画像データ
の領域指定(ステップST104)について説明する。
Next, the specification of the area of the document image data at the link source (step ST104) will be described.

【0044】図7は前記ドキュメント画像に対するリン
ク元の領域指定表示状態を示す図である。
FIG. 7 is a diagram showing an area designation display state of a link source for the document image.

【0045】前記同様に図4に示すようなドキュメント
画像Gaを画像読み出し部3(27b)に読み出し、図
7に示すように、画像表示部4(28)に表示させた状
態で、例えばその太線枠で示したようにリンク元となる
部分の画像領域Esを、領域指定部5(23)によるマ
ウスのドラッグ操作によって指定する。
In the same manner as described above, a document image Ga as shown in FIG. 4 is read out by the image reading section 3 (27b), and as shown in FIG. As indicated by the frame, the image area Es of the link source is specified by the mouse drag operation by the area specifying unit 5 (23).

【0046】この際、別のドキュメント画像の任意の一
部分をリンク元領域Esとして指定してもよいし、数ペ
ージにわたるドキュメントの適当な範囲を領域とリンク
元領域Esとして指定してもよい。また、利用者が明示
的にその位置を指定する以外に、「表部分」「図形部
分」「テキスト部分」等の指定により自動的に抽出し、
リンク対象領域として割り当ててもよい。
At this time, an arbitrary part of another document image may be designated as the link source region Es, or an appropriate range of the document over several pages may be designated as the region and the link source region Es. Also, besides the user explicitly specifying the position, it is automatically extracted by specifying "table part", "graphic part", "text part", etc.
It may be assigned as a link target area.

【0047】次に、前記指定されたリンク元となる画像
領域Esに対して、文字認識部6(24a)により文字
認識処理が行われ(ステップST105)、これにより
得られる文字認識結果に対して、文字認識の知識処理が
行なわれる(ステップST106)。
Next, the character recognizing unit 6 (24a) performs a character recognition process on the specified link source image area Es (step ST105). Then, knowledge processing of character recognition is performed (step ST106).

【0048】この文字認識の知識処理は、文字認識の後
処理にて利用されるものであり、リンク元の画像領域E
sにおける認識候補文字の集合から得られる単語を、前
記単語辞書記憶部8(27c)に登録されているリンク
先領域Erでの登録単語と照合する方法である。ここ
で、前記リンク元領域Esにおける認識文字列とリンク
先領域Erにおける登録単語とが照合された場合には、
前記図6における単語辞書記憶部8(27c)に辞書登
録されている照合単語と共に対応付けられた文書番号及
びその位置情報が引き出され、例えば図8に示すよう
に、現在リンク元としてカーソル指定されているテキス
ト部分の文字列「前面部」r1のデータ位置から前記位
置情報に応じたリンク先である表部分の単語「前面部」
r2のデータ位置までのリンク情報が生成され(ステッ
プST107)、画像表示部4(28)においてリンク
表示される。
This knowledge processing of character recognition is used in post-processing of character recognition.
In this method, a word obtained from the set of recognition candidate characters in s is compared with a registered word in the link destination area Er registered in the word dictionary storage unit 8 (27c). Here, when the recognized character string in the link source area Es and the registered word in the link destination area Er are collated,
The document number and its position information associated with the collation word registered in the dictionary in the word dictionary storage unit 8 (27c) in FIG. 6 are extracted and, for example, as shown in FIG. 8, the cursor is designated as the current link source. From the data position of the character string "front part" r1 of the text part, the word "front part" of the table part which is a link destination according to the position information
Link information up to the data position of r2 is generated (step ST107), and a link is displayed on the image display unit 4 (28).

【0049】図8は前記第1実施形態のドキュメント画
像処理機能に伴うドキュメント画像上でのリンク情報生
成状態を示す図である。
FIG. 8 is a diagram showing a state of generating link information on a document image according to the document image processing function of the first embodiment.

【0050】したがって、前記構成による第1実施形態
のドキュメント画像処理機能によれば、ドキュメント画
像Ga上で指定されたリンク付けの対象となる2つの領
域Er,Esに対して、リンク先の領域Erの文字認識
結果を後処理辞書に登録し、リンク元の領域Esの文字
認識において、前記登録した辞書を知識処理に利用し、
照合された場合には、その照合されたリンク先登録単語
のデータ位置に応じてリンク情報r1−r2を生成する
ようにしたので、文字認識の精度が低い場合や、表や線
画等の文字情報を正確に抽出できない場合においても、
リンク付けを正確に行うことができる。
Therefore, according to the document image processing function of the first embodiment having the above-described configuration, the link destination area Er and the two areas Er and Es specified on the document image Ga are linked. Is registered in the post-processing dictionary, and in the character recognition of the link source area Es, the registered dictionary is used for knowledge processing,
In the case of collation, the link information r1-r2 is generated according to the data position of the collated link destination registered word, so that the character recognition accuracy is low, or character information such as a table or line drawing is used. Even if you can not extract accurately
Linking can be performed accurately.

【0051】(第2実施形態)この第2実施形態では、
ドキュメント上の2つの範囲をリンク付けの対象範囲と
して指定したときに、指定した2つの範囲における文字
品質に応じて単語辞書に登録する範囲と知識処理を行う
べき範囲とを決定した後に、一方の範囲内の登録単語と
他方の範囲内の抽出文字列との照合によるデータ位置間
での関連付けを行うようにしたドキュメント画像処理機
能について説明する。
(Second Embodiment) In the second embodiment,
When two ranges on a document are designated as target ranges for linking, a range to be registered in a word dictionary and a range to be subjected to knowledge processing are determined according to character quality in the two designated ranges, and then one of the ranges is determined. A description will be given of a document image processing function that associates a registered word in a range with an extracted character string in the other range and associates data positions with each other.

【0052】図9は前記ドキュメント画像ファイリング
装置における第2実施形態のドキュメント画像処理機能
の構成を示すブロック図である。
FIG. 9 is a block diagram showing the configuration of the document image processing function of the second embodiment in the document image filing apparatus.

【0053】このドキュメント画像処理機能の機能ブロ
ックでは、前記図1におけるドキュメント画像ファイリ
ング装置の対応構成部分を括弧書きの符号にして示す。
In the functional block of the document image processing function, the corresponding components of the document image filing apparatus in FIG. 1 are indicated by reference numerals in parentheses.

【0054】このドキュメント画像処理機能は、紙のド
キュメントを画像データとして読み込むための画像入力
部1(22)と、読み込まれた画像データをファイリン
グするための画像格納部2(27a)と、ファイリング
された画像データに対して必要に応じて読み出すための
画像読出部3(27b)と、読み出された画像データを
ディスプレイモニタ等の画面上に表示するための画像表
示部4(28)と、画像データの全部あるいは一部を領
域として指定するための領域指定部5(23)と、指定
された領域に含まれる文字列を抽出し、文字認識を行う
ための文字認識部6(24a)と、文字認識した結果か
ら単語を抽出して単語辞書に登録するための単語辞書作
成部7(24b)と、作成された単語辞書を記憶登録す
るための単語辞書記憶部8(27c)と、指定された他
の領域における文字認識の結果を前記登録された単語辞
書と照合するための単語辞書照合部9(24c)と、こ
の単語辞書との照合結果を利用して画像データ上の2デ
ータ位置(点)間で座標によるリンク情報を発生させる
ためのリンク情報発生部10(24d)と、発生された
リンク情報を画像データと関連付けて格納しておくため
のリンク情報格納部11(27d)と、領域指定部5
(23)によって指定された各領域における文字画像の
品質を評価し、単語辞書に登録する範囲と知識処理を行
うべき範囲とを決定するための品質評価部12(24
e)とにより構成される。
The document image processing function includes an image input unit 1 (22) for reading a paper document as image data, an image storage unit 2 (27a) for filing the read image data, and a filing function. An image reading unit 3 (27b) for reading the read image data as needed, an image display unit 4 (28) for displaying the read image data on a screen such as a display monitor, and the like. An area specifying unit 5 (23) for specifying all or part of the data as an area, a character recognizing unit 6 (24a) for extracting a character string included in the specified area and performing character recognition; A word dictionary creating unit 7 (24b) for extracting words from the result of character recognition and registering them in a word dictionary, and a word dictionary for storing and registering the created word dictionary A storage unit 8 (27c), a word dictionary matching unit 9 (24c) for matching the result of character recognition in another specified area with the registered word dictionary, and using the matching result with the word dictionary A link information generating unit 10 (24d) for generating link information based on coordinates between two data positions (points) on the image data; and storing the generated link information in association with the image data. Link information storage unit 11 (27d) and area designation unit 5
The quality evaluation unit 12 (24) for evaluating the quality of the character image in each area specified by (23) and determining the range to be registered in the word dictionary and the range in which knowledge processing is to be performed.
e).

【0055】次に、前記構成のドキュメント画像ファイ
リング装置における第2実施形態のドキュメント画像処
理機能について説明する。
Next, the document image processing function of the second embodiment in the document image filing apparatus having the above configuration will be described.

【0056】図10は前記ドキュメント画像ファイリン
グ装置の第2実施形態のドキュメント画像処理機能によ
り成されるリンク情報生成処理を示すフローチャートで
ある。
FIG. 10 is a flowchart showing a link information generation process performed by the document image processing function of the second embodiment of the document image filing apparatus.

【0057】まず、画像入力部1(22)により読み込
まれて画像格納部2(27a)に格納されているドキュ
メント画像データを画像表示部4(28)に表示させ、
関連付けを行う2つの領域を領域指定部5(23)によ
って指定する。すなわち、領域1の指定(ステップST
201)及び領域2の指定(ステップST202)を行
う。ここで指定する領域は、それぞれ1枚のドキュメン
トでも、複数枚にまたがるドキュメントの何れであって
もよい。
First, the document image data read by the image input unit 1 (22) and stored in the image storage unit 2 (27a) is displayed on the image display unit 4 (28).
Two areas to be associated are specified by the area specifying unit 5 (23). That is, designation of area 1 (step ST
201) and designation of the area 2 (step ST202). The area specified here may be a single document or a document spanning a plurality of documents.

【0058】次に、指定されたそれぞれの領域に対し
て、品質評価部12(24e)における品質評価処理に
より文字品質を評価する。すなわち、領域1に対する文
字品質の評価(ステップST203)及び領域2に対す
る文字品質の評価(ステップST204)を行う。この
文字品質の評価手段としては、指定された各領域の領域
特徴を抽出し、その結果に応じて文字品質を決定する方
法がある。具体的には、指定された領域内の画像データ
から連結成分を抽出し、抽出された連結成分の大きさか
ら文字らしきサイズにあった連結成分を文字候補領域と
して抽出し、その領域における文字候補領域の分布よ
り、領域をいくつかのカテゴリに分類し、このカテゴリ
に応じて文字品質を決定するものである。
Next, the character quality of each of the designated areas is evaluated by quality evaluation processing in the quality evaluation unit 12 (24e). That is, evaluation of the character quality for area 1 (step ST203) and evaluation of the character quality for area 2 (step ST204) are performed. As a means for evaluating the character quality, there is a method of extracting a region feature of each designated region and determining the character quality according to the result. Specifically, a connected component is extracted from the image data in the designated area, a connected component having a size like a character is extracted from the size of the extracted connected component as a character candidate area, and a character candidate in the area is extracted. The regions are classified into several categories based on the distribution of the regions, and character quality is determined according to the categories.

【0059】ここで、前記指定領域内におけるカテゴリ
とは、テキスト領域、表領域、図面領域、写真領域等の
文書要素の種類である。例えば、テキスト領域、表領
域、図面領域、写真領域の順に文字品質は高いと設定し
ておく。
Here, the category in the designated area is a type of a document element such as a text area, a table area, a drawing area, and a photograph area. For example, character quality is set to be higher in the order of a text area, a table area, a drawing area, and a photograph area.

【0060】品質評価の別の手段としては、前記指定領
域内の文字候補領域に対して実際に文字認識を行ってそ
の認識時における確信度を計測し、確信度が高いものを
品質が高いと設定しておく。この文字認識の確信度とし
ては、当該文字認識の辞書とのパターン照合時の類似
度、認識候補の1位と2位の類似度の差異等、あるいは
その組合せを利用する。
As another means of quality evaluation, character recognition is actually performed on the character candidate area in the designated area, and the certainty at the time of the recognition is measured. Set it. As the certainty factor of the character recognition, the similarity at the time of pattern matching with the character recognition dictionary, the difference between the first and second similarities of the recognition candidates, and the like, or a combination thereof are used.

【0061】こうして行われた各領域の品質評価の結果
より、これを比較する(ステップST205)。この比
較の結果、高品質であると決定された一方の領域に対
し、先立って文字認識部6(24a)における文字認識
処理によって文字認識を行う(ステップST206)。
また、前記品質比較の結果、各領域とも同程度の文字品
質と評価された場合には、例えば領域サイズの小さい方
を高品質領域として扱う等の選択処理を行う。そして、
前記文字品質が高い側の領域に対して行われた文字認識
処理により得られた認識結果に対して、単語辞書作成部
7(24b)における単語辞書作成処理により単語に分
割し、これを単語辞書記憶部8(27c)に記憶させて
登録する(ステップST207)。
Based on the result of the quality evaluation of each area performed in this way, these are compared (step ST205). As a result of this comparison, character recognition is performed by the character recognition process in the character recognition unit 6 (24a) on one of the areas determined to be of high quality (step ST206).
In addition, as a result of the quality comparison, when the character quality of each area is evaluated to be substantially the same, for example, selection processing such as treating a smaller area size as a high quality area is performed. And
The recognition result obtained by the character recognition processing performed on the area with the higher character quality is divided into words by the word dictionary creation processing in the word dictionary creation unit 7 (24b), and this is divided into words. It is stored in the storage unit 8 (27c) and registered (step ST207).

【0062】次に、前記文字品質の評価が低い他方の指
定領域について、同様に文字認識部6(24a)におけ
る文字認識処理により文字領域を抽出し、文字認識を行
う(ステップST208)。そして、この他方の領域の
文字認識結果に対して、単語辞書記憶部8(27c)に
記憶登録されている前記一方の領域にて抽出された単語
辞書を引き出して、単語辞書照合部9における単語辞書
照合処理により単語照合を行う(ステップST20
9)。
Next, a character area is extracted from the other designated area having a low evaluation of the character quality by the character recognition processing in the character recognition unit 6 (24a), and character recognition is performed (step ST208). Then, with respect to the character recognition result in the other area, the word dictionary extracted in the one area stored and registered in the word dictionary storage section 8 (27c) is extracted, and the word dictionary in the word dictionary matching section 9 is extracted. Word matching is performed by dictionary matching processing (step ST20).
9).

【0063】ここで、前記ステップST208における
他方の領域の文字認識の結果と前記単語辞書記憶部8
(27c)に記憶登録されている一方の領域の登録単語
とが同一のものと照合できた場合には、当該他方の領域
の照合文字列のデータ位置から、単語辞書記憶部8(2
7c)に記憶登録されている一方の領域の照合単語のデ
ータ位置へのリンク情報が、リンク情報発生部10(2
4d)におけるリンク情報発生処理により、そのそれぞ
れのデータ位置を示す座標の対応付けにより生成される
(ステップST210)。そして、このリンク情報はリ
ンク情報記憶部11(27d)に格納され、画像読み出
し部3(27b)に読み出されている一方及び他方の画
像領域間でのリンク付け表示が画像表示部4(28)に
おいて行われる。
Here, the result of character recognition of the other area in step ST208 and the word dictionary storage unit 8
If the registered word in one area stored and registered in (27c) can be collated with the same word, the word dictionary storage unit 8 (2) is used from the data position of the collated character string in the other area.
The link information to the data position of the collation word in one area stored and registered in 7c) is transmitted to the link information generation unit 10 (2).
By the link information generation processing in 4d), the data is generated by associating the coordinates indicating the respective data positions (step ST210). The link information is stored in the link information storage unit 11 (27d), and the link display between one and the other image areas read by the image read unit 3 (27b) is displayed on the image display unit 4 (28). ).

【0064】したがって、前記構成による第2実施形態
のドキュメント画像処理機能によれば、ドキュメント画
像上で指定されたリンク付けの対象となる2つの領域に
対して、文字品質の高い方の一方の領域の文字認識を先
に行ってその単語辞書を精度良く作成し、この後文字品
質の低い方の他方の領域の文字認識処理において、前記
一方の登録辞書の単語を知識処理に利用し、認識文字列
が照合された場合には直ちにその照合された一方の領域
の登録単語のデータ位置にリンク付けを行うようにした
ので、文字認識の精度が低い場合や、表や線画等の文字
情報を正確に抽出できない場合においても、リンク付け
を正確に行うことができる。
Therefore, according to the document image processing function of the second embodiment having the above-described configuration, one of the areas having higher character quality is compared with the two areas to be linked specified on the document image. First, the word recognition is performed first, and the word dictionary is created with high accuracy. Thereafter, in the character recognition processing of the other area with the lower character quality, the words of the one registered dictionary are used for the knowledge processing, When a column is collated, a link is made immediately to the data position of the registered word in one of the collated regions, so that character recognition accuracy is low or character information such as tables and line drawings can be accurately identified. Even if it cannot be extracted, linking can be performed accurately.

【0065】(第3実施形態)この第3実施形態では、
表部分と図面部分を含むドキュメント画像に対して、表
部分から項目名、図面部分から図面中の位置を示す文字
列を抽出してリンク付けを行い、表部分の各項目に対し
て図面部分の位置属性を与えるようにした表形式文書の
ドキュメント画像処理機能について説明する。
(Third Embodiment) In the third embodiment,
For the document image including the table part and the drawing part, extract the item name from the table part and the character string indicating the position in the drawing from the drawing part and link them. A document image processing function of a tabular document to which a position attribute is given will be described.

【0066】図11は前記ドキュメント画像ファイリン
グ装置の第3実施形態のドキュメント画像処理機能によ
り成されるデータ読み取りリンク処理を示すフローチャ
ートである。
FIG. 11 is a flowchart showing a data reading link process performed by the document image processing function of the third embodiment of the document image filing apparatus.

【0067】図12は表部分と図面部分からなるドキュ
メント画像Gbの一例を示す図である。
FIG. 12 is a diagram showing an example of a document image Gb composed of a table portion and a drawing portion.

【0068】図13は前記表部分と図面部分からなるド
キュメント画像Gbに対するフォーマット登録状態を示
す図である。
FIG. 13 is a diagram showing a format registration state for the document image Gb consisting of the table part and the drawing part.

【0069】図14は前記第3実施形態のドキュメント
画像処理機能に伴う表形式文書ドキュメント画像上での
文字認識照合状態を示す図である。
FIG. 14 is a diagram showing a state of character recognition and collation on a tabular document image according to the document image processing function of the third embodiment.

【0070】図15は前記第3実施形態のドキュメント
画像処理機能に伴う表形式文書ドキュメント画像上での
リンク情報生成状態を示す図である。
FIG. 15 is a diagram showing a state of generating link information on a tabular document image according to the document image processing function of the third embodiment.

【0071】まず、画像入力部1(22)により読み込
まれて画像格納部2(27a)に格納されているドキュ
メント画像データを画像表示部4(28)に表示させ、
そのうちで例えば図12に示すような、表部分と図面部
分からなる表形式文書のドキュメント画像Gbをリンク
付けの対象画像として画像読み出し部3(27b)によ
り読み込む(ステップST301)。
First, the document image data read by the image input unit 1 (22) and stored in the image storage unit 2 (27a) is displayed on the image display unit 4 (28).
The document reading unit 3 (27b) reads a document image Gb of a tabular document including a table part and a drawing part as a linking target image as shown in FIG. 12 (step ST301).

【0072】この場合、対象となる表形式文書のフォー
マットを登録しておく必要がある。登録されていない場
合には、フォーマット登録作業を行う(ステップST3
02→ST302′)。ここで、登録するフォーマット
は、表を形成する罫線情報と、表部分に記入される文字
に関する情報と、図面部分に関する情報とからなる。
In this case, it is necessary to register the format of the target tabular document. If not registered, format registration is performed (step ST3).
02 → ST302 ′). Here, the format to be registered includes ruled line information for forming a table, information on characters to be entered in a table portion, and information on a drawing portion.

【0073】例えば、図12に示すような図面部分を含
む表形式文書のドキュメント画像Gbが画像読み取り部
3(27b)に読み込まれた場合には、図13に示すよ
うに、罫線情報と、表部分に記入される文字の位置F1
(格子部分)及び図面部分の位置F2(斜線部分)に関
する情報をフォーマット情報として登録する。
For example, when the document image Gb of the tabular document including the drawing portion as shown in FIG. 12 is read by the image reading section 3 (27b), as shown in FIG. Position F1 of the character written in the part
Information on the (grid portion) and the position F2 (hatched portion) of the drawing portion is registered as format information.

【0074】次に、前記読み込まれた表形式文書のドキ
ュメント画像データに対して、画像処理によって罫線情
報を抽出し、抽出された罫線情報を利用して、前記登録
されたフォーマットから適合するフォーマットを識別す
る(ステップST303)。そして、この識別されたフ
ォーマットに登録されている罫線情報を呼び出して、表
部分の位置合わせを行う(ステップST304)。ここ
で、表部分に記入される文字の位置情報F1から、文字
の記入箇所を切り出し、表部分における各記入文字の認
識を、文字認識部6(24a)による文字認識処理によ
って行う(ステップST305)。そして、この記入文
字の認識結果を単語辞書作成部7(24b)による単語
辞書作成処理によって各単語のデータ位置の座標を対応
付けた単語辞書として作成し、単語辞書記憶部8(27
c)に登録する(ステップST306)。
Next, ruled line information is extracted by image processing from the read document image data of the tabular document, and a format compatible with the registered format is extracted by using the extracted ruled line information. It is identified (step ST303). Then, the ruled line information registered in the identified format is called, and the table portion is aligned (step ST304). Here, the character entry portion is cut out from the position information F1 of the character to be entered in the table portion, and each entry character in the table portion is recognized by the character recognition process by the character recognition section 6 (24a) (step ST305). . The recognition result of the entered characters is created as a word dictionary by associating the coordinates of the data position of each word by the word dictionary creation processing by the word dictionary creation unit 7 (24b), and the word dictionary storage unit 8 (27)
c) (step ST306).

【0075】一方、前記ステップST303において識
別されたフォーマットに登録される図面部分の位置情報
より、前記表形式文書のドキュメント画像Gbから図面
部分を切り出し(ステップST307)、切り出された
画像データから文字列を抽出する(ステップST30
8)。この文字列の抽出では、予め定められた文字サイ
ズに適合する連結成分の集合あるいはその近傍領域を文
字列候補としてその画像領域を切り出す。
On the other hand, the drawing part is cut out from the document image Gb of the tabular document based on the position information of the drawing part registered in the format identified in step ST303 (step ST307), and a character string is cut out from the cut out image data. (Step ST30)
8). In the extraction of this character string, an image area is cut out using a set of connected components that match a predetermined character size or a nearby area as a character string candidate.

【0076】例えば図12に示すような表形式文書のド
キュメント画像Gbにおける図面部分においては、図1
4に示すように、実際に文字列を示す部分r2a〜r2
dのほかに、画像のかすれやノイズ成分に影響されてい
くつかの余分な部分r2eを文字列候補として抽出して
しまうことがある。
For example, in the drawing portion of the document image Gb of the tabular document as shown in FIG.
As shown in FIG. 4, portions r2a to r2 actually indicating a character string
In addition to d, some extra parts r2e may be extracted as character string candidates under the influence of blurring or noise components of the image.

【0077】次に、図面部分から切り出された文字列画
像に対しては、文字認識部5(24a)における文字認
識処理によって文字認識を行うのと共に、このときステ
ップST306において単語辞書記憶部8(27c)に
登録されている表部分から抽出された単語辞書を用いて
後処理を行い、単語照合を行う(ステップST30
9)。この際、前記図面部分から余分に抽出された文字
列部分r2eについては、単語辞書に登録されている言
葉と照合できず破棄される。
Next, the character string image cut out from the drawing portion is subjected to character recognition by the character recognition processing in the character recognition section 5 (24a), and at this time, the word dictionary storage section 8 (step ST306). Post-processing is performed using the word dictionary extracted from the table part registered in 27c), and word matching is performed (step ST30).
9). At this time, the character string portion r2e extraly extracted from the drawing portion cannot be matched with the words registered in the word dictionary and is discarded.

【0078】一方、単語照合が成功した箇所について
は、表部分の項目名に相当する文字列r1a〜r1dと
図面中の文字列r2a〜r2dとの関連付けを行い、表
部分の各項目に図面中の位置情報を付加する(ステップ
ST310)。
On the other hand, for the portions where the word matching is successful, the character strings r1a to r1d corresponding to the item names in the table portion are associated with the character strings r2a to r2d in the drawing, and each item in the table portion is added to each item in the drawing. Is added (step ST310).

【0079】これにより、例えば図15に示す矢印のよ
うな関連付けが行われる。その結果得られた表部分の登
録単語に対する図面部分の対応データ位置情報を加えた
リンク情報をリンク情報発生部10(24d)により生
成し、リンク情報記憶部11(27d)に記憶させる
(ステップST311)。
As a result, for example, the association as shown by the arrow in FIG. 15 is performed. The link information generation unit 10 (24d) generates link information obtained by adding the corresponding data position information of the drawing portion to the registered word in the table portion obtained as a result, and stores the link information in the link information storage unit 11 (27d) (step ST311). ).

【0080】例えば、図12に示すように、表データの
項目名として「前面部」「背面部」というように、場所
を示すような言葉である場合には、項目名そのものが場
所を表しているので、あえて各項目データに位置情報を
付加する必要はないが、仮に項目名が「P1」「P2」
というように記号や番号で指定されている場合には、各
項目に図面中の対応位置情報を付加することにより、デ
ータ化された後のリンク付けのためにこの位置情報が不
可欠な情報となる。
For example, as shown in FIG. 12, when the item name of the table data is a word indicating a location such as “front” or “back”, the item name itself represents the location. Therefore, it is not necessary to add position information to each item data, but if the item names are “P1” and “P2”
In this case, the position information is indispensable information for linking after data conversion by adding the corresponding position information in the drawing to each item when it is designated by a symbol or number. .

【0081】したがって、前記構成による第3実施形態
のドキュメント画像処理機能によれば、図面部分と表部
分からなる表形式文書のドキュメント画像において、文
字列の抽出が比較的精度が高く行える表部分の認識結果
を単語辞書に登録し、その単語辞書を用いて図面中の文
字列に対して認識しながら照合を行うことにより、表部
分の項目名と図面中の文字列を効率良く関連付けること
が可能となり、表部分から読み取れるデータに、図面中
の位置情報を付加してデータ化することができる。
Therefore, according to the document image processing function of the third embodiment having the above-described configuration, in the document image of the tabular document including the drawing portion and the table portion, the character string can be extracted with relatively high accuracy. By registering the recognition result in a word dictionary and using the word dictionary to recognize and match the character strings in the drawing, it is possible to efficiently associate the item names in the table with the character strings in the drawing The position information in the drawing can be added to the data that can be read from the table portion to convert the data.

【0082】(第4実施形態)この第4実施形態では、
異なるドキュメント間でのリンク付けに際して、各ドキ
ュメントの時間的順序関係を用いてリンク付けの参照方
向を制限するようにしたドキュメント画像処理機能につ
いて説明する。
(Fourth Embodiment) In this fourth embodiment,
A description will be given of a document image processing function that limits the reference direction of linking using the temporal order relation of each document when linking between different documents.

【0083】図16は前記ドキュメント画像ファイリン
グ装置の第4実施形態のドキュメント画像処理機能によ
り成されるリンク情報生成処理を示すフローチャートで
ある。
FIG. 16 is a flowchart showing the link information generation processing performed by the document image processing function of the fourth embodiment of the document image filing apparatus.

【0084】まず、リンク付けの対象となる2つのドキ
ュメント画像を指定する(ステップST401)。ここ
での指定手段は、領域指定部5(23)により、それぞ
れ1枚のドキュメント画像を指定しても、複数枚にまた
がるドキュメント画像を指定してもよい。また、ドキュ
メント画像のなかでも文字部分のみというように領域指
定を行ってもよい。
First, two document images to be linked are specified (step ST401). The specifying means here may specify one document image or a plurality of document images by the area specifying unit 5 (23). Alternatively, an area may be specified such as only a character portion in a document image.

【0085】次に、前記指定された2つのドキュメント
画像に対して、文字認識部6(24a)による文字認識
処理によって文字認識を行う(ステップST402)。
ここで、単語辞書作成部7(24b)による単語辞書作
成処理によって、一方のドキュメント画像に対する文字
認識結果を形態素解析等の方法を用いて単語に分割し、
分割された単語を単語辞書記憶部8(27c)に記憶さ
せ登録する(ステップST403)。
Next, character recognition is performed on the two designated document images by character recognition processing by the character recognition unit 6 (24a) (step ST402).
Here, by the word dictionary creation processing by the word dictionary creation unit 7 (24b), the character recognition result for one document image is divided into words using a method such as morphological analysis, and the like.
The divided words are stored and registered in the word dictionary storage unit 8 (27c) (step ST403).

【0086】次に、他方のドキュメント画像に対する文
字認識部6(24a)による文字認識結果を、前記ステ
ップST403で既に単語辞書記憶部8(27c)に登
録された一方のドキュメント画像から抽出された単語辞
書を用いて、単語辞書照合部9(24c)によって単語
照合を行い(ステップST404)、照合された単語同
士のデータ位置を対応付けたリンク情報をリンク情報発
生部10(24d)によって生成する(ステップST4
05)。
Next, the character recognition result of the other document image by the character recognizing unit 6 (24a) is converted into the word extracted from the one document image already registered in the word dictionary storage unit 8 (27c) in step ST403. Using the dictionary, word matching is performed by the word dictionary matching unit 9 (24c) (step ST404), and link information that associates the data positions of the matched words with each other is generated by the link information generating unit 10 (24d) ( Step ST4
05).

【0087】そして、前記リンク付けされた両方のドキ
ュメント画像からその作成日等の時間的な情報を抽出す
る(ステップST406)。このとき、両者のドキュメ
ント画像からは同じ方法により抽出することが望まし
い。その時間情報の抽出方法としては、ドキュメント画
像の上部あるいは下部から文字領域を抽出し、文字認識
することによって、その認識文字列が数字の羅列である
か、あるいは、「月」「日」「平成」等のキーワードを
含む文字列であるか判断することにより、時間的な情報
であるかを判別する。あるいは、予め月日が書かれてい
ると予測されるデータ位置を数ヶ所特定しておき、その
特定のデータ位置から文字列を抽出することにより、時
間的な情報を得てもよい。また、画像からの抽出では得
られない場合には、例えば画像を読み込んだ時間をその
まま利用したり、利用者に問い合わせてマニュアル入力
したりしてもよい。
Then, temporal information such as the creation date is extracted from both linked document images (step ST406). At this time, it is desirable to extract from both document images by the same method. As a method of extracting the time information, a character area is extracted from the upper or lower part of the document image and character recognition is performed, so that the recognized character string is a sequence of numbers, or “month,” “day,” “ It is determined whether the information is temporal information by determining whether the character string includes a keyword such as "". Alternatively, time information may be obtained by specifying several data positions in which the date is predicted to be written in advance, and extracting a character string from the specific data position. If it cannot be obtained by extraction from an image, for example, the time of reading the image may be used as it is, or a user may be input manually.

【0088】こうして得られた各ドキュメント画像の時
間的な情報も、前記ステップST405において生成さ
れたリンク情報に付加し、リンク付けされた各ドキュメ
ント画像の表示に際しその参照方向を制限する(ステッ
プST407)。
The temporal information of each document image thus obtained is also added to the link information generated in step ST405, and the display direction of each linked document image is restricted (step ST407). .

【0089】図17は前記第4実施形態のドキュメント
画像処理機能に伴う時間情報を有する2つのドキュメン
ト画像間でのリンク情報生成状態を示す図である。
FIG. 17 is a diagram showing a state of generating link information between two document images having time information associated with the document image processing function of the fourth embodiment.

【0090】例えば、図17に示すように、「99年7
月20日」に作成されたドキュメント画像Gb1と「9
9年8月20日」に作成されたドキュメント画像Gb2
に対して、生成されたリンク情報については、そのリン
ク付け表示に伴う参照方向がドキュメントGb1からド
キュメントGb2の方向(r1→r2)に制限される。
あるいは、各ドキュメント画像間のリンク情報に付加さ
れた時間情報に従って、当該各ドキュメント画像のリン
ク表示に伴い「前のドキュメント」「後ろのドキュメン
ト」というように時間的情報を共に表示させ、両方のド
キュメント間で相互にリンク表示を行ってもよい。
For example, as shown in FIG.
Document image Gb1 created on “20th month” and “9
Document image Gb2 created on "August 20, 2009"
On the other hand, regarding the generated link information, the reference direction accompanying the link display is limited to the direction from the document Gb1 to the document Gb2 (r1 → r2).
Alternatively, in accordance with the time information added to the link information between the document images, the temporal information such as “previous document” and “back document” is displayed together with the link display of each document image, and both documents are displayed. Links may be displayed between the two.

【0091】また、ここで生成したドキュメント画像の
リンク位置情報から、既に別のドキュメント画像に対し
てのリンク位置情報が存在する場合には、当該別のドキ
ュメント画像の時間的な情報を利用して、それぞれのリ
ンクが時間的な順序で並ぶように、所謂ソート処理を行
い、リンク情報を書き換える処理を加えてもよい(ステ
ップST408)。
If the link position information for another document image already exists from the link position information of the document image generated here, the temporal information of the another document image is used. A so-called sorting process may be performed so that the links are arranged in a temporal order, and a process of rewriting the link information may be added (step ST408).

【0092】図18は前記第4実施形態のドキュメント
画像処理機能に伴う時間情報を有する複数のドキュメン
ト画像間でのリンク情報のソート状態を示す図である。
FIG. 18 is a diagram showing a sort state of link information among a plurality of document images having time information associated with the document image processing function of the fourth embodiment.

【0093】例えば、図18に示すように、新たに「9
9年8月1日」付けのドキュメント画像Gb3が読み込
まれ、ドキュメント画像Gb2の同じポイントにリンク
付けされた場合には、時刻順に参照できるようにリンク
情報の付け替え(r1→r2→r3)を行う。
For example, as shown in FIG.
When the document image Gb3 dated "August 1, 9" is read and linked to the same point of the document image Gb2, the link information is changed (r1 → r2 → r3) so that the documents can be referred to in chronological order. .

【0094】したがって、前記構成による第4実施形態
のドキュメント画像処理機能によれば、指定された複数
のドキュメント画像に対して、リンク付けを行った上
で、時間的な情報を抽出し、これにより参照方向制限等
の付加情報を与えたリンク情報を生成するようにしたの
で、時刻順にドキュメントを閲覧したり、1つ前の時刻
の同様のドキュメントに戻ったりすることができる。
Therefore, according to the document image processing function of the fourth embodiment having the above-described configuration, a plurality of designated document images are linked, and temporal information is extracted. Since the link information to which the additional information such as the reference direction restriction is given is generated, it is possible to browse the documents in chronological order or return to the same document at the previous time.

【0095】なお、前記各実施形態において記載した手
法、すなわち、図3のフローチャートに示す第1実施形
態でのリンク情報生成処理、図10のフローチャートに
示す第2実施形態でのリンク情報生成処理、図11のフ
ローチャートに示す第3実施形態でのデータ読み取りリ
ンク処理、図16のフローチャートに示す第4実施形態
でのリンク情報生成処理等の各手法は、コンピュータに
実行させることができるプログラムとして、メモリカー
ド(ROMカード、RAMカード等)、磁気ディスク
(フロッピディスク、ハードディスク等)、光ディスク
(CD−ROM、DVD等)、半導体メモリ等の外部記
録媒体25に格納して配布することができる。そして、
コンピュータは、この外部記録媒体25に記憶されたプ
ログラムを記録媒体読み取り部26によって読み込み、
この読み込んだプログラムによって動作が制御されるこ
とにより、前記各実施形態において説明したドキュメン
ト画像に対するリンク情報の生成機能を実現し、前述し
た手法による同様の処理を実行することができる。
The method described in each of the above embodiments, namely, the link information generation processing in the first embodiment shown in the flowchart of FIG. 3, the link information generation processing in the second embodiment shown in the flowchart of FIG. Each method such as the data reading link processing in the third embodiment shown in the flowchart of FIG. 11 and the link information generation processing in the fourth embodiment shown in the flowchart of FIG. It can be stored in an external recording medium 25 such as a card (ROM card, RAM card, etc.), a magnetic disk (floppy disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), a semiconductor memory, and distributed. And
The computer reads the program stored in the external recording medium 25 by the recording medium reading unit 26,
By controlling the operation by the read program, the function of generating the link information for the document image described in each embodiment can be realized, and the same processing by the above-described method can be executed.

【0096】また、前記各手法を実現するためのプログ
ラムのデータは、プログラムコードの形態としてネット
ワーク上を伝送させることができ、このネットワークに
接続されたコンピュータ端末の通信制御部によって前記
のプログラムデータを取り込み、前述した各種のドキュ
メント画像処理機能を実現することもできる。
The program data for implementing each of the above methods can be transmitted over a network in the form of a program code, and the communication control unit of a computer terminal connected to the network transmits the program data. It is also possible to realize various document image processing functions described above.

【0097】[0097]

【発明の効果】以上のように、本発明の請求項1に係る
第1のドキュメント画像処理装置によれば、ドキュメン
ト画像上でリンク付けの対象となる第1の範囲と第2の
範囲が指定されると、この範囲指定された前記ドキュメ
ント画像上の第1の範囲に対して文字認識が行われ、こ
の第1の範囲から認識された単語が、その位置情報と共
に登録され、また、前記範囲指定された前記ドキュメン
ト画像上の第2の範囲に対して文字認識が行われ、この
第2の範囲から認識された文字列が前記単語登録された
第1の範囲における単語と照合される。そして、この単
語照合により前記第2の範囲から認識された文字列と前
記単語登録により登録された第1の範囲における単語と
が照合一致された場合に、当該照合一致された第2の範
囲の文字列の位置情報と前記登録単語の位置情報とを関
連付けたリンク情報が生成されるので、文字認識の精度
が低い場合や、表や線画等の文字情報を正確に抽出でき
ない場合でも、リンク付けが正確に行えるようになる。
As described above, according to the first document image processing apparatus of the first aspect of the present invention, the first range and the second range to be linked on the document image are designated. Then, character recognition is performed on the first range on the document image designated as the range, the word recognized from the first range is registered together with its position information, and Character recognition is performed on a specified second range on the document image, and a character string recognized from the second range is compared with a word in the first range registered with the word. Then, when the character string recognized from the second range by the word matching is matched with the word in the first range registered by the word registration, the second range matched by the matching is matched. Since link information in which the position information of the character string is associated with the position information of the registered word is generated, even when character recognition accuracy is low or when character information such as a table or a line drawing cannot be accurately extracted, linking is performed. Can be performed accurately.

【0098】また、本発明の請求項2に係る第2のドキ
ュメント画像処理装置によれば、ドキュメント画像上で
リンク付けの対象となる第1の範囲と第2の範囲が指定
されると、この範囲指定された前記ドキュメント画像上
の2つの範囲の文字認識に対する品質が評価され、この
品質評価により品質が高いと評価された第1又は第2の
一方の範囲に対して文字認識が行われ、この一方の範囲
から認識された単語が、その位置情報と共に登録され、
また前記品質評価により品質が低いと評価された第1又
は第2の他方の範囲に対して文字認識が行われ、この他
方の範囲から認識された文字列が前記単語登録された一
方の範囲における単語と照合される。そして、この単語
照合により前記他方の範囲から認識された文字列と前記
単語登録により登録された一方の範囲における単語とが
照合一致された場合に、当該照合一致された他方の範囲
の文字列の位置情報と前記登録単語の位置情報とを関連
付けたリンク情報が生成されるので、文字認識の精度が
低い場合や、表や線画等の文字情報を正確に抽出できな
い場合でも、リンク付けがより正確に行えるようにな
る。
Further, according to the second document image processing device of the present invention, when the first range and the second range to be linked on the document image are specified, The quality for character recognition of two ranges on the document image whose range is specified is evaluated, and character recognition is performed for one of the first and second ranges evaluated as having high quality by this quality evaluation, Words recognized from one of these ranges are registered along with their location information,
In addition, character recognition is performed on the first or second other range evaluated as having a low quality by the quality evaluation, and a character string recognized from the other range is used in one of the ranges where the word is registered. Matches a word. Then, when the character string recognized from the other range by the word matching and the word in one range registered by the word registration are matched, the character string in the other matched range is matched. Since link information in which the position information is associated with the position information of the registered word is generated, even when character recognition accuracy is low, or when character information such as tables and line drawings cannot be accurately extracted, linking is more accurate. Will be able to do it.

【0099】また、本発明の請求項5に係る第3のドキ
ュメント画像処理装置によれば、表部分と図面部分を含
むドキュメントが画像データとして取り込まれると、こ
のドキュメント画像上で表部分の範囲と図面部分の範囲
が抽出され、この範囲抽出された前記ドキュメント画像
の表部分の範囲における項目名に相当する文字列の文字
認識が行われ、この表部分の範囲の項目名として文字認
識された単語が登録される。また、前記範囲抽出された
前記ドキュメント画像の図面部分の範囲における文字列
の文字認識が行われ、この図面部分の範囲から認識され
た文字列が前記単語登録された表部分の範囲における項
目名の単語と照合される。そして、この単語照合により
前記図面部分の範囲から認識された文字列と前記単語登
録により登録された表部分の範囲における項目名の単語
とが照合一致された場合に、当該照合一致された図面部
分の範囲の文字列の位置情報を前記表部分の範囲の項目
名である登録単語に対応付けたリンク情報が生成される
ので、表部分の項目名と図面中の文字列が効率良く関連
付けされることになり、表部分の項目に図面中の位置情
報を付加したデータ化が行えるようになる。
Further, according to the third document image processing apparatus of the present invention, when a document including a table portion and a drawing portion is fetched as image data, the range of the table portion is defined on the document image. The range of the drawing portion is extracted, the character recognition of the character string corresponding to the item name in the range of the table portion of the extracted document image is performed, and the word recognized as the item name of the range of the table portion is recognized. Is registered. Further, character recognition of a character string in the range of the drawing portion of the document image from which the range is extracted is performed. Matches a word. If the character string recognized from the range of the drawing portion by the word matching matches the word of the item name in the range of the table portion registered by the word registration, the matching drawing portion Link information is generated by associating the position information of the character string in the range with the registered word which is the item name of the table part, so that the item name of the table part and the character string in the drawing are efficiently associated with each other. As a result, data can be created by adding position information in the drawing to the items in the table portion.

【0100】よって、本発明によれば、図面や線画等の
文字情報を正確に抽出することが困難なドキュメントに
対しても、当該図面や線画に含まれる文字列とドキュメ
ントの他の部分とのリンク付けを精度良く行うことが可
能になる。
Therefore, according to the present invention, even for a document in which it is difficult to accurately extract character information such as a drawing or a line drawing, the character string included in the drawing or the line drawing can be compared with another part of the document. Linking can be performed with high accuracy.

【0101】また、本発明の請求項6乃至請求項8に係
る第4のドキュメント画像処理装置によれば、複数のド
キュメントが画像データとして取り込まれ、この複数の
ドキュメント画像間でそのそれぞれのドキュメント画像
上の位置情報を関連付けたリンク情報が生成されると、
このリンク情報の生成によりリンク付けされた複数のド
キュメント画像それぞれの時間情報が抽出され、この複
数のドキュメント画像それぞれの時間情報に従った時間
的順序に応じて、前記生成されたリンク情報に基づき行
われる前記複数のドキュメント画像間の参照方向が制限
されたり、あるいは、前記生成されたリンク情報に基づ
き行われる前記複数のドキュメント画像間の参照読み出
しに際し、その時間的順序の情報が付加されるので、前
記リンク付けが正確に行えるドキュメント画像処理装置
において、さらに、時刻順にドキュメントを閲覧した
り、1つ前の時刻の同様のドキュメントに戻ったりでき
るようになる。
Further, according to the fourth document image processing apparatus of the present invention, a plurality of documents are fetched as image data, and each document image is interposed between the plurality of document images. When link information that associates the above location information is generated,
By generating the link information, the time information of each of the plurality of linked document images is extracted, and the line information is generated based on the generated link information in accordance with the temporal order according to the time information of each of the plurality of document images. The reference direction between the plurality of document images is limited, or, at the time of reference reading between the plurality of document images performed based on the generated link information, information of the temporal order is added, In the document image processing apparatus that can perform the linking accurately, it becomes possible to browse the documents in order of time and return to the same document at the previous time.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施形態に係るドキュメント画像ファ
イリング装置の電子回路の構成を示すブロック図。
FIG. 1 is a block diagram showing a configuration of an electronic circuit of a document image filing apparatus according to an embodiment of the present invention.

【図2】前記ドキュメント画像ファイリング装置におけ
る第1実施形態のドキュメント画像処理機能の構成を示
すブロック図。
FIG. 2 is a block diagram showing a configuration of a document image processing function of the first embodiment in the document image filing apparatus.

【図3】前記ドキュメント画像ファイリング装置の第1
実施形態のドキュメント画像処理機能により成されるリ
ンク情報生成処理を示すフローチャート。
FIG. 3 shows a first example of the document image filing apparatus.
9 is a flowchart illustrating link information generation processing performed by the document image processing function of the embodiment.

【図4】表部分とテキスト部分からなるドキュメント画
像の一例を示す図。
FIG. 4 is a diagram illustrating an example of a document image including a table portion and a text portion.

【図5】前記ドキュメント画像に対するリンク先の領域
指定表示状態を示す図。
FIG. 5 is a view showing an area designation display state of a link destination with respect to the document image.

【図6】前記ドキュメント画像のリンク先領域に対する
文字認識により抽出された複数の単語の登録状態を示す
図。
FIG. 6 is a view showing a registration state of a plurality of words extracted by character recognition with respect to a link destination area of the document image.

【図7】前記ドキュメント画像に対するリンク元の領域
指定表示状態を示す図。
FIG. 7 is a diagram showing a state of specifying a link source area with respect to the document image.

【図8】前記第1実施形態のドキュメント画像処理機能
に伴うドキュメント画像上でのリンク情報生成状態を示
す図。
FIG. 8 is a diagram showing a state of generating link information on a document image according to the document image processing function of the first embodiment.

【図9】前記ドキュメント画像ファイリング装置におけ
る第2実施形態のドキュメント画像処理機能の構成を示
すブロック図。
FIG. 9 is a block diagram showing a configuration of a document image processing function of a second embodiment in the document image filing apparatus.

【図10】前記ドキュメント画像ファイリング装置の第
2実施形態のドキュメント画像処理機能により成される
リンク情報生成処理を示すフローチャート。
FIG. 10 is a flowchart showing link information generation processing performed by the document image processing function of the second embodiment of the document image filing apparatus.

【図11】前記ドキュメント画像ファイリング装置の第
3実施形態のドキュメント画像処理機能により成される
データ読み取りリンク処理を示すフローチャート。
FIG. 11 is a flowchart showing a data reading link process performed by the document image processing function of the third embodiment of the document image filing apparatus.

【図12】表部分と図面部分からなるドキュメント画像
Gbの一例を示す図。
FIG. 12 is a diagram illustrating an example of a document image Gb including a table portion and a drawing portion.

【図13】前記表部分と図面部分からなるドキュメント
画像Gbに対するフォーマット登録状態を示す図。
FIG. 13 is a view showing a format registration state for a document image Gb including the table part and the drawing part.

【図14】前記第3実施形態のドキュメント画像処理機
能に伴う表形式文書ドキュメント画像上での文字認識照
合状態を示す図。
FIG. 14 is a diagram showing a state of character recognition and collation on a tabular document image according to the document image processing function of the third embodiment.

【図15】前記第3実施形態のドキュメント画像処理機
能に伴う表形式文書ドキュメント画像上でのリンク情報
生成状態を示す図。
FIG. 15 is a diagram showing a state of generating link information on a tabular document image according to the document image processing function of the third embodiment.

【図16】前記ドキュメント画像ファイリング装置の第
4実施形態のドキュメント画像処理機能により成される
リンク情報生成処理を示すフローチャート。
FIG. 16 is a flowchart showing link information generation processing performed by the document image processing function of the fourth embodiment of the document image filing apparatus.

【図17】前記第4実施形態のドキュメント画像処理機
能に伴う時間情報を有する2つのドキュメント画像間で
のリンク情報生成状態を示す図。
FIG. 17 is a diagram showing a state of generating link information between two document images having time information associated with the document image processing function of the fourth embodiment.

【図18】前記第4実施形態のドキュメント画像処理機
能に伴う時間情報を有する複数のドキュメント画像間で
のリンク情報のソート状態を示す図。
FIG. 18 is a diagram showing a sort state of link information among a plurality of document images having time information associated with the document image processing function of the fourth embodiment.

【符号の説明】[Explanation of symbols]

1 …画像入力部 2 …画像格納部 3 …画像読出部 4 …画像表示部 5 …領域指定部 6 …文字認識部 7 …単語辞書作成部 8 …単語辞書記憶部 9 …単語辞書照合部 10 …リンク情報発生部 11 …リンク情報記憶部 12 …品質評価部 21 …制御装置(CPU) 22 …画像入力装置 23 …データ入力・指示装置 24 …ROM 24a…文字認識プログラム、 24b…単語辞書作成プログラム 24c…単語辞書照合プログラム 24d…リンク情報発生プログラム 24e…品質評価プログラム 25 …外部記録媒体 26 …記録媒体読み取り部 27 …RAM 27a…画像メモリ 27b…読み出し画像メモリ 27c…単語辞書メモリ 27d…リンク情報メモリ 28 …表示装置 DESCRIPTION OF SYMBOLS 1 ... Image input part 2 ... Image storage part 3 ... Image reading part 4 ... Image display part 5 ... Area designation part 6 ... Character recognition part 7 ... Word dictionary creation part 8 ... Word dictionary storage part 9 ... Word dictionary matching part 10 ... Link information generation unit 11 Link information storage unit 12 Quality evaluation unit 21 Control device (CPU) 22 Image input device 23 Data input / instruction device 24 ROM 24a Character recognition program 24b Word dictionary creation program 24c ... word dictionary matching program 24d ... link information generation program 24e ... quality evaluation program 25 ... external recording medium 26 ... recording medium reading unit 27 ... RAM 27a ... image memory 27b ... readout image memory 27c ... word dictionary memory 27d ... link information memory 28 ... Display device

フロントページの続き Fターム(参考) 5B050 BA10 BA20 CA07 EA04 EA06 FA02 FA09 5B064 BA01 BA05 CA08 DA27 EA19 5C062 AA06 AA13 AB17 AB20 AB24 AB38 AB41 AB43 AB44 AC02 AC05 AC07 AC22 AC58 AE15Continued on front page F term (reference) 5B050 BA10 BA20 CA07 EA04 EA06 FA02 FA09 5B064 BA01 BA05 CA08 DA27 EA19 5C062 AA06 AA13 AB17 AB20 AB24 AB38 AB41 AB43 AB44 AC02 AC05 AC07 AC22 AC58 AE15

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 画像データとして取り込まれたドキュメ
ント上の複数のデータ位置間でリンク付けを行うドキュ
メント画像処理装置であって、 前記ドキュメント画像上でリンク付けの対象となる第1
の範囲と第2の範囲を指定する範囲指定手段と、 この範囲指定手段により指定された前記ドキュメント画
像上の第1の範囲に対して文字認識を行い、この第1の
範囲から認識された単語を、その位置情報と共に登録す
る単語登録手段と、 前記範囲指定手段により指定された前記ドキュメント画
像上の第2の範囲に対して文字認識を行い、この第2の
範囲から認識された文字列を前記単語登録手段により登
録された第1の範囲における単語と照合する単語照合手
段と、 この単語照合手段により前記第2の範囲から認識された
文字列と前記単語登録手段により登録された第1の範囲
における単語とが照合一致された場合には、当該照合一
致された第2の範囲の文字列の位置情報と前記登録単語
の位置情報とを関連付けたリンク情報を生成するリンク
情報生成手段と、を具備したことを特徴とするドキュメ
ント画像処理装置。
1. A document image processing apparatus for linking a plurality of data positions on a document captured as image data, wherein the first and second links are linked on the document image.
Range specifying means for specifying a range and a second range, and character recognition is performed on a first range on the document image specified by the range specifying means, and a word recognized from the first range And word registration means for registering the position information together with the position information, and character recognition is performed on a second range on the document image specified by the range specification means, and a character string recognized from the second range is Word matching means for matching words in the first range registered by the word registration means; and a character string recognized from the second range by the word matching means and a first character string registered by the word registration means. If the words in the range are collated and matched, a link information that associates the position information of the character string in the collated and matched second range with the position information of the registered word is generated. Document image processing apparatus characterized by being equipped with click information generating means.
【請求項2】 画像データとして取り込まれたドキュメ
ント上の複数のデータ位置間でリンク付けを行うドキュ
メント画像処理装置であって、 前記ドキュメント画像上でリンク付けの対象となる第1
の範囲と第2の範囲を指定する範囲指定手段と、 この範囲指定手段により指定された前記ドキュメント画
像上の2つの範囲の文字認識に対する品質を評価する品
質評価手段と、 この品質評価手段により品質が高いと評価された第1又
は第2の一方の範囲に対して文字認識を行い、この一方
の範囲から認識された単語を、その位置情報と共に登録
する単語登録手段と、 前記品質評価手段により品質が低いと評価された第1又
は第2の他方の範囲に対して文字認識を行い、この他方
の範囲から認識された文字列を前記単語登録手段により
登録された一方の範囲における単語と照合する単語照合
手段と、 この単語照合手段により前記他方の範囲から認識された
文字列と前記単語登録手段により登録された一方の範囲
における単語とが照合一致された場合には、当該照合一
致された他方の範囲の文字列の位置情報と前記登録単語
の位置情報とを関連付けたリンク情報を生成するリンク
情報生成手段と、を具備したことを特徴とするドキュメ
ント画像処理装置。
2. A document image processing apparatus for linking a plurality of data positions on a document captured as image data, the first image being a link target on the document image.
Range designating means for designating a range and a second range; quality evaluating means for evaluating the quality of character recognition of two ranges on the document image designated by the range designating means; Word recognition means for performing character recognition on one of the first or second range evaluated as being high, and registering a word recognized from this one range together with its position information, Character recognition is performed on the first or second other range evaluated as having low quality, and a character string recognized from the other range is compared with a word in one range registered by the word registration unit. A character string recognized from the other range by the word matching unit and a word in one range registered by the word registration unit. A link information generating unit that generates link information that associates the position information of the character string in the other range matched and matched with the position information of the registered word. Image processing device.
【請求項3】 前記品質評価手段は、前記範囲指定手段
により指定された前記ドキュメント画像上の2つの範囲
それぞれにおける領域特徴を計測し、この計測された領
域特徴に応じて各々の範囲の文字認識に対する品質を評
価する品質評価手段である、ことを特徴とする請求項2
に記載のドキュメント画像処理装置。
3. The quality evaluation unit measures region features in each of two ranges on the document image designated by the range designation unit, and character recognition of each range is performed according to the measured region features. 3. A quality evaluation means for evaluating the quality of the product.
Document image processing apparatus according to 1.
【請求項4】 前記品質評価手段は、前記範囲指定手段
により指定された前記ドキュメント画像上の2つの範囲
のそれぞれにおいて、その範囲の全部あるいは一部の文
字列を抽出して文字認識を行い、この文字認識の結果に
より各々の範囲の文字認識に対する品質を評価する品質
評価手段である、ことを特徴とする請求項2に記載のド
キュメント画像処理装置。
4. The quality evaluation unit performs character recognition by extracting a character string of all or a part of the two ranges on the document image specified by the range specification unit, 3. The document image processing apparatus according to claim 2, wherein the quality evaluation unit evaluates the quality of each range of the character recognition based on the result of the character recognition.
【請求項5】 表部分と図面部分を含むドキュメントを
画像データとして取り込むドキュメント画像取り込み手
段と、 このドキュメント画像取り込み手段により取り込まれた
ドキュメント画像上で表部分の範囲と図面部分の範囲を
抽出する範囲抽出手段と、 この範囲抽出手段により抽出された前記ドキュメント画
像の表部分の範囲における項目名に相当する文字列の文
字認識を行い、この表部分の範囲の項目名として文字認
識された単語を登録する単語登録手段と、 前記範囲抽出手段により抽出された前記ドキュメント画
像の図面部分の範囲における文字列の文字認識を行い、
この図面部分の範囲から認識された文字列を前記単語登
録手段により登録された表部分の範囲における項目名の
単語と照合する単語照合手段と、 この単語照合手段により前記図面部分の範囲から認識さ
れた文字列と前記単語登録手段により登録された表部分
の範囲における項目名の単語とが照合一致された場合に
は、当該照合一致された図面部分の範囲の文字列の位置
情報を前記表部分の範囲の項目名である登録単語に対応
付けたリンク情報を生成するリンク情報生成手段と、を
具備したことを特徴とするドキュメント画像処理装置。
5. A document image capturing means for capturing a document including a table part and a drawing part as image data, and a range for extracting a range of a table part and a range of a drawing part on a document image captured by the document image capturing means. Extracting means for performing character recognition of a character string corresponding to an item name in a range of a table part of the document image extracted by the range extracting means, and registering a character recognized word as an item name of the range of the table part Word registration means to perform character recognition of a character string in a range of a drawing portion of the document image extracted by the range extraction means,
A word matching unit that matches a character string recognized from the range of the drawing portion with a word of an item name in the range of the table portion registered by the word registration unit; and a word matching unit that is recognized from the range of the drawing portion by the word matching unit. If the matched character string matches the word of the item name in the range of the table part registered by the word registration unit, the position information of the character string in the range of the drawing part matched and matched is stored in the table part. And a link information generating unit that generates link information associated with a registered word that is an item name in the range of.
【請求項6】 複数のドキュメントを画像データとして
取り込むドキュメント画像取り込み手段と、 このドキュメント画像取り込み手段により取り込まれた
複数のドキュメント画像間でそのそれぞれのドキュメン
ト画像上の位置情報を関連付けたリンク情報を生成する
リンク情報生成手段と、 このリンク情報生成手段によりリンク付けされた複数の
ドキュメント画像それぞれの時間情報を抽出する時間情
報抽出手段と、 この時間情報抽出手段により抽出された前記複数のドキ
ュメント画像それぞれの時間情報に従った時間的順序に
応じて、前記リンク情報生成手段により生成されたリン
ク情報に基づき行われる前記複数のドキュメント画像間
の参照方向を制限するリンク方向制限手段と、を具備し
たことを特徴とするドキュメント画像処理装置。
6. A document image capturing means for capturing a plurality of documents as image data, and link information in which positional information on each document image is associated between the plurality of document images captured by the document image capturing means. Link information generating means, time information extracting means for extracting time information of each of a plurality of document images linked by the link information generating means, and each of the plurality of document images extracted by the time information extracting means. Link direction limiting means for limiting a reference direction between the plurality of document images performed based on the link information generated by the link information generating means according to a temporal order according to time information. Document image processing equipment Place.
【請求項7】 複数のドキュメントを画像データとして
取り込むドキュメント画像取り込み手段と、 このドキュメント画像取り込み手段により取り込まれた
複数のドキュメント画像間でそのそれぞれのドキュメン
ト画像上の位置情報を関連付けたリンク情報を生成する
リンク情報生成手段と、 このリンク情報生成手段によりリンク付けされた複数の
ドキュメント画像それぞれの時間情報を抽出する時間情
報抽出手段と、 前記リンク情報生成手段により生成されたリンク情報に
基づき行われる前記複数のドキュメント画像間の参照読
み出しに際し、前記時間情報抽出手段により抽出された
前記複数のドキュメント画像それぞれの時間情報に従っ
た時間的順序の情報を付加する順序情報付加手段と、を
具備したことを特徴とするドキュメント画像処理装置。
7. A document image capturing means for capturing a plurality of documents as image data, and link information in which positional information on each document image is associated between the plurality of document images captured by the document image capturing means. Link information generating means, time information extracting means for extracting time information of each of a plurality of document images linked by the link information generating means, and the link information generated by the link information generating means. A sequence information adding unit that adds information on a temporal order according to time information of each of the plurality of document images extracted by the time information extracting unit when reference reading is performed between the plurality of document images. Document image to feature Processing equipment.
【請求項8】 前記リンク情報生成手段は、 前記ドキュメント画像取り込み手段により取り込まれた
複数のドキュメント画像のうちの1つのドキュメント画
像に対して文字認識を行い、この1つのドキュメント画
像から認識された単語を、その位置情報と共に登録する
単語登録手段と、 前記ドキュメント画像取り込み手段により取り込まれた
複数のドキュメント画像のうちの他のドキュメント画像
に対して文字認識を行い、この他のドキュメント画像か
ら認識された文字列を前記単語登録手段により登録され
た1つのドキュメント画像からの登録単語と照合する単
語照合手段とを備え、 この単語照合手段により前記他のドキュメント画像から
認識された文字列と前記単語登録手段により登録された
1つのドキュメント画像からの登録単語とが照合一致さ
れた場合に、当該照合一致された他のドキュメント画像
の文字列の位置情報と前記登録単語の位置情報とを関連
付けたリンク情報を生成するリンク情報生成手段であ
る、ことを特徴とする請求項6又は請求項7に記載のド
キュメント画像処理装置。
8. The link information generating means performs character recognition on one of the plurality of document images captured by the document image capturing means, and outputs a word recognized from the one document image. Word registration means for registering the document image together with the position information, and character recognition is performed on another document image of the plurality of document images captured by the document image capturing means, and the character is recognized from the other document image. Word matching means for matching a character string with a registered word from one document image registered by the word registration means, and a character string recognized from the other document image by the word matching means and the word registration means Registered words from one document image registered by Link information generating means for generating link information in which, when the collation matches, the positional information of the character string of the other collated document image and the positional information of the registered word are associated with each other. The document image processing device according to claim 6.
【請求項9】 画像データとして取り込まれたドキュメ
ント上の複数のデータ位置間でリンク付けを行うための
ドキュメント画像処理方法であって、 前記ドキュメント画像上でリンク付けの対象となる第1
の範囲と第2の範囲を指定する範囲指定ステップと、 この範囲指定ステップにより指定された前記ドキュメン
ト画像上の第1の範囲に対して文字認識を行い、この第
1の範囲から認識された単語を、その位置情報と共に登
録する単語登録ステップと、 前記範囲指定ステップにより指定された前記ドキュメン
ト画像上の第2の範囲に対して文字認識を行い、この第
2の範囲から認識された文字列を前記単語登録ステップ
により登録された第1の範囲における単語と照合する単
語照合ステップと、 この単語照合ステップにより前記第2の範囲から認識さ
れた文字列と前記単語登録ステップにより登録された第
1の範囲における単語とが照合一致された場合には、当
該照合一致された第2の範囲の文字列の位置情報と前記
登録単語の位置情報とを関連付けたリンク情報を生成す
るリンク情報生成ステップと、からなることを特徴とす
るドキュメント画像処理方法。
9. A document image processing method for linking a plurality of data positions on a document captured as image data, the method comprising:
A range specifying step of specifying a range and a second range, and performing character recognition on a first range on the document image specified by the range specifying step, and a word recognized from the first range And a word registration step of registering the position information together with the position information; and performing a character recognition on a second range on the document image designated by the range designation step, and converting a character string recognized from the second range into A word matching step of matching words in the first range registered by the word registration step; a character string recognized from the second range by the word matching step; and a first character string registered by the word registration step. When the words in the range are collated and matched, the position information of the character string in the collated and matched second range and the position information of the registered word are compared. Document image processing method for a link information generating step of generating the communication with the link information, that it consists characterized.
JP26521299A 1999-09-20 1999-09-20 Document image processing apparatus and document image processing method Expired - Fee Related JP3768743B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26521299A JP3768743B2 (en) 1999-09-20 1999-09-20 Document image processing apparatus and document image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26521299A JP3768743B2 (en) 1999-09-20 1999-09-20 Document image processing apparatus and document image processing method

Publications (2)

Publication Number Publication Date
JP2001094711A true JP2001094711A (en) 2001-04-06
JP3768743B2 JP3768743B2 (en) 2006-04-19

Family

ID=17414095

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26521299A Expired - Fee Related JP3768743B2 (en) 1999-09-20 1999-09-20 Document image processing apparatus and document image processing method

Country Status (1)

Country Link
JP (1) JP3768743B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7715625B2 (en) 2004-04-01 2010-05-11 Fuji Xerox Co., Ltd. Image processing device, image processing method, and storage medium storing program therefor
JP2011158929A (en) * 2010-01-29 2011-08-18 Hitachi-Ge Nuclear Energy Ltd Library browsing system, device and method
JP2012194932A (en) * 2011-03-18 2012-10-11 Hitachi Ltd Document certification system and document certification method
JP5886477B2 (en) * 2013-06-28 2016-03-16 楽天株式会社 Determination apparatus, determination method, and program
JP2020508531A (en) * 2017-09-08 2020-03-19 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド Image quality evaluation method and image quality evaluation system
JP2020525926A (en) * 2017-06-29 2020-08-27 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Obfuscating facial features of the subject in the image

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7715625B2 (en) 2004-04-01 2010-05-11 Fuji Xerox Co., Ltd. Image processing device, image processing method, and storage medium storing program therefor
JP2011158929A (en) * 2010-01-29 2011-08-18 Hitachi-Ge Nuclear Energy Ltd Library browsing system, device and method
JP2012194932A (en) * 2011-03-18 2012-10-11 Hitachi Ltd Document certification system and document certification method
JP5886477B2 (en) * 2013-06-28 2016-03-16 楽天株式会社 Determination apparatus, determination method, and program
JP2020525926A (en) * 2017-06-29 2020-08-27 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Obfuscating facial features of the subject in the image
JP7191050B2 (en) 2017-06-29 2022-12-16 コーニンクレッカ フィリップス エヌ ヴェ Obscuring facial features of a subject in an image
JP2020508531A (en) * 2017-09-08 2020-03-19 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド Image quality evaluation method and image quality evaluation system

Also Published As

Publication number Publication date
JP3768743B2 (en) 2006-04-19

Similar Documents

Publication Publication Date Title
US6671684B1 (en) Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document
US7669148B2 (en) System and methods for portable device for mixed media system
US8156427B2 (en) User interface for mixed media reality
US8005831B2 (en) System and methods for creation and use of a mixed media environment with geographic location information
US7818215B2 (en) Processing techniques for text capture from a rendered document
US7812986B2 (en) System and methods for use of voice mail and email in a mixed media environment
JP2004334334A (en) Document search device, document search method, and storage medium
JP2001357046A (en) Electronic imaging apparatus, keyword assignment system, and keyword assignment method
JP2014182477A (en) Program and document processing device
EP2806336A1 (en) Text prediction in a text input associated with an image
JP2009506393A (en) Image collation method and system in mixed media environment
JP4897795B2 (en) Processing apparatus, index table creation method, and computer program
JP3768743B2 (en) Document image processing apparatus and document image processing method
CN113438379B (en) Information processing devices and computer program products
JP2005107931A (en) Image search device
JP7172343B2 (en) Document retrieval program
JP7377565B2 (en) Drawing search device, drawing database construction device, drawing search system, drawing search method, and program
JP2008176625A (en) Character recognition result management apparatus and method, and computer program
JP6303742B2 (en) Image processing apparatus, image processing method, and image processing program
JP4677750B2 (en) Document attribute acquisition method and apparatus, and recording medium recording program
JP2009506392A (en) Method, computer program and system for embedding hotspots in electronic documents
JP2009182530A (en) Business process execution support device
JP4823049B2 (en) Document image retrieval apparatus and program
JP2006163446A (en) Information processing apparatus, data retrieval method, program, and recording medium
JP2005284501A (en) Hierarchical database input apparatus and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060202

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120210

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130210

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees