JP2000148788A - Title region extraction device and title region extraction method from document image, and document retrieval method - Google Patents
Title region extraction device and title region extraction method from document image, and document retrieval methodInfo
- Publication number
- JP2000148788A JP2000148788A JP10328806A JP32880698A JP2000148788A JP 2000148788 A JP2000148788 A JP 2000148788A JP 10328806 A JP10328806 A JP 10328806A JP 32880698 A JP32880698 A JP 32880698A JP 2000148788 A JP2000148788 A JP 2000148788A
- Authority
- JP
- Japan
- Prior art keywords
- title
- area
- character
- character string
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
(57)【要約】
【課題】 特定の文書形式に依存せずにタイトル固有の
特徴をポイントとして用いることにより,ポイント数の
多い文字列領域をタイトルとして自動抽出し,タイトル
抽出の的確性および文書検索時の利便性を向上させるこ
と。
【解決手段】 領域識別部101で切り出された文字列
矩形に対し,該文字列矩形内の文字認識を行う文字認識
部102と,上記文字列矩形に対し,該文字列矩形内の
各文字毎のフォント識別を行うフォント識別部103
と,文字認識部102の認識結果で得られる文字コード
に基づいて自然言語的タイトルらしさを解析する自然言
語解析部104と,上記文字列矩形に対し,センタリン
グ・下線・文字矩形の大きさ等を用いてタイトルらしさ
のポイント付けを行うポイント付部105と,を備え
た。
(57) [Summary] [PROBLEM] To automatically extract a character string region having a large number of points as a title by using a characteristic unique to a title as a point without depending on a specific document format, and to accurately extract the title and to obtain a document. Improve convenience when searching. SOLUTION: A character recognizing unit 102 for recognizing a character string in a character string rectangle cut out by an area identification unit 101, and for each character in the character string rectangle for the character string rectangle. Font identification unit 103 for identifying a font
And a natural language analysis unit 104 for analyzing the likelihood of a natural language title based on the character code obtained from the result of recognition by the character recognition unit 102, and for the character string rectangle, centering, underlining, the size of the character rectangle, etc. And a point assigning section 105 for assigning a point to the title likeness.
Description
【0001】[0001]
【発明の属する技術分野】本発明は,ファクシミリやイ
メージスキャナ等の画像入力装置から入力された文書画
像データのデータベースから,検索の利便性を向上させ
るために,文書内容を的確に表現するような文書中の領
域をタイトル領域として抽出する文書画像からのタイト
ル領域抽出装置およびタイトル領域抽出方法,並びに文
書検索方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for accurately expressing document contents from a database of document image data input from an image input device such as a facsimile or an image scanner in order to improve the convenience of retrieval. The present invention relates to an apparatus and method for extracting a title area from a document image that extracts an area in a document as a title area, and a document search method.
【0002】[0002]
【従来の技術】従来,文書画像を検索する際には,後の
検索時の利便性を図るために,画像入力装置からの文書
画像の入力とは別にオペレータが手作業で,その文書の
内容を的確に表現するタイトル情報やキーワード情報を
抽出/作成して付加したり,定形文書に対しては,文書
中の特定の位置(文字列)をタイトル・キーワードとし
て切り出していた。2. Description of the Related Art Conventionally, when retrieving a document image, an operator manually operates the content of the document separately from the input of the document image from an image input device in order to improve the convenience of later retrieval. Is extracted / created and added to the title information and keyword information that accurately expresses, and a fixed position (character string) in the document is cut out as a title / keyword for a fixed-form document.
【0003】また,非定形文書に対してレイアウト的特
徴のみを用いてタイトルを抽出する参考技術文献が,例
えば,特開平9−134406号公報の『文書画像から
のタイトル抽出装置および方法』,特開平5−2744
71号公報の『イメージ文書のタイトル領域抽出処理方
法』が開示されている。[0003] Further, a reference technical document for extracting a title from an irregular document using only layout features is disclosed in, for example, "Apparatus and method for extracting title from document image" in JP-A-9-134406. Kaihei 5-2744
No. 71, "Title area extraction processing method of image document" is disclosed.
【0004】[0004]
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来の技術にあっては,オペレータによ
るタイトル情報やキーワード情報の付加は文書量が多く
なるにしたがって作業量も増加するため,作業負担の増
大化を招来させてしまう。また,特定の位置の自動切り
出しを行うと,定形文書のみを対象とするので,非定形
文書には利用することができず,利便性に欠けるといっ
た問題点があった。However, in the prior art as described above, the addition of title information and keyword information by the operator increases the amount of work as the amount of documents increases. This will increase the burden. In addition, when automatic extraction at a specific position is performed, only fixed-form documents are targeted, so that it cannot be used for non-standard-size documents, and there is a problem that convenience is lacking.
【0005】従来より開示されている特開平9−134
406号公報・特開平5−274471号公報にあって
は,レイアウト的特徴にのみ注目してタイトル抽出を行
っているため,文書内容を的確に表現するタイトルの的
中率が必ずしも満足できるものではなく,後の文書検索
等に支障をきたす等の問題点があった。[0005] Japanese Unexamined Patent Application Publication No. 9-134 disclosed in the prior art
In Japanese Patent Publication No. 406 and Japanese Patent Laid-Open Publication No. Hei 5-274471, titles are extracted by paying attention only to layout features, and therefore, the hit ratio of titles that accurately express the contents of a document cannot always be satisfied. However, there were problems such as hindrance to later document retrieval.
【0006】本発明は,上記に鑑みてなされたものであ
って,特定の文書形式に依存せずにタイトル固有の特徴
をポイントとして用いることにより,ポイント数の多い
文字列領域をタイトルとして自動抽出し,タイトル抽出
の的確性および文書検索時の利便性を向上させることを
目的とする。The present invention has been made in view of the above, and uses a characteristic unique to a title as a point without depending on a specific document format, thereby automatically extracting a character string area having a large number of points as a title. The purpose of the present invention is to improve the accuracy of title extraction and the convenience at the time of document search.
【0007】[0007]
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係る文書画像からのタイトル領域抽出
装置にあっては,画像入力装置から入力された文書画像
から文字列領域を矩形で切り出す領域識別手段を有し,
前記文字列領域の属性に基づいてタイトルらしさのポイ
ント計算を実行し,タイトルを抽出する文書画像からの
タイトル領域抽出装置において,前記領域識別手段で切
り出された文字列矩形に対し,該文字列矩形内の文字認
識を行う文字認識手段と,前記領域識別手段で切り出さ
れた文字列矩形に対し,該文字列矩形内の各文字毎のフ
ォント識別を行うフォント識別手段と,前記文字認識手
段の認識結果で得られる文字コードに基づいて自然言語
的タイトルらしさを解析する自然言語解析手段と,前記
領域識別手段で切り出された文字列矩形に対し,センタ
リング・下線・文字矩形の大きさ等を用いてタイトルら
しさのポイント付けを行うポイント付手段と,を備えた
ものである。According to a first aspect of the present invention, there is provided an apparatus for extracting a title area from a document image, comprising the steps of extracting a character string area from a document image input from an image input apparatus. It has an area identification unit that cuts out a rectangle,
In a title region extracting apparatus for performing a title-likeness point calculation based on the attribute of the character string region and extracting a title from a document image, a character string rectangle extracted by the region identifying means is compared with the character string rectangle. Character recognizing means for recognizing characters in the character string; font identifying means for recognizing a font of each character in the character string rectangle cut out by the area identifying means; and recognition of the character recognizing means. Natural language analysis means for analyzing the likelihood of a natural language title based on the character code obtained as a result; and a character string rectangle cut out by the area identification means using centering, underlining, the size of the character rectangle, and the like. Pointing means for assigning the point of the title.
【0008】また,請求項2に係る文書画像からのタイ
トル領域抽出方法にあっては,入力された文書画像から
文字列領域を矩形で切り出し,前記文字列領域の属性に
基づいてタイトルらしさのポイント計算を実行し,タイ
トルを抽出する文書画像からのタイトル領域抽出方法に
おいて,前記文字列領域内の文字コードを認識し,文字
コード識別の確信度が一定のしきい値以上であるか否か
を判断する第1の工程と,前記第1の工程で一定のしき
い値以上である場合,タイトルらしさのポイントを加算
し,その合計値によりタイトル領域を決定・抽出する第
2の工程と,を含むものである。According to a second aspect of the present invention, there is provided a method for extracting a title region from a document image, wherein a character string region is cut out in a rectangle from an input document image, and a point of title likeness is determined based on the attribute of the character string region. In a title area extracting method from a document image for performing a calculation and extracting a title, a character code in the character string area is recognized, and whether or not the certainty of the character code identification is equal to or greater than a certain threshold value is determined. A first step of determining and a second step of determining and extracting a title area based on the total value by adding points of the title likeness when the value is equal to or more than a predetermined threshold value in the first step. Including.
【0009】また,請求項3に係る文書画像からのタイ
トル領域抽出方法にあっては,入力された文書画像から
文字列領域を矩形で切り出し,前記文字列領域の属性に
基づいてタイトルらしさのポイント計算を実行し,タイ
トルを抽出する文書画像からのタイトル領域抽出方法に
おいて,前記文字列領域内の文字認識を実行し,該文字
認識時に文字列矩形内の文字数を求める第1の工程と,
文書のタイトルの文字数を用い,前記文字数と比較し,
文字矩形数が所定値内であるか否かを判断する第2の工
程と,前記第2の工程で,文字矩形数が所定値内である
場合に,タイトルらしさのポイントを加算し,その合計
値によりタイトル領域を決定・抽出する第3の工程と,
を含むものである。According to a third aspect of the present invention, there is provided a method for extracting a title region from a document image, wherein a character string region is cut out from the input document image in a rectangular shape, and a point of title-likeness is determined based on the attribute of the character string region. In a method for extracting a title from a document image for performing a calculation and extracting a title, a first step of performing character recognition in the character string area and calculating the number of characters in a character string rectangle at the time of character recognition;
Using the number of characters in the title of the document, comparing with the number of characters,
A second step of determining whether or not the number of character rectangles is within a predetermined value; and, in the second step, when the number of character rectangles is within a predetermined value, the points of the title-likeness are added, and the sum is calculated. A third step of determining and extracting a title area based on the value;
Is included.
【0010】また,請求項4に係る文書画像からのタイ
トル領域抽出方法にあっては,入力された文書画像から
文字列領域を矩形で切り出し,前記文字列領域の属性に
基づいてタイトルらしさのポイント計算を実行し,タイ
トルを抽出する文書画像からのタイトル領域抽出方法に
おいて,前記文字列領域内の文字コードの認識結果に対
して自然言語処理を実行する第1の工程と,前記第1の
工程の結果,体言止めになっている領域であるかを判断
する第2の工程と,前記第2の工程で体言止めになって
いる領域に対し,タイトルらしさのポイントを加算し,
その合計値によりタイトル領域を決定・抽出する第3の
工程と,を含むものである。According to a fourth aspect of the present invention, there is provided a method for extracting a title region from a document image, wherein a character string region is cut out from the input document image by a rectangle, and a point of title likeness is determined based on the attribute of the character string region. A first step of performing a natural language process on a recognition result of a character code in the character string area in a method of performing a calculation and extracting a title from a document image to extract a title; As a result, a second step of judging whether the area is a no-stop area and a point of title-likeness are added to the no-stop area in the second step,
A third step of determining and extracting a title area based on the total value.
【0011】また,請求項5に係る文書画像からのタイ
トル領域抽出方法にあっては,入力された文書画像から
文字列領域を矩形で切り出し,前記文字列領域の属性に
基づいてタイトルらしさのポイント計算を実行し,タイ
トルを抽出する文書画像からのタイトル領域抽出方法に
おいて,前記文字列領域内の文字コードの認識結果に対
して自然言語処理を実行する第1の工程と,前記第1の
工程の結果,タイトルに頻出する語尾の統計情報辞書と
前記文字列領域内の文字コード列とを比較し,高頻出度
の語尾と一致するものを語尾に含む文字列領域であるか
を判断する第2の工程と,前記第2の工程の領域に対
し,タイトルらしさのポイントを加算し,その合計値に
よりタイトル領域を決定・抽出する第3の工程と,を含
むものである。According to a fifth aspect of the present invention, in the method for extracting a title region from a document image, a character string region is cut out from the input document image by a rectangle, and a point of title likeness is determined based on the attribute of the character string region. A first step of performing a natural language process on a recognition result of a character code in the character string area in a method of performing a calculation and extracting a title from a document image to extract a title; As a result, the statistical information dictionary of the endings appearing frequently in the title is compared with the character code string in the character string area, and it is determined whether or not the ending is a character string area including a ending that matches the frequent occurrence of the ending. And a third step of adding a point of title-likeness to the area of the second step and determining and extracting a title area based on the total value.
【0012】また,請求項6に係る文書画像からのタイ
トル領域抽出方法にあっては,入力された文書画像から
文字列領域を矩形で切り出し,前記文字列領域の属性に
基づいてタイトルらしさのポイント計算を実行し,タイ
トルを抽出する文書画像からのタイトル領域抽出方法に
おいて,前記文字列領域に対してフォント識別処理を実
行する第1の工程と,前記フォント識別処理の結果に基
づいて,文字のフォントスタイルを判別し,特定のフォ
ントを用いている文字領域であるかを判断する第2の工
程と,前記第2の工程で特定のフォントを用いている文
字領域に対し,タイトルらしさのポイントを加算し,そ
の合計値によりタイトル領域を決定・抽出する第3の工
程と,を含むものである。According to a sixth aspect of the present invention, in the method for extracting a title region from a document image, a character string region is cut out as a rectangle from the input document image, and a point of title likeness is determined based on the attribute of the character string region. In a title area extraction method from a document image for performing a calculation and extracting a title, a first step of performing font identification processing on the character string area, and a method of extracting characters based on a result of the font identification processing. A second step of determining a font style and determining whether the area is a character area using a specific font; and, for the character area using a specific font in the second step, a point of title-likeness is determined. And a third step of determining and extracting a title area based on the total value.
【0013】また,請求項7に係る文書画像からのタイ
トル領域抽出方法にあっては,入力された文書画像から
文字列領域を矩形で切り出し,前記文字列領域の属性に
基づいてタイトルらしさのポイント計算を実行し,タイ
トルを抽出する文書画像からのタイトル領域抽出方法に
おいて,前記文字列領域に対してフォント識別処理を実
行する第1の工程と,前記フォント識別処理の結果に基
づいて,フォントスタイル判別時に文書全体のフォント
スタイルのヒストグラムを作成しておき,出現頻度の少
ないフォントスタイルを用いている文字領域であるかを
判断する第2の工程と,前記第2の工程で判断した文字
領域に対し,タイトルらしさのポイントを加算し,その
合計値によりタイトル領域を決定・抽出する第3の工程
と,を含むものである。According to a seventh aspect of the present invention, there is provided a method for extracting a title region from a document image, wherein a character string region is cut out from the input document image in a rectangular shape, and the point of title likeness is determined based on the attribute of the character string region. In a method for extracting a title from a document image for performing a calculation and extracting a title, a first step of performing font identification processing on the character string area, and a font style based on a result of the font identification processing. A histogram of the font style of the entire document is created at the time of discrimination, and a second step of judging whether or not the character area uses a font style with a low appearance frequency, and a second step of judging the character area determined in the second step. On the other hand, a third step of adding the points of title-likeness and determining / extracting the title area based on the total value is included. That.
【0014】また,請求項8に係る文書画像からのタイ
トル領域抽出方法にあっては,入力された文書画像から
文字列領域を矩形で切り出し,前記文字列領域の属性に
基づいてタイトルらしさのポイント計算を実行し,タイ
トルを抽出する文書画像からのタイトル領域抽出方法に
おいて,前記文字列矩形内の各文字矩形のアスペクト比
を求める第1の工程と,前記アスペクト比に基づいて倍
角文字であるかを判断する第2の工程と,前記倍角文字
であると判断した文字領域に対し,タイトルらしさのポ
イントを加算し,その合計値によりタイトル領域を決定
・抽出する第3の工程と,を含むものである。Further, in the method for extracting a title region from a document image according to claim 8, a character string region is cut out from the input document image by a rectangle, and a point of title likeness is determined based on the attribute of the character string region. A first step of calculating an aspect ratio of each character rectangle in the character string rectangle by performing a calculation and extracting a title from a document image; and determining whether the character is a double-width character based on the aspect ratio. And a third step of adding a title-like point to the character area determined to be the double-width character, and determining and extracting the title area based on the total value. .
【0015】また,請求項9に係る文書画像からのタイ
トル領域抽出方法にあっては,入力された文書画像から
文字列領域を矩形で切り出し,前記文字列領域の属性に
基づいてタイトルらしさのポイント計算を実行し,タイ
トルを抽出する文書画像からのタイトル領域抽出方法に
おいて,前記文字列矩形に対して文字認識処理を実行す
る第1の工程と,前記文字認識処理によって空白文字以
外認識された各文字矩形の横幅(縦書き時は縦幅)の合
計値を求める第2の工程と,前記合計値が前記文字矩形
領域のほぼ半分であるかを判断する第3の工程と,前記
第3の工程でほぼ半分であると判定された文字列領域に
対し,タイトルらしさのポイントを加算し,その合計値
によりタイトル領域を決定・抽出する第4の工程と,を
含むものである。According to a ninth aspect of the present invention, in the method for extracting a title area from a document image, a character string area is cut out from the input document image in a rectangular shape, and the point of the title likeness is determined based on the attribute of the character string area. In a method for extracting a title from a document image for performing a calculation and extracting a title, a first step of performing a character recognition process on the character string rectangle, and a step of recognizing a character other than a blank character by the character recognition process. A second step of calculating a total value of the horizontal width of the character rectangle (vertical width in vertical writing), a third step of determining whether the total value is substantially half of the character rectangular area, A fourth step of adding a title-like point to the character string area determined to be approximately half in the step, and determining and extracting the title area based on the total value.
【0016】また,請求項10に係る文書画像からのタ
イトル領域抽出方法にあっては,前記タイトルらしさの
ポイント加算の可否判断に用いる基準値は,ユーザ単位
の入力文書形式に合わせて学習して得られる最適値と
し,可変・設定されるものである。In the method for extracting a title area from a document image according to a tenth aspect, the reference value used for judging whether or not the point likeness of the title can be added is learned in accordance with the input document format for each user. It is an optimal value that can be obtained and is variable and set.
【0017】また,請求項11に係る文書検索方法にあ
っては,文書画像を認識し,その結果に対して言語処理
を行ってキーワードを抽出する第1の工程と,前記第1
の工程で抽出されたキーワードと,請求項2ないし10
の何れか一つに記載の文書画像からのタイトル領域抽出
方法に基づいて抽出したタイトルとを併記する第2の工
程と,前記第2の工程で併記されたタイトルを用いて文
書検索を実行する第3の工程と,を含むものである。Further, in the document search method according to the eleventh aspect, a first step of recognizing a document image, performing linguistic processing on the result, and extracting a keyword,
And the keywords extracted in the step (b).
A second step of writing the title extracted based on the title area extraction method from the document image described in any one of the above, and a document search is executed using the title written in the second step. And a third step.
【0018】[0018]
【発明の実施の形態】以下,本発明の文書画像からのタ
イトル領域抽出装置およびタイトル領域抽出方法,並び
に文書検索方法について添付図面を参照して説明する。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing the configuration of a title area extracting apparatus and method for extracting a title area from a document image according to the present invention;
【0019】図1は,本発明の実施の形態に係るタイト
ル領域抽出処理を行うシステム構成を示すブロック図で
ある。図において,101はファクシミリやイメージス
キャナ等の画像入力装置(図示せず)から入力された文
書画像から文字列領域を矩形で切り出す領域識別手段と
しての領域識別部,102は領域識別部101の識別結
果に基づいて文字認識を行う文字認識手段としての文字
認識部,103は領域識別部101の識別結果に基づい
てフォント識別を行うフォント識別手段としてのフォン
ト識別部,104は文字認識部102の認識結果で得ら
れる文字コードに基づいて自然言語的タイトルらしさを
解析する自然言語解析手段としての自然言語解析部,1
05は従来から用いられているセンタリング・下線・文
字矩形の大きさ等を用いてタイトルらしさのポイント付
けを行うポイント付手段としてのポイント付部である。FIG. 1 is a block diagram showing a system configuration for performing a title area extracting process according to an embodiment of the present invention. In the figure, reference numeral 101 denotes an area identification unit as an area identification unit that extracts a character string area from a document image input from an image input device (not shown) such as a facsimile or an image scanner, and 102 denotes identification of the area identification unit 101. A character recognition unit 103 as a character recognition unit for performing character recognition based on the result, a font identification unit 103 as a font identification unit for performing font identification based on the identification result of the area identification unit 101, and a recognition unit 104 for the character recognition unit 102 Natural language analysis unit as natural language analysis means for analyzing the likelihood of a natural language title based on the character code obtained as a result, 1
Reference numeral 05 denotes a point-attaching unit as a point-attaching means for assigning a point of a title-likeness using the conventionally used centering, underlining, character rectangle size, and the like.
【0020】図1の構成において,画像入力装置(図示
せず)から文書画像が入力されると,スキュー補正等の
前処理を行い,領域識別部101により領域識別処理を
実行し,文字列矩形の座標値・大きさの情報を得る。次
いで,領域識別部101による領域識別処理の結果を用
い,文字認識部102による文字認識,およびフォント
識別部103によるフォント識別を行う。In the configuration shown in FIG. 1, when a document image is input from an image input device (not shown), preprocessing such as skew correction is performed, an area identification process is executed by an area identification unit 101, and a character string rectangle is formed. Information on the coordinate value and size of Next, using the result of the area identification processing by the area identification unit 101, character recognition by the character recognition unit 102 and font identification by the font identification unit 103 are performed.
【0021】文字認識部102では各文字毎の文字コー
ド・確信度,文字矩形の座標値・大きさがタイトルらし
さのポイント付けとして得られる。また,フォント識別
部103では各文字毎のフォント種別がタイトルらしさ
のポイント付けとして得られる。In the character recognizing unit 102, a character code, a certainty factor, a coordinate value and a size of a character rectangle for each character are obtained as a point of the likeness of a title. In the font identification unit 103, the font type for each character is obtained as a point indicating the likeness of a title.
【0022】また,文字認識部102により得られる文
字コードは,自然言語解析部104自然言語解析ルーチ
ンにも供給され,自然言語的タイトルらしさ,つまり,
体言止めになっている領域のタイトルらしさのポイント
を与える。さらに,自然言語処理において,タイトルに
頻出する語尾の統計情報辞書と文字領域内の文字コード
列とを比較し,高頻出度の語尾と一致するものを語尾に
含む文字列領域にタイトルらしさのポイントを与える。The character code obtained by the character recognizing unit 102 is also supplied to a natural language analyzing unit 104 and a natural language analyzing routine.
Gives the point of the title-likeness of the area where the speech is stopped. Furthermore, in natural language processing, the statistical information dictionary of the endings that appear frequently in the title is compared with the character code string in the character area, and the character string area that includes the ending that matches the frequent occurrence of the ending in the character string area has the title-likeness point. give.
【0023】また,上述の各ポイントらしさのポイント
に加え,従来から用いられているセンタリング処理・下
線処理・文字列矩形の大きさ等も用いてタイトルらしさ
の合計ポイントを計算し,タイトルを識別する。Further, in addition to the above-mentioned points of the likelihood of points, the total points of the likelihood of the title are calculated using the conventionally used centering processing, underlining processing, the size of the character string rectangle, etc., and the title is identified. .
【0024】次に,図3〜図8に示すフローチャートを
参照し,本発明の一連のタイトル抽出処理方法について
順に説明する。なお,このタイトル抽出処理方は,図1
の構成によって複数の組み合わせあるいは単独,あるい
は選択的に行ってことができる。Next, a series of title extraction processing methods of the present invention will be described in order with reference to the flowcharts shown in FIGS. This title extraction process is described in FIG.
Depending on the configuration, a plurality of combinations, a single operation, or a selective operation can be performed.
【0025】図3は,実施の形態に係る第1のタイトル
抽出方法を示すフローチャートであり,文字コード識別
の確信度が一定のしきい値以上であった場合にタイトル
らしさのポイントを加算する例について示している。ま
ず,文書入力装置(図示せず)から文書画像を入力し
(S301),領域識別部101により文字列領域を識
別する(S302)。続いて,上記文字列領域内の文字
コードを認識し,文字コード識別の確信度が一定のしき
い値以上であるか否かを判断する(S303)。ここ
で,一定のしきい値以上であると判断した場合,タイト
ルらしさのポイントを加算し,その合計値によりタイト
ル領域を決定・抽出する(S304)。FIG. 3 is a flowchart showing a first title extraction method according to the embodiment, in which a title-like point is added when the certainty of character code identification is equal to or greater than a certain threshold. Is shown. First, a document image is input from a document input device (not shown) (S301), and a character string area is identified by the area identification unit 101 (S302). Subsequently, the character code in the character string area is recognized, and it is determined whether or not the certainty factor of the character code identification is equal to or more than a predetermined threshold (S303). If it is determined that the value is equal to or more than the predetermined threshold value, the title-like points are added, and the title area is determined and extracted based on the total value (S304).
【0026】図4は,実施の形態に係る第2のタイトル
抽出方法を示すフローチャートである。まず,文書入力
装置(図示せず)から文書画像を入力し(S401),
領域識別部101により文字列領域を識別する(S40
2)。続いて,文字認識時に文字列矩形内の文字数を求
める(S403)。そして,文書のタイトルの文字数を
用い,上記文字数と比較し(S404),文字矩形数が
所定値内であるか否かを判断する(S405)。ここ
で,文字矩形数が所定値内であると判断すると,タイト
ルらしさのポイントを加算し,その合計値によりタイト
ル領域を決定・抽出する(S406)。FIG. 4 is a flowchart showing a second title extracting method according to the embodiment. First, a document image is input from a document input device (not shown) (S401).
The character string region is identified by the region identification unit 101 (S40
2). Next, the number of characters in the character string rectangle is obtained at the time of character recognition (S403). The number of characters in the title of the document is compared with the number of characters (S404), and it is determined whether the number of character rectangles is within a predetermined value (S405). Here, if it is determined that the number of character rectangles is within the predetermined value, the title points are added, and the title area is determined and extracted based on the total value (S406).
【0027】すなわち,文字列領域内の文字コード認識
時に文字列矩形内の文字数を求め,別途辞書情報として
文書のタイトルの文字数の統計を用いて比較し,タイト
ルらしい文字数の文字列矩形に対してタイトルらしさの
ポイントを与える。That is, the number of characters in a character string rectangle is obtained at the time of character code recognition in the character string area, and the number of characters in the title of the document is compared as separate dictionary information using statistics. Gives the title point.
【0028】図5は,実施の形態に係る第3のタイトル
抽出方法を示すフローチャートである。まず,文書入力
装置(図示せず)から文書画像を入力し(S501),
領域識別部101により文字列領域を識別する(S50
2)。続いて,文字列領域内の文字コードの認識結果に
対して自然言語処理を行い(S503),所定事項の領
域,例えば,体言止めになっている領域か否かを判断す
る(S504)。ここで,所定事項の領域であると判断
すると,タイトルらしさのポイントを加算し,その合計
値によりタイトル領域を決定・抽出する(S505)。FIG. 5 is a flowchart showing a third title extracting method according to the embodiment. First, a document image is input from a document input device (not shown) (S501).
The character string area is identified by the area identification unit 101 (S50
2). Subsequently, natural language processing is performed on the recognition result of the character code in the character string area (S503), and it is determined whether or not the area is a predetermined area, for example, an area in which speech is stopped (S504). If it is determined that the area is the area of the predetermined item, the points of the title are added, and the title area is determined and extracted based on the total value (S505).
【0029】また,上述の言語処理において,タイトル
に頻出する語尾の統計情報辞書と文字領域内の文字コー
ド列とを比較し,高頻出度の語尾と一致するものを語尾
に含む文字列領域にタイトルらしさのポイントを与えて
もよい。In the above-described language processing, a statistical information dictionary of endings frequently appearing in a title is compared with a character code string in a character area, and a character string area including a ending that coincides with a frequently appearing ending is added to the character string area. You may give the point of the title.
【0030】図6は,実施の形態に係る第4のタイトル
抽出方法を示すフローチャートである。まず,文書入力
装置(図示せず)から文書画像を入力し(S601),
領域識別部101により文字列領域を識別する(S60
2)。続いて,フォント識別処理を行い(S603),
所定のフォント(フォントスタイル)を含む領域である
か否かを判断する(S604)。つまり,文字のフォン
トスタイルを判別し,特定のフォントを用いている文字
領域であるか,あるいは,フォントスタイル判別時に文
書全体のフォントスタイルのヒストグラムを作成してお
き,出現頻度の少ないフォントスタイルを用いている文
字領域であるかを判断する。そして,これらの領域であ
ると判断した場合に,タイトルらしさのポイントを加算
し,その合計値によりタイトル領域を決定・抽出する
(S605)。FIG. 6 is a flowchart showing a fourth title extracting method according to the embodiment. First, a document image is input from a document input device (not shown) (S601).
The character string region is identified by the region identification unit 101 (S60
2). Subsequently, font identification processing is performed (S603),
It is determined whether or not the area includes a predetermined font (font style) (S604). In other words, the font style of the character is determined, and the font style of the entire document is created when the font area is determined to be a character area or the font style is determined. It is determined whether it is a character area. Then, when it is determined that these areas are present, points of the title likeness are added, and the title area is determined and extracted based on the total value (S605).
【0031】図7は,実施の形態に係る第5のタイトル
抽出方法を示すフローチャートである。まず,文書入力
装置(図示せず)から文書画像を入力し(S701),
領域識別部101により文字列領域を識別する(S70
2)。続いて,文字列矩形内の各文字矩形のアスペクト
比を求め(S703),アスペクト比が横:縦=2:1
に近い値となる文字矩形が文字列矩形内の文字矩形数中
の一定の割合以上を占めているか否かを判断する(S7
04)。ここで,一定以上の割合を占めていれば,タイ
トルらしさのポイントを加算し,その合計値によりタイ
トル領域を決定・抽出する(S705)。FIG. 7 is a flowchart showing a fifth title extracting method according to the embodiment. First, a document image is input from a document input device (not shown) (S701),
The character string area is identified by the area identification unit 101 (S70
2). Subsequently, the aspect ratio of each character rectangle in the character string rectangle is obtained (S703), and the aspect ratio is horizontal: vertical = 2: 1.
It is determined whether or not the character rectangle having a value close to is occupying a certain percentage or more of the number of character rectangles in the character string rectangle (S7).
04). Here, if the ratio occupies a certain ratio or more, the title-like points are added, and the title area is determined and extracted based on the total value (S705).
【0032】図8は,実施の形態に係る第6のタイトル
抽出方法を示すフローチャートである。まず,文書入力
装置(図示せず)から文書画像を入力し(S801),
領域識別部101により文字列領域を識別する(S80
2)。続いて,文字認識処理を行い(S803),文字
認識処理によって空白文字以外認識された各文字矩形の
横幅(縦書き時は縦幅)の合計値を求める(S80
4)。そして,その合計値が文字矩形領域のほぼ半分で
あるか否かを判断する(S805)。ここで,合計値が
文字矩形領域のほぼ半分であれば,タイトルらしさのポ
イントを加算し,その合計値によりタイトル領域を決定
・抽出する(S806)。FIG. 8 is a flowchart showing a sixth title extracting method according to the embodiment. First, a document image is input from a document input device (not shown) (S801).
The character string area is identified by the area identification unit 101 (S80
2). Subsequently, character recognition processing is performed (S803), and the total value of the horizontal width (vertical width in vertical writing) of each character rectangle recognized as a character other than a blank character by the character recognition processing is obtained (S80).
4). Then, it is determined whether or not the total value is substantially half of the character rectangular area (S805). Here, if the total value is substantially half of the character rectangular area, the points of the title likeness are added, and the title area is determined and extracted based on the total value (S806).
【0033】ところで,上述した実施の形態において必
要となるしきい値を固定せずに,各ユーザの入力する文
書の対応させて学習し,各ユーザの使用する文書形式に
対して最適なしきい値を可変的に求め,初期値から変更
・設定してもよい。By the way, without fixing the threshold value required in the above-described embodiment, learning is performed in correspondence with the document input by each user, and the optimum threshold value is set for the document format used by each user. May be variably obtained and changed / set from the initial value.
【0034】さらに,上述の如く求められる一時的なポ
イントを基に,図2に示すように二次的な組み合わせに
より,倍角文字や均等割付けの判定を行い,それらに対
してタイトルらしさのポイントを与えることも可能であ
る。Further, based on the temporary points obtained as described above, double-width characters and uniform layout are determined by a quadratic combination as shown in FIG. It is also possible to give.
【0035】これを付言すると,文字コードの認識時に
得られる文字列矩形内の各文字矩形領域の大きさを用
い,文字矩形領域のアスペクト比を算出することによっ
て倍角文字を判定し,該倍角文字を用いている文字列領
域に対してタイトルらしさのポイントを与える。In addition, the double-width character is determined by calculating the aspect ratio of the character rectangular area using the size of each character rectangular area in the character string rectangle obtained at the time of character code recognition. Is given a title-like point for the character string area using.
【0036】また,文字矩形領域とそれが属する文字列
領域の大きさと,文字コードの認識時に得られる文字列
矩形内の文字数とを用いて矩形内の文字密度を算出し,
その値によって均等割付け判定を行う。そして,均等割
付けされたと判定された文字列領域に対してタイトルら
しさのポイントを与える。The character density in the rectangle is calculated using the size of the character rectangle region and the character string region to which it belongs, and the number of characters in the character string rectangle obtained at the time of character code recognition.
Equal allocation determination is performed based on the value. Then, a point of the title-likeness is given to the character string area determined to be equally allocated.
【0037】ところで,上述したタイトル領域抽出方法
を用いて情報検索を行うことも実現可能である。図9
は,実施の形態に係る情報検索方法を示すフローチャー
トである。まず,文書画像を認識し(S901),その
結果に対して言語処理を行ってキーワードを抽出する
(SS902)。さらに,上記抽出されたキーワード
と,前述のタイトル領域抽出方法によって抽出したタイ
トルとを併記し(S903),その併記タイトルを用い
て文書検索を実行する(S904)。これにより,検索
時における利便性が向上する。Incidentally, it is also feasible to perform information retrieval using the above-described title area extraction method. FIG.
9 is a flowchart illustrating an information search method according to the embodiment. First, a document image is recognized (S901), and language processing is performed on the result to extract a keyword (SS902). Further, the extracted keyword and the title extracted by the above-described title area extraction method are written together (S903), and a document search is executed using the combined title (S904). Thereby, the convenience at the time of search is improved.
【0038】[0038]
【発明の効果】以上説明したように,本発明に係る文書
画像からのタイトル領域抽出装置(請求項1)によれ
ば,入力された文書画像から文字列領域を矩形で切り出
す領域識別手段を有し,その文字列領域の属性に基づい
てタイトルらしさのポイント計算を実行し,タイトルを
抽出する際に,領域識別手段で切り出された文字列矩形
に対し,該文字列矩形内の文字認識を行う文字認識手段
と,領域識別手段で切り出された文字列矩形に対し,該
文字列矩形内の各文字毎のフォント識別を行うフォント
識別手段と,文字認識手段の認識結果で得られる文字コ
ードに基づいて自然言語的タイトルらしさを解析する自
然言語解析手段と,領域識別手段で切り出された文字列
矩形に対し,センタリング・下線・文字矩形の大きさ等
を用いてタイトルらしさのポイント付けを行うポイント
付手段とを設け,特定の文書形式に依存せずにタイトル
固有の特徴をポイント付けとして用いるため,ポイント
数の多い文字列領域をタイトルとして自動抽出すること
が実現し,かつタイトル抽出の的確性および文書検索時
の利便性を向上させる装置を提供することができる。As described above, according to the apparatus for extracting a title area from a document image according to the present invention (claim 1), there is provided an area identifying means for extracting a character string area from an input document image by a rectangle. Then, based on the attribute of the character string area, a point calculation of the likelihood of a title is executed, and when extracting the title, character recognition within the character string rectangle is performed on the character string rectangle cut out by the area identification means. A character recognition unit, a font identification unit that identifies a font of each character in the character string rectangle cut out by the region identification unit, and a character code obtained from a recognition result of the character recognition unit. Language analysis means for analyzing the likelihood of a natural language title, and the character string rectangle extracted by the area identification means, using centering, underlining, the size of the character rectangle, etc. A point attaching means for assigning points is provided, and a character string area having a large number of points is automatically extracted as a title because a characteristic unique to a title is used as the point attaching without depending on a specific document format. In addition, it is possible to provide a device that improves the accuracy of title extraction and the convenience at the time of document search.
【0039】また,本発明に係る文書画像からのタイト
ル領域抽出方法(請求項2)によれば,文字列領域内の
文字コードを認識し,文字コード識別の確信度が一定の
しきい値以上であるかを判断し,一定のしきい値以上で
ある場合,タイトルらしさのポイントを加算し,その合
計値によりタイトル領域を決定・抽出するため,ポイン
ト数の多い文字列領域をタイトルとして自動抽出するこ
とが実現し,かつタイトル抽出の的確性および文書検索
時の利便性を向上させることができる。According to the method for extracting a title area from a document image according to the present invention (claim 2), a character code in a character string area is recognized, and the certainty of character code identification is equal to or greater than a certain threshold value. Judgment is made, and if it is more than a certain threshold, points like a title are added, and the title area is determined and extracted based on the total value. This makes it possible to improve the accuracy of title extraction and the convenience in document search.
【0040】また,本発明に係る文書画像からのタイト
ル領域抽出方法(請求項3)によれば,文字列領域内の
文字認識を実行し,該文字認識時に文字列矩形内の文字
数を求め,文書のタイトルの文字数を用い,上記文字数
と比較し,文字矩形数が所定値内であるかを判断し,文
字矩形数が所定値内である場合,該当する文字列領域に
タイトルらしさのポイントを加算し,その合計値により
タイトル領域を決定・抽出するため,ポイント数の多い
文字列領域をタイトルとして自動抽出することが実現
し,かつタイトル抽出の的確性および文書検索時の利便
性を向上させることができる。According to the method for extracting a title area from a document image according to the present invention (claim 3), character recognition in a character string area is executed, and the number of characters in a character string rectangle is obtained at the time of character recognition. Using the number of characters in the title of the document, compare with the above number of characters to determine whether the number of character rectangles is within a predetermined value. If the number of character rectangles is within a predetermined value, add the point of title-likeness to the corresponding character string area. Since the title area is determined and extracted based on the sum, the character string area having a large number of points can be automatically extracted as a title, and the accuracy of title extraction and the convenience of document search are improved. be able to.
【0041】また,本発明に係る文書画像からのタイト
ル領域抽出方法(請求項4)によれば,文字列領域内の
文字コードの認識結果に対して自然言語処理を実行し,
そのの結果,体言止めになっている領域であるかを判断
し,体言止めになっている領域に対し,タイトルらしさ
のポイントを加算し,その合計値によりタイトル領域を
決定・抽出するため,ポイント数の多い文字列領域をタ
イトルとして自動抽出することが実現し,かつタイトル
抽出の的確性および文書検索時の利便性を向上させるこ
とができる。According to the method for extracting a title area from a document image according to the present invention (claim 4), natural language processing is performed on the recognition result of the character code in the character string area,
As a result, it is determined whether or not the area is in a no-stop area, points of the title-likeness are added to the no-stop area, and the title area is determined and extracted based on the total value. It is possible to automatically extract a large number of character string regions as titles, and improve the accuracy of title extraction and the convenience in document search.
【0042】また,本発明に係る文書画像からのタイト
ル領域抽出方法(請求項5)によれば,文字列領域内の
文字コードの認識結果に対して自然言語処理を実行し,
その結果,タイトルに頻出する語尾の統計情報辞書と文
字列領域内の文字コード列とを比較し,高頻出度の語尾
と一致するものを語尾に含む文字列領域であるかを判断
し,その領域に対し,タイトルらしさのポイントを加算
し,その合計値によりタイトル領域を決定・抽出するた
め,ポイント数の多い文字列領域をタイトルとして自動
抽出することが実現し,かつタイトル抽出の的確性およ
び文書検索時の利便性を向上させることができる。According to the method for extracting a title area from a document image according to the present invention (claim 5), natural language processing is performed on a result of recognition of a character code in a character string area,
As a result, the statistical information dictionary of the endings appearing frequently in the title is compared with the character code string in the character string area, and it is determined whether or not the ending is a character string area that matches the ending with the high frequent occurrence. The title-like points are added to the area, and the title area is determined and extracted based on the total value. Therefore, it is possible to automatically extract a character string area having a large number of points as a title. Convenience at the time of document search can be improved.
【0043】また,本発明に係る文書画像からのタイト
ル領域抽出方法(請求項6)によれば,文字列領域に対
してフォント識別処理を実行し,その結果に基づいて,
文字のフォントスタイルを判別し,特定のフォントを用
いている文字領域であるかを判断し,特定のフォントを
用いている文字領域に対し,タイトルらしさのポイント
を加算し,その合計値によりタイトル領域を決定・抽出
するため,ポイント数の多い文字列領域をタイトルとし
て自動抽出することが実現し,かつタイトル抽出の的確
性および文書検索時の利便性を向上させることができ
る。According to the method for extracting a title region from a document image according to the present invention (claim 6), font identification processing is performed on a character string region, and based on the result,
Determines the font style of the character, determines whether it is a character area using a specific font, adds a point of title-likeness to the character area using a specific font, and calculates the title area based on the total value. In order to determine and extract a character string, it is possible to automatically extract a character string region having a large number of points as a title, and to improve the accuracy of title extraction and the convenience in document search.
【0044】また,本発明に係る文書画像からのタイト
ル領域抽出方法(請求項7)によれば,文字列領域に対
してフォント識別処理を実行し,その結果に基づいて,
フォントスタイル判別時に文書全体のフォントスタイル
のヒストグラムを作成しておき,出現頻度の少ないフォ
ントスタイルを用いている文字領域であるかを判断し,
該判断した文字領域に対し,タイトルらしさのポイント
を加算し,その合計値によりタイトル領域を決定・抽出
するため,ポイント数の多い文字列領域をタイトルとし
て自動抽出することが実現し,かつタイトル抽出の的確
性および文書検索時の利便性を向上させることができ
る。According to the method for extracting a title area from a document image according to the present invention (claim 7), font identification processing is performed on a character string area, and based on the result,
A histogram of the font style of the entire document is created at the time of determining the font style, and it is determined whether or not the character area uses a font style with a low frequency of appearance.
The title area is added to the determined character area, and the title area is determined and extracted based on the total value. Therefore, it is possible to automatically extract a character string area having a large number of points as a title, and to extract the title. Accuracy and convenience at the time of document search can be improved.
【0045】また,本発明に係る文書画像からのタイト
ル領域抽出方法(請求項8)によれば,文字列矩形内の
各文字矩形のアスペクト比を求め,そのアスペクト比に
基づいて倍角文字であるかを判断し,倍角文字であると
判断した文字領域に対し,タイトルらしさのポイントを
加算し,その合計値によりタイトル領域を決定・抽出す
るため,ポイント数の多い文字列領域をタイトルとして
自動抽出することが実現し,かつタイトル抽出の的確性
および文書検索時の利便性を向上させることができる。According to the method for extracting a title region from a document image according to the present invention (claim 8), the aspect ratio of each character rectangle in the character string rectangle is obtained, and based on the aspect ratio, double-width characters are obtained. The character area that has a large number of points is automatically extracted as the title because the title area is added to the character area determined to be double-width characters, and the title area is determined and extracted based on the total value. This makes it possible to improve the accuracy of title extraction and the convenience in document search.
【0046】また,本発明に係る文書画像からのタイト
ル領域抽出方法(請求項9)によれば,文字列矩形に対
して文字認識処理を実行し,文字認識処理によって空白
文字以外認識された各文字矩形の横幅(縦書き時は縦
幅)の合計値を求め,その合計値が文字矩形領域のほぼ
半分であるかを判断し,ほぼ半分であると判定された文
字列領域に対し,タイトルらしさのポイントを加算し,
その合計値によりタイトル領域を決定・抽出するため,
ポイント数の多い文字列領域をタイトルとして自動抽出
することが実現し,かつタイトル抽出の的確性および文
書検索時の利便性を向上させることができる。According to the method for extracting a title region from a document image according to the present invention (claim 9), a character recognition process is performed on a character string rectangle, and each character other than a blank character is recognized by the character recognition process. Calculate the total value of the width of the character rectangle (vertical width when writing vertically), determine whether the total value is almost half of the character rectangle area, and assign the title to the character string area determined to be almost half. Add the points of likeness,
To determine and extract the title area based on the total value,
It is possible to automatically extract a character string region having a large number of points as a title, and improve the accuracy of title extraction and the convenience in document search.
【0047】また,本発明に係る書画像からのタイトル
領域抽出方法(請求項10)によれば,請求項2ないし
9の何れか一つに記載の文書画像からのタイトル領域抽
出方法において,タイトルらしさのポイント加算の可否
判断に用いる基準値を,ユーザ単位の入力文書形式に合
わせて学習して得られる最適値を用いて可変・設定する
ことにより,より的確なタイトルの自動抽出が実現す
る。According to the method of extracting a title area from a book image according to the present invention (claim 10), the title area is extracted from a document image according to any one of claims 2 to 9. By changing and setting the reference value used to determine whether or not the likelihood point addition is possible using the optimum value obtained by learning according to the input document format for each user, more accurate automatic title extraction is realized.
【0048】また,本発明に係る文書検索方法(請求項
11)によれば,文書画像を文字認識し,その結果に対
して言語処理を行って抽出されたキーワードと,請求項
2ないし9の何れか一つに記載の文書画像からのタイト
ル領域抽出方法に基づいて抽出したタイトルとを併記
し,該併記されたタイトル,すなわち,より的確なタイ
トルを用いて文書検索を実行するため,文書検索時にお
ける利便性が向上する。Further, according to the document search method of the present invention (claim 11), a keyword extracted by performing character recognition on a document image and performing linguistic processing on the result is stored in the document search method. In order to execute a document search using a title extracted from a document image described in any one of them based on a title area extraction method based on the title area extraction method, that is, a more accurate title, a document search is performed. The convenience at the time is improved.
【図1】本発明の実施の形態に係るタイトル領域抽出処
理を行うシステム構成を示すブロック図である。FIG. 1 is a block diagram showing a system configuration for performing a title region extraction process according to an embodiment of the present invention.
【図2】本発明の実施の形態に係るタイトル領域抽出処
理に用いられるタイトルらしさのポイントうち,二次的
に求められるものを示すブロック図である。FIG. 2 is a block diagram showing secondary points obtained among points of the likelihood of a title used in the title area extraction processing according to the embodiment of the present invention;
【図3】本発明の実施の形態に係る第1のタイトル抽出
方法を示すフローチャートである。FIG. 3 is a flowchart illustrating a first title extraction method according to the embodiment of the present invention.
【図4】本発明の実施の形態に係る第2のタイトル抽出
方法を示すフローチャートである。FIG. 4 is a flowchart illustrating a second title extraction method according to the embodiment of the present invention.
【図5】本発明の実施の形態に係る第3のタイトル抽出
方法を示すフローチャートである。FIG. 5 is a flowchart showing a third title extracting method according to the embodiment of the present invention.
【図6】本発明の実施の形態に係る第4のタイトル抽出
方法を示すフローチャートである。FIG. 6 is a flowchart showing a fourth title extracting method according to the embodiment of the present invention.
【図7】本発明の実施の形態に係る第5のタイトル抽出
方法を示すフローチャートである。FIG. 7 is a flowchart showing a fifth title extracting method according to the embodiment of the present invention.
【図8】本発明の実施の形態に係る第6のタイトル抽出
方法を示すフローチャートである。FIG. 8 is a flowchart showing a sixth title extracting method according to the embodiment of the present invention.
【図9】本発明の実施の形態に係る情報検索方法を示す
フローチャートである。FIG. 9 is a flowchart showing an information search method according to the embodiment of the present invention.
101 領域識別部 102 文字認識部 103 フォント識別部 104 自然言語解析部 105 ポイント付部 DESCRIPTION OF SYMBOLS 101 Area identification part 102 Character recognition part 103 Font identification part 104 Natural language analysis part 105 Pointing part
Claims (11)
ら文字列領域を矩形で切り出す領域識別手段を有し,前
記文字列領域の属性に基づいてタイトルらしさのポイン
ト計算を実行し,タイトルを抽出する文書画像からのタ
イトル領域抽出装置において,前記領域識別手段で切り
出された文字列矩形に対し,該文字列矩形内の文字認識
を行う文字認識手段と,前記領域識別手段で切り出され
た文字列矩形に対し,該文字列矩形内の各文字毎のフォ
ント識別を行うフォント識別手段と,前記文字認識手段
の認識結果で得られる文字コードに基づいて自然言語的
タイトルらしさを解析する自然言語解析手段と,前記領
域識別手段で切り出された文字列矩形に対し,センタリ
ング・下線・文字矩形の大きさ等を用いてタイトルらし
さのポイント付けを行うポイント付手段と,を備えたこ
とを特徴とする文書画像からのタイトル領域抽出装置。1. An image processing apparatus comprising: an area identifying means for extracting a character string area from a document image input from an image input device in a rectangular form; performing point calculation of title likelihood based on an attribute of the character string area; A title region extraction unit for performing character recognition on the character string rectangle extracted by the region identification unit, and a character string extracted by the region identification unit. Font identification means for identifying a font for each character in the character string rectangle with respect to the rectangle, and natural language analysis means for analyzing the likelihood of a natural language title based on the character code obtained by the recognition result of the character recognition means And, for the character string rectangle cut out by the area identification means, pointing of the likeness of the title using centering, underlining, the size of the character rectangle, and the like. A title region extracting device for extracting a title region from a document image, the device comprising:
形で切り出し,前記文字列領域の属性に基づいてタイト
ルらしさのポイント計算を実行し,タイトルを抽出する
文書画像からのタイトル領域抽出方法において,前記文
字列領域内の文字コードを認識し,文字コード識別の確
信度が一定のしきい値以上であるか否かを判断する第1
の工程と,前記第1の工程で一定のしきい値以上である
場合,タイトルらしさのポイントを加算し,その合計値
によりタイトル領域を決定・抽出する第2の工程と,を
含むことを特徴とする文書画像からのタイトル領域抽出
方法。2. A method for extracting a title region from a document image, wherein a character string region is cut out in a rectangle from an input document image, a point calculation of a title likeness is performed based on an attribute of the character string region, and a title is extracted. A first step of recognizing a character code in the character string area and determining whether or not the certainty of character code identification is equal to or greater than a predetermined threshold value;
And a second step of adding a point of title-likeness when the value is equal to or greater than a predetermined threshold value in the first step, and determining and extracting a title area based on the total value. Title area extraction method from the document image to be described.
形で切り出し,前記文字列領域の属性に基づいてタイト
ルらしさのポイント計算を実行し,タイトルを抽出する
文書画像からのタイトル領域抽出方法において,前記文
字列領域内の文字認識を実行し,該文字認識時に文字列
矩形内の文字数を求める第1の工程と,文書のタイトル
の文字数を用い,前記文字数と比較し,文字矩形数が所
定値内であるか否かを判断する第2の工程と,前記第2
の工程で,文字矩形数が所定値内である場合に,タイト
ルらしさのポイントを加算し,その合計値によりタイト
ル領域を決定・抽出する第3の工程と,を含むことを特
徴とする文書画像からのタイトル領域抽出方法。3. A method for extracting a title region from a document image in which a character string region is cut out in a rectangle from an input document image, a point calculation of a title likeness is performed based on the attribute of the character string region, and a title is extracted. A first step of performing character recognition in the character string area and determining the number of characters in the character string rectangle at the time of character recognition; and comparing the character number with the character number by using the number of characters in the title of the document. A second step of determining whether the value is within a value,
A step of adding title-like points when the number of character rectangles is within a predetermined value, and determining / extracting a title area based on the total value. Method of extracting the title area from.
形で切り出し,前記文字列領域の属性に基づいてタイト
ルらしさのポイント計算を実行し,タイトルを抽出する
文書画像からのタイトル領域抽出方法において,前記文
字列領域内の文字コードの認識結果に対して自然言語処
理を実行する第1の工程と,前記第1の工程の結果,体
言止めになっている領域であるかを判断する第2の工程
と,前記第2の工程で体言止めになっている領域に対
し,タイトルらしさのポイントを加算し,その合計値に
よりタイトル領域を決定・抽出する第3の工程と,を含
むことを特徴とする文書画像からのタイトル領域抽出方
法。4. A method for extracting a title area from a document image in which a character string area is cut out in a rectangle from an input document image, a point calculation of a title likeness is performed based on the attribute of the character string area, and a title is extracted. A first step of performing a natural language process on a recognition result of a character code in the character string area, and a second step of determining whether or not the area is a speech stop area as a result of the first step. And a third step of adding a point of title-likeness to the area stopped in the second step, and determining and extracting the title area based on the total value. Title area extraction method from the document image to be described.
形で切り出し,前記文字列領域の属性に基づいてタイト
ルらしさのポイント計算を実行し,タイトルを抽出する
文書画像からのタイトル領域抽出方法において,前記文
字列領域内の文字コードの認識結果に対して自然言語処
理を実行する第1の工程と,前記第1の工程の結果,タ
イトルに頻出する語尾の統計情報辞書と前記文字列領域
内の文字コード列とを比較し,高頻出度の語尾と一致す
るものを語尾に含む文字列領域であるかを判断する第2
の工程と,前記第2の工程の領域に対し,タイトルらし
さのポイントを加算し,その合計値によりタイトル領域
を決定・抽出する第3の工程と,を含むことを特徴とす
る文書画像からのタイトル領域抽出方法。5. A method for extracting a title area from a document image in which a character string area is cut out in a rectangle from an input document image, a point calculation of a title likeness is performed based on the attribute of the character string area, and a title is extracted. A first step of performing a natural language process on the recognition result of the character code in the character string area, and a statistical information dictionary of endings frequently appearing in the title as a result of the first step; To determine whether or not it is a character string area that includes a suffix that matches the high-frequency ending.
And a third step of adding title-like points to the area of the second step, and determining and extracting a title area based on the total value. Title area extraction method.
形で切り出し,前記文字列領域の属性に基づいてタイト
ルらしさのポイント計算を実行し,タイトルを抽出する
文書画像からのタイトル領域抽出方法において,前記文
字列領域に対してフォント識別処理を実行する第1の工
程と,前記フォント識別処理の結果に基づいて,文字の
フォントスタイルを判別し,特定のフォントを用いてい
る文字領域であるかを判断する第2の工程と,前記第2
の工程で特定のフォントを用いている文字領域に対し,
タイトルらしさのポイントを加算し,その合計値により
タイトル領域を決定・抽出する第3の工程と,を含むこ
とを特徴とする文書画像からのタイトル領域抽出方法。6. A method for extracting a title area from a document image in which a character string area is cut out in a rectangle from an input document image, a point calculation of a title likeness is performed based on the attribute of the character string area, and a title is extracted. A first step of performing font identification processing on the character string area, and determining a font style of the character based on a result of the font identification processing to determine whether the character area uses a specific font. A second step of determining
For the character area that uses a specific font in the process of
A third step of adding a point of title-likeness and determining and extracting a title area based on the total value thereof.
形で切り出し,前記文字列領域の属性に基づいてタイト
ルらしさのポイント計算を実行し,タイトルを抽出する
文書画像からのタイトル領域抽出方法において,前記文
字列領域に対してフォント識別処理を実行する第1の工
程と,前記フォント識別処理の結果に基づいて,フォン
トスタイル判別時に文書全体のフォントスタイルのヒス
トグラムを作成しておき,出現頻度の少ないフォントス
タイルを用いている文字領域であるかを判断する第2の
工程と,前記第2の工程で判断した文字領域に対し,タ
イトルらしさのポイントを加算し,その合計値によりタ
イトル領域を決定・抽出する第3の工程と,を含むこと
を特徴とする文書画像からのタイトル領域抽出方法。7. A method for extracting a title area from a document image, wherein a character string area is cut out in a rectangle from an input document image, a point calculation of a title likeness is performed based on the attribute of the character string area, and a title is extracted. A first step of executing a font identification process on the character string region; and, based on the result of the font identification process, creating a font style histogram of the entire document at the time of font style determination. A second step of determining whether or not the character area uses a small font style; and adding a point of title-likeness to the character area determined in the second step, and determining a title area based on the total value. A method of extracting a title area from a document image, the method including: a third step of extracting.
形で切り出し,前記文字列領域の属性に基づいてタイト
ルらしさのポイント計算を実行し,タイトルを抽出する
文書画像からのタイトル領域抽出方法において,前記文
字列矩形内の各文字矩形のアスペクト比を求める第1の
工程と,前記アスペクト比に基づいて倍角文字であるか
を判断する第2の工程と,前記倍角文字であると判断し
た文字領域に対し,タイトルらしさのポイントを加算
し,その合計値によりタイトル領域を決定・抽出する第
3の工程と,を含むことを特徴とする文書画像からのタ
イトル領域抽出方法。8. A method for extracting a title area from a document image in which a character string area is cut out in a rectangle from an input document image, a point calculation of a title likeness is performed based on the attribute of the character string area, and a title is extracted. A first step of determining an aspect ratio of each character rectangle in the character string rectangle, a second step of determining whether the character is a double-width character based on the aspect ratio, and a character determined to be the double-width character Adding a point of title-likeness to the area and determining / extracting the title area based on the total value. 3. A method of extracting a title area from a document image.
形で切り出し,前記文字列領域の属性に基づいてタイト
ルらしさのポイント計算を実行し,タイトルを抽出する
文書画像からのタイトル領域抽出方法において,前記文
字列矩形に対して文字認識処理を実行する第1の工程
と,前記文字認識処理によって空白文字以外認識された
各文字矩形の横幅(縦書き時は縦幅)の合計値を求める
第2の工程と,前記合計値が前記文字矩形領域のほぼ半
分であるかを判断する第3の工程と,前記第3の工程で
ほぼ半分であると判定された文字列領域に対し,タイト
ルらしさのポイントを加算し,その合計値によりタイト
ル領域を決定・抽出する第4の工程と,を含むことを特
徴とする文書画像からのタイトル領域抽出方法。9. A method for extracting a title area from a document image in which a character string area is cut out in a rectangle from an input document image, a point calculation of a title likeness is performed based on the attribute of the character string area, and a title is extracted. A first step of performing a character recognition process on the character string rectangle, and obtaining a total value of the horizontal width (vertical width in vertical writing) of each character rectangle recognized by the character recognition process other than a blank character. Step 2, a third step of determining whether the total value is substantially half of the character rectangular area, and a character string area determined to be substantially half in the third step. And a fourth step of determining and extracting a title area based on the total value of the points.
可否判断に用いる基準値は,ユーザ単位の入力文書形式
に合わせて学習して得られる最適値とし,可変・設定さ
れることを特徴とする請求項2ないし9の何れか一つに
記載の文書画像からのタイトル領域抽出方法。10. A reference value used for determining whether or not point addition of title likeness is possible is an optimal value obtained by learning according to an input document format for each user, and is variably set. A method for extracting a title area from a document image according to any one of 2 to 9.
言語処理を行ってキーワードを抽出する第1の工程と,
前記第1の工程で抽出されたキーワードと,請求項2な
いし10の何れか一つに記載の文書画像からのタイトル
領域抽出方法に基づいて抽出したタイトルとを併記する
第2の工程と,前記第2の工程で併記されたタイトルを
用いて文書検索を実行する第3の工程と,を含むことを
特徴とする文書検索方法。11. A first step of recognizing a document image, performing language processing on the result, and extracting a keyword,
A second step of writing together the keyword extracted in the first step and a title extracted based on the title area extraction method from a document image according to any one of claims 2 to 10; A third step of performing a document search using the title described in the second step.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10328806A JP2000148788A (en) | 1998-11-05 | 1998-11-05 | Title region extraction device and title region extraction method from document image, and document retrieval method |
| US09/435,373 US7099507B2 (en) | 1998-11-05 | 1999-11-05 | Method and system for extracting title from document image |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10328806A JP2000148788A (en) | 1998-11-05 | 1998-11-05 | Title region extraction device and title region extraction method from document image, and document retrieval method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000148788A true JP2000148788A (en) | 2000-05-30 |
Family
ID=18214316
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10328806A Pending JP2000148788A (en) | 1998-11-05 | 1998-11-05 | Title region extraction device and title region extraction method from document image, and document retrieval method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2000148788A (en) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003058556A (en) * | 2001-08-16 | 2003-02-28 | Ricoh Co Ltd | Title extraction method, extraction program, and title extraction device for document image |
| WO2004107212A1 (en) * | 2003-05-27 | 2004-12-09 | Sony Corporation | Web-compatible electronic device, web page processing method, and program |
| WO2006046523A1 (en) * | 2004-10-25 | 2006-05-04 | Nec Corporation | Document analysis system and document adaptation system |
| US7318033B2 (en) | 2002-08-02 | 2008-01-08 | Canon Kabushiki Kaisha | Method, apparatus and program for recognizing, extracting, and speech synthesizing strings from documents |
| US8824798B2 (en) | 2009-08-20 | 2014-09-02 | Fuji Xerox Co., Ltd. | Information processing device, computer readable medium storing information processing program, and information processing method |
| CN107731249A (en) * | 2017-09-15 | 2018-02-23 | 维沃移动通信有限公司 | A kind of audio file manufacture method and mobile terminal |
| JP2019169137A (en) * | 2018-02-15 | 2019-10-03 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | Title inferencer |
| CN112613572A (en) * | 2020-12-30 | 2021-04-06 | 北京奇艺世纪科技有限公司 | Sample data obtaining method and device, electronic equipment and storage medium |
-
1998
- 1998-11-05 JP JP10328806A patent/JP2000148788A/en active Pending
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003058556A (en) * | 2001-08-16 | 2003-02-28 | Ricoh Co Ltd | Title extraction method, extraction program, and title extraction device for document image |
| US7318033B2 (en) | 2002-08-02 | 2008-01-08 | Canon Kabushiki Kaisha | Method, apparatus and program for recognizing, extracting, and speech synthesizing strings from documents |
| CN100401291C (en) * | 2003-05-27 | 2008-07-09 | 索尼株式会社 | Network Compatible Electronic Device and Webpage Processing Method |
| WO2004107212A1 (en) * | 2003-05-27 | 2004-12-09 | Sony Corporation | Web-compatible electronic device, web page processing method, and program |
| US7272787B2 (en) | 2003-05-27 | 2007-09-18 | Sony Corporation | Web-compatible electronic device, web page processing method, and program |
| US8051371B2 (en) | 2004-10-25 | 2011-11-01 | Nec Corporation | Document analysis system and document adaptation system |
| WO2006046523A1 (en) * | 2004-10-25 | 2006-05-04 | Nec Corporation | Document analysis system and document adaptation system |
| US8824798B2 (en) | 2009-08-20 | 2014-09-02 | Fuji Xerox Co., Ltd. | Information processing device, computer readable medium storing information processing program, and information processing method |
| CN107731249A (en) * | 2017-09-15 | 2018-02-23 | 维沃移动通信有限公司 | A kind of audio file manufacture method and mobile terminal |
| CN107731249B (en) * | 2017-09-15 | 2019-12-17 | 维沃移动通信有限公司 | An audio file production method and mobile terminal |
| JP2019169137A (en) * | 2018-02-15 | 2019-10-03 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | Title inferencer |
| JP7186107B2 (en) | 2018-02-15 | 2022-12-08 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | title estimator |
| CN112613572A (en) * | 2020-12-30 | 2021-04-06 | 北京奇艺世纪科技有限公司 | Sample data obtaining method and device, electronic equipment and storage medium |
| CN112613572B (en) * | 2020-12-30 | 2024-01-23 | 北京奇艺世纪科技有限公司 | Sample data obtaining method and device, electronic equipment and storage medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3919617B2 (en) | Character recognition device, character recognition method, program, and storage medium | |
| JP5508359B2 (en) | Character recognition device, character recognition method and program | |
| CN110765767B (en) | Extraction method, device, server and storage medium of local optimization keywords | |
| JPH11306197A5 (en) | ||
| US9098581B2 (en) | Method for finding text reading order in a document | |
| JPH0743717B2 (en) | Abstract sentence generator | |
| JPH0520500A (en) | Document recognizing device | |
| CN120373260A (en) | PDF conversion multiplexing method and device, computer equipment and storage medium | |
| JP2000148788A (en) | Title region extraction device and title region extraction method from document image, and document retrieval method | |
| JP5097802B2 (en) | Japanese automatic recommendation system and method using romaji conversion | |
| JP3216800B2 (en) | Handwritten character recognition method | |
| JP2001318792A (en) | Named entity extraction rule generation system and method, recording medium on which processing program is recorded, and named entity extraction device | |
| JP2003281165A (en) | Document summarization method and system | |
| JP3912463B2 (en) | Logical structure extraction device and logical structure extraction method | |
| CN120849531A (en) | Document processing method, device, computer equipment, storage medium and program product | |
| CN110807322B (en) | Method, device, server and storage medium for identifying new words based on information entropy | |
| CN119848188A (en) | Document segmentation method for large model retrieval enhancement generation | |
| JP2002297638A (en) | Method for extracting title from document image | |
| JPH06215184A (en) | Extraction area labeling device | |
| JP2004178044A (en) | Attribute extraction method and apparatus, and attribute extraction program | |
| CN100444194C (en) | Automatic extraction device, method and program of essay title and correlation information | |
| JP2002132789A (en) | Document search method | |
| JP2000259847A (en) | Information retrieval method, apparatus and recording medium | |
| JPH0950488A (en) | How to read mixed size strings | |
| JP2003256772A (en) | Character recognition device and recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040727 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041207 |