JPH11203305A

JPH11203305A - 文書画像処理方法および記録媒体

Info

Publication number: JPH11203305A
Application number: JP10004225A
Authority: JP
Inventors: Takashi Saito; 高志齋藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1998-01-12
Filing date: 1998-01-12
Publication date: 1999-07-30

Abstract

(57)【要約】【課題】文書画像中から内容把握に役立つ部分（キー
領域）を自動的に抽出しつつ、かつ抽出数を適当な数に
絞る。【解決手段】領域分割／レイアウト情報抽出手段１０
２は、入力された文書画像を文字領域と、図や表や罫線
等の要素に分割し、段組種類や段組などのレイアウト情
報を抽出する。行抽出手段１０３は、文字領域から行を
抽出し、フォント識別手段１０４は、各行単位でフォン
ト識別を行う。キー領域判別手段１０５は、レイアウト
表現上の特徴を基に文書内容を端的に表わすキー領域を
抽出し、抽出したキー領域の総数を調べ、閾値以上ある
ときは削減し適当な数に絞る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書画像中から内
容把握に役立つ領域を自動的に抽出する文書画像処理方
法および記録媒体に関する。

【０００２】

【従来の技術】近年、計算機、デジタル機器の能力向上
やハードディスク等のデータ蓄積装置の能力向上によっ
て文書画像の流通機会が飛躍的に増大した。しかし文書
画像はデータ量が多く、このため処理速度が要求される
場合やネットワークを通じて画像データを交換する場合
などにネックとなってきた。

【０００３】一般に、大量に蓄積された文書画像を閲覧
する場合には、その全ての画像について、蓄積された高
画質な画像状態で見る必要はなく、取敢えず内容の確認
が可能であれば十分な場合が多い。もちろん、キーワー
ド検索等が行える方が画像を扱うより、はるかに高速に
処理できる。しかし適切なキーワードを入力することは
難しい。蓄積された画像内容を一度も見たことがないよ
うな場合は、より一層困難である。

【０００４】そこで、光ファイリング装置等において
は、縮小した画像をインデックス画像として原画像とは
別に保持し、まずそのインデックス画像を利用者に提示
することによって、処理するデータ量の軽減化を図って
いる。しかし、単に画像全体を縮小した場合には、全体
の感じはつかめても画像中の文字を読むことは難しく、
特に、似たようなレイアウトの文書が多い場合には、所
望の文書を選択することは難しい。

【０００５】このような問題を解決するものとして、特
開平５−３４２３２６号公報に記載された文書処理装置
がある。この装置では、文書画像を領域分割し、分割さ
れた要素に対して、論理モデルに従って論理識別子を付
与し、必要とする論理要素だけを識別子をキーにして抽
出し、それを見やすく再配置する。また、部分的にＯＣ
Ｒを使用することによって、抽出した情報のソ−ティン
グなども行う。

【０００６】

【発明が解決しようとする課題】しかし、上記した文書
処理方法では、予め入力される文書画像のレイアウト構
成および論理構成を把握して、該当するモデルを作成す
る必要がある。モデルに従って文書が構成されていて、
領域分割部が完璧であれば精度よく処理できるが、実際
にはそうでない場合が多く、モデルの適用範囲が限定さ
れてしまう。また、論理モデルの作成には相当の熟達が
必要であることから、上記した処理方法では、新規文書
群の内容把握のために部分画像（キー領域）の抽出を行
うことが非常に難しい。

【０００７】上記した問題を解決する他の方法として、
例えば、特開平５−２４２１４２号公報および本出願人
が先に提案した特願平８−１１０８０８号がある。これ
らの方法は、レイアウト構成および論理構成を把握して
該当するモデルを作成する必要はなく、前掲した特開平
５−３４２３２６号の方法よりも柔軟である。

【０００８】つまり、特開平５−２４２１４２号公報に
記載された、文書画像の復号なしに文書を要約するため
の方法おいては、言語的基準（「重要な」、「意味のあ
る」などの単語）、文書内の位置や形態的画像特性（字
体、字種など）によって重要度、つまり意味的に重要な
画像単位を判定している。しかし、この方法においては
画像単位（領域）の「重要性」を判断することができて
も、それが画像全体でどの程度の量になるのかを制御し
ていない。頻度情報を利用することにより、重要相当領
域の数の総数を制御することも可能であるが、日本文に
おいては出現頻度が低くても「キー領域」に相当する場
合が多いことから、頻度だけで制御することは難しい。

【０００９】また、特願平８−１１０８０８号で提案し
た方法は、文書画像を複数の要素に分割し、分割された
各要素のレイアウト上の特徴（本文とは異なる強調処理
された部分）を基に該要素が前記文書内容を端的に表す
領域であるか否かを判定し、該領域を部分画像として抽
出する方法であるが、この方法においても、やはり当該
領域の「重要性」を判断できても、それが画像全体でど
の程度の量になるのかを制御していない。

【００１０】本発明は上記した事情を考慮してなされた
もので、本発明の目的は、文書画像中から内容把握に役
立つ部分（キー領域）を自動的に抽出することができ、
また抽出数も適当な数に絞ることができる文書画像処理
方法および記録媒体を提供することにある。

【００１１】

【課題を解決するための手段】前記目的を達成するため
に、請求項１記載の発明では、文書画像を複数の要素に
分割し、分割された各要素のレイアウト表現上の特徴を
基に該要素が前記文書画像の内容を端的に表わす領域
（以下、キー領域）であるか否かを判別する文書画像処
理方法であって、前記判別されたキー領域の数を調べ、
該キー領域数を最適な数に削減することを特徴としてい
る。

【００１２】請求項２記載の発明では、前記判別された
キー領域の数が所定の閾値以上であるとき、該キー領域
数を削減することを特徴としている。

【００１３】請求項３記載の発明では、前記判別された
キー領域の数を、ページ内の全行数と比べたときの比率
が所定の閾値以上であるとき、該キー領域数を削減する
ことを特徴としている。

【００１４】請求項４記載の発明では、前記レイアウト
表現上の特徴に優先順位を付け、優先度の低い特徴を基
に判別されたキ−領域から順に削減することを特徴とし
ている。

【００１５】請求項５記載の発明では、同一の特徴を持
つキー領域に同じラベルを付与し、各ラベル毎のキー領
域数を計数し、該ラベル毎の計数に応じてキー領域を削
減することを特徴としている。

【００１６】請求項６記載の発明では、文書画像を複数
の要素に分割し、分割された各要素のレイアウト表現上
の特徴を基に該要素が前記文書画像の内容を端的に表わ
す領域（以下、キー領域）であるか否かを判別する文書
画像処理方法であって、前記文書画像のページ全体の段
組構成を判別し、判別された段組構成に応じて、前記キ
ー領域の判別に使用するレイアウト表現上の特徴を選択
することを特徴としている。

【００１７】請求項７記載の発明では、文書画像を複数
の要素に分割し、分割された各要素のレイアウト表現上
の特徴を基に該要素が前記文書画像の内容を端的に表わ
す領域（以下、キー領域）であるか否かを判別する文書
画像処理方法であって、前記判別されたキー領域の数を
調べ、該キー領域数を削減する必要があるとき、前記判
別に使用したレイアウト表現上の特徴の内、一ないし複
数の特徴を除いた特徴を用いて再度、キー領域を判別す
ることを特徴としている。

【００１８】請求項８記載の発明では、文書画像を複数
の要素に分割する機能と、分割された各要素のレイアウ
ト表現上の特徴を基に該要素が前記文書画像の内容を端
的に表わす領域（以下、キー領域）であるか否かを判別
する機能をコンピュータに実現させるためのプログラム
を記録したコンピュータ読み取り可能な記録媒体であっ
て、前記判別されたキー領域の数を調べる機能と、該キ
ー領域数を最適な数に削減する機能をコンピュータに実
現させるためのプログラムを記録したコンピュータ読み
取り可能な記録媒体であることを特徴としている。

【００１９】

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。〈実施例１〉図１は、本発明の実施例の構成を示す。図
において、１０１は画像の入力手段、１０２は文書画像
を要素に分割し、また段組などのレイアウト情報を抽出
する領域分割／レイアウト情報抽出手段、１０３は各文
字領域において行を抽出する行抽出手段、１０４はフォ
ント識別手段、１０５は領域分割／レイアウト情報抽出
手段１０２および行抽出手段１０３で抽出した情報か
ら、文書画像の内容を端的に表わす領域（キー領域）を
判別するキー領域判別手段、１０６は入力された画像や
処理中の各種情報を蓄積するデータ記憶部、１０７は全
体を制御する制御部、１０８はデータ通信路である。

【００２０】図２は、本発明の処理フローチャートを示
す。以下、図２に従って本発明を説明する。まず、画像
入力手段１０１によって文書画像を得る（ステップ２０
１）。この画像入力手段はスキャナやファックスであ
り、あるいはネットワーク経由で別の機器から画像を得
る手段でもよい。

【００２１】次に、領域分割／レイアウト情報抽出手段
１０２は、入力された文書画像を文字領域と、図や表や
罫線等の要素に分割すると同時に、段組種類や段組など
のレイアウト情報を抽出する（ステップ２０２）。この
ような領域分割方法としては例えば、特開平６−２００
９２号公報に記載された公知技術を用いればよい。ま
た、レイアウト情報の抽出方法としては例えば、特開平
９−４４５９４号公報に記載された公知技術を用いれば
よい。抽出した領域は、属性として要素の種類（文字領
域、表など）と、その位置（領域の外接矩形）などを持
ち、また画像全体として段組種類や段組分割線などのレ
イアウト情報を持つ。

【００２２】行抽出手段１０３は、抽出した文字領域か
ら行を抽出する（ステップ２０３）。この行抽出方法と
しては、例えば電子通信学会論文「周辺分布、綿密度、
外接矩形特徴を利用した文書画像の領域分割」（秋山
他、１９８６年８月、Ｖｏｌ．Ｊ６９−ＤＮｏ．８）に
記載された技術を用いればよい。

【００２３】さらに、フォント識別手段１０４は、各行
単位または各行に含まれる文字単位でフォント識別を行
う（ステップ２０４）。このフォント識別方法としては
例えば、特開平６−２０８６４９号公報に記載の方法を
用いればよい。

【００２４】領域などのレイアウト情報、行情報、フォ
ント情報が抽出されると、キー領域判別手段１０５はキ
ー領域の判別を行う（ステップ２０５）。ここで、キー
領域とは文書の内容を把握するのに役立つ部分である。
一般的に、そのような部分は何らかの方法で強調が施さ
れている。例えば、大きな文字や強調系のフォントを使
用したり、あるいは他の部分とは独立させたり、枠で囲
むなどの処理が施されている。ここでは、先の特願平８
−１１０８０８号で提案した、文書のレイアウト表現上
の特徴を用いてキー領域を判別する、文書画像処理方法
を利用する。

【００２５】図３は、キー領域判別処理の詳細な処理フ
ローチャートである。まず、各単位（ここでは行）毎に
レイアウト表現上の強調処理を調べてキー領域を抽出す
る（ステップ３０１）。

【００２６】すなわち、上記出願で提案したキー領域抽
出処理では、まず、各行の文字サイズ特徴（大文字行、
中文字行、普通文字行）を検出し、次いでフォント特徴
（黒画素密度などを基に強調系のフォントであるか否
か）を検出し、タイトル部（文字サイズが大きく、独立
した領域）の検出を行う。続いて、小見出し部（例え
ば、中文字行で、行数が所定数未満の領域）を検出し、
書誌事項を検出し、最後に、囲み枠が存在する場合に、
囲み枠内の文章は別記事である場合が多く、内容把握に
役立つので、枠内の行を先頭から数行抽出する。

【００２７】以上の処理によって求められた、例えば
「タイトル領域」、「フォント強調領域」、「小見出し
領域および行」、「書誌事項」、「囲み枠先頭行」など
がキー領域となる。

【００２８】各単位（ここでは行）毎にレイアウト表現
上の強調処理を調べることによりキー領域を抽出した
ら、抽出したキー領域の総数を調べる（ステップ３０
２）。ところで、キー領域は文書画像の要約効果を狙っ
たものであるので、あまり多くの行をキー領域として抽
出した場合にはその効果が半減してしまう。そこで、本
発明では、抽出したキー領域の総数を調べ、所定の条件
を満たす場合にキー領域の削減を図る。この条件として
は、抽出総数が所定のしきい値以上である場合、あるい
は抽出したキー領域の数の、ページ内の全行数に対する
比率が所定のしきい値以上である場合、などがある。こ
れらの条件はＯＲ条件でもＡＮＤ条件としてもよい。

【００２９】キー領域の削減処理（ステップ３０３）は
次のように行う。図４は、ステップ３０３の詳細の処理
フローチャートである。まず、キー領域として判別され
たということは、何らかの表現上の強調処理があること
を示している。つまり、強調系のフォントが使用されて
いる場合であり、あるいはインデントや文字サイズで小
見出しであると判断された場合などである。そこで、ス
テップ３０１の処理において、同一の特徴を持つキー領
域と判断されたものに対して同じラベルを付与してお
く。図５は、ラベリングの様子を示す。そして、このラ
ベル毎にキー領域の数を数える。

【００３０】全体としてキー領域の数が多すぎると判定
された場合に、削減対象を決定する。その決定方法とし
ては、（１）あらかじめ決められた強調特徴の優先順位による（２）同ーラベルで数の多いものから削減していくなどの方法がある。

【００３１】（１）の方法は、図５の例では、タイトル
相当＞小見出し相当＞フォント強調という優先度をあら
かじめ決めておくことにより、まず最も優先度が低いフ
ォント強調のみのキー領域を削減し、それでもまだキー
領域数が多い場合には小見出し相当のキー領域を削減す
るものである。また、複数の強調特徴を持つ場合は（例
えば、小見出し相当かつフォント強調）、優先度の高い
特徴単体と同等またはそれよりも優先度を高くする。

【００３２】（２）の方法は、図５の例では、最も同一
ラベルの多いもの（＝フォント強調）から削減してい
き、キー領域が十分な数になるまでこれを繰り返すもの
である。

【００３３】〈実施例２〉本実施例の構成は図１と同じ
であり、また全体の処理の流れも図２で表されるが、ス
テップ２０５のキー領域判別処理の処理内容が実施例１
と異なる。

【００３４】ステップ２０２において、例えば特開平９
−４４５９４号に記載の技術（文書画像から文字列を含
む、複数の小領域を抽出し、複数の小領域から空白部ま
たは罫線を検出し、検出された空白部または罫線を基
に、１段組、複数段組、自由段組を含む段組種類を判別
する段組種類判別方法）を使用することにより、ページ
全体の段組構成が判別される。ここで、例えば全体が１
段組であると判別された場合を例にして説明する。１段
組みの書類としては通達文などがあり、通達文ではイン
デントが多用される傾向がある。また、特に重要でない
部分に強調系のゴシック系フォントが使用されることが
ある。

【００３５】したがって、１段組であって図６のような
深いインデントがある場合には、ステップ２０５の処理
では、インデント特徴をキー領域判別に使用しない、あ
るいは特徴としての重みを低くし、またはフォント情報
を使用しない、といった処理をする。

【００３６】このように、ページ全体の段組構成によっ
てキー領域判定に使用する特徴の重み付けを変えること
で、より最適なキー領域が抽出される。

【００３７】〈実施例３〉実施例３の構成は図１と同じ
であり、全体の処理の流れも図２で表される。相違点は
ステップ２０５のキー領域判別処理の処理内容にある。

【００３８】図７は、実施例３に係るステップ２０５の
詳細の処理フローチャートである。実施例１と同様に、
一度、キー領域を抽出し（ステップ７０１）、実施例１
と同様に、その数について判定し（ステップ７０２）、
もし削減する必要がある場合（該当する領域が多すぎる
場合）は、一ないし複数の特徴をキー領域抽出に使用せ
ずに、再度、キー領域の抽出処理を行う（ステップ７０
３）。ステップ７０２および７０３は再帰的に行っても
よい。

【００３９】〈実施例４〉本発明は上記した実施例に限
定されず、ソフトウエアによっても実現することができ
る。本発明をソフトウエアによって実現する場合には、
図８に示すように、ＣＰＵ、メモリ、表示装置、ハード
ディスク、キーボード、ＣＤ‐ＲＯＭドライブ、マウス
などからなるコンピュータシステムを用意する。ＣＤ−
ＲＯＭなどのコンピュータ読み取り可能な記録媒体に
は、本発明の文書画像処理機能や処理手順を実現するプ
ログラムなどが記録されている。また、処理対象の文書
画像は例えばハードディスクなどに格納されている。そ
して、ＣＰＵは、記録媒体から上記した処理機能、処理
手順を実現するプログラムを読み出し、ハードディスク
などから読み込まれた文書画像からキー領域を抽出処理
し、キー領域数が過剰である場合にはその数を最適な数
に絞り、その結果をディスプレイなどに色を変えるなど
して出力する。

【００４０】

【発明の効果】以上、説明したように、請求項１、２、
３、８記載の発明によれば、文書画像の内容把握に役立
つ領域が過剰に抽出されたとき、その領域数を削減して
いるので、最適な量だけ得ることができる。

【００４１】請求項４、５記載の発明によれば、削減対
象を考慮しているので、文書画像の内容把握に役立つ領
域を、適当な量だけ得ることができる。

【００４２】請求項６記載の発明によれば、文書画像の
内容把握に役立つ領域を、ページ全体の段組構成に応じ
て適当な量だけ得ることができる。

【００４３】請求項７記載の発明によれば、文書画像の
内容把握に役立つ領域が過剰に抽出されたとき、異なる
特徴を用いて再度、キー領域を判別処理しているので、
内容を端的に表わす領域を最適な量だけ求めることがで
きる。

【図面の簡単な説明】

【図１】本発明の実施例の構成を示す。

【図２】本発明の処理フローチャートを示す。

【図３】キー領域判別処理の詳細な処理フローチャート
である。

【図４】ステップ３０３（キー領域削減処理）の詳細の
処理フローチャートである。

【図５】キー領域に対するラベリングの様子を示す。

【図６】深いインデントの例を示す。

【図７】他の実施例におけるステップ２０５（キー領域
判別処理）の詳細な処理フローチャートである。

【図８】本発明をソフトウェアによって実現する場合の
構成例を示す。

【符号の説明】

１０１画像入力手段１０２領域分割／レイアウト情報抽出手段１０３行抽出手段１０４フォント識別手段１０５キー領域判別手段１０６データ記憶部１０７制御部１０８データ通信路

Claims

【特許請求の範囲】

【請求項１】文書画像を複数の要素に分割し、分割さ
れた各要素のレイアウト表現上の特徴を基に該要素が前
記文書画像の内容を端的に表わす領域（以下、キー領
域）であるか否かを判別する文書画像処理方法であっ
て、前記判別されたキー領域の数を調べ、該キー領域数
を最適な数に削減することを特徴とする文書画像処理方
法。
【請求項２】前記判別されたキー領域の数が所定の閾
値以上であるとき、該キー領域数を削減することを特徴
とする請求項１記載の文書画像処理方法。
【請求項３】前記判別されたキー領域の数を、ページ
内の全行数と比べたときの比率が所定の閾値以上である
とき、該キー領域数を削減することを特徴とする請求項
１記載の文書画像処理方法。
【請求項４】前記レイアウト表現上の特徴に優先順位
を付け、優先度の低い特徴を基に判別されたキ−領域か
ら順に削減することを特徴とする請求項１記載の文書画
像処理方法。
【請求項５】同一の特徴を持つキー領域に同じラベル
を付与し、各ラベル毎のキー領域数を計数し、該ラベル
毎の計数に応じてキー領域を削減することを特徴とする
請求項１記載の文書画像処理方法。
【請求項６】文書画像を複数の要素に分割し、分割さ
れた各要素のレイアウト表現上の特徴を基に該要素が前
記文書画像の内容を端的に表わす領域（以下、キー領
域）であるか否かを判別する文書画像処理方法であっ
て、前記文書画像のページ全体の段組構成を判別し、判
別された段組構成に応じて、前記キー領域の判別に使用
するレイアウト表現上の特徴を選択することを特徴とす
る文書画像処理方法。
【請求項７】文書画像を複数の要素に分割し、分割さ
れた各要素のレイアウト表現上の特徴を基に該要素が前
記文書画像の内容を端的に表わす領域（以下、キー領
域）であるか否かを判別する文書画像処理方法であっ
て、前記判別されたキー領域の数を調べ、該キー領域数
を削減する必要があるとき、前記判別に使用したレイア
ウト表現上の特徴の内、一ないし複数の特徴を除いた特
徴を用いて再度、キー領域を判別することを特徴とする
文書画像処理方法。
【請求項８】文書画像を複数の要素に分割する機能
と、分割された各要素のレイアウト表現上の特徴を基に
該要素が前記文書画像の内容を端的に表わす領域（以
下、キー領域）であるか否かを判別する機能をコンピュ
ータに実現させるためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体であって、前記判別された
キー領域の数を調べる機能と、該キー領域数を最適な数
に削減する機能をコンピュータに実現させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒
体。