JP2008148298A

JP2008148298A - 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体

Info

Publication number: JP2008148298A
Application number: JP2007306941A
Authority: JP
Inventors: Yichuan Tang; タングイチュアン; Hui Zhou; ゾウフイ
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2006-12-12
Filing date: 2007-11-28
Publication date: 2008-06-26
Also published as: US7840071B2; US20080137954A1

Abstract

【課題】画像内で異なった内容の領域を識別する方法および装置を提供する。
【解決手段】画像における異なった内容の領域を識別する方法は画像データを複数のピクセル・ブロックに分割し、ピクセル・ブロックの特徴を抽出し、抽出された特徴に基づきピクセル・ブロックの内容を分類することを有してなる。
【選択図】図３

Description

本発明は一般的に画像処理に関し、具体的には画像内で異なってないようの領域を識別
する方法および装置に関する。

例えば文書をスキャンし対応画像を出力するコピー機、ファクシミリ装置、スキャンお
よびコピー機能を有するオールインワン・プリンタなどの画像スキャン装置は技術的に周
知である。時に画像スキャン装置により生成されるスキャンされた文書の画像が望ましい
質に達しない場合もあり得る。これが起こると、スキャンされた文書を出力する前に、欠
陥を是正し画像の質を向上させ、および／あるいは画像のスキャン・プロセスにおいて導
入されたアーティファクトを補正するために画像を増強することが必要または有益かもし
れない。

例えば、画像の出力前に平滑化フィルタ、鮮鋭化フィルタ、ノイズ除去フィルタ、等々
、を画像に適用することができる。しかしこのような形で画像を増強することは画像が一
貫性のある内容である場合（すなわち１種のデータである場合）にのみ満足できることが
分かっている。残念ながら、多くの画像増強手法は１種の画像内容に適用する場合は有益
であるが別種の画像内容に適用すると有害であるため、テキスト内容と非テキスト内容領
域など異なった内容の領域からなる画像は特に難題を呈する。この結果、望まれる画像増
強を達成するためには画像の異なった内容領域に対し異なった画像増強手法を適用しなけ
ればならないかもしれない。

デジタル画像における異なった領域を識別する手法が検討されている。例えばＫａｒｉ
ｄｉの米国特許第６２８９１２２号明細書は画像におけるテキストおよび非テキスト区域
を検出する方法を開示している。最初に画像に強度深度が低減され、画像はブロックに分
割される。すべてのピクセルにわたる総輝度、最暗および最明ピクセル値、ならびに白お
よび黒ピクセルの数を含み、各ブロックに対しいくつかの統計データが判定される。これ
らの統計データに基づきブロックの「種類」（例えば「非テキスト」、「小テキスト」、
または「白ブロック」）が判定される。次に各ブロックに対しブロックが色ブロックであ
るか中性ブロックであるかと共に、総強度が判定される。移動ウィンドウを用いブロック
の隣接セットが調べられ、どのブロックがテキスト内容を表し、どのブロックが非テキス
ト内容を表すかを判定する。９個の隣接ブロックからなるセットが調べられ、中央ブロッ
クを調節する必要があるか判定される。

Ｚｈｕの米国特許第６１９５４５９号明細書はグレースケール画像のテキストおよび非
テキスト部分を検出する方法を開示している。グレースケール画像は最初に所定サイズの
ブロックに分割される。各ブロックから、好ましくは少なくとも６つのウェーブレット・
ドメイン特徴のセットが抽出され、特徴ベクトルが生成される。各ブロックはその特徴ベ
クトルとともにメンバ関数および所定のファジールールに基づきテキストまたは画像内容
を表すと分類される。

ＤｉＦｅｄｅｒｉｃｏの米国特許出願公開第２００５／０００２５６６号明細書は画
像におけるテキストと非テキスト領域を区別する方法を開示している。画像におけるピク
セルの輝度値マトリクスが生成され、マトリクスはブロックに分割される。ブロックの輝
度値の輝度勾配が判定され、勾配マトリクスが形成される。勾配マトリクスを分析して同
種の内容のブロックを検出する。次に同種の内容のブロックは各々画像の自然および合成
領域にクラスタされる。

Ｗａｎｇ他の米国特許第５３７９１３０号明細書はテキスト／画像分離方法を開示して
おり、３×３のピクセル・カーネルを用いて恐らく画像内容ではなくテキストの画像にお
けるピクセルを区別する。ある特定ピクセルがエッジを表す場合、エッジ鮮鋭化手順を実
施してエッジを区別する。その特定ピクセルがエッジを表さない場合、値は調節されない
。

Ｗｉｌｌｉｓ他の米国特許第５５６８５７１号明細書はグレースケール画像を処理する
方法およびシステムを開示している。画像に対するグレースケール・ヒストグラムが最初
に生成される。ノイズを除去するために輝度値がグレースケール・ヒストグラムの上位５
％と下位５％に入るピクセルを切り捨てる。残りのピクセルは３０のサブグループに分割
される。各サブグループに対しグレースケール平均が計算される。各ピクセルは各々が属
するサブグループのグレースケール平均を再度割り当てられる。テキスト・コンポーネン
トは３×３カーネルを用いてテキストを表すとみなされるエッジを識別し、非テキスト・
コンポーネントから分離される。

Ｔａｋｅｎｏｕｃｈｉ他の米国特許第６１７８０１０号明細書は画像を増強する方法を
開示しており、周知の方法を用いてテキストおよび画像区域が最初に特定される。次にテ
キストおよび画像区域はそれらの区域に適した方法を用いて増強される。

Ｃａｌｄａｔｏ他の米国特許第６７４４９１８号明細書はソース画像を増強する方法を
開示しており、画像を分析して色および中性区域、すなわち画像内容およびテキストまた
は図形内容、に区別する。方法の際、ソース画像の色部分から第１画像が生成される。ソ
ース画像の中性部分から第２画像が生成される。第１画像は第２画像に比べより圧縮され
ている。

Ｋａｒｉｄｉ他の米国特許第６７７８７００号明細書は文書画像をテキストおよび非テ
キスト部分に分割する方法を開示している。３×３のピクセル・カーネルを用いて輝度の
急勾配の変化（すなわちエッジまたは傾斜）を検出する。反対方向の２つの傾斜を境界と
する領域（すなわち溝）が特定される。溝は文字のストロークを表すとみなされる。各ス
トロークに対し幅と骨格が判定される。次に各ピクセル周囲の９×９のピクセル領域のコ
ントラストを隣接ストロークの幅とともに調べ、ピクセルが文字の一部をなすか判定する
。別のシステムで実施されたテキスト識別を向上させるために検出されたストロークの周
囲に細く黒い輪郭線が描かれる。

Ｇｕｏ他の米国特許出願公開第２００４／００４２６５９号明細書は文書画像をテキス
トおよびハーフトーンの領域に分割する方法を開示している。色空間変換が文書画像に適
用される。具体的に、文書画像はＲＧＢ色空間からＨＳＶ色空間に変換される。各色チャ
ンネルのテクスチャ特徴を調べることにより文書画像のテクスチャが特定され、次にノイ
ズ低減が適用される。文書画像内のバウンディング・ボックスはテキストまたはハーフト
ーンいずれかのピクセル連を調べることにより識別される。

Ｌｉの米国特許出願公開第２００４／００７６３２８号明細書は文書画像のデータを増
強する方法を開示しており、文脈情報を用いてピクセルを文字または図面の一部かに分類
する。文書画像はスキャンされ、背景と前景を示す山と谷の規則的にかつ繰り返し発生す
るパターンが検出される。局部的極大値または極小値と特定されたピクセル周囲の３×３
のピクセル領域が調べられる。ピクセル領域の一辺に沿った３つのピクセルが一方向に増
加するグレースケール・レベルを有し、ピクセル領域の対向辺に沿った３つのピクセルが
反対方向に増加するグレースケール・レベルを有している場合、中央ピクセルは２つの辺
にまたがるパターンの一部をなすとみなされる。

Ｇｕｌｅｒｙｕｚの米国特許出願公開第２００４／０１７５０３７号明細書は文書画像
を分割する方法を開示している。文書画像は第１フィルタでぼかされ第１ぼやけ画像を生
成し、また別途第２フィルタでぼかされ第２ぼやけ画像を生成する。第１および第２ぼや
け画像双方においてエッジが検出される。両ぼやけ画像から検出されたエッジが組み合わ
され、検出されたエッジに沿ったピクセルがハーフトーン領域を表すか判定される。

Ｉｒｗｉｎの米国特許出願公開第２００４／０２２３６４３号明細書は画像においてテ
キスト領域を非テキスト領域と区別する方法を開示している。テキスト領域に隣接する非
テキスト領域からのピクセルを含むエッジ・グループが特定される。エッジ・グループに
沿ったテキスト・ピクセルが保存される。画像におけるテキストおよび非テキスト双方の
領域が平滑化される。

Ｌｉｍ他の米国特許出願公開第２００４／０２４０７３７号明細書は文書画像を増強す
る方法を開示しており、文書画像における文字ブロックおよび背景ブロックが特定される
。文字ブロックの平均エネルギー率が計算され、閾値と比較されて文書画像がぼやけてい
るか判定される。文書画像がぼやけていない場合、文書画像はテキストおよび背景部分に
分類される。文書画像のテキスト部分におけるピクセルのグレースケール値を閾値と比較
する。閾値未満のグレースケール値を有するピクセルは文字に結び付いた輝度値に設定さ
れ、閾値を超えたグレースケール値を有するピクセルは背景に結び付いた輝度値に設定さ
れる。次に文書画像の閾値テキスト部分に対し文字認識が行われる。

米国特許第６２８９１２２号明細書

上記引例は画像における異なった内容領域を識別する手法を開示しているが、改良が望
まれる。ほとんどの環境において、高速画像処理が必要であることは理解されよう。従っ
て文書を再度スキャンすることを避けるためにスキャン文書の画像は進行中に処理されな
ければならない。しかし進行中に画像データを処理することは問題を呈する。スキャン中
のある時点で帯状のわずかな画像データしか処理に利用できないかもしれず、結果として
文脈的画像情報が欠如する。この画像データと文脈情報双方の欠如が高速画像処理の必要
と組み合わさると、画像における異なった内容領域を識別する通常の手法は充分でなくな
る。

従って本発明の一目的は画像における異なった内容の領域を識別する新規方法および装
置を提供することにある。

従って、一態様で画像における異なった内容の領域を識別する方法で、画像データを複
数のピクセル・ブロックに分割するステップと、前記ピクセル・ブロックの特徴を抽出す
るステップと、抽出された特徴に基づいて前記ピクセル・ブロックの内容を分類するステ
ップと、を含む方法が提供される。

一実施形態で、抽出された特徴はピクセル・ブロックの統計情報に基づく。抽出は各ブ
ロックに対し、ピクセル・ブロックのピクセルをくりこんで魔方陣をなし、結果を合計し
た上でピクセル・ブロックにおける背景ピクセルの割合を計算することを含む。抽出はさ
らに各ピクセル・ブロックに対し、ピクセル・ブロックのエッジ密度を計算すること、ピ
クセル・ブロックにおける均一長方形の数を計算すること、およびピクセル・ブロックの
平均飽和度を計算することを含むことができる。

分類は一連のカスケード型段階で実施され、後期段階は初期段階でピクセル・ブロック
が分類できない場合にのみ用いられる。分類の際、ピクセル・ブロックはテキスト内容ま
たは非テキスト内容を含むかで識別される。分類は最初に魔方陣フィルタのくりこみと合
計の結果および背景ピクセルの割合に基づいて各ピクセル・ブロックの内容を分類するこ
とからなる。あるピクセル・ブロックの内容が望ましい信頼度のレベルで分類できない場
合、そのピクセル・ブロックの内容はその後計算されたエッジ密度および平均飽和度の少
なくとも１つに基づき分類される。その後の分類でもピクセル・ブロックの内容が望まし
い信頼度のレベルで分類できない場合、ピクセル・ブロックの内容はその後計算されたエ
ッジ密度および均一長方形の数に基づき分類される。

望まれる場合は、ピクセル・ブロックの内容分類後、同種の内容を含むと特定された連
結ピクセル・ブロックが集合されテキスト内容を含むと特定されたピクセル・ブロックの
境界はテキストが切り取られるのを防ぐために調節される。

別の態様で、画像における異なった内容の領域を識別する装置で、画像データを複数の
ピクセル・ブロックに分割し、前記ピクセル・ブロックの特徴を抽出する特徴抽出器と、
抽出された特徴に基づき前記ピクセル・ブロックの内容を分類する分類器と、を含む装置
が提供される。

さらに別の態様で、画像における異なった内容の領域を識別するコンピュータ・プログ
ラムを具現するコンピュータ読み取り可能な媒体で、前記コンピュータ・プログラムは、
画像データを複数のピクセル・ブロックに分割するコンピュータ・プログラム・コードと
、前記ピクセル・ブロックの特徴を抽出するコンピュータ・プログラム・コードと、抽出
された特徴に基づき前記ピクセル・ブロックの内容を分類するコンピュータ・プログラム
・コードと、を含むコンピュータ読み取り可能な媒体が提供される。

［適用例１］かかる目的を達成するため、画像における異なった内容の領域を識別する
方法は、画像データを複数のピクセル・ブロックに分割するステップと、前記ピクセル・
ブロックの特徴を抽出するステップと、抽出された特徴に基づいて前記ピクセル・ブロッ
クの内容を分類するステップと、を含むことを要旨とする。

［適用例２］また、画像における異なった内容の領域を識別する方法は、前記抽出され
た特徴はピクセル・ブロックの統計情報に基づくことをその要旨とする。

［適用例３］また、画像における異なった内容の領域を識別する方法は、前記抽出ステ
ップは各ピクセル・ブロックに対し、前記ピクセル・ブロックのピクセルで魔方陣フィル
タを畳み込み、結果を合計するステップと、前記ピクセル・ブロック内の背景ピクセルの
割合を計算するステップと、を含むことをその要旨とする。

［適用例４］また、画像における異なった内容の領域を識別する方法は、前記抽出ステ
ップはさらに各ピクセル・ブロックに対し、前記ピクセル・ブロックのエッジ密度を計算
するステップと、ピクセル・ブロックの平均飽和度を計算するステップと、を含むことを
その要旨とする。

［適用例５］また、画像における異なった内容の領域を識別する方法は、前記抽出ステ
ップはさらに各ピクセル・ブロックに対し、前記ピクセル・ブロック内の均一長方形の数
を計算するステップを含むことをその要旨とする。

［適用例６］また、画像における異なった内容の領域を識別する方法は、前記分類ステ
ップは、最初に前記魔方陣フィルタのくりこみと合計結果、および背景ピクセルの割合に
基づき各ピクセル・ブロックの内容を分類するステップと、ピクセル・ブロックの前記内
容が望ましい信頼性のレベルで分類できない場合は続いて計算されたエッジ密度および平
均飽和度の少なくとも１つに基づき前記ピクセル・ブロックの前記内容を分類するステッ
プと、を含むことをその要旨とする。

［適用例７］また、画像における異なった内容の領域を識別する方法は、続く分類の際
、前記ピクセル・ブロックが分類できない場合、前記分類ステップはさらに続いて計算さ
れた前記エッジ密度および前記均一長方形の数に基づき前記ピクセル・ブロックの前記内
容を分類するステップを含むことをその要旨とする。

［適用例８］また、画像における異なった内容の領域を識別する方法は、前記平均飽和
度、前記エッジ密度、および前記均一長方形の数は前記ピクセル・ブロックのその後の分
類が必要である場合にのみ計算されることをその要旨とする。

［適用例９］また、画像における異なった内容の領域を識別する方法は、前記分類ステ
ップの際、ピクセル・ブロックはテキスト内容または非テキスト内容を含むものとして識
別されることをその要旨とする。

［適用例１０］また、画像における異なった内容の領域を識別する方法は、前記平均飽
和度および前記エッジ密度は前記ピクセル・ブロックのその後の分類が必要である場合に
のみ計算されることをその要旨とする。

［適用例１１］また、画像における異なった内容の領域を識別する方法は、前記魔方陣
フィルタは数学的に一貫していることをその要旨とする。

［適用例１２］また、画像における異なった内容の領域を識別する方法は、前記魔方陣
フィルタはゼロに等しい総合計、ならびに合計がゼロとなる水平な行、垂直な列、および
斜線を有することをその要旨とする。

［適用例１３］また、画像における異なった内容の領域を識別する方法は、前記分類ス
テップはカスケード型段階で実施され、後期段階は初期段階で前記ピクセル・ブロックを
分類できない場合にのみ用いられることをその要旨とする。

［適用例１４］また、画像における異なった内容の領域を識別する方法は、前記分類ス
テップの際、ピクセル・ブロックはテキスト内容または非テキスト内容を含むものとして
識別されることをその要旨とする。

［適用例１５］また、画像における異なった内容の領域を識別する方法は、さらに、同
じ内容種を含むものとして識別された連続ピクセル・ブロックを集合するステップを含む
ことをその要旨とする。

［適用例１６］また、画像における異なった内容の領域を識別する方法は、さらに、テ
キストが切り取られるのを抑えるためにテキスト内容を含むものとして識別されたピクセ
ル・ブロックの境界を調節するステップを含むことをその要旨とする。

［適用例１７］また、画像における異なった内容の領域を識別する方法は、前記画像デ
ータは帯状で処理されることをその要旨とする。

［適用例１８］また、画像における異なった内容の領域を識別する方法は、さらに画像
スキャン装置からストリームとして前記帯状の画像データを受けるステップを含むことを
その要旨とする。

［適用例１９］また、画像における異なった内容の領域を識別する方法は、前記分類ス
テップはピクセル・ブロックをテキスト内容または非テキスト内容を含むものとして分類
することをその要旨とする。

［適用例２０］また、画像における異なった内容の領域を識別する装置は、画像データ
を複数のピクセル・ブロックに分割し、前記ピクセル・ブロックの特徴を抽出する特徴抽
出器と、抽出された特徴に基づき前記ピクセル・ブロックの内容を分類する分類器と、を
含むことをその要旨とする。

［適用例２１］また、画像における異なった内容の領域を識別する装置は、前記分類器
は複数の分類器段階を含むことをその要旨とする。

［適用例２２］また、画像における異なった内容の領域を識別する装置は、前記分類器
はピクセル・ブロックをテキスト内容または非テキスト内容を含むものとしてピクセル・
ブロックを分類することをその要旨とする。

［適用例２３］また、画像における異なった内容の領域を識別する装置は、前記特徴抽
出器は各ピクセル・ブロックをくりこんだ魔方陣フィルタの結果、ならびに背景ピクセル
の割合、エッジ密度、均一長方形の数、および平均飽和度の少なくとも１つを判定し、そ
れにより前記特徴を抽出することをその要旨とする。

［適用例２４］また、画像における異なった内容の領域を識別する装置は、コピー機、
ファクシミリ装置、およびオールインワン・プリンタのグループから選択されることをそ
の要旨とする。

［適用例２５］また、画像における異なった内容の領域を識別するコンピュータ・プロ
グラムを具現するコンピュータ読み取り可能な媒体は、前記コンピュータ・プログラムが
、画像データを複数のピクセル・ブロックに分割するコンピュータ・プログラム・コード
と、前記ピクセル・ブロックの特徴を抽出するコンピュータ・プログラム・コードと、抽
出された特徴に基づき前記ピクセル・ブロックの内容を分類するコンピュータ・プログラ
ム・コードと、を含むことをその要旨とする。

次に添付図面を参照して実施形態をさらに詳しく説明する。ここで図１は、コピー機、
ファクシミリ装置、スキャンおよびコピー機能等々を有するオールインワン・プリンタな
どの画像スキャン装置４０を示す。見られるように、画像スキャン装置４０は処理装置４
４、ランダムアクセス・メモリ（以降、ＲＡＭという）４８、非揮発性メモリ５２、通信
インタフェイス５６、スキャン機構６０、入力インタフェイス６４、およびディスプレイ
６８を有してなり、すべてがローカル・バス７２上で通信している。入力インタフェイス
６４はユーザがディスプレイ６８上に提示されるオプションまたは画像とやりとりし、画
像スキャン装置４０の操作を制御するためのユーザ入力を可能にする。画像スキャン装置
４０が通常の方法で動作するように処理装置４４が実行するソフトウェアに加え、非揮発
性メモリ５２はさらに内容種識別アプリケーションおよび画像増強アプリケーションを格
納する。本実施形態における内容種識別アプリケーションは文書画像のテキストおよび非
テキスト領域を識別する。画像増強アプリケーションは識別されたテキストおよび非テキ
スト領域を増強し文書画像の質を高める。

内容種識別アプリケーションは図２に示すようなハイブリッド分類器８０を用い、文書
画像から抽出された特徴を調べて文書画像のテキストおよび非テキスト領域を識別する。
本実施形態で、ハイブリッド分類器８０が内容の種類を識別するために用いる６つの特徴
は魔方陣フィルタの結果、背景ピクセルの割合、均一長方形の数、エッジ密度、および平
均飽和度または彩度を有してなる。エッジ密度、背景ピクセルの割合、平均飽和度および
均一長方形の特徴は魔方陣フィルタで簡単に識別できない内容の識別能力故魔方陣フィル
タを補足する。

図２に見られるように、ハイブリッド分類器８０は複数のカスケード型の分類器段階と
しての第１分類器段階８２Ａ、第２分類器段階８２Ｂ、および第３分類器段階８２Ｃを有
してなる。第１分類器段階８２Ａは魔方陣フィルタの結果および背景ピクセルを受信する
１つの分類器８６を有してなる。分類器８６はさらに学習した二次元の３０×３０フルジ
ョイント確率分布表８８とも通信する。第２分類器段階８２Ｂは分類器８６が望ましい信
頼度のレベルで内容の種類を分類できない場合、非テキスト分類器９０を有してなる。非
テキスト分類器９０は分類器８６の出力と併せて平均飽和度、エッジ密度、および均一長
方形の数を受信する。第３分類器段階８２Ｃは４つの線形判別関数９２，９４，９６，９
８および閾値論理１００を有してなる。

文書画像のテキストおよび非テキスト領域を識別するために最初に第１分類器段階８２
Ａが用いられる。第１分類器段階８２Ａが文書画像のテキストおよび非テキスト領域を望
ましい信頼度のレベルで分類できる場合、第２分類器段階８２Ｂおよび第３分類器段階８
２Ｃは使用されない。第１分類器段階８２Ａが文書画像の領域を望ましい信頼度のレベル
で分類できない場合、第２分類器段階８２Ｂが用いられる。第２分類器段階８２Ｂが第１
分類器段階８２Ａで分類できなかったすべての領域を望ましい信頼度のレベルで分類でき
る場合、第３分類器段階８２Ｃは使用されない。第２分類器段階８２Ｂがこれらの領域す
べてを望ましい信頼度のレベルで分類できない場合、第３分類器段階８２Ｃが用いられる
。文書画像から抽出され分類器段階としての第１分類器段階８２Ａ、第２分類器段階８２
Ｂ、および第３分類器段階８２Ｃで使用される特徴は、分類器段階が用いられる際にのみ
抽出される。これは言うまでもなく文書画像における異なった内容の領域を迅速かつ効率
的に識別することを可能にする。

次に図３を参考に、文書画像における異なった内容の領域を識別することに関連して画
像スキャン装置４０の働きを説明する。この説明の目的において、内容種識別アプリケー
ションはＲＡＭ４８にロードされ、処理装置４４により実行されると仮定される。ある文
書がスキャン機構６０によりスキャンされる際、スキャン機構６０により帯状の画像デー
タを生成し、処理装置４４に搬送される。本実施形態で、各帯状の画像データは２４行の
ピクセルを有してなる。各帯状の画像データを処理装置４４が受信すると、内容種識別ア
プリケーションは最初に帯状の画像データを前処理し、必要であれば画像データの解像度
を低減し（ステップＳ１０８）、次に帯状の画像データを２４×２４のピクセル・ブロッ
クに分割する（ステップＳ１１０）。各ピクセル・ブロックは次に特徴の抽出を受け（ス
テップＳ１１２）、ハイブリッド分類器８０を用いてピクセル・ブロックにおける内容の
種類が識別される（ステップＳ１１４）。次に内容種識別の結果が後処理され（ステップ
Ｓ１１６）内容種識別プロセスが完了する。

ステップＳ１１２において各ピクセル・ブロックに対し、ハイブリッド分類器８０がそ
の中のテキストと非テキスト領域を識別するために最初は第１分類器段階８２Ａのみを用
いるので、最初は第１分類器段階８２Ａによって使用される特徴、すなわち魔方陣フィル
タの結果および背景ピクセルの割合のみが抽出される。魔方陣フィルタの結果を生成する
ために、図４に示す形の魔方陣フィルタがピクセル・ブロックに適用される。

見られるように、魔方陣フィルタは文書に基づく各種フォント、サイズ、およびスタイ
ルのテキストの統計的外観および幾何学的位置合わせに対し特定の選択制を有する３×３
のカーネルである。魔方陣の総合計は、魔方陣の行、列、および斜線の合計とともに、ゼ
ロである。特徴の抽出の際、ピクセル・ブロックにおける各ピクセルは魔方陣とくりこま
れ、結果の絶対値が判定される。ピクセル・ブロックのすべてのピクセルに対する結果が
次に合計され記録される。魔方陣は数学的に一貫しているので、強度が均一であり（すな
わち均質性を示し）、水平または垂直バーを含み、または３ピクセルを越える辺を有する
ピクセル・ブロックは低いくりこみ合計をもたらす。逆に、高度なテクスチャ・パターン
または小から中サイズのテキストの不連続パターンを有するピクセル・ブロックは高いく
りこみ合計をもたらす。

ピクセル・ブロックの背景ピクセルの割合を判定する際に実施されるステップが図５に
示される。最初にピクセル・ブロック内の各ピクセルの強度を調べ、ピクセルを１２８個
のビンの１つに割り当てることによりピクセル・ブロックのピクセル強度ヒストグラムが
生成される（ステップＳ１５０）。各ピクセルは０から２５６の強度値を有するので、強
度ヒストグラムの各ビンは２つの強度レベルのピクセルを蓄積する。一旦、生成されると
、ピクセル強度ヒストグラムを調べて総数が最も高いビンが識別される（ステップＳ１５
２）。最高のビンの値および最高のビンの左右にあるビンの値が次に加算され、結果の合
計はノイズ除去の目的から３で割られる（ステップＳ１５４）。次にこの結果をピクセル
・ブロック内の総ピクセル数で割り、背景ピクセルの割合が得られる（ステップＳ１５６
）。高い比率は均一な背景を有するピクセル・ブロックに対応し、低い比率はピクセル・
ブロックに背景が存在しないことに対応する。

ピクセル・ブロックに対し魔方陣フィルタの結果および背景ピクセルの割合が生成され
た後、魔方陣フィルタの結果および背景ピクセルの割合は第１分類器段階８２Ａの分類器
８６に適用される。分類器は続いて魔方陣フィルタの結果および背景ピクセルの割合を用
い、確率分布表８８からピクセル・ブロックにおけるテキスト内容の非テキスト内容に対
する確率的な比率を選択し抽出する。図６は典型的な確率分布表を示す。確率分布表８８
の列は０％から２９％の範囲で可能な背景ピクセルの割合を表す。確率分布表８８の行は
可能な魔方陣フィルタの結果を１３３．３で割ったものを表す。確率分布表８８にある値
は特定の背景ピクセルの割合および魔方陣フィルタの結果を有するピクセル・ブロックが
テキストまたは非テキスト内容を含む可能性を表す。確率分布表で１００の値は確実にテ
キスト内容を表すピクセル・ブロックを意味し、ゼロ（０）の値は確実に非テキスト内容
を表すピクセル・ブロックを意味する。確率分布表８８にある値は訓練段階の際、入力さ
れた魔方陣フィルタおよび背景ピクセルの割合の値に基づき一組の訓練画像を処理するこ
とにより学習される。

確率分布表８８から抽出された確率的比率は次にテキスト／非テキスト内容の閾値レベ
ルと比較される。抽出された確率的比率が閾値レベルの１つを満足し、そのピクセル・ブ
ロックが望ましい信頼性のレベルでテキスト内容または非テキスト内容を含むとして分類
できることが示されると、第１分類器段階８２Ａはそれに従いピクセル・ブロックを分類
する。本実施形態で、抽出された確率的比率が９０を超える場合テキストを表すとみなさ
れ、抽出された確率的比率が１０未満である場合非テキストを表すとみなされる。

抽出された確率的比率がいずれのテキスト／非テキスト内容の閾値レベルも満足せず、
分類器８６が充分な精度でピクセル・ブロックを分類できないことが示されると、ハイブ
リッド分類器８０は第２分類器段階８２Ｂを用い、第２分類器段階８２Ｂおよび第３分類
器段階８２Ｃで使用される追加特徴、すなわち平均飽和度、エッジ密度、および均一長方
形の数がピクセル・ブロックから抽出される。

平均飽和度の判定の際、ピクセル・ブロック内の各ピクセルの飽和度は次の方程式（１
）に従い計算される。

ここで、ｒ、ｇ、およびｂは各々ピクセル・ブロック内のピクセルの赤、緑、および青
の値である。

ピクセルに対し計算された飽和度は次に合計され、合計の平均値が判定され平均飽和度
が得られる。高い平均飽和度値は色彩豊かなピクセル・ブロックの可能性を示し、低い平
均飽和度値は主に黒、灰色、または白のピクセルからなるピクセル・ブロックを示す。

エッジ密度の判定の際、ピクセル・ブロックのエッジがまずソーベルエッジ検出器を用
いて判定される。次に判定されたエッジを閾値と比較する。閾値レベルより低いすべての
エッジはノイズとみなされ無視される。次に残りのエッジに沿ったピクセル数が合計され
、合計はピクセル・ブロックの総ピクセル数で割られエッジ密度値が得られる。高いエッ
ジ密度値はテキスト内容または高度のテクスチャの非テキスト・パターンを有するピクセ
ル・ブロックに対応し、低いエッジ密度値は非テキスト内容を有するピクセル・ブロック
に対応する。

ピクセル・ブロック内の均一長方形の数の判定の際、２×１２のピクセル・ウィンドウ
がピクセル・ブロックの左上の角に置かれる（図７のステップＳ２００参照）。次にウィ
ンドウ内のピクセルの平均輝度値が計算される（ステップＳ２０２）。ウィンドウ内の各
ピクセルの輝度値を平均輝度値と比較し、差異が計算される（ステップＳ２０４）。計算
された差異が次に合計され（ステップＳ２０６）、合計を閾値レベルと比較する（ステッ
プＳ２０８）。合計が閾値レベルより低い場合、均一長方形の存在を示すカウントが増分
され（ステップＳ２１０）、次にウィンドウがピクセル・ブロック全体にわたりパンされ
たか確認して判定する（ステップＳ２１２）。ステップＳ２０８で、合計が閾値レベルよ
り大きい場合、プロセスは直接ステップＳ２１２に進む。ステップＳ２１２でウィンドウ
がピクセル・ブロック全体にわたりパンされていない場合、ウィンドウを移動させ（ステ
ップＳ２１４）、方法はステップＳ２０２に戻り、ピクセル・ブロックにおける次の２×
１２のピクセル・サブブロックが上述の形で処理される。この手順はウィンドウがピクセ
ル・ブロック全体にわたりパンされ、中の２×１２ピクセル・サブブロックがすべて処理
されるまで続けられる。

平均飽和度、エッジ密度、および均一長方形の数の結果が生成された後、平均飽和度、
エッジ密度、および均一長方形の数の結果は非テキスト分類器９０に適用される。非テキ
スト分類器９０はさらに分類器８６による抽出された確率的比率の出力も受信する。この
場合、第１分類器段階８２Ａはピクセル・ブロックをテキストまたは非テキスト内容を表
すとして分類できないため、非テキスト分類器９０が受信する抽出された確率的比率は１
０から９０の範囲にある。非テキスト分類器９０は続いて平均飽和度の結果が６５を越え
るか、またはエッジ密度が０．０８未満であるか確認して判定する。これらのいずれかの
条件が真の場合、第２分類器段階８２Ｂはピクセル・ブロックが非テキスト内容を含むと
して分類する。

第２分類器段階８２Ｂがピクセル・ブロックは非テキスト内容を含むものとして分類で
きない場合、第３分類器段階８２Ｃが用いられる。第３分類器段階８２Ｃが用いられると
、非テキスト分類器９０に伝えられた抽出された確率的比率が７５を超えるか２５未満で
あるか確認して判定する。抽出された確率的比率が７５を超える場合、線形判別関数９２
が用いられる。本実施形態で、線形判別関数９２は次の方程式（２）が真で、ピクセル・
ブロックがテキスト内容を含むことを示すか判定する。

線形判別関数９２が方程式（２）を真とした場合、第３分類器段階８２Ｃはピクセル・
ブロックがテキスト内容を含むものとして分類する。

抽出された確率的比率が２５未満の場合、線形判別関数９４が用いられ、次の方程式（
３）が真で、ピクセル・ブロックが非テキスト内容を含むことを示すか判定する。

線形判別関数９４が方程式（３）を真とした場合、第３分類器段階８２Ｃはピクセル・
ブロックが非テキスト内容を含むものとして分類する。

線形判別関数９２が方程式（２）を真としない場合、または線形判別関数９４が方程式
（３）を真としない場合、または抽出された確率的比率が２５から７５の範囲にある場合
、線形判別関数９６が用いられる。本実施形態で、線形判別関数９６は次の方程式（４）
が真で、ピクセル・ブロックが非テキスト内容を含むことを示すか判定する。

線形判別関数９６が方程式（４）を真とする場合、第３分類器段階８２Ｃはピクセル・
ブロックが非テキスト内容を含むものとして分類する。

線形判別関数９６が方程式（４）は真でないとした場合、線形判別関数９８が用いられ
る。本実施形態で、線形判別関数９８は次の方程式（５）が真で、ピクセル・ブロックが
テキスト内容を含むことを示すか判定する。

線形判別関数９８が方程式（５）を真とする場合、第３分類器段階８２Ｃはピクセル・
ブロックがテキスト内容を含むものとして分類する。

線形判別関数９８が方程式（５）を真としない場合、閾値論理１００は平均飽和度結果
が２８未満でエッジ密度結果が０．３を超えるか確認して判定する。これらの条件双方が
満足されると、第３分類器段階８２Ｃはピクセル・ブロックがテキスト内容を含むものと
して分類する。そうでない場合ピクセル・ブロックは分類されず、１から９の範囲のテキ
スト／非テキスト信頼性値が出力される。

一旦、すべてのピクセル・ブロックが分類され、または分類不可能とみなされると、ピ
クセル・ブロックはステップＳ１１６で後処理される。後処理の際、８つの近隣ピクセル
・ブロックで囲まれる各ピクセル・ブロックが識別される。このようなピクセル・ブロッ
ク各々に対し、周囲の８つのピクセル・ブロックが調べられ、８つの異なった分類のピク
セル・ブロックで囲まれたピクセル・ブロックが各々識別される。識別されたピクセル・
ブロックの分類がある場合、その分類は８つの近隣ピクセル・ブロックの分類と合致する
ように切り替えられる。

さらに後処理の際、テキスト内容が不適切な形で切り取られることを避けるために、テ
キスト内容を含むと分類されたピクセル・ブロックと非テキスト内容を含むと分類された
ピクセル・ブロックとの間の境界が調節される。境界調節の際、非テキスト内容を含むピ
クセル・ブロックに隣接するテキスト内容を含むピクセル・ブロックが識別される。テキ
スト内容および非テキスト内容のピクセル・ブロック間の境界に隣接するテキスト風の特
徴が次に識別される。このようなテキスト風の特徴を識別するために、境界に隣接するテ
キスト内容のピクセル・ブロックの３列にある各ピクセルで魔方陣フィルタがくりこまれ
る。結果の絶対値が次に合計される。合計が閾値レベルを超える場合、デキスト内容のピ
クセル・ブロックの境界はピクセル・ブロックを拡大する方向に移動される。このプロセ
スは再帰的であり得、境界は一方向に繰り返し移動され得る。

ピクセル・ブロックの境界が調節されると、同じ内容種のすべての連結ピクセル・ブロ
ックを集合することにより文書画像におけるテキスト内容および非テキスト内容領域が識
別される。この時点で文書画像におけるテキスト内容と非テキスト内容領域が識別される
際、識別された内容種に最も適した画像増強手法を各種領域に適用することができる。

次に図８および図９を参照すると、画像と併せて画像を処理してその中のテキスト内容
および非テキスト内容領域を識別した結果の分類結果が示される。テキスト内容のピクセ
ル・ブロックは「＊」の記号で識別される。未分類のピクセル・ブロックは数字で識別さ
れる。各数字は関連ピクセル・ブロックがテキスト内容のピクセル・ブロックであると推
定される信頼性のレベルを特定する。信頼性レベルは１から９の範囲にある。テキスト内
容のピクセル・ブロックのいくつかは後処理の際に境界が調節された結果ずれていること
が理解されよう。

ハイブリッド分類器８０が充分に訓練されると、ほとんどのピクセル・ブロックは６つ
の特徴のサブセットのみを使用して望まれる信頼性のレベルでテキストまたは非テキスト
内容を有するものと正確に分類できることが見出されている。以下の表１は抽出された特
徴の異なった対を用いて一組の画像サンプルを処理する際、ハイブリッド分類器８０によ
り識別されたテキストおよび非テキスト内容の領域が識別された率を示す。

表から見られるように、魔方陣フィルタの結果と背景ピクセルの割合は８７．８％の率
で、９０％の信頼性レベルを以ってピクセル・ブロックがテキスト内容または非テキスト
内容を含むものとして分類できた。この結果から、これらの特徴は第１分類器段階８２Ａ
に含むことに最も適している。この対に対する偽陰性および偽陽性率はテキストについて
０．４８％で非テキストについて０．４７％であった。テキストまたは図形画像は通常孤
立して存在しないことが理解されよう。

進行中の内容種検出は画像の適当な領域に対し画像増強を可能にして達成されることが
理解されよう。これはグローバルな統計的特徴を考慮に入れる全体文書画像分析と対照的
である。画像を小さなピクセル・ブロックに分割し、ピクセル・ブロックから抽出された
統計的情報を用いることにより、内容種を識別できる具体性があり、かつ望ましい簡易性
の制限を満足できる一般性を有する画像の特徴を用いることができる。高速かつ正確に計
算し易い特徴を用いることにより特徴に基づく分類が達成できる。さらに、必要に応じて
追加特徴が抽出され分析されるカスケード型プロセスを用いるハイブリッド分類器の使用
により精度を犠牲にせず高速分類が確保される。

望まれる場合はピクセル・ブロックを分類するためにピクセル・ブロックから追加特徴
を抽出し分析することができる。例えば、ピクセル・ブロックにおけるエッジの規模を抽
出して実行の複雑さおよび時間を代償にさらに精度を向上させることができる。各ピクセ
ル・ブロックに対するエッジ規模の判定の際、エッジ密度の計算において判定された閾値
レベルを超えたエッジが合計され、合計をピクセル・ブロック内のエッジ・ピクセルの総
数で割る。合計エッジ規模が閾値未満の場合、エッジ規模はゼロに設定される。この特徴
はピクセル・ブロックにおけるエッジの強さに対応する。テキスト内容は高いエッジ規模
を有しがちで、写真は低いエッジ規模を有しがちである。

文書画像においてテキストおよび非テキスト領域が識別されたが、当業者であれば適当
な抽出された画像特徴の選択により異なった内容種の領域を識別することができることを
理解しよう。

上述の例において、具体的な線形判別関数、閾値レベル、および確率分布表が説明され
図示される。当業者であれば、具体的な線形判別関数、閾値レベル、および確率分布表の
値は画像スキャン装置が用いられる特定の環境および達成が望まれる精度に適合するため
に変化し得ることを理解しよう。

内容種識別アプリケーションはルーチン、プログラム、オブジェクト・コンポーネント
、データ構造等々を含むプログラム・モジュールを有してなることができ、コンピュータ
読み取り可能な媒体に格納されるコンピュータ読み取り可能なプログラム・コードとして
具現されることができる。コンピュータ読み取り可能な媒体は後にコンピュータ・システ
ムで読み取ることができるデータを格納できる任意のデータ記憶装置である。コンピュー
タ読み取り可能な媒体の例は例えば読み取り専用メモリ、フラッシュ・メモリ、ランダム
アクセス・メモリ、ハードディスク・ドライブ、磁気テープ、ＣＤ−ＲＯＭおよび他の光
データ記憶装置を含む。コンピュータ読み取り可能なプログラム・コードはさらにコンピ
ュータ読み取り可能なプログラム・コードが分散した形で格納される実行されるよう連結
コンピュータ・システムを含みネットワーク上で分散されることができる。

実施形態が説明されたが、当業者であれば添付の特許請求の範囲で定義される精神およ
び範囲を逸脱することなく変形および修正が可能であることを理解しよう。

画像スキャン装置の図式的な描写。ハイブリッド分類器の図式的な描写。図１の画像スキャン装置が用いる、画像における異なった内容の領域を識別する一般的方法のフローチャート。魔方陣フィルタの値を示す表。背景ピクセルの割合判定の際、行なわれるステップを示すフローチャート。図２の分類器が用いる確率分布表。均一長方形判定の際、行なわれるステップを示すフローチャート。画像および画像における異なった内容の領域を識別するための画像処理に続く分類結果。画像および画像における異なった内容の領域を識別するための画像処理に続く分類結果。

符号の説明

４０…画像スキャン装置、４４…処理装置、４８…ＲＡＭ、５２…非揮発性メモリ、５
６…通信インタフェイス、６０…スキャン機構、６４…入力インタフェイス、６８…ディ
スプレイ、７２…ローカル・バス、８０…ハイブリッド分類器、８２Ａ…第１分類器段階
、８２Ｂ…第２分類器段階、８２Ｃ…第３分類器段階、８６…分類器、８８…確率分布表
、９０…非テキスト分類器、９２，９４，９６，９８…線形判別関数、１００…閾値論理
。

Claims

画像における異なった内容の領域を識別する方法で、
画像データを複数のピクセル・ブロックに分割するステップと、
前記ピクセル・ブロックの特徴を抽出するステップと、
抽出された特徴に基づいて前記ピクセル・ブロックの内容を分類するステップと、
を含むことを特徴とする画像における異なった内容の領域を識別する方法。
前記抽出された特徴はピクセル・ブロックの統計情報に基づくことを特徴とする請求項
１に記載の画像における異なった内容の領域を識別する方法。
前記抽出ステップは各ピクセル・ブロックに対し、
前記ピクセル・ブロックのピクセルで魔方陣フィルタを畳み込み、結果を合計するステ
ップと、
前記ピクセル・ブロック内の背景ピクセルの割合を計算するステップと、を含むことを
特徴とする請求項２に記載の画像における異なった内容の領域を識別する方法。
前記抽出ステップはさらに各ピクセル・ブロックに対し、
前記ピクセル・ブロックのエッジ密度を計算するステップと、
ピクセル・ブロックの平均飽和度を計算するステップと、を含むことを特徴とする請求
項３記載の画像における異なった内容の領域を識別する方法。
前記抽出ステップはさらに各ピクセル・ブロックに対し、
前記ピクセル・ブロック内の均一長方形の数を計算するステップを含むことを特徴とす
る請求項４に記載の画像における異なった内容の領域を識別する方法。
前記分類ステップは、
最初に前記魔方陣フィルタのくりこみと合計結果、および背景ピクセルの割合に基づき
各ピクセル・ブロックの内容を分類するステップと、
ピクセル・ブロックの前記内容が望ましい信頼性のレベルで分類できない場合は続いて
計算されたエッジ密度および平均飽和度の少なくとも１つに基づき前記ピクセル・ブロッ
クの前記内容を分類するステップと、
を含むことを特徴とする請求項５に記載の画像における異なった内容の領域を識別する
方法。
続く分類の際、前記ピクセル・ブロックが分類できない場合、前記分類ステップはさら
に続いて計算された前記エッジ密度および前記均一長方形の数に基づき前記ピクセル・ブ
ロックの前記内容を分類するステップを含むことを特徴とする請求項６に記載の画像にお
ける異なった内容の領域を識別する方法。
前記平均飽和度、前記エッジ密度、および前記均一長方形の数は前記ピクセル・ブロッ
クのその後の分類が必要である場合にのみ計算されることを特徴とする請求項７に記載の
画像における異なった内容の領域を識別する方法。
前記分類ステップの際、ピクセル・ブロックはテキスト内容または非テキスト内容を含
むものとして識別されることを特徴とする請求項８に記載の画像における異なった内容の
領域を識別する方法。
前記平均飽和度および前記エッジ密度は前記ピクセル・ブロックのその後の分類が必要
である場合にのみ計算されることを特徴とする請求項６に記載の画像における異なった内
容の領域を識別する方法。
前記魔方陣フィルタは数学的に一貫していることを特徴とする請求項６に記載の画像に
おける異なった内容の領域を識別する方法。
前記魔方陣フィルタはゼロに等しい総合計、ならびに合計がゼロとなる水平な行、垂直
な列、および斜線を有することを特徴とする請求項１１に記載の画像における異なった内
容の領域を識別する方法。
前記分類ステップはカスケード型段階で実施され、後期段階は初期段階で前記ピクセル
・ブロックを分類できない場合にのみ用いられることを特徴とする請求項２に記載の画像
における異なった内容の領域を識別する方法。
前記分類ステップの際、ピクセル・ブロックはテキスト内容または非テキスト内容を含
むものとして識別されることを特徴とする請求項１３に記載の画像における異なった内容
の領域を識別する方法。
同じ内容種を含むものとして識別された連続ピクセル・ブロックを集合するステップ
を含むことを特徴とする請求項１４に記載の画像における異なった内容の領域を識別する
方法。
テキストが切り取られるのを抑えるためにテキスト内容を含むものとして識別された
ピクセル・ブロックの境界を調節するステップを含むことを特徴とする請求項１４に記載
の画像における異なった内容の領域を識別する方法。
前記画像データは帯状で処理されることを特徴とする請求項１に記載の画像における異
なった内容の領域を識別する方法。
画像スキャン装置からストリームとして前記帯状の画像データを受けるステップを含む
ことを特徴とする請求項１６に記載の画像における異なった内容の領域を識別する方法。
前記分類ステップはピクセル・ブロックをテキスト内容または非テキスト内容を含むも
のとして分類することを特徴とする請求項１に記載の画像における異なった内容の領域を
識別する方法。
画像における異なった内容の領域を識別する装置で、
画像データを複数のピクセル・ブロックに分割し、前記ピクセル・ブロックの特徴を抽
出する特徴抽出器と、
抽出された特徴に基づき前記ピクセル・ブロックの内容を分類する分類器と、
を含むことを特徴とする画像における異なった内容の領域を識別する装置。
前記分類器は複数の分類器段階を含むことを特徴とする請求項２０に記載の画像におけ
る異なった内容の領域を識別する装置。
前記分類器はピクセル・ブロックをテキスト内容または非テキスト内容を含むものとし
てピクセル・ブロックを分類することを特徴とする請求項２１に記載の画像における異な
った内容の領域を識別する装置。
前記特徴抽出器は各ピクセル・ブロックをくりこんだ魔方陣フィルタの結果、ならびに
背景ピクセルの割合、エッジ密度、均一長方形の数、および平均飽和度の少なくとも１つ
を判定し、それにより前記特徴を抽出することを特徴とする請求項２１に記載の画像にお
ける異なった内容の領域を識別する装置。
コピー機、ファクシミリ装置、およびオールインワン・プリンタのグループから選択さ
れることを特徴とする請求項２３に記載の画像における異なった内容の領域を識別する装
置。
画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコン
ピュータ読み取り可能な媒体で、前記コンピュータ・プログラムは、
画像データを複数のピクセル・ブロックに分割するコンピュータ・プログラム・コード
と、
前記ピクセル・ブロックの特徴を抽出するコンピュータ・プログラム・コードと、
抽出された特徴に基づき前記ピクセル・ブロックの内容を分類するコンピュータ・プロ
グラム・コードと、
を含むことを特徴とする画像における異なった内容の領域を識別するコンピュータ・プ
ログラムを具現するコンピュータ読み取り可能な媒体。