[go: up one dir, main page]

JP2008148298A - 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体 - Google Patents

画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体 Download PDF

Info

Publication number
JP2008148298A
JP2008148298A JP2007306941A JP2007306941A JP2008148298A JP 2008148298 A JP2008148298 A JP 2008148298A JP 2007306941 A JP2007306941 A JP 2007306941A JP 2007306941 A JP2007306941 A JP 2007306941A JP 2008148298 A JP2008148298 A JP 2008148298A
Authority
JP
Japan
Prior art keywords
image
pixel block
content
pixel
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007306941A
Other languages
English (en)
Other versions
JP2008148298A5 (ja
Inventor
Yichuan Tang
タング イチュアン
Hui Zhou
ゾウ フイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Publication of JP2008148298A publication Critical patent/JP2008148298A/ja
Publication of JP2008148298A5 publication Critical patent/JP2008148298A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像内で異なった内容の領域を識別する方法および装置を提供する。
【解決手段】画像における異なった内容の領域を識別する方法は画像データを複数のピクセル・ブロックに分割し、ピクセル・ブロックの特徴を抽出し、抽出された特徴に基づきピクセル・ブロックの内容を分類することを有してなる。
【選択図】図3

Description

本発明は一般的に画像処理に関し、具体的には画像内で異なってないようの領域を識別
する方法および装置に関する。
例えば文書をスキャンし対応画像を出力するコピー機、ファクシミリ装置、スキャンお
よびコピー機能を有するオールインワン・プリンタなどの画像スキャン装置は技術的に周
知である。時に画像スキャン装置により生成されるスキャンされた文書の画像が望ましい
質に達しない場合もあり得る。これが起こると、スキャンされた文書を出力する前に、欠
陥を是正し画像の質を向上させ、および/あるいは画像のスキャン・プロセスにおいて導
入されたアーティファクトを補正するために画像を増強することが必要または有益かもし
れない。
例えば、画像の出力前に平滑化フィルタ、鮮鋭化フィルタ、ノイズ除去フィルタ、等々
、を画像に適用することができる。しかしこのような形で画像を増強することは画像が一
貫性のある内容である場合(すなわち1種のデータである場合)にのみ満足できることが
分かっている。残念ながら、多くの画像増強手法は1種の画像内容に適用する場合は有益
であるが別種の画像内容に適用すると有害であるため、テキスト内容と非テキスト内容領
域など異なった内容の領域からなる画像は特に難題を呈する。この結果、望まれる画像増
強を達成するためには画像の異なった内容領域に対し異なった画像増強手法を適用しなけ
ればならないかもしれない。
デジタル画像における異なった領域を識別する手法が検討されている。例えばKari
diの米国特許第6289122号明細書は画像におけるテキストおよび非テキスト区域
を検出する方法を開示している。最初に画像に強度深度が低減され、画像はブロックに分
割される。すべてのピクセルにわたる総輝度、最暗および最明ピクセル値、ならびに白お
よび黒ピクセルの数を含み、各ブロックに対しいくつかの統計データが判定される。これ
らの統計データに基づきブロックの「種類」(例えば「非テキスト」、「小テキスト」、
または「白ブロック」)が判定される。次に各ブロックに対しブロックが色ブロックであ
るか中性ブロックであるかと共に、総強度が判定される。移動ウィンドウを用いブロック
の隣接セットが調べられ、どのブロックがテキスト内容を表し、どのブロックが非テキス
ト内容を表すかを判定する。9個の隣接ブロックからなるセットが調べられ、中央ブロッ
クを調節する必要があるか判定される。
Zhuの米国特許第6195459号明細書はグレースケール画像のテキストおよび非
テキスト部分を検出する方法を開示している。グレースケール画像は最初に所定サイズの
ブロックに分割される。各ブロックから、好ましくは少なくとも6つのウェーブレット・
ドメイン特徴のセットが抽出され、特徴ベクトルが生成される。各ブロックはその特徴ベ
クトルとともにメンバ関数および所定のファジールールに基づきテキストまたは画像内容
を表すと分類される。
Di Federicoの米国特許出願公開第2005/0002566号明細書は画
像におけるテキストと非テキスト領域を区別する方法を開示している。画像におけるピク
セルの輝度値マトリクスが生成され、マトリクスはブロックに分割される。ブロックの輝
度値の輝度勾配が判定され、勾配マトリクスが形成される。勾配マトリクスを分析して同
種の内容のブロックを検出する。次に同種の内容のブロックは各々画像の自然および合成
領域にクラスタされる。
Wang他の米国特許第5379130号明細書はテキスト/画像分離方法を開示して
おり、3×3のピクセル・カーネルを用いて恐らく画像内容ではなくテキストの画像にお
けるピクセルを区別する。ある特定ピクセルがエッジを表す場合、エッジ鮮鋭化手順を実
施してエッジを区別する。その特定ピクセルがエッジを表さない場合、値は調節されない
Willis他の米国特許第5568571号明細書はグレースケール画像を処理する
方法およびシステムを開示している。画像に対するグレースケール・ヒストグラムが最初
に生成される。ノイズを除去するために輝度値がグレースケール・ヒストグラムの上位5
%と下位5%に入るピクセルを切り捨てる。残りのピクセルは30のサブグループに分割
される。各サブグループに対しグレースケール平均が計算される。各ピクセルは各々が属
するサブグループのグレースケール平均を再度割り当てられる。テキスト・コンポーネン
トは3×3カーネルを用いてテキストを表すとみなされるエッジを識別し、非テキスト・
コンポーネントから分離される。
Takenouchi他の米国特許第6178010号明細書は画像を増強する方法を
開示しており、周知の方法を用いてテキストおよび画像区域が最初に特定される。次にテ
キストおよび画像区域はそれらの区域に適した方法を用いて増強される。
Caldato他の米国特許第6744918号明細書はソース画像を増強する方法を
開示しており、画像を分析して色および中性区域、すなわち画像内容およびテキストまた
は図形内容、に区別する。方法の際、ソース画像の色部分から第1画像が生成される。ソ
ース画像の中性部分から第2画像が生成される。第1画像は第2画像に比べより圧縮され
ている。
Karidi他の米国特許第6778700号明細書は文書画像をテキストおよび非テ
キスト部分に分割する方法を開示している。3×3のピクセル・カーネルを用いて輝度の
急勾配の変化(すなわちエッジまたは傾斜)を検出する。反対方向の2つの傾斜を境界と
する領域(すなわち溝)が特定される。溝は文字のストロークを表すとみなされる。各ス
トロークに対し幅と骨格が判定される。次に各ピクセル周囲の9×9のピクセル領域のコ
ントラストを隣接ストロークの幅とともに調べ、ピクセルが文字の一部をなすか判定する
。別のシステムで実施されたテキスト識別を向上させるために検出されたストロークの周
囲に細く黒い輪郭線が描かれる。
Guo他の米国特許出願公開第2004/0042659号明細書は文書画像をテキス
トおよびハーフトーンの領域に分割する方法を開示している。色空間変換が文書画像に適
用される。具体的に、文書画像はRGB色空間からHSV色空間に変換される。各色チャ
ンネルのテクスチャ特徴を調べることにより文書画像のテクスチャが特定され、次にノイ
ズ低減が適用される。文書画像内のバウンディング・ボックスはテキストまたはハーフト
ーンいずれかのピクセル連を調べることにより識別される。
Liの米国特許出願公開第2004/0076328号明細書は文書画像のデータを増
強する方法を開示しており、文脈情報を用いてピクセルを文字または図面の一部かに分類
する。文書画像はスキャンされ、背景と前景を示す山と谷の規則的にかつ繰り返し発生す
るパターンが検出される。局部的極大値または極小値と特定されたピクセル周囲の3×3
のピクセル領域が調べられる。ピクセル領域の一辺に沿った3つのピクセルが一方向に増
加するグレースケール・レベルを有し、ピクセル領域の対向辺に沿った3つのピクセルが
反対方向に増加するグレースケール・レベルを有している場合、中央ピクセルは2つの辺
にまたがるパターンの一部をなすとみなされる。
Guleryuzの米国特許出願公開第2004/0175037号明細書は文書画像
を分割する方法を開示している。文書画像は第1フィルタでぼかされ第1ぼやけ画像を生
成し、また別途第2フィルタでぼかされ第2ぼやけ画像を生成する。第1および第2ぼや
け画像双方においてエッジが検出される。両ぼやけ画像から検出されたエッジが組み合わ
され、検出されたエッジに沿ったピクセルがハーフトーン領域を表すか判定される。
Irwinの米国特許出願公開第2004/0223643号明細書は画像においてテ
キスト領域を非テキスト領域と区別する方法を開示している。テキスト領域に隣接する非
テキスト領域からのピクセルを含むエッジ・グループが特定される。エッジ・グループに
沿ったテキスト・ピクセルが保存される。画像におけるテキストおよび非テキスト双方の
領域が平滑化される。
Lim他の米国特許出願公開第2004/0240737号明細書は文書画像を増強す
る方法を開示しており、文書画像における文字ブロックおよび背景ブロックが特定される
。文字ブロックの平均エネルギー率が計算され、閾値と比較されて文書画像がぼやけてい
るか判定される。文書画像がぼやけていない場合、文書画像はテキストおよび背景部分に
分類される。文書画像のテキスト部分におけるピクセルのグレースケール値を閾値と比較
する。閾値未満のグレースケール値を有するピクセルは文字に結び付いた輝度値に設定さ
れ、閾値を超えたグレースケール値を有するピクセルは背景に結び付いた輝度値に設定さ
れる。次に文書画像の閾値テキスト部分に対し文字認識が行われる。
米国特許第6289122号明細書
上記引例は画像における異なった内容領域を識別する手法を開示しているが、改良が望
まれる。ほとんどの環境において、高速画像処理が必要であることは理解されよう。従っ
て文書を再度スキャンすることを避けるためにスキャン文書の画像は進行中に処理されな
ければならない。しかし進行中に画像データを処理することは問題を呈する。スキャン中
のある時点で帯状のわずかな画像データしか処理に利用できないかもしれず、結果として
文脈的画像情報が欠如する。この画像データと文脈情報双方の欠如が高速画像処理の必要
と組み合わさると、画像における異なった内容領域を識別する通常の手法は充分でなくな
る。
従って本発明の一目的は画像における異なった内容の領域を識別する新規方法および装
置を提供することにある。
従って、一態様で画像における異なった内容の領域を識別する方法で、画像データを複
数のピクセル・ブロックに分割するステップと、前記ピクセル・ブロックの特徴を抽出す
るステップと、抽出された特徴に基づいて前記ピクセル・ブロックの内容を分類するステ
ップと、を含む方法が提供される。
一実施形態で、抽出された特徴はピクセル・ブロックの統計情報に基づく。抽出は各ブ
ロックに対し、ピクセル・ブロックのピクセルをくりこんで魔方陣をなし、結果を合計し
た上でピクセル・ブロックにおける背景ピクセルの割合を計算することを含む。抽出はさ
らに各ピクセル・ブロックに対し、ピクセル・ブロックのエッジ密度を計算すること、ピ
クセル・ブロックにおける均一長方形の数を計算すること、およびピクセル・ブロックの
平均飽和度を計算することを含むことができる。
分類は一連のカスケード型段階で実施され、後期段階は初期段階でピクセル・ブロック
が分類できない場合にのみ用いられる。分類の際、ピクセル・ブロックはテキスト内容ま
たは非テキスト内容を含むかで識別される。分類は最初に魔方陣フィルタのくりこみと合
計の結果および背景ピクセルの割合に基づいて各ピクセル・ブロックの内容を分類するこ
とからなる。あるピクセル・ブロックの内容が望ましい信頼度のレベルで分類できない場
合、そのピクセル・ブロックの内容はその後計算されたエッジ密度および平均飽和度の少
なくとも1つに基づき分類される。その後の分類でもピクセル・ブロックの内容が望まし
い信頼度のレベルで分類できない場合、ピクセル・ブロックの内容はその後計算されたエ
ッジ密度および均一長方形の数に基づき分類される。
望まれる場合は、ピクセル・ブロックの内容分類後、同種の内容を含むと特定された連
結ピクセル・ブロックが集合されテキスト内容を含むと特定されたピクセル・ブロックの
境界はテキストが切り取られるのを防ぐために調節される。
別の態様で、画像における異なった内容の領域を識別する装置で、画像データを複数の
ピクセル・ブロックに分割し、前記ピクセル・ブロックの特徴を抽出する特徴抽出器と、
抽出された特徴に基づき前記ピクセル・ブロックの内容を分類する分類器と、を含む装置
が提供される。
さらに別の態様で、画像における異なった内容の領域を識別するコンピュータ・プログ
ラムを具現するコンピュータ読み取り可能な媒体で、前記コンピュータ・プログラムは、
画像データを複数のピクセル・ブロックに分割するコンピュータ・プログラム・コードと
、前記ピクセル・ブロックの特徴を抽出するコンピュータ・プログラム・コードと、抽出
された特徴に基づき前記ピクセル・ブロックの内容を分類するコンピュータ・プログラム
・コードと、を含むコンピュータ読み取り可能な媒体が提供される。
[適用例1]かかる目的を達成するため、画像における異なった内容の領域を識別する
方法は、画像データを複数のピクセル・ブロックに分割するステップと、前記ピクセル・
ブロックの特徴を抽出するステップと、抽出された特徴に基づいて前記ピクセル・ブロッ
クの内容を分類するステップと、を含むことを要旨とする。
[適用例2]また、画像における異なった内容の領域を識別する方法は、前記抽出され
た特徴はピクセル・ブロックの統計情報に基づくことをその要旨とする。
[適用例3]また、画像における異なった内容の領域を識別する方法は、前記抽出ステ
ップは各ピクセル・ブロックに対し、前記ピクセル・ブロックのピクセルで魔方陣フィル
タを畳み込み、結果を合計するステップと、前記ピクセル・ブロック内の背景ピクセルの
割合を計算するステップと、を含むことをその要旨とする。
[適用例4]また、画像における異なった内容の領域を識別する方法は、前記抽出ステ
ップはさらに各ピクセル・ブロックに対し、前記ピクセル・ブロックのエッジ密度を計算
するステップと、ピクセル・ブロックの平均飽和度を計算するステップと、を含むことを
その要旨とする。
[適用例5]また、画像における異なった内容の領域を識別する方法は、前記抽出ステ
ップはさらに各ピクセル・ブロックに対し、前記ピクセル・ブロック内の均一長方形の数
を計算するステップを含むことをその要旨とする。
[適用例6]また、画像における異なった内容の領域を識別する方法は、前記分類ステ
ップは、最初に前記魔方陣フィルタのくりこみと合計結果、および背景ピクセルの割合に
基づき各ピクセル・ブロックの内容を分類するステップと、ピクセル・ブロックの前記内
容が望ましい信頼性のレベルで分類できない場合は続いて計算されたエッジ密度および平
均飽和度の少なくとも1つに基づき前記ピクセル・ブロックの前記内容を分類するステッ
プと、を含むことをその要旨とする。
[適用例7]また、画像における異なった内容の領域を識別する方法は、続く分類の際
、前記ピクセル・ブロックが分類できない場合、前記分類ステップはさらに続いて計算さ
れた前記エッジ密度および前記均一長方形の数に基づき前記ピクセル・ブロックの前記内
容を分類するステップを含むことをその要旨とする。
[適用例8]また、画像における異なった内容の領域を識別する方法は、前記平均飽和
度、前記エッジ密度、および前記均一長方形の数は前記ピクセル・ブロックのその後の分
類が必要である場合にのみ計算されることをその要旨とする。
[適用例9]また、画像における異なった内容の領域を識別する方法は、前記分類ステ
ップの際、ピクセル・ブロックはテキスト内容または非テキスト内容を含むものとして識
別されることをその要旨とする。
[適用例10]また、画像における異なった内容の領域を識別する方法は、前記平均飽
和度および前記エッジ密度は前記ピクセル・ブロックのその後の分類が必要である場合に
のみ計算されることをその要旨とする。
[適用例11]また、画像における異なった内容の領域を識別する方法は、前記魔方陣
フィルタは数学的に一貫していることをその要旨とする。
[適用例12]また、画像における異なった内容の領域を識別する方法は、前記魔方陣
フィルタはゼロに等しい総合計、ならびに合計がゼロとなる水平な行、垂直な列、および
斜線を有することをその要旨とする。
[適用例13]また、画像における異なった内容の領域を識別する方法は、前記分類ス
テップはカスケード型段階で実施され、後期段階は初期段階で前記ピクセル・ブロックを
分類できない場合にのみ用いられることをその要旨とする。
[適用例14]また、画像における異なった内容の領域を識別する方法は、前記分類ス
テップの際、ピクセル・ブロックはテキスト内容または非テキスト内容を含むものとして
識別されることをその要旨とする。
[適用例15]また、画像における異なった内容の領域を識別する方法は、さらに、同
じ内容種を含むものとして識別された連続ピクセル・ブロックを集合するステップを含む
ことをその要旨とする。
[適用例16]また、画像における異なった内容の領域を識別する方法は、さらに、テ
キストが切り取られるのを抑えるためにテキスト内容を含むものとして識別されたピクセ
ル・ブロックの境界を調節するステップを含むことをその要旨とする。
[適用例17]また、画像における異なった内容の領域を識別する方法は、前記画像デ
ータは帯状で処理されることをその要旨とする。
[適用例18]また、画像における異なった内容の領域を識別する方法は、さらに画像
スキャン装置からストリームとして前記帯状の画像データを受けるステップを含むことを
その要旨とする。
[適用例19]また、画像における異なった内容の領域を識別する方法は、前記分類ス
テップはピクセル・ブロックをテキスト内容または非テキスト内容を含むものとして分類
することをその要旨とする。
[適用例20]また、画像における異なった内容の領域を識別する装置は、画像データ
を複数のピクセル・ブロックに分割し、前記ピクセル・ブロックの特徴を抽出する特徴抽
出器と、抽出された特徴に基づき前記ピクセル・ブロックの内容を分類する分類器と、を
含むことをその要旨とする。
[適用例21]また、画像における異なった内容の領域を識別する装置は、前記分類器
は複数の分類器段階を含むことをその要旨とする。
[適用例22]また、画像における異なった内容の領域を識別する装置は、前記分類器
はピクセル・ブロックをテキスト内容または非テキスト内容を含むものとしてピクセル・
ブロックを分類することをその要旨とする。
[適用例23]また、画像における異なった内容の領域を識別する装置は、前記特徴抽
出器は各ピクセル・ブロックをくりこんだ魔方陣フィルタの結果、ならびに背景ピクセル
の割合、エッジ密度、均一長方形の数、および平均飽和度の少なくとも1つを判定し、そ
れにより前記特徴を抽出することをその要旨とする。
[適用例24]また、画像における異なった内容の領域を識別する装置は、コピー機、
ファクシミリ装置、およびオールインワン・プリンタのグループから選択されることをそ
の要旨とする。
[適用例25]また、画像における異なった内容の領域を識別するコンピュータ・プロ
グラムを具現するコンピュータ読み取り可能な媒体は、前記コンピュータ・プログラムが
、画像データを複数のピクセル・ブロックに分割するコンピュータ・プログラム・コード
と、前記ピクセル・ブロックの特徴を抽出するコンピュータ・プログラム・コードと、抽
出された特徴に基づき前記ピクセル・ブロックの内容を分類するコンピュータ・プログラ
ム・コードと、を含むことをその要旨とする。
次に添付図面を参照して実施形態をさらに詳しく説明する。ここで図1は、コピー機、
ファクシミリ装置、スキャンおよびコピー機能等々を有するオールインワン・プリンタな
どの画像スキャン装置40を示す。見られるように、画像スキャン装置40は処理装置4
4、ランダムアクセス・メモリ(以降、RAMという)48、非揮発性メモリ52、通信
インタフェイス56、スキャン機構60、入力インタフェイス64、およびディスプレイ
68を有してなり、すべてがローカル・バス72上で通信している。入力インタフェイス
64はユーザがディスプレイ68上に提示されるオプションまたは画像とやりとりし、画
像スキャン装置40の操作を制御するためのユーザ入力を可能にする。画像スキャン装置
40が通常の方法で動作するように処理装置44が実行するソフトウェアに加え、非揮発
性メモリ52はさらに内容種識別アプリケーションおよび画像増強アプリケーションを格
納する。本実施形態における内容種識別アプリケーションは文書画像のテキストおよび非
テキスト領域を識別する。画像増強アプリケーションは識別されたテキストおよび非テキ
スト領域を増強し文書画像の質を高める。
内容種識別アプリケーションは図2に示すようなハイブリッド分類器80を用い、文書
画像から抽出された特徴を調べて文書画像のテキストおよび非テキスト領域を識別する。
本実施形態で、ハイブリッド分類器80が内容の種類を識別するために用いる6つの特徴
は魔方陣フィルタの結果、背景ピクセルの割合、均一長方形の数、エッジ密度、および平
均飽和度または彩度を有してなる。エッジ密度、背景ピクセルの割合、平均飽和度および
均一長方形の特徴は魔方陣フィルタで簡単に識別できない内容の識別能力故魔方陣フィル
タを補足する。
図2に見られるように、ハイブリッド分類器80は複数のカスケード型の分類器段階と
しての第1分類器段階82A、第2分類器段階82B、および第3分類器段階82Cを有
してなる。第1分類器段階82Aは魔方陣フィルタの結果および背景ピクセルを受信する
1つの分類器86を有してなる。分類器86はさらに学習した二次元の30×30フルジ
ョイント確率分布表88とも通信する。第2分類器段階82Bは分類器86が望ましい信
頼度のレベルで内容の種類を分類できない場合、非テキスト分類器90を有してなる。非
テキスト分類器90は分類器86の出力と併せて平均飽和度、エッジ密度、および均一長
方形の数を受信する。第3分類器段階82Cは4つの線形判別関数92,94,96,9
8および閾値論理100を有してなる。
文書画像のテキストおよび非テキスト領域を識別するために最初に第1分類器段階82
Aが用いられる。第1分類器段階82Aが文書画像のテキストおよび非テキスト領域を望
ましい信頼度のレベルで分類できる場合、第2分類器段階82Bおよび第3分類器段階8
2Cは使用されない。第1分類器段階82Aが文書画像の領域を望ましい信頼度のレベル
で分類できない場合、第2分類器段階82Bが用いられる。第2分類器段階82Bが第1
分類器段階82Aで分類できなかったすべての領域を望ましい信頼度のレベルで分類でき
る場合、第3分類器段階82Cは使用されない。第2分類器段階82Bがこれらの領域す
べてを望ましい信頼度のレベルで分類できない場合、第3分類器段階82Cが用いられる
。文書画像から抽出され分類器段階としての第1分類器段階82A、第2分類器段階82
B、および第3分類器段階82Cで使用される特徴は、分類器段階が用いられる際にのみ
抽出される。これは言うまでもなく文書画像における異なった内容の領域を迅速かつ効率
的に識別することを可能にする。
次に図3を参考に、文書画像における異なった内容の領域を識別することに関連して画
像スキャン装置40の働きを説明する。この説明の目的において、内容種識別アプリケー
ションはRAM48にロードされ、処理装置44により実行されると仮定される。ある文
書がスキャン機構60によりスキャンされる際、スキャン機構60により帯状の画像デー
タを生成し、処理装置44に搬送される。本実施形態で、各帯状の画像データは24行の
ピクセルを有してなる。各帯状の画像データを処理装置44が受信すると、内容種識別ア
プリケーションは最初に帯状の画像データを前処理し、必要であれば画像データの解像度
を低減し(ステップS108)、次に帯状の画像データを24×24のピクセル・ブロッ
クに分割する(ステップS110)。各ピクセル・ブロックは次に特徴の抽出を受け(ス
テップS112)、ハイブリッド分類器80を用いてピクセル・ブロックにおける内容の
種類が識別される(ステップS114)。次に内容種識別の結果が後処理され(ステップ
S116)内容種識別プロセスが完了する。
ステップS112において各ピクセル・ブロックに対し、ハイブリッド分類器80がそ
の中のテキストと非テキスト領域を識別するために最初は第1分類器段階82Aのみを用
いるので、最初は第1分類器段階82Aによって使用される特徴、すなわち魔方陣フィル
タの結果および背景ピクセルの割合のみが抽出される。魔方陣フィルタの結果を生成する
ために、図4に示す形の魔方陣フィルタがピクセル・ブロックに適用される。
見られるように、魔方陣フィルタは文書に基づく各種フォント、サイズ、およびスタイ
ルのテキストの統計的外観および幾何学的位置合わせに対し特定の選択制を有する3×3
のカーネルである。魔方陣の総合計は、魔方陣の行、列、および斜線の合計とともに、ゼ
ロである。特徴の抽出の際、ピクセル・ブロックにおける各ピクセルは魔方陣とくりこま
れ、結果の絶対値が判定される。ピクセル・ブロックのすべてのピクセルに対する結果が
次に合計され記録される。魔方陣は数学的に一貫しているので、強度が均一であり(すな
わち均質性を示し)、水平または垂直バーを含み、または3ピクセルを越える辺を有する
ピクセル・ブロックは低いくりこみ合計をもたらす。逆に、高度なテクスチャ・パターン
または小から中サイズのテキストの不連続パターンを有するピクセル・ブロックは高いく
りこみ合計をもたらす。
ピクセル・ブロックの背景ピクセルの割合を判定する際に実施されるステップが図5に
示される。最初にピクセル・ブロック内の各ピクセルの強度を調べ、ピクセルを128個
のビンの1つに割り当てることによりピクセル・ブロックのピクセル強度ヒストグラムが
生成される(ステップS150)。各ピクセルは0から256の強度値を有するので、強
度ヒストグラムの各ビンは2つの強度レベルのピクセルを蓄積する。一旦、生成されると
、ピクセル強度ヒストグラムを調べて総数が最も高いビンが識別される(ステップS15
2)。最高のビンの値および最高のビンの左右にあるビンの値が次に加算され、結果の合
計はノイズ除去の目的から3で割られる(ステップS154)。次にこの結果をピクセル
・ブロック内の総ピクセル数で割り、背景ピクセルの割合が得られる(ステップS156
)。高い比率は均一な背景を有するピクセル・ブロックに対応し、低い比率はピクセル・
ブロックに背景が存在しないことに対応する。
ピクセル・ブロックに対し魔方陣フィルタの結果および背景ピクセルの割合が生成され
た後、魔方陣フィルタの結果および背景ピクセルの割合は第1分類器段階82Aの分類器
86に適用される。分類器は続いて魔方陣フィルタの結果および背景ピクセルの割合を用
い、確率分布表88からピクセル・ブロックにおけるテキスト内容の非テキスト内容に対
する確率的な比率を選択し抽出する。図6は典型的な確率分布表を示す。確率分布表88
の列は0%から29%の範囲で可能な背景ピクセルの割合を表す。確率分布表88の行は
可能な魔方陣フィルタの結果を133.3で割ったものを表す。確率分布表88にある値
は特定の背景ピクセルの割合および魔方陣フィルタの結果を有するピクセル・ブロックが
テキストまたは非テキスト内容を含む可能性を表す。確率分布表で100の値は確実にテ
キスト内容を表すピクセル・ブロックを意味し、ゼロ(0)の値は確実に非テキスト内容
を表すピクセル・ブロックを意味する。確率分布表88にある値は訓練段階の際、入力さ
れた魔方陣フィルタおよび背景ピクセルの割合の値に基づき一組の訓練画像を処理するこ
とにより学習される。
確率分布表88から抽出された確率的比率は次にテキスト/非テキスト内容の閾値レベ
ルと比較される。抽出された確率的比率が閾値レベルの1つを満足し、そのピクセル・ブ
ロックが望ましい信頼性のレベルでテキスト内容または非テキスト内容を含むとして分類
できることが示されると、第1分類器段階82Aはそれに従いピクセル・ブロックを分類
する。本実施形態で、抽出された確率的比率が90を超える場合テキストを表すとみなさ
れ、抽出された確率的比率が10未満である場合非テキストを表すとみなされる。
抽出された確率的比率がいずれのテキスト/非テキスト内容の閾値レベルも満足せず、
分類器86が充分な精度でピクセル・ブロックを分類できないことが示されると、ハイブ
リッド分類器80は第2分類器段階82Bを用い、第2分類器段階82Bおよび第3分類
器段階82Cで使用される追加特徴、すなわち平均飽和度、エッジ密度、および均一長方
形の数がピクセル・ブロックから抽出される。
平均飽和度の判定の際、ピクセル・ブロック内の各ピクセルの飽和度は次の方程式(1
)に従い計算される。
ここで、r、g、およびbは各々ピクセル・ブロック内のピクセルの赤、緑、および青
の値である。
ピクセルに対し計算された飽和度は次に合計され、合計の平均値が判定され平均飽和度
が得られる。高い平均飽和度値は色彩豊かなピクセル・ブロックの可能性を示し、低い平
均飽和度値は主に黒、灰色、または白のピクセルからなるピクセル・ブロックを示す。
エッジ密度の判定の際、ピクセル・ブロックのエッジがまずソーベルエッジ検出器を用
いて判定される。次に判定されたエッジを閾値と比較する。閾値レベルより低いすべての
エッジはノイズとみなされ無視される。次に残りのエッジに沿ったピクセル数が合計され
、合計はピクセル・ブロックの総ピクセル数で割られエッジ密度値が得られる。高いエッ
ジ密度値はテキスト内容または高度のテクスチャの非テキスト・パターンを有するピクセ
ル・ブロックに対応し、低いエッジ密度値は非テキスト内容を有するピクセル・ブロック
に対応する。
ピクセル・ブロック内の均一長方形の数の判定の際、2×12のピクセル・ウィンドウ
がピクセル・ブロックの左上の角に置かれる(図7のステップS200参照)。次にウィ
ンドウ内のピクセルの平均輝度値が計算される(ステップS202)。ウィンドウ内の各
ピクセルの輝度値を平均輝度値と比較し、差異が計算される(ステップS204)。計算
された差異が次に合計され(ステップS206)、合計を閾値レベルと比較する(ステッ
プS208)。合計が閾値レベルより低い場合、均一長方形の存在を示すカウントが増分
され(ステップS210)、次にウィンドウがピクセル・ブロック全体にわたりパンされ
たか確認して判定する(ステップS212)。ステップS208で、合計が閾値レベルよ
り大きい場合、プロセスは直接ステップS212に進む。ステップS212でウィンドウ
がピクセル・ブロック全体にわたりパンされていない場合、ウィンドウを移動させ(ステ
ップS214)、方法はステップS202に戻り、ピクセル・ブロックにおける次の2×
12のピクセル・サブブロックが上述の形で処理される。この手順はウィンドウがピクセ
ル・ブロック全体にわたりパンされ、中の2×12ピクセル・サブブロックがすべて処理
されるまで続けられる。
平均飽和度、エッジ密度、および均一長方形の数の結果が生成された後、平均飽和度、
エッジ密度、および均一長方形の数の結果は非テキスト分類器90に適用される。非テキ
スト分類器90はさらに分類器86による抽出された確率的比率の出力も受信する。この
場合、第1分類器段階82Aはピクセル・ブロックをテキストまたは非テキスト内容を表
すとして分類できないため、非テキスト分類器90が受信する抽出された確率的比率は1
0から90の範囲にある。非テキスト分類器90は続いて平均飽和度の結果が65を越え
るか、またはエッジ密度が0.08未満であるか確認して判定する。これらのいずれかの
条件が真の場合、第2分類器段階82Bはピクセル・ブロックが非テキスト内容を含むと
して分類する。
第2分類器段階82Bがピクセル・ブロックは非テキスト内容を含むものとして分類で
きない場合、第3分類器段階82Cが用いられる。第3分類器段階82Cが用いられると
、非テキスト分類器90に伝えられた抽出された確率的比率が75を超えるか25未満で
あるか確認して判定する。抽出された確率的比率が75を超える場合、線形判別関数92
が用いられる。本実施形態で、線形判別関数92は次の方程式(2)が真で、ピクセル・
ブロックがテキスト内容を含むことを示すか判定する。
線形判別関数92が方程式(2)を真とした場合、第3分類器段階82Cはピクセル・
ブロックがテキスト内容を含むものとして分類する。
抽出された確率的比率が25未満の場合、線形判別関数94が用いられ、次の方程式(
3)が真で、ピクセル・ブロックが非テキスト内容を含むことを示すか判定する。
線形判別関数94が方程式(3)を真とした場合、第3分類器段階82Cはピクセル・
ブロックが非テキスト内容を含むものとして分類する。
線形判別関数92が方程式(2)を真としない場合、または線形判別関数94が方程式
(3)を真としない場合、または抽出された確率的比率が25から75の範囲にある場合
、線形判別関数96が用いられる。本実施形態で、線形判別関数96は次の方程式(4)
が真で、ピクセル・ブロックが非テキスト内容を含むことを示すか判定する。
線形判別関数96が方程式(4)を真とする場合、第3分類器段階82Cはピクセル・
ブロックが非テキスト内容を含むものとして分類する。
線形判別関数96が方程式(4)は真でないとした場合、線形判別関数98が用いられ
る。本実施形態で、線形判別関数98は次の方程式(5)が真で、ピクセル・ブロックが
テキスト内容を含むことを示すか判定する。
線形判別関数98が方程式(5)を真とする場合、第3分類器段階82Cはピクセル・
ブロックがテキスト内容を含むものとして分類する。
線形判別関数98が方程式(5)を真としない場合、閾値論理100は平均飽和度結果
が28未満でエッジ密度結果が0.3を超えるか確認して判定する。これらの条件双方が
満足されると、第3分類器段階82Cはピクセル・ブロックがテキスト内容を含むものと
して分類する。そうでない場合ピクセル・ブロックは分類されず、1から9の範囲のテキ
スト/非テキスト信頼性値が出力される。
一旦、すべてのピクセル・ブロックが分類され、または分類不可能とみなされると、ピ
クセル・ブロックはステップS116で後処理される。後処理の際、8つの近隣ピクセル
・ブロックで囲まれる各ピクセル・ブロックが識別される。このようなピクセル・ブロッ
ク各々に対し、周囲の8つのピクセル・ブロックが調べられ、8つの異なった分類のピク
セル・ブロックで囲まれたピクセル・ブロックが各々識別される。識別されたピクセル・
ブロックの分類がある場合、その分類は8つの近隣ピクセル・ブロックの分類と合致する
ように切り替えられる。
さらに後処理の際、テキスト内容が不適切な形で切り取られることを避けるために、テ
キスト内容を含むと分類されたピクセル・ブロックと非テキスト内容を含むと分類された
ピクセル・ブロックとの間の境界が調節される。境界調節の際、非テキスト内容を含むピ
クセル・ブロックに隣接するテキスト内容を含むピクセル・ブロックが識別される。テキ
スト内容および非テキスト内容のピクセル・ブロック間の境界に隣接するテキスト風の特
徴が次に識別される。このようなテキスト風の特徴を識別するために、境界に隣接するテ
キスト内容のピクセル・ブロックの3列にある各ピクセルで魔方陣フィルタがくりこまれ
る。結果の絶対値が次に合計される。合計が閾値レベルを超える場合、デキスト内容のピ
クセル・ブロックの境界はピクセル・ブロックを拡大する方向に移動される。このプロセ
スは再帰的であり得、境界は一方向に繰り返し移動され得る。
ピクセル・ブロックの境界が調節されると、同じ内容種のすべての連結ピクセル・ブロ
ックを集合することにより文書画像におけるテキスト内容および非テキスト内容領域が識
別される。この時点で文書画像におけるテキスト内容と非テキスト内容領域が識別される
際、識別された内容種に最も適した画像増強手法を各種領域に適用することができる。
次に図8および図9を参照すると、画像と併せて画像を処理してその中のテキスト内容
および非テキスト内容領域を識別した結果の分類結果が示される。テキスト内容のピクセ
ル・ブロックは「*」の記号で識別される。未分類のピクセル・ブロックは数字で識別さ
れる。各数字は関連ピクセル・ブロックがテキスト内容のピクセル・ブロックであると推
定される信頼性のレベルを特定する。信頼性レベルは1から9の範囲にある。テキスト内
容のピクセル・ブロックのいくつかは後処理の際に境界が調節された結果ずれていること
が理解されよう。
ハイブリッド分類器80が充分に訓練されると、ほとんどのピクセル・ブロックは6つ
の特徴のサブセットのみを使用して望まれる信頼性のレベルでテキストまたは非テキスト
内容を有するものと正確に分類できることが見出されている。以下の表1は抽出された特
徴の異なった対を用いて一組の画像サンプルを処理する際、ハイブリッド分類器80によ
り識別されたテキストおよび非テキスト内容の領域が識別された率を示す。
表から見られるように、魔方陣フィルタの結果と背景ピクセルの割合は87.8%の率
で、90%の信頼性レベルを以ってピクセル・ブロックがテキスト内容または非テキスト
内容を含むものとして分類できた。この結果から、これらの特徴は第1分類器段階82A
に含むことに最も適している。この対に対する偽陰性および偽陽性率はテキストについて
0.48%で非テキストについて0.47%であった。テキストまたは図形画像は通常孤
立して存在しないことが理解されよう。
進行中の内容種検出は画像の適当な領域に対し画像増強を可能にして達成されることが
理解されよう。これはグローバルな統計的特徴を考慮に入れる全体文書画像分析と対照的
である。画像を小さなピクセル・ブロックに分割し、ピクセル・ブロックから抽出された
統計的情報を用いることにより、内容種を識別できる具体性があり、かつ望ましい簡易性
の制限を満足できる一般性を有する画像の特徴を用いることができる。高速かつ正確に計
算し易い特徴を用いることにより特徴に基づく分類が達成できる。さらに、必要に応じて
追加特徴が抽出され分析されるカスケード型プロセスを用いるハイブリッド分類器の使用
により精度を犠牲にせず高速分類が確保される。
望まれる場合はピクセル・ブロックを分類するためにピクセル・ブロックから追加特徴
を抽出し分析することができる。例えば、ピクセル・ブロックにおけるエッジの規模を抽
出して実行の複雑さおよび時間を代償にさらに精度を向上させることができる。各ピクセ
ル・ブロックに対するエッジ規模の判定の際、エッジ密度の計算において判定された閾値
レベルを超えたエッジが合計され、合計をピクセル・ブロック内のエッジ・ピクセルの総
数で割る。合計エッジ規模が閾値未満の場合、エッジ規模はゼロに設定される。この特徴
はピクセル・ブロックにおけるエッジの強さに対応する。テキスト内容は高いエッジ規模
を有しがちで、写真は低いエッジ規模を有しがちである。
文書画像においてテキストおよび非テキスト領域が識別されたが、当業者であれば適当
な抽出された画像特徴の選択により異なった内容種の領域を識別することができることを
理解しよう。
上述の例において、具体的な線形判別関数、閾値レベル、および確率分布表が説明され
図示される。当業者であれば、具体的な線形判別関数、閾値レベル、および確率分布表の
値は画像スキャン装置が用いられる特定の環境および達成が望まれる精度に適合するため
に変化し得ることを理解しよう。
内容種識別アプリケーションはルーチン、プログラム、オブジェクト・コンポーネント
、データ構造等々を含むプログラム・モジュールを有してなることができ、コンピュータ
読み取り可能な媒体に格納されるコンピュータ読み取り可能なプログラム・コードとして
具現されることができる。コンピュータ読み取り可能な媒体は後にコンピュータ・システ
ムで読み取ることができるデータを格納できる任意のデータ記憶装置である。コンピュー
タ読み取り可能な媒体の例は例えば読み取り専用メモリ、フラッシュ・メモリ、ランダム
アクセス・メモリ、ハードディスク・ドライブ、磁気テープ、CD−ROMおよび他の光
データ記憶装置を含む。コンピュータ読み取り可能なプログラム・コードはさらにコンピ
ュータ読み取り可能なプログラム・コードが分散した形で格納される実行されるよう連結
コンピュータ・システムを含みネットワーク上で分散されることができる。
実施形態が説明されたが、当業者であれば添付の特許請求の範囲で定義される精神およ
び範囲を逸脱することなく変形および修正が可能であることを理解しよう。
画像スキャン装置の図式的な描写。 ハイブリッド分類器の図式的な描写。 図1の画像スキャン装置が用いる、画像における異なった内容の領域を識別する一般的方法のフローチャート。 魔方陣フィルタの値を示す表。 背景ピクセルの割合判定の際、行なわれるステップを示すフローチャート。 図2の分類器が用いる確率分布表。 均一長方形判定の際、行なわれるステップを示すフローチャート。 画像および画像における異なった内容の領域を識別するための画像処理に続く分類結果。 画像および画像における異なった内容の領域を識別するための画像処理に続く分類結果。
符号の説明
40…画像スキャン装置、44…処理装置、48…RAM、52…非揮発性メモリ、5
6…通信インタフェイス、60…スキャン機構、64…入力インタフェイス、68…ディ
スプレイ、72…ローカル・バス、80…ハイブリッド分類器、82A…第1分類器段階
、82B…第2分類器段階、82C…第3分類器段階、86…分類器、88…確率分布表
、90…非テキスト分類器、92,94,96,98…線形判別関数、100…閾値論理

Claims (25)

  1. 画像における異なった内容の領域を識別する方法で、
    画像データを複数のピクセル・ブロックに分割するステップと、
    前記ピクセル・ブロックの特徴を抽出するステップと、
    抽出された特徴に基づいて前記ピクセル・ブロックの内容を分類するステップと、
    を含むことを特徴とする画像における異なった内容の領域を識別する方法。
  2. 前記抽出された特徴はピクセル・ブロックの統計情報に基づくことを特徴とする請求項
    1に記載の画像における異なった内容の領域を識別する方法。
  3. 前記抽出ステップは各ピクセル・ブロックに対し、
    前記ピクセル・ブロックのピクセルで魔方陣フィルタを畳み込み、結果を合計するステ
    ップと、
    前記ピクセル・ブロック内の背景ピクセルの割合を計算するステップと、を含むことを
    特徴とする請求項2に記載の画像における異なった内容の領域を識別する方法。
  4. 前記抽出ステップはさらに各ピクセル・ブロックに対し、
    前記ピクセル・ブロックのエッジ密度を計算するステップと、
    ピクセル・ブロックの平均飽和度を計算するステップと、を含むことを特徴とする請求
    項3記載の画像における異なった内容の領域を識別する方法。
  5. 前記抽出ステップはさらに各ピクセル・ブロックに対し、
    前記ピクセル・ブロック内の均一長方形の数を計算するステップを含むことを特徴とす
    る請求項4に記載の画像における異なった内容の領域を識別する方法。
  6. 前記分類ステップは、
    最初に前記魔方陣フィルタのくりこみと合計結果、および背景ピクセルの割合に基づき
    各ピクセル・ブロックの内容を分類するステップと、
    ピクセル・ブロックの前記内容が望ましい信頼性のレベルで分類できない場合は続いて
    計算されたエッジ密度および平均飽和度の少なくとも1つに基づき前記ピクセル・ブロッ
    クの前記内容を分類するステップと、
    を含むことを特徴とする請求項5に記載の画像における異なった内容の領域を識別する
    方法。
  7. 続く分類の際、前記ピクセル・ブロックが分類できない場合、前記分類ステップはさら
    に続いて計算された前記エッジ密度および前記均一長方形の数に基づき前記ピクセル・ブ
    ロックの前記内容を分類するステップを含むことを特徴とする請求項6に記載の画像にお
    ける異なった内容の領域を識別する方法。
  8. 前記平均飽和度、前記エッジ密度、および前記均一長方形の数は前記ピクセル・ブロッ
    クのその後の分類が必要である場合にのみ計算されることを特徴とする請求項7に記載の
    画像における異なった内容の領域を識別する方法。
  9. 前記分類ステップの際、ピクセル・ブロックはテキスト内容または非テキスト内容を含
    むものとして識別されることを特徴とする請求項8に記載の画像における異なった内容の
    領域を識別する方法。
  10. 前記平均飽和度および前記エッジ密度は前記ピクセル・ブロックのその後の分類が必要
    である場合にのみ計算されることを特徴とする請求項6に記載の画像における異なった内
    容の領域を識別する方法。
  11. 前記魔方陣フィルタは数学的に一貫していることを特徴とする請求項6に記載の画像に
    おける異なった内容の領域を識別する方法。
  12. 前記魔方陣フィルタはゼロに等しい総合計、ならびに合計がゼロとなる水平な行、垂直
    な列、および斜線を有することを特徴とする請求項11に記載の画像における異なった内
    容の領域を識別する方法。
  13. 前記分類ステップはカスケード型段階で実施され、後期段階は初期段階で前記ピクセル
    ・ブロックを分類できない場合にのみ用いられることを特徴とする請求項2に記載の画像
    における異なった内容の領域を識別する方法。
  14. 前記分類ステップの際、ピクセル・ブロックはテキスト内容または非テキスト内容を含
    むものとして識別されることを特徴とする請求項13に記載の画像における異なった内容
    の領域を識別する方法。
  15. 同じ内容種を含むものとして識別された連続ピクセル・ブロックを集合するステップ
    を含むことを特徴とする請求項14に記載の画像における異なった内容の領域を識別する
    方法。
  16. テキストが切り取られるのを抑えるためにテキスト内容を含むものとして識別された
    ピクセル・ブロックの境界を調節するステップを含むことを特徴とする請求項14に記載
    の画像における異なった内容の領域を識別する方法。
  17. 前記画像データは帯状で処理されることを特徴とする請求項1に記載の画像における異
    なった内容の領域を識別する方法。
  18. 画像スキャン装置からストリームとして前記帯状の画像データを受けるステップを含む
    ことを特徴とする請求項16に記載の画像における異なった内容の領域を識別する方法。
  19. 前記分類ステップはピクセル・ブロックをテキスト内容または非テキスト内容を含むも
    のとして分類することを特徴とする請求項1に記載の画像における異なった内容の領域を
    識別する方法。
  20. 画像における異なった内容の領域を識別する装置で、
    画像データを複数のピクセル・ブロックに分割し、前記ピクセル・ブロックの特徴を抽
    出する特徴抽出器と、
    抽出された特徴に基づき前記ピクセル・ブロックの内容を分類する分類器と、
    を含むことを特徴とする画像における異なった内容の領域を識別する装置。
  21. 前記分類器は複数の分類器段階を含むことを特徴とする請求項20に記載の画像におけ
    る異なった内容の領域を識別する装置。
  22. 前記分類器はピクセル・ブロックをテキスト内容または非テキスト内容を含むものとし
    てピクセル・ブロックを分類することを特徴とする請求項21に記載の画像における異な
    った内容の領域を識別する装置。
  23. 前記特徴抽出器は各ピクセル・ブロックをくりこんだ魔方陣フィルタの結果、ならびに
    背景ピクセルの割合、エッジ密度、均一長方形の数、および平均飽和度の少なくとも1つ
    を判定し、それにより前記特徴を抽出することを特徴とする請求項21に記載の画像にお
    ける異なった内容の領域を識別する装置。
  24. コピー機、ファクシミリ装置、およびオールインワン・プリンタのグループから選択さ
    れることを特徴とする請求項23に記載の画像における異なった内容の領域を識別する装
    置。
  25. 画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコン
    ピュータ読み取り可能な媒体で、前記コンピュータ・プログラムは、
    画像データを複数のピクセル・ブロックに分割するコンピュータ・プログラム・コード
    と、
    前記ピクセル・ブロックの特徴を抽出するコンピュータ・プログラム・コードと、
    抽出された特徴に基づき前記ピクセル・ブロックの内容を分類するコンピュータ・プロ
    グラム・コードと、
    を含むことを特徴とする画像における異なった内容の領域を識別するコンピュータ・プ
    ログラムを具現するコンピュータ読み取り可能な媒体。
JP2007306941A 2006-12-12 2007-11-28 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体 Withdrawn JP2008148298A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/609,718 US7840071B2 (en) 2006-12-12 2006-12-12 Method and apparatus for identifying regions of different content in an image

Publications (2)

Publication Number Publication Date
JP2008148298A true JP2008148298A (ja) 2008-06-26
JP2008148298A5 JP2008148298A5 (ja) 2010-12-09

Family

ID=39498106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007306941A Withdrawn JP2008148298A (ja) 2006-12-12 2007-11-28 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体

Country Status (2)

Country Link
US (1) US7840071B2 (ja)
JP (1) JP2008148298A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10904471B2 (en) 2016-03-30 2021-01-26 Nikon Corporation Feature extraction element, feature extraction system, and determination apparatus
WO2021075052A1 (ja) * 2019-10-18 2021-04-22 株式会社アシックス シューズ
KR20210066430A (ko) * 2019-11-28 2021-06-07 재단법인 경북아이티융합 산업기술원 도로 영상의 경계선 검출 장치 및 그 방법

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080219561A1 (en) * 2007-03-05 2008-09-11 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program product
US8031946B2 (en) * 2008-03-27 2011-10-04 Texas Instruments Incorporated Reduced calculations in determining intra-prediction type method and system
JP4772839B2 (ja) * 2008-08-13 2011-09-14 株式会社エヌ・ティ・ティ・ドコモ 画像識別方法および撮像装置
JP4623388B2 (ja) * 2008-09-08 2011-02-02 ソニー株式会社 画像処理装置および方法、並びにプログラム
TWI420403B (zh) * 2009-11-13 2013-12-21 Primax Electronics Ltd 影像處理方法及影像處理裝置
US9152617B2 (en) * 2010-03-11 2015-10-06 A2iA S.A. System and method for processing objects
US9070011B2 (en) * 2010-06-18 2015-06-30 Csr Imaging Us, Lp Automated segmentation tuner
SE535070C2 (sv) * 2010-09-10 2012-04-03 Choros Cognition Ab Förfarande för att automatiskt klassificera en två-eller högredimensionell bild
US8306335B2 (en) * 2011-03-30 2012-11-06 Seiko Epson Corporation Method of analyzing digital document images
JP5668932B2 (ja) * 2011-05-23 2015-02-12 株式会社モルフォ 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体
JP5796392B2 (ja) * 2011-07-29 2015-10-21 ブラザー工業株式会社 画像処理装置、および、コンピュータプラグラム
WO2014157889A1 (en) * 2013-03-25 2014-10-02 Samsung Electronics Co., Ltd. Method and apparatus for improving quality of experience in sharing screen among devices, and recording medium thereof
US9520102B2 (en) 2013-04-29 2016-12-13 International Business Machines Corporation Text extraction from graphical user interface content
US10402661B2 (en) 2013-07-22 2019-09-03 Opengate Development, Llc Shape/object recognition using still/scan/moving image optical digital media processing
EP3108407A4 (en) 2014-02-17 2018-02-14 General Electric Company Method and system for processing scanned images
US10894429B2 (en) 2016-09-12 2021-01-19 Hewlett-Packard Development Company, L.P. Determination of printer dryer target temperatures
US10776694B2 (en) * 2017-05-16 2020-09-15 Samsung Electronics Co., Ltd. Optimized neural network input stride method and apparatus
US11455762B2 (en) 2017-12-14 2022-09-27 Adobe Inc. Text border tool and enhanced corner options for background shading
CN108764352B (zh) * 2018-05-25 2022-09-27 百度在线网络技术(北京)有限公司 重复页面内容检测方法和装置
US10402641B1 (en) * 2019-03-19 2019-09-03 Capital One Services, Llc Platform for document classification
CN111103286B (zh) * 2019-12-10 2022-07-01 红云红河烟草(集团)有限责任公司 一种工厂正常光照条件下烟支流提取方法
CN111325271B (zh) * 2020-02-18 2023-09-12 Oppo广东移动通信有限公司 图像分类方法及装置
US11714531B2 (en) * 2020-03-03 2023-08-01 Adobe Inc. Glyph-aware text selection
US11393182B2 (en) 2020-05-29 2022-07-19 X Development Llc Data band selection using machine learning
US11606507B1 (en) 2020-08-28 2023-03-14 X Development Llc Automated lens adjustment for hyperspectral imaging
US11651602B1 (en) 2020-09-30 2023-05-16 X Development Llc Machine learning classification based on separate processing of multiple views
US20220366301A1 (en) * 2021-05-11 2022-11-17 Sap Se Model-independent confidence value prediction machine learned model
US11995842B2 (en) 2021-07-22 2024-05-28 X Development Llc Segmentation to improve chemical analysis
US12033329B2 (en) 2021-07-22 2024-07-09 X Development Llc Sample segmentation
US12400422B2 (en) 2021-08-25 2025-08-26 X Development Llc Sensor fusion approach for plastics identification
US12229722B2 (en) * 2021-11-02 2025-02-18 Koireader Technologies, Inc. System and methods for performing order cart audits
WO2023081627A1 (en) * 2021-11-02 2023-05-11 Koireader Technologies, Inc. System for transportation and shipping related data extraction
CN116664607A (zh) * 2022-02-18 2023-08-29 驭势科技(北京)有限公司 自适应级联检测方法、装置、电子设备和存储介质
CN114817586A (zh) * 2022-04-29 2022-07-29 北京三快在线科技有限公司 目标对象的分类方法、装置、电子设备和存储介质
CN119580108B (zh) * 2025-02-08 2025-04-25 贵州轻工职业技术学院 一种用于耕地种植状态监测的遥感图像增强方法及系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4447830A (en) * 1981-09-10 1984-05-08 Xerox Corporation Image scanning apparatus and method
JP2702928B2 (ja) * 1987-06-19 1998-01-26 株式会社日立製作所 画像入力装置
US5452374A (en) * 1992-04-06 1995-09-19 Ricoh Corporation Skew detection and correction of a document image representation
US5379130A (en) * 1992-12-02 1995-01-03 Industrial Technology Research Institute Text/image separation method
US5568571A (en) * 1992-12-14 1996-10-22 University Microfilms, Inc. Image enhancement system
US5742703A (en) * 1995-10-11 1998-04-21 Xerox Corporation Method and apparatus for the resolution enhancement of gray-scale images that include text and line art
AUPN727295A0 (en) * 1995-12-21 1996-01-18 Canon Kabushiki Kaisha Zone segmentation for image display
US6512848B2 (en) * 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
JP3709636B2 (ja) * 1996-12-10 2005-10-26 富士ゼロックス株式会社 画像処理装置および画像処理方法
EP0989738A1 (en) * 1998-09-22 2000-03-29 Hewlett-Packard Company Document analysis method to detect BW/color areas and corresponding scanning device
US6289122B1 (en) * 1999-04-15 2001-09-11 Electronics For Imaging, Inc. Intelligent detection of text on a page
JP2001016447A (ja) * 1999-06-30 2001-01-19 Minolta Co Ltd 画像処理装置および画像処理方法、ならびに画像処理プログラムを記録した記録媒体
DE19958553A1 (de) * 1999-12-04 2001-06-07 Luratech Ges Fuer Luft Und Rau Verfahren zur Kompression von gescannten Farb- und/oder Graustufendokumenten
US6778700B2 (en) * 2001-03-14 2004-08-17 Electronics For Imaging, Inc. Method and apparatus for text detection
AU2002337455A1 (en) * 2001-10-11 2003-04-28 Koninklijke Philips Electronics N.V. Method and apparatus for discriminating between different regions of an image
US6985628B2 (en) * 2002-01-07 2006-01-10 Xerox Corporation Image type classification using edge features
US6993185B2 (en) * 2002-08-30 2006-01-31 Matsushita Electric Industrial Co., Ltd. Method of texture-based color document segmentation
US7251059B2 (en) * 2002-10-16 2007-07-31 Xerox Corporation System for distinguishing line patterns from halftone screens in image data
US7079687B2 (en) * 2003-03-06 2006-07-18 Seiko Epson Corporation Method and apparatus for segmentation of compound documents
KR100977713B1 (ko) * 2003-03-15 2010-08-24 삼성전자주식회사 영상신호의 글자 인식을 위한 전처리 장치 및 방법
US7263223B2 (en) * 2003-05-05 2007-08-28 Hewlett-Packard Development Company, L.P. Image manipulation according to pixel type
WO2006109266A1 (en) * 2005-04-13 2006-10-19 Koninklijke Philips Electronics N.V. Method and apparatus for embedding data

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10904471B2 (en) 2016-03-30 2021-01-26 Nikon Corporation Feature extraction element, feature extraction system, and determination apparatus
US11791363B2 (en) 2016-03-30 2023-10-17 Nikon Corporation Element, system having the element, and judging apparatus
US12396286B2 (en) 2016-03-30 2025-08-19 Nikon Corporation Element, system having the element, and judging apparatus
WO2021075052A1 (ja) * 2019-10-18 2021-04-22 株式会社アシックス シューズ
KR20210066430A (ko) * 2019-11-28 2021-06-07 재단법인 경북아이티융합 산업기술원 도로 영상의 경계선 검출 장치 및 그 방법
KR102386930B1 (ko) * 2019-11-28 2022-04-14 재단법인 경북아이티융합 산업기술원 도로 영상의 경계선 검출 장치 및 그 방법

Also Published As

Publication number Publication date
US7840071B2 (en) 2010-11-23
US20080137954A1 (en) 2008-06-12

Similar Documents

Publication Publication Date Title
JP2008148298A (ja) 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体
US7379594B2 (en) Methods and systems for automatic detection of continuous-tone regions in document images
US10455117B2 (en) Image processing apparatus, method, and storage medium
KR101795823B1 (ko) 광학 문자 인식되는 텍스트 영상의 텍스트 개선 기법
EP1173003B1 (en) Image processing method and image processing apparatus
US8368956B2 (en) Methods and systems for segmenting a digital image into regions
US9251614B1 (en) Background removal for document images
US9965695B1 (en) Document image binarization method based on content type separation
EP2645332B1 (en) Image processing device that separates image into plural regions
CN105719243B (zh) 图像处理装置和方法
WO2003034335A2 (en) Method and apparatus for discriminating between different regions of an image
JP6743092B2 (ja) 画像処理装置、画像処理の制御方法、及びプログラム
US7876959B2 (en) Methods and systems for identifying text in digital images
JP3753357B2 (ja) 文字抽出方法および記録媒体
US20060210164A1 (en) Image processing device
JPH05225378A (ja) 文書画像の領域分割システム
US11551462B2 (en) Document scanning system
JP4967045B2 (ja) 背景判別装置、方法及びプログラム
CN114267035A (zh) 一种文档图像处理方法、系统、电子设备及可读介质
JP2010186246A (ja) 画像処理装置、方法、及び、プログラム
JP4213357B2 (ja) 画像処理装置、画像処理方法及び該方法を実行させるためのプログラム
JP4409713B2 (ja) 文書画像認識装置及び記録媒体
JP3150762B2 (ja) グラディエントベクトルの抽出方式及び文字認識用特徴抽出方式
US20060269132A1 (en) Apparatus and method for detecting white areas within windows and selectively merging the detected white areas into the enclosing window
Kachouri et al. Gamma correction acceleration for real-time text extraction from complex colored images

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120111