WO2018151043A1

WO2018151043A1 - 画像処理方法、及びコンピュータプログラム

Info

Publication number: WO2018151043A1
Application number: PCT/JP2018/004598
Authority: WO
Inventors: 栄竹内; 克犬嶋
Original assignee: Sofnec Co ltd
Current assignee: Sofnec Co ltd
Priority date: 2017-02-15
Filing date: 2018-02-09
Publication date: 2018-08-23
Anticipated expiration: 2019-08-15
Also published as: JP2018132953A; JP6294524B1

Abstract

【課題】種々の色を含む画像、特に実写画像から、文字や標識などの意味ある情報を抽出するに適した２値画像を作成することができる画像処理方法およびプログラムを提供する。【解決手段】対象となるカラー画像から背景領域を除いた文字領域を特定するステップと、前記背景領域に含まれる各ピクセルをＬ（Ｌ＞＝２）個のグループに分類するステップと、前記文字領域に含まれる各ピクセルを、背景領域のＬ個と文字領域固有のＮ（Ｎ＞＝２）個をあわせたＮ＋Ｌ個のグループに分類するステップと、背景領域のグループを同一のグループとみなし、Ｎ＋１個のグループを２分し、一方に含まれるピクセルを同一の１色で、他方に含まれるピクセルを他の１色で表示する２値画像を作成するステップとを実行する。

Description

画像処理方法、及びコンピュータプログラム

本発明は、種々の色を含む画像、特に実写画像から、文字や標識などの意味ある情報を抽出するに適した２値画像を作成することができる画像処理方法に関する。

テレビの映像のような動画像には、画像に文字がオーバーレイされていることが多く、文字のみを抽出する機能が必要となることがある。　最近の画像の多くはカラー画像であるが、従来のカラー画像の文字抽出処理は、モノクロの２値画像処理の手法を援用するものであった。すなわち、カラー画像を何らかの方法で２値化処理してモノクロの２値画像とした後に、この２値画像について文字データを抽出しようとするものである。　ところが、カラー画像は種々の色を含んでいることから、文字抽出に関し、次のような問題がある。それは、カラー画像においては文字の色と、その背景色とが異なるにもかかわらず、２値化処理をした結果、文字及び背景色が共に黒（又は白）に変換され、その結果、文字が失われてしまう、という問題である。　特許文献１には、種々の色を含むカラー原稿から各色の画像を正確に認識することができる「画像認識方法」が提案されている。

特開２００４－２１７６５号公報

特許文献１に記載の発明によれば、カラー画像を２値画像とすることなく、カラーイメージデータを各色毎に分離した複数のイメージデータ毎に認識処理を行なう。従って、例えばカラー原稿において各色毎に異なる文字を表して、原稿がカラーであることを生かすことができる。また、カラー原稿において文字の色とその背景色とが異なりさえすれば、これらが共に黒に変換され文字が失われることを防止でき、レイアウト認識ができなくなることを防止して、円滑に文字認識処理に移行することができる。

　しかしながら、ここで対象となる画像はカラーではあるもののあくまでドキュメントであり、風景、人物などの実写映像は考慮されていない。実写映像ではピクセル値が連続して変化するため、特許文献１の段落〔００３１〕－〔００３２〕のような、クラスタリングの前に色数を求めることは意味がない。
　本発明は、テレビで放映される動画像のような種々の色を含む自然画像から文字を確実に抽出するための２値画像を作成することを目的とする。

本発明は、カラー画像を２値化する画像処理方法であって、対象となるカラー画像から背景領域を除いた文字領域を特定するステップと、前記背景領域に含まれる各ピクセルをＬ（Ｌ＞＝２）個のグループに分類するステップと、前記文字領域に含まれる各ピクセルを、背景領域のＬ個と文字領域固有のＮ（Ｎ＞＝２）個をあわせたＮ＋Ｌ個のグループに分類するステップと、背景領域のグループを同一のグループとみなし、Ｎ＋１個のグループを２分し、一方に含まれるピクセルを同一の１色で、他方に含まれるピクセルを他の１色で表示する２値画像を作成するステップと、からなることを特徴とする。

本発明の画像処理方法によれば、背景領域と文字領域のそれぞれについてグループ化した後、複数の２値画像を作成する。個々の２値画像だけでは、完全な文字データの抽出はできないとしても、これら複数の２値画像から得られる情報を総合すると高い精度で文字データが抽出できる。

本発明では、入力されたカラー画像を、ピクセル単位でＬ^＊ａ^＊ｂ^＊表色系の色空間の座標に変換して、この変換後の画像に対して、前記文字領域を特定するステップ以降の処理を行うとよい。
　このように、ＲＧＢ値に比べると人間の視覚の特性をよく反映した色表現であるＬ^＊ａ^＊ｂ^＊値に変換するので、人間にとって違和感なく色の類似性を評価できる。

本発明では、前記背景領域のグループ化は、色数Ｌ個についてのＫ－ｍｅａｎｓ法により行い、前記文字領域のグループ化は、色数が当初Ｍ＋Ｌ個についてのＫ－ｍｅａｎｓ法により行い、文字領域に固有のＭ（Ｍ＞Ｎ）個のグループのうち属するピクセル個数が最も少ないグループを削除する処理を、Ｍが最終的なグループ個数Ｎに達するまで繰り返すとよい。　文字には、あまり背景には現れないような色が用いられることが多い。そのため、背景領域と文字領域とにＫ－ｍｅａｎｓ法を別々に適用することで、適切に文字部分のグループ化ができる。また、文字領域のグループ化にあたって、背景領域のグループ化で求めたピクセル値に近い色が文字領域にあれば、そのピクセルは背景に属するものとする。これにより、文字領域として特定された領域にあっても、本来は背景に属するピクセルは背景領域にあるものとして適切に分類されるので、２値化処理の精度が高まる。

本発明では、前記文字領域固有のグループ化に使用される当初のＭ色は、Ｒ，Ｇ，Ｂ，Ｃ（シアン）、Ｍ（マゼンダ）、Ｙ（イエロー），白、黒の８色であるとよい。　文字の色は、黒や青など純色が多いので、文字領域を対象とするＫ－ｍｅａｎｓ処理は、これらの色からスタートすることが望ましい。

　入力されたカラー画像から、複数の２値画像を作成するので、それらを合成すれば高い精度で文字データを抽出できる。

本発明の実施形態に係る画像処理装置の構成を示す機能ブロック図である。本発明の実施形態に係る処理の概略を説明するフロー図である。本発明の実施形態に係る原画像と文字領域特定後の画像を例示する説明図である。本発明の実施形態に係る背景領域グループ化処理を説明するフロー図である。本発明の実施形態に係る文字領域グループ化処理を説明するフロー図である。本発明の実施形態に係る２値画像を作成するためにグループを２分する場合の数を説明するための図である。本発明の実施形態に係る出力結果である２値画像を例示する図である。

　図面を参照しながら本発明の一実施形態の画像処理装置について説明する。
以下、次の項目別に説明する。
《１．画像処理装置の機能ブロック構成》
《２．画像処理装置による前処理（文字領域特定）》
《３．画像処理装置による本処理１（背景領域のグループ化）》
《４．画像処理装置による本処理２（文字領域のグループ化）》
《５．画像処理装置による本処理３（処理対象図形についての２値画像作成）》

《１．画像処理装置の機能ブロック構成》
　図１を参照して、画像処理装置１の機能に着目した構成について説明する。
　画像処理装置１は、パソコンやスマートフォンなどのコンピュータと、そのコンピュータに実装されたコンピュータプログラム（請求項５～８に係るコンピュータプログラムに相当）によって実現されている。
　画像処理装置１は、処理部２と記憶部３と通信インターフェース部４を備える。これらのほかに、オペレータが操作時に用いるマウスやキーボードなどの入力操作部、ディスプレイやプリンタなどの出力部やカメラなども適宜備えるが図示は省略する。

　記憶部３には、入力された画像（以下、「処理対象画像」）、文字領域特定のための学習サンプル、各種パラメータ類、処理部２による各種の中間処理結果などが格納され、メモリやハードディスクなどの記憶装置によって実現される。
　パラメータ類には、文字領域を特定するために使用する畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ。以下、「ＣＮＮ」）のパラメータ類、背景領域および文字領域をグループ化する際のグループ個数と各グループの代表ピクセル値の初期値などが含まれる。
　中間処理結果には、特定された文字領域、ピクセル毎の所属グループなどのＫ－ｍｅａｎｓ法の適用に伴う途中経過などが含まれる。
　記憶部３には、コンピュータを画像処理装置１として機能させるためのプログラムも含まれ、これらのプログラムがメモリ上に読み込まれ、読み込まれたプログラムコードを図示しないＣＰＵが実行することによって処理部２の各部が動作することになる。
　次に、処理部２について説明する。

　処理部２は、画像取得部２１と、文字領域特定処理部２２と、背景領域グループ化処理部２３と、文字領域グループ化処理部２４と、２値画像作成部２５を備える。以下、各部２１～２５の説明とあわせて、図２を参照しながら画像処理装置１による処理の概要も説明する。

画像取得部２１は、通信インターフェース部４を介して、外部の通信ネットワークや情報処理装置から処理対象画像を取得し、この画像の各ピクセルの色情報を、Ｌ^＊ａ^＊ｂ^＊色空間の座標に変換する（図２のステップＳ１）。文字領域特定処理以降（図２のステップＳ２～Ｓ５）は、変換後の各ピクセルに基づいて処理が行われる。　ここで、変換を行うのは、Ｌ^＊ａ^＊ｂ^＊色空間が、ＲＧＢ色空間よりも人による色の認識に近い座標表示をすることができ、従って、人による色の認識にほぼ正確に従うように色を分離することができるからである。

文字領域特定処理部２２は、本実施形態では、文字領域内存否判定部２２ｂに実装された機械学習の機能によって処理対象画像から背景を除いた文字領域を特定する（図２のステップＳ２）。本発明は、背景領域と文字領域とに分け、それぞれについてＫ－ｍｅａｎｓ法を適用したグループ化を行う点に特徴のひとつがある。そのために、文字領域特定処理部２２は、処理対象画像に含まれる各ピクセルが背景領域と文字領域のいずれに含まれるかを判定する。
ところで、文字領域内存否判定部２２ｂの実体はＣＮＮであり、予め機械学習部２２ａによって、ＣＮＮのパラメータ類が調整されている。機械学習部２２ａと文字領域内存否判定部２２ｂについては、後述する《２．画像処理装置による前処理（文字領域特定）》において説明する。

背景領域グループ化処理部２３は、文字領域特定処理部２２によって文字領域の背景と判定された領域の各ピクセルを、Ｋ－ｍｅａｎｓ法を適用してＬ個（Ｌ＞＝２）のグループに分類する。（図２のステップＳ３）。

文字領域グループ化処理部２４は、文字領域特定処理部２２によって特定された文字領域毎に、その文字領域に含まれる各ピクセルを、Ｋ－ｍｅａｎｓ法を適用してグループ化する。当初のグループ数は文字領域固有のＭ個と背景領域と同じＬ個との合計Ｍ＋Ｌ個であるが、Ｋ－ｍｅａｎｓ法によるピクセルの分類が安定し、グループ化が収束する度に文字領域固有のグループを目的のＮ個になるまで段階的に削除していくので、最終的に文字領域固有のＮ個と背景領域Ｌ個との合計Ｎ＋Ｌ個にグループ化される（図２のステップＳ４）。ここでＮは、Ｎ＞＝２の整数であり、Ｍは、Ｍ＞Ｎの整数である。

２値画像作成部２５は、背景領域と文字領域の２段階でグループ化処理がされた結果に基づいて複数の２値画像を作成する。本発明は、文字抽出のために原画像を２値画像にすることが目的なので、背景領域にあるピクセルについては、そのピクセルが背景領域内に存在するという情報のみが必要なのである。そのため、背景領域に分類されたＬ個のグループを区別せずに１個のグループとして取扱い、文字領域に分類されたＮ個のグループとあわせた（Ｎ＋１）個のグループのいずれかに処理対象画像の各ピクセルを分類する。（Ｎ＋１）個のグループを２色（通常は、白と黒）で色分けする場合の数は、２^{（Ｎ＋１）}である。しかし、すべて白あるいは黒となる場合を除外するので、{２^{（Ｎ＋１）}―２}個の場合について２値画像を作成する（図２のステップＳ５）。　以上で《１．画像処理装置の機能ブロック構成》についての説明を終える。続いて、画像処理装置１による動作を説明する。

《２．画像処理装置による前処理（文字領域特定）》
　画像取得部２１は、処理対象のカラー画像を受け取ると、各々のピクセルについて、その色情報をＲＧＢ色空間等からＬ^＊ａ^＊ｂ^＊色空間へ座標変換する。即ち、各ピクセルを、ピクセル単位で、明度Ｌ^＊、色相ａ^＊、彩度ｂ^＊で表す。
　続いて、Ｌ^＊ａ^＊ｂ^＊色空間の座標に変換された後の処理対象図形について文字領域特定処理を行う。以下、この処理について詳しく説明する。

　本実施形態では、１枚の画像に含まれる文字データの存在する文字領域を特定し、文字の背景にある画像領域（「背景領域」）と区別する。文字領域を特定するために、機械学習の一種であるＣＮＮを利用する。そのため、文字領域特定処理部２２による処理を説明する前に、画像処理装置１による機械学習の機能について説明する。

　画像処理装置１は機械学習部２２ａを備え、予め大量の学習用画像を収集し学習サンプルを取り出し、機械学習にかけ、結果を検証して機械学習用のパラメータを調整しておく。具体的には、学習用の画像を収集し、これらの画像の文字領域内から正サンプルを、それ以外の領域から負サンプルを抽出する。全体が完全に文字領域内に含まれている正サンプルは、その中心が文字領域に含まれる尤度を１．０とし、文字領域内にまったく含まれていない負サンプルは、その中心が文字領域に含まれる尤度を０．０とする。この尤度が教師データであって、学習サンプルとこの教師データとが対応づけられる。
　新たな学習サンプルが入力される都度、尤度を算出し、この尤度が教師データと乖離している場合、パラメータを調整する。例えば、文字領域内から抽出した学習サンプルは、その中心が必ず文字領域内にあるので、その尤度は１．０となるはずである。ところが、機械学習による出力結果と本来の尤度１．０とが乖離しているならば、この差をできるだけ少なくするように、所望の精度が実現されるまでパラメータの調整，つまりＣＮＮの学習をするのである。
　このように調整されたパラメータは、文字領域内存否判定部２２ｂにエクスポートされる。
　以上、機械学習について簡単に説明をした。それでは、文字領域特定処理の説明に戻る。

　文字領域特定処理部２２による文字領域特定処理は、以下のように機械学習後のＣＮＮを利用して行われる。
　文字領域特定処理部２２は、処理対象画像を走査し、学習サンプルと同じ大きさの小領域（以下、「単位領域」）を取り出す。例えば、画像の左上から所定の移動量で右端へ向かって走査し、右端へ達すると所定の移動量だけ下方へ移動し、左端へ向かって走査する。これを処理対象画像の全体に渡って繰り返す。
　取り出された単位領域はその都度、文字領域内存否判定部２２ｂに入力され、文字領域特定処理部２２は当該単位領域の中心が文字領域内に存在する尤度を出力結果として得る。

　文字領域特定処理部２２は、処理対象画像の全体を走査し、単位領域の中心の尤度を取得したならば、その尤度が予め設定した閾値以上か否かによって文字領域内か否かを判定する。この判定結果により、処理対象画像の各ピクセルが文字領域に属するのか、背景領域に属するのかが確定する。例えば、図３（ａ）に示す処理対象画像は、図３（ｂ）の２値画像のように文字領域と背景領域とに分離された。図３（ｂ）では、背景領域は黒でぬりつぶされ、文字領域は白抜きされている。この例では、文字領域はchA,chB,chCの３領域があり、後続する文字領域グループ化処理では、これら３つの文字領域を別々に処理する。まとまった位置に集まっている文字同士は同じような色であることが多く、離れた位置にある文字同士は異なる色であることが多いからである。

　なお、上述した機械学習部２２ａは、本実施の形態のカラー画像の２値化処理と非同期で動作する。であるから、機械学習部２２ａは、画像処理装置１とは別のコンピュータに実現させてもよい。機械学習の結果である文字領域内存否判定部２２ｂについても、別のコンピュータに実現させて、通信回線を介して文字領域特定処理部２２との間でデータの送受信をするようにしてもよい。

　以上、《２．画像処理装置による前処理（文字領域特定）》の説明をしたが、背景および文字領域のグループ化処理の説明の前に、本発明における文字領域特定処理の意義を述べる。
すなわち、本発明の活用場面として想定されるのは、カラーの実写映像の一部分に文字がオーバーレイされている状況において、文字データを洩れなく抽出することである。そのために、オーバーレイされた領域と背景領域とをあらかじめマスクとして特定しておくことが望ましい。なぜなら、まず背景部分のみをグループ化して、次に文字を背景から際立った色として抽出することが可能となるからである。もし、文字領域を特定することなく、背景と文字が混在した処理対象画像全体をＫ－ｍｅａｎｓ法でグループ化するだけでは、得られる２値画像に混ざりこむ背景を十分には除去できず、文字認識などの後続処理の使用に耐えられない。

《３．画像処理装置による本処理１（背景領域のグループ化）》
　背景領域グループ化処理部２３は、処理対象画像の背景領域に含まれる各ピクセルをＫ－ｍｅａｎｓ法に従って所定個数Ｌ個のグループに分類する。以下、図４の処理フローを参照しながら説明する。

まず、グループ個数Ｌを設定し、Ｋ－ｍｅａｎｓ法の処理カウンタＮｐを１に初期設定する（ステップＳ３１）。Ｌ個のグループにそれぞれの代表ピクセル値の初期値ｂｇＣＬＲ（ｌ）（ｌ＝１、２、・・・、Ｌ）を設定する（ステップＳ３２）。なお、代表ピクセル値は、Ｋ－ｍｅａｎｓ法による処理を繰り返すと、いずれ収束するので、初期値は任意に設定してよい。

注目ピクセル（ｉ，ｊ）のピクセル値をＰij（３次元実ベクトル）とし、ノルムＳ（ｌ）＝｜Ｐij－ｂｇＣＬＲ（ｌ）｜（ｌ＝１、２、・・・、Ｌ）を計算する（ステップＳ３３）。Ｓ（ｌ）はＬ^＊ａ^＊ｂ^＊色空間の座標内における注目ピクセルと各グループの暫定的な代表ピクセル値との距離である。Ｓ（ｌ）（ｌ＝１、２、．・・・、Ｌ）のうち最小の値に対応するグループを注目ピクセル（ｉ，ｊ）が属するグループとする。この計算をすべての背景領域内のピクセルについて行い、すべてのピクセルはＬ個のグループのいずれかに分類される。

次に、ステップＳ３３によるグループ化が安定したかどうかを判定する。処理カウンタＮｐが１より大、つまりＫ－ｍｅａｎｓ法の処理が初回でなければ（ステップＳ３４で“Ｎｐ＞１”）、全ピクセルについて、その属するグループが前回のＫ－ｍｅａｎｓ処理の適用結果と同一であるか否かを判定し、同一でないピクセルの個数が所定の閾値（０を含む）を超えていれば（ステップＳ３５でＮｏ）、ステップＳ３６の処理へ移る。Ｋ－ｍｅａｎｓ法の処理が初回の場合も（ステップＳ３４で“Ｎｐ＝１”）、ステップＳ３６の処理へ移る。ステップＳ３６では、同一グループに含まれるピクセルのピクセル値平均を計算し、得られた平均値で各グループの代表ピクセル値を更新するとともに、処理カウンタＮｐに１を加算する。ステップＳ３６の処理を終えると、ステップＳ３３の処理へ戻る。すなわち、ステップＳ３３～Ｓ３６の処理を、全ピクセルのグループ化が安定するまで繰り返す。

Ｋ－ｍｅａｎｓ法の処理が２回以上実行され（ステップＳ３４で“Ｎｐ＞１”）、且つＫ－ｍｅａｎｓ処理が収束したならば（ステップＳ３５でＹｅｓ）、各グループの最終的な代表ピクセル値ｂｇＣＬＲ（ｌ）が確定し（ステップＳ３７）、これらの値が後続の文字領域グループ化処理において参照される。

《４．画像処理装置による本処理２（文字領域のグループ化）》
　文字領域グループ化処理部２４は、処理対象画像の文字領域に含まれる各ピクセルをＫ－ｍｅａｎｓ法に従って所定個数のグループに分類する。以下、図５を参照しながら説明する。

　文字領域は、最終的にはＮ個（２＝＜Ｎ＜８）の文字領域に固有のグループに分けられる。ただし、文字領域内であっても文字の周囲に背景が映り込むことがあるので、この背景に属するピクセルを文字そのもののピクセルと分離したい。そのために上述した背景領域のグループ化によって得られたＬ個のグループもＫ－ｍｅａｎｓ法による処理で使用する。
　文字領域に固有のグループは最終的にはＮ個であるが、当初は８個に設定する。つまり、文字固有８個と背景Ｌ個の合計（８＋Ｌ）個のグループでＫ－ｍｅａｎｓ法による処理を開始する（図５のステップＳ４１）。ここで、Ｋ－ｍｅａｎｓ法の処理カウンタＮｐを１に初期設定する。
　ところで、文字ははっきりした色で描画されていたり、あるいは縁取られていたりすることが多い。したがって文字固有グループの初期値として、8色の純色からスタートする。この８色は、光の３原色のＲとＧとＢ、C（シアン）、M（マゼンタ）、Y（イエロー）、および白と黒である。

背景グループの代表ピクセル値をｂｇＣＬＲ（ｌ）（ｌ＝１、２、・・・、Ｌ）とし、文字固有グループの代表ピクセル値をｃｈＣＬＲ（ｍ）（ｍ＝１、２、・・・、８）とする。　注目ピクセル（ｉ，ｊ）のピクセル値をＱｉｊとする。ピクセル値は３次元実ベクトルであり、ノルムｂｇＳ（ｌ）＝｜Ｑｉｊ－ｂｇＣＬＲ（ｌ）｜（ｌ＝１、２、・・・、Ｌ）およびノルムｃｈＳ（ｍ）＝｜Ｑｉｊ－ｃｈＣＨＲ（ｍ）｜（ｍ＝１、２、・・・、８）を計算する（ステップＳ４２）。ｂｇＳ（ｌ）はＬ^＊ａ^＊ｂ^＊色空間の座標内における注目ピクセルと背景領域の各グループの固定ピクセル値との距離であり、ｃｈＳ（ｍ）は文字領域に固有な各グループの暫定的な代表ピクセル値との距離である。

全グループについて算出された{ｂｇＳ（１）＊β、・・・、ｂｇＳ（Ｌ）＊β、ｃｈＳ（１）、ｃｈＳ（２）、・・・、ｃｈＳ（８）}のうち最小の値に対応するグループを注目ピクセル（ｉ，ｊ）が属するグループとする。ここで、背景グループとの距離に乗じたβ（例えば、β＝１．５）はバイアスである。バイアスをかけるのが好ましいのは、文字領域内のピクセルは背景領域内のグループの色に近いとしても、できるだけ文字として判定されるようにしたいからである。ただし、β＝１、つまりバイアスをかけなくてもかまわない。この計算をすべての文字領域内のピクセルについて行い、すべてのピクセルを（８＋Ｌ）個のグループの何れかに分類する（ステップＳ４２）。

次に、ステップＳ４２によるグループ化が安定したかどうかを判定する。処理カウンタＮｐが１より大、つまりＫ－ｍｅａｎｓ法の処理が初回でなければ（ステップＳ４３で“Ｎｐ＞１”）、全ピクセルについて、その属するグループが前回のＫ－ｍｅａｎｓ処理の適用結果と同一であるか否かを判定し、同一でないピクセルの個数が所定の閾値（０を含む）を超えていれば（ステップＳ４４でＮｏ）、ステップＳ４５の処理へ移る。Ｋ－ｍｅａｎｓ法の処理が初回の場合も（ステップＳ４３で“Ｎｐ＝１”）、ステップＳ４５の処理へ移る。ステップＳ４５では、同一グループに含まれるピクセルのピクセル値平均を計算し、得られた平均値で各グループの代表ピクセル値を更新する。ただし、背景領域に属するグループについては、更新しない。　この代表ピクセル値の更新後に、処理カウンタＮｐに１を加算し（ステップＳ４５）、グループ化が安定するまで（ステップＳ４４でＮｏの場合）、同じグループ個数でＳ４２～Ｓ４５を繰り返す。グループ化が安定し（ステップＳ４４でＹｅｓ）、且つ文字固有グループ数がＮ個を超えていれば（ステップＳ４６でＮｏ）、グループ内ピクセル個数が最も少ない文字固有グループを削除し（ステップＳ４７）、グループ個数を文字領域７個と背景Ｌ個の合計（７＋Ｌ）個とする。背景領域に属するグループはＬ個のままであって、削除対象としない。１個のグループを削除後、処理カウンタＮｐを１に再初期化した後、再度ステップＳ４２に戻る。ここで、ステップＳ４７で削除されたグループに分類されていたピクセルは、再度実行されるステップＳ４２において、残ったグループの中で最も近い代表ピクセル値を持つグループに吸収される。このようなピクセルを吸収したグループは、続くステップＳ４５において吸収したピクセルを含めたピクセル値平均を再計算する。

Ｋ－ｍｅａｎｓ法によるグループの分類が収束し（ステップＳ４４でＹｅｓ）、かつ文字領域固有のグループ数がＮ個になつたならば（ステップＳ４６でＹｅｓ）、文字領域内のピクセルは、文字領域Ｎ個と背景Ｌ個の合計（Ｎ＋Ｌ）個にグループ化されたことになる。　図５に示す処理は、文字領域特定処理によって、特定された文字領域の個数分だけ実行される。図３（ｂ）の例では、文字領域がｃｈＡ，ｃｈＢ，ｃｈＣの３つあるので、文字領域グループ化処理を３回実行することになる。
　なお、本実施の形態では、Ｋ－ｍｅａｎｓ法による処理を、背景Ｌ個のグループに加え文字固有の８個のグループから開始しているが、この８個は目標とするＮ個よりも多い。文字固有グループ数の初期値を８にするのは、Ｋ－ｍｅａｎｓ法が初期値に影響されるため、目標とする値よりも大きな値から段階的に減らすことが望ましいからである。さらに、あまり小さいグループ数でＫ－ｍｅａｎｓ法による処理を実行すると、残すべき文字の色のグループが消滅する可能性が出てくる。これらを考慮すると８個のグループから処理を開始することが適当である。しかしながら、グループ数が８個のままでは、本実施形態の出力結果である２値画像の個数が５１０個となって、実装上時間がかかりすぎる。そのため、段階的にグループ数を減らすこととした。

《５．画像処理装置による本処理３（処理対象図形についての２値画像作成）》
　２値画像作成部２５は、処理対象画像がＮ＋Ｌ個のグループに分類された結果を受けて、各グループに属するピクセルを白または黒に変換する２値化処理を行う。

ここで、背景および文字領域を対象としたグループ化処理が終了してしまえば、もはや各グループの具体的な代表ピクセル値は情報として必要ない。背景部分のピクセルについては、ただ背景として分類されたという結果のみが意味をもつ。従ってピクセル毎に、背景の１個のグループに分類されたか、文字領域のＮ個のグループのいずれかに分類されたかが意味のある情報として残る。
　Ｎ＝２の場合、背景を含めたグループ個数が３なので、図６に示すように、各グループを白あるいは黒で塗り分ける場合の数は（１）～（８）の８通りがある。ただし、（１）と（８）は全グループを同一の色にするので意味がなく、（２）～（７）の６通りの２値画像が作成されればよい。

　図７には、図３（ａ）に例示する処理対象図形から得られた２値画像の内２つを示す。
図７（ａ）も（ｂ）も、図３（ａ）の原画像にあった文字データを洩れなく抽出できてはいない。しかし、１枚の２値画像では不十分であるとしても、複数の２値画像を合成すれば、文字データの抽出洩れを少なくすることができる。文字の色にグラデーションがかかっていたり、文字が縞模様で描かれていたりといった画像であっても高い精度で文字データの抽出が可能である。
　なお、Ｎ＝３とすると２値画像の個数は１４個、Ｎ＝４とすると２値画像の個数は３０個となり、文字抽出の精度が上がることになる。処理対象画像に含まれる色の個数や必要とされる精度などを勘案して適切なＮの値を設定すればよい。

出力された複数の２値画像データは、例えば文字認識を行う外部装置に送られたり、画面表示されたりする。得られた２値画像をどのように利用するかは、本発明とは別の発明の課題である。

以上、本発明の一実施の形態を説明したが、本発明は特許請求の範囲に開示した主旨に従って、種々の変形が可能である。

例えば、上記の実施の形態では、原データをＬ^＊ａ^＊ｂ^＊色空間の座標に変換しているが、原データの元の色情報をそのまま用いてもかまわない。Ｌ^＊ａ^＊ｂ^＊は、人間の視覚の特性に合致しているのでより望ましいというだけである。さらに、文字領域をグループ化する際の初期値として、８つの純色を用いたが、ＲＧＢの３色あるいはＣＭＹＫの４色を用いてもよい。

　さらに、上記の実施の形態では、色表現を変換した後、直ちに文字領域特定処理の入力データとしていた。しかし、文字領域特定処理に先行して平滑化によるノイズ除去を行ってもよい。すなわち、本発明の最終段階で得られた２値画像に大量のノイズが含まれているのでは、これらの２値画像に基づく後続処理（例えば、文字認識処理）の精度が低下するので、ｂｉｌａｔｅｒａｌ　ｆｉｌｔｅｒ等によって平滑化し、ノイズの少ない２値画像を出力することが望ましいのである。

　上記の実施の形態では、２値化の目的は文字データの抽出であったが、本発明は文字だけでなく、ピクトグラム（絵文字）や交通標識などの抽出を目的としてもよい。これらも文字と同様に、視覚に訴えて情報を伝えたり注意を喚起したりするものだからである。
　また、本発明はテレビの映像にオーバーレイされた文字データの抽出などへの利用に適しているが、カラーの印刷物をスキャナで読み取った画像等についても利用できる。

　カラー画像を対象とした画像処理技術、特にテレビのテロップ等からの文字抽出に活用される技術として、広い需要が期待される。

１：画像処理装置
　　２：処理部
　　　　２１：画像取得部
　　　　２２：文字領域特定処理部
　　　　２３：背景領域グループ化処理部
　　　　２４：文字領域グループ化処理部
　　　　２５：２値画像作成部
　　３：記憶部
　　４：通信インターフェース部

Claims

カラー画像を２値化する画像処理方法であって、対象となるカラー画像から背景領域を除いた文字領域を特定するステップと、前記背景領域に含まれる各ピクセルをＬ（Ｌ＞＝２）個のグループに分類するステップと、前記文字領域に含まれる各ピクセルを、背景領域のＬ個と文字領域固有のＮ（Ｎ＞＝２）個をあわせたＮ＋Ｌ個のグループに分類するステップと、背景領域のグループを同一のグループとみなし、Ｎ＋１個のグループを２分し、一方に含まれるピクセルを同一の１色で、他方に含まれるピクセルを他の１色で表示する２値画像を作成するステップと、からなることを特徴とする画像処理方法。
入力されたカラー画像を、ピクセル単位でＬ^＊ａ^＊ｂ^＊表色系の色空間の座標に変換することを特徴とする請求項１に記載の画像処理方法。
前記背景領域のグループ化は、色数Ｌ個についてのＫ－ｍｅａｎｓ法により行い、前記文字領域のグループ化は、色数が当初Ｍ＋Ｌ個についてのＫ－ｍｅａｎｓ法により行い、文字領域に固有のＭ（Ｍ＞Ｎ）個のグループのうち属するピクセル個数が最も少ないグループを削除する処理を、Ｍが最終的な個数Ｎに達するまで繰り返すことを特徴とする請求項１又は２のいずれかに記載の画像処理方法。
前記文字領域固有のグループ化に使用される当初のＭ色は、Ｒ，Ｇ，Ｂ，Ｃ（シアン）、Ｍ（マゼンダ）、Ｙ（イエロー），白、黒の８色であることを特徴とする請求項３に記載の画像処理方法。
カラー画像を２値化するために、コンピュータに、対象となるカラー画像から背景領域を除いた文字領域を特定するステップと、前記背景領域に含まれる各ピクセルをＬ（Ｌ＞＝２）個のグループに分類するステップと、前記文字領域に含まれる各ピクセルを、背景領域のＬ個と文字領域固有のＮ（Ｎ＞＝２）個をあわせたＮ＋Ｌ個のグループに分類するステップと、背景領域のグループを同一のグループとみなし、Ｎ＋１個のグループを２分し、一方に含まれるピクセルを同一の１色で、他方に含まれるピクセルを他の１色で表示する２値画像を作成するステップと、を実行させることを特徴とするコンピュータプログラム。
入力されたカラー画像を、ピクセル単位でＬ^＊ａ^＊ｂ^＊表色系の色空間の座標に変換することを特徴とする請求項５に記載のコンピュータプログラム。
前記背景領域のグループ化は、色数Ｌ個についてのＫ－ｍｅａｎｓ法により行い、前記文字領域のグループ化は、色数が当初Ｍ＋Ｌ個についてのＫ－ｍｅａｎｓ法により行い、文字領域に固有のＭ（Ｍ＞Ｎ）個のグループのうち属するピクセル個数が最も少ないグループを削除する処理を、Ｍが最終的な個数Ｎに達するまで繰り返すことを特徴とする請求項５又は６のいずれかに記載のコンピュータプログラム。
前記文字領域固有のグループ化に使用される当初のＭ色は、Ｒ，Ｇ，Ｂ，Ｃ（シアン）、Ｍ（マゼンダ）、Ｙ（イエロー），白、黒の８色であることを特徴とする請求項７に記載のコンピュータプログラム。