JP4919171B2

JP4919171B2 - 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム

Info

Publication number: JP4919171B2
Application number: JP2007500663A
Authority: JP
Inventors: 永記石寺
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-01-31
Filing date: 2006-01-30
Publication date: 2012-04-18
Anticipated expiration: 2026-01-30
Also published as: WO2006080568A1; JPWO2006080568A1

Description

この発明は、文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラムに係り、特に、自動車のナンバープレートなどのような文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合に用いて好適な文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラムに関する。

自動車のナンバープレートなどのような文字を含む画像をＣＣＤ（電荷結合素子）カメラなどで斜め方向から撮影した入力画像の文字を読み取る文字読取り装置は、従来から多く提案されている。このような文字読取り装置は、正面から撮影されずに斜め方向から撮影されたことに起因する幾何学変形を受けたナンバープレートの画像を補正して認識するようになっている。
従来、この種の技術としては、たとえば、次のような文献に記載されたものがある。
特開平０７−１１４６８９号公報（以下、文献１）に記載された車両登録番号認識方法では、ナンバープレートの文字部の外接四辺形を正面から見た場合の形状が標準四辺形として記憶され、車両走行路がビデオカメラで撮像され、車両検出に対応して走行車両の前景又は後景を含む画像が取り込まれる。
そして、ナンバープレート部の文字が切り出され、切り出された文字部の外接四辺形が求められ、この外接四辺形が上記標準四辺形と相似形状となるような座標変換パラメータセットが決定され、この座標変換パラメータセットを用いて座標変換が行われ、ナンバープレート部の正対画像を得て、同正対画像から各文字が認識される。これにより、ナンバープレートと車体の色が同系色の場合にエッジ検出が困難あるいは処理が複雑で時間がかかるという問題点が解決する。
特開２００２−００７９６１号公報（以下、文献２）に記載されたナンバープレート認識装置では、ナンバープレートを含む車両の画像が撮像装置により斜め方向から撮像されて画像記憶装置に記憶される場合、画像切り出し装置により撮像画像からナンバープレート画像が抽出及び切り出された後、画像補正装置により、同ナンバープレート画像の大きさやナンバープレート上の一連番号数字の位置や大きさに基づいて、同ナンバープレート画像を斜め方向から撮像したことによる歪みが補正されると共に、画像正規化装置により同補正後のナンバープレート画像が一定の大きさに正規化される。この後、文字認識装置により、ナンバープレート画像に対して文字認識処理が行われる。これにより、様々な距離や角度で撮影される車両の画像から簡易かつ正確なナンバープレートの認識が行われる。
ところが、上記各文献に記載された技術では、先ず始めにナンバープレート部の一連番号の文字が切り出されてからナンバープレートの画像を補正するようになっているが、幾何学変形が大きくなると、ナンバープレートから文字を切り出すこと自体が困難になるという問題点がある。この問題に対処する技術として、江浪他著、第１０回画像センシングシンポジウム講演論文集Ｂ−１０、「マッチドフィルタを用いたナンバープレート位置認識法、−距離・向きの影響排除−」Ｐ．６９−７４（以下、文献３）に記載されたものがある。
この文献３に記載されたナンバープレート位置認識法では、幾何学変形を受けた多数のナンバープレート画像が参照画像として予め用意され、マッチドフィルタを用いて全ての参照画像と入力画像との間でマッチドフィルタリング（相関）が行われる。
しかしながら、上記従来の技術では、次のような問題点があった。
すなわち、文献３に記載されたナンバープレート位置認識法では、全ての参照画像と入力画像との間でマッチドフィルタリングが行われるため、非常に多くの計算量を必要とし、処理時間が長くなるという問題点がある。
この発明は、上述の事情に鑑みてなされたもので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取ることが可能な文字読取り装置を提供することを目的としている。

上記課題を解決するために、請求項１記載の発明は、文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出手段と、前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出手段と、前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出手段と、前記文字列候補に対して文字認識を行う文字認識手段とを備えてなることを特徴としている。
請求項２記載の発明は、前記部分文字列抽出手段が、前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はアフィン変換に対して安定な特徴量を求め、この特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出する構成であることを特徴としている。
請求項３記載の発明は、前記特徴量が、任意の２つの文字候補領域の高さ、幅及び距離から求められる複比であることを特徴としている。
請求項４記載の発明は、前記部分文字列抽出手段は、前記特徴量を予め作成された辞書のデータと比較し、この比較結果に基づいて前記部分文字列を抽出する構成とされていることを特徴としている。
請求項５記載の発明は、前記辞書には、前記特徴量の取り得る値の範囲がデータとして記憶されることを特徴としている。
請求項６記載の発明は、前記文字列候補の周辺に記載されている情報を表す周辺情報を抽出する周辺情報抽出手段が設けられ、前記文字認識手段は、前記文字列候補に加え、前記周辺情報を認識する構成であることを特徴としている。
請求項７記載の発明は、前記周辺情報抽出手段は、前記文字列候補から基底ベクトルを求め、前記文字候補領域の位置関係を前記基底ベクトルの係数で表し、該係数を用いて前記位置関係の評価を行い、この評価結果に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴としている。
請求項８記載の発明は、前記周辺情報抽出手段が、前記係数を、予め作成された辞書のデータと比較し、この比較結果に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴としている。
請求項９記載の発明による文字読取り方法は、文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出処理と、前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出処理と、前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出処理と、前記文字列候補に対して文字認識を施す文字認識処理とを行うことを特徴としている。
請求項１０記載の発明は、前記部分文字列抽出処理において、前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はアフィン変換に対して安定な特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出することを特徴としている。
請求項１１記載の発明は、前記特徴量を、任意の２つの前記文字候補領域の高さ、幅及び距離から求められる複比とすることを特徴としている。
請求項１２記載の発明は、コンピュータ上で実行され、前記コンピュータを文字読取り装置として制御させるための文字読取り制御プログラムであって、前記コンピュータに、文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出機能と、前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出機能と、前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出機能と、前記文字列候補に対して文字認識を行う文字認識機能を実行させることを特徴としている。
請求項１３記載の発明は、前記部分文字列抽出機能において、前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はアフィン変換に対して安定な特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出する処理を実行することを特徴としている。
この発明の構成によれば、文字候補領域抽出手段で、文字を含む入力画像から文字として認識される候補となる文字候補領域が抽出され、部分文字列抽出手段で、同文字候補領域から連続する複数の文字の集合である部分文字列が抽出され、文字列候補抽出手段で、同部分文字列の組合せから文字列候補が抽出され、文字認識手段で、同文字列候補に対して文字認識が行われるので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取ることができる。
また、部分文字列抽出手段は、文字候補領域の任意の組合せから入力画像に対する射影変換又はアフィン変換に対して安定な特徴量を求め、この特徴量を用いて同文字候補領域の位置関係の評価を行い、この評価結果に基づいて部分文字列を抽出するので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読取り装置を実現できる。また、周辺情報抽出手段は、文字列候補の周辺に記載されている情報を表す周辺情報を抽出するので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読取り装置を実現できる。

図１は、この発明の実施例である文字読取り装置の電気的構成を示すブロック図である。
図２は、図１の文字読取り装置の動作を説明するフローチャートである。
図３は、部分文字列作成時に用いる特徴量の例を説明する図である。
図４は、文字列候補の評価に用いる複比の例を示す図である。
図５は、ひらがなを抽出する際に用いる複比の例を示す図である。
図６は、分類番号を抽出する際に用いる基底ベクトルの例を示す図である。
図７は、基準矩形に隣接する矩形を抽出する際の例を示す図である。
図８は、陸運局名の構成要素を抽出する例を示す図である。
図９は、陸運局名の部分の左端検出に用いる基底ベクトルの例を示す図である。
図１０は、複数の切り出し候補から認識結果を抽出する例を示す図である。
１：画像入力部（画像入力手段）、２：文字候補色抽出部（文字候補色抽出手段）、３：文字候補領域抽出部（文字候補領域抽出手段）、４：部分文字列抽出部（部分文字列抽出手段）、５：文字列候補抽出部（文字列候補抽出手段）、６：周辺情報抽出部（周辺情報抽出手段）、７：文字認識部（文字認識手段）

文字候補領域の任意の組合せから入力画像に対する射影変換又はアフィン変換に対して安定な特徴量を求め、この特徴量を用いて文字候補領域の位置関係の評価を行い、この評価結果に基づいて部分文字列を抽出し、同部分文字列の組合せから文字列候補を抽出し、同文字列候補に対して文字認識を行う文字読取り装置を提供する。

図１は、この発明の実施例である文字読取り装置の電気的構成を示すブロック図である。
この例の文字読取り装置は、同図に示すように、画像入力部１と、文字候補色抽出部２と、文字候補領域抽出部３と、部分文字列抽出部４と、文字列候補抽出部５と、周辺情報抽出部６と、文字認識部７と、制御部８とから構成されている。画像入力部１は、たとえばＣＣＤ（電荷結合素子）カメラなどで構成され、撮影の対象となる物体の画像を入力画像として取り込む。文字候補色抽出部２は、画像入力部１で取り込まれた入力画像から文字に対応する色成分を文字候補色として抽出する。
文字候補領域抽出部３は、文字候補色抽出部２で抽出された文字候補色をラベリングして、文字として認識される候補となる文字候補領域を抽出する。このラベリングとは、互いに連結している画素に対して同じラベル（番号）を付け、非連結の画素には異なるラベルを与える処理である。これにより、独立している画素集塊の計数を行ったり、連結している成分の形状解析が容易に行われる。
部分文字列抽出部４は、文字候補領域抽出部３で抽出された文字候補領域から同一文字列中で連続する複数の文字の集合である部分文字列を抽出する。
特に、この実施例では、部分文字列抽出部４は、字候補領域の任意の組合せから、画像入力部１で取り込まれた画像に対する射影変換又はアフィン変換に対して安定な特徴量を求め、この特徴量を用いて同文字候補領域の位置関係の評価を行い、この評価結果に基づいて部分文字列を抽出する。上記特徴量は、任意の２つの文字候補領域の高さ、幅及び距離から求められる複比である。そして、部分文字列抽出部４は、上記特徴量を予め作成された辞書と比較し、この比較結果に基づいて部分文字列を抽出する。
文字列候補抽出部５は、部分文字列抽出部４で抽出された部分文字列の組合せから文字列候補を抽出する。
周辺情報抽出部６は、文字列候補抽出部５で抽出された文字列候補の周辺に記載されている情報を表す周辺情報を抽出する。特に、この実施例では、周辺情報抽出部６は、文字列候補から基底ベクトルを求め、文字候補領域の位置関係を同基底ベクトルの係数で表し、同係数を用いて同位置関係の評価を行い、この評価結果に基づいて同文字列候補の周辺情報を抽出する。この場合、周辺情報抽出部６は、上記係数を、予め作成された辞書と比較し、この比較結果に基づいて上記文字列候補の周辺情報を抽出する。
文字認識部７は、文字列候補抽出部５で抽出された文字列候補、及び周辺情報抽出部６で抽出された周辺情報に対して文字認識を行う。制御部８は、この文字読取り装置全体を制御するＣＰＵ（中央処理装置）８ａ及び同ＣＰＵ８ａを動作させるための文字読取り制御プログラムが記録されたＲＯＭ（リード・オンリ・メモリ）８ｂを有している。
図２は、図１の文字読取り装置の動作を説明するフローチャート、図３が、部分文字列作成時に用いる特徴量の例を説明する図、図４は、文字列候補の評価に用いる複比の例を示す図、図５が、ひらがなを抽出する際に用いる複比の例を示す図、図６は、分類番号を抽出する際に用いる基底ベクトルの例を示す図、図７が、基準矩形に隣接する矩形を抽出する際の例を示す図、図８は、陸運局名の構成要素を抽出する例を示す図、図９が、陸運局名の部分の左端検出に用いる基底ベクトルの例を示す図、及び図１０が、複数の切り出し候補から認識結果を抽出する例を示す図である。
これらの図を参照して、この例の文字読取り装置に用いられる文字読取り方法の処理内容について説明する。
この文字読取り装置では、撮影の対象となる物体の画像が画像入力部１により入力画像として取り込まれる（ステップＡ１、画像入力処理）。入力画像は、文字候補色抽出部２で文字に対応する色成分が文字候補色として抽出される（ステップＡ２、文字候補色抽出処理）。この場合、たとえば、入力画像中の出現頻度の高い色成分が主要色として抽出され、同入力画像が、抽出された主要色毎の画像に分解され、分解された画像のうちの主要色が所定の関係にある複数の画像が組み合わされ、これらの組合せ画像がそれぞれ文字候補色とされる。文字候補領域抽出部３では、文字候補色をラベリングすることにより文字候補領域が抽出される（ステップＡ３、文字候補領域抽出処理）。この文字候補領域は、たとえば、文字候補色の画素の連結成分の情報及び同連結成分の外接矩形情報からなる。
部分文字列抽出部４では、入力された文字候補領域の外接矩形情報から、文字列中の連続する複数文字の集合になる可能性の高い矩形が部分文字列として抽出される（ステップＡ４、部分文字列抽出処理）。
この部分文字列抽出処理におけるアルゴリズムについて説明する。
カメラで撮影された看板などの画像は、幾何学的な変形を受けているが、その変形過程は、射影変換で表現される。幾何学的な変形は、ＣＣＤなどの画像センサの姿勢（速度、方向、距離）と、撮影対象物から同画像センサの投影中心までの距離によって表現されるが、この射影変換に対して不変な量として複比がある。たとえば、図３に示すように、連結成分の外接矩形に対して、ある２つの外接矩形から、Ｘ軸上に点Ａ，Ｂ，Ｐ，Ｑを取ると、次式（１）で表される特徴量１として複比が求められる。また、その他の特徴量として、次式（２）乃至（５）で表される特徴量２乃至特徴量５が求められる。
特徴量１＝（ＡＰ／ＰＢ）／（ＡＱ／ＱＢ）・・・（１）
特徴量２＝（Ｗ１／Ｈ１）／（Ｗ２／Ｈ２）・・・（２）
特徴量３＝Ｗ１／Ｈ１・・・（３）
特徴量４＝Ｄ１２／（Ｗ１＋Ｗ２＋Ｈ１＋Ｈ２）・・・（４）
特徴量５＝Ｄ１２／（Ｗ１＋Ｗ２）・・・（５）
特徴量１（複比）は、文字幅及び文字間隔が一定の場合、比較的安定な量となるが、文字を外接矩形で近似しているため、射影変換に対しては、完全に不変な量とはならない。
そこで、特徴量１を部分文字列特徴評価用辞書と比較し、この比較結果に基づいて上記２つの矩形が部分文字列であると判定される。この部分文字列特徴評価用辞書には、たとえば、特徴量１の取り得る値の範囲がデータとして記憶されている。部分文字列特徴評価用辞書は、たとえば、幾何学的変形を受けている看板やナンバープレートの画像を複数枚準備し、これらの画像から連続する２文字の外接矩形を取り出しておき、それらの特徴量１を求め、同特徴量１の最大値と最小値をデータとして記憶することにより作成される。
また、部分文字列特徴評価用辞書は、特徴量１の平均値を記憶したり、特徴量１の平均値及び分散を記憶したりすることにより作成される。また、部分文字列特徴評価用辞書は、部分文字列の種類毎に作成することも可能であり、たとえば、ナンバープレートの一連番号（２行目に記載の４桁の数字）に使われる文字は、「・」、「−」、「１」、「２」〜「０」の１２種類であるが、これを、「・」、「−」、「１」、「Ｎ」（Ｎは１以外の数字）の４種類に大別すると、部分文字列として可能な組合せは、「・・」、「・１」、「・Ｎ」、「１１」、「１Ｎ］、「１−」、「Ｎ１」、「ＮＮ」、「Ｎ−」、「−１」、「−Ｎ」の１１通りになり、これらの１１種類毎に特徴量１の範囲（最大値及び最小値）を記憶したり、特徴量１の平均値を記憶したり、特徴量１の平均値と分散を記憶したりすることにより作成される。
また、ある２つの矩形が部分文字列になるか否かを評価する場合、特徴量１以外の特徴量を用いることも可能であり、たとえば、特徴量２として２つの矩形の縦横比の比率を求め、この量によって、ある２文字が同じような縦横比になっているか否かの評価を行うことにより、部分文字列の抽出が行われる。また、たとえば「１−」のように、縦横比が異なる部分文字列の場合にも、その比率を部分文字列特徴評価用辞書と比較することにより、部分文字列として判定される。
また、特徴量３として、ある部分文字列の先頭の文字の縦横比を求め、特徴量３及び特徴量２を同時に用いることにより、部分文字列が「１−」であるとか、「・１」であるといったことが大略的に判定される。このような判定が行われると、たとえばナンバープレートの場合、「・−」という組合せや「８・」という部分文字列は有り得ないので、これらの部分文字列を抽出しないようにすることが可能になる。また、特徴量３を用いると、１文字目の縦横比が大きすぎたり小さすぎると判定された場合、「・」、「−」、「１」及び「Ｎ］の４種類に大別された文字のいずれにも分類されないとして、このような文字を１文字目とする部分文字列を作成しないようにすることもできる。
また、特徴量４又は特徴量５を用いることも可能である。すなわち、ナンバープレートの文字に使われる文字の「・」と「１」の関係を評価する場合、文字幅が同じであるので、特徴量５は比較的安定している。一方、文字の「５」と「１」のような場合は、両者の文字幅が大きく異なるため、特徴量５では安定にならないが、文字高さが同じになるので、特徴量４は比較的安定になる。
これらの特徴量２から特徴量５も、特徴量１と同様に、部分文字列特徴評価用辞書を作成することが可能であり、各特徴量の範囲（最大値と最小値）を記憶したり、各特徴量の平均値を記憶したり、各特徴の平均値及び分散を記憶することもできる。また、特徴量１から特徴量５までを５次元の特徴量と考え、平均ベクトル及び共分散行列を記憶することにより部分文字列特徴評価用辞書が作成される。
そして、ある２つの外接矩形の組合せに対して、式（１）乃至式（５）に示す特徴量を計算によって求め、これらの特徴量を予め部分文字列特徴評価用辞書に格納されたデータと比較することによって、今着目している２つの外接矩形が文字列中の連続する２文字（部分文字列）であるか否かが判定される。この判定処理を、あらゆる２つの外接矩形の組合せに対して行うことにより、画像中から複数の部分文字列が抽出される。部分文字列の情報としては、部分文字列の構成要素である１文字目の矩形と２文字目の矩形情報が格納され、たとえば、ナンバープレートの一連番号の場合には、どのような部分文字列であるかを表す情報（たとえば、「・・」や「１Ｎ」、「Ｎ−」など）も同時に格納される。
部分文字列抽出部４で抽出された部分文字列は、文字列候補抽出部５で連結され、同文字列候補抽出部５から文字列候補として出力される（ステップＡ５、文字列候補抽出処理）。この文字列候補抽出処理におけるアルゴリズムについて説明する。たとえば、部分文字列が２つの文字候補矩形から成っている場合、部分文字列を連結することにより文字列候補を作成する際に、ある２つの部分文字列が連結するためには、一方の部分文字列の２文字目が他方の部分文字列の１文字目になっていることが条件となる。この条件により、入力された部分文字列情報から複数の文字列候補が抽出されることもある。
また、この条件だけでなく、文法的により詳しい評価を行うこともできる。たとえば、ナンバープレートの一連番号の場合、「・１」という部分文字列と「１−」という部分文字列が連結することは文法的に有り得ないので、このような部分文字列は作成しないようにすることもできる。
また、抽出したい文字列候補が一連番号だった場合には、文字列に含まれる文字の数が４文字又は５文字に限られているので、３つか４つの部分文字列から成る文字列候補のみが一連番号の候補として抽出される。
また、上記のような文法的な評価を行った後、連結された部分文字列の各要素となる矩形の中心点の配置を評価し、直線的に並んでいるか否かを判定して、直線的に並んでいる文字列候補だけを一連番号の候補とする。直線的に並んでいるか否かの評価には、各矩形の中心点の座標を用いて、たとえば、回帰分析や最小自乗法などから残差を求め、これが予め決められた閾値以下であれば直線的であると判定したり、主成分分析による第一主成分の寄与度が予め決められた閾値以上であれば、直線的であると判定される。
また、一連番号の候補を抽出する場合、図４に示すように、点Ａｓ，Ｂｓ，Ｐｓ，Ｑｓを取り、複比（ＡｓＰｓ／ＰｓＢｓ）／（ＡｓＱｓ／ＱｓＢｓ）を計算し、この値が予め定められた一定の範囲内に入っている文字列候補のみを一連番号の候補とする。ここで、複比（ＡｓＰｓ／ＰｓＢｓ）／（ＡｓＱｓ／ＱｓＢｓ）の範囲を予め決めるには、たとえば、幾何学的変形を受けているナンバープレートの画像を複数枚準備し、これらの画像から一連番号のハイフン以外の外接矩形を取り出しておき、それらの矩形中心のｘ座標から、それぞれ複比を求めて最大値及び最小値を記憶することにより範囲を決めることができ、また、複比の平均値を記憶したり、同平均値及び分散を記憶することにより、範囲を決めることも可能である。
図４のように点Ａｓ，Ｂｓ，Ｐｓ，Ｑｓを取る意義について説明する。ハイフンの有無は記載されている文字に依存するが、ハイフン以外の文字の中心点の配置は全ての場合で基本的に同じになるという性質があるので、ハイフン以外の文字の中心点を取れば、ハイフンの有無にかかわらず全ての一連番号に対して同じ処理を行うことができる。
周辺情報抽出部６では、文字列候補抽出部５で抽出された文字列候補の周辺に記載されている情報が抽出される（ステップＡ６、周辺情報抽出処理）。たとえば、ナンバープレートの場合、一連番号が抽出された後に、ひらがな、陸運局名及び分類番号に対応する情報が抽出される。この周辺情報抽出処理におけるアルゴリズムについて説明する。
まず、一連番号の候補が抽出された後に、ひらがなを抽出する場合、図５（ａ）に示すように、文字列候補の中心点から求めた直線上で、ひらがなの中心点が存在する個所を点Ａ１として点Ｂ１，Ｑ１，Ｐ１を設定すると、複比が計算される。たとえば、幾何学的変形を受けているナンバープレートの画像を複数枚準備し、これらの画像から一連番号及びひらがなの外接矩形を取り出しておき、図５（ａ）に示すように、点Ａ１，Ｂ１，Ｑ１，Ｐ１を取って複比の平均値を予め求め、ひらがなの中心点を推定する際には、予め求めておいた複比の平均値から逆算することにより、ひらがなの中心点が推定される。
また、図５（ｂ）に示すように、点Ａ２，Ｂ２，Ｑ２，Ｐ２を設定して同様の処理を行うことも可能であるし、点Ａ１と点Ａ２との平均値を取って、ひらがなの中心点とすることも可能である。この場合、ひらがなが記載されている中心点だけでなく、その範囲も推定し、推定された範囲内に存在する全ての矩形を組み合わせたものが、ひらがなの領域であると判定される。
たとえば、一連番号の１文字目と２文字目の中心間距離Ｐ１Ｑ１、及び一連番号の３文字目と４字目の中心間距離Ｑ２Ｂ２を用いて、α×Ｐ１Ｑ１×（Ｐ１Ｑ１／Ｑ２Ｂ２）がひらがなの幅と高さとして推定される。ここで、αは、予め定められた定数であり、たとえば０．４から０．６の範囲に設定される。推定されたひらがなの中心点と幅と高さによって、ひらがなの存在可能領域が定義され、この領域に含まれる全ての矩形がひらがなの構成要素とされる。ここで、「領域に含まれる」とは、たとえば、矩形全体が領域内に入っている場合とすることもできるし、矩形の中心点が領域内に入っている場合としても良い。
ひらがなは、一連番号に用いられるアラビア数字のような単一の連結成分で表すことが困難な場合があるため、複数の矩形の集合をひらがなであると判定すれば、高い精度でひらがなが抽出される。ナンバープレートの２行目に記載されているひらがな及び一連番号の候補が抽出された場合、１行目に記載されている分類番号及び陸運局名の候補が抽出される。
まず、分類番号の抽出について説明する。ここまでの処理で抽出された一連番号とひらがなの情報だけでは、射影パラメータを推定することは難しいので、１行目では、アフィン変換に対して比較的安定な特徴量を用いる。また、一連番号の最後の桁にハイフン「−」やドット「・」が記載されることはなく、必ず数字が記載されているので、最後の桁の文字の高さは安定な量である。また、一連番号の最後の桁の文字の中心から、その１つ前の文字の中心までのベクトルを設定すると、これも記載されている文字に関わらず安定な量である。
そこで、図６に示すように、原点ｏ及び基底ベクトルｘ，ｙを設定し、分類番号の最後の桁の中心点のベクトルを、
ｖ＝ａｘ＋ｂｙ
として表せば、係数ａ，ｂは、アフィン変換に対して比較的安定な量になる。このため、係数ａ，ｂが予め定められた範囲内に入っている矩形を抽出することにより、分類番号の最後の桁に対応する矩形が抽出される。
ここで、予め定められた範囲は、たとえば、幾何学的変形を受けているナンバープレートの画像を複数枚準備し、各画像について一連番号の下２桁の矩形及び分類番号の最後の桁の矩形を取り出しておき、それらから原点ｏを一連番号の最後の桁に対応する矩形の中心に置き、基底ベクトルｘ，ｙを作成して分類番号の最後の桁に対応する矩形中心の座標を、
ｖ＝ａｘ＋ｂｙ
として係数ａ，ｂを求め、同係数ａ，ｂの最大値及び最小値を記憶することにより設定される。また、係数ａ，ｂの平均値を記憶したり、同係数ａ，ｂを２次元の特徴ベクトルと考えることにより、平均ベクトル及び共分散行列が記憶される。このような方法では、分類番号の最後の桁の候補として複数の矩形が抽出される可能性がある。そこで、分類番号の最後の桁の候補として抽出された矩形のうち、右端の値（ｘｅ）が最大になる矩形のみを分類番号の最後の桁に対応する矩形とする。
次に、図７に示すように、分類番号の最後の桁に対応する矩形を基準矩形として、ある矩形のＸ軸における中心点Ｘｍが基準矩形の左端ＢＸｓより小さく、Ｙ軸における中心点Ｙｍが基準矩形の下端ＢＹｓと上端ＢＹｅの間にあり、かつ矩形の高さｈと基準矩形の高さＢｈとの比ｈ／Ｂｈが０．８から１．２の範囲ならば、分類番号の最後から２桁目に対応する矩形候補であると判定されるが、この時点では、複数の矩形が候補として抽出される可能性がある。そこで、候補として抽出された矩形の中で、基準矩形との矩形中心間距離が最も小さいものが、最後から２桁目に対応する矩形として抽出される。
同様に、最後から２桁目に対応する矩形を基準矩形に取り直して、同様の基準で評価を行い、基準を満たした矩形は、最後から３桁目となる可能性をもつ矩形であるとして抽出される。予め分類番号の桁数を知ることは困難なので、３桁目となる可能性をもつ矩形は、必ずしも分類番号に対応した矩形とは限らず、陸運局名の一部である可能性もあるため、文字認識結果も参照しながら桁数を決定する必要があり、この実施例では、文字認識部７の認識結果を参照することによって決定される。よって、ここでは、あくまでも仮の候補として、最後から３桁目の可能性をもつ矩形が抽出される。
次に、陸運局名の抽出について説明する。
陸運局名の抽出では、始めに、図８に示すように、既に抽出された分類番号の下２桁の矩形の上端及び下端を用いてボトムライン１ｂ及びトップライン１ｔを抽出する。ボトムライン１ｂは、分類番号の最後の桁に対応する矩形の下辺の中心点（ｘｍ１，ｙｓ１）と最後から２桁目に対応する矩形の下辺の中心点（ｘｍ２，ｙｓ２）を結んだ直線であり、トップライン１ｔは、各矩形の上辺の中心点（ｘｍ１，ｙｅ１）と（ｘｍ２，ｙｅ２）を結んだ直線である。これらの２つのライン（ボトムライン１ｂ及びトップライン１ｔ）に挟まれた領域に中心が位置する矩形を、陸運局名を構成する構成要素の矩形とする。
また、これらの陸運局名の構成要素の矩形一つ一つを基準矩形として、図７に示すような、ある矩形のＸ軸における中心点Ｘｍが基準矩形の左端ＢＸｓより小さく、Ｙ軸における中心点Ｙｍが基準矩形の下端ＢＹｓと上端ＢＹｅの間に入っており、かつ矩形同士の中心間距離が両者の矩形周囲長の１／４以下であり、さらに、これまで抽出されてきた一連番号、ひらがな、分類番号及び陸運局名の構成要素の矩形のどれにも当てはまらない矩形があった場合、その矩形は、新たな陸運局名の構成要素の矩形として登録される。
また、図９に示すように、原点ｏ２、基底ベクトルｘ２，ｙ２を設定し、
ｖ２＝ａ２ｘ２＋ｂ２ｙ２
とすれば、予め定められたナンバープレートの左側のネジの位置に固有の係数ａ２，ｂ２の値の範囲を参照することにより、陸運局名の左端が推定される。ネジの位置に固有の係数ａ２，ｂ２の値の範囲は、たとえば、幾何学的変形を受けているナンバープレートの画像を複数準備し、各画像について一連番号の先頭の２文字及び左側のネジに対応する矩形を取り出しておき、それらから原点ｏ２及び基底ベクトルｘ２，ｙ２を求め、ネジに対応する矩形中心の座標を、
ｖ２＝ａ２ｘ２＋ｂ２ｙ２
として係数ａ２，ｂ２を求め、同係数ａ２，ｂ２の最大値及び最小値を、それぞれ記憶することにより決定される。
また、係数ａ２，ｂ２の平均値を記憶したり、同係数ａ２，ｂ２を２次元の特徴ベクトルと考えることにより、平均ベクトル及び共分散行列が記憶される。この場合、陸運局名の文字を構成する矩形の中で一番左に位置する矩形に対しても、同様に、係数ａ２，ｂ２の最大値及び最小値、係数ａ２，ｂ２の平均値が記憶され、また、係数ａ２，ｂ２を２次元の特徴ベクトルと考えることにより、平均ベクトル及び共分散行列が記憶される。
ここで、ナンバープレートの一連番号は、先頭の文字が数字かドットの両方の可能性があり、基底ベクトルｙ２は一連番号の最後の桁の高さから求め、図６における基底ベクトルｙと同じものを用いているため、ナンバープレートの左側ネジの位置に対する推定精度が高くない可能性もあるので、間違いなくネジであるか又はそれよりも左に位置する矩形を陸運局名の構成要素の矩形から除外し、ネジであるか陸運局名の構成要素の矩形かを判断しかねる場合には、判定を保留して多候補化することにより、文字認識部７の認識結果を参照することによって決定される。
すなわち、係数ａ２，ｂ２の範囲として、ネジだけが存在する範囲１、ネジと陸運局名の構成要素の両者が存在する範囲２、及び陸運局名の構成要素だけが存在する範囲３に分けて考え、同範囲２に入っている矩形のみを、あくまでも仮の候補として陸運局名の構成要素の可能性のある矩形も抽出する。
文字認識部７では、これら抽出された各パート、すなわち、一連番号、ひらがな、及び分類番号に対して、陸運局名毎に文字認識が行われる。このとき、一連番号及びひらがなは、既に矩形抽出の曖昧さがないので、各領域毎に通常の文字認識処理が行われる。一方、ナンバープレートの１行目には、陸運局名及び分類番号が記載されているが、分類番号の桁数が未知であること、及び陸運局名の左端が必ずしも良い精度で求まらない可能性もある。このことから、図１０に示すように、複数の切り出しの可能性について全て文字認識処理を施し、最も認識結果の確からしい候補が、陸運局名及び分類番号の抽出結果となる。
このとき、分類番号の認識では、各矩形毎に通常の文字認識処理が行われるが、陸運局名の認識の場合、陸運局名全体を１つのパターンと考えて、通常の文字認識で用いられるようなテンプレートマッチングを行うこともできる。また、各矩形の特徴抽出を行う場合、同各矩形の縦横の比率を１：４に設定してから特徴抽出を行うような方法を用いることも可能である。
また文字認識の確からしさは、文字認識スコアとして表され、このスコアには、たとえば、“電子情報通信学会技術研究報告ＰＲＭＵ９８−１６０、石寺他、「住所読み取りにおける文字認識結果の評価方式」”に記載の方法を用いることができる。たとえば、［２位認識結果の距離値／１位認識結果の距離値］が文字認識スコアとして用いられる。最終的には、各認識スコアの総和が最も大きくなるような候補を、切り出しと認識の結果とする。
この場合、たとえば図１０に示すように、切り出し候補１の「川崎３０」と認識した場合のスコアが最も高いので、この結果から、矩形番号の２から６（矩形２，３，４，５，６）までが陸運局名の構成要素であり、矩形番号の７と８の矩形（矩形７，８）が分類番号に対応するとして、切り出しと認識の結果が確定する。
また、この実施例では、文字候補色抽出部２で複数の文字候補色が抽出される可能性があり、さらに、一つ一つの文字候補色に対しても複数の文字列候補が抽出される可能性があるので、これらの全ての候補に対して、各認識スコアの総和が最大となる認識結果が、ナンバープレートの認識結果であると判定される。
以上のように、この実施例では、部分文字列抽出部４で、ラベリングで得られた矩形の任意の２つから射影変換やアフィン変換に対して安定な特徴量を求め、この特徴量を統計的に学習した辞書と比較することにより、連続する２つの文字を部分文字列として抽出し、さらに文字列候補抽出部５で、部分文字列が直線的に連続し、かつ定められたピッチになっているか否かの評価も射影変換に対して安定な特徴量に基づいて行うので、斜め方向から撮影されたナンバープレートに対しても、高速かつ精度良く一連番号に対応する文字列を抽出することができる。
また、周辺情報抽出部６においては、一連番号の文字列に関する情報を用いて射影変換やアフィン変換に対して安定な特徴量を求め、この特徴量を統計的に学習した辞書と比較することにより、ひらがな、分類番号及び陸運局名に対応する矩形を抽出するので、斜め方向から撮影されたナンバープレートに対しても、高速かつ精度良くこれらの文字列を抽出することができる。よって、斜め方向から撮影されたナンバープレートのような認識対象に対しても、幾何学的な変形に頑健で高速に精度良くナンバープレートに記載の全情報を認識することができる。
以上説明したように本発明によれば、文字候補領域抽出手段で、文字を含む入力画像から文字として認識される候補となる文字候補領域が抽出され、部分文字列抽出手段で、同文字候補領域から連続する複数の文字の集合である部分文字列が抽出され、文字列候補抽出手段で、同部分文字列の組合せから文字列候補が抽出され、文字認識手段で、同文字列候補に対して文字認識が行われるので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取ることができる。
また、部分文字列抽出手段は、文字候補領域の任意の組合せから入力画像に対する射影変換又はアフィン変換に対して安定な特徴量を求め、この特徴量を用いて同文字候補領域の位置関係の評価を行い、この評価結果に基づいて部分文字列を抽出するので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読取り装置を実現できる。また、周辺情報抽出手段は、文字列候補の周辺に記載されている情報を表す周辺情報を抽出するので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読取り装置を実現できる。

この発明は、ナンバープレートの他、たとえば道路標識や看板などに書かれた文字の読取りや、ビデオキャプションなどの文字を読み取る際にも適用できる。

Claims

文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出手段と、
前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出手段と、
前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出手段と、
前記文字列候補に対して文字認識を行う文字認識手段とを備えて構成され、
前記部分文字列抽出手段は、
前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はアフィン変換によって変動しない特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出する構成であり、
前記特徴量は、
任意の２つの前記文字候補領域の幅及び距離から求められる複比である
ことを特徴とする文字読取り装置。
前記部分文字列抽出手段は、
前記特徴量を、予め作成された辞書のデータと比較し、この比較結果に基づいて前記部分文字列を抽出する構成であることを特徴とする請求項１に記載の文字読取り装置。
前記辞書には、前記特徴量の取り得る値の範囲がデータとして記憶されることを特徴とする請求項２に記載の文字読取り装置。
前記文字列候補の周辺に記載されている文字の情報を表す周辺情報を抽出する周辺情報抽出手段が設けられ、
前記文字認識手段は、
前記文字列候補に加え、前記周辺情報を認識する構成であることを特徴とする請求項１から請求項３の何れか１項に記載の文字読取り装置。
前記周辺情報抽出手段は、
前記文字列候補から基底ベクトルを求め、前記文字候補領域の位置関係を前記基底ベクトルの係数で表し、該係数を用いて前記位置関係の複比を求め、前記複比に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴とする請求項４に記載の文字読取り装置。
前記周辺情報抽出手段は、
前記係数を、予め作成された辞書のデータと比較し、この比較結果に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴とする請求項５に記載の文字読取り装置。
２つの前記文字候補領域の左端と右端の座標情報から複比を算出して前記２つの文字候補領域の確度を評価することを特徴とする請求項１に記載の文字読取り装置。
４つの各前記文字候補領域の中心点の座標情報から複比を算出して、複比の値が予め定められている一定の範囲内にない文字列候補を、不要な文字列候補と判断して、文字列候補から削除することを特徴とする請求項１に記載の文字読取り装置。
前記文字候補領域に対して、２つの前記文字候補領域の左端と右端の座標情報から複比を算出して確度の高い文字列候補を検出した後、複数の前記確度の高い文字列候補に含まれる４つの各前記文字候補領域の中心点の座標情報から複比を算出して、複比の値が予め定められている一定の範囲内にない文字列候補を、不要な文字列候補と判断して、文字列候補から削除することを特徴とする請求項１に記載の文字読取り装置。
文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出処理と、
前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出処理と、
前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出処理と、
前記文字列候補に対して文字認識を施す文字認識処理とを行い、
前記部分文字列抽出処理において、
前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はアフィン変換によって変動しない特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出し、
前記特徴量を、任意の２つの前記文字候補領域の幅及び距離から求められる複比とする
ことを特徴とする文字読取り方法。
２つの前記文字候補領域の左端と右端の座標情報から複比を算出して前記２つの文字候補領域の確度を評価することを特徴とする請求項１０に記載の文字読取り方法。
４つの各前記文字候補領域の中心点の座標情報から複比を算出して、複比の値が予め定められている一定の範囲内にない文字列候補を、不要な文字列候補と判断して、文字列候補から削除することを特徴とする請求項１０に記載の文字読取り方法。
前記文字候補領域に対して、２つの前記文字候補領域の左端と右端の座標情報から複比を算出して確度の高い文字列候補を検出した後、複数の前記確度の高い文字列候補に含まれる４つの各前記文字候補領域の中心点の座標情報から複比を算出して、複比の値が予め定められている一定の範囲内にない文字列候補を、不要な文字列候補と判断して、文字列候補から削除することを特徴とする請求項１０に記載の文字読取り方法。
コンピュータ上で実行され、前記コンピュータを文字読取り装置として制御させるための文字読取り制御プログラムであって、
前記コンピュータに、
文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出機能と、
前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出機能と、
前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出機能と、
前記文字列候補に対して文字認識を行う文字認識機能を実行させ、
前記部分文字列抽出機能において、
前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はアフィン変換によって変動しない特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出する処理を実行し、
前記特徴量を、任意の２つの前記文字候補領域の幅及び距離から求められる複比とする
ことを特徴とする文字読取りプログラム。
２つの前記文字候補領域の左端と右端の座標情報から複比を算出して前記２つの文字候補領域の確度を評価することを特徴とする請求項１４に記載の文字読取りプログラム。
４つの各前記文字候補領域の中心点の座標情報から複比を算出して、複比の値が予め定められている一定の範囲内にない文字列候補を、不要な文字列候補と判断して、文字列候補から削除することを特徴とする請求項１４に記載の文字読取りプログラム。
前記文字候補領域に対して、２つの前記文字候補領域の左端と右端の座標情報から複比を算出して確度の高い文字列候補を検出した後、数の前記確度の高い文字列候補に含まれる４つの各前記文字候補領域の中心点の座標情報から複比を算出して、複比の値が予め定められている一定の範囲内にない文字列候補を、不要な文字列候補と判断して、文字列候補から削除することを特徴とする請求項１４に記載の文字プログラム。