[go: up one dir, main page]

JP4541995B2 - 図形認識方法 - Google Patents

図形認識方法 Download PDF

Info

Publication number
JP4541995B2
JP4541995B2 JP2005244670A JP2005244670A JP4541995B2 JP 4541995 B2 JP4541995 B2 JP 4541995B2 JP 2005244670 A JP2005244670 A JP 2005244670A JP 2005244670 A JP2005244670 A JP 2005244670A JP 4541995 B2 JP4541995 B2 JP 4541995B2
Authority
JP
Japan
Prior art keywords
recognition
pattern
ratio
character
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005244670A
Other languages
English (en)
Other versions
JP2007060417A (ja
Inventor
誠一 内田
雅一 岩村
真一郎 大町
浩一 黄瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka Metropolitan University
Original Assignee
Osaka Prefecture University PUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka Prefecture University PUC filed Critical Osaka Prefecture University PUC
Priority to JP2005244670A priority Critical patent/JP4541995B2/ja
Publication of JP2007060417A publication Critical patent/JP2007060417A/ja
Application granted granted Critical
Publication of JP4541995B2 publication Critical patent/JP4541995B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

この発明は、図形認識(パターン認識)方法に関し、より詳細には、認識のためのカテゴリ情報の埋め込み、あるいは埋め込まれたカテゴリ情報を用いた図形認識に関する。
近年普及がめざましいデジタルカメラは、図形パターンの入力装置として優れた特性を有している。その携帯性やボタン一つの操作性は、スキャナは使いにくいと感じていたユーザにも受け入れられ易いと考えられる。実環境中にあって動かせない文字(例えば看板)を入力対象とできる点も魅力的である。
しかし、入力された図形パターンを認識に用いようとする場合、例えば、実環境中の文字を認識しようとする場合には、図形処理技術の観点から様々な課題がある。例えば、撮影状況に起因した様々な歪みがある。すなわち、幾何歪み(特に射影変換歪み)、低解像度、非均質照明、ぼけ・手ぶれ、といった歪みを受けた文字は、従来のOCR用に開発された認識手法では手に負えない。
こうした撮影状況に起因した歪みへの幾つかの対処法が提案されている(例えば、非特許文献1、2参照)。例えば、幾何歪みに対しては、各文字を対象とした弾性マッチング法や文書全体を対象としたdewarping手法が提案されている(例えば、非特許文献3参照)。また、非均質照明に対しては局所2値化といった手法が検討されている(例えば、非特許文献4、5、6参照)。これらの検討はいずれも、実環境中の文字をなるべく従来のOCRの枠組みで認識するための、特徴抽出や前処理に関する工夫であるといえる。
このような、前述の種々の手法と異なる観点から、機械可読性を補強するような付加情報(認識情報)を予め文字パターンそのものに埋め込むアプローチがなされている。言い換えると、実環境での機械認識を容易なものにする工夫を文字パターン側に施す手法である。このような試みは、OCRやMICR(magnetic ink character recognition)の黎明期に既に為されている。すなわち、機械読み取りのために独特の形状を持たせたフォントである(例えば、非特許文献7、8参照)。例えば、C.M.C.7と呼ばれるMICRフォントは、広狭2種類の間隔を持つ7本の垂直線分を用いて設計されており、これら6つの間隔が文字コードを定める。
あるいは、近年ではDataGlyphが知られている(例えば、非特許文献9参照)。DataGlyphは、外観への影響を極力排除した文字へのデータ埋め込み方式である。具体的には、文字図形を細かな「/」、「\」からなるテクスチャパターンで構成するというものである。
黄瀬、大町、内田、岩村:「カメラを用いた文字認識・文書画像解析の現状と課題」、信学技報、PRMU2004-246 (2005) D. Doermann, J. Liang and H. Li: "Progress in camera-based document image analysis", Proc. ICDAR'03, pp. 606-616 (2003) S. Uchida and H.Sakoe: "A survey of elastic matching techniques for handwritten character recognition", IEICE Trans. Info. & Syst., E88-D, To appear (2005) 大谷、塩:「情景画像からの文字パターンの抽出と認識」、信学論(D)、J71-D, 6, pp. 1037-1047 (1988) 仙田、西山、旭:「携帯カメラによる日本語文字認識の手法と実現」、信学技報、PRMU2004-124 (2004) 平山、大町、阿曽:「カラー情報を利用した情景画像中の文字列の高精度抽出」、信学技報, PRMU2004-247 (2005) The British Computer Society: "Character Recognition 1967", Unwin Brothers Limited (1966) 橋本著:「文字認識概論」、オーム社 (1980) D. L. Hecht: "Printed embedded data graphical user interfaces", IEEE Computer, 3, pp. 47-55 (2001)
前述のように、文字認識を含む従来のパターン認識の研究は、人間可読性だけが高いパターンを何とかして機械認識することを目指してきた。一方、昨今は、ユビキタスコンピューティングに関する研究の隆盛が暗示するように、ビデオカメラ、携帯カメラなどの撮影装置がまさに遍在しており、各種パターンを機械認識すべき機会が多くなっている。こうした状況を考えると、人間可読性と機械可読性の両方が高いパターンを生成し、それを人間と機械の両者を仲立ちするメディアとして活用することが今後重要になってくるものと思われる。
しかし、前述したOCR/MICRフォントやDataGlyphなどは、いずれもスキャナでの撮像を前提として設計されたものであり、カメラでの撮像を前提としたものではない。従って、例えば、カメラで撮像されたDataGlyphから情報抽出する場合は、撮像時の歪みを補正しながら元のDataGlyphを推定するという方法をとらざるを得ない。
スキャナだけではなくカメラでの撮像を想定した好適な情報の埋め込み手法、あるいは認識手法が望まれている。換言すれば、OCR/MICRフォントを、実環境中での文字認識に拡張し得る手法が望まれている。
この発明は、スキャナだけでなくカメラでの撮像に対しても好適な手法を用いて機械可読性を補強するような情報を図形に埋め込み、前記情報が埋め込まれた実環境中の図形、例えば文字パターンを高い精度で認識することのできる認識手法を提供するものである。
上記の課題を解決するため、この発明は、特に次の2点に対する解決手段を提供するものである。
第1に、射影変換歪みに影響されない付加情報の埋め込み方法を提供する。この方法のより具体的な例として、水平縞模様状のパターン(以下、複比パターン)を埋め込んだ図形を提供する。
即ち、この発明は、図形を認識するために用いる認識情報を、不変量を用いて図形に埋め込み認識用図形を作成することを特徴とする認識情報の埋め込み方法を提供する。
当然のことながら、文字パターンはこの明細書でいう図形に含まれる。この縞目の間隔から計算される複比(複比については、例えば参考文献2参照)は射影変換に対する不変量であって、どのような角度から撮影した図形であっても、量子化等の影響がなければ、常に同じ複比を抽出できるものである。
ここで、認識すべき全ての種類の図形を予め複数のカテゴリに分類しておく。そして、複比の値と各カテゴリとを対応付けておけば、各図形が属するカテゴリを複比の値として埋め込むことができる。例えば、アルファベットの文字パターンに対して各カテゴリに1つの文字が属するように26のカテゴリに分類することができる。このようにすれば、各文字パターンが属するカテゴリを複比の値として埋め込んで認識用文字パターンを作成することができる。作成された認識用文字パターンに埋め込まれたカテゴリは、射影変換歪を受けても不変な情報として埋め込まれる。
第2に、作成された認識用図形、例えば、認識用文字パターンから、埋め込まれた情報を抽出し、抽出した情報と通常のパターン認識、例えば、文字パターンの形状による通常の文字認識の結果を統合することで、認識用図形が射影変換歪みを受けたとしても高精度な認識が可能な認識方法を提供する。
即ち、この発明は、不変量を用いて認識用図形に埋め込まれた情報を抽出し、抽出した情報に基づいて前記認識用図形に対応する元の図形を認識することを特徴とする図形認識方法を提供する。
(参考文献2)佐藤:「コンピュータビジョン」、コロナ社、東京 (1999)
この発明による認識情報の埋め込み方法は、不変量を用いて前記認識情報を図形に埋め込み認識用図形を作成するので、例えば、前記認識用図形が射影変換歪みを受ける場合であっても、射影変換に対する不変量を用いて前記認識情報を埋め込めば作成される認識用図形は高い認識精度を与えることができる。
前記図形が、文字画像であってもよい。このようにすれば、高い文字認識精度を与える認識用文字パターンを作成することができる。
また、前記不変量が、前記認識用図形の射影変換に対する不変量であってもよい。さらに、前記不変量が複比であってもよい。このようにすれば、認識用図形が射影変換歪みを受ける場合であっても、埋め込まれた認識情報を正確に抽出させることができ、従って作成された認識用図形は、高い認識精度を与えることができる。
さらにまた、前記情報が、複数の平行縞のパターンを前記図形に重畳して埋め込まれるものであり、各縞の幅の比からその内容が得られるようにした情報であってもよい。このようにすれば、平行縞のパターンを重畳するという簡単な処理で図形に認識情報を埋め込むことができ、重畳された各縞の幅から簡単な処理で埋め込まれた認識情報を抽出させることができる。
また、この発明の図形認識方法は、不変量を用いて認識用図形に埋め込まれた情報を抽出し、抽出した情報に基づいて前記認識用図形に対応する元の図形を認識するので、例えば、前記認識用図形が射影変換歪みを受けて入力された場合、射影変換に対する不変量を用いて前記情報が埋め込まれていれば正確な情報を抽出して高い認識精度を実現することができる。
図形の認識が、前記認識用図形の形状的特徴であって前記情報と独立した形状的特徴と抽出された前記情報とに基づいて行われるようにしてもよい。ここで、前記情報と独立した形状的特徴とは、前記情報が埋め込まれない状態、即ち元の図形が有する形状的特徴であって、いわゆる通常のパターン認識として抽出される特徴であってもよい。例えば、図形が文字パターンであれば、いわゆる通常の文字認識によって認識される文字の特徴である。
元の図形が、文字画像であってもよい。このようにすれば、埋め込まれた情報を用いて、認識用文字パターンから高い文字認識精度で文字を認識することができる。
また、前記認識用図形がカメラによって撮影された図形であってもよい。このようにすれば、カメラを用いて実環境中の図形を入力し、あるいは簡便な操作で図形を入力して認識を行うことができる。
前記不変量が、前記認識用図形の射影変換に対する不変量であってもよい。さらに、前記不変量が複比であってもよい。このようにすれば、認識用図形が射影変換歪みを受けたものであっても、埋め込まれた情報を正確に抽出することができ、従って高い認識精度が得られる。
前記情報が、認識すべき全ての種類の図形を予め複数のカテゴリに分類して各図形がいずれのカテゴリに属するかを示すように埋め込まれた情報であってもよい。このようにすれば、好ましいカテゴリと複比の対応付けを選択することによって高い認識精度を得ることができる。例えば、文字パターンに対するカテゴリと、複比との対応を予め定めておき、文字パターンが属するカテゴリを認識用文字パターンに埋め込んでおく。入力した認識用文字パターンから埋め込まれた複比を抽出し、認識のための情報として用いることができる。文字形状の認識と複比の値として抽出したカテゴリの情報とを併用することで、たとえ認識用文字パターンが射影変換歪みを受けていたとしても、非常に高い認識精度を得ることができる。
以下、図面を用いてこの発明をさらに詳述する。以下の説明により、この発明をよりよく理解することが可能であろう。
前述のように、この発明は、不変量を用いた付加情報の埋め込みに係るものであるが、不変量の好適な例として、射影変換歪みに対する不変量である複比をとりあげる。ただし、この発明の本質は射影変換歪に限定されるものではなく、また、複比に限定されるものではない。また、複比を元の図形に埋め込む好適な例として、元の図形にパターンとして水平縞模様状のパターンを重畳する態様をとりあげるが、付加情報を埋め込む態様はこれに限定されるものではない。さらに、付加情報を埋め込む対象として文字に注目するが、同様の技術は文字以外の図形についてもそのまま適用可能である。そのような図形としては、例えば、種々のマークやシンボル、会社のロゴや商標図形などが考えられる。このように、以下の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。
1.文字への複比埋め込みと抽出
まず、文字画像パターンに対し、ある複比を持つパターン(模様)を埋め込むことを考える。埋め込む複比の値と文字カテゴリの対応付けには様々な形態が考えられる。例えば、各カテゴリに異なる複比を埋め込んでもよいし、複数のカテゴリに同じ複比を埋め込んでもよい。前者の場合、複比さえ正しく抽出できれば、文字形状を使わなくても識別できることになる。以下、これらいずれの場合も含む一般的な場合について説明する。
1.1. 複比パターン
埋め込みの形式については様々考えられるが、ここでは文字線と背景を併せた文字画像全体に、5本の帯からなる平行縞を1セットとした模様(以下、複比パターン)を埋め込むことを考える。ただし、帯の数は5本に限定されるものではなく、これより多くしてもよい。この場合、複数の複比を埋め込むようにしてもよい。図2は、複比パターンを埋め込んだ文字画像及びその射影変換例を示す説明図である。このうち、図2(a)は複比パターンを埋め込んだ文字の例である。ここでは、説明の都合上、目立つように配色した複比パターンを用いている。
5本の帯のうち、最初と最後の帯は複比パターンの存在範囲を表すガイドである。これら2本のガイドに挟まれた残る3本の帯により埋め込む複比を表す。これら3本の帯の幅をl1,l2,l3とすると、このパターンによる複比は、
で表される。帯の幅l1,l2,l3を変えることで、埋め込む複比の値を制御できる。
複比は本来連続的な値を持つものであるが、ここではそれを量子化したK通りの値rk(k=1,2,…,K)を考える。値rkの具体的な設定法については、後述する。
なお、複比パターンを表す帯は、ガイドを除く最低限の3つの場合のみを説明しているが、これが複数ある場合も考えられる。
一般に帯がN個ある場合、N個から3つを選ぶ組み合わせに対して複比を記録することができる。このように複数の複比を記録することによって、次のような効果を得ることができる。まず、同じ値を複数の組み合わせに記録する場合、複比の読み取り誤りへの耐性を増すことが可能となる。また、組み合わせのそれぞれに異なる値を記録する場合には、記録できる情報の容量が増加する。
1.2. 複比の抽出方式
複比rkを埋め込んだ文字画像から複比を抽出する際は、それを横断するような直線を引き(図2(b)中の直線p)、その線上のガイドに挟まれた区間について、帯の幅(同図l’1,l’2,l’3)を求め、li=l’i(i=1,2,3)として式(1)により複比を計算すればよい。量子化誤差などのノイズが無ければ、どのように直線を引いても、またどのように射影変換を受けても、埋め込んだ時と同じ複比rkが求まる。従って、この複比パターンを埋め込んだ文字画像をいかなる角度から撮影しても、原理的に常に同じ複比が取り出せることなる。
実際には、量子化の影響等で、取り出した複比には誤差が入る。その対処法として、ランダムにP本の直線を引き、それぞれで求めたP個の複比の値から、真値を推定するといった処理を行う。具体的には、まず、P本の線それぞれについて上述の方法で複比rを求め、その複比rに最も近いrkを選択する。この選択処理を全P本の直線について行なった後、最も多く選択されたrkを、その文字パターンに埋め込まれた複比とする。
1.3 複比パターンの設計
複比パターンの各帯の幅を変えることで、様々に複比の値を制御することを考える。量子化誤差等の影響を最小化しようとすれば、例えば、参考文献3のような理論的解析が必要と思われるが、ここでは単純に以下のような手順で設定する。
複比パターンからガイドを除いた部分の幅をLとする。すなわちL=l1+l2+l3とする。このLならびにl1はK種の複比パターンにおいて共通とする。従って、l2+l3=L−l1を満たすl2,l3の組をK通り設定することでrk(k=1,2,…K)を定めることとする。
具体的には、次式を満たすl2,l3によりrkを定める。
ここでεはl2,l3の最小幅を定める正定数である。上式により、l2,l3の境界点は、それが取りうる区間を等間隔にK−1分割した際の分割点および区間両端の計K点に設定される。
2.文字認識結果と複比抽出結果の統合
前述のように、埋め込む複比の種類Kが文字カテゴリ数|C|と同一の場合(Cは文字カテゴリの集合)、各カテゴリcにそれぞれ複比rcを埋め込んでおけば、文字形状を用いなくても、抽出した複比のみを用いて識別可能となる。しかし、漢字などカテゴリの多い文字集合を対象とすると、限られた解像度の下で、多種類の複比を定義することは難しい。
より一般的なK<|C|の場合には、複比とカテゴリは一対多の関係となるため、複比単独での認識結果には曖昧性が残る。具体的には、第k複比rkを埋め込んだ文字カテゴリの集合をCk(⊂C)とすると、ある入力文字から複比rkが抽出されても、その文字がCkに含まれるカテゴリのいずれかまではわからない。そこで、文字形状を用いた認識結果(すなわち通常の文字認識の結果)と複比による認識結果とを統合することで、最終的な認識結果としてカテゴリを1つに絞り込むことを考える。
Votingをはじめ、複数の識別器の統合方式にも多くの形態があるのと同様、この統合についても様々な方式が考えられる。ただし、一般的な識別器統合と今回の統合は以下2点で異なっている。第一は、上述のように、抽出された複比による認識結果には、曖昧性が残るという点である。第二は、複比による認識精度(すなわち複比の抽出精度)の方が、文字形状による認識精度に比べて圧倒的に高いという点である。後述の実験結果からも明らかになるように、撮影時の射影変換歪みが大きいと、文字形状による認識率は著しく低下する。一方、射影変換に対する不変量である複比は、もしノイズが無ければ常に正しく抽出される。実際にはノイズの影響で多少の誤抽出が発生するものの、文字形状による認識精度に比べると、複比の抽出精度は依然として相当高い。
以上の点を考慮し、抽出された複比によりカテゴリを幾つかに絞込み、次に文字形状による認識結果により、カテゴリを唯一に決定することとする。具体的には、入力文字からまず複比rkを抽出し、それは正しいものと考えて、Ckのうちで文字形状による認識コスト(距離)が最も低かったカテゴリを最終的な認識結果とする。なお、K=|C|の場合、文字形状を用いずに複比だけで認識を行なうことになる。
この方式では、文字形状での認識の結果、正解カテゴリの認識コストsが高かったとしても、(i)複比rkが正しく抽出され、かつ(ii)Ck中の正解カテゴリ以外のカテゴリの認識コストがsより大きければ、正しい認識結果が得られる。逆に、複比抽出が失敗すると、文字形状による認識で正解が得られていたとしても誤認識に転じてしまう。しかし、前述のように複比の抽出精度は高いので、この改悪は少ないと考えられる。
同じ複比rkが割り当てられるカテゴリの集合Ckは、文字形状による認識において、互いに誤認識となりにくいカテゴリで構成されることが得策である。これは、上記(ii)の条件が成り立ち易くなるための工夫である。そのような割り当て{Ck|k=1,…,K}を構成するためには、まず文字形状による認識の際に用いる手法の誤認識特性を把握し、互いに誤認識となりにくいカテゴリ対を知得した後、なるべくそうしたカテゴリ対が一つの集合Ckに含まれるように複比割り当て{Ck|k=1,…,K}を定めればよい。この割り当ての効果についてはさらに後述する。
(実験例)
3.1 準備
3.1.1. フォント画像
複比を埋め込む対象となる文字画像として、フォント“Arial”の英語大文字26画像を用いた。このフォント原画像の縦画素数は、各カテゴリで多少異なり、最小で194、最大で212、平均196であった。一方、横画素数はカテゴリ毎で差異が大きく、最小で52(“I”)、最大で251(“W”)、平均170であった。今回の実験において、フォントの種類は複比の抽出精度には影響しない。これは、複比パターンを文字線だけでなく背景部にも埋め込んでいるためであり、すなわち複比パターンを文字形状とは無関係に抽出できるためである。今後、文字線上にのみ複比パターンを埋め込むといった検討を行なえば、フォントによって複比抽出精度にも多少の差異が現れるものと考えられる。
3.1.2 複比パターンの設計
複比パターンについては、ガイドの幅を5画素、複比パターン全体の幅Lを150画素とし、さらにl1およびεについては15画素とした。この条件の下、前記項目1.3で述べた方法に従ってrk(k=1,2,…,K)を設定した。さらに、後述する方式に従いCkを定めた後、このrkによる複比パターンをカテゴリc∈Ckのフォントに埋め込んだ。図1は、すべてのカテゴリに異なる複比パターンを埋め込んだ場合(すなわちK=|C|=26)の文字画像の例を示す説明図である。
3.1.3 射影変換によるテストパターン生成
複比パターンを埋め込んだフォント画像について、その4隅のx,y座標をそれぞれ±δ(δ=0,4,8,…,48)画素だけ変位させて射影変換を施し、各δについて24×2=256個のテストパターンを生成した。図3は、射影変換により生成したテストパターンの例を示す説明図である。このように、δが36程度まで大きくなると、非現実的なレベルまで歪んだ文字画像が発生する。すなわち、今回のテストパターンには、意図的に撮影された場合よりも強く歪みを受けた文字パターンが含まれている。
3.1.4 文字形状による認識手法
前記項目2で述べたように、一般的なK<|C|の場合には、認識結果を確定するために、何らかの文字形状による認識手法(すなわち通常の文字認識手法)が必要となる。任意の手法が利用できるが、本実験では次の2つの公知の手法を使用した。
文字認識手法1−単純マッチング
この手法は、標準パターンと未知入力パターンを単純に重ね合わせて、両文字画像パターンのマッチングコスト、すなわち距離を求める手法である。
文字認識手法2−弾性マッチング
この手法は、直感的に説明すると、一方の文字画像パターンをゴム膜的に変形させながら重ね合わせる手法である。非特許文献3に示されているように、弾性マッチングには様々なものがあるが、ここでは次のような手法を用いた。図4は、本実験で用いた弾性マッチングの手法を示す説明図である。図4に示すように、入力パターンの各列が、その隣接関係を保ちながら、傾いた直線として標準パターン上に対応付けられる。その際、各列の内部でも1次元的な伸縮を許す。詳細は略すがこの写像全体の最適化には動的計画法(DP)に基づくアルゴリズムが利用できる。この弾性マッチング法の自由度は射影変換より高く、従って、原理的には任意の射影変換を補償可能である。
いずれの手法においても、前処理として文字大きさの線形正規化を行なった。また各画素の特徴量は、非常に単純に、1(文字線)、0(背景)と設定した。
3.1.5 複比の割り当て
集合Ckの構成、すなわち複比rkをどのカテゴリcに割り当てるかについては、前記項目2.の後段でも述べたように、最終的な認識性能を大きく左右する要因として非常に重要である。本実験では次の2通りの割り当て方式を使用した。
割り当て方法1−単純割り当て方式
これは、カテゴリcにk=((c−1)mod K)+1を満たす複比rkを割り当てる方式である。
割り当て方法2−最適割り当て方式
これは、文字形状による認識手法の特性を考慮して、各カテゴリに複比を割り当てる方式(例えば、参考文献4参照)である。この方式では、文字形状による認識手法の混同行列を複比割り当ての手がかりとして用いる。例えば“H”という認識結果を与えうるカテゴリが“H”と“N”であることが混同行列からわかれば、それら2カテゴリには、曖昧性を避けるために異なる複比を割り当てる。この方針に従い、全カテゴリについて複比割り当てを定める。
表1に、前節で述べた弾性マッチング法を用いた際の、K=4,12,30の場合の単純割り当てと最適割り当てを示す。いずれのKの時も、最適割り当てにより、“C”と“V”には同じ複比が割り当てられる。このことは、それら2カテゴリ間で誤認識が起こりにくいことを示唆している。なお、最適割り当ての決定に際しては、δ=0〜48すべてのデータを対象とした認識結果から得られた混同行列を用いた。
3.2. 文字形状単独での認識結果
埋め込まれた複比情報を用いずに、前記項目3.1.4で述べた2つの手法(単純および弾性マッチング法)を用いて、文字形状単独での認識実験を行なった。標準パターンとしては、射影変換を受けていないフォント画像そのもの(すなわち図1の文字パターン)を用いた。図5に射影変換の程度δによる認識率の変化を示す。単純マッチングは射影変換に非常に敏感であり、変形量δが少しでも大きくなると、認識率は急激に低下することがわかる。一方、弾性マッチングには変形吸収能力があるため、δ=28程度まで一定した認識率を維持できていることがわかる。しかしそれ以上の変形が加わると、単純マッチング同様、認識率の低下が見られる。
この結果から、文字形状単独での認識だけでは、実環境においてバーコード並みの精度を達成することは困難と予想される。もちろん、改善の余地は多く残されている。例えば、今回は2値の画素値をのみ特徴量とした非常に単純な距離評価を行なっている。また、マッチング法についても、今回利用した弾性マッチングの自由度は射影変換よりも高いので、合わせ過ぎによる誤認識が起こっている可能性が高い。実際、弾性マッチングの最高認識率が90%程度に留まっているのは、この単純な特徴量と高すぎる自由度の相乗的影響により誤認識を多発しているためである。特に、δ〜0付近については、合わせ過ぎにより入力パターンとの距離が0となったカテゴリが複数発生し、タイブレイクの結果、不正解カテゴリが選ばれてしまった場合が多かった。従って、より洗練された特徴量やマッチング手法を用いれば、認識率を現状より相当改善できるものと考えられる。しかしながら、この実験結果の傾向、ならびに今回の実験があくまで計算機内でのシミュレーションである点を考慮すると、文字形状単独での認識性能には、やはり限界があると思われる。
3.3. 複比抽出精度
単純割り当てに従って複比を埋め込んだテストパターンについて、それらからの複比抽出精度を実測した。図6は、本実験の結果、テストパターンから抽出された複比の精度を示すグラフである。相当の射影変換を受けた場合でも、埋め込んだ複比rkは安定して抽出できていることがわかる。前節で述べた文字形状単独での認識結果と単純に比較すると、その誤認識の数には1〜2桁程度の違いがある。特に、K=4やK=12の場合の精度は、バーコード精度の認識性能を目指すに当たって複比パターンが有用であることを十分に示唆するものである。
同図におけるK=26の結果は、複比単独での文字認識結果に相当する。意図して撮影する場合の射影変換歪みが高々δ=24以下であるとすれば、この実験例で用いたような単純な複比パターンでも、文字形状を用いずに98%以上の認識率が得られることがわかる。
誤抽出原因としては、量子化により複比パターンの各帯の幅(l’1,l’2,l’3)に誤差が含んだことが挙げられる。実際、K=26の場合を例に採ると、rkをrk±1として誤抽出した場合が全誤抽出の約85%であった。より深刻な誤抽出(rk±Δ,Δ≧2)は約10%であった。残る約5%は量子化の影響でガイドを捕捉できず、複比パターンそのものが検出できなかった場合であった。
3.4.文字認識結果と複比抽出結果の統合結果
図7および図8は、文字形状単独による認識結果と複比による認識結果を統合した場合の認識率を示すグラフである。前者は単純マッチングを用いた場合、後者は弾性マッチングを用いた場合である。また、いずれも単純割り当てを用いた場合の結果である。
両図から、形状による文字認識結果と複比抽出結果を併用することで、前者単独での結果(図5)に比べ、認識率を大幅に向上できることがわかる。例えばδ=4の場合の弾性マッチングの結果を見ると、文字形状単独での認識率が89.8%だったのに対し、併用した場合はK=4で97.4%、K=12で99.1%、K=20で99.97%まで改善している。
この改善理由を、図9を用いて考察する。図9は、δ=4のテストパターンを文字形状単独で認識した際の、弾性マッチングの混同行列を示す説明図である。この混同行列から、例えば形状により“H”に認識されたパターンの真のカテゴリとしては、“H”と“N”の2つの可能性が考えられることがわかる。すなわち、文字形状単独で認識では、これら2カテゴリの判別には曖昧性が残ると言える。一方、単純割り当て方式に従って複比が埋め込まれていたとすると、K=4,12,20の場合いずれも、“H”と“N”にはそれぞれ異なる複比が割り当てられる(表1参照)。結局、文字形状単独での認識で残っていた曖昧性は、複比により解消され、“H”、“N”は正しく認識できることになる。同様の曖昧性解消が他のカテゴリ間について生じたため、大幅な精度向上が得られたものと考えられる。
再び図7および図8を見ると、射影歪みが大きくない場合(δ≦16程度)、複比単独による認識結果(K=26)よりも、文字形状による認識を併用した結果の方が、多くの場合高い認識率を得ていることがわかる。複比自身の抽出精度は文字形状による認識精度に比べて非常に高いものの、完全にカテゴリを絞り込めるほど多くの複比を埋め込むと、複比自体の抽出精度が悪化する(図6)。結局、今回の実験の設定では、複比の数をある程度少なめにしてその抽出精度を確保しておいた方が得策であったといえる。
3.5.割り当て方式の影響
図10は、本実験の結果、割り当て方式が認識率に及ぼす影響を示すグラフである。複比の種類Kを4と12とした場合それぞれについて、単純割り当てと最適割り当てを用いた結果について示している。文字形状による認識法としては弾性マッチングを用いている。
この結果から、最適割り当てを用いることにより相当の改善が得られることがわかる。特にδ≦20の場合、単純割り当てした12種の複比に比べ、最適割り当てした4種の複比の方が高い認識率が得られている点は注目に値する。このように、複比を割り当てる際には、文字形状による認識手法の特性を把握した上で、各カテゴリに適切な複比を割り当てることで、大幅な効率化を図ることができる。
最後に、前述した実施の形態の他にも、この発明について種々の変形例があり得ることは明らかである。そのような変形例は、この発明の特徴及び範囲に属さないと解釈されるべきものではない。本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更とが含まれることが意図される。
(参考文献3) 金澤, 松永, 金谷:"複比による識別のための最良マーカーパタンの設計: 理論解析", 情処研報, 99-CVIM-115-13 (1999).
(参考文献4) 岩村, 内田, 大町, 黄瀬:"情報付加による認識率100%の実現 − 人にも機械にも理解可能な情報伝達のために −", 画像の認識・理解シンポジウム(MIRU2005) (2005).
すべてのカテゴリに異なる複比パターンを埋め込んだ場合の文字画像の例を示す説明図である。 複比パターンを埋め込んだ文字画像およびその射影変換例を示す説明図である。 射影変換により生成したテストパターンの例を示す説明図である。 本実験で用いた弾性マッチングの手法を示す説明図である。 射影変換の程度δによる認識率の変化を示すグラフである。 テストパターンから抽出された複比の精度を示すグラフである。 単純マッチングを用いた場合に、文字形状単独による認識結果と複比による認識結果を統合した場合の認識率を示すグラフである。 弾性マッチングを用いた場合に、文字形状単独による認識結果と複比による認識結果を統合した場合の認識率を示すグラフである。 δ=4のテストパターンを文字形状単独で認識した際の、弾性マッチングの混同行列を示す説明図である。 割り当て方式が認識率に及ぼす影響を示すグラフである。
符号の説明
1 認識用図形

Claims (7)

  1. パターン認識により複数のカテゴリの何れか一つに分類されるべき図形について、コンピュータが、前記図形が属すべきカテゴリに応じた複数の平行縞のパターンを決定し、
    決定された平行縞のパターンを前記図形に重畳してなる認識用図形を作成し、
    前記平行縞のパターンは、前記平行縞の幅の比としての複比の値が前記カテゴリに応じて決定されることを特徴とする認識情報の埋め込み方法。
  2. 前記図形が文字画像である請求項1記載の埋め込み方法。
  3. 前記平行縞の幅の比は、認識すべき全ての種類の図形を予め複数のカテゴリに分類して各図形がいずれのカテゴリに属するかを示すように決定された値に対応する請求項1記載の埋め込み方法。
  4. 前記平行縞のパターンは、両端の縞が前記パターンが存在する境界を表し、それら境界に複数の縞が挟まれ、挟まれた縞の幅の比で表される複比が前記カテゴリに応じた値である請求項1に記載の埋め込み方法。
  5. コンピュータが、複数のカテゴリの何れか一つに分類されるべき図形に平行縞のパターンが重畳されてなる認識用図形から前記平行縞の幅の比を抽出し、
    抽出した比の値、または、抽出した比の値と前記図形の形状とに基づいて前記認識用図形が属するカテゴリを決定し、
    前記平行縞のパターンは、前記カテゴリに応じた値の複比が前記平行縞の幅の比として表されてなることを特徴とする図形認識方法。
  6. 元の図形が、文字画像である請求項記載の認識方法。
  7. 前記認識用図形がカメラによって撮影された図形である請求項記載の認識方法。
JP2005244670A 2005-08-25 2005-08-25 図形認識方法 Expired - Fee Related JP4541995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005244670A JP4541995B2 (ja) 2005-08-25 2005-08-25 図形認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005244670A JP4541995B2 (ja) 2005-08-25 2005-08-25 図形認識方法

Publications (2)

Publication Number Publication Date
JP2007060417A JP2007060417A (ja) 2007-03-08
JP4541995B2 true JP4541995B2 (ja) 2010-09-08

Family

ID=37923478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005244670A Expired - Fee Related JP4541995B2 (ja) 2005-08-25 2005-08-25 図形認識方法

Country Status (1)

Country Link
JP (1) JP4541995B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6006676B2 (ja) * 2013-05-15 2016-10-12 日本電信電話株式会社 マーカ埋め込み装置、マーカ検出装置、マーカ埋め込み方法、マーカ検出方法、及びプログラム
JP6006675B2 (ja) * 2013-05-15 2016-10-12 日本電信電話株式会社 マーカ検出装置、マーカ検出方法、及びプログラム
JP6006698B2 (ja) * 2013-08-27 2016-10-12 日本電信電話株式会社 マーカ埋め込み装置、マーカ検出装置、マーカ埋め込み方法、マーカ検出方法、及びプログラム
JP6088410B2 (ja) * 2013-12-03 2017-03-01 日本電信電話株式会社 マーカ埋め込み装置及びマーカ埋め込みプログラム、並びにマーカ検出装置及びマーカ検出プログラム
JP6101656B2 (ja) * 2014-03-28 2017-03-22 日本電信電話株式会社 マーカ埋め込み装置、マーカ検出装置、及びプログラム

Also Published As

Publication number Publication date
JP2007060417A (ja) 2007-03-08

Similar Documents

Publication Publication Date Title
CN111507251B (zh) 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质
JP5522408B2 (ja) パターン認識装置
US6929183B2 (en) Reconstruction of virtual raster
EP1374148B1 (en) Method and device for recognition of a handwritten pattern
US7106904B2 (en) Form identification method
Cheng et al. Robust affine invariant feature extraction for image matching
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP2605186B1 (en) Method and apparatus for recognizing a character based on a photographed image
WO2013076358A1 (en) Text detection using multi-layer connected components with histograms
CN103577818A (zh) 一种图像文字识别的方法和装置
JP2010231686A (ja) 画像からの文書領域抽出装置、方法、及びプログラム
CN112819004B (zh) 一种用于医疗票据ocr识别的图像预处理方法及系统
JP2007221794A (ja) 低解像度のグリフ・イメージから高忠実度のグリフ・プロトタイプを作成するための方法および装置
JP5630689B2 (ja) 文字認識方法及び文字認識装置
JP4859061B2 (ja) 画像の補正方法、補正プログラムおよび画像歪み補正装置
JP4541995B2 (ja) 図形認識方法
JP4140221B2 (ja) 画像照合装置および画像照合プログラム
CN110210467A (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
KR100603618B1 (ko) 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법
JP4936250B2 (ja) 書込み抽出方法、書込み抽出装置および書込み抽出プログラム
US8300941B2 (en) Method and apparatus for reading a surface coded pattern
KR101660476B1 (ko) 인쇄 결제카드에서 결제 정보를 인식하는 방법
CN114926345B (zh) 一种图像处理方法、装置、电子设备及存储介质
Uchida et al. OCR fonts revisited for camera-based character recognition
CN112215319A (zh) 颜色标记特征图形的二维码及其识别方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100624

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees