JP4541995B2 - 図形認識方法 - Google Patents
図形認識方法 Download PDFInfo
- Publication number
- JP4541995B2 JP4541995B2 JP2005244670A JP2005244670A JP4541995B2 JP 4541995 B2 JP4541995 B2 JP 4541995B2 JP 2005244670 A JP2005244670 A JP 2005244670A JP 2005244670 A JP2005244670 A JP 2005244670A JP 4541995 B2 JP4541995 B2 JP 4541995B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- pattern
- ratio
- character
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Processing (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Description
黄瀬、大町、内田、岩村:「カメラを用いた文字認識・文書画像解析の現状と課題」、信学技報、PRMU2004-246 (2005) D. Doermann, J. Liang and H. Li: "Progress in camera-based document image analysis", Proc. ICDAR'03, pp. 606-616 (2003) S. Uchida and H.Sakoe: "A survey of elastic matching techniques for handwritten character recognition", IEICE Trans. Info. & Syst., E88-D, To appear (2005) 大谷、塩:「情景画像からの文字パターンの抽出と認識」、信学論(D)、J71-D, 6, pp. 1037-1047 (1988) 仙田、西山、旭:「携帯カメラによる日本語文字認識の手法と実現」、信学技報、PRMU2004-124 (2004) 平山、大町、阿曽:「カラー情報を利用した情景画像中の文字列の高精度抽出」、信学技報, PRMU2004-247 (2005) The British Computer Society: "Character Recognition 1967", Unwin Brothers Limited (1966) 橋本著:「文字認識概論」、オーム社 (1980) D. L. Hecht: "Printed embedded data graphical user interfaces", IEEE Computer, 3, pp. 47-55 (2001)
第1に、射影変換歪みに影響されない付加情報の埋め込み方法を提供する。この方法のより具体的な例として、水平縞模様状のパターン(以下、複比パターン)を埋め込んだ図形を提供する。
即ち、この発明は、図形を認識するために用いる認識情報を、不変量を用いて図形に埋め込み認識用図形を作成することを特徴とする認識情報の埋め込み方法を提供する。
即ち、この発明は、不変量を用いて認識用図形に埋め込まれた情報を抽出し、抽出した情報に基づいて前記認識用図形に対応する元の図形を認識することを特徴とする図形認識方法を提供する。
(参考文献2)佐藤:「コンピュータビジョン」、コロナ社、東京 (1999)
まず、文字画像パターンに対し、ある複比を持つパターン(模様)を埋め込むことを考える。埋め込む複比の値と文字カテゴリの対応付けには様々な形態が考えられる。例えば、各カテゴリに異なる複比を埋め込んでもよいし、複数のカテゴリに同じ複比を埋め込んでもよい。前者の場合、複比さえ正しく抽出できれば、文字形状を使わなくても識別できることになる。以下、これらいずれの場合も含む一般的な場合について説明する。
埋め込みの形式については様々考えられるが、ここでは文字線と背景を併せた文字画像全体に、5本の帯からなる平行縞を1セットとした模様(以下、複比パターン)を埋め込むことを考える。ただし、帯の数は5本に限定されるものではなく、これより多くしてもよい。この場合、複数の複比を埋め込むようにしてもよい。図2は、複比パターンを埋め込んだ文字画像及びその射影変換例を示す説明図である。このうち、図2(a)は複比パターンを埋め込んだ文字の例である。ここでは、説明の都合上、目立つように配色した複比パターンを用いている。
なお、複比パターンを表す帯は、ガイドを除く最低限の3つの場合のみを説明しているが、これが複数ある場合も考えられる。
複比rkを埋め込んだ文字画像から複比を抽出する際は、それを横断するような直線を引き(図2(b)中の直線p)、その線上のガイドに挟まれた区間について、帯の幅(同図l’1,l’2,l’3)を求め、li=l’i(i=1,2,3)として式(1)により複比を計算すればよい。量子化誤差などのノイズが無ければ、どのように直線を引いても、またどのように射影変換を受けても、埋め込んだ時と同じ複比rkが求まる。従って、この複比パターンを埋め込んだ文字画像をいかなる角度から撮影しても、原理的に常に同じ複比が取り出せることなる。
複比パターンの各帯の幅を変えることで、様々に複比の値を制御することを考える。量子化誤差等の影響を最小化しようとすれば、例えば、参考文献3のような理論的解析が必要と思われるが、ここでは単純に以下のような手順で設定する。
複比パターンからガイドを除いた部分の幅をLとする。すなわちL=l1+l2+l3とする。このLならびにl1はK種の複比パターンにおいて共通とする。従って、l2+l3=L−l1を満たすl2,l3の組をK通り設定することでrk(k=1,2,…K)を定めることとする。
前述のように、埋め込む複比の種類Kが文字カテゴリ数|C|と同一の場合(Cは文字カテゴリの集合)、各カテゴリcにそれぞれ複比rcを埋め込んでおけば、文字形状を用いなくても、抽出した複比のみを用いて識別可能となる。しかし、漢字などカテゴリの多い文字集合を対象とすると、限られた解像度の下で、多種類の複比を定義することは難しい。
3.1 準備
3.1.1. フォント画像
複比を埋め込む対象となる文字画像として、フォント“Arial”の英語大文字26画像を用いた。このフォント原画像の縦画素数は、各カテゴリで多少異なり、最小で194、最大で212、平均196であった。一方、横画素数はカテゴリ毎で差異が大きく、最小で52(“I”)、最大で251(“W”)、平均170であった。今回の実験において、フォントの種類は複比の抽出精度には影響しない。これは、複比パターンを文字線だけでなく背景部にも埋め込んでいるためであり、すなわち複比パターンを文字形状とは無関係に抽出できるためである。今後、文字線上にのみ複比パターンを埋め込むといった検討を行なえば、フォントによって複比抽出精度にも多少の差異が現れるものと考えられる。
複比パターンについては、ガイドの幅を5画素、複比パターン全体の幅Lを150画素とし、さらにl1およびεについては15画素とした。この条件の下、前記項目1.3で述べた方法に従ってrk(k=1,2,…,K)を設定した。さらに、後述する方式に従いCkを定めた後、このrkによる複比パターンをカテゴリc∈Ckのフォントに埋め込んだ。図1は、すべてのカテゴリに異なる複比パターンを埋め込んだ場合(すなわちK=|C|=26)の文字画像の例を示す説明図である。
複比パターンを埋め込んだフォント画像について、その4隅のx,y座標をそれぞれ±δ(δ=0,4,8,…,48)画素だけ変位させて射影変換を施し、各δについて24×2=256個のテストパターンを生成した。図3は、射影変換により生成したテストパターンの例を示す説明図である。このように、δが36程度まで大きくなると、非現実的なレベルまで歪んだ文字画像が発生する。すなわち、今回のテストパターンには、意図的に撮影された場合よりも強く歪みを受けた文字パターンが含まれている。
前記項目2で述べたように、一般的なK<|C|の場合には、認識結果を確定するために、何らかの文字形状による認識手法(すなわち通常の文字認識手法)が必要となる。任意の手法が利用できるが、本実験では次の2つの公知の手法を使用した。
文字認識手法1−単純マッチング
この手法は、標準パターンと未知入力パターンを単純に重ね合わせて、両文字画像パターンのマッチングコスト、すなわち距離を求める手法である。
この手法は、直感的に説明すると、一方の文字画像パターンをゴム膜的に変形させながら重ね合わせる手法である。非特許文献3に示されているように、弾性マッチングには様々なものがあるが、ここでは次のような手法を用いた。図4は、本実験で用いた弾性マッチングの手法を示す説明図である。図4に示すように、入力パターンの各列が、その隣接関係を保ちながら、傾いた直線として標準パターン上に対応付けられる。その際、各列の内部でも1次元的な伸縮を許す。詳細は略すがこの写像全体の最適化には動的計画法(DP)に基づくアルゴリズムが利用できる。この弾性マッチング法の自由度は射影変換より高く、従って、原理的には任意の射影変換を補償可能である。
集合Ckの構成、すなわち複比rkをどのカテゴリcに割り当てるかについては、前記項目2.の後段でも述べたように、最終的な認識性能を大きく左右する要因として非常に重要である。本実験では次の2通りの割り当て方式を使用した。
これは、カテゴリcにk=((c−1)mod K)+1を満たす複比rkを割り当てる方式である。
割り当て方法2−最適割り当て方式
これは、文字形状による認識手法の特性を考慮して、各カテゴリに複比を割り当てる方式(例えば、参考文献4参照)である。この方式では、文字形状による認識手法の混同行列を複比割り当ての手がかりとして用いる。例えば“H”という認識結果を与えうるカテゴリが“H”と“N”であることが混同行列からわかれば、それら2カテゴリには、曖昧性を避けるために異なる複比を割り当てる。この方針に従い、全カテゴリについて複比割り当てを定める。
埋め込まれた複比情報を用いずに、前記項目3.1.4で述べた2つの手法(単純および弾性マッチング法)を用いて、文字形状単独での認識実験を行なった。標準パターンとしては、射影変換を受けていないフォント画像そのもの(すなわち図1の文字パターン)を用いた。図5に射影変換の程度δによる認識率の変化を示す。単純マッチングは射影変換に非常に敏感であり、変形量δが少しでも大きくなると、認識率は急激に低下することがわかる。一方、弾性マッチングには変形吸収能力があるため、δ=28程度まで一定した認識率を維持できていることがわかる。しかしそれ以上の変形が加わると、単純マッチング同様、認識率の低下が見られる。
単純割り当てに従って複比を埋め込んだテストパターンについて、それらからの複比抽出精度を実測した。図6は、本実験の結果、テストパターンから抽出された複比の精度を示すグラフである。相当の射影変換を受けた場合でも、埋め込んだ複比rkは安定して抽出できていることがわかる。前節で述べた文字形状単独での認識結果と単純に比較すると、その誤認識の数には1〜2桁程度の違いがある。特に、K=4やK=12の場合の精度は、バーコード精度の認識性能を目指すに当たって複比パターンが有用であることを十分に示唆するものである。
誤抽出原因としては、量子化により複比パターンの各帯の幅(l’1,l’2,l’3)に誤差が含んだことが挙げられる。実際、K=26の場合を例に採ると、rkをrk±1として誤抽出した場合が全誤抽出の約85%であった。より深刻な誤抽出(rk±Δ,Δ≧2)は約10%であった。残る約5%は量子化の影響でガイドを捕捉できず、複比パターンそのものが検出できなかった場合であった。
図7および図8は、文字形状単独による認識結果と複比による認識結果を統合した場合の認識率を示すグラフである。前者は単純マッチングを用いた場合、後者は弾性マッチングを用いた場合である。また、いずれも単純割り当てを用いた場合の結果である。
両図から、形状による文字認識結果と複比抽出結果を併用することで、前者単独での結果(図5)に比べ、認識率を大幅に向上できることがわかる。例えばδ=4の場合の弾性マッチングの結果を見ると、文字形状単独での認識率が89.8%だったのに対し、併用した場合はK=4で97.4%、K=12で99.1%、K=20で99.97%まで改善している。
図10は、本実験の結果、割り当て方式が認識率に及ぼす影響を示すグラフである。複比の種類Kを4と12とした場合それぞれについて、単純割り当てと最適割り当てを用いた結果について示している。文字形状による認識法としては弾性マッチングを用いている。
この結果から、最適割り当てを用いることにより相当の改善が得られることがわかる。特にδ≦20の場合、単純割り当てした12種の複比に比べ、最適割り当てした4種の複比の方が高い認識率が得られている点は注目に値する。このように、複比を割り当てる際には、文字形状による認識手法の特性を把握した上で、各カテゴリに適切な複比を割り当てることで、大幅な効率化を図ることができる。
(参考文献4) 岩村, 内田, 大町, 黄瀬:"情報付加による認識率100%の実現 − 人にも機械にも理解可能な情報伝達のために −", 画像の認識・理解シンポジウム(MIRU2005) (2005).
Claims (7)
- パターン認識により複数のカテゴリの何れか一つに分類されるべき図形について、コンピュータが、前記図形が属すべきカテゴリに応じた複数の平行縞のパターンを決定し、
決定された平行縞のパターンを前記図形に重畳してなる認識用図形を作成し、
前記平行縞のパターンは、前記平行縞の幅の比としての複比の値が前記カテゴリに応じて決定されることを特徴とする認識情報の埋め込み方法。 - 前記図形が文字画像である請求項1記載の埋め込み方法。
- 前記平行縞の幅の比は、認識すべき全ての種類の図形を予め複数のカテゴリに分類して各図形がいずれのカテゴリに属するかを示すように決定された値に対応する請求項1記載の埋め込み方法。
- 前記平行縞のパターンは、両端の縞が前記パターンが存在する境界を表し、それら境界に複数の縞が挟まれ、挟まれた縞の幅の比で表される複比が前記カテゴリに応じた値である請求項1に記載の埋め込み方法。
- コンピュータが、複数のカテゴリの何れか一つに分類されるべき図形に平行縞のパターンが重畳されてなる認識用図形から前記平行縞の幅の比を抽出し、
抽出した比の値、または、抽出した比の値と前記図形の形状とに基づいて前記認識用図形が属するカテゴリを決定し、
前記平行縞のパターンは、前記カテゴリに応じた値の複比が前記平行縞の幅の比として表されてなることを特徴とする図形認識方法。 - 元の図形が、文字画像である請求項5記載の認識方法。
- 前記認識用図形がカメラによって撮影された図形である請求項5記載の認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005244670A JP4541995B2 (ja) | 2005-08-25 | 2005-08-25 | 図形認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005244670A JP4541995B2 (ja) | 2005-08-25 | 2005-08-25 | 図形認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007060417A JP2007060417A (ja) | 2007-03-08 |
| JP4541995B2 true JP4541995B2 (ja) | 2010-09-08 |
Family
ID=37923478
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005244670A Expired - Fee Related JP4541995B2 (ja) | 2005-08-25 | 2005-08-25 | 図形認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4541995B2 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6006676B2 (ja) * | 2013-05-15 | 2016-10-12 | 日本電信電話株式会社 | マーカ埋め込み装置、マーカ検出装置、マーカ埋め込み方法、マーカ検出方法、及びプログラム |
| JP6006675B2 (ja) * | 2013-05-15 | 2016-10-12 | 日本電信電話株式会社 | マーカ検出装置、マーカ検出方法、及びプログラム |
| JP6006698B2 (ja) * | 2013-08-27 | 2016-10-12 | 日本電信電話株式会社 | マーカ埋め込み装置、マーカ検出装置、マーカ埋め込み方法、マーカ検出方法、及びプログラム |
| JP6088410B2 (ja) * | 2013-12-03 | 2017-03-01 | 日本電信電話株式会社 | マーカ埋め込み装置及びマーカ埋め込みプログラム、並びにマーカ検出装置及びマーカ検出プログラム |
| JP6101656B2 (ja) * | 2014-03-28 | 2017-03-22 | 日本電信電話株式会社 | マーカ埋め込み装置、マーカ検出装置、及びプログラム |
-
2005
- 2005-08-25 JP JP2005244670A patent/JP4541995B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007060417A (ja) | 2007-03-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111507251B (zh) | 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质 | |
| JP5522408B2 (ja) | パターン認識装置 | |
| US6929183B2 (en) | Reconstruction of virtual raster | |
| EP1374148B1 (en) | Method and device for recognition of a handwritten pattern | |
| US7106904B2 (en) | Form identification method | |
| Cheng et al. | Robust affine invariant feature extraction for image matching | |
| JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
| EP2605186B1 (en) | Method and apparatus for recognizing a character based on a photographed image | |
| WO2013076358A1 (en) | Text detection using multi-layer connected components with histograms | |
| CN103577818A (zh) | 一种图像文字识别的方法和装置 | |
| JP2010231686A (ja) | 画像からの文書領域抽出装置、方法、及びプログラム | |
| CN112819004B (zh) | 一种用于医疗票据ocr识别的图像预处理方法及系统 | |
| JP2007221794A (ja) | 低解像度のグリフ・イメージから高忠実度のグリフ・プロトタイプを作成するための方法および装置 | |
| JP5630689B2 (ja) | 文字認識方法及び文字認識装置 | |
| JP4859061B2 (ja) | 画像の補正方法、補正プログラムおよび画像歪み補正装置 | |
| JP4541995B2 (ja) | 図形認識方法 | |
| JP4140221B2 (ja) | 画像照合装置および画像照合プログラム | |
| CN110210467A (zh) | 一种文本图像的公式定位方法、图像处理装置、存储介质 | |
| KR100603618B1 (ko) | 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법 | |
| JP4936250B2 (ja) | 書込み抽出方法、書込み抽出装置および書込み抽出プログラム | |
| US8300941B2 (en) | Method and apparatus for reading a surface coded pattern | |
| KR101660476B1 (ko) | 인쇄 결제카드에서 결제 정보를 인식하는 방법 | |
| CN114926345B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
| Uchida et al. | OCR fonts revisited for camera-based character recognition | |
| CN112215319A (zh) | 颜色标记特征图形的二维码及其识别方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080724 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100115 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100126 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100315 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100615 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100624 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130702 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |