[go: up one dir, main page]

JP2018081674A - 手書きテキスト画像に対する行及び単語切り出し方法 - Google Patents

手書きテキスト画像に対する行及び単語切り出し方法 Download PDF

Info

Publication number
JP2018081674A
JP2018081674A JP2017159043A JP2017159043A JP2018081674A JP 2018081674 A JP2018081674 A JP 2018081674A JP 2017159043 A JP2017159043 A JP 2017159043A JP 2017159043 A JP2017159043 A JP 2017159043A JP 2018081674 A JP2018081674 A JP 2018081674A
Authority
JP
Japan
Prior art keywords
connection
row
path
line
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017159043A
Other languages
English (en)
Other versions
JP6951905B2 (ja
Inventor
ドゥアンドゥアン ヤン,
Duanduan Yang
ドゥアンドゥアン ヤン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Laboratory USA Inc
Original Assignee
Konica Minolta Laboratory USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Laboratory USA Inc filed Critical Konica Minolta Laboratory USA Inc
Publication of JP2018081674A publication Critical patent/JP2018081674A/ja
Application granted granted Critical
Publication of JP6951905B2 publication Critical patent/JP6951905B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2264Character recognition characterised by the type of writing of cursive writing using word shape
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】手書きテキストを含む画像を行単位及び単語単位に切り出す方法を提供する。【解決手段】画像を、第1の比で水平方向にダウンサンプリングする。ダウンサンプリングされた画像中の接続領域を検出する。水平方向に隣接する接続領域同士を結合して行を形成し、元の画像を行画像に切り出す。各行画像を、第1の比よりも小さな第2の比で、水平方向にダウンサンプリングする。ダウンサンプリングされた行画像中の接続領域を検出して、可能な単語切り出し位置を取得する。パスは、可能な単語切り出し位置の一部又は全てで行を複数のパス切り出しに分割する態様である。全ての可能なパスのそれぞれについて、各パス切り出しに単語認識をかけて単語認識スコアを算出し、そのパスに対する平均単語認識スコアを算出する。最もスコアが高いパスから、最終的な単語単位が得られる。【選択図】図1

Description

本発明は、手書きテキストを認識する方法に関し、より詳細には、手書きテキスト画像から行及び単語を切り出す方法に関する。
手書き文字認識は、人工知能の分野で重要な役割を担っている。手書き文字認識は、コンピューターが紙文書、写真、タッチスクリーン、及び他の機器などの情報源から理解可能な手書きの入力を受け取り解釈する能力を意味している。テキストを含む画像の処理には、例えば、テキスト認識にかける前に、画像からテキスト領域を抽出すること、その領域からテキストの行を抽出すること(行切り出し)、次いで、行からテキストの単語を抽出すること(単語切り出し)が含まれることがある。
手書きテキストの場合、手書き文字には多くのばらつきがあるので、行及び単語の切り出しは、しばしば困難を伴う。この課題に対して、幾つかの方法が提案されてきた。例えば、「Post-OCR image segmentation into spatially separated text zones(空間的に分離されたテキスト区域へのOCR後の画像の切り出し)」と題された米国特許出願公開第2007/0041642号明細書は、「文書画像から光学式文字読取装置(OCR)によって認識されたテキストを区域にグループ分けするための認識後の手順」について記載している。「認識されたテキスト、及びテキストの各単語の対応する単語境界ボックスを一旦受け取ると、記載された手順は、ある倍率だけこれらの単語境界ボックスを拡張し、交差する単語境界ボックスを記録する。2つの単語境界ボックスは、対応する単語同士が元の文書で互いに非常に近接している場合には、拡張時に交差することになる。次いで、2つの単語は、それらの単語境界ボックスが拡張時に交差する場合には同一の区域に属するというルールを用いて、テキストを区域にグループ分けする。このように識別されたテキスト区域は、並べ替えられて、戻される。」(要約)
「Language-independent and segmentation-free optical character recognition system and method(言語に依存せずかつ切り出しのない光学式文字認識システム及び方法)」と題された米国特許第5933525号明細書は、「独自の特徴抽出手法を含む言語に依存せずかつ切り出しのないOCRシステム及び方法」について記載しており、「この手法は、OCRに関する2次元データを1つの独立変数(具体的には、行方向のテキストの行内での位置)として表わし、その結果、HMMに基づく同一のCSR技術を直接的に適合して光学文字を認識することができるようになる。行の発見段階の後に、単純な特徴抽出段階が続き、システムは市販のCSRシステムを僅かに変更して又は全く変更せずに利用して、システムによるテキストの認識及びシステムのトレーニングを行うことができる。特徴抽出、トレーニング、及び認識のコンポーネントを含むシステム全体が、認識されるテキストの原稿又は言語からは独立しているように設計される。システムの言語に依存する部分は、辞書及びトレーニングデータに限定される。更に、この認識方法は、トレーニングのためにも又は認識のためにも、文字レベル及び/又は単語レベルでのデータの事前切り出しを必要としない。加えて、例えば、スペルチェックで一般的に行われるように後処理としてではなく、認識処理の不可欠な一部として言語モデルを使用して、システムの性能を向上させることができる。」(要約)
「Picture words segmentation method(画像化された単語の切り出し方法)」と題された中国特許出願公開第CN100527156C号明細書は、「テキスト画像を検出する方法」について記載しており、「この方法は、(1)各色成分のエッジマップに関して合成されたピクチャが累積エッジマップを取得する工程と、(2)累積エッジマップのクラスタリングが数枚のサブエッジマップシートに分割され、各サブエッジマップが類似の色エッジポイントを含んだ状態で、色ポイントエッジに応じて、それぞれの色のピクチャ内でエッジポイントに対して累積エッジマップが設定される工程と、(3)画像領域中でテキストを位置決めしながら、垂直方向での局所的投影及び水平方向の切り出しに従って、各サブエッジマップにおいて、複数回の水平投影及び垂直投影を行う工程と、を含む。本発明では、累積エッジマップの色を数枚のサブエッジマップに分割することに基づいたクラスタリング手法を用いて、元の累積エッジマップを取得した後で、サブエッジのエッジマップは単純化され、その結果、検出領域は比較的に単純なテキストピクチャになり、また正確になる。」(要約)
本発明は、手書きテキストを切り出すための、行切り出し及び単語切り出し方法に関する。
本発明の目的は、精度と効率とのつり合いが取れた、テキスト行及び単語を切り出すための方法を提供することである。
上記の目的に鑑みて本発明は、テキストを含む2値画像である入力画像を行単位及び単語単位に切り出す、コンピューター上で実行される方法であって、(a)第1のダウンサンプリング比を用いて前記入力画像を水平方向にダウンサンプリングする工程と、(b)工程(a)で取得された前記ダウンサンプリングされた画像中の接続領域を検出する工程と、(c)同一の行に属する水平方向に隣接する接続領域を特定して、そのような水平方向に隣接する接続領域を含む行リストを形成する工程と、(d)前記入力画像を複数の行単位に切り出す工程であって、各行単位は工程(c)で取得された対応する行リスト内の全ての接続領域を含む前記ダウンサンプリングされた画像中の境界ボックスに対応する前記入力画像の領域である、工程と、工程(d)で取得された前記行単位のそれぞれについて、(e)第2のダウンサンプリング比を用いて前記行単位を水平方向にダウンサンプリングする工程と、(f)工程(e)で取得された前記ダウンサンプリングされた行単位内の接続領域を検出する工程と、(g)工程(d)から取得された前記行単位を、工程(f)で取得された前記接続領域を用いて単語単位に切り出す工程と、を含み、前記第2のダウンサンプリング比は前記第1のダウンサンプリング比よりも小さい、方法を提供する。
本発明のその他の側面によれば、本発明はコンピューターと一以上のプリンターを含むデータ処理システムを制御するコンピューターに上記の方法を実行させるコンピュータープログラムを提供する。
本発明のその他の側面によれば、本発明は上記の方法を実行するCPUを備えるデータ処理装置を提供する。
本発明の更なる特徴及び利点が、以降に続く明細書の中で記載され、その一部が明細書の記載から明らかになるか、又は、本発明を実施することにより学ぶことができる。本発明の目的及び他の利点が、添付の図面並びに明細書及び特許請求の範囲の記載の中で特に示された構造によって実現され、達成される。
なお、前述の全般的な説明及び以降の詳細な説明は両方とも例示的かつ説明的なものであり、特許請求される本発明の更なる説明を提供するように意図されている。
本発明の一実施形態による行切り出し及び単語切り出しを含む手書きテキスト切り出し方法を概略的に示すフローチャートである。 本発明の一実施形態による行切り出し及び単語切り出しを含む手書きテキスト切り出し方法を概略的に示すフローチャートである。 本発明の実施形態における例示的なテキスト画像の水平方向のダウンサンプリングを概略的に示す図である。 図3のテキスト画像の例示的な行切り出しを概略的に示す図である。 図3のテキスト画像の例示的な水平方向のダウンサンプリングを概略的に示す図である。 本発明の一実施形態による単語切り出しで使用されるパスの例を概略的に示す図である。 本発明の一実施形態による単語切り出しで使用されるパスの例を概略的に示す図である。 本発明の実施形態を実施することができるコンピューターシステムのブロック図である。
本発明の実施形態による手書きテキスト切り出し方法は、まず行切り出しを実施して入力テキスト画像を行に切り出し、次いで、単語切り出しを実施して各行を単語に切り出す。行切り出しを実施するために、入力画像は第1のダウンサンプリング比を用いて水平方向にダウンサンプリングされ、その結果、ダウンサンプリングされた画像の同一行内のテキストは、図3の例に示すように、互いにぴたりとくっつく傾向がある。ダウンサンプリングされた画像内の接続領域が検出され、この接続領域を使用して元の画像中で行が検出されて行が切り出される。次いで、元の入力画像の切り出された行のそれぞれが、第2のダウンサンプリング比を用いて水平方向にダウンサンプリングされ、この第2のダウンサンプリング比は第1のダウンサンプリング比よりも小さく、かつ異なる行に対して異なっていてもよく、その結果、ダウンサンプリングされた行画像中の単一の単語のそれぞれからのテキスト文字は、互いにぴたりとくっつく傾向がある。ダウンサンプリングされた行単位中の接続領域が検出され、これを使用して単語が検出され、行単位が単語単位に切り出される。
本発明の実施形態による手書きテキスト切り出し方法を、図1及び図2のフローチャートを参照して、更に詳細に説明する。入力画像を取得する工程(工程S101)は、元の画像がカラー画像か又はグレースケール画像である場合には、元の画像を2値化することを含むことができる。以下の説明では、入力画像は2値画像である。入力画像は純粋なテキスト画像であり、即ち、入力画像はテキストを含んでいるが、写真又は図形などの他のオブジェクトは含まず、また、テキストは表、フローチャート、又は他の種類の図中に分散していないことを意味する。以下の説明では、テキスト行は、水平方向又はほぼ水平の方向にあることが想定されている。当業者は、この方法を、垂直方向又はほぼ垂直の方向にあるテキスト行を扱うように容易に修正することができることを理解しうるであろう。
まず、第1のダウンサンプリング比Nを算出し(工程S102)、この第1のダウンサンプリング比を用いて、入力画像を水平方向にダウンサンプリングする(工程S103)。言い換えると、入力画像中の画素のN番目毎の垂直列を、水平方向にダウンサンプリングされた画像を形成するのに用いる。第1のダウンサンプリング比Nは、以下のように算出される(工程S102)。
入力画像中の接続領域を検出する。2値画像では、接続領域(時には接続コンポーネントとも呼ばれる)は、互いに接続された前景画素(例えば、白色の背景画像上の黒色テキストに対する黒色画素)のグループである。接続領域を検出するために、任意の適切な方法を使用することができる。水平に隣接する接続領域の各対の間の水平距離を決定する。そのような距離の全ての平均値を算出し、算出した平均距離に基づいて、第1のダウンサンプリング比Nを設定する。好ましい実施形態では、第1のダウンサンプリング比Nは、平均距離の3倍に等しい。
上記の計算では、2つの接続領域は、垂直位置が所定の閾値以下だけ互いに異なっており、かつ、他の接続領域によって分離されていない場合には、水平に隣接しているものとみなされる。水平に隣接した2つの接続領域間の距離は、この2つの接続領域の2つのそれぞれの境界ボックス間の距離として規定することができる。接続領域の境界ボックスとは、その接続領域を完全に包含する最小の矩形のボックスである。
工程S103では、入力画像を水平にのみダウンサンプリングすることが好ましいが、垂直方向に対するダウンサンプリング比が水平方向に対するダウンサンプリング比よりもはるかに小さい場合には、水平方向のダウンサンプリングに加えて垂直方向のダウンサンプリングを実行してもよい。
水平方向のダウンサンプリング(工程S103)の後、水平方向にダウンサンプリングされた画像中の全ての接続領域を検出し(工程S104)、それらの対応する境界ボックスを生成し、1つの集合(集合A)に記憶する。
検出された接続領域を、水平方向に互いに結合する(工程S105)。同一の行に属する水平方向に隣接する接続領域を特定して、そのような水平方向の隣同士のリストを作成することにより、水平方向の結合を行う。
より具体的には、特定の接続領域について、別の接続領域が、(1)所定の閾値未満の量だけ、この特定の接続領域の垂直位置からオフセットされた垂直位置を有し、(2)基準(1)を満たす接続領域の全ての中で、この特定の接続領域の左又は右に最も近い位置にある場合、この他の接続領域を、特定の接続領域と同じ行に位置する水平方向の隣の接続領域であるとみなす。この結合工程を実施するために、集合Aからランダムに選択される接続領域であり得る接続領域Cから開始して、探索を実行して、上述の基準を満たす水平方向の隣の接続領域を見つける(そのような隣の接続領域は、ゼロ、1つ、又は2つ存在することがある)。そのようにして発見された水平方向の隣の接続領域を、接続領域Cを含む行リストに追加する。既に発見された水平方向の隣の接続領域のそれぞれを現在の接続領域として使用して探索を再び実行し、同じ行の追加の接続領域を見つける。上記の基準を満たす接続領域が見つからなくなるまで、探索を続ける。既に発見された接続領域を、集合Aから削除する。そのような探索は、グラフを探索するための幅優先探索アルゴリズムの概念と類似している。結果として、1つの行リストが生成され、このリストは、接続領域C、及び探索で発見された他の接続領域を含む。次いで、集合Aの残りの接続領域から別の接続領域をランダムに選択し、上述の探索を実行して別の行リストを生成する。これを、集合Aが空になるまで続ける。結果として、いくつかの行リストを生成する。
入力画像を、水平方向に結合された接続領域の行リストを用いて行に切り出す(工程S106)。より具体的には、各行リストについて、その行リスト内の全ての接続領域を囲む境界ボックスを、ダウンサンプリングされた画像中に生成する。ダウンサンプリングされた画像中のそのような境界ボックスの例を、図4の左側に示す。元の(ダウンサンプリングする前の)画像中に、対応する境界ボックスを生成する。この境界ボックスは、元の画像の行単位を構成する。元の画像中のそのような境界ボックスの例を、図4の右側に示す。結果として、複数の行単位を生成する。
単語切り出しを実施するために、個々の行単位のそれぞれ(即ち、1つの行の境界ボックス内に含まれる画像パッチ)を、第2のダウンサンプリング比Miを使用して水平方向にダウンサンプリングする。ここで、iは、行のインデックスである(工程S107〜S109)。より具体的には、各行単位に対して(工程S107)、第2のダウンサンプリング比Miを決定し(工程S108)、この第2のダウンサンプリング比Miを用いて、その行画像を水平方向にダウンサンプリングする(工程S109)。言い換えると、行単位中の画素のMi番目毎の垂直列を、水平方向にダウンサンプリングされた行単位を形成するために用いる。図5は、テキスト行のダウンサンプリングの一例を示す。
一実施形態では、工程S108で、第2のダウンサンプリング比Miを以下のようにして決定する。行単位内の接続領域を検出し、水平方向に隣接する接続領域の各対の間の水平距離を決定し、そのような距離の全てについて平均値を算出し、算出された平均距離に基づいて第2のダウンサンプリング比Miを設定する。好ましい実施形態では、第2のダウンサンプリング比Miは、平均距離に等しい。
工程S109では、行画像を水平にのみダウンサンプリングすることが好ましいが、垂直方向に対するダウンサンプリング比が水平方向に対するダウンサンプリング比よりもはるかに小さい場合には、水平方向のダウンサンプリングに加えて垂直方向のダウンサンプリングを実行してもよい。
次いで、処理S110を実施して、各行を単語単位に切り出す。この処理について、図2を参照して以下で説明する。
まず、ダウンサンプリングされた行単位における接続領域を検出し、それらの接続領域を使用して、元の(ダウンサンプリングする前の)行単位における可能な単語切り出し位置を決定する(工程S201)。元の行単位における可能な単語切り出し位置は、ダウンサンプリングされた行単位における接続領域同士の間の間隙の位置に対応する位置に設定する。言い換えると、可能な単語切り出し位置同士の間のテキスト内容は、ダウンサンプリングされた行単位において検出された接続領域に対応する。
次いで、以下でより詳細に説明するパススコア比較手法を用いて、元の行単位に関して 単語切り出しを行う。
パスとは、行を複数の切り出し(便宜上「パス切り出し」と呼ばれる)に分割するために、行単位を、可能な単語切り出し位置の全て又は一部で分割する態様である。例えば、図6Aに示す例では、テキスト行単位は9つの可能な単語切り出し位置を有する。図6Bの各例は、パスを概略的に示している。例示的なパス(l)では、行単位は、9つの可能な単語切り出し位置の全てで分割されている。例示的なパス(n)では、行単位は1番目を除く全ての可能な単語切り出し位置で分割されている(そのため、1番目及び2番目の接続領域が1つのパス切り出しになっている)。例示的なパス(m)では、行単位は、5番目を除く全ての可能な単語切り出し位置で分割されている(そのため、5番目と6番目の接続領域は1つのパス切り出しになっている)、等である。
パスはまた、隣接する接続領域の一部又は全てを結合する態様としても捉えることができる。従って、例示的なパス(l)は、各接続領域がパス切り出しである(結合がない)パスである。例示的なパス(n)は、1番目と2番目の接続領域が結合されて1つのパス切り出しになるパスである。例示的なパス(m)は、5番目と6番目の接続領域が結合されて1つのパス切り出しになるパスである、等である。
より広い意味では、画像の「パス」は、画像の全ての画素をカバーする一連の画像切り出しからなり、各切り出しは、入力画像において異なっており重複しない複数の画素を含む。
パススコア比較は、可能な単語切り出し位置に基づいて、行に形成され得る全ての可能なパスを評価する。各パスについて(工程S202及び工程S206)、各パス切り出しに単語認識をかけて単語認識スコアを算出し(工程S203)、全てのパス切り出しに対するスコアを平均して、そのパスに対する平均単語認識スコアを算出する(工程S204)。単語認識とは、画像切り出しが単語である可能性を表すスコアを決定するために、画像パッチをサンプルの集合と比較する処理である。この工程のために、任意の適切な単語認識アルゴリズムを使用することができる。全ての可能なパスについて、平均単語認識スコアを算出する(工程S205)。全ての可能なパスの中で平均単語認識スコアが最も高いパスを、その行に対する最終的な単語単位であると決定し(工程S207)、これに応じて、その行画像を単語画像に切り出す(工程S208)。
例えば、図6Bの例では、パス切り出し「that many」は単語ではなく、「nvolve」も単語ではないので、パス(n)はパス(l)よりもスコアが低くなり、パス(l)はパス(m)よりもスコアが低くなる。パス(m)が、全ての可能なパスの中でスコアが最も高いパスでありそうである。
パススコア法を使用する目的は、入力画像中のどの単語が最も高い精度で認識され得るかに基づいて最適なパスを見つけ、それによって手書き文字認識の精度を高めることである。
図1に戻って、工程S107からS110を、各行単位に対して繰り返す(工程S111)。
図7は、本発明の実施形態を実施することができる例示的なコンピューターのブロック図である。図7に示すように、このコンピューター10は、中央演算処理装置(CPU)101、メモリー102、キーボード又はタブレットスタイラスペンなどの入力部103、コンピューターのモニター又はタッチスクリーンディスプレイなどの表示部104、及びネットワークインターフェース105を備えており、(図示していないものを含めて)これらの構成要素の全ては、バス106を介して互いに内部的に通信している。コンピューター10は、ネットワークインターフェース105を介して、LAN又はWANなどのネットワーク20に接続され、ネットワークに接続された他の機器と通信する。
通常、メモリー102は、CPU101にとってアクセス可能なコンピューター実行可能命令又はソフトウェアプログラムを記憶し、CPU101は、動作時に必要に応じてこれらのソフトウェアプログラムを実行するように構成される。そのようなソフトウェアプログラムは、Windows OS、Macintosh OS、Unix X Windows、又は、ディスプレイモニターと結合された、タッチスクリーン並びに/若しくはマウス及びキーボードなどのGUI(グラフィカルユーザインターフェース)を実装する他の一般に普及しているコンピューターオペレーティングシステム上で実行されるように設計されていることが好ましい。一実施形態では、メモリー102内のそのようなソフトウェアはプログラム108を含み、このプログラム108は、CPU101によって実行されると、上述の行及び単語切り出し方法を実行する。認識プログラム108に加えて、CPU101は、他の種類のソフトウェア(例えば、管理ソフトウェア)、アプリケーション(例えば、ネットワーク通信アプリケーション)、オペレーティングシステム等を実行するようにも構成される。
手書きテキスト画像を処理する上述の行及び単語切り出し方法において、並びに本発明の関連する装置及びシステムにおいて、様々な修正及び変形を、本発明の趣旨又は範囲から逸脱することなく加え得ることが、当業者には明らかであろう。従って、本発明は、添付の特許請求の範囲及びそれらの均等物の範囲内にある修正及び変形を包含することが意図されている。

Claims (20)

  1. テキストを含む2値画像である入力画像を行単位及び単語単位に切り出す、コンピューター上で実行される方法であって、
    (a)第1のダウンサンプリング比を用いて前記入力画像を水平方向にダウンサンプリングする工程と、
    (b)工程(a)で取得された前記ダウンサンプリングされた画像中の接続領域を検出する工程と、
    (c)同一の行に属する水平方向に隣接する接続領域を特定して、そのような水平方向に隣接する接続領域を含む行リストを形成する工程と、
    (d)前記入力画像を複数の行単位に切り出す工程であって、各行単位は工程(c)で取得された対応する行リスト内の全ての接続領域を含む前記ダウンサンプリングされた画像中の境界ボックスに対応する前記入力画像の領域である、工程と、
    工程(d)で取得された前記行単位のそれぞれについて、
    (e)第2のダウンサンプリング比を用いて前記行単位を水平方向にダウンサンプリングする工程と、
    (f)工程(e)で取得された前記ダウンサンプリングされた行単位内の接続領域を検出する工程と、
    (g)工程(d)から取得された前記行単位を、工程(f)で取得された前記接続領域を用いて単語単位に切り出す工程と、を含み、
    前記第2のダウンサンプリング比は前記第1のダウンサンプリング比よりも小さい、方法。
  2. 前記第1のダウンサンプリング比は前記入力画像から算出され、各行単位に対する前記第2のダウンサンプリング比は前記行単位から算出される、請求項1に記載の方法。
  3. 工程(a)の前に、前記第1のダウンサンプリング比を算出する工程を更に含み、この工程は、
    (h1)前記入力画像中の接続領域を検出する工程と、
    (h2)工程(h1)で検出された水平に隣接する接続領域の各対の間の水平距離を算出する工程と、
    (h3)工程(h2)で算出された水平距離の全てについての平均である第1の平均水平距離を算出する工程と、
    (h4)工程(h3)で算出された前記第1の平均水平距離に基づいて、前記第1のダウンサンプリング比を設定する工程と、を含む、請求項1又は2に記載の方法。
  4. 工程(h4)で、前記第1のダウンサンプリング比は、前記第1の平均水平距離の3倍に等しい、請求項3に記載の方法。
  5. 工程(e)の前に、前記第2のダウンサンプリング比を算出する工程を更に含み、この工程は、
    (i1)工程(d)で取得された前記行単位内の接続領域を検出する工程と、
    (i2)工程(i1)で取得された水平に隣接する接続領域の各対の間の水平距離を算出する工程と、
    (i3)工程(i2)で算出された水平距離の全てについての平均である第2の平均水平距離を算出する工程と、
    (i4)工程(i3)で算出された前記第2の平均水平距離に基づいて、前記第2のダウンサンプリング比を設定する工程と、を含む、請求項1〜4のいずれか一項に記載の方法。
  6. 工程(i4)で、前記第2のダウンサンプリング比は、前記第2の平均水平距離に等しい、請求項5に記載の方法。
  7. 工程(c)は、
    (c1)工程(b)で検出された全ての接続領域を集合にまとめる工程と、
    (c2)前記集合から前記接続領域のうちの1つを選択する工程と、
    (c3)前記選択された接続領域の水平方向の隣の接続領域を探索する工程であって、水平方向の隣の接続領域は、(1)所定の閾値未満の量だけ前記選択された接続領域の垂直位置からオフセットされた垂直位置を有し、(2)基準(1)を満たす前記接続領域の全ての中で、前記選択された接続領域に対して水平方向に最も近い位置にある、接続領域である工程と、
    (c4)前記選択された接続領域を含む行リストに、工程(c3)の前記探索で検出された任意の水平方向の隣の接続領域を追加し、前記水平方向の隣の接続領域を前記集合から削除する工程と、
    (c5)工程(c3)で検出された前記水平方向の隣の接続領域について、前記探索する工程(c3)及び前記追加し削除する工程(c4)を、探索で水平方向の隣の接続領域が見つからなくなるまで繰り返し、それによって行リストを生成する工程と、
    (c6)前記集合から別の接続領域を選択し、前記集合が空になるまで、工程(c3)、(c4)、及び(c5)を繰り返して別の行リストを生成する工程と、を含み、
    これによって、複数の行リストを生成する、請求項1〜6のいずれか一項に記載の方法。
  8. 工程(g)は、
    工程(f)で検出された前記接続領域に基づいて、前記行単位に対して複数の可能な単語切り出し位置を決定する工程であって、各可能な単語切り出し位置は、前記ダウンサンプリングされた行単位内の接続領域同士の間の間隙の位置に対応する工程と、
    前記行単位に対して、全ての可能なパスを規定する工程であって、各パスは、前記行単位を複数のパス切り出しに分割する前記可能な単語切り出し位置の全て又は一部で前記行単位を分割したものである工程と、
    各パスについて、各パス切り出しに単語認識をかけて前記パス切り出しに対する単語認識スコアを算出し、全ての前記パス切り出しに対する単語認識スコアを平均して、前記パスに対する平均単語認識スコアを算出する工程と、
    前記行単位に対する全ての可能なパスの中で、平均単語認識スコアが最も高いパスを判定する工程と、
    前記判定されたパスに従って、前記行単位を単語単位に切り出す工程と、を含む、請求項1〜7のいずれか一項に記載の方法。
  9. データ処理装置を制御するコンピューターに、テキストを含む2値画像である入力画像を行単位及び単語単位に切り出す処理を実行させるコンピュータープログラムであって、前記処理は、
    (a)第1のダウンサンプリング比を用いて前記入力画像を水平方向にダウンサンプリングする工程と、
    (b)工程(a)で取得された前記ダウンサンプリングされた画像中の接続領域を検出する工程と、
    (c)同一の行に属する水平方向に隣接する接続領域を特定して、そのような水平方向に隣接する接続領域を含む行リストを形成する工程と、
    (d)前記入力画像を複数の行単位に切り出す工程であって、各行単位は、工程(c)で取得された対応する行リスト内の全ての接続領域を含む前記ダウンサンプリングされた画像中の境界ボックスに対応する、前記入力画像の領域である、工程と、
    工程(d)で取得された前記行単位のそれぞれについて、
    (e)第2のダウンサンプリング比を用いて前記行単位を水平方向にダウンサンプリングする工程と、
    (f)工程(e)で取得された前記ダウンサンプリングされた行単位内の接続領域を検出する工程と、
    (g)工程(d)から取得された前記行単位を、工程(f)で取得された前記接続領域を用いて単語単位に切り出す工程と、を含み、
    前記第2のダウンサンプリング比は前記第1のダウンサンプリング比よりも小さい、コンピュータープログラム。
  10. 前記第1のダウンサンプリング比は前記入力画像から算出され、各行単位に対する前記第2のダウンサンプリング比は前記行単位から算出される、請求項9に記載のコンピュータープログラム。
  11. 前記処理は、工程(a)の前に、前記第1のダウンサンプリング比を算出する工程を更に含み、この工程は、
    (h1)前記入力画像中の接続領域を検出する工程と、
    (h2)工程(h1)で検出された水平に隣接する接続領域の各対の間の水平距離を算出する工程と、
    (h3)工程(h2)で算出された水平距離の全てについての平均である第1の平均水平距離を算出する工程と、
    (h4)工程(h3)で算出された前記第1の平均水平距離に基づいて、前記第1のダウンサンプリング比を設定する工程と、を含む、請求項9又は10に記載のコンピュータープログラム。
  12. 工程(h4)で、前記第1のダウンサンプリング比は、前記第1の平均水平距離の3倍に等しい、請求項11に記載のコンピュータープログラム。
  13. 前記処理は、工程(e)の前に、前記第2のダウンサンプリング比を算出する工程を更に含み、この工程は、
    (i1)工程(d)で取得された前記行単位内の接続領域を検出する工程と、
    (i2)工程(i1)で取得された水平に隣接する接続領域の各対の間の水平距離を算出する工程と、
    (i3)工程(i2)で算出された水平距離の全てについての平均である第2の平均水平距離を算出する工程と、
    (i4)工程(i3)で算出された前記第2の平均水平距離に基づいて、前記第2のダウンサンプリング比を設定する工程と、を含む、請求項9〜12のいずれか一項に記載のコンピュータープログラム。
  14. 工程(i4)で、前記第2のダウンサンプリング比は、前記第2の平均水平距離に等しい、請求項13に記載のコンピュータープログラム。
  15. 工程(c)は、
    (c1)工程(b)で検出された全ての接続領域を集合にまとめる工程と、
    (c2)前記集合から前記接続領域のうちの1つを選択する工程と、
    (c3)前記選択された接続領域の水平方向の隣の接続領域を探索する工程であって、水平方向の隣の接続領域は、(1)所定の閾値未満の量だけ前記選択された接続領域の垂直位置からオフセットされた垂直位置を有し、(2)基準(1)を満たす前記接続領域の全ての中で、前記選択された接続領域に対して水平方向に最も近い位置にある、接続領域である工程と、
    (c4)前記選択された接続領域を含む行リストに、工程(c3)の前記探索で検出された任意の水平方向の隣の接続領域を追加し、前記水平方向の隣の接続領域を前記集合から削除する工程と、
    (c5)工程(c3)で検出された前記水平方向の隣の接続領域について、前記探索する工程(c3)及び前記追加し削除する工程(c4)を、探索で水平方向の隣の接続領域が見つからなくなるまで繰り返し、それによって行リストを生成する工程と、
    (c6)前記集合から別の接続領域を選択し、前記集合が空になるまで、工程(c3)、(c4)、及び(c5)を繰り返して別の行リストを生成する工程と、を含み、
    これによって、複数の行リストを生成する、請求項9〜14のいずれか一項に記載のコンピュータープログラム。
  16. 工程(g)は、
    工程(f)で検出された前記接続領域に基づいて、前記行単位に対して複数の可能な単語切り出し位置を決定する工程であって、各可能な単語切り出し位置は、前記ダウンサンプリングされた行単位内の接続領域同士の間の間隙の位置に対応する工程と、
    前記行単位に対して、全ての可能なパスを規定する工程であって、各パスは、前記行単位を複数のパス切り出しに分割する前記可能な単語切り出し位置の全て又は一部で前記行単位を分割したものである工程と、
    各パスについて、各パス切り出しに単語認識をかけて前記パス切り出しに対する単語認識スコアを算出し、全ての前記パス切り出しに対する単語認識スコアを平均して、前記パスに対する平均単語認識スコアを算出する工程と、
    前記行単位に対する全ての可能なパスの中で、平均単語認識スコアが最も高いパスを判定する工程と、
    前記判定されたパスに従って、前記行単位を単語単位に切り出す工程と、を含む、請求項9〜15のいずれか一項に記載のコンピュータープログラム。
  17. データ処理装置であって、
    入力画像を行単位及び単語単位に切り出す処理を実行するCPUを備え、前記処理は、
    (a)第1のダウンサンプリング比を用いて前記入力画像を水平方向にダウンサンプリングする工程と、
    (b)工程(a)で取得された前記ダウンサンプリングされた画像中の接続領域を検出する工程と、
    (c)同一の行に属する水平方向に隣接する接続領域を特定して、そのような水平方向に隣接する接続領域を含む行リストを形成する工程と、
    (d)前記入力画像を複数の行単位に切り出す工程であって、各行単位は、工程(c)で取得された対応する行リスト内の全ての接続領域を含む前記ダウンサンプリングされた画像中の境界ボックスに対応する、前記入力画像の領域である、工程と、
    工程(d)で取得された前記行単位のそれぞれについて、
    (e)第2のダウンサンプリング比を用いて前記行単位を水平方向にダウンサンプリングする工程と、
    (f)工程(e)で取得された前記ダウンサンプリングされた行単位内の接続領域を検出する工程と、
    (g)工程(d)から取得された前記行単位を、工程(f)で取得された前記接続領域を用いて単語単位に切り出す工程と、を含み、
    前記第2のダウンサンプリング比は前記第1のダウンサンプリング比よりも小さい、データ処理装置。
  18. 前記第1のダウンサンプリング比は前記入力画像から算出され、各行単位に対する前記第2のダウンサンプリング比は前記行単位から算出される、請求項17に記載のデータ処理装置。
  19. 前記処理は、工程(a)の前に、前記第1のダウンサンプリング比を算出する工程を更に含み、この工程は、
    (h1)前記入力画像中の接続領域を検出する工程と、
    (h2)工程(h1)で検出された水平に隣接する接続領域の各対の間の水平距離を算出する工程と、
    (h3)工程(h2)で算出された水平距離の全てについての平均である第1の平均水平距離を算出する工程と、
    (h4)工程(h3)で算出された前記第1の平均水平距離に基づいて、前記第1のダウンサンプリング比を設定する工程と、を含む、請求項17又は18に記載のデータ処理装置。
  20. 工程(h4)で、前記第1のダウンサンプリング比は、前記第1の平均水平距離の3倍に等しい、請求項19に記載のデータ処理装置。
JP2017159043A 2016-09-29 2017-08-22 手書きテキスト画像に対する行及び単語切り出し方法 Active JP6951905B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/279,979 US10062001B2 (en) 2016-09-29 2016-09-29 Method for line and word segmentation for handwritten text images
US15/279,979 2016-09-29

Publications (2)

Publication Number Publication Date
JP2018081674A true JP2018081674A (ja) 2018-05-24
JP6951905B2 JP6951905B2 (ja) 2021-10-20

Family

ID=61685548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017159043A Active JP6951905B2 (ja) 2016-09-29 2017-08-22 手書きテキスト画像に対する行及び単語切り出し方法

Country Status (2)

Country Link
US (2) US10062001B2 (ja)
JP (1) JP6951905B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940799B (zh) * 2016-01-05 2020-07-24 腾讯科技(深圳)有限公司 文本图像处理方法和装置
US10062001B2 (en) * 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images
US10685261B2 (en) * 2018-06-11 2020-06-16 GM Global Technology Operations LLC Active segmention of scanned images based on deep reinforcement learning for OCR applications
US10885081B2 (en) * 2018-07-02 2021-01-05 Optum Technology, Inc. Systems and methods for contextual ranking of search results
CN109409377B (zh) * 2018-12-03 2020-06-02 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
JP7137170B1 (ja) * 2021-03-22 2022-09-14 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
JP7344916B2 (ja) * 2021-03-22 2023-09-14 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
CN113159031B (zh) * 2021-04-21 2024-05-10 广州逅艺文化科技有限公司 一种手写文本检测方法、装置及存储介质
CN114677461B (zh) * 2022-02-25 2024-10-18 北京字跳网络技术有限公司 特效文字的生成方法、装置、设备及存储介质
CN115393861B (zh) * 2022-10-31 2023-01-31 蓝舰信息科技南京有限公司 一种手写体文本精准分割方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298702A (ja) * 1999-04-15 2000-10-24 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
US20150269431A1 (en) * 2012-11-19 2015-09-24 Imds America Inc. Method and system for the spotting of arbitrary words in handwritten documents

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062141A (en) * 1988-06-02 1991-10-29 Ricoh Company, Ltd. Method of segmenting characters in lines which may be skewed, for allowing improved optical character recognition
US5067165A (en) * 1989-04-19 1991-11-19 Ricoh Company, Ltd. Character recognition method
US5416851A (en) * 1991-07-30 1995-05-16 Xerox Corporation Image analysis based on location sampling
US5933525A (en) 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
US5953451A (en) * 1997-06-19 1999-09-14 Xerox Corporation Method of indexing words in handwritten document images using image hash tables
US6339434B1 (en) * 1997-11-24 2002-01-15 Pixelworks Image scaling circuit for fixed pixed resolution display
US6640010B2 (en) * 1999-11-12 2003-10-28 Xerox Corporation Word-to-word selection on images
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7580551B1 (en) * 2003-06-30 2009-08-25 The Research Foundation Of State University Of Ny Method and apparatus for analyzing and/or comparing handwritten and/or biometric samples
US20050289018A1 (en) * 2004-06-07 2005-12-29 Todd Sullivan Online personalized apparel design and sales technology with associated manufacturing and fulfillment techniques and processes
WO2007022460A2 (en) * 2005-08-18 2007-02-22 Digital Business Processes, Inc. Post-ocr image segmentation into spatially separated text zones
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
CN100527156C (zh) 2007-09-21 2009-08-12 北京大学 一种图片文字检测的方法
US8335381B2 (en) * 2008-09-18 2012-12-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
US8111911B2 (en) * 2009-04-27 2012-02-07 King Abdulaziz City For Science And Technology System and methods for arabic text recognition based on effective arabic text feature extraction
US8000528B2 (en) * 2009-12-29 2011-08-16 Konica Minolta Systems Laboratory, Inc. Method and apparatus for authenticating printed documents using multi-level image comparison based on document characteristics
US8463041B2 (en) * 2010-01-26 2013-06-11 Hewlett-Packard Development Company, L.P. Word-based document image compression
US8345978B2 (en) * 2010-03-30 2013-01-01 Microsoft Corporation Detecting position of word breaks in a textual line image
US8401293B2 (en) * 2010-05-03 2013-03-19 Microsoft Corporation Word recognition of text undergoing an OCR process
US9449026B2 (en) * 2010-08-31 2016-09-20 Microsoft Technology Licensing, Llc Sketch-based image search
US8947736B2 (en) * 2010-11-15 2015-02-03 Konica Minolta Laboratory U.S.A., Inc. Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
US8588529B2 (en) * 2011-08-15 2013-11-19 Vistaprint Schweiz Gmbh Method and system for detecting text in raster images
US9319556B2 (en) * 2011-08-31 2016-04-19 Konica Minolta Laboratory U.S.A., Inc. Method and apparatus for authenticating printed documents that contains both dark and halftone text
US9288680B2 (en) * 2012-03-22 2016-03-15 Alcatel Lucent Almost blank subframe duty cycle adaptation in heterogeneous networks
US9230383B2 (en) * 2012-12-28 2016-01-05 Konica Minolta Laboratory U.S.A., Inc. Document image compression method and its application in document authentication
US9076058B2 (en) * 2013-01-29 2015-07-07 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for determining orientation in a document image
US9104940B2 (en) * 2013-08-30 2015-08-11 Konica Minolta Laboratory U.S.A., Inc. Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
US10248880B1 (en) * 2016-06-06 2019-04-02 Boston Inventions, LLC Method of processing and recognizing hand-written characters
US9972073B2 (en) * 2016-06-22 2018-05-15 Adobe Systems Incorporated Enhanced vectorization of raster images
US9977976B2 (en) * 2016-06-29 2018-05-22 Konica Minolta Laboratory U.S.A., Inc. Path score calculating method for intelligent character recognition
US10062001B2 (en) * 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298702A (ja) * 1999-04-15 2000-10-24 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
US20150269431A1 (en) * 2012-11-19 2015-09-24 Imds America Inc. Method and system for the spotting of arbitrary words in handwritten documents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田中 秀明 外3名: "自動登録型英文OCR", 電子情報通信学会技術研究報告 VOL. 93 NO. 431, vol. 93, no. 431, JPN6021033740, 21 January 1994 (1994-01-21), JP, pages 101 - 108, ISSN: 0004582187 *

Also Published As

Publication number Publication date
US10062001B2 (en) 2018-08-28
US10643094B2 (en) 2020-05-05
US20180330181A1 (en) 2018-11-15
JP6951905B2 (ja) 2021-10-20
US20180089525A1 (en) 2018-03-29

Similar Documents

Publication Publication Date Title
JP6951905B2 (ja) 手書きテキスト画像に対する行及び単語切り出し方法
CN108549893B (zh) 一种任意形状的场景文本端到端识别方法
JP7044898B2 (ja) ナンバープレート認識方法、および、そのシステム
CN112990204B (zh) 目标检测方法、装置、电子设备及存储介质
CN103703472B (zh) 用于确定视频中的对象的部位及相关属性的方法和系统
CN112990203B (zh) 目标检测方法、装置、电子设备及存储介质
RU2697649C1 (ru) Способы и системы сегментации документа
CN101964059B (zh) 构建级联分类器的方法、识别对象的方法及装置
CN106255979B (zh) 行分割方法
US8750571B2 (en) Methods of object search and recognition
CN112016551A (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN110196917B (zh) 个性化logo版式定制方法、系统和存储介质
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
JP2019102061A (ja) テキスト線の区分化方法
CN115223172A (zh) 文本提取方法、装置及设备
CN114926849A (zh) 一种文本检测方法、装置、设备及存储介质
CN112836510A (zh) 一种产品图片文字识别方法和系统
CN112418220A (zh) 一种单字检测方法、装置、设备及介质
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
KR20140137254A (ko) 문자 인식을 이용한 위치 정보 제공 단말, 서버, 시스템 및 방법
CN115760878A (zh) 三维图像实体分割方法、装置、设备、存储介质及车辆
CN115909356B (zh) 数字文档的段落确定方法、装置、电子设备及存储介质
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
JP5414631B2 (ja) 文字列探索方法、文字列探索装置、記録媒体
JP6609181B2 (ja) 文字属性推定装置、及び文字属性推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210927

R150 Certificate of patent or registration of utility model

Ref document number: 6951905

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150