JP2008108114A

JP2008108114A - 文書処理装置および文書処理方法

Info

Publication number: JP2008108114A
Application number: JP2006291180A
Authority: JP
Inventors: Yoji Kawasaki; 洋治川崎; Makiko Katagiri; 牧子片桐
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 2006-10-26
Filing date: 2006-10-26
Publication date: 2008-05-08

Abstract

【課題】表認識を行う装置は処理対象の表構造が限定されることが多い。
【解決手段】文書処理装置において、文書の画像データから抽出された処理対象表を取得し（Ｓ１０）、罫線、文字列、数列などの前景を除去し、タイトル領域のみの情報を持つような前景除去画像を生成する（Ｓ１２）。次に基本的な表構造を有するテンプレートデータとパターンマッチングしていくことにより、前景除去画像を部分表に分割していく（Ｓ１４、Ｓ１６）。次に罫線や文字列、数列の間隔に基づき部分表ごとにセルに分割し（Ｓ１８）、各セルに記載された文字列、数列を認識していくことにより、タイトルセル中の文字列などとデータセル中の数列などとを対応付けたデータを抽出していく（Ｓ２０）。
【選択図】図８

Description

本発明は文書解析技術に関し、特に文書内に表された表を読み取りデータを取得するための文書処理装置およびそれに適用される文書処理方法に関する。

近年、手書きの書類や印刷された文書を機械的に読み取り、文字を認識するＯＣＲ（Optical Character Reader）の技術が一般化してきた。これによりユーザは、紙面に書かれた内容を電子データとして保存したり、出力結果を表計算のソフトウェアに読み込ませて計算を行ったりすることができるようになった。

また、紙面上の表を認識する技術は帳簿の自動管理や現金自動振込みなど身近な環境で利便性を発揮している。一般的に用いられる表は、罫線で囲まれた矩形の領域をさらに罫線で細分化して得られる複数の矩形領域を、項目名欄（以後、タイトルセルと呼ぶ）およびデータ欄（以後、データセルと呼ぶ）として使用することにより、項目とデータの対応付けを表している。したがって表を認識するためにはタイトルセルとデータセルとの区別、およびその対応関係を把握する必要がある。表認識の最も簡単な形態としては、あらかじめタイトルセルにのみ記入のある帳票等を読み込み、タイトルセルおよび対応するデータセルの位置と、項目名とを記憶しておく場合がある。この場合は、実際に入力された帳票のデータセルの位置にある文字列や数列などを読み取ることにより容易に項目とデータとの対応を取得することができる。

この形態は、あらかじめ読み込んだ帳票と同一様式の帳票のみ認識が可能である。一方、表構造のバリエーションを許容できる技術も開発されている。例えば、各矩形領域の枠の辺の長さなどを比較することによりタイトルセルとデータセルとを区別する手法や、あらかじめタイトルセルに記載されるであろう「氏名」や「住所」などの文字列を辞書に登録しておくことにより、登録された文字列が記載されたセルをタイトルセルと判定する手法などがある（例えば特許文献１、特許文献２、非特許文献１参照）。
特開平１０−１１６３１４号公報特開２００５−２７５８３０号公報駱琴、渡邉豊英、杉江昇、帳票文書の構造認識のための書式構造知識の自動獲得，電子情報通信学会論文誌 D-II Vol. J76-D-II No. 3 pp.534-546, 1993年3月

ところが上述のような技術では、多少のバリエーションは許されるものの、構造の種類や項目名が限定的であり、あくまで最初に想定した範囲内の表を処理することが前提であるため、汎用性に乏しい。汎用性を向上させるためには様々な表の種類に応じた多数の情報をあらかじめ準備しておかなければならず、開発コストが増大する。またこれらの技術は、罫線に囲まれた矩形によって各セルの存在を認識するため、横方向の罫線のみ引かれた表や、罫線が引かれず文字の間隔のみで各セルを表した表などは認識できない。

本発明はこうした状況に鑑みてなされたものであり、その目的は、汎用性が高く導入コストの低い表認識技術を提供することにある。

本発明のある態様は、文書処理装置に関する。この文書処理装置は、文書の画像データに含まれる表を認識し、当該表の記載内容の読み出しを行う文書処理装置であり、文書の画像データから処理対象の表の画像データを抽出する表抽出部と、処理対象の表の画像データから項目名欄の領域を所定の判定手法により特定し、当該項目名欄の領域の全体形状について画像解析を行うことにより、処理対象の表に含まれ独立した表の形式を有する部分表に分割する領域分割部と、部分表ごとに項目名欄およびデータ欄から記載内容を読み出し、項目名欄およびデータ欄との対応関係に基づき当該記載内容を対応付けたデータを作成するデータ抽出部と、を備えたことを特徴とする。

ここで「全体形状」は罫線による区分けの情報を持たない項目名欄の「かたまり」の形状でよいが、孤立した１つの項目名欄であっても「全体形状」を構成しうる。また「全体形状」は１つの連続した領域の形状であってもよいし、２つ以上の領域の形状を含んでもよい。

本発明の別の態様は、文書処理方法に関する。この文書処理方法は、文書の画像データに含まれる表を認識し、当該表の記載内容の読み出しを行う文書処理方法であり、文書の画像データから処理対象の表の画像データを抽出するステップと、処理対象の表の画像データから項目名欄の領域を所定の判定手法により特定し、当該項目名欄の領域の全体形状について画像解析を行うことにより、処理対象の表に含まれ独立した表の形式を有する部分表に分割するステップと、部分表ごとに項目名欄およびデータ欄から記載内容を読み出し、項目名欄およびデータ欄との対応関係に基づき当該記載内容を対応付けたデータを作成するステップと、を含むことを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、汎用性の高い表認識技術を低コストで実現できる。

図１は本実施の形態における文書処理装置の全体的な構成を示している。文書処理装置１００は、文書画像のデータなどを入力する入力部６２、文書画像中に含まれる表を認識し、示されたデータを読み取る文書解析部１０、表の認識に必要な情報などを記憶した記憶部６０、表から読み取ったデータを適切な形式で出力する出力部６４を含む。これらの機能ブロックはバス６６を介して相互にデータの授受を行う。

入力部６２はユーザが処理に係る入力を行うユーザインターフェースであり、キーボード、ポインティングデバイスなど一般的な入力装置のいずれかまたは組み合わせを含む。また、文書を読み込み２次元の画像データとして取得するスキャナーを含んでいてもよい。さらに、画像化した文書の処理を行う図示しない画像文書処理機能の出力ブロックを入力部６２に含んでもよい。スキャナや画像文書処理機能の出力ブロックより取得した文書画像のデータ、または、ユーザが記憶部６０などにあらかじめ記憶させ、キーボードなどにより指定した文書画像のデータのファイル名が、処理対象文書画像の情報として文書解析部１０に提供される。

文書解析部１０は文書処理装置１００の主たる動作を掌るブロックであり、文書画像のデータから表データを抽出し、所定の処理を施すことにより解析を行って、タイトルセルとデータセルに記載された内容およびその対応関係を取得する。このとき文書解析部１０はまず表を大域的に解析することで当該表を部分表に分割する。部分表とは文書画像から抽出した表に含まれ、タイトルセルおよびデータセルを有するそれ自体で独立して１つの表とすることのできる部分である。表がそれ以上分割できない場合は分割せずに当該表を部分表とする。そして部分表ごとに局所的な解析を行うことによりデータとその対応関係を取得する。

記憶部６０はハードディスクなどの記憶装置、ＣＤ−ＲＯＭやＭＤなどの記録媒体およびそれらの読取装置などのいずれかまたは組み合わせを含む。記憶部６０には、文書解析部１０が表を部分表に分割するために行う照合処理に用いる表構造のテンプレートを記憶させる。さらに文書解析部１０などを動作させるためのコンピュータプログラムや、処理対象たる文書画像のデータを記憶させてもよい。

出力部６４はディスプレイおよびそれを制御するディスプレイコントローラを含む。処理を開始したり文書画像のファイル名を指定したりするための受け付け画面を表示させるなど、入力部６２の補助たる機能も有する。さらに文書解析部１０が取得したタイトルセルとデータセルに記載された内容およびその対応関係を適切な形式でデータ化したものを、図示しない別の機能ブロックなどに出力するインターフェースであってもよい。別の機能ブロックとは表計算や文書作成など当該データを利用してさらに別の処理を行うシステムの入力ブロックなどである。したがって適切な形式とはそのような機能ブロックが処理可能な形式である。出力部６４の制御のもと、得られたデータを記憶部６０やその他の記憶装置に出力し、データベースとして記憶させるようにしてもよい。

図２は文書解析部１０の構造をより詳細に示している。ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。

文書解析部１０は解析処理部１２とメモリ３０を含む。解析処理部１２は画像取得部１４、表抽出部１６、領域分割部１８、セル分割部２０、およびデータ抽出部２２を含む。画像取得部１４は入力部６２から入力された文書画像のデータ、あるいは入力部６２により指定され記憶部６０に記憶された文書画像のデータを読み出し、メモリ３０に保存する。

表抽出部１６は文書画像のデータから表の領域のデータを抽出する。例えば文書画像を走査して連結した罫線集合を求め、その外接矩形を表の領域として認識し抽出を行う。なお、以後説明する機能ブロックでは、基本的にはメモリ３０に保存されたデータを取得し、処理を施してメモリ３０に保存し直す、という手順を踏むが、メモリ３０に対する入出力についてはその説明を省略する場合がある。

領域分割部１８は表の全領域のうちタイトルセルが存在する領域（以後、タイトル領域と呼ぶ）を特定し、その領域の全体形状を２次元図形として画像解析することにより、部分表の境界を決定し分割する。例えば背景色が施されている領域、色など背景の属性が他と異なる領域、文字列と数列が認識された場合に文字列のみが存在する領域、文字列が太字であるなど所定の字体である領域、隣接する罫線が他よりも太い領域などのいずれか、またはそれらの組み合わせを、タイトル領域の判定手法に用いることにより特定する。

タイトル領域の判定基準としてはこのほかに、日本語仮名漢字、アルファベットといった文字列の文字種、文字サイズ、文字色、アンダーラインなどの文字飾りといった文字列の属性、右寄せ、左寄せ、中央寄せといった文字列の配置、字面、文字数、日付など特定の文字列パターンといった文字列そのもの、罫線の線種や色といった属性、罫線の有無などに基づいてもよい。

さらに表全体のうち左側、上側にあるなど、領域の位置情報を考慮してもよい。また、タイトル領域の特定は、上記のような判定手法を全て試行することにより総合的に判断してもよいし、ユーザに判定手法の選択を行わせたり、様々な判定手法によって導出されたタイトル領域の候補から選択させたりすることによって最終的な判断を行ってもよい。

また部分表は、記憶部６０からメモリ３０に読み出した表構造のテンプレートを参照して認識する。テンプレートは部分表の構造の候補であり、基本となる表を画像データとして用意する。ここでは、前段で特定したタイトル領域と、テンプレートにおけるタイトル領域の形状とを比較することにより、テンプレートのいずれかに合致した領域を各部分表の領域として特定する。この処理で着目する箇所はタイトル領域の大域的な形状、すなわち配置であるため、表に含まれる罫線の情報や各セルの内容は使用しなくてもよい。具体例については後に詳述する。

セル分割部２０は、各部分表の領域に罫線の情報を付加することにより部分表を各セルに分割する。罫線が引かれていない場合は各文字列や数列の間隔によってセルの境界を決定して分割する。本実施の形態において、罫線はタイトル領域の特定には用いず、縦および横のセルの境界を決定するのに用いられるため、データの間隔など他の情報で容易に代替することが可能である。

データ抽出部２２は分割したセルのそれぞれから文字列、数列などを読み取り、認識する。ここでは一般的に用いられる文字認識の手法のいずれかを採用すればよい。領域分割部１８において表を部分表に分割する際、タイトルセルの位置は把握済みであるため、タイトルセルに記載の文字列などと、データセルに記載の数列などとを対応づけて出力データとし、出力部６４に提供する。

次に領域分割部１８、セル分割部２０、データ抽出部２２が行う処理について具体的に説明する。なおここで示す表および処理手順は例示であり、本実施の形態を限定するものではない。図３は表抽出部１６が文書画像のデータから抽出した処理対象の表の構造例を示している。処理対象表７０は、タイトルセル７２ａ、７２ｂ、７２ｃ、およびデータセル７４ａ、７４ｂ、７４ｃを含む。同図では斜線パターンを施したセルをタイトルセル、白抜きのセルをデータセルとして示しているが、図を煩雑にしないため代表するそれぞれ３つのセルのみに符号を付している。また各セルには文字列や数列などが記載されているがここでは図示を省略している。この例では処理対象表７０は５行５列のセルによって構成されている。

タイトルセルは、タイトルセル７２ａを含む最も左の１列を構成する５つのセル、タイトルセル７２ｂを含む左から４列目の上から３つのセル、およびタイトルセル７２ｃを含む上から３行目の１行を構成するセルである。それ以外のセル、すなわちデータセル７４ａを含む２行２列の４つのセル、データセル７４ｂを含む２行１列の２つのセル、データセル７４ｃを含む２行４列の８つのセルがデータセルである。

このような処理対象表７０に対し、領域分割部１８、セル分割部２０、データ抽出部２２は次に述べる処理を行う。図４〜図７は領域分割部１８およびセル分割部２０が処理対象表７０の分割を行う様子を模式的に示している。まず図４に示すように、領域分割部１８は、図３に示した処理対象表７０のうちタイトル領域７３を特定する。特定は上述したように背景色の有無、セル内の記載が文字列か数列か等、あるいはそれらの組み合わせに基づき行うが、ここでは一例としてタイトルセルにのみ背景色が施されていた場合について主に説明する。

このとき領域分割部１８は、処理対象表７０の画像データのうち、罫線および各セル内に記載された文字列、数列などの前景を除去した、図４に示す前景除去画像７６の画像データを生成しメモリ３０に保存する。この際、各画素値の濃度に対するヒストグラムを生成することにより、前景および背景の濃度のしきい値を求め、それを超えた濃度の画素値を近隣の画素値と置き換えるなど一般的な除去手法を用いてよい。前景除去画像７６はおよそ背景色の画素値と白抜きの画素値とのいずれかを有する画素で構成されるため、結果としてタイトル領域７３の全体形状を得ることができる。このときノイズ除去処理を施して得られた２値画像を前景除去画像７６としてもよい。

文字の種類や形状をタイトル領域の判定手法とする場合は、罫線やセルの間隔に基づく境界線によってタイトル領域７３を特定し、当該領域に所定の画素値、例えば「１」を代入し、その他の領域に別の画素値、例えば「０」を代入した２値画像を前景除去画像７６としてもよい。

次に領域分割部１８は図５に示すように、記憶部６０が記憶した表構造のテンプレートデータ７８と前景除去画像７６とを照合していくことにより部分表を特定する。テンプレートデータとしては例えば、タイトル列のみを含む表７８ａ、タイトル行のみを含む表７８ｂ、およびタイトル行およびタイトル列の双方を含む表７８ｃの画像データを用意する。そして前景除去画像７６の左上から一般的なテンプレートマッチングを行っていくことにより、部分表への分割を実施する。なおテンプレートデータは上記構造に限らず、例えば様々な構造の処理対象表で試行を行うことにより必要なものを様々に決定してよい。タイトル領域だけからなるテンプレートやデータ領域だけからなるテンプレートを含めてもよい。またパターンマッチングにおいて縦横に伸縮処理を施すことが可能なため、テンプレートデータは例えば正方形の表の画像データなどでよい。

図５では、前景除去画像７６のうち左上の領域８２ａおよび右上の領域８２ｂがタイトル列のみを含む表７８ａと合致し、下の領域８２ｃがタイトル行およびタイトル列の双方を含む表７８ｃと合致している。例えば表の最も右側にタイトル領域が存在するなど、テンプレートデータのいずれとも合致しない領域が存在する場合は、その部分をデータセルと考えて隣接する部分表に含めることもできる。このようにテンプレートデータを用いることにより、タイトル領域の誤認識をスクリーニングすることもできる。

前景除去画像７６をテンプレートデータ７８と照合する際、前景除去画像７６のうち同一の左上角を有する領域でも複数のテンプレートと合致したり、合致する領域が複数通り存在する場合が考えられる。このような場合に備え、どのテンプレート、どの領域を優先するかについてあらかじめ規則を設定しておく。例えば、合致する領域が縦長より横長となる方を優先させる。すなわち、図６のような前景除去画像７６ａに対しては、図５の７８ｃのようなテンプレートが合致する領域として、点線で囲んだ領域９０と一点鎖線で囲んだ領域９２とが存在するが、横長である点線で囲んだ領域９０を優先させて部分表とする。この規則は正確な部分表分割における経験則に基づいている。

さらに、合致する領域の面積が大きい方を優先させてもよい。また、タイトル領域とデータ領域の双方を含むテンプレートを優先させたり、各テンプレートに優先順位を付与してもよい。以上のような規則のいずれか、またはその組み合わせを、想定される処理対象表７０などを考慮した実験などによって最適なものをあらかじめ設定しておく。

また、照合は前景除去画像７６の左上から行わなくてもよい。例えば前景除去画像７６の左上、左下、右上、右下の４箇所でそれぞれ照合を行い、合致した領域の面積がより大きい部分を部分表として分割し、さらに同様の照合を繰り返すようにしてもよい。

領域分割部１８は上述のようにテンプレートデータと照合することによって特定した部分表をなす領域８２ａ、８２ｂ、８２ｃの画像データを、それぞれ独立した表のデータとしてメモリ３０に保存する。この際、処理対象表７０と部分表をなす各領域との相対位置情報も保存しておく。

次にセル分割部２０は、メモリ３０に保存された部分表の領域ごとに、処理対象表７０に付加されていた罫線および文字列、数列を当てはめ、図７に示すようなセルが区分けされた複数の部分表８４ａ、８４ｂ、８４ｃのデータを生成する。なおここでも各セルに記載された文字列および数列の図示を省略している。部分表８４ａ、８４ｂ、８４ｃは、部分表をなす各領域８２ａ、８２ｂ、８２ｃの処理対象表７０に対する相対位置情報を基に、各画素値を処理対象表７０の対応する画素の画素値に戻すことによって得られる。さらに罫線がある場合はそれをセルの境界線とし、罫線がない場合は文字列および数列のみを当てはめ、その間隔の中心線などを境界線とすることによってセル単位に分割する。

データ抽出部２２は、部分表８４ａ、８４ｂ、８４ｃの各セルに対し、一般的な文字認識処理を施すことより文字列および数列を読み出す。このとき、タイトルセルおよびデータセルとの境界はすでに判明しているため、タイトルセルに記載された文字列などと、その他のセルに記載された数列などとの対応づけは容易に行うことができる。またタイトルセルの配置も判明しているため、行または列内での対応か、行および列の交差による対応かを容易に区別することができる。

図８は以上述べた領域分割部１８、セル分割部２０、データ抽出部２２が行う処理の手順を示している。まず領域分割部１８は表抽出部１６が抽出した処理対象表７０を取得する（Ｓ１０）。次に、背景色や文字列の種類などに基づきタイトルセルの領域を特定したうえで、処理対象表７０から所定の手法で罫線、文字列、数列などの前景を除去した、前景除去画像７６を生成する（Ｓ１２）。次に記憶部６０が記憶したテンプレートデータとのパターンマッチングを行うことにより、前景除去画像７６から部分表の領域を特定し分割する（Ｓ１４、Ｓ１６）。

次にセル分割部２０は、各部分表に罫線、文字列、数列などもとの処理対象表７０に記載されていた情報を当てはめることにより、セルに分割する（Ｓ１８）。そしてデータ抽出部２２は各セルに記載されてる文字列または数列を、所定の文字認識手法により読み取り、タイトルセルの記載内容とデータセルの記載内容とを、合致したテンプレートに基づく対応関係を参照して対応付けしながら抽出する（Ｓ２０）。以上のようにして生成したｃｓｖファイルなどのデータを別のソフトウェアへ入力したり、データベース化したりすることにより、表の内容を適宜電子処理することができる。

以上述べた本実施の形態によれば、処理対象たる表の画像データからタイトルセルの配置を示す形状のみに着目してパターンマッチングを施し、画像処理的アプローチから部分表を特定する。これにより罫線が引かれていない表でも構造が単純な部分表に分割することができ、後の解析、すなわちデータの読み取りと対応付けを容易にすることができる。また処理対象表を大局的に解析することから元の画像に歪みや回転がある場合でも、特段の対策処理を行わずにデータ抽出処理までを進捗することができる。

さらにタイトル領域を図形的に導き出すことから、あらかじめタイトルセルに記載される文字列について辞書登録を行う必要がない。さらに基本となる表構造をテンプレートデータとして用意することにより処理対象表を部分領域に分割していくため、いかに複雑な構造を有する表やサイズの大きな表でも同様に処理することが可能となり、あらかじめ全体的な表構造を登録しておく必要がない。さらに種々の手法によりタイトル領域を特定するため、記載された文字列に頼らずタイトル領域を特定でき、あらかじめ項目のみ記入された表を読み込ませるなどの手間を省略できる。結果として低い導入コストで汎用性の高い表認識技術を実現することができる。

以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば、本実施の形態で述べた処理対象表は画素値の情報のみを有するラスタ画像であることを前提として説明したが、より高次の情報を有する画像データであっても本発明を適用できる。より高次の情報とは例えば、位置情報を有する矩形の塗りつぶし情報と位置情報を有する矩形の文字列情報などである。例えば、背景色を施された矩形領域、罫線の幅を有する罫線をなす矩形領域、文字列を囲む最小外接矩形領域のそれぞれを左上角、右下角のｘｙ座標値で表した情報、および文字属性情報を含む文字列の情報からなってもよい。このような情報を有する画像においても、まず背景色を施された矩形領域の情報からなる前景除去画像とテンプレートデータとを照合して部分表に分割する。そして罫線をなす矩形領域や文字列を囲む矩形領域の情報を用いてセルに分割し、セルごとに文字列などを読み出す。これにより、本実施の形態と同様に、容易に汎用性の高い表認識技術を実現できる。

同様にテンプレートデータもラスタ画像に限らず、タイトル領域の形状を現す情報であればよい。例えば、ベクトル画像でもよいし、矩形を表す文字コードと改行情報を含むテキストデータでもよい。後者の場合、例えば黒塗り矩形をタイトル領域、白塗り矩形をデータ領域として表すことができる。異なるデータ形式を有する前景除去画像とテンプレートデータとの照合のためには、例えば低次の情報を有する側に合わせるように高次の情報のデータ変換を行ってもよいし、それ以外の一般的な解析手法を用いてもよい。テンプレートデータのデータ形式は照合に用いる解析手法やデータを記憶する記憶部の容量などに鑑み決定する。これによりより様々なデータ形式や記憶容量に応じた表認識技術を実現できる。

本実施の形態における文書処理装置の全体的な構成を示す図である。本実施の形態の文書解析部の構造をより詳細に示す図である。本実施の形態において表抽出部が文書画像のデータから抽出した処理対象の表の構造例を示す図である。本実施の形態の領域分割部が処理対象表を分割する際、生成する前景除去画像を模式的に示す図である。本実施の形態の領域分割部が処理対象表の分割を行う様子を模式的に示す図である。テンプレートとの照合における優先順位の例を説明する図である。本実施の形態のセル分割部が処理対象表の分割を行う様子を模式的に示す図である。本実施の形態において領域分割部、セル分割部、データ抽出部が行う処理の手順を示すフローチャートである。

符号の説明

１０文書解析部、１２解析処理部、１４画像取得部、１６表抽出部、１８領域分割部、２０セル分割部、２２データ抽出部、６０記憶部、６２入力部、６４出力部、７０処理対象表、７３タイトル領域、７６前景除去画像、７８テンプレートデータ、８４部分表、１００文書処理装置。

Claims

文書の画像データに含まれる表を認識し、当該表の記載内容の読み出しを行う文書処理装置であって、
前記文書の画像データから処理対象の表の画像データを抽出する表抽出部と、
前記処理対象の表の画像データから項目名欄の領域を所定の判定手法により特定し、当該項目名欄の領域の全体形状について画像解析を行うことにより、前記処理対象の表に含まれ独立した表の形式を有する部分表に分割する領域分割部と、
前記部分表ごとに項目名欄およびデータ欄から記載内容を読み出し、項目名欄およびデータ欄との対応関係に基づき当該記載内容を対応付けたデータを作成するデータ抽出部と、
を備えたことを特徴とする文書処理装置。
一種類以上の前記部分表の構造候補を記憶した記憶部をさらに備え、
前記領域分割部は前記記憶部を参照して、前記処理対象の表における項目名欄の領域の全体形状を、前記構造候補における項目名欄の領域の形状とマッチングさせることにより、前記処理対象の表における前記部分表の境界を特定し、分割を行うことを特徴とする請求項１に記載の文書処理装置。
前記領域分割部は、前記処理対象の表において背景色が設定された領域、背景色の属性が他と異なる領域のいずれか、またはその組み合わせを満たす領域を、前記項目名欄の領域として特定することを特徴とする請求項１または２に記載の文書処理装置。
前記領域分割部は、前記処理対象の表において文字列のみが記載された領域、文字列が所定の字体を有する領域、文字列が所定の文字種を有する領域、文字列の属性が他と異なる領域、文字列の配置が他と異なる領域、文字列の字面が他と異なる領域、文字列が所定の文字数または文字数範囲を有する領域、文字列が所定の文字パターンを有する領域のいずれか、またはその組み合わせを満たす領域を、前記項目名欄の領域として特定することを特徴とする請求項１から３のいずれかに記載の文書処理装置。
前記領域分割部は、前記処理対象の表において隣接する罫線が存在する領域、隣接する罫線の属性が他と異なる領域、のいずれか、またはその組み合わせを満たす領域を、前記項目名欄の領域として特定することを特徴とする請求項１から４のいずれかに記載の文書処理装置。
文書の画像データに含まれる表を認識し、当該表の記載内容の読み出しを行う文書処理方法であって、
前記文書の画像データから処理対象の表の画像データを抽出するステップと、
前記処理対象の表の画像データから項目名欄の領域を所定の判定手法により特定し、当該項目名欄の領域の全体形状について画像解析を行うことにより、前記処理対象の表に含まれ独立した表の形式を有する部分表に分割するステップと、
前記部分表ごとに項目名欄およびデータ欄から記載内容を読み出し、項目名欄およびデータ欄との対応関係に基づき当該記載内容を対応付けたデータを作成するステップと、
を含むことを特徴とする文書処理方法。
前記分割するステップは、
前記処理対象の表において特定した前記項目名欄の領域とそれ以外の領域とで異なる画素値を有する２値画像のデータを生成するステップと、
あらかじめ記憶装置に記憶させた、一種類以上の前記部分表の構造候補を、項目名欄の領域とそれ以外の領域とを前記２値画像と同様に区別して表したテンプレートデータと、前記２値画像のデータをマッチングさせることにより、前記処理対象の表における前記部分表の境界を特定するステップを含むことを特徴とする請求項６に記載の文書処理方法。
文書の画像データに含まれる表を認識し、当該表の記載内容の読み出しを行う機能をコンピュータに実現させるコンピュータプログラムであって、
メモリに保存した前記文書の画像データから処理対象の表の画像データを抽出する機能と、
前記処理対象の表の画像データから項目名欄の領域を所定の判定手法により特定し、当該項目名欄の領域の全体形状について画像解析を行うことにより、前記処理対象の表に含まれ独立した表の形式を有する部分表に分割する機能と、
前記部分表ごとに項目名欄およびデータ欄から記載内容を読み出し、項目名欄およびデータ欄との対応関係に基づき当該記載内容を対応付けたデータを作成する機能と、
をコンピュータに実現させるコンピュータプログラム。