JP2008033830A - 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 - Google Patents
帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 Download PDFInfo
- Publication number
- JP2008033830A JP2008033830A JP2006209065A JP2006209065A JP2008033830A JP 2008033830 A JP2008033830 A JP 2008033830A JP 2006209065 A JP2006209065 A JP 2006209065A JP 2006209065 A JP2006209065 A JP 2006209065A JP 2008033830 A JP2008033830 A JP 2008033830A
- Authority
- JP
- Japan
- Prior art keywords
- word
- character string
- word candidate
- logical
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
【解決手段】帳票処理装置1300では、あらかじめ帳票200からレイアウト情報500と文字情報600とを抽出しておく。単語候補抽出部1301は、文字情報600から単語候補を抽出する機能を有する。単語出現数値化部1302は、単語候補の各要素から出現する割合(出現確率)を算出する機能を有する。単語関係数値化部1303は、各単語候補間の関係が成り立つ割合(遷移確率)を与える機能を有する。単語評価部1304は、各単語候補がそれぞれの論理要素から出現する割合(評価値、具体的には事後確率)を算出する機能を有する。単語決定部1305は、評価値に基づいて、要素およびその単語候補を、帳票200における要素およびその文字列に決定する機能を有する。
【選択図】図13
Description
まず、この発明の実施の形態にかかる帳票処理装置のハードウェア構成について説明する。図1は、この発明の実施の形態にかかる帳票処理装置のハードウェア構成を示すブロック図である。
つぎに、この発明の実施の形態にかかる帳票処理装置の処理対象となる帳票の一例について説明する。図2は、この発明の実施の形態にかかる帳票処理装置の処理対象となる帳票の一例を示す説明図である。図2において、帳票200は、複数(図2では3つ)のセルC1〜C3から構成されている。セルC1には『氏名』、セルC2には『フリガナ』、『フジ』、『タロウ』、セルC3には『(姓)』、『(名)』、『富士』、『太郎』の文字情報が表示されている。
つぎに、この発明の実施の形態にかかる帳票処理装置における共通論理構造データベース(DB)について説明する。共通論理構造DBには、論理的な構造化処理がおこなわれる帳票200に一般的な共通論理構造が格納される。具体的には、帳票を階層構造化する際の論理要素(タグともいう。以下、単に「要素」と称す。)とその意味、それら要素が具体的に帳票上で表現される文字列、および要素間の関係が記述される。より具体的には、共通論理構造テーブルと、文字列情報テーブルと、接続情報テーブルとを有する。
つぎに、この発明の実施の形態にかかる帳票処理装置の機能的構成について説明する。図13は、この発明の実施の形態にかかる帳票処理装置の機能的構成を示すブロック図である。
まず、単語候補抽出部1301について説明する。単語候補抽出部1301では、各要素Eiに該当すると思われるすべての文字列を、共通論理構造データベースの文字列情報テーブル800に基づき単語候補として抽出し、単語候補テーブルを出力する。
つぎに、図14に示した単語候補抽出部1301による単語候補抽出処理手順について具体的に説明する。図16は、図14に示した単語候補抽出部1301による単語候補抽出処理手順を示すフローチャートである。
つぎに、単語出現数値化部1302について説明する。単語出現数値化部1302では、要素Ei、文字列番号j、単語候補Wkのすべてに対して、各単語候補Wkの出現確率p3(i,j,k)を算出する。具体的には、まず、単語候補テーブル1500から要素番号iおよび文字列番号jの組合せを読み込み、その要素番号iおよび文字列番号jの組合せを手掛かりとして、その対応文字列の出現頻度p1(i,j)を文字列情報テーブル800から抽出する。
構造DB1310に格納されており、出現頻度p1(i,j)を下記式(3)で表現する。
目の要素が1でそれ以外が0の要素を示す正規直交基底であり、要素iを表現するものとする。
テーブル800から読み込み、直接、規格化出現確率p3’(i,j,k)とする。そして、上述したように、NULL文字列以外の単語候補Wkについても規格化すればよい。
つぎに、図14に示した単語出現数値化部1302による単語出現数値化処理手順について具体的に説明する。図19は、図14に示した単語出現数値化部1302による単語出現数値化処理手順を示すフローチャートである。
つぎに、単語関係数値化部1303について説明する。単語関係数値化部1303では、図9に示した接続情報テーブル900を用いて、各要素Eiで任意に選択した単語候補どうしの組み合わせの出現確率または親要素の単語候補が確定した場合の子要素の単語候補の出現確率(条件付確率)を算出する。
j2,k2)である。単に、遷移確率p4と表記することもある。
示すものとする。
つぎに、図14に示した単語関係数値化部1303による単語関係数値化処理手順について具体的に説明する。図25は、図14に示した単語関係数値化部1303による単語関係数値化処理手順を示すフローチャートである。
。
つぎに、単語評価部1304について説明する。単語評価部1304では、単語の出現確率と、単語関係に関する候補間の関係とが考慮され、各要素Eiにおける単語候補の確率が算出される。具体的には、たとえば、確率伝搬法(Belief propagation)を適用することができる。
の上位(親)の要素Ei1の単語候補の確からしさをあらわす確率pf(i,j,k)を
算出する。確率pf(i,j,k)は下記式(12)であらわされる。以後、単に確率p
fと表記する場合もある。
号を示し、k’は文字列番号j’によって抽出された単語候補番号を示す。また、{Oi}-は文字列iから見た場合の上位階層でのすべての単語候補をあらわす。
下位(子)の要素Ei2の単語候補の確からしさをあらわす確率pb(i,j,k)を算
出する。確率pb(i,j,k)は下記式(13)であらわされる。以後、単に確率pb
と表記する場合もある。
号を示し、k’は文字列番号j’によって抽出された単語候補番号を示す。
。以後、単にpp1と表記する場合もある。事後確率pp1(i,j,k)は下記式(14)〜(17)であらわされる。
番号を示し、k’は文字列番号j’によって抽出された単語候補番号を示す。{Oi}を
すべての論理要素に対する観測であるとする。これらのすべてのプロセスが、すべての要素Eiの対応文字列Mijの単語候補Wkに対して実行される。
pf1=0.67×0.3×0.6=0.12
となる。
pf2=0.33×0.0×0.6=0
となる。
pf3=0.0×0.8×0.6=0
となる。
となる。
pf1=0.12×0.2×0.18=0.00432
となる。
pf2=0.1204×0.09×0.18=0.00195
となる。
pb1=0.18×0.0×0.6=0
となる。
pb2=0.18×0.0×0.6=0
となる。
pb3=0.18×0.0×0.6=0
となる。
pb4=0.18×0.2×0.6=0.0216
となる。
pb5=0.18×0.1×0.6=0.0108
となる。
pb6=0.1×0.1×0.6=0.006
となる。
pb1=0.0384×0.3×0.67=0.00771
となる。
pb2=0.0249×0.4×0.67=0.00667
となる。
pp1=0.0144/0.015222=94.6%
となる。
pp1=0.000822/(0.0144+0.000822+0.0)=5.4%
となる。
pp1=0.0/(0.0144+0.00822+0.0)=0%
となる。
pb1=0.0384×0.3×0.67=0.00771
となる。
pb2=0.0249×0.4×0.67=0.00667
となる。
pb3=0.0384×0.0×0.33=0
となる。
pb4=0.0249×0.1×0.33=0.00082
となる。
pb5=0.0384×0.8×0.0=0
となる。
pb6=0.0249×0.2×0.0=0
となる。
pp1
=(pb1+pb3+pb5)/(pb1+pb2+pb3+pb4+pb5+pb6)
=0.00771/0.00771+0.00667+0+0.00082+0+0)
=0.00771/0.0152
=51%
となる。
pp1
=(pb2+pb4+pb6)/(pb1+pb2+pb3+pb4+pb5+pb6)
=(0.00667+0.00082)/0.00771+0.00667+0+0.00082+0+0)
=0.00749/0.0152
=49%
となる。
pp1=0.0/0.01516=0%
となる。
pp1=0.00173/0.01516=12%
となる。
pp1=0.00130/0.01516=9.1%
となる。
pp1=0.00627/0.01516=41.2%
となる。
pp1=0.00346/0.01516=22.4%
となる。
pp1=0.00240/0.01516=15.3%
となる。
つぎに、図14に示した単語評価部1304による単語評価処理手順について具体的に説明する。図30は、図14に示した単語評価部1304による単語評価処理手順を示すフローチャートである。
つぎに、図30に示したフォワードプロセスの具体的な処理手順について説明する。図31は、フォワードプロセスの具体的な処理手順を示すフローチャートである。図31において、確率pf(i,j,k)=0とする(ステップS3101)。そして、親要素の要素番号i1をi1=0とする(ステップS3102)。
つぎに、図31に示したフォワード計算処理の具体的な処理手順について説明する。図32は、図31に示したフォワード計算処理の具体的な処理手順を示すフローチャートである。図32において、子要素Ei2の文字列番号j2をj2=0とし(ステップS3201)、文字列番号j2の単語候補番号k2をk2=0とする(ステップS3202)。また、親要素Ei1の文字列番号j1をj1=0とし(ステップS3203)、文字列番号j1の単語候補番号k1をk1=0とする(ステップS3204)。
pf(i2,j2,k2)
=p4’(i1,i2,j1,j2,k1,k2)×pf(i1,j1,k1)×p3’(i2,j2,k2)・・・(22)
つぎに、図30に示したバックワードプロセスの具体的な処理手順について説明する。図33は、バックワードプロセスの具体的な処理手順を示すフローチャートである。図33において、確率pb(i,j,k)=0とする(ステップS3301)。そして、親要素の要素番号i1をi1=0とする(ステップS3302)。
つぎに、図33に示したバックワード計算処理の具体的な処理手順について説明する。図34は、図33に示したバックワード計算処理の具体的な処理手順を示すフローチャートである。
pb(i1,j1,k1)
=p4’(i1,i2,j1,j2,k1,k2)×pb(i2,j2,k2)×p3’(i1,j1,k1)・・・(23)
つぎに、図30に示した事後確率算出プロセスの具体的な処理手順について説明する。図35は、事後確率算出プロセスの具体的な処理手順を示すフローチャートである。
つぎに、図35に示した事後確率規格化処理の手順について説明する。図36は、事後確率規格化処理の手順を示すフローチャートである。図36において、まず、親要素Ei1の文字列番号j1をj1=0とし(ステップS3601)、その単語候補番号k1をk1=0とする(ステップS3602)。
つぎに、単語決定部1305について説明する。単語決定部1305では、単語評価部1304によって得られた確率に応じて単語の確定をおこなう。すべての要素の中で最も高い確率を与える単語候補を持つ要素に対して、最も高い確率を与える単語候補を確定単語として出力する。または、ある一定のしきい値以上の確率を有した単語候補に対して確定を与えることとしてもよい。
pp2=pb/(pf+pb)=0.0144/(0.0144+0.0)=100%
となる。
pp2=pf/(pf+pb)=0.0/(0.0144+0.0)=0%
となる。両事後確率pp2を比較すると、要素E0の事後確率pp2のほうが大きいため、単語候補『氏名』は要素E0の文字列であると確定する。
つぎに、図14に示した単語決定部1305による単語決定処理手順について具体的に説明する。図38は、図14に示した単語決定部1305による単語決定処理手順を示すフローチャートである。
つぎに、図38に示した比較プロセス(ステップS3801)の具体的な処理手順について説明する。図39は、図38に示した比較プロセス(ステップS3801)の具体的な処理手順を示すフローチャートである。
つぎに、図39に示した比較計算処理(ステップS3914)の手順について説明する。図40は、図39に示した比較計算処理(ステップS3914)の手順を示すフローチャートである。このフローチャートは、図39のステップS3909のテキスト番号tを最大テキスト番号tmaxとする親要素Ei1の単語候補Wk1とその重複候補とを比較計算する処理手順である。
つぎに、図38のステップS3803で示した出現確率書換プロセスの具体的な処理手順について説明する。図41は、図38のステップS3803で示した出現確率書換プロセスの具体的な処理手順を示すフローチャートである。
前記処理対象から抽出された文字列と前記論理要素となる文字列との一致度に基づいて、前記処理対象から抽出された文字列の中から単語候補となる文字列を前記論理要素となる文字列ごとに抽出させる単語候補抽出工程と、
前記論理要素となる文字列の出現頻度に基づいて、前記単語候補抽出工程によって抽出された単語候補が前記論理要素において出現する出現確率を算出させる単語出現数値化工程と、
前記論理要素間の前記帳票上の相対位置に関する頻度に基づいて、前記論理要素間での単語候補どうしが組み合わせとして出現する遷移確率を算出させる単語関係数値化工程と、
前記単語出現数値化工程によって算出された出現確率と、前記単語関係数値化工程によって算出された遷移確率とに基づいて、前記各論理要素の単語候補が当該論理要素に該当する前記処理対象上の文字列であることの確からしさをあらわす評価値を算出させる単語評価工程と、
を前記コンピュータに実行させることを特徴とする帳票処理プログラム。
さらに、前記処理対象から抽出された文字列と前記論理要素となる文字列との一致度をあらわす確率に基づいて、前記単語候補抽出工程によって抽出された単語候補が前記論理要素において出現する出現確率を算出させることを特徴とする付記1に記載の帳票処理プログラム。
さらに、前記論理要素となる文字列が前記電子帳票に存在しないことを前記単語候補の一つとして定義して、前記単語候補抽出工程によって抽出された単語候補がその論理要素において出現する出現確率を算出させることを特徴とする付記2に記載の帳票処理プログラム。
前記処理対象のレイアウトにおける前記論理要素間の相対距離から得られる前記帳票上の相対位置に関する頻度に基づいて、前記論理要素間での単語候補どうしが組み合わせとして出現する遷移確率を算出させることを特徴とする付記1〜3のいずれか一つに記載の帳票処理プログラム。
さらに、前記論理要素間での単語候補どうしが組み合わせのうち下位階層の論理要素の文字列が前記下位階層の論理要素の単語候補である場合に、その上位階層の論理要素の文字列が前記上位階層の論理要素の単語候補である確率に基づいて、前記評価値を算出させることを特徴とする付記1〜4のいずれか一つに記載の帳票処理プログラム。
さらに、前記論理要素間での単語候補どうしが組み合わせのうち上位階層の論理要素の文字列が前記上位階層の論理要素の単語候補である場合に、その下位階層の論理要素の文字列が前記下位階層の論理要素の単語候補である確率に基づいて、前記評価値を算出させることを特徴とする付記1〜4のいずれか一つに記載の帳票処理プログラム。
前記複数の論理要素において同一の単語候補が重複する場合、当該論理要素ごとの評価値に基づいて選ばれた一の論理要素およびその単語候補を、前記処理対象における論理要素およびその文字列に決定させることを特徴とする付記7に記載の帳票処理プログラム。
前記複数の単語候補が前記論理要素において重複する場合、当該論理要素および当該単語候補ごとの評価値に基づいて選ばれた一の単語候補を、前記処理対象における論理要素およびその文字列に決定させることを特徴とする付記7に記載の帳票処理プログラム。
前記評価値に基づいて選ばれなかった単語候補の出現確率を、現在の値よりも低い値に変換させる出現確率変換工程を含み、
前記出現確率変換工程によって変換された変換結果に基づいて、前記論理要素およびその単語候補を、前記処理対象における論理要素およびその文字列に決定させることを特徴とする付記7〜9のいずれか一つに記載の帳票処理プログラム。
前記処理対象から抽出された文字列と前記論理要素となる文字列との一致度に基づいて、前記処理対象から抽出された文字列の中から単語候補となる文字列を前記論理要素となる文字列ごとに抽出する単語候補抽出手段と、
前記論理要素となる文字列の出現頻度に基づいて、前記単語候補抽出手段によって抽出された単語候補が前記論理要素において出現する出現確率を算出する単語出現数値化手段と、
前記論理要素間の前記帳票上の相対位置に関する頻度に基づいて、前記論理要素間での単語候補どうしが組み合わせとして出現する遷移確率を算出する単語関係数値化手段と、
前記単語出現数値化手段によって算出された出現確率と、前記単語関係数値化手段によって算出された遷移確率とに基づいて、前記各論理要素の単語候補が当該論理要素に該当する前記処理対象上の文字列であることの確からしさをあらわす評価値を算出する単語評価手段と、
を備えることを特徴とする帳票処理装置。
前記処理対象から抽出された文字列と前記論理要素となる文字列との一致度に基づいて、前記処理対象から抽出された文字列の中から単語候補となる文字列を前記論理要素となる文字列ごとに抽出する単語候補抽出工程と、
前記論理要素となる文字列の出現頻度に基づいて、前記単語候補抽出工程によって抽出された単語候補が前記論理要素において出現する出現確率を算出する単語出現数値化工程と、
前記論理要素間の前記帳票上の相対位置に関する頻度に基づいて、前記論理要素間での単語候補どうしが組み合わせとして出現する遷移確率を算出する単語関係数値化工程と、
前記単語出現数値化工程によって算出された出現確率と、前記単語関係数値化工程によって算出された遷移確率とに基づいて、前記各論理要素の単語候補が当該論理要素に該当する前記処理対象上の文字列であることの確からしさをあらわす評価値を算出する単語評価工程と、
を含んだことを特徴とする帳票処理方法。
500 レイアウト情報
600 文字情報
700 共通論理構造テーブル
800 文字列情報テーブル
900 接続情報テーブル
1200 木構造
1300 帳票処理装置
1301 単語候補抽出部
1302 単語出現数値化部
1303 単語関係数値化部
1304 単語評価部
1305 単語決定部
1310 共通論理構造DB
Claims (5)
- 帳票を論理的に構成する階層構造化された論理要素からなる論理構造を、当該各論理要素となる文字列の出現頻度および前記論理要素間の前記帳票上の相対位置に関する頻度とともに記憶するデータベースを用いて、処理対象となる紙帳票または電子帳票の論理構造をコンピュータに認識させる帳票処理プログラムであって、
前記処理対象から抽出された文字列と前記論理要素となる文字列との一致度に基づいて、前記電子帳票から抽出された文字列の中から単語候補となる文字列を前記論理要素となる文字列ごとに抽出させる単語候補抽出工程と、
前記論理要素となる文字列の出現頻度に基づいて、前記単語候補抽出工程によって抽出された単語候補が前記論理要素において出現する出現確率を算出させる単語出現数値化工程と、
前記論理要素間の前記帳票上の相対位置に関する頻度に基づいて、前記論理要素間での単語候補どうしが組み合わせとして出現する遷移確率を算出させる単語関係数値化工程と、
前記単語出現数値化工程によって算出された出現確率と、前記単語関係数値化工程によって算出された遷移確率とに基づいて、前記各論理要素の単語候補が当該論理要素に該当する前記処理対象上の文字列であることの確からしさをあらわす評価値を算出させる単語評価工程と、
を前記コンピュータに実行させることを特徴とする帳票処理プログラム。 - 前記単語出現数値化工程は、
さらに、前記処理対象から抽出された文字列と前記論理要素となる文字列との一致度をあらわす確率に基づいて、前記単語候補抽出工程によって抽出された単語候補が前記論理要素において出現する出現確率を算出させることを特徴とする請求項1に記載の帳票処理プログラム。 - 請求項1または2に記載の帳票処理プログラムを格納する前記コンピュータに読み取り可能な記録媒体。
- 帳票を論理的に構成する階層構造化された論理要素からなる論理構造を、当該各論理要素となる文字列の出現頻度および前記論理要素間の前記帳票上の相対位置に関する頻度とともに記憶するデータベースを用いて、処理対象となる紙帳票または電子帳票の論理構造を認識する帳票処理装置であって、
前記処理対象から抽出された文字列と前記論理要素となる文字列との一致度に基づいて、前記処理対象から抽出された文字列の中から単語候補となる文字列を前記論理要素となる文字列ごとに抽出する単語候補抽出手段と、
前記論理要素となる文字列の出現頻度に基づいて、前記単語候補抽出手段によって抽出された単語候補が前記論理要素において出現する出現確率を算出する単語出現数値化手段と、
前記論理要素間の前記帳票上の相対位置に関する頻度に基づいて、前記論理要素間での単語候補どうしが組み合わせとして出現する遷移確率を算出する単語関係数値化手段と、
前記単語出現数値化手段によって算出された出現確率と、前記単語関係数値化手段によって算出された遷移確率とに基づいて、前記各論理要素の単語候補が当該論理要素に該当する前記処理対象上の文字列であることの確からしさをあらわす評価値を算出する単語評価手段と、
を備えることを特徴とする帳票処理装置。 - 帳票を論理的に構成する階層構造化された論理要素からなる論理構造を、当該各論理要素となる文字列の出現頻度および前記論理要素間の前記帳票上の相対位置に関する頻度とともに記憶するデータベースを用いて、処理対象となる紙帳票または電子帳票の論理構造を認識する帳票処理方法であって、
前記処理対象から抽出された文字列と前記論理要素となる文字列との一致度に基づいて、前記処理対象から抽出された文字列の中から単語候補となる文字列を前記論理要素となる文字列ごとに抽出する単語候補抽出工程と、
前記論理要素となる文字列の出現頻度に基づいて、前記単語候補抽出工程によって抽出された単語候補が前記論理要素において出現する出現確率を算出する単語出現数値化工程と、
前記論理要素間の前記帳票上の相対位置に関する頻度に基づいて、前記論理要素間での単語候補どうしが組み合わせとして出現する遷移確率を算出する単語関係数値化工程と、
前記単語出現数値化工程によって算出された出現確率と、前記単語関係数値化工程によって算出された遷移確率とに基づいて、前記各論理要素の単語候補が当該論理要素に該当する前記処理対象上の文字列であることの確からしさをあらわす評価値を算出する単語評価工程と、
を含んだことを特徴とする帳票処理方法。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006209065A JP4848221B2 (ja) | 2006-07-31 | 2006-07-31 | 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 |
| US11/599,685 US7792369B2 (en) | 2006-07-31 | 2006-11-15 | Form processing method, form processing device, and computer product |
| CN2006101667982A CN101118597B (zh) | 2006-07-31 | 2006-11-30 | 帐票处理方法、帐票处理装置以及计算机产品 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006209065A JP4848221B2 (ja) | 2006-07-31 | 2006-07-31 | 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008033830A true JP2008033830A (ja) | 2008-02-14 |
| JP4848221B2 JP4848221B2 (ja) | 2011-12-28 |
Family
ID=38986374
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006209065A Expired - Fee Related JP4848221B2 (ja) | 2006-07-31 | 2006-07-31 | 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US7792369B2 (ja) |
| JP (1) | JP4848221B2 (ja) |
| CN (1) | CN101118597B (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010267083A (ja) * | 2009-05-14 | 2010-11-25 | Fujitsu Ltd | 帳票検索装置、帳票検索プログラムおよび帳票検索方法 |
| US8010564B2 (en) | 2007-10-31 | 2011-08-30 | Fujitsu Limited | Logical structure analyzing apparatus, method, and computer product |
| US8224090B2 (en) | 2007-02-02 | 2012-07-17 | Fujitsu Limited | Apparatus and method for analyzing and determining correlation of information in a document |
| US8275792B2 (en) | 2007-03-08 | 2012-09-25 | Fujitsu Limited | Document type identifying method and document type identifying apparatus |
| JP2012212316A (ja) * | 2011-03-31 | 2012-11-01 | Nec Corp | 帳票出力装置、帳票出力方法および帳票出力プログラム |
Families Citing this family (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9015573B2 (en) | 2003-03-28 | 2015-04-21 | Abbyy Development Llc | Object recognition and describing structure of graphical objects |
| RU2003108434A (ru) * | 2003-03-28 | 2004-09-27 | "Аби Софтвер Лтд." (CY) | Способ предварительной обработки изображения машиночитаемой формы нефиксированного формата |
| US9224040B2 (en) | 2003-03-28 | 2015-12-29 | Abbyy Development Llc | Method for object recognition and describing structure of graphical objects |
| US8233714B2 (en) | 2006-08-01 | 2012-07-31 | Abbyy Software Ltd. | Method and system for creating flexible structure descriptions |
| US9740692B2 (en) | 2006-08-01 | 2017-08-22 | Abbyy Development Llc | Creating flexible structure descriptions of documents with repetitive non-regular structures |
| US7996410B2 (en) * | 2007-02-01 | 2011-08-09 | Yahoo! Inc. | Word pluralization handling in query for web search |
| US8094202B2 (en) * | 2007-05-17 | 2012-01-10 | Canon Kabushiki Kaisha | Moving image capture apparatus and moving image capture method |
| US9256594B2 (en) * | 2007-06-06 | 2016-02-09 | Michael S. Neustel | Patent analyzing system |
| US7788276B2 (en) * | 2007-08-22 | 2010-08-31 | Yahoo! Inc. | Predictive stemming for web search with statistical machine translation models |
| US20090060338A1 (en) * | 2007-09-04 | 2009-03-05 | Por-Sen Jaw | Method of indexing Chinese characters |
| US20100312778A1 (en) * | 2009-06-08 | 2010-12-09 | Yumao Lu | Predictive person name variants for web search |
| JP5617249B2 (ja) * | 2010-01-20 | 2014-11-05 | 富士ゼロックス株式会社 | 帳票識別装置、帳票識別プログラム及び帳票処理システム |
| US9262394B2 (en) * | 2010-03-26 | 2016-02-16 | Nec Corporation | Document content analysis and abridging apparatus |
| JP5647919B2 (ja) * | 2011-03-07 | 2015-01-07 | 株式会社Nttドコモ | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム |
| JP2013250625A (ja) * | 2012-05-30 | 2013-12-12 | Oki Electric Ind Co Ltd | 帳票入力システム及び帳票入力方法 |
| CN104346616B (zh) * | 2013-08-09 | 2017-12-12 | 北大方正集团有限公司 | 字符识别装置和字符识别方法 |
| JP2015176182A (ja) * | 2014-03-13 | 2015-10-05 | 沖電気工業株式会社 | 現金取引装置、記番号再読取装置及び記番号再読取システム |
| EP3494530A4 (en) * | 2016-08-05 | 2020-04-15 | Vatbox, Ltd. | RECEIVING NEW EDITIONS OF ELECTRONIC DOCUMENTS WHICH REQUIRED DATA ARE MISSING |
| JP7275816B2 (ja) * | 2019-04-26 | 2023-05-18 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
| CN110991279B (zh) * | 2019-11-20 | 2023-08-22 | 北京灵伴未来科技有限公司 | 文档图像分析与识别方法及系统 |
| CN113486638B (zh) * | 2021-07-29 | 2024-09-24 | 浙江大华技术股份有限公司 | 表格的重构方法和装置、存储介质及电子装置 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07114619A (ja) * | 1993-10-20 | 1995-05-02 | Hitachi Ltd | 文書認識装置 |
| JP2001344562A (ja) * | 2000-05-31 | 2001-12-14 | Toshiba Corp | 文書読取装置および文書読取方法 |
| JP2005275830A (ja) * | 2004-03-25 | 2005-10-06 | Hitachi Computer Peripherals Co Ltd | 帳票認識方法 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
| JP2000251012A (ja) * | 1999-03-01 | 2000-09-14 | Hitachi Ltd | 帳票処理方法およびシステム |
| AUPQ273799A0 (en) * | 1999-09-08 | 1999-09-30 | Accudent Pty Ltd | Document authentication method and apparatus |
| CN1252585A (zh) * | 1999-11-08 | 2000-05-10 | 广东省科学院自动化工程研制中心 | 一种有限符号集的局部择优匹配法 |
| JP3860389B2 (ja) | 2000-04-21 | 2006-12-20 | 日立オムロンターミナルソリューションズ株式会社 | 帳票イメージ処理装置 |
| JP2002324236A (ja) * | 2001-04-25 | 2002-11-08 | Hitachi Ltd | 帳票識別方法及び帳票登録方法 |
-
2006
- 2006-07-31 JP JP2006209065A patent/JP4848221B2/ja not_active Expired - Fee Related
- 2006-11-15 US US11/599,685 patent/US7792369B2/en not_active Expired - Fee Related
- 2006-11-30 CN CN2006101667982A patent/CN101118597B/zh not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07114619A (ja) * | 1993-10-20 | 1995-05-02 | Hitachi Ltd | 文書認識装置 |
| JP2001344562A (ja) * | 2000-05-31 | 2001-12-14 | Toshiba Corp | 文書読取装置および文書読取方法 |
| JP2005275830A (ja) * | 2004-03-25 | 2005-10-06 | Hitachi Computer Peripherals Co Ltd | 帳票認識方法 |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8224090B2 (en) | 2007-02-02 | 2012-07-17 | Fujitsu Limited | Apparatus and method for analyzing and determining correlation of information in a document |
| US8275792B2 (en) | 2007-03-08 | 2012-09-25 | Fujitsu Limited | Document type identifying method and document type identifying apparatus |
| US8010564B2 (en) | 2007-10-31 | 2011-08-30 | Fujitsu Limited | Logical structure analyzing apparatus, method, and computer product |
| JP2010267083A (ja) * | 2009-05-14 | 2010-11-25 | Fujitsu Ltd | 帳票検索装置、帳票検索プログラムおよび帳票検索方法 |
| JP2012212316A (ja) * | 2011-03-31 | 2012-11-01 | Nec Corp | 帳票出力装置、帳票出力方法および帳票出力プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| CN101118597B (zh) | 2010-07-07 |
| US20080025618A1 (en) | 2008-01-31 |
| JP4848221B2 (ja) | 2011-12-28 |
| US7792369B2 (en) | 2010-09-07 |
| CN101118597A (zh) | 2008-02-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4848221B2 (ja) | 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法 | |
| CN113853553B (zh) | 从工程数据源中自动提取资产数据以用于生成hmi | |
| EP1239406B1 (en) | Device and method for character recognition and for recognition of mathematical expressions | |
| JP3940491B2 (ja) | 文書処理装置および文書処理方法 | |
| US7623715B2 (en) | Holistic-analytical recognition of handwritten text | |
| JP6668182B2 (ja) | 回路設計装置及びそれを用いた回路設計方法 | |
| JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
| US12197412B2 (en) | Automated transformation of information from images to textual representations, and applications therefor | |
| JPH086945A (ja) | 文書の論理構造の解析方法及びシステム | |
| CN116229481B (zh) | 一种关键信息抽取方法、装置、电子设备及存储介质 | |
| CN110110313A (zh) | 文档表格解析方法及装置 | |
| CN120747992B (zh) | 一种非结构化pdf文档智能解析方法、装置、设备及介质 | |
| CN101425131B (zh) | 逻辑结构分析装置、方法和计算机产品 | |
| WO2022038821A1 (ja) | 表構造認識装置及び方法 | |
| Karpinski et al. | Metrics for complete evaluation of ocr performance | |
| CN120726658A (zh) | 多模态文档内容跨平台解析系统 | |
| Le et al. | Stroke order normalization for improving recognition of online handwritten mathematical expressions | |
| Crosilla et al. | Benchmarking large language models for handwritten text recognition | |
| CN117009460B (zh) | 词典笔的辅助信息快速搜集方法 | |
| JP4466241B2 (ja) | 文書処理手法及び文書処理装置 | |
| JP4006176B2 (ja) | 文字列認識装置 | |
| CN118196822A (zh) | 作业辅助装置以及作业辅助方法 | |
| Zhang et al. | Research on a tailored deep learning method-based information extraction model for engineering document in the advanced electronic industry | |
| Tapia-Téllez et al. | Training Readability Comparators for Academic Texts at Different Levels. | |
| Kefali et al. | Semi-automatic framework for layout annotation of arabic document images |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090409 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110422 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110531 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110801 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111011 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111017 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141021 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |