JP2012190315A - Image processing device and program - Google Patents
Image processing device and program Download PDFInfo
- Publication number
- JP2012190315A JP2012190315A JP2011053977A JP2011053977A JP2012190315A JP 2012190315 A JP2012190315 A JP 2012190315A JP 2011053977 A JP2011053977 A JP 2011053977A JP 2011053977 A JP2011053977 A JP 2011053977A JP 2012190315 A JP2012190315 A JP 2012190315A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- candidate
- page
- coefficient
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 67
- 238000000605 extraction Methods 0.000 claims abstract description 62
- 239000000284 extract Substances 0.000 abstract description 15
- 230000001186 cumulative effect Effects 0.000 description 27
- 238000000034 method Methods 0.000 description 25
- 238000004458 analytical method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、画像処理装置およびプログラムに関する。 The present invention relates to an image processing apparatus and a program.
特許文献1は、タイトル文字列の近傍に記載されるキーワード文字列の位置及びキーワード文字列に対するタイトル文字列の相対的な位置に基づいてタイトル文字列の位置を取得し、そのタイトル文字列の位置に基づいてタイトル文字列のデータを出力するタイトル抽出装置を開示する。
本発明の目的は、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理装置を提供することである。 An object of the present invention is to provide an image processing apparatus that can efficiently determine a character string of a document composed of a plurality of pages as compared with a case where the document does not have this configuration.
請求項1にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、前記係数算出手段によって1つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出手段によって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第1の基準値を超えた場合に、前記第1の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段とを有する画像処理装置である。 According to the first aspect of the present invention, there is provided candidate extraction means for extracting, for each page, a feature character string candidate that is a character string related to the original document from each page of a plurality of pages. A coefficient for calculating a coefficient on the basis of information on the page in accordance with a predetermined condition for each candidate for a characteristic character string extracted for each page by the candidate extraction unit each time a candidate for a characteristic character string is extracted from a page Whether the coefficient calculated by the coefficient calculation means exceeds a predetermined reference value each time the coefficient is calculated for the candidate of the character string extracted from one page by the calculation means and the coefficient calculation means And when the calculated coefficient exceeds a predetermined first reference value, a candidate for the coefficient exceeding the first reference value is determined as a characteristic character string of the document. An image processing device having a symptom string determination means.
請求項2にかかる本発明は、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段をさらに有し、前記時間算出手段によって1つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記特徴文字列決定手段は、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する請求項1に記載の画像処理装置である。
According to a second aspect of the present invention, there is provided time calculation means for calculating at least the time required for processing of the candidate extraction means for each page every time a candidate for a character string is extracted from one page by the candidate extraction means. In addition, each time the time calculation unit calculates the time required for processing of the candidate extraction unit for one page, the characteristic character string determination unit determines the time for each page calculated by the time calculation unit. It is determined whether or not the accumulated time exceeds a predetermined reference time, and when the accumulated time exceeds a predetermined reference time, a candidate for the maximum coefficient among the calculated coefficients is selected as the characteristic character string of the document. The image processing apparatus according to
請求項3にかかる本発明は、前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの前記係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項2に記載の画像処理装置である。
According to a third aspect of the present invention, the characteristic character string determining means is a case where the accumulated time of the time exceeds a predetermined reference time, and the largest coefficient among the calculated coefficients is the first coefficient. 3. The image processing apparatus according to
請求項4にかかる本発明は、前記特徴文字列決定手段は、原稿の全ての頁について前記算出された係数が前記第1の基準値を超えなかった場合に、算出された係数のうちの最大の係数に関する特徴文字列の候補を前記原稿の特徴文字列として決定する請求項1に記載の画像処理装置である。
The present invention according to claim 4 is characterized in that the characteristic character string determining means determines the maximum of the calculated coefficients when the calculated coefficient does not exceed the first reference value for all pages of the document. The image processing apparatus according to
請求項5にかかる本発明は、前記特徴文字列決定手段は、原稿の全ての頁について前記係数が第1の基準値を超えなかった場合であって、算出済みの係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項4に記載の画像処理装置である。 The present invention according to claim 5 is characterized in that the characteristic character string determining means is a case where the coefficient does not exceed the first reference value for all pages of the document, and is the largest coefficient among the calculated coefficients. 5. The image processing apparatus according to claim 4, wherein a character string relating to predetermined information is determined as a characteristic character string of the document when is equal to or smaller than a second reference value smaller than the first reference value.
請求項6にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段と、前記時間算出手段によって1つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段とを有する画像処理装置である。 According to a sixth aspect of the present invention, there is provided candidate extraction means for extracting, for each page, a feature character string candidate that is a character string related to the original document from each page of a plurality of pages. A coefficient for calculating a coefficient on the basis of information on the page in accordance with a predetermined condition for each candidate for a characteristic character string extracted for each page by the candidate extraction unit each time a candidate for a characteristic character string is extracted from a page A calculation unit; a time calculation unit that calculates at least a time required for processing of the candidate extraction unit for each page each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit; and the time calculation unit Every time the time required for processing by the candidate extracting means is calculated for one page, the accumulated time of each page calculated by the time calculating means is determined. And determining a candidate for the largest coefficient among the calculated coefficients as a characteristic character string of the document when the accumulated time exceeds a predetermined reference time. An image processing apparatus having character string determination means.
請求項7にかかる本発明は、前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項6に記載の画像処理装置である。 According to a seventh aspect of the present invention, the characteristic character string determining means is a case where the accumulated time of the time exceeds a predetermined reference time, and the largest coefficient among the calculated coefficients is the first coefficient. The image processing apparatus according to claim 6, wherein when it is equal to or smaller than a second reference value smaller than the reference value, a character string related to predetermined information is determined as a characteristic character string of the document.
請求項8にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出ステップと、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出ステップにおいて頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出ステップと、前記係数算出手段によって1つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出ステップによって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第1の基準値を超えた場合に、前記第1の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定ステップとをコンピュータに実行させる画像処理プログラムである。 According to an eighth aspect of the present invention, there is provided a candidate extraction step for extracting, for each page, a feature character string candidate that is a character string related to a document from each page of a document composed of a plurality of pages. A coefficient that calculates a coefficient based on information about a page according to a predetermined condition for each of the candidate candidate character strings extracted for each page in the candidate extraction step each time a candidate candidate character string is extracted from the page Whether the coefficient calculated by the coefficient calculating step exceeds a predetermined reference value each time a coefficient is calculated for the candidate candidate character string extracted from one page by the coefficient calculating means And when the calculated coefficient exceeds a predetermined first reference value, candidates relating to the coefficient exceeding the first reference value are selected as characteristic characters of the document. An image processing program for executing the feature character string determining step in a computer to determine a.
請求項1に係る本発明によれば、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理装置を提供することができる。 According to the first aspect of the present invention, there is provided an image processing apparatus capable of efficiently determining a character string of a document composed of a plurality of pages as compared with a case where the characteristic character string is not provided. Can do.
請求項2に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、原稿の特徴文字列の決定に要する時間を、本構成を有していない場合と比較して削減することができる。 According to the second aspect of the present invention, in addition to the effect obtained by the first aspect of the present invention, the time required for determining the character string of the original is compared with the case where the present configuration is not provided. Can be reduced.
請求項3に係る本発明によれば、請求項2に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。 According to the third aspect of the present invention, in addition to the effect obtained by the second aspect of the present invention, it is possible to eliminate the determination of an inappropriate character string as a characteristic character string of a document.
請求項4に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、全頁の処理後に原稿の特徴文字列を決定できる。
According to the present invention of claim 4, in addition to the effect obtained by the present invention of
請求項5に係る本発明によれば、請求項4に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。 According to the fifth aspect of the present invention, in addition to the effect obtained by the present invention according to the fourth aspect, it can be excluded that a character string inappropriate as the characteristic character string of the document is determined as the characteristic character string.
請求項6に係る本発明によれば、複数の頁から構成される原稿の特徴文字列の決定に要する時間を、本構成を有していない場合と比較して削減可能な画像処理装置を提供できる。 According to the sixth aspect of the present invention, there is provided an image processing apparatus capable of reducing the time required to determine the character string of a document composed of a plurality of pages compared to the case where the present configuration is not provided. it can.
請求項7に係る本発明によれば、請求項6に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。 According to the present invention of claim 7, in addition to the effect obtained by the present invention of claim 6, it can be excluded that a character string inappropriate as a characteristic character string of a document is determined as a characteristic character string.
請求項8に係る本発明によれば、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理プログラムを提供することができる。 According to the eighth aspect of the present invention, there is provided an image processing program capable of determining a character string of a document composed of a plurality of pages more efficiently than a case where the character string is not provided with the present configuration. Can do.
図1は、本実施形態にかかる画像処理装置2のハードウェア構成を例示する図である。
図1に例示するように、画像処理装置2は、CPU等の演算部212及びメモリ等の記憶部214などを含む制御装置21と、通信装置22と、記録装置24と、ユーザインターフェース装置(UI装置)25と、印刷装置26と、画像読取装置27とから構成される。
FIG. 1 is a diagram illustrating a hardware configuration of an
As illustrated in FIG. 1, the
UI装置25は、LCD(Liquid Crystal Display)表示装置あるいはCRT(Cathode Ray Tube)表示装置等の表示装置およびキーボード・タッチパネルなどを含む。
印刷装置26は、例えばプリンタ等であって、文字データまたは画像データ等を用紙等の記録媒体に印刷する。
画像読取装置27は、例えばスキャナ等であって、原稿等の記録媒体から画像等を読み取って、例えばビットマップ形式の読取情報に変換する。
つまり、画像処理装置2は、情報処理および他の画像処理装置又は端末との通信が可能なコンピュータとしてのハードウェア構成部分を有している。
また、以下の各図において、実質的に同じ構成部分および処理には同じ番号が付される。
なお、本実施形態において、画像処理装置2は印刷装置26および画像読取装置27を有するとしたが、画像処理装置は、印刷装置および画像読取装置を有さない例えばPCであってもよく、この場合、画像処理装置は、画像読取装置とLAN(Local Area Network)等を介して接続されていてもよい。
The
The
The
That is, the
In the following drawings, substantially the same components and processes are denoted by the same reference numerals.
In the present embodiment, the
図2は、図1に示した画像処理装置2において動作する処理プログラム3の構成を示す図である。
図2に示すように、処理プログラム3は、原稿読取情報受付部302、原稿読取情報管理部304、配置解析部308、文字列抽出部310、特徴文字列候補抽出部32、頁情報算出部34、特徴文字列候補管理部358および特徴文字列決定部36から構成される。
処理プログラム3は、たとえば、記憶媒体240(図1)を介して画像処理装置2に供給され、記憶部214にロードされ、画像処理装置2にインストールされたOS(図示せず)上で、画像処理装置2のハードウェア資源を具体的に利用して実行される。
なお、本実施形態においては、処理プログラム3は、ソフトウェアで実現されるとしているが、処理プログラム3の全部又は一部は、例えばFPGA(Field Programmable Gate Array)などのハードウェアで実現されてもよい。
FIG. 2 is a diagram showing the configuration of the
As shown in FIG. 2, the
The
In the present embodiment, the
図3は、図2に示した特徴文字列候補抽出部32の構成を示す図である。
図3に示すように、特徴文字列候補抽出部32は、文字列位置算出部322、文字列位置配点部324、文字列規模算出部326、文字列規模配点部328、文字列頻度算出部330、文字列頻度配点部332、配点合計部334、配点格納部336および特徴文字列候補判定部338から構成される。
図4は、図2に示した頁情報算出部34の構成を示す図である。
図4に示すように、頁情報算出部34は、配点抽出部342、候補係数算出部344、処理時間算出部346、累積処理時間算出部348および処理時間管理部350から構成される。
FIG. 3 is a diagram illustrating a configuration of the feature character string
As shown in FIG. 3, the feature character string
FIG. 4 is a diagram showing a configuration of the page
As shown in FIG. 4, the page
図5は、図2に示した特徴文字列決定部36の構成を示す図である。
図5に示すように、特徴文字列決定部36は、候補係数比較部362、累積処理時間比較部364、処理頁数判断部366および特徴文字列判定部368から構成される。
FIG. 5 is a diagram showing a configuration of the characteristic character
As shown in FIG. 5, the characteristic character
処理プログラム3(図2)において、原稿読取情報受付部302は、画像読取装置27から得られた読取情報(原稿読取情報)を受け付け、受け付けた原稿読取情報を原稿読取情報管理部304に対して出力する。
原稿読取情報管理部304は、原稿読取情報受付部302からの原稿読取情報を記憶し、管理する。
また、原稿読取情報管理部304は、原稿が複数頁から構成される場合、特徴文字列決定部36からの命令に応じて、配置解析部308および文字列抽出部310が頁ごとに処理を行うように制御する。
つまり、原稿読取情報管理部304は、1つの頁の処理が終了した後、特徴文字列決定部36から次の頁の処理を行うことを示す命令を受け入れた場合のみに、配置解析部308および文字列抽出部310が頁ごとに処理を行うように制御する。
In the processing program 3 (FIG. 2), the document reading
The document reading
Further, when the document is composed of a plurality of pages, the document reading
That is, after the processing of one page is completed, the document reading
配置解析部308は、原稿読取情報を解析して、原稿に含まれる文字、表、写真等の自然画、CG(Computer Graphics)又は絵画等を分類(オブジェクト分類)し、それぞれについて位置情報を対応付ける。
さらに、配置解析部308は、解析結果を示す情報(配置情報)を、特徴文字列候補抽出部32に対して出力する。
ここで、配置情報は、原稿読取情報に対応する原稿において、どの位置にどれだけの規模でどのオブジェクト(文字、表、写真等の自然画、CG又は絵画等)が含まれるかを示す情報である。
The
Further, the
Here, the arrangement information is information indicating which object (natural image such as a character, a table, or a photograph, a CG or a painting) is included at which position and in which position in the document corresponding to the document reading information. is there.
この配置情報は、例えば、各オブジェクトの位置を示す位置情報と、各オブジェクトの規模(寸法又は面積等)を示す規模情報とを含む。
ここで、位置情報は、例えば、位置座標等の絶対的な位置を示すものであってもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
同様に、規模情報は、例えば、フォントサイズ又は占有面積等の、そのオブジェクトの絶対的な規模を示すものであってもよいし、他のオブジェクトとの間の相対的な規模を示すものであってもよく、あるいは、オブジェクトの規模の平均値との差を示すものであってもよい。
また、上述した配置解析部308による分類は、例えば、原稿に含まれる各種の線、枠線、罫線又は色情報の検出と、エッジ検出と、パターンマッチングとによって行われる。しかし、これらの手法に限られない。
This arrangement information includes, for example, position information indicating the position of each object and scale information indicating the scale (size, area, etc.) of each object.
Here, for example, the position information may indicate an absolute position such as position coordinates, or may indicate a relative positional relationship with another character string or the like.
Similarly, the size information may indicate the absolute size of the object, for example, the font size or the occupied area, or may indicate the relative size between other objects. Alternatively, it may indicate a difference from the average value of the object scale.
The above-described classification by the
文字列抽出部310は、例えばOCR(Optical Character Recognition:光学文字認識)機能を使用することによって原稿読取情報を解析し、原稿に含まれる文字列を、例えば形態素解析によってその文字列単独で所定の語義を有する形式で抽出する。
ここで、文字認識とは、読み取って得られた文字の画像データを前もって記憶されたパターンと照合することによって、その文字を特定して、文字データ(文字列)を生成することをいう。
また、形態素解析とは、例えば、予め記憶されている文法の規則に関する情報と単語が登録された辞書とに基づいて、1つの文章を形態素(意味を持つ最小の言語単位)に分類し、分類された形態素の品詞を判別する処理をいう。
また、この形態素解析の処理において、文字列の言語が判別される(つまり、例えば、その文字列が日本語か英語かまたはその他の言語かが判別される)。
さらに、文字列抽出部310は、抽出された各文字列を、特徴文字列候補抽出部32に対して出力する。
The character
Here, the character recognition refers to generating character data (character string) by specifying the character by comparing the image data of the character obtained by reading with a pattern stored in advance.
The morpheme analysis is, for example, classifying one sentence into morphemes (the smallest language unit having meaning) based on information on grammatical rules stored in advance and a dictionary in which words are registered. This is a process for discriminating the part of speech of a morpheme.
In this morphological analysis process, the language of the character string is determined (that is, for example, whether the character string is Japanese, English, or another language).
Further, the character
特徴文字列候補抽出部32は、原稿に関する文字列である特徴文字列の候補(特徴文字列候補)を、頁ごとに1つずつ抽出して、特徴文字列候補管理部358に対して出力する。
ここで、特徴文字列とは、例えば原稿の題名(タイトル)等であって、人間が原稿を識別するための文字列である。
また、特徴文字列は、原稿読取情報を電子データ(電子ファイル)等に変換した場合に、その電子データまたはその電子データを保管するパスフォルダ(ディレクトリ)等の名前としてもよい。
また、特徴文字列候補とは、特徴文字列となりうる文字列であって、原稿を構成する頁ごとに判定される。
そして、後述する処理によって、ある特徴文字列候補が特徴文字列の条件を満たすと判定されれば、その特徴文字列候補が、その原稿全体についての特徴文字列として決定される。
The feature character string
Here, the characteristic character string is, for example, a document title (title) or the like, and is a character string for a human to identify the document.
The characteristic character string may be the name of the electronic data or a path folder (directory) for storing the electronic data when the document reading information is converted into electronic data (electronic file) or the like.
The characteristic character string candidate is a character string that can be a characteristic character string, and is determined for each page constituting the document.
If it is determined by a process described later that a certain characteristic character string candidate satisfies the characteristic character string condition, the characteristic character string candidate is determined as a characteristic character string for the entire document.
特徴文字列候補抽出部32において、文字列位置算出部322(図3)は、配置解析部308から、処理対象の頁についての配置情報を受け入れ、文字列抽出部310から、処理対象の頁における文字列を受け入れる。
また、文字列位置算出部322は、受け入れた配置情報に含まれる位置情報に基づいて、受け入れた各文字列について位置情報を算出し、各文字列とその位置情報とを関連付けて、文字列位置配点部324に対して出力する。
文字列規模算出部326は、配置解析部308から、処理対象の頁についての配置情報を受け入れ、文字列抽出部310から、処理対象の頁における文字列を受け入れる。
また、文字列規模算出部326は、受け入れた配置情報に含まれる規模情報に基づいて、受け入れた各文字列について規模情報を算出し、各文字列とその規模情報とを関連付けて、文字列規模配点部328に対して出力する。
文字列頻度算出部330は、文字列抽出部310から、処理対象の頁における文字列を受け入れる。
また、文字列頻度算出部330は、受け入れた文字列それぞれについて、処理対象における出現頻度を算出してその出現頻度を示す頻度情報を生成し、各文字列とその頻度情報とを関連付けて、文字列頻度配点部332に対して出力する。
In the feature character string
Further, the character string
The character string
In addition, the character string
The character string
In addition, the character string
文字列位置配点部324は、文字列の位置情報と文字列について算出される点数との関係を示す配点基準を示す情報(位置配点基準情報)を、予め記憶している。
文字列位置配点部324は、その位置配点基準情報に従って、各文字列について、点数(位置配点)を算出し、各文字列とその位置配点とを対応付けて、配点合計部334に対して出力する。
文字列規模配点部328は、文字列の規模情報と文字列について算出される点数との関係を示す配点基準を示す情報(規模配点基準情報)を、予め記憶している。
文字列規模配点部328は、その規模配点基準情報に従って、各文字列について、点数(規模配点)を算出し、各文字列とその規模配点とを対応付けて、配点合計部334に対して出力する。
文字列頻度配点部332は、文字列の頻度情報と文字列について算出される点数との関係を示す配点基準を示す情報(規模配点基準情報)を、予め記憶している。
文字列頻度配点部332は、その頻度配点基準情報に従って、各文字列について、点数(頻度配点)を算出し、各文字列とその頻度配点とを対応付けて、配点合計部334に対して出力する。
The character string
The character string
The character string
The character string
The character string
The character string
図6は、位置配点基準情報と規模配点基準情報と頻度配点基準情報とを例示する図であり、(A)は位置配点基準情報を説明するための図であり、(B)は位置配点基準情報を例示し、(C)は規模配点基準情報を例示し、(D)は頻度配点基準情報を例示する。
図6(A)に示すように、例えば、位置配点基準情報は、原稿頁の縦方向を、上端を0%、下端を100%とする相対的な位置座標で表し、原稿頁の横方向を、左端を0%、右端を100%とする相対的な位置座標で表す。
また、例えば、位置配点基準情報は、文字列の中央を、文字列の位置算出の基準点としている。
FIG. 6 is a diagram illustrating position scoring reference information, scale scoring reference information, and frequency scoring reference information, (A) is a diagram for explaining position scoring reference information, and (B) is a position scoring reference. Information is illustrated, (C) illustrates scale score reference information, and (D) illustrates frequency score reference information.
As shown in FIG. 6A, for example, the position scoring reference information represents the vertical direction of the original page by relative position coordinates with the upper end being 0% and the lower end being 100%, and the horizontal direction of the original page is indicated. , And the relative position coordinates where the left end is 0% and the right end is 100%.
Further, for example, the position scoring reference information uses the center of the character string as a reference point for calculating the position of the character string.
この場合、図6(B)に示した例においては、文字列位置配点部324は、位置配点基準情報に従って、文字列が縦方向20%超(つまり、下側4/5)に存在する場合はその文字列について0.0点を算出し、文字列が縦方向20%以下(つまり、上側1/5)に存在する場合はその文字列について0.1点を算出する。
また、図6(B)に示した例においては、文字列位置配点部324は、位置配点基準情報に従って、文字列が横方向40%未満または60%超に存在する場合はその文字列について0.0点を算出し、文字列が横方向40%以上60%以下に存在する場合はその文字列について0.1点を算出する。
例えば、図6(A)に示した例においては、文字列位置配点部324は、文字列「著者富士太郎」について、0.0(縦方向)+0.1(横方向)=0.1点を算出する。
In this case, in the example shown in FIG. 6B, the character string
In the example shown in FIG. 6B, the character string
For example, in the example shown in FIG. 6A, the character string
図6(C)に示した例においては、文字列規模配点部328は、規模配点基準情報に従って、例えば処理対象の文字列の規模(フォントサイズ等)が、処理対象の原稿頁の全ての文字列の規模の平均の2倍未満であれば、その文字列について0.0点を算出し、平均の2倍以上5倍未満であれば、その文字列について0.1点を算出し、平均の5倍以上であれば、その文字列について0.5点を算出する。
図6(D)に示した例においては、文字列頻度配点部332は、処理対象の原稿頁において処理対象の文字列の出現頻度(出現数)が1個以下であれば、その文字列について0.0点を算出し、出現頻度が2個以上4個以下であれば、その文字列について0.3点を算出し、出現頻度が5個以上であれば、その文字列について0.5点を算出する。
In the example shown in FIG. 6C, the character string
In the example shown in FIG. 6D, the character string
なお、処理対象の原稿頁に同じ文字列が複数存在する場合、文字列位置配点部324は、文字列が出現するごとに点数を算出して、算出された各点数を合計したものをその文字列に対応する位置配点としてもよいし、算出された各点数の最大値をその文字列に対応する位置配点としてもよい。
同様に、処理対象の原稿頁に同じ文字列が複数存在する場合、文字列規模配点部328は、文字列が出現するごとに点数を算出して、算出された各点数を合計したものをその文字列に対応する規模配点としてもよいし、算出された各点数の最大値をその文字列に対応する規模配点としてもよい。
When there are a plurality of the same character strings on the document page to be processed, the character string
Similarly, when there are a plurality of the same character strings on the document page to be processed, the character string
配点合計部334(図3)は、互いに異なる各文字列それぞれについて、位置配点と、規模配点と、頻度配点とを合計し、その文字列にその合計点を付与し、文字列と付与された合計点(付与配点)とを対応付けて、配点管理部336に対して出力する。
配点管理部336は、文字列とその付与配点とを対応付けて、互いに異なる文字列ごとに記憶し、管理する。
なお、配点管理部336は、付与配点だけでなく、付与配点の内訳(つまり、位置配点、規模配点および頻度配点)を、文字列ごとに記憶してもよい。
The score totaling unit 334 (FIG. 3) sums the position score, the scale score, and the frequency score for each different character string, gives the total score to the character string, and is given as the character string. The total points (granting points) are associated with each other and output to the
The
Note that the
特徴文字列候補判定部338は、原稿の各頁における全ての文字列について付与配点が算出された場合に、最大の付与配点に関する文字列を、その頁の特徴文字列候補として決定し、決定した特徴文字列候補を、特徴文字列候補管理部358および頁情報算出部34に対して出力する。
特徴文字列候補管理部358(図2)は、特徴文字列候補抽出部32によって決定された特徴文字列候補と、後述する頁情報とを、頁ごとに記憶し、管理する。
The feature character string
The characteristic character string candidate management unit 358 (FIG. 2) stores and manages the characteristic character string candidates determined by the characteristic character string
なお、本実施形態においては、配点合計部334は、位置配点と規模配点と頻度配点との全てを合計して付与配点を算出するとしたが、位置配点、規模配点および頻度配点の少なくとも1つを付与配点としても、任意の2つの合計を付与配点としてもよい。
この場合、付与配点を構成しない位置配点、規模配点または頻度配点については、算出の対象としなくてもよい。
つまり、例えば、付与配点が規模配点と頻度配点との合計である場合、文字列位置算出部322は、各文字列について位置情報を算出しなくともよく、文字列位置配点部324は、位置配点を算出しなくてもよい。
さらに、本実施形態においては、配点合計部334は、位置配点と規模配点と頻度配点との全てを合計して付与配点を算出するとしたが、その他の基準で配点を算出して付与配点に付加してもよい。
In the present embodiment, the
In this case, the position score, the scale score, or the frequency score that do not constitute the assigned score need not be the calculation target.
That is, for example, when the assigned score is the sum of the scale score and the frequency score, the character string
Furthermore, in the present embodiment, the
頁情報算出部34(図2)は、特徴文字列候補それぞれに関する頁に関する情報(頁情報)を頁ごとに算出して、その頁情報を、特徴文字列候補管理部358に対して出力する。
ここで、頁情報とは、少なくとも、候補係数と処理時間とを含み、頁ごとに算出される。
候補係数とは、対応する特徴文字列候補の、その原稿全体の特徴文字列としての確からしさを示す指標(確度)であって、例えば、その特徴文字列候補の各頁における位置、規模および頻度等から算出される。
また、処理時間とは、少なくとも、各頁から特徴文字列候補が抽出されるのに要する期間をいう。
The page information calculation unit 34 (FIG. 2) calculates information (page information) related to each of the characteristic character string candidates for each page, and outputs the page information to the characteristic character string
Here, the page information includes at least a candidate coefficient and a processing time, and is calculated for each page.
The candidate coefficient is an index (accuracy) indicating the certainty of the corresponding characteristic character string candidate as the characteristic character string of the entire document. For example, the position, scale, and frequency of the characteristic character string candidate on each page Etc.
The processing time means at least a period required for extracting characteristic character string candidates from each page.
頁情報算出部34において、配点抽出部342(図4)は、特徴文字列候補抽出部32から特徴文字列候補を受け入れ、その特徴文字列候補に付与された付与配点を、特徴文字列候補抽出部32の配点管理部336から抽出する。
また、配点抽出部342は、抽出された付与配点を、候補係数算出部344に対して出力する。
候補係数算出部344は、配点抽出部342からの付与配点に基づいて候補係数を算出する。
また、候補係数算出部344は、候補係数を、その候補係数に関する特徴文字列候補と対応付けて、特徴文字列候補管理部358に対して出力する。
In the page
In addition, the
The candidate
Further, candidate
なお、候補係数算出部344は、候補係数の算出に際し、付与配点をそのまま候補係数としてもよいが、処理された頁が進むにつれて、付与配点に対する重み付けが低くなるようにしてもよい。
つまり、[候補係数]=a[付与配点]とした場合に、aは全ての頁について1であってもよいし、処理された頁が進むにつれて、aが小さくなるようにしてもよい。
The candidate
That is, when [candidate coefficient] = a [giving score], a may be 1 for all pages, or a may be reduced as the processed pages progress.
例えば、1番目に処理された頁の特徴文字列候補#1の付与配点がS1であり、2番目に処理された頁の特徴文字列候補#2の付与配点がS2であり、3番目に処理された頁の特徴文字列候補#3の付与配点がS3であるとする。
この場合、候補係数算出部344は、特徴文字列候補#1に関する候補係数をS1とし、特徴文字列候補#2に関する候補係数をS2×0.9とし、特徴文字列候補#3に関する候補係数をS3×0.8として、候補係数を算出してもよい。
For example, the assigned score of the feature character
In this case, the candidate
また、候補係数算出部344は、原稿の作成者に応じて、候補係数の重み付けを変更してもよい。
例えば、原稿の作成者が総務部門である場合には、帳票に関する文字列が特徴文字列候補であると判断されたときに、その特徴文字列候補の付与配点に対する重み付けを高くして候補係数が算出され、原稿の作成者が開発部門である場合には、図面に関する文字列が特徴文字列候補であると判断されたときに、その特徴文字列候補の付与配点に対する重み付けを高くして候補係数が算出されてもよい。
なお、原稿の作成者を特定する方法としては、例えば、使用者がUI装置25を操作して入力することによって特定する方法、または、原稿に記載された作成者に関する文字列を認識することによって特定する方法がある。しかしながら、これらの方法に限られない。
また、特徴文字列候補が作成者に関連する文字列であるか否かを判断する方法としては、例えば、作成者とその作成者に関連する文字列の対応表を記憶した辞書等を使用する方法がある。しかしながら、これらの方法に限られない。
In addition, the candidate
For example, if the creator of the manuscript is the general affairs department, when it is determined that the character string related to the form is a feature character string candidate, the candidate coefficient is increased by increasing the weighting of the feature character string candidate. In the case where the calculated document creator is the development department, when it is determined that the character string related to the drawing is a feature character string candidate, the candidate character coefficient is increased by increasing the weighting to the assigned character string of the feature character string candidate. May be calculated.
As a method for specifying the creator of the document, for example, a method in which the user operates and inputs the
In addition, as a method for determining whether or not the feature character string candidate is a character string related to the creator, for example, a dictionary or the like storing a correspondence table of the character strings related to the creator and the creator is used. There is a way. However, it is not restricted to these methods.
なお、上記実施形態においては、配点抽出部342は、特徴文字列候補抽出部32から抽出された付与配点に基づいて候補係数を算出するとしたが、付与配点に基づいて候補係数を算出しなくてもよい。
例えば、特徴文字列候補に関する位置配点、規模配点および頻度配点のうちの任意の1つ以上を合計してもよく、さらに、いずれかの重み付けを変更するようにしてもよい。
In the above embodiment, the scoring
For example, any one or more of the position score, the scale score, and the frequency score regarding the feature character string candidates may be summed, and any one of the weights may be changed.
具体的には、例えば、
[式1][候補係数]=a×[位置配点]+b×[規模配点]+c×[頻度配点]
とする。
このとき、付与配点をそのまま候補係数とする場合は、式1においてa=b=c=1であるが、a≠b、b≠c、c≠aとしてもよい。
また、上記式1において、a、b、cの任意の1つまたは2つが0であってもよい。
Specifically, for example,
[Formula 1] [Candidate Coefficient] = a × [Location Scoring] + b × [Scale Scoring] + c × [Frequency Scoring]
And
At this time, when the assigned score is used as a candidate coefficient as it is, a = b = c = 1 in
In
さらに、頁情報算出部34は、特徴文字列候補抽出部32から何らかの情報を抽出しなくても、別途、各頁における文字列およびその配置等に基づいて、候補係数を算出してもよい。
この場合、特徴文字候補抽出部32が使用した位置配点基準情報、規模配点基準情報および規模配点基準情報とは別の基準を使用して、候補係数を算出してもよい。
Further, the page
In this case, the candidate coefficient may be calculated using a standard different from the position score reference information, the scale score reference information, and the scale score reference information used by the feature character
処理時間算出部346は、ある1つの頁から、少なくとも特徴文字列候補が抽出されるのに要する時間(処理時間)を算出する。
具体的には、処理時間算出部346は、原稿読取情報管理部304から、処理対象である頁について配置解析部308または文字列抽出部310のいずれか早い方が処理を開始した時刻を、その頁の処理の開始時刻として抽出する。
また、処理時間算出部346は、特徴文字列候補抽出部32から、処理対象である頁について特徴文字列候補が抽出された時刻を、その頁の処理の終了時刻として抽出する。
さらに、処理時間算出部346は、終了時刻から開始時刻を減算することによって、処理時間を算出し、算出された処理時間を示す情報(処理時間情報)を、累積処理時間算出部348および処理時間管理部350に対して出力する。
The processing
Specifically, the processing
Further, the processing
Furthermore, the processing
なお、処理時間算出部346は、ある1つの頁から、特徴文字列候補が抽出されるのに要する時間と、配点抽出部342および候補係数算出部344の処理に要する時間との合計時間を、処理時間として算出してもよい。
この場合、処理時間算出部346は、候補係数算出部344から、候補係数が算出された時刻を、その頁の処理の終了時刻として抽出し、その終了時刻から開始時刻を減算することによって、処理時間を算出してもよい。
Note that the processing
In this case, the processing
処理時間管理部350は、処理時間情報を記憶し、管理する。
累積処理時間算出部348は、処理時間算出部346からある頁に関する処理時間情報を受け入れた場合に、処理時間管理部350から、その頁についての処理以前に処理された全ての頁に関する処理時間情報を抽出する。
さらに、累積処理時間算出部348は、ある頁に関する処理時間情報が示す処理時間と、以前に処理された全ての頁についての処理時間情報が示す処理時間それぞれとを合計して、累積処理時間を算出する。
さらに、累積処理時間算出部348は、算出された累積処理時間を示す情報(累積処理時間情報)を、その頁に対応する特徴文字列候補に関する累積処理時間を示す情報として、特徴文字列候補管理部358に対して出力する。
The processing
When the accumulated processing
Further, the accumulated processing
Further, the cumulative processing
特徴文字列候補管理部358(図2)は、頁ごとに、特徴文字列候補と、その特徴文字列候補に関する候補係数と、その特徴文字列候補に関する累積処理時間とを記憶し、管理する。
特徴文字列決定部36は、各頁から特徴文字列候補が算出されその特徴文字列候補に関する頁情報(候補係数および累積処理時間)が算出されるごとに、その特徴文字列候補に関する頁情報(候補係数および累積処理時間)に基づいて、原稿全体の特徴文字列を決定する。
特徴文字列決定部36において、候補係数比較部362(図5)は、各頁について候補係数が算出され特徴文字列候補管理部358に記憶された場合に、その都度、その候補係数を、特徴文字列候補管理部358から抽出する。
また、候補係数比較部362は、候補係数と所定の候補係数基準値とを比較し、その候補係数が、候補係数基準値を超えているか否か判断する。
候補係数が候補係数基準値を超えている場合、候補係数比較部362は、その旨を示す情報(候補係数基準値超過情報)を、特徴文字列判定部368に対して出力し、候補係数が候補係数基準値を超えていない場合、候補係数比較部362は、その旨を示す情報(候補係数基準値未超過情報)を、特徴文字列判定部368に対して出力する。
The feature character string candidate management unit 358 (FIG. 2) stores and manages the feature character string candidate, the candidate coefficient related to the feature character string candidate, and the accumulated processing time related to the feature character string candidate for each page.
Each time the characteristic character string candidate is calculated from each page and the page information (candidate coefficient and cumulative processing time) regarding the characteristic character string candidate is calculated, the characteristic character
In the characteristic character
Further, the candidate
When the candidate coefficient exceeds the candidate coefficient reference value, the candidate
特徴文字列判定部368は、候補係数比較部362から候補係数基準値超過情報を受け入れた場合に、その候補係数に関する特徴文字列候補を特徴文字列候補管理部358から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部368は、決定した特徴文字列をUI装置25に出力してUI装置25に表示させる。
この場合、処理プログラム3は、処理されていない頁についての処理をすることなく、全ての処理を終了する。
つまり、候補係数基準値を超えた候補係数が存在する場合、たとえ未だ特徴文字列候補が抽出されていない頁があったとしても、その未処理の頁について処理はなされない。
When the characteristic character
Further, the characteristic character
In this case, the
That is, when there is a candidate coefficient exceeding the candidate coefficient reference value, even if there is a page from which no feature character string candidate has been extracted, the unprocessed page is not processed.
累積処理時間比較部364は、各頁について累積処理時間が算出され特徴文字列候補管理部358に記憶された場合に、その都度、その累積処理時間を示す累積処理時間情報を、特徴文字列候補管理部358から抽出する。
また、累積処理時間比較部364は、累積処理時間情報が示す累積処理時間と所定の累積処理時間基準値とを比較し、その累積処理時間が、累積処理時間基準値を超えているか否か判断する。
累積処理時間が累積処理時間基準値を超えている場合、累積処理時間比較部364は、その旨を示す情報(累積処理時間基準値超過情報)を、特徴文字列判定部368に対して出力し、累積処理時間が累積処理時間基準値を超えていない場合、累積処理時間比較部364は、その旨を示す情報(累積処理時間基準値未超過情報)を、特徴文字列判定部368に対して出力する。
When the accumulated processing time is calculated for each page and stored in the feature character string
The accumulated processing
When the accumulated processing time exceeds the accumulated processing time reference value, the accumulated processing
特徴文字列判定部368は、累積処理時間比較部364から累積処理時間基準値超過情報を受け入れた場合に、処理がなされた全ての頁に関する候補係数それぞれを、特徴文字列候補管理部358から抽出する。
また、特徴文字列判定部368は、抽出された候補係数のうち、最大の候補係数に関する特徴文字列候補を、特徴文字列候補管理部358から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部368は、決定した特徴文字列をUI装置25に出力してUI装置25に表示させる。
この場合、処理プログラム3は、処理されていない頁についての処理をすることなく、全ての処理を終了する。
つまり、累積処理時間が累積処理時間基準値を超えた場合、たとえ未だ特徴文字列候補が抽出されていない頁があったとしても、その未処理の頁について処理はなされない。
The feature character
Also, the characteristic character
Further, the characteristic character
In this case, the
That is, when the accumulated processing time exceeds the accumulated processing time reference value, even if there is a page for which no feature character string candidate has been extracted yet, the unprocessed page is not processed.
なお、特徴文字列判定部368は、抽出された候補係数のうち最大の候補係数が、所定の最低候補係数基準値以下である場合、その最大の候補係数に関する特徴文字列に関わらず、所定の情報に関する文字列を、特徴文字列として決定してもよい。
この最低候補係数基準値は、候補係数基準値よりも小さい値であって、特徴文字列候補が特徴文字列として妥当であるための最低の基準を示す。
つまり、候補係数が最低候補係数基準値以下である場合、その特徴文字列候補は、その頁における他の文字列よりも付与配点が高かったが、原稿全体の特徴文字列として決定される程の付与配点を付与されておらず、したがって、その特徴文字列候補を特徴文字列とすると、その特徴文字列が原稿の内容を表していないことがある。
よって、そのような場合に、特徴文字列判定部368は、所定の情報(例えば、日時に関する情報またはユーザID等)を、特徴文字列として決定する。
When the maximum candidate coefficient among the extracted candidate coefficients is equal to or smaller than a predetermined minimum candidate coefficient reference value, the characteristic character
This lowest candidate coefficient reference value is a value smaller than the candidate coefficient reference value, and indicates the lowest standard for a feature character string candidate to be valid as a feature character string.
That is, when the candidate coefficient is less than or equal to the minimum candidate coefficient reference value, the feature character string candidate has a higher allocation score than the other character strings on the page, but is determined as a characteristic character string of the entire document. Therefore, if the candidate character string candidate is a characteristic character string, the characteristic character string may not represent the content of the document.
Therefore, in such a case, the characteristic character
処理頁数判断部366は、原稿読取情報管理部304によって管理されている情報に基づいて、全ての頁について処理が終了したか(全ての頁について特徴文字列候補が抽出され、候補係数および累積処理時間が算出されたか)を判断する。
全ての頁について処理が終了した場合には、処理頁数判断部366は、その旨を示す情報(全頁終了情報)を、特徴文字列判定部368に対して出力し、全ての頁について処理が終了していない場合には、処理頁数判断部366は、その旨を示す情報(全頁未終了情報)を、特徴文字列判定部368に対して出力する。
Based on the information managed by the document reading
When processing is completed for all pages, the processing page
特徴文字列判定部368は、処理頁数判断部366から全頁終了情報を受け入れた場合、処理がなされた全ての頁に関する候補係数それぞれを、特徴文字列候補管理部358から抽出する。
また、特徴文字列判定部368は、抽出された候補係数のうち、最大の候補係数に関する特徴文字列候補を、特徴文字列候補管理部358から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部368は、決定した特徴文字列をUI装置25に出力してUI装置25に表示させる。
なお、特徴文字列判定部368は、累積処理時間が累積処理時間基準値を超過した場合と同様に、抽出された候補係数のうち最大の候補係数が、所定の最低候補係数基準値以下である場合、その最大の候補係数に関する特徴文字列に関わらず、所定の情報に関する文字列を、特徴文字列として決定してもよい。
When the characteristic character
Also, the characteristic character
Further, the characteristic character
Note that, in the same way as when the accumulated processing time exceeds the accumulated processing time reference value, the feature character
一方、特徴文字列判定部368は、候補係数比較部362から候補係数基準値未超過情報を受け入れ、累積処理時間比較部364から累積処理時間基準値未超過情報を受け入れ、かつ、処理頁数判断部366から全頁未終了情報を受け入れた場合、特徴文字列判定部368は、原稿読取情報管理部304に対し、次の頁について処理を実行する旨を示す命令を出力する。
これにより、原稿読取情報管理部304は、次の頁について、配置解析部308および文字列抽出部310が処理を行うように制御し、配置解析部308および文字列抽出部310が処理を行い、特徴文字列候補抽出部32がその次の頁について特徴文字列候補を抽出する。
On the other hand, the characteristic character
Thereby, the document reading
図7は、処理プログラム3の処理を示すフローチャート(S10)である。
ステップ100(S100)において、原稿読取情報受付部302は、原稿を読み取って得られた原稿読取情報を受け付ける。
ステップ102(S102)において、原稿読取情報管理部304は、処理対象の頁を1頁目とする。
ステップ104(S104)において、原稿読取情報に基づいて、頁ごとに、配置解析部308が配置情報を生成し、文字列抽出部310が文字列を抽出する。
FIG. 7 is a flowchart (S10) showing processing of the
In step 100 (S100), document reading
In step 102 (S102), the document reading
In step 104 (S104), the
ステップ106(S106)において、特徴文字列候補抽出部32は、頁ごとに、特徴文字列候補を抽出する。
ステップ108(S108)において、頁情報算出部34は、候補係数を算出する。
ステップ110(S110)において、頁情報算出部34は、累積処理時間を算出する。
In step 106 (S106), the characteristic character string
In step 108 (S108), the page
In step 110 (S110), the page
ステップ112(S112)において、特徴文字列決定部36は、累積処理時間が累積処理時間基準値を超過するか否か判断し、超過すると判断する場合は、処理はS122に進み、超過しないと判断する場合は、処理はS114に進む。
ステップ114(S114)において、特徴文字列決定部36は、候補係数が候補係数基準値を超過するか否か判断し、超過すると判断する場合は、処理はS120に進み、超過しないと判断する場合は、処理はS116に進む。
ステップ116(S116)において、特徴文字列決定部36は、全ての頁について処理が終了したか否か判断し、終了したと判断した場合は、処理はS122に進み、終了していないと判断した場合は、処理はS118に進む。
ステップ118(S118)において、原稿読取情報管理部304は、次の頁を処理対象とする。
In step 112 (S112), the characteristic character
In step 114 (S114), the characteristic character
In step 116 (S116), the characteristic character
In step 118 (S118), the document reading
ステップ120(S120)において、特徴文字列決定部36は、候補係数基準値を超過した候補係数に関する特徴文字列候補を、原稿の特徴文字列として決定し、処理を終了する。
ステップ122(S122)において、特徴文字列決定部36は、最大の候補係数が最低候補係数基準値を超過するか否か判断し、超過すると判断する場合は、処理はS124に進み、超過しないと判断する場合は、処理はS126に進む。
ステップ124(S124)において、特徴文字列決定部36は、最大の候補係数に関する特徴文字列候補を、原稿の特徴文字列として決定し、処理を終了する。
ステップ126(S126)において、特徴文字列決定部36は、所定の情報に関する文字列を、原稿の特徴文字列として決定し、処理を終了する。
なお、上述した本実施形態において、S102で最初の処理対象頁を1頁目とするとしたが、処理対象とする頁の順序は、原稿の頁の順序と同じでなくてもよい。
In step 120 (S120), the characteristic character
In step 122 (S122), the characteristic character
In step 124 (S124), the characteristic character
In step 126 (S126), the characteristic character
In the above-described embodiment, the first page to be processed is defined as the first page in S102. However, the order of the pages to be processed may not be the same as the order of the pages of the document.
以下、本実施形態に係る画像処理装置2の処理を、具体的に例を挙げて説明する。
図8(A),(B)は、本実施形態に係る画像処理装置2の処理結果を例示する図であり、(A)は第1の例を示し、(B)は第2の例を示す。
図8(A)に示した例においては、第1頁について、特徴文字列候補#1「著者富士太郎」が抽出され、その特徴文字列候補#1「著者富士太郎」の候補係数#1は0.15であり、第1頁についての処理時間#1は2.0である。このとき、累積処理時間#1は2.0である。
なお、処理時間および累積処理時間の単位は、例えば、ミリ秒、秒または分等であるが、これらに限られない。
Hereinafter, the processing of the
8A and 8B are diagrams illustrating the processing result of the
In the example shown in FIG. 8A, for the first page, the characteristic character
The unit of the processing time and the accumulated processing time is, for example, milliseconds, seconds or minutes, but is not limited thereto.
また、第2頁について、特徴文字列候補#2「はじめに」が抽出され、その特徴文字列候補#2「はじめに」の候補係数#2は0.40であり、第2頁についての処理時間#2は5.0である。このとき、累積処理時間#2は7.0(=2.0+5.0)である。
また、第3頁について、特徴文字列候補#3「日本の製造業白書」が抽出され、その特徴文字列候補#3「日本の製造業白書」の候補係数#3は0.80であり、第3頁についての処理時間#3は8.0である。このとき、累積処理時間#3は15.0(=2.0+5.0+8.0)である。
Also, for the second page, the characteristic character
Further, for the third page, the characteristic character
ここで、候補係数基準値が0.70であり、累積処理時間基準値が20.0であり、最低候補係数基準値が0.10である場合、特徴文字列候補#3「日本の製造業白書」の候補係数#3は候補係数基準値を超過している。
したがって、特徴文字列決定部36は、特徴文字列候補#3「日本の製造業白書」を、その原稿の特徴文字列として決定する。
この場合、たとえ第4頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
Here, when the candidate coefficient reference value is 0.70, the cumulative processing time reference value is 20.0, and the lowest candidate coefficient reference value is 0.10, the feature character
Therefore, the characteristic character
In this case, even if there are pages after the fourth page, the feature character string candidates are not extracted for these pages.
また、候補係数基準値が0.85であり、累積処理時間基準値が10.0であり、最低候補係数基準値が0.10である場合、第2頁における累積処理時間#2は累積処理時間基準値を超過していないが、第3頁における累積処理時間#3は、累積処理時間基準値を超過している。
また、その時点において最大の候補係数である候補係数#3は、最低候補係数基準値を超過している。
したがって、特徴文字列決定部36は、その時点において最大の候補係数である候補係数#3に関する特徴文字列候補#3「日本の製造業白書」を、その原稿の特徴文字列として決定する。
この場合、たとえ第4頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
Further, when the candidate coefficient reference value is 0.85, the cumulative processing time reference value is 10.0, and the lowest candidate coefficient reference value is 0.10, the cumulative
In addition,
Therefore, the characteristic character
In this case, even if there are pages after the fourth page, the feature character string candidates are not extracted for these pages.
また、候補係数基準値が0.85であり、累積処理時間基準値が20.0であり、第3頁が最終頁である場合、特徴文字列決定部36は、その時点において最大の候補係数である候補係数#3に関する特徴文字列候補#3「日本の製造業白書」を、その原稿の特徴文字列として決定する。
If the candidate coefficient reference value is 0.85, the cumulative processing time reference value is 20.0, and the third page is the last page, the characteristic character
図8(B)に示した例においては、第1頁について、特徴文字列候補#1「著者」が抽出され、その特徴文字列候補#1「著者」の候補係数#1は0.05であり、第1頁についての処理時間#1は2.0である。このとき、累積処理時間#1は2.0である。
また、第2頁については、白紙等であったため、特徴文字列候補#2は抽出されず、したがって、特徴文字列候補#2の候補係数#2は0.00である。また、第2頁についての処理時間#2は5.0である。このとき、累積処理時間#2は7.0(=2.0+5.0)である。
また、第3頁について、特徴文字列候補#3「基準」が抽出され、その特徴文字列候補#3「基準」の候補係数#3は0.06であり、第3頁についての処理時間#3は8.0である。このとき、累積処理時間#3は15.0(=2.0+5.0+8.0)である。
In the example shown in FIG. 8B, the characteristic character
Further, since the second page is blank or the like, the characteristic character
Also, for the third page, the characteristic character
ここで、候補係数基準値が0.85であり、累積処理時間基準値が10.0であり、最低候補係数基準値が0.10である場合、第2頁における累積処理時間#2は累積処理時間基準値を超過していないが、第3頁における累積処理時間#3は、累積処理時間基準値を超過している。
また、その時点において最大の候補係数である候補係数#3は、最低候補係数基準値以下である。
したがって、特徴文字列決定部36は、特徴文字列候補#3「基準」に関わらず、所定の情報に関する文字列を、その原稿の特徴文字列として決定する。
この場合、たとえ第4頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
Here, when the candidate coefficient reference value is 0.85, the accumulated processing time reference value is 10.0, and the lowest candidate coefficient reference value is 0.10, the accumulated
Further, the
Therefore, the characteristic character
In this case, even if there are pages after the fourth page, the feature character string candidates are not extracted for these pages.
2・・・画像処理装置,
3・・・処理プログラム,
302・・・原稿読取情報受付部,
304・・・原稿読取情報管理部,
308・・・配置解析部,
310・・・文字列抽出部,
32・・・特徴文字列候補抽出部,
322・・・文字列位置算出部,
324・・・文字列位置配点部,
326・・・文字列規模算出部,
328・・・文字列規模配点部,
330・・・文字列頻度算出部,
332・・・文字列頻度配点部,
334・・・配点合計部,
336・・・配点格納部,
338・・・特徴文字列候補判定部,
34・・・頁情報算出部,
342・・・配点抽出部,
344・・・候補係数算出部,
346・・・処理時間算出部,
348・・・累積処理時間算出部,
350・・・処理時間管理部,
358・・・特徴文字列候補管理部,
36・・・特徴文字列決定部,
362・・・候補係数比較部,
364・・・累積処理時間比較部,
366・・・処理頁数判断部,
368・・・特徴文字列判定部,
2 ... Image processing device,
3 ... Processing program,
302: Document reading information receiving unit,
304: Document reading information management unit,
308 ... Placement analysis unit,
310 ... character string extraction unit,
32 ... Characteristic character string candidate extraction unit,
322: Character string position calculation unit,
324: Character string position scoring section,
326... Character string scale calculation unit,
328 ... Character string scale scoring section,
330 ... character string frequency calculation unit,
332: Character string frequency scoring section,
334 ... Scoring total part,
336 ... Scoring storage unit,
338: Characteristic character string candidate determination unit,
34: Page information calculation unit,
342 ... Scoring extraction unit,
344 ... Candidate coefficient calculation unit,
346... Processing time calculation unit,
348 ... Cumulative processing time calculation unit,
350 ... processing time management part,
358... Character string candidate management unit,
36... Character string determination unit,
362 ... Candidate coefficient comparison unit,
364 ... Cumulative processing time comparison unit,
366... Processed page number determination unit,
368 ... Characteristic character string determination unit,
Claims (8)
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、
前記係数算出手段によって1つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出手段によって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第1の基準値を超えた場合に、前記第1の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段と
を有する画像処理装置。 Candidate extracting means for extracting, for each page, feature character string candidates that are character strings related to the document from each page of the document composed of a plurality of pages;
Each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit, information on the page is obtained according to a predetermined condition for each candidate for the characteristic character string extracted for each page by the candidate extraction unit. A coefficient calculating means for calculating a coefficient based on;
Each time a coefficient is calculated for the candidate candidate character string extracted from one page by the coefficient calculating means, it is determined whether the coefficient calculated by the coefficient calculating means exceeds a predetermined reference value, An image having characteristic character string determining means for determining, as a characteristic character string of the original, a candidate for a coefficient exceeding the first reference value when the calculated coefficient exceeds a predetermined first reference value; Processing equipment.
をさらに有し、
前記時間算出手段によって1つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記特徴文字列決定手段は、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する
請求項1に記載の画像処理装置。 Each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit, it further includes a time calculation unit that calculates at least the time required for processing of the candidate extraction unit for each page,
Each time the time required for processing of the candidate extracting unit is calculated for one page by the time calculating unit, the characteristic character string determining unit determines whether the accumulated time of each page calculated by the time calculating unit is a predetermined time. If the accumulated time exceeds a predetermined reference time, a candidate for the largest coefficient among the calculated coefficients is determined as a characteristic character string of the document. Item 8. The image processing apparatus according to Item 1.
請求項2に記載の画像処理装置。 The characteristic character string determination means is a second case in which the accumulated time of the time exceeds a predetermined reference time, and a maximum coefficient among the calculated coefficients is smaller than the first reference value. The image processing apparatus according to claim 2, wherein when it is equal to or less than a reference value, a character string related to predetermined information is determined as a characteristic character string of the document.
請求項1に記載の画像処理装置。 The characteristic character string determination means determines a characteristic character string candidate related to the maximum coefficient among the calculated coefficients when the calculated coefficient does not exceed the first reference value for all pages of the document. The image processing apparatus according to claim 1, wherein the image processing apparatus determines the characteristic character string of the document.
請求項4に記載の画像処理装置。 The characteristic character string determination means is a case where the coefficient does not exceed the first reference value for all pages of the document, and the maximum coefficient among the calculated coefficients is greater than the first reference value. 5. The image processing apparatus according to claim 4, wherein a character string relating to predetermined information is determined as a characteristic character string of the document when the second reference value is equal to or smaller than the second reference value.
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段と、
前記時間算出手段によって1つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段と
を有する画像処理装置。 Candidate extracting means for extracting, for each page, feature character string candidates that are character strings related to the document from each page of the document composed of a plurality of pages;
Each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit, information on the page is obtained according to a predetermined condition for each candidate for the characteristic character string extracted for each page by the candidate extraction unit. A coefficient calculating means for calculating a coefficient based on;
A time calculation unit that calculates at least the time required for processing of the candidate extraction unit for each page each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit;
Whether the accumulated time of the time for each page calculated by the time calculation means exceeds a predetermined reference time each time the time calculation means calculates the time required for processing of the candidate extraction means for one page And a characteristic character string determining means for determining, as the characteristic character string of the document, a candidate for the largest coefficient among the calculated coefficients when the accumulated time exceeds a predetermined reference time. apparatus.
請求項6に記載の画像処理装置。 The characteristic character string determination means is a second case in which the accumulated time of the time exceeds a predetermined reference time, and a maximum coefficient among the calculated coefficients is smaller than the first reference value. The image processing apparatus according to claim 6, wherein when it is equal to or less than a reference value, a character string related to predetermined information is determined as a characteristic character string of the document.
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出ステップにおいて頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出ステップと、
前記係数算出手段によって1つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出ステップによって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第1の基準値を超えた場合に、前記第1の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定ステップと
をコンピュータに実行させる画像処理プログラム。 A candidate extraction step for extracting, for each page, a feature character string candidate, which is a character string related to the document, from each page of the document composed of a plurality of pages;
Each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit, information on the page is obtained according to a predetermined condition for each candidate for the characteristic character string extracted for each page in the candidate extraction step. A coefficient calculating step for calculating a coefficient based on the
Each time a coefficient is calculated for the candidate candidate character string extracted from one page by the coefficient calculation means, it is determined whether the coefficient calculated by the coefficient calculation step exceeds a predetermined reference value, A characteristic character string determination step for determining, as a characteristic character string of the document, a candidate for a coefficient that exceeds the first reference value when the calculated coefficient exceeds a predetermined first reference value; An image processing program to be executed.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011053977A JP2012190315A (en) | 2011-03-11 | 2011-03-11 | Image processing device and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011053977A JP2012190315A (en) | 2011-03-11 | 2011-03-11 | Image processing device and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2012190315A true JP2012190315A (en) | 2012-10-04 |
Family
ID=47083380
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011053977A Pending JP2012190315A (en) | 2011-03-11 | 2011-03-11 | Image processing device and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2012190315A (en) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0822474A (en) * | 1994-07-11 | 1996-01-23 | Canon Inc | Filing apparatus and control method thereof |
| JPH08166959A (en) * | 1994-12-12 | 1996-06-25 | Canon Inc | Image processing method |
| JP2002183165A (en) * | 2000-12-08 | 2002-06-28 | Ricoh Co Ltd | Digital MFP and document storage system |
| JP2003016076A (en) * | 2001-06-28 | 2003-01-17 | Ricoh Co Ltd | Title extraction method from document image |
| JP2005275756A (en) * | 2004-03-24 | 2005-10-06 | Hitachi Ltd | Electronic document search / display device |
| JP2006251864A (en) * | 2005-03-08 | 2006-09-21 | Fuji Photo Film Co Ltd | File management method and device and program for file management |
-
2011
- 2011-03-11 JP JP2011053977A patent/JP2012190315A/en active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0822474A (en) * | 1994-07-11 | 1996-01-23 | Canon Inc | Filing apparatus and control method thereof |
| JPH08166959A (en) * | 1994-12-12 | 1996-06-25 | Canon Inc | Image processing method |
| JP2002183165A (en) * | 2000-12-08 | 2002-06-28 | Ricoh Co Ltd | Digital MFP and document storage system |
| JP2003016076A (en) * | 2001-06-28 | 2003-01-17 | Ricoh Co Ltd | Title extraction method from document image |
| JP2005275756A (en) * | 2004-03-24 | 2005-10-06 | Hitachi Ltd | Electronic document search / display device |
| JP2006251864A (en) * | 2005-03-08 | 2006-09-21 | Fuji Photo Film Co Ltd | File management method and device and program for file management |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8726178B2 (en) | Device, method, and computer program product for information retrieval | |
| JP4859025B2 (en) | Similar image search device, similar image search processing method, program, and information recording medium | |
| JP5511450B2 (en) | Image processing apparatus, image processing method, and program | |
| CN101178725B (en) | Device and method for information retrieval | |
| US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
| US8412705B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
| US8571359B2 (en) | Image processing device, method and storage medium for storing and displaying an electronic document | |
| JP6900164B2 (en) | Information processing equipment, information processing methods and programs | |
| US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
| US12412409B2 (en) | Information processing apparatus, information processing method, and storage medium | |
| JP2019016350A (en) | Identification of emphasized text in electronic documents | |
| US20060285748A1 (en) | Document processing device | |
| JP2005303880A (en) | Image forming apparatus, image forming method, and program | |
| US20190057276A1 (en) | Image analysis apparatus, image analysis method, and non-transitory computer readable medium | |
| JP2012205181A (en) | Image processing device and program | |
| KR101598789B1 (en) | Image processing apparatus, non-transitory computer-readable medium, and image processing method | |
| JP2008022159A (en) | Document processing apparatus and document processing method | |
| JP2004334341A (en) | Document search device, document search method, and recording medium | |
| US9870632B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
| US10049107B2 (en) | Non-transitory computer readable medium and information processing apparatus and method | |
| JP2008129793A (en) | Document processing system, apparatus and method, and recording medium recording program | |
| JP7570843B2 (en) | IMAGE PROCESSING APPARATUS, IMAGE FORMING SYSTEM, IMAGE PROCESSING METHOD, AND PROGRAM | |
| JP2012190315A (en) | Image processing device and program | |
| JP5721052B2 (en) | Image processing apparatus and program | |
| JP2007310501A (en) | Information processing apparatus, control method thereof, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140218 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140730 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140807 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141003 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150302 |