[go: up one dir, main page]

JP2012190315A - Image processing device and program - Google Patents

Image processing device and program Download PDF

Info

Publication number
JP2012190315A
JP2012190315A JP2011053977A JP2011053977A JP2012190315A JP 2012190315 A JP2012190315 A JP 2012190315A JP 2011053977 A JP2011053977 A JP 2011053977A JP 2011053977 A JP2011053977 A JP 2011053977A JP 2012190315 A JP2012190315 A JP 2012190315A
Authority
JP
Japan
Prior art keywords
character string
candidate
page
coefficient
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011053977A
Other languages
Japanese (ja)
Inventor
Minoru Sodeura
稔 袖浦
Shintaro Adachi
真太郎 安達
Hiroyoshi Kamijo
裕義 上條
Katsuya Koyanagi
勝也 小柳
Kazuhiro Otani
和宏 大谷
Shigeru Okada
茂 岡田
Shinzui Cho
臻瑞 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2011053977A priority Critical patent/JP2012190315A/en
Publication of JP2012190315A publication Critical patent/JP2012190315A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an image processing device capable of efficiently determining a feature character string of a document constituted of a plurality of pages compared with a case having no such configuration.SOLUTION: A feature character string candidate extraction section 32 extracts candidates of a feature character string that is a character string on a document, for each page one by one. A page information calculation section 34 calculates page information on pages related to each of the feature character string candidates for each page. A feature character string determination section 36, whenever the feature character string candidates are calculated from each page and page information related to the feature character string candidates are calculated, determines the feature character string of the entire document based on the page information related to the feature character string candidates.

Description

本発明は、画像処理装置およびプログラムに関する。   The present invention relates to an image processing apparatus and a program.

特許文献1は、タイトル文字列の近傍に記載されるキーワード文字列の位置及びキーワード文字列に対するタイトル文字列の相対的な位置に基づいてタイトル文字列の位置を取得し、そのタイトル文字列の位置に基づいてタイトル文字列のデータを出力するタイトル抽出装置を開示する。   Patent Literature 1 acquires the position of a title character string based on the position of a keyword character string described in the vicinity of the title character string and the relative position of the title character string with respect to the keyword character string, and the position of the title character string. The title extraction device which outputs the data of a title character string based on this is disclosed.

特開2008−77454号公報JP 2008-77454 A

本発明の目的は、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理装置を提供することである。   An object of the present invention is to provide an image processing apparatus that can efficiently determine a character string of a document composed of a plurality of pages as compared with a case where the document does not have this configuration.

請求項1にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、前記係数算出手段によって1つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出手段によって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第1の基準値を超えた場合に、前記第1の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段とを有する画像処理装置である。   According to the first aspect of the present invention, there is provided candidate extraction means for extracting, for each page, a feature character string candidate that is a character string related to the original document from each page of a plurality of pages. A coefficient for calculating a coefficient on the basis of information on the page in accordance with a predetermined condition for each candidate for a characteristic character string extracted for each page by the candidate extraction unit each time a candidate for a characteristic character string is extracted from a page Whether the coefficient calculated by the coefficient calculation means exceeds a predetermined reference value each time the coefficient is calculated for the candidate of the character string extracted from one page by the calculation means and the coefficient calculation means And when the calculated coefficient exceeds a predetermined first reference value, a candidate for the coefficient exceeding the first reference value is determined as a characteristic character string of the document. An image processing device having a symptom string determination means.

請求項2にかかる本発明は、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段をさらに有し、前記時間算出手段によって1つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記特徴文字列決定手段は、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する請求項1に記載の画像処理装置である。   According to a second aspect of the present invention, there is provided time calculation means for calculating at least the time required for processing of the candidate extraction means for each page every time a candidate for a character string is extracted from one page by the candidate extraction means. In addition, each time the time calculation unit calculates the time required for processing of the candidate extraction unit for one page, the characteristic character string determination unit determines the time for each page calculated by the time calculation unit. It is determined whether or not the accumulated time exceeds a predetermined reference time, and when the accumulated time exceeds a predetermined reference time, a candidate for the maximum coefficient among the calculated coefficients is selected as the characteristic character string of the document. The image processing apparatus according to claim 1, wherein:

請求項3にかかる本発明は、前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの前記係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項2に記載の画像処理装置である。   According to a third aspect of the present invention, the characteristic character string determining means is a case where the accumulated time of the time exceeds a predetermined reference time, and the largest coefficient among the calculated coefficients is the first coefficient. 3. The image processing apparatus according to claim 2, wherein a character string related to predetermined information is determined as a characteristic character string of the document when the reference value is equal to or smaller than a second reference value smaller than the reference value.

請求項4にかかる本発明は、前記特徴文字列決定手段は、原稿の全ての頁について前記算出された係数が前記第1の基準値を超えなかった場合に、算出された係数のうちの最大の係数に関する特徴文字列の候補を前記原稿の特徴文字列として決定する請求項1に記載の画像処理装置である。   The present invention according to claim 4 is characterized in that the characteristic character string determining means determines the maximum of the calculated coefficients when the calculated coefficient does not exceed the first reference value for all pages of the document. The image processing apparatus according to claim 1, wherein a candidate for a characteristic character string related to the coefficient is determined as a characteristic character string of the document.

請求項5にかかる本発明は、前記特徴文字列決定手段は、原稿の全ての頁について前記係数が第1の基準値を超えなかった場合であって、算出済みの係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項4に記載の画像処理装置である。   The present invention according to claim 5 is characterized in that the characteristic character string determining means is a case where the coefficient does not exceed the first reference value for all pages of the document, and is the largest coefficient among the calculated coefficients. 5. The image processing apparatus according to claim 4, wherein a character string relating to predetermined information is determined as a characteristic character string of the document when is equal to or smaller than a second reference value smaller than the first reference value.

請求項6にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段と、前記時間算出手段によって1つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段とを有する画像処理装置である。   According to a sixth aspect of the present invention, there is provided candidate extraction means for extracting, for each page, a feature character string candidate that is a character string related to the original document from each page of a plurality of pages. A coefficient for calculating a coefficient on the basis of information on the page in accordance with a predetermined condition for each candidate for a characteristic character string extracted for each page by the candidate extraction unit each time a candidate for a characteristic character string is extracted from a page A calculation unit; a time calculation unit that calculates at least a time required for processing of the candidate extraction unit for each page each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit; and the time calculation unit Every time the time required for processing by the candidate extracting means is calculated for one page, the accumulated time of each page calculated by the time calculating means is determined. And determining a candidate for the largest coefficient among the calculated coefficients as a characteristic character string of the document when the accumulated time exceeds a predetermined reference time. An image processing apparatus having character string determination means.

請求項7にかかる本発明は、前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項6に記載の画像処理装置である。   According to a seventh aspect of the present invention, the characteristic character string determining means is a case where the accumulated time of the time exceeds a predetermined reference time, and the largest coefficient among the calculated coefficients is the first coefficient. The image processing apparatus according to claim 6, wherein when it is equal to or smaller than a second reference value smaller than the reference value, a character string related to predetermined information is determined as a characteristic character string of the document.

請求項8にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出ステップと、前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出ステップにおいて頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出ステップと、前記係数算出手段によって1つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出ステップによって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第1の基準値を超えた場合に、前記第1の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定ステップとをコンピュータに実行させる画像処理プログラムである。   According to an eighth aspect of the present invention, there is provided a candidate extraction step for extracting, for each page, a feature character string candidate that is a character string related to a document from each page of a document composed of a plurality of pages. A coefficient that calculates a coefficient based on information about a page according to a predetermined condition for each of the candidate candidate character strings extracted for each page in the candidate extraction step each time a candidate candidate character string is extracted from the page Whether the coefficient calculated by the coefficient calculating step exceeds a predetermined reference value each time a coefficient is calculated for the candidate candidate character string extracted from one page by the coefficient calculating means And when the calculated coefficient exceeds a predetermined first reference value, candidates relating to the coefficient exceeding the first reference value are selected as characteristic characters of the document. An image processing program for executing the feature character string determining step in a computer to determine a.

請求項1に係る本発明によれば、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理装置を提供することができる。   According to the first aspect of the present invention, there is provided an image processing apparatus capable of efficiently determining a character string of a document composed of a plurality of pages as compared with a case where the characteristic character string is not provided. Can do.

請求項2に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、原稿の特徴文字列の決定に要する時間を、本構成を有していない場合と比較して削減することができる。   According to the second aspect of the present invention, in addition to the effect obtained by the first aspect of the present invention, the time required for determining the character string of the original is compared with the case where the present configuration is not provided. Can be reduced.

請求項3に係る本発明によれば、請求項2に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。   According to the third aspect of the present invention, in addition to the effect obtained by the second aspect of the present invention, it is possible to eliminate the determination of an inappropriate character string as a characteristic character string of a document.

請求項4に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、全頁の処理後に原稿の特徴文字列を決定できる。   According to the present invention of claim 4, in addition to the effect obtained by the present invention of claim 1, the characteristic character string of the document can be determined after processing all the pages.

請求項5に係る本発明によれば、請求項4に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。   According to the fifth aspect of the present invention, in addition to the effect obtained by the present invention according to the fourth aspect, it can be excluded that a character string inappropriate as the characteristic character string of the document is determined as the characteristic character string.

請求項6に係る本発明によれば、複数の頁から構成される原稿の特徴文字列の決定に要する時間を、本構成を有していない場合と比較して削減可能な画像処理装置を提供できる。   According to the sixth aspect of the present invention, there is provided an image processing apparatus capable of reducing the time required to determine the character string of a document composed of a plurality of pages compared to the case where the present configuration is not provided. it can.

請求項7に係る本発明によれば、請求項6に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。   According to the present invention of claim 7, in addition to the effect obtained by the present invention of claim 6, it can be excluded that a character string inappropriate as a characteristic character string of a document is determined as a characteristic character string.

請求項8に係る本発明によれば、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理プログラムを提供することができる。   According to the eighth aspect of the present invention, there is provided an image processing program capable of determining a character string of a document composed of a plurality of pages more efficiently than a case where the character string is not provided with the present configuration. Can do.

本実施形態にかかる画像処理装置のハードウェア構成を例示する図である。It is a figure which illustrates the hardware constitutions of the image processing apparatus concerning this embodiment. 図1に示した画像処理装置において動作する処理プログラムである。2 is a processing program that operates in the image processing apparatus illustrated in FIG. 1. 図2に示した特徴文字列候補抽出部の構成を示す図である。It is a figure which shows the structure of the characteristic character string candidate extraction part shown in FIG. 図2に示した頁情報算出部の構成を示す図である。It is a figure which shows the structure of the page information calculation part shown in FIG. 図2に示した特徴文字列決定部の構成を示す図である。It is a figure which shows the structure of the characteristic character string determination part shown in FIG. 位置配点基準情報と規模配点基準情報と頻度配点基準情報とを例示する図である。It is a figure which illustrates position score reference information, scale score reference information, and frequency score reference information. 処理プログラムの処理を示すフローチャートである。It is a flowchart which shows the process of a processing program. 本実施形態に係る画像処理装置の処理結果を例示する図である。It is a figure which illustrates the processing result of the image processing apparatus which concerns on this embodiment.

図1は、本実施形態にかかる画像処理装置2のハードウェア構成を例示する図である。
図1に例示するように、画像処理装置2は、CPU等の演算部212及びメモリ等の記憶部214などを含む制御装置21と、通信装置22と、記録装置24と、ユーザインターフェース装置(UI装置)25と、印刷装置26と、画像読取装置27とから構成される。
FIG. 1 is a diagram illustrating a hardware configuration of an image processing apparatus 2 according to the present embodiment.
As illustrated in FIG. 1, the image processing apparatus 2 includes a control device 21 including a calculation unit 212 such as a CPU and a storage unit 214 such as a memory, a communication device 22, a recording device 24, and a user interface device (UI). Device) 25, a printing device 26, and an image reading device 27.

UI装置25は、LCD(Liquid Crystal Display)表示装置あるいはCRT(Cathode Ray Tube)表示装置等の表示装置およびキーボード・タッチパネルなどを含む。
印刷装置26は、例えばプリンタ等であって、文字データまたは画像データ等を用紙等の記録媒体に印刷する。
画像読取装置27は、例えばスキャナ等であって、原稿等の記録媒体から画像等を読み取って、例えばビットマップ形式の読取情報に変換する。
つまり、画像処理装置2は、情報処理および他の画像処理装置又は端末との通信が可能なコンピュータとしてのハードウェア構成部分を有している。
また、以下の各図において、実質的に同じ構成部分および処理には同じ番号が付される。
なお、本実施形態において、画像処理装置2は印刷装置26および画像読取装置27を有するとしたが、画像処理装置は、印刷装置および画像読取装置を有さない例えばPCであってもよく、この場合、画像処理装置は、画像読取装置とLAN(Local Area Network)等を介して接続されていてもよい。
The UI device 25 includes a display device such as an LCD (Liquid Crystal Display) display device or a CRT (Cathode Ray Tube) display device, and a keyboard / touch panel.
The printing device 26 is, for example, a printer, and prints character data or image data on a recording medium such as paper.
The image reading device 27 is a scanner or the like, for example, and reads an image or the like from a recording medium such as a document, and converts it into, for example, read information in a bitmap format.
That is, the image processing apparatus 2 has a hardware configuration part as a computer capable of information processing and communication with other image processing apparatuses or terminals.
In the following drawings, substantially the same components and processes are denoted by the same reference numerals.
In the present embodiment, the image processing apparatus 2 includes the printing apparatus 26 and the image reading apparatus 27. However, the image processing apparatus may be, for example, a PC that does not include the printing apparatus and the image reading apparatus. In this case, the image processing apparatus may be connected to the image reading apparatus via a LAN (Local Area Network) or the like.

図2は、図1に示した画像処理装置2において動作する処理プログラム3の構成を示す図である。
図2に示すように、処理プログラム3は、原稿読取情報受付部302、原稿読取情報管理部304、配置解析部308、文字列抽出部310、特徴文字列候補抽出部32、頁情報算出部34、特徴文字列候補管理部358および特徴文字列決定部36から構成される。
処理プログラム3は、たとえば、記憶媒体240(図1)を介して画像処理装置2に供給され、記憶部214にロードされ、画像処理装置2にインストールされたOS(図示せず)上で、画像処理装置2のハードウェア資源を具体的に利用して実行される。
なお、本実施形態においては、処理プログラム3は、ソフトウェアで実現されるとしているが、処理プログラム3の全部又は一部は、例えばFPGA(Field Programmable Gate Array)などのハードウェアで実現されてもよい。
FIG. 2 is a diagram showing the configuration of the processing program 3 that operates in the image processing apparatus 2 shown in FIG.
As shown in FIG. 2, the processing program 3 includes a document reading information receiving unit 302, a document reading information management unit 304, a layout analysis unit 308, a character string extraction unit 310, a characteristic character string candidate extraction unit 32, and a page information calculation unit 34. , A characteristic character string candidate management unit 358 and a characteristic character string determination unit 36.
The processing program 3 is supplied to the image processing apparatus 2 via, for example, the storage medium 240 (FIG. 1), loaded into the storage unit 214, and installed on the image processing apparatus 2 on the OS (not shown). It is executed by specifically using the hardware resources of the processing device 2.
In the present embodiment, the processing program 3 is realized by software, but all or part of the processing program 3 may be realized by hardware such as an FPGA (Field Programmable Gate Array). .

図3は、図2に示した特徴文字列候補抽出部32の構成を示す図である。
図3に示すように、特徴文字列候補抽出部32は、文字列位置算出部322、文字列位置配点部324、文字列規模算出部326、文字列規模配点部328、文字列頻度算出部330、文字列頻度配点部332、配点合計部334、配点格納部336および特徴文字列候補判定部338から構成される。
図4は、図2に示した頁情報算出部34の構成を示す図である。
図4に示すように、頁情報算出部34は、配点抽出部342、候補係数算出部344、処理時間算出部346、累積処理時間算出部348および処理時間管理部350から構成される。
FIG. 3 is a diagram illustrating a configuration of the feature character string candidate extraction unit 32 illustrated in FIG. 2.
As shown in FIG. 3, the feature character string candidate extraction unit 32 includes a character string position calculation unit 322, a character string position scoring unit 324, a character string scale calculation unit 326, a character string scale scoring unit 328, and a character string frequency calculation unit 330. , A character string frequency scoring unit 332, a scoring total unit 334, a scoring storage unit 336, and a characteristic character string candidate determination unit 338.
FIG. 4 is a diagram showing a configuration of the page information calculation unit 34 shown in FIG.
As shown in FIG. 4, the page information calculation unit 34 includes a scoring point extraction unit 342, a candidate coefficient calculation unit 344, a processing time calculation unit 346, an accumulated processing time calculation unit 348, and a processing time management unit 350.

図5は、図2に示した特徴文字列決定部36の構成を示す図である。
図5に示すように、特徴文字列決定部36は、候補係数比較部362、累積処理時間比較部364、処理頁数判断部366および特徴文字列判定部368から構成される。
FIG. 5 is a diagram showing a configuration of the characteristic character string determination unit 36 shown in FIG.
As shown in FIG. 5, the characteristic character string determination unit 36 includes a candidate coefficient comparison unit 362, an accumulated processing time comparison unit 364, a processed page number determination unit 366, and a characteristic character string determination unit 368.

処理プログラム3(図2)において、原稿読取情報受付部302は、画像読取装置27から得られた読取情報(原稿読取情報)を受け付け、受け付けた原稿読取情報を原稿読取情報管理部304に対して出力する。
原稿読取情報管理部304は、原稿読取情報受付部302からの原稿読取情報を記憶し、管理する。
また、原稿読取情報管理部304は、原稿が複数頁から構成される場合、特徴文字列決定部36からの命令に応じて、配置解析部308および文字列抽出部310が頁ごとに処理を行うように制御する。
つまり、原稿読取情報管理部304は、1つの頁の処理が終了した後、特徴文字列決定部36から次の頁の処理を行うことを示す命令を受け入れた場合のみに、配置解析部308および文字列抽出部310が頁ごとに処理を行うように制御する。
In the processing program 3 (FIG. 2), the document reading information receiving unit 302 receives the reading information (document reading information) obtained from the image reading device 27 and sends the received document reading information to the document reading information management unit 304. Output.
The document reading information management unit 304 stores and manages document reading information from the document reading information receiving unit 302.
Further, when the document is composed of a plurality of pages, the document reading information management unit 304 causes the layout analysis unit 308 and the character string extraction unit 310 to perform processing for each page in response to a command from the characteristic character string determination unit 36. To control.
That is, after the processing of one page is completed, the document reading information management unit 304 receives the instruction indicating that the next page processing is to be performed from the characteristic character string determination unit 36, and the layout analysis unit 308 and The character string extraction unit 310 is controlled to perform processing for each page.

配置解析部308は、原稿読取情報を解析して、原稿に含まれる文字、表、写真等の自然画、CG(Computer Graphics)又は絵画等を分類(オブジェクト分類)し、それぞれについて位置情報を対応付ける。
さらに、配置解析部308は、解析結果を示す情報(配置情報)を、特徴文字列候補抽出部32に対して出力する。
ここで、配置情報は、原稿読取情報に対応する原稿において、どの位置にどれだけの規模でどのオブジェクト(文字、表、写真等の自然画、CG又は絵画等)が含まれるかを示す情報である。
The layout analysis unit 308 analyzes the document reading information, classifies natural images such as characters, tables, and photographs, CG (Computer Graphics), or paintings included in the document (object classification), and associates position information with each of them. .
Further, the layout analysis unit 308 outputs information indicating the analysis result (placement information) to the feature character string candidate extraction unit 32.
Here, the arrangement information is information indicating which object (natural image such as a character, a table, or a photograph, a CG or a painting) is included at which position and in which position in the document corresponding to the document reading information. is there.

この配置情報は、例えば、各オブジェクトの位置を示す位置情報と、各オブジェクトの規模(寸法又は面積等)を示す規模情報とを含む。
ここで、位置情報は、例えば、位置座標等の絶対的な位置を示すものであってもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
同様に、規模情報は、例えば、フォントサイズ又は占有面積等の、そのオブジェクトの絶対的な規模を示すものであってもよいし、他のオブジェクトとの間の相対的な規模を示すものであってもよく、あるいは、オブジェクトの規模の平均値との差を示すものであってもよい。
また、上述した配置解析部308による分類は、例えば、原稿に含まれる各種の線、枠線、罫線又は色情報の検出と、エッジ検出と、パターンマッチングとによって行われる。しかし、これらの手法に限られない。
This arrangement information includes, for example, position information indicating the position of each object and scale information indicating the scale (size, area, etc.) of each object.
Here, for example, the position information may indicate an absolute position such as position coordinates, or may indicate a relative positional relationship with another character string or the like.
Similarly, the size information may indicate the absolute size of the object, for example, the font size or the occupied area, or may indicate the relative size between other objects. Alternatively, it may indicate a difference from the average value of the object scale.
The above-described classification by the layout analysis unit 308 is performed by, for example, detecting various lines, frame lines, ruled lines, or color information included in the document, edge detection, and pattern matching. However, it is not restricted to these methods.

文字列抽出部310は、例えばOCR(Optical Character Recognition:光学文字認識)機能を使用することによって原稿読取情報を解析し、原稿に含まれる文字列を、例えば形態素解析によってその文字列単独で所定の語義を有する形式で抽出する。
ここで、文字認識とは、読み取って得られた文字の画像データを前もって記憶されたパターンと照合することによって、その文字を特定して、文字データ(文字列)を生成することをいう。
また、形態素解析とは、例えば、予め記憶されている文法の規則に関する情報と単語が登録された辞書とに基づいて、1つの文章を形態素(意味を持つ最小の言語単位)に分類し、分類された形態素の品詞を判別する処理をいう。
また、この形態素解析の処理において、文字列の言語が判別される(つまり、例えば、その文字列が日本語か英語かまたはその他の言語かが判別される)。
さらに、文字列抽出部310は、抽出された各文字列を、特徴文字列候補抽出部32に対して出力する。
The character string extraction unit 310 analyzes the document reading information by using, for example, an OCR (Optical Character Recognition) function, and converts the character string included in the document into a predetermined character string alone by, for example, morphological analysis. Extract in a form with meaning.
Here, the character recognition refers to generating character data (character string) by specifying the character by comparing the image data of the character obtained by reading with a pattern stored in advance.
The morpheme analysis is, for example, classifying one sentence into morphemes (the smallest language unit having meaning) based on information on grammatical rules stored in advance and a dictionary in which words are registered. This is a process for discriminating the part of speech of a morpheme.
In this morphological analysis process, the language of the character string is determined (that is, for example, whether the character string is Japanese, English, or another language).
Further, the character string extraction unit 310 outputs each extracted character string to the feature character string candidate extraction unit 32.

特徴文字列候補抽出部32は、原稿に関する文字列である特徴文字列の候補(特徴文字列候補)を、頁ごとに1つずつ抽出して、特徴文字列候補管理部358に対して出力する。
ここで、特徴文字列とは、例えば原稿の題名(タイトル)等であって、人間が原稿を識別するための文字列である。
また、特徴文字列は、原稿読取情報を電子データ(電子ファイル)等に変換した場合に、その電子データまたはその電子データを保管するパスフォルダ(ディレクトリ)等の名前としてもよい。
また、特徴文字列候補とは、特徴文字列となりうる文字列であって、原稿を構成する頁ごとに判定される。
そして、後述する処理によって、ある特徴文字列候補が特徴文字列の条件を満たすと判定されれば、その特徴文字列候補が、その原稿全体についての特徴文字列として決定される。
The feature character string candidate extraction unit 32 extracts one feature character string candidate (characteristic character string candidate) that is a character string related to the document, and outputs it to the feature character string candidate management unit 358. .
Here, the characteristic character string is, for example, a document title (title) or the like, and is a character string for a human to identify the document.
The characteristic character string may be the name of the electronic data or a path folder (directory) for storing the electronic data when the document reading information is converted into electronic data (electronic file) or the like.
The characteristic character string candidate is a character string that can be a characteristic character string, and is determined for each page constituting the document.
If it is determined by a process described later that a certain characteristic character string candidate satisfies the characteristic character string condition, the characteristic character string candidate is determined as a characteristic character string for the entire document.

特徴文字列候補抽出部32において、文字列位置算出部322(図3)は、配置解析部308から、処理対象の頁についての配置情報を受け入れ、文字列抽出部310から、処理対象の頁における文字列を受け入れる。
また、文字列位置算出部322は、受け入れた配置情報に含まれる位置情報に基づいて、受け入れた各文字列について位置情報を算出し、各文字列とその位置情報とを関連付けて、文字列位置配点部324に対して出力する。
文字列規模算出部326は、配置解析部308から、処理対象の頁についての配置情報を受け入れ、文字列抽出部310から、処理対象の頁における文字列を受け入れる。
また、文字列規模算出部326は、受け入れた配置情報に含まれる規模情報に基づいて、受け入れた各文字列について規模情報を算出し、各文字列とその規模情報とを関連付けて、文字列規模配点部328に対して出力する。
文字列頻度算出部330は、文字列抽出部310から、処理対象の頁における文字列を受け入れる。
また、文字列頻度算出部330は、受け入れた文字列それぞれについて、処理対象における出現頻度を算出してその出現頻度を示す頻度情報を生成し、各文字列とその頻度情報とを関連付けて、文字列頻度配点部332に対して出力する。
In the feature character string candidate extraction unit 32, the character string position calculation unit 322 (FIG. 3) accepts the arrangement information about the processing target page from the arrangement analysis unit 308, and the character string extraction unit 310 receives the arrangement information on the processing target page. Accept a string.
Further, the character string position calculation unit 322 calculates position information for each received character string based on the position information included in the received arrangement information, associates each character string with the position information, and sets the character string position. The data is output to the scoring unit 324.
The character string size calculation unit 326 accepts arrangement information about the processing target page from the arrangement analysis unit 308, and accepts a character string on the processing target page from the character string extraction unit 310.
In addition, the character string scale calculation unit 326 calculates scale information for each received character string based on the scale information included in the received arrangement information, associates each character string with the scale information, and sets the character string scale. The data is output to the scoring unit 328.
The character string frequency calculation unit 330 receives the character string on the processing target page from the character string extraction unit 310.
In addition, the character string frequency calculation unit 330 calculates the appearance frequency in the processing target for each received character string, generates frequency information indicating the appearance frequency, associates each character string with the frequency information, Output to the column frequency scoring unit 332.

文字列位置配点部324は、文字列の位置情報と文字列について算出される点数との関係を示す配点基準を示す情報(位置配点基準情報)を、予め記憶している。
文字列位置配点部324は、その位置配点基準情報に従って、各文字列について、点数(位置配点)を算出し、各文字列とその位置配点とを対応付けて、配点合計部334に対して出力する。
文字列規模配点部328は、文字列の規模情報と文字列について算出される点数との関係を示す配点基準を示す情報(規模配点基準情報)を、予め記憶している。
文字列規模配点部328は、その規模配点基準情報に従って、各文字列について、点数(規模配点)を算出し、各文字列とその規模配点とを対応付けて、配点合計部334に対して出力する。
文字列頻度配点部332は、文字列の頻度情報と文字列について算出される点数との関係を示す配点基準を示す情報(規模配点基準情報)を、予め記憶している。
文字列頻度配点部332は、その頻度配点基準情報に従って、各文字列について、点数(頻度配点)を算出し、各文字列とその頻度配点とを対応付けて、配点合計部334に対して出力する。
The character string position scoring unit 324 stores in advance information (position scoring reference information) indicating a scoring standard indicating the relationship between the position information of the character string and the score calculated for the character string.
The character string position scoring unit 324 calculates a score (position scoring) for each character string according to the position scoring reference information, associates each character string with the position scoring, and outputs it to the scoring total unit 334 To do.
The character string scale scoring unit 328 stores in advance information (scale scoring reference information) indicating a scoring standard indicating the relationship between the scale information of the character string and the score calculated for the character string.
The character string scale scoring unit 328 calculates a score (scale scoring) for each character string in accordance with the scale scoring reference information, associates each character string with the scale scoring, and outputs it to the scoring total unit 334 To do.
The character string frequency scoring unit 332 stores in advance information (scale scoring reference information) indicating a scoring standard indicating the relationship between the frequency information of the character string and the score calculated for the character string.
The character string frequency scoring unit 332 calculates a score (frequency scoring) for each character string according to the frequency scoring reference information, associates each character string with the frequency scoring, and outputs it to the scoring total unit 334 To do.

図6は、位置配点基準情報と規模配点基準情報と頻度配点基準情報とを例示する図であり、(A)は位置配点基準情報を説明するための図であり、(B)は位置配点基準情報を例示し、(C)は規模配点基準情報を例示し、(D)は頻度配点基準情報を例示する。
図6(A)に示すように、例えば、位置配点基準情報は、原稿頁の縦方向を、上端を0%、下端を100%とする相対的な位置座標で表し、原稿頁の横方向を、左端を0%、右端を100%とする相対的な位置座標で表す。
また、例えば、位置配点基準情報は、文字列の中央を、文字列の位置算出の基準点としている。
FIG. 6 is a diagram illustrating position scoring reference information, scale scoring reference information, and frequency scoring reference information, (A) is a diagram for explaining position scoring reference information, and (B) is a position scoring reference. Information is illustrated, (C) illustrates scale score reference information, and (D) illustrates frequency score reference information.
As shown in FIG. 6A, for example, the position scoring reference information represents the vertical direction of the original page by relative position coordinates with the upper end being 0% and the lower end being 100%, and the horizontal direction of the original page is indicated. , And the relative position coordinates where the left end is 0% and the right end is 100%.
Further, for example, the position scoring reference information uses the center of the character string as a reference point for calculating the position of the character string.

この場合、図6(B)に示した例においては、文字列位置配点部324は、位置配点基準情報に従って、文字列が縦方向20%超(つまり、下側4/5)に存在する場合はその文字列について0.0点を算出し、文字列が縦方向20%以下(つまり、上側1/5)に存在する場合はその文字列について0.1点を算出する。
また、図6(B)に示した例においては、文字列位置配点部324は、位置配点基準情報に従って、文字列が横方向40%未満または60%超に存在する場合はその文字列について0.0点を算出し、文字列が横方向40%以上60%以下に存在する場合はその文字列について0.1点を算出する。
例えば、図6(A)に示した例においては、文字列位置配点部324は、文字列「著者富士太郎」について、0.0(縦方向)+0.1(横方向)=0.1点を算出する。
In this case, in the example shown in FIG. 6B, the character string position scoring unit 324 indicates that the character string exists in the vertical direction exceeding 20% (that is, the lower 4/5) according to the position scoring reference information. Calculates 0.0 points for the character string, and if the character string is 20% or less in the vertical direction (that is, the upper 1/5), calculates 0.1 points for the character string.
In the example shown in FIG. 6B, the character string position scoring unit 324 indicates that the character string is 0 for the character string when the character string is less than 40% or more than 60% in the horizontal direction according to the position scoring reference information. 0 points are calculated, and when the character string is present in the horizontal direction of 40% or more and 60% or less, 0.1 point is calculated for the character string.
For example, in the example shown in FIG. 6A, the character string position scoring unit 324 has 0.0 (vertical direction) +0.1 (horizontal direction) = 0.1 point for the character string “author Fujitaro”. Is calculated.

図6(C)に示した例においては、文字列規模配点部328は、規模配点基準情報に従って、例えば処理対象の文字列の規模(フォントサイズ等)が、処理対象の原稿頁の全ての文字列の規模の平均の2倍未満であれば、その文字列について0.0点を算出し、平均の2倍以上5倍未満であれば、その文字列について0.1点を算出し、平均の5倍以上であれば、その文字列について0.5点を算出する。
図6(D)に示した例においては、文字列頻度配点部332は、処理対象の原稿頁において処理対象の文字列の出現頻度(出現数)が1個以下であれば、その文字列について0.0点を算出し、出現頻度が2個以上4個以下であれば、その文字列について0.3点を算出し、出現頻度が5個以上であれば、その文字列について0.5点を算出する。
In the example shown in FIG. 6C, the character string scale scoring unit 328 determines that the scale (font size, etc.) of the character string to be processed is all characters of the document page to be processed according to the scale score reference information. If it is less than twice the average of the size of the column, it calculates 0.0 points for that character string, and if it is more than twice the average and less than 5 times, it calculates 0.1 points for that character string If it is 5 times or more, 0.5 points are calculated for the character string.
In the example shown in FIG. 6D, the character string frequency scoring unit 332 performs processing for the character string if the appearance frequency (number of appearances) of the character string to be processed is one or less on the document page to be processed. If 0.0 is calculated, if the appearance frequency is 2 or more and 4 or less, 0.3 points are calculated for the character string, and if the appearance frequency is 5 or more, 0.5 points for the character string are calculated. Calculate points.

なお、処理対象の原稿頁に同じ文字列が複数存在する場合、文字列位置配点部324は、文字列が出現するごとに点数を算出して、算出された各点数を合計したものをその文字列に対応する位置配点としてもよいし、算出された各点数の最大値をその文字列に対応する位置配点としてもよい。
同様に、処理対象の原稿頁に同じ文字列が複数存在する場合、文字列規模配点部328は、文字列が出現するごとに点数を算出して、算出された各点数を合計したものをその文字列に対応する規模配点としてもよいし、算出された各点数の最大値をその文字列に対応する規模配点としてもよい。
When there are a plurality of the same character strings on the document page to be processed, the character string position scoring unit 324 calculates a score each time the character string appears, and adds the calculated scores to the character string. It is good also as a position scoring corresponding to a line | column, and it is good also considering the maximum value of each calculated score as a position scoring corresponding to the character string.
Similarly, when there are a plurality of the same character strings on the document page to be processed, the character string scale scoring unit 328 calculates a score each time the character string appears, and sums the calculated scores. It is good also as a scale score corresponding to a character string, and it is good also considering the maximum value of each calculated score as a scale score corresponding to the character string.

配点合計部334(図3)は、互いに異なる各文字列それぞれについて、位置配点と、規模配点と、頻度配点とを合計し、その文字列にその合計点を付与し、文字列と付与された合計点(付与配点)とを対応付けて、配点管理部336に対して出力する。
配点管理部336は、文字列とその付与配点とを対応付けて、互いに異なる文字列ごとに記憶し、管理する。
なお、配点管理部336は、付与配点だけでなく、付与配点の内訳(つまり、位置配点、規模配点および頻度配点)を、文字列ごとに記憶してもよい。
The score totaling unit 334 (FIG. 3) sums the position score, the scale score, and the frequency score for each different character string, gives the total score to the character string, and is given as the character string. The total points (granting points) are associated with each other and output to the point management unit 336.
The score management unit 336 associates the character string with the assigned score and stores and manages each character string different from each other.
Note that the score management unit 336 may store not only the assigned score but also the breakdown of the assigned score (that is, the position score, the scale score, and the frequency score) for each character string.

特徴文字列候補判定部338は、原稿の各頁における全ての文字列について付与配点が算出された場合に、最大の付与配点に関する文字列を、その頁の特徴文字列候補として決定し、決定した特徴文字列候補を、特徴文字列候補管理部358および頁情報算出部34に対して出力する。
特徴文字列候補管理部358(図2)は、特徴文字列候補抽出部32によって決定された特徴文字列候補と、後述する頁情報とを、頁ごとに記憶し、管理する。
The feature character string candidate determination unit 338 determines the character string related to the maximum assigned score as the feature character string candidate of the page when the assigned score is calculated for all the character strings on each page of the document. The characteristic character string candidates are output to the characteristic character string candidate management unit 358 and the page information calculation unit 34.
The characteristic character string candidate management unit 358 (FIG. 2) stores and manages the characteristic character string candidates determined by the characteristic character string candidate extraction unit 32 and page information described later for each page.

なお、本実施形態においては、配点合計部334は、位置配点と規模配点と頻度配点との全てを合計して付与配点を算出するとしたが、位置配点、規模配点および頻度配点の少なくとも1つを付与配点としても、任意の2つの合計を付与配点としてもよい。
この場合、付与配点を構成しない位置配点、規模配点または頻度配点については、算出の対象としなくてもよい。
つまり、例えば、付与配点が規模配点と頻度配点との合計である場合、文字列位置算出部322は、各文字列について位置情報を算出しなくともよく、文字列位置配点部324は、位置配点を算出しなくてもよい。
さらに、本実施形態においては、配点合計部334は、位置配点と規模配点と頻度配点との全てを合計して付与配点を算出するとしたが、その他の基準で配点を算出して付与配点に付加してもよい。
In the present embodiment, the score totaling unit 334 calculates the assigned score by adding all of the position score, the scale score, and the frequency score. However, at least one of the position score, the scale score, and the frequency score is calculated. Any given total may be used as the assigned points.
In this case, the position score, the scale score, or the frequency score that do not constitute the assigned score need not be the calculation target.
That is, for example, when the assigned score is the sum of the scale score and the frequency score, the character string position calculation unit 322 does not have to calculate the position information for each character string, and the character string position score unit 324 Need not be calculated.
Furthermore, in the present embodiment, the score totaling unit 334 calculates the assigned score by adding all of the position score, the scale score, and the frequency score, but adds the score to the assigned score by other criteria. May be.

頁情報算出部34(図2)は、特徴文字列候補それぞれに関する頁に関する情報(頁情報)を頁ごとに算出して、その頁情報を、特徴文字列候補管理部358に対して出力する。
ここで、頁情報とは、少なくとも、候補係数と処理時間とを含み、頁ごとに算出される。
候補係数とは、対応する特徴文字列候補の、その原稿全体の特徴文字列としての確からしさを示す指標(確度)であって、例えば、その特徴文字列候補の各頁における位置、規模および頻度等から算出される。
また、処理時間とは、少なくとも、各頁から特徴文字列候補が抽出されるのに要する期間をいう。
The page information calculation unit 34 (FIG. 2) calculates information (page information) related to each of the characteristic character string candidates for each page, and outputs the page information to the characteristic character string candidate management unit 358.
Here, the page information includes at least a candidate coefficient and a processing time, and is calculated for each page.
The candidate coefficient is an index (accuracy) indicating the certainty of the corresponding characteristic character string candidate as the characteristic character string of the entire document. For example, the position, scale, and frequency of the characteristic character string candidate on each page Etc.
The processing time means at least a period required for extracting characteristic character string candidates from each page.

頁情報算出部34において、配点抽出部342(図4)は、特徴文字列候補抽出部32から特徴文字列候補を受け入れ、その特徴文字列候補に付与された付与配点を、特徴文字列候補抽出部32の配点管理部336から抽出する。
また、配点抽出部342は、抽出された付与配点を、候補係数算出部344に対して出力する。
候補係数算出部344は、配点抽出部342からの付与配点に基づいて候補係数を算出する。
また、候補係数算出部344は、候補係数を、その候補係数に関する特徴文字列候補と対応付けて、特徴文字列候補管理部358に対して出力する。
In the page information calculation unit 34, the scoring point extraction unit 342 (FIG. 4) accepts the feature character string candidate from the feature character string candidate extraction unit 32, and extracts the assigned point assigned to the feature character string candidate and extracts the feature character string candidate. Extracted from the point management unit 336 of the unit 32.
In addition, the score extraction unit 342 outputs the extracted assigned score to the candidate coefficient calculation unit 344.
The candidate coefficient calculation unit 344 calculates a candidate coefficient based on the assigned score from the score extraction unit 342.
Further, candidate coefficient calculation section 344 outputs the candidate coefficient to characteristic character string candidate management section 358 in association with the characteristic character string candidate related to the candidate coefficient.

なお、候補係数算出部344は、候補係数の算出に際し、付与配点をそのまま候補係数としてもよいが、処理された頁が進むにつれて、付与配点に対する重み付けが低くなるようにしてもよい。
つまり、[候補係数]=a[付与配点]とした場合に、aは全ての頁について1であってもよいし、処理された頁が進むにつれて、aが小さくなるようにしてもよい。
The candidate coefficient calculation unit 344 may use the assigned scoring as it is as the candidate coefficient when calculating the candidate coefficient. However, the weight for the given scoring may be lowered as the processed page advances.
That is, when [candidate coefficient] = a [giving score], a may be 1 for all pages, or a may be reduced as the processed pages progress.

例えば、1番目に処理された頁の特徴文字列候補#1の付与配点がS1であり、2番目に処理された頁の特徴文字列候補#2の付与配点がS2であり、3番目に処理された頁の特徴文字列候補#3の付与配点がS3であるとする。
この場合、候補係数算出部344は、特徴文字列候補#1に関する候補係数をS1とし、特徴文字列候補#2に関する候補係数をS2×0.9とし、特徴文字列候補#3に関する候補係数をS3×0.8として、候補係数を算出してもよい。
For example, the assigned score of the feature character string candidate # 1 of the first processed page is S1, the assigned score of the feature character string candidate # 2 of the second processed page is S2, and the third process Assume that the assigned score of the feature character string candidate # 3 of the page that has been set is S3.
In this case, the candidate coefficient calculation unit 344 sets the candidate coefficient related to the characteristic character string candidate # 1 to S1, sets the candidate coefficient related to the characteristic character string candidate # 2 to S2 × 0.9, and sets the candidate coefficient related to the characteristic character string candidate # 3. A candidate coefficient may be calculated as S3 × 0.8.

また、候補係数算出部344は、原稿の作成者に応じて、候補係数の重み付けを変更してもよい。
例えば、原稿の作成者が総務部門である場合には、帳票に関する文字列が特徴文字列候補であると判断されたときに、その特徴文字列候補の付与配点に対する重み付けを高くして候補係数が算出され、原稿の作成者が開発部門である場合には、図面に関する文字列が特徴文字列候補であると判断されたときに、その特徴文字列候補の付与配点に対する重み付けを高くして候補係数が算出されてもよい。
なお、原稿の作成者を特定する方法としては、例えば、使用者がUI装置25を操作して入力することによって特定する方法、または、原稿に記載された作成者に関する文字列を認識することによって特定する方法がある。しかしながら、これらの方法に限られない。
また、特徴文字列候補が作成者に関連する文字列であるか否かを判断する方法としては、例えば、作成者とその作成者に関連する文字列の対応表を記憶した辞書等を使用する方法がある。しかしながら、これらの方法に限られない。
In addition, the candidate coefficient calculation unit 344 may change the weighting of the candidate coefficient according to the creator of the document.
For example, if the creator of the manuscript is the general affairs department, when it is determined that the character string related to the form is a feature character string candidate, the candidate coefficient is increased by increasing the weighting of the feature character string candidate. In the case where the calculated document creator is the development department, when it is determined that the character string related to the drawing is a feature character string candidate, the candidate character coefficient is increased by increasing the weighting to the assigned character string of the feature character string candidate. May be calculated.
As a method for specifying the creator of the document, for example, a method in which the user operates and inputs the UI device 25, or a character string related to the creator described in the document is recognized. There is a way to identify. However, it is not restricted to these methods.
In addition, as a method for determining whether or not the feature character string candidate is a character string related to the creator, for example, a dictionary or the like storing a correspondence table of the character strings related to the creator and the creator is used. There is a way. However, it is not restricted to these methods.

なお、上記実施形態においては、配点抽出部342は、特徴文字列候補抽出部32から抽出された付与配点に基づいて候補係数を算出するとしたが、付与配点に基づいて候補係数を算出しなくてもよい。
例えば、特徴文字列候補に関する位置配点、規模配点および頻度配点のうちの任意の1つ以上を合計してもよく、さらに、いずれかの重み付けを変更するようにしてもよい。
In the above embodiment, the scoring point extraction unit 342 calculates the candidate coefficient based on the assigned scoring extracted from the feature character string candidate extraction unit 32, but does not calculate the candidate coefficient based on the given scoring point. Also good.
For example, any one or more of the position score, the scale score, and the frequency score regarding the feature character string candidates may be summed, and any one of the weights may be changed.

具体的には、例えば、
[式1][候補係数]=a×[位置配点]+b×[規模配点]+c×[頻度配点]
とする。
このとき、付与配点をそのまま候補係数とする場合は、式1においてa=b=c=1であるが、a≠b、b≠c、c≠aとしてもよい。
また、上記式1において、a、b、cの任意の1つまたは2つが0であってもよい。
Specifically, for example,
[Formula 1] [Candidate Coefficient] = a × [Location Scoring] + b × [Scale Scoring] + c × [Frequency Scoring]
And
At this time, when the assigned score is used as a candidate coefficient as it is, a = b = c = 1 in Equation 1, but a ≠ b, b ≠ c, c ≠ a may be used.
In Formula 1, any one or two of a, b, and c may be 0.

さらに、頁情報算出部34は、特徴文字列候補抽出部32から何らかの情報を抽出しなくても、別途、各頁における文字列およびその配置等に基づいて、候補係数を算出してもよい。
この場合、特徴文字候補抽出部32が使用した位置配点基準情報、規模配点基準情報および規模配点基準情報とは別の基準を使用して、候補係数を算出してもよい。
Further, the page information calculation unit 34 may separately calculate candidate coefficients based on the character strings on each page and their arrangements, without extracting any information from the feature character string candidate extraction unit 32.
In this case, the candidate coefficient may be calculated using a standard different from the position score reference information, the scale score reference information, and the scale score reference information used by the feature character candidate extraction unit 32.

処理時間算出部346は、ある1つの頁から、少なくとも特徴文字列候補が抽出されるのに要する時間(処理時間)を算出する。
具体的には、処理時間算出部346は、原稿読取情報管理部304から、処理対象である頁について配置解析部308または文字列抽出部310のいずれか早い方が処理を開始した時刻を、その頁の処理の開始時刻として抽出する。
また、処理時間算出部346は、特徴文字列候補抽出部32から、処理対象である頁について特徴文字列候補が抽出された時刻を、その頁の処理の終了時刻として抽出する。
さらに、処理時間算出部346は、終了時刻から開始時刻を減算することによって、処理時間を算出し、算出された処理時間を示す情報(処理時間情報)を、累積処理時間算出部348および処理時間管理部350に対して出力する。
The processing time calculation unit 346 calculates a time (processing time) required to extract at least a feature character string candidate from a certain page.
Specifically, the processing time calculation unit 346 obtains, from the document reading information management unit 304, the time at which the layout analysis unit 308 or the character string extraction unit 310 starts processing the page to be processed, whichever comes first. Extracted as the start time of page processing.
Further, the processing time calculation unit 346 extracts the time when the characteristic character string candidate is extracted for the page to be processed from the characteristic character string candidate extraction unit 32 as the processing end time of the page.
Furthermore, the processing time calculation unit 346 calculates the processing time by subtracting the start time from the end time, and the information (processing time information) indicating the calculated processing time is used as the cumulative processing time calculation unit 348 and the processing time. Output to the management unit 350.

なお、処理時間算出部346は、ある1つの頁から、特徴文字列候補が抽出されるのに要する時間と、配点抽出部342および候補係数算出部344の処理に要する時間との合計時間を、処理時間として算出してもよい。
この場合、処理時間算出部346は、候補係数算出部344から、候補係数が算出された時刻を、その頁の処理の終了時刻として抽出し、その終了時刻から開始時刻を減算することによって、処理時間を算出してもよい。
Note that the processing time calculation unit 346 calculates the total time of the time required for extracting the characteristic character string candidate from the certain page and the time required for the processing of the scoring point extraction unit 342 and the candidate coefficient calculation unit 344, The processing time may be calculated.
In this case, the processing time calculation unit 346 extracts the time when the candidate coefficient is calculated from the candidate coefficient calculation unit 344 as the processing end time of the page, and subtracts the start time from the end time, thereby processing the processing. You may calculate time.

処理時間管理部350は、処理時間情報を記憶し、管理する。
累積処理時間算出部348は、処理時間算出部346からある頁に関する処理時間情報を受け入れた場合に、処理時間管理部350から、その頁についての処理以前に処理された全ての頁に関する処理時間情報を抽出する。
さらに、累積処理時間算出部348は、ある頁に関する処理時間情報が示す処理時間と、以前に処理された全ての頁についての処理時間情報が示す処理時間それぞれとを合計して、累積処理時間を算出する。
さらに、累積処理時間算出部348は、算出された累積処理時間を示す情報(累積処理時間情報)を、その頁に対応する特徴文字列候補に関する累積処理時間を示す情報として、特徴文字列候補管理部358に対して出力する。
The processing time management unit 350 stores and manages processing time information.
When the accumulated processing time calculation unit 348 receives processing time information regarding a certain page from the processing time calculation unit 346, the processing time information regarding all pages processed before the processing for the page is received from the processing time management unit 350. To extract.
Further, the accumulated processing time calculation unit 348 adds up the processing time indicated by the processing time information regarding a certain page and the processing times indicated by the processing time information for all the previously processed pages, thereby calculating the accumulated processing time. calculate.
Further, the cumulative processing time calculation unit 348 uses the information indicating the calculated cumulative processing time (cumulative processing time information) as information indicating the cumulative processing time related to the characteristic character string candidate corresponding to the page, and manages the characteristic character string candidate management. Output to the unit 358.

特徴文字列候補管理部358(図2)は、頁ごとに、特徴文字列候補と、その特徴文字列候補に関する候補係数と、その特徴文字列候補に関する累積処理時間とを記憶し、管理する。
特徴文字列決定部36は、各頁から特徴文字列候補が算出されその特徴文字列候補に関する頁情報(候補係数および累積処理時間)が算出されるごとに、その特徴文字列候補に関する頁情報(候補係数および累積処理時間)に基づいて、原稿全体の特徴文字列を決定する。
特徴文字列決定部36において、候補係数比較部362(図5)は、各頁について候補係数が算出され特徴文字列候補管理部358に記憶された場合に、その都度、その候補係数を、特徴文字列候補管理部358から抽出する。
また、候補係数比較部362は、候補係数と所定の候補係数基準値とを比較し、その候補係数が、候補係数基準値を超えているか否か判断する。
候補係数が候補係数基準値を超えている場合、候補係数比較部362は、その旨を示す情報(候補係数基準値超過情報)を、特徴文字列判定部368に対して出力し、候補係数が候補係数基準値を超えていない場合、候補係数比較部362は、その旨を示す情報(候補係数基準値未超過情報)を、特徴文字列判定部368に対して出力する。
The feature character string candidate management unit 358 (FIG. 2) stores and manages the feature character string candidate, the candidate coefficient related to the feature character string candidate, and the accumulated processing time related to the feature character string candidate for each page.
Each time the characteristic character string candidate is calculated from each page and the page information (candidate coefficient and cumulative processing time) regarding the characteristic character string candidate is calculated, the characteristic character string determination unit 36 calculates page information regarding the characteristic character string candidate ( The characteristic character string of the entire document is determined based on the candidate coefficient and the accumulated processing time.
In the characteristic character string determination unit 36, the candidate coefficient comparison unit 362 (FIG. 5), when a candidate coefficient is calculated for each page and stored in the characteristic character string candidate management unit 358, the candidate coefficient Extracted from the character string candidate management unit 358.
Further, the candidate coefficient comparison unit 362 compares the candidate coefficient with a predetermined candidate coefficient reference value, and determines whether or not the candidate coefficient exceeds the candidate coefficient reference value.
When the candidate coefficient exceeds the candidate coefficient reference value, the candidate coefficient comparison unit 362 outputs information indicating that (candidate coefficient reference value excess information) to the feature character string determination unit 368, and the candidate coefficient is If the candidate coefficient reference value is not exceeded, the candidate coefficient comparison unit 362 outputs information indicating that (candidate coefficient reference value non-excess information) to the feature character string determination unit 368.

特徴文字列判定部368は、候補係数比較部362から候補係数基準値超過情報を受け入れた場合に、その候補係数に関する特徴文字列候補を特徴文字列候補管理部358から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部368は、決定した特徴文字列をUI装置25に出力してUI装置25に表示させる。
この場合、処理プログラム3は、処理されていない頁についての処理をすることなく、全ての処理を終了する。
つまり、候補係数基準値を超えた候補係数が存在する場合、たとえ未だ特徴文字列候補が抽出されていない頁があったとしても、その未処理の頁について処理はなされない。
When the characteristic character string determination unit 368 receives candidate coefficient reference value excess information from the candidate coefficient comparison unit 362, the characteristic character string determination unit 368 extracts a characteristic character string candidate related to the candidate coefficient from the characteristic character string candidate management unit 358, and the characteristic character string Candidates are determined as characteristic character strings of the entire document.
Further, the characteristic character string determination unit 368 outputs the determined characteristic character string to the UI device 25 and causes the UI device 25 to display the characteristic character string.
In this case, the processing program 3 ends all the processing without performing the processing for the unprocessed page.
That is, when there is a candidate coefficient exceeding the candidate coefficient reference value, even if there is a page from which no feature character string candidate has been extracted, the unprocessed page is not processed.

累積処理時間比較部364は、各頁について累積処理時間が算出され特徴文字列候補管理部358に記憶された場合に、その都度、その累積処理時間を示す累積処理時間情報を、特徴文字列候補管理部358から抽出する。
また、累積処理時間比較部364は、累積処理時間情報が示す累積処理時間と所定の累積処理時間基準値とを比較し、その累積処理時間が、累積処理時間基準値を超えているか否か判断する。
累積処理時間が累積処理時間基準値を超えている場合、累積処理時間比較部364は、その旨を示す情報(累積処理時間基準値超過情報)を、特徴文字列判定部368に対して出力し、累積処理時間が累積処理時間基準値を超えていない場合、累積処理時間比較部364は、その旨を示す情報(累積処理時間基準値未超過情報)を、特徴文字列判定部368に対して出力する。
When the accumulated processing time is calculated for each page and stored in the feature character string candidate management unit 358, the accumulated processing time comparison unit 364 displays the accumulated processing time information indicating the accumulated processing time each time as a feature character string candidate. Extracted from the management unit 358.
The accumulated processing time comparison unit 364 compares the accumulated processing time indicated by the accumulated processing time information with a predetermined accumulated processing time reference value, and determines whether or not the accumulated processing time exceeds the accumulated processing time reference value. To do.
When the accumulated processing time exceeds the accumulated processing time reference value, the accumulated processing time comparison unit 364 outputs information indicating that (accumulated processing time reference value excess information) to the feature character string determination unit 368. When the cumulative processing time does not exceed the cumulative processing time reference value, the cumulative processing time comparison unit 364 sends information indicating that fact (cumulative processing time reference value non-excess information) to the feature character string determination unit 368. Output.

特徴文字列判定部368は、累積処理時間比較部364から累積処理時間基準値超過情報を受け入れた場合に、処理がなされた全ての頁に関する候補係数それぞれを、特徴文字列候補管理部358から抽出する。
また、特徴文字列判定部368は、抽出された候補係数のうち、最大の候補係数に関する特徴文字列候補を、特徴文字列候補管理部358から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部368は、決定した特徴文字列をUI装置25に出力してUI装置25に表示させる。
この場合、処理プログラム3は、処理されていない頁についての処理をすることなく、全ての処理を終了する。
つまり、累積処理時間が累積処理時間基準値を超えた場合、たとえ未だ特徴文字列候補が抽出されていない頁があったとしても、その未処理の頁について処理はなされない。
The feature character string determination unit 368 extracts, from the feature character string candidate management unit 358, the candidate coefficients for all the processed pages when the accumulated processing time reference value excess information is received from the accumulated processing time comparison unit 364. To do.
Also, the characteristic character string determination unit 368 extracts the characteristic character string candidate related to the largest candidate coefficient from the extracted candidate coefficients from the characteristic character string candidate management unit 358, and the characteristic character string candidate is extracted from the entire document. Determine as a string.
Further, the characteristic character string determination unit 368 outputs the determined characteristic character string to the UI device 25 and causes the UI device 25 to display the characteristic character string.
In this case, the processing program 3 ends all the processing without performing the processing for the unprocessed page.
That is, when the accumulated processing time exceeds the accumulated processing time reference value, even if there is a page for which no feature character string candidate has been extracted yet, the unprocessed page is not processed.

なお、特徴文字列判定部368は、抽出された候補係数のうち最大の候補係数が、所定の最低候補係数基準値以下である場合、その最大の候補係数に関する特徴文字列に関わらず、所定の情報に関する文字列を、特徴文字列として決定してもよい。
この最低候補係数基準値は、候補係数基準値よりも小さい値であって、特徴文字列候補が特徴文字列として妥当であるための最低の基準を示す。
つまり、候補係数が最低候補係数基準値以下である場合、その特徴文字列候補は、その頁における他の文字列よりも付与配点が高かったが、原稿全体の特徴文字列として決定される程の付与配点を付与されておらず、したがって、その特徴文字列候補を特徴文字列とすると、その特徴文字列が原稿の内容を表していないことがある。
よって、そのような場合に、特徴文字列判定部368は、所定の情報(例えば、日時に関する情報またはユーザID等)を、特徴文字列として決定する。
When the maximum candidate coefficient among the extracted candidate coefficients is equal to or smaller than a predetermined minimum candidate coefficient reference value, the characteristic character string determination unit 368 determines whether the predetermined character string is a predetermined character string regardless of the characteristic character string related to the maximum candidate coefficient. A character string related to information may be determined as a characteristic character string.
This lowest candidate coefficient reference value is a value smaller than the candidate coefficient reference value, and indicates the lowest standard for a feature character string candidate to be valid as a feature character string.
That is, when the candidate coefficient is less than or equal to the minimum candidate coefficient reference value, the feature character string candidate has a higher allocation score than the other character strings on the page, but is determined as a characteristic character string of the entire document. Therefore, if the candidate character string candidate is a characteristic character string, the characteristic character string may not represent the content of the document.
Therefore, in such a case, the characteristic character string determination unit 368 determines predetermined information (for example, information regarding date and time or a user ID) as a characteristic character string.

処理頁数判断部366は、原稿読取情報管理部304によって管理されている情報に基づいて、全ての頁について処理が終了したか(全ての頁について特徴文字列候補が抽出され、候補係数および累積処理時間が算出されたか)を判断する。
全ての頁について処理が終了した場合には、処理頁数判断部366は、その旨を示す情報(全頁終了情報)を、特徴文字列判定部368に対して出力し、全ての頁について処理が終了していない場合には、処理頁数判断部366は、その旨を示す情報(全頁未終了情報)を、特徴文字列判定部368に対して出力する。
Based on the information managed by the document reading information management unit 304, the processing page number determination unit 366 determines whether processing has been completed for all pages (feature character string candidates are extracted for all pages, candidate coefficients, Whether the processing time has been calculated).
When processing is completed for all pages, the processing page number determination unit 366 outputs information indicating that fact (all page end information) to the characteristic character string determination unit 368 and processes all pages. If the processing has not ended, the processing page number determination unit 366 outputs information indicating that (all page incomplete information) to the characteristic character string determination unit 368.

特徴文字列判定部368は、処理頁数判断部366から全頁終了情報を受け入れた場合、処理がなされた全ての頁に関する候補係数それぞれを、特徴文字列候補管理部358から抽出する。
また、特徴文字列判定部368は、抽出された候補係数のうち、最大の候補係数に関する特徴文字列候補を、特徴文字列候補管理部358から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部368は、決定した特徴文字列をUI装置25に出力してUI装置25に表示させる。
なお、特徴文字列判定部368は、累積処理時間が累積処理時間基準値を超過した場合と同様に、抽出された候補係数のうち最大の候補係数が、所定の最低候補係数基準値以下である場合、その最大の候補係数に関する特徴文字列に関わらず、所定の情報に関する文字列を、特徴文字列として決定してもよい。
When the characteristic character string determination unit 368 receives the all page end information from the processing page number determination unit 366, the characteristic character string determination unit 368 extracts, from the characteristic character string candidate management unit 358, candidate coefficients for all pages that have been processed.
Also, the characteristic character string determination unit 368 extracts the characteristic character string candidate related to the largest candidate coefficient from the extracted candidate coefficients from the characteristic character string candidate management unit 358, and the characteristic character string candidate is extracted from the entire document. Determine as a string.
Further, the characteristic character string determination unit 368 outputs the determined characteristic character string to the UI device 25 and causes the UI device 25 to display the characteristic character string.
Note that, in the same way as when the accumulated processing time exceeds the accumulated processing time reference value, the feature character string determination unit 368 has the largest candidate coefficient among the extracted candidate coefficients equal to or less than a predetermined minimum candidate coefficient reference value. In this case, the character string related to the predetermined information may be determined as the characteristic character string regardless of the characteristic character string related to the maximum candidate coefficient.

一方、特徴文字列判定部368は、候補係数比較部362から候補係数基準値未超過情報を受け入れ、累積処理時間比較部364から累積処理時間基準値未超過情報を受け入れ、かつ、処理頁数判断部366から全頁未終了情報を受け入れた場合、特徴文字列判定部368は、原稿読取情報管理部304に対し、次の頁について処理を実行する旨を示す命令を出力する。
これにより、原稿読取情報管理部304は、次の頁について、配置解析部308および文字列抽出部310が処理を行うように制御し、配置解析部308および文字列抽出部310が処理を行い、特徴文字列候補抽出部32がその次の頁について特徴文字列候補を抽出する。
On the other hand, the characteristic character string determination unit 368 accepts candidate coefficient reference value non-exceeding information from the candidate coefficient comparison unit 362, accepts cumulative processing time reference value non-excess information from the cumulative processing time comparison unit 364, and determines the number of processed pages. When the all-page non-completion information is received from the unit 366, the characteristic character string determination unit 368 outputs a command indicating that processing is to be executed for the next page to the document reading information management unit 304.
Thereby, the document reading information management unit 304 controls the next page to be processed by the arrangement analysis unit 308 and the character string extraction unit 310, and the arrangement analysis unit 308 and the character string extraction unit 310 perform processing. The feature character string candidate extraction unit 32 extracts feature character string candidates for the next page.

図7は、処理プログラム3の処理を示すフローチャート(S10)である。
ステップ100(S100)において、原稿読取情報受付部302は、原稿を読み取って得られた原稿読取情報を受け付ける。
ステップ102(S102)において、原稿読取情報管理部304は、処理対象の頁を1頁目とする。
ステップ104(S104)において、原稿読取情報に基づいて、頁ごとに、配置解析部308が配置情報を生成し、文字列抽出部310が文字列を抽出する。
FIG. 7 is a flowchart (S10) showing processing of the processing program 3.
In step 100 (S100), document reading information receiving unit 302 receives document reading information obtained by reading a document.
In step 102 (S102), the document reading information management unit 304 sets the page to be processed as the first page.
In step 104 (S104), the layout analysis unit 308 generates layout information for each page based on the document reading information, and the character string extraction unit 310 extracts a character string.

ステップ106(S106)において、特徴文字列候補抽出部32は、頁ごとに、特徴文字列候補を抽出する。
ステップ108(S108)において、頁情報算出部34は、候補係数を算出する。
ステップ110(S110)において、頁情報算出部34は、累積処理時間を算出する。
In step 106 (S106), the characteristic character string candidate extraction unit 32 extracts characteristic character string candidates for each page.
In step 108 (S108), the page information calculation unit 34 calculates candidate coefficients.
In step 110 (S110), the page information calculation unit 34 calculates the accumulated processing time.

ステップ112(S112)において、特徴文字列決定部36は、累積処理時間が累積処理時間基準値を超過するか否か判断し、超過すると判断する場合は、処理はS122に進み、超過しないと判断する場合は、処理はS114に進む。
ステップ114(S114)において、特徴文字列決定部36は、候補係数が候補係数基準値を超過するか否か判断し、超過すると判断する場合は、処理はS120に進み、超過しないと判断する場合は、処理はS116に進む。
ステップ116(S116)において、特徴文字列決定部36は、全ての頁について処理が終了したか否か判断し、終了したと判断した場合は、処理はS122に進み、終了していないと判断した場合は、処理はS118に進む。
ステップ118(S118)において、原稿読取情報管理部304は、次の頁を処理対象とする。
In step 112 (S112), the characteristic character string determination unit 36 determines whether or not the accumulated processing time exceeds the accumulated processing time reference value. If it is determined that the accumulated processing time exceeds, the process proceeds to S122 and determines that the accumulated processing time does not exceed. If so, the process proceeds to S114.
In step 114 (S114), the characteristic character string determination unit 36 determines whether the candidate coefficient exceeds the candidate coefficient reference value. When determining that the candidate coefficient exceeds the process, the process proceeds to S120. The process proceeds to S116.
In step 116 (S116), the characteristic character string determination unit 36 determines whether or not the processing has been completed for all pages. If it is determined that the processing has been completed, the process proceeds to S122 and determines that the processing has not been completed. In the case, the process proceeds to S118.
In step 118 (S118), the document reading information management unit 304 sets the next page as a processing target.

ステップ120(S120)において、特徴文字列決定部36は、候補係数基準値を超過した候補係数に関する特徴文字列候補を、原稿の特徴文字列として決定し、処理を終了する。
ステップ122(S122)において、特徴文字列決定部36は、最大の候補係数が最低候補係数基準値を超過するか否か判断し、超過すると判断する場合は、処理はS124に進み、超過しないと判断する場合は、処理はS126に進む。
ステップ124(S124)において、特徴文字列決定部36は、最大の候補係数に関する特徴文字列候補を、原稿の特徴文字列として決定し、処理を終了する。
ステップ126(S126)において、特徴文字列決定部36は、所定の情報に関する文字列を、原稿の特徴文字列として決定し、処理を終了する。
なお、上述した本実施形態において、S102で最初の処理対象頁を1頁目とするとしたが、処理対象とする頁の順序は、原稿の頁の順序と同じでなくてもよい。
In step 120 (S120), the characteristic character string determination unit 36 determines a characteristic character string candidate related to a candidate coefficient that exceeds the candidate coefficient reference value as a characteristic character string of the document, and ends the process.
In step 122 (S122), the characteristic character string determination unit 36 determines whether or not the maximum candidate coefficient exceeds the minimum candidate coefficient reference value. If it is determined that the maximum candidate coefficient exceeds, the process proceeds to S124. If so, the process proceeds to S126.
In step 124 (S124), the characteristic character string determination unit 36 determines the characteristic character string candidate related to the maximum candidate coefficient as the characteristic character string of the document, and ends the process.
In step 126 (S126), the characteristic character string determination unit 36 determines a character string related to predetermined information as a characteristic character string of the document, and ends the process.
In the above-described embodiment, the first page to be processed is defined as the first page in S102. However, the order of the pages to be processed may not be the same as the order of the pages of the document.

以下、本実施形態に係る画像処理装置2の処理を、具体的に例を挙げて説明する。
図8(A),(B)は、本実施形態に係る画像処理装置2の処理結果を例示する図であり、(A)は第1の例を示し、(B)は第2の例を示す。
図8(A)に示した例においては、第1頁について、特徴文字列候補#1「著者富士太郎」が抽出され、その特徴文字列候補#1「著者富士太郎」の候補係数#1は0.15であり、第1頁についての処理時間#1は2.0である。このとき、累積処理時間#1は2.0である。
なお、処理時間および累積処理時間の単位は、例えば、ミリ秒、秒または分等であるが、これらに限られない。
Hereinafter, the processing of the image processing apparatus 2 according to the present embodiment will be described with specific examples.
8A and 8B are diagrams illustrating the processing result of the image processing apparatus 2 according to the present embodiment. FIG. 8A illustrates a first example, and FIG. 8B illustrates a second example. Show.
In the example shown in FIG. 8A, for the first page, the characteristic character string candidate # 1 “author Fujitaro” is extracted, and the candidate coefficient # 1 of the characteristic character string candidate # 1 “author Fujitaro” is The processing time # 1 for the first page is 2.0. At this time, the cumulative processing time # 1 is 2.0.
The unit of the processing time and the accumulated processing time is, for example, milliseconds, seconds or minutes, but is not limited thereto.

また、第2頁について、特徴文字列候補#2「はじめに」が抽出され、その特徴文字列候補#2「はじめに」の候補係数#2は0.40であり、第2頁についての処理時間#2は5.0である。このとき、累積処理時間#2は7.0(=2.0+5.0)である。
また、第3頁について、特徴文字列候補#3「日本の製造業白書」が抽出され、その特徴文字列候補#3「日本の製造業白書」の候補係数#3は0.80であり、第3頁についての処理時間#3は8.0である。このとき、累積処理時間#3は15.0(=2.0+5.0+8.0)である。
Also, for the second page, the characteristic character string candidate # 2 “Introduction” is extracted, the candidate coefficient # 2 of the characteristic character string candidate # 2 “Introduction” is 0.40, and the processing time # for the second page 2 is 5.0. At this time, the cumulative processing time # 2 is 7.0 (= 2.0 + 5.0).
Further, for the third page, the characteristic character string candidate # 3 “Japanese manufacturing white paper” is extracted, and the candidate coefficient # 3 of the characteristic character string candidate # 3 “Japanese manufacturing white paper” is 0.80, Processing time # 3 for the third page is 8.0. At this time, the cumulative processing time # 3 is 15.0 (= 2.0 + 5.0 + 8.0).

ここで、候補係数基準値が0.70であり、累積処理時間基準値が20.0であり、最低候補係数基準値が0.10である場合、特徴文字列候補#3「日本の製造業白書」の候補係数#3は候補係数基準値を超過している。
したがって、特徴文字列決定部36は、特徴文字列候補#3「日本の製造業白書」を、その原稿の特徴文字列として決定する。
この場合、たとえ第4頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
Here, when the candidate coefficient reference value is 0.70, the cumulative processing time reference value is 20.0, and the lowest candidate coefficient reference value is 0.10, the feature character string candidate # 3 “Japanese manufacturing industry” Candidate coefficient # 3 of “white paper” exceeds the candidate coefficient reference value.
Therefore, the characteristic character string determination unit 36 determines the characteristic character string candidate # 3 “Japanese manufacturing white paper” as the characteristic character string of the manuscript.
In this case, even if there are pages after the fourth page, the feature character string candidates are not extracted for these pages.

また、候補係数基準値が0.85であり、累積処理時間基準値が10.0であり、最低候補係数基準値が0.10である場合、第2頁における累積処理時間#2は累積処理時間基準値を超過していないが、第3頁における累積処理時間#3は、累積処理時間基準値を超過している。
また、その時点において最大の候補係数である候補係数#3は、最低候補係数基準値を超過している。
したがって、特徴文字列決定部36は、その時点において最大の候補係数である候補係数#3に関する特徴文字列候補#3「日本の製造業白書」を、その原稿の特徴文字列として決定する。
この場合、たとえ第4頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
Further, when the candidate coefficient reference value is 0.85, the cumulative processing time reference value is 10.0, and the lowest candidate coefficient reference value is 0.10, the cumulative processing time # 2 on the second page is the cumulative processing. Although the time reference value has not been exceeded, the accumulated processing time # 3 on the third page exceeds the accumulated processing time reference value.
In addition, candidate coefficient # 3, which is the largest candidate coefficient at that time, exceeds the minimum candidate coefficient reference value.
Therefore, the characteristic character string determination unit 36 determines the characteristic character string candidate # 3 “Japanese manufacturing white paper” related to the candidate coefficient # 3, which is the largest candidate coefficient at that time, as the characteristic character string of the document.
In this case, even if there are pages after the fourth page, the feature character string candidates are not extracted for these pages.

また、候補係数基準値が0.85であり、累積処理時間基準値が20.0であり、第3頁が最終頁である場合、特徴文字列決定部36は、その時点において最大の候補係数である候補係数#3に関する特徴文字列候補#3「日本の製造業白書」を、その原稿の特徴文字列として決定する。   If the candidate coefficient reference value is 0.85, the cumulative processing time reference value is 20.0, and the third page is the last page, the characteristic character string determination unit 36 determines that the maximum candidate coefficient at that time is The characteristic character string candidate # 3 “Japanese manufacturing white paper” relating to the candidate coefficient # 3 is determined as the characteristic character string of the original.

図8(B)に示した例においては、第1頁について、特徴文字列候補#1「著者」が抽出され、その特徴文字列候補#1「著者」の候補係数#1は0.05であり、第1頁についての処理時間#1は2.0である。このとき、累積処理時間#1は2.0である。
また、第2頁については、白紙等であったため、特徴文字列候補#2は抽出されず、したがって、特徴文字列候補#2の候補係数#2は0.00である。また、第2頁についての処理時間#2は5.0である。このとき、累積処理時間#2は7.0(=2.0+5.0)である。
また、第3頁について、特徴文字列候補#3「基準」が抽出され、その特徴文字列候補#3「基準」の候補係数#3は0.06であり、第3頁についての処理時間#3は8.0である。このとき、累積処理時間#3は15.0(=2.0+5.0+8.0)である。
In the example shown in FIG. 8B, the characteristic character string candidate # 1 “author” is extracted for the first page, and the candidate coefficient # 1 of the characteristic character string candidate # 1 “author” is 0.05. Yes, the processing time # 1 for the first page is 2.0. At this time, the cumulative processing time # 1 is 2.0.
Further, since the second page is blank or the like, the characteristic character string candidate # 2 is not extracted, and therefore the candidate coefficient # 2 of the characteristic character string candidate # 2 is 0.00. The processing time # 2 for the second page is 5.0. At this time, the cumulative processing time # 2 is 7.0 (= 2.0 + 5.0).
Also, for the third page, the characteristic character string candidate # 3 “reference” is extracted, the candidate coefficient # 3 of the characteristic character string candidate # 3 “reference” is 0.06, and the processing time # for the third page 3 is 8.0. At this time, the cumulative processing time # 3 is 15.0 (= 2.0 + 5.0 + 8.0).

ここで、候補係数基準値が0.85であり、累積処理時間基準値が10.0であり、最低候補係数基準値が0.10である場合、第2頁における累積処理時間#2は累積処理時間基準値を超過していないが、第3頁における累積処理時間#3は、累積処理時間基準値を超過している。
また、その時点において最大の候補係数である候補係数#3は、最低候補係数基準値以下である。
したがって、特徴文字列決定部36は、特徴文字列候補#3「基準」に関わらず、所定の情報に関する文字列を、その原稿の特徴文字列として決定する。
この場合、たとえ第4頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
Here, when the candidate coefficient reference value is 0.85, the accumulated processing time reference value is 10.0, and the lowest candidate coefficient reference value is 0.10, the accumulated processing time # 2 on the second page is accumulated. Although the processing time reference value is not exceeded, the cumulative processing time # 3 on the third page exceeds the cumulative processing time reference value.
Further, the candidate coefficient # 3 which is the maximum candidate coefficient at that time is equal to or less than the minimum candidate coefficient reference value.
Therefore, the characteristic character string determination unit 36 determines a character string related to the predetermined information as a characteristic character string of the document regardless of the characteristic character string candidate # 3 “reference”.
In this case, even if there are pages after the fourth page, the feature character string candidates are not extracted for these pages.

2・・・画像処理装置,
3・・・処理プログラム,
302・・・原稿読取情報受付部,
304・・・原稿読取情報管理部,
308・・・配置解析部,
310・・・文字列抽出部,
32・・・特徴文字列候補抽出部,
322・・・文字列位置算出部,
324・・・文字列位置配点部,
326・・・文字列規模算出部,
328・・・文字列規模配点部,
330・・・文字列頻度算出部,
332・・・文字列頻度配点部,
334・・・配点合計部,
336・・・配点格納部,
338・・・特徴文字列候補判定部,
34・・・頁情報算出部,
342・・・配点抽出部,
344・・・候補係数算出部,
346・・・処理時間算出部,
348・・・累積処理時間算出部,
350・・・処理時間管理部,
358・・・特徴文字列候補管理部,
36・・・特徴文字列決定部,
362・・・候補係数比較部,
364・・・累積処理時間比較部,
366・・・処理頁数判断部,
368・・・特徴文字列判定部,
2 ... Image processing device,
3 ... Processing program,
302: Document reading information receiving unit,
304: Document reading information management unit,
308 ... Placement analysis unit,
310 ... character string extraction unit,
32 ... Characteristic character string candidate extraction unit,
322: Character string position calculation unit,
324: Character string position scoring section,
326... Character string scale calculation unit,
328 ... Character string scale scoring section,
330 ... character string frequency calculation unit,
332: Character string frequency scoring section,
334 ... Scoring total part,
336 ... Scoring storage unit,
338: Characteristic character string candidate determination unit,
34: Page information calculation unit,
342 ... Scoring extraction unit,
344 ... Candidate coefficient calculation unit,
346... Processing time calculation unit,
348 ... Cumulative processing time calculation unit,
350 ... processing time management part,
358... Character string candidate management unit,
36... Character string determination unit,
362 ... Candidate coefficient comparison unit,
364 ... Cumulative processing time comparison unit,
366... Processed page number determination unit,
368 ... Characteristic character string determination unit,

Claims (8)

複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、
前記係数算出手段によって1つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出手段によって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第1の基準値を超えた場合に、前記第1の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段と
を有する画像処理装置。
Candidate extracting means for extracting, for each page, feature character string candidates that are character strings related to the document from each page of the document composed of a plurality of pages;
Each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit, information on the page is obtained according to a predetermined condition for each candidate for the characteristic character string extracted for each page by the candidate extraction unit. A coefficient calculating means for calculating a coefficient based on;
Each time a coefficient is calculated for the candidate candidate character string extracted from one page by the coefficient calculating means, it is determined whether the coefficient calculated by the coefficient calculating means exceeds a predetermined reference value, An image having characteristic character string determining means for determining, as a characteristic character string of the original, a candidate for a coefficient exceeding the first reference value when the calculated coefficient exceeds a predetermined first reference value; Processing equipment.
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段
をさらに有し、
前記時間算出手段によって1つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記特徴文字列決定手段は、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する
請求項1に記載の画像処理装置。
Each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit, it further includes a time calculation unit that calculates at least the time required for processing of the candidate extraction unit for each page,
Each time the time required for processing of the candidate extracting unit is calculated for one page by the time calculating unit, the characteristic character string determining unit determines whether the accumulated time of each page calculated by the time calculating unit is a predetermined time. If the accumulated time exceeds a predetermined reference time, a candidate for the largest coefficient among the calculated coefficients is determined as a characteristic character string of the document. Item 8. The image processing apparatus according to Item 1.
前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの前記係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する
請求項2に記載の画像処理装置。
The characteristic character string determination means is a second case in which the accumulated time of the time exceeds a predetermined reference time, and a maximum coefficient among the calculated coefficients is smaller than the first reference value. The image processing apparatus according to claim 2, wherein when it is equal to or less than a reference value, a character string related to predetermined information is determined as a characteristic character string of the document.
前記特徴文字列決定手段は、原稿の全ての頁について前記算出された係数が前記第1の基準値を超えなかった場合に、算出された係数のうちの最大の係数に関する特徴文字列の候補を前記原稿の特徴文字列として決定する
請求項1に記載の画像処理装置。
The characteristic character string determination means determines a characteristic character string candidate related to the maximum coefficient among the calculated coefficients when the calculated coefficient does not exceed the first reference value for all pages of the document. The image processing apparatus according to claim 1, wherein the image processing apparatus determines the characteristic character string of the document.
前記特徴文字列決定手段は、原稿の全ての頁について前記係数が第1の基準値を超えなかった場合であって、算出済みの前記係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する
請求項4に記載の画像処理装置。
The characteristic character string determination means is a case where the coefficient does not exceed the first reference value for all pages of the document, and the maximum coefficient among the calculated coefficients is greater than the first reference value. 5. The image processing apparatus according to claim 4, wherein a character string relating to predetermined information is determined as a characteristic character string of the document when the second reference value is equal to or smaller than the second reference value.
複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段と、
前記時間算出手段によって1つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段と
を有する画像処理装置。
Candidate extracting means for extracting, for each page, feature character string candidates that are character strings related to the document from each page of the document composed of a plurality of pages;
Each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit, information on the page is obtained according to a predetermined condition for each candidate for the characteristic character string extracted for each page by the candidate extraction unit. A coefficient calculating means for calculating a coefficient based on;
A time calculation unit that calculates at least the time required for processing of the candidate extraction unit for each page each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit;
Whether the accumulated time of the time for each page calculated by the time calculation means exceeds a predetermined reference time each time the time calculation means calculates the time required for processing of the candidate extraction means for one page And a characteristic character string determining means for determining, as the characteristic character string of the document, a candidate for the largest coefficient among the calculated coefficients when the accumulated time exceeds a predetermined reference time. apparatus.
前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの前記係数のうちの最大の係数が前記第1の基準値よりも小さい第2の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する
請求項6に記載の画像処理装置。
The characteristic character string determination means is a second case in which the accumulated time of the time exceeds a predetermined reference time, and a maximum coefficient among the calculated coefficients is smaller than the first reference value. The image processing apparatus according to claim 6, wherein when it is equal to or less than a reference value, a character string related to predetermined information is determined as a characteristic character string of the document.
複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出ステップと、
前記候補抽出手段によって1つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出ステップにおいて頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出ステップと、
前記係数算出手段によって1つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出ステップによって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第1の基準値を超えた場合に、前記第1の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定ステップと
をコンピュータに実行させる画像処理プログラム。
A candidate extraction step for extracting, for each page, a feature character string candidate, which is a character string related to the document, from each page of the document composed of a plurality of pages;
Each time a candidate for a characteristic character string is extracted from one page by the candidate extraction unit, information on the page is obtained according to a predetermined condition for each candidate for the characteristic character string extracted for each page in the candidate extraction step. A coefficient calculating step for calculating a coefficient based on the
Each time a coefficient is calculated for the candidate candidate character string extracted from one page by the coefficient calculation means, it is determined whether the coefficient calculated by the coefficient calculation step exceeds a predetermined reference value, A characteristic character string determination step for determining, as a characteristic character string of the document, a candidate for a coefficient that exceeds the first reference value when the calculated coefficient exceeds a predetermined first reference value; An image processing program to be executed.
JP2011053977A 2011-03-11 2011-03-11 Image processing device and program Pending JP2012190315A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011053977A JP2012190315A (en) 2011-03-11 2011-03-11 Image processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011053977A JP2012190315A (en) 2011-03-11 2011-03-11 Image processing device and program

Publications (1)

Publication Number Publication Date
JP2012190315A true JP2012190315A (en) 2012-10-04

Family

ID=47083380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011053977A Pending JP2012190315A (en) 2011-03-11 2011-03-11 Image processing device and program

Country Status (1)

Country Link
JP (1) JP2012190315A (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0822474A (en) * 1994-07-11 1996-01-23 Canon Inc Filing apparatus and control method thereof
JPH08166959A (en) * 1994-12-12 1996-06-25 Canon Inc Image processing method
JP2002183165A (en) * 2000-12-08 2002-06-28 Ricoh Co Ltd Digital MFP and document storage system
JP2003016076A (en) * 2001-06-28 2003-01-17 Ricoh Co Ltd Title extraction method from document image
JP2005275756A (en) * 2004-03-24 2005-10-06 Hitachi Ltd Electronic document search / display device
JP2006251864A (en) * 2005-03-08 2006-09-21 Fuji Photo Film Co Ltd File management method and device and program for file management

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0822474A (en) * 1994-07-11 1996-01-23 Canon Inc Filing apparatus and control method thereof
JPH08166959A (en) * 1994-12-12 1996-06-25 Canon Inc Image processing method
JP2002183165A (en) * 2000-12-08 2002-06-28 Ricoh Co Ltd Digital MFP and document storage system
JP2003016076A (en) * 2001-06-28 2003-01-17 Ricoh Co Ltd Title extraction method from document image
JP2005275756A (en) * 2004-03-24 2005-10-06 Hitachi Ltd Electronic document search / display device
JP2006251864A (en) * 2005-03-08 2006-09-21 Fuji Photo Film Co Ltd File management method and device and program for file management

Similar Documents

Publication Publication Date Title
US8726178B2 (en) Device, method, and computer program product for information retrieval
JP4859025B2 (en) Similar image search device, similar image search processing method, program, and information recording medium
JP5511450B2 (en) Image processing apparatus, image processing method, and program
CN101178725B (en) Device and method for information retrieval
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
US8412705B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
US8571359B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
JP6900164B2 (en) Information processing equipment, information processing methods and programs
US11941903B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
US12412409B2 (en) Information processing apparatus, information processing method, and storage medium
JP2019016350A (en) Identification of emphasized text in electronic documents
US20060285748A1 (en) Document processing device
JP2005303880A (en) Image forming apparatus, image forming method, and program
US20190057276A1 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
JP2012205181A (en) Image processing device and program
KR101598789B1 (en) Image processing apparatus, non-transitory computer-readable medium, and image processing method
JP2008022159A (en) Document processing apparatus and document processing method
JP2004334341A (en) Document search device, document search method, and recording medium
US9870632B2 (en) Information processing apparatus and non-transitory computer readable medium
US10049107B2 (en) Non-transitory computer readable medium and information processing apparatus and method
JP2008129793A (en) Document processing system, apparatus and method, and recording medium recording program
JP7570843B2 (en) IMAGE PROCESSING APPARATUS, IMAGE FORMING SYSTEM, IMAGE PROCESSING METHOD, AND PROGRAM
JP2012190315A (en) Image processing device and program
JP5721052B2 (en) Image processing apparatus and program
JP2007310501A (en) Information processing apparatus, control method thereof, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141003

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150302