JP2007122403A - Automatic extraction device, extraction method and extraction program for document title and related information - Google Patents
Automatic extraction device, extraction method and extraction program for document title and related information Download PDFInfo
- Publication number
- JP2007122403A JP2007122403A JP2005313615A JP2005313615A JP2007122403A JP 2007122403 A JP2007122403 A JP 2007122403A JP 2005313615 A JP2005313615 A JP 2005313615A JP 2005313615 A JP2005313615 A JP 2005313615A JP 2007122403 A JP2007122403 A JP 2007122403A
- Authority
- JP
- Japan
- Prior art keywords
- title
- document
- information
- sentences
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】 文書タイトルを自動的にかつ精度よく抽出するタイトル抽出装置を提供する。
【解決手段】 文書タイトル抽出装置は、文書入力部30から入力されたテキスト文書から複数のタイトル候補文を抽出するタイトル候補文抽出部32と、抽出された複数のタイトル候補文の各々の特徴量を抽出する特徴量抽出部34と、抽出された特徴量に基づき複数のタイトル候補文の中から文書タイトルを判定するタイトル判定部36と、抽出結果を出力する出力部38とを含む。特徴量は、少なくともタイトル候補文と文書中の複数の文との類似度の関数である類似度情報を含んでいる。
【選択図】 図2PROBLEM TO BE SOLVED: To provide a title extraction device for automatically and accurately extracting a document title.
A document title extraction device includes a title candidate sentence extraction unit that extracts a plurality of title candidate sentences from a text document input from a document input unit, and a feature amount of each of the extracted plurality of title candidate sentences. A feature amount extraction unit 34 for extracting a document title, a title determination unit 36 for determining a document title from a plurality of title candidate sentences based on the extracted feature amount, and an output unit 38 for outputting an extraction result. The feature amount includes similarity information that is a function of similarity between at least a title candidate sentence and a plurality of sentences in the document.
[Selection] Figure 2
Description
本発明は、スキャナ等により読取られた文書から、文書タイトルを自動的に抽出する文書タイトル抽出装置に関する。 The present invention relates to a document title extraction apparatus that automatically extracts a document title from a document read by a scanner or the like.
紙原稿の一般文書を光学式スキャナ等により読み込み、電子化された画像データから、文書タイトルを抽出する装置が実用化されつつある。例えば特許文献1は、文書を画像データに変換して得られる文書画像から容易にタイトル部分を抽出するタイトル抽出装置に関し、これによれば、文書画像内の黒画素が連結している領域に外接する矩形領域を文字矩形として抽出し、さらに、隣接する複数の文字矩形を統合して、それらの文字矩形に外接する矩形領域を文字列矩形として抽出し、次に、各文字列矩形の下線属性、枠付き属性、罫線属性等の属性と、文書画像内の文字列矩形の位置や相互の位置関係とに基づいてタイトルらしさのポイント計算を行い、高ポイントを獲得した文字列矩形をタイトル矩形として抽出するものである。
An apparatus for reading a general document of a paper original by an optical scanner or the like and extracting a document title from digitized image data is being put into practical use. For example,
特許文献2は、文書画像から切り出された文字列矩形に対し、この文字列矩形内の文字コードの識別を行い、文字コード識別の確信度、自然言語的タイトルらしさを解析する自然言語解析手段、語尾の統計情報、センタリング・下線・特定のフォント、文字矩形の大きさなどの手法によりタイトルを抽出するタイトル抽出装置に関する。
非特許文献1は、正規表現パターンを用いて技術論文の住所、都市名、URL、時間を抽出可能とし、論文開始部分に抽出されない部分を著者とタイトルとして抽出する技術を開示している。
Non-Patent
非特許文献2は、文章開始部分を対象に、言語特徴(単語数、行の位置、単語と非単語の比率、首文字が大文字と小文字の比率、数字の比率)などを文の特徴量とし、SVMを利用してタイトルを判定する技術を開示している。
Non-Patent
しかしながら、特許文献1のタイトル抽出装置は、非定型文書に対して行領域のレイアウト的特徴を用いてタイトル抽出を行っているので、抽出率が十分でないとうい課題がある。特許文献2は、幾つかのタイトルの属性を用いてタイトルを判定しているが、複数の短い文字列矩形を持つ文書に対して、タイトル属性を持っている短い文字列矩形が多いので、誤判定しやすいという問題がある。
However, since the title extraction apparatus of
また、非特許文献1や非特許文献2に開示される技術は、文書の構造に依存しているため、技術論文以外の文書に適用し難く、また,文書の開始情報が少ない場合には、正しいタイトルの抽出ができなくなるという課題がある。
In addition, since the technology disclosed in Non-Patent
本発明は、上記従来の課題を解決するものであり、必ずしも文書のレイアウトと内容範囲に依存しない、言語知識を十分に活用し、タイトル候補文の長さ、候補文と他の文の類似度の順位、著者、組織名、タイトルキーワード、候補文と著者の距離、タイトル禁用キーワード、郵便番号、記号などの情報をタイトル候補文の特徴量とし、この特徴量を分類装置(例えば、SVM)を利用してタイトルであるかどうかを判定することにより、タイトル独自の属性を最大限に利用し、柔軟な判定方式で文書タイトルおよびその関連情報を高精度に抽出することができるタイトル抽出装置、抽出方法、抽出プログラムを提供することを目的とする。 The present invention solves the above-described conventional problems, does not necessarily depend on the layout and content range of a document, fully utilizes linguistic knowledge, the length of a candidate title sentence, the similarity between a candidate sentence and another sentence Information such as ranking, author, organization name, title keyword, distance between candidate sentence and author, prohibited keyword, zip code, symbol, etc. are used as feature quantities of the title candidate sentence, and this feature quantity is classified by a classification device (for example, SVM). A title extraction device that can extract the document title and related information with high accuracy using a flexible determination method by making the best use of the unique attributes of the title by determining whether or not it is a title and extraction It is an object to provide a method and an extraction program.
本発明に係る文書タイトル抽出装置は、文書から複数のタイトル候補文を抽出するタイトル候補文抽出手段と、抽出された複数のタイトル候補文の各々の特徴量を抽出する特徴量抽出手段と、抽出された特徴量に基づき複数のタイトル候補文の中から文書タイトルを判定する判定手段と、判定結果を出力する出力手段とを含み、特徴量は、少なくともタイトル候補文と文書中の複数の文との類似度の関数である類似度情報を含んでいる。 A document title extraction apparatus according to the present invention includes a title candidate sentence extraction unit that extracts a plurality of title candidate sentences from a document, a feature amount extraction unit that extracts a feature quantity of each of the extracted title candidate sentences, and an extraction A determination unit that determines a document title from a plurality of title candidate sentences based on the feature amount that has been output, and an output unit that outputs a determination result. The feature amount includes at least a title candidate sentence and a plurality of sentences in the document. Similarity information, which is a function of the degree of similarity, is included.
好ましくは、類似度情報は、タイトル候補文と文書中の複数の文との類似度の度合いを表す順位情報を含む。類似度情報は、タイトル候補文から選択されるサブ文字列のベクトル情報と文書中の文から選択されたサブ文字列のベクトル情報とを用いて算出される。ベクトル情報は、タイトル候補文から選択さられたN(Nは2以上の自然数)グラムの出現頻度と、文書中の文から選択されたNグラムの出現頻度に基づき算出される。このような類似度情報を用いることで、形態素解析を用いることなく、言語情報を活用した、高精度な文書タイトルの抽出および判定を行うことができる。 Preferably, the similarity information includes rank information indicating a degree of similarity between the title candidate sentence and a plurality of sentences in the document. The similarity information is calculated using the vector information of the sub character string selected from the title candidate sentence and the vector information of the sub character string selected from the sentence in the document. The vector information is calculated based on the appearance frequency of N (N is a natural number of 2 or more) gram selected from the title candidate sentence and the appearance frequency of N gram selected from the sentence in the document. By using such similarity information, it is possible to extract and determine a document title with high accuracy using linguistic information without using morphological analysis.
さらに、Nグラムの出現頻度に基づきベクトル情報を算出するとき、予め定められた使用禁止用のNグラムが含まれている場合には、当該ベクトル情報を修正する。タイトルになり得ない文字列、あるいはタイトルになる可能性が低い文字列を除外することで、文書タイトルの判定および抽出精度を向上させることができる。 Further, when the vector information is calculated based on the appearance frequency of the N-gram, if the predetermined use-prohibited N-gram is included, the vector information is corrected. By excluding a character string that cannot be a title or a character string that is unlikely to be a title, the determination and extraction accuracy of the document title can be improved.
また、類似度情報は、タイトル候補文と文書中の文の編集距離により算出されるようにしてもよいし、タイトル候補文と文書中の文の最大共通文字列の長さにより算出されるようにしてもよい。 The similarity information may be calculated based on the edit distance between the title candidate sentence and the sentence in the document, or may be calculated based on the length of the maximum common character string between the title candidate sentence and the sentence in the document. It may be.
さらに特徴量は、タイトル候補文に、予め定められたタイトルキーワードが含まれている場合に、そのキーワードの位置と出現頻度を示すタイトルキーワード情報を含ませたり、タイトル候補文に、予め定められた使用禁止用タイトルキーワードが含まれている場合に、その使用禁止用タイトルキーワードの位置と出現頻度を示す使用禁止用タイトルキーワード情報を含ませるようにしてもよい。これにより、タイトル候補文の特徴量に種々の特徴を含ませ、タイトルの判定精度を向上させることができる。 Further, when the title candidate sentence includes a predetermined title keyword, the feature amount includes title keyword information indicating the position and appearance frequency of the keyword, or is determined in the title candidate sentence. When a use-prohibited title keyword is included, use-prohibited title keyword information indicating the position and appearance frequency of the use-prohibited title keyword may be included. Thereby, various features can be included in the feature amount of the title candidate sentence, and the determination accuracy of the title can be improved.
文書タイトルを判定する判定手段は、タイトル候補文の特徴量に基づき、最適なタイトル候補文を抽出する。好ましくは、SVM(サポートベクトルマシン)により特徴量を分類し、判定を行う。出力手段は、例えば、ディスプレイ等の表示装置を含み、判定されたタイトル文と関連情報を出力する。関連情報は、著者や組織名等である。 The determination means for determining the document title extracts an optimal title candidate sentence based on the feature amount of the title candidate sentence. Preferably, the feature amount is classified by SVM (support vector machine) and the determination is performed. The output means includes a display device such as a display, for example, and outputs the determined title sentence and related information. Related information includes authors and organization names.
文書タイトル抽出装置はさらに、画像文書を入力する入力手段と、入力された画像文書からテキスト文書を抽出するテキスト文書抽出手段とを含み、タイトル候補文抽出手段は、抽出されたテキスト文書からタイトル候補文を抽出するものであってもよい。画像文書を入力する入力手段は、画像文書を光学的に読取るスキャナを含み、スキャナにより読取られた画像文書データから、OCR等によりテキストデータを抽出する。好ましくは、タイトル候補文抽出手段は、テキスト文書の先頭から一定の候補対象範囲においてタイトル候補文を抽出する。おおよそ、タイトルとなり得るような文書は、先頭部分に含まれていることが多いからである。 The document title extracting device further includes an input unit for inputting an image document, and a text document extracting unit for extracting a text document from the input image document. The title candidate sentence extracting unit is a title candidate from the extracted text document. A sentence may be extracted. The input means for inputting the image document includes a scanner that optically reads the image document, and extracts text data by OCR or the like from the image document data read by the scanner. Preferably, the title candidate sentence extraction unit extracts title candidate sentences in a certain candidate target range from the top of the text document. This is because a document that can be a title is often included in the top part.
特徴量は、入力された画像文書から得られたレイアウト情報を含むものであってもよい。これらの情報を利用することで、文書タイトルの判定精度が向上する。 The feature amount may include layout information obtained from the input image document. By using these pieces of information, the document title determination accuracy is improved.
本発明に係る文書からタイトルを抽出する方法は、文書から複数のタイトル候補文を抽出するステップと、タイトル候補文と文書中の複数の文との類似度情報を含む特徴量をすべてのタイトル候補文について抽出するステップと、抽出された特徴量に基づき複数のタイトル候補文の中から文書タイトルを判定するステップと、判定結果を出力するステップとを含む。さらに本発明に係る文書からタイトルを抽出するプログラムは、文書から複数のタイトル候補文を抽出するステップと、タイトル候補文と文書中の複数の文との類似度情報を含む特徴量をすべてのタイトル候補文について抽出するステップと、抽出された特徴量に基づき複数のタイトル候補文の中から文書タイトルを判定するステップと、判定結果を出力するステップとを含む。 A method for extracting titles from a document according to the present invention includes a step of extracting a plurality of title candidate sentences from a document, and a feature amount including similarity information between the title candidate sentences and a plurality of sentences in the document. A step of extracting a sentence; a step of determining a document title from a plurality of title candidate sentences based on the extracted feature amount; and a step of outputting a determination result. Furthermore, the program for extracting a title from a document according to the present invention includes a step of extracting a plurality of title candidate sentences from the document, and a feature amount including similarity information between the title candidate sentence and the plurality of sentences in the document. Extracting candidate sentences, determining a document title from a plurality of title candidate sentences based on the extracted feature quantities, and outputting a determination result.
本発明に係る文書タイトル抽出装置によれば、タイトル候補文の各々の特徴量を抽出し、当該特徴量が、タイトル候補文と文書中の複数の文との類似度の関数である類似度情報を含むようにしたので、必ずしも、文書のレイアウト、画像情報と内容範囲に依存することなく、言語知識を十分に活用した柔軟な判定方式で文書タイトルと関連属性を高精度に抽出することが可能である。好ましくは、SVMを使用した抽出する方法を行うことにより、判別ルール適用の不完全性、OCRの誤認識に影響しにくいので、スキャンされたテキスト文書(OCRを実施したテキスト文書)のタイトル及び関連情報の自動抽出に最適である。SVMを使用することにより、学習によって,システムの抽出性能(抽出範囲の拡張,抽出精度)を高めることが可能である。 According to the document title extracting apparatus of the present invention, each feature amount of the title candidate sentence is extracted, and the feature amount is a function of similarity between the title candidate sentence and a plurality of sentences in the document. It is possible to extract document titles and related attributes with high accuracy using a flexible judgment method that fully utilizes language knowledge, without necessarily depending on document layout, image information and content range. It is. Preferably, the extraction method using SVM does not affect the imperfection of discrimination rule application and the misrecognition of OCR, so the title of the scanned text document (text document on which OCR has been performed) and related Ideal for automatic extraction of information. By using SVM, it is possible to improve the extraction performance (extraction range expansion, extraction accuracy) of the system by learning.
以下、本発明の最良の実施形態について図面を参照して説明する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, exemplary embodiments of the invention will be described with reference to the drawings.
図1は、本発明の実施例に係る文書タイトル抽出装置の構成を示す図である。タイトル抽出装置10は、入力装置12、表示装置14、主記憶装置16、記憶装置18、中央処理装置(CPU)20、これらを接続するバス22を含んでいる。
FIG. 1 is a diagram illustrating a configuration of a document title extraction apparatus according to an embodiment of the present invention. The
入力装置12は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取る光学式読取装置(スキャナ)、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置14は、文書から抽出されたタイトルおよびその関連情報等を表示するディスプレイ等を含む。主記憶装置16は、ROMまたはRAMを含み、文書からタイトル候補文を抽出したり、タイトル候補文の特徴量を抽出したり、文書タイトルを判定するためのプログラムや演算処理されたデータ等を記憶する。記憶装置18は、例えばハードディスク等の大容量記憶装置を含み、スキャナによって光学的に読取られた画像文書データや、特徴量の抽出の際に使用される各種辞書データベース等を蓄積する。CPU(Central Processing Unit)20は、主記憶装置16に記憶されたプログラムに従い各部を制御する。
The
図2は、文書テキスト抽出装置を機能的に示したブロックである。文書入力部30は、文書のテキスト文を入力する。テキスト文は、例えば、入力インターフェースを介して受け取られたテキストデータ、または、スキャナにより光学的に読み取られた画像文書データからOCR(文字認識装置)により抽出されたテキストデータであってもよい。勿論、それ以外の手法により得られたものであっても良い。
FIG. 2 is a block diagram functionally showing the document text extraction apparatus. The
タイトル候補文抽出部32は、入力されたテキスト文からタイトルの候補となり得るタイトル候補分を抽出する。タイトル候補文抽出部は、入力されたテキスト文書の先頭から所定の範囲を候補対象範囲とし、候補対象範囲に含まれるテキスト文から、特定の記号および改行記号で切り分けた部分をタイトル候補文とする。
The candidate title
図3は、タイトル候補文抽出部32による動作フローを示している。タイトル候補文抽出部32は、入力文書の先頭からα%の部分と候補対象範囲に設定する(ステップS101)。αは、整数であり、例えば50である。次に、タイトル候補文抽出部は、候補対象範囲に含まれるテキスト文から、記号(;.?!=~@#$%^&*_|\n;。?!…)と改行記号で切り分けた部分をタイトル候補文とする(ステップS102)。最後に、切り分けられたタイトル候補文を集合として記憶装置等に記憶する(ステップS103)。
FIG. 3 shows an operation flow by the title candidate
図4は、日本語を入力文書とする例を示している。同図(a)は、スキャナ等により読取られたテキスト文の入力文書であり、同図(b)は、入力文書の先頭から50%の部分を候補対象範囲として抽出した例であり、同図(c)は、候補対象範囲から記号や改行で切り分けたタイトル候補文の集合を示している。 FIG. 4 shows an example in which Japanese is an input document. FIG. 6A shows an input document of a text sentence read by a scanner or the like, and FIG. 6B shows an example in which a 50% portion from the top of the input document is extracted as a candidate target range. (C) shows a set of title candidate sentences separated from the candidate target range by symbols and line feeds.
再び図2に戻り、抽出されたタイトル候補文は、特徴量抽出部34に供給される。特徴量抽出部34は、タイトル候補文の類似度を判定するための特徴量を、すべてのタイトル候補文から抽出する。特徴量は、図5に示すように、候補文の長さ40、類似度の順位情報41、著者情報42、組織名情報43、タイトルキーワード情報44、著者の位置情報45、タイトル禁用キーワード46、郵便番号47、記号の数48、の9つの要素から構成される。
Returning to FIG. 2 again, the extracted title candidate sentence is supplied to the feature
図6は、特徴量を構成する各部の情報の算出方法を説明する図である。「候補文の長さ」40は、タイトル候補文の長さであり、単位はByteである。例えば、候補文の長さ(Byte)/150(定数)の値で表す。 FIG. 6 is a diagram for explaining a method of calculating information of each unit constituting the feature amount. The “candidate sentence length” 40 is the length of the title candidate sentence, and its unit is Byte. For example, it is represented by the value of the length (Byte) / 150 (constant) of the candidate sentence.
「類似度の順位情報」41は、タイトル候補文と文書中の他の文間の類似度を計算し、類似度が一番高いものを該タイトル候補文の類似度とする。すべでのタイトル候補に対して、類似度の降順でソートし、順位1からMを付ける(Mがタイトル候補文の数)。類似度の順位情報=1/類似度の順位で表される。
The “similarity rank information” 41 calculates the similarity between the title candidate sentence and other sentences in the document, and sets the highest similarity as the similarity of the title candidate sentence. All title candidates are sorted in descending order of similarity, and M is assigned from
類似度は、次の方法により求めることができる。
方法1:タイトル候補文のVSMベクトル特徴量を用いて、文間の類似度(或いは文間の距離)を求める方法。VSMベクトル特徴量は、単語のTF(TF/IDF)、TFとIDFの関数値を用いることができる。また、文字列をNグラムに切り分け、NグラムのTF(TF/IDF)、或いは、TFとIDFの関数値としてもよい。さらに、公開されているベクトル間の類似度、距離の計算方法を用いても良い。
The similarity can be obtained by the following method.
Method 1: A method of obtaining the similarity between sentences (or the distance between sentences) using the VSM vector feature amount of the title candidate sentence. As the VSM vector feature amount, TF (TF / IDF) of a word, or a function value of TF and IDF can be used. Further, the character string may be divided into N-grams, and N-grams of TF (TF / IDF) or function values of TF and IDF may be used. Furthermore, a method for calculating similarity and distance between vectors that are publicly available may be used.
方法2: 文字列間の編集距離で文間の距離を求める方法。
方法3: 2文字列間の最大共通文字列の長さで文間の類似度とを求める方法。
方法4: 他の公開された任意の方法。
本実施例では、後述するように、文字列を2グラムに切り分け、2グラムベクトル特徴量間の類似度を算出する。
Method 2: A method of obtaining a distance between sentences by an edit distance between character strings.
Method 3: A method of obtaining similarity between sentences by the length of the maximum common character string between two character strings.
Method 4: Any other published method.
In this embodiment, as will be described later, the character string is divided into two grams, and the similarity between the two-gram vector feature amounts is calculated.
「著者情報」42は、タイトル候補文に著者を含む場合には、フラグが「1」にセットされ、その他は「0」である。例えば、公開された固有名抽出技術、あるいは人名抽出技術を用いることができる。図7は、電話帳などに掲載されている日本人の名字とその件数を順位で表した名字辞書である。タイトル候補文と図7の名字辞書を比較し、ヒットすれば、フラグを「1」、ヒットしなければ「0」とするようにしてもよい。また、名字辞書と同様に、日本人の名前辞書を用意し、タイトル候補文と名前辞書とを比較し、ヒットすれば、フラグを「1」、ヒットしなければ「0」としてもよい。また、名字と名前の双方がヒットするときのみ、フラグを「1」にセットするようにしてもよい。ヒットするか否かは、文字列が完全一致する場合のみならず、前方一致、後方一致等の部分一致であってもよい。 In the “author information” 42, when the author is included in the title candidate sentence, the flag is set to “1”, and the others are “0”. For example, a publicly-known name extraction technique or a person name extraction technique can be used. FIG. 7 is a surname dictionary showing the surnames and the number of Japanese surnames listed in a telephone directory. If the title candidate sentence and the surname dictionary of FIG. 7 are compared and hit, the flag may be set to “1”, and if not hit, “0” may be set. Similarly to the surname dictionary, a Japanese name dictionary is prepared, the title candidate sentence is compared with the name dictionary, and the flag may be set to “1” if hit and “0” if not hit. Alternatively, the flag may be set to “1” only when both the last name and the name are hit. Whether or not to hit may be a partial match such as a forward match and a backward match as well as a case where the character strings completely match.
「組織名情報」43は、タイトル候補文に組織名情報を含む場合には、フラグが「1」にセットされ、その他は「0」である。例えば、予め組織名を登録した組織名辞書とタイトル候補文とを比較し、組織名がヒットした場合には、フラグを「1」、ヒットしない場合には、「0」とする。ヒットするか否かは、文字列が完全一致する場合のみならず、前方一致、後方一致等の部分一致であってもよい。 In the “organization name information” 43, when the title candidate sentence includes the organization name information, the flag is set to “1”, and the others are “0”. For example, the organization name dictionary in which the organization name is registered in advance and the title candidate sentence are compared. If the organization name is hit, the flag is “1”, and if it is not hit, “0” is set. Whether or not to hit may be a partial match such as a forward match and a backward match as well as a case where the character strings completely match.
「タイトルキーワード情報」44は、タイトル候補文に予め定められたタイトルキーワードが含まれているか否かを示す情報であり、タイトルキーワードの位置とタイトルキーワードが出現した頻度を合計したものである。タイトルキーワードは、例えばタイトルキーワード辞書として登録しておく。「著者の位置情報」45は、タイトル候補文の番号を文書に出現する前後(位置)に大きい順(昇順)で1から付与する。仮に、第i番目のタイトル候補文に始めて著者が出現したとする。番号1から番号i+3のタイトル候補文の「著者の位置情報」=1、その他の候補文の「著者の位置情報」=0となる。 The “title keyword information” 44 is information indicating whether or not a title candidate sentence includes a predetermined title keyword, and is the sum of the position of the title keyword and the frequency of appearance of the title keyword. For example, the title keyword is registered as a title keyword dictionary. The “author position information” 45 is assigned the title candidate sentence numbers from 1 in ascending order (ascending order) before and after (position) appearing in the document. Suppose that an author appears for the first time in the i-th title candidate sentence. “Author author position information” = 1 for the candidate title sentences numbered 1 to i + 3, and “author position information” = 0 for the other candidate sentences.
「タイトル禁用キーワード」46は、タイトル候補文に予め定められたタイトル使用禁止用キーワードが含まれているか否かを示す情報であり、タイトル禁用キーワードの位置とタイトル禁用キーワードが出現した頻度を合計したものである。タイトル禁用キーワードは、タイトルに使用されることがない文字列または使用される可能性が低い文字列を予め辞書に登録し、それに該当するか否かをチェックする。 “Title forbidden keyword” 46 is information indicating whether or not the title candidate sentence includes a predetermined title forbidden keyword, and the position of the title forbidden keyword and the frequency of appearance of the title forbidden keyword are totaled. Is. For the title-prohibited keyword, a character string that is not used in the title or a character string that is unlikely to be used is registered in the dictionary in advance, and it is checked whether or not it corresponds to that.
「郵便番号」47は、連続6桁の数字を郵便番号とする。タイトル候補文に郵便番号を含む場合には、フラグを「1」、その他の場合には「0」とする。「記号の数」48は、タイトル候補文に含まれる、“,”,“.”,“;”の数である。 The “zip code” 47 is a postal code consisting of six consecutive digits. The flag is set to “1” when the postal code is included in the title candidate sentence, and “0” in other cases. The “number of symbols” 48 is the number of “,”, “.”, “;” Included in the title candidate sentence.
なお、候補文類似度用特徴量は、図5に示すように、9個の要素から構成される例を示したが、これに限定されるものではない。タイトル抽出には、少なくても2番目の「類似度順位情報」を含めばよく、「類似度順位情報」と他の情報を適宜組み合わせるようにしてもよい。例えば、「類似度順位情報」と5次元目の「タイトルキーワード情報」を特徴量としたり、あるいは「類似度順位情報」と7次元目の「タイトル禁用キーワード情報」を特徴量としてもよい。勿論、他の言語情報を追加してもよい。例えば、住所の情報等を追加してもよい。さらに、スキャナから読取られた画像文書であれば、文書のレイアウト情報(候補文の位置関係など)や画像情報(文字の大きさ、色、文字の種類など)を得ることができ、これらを特徴量の情報として追加することも可能である。 In addition, as shown in FIG. 5, the candidate sentence similarity feature amount is an example of nine elements, but is not limited thereto. The title extraction may include at least the second “similarity rank information”, and “similarity rank information” and other information may be appropriately combined. For example, “similarity rank information” and the fifth dimension “title keyword information” may be used as the feature quantity, or “similarity rank information” and the seventh dimension “title prohibited keyword information” may be used as the feature quantity. Of course, other language information may be added. For example, address information or the like may be added. Furthermore, if it is an image document read from a scanner, document layout information (such as the positional relationship of candidate sentences) and image information (such as character size, color, and character type) can be obtained. It is also possible to add as quantity information.
再び図2に戻り、特徴量抽出部34により抽出されたすべてのタイトル候補文の特徴量がタイトル判定部36へ供給される。タイトル判定部36は、学習によって構成された判定分類部から構成される.分類部は、公開された任意の分類技術を使用してもよい。例えば、具体例として、SVM(Support Vector Machine)の分類技術を使用することができる。SVMエンジンは、例えば、論文“Support Vector Machine によるテキスト分類”,1998,自然言語処理,128-24等に記載されている。
Returning to FIG. 2 again, the feature amounts of all the title candidate sentences extracted by the feature
タイトル判定部36によりタイトルが抽出されると、その抽出結果が抽出結果出力部38に供給される。抽出結果出力部38は、表示装置14に、抽出されたタイトルを表示させる。同時に、著者等の関連情報も表示するようにしてもよい。
When the title is extracted by the
次に、特徴量の類似度の算出方法について説明する。先ず、タイトル候補文の左から右へすべての連続な2文字の文字列(2グラム)を抽出する。例えば、タイトル候補文が「知的財産権」であれば、「知的」、「的財」、「財産」、「産権」のように2グラムの文字列が切り出される。タイトル候補文の2グラムベクトル特徴量をA=(β1、β2、・・・βN)で表す。文書中の他の文の2グラムベクトル特徴量をB=(β’1、β’2、・・・β’N)で表す。次の公式で、タイトル候補文と文書中の他の文間のすべての類似度sim(A,B)を計算する。 Next, a method for calculating the similarity between feature quantities will be described. First, all continuous two-character strings (2 grams) are extracted from the left to the right of the title candidate sentence. For example, if the title candidate sentence is “intellectual property right”, a character string of 2 grams is cut out such as “intellectual”, “target property”, “property”, and “industry right”. The 2-gram vector feature amount of the title candidate sentence is represented by A = (β1, β2,... ΒN). A 2-gram vector feature amount of another sentence in the document is represented by B = (β′1, β′2,... Β′N). The following formula calculates all similarities sim (A, B) between the title candidate sentence and other sentences in the document.
図8は、2グラムベクトル特徴量を計算するときのフローを示している。タイトル候補文の左から右へすべての連続な2文字の文字列(2グラム)を抽出する(ステップS201)。次に、すべての2グラムの出現頻度#(x)を求める(ステップS202)。次に、使用禁止として2グラムが予め登録された禁用2グラム辞書50を参照し、禁用2グラムが含まれていれば、ベクトル特徴量の次元数を修正する(ステップS203)。最後に、修正後の2グラム頻度#’(x)を用いて、ベクトル特徴量A、Bを生成する(ステップS204)。
FIG. 8 shows a flow when calculating a 2-gram vector feature. All consecutive two-character strings (2 grams) are extracted from the left to the right of the title candidate sentence (step S201). Next, the appearance frequency # (x) of all 2 grams is obtained (step S202). Next, the forbidden 2
図9は、2グラム頻度#’(x)の算出方法を示している。
MI(x,y):2グラムx、yの相互情報量;
#(x)は、2グラムXが本文書に出現した回数;
Nは、すべでの2グラムが出現した回数;
#(x,y) :本文書にXとYが共起する回数;
FIG. 9 shows a method of calculating the 2-gram frequency # ′ (x).
MI (x, y): mutual information of 2 grams x, y;
# (X) is the number of
N is the number of
# (X, y): number of times X and Y co-occur in this document;
このように本実施例の文書タイトル抽出装置は、タイトル候補文から類似度用特徴量を抽出し、その特徴量に基づき文書タイトルを抽出・判定するようにしたので、言語情報と統計ベースの判別基準の融合により、文書タイトルと関連情報を高精度に抽出することが可能である。完全に文書の内容により、タイトルと関連情報を抽出するので、必ずしも、文書のレイアウト、画像情報および内容範囲に依存しない、汎用性の高い文書タイトルを抽出することができる。論文のキーワード情報、概要内容、専門領域の関連情報を必ずしも必須としないので、タイトル抽出範囲は、領域に依存しない。さらに、形態素解析を使用せず、タイトル候補文から選定された2文字のサブ文字列を抽出し、文に存在しているすべての2文字文字列間の相互情報量を該文のベクトルとし、ベクトル間のCos値を文間の類似度とすることにより、OCRの僅かな誤認識がタイトルの判定に影響しにくい特徴があり、スキャンされた画像文書のタイトル抽出に適切である。タイトル候補文の長さ、類似度の順位、著者、組織名、タイトルキーワード、候補文と著者の距離、タイトル禁用キーワード、郵便番号、記号などの情報を該文の特徴量とし、分類装置(例えばSVM)を利用してタイトルであるかどうかを判定することにより、高精度にタイトルを抽出することが可能である。 As described above, the document title extraction apparatus according to the present embodiment extracts the feature amount for similarity from the title candidate sentence, and extracts and determines the document title based on the feature amount. By combining the standards, it is possible to extract the document title and related information with high accuracy. Since the title and related information are extracted completely based on the content of the document, a highly versatile document title that does not necessarily depend on the document layout, image information, and content range can be extracted. The keyword extraction range does not depend on the area because the keyword information of the paper, the outline content, and the related information of the specialized area are not necessarily required. Furthermore, without using morphological analysis, a two-character sub-character string selected from the title candidate sentence is extracted, and the mutual information between all the two-character strings existing in the sentence is used as the vector of the sentence, By making the Cos value between vectors the similarity between sentences, there is a feature that slight misrecognition of OCR hardly affects the determination of the title, which is suitable for extracting the title of the scanned image document. Information such as length of title candidate sentence, ranking of similarity, author, organization name, title keyword, distance between candidate sentence and author, keyword forbidden keyword, zip code, symbol, etc. is used as a feature amount of the sentence, and classification device (for example, It is possible to extract a title with high accuracy by determining whether or not it is a title using SVM).
図10は、本発明の文書タイトル抽出装置の第2の実施例を示しブロック図である。第2の実施例は、図2に示す文書入力部30を変形するものである。画像文書入力部60は画像文書を入力し、入力された画像文書データをレイアウトと画像情報抽出部62へ出力する。入力は、例えばスキャナ等を用いることができる。レイアウトと画像情報抽出部62は、画像文書データから、レイアウト情報と画像情報を抽出する。レイアウト情報は、例えば、タイトル候補文の位置関係などの情報を含み、画像情報は、文字の大きさ、色、字体などの情報を含む。レイアウト情報および画像情報の抽出は、公知の技術を用いることができ、例えば、特開平9−134406号や特開平2000−148788号などに開示されている。
FIG. 10 is a block diagram showing a second embodiment of the document title extracting apparatus of the present invention. In the second embodiment, the
次に、テキスト情報抽出部64は、例えばOCRにより、画像情報からテキスト情報を抽出する。OCRは、公知の技術、あるいは市販されているOCRを使用することができる。抽出されたテキスト情報は、タイトル候補文抽出部32へ供給される。また、第2の実施例では、特徴量抽出部34において、タイトル候補文の特徴量を抽出するに際して、レイアウトと画像情報抽出部62で得られたレイアウト情報と画像情報を含めることができる。
Next, the text
第2の実施例では、画像文書をスキャナ等により読み込み、読み込んだ画像文書から自動的に文書タイトルを抽出することができる。同時に、画像文書データに含まれるレイアウト情報を、タイトル候補文の特徴量に加えることで、文書タイトルの判定精度をより向上させることができる。 In the second embodiment, an image document can be read by a scanner or the like, and a document title can be automatically extracted from the read image document. At the same time, by adding the layout information included in the image document data to the feature amount of the title candidate sentence, it is possible to further improve the document title determination accuracy.
次に、本発明の文書タイトル抽出装置を、中国語文書について実施したときの例を説明する。中国語文書についても、図2に示すように、文書入力部30によりテキスト文書が入力され、タイトル候補文抽出部32により文書中からタイトル候補文が抽出される。特徴量抽出部34は、以下に示すように、中国語の特徴量において、著者名および組織名等において最適化される。
Next, an example when the document title extracting apparatus of the present invention is implemented for a Chinese document will be described. As for a Chinese document, as shown in FIG. 2, a text document is input by the
図11は、中国人の名字用字辞書と名前用字辞書を示している。ここでの方法は、中国人名に限定するものである。著者抽出方法は、中国人名の名字の識別及び名前の識別から構成され、次のような判断基準を用いることができる。 FIG. 11 shows a Chinese name dictionary and a name dictionary. The method here is limited to Chinese names. The author extraction method is composed of Chinese name identification and name identification, and the following criteria can be used.
中国人名は、4文字以上のものが少ないので、タイトル候補文の字列が4文字以上なら、人名ではないと判断する。
中国人名には、2文字の名字が非常に少ないので、タイトル候補文の文字列の先頭2文字が2文字名字であるかどうかを判断する。もし、2文字名字であれば、本候補文字列が名字であると判定することができる。
人名判定値を計算する。まず、出現頻度をもつ中国人名字に出現した文字のリスト表(名字用字辞書と呼ぶ)と名前に出現した文字のリスト表(名前用字辞書と呼ぶ)を用意する。名字用字辞書と名前用字辞書が文字の出現頻度の高い順でソートされている。さらに、名字用字辞書をA、B、Cの3つのグルーブにわける。
Aグルーブ:名字用字辞書に先頭から走査して、出現頻度の累計が全体の95%までに含まれれば、走査した文字の集合をAグループとする。
Bグルーブ:名字用字辞書に先頭から走査して、出現頻度の累計が全体の99%までに含まれれば、走査した文字の集合をBグループとする。
Cグルーブ:名字用字辞書にすべての文字の集合をCグルーブとする。つまり、残りの1%に該当すれば、A、B以外のCグループとなる。
Since there are few Chinese names with more than 4 characters, if the title candidate sentence has 4 or more characters, it is determined that the name is not a person name.
Since there are very few two-letter surnames in Chinese names, it is determined whether the first two characters of the character string of the title candidate sentence are two-letter surnames. If it is a two character surname, it can be determined that the candidate character string is a surname.
Calculate person name judgment value. First, a list table of characters appearing in Chinese surnames having an appearance frequency (referred to as a surname dictionary) and a list of characters appearing in names (referred to as a name dictionary) are prepared. The first character dictionary and the first character dictionary are sorted in the order of appearance frequency. Further, the surname character dictionary is divided into three grooves A, B, and C.
A group: If the cumulative appearance frequency is included in up to 95% of the total of the appearance frequencies scanned from the head in the surname character dictionary, the group of scanned characters is set as the A group.
B-groove: If the cumulative appearance frequency is included in up to 99% of the total of appearance frequencies scanned from the head in the surname character dictionary, the group of scanned characters is set as the B group.
C groove: A set of all characters in the surname character dictionary is defined as a C groove. That is, if it corresponds to the remaining 1%, it becomes a C group other than A and B.
同様に,名前用字辞書をD、E、Fの3つのグルーブに分ける。名字と名前の判定値をそれぞれMとNで表す。
もし、候補文字列の先頭部分がA集合に含む名字であるなら、M=SA;
もし、候補文字列の先頭部分がB集合に含む名字であるなら、M=SB;
もし、候補文字列の先頭部分がC集合に含む名字であるなら、M=SC;
もし、候補文字列の先頭部分がC集合に含む名字でなければ、M=0;
もし、候補文字列の最後部分がD集合に含む名前用字であれば、N=SD;
もし、候補文字列の最後部分がE集合に含む名前用字であれば、N=SE;
もし、候補文字列の最後部分がF集合に含む名前用字であれば、N=SF;
もし、候補文字列の最後部分がF集合に含む名前用字でなければ、N=0;
Similarly, the name character dictionary is divided into three grooves D, E, and F. The judgment values for the last name and the name are represented by M and N, respectively.
If the leading part of the candidate character string is a surname included in the A set, M = SA;
If the leading part of the candidate character string is a surname included in the B set, M = SB;
If the leading part of the candidate character string is a surname included in the C set, M = SC;
If the first part of the candidate character string is not a surname included in the C set, M = 0;
If the last part of the candidate character string is a name character included in the D set, N = SD;
If the last part of the candidate character string is a name character included in the E set, N = SE;
If the last part of the candidate character string is a name character included in the F set, N = SF;
If the last part of the candidate character string is not a name character included in the F set, N = 0;
もし、M+N>閾値であれば、候補文字列が人名と判定される。なお、SA、SB、SC、SD、SE、SFは、定数である。SA>SB>SC、SD>SE>SFの関係がある。 If M + N> threshold, the candidate character string is determined to be a person name. SA, SB, SC, SD, SE, and SF are constants. There is a relationship of SA> SB> SC, SD> SE> SF.
次に、組織名の抽出方法について説明する。ここでは、公開された固有名抽出技術、或いは人名抽出技術を用い、次のような判断基準を用いることができる。 Next, an organization name extraction method will be described. Here, the following criteria can be used by using a publicly-known name extraction technique or a person name extraction technique.
長さ測定。もし、入力された文字列の長さが4文字以下であれば、タイトル候補分は、組織名ではないとし、終了する。
タイトル候補文の文字列が、組織名を含むかどうかをチェックする。図12は、中国語の組織名辞書の一例を示す図である。もし、タイトル候補分が辞書の組織名を含むなら、判定値+Aとする。
タイトル候補文の文字列が、組織の全称であるかどうかを判断する。もし、全称であれば、判定値+Bとする。これも、組織名辞書と照合することにより行われる。
タイトル候補文の文字列が、組織名キーワードを含むかどうかをチェックする。もし、含むなら、判定値+Cとする。これは、文字列の特定の位置(例えが、文尾)に組織名キーワード(例えば,「大学」)が含まれるか否かの照合を行う。
以上により、判定値>閾値を満足すれば,タイトル候補文の文字列を組織名と判定する。なお、A、B、Cは定数である。
Length measurement. If the length of the input character string is 4 characters or less, it is determined that the title candidate is not an organization name, and the process ends.
Check if the text of the title candidate sentence includes the organization name. FIG. 12 is a diagram showing an example of a Chinese organization name dictionary. If the title candidate includes the organization name of the dictionary, the judgment value + A is set.
It is determined whether the character string of the title candidate sentence is the general name of the organization. If it is a generic name, the determination value is + B. This is also done by collating with the organization name dictionary.
It is checked whether the character string of the title candidate sentence includes the organization name keyword. If it is included, the judgment value is + C. This collates whether or not an organization name keyword (for example, “university”) is included in a specific position (for example, the end of a sentence) of a character string.
As described above, if the determination value> the threshold value is satisfied, the character string of the title candidate sentence is determined as the organization name. A, B, and C are constants.
図13は、中国語の2グラムタイトルキーワード辞書と、2グラムタイトル禁用キーワード辞書を示している。タイトル候補文の特徴量のタイトルキーワード情報44およびタイトル禁用キーワード情報46(図5を参照)を抽出するとき、2グラムタイトルキーワード辞書および2グラムタイトル禁用キーワード辞書が参照される。例えば、タイトル禁用キーワードの先頭に示す「本病」は、日本語では、「この病」という意味であり、このような文字列が文書タイトルには使用されないと判定する。
FIG. 13 shows a Chinese 2-gram title keyword dictionary and a 2-gram title prohibited keyword dictionary. When extracting the
次に、中国語のサンプル文書からタイトル候補文を抽出する例を説明する。図14(a)は、中国語のサンプル文書から抽出されたタイトル候補文(カッコ内に日本語の意味を記載)を示している。図14(b)は、これらのタイトル候補文についての特徴量を示している。図中、“:”の前の数字は、特徴量の次元番号(図5に示す特徴量の9つの要素であり、1は、候補文の長さ、2は、類似度の順位情報、3は著者情報、4は組織名情報、5はタイトルキーワード情報、6は著者の位置情報、7はタイトル禁用キーワード情報、8は郵便番号、9は記号の数)を示し、“:”の後ろの数字は対応する次元の値を示している。“#”の後ろの文書は、対応しているタイトル候補文である。 Next, an example in which a title candidate sentence is extracted from a Chinese sample document will be described. FIG. 14A shows a title candidate sentence extracted from a Chinese sample document (the meaning of Japanese is described in parentheses). FIG. 14B shows the feature quantities for these title candidate sentences. In the figure, the number before “:” is the dimension number of the feature quantity (the nine elements of the feature quantity shown in FIG. 5, where 1 is the length of the candidate sentence, 2 is the rank information of similarity, 3 Indicates author information, 4 indicates organization name information, 5 indicates title keyword information, 6 indicates author position information, 7 indicates no-title keyword information, 8 indicates a zip code, and 9 indicates the number of symbols). The numbers indicate the corresponding dimension values. The document after “#” is the corresponding title candidate sentence.
例えば、上から2番目のタイトル候補文では、2次元目の類似度の順位が「1」であり、すなわち、文書の他のタイトル候補文との2グラムベクトルによる類似度が最も高いことを示しおり、5次元目のタイトルキーワード情報が「1」であり、タイトルキーワードが含まれていることを示している。 For example, in the second title candidate sentence from the top, the ranking of the similarity degree in the second dimension is “1”, that is, the degree of similarity by the 2-gram vector with the other title candidate sentences in the document is the highest. The title keyword information of the fifth dimension is “1”, indicating that the title keyword is included.
こうして得られたタイトル候補文の特徴量は、SVMにより分類される。図15は、図14(b)の特徴量を、SVMにより分類したときの結果であり、第1列目の破線で囲んだデータは、正分類境界面までの距離を表している。上記の結果から分かるように、正分類境界面に一番近いものは、“工?段?量工作管理初探”(保線区の計量作業管理の初期検討)であり、この候補文が文書タイトルとして抽出される。 The feature amount of the title candidate sentence obtained in this way is classified by SVM. FIG. 15 shows the results of classifying the feature values of FIG. 14B by SVM, and the data surrounded by the broken line in the first column represents the distance to the primary classification boundary surface. As can be seen from the above results, the one closest to the primary classification boundary surface is “Initial exploration of construction work / quantity work management” (initial examination of track work management in track maintenance area), and this candidate sentence is used as the document title. Extracted.
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 The preferred embodiments of the present invention have been described in detail above. However, the present invention is not limited to the specific embodiments according to the present invention, and various modifications can be made within the scope of the gist of the present invention described in the claims. Deformation / change is possible.
本発明に係る文書タイトル抽出装置は、言語知識を用いた文書情報抽出方法として、種々の言語の文書タイトルの抽出に利用することができる。さらに、紙原稿をコピー感覚でリアルタイムに電子化し、紙原稿のレイアウト、画像情報、内容範囲に依存せず、自動的にインデックスすることが可能となり、従って、汎用なスキャンインデックスシステムに最適である。 The document title extraction apparatus according to the present invention can be used for extracting document titles in various languages as a document information extraction method using language knowledge. Furthermore, it is possible to digitize a paper document in real time as if it were a copy, and to automatically index the paper document without depending on the layout, image information, and content range of the paper document.
10:文書タイトル抽出装置 12:入力装置
14:表示装置 16:主記憶装置
18:記憶装置 20:CPU
30:文書入力部 32:タイトル候補文抽出部
34:特徴量抽出部 36:タイトル判定部
38:抽出結果出力部 60画像文書入力部
62:レイアウトと画像情報抽出部 64:テキスト文書抽出部
10: Document title extraction device 12: Input device 14: Display device 16: Main storage device 18: Storage device 20: CPU
30: Document input unit 32: Title candidate sentence extraction unit 34: Feature amount extraction unit 36: Title determination unit 38: Extraction
Claims (25)
抽出された複数のタイトル候補文の各々の特徴量を抽出する特徴量抽出手段と、
抽出された特徴量に基づき複数のタイトル候補文の中から文書タイトルを判定する判定手段と、
判定結果を出力する出力手段とを含み、
前記特徴量は、少なくとも、タイトル候補文と文書中の複数の文との類似度の関数である類似度情報を含む、文書タイトル抽出装置。 Title candidate sentence extraction means for extracting a plurality of title candidate sentences from a document;
Feature quantity extracting means for extracting the feature quantity of each of the extracted plurality of title candidate sentences;
Determination means for determining a document title from a plurality of title candidate sentences based on the extracted feature amount;
Output means for outputting the determination result,
The document title extracting apparatus, wherein the feature amount includes at least similarity information that is a function of similarity between a title candidate sentence and a plurality of sentences in the document.
文書から複数のタイトル候補文を抽出するステップと、
タイトル候補文と文書中の複数の文との類似度の関数である類似度情報を含む特徴量を、すべてのタイトル候補文について抽出するステップと、
抽出された特徴量に基づき複数のタイトル候補文の中から文書タイトルを判定するステップと、
判定結果を出力するステップとを含む、文書タイトル抽出方法。 A method for extracting a title from a document,
Extracting a plurality of title candidate sentences from the document;
Extracting a feature amount including similarity information, which is a function of similarity between a title candidate sentence and a plurality of sentences in a document, for all title candidate sentences;
Determining a document title from a plurality of title candidate sentences based on the extracted feature values;
A document title extracting method including a step of outputting a determination result.
文書から複数のタイトル候補文を抽出するステップと、
タイトル候補文と文書中の複数の文との類似度の関数である類似度情報を含む特徴量を、すべてのタイトル候補文について抽出するステップと、
抽出された特徴量に基づき複数のタイトル候補文の中から文書タイトルを判定するステップと、
判定結果を出力するステップとを含む、文書タイトル抽出プログラム。 A program for extracting a title from a document,
Extracting a plurality of title candidate sentences from the document;
Extracting a feature amount including similarity information, which is a function of similarity between a title candidate sentence and a plurality of sentences in a document, for all title candidate sentences;
Determining a document title from a plurality of title candidate sentences based on the extracted feature values;
A document title extraction program including a step of outputting a determination result.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005313615A JP2007122403A (en) | 2005-10-28 | 2005-10-28 | Automatic extraction device, extraction method and extraction program for document title and related information |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005313615A JP2007122403A (en) | 2005-10-28 | 2005-10-28 | Automatic extraction device, extraction method and extraction program for document title and related information |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007122403A true JP2007122403A (en) | 2007-05-17 |
Family
ID=38146191
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005313615A Pending JP2007122403A (en) | 2005-10-28 | 2005-10-28 | Automatic extraction device, extraction method and extraction program for document title and related information |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2007122403A (en) |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2009025193A1 (en) * | 2007-08-21 | 2009-02-26 | Nec Corporation | Information sharing system, information sharing method, and information sharing program |
| WO2013108347A1 (en) * | 2012-01-19 | 2013-07-25 | 日本電気株式会社 | Character recognition device, classifying device provided with same, character recognition method and control program |
| JP2014029713A (en) * | 2007-12-31 | 2014-02-13 | Mastercard International Inc | Method and system for implementing approximate string matching within database |
| EP2779613A1 (en) | 2013-03-12 | 2014-09-17 | Ricoh Company, Ltd. | Document processing apparatus, document processing method, and document processing computer program product |
| EP2682881A3 (en) * | 2012-07-05 | 2016-10-26 | Ricoh Company, Ltd. | Document Processing Apparatus, Image Processing Apparatus, Document Processing Method, and Medium |
| CN109840519A (en) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | A kind of adaptive intelligent form recognition input device and its application method |
| CN110414000A (en) * | 2019-07-18 | 2019-11-05 | 达而观信息科技(上海)有限公司 | A kind of keyword extracting method and system based on template document comparison |
| CN111444751A (en) * | 2019-01-17 | 2020-07-24 | 富士施乐株式会社 | Information processing apparatus, storage medium, and information processing method |
| CN111460267A (en) * | 2020-04-01 | 2020-07-28 | 腾讯科技(深圳)有限公司 | Object identification method, device and system |
| CN113469067A (en) * | 2021-07-05 | 2021-10-01 | 北京市商汤科技开发有限公司 | Document analysis method and device, computer equipment and storage medium |
| CN116227477A (en) * | 2023-04-14 | 2023-06-06 | 苏州空天信息研究院 | An Extraction-Based Method for Automatically Generating News Headlines of Topic Clusters |
| JP2023088441A (en) * | 2021-12-15 | 2023-06-27 | 株式会社ミロク情報サービス | Data processing device, data processing method and program |
| CN111832258B (en) * | 2020-06-02 | 2024-07-02 | 北京百度网讯科技有限公司 | Document segmentation method and device and electronic equipment |
| CN118520504A (en) * | 2024-07-19 | 2024-08-20 | 泰安市东信智联信息科技有限公司 | Intelligent office system-oriented document desensitization storage method |
-
2005
- 2005-10-28 JP JP2005313615A patent/JP2007122403A/en active Pending
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5229226B2 (en) * | 2007-08-21 | 2013-07-03 | 日本電気株式会社 | Information sharing system, information sharing method, and information sharing program |
| WO2009025193A1 (en) * | 2007-08-21 | 2009-02-26 | Nec Corporation | Information sharing system, information sharing method, and information sharing program |
| JP2014029713A (en) * | 2007-12-31 | 2014-02-13 | Mastercard International Inc | Method and system for implementing approximate string matching within database |
| WO2013108347A1 (en) * | 2012-01-19 | 2013-07-25 | 日本電気株式会社 | Character recognition device, classifying device provided with same, character recognition method and control program |
| EP2682881A3 (en) * | 2012-07-05 | 2016-10-26 | Ricoh Company, Ltd. | Document Processing Apparatus, Image Processing Apparatus, Document Processing Method, and Medium |
| EP2779613A1 (en) | 2013-03-12 | 2014-09-17 | Ricoh Company, Ltd. | Document processing apparatus, document processing method, and document processing computer program product |
| CN111444751A (en) * | 2019-01-17 | 2020-07-24 | 富士施乐株式会社 | Information processing apparatus, storage medium, and information processing method |
| CN111444751B (en) * | 2019-01-17 | 2024-01-05 | 富士胶片商业创新有限公司 | Information processing apparatus, storage medium, and information processing method |
| CN109840519A (en) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | A kind of adaptive intelligent form recognition input device and its application method |
| CN109840519B (en) * | 2019-01-25 | 2023-05-05 | 青岛盈智科技有限公司 | Self-adaptive intelligent bill identification and input device and application method thereof |
| CN110414000A (en) * | 2019-07-18 | 2019-11-05 | 达而观信息科技(上海)有限公司 | A kind of keyword extracting method and system based on template document comparison |
| CN110414000B (en) * | 2019-07-18 | 2022-12-20 | 达而观信息科技(上海)有限公司 | Keyword extraction method and system based on template document comparison |
| CN111460267A (en) * | 2020-04-01 | 2020-07-28 | 腾讯科技(深圳)有限公司 | Object identification method, device and system |
| CN111460267B (en) * | 2020-04-01 | 2023-04-07 | 腾讯科技(深圳)有限公司 | Object identification method, device and system |
| CN111832258B (en) * | 2020-06-02 | 2024-07-02 | 北京百度网讯科技有限公司 | Document segmentation method and device and electronic equipment |
| CN113469067A (en) * | 2021-07-05 | 2021-10-01 | 北京市商汤科技开发有限公司 | Document analysis method and device, computer equipment and storage medium |
| CN113469067B (en) * | 2021-07-05 | 2024-04-16 | 北京市商汤科技开发有限公司 | Document parsing method, device, computer equipment and storage medium |
| JP2023088441A (en) * | 2021-12-15 | 2023-06-27 | 株式会社ミロク情報サービス | Data processing device, data processing method and program |
| CN116227477A (en) * | 2023-04-14 | 2023-06-06 | 苏州空天信息研究院 | An Extraction-Based Method for Automatically Generating News Headlines of Topic Clusters |
| CN118520504A (en) * | 2024-07-19 | 2024-08-20 | 泰安市东信智联信息科技有限公司 | Intelligent office system-oriented document desensitization storage method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0844583B1 (en) | Method and apparatus for character recognition | |
| JP2973944B2 (en) | Document processing apparatus and document processing method | |
| JP3292388B2 (en) | Method and apparatus for summarizing a document without decoding the document image | |
| El et al. | Authorship analysis studies: A survey | |
| JP3289968B2 (en) | Apparatus and method for electronic document processing | |
| Mao et al. | Document structure analysis algorithms: a literature survey | |
| US7756871B2 (en) | Article extraction | |
| Choudhury et al. | Figure metadata extraction from digital documents | |
| JP5716328B2 (en) | Information processing apparatus, information processing method, and information processing program | |
| Fernández-Mota et al. | Bh2m: The barcelona historical, handwritten marriages database | |
| JP3452774B2 (en) | Character recognition method | |
| JPH0797373B2 (en) | Document matching system | |
| KR20010093764A (en) | Retrieval of cursive chinese handwritten annotations based on radical model | |
| JP7493937B2 (en) | Method, program and system for identifying a sequence of headings in a document | |
| JP2007122403A (en) | Automatic extraction device, extraction method and extraction program for document title and related information | |
| JP2008225695A (en) | Character recognition error correction device and program | |
| JP2008129793A (en) | Document processing system, apparatus and method, and recording medium recording program | |
| CN113330430A (en) | Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program | |
| CN100444194C (en) | Automatic extraction device, method and program of essay title and correlation information | |
| Arvanitopoulos et al. | A handwritten french dataset for word spotting: CFRAMUZ | |
| JPH10198683A (en) | Document image classification method | |
| JP5289032B2 (en) | Document search device | |
| JP2009020567A (en) | Document search device | |
| Meshesha | Recognition and retrieval from document image collections | |
| JP2560656B2 (en) | Document filing system |