JP2010061587A

JP2010061587A - 類似文書判定装置、類似判定方法およびそのプログラム

Info

Publication number: JP2010061587A
Application number: JP2008229104A
Authority: JP
Inventors: Masakazu Hasegawa; 雅一長谷川; Mitsuaki Tsunakawa; 光明綱川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2008-09-05
Filing date: 2008-09-05
Publication date: 2010-03-18

Abstract

【課題】パワーポイント等の文書データ同士の類似判定を容易に行う。
【解決手段】類似判定装置は、文書データの文書タイトル、頁タイトル、頁テキストに着目し、文書データ同士の類似判定を行う。このとき、類似判定装置は、文書データ同士で同じ文書タイトルを持つか否か、同じ頁タイトルの頁数の割合、同じ頁テキストの割合を判断し、この判断結果に基づきどのような類似パターンの類似文書データかを判定する。この判定結果は、類似文書情報に記録し、類似文書データの検索処理に用いる。
【選択図】図１

Description

本発明は、類似文書データの検索技術に関する。

従来、ある文書データについて、その文書データのもととなった文書データを検索する方法としては、以下のような方法がある。（１）ＣＳＶ（Concurrent Versions System)等を用いて、その文書データもととなった文書データを検索する方法（非特許文献１参照）。（２）ＳＧＭＬ（Standard Generalized Mark-up Language）やＸＭＬ（Extensible Markup Language）等の構造化文書に含まれるタグを用いて、当該文書データの類似文書データを検索する方法（非特許文献２参照）。また、このような類似文書データの検索技術としては、文書データ内の単語の出現頻度を用いる方法がある（非特許文献３参照）。
ＣＳＶ（Concurrent Versions System)、[online]、[平成20年7月30日検索]、インターネット、<URL:http://www.linkclub.or.jp/~tumibito/soft-an/cvs/cvs-man/cvs-ja_1.html#SEC1> 富田他、構造化文書をランキング可能な全文検索システム、電子情報通信学会技術研究報告2000-DBS-122、P361-368、電子情報通信学会、2000年7月帆足他、文書間の類似度における単語寄与度を利用した検索式拡張方法、情報処理学会論文誌 vol.40 No.SIG8（TOD4）、P63-73、1999年11月

ここで、パワーポイント（登録商標）等のプレゼンテーションソフトで作成され、文書タイトルや、頁タイトルや、頁テキストといった構造を持つ文書データについて、その文書データのもととなった文書データ（派生元の文書データ）を検索したいというニーズがある。しかし、非特許文献１に記載のＣＳＶにより、パワーポイント（登録商標）等の文書データを検索するためには、予めＣＳＶで文書データを作成することが前提となる。また、非特許文献２に記載の技術を用いる場合、パワーポイント（登録商標）等の文書データを、いったんＸＭＬ等の構造化文書に変換しなければならず、また各文書データに用いられるタグの共通化も必要である。さらに、非特許文献３に記載の技術は、パワーポイント（登録商標）等、必ずしも多くの単語が登場するとは限らない文書データの検索には不向きである。そこで、本発明は、前記した問題を解決し、パワーポイント（登録商標）等の文書データについて、文書データ同士の類似判定を容易にし、その文書データのもととなったと文書データの検索を容易に行うことを目的とする。

前記した課題を解決するため、類似文書判定装置は、入力部経由で１以上の文書データの入力を受け付けると、文書解析部により文書データから、文書タイトル、頁タイトル、頁テキストを抽出して、その文書データの文書解析情報を作成する。そして、新たな文書データ（比較対象となる文書データ）の入力を受け付けると、文書解析部は、この文書データについても、文書タイトル、頁タイトル、頁テキストを抽出し、判定部は、この文書タイトル、頁タイトル、頁テキストに着目した類似判定を行う。つまり、判定部は、文書解析情報に示される文書データが、（１）この新たな文書データの文書タイトルと同じ文書タイトルか否か、（２）この新たな文書データの頁タイトルと同じ頁タイトルの頁数の割合、（３）この新たな文書データの頁テキストと同じ頁テキストの割合の、いずれかまたはその組み合わせからなる類似パターンに基づき、いずれかの類似パターンにあてはまる類似文書データか否かを判定する。そして、判定部はいずれかの類似パターンにあてはまる類似文書データと判定したとき、その類似パターンを含む判定結果を出力する。このように類似文書判定装置は、文書タイトル、頁タイトル、頁テキストに着目した類似判定を行うことで、文書データをＸＭＬ等の構造化文書に変換しないでも、文書データ同士が類似しているか否かを判定できる。

また、この類似文書判定装置の文書解析部は、入力された文書データの最初の頁タイトルをこの文書データの文書タイトルとして抽出する。よって、文書データに文書タイトルという属性をもつコンテンツがない場合でも、文書タイトルを抽出し、文書解析情報を作成できる。

また、この類似文書判定装置の文書解析部は、入力された文書データの最初の頁の頁タイトルがなかった場合、この文書データの最初の頁の頁テキストを、この文書データの文書タイトルとして抽出し、文書解析情報を作成できる。よって、この文書解析情報には、文書タイトルが含まれる可能性が高くなるので、判定部は、この文書解析情報に含まれる文書タイトルを用いて文書データ同士の類似判定を行いやすくなる。

また、この類似文書判定装置の文書解析部は、文書データに頁タイトルのない頁があった場合、この頁の頁テキストを、頁タイトルとして抽出し、文書解析情報を作成する。よって、この文書解析情報には、頁タイトルが含まれる可能性が高くなるので、判定部は、この文書解析情報に含まれる頁タイトルを用いて文書データ同士の類似判定を行いやすくなる。

また、この類似文書判定装置の類似文書情報作成部は、判定部による判定結果に基づき、入力された文書データの識別情報ごとに、類似パターンの識別情報と、この類似パターンにあてはまる類似文書データの識別情報とを対応付けて示した類似文書情報を作成し、記憶部に記憶する。このようにすることで、類似文書検索部が、類似パターンの識別情報および文書データの識別情報の少なくとも一方を含んでなる検索条件を示した検索要求の入力を受け付けたとき、この検索条件を満たす文書データおよびその類似文書データの組を類似文書情報から検索することができる。そして、表示処理部によりこの検索結果を表示するので、この類似文書判定装置のユーザは、所定の類似パターンにあてはまる文書データ（類似文書データ）群や、所定の文書データについて類似パターンにあてはまる文書データ（類似文書データ）群を確認することができる。

また、類似文書判定装置の並べ替え処理部は、文書解析情報に示される文書データの最終編集日時を参照して、類似文書情報から検索した文書データおよびその類似文書データの組を、その組における類似文書データの最終編集日時の古い順または新しい順に並べ替え、検索した文書データおよびその類似文書データの組のうち、同じ類似文書データに対し、その対となる文書データの異なる組が複数ある場合、その組を、その組における文書データの最終編集日時の古い順または新しい順に並べ替える。例えば、類似文書データについて、最終編集日時が古い順に並べ替え、その類似文書データと対（ペア）になる文書データについても最終編集日時が古い順に並べ替えることで、表示処理部は、派生元の文書データから派生した文書データ群について、その派生元の文書データから派生した順に近い状態で表示することができる。つまり、この類似文書判定装置のユーザは、文書データ群の文書データそれぞれについて、その派生元の文書データからどのような順に派生したかを確認しやすくなる。

また、類似文書判定装置の文書解析部は、１以上の文書データを記憶する文書蓄積部から文書データを選択し、その選択した文書データの文書タイトルと、この文書データにおける頁ごとの、頁タイトルおよび頁テキストとを抽出し、判定部は、この選択した文書データと、既に記憶部に記憶された文書解析情報に示される文書データとの類似判定を行い、類似文書情報作成部により類似文書情報を作成する。そして、文書解析部は、この類似文書情報作成済みの文書データについて文書解析情報を作成し、記憶部に記憶する。このようにすることで、類似文書判定装置は、文書データの類似判定をしながら文書解析情報を作成することができる。

また、類似文書判定装置の文書解析部は、文書蓄積部に記憶された文書データを、その最終編集日時の古い順に選択し、その選択した文書データの文書タイトルと、この文書データにおける頁ごとの、頁タイトルおよび頁テキストとを抽出する。よって、判定部は、最終編集日時が古い文書データから順に、既に記憶部に記憶された文書解析情報と対比して類似文書情報が作成されることになる。類似文書判定装置は、古い文書データを処理している段階では、まだ記憶部に文書解析情報が多数記憶されていないので、判定部は少数の文書解析情報と対比して類似文書情報を作成する。一方、新しい文書データを処理するようになると、記憶部にも文書解析情報が多数記憶されているので、判定部は多数の文書解析情報と対比して類似文書情報を作成することになる。ここで、文書蓄積部に蓄積される文書データ群が、ある文書データを派生元として派生した文書データ群であるとすると、その大元となった文書データ（最も古い文書データ）の類似文書データ自体の数は比較的少なく、また、新しい文書データについては類似文書データの数は比較的多いと考えられる。よって、判定部は、実際に派生関係にあると思われる文書データ同士について効率よく類似判定を行うことができる。また、並べ替え処理部は、類似文書情報から検索した文書データおよびその類似文書データの組を、その組における類似文書データの最終編集日時が古い順に並べ替え、検索した文書データおよびその類似文書データの組のうち、同じ類似文書データに対し、その対となる文書データの異なる組が複数ある場合、その組を、その組における文書データの最終編集日時の古い順に並べ替える。よって、この類似文書判定装置のユーザは、文書データ群の文書データそれぞれについて、その派生元の文書データからどのような順に派生したかを確認しやすくなる。

本発明によれば、パワーポイント（登録商標）等の文書データについて、文書データ同士の類似判定を容易にし、その文書データのもととなった文書データの検索を容易に行うことができる

＜概要＞
以下、本発明を実施するための最良の形態（以下、実施の形態という）について説明する。まず、本実施の形態の類似文書判定装置の処理概要を、図１および図２を用いて説明する。図１および図２は、本実施の形態の類似文書判定装置の処理概要を示した概念図である。

ここで、類似文書判定装置が扱う文書データは、例えば、パワーポイント（登録商標）等で作成された文書データであり、文書タイトル、各頁の頁タイトル、頁テキスト等のコンテンツを含んで構成されるものとする。なお、このコンテンツには図形等も含まれている可能性があるが、この図形のコンテンツには着目せず、テキスト情報からなるコンテンツに着目して類似判定を行う。なお、これらのコンテンツが、文書タイトル、頁タイトル、頁テキストのいずれの属性に属するものかは、それぞれのコンテンツに付されている属性情報をもとに判定される。

そして、この類似文書判定装置は、文書データおよびその文書データとの類似判定の対象となる文書データそれぞれの文書タイトル、頁タイトル、頁テキスト等を抽出する。そして、類似文書判定装置は、この文書タイトル、頁タイトル、頁テキストに着目して、それぞれの文書データがどの程度類似しているかを判定する。例えば、類似文書判定装置は、図１の文書データＡの文書タイトルが、文書データＢの文書タイトルと同じか否かを判定する。また、文書データＢに、文書データＡの頁タイトルと同じ頁タイトルが含まれているか、また同じ頁タイトルが含まれている場合、その割合が所定の閾値以上か否かを判定する。また、文書データＢに、文書データＡの頁テキストと同じ頁テキストが含まれているか、また、同じ頁テキストが含まれている場合、その割合が所定の閾値以上か否かを判定する。なお、これらの類似判定において、対比の対象とする頁は、それぞれの文書データの同じ頁同士でなくてもよい。つまり、その文書データ全体のいずれかの頁に同じ頁タイトルや頁テキストが含まれていればよいものとする。ここでの、類似判定結果は、その類似パターンの識別情報（類似パターン識別子）とともに、類似文書情報（後記）に記録される。この類似文書情報の詳細は後記するが、類似パターンの識別子をキーとした類似文書データの検索処理に用いられる情報である。

なお、この類似文書判定装置は、文書データの文書タイトル、各頁の頁タイトルや頁テキスト等を抽出するとき、以下のようにして抽出する。つまり、図２に示すように、類似文書判定装置は、文書タイトルについては、その文書データの最初の頁（０頁目）の最初の頁タイトルを文書タイトルとして抽出する。また、文書データから、頁タイトルを抽出する場合、その頁に頁タイトルがあれば、その頁タイトルをそのまま頁タイトルとして抽出する。しかし、もしその頁に頁タイトルがないときには、その頁の最初の頁テキストを頁タイトルとして抽出する。このように、文書データから、文書タイトルと推定できる情報を抽出し、また、頁タイトル等を含まない頁については、頁タイトルと見なせる情報を抽出するので、文書データの文書タイトル、頁タイトルを確実に抽出できる。よって、類似文書判定装置は、文書データ同士の類似判定を行いやすくなる。

＜構成＞
次に、図３を用いて、このような類似文書判定装置の構成を説明する。図３は、本実施の形態の類似文書判定装置の構成を示したブロック図である。

類似文書判定装置１０は、大きく入出力部１１と、処理部１２と、記憶部１３とに分けられる。入出力部１１は、この処理部１２における処理対象となる文書データの入力を受け付けたり、この処理部１２による処理結果を示す表示画面等を表示装置２０等へ出力したりする。処理部１２は、文書データから文書タイトルや頁タイトル、頁テキストを抽出したり、類似パターン情報（後記）を参照して、文書データ同士の類似判定を行ったりする。記憶部１３は、処理部１２が文書データの類似判定を行うときに参照する情報や、その類似判定結果である類似文書情報（後記）等を記憶する。なお、類似文書判定装置１０をプログラム実行処理により実現する場合、記憶部１３には、この類似文書判定装置１０の機能を実現するためのプログラムが格納される。

入出力部１１は、入出力インタフェースから構成される。また、処理部１２は、この類似文書判定装置１０の備えるＣＰＵ（Central Processing Unit）によるプログラム実行処理や、専用回路等により実現される。さらに、記憶部１３は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等の記憶媒体から構成される。

入出力部１１は、この類似文書判定装置１０における処理対象となる文書データの入力を受け付けたり、処理部１２による処理結果を外部へ出力したりする。例えば、処理部１２による処理結果を表示した表示画面を表示装置２０へ出力表示する。

処理部１２は、文書解析部１２１と、判定部１２２と、類似文書情報作成部１２３と、類似文書検索部１２４と、並べ替え処理部１２５と、表示処理部１２６とを含んで構成される。

文書解析部１２１は、入力された文書データの文書解析情報を作成する。つまり、文書解析部１２１は、文書データに含まれる各コンテンツの属性情報から、各コンテンツが文書タイトル、頁タイトル、頁テキストのいずれを示すものか判定する。そして、その判定結果に基づき、この文書データのコンテンツを、文書タイトル、頁タイトルおよび頁テキストのいずれかとして抽出する。図２で説明したように、文書解析部１２１は、文書データの最初の頁（０頁目）のコンテンツのうち、属性が頁タイトルであるコンテンツを文書タイトルとして抽出する。また、文書データの、２番目の頁（１頁目）以降の頁から、頁タイトルを抽出するとき、その頁に属性が頁タイトルであるコンテンツがあれば、文書解析部１２１は、そのコンテンツを頁タイトルとして抽出するが、もしその頁に、属性が頁タイトルであるコンテンツがないとき、その頁の最初の頁テキスト（属性が頁テキストであるコンテンツ）を頁タイトルとして抽出する。このときの処理手順の詳細は後記する。なお、この文書解析部１２１は、これらのコンテンツのほか、文書データの最終編集日時に関する情報等も抽出する。

判定部１２２は、類似パターン情報記憶部１３３（後記）に記憶される類似パターン情報を参照して、ある文書データ（選択文書データ）と、その文書データの比較対象となる文書データ（比較対象文書データ）の類似パターンを判定する。具体的には、判定部１２２は、文書解析情報に示される文書データが、類似パターン情報に示されるいずれかの類似パターンにあてはまる類似文書データか否かを判定する。そして、当該文書データがいずれかの類似パターンにあてはまる文書データ（類似文書データ）と判定したとき、その類似パターンを含む判定結果を出力する。なお、判定部１２２は、類似パターン情報に示されるいずれの類似パターンにもあてはまらない文書データについては、この選択文書データの類似文書データと判定しない。

例えば、判定部１２２は、比較対象文書データの文書タイトルが、選択文書データの文書タイトルと同じか否かを判定する。また、その比較対象文書データが、選択文書データの頁タイトルと同じ頁タイトルの頁数を持つ割合がどの程度かを判定する。そして、その文書データと、比較対象文書データの文書タイトルが同じであれば、その比較対象文書データの類似パターンを「１」と判定する。また、選択文書データと、その比較対象文書データの頁タイトルと同じ頁タイトルの頁数の割合が、所定の閾値以上であれば、その比較対象文書データの類似パターンを「２」と判定する。また、その比較対象文書データが類似パターン情報に示されるいずれの類似パターンにもあてはまらなかった場合、この選択文書データの類似文書データと判定しない。そして、判定部１２２はその判定結果を出力する。

類似文書情報作成部１２３は、判定部１２２が判定した判定結果に基づき、比較対象文書データの文書識別子（識別情報）と、判定された類似パターンと、この類似パターンにあてはまる文書データ（類似文書データ）の文書識別子（類似文書識別子）とを対応付けた類似文書情報を作成する。この類似文書情報の詳細は後記する。

類似文書検索部１２４は、入出力部１１経由で、類似パターンの識別情報の入力を受け付けたとき、類似文書情報から、この入力された識別情報の類似パターンにあてはまる１以上の文書データおよびその類似文書データの識別子の組を検索する。例えば、類似文書検索部１２４は、類似文書情報から、類似パターン「１」にあてはまる文書データおよびその文書データの類似文書データの文書識別子を検索する。

並べ替え処理部１２５は、類似文書情報から検索した文書データおよびその類似文書データの組を、所定の順序で並べ替える。例えば、並べ替え処理部１２５は、この文書データおよびその類似文書データの組について、その組の類似文書データの最終編集日時の古い順に並べ替える。

表示処理部１２６は、類似文書検索部１２４により検索された検索結果や、並べ替え処理部１２５により並べ替えられた、前記検索結果を示した表示画面を表示装置２０等に表示する。

記憶部１３は、所定領域に、文書蓄積部１３１と、文書解析情報記憶部１３２と、類似パターン情報記憶部１３３と、類似文書情報記憶部１３４とを備える。

文書蓄積部１３１は、入出力部１１から入力された１以上の文書データを記憶する。

文書解析情報記憶部１３２は、文書解析部１２１により作成された文書解析情報を記憶する。この文書解析情報は、文書データの文書識別子、文書タイトル、頁タイトル、頁テキストを示した情報である。図４は、図３の文書解析情報を例示した図である。図４に示すように、この文書解析情報は、例えば、文書データの文書タイトル等を示した文書ファイル情報と、文書データの各頁の頁タイトルを示した頁タイトル情報と、文書データの各頁の頁テキストを示した頁テキスト情報とを含んで構成される。このうち、文書ファイル情報は、文書データの文書識別子ごとに、その文書データから抽出された文書タイトル、最終編集日時等を示した情報である。この文書ファイル情報は、この文書データの文書ファイル名、格納フォルダ名等の情報をさらに含んでいてもよい。この頁タイトル情報には、文書識別子と、頁識別子と、その頁の頁タイトルとが示される。また、頁テキスト情報は、文書識別子と、頁識別子と、その頁の頁テキストとが示される。なお、この文書ファイル情報と、頁タイトル情報と、頁テキスト情報とをまとめて１つの情報としてもよい。

図３の類似パターン情報記憶部１３３は、類似パターン情報を記憶する。この類似パターン情報は、以下の表１に例示するように、類似パターン識別子ごとに、比較対象文書データがその類似パターンにあてはまると判定するための条件を示した情報である。この類似パターン情報は、比較対象文書データがその類似パターンにあてはまるとか否かを判定するときに、頁数の閾値や頁テキスト数の閾値を用いる場合、その閾値に関する情報も含む。例えば、表１に示す類似パターン情報において、類似パターン識別子「１」は、文書データ同士の文書タイトルが同じという条件を示す。また、類似パターン識別子「２」は、その比較対象文書データに、その選択文書データの頁タイトルと同じ頁タイトルが含まれる頁数の割合が、７５％以上という条件を示す。さらに、類似パターン識別子「３」は、その比較対象文書データに、その選択文書データの頁テキストと同じ頁テキストを含む割合が５０％以上である頁数をカウントし、その頁数が、その比較対象文書データ全体の頁数の７５％以上という条件を示す。なお、この類似パターン情報は、入出力部１１経由で設定されるものとする。

類似文書情報記憶部１３４は、類似文書情報を記憶する。この類似文書情報は、表２に示すように文書データ（選択文書データ）の文書識別子ごとに、類似パターン識別子と、その識別子の類似パターンにあてはまる類似文書データの文書識別子（類似文書識別子）とを示す情報である。この類似文書情報は、この類似パターンにあてはまる選択文書データの頁数をさらに含んでいてもよい。この類似文書情報は、類似文書検索部１２４が類似文書データを検索するときのインデクスとして用いられる。

＜処理手順＞
次に、この類似文書判定装置１０の処理手順を、フローチャートを用いて説明する。まず、図５を用いて、類似文書判定装置１０が、文書解析情報および類似文書情報を作成する手順を説明する。図５は、図３の類似文書判定装置の処理手順を示したフローチャートである。

まず、類似文書判定装置１０は、入出力部１１経由で文書データの入力を受け付けると、この受け付けた文書データを文書蓄積部１３１に蓄積する（Ｓ１）。そして、文書解析部１２１は、その文書蓄積部１３１に蓄積された文書データ群について、その文書データの最終編集日時順に並べ替え（Ｓ２）、その文書データの最終編集日時の最も古い文書データをセット（選択）する（Ｓ３）。

次に、文書解析部１２１は、セットした文書データから、頁タイトルと頁テキストを抽出する（Ｓ４）。そして、文書解析部１２１は、Ｓ４で抽出した頁タイトルと頁テキストを用いて、この文書データに関する文書解析情報（図４参照）を作成する（Ｓ５）。そして、文書解析情報を文書解析情報記憶部１３２に記憶する。この文書解析情報の作成手順の詳細は後記する。

次に、判定部１２２は、選択された文書データについて、既に文書解析情報記憶部１３２に文書解析情報が登録されている文書データとの類似判定を行う（Ｓ６）。この類似判定処理の詳細についても後記する。文書解析部１２１は、Ｓ３でセットされた文書データの類似判定後、この文書データの文書解析情報を文書解析情報記憶部１３２に格納する。

なお、文書解析部１２１が、Ｓ３で最終編集日時の最も古い文書データをセットしたとき、文書解析情報記憶部１３２にはまだ文書解析情報が格納されていないので、Ｓ６の処理は行わず、作成した文書解析情報をそのまま文書解析情報記憶部１３２に格納する。

Ｓ６の後、文書蓄積部１３１のすべての文書データの処理が終わっていなければ（Ｓ７のＮｏ）、文書解析部１２１は、Ｓ２で並べ替えた文書データ群から、次に最終編集日時の古い文書データをセットし（Ｓ８）、Ｓ４へ戻る。一方、文書蓄積部１３１のすべての文書データの処理が終わっていれば（Ｓ７のＹｅｓ）、処理を終了する。

なお、このように、類似判定装置１０が文書蓄積部１３１に蓄積される文書データの最終編集日時が古いものから順に選択し、文書解析情報に示される文書データとの類似判定を行うことで、派生関係にある可能性が高い文書データの類似文書情報を効率よく作成できる。例えば、この文書蓄積部１３１に、大元（おおもと）となる、ある文書データから派生した複数の文書データが蓄積されている場合、この大元となる文書データの最終編集日時が最も古いと考えられる。そして、この文書データからの文書データの派生順は、最終編集日時が古いものから順に時系列に並べたものに近くなる。よって、この文書蓄積部１３１に蓄積されている文書データすべての組み合わせについて、類似判定を行い、類似文書情報を作成するよりも、実際に派生関係になっている可能性が高い（類似している）文書データに関する類似文書情報を効率よく作成することができる。

次に、図３、図５、図６を参照しつつ、図７を用いて、Ｓ５に示した文書解析情報作成処理を説明する。図６は、本実施の形態の文書データの構造例を示した図である。図７は、図５の文書解析情報作成処理の詳細を示したフローチャートである。ここでは、類似文書判定装置１０の文書解析部１２１が文書データから文書タイトルを生成する。また、図５のＳ４で、文書解析部１２１が、頁タイトルを抽出できなかったとき、この頁タイトルを生成する。なお、以下の説明において、文書データにおける頁番号は、図６に示すように文書データの最初の頁から「０，…，Ｎ」という順に振られた番号とする。また、頁テキスト番号は、その文書データの頁ごとに、その頁内の例えば、一番の上に位置するコンテンツ（テキストボックス）から順に「０，１，…，Ｎ」という順に振られた番号とする。但し、文書データの最初の頁における最初の頁テキスト番号は、他の頁の最初の頁テキストと区別するため「−１」から始まる番号とする。

まず、図３の類似文書判定装置１０の文書解析部１２１は、図５のＳ３またはＳ８でセットした文書データの開始頁番号を０とする（Ｓ１１）。また、開始頁テキスト番号（開始頁の頁テキスト番号）を−１とする（Ｓ１２）。

そして、文書解析部１２１は、この頁に頁タイトルがあり（Ｓ１３のＹｅｓ）、かつ、頁番号が０であれば（Ｓ１６のＹｅｓ）、処理対象のコンテンツをこの文書データの文書タイトルとして抽出する（Ｓ１７）。また、このコンテンツをこの頁の頁タイトルとして抽出する（Ｓ１８）。つまり、文書データの最初の頁の頁タイトルを文書タイトルとして抽出する。

一方、文書解析部１２１は、この頁に頁タイトルはあるが（Ｓ１３のＹｅｓ）、頁番号が０でなければ（Ｓ１６のＮｏ）、つまり、最初の頁でなければ、このコンテンツをこの頁の頁タイトルとして抽出する（Ｓ１８）。ここで抽出した文書タイトルや頁タイトルは、文書解析情報の文書ファイル情報や、頁タイトル情報等に蓄積される。

そして、このコンテンツの頁テキスト番号＝０であれば（Ｓ１９のＹｅｓ）、文書解析部１２１は、このコンテンツを当該頁の頁テキストとして抽出する（Ｓ２０）。抽出した頁テキストは、文書解析部１２１が、この文書データに関する文書解析情報の頁テキスト情報（図４参照）等に蓄積していく。

一方、文書解析部１２１は、この頁に頁タイトルがないとき（Ｓ１３のＮｏ）、Ｓ１９で頁テキスト番号が０でないとき（Ｓ１９のＮｏ）、開始頁テキスト番号を０とする（Ｓ１４）。そして、処理対象のコンテンツの頁テキスト番号が０であり、かつ、その頁に頁タイトルがないことを確認して（Ｓ１５のＹｅｓ）、Ｓ１６へ進む。一方、Ｓ１５で処理対象のコンテンツの頁テキスト番号が１以上のとき、または、その頁に頁タイトルがあるとき（Ｓ１５のＮｏ）、Ｓ２０へ進み、処理対象のコンテンツを頁テキストとして抽出する。すなわち、Ｓ１５において、文書解析部１２１は、処理対象のコンテンツを、文書タイトルまたは頁タイトルとして抽出するか、頁テキストとして抽出するかを判定する。

Ｓ２０の後、文書解析部１２１は、処理対象の頁のすべての頁テキストの処理を終了し（Ｓ２１のＹｅｓ）、かつ、処理対象の文書データのすべての頁の処理を終了していれば（Ｓ２２のＹｅｓ）、処理を終了する。一方、Ｓ２０の後、処理対象の頁に未処理のコンテンツがあれば（Ｓ２１のＮｏ）、開始頁テキスト番号を１増やす（Ｓ２４）。そして、Ｓ１５に戻る。つまり、同じ頁内の次のコンテンツの処理に移る。また、処理対象の頁のすべての頁テキストの処理を終了したが（Ｓ２１のＹｅｓ）、処理対象の文書データに未処理の頁があれば（Ｓ２２のＮｏ）、文書解析部１２１は、開始頁番号を１増やす（Ｓ２３）。そして、Ｓ１３へ戻る。つまり、同じ文書データ内の次の頁の処理に移る。

このようにすることで、類似文書判定装置１０の文書解析部１２１は、文書データから文書タイトルを生成し、また、頁タイトルや頁テキストを抽出し、文書解析情報を作成する。そして、作成した文書解析情報は、文書解析情報記憶部１３２に格納する。

次に、図８を用いて、図５のＳ６の処理を説明する。図８は、図５の類似判定処理の詳細を示したフローチャートである。ここでは、図３の類似文書判定装置１０が選択した文書データ（選択文書データ）について、既に文書解析情報記憶部１３２に文書解析情報が登録されている文書データとの類似判定を行い、その類似判定結果に基づき類似文書情報を作成する処理について説明する。

まず、図３の判定部１２２は、選択文書データと同じ文書タイトルの文書データの文書識別子を、文書解析情報の文書ファイル情報から検索する（Ｓ３１）。ここで該当する文書識別子があれば（Ｓ３２のＹｅｓ）、類似文書情報作成部１２３は、この文書識別子を示した類似文書情報を作成する。つまり、類似文書情報作成部１２３は、類似文書情報に、選択文書データの文書識別子と、類似パターン識別子「１（文書タイトルが同じ）」と、この類似パターン識別子に該当する類似文書データの文書識別子とを登録する（Ｓ３３）。そして、判定部１２２は、その選択文書データの最初の頁をセットする（Ｓ３４）。

一方、文書解析情報に、選択文書データと同じ文書タイトルの文書データの文書識別子がなければ（Ｓ３２のＮｏ）、Ｓ３３をスキップして、Ｓ３４へ進む。そして、Ｓ３４の後、判定部１２２は、現在セットされている頁の頁タイトルと同じ頁タイトルを持つ文書データの文書識別子を、文書解析情報の頁タイトル情報から検索する（Ｓ３５）。ここで該当する文書識別子があれば（Ｓ３６のＹｅｓ）、類似文書情報作成部１２３は、この文書識別子を頁タイトル類似リスト（図示省略）に登録する（Ｓ３７）。なお、この頁タイトル類似リストは、同じ頁タイトルを持つ文書データの数およびその文書データにおいて同じ頁タイトルを持つ頁数をカウントするためのリストである。このリストは、記憶部１３の所定領域に記憶される。

一方、文書解析情報に、選択文書データにおいて現在セットされている頁と同じ頁タイトルを持つ文書データの文書識別子がなければ（Ｓ３６のＮｏ）、Ｓ３７をスキップし、判定部１２２は、その選択文書データの最初の頁テキストをセットする（Ｓ３８）。そして、判定部１２２は、現在セットされている頁の頁テキストと同じ頁テキストを持つ文書データの文書識別子を文書解析情報の頁テキスト情報から検索する（Ｓ３９）。ここで、該当する文書識別子があれば（Ｓ４０のＹｅｓ）、類似文書情報作成部１２３は、この文書識別子を類似リスト（図示省略）に登録する（Ｓ４１）。この類似リストは、同じ頁テキストを持つ文書データの文書識別子およびその文書データにおける同じ頁テキストの数をカウントするためのリストである。このリストも、記憶部１３の所定領域に記憶される。

文書解析情報に、選択文書データにおいて現在セットされている頁の頁テキストと同じ頁テキストを持つ文書データの文書識別子がなく（Ｓ４０のＮｏ）、かつ、現在セットされている頁内のすべての頁テキストの処理が終了していれば（Ｓ４２のＹｅｓ）、Ｓ４４へ進む。Ｓ４４については後記する。一方、選択文書データにおいて現在セットされている頁内に未処理の頁テキストがあれば（Ｓ４２のＮｏ）、次の頁テキストをセットし（Ｓ４３）、Ｓ３９へ戻る。このような処理により、選択文書データの頁のうち、処理対象の頁について、その頁内の頁テキストと同じ頁テキストを持つ文書データの文書識別子が類似リストに登録されていく。

ここで、Ｓ４２において、現在セットされている頁内のすべての頁テキストの処理が終了すると（Ｓ４２のＹｅｓ）、類似リストには、現在セットされている頁内の各頁テキストと同じ頁テキストを持つ文書データの文書識別子が、当該文書データにおいて同じ頁テキストを持つ数だけ登録される。例えば、選択文書データの頁Ａに頁テキストＡ,Ｂが含まれている場合において、比較対象となる文書識別子「Ａ」の文書データに、頁テキストＡと同じ頁テキストがＮ個含まれ、頁テキストＢと同じ頁テキストがＭ個含まれていれば、類似リストには、この文書識別子「Ａ００２」が（Ｎ＋Ｍ）個登録されることになる。これにより、文書識別子「Ａ００２」について、選択文書データの頁Ａの頁テキストと同じ頁テキスト数が（Ｎ＋Ｍ）個あることがわかる。

判定部１２２は、選択文書データについて、１頁分の処理が終了すると、Ｓ４４において、この類似リストに登録された文書識別子ごとの頁テキスト数を取得し、この頁テキスト数が、類似パターン情報の頁テキストに関する閾値以上の文書識別子を頁テキスト類似リストに登録する。例えば、選択文書データの頁Ａの頁テキスト数が６であり、前記した閾値が５０％であるとき、判定部１２２は、類似リストに登録される文書識別子のうち、その頁Ａの頁テキストと同じ頁テキスト数が、３以上のものを頁テキスト類似リストに登録する。なお、この閾値は、類似パターン情報（表１参照）に示される類似パターンのうち、頁テキストに関する類似パターン（類似パターン識別子「３」）の頁テキスト閾値に示される値を用いる。このような処理を選択文書データの各頁について実行することで、判定部１２２は、選択文書データと頁単位で類似する文書データの文書識別子を探す。

Ｓ４４の後、判定部１２２は、選択文書データについて未処理の頁があれば（Ｓ４５のＮｏ）、次の頁をセットして（Ｓ４６）、Ｓ３５へ戻る。一方、判定部１２２は、選択文書データについて、すべての頁の処理を終了していれば（Ｓ４５のＹｅｓ）、頁タイトル類似リストから、文書識別子ごとの類似頁数（同じ頁タイトルを持つ頁数）を取得し、類似頁数が類似パターン情報に示される閾値以上の文書識別子と、その類似頁数とを類似文書情報に登録する（Ｓ４７）。

例えば、選択文書データの頁数が１０頁であり、頁タイトルに関する類似パターン（表１の類似パターン識別子「２」）に関する頁閾値が８０％である場合を考える。この場合において、この頁タイトル類似リストに登録されている文書識別子のうち、類似頁数（同じ頁タイトルを持つ頁数）が８頁以上の文書識別子があるとき、判定部１２２は、この文書識別子の文書データを、類似パターン識別子「２」の類似文書データであると判定する。よって、類似文書情報作成部１２３は、この類似パターンに該当する文書データの文書識別子（例えば、「Ａ００２」）と、選択文書データの文書識別子（例えば、「Ａ００１」）と、類似パターン識別子「２」と、類似頁数「８頁」とを類似文書情報に登録する（表２参照）。

この後、判定部１２２は、頁テキスト類似リストから、文書識別子ごとの類似頁数を取得し、この類似頁数が類似パターン情報に示される閾値以上の文書識別子と、その類似頁数とを類似文書情報に登録する（Ｓ４８）。

例えば、選択文書データの頁数が１０頁であり、この場合において、この頁テキスト類似リストに登録されている文書識別子のうち、類似頁数（同じ頁タイトルを持つ頁数）が８頁以上の文書識別子があるとき、判定部１２２は、この文書識別子の文書データを、類似パターン識別子「３」の類似文書データであると判定する。よって、類似文書情報作成部１２３は、この類似パターンに該当する文書データの文書識別子（例えば、「Ａ００３」）と、選択文書データの文書識別子（例えば、「Ａ００１」）と、類似パターン識別子「３」と、類似頁数「８頁」とを類似文書情報に登録する（表２参照）。そして、処理を終了する。

このようにして、図３の類似文書判定装置１０は、選択文書データについて、既に文書解析情報記憶部１３２に文書解析情報が登録されている文書データとの類似判定を行い、その類似判定結果に基づき類似文書情報を作成する。作成された類似文書情報は、類似文書データの検索処理等に用いられる。

なお、ここでは、判定部１２２が、文書データについて、類似文書情報に示される３つの類似パターンのいずれかであることを判定することとしたが、これに限定されない。例えば、頁タイトルの頁閾値、頁テキストの頁閾値、頁テキスト閾値の値の組み合わせにより、類似パターン情報に様々な類似パターンを定義し、判定部１２２は、文書データについて、そのいずれの類似パターンにあてはまるかを判定するようにしてもよい。

次に、類似文書情報を用いた類似文書データの検索処理および表示処理を説明する。図９は、図３の類似文書判定装置による類似文書データの検索処理および表示処理を示したフローチャートである。ここでは、類似文書判定装置１０が、類似パターン識別子の入力を受け付けると、類似文書情報から、この類似パターン識別子にあてはまる文書データとその類似文書データの組を検索し、その文書データとその類似文書データの組を時系列に並べ替えて表示する場合を例に説明する。

まず、図３の類似文書判定装置１０の類似文書検索部１２４は、入出力部１１経由で、類似パターン識別子の入力を受け付ける（Ｓ５１）。そして、この類似文書検索部１２４は、入力された類似パターン識別子に一致する文書識別子と類似文書識別子の組を類似文書情報（表２）から検索する（Ｓ５２）。つまり、類似文書検索部１２４は、入力された類似パターン識別子をキーとして、類似文書情報から、この類似パターン識別子にあてはまる文書データの文書識別子と、その類似文書データの類似文書識別子の組を取得する。

そして、類似文書検索部１２４は、この取得した文書識別子と類似文書識別子それぞれに対応する文書データの最終編集日時を、文書解析情報の文書ファイル情報から検索する（Ｓ５３）。そして、この検索した文書識別子と類似文書識別子の組のうち、その類似文書識別子に対応する文書データの最終編集日時の最も古い類似文書識別子をセットする（Ｓ５４）。この後、表示処理部１２６は、セットした類似文書識別子を表示画面に表示する（Ｓ５５）。次に、並べ替え処理部１２５は、Ｓ５４でセットした類似文書識別子の対となる文書識別子群について、その文書識別子に対応する文書データの最終編集日時で並べ替え（Ｓ５６）、その最終編集日時の最も古い文書データの文書識別子をセットする（Ｓ５７）。そして、表示処理部１２６は、Ｓ５４でセットした類似文書識別子と、Ｓ５７でセットした文書識別子とを表示する（Ｓ５８）。つまり、類似文書情報に登録される類似文書データの組のうち、当該類似パターンにあてはまる最も古い類似文書データの類似文書識別子と、その類似文書データとペアになる文書データの文書識別子とを表示する。このとき、この類似文書情報に登録される類似頁数についても併せて表示するようにしてもよい。

この後、類似文書検索部１２４は、Ｓ５６で並べ替えた文書識別子について、次に最終編集日時が古い文書識別子をセットする（Ｓ５９）。そして、Ｓ５６で並べ替えた文書識別子について、未処理の文書識別子があれば（Ｓ６０のＮｏ）、Ｓ５８に戻る。一方、Ｓ５６で並べ替えた文書識別子について、すべての文書識別子の処理が終わると（Ｓ６０のＹｅｓ）、類似文書検索部１２４は、Ｓ５２で検索した文書識別子と類似文書識別子の組のうち、Ｓ５４でセットした類似文書識別子の次に最終編集日時が古い類似文書データの文書識別子（類似文書識別子）の組をセットする（Ｓ６１）。このようにして、Ｓ５２で検索した文書識別子と類似文書識別子の組について未処理のものがあれば（Ｓ６２のＮｏ）、Ｓ５５へ戻る。一方、Ｓ５２で検索したすべての文書識別子と類似文書識別子の組について処理が終われば（Ｓ６２のＹｅｓ）、処理を終了する。

このようにすることで、類似文書判定装置１０は、文書蓄積部１３１に蓄積される文書データについて、所定の類似パターンにあてはまる文書データの文書識別子を検索することができる。例えば、互いに同じ文書タイトルを持つ文書データ群や、同じ頁タイトルを所定の割合以上持つ文書データ群を検索することができる。また、類似文書判定装置１０は、検索された文書データの最終編集日時を参照して、その類似文書データの最終編集日時が古い順に並べ、さらに同じ文書データを類似文書データとする文書データが複数あるとき、その文書データについて古い順に並べて表示する。このようにすることで、派生関係にある文書データ群について、最も古い文書データ（その文書データ群において派生元になっている可能性が高い文書データ）から順に表示し、さらにこの文書データから派生した可能性の高い文書データをその派生順に近い状態で表示することができる。

なお、ここで表示処理部１２６が表示する表示画面例を説明する。図１０は、図３の表示処理部が表示する表示画面例を示した図である。図１０に示すように、表示画面は、入力された類似パターン識別子、この類似パターン識別子をキーとして検索された類似文書識別子、その対となる文書識別子、類似頁数、類似文書データおよび文書データの最終編集日時等を含んで構成される。ここで、この類似文書識別子は、その最終編集日時が最も古いものから順に表示される。そして、その類似文書識別子と対になる文書識別子もその最終編集日時が最も古いものから順に表示される。

例えば、図１０に示す画面例は、類似パターン識別子「１」にあてはまる文書識別子と類似文書識別子の組のうち、類似文書データの最終編集日時が最も古い組の類似文書識別子は「Ａ００２」であり、その最終編集日時は「2008.08.21.20：00：50」であることを示す。この類似文書識別子の対となる文書識別子のうち、その最終編集日時が最も古い文書データの文書識別子は「Ａ００１」であり、類似頁数は「１０（頁）」であり、その最終編集日時は「2008.08.02.10：05：30」であることを示す。また、類似パターン識別子「１」にあてはまる文書識別子と類似文書識別子の組のうち、次に最終編集日時が古い類似文書データを持つ組は、類似文書識別子「Ｂ００１」の類似文書データを持つ組であり、その最終編集日時は「2008.08.03.16：04：00」であることを示す。また、この類似文書識別子の対となる文書識別子のうち、その最終編集日時が最も古い文書データの文書識別子は「Ｂ００３」であり、類似頁数は「５（頁）」であり、その最終編集日時は「2008.08.04.13：13：00」であることを示す。

表示処理部１２６がこのような表示画面を表示することで、ユーザが指定した類似パターンにあてはまる文書データを時系列で確認できる。つまり、文書データの派生順に近い状態で文書データを確認できる。

なお、この表示画面上の文書識別子や類似文書識別子に、文書蓄積部１３１に蓄積される文書データや類似文書データへのリンクを張るようにしてもよい。そして、表示画面上で、この文書識別子や類似文書識別子の選択入力を受け付けると、表示処理部１２６が、その文書識別子や類似文書識別子に対応する文書データを表示するようにしてもよい。このようにすることで、ユーザは類似関係にある（派生関係にあると推定される）文書データを確認しやすくなる。

なお、本発明は前記した実施の形態に限定されない。例えば、前記した図５のＳ６の類似判定処理において、文書蓄積部１３１に蓄積される文書データのうち、その最終編集日時が古いものから順に、類似文書情報を作成することとしたが、最終編集日時が新しいものから順に作成してもよい。さらに、図８に示した類似判定処理は、文書蓄積部１３１に蓄積される文書データを選択文書データとして用いることとしたが、それ以外の文書データであってもよい。つまり、類似文書判定装置１０が、新たな文書データの入力を受け付けると、前記した手順により文書解析部１２１がこの文書データの、文書タイトル、頁タイトルおよび頁テキストを抽出し、判定部１２２が文書解析情報記憶部１３２に記憶される文書解析情報との類似判定を行ってもよい。この後、表示処理部１２６が、その類似判定結果を、表示画面上に表示するようにしてもよい。このようにすることで、類似文書判定装置１０は様々な文書データの類似判定を行うことができる。

また、文書解析部１２１が、文書データから文書タイトルを抽出するとき、最初の頁に頁タイトルがないとき、この頁の最初の頁テキストを文書タイトルとして抽出するようにしてもよい。このようにすることで、類似文書判定装置１０は、文書データから確実に文書タイトルを抽出できる。

さらに、類似文書情報作成部１２３は、類似文書情報を、文書蓄積部１３１に蓄積される文書データすべてを対象として、作成してもよい。つまり、判定部１２２は、文書蓄積部１３１の任意の２つの文書データの組み合わせについて類似判定を行い、類似文書情報を作成してもよい。このようにすることで、類似文書判定装置１０は、実際に類似関係にある文書データについて類似文書情報の作成漏れが発生するのを防止できる。

さらに、類似文書検索部１２４は、類似文書情報を検索するとき、類似パターン識別子だけでなく、文書識別子や、類似文書識別子、文書データまたは類似文書データの最終編集日時のいずれか、またはそれらの組み合わせをキーとして検索してもよい。このようにすることで、類似文書判定装置１０は、様々な類似文書データを検索することができる。

本実施の形態に係る類似文書判定装置１０は、前記したような処理を実行させるプログラムによって実現することができ、そのプログラムをコンピュータが読み取り可能な記憶媒体（ＣＤ−ＲＯＭ等）に記憶して提供することが可能である。

＜実験結果＞
次に、図１１および図１２を用いて類似文書判定装置１０を用いた文書データの類似判定により、派生文書データをどの程度検出できるかを評価した評価実験を説明する。図１１（ａ）は、本実験で用いた１８個の文書データのファイル名を示した図であり、図１１（ｂ）は、（ａ）の文書データの派生関係の正解を示した図である。図１２は、本実施の形態の類似文書判定装置の評価実験データを示した図である。

ここでは、文書データとして、図１１（ａ）に示す１８個のパワーポイント（登録商標）ファイルを用いた。また、類似パターンとして、図１２に示す１５個の類似パターンを用いた。なお、図１２の＃１６は、比較例となる時制インデクスを用いた方法である。そして、類似文書判定装置１０は、この１５個の類似パターンそれぞれを適用して、文書データ同士の類似判定（その文書データ同士が派生関係にあると推定できるか否かの判定）を行った。文書データ同士の実際の派生関係（派生関係の正解）は、図１１（ｂ）に示すとおりである。図１１（ｂ）において、○の中の値は、図１１（ａ）に示すファイルのＩＤを示す。これらのうち「→」でつながれたファイル（文書データ）同士は、実際に派生関係にあることを示す。なお、この１８個の文書データのうち、派生関係にあるペアの数は２２個であった。

また、以下の説明において、正解数とは、実際に派生関係にある文書データのペアの数であり、抽出した派生数とは、類似文書判定装置１０が派生関係にあると判定した文書データ同士のペアの数である。また、抽出した正解数とは、抽出した派生数のうち、実際に派生関係にある文書データ同士のペアの数である。さらに、全体正解数とは、処理対象の文書データ全体において実際に派生関係にある文書データのペアの数である。また、ここでは、適合率＝抽出した正解数／抽出した派生数、再現率＝抽出した正解数／全体正解数として計算した。

また、ここで用いる類似パターンは、図１２に示すように、大きく判定ルール１,２,３,４というカテゴリに分けられる。判定ルール１は、比較対象となる文書データに、選択文書データと同一の頁がある場合に、その文書データを派生関係と判定（類似文書データと判定）するというルールである。判定ルール２は、選択文書データと同じテキストがある場合に、その文書データを派生関係と判定（類似文書データと判定）するというルールである。この判定ルール２は、頁テキスト閾値、頁閾値（表１参照）が設定され、その頁テキスト閾値（２５％〜７５％）および頁閾値の値（２５％〜７５％）の組み合わせにより、９個のバリエーションを設定した。さらに、判定ルール３は、選択文書データと同じ頁タイトルがある場合、その文書データを派生文書データ（類似文書データ）と判定するというルールである。この判定ルール３は、頁タイトルに関する頁閾値の値（２５％〜７５％）により、３個のバリエーションを設定した。判定ルール４は、選択文書データと同じ文書タイトルがある場合、その文書データを派生文書データ（類似文書データ）と判定するというルールである。なお、＃１５の「組み合わせ」は、前記した判定ルール１（＃１）と、判定ルール２の頁テキスト２５％以上一致、頁２５％以上一致（＃２）の両方を満たす文書データを派生文書データ（類似文書データ）と判定するというルールである。なお、＃１６の「時制インデクス」は、ファイル名を文字列と数字とに分割し、文字列が一致する古い文書を派生文書データ（類似文書データ）と判定するというルールである。

図１２に、本実験において、各類似パターンを用いた場合の、適合率、再現率、全体正解数、抽出した派生数、抽出した正解数を示す。図１２に示すように、再現率に関しては、＃１６の時制インデクスと比較して、いずれも高い値となっており、本実施の形態の類似文書判定装置１０の有効性が示された。なお、判定ルール２の＃１０（頁テキスト７５％以上一致、頁７５％以上一致）を用いると、高い適合率（0.773）となり、判定ルール２の＃２（頁テキスト２５％以上一致、頁２５％以上一致）を用いると、高い再現率（0.800）となることが示された。よって、この文書データ１８個について、高い適合率で判定を行いたい場合、判定ルール２の＃１０を用い、高い再現率で判定を行いたい場合、判定ルール２の＃２を用いるのが有効であることが示された。また、判定ルール２の＃５（頁テキスト２５％以上一致、頁５０％以上一致）や、判定ルール３の＃１２（頁タイトル５０％以上一致）は、適合率も再現率もバランスした値となっており、適合率と再現率のバランスのとれた判定処理を行いたい場合、これらのいずれかの類似パターンを用いることが有効であることが確認できた。

本実施の形態の類似文書判定装置の処理概要を示した概念図である。本実施の形態の類似文書判定装置の処理概要を示した概念図である。本実施の形態の類似文書判定装置の構成を示したブロック図である。図３の文書解析情報を例示した図である。図３の類似文書判定装置の処理手順を示したフローチャートである。本実施の形態の文書データの構造例を示した図である。図５の文書解析情報作成処理の詳細を示したフローチャートである。図５の類似判定処理の詳細を示したフローチャートである。図３の類似文書判定装置による類似文書データの検索処理および表示処理を示したフローチャートである。図３の表示処理部が表示する表示画面例を示した図である。（ａ）は、本実験で用いた１８個の文書データのファイル名を示した図であり、（ｂ）は、（ａ）の文書データの派生関係の正解を示した図である。本実施の形態の類似文書判定装置の評価実験データを示した図である。

符号の説明

１０類似文書判定装置
１１入出力部（入力部）
１２処理部
１３記憶部
２０表示装置
１２１文書解析部
１２２判定部
１２３類似文書情報作成部
１２４類似文書検索部
１２５並べ替え処理部
１２６表示処理部
１３１文書蓄積部
１３２文書解析情報記憶部
１３３類似パターン情報記憶部
１３４類似文書情報記憶部

Claims

１以上の文書データの入力を受け付ける入力部と、
前記入力された文書データの構造から、前記文書データの文書タイトル、この文書データにおける頁ごとの、頁タイトルおよび頁テキストを抽出し、この抽出した文書タイトル、頁タイトルおよび頁テキストを、これらの抽出元である前記文書データの識別情報と対応付けて示した文書解析情報を作成し、記憶部に記憶する文書解析部と、
前記文書解析情報を記憶する前記記憶部と、
前記入力部経由で、新たな文書データを受け付けたとき、前記文書解析部は、この文書データの文書タイトル、この文書データにおける頁ごとの、頁タイトルおよび頁テキストを抽出し、
前記文書解析情報に示される文書データそれぞれについて、（１）この新たな文書データの文書タイトルと同じ文書タイトルか否か、（２）この新たな文書データの頁タイトルと同じ頁タイトルの頁数の割合、（３）この新たな文書データの頁テキストと同じ頁テキストの割合の、いずれかまたはその組み合わせからなる類似パターンに基づき、前記文書解析情報に示される文書データが、いずれかの類似パターンにあてはまる類似文書データか否かを判定し、前記いずれかの類似パターンにあてはまる類似文書データと判定したとき、その類似パターンを含む判定結果を出力する判定部とを備えることを特徴とする類似文書判定装置。
前記文書解析部は、この文書データの最初の頁の頁タイトルを、この文書データの文書タイトルとして抽出し、前記文書解析情報を作成することを特徴とする請求項１に記載の類似文書判定装置。
前記文書解析部は、この文書データの最初の頁の頁タイトルがなかった場合、この文書データの最初の頁の頁テキストを、この文書データの文書タイトルとして抽出し、前記文書解析情報を作成することを特徴とする請求項１または請求項２に記載の類似文書判定装置。
前記文書解析部は、この文書データに頁タイトルのない頁があった場合、この頁の頁テキストを、頁タイトルとして抽出し、前記文書解析情報を作成することを特徴とする請求項１ないし請求項３のいずれか１項に記載の類似文書判定装置。
前記類似文書判定装置は、
前記判定部による判定結果に基づき、前記文書データの識別情報ごとに、前記判定された類似パターンの識別情報と、この類似パターンにあてはまる類似文書データの識別情報とを対応付けて示した類似文書情報を作成し、前記記憶部に記憶する類似文書情報作成部と、
前記入力部経由で、前記類似パターンの識別情報および前記文書データの識別情報の少なくとも一方を含んでなる検索条件を示した検索要求の入力を受け付けたとき、この検索条件を満たす前記文書データおよびその類似文書データの組を前記類似文書情報から検索する類似文書検索部と、
前記検索結果を表示する表示処理部とを備えることを特徴とする請求項１ないし請求項４のいずれか１項に記載の類似文書判定装置。
前記文書解析部は、さらに、前記文書データそれぞれの最終編集日時を抽出して前記文書解析情報に含め、
前記類似文書判定装置は、
前記文書解析情報に示される前記文書データの最終編集日時を参照して、前記類似文書情報から検索した前記文書データおよびその類似文書データの組を、その組における類似文書データの最終編集日時の古い順または新しい順に並べ替え、前記検索した文書データおよびその類似文書データの組のうち、同じ類似文書データに対し、その対となる文書データの異なる組が複数ある場合、その組を、その組における前記文書データの最終編集日時の古い順または新しい順に並べ替える並べ替え処理部を備え、
前記表示処理部は、前記並べ替えた文書データおよびその類似文書データの組を表示することを特徴とする請求項５に記載の類似文書判定装置。
前記記憶部は、前記１以上の文書データを記憶する文書蓄積部を備え、
前記文書解析部は、前記文書蓄積部に記憶された文書データを選択し、その選択した文書データの文書タイトルと、この文書データにおける頁ごとの、頁タイトルおよび頁テキストとを抽出し、
前記判定部は、既に前記記憶部に記憶された文書解析情報に示される文書データそれぞれについて、（１）前記選択した文書データの文書タイトルと同じ文書タイトルか否か、（２）前記選択した文書データの頁タイトルと同じ頁タイトルの頁数の割合、（３）前記選択した文書データの頁テキストと同じ頁テキストの割合の、いずれかまたはその組み合わせからなる類似パターンに基づき、前記文書解析情報に示される文書データの、前記選択した文書データに対する類似パターンを判定して、その判定結果を出力し、
前記文書解析部は、前記選択した文書データから抽出した文書タイトル、頁タイトルおよび頁テキストを、前記選択した文書データの識別情報と対応付けた前記文書解析情報を作成し、前記記憶部に記憶することを特徴とする請求項６に記載の類似文書判定装置。
前記文書解析部は、前記文書蓄積部に記憶された文書データを、その最終編集日時の古い順に選択し、その選択した文書データの文書タイトルと、この文書データにおける頁ごとの、頁タイトルおよび頁テキストとを抽出し、
前記並べ替え処理部は、前記類似文書情報から検索した前記文書データおよびその類似文書データの組を、その組における類似文書データの最終編集日時が古い順に並べ替え、前記検索した文書データおよびその類似文書データの組のうち、同じ類似文書データに対し、その対となる文書データの異なる組が複数ある場合、その組を、その組における前記文書データの最終編集日時の古い順に並べ替えることを特徴とする請求項７に記載の類似文書判定装置。
文書データの類似判定を行う類似文書判定装置が、
１以上の文書データの入力を受け付けるステップと、
前記入力された文書データの構造から、前記文書データの文書タイトル、この文書データにおける頁ごとの、頁タイトルおよび頁テキストを抽出し、この抽出した文書タイトル、頁タイトルおよび頁テキストを、これらの抽出元である前記文書データの識別情報と対応付けて示した文書解析情報を作成するステップと、
前記作成した文書解析情報を、記憶部に記憶するステップと、
新たな文書データを受け付けたとき、この文書データの文書タイトル、この文書データにおける頁ごとの、頁タイトルおよび頁テキストを抽出するステップと、
前記文書解析情報に示される文書データそれぞれについて、（１）この新たな文書データの文書タイトルと同じ文書タイトルか否か、（２）この新たな文書データの頁タイトルと同じ頁タイトルの頁数の割合、（３）この新たな文書データの頁テキストと同じ頁テキストの割合の、いずれかまたはその組み合わせからなる類似パターンに基づき、前記文書解析情報に示される文書データが、いずれかの類似パターンにあてはまる類似文書データか否かを判定し、前記いずれかの類似パターンにあてはまる類似文書データと判定したとき、その類似パターンを含む判定結果を出力するステップとを実行することを特徴とする類似文書判定方法。
請求項９に記載の類似文書判定方法を、前記類似文書判定装置であるコンピュータに実行させるためのプログラム。