JP2010061587A - 類似文書判定装置、類似判定方法およびそのプログラム - Google Patents
類似文書判定装置、類似判定方法およびそのプログラム Download PDFInfo
- Publication number
- JP2010061587A JP2010061587A JP2008229104A JP2008229104A JP2010061587A JP 2010061587 A JP2010061587 A JP 2010061587A JP 2008229104 A JP2008229104 A JP 2008229104A JP 2008229104 A JP2008229104 A JP 2008229104A JP 2010061587 A JP2010061587 A JP 2010061587A
- Authority
- JP
- Japan
- Prior art keywords
- document
- document data
- similar
- page
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】パワーポイント等の文書データ同士の類似判定を容易に行う。
【解決手段】類似判定装置は、文書データの文書タイトル、頁タイトル、頁テキストに着目し、文書データ同士の類似判定を行う。このとき、類似判定装置は、文書データ同士で同じ文書タイトルを持つか否か、同じ頁タイトルの頁数の割合、同じ頁テキストの割合を判断し、この判断結果に基づきどのような類似パターンの類似文書データかを判定する。この判定結果は、類似文書情報に記録し、類似文書データの検索処理に用いる。
【選択図】図1
【解決手段】類似判定装置は、文書データの文書タイトル、頁タイトル、頁テキストに着目し、文書データ同士の類似判定を行う。このとき、類似判定装置は、文書データ同士で同じ文書タイトルを持つか否か、同じ頁タイトルの頁数の割合、同じ頁テキストの割合を判断し、この判断結果に基づきどのような類似パターンの類似文書データかを判定する。この判定結果は、類似文書情報に記録し、類似文書データの検索処理に用いる。
【選択図】図1
Description
本発明は、類似文書データの検索技術に関する。
従来、ある文書データについて、その文書データのもととなった文書データを検索する方法としては、以下のような方法がある。(1)CSV(Concurrent Versions System)等を用いて、その文書データもととなった文書データを検索する方法(非特許文献1参照)。(2)SGML(Standard Generalized Mark-up Language)やXML(Extensible Markup Language)等の構造化文書に含まれるタグを用いて、当該文書データの類似文書データを検索する方法(非特許文献2参照)。また、このような類似文書データの検索技術としては、文書データ内の単語の出現頻度を用いる方法がある(非特許文献3参照)。
CSV(Concurrent Versions System)、[online]、[平成20年7月30日検索]、インターネット、<URL:http://www.linkclub.or.jp/~tumibito/soft-an/cvs/cvs-man/cvs-ja_1.html#SEC1> 富田他、構造化文書をランキング可能な全文検索システム、電子情報通信学会技術研究報告2000-DBS-122、P361-368、電子情報通信学会、2000年7月 帆足他、文書間の類似度における単語寄与度を利用した検索式拡張方法、情報処理学会論文誌 vol.40 No.SIG8(TOD4)、P63-73、1999年11月
CSV(Concurrent Versions System)、[online]、[平成20年7月30日検索]、インターネット、<URL:http://www.linkclub.or.jp/~tumibito/soft-an/cvs/cvs-man/cvs-ja_1.html#SEC1> 富田他、構造化文書をランキング可能な全文検索システム、電子情報通信学会技術研究報告2000-DBS-122、P361-368、電子情報通信学会、2000年7月 帆足他、文書間の類似度における単語寄与度を利用した検索式拡張方法、情報処理学会論文誌 vol.40 No.SIG8(TOD4)、P63-73、1999年11月
ここで、パワーポイント(登録商標)等のプレゼンテーションソフトで作成され、文書タイトルや、頁タイトルや、頁テキストといった構造を持つ文書データについて、その文書データのもととなった文書データ(派生元の文書データ)を検索したいというニーズがある。しかし、非特許文献1に記載のCSVにより、パワーポイント(登録商標)等の文書データを検索するためには、予めCSVで文書データを作成することが前提となる。また、非特許文献2に記載の技術を用いる場合、パワーポイント(登録商標)等の文書データを、いったんXML等の構造化文書に変換しなければならず、また各文書データに用いられるタグの共通化も必要である。さらに、非特許文献3に記載の技術は、パワーポイント(登録商標)等、必ずしも多くの単語が登場するとは限らない文書データの検索には不向きである。そこで、本発明は、前記した問題を解決し、パワーポイント(登録商標)等の文書データについて、文書データ同士の類似判定を容易にし、その文書データのもととなったと文書データの検索を容易に行うことを目的とする。
前記した課題を解決するため、類似文書判定装置は、入力部経由で1以上の文書データの入力を受け付けると、文書解析部により文書データから、文書タイトル、頁タイトル、頁テキストを抽出して、その文書データの文書解析情報を作成する。そして、新たな文書データ(比較対象となる文書データ)の入力を受け付けると、文書解析部は、この文書データについても、文書タイトル、頁タイトル、頁テキストを抽出し、判定部は、この文書タイトル、頁タイトル、頁テキストに着目した類似判定を行う。つまり、判定部は、文書解析情報に示される文書データが、(1)この新たな文書データの文書タイトルと同じ文書タイトルか否か、(2)この新たな文書データの頁タイトルと同じ頁タイトルの頁数の割合、(3)この新たな文書データの頁テキストと同じ頁テキストの割合の、いずれかまたはその組み合わせからなる類似パターンに基づき、いずれかの類似パターンにあてはまる類似文書データか否かを判定する。そして、判定部はいずれかの類似パターンにあてはまる類似文書データと判定したとき、その類似パターンを含む判定結果を出力する。このように類似文書判定装置は、文書タイトル、頁タイトル、頁テキストに着目した類似判定を行うことで、文書データをXML等の構造化文書に変換しないでも、文書データ同士が類似しているか否かを判定できる。
また、この類似文書判定装置の文書解析部は、入力された文書データの最初の頁タイトルをこの文書データの文書タイトルとして抽出する。よって、文書データに文書タイトルという属性をもつコンテンツがない場合でも、文書タイトルを抽出し、文書解析情報を作成できる。
また、この類似文書判定装置の文書解析部は、入力された文書データの最初の頁の頁タイトルがなかった場合、この文書データの最初の頁の頁テキストを、この文書データの文書タイトルとして抽出し、文書解析情報を作成できる。よって、この文書解析情報には、文書タイトルが含まれる可能性が高くなるので、判定部は、この文書解析情報に含まれる文書タイトルを用いて文書データ同士の類似判定を行いやすくなる。
また、この類似文書判定装置の文書解析部は、文書データに頁タイトルのない頁があった場合、この頁の頁テキストを、頁タイトルとして抽出し、文書解析情報を作成する。よって、この文書解析情報には、頁タイトルが含まれる可能性が高くなるので、判定部は、この文書解析情報に含まれる頁タイトルを用いて文書データ同士の類似判定を行いやすくなる。
また、この類似文書判定装置の類似文書情報作成部は、判定部による判定結果に基づき、入力された文書データの識別情報ごとに、類似パターンの識別情報と、この類似パターンにあてはまる類似文書データの識別情報とを対応付けて示した類似文書情報を作成し、記憶部に記憶する。このようにすることで、類似文書検索部が、類似パターンの識別情報および文書データの識別情報の少なくとも一方を含んでなる検索条件を示した検索要求の入力を受け付けたとき、この検索条件を満たす文書データおよびその類似文書データの組を類似文書情報から検索することができる。そして、表示処理部によりこの検索結果を表示するので、この類似文書判定装置のユーザは、所定の類似パターンにあてはまる文書データ(類似文書データ)群や、所定の文書データについて類似パターンにあてはまる文書データ(類似文書データ)群を確認することができる。
また、類似文書判定装置の並べ替え処理部は、文書解析情報に示される文書データの最終編集日時を参照して、類似文書情報から検索した文書データおよびその類似文書データの組を、その組における類似文書データの最終編集日時の古い順または新しい順に並べ替え、検索した文書データおよびその類似文書データの組のうち、同じ類似文書データに対し、その対となる文書データの異なる組が複数ある場合、その組を、その組における文書データの最終編集日時の古い順または新しい順に並べ替える。例えば、類似文書データについて、最終編集日時が古い順に並べ替え、その類似文書データと対(ペア)になる文書データについても最終編集日時が古い順に並べ替えることで、表示処理部は、派生元の文書データから派生した文書データ群について、その派生元の文書データから派生した順に近い状態で表示することができる。つまり、この類似文書判定装置のユーザは、文書データ群の文書データそれぞれについて、その派生元の文書データからどのような順に派生したかを確認しやすくなる。
また、類似文書判定装置の文書解析部は、1以上の文書データを記憶する文書蓄積部から文書データを選択し、その選択した文書データの文書タイトルと、この文書データにおける頁ごとの、頁タイトルおよび頁テキストとを抽出し、判定部は、この選択した文書データと、既に記憶部に記憶された文書解析情報に示される文書データとの類似判定を行い、類似文書情報作成部により類似文書情報を作成する。そして、文書解析部は、この類似文書情報作成済みの文書データについて文書解析情報を作成し、記憶部に記憶する。このようにすることで、類似文書判定装置は、文書データの類似判定をしながら文書解析情報を作成することができる。
また、類似文書判定装置の文書解析部は、文書蓄積部に記憶された文書データを、その最終編集日時の古い順に選択し、その選択した文書データの文書タイトルと、この文書データにおける頁ごとの、頁タイトルおよび頁テキストとを抽出する。よって、判定部は、最終編集日時が古い文書データから順に、既に記憶部に記憶された文書解析情報と対比して類似文書情報が作成されることになる。類似文書判定装置は、古い文書データを処理している段階では、まだ記憶部に文書解析情報が多数記憶されていないので、判定部は少数の文書解析情報と対比して類似文書情報を作成する。一方、新しい文書データを処理するようになると、記憶部にも文書解析情報が多数記憶されているので、判定部は多数の文書解析情報と対比して類似文書情報を作成することになる。ここで、文書蓄積部に蓄積される文書データ群が、ある文書データを派生元として派生した文書データ群であるとすると、その大元となった文書データ(最も古い文書データ)の類似文書データ自体の数は比較的少なく、また、新しい文書データについては類似文書データの数は比較的多いと考えられる。よって、判定部は、実際に派生関係にあると思われる文書データ同士について効率よく類似判定を行うことができる。また、並べ替え処理部は、類似文書情報から検索した文書データおよびその類似文書データの組を、その組における類似文書データの最終編集日時が古い順に並べ替え、検索した文書データおよびその類似文書データの組のうち、同じ類似文書データに対し、その対となる文書データの異なる組が複数ある場合、その組を、その組における文書データの最終編集日時の古い順に並べ替える。よって、この類似文書判定装置のユーザは、文書データ群の文書データそれぞれについて、その派生元の文書データからどのような順に派生したかを確認しやすくなる。
本発明によれば、パワーポイント(登録商標)等の文書データについて、文書データ同士の類似判定を容易にし、その文書データのもととなった文書データの検索を容易に行うことができる
<概要>
以下、本発明を実施するための最良の形態(以下、実施の形態という)について説明する。まず、本実施の形態の類似文書判定装置の処理概要を、図1および図2を用いて説明する。図1および図2は、本実施の形態の類似文書判定装置の処理概要を示した概念図である。
以下、本発明を実施するための最良の形態(以下、実施の形態という)について説明する。まず、本実施の形態の類似文書判定装置の処理概要を、図1および図2を用いて説明する。図1および図2は、本実施の形態の類似文書判定装置の処理概要を示した概念図である。
ここで、類似文書判定装置が扱う文書データは、例えば、パワーポイント(登録商標)等で作成された文書データであり、文書タイトル、各頁の頁タイトル、頁テキスト等のコンテンツを含んで構成されるものとする。なお、このコンテンツには図形等も含まれている可能性があるが、この図形のコンテンツには着目せず、テキスト情報からなるコンテンツに着目して類似判定を行う。なお、これらのコンテンツが、文書タイトル、頁タイトル、頁テキストのいずれの属性に属するものかは、それぞれのコンテンツに付されている属性情報をもとに判定される。
そして、この類似文書判定装置は、文書データおよびその文書データとの類似判定の対象となる文書データそれぞれの文書タイトル、頁タイトル、頁テキスト等を抽出する。そして、類似文書判定装置は、この文書タイトル、頁タイトル、頁テキストに着目して、それぞれの文書データがどの程度類似しているかを判定する。例えば、類似文書判定装置は、図1の文書データAの文書タイトルが、文書データBの文書タイトルと同じか否かを判定する。また、文書データBに、文書データAの頁タイトルと同じ頁タイトルが含まれているか、また同じ頁タイトルが含まれている場合、その割合が所定の閾値以上か否かを判定する。また、文書データBに、文書データAの頁テキストと同じ頁テキストが含まれているか、また、同じ頁テキストが含まれている場合、その割合が所定の閾値以上か否かを判定する。なお、これらの類似判定において、対比の対象とする頁は、それぞれの文書データの同じ頁同士でなくてもよい。つまり、その文書データ全体のいずれかの頁に同じ頁タイトルや頁テキストが含まれていればよいものとする。ここでの、類似判定結果は、その類似パターンの識別情報(類似パターン識別子)とともに、類似文書情報(後記)に記録される。この類似文書情報の詳細は後記するが、類似パターンの識別子をキーとした類似文書データの検索処理に用いられる情報である。
なお、この類似文書判定装置は、文書データの文書タイトル、各頁の頁タイトルや頁テキスト等を抽出するとき、以下のようにして抽出する。つまり、図2に示すように、類似文書判定装置は、文書タイトルについては、その文書データの最初の頁(0頁目)の最初の頁タイトルを文書タイトルとして抽出する。また、文書データから、頁タイトルを抽出する場合、その頁に頁タイトルがあれば、その頁タイトルをそのまま頁タイトルとして抽出する。しかし、もしその頁に頁タイトルがないときには、その頁の最初の頁テキストを頁タイトルとして抽出する。このように、文書データから、文書タイトルと推定できる情報を抽出し、また、頁タイトル等を含まない頁については、頁タイトルと見なせる情報を抽出するので、文書データの文書タイトル、頁タイトルを確実に抽出できる。よって、類似文書判定装置は、文書データ同士の類似判定を行いやすくなる。
<構成>
次に、図3を用いて、このような類似文書判定装置の構成を説明する。図3は、本実施の形態の類似文書判定装置の構成を示したブロック図である。
次に、図3を用いて、このような類似文書判定装置の構成を説明する。図3は、本実施の形態の類似文書判定装置の構成を示したブロック図である。
類似文書判定装置10は、大きく入出力部11と、処理部12と、記憶部13とに分けられる。入出力部11は、この処理部12における処理対象となる文書データの入力を受け付けたり、この処理部12による処理結果を示す表示画面等を表示装置20等へ出力したりする。処理部12は、文書データから文書タイトルや頁タイトル、頁テキストを抽出したり、類似パターン情報(後記)を参照して、文書データ同士の類似判定を行ったりする。記憶部13は、処理部12が文書データの類似判定を行うときに参照する情報や、その類似判定結果である類似文書情報(後記)等を記憶する。なお、類似文書判定装置10をプログラム実行処理により実現する場合、記憶部13には、この類似文書判定装置10の機能を実現するためのプログラムが格納される。
入出力部11は、入出力インタフェースから構成される。また、処理部12は、この類似文書判定装置10の備えるCPU(Central Processing Unit)によるプログラム実行処理や、専用回路等により実現される。さらに、記憶部13は、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等の記憶媒体から構成される。
入出力部11は、この類似文書判定装置10における処理対象となる文書データの入力を受け付けたり、処理部12による処理結果を外部へ出力したりする。例えば、処理部12による処理結果を表示した表示画面を表示装置20へ出力表示する。
処理部12は、文書解析部121と、判定部122と、類似文書情報作成部123と、類似文書検索部124と、並べ替え処理部125と、表示処理部126とを含んで構成される。
文書解析部121は、入力された文書データの文書解析情報を作成する。つまり、文書解析部121は、文書データに含まれる各コンテンツの属性情報から、各コンテンツが文書タイトル、頁タイトル、頁テキストのいずれを示すものか判定する。そして、その判定結果に基づき、この文書データのコンテンツを、文書タイトル、頁タイトルおよび頁テキストのいずれかとして抽出する。図2で説明したように、文書解析部121は、文書データの最初の頁(0頁目)のコンテンツのうち、属性が頁タイトルであるコンテンツを文書タイトルとして抽出する。また、文書データの、2番目の頁(1頁目)以降の頁から、頁タイトルを抽出するとき、その頁に属性が頁タイトルであるコンテンツがあれば、文書解析部121は、そのコンテンツを頁タイトルとして抽出するが、もしその頁に、属性が頁タイトルであるコンテンツがないとき、その頁の最初の頁テキスト(属性が頁テキストであるコンテンツ)を頁タイトルとして抽出する。このときの処理手順の詳細は後記する。なお、この文書解析部121は、これらのコンテンツのほか、文書データの最終編集日時に関する情報等も抽出する。
判定部122は、類似パターン情報記憶部133(後記)に記憶される類似パターン情報を参照して、ある文書データ(選択文書データ)と、その文書データの比較対象となる文書データ(比較対象文書データ)の類似パターンを判定する。具体的には、判定部122は、文書解析情報に示される文書データが、類似パターン情報に示されるいずれかの類似パターンにあてはまる類似文書データか否かを判定する。そして、当該文書データがいずれかの類似パターンにあてはまる文書データ(類似文書データ)と判定したとき、その類似パターンを含む判定結果を出力する。なお、判定部122は、類似パターン情報に示されるいずれの類似パターンにもあてはまらない文書データについては、この選択文書データの類似文書データと判定しない。
例えば、判定部122は、比較対象文書データの文書タイトルが、選択文書データの文書タイトルと同じか否かを判定する。また、その比較対象文書データが、選択文書データの頁タイトルと同じ頁タイトルの頁数を持つ割合がどの程度かを判定する。そして、その文書データと、比較対象文書データの文書タイトルが同じであれば、その比較対象文書データの類似パターンを「1」と判定する。また、選択文書データと、その比較対象文書データの頁タイトルと同じ頁タイトルの頁数の割合が、所定の閾値以上であれば、その比較対象文書データの類似パターンを「2」と判定する。また、その比較対象文書データが類似パターン情報に示されるいずれの類似パターンにもあてはまらなかった場合、この選択文書データの類似文書データと判定しない。そして、判定部122はその判定結果を出力する。
類似文書情報作成部123は、判定部122が判定した判定結果に基づき、比較対象文書データの文書識別子(識別情報)と、判定された類似パターンと、この類似パターンにあてはまる文書データ(類似文書データ)の文書識別子(類似文書識別子)とを対応付けた類似文書情報を作成する。この類似文書情報の詳細は後記する。
類似文書検索部124は、入出力部11経由で、類似パターンの識別情報の入力を受け付けたとき、類似文書情報から、この入力された識別情報の類似パターンにあてはまる1以上の文書データおよびその類似文書データの識別子の組を検索する。例えば、類似文書検索部124は、類似文書情報から、類似パターン「1」にあてはまる文書データおよびその文書データの類似文書データの文書識別子を検索する。
並べ替え処理部125は、類似文書情報から検索した文書データおよびその類似文書データの組を、所定の順序で並べ替える。例えば、並べ替え処理部125は、この文書データおよびその類似文書データの組について、その組の類似文書データの最終編集日時の古い順に並べ替える。
表示処理部126は、類似文書検索部124により検索された検索結果や、並べ替え処理部125により並べ替えられた、前記検索結果を示した表示画面を表示装置20等に表示する。
記憶部13は、所定領域に、文書蓄積部131と、文書解析情報記憶部132と、類似パターン情報記憶部133と、類似文書情報記憶部134とを備える。
文書蓄積部131は、入出力部11から入力された1以上の文書データを記憶する。
文書解析情報記憶部132は、文書解析部121により作成された文書解析情報を記憶する。この文書解析情報は、文書データの文書識別子、文書タイトル、頁タイトル、頁テキストを示した情報である。図4は、図3の文書解析情報を例示した図である。図4に示すように、この文書解析情報は、例えば、文書データの文書タイトル等を示した文書ファイル情報と、文書データの各頁の頁タイトルを示した頁タイトル情報と、文書データの各頁の頁テキストを示した頁テキスト情報とを含んで構成される。このうち、文書ファイル情報は、文書データの文書識別子ごとに、その文書データから抽出された文書タイトル、最終編集日時等を示した情報である。この文書ファイル情報は、この文書データの文書ファイル名、格納フォルダ名等の情報をさらに含んでいてもよい。この頁タイトル情報には、文書識別子と、頁識別子と、その頁の頁タイトルとが示される。また、頁テキスト情報は、文書識別子と、頁識別子と、その頁の頁テキストとが示される。なお、この文書ファイル情報と、頁タイトル情報と、頁テキスト情報とをまとめて1つの情報としてもよい。
図3の類似パターン情報記憶部133は、類似パターン情報を記憶する。この類似パターン情報は、以下の表1に例示するように、類似パターン識別子ごとに、比較対象文書データがその類似パターンにあてはまると判定するための条件を示した情報である。この類似パターン情報は、比較対象文書データがその類似パターンにあてはまるとか否かを判定するときに、頁数の閾値や頁テキスト数の閾値を用いる場合、その閾値に関する情報も含む。例えば、表1に示す類似パターン情報において、類似パターン識別子「1」は、文書データ同士の文書タイトルが同じという条件を示す。また、類似パターン識別子「2」は、その比較対象文書データに、その選択文書データの頁タイトルと同じ頁タイトルが含まれる頁数の割合が、75%以上という条件を示す。さらに、類似パターン識別子「3」は、その比較対象文書データに、その選択文書データの頁テキストと同じ頁テキストを含む割合が50%以上である頁数をカウントし、その頁数が、その比較対象文書データ全体の頁数の75%以上という条件を示す。なお、この類似パターン情報は、入出力部11経由で設定されるものとする。
類似文書情報記憶部134は、類似文書情報を記憶する。この類似文書情報は、表2に示すように文書データ(選択文書データ)の文書識別子ごとに、類似パターン識別子と、その識別子の類似パターンにあてはまる類似文書データの文書識別子(類似文書識別子)とを示す情報である。この類似文書情報は、この類似パターンにあてはまる選択文書データの頁数をさらに含んでいてもよい。この類似文書情報は、類似文書検索部124が類似文書データを検索するときのインデクスとして用いられる。
<処理手順>
次に、この類似文書判定装置10の処理手順を、フローチャートを用いて説明する。まず、図5を用いて、類似文書判定装置10が、文書解析情報および類似文書情報を作成する手順を説明する。図5は、図3の類似文書判定装置の処理手順を示したフローチャートである。
次に、この類似文書判定装置10の処理手順を、フローチャートを用いて説明する。まず、図5を用いて、類似文書判定装置10が、文書解析情報および類似文書情報を作成する手順を説明する。図5は、図3の類似文書判定装置の処理手順を示したフローチャートである。
まず、類似文書判定装置10は、入出力部11経由で文書データの入力を受け付けると、この受け付けた文書データを文書蓄積部131に蓄積する(S1)。そして、文書解析部121は、その文書蓄積部131に蓄積された文書データ群について、その文書データの最終編集日時順に並べ替え(S2)、その文書データの最終編集日時の最も古い文書データをセット(選択)する(S3)。
次に、文書解析部121は、セットした文書データから、頁タイトルと頁テキストを抽出する(S4)。そして、文書解析部121は、S4で抽出した頁タイトルと頁テキストを用いて、この文書データに関する文書解析情報(図4参照)を作成する(S5)。そして、文書解析情報を文書解析情報記憶部132に記憶する。この文書解析情報の作成手順の詳細は後記する。
次に、判定部122は、選択された文書データについて、既に文書解析情報記憶部132に文書解析情報が登録されている文書データとの類似判定を行う(S6)。この類似判定処理の詳細についても後記する。文書解析部121は、S3でセットされた文書データの類似判定後、この文書データの文書解析情報を文書解析情報記憶部132に格納する。
なお、文書解析部121が、S3で最終編集日時の最も古い文書データをセットしたとき、文書解析情報記憶部132にはまだ文書解析情報が格納されていないので、S6の処理は行わず、作成した文書解析情報をそのまま文書解析情報記憶部132に格納する。
S6の後、文書蓄積部131のすべての文書データの処理が終わっていなければ(S7のNo)、文書解析部121は、S2で並べ替えた文書データ群から、次に最終編集日時の古い文書データをセットし(S8)、S4へ戻る。一方、文書蓄積部131のすべての文書データの処理が終わっていれば(S7のYes)、処理を終了する。
なお、このように、類似判定装置10が文書蓄積部131に蓄積される文書データの最終編集日時が古いものから順に選択し、文書解析情報に示される文書データとの類似判定を行うことで、派生関係にある可能性が高い文書データの類似文書情報を効率よく作成できる。例えば、この文書蓄積部131に、大元(おおもと)となる、ある文書データから派生した複数の文書データが蓄積されている場合、この大元となる文書データの最終編集日時が最も古いと考えられる。そして、この文書データからの文書データの派生順は、最終編集日時が古いものから順に時系列に並べたものに近くなる。よって、この文書蓄積部131に蓄積されている文書データすべての組み合わせについて、類似判定を行い、類似文書情報を作成するよりも、実際に派生関係になっている可能性が高い(類似している)文書データに関する類似文書情報を効率よく作成することができる。
次に、図3、図5、図6を参照しつつ、図7を用いて、S5に示した文書解析情報作成処理を説明する。図6は、本実施の形態の文書データの構造例を示した図である。図7は、図5の文書解析情報作成処理の詳細を示したフローチャートである。ここでは、類似文書判定装置10の文書解析部121が文書データから文書タイトルを生成する。また、図5のS4で、文書解析部121が、頁タイトルを抽出できなかったとき、この頁タイトルを生成する。なお、以下の説明において、文書データにおける頁番号は、図6に示すように文書データの最初の頁から「0,…,N」という順に振られた番号とする。また、頁テキスト番号は、その文書データの頁ごとに、その頁内の例えば、一番の上に位置するコンテンツ(テキストボックス)から順に「0,1,…,N」という順に振られた番号とする。但し、文書データの最初の頁における最初の頁テキスト番号は、他の頁の最初の頁テキストと区別するため「−1」から始まる番号とする。
まず、図3の類似文書判定装置10の文書解析部121は、図5のS3またはS8でセットした文書データの開始頁番号を0とする(S11)。また、開始頁テキスト番号(開始頁の頁テキスト番号)を−1とする(S12)。
そして、文書解析部121は、この頁に頁タイトルがあり(S13のYes)、かつ、頁番号が0であれば(S16のYes)、処理対象のコンテンツをこの文書データの文書タイトルとして抽出する(S17)。また、このコンテンツをこの頁の頁タイトルとして抽出する(S18)。つまり、文書データの最初の頁の頁タイトルを文書タイトルとして抽出する。
一方、文書解析部121は、この頁に頁タイトルはあるが(S13のYes)、頁番号が0でなければ(S16のNo)、つまり、最初の頁でなければ、このコンテンツをこの頁の頁タイトルとして抽出する(S18)。ここで抽出した文書タイトルや頁タイトルは、文書解析情報の文書ファイル情報や、頁タイトル情報等に蓄積される。
そして、このコンテンツの頁テキスト番号=0であれば(S19のYes)、文書解析部121は、このコンテンツを当該頁の頁テキストとして抽出する(S20)。抽出した頁テキストは、文書解析部121が、この文書データに関する文書解析情報の頁テキスト情報(図4参照)等に蓄積していく。
一方、文書解析部121は、この頁に頁タイトルがないとき(S13のNo)、S19で頁テキスト番号が0でないとき(S19のNo)、開始頁テキスト番号を0とする(S14)。そして、処理対象のコンテンツの頁テキスト番号が0であり、かつ、その頁に頁タイトルがないことを確認して(S15のYes)、S16へ進む。一方、S15で処理対象のコンテンツの頁テキスト番号が1以上のとき、または、その頁に頁タイトルがあるとき(S15のNo)、S20へ進み、処理対象のコンテンツを頁テキストとして抽出する。すなわち、S15において、文書解析部121は、処理対象のコンテンツを、文書タイトルまたは頁タイトルとして抽出するか、頁テキストとして抽出するかを判定する。
S20の後、文書解析部121は、処理対象の頁のすべての頁テキストの処理を終了し(S21のYes)、かつ、処理対象の文書データのすべての頁の処理を終了していれば(S22のYes)、処理を終了する。一方、S20の後、処理対象の頁に未処理のコンテンツがあれば(S21のNo)、開始頁テキスト番号を1増やす(S24)。そして、S15に戻る。つまり、同じ頁内の次のコンテンツの処理に移る。また、処理対象の頁のすべての頁テキストの処理を終了したが(S21のYes)、処理対象の文書データに未処理の頁があれば(S22のNo)、文書解析部121は、開始頁番号を1増やす(S23)。そして、S13へ戻る。つまり、同じ文書データ内の次の頁の処理に移る。
このようにすることで、類似文書判定装置10の文書解析部121は、文書データから文書タイトルを生成し、また、頁タイトルや頁テキストを抽出し、文書解析情報を作成する。そして、作成した文書解析情報は、文書解析情報記憶部132に格納する。
次に、図8を用いて、図5のS6の処理を説明する。図8は、図5の類似判定処理の詳細を示したフローチャートである。ここでは、図3の類似文書判定装置10が選択した文書データ(選択文書データ)について、既に文書解析情報記憶部132に文書解析情報が登録されている文書データとの類似判定を行い、その類似判定結果に基づき類似文書情報を作成する処理について説明する。
まず、図3の判定部122は、選択文書データと同じ文書タイトルの文書データの文書識別子を、文書解析情報の文書ファイル情報から検索する(S31)。ここで該当する文書識別子があれば(S32のYes)、類似文書情報作成部123は、この文書識別子を示した類似文書情報を作成する。つまり、類似文書情報作成部123は、類似文書情報に、選択文書データの文書識別子と、類似パターン識別子「1(文書タイトルが同じ)」と、この類似パターン識別子に該当する類似文書データの文書識別子とを登録する(S33)。そして、判定部122は、その選択文書データの最初の頁をセットする(S34)。
一方、文書解析情報に、選択文書データと同じ文書タイトルの文書データの文書識別子がなければ(S32のNo)、S33をスキップして、S34へ進む。そして、S34の後、判定部122は、現在セットされている頁の頁タイトルと同じ頁タイトルを持つ文書データの文書識別子を、文書解析情報の頁タイトル情報から検索する(S35)。ここで該当する文書識別子があれば(S36のYes)、類似文書情報作成部123は、この文書識別子を頁タイトル類似リスト(図示省略)に登録する(S37)。なお、この頁タイトル類似リストは、同じ頁タイトルを持つ文書データの数およびその文書データにおいて同じ頁タイトルを持つ頁数をカウントするためのリストである。このリストは、記憶部13の所定領域に記憶される。
一方、文書解析情報に、選択文書データにおいて現在セットされている頁と同じ頁タイトルを持つ文書データの文書識別子がなければ(S36のNo)、S37をスキップし、判定部122は、その選択文書データの最初の頁テキストをセットする(S38)。そして、判定部122は、現在セットされている頁の頁テキストと同じ頁テキストを持つ文書データの文書識別子を文書解析情報の頁テキスト情報から検索する(S39)。ここで、該当する文書識別子があれば(S40のYes)、類似文書情報作成部123は、この文書識別子を類似リスト(図示省略)に登録する(S41)。この類似リストは、同じ頁テキストを持つ文書データの文書識別子およびその文書データにおける同じ頁テキストの数をカウントするためのリストである。このリストも、記憶部13の所定領域に記憶される。
文書解析情報に、選択文書データにおいて現在セットされている頁の頁テキストと同じ頁テキストを持つ文書データの文書識別子がなく(S40のNo)、かつ、現在セットされている頁内のすべての頁テキストの処理が終了していれば(S42のYes)、S44へ進む。S44については後記する。一方、選択文書データにおいて現在セットされている頁内に未処理の頁テキストがあれば(S42のNo)、次の頁テキストをセットし(S43)、S39へ戻る。このような処理により、選択文書データの頁のうち、処理対象の頁について、その頁内の頁テキストと同じ頁テキストを持つ文書データの文書識別子が類似リストに登録されていく。
ここで、S42において、現在セットされている頁内のすべての頁テキストの処理が終了すると(S42のYes)、類似リストには、現在セットされている頁内の各頁テキストと同じ頁テキストを持つ文書データの文書識別子が、当該文書データにおいて同じ頁テキストを持つ数だけ登録される。例えば、選択文書データの頁Aに頁テキストA,Bが含まれている場合において、比較対象となる文書識別子「A」の文書データに、頁テキストAと同じ頁テキストがN個含まれ、頁テキストBと同じ頁テキストがM個含まれていれば、類似リストには、この文書識別子「A002」が(N+M)個登録されることになる。これにより、文書識別子「A002」について、選択文書データの頁Aの頁テキストと同じ頁テキスト数が(N+M)個あることがわかる。
判定部122は、選択文書データについて、1頁分の処理が終了すると、S44において、この類似リストに登録された文書識別子ごとの頁テキスト数を取得し、この頁テキスト数が、類似パターン情報の頁テキストに関する閾値以上の文書識別子を頁テキスト類似リストに登録する。例えば、選択文書データの頁Aの頁テキスト数が6であり、前記した閾値が50%であるとき、判定部122は、類似リストに登録される文書識別子のうち、その頁Aの頁テキストと同じ頁テキスト数が、3以上のものを頁テキスト類似リストに登録する。なお、この閾値は、類似パターン情報(表1参照)に示される類似パターンのうち、頁テキストに関する類似パターン(類似パターン識別子「3」)の頁テキスト閾値に示される値を用いる。このような処理を選択文書データの各頁について実行することで、判定部122は、選択文書データと頁単位で類似する文書データの文書識別子を探す。
S44の後、判定部122は、選択文書データについて未処理の頁があれば(S45のNo)、次の頁をセットして(S46)、S35へ戻る。一方、判定部122は、選択文書データについて、すべての頁の処理を終了していれば(S45のYes)、頁タイトル類似リストから、文書識別子ごとの類似頁数(同じ頁タイトルを持つ頁数)を取得し、類似頁数が類似パターン情報に示される閾値以上の文書識別子と、その類似頁数とを類似文書情報に登録する(S47)。
例えば、選択文書データの頁数が10頁であり、頁タイトルに関する類似パターン(表1の類似パターン識別子「2」)に関する頁閾値が80%である場合を考える。この場合において、この頁タイトル類似リストに登録されている文書識別子のうち、類似頁数(同じ頁タイトルを持つ頁数)が8頁以上の文書識別子があるとき、判定部122は、この文書識別子の文書データを、類似パターン識別子「2」の類似文書データであると判定する。よって、類似文書情報作成部123は、この類似パターンに該当する文書データの文書識別子(例えば、「A002」)と、選択文書データの文書識別子(例えば、「A001」)と、類似パターン識別子「2」と、類似頁数「8頁」とを類似文書情報に登録する(表2参照)。
この後、判定部122は、頁テキスト類似リストから、文書識別子ごとの類似頁数を取得し、この類似頁数が類似パターン情報に示される閾値以上の文書識別子と、その類似頁数とを類似文書情報に登録する(S48)。
例えば、選択文書データの頁数が10頁であり、この場合において、この頁テキスト類似リストに登録されている文書識別子のうち、類似頁数(同じ頁タイトルを持つ頁数)が8頁以上の文書識別子があるとき、判定部122は、この文書識別子の文書データを、類似パターン識別子「3」の類似文書データであると判定する。よって、類似文書情報作成部123は、この類似パターンに該当する文書データの文書識別子(例えば、「A003」)と、選択文書データの文書識別子(例えば、「A001」)と、類似パターン識別子「3」と、類似頁数「8頁」とを類似文書情報に登録する(表2参照)。そして、処理を終了する。
このようにして、図3の類似文書判定装置10は、選択文書データについて、既に文書解析情報記憶部132に文書解析情報が登録されている文書データとの類似判定を行い、その類似判定結果に基づき類似文書情報を作成する。作成された類似文書情報は、類似文書データの検索処理等に用いられる。
なお、ここでは、判定部122が、文書データについて、類似文書情報に示される3つの類似パターンのいずれかであることを判定することとしたが、これに限定されない。例えば、頁タイトルの頁閾値、頁テキストの頁閾値、頁テキスト閾値の値の組み合わせにより、類似パターン情報に様々な類似パターンを定義し、判定部122は、文書データについて、そのいずれの類似パターンにあてはまるかを判定するようにしてもよい。
次に、類似文書情報を用いた類似文書データの検索処理および表示処理を説明する。図9は、図3の類似文書判定装置による類似文書データの検索処理および表示処理を示したフローチャートである。ここでは、類似文書判定装置10が、類似パターン識別子の入力を受け付けると、類似文書情報から、この類似パターン識別子にあてはまる文書データとその類似文書データの組を検索し、その文書データとその類似文書データの組を時系列に並べ替えて表示する場合を例に説明する。
まず、図3の類似文書判定装置10の類似文書検索部124は、入出力部11経由で、類似パターン識別子の入力を受け付ける(S51)。そして、この類似文書検索部124は、入力された類似パターン識別子に一致する文書識別子と類似文書識別子の組を類似文書情報(表2)から検索する(S52)。つまり、類似文書検索部124は、入力された類似パターン識別子をキーとして、類似文書情報から、この類似パターン識別子にあてはまる文書データの文書識別子と、その類似文書データの類似文書識別子の組を取得する。
そして、類似文書検索部124は、この取得した文書識別子と類似文書識別子それぞれに対応する文書データの最終編集日時を、文書解析情報の文書ファイル情報から検索する(S53)。そして、この検索した文書識別子と類似文書識別子の組のうち、その類似文書識別子に対応する文書データの最終編集日時の最も古い類似文書識別子をセットする(S54)。この後、表示処理部126は、セットした類似文書識別子を表示画面に表示する(S55)。次に、並べ替え処理部125は、S54でセットした類似文書識別子の対となる文書識別子群について、その文書識別子に対応する文書データの最終編集日時で並べ替え(S56)、その最終編集日時の最も古い文書データの文書識別子をセットする(S57)。そして、表示処理部126は、S54でセットした類似文書識別子と、S57でセットした文書識別子とを表示する(S58)。つまり、類似文書情報に登録される類似文書データの組のうち、当該類似パターンにあてはまる最も古い類似文書データの類似文書識別子と、その類似文書データとペアになる文書データの文書識別子とを表示する。このとき、この類似文書情報に登録される類似頁数についても併せて表示するようにしてもよい。
この後、類似文書検索部124は、S56で並べ替えた文書識別子について、次に最終編集日時が古い文書識別子をセットする(S59)。そして、S56で並べ替えた文書識別子について、未処理の文書識別子があれば(S60のNo)、S58に戻る。一方、S56で並べ替えた文書識別子について、すべての文書識別子の処理が終わると(S60のYes)、類似文書検索部124は、S52で検索した文書識別子と類似文書識別子の組のうち、S54でセットした類似文書識別子の次に最終編集日時が古い類似文書データの文書識別子(類似文書識別子)の組をセットする(S61)。このようにして、S52で検索した文書識別子と類似文書識別子の組について未処理のものがあれば(S62のNo)、S55へ戻る。一方、S52で検索したすべての文書識別子と類似文書識別子の組について処理が終われば(S62のYes)、処理を終了する。
このようにすることで、類似文書判定装置10は、文書蓄積部131に蓄積される文書データについて、所定の類似パターンにあてはまる文書データの文書識別子を検索することができる。例えば、互いに同じ文書タイトルを持つ文書データ群や、同じ頁タイトルを所定の割合以上持つ文書データ群を検索することができる。また、類似文書判定装置10は、検索された文書データの最終編集日時を参照して、その類似文書データの最終編集日時が古い順に並べ、さらに同じ文書データを類似文書データとする文書データが複数あるとき、その文書データについて古い順に並べて表示する。このようにすることで、派生関係にある文書データ群について、最も古い文書データ(その文書データ群において派生元になっている可能性が高い文書データ)から順に表示し、さらにこの文書データから派生した可能性の高い文書データをその派生順に近い状態で表示することができる。
なお、ここで表示処理部126が表示する表示画面例を説明する。図10は、図3の表示処理部が表示する表示画面例を示した図である。図10に示すように、表示画面は、入力された類似パターン識別子、この類似パターン識別子をキーとして検索された類似文書識別子、その対となる文書識別子、類似頁数、類似文書データおよび文書データの最終編集日時等を含んで構成される。ここで、この類似文書識別子は、その最終編集日時が最も古いものから順に表示される。そして、その類似文書識別子と対になる文書識別子もその最終編集日時が最も古いものから順に表示される。
例えば、図10に示す画面例は、類似パターン識別子「1」にあてはまる文書識別子と類似文書識別子の組のうち、類似文書データの最終編集日時が最も古い組の類似文書識別子は「A002」であり、その最終編集日時は「2008.08.21.20:00:50」であることを示す。この類似文書識別子の対となる文書識別子のうち、その最終編集日時が最も古い文書データの文書識別子は「A001」であり、類似頁数は「10(頁)」であり、その最終編集日時は「2008.08.02.10:05:30」であることを示す。また、類似パターン識別子「1」にあてはまる文書識別子と類似文書識別子の組のうち、次に最終編集日時が古い類似文書データを持つ組は、類似文書識別子「B001」の類似文書データを持つ組であり、その最終編集日時は「2008.08.03.16:04:00」であることを示す。また、この類似文書識別子の対となる文書識別子のうち、その最終編集日時が最も古い文書データの文書識別子は「B003」であり、類似頁数は「5(頁)」であり、その最終編集日時は「2008.08.04.13:13:00」であることを示す。
表示処理部126がこのような表示画面を表示することで、ユーザが指定した類似パターンにあてはまる文書データを時系列で確認できる。つまり、文書データの派生順に近い状態で文書データを確認できる。
なお、この表示画面上の文書識別子や類似文書識別子に、文書蓄積部131に蓄積される文書データや類似文書データへのリンクを張るようにしてもよい。そして、表示画面上で、この文書識別子や類似文書識別子の選択入力を受け付けると、表示処理部126が、その文書識別子や類似文書識別子に対応する文書データを表示するようにしてもよい。このようにすることで、ユーザは類似関係にある(派生関係にあると推定される)文書データを確認しやすくなる。
なお、本発明は前記した実施の形態に限定されない。例えば、前記した図5のS6の類似判定処理において、文書蓄積部131に蓄積される文書データのうち、その最終編集日時が古いものから順に、類似文書情報を作成することとしたが、最終編集日時が新しいものから順に作成してもよい。さらに、図8に示した類似判定処理は、文書蓄積部131に蓄積される文書データを選択文書データとして用いることとしたが、それ以外の文書データであってもよい。つまり、類似文書判定装置10が、新たな文書データの入力を受け付けると、前記した手順により文書解析部121がこの文書データの、文書タイトル、頁タイトルおよび頁テキストを抽出し、判定部122が文書解析情報記憶部132に記憶される文書解析情報との類似判定を行ってもよい。この後、表示処理部126が、その類似判定結果を、表示画面上に表示するようにしてもよい。このようにすることで、類似文書判定装置10は様々な文書データの類似判定を行うことができる。
また、文書解析部121が、文書データから文書タイトルを抽出するとき、最初の頁に頁タイトルがないとき、この頁の最初の頁テキストを文書タイトルとして抽出するようにしてもよい。このようにすることで、類似文書判定装置10は、文書データから確実に文書タイトルを抽出できる。
さらに、類似文書情報作成部123は、類似文書情報を、文書蓄積部131に蓄積される文書データすべてを対象として、作成してもよい。つまり、判定部122は、文書蓄積部131の任意の2つの文書データの組み合わせについて類似判定を行い、類似文書情報を作成してもよい。このようにすることで、類似文書判定装置10は、実際に類似関係にある文書データについて類似文書情報の作成漏れが発生するのを防止できる。
さらに、類似文書検索部124は、類似文書情報を検索するとき、類似パターン識別子だけでなく、文書識別子や、類似文書識別子、文書データまたは類似文書データの最終編集日時のいずれか、またはそれらの組み合わせをキーとして検索してもよい。このようにすることで、類似文書判定装置10は、様々な類似文書データを検索することができる。
本実施の形態に係る類似文書判定装置10は、前記したような処理を実行させるプログラムによって実現することができ、そのプログラムをコンピュータが読み取り可能な記憶媒体(CD−ROM等)に記憶して提供することが可能である。
<実験結果>
次に、図11および図12を用いて類似文書判定装置10を用いた文書データの類似判定により、派生文書データをどの程度検出できるかを評価した評価実験を説明する。図11(a)は、本実験で用いた18個の文書データのファイル名を示した図であり、図11(b)は、(a)の文書データの派生関係の正解を示した図である。図12は、本実施の形態の類似文書判定装置の評価実験データを示した図である。
次に、図11および図12を用いて類似文書判定装置10を用いた文書データの類似判定により、派生文書データをどの程度検出できるかを評価した評価実験を説明する。図11(a)は、本実験で用いた18個の文書データのファイル名を示した図であり、図11(b)は、(a)の文書データの派生関係の正解を示した図である。図12は、本実施の形態の類似文書判定装置の評価実験データを示した図である。
ここでは、文書データとして、図11(a)に示す18個のパワーポイント(登録商標)ファイルを用いた。また、類似パターンとして、図12に示す15個の類似パターンを用いた。なお、図12の#16は、比較例となる時制インデクスを用いた方法である。そして、類似文書判定装置10は、この15個の類似パターンそれぞれを適用して、文書データ同士の類似判定(その文書データ同士が派生関係にあると推定できるか否かの判定)を行った。文書データ同士の実際の派生関係(派生関係の正解)は、図11(b)に示すとおりである。図11(b)において、○の中の値は、図11(a)に示すファイルのIDを示す。これらのうち「→」でつながれたファイル(文書データ)同士は、実際に派生関係にあることを示す。なお、この18個の文書データのうち、派生関係にあるペアの数は22個であった。
また、以下の説明において、正解数とは、実際に派生関係にある文書データのペアの数であり、抽出した派生数とは、類似文書判定装置10が派生関係にあると判定した文書データ同士のペアの数である。また、抽出した正解数とは、抽出した派生数のうち、実際に派生関係にある文書データ同士のペアの数である。さらに、全体正解数とは、処理対象の文書データ全体において実際に派生関係にある文書データのペアの数である。また、ここでは、適合率=抽出した正解数/抽出した派生数、再現率=抽出した正解数/全体正解数として計算した。
また、ここで用いる類似パターンは、図12に示すように、大きく判定ルール1,2,3,4というカテゴリに分けられる。判定ルール1は、比較対象となる文書データに、選択文書データと同一の頁がある場合に、その文書データを派生関係と判定(類似文書データと判定)するというルールである。判定ルール2は、選択文書データと同じテキストがある場合に、その文書データを派生関係と判定(類似文書データと判定)するというルールである。この判定ルール2は、頁テキスト閾値、頁閾値(表1参照)が設定され、その頁テキスト閾値(25%〜75%)および頁閾値の値(25%〜75%)の組み合わせにより、9個のバリエーションを設定した。さらに、判定ルール3は、選択文書データと同じ頁タイトルがある場合、その文書データを派生文書データ(類似文書データ)と判定するというルールである。この判定ルール3は、頁タイトルに関する頁閾値の値(25%〜75%)により、3個のバリエーションを設定した。判定ルール4は、選択文書データと同じ文書タイトルがある場合、その文書データを派生文書データ(類似文書データ)と判定するというルールである。なお、#15の「組み合わせ」は、前記した判定ルール1(#1)と、判定ルール2の頁テキスト25%以上一致、頁25%以上一致(#2)の両方を満たす文書データを派生文書データ(類似文書データ)と判定するというルールである。なお、#16の「時制インデクス」は、ファイル名を文字列と数字とに分割し、文字列が一致する古い文書を派生文書データ(類似文書データ)と判定するというルールである。
図12に、本実験において、各類似パターンを用いた場合の、適合率、再現率、全体正解数、抽出した派生数、抽出した正解数を示す。図12に示すように、再現率に関しては、#16の時制インデクスと比較して、いずれも高い値となっており、本実施の形態の類似文書判定装置10の有効性が示された。なお、判定ルール2の#10(頁テキスト75%以上一致、頁75%以上一致)を用いると、高い適合率(0.773)となり、判定ルール2の#2(頁テキスト25%以上一致、頁25%以上一致)を用いると、高い再現率(0.800)となることが示された。よって、この文書データ18個について、高い適合率で判定を行いたい場合、判定ルール2の#10を用い、高い再現率で判定を行いたい場合、判定ルール2の#2を用いるのが有効であることが示された。また、判定ルール2の#5(頁テキスト25%以上一致、頁50%以上一致)や、判定ルール3の#12(頁タイトル50%以上一致)は、適合率も再現率もバランスした値となっており、適合率と再現率のバランスのとれた判定処理を行いたい場合、これらのいずれかの類似パターンを用いることが有効であることが確認できた。
10 類似文書判定装置
11 入出力部(入力部)
12 処理部
13 記憶部
20 表示装置
121 文書解析部
122 判定部
123 類似文書情報作成部
124 類似文書検索部
125 並べ替え処理部
126 表示処理部
131 文書蓄積部
132 文書解析情報記憶部
133 類似パターン情報記憶部
134 類似文書情報記憶部
11 入出力部(入力部)
12 処理部
13 記憶部
20 表示装置
121 文書解析部
122 判定部
123 類似文書情報作成部
124 類似文書検索部
125 並べ替え処理部
126 表示処理部
131 文書蓄積部
132 文書解析情報記憶部
133 類似パターン情報記憶部
134 類似文書情報記憶部
Claims (10)
- 1以上の文書データの入力を受け付ける入力部と、
前記入力された文書データの構造から、前記文書データの文書タイトル、この文書データにおける頁ごとの、頁タイトルおよび頁テキストを抽出し、この抽出した文書タイトル、頁タイトルおよび頁テキストを、これらの抽出元である前記文書データの識別情報と対応付けて示した文書解析情報を作成し、記憶部に記憶する文書解析部と、
前記文書解析情報を記憶する前記記憶部と、
前記入力部経由で、新たな文書データを受け付けたとき、前記文書解析部は、この文書データの文書タイトル、この文書データにおける頁ごとの、頁タイトルおよび頁テキストを抽出し、
前記文書解析情報に示される文書データそれぞれについて、(1)この新たな文書データの文書タイトルと同じ文書タイトルか否か、(2)この新たな文書データの頁タイトルと同じ頁タイトルの頁数の割合、(3)この新たな文書データの頁テキストと同じ頁テキストの割合の、いずれかまたはその組み合わせからなる類似パターンに基づき、前記文書解析情報に示される文書データが、いずれかの類似パターンにあてはまる類似文書データか否かを判定し、前記いずれかの類似パターンにあてはまる類似文書データと判定したとき、その類似パターンを含む判定結果を出力する判定部とを備えることを特徴とする類似文書判定装置。 - 前記文書解析部は、この文書データの最初の頁の頁タイトルを、この文書データの文書タイトルとして抽出し、前記文書解析情報を作成することを特徴とする請求項1に記載の類似文書判定装置。
- 前記文書解析部は、この文書データの最初の頁の頁タイトルがなかった場合、この文書データの最初の頁の頁テキストを、この文書データの文書タイトルとして抽出し、前記文書解析情報を作成することを特徴とする請求項1または請求項2に記載の類似文書判定装置。
- 前記文書解析部は、この文書データに頁タイトルのない頁があった場合、この頁の頁テキストを、頁タイトルとして抽出し、前記文書解析情報を作成することを特徴とする請求項1ないし請求項3のいずれか1項に記載の類似文書判定装置。
- 前記類似文書判定装置は、
前記判定部による判定結果に基づき、前記文書データの識別情報ごとに、前記判定された類似パターンの識別情報と、この類似パターンにあてはまる類似文書データの識別情報とを対応付けて示した類似文書情報を作成し、前記記憶部に記憶する類似文書情報作成部と、
前記入力部経由で、前記類似パターンの識別情報および前記文書データの識別情報の少なくとも一方を含んでなる検索条件を示した検索要求の入力を受け付けたとき、この検索条件を満たす前記文書データおよびその類似文書データの組を前記類似文書情報から検索する類似文書検索部と、
前記検索結果を表示する表示処理部とを備えることを特徴とする請求項1ないし請求項4のいずれか1項に記載の類似文書判定装置。 - 前記文書解析部は、さらに、前記文書データそれぞれの最終編集日時を抽出して前記文書解析情報に含め、
前記類似文書判定装置は、
前記文書解析情報に示される前記文書データの最終編集日時を参照して、前記類似文書情報から検索した前記文書データおよびその類似文書データの組を、その組における類似文書データの最終編集日時の古い順または新しい順に並べ替え、前記検索した文書データおよびその類似文書データの組のうち、同じ類似文書データに対し、その対となる文書データの異なる組が複数ある場合、その組を、その組における前記文書データの最終編集日時の古い順または新しい順に並べ替える並べ替え処理部を備え、
前記表示処理部は、前記並べ替えた文書データおよびその類似文書データの組を表示することを特徴とする請求項5に記載の類似文書判定装置。 - 前記記憶部は、前記1以上の文書データを記憶する文書蓄積部を備え、
前記文書解析部は、前記文書蓄積部に記憶された文書データを選択し、その選択した文書データの文書タイトルと、この文書データにおける頁ごとの、頁タイトルおよび頁テキストとを抽出し、
前記判定部は、既に前記記憶部に記憶された文書解析情報に示される文書データそれぞれについて、(1)前記選択した文書データの文書タイトルと同じ文書タイトルか否か、(2)前記選択した文書データの頁タイトルと同じ頁タイトルの頁数の割合、(3)前記選択した文書データの頁テキストと同じ頁テキストの割合の、いずれかまたはその組み合わせからなる類似パターンに基づき、前記文書解析情報に示される文書データの、前記選択した文書データに対する類似パターンを判定して、その判定結果を出力し、
前記文書解析部は、前記選択した文書データから抽出した文書タイトル、頁タイトルおよび頁テキストを、前記選択した文書データの識別情報と対応付けた前記文書解析情報を作成し、前記記憶部に記憶することを特徴とする請求項6に記載の類似文書判定装置。 - 前記文書解析部は、前記文書蓄積部に記憶された文書データを、その最終編集日時の古い順に選択し、その選択した文書データの文書タイトルと、この文書データにおける頁ごとの、頁タイトルおよび頁テキストとを抽出し、
前記並べ替え処理部は、前記類似文書情報から検索した前記文書データおよびその類似文書データの組を、その組における類似文書データの最終編集日時が古い順に並べ替え、前記検索した文書データおよびその類似文書データの組のうち、同じ類似文書データに対し、その対となる文書データの異なる組が複数ある場合、その組を、その組における前記文書データの最終編集日時の古い順に並べ替えることを特徴とする請求項7に記載の類似文書判定装置。 - 文書データの類似判定を行う類似文書判定装置が、
1以上の文書データの入力を受け付けるステップと、
前記入力された文書データの構造から、前記文書データの文書タイトル、この文書データにおける頁ごとの、頁タイトルおよび頁テキストを抽出し、この抽出した文書タイトル、頁タイトルおよび頁テキストを、これらの抽出元である前記文書データの識別情報と対応付けて示した文書解析情報を作成するステップと、
前記作成した文書解析情報を、記憶部に記憶するステップと、
新たな文書データを受け付けたとき、この文書データの文書タイトル、この文書データにおける頁ごとの、頁タイトルおよび頁テキストを抽出するステップと、
前記文書解析情報に示される文書データそれぞれについて、(1)この新たな文書データの文書タイトルと同じ文書タイトルか否か、(2)この新たな文書データの頁タイトルと同じ頁タイトルの頁数の割合、(3)この新たな文書データの頁テキストと同じ頁テキストの割合の、いずれかまたはその組み合わせからなる類似パターンに基づき、前記文書解析情報に示される文書データが、いずれかの類似パターンにあてはまる類似文書データか否かを判定し、前記いずれかの類似パターンにあてはまる類似文書データと判定したとき、その類似パターンを含む判定結果を出力するステップとを実行することを特徴とする類似文書判定方法。 - 請求項9に記載の類似文書判定方法を、前記類似文書判定装置であるコンピュータに実行させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008229104A JP2010061587A (ja) | 2008-09-05 | 2008-09-05 | 類似文書判定装置、類似判定方法およびそのプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008229104A JP2010061587A (ja) | 2008-09-05 | 2008-09-05 | 類似文書判定装置、類似判定方法およびそのプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2010061587A true JP2010061587A (ja) | 2010-03-18 |
Family
ID=42188280
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008229104A Pending JP2010061587A (ja) | 2008-09-05 | 2008-09-05 | 類似文書判定装置、類似判定方法およびそのプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2010061587A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015176362A (ja) * | 2014-03-14 | 2015-10-05 | 富士ゼロックス株式会社 | デザイン管理装置及びプログラム |
| JP2017117311A (ja) * | 2015-12-25 | 2017-06-29 | 富士通株式会社 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
| WO2019012572A1 (ja) * | 2017-07-10 | 2019-01-17 | 株式会社日立製作所 | データリニエージ検出装置、データリニエージ検出方法、及びデータリニエージ検出プログラム |
| CN112287105A (zh) * | 2020-09-30 | 2021-01-29 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
| JP7125186B1 (ja) | 2022-04-11 | 2022-08-24 | 株式会社BoostDraft | ファイル派生関係特定プログラム、および、ファイル派生関係特定システム |
| US11468689B2 (en) | 2020-03-11 | 2022-10-11 | Apollo Intelligent Driving Technology (Beijing) Co., Ltd. | Method and apparatus for detecting obstacle, electronic device and storage medium |
| US11501551B2 (en) * | 2020-06-08 | 2022-11-15 | Optum Services (Ireland) Limited | Document processing optimization |
-
2008
- 2008-09-05 JP JP2008229104A patent/JP2010061587A/ja active Pending
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015176362A (ja) * | 2014-03-14 | 2015-10-05 | 富士ゼロックス株式会社 | デザイン管理装置及びプログラム |
| JP2017117311A (ja) * | 2015-12-25 | 2017-06-29 | 富士通株式会社 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
| WO2019012572A1 (ja) * | 2017-07-10 | 2019-01-17 | 株式会社日立製作所 | データリニエージ検出装置、データリニエージ検出方法、及びデータリニエージ検出プログラム |
| JPWO2019012572A1 (ja) * | 2017-07-10 | 2019-11-07 | 株式会社日立製作所 | データリニエージ検出装置、データリニエージ検出方法、及びデータリニエージ検出プログラム |
| US11468689B2 (en) | 2020-03-11 | 2022-10-11 | Apollo Intelligent Driving Technology (Beijing) Co., Ltd. | Method and apparatus for detecting obstacle, electronic device and storage medium |
| US11501551B2 (en) * | 2020-06-08 | 2022-11-15 | Optum Services (Ireland) Limited | Document processing optimization |
| US11830271B2 (en) | 2020-06-08 | 2023-11-28 | Optum Services (Ireland) Limited | Document processing optimization |
| CN112287105A (zh) * | 2020-09-30 | 2021-01-29 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
| CN112287105B (zh) * | 2020-09-30 | 2023-09-12 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
| JP7125186B1 (ja) | 2022-04-11 | 2022-08-24 | 株式会社BoostDraft | ファイル派生関係特定プログラム、および、ファイル派生関係特定システム |
| JP2023155619A (ja) * | 2022-04-11 | 2023-10-23 | 株式会社BoostDraft | ファイル派生関係特定プログラム、および、ファイル派生関係特定システム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10275434B1 (en) | Identifying a primary version of a document | |
| KR100739726B1 (ko) | 문자열 매칭 방법 및 시스템과 그 방법을 기록한 컴퓨터판독 가능한 기록매체 | |
| KR100930455B1 (ko) | 쿼리별 검색 컬렉션 생성 방법 및 시스템 | |
| JP5185402B2 (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
| JP2010061587A (ja) | 類似文書判定装置、類似判定方法およびそのプログラム | |
| JP2008152774A (ja) | 固有表現抽出装置、方法、及びプログラム | |
| JP2008511075A5 (ja) | ||
| JP2006331419A (ja) | 情報を意味的にズームするためのシステム及び方法 | |
| JP2009271799A (ja) | 企業相関情報抽出システム | |
| JP5724009B2 (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
| CN104750776A (zh) | 使用元数据访问数据库平台中的信息内容 | |
| JP5151368B2 (ja) | 情報処理装置および情報処理プログラム | |
| CN103186650B (zh) | 一种搜索方法和装置 | |
| JP4912384B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
| JP4896132B2 (ja) | 情報価値を反映した情報検索方法及びその装置 | |
| JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
| CN101310277A (zh) | 获得文本的表示的方法 | |
| JP2005128872A (ja) | 文書検索システム及び文書検索プログラム | |
| JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
| KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
| JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
| JP5464082B2 (ja) | 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH0561910A (ja) | 全文インデツクス検索方法 | |
| JP2013161182A (ja) | テスト項目生成装置、テスト項目生成方法 | |
| JP2006302024A (ja) | 関連文書表示方法及びプログラム |