[go: up one dir, main page]

JP4972271B2 - 検索結果提示装置 - Google Patents

検索結果提示装置 Download PDF

Info

Publication number
JP4972271B2
JP4972271B2 JP2004167287A JP2004167287A JP4972271B2 JP 4972271 B2 JP4972271 B2 JP 4972271B2 JP 2004167287 A JP2004167287 A JP 2004167287A JP 2004167287 A JP2004167287 A JP 2004167287A JP 4972271 B2 JP4972271 B2 JP 4972271B2
Authority
JP
Japan
Prior art keywords
subtopic
word list
related word
classification
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004167287A
Other languages
English (en)
Other versions
JP2005346560A (ja
Inventor
祐一 小川
菅谷  奈津子
忠孝 松林
隆明 弥生
正明 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004167287A priority Critical patent/JP4972271B2/ja
Publication of JP2005346560A publication Critical patent/JP2005346560A/ja
Application granted granted Critical
Publication of JP4972271B2 publication Critical patent/JP4972271B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、大量の電子化文書の中からユーザーが目的とする文書を検索する文書検索において、検索結果を効率よく参照するための検索結果提示方法およびその装置並びに検索結果提示プログラムを格納した記録媒体に関する。
近年、パーソナルコンピュータやインターネットの普及に伴い、電子化文書が大量に存在するようになった。その大量の電子化文書の中からユーザーが目的とする文書(以下、目的文書と呼ぶ)を効率よく検索する文書検索技術が盛んに開発されており、中でも検索条件として入力された文章(以下、種文章と呼ぶ)と類似した文書を検索する類似文書検索が注目されている。
類似文書検索方法の1つとして、「特開2002−73681号公報」で開示されている技術(以下、従来技術1と呼ぶ)がある。従来技術1では、検索条件として指定された種文章から複数の特徴的な語(以下、特徴語と呼ぶ)を抽出し、その特徴語を用いて種文章に類似した文書を検索する。
特開2002−73681号公報
一般的に文章中には複数のサブトピックが含まれる場合が多い。サブトピックとは、文章の概念に含まれる部分的な概念又は内容のことを示す。例えば、文章が「H社の地上デジタル放送対応プラズマテレビ」の場合、文章中のサブトピックについては、(1)「テレビ」、(2)「プラズマテレビ」、(3)「H社」および(4)「地上デジタル放送対応」等が含まれる。しかし、検索条件として種文章を用いる類似文書検索では、種文章に複数のサブトピックが含まれる場合、検索によって得られる文書(以下、適合文書と呼ぶ)の集合にはそれぞれのサブトピックに関する文書が混在する。例えば、検索者が(2)「プラズマテレビ」および(4)「地上デジタル放送対応」に関する情報が知りたいときに、種文章として「H社の地上デジタル放送対応プラズマテレビ」が選択されたとする。この場合、適合文書の集合には、前述4つのサブトピックを単体あるいは複数含む文書が混在する。この結果、従来技術1を用いて得られた検索結果を上位から順に参照した場合、検索者にとって必要のない(2)および(4)以外のサブトピックに関する適合文書についても1件ずつ目的文書であるかどうかを判断していかなくてはならない。すなわち、目的文書にたどり着くまでに非常に多くの時間を要してしまう。
本発明は、上記の課題を解決すべく、同じサブトピックで適合した適合文書をグルーピングして提示することで、素早く目的文書を探し出すことができる検索結果提示方法を提供することを目的とする。
上記目的を達成するために、本発明は、指定された検索条件に対する検索結果として得られた検索結果文書集合を分類して表示する検索結果提示装置において、前記指定された検索条件から特徴語を抽出する特徴語抽出手段と、前記特徴語抽出手段で抽出された特徴語間の関連性を判定し、関連する特徴語間をまとめた関連単語リストを生成する関連単語リスト生成手段と、前記関連単語リスト生成手段で生成された各関連単語リストに対する適合文書の関連単語リスト適合度を算出する関連単語リスト適合度算出手段と、前記関連単語リスト適合度算出手段で算出された関連単語リスト適合度から、該適合文書の該関連単語リストに対する適合性を判定し、該適合性が高いと判定された場合には適合文書を関連単語リストに関連付けて保持する分類判定手段と、前記分類判定手段で各関連単語リストに関連付けられた適合文書集合に対して、分類の識別情報を付与する分類識別情報付与手段と、前記分類識別情報付与手段で生成された識別情報を各分類に付与して、検索結果集合文書を表示する検索結果表示手段とを有することを特徴とする。
本発明によれば、適合文書集合に検索条件に含まれる複数のサブトピックが混在している場合でも、サブトピック別に適合文書が表示されているため、目的文書を効率よく探し出すことができる。
本発明に係る検索結果提示方法及びその装置並びに検索結果提示プログラムを格納した記録媒体の実施の形態について図面を用いて説明する。
[第1の実施の形態]
本発明に係る第1の実施の形態について図1乃至図9を用いて説明する。
図1Aは、本発明に係る第1の実施の形態における文書検索システムの全体構成をプログラムを主体に示す図であり、図1Bは、本発明に係る第1の実施の形態における文書検索システムの全体構成を機能的に示す図である。本発明における第1の実施の形態は、ディスプレイ100、キーボード101、中央演算処理装置(CPU)102、磁気ディスク装置103、フレキシブルディスクドライブ(FDD)104、主メモリ105、これらを結ぶバス106および他の機器と本システムを接続するネットワーク107から構成される。
磁気ディスク装置103は二次記憶装置の一つであり、テキスト180が格納される。FFDD104を介してフレキシブルディスク108に格納されている情報が、主メモリ105あるいは磁気ディスク装置103へ読み込まれる。
主メモリ105には、システム制御プログラム110、登録制御プログラム120、検索制御プログラム130、検索結果分類制御プログラム140、サブトピックラベル生成制御プログラム150、文書ファイル取得プログラム121、テキスト登録プログラム122、検索条件取得プログラム131、特徴語抽出プログラム132、テキスト読込プログラム133、検索結果出力プログラム134、サブトピック抽出プログラム141、分類判定プログラム142、ラベル用特徴語抽出プログラム151、共有ライブラリ160およびワークエリア170が確保される。
共有ライブラリ160は、適合度算出プログラム161で構成される。
システム制御プログラム110は、登録制御プログラム120および検索制御プログラム130で構成される。
登録制御プログラム120は、文書ファイル取得プログラム121およびテキスト登録プログラム122で構成される。
検索制御プログラム130は、検索条件取得プログラム131、特徴語抽出プログラム132、テキスト読込プログラム133、検索結果出力プログラム134、検索結果分類制御プログラム140、サブトピック生成制御プログラム150で構成されるとともに、適合度算出プログラム161を呼び出す構成をとる。
検索結果分類制御プログラム140は、サブトピック抽出プログラム141および分類判定プログラム142で構成されるとともに、適合度算出プログラム161を呼び出す構成をとる。
サブトピック生成制御プログラム150は、ラベル用特徴語抽出プログラム151で構成される。
登録制御プログラム120および検索制御プログラム130は、ユーザーによるキーボード101からの入力に応じてシステム制御プログラム110によって起動され、それぞれ文書ファイル取得プログラム121、テキスト登録プログラム122の制御と、検索条件取得プログラム131、特徴語抽出プログラム132、テキスト読込プログラム133、検索結果出力プログラム134、検索結果分類制御プログラム140、サブトピックラベル生成制御プログラム150および適合度算出プログラム161の制御を行なう。
本実施の形態では、キーボード101から入力されたコマンドにより登録制御プログラム120および検索制御プログラム130が起動されるものとしたが、他の入力装置を介して入力されたコマンドあるいはイベントにより起動されるものであってもかまわない。
また、これらのプログラムを磁気ディスク103、フレキシブルディスク108、MO、CD−ROM、DVD等の記憶媒体(図1A及び図1Bには示していない)に格納し、駆動装置を介して主メモリ105に読み込み、CPU102によって実行することが可能である。また、これらのプログラムをネットワーク107を介して主メモリ105に読みこみ、CPU102によって実行することも可能である。この場合、CPU102内には,各プログラム110、120(121〜122)、130(131〜134、140(141〜142)、150(151))、161によって実行される機能的な部分を有することになる。102−110はシステム制御部である。102−120は登録制御部、102−130は検索制御部、102−140は検索結果分類制御部、102−150はサブトピックラベル生成制御部である。さらに、102−161は適合度算出部である。
また、本実施の形態ではテキスト180は磁気ディスク装置103に格納されるものとしたが、フレキシブルディスク108、MO、CD−ROM、DVD等の記憶媒体(図1A及び図1Bには示していない)に格納し、駆動装置を介して主メモリ105に読み込み利用することも可能であるし、あるいはネットワーク107を介して、他のシステムに接続された記憶媒体(図1A及び図1Bには示していない)に格納されるものとしてもよい。
また、さらにはネットワーク107に直接接続された記憶媒体に格納されるものとしても構わない。
以上が、本第1の実施の形態における文書検索システムの構成の説明である。
次に、本第1の実施の形態における文書検索システムの処理手順について説明する。
まず、システム制御部102−110における、システム制御プログラム110に基づく処理手順について説明する。
システム制御部102−110は、システム制御プログラム110に基づいて、まずキーボード101から入力されたコマンドを解析する。この結果が登録実行のコマンドであると解析された場合には、システム制御部102−110は、登録制御プログラム120を起動して、文書の登録を行なう。
また、検索実行のコマンドであると解析された場合には、システム制御部102−110は、検索制御プログラム130を起動して、検索条件として入力されたキーワードを用いた論理演算式や複数の単語や文、文章あるいは文書(以下、まとめて種文章と呼ぶ)に関連した文書の検索を行なう。
以上が、システム制御プログラム110に基づく処理手順である。
次に、登録制御部102−120における、システム制御プログラム110により起動される登録制御プログラム120に基づく処理手順について説明する。
登録制御部102−120は、登録制御プログラム120に基づいて、まず文書ファイル取得プログラム121を起動し、FDD104を介してフレキシブルディスク108に格納されている文書ファイルを読み込む。
次に、登録制御部102−120は、テキスト登録プログラム122を起動して、前記文書ファイル取得プログラム121で読み込まれた文書ファイルからテキストを抽出し、テキスト180として磁気ディスク装置103に格納する。
以上が、登録制御プログラム120に基づく処理手順である。
なお、文書ファイルはフレキシブルディスク108に格納されているものとしたが、MO、CD−ROM、DVD等の記憶媒体(図1A、図1Bには示していない)に格納されるものとしてもよいし、ネットワーク107を介して、他のシステムに接続された記憶媒体(図1A、図1Bには示していない)に格納されるものとしてもよい。
また、文書ファイル取得プログラム121で読み込まれた文書ファイルはテキストが抽出できるものならばよく、テキストファイルとして保存されているものであってもよいし、アプリケーションソフトの保存形式であってもよい。
次に、検索制御部102−130における、システム制御プログラム110により起動される検索制御プログラム130に基づく処理手順について図2に示すPAD図を用いて説明する。
検索制御部102−130は、検索制御プログラム130に基づいて、まず検索条件取得プログラム131を起動し、検索条件を読み込み、ワークエリア170に格納する(ステップ200)。
次に、検索制御部102−130は、特徴語抽出プログラム132を起動し、前記検索条件取得プログラム131により取得された検索条件から検索条件の特徴を表す文字列(以下、特徴語500と呼ぶ)を抽出し、ワークエリア170に格納する(ステップ210)。
次に、検索制御部102−130は、テキスト180に含まれるすべてのテキストに対して、ステップ221〜ステップ222を繰り返し実行する(ステップ220)。まず、検索制御部102−130は、テキスト読込プログラム133を起動し、磁気ディスク装置103に格納されているテキスト180からテキストを1つ読み込み、ワークエリア170に格納する(ステップ221)。次に、検索制御部102−130は、適合度算出プログラム161を起動し、前記テキスト読込プログラム133により読み込まれたテキストに対し、例えば、従来技術1に記載されたように、検索条件に対するテキストの適合度を算出し、その算出結果501をワークエリア170に格納する(ステップ222)。
次に、検索制御部102−130は、検索結果分類制御部102−140に対して、検索結果分類制御プログラム140を起動し、前記特徴語抽出プログラム132により抽出された特徴語500から検索条件に関するサブトピックの抽出およびサブトピックプロファイルの生成を行なう。このサブトピックプロファイル502を用いて、適合度算出部102−161における前記適合度算出プログラム161によって算出された適合度が予め設定された適合性判定閾値以上のテキスト(以下、適合テキストと呼ぶ)が、検索条件に含まれるサブトピックに関してそれぞれどこの分類に属するかを判定し、その分類判定結果506をワークエリア170に格納する(ステップ230)。
次に、検索制御部102−130は、サブトピックラベル生成制御部102−150に対して、検索結果分類制御プログラム140により抽出されたすべてのサブトピックに対して、ステップ241を繰り返し実行する(ステップ240)。
検索制御部102−130は、サブトピックラベル生成制御部102−150に対して、サブトピックラベル生成制御プログラム150を起動し、前記検索結果分類制御プログラム140により生成されたサブトピックプロファイル502から重要な特徴語を抽出し、抽出された特徴語をサブトピックのラベル(以下、サブトピックラベルと呼ぶ)503としてワークエリア170に格納する(ステップ241)。
そして、検索制御部102−130は、検索結果出力プログラム134を起動し、各適合テキストの前記検索結果分類制御プログラム140(142)の分類判定結果506に基づいて、サブトピック別に適合テキスト504およびサブトピックラベル503を表示する(ステップ250)。
以上が、検索制御プログラム130に基づく処理手順である。
なお、適合度算出部102−161で実行する適合度算出プログラム161は、例えば、従来技術1を用いるものとしたが、ベクトル空間法における余弦尺度を用いた適合度算出方法など他の適合度算出方法を適用してもよい。また、検索条件がキーワードを用いた論理演算式の場合には、特徴語抽出プログラム132に関する処理を行なわず、特開平11−154164号公報や特開2001−84255号公報で開示されている方法を用いて検索条件に対する適合度算出方法を適用してもよい。
また、上記ステップ220ではテキスト180に含まれるすべてのテキストに対して、ステップ221〜ステップ222を繰り返すものとしたが、予め付与された日付などの属性情報を条件にテキスト180に含まれる一部のテキストに対して繰り返されるものであってもよい。これにより、検索処理時間の高速化が図れる。
また、特徴語抽出プログラム132により抽出される特徴語500は、検索条件が種文章である場合、漢字やカタカナといった文字種の境界で分割された文字列であってもよいし、文章中に存在するスペースなどの区切り文字により分割された文字列であってもよいし、形態素解析により抽出される単語やn-gramとして抽出される文字列であってもよいし、その他の方法により抽出された文字列であってもかまわない。一方、検索条件がキーワードを用いた論理演算式の場合は、用いられたキーワードを特徴語としてもよい。
また、本実施の形態ではテキスト読込プログラム133によって読み込まれたテキスト全体を対象に適合度を算出するものとしたが、テキスト全体でなくてもよい。例えばSGML(Standard Generalized Markup Language)やXML(extensible markup language)などの構造化テキストについてはテキストの一部の構造を対象としてもよい。これにより、該テキストに対する適合度算出処理の負荷が軽減し、検索処理時間の高速化が図れる。
次に、検索結果分類制御部102−140における、図2のステップ230で検索制御プログラム130により起動される検索結果分類制御プログラム140に基づく処理手順について、図3に示すPAD図を用いて説明する。
まず、検索結果分類制御部102−140は、サブトピック抽出プログラム141を起動し、前記特徴語抽出プログラム132により検索条件から抽出された特徴語から各特徴語間の関連性を考慮してサブトピックおよびサブトピック別の特徴語を抽出し、これらをサブトピックプロファイル502としてワークエリア170に格納する(ステップ300)。
次に、検索結果分類制御部102−140は、すべての適合テキストに対して、ステップ320を繰り返し実行する(ステップ310)。
次に、検索結果分類制御部102−140は、サブトピック抽出プログラム141により抽出されたすべてのサブトピックに対して、ステップ321〜ステップ322を繰り返し実行する(ステップ320)。
まず、検索結果分類制御部102−140は、適合度算出部102−161での適合度算出プログラム161を起動し、サブトピックに関するサブトピックプロファイルの特徴語の総数、および適合テキストに含まれるサブトピックプロファイルの特徴語の数を用いて、次に示す(1)式によりサブトピックに対する適合テキストの適合度(以下、サブトピック別適合度と呼ぶ)504を算出し、その算出結果をワークエリア170に格納する(ステップ321)。
サブトピックに対する適合テキストの適合度=(対象テキストに含まれる特徴語の数)/(特徴語の総数) (1)
次に、分類判定プログラム142を起動し、前記適合度算出プログラム161によって算出されたサブトピック別適合度504を、該サブトピックに対する適合性を判定する際の適合性判定基準値(以下、サブトピック適合性判定閾値と呼ぶ)505と比較する。この結果、サブトピック適合性判定閾値以上であった場合は、該適合テキストを該サブトピックの分類に属するものと判定し、その分類判定結果506をワークエリア170に格納する(ステップ322)。
以上が、検索結果分類制御プログラム140に基づく処理手順である。
なお、上記ステップ321におけるサブトピック別適合度の算出には上記(1)式を適用したが、ベクトル空間法における余弦尺度など他の適合度算出式を適用してもよい。
また、上記ステップ322では、サブトピック適合性判定閾値を用いて適合テキストがどのサブトピックの分類に属するかを判定するものとしたが、該サブトピックに関するサブトピック別適合度の降順に、所定の件数の適合テキストを該サブトピックの分類に属するものとして判定してもよい。
次に、検索結果分類制御部102−140における、検索結果分類制御プログラム140により起動されるサブトピック抽出プログラム141に基づく処理手順について、図4に示すPAD図を用いて説明する。
まず、検索結果分類制御部102−140は、前記特徴語抽出プログラム132で抽出されたすべての特徴語500に対して、ステップ401を繰り返し実行する(ステップ400)。
そして、図6に示す出現パターン生成処理600により、すべての適合テキスト(文書1、文書2、…)501における特徴語(H-company, satellite, digital, plasma, television, broadcast, …)500の出現の有無を“1”or“0”で表した出現パターン610を生成し、ワークエリア170に格納する(ステップ401)。
次に、検索結果分類制御部102−140は、すべての特徴語の中から2つの特徴語の組み合わせを重複なく生成し、各組み合わせについてステップ411〜ステップ414を繰り返し実行する(ステップ410)。ここで、各組み合わせに含まれる特徴語を、それぞれ特徴語Aと特徴語Bとして、以下説明する。
まず、検索結果分類制御部102−140は、図6に示す単語間関連度算出処理601により、2つの特徴語Aと特徴語Bの出現パターン610を用いて、後述する(4)式に基づく余弦尺度により特徴語Aと特徴語B間の関連度(以下、単語間関連度と呼ぶ)を算出し、ワークエリア170に格納する(ステップ411)。
次に、図6に示すように、特徴語Aと特徴語B間の単語間関連度が、予め設定された関連性判定閾値以上であった場合、ステップ413〜ステップ414を実行してグルーピング処理602を行って関連単語リスト612を作成する(ステップ412)。
まず、特徴語Bを特徴語Aに関する単語リスト(以下、関連単語リストと呼ぶ)に入れ、ワークエリア170に格納する(ステップ413)。
次に、特徴語Aを特徴語Bに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ414)。
次に、図6に示すように、各特徴語に関する関連単語リスト間でリストに含まれる特徴語を比較する。この結果、含まれる特徴語が同じである関連単語リスト間については重複排除処理603をして1つの関連単語リストにまとめる。この結果、最終的に得られた関連単語リストをサブトピックプロファイル613とし、ワークエリア170に格納する(ステップ420)。
以上が、サブトピック抽出プログラム141での処理手順である。
なお、上記ステップ411における単語間関連度の算出方法については余弦尺度を用いたが、他の単語間関連度の算出方法を適用してもよい。
また、サブトピック抽出プログラム141では特徴語間のグルーピングを行なうために、適合テキストにおける特徴語の出現パターンから特徴語間の単語間関連度を算出したが、検索条件がキーワードを用いた論理演算式の場合は、論理演算式からand関係やor関係などの特徴語間の論理関係を解析することで、特徴語間の単語間関連度算出およびグルーピングを行なってもよい。また、検索条件が種文章の場合は、特徴語間の出現位置や修飾関係を解析することで、特徴語間の単語間関連度算出およびグルーピングを行なってもよい。また、検索条件や適合テキストだけでなく、関連語辞書を用いて特徴語間の単語関連度算出およびグルーピングを行なってもよい。
また、特徴語間のグルーピングには、各特徴語に関する関連単語リストを生成する方法で行なうものとしたが、予め設定されたグループ数に基づいて、一般的なクラスタリング手法である最小距離法、最大距離法、群平均法およびK-Means法を用いて特徴語間をグルーピングしてもよいし、その他のグルーピング手法を用いてもよい。
以下、本実施の形態における文書検索システムにおいて、検索結果分類制御プログラム140およびサブトピックラベル生成制御プログラム150に基づく具体的な処理の流れを図5を用いて説明する。
図5に示した実施例は、文書1「In recent years the pace of development toward digital video and satellite digital broadcasting has been rapid. This is producing a global expansion of the market for large-display home theater systems used with AV sources such as DVD that deliver high-quality, digital sound and vision. The 52-inch display of the AAA provides easy viewing pleasure in a living-room for the whole family. There are two sets of component inputs for interfacing with future digital broadcast devices and digital video equipment.」(タイトル:The 52-inch display of the AAA)、文書2「The ultimate in plasma television technology. This flagship of the plasma line is a blend of performance, style and usability, featuring a Learning AV NET that puts complete control of an entire home theater system in the palm of your hand. The ultra-thin, sculpted lines and high-gloss titanium finish of this "best-in-class" series is perfect for the widescreen enthusiast who demands unparalleled performance in a sleek elegant design. The H-company BBB's Series with technology is truly the ultimate in plasma television.」(タイトル:H-company plasma television technology)および文書3が磁気ディスク装置103に格納された文書検索システムにおいて、検索者が「H社のプラズマテレビ」に関する情報を知るために種文章510「H-company has become the first manufacturer in the world to perfect broadcast satellite digital high-definition plasma television in 37V. The television's high-definition plasma display panel (PDP) uses the alternate lighting of surfaces (ALIS) format and is the first to enable such high-resolution definition in the 37V, which has until now been difficult with this size. It is configured in the consumer industry's smallest pixel pitch of 0.81mm 5 0.45mm and delivers the high resolution of 1,024 pixels horizontally and 1,024 pixels vertically, thereby allowing the maximum enjoyment of the superior picture quality of digital high-definition television viewing.」が選択された結果、特徴語抽出プログラム132(例えば従来技術1に記載された方法)により種文章510のプロファイルとして特徴語500、適合度算出プログラム161により検索結果として文書1および文書2の適合テキスト501が得られた状態である。
まず、検索結果分類制御部102−140において、サブトピック抽出プログラム141が実行され、適合テキスト501における特徴語500の出現パターン610から、単語間関連度算出処理601により、各特徴語間の単語間関連度を算出する。そこで、算出された各特徴語間の単語間関連度から特徴語500に含まれる特徴語間を、グルーピング処理602によりグルーピングし、種文章に関するサブトピックプロファイル502を生成する。本図に示した実施例では、特徴語500から3つのサブトピックが抽出されており、それぞれ「H-company」「plasma」「television 」を要素とするサブトピックプロファイル1、「satellite」「digital」「broadcast 」を要素とするサブトピックプロファイル2、「plasma」「display」「panel」を要素とするサブトピックプロファイル3、…が生成されている。
次に、サブトピックラベル生成制御部102−150において、すべてのサブトピック(S1、S2、S3、…)に対して、サブトピックラベル生成制御プログラム150が実行され、各サブトピックプロファイル502から重要な特徴語を抽出して、サブトピックの内容を示すサブトピックラベル503を生成する。本図に示した実施例では、サブトピック1(S1)については「H-company」「plasma」「television」、サブトピック2(S2)については「satellite」「digital」「broadcast」、サブトピック3(S3)については「plasma」「display」「panel」が、それぞれ抽出され、サブトピックラベル503として生成されている。
次に、適合テキスト501に対して適合度算出プログラム161が実行され、上記(1)式によりサブトピック別適合度504を算出する。本図に示した実施例では、文書1については、サブトピック1〜サブトピック3(本図中ではS1〜S3と表示)に対するサブトピック別適合度がそれぞれ、“0.0”、“1.0”、“0.3”と算出されている。また、文書2については、サブトピック1〜サブトピック3(本図中ではS1〜S3と表示)に対するサブトピック別適合度がそれぞれ、“1.0”、“0.0”、“0.3”と算出されている。
次に、分類判定プログラム142が実行され、適合テキスト501に対してサブトピック別適合度504およびサブトピック適合性判定閾値505から、該適合テキストがどこのサブトピックの分類に属するかを判定する。本図の実施例では、各サブトピックのサブトピック適合性判定閾値を“0.5”としているため、文書1はサブトピック2、文書2はサブトピック1の分類に属するものと判定される。以上が、検索結果分類制御プログラム140およびサブトピックラベル生成制御プログラム150の具体的な処理の流れである。
以下、図5に示したサブトピック抽出プログラム141の具体的な処理の流れについて図6を用いて説明する。
まず、出現パターン生成処理600により、適合テキスト501における特徴語500の出現パターン610を生成する。例えば文書1〜文書6に対して、特徴語「plasma」は文書1、文書3および文書6に出現している場合、出現パターンとして次に示す(2)式を生成する。また、特徴語「television」は文書1、文書3、文書4、文書5および文書6に出現している場合、出現パターンとして次に示す(3)式を生成する。
「plasma」の出現パターン=(1,0,1,0,0,1) (2)
「television」の出現パターン=(1,0,1,1,1,1) (3)
次に、単語間関連度算出処理601により、出現パターン610から各特徴語間の関連度611を算出する。特徴語間の関連度算出方法は、各特徴語の出現パターンを特徴ベクトルと考えて、余弦尺度より算出する。例えば、特徴語「plasma」と特徴語「television」の出現パターンがそれぞれ(2)式、(3)式であった場合、特徴語「plasma」と特徴語「television」間の単語間関連度は次の(4)式より“0.77”となる。
Figure 0004972271
次に、グルーピング処理602より、特徴語間の関連度611を用いて特徴語500に含まれる各特徴語別に関連単語リストを生成する。この結果、各特徴語に関する関連単語リスト612が得られる。本図の実施例では、関連単語リストに含まれる単語間関連度の閾値を“0.5”として、「H-company 」に関する関連単語リストは「H-company」「plasma」「television」、「satellite 」に関する関連単語リストは「satellite」「digital」「broadcast」、「broadcast」に関する関連単語リスト「satellite」「digital」「broadcast」が生成されている。
次に、重複排除処理603により、関連単語リスト612から関連単語リスト間を比較することで、含まれる特徴語の構成が同じである関連単語リスト間を1つにまとめる。この結果、最終的に得られる関連単語リストをサブトピックプロファイルとして、サブトピックプロファイル613が得られる。本図の実施例では、「satellite」と「broadcast」に関する関連単語リストについて特徴語の構成が同じであるため、それらの単語関連リストを1つにまとめる。この結果、関連単語リスト「H-company」「plasma」「television」と「satellite」「digital」「broadcast」がそれぞれサブトピックプロファイル1、サブトピックプロファイル2として生成されている。
以上が、サブトピック抽出プログラム141の具体的な処理の流れである。
なお、検索条件がキーワードを用いた論理演算式の場合は、and関係又はor関係のキーワードをまとめて、単語関連リストを生成してもよい。(5)式の例では、and関係のキーワードをまとめて、それぞれ「H-company」「plasma」「television」、「satellite」「digital」「broadcast」および「plasma」「display」「panel」の3つの関連単語リストが生成される。
(“H-company” and “plasma” and “television”) or (“plasma” and “display” and “panel”) or (“satellite” and “digital” and “broadcast”) (5)
以下、本実施の形態における文書検索システムにおいて、検索結果出力プログラム134によって提示される検索結果の具体的な提示例を図7〜図9を用いて説明する。
図7に示した検索結果一覧表示の実施例では、図5に示した適合テキスト501をサブトピック別に種文章に対する適合度の降順で出力されている(700)。また、各サブトピックにはサブトピックラベルが出力されている。この結果、文書1についてはサブトピック2「satellite、digital、broadcast」の3番目、文書2についてはサブトピック1「H-company、plasma、television」の1番目に出力されており、それぞれ種文章に対する適合度、サブトピック別適合度およびタイトルが出力されている。
ここで、検索者が「H社のプラズマテレビ」に関する情報を知るために図5で示した種文章が選択されたとした場合、図7に示されている各サブトピックラベルより検索者は目的文書がサブトピック1「H-company、plasma、television 」の分類に属する適合文書の中に存在すると判断できる。この結果、検索者は適合文書集合の中からサブトピック1「H-company、plasma、television 」の分類に属する適合文書のみを参照すればよいため、目的文書を素早く探し出すことができる。
なお、図7に示した実施例では、各適合テキストに対して、種文章に対する適合度、サブトピック別適合度およびタイトルを出力するものとしたが、登録処理時に日付など各文書の属性情報も登録しておき、それらの情報を出力してもよい。
また、図7に示した実施例では、各適合テキストの出力順を種文章に対する適合度の降順で出力するものとしたが、サブトピック別適合度の降順で出力するものとしてもよいし、これらを図8に示すように表示オプションで選択できるようにしておいてもよい(800)。
図8に示した実施例では、表示オプションとして種文章に対する適合度の降順で出力するかあるいはサブトピック別適合度の降順で出力するかを選択可能としたインターフェースを備えており、図8ではサブトピック別適合度順が選択されていることにより、サブトピック別適合度の降順で適合テキストが出力されている。この結果、文書1についてはサブトピック2「satellite、digital、broadcast」の1番目、文書2についてはサブトピック1「H-company、plasma、television」の1番目に出力されている。これにより、各サブトピックの情報に特化した文書を素早く探し出すことができる。
以上説明したように、図7または図8に示すように、検索結果の表示時に適合文書を、適合度算出プログラム161による検索条件適合度算出ステップで算出された検索条件適合度または適合度算出プログラム161による関連単語リスト適合度算出ステップで算出された関連単語リスト適合度のいずれかを降順で表示することを特徴とする。
また、図7および図8に示した実施例では、サブトピック別に適合テキストの一覧表示として出力しているが、図9に示すように、各サブトピックに関してそれぞれ何件の適合テキストが存在するかを示し(900)、知りたい情報に関するサブトピックを検索者に選択させた上で、そのサブトピックの分類に属する適合テキストのみを出力(901)してもよい。本図の実施例では、1番目のサブトピック「H-company、plasma、television」に103件、2番目のサブトピック「satellite、digital、broadcast」に45件、3番目のサブトピック「plasma、display、panel」に67件の適合文書が適合しており、各サブトピックの分類に属する適合文書数がそれぞれ示されている。即ち、図9に示すように、分類判定プログラム142により判定された結果に基づいて、関連単語リスト生成処理600〜602で生成された関連単語リスト別(1番目のサブトピック、2番目のサブトピック、3番目のサブトピック、…)にそれぞれ関連付けられた適合文書の件数を表示することに特徴を有する。
また、検索者によって1番目のサブトピック「H-company、plasma、television 」が選択されており、この結果、サブトピック「H-company、plasma、television」の分類に属する適合文書に関する検索結果一覧表示が示されている。これにより、容易にどのような検索結果が得られたかを大枠で把握することができ、かつ目的文書を効率よく探し出すことができる。
以上が、検索結果出力プログラム134によって提示される検索結果の具体的な提示の実施例である。
以上が、本実施の形態における文書検索システムの処理手順である。
以上説明したように、本発明の第1の実施の形態によれば、適合文書集合を検索条件に関するサブトピック別にグルーピングして提示することで、目的文書であるかどうかの判断の対象となる適合文書を少なくすることができることから、検索者は目的文書を素早く探し出すことができる。
[第2の実施の形態]
次に、本発明に係る第2の実施の形態について図10および図11を用いて説明する。
第1の実施の形態におけるサブトピック抽出プログラム141では、図6に示すように、特徴語間の関連性判定を適合テキスト501における特徴語の出現パターン610から特徴語間の関連度を算出することで行った。しかし、関連語辞書を用いることでより精度の高い特徴語間の関連性判定を行なうことができる。このため、本第2の実施の形態では、関連語辞書を用いることで特徴語間の関連性判定を行なう。
即ち、本第2の実施の形態は、図1に示した第1の実施の形態とほぼ同様な構成を取るが、検索結果分類制御部102−140でのサブトピック抽出プログラム141の処理手順が異なる。
以下、第2の実施の形態である第1の実施の形態とは異なるサブトピック抽出プログラム141aの処理手順について図10に示すPAD図を用いて説明する。
まず、検索結果分類制御部102−140は、すべての特徴語の中から2つの特徴語の組み合わせを重複なく生成し、各組み合わせについてステップ1011〜ステップ1014を繰り返し実行する(ステップ1010)。ここで、各組み合わせに含まれる特徴語を、それぞれ特徴語Aと特徴語Bとして、以下説明する。
まず、図11に示すように、単語間関連度取得処理1101により、関連語辞書1111を参照することで特徴語Aと特徴語B間の単語間関連度を取得し、ワークエリア170に格納する。なお、関連語辞書に単語間関連度の記載がなく、関連性のある単語間のみが記載されている場合は、関連性のある単語間の単語関連度を“1”、関連性のない単語間の単語間関連度を“0”とする(ステップ1011)。
次に、図11に示すように、特徴語Aと特徴語B間の単語間関連度が、予め設定された関連性判定閾値以上であった場合、ステップ1013〜ステップ1014を実行してグルーピング処理602を行って関連単語リスト612を作成する(ステップ1012)。
まず、特徴語Bを特徴語Aに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ1013)。
次に、特徴語Aを特徴語Bに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ1014)。
次に、図11に示すように、各特徴語に関する関連単語リスト間でリストに含まれる特徴語を比較する。この結果、含まれる特徴語が同じである関連単語リスト間については重複排除処理603をして1つの関連単語リストにまとめる。この結果、最終的に得られた関連単語リストをサブトピックプロファイル613とし、ワークエリア170に格納する(ステップ1020)。
以上が、サブトピック抽出プログラム141aでの処理手順である。
なお、特徴語間のグルーピングについては、第1の実施の形態と同様に、各特徴語に関する関連単語リストを生成する方法で行なうものとしたが、予め設定されたグループ数に基づいて、一般的なクラスタリング手法である最小距離法、最大距離法、群平均法およびK-Means法を用いて特徴語間をグルーピングしてもよいし、その他のグルーピング手法を用いてもよい。
次に、検索結果分類制御部102−140における、図10に示したサブトピック抽出プログラム141aの具体的な処理の流れについて図11を用いて説明する。まず、単語間関連度取得処理1101により、関連度辞書1111を参照することで、各特徴語間の単語間関連度1112を取得する。本図の実施例では、特徴語「H-company」と特徴語「satellite」の単語間関連度は、関連語辞書1111から“0.15”となる。以降、グルーピング処理602および重複排除処理603については、第1の実施の形態と同様な処理を行なう。
以上が、サブトピック抽出プログラム141aの具体的な処理の流れである。
[第3の実施の形態]
次に、本発明に係る第3の実施の形態について図12、図13および図14を用いて説明する。
第1の実施の形態におけるサブトピックラベル生成制御プログラム150では、サブトピックラベルの生成方法として、サブトピックプロファイルに含まれる特徴語を単に抽出するだけのものであった。しかし、単なる特徴語の羅列よりも文章の形で提示した方が特徴語間の関係が分かるため、サブトピックの内容が把握しやすい。このため、本発明に係る第3の実施の形態におけるサブトピックラベル生成制御プログラム150aでは、サブトピックの内容が理解しやすいように、サブトピックラベルを文、段落、節および章のような文章の形で生成する。即ち、サブトピックラベル生成制御プログラム150aで生成された各サブトピック(各関連単語リスト)に含まれる特徴語を用いて、文、段落、節および章のうち少なくとも1つ以上を、各分類に対する識別情報とする。
本第3の実施の形態では、図1に示した第1の実施の形態とほぼ同様の構成を取るが、サブトピックラベル生成制御部102−150でのサブトピックラベル生成制御プログラム150の構成が異なる。図12に示すように本第3の実施の形態におけるサブトピックラベル生成制御プログラム150aには、ラベル用特徴語抽出プログラム151の代わりに、テキストブロック分割プログラム1201とラベル用ブロック抽出プログラム1202が新たに加わるとともに、適合度算出プログラム161を呼び出す構成をとる。
以下、サブトピックラベル生成制御部102−150における、第1の実施の形態とは異なるサブトピックラベル生成制御プログラム150aの処理手順について、図13に示すPAD図を用いて説明する。
まず、すべてのサブトピックについて、ステップ1310およびステップ1320を繰り返し実行する(ステップ1300)
次に、該サブトピックに分類されたすべての適合テキストについて、ステップ1311〜ステップ1312を繰り返し実行する(ステップ1310)。
まず、テキストブロック分割プログラム1201を起動し、適合テキストを文などのブロックに分割する(ステップ1311)。
次に、該適合テキストのすべてのブロックについて、ステップ1313を繰り返し実行する(ステップ1312)。
適合度算出プログラム161を起動し、サブトピックプロファイルの特徴語の総数およびブロックに含まれる特徴語の数を用いて、次の(6)式によりサブトピックに対するブロックの適合度(以下、ブロック別適合度と呼ぶ)を算出する(ステップ1313)。
サブトピックスに対するブロック別適合度=(ブロックに含まれる特徴語の数)/(サブトピックプロファイルの特徴語の総数) (6)
次に、ラベル用ブロック抽出プログラム1202を起動し、該サブトピックについてブロック別適合度が最も高く付与されたブロックを該サブトピックのサブトピックラベルとする(ステップ1320)。
以上が、サブトピックラベル生成制御プログラム150aの処理手順である。
なお、上記ステップ1313におけるブロック別適合度の算出方法については(6)式を用いたが、ベクトル空間法における余弦尺度など他の適合度算出式を適用してもよい。
また、上記ステップ1320については、各サブトピックについてブロック別適合度が最も高く付与されたブロックをサブトピックラベルとしたが、そのブロックが複数存在する場合は該適合テキストの検索条件に対する適合度、サブトピック別適合度および該ブロックの出現位置等を用いてブロックを一意に決めてもよいし、その他の方法を用いてもよい。また、ブロック別適合度が予め設定されたブロック別適合性判定閾値を越えたブロックについて複数のブロックをサブトピックラベルとしてもよい。これにより、サブトピックの内容を詳細に提示することができる。
また、サブトピックラベル生成制御プログラム150aでは、サブトピックラベルを生成するための情報源としてすべての適合テキストを対象としたが、適合度算出プログラム161で算出された検索条件に対する適合度やサブトピック別適合度に閾値を設け、それぞれ閾値を越えた適合テキストのみを対象としてもよい。これにより、検索者にとって精度の高いトピックラベルを提示することができる。また、検索条件が種文章の場合は、サブトピックラベルを生成するための情報源として、適合テキストだけでなく種文章を対象としてもよい。これにより、検索者の検索目的にあったトピックラベルを提示することができる。
また、検索条件が種文章の場合は、サブトピックラベルを生成するための情報源として、適合テキストだけでなく種文章を対象としてもよい。これにより、検索者の検索目的にあったトピックラベルを提示することができる。即ち、トピックラベル生成ステップ(識別情報付与ステップ)において、検索条件が種文章の場合は,種文章と関連単語リストに関連付けられた適合文書(適合テキスト)との少なくとも一方を用いて適合度算出プログラム161に基づく要素別(ブロック別)適合度算出およびラベル用要素抽出プログラムに基づく分類識別用要素判定を行なうことを特徴とする。
以下、サブトピックラベル生成制御部102−150における、第1の実施の形態とは異なるサブトピックラベル生成制御プログラム150aの具体的な処理の流れについて図14を用いて説明する。
まず、サブトピック1に関するサブトピックラベルを生成するために、本図ではサブトピックプロファイル502からサブトピック1のサブトピックプロファイル1413と、分類判定結果506からサブトピック1の分類に属する文書2の適合テキスト1414が選択されている。
次に、テキストブロック分割プログラム1201が起動され、適合テキストをブロックに分割する。本図の実施例では、文書2に対してピリオドをブロックの境界文字列としてブロックに分割している。この結果、ブロック1〜ブロック4の4つのブロックに分割され、ブロック分割結果1410が得られている。
次に、適合度算出プログラム161が起動され、適合テキストの各ブロックに対してサブトピックプロファイルに対するブロック別適合度を上記(6)式を用いて算出する。本図の実施例では、サブトピック1に対する文書2のブロック1〜ブロック4のブロック別適合度として、“0.6”、“0.3”、“0.0”、“0.1”が算出されている。
上記のブロックの分割処理およびブロック別適合度の算出処理を、該サブトピックの分類に属するすべての適合テキストに対して行なう。この結果、本図ではサブトピック1の分類に属するすべての適合テキストに関するブロック別適合度結果1411が得られている。なお、本図のブロック別適合度結果1411の“D”は文書番号、“B”はブロック番号を示している。
次に、ラベル用ブロック抽出プログラム1202が起動され、ブロック別適合度結果1411からブロック別適合度が最も高いブロックを抽出し、抽出されたブロックをサブトピックラベルとする。本図の実施例では、文書2のブロック4のブロック別適合度が最も高いため、サブトピック1のサブトピックラベル1412を「H-company BBB's Series with technology is truly the ultimate in plasma television.」としている。
以上が、サブトピックラベル生成制御プログラム150aの具体的な処理の流れである。これら一連の処理を、すべてのサブトピックについて行なう。
以上説明したように、本発明に係る第3の実施の形態によれば、検索者は各サブトピックがそれぞれどんな内容であるかを容易に理解することができるため、目的文書を効率よくかつ適切に探し出すことができる。
以上説明したように、本発明の実施の形態によれば、検索結果集合文書を分類して表示する際に、各分類に関する識別情報(サブトピックプロファイル502、サブトラピックラベル503、検索条件適合度501、サブトピック別適合度504、適合性判定閾値505など)を付与する識別情報付与ステップを有することを特徴とする。
また、上記識別情報付与ステップにおいて、関連単語リスト生成ステップで生成された各関連単語リストに含まれる特徴語を、上記各分類に対する識別情報とすることを特徴とする。
また、上記識別情報付与ステップにおいて、関連単語リスト生成ステップで生成された各関連単語リストに含まれる特徴語を用いて、文、段落、節および章のうち少なくとも1つ以上を、上記各分類に対する識別情報とすることを特徴とする。
また、上記識別情報付与ステップにおいて、関連単語リスト生成ステップで生成された関連単語リストに関連付けられ、分類判定ステップでの分類判定結果としての適合文書に含まれる文、段落、節および章の要素に対して、適合度算出プログラム161に基づく前記関連単語リストに対する要素別適合度1411を算出する要素別適合度算出ステップと、該要素別適合度算出ステップにより算出された関連単語リストに対する要素別適合度1411から、例えばラベル用ブロック抽出プログラム1202により、関連単語リストに関する分類の識別情報として用いる要素1412を判定する分類識別用要素判定ステップとを含むことを特徴とする。
また、上記識別情報付与ステップ(ラベル生成ステップ)において、検索条件が種文章の場合は、種文章と関連単語リストに関連付けられた適合文書と少なくとも一方を用いて前記要素別適合度算出ステップおよび前記分類識別用要素判定ステップを行なうことを特徴とする。
本発明に係る第1の実施の形態における文書検索システムの全体構成をプログラムを主体に示す図である。 本発明に係る第1の実施の形態における文書検索システムの全体構成を機能的に示す図である。 本発明に係る第1の実施の形態における検索制御部で実行される検索制御プログラム130を説明するPAD図である。 本発明に係る第1の実施の形態における検索結果分類制御部で実行される検索結果分類制御プログラム140を説明するPAD図である。 本発明に係る第1の実施の形態における検索結果分類制御部で実行するサブトピック抽出プログラム141を説明するPAD図である。 本発明に係る第1の実施の形態における検索制御部等での検索制御プログラム130の具体的な処理の流れを説明するための図である。 本発明に係る第1の実施の形態における検索結果分類制御部でのサブトピック抽出プログラム141の具体的な処理の流れを説明するための図である。 本発明に係る第1の実施の形態における検索結果出力プログラム134の出力例として検索結果出力画面を示す図である。 本発明に係る第1の実施の形態における検索結果出力プログラム134の出力例として、種文章に対する適合度順かサブトピック別適合度順かを選択するインターフェースを備えた検索結果出力画面を示す図である。 本発明に係る第1の実施の形態における検索結果出力プログラム134の出力例として、各サブトピックについてそれぞれ何件の適合文書が存在するかを示す検索結果出力画面と、検索者によって選択されたサブトピックに関する検索結果出力画面を示す図である。 本発明に係る第2の実施の形態における検索結果分類制御部で実行するサブトピック抽出プログラム141aを説明するPAD図である。 本発明に係る第2の実施の形態における検索結果分類制御部でのサブトピック抽出プログラム141aの具体的な処理の流れを説明するための図である。 本発明に係る第3の実施の形態におけるサブトピックラベル生成制御部でのサブトピックラベル生成制御プログラム150aの構成を示す図である。 本発明に係る第3の実施の形態におけるサブトピックラベル生成制御部で実行するサブトピックラベル生成制御プログラム150aを説明するPAD図である。 本発明に係る第3の実施の形態におけるサブトピックラベル生成制御部でのサブトピックラベル生成制御プログラム150aの具体的な処理の流れを説明する図である。
符号の説明
100…ディスプレイ、101…キーボード、102…中央演算処理装置(CPU)、102−110…システム制御部、102−120…登録制御部、102−130…検索制御部、102−140…検索結果分類制御部、102−150…サブトピックラベル生成制御部、102−161…適合度算出部、103…磁気ディスク装置、104…フレキシブルディスクドライブ(FDD)、105…主メモリ、106…バス、107…ネットワーク、108…フレキシブルディスク、
110…システム制御プログラム、120…登録制御プログラム、130…検索制御プログラム、121…文書ファイル取得ファイル、122…テキスト登録プログラム、131…検索条件取得プログラム、132…特徴語抽出プログラム、133…テキスト読込プログラム、134…検索結果出力プログラム、140…検索結果分類制御プログラム、141…サブトピック抽出プログラム、142…分類判定プログラム、150…サブトピックラベル生成制御プログラム、151…ラベル用特徴語抽出プログラム、160…共有ライブラリ、161…適合度算出プログラム、170…ワークエリア、180…テキスト、150a…サブトピックラベル生成制御プログラム、500…特徴語、501…適合テキスト、502…サブトピックプロファイル、503…サブトピックラベル、504…サブトピック別適合度、505…サブトピック適合性判定閾値、506…分類判定結果、510…種文章、600…出現パターン生成処理、601…単語間関連度算出処理、602…グルーピング処理、603…重複排除処理、610…出現パターン、611…単語間関連度、612…関連単語リスト、613…サブトピックプロファイル、700、800…検索結果一覧表示、900…検索結果、901…サブトピック1の検索結果一覧表示、1101…単語間関連度取得、1111…関連語辞書、1201…ブロック分割プログラム、1202…ラベル用ブロック抽出プログラム、1410…ブロック分割結果、1411…ブロック別適合度結果、1412…サブトピック1のサブトピックラベル、1413…選択されたサブトピックプロファイル、1414…選択された文書2の適合テキスト。

Claims (7)

  1. 検索条件に対する検索結果を分類して表示する検索結果提示装置において、
    前記検索条件として入力された文書から複数の特徴語を抽出する特徴語抽出手段と、
    前記特徴語抽出手段から抽出された前記特徴語を用いて検索対象文書を検索し、その結果、前記特徴語が含まれた複数の適合文書を取得し、取得した前記複数の適合文書のそれぞれに対して前記特徴語抽出手段で抽出された複数の前記特徴語からなる組み合わせの出現有無を判定し、該出現有無判定結果に基づいて前記特徴語間の関連性を判定し、関連する特徴語間をまとめた関連単語リストを生成する関連単語リスト生成手段と、
    前記関連単語リスト生成手段で生成された各関連単語リストに対する適合文書の関連単語リスト適合度を算出する関連単語リスト適合度算出手段と、
    前記関連単語リスト適合度算出手段で算出された関連単語リスト適合度から、該適合文書の該関連単語リストに対する適合を判定し、該適合が高いと判定された場合には該適合文書を該関連単語リストに関連付けて保持する分類判定手段と、
    前記分類判定手段で各関連単語リストに関連付けられた適合文書集合に対して、分類の識別情報を付与する分類識別情報付与手段と、
    前記分類識別情報付与手段で生成された識別情報を各分類に付与して、前記文書集合を表示する検索結果表示手段と
    を有することを特徴とする検索結果提示装置。
  2. 請求項1記載の検索結果提示装置において、
    さらに、前記指定された検索条件に対する適合文書の検索条件適合度を算出する検索条件適合度算出手段と、
    検索結果の表示時に、前記分類判定手段で判定された結果に基づいて各関連単語リスト別に適合文書を、前記検索条件適合度算出手段で算出された検索条件適合度あるいは前記関連単語リスト適合度算出手段で算出された関連単語リスト適合度のいずれかの降順で表示する手段
    を有することを特徴とする検索結果提示装置。
  3. 請求項1記載の検索結果提示装置において、
    さらに、前記分類判定手段で判定された結果に基づいて、各関連単語リスト別にそれぞれ関連付けられた適合文書の件数を表示する関連単語リスト別文書件数表示手段を有することを特徴とする検索結果提示装置。
  4. 請求項1記載の検索結果提示装置において、
    前記分類識別情報付与手段は、前記関連単語リスト生成手段で生成された各関連単語リストに含まれる特徴語を各分類の識別情報とする手段を有することを特徴とする検索結果提示装置。
  5. 請求項1記載の検索結果提示装置において、
    前記分類識別情報付与手段は、
    前記分類判定手段により前記関連単語リストに関連付けられた適合文書に含まれる文、段落、節および章の要素に対して、該関連単語リストに対する要素別適合度を算出する要素別適合度算出手段と、
    前記要素別適合度算出手段により算出された該関連単語リストに対する要素別適合度から、各分類の識別情報として用いる要素を判定する分類識別情報要素判定手段
    を有することを特徴とする検索結果提示装置。
  6. 請求項1記載の検索結果提示装置において、
    前記分類識別情報付与手段は、
    検索条件が種文章の場合は、種文章に含まれる文、段落、節および章の要素に対して、該関連単語リストに対する要素別適合度を算出する要素別適合度算出手段と、
    前記要素別適合度算出手段により算出された該関連単語リストに対する要素別適合度から、各分類の識別情報として用いる要素を判定する分類識別情報要素判定手段
    を有することを特徴とする検索結果提示装置。
  7. 請求項1記載の検索結果提示装置において、
    前記関連単語リスト生成手段は、前記検索条件が特徴語及び前記特徴語の論理関係を含む論理演算式の場合に、前記論理演算式を積和標準形に変換し、変換された前記積和標準形の積で関連付けられたキーワード集合をまとめた関連単語リストを生成することを特徴とする検索結果提示装置。
JP2004167287A 2004-06-04 2004-06-04 検索結果提示装置 Expired - Fee Related JP4972271B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004167287A JP4972271B2 (ja) 2004-06-04 2004-06-04 検索結果提示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004167287A JP4972271B2 (ja) 2004-06-04 2004-06-04 検索結果提示装置

Publications (2)

Publication Number Publication Date
JP2005346560A JP2005346560A (ja) 2005-12-15
JP4972271B2 true JP4972271B2 (ja) 2012-07-11

Family

ID=35498856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004167287A Expired - Fee Related JP4972271B2 (ja) 2004-06-04 2004-06-04 検索結果提示装置

Country Status (1)

Country Link
JP (1) JP4972271B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4547500B2 (ja) * 2006-07-21 2010-09-22 国立大学法人群馬大学 検索装置及びプログラム
JP5347334B2 (ja) * 2008-05-29 2013-11-20 富士通株式会社 まとめ上げ作業支援処理方法、装置及びプログラム
WO2011004524A1 (ja) * 2009-07-07 2011-01-13 日本電気株式会社 テキストマイニング装置
JP6230190B2 (ja) * 2014-01-09 2017-11-15 日本放送協会 重要語抽出装置、及びプログラム
JP7284371B2 (ja) * 2018-12-13 2023-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びプログラム
CN114358814B (zh) * 2021-11-29 2024-10-18 国网北京市电力公司 数据处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115841A (ja) * 1997-06-24 1999-01-22 Fuji Xerox Co Ltd 情報検索装置及び情報検索プログラムを記録した媒体
JPH11154164A (ja) * 1997-11-21 1999-06-08 Hitachi Ltd 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JP3918374B2 (ja) * 1999-09-10 2007-05-23 富士ゼロックス株式会社 文書検索装置および方法
JP2002183194A (ja) * 2000-12-15 2002-06-28 Ricoh Co Ltd 検索式生成装置およびその方法

Also Published As

Publication number Publication date
JP2005346560A (ja) 2005-12-15

Similar Documents

Publication Publication Date Title
CN107122400B (zh) 使用视觉提示细化查询结果的方法、计算系统及存储介质
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
KR101160597B1 (ko) 의미 연관성에 기초한 콘텐츠 검색
CN102016837B (zh) 中文型文字及文字偏旁的分类及检索的系统与方法
US7769771B2 (en) Searching a document using relevance feedback
US8332208B2 (en) Information processing apparatus, information processing method, and program
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20040070624A1 (en) Program and method for displaying a radar chart
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US20050267734A1 (en) Translation support program and word association program
JP5587821B2 (ja) 文書トピック抽出装置及び方法及びプログラム
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
KR20060095572A (ko) 검색 결과들의 스크린―식 제시
JP5577546B2 (ja) 計算機システム
JP4972271B2 (ja) 検索結果提示装置
US10055097B2 (en) Grasping contents of electronic documents
CN119066179B (zh) 问答处理方法、计算机程序产品、设备及介质
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP5219543B2 (ja) 情報処理装置及び情報処理方法及びプログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2022178243A (ja) 画像生成装置、画像生成方法およびプログラム
Yeh et al. A case for query by image and text content: searching computer help using screenshots and keywords

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060811

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091021

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100216

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100302

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120409

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees