[go: up one dir, main page]

JP2005352878A - 文書検索システム、検索サーバ、及び検索クライアント - Google Patents

文書検索システム、検索サーバ、及び検索クライアント Download PDF

Info

Publication number
JP2005352878A
JP2005352878A JP2004174363A JP2004174363A JP2005352878A JP 2005352878 A JP2005352878 A JP 2005352878A JP 2004174363 A JP2004174363 A JP 2004174363A JP 2004174363 A JP2004174363 A JP 2004174363A JP 2005352878 A JP2005352878 A JP 2005352878A
Authority
JP
Japan
Prior art keywords
search
document
index
indexes
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004174363A
Other languages
English (en)
Inventor
Osamu Konichi
修 今一
Yoko Oi
洋子 大井
Yoshiki Niwa
芳樹 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004174363A priority Critical patent/JP2005352878A/ja
Priority to US11/036,335 priority patent/US20050278293A1/en
Publication of JP2005352878A publication Critical patent/JP2005352878A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 連想検索システムにおける検索結果の概略を複数の視点に基づいて提供する。
【解決手段】 ひとつの文書データベースに対して、複数通りのインデックス付けを行なうことで、検索結果を複数視点から概観表示できるようにする、それぞれのインデックス付き文書データベース403.503,603中の文書を、共通の識別子で管理することにより、検索結果として得られた文書群の概略を、それぞれのインデックスを用いて作成できるようにする。
【選択図】 図1

Description

本発明は、文書検索システムに関し、特に検索結果を複数の視点から概観表示する連想検索システムに関する。
コンピュータやインターネットの普及にともない、文書情報の電子化が急速に進んでいる。入手可能な情報が増加するにつれ、その中から必要な情報を探し出すことが重要な課題となってくる。また、複数の文書データベース間での文書群の関連性を調べたいという要求も高まっている。例えば、興味のある新聞記事に対して、それに関連する百科事典の項目を検索したいという要求は多い。
現在実用となっているキーワード検索では、複数の文書データベースを切り替えて検索することは可能であるが、ある文書データベースに含まれる文書群に対して、それに関連する文書群を、同一文書データベース、あるいは、別の文書データベースから検索すること(文書連想検索と呼ばれる検索方式)は不可能である。
同一文書データベース内に限れば、文書間の関連度をあらかじめ計算しておくことで、文書群を検索入力とした文書連想検索を実現することはできる。しかし、複数の文書データベースに対しては、あらかじめ計算すべき文書間の関連度が文書データベース数の増加にともなって組み合わせ数が爆発的に増加するため、現実的には不可能となっている。
これに対して、特開2000−155758号公報「複数文書データベースを対象とした文書検索方法及び文書検索サービス」には、利用者が指定した文書データベース中の任意の文書群に対して、その文書群に関連する文書群を任意の文書データベースから効率良く検索する方法が開示されている。この方法では、文書群として入力された検索入力内の特徴的な単語のみを使うことで、高速な文書連想検索を実現している。この方法により、利用者は複数の異なる種類の文書データベースを切り替えながら、文書群の関連性を調べることで、高精度かつ効率の良い文書検索を行なうことが可能となる。また、この方法では、検索結果として得られた文書群に出現する特徴的な単語を抽出し、それらを検索結果の概観(要約)として利用者に提示することで、利用者が検索結果の可否を判断する際の支援手段も提供している。
特開2000−155758号公報
単語に基づく文書検索では、文書中に出現する単語でその文書のインデックス付けを行ない、文書検索を実現している。特開2000−155758号公報で開示されている方法でも同様であり、文書から特徴的な単語を抽出するために、その文書に含まれている単語について統計的尺度(tf*idf法などが代表的)を用いてその重要度を計算し、重要度の高い順に単語を抽出している。インデックス付けは、ひとつの文書データベースに対して一通りの方法で行なうのが一般的である。しかし、専門用語(生物医学分野では、疾患名、遺伝子名、タンパク質名など)やファクト情報(例えば、生物医学分野ではタンパク質間相互作用など)は、一般の単語分布中に埋没してしまうため、特徴単語として抽出されにくくなってしまう。また、インデックス付けが一通りだと、検索結果の概観として表示されるのは、ひとつの視点に限定されたものになるため、その視点が利用者の検索要求や興味に合致していない場合には、適切な概観表示とはなり得ない。
本発明は上記現状を鑑み、利用者の興味に合致した複数の視点から検索結果を概観表示する文書検索システムを提供することを目的とする。
上記課題を解決するために、本発明では、ひとつの文書データベースに対して、複数通りのインデックス付けを行なうことで、検索結果を複数視点から概観表示できるようにする。
例えば、ひとつの文書データベースに対して、通常の単語によるインデックス付け、専門用語によるインデックス付け、ファクト情報によるインデックス付けを行なう。それぞれのインデックス付けされた文書データベースの対応をとるために、各文書を共通の識別子によって管理し、ある文書からの概略を、それぞれのインデックスを用いて作成できるようにする。
本発明の文書検索システムは、検索要求を入力する入力部、検索された文書群を表示する検索結果表示部、及び検索された文書群の概略を表示する概略表示部を備える検索クライアントと、インデックス付けされた複数の文書を格納した文書データベース、受信した検索要求に対して関連度の高い文書を前記文書データベースから検索する検索部、及び与えられた文書群に対して前記インデックスを用いて概略を作成する概略作成部を備える検索サーバとを含み、インデックスとして種類の異なる複数のインデックスを備える。
検索クライアントの概略表示部には、複数の種類の概略が異なる視点毎に区分して表示される。検索結果表示部は、表示された文書群の中から次の検索のキーとなる文書を選択するための文書選択部を有し、概略表示部は、表示された概略の要素の中から次の検索のキーとなる要素を選択するための概略選択部を有する。
検索結果として得られた文書集合に対して、複数の視点からの概観表示を見ることによって、利用者はより適切に検索結果の性質を把握できるようになる。また、各視点間の関連を検索対象文書を仲介として捉えることができるため、検索結果の分析をより詳細に行なうことができる。
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明を実現するためのシステムの構成例を示す概略図である。このシステムは、利用者が検索要求を入力したり、検索結果を表示したりする検索クライアント20、文書データベースを検索するための検索サーバ40、50、60、検索クライアント20と検索サーバ40、50、60の仲介をする連想検索サーバ30を通信ネットワーク10により接続して構成される。図に示した例では、文書データベースを検索するための検索サーバとして3つの検索サーバが通信ネットワークに接続されているが、通信ネットワークに接続される検索サーバの数は任意でよい。検索クライアントの数も任意である。
検索サーバ40、50、60の備える検索手段402、502、602は、連想検索サーバから送られてきた検索要求に対して、関連度の高い文書群を文書データベース403、503、603から検索し、その検索結果を関連度の重み付きで連想検索サーバ30に返す。ここでの検索手段は、例えば、公知のキーワード検索手法により実現できる。
キーワード検索手法では、検索処理の効率を上げるために、文書データベースに含まれる文書を単語に分割し(日本語の文書に対しては形態素解析、英語の文書に対してはstemming処理を行なう)、どの文書にどの単語が含まれるかをインデックスとして作成しておく。検索実行時には、作成されたインデックスが主記憶に読み込まれるため、検索処理を高速に実行できる。図1においては、検索サーバ40、50、60が有する文書データベース403、503、603のそれぞれに対してインデックス404、504、604を作成し、検索処理に利用する。
検索サーバ40、50、60の備える概略作成手段401、501、601は、文書データベース403、503、603から検索された文書群の概略を作成する。ここで概略とは、文書群の内容をよく表わす単語集合のことである。概略作成手段としては、特開2000−155758号公報などの既存手法が利用できる。概略作成時にも、上記インデックスを利用する。すなわち、ある文書にどの単語が含まれているかを、インデックスを参照して調べるわけである。
一例を示すと、まず、概略を作成しようとする文書群中の全文書に含まれる単語の頻度集計をする。一般に、ある文書群で良く現れる単語ほどその文書群を代表する度合も高いため、文書群中で出現頻度が高いほど概略に含まれやすいことになる。ただし、「する」などのように、どの文書にも良く現れるような一般的な単語は概略単語としては適当ではない。よって、通常は、文書群が属する文書データベース中での出現頻度も考慮して概略単語を選択する。つまり、指定された文書群での出現頻度が高く、かつ、文書データベース全体での総出現頻度が低い単語ほど、その文書群中でしか現れないという意味で特徴的な単語であり、その文書群を特徴付ける概略として適切である。具体的には、文書群中のそれぞれの単語について、文書群中での出現頻度、文書データベース中での出現頻度を入力とする適当な関数により単語の重みを計算し、ある閾値以上の重みを持つ単語を概略として採用する。
検索クライアント20は、検索要求入力手段201、検索結果表示手段202、概略表示手段203を備える。
図2は検索クライアントにおける初期画面の例を示す図である。利用者は検索要求入力エリア2011に検索要求を入力し、検索指示ボタン2012をクリックすることで検索を行なう。
図3は検索クライアントにおける検索結果の例を示す図である。検索結果は検索結果表示手段202によって表示され、検索結果の概略が概略表示手段203によって表示される。検索結果表示手段202は文書群指定手段も兼ねており、文書選択チェックボックス2021により、任意個の記事を選択し、連想検索指示ボタン2001をクリックすることで、選択した記事と関連する文書を検索することができる。概略表示手段203は単語群指定手段も兼ねており、単語選択チェックボックス2031、2032により、任意個の単語を選択し、連想検索指示ボタン2001をクリックすることで、概略単語からの検索を行なうことができる。
連想検索サーバ30は、検索クライアント20から送られてくる検索要求を解析する検索要求解析手段301、検索クライアント20から送られてくる検索要求を、検索サーバ40、50、60に振り分ける機能を持つ検索要求発行手段302、文書群に対する概略単語を検索サーバ40、50、60に要求する概略単語要求手段303を備える。
検索要求解析手段301は、検索クライアント20から送られてくる検索要求を解析してその中に含まれる単語を同定し検索キーを作成する。検索要求解析手段301は任意のものであってよいが、日本語文に関しては文を単語に分割する形態素解析、英文に対しては単語の原形還元と品詞付けを行なうstemming処理を最低含んで構成される。
検索要求発行手段302に送られてくる検索要求としては、(1)検索要求解析手段301によって作成された単語集合、(2)検索クライアント20が備える検索結果表示手段(文書群指定手段)から送られてくる文書IDの集合、あるいは(3)検索クライアント20が備える概略表示手段(単語群指定手段)203から送られてくる単語集合、である。検索要求が(1)と(3)の場合、その単語集合を検索要求として検索サーバに送る。検索要求が(2)の場合、概略単語要求手段303が検索サーバに対して、その文書IDの集合に対応する文書群の概略を要求し、送られてきた概略単語集合を検索要求として検索サーバに送る。検索要求発行手段302がどの検索サーバに検索要求を送るかは、各検索サーバが保持するインデックスの内容に応じて異なるため、後述の例を用いてその動作を示す。
従来の連想検索システムでは、ひとつの文書データベースに対しては、ひとつの視点からのインデックス付けのみが行なわれていた。本発明では、ひとつの文書データベースに対して、複数の視点からのインデックス付けを行なうことで、利用者の利便性を高めることを目的としている。このことを実現するために、必要な要件は、(1)複数の視点からのインデックス作成すること、(2)複数の、インデックス付き文書データベースに含まれる同一の文書を共通識別子で管理すること、である。同一文書を共通識別子で管理することによって、検索結果として得られた文書集合のそれぞれのインデックス間における同一性が保持できるため、それぞれの視点から同じ文書集合に対して概略単語を作成することができる。
図4、図5、図6は、ひとつの文書データベースベースに対し、複数の視点からのインデックス付けを行なった場合のインデックスの例である。
図4は、文書IDが12345である文書のインデックスを、一般語、タンパク質名、タンパク質間相互作用で行なった例である。インデックス列の各単語の前の数字は、その単語がその文書で出現する頻度である。図5は、文書IDが12345である文書のインデックスを、タンパク質名で行なった例である。図6は、文書IDが12345である文書のインデックスをタンパク質間相互作用で行なった例である。上記要件(2)を満たすために、それぞれのインデックス付けにおいて共通の文書ID「12345」を用いている。それぞれの視点でのインデックスの作成方法は任意でよいが、現実的には、一つのインデックスが、他の複数のインデックスを包含しているように作成するのが便利である。上記の例では、図4のインデックスが図5、図6のインデックスを包含している。こうすることにより、上述した検索要求発行手段302に送られてくる検索要求はすべて検索サーバ40に送ればよいことになる。検索サーバ50、60は検索結果に対する概略作成時にのみ用いられる。
図3は、図4、図5、図6のインデックスを用いて連想検索を行なった例を示す図である。検索結果として、記事タイトルが表示されている。また、検索結果の概略として、これらの記事に含まれるタンパク質名とタンパク質間相互作用が表示されている。
以下、図7と図8のシーケンス図を用いて処理の流れを説明する。説明のため、検索サーバ40、50、60に備えられた文書データベース403、503、603のインデックス404、504、604を、それぞれ図4、図5、図6のように作成するとする。このようなインデックス付けを行なった場合、検索要求発行手段302の動作は以下のようになる。利用者が入力した検索要求に対しては、検索要求発行手段302は、検索サーバ40に対して検索要求を発行する。検索サーバ40から得られた検索結果に対する概略単語を作成するときには、検索サーバ50、60に対して概略単語要求手段303が概略単語の作成要求を発行する。利用者が文書群を指定して、文書群からの再検索を実行する場合には、検索サーバ40に対して検索要求を発行する。利用者が単語群を指定して、単語群からの再検索を実行する場合には、検索サーバ40に対して検索要求を発行する。このように、検索はすべて検索サーバ40で行う。検索サーバ50、60は検索結果の概略単語を作成するときだけ使う。「タンパク質名」「タンパク質相互作用」の両方の単語を指定した場合でも、検索サーバ40は、検索サーバ50、60のインデックスを包含しているので、問題なく動作する。
次に処理の流れを、図7のシーケンス図を用いて説明する。利用者は検索クライアント20の検索要求入力手段201を用いて、検索要求を入力する。入力された検索要求は連想検索サーバに送信される(T11)。連想検索サーバ30の検索要求解析手段301は検索要求を解析し、検索サーバに送信するための検索要求を作成する。検索要求発行手段302により検索要求が検索サーバ40に送信される(T12)。検索サーバ40の検索手段402は、インデックス404を用いて文書データベース403を検索し、その結果を連想検索サーバ30に送信する(T13)。連想検索サーバ30の概略単語要求手段303は、得られた検索結果の概略を作成するための、概略の作成要求を検索サーバ50と検索サーバ60に送信する(T14,T16)。検索サーバ50と検索サーバ60の概略単語作成手段501、601は、それぞれインデックス504、604を利用して概略単語を作成する。この例の場合、概略単語作成手段501は、タンパク質名で構成される概略単語を作成し、概略単語作成手段601は、タンパク質間相互作用で構成される概略単語を作成する。それぞれの概略単語作成手段で作成された概略単語は、連想検索サーバ30に送信される(T15,T17)。最後に、検索結果と概略単語が連想検索サーバ30から検索クライアント20に送信され(T18)、検索クライアント20の検索結果表示手段202と概略表示手段203によって利用者に提示される。
次に、図8のシーケンス図を用いて説明する。このシーケンス図は、検索結果として得られた文書やその概略単語から再検索を行なう場合の処理の流れを示している。
始めに検索結果として得られた文書から再検索を行う場合について説明する。利用者は、検索クライアント20の文書群指定手段202を用いて、再検索のキーとなる文書を選択する。選択された文書の識別子は連想検索サーバ30に送信される(T21)。連想検索サーバ30の概略単語要求手段303は、選択された文書の概略を作成するための、概略の作成要求を検索サーバ40に送信する(T22)。検索サーバ40の概略単語作成手段401は、インデックス404を利用して概略単語を作成する。すなわち、前述のように、特開2000−155758号公報などと同じ手法で、統計的に重要な単語を選択して概略単語を作成する。作成された概略単語は、連想検索サーバ30に送信される(T23)。
利用者が文書のみから再検索を実行する場合は、連想検索サーバ30の検索要求発行手段302により、得られた概略単語が検索サーバ40に送信される(T25)。検索サーバ40の検索手段402は、インデックス404を用いて文書データベース403を検索し、その結果を連想検索サーバ30に送信する(T26)。以降の処理は図7のシーケンス図における概略単語作成手段以降の処理と同様である。
利用者が概略単語から再検索を行なう場合は、利用者は検索クライアント20の単語群指定手段203を用いて、再検索のキーとなる単語を選択する。このとき、複数視点の単語を同時に指定することも可能である。選択された単語、あるいは単語の識別子は連想検索サーバ30に送信される(T24)。以降の処理は図8のシーケンスにおける検索要求発行手段以降の処理と同様である。
ある視点から作成した概略単語を用いて再検索を行なうことにより、その視点と他の視点の関連を、文書データベースを仲介として把握することができる。一例を挙げると、タンパク質名から構成される概略単語を用いて、再検索を行なった場合、選択したタンパク質名に関連する文書が得られ、さらに、選択したタンパク質名に関連するタンパク質名相互作用を知ることができる。このことにより、検索結果を多面的な観点から詳細に分析していくことができるようになる。
図9は、インデックスとして、タンパク質名と疾患名を用いた場合の例である。上記説明と同様の手順をとることにより、利用者が興味をもつタンパク質名から、そのタンパク質名と関連する疾患名を知ることができる。また、逆に、利用者が興味をもつ疾患名から、その疾患名と関連するタンパク質名を知ることができる。
次に、本発明の変形例を、図10を用いて説明する。
実施例1では、どの視点で検索結果の概略を作成するかをあらかじめ固定していた。しかし、あらかじめ複数視点からのインデックスを保持する複数の検索サーバを用意しておき、利用者が自分が利用したい視点を選択することも可能である。図10は、利用者が視点を選択するための初期画面の例である。
視点選択手段2013には、視点(view1、view2)として、選択可能な3つの視点(遺伝子“gene”によるインデックス、タンパク質“protein”によるインデックス、タンパク質間相互作用“protein interaction”)が提示されている。利用者は各視点として、どの視点から概観を得たいかを選択する。図10の例では、利用者はview1としてタンパク質“protein”によるインデックス、view2としてタンパク質間相互作用“protein interaction”を選択している。
利用者はこの後、検索要求入力エリア2011に検索要求を入力し、検索指示ボタン2012をクリックすることで検索を行なう。以後の処理は実施例1と同様である。
次に、本発明の別の変形例を図11を用いて説明する。
実施例1では、複数視点から作成されたインデックスを別々のサーバが保持していた。すなわち、図4のインデックスを検索サーバ40のインデックス404、図5のインデックスを検索サーバ50のインデックス504、図6のインデックスを検索サーバ60のインデックス604が保持している。しかし、検索サーバは必ずしも複数必要というわけではなく、一つの検索サーバに複数のインデックスを保持させることも可能である。
図11は、一つの検索サーバに複数のインデックスを保持させる場合の構成図である。検索サーバ70が有する文書データベース703に対して、複数視点から作成したインデックスをインデックス704、705、706として保持している。ひとつの検索サーバ内に複数のインデックスを保持する場合、それぞれのインデックスは独立に保持するのが普通である。個々のインデックスは、例えば、縦に文書、横に単語をとった行列形式とすることができる。行列の要素には、その単語がその文書に何回出現するかの出現頻度情報を入れておく。この場合、複数のインデックス(行列)間で、縦軸の文書の同一性を保持する必要があるため、複数のインデックス間で同一の文書は同一の識別子によって管理する。
実施例1では、連想検索サーバ30が有する検索要求発行手段302が、検索要求のタイプに応じて、どの検索サーバに対して検索要求を発行するかを制御していた。図11のように、検索サーバが一つの場合には、検索要求発行手段302は、検索要求のタイプに応じて、検索サーバ70のどのインデックスを用いて検索するかを制御するようにすればよい。図7、図8のシーケンス図において、検索サーバをすべて同一の検索サーバと見なすことで、実施例1と同様の処理が行なわれる。
本発明を実現するためのシステムの構成例を示す概略図。 検索クライアントにおける初期画面の例を示す図。 検索クライアントにおける検索結果の例を示す図。 インデックス付けの例を示す図。 インデックス付けの例を示す図。 インデックス付けの例を示す図。 検索クライアント,連想検索サーバ,検索サーバの間のデータ及び処理の流れを示すシーケンス図。 検索クライアント,連想検索サーバ,検索サーバの間のデータ及び処理の流れを示すシーケンス図。 検索クライアントにおける検索結果の表示例を示す図。 検索クライアントにおける初期画面の例を示す図。 本発明を実現するためのシステムの他の構成例を示す概略図。
符号の説明
10:通信ネットワーク
20:検索クライアント
2001:連想検索指示ボタン
201:検索要求入力手段
2011:検索要求入力エリア
2012:検索指示ボタン
2013:視点選択手段
202:検索結果表示手段(文書群指定手段)
2021:文書選択チェックボックス
203:概略表示手段(単語群指定手段)
2031:単語選択チェックボックス
2032:単語選択チェックボックス
30:連想検索サーバ
301:検索要求解析手段
302:検索要求発行手段
303:概略単語要求手段
40:検索サーバ
401:概略作成手段
402:検索手段
403:文書データベース
404:インデックス
50:検索サーバ
501:概略作成手段
502:検索手段
503:文書データベース
504:インデックス
60:検索サーバ
601:概略作成手段
602:検索手段
603:文書データベース
604:インデックス
70:検索サーバ
701:概略作成手段
702:検索手段
703:文書データベース
704:インデックス
705:インデックス
706:インデックス

Claims (8)

  1. 検索要求を入力する入力部、検索された文書群を表示する検索結果表示部、及び前記検索された文書群の概略を表示する概略表示部を備える検索クライアントと、
    インデックス付けされた複数の文書を格納した文書データベース、受信した検索要求に対して関連度の高い文書を前記文書データベースから検索する検索部、及び与えられた文書群に対して前記インデックスを用いて概略を作成する概略作成部を備える検索サーバとを含み、
    前記インデックスとして種類の異なる複数のインデックスを備えることを特徴とする文書検索システム。
  2. 請求項1記載の文書検索システムにおいて、複数の検索サーバを備え、各検索サーバはそれぞれ種類の異なるインデックスを備え、前記複数の検索サーバの文書データベース間で同一の文書は同一の識別子によって管理されていることを特徴とする文書検索システム。
  3. 請求項1記載の文書検索システムにおいて、1つの検索サーバが前記種類の異なる複数のインデックスを備え、前記複数のインデックス間で同一の文書は同一の識別子によって管理されていることを特徴とする文書検索システム。
  4. 請求項1記載の文書検索システムにおいて、前記複数のインデックスのうちの1つは、残りの複数のインデックスを統合したインデックスであることを特徴とする文書検索システム。
  5. 請求項1記載の文書検索システムにおいて、前記検索クライアントの概略表示部は、異なるインデックスに対応して異なる概略を表示するインデックス毎の概略表示部を有することを特徴とする文書検索システム。
  6. 請求項5記載の文書検索システムにおいて、前記検索クライアントは、前記概略表示部に表示された概略の要素を選択する手段を有し、前記選択された要素を前記検索要求として送信することを特徴とする文書検索システム。
  7. 複数の文書を格納した文書データベースと、
    前記文書データベース中の文書に対して異なる視点から付与した複数種類のインデックスと、
    受信した検索要求に対して関連度の高い文書を前記文書データベースから検索する検索部と、
    与えられた文書群に対して前記インデックスを用いて複数種類の概略を作成する概略作成部とを備え、
    前記複数のインデックス間で同一の文書は同一の識別子によって管理されていることを特徴とする検索サーバ。
  8. 検索要求を入力する入力部と、
    受信した検索結果である文書群を表示する検索結果表示部と、
    前記文書群の概略を、複数の異なる視点毎に区分して表示する概略表示部とを備え、
    前記検索結果表示部は、表示された文書群の中から次の検索のキーとなる文書を選択するための文書選択部を有し、
    前記概略表示部は、表示された概略の要素の中から次の検索のキーとなる要素を選択するための概略選択部を有し、
    前記入力部に入力された検索要求、前記文書選択部で選択された文書又は前記概略選択部で選択された概略の要素の情報を検索要求として送信することを特徴とする検索クライアント。
JP2004174363A 2004-06-11 2004-06-11 文書検索システム、検索サーバ、及び検索クライアント Withdrawn JP2005352878A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004174363A JP2005352878A (ja) 2004-06-11 2004-06-11 文書検索システム、検索サーバ、及び検索クライアント
US11/036,335 US20050278293A1 (en) 2004-06-11 2005-01-18 Document retrieval system, search server, and search client

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004174363A JP2005352878A (ja) 2004-06-11 2004-06-11 文書検索システム、検索サーバ、及び検索クライアント

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007285927A Division JP2008102945A (ja) 2007-11-02 2007-11-02 文書検索システム

Publications (1)

Publication Number Publication Date
JP2005352878A true JP2005352878A (ja) 2005-12-22

Family

ID=35461712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004174363A Withdrawn JP2005352878A (ja) 2004-06-11 2004-06-11 文書検索システム、検索サーバ、及び検索クライアント

Country Status (2)

Country Link
US (1) US20050278293A1 (ja)
JP (1) JP2005352878A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227932A (ja) * 2006-03-17 2011-11-10 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
JPWO2020250812A1 (ja) * 2019-06-10 2020-12-17

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100573520C (zh) * 2006-08-29 2009-12-23 国际商业机器公司 为检索对多个文档进行预处理的方法和装置
US7765195B2 (en) * 2006-11-07 2010-07-27 Microsoft Corporation Trimmed and merged search result sets in a versioned data environment
US8671104B2 (en) 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
US8073682B2 (en) 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US8165985B2 (en) 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US20090287676A1 (en) * 2008-05-16 2009-11-19 Yahoo! Inc. Search results with word or phrase index
US8015146B2 (en) * 2008-06-16 2011-09-06 Hitachi, Ltd. Methods and systems for assisting information processing by using storage system
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US8452769B2 (en) * 2008-09-19 2013-05-28 International Business Machines Corporation Context aware search document
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US9626379B1 (en) * 2011-09-22 2017-04-18 Amazon Technologies, Inc. Optimistic commit processing for an offline document repository
US11763070B2 (en) * 2013-03-15 2023-09-19 PowerNotes LLC Method and system for labeling and organizing data for summarizing and referencing content via a communication network
US12099538B2 (en) * 2021-10-29 2024-09-24 Galisteo Consulting Group, Inc. Identifying fringe beliefs from text

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5685003A (en) * 1992-12-23 1997-11-04 Microsoft Corporation Method and system for automatically indexing data in a document using a fresh index table
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US6865715B2 (en) * 1997-09-08 2005-03-08 Fujitsu Limited Statistical method for extracting, and displaying keywords in forum/message board documents
JP3696731B2 (ja) * 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
GB9821787D0 (en) * 1998-10-06 1998-12-02 Data Limited Apparatus for classifying or processing data
JP3760057B2 (ja) * 1998-11-19 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
US6751606B1 (en) * 1998-12-23 2004-06-15 Microsoft Corporation System for enhancing a query interface
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US20010049677A1 (en) * 2000-03-30 2001-12-06 Iqbal Talib Methods and systems for enabling efficient retrieval of documents from a document archive
CN101382971A (zh) * 2000-09-12 2009-03-11 株式会社医药分子设计研究所 分子功能网络的生成方法
JP4025517B2 (ja) * 2001-05-31 2007-12-19 株式会社日立製作所 文書検索システムおよびサーバ
US7162465B2 (en) * 2001-12-21 2007-01-09 Tor-Kristian Jenssen System for analyzing occurrences of logical concepts in text documents
WO2004027706A1 (en) * 2002-09-20 2004-04-01 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
JP2004318321A (ja) * 2003-04-14 2004-11-11 Nec Corp 生物情報検索システム及び検索方法
JP2004334753A (ja) * 2003-05-12 2004-11-25 Hitachi Ltd 情報検索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227932A (ja) * 2006-03-17 2011-11-10 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
JPWO2020250812A1 (ja) * 2019-06-10 2020-12-17
JP7587237B2 (ja) 2019-06-10 2024-11-20 株式会社島津製作所 文献情報提供方法およびプログラム

Also Published As

Publication number Publication date
US20050278293A1 (en) 2005-12-15

Similar Documents

Publication Publication Date Title
JP2005352878A (ja) 文書検索システム、検索サーバ、及び検索クライアント
US8046363B2 (en) System and method for clustering documents
US6507837B1 (en) Tiered and content based database searching
JP3717808B2 (ja) 情報検索システム
US8489573B2 (en) Search engine
US7502774B2 (en) Ring method, apparatus, and computer program product for managing federated search results in a heterogeneous environment
US20180004850A1 (en) Method for inputting and processing feature word of file content
JP4025517B2 (ja) 文書検索システムおよびサーバ
CN103415850A (zh) 结构化文档管理装置、结构化文档检索方法
JP2002215659A (ja) 情報検索支援方法および情報検索支援システム
JP2002117074A (ja) 情報検索方法
EP1490795A2 (en) Database searching method and system
JP2014048741A (ja) データ検索プログラム、データベース装置および情報処理システム
US7483877B2 (en) Dynamic comparison of search systems in a controlled environment
JP3186960B2 (ja) 情報検索方法およびその装置
JP2009259039A (ja) 複数のデータベースの検索方法及びメタ検索サーバ
JP3702268B2 (ja) 情報検索システム、情報検索方法およびプログラム
JP5743938B2 (ja) 連想検索システム、連想検索サーバ及びプログラム
CN113190667A (zh) 法律数据的查询方法、装置、设备及存储介质
JP2002073639A (ja) ナレッジマネジメントシステム
WO2000008570A1 (en) Information access
JPWO2007046445A1 (ja) 検索装置及び検索方法
CN202084035U (zh) 一种检索系统
JP2008102945A (ja) 文書検索システム
JP2004295251A (ja) 求人情報提供装置及び求人情報提供方法並びにプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070409

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071102

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071116

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20071221

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090423