[go: up one dir, main page]

JP2002032394A - 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体 - Google Patents

関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体

Info

Publication number
JP2002032394A
JP2002032394A JP2000217270A JP2000217270A JP2002032394A JP 2002032394 A JP2002032394 A JP 2002032394A JP 2000217270 A JP2000217270 A JP 2000217270A JP 2000217270 A JP2000217270 A JP 2000217270A JP 2002032394 A JP2002032394 A JP 2002032394A
Authority
JP
Japan
Prior art keywords
word
related word
words
cluster
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000217270A
Other languages
English (en)
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000217270A priority Critical patent/JP2002032394A/ja
Publication of JP2002032394A publication Critical patent/JP2002032394A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 関連語の提示において、関連語を相互に関連
度の高いクラスタ(グループ)ごとに提示することで、
利用者の関連語の効率的な選択を支援する。 【解決手段】 単語クラスタリング部3は、単語をノー
ド、単語間にある関連をアークとしたグラフの全体から
関連性の高い部分グラフをクラスタとして抽出し、得ら
れたクラスタのノード集合を得ることで、文書データベ
ース部2の登録文書中の単語のクラスタリングを行な
い、関連語情報を作成し、関連語情報記憶部4に記憶す
る。関連語情報取得部6は、関連語情報記憶部4を参照
して、単語入力部5で入力された単語の関連語を、相互
に関連度の高いクラスタごとに提示できるように求め
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、与えられた単語
の関連語を取得するために参照する関連語情報を作成す
る関連語情報作成装置および関連語情報作成方法、この
関連語情報から単語の関連語を求める関連語提示装置お
よび関連語提示方法、文書検索を行う文書検索装置およ
び文書検索方法、ならびに、これらの処理をコンピュー
タに実行させるプログラムを記憶した記憶媒体に関す
る。
【0002】
【従来の技術】文書の電子化やインターネットの普及に
より、文書検索システムのニーズが高まってきている。
【0003】このような文書検索システムでは、通常、
検索語や検索文字列を並べ、あるいは、AND/OR論
理演算子で組み合わせた検索条件や自然言語文(“「文
書検索システムInforiumにおける自然言語処理ベースの
支援機能」,亀田他,言語処理学会第3回年次大会発表論
文集pp357-350,1997.3”および“「CBSearch1000Ver.1.
3」ホームページ,http://www.justsystem.co.jp/produc
t/system/cb13/cb13.html,1999”を参照)等の検索文を
利用者が指定して、その検索文に合致する文書を検索対
象となる文書データベースから検索する。
【0004】検索文で実質的に重要なのは、自立語単語
であるが、適切な単語を選択するのは難しかったり、検
索結果を絞り込んだり、検索漏れを防ぐために、さらに
単語を追加することが必要になる。そこで、検索対象と
なる文書データベースをあらかじめ分析し、単語間の関
連度等を計算しておき、検索文の入力があった際に、検
索文中の単語の関連語を提示し、検索文を入力する利用
者を支援する機能を備えた技術が提案されている(特開
平10-334106号公報参照)。また、この支援機能を備え
たパッケージソフトが製品化されている(「CBSearch10
00Ver.1.3」ホームページ,http://www.justsystem.co.j
p/product/system/cb13/cb13.html,1999を参照)。
【0005】
【発明が解決しようとする課題】しかしながら、前記従
来の関連語を提示する技術は、単語の関連語を閾値とし
た関連度以上の単語を一覧、あるいは、関連度の順に一
覧するものであるが、実際は、一つの単語であっても、
さまざまな意味や分野で用いられる「多義性」がある。
【0006】たとえば、「競技場」という単語に対する
関連語として、 ・Jリーグ、花園、トラック、鹿島、ゴール、トライ、
陸上競技、… といった関連語の一覧が提示される。これらの関連語
は、ラグビー、サッカー、陸上競技の3分野の単語が混
在しており、利用者にとってはわかりにくいという不具
合がある。
【0007】そこで、前記例においては、「競技場」の
関連語を、 ・花園、ゴール、トライ、… ・鹿島、Jリーグ、ゴール、… ・トラック、陸上競技、… のように提示できれば、利用者の関連語の効率的な選択
を支援することができる(これらは、ラグビー、サッカ
ー、陸上競技の3分野にそれぞれ対応している)。
【0008】この発明の目的は、関連語の提示におい
て、関連語を相互に関連度の高いクラスタ(グループ)
ごとに提示することで、利用者の関連語の効率的な選択
を支援することである。
【0009】この発明の目的は、単語間の関連度に基づ
いて作成した関連語情報を用いて、関連語を相互に関連
度の高いクラスタごとに提示することを可能として、利
用者の関連語の効率的な選択を支援できるようにするこ
とである。
【0010】この発明の目的は、排他的でないクラスタ
リングを行って、関連語を相互に関連度の高いクラスタ
ごとに提示することを可能として、利用者の関連語の効
率的な選択を支援できるようにすることである。
【0011】この発明の目的は、クラスタ辞書および単
語クラスタ辞書を参照して、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。
【0012】この発明の目的は、作成した関連語情報を
用いて関連語を相互に関連度の高いクラスタごとに提示
することを可能として、利用者の関連語の効率的な選択
を支援することである。
【0013】この発明の目的は、関連語を求めたい単語
との関連度が高いものだけを関連語として求めることが
できるようにすることである。
【0014】この発明の目的は、関連語を求めたい単語
との関連度が高いものだけを関連語として出力できるよ
うにすることである。
【0015】この発明の目的は、関連語を求めたい単語
との関連度に基づいた指標の順に関連語を出力できるよ
うにすることである。
【0016】この発明の目的は、検索文に含まれる単語
の関連語を相互に関連度の高いクラスタごとに提示する
ことを可能として、検索漏れの防止や、検索の絞り込み
の効率を向上させることである。
【0017】
【課題を解決するための手段】請求項1に記載の発明
は、与えられた単語の関連語を取得するために参照する
関連語情報を作成する関連語情報作成装置において、複
数の文書を記憶する文書データベース部を参照して、前
記複数の文書に含まれる単語をクラスタリングし、当該
単語をその意味または分野ごとのクラスタに分類して前
記関連語情報を作成する単語クラスタリング部を備えて
いることを特徴とする関連語情報作成装置である。
【0018】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。
【0019】請求項2に記載の発明は、請求項1に記載
の関連語情報作成装置において、前記単語クラスタリン
グ部は、前記単語間の関連度に基づき前記クラスタリン
グを行うことを特徴とする。
【0020】したがって、単語間の関連度に基づいて作
成した関連語情報を用いて、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。
【0021】請求項3に記載の発明は、請求項2に記載
の関連語情報作成装置において、前記単語クラスタリン
グ部は、前記単語をノード、単語間にある関連をアーク
としたグラフの全体から関連性の高い部分グラフをクラ
スタとして抽出し、得られたクラスタのノード集合を得
ることで前記クラスタリングを行うことを特徴とする。
【0022】したがって、排他的でないクラスタリング
を行って、関連語を相互に関連度の高いクラスタごとに
提示することを可能として、利用者に関連語の効率的な
選択を支援することができる。
【0023】請求項4に記載の発明は、請求項1〜3の
いずれかの一に記載の関連語情報作成装置において、前
記単語クラスタリング部は、前記クラスタを識別するク
ラスタIDと当該クラスタに所属する前記単語を識別す
る単語IDとを関連付けたクラスタ辞書および前記単語
ごとにその単語の前記単語IDと当該単語が所属する前
記クラスタの前記クラスタIDとを関連付けた単語クラ
スタ辞書を、前記関連語情報として作成することを特徴
とする。
【0024】したがって、クラスタ辞書および単語クラ
スタ辞書を参照して、関連語を相互に関連度の高いクラ
スタごとに提示することを可能として、利用者に関連語
の効率的な選択を支援することができる。
【0025】請求項5に記載の発明は、請求項1〜4の
いずれかの一に記載の関連語情報作成装置と、この関連
語情報作成装置で作成した前記関連語情報を記憶する関
連語情報記憶部と、関連語を取得したい単語の入力を受
付ける単語入力部と、この関連語情報記憶部を参照し
て、与えられた単語の関連語を求める関連語情報取得部
と、この得られた関連語を出力する関連語情報出力部
と、を備えていることを特徴とする関連語提示装置であ
る。
【0026】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。
【0027】請求項6に記載の発明は、請求項5に記載
の関連語提示装置において、前記関連語情報取得部は、
前記関連語情報記憶部の参照により前記関連語として求
めうる単語のうち前記単語入力部で入力した単語との関
連度が高いものに限定して前記関連語として求めること
を特徴とする。
【0028】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として求めることができ
る。
【0029】請求項7に記載の発明は、請求項5に記載
の関連語提示装置において、前記関連語情報出力部は、
前記関連語情報取得部で求めた前記関連語のうち前記単
語入力部で入力した単語との関連度が高いものに限定し
て出力することを特徴とする。
【0030】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として出力することができ
る。
【0031】請求項8に記載の発明は、請求項5〜7の
いずれかの一に記載の関連語提示装置において、前記関
連語情報出力部は、同一の前記クラスタ内にある前記関
連語は前記単語入力部で入力した単語との関連度に基づ
いた指標の順に出力することを特徴とする。
【0032】したがって、関連語を求めたい単語との関
連度に基づいた指標の順に関連語を出力することができ
る。
【0033】請求項9に記載の発明は、検索文の入力を
受付ける検索文入力部と、この入力された検索文に照合
する文書を、複数の文書を記憶した文書データベース部
を参照して検索する検索部と、この得られた検索結果を
出力する検索結果出力部と、前記単語入力部に代えて、
前記検索文入力部で入力された前記検索文から単語を抽
出し、この抽出した単語を前記関連語情報取得部に入力
する単語取得部を備えている請求項5〜8のいずれかの
一に記載の関連語提示装置と、前記全てまたは指定され
た単語に基づいて関連語提示装置で求めた前記関連語に
基づいて前記前記検索文入力部で入力された前記検索文
を修正する検索文修正部と、を備えていることを特徴と
する文書検索装置である。
【0034】したがって、検索文に含まれる単語の関連
語を相互に関連度の高いクラスタごとに提示することを
可能として、検索漏れの防止や、検索の絞り込みの効率
を向上させることができる。
【0035】請求項10に記載の発明は、与えられた単
語の関連語を取得するために参照する関連語情報を作成
する関連語情報作成方法において、複数の文書を登録し
た文書データベース部を参照することにより、前記複数
の文書に含まれる単語をクラスタリングし、当該単語を
その意味または分野ごとのクラスタに分類して前記関連
語情報を作成する単語クラスタリング工程を含んでなる
ことを特徴とする関連語情報作成方法である。
【0036】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。
【0037】請求項11に記載の発明は、請求項10に
記載の関連語情報作成方法において、前記単語クラスタ
リング工程は、前記単語間の関連度に基づき前記クラス
タリングを行うことを特徴とする。
【0038】したがって、単語間の関連度に基づいて作
成した関連語情報を用いて、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。
【0039】請求項12に記載の発明は、前記単語クラ
スタリング工程は、前記単語をノード、単語間にある関
連をアークとしたグラフの全体から完全グラフやそれを
やや緩めた推移律グラフをクラスタとして抽出し、得ら
れたクラスタのノード集合を得ることで前記クラスタリ
ングを行うことを特徴とする請求項11に記載の関連語
情報作成方法である。
【0040】したがって、排他的でないクラスタリング
を行って、関連語を相互に関連度の高いクラスタごとに
提示することを可能として、利用者に関連語の効率的な
選択を支援することができる。
【0041】請求項13に記載の発明は、請求項10〜
12のいずれかの一に記載の関連語情報作成方法におい
て、前記単語クラスタリング工程は、前記クラスタを識
別するクラスタIDと当該クラスタに所属する前記単語
を識別する単語IDとを関連付けたクラスタ辞書および
前記単語ごとにその単語の前記単語IDと当該単語が所
属する前記クラスタの前記クラスタIDとを関連付けた
単語クラスタ辞書を、前記関連語情報として作成するこ
とを特徴とする。
【0042】したがって、クラスタ辞書および単語クラ
スタ辞書を参照して、関連語を相互に関連度の高いクラ
スタごとに提示することを可能として、利用者に関連語
の効率的な選択を支援することができる。
【0043】請求項14に記載の発明は、関連語を取得
したい単語の入力を受付ける単語入力工程と、請求項1
0〜13のいずれかの一に記載の関連語情報作成方法で
作成した前記関連語情報を記憶している関連語情報記憶
部を参照して、前記単語入力工程で与えられた単語の関
連語を求める関連語情報取得工程と、この得られた関連
語を出力する関連語情報出力工程と、を含んでなること
を特徴とする関連語提示方法である。
【0044】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。
【0045】請求項15に記載の発明は、請求項14に
記載の関連語提示方法において、前記関連語情報取得工
程は、前記関連語情報記憶部の参照により前記関連語と
して求めうる単語のうち前記単語入力部で入力した単語
との関連度が高いものに限定して前記関連語として求め
ることを特徴とする。
【0046】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として求めることができ
る。
【0047】請求項16に記載の発明は、請求項14に
記載の関連語提示方法において、前記関連語情報出力工
程は、前記関連語情報取得部で求めた前記関連語のうち
前記単語入力部で入力した単語との関連度が高いものに
限定して出力することを特徴とする。
【0048】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として出力することができ
る。
【0049】請求項17に記載の発明は、請求項14〜
16のいずれかの一に記載の関連語提示方法において、
前記関連語情報出力工程は、同一の前記クラスタ内にあ
る前記関連語は前記単語入力部で入力した単語との関連
度に基づいた指標の順に出力することを特徴とする。
【0050】したがって、関連語を求めたい単語との関
連度に基づいた指標の順に関連語を出力することができ
る。
【0051】請求項18に記載の発明は、検索文の入力
を受付ける検索文入力工程と、この入力された検索文に
照合する文書を、複数の文書を記憶した文書データベー
ス部を参照して検索する検索工程と、この得られた検索
結果を出力する検索結果出力工程と、前記単語入力工程
に代えて、前記検索文入力部で入力された前記検索文か
ら単語を抽出し、この抽出した単語を前記関連語情報取
得工程に供する単語取得工程と含んでなる請求項14〜
17のいずれかの一に記載の関連語提示方法により、前
記全てまたは指定された単語に基づいて前記関連語を求
める関連語提示工程と、この求めた関連語に基づいて前
記検索文入力工程で入力された前記検索文を修正する検
索文修正工程と、を含んでなることを特徴とする文書検
索方法である。
【0052】したがって、検索文に含まれる単語の関連
語を相互に関連度の高いクラスタごとに提示することを
可能として、検索漏れの防止や、検索の絞り込みの効率
を向上させることができる。
【0053】請求項19に記載の発明は、与えられた単
語の関連語を取得するために参照する関連語情報の作成
をコンピュータに実行させる関連語情報作成プログラム
を記憶しているコンピュータに読取可能な記憶媒体にお
いて、前記関連語情報作成プログラムは、複数の文書を
登録した文書データベース部を参照することにより、前
記複数の文書に含まれる単語をクラスタリングし、当該
単語をその意味または分野ごとのクラスタに分類して前
記関連語情報を作成する単語クラスタリング工程をコン
ピュータに実行させることを特徴とする記憶媒体であ
る。
【0054】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。
【0055】請求項20に記載の発明は、請求項19に
記載の記憶媒体において、前記単語クラスタリング工程
は、前記単語間の関連度に基づき前記クラスタリングを
行うことを特徴とする。
【0056】したがって、単語間の関連度に基づいて作
成した関連語情報を用いて、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。
【0057】請求項21に記載の発明は、請求項20に
記載の記憶媒体において、前記単語クラスタリング工程
は、前記単語をノード、単語間にある関連をアークとし
たグラフの全体から完全グラフやそれをやや緩めた推移
律グラフをクラスタとして抽出し、得られたクラスタの
ノード集合を得ることで前記クラスタリングを行うこと
を特徴とする。
【0058】したがって、排他的でないクラスタリング
を行って、関連語を相互に関連度の高いクラスタごとに
提示することを可能として、利用者に関連語の効率的な
選択を支援することができる。
【0059】請求項22に記載の発明は、請求項19〜
21のいずれかの一に記載の記憶媒体において、前記単
語クラスタリング工程は、前記クラスタを識別するクラ
スタIDと当該クラスタに所属する前記単語を識別する
単語IDとを関連付けたクラスタ辞書および前記単語ご
とにその単語の前記単語IDと当該単語が所属する前記
クラスタの前記クラスタIDとを関連付けた単語クラス
タ辞書を、前記関連語情報として作成することを特徴と
する。
【0060】したがって、クラスタ辞書および単語クラ
スタ辞書を参照して、関連語を相互に関連度の高いクラ
スタごとに提示することを可能として、利用者に関連語
の効率的な選択を支援することができる。
【0061】請求項23に記載の発明は、請求項19〜
22のいずれかの一に記載の記憶媒体において、関連語
を取得したい単語の入力を受付ける単語入力工程と、前
記関連語情報作成プログラムに基づいてコンピュータが
作成した前記関連語情報を記憶している関連語情報記憶
部を参照して、前記単語入力工程で与えられた単語の関
連語を求める関連語情報取得工程と、この得られた関連
語を出力する関連語情報出力工程と、をコンピュータに
実行させる関連語提示プログラムを記憶している。
【0062】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。
【0063】請求項24に記載の発明は、請求項23に
記載の記憶媒体において、前記関連語情報取得工程は、
前記関連語情報記憶部の参照により前記関連語として求
めうる単語のうち前記単語入力部で入力した単語との関
連度が高いものに限定して前記関連語として求めること
を特徴とする。
【0064】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として求めることができ
る。
【0065】請求項25に記載の発明は、請求項23に
記載の記憶媒体において、前記関連語情報出力工程は、
前記関連語情報取得部で求めた前記関連語のうち前記単
語入力部で入力した単語との関連度が高いものに限定し
て出力することを特徴とする。
【0066】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として出力することができ
る。
【0067】請求項26に記載の発明は、請求項23〜
25のいずれかの一に記載の記憶媒体において、前記関
連語情報出力工程は、同一の前記クラスタ内にある前記
関連語は前記単語入力部で入力した単語との関連度に基
づいた指標の順に出力することを特徴とする。
【0068】したがって、関連語を求めたい単語との関
連度に基づいた指標の順に関連語を出力することができ
る。
【0069】請求項27に記載の発明は、請求項23〜
26のいずれかの一に記載の記憶媒体において、検索文
の入力を受付ける検索文入力工程と、この入力された検
索文に照合する文書を、複数の文書を記憶した文書デー
タベース部を参照して検索する検索工程と、この得られ
た検索結果を出力する検索結果出力工程と、前記単語入
力工程に代えて、前記検索文入力部で入力された前記検
索文から単語を抽出し、この抽出した単語を前記関連語
情報取得工程に供する単語取得工程とコンピュータに実
行させる前記関連語提示プログラムにより、前記全てま
たは指定された単語に基づいて前記関連語を求める関連
語提示工程と、この求めた関連語に基づいて前記検索文
入力工程で入力された前記検索文を修正する検索文修正
工程と、をコンピュータに実行させる文書検索プログラ
ムを記憶している。
【0070】したがって、検索文に含まれる単語の関連
語を相互に関連度の高いクラスタごとに提示することを
可能として、検索漏れの防止や、検索の絞り込みの効率
を向上させることができる。
【0071】
【発明の実施の形態】[発明の実施の形態1]この発明
の一実施の形態を、発明の実施の形態1として説明す
る。
【0072】図1は、この発明の実施の形態1である関
連語提示装置1の機能ブロック図である。図1に示すよ
うに、この関連語提示装置1は文書データベース部2を
備えている。これは、複数の文書を登録管理する文書デ
ータベースであり、例えばリレーショナルデータベース
管理システムなどを使って管理する。単語クラスタリン
グ部3は、文書データベース部2に登録されている各文
書から単語を抽出し、その単語間の関連を調べ、それに
基づき単語をクラスタリングするもので、関連語情報作
成装置を実現するものである。関連語情報記憶部4は、
単語クラスタリング部3による単語のクラスタリング結
果を関連語情報として記憶する。単語入力部5は、関連
語を得るべき単語の入力を受け付け、その入力を関連語
情報取得部6へ送る。関連語情報取得部6は、単語入力
部5から送られた入力単語について、関連語情報記憶部
4を検索し、関連語情報を取得し、その結果を関連語情
報出力部7に出力する。関連語情報出力部7は、関連語
情報取得部6から送られた関連語情報を出力する。
【0073】図2は、関連語提示装置1のハードウエア
構成を示すブロック図である。図2に示すように、関連
語提示装置1は、CPU11と、ROM12と、RAM
13とが、バスライン14で接続されている。バスライ
ン14には、所定のインターフェイスを介して、LC
D、プリンタなどの出力装置15と、キーボード、ポイ
ンティングデバイスなどの入力装置16と、ハードディ
スク17とを備えている。また、記憶媒体18を読み取
る記憶媒体読取装置19と、関連語提示装置1をインタ
ーネットなどのネットワークに接続する通信制御装置2
0とのうち、少なくとも一方を備えている。
【0074】ハードディスク17には、関連語提示プロ
グラムがインストールされている。この関連語提示プロ
グラムには、関連語情報作成プログラムを含んでいる。
関連語提示プログラムは、記憶媒体18に記憶されてい
て、記憶媒体読取装置19により読み取ってハードディ
スク17にインストールすることができる。また、イン
ターネットなどのネットワークから関連語提示プログラ
ムをダウンロードしてハードディスク17にインストー
ルすることができる。
【0075】記憶媒体18は、具体的には、CD,DV
Dなどの各種光ディスク、各種光磁気ディスク、FDな
どの各種磁気ディスクなど、各種方式のメディアを用い
ることができる。記憶媒体読取装置19は、具体的に
は、記憶媒体18としていかなるメディアが用いられる
かにより、CDドライブ装置、DVDドライブ装置、F
Dドライブ装置、MOドライブ装置などが使用される。
インターネットなどのネットワークからダウンロードし
てハードディスク17にインストールする場合に、送信
側のサーバにおいて関連語提示プログラムを記憶してい
る記憶装置も、この発明の記憶媒体である。
【0076】文書データベース部2はハードディスク1
7内に構築される。ハードディスク17に関連語提示プ
ログラムがインストールされることにより、CPU11
は、関連語提示プログラムに基づいて、単語クラスタリ
ング部3、関連語情報記憶部4および関連語情報取得部
6の機能を実行する。関連語情報記憶部4の記憶エリア
は、RAM13またはハードディスク17に確保され
る。また、入力装置16を介して単語入力部5の機能を
実行し、出力装置15を介して関連語情報出力部7の機
能を実行する。関連語提示プログラムは、所定のOS上
で動作するものであってもよい。また、OSや他のアプ
リケーションソフトに、その機能の一部を代行させるも
のであってもよい。
【0077】次に、関連語提示プログラムに基づいて関
連語提示装置1が行う処理に付いて説明する。図3は、
関連語提示装置1が行う処理を示すフローチャートであ
る。
【0078】(A) 関連語情報の作成/格納 関連語提示装置1は、「関連語の関連語情報出力部7へ
の出力」を目的としているが、その準備として、あらか
じめ最初にあるいは文書データベース部2が更新された
場合等の契機に、「関連語情報の作成/格納」の処理を
実行する。図3は、関連語提示装置1が行う「関連語情
報の作成/格納」の処理のフローチャートである。かか
る処理により、関連語情報作成方法を実現している。
【0079】.文書からの単語抽出 図3に示すように、まず、ステップ1で、文書データベ
ース部2に登録されている各文書に対し、形態素解析処
理により品詞付きの単語分割を施し、単語を抽出する
(ステップS1)。
【0080】抽出する単語は、形容詞や動詞等を含めた
自立語を広く対象にすることもあるが、最も一般的なア
プリケーションである文書検索システムのために関連語
提示装置1を用いる場合には、形式名詞や副詞名詞とい
った機能的な名詞を除いた一般的な名詞だけを対象にす
ることが多い。ここでは、この一般的な名詞だけを対象
にして説明する。また、複合名詞はより基本的な名詞に
分解することができ、どのような単位をとるかという問
題があるが、ここでは、複合名詞は分解せずにそのまま
抽出することにする。
【0081】たとえば、下記の文書1(文書ID=1/
朝日新聞 1993年1月21日の記事)に対して、文書内の
各文に形態素解析処理を施し、名詞を抽出することによ
り、下記のリスト1のとおり文書1内に出現した単語
(名詞)のリストが得られ、さらに同一単語の重複を排
除することによって下記のリスト2が得られる。
【0082】 <文書1> -------------------------------------------------------------- 通常兵器関連の工業製品 輸出規制が始動 4ヶ国対象 通常兵器の部品や加工機械に転用できる工業製品の輸出規制が二十日、日本で も始まった。英米などの主要先進七カ国(G7)の合意に基づいた規制で、イラ クなど四カ国を対象にして、対共産圏輸出統制委員会(ココム)のリストを準用 する形。G7は既に対象となる品目、国を広げるための話し合いを始めており、 冷戦終結で変わる新たな輸出規制に発展しそうだ。
【0083】 規制対象となる国は、イラン、イラク、リビア、朝鮮民主主義共和国(北朝鮮 )の四カ国である。北朝鮮は、既に共産圏として特定地域に指定されているため 、新たに追加されるのは三カ国である。また、イラクは経済制裁で禁輸措置が取 られている。今回の措置で輸出に大きな変化が出るのはイランとリビアの二国に なりそうだ。
【0084】 輸出貿易管理令などに基づいて定められたコンピュータや工作機械などの規制 品目を輸出する時には、通産省に許可申請を行う。その際、特定地域に指定され ている国に対しては、明らかに民生用とわかる場合でなければ許可が下りず、事 実上、規制品は輸出できない。 --------------------------------------------------------------
【0085】 <リスト1> -------------------------------------------------------------- 兵器 輸出規制 通常兵器 工業製品 輸出規制 対象 通常兵器 部品 加工 機械 工業製品 輸出規制 日本 英米 主要先進 G7 合意 規制 イラク 対象 対共産圏輸出統制委員会 ココム リスト G7 対象 品目 話し合 い 冷戦終結 輸出規制 規制対象 イラン イラク リビア 朝鮮民主主義共 和国 北朝鮮 北朝鮮 共産圏 特定地域 イラク 経済制裁 禁輸措置 措置 輸出 変化 イラン リビア 輸出貿易管理令 コンピュータ 工作機械 規 制品目 通産省 許可申請 特定地域 民生用 許可 規制品 -------------------------------------------------------------
【0086】 <リスト2> ------------------------------------------------------------- 兵器 輸出規制 通常兵器 工業製品 対象 部品 加工機械 日本 英米 主 要先進 G7 合意 規制 イラク 対共産圏輸出統制委員会 ココム リスト 品目 話し合い 冷戦終結 規制対象 イラン リビア 朝鮮民主主義共和国 北朝鮮 共産圏 特定地域 経済制裁 禁輸措置 措置 輸出 変化 輸出貿 易管理令 コンピュータ 工作機械 規制品目 通産省 許可申請 民生用 許 可 規制品 -------------------------------------------------------------
【0087】さらに、文書ごとに出現する単語を並べる
ことで、表1のような文書ごとの単語リストが得られ
る。
【0088】
【表1】
【0089】表1で単語をキーに作り直すことで、表2
のような単語IDがキーのインデクスが作成できる。こ
のインデクスは、単語を検索キーワードにとる文書検索
システムで用意する検索インデクスと同様のものであ
る。これは、単語と文書IDの組データを生成し、この
組データを、単語表記をキーにソートした後、同一単語
で並んだ範囲の組データ群から単語とそれを含む文書I
Dリストを得、単語IDは、異なりの単語に対して、順
に振ることで容易に得ることができる。
【0090】尚、単語表示をキーにソートしているの
で、単語IDは、いわゆる辞書順になっている。
【0091】
【表2】
【0092】さらに、得られた単語IDを用いて、表1
の文書IDごとの単語リスト中の単語を単語IDに置き
換え、単語ID値でソートすることで、表3のような文
書IDがキーのインデクスが作成できる。
【0093】
【表3】
【0094】.単語のクラスタリング 関連語は、従来技術においては、単語間の関連度(類似
度)を定義して、関連度の大きな単語を関連語として選
択している。関連度として用いる指標としては、相互情
報量(“Word association norms,mutual information,
and lexicography”,Kenneth Ward Church and patric
Hanks,Computational Lingusitics,16(1):22-29, 1990
参照)、YuleのY、DiceCofficient等、各種ある。
【0095】本発明の実施の形態1では、ある単語の関
連語は、意味や分野により、異なったクラスタ(グルー
プ)に属していると考え、そのクラスタごとに整理し
て、関連語を提示することを前提にすることから、前記
ステップS1の処理の後に、単語のクラスタリング処理
を行う(ステップS2)。これにより単語クラスタリン
グ工程を実現している。
【0096】この目的のために、人手による作成でな
く、情報処理により自動的な処理を行う場合は、上記の
単語間の関連度を利用するのが普通である。しかし、最
も一般的に考えられる、関連度の高いもの同士を併合し
ていくクラスタリング法では、排他的なクラスタしか生
成しないため、ある単語について複数のクラスタごとの
提示にならない。重複を許すクラスタリング処理手法の
一つとして、多義性のある単語のクラスタリングを目的
とした「推移律グラフに基づく共起グラフのクラスタ分
け」(「推移率に基づく共起グラフのクラスタ分け」,
田中久美子他,情報処理学会研究会報告自然言語処理115
-15,1996、および、“Clustering Co-occurence Graph
based on Transitivity”,Kumiko TANAKA-Ishii,Hideya
IWASAKI,The 5th Workshop on Very Large Corpora(WV
LC5),1998参照)がある。この単語のクラスタリングで
は、単語をノード、単語間にある関連をアークとしたグ
ラフの全体から関連性の高いグラフをクラスタとして抽
出し、得られたクラスタのノード集合を関連語クラスタ
とするものである。具体的には、単語をノード、単語間
にある関連をアークとした完全グラフやそれをやや緩め
た推移律グラフをクラスタとして抽出し、得られたクラ
スタのノード集合を関連語クラスタとすることが考えら
れる。
【0097】(1)関連度に相互情報量 以下、ここでは、単語のクラスタリングの処理として、
関連度として最も知られた相互情報量を用い、「推移律
グラフに基づく共起グラフのクラスタ分け」を行う処理
を示すが、この発明は当該手段に限定されるものではな
い。
【0098】次の式は、N個の文書中における、単語W
aと単語Wbの相互情報量M(Wa,Wb)を定義する
式である。
【0099】M(Wa,Wb)=log(P(Wa,Wb)
/P(Wa)P(Wb)) ここで、P(Wn)=Nn/N, P(Wa,Wb)=
Nab/N P(Wn)は、単語WnがN個の文書中に出現する確率
であり、Nnは単語Wnが出現する文書数である。ま
た、P(Wa,Wb)は、単語Waと単語WbがN個の
文書中に共出現する確率であり、Nabは共出現する文
書数である。尚、共出現の単位は、文書の部分や複数文
書を単位にすることも考えられるが、ここでは、文書を
単位とする例で説明する。
【0100】文書数及び単語ごとの出現文書数は、前記
ステップS1により得られている。相互情報量のために
は、さらに、全単語対ごとに2つの単語が共出現する文
書数が必要である。この値を得るには、例えば、最も簡
易な手段として、単語IDの小さい順から、その単語と
その単語IDより大きい単語の各々の出現文書の文書I
Dのリストを照合して、一致する数を数えればよい。
【0101】たとえば、表2に示すように、単語IDが
3の「G7」は、単語IDが4の単語から順次調べる
が、たとえば、単語IDが13の「アメリカ」の共出現
文書数は、表2の「G7」の出現文書数6の文書IDの
リストが「1,88,105,288,300,410」であり、「アメリ
カ」の出現文書数42の文書IDのリスト「2,3,5,88,1
05,109,300,310,479,…」と順次比べていけば、「88,10
5,300」が共通していることがわかる。
【0102】表4は、このようにして求めた全出現単語
間の共出現文書数を表したマトリクス(対角部分より左
下はなし)のうち、「G7」(単語ID=3)、「Jリ
ーグ」(同4)等、10単語の共出現文書数の部分だけ
を抜き出したものである。尚、表4中の「Nn」は、単
語の「出現文書数」であり、その対応欄には値が示され
ている。
【0103】
【表4】
【0104】表4から、たとえば、単語「G7」と単語
「アメリカ」について、各々の単独の出現文書数Nnが
6,42、共出現文書数が3を得て、この2単語の相互
情報量を、次のように得ることができる。
【0105】 P(「G7」)=6/2000=0.003 P(「アメリカ」)=42/2000=0.021 P(「G7」,「アメリカ」)=3/2000=0.0015 M(「G7」,「アメリカ」) =log(P(「G7」,「アメリカ」)/P(「G7」)・P(「アメリカ 」) =log(3・2000/(6・42))=log(1000/42)≒4.57 (ここで、logの基底は2とした) 上記の計算を全単語の組合せについて行い、全単語間の
相互情報量を得ることができる。表5は、表4と同様に
10単語間の相互情報量を抜き出した表である。
【0106】
【表5】
【0107】相互情報量は、2単語間の関連度を表すと
考えるが、例えば、閾値として3を用いるとすると、表
5では、相互情報量が0を超える単語の組合わせのう
ち、「アメリカ」(13)と「ゴール」(37)、「トラ
イ」(65)と「鹿島」(502)は、関連度が閾値以下な
ので、単語間の関連がないとみなす。
【0108】(2) 推移律グラフに基づく共起グラフ
のクラスタ分け この方法による全体グラフG(全ノードの集合と全アー
クの集合の組)からクラスタGi(ノード集合とアーク
集合の組)の抽出手順は、以下にようになる(“「推移
率に基づく共起グラフのクラスタ分け」,田中久美子他,
情報処理学会研究会報告 自然言語処理115-15,1996”お
よび“"Clustering Co-occurence Graphbased on Trans
itivity",Kumiko TANAKA-Ishii, Hideya IWASAKI, The
5th Workshop on Very Large Corpora(WVLC5),1998”参
照)。
【0109】[0] i=0として、ノード集合とアー
ク集合がともに空のクラスタGi(G0)を作成する。
【0110】[1] G0,…,Giのいずれにも含ま
れないアークe、および、アークeと三角形をなすノー
ドvがあれば、この三角形をなすノードとアークの全て
をクラスタGi+1に入れる。クラスタGi+1に入れ
るグラフ(ノードとアーク)がなければ終了。
【0111】[2] クラスタGi+1に含まれるアー
クeがクラスタGi+1に含まれないノードvと三角形
をなし、G0,…,Giのいずれにも含まれないアーク
eがある場合、アークeと三角形をなすノードvがGi
+1に含まれるノードv’と結ばれていれば、この三角
形及びノードvとGi+1中のノードとのアークのすべ
てクラスタGi+1に入れる。クラスタGi+1が拡張
できなければ、[4]に進む。
【0112】[3] [2]に戻る。
【0113】[4] iに1加算して[1]に戻る。
【0114】上記に示してきた例は、多数の単語からな
るが、以下、説明のために、表5に明示された単語をノ
ードにするグラフを全体グラフとして、上記のクラスタ
の抽出手順の過程を示す。
【0115】相互情報量の閾値を3とすれば、ノードと
アークは次のようになる。 ------------------------------------------------------------- ・ノード:(3),(4),(13),(37),(65),(66),(184),(414),(50 2),(974) ・アーク:(3)-(37),(4)-(37),(4)-(414),(4)-(502),(37) -(65),(37)-(184),(37)-(414),(37)-(502),(65)-(184),(65 )-(414),(66)-(414),(66)-(974),(184)-(414),(414)-(502) ,(414)-(974) -------------------------------------------------------------
【0116】図4は、この結果のグラフを図示したもの
である。
【0117】上記に示した手順によって、具体的には次
のようにクラスタ抽出処理が進む。
【0118】[0]i=0として、ノード集合、クラス
タ集合共に、空のクラスタGiを作成する。
【0119】[1:G1の初期設定] G0に含まれな
いアーク(3)-(37)は、これと三角形をなすノードが
ない。次のアーク(4)-(37)を選ぶと、このアークと
ノード(414)が、アーク(4)-(414)、アーク(37)
-(414)とで三角形をなすので、G1として、<
{(4),(37),(414)},{(4)-(37),(4)-(41
4),(37)-(414)}>が初期設定される。
【0120】[2:G1の追加] G1に含まれるアー
ク(4)-(37)は、G1に含まれないノード(502)と
アーク(4)-(502)、アーク(37)-(502)とで三角
形をなし、かつG1に含まれるノード(414)とアーク
(414)-(502)とで結ばれている。以上により、G1
には、ノード(502)とアーク(4)-(502)、アーク
(37)-(502)、アーク(414)-(502)が追加され
る。
【0121】[3] [2]へ戻る。
【0122】[2:G1の追加] G1に含まれるいず
れのアークもG1に含まれないノードと三角形をなさな
いので、G1の処理は終了する。
【0123】この時点で、次のようになっている。 ------------------------------------------------------------- G0=<{},{}> G1=<{(4),(37),(414),(502)},{(4)-(37),(4)-(414), (4)-(502),(37)-(414),(37)-(502),(414)-(502)}> いずれのクラスにも属さないアーク:(3)-(37),(37)-(65),(37)- (184),(65)-(184),(65)-(414),(66)-(414),(66)-(974),(18 4)-(414),(414)-(974) -------------------------------------------------------------
【0124】[4] i=1とする。
【0125】[1:G2の初期設定] G0,G1に含
まれないアーク(37)-(65)は、ノード(414)が、ア
ーク(37)-(414)、アーク(65)-(414)とで三角形
をなすので、G2として、<{((37),(65),(41
4)),{(37)-(65),(37)-(414),(65)-(41
4)}>が初期設定される
【0126】[2:G2の追加] G2に含まれるアー
ク(65)-(414)は、G2に含まれないノード(184)
とアーク(65)-(184)、アーク(184)-(414)とで
三角形をなし、かつG2に含まれるノード(37)とアー
ク(37)-(184)とで結ばれている。以上により、G2
には、ノード(184)とアーク(37)-(184)、アーク
(65)-(184)、アーク(184)-(414)が追加され
る。
【0127】[3] [2]へ戻る。
【0128】[2:G2の追加] G2に含まれるいず
れのアークもG2に含まれないノードと三角形をなさな
いので、G2の処理は終了する。
【0129】この時点で、次のようになっている。 ------------------------------------------------------------- G0=<{},{}> G1=<{(4),(37),(414),(502)},{(4)-(37),(4)-(414), (37)-(414),(4)-(502),(37)-(502),(414)-(502)}> G2=<{((37),(65),(184),(414)),{(37)-(65),(37)-(1 84),(37)-(414),(65)-(184),(65)-(414),(184)-(414)}> いずれのクラスにも属さないアーク:(3)-(37),(66)-(414),(66) -(974),(414)-(974) -------------------------------------------------------------
【0130】[4] i=2とする。
【0131】[1:G3の初期設定] G0,G1,G
3に含まれないアーク(68)-(414)は、ノード(97
4)が、アーク(68)-(974)、アーク(414)-(974)
とで三角形をなすので、G2として、<{((68),(41
4),(974)),{(68)-(414),(68)-(974),(41
4)-(974)}>が初期設定される。
【0132】[2:G3の追加] G3に含まれるいず
れのアークもG3に含まれないノードと三角形をなさな
いので、G3の処理は終了する。
【0133】この時点で、次のようになっている。 ------------------------------------------------------------- G0=<{},{}> G1=<{(4),(37),(414),(502)},{(4)-(37),(4)-(414), (37)-(414),(4)-(502),(37)-(502),(414)-(502)}> G2=<{((37),(65),(184),(414)},{(37)-(65),(37)-(18 4),(37)-(414),(65)-(184),(65)-(414),(184)-(414)}> G3=<{((68),(414),(974)},{(68)-(414),(68)-(974),( 414)-(974)}> いずれのクラスにも属さないアーク:(3)-(37) -------------------------------------------------------------
【0134】[4] i=3とする。
【0135】[1:G4の初期設定] G0,G1,G
2,G3に含まれないアーク(3)-(37)は、いずれの
ノードとも三角形をなさない。G4に入れるグラフがな
いので、全体の処理を終了する。
【0136】以上により、G0を除くと、図5に示す3
つのクラスタができたことになる。ここで、「競技場」
(414)は、G1,G2,G3に共通で、「ゴール」
は、G1,G2に共通である。
【0137】.関連語情報の作成/格納 前記ステップ2の処理終了後、関連語情報として、単語
クラスタリングの結果を整理して、格納する(ステップ
S3)。
【0138】指定された単語の関連語をクラスタごとに
得るためには、単語から所属クラスタを得て、さらに、
そのクラスタに所属する単語を得ることができればよ
い。
【0139】クラスタに所属する単語は、ステップS2
で得たGiのノード集合により得ることができる。表6
は、前記の10単語におけるクラスタ所属の単語表であ
る。
【0140】
【表6】
【0141】単語から所属クラスタを得る表は、表6
を、単語IDをキーに走査することで表7のように得ら
れる。
【0142】
【表7】
【0143】ステップ3では、これらの表を作成し、各
々、クラスタ辞書、単語クラスタ辞書として関連語情報
記憶部4に記憶する。
【0144】尚、単語クラスタ辞書は、実際には、単語
は表記で指定されることから、単語表記をキーとして表
8のように格納する。
【0145】
【表8】
【0146】また、関連語の表示において、関連度の値
を参照するために表5も併せて関連語情報記憶部4に関
連度辞書として記憶する。
【0147】(B) 関連語情報の表示 以上説明した“(A)関連語情報の作成/格納”によ
り、関連語提示装置1の関連語情報が作成/格納された
状態で、利用者の指示を契機として「関連語の表示」が
行われる。
【0148】次に、図6のフローチャートを参照して、
関連語提示装置1の「関連語情報の表示」の処理の流れ
を説明する。
【0149】.単語の入力受付 利用者は、関連語を得たい単語の入力を単語入力部5に
より受付ける(ステップS11)。これにより単語入力
工程を実現している。
【0150】.関連語情報の取得 次に、単語入力部5により受付けた単語の関連語情報を
取得する(ステップS12)。これにより関連語情報取
得工程を実現している。
【0151】以下では、単語入力部5により「競技場」
が入力された例で説明する。すなわち、入力された単語
「競技場」を、表8を格納した単語クラスタ辞書で検索
する。表8によれば、「競技場」は、単語IDが「41
4」、3つのクラスタ「1,2,3」に属していることがわか
る。
【0152】次に表9を格納したクラスタ辞書により、
各クラスタに所属する単語の単語IDが次のように検索
できる。
【0153】・クラスタ1:(4単語) 4,37,414,502 ・クラスタ2:(4単語) 37,65,184,414 ・クラスタ3:(3単語) 68,414,974
【0154】入力単語を除いて、再び、表8の単語クラ
スタ辞書から各単語IDの単語(表記)を得ることで、
次のように、関連語を得ることができる。
【0155】・クラスタ1の関連語: 4「Jリーグ」,
37「ゴール」,502「鹿島」 ・クラスタ2の関連語: 37「ゴール」,65「トライ」,
184「花園」 ・クラスタ3の関連語: 68「トラック」,974「陸上競
技」
【0156】さらに入力単語との関連度も求めるように
してもよい。関連度は、表5の関連度辞書から得る。た
とえば、単語IDが414の「競技場」と単語IDが4の
「Jリーグ」の関連度は、関連度辞書のマトリクス上の
(4,414)の要素の値「5.69」となる。これにより、次
のような関連度([]内)を付加できる。
【0157】・クラスタ1の関連語: 4「Jリーグ」
[5.69],37「ゴール」[4.93],502「鹿島」[5.29] ・クラスタ2の関連語: 37「ゴール」[4.93],65
「トライ」[4.04],184「花園」[4.38] ・クラスタ3の関連語: 68「トラック」[5.07],974
「陸上競技」[5.18] 尚、上記の例には現れていないが、ここで得たクラスタ
は完全グラフではないので、単語と直接の関連度を持た
ない関連語もありうる。
【0158】また、ある閾値以下のものは、関連語から
排除するようにしてもよい。たとえば、閾値を4.5とす
れば、次のようになる。
【0159】・クラスタ1の関連語: 4「Jリーグ」
[5.69],37「ゴール」[4.93],502「鹿島」[5.29] ・クラスタ2の関連語: 37「ゴール」[4.93] ・クラスタ3の関連語: 68「トラック」[5.07],974
「陸上競技」[5.18]
【0160】さらに、単語とクラスタ内の単語の関連度
に基づいた指標を用いるようにしてもよい。例えば、そ
の指標として、入力単語との関連度の平均値を用いると
すれば、指標は次のようになる。
【0161】 ・クラスタ1: 5.30 ・クラスタ2: 4,45 ・クラスタ3: 5.13
【0162】.関連語情報の表示 そして、ステップS2で得られた、入力された単語の関
連語をクラスタごとにグループ化して表示する(ステッ
プS13)。これにより関連語情報出力工程を実現して
いる。
【0163】例えば、次のように表示する。 ------------------------------------------------------------- [A]:リーグ ゴール 鹿島 [B]:ゴール トライ 花園 [C]:トラック 陸上競技 ------------------------------------------------------------- ステップS2で、ある閾値以下のものを排除するとき
は、表示からも排除する。たとえば、閾値を5とすれ
ば、次のように表示する。 ------------------------------------------------------------- [A]:リーグ 鹿島 [B]:トラック 陸上競技 ------------------------------------------------------------- また、次のように、関連度の大きさの順に表示するよう
にしてもよい。 ------------------------------------------------------------- [A]:リーグ 鹿島 ゴール [B]:ゴール 花園 トライ [C]:陸上競技 トラック ------------------------------------------------------------- ステップS2で単語とクラスタ内の単語の関連度に基づ
いた指標を用いる場合は、単語とクラスタ内の単語の関
連度に基づいた指標の順にクラスタを表示する。たとえ
ば、その指標として、入力単語との関連度の平均値を用
いるとすれば、次のように表示される。 ------------------------------------------------------------- [A]:リーグ ゴール 鹿島 [B]:トラック 陸上競技 [C]:ゴール トライ 花園 -------------------------------------------------------------
【0164】[発明の実施の形態2]この発明の実施の
形態に関する別の例を、発明の実施の形態2として説明
する。
【0165】図7は、この発明の実施の形態2である文
書検索装置21の機能ブロック図である。図7に示すよ
うに、検索文入力部22は、文書検索のための検索文の
入力を受付け、それを検索部23へ送るとともに、関連
語提示の指示の入力も受け付け、その指示があれば検索
文を関連語提示部24にも送る。
【0166】文書データベース部25は、複数の文書を
登録管理する文書データベースを格納しており、例えば
リレーショナルデータベース管理システムにより管理す
る。このデータベースの管理する情報としては、1つの
文書について少なくともそのタイトルと文書内容の情報
とが含まれる。
【0167】検索部23は、検索文入力部22から与え
られた検索文を使って文書データベースを検索して、検
索結果を検索結果出力部26へ送る。これを受けて、検
索結果出力部26は検索結果を出力する。
【0168】関連語提示部24は、検索文入力部22か
ら与えられた検索文中の単語を抽出して関連語を取得
し、その取得結果を関連語情報出力部7(図8参照)に
出力させるとともに、検索文修正部27にも関連語の情
報を送る。
【0169】検索文修正部27は、関連語提示部24に
より提示された関連語のうち、そのすべて、または、検
索文入力部22による入力で指定された関連語につい
て、例えば検索文に追加する等、検索文の修正を行う。
【0170】図8は、関連語提示部24の機能ブロック
図である。図8に示すように、関連語提示部24は、発
明の実施の形態1の関連語提示装置1と同様の単語クラ
スタリング部3、関連語情報記憶部4、単語入力部5、
関連語情報取得部6、関連語情報出力部7を備えてい
る。また、文書データベース部25を文書データベース
部2として使用する。また、単語入力部5に代えて単語
取得部28を備えている。この単語取得部28は、検索
文入力部22で入力した検索文中の単語を抽出して関連
語を取得し、その取得結果を関連語情報出力部7、関連
語情報取得部6に出力する。この場合に、検索文入力部
22による入力で指定された関連語についてのみ、検索
文修正部27で検索文の修正を行う場合には、検索文入
力部22による入力で指定された関連語のみが関連語情
報取得部6に出力される。
【0171】図7、図8に示す文書検索装置21の具体
的なハードウエア構成は、図2に示す発明の実施の形態
1の関連語提示装置1と同様である。そして、ハードデ
ィスク17には、文書検索プログラムがインストールさ
れている。この文書検索プログラムは、記憶媒体18に
記憶されていて、記憶媒体読取装置19により読み取っ
てハードディスク17にインストールすることができ
る。また、インターネットなどのネットワークから関連
語提示プログラムをダウンロードしてハードディスク1
7にインストールすることができる。
【0172】文書データベース部25はハードディスク
17内に構築される。ハードディスク17に文書検索プ
ログラムがインストールされることにより、CPU11
は、文書検索プログラムに基づいて、検索部23、関連
語提示部24、検索文修正部27の機能を実行する。関
連語情報記憶部4の記憶エリアは、RAM13またはハ
ードディスク17に確保される。また、入力装置16を
介して単語入力部5の機能を実行し、出力装置15を介
して検索結果出力部26、関連語情報出力部7の機能を
実行する。文書検索プログラムは、所定のOS上で動作
するものであってもよい。また、OSや他のアプリケー
ションソフトに、その機能の一部を代行させるものであ
ってもよい。
【0173】次に、図9、図10のフローチャートを参
照して、文書検索装置21が行う処理について説明す
る。図9に示すように、まず、検索文入力部22を介し
て利用者から必要とする文書に対する検索文の入力を受
付ける(ステップS21)。これにより検索文入力工程
を実現している。次に、検索語、検索語をAND演算子
(論理積)やOR演算子(論理和)等の論理記号で結合
した検索条件式、または、自然言語文や自然言語文から
なる文書の一部や全部である検索文を条件として、文書
データベース部25に関する検索を検索部23で行い
(ステップS22)、その検索結果を文書タイトルの一
覧として検索結果出力部26を介して表示する(ステッ
プS23)。ステップS22により検索工程を、ステッ
プS23により検索結果出力工程を実現している。
【0174】以上のステップS21〜23の文書検索の
流れの中で、検索文の入力中、入力後、検索結果の閲覧
の後など、さまざまな契機に、関連語提示の要求を、検
索文入力部22を介して利用者から受付けたときは(ス
テップS31)、検索文の中の単語を抽出する(ステッ
プS32)。そして、検索文中の単語ごとに関連語情報
を取得し(ステップS33)、取得された関連語情報を
関連語情報出力部7で出力する。そして、この出力した
関連語情報に対して、修正指示を利用者から受け付け
(ステップS34)、検索文を修正する(ステップS3
5)。ステップS31〜S33により関連語提示工程を
実現し、ステップS32により単語取得工程を実現し、
ステップS34,S35により検索文修正工程を実現し
ている。
【0175】
【発明の効果】請求項1に記載の発明は、作成した関連
語情報を用いて関連語を相互に関連度の高いクラスタご
とに提示することを可能として、利用者に関連語の効率
的な選択を支援することができる。
【0176】請求項2に記載の発明は、請求項1に記載
の関連語情報作成装置において、単語間の関連度に基づ
いて作成した関連語情報を用いて、関連語を相互に関連
度の高いクラスタごとに提示することを可能として、利
用者に関連語の効率的な選択を支援することができる。
【0177】請求項3に記載の発明は、請求項2に記載
の関連語情報作成装置において、排他的でないクラスタ
リングを行って、関連語を相互に関連度の高いクラスタ
ごとに提示することを可能として、利用者に関連語の効
率的な選択を支援することができる。
【0178】請求項4に記載の発明は、請求項1〜3の
いずれかの一に記載の関連語情報作成装置において、ク
ラスタ辞書および単語クラスタ辞書を参照して、関連語
を相互に関連度の高いクラスタごとに提示することを可
能として、利用者に関連語の効率的な選択を支援するこ
とができる。
【0179】請求項5に記載の発明は、作成した関連語
情報を用いて関連語を相互に関連度の高いクラスタごと
に提示することを可能として、利用者に関連語の効率的
な選択を支援することができる。
【0180】請求項6に記載の発明は、請求項5に記載
の関連語提示装置において、関連語を求めたい単語との
関連度が高いものだけを関連語として求めることができ
る。
【0181】請求項7に記載の発明は、請求項5に記載
の関連語提示装置において、関連語を求めたい単語との
関連度が高いものだけを関連語として出力することがで
きる。
【0182】請求項8に記載の発明は、請求項5〜7の
いずれかの一に記載の関連語提示装置において、関連語
を求めたい単語との関連度に基づいた指標の順に関連語
を出力することができる。
【0183】請求項9に記載の発明は、検索文に含まれ
る単語の関連語を相互に関連度の高いクラスタごとに提
示することを可能として、検索漏れの防止や、検索の絞
り込みの効率を向上させることができる。
【0184】請求項10に記載の発明は、作成した関連
語情報を用いて関連語を相互に関連度の高いクラスタご
とに提示することを可能として、利用者に関連語の効率
的な選択を支援することができる。
【0185】請求項11に記載の発明は、請求項10に
記載の関連語情報作成方法において、単語間の関連度に
基づいて作成した関連語情報を用いて、関連語を相互に
関連度の高いクラスタごとに提示することを可能とし
て、利用者に関連語の効率的な選択を支援することがで
きる。
【0186】請求項12に記載の発明は、排他的でない
クラスタリングを行って、関連語を相互に関連度の高い
クラスタごとに提示することを可能として、利用者に関
連語の効率的な選択を支援することができる。
【0187】請求項13に記載の発明は、請求項10〜
12のいずれかの一に記載の関連語情報作成方法におい
て、クラスタ辞書および単語クラスタ辞書を参照して、
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。
【0188】請求項14に記載の発明は、作成した関連
語情報を用いて関連語を相互に関連度の高いクラスタご
とに提示することを可能として、利用者に関連語の効率
的な選択を支援することができる。
【0189】請求項15に記載の発明は、請求項14に
記載の関連語提示方法において、関連語を求めたい単語
との関連度が高いものだけを関連語として求めることが
できる。
【0190】請求項16に記載の発明は、請求項14に
記載の関連語提示方法において、関連語を求めたい単語
との関連度が高いものだけを関連語として出力すること
ができる。
【0191】請求項17に記載の発明は、請求項14〜
16のいずれかの一に記載の関連語提示方法において、
関連語を求めたい単語との関連度に基づいた指標の順に
関連語を出力することができる。
【0192】請求項18に記載の発明は、検索文に含ま
れる単語の関連語を相互に関連度の高いクラスタごとに
提示することを可能として、検索漏れの防止や、検索の
絞り込みの効率を向上させることができる。
【0193】請求項19に記載の発明は、作成した関連
語情報を用いて関連語を相互に関連度の高いクラスタご
とに提示することを可能として、利用者に関連語の効率
的な選択を支援することができる。
【0194】請求項20に記載の発明は、請求項19に
記載の記憶媒体において、単語間の関連度に基づいて作
成した関連語情報を用いて、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。
【0195】請求項21に記載の発明は、請求項20に
記載の記憶媒体において、排他的でないクラスタリング
を行って、関連語を相互に関連度の高いクラスタごとに
提示することを可能として、利用者に関連語の効率的な
選択を支援することができる。
【0196】請求項22に記載の発明は、請求項19〜
21のいずれかの一に記載の記憶媒体において、クラス
タ辞書および単語クラスタ辞書を参照して、関連語を相
互に関連度の高いクラスタごとに提示することを可能と
して、利用者に関連語の効率的な選択を支援することが
できる。
【0197】請求項23に記載の発明は、請求項19〜
22のいずれかの一に記載の記憶媒体において、作成し
た関連語情報を用いて関連語を相互に関連度の高いクラ
スタごとに提示することを可能として、利用者に関連語
の効率的な選択を支援することができる。
【0198】請求項24に記載の発明は、請求項23に
記載の記憶媒体において、関連語を求めたい単語との関
連度が高いものだけを関連語として求めることができ
る。
【0199】請求項25に記載の発明は、請求項23に
記載の記憶媒体において、関連語を求めたい単語との関
連度が高いものだけを関連語として出力することができ
る。
【0200】請求項26に記載の発明は、請求項23〜
25のいずれかの一に記載の記憶媒体において、関連語
を求めたい単語との関連度に基づいた指標の順に関連語
を出力することができる。
【0201】請求項27に記載の発明は、請求項23〜
26のいずれかの一に記載の記憶媒体において、検索文
に含まれる単語の関連語を相互に関連度の高いクラスタ
ごとに提示することを可能として、検索漏れの防止や、
検索の絞り込みの効率を向上させることができる。
【図面の簡単な説明】
【図1】この発明の実施の形態1である関連語提示装置
の機能ブロック図である。
【図2】前記関連語提示装置のハードウエア構成を示す
ブロック図である。
【図3】前記関連語提示装置が行う処理を示すフローチ
ャートである。
【図4】前記関連語提示装置による関連語情報の作成を
説明する説明図である。
【図5】同関連語情報の作成を説明する説明図である。
【図6】前記関連語提示装置が行う処理を示すフローチ
ャートである。
【図7】この発明の実施の形態2である文書検索装置の
機能ブロック図である。
【図8】前記文書検索装置の関連語提示部の機能ブロッ
ク図である。
【図9】前記文書検索装置が行う処理を説明するフロー
チャートである。
【図10】同フローチャートである。
【符号の説明】
1 関連語提示装置 2 文書データベース部 3 単語クラスタリング部 4 関連語情報記憶部 5 単語入力部 6 関連語情報取得部 7 関連語情報出力部 18…記憶媒体 21…文書検索装置 22…検索文入力部 23…検索部 24…関連語提示部 25…文書データベース部 26…検索結果出力部 27…検索文修正部 28…単語取得部

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 与えられた単語の関連語を取得するため
    に参照する関連語情報を作成する関連語情報作成装置に
    おいて、 複数の文書を記憶する文書データベース部を参照して、
    前記複数の文書に含まれる単語をクラスタリングし、当
    該単語をその意味または分野ごとのクラスタに分類して
    前記関連語情報を作成する単語クラスタリング部を備え
    ていることを特徴とする関連語情報作成装置。
  2. 【請求項2】 前記単語クラスタリング部は、前記単語
    間の関連度に基づき前記クラスタリングを行うことを特
    徴とする請求項1に記載の関連語情報作成装置。
  3. 【請求項3】 前記単語クラスタリング部は、前記単語
    をノード、単語間にある関連をアークとしたグラフの全
    体から関連性の高い部分グラフをクラスタとして抽出
    し、得られたクラスタのノード集合を得ることで前記ク
    ラスタリングを行うことを特徴とする請求項2に記載の
    関連語情報作成装置。
  4. 【請求項4】 前記単語クラスタリング部は、前記クラ
    スタを識別するクラスタIDと当該クラスタに所属する
    前記単語を識別する単語IDとを関連付けたクラスタ辞
    書および前記単語ごとにその単語の前記単語IDと当該
    単語が所属する前記クラスタの前記クラスタIDとを関
    連付けた単語クラスタ辞書を、前記関連語情報として作
    成することを特徴とする請求項1〜3のいずれかの一に
    記載の関連語情報作成装置。
  5. 【請求項5】 請求項1〜4のいずれかの一に記載の関
    連語情報作成装置と、 この関連語情報作成装置で作成した前記関連語情報を記
    憶する関連語情報記憶部と、 関連語を取得したい単語の入力を受付ける単語入力部
    と、 この関連語情報記憶部を参照して、与えられた単語の関
    連語を求める関連語情報取得部と、 この得られた関連語を出力する関連語情報出力部と、を
    備えていることを特徴とする関連語提示装置。
  6. 【請求項6】 前記関連語情報取得部は、前記関連語情
    報記憶部の参照により前記関連語として求めうる単語の
    うち前記単語入力部で入力した単語との関連度が高いも
    のに限定して前記関連語として求めることを特徴とする
    請求項5に記載の関連語提示装置。
  7. 【請求項7】 前記関連語情報出力部は、前記関連語情
    報取得部で求めた前記関連語のうち前記単語入力部で入
    力した単語との関連度が高いものに限定して出力するこ
    とを特徴とする請求項5に記載の関連語提示装置。
  8. 【請求項8】 前記関連語情報出力部は、同一の前記ク
    ラスタ内にある前記関連語は前記単語入力部で入力した
    単語との関連度に基づいた指標の順に出力することを特
    徴とする請求項5〜7のいずれかの一に記載の関連語提
    示装置。
  9. 【請求項9】 検索文の入力を受付ける検索文入力部
    と、 この入力された検索文に照合する文書を、複数の文書を
    記憶した文書データベース部を参照して検索する検索部
    と、 この得られた検索結果を出力する検索結果出力部と、 前記単語入力部に代えて、前記検索文入力部で入力され
    た前記検索文から単語を抽出し、この抽出した単語を前
    記関連語情報取得部に入力する単語取得部を備えている
    請求項5〜8のいずれかの一に記載の関連語提示装置
    と、 前記全てまたは指定された単語に基づいて関連語提示装
    置で求めた前記関連語に基づいて前記前記検索文入力部
    で入力された前記検索文を修正する検索文修正部と、を
    備えていることを特徴とする文書検索装置。
  10. 【請求項10】 与えられた単語の関連語を取得するた
    めに参照する関連語情報を作成する関連語情報作成方法
    において、 複数の文書を登録した文書データベース部を参照するこ
    とにより、前記複数の文書に含まれる単語をクラスタリ
    ングし、当該単語をその意味または分野ごとのクラスタ
    に分類して前記関連語情報を作成する単語クラスタリン
    グ工程を含んでなることを特徴とする関連語情報作成方
    法。
  11. 【請求項11】 前記単語クラスタリング工程は、前記
    単語間の関連度に基づき前記クラスタリングを行うこと
    を特徴とする請求項10に記載の関連語情報作成方法。
  12. 【請求項12】 前記単語クラスタリング工程は、前記
    単語をノード、単語間にある関連をアークとしたグラフ
    の全体から完全グラフやそれをやや緩めた推移律グラフ
    をクラスタとして抽出し、得られたクラスタのノード集
    合を得ることで前記クラスタリングを行うことを特徴と
    する請求項11に記載の関連語情報作成方法。
  13. 【請求項13】 前記単語クラスタリング工程は、前記
    クラスタを識別するクラスタIDと当該クラスタに所属
    する前記単語を識別する単語IDとを関連付けたクラス
    タ辞書および前記単語ごとにその単語の前記単語IDと
    当該単語が所属する前記クラスタの前記クラスタIDと
    を関連付けた単語クラスタ辞書を、前記関連語情報とし
    て作成することを特徴とする請求項10〜12のいずれ
    かの一に記載の関連語情報作成方法。
  14. 【請求項14】 関連語を取得したい単語の入力を受付
    ける単語入力工程と、 請求項10〜13のいずれかの一に記載の関連語情報作
    成方法で作成した前記関連語情報を記憶している関連語
    情報記憶部を参照して、前記単語入力工程で与えられた
    単語の関連語を求める関連語情報取得工程と、 この得られた関連語を出力する関連語情報出力工程と、
    を含んでなることを特徴とする関連語提示方法。
  15. 【請求項15】 前記関連語情報取得工程は、前記関連
    語情報記憶部の参照により前記関連語として求めうる単
    語のうち前記単語入力部で入力した単語との関連度が高
    いものに限定して前記関連語として求めることを特徴と
    する請求項14に記載の関連語提示方法。
  16. 【請求項16】 前記関連語情報出力工程は、前記関連
    語情報取得部で求めた前記関連語のうち前記単語入力部
    で入力した単語との関連度が高いものに限定して出力す
    ることを特徴とする請求項14に記載の関連語提示方
    法。
  17. 【請求項17】 前記関連語情報出力工程は、同一の前
    記クラスタ内にある前記関連語は前記単語入力部で入力
    した単語との関連度に基づいた指標の順に出力すること
    を特徴とする請求項14〜16のいずれかの一に記載の
    関連語提示方法。
  18. 【請求項18】 検索文の入力を受付ける検索文入力工
    程と、 この入力された検索文に照合する文書を、複数の文書を
    記憶した文書データベース部を参照して検索する検索工
    程と、 この得られた検索結果を出力する検索結果出力工程と、 前記単語入力工程に代えて、前記検索文入力部で入力さ
    れた前記検索文から単語を抽出し、この抽出した単語を
    前記関連語情報取得工程に供する単語取得工程と含んで
    なる請求項14〜17のいずれかの一に記載の関連語提
    示方法により、前記全てまたは指定された単語に基づい
    て前記関連語を求める関連語提示工程と、 この求めた関連語に基づいて前記検索文入力工程で入力
    された前記検索文を修正する検索文修正工程と、を含ん
    でなることを特徴とする文書検索方法。
  19. 【請求項19】 与えられた単語の関連語を取得するた
    めに参照する関連語情報の作成をコンピュータに実行さ
    せる関連語情報作成プログラムを記憶しているコンピュ
    ータに読取可能な記憶媒体において、 前記関連語情報作成プログラムは、 複数の文書を登録した文書データベース部を参照するこ
    とにより、前記複数の文書に含まれる単語をクラスタリ
    ングし、当該単語をその意味または分野ごとのクラスタ
    に分類して前記関連語情報を作成する単語クラスタリン
    グ工程をコンピュータに実行させることを特徴とする記
    憶媒体。
  20. 【請求項20】 前記単語クラスタリング工程は、前記
    単語間の関連度に基づき前記クラスタリングを行うこと
    を特徴とする請求項19に記載の記憶媒体。
  21. 【請求項21】 前記単語クラスタリング工程は、前記
    単語をノード、単語間にある関連をアークとしたグラフ
    の全体から完全グラフやそれをやや緩めた推移律グラフ
    をクラスタとして抽出し、得られたクラスタのノード集
    合を得ることで前記クラスタリングを行うことを特徴と
    する請求項20に記載の記憶媒体。
  22. 【請求項22】 前記単語クラスタリング工程は、前記
    クラスタを識別するクラスタIDと当該クラスタに所属
    する前記単語を識別する単語IDとを関連付けたクラス
    タ辞書および前記単語ごとにその単語の前記単語IDと
    当該単語が所属する前記クラスタの前記クラスタIDと
    を関連付けた単語クラスタ辞書を、前記関連語情報とし
    て作成することを特徴とする請求項19〜21のいずれ
    かの一に記載の記憶媒体。
  23. 【請求項23】 関連語を取得したい単語の入力を受付
    ける単語入力工程と、 前記関連語情報作成プログラムに基づいてコンピュータ
    が作成した前記関連語情報を記憶している関連語情報記
    憶部を参照して、前記単語入力工程で与えられた単語の
    関連語を求める関連語情報取得工程と、 この得られた関連語を出力する関連語情報出力工程と、 をコンピュータに実行させる関連語提示プログラムを記
    憶している請求項19〜22のいずれかの一に記載の記
    憶媒体。
  24. 【請求項24】 前記関連語情報取得工程は、前記関連
    語情報記憶部の参照により前記関連語として求めうる単
    語のうち前記単語入力部で入力した単語との関連度が高
    いものに限定して前記関連語として求めることを特徴と
    する請求項23に記載の記憶媒体。
  25. 【請求項25】 前記関連語情報出力工程は、前記関連
    語情報取得部で求めた前記関連語のうち前記単語入力部
    で入力した単語との関連度が高いものに限定して出力す
    ることを特徴とする請求項23に記載の記憶媒体。
  26. 【請求項26】 前記関連語情報出力工程は、同一の前
    記クラスタ内にある前記関連語は前記単語入力部で入力
    した単語との関連度に基づいた指標の順に出力すること
    を特徴とする請求項23〜25のいずれかの一に記載の
    記憶媒体。
  27. 【請求項27】 検索文の入力を受付ける検索文入力工
    程と、 この入力された検索文に照合する文書を、複数の文書を
    記憶した文書データベース部を参照して検索する検索工
    程と、 この得られた検索結果を出力する検索結果出力工程と、 前記単語入力工程に代えて、前記検索文入力部で入力さ
    れた前記検索文から単語を抽出し、この抽出した単語を
    前記関連語情報取得工程に供する単語取得工程とコンピ
    ュータに実行させる前記関連語提示プログラムにより、
    前記全てまたは指定された単語に基づいて前記関連語を
    求める関連語提示工程と、 この求めた関連語に基づいて前記検索文入力工程で入力
    された前記検索文を修正する検索文修正工程と、をコン
    ピュータに実行させる文書検索プログラムを記憶してい
    る請求項23〜26のいずれかの一に記載の記憶媒体。
JP2000217270A 2000-07-18 2000-07-18 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体 Pending JP2002032394A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000217270A JP2002032394A (ja) 2000-07-18 2000-07-18 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000217270A JP2002032394A (ja) 2000-07-18 2000-07-18 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体

Publications (1)

Publication Number Publication Date
JP2002032394A true JP2002032394A (ja) 2002-01-31

Family

ID=18712407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000217270A Pending JP2002032394A (ja) 2000-07-18 2000-07-18 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体

Country Status (1)

Country Link
JP (1) JP2002032394A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113683A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献検索支援装置、その方法、文献検索装置、それらのプログラム、および、そのプログラムを記録した記録媒体
JP2006127523A (ja) * 2005-10-27 2006-05-18 Hitachi Ltd 文書情報表示システム
JP2006252634A (ja) * 2005-03-09 2006-09-21 Toshiba Corp 半導体記憶装置及びそのデータ読み出し方法
JP2009510591A (ja) * 2005-09-28 2009-03-12 チェ ジン−グン データの連関性構造を格納するバンドルデータベース管理システム及びその管理方法
WO2010076897A1 (en) * 2008-12-29 2010-07-08 Julien Yuki Hamonic A method for document retrieval based on queries that are composed of concepts and recommended terms
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
KR101485940B1 (ko) 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
JP2016218512A (ja) * 2015-05-14 2016-12-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2021120786A (ja) * 2020-01-30 2021-08-19 Tis株式会社 情報処理装置、情報処理方法、および情報処理プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113683A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献検索支援装置、その方法、文献検索装置、それらのプログラム、および、そのプログラムを記録した記録媒体
JP2006252634A (ja) * 2005-03-09 2006-09-21 Toshiba Corp 半導体記憶装置及びそのデータ読み出し方法
JP2009510591A (ja) * 2005-09-28 2009-03-12 チェ ジン−グン データの連関性構造を格納するバンドルデータベース管理システム及びその管理方法
JP2006127523A (ja) * 2005-10-27 2006-05-18 Hitachi Ltd 文書情報表示システム
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
WO2010076897A1 (en) * 2008-12-29 2010-07-08 Julien Yuki Hamonic A method for document retrieval based on queries that are composed of concepts and recommended terms
KR101485940B1 (ko) 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
JP2015041386A (ja) * 2013-08-23 2015-03-02 ネイバー コーポレーションNAVER Corporation セマンティックデプス構造基盤の検索語提示システムおよび方法
US10176261B2 (en) 2013-08-23 2019-01-08 Naver Corporation Keyword presenting system and method based on semantic depth structure
JP2016218512A (ja) * 2015-05-14 2016-12-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2021120786A (ja) * 2020-01-30 2021-08-19 Tis株式会社 情報処理装置、情報処理方法、および情報処理プログラム

Similar Documents

Publication Publication Date Title
JP4944405B2 (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
JP3099756B2 (ja) 文書処理装置、単語抽出装置及び単語抽出方法
JP4976666B2 (ja) 情報検索システムにおけるフレーズ識別方法
US9639609B2 (en) Enterprise search method and system
JP5175005B2 (ja) 情報検索システムにおけるフレーズに基づく検索方法
JP4881322B2 (ja) 多重索引に基づく情報検索システム
KR100572797B1 (ko) 데이터베이스 검색 방법, 데이터베이스 검색 시스템 및 컴퓨터 판독 가능 기록 매체
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US9846744B2 (en) Media discovery and playlist generation
JP4944406B2 (ja) フレーズに基づく文書説明の生成方法
CN104537116B (zh) 一种基于标签的图书搜索方法
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
US8930822B2 (en) Method for human-centric information access and presentation
US20080021887A1 (en) Data product search using related concepts
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
KR20010015368A (ko) 정보 검색 방법과 정보 검색 장치
CN101802776A (zh) 应用语义向量和关键字分析关联数据集的方法和装置
WO2007084951A2 (en) Data product search using related concepts
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
US20050114317A1 (en) Ordering of web search results
US20120317141A1 (en) System and method for ordering of semantic sub-keys
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
US9875298B2 (en) Automatic generation of a search query
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JPH0844771A (ja) 情報検索装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040928