[go: up one dir, main page]

JP2003030224A - 文書クラスタ作成装置、文書検索システムおよびfaq作成システム - Google Patents

文書クラスタ作成装置、文書検索システムおよびfaq作成システム

Info

Publication number
JP2003030224A
JP2003030224A JP2001217188A JP2001217188A JP2003030224A JP 2003030224 A JP2003030224 A JP 2003030224A JP 2001217188 A JP2001217188 A JP 2001217188A JP 2001217188 A JP2001217188 A JP 2001217188A JP 2003030224 A JP2003030224 A JP 2003030224A
Authority
JP
Japan
Prior art keywords
document
documents
cluster
question
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001217188A
Other languages
English (en)
Inventor
Isao Nanba
功 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001217188A priority Critical patent/JP2003030224A/ja
Priority to US10/059,288 priority patent/US7349899B2/en
Publication of JP2003030224A publication Critical patent/JP2003030224A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Creation or modification of classes or clusters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文書の集合を複数の対等なクラスタに分割する
文書クラスタ作成装置を提供する。 【解決手段】複数の文書それぞれについて、自身を含め
た全ての文書それぞれとの類似性を評価する類似性評価
手段111と、類似性評価手段111による評価結果に
基づいて、複数の文書をそれぞれ対等な複数のクラスタ
に分割するクラスタ作成手段112とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、サポートセンター
などにおいて蓄積される膨大な量の質問文や回答文を分
類して管理するための文書クラスタ作成装置およびこの
文書クラスタ作成装置を用いた文書検索システムに関す
る。また、本発明は、上述した文書クラスタ作成装置を
用いて、頻度の高い質問と回答との組み合わせ、すなわ
ち、FAQを作成するFAQ作成システムに関する。企
業のサポートセンターなどには、製品の仕様や使用法に
ついて、膨大な数の質問が利用者から寄せられ、それぞ
れの質問に対して的確な回答を迅速に返すことが要望さ
れている。
【0002】このため、過去に利用者から寄せられた多
数の質問文とそれに対する回答文とからなる膨大な文書
の蓄積を適切に管理し、これを有効に利用するための技
術が必要とされている。
【0003】
【従来の技術】サポートセンターなどにおいて、利用者
からの質問に対して回答を返すために利用されているシ
ステムとしては、以下の3つの例が挙げられる。まず、
様々な状況それぞれに対する対処方法を記述した模範回
答文とともに、これらの模範回答文に対応する模範質問
文を作成しておき、この模範質問文を、利用者からの質
問に対する回答を検索するための指標とする回答文検索
システムがある。
【0004】このような第1の回答文検索システムで
は、例えば、利用者からの質問文と各模範質問文との類
似度に基づいて最も近似した模範質問文を検索し、その
模範質問文に対応する模範回答文を利用者に返してい
る。次に、上述した回答文検索システムと同様の模範回
答文書を用意しておくとともに、これらの模範回答文書
それぞれについて、回答として使用された回数を保持し
ておき、利用者からの質問との類似とともに、この使用
回数を回答文書の選択基準とするシステムがある。
【0005】このような第2の回答文検索システムで
は、利用者からの質問文と各模範回答文書との類似度に
基づく得点と使用回数に基づく得点とに基づいて、回答
文書を選択して利用者に返している。最後に、過去に寄
せられた質問文に対する回答文の履歴を保存しておき、
この回答文の履歴そのものを新たな質問文に対する回答
文書の集合として利用する回答文検索システムがある。
【0006】このような第3の回答文検索システムで
は、新たな質問文の入力に応じて、上述した回答文の履
歴そのものに対する検索を行ない、入力された質問文に
類似した質問文に対応する回答文を抽出して利用者に返
している。また、従来は、サポートセンタなどにおいて
利用者に提示されているFAQは、寄せられた質問文の
集合から類似した質問文が多数存在するものを人手によ
って抽出したり、多数の利用者が疑問に思うと考えられ
る事項に関する質問文を想定したりすることによって作
成されていた。
【0007】
【発明が解決しようとする課題】ところで、上述した第
1および第2の回答文検索システムは、いずれも、基本
的に模範回答を予め作成しておく必要があり、この模範
回答を作成する作業に非常に多くの労力を必要とする。
更に、模範回答文書の一部を修正して利用者に返した場
合などに、この修正された回答文書を適切に管理して有
効に利用することができなかった。一方、第3の回答文
検索システムでは、類似した回答文が際限なく検索され
てしまう可能性があるので、有効な回答文を抽出する作
業が困難になる。
【0008】また、上述した従来のFAQ作成方法で
は、作成作業を全て人手で行なっているため、サポート
センタの技術にかかる作業負担が非常に大きい上、FA
Qとして選択するか否かが個々の技術者の主観的な判断
に任されているので、FAQとして抽出される質問文に
もばらつきが大きかった。さて、膨大な数の文書などの
情報を分析する手法として、クラスタ分析がよく知られ
ている。そして、クラスタ分析の手法を回答文の履歴に
適用し、回答文の集合を複数のクラスタに分割すること
により、例えば、上述した第3の回答文検索システムに
おける課題や従来のFAQ作成技術における課題を解決
する糸口が得られることは予想できる。
【0009】しかしながら、一般的に用いられている階
層的なクラスタ分析手法では、膨大な数の回答文をクラ
スタに分類する作業に非常に多くの処理時間が必要とな
ってしまう。しかも、回答文を検索する作業やFAQ作
成作業では、各クラスタに膨大な文書を分類することが
重要であって、クラスタ相互の階層関係についての情報
は不要である。
【0010】したがって、上述した課題を解決するため
には、まず、膨大な数の文書を非階層な複数のクラスタ
に迅速に分類する技術が必要である。本発明は、文書の
集合を複数の非階層なクラスタに分割する文書クラスタ
作成装置を提供することを目的とする。また、本発明
は、蓄積された質問文と回答文との対の集合から有効な
回答文を確実に検索可能な文書検索システムを提供する
ことを目的とする。また、本発明は、蓄積された質問文
と回答文との対の集合から自動的にFAQを作成するF
AQ作成システムを提供することを目的とする。
【0011】
【課題を解決するための手段】図1に、本発明の文書ク
ラスタ作成装置の原理ブロック図を示す。請求項1の発
明は、複数の文書それぞれについて、自身を含めた全て
の文書それぞれとの類似性を評価する類似性評価手段1
11と、類似性評価手段111による評価結果に基づい
て、複数の文書を非階層な複数のクラスタに分割するク
ラスタ作成手段112とを備えたことを特徴とする。請
求項1の発明は、類似性評価手段111による評価結果
に応じて、クラスタ作成手段112が複数の文書それぞ
れを適切なクラスタに分類することにより、それぞれ類
似した文書からなる非階層なクラスタを作成することが
できる。
【0012】図2に、本発明の文書検索システムの原理
ブロック図を示す。請求項2の発明は、個々の現象の解
説および個々の状況に対する対策を含む事項に関する記
述をそれぞれ含んだ複数の文書を、それらの文書を回答
文書として要求する質問文書の入力に応じて検索する文
書検索システムにおいて、複数の質問文書とこれらに対
する回答文書として用いられた複数の文書とを蓄積する
蓄積手段110と、複数の文書それぞれについて、自身
を含めた全ての文書それぞれとの類似性を評価する類似
性評価手段111と、類似性評価手段111による評価
結果に基づいて、複数の文書を非階層な複数のクラスタ
に分割するクラスタ作成手段112と、複数の質問文書
を、それぞれ対応する文書が属するクラスタに関連付け
る関連付け手段113と、新たに入力された質問文書と
複数の質問文書それぞれとの類似度に基づいて、近似し
た質問文書の候補を検索する検索手段114と、近似し
た質問文書の候補から同一のクラスタに関連付けられた
候補を排除して、クラスタごとに一つの候補を抽出する
重複排除手段115と、クラスタごとに抽出された候補
に対応して蓄積手段110に蓄積された文書を検索結果
として出力する検索結果出力手段116とを備えたこと
を特徴とする。
【0013】請求項2の発明は、蓄積手段110に蓄積
された複数の文書について、類似性評価手段111によ
って考えられる全ての組み合わせについて互いの類似性
を評価し、この評価結果に応じて、クラスタ作成手段1
12が複数の文書それぞれを適切なクラスタに分類する
ことにより、それぞれ類似した文書からなる非階層なク
ラスタを作成し、また、関連付け手段113により、蓄
積手段110に蓄積された質問文書をこれらのクラスタ
に関連付ける。その後、新たな質問文書の入力に応じ
て、検索手段114によって検索された質問文書の候補
の中から、重複排除手段115によってクラスタごとに
一つの候補を抽出して出力することにより、検索結果か
ら互いに酷似した文書を排除して、検索結果出力手段1
16により、多様な回答文書を一覧できるように提供す
ることができる。
【0014】図3に、請求項3のFAQ作成システムの
原理ブロック図を示す。請求項3の発明は、個々の現象
の解説および個々の状況に対する対策を含む事項に関す
る記述をそれぞれ含んだ複数の文書と、それらの文書を
回答文書として要求する質問文書との組み合わせの蓄積
から、いわゆるFAQを作成するFAQ作成システムに
おいて、複数の質問文書とこれらに対する回答文書とし
て用いられた複数の文書とを蓄積する蓄積手段110
と、複数の文書それぞれについて、自身を含めた全ての
文書それぞれとの類似性を評価する類似性評価手段11
1と、類似性評価手段111による評価結果に基づい
て、複数の文書を非階層な複数のクラスタに分割するク
ラスタ作成手段112と、各クラスタに含まれる要素数
を求める要素数算出手段117と、複数のクラスタに、
その要素数に応じた順位を与える順位決定手段118
と、所定の順位までが与えられたクラスタに属する文書
およびこれらに対応する質問文書の中から、それぞれ代
表的な質問文書および回答文書の組み合わせを抽出し、
FAQとして出力する代表抽出手段119とを備えたこ
とを特徴とする。
【0015】請求項3の発明は、蓄積手段110に蓄積
された複数の文書について、類似性評価手段111によ
って考えられる全ての組み合わせについて互いの類似性
を評価し、この評価結果に応じて、クラスタ作成手段1
12が複数の文書それぞれを適切なクラスタに分類する
ことにより、それぞれ類似した文書からなる非階層なク
ラスタを作成する。その後、要素数算出手段116と順
位決定手段117によって、これらのクラスタに与えら
れた要素数に応じた順位に基づいて、代表抽出手段11
8により、上位のクラスタから代表的な文書を抽出し、
文書合成手段119の処理に供することにより、蓄積手
段110に蓄積された膨大な数の質問文書と回答文書と
の蓄積から、自動的にFAQを作成することができる。
【0016】請求項4の発明は、図1に示すように、請
求項1に記載の文書クラスタ作成装置あるいは請求項2
に記載の文書検索システムまたは請求項3に記載のFA
Q作成システムにおいて、類似性評価手段111は、複
数の文書から2つの文書を選択する組み合わせの全てに
ついて、各組み合わせの類似度をそれぞれ算出する類似
度算出手段121と、各組み合わせの類似度に基づい
て、各文書に対応する類似文書の候補を抽出する候補抽
出手段122と、各文書とこれに対応する類似文書の候
補それぞれとの組み合わせについて、それぞれの組み合
わせで共有している類似文書の候補を検出する共有文書
検出手段123と、各組み合わせについて、検出された
共有文書に関する適切な指標に基づいて、互いが類似し
ている文書であるか否かを判定し、この判定結果を評価
結果として出力する近似文書判定手段124とを備えた
構成であり、クラスタ作成手段112は、近似文書判定
手段124による判定結果に基づいて、各文書について
近似している文書を特定する識別情報を収集する収集手
段125と、各文書について収集された識別情報が所定
の条件を満たすときに、新たなクラスタを生成する新規
生成手段126と、各文書について収集された識別情報
で示される文書が既存のクラスタに含まれるときに、こ
の文書を含んでいるクラスタに注目している文書を編入
する編入手段127とを備えた構成であることを特徴と
する。
【0017】請求項4の発明は、類似性評価手段111
に備えられた類似度算出手段121によって算出された
類似度に基づいて、候補抽出手段122により、各文書
について、それぞれ類似している文書の候補を抽出し、
各文書と対応する類似文書の候補との組み合わせそれぞ
れが共有している類似文書の候補を共有文書検出手段1
23によって検出することにより、近似文書判定手段1
24により、その組み合わせに含まれる文書についてそ
れぞれの内容が密接に関連している近似文書であるか否
かを判定するための指標を得ることができる。また、ク
ラスタ作成手段112において、収集手段125によっ
て文書ごとに近似文書を示す識別情報を収集し、新規生
成手段126により、例えば、近似文書がないとされた
文書および既存の文書クラスタにその文書および近似文
書が含まれていない文書について、新たなクラスタを生
成し、それ以外の文書については、編入手段127によ
り、対応する近似文書を含んでいるクラスタに編入す
る。
【0018】このようにして、互いに密接に関連する内
容を記述している文書をクラスタにまとめることによ
り、膨大な数の文書を自動的に非階層な複数のクラスタ
に分割することができる。請求項5の発明は、図2に示
すように、請求項2に記載の文書検索システムにおい
て、検索結果出力手段116は、各クラスタに含まれる
要素数に応じた得点を、各クラスタについてのクラスタ
得点として求めるクラスタ得点算出手段131と、重複
排除手段115によって抽出された質問文書の候補それ
ぞれについて、検索手段114において求めた類似得点
を、その質問文書が関連付けられたクラスタに対応する
クラスタ得点に基づいて調整する得点調整手段132
と、調整された得点に応じて、質問文書の候補を並べ替
えて、各質問文書に対応する回答文書を検索結果として
出力するソート手段133とを備えた構成であることを
特徴とする。
【0019】請求項5の発明は、検索結果出力手段11
6において、クラスタ得点算出手段131によって求め
たクラスタ得点に基づいて、得点調整手段132によ
り、質問文書の検索に用いた類似度を示す類似得点を調
整し、ソート手段133により、調整された得点に応じ
て質問文書の候補を並べ替えることにより、回答文書と
して選択された各文書が属するクラスタの大きさを反映
した順番で回答文書を提供することができる。
【0020】請求項6の発明は、図3に示すように、請
求項3に記載のFAQ作成システムにおいて、代表抽出
手段119は、各クラスタに属する文書あるいはこれら
の文書に対応する質問文書を、それぞれ単語に分解する
文書分解手段141と、単語ごとに、その単語を含んで
いる文書あるいは質問文書を計数する文書計数手段14
2と、各単語について、それを含んでいる文書の数に応
じた得点を算出する単語得点算出手段143と、各文書
あるいは質問文書について、それぞれが含んでいる単語
に対応する単語得点についての所定の関数を用いて代表
度を算出する代表度算出手段144と、代表度に基づい
て、クラスタごとに代表となる文書および質問文書を選
択する選択手段145とを備えた構成であることを特徴
とする。
【0021】請求項6の発明は、代表抽出手段119に
おいて、文書分解手段141によって得られた各単語に
ついて、文書計数手段142により、各単語を含んでい
る文書あるいは質問文書の数を求め、この計数結果に基
づいて、単語得点算出手段143により、各単語につい
て、そのクラスタに含まれる文書あるいは質問文書にお
ける出現頻度に応じた単語得点を求める。この単語得点
に基づいて、代表度算出手段144によって代表度を算
出し、この代表度に基づいて、選択手段145によって
代表となる文書および質問文書を選択すれば、各クラス
タにおいて高い頻度で出現する単語をより多く含む文書
あるいは質問文書を抽出し、FAQとして出力すること
ができる。
【0022】
【発明の実施の形態】以下、図面に基づいて、本発明の
実施形態について詳細に説明する。図4に、本発明の文
書クラスタ作成装置の実施形態を示す。図4に示した文
書クラスタ作成装置において、類似性評価部210は、
分類制御部201からの指示に応じて、文書ファイル2
02に蓄積された文書相互の類似性を評価し、評価結果
を評価結果保持部203に保存する。また、図4におい
て、クラスタ処理部220は、分類制御部201からの
指示に応じて、評価結果保持部203に保持された評価
結果に基づいて、文書ファイル202に蓄積された各文
書を複数のクラスタに分類し、その結果をクラスタテー
ブル204に格納する。
【0023】図4に示した類似性評価部210におい
て、索引作成部211は、分類制御部201からの指示
に応じて文書ファイル202に蓄積された各文書を解析
し、文書に含まれている単語についての索引を作成して
索引ファイル212に保存する。また、図4に示した類
似性評価部210において、検索式作成部213、類似
得点算出部214、ソート部215および正規化部21
6は、上述した索引ファイル212を利用して、文書フ
ァイル202に蓄積された文書相互についての類似性を
判断するための指標を求める。また、図4において、候
補抽出部217は、上述した指標に基づいて、文書ごと
に類似している文書の候補を抽出し、評価結果保持部2
03に保存する。
【0024】一方、図4に示したクラスタ処理部220
において、近似文書探索部221は、分類制御部201
からの指示に応じて、評価結果保持部203に文書ごと
に保存された類似文書の候補から、各文書について最も
近似している文書を探索し、この探索結果を探索テーブ
ル223に保存する。この探索結果に基づいて、分類処
理部222は、互いに類似している文書をクラスタにま
とめることにより、複数のクラスタを作成し、分類結果
をクラスタテーブル204に保存する。
【0025】ここで、図4に示した各部と図1に示した
各手段との対応関係について説明する。図1に示した類
似度算出手段121は、図4に示した索引作成部21
1、索引ファイル212、検索式作成部213および類
似得点算出部214に相当する。また、図1に示した候
補抽出手段122は、図4に示したソート部215、正
規化部216および候補抽出部217に相当する。一
方、図1に示した近似文書判定手段124および収集手
段125の機能は、図4に示した近似文書探索部221
が、類似制御部201からの指示に応じて評価結果保持
部203から近似文書を探索することによって果たされ
る。また、図1に示した式作成手段126および編入手
段127の機能は、図4に示した分類処理部222によ
って果たされる。
【0026】次に、この文書クラスタ作成装置の動作に
ついて説明する。図5に、類似性評価部の動作を表す流
れ図を示す。また、図6に、類似性評価動作を説明する
図を示す。まず、分類制御部201からの指示に応じ
て、索引作成部211は、文書ファイル202に蓄積さ
れた全ての文書についての索引を作成する(ステップ3
01)。このとき、索引作成部211は、例えば、"Mana
ging Gigabyte"(Ian H. Witten, Alistair Moffat, Tim
othy C. Bell 1994 Van Norstrand Reinhold New York)
で紹介されている方法などを用いて、各文書における
各単語の出現頻度などのように類似文書検索に必要な情
報をあわせて収集して索引を作成する。これにより、図
4に示した索引ファイル212には、図6(a)に示すよ
うに、各単語に対応して、その単語を含んでいる文書を
示す識別情報(以下、文書IDと称する)を格納する索引
とともに、各文書IDに対応して、各単語の出現頻度な
どの情報が格納される。
【0027】一方、図4に示した検索式作成部213
は、分類制御部201からの指示に応じて、処理対象の
文書として指定された文書を所定の形式に従って検索式
に変換する(図5のステップ302)。このとき、検索式
作成部213は、例えば、各文書に含まれる単語(word
1,・・・,wordn)を抽出し、式1のように、これらの単
語(word1,・・・,wordn)とそれぞれの出現頻度(frq1,・
・・,frqn)との組み合わせを互いに演算子「or」で結び
つけることにより、これらの単語の少なくとも一つを含
む文書を検索するための検索式を作成すればよい。
【0028】 検索式=word1 frq1 or word2 frq2 or ・・・ or wordn frqn ・・・(1) 次に、図4に示した類似得点算出部214は、上述した
索引ファイル212を用いて、検索式作成部213から
受け取った検索式で示される単語を含んでいる各文書
と、処理対象の文書との間の類似得点を算出する(図5
のステップ303)。この類似得点算出部214は、文
書idiで示される処理対象の文書と文書idxで示され
る各文書との類似得点Rixを、例えば、共通して出現す
る単語の数や、それらの単語の出現頻度などに基づいて
算出し、各文書を示す文書idxと類似得点Rixとをそ
れぞれ組み合わせてソート部215に入力すればよい。
【0029】次に、図4に示したソート部215は、処
理対象の文書について、上述した類似得点算出部214
によって算出された各文書との間の類似得点を、その大
きさに基づいて並べ替えるソート処理を行ない(図5の
ステップ304)、 次いで、正規化部216は、上述
した各文書との間の類似得点Rixを、その最大値Rmを
用いて正規化する(図5のステップ305)。
【0030】図4に示した候補抽出部217は、これら
の正規化された類似得点Sixの集合の中から、所定の閾
値以上の大きさを持つ要素を抽出し(図5のステップ3
06)、該当する類似得点Sixと文書IDとの組み合わ
せを、現在処理中の文書に類似している文書の候補を示
す情報として評価結果保持部203に保存する(ステッ
プ307)。その後、分類制御部201は、全ての文書
についての処理が終了したか否かを判定し(ステップ3
08)、このステップ308の否定判定の場合は、ステ
ップ302に戻って、検索式変換部213に次の文書を
検索式に変換する旨を指示して、この文書についての処
理を実行する。
【0031】このようにして、文書ファイル202に蓄
積された各文書について、類似性評価部210の処理を
実行することにより、各文書について、それぞれ類似得
点の高い文書を抽出し、図6(b)に示すように、処理対
象の文書と類似得点の高い文書を示す文書IDと対応す
る類似得点との組み合わせ要素とする集合を類似性評価
結果として評価結果保持部203に保存することができ
る。
【0032】そして、全ての文書についての処理が終了
したときに、分類制御部201は、上述したステップ3
08の肯定判定として類似性評価部210の処理を終了
し、クラスタ処理部220の動作を起動する。図7に、
近似文書探索部221の詳細構成を示す。また、図8
に、近似文書探索動作を表す流れ図を示す。
【0033】図7に示した近似文書探索部221におい
て、探索制御部224は、分類制御部201からの指示
に応じて、注目文書として指定された文書に対応する評
価結果を評価結果保持部203から読み出し(図8のス
テップ311)、この評価結果に基づいて、共有文書検
出部225、類似度算出部226およびテーブル更新部
227にそれぞれ適切な処理を指示することにより、以
下のステップ312〜ステップ316の処理を実行す
る。
【0034】探索制御部224は、上述した評価結果に
含まれている各候補文書を順次に評価対象文書として選
択し、この評価対象文書を示す文書IDに対応して評価
結果保持部203に保持された評価結果を読み出して
(ステップ312)、注目文書に対応する評価結果ととも
に共有文書検出部225に渡す。共有文書検出部225
は、これらの評価結果にそれぞれ含まれる候補文書の集
合を互いに比較し、2つの集合に共通して含まれている
候補文書を共有文書として検出する(ステップ313)。
類似度算出部226は、上述したようにして検出された
共有文書と注目文書との間の類似得点と共有文書の数と
に基づいて、注目文書と評価対象文書との間の類似度を
算出する(ステップ314)。このとき、類似度算出部2
26は、例えば、注目文書IDxと評価対象文書IDy
とについて上述したようにして検出したi番目の共有文
書IDxy(i)に対応する類似得点Sxy(i)と共有文書
数kとを用いて表された式2を用いて、類似度Sbを算
出し、テーブル更新部227に渡せばよい。
【0035】
【数1】 テーブル更新部227は、探索テーブル223に注目文
書に対応して保持された類似度の基準値Saと上述した
ステップ314で算出された類似度Sbとを比較し(ス
テップ315)、類似度Sbが基準値Saを超えている
場合に、ステップ316に進んで探索テーブル223を
更新する。
【0036】ここで、探索テーブル223は、例えば、
各文書IDに対応して、類似度の基準値Saと近似文書
の文書IDとを保持する記憶領域を備えており、近似文
書探索動作の開始時点において、各文書IDに対応する
類似度の基準値Saとして数値「0」が格納されている。
また、ステップ316において、テーブル更新部227
は、注目文書に対応する類似度の基準値Saとしてステ
ップ314で算出された類似度Sbを格納し、また、近
似文書として、評価対象文書を示す文書IDを格納す
る。
【0037】このようにして、探索テーブル223の更
新が終了した後および上述したステップ315の否定判
定の場合に、探索制御部224は、注目文書に対応する
全ての候補文書についての検討が終了したか否かを判定
し(ステップ317)、否定判定の場合は、ステップ31
2に戻って、次の候補文書についての検討を開始する。
【0038】上述したようにして、注目文書に対応する
評価結果に含まれる各候補文書について、共有文書の類
似得点に基づく類似度を算出していき、この類似度に基
づいて探索テーブル223を更新していくことにより、
上述した各候補文書の中から最も類似度の高い近似文書
を探索することができる。例えば、図6(b)に示した評
価結果に基づいて、上述した探索処理を実行すれば、図
9に示すように、各文書に対応して、その文書と最も関
連性の高い近似文書を求めることができる。
【0039】このようにして全ての候補文書についての
検討が終了したときに、探索制御部224は、ステップ
317の肯定判定として分類制御部201に注目文書に
ついての探索処理が完了したことを通知する。これに応
じて、分類制御部201は、注目文書が最後の文書であ
るか否かを判定し(ステップ318)、否定判定の場合
は、ステップ311に戻って、次の文書を注目文書とし
て探索処理の開始を指示し、これに応じて、近似文書探
索部221は、新たな文書についての処理を開始する。
その後、全ての文書についての探索処理が終了したとき
に、分類制御部201は、ステップ318の肯定判定と
して近似文書探索処理を終了し、分類処理部222に対
して文書をクラスタに分割する動作を開始する旨を指示
する。
【0040】図10に、文書をクラスタに分割する動作
を表す流れ図を示す。分類処理部222は、分類制御部
201からの指示に応じて、指定された文書IDに対応
して探索テーブル223に保持された探索結果を読み出
す(ステップ321)。この探索結果として近似文書を示
す文書IDが示されている場合は、ステップ322の肯
定判定としてステップ323に進み、その近似文書が既
存のクラスタに分類されているか否かを判定する。
【0041】例えば、図9に示した探索テーブル223
の最初の探索結果、すなわち、文書id1で示される文
書に対応する探索結果に注目して処理している場合に、
この文書に対応して探索テーブル223に保持された近
似文書id2は、まだ分類済みではないので、ステップ
323の否定判定となる。この場合に、分類処理部22
2は、注目している文書である文書id1とこの文書の
近似文書である文書id2とをまとめて新たなクラスタ
を作成する(ステップ324)。このとき、分類処理部2
22は、新たなクラスタにクラスタIDを与え、図11
(a)に示すように、このクラスタIDに対応して、要素
となる文書を示す文書IDと、要素の数をクラスタテー
ブル204に保持する。
【0042】一方、例えば、図9に示した探索結果を順
次に読み出して処理していった場合に、文書id4に対
応する探索結果で示される近似文書id2は、既にクラ
スタID1に分類されているので、ステップ323の肯
定判定となる。この場合に、分類処理部222は、この
文書id4を該当するクラスタ、すなわち、近似文書i
d2を含んでいるクラスタID1のクラスタに編入し
(ステップ325)、図11(b)に示すように、クラスタ
ID1に対応してクラスタテーブル204に保持される
要素として、文書id4を追加するとともに、要素の数
をインクリメントする。
【0043】また一方、ステップ321で参照した探索
結果に近似文書が含まれていない場合に、分類処理部2
22は、ステップ322の否定判定としてステップ32
4に進み、注目している文書のみからなるクラスタを新
規に作成する。上述したステップ324あるいはステッ
プ325の処理が終了した後に、分類制御部201は、
全ての探索結果についての処理が終了したか否かを判定
する(ステップ326)。このステップ326の否定判定
の場合に、分類制御部201は、ステップ321に戻っ
て、次の探索結果についての処理を開始する旨を分類処
理部222に指示する。
【0044】このようにして、全ての探索結果について
の処理が終了したときに、分類制御部201は、ステッ
プ326の肯定判定としてクラスタ化処理を終了する。
上述したように、各文書に対応して求められた近似文書
は、その文書に最も密接に関連した内容を記述している
文書であると考えられるので、ステップ322〜ステッ
プ325の処理において、注目している文書と近似文書
とを一つのクラスタにまとめることにより、膨大な数の
文書を自動的に、非階層な複数のクラスタに分割するこ
とができる。
【0045】ここで、2つの文書に記述された内容の近
さを判定するための指標として用いた類似得点を算出す
る処理は、注目している2つの文書に共通して出現する
単語の数およびその出現度数に基づく簡単な算術演算で
あり(ステップ302,303)、一般の転置ファイル
(inverted file)を用いて高速に実行することができ
る。この類似得点に基づいて、各文書に類似している文
書の候補を求めておき、各文書と対応する候補との組み
合わせについて、上述したようにして類似度の高い文書
を多く共有しているか否かに基づいて、この2つの文書
が同一のクラスタに属するか否かを判定することによ
り、膨大な数の文書をクラスタに分割する処理を単純化
している。したがって、上述した文書クラスタ作成装置
によれば、従来のような階層的なクラスタを作成するシ
ステムに比べて、膨大な数の文書をはるかに高速に非階
層にクラスタ化することができる。
【0046】次に、上述した文書クラスタ分類装置を適
用した文書検索システムについて説明する。図12に、
文書検索システムの実施形態を示す。図12に示す文書
検索システムにおいて、文書蓄積ファイル231は、例
えば、ユーザサポートセンタなどに利用者から寄せられ
た多数の質問文書と、これらの質問文書に対する回答と
して用いられた回答文書とを対にして蓄積している。ま
た、図12において、文書クラスタ作成装置232は、
この文書蓄積ファイル231に蓄積された回答文書を、
上述したようにして複数の非階層なクラスタに分割し、
クラスタテーブル233を作成する。一方、図12に示
した文書検索システムにおいて、回答検索処理部234
は、利用者から寄せられた新たな質問文書の入力に応じ
て、上述したクラスタテーブル233を利用しつつ、文
書蓄積ファイル231から適切な回答文書を検索し、出
力装置235を介して利用者に検索した回答文書を返
す。
【0047】図12に示した回答検索処理部234にお
いて、関連テーブル作成部241および索引作成部24
2は、回答文書の検索処理に先だって、検索処理を迅速
に進めるために、文書蓄積ファイル231に蓄積された
質問文書に対する準備処理を行い、それぞれ関連テーブ
ル243および索引ファイル244を作成する。また、
図12に示した回答検索処理部234において、検索式
作成部245は、新たに入力された質問文書を検索式に
変換し、類似文書検索部246に渡す。類似文書検索部
246は、この検索式に基づいて、上述した索引ファイ
ル244から類似した質問文書を検索し、選択処理部2
47は、この検索結果に基づいて、適切な回答文書を選
択して出力装置235に渡す。
【0048】ここで、図12に示した各部と図2に示し
た各手段との対応関係を説明する。図12に示した文書
クラスタ作成装置232は、図2に示した類似性評価手
段111およびクラスタ作成手段112に相当する。ま
た、図12に示した関連テーブル作成部241および関
連テーブル243は、図2に示した関連付け手段113
に相当する。また、図12に示した索引ファイル24
4、検索式作成部245および類似検索部246は、図
2に示した検索手段114に相当する。一方、図2に示
した重複排除手段115および検索結果出力手段116
の機能は、選択処理部247によって果たされる。
【0049】次に、この文書検索システムの動作につい
て説明する。図13に、文書検索システムの動作を表す
流れ図を示す。また、図14に、文書検索システムの動
作を説明する図を示す。図12に示した文書検索システ
ムは、新たな質問文に対する回答を検索する前に、図1
3に(a)に示す各手順からなる準備処理を行う。
【0050】まず、文書クラスタ作成装置232によ
り、文書蓄積ファイル231に蓄積された回答文書の集
合を複数の非階層なクラスタに分割し、図11(b)に示
したようなクラスタテーブル233を作成する(図13
のステップ331)。次に、図12に示した関連テーブ
ル作成部241は、クラスタテーブル233を参照し、
各質問文書に対応する回答文書が属するクラスタに関す
るクラスタ情報としてクラスタIDと要素数とを取得
し、図14(a)に示すように、各質問文書に与えられた
文書IDに対応して、上述したクラスタ情報を格納して
いくことにより、関連テーブル243を作成する(図1
3のステップ332)。このようにして、各質問文書と
クラスタとの関連を示すことにより、各質問文書を、対
応する回答文書が属するクラスタに応じてまとめ、同一
のクラスタに属する回答文書の集合に対応する質問文書
のまとまりを作成することができる。もちろん、関連テ
ーブル作成部241により、各クラス他に対応する質問
文書IDを示すテーブルを作成してもよい。
【0051】次いで、索引作成部242は、図4に示し
た索引作成部211と同様にして、文書蓄積ファイル2
31に蓄積された質問文書に出現する単語についての索
引ファイル244を作成し(図13のステップ333)、
更に、上述した関連テーブル243に基づいて、各単語
に対応する索引情報にクラスタ情報を追加する(ステッ
プ334)。このとき、索引作成部242は、例えば、
各単語を含む文書を示す文書IDに基づいて、上述した
関連テーブル243を参照し、その文書IDに対応して
格納されたクラスタ情報を読み出して、索引情報に追加
することにより、図14(b)に示すような索引ファイル
を作成する。
【0052】これらの処理の終了後に、新たに入力され
る質問文書に対応する回答文書の検索処理を行う(図1
3(b)参照)。まず、図12に示した検索式作成部24
5は、図4に示した検索式作成部213と同様にして、
入力された質問文書を検索式に変換し(図13のステッ
プ335)、類似文書検索部246に渡す。
【0053】類似文書検索部246は、上述した索引フ
ァイル244を用いて、この検索式で示される単語を少
なくとも一つ含んでいる質問文書を類似文書として検索
する(ステップ336)。このとき、類似文書検索部24
6は、上述したようにして検索した質問文書を示す文書
IDおよび類似得点とともに、これらの質問文書に対応
するクラスタ情報を含む検索結果を選択処理部247に
渡す。
【0054】選択処理部247は、検索結果に含まれる
クラスタ情報に基づいて、各クラスタからそれぞれ一つ
の質問文書を選択する(ステップ337)。このとき、選
択処理部247は、例えば、検索された各質問文書を、
対応するクラスタ情報に応じてクラスタごとにまとめ、
検索結果で示された類似得点に基づいて、各クラスタに
対応する質問文書の集合から、入力された質問文書に最
も類似している質問文書をそれぞれ選択する。
【0055】次に、選択処理部247は、クラスタ情報
を用いて、上述したステップ337において選択した質
問文書に対応する類似得点を調整する(ステップ33
8)。このとき、選択処理部247は、例えば、各質問
文書に対応するクラスタ情報で示されるクラスタの要素
数nを反映するクラスタスコアCと、類似得点の最大値
Rmとクラスタスコアの最大値Cmとの比を示す係数a
と、クラスタスコアを反映する割合を示す係数α(0≦
α≦1)とで表された式3を用いて類似得点Rを調整
し、最終的な類似得点Rtを算出する。
【0056】 Rt=a×C×α+(1−α)×R ・・・(3) なお、クラスタスコアCは、例えば、クラスタの要素数
nの平方根とすればよい。このようにして調整された類
似得点Rtに応じて、選択処理部247は、類似得点R
tが高い順に、各質問文書に対応する回答文書を文書蓄
積ファイル231から読み出して、出力装置235を介
して出力して(ステップ339)、処理を終了する。
【0057】上述したようにして、文書蓄積ファイル2
31に蓄積された回答文書とともに質問文書をクラスタ
に分類しておき、新たな質問文書の入力に応じて類似文
書を質問文書の集合から検索する際に、類似文書検索部
246によって得られた検索結果からクラスタごとに一
つの質問文書を選択することにより、内容が極めて類似
している文書の集合からの検索結果を一つに絞ることが
できる。これにより、検索結果としてきわめて類似した
文書の羅列を出力してしまうことを防いで、入力された
質問文書に類似しており、かつ、ヴァラエティに富んだ
検索結果を提示することが可能となる。
【0058】更に、各クラスタについて選択された文書
に対応する類似得点を、上述したクラスタスコアによっ
て調整し、調整された類似得点に応じた順位をつけて検
索結果を提示することにより、検索結果の文書が属する
クラスタの大きさから推定される検索結果の重要度を検
索結果の提示順位に反映することができる。ここで、ク
ラスタの大きさは、すなわち、過去に類似した質問が多
数寄せられ、それらの質問に対して多数の回答が返され
ていることを示しているから、要素数が多いクラスタに
属する検索結果は、一般的に重要度が高いと考えられる
ので、上述したようにして、調整された類似得点に応じ
て検索結果を提示することにより、有効度の高い回答文
書を優先的に提示することが可能となる。
【0059】このように、上述した文書検索システム
は、サポートセンタなどに蓄積された膨大な質問文書と
回答文書との蓄積から直接に必要な文書を検索しようと
した場合の問題点を解決し、蓄積された文書を活用し
て、有効な回答文書となる可能性の高い回答文書を迅速
に抽出することが可能である。これにより、ユーザサポ
ートを担当する人員の作業負担を大幅に軽減することが
でき、また、利用者に回答文書を提示するまでに要する
時間も短縮してサービス性を向上することが可能とな
る。したがって、本発明の文書検索システムは、サポー
トセンタのように、蓄積された膨大な文書を有効に利用
することが求められる分野において、非常に有用であ
る。
【0060】次に、本発明のFAQ作成システムについ
て説明する。図15に、本発明のFAQ作成システムの
実施形態を示す。図15に示したFAQ作成システムに
おいて、文書クラスタ作成装置232は、上述したよう
にして、文書蓄積ファイル231に蓄積された多数の回
答文書を非階層なクラスタに分割し、クラスタテーブル
233を作成する。
【0061】また、図15において、クラスタ選択部2
51は、クラスタテーブル233に基づいて要素数の多
いクラスタを選択し、代表抽出部252の処理に供す
る。この代表抽出部252において、文書抽出部253
は、抽出制御部249からの指示に応じて、指定された
クラスタに属する回答文書あるいは質問文書を文書蓄積
ファイル231から抽出し、文書分析部254は、文書
抽出部253から受け取った各文書を解析し、この文書
の集合における単語の出現度数を示す単語情報ファイル
255とともに、各文書を構成する単語を示す情報を格
納した文書情報ファイル256を作成する。また、図1
5に示した代表抽出部252において、単語得点算出部
257は、抽出制御部249からの指示に応じて、単語
情報ファイル255に基づいて、注目している文書の集
合における各単語の出現頻度に応じた得点を求め、この
得点と上述した文書情報ファイル256に基づいて、代
表度算出部258は、各文書の代表度を算出する。ま
た、図15において、文書選択部259は、クラスタご
とに最も代表度の高い回答文書および質問文書を検出
し、FAQファイル260に保存する。
【0062】ここで、図15に示した各部と、図3に示
した各手段との対応関係について説明する。図15に示
したクラスタ選択部251およびクラスタテーブル23
3は、図3に示した要素数算出手段117および順位決
定手段118の機能を果たす。また、図3に示した文書
分解手段141の機能は、図15に示した抽出制御部2
49、文書抽出部253および文書分析部254によっ
て果たされる。また、図3に示した文書計数手段143
および単語得点算出手段143の機能は、図15に示し
た単語情報ファイル255および単語得点算出部257
によって果たされる。一方、図15に示した代表度算出
部258は、図3に示した代表度算出手段144に相当
するものであり、また、図15に示した文書選択部25
9およびFAQファイル260は、図3に示した選択手
段145に相当する。
【0063】次に、このFAQ作成システムの動作につ
いて説明する。図16に、FAQ作成動作の概略を表す
流れ図を示す。また、図17に、文書の集合から代表を
抽出する動作を表す流れ図を示す。まず、文書クラスタ
作成装置232により、文書蓄積ファイル231に蓄積
された回答文書を複数の非階層なクラスタに分割し(ス
テップ341)、クラスタテーブル233を作成する。
【0064】このクラスタテーブル233に基づいて、
クラスタ選択部251は、各クラスタの要素数を求め、
要素数が多い順にK個のクラスタを選択し(ステップ3
42)、これらのクラスタを示すクラスタIDを抽出制
御部249に通知する。抽出制御部249は、これらの
クラスタIDを順次に選択し(ステップ343)、選択し
たクラスタIDに基づいて上述したクラスタテーブル2
33を参照し、そのクラスタに属する回答文書を示す文
書IDの集合を読み出して、文書抽出部253にこれら
の文書の抽出を指示する。これに応じて、文書抽出部2
53は、文書蓄積ファイル231から指定された文書を
抽出し(ステップ344)、これらの文書からなる集合
を、文書分析部254、単語得点算出部257、代表度
算出部258および文書選択部259による代表抽出処
理(ステップ345)に供する。
【0065】ここで、図17を用いて、文書の集合から
代表を抽出する動作について説明する。文書分析部25
4は、文書抽出部253から受け取った文書の集合の各
要素、すなわち各文書を順次に選択し(ステップ35
1)、この文書を単語に分解する(ステップ352)。そ
して、文書分析部254は、この文書を示す文書IDに
対応して、この文書に含まれている単語に関する情報を
文書情報ファイル256に格納する。また、文書分析部
254は、この文書に出現した単語に対応して単語情報
ファイル255に格納された出現度数をインクリメント
する(ステップ353)。その後、文書分析部254は、
上述した文書の集合に含まれる全ての要素についての分
析が終了したか否かを判定し(ステップ354)、否定判
定の場合は、ステップ351に戻って、次の文書につい
ての分析を行なう。
【0066】このようにして、クラスタに属する文書に
ついて順次に分析していき、全ての要素についての分析
が終了したときに、ステップ354の肯定判定としてス
テップ355に進む。このとき、単語情報ファイル25
5には、文書抽出部253から受け取った文書の集合に
おいて、各単語が出現した度数を示す情報が格納されて
おり、また、文書情報ファイル256には、これらの文
書それぞれを構成する単語を示す情報が格納されてい
る。
【0067】その後、単語得点算出部257は、抽出制
御部249からの指示に応じて、単語情報ファイル25
5に格納された情報を参照し、各単語について、その出
現頻度に対応する得点(以下、単語得点と称する)を算出
して(ステップ355)、得られた単語得点を代表度算出
部258に渡す。代表度算出部258は、抽出制御部2
49からの指示に応じて、文書情報ファイル256から
順次に文書情報を読み出し(ステップ356)、例えば、
この文書情報で示される単語に対応する単語得点を積算
することにより、対応する文書の代表度Dbを算出する
(ステップ357)。
【0068】文書選択部259は、ステップ357で得
られた代表度Dbと代表度の基準値Daとを比較し(ス
テップ358)、代表度Dbが基準値Daを超えた場合
(ステップ358の肯定判定)に、基準値Daを代表度D
bによって更新するとともに、現在処理中のクラスタに
対応する代表文書を示す文書IDとして、この文書を示
す文書IDをFAQファイル260に格納する(ステッ
プ359)。
【0069】その後、抽出制御部249は、代表度算出
部258と文書選択部259により、上述したステップ
356からステップ359の処理を、上述した文書の集
合に含まれる全ての要素について実行したか否かを判定
し(ステップ360)、このステップ360の否定判定の
場合は、ステップ356に戻って、次の文書についての
処理を指示する。
【0070】このようにして、全ての要素についての処
理が終了したときに、抽出制御部249は、注目してい
る文書の集合から代表を抽出する処理が終了する。な
お、このとき、抽出制御部249は、文書選択部259
に代表抽出処理が完了した旨を通知し、これに応じて、
文書選択部259は、FAQファイル260の該当する
代表文書を確定すればよい。
【0071】したがって、上述したステップ351から
ステップ360の処理を、図16のステップ344にお
いて抽出した回答文書の集合について実行することによ
り、この回答文書の集合の中から、典型的な文書を代表
文書として抽出し(ステップ345)、FAQファイル2
60に格納することができる。同様にして、抽出制御部
249からの指示に応じて、文書抽出部253によっ
て、注目しているクラスタに属する各回答文書に対応す
る質問文書からなる集合を文書蓄積ファイル231から
抽出し(ステップ346)、この文書の集合について、図
17に示した各手順からなる処理を実行することによ
り、このクラスタに属する回答文書に適合する代表的な
質問文書を代表文書として抽出し(ステップ347)、F
AQファイル260に格納することができる。
【0072】したがって、ステップ342で選択した全
てのクラスタについて、上述した処理を実行することに
より、文書蓄積ファイル231に蓄積された文書から、
自動的にFAQを抽出することができる。ここで、図1
7に示した代表文書抽出処理においては、文書の集合に
含まれる各文書を、その構成要素である単語に基づいて
分析することにより、各文書について代表度を求めてい
る。この代表度は、各文書が、その集合に含まれる文書
において頻繁に出現する単語を多く含んでいる度合いを
示しており、これは、その文書が、典型的な文書である
度合いを客観的に示していると考えられる。したがっ
て、上述したようにして代表文書を抽出することによ
り、多数の文書からなる集合から典型的な文書を高い精
度で抽出することができる。
【0073】
【発明の効果】以上に説明したように、請求項1の発明
によれば、膨大な数の文書を、それぞれが内容の近似し
ている文書同士からなり、非階層な複数のクラスタに分
割することができる。特に、請求項4の発明を適用し、
同一のクラスタに分類するか否かを判定する指標とし
て、類似文書の候補を多く共有しているか否かを用いる
ことにより、互いに密接に関連する内容を記述した文書
を漏れなく検出し、一つのクラスタにまとめることがで
きる。
【0074】一方、請求項2の発明によれば、それぞれ
が質問文書に対応して蓄積された膨大な数の回答文書か
ら、適切な回答文書を各クラスタから一つずつ検索して
提示することができるので、検索結果から有効な回答文
書を選択する作業を支援することができる。これによ
り、過去に寄せられた質問文書およびそれに対する回答
文書の蓄積を、直接に利用して、新たな質問文書に対す
る回答文書を検索することができるので、模範回答文書
や模範質問文書の作成を不要とし、これらの作成に費や
されていた作業負担を削減することができる。また、質
問文書および回答文書の蓄積そのものを活用するので、
新たな質問文書に対応して、既存の回答文書の一部を変
更して作成された回答文書も蓄積していくことにより、
次の検索時に利用することが可能である。更に、請求項
5の発明を適用し、検索結果を提示する順序を、クラス
タの要素数に応じて調整することにより、類似した回答
文書が使用された頻度、すなわち、該当する事項につい
ての質問が入力された頻度を提示順序に反映することが
できる。
【0075】また、請求項3の発明によれば、それぞれ
が質問文書に対応して蓄積された膨大な数の回答文書か
ら作成されたクラスタごとに、代表的な回答文書と質問
文書とを抽出することにより、FAQを自動的に作成す
ることが可能である。これにより、極めて類似した膨大
な文書の中から代表的な文書をFAQとして抽出すると
いった煩雑で単調な作業から技術者を解放し、サポート
センタなどにおける作業の効率を向上することができ
る。特に、請求項6の発明を適用し、各クラスタに属す
る文書の中で典型的な文書である度合いを客観的に示す
指標として、各クラスタに属する文書において頻繁に出
現する単語を多く含んでいる度合いを用いることによ
り、相互に類似した多数の文書の中から、最も典型的な
文書を高い精度で検出することができるので、有用性の
高いFAQを作成することができる。
【図面の簡単な説明】
【図1】本発明の文書クラスタ作成装置の原理ブロック
図である。
【図2】本発明の文書検索システムの原理ブロック図で
ある。
【図3】本発明のFAQ作成システムの原理ブロック図
である。
【図4】本発明の文書クラスタ作成装置の実施形態を示
す図である。
【図5】類似性評価部の動作を表す流れ図である。
【図6】類似性評価動作を説明する図である。
【図7】近似文書探索部の詳細構成を示す図である。
【図8】近似文書探索動作を表す流れ図である。
【図9】探索テーブルの例を示す図である。
【図10】文書をクラスタに分割する動作を表す流れ図
である。
【図11】クラスタ分割動作を説明する図である。
【図12】本発明の文書検索システムの実施形態を示す
図である。
【図13】文書検索システムの動作を表す流れ図であ
る。
【図14】文書検索システムの動作を説明する図であ
る。
【図15】本発明のFAQ作成システムの実施形態を示
す図である。
【図16】FAQ作成動作の概略を表す流れ図である。
【図17】文書の集合から代表を抽出する動作を表す流
れ図である。
【符号の説明】
111 類似性評価手段 112 クラスタ作成手段 113 関連付け手段 114 検索手段 115 重複排除手段 116 検索結果出力手段 117 要素数算出手段 118 順位決定手段 119 代表抽出手段 121 類似度算出手段 122 候補抽出手段 123 共有文書検出手段 124 近似文書判定手段 125 収集手段 126 新規生成手段 127 編入手段 131 クラスタ得点算出手段 132 得点調整手段 133 ソート手段 141 文書分解手段 142 含有文書計数手段 143 単語得点算出手段 144 代表度算出手段 145 選択手段 201 分類制御部 202 文書ファイル 203 評価結果保持部 204 クラスタテーブル 210 類似性評価部 211 索引作成部 212 索引ファイル 213 検索式作成部 214 類似得点算出部 215 ソート部 216 正規化部 217 候補抽出部 220 クラスタ処理部 221 近似文書探索部 222 分類処理部 223 探索テーブル 224 探索制御部 225 共有文書検出部 226 類似度算出部 227 テーブル更新部 231 文書蓄積ファイル 232 文書クラスタ作成装置 233 クラスタテーブル 234 回答検索処理部 235 出力装置 241 関連テーブル作成部 242 索引作成部 243 関連テーブル 244 索引ファイル 245 検索式作成部 246 類似文書検索部 247 選択処理部 249 抽出制御部 251 クラスタ選択部 252 代表抽出部 253 文書抽出部 254 文書分析部 255 単語情報ファイル 256 文書情報ファイル 257 単語得点算出部 258 代表度算出部 259 文書選択部 260 FAQファイル

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書それぞれについて、自身を含
    めた全ての文書それぞれとの類似性を評価する類似性評
    価手段と、 前記類似性評価手段による評価結果に基づいて、前記複
    数の文書を非階層な複数のクラスタに分割するクラスタ
    作成手段とを備えたことを特徴とする文書クラスタ作成
    装置。
  2. 【請求項2】 個々の現象の解説および個々の状況に対
    する対策を含む事項に関する記述をそれぞれ含んだ複数
    の文書を、それらの文書を回答文書として要求する質問
    文書の入力に応じて検索する文書検索システムにおい
    て、 複数の質問文書とこれらに対する回答文書として用いら
    れた複数の文書とを蓄積する蓄積手段と、 前記複数の文書それぞれについて、自身を含めた全ての
    文書それぞれとの類似性を評価する類似性評価手段と、 前記類似性評価手段による評価結果に基づいて、前記複
    数の文書を非階層な複数のクラスタに分割するクラスタ
    作成手段と、 前記複数の質問文書を、それぞれ対応する文書が属する
    クラスタに関連付ける関連付け手段と、 新たに入力された質問文書と前記複数の質問文書それぞ
    れとの類似度に基づいて、近似した質問文書の候補を検
    索する検索手段と、 前記近似した質問文書の候補から同一のクラスタに関連
    付けられた候補を排除して、クラスタごとに一つの候補
    を抽出する重複排除手段と、 前記クラスタごとに抽出された候補に対応して前記蓄積
    手段に蓄積された文書を検索結果として出力する検索結
    果出力手段とを備えたことを特徴とする文書検索システ
    ム。
  3. 【請求項3】 個々の現象の解説および個々の状況に対
    する対策を含む事項に関する記述をそれぞれ含んだ複数
    の文書と、それらの文書を回答文書として要求する質問
    文書との組み合わせの蓄積から、高い頻度で出現する質
    問文書とこれに対応する回答文書とからなるFAQを作
    成するFAQ作成システムにおいて、 複数の質問文書とこれらに対する回答文書として用いら
    れた複数の文書とを蓄積する蓄積手段と、 前記複数の文書それぞれについて、自身を含めた全ての
    文書それぞれとの類似性を評価する類似性評価手段と、 前記類似性評価手段による評価結果に基づいて、前記複
    数の文書を非階層な複数のクラスタに分割するクラスタ
    作成手段と、 各クラスタに含まれる要素数を求める要素数算出手段
    と、 前記複数のクラスタに、その要素数に応じた順位を与え
    る順位決定手段と、 所定の順位までが与えられたクラスタに属する文書およ
    びこれらに対応する質問文書の中から、それぞれ代表的
    な質問文書および回答文書の組み合わせを抽出し、FA
    Qとして出力する代表抽出手段とを備えたことを特徴と
    するFAQ作成システム。
  4. 【請求項4】 請求項1に記載の文書クラスタ作成装置
    あるいは請求項2に記載の文書検索システムまたは請求
    項3に記載のFAQ作成システムにおいて、 類似性評価手段は、 複数の文書から2つの文書を選択する組み合わせの全て
    について、各組み合わせの類似度をそれぞれ算出する類
    似度算出手段と、 前記各組み合わせの類似度に基づいて、各文書に対応す
    る類似文書の候補を抽出する候補抽出手段と、 前記各文書とこれに対応する類似文書の候補それぞれと
    の組み合わせについて、それぞれの組み合わせで共有し
    ている類似文書の候補を検出する共有文書検出手段と、 前記各組み合わせについて、検出された共有文書に関す
    る適切な指標に基づいて、互いが類似している文書であ
    るか否かを判定し、この判定結果を評価結果として出力
    する近似文書判定手段とを備えた構成であり、 クラスタ作成手段は、 前記近似文書判定手段による判定結果に基づいて、各文
    書について近似している文書を特定する識別情報を収集
    する収集手段と、 前記各文書について収集された識別情報が所定の条件を
    満たすときに、新たなクラスタを生成する新規生成手段
    と、 前記各文書について収集された識別情報で示される文書
    が既存のクラスタに含まれるときに、この文書を含んで
    いるクラスタに注目している文書を編入する編入手段と
    を備えた構成であることを特徴とする文書クラスタ作成
    装置あるいは文書検索システムまたはFAQ作成システ
    ム。
  5. 【請求項5】 請求項2に記載の文書検索システムにお
    いて、 検索結果出力手段は、 各クラスタに含まれる要素数に応じた得点を、各クラス
    タについてのクラスタ得点として求めるクラスタ得点算
    出手段と、 重複排除手段によって抽出された質問文書の候補それぞ
    れについて、検索手段において求めた類似得点を、その
    質問文書が関連付けられたクラスタに対応するクラスタ
    得点に基づいて調整する得点調整手段と、 調整された得点に応じて、前記質問文書の候補を並べ替
    えて、前記各質問文書に対応する回答文書を検索結果と
    して出力するソート手段とを備えた構成であることを特
    徴とする文書検索システム。
  6. 【請求項6】 請求項3に記載のFAQ作成システムに
    おいて、 代表抽出手段は、 各クラスタに属する文書あるいはこれらの文書に対応す
    る質問文書を、それぞれ単語に分解する文書分解手段
    と、 前記単語ごとに、その単語を含んでいる文書あるいは質
    問文書を計数する文書計数手段と、 各単語について、それを含んでいる文書の数に応じた得
    点を算出する単語得点算出手段と、 各文書あるいは質問文書について、それぞれが含んでい
    る単語に対応する前記単語得点についての所定の関数を
    用いて代表度を算出する代表度算出手段と、 前記代表度に基づいて、クラスタごとに代表となる文書
    および質問文書を選択する選択手段とを備えた構成であ
    ることを特徴とするFAQ作成システム。
JP2001217188A 2001-07-17 2001-07-17 文書クラスタ作成装置、文書検索システムおよびfaq作成システム Pending JP2003030224A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001217188A JP2003030224A (ja) 2001-07-17 2001-07-17 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
US10/059,288 US7349899B2 (en) 2001-07-17 2002-01-31 Document clustering device, document searching system, and FAQ preparing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001217188A JP2003030224A (ja) 2001-07-17 2001-07-17 文書クラスタ作成装置、文書検索システムおよびfaq作成システム

Publications (1)

Publication Number Publication Date
JP2003030224A true JP2003030224A (ja) 2003-01-31

Family

ID=19051561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001217188A Pending JP2003030224A (ja) 2001-07-17 2001-07-17 文書クラスタ作成装置、文書検索システムおよびfaq作成システム

Country Status (2)

Country Link
US (1) US7349899B2 (ja)
JP (1) JP2003030224A (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
JP2006525584A (ja) * 2003-04-29 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 単一のクエリ結果にマッピングされたp2pネットワークへの同一記録
JP2008511081A (ja) * 2004-08-23 2008-04-10 トムソン グローバル リソーシーズ 重複する文書の検出および表示機能
JP2009169689A (ja) * 2008-01-16 2009-07-30 Fujitsu Ltd データ分類方法およびデータ処理装置
JP2012203865A (ja) * 2011-03-28 2012-10-22 Digital Arts Inc 検索装置、検索システム、方法およびプログラム
JP2013050896A (ja) * 2011-08-31 2013-03-14 Toshiba Corp Faq作成支援システム及びプログラム
US8983962B2 (en) 2005-02-08 2015-03-17 Nec Corporation Question and answer data editing device, question and answer data editing method and question answer data editing program
JP2016533601A (ja) * 2013-09-18 2016-10-27 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 通信コンテンツの結合
JP2018151823A (ja) * 2017-03-13 2018-09-27 Kddi株式会社 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP2019036210A (ja) * 2017-08-18 2019-03-07 株式会社三井住友銀行 機械学習を利用したfaq登録支援方法、及びコンピュータシステム
JP2019046388A (ja) * 2017-09-06 2019-03-22 株式会社RightSegment チャットシステム、サーバ、画面生成方法及びコンピュータプログラム
JP2020035036A (ja) * 2018-08-28 2020-03-05 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム
JP2020064418A (ja) * 2018-10-16 2020-04-23 損害保険ジャパン日本興亜株式会社 Faq作成支援方法およびfaq作成支援システム
JP2020102193A (ja) * 2018-12-20 2020-07-02 楽天株式会社 文章変換システム、文章変換方法、及びプログラム
JP2021144397A (ja) * 2020-03-11 2021-09-24 北日本コンピューターサービス 株式会社 質問回答システム及びプログラム
JP2022093814A (ja) * 2020-12-14 2022-06-24 株式会社サイシード チャットシステムおよびチャットプログラム

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666983B2 (en) * 2003-06-13 2014-03-04 Microsoft Corporation Architecture for generating responses to search engine queries
FR2860641B1 (fr) * 2003-10-03 2006-10-13 Commissariat Energie Atomique Matrice de resistances adressables independamment, et son procede de realisation
US7657423B1 (en) * 2003-10-31 2010-02-02 Google Inc. Automatic completion of fragments of text
US6983884B2 (en) * 2004-02-19 2006-01-10 Neoteric Technology, Limited Method and apparatus for monitoring transfusion of blood
US7933907B2 (en) * 2004-02-19 2011-04-26 The Western Union Company Methods and systems for providing personalized frequently asked questions
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US20060106760A1 (en) * 2004-10-29 2006-05-18 Netzer Moriya Method and apparatus of inter-document data retrieval
US7620886B1 (en) * 2005-03-01 2009-11-17 Adobe Systems, Incorporated Method and apparatus for ordering objects in an electronic document
US8302002B2 (en) * 2005-04-27 2012-10-30 Xerox Corporation Structuring document based on table of contents
US8433711B2 (en) * 2005-09-09 2013-04-30 Kang Jo Mgmt. Limited Liability Company System and method for networked decision making support
CA2624297A1 (en) * 2005-10-18 2007-04-26 Geof Auchinleck Method and apparatus for managing the administration of medications
EP1937203A4 (en) * 2005-10-18 2013-07-03 Geof Auchinleck APPARATUS AND METHOD FOR ADMINISTERING MATERNAL MILK
US8015065B2 (en) * 2005-10-28 2011-09-06 Yahoo! Inc. Systems and methods for assigning monetary values to search terms
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US20070112867A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for rank-based response set clustering
US7644373B2 (en) 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
US7836050B2 (en) 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US20070292833A1 (en) * 2006-06-02 2007-12-20 International Business Machines Corporation System and Method for Creating, Executing and Searching through a form of Active Web-Based Content
US9110934B2 (en) * 2006-06-02 2015-08-18 International Business Machines Corporation System and method for delivering an integrated server administration platform
US20070282653A1 (en) * 2006-06-05 2007-12-06 Ellis Edward Bishop Catalog based services delivery management
US7877284B2 (en) * 2006-06-05 2011-01-25 International Business Machines Corporation Method and system for developing an accurate skills inventory using data from delivery operations
US20070288274A1 (en) * 2006-06-05 2007-12-13 Tian Jy Chao Environment aware resource capacity planning for service delivery
US8468042B2 (en) * 2006-06-05 2013-06-18 International Business Machines Corporation Method and apparatus for discovering and utilizing atomic services for service delivery
US20070282876A1 (en) * 2006-06-05 2007-12-06 Yixin Diao Method for service offering comparitive it management activity complexity benchmarking
US20070282776A1 (en) * 2006-06-05 2007-12-06 International Business Machines Corporation Method and system for service oriented collaboration
US20070282645A1 (en) * 2006-06-05 2007-12-06 Aaron Baeten Brown Method and apparatus for quantifying complexity of information
US20070282692A1 (en) * 2006-06-05 2007-12-06 Ellis Edward Bishop Method and apparatus for model driven service delivery management
US8554596B2 (en) * 2006-06-05 2013-10-08 International Business Machines Corporation System and methods for managing complex service delivery through coordination and integration of structured and unstructured activities
US8001068B2 (en) 2006-06-05 2011-08-16 International Business Machines Corporation System and method for calibrating and extrapolating management-inherent complexity metrics and human-perceived complexity metrics of information technology management
US20070282470A1 (en) * 2006-06-05 2007-12-06 International Business Machines Corporation Method and system for capturing and reusing intellectual capital in IT management
US20080071744A1 (en) * 2006-09-18 2008-03-20 Elad Yom-Tov Method and System for Interactively Navigating Search Results
US9141627B2 (en) * 2006-09-26 2015-09-22 Sony Corporation Providing a user access to data files distributed in a plurality of different types of user devices
US7707208B2 (en) * 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
US9214001B2 (en) * 2007-02-13 2015-12-15 Aspect Software Inc. Automatic contact center agent assistant
US8190475B1 (en) * 2007-09-05 2012-05-29 Google Inc. Visitor profile modeling
US8839088B1 (en) 2007-11-02 2014-09-16 Google Inc. Determining an aspect value, such as for estimating a characteristic of online entity
JP4429356B2 (ja) * 2007-12-26 2010-03-10 富士通株式会社 属性抽出処理方法及び装置
US7958136B1 (en) 2008-03-18 2011-06-07 Google Inc. Systems and methods for identifying similar documents
US8321406B2 (en) * 2008-03-31 2012-11-27 Google Inc. Media object query submission and response
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
US8024332B2 (en) * 2008-08-04 2011-09-20 Microsoft Corporation Clustering question search results based on topic and focus
US8027973B2 (en) * 2008-08-04 2011-09-27 Microsoft Corporation Searching questions based on topic and focus
US20110184995A1 (en) * 2008-11-15 2011-07-28 Andrew John Cardno method of optimizing a tree structure for graphical representation
US20100235311A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Question and answer search
US20100235343A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Predicting Interestingness of Questions in Community Question Answering
US9443008B2 (en) * 2010-07-14 2016-09-13 Yahoo! Inc. Clustering of search results
US20120130910A1 (en) * 2010-11-19 2012-05-24 Salesforce.Com, Inc. Customer support flow
US10083230B2 (en) * 2010-12-13 2018-09-25 International Business Machines Corporation Clustering a collection using an inverted index of features
US20130304730A1 (en) * 2011-01-18 2013-11-14 Google Inc. Automated answers to online questions
US20130103668A1 (en) * 2011-10-21 2013-04-25 Telcordia Technologies, Inc. Question conversion for information searching
US9436758B1 (en) * 2011-12-27 2016-09-06 Google Inc. Methods and systems for partitioning documents having customer feedback and support content
US9342601B1 (en) 2012-02-24 2016-05-17 Google Inc. Query formulation and search in the context of a displayed document
US9146987B2 (en) * 2013-06-04 2015-09-29 International Business Machines Corporation Clustering based question set generation for training and testing of a question and answer system
US9230009B2 (en) 2013-06-04 2016-01-05 International Business Machines Corporation Routing of questions to appropriately trained question and answer system pipelines using clustering
US9348900B2 (en) 2013-12-11 2016-05-24 International Business Machines Corporation Generating an answer from multiple pipelines using clustering
US10339453B2 (en) * 2013-12-23 2019-07-02 International Business Machines Corporation Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US20150278264A1 (en) * 2014-03-31 2015-10-01 International Business Machines Corporation Dynamic update of corpus indices for question answering system
US9727648B2 (en) * 2014-12-19 2017-08-08 Quixey, Inc. Time-box constrained searching in a distributed search system
US10366107B2 (en) * 2015-02-06 2019-07-30 International Business Machines Corporation Categorizing questions in a question answering system
US9996604B2 (en) 2015-02-09 2018-06-12 International Business Machines Corporation Generating usage report in a question answering system based on question categorization
US9165057B1 (en) 2015-03-10 2015-10-20 Bank Of America Corporation Method and apparatus for extracting queries from webpages
US10795921B2 (en) 2015-03-27 2020-10-06 International Business Machines Corporation Determining answers to questions using a hierarchy of question and answer pairs
US10102275B2 (en) 2015-05-27 2018-10-16 International Business Machines Corporation User interface for a query answering system
US9665628B1 (en) 2015-12-06 2017-05-30 Xeeva, Inc. Systems and/or methods for automatically classifying and enriching data records imported from big data and/or other sources to help ensure data integrity and consistency
US10146858B2 (en) 2015-12-11 2018-12-04 International Business Machines Corporation Discrepancy handler for document ingestion into a corpus for a cognitive computing system
US10176250B2 (en) * 2016-01-12 2019-01-08 International Business Machines Corporation Automated curation of documents in a corpus for a cognitive computing system
US9842161B2 (en) 2016-01-12 2017-12-12 International Business Machines Corporation Discrepancy curator for documents in a corpus of a cognitive computing system
CN108780661A (zh) * 2016-03-16 2018-11-09 皇家飞利浦有限公司 用于改善将具有相似简档的患者聚类在一起的聚类模型的性能的相关性反馈
US20180204106A1 (en) * 2017-01-16 2018-07-19 International Business Machines Corporation System and method for personalized deep text analysis
JP7007562B2 (ja) * 2017-09-29 2022-01-24 富士通株式会社 情報処理プログラム、情報処理装置および情報処理方法
US10418023B2 (en) 2017-10-17 2019-09-17 International Business Machines Corporation Automatic answer rephrasing based on talking style
CN110659354B (zh) 2018-06-29 2023-07-14 阿里巴巴(中国)有限公司 问答系统的建立方法、装置、存储介质及电子设备
US10860801B2 (en) * 2018-09-12 2020-12-08 Samsung Electronics Co., Ltd. System and method for dynamic trend clustering
US10909180B2 (en) 2019-01-11 2021-02-02 International Business Machines Corporation Dynamic query processing and document retrieval
US10949613B2 (en) 2019-01-11 2021-03-16 International Business Machines Corporation Dynamic natural language processing
JP7148444B2 (ja) * 2019-03-19 2022-10-05 株式会社日立製作所 文分類装置、文分類方法及び文分類プログラム
US11574326B2 (en) * 2019-04-25 2023-02-07 Qualtrics, Llc Identifying topic variances from digital survey responses
CN110275937A (zh) * 2019-05-14 2019-09-24 闽江学院 一种问答机器人的构建方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259509A (ja) * 1998-03-12 1999-09-24 Hitachi Ltd 情報検索分類方法および情報検索分類システム
JPH11296552A (ja) * 1998-04-13 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000148764A (ja) * 1998-11-05 2000-05-30 Fujitsu Ltd クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体
JP2000148770A (ja) * 1998-11-06 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP2001117937A (ja) * 1999-10-20 2001-04-27 Hitachi Ltd 文書検索方法および装置
JP2001188678A (ja) * 2000-01-05 2001-07-10 Mitsubishi Electric Corp 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体
JP2002041573A (ja) * 2000-05-17 2002-02-08 Matsushita Electric Ind Co Ltd 情報検索システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369763A (en) * 1989-02-01 1994-11-29 Kansas State University Research Foundation Data storage and retrieval system with improved data base structure
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US6311190B1 (en) * 1999-02-02 2001-10-30 Harris Interactive Inc. System for conducting surveys in different languages over a network with survey voter registration
US20020016797A1 (en) * 2000-06-06 2002-02-07 Seda Taysi Network based interviewing and processing system
FI113413B (fi) * 2000-09-20 2004-04-15 Interquest Oy Menetelmä tietojen keräämiseksi ja käsittelemiseksi
US7043497B1 (en) * 2001-11-16 2006-05-09 Ncr Corp. System and method for capturing and storing web site visitor profile information in a data warehouse

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259509A (ja) * 1998-03-12 1999-09-24 Hitachi Ltd 情報検索分類方法および情報検索分類システム
JPH11296552A (ja) * 1998-04-13 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000148764A (ja) * 1998-11-05 2000-05-30 Fujitsu Ltd クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体
JP2000148770A (ja) * 1998-11-06 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP2001117937A (ja) * 1999-10-20 2001-04-27 Hitachi Ltd 文書検索方法および装置
JP2001188678A (ja) * 2000-01-05 2001-07-10 Mitsubishi Electric Corp 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体
JP2002041573A (ja) * 2000-05-17 2002-02-08 Matsushita Electric Ind Co Ltd 情報検索システム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006525584A (ja) * 2003-04-29 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 単一のクエリ結果にマッピングされたp2pネットワークへの同一記録
JP2008511081A (ja) * 2004-08-23 2008-04-10 トムソン グローバル リソーシーズ 重複する文書の検出および表示機能
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
US7693683B2 (en) 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
US8983962B2 (en) 2005-02-08 2015-03-17 Nec Corporation Question and answer data editing device, question and answer data editing method and question answer data editing program
JP2009169689A (ja) * 2008-01-16 2009-07-30 Fujitsu Ltd データ分類方法およびデータ処理装置
JP2012203865A (ja) * 2011-03-28 2012-10-22 Digital Arts Inc 検索装置、検索システム、方法およびプログラム
JP2013050896A (ja) * 2011-08-31 2013-03-14 Toshiba Corp Faq作成支援システム及びプログラム
JP2016533601A (ja) * 2013-09-18 2016-10-27 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 通信コンテンツの結合
JP2018151823A (ja) * 2017-03-13 2018-09-27 Kddi株式会社 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP2019036210A (ja) * 2017-08-18 2019-03-07 株式会社三井住友銀行 機械学習を利用したfaq登録支援方法、及びコンピュータシステム
JP2019046388A (ja) * 2017-09-06 2019-03-22 株式会社RightSegment チャットシステム、サーバ、画面生成方法及びコンピュータプログラム
JP2020035036A (ja) * 2018-08-28 2020-03-05 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム
JP7068106B2 (ja) 2018-08-28 2022-05-16 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム
JP2020064418A (ja) * 2018-10-16 2020-04-23 損害保険ジャパン日本興亜株式会社 Faq作成支援方法およびfaq作成支援システム
JP2020102193A (ja) * 2018-12-20 2020-07-02 楽天株式会社 文章変換システム、文章変換方法、及びプログラム
JP2021144397A (ja) * 2020-03-11 2021-09-24 北日本コンピューターサービス 株式会社 質問回答システム及びプログラム
JP2022093814A (ja) * 2020-12-14 2022-06-24 株式会社サイシード チャットシステムおよびチャットプログラム

Also Published As

Publication number Publication date
US7349899B2 (en) 2008-03-25
US20030018629A1 (en) 2003-01-23

Similar Documents

Publication Publication Date Title
JP2003030224A (ja) 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
KR102431549B1 (ko) 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램
JP4382526B2 (ja) 文章分類装置および方法
WO2022110637A1 (zh) 问答对话评测方法、装置、设备及存储介质
US20020069197A1 (en) Method and apparatus for categorizing information, and a computer product
JP3791877B2 (ja) 文書の参照理由を用いて情報検索を行う装置
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JP6377917B2 (ja) 画像検索装置及び画像検索プログラム
JP4017354B2 (ja) 情報分類装置および情報分類プログラム
CN120296146A (zh) 基于大模型的政务公文引文检索方法、装置、设备及介质
JPH10240716A (ja) 時系列データ解析装置及びプログラムを記録した機械読み取り可能な記録媒体
CN110413998A (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
JP2003150624A (ja) 情報抽出装置および情報抽出方法
CN119128077B (zh) 一种语义理解与问答的匹配方法及其系统
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
JP3881638B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2004287670A (ja) 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
JP2000305950A (ja) 文書分類装置および文書分類方法
JP2000305941A (ja) データ分析装置及びそのプログラム記憶媒体
CN112463918B (zh) 一种信息推荐方法、系统及存储介质和终端设备
JP2001117930A (ja) 文書分類装置、文書分類方法および記録媒体
JP2002324077A (ja) 文書検索装置および文書検索方法
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
JP2023057658A (ja) 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100406