[go: up one dir, main page]

JP2004341928A - Search decision tree generation method, search decision tree generation device, search decision tree generation program, and program recording medium - Google Patents

Search decision tree generation method, search decision tree generation device, search decision tree generation program, and program recording medium Download PDF

Info

Publication number
JP2004341928A
JP2004341928A JP2003139101A JP2003139101A JP2004341928A JP 2004341928 A JP2004341928 A JP 2004341928A JP 2003139101 A JP2003139101 A JP 2003139101A JP 2003139101 A JP2003139101 A JP 2003139101A JP 2004341928 A JP2004341928 A JP 2004341928A
Authority
JP
Japan
Prior art keywords
information
question
limited
decision tree
search decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003139101A
Other languages
Japanese (ja)
Inventor
Teruo Hamano
輝夫 浜野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003139101A priority Critical patent/JP2004341928A/en
Publication of JP2004341928A publication Critical patent/JP2004341928A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】質問の難易度または容易度を考慮して質問を配置した検索決定木の生成を可能にする検索決定木生成方法、検索決定木生成装置、検索決定木生成プログラム、およびプログラム記録媒体を提供する。
【解決手段】各限定質問に対する回答の容易さを示す容易度情報に基づき、回答が最も容易な限定質問を抽出し、検索決定木の根に最も近い節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割し、各部分集合から空集合でない部分集合を抽出し、分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応する情報を割り当てて葉とすることによって前記根から延出した枝を終止し、抽出した各部分集合を質問集合として、部分集合毎に上述した処理を前記検索決定木の全ての枝を終止するまで再起的に繰り返す。
【選択図】 図1
A search decision tree generation method, a search decision tree generation device, a search decision tree generation program, and a program recording medium that enable generation of a search decision tree in which questions are arranged in consideration of the difficulty or ease of a question. provide.
A limited question with the easiest answer is extracted based on ease information indicating the ease of answer to each limited question, and assigned to a vacant clause among the clauses closest to the root of the search decision tree. The set of limited questions composed of questions is divided into two subsets, a non-empty subset is extracted from each subset, an empty set is extracted from each of the divided subsets, and each of the extracted empty sets is extracted. By terminating the branches extending from the root by assigning information corresponding to the leaves, the extracted subsets are used as a query set, and the above-described processing for each subset is performed on all the branches of the search decision tree. Recursively until it stops.
[Selection diagram] Fig. 1

Description

【0001】
【発明の属する技術分野】
本発明は、複数の質問に回答して検索を行う際の、質問の配置を表す検索決定木を作成する検索決定木生成方法、検索決定木生成装置、検索決定木生成プログラム、およびプログラム記録媒体に関する。
【0002】
【従来の技術】
FAQ(Frequently Asked Questions)とは、「よくある質問」という意味であって、例えば、パソコン、電子レンジ等の家電製品などを購入した消費者が、その製品の使い方が良くわからなかったり、製品が故障したりした場合に、しばしばなされる質問のことである。FAQがあった場合に、それに対する回答として、どうしたら良いかという解決方法等をまとめたデータベースがFAQデータベースである。
【0003】
一般に、FAQ等の回答を検索するのに検索決定木が用いられ、この検索決定木の節に配置された質問に回答することにより、上記のFAQデータベースから所望の解決方法が検索されるようになっている。
【0004】
このようなFAQデータベースから所望の解決方法を検索しようとするユーザは、まず根に配置された質問に回答し、この回答に該当する枝の節に配置された質問に答える。この手順を繰り返すことで、ユーザは、最終的に所望の解決方法が配置された葉に到達することができる。
【0005】
この検索決定木は、あくまでもFAQデータベースから所望の解決方法を検索するための論理的な構造を表す一種の設計図であり、実際にはWWW(World Wide Web)で用いられるHTML(Hyper Text Markup Language)文書等として、コンピュータ上に実現されたり、あるいは紙の冊子上で実現されたりしていた。そして、検索決定木の節に配置される質問は、出現頻度の高い解決方法が早く検索されるように配置が決められていた(例えば、特許文献1を参照)。
【0006】
【特許文献1】
特開平6−4292号公報
【0007】
【発明が解決しようとする課題】
しかしながら、このような従来の検索決定木生成技術では、出現頻度の高い解決方法ほど早く検索されるように検索決定木の節に質問が配置され、質問の難易度は全く考慮されていないため、回答の難易度の高い質問が検索決定木の根元に近い冒頭付近に配列される場合があり、かかる場合には、その質問以降、検索決定木を進むことができず、回答を絞り込むことができなかった。
【0008】
また、そもそも解決方法を検索する上で、難易度の高い質問には回答する必要すらない可能性があるにも関わらず、従来の技術ではどのような難易度の質問に対してもユーザが回答する必要があり、その結果、ユーザが所望の回答を得ることができない場合もあった。
【0009】
本発明は、このような問題を解決するためになされたもので、その目的は、質問の難易度または容易度を考慮して質問を配置した検索決定木の生成を可能にする検索決定木生成方法、検索決定木生成装置、検索決定木生成プログラム、およびプログラム記録媒体を提供することにある。
【0010】
【課題を解決するための手段】
上記目的を達成するために、請求項1記載の発明は、検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成方法であって、検索決定木を生成するために必要な情報を記憶する記憶部を備えたコンピュータが、(イ)各限定質問に対する回答の容易さを示す容易度情報を前記記憶部から読み出し、この読み出した容易度情報に基づいて、回答が最も容易な限定質問を抽出する抽出ステップと、(ロ)この抽出ステップで抽出した限定質問を検索決定木の根に最も近い節のうち空いている節のいずれかに割り当て、複数の限定質問から構成される質問集合を二つの部分集合に分割する分割ステップと、(ハ)この分割ステップで分割した二つの部分集合から空集合でない部分集合を抽出する部分集合抽出ステップと、(ニ)前記分割ステップで分割した二つの部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止ステップとを実行することを特徴とする。
【0011】
請求項2記載の発明は、前記(ハ)の部分集合抽出ステップで抽出した部分集合のうち空集合でない部分集合を改めて質問集合として、この質問集合の各々に対して、前記(イ)の抽出ステップから前記(ニ)の終止ステップに至るまでの処理を再帰的に繰り返し、この繰り返しの過程において、前記(ロ)の分割ステップで分割した部分集合が全て空集合であるとき、繰り返しを終了することを特徴とする。
【0012】
請求項3記載の発明は、検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成方法であって、検索決定木を生成するために必要な情報を記憶する記憶部を備えたコンピュータが、(イ)各限定質問に対する回答を組み合せて成る複数の訓練事例から構成される訓練事例情報と、当該訓練事例情報に係る質問集合とに基づいて、前記訓練事例全体の限定質問前と限定質問後の情報量の差を示す情報利得を算出する情報利得算出ステップと、(ロ)この情報利得算出ステップで算出した情報利得と各限定質問に対する回答の容易さを示す容易度情報を前記記憶部から読み出し、この読み出した情報利得と容易度情報に基づいて、各限定質問に対する評価値を算出する評価値算出ステップと、(ハ)この評価値算出ステップで算出した評価値が最も高い限定質問を前記記憶部から読み出して抽出する抽出ステップと、(ニ)この抽出ステップで抽出した限定質問を検索決定木の根に最も近接する節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割ステップと、(ホ)この分割ステップで分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出ステップと、(へ)前記分割ステップで分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止ステップとを実行することを特徴とする。
【0013】
請求項4記載の発明は、前記(ホ)の部分集合抽出ステップで抽出した部分集合のうち空集合でない部分集合を改めて質問集合として、この質問集合の各々に対して、前記(イ)の抽出ステップから前記(ヘ)の終止ステップに至るまでの処理を再帰的に繰り返し、この繰り返しの過程において、前記(ニ)の分割ステップで分割した部分集合が全て空集合であるとき、繰り返しを終了することを特徴とする。
【0014】
請求項5記載の発明は、前記評価値算出ステップで算出する評価値は、前記情報利得および前記容易度情報を所定の比率で加算した値であることを特徴とする。
【0015】
請求項6記載の発明は、検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成装置であって、検索決定木を生成するために必要な情報を記憶する記憶手段と、各限定質問に対する回答の容易さを示す容易度情報を前記記憶手段から読み出し、この読み出した容易度情報に基づいて、回答が最も容易な限定質問を抽出する抽出手段と、この抽出手段で抽出した限定質問を検索決定木の根に最も近い節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割手段と、この分割手段で分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出手段と、前記分割手段で分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止手段とを備えたことを特徴とする。
【0016】
請求項7記載の発明は、検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成装置であって、検索決定木を生成するために必要な情報を記憶する記憶手段と、各限定質問に対する回答を組み合せて成る複数の訓練事例から構成される訓練事例情報と、当該訓練事例情報に係る質問集合とに基づいて、前記訓練事例全体の限定質問前と限定質問後の情報量の差を示す情報利得を算出する情報利得算出手段と、この情報利得算出手段で算出した情報利得と各限定質問に対する回答の容易さを示す容易度情報に基づいて、各限定質問に対する評価値を算出する評価値算出手段と、この評価値算出手段で算出した評価値が最も高い限定質問を抽出する抽出手段と、この抽出手段で抽出した限定質問を検索決定木の根に最も近接する節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割手段と、この分割手段で分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出手段と、前記分割手段で分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止手段とを備えたことを特徴とする。
【0017】
請求項8記載の発明は、前記評価値算出手段で算出する評価値は、前記情報利得および前記容易度情報を所定の比率で加算した値であることを特徴とする。
【0018】
請求項9記載の発明は、検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成プログラムであって、検索決定木を生成するために必要な情報を記憶する記憶部を備えたコンピュータに、(イ)各限定質問に対する回答の容易さを示す容易度情報を前記記憶部から読み出し、この読み出した容易度情報に基づいて、回答が最も容易な限定質問を抽出する抽出ステップと、(ロ)この抽出ステップで抽出した限定質問を検索決定木の根に最も近い節のうち空いている節のいずれかに割り当て、複数の限定質問から構成される質問集合を二つの部分集合に分割する分割ステップと、(ハ)この分割ステップで分割した二つの部分集合から空集合でない部分集合を抽出する部分集合抽出ステップと、(ニ)前記分割ステップで分割した二つの部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止ステップとを実行させることを特徴とする。
【0019】
請求項10記載の発明は、前記(ハ)の部分集合抽出ステップで抽出した部分集合のうち空集合でない部分集合を改めて質問集合として、この質問集合の各々に対して、前記(イ)の抽出ステップから前記(ニ)の終止ステップに至るまでの処理を再帰的に繰り返し、この繰り返しの過程において、前記(ロ)の分割ステップで分割した部分集合が全て空集合であるとき、繰り返しを終了することを特徴とする。
【0020】
請求項11記載の発明は、検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成プログラムであって、検索決定木を生成するために必要な情報を記憶する記憶部を備えたコンピュータに、(イ)各限定質問に対する回答を組み合せて成る複数の訓練事例から構成される訓練事例情報と、当該訓練事例情報に係る質問集合とに基づいて、前記訓練事例全体の限定質問前と限定質問後の情報量の差を示す情報利得を算出する情報利得算出ステップと、(ロ)この情報利得算出ステップで算出した情報利得と各限定質問に対する回答の容易さを示す容易度情報を前記記憶部から読み出し、この読み出した情報利得と容易度情報に基づいて、各限定質問に対する評価値を算出する評価値算出ステップと、(ハ)この評価値算出ステップで算出した評価値が最も高い限定質問を前記記憶部から読み出して抽出する抽出ステップと、(ニ)この抽出ステップで抽出した限定質問を検索決定木の根に最も近接する節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割ステップと、(ホ)この分割ステップで分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出ステップと、(へ)前記分割ステップで分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止ステップとを実行させることを特徴とする。
【0021】
請求項12記載の発明は、前記(ハ)の部分集合抽出ステップで抽出した部分集合のうち空集合でない部分集合を改めて質問集合として、この質問集合の各々に対して、前記(イ)の抽出ステップから前記(ヘ)の終止ステップに至るまでの処理を再帰的に繰り返し、この繰り返しの過程において、前記(ニ)の分割ステップで分割した部分集合が全て空集合であるとき、繰り返しを終了することを特徴とする。
【0022】
請求項13記載の発明は、前記評価値算出ステップで算出する評価値は、前記情報利得および前記容易度情報を所定の比率で加算した値であることを特徴とする。
【0023】
請求項14記載の発明は、請求項9乃至13のいずれか1項に記載の検索決定木生成プログラムを記録したことを特徴とする。
【0024】
この発明におけるプログラム記録媒体とは、ハードディスク、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disk)、光磁気ディスク、PCカード等のコンピュータ読み取り可能な記録媒体を意味する。
【0025】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態を説明する。
【0026】
(第1の実施形態)
図1は、本発明の第1の実施形態に係る検索決定木生成装置の概略構成を示すブロック図である。同図に示す検索決定木生成装置1は、検索決定木の各節に配置される質問(以下、「限定質問」という)に対する回答の容易度の情報(以下、単に「容易度情報」という)を含む所定の情報の入力や操作を行うための操作入力部11、操作入力部からの入力や操作に応じて検索決定木の生成を行うための制御および判断を行う制御判断部12、所定の情報を記憶しておくための記憶部13(記憶手段をなす)、制御判断部12によって生成された検索決定木を外部に出力するための出力部14を含むように構成される。
【0027】
ここで、操作入力部11は、例えば、キーボード、マウス、CD(Computer Disc)ドライブ等によって構成され、記憶部13に記憶される情報をユーザに入力させ、制御判断部12に行わせる処理の指示を行わせるようになっている。
【0028】
記憶部13は、検索決定木の生成に必要な情報を記憶しておくようになっており、限定質問、検索決定木の葉に割り当てられる情報(以下、「ユーザ希望情報」という)、および容易度情報を含む情報を記憶するようになっている。なお、以下では、複数の限定質問から構成される限定質問の集合を、単に「質問集合」という。
【0029】
このような記憶部13は、RAM(Random Access Memory)等から構成される主記憶部と、ハードディスクドライブ、フレキシブルディスクドライブ、CD−ROM(Compact Disc Read Only Memory)ドライブ、DVD(Digital Versatile Disk)ドライブ、光磁気ディスクドライブ、PC(Persdonal Computer)カードドライブ等から構成される補助記憶部とを備えており、後述する計算結果を随時格納するために必要なメモリ領域が確保されている。
【0030】
出力部14は、制御判断部12によって生成された検索決定木を外部に出力するものであり、液晶ディスプレイ等の出力装置から構成されている。また、記憶部13に記憶された所定の情報を制御判断部12経由で外部の装置に出力できるようになっているのでもよい。出力の指示は、操作入力部11を介して入力され、制御判断部12の制御の下に行われる。
【0031】
制御判断部12は、操作入力部11からの操作に応じて記憶部13に記憶された情報を読み出し、この読み出した情報に基づいて検索決定木を生成し、出力部14を制御して生成した検索決定木を外部に出力するようになっている。また、制御判断部12は、記憶部13および出力部14を制御するその他の制御動作および判断動作を行うのでもよい。ここで記載した動作からも明らかなように、制御判断部12は、中央処理装置(CPU:Central Processing Unit)から構成されている。
【0032】
図2は、本発明の第1の実施形態に係る検索決定木生成処理の流れを示すフローチャート図である。同図を参照して、本実施形態に係る検索決定木生成方法を具体的に説明する。
【0033】
以下では、検索決定木の一例として、図6に示す検索決定木100を適宜参照する。この検索決定木100の根R11と節Nmnには、それぞれ限定質問Q11とQmnが配置されており、根R11から延出する枝の終端である葉Lには、解決方法Aが回答として与えられている。節Nmnの添字のうち、添字mはレベルの値と一致し、添字nは各レベルごとに順序付けられた整数である。また、図6に示す場合、葉Lの数はp個である(pは正の整数)。なお、同図において、i、jおよびkは正の整数である。
【0034】
まず、検索決定木の根から出発して節から葉に至る方向に進んだ尺度であるレベルの値を1に設定する(ステップS211)。図6に示す検索決定木100の場合には、根R11のレベルを「1」とし、各枝を葉に向かって1つ進むごとにレベルの値が1つ増加する。なお、図6では、根R11における限定質問をQ11としている。ユーザが、根R11において限定質問Q11に回答すると、レベルは「2」に進み、回答を行う毎にレベルの値が1ずつ増えるようになっている。レベルの値が小さいほど根R11に近いことはいうまでもない。
【0035】
次に、容易度情報に基づいて、記憶部13に記憶された質問集合のうち、最も回答が容易な限定質問を抽出する(ステップS212)。図6の場合には、レベル1において、限定質問Q11が抽出される。
【0036】
ステップS221からS226までの処理はループをなす。まず、ステップS212で抽出した限定質問に基づいて質問集合を2つの部分集合に分割する(ステップS221)。
【0037】
次のステップS222では、全質問集合についてステップS221での処理が完了したか否かを判断する。1回目のループ(レベル1)での処理の場合、質問集合は1つであり、既に分割が完了しているので(Yes)、ステップS223に進む。他のレベルのループで質問集合の分割が完了していない場合(No)には、ステップS221に戻って同じ処理を繰り返す。
【0038】
次に、上記ステップS221で分割した部分集合のうち、空集合でない部分集合(以下、「要素保有部分集合」という)を抽出する(ステップS223)。
【0039】
ステップS224では、要素保有部分集合を抽出したか否かを判断し、要素保有部分集合を抽出したと判断した場合、ステップS225に移り、抽出しないと判断した場合、ステップS231に進む(ステップS224)。ここで、要素保有部分集合を抽出したか否かの判断は、空集合ではない部分集合が少なくとも一つ存在するときは「抽出した」と判断し、全ての部分集合が空集合のときは「抽出していない」と判断する。
【0040】
例えば図6に示す場合、レベル2にある節N21(限定質問Q21が配置されている)の場合、次のレベルに来るのはともに節なので、抽出した部分集合は空集合でないものを含む場合に相当する。したがって、この場合には要素保有部分集合を「抽出した」と判断して、ステップS225に進む。これに対して、レベル4にある節N42(限定質問Q42が配置される)は、抽出した部分集合が全て空集合となる場合に相当しており、この場合、要素保有部分集合を「抽出していない」と判断してステップS231に進む。
【0041】
ステップS224で要素保有部分集合を抽出したと判断した場合には、レベルの値を1増加させる(ステップS225)。1回目のループでは、この処理によってレベルの値が「2」となる。
【0042】
レベルを増加させた後、ステップS223で抽出した各要素保有部分集合に対し、回答が最も容易な限定質問をそれぞれ抽出し(ステップS226)、ステップS221の処理に戻る。図6に示す例では、レベル2のステップS226において、限定質問Q21とQ22が抽出される。
【0043】
この後、抽出した要素保有部分集合を改めて質問集合とみなし、上記のステップS221からS226までの処理を再帰的に繰り返す。
【0044】
上記のステップS221からS226までのループ処理を繰り返して、全ての部分集合が空集合となった場合、ステップS224で「抽出していない」と判断することになるので、ステップS231に進む。この場合、各空集合に対応する情報を割り当てる(ステップS231)。このステップで枝の終端としての葉Lに割り当てられる情報は、ユーザが順次回答して得ることになる情報、すなわちユーザが希望する情報なので、上述したように「ユーザ希望情報」と呼ぶ。
【0045】
図6において、このユーザ希望情報に該当するのは、レベル4の葉に割り当てられたA、レベル5の葉L,Lにそれぞれ割り当てられたA,A,レベルi−1の葉Lp−2に割り当てられたAp−2,レベルiの葉Lp−1,Lにそれぞれ割り当てられたAp−1,A等である(ここでiは正の整数)。
【0046】
以上の処理が制御判断部12によって実行されることはいうまでもない。この意味で、制御判断部12は、各限定質問に対する回答の容易さを示す容易度情報を前記記憶手段から読み出し、この読み出した容易度情報に基づいて、回答が最も容易な限定質問を抽出する抽出手段、この抽出手段で抽出した限定質問を検索決定木の根に最も近い節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割手段、この分割手段で分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出手段、前記分割手段で分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止手段としての機能を兼備している。
【0047】
以上説明した本発明の第1の実施形態によれば、限定質問の容易度情報に基づいて回答の容易な順番に検索決定木の根から葉の方向に限定質問を配置することにより、質問の容易度(または難易度)を考慮して限定質問を配置した検索決定木を生成することができる。
【0048】
なお、本実施形態では、検索決定木生成装置を用いて上記のステップS211からステップS231に至る各ステップでの処理を行う検索決定木生成方法について説明したが、これらの各ステップを含む検索決定木生成処理を実行させるための検索決定木生成プログラムがインストールされた所定のコンピュータを用いて実施しても同様の効果を得ることができる。
【0049】
また、本実施形態の各種処理は、一つの電子的な装置が実行する場合だけでなく、各ステップの実行を適宜分割して二つ以上の電子的な装置から構築されたシステムが全体で実行する場合も含む。この意味で、本実施形態に係る「検索決定木生成装置」は、一つまたは複数のコンピュータ(システム)によって構成される。この点については、本発明の全ての実施の形態に共通する事項である。
【0050】
ところで、以上説明した検索決定木生成プログラムを記録したコンピュータ読み取り可能なプログラム記録媒体をコンピュータに装着し、そのプログラム記録媒体に格納されているプログラムを読み出すことによって、コンピュータが上述した処理を実行するようにしてもよい。ここで、「コンピュータ読み取り可能な」プログラム記録媒体としては、ハードディスク、フレキシブルディスク、CD−ROM、DVD、光磁気ディスク、PCカード等を用いることができる。このようなプログラム記録媒体を提供することによって、本実施形態の検索決定木生成プログラムを広く流通させることができるようになる。この点についても、本発明の全ての実施の形態に共通する事項である。
【0051】
(第2の実施形態)
図3は、本発明の第2の実施形態に係る検索決定木生成装置の概略構成を示すブロック図である。同図に示す検索決定木生成装置3は、本発明の第1の実施形態に係る検索決定木生成装置1に評価値算出部35を付加した構成を有する。ここで、本実施形態に係る検索決定木生成装置3の構成部分のうち、検索決定木生成装置1と同じ構成を有する部分には同一の番号を付し、その説明を省略する。
【0052】
図3において、操作入力部11からは、第1の実施形態における容易度情報を含む所定の情報以外に、訓練事例情報も入力されるものとする。ここで、「訓練事例」とは、図4の表50に示すように、質問集合中の個々の限定質問(1,2,3,・・・,R)に対する回答を組み合わせたものである。そしてこの表50のように、複数の訓練事例(1,2,・・・,P)から構成される集合を「訓練事例情報」という。
【0053】
操作入力部11を介して入力された訓練事例情報は、制御判断部32を介して記憶部13に記憶される。
【0054】
評価値算出部35は、質問集合と訓練事例情報とに基づいて情報利得
G(Q,T)=I(T)−I(Q,T) (1)
を算出する。ただし、I(T)は、訓練事例情報T全体の情報量であり、I(Q,T)は、Tが限定質問Qによって部分集合Sに分割された状態における情報量を示し、
【数1】

Figure 2004341928
と表される。式(2)において、C(j=1、・・・・、M;Mは正の整数)はユーザ希望情報であり、|C|は、各ユーザ希望情報に含まれる事例の個数である。また、式(3)において、|T|は、訓練事例情報の個数であり、S(j=1、・・・・、N;Nは正の整数)は、訓練事例情報Tが限定質問Qによって分割された場合の各部分集合を示す。
【0055】
この後、評価値算出部35は、算出した情報利得G(Q,T)と、容易度情報に基づいて与えられる限定質問Qに対する回答の容易度F(Q)とに基づいて、限定質問Qに対する評価値E(Q)を算出する。したがって、評価値算出部35は、情報利得算出手段と評価値算出手段の二つの機能を兼備するものである。
【0056】
評価値E(Q)としては、例えば、以下の式に示すように、情報利得G(Q,T)と容易度F(Q)を所定の比率で加えたものを用いることができる:
E(Q)=G(Q,T)+λF(Q) (4)
ここで、λは、容易度F(Q)の寄与を調整するためのパラメータであり、正の値をとる。なお、容易度F(Q)は、回答が容易なほど高い値を示す指標であればどのようなものでもよく、例えば、予め限定質問について回答率の調査を行っておき、その結果得られた回答率の逆数等の所定の関数を用いて算出したものでもよい。
【0057】
ところで、情報利得G(Q,T)は、式(1)の定義からもわかるように、訓練事例情報Tに対する限定質問Qによる質問前と質問後の情報量の差を表している。そこで、この情報利得G(Q,T)の代わりに、貢献度として利得比GR(Q,T)を採用することもできる。利得比GR(Q,T)は、次のように定義される量である。
【数2】
Figure 2004341928
【0058】
実際、情報利得G(Q,T)のままでは、より多数の値(ユーザ希望情報)をとる限定質問Qほど優先的に採用されてしまう恐れもあるため、利得比GR(Q,T)を用いることによって、出現頻度が相対的に高いユーザ希望情報に、より早く到達できる可能性が出てくる。なお、ユーザ希望情報の定義は、第1の実施形態と同じである。
【0059】
また、利得比GR(Q,T)は、情報利得G(Q,T)をSI(Q,T)によって正規化したものであり(式(5)を参照)、このような値を用いることにより、検索決定木生成のアルゴリズムが、分割を細かくし過ぎないように抑制することが可能となる。
【0060】
以上をふまえ、以後の説明では、情報利得G(Q,T)の代わりに利得比GR(Q,T)を用いてもよいものとする。
【0061】
図5は、本発明の第2の実施形態に係る検索決定木生成処理の流れを示すフローチャート図である。同図を参照して、本実施形態に係る検索決定木生成方法を具体的に説明する。以下では、情報利得G(Q,T)と容易度F(Q)とを引数とする評価値E(Q)が、上記の式(4)によって表される場合を例にとって説明する。
【0062】
まず、式(4)のパラメータλの値を決定し(ステップS511)、検索決定木の根から出発して葉の方向に進んだ尺度であるレベルの値を1に設定する(ステップS512)。ここでも、レベル1の具体例としては、図6に示す検索決定木100の根R11のレベルを挙げることができる。
【0063】
次に、記憶部13に記憶された質問集合のうちの1つの限定質問を抽出する(ステップS513)。
【0064】
ステップS521からS534までの処理はループをなす。まず、限定質問に対する情報利得G(Q,T)を算出し(ステップS521)、上記の式(4)に従って評価値E(Q)を算出する(ステップS522)。
【0065】
ステップS521とS522での処理を全限定質問について完了するまで繰り返す(ステップS523)。すなわち、このステップで、全ての限定質問に対してステップS521、S522の処理が完了していない場合(No)にはステップS521に戻り、完了した場合(Yes)にはステップS524に進む。
【0066】
ステップS524では、ステップS523で算出した評価値のうち、最大のものに対応する限定質問を抽出する。
【0067】
このステップで抽出した限定質問に基づいて質問集合を2つの部分集合に分割する(ステップS525)。
【0068】
次のステップS526での処理は、全質問集合についてステップS525での処理が完了したか否かを判断するものである。全質問集合について完了した場合(Yes)には、続くステップS531に進む。他方、完了していない場合(No)には、ステップS521に戻って、そのステップS521からの処理を繰り返す。1回目のループでの処理の場合には、質問集合は1つなので、処理はステップS531に進むことになる。
【0069】
ステップS531では、上記で分割した部分集合のうち、要素保有部分集合を抽出する(ステップS531)。要素保有部分集合の定義は、第1の実施形態と同じである。
【0070】
ステップS531で要素保有部分集合を抽出したか否かを判断し、要素保有部分集合を抽出したと判断した場合(Yes)、処理はステップS533に移り、抽出しないと判断した場合(No)、処理はステップS541に進む(ステップS532)。ここで、要素保有部分集合を抽出したか否かの判断の仕方は、本発明の第1の実施形態と同じである。
【0071】
ステップS534で要素保有部分集合を抽出したと判断した場合、レベルを1増加させる(ステップS533)。1回目のループの場合、レベルは「2」になる。レベルの値を増加させた後、ステップS531で抽出した各要素保有部分集合に対して、各要素保有部分集合における回答が最も容易な限定質問を抽出し(ステップS534)、ステップS521の処理に戻る。これに際して、要素保有部分集合を新たに質問集合とみなし、上記のステップS521からS534までの処理を繰り返す。
【0072】
図6においては、限定質問Q21とQ22が、ステップS534で抽出される。上記のステップS521からS534までのループ処理を繰り返して、全ての部分集合が空集合となった場合、ステップS532で処理はステップS541に進む。
【0073】
全ての部分集合が空集合となった場合、すなわちステップS532で部分集合が「抽出していない」と判断した場合、各空集合に対してユーザ希望情報を割り当てる(ステップS541)。
【0074】
以上の処理が制御判断部32および評価値算出部35によって実行されることはいうまでもない。このうち、制御判断部32は、評価値算出部35で算出した評価値が最も高い限定質問を抽出する抽出手段、この抽出手段で抽出した限定質問を検索決定木の根に最も近接する節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割手段、この分割手段で分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出手段、前記分割手段で分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止手段としての機能を兼備している。
【0075】
以上説明した本発明の第2の実施形態によれば、質問の容易度情報および情報利得に応じた評価値を算出し、その評価値の高い順番に検索決定木の根から葉の方向に質問を配置することによって、質問の容易度(または難易度)を考慮して質問を配置した検索決定木を生成することができる。
【0076】
なお、本実施形態では、検索決定木生成装置を用いて上記のステップS511からステップS541に至る各ステップでの処理を行う検索決定木生成方法について説明したが、これらの各ステップを含む検索決定木生成処理を実行させるための検索決定木生成プログラムがインストールされた所定のコンピュータを用いて実施しても同様の効果を得ることができる。
【0077】
【発明の効果】
以上の説明からも明らかなように、本発明によれば、質問の難易度または容易度を考慮して質問を配置した検索決定木の生成を可能にする検索決定木生成方法、検索決定木生成装置、検索決定木生成プログラム、およびプログラム記録媒体を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る検索決定木生成装置の概略構成を示すブロック図である。
【図2】本発明の第1の実施形態に係る検索決定木生成における処理の流れを示すフローチャート図である。
【図3】本発明の第2の実施形態に係る検索決定木生成装置の概略構成を示すブロック図である。
【図4】訓練事例の一例を概念的に示す説明図である。
【図5】本発明の第2の実施形態に係る検索決定木生成における処理の流れを示すフローチャート図である。
【図6】検索決定木の一例を示す図である。
【符号の説明】
1、3 検索決定木生成装置
11 操作入力部
12、32 制御判断部
13 記憶部
14 出力部
35 評価値算出部
100 検索決定木[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a search decision tree generation method, a search decision tree generation device, a search decision tree generation program, a search decision tree generation program, and a program recording medium when a search is performed by answering a plurality of questions and a search decision tree representing an arrangement of questions is created. About.
[0002]
[Prior art]
FAQ (Frequently Asked Questions) means "Frequently Asked Questions". For example, a consumer who has purchased a home appliance such as a personal computer or a microwave oven cannot understand how to use the product, This is a question often asked in the event of a breakdown. The FAQ database is a database that summarizes a solution to what to do when there is an FAQ.
[0003]
Generally, a search decision tree is used to search for an answer such as an FAQ, and by answering a question arranged in a node of the search decision tree, a desired solution is searched from the FAQ database. Has become.
[0004]
A user who attempts to search for a desired solution from such an FAQ database first answers a question placed at the root, and then answers a question placed at a branch node corresponding to the answer. By repeating this procedure, the user can finally reach the leaf where the desired solution is located.
[0005]
This search decision tree is a kind of a design diagram representing a logical structure for searching a desired solution from an FAQ database, and is actually an HTML (Hyper Text Markup Language) used in the WWW (World Wide Web). ) As a document or the like, it has been realized on a computer or on a paper booklet. Then, the arrangement of the questions arranged in the nodes of the search decision tree is determined so that a solution having a high appearance frequency is searched earlier (for example, see Patent Document 1).
[0006]
[Patent Document 1]
JP-A-6-4292
[0007]
[Problems to be solved by the invention]
However, in such a conventional search decision tree generation technology, a question is arranged in a node of the search decision tree so that a solution having a higher appearance frequency is searched earlier, and the difficulty level of the question is not considered at all. In some cases, questions with high difficulty in answer are arranged near the beginning near the root of the search decision tree. In such a case, the search decision tree cannot be advanced after that question, and the answers cannot be narrowed down. Was.
[0008]
In addition, despite the fact that it may not be necessary to answer difficult questions when searching for solutions in the first place, users can answer questions of any difficulty with conventional technology. As a result, the user may not be able to obtain a desired answer in some cases.
[0009]
The present invention has been made to solve such a problem, and an object of the present invention is to generate a search decision tree that enables the generation of a search decision tree in which questions are arranged in consideration of the difficulty or ease of a question. A method, a search decision tree generation device, a search decision tree generation program, and a program recording medium are provided.
[0010]
[Means for Solving the Problems]
In order to achieve the above object, the invention according to claim 1 corresponds to a question set including a limited question arranged as a constituent element in each of a plurality of nodes that sequentially extend from a root of a search decision tree and cause branching. For a set of questions, a user as information desired by the user is placed on a leaf that is the end of a branch that is reached based on an answer sequentially input by the user with respect to a limited question arranged at each of the root and the plurality of clauses. A search decision tree generating method for generating a search decision tree by assigning desired information, comprising: a computer having a storage unit for storing information necessary for generating a search decision tree; An extraction step of reading ease information indicating the ease of answer from the storage unit and extracting a limited question with the easiest answer based on the read ease information; A dividing step of assigning the limited question extracted in the step to one of the vacant clauses among the clauses closest to the root of the search decision tree, and dividing a question set composed of a plurality of limited questions into two subsets; ) A subset extraction step of extracting a non-empty subset from the two subsets divided in this division step, and (d) extracting an empty set from the two subsets divided in the division step. And terminating the branches extending from the root by assigning user desired information corresponding to each of the sets to leaves.
[0011]
The invention according to claim 2 is that the subset which is not an empty set among the subsets extracted in the subset extraction step of (c) is newly set as a question set, and the extraction of (a) is performed for each of the question sets. The process from the step to the end step of (d) is recursively repeated. In the course of this repetition, when all the subsets divided in the division step of (b) are empty sets, the repetition is terminated. It is characterized by the following.
[0012]
The invention according to claim 3 is that, out of the question set having limited questions arranged at each of a plurality of nodes that extend from the root of the search decision tree and form a branch, the question set corresponding to the root and the question A search decision made by allocating user desired information as information desired by the user to a leaf which is the end of a branch arriving based on an answer sequentially input by the user with respect to the limited questions arranged in each of the plurality of clauses A search decision tree generation method for generating a tree, comprising: a computer having a storage unit for storing information necessary for generating a search decision tree; Based on the training case information composed of the cases and the question set related to the training case information, an information gain indicating a difference between the information amounts before and after the limited question of the entire training case is calculated. (B) reading from the storage unit the information gain calculated in the information gain calculation step and the ease information indicating the ease of answering each of the limited questions, and the read information gain and ease information An evaluation value calculating step of calculating an evaluation value for each limited question based on the (c) an extraction step of reading out and extracting the limited question having the highest evaluation value calculated in the evaluation value calculating step from the storage unit; (D) Assigning the limited question extracted in this extraction step to an empty node among the clauses closest to the root of the search decision tree, and dividing the set of limited questions composed of a plurality of limited questions into two subsets (E) a subset extracting step of extracting a non-empty subset from each of the subsets divided in this division step; Ending a branch extending from the root by extracting an empty set from each of the subsets divided by the step, assigning user desired information corresponding to each of the extracted empty sets to a leaf, and ending the branch extending from the root. It is characterized by executing.
[0013]
The invention according to claim 4 is that the subset which is not an empty set among the subsets extracted in the subset extraction step of (e) is newly set as a question set, and the extraction of (a) is performed for each of the question sets. The process from the step to the end step (f) is recursively repeated. In the course of this repetition, when all the subsets divided in the division step (d) are empty sets, the repetition ends. It is characterized by the following.
[0014]
The invention according to claim 5 is characterized in that the evaluation value calculated in the evaluation value calculating step is a value obtained by adding the information gain and the ease information at a predetermined ratio.
[0015]
The invention according to claim 6 is that, among the question sets each including a limited question arranged at each of a plurality of nodes that extend from the root of the search decision tree and form a branch, the root and the question A search decision made by allocating user desired information as information desired by the user to a leaf which is the end of a branch arriving based on an answer sequentially input by the user with respect to the limited questions arranged in each of the plurality of clauses A search decision tree generating apparatus for generating a tree, wherein storage means for storing information necessary for generating a search decision tree, and readability information indicating ease of answer to each limited question are read from the storage means. Based on the read ease information, extracting means for extracting a limited question with the easiest answer, and extracting the limited question extracted by the extracting means from the nodes closest to the root of the search decision tree. Dividing means for dividing a set of limited questions composed of a plurality of limited questions into two subsets, and extracting a non-empty subset from each of the subsets divided by the dividing means Extracting means, extracting an empty set from each of the subsets divided by the dividing means, assigning user desired information corresponding to each of the extracted empty sets to a leaf, thereby branching the branch extending from the root. And terminating means for terminating.
[0016]
The invention according to claim 7, wherein, among the question sets each including a limited question arranged at each of a plurality of nodes that extend sequentially from the root of the search decision tree and form a branch, the root and the question A search decision made by allocating user desired information as information desired by the user to a leaf which is the end of a branch arriving based on an answer sequentially input by the user with respect to the limited questions arranged in each of the plurality of clauses A search decision tree generating apparatus for generating a tree, comprising: storage means for storing information necessary for generating a search decision tree; and a training case comprising a plurality of training cases in which answers to each of the limited questions are combined. Information gain calculating means for calculating an information gain indicating a difference between the information amounts before and after the limited question of the entire training case based on the information and the question set related to the training case information. Evaluation value calculating means for calculating an evaluation value for each limited question based on the information gain calculated by the information gain calculating means and ease information indicating the ease of answering each limited question; Extracting means for extracting a limited question having the highest evaluated value, and assigning the limited question extracted by the extracting means to a vacant node among the nodes closest to the root of the search decision tree, and forming a limited question composed of a plurality of limited questions. A dividing means for dividing the set of questions into two subsets, a subset extracting means for extracting a non-empty subset from each of the subsets divided by the dividing means, and an empty set from each of the subsets divided by the dividing means Terminating means for terminating a branch extending from the root by extracting a set and assigning user desired information corresponding to each of the extracted empty sets to a leaf. The features.
[0017]
The invention according to claim 8 is characterized in that the evaluation value calculated by the evaluation value calculation means is a value obtained by adding the information gain and the ease information at a predetermined ratio.
[0018]
The invention according to claim 9 is a query set having limited questions arranged at each of a plurality of nodes that extend sequentially from the root of the search decision tree and form a branch, and for the corresponding question set, A search decision made by allocating user desired information as information desired by the user to a leaf which is the end of a branch arriving based on an answer sequentially input by the user with respect to the limited questions arranged in each of the plurality of clauses A search decision tree generating program for generating a tree, the computer having a storage unit for storing information necessary for generating the search decision tree; An extraction step of extracting information from the storage unit and extracting a limited question with the easiest answer based on the read ease information; and (b) extracting in the extraction step A dividing step of assigning the fixed question to one of the vacant clauses among the clauses closest to the root of the search decision tree, and dividing the question set composed of a plurality of limited questions into two subsets; (D) extracting an empty set from the two subsets divided in the dividing step, and extracting a non-empty subset from the two subsets And ending a branch extending from the root by allocating corresponding user desired information to make a leaf.
[0019]
The invention according to claim 10 is that, among the subsets extracted in the subset extraction step of (c), a non-empty subset is newly set as a question set, and the extraction of (a) is performed for each of the question sets. The process from the step to the end step of (d) is recursively repeated. In the course of this repetition, when all the subsets divided in the division step of (b) are empty sets, the repetition is terminated. It is characterized by the following.
[0020]
The invention according to claim 11, wherein, among the question sets each including a limited question arranged at each of a plurality of nodes that extend from the root of the search decision tree and cause branching, a question set corresponding to the root and the question A search decision made by allocating user desired information as information desired by the user to a leaf which is the end of a branch arriving based on an answer sequentially input by the user with respect to the limited questions arranged in each of the plurality of clauses A search decision tree generation program for generating a tree, comprising: a computer having a storage unit for storing information necessary for generating a search decision tree; Based on training case information composed of cases and a set of questions related to the training case information, information indicating a difference between the information amounts before and after the limited question of the entire training case. An information gain calculation step of calculating the gain; and (b) reading the information gain calculated in the information gain calculation step and ease information indicating the ease of answering each of the limited questions from the storage unit. An evaluation value calculating step of calculating an evaluation value for each limited question based on the degree of ease information; and (c) extracting the limited question having the highest evaluation value calculated in the evaluation value calculating step from the storage unit and extracting it. And (d) assigning the limited question extracted in this extraction step to a vacant clause among the clauses closest to the root of the search decision tree, and converting a set of limited questions composed of a plurality of limited questions into two subsets A dividing step of dividing, and (e) a subset extracting step of extracting a non-empty subset from each of the subsets divided in the dividing step; A termination step of terminating a branch extending from the root by extracting an empty set from each of the subsets divided in the dividing step and assigning user desired information corresponding to each of the extracted empty sets to a leaf; Are executed.
[0021]
According to the twelfth aspect of the present invention, the non-empty subset among the subsets extracted in the subset extraction step of (c) is newly set as a question set, and the extraction of (a) is performed for each of the question sets. The process from the step to the end step (f) is recursively repeated. In the course of this repetition, when all the subsets divided in the division step (d) are empty sets, the repetition ends. It is characterized by the following.
[0022]
The invention according to claim 13 is characterized in that the evaluation value calculated in the evaluation value calculation step is a value obtained by adding the information gain and the ease information at a predetermined ratio.
[0023]
According to a fourteenth aspect of the present invention, the search decision tree generating program according to any one of the ninth to thirteenth aspects is recorded.
[0024]
The program recording medium in the present invention means a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM (Compact Disc Only Only Memory), a DVD (Digital Versatile Disk), a magneto-optical disk, and a PC card.
[0025]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.
[0026]
(1st Embodiment)
FIG. 1 is a block diagram showing a schematic configuration of the search decision tree generation device according to the first embodiment of the present invention. The search decision tree generation device 1 illustrated in FIG. 1 includes information on the ease of answer to a question (hereinafter, referred to as a “limited question”) arranged in each section of the search decision tree (hereinafter, simply referred to as “easiness information”). An operation input unit 11 for inputting and operating predetermined information including, a control determining unit 12 for performing control and determination for generating a search decision tree in accordance with an input or operation from the operation input unit, It is configured to include a storage unit 13 (serving as a storage unit) for storing information and an output unit 14 for outputting the search decision tree generated by the control determination unit 12 to the outside.
[0027]
Here, the operation input unit 11 includes, for example, a keyboard, a mouse, a CD (Computer Disc) drive, etc., and allows the user to input information stored in the storage unit 13 and instructs the control determination unit 12 to perform processing. Is performed.
[0028]
The storage unit 13 stores information necessary for generating a search decision tree, and includes a limited question, information assigned to a leaf of the search decision tree (hereinafter, referred to as “user desired information”), and ease level information. Is stored. In the following, a set of limited questions composed of a plurality of limited questions is simply referred to as a “question set”.
[0029]
The storage unit 13 includes a main storage unit including a random access memory (RAM), a hard disk drive, a flexible disk drive, a compact disc read only memory (CD-ROM) drive, and a digital versatile disk (DVD) drive. , An auxiliary storage unit including a magneto-optical disk drive, a PC (Personal Computer) card drive, and the like, and a memory area necessary for storing a calculation result described later as needed is secured.
[0030]
The output unit 14 outputs the search decision tree generated by the control determination unit 12 to the outside, and includes an output device such as a liquid crystal display. Further, the predetermined information stored in the storage unit 13 may be output to an external device via the control determination unit 12. The output instruction is input through the operation input unit 11 and is performed under the control of the control determination unit 12.
[0031]
The control determination unit 12 reads information stored in the storage unit 13 in response to an operation from the operation input unit 11, generates a search decision tree based on the read information, and controls the output unit 14 to generate the search decision tree. The search decision tree is output to the outside. Further, the control determination unit 12 may perform other control operations and determination operations for controlling the storage unit 13 and the output unit 14. As is clear from the operation described here, the control determination unit 12 is configured by a central processing unit (CPU: Central Processing Unit).
[0032]
FIG. 2 is a flowchart illustrating the flow of the search decision tree generation process according to the first embodiment of the present invention. The search decision tree generation method according to the present embodiment will be specifically described with reference to FIG.
[0033]
Hereinafter, as an example of the search decision tree, the search decision tree 100 shown in FIG. 6 will be referred to as appropriate. The root R of this search decision tree 100 11 And Section N mn Has a limited question Q 11 And Q mn Are arranged, and the root R 11 L which is the end of the branch extending from n Contains solution A n Is given as an answer. Section N mn , The subscript m matches the value of the level, and the subscript n is an integer ordered for each level. In the case shown in FIG. n Is p (p is a positive integer). Note that, in the figure, i, j and k are positive integers.
[0034]
First, a value of a level, which is a scale starting from a root of a search decision tree and proceeding from a node to a leaf, is set to 1 (step S211). In the case of the search decision tree 100 shown in FIG. 11 Is set to “1”, and the value of the level increases by one as each branch advances one toward the leaf. In FIG. 6, the root R 11 Q for limited questions in 11 And If the user has root R 11 Question Q 11 , The level advances to "2", and the level value is increased by 1 each time an answer is made. The smaller the level value, the more the root R 11 It goes without saying that it is close to
[0035]
Next, based on the degree-of-easiness information, a limited question with the easiest answer is extracted from the question set stored in the storage unit 13 (step S212). In the case of FIG. 11 Is extracted.
[0036]
The processing from steps S221 to S226 forms a loop. First, the question set is divided into two subsets based on the limited question extracted in step S212 (step S221).
[0037]
In the next step S222, it is determined whether or not the processing in step S221 has been completed for all question sets. In the case of the processing in the first loop (level 1), the number of question sets is one, and since the division has already been completed (Yes), the process proceeds to step S223. If the division of the question set has not been completed in another level loop (No), the process returns to step S221 and the same processing is repeated.
[0038]
Next, a subset that is not an empty set (hereinafter, referred to as an “element holding subset”) is extracted from the subsets divided in step S221 (step S223).
[0039]
In step S224, it is determined whether or not the element holding subset has been extracted. If it is determined that the element holding subset has been extracted, the process proceeds to step S225. If it is determined that the element holding subset has not been extracted, the process proceeds to step S231 (step S224). . Here, it is determined whether or not an element holding subset is extracted. If at least one subset that is not an empty set exists, it is determined that “extracted”. If all subsets are empty sets, Not extracted ".
[0040]
For example, in the case shown in FIG. 21 (Limited Question Q 21 Are arranged), the next level is a node, so the extracted subset corresponds to a case including a non-empty set. Therefore, in this case, it is determined that the element holding subset is “extracted”, and the process proceeds to step S225. On the other hand, section N at level 4 42 (Limited Question Q 42 Is equivalent to the case where all the extracted subsets are empty sets. In this case, it is determined that the element holding subset is “not extracted”, and the process proceeds to step S231.
[0041]
If it is determined in step S224 that the element holding subset has been extracted, the level value is increased by 1 (step S225). In the first loop, the level value becomes “2” by this processing.
[0042]
After increasing the level, for each of the element holding subsets extracted in step S223, a limited question with the easiest answer is extracted (step S226), and the process returns to step S221. In the example shown in FIG. 6, in step S226 of level 2, the restricted question Q 21 And Q 22 Is extracted.
[0043]
Thereafter, the extracted element holding subset is regarded as a question set again, and the above-described steps S221 to S226 are recursively repeated.
[0044]
When the loop processing from the above steps S221 to S226 is repeated and all the subsets become empty sets, it is determined in step S224 that "no extraction has been made", and the process proceeds to step S231. In this case, information corresponding to each empty set is assigned (step S231). In this step, the leaf L as the end of the branch n Is information that the user obtains in response to each other, that is, information desired by the user, and is referred to as “user desired information” as described above.
[0045]
In FIG. 6, the user request information corresponds to A assigned to the leaf of level 4. 1 , Level 5 leaves L 2 , L 3 A assigned to each 2 , A 3 , Level i-1 leaf L p-2 A assigned to p-2 , Level i leaves L p-1 , L p A assigned to each p-1 , A p (Where i is a positive integer).
[0046]
Needless to say, the above processing is executed by the control determination unit 12. In this sense, the control determination unit 12 reads out the ease information indicating the ease of answering each limited question from the storage unit, and extracts the limited question with the easiest answer based on the read ease information. Extracting means for assigning the limited question extracted by the extracting means to an empty node among the clauses closest to the root of the search decision tree, and dividing the set of limited questions composed of a plurality of limited questions into two subsets A subset extracting unit for extracting a non-empty subset from each of the subsets divided by the dividing unit; extracting an empty set from each of the subsets divided by the dividing unit; and corresponding to each of the extracted empty sets. By allocating the user desired information to the leaves, it also has a function as a terminating means for terminating the branch extending from the root.
[0047]
According to the first embodiment of the present invention described above, the limited questions are arranged in the order from the root of the search decision tree to the leaves in the order in which the answers are easy based on the limited question ease information. (Or difficulty), a search decision tree in which limited questions are arranged can be generated.
[0048]
In the present embodiment, the search decision tree generation method for performing the processing in each of the steps from step S211 to step S231 using the search decision tree generation device has been described. However, the search decision tree including these steps is described. Similar effects can be obtained by using a predetermined computer in which a search decision tree generation program for executing the generation process is installed.
[0049]
In addition, the various processes according to the present embodiment are executed not only by one electronic device but also by a system constructed from two or more electronic devices by dividing the execution of each step as appropriate. Includes cases where In this sense, the “search decision tree generation device” according to the present embodiment is configured by one or a plurality of computers (systems). This point is common to all embodiments of the present invention.
[0050]
By the way, a computer-readable program recording medium recording the above-described search decision tree generation program is mounted on a computer, and the computer executes the above-described processing by reading the program stored in the program recording medium. It may be. Here, as a “computer-readable” program recording medium, a hard disk, a flexible disk, a CD-ROM, a DVD, a magneto-optical disk, a PC card, or the like can be used. By providing such a program recording medium, the search decision tree generation program of the present embodiment can be widely distributed. This point is also common to all embodiments of the present invention.
[0051]
(Second embodiment)
FIG. 3 is a block diagram showing a schematic configuration of the search decision tree generation device according to the second embodiment of the present invention. The search decision tree generation device 3 shown in the figure has a configuration in which an evaluation value calculation unit 35 is added to the search decision tree generation device 1 according to the first embodiment of the present invention. Here, among the components of the search decision tree generation device 3 according to the present embodiment, portions having the same configuration as the search decision tree generation device 1 are assigned the same numbers, and descriptions thereof are omitted.
[0052]
In FIG. 3, it is assumed that, in addition to the predetermined information including the ease information in the first embodiment, training case information is also input from the operation input unit 11. Here, the “training case” is a combination of the answers to the individual limited questions (1, 2, 3,..., R) in the question set, as shown in Table 50 of FIG. As shown in Table 50, a set composed of a plurality of training cases (1, 2,..., P) is referred to as “training case information”.
[0053]
The training case information input via the operation input unit 11 is stored in the storage unit 13 via the control determination unit 32.
[0054]
The evaluation value calculation unit 35 calculates the information gain based on the question set and the training case information.
G (Q k , T) = I (T) -I (Q k , T) (1)
Is calculated. Here, I (T) is the information amount of the entire training case information T, and I (Q) k , T) means that T is a limited question Q k By the subset S i Indicates the amount of information in a divided state,
(Equation 1)
Figure 2004341928
It is expressed as In equation (2), C j (J = 1,..., M; M is a positive integer) is user desired information, and | C j | Is the number of cases included in each user's desired information. In Expression (3), | T | is the number of pieces of training case information, and S i (J = 1,..., N; N is a positive integer) indicates that the training case information T k Each subset in the case of being divided by is shown.
[0055]
Thereafter, the evaluation value calculation unit 35 calculates the information gain G (Q k , T) and a limited question Q given based on the ease information k Of answer to the question F (Q k ), And the limited question Q k Evaluation value E (Q k ) Is calculated. Therefore, the evaluation value calculation unit 35 has both functions of an information gain calculation unit and an evaluation value calculation unit.
[0056]
Evaluation value E (Q k ) Is, for example, as shown in the following equation, information gain G (Q k , T) and ease F (Q k ) Can be used in a given ratio:
E (Q k ) = G (Q k , T) + λF (Q k ) (4)
Here, λ is the ease F (Q k ) Is a parameter for adjusting the contribution, and takes a positive value. Note that the ease F (Q k ) May be any index that indicates a value that is higher as the answer is easier. For example, a survey of the response rate is performed on limited questions in advance, and a predetermined value such as the reciprocal of the response rate obtained as a result is obtained. May be calculated using the following function.
[0057]
By the way, the information gain G (Q k , T) is a limited question Q for the training case information T, as can be seen from the definition of equation (1). k Represents the difference in the amount of information before and after the question. Therefore, the information gain G (Q k , T) instead of the gain ratio GR (Q k , T) can also be employed. Gain ratio GR (Q k , T) is a quantity defined as follows:
(Equation 2)
Figure 2004341928
[0058]
In fact, the information gain G (Q k , T), a limited question Q that takes a larger number of values (user desired information) k The gain ratio GR (Q k , T), there is a possibility that the user desired information having a relatively high appearance frequency can be reached earlier. Note that the definition of the user desired information is the same as in the first embodiment.
[0059]
Also, the gain ratio GR (Q k , T) is the information gain G (Q k , T) to SI (Q k , T) (see equation (5)), and by using such a value, it is possible to suppress the algorithm for generating the search decision tree so that the division is not made too fine. Become.
[0060]
Based on the above, in the following description, the information gain G (Q k , T) instead of the gain ratio GR (Q k , T) may be used.
[0061]
FIG. 5 is a flowchart illustrating the flow of a search decision tree generation process according to the second embodiment of the present invention. The search decision tree generation method according to the present embodiment will be specifically described with reference to FIG. In the following, the information gain G (Q k , T) and ease F (Q k ) And the evaluation value E (Q k ) Is represented by the above-described expression (4) as an example.
[0062]
First, the value of the parameter λ in the equation (4) is determined (step S511), and the level value, which is a scale starting from the root of the search decision tree and progressing toward the leaves, is set to 1 (step S512). Again, as a specific example of level 1, the root R of the search decision tree 100 shown in FIG. 11 Level.
[0063]
Next, one limited question is extracted from the question set stored in the storage unit 13 (step S513).
[0064]
The processing from steps S521 to S534 forms a loop. First, the information gain G (Q k , T) is calculated (step S521), and the evaluation value E (Q k ) Is calculated (step S522).
[0065]
The processes in steps S521 and S522 are repeated until all the limited questions are completed (step S523). That is, in this step, if the processes of steps S521 and S522 have not been completed for all the limited questions (No), the process returns to step S521, and if completed (Yes), the process proceeds to step S524.
[0066]
In step S524, a limited question corresponding to the largest evaluation value is extracted from the evaluation values calculated in step S523.
[0067]
The question set is divided into two subsets based on the limited questions extracted in this step (step S525).
[0068]
The process in the next step S526 is for determining whether or not the process in step S525 has been completed for all question sets. If all question sets have been completed (Yes), the process proceeds to the subsequent step S531. On the other hand, if it has not been completed (No), the process returns to step S521, and the processing from step S521 is repeated. In the case of the processing in the first loop, since there is one question set, the processing proceeds to step S531.
[0069]
In step S531, an element holding subset is extracted from among the subsets divided above (step S531). The definition of the element holding subset is the same as in the first embodiment.
[0070]
It is determined in step S531 whether or not the element holding subset has been extracted. If it is determined that the element holding subset has been extracted (Yes), the process proceeds to step S533. Goes to step S541 (step S532). Here, the method of determining whether or not the element holding subset has been extracted is the same as in the first embodiment of the present invention.
[0071]
If it is determined in step S534 that the element holding subset has been extracted, the level is increased by 1 (step S533). In the case of the first loop, the level is “2”. After increasing the value of the level, for each of the element holding subsets extracted in step S531, a limited question that is the easiest to answer in each element holding subset is extracted (step S534), and the process returns to step S521. . At this time, the element holding subset is regarded as a new question set, and the above-described processing from steps S521 to S534 is repeated.
[0072]
In FIG. 6, the limited question Q 21 And Q 22 Is extracted in step S534. When the loop processing from the above steps S521 to S534 is repeated and all subsets become empty sets, the process proceeds to step S541 in step S532.
[0073]
If all the subsets are empty sets, that is, if it is determined in step S532 that the subsets have not been extracted, user preference information is assigned to each empty set (step S541).
[0074]
Needless to say, the above processing is executed by the control determining unit 32 and the evaluation value calculating unit 35. Among them, the control judging unit 32 extracts the limited question having the highest evaluation value calculated by the evaluation value calculating unit 35, and extracts the limited question extracted by the extracting unit out of the nodes closest to the root of the search decision tree. Dividing means for dividing a set of limited questions composed of a plurality of limited questions into two subsets, and extracting a non-empty subset from each of the subsets divided by the dividing means Means for extracting an empty set from each of the subsets divided by the dividing means, assigning user desired information corresponding to each of the extracted empty sets to a leaf, and terminating the branch extending from the root. It also has a function as a termination means.
[0075]
According to the second embodiment of the present invention described above, an evaluation value is calculated in accordance with the ease information and information gain of a question, and the questions are arranged in the descending order of the evaluation values in the direction from the root of the search decision tree to the leaves. By doing so, it is possible to generate a search decision tree in which questions are arranged in consideration of the ease (or difficulty) of the questions.
[0076]
In the present embodiment, the search decision tree generation method for performing the processing in each of the steps from step S511 to step S541 using the search decision tree generation device has been described, but the search decision tree including these steps is described. Similar effects can be obtained by using a predetermined computer in which a search decision tree generation program for executing the generation process is installed.
[0077]
【The invention's effect】
As is apparent from the above description, according to the present invention, a search decision tree generation method and a search decision tree generation method capable of generating a search decision tree in which questions are arranged in consideration of the difficulty or ease of a question An apparatus, a search decision tree generation program, and a program recording medium can be provided.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a schematic configuration of a search decision tree generation device according to a first embodiment of the present invention.
FIG. 2 is a flowchart illustrating a flow of processing in generating a search decision tree according to the first embodiment of the present invention.
FIG. 3 is a block diagram illustrating a schematic configuration of a search decision tree generation device according to a second embodiment of the present invention.
FIG. 4 is an explanatory diagram conceptually showing an example of a training case.
FIG. 5 is a flowchart illustrating a processing flow in search decision tree generation according to a second embodiment of the present invention.
FIG. 6 is a diagram illustrating an example of a search decision tree.
[Explanation of symbols]
1, 3 search decision tree generator
11 Operation input section
12, 32 control judgment unit
13 Memory
14 Output section
35 Evaluation value calculation unit
100 search decision tree

Claims (14)

検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成方法であって、
検索決定木を生成するために必要な情報を記憶する記憶部を備えたコンピュータが、
(イ)各限定質問に対する回答の容易さを示す容易度情報を前記記憶部から読み出し、この読み出した容易度情報に基づいて、回答が最も容易な限定質問を抽出する抽出ステップと、
(ロ)この抽出ステップで抽出した限定質問を検索決定木の根に最も近い節のうち空いている節のいずれかに割り当て、複数の限定質問から構成される質問集合を二つの部分集合に分割する分割ステップと、
(ハ)この分割ステップで分割した二つの部分集合から空集合でない部分集合を抽出する部分集合抽出ステップと、
(ニ)前記分割ステップで分割した二つの部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止ステップと
を実行することを特徴とする検索決定木生成方法。
Of the question sets having limited questions arranged as components in each of a plurality of clauses sequentially extending from the root of the search decision tree and forming a branch, a corresponding question set is assigned to each of the root and the plurality of clauses. Tree that generates user-determined information by assigning user-desired information as information desired by the user to leaves at the ends of branches that are reached based on answers sequentially input by the user in response to limited questions The method,
A computer including a storage unit that stores information necessary for generating a search decision tree,
(A) an extraction step of reading ease information indicating the ease of answer to each limited question from the storage unit and extracting a limited question with the easiest answer based on the read ease information;
(B) Assigning the limited question extracted in this extraction step to one of the free nodes among the clauses closest to the root of the search decision tree, and dividing the question set composed of a plurality of limited questions into two subsets Steps and
(C) a subset extraction step of extracting a non-empty subset from the two subsets divided in this division step;
(D) An empty set is extracted from the two subsets divided in the dividing step, and user-desired information corresponding to each of the extracted empty sets is assigned as a leaf, so that a branch extending from the root is obtained. Performing a terminating step of terminating the search decision tree.
前記(ハ)の部分集合抽出ステップで抽出した部分集合のうち空集合でない部分集合を改めて質問集合として、この質問集合の各々に対して、前記(イ)の抽出ステップから前記(ニ)の終止ステップに至るまでの処理を再帰的に繰り返し、
この繰り返しの過程において、前記(ロ)の分割ステップで分割した部分集合が全て空集合であるとき、繰り返しを終了すること
を特徴とする請求項1記載の検索決定木生成方法。
Of the subsets extracted in the subset extraction step of (c), a subset that is not an empty set is again set as a question set. For each of the question sets, the extraction step of (a) and the termination of (d) are performed. Recursively repeat the process up to the step,
2. The search decision tree generation method according to claim 1, wherein in the repetition process, when all of the subsets divided in the division step (b) are empty sets, the repetition is terminated.
検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成方法であって、
検索決定木を生成するために必要な情報を記憶する記憶部を備えたコンピュータが、
(イ)各限定質問に対する回答を組み合せて成る複数の訓練事例から構成される訓練事例情報と、当該訓練事例情報に係る質問集合とに基づいて、前記訓練事例全体の限定質問前と限定質問後の情報量の差を示す情報利得を算出する情報利得算出ステップと、
(ロ)この情報利得算出ステップで算出した情報利得と各限定質問に対する回答の容易さを示す容易度情報を前記記憶部から読み出し、この読み出した情報利得と容易度情報に基づいて、各限定質問に対する評価値を算出する評価値算出ステップと、
(ハ)この評価値算出ステップで算出した評価値が最も高い限定質問を前記記憶部から読み出して抽出する抽出ステップと、
(ニ)この抽出ステップで抽出した限定質問を検索決定木の根に最も近接する節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割ステップと、
(ホ)この分割ステップで分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出ステップと、
(へ)前記分割ステップで分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止ステップと
を実行することを特徴とする検索決定木生成方法。
Of the question sets having limited questions arranged as components in each of a plurality of clauses sequentially extending from the root of the search decision tree and forming a branch, a corresponding question set is assigned to each of the root and the plurality of clauses. Tree that generates user-determined information by assigning user-desired information as information desired by the user to leaves at the ends of branches that are reached based on answers sequentially input by the user in response to limited questions The method,
A computer including a storage unit that stores information necessary for generating a search decision tree,
(A) Based on training case information composed of a plurality of training cases in which answers to each limited question are combined and a set of questions related to the training case information, before and after the limited question of the entire training case An information gain calculation step of calculating an information gain indicating a difference in the information amount of,
(B) The information gain calculated in the information gain calculation step and the ease information indicating the ease of answering each of the limited questions are read from the storage unit, and based on the read information gain and the ease information, each limited question is read. An evaluation value calculating step of calculating an evaluation value for
(C) an extraction step of reading out and extracting the limited question having the highest evaluation value calculated in this evaluation value calculation step from the storage unit;
(D) Assigning the limited question extracted in this extraction step to an empty node among the clauses closest to the root of the search decision tree, and dividing the set of limited questions composed of a plurality of limited questions into two subsets Steps and
(E) a subset extraction step of extracting a non-empty subset from each subset divided in this division step;
(F) The branches extending from the root are terminated by extracting an empty set from each of the subsets divided in the division step and assigning user desired information corresponding to each of the extracted empty sets to a leaf. And generating a search decision tree.
前記(ホ)の部分集合抽出ステップで抽出した部分集合のうち空集合でない部分集合を改めて質問集合として、この質問集合の各々に対して、前記(イ)の抽出ステップから前記(ヘ)の終止ステップに至るまでの処理を再帰的に繰り返し、
この繰り返しの過程において、前記(ニ)の分割ステップで分割した部分集合が全て空集合であるとき、繰り返しを終了すること
を特徴とする請求項3記載の検索決定木生成方法。
Among the subsets extracted in the subset extraction step of (e), a subset that is not an empty set is again set as a question set. For each of the question sets, the extraction step of (a) to the end of (f) are performed. Recursively repeat the process up to the step,
4. The search decision tree generation method according to claim 3, wherein in the repetition process, the repetition is terminated when all the subsets divided in the division step (d) are empty sets.
前記評価値算出ステップで算出する評価値は、前記情報利得および前記容易度情報を所定の比率で加算した値であることを特徴とする請求項3または4記載の検索決定木生成方法。The method according to claim 3, wherein the evaluation value calculated in the evaluation value calculation step is a value obtained by adding the information gain and the ease information at a predetermined ratio. 検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成装置であって、
検索決定木を生成するために必要な情報を記憶する記憶手段と、
各限定質問に対する回答の容易さを示す容易度情報を前記記憶手段から読み出し、この読み出した容易度情報に基づいて、回答が最も容易な限定質問を抽出する抽出手段と、
この抽出手段で抽出した限定質問を検索決定木の根に最も近い節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割手段と、
この分割手段で分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出手段と、
前記分割手段で分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止手段と
を備えたことを特徴とする検索決定木生成装置。
Of the question sets having limited questions arranged as components in each of a plurality of clauses sequentially extending from the root of the search decision tree and forming a branch, a corresponding question set is assigned to each of the root and the plurality of clauses. Tree that generates user-determined information by assigning user-desired information as information desired by the user to leaves at the ends of branches that are reached based on answers sequentially input by the user in response to limited questions A device,
Storage means for storing information necessary for generating a search decision tree;
Extracting means for reading ease information indicating the ease of answer to each limited question from the storage means, and extracting a limited question with the easiest answer based on the read ease information;
Dividing means for assigning the limited question extracted by the extracting means to an empty node among the clauses closest to the root of the search decision tree, and dividing a set of limited questions composed of a plurality of limited questions into two subsets;
Subset extracting means for extracting a non-empty subset from each subset divided by the dividing means;
A terminating means for terminating a branch extending from the root by extracting an empty set from each of the subsets divided by the dividing means and assigning user desired information corresponding to each of the extracted empty sets to a leaf; And a search decision tree generation device.
検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成装置であって、
検索決定木を生成するために必要な情報を記憶する記憶手段と、
各限定質問に対する回答を組み合せて成る複数の訓練事例から構成される訓練事例情報と、当該訓練事例情報に係る質問集合とに基づいて、前記訓練事例全体の限定質問前と限定質問後の情報量の差を示す情報利得を算出する情報利得算出手段と、
この情報利得算出手段で算出した情報利得と各限定質問に対する回答の容易さを示す容易度情報に基づいて、各限定質問に対する評価値を算出する評価値算出手段と、
この評価値算出手段で算出した評価値が最も高い限定質問を抽出する抽出手段と、
この抽出手段で抽出した限定質問を検索決定木の根に最も近接する節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割手段と、
この分割手段で分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出手段と、
前記分割手段で分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止手段と
を備えたことを特徴とする検索決定木生成装置。
Of the question sets having limited questions arranged as components in each of a plurality of clauses sequentially extending from the root of the search decision tree and forming a branch, a corresponding question set is assigned to each of the root and the plurality of clauses. Tree that generates user-determined information by assigning user-desired information as information desired by the user to leaves at the ends of branches that are reached based on answers sequentially input by the user in response to limited questions A device,
Storage means for storing information necessary for generating a search decision tree;
Based on training case information composed of a plurality of training cases in which answers to each limited question are combined, and a set of questions related to the training case information, the information amount before the limited question and after the limited question of the entire training case Information gain calculating means for calculating an information gain indicating the difference between
Evaluation value calculating means for calculating an evaluation value for each limited question, based on the information gain calculated by the information gain calculating means and the ease information indicating the ease of answering each limited question,
Extracting means for extracting a limited question having the highest evaluation value calculated by the evaluation value calculating means;
Dividing means for allocating the limited question extracted by the extracting means to an empty one of the clauses closest to the root of the search decision tree, and dividing a set of limited questions composed of a plurality of limited questions into two subsets;
Subset extracting means for extracting a non-empty subset from each subset divided by the dividing means;
A terminating means for terminating a branch extending from the root by extracting an empty set from each of the subsets divided by the dividing means and assigning user desired information corresponding to each of the extracted empty sets to a leaf; And a search decision tree generation device.
前記評価値算出手段で算出する評価値は、前記情報利得および前記容易度情報を所定の比率で加算した値であることを特徴とする請求項7記載の検索決定木生成装置。8. The search decision tree generation device according to claim 7, wherein the evaluation value calculated by the evaluation value calculation means is a value obtained by adding the information gain and the ease information at a predetermined ratio. 検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成プログラムであって、
検索決定木を生成するために必要な情報を記憶する記憶部を備えたコンピュータに、
(イ)各限定質問に対する回答の容易さを示す容易度情報を前記記憶部から読み出し、この読み出した容易度情報に基づいて、回答が最も容易な限定質問を抽出する抽出ステップと、
(ロ)この抽出ステップで抽出した限定質問を検索決定木の根に最も近い節のうち空いている節のいずれかに割り当て、複数の限定質問から構成される質問集合を二つの部分集合に分割する分割ステップと、
(ハ)この分割ステップで分割した二つの部分集合から空集合でない部分集合を抽出する部分集合抽出ステップと、
(ニ)前記分割ステップで分割した二つの部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止ステップと
を実行させることを特徴とする検索決定木生成プログラム。
Of the question sets having limited questions arranged as components in each of a plurality of clauses sequentially extending from the root of the search decision tree and forming a branch, a corresponding question set is assigned to each of the root and the plurality of clauses. Tree that generates user-determined information by assigning user-desired information as information desired by the user to leaves at the ends of branches that are reached based on answers sequentially input by the user in response to limited questions A program,
A computer equipped with a storage unit for storing information necessary for generating a search decision tree,
(A) an extraction step of reading ease information indicating the ease of answer to each limited question from the storage unit and extracting a limited question with the easiest answer based on the read ease information;
(B) Assigning the limited question extracted in this extraction step to one of the free nodes among the clauses closest to the root of the search decision tree, and dividing the question set composed of a plurality of limited questions into two subsets Steps and
(C) a subset extraction step of extracting a non-empty subset from the two subsets divided in this division step;
(D) An empty set is extracted from the two subsets divided in the dividing step, and user-desired information corresponding to each of the extracted empty sets is assigned as a leaf, so that a branch extending from the root is obtained. And a terminating step for terminating the program.
前記(ハ)の部分集合抽出ステップで抽出した部分集合のうち空集合でない部分集合を改めて質問集合として、この質問集合の各々に対して、前記(イ)の抽出ステップから前記(ニ)の終止ステップに至るまでの処理を再帰的に繰り返し、
この繰り返しの過程において、前記(ロ)の分割ステップで分割した部分集合が全て空集合であるとき、繰り返しを終了すること
を特徴とする請求項9記載の検索決定木生成プログラム。
Of the subsets extracted in the subset extraction step of (c), a subset that is not an empty set is again set as a question set. For each of the question sets, the extraction step of (a) and the termination of (d) are performed. Recursively repeat the process up to the step,
10. The search decision tree generation program according to claim 9, wherein in the process of the repetition, when all of the subsets divided in the division step (b) are empty sets, the repetition is terminated.
検索決定木の根から順次延出して枝分かれを生じる複数の節の各々に配置される限定質問を構成要素とする質問集合のうち、該当する質問集合につき、前記根および前記複数の節の各々に配置される限定質問に対して順次ユーザが入力する回答に基づいて辿り着く枝の終端である葉に、前記ユーザが希望する情報としてのユーザ希望情報を割り当てて成る検索決定木を生成する検索決定木生成プログラムであって、
検索決定木を生成するために必要な情報を記憶する記憶部を備えたコンピュータに、
(イ)各限定質問に対する回答を組み合せて成る複数の訓練事例から構成される訓練事例情報と、当該訓練事例情報に係る質問集合とに基づいて、前記訓練事例全体の限定質問前と限定質問後の情報量の差を示す情報利得を算出する情報利得算出ステップと、
(ロ)この情報利得算出ステップで算出した情報利得と各限定質問に対する回答の容易さを示す容易度情報を前記記憶部から読み出し、この読み出した情報利得と容易度情報に基づいて、各限定質問に対する評価値を算出する評価値算出ステップと、
(ハ)この評価値算出ステップで算出した評価値が最も高い限定質問を前記記憶部から読み出して抽出する抽出ステップと、
(ニ)この抽出ステップで抽出した限定質問を検索決定木の根に最も近接する節のうち空いている節に割り当て、複数の限定質問から構成される限定質問の集合を2つの部分集合に分割する分割ステップと、
(ホ)この分割ステップで分割した各部分集合から空集合でない部分集合を抽出する部分集合抽出ステップと、
(へ)前記分割ステップで分割した各部分集合から空集合を抽出し、この抽出した空集合の各々に対応するユーザ希望情報を割り当てて葉とすることにより、前記根から延出した枝を終止する終止ステップと
を実行させることを特徴とする検索決定木生成プログラム。
Of the question sets having limited questions arranged as components in each of a plurality of clauses sequentially extending from the root of the search decision tree and forming a branch, a corresponding question set is assigned to each of the root and the plurality of clauses. Tree that generates user-determined information by assigning user-desired information as information desired by the user to leaves at the ends of branches that are reached based on answers sequentially input by the user in response to limited questions A program,
A computer equipped with a storage unit for storing information necessary for generating a search decision tree,
(A) Based on training case information composed of a plurality of training cases in which answers to each limited question are combined and a set of questions related to the training case information, before and after the limited question of the entire training case An information gain calculation step of calculating an information gain indicating a difference in the information amount of,
(B) The information gain calculated in the information gain calculation step and the ease information indicating the ease of answering each of the limited questions are read from the storage unit, and based on the read information gain and the ease information, each limited question is read. An evaluation value calculating step of calculating an evaluation value for
(C) an extraction step of reading out and extracting the limited question having the highest evaluation value calculated in this evaluation value calculation step from the storage unit;
(D) Assigning the limited question extracted in this extraction step to an empty node among the clauses closest to the root of the search decision tree, and dividing the set of limited questions composed of a plurality of limited questions into two subsets Steps and
(E) a subset extraction step of extracting a non-empty subset from each subset divided in this division step;
(F) The branches extending from the root are terminated by extracting an empty set from each of the subsets divided in the division step and assigning user desired information corresponding to each of the extracted empty sets to a leaf. And a terminating step of performing a search decision tree generation program.
前記(ハ)の部分集合抽出ステップで抽出した部分集合のうち空集合でない部分集合を改めて質問集合として、この質問集合の各々に対して、前記(イ)の抽出ステップから前記(ヘ)の終止ステップに至るまでの処理を再帰的に繰り返し、
この繰り返しの過程において、前記(ニ)の分割ステップで分割した部分集合が全て空集合であるとき、繰り返しを終了すること
を特徴とする請求項11記載の検索決定木生成プログラム。
Of the subsets extracted in the subset extraction step of (c), a non-empty subset is newly set as a question set. For each of the question sets, the extraction step of (a) and the termination of (f) are performed. Recursively repeat the process up to the step,
12. The search decision tree generation program according to claim 11, wherein in the process of the repetition, when all of the subsets divided in the dividing step (d) are empty sets, the repetition is terminated.
前記評価値算出ステップで算出する評価値は、前記情報利得および前記容易度情報を所定の比率で加算した値であることを特徴とする請求項11または12記載の検索決定木生成プログラム。13. The search decision tree generation program according to claim 11, wherein the evaluation value calculated in the evaluation value calculation step is a value obtained by adding the information gain and the ease information at a predetermined ratio. 請求項9乃至13のいずれか1項に記載の検索決定木生成プログラムを記録したことを特徴とするプログラム記録媒体。A program recording medium on which the search decision tree generation program according to any one of claims 9 to 13 is recorded.
JP2003139101A 2003-05-16 2003-05-16 Search decision tree generation method, search decision tree generation device, search decision tree generation program, and program recording medium Pending JP2004341928A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003139101A JP2004341928A (en) 2003-05-16 2003-05-16 Search decision tree generation method, search decision tree generation device, search decision tree generation program, and program recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003139101A JP2004341928A (en) 2003-05-16 2003-05-16 Search decision tree generation method, search decision tree generation device, search decision tree generation program, and program recording medium

Publications (1)

Publication Number Publication Date
JP2004341928A true JP2004341928A (en) 2004-12-02

Family

ID=33528286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003139101A Pending JP2004341928A (en) 2003-05-16 2003-05-16 Search decision tree generation method, search decision tree generation device, search decision tree generation program, and program recording medium

Country Status (1)

Country Link
JP (1) JP2004341928A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577689A (en) * 2016-07-04 2018-01-12 松下知识产权经营株式会社 Decision tree generating means, decision tree generation method, non-transitory recording medium and enquirement system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577689A (en) * 2016-07-04 2018-01-12 松下知识产权经营株式会社 Decision tree generating means, decision tree generation method, non-transitory recording medium and enquirement system

Similar Documents

Publication Publication Date Title
Wilf generatingfunctionology
US7130860B2 (en) Method and system for generating sequencing information representing a sequence of items selected in a database
JP5939588B2 (en) Method for Searching Related Nodes, Computer, and Computer Program
US9110817B2 (en) Method for creating a markov process that generates sequences
CN109635273A (en) Text key word extracting method, device, equipment and storage medium
WO2014062948A2 (en) Ranking for inductive synthesis of string transformations
JP2017059205A (en) Subject estimation system, subject estimation method, and program
CN112199939B (en) Intelligent recommendation method and storage medium for review experts
CN111767394A (en) Abstract extraction method and device based on artificial intelligence expert system
CN112381381A (en) Expert's device is recommended to intelligence
CN117236315B (en) Text data intelligent analysis method, device and equipment
CN120256587B (en) Question query processing method and electronic equipment
MX2011007400A (en) Information processing device, information processing method, and program.
JP2004341928A (en) Search decision tree generation method, search decision tree generation device, search decision tree generation program, and program recording medium
CN112632951B (en) Method, computer equipment and storage medium for intelligent expert recommendation
JP2009140178A (en) Pattern extraction apparatus, pattern extraction program, and pattern extraction method
JP7737165B2 (en) Musical piece simplification device, music piece simplification method, musical score editing device, musical score editing system, program, and information recording medium
JP2017219595A (en) Music producing method
JP4187213B2 (en) Automatic summary processing apparatus and automatic summary processing method
CN112905835B (en) Multi-mode music title generation method and device and storage medium
Sioros et al. Syncopation as transformation
Giannos et al. Symbolic encoding of simultaneities: Re-designing the general chord type representation
JP2019109357A (en) Feature analysis method for music information and its device
Bernabeu et al. Melodic identification using probabilistic tree automata
JP2009295122A (en) Structured document processing system, structured document processing method, and structured document processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090317