JP4037001B2

JP4037001B2 - データベース作成装置およびデータベース検索装置

Info

Publication number: JP4037001B2
Application number: JP04531299A
Authority: JP
Inventors: 則宏嶺岸; 郁子高梨; 聡田中
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-02-23
Filing date: 1999-02-23
Publication date: 2008-01-23
Anticipated expiration: 2019-02-23
Also published as: JP2000242662A

Description

【０００１】
【発明の属する技術分野】
本発明は、データベースのインデクスを自動的に作成するデータベース作成装置、および作成されたデータベースに対してカテゴリーを絞りながら検索を行うデータベース検索装置に関する。
【０００２】
【従来の技術】
図１３は、従来の類似検索装置を示すブロック構成図である。この検索装置は、属性と属性値のペアで表現されたデータを蓄えているデータベース１７と、類似データの検索の前にデータベース１７中のデータからデータ量を第１のインデクスを用いて絞り込む第１検索部１５と、属性値間の類似度の範囲と属性の重要度から類似度の範囲を計算し、第１検索部１５で検索されたデータを第２のインデクスを基に類似検索する第２検索部１６と、類似度範囲にしたがって第１のインデクスを変更する第１のインデクスの変更手段を備えた推論処理部１４と、第１インデクスの類似度値を設定し、類似度値に基づいて、第１インデクスのレベルを決定する第１インデクス生成部１８と、入力装置１１と、出力装置１２と、入出力制御部１３とから構成される。
【０００３】
この検索装置は、第１インデクスの類似度値を設定し、類似度値に基づいて第１インデクスのレベルを決定し、属性値間の類似度の範囲と第２インデクスを基に類似度を計算し、計算された類似度範囲にしたがって第１インデクスを変更して、類似検索を行う。このような検索装置は、たとえば特開平６−１７６０７２号公開公報に開示されている。
【０００４】
また、図１４は、従来の情報検索装置を示すブロック構成図である。この検索装置は、キーワードメモリ２４からの索引キーワード行列と相関度に応じて修正された検索ベクトルとを内積する演算器１９と、その結果を部分的線形に変換する部分線形器２０と、部分線形器２０の出力ベクトルとキーワード行列Ｘとを積する第２演算器２１と、積結果の各要素に対して０，１に正規化する正規化器２２と、演算器１９に１回フィードバックする前の正規化器２２の出力ベクトルと比較するコントローラ２３と、修正された部分線形器２０の出力ベクトルの位置の対応するアドレスに基づき、データベース２５から所望データを読み出す読み出し器２６と、その所望データを表示する表示器２７とから構成される。
【０００５】
この検索装置は、具体的には図１５に示す構成からなり、キーワード入力部２８から入力されたキーワードを蓄積部３３に蓄積するとともに、それを演算器２４で数値ベクトル化し、キーワード相関テーブル３５を参照して、相関度に応じた、より関連のあるキーワードを見つけ、変換器２９において、最初に入力されたキーワードを、その見つけたキーワードに変換する。そして、検索装置は、検索器３０により新たにそのキーワードを検索条件としてデータベース３６を検索し、読み出し器３１で読み出し、選択器３７を介して選択された結果を表示器３２に表示する。このような検索装置は、たとえば特開平８−８７５０８号公開公報に開示されている。
【０００６】
【発明が解決しようとする課題】
しかしながら、上述した類似検索装置では、単語単位の類似度を求めるためには属性と属性値のペアの状態でデータが格納されていなければならないという問題点や、属性の重要度のように、使用者の勘や経験に基づく目標や見本、あるいは使用者の意図が反映された目標や見本を設定しなければならないため、使用者によって得られる結果が異なるという問題点がある。
【０００７】
また、上述した情報検索装置では、何らかの方法により算出した一般的な相関度合いを示すキーワードの相関テーブルを用いて、入力されたキーワードを別のキーワードに変換しているため、異なる分野のデータであっても文字列が同じ単語であれば同じ相関になってしまい、分野に応じた適切な結果が得られないという問題点がある。これを回避するために仮に相関テーブルを修正すると、キーワードの空間全体に影響がおよび、全ての検索に対して性能が向上するとは限らない。
【０００８】
本発明は、上記問題点を解決するためになされたもので、データベースに与えたインデクス基準に基づいて、データに含まれる単語間の関連度を自動的に生成し、さらにその関連度に対して適切な重み付けを行うことによって、インデクス基準に影響を及ぼすことなく自動的にインデクスを作成するデータベース作成装置、およびそのデータベースに対してカテゴリーを絞りながら検索を行うデータベース検索装置を得ることを目的とする。
【０００９】
【課題を解決するための手段】
上記目的を達成するため、本発明は、データベースにデータを入力するためのデータ入力装置と、インデクスの基準となる構成を規定したインデクス基準を入力するためのインデクス基準読込装置と、入力されたデータに対して、前記インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度と前記インデクス基準とに基づいて単語関連度マップを作成する単語関連度マップ作成装置と、入力されたデータの第１の文書中に出現する単語数を、その第１の文書の要約または見出しとなる第２の文書中に出現する単語数で除し、得られた値の分だけ前記第２の文書中の単語に対して重み付けを行う単語重要度付与装置と、前記単語重要度付与装置により得られた重み付けを用いて、前記単語関連度マップ作成装置により作成された単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて、前記入力データに対してインデクスを作成するインデクス作成装置と、を具備することを特徴とする。
【００１０】
この発明によれば、データ入力装置によりデータが入力されるとともに、インデクス基準読込装置によりインデクス基準が入力されると、単語関連度マップ作成装置は、入力データに対して、インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度とインデクス基準とに基づいて単語関連度マップを作成する。また、単語重要度付与装置は、入力データの第１の文書中に出現する単語数を、その第１の文書の要約または見出しとなる第２の文書中に出現する単語数で除し、得られた値の分だけ第２の文書中の単語に対して重み付けを行う。また、インデクス作成装置は、その重み付けを用いて単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて入力データに対してインデクスを作成する。
【００１１】
また本発明は、データベースにデータを入力するためのデータ入力装置と、インデクスの基準となる構成を規定したインデクス基準を入力するためのインデクス基準読込装置と、入力されたデータに対して、前記インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度と前記インデクス基準とに基づいて単語関連度マップを作成する単語関連度マップ作成装置と、入力されたデータの第１の文書中に出現する単語数を、その第１の文書の要約または見出しとなる第２の文書中に出現する単語数で除し、得られた値の分だけ前記第２の文書中の単語に対して重み付けを行う単語重要度付与装置と、前記単語重要度付与装置により得られた重み付けを用いて、前記単語関連度マップ作成装置により作成された単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて、前記入力データに対してインデクスを作成するインデクス作成装置と、前記インデクス作成装置により作成されたインデクスに基づいて検索を行うデータ検索装置と、その検索結果を表示する結果表示装置と、を具備することを特徴とする。
【００１２】
この発明によれば、データ入力装置によりデータが入力されるとともに、インデクス基準読込装置によりインデクス基準が入力されると、単語関連度マップ作成装置は、入力データに対して、インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度とインデクス基準とに基づいて単語関連度マップを作成する。また、単語重要度付与装置は、入力データの第１の文書中に出現する単語数を、その第１の文書の要約または見出しとなる第２の文書中に出現する単語数で除し、得られた値の分だけ第２の文書中の単語に対して重み付けを行う。また、インデクス作成装置は、その重み付けを用いて単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて入力データに対してインデクスを作成する。そして、データ検索装置は、作成されたインデクスに基づいて検索を行い、結果表示装置は、その検索結果を表示する。
【００１３】
【発明の実施の形態】
以下、この発明にかかるデータベース作成装置およびデータベース検索装置の実施の形態について、添付図面を参照して詳細に説明する。
【００１４】
実施の形態１．
図１は、本発明にかかるデータベース作成装置の一例を示すブロック構成図である。このデータベース作成装置は、データベース３、システム外部からデータベース３にデータ１を入力するためのデータ入力装置２、システム外部からインデクス基準４を入力するためのインデクス基準読込装置５、入力されたデータ１とインデクス基準４とに基づいて単語関連度マップ８を作成する単語関連度マップ作成装置７、入力されたデータ１と単語関連度マップ８とインデクス基準４とに基づいてインデクス９を生成するインデクス作成装置６、およびインデクス作成時に単語の重要度を計算する単語重要度付与装置１０を備えている。
【００１５】
データベース３、単語関連度マップ８およびインデクス９は、たとえばハードディスク等の記憶装置に格納される。また、データ入力装置２、インデクス基準読込装置５、インデクス作成装置６、単語関連度マップ作成装置７および単語重要度付与装置１０は、それぞれコンピュータ・システムにおいて、たとえばデータ入力プログラム、インデクス基準読込プログラム、インデクス作成プログラム、単語関連度マップ作成プログラムおよび単語重要度付与プログラムが実行されることにより実現される。
【００１６】
インデクス基準４は、インデクスの構成を示すものであり、一例として医学書のデータベースに対するインデクス基準１００を図２に示す。この医学書インデクス基準１００は、たとえば最上層に「医学」というタイトルがあり、その一つ下層に「基礎医学」、「内科学」および「外科学」という３つのタイトルがあり、さらに「基礎医学」の一つ下層に「解剖学」および「生理学」があり、また「内科学」の一つ下層には「循環器」および「消化器」があり、また「外科学」の一つ下層には「局所外科」および「整形外科」があるというようにインデクスがツリー構造をなすように構成されている。この医学書インデクス基準１００のように、インデクス基準４もツリー構造をなすように構成されている。
【００１７】
なお、以下の説明では、この医学書インデクス基準１００を例にして具体的に説明するが、本発明は、医学書に関するデータベースおよび医学書インデクス基準１００に限らないのはいうまでもない。
【００１８】
単語関連度マップ８は、インデクス基準４の階層関係に各単語間の関連度を付与したマップである。単語関連度マップ作成装置７は、入力されたデータ１に対して、たとえば医学書インデクス基準１００で使用されている単語の出現頻度を調べ、それに基づいて所定の計算を行い、図３に示すような単語関連度マップ１０４を得る。単語関連度マップ作成装置７が単語関連度マップ８を作成する方法を、図４に示すデータ１０１を例にして具体的に説明する。
【００１９】
たとえば、データ１０１は３つの文書からなり、文書１のタイトルは「循環器の話」であり、抄録は「・・・循環器系の病気で最も恐いのは、解剖学的に狭心症と心不全である。・・・」である。文書２のタイトルは「循環器系の病気とヘルニアの併発」であり、抄録は「・・・解剖学的には、循環器が、・・・ヘルニアについては外科の医師の診察を受けること。・・・」である。文書３のタイトルは「消化器と循環器」であり、抄録は「・・・良くそしゃくしないと、消化器に炎症を起こし、嘔吐する場合があります。嘔吐すると心臓に負担をかけ、狭心症など循環器系の病気をもっていると、・・・」である。
【００２０】
これらの文書１〜３からそれぞれ単語のみを抽出すると、図４に示す単語列１０２のようになる。すなわち、単語列１０２は、文書１では、タイトルに対して「循環器」、抄録に対して「循環器、解剖学、狭心症、心不全」となり、文書２では、タイトルに対して「循環器、ヘルニア」、抄録に対して「解剖学、循環器、ヘルニア、外科」となり、文書３では、タイトルに対して「消化器、循環器」、抄録に対して「そしゃく、消化器、嘔吐、心臓、狭心症、循環器」となる。
【００２１】
そして、１つの文書に同時に出現する各単語間は相互に関係があるものとして、それらを共出現の単語の組１０３とし、すべてのデータに対して処理をする。そして、共出現の単語の組１０３について、たとえば、つぎの（１）式のように総出現回数に対する共出現の比率、などを用いて関連度を定義する。ただし、ある単語（「ＫＷ１」とする）の総出現頻度をＮ１とし、別のある単語（「ＫＷ２」とする）の総出現頻度をＮ２とし、「ＫＷ１」と「ＫＷ２」とが同時に出現する共出現頻度をＮ１２とし、「ＫＷ１」と「ＫＷ２」との関連度をμ１２とする。
【００２２】
μ１２＝Ｎ１２／（Ｎ１＋Ｎ２−Ｎ１２）・・・（１）
【００２３】
たとえば、上述した文書１に対して説明すると、共出現の単語の組１０３は、図４に示すように「循環器、解剖学」、「循環器、狭心症」、「循環器、心不全」、「解剖学、狭心症」、「解剖学、心不全」、「狭心症、心不全」、・・・となる。たとえば「循環器、狭心症」の共出現の組に対しては、上記（１）式にしたがって、（「循環器」と「狭心症」の共出現頻度）／｛（「循環器」の総出現頻度）＋（「狭心症」の総出現頻度）−（「循環器」と「狭心症」の共出現頻度）｝の値を求める。
【００２４】
そして、その値、すなわち関連度１０５をインデクス基準１００の階層関係に付与することにより、図３に示す単語関連度マップ１０４が得られる。なお、単語間の関連度の算出式は、上記（１）式以外にも、単語の１つの文書中の出現回数によって重み付けを行い共出現比率を計算するなど、種々の算式が適用できる。
【００２５】
単語重要度付与装置１０は、インデクス作成対象のデータに、たとえばタイトル、抄録および本文がある場合、タイトルに出現した単語と抄録に出現した単語と本文に出現した単語との間でそれぞれの価値に応じて適宜重み付けを行う。すなわち、一般に本文を簡潔に集約したものが抄録であり、その抄録をさらに集約したものがタイトルであるが、タイトル、抄録および本文のいずれも表現したい内容のボリュームは同等であるとし、タイトル、抄録および本文に出現した単語に対して価値を数値化して重み付けを行う。単語重要度付与装置１０による重み付けの決定方法を、たとえば図５に示すデータ１０８を例にして、図６を参照しながら具体的に説明する。
【００２６】
図５に示すデータは、タイトルと抄録を有している。まずタイトルおよび抄録のそれぞれについて、出現する単語数をカウントする（図６のステップＳ１，Ｓ２）。たとえば、文書１については、抄録に含まれた単語は「循環器」、「狭心症」、「心不全」および「解剖学」の４個である。それに対して、タイトルに含まれた単語は「循環器」の１個である。従って、タイトルに含まれた単語は、抄録に含まれた単語の４倍の価値を有していると考えられる。そこで、タイトルの単語については、抄録の単語に対して４倍という重み付けを行う（図６のステップＳ３）。これを各データ毎に行う。
【００２７】
たとえば、文書２は、タイトルに「ヘルニア」および「循環器」の２個の単語を含み、抄録に「解剖学」、「循環器」、「ヘルニア」および「外科」の４個の単語を含むので、タイトルの単語は２倍の重み付けとなる。また、文書３は、タイトルに「そしゃく」および「循環器」の２個の単語を含み、抄録に「そしゃく」、「消化器」、「嘔吐」、「解剖学」、「生理学」および「循環器」の６個の単語を含むので、タイトルの単語は３倍の重み付けとなる。このような重み付けによって、たとえば図７に示す例では、「循環器」は、本来０．２である関連度が、文書１では０．８、文書２では０．４、文書３では０．６になり、データ毎、すなわち文書１と文書２と文書３とで「循環器」の価値に違いが出ることになる（図６のステップＳ４）。
【００２８】
また、たとえば抄録と本文との間で重み付けを行う場合や、他の文書データの項目間で重み付けを行う場合も同様である。図８に、抄録と本文との間の重み付けの例を示す。図８に示すデータ１１０では、たとえば本文に関しては、同じ単語が繰り返し出現した場合には、その出現回数を加味している。また、単純に出現回数を加算するだけでは、対象としている文書や図書の量に差があるため、正規化するのが望ましい。すなわち、文書や図書によって本文の文章の量が異なり、一般的には文章量が多いほうが単語はより多く出現する。そこで、たとえば１ページあたり、または１０００文字あたり、というように一定の決まった文書量や、単位文書量を対象にして、重み付けを行うように正規化するとよい。
【００２９】
つぎに、インデクスの作成処理の流れについて説明する。データ入力装置２によってデータベース３にデータ１が入力され、またインデクス基準読込装置５により、たとえば図２に示すインデクス基準１００が入力されると、単語関連度マップ作成装置７は、入力されたデータ１およびインデクス基準４に現れる単語に基づいて、たとえば図３に示すような単語関連度マップ８を作成する。
【００３０】
しかる後、インデクス作成装置６は、たとえば図９に示すフローチャートに従い、インデクス作成対象データに対して、インデクス基準４と単語関連度マップ８を基にしてインデクス９を作成する。すなわち、まず各文書に含まれている分類項目のノード（単語）をピックアップし、単語関連度マップにマッピングする（ステップＳ１１）。一例として、図７に、データ１０６の文書３について出現単語を単語関連度マップ８中にマーキングした様子を示す。図示例では、マーキングは、該当する単語、すなわち「消化器」、「循環器」、「そしゃく」、「嘔吐」、「心臓」および「狭心症」という単語を下線付きの太字で表すことにより示した。
【００３１】
続いて、単語重要度付与装置１０によって重み付けを行い、単語関連度マップ８を一時的に修正する（ステップＳ１２）。図７に示す例では、文書３の場合、タイトルに「消化器」および「循環器」という２個の単語が出現し、それに対して抄録の出現単語数は６個であるため、文書３の処理時のみ、「消化器」および「循環器」については、単語関連度マップ８の関連度を一時的に３倍して、それぞれ０．６（０．２×３）とする。
【００３２】
続いて、インデクス作成対象データに出現した単語を末端語としてチェックし、各末端語からルートノード（「医学」）まで遡るように分類判定評価値を計算する（ステップＳ１３）。これは、単語関連度マップ８にマッピングされた各単語を、ある計算手順に従って計算し、評価することによって、マッピングされた位置で単体で評価せずに、分類体系全体の中でどのような位置付けにあるかということを考慮するためである。
【００３３】
すなわち、たとえば図７に示す例では、「心臓」という分類項目は、単に「心臓」という単語を意味しているわけではなく、「医学」に関する「内科学」に関する「循環器」に関する「心臓」という概念を意味している。それを反映するために、たとえば「心臓」という末端語ノードからルートノードの「医学」まで、マッピングされている分類項目を順に遡ってたどり、その途中の関連度を加算し、得られた関連度の累計を、たどった階層数で除して平均値を得、これを分類判定評価値とする。
【００３４】
図７に示す例で、文書３の場合、「心臓」とその一つ上層の「循環器」との関連度は０．９であり、「循環器」とその一つ上層の「内科学」との関連度は、本来０．２であるが、重み付けによって一時的に０．６になっており、さらに「内科学」とその一つ上層の「医学」との関連度は０．３である。従って、「心臓」という単語の分類判定評価値は、０．９と０．６と０．３を足し、それを３で除することにより、０．６となる。すなわち、文書３が「心臓」に分類される度合いは０．６である。
【００３５】
ただし、図７に示す文書３では、「心臓」および「循環器」という単語は出現しているが、ルートノードまで遡る途中の「内科学」および「医学」という単語は出現していない。このようにルートノードの「医学」に至るまでにマッピングされていない単語が出現し、途切れた場合には、単語関連度マップ８の関連度をそのまま加算せずに、つぎのステップＳ１４のような処理を行う。
【００３６】
すなわち、たとえば図７に示す例で説明すれば、文書１について「狭心症」という末端語ノードから上層にたどると、文書１には「心臓」という単語が出現していない。そこで、「心臓」の下位ノードの関連度の平均値を求める。具体的には、「心臓」の下位ノードである「狭心症」の関連度０．５と「心不全」の関連度０．５との平均値０．５（（０．５＋０．５）／２）を求める。そして、その平均値と、「循環器」に対する「心臓」の関連度の値０．９との積を求め、その値０．４５（０．９×０．５）を仮関連度として加算する（ステップＳ１４）。
【００３７】
先に「文書３が「心臓」に分類される度合いは０．６である」としたが、このステップＳ１４の処理を行うことによって、文書３の「心臓」という単語の分類判定表価値は、「医学」に対する「内科学」の仮関連度が０．１８（（０．６＋０．６）／２×０．３）であるので、実際には０．５６（（０．９＋０．６＋０．１８）／３）となる。
【００３８】
上述したステップＳ１３、およびノードが途切れた場合にはステップ１４を、全ての末端語ノードについて繰り返し行う（ステップＳ１５）。たとえば図７に示すデータの場合、文書３については「そしゃく」、「消化器」、「嘔吐」、「心臓」、「狭心症」および「心不全」について、それぞれルートノードまでたどる途中の全てのノードについて評価を行う。「そしゃく」、「消化器」、「嘔吐」、「心臓」、「狭心症」および「心不全」のそれぞれについて、分類判定表価値の計算式および計算結果を示す。その計算式において「“」と「”」で囲まれた値は、仮関連度であり、下位ノードから上位ノードに向かって順に加算している。なお「生理学」および「基礎医学」については、省略する。
【００３９】
「そしゃく」：（０．７＋“０．２３”＋“０．１４”＋“０．０９”）／４＝０．２９
「嘔吐」：（０．８＋“０．２３”＋“０．１４”＋“０．０９”）／４＝０．３２
「消化」：（“０．２３”＋“０．１４”＋“０．０９”）／３＝０．１５
「狭心症」：（０．５＋０．９＋０．６＋“０．１８”）／４＝０．５５
「心不全」：（０．５＋０．９＋０．６＋“０．１８”）／４＝０．５５
「心臓」：（０．９＋０．６＋“０．１８”）／３＝０．５６
「循環器」：（０．６＋“０．１８”）／２＝０．３９
「消化器」：（０．６＋“０．１８”）／２＝０．３９
【００４０】
以上のようにしてインデクス作成対象データの分類先として可能性のある分類項目のすべての評価が終わったら、その中で最も評価が高い項目を分類先として決定し、分類する（ステップＳ１６）。図７に示す例では、「心臓」の分類項目が最も高い評価値（０．５６）であるため、分類先を「心臓」に決定する。そして、重み付けにより一時的に修正した単語関連度マップ８を初期値に戻した後（ステップＳ１７）、同様の処理をインデクス作成の対象となるすべての文書について繰り返し行う（ステップＳ１８）。
【００４１】
なお、文書の分類先決定の評価方法については、階層数や、マップの大きさにより正規化して加算する方法も適用できる。たとえば、分書中に出現した単語の、単語関連度マップ８における階層を考慮して、深い層（すなわち下位の層）については一律に関連度に重み付けをするようにしてもよい。そうすれば、分類体系の階層数が非常に多い場合でも、関連度の相加平均値が過度に低くなり、偶然出現した、上位階層の単語の項目に分類されてしまうのを回避することができる。
【００４２】
実施の形態１によれば、インデクス基準４に基づいて、データに含まれる単語間の関連度を自動的に生成し、さらにその関連度に対して適切な重み付けを行うようになっているため、インデクス作成者が見本や典型的な例などを特に指定しなくても、インデクス基準４に影響を及ぼすことなく、単語単位のインデクスを自動的に作成することができる。
【００４３】
なお、インデクス作成対象となるデータは、文書に限らず、データベースに格納されたデータで、かつ単語を認識できるものであれば特に問わない。たとえば、インデクス作成対象データは、制御コードに相当するタグを含むインターネット上のＷＥＢページのデータであってもよい。
【００４４】
実施の形態２．
図１０は、本発明にかかるデータベース検索装置の一例を示すブロック構成図である。このデータベース検索装置は、図１に示す実施の形態１のデータベース作成装置に、インデクス作成装置６で作成されたインデクスに基づいて検索を行うデータ検索装置３８と、その検索結果を表示する結果表示装置３９を追加したものである。従って、データベース作成装置を構成するデータ入力装置２、データベース３、インデクス基準読込装置５、インデクス作成装置６、単語関連度マップ作成装置７および単語重要度付与装置１０、並びにインデクス基準４および単語関連度マップ８については、実施の形態１と同様であるため、説明を省略する。
【００４５】
データ検索装置３８は、コンピュータ・システムにおいて、たとえばデータ検索プログラムが実行されることにより実現される。データ検索装置３８は、たとえば図２に示すようなインデクス基準１００に基づいて作成されたインデクスメニュー１１１を結果表示装置３９に表示させて一望し得るようなインタフェースと、そのメニューの中から適当な項目を選択するための、たとえばマウスカーソル１１２を提供する。従ってデータ検索装置３８には、図示省略したが入力装置としてマウス等のポインティングデバイスやキーボードが接続されている。結果表示装置は、たとえばコンピュータ・システムの表示装置であるブラウン管や液晶表示装置である。
【００４６】
インデクス作成装置６により作成されたインデクスに対して検索を行う場合には、検索者は結果表示装置３９に表示されたメニューに対して、マウスカーソル１１２を移動させて適当な項目を指示し、選択することにより、インデクスを探すことができ、目的の図書を検索することができる。
【００４７】
なお、図１２に示すように、インデクス基準を各ノード毎に分割し、「医学」のノード１１４からマウスカーソル１１２で「内科学」を指示して「内科学」のノード１１５を開き、さらにマウスカーソル１１２で「循環器」を指示して「循環器」のノード１１６を開き、最終的にマウスカーソル１１２で「リンパ腺」を選択することにより、目的の図書を検索するようにしてもよい。このようなツリー構造をなすインデクス基準に対して次々と分類項目を絞り込んでいくメニュー状のインタフェースにより、効果的に検索を行うことができる。
【００４８】
【発明の効果】
以上、説明したとおり、本発明によれば、データ入力装置によりデータが入力されるとともに、インデクス基準読込装置によりインデクス基準が入力されると、単語関連度マップ作成装置は、入力データに対して、インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度とインデクス基準とに基づいて単語関連度マップを作成する。また、単語重要度付与装置は、入力データの第１の文書中に出現する単語数を、その第１の文書の要約または見出しとなる第２の文書中に出現する単語数で除し、得られた値の分だけ第２の文書中の単語に対して重み付けを行う。また、インデクス作成装置は、その重み付けを用いて単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて入力データに対してインデクスを作成する。従って、インデクス作成者が見本や典型的な例などを特に指定しなくても、インデクス基準に影響を及ぼすことなく、単語単位のインデクスを自動的に作成することができる。
【００４９】
つぎの発明によれば、データ入力装置によりデータが入力されるとともに、インデクス基準読込装置によりインデクス基準が入力されると、単語関連度マップ作成装置は、入力データに対して、インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度とインデクス基準とに基づいて単語関連度マップを作成する。また、単語重要度付与装置は、入力データの第１の文書中に出現する単語数を、その第１の文書の要約または見出しとなる第２の文書中に出現する単語数で除し、得られた値の分だけ第２の文書中の単語に対して重み付けを行う。また、インデクス作成装置は、その重み付けを用いて単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて入力データに対してインデクスを作成する。そして、データ検索装置は、作成されたインデクスに基づいて検索を行い、結果表示装置は、その検索結果を表示する。従って、効率よくインデクスを探すことができ、目的のデータを検索することができる。
【図面の簡単な説明】
【図１】本発明にかかるデータベース作成装置の一例を示すブロック構成図である。
【図２】そのデータベース作成装置において使用されるインデクス基準の一構成例を示す系統図である。
【図３】そのデータベース作成装置において作成された単語関連度マップの一例を示す模式図である。
【図４】単語関連度マップの作成方法を説明するための説明図である。
【図５】単語関連度マップに対して重み付けを行う方法を説明するための説明図である。
【図６】重み付けの決定方法の一例を示すフローチャートである。
【図７】重み付けを行った単語関連度マップの一例を示す模式図である。
【図８】抄録と本文との間の重み付けの一例を示す模式図である。
【図９】インデクス作成方法の一例を示すフローチャートである。
【図１０】本発明にかかるデータベース検索装置の一例を示すブロック構成図である。
【図１１】そのデータベース検索装置で使用される検索用メニューの一例を示す模式図である。
【図１２】そのデータベース検索装置で使用される検索用メニューの他の例を示す模式図である。
【図１３】従来におけるデータベース検索装置を示すブロック構成図である。
【図１４】従来におけるデータベース検索装置を示すブロック構成図である。
【図１５】従来におけるデータベース検索装置を示すブロック構成図である。
【符号の説明】
１データ、２データ入力装置、３データベース、４インデクス基準、５インデクス基準読込装置、６インデクス作成装置、７単語関連度マップ作成装置、８単語関連度マップ、９インデクス、１０単語重要度付与装置。

Claims

データベースにデータを入力するためのデータ入力装置と、
インデクスの基準となる構成を規定し、インデクスがツリー構造をなすように構成されたインデクス基準を入力するためのインデクス基準読込装置と、
入力されたデータに対して、前記インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度と前記インデクス基準とに基づいて、前記インデクス基準の階層関係に前記単語間の関連度を付与したマップである単語関連度マップを作成する単語関連度マップ作成装置と、
入力されたデータの第１の文書中に出現する単語数を、その第１の文書の要約または見出しとなる第２の文書中に出現する単語数で除し、得られた値の分だけ前記第２の文書中の単語に対して重み付けを行う単語重要度付与装置と、
前記単語重要度付与装置により得られた重み付けを用いて、前記単語関連度マップ作成装置により作成された単語関連度マップの関連度を一時的に修正し、前記入力されたデータに出現した各単語を末端の単語として前記修正された単語関連度マップをルートノードまで遡り、ルートノードまで遡る途中の前記関連度を加算し、得られた関連度の累計を遡った階層数で除して平均値を得ることにより前記入力されたデータを分類するための評価値である分類判定評価値を計算し、該分類判定評価値の最も高い前記末端の単語を分類先として前記入力データに対してインデクスを作成するインデクス作成装置と、
を具備することを特徴とするデータベース作成装置。
データベースにデータを入力するためのデータ入力装置と、
インデクスの基準となる構成を規定し、インデクスがツリー構造をなすように構成されたインデクス基準を入力するためのインデクス基準読込装置と、
入力されたデータに対して、前記インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度と前記インデクス基準とに基づいて、前記インデクス基準の階層関係に前記単語間の関連度を付与したマップである単語関連度マップを作成する単語関連度マップ作成装置と、
入力されたデータの第１の文書中に出現する単語数を、その第１の文書の要約または見出しとなる第２の文書中に出現する単語数で除し、得られた値の分だけ前記第２の文書中の単語に対して重み付けを行う単語重要度付与装置と、
前記単語重要度付与装置により得られた重み付けを用いて、前記単語関連度マップ作成装置により作成された単語関連度マップの関連度を一時的に修正し、前記入力されたデータに出現した各単語を末端の単語として前記修正された単語関連度マップをルートノードまで遡り、ルートノードまで遡る途中の前記関連度を加算し、得られた関連度の累計を遡った階層数で除して平均値を得ることにより前記入力されたデータを分類するための評価値である分類判定評価値を計算し、該分類判定評価値の最も高い前記末端の単語を分類先として前記入力データに対してインデクスを作成するインデクス作成装置と、
前記インデクス作成装置により作成されたインデクスに基づいて検索を行うデータ検索装置と、
その検索結果を表示する結果表示装置と、
を具備することを特徴とするデータベース検索装置。