JP4037001B2 - データベース作成装置およびデータベース検索装置 - Google Patents
データベース作成装置およびデータベース検索装置 Download PDFInfo
- Publication number
- JP4037001B2 JP4037001B2 JP04531299A JP4531299A JP4037001B2 JP 4037001 B2 JP4037001 B2 JP 4037001B2 JP 04531299 A JP04531299 A JP 04531299A JP 4531299 A JP4531299 A JP 4531299A JP 4037001 B2 JP4037001 B2 JP 4037001B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- word
- relevance
- document
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、データベースのインデクスを自動的に作成するデータベース作成装置、および作成されたデータベースに対してカテゴリーを絞りながら検索を行うデータベース検索装置に関する。
【0002】
【従来の技術】
図13は、従来の類似検索装置を示すブロック構成図である。この検索装置は、属性と属性値のペアで表現されたデータを蓄えているデータベース17と、類似データの検索の前にデータベース17中のデータからデータ量を第1のインデクスを用いて絞り込む第1検索部15と、属性値間の類似度の範囲と属性の重要度から類似度の範囲を計算し、第1検索部15で検索されたデータを第2のインデクスを基に類似検索する第2検索部16と、類似度範囲にしたがって第1のインデクスを変更する第1のインデクスの変更手段を備えた推論処理部14と、第1インデクスの類似度値を設定し、類似度値に基づいて、第1インデクスのレベルを決定する第1インデクス生成部18と、入力装置11と、出力装置12と、入出力制御部13とから構成される。
【0003】
この検索装置は、第1インデクスの類似度値を設定し、類似度値に基づいて第1インデクスのレベルを決定し、属性値間の類似度の範囲と第2インデクスを基に類似度を計算し、計算された類似度範囲にしたがって第1インデクスを変更して、類似検索を行う。このような検索装置は、たとえば特開平6−176072号公開公報に開示されている。
【0004】
また、図14は、従来の情報検索装置を示すブロック構成図である。この検索装置は、キーワードメモリ24からの索引キーワード行列と相関度に応じて修正された検索ベクトルとを内積する演算器19と、その結果を部分的線形に変換する部分線形器20と、部分線形器20の出力ベクトルとキーワード行列Xとを積する第2演算器21と、積結果の各要素に対して0,1に正規化する正規化器22と、演算器19に1回フィードバックする前の正規化器22の出力ベクトルと比較するコントローラ23と、修正された部分線形器20の出力ベクトルの位置の対応するアドレスに基づき、データベース25から所望データを読み出す読み出し器26と、その所望データを表示する表示器27とから構成される。
【0005】
この検索装置は、具体的には図15に示す構成からなり、キーワード入力部28から入力されたキーワードを蓄積部33に蓄積するとともに、それを演算器24で数値ベクトル化し、キーワード相関テーブル35を参照して、相関度に応じた、より関連のあるキーワードを見つけ、変換器29において、最初に入力されたキーワードを、その見つけたキーワードに変換する。そして、検索装置は、検索器30により新たにそのキーワードを検索条件としてデータベース36を検索し、読み出し器31で読み出し、選択器37を介して選択された結果を表示器32に表示する。このような検索装置は、たとえば特開平8−87508号公開公報に開示されている。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した類似検索装置では、単語単位の類似度を求めるためには属性と属性値のペアの状態でデータが格納されていなければならないという問題点や、属性の重要度のように、使用者の勘や経験に基づく目標や見本、あるいは使用者の意図が反映された目標や見本を設定しなければならないため、使用者によって得られる結果が異なるという問題点がある。
【0007】
また、上述した情報検索装置では、何らかの方法により算出した一般的な相関度合いを示すキーワードの相関テーブルを用いて、入力されたキーワードを別のキーワードに変換しているため、異なる分野のデータであっても文字列が同じ単語であれば同じ相関になってしまい、分野に応じた適切な結果が得られないという問題点がある。これを回避するために仮に相関テーブルを修正すると、キーワードの空間全体に影響がおよび、全ての検索に対して性能が向上するとは限らない。
【0008】
本発明は、上記問題点を解決するためになされたもので、データベースに与えたインデクス基準に基づいて、データに含まれる単語間の関連度を自動的に生成し、さらにその関連度に対して適切な重み付けを行うことによって、インデクス基準に影響を及ぼすことなく自動的にインデクスを作成するデータベース作成装置、およびそのデータベースに対してカテゴリーを絞りながら検索を行うデータベース検索装置を得ることを目的とする。
【0009】
【課題を解決するための手段】
上記目的を達成するため、本発明は、データベースにデータを入力するためのデータ入力装置と、インデクスの基準となる構成を規定したインデクス基準を入力するためのインデクス基準読込装置と、入力されたデータに対して、前記インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度と前記インデクス基準とに基づいて単語関連度マップを作成する単語関連度マップ作成装置と、入力されたデータの第1の文書中に出現する単語数を、その第1の文書の要約または見出しとなる第2の文書中に出現する単語数で除し、得られた値の分だけ前記第2の文書中の単語に対して重み付けを行う単語重要度付与装置と、前記単語重要度付与装置により得られた重み付けを用いて、前記単語関連度マップ作成装置により作成された単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて、前記入力データに対してインデクスを作成するインデクス作成装置と、を具備することを特徴とする。
【0010】
この発明によれば、データ入力装置によりデータが入力されるとともに、インデクス基準読込装置によりインデクス基準が入力されると、単語関連度マップ作成装置は、入力データに対して、インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度とインデクス基準とに基づいて単語関連度マップを作成する。また、単語重要度付与装置は、入力データの第1の文書中に出現する単語数を、その第1の文書の要約または見出しとなる第2の文書中に出現する単語数で除し、得られた値の分だけ第2の文書中の単語に対して重み付けを行う。また、インデクス作成装置は、その重み付けを用いて単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて入力データに対してインデクスを作成する。
【0011】
また本発明は、データベースにデータを入力するためのデータ入力装置と、インデクスの基準となる構成を規定したインデクス基準を入力するためのインデクス基準読込装置と、入力されたデータに対して、前記インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度と前記インデクス基準とに基づいて単語関連度マップを作成する単語関連度マップ作成装置と、入力されたデータの第1の文書中に出現する単語数を、その第1の文書の要約または見出しとなる第2の文書中に出現する単語数で除し、得られた値の分だけ前記第2の文書中の単語に対して重み付けを行う単語重要度付与装置と、前記単語重要度付与装置により得られた重み付けを用いて、前記単語関連度マップ作成装置により作成された単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて、前記入力データに対してインデクスを作成するインデクス作成装置と、前記インデクス作成装置により作成されたインデクスに基づいて検索を行うデータ検索装置と、その検索結果を表示する結果表示装置と、を具備することを特徴とする。
【0012】
この発明によれば、データ入力装置によりデータが入力されるとともに、インデクス基準読込装置によりインデクス基準が入力されると、単語関連度マップ作成装置は、入力データに対して、インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度とインデクス基準とに基づいて単語関連度マップを作成する。また、単語重要度付与装置は、入力データの第1の文書中に出現する単語数を、その第1の文書の要約または見出しとなる第2の文書中に出現する単語数で除し、得られた値の分だけ第2の文書中の単語に対して重み付けを行う。また、インデクス作成装置は、その重み付けを用いて単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて入力データに対してインデクスを作成する。そして、データ検索装置は、作成されたインデクスに基づいて検索を行い、結果表示装置は、その検索結果を表示する。
【0013】
【発明の実施の形態】
以下、この発明にかかるデータベース作成装置およびデータベース検索装置の実施の形態について、添付図面を参照して詳細に説明する。
【0014】
実施の形態1.
図1は、本発明にかかるデータベース作成装置の一例を示すブロック構成図である。このデータベース作成装置は、データベース3、システム外部からデータベース3にデータ1を入力するためのデータ入力装置2、システム外部からインデクス基準4を入力するためのインデクス基準読込装置5、入力されたデータ1とインデクス基準4とに基づいて単語関連度マップ8を作成する単語関連度マップ作成装置7、入力されたデータ1と単語関連度マップ8とインデクス基準4とに基づいてインデクス9を生成するインデクス作成装置6、およびインデクス作成時に単語の重要度を計算する単語重要度付与装置10を備えている。
【0015】
データベース3、単語関連度マップ8およびインデクス9は、たとえばハードディスク等の記憶装置に格納される。また、データ入力装置2、インデクス基準読込装置5、インデクス作成装置6、単語関連度マップ作成装置7および単語重要度付与装置10は、それぞれコンピュータ・システムにおいて、たとえばデータ入力プログラム、インデクス基準読込プログラム、インデクス作成プログラム、単語関連度マップ作成プログラムおよび単語重要度付与プログラムが実行されることにより実現される。
【0016】
インデクス基準4は、インデクスの構成を示すものであり、一例として医学書のデータベースに対するインデクス基準100を図2に示す。この医学書インデクス基準100は、たとえば最上層に「医学」というタイトルがあり、その一つ下層に「基礎医学」、「内科学」および「外科学」という3つのタイトルがあり、さらに「基礎医学」の一つ下層に「解剖学」および「生理学」があり、また「内科学」の一つ下層には「循環器」および「消化器」があり、また「外科学」の一つ下層には「局所外科」および「整形外科」があるというようにインデクスがツリー構造をなすように構成されている。この医学書インデクス基準100のように、インデクス基準4もツリー構造をなすように構成されている。
【0017】
なお、以下の説明では、この医学書インデクス基準100を例にして具体的に説明するが、本発明は、医学書に関するデータベースおよび医学書インデクス基準100に限らないのはいうまでもない。
【0018】
単語関連度マップ8は、インデクス基準4の階層関係に各単語間の関連度を付与したマップである。単語関連度マップ作成装置7は、入力されたデータ1に対して、たとえば医学書インデクス基準100で使用されている単語の出現頻度を調べ、それに基づいて所定の計算を行い、図3に示すような単語関連度マップ104を得る。単語関連度マップ作成装置7が単語関連度マップ8を作成する方法を、図4に示すデータ101を例にして具体的に説明する。
【0019】
たとえば、データ101は3つの文書からなり、文書1のタイトルは「循環器の話」であり、抄録は「・・・循環器系の病気で最も恐いのは、解剖学的に狭心症と心不全である。・・・」である。文書2のタイトルは「循環器系の病気とヘルニアの併発」であり、抄録は「・・・解剖学的には、循環器が、・・・ヘルニアについては外科の医師の診察を受けること。・・・」である。文書3のタイトルは「消化器と循環器」であり、抄録は「・・・良くそしゃくしないと、消化器に炎症を起こし、嘔吐する場合があります。嘔吐すると心臓に負担をかけ、狭心症など循環器系の病気をもっていると、・・・」である。
【0020】
これらの文書1〜3からそれぞれ単語のみを抽出すると、図4に示す単語列102のようになる。すなわち、単語列102は、文書1では、タイトルに対して「循環器」、抄録に対して「循環器、解剖学、狭心症、心不全」となり、文書2では、タイトルに対して「循環器、ヘルニア」、抄録に対して「解剖学、循環器、ヘルニア、外科」となり、文書3では、タイトルに対して「消化器、循環器」、抄録に対して「そしゃく、消化器、嘔吐、心臓、狭心症、循環器」となる。
【0021】
そして、1つの文書に同時に出現する各単語間は相互に関係があるものとして、それらを共出現の単語の組103とし、すべてのデータに対して処理をする。そして、共出現の単語の組103について、たとえば、つぎの(1)式のように総出現回数に対する共出現の比率、などを用いて関連度を定義する。ただし、ある単語(「KW1」とする)の総出現頻度をN1とし、別のある単語(「KW2」とする)の総出現頻度をN2とし、「KW1」と「KW2」とが同時に出現する共出現頻度をN12とし、「KW1」と「KW2」との関連度をμ12とする。
【0022】
μ12=N12/(N1+N2−N12) ・・・(1)
【0023】
たとえば、上述した文書1に対して説明すると、共出現の単語の組103は、図4に示すように「循環器、解剖学」、「循環器、狭心症」、「循環器、心不全」、「解剖学、狭心症」、「解剖学、心不全」、「狭心症、心不全」、・・・となる。たとえば「循環器、狭心症」の共出現の組に対しては、上記(1)式にしたがって、(「循環器」と「狭心症」の共出現頻度)/{(「循環器」の総出現頻度)+(「狭心症」の総出現頻度)−(「循環器」と「狭心症」の共出現頻度)}の値を求める。
【0024】
そして、その値、すなわち関連度105をインデクス基準100の階層関係に付与することにより、図3に示す単語関連度マップ104が得られる。なお、単語間の関連度の算出式は、上記(1)式以外にも、単語の1つの文書中の出現回数によって重み付けを行い共出現比率を計算するなど、種々の算式が適用できる。
【0025】
単語重要度付与装置10は、インデクス作成対象のデータに、たとえばタイトル、抄録および本文がある場合、タイトルに出現した単語と抄録に出現した単語と本文に出現した単語との間でそれぞれの価値に応じて適宜重み付けを行う。すなわち、一般に本文を簡潔に集約したものが抄録であり、その抄録をさらに集約したものがタイトルであるが、タイトル、抄録および本文のいずれも表現したい内容のボリュームは同等であるとし、タイトル、抄録および本文に出現した単語に対して価値を数値化して重み付けを行う。単語重要度付与装置10による重み付けの決定方法を、たとえば図5に示すデータ108を例にして、図6を参照しながら具体的に説明する。
【0026】
図5に示すデータは、タイトルと抄録を有している。まずタイトルおよび抄録のそれぞれについて、出現する単語数をカウントする(図6のステップS1,S2)。たとえば、文書1については、抄録に含まれた単語は「循環器」、「狭心症」、「心不全」および「解剖学」の4個である。それに対して、タイトルに含まれた単語は「循環器」の1個である。従って、タイトルに含まれた単語は、抄録に含まれた単語の4倍の価値を有していると考えられる。そこで、タイトルの単語については、抄録の単語に対して4倍という重み付けを行う(図6のステップS3)。これを各データ毎に行う。
【0027】
たとえば、文書2は、タイトルに「ヘルニア」および「循環器」の2個の単語を含み、抄録に「解剖学」、「循環器」、「ヘルニア」および「外科」の4個の単語を含むので、タイトルの単語は2倍の重み付けとなる。また、文書3は、タイトルに「そしゃく」および「循環器」の2個の単語を含み、抄録に「そしゃく」、「消化器」、「嘔吐」、「解剖学」、「生理学」および「循環器」の6個の単語を含むので、タイトルの単語は3倍の重み付けとなる。このような重み付けによって、たとえば図7に示す例では、「循環器」は、本来0.2である関連度が、文書1では0.8、文書2では0.4、文書3では0.6になり、データ毎、すなわち文書1と文書2と文書3とで「循環器」の価値に違いが出ることになる(図6のステップS4)。
【0028】
また、たとえば抄録と本文との間で重み付けを行う場合や、他の文書データの項目間で重み付けを行う場合も同様である。図8に、抄録と本文との間の重み付けの例を示す。図8に示すデータ110では、たとえば本文に関しては、同じ単語が繰り返し出現した場合には、その出現回数を加味している。また、単純に出現回数を加算するだけでは、対象としている文書や図書の量に差があるため、正規化するのが望ましい。すなわち、文書や図書によって本文の文章の量が異なり、一般的には文章量が多いほうが単語はより多く出現する。そこで、たとえば1ページあたり、または1000文字あたり、というように一定の決まった文書量や、単位文書量を対象にして、重み付けを行うように正規化するとよい。
【0029】
つぎに、インデクスの作成処理の流れについて説明する。データ入力装置2によってデータベース3にデータ1が入力され、またインデクス基準読込装置5により、たとえば図2に示すインデクス基準100が入力されると、単語関連度マップ作成装置7は、入力されたデータ1およびインデクス基準4に現れる単語に基づいて、たとえば図3に示すような単語関連度マップ8を作成する。
【0030】
しかる後、インデクス作成装置6は、たとえば図9に示すフローチャートに従い、インデクス作成対象データに対して、インデクス基準4と単語関連度マップ8を基にしてインデクス9を作成する。すなわち、まず各文書に含まれている分類項目のノード(単語)をピックアップし、単語関連度マップにマッピングする(ステップS11)。一例として、図7に、データ106の文書3について出現単語を単語関連度マップ8中にマーキングした様子を示す。図示例では、マーキングは、該当する単語、すなわち「消化器」、「循環器」、「そしゃく」、「嘔吐」、「心臓」および「狭心症」という単語を下線付きの太字で表すことにより示した。
【0031】
続いて、単語重要度付与装置10によって重み付けを行い、単語関連度マップ8を一時的に修正する(ステップS12)。図7に示す例では、文書3の場合、タイトルに「消化器」および「循環器」という2個の単語が出現し、それに対して抄録の出現単語数は6個であるため、文書3の処理時のみ、「消化器」および「循環器」については、単語関連度マップ8の関連度を一時的に3倍して、それぞれ0.6(0.2×3)とする。
【0032】
続いて、インデクス作成対象データに出現した単語を末端語としてチェックし、各末端語からルートノード(「医学」)まで遡るように分類判定評価値を計算する(ステップS13)。これは、単語関連度マップ8にマッピングされた各単語を、ある計算手順に従って計算し、評価することによって、マッピングされた位置で単体で評価せずに、分類体系全体の中でどのような位置付けにあるかということを考慮するためである。
【0033】
すなわち、たとえば図7に示す例では、「心臓」という分類項目は、単に「心臓」という単語を意味しているわけではなく、「医学」に関する「内科学」に関する「循環器」に関する「心臓」という概念を意味している。それを反映するために、たとえば「心臓」という末端語ノードからルートノードの「医学」まで、マッピングされている分類項目を順に遡ってたどり、その途中の関連度を加算し、得られた関連度の累計を、たどった階層数で除して平均値を得、これを分類判定評価値とする。
【0034】
図7に示す例で、文書3の場合、「心臓」とその一つ上層の「循環器」との関連度は0.9であり、「循環器」とその一つ上層の「内科学」との関連度は、本来0.2であるが、重み付けによって一時的に0.6になっており、さらに「内科学」とその一つ上層の「医学」との関連度は0.3である。従って、「心臓」という単語の分類判定評価値は、0.9と0.6と0.3を足し、それを3で除することにより、0.6となる。すなわち、文書3が「心臓」に分類される度合いは0.6である。
【0035】
ただし、図7に示す文書3では、「心臓」および「循環器」という単語は出現しているが、ルートノードまで遡る途中の「内科学」および「医学」という単語は出現していない。このようにルートノードの「医学」に至るまでにマッピングされていない単語が出現し、途切れた場合には、単語関連度マップ8の関連度をそのまま加算せずに、つぎのステップS14のような処理を行う。
【0036】
すなわち、たとえば図7に示す例で説明すれば、文書1について「狭心症」という末端語ノードから上層にたどると、文書1には「心臓」という単語が出現していない。そこで、「心臓」の下位ノードの関連度の平均値を求める。具体的には、「心臓」の下位ノードである「狭心症」の関連度0.5と「心不全」の関連度0.5との平均値0.5((0.5+0.5)/2)を求める。そして、その平均値と、「循環器」に対する「心臓」の関連度の値0.9との積を求め、その値0.45(0.9×0.5)を仮関連度として加算する(ステップS14)。
【0037】
先に「文書3が「心臓」に分類される度合いは0.6である」としたが、このステップS14の処理を行うことによって、文書3の「心臓」という単語の分類判定表価値は、「医学」に対する「内科学」の仮関連度が0.18((0.6+0.6)/2×0.3)であるので、実際には0.56((0.9+0.6+0.18)/3)となる。
【0038】
上述したステップS13、およびノードが途切れた場合にはステップ14を、全ての末端語ノードについて繰り返し行う(ステップS15)。たとえば図7に示すデータの場合、文書3については「そしゃく」、「消化器」、「嘔吐」、「心臓」、「狭心症」および「心不全」について、それぞれルートノードまでたどる途中の全てのノードについて評価を行う。「そしゃく」、「消化器」、「嘔吐」、「心臓」、「狭心症」および「心不全」のそれぞれについて、分類判定表価値の計算式および計算結果を示す。その計算式において「“」と「”」で囲まれた値は、仮関連度であり、下位ノードから上位ノードに向かって順に加算している。なお「生理学」および「基礎医学」については、省略する。
【0039】
「そしゃく」:(0.7+“0.23”+“0.14”+“0.09”)/4=0.29
「嘔吐」 :(0.8+“0.23”+“0.14”+“0.09”)/4=0.32
「消化」 :(“0.23”+“0.14”+“0.09”)/3=0.15
「狭心症」 :(0.5+0.9+0.6+“0.18”)/4=0.55
「心不全」 :(0.5+0.9+0.6+“0.18”)/4=0.55
「心臓」 :(0.9+0.6+“0.18”)/3=0.56
「循環器」 :(0.6+“0.18”)/2=0.39
「消化器」 :(0.6+“0.18”)/2=0.39
【0040】
以上のようにしてインデクス作成対象データの分類先として可能性のある分類項目のすべての評価が終わったら、その中で最も評価が高い項目を分類先として決定し、分類する(ステップS16)。図7に示す例では、「心臓」の分類項目が最も高い評価値(0.56)であるため、分類先を「心臓」に決定する。そして、重み付けにより一時的に修正した単語関連度マップ8を初期値に戻した後(ステップS17)、同様の処理をインデクス作成の対象となるすべての文書について繰り返し行う(ステップS18)。
【0041】
なお、文書の分類先決定の評価方法については、階層数や、マップの大きさにより正規化して加算する方法も適用できる。たとえば、分書中に出現した単語の、単語関連度マップ8における階層を考慮して、深い層(すなわち下位の層)については一律に関連度に重み付けをするようにしてもよい。そうすれば、分類体系の階層数が非常に多い場合でも、関連度の相加平均値が過度に低くなり、偶然出現した、上位階層の単語の項目に分類されてしまうのを回避することができる。
【0042】
実施の形態1によれば、インデクス基準4に基づいて、データに含まれる単語間の関連度を自動的に生成し、さらにその関連度に対して適切な重み付けを行うようになっているため、インデクス作成者が見本や典型的な例などを特に指定しなくても、インデクス基準4に影響を及ぼすことなく、単語単位のインデクスを自動的に作成することができる。
【0043】
なお、インデクス作成対象となるデータは、文書に限らず、データベースに格納されたデータで、かつ単語を認識できるものであれば特に問わない。たとえば、インデクス作成対象データは、制御コードに相当するタグを含むインターネット上のWEBページのデータであってもよい。
【0044】
実施の形態2.
図10は、本発明にかかるデータベース検索装置の一例を示すブロック構成図である。このデータベース検索装置は、図1に示す実施の形態1のデータベース作成装置に、インデクス作成装置6で作成されたインデクスに基づいて検索を行うデータ検索装置38と、その検索結果を表示する結果表示装置39を追加したものである。従って、データベース作成装置を構成するデータ入力装置2、データベース3、インデクス基準読込装置5、インデクス作成装置6、単語関連度マップ作成装置7および単語重要度付与装置10、並びにインデクス基準4および単語関連度マップ8については、実施の形態1と同様であるため、説明を省略する。
【0045】
データ検索装置38は、コンピュータ・システムにおいて、たとえばデータ検索プログラムが実行されることにより実現される。データ検索装置38は、たとえば図2に示すようなインデクス基準100に基づいて作成されたインデクスメニュー111を結果表示装置39に表示させて一望し得るようなインタフェースと、そのメニューの中から適当な項目を選択するための、たとえばマウスカーソル112を提供する。従ってデータ検索装置38には、図示省略したが入力装置としてマウス等のポインティングデバイスやキーボードが接続されている。結果表示装置は、たとえばコンピュータ・システムの表示装置であるブラウン管や液晶表示装置である。
【0046】
インデクス作成装置6により作成されたインデクスに対して検索を行う場合には、検索者は結果表示装置39に表示されたメニューに対して、マウスカーソル112を移動させて適当な項目を指示し、選択することにより、インデクスを探すことができ、目的の図書を検索することができる。
【0047】
なお、図12に示すように、インデクス基準を各ノード毎に分割し、「医学」のノード114からマウスカーソル112で「内科学」を指示して「内科学」のノード115を開き、さらにマウスカーソル112で「循環器」を指示して「循環器」のノード116を開き、最終的にマウスカーソル112で「リンパ腺」を選択することにより、目的の図書を検索するようにしてもよい。このようなツリー構造をなすインデクス基準に対して次々と分類項目を絞り込んでいくメニュー状のインタフェースにより、効果的に検索を行うことができる。
【0048】
【発明の効果】
以上、説明したとおり、本発明によれば、データ入力装置によりデータが入力されるとともに、インデクス基準読込装置によりインデクス基準が入力されると、単語関連度マップ作成装置は、入力データに対して、インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度とインデクス基準とに基づいて単語関連度マップを作成する。また、単語重要度付与装置は、入力データの第1の文書中に出現する単語数を、その第1の文書の要約または見出しとなる第2の文書中に出現する単語数で除し、得られた値の分だけ第2の文書中の単語に対して重み付けを行う。また、インデクス作成装置は、その重み付けを用いて単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて入力データに対してインデクスを作成する。従って、インデクス作成者が見本や典型的な例などを特に指定しなくても、インデクス基準に影響を及ぼすことなく、単語単位のインデクスを自動的に作成することができる。
【0049】
つぎの発明によれば、データ入力装置によりデータが入力されるとともに、インデクス基準読込装置によりインデクス基準が入力されると、単語関連度マップ作成装置は、入力データに対して、インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度とインデクス基準とに基づいて単語関連度マップを作成する。また、単語重要度付与装置は、入力データの第1の文書中に出現する単語数を、その第1の文書の要約または見出しとなる第2の文書中に出現する単語数で除し、得られた値の分だけ第2の文書中の単語に対して重み付けを行う。また、インデクス作成装置は、その重み付けを用いて単語関連度マップの関連度を一時的に修正し、その修正された単語関連度マップを用いて入力データに対してインデクスを作成する。そして、データ検索装置は、作成されたインデクスに基づいて検索を行い、結果表示装置は、その検索結果を表示する。従って、効率よくインデクスを探すことができ、目的のデータを検索することができる。
【図面の簡単な説明】
【図1】 本発明にかかるデータベース作成装置の一例を示すブロック構成図である。
【図2】 そのデータベース作成装置において使用されるインデクス基準の一構成例を示す系統図である。
【図3】 そのデータベース作成装置において作成された単語関連度マップの一例を示す模式図である。
【図4】 単語関連度マップの作成方法を説明するための説明図である。
【図5】 単語関連度マップに対して重み付けを行う方法を説明するための説明図である。
【図6】 重み付けの決定方法の一例を示すフローチャートである。
【図7】 重み付けを行った単語関連度マップの一例を示す模式図である。
【図8】 抄録と本文との間の重み付けの一例を示す模式図である。
【図9】 インデクス作成方法の一例を示すフローチャートである。
【図10】 本発明にかかるデータベース検索装置の一例を示すブロック構成図である。
【図11】 そのデータベース検索装置で使用される検索用メニューの一例を示す模式図である。
【図12】 そのデータベース検索装置で使用される検索用メニューの他の例を示す模式図である。
【図13】 従来におけるデータベース検索装置を示すブロック構成図である。
【図14】 従来におけるデータベース検索装置を示すブロック構成図である。
【図15】 従来におけるデータベース検索装置を示すブロック構成図である。
【符号の説明】
1 データ、2 データ入力装置、3 データベース、4 インデクス基準、5 インデクス基準読込装置、6 インデクス作成装置、7 単語関連度マップ作成装置、8 単語関連度マップ、9 インデクス、10 単語重要度付与装置。
Claims (2)
- データベースにデータを入力するためのデータ入力装置と、
インデクスの基準となる構成を規定し、インデクスがツリー構造をなすように構成されたインデクス基準を入力するためのインデクス基準読込装置と、
入力されたデータに対して、前記インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度と前記インデクス基準とに基づいて、前記インデクス基準の階層関係に前記単語間の関連度を付与したマップである単語関連度マップを作成する単語関連度マップ作成装置と、
入力されたデータの第1の文書中に出現する単語数を、その第1の文書の要約または見出しとなる第2の文書中に出現する単語数で除し、得られた値の分だけ前記第2の文書中の単語に対して重み付けを行う単語重要度付与装置と、
前記単語重要度付与装置により得られた重み付けを用いて、前記単語関連度マップ作成装置により作成された単語関連度マップの関連度を一時的に修正し、前記入力されたデータに出現した各単語を末端の単語として前記修正された単語関連度マップをルートノードまで遡り、ルートノードまで遡る途中の前記関連度を加算し、得られた関連度の累計を遡った階層数で除して平均値を得ることにより前記入力されたデータを分類するための評価値である分類判定評価値を計算し、該分類判定評価値の最も高い前記末端の単語を分類先として前記入力データに対してインデクスを作成するインデクス作成装置と、
を具備することを特徴とするデータベース作成装置。 - データベースにデータを入力するためのデータ入力装置と、
インデクスの基準となる構成を規定し、インデクスがツリー構造をなすように構成されたインデクス基準を入力するためのインデクス基準読込装置と、
入力されたデータに対して、前記インデクス基準で使用されている単語の出現頻度を調べ、同時に出現する単語について関連度を算出し、その関連度と前記インデクス基準とに基づいて、前記インデクス基準の階層関係に前記単語間の関連度を付与したマップである単語関連度マップを作成する単語関連度マップ作成装置と、
入力されたデータの第1の文書中に出現する単語数を、その第1の文書の要約または見出しとなる第2の文書中に出現する単語数で除し、得られた値の分だけ前記第2の文書中の単語に対して重み付けを行う単語重要度付与装置と、
前記単語重要度付与装置により得られた重み付けを用いて、前記単語関連度マップ作成装置により作成された単語関連度マップの関連度を一時的に修正し、前記入力されたデータに出現した各単語を末端の単語として前記修正された単語関連度マップをルートノードまで遡り、ルートノードまで遡る途中の前記関連度を加算し、得られた関連度の累計を遡った階層数で除して平均値を得ることにより前記入力されたデータを分類するための評価値である分類判定評価値を計算し、該分類判定評価値の最も高い前記末端の単語を分類先として前記入力データに対してインデクスを作成するインデクス作成装置と、
前記インデクス作成装置により作成されたインデクスに基づいて検索を行うデータ検索装置と、
その検索結果を表示する結果表示装置と、
を具備することを特徴とするデータベース検索装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP04531299A JP4037001B2 (ja) | 1999-02-23 | 1999-02-23 | データベース作成装置およびデータベース検索装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP04531299A JP4037001B2 (ja) | 1999-02-23 | 1999-02-23 | データベース作成装置およびデータベース検索装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2000242662A JP2000242662A (ja) | 2000-09-08 |
| JP4037001B2 true JP4037001B2 (ja) | 2008-01-23 |
Family
ID=12715803
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP04531299A Expired - Fee Related JP4037001B2 (ja) | 1999-02-23 | 1999-02-23 | データベース作成装置およびデータベース検索装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4037001B2 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3600611B2 (ja) * | 2002-12-12 | 2004-12-15 | 本田技研工業株式会社 | 情報処理装置および情報処理方法、並びに情報処理プログラム |
| AU2004275334B9 (en) * | 2003-09-15 | 2011-06-16 | Ab Initio Technology Llc. | Data Profiling |
| JP5131923B2 (ja) * | 2008-11-11 | 2013-01-30 | 日本電信電話株式会社 | 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体 |
| KR101052631B1 (ko) | 2009-01-29 | 2011-07-28 | 성균관대학교산학협력단 | 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치 |
-
1999
- 1999-02-23 JP JP04531299A patent/JP4037001B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2000242662A (ja) | 2000-09-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5187313B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
| JP4365074B2 (ja) | ユーザ定義可能なパーソナリティを備えた文書拡充システム | |
| JP4893243B2 (ja) | 画像要約方法、画像表示装置、kツリー表示システム、kツリー表示プログラム、および、kツリー表示方法 | |
| US8239216B2 (en) | Searching an electronic medical record | |
| US5953718A (en) | Research mode for a knowledge base search and retrieval system | |
| US20040168119A1 (en) | method and apparatus for creating a report | |
| CN102770857B (zh) | 关系信息扩展装置、关系信息扩展方法以及程序 | |
| US20160179931A1 (en) | System And Method For Supplementing Search Queries | |
| US6792418B1 (en) | File or database manager systems based on a fractal hierarchical index structure | |
| Averbuch et al. | Context-sensitive medical information retrieval | |
| US20110072012A1 (en) | System and method for information seeking in a multimedia collection | |
| US8160983B2 (en) | Displaying resources based on shared contexts | |
| JP2002230021A (ja) | 情報検索装置及び情報検索方法並びに記憶媒体 | |
| US8091017B2 (en) | Method and apparatus for electronic literary macramé component referencing | |
| JP2008052662A (ja) | 構造化文書管理システム及びプログラム | |
| JP5399450B2 (ja) | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア | |
| JP7437386B2 (ja) | 医療記録を分類する方法 | |
| CN119248945A (zh) | 数据检索方法、装置、计算机设备及存储介质 | |
| Yang et al. | Octopus: aggressive search of multi-modality data using multifaceted knowledge base | |
| JP4037001B2 (ja) | データベース作成装置およびデータベース検索装置 | |
| EP1041499A1 (en) | File or database manager and systems based thereon | |
| US8229963B2 (en) | Schema for federated searching | |
| TW200415483A (en) | Method and device for accessing a database | |
| JP2795317B2 (ja) | 多段表処理方式 | |
| JP2003091535A (ja) | データ管理方法及びプログラム並びに装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040709 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070522 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070711 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070927 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071030 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071031 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131109 Year of fee payment: 6 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |