JP2000507008A - テキスト・ベース型情報ソースのコレクションの中の情報を捜し出すためのシステム、ソフトウエア及び方法 - Google Patents
テキスト・ベース型情報ソースのコレクションの中の情報を捜し出すためのシステム、ソフトウエア及び方法Info
- Publication number
- JP2000507008A JP2000507008A JP9532080A JP53208097A JP2000507008A JP 2000507008 A JP2000507008 A JP 2000507008A JP 9532080 A JP9532080 A JP 9532080A JP 53208097 A JP53208097 A JP 53208097A JP 2000507008 A JP2000507008 A JP 2000507008A
- Authority
- JP
- Japan
- Prior art keywords
- linguistic
- text
- terms
- language
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
テキスト・ベース型情報ソースのコレクションに含まれる情報を処理するシステムは、入力単語の連想的で且つ言語学的拡張を用い、そこにおいて連想的拡張が最初に実行され、そして関連した形態論的及び音声学的規則に従って同時的言語学的拡張が続く。システムは、各言語におけるテキストの大きな本体を分析することにより処理されるべき各言語に対して言語学的知識ベースを自動的に発生し更新する。システムはまた、探索されるべきテキスト・ベース型情報ソースのコレクションを自動的にインデックスする。大きな柔軟性、高精度及び低ノイズ出力を与える二次元(2D)拡張マトリックスを用いて、サポートされた言語における単語又は用語を拡張するための方法が提供される。2D拡張マトリックスは、シソーラス、セーブされた問合せのデータベース及び他の連想された情報ソースを利用する連想的次元であって、単語が意味及び関係により他の単語と関係付けられる当該連想的次元と、認識文法を利用する言語的次元であって、単語が形態論的及び音声学的バリエーションに対する組合された規則により他の単語と関連付けられる当該言語学的次元とを含む。
Description
【発明の詳細な説明】
テキスト・ベース型情報ソースのコレクションの中の
情報を捜し出すためのシステム、ソフトウエア及び方法
背景
1.発明の分野
本発明は一般に情報検索の分野に関する。詳細には、本発明は、テキスト・ベ
ース型情報ソースのコレクションにおいて、ユーザ入力の問合せに関連した情報
を見つけるための情報管理システム及び計算機言語システムに関する。
2.関連技術の説明
情報時代において、巨大な容量の情報を効率的に管理し必要とされる情報を迅
速に見つける能力は、全ての人間の努力における推進力となった。情報管理シス
テムの開発の初期においては、大きな容量の自由形式のテキスト・ドキュメント
及び他のテキスト・ベース型情報ソースを処理する能力は、著しく制限された。
従って、情報の専門家は、データが受け取られ、記億され、参照され得る仕方を
厳しく制御することに基づいて種々のタイプのデータベース管理システム及び探
索システムを開発した。しかしながら、そのようなシステムにより処理されねば
ならない情報の容量及び性質が拡大したので、通常のデータベース管理システム
は後れを取らないようにすることができなくなった。
通常のデータベース管理システムにおいては、データは厳しく構造化された環
境の中に記憶されている。そのようなシステムは、例えば、レコードのテーブル
又はスプレッドシート・モデルに基づき得る。そのようなシステムは、フラット
であり得るか、又はデータベースのレコードが相互に連想する仕方に関して合理
的であり得る。しかしながら、通常のデータベース管理システムは、一般に、そ
こにおいて1つ又は複数のフィールドが探索可能であり得る、即ちキーフィール
ドである構造化されたレコードを必要とする。更に、そのようなキーフィールド
は用語、例えば数体系、ラベル等を、既知の問合せ値、即ち番号、ラベル等の組
合わせにより探索を容易にする一貫した要領で用いることが望ましい。
一般のテキスト・ベース型情報ソース内の情報を捜し出すため、いわゆるフル
テキスト探索が開発された。コンピュータ・システムに記憶されている英語言語
のドキュメントのようなテキスト・ベース型情報ソースのコレクション(collec
tion)のフルテキスト探索は、ユーザが関連のドキュメントにおいて用いられて
いることが既知である用語を含む問合せを書き込むことを可能にする。ドキュメ
ントのコレクションは、最初フルにインデックスされ、インデックスにおけるド
キュメントの単語は問合せの用語と比較される。このタイプのシステムの最も単
純な形式においては、問合せ用語とインデックス・エントリとの正確な一致が、
関連のドキュメントを識別するため見つけられねばならない。つづりの間違い、
単語の異形等は、全ての関連のドキュメントを見つけるのを妨げがちである。ワ
イルドカード化(wild-carding)と呼ばれる技術を用いてこの問題を部分的に多
少解決するため用いられ得るが、ワイルドカード化を用いた場合、「ノイズ」と
呼ばれる多くの無関係なドキュメントがしばしば出てくる。ワイルドカード化の
使用の例は、ユーザ問合せ用語が“compute(計算する)”、“comp
uter(コンピュータ)”、“computing(計算すること)”、“com
putation(計算)”等の概念に対する“comput*”のような関連の
用語の単語語幹(ここで“*”は除外された用語の部分を示す。)であることを
識別したもののみを含む。
高度化(sophistication)のより高いレベルを有する最新且つ通常のフルテキ
スト探索システムが開発されてきた。例えば、G.ピンカス(Pinkans,
G.)の修士論文「Natural Language Full−Text R
etrieval System」(イスラエル大学、1985年)は、単純なワ
イルドカード化より一層ノイズ・フリーに追加の関連用語を含むようユーザの問
合せを自動的に拡張するシステムを開示する。このピンカスのシステムは、(1
)問合せ単語及びブール演算子から構成されたユーザ問合せを受け取り、(2)
該問合せを言語学的に、即ち形態論的及び音声学の情報の事前処理されたデータ
ベースを参照することにより拡張し、(3)該問合せを連想的に、即ち連想的副
問合せ(sub-query)のデータベースを参照することにより拡張し、(4)上記
ステップ(2)及び(3)の結果を併合する。形態論的拡張は、問合せの用
語の挿入辞に到達し、一方音声学的拡張は母音を誤ってつづることにより発生さ
れ得る用語に到達する(例えば、recieve→receive)。連想的拡張
は、(例えば、頭字語“USA”からそのフルの言い方を連想するため)特定の
問合せ一単語と連想付けされている副問合せの形でユーザにより予め定義された
ように問合せに関連した用語に到達する。そして、人は、単語“USA”と、ブ
ール代数の“AND”演算子を次の4つの単語、即ち、1単語距離の付近に制限
された、“United”、“States”、“of”、“America”
に適用する問合せとの間の連想を作る。こうして、包括的な拡張された問合せが
、ユーザの元の問合せに概念的に関連し得る多くの異なる単語をカバーするため
発生される。実行されるべき形態論的拡張のレベル及び音声学的拡張のレベルに
おける幾つかのバリエーションは、拡張パラメータの選択によりユーザに対して
利用可能である。
しかしながら、この形態論的及び音声学的拡張のプロセスは、多くの不効率を
被る。それは、形態論的語幹(stems)及び音素のような異なる「単語語幹(word
-bases)」間の基本的相違を認識するのに失敗する。従って、それは、双方のメ
カニズムにより影響される多くの関連の言語学的並べ換え(linguisticpermutat
ions)を見落とし、同時に、それは、双方のメカニズムを組み合わせる組合わせ
の効果に起因した、大きな量のノイズ、即ち偽りの肯定(false-positive)を発
生する。更に、このプロセスはまた、全く、単一の単語を認識して拡張すること
に制限され、そして、連想的拡張と言語学的拡張との間の相互作用さえ、全く、
双方の結果のつまらない併合に制限され、従って相互のフィードバックを許す概
念的な基礎を共有しない(例えば、問合せ−単語“airplane”は、(“a
irplane”、又は“airplanes”、又は“aircraft”)
へ拡張するが、しかし“aircrafts”へ拡張しない。)。
通常のシステムにおいて、問合せの拡張は、処理されるべき言語の専門家によ
り開発された1組の言語学的規則に依存する。入力言語の出来る限り多い特性が
いずれのテキスト・ベース型情報ソースを処理する前に説明されねばならなかっ
たので、当該1組の言語学的規則は大量で且つ相対的に柔軟性がなかった。処理
されるべき各言語に対する言語学的規則の開発は、非常に労働集約的な且つ多く
の時間を必要とする仕事であった。
最後に、テキスト・ソースの手動のインデックシングを必要とする通常のシス
テム、並びにテキスト・ソースを自動的にインデックスする通常のシステムは既
知である。通常のインデックスは、テキスト・ソースの中に見つけられた単語を
、該単語が見つけられた位置に単純にマップする。手動のフルテキスト・インデ
ックシングは、極端に時間を消費し、且つ誤りが生じがちである。キーワード・
インデックシングは、主観的であり、またやや誤りが生じがちである。
本発明の概要
従って、従来技術に関する前述の問題を解決することが本発明の一般的目的で
ある。従来技術の問題を解決する本発明の局面は、少なくとも、テキスト・ベー
ス型情報ソースのコレクションに含まれる情報を処理するためのシステム、ソフ
トウエア及び方法を含む。
当該システムは、コンピュータ又はデータ・プロセッサと、該コンピュータ又
はデータ・プロセッサにより指定された順序で実行されたとき所望の情報処理の
タスクを実行する1つ又は複数のソフトウエア・モジュール、ユニット又は機能
として構造化されたソフトウエアとを含む。1つ又は複数のソフトウエア・モジ
ュール、ユニット又は機能が、そのようなライブラリを知っている要領で書かれ
るソフトウエア・プログラムにより参照され得るコンパイル時間かランタイム・
ライブラリ・エントリかのいずれかの通常の要領で利用可能にされ得る。本発明
は更に、問合せ−概念を処理し、大きな柔軟性、高精度及び低ノイズ出力を供給
する拡張マトリックスを用いて、当該処理された問合せ−概念を拡張され/改善
された問合せに変換する。
本発明の一局面に従って、
テキスト・ベース型情報ソースのコレクションを受け取る入力を有し、言語学
的知識ベースを生成する自動言語学的知識ベース発生器と、
テキスト・ベース型情報ソースのコレクション及び言語学的知識ベースを受け
取る入力を有し、当該受け取られたテキスト・ベース型情報のインデックスを生
成し、更に、インデックス発生器に対する入力を表し且つインデックスと言語学
的知識ベースとの間の相関を維持するため言語学的知識ベースを更新する前記イ
ンデックス発生器と、
オペレータにより作られた問合せ、言語学的知識ベース、インデックス及びシ
ソーラスを受け取る入力を有し、問合せに関連したテキスト・ベース型情報ソー
スのコレクションにおける位置のリストを生成する問合せプロセッサと
を備えるテキスト・ベース型情報処理システムが提供され得る。該テキスト・ベ
ース型情報処理システムは、非常に多くの修正及び変更を受けやすい。例えば、
自動言語学的知識ベース発生器、自動インデックス発生器及び問合せプロセッサ
は種々の方法で具体化され得る。
本発明の別の局面に従って、
テキストベース型情報処理システムにおいて、自動言語学的知識ベース発生器
は、
用語の入力ストリームを受け取り、個々の用語を生成するパーサと、
前記パーサからの個々の用語を受け取るよう接続され、個々の用語の各々が属
する言語を示す出力を生成する言語認識器と、
個々の用語を受け取るよう、更に前記言語認識器の出力により示された言語に
対する言語学的規則を受け取るよう接続され、正規化された用語を生成する正規
化器と、
適法の個々の用語を受け取るよう接続され、前記言語学的知識ベースに記憶さ
れるエントリを生成する言語学的拡張器と
を備え得る。
本発明の更に別の局面に従って、
テキストベース型情報処理システムにおいて、自動インデックス器は、
用語の入力ストリームを受け取り、個々の用語を生成するパーサと、
前記パーサからの個々の用語を受け取るよう接続され、個々の用語の各々が属
する言語を示す出力を生成する言語認識器と、
個々の用語を受け取るよう、更に前記言語認識器の出力により示された言語に
対する言語学的規則を受け取るよう接続され、正規化された用語を生成する正規
化器と、
適法の個々の用語を受け取るよう接続され、用語が先にインデックスされてい
なかったときインデックスに記憶されたエントリを生成し、また用語が先にイン
デックスされてしまったとき既存のインデックス・エントリを修正するインデッ
クス・エントリ発生器と
を備え得る。
最後に、本発明の更に別の局面に従って、
テキストベース型情報処理システムにおいて、言語における用語を拡張するた
めの拡張装置は、
用語を受け取る入力を有し、且つ当該用語と、連想的拡張器がシソーラスを参
照することにより見つけられた少なくとも1つの関連した用語とを表す出力を有
する前記連想的拡張器と、
前記連想的拡張器の出力に接続された入力を有し、且つ前記言語学的拡張器の
入力と、前記言語学的拡張器の入力に言語学的に関連し且つ言語のための言語学
的知識ベースを参照することにより見つけられた少なくとも1つの用語とを表す
出力を有する前記言語学的拡張器と
を備え得る。
上記に記載した正規化器は2つのユニットから構成され得る。第1の正規化器
ユニットは、個々の用語及び言語学的規則を受け取るよう接続され、違法の文字
(illegal characters)が除去された用語を生成し得て、そして、第2の正規化
器ユニットは、違法の文字が除去された用語及び言語学的規則を受け取るよう接
続され得て、違法の文字が除去されてしまった用語に言語学的規則を適用するこ
とにより見つけられた単語語幹を含む正規化された用語を生成する。
本発明は、添付の図面と関係して、本発明の少なくとも1つの例示的実施形態
の詳細な説明を読むことにより一層良く理解されるであろう。
図面の簡単な説明
図面において、類似の参照番号は類似の構成要素を示す。
図1は、本発明が実施され得るコンピュータ又はデータ処理システムの概略ブ
ロック図である。
図2は、図2のメモリの概略ブロック図である。
図3は、自動言語学的知識ベース発生のフローチャートである。
図4は、自動インデックス発生のフローチャートである。
図5は、問合せ拡張のフローチャートである。
図6は、図3から図5に図示された特徴を含む情報検索システムのフローチャ
ートである。
詳細な説明
以下の詳細な説明を一層良く理解するため、以下の定義に言及する。この説明
においては、「言語」は、音表象の意味(symbolic meaning)を有する、トーク
ンのいずれの組織化された体系であると見なされる。テキスト・ベース型情報シ
ステムにより扱われる最も共通のタイプの言語は単語又は単語の組合わせ、即ち
用語から構成される人間の自然言語であり、それは人間により特定の意味を有す
るよう理解されるので、便宜上、トークンは、以下で「単語(words)」又は「用
語(terms)」と称される。従って、用語「単語」及び「用語」は、単語フレーズ
が実際そのサブユニットから独立した意味を有するトークンであり得るそれらの
事例における単語フレーズと、単語又は単語フレーズが特定の文脈/意義(impo
rtance)を有するそれらの事例におけるキーワードと、頭字語及び切り詰めたも
の(short-cut)のような人工的単語とを包含することを意図する。「単語語幹(w
ordbase)」は、単語が用いられる文脈に対して適切に単語の語根の意味又はこと
ば(speech)の部分を修正する単語の全ての接頭辞及び接尾辞を除去した後に残
る単語の基体部分である。本明細書に用いられる用語「シソーラス(thesaurus)
」は、用語、単語及び/又は単語語幹のデータベースを参照し、そこにおいて各
用語、単語又は単語語幹は、データベースの中で、形態論的近接、音声学的類似
性、類似の意味(類義語)、ほぼ反対の意味(反意語)、より広い意味、より狭い意
味、特定の文脈における関連した用語等の定義された関係を有する他の用語、単
語及び単語語幹を連想する。データベースは、そこに記憶されている用語、単語
及び/又は単語語幹に基づいて誘導(navigate)され又は探索され得る。
ここで考慮される言語は、単語がうけ得る形態論的及び音声学的バリエーショ
ンに対する既知の言語学的規則を有する。例えば、言語の形態論的規則は、複数
が単語の形を変えることにより即ち英語では最後の“s”を加えることにより単
数の名詞から形成される仕方を定義し得る。これに対して、音声学的規則は、ユ
ーザのつづり間違いから生じるつづりにおける共通のバリエーションを表し得る
。テーブル、ファイル又はデータベースは、そのような言語学的規則のリストを
保持するためソフトウエア・プログラムにより用いられ得る。
一般に、言語はまた、言語の言語学的規則に従わない単語を含む。例えば、動
詞の過去時制を発生するための英語言語の形態論的規則は、動詞“to go”
に適用しないで、それはばかげた“goed”とは違う“went”となる。従
って、規則に対する例外は、ソフトウエア・プログラムにより例外のテーブルの
中に保持され得て、そのため該規則に従わない単語は、規則に従う単語と同じよ
うに正確に処理され得る。本発明の文脈においては、特に自然言語において、し
かしまた一般的に言語において、意味を生成する単語語幹のバリエーションの効
率的で適応可能で且つ柔軟な表示を生成するため、言語学的規則と、例外又は不
規則な形式の1つ又は複数のテーブルとをテキストの情報の大きな本体に適用す
ることにより「言語学的知識ベース」が開発されている。「言語学的知識ベース」
は、単語語幹及び関連する単語のテーブル、リスト又はデータベースである。関
連する単語は、言語に対する言語学的規則の下で分析されるとき同じ単語語幹を
有すると決定されたそれらの単語である。
本発明は、コンピュータ・システム及びデータ処理システムの文脈において構
成される。そのようなシステムの全体像は、図1のブロック図と関係して与えら
れる。コンピュータ・システム又はデータ処理システムは、一般に、プロセッサ
101、メモリ103、1つ又は複数の入力装置105及び1つ又は複数の出力
装置107を含み、これら全ては相互接続機構109を介して相互接続されてい
る。この基本計画の多くの変形が可能である。例えば、実行可能なシステムは、
入力装置105及び出力装置107がなく、外部装置(図示せず)によりメモリ
103との対話を通して全体的に通信し得る。また、分散コンピュータ・システ
ム及びデータ処理システムは、この基本計画内に入るように企図される。相互接
続機構109は、パーソナル・コンピュータの内部システム・バスであってもよ
く、またインターネットであってもよく、それらを介してプロセッサ101は遠
隔のメモリ103に記憶されているデータベースと対話する。他の変形は当業者
には明らかであろう。
メモリ103は、この説明に有用な2つのカテゴリ、即ち長期間メモリ(これ
はまた不揮発性メモリと呼ばれる。)と、短期間メモリ(これはまた揮発性メモ
リと呼ばれる。)とに分類される。これら2つのタイプのメモリは、図2に示さ
れるように、コンピュータ・システム及びデータ処理システムにおいてしばしば
用いられている。集積回路ランダム・アクセス・メモリ(RAM)のような揮発
性メモリ201は、そのような揮発性メモリ201が最も容易に実現される技術
が速いプロセッサ101をサポートするのに望ましいような速いアクセス時間を
生じるので、プロセッサ101に物理的に密接に近接してしばしば用いられる。
不揮発性メモリ203は、類似の容量の揮発性メモリより安価に構成することが
できるので、大量のデータを長期間記憶しておくためしばしば用いられる。不揮
発性メモリ203は、磁気又は光学ディスク又はテープ記憶装置としてしばしば
実行され、該記億装置は、異なるコンピュータ又はデータ処理システム間でのデ
ータ及びソフトウエア・プログラムの交換の更なる利点を提供する。それとして
、不揮発性メモリ203は、命令を表す信号が記録されるソフトウエア・プロダ
クト・ディスクであり得て、該命令は、プロセッサ101により実行されるとき
コンピュータ又はデータ処理システムが特定の目的の機能を実行するようにさせ
る。本発明のソフトウエアを具現化したものが、製造業者による販売のため、保
存のため、揮発性メモリ201を介するプロセッサ101によるアクセスのため
等のためそのような不揮発性メモリ203に記録され得る。
本発明の種々の局面に従って、テキスト・ベース型情報ソースのコレクション
にわたり探索し情報を捜し出すためのシステムが構成され得る。本発明の種々の
局面に従って、言語学的知識ベースが最初に発生される。次いで、テキスト・ベ
ース型情報ソースのコレクションがインデックスされる。ユーザは、次に、捜し
求める情報を定義する問合せを入力する。該問合せは、シソーラス及び言語学的
知識ベースを用いて、選択された連想的及び言語学的な規則に従って拡張される
。
最後に、情報は、種々の拡張された問合せ用語と一致する情報が識別される。
シソーラス、言語学的知識ベース及びインデックスは、1つ又は複数のコンピ
ュータ・ファイルに記憶され得て、該コンピュータ・ファイルに対してシステム
はメモリ103を介するアクセスを有する。
言語学的知識ベースの自動発生、インデックスの自動発生、及び問合せ拡張と
関係する本発明の局面が次に詳細に記載される。I.言語学的知識ベースの自動発生
本発明の一局面に従って、適切なデータ処理システムにより実行されるときテ
キスト・ベース型情報ソースの入力本体から言語学的知識ベースを自動的に発生
する図3に示されるようなソフトウエアが提供される。例えば、本発明のこの局
面に従って、英語言語のドキュメントのコレクションが、英語言語の言語学的知
識ベースを発生するため処理され得る。
言語、例えば英語のための言語学的規則に対する例外のリスト302を含む言
語学的規則301の小さい組(集合)が、最初に、テキスト・ベース型情報の大
きい本体の統計的分析により発生される。この小さい組の規則は以下のものを含
む。即ち、
・ 言語における不規則な単語及び単語語幹のリスト、即ち前述した例外のリス
ト
・ 言語における適法の文字(legal characters)文字、即ち言語のアルファベ
ット、及び、言語における適法の文宇の位置、例えば単語内の特定の位置のみに
現れることができる文字に関する特別の規則を指定する単語正規化テーブル
・ 言語における適法の接頭辞及び適法の接尾辞を指定する接頭辞及び接尾辞リ
スト
・ 言語における通常の単語及び適正な名前の双方に対する文字対音声(letter
-to-sound)規則
次いで、例外のリスト302を含むこの言語学的規則の組301を用いて、テキ
スト・ベース型情報ソースの本体303を分析し、テキスト・ベース型情報ソー
スの本体303から特に適合した言語学的知識ベース305を発生する。テキス
ト・ベース型情報ソースの本体303は、例えば、将来の問合せがなされるのを
予想される開発の努力(endeavor)の特定の分野からのソースであるよう選択さ
れ得る。これは、言語学的知識ベースが開発の努力のその特定の分野の特定のも
の(specifics)に一層良く対処することができることをもたらす。それから言
語学的知識ベース305が導出されるテキスト・ベース型情報ソースの本体30
3は、最終的に探索されることになるソースの同じ本体でなくてもよい。しかし
ながら、探索されるべきテキスト・ベース型情報ソースの本体から言語学的知識
ベース305を自動的に発生することは、そのように生成された言語学的知識ベ
ース305が探索されるべきテキスト・ベース型情報ソースの本体に特に良く適
合されるという利点を有する。
言語学的知識ベース305の自動発生は、以下のとおり進行する。テキスト・
ベース型情報ソースの本体303は、システムに対するテキストの入力ストリー
ム304を形成する。この入力ストリーム304は、最初に、固定の単語認識規
則か、1つ又は複数の言語に対して特有の単語認識規則かのいずれかに従って単
語及び用語307に分解(parse)される。次いで、該入力ストリームから分解
された単語の各々の言語は309で認識される。一旦単語の言語が認識されてし
まうと、単語は311で言語に対する言語学的規則301に従って正規化される
。既知の不規則単語が既に不規則単語302のリストにあり、従って更に処理す
る必要がないので、不規則単語もまたこの時点で認識され得る。システムはまた
、潜在的な新しい不規則単語として、あるルールベースの判断基準に合うそれら
の単語を識別し得る。それらの先に未知の不規則単語は、それらが不規則単語の
リストに追加されるべきかの決定のため人間のオペレータに対して識別され得る
。規則的な単語は、言語学的知識ベース305に追加される前に313で言語学
的に拡張され、それにより単語語幹はテキスト・ベース型情報ソースの本体30
3からの関連した単語のリストと共に言語学的知識ベース305に記憶される。
言語学的拡張313が以下に一層詳細に説明される。
入力ストリーム304を文及び単語に分解するステップ307は、以下の疑似
コードに従って生じる。
正規化は次のとおり実行される。正規化は、がらくた文字(garbage characters
)を入力ストリーム304の単語から識別して除去する。最後に、新しいキーが、言語学的知識ベース305に以下の手順により加えられ
る。 上記の疑似コードにおいて示されたような分析を受けた2つの有効な認識タイ
プは形態論的であるし音声学的である。記載される実施形態の形態論的分析器は
、以下の手順に従って機能する。形態論的分析器は、入力単語のため識別された
言語における有効な接頭辞及び接尾辞のリストを受け取る。 音声学的分析器は、文字対音声規則に基づいて各里語を単語の音声学的表示に変
換する。類似の又は同じ音声学的表示を有する単語同士は、それらの音声学的形
態論により関連していると見なされ得る。
上記のプロセスが最初に提示されたテキスト・ベース型情報ソースの本体30
3に対して完了してしまうとき、テキスト・ベース型情報ソースの本体303に
おけるテキストの言語に対する言語学的知識ベース305は、自動的に発生され
てしまう。新しいテキスト・ベース型情報ソースがシステムに加えられるとき、
それらはまた上記のように処理される。こうして、新しい情報の言語学的知識ベ
ース305への追加により、並びに新しい情報に従って言語学的知識ベース30
5の中の個々のエントリの内容を訂正する言語訂正機構により、新しいソースは
言語学的知識ベース305の知識及び正確さを増大させる。言語訂正機構を具体
化する学習手順は次のとおりである。
システムが言語学的知識ベース305と新しく提示されたテキスト・ソースとの
間の不一致を検出したとき、影響を受けた単語語幹、及び関連した単語のリスト
は、自動的に、又は人間オペレータの指図で、新しく提示された情報及び上記の
手順に従って再分析され更新され得る。こうして、システムは、処理された各々
の言語について常に学習し、影響を受けた言語学的知識ベースを更新する。II.言語学的知識ベースと相関したインデックスの自動発生
言語学的知識ベース305に加えて、図4に示される本発明の別の局面に従っ
た検索システムは、インデックス401を自動的に発生し、それによりテキスト
・ベース型情報は、インデックス401を参照することにより見つけられ得る。
言語学的知識ベース305を更新し、そのため言語学的知識ベース305の内容
がテキスト・ベース型情報ソースの本体303に含まれる関連の用語を表し、従
ってインデックス401と相関付けられることにより、インデックス401の自
動発生が達成される。インデックス401は、テキスト・ベース型情報ソースの
本体303に実際に見つけられる単語をテキスト・ベース型情報ソースの本体3
0
3内の位置と単純に関連付ける。該位置は階層的に定義されているのが好ましい
。例えば、該位置は、ドキュメント番号、セクション番号、文番号及び位置番号
により階層的に表され得る。他の階層的位置識別スキームが、当業者により適合
されるのが分かるように用いられ得る。
本発明の好適実施形態に従って、インデックス401は言語学的知識ベース3
05により支援される。インデックス401は、テキスト・ベース型情報ソース
の本体303の中に実際に生じる単語及び用語のみを含む。言語学的知識ベース
305は、テキスト・ベース型情報ソースの本体303の中に実際に生じる単語
から導出された単語語幹を関連した単語のリストと関連付ける。以下で説明され
る検索の間、システムは、言語学的知識ベース305からのエントリを検索し、
次いで該エントリは1つ又は複数のインデックス・エントリを参照するため用い
られる。
インデックス401の自動発生は次のとおり進行する。テキスト・ベース型情
報ソースの本体303は、インデックシング(indexing)・サブシステムに対する
テキストの入力ストリーム304を形成する。この入力ストリーム304は、最
初に、単語認識規則に従って単語及び用語307に分解される。次いで、入力ス
トリームから分解された単語の各々の言語は、309で認識される。一旦単語の
言語が309で認識されてしまうと、単語は、言語に対する言語学的規則301
に従って311で正規化され得る。次いで、インデックス・エントリは、403
で、新しく正規化された単語の各々に対して発生される。正規化された単語が既
にエントリをインデックス401の中に有する場合、単語の現在の発生の位置が
先のエントリに加えられる。
上記のプロセスと実質的に同時に、言語学的知識ベース305は、インデック
ス401に生成された新しく且つ修正されたエントリと相関されるのを連続的に
維持される。各正規化された単語は、その単語語幹405へと単語の言語の言語
学的規則に従って縮小される。次いで、単語語幹及び関連した単語は、存在しな
い場合、言語学的知識ベース・ファイル407に追加される。ユーザはまた、関
連した単語が単語語幹の色々のタイプの拡張を含むことを明記(specify)する
。拡張が含まれる場合、単語語幹の拡張が、単語語幹及び関連した単語を言語学
的
知識ベース・ファイル305に記億する前に実行される。テキスト・ベース型情
報ソースの本体303のインデックシングが完了したとき、言語学的知識ベース
305は、インデックス401と相関させられ、テキスト・ベース型情報ソース
の本体303に含まれる関連の用語を表す。III.問合せの拡張
問合せの拡張は、図5に示される、本発明の第3の局面に従って実行される。
問合せは2以上の単語又は用語を含み得るので、単語の認識は最初に上記のよう
に実行される。
単語認識のタスクにより識別された単語及び用語は更に正規化され得る。即ち
、それらは、所望ならば、語幹形式に変換され得る。シソーラス及び言語学的規
則を参照することにより、つづりの誤りは除去され、頭字語及び切り詰めたもの
の異なる語彙形式が認識され得る等々である。
次いで、問合せにおいて各認識された単語が、2D拡張マトリックスを用いて
拡張され得る。2D拡張マトリックスは、その中に入力単語が表され得る拡張空
間を定義する一つの方法である。この空間の次元は、連想的で且つ言語学的であ
る。連想的次元は、処理されるべき言語において単語/単語一語幹の意味に基づ
いている。本発明の記載される実施形態において、連想的次元は、単語及び用語
をそれらの類義語、より広い用語、より狭い用語及び他の関係と関連付ける1つ
又は複数のシソーラス501により定義される。各シソーラス501は、概念的
に関連した用語を加えた用語のデータベースを含む。シソーラスは用語により探
索可能である。こうして、各シソーラス・エントリは、探索可能な用語のリスト
であるエントリ・キーを含む。各エントリ・キーは、類義語、より広い用語、よ
り狭い用語、関連した用語、反意語等のようなエントリ・キーに概念的に関連付
けられた1つ又は複数の用語を各エントリ・キーと連想付けせしめる。連想のい
ずれの1つ又は複数のカテゴリを含むかは任意である。更に、各エントリ用語は
、通常の辞書定義及び使用ガイド、並びにその中にエントリ・キーが必要なとき
変換され得る問合せストリングを各エントリ用語と任意に連想付けせしめる。こ
うして、シソーラスはエントリのリストであり、そこにおいて各エントリは実質
的に次のとおりの構造を有する。即ち、
・ キーワード:(自然言語フレーズ又は用語の形で)エントリ・キーとして用い
られる。
・ 記述(任意):キーワードの意味及び使用の記述(百科事典におけるのと同様
)
・ 問合せ:必要なときキーワードが変換される基礎をなすフルテキスト問合せ
言語における完全な問合せステートメント(任意)(例えば、キーワード“US
A"→問合せ“United AND States AND of AND
America")キーワードの完全な問合せステートメントへの変換が明示的
に供給されない場合、デフォルト変換がキーワードに付与される。
・ 関係
・ 類義語:概念又は記述子を備えるキーワードと類義語のキーワードのリ
スト
・ より広い用語
・ より狭い用語
・ 連想
・ その他
これらの特徴の全ては、連想的拡張が所望の効果を有しているかを決定するため
オペレータにより用いられ得る。
この拡張空間の言語学的次元は、処理されるべき言語の言語学的知識ベース3
05に基づいている。前述したように、言語学的知識ベースは、テキスト・ベー
ス型情報ソースの実際のコーパス(corpora)から、手作りの言語辞書とは無関
係に、且つ「適法の」又は「適正な」単語に制限されずに、自動的に作られる。
本発明のこの実施形態において、形態論及び音声学の言語学的拡張の文法がサポ
ートされている。
拡張タスクは、2D拡張を実質的に2つの主ステップで実行する。最初に、連
想的拡張が、ステップ503で実行され、そこにおいて入力問合せ505の各入
力単語が、入力単語に対する関連を定義せしめた単語を含む単語のリスト507
に拡張される。連想された単語は、シソーラス501を参照することにより見つ
けられる。単語の拡張されたリスト507は、入力で言語学的拡張509が形態
論的次元及び音声学的次元の双方において同時に実行される当該入力となる。形
態論的及び音声学的拡張は、言語学的知識ベース305を参照することにより制
御される。言語学的拡張509は、ユーザにより供給される拡張パラメータ51
1により制御され、形態論的次元及び音声学的次元の双方がその次元の拡張無し
からその次元のフル拡張までの範囲を変動する程度の形態論的拡張及び音声学的
拡張を含む。形態論的拡張及び音声学的拡張を単一の言語学的拡張ステップ50
9として実行することにより、形態論及び音声学に対する拡張方法は、理性的に
関連付けられ得る。拡張次元同士間の関係は、言語のための言語学的知識ベース
305において定義される。こうして、形態論的拡張のための規則は、入力単語
又は拡張された結果の音声学的特性に応じて変化する形態論的バリエーションを
定義し得る。その結果、より小さいノイズしか拡張された出力に発生しない。そ
れは、形態論的次元及び音声学的次元を単一の言語学的平面として関連させるこ
とは、言語学的規則の全体性の下で音声学的に許容できない形態論的異形を排除
し、そしてその逆の関係であるからである。IV.完全なテキスト検索システム
前述したソフトウエアを用いて、検索システムは、図6に示されるように構成
され得て、該検索システムは、テキスト・ベース型情報ソースのコレクション内
の情報を効率的に且つ正確に捜し出すことができる。簡単には、そのようなシス
テムは、テキスト・ベース型情報ソースの1つ又は複数のコレクション303a
及び303bへのアクセスを与えられる。少なくとも1つのグループのテキスト
・ベース型情報ソース303aは、自動言語学的知識ベース発生ソフトウエア6
01に供給され、該自動言語学的知識ベース発生ソフトウエア601は、前述し
たように言語学的知識ベース305を発生する。テキスト・ベース型情報ソース
303bは、インデックシング・サブシステム603に供給され、該インデック
シング・サブシステム603は、テキスト・ベース型情報ソース303bの中の
単語のインデックス401を生成し、該インデックス401においてインデック
ス401内の各エントリは、前述したように、単語と、上記コレクションの中の
単語の位置との関係を定義する。1つ又は複数の言語のためシステムがシソーラ
ス501及び言語学的知識ベース305を有する当該1つ又は複数の言語の中
の正規化された単語を用いて、インデックス401が発生されるのが好ましい。
インデックシング・サブシステム603は、システムによりサポートされた言語
の1つに適合する形式を有する単語を認識するためのモジュールを含み得て、更
に、システムによりサポートされた各言語に対する適切な正規化するモジュール
を含み得る。単語は、それらの言語において前述したように正規化され、インデ
ックス401に現れる異常なエントリの数を低減する。システムは更に、ユーザ
問合せ505を、ユーザにより求められた情報を表している1つ又は複数の単語
の形で受け取る。問合せ単語は、前述したように、2D拡張マトリックスを用い
て605で拡張される。該問合せは、最初に、問合せ単語の言語に適切なシソー
ラスを参照することにより元の問合せ単語に関連した単語を含むよう連想的に拡
張される。次いで、連想的に拡張された問合せは、形態論的次元と音声学的次元
の双方において同時に言語学的に拡張される。各次元における拡張の程度は、ユ
ーザにより問合せを供給されたパラメータ511によって指定される。拡張の程
度は、例えば、ユーザにより拡張パラメータ511のチェックリストを各問合せ
用語に添付することにより指定され得る。最後に、フルに拡張された問合せ60
7の用語は、609で、インデックス401の中のエントリと比較され、関連の
位置611をテキスト・ベース型情報ソースのコレクション303b内に見出す
。
テキスト・ベース型情報ソースのコレクション303bの中の関連の位置61
1は、元の問合せ用語のいずれかを必ずしも含まない。前述した処理により、見
つけられた位置611は、元の問合せ用語と、連想的及び言語学的の拡張プロセ
スにより生成された関連した用語とのうちの1つを含むであろう。見つけられた
位置611は、多くの「ノイズ」の位置を含まないであろう。それは、音声学的
に無意味な結果を発生するため形態論的規則を適用する問題を避ける、またその
逆の形態論的に無意味な結果を発生するため音声学的規則を適用する問題を避け
る相互依存的に形態論的言語学的規則及び音声学的言語学的規則が同時に適用さ
れる要領で、言語学的拡張プロセスが前述したように実行されるからである。
前述したようなシステムにおいて、テキスト・ベース型情報ソースは、コンピ
ュータ・システムに記憶されたテキスト・ドキュメントであり得る。この場合、
インデックシング・システムが、ドキュメント番号、セクション番号、文番号及
び文内の位置により位置を階層的に参照することは便利である。更に、自由にフ
ォーマットされたドキュメントは、前述のシステムにより処理され得る。ある従
来技術のシステムにおいてなされているように、特定の方法でドキュメントを構
造化すること、又は分類又はキーワードを手動で生成する必要はない。それは、
本発明のシステムは、単語が発生する言語の規則に従って、単語をインデックス
し、問合せを操作するからである。
フレーズが特定の言語において単一の単語又は用語として取り扱われることが
望まれる場合、そのフレーズは、そのようにシソーラスにおいて概念的エントリ
として定義され得る。他の全ての点で、単語としてそのように定義されたフレー
ズは、単純に言語における単語として取り扱われる。しかしながら、受け入れら
れたキーワードの長いリストを宣言することは不必要である。それは、インデッ
クシングのプロセス及び問合せ拡張は、求められた情報を合理的に表すユーザ問
合せに対して正確で相対的にノイズのない一致を発生するからである。
こうして本発明の少なくとも1つの例示的実施形態を記載したが、種々の代替
、修正及び改良が当業者には容易に生じるであろう。そのような代替、修正及び
改良は、本発明の精神及び範囲内にあることを意図するものである。従って、前
述の記載は、例示のみであり、制限として意図されたものではない。本発明は、
請求の範囲及びその均等物において定義されるようにのみ制限されるものである
。
【手続補正書】特許法第184条の8第1項
【提出日】1998年5月8日(1998.5.8)
【補正内容】
請求の範囲
1.1組の言語学的規則に従って単語語幹と単語との間の関係を定義する言語学
的知識ベースと、
異なる単語間の概念的関係を定義するシソーラスと、
問合せプロセッサとを備え、
前記問合せプロセッサは、
単語を受け取る入力を有し、且つ当該単語と、前記シソーラスを参照すること
により見つけられた少なくとも1つの連想された単語とを表す出力を有する連想
的拡張器と、
前記連想的拡張器の出力に接続された入力を有し、且つ言語学的拡張器の入力
と、前記言語学的拡張器の入力と言語学的に関連し且つ前記言語学的知識ベース
を参照することにより見つけられた少なくとも1つの単語とを表す出力を有する
言語学的拡張器とを有する
テキスト・ベース型情報処理システム。
2.テキスト・ベース型情報ソースのコレクションを受け取る入力を有し、且つ
前記言語学的知識ベースを生成する自動言語学的知識ベース発生器を更に備える
請求項1記載のシステム。
3.前記自動言語学的知識ベース発生器は更に、
単語の入力ストリームを受け取り、個々の単語を生成するパーサと、
前記パーサからの個々の単語を受け取るよう接続され、個々の単語の各々が属
する言語を示す出力を生成する言語認識器と、
個々の単語を受け取るよう接続され、更に前記言語認識器の出力により示され
た言語のための言語学的規則を受け取るよう接続され、且つ正規化された単語を
生成する正規化器と、
当該正規化された単語を受け取る入力を有し、前記言語学的拡張器の入力と、
前記言語学的拡張器の入力と言語学的に関連した少なくとも1つの単語とを表す
出力を生成し、且つ前記言語学的知識ベースを更新する言語学的拡張器とを備え
る
請求項2記載のシステム。
4.前記言語学的拡張器は更に、
前記テキスト・ベース型情報ソースから単語を受け取る入力を有し、且つ接頭
辞及び接尾辞を取り去った、入力での単語に対応する単語語幹を識別する出力を
有する形態論的単語分析器と、
前記テキスト・ベース型情報ソースから単語を受け取る入力を有し、且つ類似
の音声学的表示を有する単語を識別する出力を有する音声学的単語分析器とを備
える
請求項3記載のシステム。
5.前記正規化器は更に、
個々の単語及び言語学的規則を受け取るよう接続され、且つ違法の文字が除去
された単語を生成する第1の正規化器ユニットと、
違法の文字が除去された単語と言語学的規則とを受け取るよう接続され、且つ
違法の文字が除去された単語に言語学的規則を適用することにより見つけられた
単語語幹を含む正規化された単語を生成する第2の正規化器ユニットとを備える
請求項4記載のシステム。
6.テキスト・ベース型情報ソースのコレクション及び言語学的知識ベースを受
け取る入力を有し、出力で前記の受け取られたテキスト・ベース型情報のインデ
ックスを生成し、更に、インデックス発生器に対する入力を表し且つインデック
スと言語学的知識ベースとの間の相関を維持するため言語学的知識ベースを更新
するインデックス発生器を備える請求項1記載のシステム。
7.前記インデックス発生器は更に、
前記テキスト・ベース型情報ソースの単語の入力ストリームを受け取り、個々
の単語を生成するパーサと、
前記パーサから個々の単語を受け取るよう接続され、且つ個々の単語の各々が
属する言語を示す出力を生成する言語認識器と、
個々の単語を受け取るよう接続され、更に前記言語認識器の出力により示され
た言語のための言語学的規則を受け取るよう接続され、且つ正規化された単語を
生成する正規化器と、
インデックス・エントリを更新する出力を有するエントリ更新器とを備える請
求項6記載のシステム。
8.前記正規化器は更に、
個々の単語及び言語学的規則を受け取るよう接続され、且つ違法の文字が除去
された単語を生成する第1の正規化器ユニットと、
違法の文字が除去された単語及び言語学的規則を受け取るよう接続され、且つ
違法の文字が除去された単語に言語学的規則を適用することにより見つけられた
単語語幹を含む正規化された用語を生成する第2の正規化ユニットとを備える請
求項7記載のシステム。
9.前記言語学的拡張器の出力を受け取る入力を有し、且つ前記言語学的拡張器
の出力と一致するテキスト・ベース型情報ソースをインデックスを参照すること
により見つけられるように識別する出力を有する比較器を更に備える請求項1記
載のシステム。
10.前記比較器の出力がテキスト・ベース型情報ソースを階層的に識別する請
求項9記載のシステム。
11.前記自動言語学的知識ベース発生器は更に、
テキスト・ベース型情報ソースの単語の入力ストリームを受け取り、個々の単
語を生成するパーサと、
前記パーサからの個々の単語を受け取るよう接続され、個々の単語の各々が属
する言語を示す出力を生成する言語認識器と、
個々の単語を受け取るよう接続され、更に前記言語認識器の出力により示され
た言語のための言語学的規則を受け取るよう接続され、且つ正規化された単語を
生成する正規化器と、
当該正規化された単語を受け取るよう接続され、前記言語学的知識ベースに記
憶されるエントリを生成する言語学的拡張器とを備える
請求項1記載のシステム。
12.前記正規化器は更に、
個々の単語及び言語学的規則を受け取るよう接続され、且つ違法の文字が除去
された単語を生成する第1の正規化器ユニットと、
違法の文字が除去された単語と言語学的規則とを受け取るよう接続され、且つ
違法の文字が除去された単語に言語学的規則を適用することにより見つけられた
単語語幹を含む正規化された単語を生成する第2の正規化器ユニットとを備える
請求項11記載のシステム。
─────────────────────────────────────────────────────
フロントページの続き
(81)指定国 EP(AT,BE,CH,DE,
DK,ES,FI,FR,GB,GR,IE,IT,L
U,MC,NL,PT,SE),CA,JP
【要約の続き】
当該言語学的次元とを含む。
Claims (1)
- 【特許請求の範囲】 1.テキスト・ベース型情報ソースのコレクションを受け取る入力を有し、言語 学的知識ベースを生成する自動言語学的知識ベース発生器と、 テキスト・ベース型情報ソースのコレクション及び言語学的知識ベースを受け 取る入力を有し、当該受け取られたテキスト・ベース型情報のインデックスを生 成し、更に、インデックス発生器に対する入力を表し且つインデックスと言語学 的知識ベースとの間の相関を維持するため言語学的知識ベースを更新する前記イ ンデックス発生器と、 オペレータにより作られた問合せ、言語学的知識ベース、インデックス及びシ ソーラスを受け取る入力を有し、問合せに関連したテキスト・ベース型情報ソー スのコレクションにおける位置のリストを生成する問合せプロセッサと を備えるテキスト・ベース型情報処理システム。 2.テキストベース型情報処理システムにおいて、 用語の入力ストリームを受け取り、個々の用語を生成するパーサと、 前記パーサからの個々の用語を受け取るよう接続され、個々の用語の各々が属 する言語を示す出力を生成する言語認識器と、 個々の用語を受け取るよう接続され、更に、前記言語認識器の出力により示さ れた言語に対する言語学的規則を受け取るよう接続され、正規化された用語を生 成する正規化器と、 正規化された用語を受け取るよう接続され、前記言語学的知識ベースに記憶さ れるエントリを生成する言語学的拡張器と を備える自動言語学的知識ベース発生器。 3.前記正規化器は更に、 個々の用語及び言語学的規則を受け取るよう接続され、違法の文字が除去され た用語を生成する第1の正規化器ユニットと、 違法の文字が除去された用語、及び言語学的規則を受け取るよう接続され、違 法の文字が除去された用語に言語学的規則を適用することにより見つけられた単 語語幹を含む正規化された用語を生成する第2の規化器ユニットと を備える請求項2記載のシステム。 4.テキストベース型情報処理システムにおいて、 用語の入力ストリームを受け取り、個々の用語を生成するパーサと、 前記パーサからの個々の用語を受け取るよう接続され、個々の用語の各々が属 する言語を示す出力を生成する言語認識器と、 個々の用語を受け取るよう接続され、更に、前記言語認識器の出力により示さ れた言語に対する言語学的規則を受け取るよう接続され、正規化された用語を生 成する正規化器と、 テキスト・ベース型情報ソースのコレクション及び言語学的知識ベースを受け 取る入力を有し、当該受け取られたテキスト・ベース型情報のインデックスを生 成し、更に、インデックス発生器に対する入力を表し且つインデックスと言語学 的知識ベースとの間の相関を維持するため言語学的知識ベースを更新する前記イ ンデックス発生器と を備える自動インデックス器。 5.前記正規化器は更に、 個々の用語及び言語学的規則を受け取るよう接続され、違法の文字が除去され た用語を生成する第1の正規化器ユニットと、 違法の文字が除去された用語、及び言語学的規則を受け取るよう接続され、違 法の文字が除去された用語に言語学的規則を適用することにより見つけられた単 語語幹を含む正規化された用語を生成する第2の正規化器ユニットと を備える請求項4記載のシステム。 6.テキスト・ベース型情報処理システムにおいて、 用語を受け取る入力を有し、且つ当該用語と、連想的拡張器がシソーラスを参 照することにより見つけられた少なくとも1つの連想された用語とを表す出力を 有する前記連想的拡張器と、 前記連想的拡張器の出力に接続された入力を有し、且つ前記言語学的拡張器の 入力、及び前記言語学的拡張器の入力に言語学的に関連した少なくとも1つの用 語を表す出力を有する前記言語学的拡張器と を備える、言語における用語を拡張するための拡張装置。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US1481596P | 1996-04-04 | 1996-04-04 | |
| US60/014,815 | 1996-04-04 | ||
| US66047896A | 1996-06-07 | 1996-06-07 | |
| US08/660,478 | 1996-06-07 | ||
| PCT/IB1997/000748 WO1997038376A2 (en) | 1996-04-04 | 1997-04-04 | A system, software and method for locating information in a collection of text-based information sources |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000507008A true JP2000507008A (ja) | 2000-06-06 |
Family
ID=26686566
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9532080A Pending JP2000507008A (ja) | 1996-04-04 | 1997-04-04 | テキスト・ベース型情報ソースのコレクションの中の情報を捜し出すためのシステム、ソフトウエア及び方法 |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP0934569A2 (ja) |
| JP (1) | JP2000507008A (ja) |
| CA (1) | CA2250694A1 (ja) |
| WO (1) | WO1997038376A2 (ja) |
Families Citing this family (32)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6144958A (en) | 1998-07-15 | 2000-11-07 | Amazon.Com, Inc. | System and method for correcting spelling errors in search queries |
| WO2001067280A2 (en) * | 2000-03-08 | 2001-09-13 | Accenture Llp | Method for a knowledge model |
| US6957205B1 (en) | 2000-03-08 | 2005-10-18 | Accenture Llp | Knowledge model-based indexing of information |
| US7350138B1 (en) * | 2000-03-08 | 2008-03-25 | Accenture Llp | System, method and article of manufacture for a knowledge management tool proposal wizard |
| SE517496C2 (sv) | 2000-06-22 | 2002-06-11 | Hapax Information Systems Ab | Metod och system för informationsextrahering |
| US7072847B2 (en) * | 2000-08-25 | 2006-07-04 | Jonas Ulenas | Method and apparatus for obtaining consumer product preferences through product selection and evaluation |
| US6735560B1 (en) * | 2001-01-31 | 2004-05-11 | International Business Machines Corporation | Method of identifying members of classes in a natural language understanding system |
| US7979314B2 (en) | 2001-08-23 | 2011-07-12 | Jonas Ulenas | Method and apparatus for obtaining consumer product preferences through interactive product selection and evaluation |
| US6996774B2 (en) | 2002-02-12 | 2006-02-07 | Accenture Global Services Gmbh | Display of data element indicia based on data types |
| US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
| GB2417115A (en) * | 2002-09-27 | 2006-02-15 | Hewlett Packard Development Co | Managing synonymic searching and ranking results |
| US20040064447A1 (en) * | 2002-09-27 | 2004-04-01 | Simske Steven J. | System and method for management of synonymic searching |
| EP1411448A3 (en) * | 2002-10-17 | 2007-12-05 | Matsushita Electric Industrial Co., Ltd. | Data searching apparatus |
| US7383269B2 (en) | 2003-09-12 | 2008-06-03 | Accenture Global Services Gmbh | Navigating a software project repository |
| US20060179069A1 (en) | 2005-02-04 | 2006-08-10 | Bechtel Michael E | Knowledge discovery tool navigation |
| US20060179026A1 (en) | 2005-02-04 | 2006-08-10 | Bechtel Michael E | Knowledge discovery tool extraction and integration |
| US7904411B2 (en) | 2005-02-04 | 2011-03-08 | Accenture Global Services Limited | Knowledge discovery tool relationship generation |
| US8660977B2 (en) | 2005-02-04 | 2014-02-25 | Accenture Global Services Limited | Knowledge discovery tool relationship generation |
| US7716201B2 (en) | 2006-08-10 | 2010-05-11 | Yahoo! Inc. | Method and apparatus for reconstructing a search query |
| KR101266267B1 (ko) | 2006-10-05 | 2013-05-23 | 스플렁크 인코퍼레이티드 | 시계열 검색 엔진 |
| US7765176B2 (en) | 2006-11-13 | 2010-07-27 | Accenture Global Services Gmbh | Knowledge discovery system with user interactive analysis view for analyzing and generating relationships |
| US10353957B2 (en) | 2013-04-30 | 2019-07-16 | Splunk Inc. | Processing of performance data and raw log data from an information technology environment |
| US10019496B2 (en) | 2013-04-30 | 2018-07-10 | Splunk Inc. | Processing of performance data and log data from an information technology environment by using diverse data stores |
| US12373497B1 (en) | 2013-04-30 | 2025-07-29 | Splunk Inc. | Dynamic generation of performance state tree |
| US10318541B2 (en) | 2013-04-30 | 2019-06-11 | Splunk Inc. | Correlating log data with performance measurements having a specified relationship to a threshold value |
| US10614132B2 (en) | 2013-04-30 | 2020-04-07 | Splunk Inc. | GUI-triggered processing of performance data and log data from an information technology environment |
| US10997191B2 (en) | 2013-04-30 | 2021-05-04 | Splunk Inc. | Query-triggered processing of performance data and log data from an information technology environment |
| US10225136B2 (en) | 2013-04-30 | 2019-03-05 | Splunk Inc. | Processing of log data and performance data obtained via an application programming interface (API) |
| US10346357B2 (en) | 2013-04-30 | 2019-07-09 | Splunk Inc. | Processing of performance data and structure data from an information technology environment |
| US11550751B2 (en) | 2016-11-18 | 2023-01-10 | Microsoft Technology Licensing, Llc | Sequence expander for data entry/information retrieval |
| US10698937B2 (en) | 2017-12-13 | 2020-06-30 | Microsoft Technology Licensing, Llc | Split mapping for dynamic rendering and maintaining consistency of data processed by applications |
| CN112053758B (zh) * | 2020-08-27 | 2024-04-16 | 北京颢云信息科技股份有限公司 | 一种单病种数据库智能构建方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5404506A (en) * | 1985-03-27 | 1995-04-04 | Hitachi, Ltd. | Knowledge based information retrieval system |
| JP3067966B2 (ja) * | 1993-12-06 | 2000-07-24 | 松下電器産業株式会社 | 画像部品を検索する装置及びその方法 |
-
1997
- 1997-04-04 WO PCT/IB1997/000748 patent/WO1997038376A2/en not_active Ceased
- 1997-04-04 JP JP9532080A patent/JP2000507008A/ja active Pending
- 1997-04-04 EP EP97925221A patent/EP0934569A2/en not_active Withdrawn
- 1997-04-04 CA CA002250694A patent/CA2250694A1/en not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| CA2250694A1 (en) | 1997-10-16 |
| EP0934569A2 (en) | 1999-08-11 |
| WO1997038376A3 (en) | 1997-12-04 |
| WO1997038376A2 (en) | 1997-10-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2000507008A (ja) | テキスト・ベース型情報ソースのコレクションの中の情報を捜し出すためのシステム、ソフトウエア及び方法 | |
| Alwaneen et al. | Arabic question answering system: a survey | |
| US8041697B2 (en) | Semi-automatic example-based induction of semantic translation rules to support natural language search | |
| US6161084A (en) | Information retrieval utilizing semantic representation of text by identifying hypernyms and indexing multiple tokenized semantic structures to a same passage of text | |
| US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
| US7567902B2 (en) | Generating speech recognition grammars from a large corpus of data | |
| US20100332217A1 (en) | Method for text improvement via linguistic abstractions | |
| Jabbar et al. | An analytical analysis of text stemming methodologies in information retrieval and natural language processing systems | |
| KR20040025642A (ko) | 확인 문장을 검색하기 위한 방법 및 시스템 | |
| KR100835706B1 (ko) | 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 | |
| JP2011118689A (ja) | 検索方法及びシステム | |
| Nwesri | Effective retrieval techniques for Arabic text | |
| US5978798A (en) | Apparatus for and method of accessing a database | |
| US7409381B1 (en) | Index to a semi-structured database | |
| US12265796B2 (en) | Lookup source framework for a natural language understanding (NLU) framework | |
| Yun et al. | Semantic‐based information retrieval for content management and security | |
| Yeshambel et al. | Evaluation of corpora, resources and tools for Amharic information retrieval | |
| Eldos | Arabic text data mining: A root-based hierarchical indexing model | |
| Litkowski | Question answering using XML-tagged documents | |
| Hanane et al. | A model of a generic Arabic language interface for multimodel database | |
| US20250322005A1 (en) | System and method for weighted identity retrieval | |
| JP3176750B2 (ja) | 自然言語の翻訳装置 | |
| Rakhimova et al. | Lemmatization of big data in the Kazakh language | |
| Yahia et al. | An intelligent algorithm for Arabic soundex function using intuitionistic fuzzy logic | |
| Papakitsos et al. | Modelling a Morpheme‐based Lexicon for Modern Greek |