JP2005010880A - Information search method, information search program, and information search apparatus - Google Patents
Information search method, information search program, and information search apparatus Download PDFInfo
- Publication number
- JP2005010880A JP2005010880A JP2003171548A JP2003171548A JP2005010880A JP 2005010880 A JP2005010880 A JP 2005010880A JP 2003171548 A JP2003171548 A JP 2003171548A JP 2003171548 A JP2003171548 A JP 2003171548A JP 2005010880 A JP2005010880 A JP 2005010880A
- Authority
- JP
- Japan
- Prior art keywords
- search
- keyword
- zero
- condition
- search results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】意味体系や分類体系、地理的知識等を用いて検索条件を修正し、適切な検索結果を提示すると共に、検索結果に関連する情報の検索の容易化。
【解決手段】入力した自然言語形式の質問から、キーワード間の関係からなる検索条件を取り出すステップと、検索条件に含まれる各キーワードに対応するインターネット上の文書を取得し、キーワード間の関係に基づき文書をリンクさせて木構造の検索結果を取得する(201)。各キーワードに対応する検索結果数がゼロ或るいは設定した閾値を超えていないか判定し(202,203)、検索結果数がゼロの場合には、キーワードの属する意味体系に従い抽象化を図って検索条件の限定範囲を広げるステップと(204)、検索結果数が閾値を越える場合には、キーワードの属する意味体系に従いより具体的なキーワードを提示し、その中からの選択をユーザに求めるステップと(205)を備える。
【選択図】 図4[PROBLEMS] To correct a search condition using a semantic system, a classification system, geographical knowledge, etc., present an appropriate search result, and facilitate search of information related to the search result.
A step of retrieving a search condition including a relationship between keywords from an inputted question in a natural language format, a document on the Internet corresponding to each keyword included in the search condition is acquired, and based on the relationship between keywords The search result of the tree structure is acquired by linking the documents (201). It is determined whether the number of search results corresponding to each keyword is zero or does not exceed a set threshold (202, 203). A step of widening a limited range of search conditions (204), and if the number of search results exceeds a threshold, presenting a more specific keyword according to the semantic system to which the keyword belongs, and asking the user to select from among them (205).
[Selection] Figure 4
Description
【0001】
【発明の属する技術分野】
本発明は、インターネット上の文書を検索する情報検索方法、情報検索プログラム及び情報検索装置に関するものである。詳しくは、ユーザが入力した検索条件に対する検索結果を求める際、その結果の件数に応じて、意味体系や分類体系、地理的知識などの背景知識を用いて検索条件を修正し、より適切な検索結果をユーザに提示することと、求めた検索結果に関連する情報への派生的検索を容易にするものである。
【0002】
【従来の技術】
現在、インターネット上には膨大な情報が発信され、街角の商店や観光地の名所など、実世界の事物に関する情報がネットワーク経由で容易に手に入るようになってきた。
こうした情報は、そのインターネット上の場所を示すURL(Uniform Resource Locator)を指定することにより手に入れることができるが、実際にはGoogle(http://www.google.com)やgoo(http://www.goo.ne.jp)などによるキーワード指定による検索サービスを利用して、ユーザは欲しい情報ヘアクセスしていると考えられる。
【0003】
これらのサービスでは、入力されたキーワードが機械的に評価され、そのキーワードを含む文書すべてが検索結果として返却される。
その検索結果は、様々な観点からソートされ、ユーザが必要する文書が上位に順位付けされる。
この方法においては、検索の際に適切なキーワードを入力しないと有効な検索結果が得られないという問題がある。
【0004】
この問題を解決する方法について、これまでにデジタルシティ京都及びジオリング京都において、下記のように検討してきた。
1.座標付きWebページ収集提供方法として、特許文献1に開示されてるものは、インターネットからWebページを収集する方法と、収集したWebページから検索を目的としたデータベースを作成する方法、そしてネットワークに接続した複数のクライアントからの検索処理方法からなる。
まず、Webロボットを利用して、インターネットからWebページを再帰的に収集し、記述されている情報に従って取捨選択する。
【0005】
そして、選択したWebページからHTMLタグを削除し、形態素解析によって住所や名称などの固有名詞を抽出し、その固有名詞に対応する地理座標を対象地域の地理情報から求める。
このWebページの地理情報をURLとともに検索用のデータベースに登録し、コンピュータネットワークに接続された複数の端末からの検索処理を実現する。
【0006】
2.地図情報とその地図に関連した情報とをコンピュータネットワークから受信して端末画面上に重ね合わせて表示する方法として、特許文献2に開示されているものは、前記座標付きWebページ収集提供方法を実現する装置のインターフェースとなる。
以上説明した方法は、Webページに記述された情報からそのページのメタ情報を抽出し、それを整理してデータベース化することで、インターネット上の文書の検索方法を改善した。
【0007】
しかし、検索結果の件数に応じて検索条件を修正するような能動的な検索補助や、一旦検索した結果を起点とした関連情報検索の支援については未着手であった。
この未着手の課題に関連する方法として、特許文献3に開示されている方法は、暖昧な質問を対話的修正で詳細化し、位置関連情報とともに提供するものである。
しかし、この方法における対話的修正は位置に関するものに限定され、その適用範囲も目標を見つけることに限定されている。
【0008】
また、インターネットに関する技術文書の制定・公開を行っているWorld Wide Web Consortium(http://www.w3c.org)が中心となり、セマンティックウェブの実現に向けた活動が進められている。
このセマンティックウェブでは、機械が意味を理解し、推論による情報探索や問題解決を可能にすることを目標とし、その基礎技術の確立のために、
RDF (http://www.w3c.org/RDF/),
RDFスキーマ(http://www.w3.0rg/TR/2000/CR−rdf−schema−20000327/),
OWL (http://www.w3.org/TR/owl−features/)
に関する議論が行われている。
【0009】
これらの技術の利用により、文書内に記述されている情報に関するメタ情報の記述形式やその制約の記述の統一、そしてメタ情報の記述で利用される語彙に関する説明や、その体系を記述したオントロジの標準化が期待されている。
【0010】
【特許文献1】
特開2000−339330公報
【特許文献2】
特開2000−339328公報
【特許文献3】
特開平11−265141号公報
【非特許文献1】
「地域情報サービスのための拡張Web空間」、平松薫、石田亨、情報処理学会論文誌:データベース、Vol.41,No.SIG6(TOD7),pp.81−90(2000)
【非特許文献2】
「SAIQA:大量文書に基づく質問応答システム」、佐々木裕他、情報処理学会研究報告2001−FI−64,pp.77−82(2001)
【0011】
【発明が解決しようとする課題】
本発明は、インターネット上の文書を検索する際の課題のうち、適切な件数の検索結果を得るために必要な検索条件の修正に関する課題と、一旦取得した検索結果から適切な関連情報を検索するために必要な検索条件の生成に関する課題を、一般的な関係や体系を記述したオントロジと文書に関するメタ情報の利用により解決する。
メタ情報の記述形式にはW3Cで標準化された技術を用い、その各種関係性を記述したオントロジを参照することで、その機械的な解釈を実現する。
【0012】
【課題を解決するための手段】
斯かる目的を達成する本発明の情報検索方法は、検索条件に基づきインターネット上の文書を検索する方法において、入力した自然言語形式の質問からキーワードとキーワード間の関係からなる検索条件を取り出すステップと、その検索条件に含まれる各キーワードに対応するインターネット上の文書を取得し、キーワード間の関係に基づき文書をリンクさせて木構造の検索結果を取得する際、キーワードそれぞれに対応する検索結果を取得し、その検索結果数がゼロ若しくは予め設定した閾値を超えていないかチェックし、検索結果数がゼロの場合には、そのキーワードの属する意味体系に従い抽象化を図って検索条件の限定範囲を広げるステップと、検索結果数が閾値を越える場合には、キーワードの属する意味体系に従いより具体的なキーワードを提示し、その中からの選択をユーザに求めるステップと、必要に応じて、上記ステップによる検索結果をキーワード間の関係に基づき統合する際、検索結果間の接続数がゼロ若しくは予め設定した閾値を超えていないかチェックし、検索結果間の接続数がゼロの場合には、その接続条件を意味的若しくは数値的に緩和するステップと、検索結果間の接続数が閾値を越える場合には、接続条件を意味的若しくは数値的に強化するステップと、必要に応じて、上記ステップを経て取得した木構造の検索結果をグラフ形式、表形式、地図上の重ね合わせ表示の複数の表示形式を併用してユーザに提示するステップと、更に必要に応じて、検索結果に含まれる文書のもつ各属性に意味的、地理的な関連する文書を検索するための検索条件を意味体系に従い作成し、その検索結果をユーザに提供するステップを備えることを特徴とする。
【0013】
上記目的を達成する本発明の情報検索プログラムは、検索条件に基づきインターネット上の文書を検索するプログラムであって、入力した自然言語形式の質問からキーワードとキーワード間の関係からなる検索条件を取り出す処理と、その検索条件に含まれる各キーワードに対応するインターネット上の文書を取得し、キーワード間の関係に基づき文書をリンクさせて木構造の検索結果を取得する際、キーワードそれぞれに対応する検索結果を取得し、その検索結果数がゼロ若しくは予め設定した閾値を超えていないかチェックし、検索結果数がゼロの場合には、そのキーワードの属する意味体系に従い抽象化を図って検索条件の限定範囲を広げる処理と、検索結果数が閾値を越える場合には、キーワードの属する意味体系に従いより具体的なキーワードを提示し、その中からの選択をユーザに求める処理と、必要に応じて、上記処理による検索結果をキーワード間の関係に基づき統合する際、検索結果間の接統数がゼロ若しくは予め設定した閾値を超えていないかチェックし、検索結果間の接続数がゼロの場合には、その接続条件を意味的若しくは数値的に緩和する処理と、検索結果間の接続数が閾値を越える場合には、接続条件を意味的若しくは数値的に強化する処理と、必要に応じて、上記処理を経て取得した木構造の検索結果をグラフ形式、表形式、地図上の重ね合わせ表示の複数の表示形式を併用してユーザに提示する処理と、更に必要応じて、検索結果に含まれる文書のもつ各属性に意味的、地理的な関連する文書を検索するための検索条件を意味体系に従い作成し、その検索結果をユーザに提供する処理を含むことを特徴とする。
【0014】
上記目的を達成する本発明の情報検索装置は、検索条件に基づきインターネット上の文書を検索する装置において、入力した自然言語形式の質問からキーワードとキーワード間の関係からなる検索条件を取り出す手段と、その検索条件に含まれる各キーワードに対応するインターネット上の文書を取得し、キーワード間の関係に基づき文書をリンクさせて木構造の検索結果を取得する際、キーワードそれぞれに対応する検索結果を取得し、その検索結果数がゼロ若しくは予め設定した閾値を超えていないかチェックし、検索結果数がゼロの場合には、そのキーワードの属する意味体系に従い抽象化を図って検索条件の限定範囲を広げる手段と、検索結果数が閾値を越える場合には、キーワードの属する意味体系に従いより具体的なキーワードを提示し、その中からの選択をユーザに求める手段と、必要に応じて、上記手段による検索結果をキーワード間の関係に基づき統合する際、検索結果間の接続数がゼロ若しくは予め設定した閾値を超えていないかチェックし、検索結果間の接続数がゼロの場合には、その接続条件を意味的若しくは数値的に緩和する手段と、検索結果間の接続数が閾値を越える場合には、接続条件を意味的若しくは数値的に強化する手段と、必要に応じて、上記手段により取得した木構造の検索結果をグラフ形式、表形式、地図上の重ね合わせ表示の複数の表示形式を併用してユーザに提示する手段と、更に必要に応じて、検索結果に含まれる文書のもつ各属性に意味的、地理的な関連する文書を検索するための検索条件を意味体系に従い作成し、その検索結果をユーザに提供する手段を備えることを特徴とする。
【0015】
【発明の実施の形態】
本発明は、概念間の一般的な関係や体系を記したオントロジを利用することによって、インターネット上の文書を効率的に検索することを可能とする。
前記の課題のうち、適切な件数の検索結果を得るための検索条件の修正については、検索結果がゼロの場合や非常に多数の場合の回避を目的に、一般的な関係を記したオントロジに基づき記述された単語間の意味関係に基づく検索条件の修正や、検索条件に含まれる数値条件の修正を実施する。
【0016】
この修正を検索結果の件数に応じてシステムが能動的に行うことで、適切な件数の検索結果が取得可能となり、検索結果の分布やその統計情報をより意味のあるものとする。
また、一旦取得した検索結果から適切な関連情報を検索するために必要な検索条件の生成に関しては、従来は、ユーザ自身が一旦検索した結果を吟味して、関連情報へとつながるキーワードをみつけ、改めて検索を行う必要があった。
【0017】
このため、限られた時間内にユーザが自分の知識を使って検討できる関連情報の範囲は自ら限定されていた。
この課題を解決するため本発明では、オントロジを用いて関連情報へとつながる検索条件を検索結果に含まれる文書の属性から自動的に作成し、それに基づき関連情報を検索する。
これにより、ユーザ自身が関連情報検索のための検索条件を作成するより、より広い範囲の関連情報へとつながる検索条件が利用できるようになる。
【0018】
【実施例】
検索条件入力用のウインドウを図1に示す。
上部のフレームは、フォーム形式により検索条件を入力するためのものであり、それぞれの行に入力した条件は、拡張Web空間のための検索言語(非特許文献1参照)で記述した検索式に一対一対応する。
また、下部のフレームは、自然言語で記述した質問文を入力するためのものである。
質問文の解析は、SAIQA質問解析モジュール(非特許文献2参照)を利用して行い、検索言語形式の検索式を作成する。
【0019】
この検索式に対応する検索結果は、インターネット上の文書とその間のリンク関係を含んだグラフ構造となり、図2の検索結果出力用のウインドウに表示される。
右上右下のフレームには、文書間のリンク関係をグラフがそれぞれ二次元、三次元で表示される。
各グラフのノードは検索結果の文書に対応し、エッジによりその接続関係を示している。
【0020】
中央下のフレームには、検索結果の文書のタイトルやカテゴリなどの属性が表形式で表示される。
なお、検索結果の文書が地理属性を持つ場合には、その座標も表中に表示され、中央上の地図上の対応位置にその文書をあらわすアイコンが表示される。
左側のフレームには、下記で説明する関連情報検索の検索結果表示のためのボタンが表示される。
【0021】
本発明の一実施例に係る情報検索システムの構成図を図3に示す。
図3に示すように、この情報検索システムは、検索条件入力モジュール100、SAIQA質問解析モジュール101、検索モジュール102、構造化データベース(DB)103、関連情報検索条件生成モジュール104、検索結果出力モジュール105で構成され、それぞれの処理を行うハードウェアで実現しても良いし、所定のプログラムをコンピュータに読み込ませることによりソフトウェアで実現しても良い。
【0022】
構造化データベース103は、wget(http://www.wget.org/)などのWebロボットを用いてインターネット上に存在する文書を取得し、文書の位置を示すURLと、それぞれの文書から抽出したオントロジに基づくメタ情報を予め構造化して保存しておく。
この構造化データベース103により、下記の処理の高速化を実現する。
また、検索条件入力モジュール100は受け付けた検索条件を、拡張Web空間のための検索言語で記述した検索式に変換する。
【0023】
このとき、フォーム形式による入力の場合は、そのまま一対一対応で検索式を変換、自然文形式の入力の場合はSAIQA質問解析モジュール101により入力に含まれるキーワードとその間の関係を抽出し、検索式を作成する。
次に、適切な件数の検索結果を得るための検索条件の修正手順を図4に示す。
この検索条件の修正は、検索モジュール102と構造化データベース103の連携により実現する。
【0024】
まず、検索式に含まれるキーワードを取り出し(ステップ200)、キーワードそれぞれに対応する検索結果を取得する(ステップ201)。
この際、その検索結果数がゼロ若しくは予め設定した閾値を超えていないかチェックし(ステップ202、203)、検索結果数がゼロの場合には、そのキーワードが属する意味体系に従って抽象化を図り(ステップ204)、検索条件の限定範囲を広げる。
例えば、意味体系に従って抽象化を図るということは、意味カテゴリー木構造において、現在のキーワードが属するノードより上位概念を有する一つ以上上位のノードのキーワードを適用することである。
また、検索結果数が閾値を越える場合には、キーワードが属する意味体系に従って、より具体的なキーワードを提示し、その中からの選択をユーザに求める(ステップ205)。
【0025】
例えば、「バス停のそばの飲食店は?」という質問文から、「バス停」と「飲食店」がキーワードとして抽出されたとする。
この際、「バス停」に対応する検索結果がゼロ、「飲食店」に対応する検索結果の件数が閾値を越えたとする。
この場合、キーワード「バス停」については、キーワード「バス停」が属する「停留所」カテゴリ、その上位の「交通」カテゴリと、十分な件数の検索結果が得られるまで検索条件の抽象化が行われる。
【0026】
一方、キーワード「飲食店」については、「中華料理店」「フランス料理店」「割烹」など、「飲食店」の属するカテゴリに含まれるより詳細な概念を提示してユーザの選択を促し、キーワードの具体化を図る。
また、取得した検索結果をキーワード間の関係に基づき統合する際(ステップ206)、検索結果間の接続数がゼロ若しくは予め設定した閾値を超えていないかチェックする(ステップ207、208)。
【0027】
検索結果間の接続数がゼロの場合には、その接続条件を意味的若しくは数値的に緩和する(ステップ209)。
また、検索結果間の接続数が閾値を越える場合には、接続条件を意味的若しくは数値的に強化する(ステップ210)。
例えば、「バス停のそばの飲食店は?」という同じ質問文の場合、「そばの」という条件は同じ街区にある」という地理的関係条件と「250m以内」という距離条件の2通りで評価される。
【0028】
このうち、「同じ街区にある」という条件で検索結果がゼロの場合は、より広い地理的な範囲を示す「同じ地区にある」という条件に緩和され、「同じ街区にある」という条件で検索結果が閾値を超える場合は、より狭い地理的範囲を示す「隣接する」という条件に強化される。
また、「250m以内」という距離条件で検索結果がゼロの場合は、その対象範囲を広げ、検索結果が閾値を越える場合はその対象範囲を狭める。
なお、検索式にキーワードが一つしか含まれない場合は、上記の接統条件の緩和及び強化の手順は適用されない。
【0029】
上記の検索条件修正の結果得られた検索結果(ステップ211)をそのままユーザに提供しても良いが、更にこの検索結果をもとに、関連情報検索のための検索条件生成手順を図5に示す。
この関連情報検索のための検索条件生成は、関連情報検索条件生成モジュール104により実現する。
まず、上記の検索条件修正の結果得られた検索結果をもとに開始され(ステップ300)、検索結果に含まれる文書のURLやタイトル、キーワード、カテゴリといった属性を構造化データベース302から取得する(ステップ301)。
【0030】
なお、図5に示す構造化データベース302は、図3に示す構造化データベース103と同一のデータベースであり、文書の属性として取得できる情報は、予め取得され、そのデータベースに蓄積された情報に基づく。
そして、取得された属性の値若しくはその値から導かれる上位下位概念を条件に、各属性に対応する関連情報を各関連情報検索モジュール303〜307で検索し、その検索結果を図2で示した検索結果出力用のウインドウに表示する。
【0031】
各関連情報検索モジュール303〜307は、リンク先リンク元検索モジュール303、周辺情報検索モジュール304、カテゴリ検索モジュール305、時間条件検索モジュール306、料金検索モジュール307である。
この際、ユーザインタフェースの設定により、ステップ301にて取得した全属性に対応する関連情報の検索結果を表示させることもできるし、取得した属性のうちユーザが予め設定した属性のみについて関連情報を検索させることもできる。
【0032】
検索結果の出力では、最初の検索結果に含まれる文書のいずれかを選択した際にその関連情報を属性ごとに表示させる方法、検索したすべての関連情報を表示させる方法、関連情報検索の検索結果の件数や情報量からシステムが有用と判断した文書若しくはその属性の関連情報のみを表示させる方法などが考えられる。
いずれの方法を採用するかはユーザインタフェースである検索結果出力用ウインドウの設計によるものであり、本発明の各手順はそれに影響されない。
また、図5では5種類の関連情報検索モジュール303から307を示したが、これは検索結果中の文書がもつ属性による対応するものであり、図中の5種類に限定されるものではない。
【0033】
関連情報検索モジュールとしては、構造化データベース302から取得できる属性に対応したものを用意するものとする。
上記の具体例として、「金閣寺のそばのバス停は?」という質問に対する検索結果とその関連情報検索結果を図6に示す。
まず、質問文に対する検索結果は、「金閣寺」のWebページとそのそばのバス停のWebページが距離関係に基づくリンクで接続した木構造になる。
そして、301の手順により図6に示した各属性の値が取得されるが、この際取得される属性の記述形式や語彙は、W3Cの標準に基づき記述されたメタ情報であり、機械的に処理することができる。
【0034】
そして、データベースから取得した各Webページの属性ごとに関連情報検索を行い、URLに基づくリンク先、リンク元のWebページ、住所若しくは地理座標に基づく周辺情報、拝観時間や時刻表に基づく時間的関連情報など、各関連情報の種類ごと図2で対応するそれぞれのフレームに追加表示する。
【0035】
このように説明したように本発明は、インターネット上の文書を検索する際に、概念間の関係を体系的に表現するオントロジを適用することが主要な特徴であり、前記オントロジを用いることによって、検索効率が向上するという効果が生じる。
また、本発明は、キーワード検索によって得られたURLの件数と所定の閾値件数とを比較し、その比較結果に依存してオントロジを適用し、新しいキーワードを生成し、再び検索を行うというフィードバックループを持つことも特徴であり、前記の検索結果取得した文書を統合する際に、接続条件に適した接続数と閾値接続数との比較結果に依存して、接続条件の緩和と強化とを行うフィードバックループを持つことも特徴である。
【0036】
【発明の効果】
以上述べたように本発明によれば、オントロジに基づき記述されたメタ情報に基づき、(1)検索結果の件数に応じてユーザの入力した検索条件が適宜修正されるとともに、(2)取得された検索結果に関連する情報の取得が容易になるという効果が得られる。
【図面の簡単な説明】
【図1】本発明に基づく検索プログラムの検索条件入カ用ユーザインタフェース画面(スクリーンショット)である。
【図2】本発明に基づく検索プログラムの検索結果出力用ユーサインタフェース画面(スクリーンショット)である。
【図3】本発明に基づく情報検索システムの内部構成を示す構成図である。
【図4】本発明に基づく検索条件の修正手順を示すフローチャートである。
【図5】本発明に基づく関連情報検索のための検索条件生成手順を示すフローチャートである。
【図6】本発明に基づく検索結果に含まれる属性の例を示す説明図である。
【符号の説明】
100 検索条件入力モジュール
101 SAIQA質問解析モジュール
102 検索モジュール
103,302 構造化データベース(DB)
104 関連情報検索条件生成モジュール
105 検索結果出力モジュール
303 リンク先リンク元検索モジュール
304 周辺情報検索モジュール
305 カテゴリ検索モジュール
306 時間条件検索モジュール
307 料金検索モジュール[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information search method, an information search program, and an information search device for searching for documents on the Internet. Specifically, when finding the search results for the search conditions entered by the user, the search conditions are corrected using background knowledge such as semantic system, classification system, geographical knowledge, etc. according to the number of results, and more appropriate search It presents the results to the user and facilitates a derivative search to information related to the requested search results.
[0002]
[Prior art]
Currently, a large amount of information is transmitted on the Internet, and information about real-world things such as street corner shops and tourist spots is now easily available via the network.
Such information can be obtained by designating a URL (Uniform Resource Locator) indicating the location on the Internet, but in reality, Google (http://www.google.com) or goo (http: //Www.goo.ne.jp) and the like, it is considered that the user is accessing the desired information using a search service by keyword specification.
[0003]
In these services, an input keyword is mechanically evaluated, and all documents including the keyword are returned as search results.
The search results are sorted from various viewpoints, and the documents required by the user are ranked higher.
In this method, there is a problem that an effective search result cannot be obtained unless an appropriate keyword is input during the search.
[0004]
To solve this problem, Digital City Kyoto and Georing Kyoto have been studied as follows.
1. As a method of collecting and providing coordinated web pages,
First, Web pages are recursively collected from the Internet using a Web robot, and are selected according to the described information.
[0005]
Then, the HTML tag is deleted from the selected Web page, a proper noun such as an address or name is extracted by morphological analysis, and the geographical coordinates corresponding to the proper noun are obtained from the geographical information of the target area.
The geographic information of this Web page is registered in the search database together with the URL, and search processing from a plurality of terminals connected to the computer network is realized.
[0006]
2. As a method for receiving map information and information related to the map from a computer network and displaying them superimposed on a terminal screen, the one disclosed in Patent Document 2 realizes the method for collecting and providing a web page with coordinates. It becomes the interface of the device to do.
The method described above has improved the method of searching for documents on the Internet by extracting meta information of the page from information described in the Web page and organizing it into a database.
[0007]
However, active search assistance that modifies search conditions according to the number of search results and support for related information search based on search results have not been started yet.
As a method related to this unstarted problem, the method disclosed in Patent Document 3 is to refine a warm question by interactive correction and provide it together with position related information.
However, the interactive modification in this method is limited to location, and its scope is also limited to finding a goal.
[0008]
Also, the World Wide Web Consortium (http://www.w3c.org), which establishes and discloses technical documents related to the Internet, plays a central role, and activities for the realization of the Semantic Web are being promoted.
The Semantic Web aims to enable machines to understand meaning, search for information by inference, and solve problems.
RDF (http://www.w3c.org/RDF/),
RDF schema (http: //www.w3.0rg/TR/2000/CR-rdf-schema-20000327/),
OWL (http://www.w3.org/TR/owl-features/)
There is a discussion about.
[0009]
By using these technologies, it is possible to unify the description format of meta-information about information described in a document and the description of its constraints, and to explain the vocabulary used in the description of meta-information and the ontology that describes the system. Standardization is expected.
[0010]
[Patent Document 1]
JP 2000-339330 A [Patent Document 2]
JP 2000-339328 A [Patent Document 3]
JP-A-11-265141 [Non-patent Document 1]
“Extended Web Space for Regional Information Services”, Atsushi Hiramatsu, Atsushi Ishida, Transactions of Information Processing Society of Japan: Database, Vol. 41, no. SIG6 (TOD7), pp. 81-90 (2000)
[Non-Patent Document 2]
“SAIQA: Question Answering System Based on Mass Documents”, Hiroshi Sasaki et al., Information Processing Society of Japan 2001-FI-64, pp. 77-82 (2001)
[0011]
[Problems to be solved by the invention]
The present invention searches for appropriate related information from a problem relating to correction of search conditions necessary for obtaining an appropriate number of search results, and a search result obtained once, among problems when searching for documents on the Internet. The problem related to the generation of search conditions necessary for this purpose is solved by using ontology describing general relationships and systems and meta-information about documents.
The meta information description format uses the technology standardized by W3C, and implements its mechanical interpretation by referring to the ontology describing its various relationships.
[0012]
[Means for Solving the Problems]
An information search method of the present invention that achieves such an object includes a step of retrieving a search condition comprising a keyword and a relationship between keywords from an inputted natural language question in a method of searching a document on the Internet based on a search condition. , When retrieving documents on the Internet corresponding to each keyword included in the search conditions and linking the documents based on the relationship between the keywords to obtain a tree structure search result, the search result corresponding to each keyword is obtained. If the number of search results does not exceed zero or exceeds a preset threshold value, and if the number of search results is zero, the search condition is expanded according to the semantics to which the keyword belongs and the search condition limit range is expanded. If the number of steps and the number of search results exceeds the threshold value, a more specific process is performed according to the semantic system to which the keyword belongs. When the search results from the above steps are integrated based on the relationship between the keywords, the number of connections between the search results is set to zero or preset as required. Check if the threshold is exceeded, and if the number of connections between the search results is zero, the step of relaxing the connection condition semantically or numerically, and if the number of connections between the search results exceeds the threshold Steps to strengthen connection conditions semantically or numerically, and if necessary, display the tree structure search results obtained through the above steps in multiple formats: graph format, table format, and overlay display on a map A search condition for searching a document related to a semantic and geographical relationship with each attribute of a document included in a search result, if necessary, and a step presented to the user together. Was prepared in accordance with semantics, characterized in that it comprises the step of providing the search result to the user.
[0013]
The information retrieval program of the present invention that achieves the above object is a program for retrieving documents on the Internet based on a retrieval condition, and a process of retrieving a retrieval condition comprising a keyword and a relationship between keywords from an inputted natural language question When acquiring a document on the Internet corresponding to each keyword included in the search condition, and obtaining a tree structure search result by linking the documents based on the relationship between the keywords, the search result corresponding to each keyword is displayed. And check whether the number of search results is zero or not exceeding a preset threshold value.If the number of search results is zero, abstraction is performed according to the semantics to which the keyword belongs, and a limited range of search conditions is set. If the number of search results exceeds the threshold and the processing to expand, it will be more specific according to the semantics to which the keyword belongs. When a keyword is presented and the user is asked to select a keyword, and if necessary, the search results from the above process are integrated based on the relationship between keywords, the number of joints between the search results is zero or preset. If the number of connections between search results is zero, and if the number of connections between search results exceeds the threshold Is a process that strengthens the connection conditions semantically or numerically, and if necessary, the tree structure search results obtained through the above processes in multiple display formats: graph format, table format, and overlay display on a map In addition to creating a search condition for searching for documents that are semantically and geographically related to each attribute of the document included in the search results, according to the semantic system, Characterized in that it comprises a process of providing the results of the search to the user.
[0014]
The information retrieval device of the present invention that achieves the above object is a device that retrieves documents on the Internet based on a retrieval condition, a means for retrieving a retrieval condition comprising a keyword and a relationship between keywords from an inputted natural language question, When retrieving documents on the Internet corresponding to each keyword included in the search conditions and linking the documents based on the relationship between the keywords to obtain a tree structure search result, the search result corresponding to each keyword is obtained. If the number of search results is zero or does not exceed a preset threshold, and if the number of search results is zero, means for abstracting according to the semantic system to which the keyword belongs and expanding the limited range of search conditions If the number of search results exceeds the threshold, more specific keywords according to the semantics to which the keywords belong Presenting and requesting the user to select from among them, and if necessary, when integrating the search results by the above means based on the relationship between keywords, the number of connections between the search results is zero or a preset threshold value If the number of connections between search results is zero and the number of connections between search results is zero, the connection condition is semantically or numerically relaxed. Combine the means for strengthening the conditions semantically or numerically and, if necessary, the tree structure search results obtained by the above means in combination with multiple display formats: graph format, table format, and overlay display on the map A search condition for searching for a document that is related to the semantic and geographical features of the means to be presented to the user and, if necessary, for each attribute of the document included in the search result is created according to the semantic system. Characterized in that it comprises means for providing to the user.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
The present invention enables efficient retrieval of documents on the Internet by using an ontology that describes general relationships and systems between concepts.
Among the above issues, the correction of search conditions to obtain an appropriate number of search results is based on an ontology that describes general relationships in order to avoid cases where the search results are zero or very large. The search condition is corrected based on the semantic relationship between the words described based on the numerical value included in the search condition.
[0016]
When the system actively performs this correction according to the number of search results, an appropriate number of search results can be acquired, and the distribution of the search results and its statistical information are more meaningful.
In addition, regarding the generation of search conditions necessary to search for relevant information from the search results once acquired, conventionally, the user himself examined the search results once and found keywords that lead to related information. It was necessary to search again.
[0017]
For this reason, the range of related information that a user can consider using his / her knowledge within a limited time is limited by himself.
In order to solve this problem, in the present invention, a search condition that leads to related information is automatically created from the attribute of the document included in the search result using the ontology, and the related information is searched based on the search condition.
This makes it possible to use a search condition that leads to a wider range of related information than when the user himself / herself creates a search condition for searching related information.
[0018]
【Example】
A search condition input window is shown in FIG.
The upper frame is for inputting search conditions in the form format, and the condition input in each line is paired with the search expression described in the search language for the extended Web space (see Non-Patent Document 1). One correspondence.
The lower frame is for inputting a question sentence described in a natural language.
The analysis of the question sentence is performed using the SAIQA question analysis module (see Non-Patent Document 2) to create a search expression in a search language format.
[0019]
The search result corresponding to this search expression has a graph structure including documents on the Internet and the link relationship therebetween, and is displayed in the search result output window of FIG.
In the upper right and lower right frames, graphs of link relationships between documents are displayed in two dimensions and three dimensions, respectively.
Each graph node corresponds to a search result document, and its connection relation is indicated by an edge.
[0020]
In the lower center frame, attributes such as the title and category of the document as a search result are displayed in a table format.
If the search result document has a geographic attribute, its coordinates are also displayed in the table, and an icon representing the document is displayed at the corresponding position on the map at the center.
In the left frame, a button for displaying a search result of related information search described below is displayed.
[0021]
FIG. 3 shows a configuration diagram of an information search system according to an embodiment of the present invention.
As shown in FIG. 3, this information search system includes a search
[0022]
The
With this structured
The search
[0023]
At this time, in the case of the input in the form format, the search formula is converted as it is in one-to-one correspondence. In the case of the input in the natural sentence format, the keywords included in the input and the relationship between them are extracted by the SAIQA
Next, FIG. 4 shows a procedure for correcting search conditions for obtaining an appropriate number of search results.
This search condition correction is realized by cooperation between the
[0024]
First, keywords included in the search expression are extracted (step 200), and search results corresponding to the keywords are acquired (step 201).
At this time, it is checked whether the number of search results is zero or not exceeding a preset threshold value (
For example, to abstract according to the semantic system means to apply keywords of one or more nodes having a higher concept than the node to which the current keyword belongs in the semantic category tree structure.
If the number of search results exceeds the threshold, a more specific keyword is presented according to the semantic system to which the keyword belongs, and the user is requested to select from the keyword (step 205).
[0025]
For example, it is assumed that “bus stop” and “restaurant” are extracted as keywords from the question sentence “What is the restaurant near the bus stop?”.
At this time, it is assumed that the search result corresponding to “bus stop” is zero and the number of search results corresponding to “restaurant” exceeds the threshold.
In this case, for the keyword “bus stop”, the “stop” category to which the keyword “bus stop” belongs, the “traffic” category above it, and the search conditions are abstracted until a sufficient number of search results are obtained.
[0026]
On the other hand, for the keyword “restaurant”, a more detailed concept included in the category of “restaurant” such as “Chinese restaurant”, “French restaurant”, “Kappo”, etc. is presented to prompt the user to select the keyword To materialize.
When the acquired search results are integrated based on the relationship between keywords (step 206), it is checked whether the number of connections between the search results is zero or does not exceed a preset threshold value (
[0027]
If the number of connections between search results is zero, the connection conditions are relaxed semantically or numerically (step 209).
If the number of connections between search results exceeds the threshold, the connection condition is strengthened semantically or numerically (step 210).
For example, in the case of the same question sentence, “What is the restaurant near the bus stop?”, It is evaluated in two ways: the geographical relationship condition that “the soba is in the same block” and the distance condition that is “within 250 m”. The
[0028]
Of these, if the search result is zero under the condition of “in the same block”, the search result is relaxed to the condition of “in the same district” indicating a wider geographical range, and the search is performed under the condition of “in the same block” If the result exceeds the threshold, it is enhanced to the condition of “adjacent” indicating a narrower geographic range.
When the search result is zero under the distance condition “within 250 m”, the target range is expanded, and when the search result exceeds the threshold, the target range is narrowed.
Note that when the search expression includes only one keyword, the above-described procedure for relaxing and strengthening the connection condition is not applied.
[0029]
The search result (step 211) obtained as a result of the above-described search condition correction may be provided to the user as it is. Further, based on this search result, a search condition generation procedure for searching related information is shown in FIG. Show.
The search condition generation for the related information search is realized by the related information search
First, the process is started based on the search result obtained as a result of the above-described search condition correction (step 300), and attributes such as the URL, title, keyword, and category of the document included in the search result are acquired from the structured database 302 ( Step 301).
[0030]
The
Then, on the condition of the acquired attribute value or the upper and lower concept derived from the value, related information corresponding to each attribute is searched by each related
[0031]
The related
At this time, it is also possible to display a search result of related information corresponding to all the attributes acquired in
[0032]
In the search result output, when you select one of the documents included in the first search result, the related information is displayed for each attribute, the search method displays all the related information, the search result of related information search For example, there may be a method of displaying only the related information of the document or its attribute that the system judges to be useful from the number and the amount of information.
Which method is adopted depends on the design of a search result output window which is a user interface, and each procedure of the present invention is not affected by the design.
In FIG. 5, five types of related
[0033]
As the related information search module, a module corresponding to an attribute that can be acquired from the structured
As a specific example, FIG. 6 shows a search result for the question “What is the bus stop near Kinkakuji?” And its related information search result.
First, the search result for the question sentence has a tree structure in which the Web page of “Kinkakuji” and the Web page of the bus stop nearby are connected by a link based on the distance relationship.
Then, the value of each attribute shown in FIG. 6 is acquired by the
[0034]
Then, the related information search is performed for each attribute of each Web page acquired from the database, the link destination based on the URL, the Web page of the link source, the peripheral information based on the address or geographic coordinates, the temporal relationship based on the visit time and the timetable Each type of related information such as information is additionally displayed in each corresponding frame in FIG.
[0035]
As described above, the main feature of the present invention is to apply an ontology that systematically represents the relationship between concepts when searching for documents on the Internet, and by using the ontology, The effect that search efficiency improves is produced.
The present invention also compares the number of URLs obtained by keyword search with a predetermined threshold number, applies an ontology depending on the comparison result, generates a new keyword, and performs a search again. It is also a feature that when the documents obtained as a result of the search are integrated, the connection condition is relaxed and strengthened depending on the comparison result between the number of connections suitable for the connection condition and the threshold number of connections. It is also characterized by having a feedback loop.
[0036]
【The invention's effect】
As described above, according to the present invention, based on the meta information described based on the ontology, (1) the search condition input by the user is appropriately modified according to the number of search results, and (2) acquired. This makes it easy to obtain information related to the search results.
[Brief description of the drawings]
FIG. 1 is a user interface screen (screen shot) for search condition input of a search program according to the present invention.
FIG. 2 is a user interface screen (screen shot) for search result output of a search program according to the present invention.
FIG. 3 is a block diagram showing an internal configuration of an information search system according to the present invention.
FIG. 4 is a flowchart showing a procedure for correcting a search condition according to the present invention.
FIG. 5 is a flowchart showing a search condition generation procedure for searching related information according to the present invention.
FIG. 6 is an explanatory diagram showing an example of attributes included in a search result based on the present invention.
[Explanation of symbols]
100 Search
104 Related Information Search
Claims (12)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003171548A JP2005010880A (en) | 2003-06-17 | 2003-06-17 | Information search method, information search program, and information search apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003171548A JP2005010880A (en) | 2003-06-17 | 2003-06-17 | Information search method, information search program, and information search apparatus |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2005010880A true JP2005010880A (en) | 2005-01-13 |
Family
ID=34095958
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003171548A Pending JP2005010880A (en) | 2003-06-17 | 2003-06-17 | Information search method, information search program, and information search apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2005010880A (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008530674A (en) * | 2005-02-15 | 2008-08-07 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | Process configuration in the network |
| CN110134848A (en) * | 2019-05-14 | 2019-08-16 | 云南电网有限责任公司电力科学研究院 | A method and system for analyzing the transformation of scientific and technological achievements based on semantic analysis |
| CN113660507A (en) * | 2019-12-16 | 2021-11-16 | 潘利娟 | Live video bullet screen intercepting system based on black and white list setting |
| CN114238604A (en) * | 2021-12-15 | 2022-03-25 | 展讯通信(天津)有限公司 | Chip register retrieval method and device and electronic equipment |
-
2003
- 2003-06-17 JP JP2003171548A patent/JP2005010880A/en active Pending
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008530674A (en) * | 2005-02-15 | 2008-08-07 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | Process configuration in the network |
| US8150905B2 (en) | 2005-02-15 | 2012-04-03 | British Telecommunications Plc | Process configuration in a network |
| CN110134848A (en) * | 2019-05-14 | 2019-08-16 | 云南电网有限责任公司电力科学研究院 | A method and system for analyzing the transformation of scientific and technological achievements based on semantic analysis |
| CN110134848B (en) * | 2019-05-14 | 2023-09-26 | 云南电网有限责任公司电力科学研究院 | Scientific and technological achievement transformation analysis method and system based on semantic analysis |
| CN113660507A (en) * | 2019-12-16 | 2021-11-16 | 潘利娟 | Live video bullet screen intercepting system based on black and white list setting |
| CN113660507B (en) * | 2019-12-16 | 2022-09-13 | 广州随手播网络科技有限公司 | Live video bullet screen interception system based on black and white list setting |
| CN114238604A (en) * | 2021-12-15 | 2022-03-25 | 展讯通信(天津)有限公司 | Chip register retrieval method and device and electronic equipment |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7836085B2 (en) | Searching structured geographical data | |
| US9940398B1 (en) | Customization of search results for search queries received from third party sites | |
| US20020078045A1 (en) | System, method, and program for ranking search results using user category weighting | |
| US8276065B2 (en) | System and method for classifying electronically posted documents | |
| US7099870B2 (en) | Personalized web page | |
| US20050114306A1 (en) | Integrated searching of multiple search sources | |
| US20030088639A1 (en) | Method and an apparatus for transforming content from one markup to another markup language non-intrusively using a server load balancer and a reverse proxy transcoding engine | |
| JP2004510257A (en) | Internet search system and method for facilitating user search | |
| JP2005535039A (en) | Interact with desktop clients with geographic text search systems | |
| WO2003017023A2 (en) | System and method for extracting content for submission to a search engine | |
| JP2010541074A (en) | System and method for including interactive elements on a search results page | |
| JP2004517402A (en) | How to build metadata categories and information portals | |
| WO2004088541A1 (en) | A method of managing web sites registered in search engine and a system thereof | |
| US20050044076A1 (en) | Information retrieval from multiple sources | |
| JP3620996B2 (en) | Homepage information collection and provision method with coordinates, recording medium and apparatus | |
| CN102156749A (en) | Anatomic search and judgment method, system and distributed server system for map sites | |
| JP2001188802A (en) | Information retrieval apparatus and information retrieval method | |
| JPH10307845A (en) | Perusal supporting device and method therefor | |
| JP2005010880A (en) | Information search method, information search program, and information search apparatus | |
| JP2005025418A (en) | Question answering apparatus, question and answer method and program | |
| JPH10143539A (en) | Information retrieval method and information retrieval system, recording medium recording information resource dictionary data, and recording medium recording information retrieval program | |
| JP3714879B2 (en) | WEB search service system and method | |
| JP2002063165A (en) | Information retrieval method, information retrieval system, information retrieval program, and recording medium recording information retrieval program | |
| JP2003271647A (en) | Browsing file data providing method, browsing frequency data providing method, relay device therefor, program, and recording medium | |
| JP3604069B2 (en) | Apparatus for calculating relevance between documents, method therefor, and recording medium therefor |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050722 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060627 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060821 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061003 |