[go: up one dir, main page]

JP2011118652A - 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム - Google Patents

単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム Download PDF

Info

Publication number
JP2011118652A
JP2011118652A JP2009275197A JP2009275197A JP2011118652A JP 2011118652 A JP2011118652 A JP 2011118652A JP 2009275197 A JP2009275197 A JP 2009275197A JP 2009275197 A JP2009275197 A JP 2009275197A JP 2011118652 A JP2011118652 A JP 2011118652A
Authority
JP
Japan
Prior art keywords
keyword
word
web page
page content
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009275197A
Other languages
English (en)
Inventor
Motoshige Asano
元重 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2009275197A priority Critical patent/JP2011118652A/ja
Priority to US12/952,839 priority patent/US20110137943A1/en
Publication of JP2011118652A publication Critical patent/JP2011118652A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ウェブ・ページに適したキーワードを決定する。
【解決手段】関連するキーワードを決定したい単語を入力する。入力された単語に関連するウェブ・ページが見つけられる。見つけられたウェブ・ページのメタ・タグに記述されているキーワード(プログラム言語,オブジェクト指向,教育,セミナー)が抽出される。入力された単語の専門辞書が登録されている辞書サーバに抽出されたキーワードが送信される。その辞書サーバに,送信されたキーワードが登録されていれば,そのキーワードは入力された単語に関連するキーワードと決定される。
【選択図】図8

Description

この発明は,単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラムに関する。
ウェブ・ページにはメタ・タグにキーワードが記述されていることが多い。検索エンジンに入力されたキーワードとメタ・タグに記述されているキーワードとが一致すると,一致したキーワードがメタ・タグに記述されているウェブ・ページが検索結果として表示される。また,タグ付けがされている文章を収集するもの(特許文献1),あらかじめ各単語に所定のタグを用意し,自動タグ付与を行うもの(特許文献2)もある。
しかしながら,必ずしもウェブ・ページに適したキーワードを見つけることはできない。
特開2008-310626号公報 特開2008-21139号公報
この発明は,ウェブ・ページに適したキーワードを決定することを目的とする。
第1の発明による単語の関連キーワードを決定する装置は,関連するキーワードを見つける単語を入力する単語入力手段,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信する単語データ送信手段,上記検索エンジンの検索結果を示すURLデータを受信するURLデータ受信手段,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信するリクエスト送信手段,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信するウェブ・ページ・コンテンツ受信手段,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出するキーワード抽出手段,上記キーワード抽出手段によって抽出されたキーワードが上記単語入力手段から入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定する判定手段,および上記判定手段によって,上記キーワード抽出手段によって抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するキーワード決定手段を備えていることを特徴とする。
第1の発明は,上記単語の関連キーワードを決定する装置に適した動作制御方法も提供している。すなわち,この方法は,単語入力手段が,関連するキーワードを見つける単語を入力し,単語データ送信手段が,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信し,URLデータ受信手段が,上記検索エンジンの検索結果を示すURLデータを受信し,リクエスト送信手段が,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信し,ウェブ・ページ・コンテンツ受信手段が,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信し,キーワード抽出手段が,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出し,判定手段が,上記キーワード抽出手段によって抽出されたキーワードが上記単語入力手段から入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定し,キーワード決定手段が,上記判定手段によって,上記キーワード抽出手段によって抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するものである。
第1の発明は,上記単語の関連キーワードを決定する装置の動作制御方法を実施するためのプログラムも提供している。
第1の発明によると,関連するキーワードを見つける単語が入力され,検索エンジンにおいて,入力された単語の検索が行われる。検索により得られたURLをもつウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードが抽出される。抽出されたキーワードが入力された単語の分野の専門辞書サイトに登録されている場合には,そのキーワードが入力された単語の関連キーワードとして決定される。入力した単語に関連するキーワードを決定することができる。とくに,抽出されたキーワードが入力された単語の分野の専門辞書サイトに登録されていなければ,その抽出されたキーワードは入力された単語の関連キーワードと決定されないので,入力された単語と同じ分野のキーワードを入力された単語に関連するキーワードと決定できる。
上記判定手段は,たとえば,上記単語入力手段から入力された単語と辞典または辞書という単語とを上記検索エンジンにおけるアンド検索により辞書サイトを見つける辞書サイト検索手段を備える。この場合,上記辞書サイト検索手段によってみつかった辞書サイトのうち国語辞書サイトおよび翻訳辞書サイトを除く辞書サイトに登録されているかどうかを判定するものとなろう。
第2の発明による単語の関連キーワードを決定する装置は,関連するキーワードを見つける単語を入力する単語入力手段,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信する単語データ送信手段,上記検索エンジンの検索結果を示すURLデータを受信するURLデータ受信手段,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信するリクエスト送信手段,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信するウェブ・ページ・コンテンツ受信手段,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出するキーワード抽出手段,上記ウェブ・ページ・コンテンツ受信手段において受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定する第1の判定手段,および上記第1の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するキーワード決定手段を備えていることを特徴とする。
第2の発明は,上記単語の関連キーワードを決定する装置に適した動作制御方法も提供している。すなわち,この方法は,単語入力手段が,関連するキーワードを見つける単語を入力し,単語データ送信手段が,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信し,URLデータ受信手段が,上記検索エンジンの検索結果を示すURLデータを受信し,リクエスト送信手段が,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信し,ウェブ・ページ・コンテンツ受信手段が,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信し,キーワード抽出手段が,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出し,第1の判定手段が,上記ウェブ・ページ・コンテンツ受信手段において受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定し,キーワード決定手段が,上記第1の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するものである。
第2の発明は,上記単語の関連キーワードを決定する装置の動作制御方法を実施するためのプログラムも提供している。
第2の発明においても,関連するキーワードを見つける単語が入力され,検索エンジンにおいて,入力された単語の検索が行われる。検索により得られたURLをもつウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードが抽出される。抽出されたキーワードと入力された単語とが,受信したウェブ・ページ・コンテンツに含まれる文章において係り受けの関係となっていると,そのキーワードが,入力された単語の関連キーワードとして決定される。係り受けの関係にある単語とキーワードとは密接に関連するものと考えられるので,入力した単語に密接に関連するキーワードを決定することができる。
上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとのアンド検索が上記検索エンジンにおいて行われることにより得られる検索結果のウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定する第2の判定手段をさらに備えてもよい。この場合,上記キーワード決定手段は,たとえば,上記第2の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するものとなろう。
キーワード決定システムの概要である。 クライアント・コンピュータの電気的構成を示すブロック図である。 クライアント・コンピュータの処理手順を示すフローチャートである。 クライアント・コンピュータの処理手順を示すフローチャートである。 検索サーバの処理手順を示すフローチャートである。 ウェブ・サーバの処理手順を示すフローチャートである。 辞書サーバの処理手順を示すフローチャートである。 単語とキーワードとを示している。 html文書の一部を示している。 クライアント・コンピュータの処理手順を示すフローチャートである。 検索サーバの処理手順を示すフローチャートである。 html文書の一部を示している。
図1は,この発明の実施例を示すものでキーワード決定システムの概要を示している。
キーワード決定システムには,クライアント・コンピュータ(単語のキーワードを決定する装置)1,検索サーバ11,ウェブ・サーバ12,辞書サーバ13および係り受け解析サーバ14が含まれている。これらのクライアント・コンピュータ1ならびにサーバ11,12,13および14はインターネットを介して互いに通信可能である。
検索サーバ11は,単語等が与えられることにより,その与えられた単語に関連するウェブ・ページを検索により見つけることができる検索エンジンである。ウェブ・サーバ12は,URL(Uniform Resource Locator)によって特定されるウェブ・ページを表すウェブ・ページ・コンテンツを多数格納するもので,リクエストに応じてウェブ・ページ・コンテンツを送信する。辞書サーバ13は,単語等の意味,用法を記した辞書の内容を表す辞書データを格納している。係り受けサーバ14は,文節(単語)と文節(文節)とが,どのような関係でつながっているかを解析するサーバである。
図1においては,クライアント・コンピュータ1ならびにサーバ11,12,13および14がそれぞれ一つずつ図示されているが,多数のクライアント・コンピュータ1ならびにサーバ11,12,13および14が存在するのはいうまでもない。
図2は,クライアント・コンピュータ1の電気的構成を示すブロック図である。
クライアント・コンピュータ1の全体の動作は,CPU2によって統括される。
クライアント・コンピュータ1には,表示装置3,インターネットと通信するための通信装置4,キーボード,マウスなどの入力装置5,後述のように単語に関連したキーワードをタグ情報として記憶するタグ情報データベース(ハードディスク)6,所定のデータを格納するメモリ7およびCD−ROM(コンパクト・ディスク−リード・オンリ・メモリ)ドライブ8が含まれている。後述する動作を行う動作プログラムが格納されているCD−ROM9から動作プログラムがCD−ROMドライブ8によって読み取られることにより,読み取られた動作プログラムがクライアント・コンピュータ1にインストールされる。
図3および図4はクライアント・コンピュータ1の処理手順を示すフローチャート,図5は検索サーバ11の処理手順を示すフローチャート,図6はウェブ・サーバ12の処理手順を示すフローチャート,図7は辞書サーバの処理手順を示すフローチャートである。
この実施例では,関連するキーワードを見つける単語がクライアント・コンピュータ1から入力される。入力された単語が検索エンジン11に送信され,検索エンジン11において,入力された単語に関連するウェブ・ページが見つけられる。見つけられたウェブ・ページのメタ・タグに記述されているキーワードが抽出される。抽出されたキーワードが,入力された単語と同じ分野の専門辞書の辞書サーバ13に記述されていれば,そのキーワードが,クライアント・コンピュータ1に入力された単語に関連するキーワードとして決定される。この実施例では係り受け解析サーバ14は使用されないが,後述するように使用するようにしてもよい。
クライアント・コンピュータ1のユーザは,クライアント・コンピュータ1の入力装置5を用いて関連するキーワードを決定する単語を入力する(図3ステップ21)。入力された単語を表すデータは,クライアント・コンピュータ1から検索サーバ11に送信される(図3ステップ22)。たとえば,単語として「C++」が入力されたとすると,その「C++」を表すデータがクライアント・コンピュータ1から検索サーバ11に送信される。
クライアント・コンピュータ1から送信された単語データが検索サーバ11において受信される(図5ステップ41)。すると,検索サーバ11において,受信した単語データによって表される単語に関連する多数のウェブ・ページが検索により見つけられる(図5ステップ42)。検索により見つけられたウェブ・ページのURLを表すデータが検索サーバ11からクライアント・コンピュータ1に送信される(図5ステップ43)。上述したように,単語として「C++」が入力されたとすると,その「C++」に関連したウェブ・ページが検索により見つけられる。
検索サーバ11から送信されたURLを表すデータがクライアント・コンピュータ1において受信される(図3ステップ23)。すると,受信したURLデータによって表されるURLの中から所望のURLによって特定されるウェブ・ページがユーザによって選択される。選択されたウェブ・ページのリクエストがクライアント・コンピュータ1からウェブ・サーバ12に送信される(図3ステップ24)。クライアント・コンピュータ1の表示装置3の表示画面にはURLにリンクされているウェブ・ページのサイト名が表示され,そのサイト名の中から所望のサイトを選択することにより,ウェブ・ページのリクエストがクライアント・コンピュータ1からウェブ・サーバ12に送信されることとなろう。
クライアント・コンピュータ1から送信されたウェブ・ページのリクエストがウェブ・サーバ12において受信される(図6ステップ51)。すると,リクエストされたウェブ・ページを表すウェブ・ページ・コンテンツが,ウェブ・サーバ11から,リクエストしたクライアント・コンピュータ1に送信される(図6ステップ52)。リクエストには,リクエストするウェブ・ページのURLも含まれており,そのURLによって特定される(格納場所に格納されている)ウェブ・ページを表すウェブ・ページ・コンテンツがウェブ・サーバ12からクライアント・コンピュータ1に送信されるのはいうまでもない。
ウェブ・ページ・サーバ11から送信されたウェブ・ページ・コンテンツがクライアント・コンピュータ1において受信される(図3ステップ25)。すると,受信したウェブ・ページ・コンテンツに含まれるhtml(HyperText Markup Language)ファイルによって表されるhtml文書のメタ・タグに記述されているキーワードが抽出される(図3ステップ26)。
図8は,html文書の一部を示している。
html文書のヘッダにキーワードが記述されているメタ・タグ(meta name="keywords")が含まれている。このメタ・タグの内容として「プログラム言語,オブジェクト指向,教育,セミナー」などがキーワードとして記述されている。
上述したように,単語として「C++」が入力されたものとすると,その単語「C++」に関連するウェブ・ページのメタ・タグに記述されているキーワードが上述した「プログラム言語,オブジェクト指向,教育,セミナー」などということになる。これらのキーワード「プログラム言語,オブジェクト指向,教育,セミナー」などが,入力された単語「C++」に関連するキーワード候補となる。
図4を参照して,入力された単語(たとえば,「C++」)と「用語辞典」(用語辞書,辞典,辞書でもよい)という単語とがクライアント・コンピュータ1から検索サーバ11に送信される(ステップ27)。
クライアント・コンピュータから送信された単語と「用語辞典」という単語とが検索サーバ11において受信される(図5ステップ44)。すると,検索サーバ11において,受信した単語(C++)と「用語辞典」という単語とのアンド検索が行われる(図5ステップ45)。
このアンド検索により「用語辞典」に関連する辞書サーバ11のウェブ・ページが見つかる。また,アンド検索はクライアント・コンピュータ1から送信された単語と「用語辞典」との両方に関連する「用語辞典」についての辞書サーバ11のウェブ・ページを見つけることとなるから,見つかった辞書サーバ11は,クライアント・コンピュータ1から送信された単語(C++)の分野と同じ分野の専門辞書についてのものと考えられる。このようにして見つかった辞書サーバ11のURLを表すデータが検索サーバ11からクライアント・コンピュータ1に送信される(図5ステップ46)。
もっとも,アンド検索により見つかった辞書サーバ11が一般的な国語辞書としての機能をもつ国語辞書サーバ,翻訳(和英,英和)辞書としての機能をもつ翻訳辞書サーバである場合には,検索結果から除かれ,専門辞書としての機能をもつ辞書サーバのURLを表すデータが検索サーバ11からクライアント・コンピュータ1に送信される。また,検索により専門辞書サーバが複数見つかった場合には先頭の専門辞書サーバまたは先頭の専門辞書サーバを含む複数の専門辞書サーバのURLを表すデータを検索サーバ11からクライアント・コンピュータ1に送信するようにしてもよい。
検索サーバ11から送信された辞書サーバ13のURLデータはクライアント・コンピュータ1において受信される(図4ステップ28)。すると,受信したURLデータによって表されるURLの辞書サーバ11にクライアント・コンピュータ1がアクセスし,キーワード(たとえば,プログラム言語)を表すデータがクライアント・コンピュータ1から辞書サーバ13に送信される(図4ステップ29)。
クライアント・コンピュータ1から送信されたキーワード(たとえば,プログラム言語)を表すデータが辞書サーバ13において受信される(図7ステップ61)。すると,受信したキーワードを表すデータによって表される単語の意味,用法などが辞書において検索される(図7ステップ62)。検索結果が辞書サーバ13からクライアント・コンピュータ1に送信される(図7ステップ63)。
辞書サーバ13から送信された検索結果がクライアント・コンピュータ1において受信される(図4ステップ30)。キーワードが辞書サーバ11に登録されていれば(図4ステップ31でYES),入力された単語(C++)とキーワード(プログラム言語)とは同じ分野のものと考えられるので,そのキーワードが入力された単語に関連するキーワードとして決定される(図4ステップ32)。決定されたキーワードがタグ情報データベースに,単語に関連づけられて記憶される。キーワードが辞書サーバ11に登録されていなければ(図4ステップ31でNO),そのキーワードは入力された単語と異なる分野のものと考えられる。そのキーワードは入力された単語に関連するキーワードとは判断されない。たとえば,キーワードが「教育」であれば,入力された単語(C++)の分野の専門辞書(たとえば,IT用語辞典)には登録されていないことが考えられ,そのキーワード「教育」は入力された単語(C++)に関連するキーワードとはならない。
次のキーワードがあれば(図4ステップ33),再び図4ステップ29からの処理が行われる。また,最初に入力された単語に関連するウェブ・ページが複数あり,次のウェブ・ページがあれば(図4ステップ34でYES),次のウェブ・ページについて図3ステップ24からの処理が行われる。
図9は,タグ情報データベース6に格納されているキーワード・テーブルの一例である。
キーワード・テーブルには,入力した単語に対応して,上述のようにして決定されたーワードが格納されている。たとえば,上述のように,入力した単語が「C++」であれば,決定されたキーワードとして「プログラム言語」,「オブジェクト指向」などが格納されている。このようにして決定されたキーワードをウェブ・ページのメタ・タグに記述することができる。
図10から図12は,他の実施例を示している。
図10は,クライアント・コンピュータ1の処理手順の一部を示すフローチャートであり,図4に示す処理に対応している。図11は,検索サーバ11の処理手順を示すフローチャートであり,図5に示す処理に対応している。これらの図において,図4または図5に示す処理と同一の処理については同一符号を付して説明を省略する。
この実施例では,入力した単語と上述のようにメタ・タグから抽出されたキーワードとが係り受け関係にあるかどうかを判定し,係り受け関係にある場合にはそのキーワードは入力した単語に関連するものと判断するものである。係り受けとは,文節(単語)と文節(単語)とがどのような関係でつながっているかを示すものである。たとえば,主語と述語からなる関係,修飾,被修飾の関係,動詞+て(で)+補助動詞という補助の関係,並立の関係,接続,被接続の関係などがある。係り受けの有無は公知の解析手法を利用できるのはいうまでもない。
まず,抽出されたキーワード(たとえば,プログラム言語)と入力された単語(たとえば,C++)とがクライアント・コンピュータ1から検索サーバ11に送信される(図10ステップ27A)。
クライアント・コンピュータ1から送信されたキーワードと単語とが検索サーバ11において受信される(図11ステップ44A)。すると,受信したキーワードと単語とのアンド検索が検索サーバ11において行われる(図11ステップ45A)。検索により見つかったウェブ・ページのURLを表すデータが検索サーバ11からクライアント・コンピュータ1に送信される(図11ステップ46A)。
検索サーバ11から送信されたURLデータがクライアント・コンピュータ1において受信される(図10ステップ28A)。すると,そのURLデータによって表されるURLのウェブ・ページがウェブ・サーバ12にリクエストされる(図10ステップ29A)。ウェブ・サーバ12からリクエストされたウェブ・ページを表すウェブ・ページ・コンテンツが送信され,クライアント・コンピュータ1において受信される(ステップ30A)。
受信したウェブ・ページ・コンテンツによって表されるウェブ・ページに含まれている文章において,入力された単語と抽出されたキーワードとが係り受けの関係にあるかどうかが判定される(図10ステップ31A)。係り受けの関係にあれば(図10ステップ31AでYES),入力された単語と抽出されたキーワードとは密接な関係にあると考えられるので,そのキーワードが,入力された単語に関連するキーワードと決定される(図10ステップ32)。係り受けの関係になければ(図10ステップ31AでNO),そのキーワードは入力された単語に関連するキーワードとは決定されない。次のキーワードがあれば(図10ステップ33AでYES),ステップ27Aからの処理が行われる。
上述の実施例では,係り受けの解析はクライアント・コンピュータにおいて行われているが,係り受け解析サーバ14において行うようにしてもよいのはいうまでもない。係り受けの解析が係り受け解析サーバ14において行われる場合には,入力された単語,抽出されたキーワード,検出されたウェブ・ページ・コンテンツなどがクライアント・コンピュータ1から係り受け解析サーバ14に送信される。
図12は,html文書の一例である。このhtml文書は,上述したように,ウェブ・サーバから送信されたウェブ・ページ・コンテンツ(図10ステップ30Aの処理)に含まれるhtmlファイルによって表されるものである。
上述したように,入力された単語は「C++」,抽出されたキーワードは「プログラム言語」,「オブジェクト指向」,「教育」,「セミナー」とする。
html文書には,符号71,72,73で示す文章が含まれており,ウェブ・ページにも符号71,72,73で示す文章などが含まれることとなる。
これらの文章71,72,73のうち,文章71においては,入力された単語「C++」がキーワード「オブジェクト指向」に係っている。また,文章72においては,入力された単語「C++」がキーワード「プログラミング言語」に係っている。したがって,入力された単語「C++」とキーワード「オブジェクト指向」および「プログラム言語」とは係り受けの関係にある。キーワード「オブジェクト指向」および「プログラム言語」は,入力された単語「C++」に関連するキーワードと決定される。
これらの文章のうち,文章73においては入力された単語「C++」とキーワード「教育」とは同じ文章に無く,離れた箇所に存在するので,係り受けの関係に無いと判断される。
1 クライアント・コンピュータ(単語のキーワードを決定する装置)
2 CPU(キーワード抽出手段,判定手段,キーワード決定手段)
4 通信装置(URLデータ受信手段,リクエスト送信手段,ウェブ・ページ・コンテンツ受信手段)
5 入力装置(単語入力手段)
11 検索サーバ
12 ウェブ・サーバ
13 辞書サーバ
14 係り受けサーバ

Claims (8)

  1. 関連するキーワードを見つける単語を入力する単語入力手段,
    上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信する単語データ送信手段,
    上記検索エンジンの検索結果を示すURLデータを受信するURLデータ受信手段,
    上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信するリクエスト送信手段,
    上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信するウェブ・ページ・コンテンツ受信手段,
    上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出するキーワード抽出手段,
    上記キーワード抽出手段によって抽出されたキーワードが上記単語入力手段から入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定する判定手段,および
    上記判定手段によって,上記キーワード抽出手段によって抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するキーワード決定手段,
    を備えた単語の関連キーワードを決定する装置。
  2. 上記判定手段は,
    上記単語入力手段から入力された単語と辞典または辞書という単語とを上記検索エンジンにおけるアンド検索により辞書サイトを見つける辞書サイト検索手段を備え,
    上記辞書サイト検索手段によってみつかった辞書サイトのうち国語辞書サイトおよび翻訳辞書サイトを除く辞書サイトに登録されているかどうかを判定するものである,
    請求項1に記載の単語の関連キーワードを決定する装置。
  3. 関連するキーワードを見つける単語を入力する単語入力手段,
    上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信する単語データ送信手段,
    上記検索エンジンの検索結果を示すURLデータを受信するURLデータ受信手段,
    上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信するリクエスト送信手段,
    上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信するウェブ・ページ・コンテンツ受信手段,
    上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出するキーワード抽出手段,
    上記ウェブ・ページ・コンテンツ受信手段において受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定する第1の判定手段,および
    上記第1の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するキーワード決定手段,
    を備えた単語の関連キーワードを決定する装置。
  4. 上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとのアンド検索が上記検索エンジンにおいて行われることにより得られる検索結果のウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定する第2の判定手段をさらに備え,
    上記キーワード決定手段は,上記第2の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するものである,
    請求項3に記載の単語の関連キーワードを決定する装置。
  5. 単語入力手段が,関連するキーワードを見つける単語を入力し,
    単語データ送信手段が,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信し,
    URLデータ受信手段が,上記検索エンジンの検索結果を示すURLデータを受信し,
    リクエスト送信手段が,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信し,
    ウェブ・ページ・コンテンツ受信手段が,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信し,
    キーワード抽出手段が,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出し,
    判定手段が,上記キーワード抽出手段によって抽出されたキーワードが上記単語入力手段から入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定し,
    キーワード決定手段が,上記判定手段によって,上記キーワード抽出手段によって抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定する,
    単語の関連キーワードを決定する装置の動作制御方法。
  6. 単語入力手段が,関連するキーワードを見つける単語を入力し,
    単語データ送信手段が,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信し,
    URLデータ受信手段が,上記検索エンジンの検索結果を示すURLデータを受信し,
    リクエスト送信手段が,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信し,
    ウェブ・ページ・コンテンツ受信手段が,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信し,
    キーワード抽出手段が,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出し,
    第1の判定手段が,上記ウェブ・ページ・コンテンツ受信手段において受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定し
    キーワード決定手段が,上記第1の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定する,
    単語の関連キーワードを決定する装置の動作制御方法。
  7. 単語の関連キーワードを決定する装置のコンピュータを制御するコンピュータ読み取り可能なプログラムであって,
    関連するキーワードを見つける単語をさせ,
    入力した単語を表す単語データを検索エンジンに送信させ,
    上記検索エンジンの検索結果を示すURLデータを受信させ,
    受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信させ,
    上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信させ,
    受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出させ,
    抽出されたキーワードが入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定させ,
    抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,抽出されたキーワードを,入力した単語のキーワードと決定するように単語の関連キーワードを決定する装置のコンピュータを制御するコンピュータ読み取り可能なプログラム。
  8. 単語の関連キーワードを決定する装置のコンピュータを制御するコンピュータ読み取り可能なプログラムであって,
    関連するキーワードを見つける単語を入力させ,
    入力した単語を表す単語データを検索エンジンに送信させ,
    上記検索エンジンの検索結果を示すURLデータを受信させ,
    受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信させ,
    上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信させ,
    受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出させ,
    受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,入力した単語と抽出されたキーワードとが係り受けの関係となっているかどうかを判定させ
    係り受けの関係となっていると判定されたことに応じて,抽出されたキーワードを,入力した単語のキーワードと決定させるように単語の関連キーワードを決定する装置のコンピュータを制御するコンピュータ読み取り可能なプログラム。
JP2009275197A 2009-12-03 2009-12-03 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム Pending JP2011118652A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009275197A JP2011118652A (ja) 2009-12-03 2009-12-03 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム
US12/952,839 US20110137943A1 (en) 2009-12-03 2010-11-23 Apparatus for deciding word-related keywords, and method and program for controlling operation of same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009275197A JP2011118652A (ja) 2009-12-03 2009-12-03 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム

Publications (1)

Publication Number Publication Date
JP2011118652A true JP2011118652A (ja) 2011-06-16

Family

ID=44083048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009275197A Pending JP2011118652A (ja) 2009-12-03 2009-12-03 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム

Country Status (2)

Country Link
US (1) US20110137943A1 (ja)
JP (1) JP2011118652A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042707A (ja) * 2018-09-13 2020-03-19 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892584B1 (en) * 2011-03-28 2014-11-18 Symantec Corporation Systems and methods for identifying new words from a meta tag
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
CN102270244B (zh) * 2011-08-26 2013-03-13 四川长虹电器股份有限公司 基于核心语句的网页内容关键词快速提取方法
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US20130268544A1 (en) * 2012-04-09 2013-10-10 Rawllin International Inc. Automatic formation of item description tags for markup languages
US20140245140A1 (en) * 2013-02-22 2014-08-28 Next It Corporation Virtual Assistant Transfer between Smart Devices
US9672822B2 (en) 2013-02-22 2017-06-06 Next It Corporation Interaction with a portion of a content item through a virtual assistant

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042707A (ja) * 2018-09-13 2020-03-19 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US20110137943A1 (en) 2011-06-09

Similar Documents

Publication Publication Date Title
JP2011118652A (ja) 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム
US8495049B2 (en) System and method for extracting content for submission to a search engine
US8458207B2 (en) Using anchor text to provide context
JP5264892B2 (ja) 多言語情報検索
US8046323B2 (en) Context based bookmark
US8799262B2 (en) Configurable web crawler
US7711682B2 (en) Searching hypertext based multilingual web information
US20090204602A1 (en) Apparatus and methods for presenting linking abstracts for search results
US7757158B2 (en) Converting hypertext character strings to links by attaching anchors extracted from existing link destination
US7783643B2 (en) Direct navigation for information retrieval
US20130007004A1 (en) Method and apparatus for creating a search index for a composite document and searching same
JP2007188356A (ja) 不正ハイパーリンク検出装置及びその方法
US20030176996A1 (en) Content of electronic documents
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP4998558B2 (ja) リンク作成プログラム、リンク作成装置及びリンク作成方法
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
RU2711123C2 (ru) Способ и система компьютерной обработки одной или нескольких цитат в цифровых текстах для определения их автора
US9639611B2 (en) System and method for providing suitable web addresses to a user device
JPH10134087A (ja) 文書要求装置および関連文書の先取り方法
JP2010079863A (ja) 絞り込み検索サービス提供方法及びプログラム
KR19990078876A (ko) 일괄된 자원 위치기 입력을 통한 정보 검색 방법
KR101746594B1 (ko) 웹 크롤러 기반 사용자 검색이력 추종 학습형 사용자 맞춤 검색정보 푸쉬 제공시스템
KR101079802B1 (ko) 웹사이트 검색 방법 및 시스템과 웹사이트 검색 장치 및이를 위한 기록매체
JP2011186692A (ja) 情報検索システムおよび情報検索方法
JP2012243130A (ja) 情報検索装置、方法、及びプログラム