JP2011118652A - 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム - Google Patents
単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム Download PDFInfo
- Publication number
- JP2011118652A JP2011118652A JP2009275197A JP2009275197A JP2011118652A JP 2011118652 A JP2011118652 A JP 2011118652A JP 2009275197 A JP2009275197 A JP 2009275197A JP 2009275197 A JP2009275197 A JP 2009275197A JP 2011118652 A JP2011118652 A JP 2011118652A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- word
- web page
- page content
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
【課題】ウェブ・ページに適したキーワードを決定する。
【解決手段】関連するキーワードを決定したい単語を入力する。入力された単語に関連するウェブ・ページが見つけられる。見つけられたウェブ・ページのメタ・タグに記述されているキーワード(プログラム言語,オブジェクト指向,教育,セミナー)が抽出される。入力された単語の専門辞書が登録されている辞書サーバに抽出されたキーワードが送信される。その辞書サーバに,送信されたキーワードが登録されていれば,そのキーワードは入力された単語に関連するキーワードと決定される。
【選択図】図8
【解決手段】関連するキーワードを決定したい単語を入力する。入力された単語に関連するウェブ・ページが見つけられる。見つけられたウェブ・ページのメタ・タグに記述されているキーワード(プログラム言語,オブジェクト指向,教育,セミナー)が抽出される。入力された単語の専門辞書が登録されている辞書サーバに抽出されたキーワードが送信される。その辞書サーバに,送信されたキーワードが登録されていれば,そのキーワードは入力された単語に関連するキーワードと決定される。
【選択図】図8
Description
この発明は,単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラムに関する。
ウェブ・ページにはメタ・タグにキーワードが記述されていることが多い。検索エンジンに入力されたキーワードとメタ・タグに記述されているキーワードとが一致すると,一致したキーワードがメタ・タグに記述されているウェブ・ページが検索結果として表示される。また,タグ付けがされている文章を収集するもの(特許文献1),あらかじめ各単語に所定のタグを用意し,自動タグ付与を行うもの(特許文献2)もある。
しかしながら,必ずしもウェブ・ページに適したキーワードを見つけることはできない。
この発明は,ウェブ・ページに適したキーワードを決定することを目的とする。
第1の発明による単語の関連キーワードを決定する装置は,関連するキーワードを見つける単語を入力する単語入力手段,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信する単語データ送信手段,上記検索エンジンの検索結果を示すURLデータを受信するURLデータ受信手段,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信するリクエスト送信手段,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信するウェブ・ページ・コンテンツ受信手段,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出するキーワード抽出手段,上記キーワード抽出手段によって抽出されたキーワードが上記単語入力手段から入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定する判定手段,および上記判定手段によって,上記キーワード抽出手段によって抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するキーワード決定手段を備えていることを特徴とする。
第1の発明は,上記単語の関連キーワードを決定する装置に適した動作制御方法も提供している。すなわち,この方法は,単語入力手段が,関連するキーワードを見つける単語を入力し,単語データ送信手段が,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信し,URLデータ受信手段が,上記検索エンジンの検索結果を示すURLデータを受信し,リクエスト送信手段が,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信し,ウェブ・ページ・コンテンツ受信手段が,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信し,キーワード抽出手段が,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出し,判定手段が,上記キーワード抽出手段によって抽出されたキーワードが上記単語入力手段から入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定し,キーワード決定手段が,上記判定手段によって,上記キーワード抽出手段によって抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するものである。
第1の発明は,上記単語の関連キーワードを決定する装置の動作制御方法を実施するためのプログラムも提供している。
第1の発明によると,関連するキーワードを見つける単語が入力され,検索エンジンにおいて,入力された単語の検索が行われる。検索により得られたURLをもつウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードが抽出される。抽出されたキーワードが入力された単語の分野の専門辞書サイトに登録されている場合には,そのキーワードが入力された単語の関連キーワードとして決定される。入力した単語に関連するキーワードを決定することができる。とくに,抽出されたキーワードが入力された単語の分野の専門辞書サイトに登録されていなければ,その抽出されたキーワードは入力された単語の関連キーワードと決定されないので,入力された単語と同じ分野のキーワードを入力された単語に関連するキーワードと決定できる。
上記判定手段は,たとえば,上記単語入力手段から入力された単語と辞典または辞書という単語とを上記検索エンジンにおけるアンド検索により辞書サイトを見つける辞書サイト検索手段を備える。この場合,上記辞書サイト検索手段によってみつかった辞書サイトのうち国語辞書サイトおよび翻訳辞書サイトを除く辞書サイトに登録されているかどうかを判定するものとなろう。
第2の発明による単語の関連キーワードを決定する装置は,関連するキーワードを見つける単語を入力する単語入力手段,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信する単語データ送信手段,上記検索エンジンの検索結果を示すURLデータを受信するURLデータ受信手段,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信するリクエスト送信手段,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信するウェブ・ページ・コンテンツ受信手段,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出するキーワード抽出手段,上記ウェブ・ページ・コンテンツ受信手段において受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定する第1の判定手段,および上記第1の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するキーワード決定手段を備えていることを特徴とする。
第2の発明は,上記単語の関連キーワードを決定する装置に適した動作制御方法も提供している。すなわち,この方法は,単語入力手段が,関連するキーワードを見つける単語を入力し,単語データ送信手段が,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信し,URLデータ受信手段が,上記検索エンジンの検索結果を示すURLデータを受信し,リクエスト送信手段が,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信し,ウェブ・ページ・コンテンツ受信手段が,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信し,キーワード抽出手段が,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出し,第1の判定手段が,上記ウェブ・ページ・コンテンツ受信手段において受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定し,キーワード決定手段が,上記第1の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するものである。
第2の発明は,上記単語の関連キーワードを決定する装置の動作制御方法を実施するためのプログラムも提供している。
第2の発明においても,関連するキーワードを見つける単語が入力され,検索エンジンにおいて,入力された単語の検索が行われる。検索により得られたURLをもつウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードが抽出される。抽出されたキーワードと入力された単語とが,受信したウェブ・ページ・コンテンツに含まれる文章において係り受けの関係となっていると,そのキーワードが,入力された単語の関連キーワードとして決定される。係り受けの関係にある単語とキーワードとは密接に関連するものと考えられるので,入力した単語に密接に関連するキーワードを決定することができる。
上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとのアンド検索が上記検索エンジンにおいて行われることにより得られる検索結果のウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定する第2の判定手段をさらに備えてもよい。この場合,上記キーワード決定手段は,たとえば,上記第2の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するものとなろう。
図1は,この発明の実施例を示すものでキーワード決定システムの概要を示している。
キーワード決定システムには,クライアント・コンピュータ(単語のキーワードを決定する装置)1,検索サーバ11,ウェブ・サーバ12,辞書サーバ13および係り受け解析サーバ14が含まれている。これらのクライアント・コンピュータ1ならびにサーバ11,12,13および14はインターネットを介して互いに通信可能である。
検索サーバ11は,単語等が与えられることにより,その与えられた単語に関連するウェブ・ページを検索により見つけることができる検索エンジンである。ウェブ・サーバ12は,URL(Uniform Resource Locator)によって特定されるウェブ・ページを表すウェブ・ページ・コンテンツを多数格納するもので,リクエストに応じてウェブ・ページ・コンテンツを送信する。辞書サーバ13は,単語等の意味,用法を記した辞書の内容を表す辞書データを格納している。係り受けサーバ14は,文節(単語)と文節(文節)とが,どのような関係でつながっているかを解析するサーバである。
図1においては,クライアント・コンピュータ1ならびにサーバ11,12,13および14がそれぞれ一つずつ図示されているが,多数のクライアント・コンピュータ1ならびにサーバ11,12,13および14が存在するのはいうまでもない。
図2は,クライアント・コンピュータ1の電気的構成を示すブロック図である。
クライアント・コンピュータ1の全体の動作は,CPU2によって統括される。
クライアント・コンピュータ1には,表示装置3,インターネットと通信するための通信装置4,キーボード,マウスなどの入力装置5,後述のように単語に関連したキーワードをタグ情報として記憶するタグ情報データベース(ハードディスク)6,所定のデータを格納するメモリ7およびCD−ROM(コンパクト・ディスク−リード・オンリ・メモリ)ドライブ8が含まれている。後述する動作を行う動作プログラムが格納されているCD−ROM9から動作プログラムがCD−ROMドライブ8によって読み取られることにより,読み取られた動作プログラムがクライアント・コンピュータ1にインストールされる。
図3および図4はクライアント・コンピュータ1の処理手順を示すフローチャート,図5は検索サーバ11の処理手順を示すフローチャート,図6はウェブ・サーバ12の処理手順を示すフローチャート,図7は辞書サーバの処理手順を示すフローチャートである。
この実施例では,関連するキーワードを見つける単語がクライアント・コンピュータ1から入力される。入力された単語が検索エンジン11に送信され,検索エンジン11において,入力された単語に関連するウェブ・ページが見つけられる。見つけられたウェブ・ページのメタ・タグに記述されているキーワードが抽出される。抽出されたキーワードが,入力された単語と同じ分野の専門辞書の辞書サーバ13に記述されていれば,そのキーワードが,クライアント・コンピュータ1に入力された単語に関連するキーワードとして決定される。この実施例では係り受け解析サーバ14は使用されないが,後述するように使用するようにしてもよい。
クライアント・コンピュータ1のユーザは,クライアント・コンピュータ1の入力装置5を用いて関連するキーワードを決定する単語を入力する(図3ステップ21)。入力された単語を表すデータは,クライアント・コンピュータ1から検索サーバ11に送信される(図3ステップ22)。たとえば,単語として「C++」が入力されたとすると,その「C++」を表すデータがクライアント・コンピュータ1から検索サーバ11に送信される。
クライアント・コンピュータ1から送信された単語データが検索サーバ11において受信される(図5ステップ41)。すると,検索サーバ11において,受信した単語データによって表される単語に関連する多数のウェブ・ページが検索により見つけられる(図5ステップ42)。検索により見つけられたウェブ・ページのURLを表すデータが検索サーバ11からクライアント・コンピュータ1に送信される(図5ステップ43)。上述したように,単語として「C++」が入力されたとすると,その「C++」に関連したウェブ・ページが検索により見つけられる。
検索サーバ11から送信されたURLを表すデータがクライアント・コンピュータ1において受信される(図3ステップ23)。すると,受信したURLデータによって表されるURLの中から所望のURLによって特定されるウェブ・ページがユーザによって選択される。選択されたウェブ・ページのリクエストがクライアント・コンピュータ1からウェブ・サーバ12に送信される(図3ステップ24)。クライアント・コンピュータ1の表示装置3の表示画面にはURLにリンクされているウェブ・ページのサイト名が表示され,そのサイト名の中から所望のサイトを選択することにより,ウェブ・ページのリクエストがクライアント・コンピュータ1からウェブ・サーバ12に送信されることとなろう。
クライアント・コンピュータ1から送信されたウェブ・ページのリクエストがウェブ・サーバ12において受信される(図6ステップ51)。すると,リクエストされたウェブ・ページを表すウェブ・ページ・コンテンツが,ウェブ・サーバ11から,リクエストしたクライアント・コンピュータ1に送信される(図6ステップ52)。リクエストには,リクエストするウェブ・ページのURLも含まれており,そのURLによって特定される(格納場所に格納されている)ウェブ・ページを表すウェブ・ページ・コンテンツがウェブ・サーバ12からクライアント・コンピュータ1に送信されるのはいうまでもない。
ウェブ・ページ・サーバ11から送信されたウェブ・ページ・コンテンツがクライアント・コンピュータ1において受信される(図3ステップ25)。すると,受信したウェブ・ページ・コンテンツに含まれるhtml(HyperText Markup Language)ファイルによって表されるhtml文書のメタ・タグに記述されているキーワードが抽出される(図3ステップ26)。
図8は,html文書の一部を示している。
html文書のヘッダにキーワードが記述されているメタ・タグ(meta name="keywords")が含まれている。このメタ・タグの内容として「プログラム言語,オブジェクト指向,教育,セミナー」などがキーワードとして記述されている。
上述したように,単語として「C++」が入力されたものとすると,その単語「C++」に関連するウェブ・ページのメタ・タグに記述されているキーワードが上述した「プログラム言語,オブジェクト指向,教育,セミナー」などということになる。これらのキーワード「プログラム言語,オブジェクト指向,教育,セミナー」などが,入力された単語「C++」に関連するキーワード候補となる。
図4を参照して,入力された単語(たとえば,「C++」)と「用語辞典」(用語辞書,辞典,辞書でもよい)という単語とがクライアント・コンピュータ1から検索サーバ11に送信される(ステップ27)。
クライアント・コンピュータから送信された単語と「用語辞典」という単語とが検索サーバ11において受信される(図5ステップ44)。すると,検索サーバ11において,受信した単語(C++)と「用語辞典」という単語とのアンド検索が行われる(図5ステップ45)。
このアンド検索により「用語辞典」に関連する辞書サーバ11のウェブ・ページが見つかる。また,アンド検索はクライアント・コンピュータ1から送信された単語と「用語辞典」との両方に関連する「用語辞典」についての辞書サーバ11のウェブ・ページを見つけることとなるから,見つかった辞書サーバ11は,クライアント・コンピュータ1から送信された単語(C++)の分野と同じ分野の専門辞書についてのものと考えられる。このようにして見つかった辞書サーバ11のURLを表すデータが検索サーバ11からクライアント・コンピュータ1に送信される(図5ステップ46)。
もっとも,アンド検索により見つかった辞書サーバ11が一般的な国語辞書としての機能をもつ国語辞書サーバ,翻訳(和英,英和)辞書としての機能をもつ翻訳辞書サーバである場合には,検索結果から除かれ,専門辞書としての機能をもつ辞書サーバのURLを表すデータが検索サーバ11からクライアント・コンピュータ1に送信される。また,検索により専門辞書サーバが複数見つかった場合には先頭の専門辞書サーバまたは先頭の専門辞書サーバを含む複数の専門辞書サーバのURLを表すデータを検索サーバ11からクライアント・コンピュータ1に送信するようにしてもよい。
検索サーバ11から送信された辞書サーバ13のURLデータはクライアント・コンピュータ1において受信される(図4ステップ28)。すると,受信したURLデータによって表されるURLの辞書サーバ11にクライアント・コンピュータ1がアクセスし,キーワード(たとえば,プログラム言語)を表すデータがクライアント・コンピュータ1から辞書サーバ13に送信される(図4ステップ29)。
クライアント・コンピュータ1から送信されたキーワード(たとえば,プログラム言語)を表すデータが辞書サーバ13において受信される(図7ステップ61)。すると,受信したキーワードを表すデータによって表される単語の意味,用法などが辞書において検索される(図7ステップ62)。検索結果が辞書サーバ13からクライアント・コンピュータ1に送信される(図7ステップ63)。
辞書サーバ13から送信された検索結果がクライアント・コンピュータ1において受信される(図4ステップ30)。キーワードが辞書サーバ11に登録されていれば(図4ステップ31でYES),入力された単語(C++)とキーワード(プログラム言語)とは同じ分野のものと考えられるので,そのキーワードが入力された単語に関連するキーワードとして決定される(図4ステップ32)。決定されたキーワードがタグ情報データベースに,単語に関連づけられて記憶される。キーワードが辞書サーバ11に登録されていなければ(図4ステップ31でNO),そのキーワードは入力された単語と異なる分野のものと考えられる。そのキーワードは入力された単語に関連するキーワードとは判断されない。たとえば,キーワードが「教育」であれば,入力された単語(C++)の分野の専門辞書(たとえば,IT用語辞典)には登録されていないことが考えられ,そのキーワード「教育」は入力された単語(C++)に関連するキーワードとはならない。
次のキーワードがあれば(図4ステップ33),再び図4ステップ29からの処理が行われる。また,最初に入力された単語に関連するウェブ・ページが複数あり,次のウェブ・ページがあれば(図4ステップ34でYES),次のウェブ・ページについて図3ステップ24からの処理が行われる。
図9は,タグ情報データベース6に格納されているキーワード・テーブルの一例である。
キーワード・テーブルには,入力した単語に対応して,上述のようにして決定されたーワードが格納されている。たとえば,上述のように,入力した単語が「C++」であれば,決定されたキーワードとして「プログラム言語」,「オブジェクト指向」などが格納されている。このようにして決定されたキーワードをウェブ・ページのメタ・タグに記述することができる。
図10から図12は,他の実施例を示している。
図10は,クライアント・コンピュータ1の処理手順の一部を示すフローチャートであり,図4に示す処理に対応している。図11は,検索サーバ11の処理手順を示すフローチャートであり,図5に示す処理に対応している。これらの図において,図4または図5に示す処理と同一の処理については同一符号を付して説明を省略する。
この実施例では,入力した単語と上述のようにメタ・タグから抽出されたキーワードとが係り受け関係にあるかどうかを判定し,係り受け関係にある場合にはそのキーワードは入力した単語に関連するものと判断するものである。係り受けとは,文節(単語)と文節(単語)とがどのような関係でつながっているかを示すものである。たとえば,主語と述語からなる関係,修飾,被修飾の関係,動詞+て(で)+補助動詞という補助の関係,並立の関係,接続,被接続の関係などがある。係り受けの有無は公知の解析手法を利用できるのはいうまでもない。
まず,抽出されたキーワード(たとえば,プログラム言語)と入力された単語(たとえば,C++)とがクライアント・コンピュータ1から検索サーバ11に送信される(図10ステップ27A)。
クライアント・コンピュータ1から送信されたキーワードと単語とが検索サーバ11において受信される(図11ステップ44A)。すると,受信したキーワードと単語とのアンド検索が検索サーバ11において行われる(図11ステップ45A)。検索により見つかったウェブ・ページのURLを表すデータが検索サーバ11からクライアント・コンピュータ1に送信される(図11ステップ46A)。
検索サーバ11から送信されたURLデータがクライアント・コンピュータ1において受信される(図10ステップ28A)。すると,そのURLデータによって表されるURLのウェブ・ページがウェブ・サーバ12にリクエストされる(図10ステップ29A)。ウェブ・サーバ12からリクエストされたウェブ・ページを表すウェブ・ページ・コンテンツが送信され,クライアント・コンピュータ1において受信される(ステップ30A)。
受信したウェブ・ページ・コンテンツによって表されるウェブ・ページに含まれている文章において,入力された単語と抽出されたキーワードとが係り受けの関係にあるかどうかが判定される(図10ステップ31A)。係り受けの関係にあれば(図10ステップ31AでYES),入力された単語と抽出されたキーワードとは密接な関係にあると考えられるので,そのキーワードが,入力された単語に関連するキーワードと決定される(図10ステップ32)。係り受けの関係になければ(図10ステップ31AでNO),そのキーワードは入力された単語に関連するキーワードとは決定されない。次のキーワードがあれば(図10ステップ33AでYES),ステップ27Aからの処理が行われる。
上述の実施例では,係り受けの解析はクライアント・コンピュータにおいて行われているが,係り受け解析サーバ14において行うようにしてもよいのはいうまでもない。係り受けの解析が係り受け解析サーバ14において行われる場合には,入力された単語,抽出されたキーワード,検出されたウェブ・ページ・コンテンツなどがクライアント・コンピュータ1から係り受け解析サーバ14に送信される。
図12は,html文書の一例である。このhtml文書は,上述したように,ウェブ・サーバから送信されたウェブ・ページ・コンテンツ(図10ステップ30Aの処理)に含まれるhtmlファイルによって表されるものである。
上述したように,入力された単語は「C++」,抽出されたキーワードは「プログラム言語」,「オブジェクト指向」,「教育」,「セミナー」とする。
html文書には,符号71,72,73で示す文章が含まれており,ウェブ・ページにも符号71,72,73で示す文章などが含まれることとなる。
これらの文章71,72,73のうち,文章71においては,入力された単語「C++」がキーワード「オブジェクト指向」に係っている。また,文章72においては,入力された単語「C++」がキーワード「プログラミング言語」に係っている。したがって,入力された単語「C++」とキーワード「オブジェクト指向」および「プログラム言語」とは係り受けの関係にある。キーワード「オブジェクト指向」および「プログラム言語」は,入力された単語「C++」に関連するキーワードと決定される。
これらの文章のうち,文章73においては入力された単語「C++」とキーワード「教育」とは同じ文章に無く,離れた箇所に存在するので,係り受けの関係に無いと判断される。
1 クライアント・コンピュータ(単語のキーワードを決定する装置)
2 CPU(キーワード抽出手段,判定手段,キーワード決定手段)
4 通信装置(URLデータ受信手段,リクエスト送信手段,ウェブ・ページ・コンテンツ受信手段)
5 入力装置(単語入力手段)
11 検索サーバ
12 ウェブ・サーバ
13 辞書サーバ
14 係り受けサーバ
2 CPU(キーワード抽出手段,判定手段,キーワード決定手段)
4 通信装置(URLデータ受信手段,リクエスト送信手段,ウェブ・ページ・コンテンツ受信手段)
5 入力装置(単語入力手段)
11 検索サーバ
12 ウェブ・サーバ
13 辞書サーバ
14 係り受けサーバ
Claims (8)
- 関連するキーワードを見つける単語を入力する単語入力手段,
上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信する単語データ送信手段,
上記検索エンジンの検索結果を示すURLデータを受信するURLデータ受信手段,
上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信するリクエスト送信手段,
上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信するウェブ・ページ・コンテンツ受信手段,
上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出するキーワード抽出手段,
上記キーワード抽出手段によって抽出されたキーワードが上記単語入力手段から入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定する判定手段,および
上記判定手段によって,上記キーワード抽出手段によって抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するキーワード決定手段,
を備えた単語の関連キーワードを決定する装置。 - 上記判定手段は,
上記単語入力手段から入力された単語と辞典または辞書という単語とを上記検索エンジンにおけるアンド検索により辞書サイトを見つける辞書サイト検索手段を備え,
上記辞書サイト検索手段によってみつかった辞書サイトのうち国語辞書サイトおよび翻訳辞書サイトを除く辞書サイトに登録されているかどうかを判定するものである,
請求項1に記載の単語の関連キーワードを決定する装置。 - 関連するキーワードを見つける単語を入力する単語入力手段,
上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信する単語データ送信手段,
上記検索エンジンの検索結果を示すURLデータを受信するURLデータ受信手段,
上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信するリクエスト送信手段,
上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信するウェブ・ページ・コンテンツ受信手段,
上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出するキーワード抽出手段,
上記ウェブ・ページ・コンテンツ受信手段において受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定する第1の判定手段,および
上記第1の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するキーワード決定手段,
を備えた単語の関連キーワードを決定する装置。 - 上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとのアンド検索が上記検索エンジンにおいて行われることにより得られる検索結果のウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定する第2の判定手段をさらに備え,
上記キーワード決定手段は,上記第2の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定するものである,
請求項3に記載の単語の関連キーワードを決定する装置。 - 単語入力手段が,関連するキーワードを見つける単語を入力し,
単語データ送信手段が,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信し,
URLデータ受信手段が,上記検索エンジンの検索結果を示すURLデータを受信し,
リクエスト送信手段が,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信し,
ウェブ・ページ・コンテンツ受信手段が,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信し,
キーワード抽出手段が,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出し,
判定手段が,上記キーワード抽出手段によって抽出されたキーワードが上記単語入力手段から入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定し,
キーワード決定手段が,上記判定手段によって,上記キーワード抽出手段によって抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定する,
単語の関連キーワードを決定する装置の動作制御方法。 - 単語入力手段が,関連するキーワードを見つける単語を入力し,
単語データ送信手段が,上記単語入力手段から入力した単語を表す単語データを検索エンジンに送信し,
URLデータ受信手段が,上記検索エンジンの検索結果を示すURLデータを受信し,
リクエスト送信手段が,上記URLデータ受信手段において受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信し,
ウェブ・ページ・コンテンツ受信手段が,上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信し,
キーワード抽出手段が,上記ウェブ・ページ・コンテンツ受信手段によって受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出し,
第1の判定手段が,上記ウェブ・ページ・コンテンツ受信手段において受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,上記単語入力手段から入力した単語と上記キーワード抽出手段によって抽出されたキーワードとが係り受けの関係となっているかどうかを判定し
キーワード決定手段が,上記第1の判定手段によって,係り受けの関係となっていると判定されたことに応じて,上記キーワード抽出手段から抽出されたキーワードを,上記単語入力手段から入力した単語のキーワードと決定する,
単語の関連キーワードを決定する装置の動作制御方法。 - 単語の関連キーワードを決定する装置のコンピュータを制御するコンピュータ読み取り可能なプログラムであって,
関連するキーワードを見つける単語をさせ,
入力した単語を表す単語データを検索エンジンに送信させ,
上記検索エンジンの検索結果を示すURLデータを受信させ,
受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信させ,
上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信させ,
受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出させ,
抽出されたキーワードが入力された単語の分野の辞書である専門辞書のサイトに登録されているかどうかを判定させ,
抽出されたキーワードが,上記専門辞書のサイトに登録されていると判定されたことに応じて,抽出されたキーワードを,入力した単語のキーワードと決定するように単語の関連キーワードを決定する装置のコンピュータを制御するコンピュータ読み取り可能なプログラム。 - 単語の関連キーワードを決定する装置のコンピュータを制御するコンピュータ読み取り可能なプログラムであって,
関連するキーワードを見つける単語を入力させ,
入力した単語を表す単語データを検索エンジンに送信させ,
上記検索エンジンの検索結果を示すURLデータを受信させ,
受信したURLデータによって表されるURLをもつウェブ・ページを表すウェブ・ページ・コンテンツのリクエストをウェブ・サーバに送信させ,
上記ウェブ・サーバから送信されたウェブ・ページ・コンテンツを受信させ,
受信したウェブ・ページ・コンテンツから,そのウェブ・ページ・コンテンツのメタ・タグに記述されているキーワードを抽出させ,
受信したウェブ・ページのコンテンツによって表されるウェブ・ページに含まれる文章において,入力した単語と抽出されたキーワードとが係り受けの関係となっているかどうかを判定させ
係り受けの関係となっていると判定されたことに応じて,抽出されたキーワードを,入力した単語のキーワードと決定させるように単語の関連キーワードを決定する装置のコンピュータを制御するコンピュータ読み取り可能なプログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009275197A JP2011118652A (ja) | 2009-12-03 | 2009-12-03 | 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム |
| US12/952,839 US20110137943A1 (en) | 2009-12-03 | 2010-11-23 | Apparatus for deciding word-related keywords, and method and program for controlling operation of same |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009275197A JP2011118652A (ja) | 2009-12-03 | 2009-12-03 | 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2011118652A true JP2011118652A (ja) | 2011-06-16 |
Family
ID=44083048
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009275197A Pending JP2011118652A (ja) | 2009-12-03 | 2009-12-03 | 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20110137943A1 (ja) |
| JP (1) | JP2011118652A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020042707A (ja) * | 2018-09-13 | 2020-03-19 | Zホールディングス株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Families Citing this family (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8892584B1 (en) * | 2011-03-28 | 2014-11-18 | Symantec Corporation | Systems and methods for identifying new words from a meta tag |
| US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
| US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
| US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
| US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
| US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
| US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
| US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
| US9454962B2 (en) * | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
| CN102270244B (zh) * | 2011-08-26 | 2013-03-13 | 四川长虹电器股份有限公司 | 基于核心语句的网页内容关键词快速提取方法 |
| US9836177B2 (en) | 2011-12-30 | 2017-12-05 | Next IT Innovation Labs, LLC | Providing variable responses in a virtual-assistant environment |
| US20130268544A1 (en) * | 2012-04-09 | 2013-10-10 | Rawllin International Inc. | Automatic formation of item description tags for markup languages |
| US20140245140A1 (en) * | 2013-02-22 | 2014-08-28 | Next It Corporation | Virtual Assistant Transfer between Smart Devices |
| US9672822B2 (en) | 2013-02-22 | 2017-06-06 | Next It Corporation | Interaction with a portion of a content item through a virtual assistant |
-
2009
- 2009-12-03 JP JP2009275197A patent/JP2011118652A/ja active Pending
-
2010
- 2010-11-23 US US12/952,839 patent/US20110137943A1/en not_active Abandoned
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020042707A (ja) * | 2018-09-13 | 2020-03-19 | Zホールディングス株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20110137943A1 (en) | 2011-06-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2011118652A (ja) | 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム | |
| US8495049B2 (en) | System and method for extracting content for submission to a search engine | |
| US8458207B2 (en) | Using anchor text to provide context | |
| JP5264892B2 (ja) | 多言語情報検索 | |
| US8046323B2 (en) | Context based bookmark | |
| US8799262B2 (en) | Configurable web crawler | |
| US7711682B2 (en) | Searching hypertext based multilingual web information | |
| US20090204602A1 (en) | Apparatus and methods for presenting linking abstracts for search results | |
| US7757158B2 (en) | Converting hypertext character strings to links by attaching anchors extracted from existing link destination | |
| US7783643B2 (en) | Direct navigation for information retrieval | |
| US20130007004A1 (en) | Method and apparatus for creating a search index for a composite document and searching same | |
| JP2007188356A (ja) | 不正ハイパーリンク検出装置及びその方法 | |
| US20030176996A1 (en) | Content of electronic documents | |
| JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
| JP4998558B2 (ja) | リンク作成プログラム、リンク作成装置及びリンク作成方法 | |
| JP2006155275A (ja) | 情報抽出方法及び情報抽出装置 | |
| RU2711123C2 (ru) | Способ и система компьютерной обработки одной или нескольких цитат в цифровых текстах для определения их автора | |
| US9639611B2 (en) | System and method for providing suitable web addresses to a user device | |
| JPH10134087A (ja) | 文書要求装置および関連文書の先取り方法 | |
| JP2010079863A (ja) | 絞り込み検索サービス提供方法及びプログラム | |
| KR19990078876A (ko) | 일괄된 자원 위치기 입력을 통한 정보 검색 방법 | |
| KR101746594B1 (ko) | 웹 크롤러 기반 사용자 검색이력 추종 학습형 사용자 맞춤 검색정보 푸쉬 제공시스템 | |
| KR101079802B1 (ko) | 웹사이트 검색 방법 및 시스템과 웹사이트 검색 장치 및이를 위한 기록매체 | |
| JP2011186692A (ja) | 情報検索システムおよび情報検索方法 | |
| JP2012243130A (ja) | 情報検索装置、方法、及びプログラム |