JP2018010533A

JP2018010533A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2018010533A
Application number: JP2016139751A
Authority: JP
Inventors: 竹本　剛; Takeshi Takemoto; 剛竹本
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2018-01-18
Anticipated expiration: 2036-07-14
Also published as: JP6436936B2; US20180018360A1

Abstract

【課題】負荷を過度に増大させることなくデータベースを更新し、ドキュメントに関連するコンテンツを適切にユーザに提示可能な情報処理装置を提供すること。【解決手段】ドキュメントを記憶するドキュメント記憶手段と、ドキュメントとタームとについて２次元クラスタを生成する２次元クラスタ生成手段と、ドキュメントとタームとについて１次元クラスタを生成する１次元クラスタ生成手段と、ドキュメントの追加と削除とを行うドキュメント更新手段と、ドキュメントが更新されると、更新されたドキュメントに基づいて２次元クラスタを生成させる２次元クラスタ更新手段と、削除されるドキュメントに基づいて、１次元クラスタを更新する１次元クラスタ更新手段と、を備えるよう情報処理装置を構成する。【選択図】図１

Description

本発明は、ユーザの閲覧するドキュメントに関連するコンテンツを選択してドキュメントとともに表示する情報処理装置、情報処理方法およびプログラムに関する。

ユーザが閲覧するドキュメントにコンテンツ（広告など）を付加して提示するにあたり、対象となるドキュメントに関連するコンテンツをユーザの好みに合わせて適切に選択することが重要となる。特許文献１には、ユーザにとって最適な広告をユーザに提供することが可能な端末装置が記載されている。

特開２０１５−２２５６１号公報

特許文献１では、属性に対応するユーザの興味度の高い広告の優先度を高くして広告の表示位置を変更して表示する端末装置が記載されている。これにより、ユーザにとって最適な広告をユーザに提供することを可能にしている。

アクセス可能なドキュメントを取得し、各ドキュメントに含まれる単語の出現頻度を集計したデータベースに基づいて、対象となるドキュメントの属性を特定することが知られている。また、ドキュメントに対する操作履歴を取得し、各ドキュメントに含まれる単語の出現頻度を集計したデータベースに基づいて、その属性に対応するユーザの興味度を特定することが知られている。

ドキュメントに含まれる単語の出現頻度を集計したデータベースでは、各ドキュメントにおける出現傾向の類似する単語のグループ化や各単語の出現傾向の類似するドキュメントのグループ化によるクラスタリングを行うことがある。クラスタリングにより、グループ化されたクラスタの情報によってドキュメントの属性を特定することができるようになるため、各ドキュメントの詳細情報を保持する必要がなくなる。

アクセス可能なドキュメントの単語出現頻度を集計したデータベースにおけるクラスタリング結果を用いてユーザの興味度を把握する場合がある。具体的には、アクセス可能なドキュメントに基づいて作成された単語とドキュメントとの関連づけ情報（クラスタ）に、ユーザのアクセスしたドキュメントに含まれる単語を位置付ける。このようにすると、単語とドキュメントとの関連づけ情報をユーザごとに作成しなくてよいので、効率よくユーザの興味度を把握することができる。

対象となるドキュメントがインターネット上のニュースサイトの記事のようにネットワーク経由でアクセス可能な各種ドキュメントである場合、ドキュメントは日々追加される。ドキュメント内で使用される単語の意味は時代とともに変遷する。例えば、デビュー当初アイドルであった芸能人が映画俳優として活躍するようになると、その芸能人の名前の属するクラスタもアイドルから映画俳優に変わってゆく。

適切なコンテンツ提供を継続して行うことができるようにするには、このようなドキュメントを集計するデータベースを、単語の意味の変遷とともに更新していく必要がある。古いデータベースの作成に使用したドキュメントをすべて保持しておき、古いデータベース作成以降に生成されたドキュメントを追加して新しいデータベースを作成する、というデータベースの更新方法がある。

この方法によると、作成時点でアクセス可能なドキュメントに基づいてデータベースが作成されるため、作成時点の単語の意味を適切に反映したデータベースを作成することができる。しかし、増加する一方のドキュメントの保持が必要となるためデータ記憶容量を圧迫すること、大量のドキュメントを対象としたデータベース作成を行うためリソースへの負荷が大きく所要時間がかかることなどが問題となる。

また、古いデータベースのクラスタ情報だけを保持してドキュメントを破棄し、クラスタ情報に新規ドキュメントを追加するというデータベースの更新方法も考えられる。クラスタ情報は、そのクラスタの範囲（例えば中心座標と半径）により規定することができるため、元のドキュメントと比較してデータ量を非常に小さくすることができる。

しかし、この方法によると、時系列による単語の意味の変遷に追随することができない。上述した例で言うと、現在では映画俳優として活躍するようになった芸能人の名前が、データベース作成当時におけるアイドルに関連づけられる状態が続くことになり、ユーザに適切なコンテンツを提示することができない。

特に、上述のようにアクセス可能なドキュメントにおける単語とドキュメントとの関連づけ情報に基づいてユーザの興味度を把握する場合、ユーザ興味度のデータベースの更新を、アクセス可能なドキュメントにおける単語とドキュメントとの関連づけ情報の更新と連携して実行しないと、ユーザ興味度を正しく把握することができなくなるという問題が生じる。例えば、アクセス可能なドキュメントにおける関連づけ情報（クラスタ）のみを更新すると、アクセスしたドキュメントを位置付けたときのクラスタの範囲は、後の更新により変更されうる。更新前後でクラスタが一致していないと、過去のアクセスしたドキュメントの情報を現在対象となっているドキュメントの属性の判定に用いることができない。

本発明は、このようなデータベースの更新にかかる課題を解決するものであり、負荷を過度に増大させることなくデータベースを更新し、ドキュメントに関連するコンテンツを適切にユーザに提示可能な情報処理装置を提供することを目的とする。

上述した課題を解決するために、本発明にかかる情報処理装置は、
ネットワーク経由で取得したドキュメントを取得時刻と対応づけて記憶するドキュメント記憶手段と、
前記ドキュメントと前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化するとともに前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した２次元クラスタを生成する２次元クラスタ生成手段と、
前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した１次元クラスタを生成する１次元クラスタ生成手段と、
前記取得時刻の新しい前記ドキュメントを前記ドキュメント記憶手段に追加するとともに前記取得時刻の古い前記ドキュメントを前記ドキュメント記憶手段から削除するドキュメント更新手段と、
前記ドキュメント更新手段が前記ドキュメントの追加と削除とを行うと、更新された前記ドキュメント記憶手段に記憶されている前記ドキュメントに基づいて前記２次元クラスタ生成手段に前記２次元クラスタを生成させる２次元クラスタ更新手段と、
前記ドキュメント記憶手段から削除される前記取得時刻の古い前記ドキュメントに基づいて、前記１次元クラスタを更新する１次元クラスタ更新手段と、
を備えることを特徴とする。

本発明により、負荷を過度に増大させることなくデータベースを更新し、ドキュメントに関連するコンテンツを適切にユーザに提示可能な情報処理装置を提供することができる。

本発明の第１の実施形態にかかる情報処理システムの概略構成図である。本発明の実施形態にかかる情報処理装置の機能ブロック図である。ドキュメント記憶手段１００に記憶されるデータの例である。２次元クラスタを生成する手順の例を示す図である。２次元クラスタ生成手段１１０に生成される２次元クラスタの例である。１次元クラスタ生成手段１２０に生成される１次元クラスタの例である。情報処理装置１におけるクラスタ更新処理のフローチャートである。情報処理装置１における追加コンテンツの取得・表示処理のフローチャートである。

以下、本発明の実施の形態について詳細に説明する。

図１は、本発明の第１の実施形態にかかる情報処理システムの概略構成図である。図１に示すように、情報処理装置１は、通信部１０と、処理部１１と、表示部１２と、データ記憶部１３とを有して構成される。また、ドキュメントサーバ２は、通信部２０と、ドキュメント提供部２１とを有して構成される。情報処理装置１とドキュメントサーバ２とは、ネットワーク３を介して接続される。情報処理装置１は、ネットワーク３経由でアクセス可能な各種情報にアクセスするものであり、パーソナルコンピュータやスマートホンなどが該当するが、これに限るものではない。また、情報処理装置１とドキュメントサーバ２とは１台ずつ記載されているがこれに限らず、１台の情報処理装置１が複数のドキュメントサーバ２と接続されてよく、複数の情報処理装置１が１台のドキュメントサーバ２に接続されてもよい。

情報処理装置１の通信部１０は、情報処理装置１をネットワーク３に接続し、情報の送受信を行う。通信部１０は、具体的には図示しない有線ＬＡＮインタフェースや無線ＬＡＮインタフェースや携帯電話通信インタフェースおよびこれらの制御ソフトウェアないしファームウェアにより構成可能である。

情報処理装置１の処理部１１は、各種情報処理を実行する。各種情報処理には、図示しない入力部を介してユーザの指定するソフトウェアの実行の他に、情報処理装置１を構成する各部の制御など、ユーザが明示的に指定しない処理が含まれる。処理部１１は、図示しないＣＰＵおよびメモリにより構成可能である。

情報処理装置１の表示部１２は、処理部１１による情報処理結果をユーザに視認可能に表示する。表示部１２は、液晶ディスプレイパネルなどのディスプレイユニットやプロジェクタなどにより構成可能である。

情報処理装置１のデータ記憶部１３は、各種データを不揮発に記憶する。各種データは、通信部１０によりネットワーク３から受信されるものであってよく、図示しない入力部を介して入力されるものであってもよい。また、各種データは、処理部１１の処理の対象とすることができる。データ記憶部１３は、ハードディスクドライブやＳＳＤ（Solid State Drive）などの不揮発記憶装置により構成可能である。

ドキュメントサーバ２の通信部２０は、ドキュメントサーバ２をネットワーク３に接続し、情報の送受信を行う。通信部２０は、具体的には図示しない有線ＬＡＮインタフェースや無線ＬＡＮインタフェースや携帯電話通信インタフェースおよびこれらの制御ソフトウェアないしファームウェアにより構成可能である。

ドキュメントサーバ２のドキュメント提供部２１は、通信部２０がネットワーク３経由で受け付けるドキュメント要求に応じて、ネットワーク３経由でドキュメントを要求元に提供する。ドキュメントの提供は、予め整形され記憶されたページの送信でもよいし、要求ごとに動的に生成されるページの送信でもよい。

図２は、本発明の実施形態にかかる情報処理装置の機能ブロック図である。図２に示すように、情報処理装置１は、ドキュメント記憶手段１００と、２次元クラスタ生成手段１１０と、１次元クラスタ生成手段１２０と、ドキュメント更新手段１３０と、２次元クラスタ更新手段１４０と、１次元クラスタ更新手段１５０と、第１のターム特定手段１６０と、第２のターム特定手段１７０と、表示手段１８０とを有する。

ドキュメント記憶手段１００は、ネットワーク経由で取得したドキュメントを取得時刻と対応づけて記憶する。ドキュメント記憶手段１００は、ユーザのアクセス有無にかかわらずネットワーク経由で取得可能なドキュメントを対象として記憶してもよいし、情報処理装置のユーザの操作に基づいて特定されるドキュメントを対象として記憶してもよい。

ドキュメント記憶手段１００に記憶されるデータの例を図３に示す。図３に示すように、ドキュメント記憶手段１００では、ドキュメントの内容を取得時刻と対応づけて記憶している。ここで、ドキュメントはネットワーク経由で所定のURL(Uniform Resource Locator)にアクセスして取得されるテキストを少なくとも含む。ドキュメント記憶手段１００は、図３に例示するように、ドキュメントの内容、取得時刻に加えて、ドキュメントを一意に識別するドキュメントIDやドキュメントを取得するためにアクセスしたURLをあわせて対応づけて記憶してもよい。

２次元クラスタ生成手段１１０は、ドキュメントとドキュメントに出現する単語であるタームとについて、タームの出現傾向が類似するドキュメントをグループ化するとともにドキュメントにおける出現傾向が類似するタームをグループ化した２次元クラスタを生成する。

２次元クラスタは、ドキュメント記憶手段１００に記憶されたドキュメントに基づいてドキュメントとタームのグループ化を行うことにより生成することができる。また、情報処理装置のユーザの操作に基づいて特定されるドキュメントを対象とする２次元クラスタ（以下、ＵＭ(User Model)ともいう。）については、ネットワーク経由でアクセス可能なドキュメントを対象として生成された２次元クラスタ（以下、ＬＭ(Language Model)ともいう。）に、ドキュメント記憶手段１００に記憶されたユーザの操作に基づいて特定されるドキュメントに出現するタームを位置付けて生成することができる。

ＵＭとして２次元クラスタを生成する手順の例を、図４を参照して説明する。図４に示すように、ネットワーク経由でアクセス可能なドキュメントをグループ化するとともに、ドキュメントにおける出現傾向が類似するタームをグループ化してＬＭを生成する。次に、ユーザの操作に基づいて特定されるドキュメントに出現するタームの出現頻度をＬＭのクラスタ情報に位置付けることにより、ＵＭを生成することができる。

このように生成したＵＭにより、ネットワーク経由でアクセス可能な全体ドキュメントにおける単語の出現傾向に基づくクラスタのいずれをユーザが嗜好するかを把握することができる。ＬＭをサーバで生成しＵＭをユーザ端末で生成すると、全ユーザ共通に使用するＬＭのクラスタ情報を一括で生成した上でユーザごとに嗜好情報を蓄積することができるため好適であるが、本発明の実施形態はこれに限られない。

２次元クラスタ生成手段１１０に生成される２次元クラスタの例を図５に示す。２次元クラスタ生成手段１１０による２次元クラスタの生成処理は後述する。２次元クラスタ生成手段１１０は、処理部１１が所定のプログラムを実行することにより実施可能である。

１次元クラスタ生成手段１２０は、ドキュメントにおける出現傾向が類似するタームをグループ化した１次元クラスタを生成する。１次元クラスタ生成手段１２０に生成される１次元クラスタの例を図６に示す。１次元クラスタ生成手段１２０による１次元クラスタの生成処理は後述する。１次元クラスタ生成手段１２０は、処理部１１が所定のプログラムを実行することにより実施可能である。

ドキュメント更新手段１３０は、取得時刻の新しいドキュメントをドキュメント記憶手段１００に追加するとともに、取得時刻の古いドキュメントをドキュメント記憶手段１００から削除する。このとき、追加されるドキュメントと削除されるドキュメントについて、容量が一定となるように制御してもよいし、取得時刻の範囲が一定（例えば１週間）となるように制御してもよく、またその他の基準によってもよい。容量が一定となるように制御すると、ドキュメント記憶手段１００の必要とする記憶容量を一定に維持することができる。

また、ドキュメントの追加と削除のタイミングは、まったく同時であってもよいし、前後してもよい。このとき、ドキュメントの削除を先に実行するようにすると、ドキュメント記憶手段１００の必要とする記憶容量が更新中に増加しないようにすることができる。ドキュメント更新手段１３０は、処理部１１が所定のプログラムを実行することにより実施可能である。

２次元クラスタ更新手段１４０は、ドキュメント更新手段１３０がドキュメントの追加と削除とを行うと、更新されたドキュメント記憶手段１００に記憶されているドキュメントに基づいて２次元クラスタ生成手段１１０に２次元クラスタを生成させる。２次元クラスタ更新手段１４０は、処理部１１が所定のプログラムを実行することにより実施可能である。

１次元クラスタ更新手段１５０は、ドキュメント記憶手段１００から削除される取得時刻の古いドキュメントに基づいて、１次元クラスタを更新する。１次元クラスタ更新手段１５０による１次元クラスタの更新処理は後述する。１次元クラスタ更新手段１５０は、処理部１１が所定のプログラムを実行することにより実施可能である。

第１のターム特定手段１６０は、２次元クラスタに基づいて、少なくとも単語を含むコンテンツに関連するタームを特定する。第１のターム特定手段１６０によるタームの特定処理は後述する。第１のターム特定手段１６０は、処理部１１が所定のプログラムを実行することにより実施可能である。

第２のターム特定手段１７０は、第１のターム特定手段１６０によりタームが特定されないときに、１次元クラスタに基づいてコンテンツに関連するタームを特定する。第２のターム特定手段１７０によるタームの特定処理は後述する。第２のターム特定手段１７０は、処理部１１が所定のプログラムを実行することにより実施可能である。

表示手段１８０は、第１のターム特定手段１６０または第２のターム特定手段１７０により特定されたタームに関連する追加コンテンツを、コンテンツとともに表示する。表示手段１８０は、ネットワーク３に接続された追加コンテンツ提供サーバに特定されたタームをキーワードとして送信し要求することで、追加コンテンツを取得することができる。コンテンツおよび追加コンテンツは、情報処理装置１の表示部１２により表示される。表示手段１８０は、処理部１１が所定のプログラムを実行して通信部１０および表示部１２を制御することにより実施可能である。

次に、図７および図８を参照して本実施形態の情報処理装置１が実行する処理の流れを説明する。図７は、情報処理装置１におけるクラスタ更新処理のフローチャートである。

図７を参照すると、情報処理装置１は、事前準備として２次元クラスタを生成する（ステップＳ６１）。２次元クラスタの生成は、２次元クラスタ生成手段１１０が行う。２次元クラスタの生成は、例えば以下のような手順で行うことができる。

２次元クラスタ生成手段１１０は、まず、ドキュメント記憶手段１００に記憶されるドキュメントの内容を形態素分析により単語に分解する。そして、そのドキュメントにおける各単語の出現回数を集計する。このとき、ドキュメントが関連する分野による出現傾向の差が大きくない助詞や形容詞などの名詞以外の単語を除外するようにしてよい。また、ドキュメントが関連する分野による出現傾向の差が顕著に表れがちな固有名詞の比重を大きく取り扱うようにしてもよい。

２次元クラスタ生成手段１１０は、次に、単語の出現傾向が類似するドキュメントをグループ化するとともに、ドキュメントにおける出現傾向が類似するタームをグループ化する。このグループ化処理により、類似するドキュメントとタームとがグループ化された２次元クラスタが生成される。２次元クラスタは、ドキュメントとタームとを２次元表に配置したときの所定の領域に対応し、これを円で近似する場合、中心と半径とで規定することができる。

なお、図５の例では、ドキュメントをカテゴリに集約して表示し、個別のドキュメントの記載は省略している。また、表中の数字（例えばターム「鈴木圭祐」、カテゴリ「サッカー」につき「９０」）は、そのタームがそのカテゴリに分類されるドキュメントにおいて出現する頻度を示している。「カテゴリＢ：ＴＶ」について「１２３」は、カテゴリＢ：ＴＶにグループ化されるドキュメントに出現するタームの出現頻度の合計（９０＋２５＋８＋０＋０＋０＋０＋０＋０）を示している。ターム「ＵＭＤ」について「１００」は、ターム「ＵＭＤ」が対象となる全ドキュメントに出現する出現頻度の合計（０＋１０＋９０）を示している。また、表中最右列「ＴＣ」は、ドキュメントにおける出現傾向が互いに類似する各タームのグループであるタームクラスタを示している。例えば、「かつお」「きよし」「アップタウン」は、タームクラスタ「２」に分類されている。タームの出現頻度として、実際に出現した回数ではなく、全体の出現回数で除して求められる出現確率を記憶するようにしてもよい。

次に情報処理装置１は、事前準備として１次元クラスタを生成する（ステップＳ６２）。１次元クラスタの生成は、１次元クラスタ生成手段１２０が行う。１次元クラスタの生成は、例えば以下のような手順で行うことができる。

１次元クラスタ生成手段１２０は、ステップＳ６１で生成した２次元クラスタのうち、タームおよびこれに対応する出現頻度とＴＣとを取り出すことで、図５に例示するドキュメントのカテゴリ情報を有しない１次元クラスタが生成される。

ここまで説明したステップＳ６１およびＳ６２の処理は事前準備であり、一連の動作を実行する前に一度実行する必要がある。しかし、一旦２次元クラスタおよび１次元クラスタが生成された後にこれらを更新する際には実行不要である。なお、ユーザの指示または所定時間の経過などをトリガーとして２次元クラスタおよび１次元クラスタを生成しなおすようにしても差し支えない。

続いて情報処理装置１は、ドキュメント記憶手段１００に記憶されているドキュメントを更新、すなわち、取得時刻の新しいドキュメントがドキュメント記憶手段１００に追加するとともに、取得時刻の古いドキュメントをドキュメント記憶手段１００から削除する（ステップＳ６３）。ドキュメントの更新は、所定時間ごとに行ってもよいし、更新対象ドキュメントの容量が閾値に達したときに行ってもよく、その他の基準によってもよい。また、ユーザの操作に基づいて行うことも可能である。ドキュメントの更新は、ドキュメント更新手段１３０が行う。

次に情報処理装置１は、２次元クラスタを更新する（ステップＳ６４）。２次元クラスタの更新は、２次元クラスタ更新手段１４０が、更新されたドキュメント記憶手段１００に記憶されているドキュメントに基づいて２次元クラスタ生成手段１１０に２次元クラスタを生成させることによって行う。既存の２次元クラスタは、この処理で生成された２次元クラスタに置き換えられる。

情報処理装置1は、続いて１次元クラスタを更新する（ステップＳ６５）。１次元クラスタの更新は、１次元クラスタ更新手段１５０が、まずドキュメント記憶手段１００から削除される取得時刻の古いドキュメントの内容を形態素分析により単語に分解する。１次元クラスタ更新手段１５０は、次に、削除される取得時刻の古いドキュメントにおいて分解された各単語の出現する頻度を求め、タームごとにこれを既存の１次元クラスタにおける対応するタームの出現頻度に加算する。なお、出現頻度として確率（あるタームの出現回数／全タームの出現回数）を用いる場合は、分母・分子の両方に既存の１次元クラスタにおける対応するタームの出現回数を加算したものに基づき更新された確率を求める。

続いて、図８を参照して、情報処理装置１が２次元クラスタおよび１次元クラスタに基づいて、コンテンツに関連するタームを特定し、追加コンテンツを取得して表示する処理を説明する。図８は情報処理装置１における追加コンテンツの取得・表示処理のフローチャートである。

情報処理装置１は、まず、少なくとも単語を含むコンテンツに関連するタームの特定を、２次元クラスタに基づいて行う（ステップＳ７１）。２次元クラスタに基づくタームの特定は、第１のターム特定手段１６０が行う。具体的には、第１のターム特定手段１６０は、コンテンツの内容を形態素分析により単語に分解する。次に第１のターム特定手段１６０は、このコンテンツでの単語の出現傾向と類似したタームの出現傾向をもつドキュメント（カテゴリ）を特定する。続いて、第１のターム特定手段１６０は、そのドキュメント（カテゴリ）において出現頻度の大きいタームを、コンテンツに関連するタームとして特定する。このとき、ドキュメント（カテゴリ）間でのコンテンツとのタームの出願傾向の差異が大きくない、ないし、特定されたドキュメント（カテゴリ）においてターム間での出現頻度の差異が大きくないような場合、コンテンツに十分関連するタームを特定することが困難となる。このような場合には、情報処理装置１はタームの特定を行わない。

次に、情報処理装置１は、ステップＳ７１で２次元クラスタに基づいてタームが特定されたか否かを判断する（Ｓ７２）。ステップＳ７１で説明したように、コンテンツの内容によっては、２次元クラスタによるタームの特定がなされない場合がある。２次元クラスタに基づいてタームが特定されたか否かの判断は、第１のターム特定手段１６０が行う。

ステップＳ７１で２次元クラスタに基づいてタームが特定されたと判断すると（ステップＳ７２：Ｙ）、情報処理装置１は、後述の追加コンテンツ取得処理（ステップＳ７４）を実行する。一方、２次元クラスタに基づいてタームが特定されなかったと判断されると（ステップＳ７２：Ｎ）、情報処理装置１は、コンテンツに関連するタームの特定を、１次元クラスタに基づいて行う（ステップＳ７３）。１次元クラスタに基づくタームの特定は、第２のターム特定手段１７０が行う。

具体的には、第２のターム特定手段１７０は、コンテンツの内容を分解した単語を取得する。ここで、第２のターム特定手段１７０は、形態素分析などによる分解を実行してもよいし、ステップＳ７１での第１のターム特定手段による分解結果を利用してもよい。次に第２のターム特定手段１７０は、そのコンテンツに含まれる単語が顕著に出現するＴＣを特定する。続いて第２のターム特定手段１７０は、そのＴＣ内で出現頻度の大きいタームを、コンテンツに関連するタームとして特定する。

２次元クラスタに基づいてタームが特定されると（ステップＳ７２：Ｙ）、または、１次元クラスタに基づいてタームが特定されると（ステップＳ７３）、情報処理装置１は、特定されたタームに関連する追加コンテンツを取得し、コンテンツとともに表示する（ステップＳ７４）。追加コンテンツの取得および表示は、表示手段１８０が行う。

以上のような処理により、情報処理装置１はコンテンツに関連するタームを特定し、特定されたタームに関連する追加コンテンツを取得してコンテンツとともにユーザに提示することができる。

直近のドキュメントの情報を２次元クラスタに反映させ、比較的古いドキュメントの情報を１次元クラスタに反映させるようにしているため、これらの２つのクラスタを用いることでコンテンツに関連して適切なタームを特定することができるのである。

図４に示す構成で生成したＵＭを本実施形態のように更新すると、最新のユーザの嗜好を把握しつつ、過去の嗜好も維持し続けることができる。このとき、ＬＭの更新も本実施形態のように行って、ＵＭの生成に使用するクラスタ情報を更新する。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

１情報処理装置
１０通信部
１１処理部
１２表示部
１３データ記憶部
１００ドキュメント記憶手段
１１０２次元クラスタ生成手段
１２０１次元クラスタ生成手段
１３０ドキュメント更新手段
１４０２次元クラスタ更新手段
１５０１次元クラスタ更新手段
１６０第１のターム特定手段
１７０第２のターム特定手段
１８０表示手段
２ドキュメントサーバ
２０通信部
２１ドキュメント検索部
３ネットワーク

Claims

ネットワーク経由で取得したドキュメントを取得時刻と対応づけて記憶するドキュメント記憶手段と、
前記ドキュメントと前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化するとともに前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した２次元クラスタを生成する２次元クラスタ生成手段と、
前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した１次元クラスタを生成する１次元クラスタ生成手段と、
前記取得時刻の新しい前記ドキュメントを前記ドキュメント記憶手段に追加するとともに前記取得時刻の古い前記ドキュメントを前記ドキュメント記憶手段から削除するドキュメント更新手段と、
前記ドキュメント更新手段が前記ドキュメントの追加と削除とを行うと、更新された前記ドキュメント記憶手段に記憶されている前記ドキュメントに基づいて前記２次元クラスタ生成手段に前記２次元クラスタを生成させる２次元クラスタ更新手段と、
前記ドキュメント記憶手段から削除される前記取得時刻の古い前記ドキュメントに基づいて、前記１次元クラスタを更新する１次元クラスタ更新手段と、
を備えることを特徴とする情報処理装置。
前記１次元クラスタ生成手段は、前記タームを前記ドキュメントにおける出現頻度に基づいてグループ化し、
前記１次元クラスタ更新手段は、前記１次元クラスタにおける前記タームごとに、前記取得時刻の古い前記ドキュメントにおける前記タームの出現頻度を加算することにより前記１次元クラスタを更新する、
ことを特徴とする、請求項１に記載の情報処理装置。
前記ドキュメント記憶手段は、記憶するドキュメントを前記情報処理装置のユーザの操作に基づいて特定する、ことを特徴とする請求項１または２に記載の情報処理装置。
前記２次元クラスタに基づいて、少なくとも単語を含むコンテンツに関連するタームを特定する第１のターム特定手段と、
前記第１のターム特定手段により前記タームが特定されないときに、前記１次元クラスタに基づいて前記コンテンツに関連するタームを特定する第２のターム特定手段と、
前記第１のターム特定手段または前記第２のターム特定手段により特定されたタームに関連する追加コンテンツを前記コンテンツとともに表示する表示手段と、
をさらに備えることを特徴とする、請求項１ないし３のいずれか１項に記載の情報処理装置。
ネットワーク経由で取得したドキュメントと前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化するとともに前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した２次元クラスタを生成する２次元クラスタ生成工程と、
前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した１次元クラスタを生成する１次元クラスタ生成工程と、
前記ドキュメントを記憶するドキュメント記憶手段に前記取得時刻の新しい前記ドキュメントを追加するとともに、前記取得時刻の古い前記ドキュメントを前記ドキュメント記憶手段から削除するドキュメント更新工程と、
更新された前記ドキュメント記憶手段に記憶されている前記ドキュメントに基づいて前記２次元クラスタを生成させる２次元クラスタ更新工程と、
前記ドキュメント記憶手段から削除される前記取得時刻の古い前記ドキュメントに基づいて、前記１次元クラスタを更新する１次元クラスタ更新工程と、
を備えることを特徴とする情報処理方法。
ネットワーク経由で取得したドキュメントと前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化するとともに前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した２次元クラスタを生成する２次元クラスタ生成工程と、
前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した１次元クラスタを生成する１次元クラスタ生成工程と、
前記ドキュメントを記憶するドキュメント記憶手段に前記取得時刻の新しい前記ドキュメントを追加するとともに、前記取得時刻の古い前記ドキュメントを前記ドキュメント記憶手段から削除するドキュメント更新工程と、
更新された前記ドキュメント記憶手段に記憶されている前記ドキュメントに基づいて前記２次元クラスタを生成させる２次元クラスタ更新工程と、
前記ドキュメント記憶手段から削除される前記取得時刻の古い前記ドキュメントに基づいて、前記１次元クラスタを更新する１次元クラスタ更新工程と、
をコンピュータに実行させることを特徴とするプログラム。