[go: up one dir, main page]

JP2018010533A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2018010533A
JP2018010533A JP2016139751A JP2016139751A JP2018010533A JP 2018010533 A JP2018010533 A JP 2018010533A JP 2016139751 A JP2016139751 A JP 2016139751A JP 2016139751 A JP2016139751 A JP 2016139751A JP 2018010533 A JP2018010533 A JP 2018010533A
Authority
JP
Japan
Prior art keywords
document
dimensional cluster
term
dimensional
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016139751A
Other languages
English (en)
Other versions
JP6436936B2 (ja
Inventor
竹本 剛
Takeshi Takemoto
剛 竹本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2016139751A priority Critical patent/JP6436936B2/ja
Priority to US15/615,477 priority patent/US20180018360A1/en
Publication of JP2018010533A publication Critical patent/JP2018010533A/ja
Application granted granted Critical
Publication of JP6436936B2 publication Critical patent/JP6436936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】負荷を過度に増大させることなくデータベースを更新し、ドキュメントに関連するコンテンツを適切にユーザに提示可能な情報処理装置を提供すること。【解決手段】ドキュメントを記憶するドキュメント記憶手段と、ドキュメントとタームとについて2次元クラスタを生成する2次元クラスタ生成手段と、ドキュメントとタームとについて1次元クラスタを生成する1次元クラスタ生成手段と、ドキュメントの追加と削除とを行うドキュメント更新手段と、ドキュメントが更新されると、更新されたドキュメントに基づいて2次元クラスタを生成させる2次元クラスタ更新手段と、削除されるドキュメントに基づいて、1次元クラスタを更新する1次元クラスタ更新手段と、を備えるよう情報処理装置を構成する。【選択図】図1

Description

本発明は、ユーザの閲覧するドキュメントに関連するコンテンツを選択してドキュメントとともに表示する情報処理装置、情報処理方法およびプログラムに関する。
ユーザが閲覧するドキュメントにコンテンツ(広告など)を付加して提示するにあたり、対象となるドキュメントに関連するコンテンツをユーザの好みに合わせて適切に選択することが重要となる。特許文献1には、ユーザにとって最適な広告をユーザに提供することが可能な端末装置が記載されている。
特開2015−22561号公報
特許文献1では、属性に対応するユーザの興味度の高い広告の優先度を高くして広告の表示位置を変更して表示する端末装置が記載されている。これにより、ユーザにとって最適な広告をユーザに提供することを可能にしている。
アクセス可能なドキュメントを取得し、各ドキュメントに含まれる単語の出現頻度を集計したデータベースに基づいて、対象となるドキュメントの属性を特定することが知られている。また、ドキュメントに対する操作履歴を取得し、各ドキュメントに含まれる単語の出現頻度を集計したデータベースに基づいて、その属性に対応するユーザの興味度を特定することが知られている。
ドキュメントに含まれる単語の出現頻度を集計したデータベースでは、各ドキュメントにおける出現傾向の類似する単語のグループ化や各単語の出現傾向の類似するドキュメントのグループ化によるクラスタリングを行うことがある。クラスタリングにより、グループ化されたクラスタの情報によってドキュメントの属性を特定することができるようになるため、各ドキュメントの詳細情報を保持する必要がなくなる。
アクセス可能なドキュメントの単語出現頻度を集計したデータベースにおけるクラスタリング結果を用いてユーザの興味度を把握する場合がある。具体的には、アクセス可能なドキュメントに基づいて作成された単語とドキュメントとの関連づけ情報(クラスタ)に、ユーザのアクセスしたドキュメントに含まれる単語を位置付ける。このようにすると、単語とドキュメントとの関連づけ情報をユーザごとに作成しなくてよいので、効率よくユーザの興味度を把握することができる。
対象となるドキュメントがインターネット上のニュースサイトの記事のようにネットワーク経由でアクセス可能な各種ドキュメントである場合、ドキュメントは日々追加される。ドキュメント内で使用される単語の意味は時代とともに変遷する。例えば、デビュー当初アイドルであった芸能人が映画俳優として活躍するようになると、その芸能人の名前の属するクラスタもアイドルから映画俳優に変わってゆく。
適切なコンテンツ提供を継続して行うことができるようにするには、このようなドキュメントを集計するデータベースを、単語の意味の変遷とともに更新していく必要がある。古いデータベースの作成に使用したドキュメントをすべて保持しておき、古いデータベース作成以降に生成されたドキュメントを追加して新しいデータベースを作成する、というデータベースの更新方法がある。
この方法によると、作成時点でアクセス可能なドキュメントに基づいてデータベースが作成されるため、作成時点の単語の意味を適切に反映したデータベースを作成することができる。しかし、増加する一方のドキュメントの保持が必要となるためデータ記憶容量を圧迫すること、大量のドキュメントを対象としたデータベース作成を行うためリソースへの負荷が大きく所要時間がかかることなどが問題となる。
また、古いデータベースのクラスタ情報だけを保持してドキュメントを破棄し、クラスタ情報に新規ドキュメントを追加するというデータベースの更新方法も考えられる。クラスタ情報は、そのクラスタの範囲(例えば中心座標と半径)により規定することができるため、元のドキュメントと比較してデータ量を非常に小さくすることができる。
しかし、この方法によると、時系列による単語の意味の変遷に追随することができない。上述した例で言うと、現在では映画俳優として活躍するようになった芸能人の名前が、データベース作成当時におけるアイドルに関連づけられる状態が続くことになり、ユーザに適切なコンテンツを提示することができない。
特に、上述のようにアクセス可能なドキュメントにおける単語とドキュメントとの関連づけ情報に基づいてユーザの興味度を把握する場合、ユーザ興味度のデータベースの更新を、アクセス可能なドキュメントにおける単語とドキュメントとの関連づけ情報の更新と連携して実行しないと、ユーザ興味度を正しく把握することができなくなるという問題が生じる。例えば、アクセス可能なドキュメントにおける関連づけ情報(クラスタ)のみを更新すると、アクセスしたドキュメントを位置付けたときのクラスタの範囲は、後の更新により変更されうる。更新前後でクラスタが一致していないと、過去のアクセスしたドキュメントの情報を現在対象となっているドキュメントの属性の判定に用いることができない。
本発明は、このようなデータベースの更新にかかる課題を解決するものであり、負荷を過度に増大させることなくデータベースを更新し、ドキュメントに関連するコンテンツを適切にユーザに提示可能な情報処理装置を提供することを目的とする。
上述した課題を解決するために、本発明にかかる情報処理装置は、
ネットワーク経由で取得したドキュメントを取得時刻と対応づけて記憶するドキュメント記憶手段と、
前記ドキュメントと前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化するとともに前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した2次元クラスタを生成する2次元クラスタ生成手段と、
前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した1次元クラスタを生成する1次元クラスタ生成手段と、
前記取得時刻の新しい前記ドキュメントを前記ドキュメント記憶手段に追加するとともに前記取得時刻の古い前記ドキュメントを前記ドキュメント記憶手段から削除するドキュメント更新手段と、
前記ドキュメント更新手段が前記ドキュメントの追加と削除とを行うと、更新された前記ドキュメント記憶手段に記憶されている前記ドキュメントに基づいて前記2次元クラスタ生成手段に前記2次元クラスタを生成させる2次元クラスタ更新手段と、
前記ドキュメント記憶手段から削除される前記取得時刻の古い前記ドキュメントに基づいて、前記1次元クラスタを更新する1次元クラスタ更新手段と、
を備えることを特徴とする。
本発明により、負荷を過度に増大させることなくデータベースを更新し、ドキュメントに関連するコンテンツを適切にユーザに提示可能な情報処理装置を提供することができる。
本発明の第1の実施形態にかかる情報処理システムの概略構成図である。 本発明の実施形態にかかる情報処理装置の機能ブロック図である。 ドキュメント記憶手段100に記憶されるデータの例である。 2次元クラスタを生成する手順の例を示す図である。 2次元クラスタ生成手段110に生成される2次元クラスタの例である。 1次元クラスタ生成手段120に生成される1次元クラスタの例である。 情報処理装置1におけるクラスタ更新処理のフローチャートである。 情報処理装置1における追加コンテンツの取得・表示処理のフローチャートである。
以下、本発明の実施の形態について詳細に説明する。
図1は、本発明の第1の実施形態にかかる情報処理システムの概略構成図である。図1に示すように、情報処理装置1は、通信部10と、処理部11と、表示部12と、データ記憶部13とを有して構成される。また、ドキュメントサーバ2は、通信部20と、ドキュメント提供部21とを有して構成される。情報処理装置1とドキュメントサーバ2とは、ネットワーク3を介して接続される。情報処理装置1は、ネットワーク3経由でアクセス可能な各種情報にアクセスするものであり、パーソナルコンピュータやスマートホンなどが該当するが、これに限るものではない。また、情報処理装置1とドキュメントサーバ2とは1台ずつ記載されているがこれに限らず、1台の情報処理装置1が複数のドキュメントサーバ2と接続されてよく、複数の情報処理装置1が1台のドキュメントサーバ2に接続されてもよい。
情報処理装置1の通信部10は、情報処理装置1をネットワーク3に接続し、情報の送受信を行う。通信部10は、具体的には図示しない有線LANインタフェースや無線LANインタフェースや携帯電話通信インタフェースおよびこれらの制御ソフトウェアないしファームウェアにより構成可能である。
情報処理装置1の処理部11は、各種情報処理を実行する。各種情報処理には、図示しない入力部を介してユーザの指定するソフトウェアの実行の他に、情報処理装置1を構成する各部の制御など、ユーザが明示的に指定しない処理が含まれる。処理部11は、図示しないCPUおよびメモリにより構成可能である。
情報処理装置1の表示部12は、処理部11による情報処理結果をユーザに視認可能に表示する。表示部12は、液晶ディスプレイパネルなどのディスプレイユニットやプロジェクタなどにより構成可能である。
情報処理装置1のデータ記憶部13は、各種データを不揮発に記憶する。各種データは、通信部10によりネットワーク3から受信されるものであってよく、図示しない入力部を介して入力されるものであってもよい。また、各種データは、処理部11の処理の対象とすることができる。データ記憶部13は、ハードディスクドライブやSSD(Solid State Drive)などの不揮発記憶装置により構成可能である。
ドキュメントサーバ2の通信部20は、ドキュメントサーバ2をネットワーク3に接続し、情報の送受信を行う。通信部20は、具体的には図示しない有線LANインタフェースや無線LANインタフェースや携帯電話通信インタフェースおよびこれらの制御ソフトウェアないしファームウェアにより構成可能である。
ドキュメントサーバ2のドキュメント提供部21は、通信部20がネットワーク3経由で受け付けるドキュメント要求に応じて、ネットワーク3経由でドキュメントを要求元に提供する。ドキュメントの提供は、予め整形され記憶されたページの送信でもよいし、要求ごとに動的に生成されるページの送信でもよい。
図2は、本発明の実施形態にかかる情報処理装置の機能ブロック図である。図2に示すように、情報処理装置1は、ドキュメント記憶手段100と、2次元クラスタ生成手段110と、1次元クラスタ生成手段120と、ドキュメント更新手段130と、2次元クラスタ更新手段140と、1次元クラスタ更新手段150と、第1のターム特定手段160と、第2のターム特定手段170と、表示手段180とを有する。
ドキュメント記憶手段100は、ネットワーク経由で取得したドキュメントを取得時刻と対応づけて記憶する。ドキュメント記憶手段100は、ユーザのアクセス有無にかかわらずネットワーク経由で取得可能なドキュメントを対象として記憶してもよいし、情報処理装置のユーザの操作に基づいて特定されるドキュメントを対象として記憶してもよい。
ドキュメント記憶手段100に記憶されるデータの例を図3に示す。図3に示すように、ドキュメント記憶手段100では、ドキュメントの内容を取得時刻と対応づけて記憶している。ここで、ドキュメントはネットワーク経由で所定のURL(Uniform Resource Locator)にアクセスして取得されるテキストを少なくとも含む。ドキュメント記憶手段100は、図3に例示するように、ドキュメントの内容、取得時刻に加えて、ドキュメントを一意に識別するドキュメントIDやドキュメントを取得するためにアクセスしたURLをあわせて対応づけて記憶してもよい。
2次元クラスタ生成手段110は、ドキュメントとドキュメントに出現する単語であるタームとについて、タームの出現傾向が類似するドキュメントをグループ化するとともにドキュメントにおける出現傾向が類似するタームをグループ化した2次元クラスタを生成する。
2次元クラスタは、ドキュメント記憶手段100に記憶されたドキュメントに基づいてドキュメントとタームのグループ化を行うことにより生成することができる。また、情報処理装置のユーザの操作に基づいて特定されるドキュメントを対象とする2次元クラスタ(以下、UM(User Model)ともいう。)については、ネットワーク経由でアクセス可能なドキュメントを対象として生成された2次元クラスタ(以下、LM(Language Model)ともいう。)に、ドキュメント記憶手段100に記憶されたユーザの操作に基づいて特定されるドキュメントに出現するタームを位置付けて生成することができる。
UMとして2次元クラスタを生成する手順の例を、図4を参照して説明する。図4に示すように、ネットワーク経由でアクセス可能なドキュメントをグループ化するとともに、ドキュメントにおける出現傾向が類似するタームをグループ化してLMを生成する。次に、ユーザの操作に基づいて特定されるドキュメントに出現するタームの出現頻度をLMのクラスタ情報に位置付けることにより、UMを生成することができる。
このように生成したUMにより、ネットワーク経由でアクセス可能な全体ドキュメントにおける単語の出現傾向に基づくクラスタのいずれをユーザが嗜好するかを把握することができる。LMをサーバで生成しUMをユーザ端末で生成すると、全ユーザ共通に使用するLMのクラスタ情報を一括で生成した上でユーザごとに嗜好情報を蓄積することができるため好適であるが、本発明の実施形態はこれに限られない。
2次元クラスタ生成手段110に生成される2次元クラスタの例を図5に示す。2次元クラスタ生成手段110による2次元クラスタの生成処理は後述する。2次元クラスタ生成手段110は、処理部11が所定のプログラムを実行することにより実施可能である。
1次元クラスタ生成手段120は、ドキュメントにおける出現傾向が類似するタームをグループ化した1次元クラスタを生成する。1次元クラスタ生成手段120に生成される1次元クラスタの例を図6に示す。1次元クラスタ生成手段120による1次元クラスタの生成処理は後述する。1次元クラスタ生成手段120は、処理部11が所定のプログラムを実行することにより実施可能である。
ドキュメント更新手段130は、取得時刻の新しいドキュメントをドキュメント記憶手段100に追加するとともに、取得時刻の古いドキュメントをドキュメント記憶手段100から削除する。このとき、追加されるドキュメントと削除されるドキュメントについて、容量が一定となるように制御してもよいし、取得時刻の範囲が一定(例えば1週間)となるように制御してもよく、またその他の基準によってもよい。容量が一定となるように制御すると、ドキュメント記憶手段100の必要とする記憶容量を一定に維持することができる。
また、ドキュメントの追加と削除のタイミングは、まったく同時であってもよいし、前後してもよい。このとき、ドキュメントの削除を先に実行するようにすると、ドキュメント記憶手段100の必要とする記憶容量が更新中に増加しないようにすることができる。ドキュメント更新手段130は、処理部11が所定のプログラムを実行することにより実施可能である。
2次元クラスタ更新手段140は、ドキュメント更新手段130がドキュメントの追加と削除とを行うと、更新されたドキュメント記憶手段100に記憶されているドキュメントに基づいて2次元クラスタ生成手段110に2次元クラスタを生成させる。2次元クラスタ更新手段140は、処理部11が所定のプログラムを実行することにより実施可能である。
1次元クラスタ更新手段150は、ドキュメント記憶手段100から削除される取得時刻の古いドキュメントに基づいて、1次元クラスタを更新する。1次元クラスタ更新手段150による1次元クラスタの更新処理は後述する。1次元クラスタ更新手段150は、処理部11が所定のプログラムを実行することにより実施可能である。
第1のターム特定手段160は、2次元クラスタに基づいて、少なくとも単語を含むコンテンツに関連するタームを特定する。第1のターム特定手段160によるタームの特定処理は後述する。第1のターム特定手段160は、処理部11が所定のプログラムを実行することにより実施可能である。
第2のターム特定手段170は、第1のターム特定手段160によりタームが特定されないときに、1次元クラスタに基づいてコンテンツに関連するタームを特定する。第2のターム特定手段170によるタームの特定処理は後述する。第2のターム特定手段170は、処理部11が所定のプログラムを実行することにより実施可能である。
表示手段180は、第1のターム特定手段160または第2のターム特定手段170により特定されたタームに関連する追加コンテンツを、コンテンツとともに表示する。表示手段180は、ネットワーク3に接続された追加コンテンツ提供サーバに特定されたタームをキーワードとして送信し要求することで、追加コンテンツを取得することができる。コンテンツおよび追加コンテンツは、情報処理装置1の表示部12により表示される。表示手段180は、処理部11が所定のプログラムを実行して通信部10および表示部12を制御することにより実施可能である。
次に、図7および図8を参照して本実施形態の情報処理装置1が実行する処理の流れを説明する。図7は、情報処理装置1におけるクラスタ更新処理のフローチャートである。
図7を参照すると、情報処理装置1は、事前準備として2次元クラスタを生成する(ステップS61)。2次元クラスタの生成は、2次元クラスタ生成手段110が行う。2次元クラスタの生成は、例えば以下のような手順で行うことができる。
2次元クラスタ生成手段110は、まず、ドキュメント記憶手段100に記憶されるドキュメントの内容を形態素分析により単語に分解する。そして、そのドキュメントにおける各単語の出現回数を集計する。このとき、ドキュメントが関連する分野による出現傾向の差が大きくない助詞や形容詞などの名詞以外の単語を除外するようにしてよい。また、ドキュメントが関連する分野による出現傾向の差が顕著に表れがちな固有名詞の比重を大きく取り扱うようにしてもよい。
2次元クラスタ生成手段110は、次に、単語の出現傾向が類似するドキュメントをグループ化するとともに、ドキュメントにおける出現傾向が類似するタームをグループ化する。このグループ化処理により、類似するドキュメントとタームとがグループ化された2次元クラスタが生成される。2次元クラスタは、ドキュメントとタームとを2次元表に配置したときの所定の領域に対応し、これを円で近似する場合、中心と半径とで規定することができる。
なお、図5の例では、ドキュメントをカテゴリに集約して表示し、個別のドキュメントの記載は省略している。また、表中の数字(例えばターム「鈴木圭祐」、カテゴリ「サッカー」につき「90」)は、そのタームがそのカテゴリに分類されるドキュメントにおいて出現する頻度を示している。「カテゴリB:TV」について「123」は、カテゴリB:TVにグループ化されるドキュメントに出現するタームの出現頻度の合計(90+25+8+0+0+0+0+0+0)を示している。ターム「UMD」について「100」は、ターム「UMD」が対象となる全ドキュメントに出現する出現頻度の合計(0+10+90)を示している。また、表中最右列「TC」は、ドキュメントにおける出現傾向が互いに類似する各タームのグループであるタームクラスタを示している。例えば、「かつお」「きよし」「アップタウン」は、タームクラスタ「2」に分類されている。タームの出現頻度として、実際に出現した回数ではなく、全体の出現回数で除して求められる出現確率を記憶するようにしてもよい。
次に情報処理装置1は、事前準備として1次元クラスタを生成する(ステップS62)。1次元クラスタの生成は、1次元クラスタ生成手段120が行う。1次元クラスタの生成は、例えば以下のような手順で行うことができる。
1次元クラスタ生成手段120は、ステップS61で生成した2次元クラスタのうち、タームおよびこれに対応する出現頻度とTCとを取り出すことで、図5に例示するドキュメントのカテゴリ情報を有しない1次元クラスタが生成される。
ここまで説明したステップS61およびS62の処理は事前準備であり、一連の動作を実行する前に一度実行する必要がある。しかし、一旦2次元クラスタおよび1次元クラスタが生成された後にこれらを更新する際には実行不要である。なお、ユーザの指示または所定時間の経過などをトリガーとして2次元クラスタおよび1次元クラスタを生成しなおすようにしても差し支えない。
続いて情報処理装置1は、ドキュメント記憶手段100に記憶されているドキュメントを更新、すなわち、取得時刻の新しいドキュメントがドキュメント記憶手段100に追加するとともに、取得時刻の古いドキュメントをドキュメント記憶手段100から削除する(ステップS63)。ドキュメントの更新は、所定時間ごとに行ってもよいし、更新対象ドキュメントの容量が閾値に達したときに行ってもよく、その他の基準によってもよい。また、ユーザの操作に基づいて行うことも可能である。ドキュメントの更新は、ドキュメント更新手段130が行う。
次に情報処理装置1は、2次元クラスタを更新する(ステップS64)。2次元クラスタの更新は、2次元クラスタ更新手段140が、更新されたドキュメント記憶手段100に記憶されているドキュメントに基づいて2次元クラスタ生成手段110に2次元クラスタを生成させることによって行う。既存の2次元クラスタは、この処理で生成された2次元クラスタに置き換えられる。
情報処理装置1は、続いて1次元クラスタを更新する(ステップS65)。1次元クラスタの更新は、1次元クラスタ更新手段150が、まずドキュメント記憶手段100から削除される取得時刻の古いドキュメントの内容を形態素分析により単語に分解する。1次元クラスタ更新手段150は、次に、削除される取得時刻の古いドキュメントにおいて分解された各単語の出現する頻度を求め、タームごとにこれを既存の1次元クラスタにおける対応するタームの出現頻度に加算する。なお、出現頻度として確率(あるタームの出現回数/全タームの出現回数)を用いる場合は、分母・分子の両方に既存の1次元クラスタにおける対応するタームの出現回数を加算したものに基づき更新された確率を求める。
続いて、図8を参照して、情報処理装置1が2次元クラスタおよび1次元クラスタに基づいて、コンテンツに関連するタームを特定し、追加コンテンツを取得して表示する処理を説明する。図8は情報処理装置1における追加コンテンツの取得・表示処理のフローチャートである。
情報処理装置1は、まず、少なくとも単語を含むコンテンツに関連するタームの特定を、2次元クラスタに基づいて行う(ステップS71)。2次元クラスタに基づくタームの特定は、第1のターム特定手段160が行う。具体的には、第1のターム特定手段160は、コンテンツの内容を形態素分析により単語に分解する。次に第1のターム特定手段160は、このコンテンツでの単語の出現傾向と類似したタームの出現傾向をもつドキュメント(カテゴリ)を特定する。続いて、第1のターム特定手段160は、そのドキュメント(カテゴリ)において出現頻度の大きいタームを、コンテンツに関連するタームとして特定する。このとき、ドキュメント(カテゴリ)間でのコンテンツとのタームの出願傾向の差異が大きくない、ないし、特定されたドキュメント(カテゴリ)においてターム間での出現頻度の差異が大きくないような場合、コンテンツに十分関連するタームを特定することが困難となる。このような場合には、情報処理装置1はタームの特定を行わない。
次に、情報処理装置1は、ステップS71で2次元クラスタに基づいてタームが特定されたか否かを判断する(S72)。ステップS71で説明したように、コンテンツの内容によっては、2次元クラスタによるタームの特定がなされない場合がある。2次元クラスタに基づいてタームが特定されたか否かの判断は、第1のターム特定手段160が行う。
ステップS71で2次元クラスタに基づいてタームが特定されたと判断すると(ステップS72:Y)、情報処理装置1は、後述の追加コンテンツ取得処理(ステップS74)を実行する。一方、2次元クラスタに基づいてタームが特定されなかったと判断されると(ステップS72:N)、情報処理装置1は、コンテンツに関連するタームの特定を、1次元クラスタに基づいて行う(ステップS73)。1次元クラスタに基づくタームの特定は、第2のターム特定手段170が行う。
具体的には、第2のターム特定手段170は、コンテンツの内容を分解した単語を取得する。ここで、第2のターム特定手段170は、形態素分析などによる分解を実行してもよいし、ステップS71での第1のターム特定手段による分解結果を利用してもよい。次に第2のターム特定手段170は、そのコンテンツに含まれる単語が顕著に出現するTCを特定する。続いて第2のターム特定手段170は、そのTC内で出現頻度の大きいタームを、コンテンツに関連するタームとして特定する。
2次元クラスタに基づいてタームが特定されると(ステップS72:Y)、または、1次元クラスタに基づいてタームが特定されると(ステップS73)、情報処理装置1は、特定されたタームに関連する追加コンテンツを取得し、コンテンツとともに表示する(ステップS74)。追加コンテンツの取得および表示は、表示手段180が行う。
以上のような処理により、情報処理装置1はコンテンツに関連するタームを特定し、特定されたタームに関連する追加コンテンツを取得してコンテンツとともにユーザに提示することができる。
直近のドキュメントの情報を2次元クラスタに反映させ、比較的古いドキュメントの情報を1次元クラスタに反映させるようにしているため、これらの2つのクラスタを用いることでコンテンツに関連して適切なタームを特定することができるのである。
図4に示す構成で生成したUMを本実施形態のように更新すると、最新のユーザの嗜好を把握しつつ、過去の嗜好も維持し続けることができる。このとき、LMの更新も本実施形態のように行って、UMの生成に使用するクラスタ情報を更新する。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
1 情報処理装置
10 通信部
11 処理部
12 表示部
13 データ記憶部
100 ドキュメント記憶手段
110 2次元クラスタ生成手段
120 1次元クラスタ生成手段
130 ドキュメント更新手段
140 2次元クラスタ更新手段
150 1次元クラスタ更新手段
160 第1のターム特定手段
170 第2のターム特定手段
180 表示手段
2 ドキュメントサーバ
20 通信部
21 ドキュメント検索部
3 ネットワーク

Claims (6)

  1. ネットワーク経由で取得したドキュメントを取得時刻と対応づけて記憶するドキュメント記憶手段と、
    前記ドキュメントと前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化するとともに前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した2次元クラスタを生成する2次元クラスタ生成手段と、
    前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した1次元クラスタを生成する1次元クラスタ生成手段と、
    前記取得時刻の新しい前記ドキュメントを前記ドキュメント記憶手段に追加するとともに前記取得時刻の古い前記ドキュメントを前記ドキュメント記憶手段から削除するドキュメント更新手段と、
    前記ドキュメント更新手段が前記ドキュメントの追加と削除とを行うと、更新された前記ドキュメント記憶手段に記憶されている前記ドキュメントに基づいて前記2次元クラスタ生成手段に前記2次元クラスタを生成させる2次元クラスタ更新手段と、
    前記ドキュメント記憶手段から削除される前記取得時刻の古い前記ドキュメントに基づいて、前記1次元クラスタを更新する1次元クラスタ更新手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記1次元クラスタ生成手段は、前記タームを前記ドキュメントにおける出現頻度に基づいてグループ化し、
    前記1次元クラスタ更新手段は、前記1次元クラスタにおける前記タームごとに、前記取得時刻の古い前記ドキュメントにおける前記タームの出現頻度を加算することにより前記1次元クラスタを更新する、
    ことを特徴とする、請求項1に記載の情報処理装置。
  3. 前記ドキュメント記憶手段は、記憶するドキュメントを前記情報処理装置のユーザの操作に基づいて特定する、ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記2次元クラスタに基づいて、少なくとも単語を含むコンテンツに関連するタームを特定する第1のターム特定手段と、
    前記第1のターム特定手段により前記タームが特定されないときに、前記1次元クラスタに基づいて前記コンテンツに関連するタームを特定する第2のターム特定手段と、
    前記第1のターム特定手段または前記第2のターム特定手段により特定されたタームに関連する追加コンテンツを前記コンテンツとともに表示する表示手段と、
    をさらに備えることを特徴とする、請求項1ないし3のいずれか1項に記載の情報処理装置。
  5. ネットワーク経由で取得したドキュメントと前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化するとともに前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した2次元クラスタを生成する2次元クラスタ生成工程と、
    前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した1次元クラスタを生成する1次元クラスタ生成工程と、
    前記ドキュメントを記憶するドキュメント記憶手段に前記取得時刻の新しい前記ドキュメントを追加するとともに、前記取得時刻の古い前記ドキュメントを前記ドキュメント記憶手段から削除するドキュメント更新工程と、
    更新された前記ドキュメント記憶手段に記憶されている前記ドキュメントに基づいて前記2次元クラスタを生成させる2次元クラスタ更新工程と、
    前記ドキュメント記憶手段から削除される前記取得時刻の古い前記ドキュメントに基づいて、前記1次元クラスタを更新する1次元クラスタ更新工程と、
    を備えることを特徴とする情報処理方法。
  6. ネットワーク経由で取得したドキュメントと前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化するとともに前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した2次元クラスタを生成する2次元クラスタ生成工程と、
    前記ドキュメントにおける出現傾向が類似する前記タームをグループ化した1次元クラスタを生成する1次元クラスタ生成工程と、
    前記ドキュメントを記憶するドキュメント記憶手段に前記取得時刻の新しい前記ドキュメントを追加するとともに、前記取得時刻の古い前記ドキュメントを前記ドキュメント記憶手段から削除するドキュメント更新工程と、
    更新された前記ドキュメント記憶手段に記憶されている前記ドキュメントに基づいて前記2次元クラスタを生成させる2次元クラスタ更新工程と、
    前記ドキュメント記憶手段から削除される前記取得時刻の古い前記ドキュメントに基づいて、前記1次元クラスタを更新する1次元クラスタ更新工程と、
    をコンピュータに実行させることを特徴とするプログラム。
JP2016139751A 2016-07-14 2016-07-14 情報処理装置、情報処理方法およびプログラム Active JP6436936B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016139751A JP6436936B2 (ja) 2016-07-14 2016-07-14 情報処理装置、情報処理方法およびプログラム
US15/615,477 US20180018360A1 (en) 2016-07-14 2017-06-06 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016139751A JP6436936B2 (ja) 2016-07-14 2016-07-14 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018010533A true JP2018010533A (ja) 2018-01-18
JP6436936B2 JP6436936B2 (ja) 2018-12-12

Family

ID=60941181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016139751A Active JP6436936B2 (ja) 2016-07-14 2016-07-14 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US20180018360A1 (ja)
JP (1) JP6436936B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115854A (ja) * 1997-06-24 1999-01-22 Omron Corp 文書処理方法及び装置並びに記録媒体
JP2005301432A (ja) * 2004-04-07 2005-10-27 Nippon Telegr & Teleph Corp <Ntt> 最新情報提供方法及びシステム及びプログラム
JP2010044584A (ja) * 2008-08-12 2010-02-25 Yahoo Japan Corp 商品広告配信装置、商品広告配信方法、及び商品広告配信制御プログラム
JP2016062102A (ja) * 2014-09-12 2016-04-25 Necパーソナルコンピュータ株式会社 情報処理装置、方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115854A (ja) * 1997-06-24 1999-01-22 Omron Corp 文書処理方法及び装置並びに記録媒体
JP2005301432A (ja) * 2004-04-07 2005-10-27 Nippon Telegr & Teleph Corp <Ntt> 最新情報提供方法及びシステム及びプログラム
JP2010044584A (ja) * 2008-08-12 2010-02-25 Yahoo Japan Corp 商品広告配信装置、商品広告配信方法、及び商品広告配信制御プログラム
JP2016062102A (ja) * 2014-09-12 2016-04-25 Necパーソナルコンピュータ株式会社 情報処理装置、方法及びプログラム

Also Published As

Publication number Publication date
JP6436936B2 (ja) 2018-12-12
US20180018360A1 (en) 2018-01-18

Similar Documents

Publication Publication Date Title
US11347790B2 (en) System and method for providing content to users based on interactions by similar other users
US11580168B2 (en) Method and system for providing context based query suggestions
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
US20210232631A1 (en) Persisted enterprise graph queries
CN104412265B (zh) 更新用于促进应用搜索的搜索索引
JP6487201B2 (ja) 推奨ページを生成するための方法及び装置
US20040002945A1 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
US20160259818A1 (en) Searching for Software Applications Based on Application Attributes
US10296535B2 (en) Method and system to randomize image matching to find best images to be matched with content items
EP4446948A1 (en) Generating machine-learning model for document extraction
US11290551B1 (en) Method and system for implementing circle of trust in a social network
WO2018067420A1 (en) Perform graph traversal with graph query language
WO2024193582A1 (zh) 数据查询方法、装置及电子设备
US9715533B2 (en) Multi-dimensional search
US20220152474A1 (en) Developing implicit metadata for data stores
US12277183B2 (en) Method and system for creating and using persona in a content management system
CN112860929A (zh) 一种图片搜索方法、装置、电子设备及存储介质
CN105975506A (zh) 一种服务搜索方法和装置
US10802670B2 (en) User interface for polymorphic lookup
CN111475224B (zh) 对象排名方法、装置、设备及计算机存储介质
JP2009251957A (ja) 興味情報特定システム、興味情報特定方法、および興味情報特定用プログラム
CN106909561A (zh) 一种页面推送方法及装置
CN116055809A (zh) 视频资讯展示方法、电子设备及存储介质
JP6436936B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11460306B2 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181113

R150 Certificate of patent or registration of utility model

Ref document number: 6436936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250