JP2018067041A

JP2018067041A - 抽出装置及びコンピュータプログラム

Info

Publication number: JP2018067041A
Application number: JP2016203564A
Authority: JP
Inventors: 明生大門; Akio Daimon
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2016-10-17
Filing date: 2016-10-17
Publication date: 2018-04-26

Abstract

【課題】所望の人物像に即した人物を適切に抽出することを可能とする抽出装置及びコンピュータプログラムを提供する。【解決手段】所望の人物像に対応するテキストコンテンツを受け付ける受付部と、複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースを記憶する記憶部と、前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と前記受付部で受け付けたテキストコンテンツとの間の類似度を算出する算出部と、該算出部が算出した類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出する抽出部とを備える。【選択図】図１

Description

本発明は、ネットワークコミュニティ上での発信情報を基に、所望の発信者を抽出する抽出装置及びコンピュータを抽出装置として動作させるコンピュータプログラムに関する。

商品・サービスの品質及び機能が成熟すると商品・サービスの差別化はデザイン、質感、コンセプトイメージ等の消費者の好みが多岐に亘る要素によるものとなる。多岐に亘る消費者の嗜好に合わせて商品・サービスを開発するに際し、少しでも多くの消費者から支持されるものとすべく消費者の意見を取り入れることが効果的であるとされている。このため消費者からのアンケート、レビュー、コメント等を参考にするのみならず、商品開発の場への参加を募るなどの取り組みが従前より行なわれている。

特許文献１には、商品に関して事前に登録された会員同士（時には商品開発の運営者も交えた状態で）でのチャットによるアイディア交換の実施、更には、イメージイラスト等の投票を、ネットワークを介して実現するシステムが開示されている。

特許文献２には、モニタ商品の商品化を希望する応募者へ、商品開発の場を提供するシステム（モニタハウス）が開示されている。特許文献２で提案されているモニタハウスでは、応募者と、予め登録された会員及びそのモニタ商品の商品化への応援者とのアンケートのやり取りの場、又は商品化後の広告宣伝の依頼の場が提供される。このときアンケートの対象とする会員又は応援者を性別、年齢等の条件で絞ることが可能であることが開示されている。

特開２００３−０９１６２８号公報特開２００１−３５７１９４号公報

特許文献１に示したように消費者である人物を対象にアイディア交換、アンケート、投票等を実施する場合、そのアイディア交換の結果、投票結果は、アイディアを出し合った会員がどのような人物であるかによって結果に差異が生じる。したがって特許文献２に開示されているように、商品開発を行なう事業者は、どのような消費者を商品のターゲットとするかに応じてアンケートの対象人物を属性で絞り込むことが広く行われている。

しかしながら、開発対象の商品・サービスのターゲットとすべき消費者（需要者）を、性別、年齢、地域、嗜好を表わすキーワード等の属性情報によって絞り込む場合、いくつかの問題によって適切な人物を抽出できない可能性がある。まず、多様化する商品・サービスの開発においては、ターゲットとする消費者の人物像を属性情報で表現するには、その属性情報を膨大な数で分類する必要が生じる。したがって、一般消費者が自己申告でその属性情報を登録することが非常に煩雑となり、正確性が失われる。更に属性情報では各々の興味・関心の強さ、度合いを測ることは困難であり、淡く興味を持つ人物と、強く興味・関心を持つ人物との区別が難しい。したがって属性情報による抽出では、ターゲットとすべき人物像に合致するような人物、つまり対象の商品に本当に興味・関心を持つ人物以外の人物を抽出してしまう可能性がある。また、属性情報には時間的な要素が反映され難い。例えば既に興味を失っている分野のキーワードがその人物の属性情報として登録されたままとなっている場合、その時点では興味・関心を持たなくなっている人物が抽出される可能性がある。

本発明は斯かる事情に鑑みてなされたものであり、所望の人物像に即した人物を適切に抽出することを可能とする抽出装置及びコンピュータプログラムを提供することを目的とする。

本開示に係る抽出装置は、所望の人物像に対応するテキストコンテンツを受け付ける受付部と、複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースを記憶する記憶部と、前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と前記受付部で受け付けたテキストコンテンツとの間の類似度を算出する算出部と、該算出部が算出した類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出する抽出部とを備える。

本開示に係る抽出装置は、前記抽出部は、対応する類似度の高さの降順によって前記発信者識別情報をソートする。

本開示に係る抽出装置は、前記抽出部により抽出された発信者識別情報毎に、前記類似度の算出に係る情報、及び該類似度に寄与する複数の発信情報を表示するための表示情報を作成する作成部を更に備える。

本開示に係る抽出装置は、前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、前記算出部は、前記発信者毎に該発信者が発信した発信情報群を抽出し、抽出された発信情報群から、直近から所定の長さの期間に発信された発信情報群を絞り込み、絞り込まれた発信情報群を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する。

本開示に係る抽出装置は、前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、前記算出部は、前記発信情報データベースから抽出される発信情報夫々に、発信時刻が類似度の算出時点から近い順に高い数値となる重み付け係数を付与し、付与された重み付け係数を前記発信情報に含まれる言葉の出現回数に乗算し、前記発信者毎に、該発信者が発信した発信情報群に含まれる前記言葉及び該言葉の出現回数を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する。

本開示に係る抽出装置では、前記受付部は複数のテキストコンテンツを共に受け付け、前記算出部は、前記複数のテキストコンテンツ夫々について類似度を算出するか、又は前記複数のテキストコンテンツから導出される特徴を示す情報を用いて類似度を算出する。

本開示に係る抽出装置では、前記算出部は、前記発信情報又は前記受付部で受け付けたテキストコンテンツ夫々に含まれる言葉と、該言葉に関連する関連語が記録してある関連辞書から抽出される関連語とを用いて類似度を算出する。

本開示に係るコンピュータプログラムは、複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースに対し読み書きが可能なコンピュータに、前記発信者識別情報を抽出させるコンピュータプログラムであって、前記コンピュータに、所望の人物像に対応するテキストコンテンツを受け付けるステップ、前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と、受け付けたテキストコンテンツとの間の類似度を算出するステップ、算出された類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出するステップを実行させる。

本開示の抽出装置にあっては、テキストコンテンツに類似する発信情報を発信する発信者の発信者識別情報を抽出する処理によって、テキストコンテンツに合致する所望の人物像に即した人物を適切に抽出することが可能となる。

本実施の形態に係る情報処理システムの概要を示す模式図である。情報処理システムを構成する各装置の内部構成を示すブロック図である。ユーザ情報ＤＢの内容例を示す説明図である。発信情報ＤＢの内容例を示す説明図である。サーバ装置による抽出処理の手順の一例を示すフローチャートである。発信情報の内容例を示す説明図である。テキストコンテンツの内容例を示す説明図である。抽出結果を表示させる表示情報を制御部が作成する作成処理の手順の一例を示すフローチャートである。制御部により作成された表示情報に基づきクライアント装置の表示部にて表示される画面例を示す説明図である。サーバ装置による抽出処理の手順の他の一例を示すフローチャートである。サーバ装置による抽出処理の手順の他の一例を示すフローチャートである。サーバ装置による抽出処理の手順の他の一例を示すフローチャートである。

本発明をその実施の形態を示す図面に基づいて具体的に説明する。

図１は、本実施の形態に係る情報処理システムの概要を示す模式図である。情報処理システムは、サーバ装置１と、サーバ装置１に通信接続が可能なクライアント装置２，３とを含んで構成される。サーバ装置１は、複数の一般ユーザによるクライアント装置２を介したチャット、掲示板への書き込み、コメント、レビュー等のテキストコンテンツの投稿が可能なネットワークコミュニティ１００を提供するサーバ機能を有する。そしてサーバ装置１は、ネットワークコミュニティ１００上での複数の一般ユーザからの発信情報（発言、書き込み、音声、ブログ記事等）Ｖに基づき、商品開発者である特定ユーザが所望する人物像に合致した一般ユーザを抽出する処理を行なう抽出装置として機能する。

図１に示す例においては、商品開発者であるユーザＤが、ブームとなっているある特定の食材を利用した独特な商品を開発するにあたって、商品のターゲットとなる一般ユーザの協力を得たいと考える。ネットワークコミュニティ１００上のグルメに関するグループにて発言、書き込みを行なっている一般ユーザとして例えばユーザＡ，Ｂ，Ｃが存在する。ユーザＡはその特定の食材を以前から非常に好ましく思っているものの本場の調理人が料理を提供する店、又は本場の地まで旅行に行って食べることを好む人物であるとする。ユーザＢは、その特定の食材を含むブームとなっているものに広く興味を持ちつつ、普段から家庭で料理を頻繁に行なう人物であるとする。そしてユーザＣは同じくその特定の食材を好むものの外食で楽しむことが多い人物であるとする。これに対し、商品開発者であるユーザＤは、ブームとなっている食材に興味を持ち、且つ家庭での調理に馴染むユーザＢのような人物の抽出を希望している。

このような場合、例えば対象とする特定の食材の名称を属性情報としてユーザを抽出すると、ユーザＡ及びユーザＣを抽出できたとしても、その特定の食材に対して特別な強い関心を有していないユーザＢは抽出されない可能性がある。本実施の形態に係る情報処理システムにおいては、属性情報を使用せず、ターゲットとしたいユーザが好みそうなテキストコンテンツＳをユーザＤからクライアント装置３を介して受け付け、このテキストコンテンツＳを用いて抽出を行なう。テキストコンテンツＳは、新聞、雑誌又は電子媒体における記事のみならず、音声又は動画をテキスト化したものであってもよい。図１に示す例では例えば、テキストコンテンツＳはブームとなっている食材を家庭で栽培し、更に調理して食べる魅力についての記事である。サーバ装置１は、テキストコンテンツＳとネットワークコミュニティ１００でのユーザＡ，Ｂ，Ｃからの発信情報Ｖとに基づいて、ユーザＤの所望のターゲットの人物像に近いと思われるユーザＢを適切に抽出することができる。更にサーバ装置１がユーザＤとユーザＢとの間における連絡の契機を提供することにより、ユーザＤは商品開発にユーザＢの協力を得ることが可能となる。

このような適切な人物の抽出を実現するために情報処理システムにおけるサーバ装置１（抽出装置）は、例えば以下のような構成を有する。図２は、情報処理システムを構成する各装置の内部構成を示すブロック図である。サーバ装置１は、通信媒体４を介してクライアント装置２及び３と通信接続される。

通信媒体４は、ＬＡＮ４１、インターネット等の公衆網４２、公衆網４２へのアクセスポイント（ＡＰ）４３、通信キャリアが提供するキャリアネットワーク４４及び該キャリアネットワーク４４へアクセスするための基地局４５を含む。通信媒体４は、サーバ装置１、クライアント装置２，３間を有線又は無線により通信接続する。

サーバ装置１はサーバコンピュータを用い、制御部１０、記憶部１１、一時記憶部１２及び通信部１３を備える。制御部１０はＣＰＵ（Central Processing Unit ）、クロック等を用い、記憶部１１に記憶されているサーバプログラム１１Ｐ及び抽出プログラム１２Ｐに基づいた各処理を実行し、汎用サーバコンピュータをコミュニティ提供サーバ及び抽出装置として機能させる。一時記憶部１２はＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリを用いて制御部１０の処理により生成される情報を一時的に記憶する。

記憶部１１は、ハードディスクを用いてサーバプログラム１１Ｐ及び抽出プログラム１２Ｐのほか、制御部１０が参照するデータを記憶する。また記憶部１１は制御部１０により作成されるネットワークコミュニティ１００のユーザ情報をユーザ情報（発信者識別情報）ＤＢ１１１として記憶し、ネットワークコミュニティ１００上での発信情報Ｖを発信情報ＤＢ１１２として記憶する。なおユーザ情報ＤＢ１１１及び発信情報ＤＢ１１２は、制御部１０により情報の読み書きが可能であればその所在は限定されず、サーバ装置１外の記憶装置に記憶されている構成であってもよい。

サーバプログラム１１Ｐは、サーバコンピュータをチャットサーバ、掲示板サーバ又はコンテンツ投稿サーバとしての機能を発揮させるためのサーバ用プログラムである。抽出プログラム１２Ｐは、ユーザの識別情報を抽出するための後述にて説明する処理を制御部１０に実行させるためのプログラムである。

通信部１３は、通信媒体４に含まれるＬＡＮ４１に接続されているネットワークカードである。制御部１０は通信部１３により、通信媒体４を介した通信が可能である。例えば制御部１０はルータを介して公衆網４２経由でクライアント装置２，３との通信接続が可能である。

クライアント装置２及びクライアント装置３は、スマートフォン、タブレット端末、デスクトップ型又はラップトップ型のＰＣを用いる。クライアント装置２，３は、ブックリーダと呼ばれる情報端末、ゲーム機、又はＰＤＡ等、通信媒体４を介した通信機能を有している情報端末であれば適用することが可能である。クライアント装置２及びクライアント装置３は基本的に同様の構成部を有し、制御部２０（３０）、記憶部２１（３１）、一時記憶部２２（３２）、表示部２３（３３）、操作部２４（３４）、音声入力部２５（３５）、及び通信部２６（３６）を備える。符号の相違は使用するユーザの種別の差異に応じたインタフェースの相違に対応する。共通する構成について以下クライアント装置２にて説明を行ない、相違するインタフェースについては後述する。

制御部２０は、ＣＰＵ、クロック等を含み、記憶部２１に記憶されているクライアントプログラム２Ｐに基づいた各処理を実行し、汎用コンピュータをクライアント装置２として機能させる。一時記憶部２２は、ＤＲＡＭ等の揮発性メモリを用いて制御部２０の処理により生成される情報を一時的に記憶する。

記憶部２１は、ハードディスク又はフラッシュメモリ等の不揮発性メモリを用いる。記憶部２１はクライアントプログラム２Ｐのほか、Ｗｅｂブラウザプログラム等のクライアント用の汎用プログラムを記憶し、更に制御部２０の読み書きする各種データを記憶する。

クライアントプログラム２Ｐは、後述するようにクライアント装置２の制御部２０に各処理を実行させるプログラムである。クライアントプログラム２Ｐは、図示しない記録媒体に記録されてあるクライアントプログラムを読取部により読み出し、又は通信部２６経由で取得し、記録したものであってもよい（いずれも図示せず）。

表示部２３は、タッチパネル内蔵型ディスプレイを用いる。制御部２０は、クライアントプログラム２Ｐに基づき、表示部２３へテキスト及びアイコン等の画像を含む各種操作画面を表示する。表示部２３は、タッチパネル内蔵型でないディスプレイでもよい。

操作部２４は、表示部２３のディスプレイに内蔵されるタッチパネル及びクライアント装置２の筐体に設けられるボタン群を用いる。クライアント装置２がＰＣである場合、操作部２４はキーボード及びマウス等のユーザインタフェースを含む。操作部２４は、ユーザによる操作情報を制御部２０へ通知する。

音声入力部２５はマイクロフォンである。制御部２０は音声入力部２５から音声を入力する。制御部２０は、音声入力部２５が入力した音声を音声認識によってテキスト化することが可能である。

通信部２６は、ＬＡＮケーブルと接続可能なネットワークカードを含んで公衆網４２に接続しているか、又は基地局４５に接続する通信規格に基づく無線通信モジュール及びＡＰ４３への接続に対応する無線通信モジュールを含む。制御部２０は通信部２６により、通信媒体４経由でサーバ装置１と通信接続が可能である。

そしてクライアント装置２、３の内、一般ユーザが使用するクライアント装置２では、クライアントプログラム２Ｐにより、サーバ装置１から提供されるネットワークコミュニティ１００上の掲示板、チャットルームへの接続インタフェース（ＧＵＩ）が提供される。ネットワークコミュニティ１００は例えば、ユーザＤが提供している各種商品について公衆網４１に広く公開されている情報提供サイトから導かれるアンケートコミュニティであり、ログイン情報を有しているユーザの端末装置２のみが通信接続することが可能としてある。ユーザＤのような事業者が使用するクライアント装置３では、アンケートコミュニティにおける種々の情報（アンケート、投票等）の集計結果が提示されるインタフェースが提供される。またクライアント装置３では、ネットワークコミュニティ１００を提供するサーバ装置１の運営者との間で後述するような情報交換を実現するインタフェースが含まれる。

図３は、ユーザ情報ＤＢ１１１の内容例を示す説明図である。ユーザ情報ＤＢ１１１には、ネットワークコミュニティ１００におけるユーザを相互に識別するユーザ識別情報（ユーザＩＤ）がユーザ名（表示名）、ログイン情報（パスワード等）と対応付けて１つのレコードとして記憶される。つまりユーザ情報ＤＢ１１１は、発信情報Ｖの発信者を識別する情報のデータベースに対応する。なおログイン情報は、ネットワークコミュニティ１００へのログイン情報である。図３の説明図に示す例では、ユーザは一般ユーザと事業者ユーザとに区別されて分別可能なユーザ識別情報が夫々付与されている。図３の例では、一般ユーザには先頭が「０（ゼロ）」で始まる５桁の通し番号であるユーザ識別情報が付与され、事業者ユーザには８万番台の５桁の通し番号であるユーザ識別情報が付与されている。一般ユーザであるユーザＡ，Ｂ，Ｃ，Ｆには更に図３の説明図に示す例のように、ユーザ情報ＤＢ１１１は電子メールアドレス、住所等の連絡先情報、更にはログイン履歴等が記憶されてもよい。そして事業者ユーザであるユーザＤ，Ｅに対しても図３の説明図に示す例のように、電子メールアドレス、住所等の連絡先情報、更にはログイン履歴等が記憶されてもよい。更に１レコードには、ユーザの属性情報（性別、年齢（生年月日）、嗜好に関するアンケート結果）が共に記憶されていてもよい。

ネットワークコミュニティ１００上での発信情報Ｖ、例えばチャット上での発言、掲示板への書き込み、商品レビュー、コメントは、発信情報ＤＢ１１２にその都度記憶される。図４は、発信情報ＤＢ１１２の内容例を示す説明図である。発信情報ＤＢ１１２には、発信情報Ｖの内容を示すテキストデータ、各発信情報Ｖを相互に識別する発信情報識別情報、及び夫々の発信者を識別するユーザ識別情報が対応付けて記憶される。そして図４に示すように、発信情報ＤＢ１１２には発信時刻（書き込み、投稿時刻）が対応付けて記憶されてもよい。

次に、サーバ装置１にてリクエストにより所望の人物像に合致する人物のユーザ識別情報を抽出する過程について説明する。図５は、サーバ装置１による抽出処理の手順の一例を示すフローチャートである。図５のフローチャートに示す処理手順は例えば、次の場合に開始される。まず事業者ユーザであるユーザＤがクライアント装置３からネットワークコミュニティ１００内にログインする。クライアント装置３の表示部３３に表示される事業者用のログイン後のトップページには「抽出依頼」を受け付けるためのインタフェース表示が含まれ、この「抽出依頼」が選択された場合に開始される。又はネットワークコミュニティ１００の管理者宛てに、テキストコンテンツＳと共に抽出依頼を所定のフォーマットの電子メールが送信された場合にこれを受信するとサーバ装置１が以下の処理を開始してもよい。

クライアント装置３の表示部３３には、「抽出依頼」を受け付けるインタフェースが表示される（ステップＳ３０１）。インタフェースは例えばＷｅｂページであり、アップロードするテキストコンテンツＳの選択アイコンが含まれる。その他後述するような詳細な設定ページへのリンク（アイコン）が含まれてもよい。

制御部３０は、表示されているインタフェースにてテキストコンテンツＳの選択を受け付ける（ステップＳ３０２）。制御部３０は、選択されたテキストコンテンツＳを一般ユーザの抽出要求と共にサーバ装置１へ通信部３６からアップロードする（ステップＳ３０３）。アップロードはテキストコンテンツＳのデータそのものでもよいし、テキストコンテンツＳへのリンク情報であってもよい。ステップＳ３０３にてクライアント装置３における処理は一旦終了する。

サーバ装置１の制御部１０は、通信部１３によりテキストコンテンツＳを受け付ける（ステップＳ１０１）。ステップＳ１０１において制御部１０は、クライアント装置３から送信されたテキストコンテンツＳのデータが、記事そのものの文書データではなく、Ｗｅｂページへのリンク情報である場合には、リンク先から文書データをダウンロードする。また、クライアント装置３から送信されたテキストコンテンツＳのデータは音声、動画であってもよく制御部１０はここでテキスト化する処理を事前に行なうようにしてもよい。

制御部１０は、受け付けたテキストコンテンツＳに対して形態素解析を実施し（ステップＳ１０２）、テキストコンテンツＳの特徴を示す情報を導出し（ステップＳ１０３）、記憶部１１又は一時記憶部１２に記憶しておく（ステップＳ１０４）。ステップＳ１０３における特徴を示す情報は例えば、頻出名詞及びその出現回数である。

次に制御部１０は、記憶部１１のユーザ情報ＤＢ１１１から一般ユーザに対応する複数のユーザ識別情報を取得し（ステップＳ１０５）、所定の条件に従って１つずつ選択する（ステップＳ１０６）。所定の条件とは例えば、ユーザ情報ＤＢ１１１に記録されているユーザ識別情報の全て、又は所定のグループ（掲示板、チャットルーム）に対応付けて記録されているユーザ識別情報等の条件である。その他、記録されている全期間若しくは直近所定期間（例えば１か月、３ヶ月等）を通して発信情報の数が所定数以上であるユーザ、又は直近１ヶ月に発信を行なっているユーザのみのユーザ識別情報等の条件であってもよい。更には所定のワードを含む発信情報を発信しているユーザ、所定期間にて所定ワードを含む発信情報を発信しているユーザのユーザ識別情報の条件であってもよい。

制御部１０は、選択した１つのユーザ識別情報によって識別されるユーザを発信者とする発信情報Ｖ群を発信情報ＤＢ１１２から抽出し（ステップＳ１０７）、抽出した発信情報全てに対して形態素解析を実施する（ステップＳ１０８）。制御部１０は、形態素解析の結果に基づき抽出された発信情報Ｖ群に基づき、選択されたユーザ識別情報のユーザから発信される発信情報の特徴を示す情報を導出し（ステップＳ１０９）、記憶部１１又は一時記憶部１２に記憶しておく（ステップＳ１１０）。ステップＳ１０９における特徴を示す情報とは、ステップＳ１０３で導出される特徴の情報と以後のステップＳ１１１にて比較することが可能なものであり、例えば場合頻出名詞及びその出現回数である。

制御部１０は、テキストコンテンツＳの特徴を示す情報と抽出した発信情報の特徴を示す情報とを比較し、類似度を算出し、ユーザ識別情報と対応付けて算出した類似度を記憶部１１又は一時記憶部１２に記憶する（ステップＳ１１１）。類似度は例えば、所定の出現回数以上の名詞を各成分とするベクトル化したもの同士でコサイン類似度を算出するか、又はユークリッド距離を算出して求める。類似度の算出はこれに限られず、自然言語処理にて言葉同士の類似度、関連度等を判断するための公知発明を利用してもよい。

次に制御部１０は、前記所定の条件に合致するユーザのユーザ識別情報を全て選択したか否かを判断する（ステップＳ１１２）。未選択のユーザ識別情報があると判断された場合（Ｓ１１２：ＮＯ）、制御部１０は処理をステップＳ１０６へ戻し、所定の条件に従って次のユーザ識別情報を選択する（Ｓ１０６）。

ステップＳ１１２にて全て選択したと判断された場合（Ｓ１１２：ＹＥＳ）、制御部１０は、類似度が高い順に、該類似度が対応付けられているユーザ識別情報をソートする（ステップＳ１１３）。制御部１０は、類似度が高い順にソートしたユーザ識別情報を例えば上位３０件までに絞り込む等した抽出結果をクライアント装置３へ向けて通信部１３から送信し（ステップＳ１１４）、抽出処理を終了する。ステップＳ１１４の抽出結果の送信は、事業者ユーザのログイン後のトップページから参照可能なＷｅｂページ（そのリンク情報）として作成されてから送信されるか、作成されたレポート又はＷｅｂページへの事業者ユーザ宛ての電子メールにてリンク情報として送信されるなど種々の方法が考えられる。

クライアント装置３では、制御部３０が通信部３６から抽出結果を受信し、受信した抽出結果を出力し（ステップＳ３０４）、処理を終了する。ステップＳ３０４における抽出結果の出力は、表示部３３における表示、又は通信部３６からの印刷媒体への印刷データの送信及びこれによる印刷出力が含まれる。また音声出力部を用いた読み上げ音声の出力が含まれてもよい。

なおステップＳ１０５〜ステップＳ１１０及びステップＳ１１２の処理は、ネットワークコミュニティ１００上で所定の期間が経過する都度、バッチ処理によって実施しておくようにしてもよい。バッチ処理は例えば１日に一度、発信の頻度が少ない時間帯等、通信負荷及び処理負荷が少ない時間帯に行なわれるとよい。この場合、ユーザ識別情報に対応付けて特徴を示す情報が記憶部１１に記憶され、バッチ処理により更新される。そして制御部１０はテキストコンテンツＳを受け付けた場合に、ユーザ識別情報を１つずつ選択し、選択したユーザ識別情報に対応付けて記憶されている発信情報の特徴を示す情報とテキストコンテンツＳの特徴を示す情報との類似度を全ユーザに対して算出する。これにより、例えば異なるテキストコンテンツＳを受け付ける都度行なわれるユーザ毎の特徴を示す情報の導出処理の重複を回避することでサーバ装置１における処理負荷を軽減することができ、更にテキストコンテンツＳのアップロードからの応答が迅速化する。

また、テキストコンテンツＳの受け付け（ステップＳ１０１）と、発信情報ＤＢ１１２の作成との順序は、上述した例には限られない。図５のフローチャートにおいては発信情報ＤＢ１１２が作成されてから、即ち発信情報Ｖが蓄積されてから、テキストコンテンツＳが受け付けられるという順序であった。しかしながら、予めテキストコンテンツＳが受け付けられて記憶部１１に記憶された状態としておき、制御部１０はその後発信される発信情報ＶについてテキストコンテンツＳとの類似度の算出を行なうようにしてもよい。

（実施例）
上述した実施の形態について具体例を挙げて説明する。
図６は、発信情報Ｖの内容例を示す説明図である。図６は、図１に示したネットワークコミュニティ１００の具体例におけるユーザＡ，Ｂ，Ｃの発信情報（掲示板での会話）Ｖを時系列に示している。図６に示す例では、最近食べたものとして「パクチー」が挙げられており、昨今ブームとなっている「パクチー」に関する発信情報Ｖが示されている。

図７は、テキストコンテンツＳの内容例を示す説明図である。テキストコンテンツＳは例えば、「パクチー」についての記事であり、特に家庭においてパクチーを用いた料理を作って食べることの魅力についての記事である。ブームとなっているパクチーの食材を利用した独特な商品（例えば料理キット）を開発する事業者ユーザであるユーザＤは、テキストコンテンツＳに興味を示す人物へ商品開発への協力を依頼したいと考えているとする。本実施の形態に係る情報処理システムを利用することでユーザＤは、事業者ユーザとしてネットワークコミュニティ１００へログインした後のトップページから「抽出依頼」を選択してテキストコンテンツＳをアップロードさせる操作を行なえばよい。

図６に示した発信情報Ｖ群が発信情報ＤＢ１１２に記録されている状態で、図７に示したテキストコンテンツＳがアップロードされた場合、サーバ装置１ではテキストコンテンツＳ（及びリンク先）からは以下のような頻出名詞及びその出現回数のリストが特徴を示す情報として導出される。
（パクチー，２５回）
（うちパク，１０回）
（栽培，５回）
（料理，３回）

そして図６に示した発信情報Ｖ群の内、ユーザ識別情報が「００００３」であるユーザ（ユーザ名「ｕｓｅｒＢ」）を発信者とする発信情報Ｖ群（図６に示す発信情報Ｖ以外も含む）からは以下のような頻出名詞及びその出現回数のリストが特徴を示す情報として導出される。
（パクチー，１１０回）
（うちパク，２５回）
（栽培，１０回）
（料理，５回）

上述の例では頻出名詞が重複しているため、例えば出現回数が５回以上の頻出名詞によるコサイン類似度で算出される類似度は「１」となる。

実施例においてサーバ装置１の制御部１０は、図５のフローチャートに示したステップＳ１１４における抽出処理の結果の送信の際に、クライアント装置３にて表示するため表示情報（画面データ）を作成し、抽出処理の結果としてその表示情報をクライアント装置３宛てに送信（出力）する。図８は、抽出結果を表示させる表示情報を制御部１０が作成する作成処理の手順の一例を示すフローチャートである。

制御部１０は、上述の図５のフローチャートに示した手順の内、ステップＳ１１３にて類似度が高い順にソートされたユーザ識別情報を例えば上位３０件までに絞り込む（ステップＳ４０１）。

制御部１０は、絞り込まれたユーザ識別情報から、類似度が高い順に１つずつ選択し（ステップＳ４０２）、選択されているユーザ識別情報のユーザ名をユーザ情報ＤＢ１１１から読み出して表示情報へ文字情報（又は画像）として出力する（ステップＳ４０３）。次に制御部１０は、選択されているユーザ識別情報に対応付けて記憶されている類似度を表す数値情報を表示情報へ文字情報（又は画像）として出力する（ステップＳ４０４）。更に制御部１０は、選択されているユーザ識別情報が発信した発信情報Ｖ群の内の所定数の発信情報Ｖを主要コメントとして選抜し、表示情報へ出力する（ステップＳ４０５）。

ステップＳ４０５において制御部１０はまず、頻出名詞として特定された名詞をより多く含む発信情報Ｖを選抜し、更にその内でも、異なる頻出名詞をより多く含む発信情報Ｖを選抜する。選抜した結果が所定数以内である場合には、制御部１０は選抜した結果を主要コメントとしてもよいし、所定数を超える数分だけ選抜された場合には、例えば発信時刻が最近の発信情報Ｖを優先的に選抜するようにしてもよい。このように制御部１０は、抽出された発信情報Ｖに対し、頻出名詞数、頻出名詞種類数及び発信時刻に応じて更に優先順位を付与し、上位の所定数分だけを主要コメントとして選抜するとよい。

制御部は上位から所定数のユーザ識別情報を選択したか否かを判断し（ステップＳ４０６）、選択していないと判断された場合（Ｓ４０６：ＮＯ）、処理をステップＳ４０２へ戻して次に類似度が高いユーザ識別情報を選択する。

ステップＳ４０６にて選択したと判断された場合（Ｓ４０６：ＹＥＳ）、制御部１０は、表示情報をＷｅｂページのデータ、又はｐｄｆ等のイメージ文書のデータとして出力し（ステップＳ４０７）、作成処理を終了する。

図９は、制御部１０により作成された表示情報に基づきクライアント装置３の表示部３３にて表示される画面例を示す説明図である。図９に示す例は、図７のテキストコンテンツＳに基づき図６に示した発信情報Ｖ群を含むネットワークコミュニティ１００上の発信情報Ｖに対して行なった抽出処理の結果（Ｓ１１４）に対応する。そして図８のフローチャートに示した手順により抽出処理の結果として作成される表示情報に基づき表示される画面の一例である。図９の例に示すように、表示情報に基づき表示される画面には、類似度が高い順にユーザ識別情報を表示させ、ユーザ識別情報毎に、類似度の算出結果、及び類似度に寄与する頻出名詞を含む主要な発信情報Ｖが複数含まれている。

図９に示す例において最も類似度が高いとして抽出されたユーザ識別情報が「００００３」（ユーザ名「ｕｓｅｒＢ」）であるユーザＢは、図６に示した会話例から分かるように、家庭においてパクチーを用いた料理に意欲を持つユーザである。更にユーザＢは、図６に示している会話例から、後に「今日は友達とうちパク！」と「うちパク」を実践していることが窺える。つまり、図７のテキストコンテンツＳに興味を示しそうなユーザであり、事業者ユーザであるユーザＤがイメージする人物像に合致していると言える。このようにイメージする人物像に合いそうなテキストコンテンツＳをアップロードするという容易な操作によって、適切な人物のユーザ識別情報の抽出が実現される。この際にユーザＤは、属性情報に対応するキーワードの登録等の操作を行なう必要がない。

なお図５のフローチャートの説明及び図６〜図９の具体例を参照した説明では、特徴を示す情報を頻出名詞及びその出現回数とした。しかしながら形態素解析の実施結果に基づき導出される特徴の情報はこれに限らない。例えば後述するように、頻出名詞の関連語を登録してある関連辞書を参照して関連語をも含む言葉を各成分としたベクトルを求めて特徴を示す情報としてもよい。又は、頻出名詞のＴＦ−ＩＤＦ（Term Frequency-Inverse Document Frequency ）を算出して特徴を示す情報としてもよい。その他自然言語処理の技術にて行なわれている方法で得られる情報であってもよい。

（変形例１）
図４には、発信情報ＤＢ１１２は、発信情報Ｖに発信時刻を対応付けて記憶する例を示した。変形例１においてサーバ装置１の制御部１０による抽出処理では、この発信時刻を用いる。図１０は、サーバ装置１による抽出処理の手順の他の一例を示すフローチャートである。また図１０のフローチャートに示す処理手順の内、図５のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図１０では、クライアント装置３における処理手順については同一であるので図示及び説明を省略する。

変形例１においてサーバ装置１の制御部１０は、ステップＳ１０７にて発信情報ＤＢ１１２から抽出された発信情報Ｖ群から更に、対応付けられて記憶されている発信時刻に基づき、直近の所定期間に発信された発信情報Ｖ群に絞りこむ（ステップＳ１２１）。直近の所定期間とは例えば、テキストコンテンツＳのアップロード時点（ステップＳ１０１にて受け付けた日時）から３ヶ月等である。なお「直近」とは、厳密にテキストコンテンツＳを受け付けた時刻を基準とするものとは限らず、過去の発言を除外するという意味で解釈されるべきである。

制御部１０は、絞り込んだ発信情報Ｖ群に含まれる発信情報Ｖ夫々について、対応付けられている発信時刻に基づいて時系列に最近のものほど高い数値となる重み付け係数を付与する（ステップＳ１２２）。ステップＳ１２２において制御部１０は例えば、直近１週間以内に発信された発信情報Ｖには係数１．０、直近１週間超から２週間以内に発信された発信情報Ｖには係数０．９を付与する。そして直近２週間超から３週間以内に発信された発信情報Ｖには係数０．８を付与し、直近３週間超から３か月以内に発信された発信情報Ｖには均等に係数０．５を付与するなどしてもよい。

そしてステップＳ１０９における特徴を示す情報の導出において制御部１０は、発信情報Ｖから形態素解析により得られた言葉、例えばその名詞の出現回数に、ステップＳ１２２で付与された重み付け係数を乗算し、出現回数の総計に重み付けを作用させる。例えば直近１週間以内、直近１週間超から２週間以内、直近２週間超から３週間以内、及び直近３週間超から３ヶ月以内夫々に１回ずつ「パクチー」を含む発信情報Ｖが発信されている場合、出現回数は「４」ではなく以下のように算出される。なお係数は上述の例（１．０，０．９，０．８，０，５）を用いるがこの限りではないことは勿論である。
（１×１．０＋１×０．９＋１×０．８＋１×０．５）＝３．２回
これにより、単に出現回数を発信情報Ｖの記憶が開始されてからの全期間で同一の重み付けで計数するよりも、できる限り最近の発信情報Ｖに含まれる言葉をより重く抽出して類似度を算出することが可能になる。この場合、テキストコンテンツＳがアップロードされたタイミングと同時期にテキストコンテンツＳに興味を示しそうな人物のユーザ識別情報を抽出することが可能になる。

（変形例２）
変形例２では、サーバ装置１の制御部１０は複数のテキストコンテンツＳを受け付けて抽出処理を行なう。図１１は、サーバ装置１による抽出処理の手順の他の一例を示すフローチャートである。また図１１のフローチャートに示す処理手順の内、図５のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図１１では、クライアント装置３における処理手順については同一であるので図示及び説明を省略する。

変形例２においてサーバ装置１の制御部１０は、複数のテキストコンテンツＳを受け付ける（ステップＳ１３１）。

複数のテキストコンテンツＳを受け付ける変形例２においては、ステップＳ１０３におけるテキストコンテンツＳの特徴を示す情報の導出に際し、自然言語処理で用いられる文書における特徴語を導出するＴＦ−ＩＤＦを用いることができる。この場合制御部１０は、ステップＳ１０９にて抽出された発信情報Ｖの特徴を示す情報を導出するに際し同様にＴＦ−ＩＤＦを用いて特徴語及びそのＴＦ−ＩＤＦを算出するとよい。なおＴＦ−ＩＤＦの算出は必須ではなく、複数のテキストコンテンツＳ夫々に対して頻出名詞及び出現回数を導出してもよいし、複数のテキストコンテンツＳを１つのテキストコンテンツＳとみなして頻出名詞及びその出現回数を導出するようにしてもよい。

変形例２では、ステップＳ１１０にて導出された発信者であるユーザ毎の発信情報Ｖ群の特徴を示す情報を記憶した後に制御部１０は、ステップＳ１３１で受け付けた複数のテキストコンテンツＳと、ステップＳ１１０にて記憶したユーザ毎の発信情報Ｖ群との類似度を算出する（ステップＳ１３２）。

ステップＳ１３２において制御部１０は、上述したようにＴＦ−ＩＤＦを用いる場合には複数のテキストコンテンツＳから導出されるＴＦ−ＩＤＦと、ユーザ毎の発信情報Ｖ群から導出されるＴＦ−ＩＤＦとの間でコサイン類似度を算出するとよい。またステップＳ１３２において制御部１０は、ＴＦ−ＩＤＦを用いることなしに、ステップＳ１０３にて複数のテキストコンテンツＳ夫々について特徴を示す情報を導出した場合には、ステップＳ１３２では各々についてユーザ毎の発信情報Ｖ群との類似度を算出する。更に制御部１０は、ＴＦ−ＩＤＦを用いることなしに、ステップＳ１０３にて複数のテキストコンテンツＳを１つのテキストコンテンツとみなして特徴を示す情報を導出している場合には、ステップＳ１３２ではユーザ毎の発信情報Ｖ群から導出される特徴情報との類似度を１つ算出する。

複数のテキストコンテンツＳは、内容（テーマ）がほぼ同一であるテキストコンテンツＳ同士でもよいし、内容が同一でないテキストコンテンツＳ同士であってもよい。例えば内容が同一である複数のテキストコンテンツＳとしては図７に示した「パクチー」についての記事と、同じように「パクチー」を家庭で食べることについての他の異なる記事との組み合わせである。内容が同一である複数のテキストコンテンツＳを用いる場合には、ＴＦ−ＩＤＦを用いてより重要な特徴語のみで発信情報Ｖ群との類似度を測定し、高精度に類似度を算出することが可能となる。

内容が同一でないテキストコンテンツＳ同士とは例えば、図７に示した「パクチー」についての記事と、「タイ旅行」についての記事との組み合わせである。内容が同一でない複数のテキストコンテンツＳを用いる場合には、制御部１０は複数のテキストコンテンツＳを１つのテキストコンテンツとみなして頻出名詞及びその出現回数を導出して類似度を算出するか、又は複数のテキストコンテンツＳ夫々について類似度を算出してもよい。複数のテキストコンテンツＳ夫々について類似度を算出する場合には、制御部１０はいずれの類似度も所定の度合い以上で高いと判断されるユーザ識別情報を抽出するとよい。これにより、異なる記事のいずれにも興味を示すようなユーザを的確に絞り込んで抽出することが可能となる。

このように複数のテキストコンテンツＳを受け付ける抽出処理により、より精度の高い類似度の算出が可能になったり、所望の人物像に合致するユーザのユーザ識別情報を的確に抽出することが可能になったりすることが期待される。

（変形例３）
変形例３では、テキストコンテンツＳ及び発信情報Ｖ夫々について、実際に含まれる言葉（頻出名詞）のみならず、関連語も用いて類似度を算出して抽出処理を行なう。変形例３では記憶部１１又は外部装置に関連辞書が記憶されており、制御部１０から読み出しが可能である。図１２は、サーバ装置１による抽出処理の手順の他の一例を示すフローチャートである。また図１２のフローチャートに示す処理手順の内、図５のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図１２では、クライアント装置３における処理手順については同一であるので図示及び説明を省略する。

変形例３においてサーバ装置１の制御部１０は、ステップＳ１０７にて発信情報ＤＢ１１２から抽出された発信情報Ｖ群に対して形態素解析を実施し（Ｓ１０８）、発信情報Ｖ群に含まれる言葉の関連語を関連辞書から取り出す（ステップＳ１４１）。制御部１０は、形態素解析により得られる発信情報Ｖ群に含まれる言葉のみならず、関連語をも用いて発信情報Ｖ群の特徴を示す情報として導出する（ステップＳ１４２）。ステップＳ１４２について例えば制御部１０は、頻出名詞として関連語も同一の出現回数を対応付けて抽出するか、又はＴＦ−ＩＤＦを算出するに際し、関連語をも特徴語に含むようにしてもよい。

なおここでいう「関連語」は、同義語、共起語等を含む。例えば関連辞書は、「パクチー」の同義語の「コリアンダー」「香菜」等を関連語として含む。また関連辞書は、「パクチー」の関連語として共起語である「タイ料理」、「タイ」等を含んでもよい。

そして制御部１０は、発信情報Ｖ群の特徴を示す情報を記憶した後（Ｓ１１０）、発信情報Ｖ群の関連語を用いてテキストコンテンツＳと発信情報Ｖ群との間の類似度を算出し、ユーザ識別情報と対応付けて算出した類似度を記憶部１１又は一時記憶部１２に記憶する（Ｓ１４３）。ステップＳ１４３にて具体的には、制御部１０は、テキストコンテンツＳにて所定の出現回数以上の出現する頻出名詞を各成分としてベクトル化したものと、発信情報Ｖ群に出現する頻出名詞及び関連語を各成分としてベクトル化したものとの間でコサイン類似度を算出する。ユークリッド距離を算出してもよい。

なお関連語については、ステップＳ１０３における受け付けたテキストコンテンツＳに対しても、テキストコンテンツＳに含まれる言葉の関連語を関連辞書から取り出して該テキストコンテンツＳの特徴を示す情報として用いるようにしてもよい。関連語の取り出しは、テキストコンテンツＳ及び発信情報Ｖ群のいずれか一方のみならず、両者に対して行なうようにしてもよい。

このように関連語を用いた抽出処理により、本来は同義語であっても使われ方が異なるのみで類似の判断から除外されてしまうような関連語も考慮して類似度を求めたり、関連する他の用語が共通の場合により類似度を高く算出したりすることを可能とする。これにより、所望の人物像に合致するユーザのユーザ識別情報を的確に、精度良く抽出することが可能になる。

なお、上述の変形例１〜３は、任意の２つ又は全部を組み合わせた形態としても実現することが可能である。

上述した実施の形態においてネットワークコミュニティ１００は、上述にて示したアンケートコミュニティのような参加者が限定されているものに限らず、Ｔｗｉｔｔｅｒ（登録商標）、ＦａｃｅＢｏｏｋ（登録商標）、ブログ等の広く公開されるＳＮＳであってもよい。したがって、商品・サービスについてのアンケートのみならず、商品・サービス、更にはテレビジョン放送、ラジオ放送による放送内容等に対する感想等を含む種々の発信情報を用いて広く、ターゲットとなる人物を識別する情報を抽出することも可能である。このとき、発信された情報の内、ＳＮＳで使用される「タグ」として意図的に付けられている情報は除外する工程を経てから抽出を行なうようにしてもよい。これにより、「タグ」の内容に左右されず、潜在的にターゲットとなるべき人物を抽出することができる。更には、ネットワークコミュニティ１００は商品開発に係るアンケート調査の場であるのみならず、就職活動、転職活動、その他人材マッチングサービスにおける情報交換の場であってもよい。就職活動、転職活動、その他人材マッチングサービスに適用することによって、人事担当者、又はマッチングサービスの管理者がイメージする所望の人物像に合致するユーザの抽出が可能である。

また本開示では、上述したようにネットワークコミュニティ１００上での通信媒体を介した発信情報により、適切な人物を抽出する構成とした。しかしながら本願発明はこれに限らず、１つの集音装置にて複数の人物による対話を録音し、録音情報をテキスト化したものを発信情報とするか、又はテキスト化されているインタビュー記事を発信情報としても適用することが可能である。この場合対話に参加した人物、インタビューに答えた人物夫々を識別する識別情報データベースを作成し、夫々からの発言のテキストデータを発信情報として発信情報データベースを作成する。そして所望の人物に対応するテキストテキストコンテンツＳを用いて図５のフローチャートの処理を行なう。これにより、ネットワークコミュニティ１００のような仮想空間での発信情報のみならず、実空間での対話、又は紙媒体における発信情報から適切な人物の識別情報を抽出することも可能である。

なお、上述のように開示された本実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１サーバ装置（抽出装置）
１０制御部
１１記憶部
１１１ユーザ情報ＤＢ（発信者識別情報データベース）
１１２発信情報ＤＢ（発信情報データベース）
１２一時記憶部
１３通信部
２，３クライアント装置
２０，３０制御部
２３，３３表示部
２６，３６通信部

Claims

所望の人物像に対応するテキストコンテンツを受け付ける受付部と、
複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースを記憶する記憶部と、
前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と前記受付部で受け付けたテキストコンテンツとの間の類似度を算出する算出部と、
該算出部が算出した類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出する抽出部と
を備えることを特徴とする抽出装置。
前記抽出部は、対応する類似度の高さの降順によって前記発信者識別情報をソートする
ことを特徴とする請求項１に記載の抽出装置。
前記抽出部により抽出された発信者識別情報毎に、前記類似度の算出に係る情報、及び該類似度に寄与する複数の発信情報を表示するための表示情報を作成する作成部
を更に備えることを特徴とする請求項１又は２に記載の抽出装置。
前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、
前記算出部は、
前記発信者毎に該発信者が発信した発信情報群を抽出し、
抽出された発信情報群から、直近から所定の長さの期間に発信された発信情報群を絞り込み、
絞り込まれた発信情報群を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する
ことを特徴とする請求項１に記載の抽出装置。
前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、
前記算出部は、
前記発信情報データベースから抽出される発信情報夫々に、発信時刻が類似度の算出時点から近い順に高い数値となる重み付け係数を付与し、
付与された重み付け係数を前記発信情報に含まれる言葉の出現回数に乗算し、
前記発信者毎に、該発信者が発信した発信情報群に含まれる前記言葉及び該言葉の出現回数を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する
ことを特徴とする請求項１に記載の抽出装置。
前記受付部は複数のテキストコンテンツを共に受け付け、
前記算出部は、前記複数のテキストコンテンツ夫々について類似度を算出するか、又は前記複数のテキストコンテンツから導出される特徴を示す情報を用いて類似度を算出する
ことを特徴とする請求項１に記載の抽出装置。
前記算出部は、
前記発信情報又は前記受付部で受け付けたテキストコンテンツ夫々に含まれる言葉と、該言葉に関連する関連語が記録してある関連辞書から抽出される関連語とを用いて類似度を算出する
ことを特徴とする請求項１に記載の抽出装置。
複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースに対し読み書きが可能なコンピュータに、前記発信者識別情報を抽出させるコンピュータプログラムであって、
前記コンピュータに、
所望の人物像に対応するテキストコンテンツを受け付けるステップ、
前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と、受け付けたテキストコンテンツとの間の類似度を算出するステップ、
算出された類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出するステップ
を実行させることを特徴とするコンピュータプログラム。