JP2018067041A - 抽出装置及びコンピュータプログラム - Google Patents
抽出装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2018067041A JP2018067041A JP2016203564A JP2016203564A JP2018067041A JP 2018067041 A JP2018067041 A JP 2018067041A JP 2016203564 A JP2016203564 A JP 2016203564A JP 2016203564 A JP2016203564 A JP 2016203564A JP 2018067041 A JP2018067041 A JP 2018067041A
- Authority
- JP
- Japan
- Prior art keywords
- information
- transmission information
- identification information
- sender
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】所望の人物像に即した人物を適切に抽出することを可能とする抽出装置及びコンピュータプログラムを提供する。【解決手段】所望の人物像に対応するテキストコンテンツを受け付ける受付部と、複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースを記憶する記憶部と、前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と前記受付部で受け付けたテキストコンテンツとの間の類似度を算出する算出部と、該算出部が算出した類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出する抽出部とを備える。【選択図】図1
Description
本発明は、ネットワークコミュニティ上での発信情報を基に、所望の発信者を抽出する抽出装置及びコンピュータを抽出装置として動作させるコンピュータプログラムに関する。
商品・サービスの品質及び機能が成熟すると商品・サービスの差別化はデザイン、質感、コンセプトイメージ等の消費者の好みが多岐に亘る要素によるものとなる。多岐に亘る消費者の嗜好に合わせて商品・サービスを開発するに際し、少しでも多くの消費者から支持されるものとすべく消費者の意見を取り入れることが効果的であるとされている。このため消費者からのアンケート、レビュー、コメント等を参考にするのみならず、商品開発の場への参加を募るなどの取り組みが従前より行なわれている。
特許文献1には、商品に関して事前に登録された会員同士(時には商品開発の運営者も交えた状態で)でのチャットによるアイディア交換の実施、更には、イメージイラスト等の投票を、ネットワークを介して実現するシステムが開示されている。
特許文献2には、モニタ商品の商品化を希望する応募者へ、商品開発の場を提供するシステム(モニタハウス)が開示されている。特許文献2で提案されているモニタハウスでは、応募者と、予め登録された会員及びそのモニタ商品の商品化への応援者とのアンケートのやり取りの場、又は商品化後の広告宣伝の依頼の場が提供される。このときアンケートの対象とする会員又は応援者を性別、年齢等の条件で絞ることが可能であることが開示されている。
特許文献1に示したように消費者である人物を対象にアイディア交換、アンケート、投票等を実施する場合、そのアイディア交換の結果、投票結果は、アイディアを出し合った会員がどのような人物であるかによって結果に差異が生じる。したがって特許文献2に開示されているように、商品開発を行なう事業者は、どのような消費者を商品のターゲットとするかに応じてアンケートの対象人物を属性で絞り込むことが広く行われている。
しかしながら、開発対象の商品・サービスのターゲットとすべき消費者(需要者)を、性別、年齢、地域、嗜好を表わすキーワード等の属性情報によって絞り込む場合、いくつかの問題によって適切な人物を抽出できない可能性がある。まず、多様化する商品・サービスの開発においては、ターゲットとする消費者の人物像を属性情報で表現するには、その属性情報を膨大な数で分類する必要が生じる。したがって、一般消費者が自己申告でその属性情報を登録することが非常に煩雑となり、正確性が失われる。更に属性情報では各々の興味・関心の強さ、度合いを測ることは困難であり、淡く興味を持つ人物と、強く興味・関心を持つ人物との区別が難しい。したがって属性情報による抽出では、ターゲットとすべき人物像に合致するような人物、つまり対象の商品に本当に興味・関心を持つ人物以外の人物を抽出してしまう可能性がある。また、属性情報には時間的な要素が反映され難い。例えば既に興味を失っている分野のキーワードがその人物の属性情報として登録されたままとなっている場合、その時点では興味・関心を持たなくなっている人物が抽出される可能性がある。
本発明は斯かる事情に鑑みてなされたものであり、所望の人物像に即した人物を適切に抽出することを可能とする抽出装置及びコンピュータプログラムを提供することを目的とする。
本開示に係る抽出装置は、所望の人物像に対応するテキストコンテンツを受け付ける受付部と、複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースを記憶する記憶部と、前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と前記受付部で受け付けたテキストコンテンツとの間の類似度を算出する算出部と、該算出部が算出した類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出する抽出部とを備える。
本開示に係る抽出装置は、前記抽出部は、対応する類似度の高さの降順によって前記発信者識別情報をソートする。
本開示に係る抽出装置は、前記抽出部により抽出された発信者識別情報毎に、前記類似度の算出に係る情報、及び該類似度に寄与する複数の発信情報を表示するための表示情報を作成する作成部を更に備える。
本開示に係る抽出装置は、前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、前記算出部は、前記発信者毎に該発信者が発信した発信情報群を抽出し、抽出された発信情報群から、直近から所定の長さの期間に発信された発信情報群を絞り込み、絞り込まれた発信情報群を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する。
本開示に係る抽出装置は、前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、前記算出部は、前記発信情報データベースから抽出される発信情報夫々に、発信時刻が類似度の算出時点から近い順に高い数値となる重み付け係数を付与し、付与された重み付け係数を前記発信情報に含まれる言葉の出現回数に乗算し、前記発信者毎に、該発信者が発信した発信情報群に含まれる前記言葉及び該言葉の出現回数を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する。
本開示に係る抽出装置では、前記受付部は複数のテキストコンテンツを共に受け付け、前記算出部は、前記複数のテキストコンテンツ夫々について類似度を算出するか、又は前記複数のテキストコンテンツから導出される特徴を示す情報を用いて類似度を算出する。
本開示に係る抽出装置では、前記算出部は、前記発信情報又は前記受付部で受け付けたテキストコンテンツ夫々に含まれる言葉と、該言葉に関連する関連語が記録してある関連辞書から抽出される関連語とを用いて類似度を算出する。
本開示に係るコンピュータプログラムは、複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースに対し読み書きが可能なコンピュータに、前記発信者識別情報を抽出させるコンピュータプログラムであって、前記コンピュータに、所望の人物像に対応するテキストコンテンツを受け付けるステップ、前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と、受け付けたテキストコンテンツとの間の類似度を算出するステップ、算出された類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出するステップを実行させる。
本開示の抽出装置にあっては、テキストコンテンツに類似する発信情報を発信する発信者の発信者識別情報を抽出する処理によって、テキストコンテンツに合致する所望の人物像に即した人物を適切に抽出することが可能となる。
本発明をその実施の形態を示す図面に基づいて具体的に説明する。
図1は、本実施の形態に係る情報処理システムの概要を示す模式図である。情報処理システムは、サーバ装置1と、サーバ装置1に通信接続が可能なクライアント装置2,3とを含んで構成される。サーバ装置1は、複数の一般ユーザによるクライアント装置2を介したチャット、掲示板への書き込み、コメント、レビュー等のテキストコンテンツの投稿が可能なネットワークコミュニティ100を提供するサーバ機能を有する。そしてサーバ装置1は、ネットワークコミュニティ100上での複数の一般ユーザからの発信情報(発言、書き込み、音声、ブログ記事等)Vに基づき、商品開発者である特定ユーザが所望する人物像に合致した一般ユーザを抽出する処理を行なう抽出装置として機能する。
図1に示す例においては、商品開発者であるユーザDが、ブームとなっているある特定の食材を利用した独特な商品を開発するにあたって、商品のターゲットとなる一般ユーザの協力を得たいと考える。ネットワークコミュニティ100上のグルメに関するグループにて発言、書き込みを行なっている一般ユーザとして例えばユーザA,B,Cが存在する。ユーザAはその特定の食材を以前から非常に好ましく思っているものの本場の調理人が料理を提供する店、又は本場の地まで旅行に行って食べることを好む人物であるとする。ユーザBは、その特定の食材を含むブームとなっているものに広く興味を持ちつつ、普段から家庭で料理を頻繁に行なう人物であるとする。そしてユーザCは同じくその特定の食材を好むものの外食で楽しむことが多い人物であるとする。これに対し、商品開発者であるユーザDは、ブームとなっている食材に興味を持ち、且つ家庭での調理に馴染むユーザBのような人物の抽出を希望している。
このような場合、例えば対象とする特定の食材の名称を属性情報としてユーザを抽出すると、ユーザA及びユーザCを抽出できたとしても、その特定の食材に対して特別な強い関心を有していないユーザBは抽出されない可能性がある。本実施の形態に係る情報処理システムにおいては、属性情報を使用せず、ターゲットとしたいユーザが好みそうなテキストコンテンツSをユーザDからクライアント装置3を介して受け付け、このテキストコンテンツSを用いて抽出を行なう。テキストコンテンツSは、新聞、雑誌又は電子媒体における記事のみならず、音声又は動画をテキスト化したものであってもよい。図1に示す例では例えば、テキストコンテンツSはブームとなっている食材を家庭で栽培し、更に調理して食べる魅力についての記事である。サーバ装置1は、テキストコンテンツSとネットワークコミュニティ100でのユーザA,B,Cからの発信情報Vとに基づいて、ユーザDの所望のターゲットの人物像に近いと思われるユーザBを適切に抽出することができる。更にサーバ装置1がユーザDとユーザBとの間における連絡の契機を提供することにより、ユーザDは商品開発にユーザBの協力を得ることが可能となる。
このような適切な人物の抽出を実現するために情報処理システムにおけるサーバ装置1(抽出装置)は、例えば以下のような構成を有する。図2は、情報処理システムを構成する各装置の内部構成を示すブロック図である。サーバ装置1は、通信媒体4を介してクライアント装置2及び3と通信接続される。
通信媒体4は、LAN41、インターネット等の公衆網42、公衆網42へのアクセスポイント(AP)43、通信キャリアが提供するキャリアネットワーク44及び該キャリアネットワーク44へアクセスするための基地局45を含む。通信媒体4は、サーバ装置1、クライアント装置2,3間を有線又は無線により通信接続する。
サーバ装置1はサーバコンピュータを用い、制御部10、記憶部11、一時記憶部12及び通信部13を備える。制御部10はCPU(Central Processing Unit )、クロック等を用い、記憶部11に記憶されているサーバプログラム11P及び抽出プログラム12Pに基づいた各処理を実行し、汎用サーバコンピュータをコミュニティ提供サーバ及び抽出装置として機能させる。一時記憶部12はDRAM(Dynamic Random Access Memory)等の揮発性メモリを用いて制御部10の処理により生成される情報を一時的に記憶する。
記憶部11は、ハードディスクを用いてサーバプログラム11P及び抽出プログラム12Pのほか、制御部10が参照するデータを記憶する。また記憶部11は制御部10により作成されるネットワークコミュニティ100のユーザ情報をユーザ情報(発信者識別情報)DB111として記憶し、ネットワークコミュニティ100上での発信情報Vを発信情報DB112として記憶する。なおユーザ情報DB111及び発信情報DB112は、制御部10により情報の読み書きが可能であればその所在は限定されず、サーバ装置1外の記憶装置に記憶されている構成であってもよい。
サーバプログラム11Pは、サーバコンピュータをチャットサーバ、掲示板サーバ又はコンテンツ投稿サーバとしての機能を発揮させるためのサーバ用プログラムである。抽出プログラム12Pは、ユーザの識別情報を抽出するための後述にて説明する処理を制御部10に実行させるためのプログラムである。
通信部13は、通信媒体4に含まれるLAN41に接続されているネットワークカードである。制御部10は通信部13により、通信媒体4を介した通信が可能である。例えば制御部10はルータを介して公衆網42経由でクライアント装置2,3との通信接続が可能である。
クライアント装置2及びクライアント装置3は、スマートフォン、タブレット端末、デスクトップ型又はラップトップ型のPCを用いる。クライアント装置2,3は、ブックリーダと呼ばれる情報端末、ゲーム機、又はPDA等、通信媒体4を介した通信機能を有している情報端末であれば適用することが可能である。クライアント装置2及びクライアント装置3は基本的に同様の構成部を有し、制御部20(30)、記憶部21(31)、一時記憶部22(32)、表示部23(33)、操作部24(34)、音声入力部25(35)、及び通信部26(36)を備える。符号の相違は使用するユーザの種別の差異に応じたインタフェースの相違に対応する。共通する構成について以下クライアント装置2にて説明を行ない、相違するインタフェースについては後述する。
制御部20は、CPU、クロック等を含み、記憶部21に記憶されているクライアントプログラム2Pに基づいた各処理を実行し、汎用コンピュータをクライアント装置2として機能させる。一時記憶部22は、DRAM等の揮発性メモリを用いて制御部20の処理により生成される情報を一時的に記憶する。
記憶部21は、ハードディスク又はフラッシュメモリ等の不揮発性メモリを用いる。記憶部21はクライアントプログラム2Pのほか、Webブラウザプログラム等のクライアント用の汎用プログラムを記憶し、更に制御部20の読み書きする各種データを記憶する。
クライアントプログラム2Pは、後述するようにクライアント装置2の制御部20に各処理を実行させるプログラムである。クライアントプログラム2Pは、図示しない記録媒体に記録されてあるクライアントプログラムを読取部により読み出し、又は通信部26経由で取得し、記録したものであってもよい(いずれも図示せず)。
表示部23は、タッチパネル内蔵型ディスプレイを用いる。制御部20は、クライアントプログラム2Pに基づき、表示部23へテキスト及びアイコン等の画像を含む各種操作画面を表示する。表示部23は、タッチパネル内蔵型でないディスプレイでもよい。
操作部24は、表示部23のディスプレイに内蔵されるタッチパネル及びクライアント装置2の筐体に設けられるボタン群を用いる。クライアント装置2がPCである場合、操作部24はキーボード及びマウス等のユーザインタフェースを含む。操作部24は、ユーザによる操作情報を制御部20へ通知する。
音声入力部25はマイクロフォンである。制御部20は音声入力部25から音声を入力する。制御部20は、音声入力部25が入力した音声を音声認識によってテキスト化することが可能である。
通信部26は、LANケーブルと接続可能なネットワークカードを含んで公衆網42に接続しているか、又は基地局45に接続する通信規格に基づく無線通信モジュール及びAP43への接続に対応する無線通信モジュールを含む。制御部20は通信部26により、通信媒体4経由でサーバ装置1と通信接続が可能である。
そしてクライアント装置2、3の内、一般ユーザが使用するクライアント装置2では、クライアントプログラム2Pにより、サーバ装置1から提供されるネットワークコミュニティ100上の掲示板、チャットルームへの接続インタフェース(GUI)が提供される。ネットワークコミュニティ100は例えば、ユーザDが提供している各種商品について公衆網41に広く公開されている情報提供サイトから導かれるアンケートコミュニティであり、ログイン情報を有しているユーザの端末装置2のみが通信接続することが可能としてある。ユーザDのような事業者が使用するクライアント装置3では、アンケートコミュニティにおける種々の情報(アンケート、投票等)の集計結果が提示されるインタフェースが提供される。またクライアント装置3では、ネットワークコミュニティ100を提供するサーバ装置1の運営者との間で後述するような情報交換を実現するインタフェースが含まれる。
図3は、ユーザ情報DB111の内容例を示す説明図である。ユーザ情報DB111には、ネットワークコミュニティ100におけるユーザを相互に識別するユーザ識別情報(ユーザID)がユーザ名(表示名)、ログイン情報(パスワード等)と対応付けて1つのレコードとして記憶される。つまりユーザ情報DB111は、発信情報Vの発信者を識別する情報のデータベースに対応する。なおログイン情報は、ネットワークコミュニティ100へのログイン情報である。図3の説明図に示す例では、ユーザは一般ユーザと事業者ユーザとに区別されて分別可能なユーザ識別情報が夫々付与されている。図3の例では、一般ユーザには先頭が「0(ゼロ)」で始まる5桁の通し番号であるユーザ識別情報が付与され、事業者ユーザには8万番台の5桁の通し番号であるユーザ識別情報が付与されている。一般ユーザであるユーザA,B,C,Fには更に図3の説明図に示す例のように、ユーザ情報DB111は電子メールアドレス、住所等の連絡先情報、更にはログイン履歴等が記憶されてもよい。そして事業者ユーザであるユーザD,Eに対しても図3の説明図に示す例のように、電子メールアドレス、住所等の連絡先情報、更にはログイン履歴等が記憶されてもよい。更に1レコードには、ユーザの属性情報(性別、年齢(生年月日)、嗜好に関するアンケート結果)が共に記憶されていてもよい。
ネットワークコミュニティ100上での発信情報V、例えばチャット上での発言、掲示板への書き込み、商品レビュー、コメントは、発信情報DB112にその都度記憶される。図4は、発信情報DB112の内容例を示す説明図である。発信情報DB112には、発信情報Vの内容を示すテキストデータ、各発信情報Vを相互に識別する発信情報識別情報、及び夫々の発信者を識別するユーザ識別情報が対応付けて記憶される。そして図4に示すように、発信情報DB112には発信時刻(書き込み、投稿時刻)が対応付けて記憶されてもよい。
次に、サーバ装置1にてリクエストにより所望の人物像に合致する人物のユーザ識別情報を抽出する過程について説明する。図5は、サーバ装置1による抽出処理の手順の一例を示すフローチャートである。図5のフローチャートに示す処理手順は例えば、次の場合に開始される。まず事業者ユーザであるユーザDがクライアント装置3からネットワークコミュニティ100内にログインする。クライアント装置3の表示部33に表示される事業者用のログイン後のトップページには「抽出依頼」を受け付けるためのインタフェース表示が含まれ、この「抽出依頼」が選択された場合に開始される。又はネットワークコミュニティ100の管理者宛てに、テキストコンテンツSと共に抽出依頼を所定のフォーマットの電子メールが送信された場合にこれを受信するとサーバ装置1が以下の処理を開始してもよい。
クライアント装置3の表示部33には、「抽出依頼」を受け付けるインタフェースが表示される(ステップS301)。インタフェースは例えばWebページであり、アップロードするテキストコンテンツSの選択アイコンが含まれる。その他後述するような詳細な設定ページへのリンク(アイコン)が含まれてもよい。
制御部30は、表示されているインタフェースにてテキストコンテンツSの選択を受け付ける(ステップS302)。制御部30は、選択されたテキストコンテンツSを一般ユーザの抽出要求と共にサーバ装置1へ通信部36からアップロードする(ステップS303)。アップロードはテキストコンテンツSのデータそのものでもよいし、テキストコンテンツSへのリンク情報であってもよい。ステップS303にてクライアント装置3における処理は一旦終了する。
サーバ装置1の制御部10は、通信部13によりテキストコンテンツSを受け付ける(ステップS101)。ステップS101において制御部10は、クライアント装置3から送信されたテキストコンテンツSのデータが、記事そのものの文書データではなく、Webページへのリンク情報である場合には、リンク先から文書データをダウンロードする。また、クライアント装置3から送信されたテキストコンテンツSのデータは音声、動画であってもよく制御部10はここでテキスト化する処理を事前に行なうようにしてもよい。
制御部10は、受け付けたテキストコンテンツSに対して形態素解析を実施し(ステップS102)、テキストコンテンツSの特徴を示す情報を導出し(ステップS103)、記憶部11又は一時記憶部12に記憶しておく(ステップS104)。ステップS103における特徴を示す情報は例えば、頻出名詞及びその出現回数である。
次に制御部10は、記憶部11のユーザ情報DB111から一般ユーザに対応する複数のユーザ識別情報を取得し(ステップS105)、所定の条件に従って1つずつ選択する(ステップS106)。所定の条件とは例えば、ユーザ情報DB111に記録されているユーザ識別情報の全て、又は所定のグループ(掲示板、チャットルーム)に対応付けて記録されているユーザ識別情報等の条件である。その他、記録されている全期間若しくは直近所定期間(例えば1か月、3ヶ月等)を通して発信情報の数が所定数以上であるユーザ、又は直近1ヶ月に発信を行なっているユーザのみのユーザ識別情報等の条件であってもよい。更には所定のワードを含む発信情報を発信しているユーザ、所定期間にて所定ワードを含む発信情報を発信しているユーザのユーザ識別情報の条件であってもよい。
制御部10は、選択した1つのユーザ識別情報によって識別されるユーザを発信者とする発信情報V群を発信情報DB112から抽出し(ステップS107)、抽出した発信情報全てに対して形態素解析を実施する(ステップS108)。制御部10は、形態素解析の結果に基づき抽出された発信情報V群に基づき、選択されたユーザ識別情報のユーザから発信される発信情報の特徴を示す情報を導出し(ステップS109)、記憶部11又は一時記憶部12に記憶しておく(ステップS110)。ステップS109における特徴を示す情報とは、ステップS103で導出される特徴の情報と以後のステップS111にて比較することが可能なものであり、例えば場合頻出名詞及びその出現回数である。
制御部10は、テキストコンテンツSの特徴を示す情報と抽出した発信情報の特徴を示す情報とを比較し、類似度を算出し、ユーザ識別情報と対応付けて算出した類似度を記憶部11又は一時記憶部12に記憶する(ステップS111)。類似度は例えば、所定の出現回数以上の名詞を各成分とするベクトル化したもの同士でコサイン類似度を算出するか、又はユークリッド距離を算出して求める。類似度の算出はこれに限られず、自然言語処理にて言葉同士の類似度、関連度等を判断するための公知発明を利用してもよい。
次に制御部10は、前記所定の条件に合致するユーザのユーザ識別情報を全て選択したか否かを判断する(ステップS112)。未選択のユーザ識別情報があると判断された場合(S112:NO)、制御部10は処理をステップS106へ戻し、所定の条件に従って次のユーザ識別情報を選択する(S106)。
ステップS112にて全て選択したと判断された場合(S112:YES)、制御部10は、類似度が高い順に、該類似度が対応付けられているユーザ識別情報をソートする(ステップS113)。制御部10は、類似度が高い順にソートしたユーザ識別情報を例えば上位30件までに絞り込む等した抽出結果をクライアント装置3へ向けて通信部13から送信し(ステップS114)、抽出処理を終了する。ステップS114の抽出結果の送信は、事業者ユーザのログイン後のトップページから参照可能なWebページ(そのリンク情報)として作成されてから送信されるか、作成されたレポート又はWebページへの事業者ユーザ宛ての電子メールにてリンク情報として送信されるなど種々の方法が考えられる。
クライアント装置3では、制御部30が通信部36から抽出結果を受信し、受信した抽出結果を出力し(ステップS304)、処理を終了する。ステップS304における抽出結果の出力は、表示部33における表示、又は通信部36からの印刷媒体への印刷データの送信及びこれによる印刷出力が含まれる。また音声出力部を用いた読み上げ音声の出力が含まれてもよい。
なおステップS105〜ステップS110及びステップS112の処理は、ネットワークコミュニティ100上で所定の期間が経過する都度、バッチ処理によって実施しておくようにしてもよい。バッチ処理は例えば1日に一度、発信の頻度が少ない時間帯等、通信負荷及び処理負荷が少ない時間帯に行なわれるとよい。この場合、ユーザ識別情報に対応付けて特徴を示す情報が記憶部11に記憶され、バッチ処理により更新される。そして制御部10はテキストコンテンツSを受け付けた場合に、ユーザ識別情報を1つずつ選択し、選択したユーザ識別情報に対応付けて記憶されている発信情報の特徴を示す情報とテキストコンテンツSの特徴を示す情報との類似度を全ユーザに対して算出する。これにより、例えば異なるテキストコンテンツSを受け付ける都度行なわれるユーザ毎の特徴を示す情報の導出処理の重複を回避することでサーバ装置1における処理負荷を軽減することができ、更にテキストコンテンツSのアップロードからの応答が迅速化する。
また、テキストコンテンツSの受け付け(ステップS101)と、発信情報DB112の作成との順序は、上述した例には限られない。図5のフローチャートにおいては発信情報DB112が作成されてから、即ち発信情報Vが蓄積されてから、テキストコンテンツSが受け付けられるという順序であった。しかしながら、予めテキストコンテンツSが受け付けられて記憶部11に記憶された状態としておき、制御部10はその後発信される発信情報VについてテキストコンテンツSとの類似度の算出を行なうようにしてもよい。
(実施例)
上述した実施の形態について具体例を挙げて説明する。
図6は、発信情報Vの内容例を示す説明図である。図6は、図1に示したネットワークコミュニティ100の具体例におけるユーザA,B,Cの発信情報(掲示板での会話)Vを時系列に示している。図6に示す例では、最近食べたものとして「パクチー」が挙げられており、昨今ブームとなっている「パクチー」に関する発信情報Vが示されている。
上述した実施の形態について具体例を挙げて説明する。
図6は、発信情報Vの内容例を示す説明図である。図6は、図1に示したネットワークコミュニティ100の具体例におけるユーザA,B,Cの発信情報(掲示板での会話)Vを時系列に示している。図6に示す例では、最近食べたものとして「パクチー」が挙げられており、昨今ブームとなっている「パクチー」に関する発信情報Vが示されている。
図7は、テキストコンテンツSの内容例を示す説明図である。テキストコンテンツSは例えば、「パクチー」についての記事であり、特に家庭においてパクチーを用いた料理を作って食べることの魅力についての記事である。ブームとなっているパクチーの食材を利用した独特な商品(例えば料理キット)を開発する事業者ユーザであるユーザDは、テキストコンテンツSに興味を示す人物へ商品開発への協力を依頼したいと考えているとする。本実施の形態に係る情報処理システムを利用することでユーザDは、事業者ユーザとしてネットワークコミュニティ100へログインした後のトップページから「抽出依頼」を選択してテキストコンテンツSをアップロードさせる操作を行なえばよい。
図6に示した発信情報V群が発信情報DB112に記録されている状態で、図7に示したテキストコンテンツSがアップロードされた場合、サーバ装置1ではテキストコンテンツS(及びリンク先)からは以下のような頻出名詞及びその出現回数のリストが特徴を示す情報として導出される。
(パクチー, 25回)
(うちパク, 10回)
(栽培 , 5回)
(料理 , 3回)
(パクチー, 25回)
(うちパク, 10回)
(栽培 , 5回)
(料理 , 3回)
そして図6に示した発信情報V群の内、ユーザ識別情報が「00003」であるユーザ(ユーザ名「userB」)を発信者とする発信情報V群(図6に示す発信情報V以外も含む)からは以下のような頻出名詞及びその出現回数のリストが特徴を示す情報として導出される。
(パクチー,110回)
(うちパク, 25回)
(栽培 , 10回)
(料理 , 5回)
(パクチー,110回)
(うちパク, 25回)
(栽培 , 10回)
(料理 , 5回)
上述の例では頻出名詞が重複しているため、例えば出現回数が5回以上の頻出名詞によるコサイン類似度で算出される類似度は「1」となる。
実施例においてサーバ装置1の制御部10は、図5のフローチャートに示したステップS114における抽出処理の結果の送信の際に、クライアント装置3にて表示するため表示情報(画面データ)を作成し、抽出処理の結果としてその表示情報をクライアント装置3宛てに送信(出力)する。図8は、抽出結果を表示させる表示情報を制御部10が作成する作成処理の手順の一例を示すフローチャートである。
制御部10は、上述の図5のフローチャートに示した手順の内、ステップS113にて類似度が高い順にソートされたユーザ識別情報を例えば上位30件までに絞り込む(ステップS401)。
制御部10は、絞り込まれたユーザ識別情報から、類似度が高い順に1つずつ選択し(ステップS402)、選択されているユーザ識別情報のユーザ名をユーザ情報DB111から読み出して表示情報へ文字情報(又は画像)として出力する(ステップS403)。次に制御部10は、選択されているユーザ識別情報に対応付けて記憶されている類似度を表す数値情報を表示情報へ文字情報(又は画像)として出力する(ステップS404)。更に制御部10は、選択されているユーザ識別情報が発信した発信情報V群の内の所定数の発信情報Vを主要コメントとして選抜し、表示情報へ出力する(ステップS405)。
ステップS405において制御部10はまず、頻出名詞として特定された名詞をより多く含む発信情報Vを選抜し、更にその内でも、異なる頻出名詞をより多く含む発信情報Vを選抜する。選抜した結果が所定数以内である場合には、制御部10は選抜した結果を主要コメントとしてもよいし、所定数を超える数分だけ選抜された場合には、例えば発信時刻が最近の発信情報Vを優先的に選抜するようにしてもよい。このように制御部10は、抽出された発信情報Vに対し、頻出名詞数、頻出名詞種類数及び発信時刻に応じて更に優先順位を付与し、上位の所定数分だけを主要コメントとして選抜するとよい。
制御部は上位から所定数のユーザ識別情報を選択したか否かを判断し(ステップS406)、選択していないと判断された場合(S406:NO)、処理をステップS402へ戻して次に類似度が高いユーザ識別情報を選択する。
ステップS406にて選択したと判断された場合(S406:YES)、制御部10は、表示情報をWebページのデータ、又はpdf等のイメージ文書のデータとして出力し(ステップS407)、作成処理を終了する。
図9は、制御部10により作成された表示情報に基づきクライアント装置3の表示部33にて表示される画面例を示す説明図である。図9に示す例は、図7のテキストコンテンツSに基づき図6に示した発信情報V群を含むネットワークコミュニティ100上の発信情報Vに対して行なった抽出処理の結果(S114)に対応する。そして図8のフローチャートに示した手順により抽出処理の結果として作成される表示情報に基づき表示される画面の一例である。図9の例に示すように、表示情報に基づき表示される画面には、類似度が高い順にユーザ識別情報を表示させ、ユーザ識別情報毎に、類似度の算出結果、及び類似度に寄与する頻出名詞を含む主要な発信情報Vが複数含まれている。
図9に示す例において最も類似度が高いとして抽出されたユーザ識別情報が「00003」(ユーザ名「userB」)であるユーザBは、図6に示した会話例から分かるように、家庭においてパクチーを用いた料理に意欲を持つユーザである。更にユーザBは、図6に示している会話例から、後に「今日は友達とうちパク!」と「うちパク」を実践していることが窺える。つまり、図7のテキストコンテンツSに興味を示しそうなユーザであり、事業者ユーザであるユーザDがイメージする人物像に合致していると言える。このようにイメージする人物像に合いそうなテキストコンテンツSをアップロードするという容易な操作によって、適切な人物のユーザ識別情報の抽出が実現される。この際にユーザDは、属性情報に対応するキーワードの登録等の操作を行なう必要がない。
なお図5のフローチャートの説明及び図6〜図9の具体例を参照した説明では、特徴を示す情報を頻出名詞及びその出現回数とした。しかしながら形態素解析の実施結果に基づき導出される特徴の情報はこれに限らない。例えば後述するように、頻出名詞の関連語を登録してある関連辞書を参照して関連語をも含む言葉を各成分としたベクトルを求めて特徴を示す情報としてもよい。又は、頻出名詞のTF−IDF(Term Frequency-Inverse Document Frequency )を算出して特徴を示す情報としてもよい。その他自然言語処理の技術にて行なわれている方法で得られる情報であってもよい。
(変形例1)
図4には、発信情報DB112は、発信情報Vに発信時刻を対応付けて記憶する例を示した。変形例1においてサーバ装置1の制御部10による抽出処理では、この発信時刻を用いる。図10は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図10のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図10では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
図4には、発信情報DB112は、発信情報Vに発信時刻を対応付けて記憶する例を示した。変形例1においてサーバ装置1の制御部10による抽出処理では、この発信時刻を用いる。図10は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図10のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図10では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
変形例1においてサーバ装置1の制御部10は、ステップS107にて発信情報DB112から抽出された発信情報V群から更に、対応付けられて記憶されている発信時刻に基づき、直近の所定期間に発信された発信情報V群に絞りこむ(ステップS121)。直近の所定期間とは例えば、テキストコンテンツSのアップロード時点(ステップS101にて受け付けた日時)から3ヶ月等である。なお「直近」とは、厳密にテキストコンテンツSを受け付けた時刻を基準とするものとは限らず、過去の発言を除外するという意味で解釈されるべきである。
制御部10は、絞り込んだ発信情報V群に含まれる発信情報V夫々について、対応付けられている発信時刻に基づいて時系列に最近のものほど高い数値となる重み付け係数を付与する(ステップS122)。ステップS122において制御部10は例えば、直近1週間以内に発信された発信情報Vには係数1.0、直近1週間超から2週間以内に発信された発信情報Vには係数0.9を付与する。そして直近2週間超から3週間以内に発信された発信情報Vには係数0.8を付与し、直近3週間超から3か月以内に発信された発信情報Vには均等に係数0.5を付与するなどしてもよい。
そしてステップS109における特徴を示す情報の導出において制御部10は、発信情報Vから形態素解析により得られた言葉、例えばその名詞の出現回数に、ステップS122で付与された重み付け係数を乗算し、出現回数の総計に重み付けを作用させる。例えば直近1週間以内、直近1週間超から2週間以内、直近2週間超から3週間以内、及び直近3週間超から3ヶ月以内夫々に1回ずつ「パクチー」を含む発信情報Vが発信されている場合、出現回数は「4」ではなく以下のように算出される。なお係数は上述の例(1.0,0.9,0.8,0,5)を用いるがこの限りではないことは勿論である。
(1×1.0+1×0.9+1×0.8+1×0.5)=3.2回
これにより、単に出現回数を発信情報Vの記憶が開始されてからの全期間で同一の重み付けで計数するよりも、できる限り最近の発信情報Vに含まれる言葉をより重く抽出して類似度を算出することが可能になる。この場合、テキストコンテンツSがアップロードされたタイミングと同時期にテキストコンテンツSに興味を示しそうな人物のユーザ識別情報を抽出することが可能になる。
(1×1.0+1×0.9+1×0.8+1×0.5)=3.2回
これにより、単に出現回数を発信情報Vの記憶が開始されてからの全期間で同一の重み付けで計数するよりも、できる限り最近の発信情報Vに含まれる言葉をより重く抽出して類似度を算出することが可能になる。この場合、テキストコンテンツSがアップロードされたタイミングと同時期にテキストコンテンツSに興味を示しそうな人物のユーザ識別情報を抽出することが可能になる。
(変形例2)
変形例2では、サーバ装置1の制御部10は複数のテキストコンテンツSを受け付けて抽出処理を行なう。図11は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図11のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図11では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
変形例2では、サーバ装置1の制御部10は複数のテキストコンテンツSを受け付けて抽出処理を行なう。図11は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図11のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図11では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
変形例2においてサーバ装置1の制御部10は、複数のテキストコンテンツSを受け付ける(ステップS131)。
複数のテキストコンテンツSを受け付ける変形例2においては、ステップS103におけるテキストコンテンツSの特徴を示す情報の導出に際し、自然言語処理で用いられる文書における特徴語を導出するTF−IDFを用いることができる。この場合制御部10は、ステップS109にて抽出された発信情報Vの特徴を示す情報を導出するに際し同様にTF−IDFを用いて特徴語及びそのTF−IDFを算出するとよい。なおTF−IDFの算出は必須ではなく、複数のテキストコンテンツS夫々に対して頻出名詞及び出現回数を導出してもよいし、複数のテキストコンテンツSを1つのテキストコンテンツSとみなして頻出名詞及びその出現回数を導出するようにしてもよい。
変形例2では、ステップS110にて導出された発信者であるユーザ毎の発信情報V群の特徴を示す情報を記憶した後に制御部10は、ステップS131で受け付けた複数のテキストコンテンツSと、ステップS110にて記憶したユーザ毎の発信情報V群との類似度を算出する(ステップS132)。
ステップS132において制御部10は、上述したようにTF−IDFを用いる場合には複数のテキストコンテンツSから導出されるTF−IDFと、ユーザ毎の発信情報V群から導出されるTF−IDFとの間でコサイン類似度を算出するとよい。またステップS132において制御部10は、TF−IDFを用いることなしに、ステップS103にて複数のテキストコンテンツS夫々について特徴を示す情報を導出した場合には、ステップS132では各々についてユーザ毎の発信情報V群との類似度を算出する。更に制御部10は、TF−IDFを用いることなしに、ステップS103にて複数のテキストコンテンツSを1つのテキストコンテンツとみなして特徴を示す情報を導出している場合には、ステップS132ではユーザ毎の発信情報V群から導出される特徴情報との類似度を1つ算出する。
複数のテキストコンテンツSは、内容(テーマ)がほぼ同一であるテキストコンテンツS同士でもよいし、内容が同一でないテキストコンテンツS同士であってもよい。例えば内容が同一である複数のテキストコンテンツSとしては図7に示した「パクチー」についての記事と、同じように「パクチー」を家庭で食べることについての他の異なる記事との組み合わせである。内容が同一である複数のテキストコンテンツSを用いる場合には、TF−IDFを用いてより重要な特徴語のみで発信情報V群との類似度を測定し、高精度に類似度を算出することが可能となる。
内容が同一でないテキストコンテンツS同士とは例えば、図7に示した「パクチー」についての記事と、「タイ旅行」についての記事との組み合わせである。内容が同一でない複数のテキストコンテンツSを用いる場合には、制御部10は複数のテキストコンテンツSを1つのテキストコンテンツとみなして頻出名詞及びその出現回数を導出して類似度を算出するか、又は複数のテキストコンテンツS夫々について類似度を算出してもよい。複数のテキストコンテンツS夫々について類似度を算出する場合には、制御部10はいずれの類似度も所定の度合い以上で高いと判断されるユーザ識別情報を抽出するとよい。これにより、異なる記事のいずれにも興味を示すようなユーザを的確に絞り込んで抽出することが可能となる。
このように複数のテキストコンテンツSを受け付ける抽出処理により、より精度の高い類似度の算出が可能になったり、所望の人物像に合致するユーザのユーザ識別情報を的確に抽出することが可能になったりすることが期待される。
(変形例3)
変形例3では、テキストコンテンツS及び発信情報V夫々について、実際に含まれる言葉(頻出名詞)のみならず、関連語も用いて類似度を算出して抽出処理を行なう。変形例3では記憶部11又は外部装置に関連辞書が記憶されており、制御部10から読み出しが可能である。図12は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図12のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図12では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
変形例3では、テキストコンテンツS及び発信情報V夫々について、実際に含まれる言葉(頻出名詞)のみならず、関連語も用いて類似度を算出して抽出処理を行なう。変形例3では記憶部11又は外部装置に関連辞書が記憶されており、制御部10から読み出しが可能である。図12は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図12のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図12では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
変形例3においてサーバ装置1の制御部10は、ステップS107にて発信情報DB112から抽出された発信情報V群に対して形態素解析を実施し(S108)、発信情報V群に含まれる言葉の関連語を関連辞書から取り出す(ステップS141)。制御部10は、形態素解析により得られる発信情報V群に含まれる言葉のみならず、関連語をも用いて発信情報V群の特徴を示す情報として導出する(ステップS142)。ステップS142について例えば制御部10は、頻出名詞として関連語も同一の出現回数を対応付けて抽出するか、又はTF−IDFを算出するに際し、関連語をも特徴語に含むようにしてもよい。
なおここでいう「関連語」は、同義語、共起語等を含む。例えば関連辞書は、「パクチー」の同義語の「コリアンダー」「香菜」等を関連語として含む。また関連辞書は、「パクチー」の関連語として共起語である「タイ料理」、「タイ」等を含んでもよい。
そして制御部10は、発信情報V群の特徴を示す情報を記憶した後(S110)、発信情報V群の関連語を用いてテキストコンテンツSと発信情報V群との間の類似度を算出し、ユーザ識別情報と対応付けて算出した類似度を記憶部11又は一時記憶部12に記憶する(S143)。ステップS143にて具体的には、制御部10は、テキストコンテンツSにて所定の出現回数以上の出現する頻出名詞を各成分としてベクトル化したものと、発信情報V群に出現する頻出名詞及び関連語を各成分としてベクトル化したものとの間でコサイン類似度を算出する。ユークリッド距離を算出してもよい。
なお関連語については、ステップS103における受け付けたテキストコンテンツSに対しても、テキストコンテンツSに含まれる言葉の関連語を関連辞書から取り出して該テキストコンテンツSの特徴を示す情報として用いるようにしてもよい。関連語の取り出しは、テキストコンテンツS及び発信情報V群のいずれか一方のみならず、両者に対して行なうようにしてもよい。
このように関連語を用いた抽出処理により、本来は同義語であっても使われ方が異なるのみで類似の判断から除外されてしまうような関連語も考慮して類似度を求めたり、関連する他の用語が共通の場合により類似度を高く算出したりすることを可能とする。これにより、所望の人物像に合致するユーザのユーザ識別情報を的確に、精度良く抽出することが可能になる。
なお、上述の変形例1〜3は、任意の2つ又は全部を組み合わせた形態としても実現することが可能である。
上述した実施の形態においてネットワークコミュニティ100は、上述にて示したアンケートコミュニティのような参加者が限定されているものに限らず、Twitter(登録商標)、FaceBook(登録商標)、ブログ等の広く公開されるSNSであってもよい。したがって、商品・サービスについてのアンケートのみならず、商品・サービス、更にはテレビジョン放送、ラジオ放送による放送内容等に対する感想等を含む種々の発信情報を用いて広く、ターゲットとなる人物を識別する情報を抽出することも可能である。このとき、発信された情報の内、SNSで使用される「タグ」として意図的に付けられている情報は除外する工程を経てから抽出を行なうようにしてもよい。これにより、「タグ」の内容に左右されず、潜在的にターゲットとなるべき人物を抽出することができる。更には、ネットワークコミュニティ100は商品開発に係るアンケート調査の場であるのみならず、就職活動、転職活動、その他人材マッチングサービスにおける情報交換の場であってもよい。就職活動、転職活動、その他人材マッチングサービスに適用することによって、人事担当者、又はマッチングサービスの管理者がイメージする所望の人物像に合致するユーザの抽出が可能である。
また本開示では、上述したようにネットワークコミュニティ100上での通信媒体を介した発信情報により、適切な人物を抽出する構成とした。しかしながら本願発明はこれに限らず、1つの集音装置にて複数の人物による対話を録音し、録音情報をテキスト化したものを発信情報とするか、又はテキスト化されているインタビュー記事を発信情報としても適用することが可能である。この場合対話に参加した人物、インタビューに答えた人物夫々を識別する識別情報データベースを作成し、夫々からの発言のテキストデータを発信情報として発信情報データベースを作成する。そして所望の人物に対応するテキストテキストコンテンツSを用いて図5のフローチャートの処理を行なう。これにより、ネットワークコミュニティ100のような仮想空間での発信情報のみならず、実空間での対話、又は紙媒体における発信情報から適切な人物の識別情報を抽出することも可能である。
なお、上述のように開示された本実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 サーバ装置(抽出装置)
10 制御部
11 記憶部
111 ユーザ情報DB(発信者識別情報データベース)
112 発信情報DB(発信情報データベース)
12 一時記憶部
13 通信部
2,3 クライアント装置
20,30 制御部
23,33 表示部
26,36 通信部
10 制御部
11 記憶部
111 ユーザ情報DB(発信者識別情報データベース)
112 発信情報DB(発信情報データベース)
12 一時記憶部
13 通信部
2,3 クライアント装置
20,30 制御部
23,33 表示部
26,36 通信部
Claims (8)
- 所望の人物像に対応するテキストコンテンツを受け付ける受付部と、
複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースを記憶する記憶部と、
前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と前記受付部で受け付けたテキストコンテンツとの間の類似度を算出する算出部と、
該算出部が算出した類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出する抽出部と
を備えることを特徴とする抽出装置。 - 前記抽出部は、対応する類似度の高さの降順によって前記発信者識別情報をソートする
ことを特徴とする請求項1に記載の抽出装置。 - 前記抽出部により抽出された発信者識別情報毎に、前記類似度の算出に係る情報、及び該類似度に寄与する複数の発信情報を表示するための表示情報を作成する作成部
を更に備えることを特徴とする請求項1又は2に記載の抽出装置。 - 前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、
前記算出部は、
前記発信者毎に該発信者が発信した発信情報群を抽出し、
抽出された発信情報群から、直近から所定の長さの期間に発信された発信情報群を絞り込み、
絞り込まれた発信情報群を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 - 前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、
前記算出部は、
前記発信情報データベースから抽出される発信情報夫々に、発信時刻が類似度の算出時点から近い順に高い数値となる重み付け係数を付与し、
付与された重み付け係数を前記発信情報に含まれる言葉の出現回数に乗算し、
前記発信者毎に、該発信者が発信した発信情報群に含まれる前記言葉及び該言葉の出現回数を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 - 前記受付部は複数のテキストコンテンツを共に受け付け、
前記算出部は、前記複数のテキストコンテンツ夫々について類似度を算出するか、又は前記複数のテキストコンテンツから導出される特徴を示す情報を用いて類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 - 前記算出部は、
前記発信情報又は前記受付部で受け付けたテキストコンテンツ夫々に含まれる言葉と、該言葉に関連する関連語が記録してある関連辞書から抽出される関連語とを用いて類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 - 複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースに対し読み書きが可能なコンピュータに、前記発信者識別情報を抽出させるコンピュータプログラムであって、
前記コンピュータに、
所望の人物像に対応するテキストコンテンツを受け付けるステップ、
前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と、受け付けたテキストコンテンツとの間の類似度を算出するステップ、
算出された類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出するステップ
を実行させることを特徴とするコンピュータプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016203564A JP2018067041A (ja) | 2016-10-17 | 2016-10-17 | 抽出装置及びコンピュータプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016203564A JP2018067041A (ja) | 2016-10-17 | 2016-10-17 | 抽出装置及びコンピュータプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2018067041A true JP2018067041A (ja) | 2018-04-26 |
Family
ID=62086158
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016203564A Pending JP2018067041A (ja) | 2016-10-17 | 2016-10-17 | 抽出装置及びコンピュータプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2018067041A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020149451A (ja) * | 2019-03-14 | 2020-09-17 | 株式会社ビデオリサーチ | データ処理装置及びデータ処理方法 |
| JP2021033389A (ja) * | 2019-08-16 | 2021-03-01 | 風本 真吾 | 情報処理システム |
-
2016
- 2016-10-17 JP JP2016203564A patent/JP2018067041A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020149451A (ja) * | 2019-03-14 | 2020-09-17 | 株式会社ビデオリサーチ | データ処理装置及びデータ処理方法 |
| JP2021033389A (ja) * | 2019-08-16 | 2021-03-01 | 風本 真吾 | 情報処理システム |
| JP7557844B2 (ja) | 2019-08-16 | 2024-09-30 | 真吾 風本 | 情報処理システム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Sen et al. | A total error framework for digital traces of human behavior on online platforms | |
| US10567580B1 (en) | Sentiment management system | |
| US9646096B2 (en) | System and methods for analyzing and improving online engagement | |
| US9965462B2 (en) | Systems and methods for identifying and recording the sentiment of a message, posting, or other online communication using an explicit sentiment identifier | |
| US9626545B2 (en) | Semantic note taking system | |
| CN101923563B (zh) | 信息处理设备、信息处理方法 | |
| US9659103B2 (en) | Auto-aligning website elements by grouping elements based on a plurality of contextual indicators | |
| JP6217228B2 (ja) | 情報提供装置、プログラム及び情報提供システム | |
| US11080287B2 (en) | Methods, systems and techniques for ranking blended content retrieved from multiple disparate content sources | |
| US11232522B2 (en) | Methods, systems and techniques for blending online content from multiple disparate content sources including a personal content source or a semi-personal content source | |
| US20130304469A1 (en) | Information processing method and apparatus, computer program and recording medium | |
| US20140067544A1 (en) | Providing offer(s) to users in a social networking system based on compatibility of the users with the offer(s) | |
| US20140201292A1 (en) | Digital business card system performing social networking commonality comparisions, professional profile curation and personal brand management | |
| CN110162717A (zh) | 一种推荐好友的方法和设备 | |
| US10984488B1 (en) | Predictive compatibility matching platform | |
| US20150347578A1 (en) | System and methods for auto-generating video from website elements | |
| JP2014167722A (ja) | 商品情報提供システムおよび商品情報提供用プログラム | |
| US9251297B2 (en) | Semantic note taking system | |
| US11693911B2 (en) | System and method for managing relationships by identifying relevant content and generating correspondence based thereon | |
| JP7152124B1 (ja) | プログラム、情報処理装置、方法、及びシステム | |
| US20230196247A1 (en) | Communication apparatus, communication method, and program | |
| JP2020126392A (ja) | 選択装置、選択方法および選択プログラム | |
| KR100478924B1 (ko) | 다수의 검색 기준을 이용한 커뮤니티 검색 서비스 시스템 및 그 검색 방법 | |
| KR20260006528A (ko) | 이모티콘 기반 사용자 감정 추적 방법, 이를 구현한 서버, 사용자 단말 및 어플리케이션 | |
| JP2013214133A (ja) | 情報処理装置、情報処理方法及びプログラム |