WO2013077000A1

WO2013077000A1 - ボイスリンクシステム

Info

Publication number: WO2013077000A1
Application number: PCT/JP2012/007607
Authority: WO
Inventors: 雄一郎板倉
Original assignee: Synergy Drive Inc
Current assignee: Synergy Drive Inc
Priority date: 2011-11-27
Filing date: 2012-11-27
Publication date: 2013-05-30
Anticipated expiration: 2014-05-27
Also published as: CN104067602A; JPWO2013077000A1; KR20140097432A; KR101659674B1; EP2787718A1; JP6101973B2; EP2787718A4; US20140325395A1; CN104067602B

Abstract

　音声に特化し、Ｗｅｂ上の空間で会話を楽しめる音声版のソーシャルネットワークサービスシステムを提供する。複数のクライアント端末と少なくとも１台のサーバーがネットワークを介して接続されるシステムである。サーバーは、仮想ルーム属性情報記憶手段と、クライアント端末から受信する音声データを仮想ルーム毎に仕分けし、同一仮想ルームの音声データを仮想ルームに関連付けして、当該仮想ルームを選択している全てのクライアント端末に配信する。

Description

ボイスリンクシステム

　本発明は、インターネットなどネットワークを介した音声版のソーシャルネットワークサービスシステム（以下、ボイスリンクシステムという）の技術に関するものである。

　一般的に、人を説得する力・ニュアンスを正確に伝える力は、文字よりも音声の方が圧倒的に勝っている。それ故、従来の文字主体のソーシャルメディアでは、その力に限界がある。そのため、音声の持つ力を十分に発揮できるＷｅｂアプリケーションが求められている。
　音声を主体とする従来の会議通話システムは、複数の通信端末間を接続するネットワークが存在し、それにより通信端末は通話やその他の通信イベントにより相互に情報を送受信できる。このようなデータ伝送に適した代表的なネットワークとして、インターネットが知られている。インターネットにおいて、音声データを伝送するのに利用されるプロトコルは、ＶｏｉｃｅｏｖｅｒＩＰ（ＶｏＩＰ）と呼ばれる。ＶｏＩＰは、インターネット、あるいはＩＰ（インターネット・プロトコル）ベースのネットワークを介する音声会話のルーティングを行うものである。

　従来の会議通話システムの場合、２台以上のクライアント端末が会議通話を行うとすると、それぞれのクライアント端末の音声データ信号をサーバーに送信し、サーバーがそれぞれのクライアント端末から送られた音声データ信号を合成する。合成された音声データ信号はそれぞれのクライアント端末に送信される。この場合、サーバーは、会議へ参加するクライアント端末以外に、ネットワーク上に存在する会議の傍聴者のクライアント端末に対しても、合成した音声データ信号を送信することができる。ここで、傍聴者とは、会議通話を聞くだけで、発話を行わない者を意味する。
　上記のような会議通話において合成した音声データ信号は、そのままファイルとしてサーバーコンピュータに保存され、必要に応じてクライアント端末に対して例えばストリーミングデータファイルとして送信される。

　しかしながら、従来の会議通話システムでは、会議通話内容を多くの傍聴者に聞かせる仕組みが十分ではない。また、傍聴者が興味ある会議通話内容を見出す仕組みも十分ではない。上述したように、従来の文字主体のソーシャルメディアでは、その力に限界があり、音声の持つ力を十分に発揮できるソーシャルメディアシステムが熱望されている。

　テレビ番組でも人気が高い深夜から朝方まで討論し合う某討論番組などは、討論者は円卓テーブル等に着座してテーマに応じて自由に発言し、テーマ進行を管理する司会者というよりも、討論者の発言を促すような呼びかけを行うための取り纏め役の方が居て、討議内容を盛り上げている。そして、討議内容を聴講する傍聴者が存在し、討議テーブルの周囲の外側の客席に着座している。このような討論番組では、討論テーマについて討論者が自由に発言し、それらの発言内容をその場にいる傍聴者（第１のリスナー）やテレビ画面を通じてのテレビ視聴者（第２のリスナー）が聞いて、情報を共有する形態になっている。討論者は身振り手振りするが、基本的には着座したまま喋るだけである。スライドも使用する場面もあるが、殆ど必要としない。その場にいる傍聴者（第１のリスナー）やテレビ視聴者（第２のリスナー）は討議者の発言内容に興味がある。

　今後、インターネット上で各種の討議テーマについて議論される会議通話の機会（ディベート大会、ファン間の交流会、語学教育、１対１あるいは複数人での公開トーク、１対１あるいは複数人でのシークレットトークなどを含む）が益々増加することが予想される。また、インターネット上で各種の問題やテーマについて自らの考え等を自らの音声で発言していく機会（各種セミナー、講義、アーティストからファンへのメッセージ、落語などを含む）が益々増加することが予想される。それぞれの会議通話の場を、多くの傍聴者が聴講できる環境整備が要求されているのである。

特表２００７－５０７１９０号公報特開２００５－２６９３４７号公報特開２０１０－０９３４７９号公報

　上記状況に鑑みて、本発明は、音声に特化し、Ｗｅｂ上の空間で会話を楽しめるソーシャルネットワークサービスシステムを提供することを目的とする。

　上記目的を達成すべく、本発明のボイスリンクシステムは、複数のクライアント端末と少なくとも１台のサーバーがネットワークを介して接続されるシステムであって、
　クライアント端末は、仮想ルームを選択するルーム選択手段と、選択された仮想ルームに関連付けされた音声データを受信する音声データ受信手段と、音声データを出力する音声データ出力手段とを備える。
　そして、クライアント端末が発話者端末の場合、更に、収音した音声を音声データとしてサーバーに送信する音声データ送信手段、を備える。
　また、サーバーは、仮想ルームの属性情報を記憶するルーム属性記憶手段と、発話者端末からの音声データを受信する音声データ受信手段と、ネットワークを介して発話者端末から受信する音声データを仮想ルーム毎に仕分けし、同一仮想ルームの音声データを、当該仮想ルームを選択したクライアント端末に送信する音声データ配信手段とを備える。

　本発明のボイスリンクシステムは、その名の如く、ボイス（声）をリンクする（繋げる）ことができるシステムである。本発明のボイスリンクシステムでは、ネットワークを介してクライアント端末から受信する音声データを配信するサーバー上に、“ルーム”と呼ばれる仮想的なルームを構築する。ここで、ルームは、複数人で討論する会議を行う会議室として利用できるのみならず、一人で講演を行うセミナールームの意味合いも含まれる。会議通話には、討論や打合せのみならず、講演や通常の会話が含まれる。

　本発明のボイスリンクシステムは、複数のクライアント端末と少なくとも１台のサーバーがネットワークを介して接続される。クライアント端末は、発話を行わない傍聴者としての傍聴者端末と、ルーム内で発話を行うことができる発話者端末に大きく大別される。傍聴者としてのクライアント端末の場合、サーバー上の仮想ルームの一覧を表示して、サーバー上の仮想ルームを選択する手段（ルーム選択手段）と、サーバー上の仮想ルームに関連付けされた音声データを受信する手段（音声データ受信手段）と、音声データを出力する手段（音声出力手段）を少なくとも備える。

　ここで、クライアント端末とは、モバイルコンピュータ、携帯電話、ＰＣ（Personal Computer）などインターネット・プロトコルを用いてパケットを転送するネットワークに接続できるコンピュータをいう。講演や演説のように一人の発話内容に複数の傍聴者がいるようなケースでは、発話者端末は１台であるが、通常の会議通話の場合、Ｎ台（Ｎは２以上）の発話者端末が存在する。また、傍聴者としてのクライアント端末は１台から無制限の台数（サーバーのリソースの制約に従う）になる。

　また、上記のルーム表示とは、仮想ルームに関する情報、すなわち、会議や講演に関する情報、例えば、会議テーマ、会議開始時間、会議参加者の情報、会議参加者数、モニター数（傍聴者数）などをクライアント端末のブラウザ画面にリストにして表示するものである。

　また、上記のルーム選択手段とは、一覧表示された仮想ルームに関する情報、例えば、ルーム番号やルーム名称などをマウスクリック操作やタッチパネル操作により選択するものである。

　また、上記の音声データ受信手段とは、サーバーから配信される音声データをストリーミングデータとしてインターネットなどのネットワークを介して受信するものである。ここで、配信される音声データは、ルームの個々の発話者端末から送信される音声データを加工せずにそのまま、同じルームを選択している全てのクライアント端末に配信するものである。また、ルームの個々の発話者端末から送信される音声データをサーバーで合成した音声合成データを同じルームを選択している全てのクライアント端末に配信するものであってもよい。

　また、上記の音声出力手段とは、クライアント端末に内蔵或いは外付けのスピーカーやイヤフォンである。

　本発明のボイスリンクシステムにおいて、クライアント端末が仮想ルームを生成したルームオーナー端末である場合、仮想ルームの属性情報をサーバーに送信して登録するルーム登録手段と、収音した音声を音声データとしてサーバーに送信する音声データ送信手段と、傍聴者としてのクライアント端末を発話者端末に変更、又は発話者端末を傍聴者端末に切替する端末属性切替手段を備える。
　ルームオーナー端末は、ルームの管理者であり、ルームを生成、ルームの属性情報の登録、ルームの削除を行うことができる。ルームオーナー端末は、発話者端末と同様に、発話することができ、音声データをサーバーに送信する。傍聴者としてのクライアント端末を発話者端末に変更、又は発話者端末を傍聴者端末に切替ることができ、会議の進行司会者的な役割を担う。
　ルームオーナーを希望するユーザーがルームを生成し、生成した当該ルームに、ルームを生成したユーザーがログインすると、自動的にルームオーナー端末として振る舞うことになる。
　また、ルームオーナー端末の代わりに、サーバー側でルームを自動生成しておくことにより、ルームオーナー端末が不在というケースも存在する。

　また、本発明のボイスリンクシステムにおいて、クライアント端末は、音声データに対する評価データを入力する評価データ入力手段と、入力された評価データをサーバーに送信する評価データ送信手段と、仮想ルームの評価データのカウント値の表示手段とを更に備える。そして、サーバーは、仮想ルーム毎に評価データの数をカウントして、仮想ルーム毎の評価データのカウント値をクライアント端末に送信するルーム評価カウント配信手段を更に備える。

　また、本発明のボイスリンクシステムにおいて、クライアント端末は、仮想ルームの評価データの時間推移情報の表示手段を更に備え、サーバーは、仮想ルーム毎に音声データのタイムラインに沿って保存された評価データの時間推移情報を、クライアント端末に送信するルーム評価時間推移情報配信手段を更に備える。

　ここで、上記の評価データ入力手段は、例えば、クライアント端末の画面上に表示された評価ボタンであり、該ボタン押下することにより、所定インターバル毎に評価データを、ネットワークを通じてサーバーに送信することができるものである。クライアント端末は会議通話の進行状況に応じて、傍聴者自身あるいは発話者自身が発話内容に同調もしくは賛同する場合、評価ボタンを押下する。評価ボタンの名称は、“良い”、“好き”、“満足”、“関心有り”、“興味有り”など自由に設定可能であり、更に言うと、“悪い”、“素敵”、“怖い”、“スリルがある”、“嫌い”、“似合う”、“似合わない”、“楽しい”、“上手”、“下手”、“感動”、“欲しい”、“欲しくない”、“賛成”、“反対”のいずれかを含む表現でもよい。それぞれ会議通話内容に応じて適宜選択すればよい。

　また、評価度合いが高いほど、評価ボタンの押下回数を多くするようにしてもよい。例えば、所定時間に２回以上、評価データを入力することにより評価合いが大きい評価データを入力できるというものでよい。例えば、１５秒に１回しか評価データを入力できない場合、複数回、評価データを入力（例えば、何回もボタン押下）することにより、クライアント端末側で入力回数をカウントして、評価度合いの大きさを区別できるデータをサーバーに送信するものでもよい。また、“非常に良い”、“少しだけ良い”などの評価度合いの大小を区別するような選択ボタンを設けることでもよい。
　また、上記の評価データ送信手段とは、入力された評価データをサーバーに送信するものである。また、仮想ルームの選択情報とは、例えばリストから選択された仮想ルームのユニークな識別番号である。

　ここで、ルーム情報とは、ルームの名称、ルームオーナー、ルームの内容、ルーム開始時間などである。ルームオーナーや発話者にはユーザー情報を登録する。ユーザー情報とは、名前、年齢、性別、職業、趣味、生年月日、干支、血液型、婚歴、家族構成、出身地、子供の年齢、心配ごと、悩みごと、将来の夢、過去の評価データなどであり、上記のユーザー情報登録手段とは、名前、年齢、性別、職業、趣味、生年月日、干支、血液型、婚歴、家族構成、出身地、子供の年齢、心配ごと、悩みごと、将来の夢、過去の評価データを送信したコンテンツ情報などを、クライアント端末の画面から入力するものである。
　また、上記の音声データ送信手段とは、音声データをデータパケット化してサーバーに送信するものである。

　次に、本発明のボイスリンクシステムのサーバーについて説明する。
　サーバーは、仮想ルームの属性情報を記憶する手段（ルーム属性記憶手段）と、発話者端末からの音声データを受信する手段（音声データ受信手段）と、ネットワークを介してクライアント端末から受信する音声データを仮想ルーム毎に仕分けし、同一仮想ルームの音声データを、当該仮想ルームを選択したクライアント端末に音声データとして送信する手段（音声データ配信手段）を備える。

　上記のルーム属性記憶手段とは、例えば、仮想ルームの属性情報（仮想ルームのカテゴリ、仮想ルームの内容を表すキーワードや説明、仮想ルームへの参加可能最大人数など）をハードディスクのデータベースやメモリ上のテーブルとして記憶するものである。
　ここで、仮想ルームの属性情報とは、仮想ルームのオーナー情報、言語、仮想ルームのカテゴリ、仮想ルームの内容を表すキーワードや説明、仮想ルームへの参加可能最大人数、一般公開・非公開のステータス情報、ライブ状態・録音状態のステータス情報である。
　仮想ルームのオーナー情報とは、サーバーに仮想ルームを作成したクライアント端末のユーザー情報である。

　また、クライアント端末から受信する音声データを仮想ルーム毎に仕分けするとは、クライアント端末から現在選択している仮想ルームの識別番号が音声データと共に、あるいは、最初に送られてくるので、この識別番号に基づいて音声データを選択中の仮想ルームに関連付けすることをいう。

　また、上記の音声データ配信手段によって、受信した仮想ルームの選択情報に基づいて、仮想ルームに関連付けされた音声データを、当該仮想ルームを選択した全てのクライアント端末にストリーミングデータとして送信する。

　本発明のボイスリンクシステムにおいて、傍聴者用端末は、必ずしも、ユーザー情報をサーバーに登録する必要はない。必ずしもユーザー情報をサーバーに登録しなくてもよいので、あたかもラジオ局をチューナーで選択するように、傍聴者端末がルーム選択するようにするだけで、ラジオを聴くように、会議通話を傍聴できる。
　しかし、傍聴者端末がユーザー情報をサーバーに登録すれば、評価データにユーザー情報が関連付けできる。傍聴者端末がユーザー情報を登録すれば、入力した評価データにユーザー情報がリンクでき、評価データに属性が付加されて利用価値を高めることができる。

　また、上記のボイスリンクシステムにおいて、ユーザー情報が登録されている場合、傍聴者が発言を望む場合に発話者端末としてルームに参加できる参加表明入力手段を設け、参加表明をサーバーに送信した際に、サーバーは、当該仮想ルームのルームオーナー端末に対して、参加表明したユーザー情報を送信して問合せを行い、仮想ルームのルームオーナー端末が許可した場合に、参加表明した傍聴者のクライアント端末を発話者端末に変更する参加許諾手段を備える。
　これにより、傍聴者用端末は、ユーザー登録すれば、参加表明して一定条件下（例えば、ルームオーナーが許可した場合のみ）、発話者になることが可能になる。

　また、上記のボイスリンクシステムにおいて、クライアント端末は、ユーザー情報をサーバーに登録するユーザー情報登録手段、ユーザー情報がサーバーに登録された後、該ユーザーが仮想ルームを選択してサーバーに接続すると、仮想ルームを選択している全てのクライアント端末の仮想ルーム画面にアイコン及びユーザー情報を表示するアイコン表示手段とを更に備える。
　ここで、アイコンは、画面上に表示される小さな絵柄である。アイコンの図柄には、ユーザーの写真やアバタ―も含まれる。ユーザー情報は、アイコンの下側など近傍、或いは、アイコンと重ねて表示され、アイコンの絵柄とユーザー情報が関連していることが他のユーザーが把握し易いようにする。ユーザー情報は、氏名、地点の情報であり、２０文字程度の短い文字で１段あるいは２段で表示する。

　ここで、クライアント端末の仮想ルーム画面にアイコン及びユーザー情報が表示される場合、仮想ルームで発話するユーザーのアイコン及びユーザー情報が第１の画面領域に表示され、仮想ルームで傍聴するだけのユーザーのアイコン及びユーザー情報が第２の画面領域に表示され、第２の画面領域が第１の画像領域の周囲を取り囲むエリアとして表示されることが好ましい。
　発話者の周辺を傍聴者が囲んでいるというイメージに合致するからである。
　第２の画面領域が第１の画像領域の周囲を取り囲むエリアとして表示されるとは、例えば、第１の画面領域が画面中央のサークル形状のエリアであり、第２の画面領域が第１の画像領域のサークルを取り囲む（サークル以外の）画面全体のエリアとして表示されることである。

　また、サーバーは、仮想ルームを選択中のクライアント端末の総数と、仮想ルームを選択中で、かつ、ユーザー情報を登録しているクライアント端末の総数を、当該仮想ルームに接続しているクライアント端末に送信する端末総数送信手段を更に備え、クライアント端末は、少なくとも仮想ルームを選択中のクライアント端末の総数を表示する端末総数表示手段を更に備える。
　何人の聴講者が存在するかは、ルーム内の会話コンテンツの評価にとって重要なファクターである。ボイスリンクシステムでは、サーバーで仮想ルームを選択中のクライアント端末の総数が把握できるので、この情報をクライアント端末の画面に表示させる。
　クライアント端末でルームを選択している場合は、選択しているルームのクライアント端末の総数だけでよいが、ルーム選択メニューにおいてルーム属性に傍聴者の人数を加えて表示させる場合は、個々のルームの傍聴者の人数を表示する必要がある。

　また、ルームオーナー端末の仮想ルーム画面において、第２の画面領域のクライアント端末のアイコンが選択され、第１の画像領域にアイコンを移動させる操作が入力された場合、操作対象のクライアント端末は、傍聴者から仮想ルームの発話者に変更され、第１の画面領域のクライアント端末のアイコンが選択され、第２の画像領域にアイコンを移動させる操作が入力された場合、操作対象のクライアント端末は、仮想ルームの発話者から傍聴者に変更される。
　ルームオーナー端末の仮想ルーム画面において、第２の画像領域のアイコンを第１の画像領域に移動されることで、そのアイコンのユーザーが発話者として参加することができる。また、反対に、第１の画像領域のアイコンを第２の画像領域に移動されることで、そのアイコンのユーザーが発話者から傍聴者に変更することができる。
　ルームオーナーは、会話の進行役の役割があるので、誰をいつ発話者にするかといった権限を付与している。

　また、本発明のボイスリンクシステムにおいて、サーバーは、クライアント端末の仮想ルーム画面において、アイコンを選択して評価データを入力した場合に、選択されたアイコンのユーザー情報に対して、評価データの積算数を関連付けする評価データ積算数関連付け手段を更に備える。

　ここで、評価データの積算数を関連付けする手段において、ユーザー情報が登録されたクライアント端末から入力された評価データの個数は、ユーザー情報が登録されていないクライアント端末から入力された評価データの個数を１とした場合、Ｎ（Ｎ＞１）として重み付けを行うことが好ましい。
　例えば、重み付けのＮが１０とした場合、ユーザー情報が登録されていない傍聴者端末から受信した評価データの価値より、ユーザー情報が登録されたクライアント端末から受信した評価データの価値は１０倍あることになる。

　また、本発明のボイスリンクシステムにおいて、仮想ルームに参加しているクライアント端末のマイク手段から集音した音声データは、仮想ルームのオーナーのクライアント端末からの操作入力によりミュートさせ得ることができる。

　本発明のボイスリンクシステムにおけるクライアント端末の画面上のアイコンは、クライアント端末のＷｅｂカメラからのリアルタイム映像若しくは予め録画した映像であることが好ましい。よりリアルな状況で討議が可能になるからである。

　また、本発明のボイスリンクシステムにおけるサーバーは、ルームオーナー端末または発話者端末から音声データを受信した際、当該端末に対応するアイコン画像のサイズ、アイコン形状、アイコン枠の色彩の少なくとも１つを変化させることが好ましい。
　アイコン画像のサイズ、アイコン形状、アイコン枠の色彩を、音声データに合せて動的に変化させることにより、どのユーザーが発言しているかを傍聴者が把握できるようにする。

　また、本発明のボイスリンクシステムのクライアント端末における評価データの度合いの表示手段において、評価データの度合いを描画オブジェクトのサイズで表現し、評価データ入力が所定時間内に連続して行われた場合、描画オブジェクト形状のサイズを大きくすることが好ましい。
　評価データの度合いに応じて、描画オブジェクト形状のサイズを大きくすることで、視覚的に評価度合いをユーザーが把握できるようにする。

　また、本発明のボイスリンクシステムのクライアント端末において、アイコンを選択して評価データを入力した場合、評価データ入力を行うクライアント端末のアイコンに重なる或いは隣接する画面表示エリアで、評価データ度合いを表す描画オブジェクトが大きくなり、選択されたアイコンに向かって描画オブジェクトが移動して、描画オブジェクトが選択されたアイコンに吸収され、描画オブジェクトが消滅するように表示されることが好ましい。
　これにより、評価データの入力操作者が、特定のユーザーに対して、評価データを付与することができ、また、評価データが特定のユーザーに付与されたか否かを視覚的に把握することができる。

　本発明のボイスリンクシステムによれば、音声に特化し、Ｗｅｂ上の空間で会話を楽しめる新しいタイプのソーシャルネットワークサービスシステムを構築できる。
　また、テレビやラジオのように、不特定多数の傍聴者を取り込んで、会話を広く配信することができる。
　会話の評価データについて、タイムラインに沿って視覚的に示すことができる。

ボイスリンクシステムのシステム構成図の一例ルーム画面ルームの一覧リスト音声データのタイムラインに沿った評価データの説明図ルーム画面の一例ルーム画面の他の表示例（１）ルーム画面の他の表示例（２）ルーム画面の他の表示例（３）ルーム登録ウィンドウ画面（１）ルーム登録ウィンドウ画面（２）ボイスリンクシステムの機能ブロック図

　以下、本発明の実施形態について、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。

　図１は、実施例１のボイスリンクシステムの構成図を示している。実施例１のボイスリンクシステムは、図１に示すように、１台のサーバーＴ_０と、５台の発話者端末（Ｔ_１～Ｔ_５）と４台の傍聴者端末（Ｍ_１～Ｍ_４）がインターネットで接続されている。会話に参加して発言する発話者端末（Ｔ_１～Ｔ_５）は、それぞれ音声データ信号（Ｄ_１～Ｄ_５）をサーバーＴ_０に送信する。そして、サーバーＴ_０は、発話者端末（Ｔ_１～Ｔ_５）から送られた音声データ信号Ｄ_１～Ｄ_５を合成する。合成された音声データ信号Ｄｃは、５台全ての発話者端末（Ｔ_１～Ｔ_５）と４台全ての傍聴者端末（Ｍ_１～Ｍ_４）に送信される。
　ここで、サーバーＴ_０は、発話者端末（Ｔ_１～Ｔ_５）から送られた音声データ信号Ｄ_１～Ｄ_５を合成しないで、そのまま音声データ信号Ｄ_１～Ｄ_５を５台全ての発話者端末（Ｔ_１～Ｔ_５）と４台全ての傍聴者端末（Ｍ_１～Ｍ_４）に送信してもよい。

　傍聴者端末（Ｍ_１～Ｍ_４）は、サーバーＴ_０に対して、リスナー要求（ＭＲ_１～ＭＲ_４）を送信した後で、会話を傍聴することができる。また、傍聴者端末（Ｍ_１～Ｍ_４）は、会話内容の評価データ（Ｓ_１～Ｓ_４）を送信することができる。

　ボイスリンクシステムでは、傍聴者端末（Ｍ_１～Ｍ_４）が、ユーザー情報を登録している登録ユーザーと、ユーザー情報を登録していない未登録ユーザーの２つに分けられる。登録ユーザーとは、サーバーに対してユーザー情報（例えば、名前、年齢、性別、職業、趣味、生年月日、干支、血液型、婚歴、家族構成、出身地、子供の年齢、心配ごと、悩みごと、将来の夢などのユーザー自身の情報の群から選択されるいずれか或いは全てであるが、これに限定されずユーザー情報として有用な情報であればこれらに加えてもよい。）を登録したユーザーであり、未登録ユーザーはサーバーに対して未だユーザー情報を登録していないユーザーである。

　登録ユーザーと未登録ユーザーの違いは、登録ユーザーであれば、ルームオーナーもしくは希望すれば発話者となり得ることである。また、登録ユーザーであれば、後述するように、評価データにユーザー情報を関連付けできる。さらに、登録ユーザーであれば、未登録ユーザーでは傍聴できない特定の会話を傍聴できるようにしてもかまわない。
　また、図１では、発話者端末（Ｔ_１～Ｔ_５）が存在し、Ｔ_１～Ｔ_５の５名の発話者が会話を行う様子を示しているが、１人の発話者のみ発話する講演や落語やスピーチでもかまわない。

　ボイスリンクシステムでは、サーバー上に仮想ルームを構築する。仮想ルームは、具体的には、ネットワークを介してアクセス可能なサーバーのディレクトリファイルである。登録ユーザーの１人が仮想ルームを生成して、ルームオーナーになる。
　ここで、サーバー上に仮想ルームを構築する際、仮想ルームに関する情報、すなわち、会話、会議、講演に関する情報、例えば、テーマ、開始時間、ルームオーナーの情報をサーバーに登録する。
　これらの会話に関する情報は、クライアント端末に表示され、ルーム一覧画面に表示する。例えば、傍聴したいルームの開始時間をクライアント端末やサーバーのカレンダー機能により予約できるようにしてもよい。その場合、例えば、予約したルームの開始時間前（例えば、開始の５分前）になると、自身のクライアント端末にアラーム告知やメッセージ告知が自動的に表示され、ユーザーは会議通話をリアルタイムに傍聴することができる。
　ルーム内の会話の音声データは、サーバーを経由するので、サーバー（他のコンピュータであってもよい）に録音することができる。ルーム内の会話の音声データを録音することにより、再生して会話を傍聴することが可能になる。
　その際、評価データや発話者の情報も再生することで、会話内容を傍聴すると共に、傍聴者が会話内容に付加した情報も視覚的に情報として知ることができる。

　ボイスリンクシステムのサーバー側では、発話者端末から受信する音声データを仮想ルーム毎に仕分けし、同一仮想ルームの音声データを、仮想ルームに関連付けして保存する。音声データを仮想ルーム毎に仕分けするやり方としては、発話者端末から現在選択している仮想ルームの識別番号が音声データと共に、あるいは、最初に送られてくるので、この識別番号に基づいて音声データを仮想ルームに関連付けする。
　また、サーバーは、受信した仮想ルームの選択情報に基づいて、仮想ルームに関連付けされた音声データを、当該仮想ルームを選択している全てのクライアント端末にストリーミングデータとして配信する。

　図２は、ボイスリンクシステムのルーム画面の構成を示している。
　仮想ルームを選択した場合、クライアント端末のルーム画面上に、発話者のアイコンイメージが第１の画面領域１０に表示され、傍聴者のアイコンイメージが第２の画面領域１２に表示される。また図示しないが、画面上には傍聴者数、評価データの入力総数が表示される。図２では、第１の画面領域１０がサークル形状で、第２の画面領域１２が第１の画面領域１０を取り囲む画面全体になっているが、これに限定されず、第１の画面領域１０の形状は、多角形や楕円形、矩形、その他の自由な形状でもよい。また、第２の画面領域１２が第１の画面領域１０を取り囲むものではなく、第１の画面領域１０と第２の画面領域１２が離れていてもよい。

　図２に示すように、第１の画面領域１０のサークル領域内には、発話者端末（Ｔ_１～Ｔ_５）に対応した５人の発話者のアイコンイメージ１０ａ～１０ｅ（写真やアバタ―の図形）が表示されている。発話者端末の台数に応じて、表示されるイメージの数が変化する。また、第２の画面領域１２の領域内には、傍聴者端末に対応した傍聴者のアイコンイメージ１２ａ～１２ｄ（写真やアバタ―の図形）が表示されている。この場合、傍聴者は、ユーザー情報が登録されている。図２の画面では表示していないが、ユーザー情報が未登録の傍聴者の数をサーバー側で抽出できることから、未登録の傍聴者の個数に相当したドットを第２の画面領域１２のリングの外側に表示させてもかまわない。

　ユーザー情報が登録されている傍聴者端末の画面上では、傍聴者が発言したい際に参加表明する参加表明ボタンが表示される（図２では省略）。傍聴者により、参加表明ボタンが操作された場合、該当する仮想ルームのルームオーナー端末に対して、参加表明したユーザー情報が送信され、ルームオーナーが許可した場合のみ参加表明した傍聴者の仮想ルームへの参加が許可され、第２の画面領域１２に表示されたアイコンが、第１の画像領域１０に発話者として移動して表示される。

　また、仮想ルームのルームオーナーのクライアント端末の画面上では、第２の画面領域１２のアイコンが選択され、第１の画像領域１０にマウスドラッグやタッチパネルによるドラッグにより移動させる操作が入力された場合、操作対象の傍聴者は、発話者に変更される。反対に、第１の画面領域１０のアイコンが選択され、第２の画像領域１２に移動させる操作が行われた場合、操作対象の発話者は傍聴者に変更される。

　図３は、ルームの一覧リストである。仮想ルームは、会話を行っているライブ状態のものと、既に会話が終了し録音されたものが存在する。ルームの一覧リストには、ルームのステータス（ライブ／録音）２１に加え、ルーム名称２２、ルーム説明２３、ルームカテゴリ２４、言語２５、スピーカー数２６、モニター数２７、評価データ数２８、使用時間２９、アクセス数３０が表示される。これ以外にルームのオーナー名などルームを判別するのに有用な情報を加えてもよい。
　ルームカテゴリ２４には、会議、会話、ディベート、セミナー、スピーチなど会議通話内容のカテゴリが表示される。言語２５には、日本語、英語、中国語、韓国語など会議通話で話される言語が表示される。スピーカー数２６には発話者端末の台数が表示され、モニター数２７には傍聴者端末の台数が表示される。これらのスピーカー数やモニター数はサーバーがリアルタイムにカウントして、そのカウント値をクライアント端末に送っている。評価データ数２８には、サーバーがクライアント端末から受信した評価データの入力数の総数が表示される。使用時間２９には、会話の開始からの経過時間、既に会話が終了している場合は、開始から終了までの時間が表示される。また、アクセス数３０には、ルームにアクセスしたクライアント端末の台数の総和が表示される。

　図４に示すように、仮想ルームの発話の音声データに関して、ルームの開始からのタイムラインに沿った評価データのカウント数の分布があるとする。評価データのピークは１～４の４ヵ所存在し、それぞれ音声データの開始からＩ_Ａ，Ｉ_Ｂ，Ｉ_Ｃ，Ｉ_Ｄ時間のポイントにあるとする。参加している傍聴者は、このタイムラインに沿った評価データ数を指標として、発話内容の評価度合いを把握することができる。

　図５はルーム画面の一例を示しており、図５を用いて個々の表示パーツを以下に説明する。図５における４１は上述の第１の画像領域であり、５人のスピーカーのアバタ―もしくは写真４５ａ～４５ｅが表示されている。また、第１の画像領域４１の外側周囲の境界線４０より外側が上述の第２の画像領域であり、ユーザー情報が登録されたクライアント端末のユーザーのアバタ―もしくは写真４８ａ～４８ｆが表示されている。また、ユーザー情報が登録されていない未登録ユーザーのイメージがサークル４９で表示されている。サークル４９の数や大きさによって傍聴者数のボリュームを表示する。５０は評価データの入力数を会話のタイムラインに沿って折れ線グラフで表示するエリアである。５１は評価データの入力数の時間推移を表しており、５２は傍聴者数の時間推移を表している。５３は仮想ルームの使用時間を棒グラフで表している。仮想ルームの使用時間を最大で１８０分とした場合や既に録音済みの会議通話の場合などトータル時間が分かっている場合に、現在まで使用した会話時間と残りの会話時間を視覚的に把握することができる。録音された会話データに対して、５４はスタートボタンであり、５５はストップボタン、５６は戻しボタン、５８は経過時間表示、５９は早送りボタンである。また、６０はライブか録音かの表示で、モニター数を表示できる。６１は評価データ総数である。６２は電子メールの起動ボタンであり、６３は他のソーシャルネットアプリケーションの起動ボタンである。電子メールやソーシャルネットアプリケーションにルームのＵＲＬを渡しで連携できるようになっている。６５は一覧リストの前のルーム、６６は後のルームへの移動ボタンである。６７はテキスト入力できるエリアもしくはイメージを表示できるエリアである。７０～７７は、それぞれルーム一覧画面への移動ボタン、通知、サイン入力、ルーム作成、他のユーザーへの招待画面、フォロー画面、リスナー情報表示画面、ユーザー情報登録・表示画面のボタンである。

　図６～８は、ルーム画面の他の一例を示している。
　図６は、図５において背景が入れ替わったものである。ルーム画面の背景はルームオーナーがルームの生成時に自由に設定することができる。
　また、図７，８に示すルーム画面は、図５のルーム画面と画面を構成するパーツが一部変更されている。図７，８に示すルーム画面では、画面下部の機能ボタンがアイコン化され、モニター数表示エリアが画面左上ではなく画面右上に配置されている。また、図７，８に示すルーム画面では、ルーム一覧が画面左の「ＲｏｏｍＬｉｓｔ」を選択することで画面左側からルーム一覧ウィンドウが表示され、ルーム一覧が画面右の「ＬｉｓｔｅｎｅｒＬｉｓｔ」を選択することで、ユーザー登録されている当該ルーム内に存在するユーザー情報とアイコンを表示するリスナーリストウィンドウが表示される。

　また、図８に示すルーム画面は、画面左半分が「ＹＥＳ」領域、画面右半分が「ＮＯ」領域に分れている。これにより、例えば、アイコン表示されている傍聴者が、発話内容に賛成（ＹＥＳ）するか、反対（ＮＯ）するか、アイコンを移動させて仕分けることが可能となる。アイコンの位置情報は、サーバー側でわかるので、賛成（ＹＥＳ）の人数、反対（ＮＯ）の人数をサーバーで計算することができる。賛成（ＹＥＳ）の人数、反対（ＮＯ）の人数の計算結果は、クライアント端末に配信することで、画面上に表示できる。
　さらに、図８に示すルーム画面では、画面を４分割（領域Ａ～領域Ｄ）に分けている。これにより、賛成（ＹＥＳ）／反対（ＮＯ）だけでなく、４つまでの選択枝を用意して、４分割された個々の領域（領域Ａ～領域Ｄ）にアイコンを移動させて仕分けることが可能となる。

　また、図９，１０は、ルーム登録ウィンドウの一例を示している。ルームを生成する際は、ルーム登録ウィンドウに必要な情報を設定する。
　例えば、プライバシーに関する設定は、ルームを公開するか非公開（特定のユーザーのみが傍聴可能なもの）にするかの設定であり、具体的には、ルームを選択する際にパスワード入力されるものである。
　また、ルーム名称（Ｔｉｔｌｅ）、ルーム説明（Ｄｅｓｃｒｉｐｔｉｏｎ）、ルーム開始時間（Ｓｅｔ
ｙｏｕｒＳｃｈｅｄｕｌｅ）を設定する。さらに、図１０に示すように、ルーム内で使用する言語、ルームの背景（ＲｏｏｍＳｋｉｎ）、ルームアイコン（Ｒｏｏｍｉｃｏｎ）を設定する。

　また、図１１は、ボイスリンクシステムの機能ブロック図である。
　クライアント端末１とサーバー２がネットワーク３で接続されている。クライアント端末１には、ルーム選択手段、音声データ受信手段、音声データ出力手段、評価データ入力手段、評価データ送信手段、カウント値の表示手段、評価データの時間推移情報の表示手段、ユーザー情報登録手段、アイコン表示手段、端末総数表示手段、参加表明入力手段、音声データ送信手段、ルーム登録手段が設けられている。
　この内、音声データ送信手段、ルーム登録手段は、傍聴者端末１ａには備わっていない。
　発話者端末１ｂには、傍聴者端末１ａの機能に加えて、音声データ送信手段が備わっている。また、ルームオーナー端末１ｃには、発話者端末１ｂの機能に加えて、ルーム登録手段が備わっている。
　また、サーバー２には、ルーム属性記憶手段、音声データ受信手段、音声データ配信手段、ルーム評価カウント配信手段、ルーム評価時間推移情報配信手段、端末総数送信手段、参加許諾手段、評価データ積算数関連付け手段が設けられている。

　本発明は、インターネットを利用した音声版ソーシャルネットワークシステムとして有用である。

　１　クライアント端末
　１ａ　傍聴者端末
　１ｂ　発話者端末
　１ｃ　ルームオーナー端末
　２　　サーバー
　３　　ネットワーク
　Ｔ_０　　サーバー
　Ｔ_１～Ｔ_５　発話者端末
　Ｍ_１～Ｍ_４　傍聴者端末
　Ｄ_１～Ｄ_５，Ｄｃ　音声データ信号
　Ｓ_１～Ｓ_４　　評価データ

Claims

　複数のクライアント端末と少なくとも１台のサーバーがネットワークを介して接続されるシステムであって、
１）クライアント端末は、
　仮想ルームを選択するルーム選択手段と、
　選択された仮想ルームに関連付けされた音声データを受信する音声データ受信手段と、
　音声データを出力する音声データ出力手段と、
を備え、
　クライアント端末が発話者端末の場合、更に、
　収音した音声を音声データとしてサーバーに送信する音声データ送信手段、を備え、
２）サーバーは、
　仮想ルームの属性情報を記憶するルーム属性記憶手段と、
　発話者端末からの音声データを受信する音声データ受信手段と、
　ネットワークを介して発話者端末から受信する音声データを仮想ルーム毎に仕分けし、同一仮想ルームの音声データを、当該仮想ルームを選択したクライアント端末に送信する音声データ配信手段と、
　を備えたことを特徴とするボイスリンクシステム。
　クライアント端末が仮想ルームを生成したルームオーナー端末である場合、
　仮想ルームの属性情報をサーバーに送信して登録するルーム登録手段と、
　収音した音声を音声データとしてサーバーに送信する音声データ送信手段と、
　クライアント端末を発話者端末に変更、又は発話者端末を傍聴者端末に切替する端末属性切替手段と、
　を備えたことを特徴とする請求項１に記載のボイスリンクシステム。
　クライアント端末は、
　音声データに対する評価データを入力する評価データ入力手段と、
　入力された評価データをサーバーに送信する評価データ送信手段と、
　仮想ルームの評価データのカウント値の表示手段と、
　を更に備え、
　サーバーは、
　仮想ルーム毎に評価データの数をカウントして、仮想ルーム毎の評価データのカウント値をクライアント端末に送信するルーム評価カウント配信手段、
　を更に備えたことを特徴とする請求項１又は２に記載のボイスリンクシステム。
　クライアント端末は、
　仮想ルームの評価データの時間推移情報の表示手段、
　を更に備え、
　サーバーは、
　仮想ルーム毎に音声データのタイムラインに沿って保存された評価データの時間推移情報を、クライアント端末に送信するルーム評価時間推移情報配信手段と、
　を更に備えたことを特徴とする請求項３に記載のボイスリンクシステム。
　クライアント端末は、
　ユーザー情報をサーバーに登録するユーザー情報登録手段、
　ユーザー情報がサーバーに登録された後、該ユーザーが仮想ルームを選択してサーバーに接続すると、仮想ルームを選択している全てのクライアント端末の仮想ルーム画面にアイコン及びユーザー情報を表示するアイコン表示手段と、
　を更に備えたことを特徴とする請求項１～４のいずれかに記載のボイスリンクシステム。
　クライアント端末の仮想ルーム画面にアイコン及びユーザー情報が表示される場合、
　仮想ルームで発話するユーザーのアイコン及びユーザー情報が第１の画面領域に表示され、
　仮想ルームで傍聴するだけのユーザーのアイコン及びユーザー情報が第２の画面領域に表示され、
　第２の画面領域が第１の画像領域の周囲を取り囲むエリアとして表示される、
ことを特徴とする請求項５に記載のボイスリンクシステム。
　サーバーは、
　仮想ルームを選択中のクライアント端末の総数と、
　仮想ルームを選択中で、かつ、ユーザー情報を登録しているクライアント端末の総数を、
　当該仮想ルームに接続しているクライアント端末に送信する端末総数送信手段を更に備え、
　クライアント端末は、
　少なくとも仮想ルームを選択中のクライアント端末の総数を表示する端末総数表示手段を更に備えたことを特徴とする請求項６に記載のボイスリンクシステム。
　ルームオーナー端末の仮想ルーム画面において、
　前記第２の画面領域のクライアント端末のアイコンが選択され、前記第１の画像領域にアイコンを移動させる操作が入力された場合、
　操作対象のクライアント端末は、傍聴者から仮想ルームの発話者に変更され、
　前記第１の画面領域のクライアント端末のアイコンが選択され、前記第２の画像領域にアイコンを移動させる操作が入力された場合、
　操作対象のクライアント端末は、仮想ルームの発話者から傍聴者に変更される、
　ことを特徴とする請求項６に記載のボイスリンクシステム。
　クライアント端末は、
　ユーザー情報が登録されている場合、
　傍聴者が発言を望む場合に発話者端末としてルームに参加できる参加表明入力手段を備え、
　参加表明入力手段は、参加表明をサーバーに送信し、
　サーバーは、当該仮想ルームのルームオーナー端末に対して、参加表明したユーザー情報を送信して問合せを行い、
　仮想ルームのルームオーナー端末が許可した場合に、参加表明した傍聴者のクライアント端末を発話者端末に変更する参加許諾手段、
　を備えたことを特徴とする請求項２に記載のボイスリンクシステム。
　サーバーは、
　クライアント端末の仮想ルーム画面において、アイコンを選択して評価データを入力した場合に、選択されたアイコンのユーザー情報に対して、評価データの積算数を関連付けする評価データ積算数関連付け手段、
　を更に備えた、
　ことを特徴とする請求項５に記載のボイスリンクシステム。
　評価データの積算数を関連付けする手段において、
　ユーザー情報が登録されたクライアント端末から入力された評価データの個数は、
　ユーザー情報が登録されていないクライアント端末から入力された評価データの個数を１とした場合、Ｎ（Ｎ＞１）として重み付けを行う、
　ことを特徴とする請求項１０に記載のボイスリンクシステム。
　クライアント端末における評価データ入力手段において、
　評価度合いを入力する手段、
　若しくは、
　所定時間に２回以上、評価データを入力することにより評価度合いが大きい評価データを入力できる、
　ことを特徴とする請求項１０又は１１に記載のボイスリンクシステム。
　前記ルーム属性記憶手段において、
　仮想ルームの属性情報は、
　仮想ルームのオーナー情報、言語、仮想ルームのカテゴリ、仮想ルームの内容を表すキーワードや説明、仮想ルームへの参加可能最大人数、一般公開・非公開の第１のステータス情報、ライブ状態・録音状態の第２のステータス情報、から選択される何れか或いは全てを含む、
　ことを特徴とする請求項１に記載のボイスリンクシステム。
　前記ルーム選択手段において、
　選択対象の仮想ルームの一覧表示は、
　仮想ルームのルームオーナー情報、言語、仮想ルームのカテゴリ、仮想ルームの内容を表すキーワード、仮想ルームへの参加人数、モニター数、一般公開か非公開の表示、ライブ状態か録音状態の表示、から選択される何れか或いは全てを表示する、
　ことを特徴とする請求項１に記載のボイスリンクシステム。
　仮想ルームの発話者端末から収音した音声データは、
　仮想ルームのルームオーナー端末からの操作入力によりミュートさせ得る、
　ことを特徴とする請求項２に記載のボイスリンクシステム。
　前記アイコンは、クライアント端末のＷｅｂカメラからのリアルタイム映像若しくは予め録画した映像であることを特徴とする請求項５に記載のボイスリンクシステム。
　サーバーは、ルームオーナー端末または発話者端末から音声データを受信した際、当該端末に対応するアイコン画像のサイズ、アイコン形状、アイコン枠の色彩の少なくとも１つを変化させることを特徴とする請求項５に記載のボイスリンクシステム。
　クライアント端末における評価データの度合いの表示手段において、
　評価データの度合いを描画オブジェクトのサイズで表現し、
　評価データ入力が所定時間内に連続して行われた場合、描画オブジェクト形状のサイズを大きくすることを特徴とする請求項５に記載のボイスリンクシステム。
　クライアント端末において、
　アイコンを選択して評価データを入力した場合、
　評価データ入力を行うクライアント端末のアイコンに重なる或いは隣接する画面表示エリアで、評価データ度合いを表す描画オブジェクトが大きくなり、選択されたアイコンに向かって描画オブジェクトが移動して、描画オブジェクトが選択されたアイコンに吸収され、描画オブジェクトが消滅するように表示されることを特徴とする請求項５に記載のボイスリンクシステム。
　複数のクライアント端末と少なくとも１台のサーバーがネットワークを介して接続されるシステムであって、
１）クライアント端末が傍聴者端末の場合、
　ユーザー情報をサーバーに登録する手段、
　サーバー上の仮想ルームを選択するルーム選択手段と、
　サーバー上の仮想ルームに関連付けされたストリーミングデータを受信するストリーミングデータ受信手段と、
　前記ストリーミングデータの音声を出力する音声出力手段と、
　前記ストリーミングデータに任意のタイミングで評価データを入力する評価データ入力手段と、
　仮想ルームの選択情報および入力された評価データをサーバーに送信する情報データ送信手段と、
　を備え、
２）クライアント端末が発話者端末の場合、傍聴者端末が備える上記手段に加えて更に、
　マイク手段と、
　マイク手段から収音した音声データをサーバーに送信する音声データ送信手段と、
　を備え、
３）クライアント端末がルームオーナー端末の場合、発話者端末が備える上記手段に加えて更に、
　サーバー上の仮想ルーム情報をサーバーに登録するルーム登録手段と、
　傍聴者端末を発話者端末に変更、或いは、発話者端末を傍聴者端末に切替する端末属性切替手段と、
　を備え、
４）サーバーにおいて、
　仮想ルームの属性情報を記憶するルーム属性記憶手段と、
　発話者端末からの音声データを受信する音声データ受信手段と、
　ネットワークを介してクライアント端末から受信する音声データを仮想ルーム毎に仕分けし、同一仮想ルームの音声データを、当該仮想ルームを選択した全てのクライアント端末にストリーミングデータとして送信するストリーミングデータ送信手段と、
　を備え、
　ユーザー情報がサーバーに登録された後、該ユーザーが仮想ルームを選択してサーバーに接続すると、仮想ルームを選択している全てのクライアント端末の仮想ルーム画面にアイコン及びユーザー情報が表示され、
　仮想ルームにおいて発話者端末及びルームオーナー端末のユーザーのアイコン及びユーザー情報が第１の画面領域に表示され、
　仮想ルームにおいて傍聴者端末のユーザーのアイコン及びユーザー情報が第２の画面領域に表示され、
　第２の画面領域が第１の画像領域の周囲を取り囲むエリアとして表示される、
ことを特徴とするボイスリンクシステム。