JP4745375B2

JP4745375B2 - 対話型立体的オーディオビジュアル・システム

Info

Publication number: JP4745375B2
Application number: JP2008244877A
Authority: JP
Inventors: スタンレーマクグラス，デイビッド; リチャードヘッケンバーグ，ダニエル; ジェイムズベネット，スティーブン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2002-01-09
Filing date: 2008-09-24
Publication date: 2011-08-10
Anticipated expiration: 2023-01-09
Also published as: JP2009043274A; US20060212147A1; WO2003058473A8; JP2005514702A; AUPR989802A0; US7533346B2; WO2003058473A1

Description

本発明は、３次元オーディオ環境においてチャット・ルーム型の会話を行うための対話型立体的オーディオビジュアル・システムに関する。

近年、チャット・ルームは、インターネットを介した交際のための非常に人気のあるフォーラムになってきた。

チャット・ルームを用いることにより、更に高いレベルの個人的な交際やオンラインの討論が可能となる。通常、チャット・ルームは、討論主題ベースとすることができる。

従来のチャット・プログラムは、テキスト入力ベースのチャット環境を提供する。参加者は、個人とチャットするかグループの中でチャットするかのいずれかを選択することができる。限られた長さのショート・メッセージを２つのグループ間で送信することを可能とするメッセージング・サービスも提供されている。このオンライン・プログラムは、時間と共に非常に人気が出てきて、多くのユーザを獲得した。

残念ながら、チャット・ルームのシナリオには、多くの欠点がある。それには、チャット・ルームに入るためにはキーボード型装置上で情報をタイプすることが必要である点が含まれる。タイプは、話す過程と単純に比較すると面倒でありかつ無意識的でない過程であることが多い。更に、チャット・ルームの会話は、混乱して入り混じったものになることもままあり得るので、特定の討論の中で複数の参加者の経過を追うのは困難である。

本発明の第１の態様に従うと、複数の遠隔ユーザ端末を接続するための対話型立体的オーディオビジュアル・システムであって、
ネットワーク接続されたコンピュータと、
ユーザ状態情報を含む関連するユーザ・データベースと、
仮想ユーザ環境内で互いに対して相対的にユーザを仮想的に配置するための前記遠隔ユーザ端末から複数のオーディオ・ストリーム及び関連する配置データを前記コンピュータにおいて受信するための入力手段と、
前記ユーザ・データベース内の状態情報に基づいて第１の選択処理における前記オーディオ・ストリームの少なくとも第１のグループの選択を可能にするための選択手段と、
オーディオ・ストリームの選択されたグループ及び第１のユーザ端末における前記配置データによって規定されるオーディオ源の視覚表現と実質的に一貫している第１の聞き手ベースのオーディオ基準フレームに対して相対的に前記オーディオ・ストリームの選択されたグループを空間化するための関連する配置データを出力するための出力手段と、で構成されるシステムが提供される。

都合良く、前記システムは、前記オーディオ・ストリームの選択されたグループを立体化（空間化）するための第１の立体化（空間化）手段を含む。

望ましくは、前記システムは、前記ユーザ端末へ伝送するために前記オーディオ・ストリームの少なくともいくつかを結合オーディオ・ストリームへと結合するための結合手段と、前記ユーザ端末における前記オーディオ基準フレーム内に背景オーディオ効果を規定すべく前記結合ストリームを立体化するための第２の立体化手段と、を含む。

都合良く、前記選択手段は、相当するユーザ端末への伝送のために、前記ユーザ・データベース内の前記ユーザ状態情報に基づいて異なる選択処理に応じてオーディオ・ストリームの異なるグループを選択すべく準備される。

ユーザ状態情報は、典型的には、仮想環境内でユーザを配置するためのユーザ位置データ、他のユーザ及び前記仮想環境の両者に関して前記ユーザを方向付けるためのユーザ方向データ、ユーザ聞き方状態情報、及びユーザ話し方状態情報を含む。

前記ユーザ聞き方状態情報は、前記ユーザが前記環境内の他の選択されたユーザ又はグループの話を聞くことができるように準備される。

前記ユーザ聞き方状態は、
Ｎ個のオーディオ源からＭ個の最も近いオーディオ源を選択すること、
音源信号の振幅及び／又は聞き手からの音源の距離に基づいてＭ個の最も大きい音源を選択すること、
対象ユーザ又は他のユーザによって決定されるユーザ主導の選択処理、
前記環境内の「議長」が他のユーザの話し方及び聞き方の状態を制御することができる議長主導の選択処理、
壁や出入口のような障壁及び開口及び環境の他の機能が特定のユーザの聴力に作用するように現実的に準備された前記仮想環境の地形又はトポロジー、
ユーザグループの周りに一時的な「防音」壁を生成すること、の少なくとも一つに基づくことができる。

前記障壁は、特定のルーム内の前記オーディオ・ストリームの少なくともいくつかは前記特定のルームに特有の背景残響効果を得るために加算されすなわち結合されて立体化されている一つ以上のチャット・ルームを規定することができる。

隣接するルーム又は領域内の前記オーディオ・ストリームは、入口／出口点における「閾値」効果を生成すべく、結合し立体化することもできる。

「ドライ」及び「ウェット」ルーム信号は、それぞれ、加算された非残響オーディオ源及び加算され残響されたオーディオ源を用いて生成することができる。

一般論として、本発明は、仮想環境内における視覚的効果と聴覚的効果との間の密着の尺度が存在する仮想環境を提供しようと努めている。

典型的には、ユーザ・データベースは、選択されたオーディオ・ストリーム及び関連する配置情報が送信されている特定のユーザの状態に基づいて複数の異なった選択尺度を利用する。

都合良く、前記第１の立体化手段は、前記ネットワーク接続されたコンピュータからのオーディオ・ストリームの選択されたグループを処理するための前記ユーザ端末の各々において装備される。

これとは別に、前記第１の立体化手段は、少なくとも前記第１の選択されたユーザ端末に前方伝送するための立体的オーディオ・ストリームを得るために前記ネットワーク接続されたコンピュータにおいてオーディオ・ストリームの選択されたグループを処理するように準備される。

本発明の一形態において、前記第２の立体化手段は、少なくとも前記第１の選択されたユーザ端末に前方伝送するための立体的結合オーディオ・ストリームを得るために前記ネットワーク接続されたコンピュータにおいてオーディオ・ストリームの結合されたグループを処理するように準備される。

これとは別に、前記第２の立体化手段は、各ユーザ端末においてオーディオ・ストリームの結合されたグループを立体化するための前記ユーザ端末の各々において装備される。

典型的には、前記第２の立体化手段は、バイノーラル（binaural）残響プロセッサを含む。

複数のユーザ・ベースのオーディオ源から複数の相当するオーディオ・ストリーム及び仮想環境内で互いに対して相対的に前記オーディオ源を仮想的に配置することのできる関連する配置データを受信することと、
ユーザ状態データを決定することと、
前記ユーザ状態データに基づいて前記オーディオ・ストリームの少なくともいくつかを選択することと、
前記仮想環境内の前記オーディオ源の少なくともいくつかの仮想位置の視覚表現の表示を可能とするために前記配置データ及び選択されたオーディオ・ストリームを第１の聞き手の宛先に伝送することと、
前記オーディオ・ストリームが前記第１の聞き手の宛先に伝送される以前又は以後のいずれかにおいて前記オーディオ源の前記視覚表現と実質的に一貫している第１の聞き手ベースのオーディオ基準フレームに対して相対的に選択されたオーディオ・ストリームを空間化することと、で構成される対話型立体的オーディオビジュアル設備を提供する方法に、本発明は拡張される。

望ましくは、前記方法は、
前記ユーザ状態データを変更することを可能にすることと、
変更されたユーザ状態データを読むことと、
前記変更されたユーザ状態データに基づいて前記オーディオ・ストリームの少なくとも一つを選択することと、
を含み、
前記変更されたユーザ状態データを用いて選択された前記オーディオ・ストリームの少なくとも一つは以前の選択されたストリームとは異なる。

都合良く、前記方法は、
前記オーディオ・ストリームの少なくともいくつかを結合するステップと、
結合オーディオ・ストリームを前記第１の聞き手の宛先に伝送するステップと、
前記仮想環境内に背景オーディオ効果を与えるべく前記結合オーディオ・ストリームを前記第１の聞き手の宛先において立体化するステップと、を含む。

前記結合オーディオ・ストリームは、個々には選択されなかったオーディオ・ストリームを含むことができる。

複数のユーザ・ベースのオーディオ源から複数の相当するオーディオ・ストリーム及び仮想環境内で互いに対して相対的に前記オーディオ源を仮想的に配置することのできる関連する配置データを受信することと、
ユーザ状態データを決定することと、
第１の選択処理において前記ユーザ状態データに基づいて前記オーディオ・ストリームの少なくともいくつかを選択することと、
前記仮想環境内の選択されたオーディオ源の少なくともいくつかの仮想位置の視覚表現の表示を可能とするために選択されたオーディオ・ストリーム及び関連する配置データを第１の聞き手の宛先に伝送することと、
前記ストリームを伝送する以前又は以後のいずれかにおいて前記オーディオ源の前記視覚表現と実質的に一貫している第１の聞き手ベースのオーディオ基準フレームに対して相対的に前記選択されたオーディオ・ストリームを空間化することと、
第２の選択処理において前記オーディオ・ストリームの少なくともいくつかを選択することと、
少なくとも前記選択されたオーディオ源の位置の視覚表現の表示を可能とするために前記選択されたオーディオ・ストリーム及び関連する配置情報を第２の聞き手の宛先に伝送すると共に、前記ストリームを伝送する以前又は以後のいずれかにおいて前記オーディオ源の前記視覚表現と実質的に一貫しているオーディオ基準フレーム内で前記選択されたオーディオ・ストリームを前記第２の聞き手の宛先において空間化することと、で構成される対話型立体的オーディオビジュアル設備を提供する方法に、本発明は拡張される。

本発明の更なる態様に従うと、ネットワーク環境を介した立体的会話を規定するためのシステムであって、
複数のユーザ端末と、
各オーディオ・ストリームが関連する空間化情報を含む、前記ユーザ端末へのオーディオ・ストリームを流すことができるコンピュータ・ネットワークと、
前記関連する空間化情報を用いてユーザの周りの所定の仮想位置に前記オーディオ・ストリームをレンダリングするためのレンダリング・システムと、
前記オーディオ・ストリーム内においてユーザを仮想空間的に配置するためのユーザ・インターフェースと、で構成され、
前記レンダリング・システムは前記ユーザの周りに実質的に空間的に一貫したオーディオ基準フレームを保持すべく前記オーディオ・ストリームを空間化し、前記ユーザ・インターフェースは聞き手の周りの前記オーディオ・ストリームの各々の空間的位置の視覚インジケータを含み、前記レンダリング・システムは前記視覚インジケータに対して相対的に実質的に空間的に一貫したオーディオ基準フレームを保持する、システムが提供される。

各ストリームは、望ましくは、ユーザの所有権情報を含み、前記システムは、望ましくは、前記オーディオ・ストリームに対するアクセスを認めるためのオーディオ・ストリーム・アクセス・インターフェースを含む。

前記レンダリング・システムは、今のユーザから仮想的に離れて位置するオーディオ源を減衰させ、かつ、今のユーザから仮想的に離れて位置するオーディオ源を結合することができる。一実施形態において、前記レンダリング・システムは、ユーザ近傍に位置することができ、前記オーディオ源は、望ましくは、コンピュータ・ネットワークを介して流される。

本発明の一形態において、少なくとも一つの所定のアルゴリズムに応じてオーディオ・ストリームを選択するために複数の選択処理が用いられ、選択されたオーディオ・ストリーム及び関連する配置情報が複数の聞き手の宛先に送信され、少なくとも第２のオーディオ源の位置の視覚表現が複数の聞き手の宛先において表示され、選択されたオーディオ・ストリームの各々はオーディオ源の視覚表現と実質的に密着しているオーディオ基準フレーム内における複数の聞き手の宛先において立体化される。

対話型立体的オーディオビジュアル設備をコンピュータに提供せしめるための実行可能な命令を記憶したコンピュータ可読媒体であって、前記命令は、
複数のユーザ・ベースのオーディオ源から複数の相当するオーディオ・ストリーム及び仮想環境内で互いに対して相対的に前記オーディオ源を仮想的に配置することのできる関連する配置データを受信し、
ユーザ状態データを決定し、
前記ユーザ状態データに基づいて前記オーディオ・ストリームの少なくともいくつかを選択し、
前記仮想環境内の前記オーディオ源の少なくともいくつかの仮想位置の視覚表現の表示を可能とするために前記配置データ及び選択されたオーディオ・ストリームを第１の聞き手の宛先に伝送し、
前記オーディオ源の前記視覚表現と実質的に一貫している第１の聞き手ベースのオーディオ基準フレームに対して相対的に選択されたオーディオ・ストリームを空間化する、ように配置されているコンピュータ可読媒体を、本発明は更に提供する。

対話型立体的オーディオビジュアル設備をコンピュータに提供せしめるための実行可能な命令を記憶したコンピュータ可読媒体であって、前記命令は、
複数のユーザ・ベースのオーディオ源から複数の相当するオーディオ・ストリーム及び仮想環境内で互いに対して相対的に前記オーディオ源を仮想的に配置することのできる関連する配置データを受信し、
ユーザ状態データを決定し、
第１の選択処理において前記ユーザ状態データに基づいて前記オーディオ・ストリームの少なくともいくつかを選択し、
前記仮想環境内の選択されたオーディオ源の少なくともいくつかの仮想位置の視覚表現の表示を可能とするために選択されたオーディオ・ストリーム及び関連する配置データを第１の聞き手の宛先に伝送し、
前記オーディオ源の前記視覚表現と実質的に一貫している第１の聞き手ベースのオーディオ基準フレームに対して相対的に前記選択されたオーディオ・ストリームを空間化し、
第２の選択処理において前記オーディオ・ストリームの少なくともいくつかを選択し、
少なくとも前記選択されたオーディオ源の位置の視覚表現の表示を可能とするために前記選択されたオーディオ・ストリーム及び関連する配置情報を第２の聞き手の宛先に伝送すると共に、前記オーディオ源の前記視覚表現と実質的に一貫しているオーディオ基準フレーム内で前記選択されたオーディオ・ストリームを前記第２の聞き手の宛先において空間化する、ように配置されているコンピュータ可読媒体を、本発明はなお更に提供する。

本発明のなお更なる態様に従うと、ネットワーク接続されたコンピュータ及び前記ネットワーク接続されたコンピュータに接続された複数のユーザ端末を含む対話型立体的オーディオ設備を動作する方法であって、
相当するオーディオ・ストリーム、関連する配置データ、及び前記ネットワーク接続されたコンピュータにおけるユーザ状態データと選択的に組み合わせるために、ユーザによって生成されたオーディオ・ストリーム及び仮想環境内で前記ユーザによって生成された前記オーディオ・ストリームを仮想的に配置することのできる関連する配置データをユーザ端末から前記ネットワーク接続されたコンピュータに伝送することと、
前記ユーザ状態データ及び仮想ユーザ環境内で互いに対して相対的に前記ユーザを仮想的に配置するための関連する配置データに基づいて選択された複数のオーディオ・ストリームをユーザ端末において受信することと、
前記配置データの視覚表現を前記ユーザ端末において生成することと、
前記ユーザに対する再生のための前記配置データによって規定された前記ユーザのオーディオ源の前記視覚表現と実質的に一貫しているユーザ・ベースのオーディオ基準フレームに対して相対的にオーディオ・ストリームの選択されたグループを空間化することと、で構成される方法が提供される。

都合良く、前期方法は、前記ユーザに対する再生のための前記ユーザ端末において前記オーディオ基準フレーム内の立体的背景オーディオ効果を提供するための結合オーディオ・ストリームを受信する以前又は以後において立体化された結合オーディオ・ストリームを前記ユーザ端末において受信することを含む。

対話型立体的オーディオビジュアル設備をコンピュータに提供又は動作せしめるための実行可能な命令を記憶したコンピュータ可読媒体であって、前記命令は、上述の方法のいずれか一つを実施すべく配置されたプログラム・セグメントを含むコンピュータ可読媒体に、本発明は拡張される。

本発明の範囲に分類し得るあらゆる別の形態にも関らず、添付の図面を参照し、例示のみの目的で本発明の望ましい形態を記載する。

望ましい実施形態において、オーディオ・チャット・ルームの立体的形状を規定するためのオーディオの立体化（オーディオに空間的な広がりを持たせるための空間化：spatialization）及びレンダリング（rendering）技術を伴うチャット・ルーム機能を提供する。標準的なハイエンド・パソコン機材の適切なＣ＋＋プログラミングによって、望ましい実施形態を実施することができる。

ここで図１を参照すると、本発明の第１の実施形態で利用するためのインターフェース・スクリーンを用いるユーザの例が図示されている。

ユーザ１は、このユーザのスクリーン上の２次元アレイ２で構成される仮想チャット・ルームに入る。この特定の場合のチャット・ルームは、「リナックス（登録商標）」オペレーティング・システムに対応するチャット・ルームである。このチャット・ルームは、様々な主題について討論するユーザ９の多くのグループ５、６、７、及び８で構成されている。ユーザ・インターフェースは、ユーザ１を掴みグループ５のような様々なグループの方へこのユーザを動かし更にグループにユーザを置くためにマウスと連動して利用し得るマウス・ポインタ４を含む。ユーザ１は、１組のヘッドホンを装備しており、このユーザがグループ５に近づくにつれて、そのグループの会話が最初は遠くに現れ、この会話はこの個人に近づいてくる。更に、グループ５の会話がユーザ１の左側に現れグループ６の会話がこのユーザの右側に現れるように会話を立体化することができる。このユーザは、マイクを装備しており、その結果、会話の一翼を担うことができる。更に、音楽トラックのような別のオーディオ入力をこの環境の中の他の聞き手に対して提供することができる。

この仮想環境の中の各聞き手は、明確に識別される現在地位置決め装置を有する同様なスクリーンを与えられている。聞き手は、チャット・ルームの「壁」１０によって規定された空間内を動き回り、様々な会話を聞き、会話の一翼を担う。チャット・ルームの各メンバーは、他のメンバーとの局在する立体的会話に参加することができる。

ここで図２を参照すると、図１の機構の基本的な具体化が概略的に図示されている。このシステムは、マイク入力１３に加えてヘッドホン１２へのオーディオ出力を規定する機能を処理するサウンド・カードを有するパソコン１１の周囲に基礎をおくことができる。レンダリング・コンピュータ１１は、この場合はインターネット１５であるストリーミング・ネットワークを介して各参加者のオーディオ・チャンネルを流すストリーミング・サーバ１４と相互接続される。一連の他のユーザ１６は同様に、会話位置情報に加えてオーディオの会話を流すストリーミング・サーバ１４に相互接続される。ユーザ１７のオーディオの会話もまた、各参加者に流すためにサーバ１４に逆に転送される。

そのために、レンダリング・コンピュータは、図３に示したように動作する。ネットワーク・ストリーム２０から、一連のチャット・ルーム占有者ストリーム２１が提供される。各チャット・ルーム占有者ストリームは、音声チャンネル及びその音声チャンネルのユーザの位置及び方向を含む。同様に、レンダリング・コンピュータからの出力２２は、局在するユーザの音声チャンネル及び関連する位置情報である。位置及び方向の情報は各個人の現在の位置及び方向の情報を更新すべく表示２３を更新するために利用される。位置情報はまた、今の聞き手に対する各聞き手の現在位置を決定するために相対位置決定ユニット２４に転送される。

相対位置決定の出力は、光学的音声チャンネル選択ユニット２６に転送される。距離によって減衰した音声は、プリセットされた選択にしたがって選択することができる。更に、離れた音声のグループ又はクラスタは、音声チャンネルの重ね合わせにより単一の音声すなわち擬似音声へと結合することができる。選択及び結合の利用は、立体的オーディオ・レンダリング２７を受けなければならない音声チャンネルの個数を減少させるべく機能する。

立体的オーディオ・レンダリングは、相対位置情報及び選択情報に加えて音声チャンネル入力を受け取り、所定の位置にいる聞き手の周りに音声を定位させる立体化技術を利用する。

適当な立体化技術には、１９９９年１月６日に出願され本出願人に付与された"Audio Signal Processing Method and Apparatus"と題するＰＣＴ公報第ＷＯ９９／４９５７４号に開示された技術が含まれ、その内容は、相互参照により明確に援用される。開示された立体化技術によって、ヘッドホンの聞き手に対して音声を定位することが可能となる。入力されたオーディオ・チャンネルの各々は、別々に立体化することができ、あるいは、最初にドルビー（登録商標）・サラウンド・サウンド５チャンネル基準フレームのような標準的な基準フレームにレンダリングされ次いで絶対基準フレームへ回転されてから聞き手の相対基準フレームへ最終的に回転することができる。信号は、結合され、次いで聞き手へ出力される。

立体化変換システムはまた、完全没入型動作（fully immersive behaviour）を規定するバイノーラル・レンダリング技術と組み合わせることもできる。例えば、豪州仮出願第ＰＯ０９９６号からの優先権を主張する米国出願第０８／８９３８４８号、これらのいずれの内容も相互参照により明確に援用されるが、は、聞き手に対して特定の位置にある頭追跡環境（head tracked environment）におけるＢフォーマットされた（B-formatted）音源をレンダリングするためのシステムを開示する。従って、オーディオ・トラックがＢフォーマットで記録されるなら、そのようなシステムは、適切に適合して、オーディオ・トラックをレンダリングするのに利用することができる。そのようなシステムが適切な所の一例として、レンダリングのＢフォーマット部が中心に実行され（ヘッドホン信号を生成するＢフォーマット信号に適用される）頭追跡部（headtracking part）が局所的に実行される所がある。Ｂフィールドの計算は、高価になり得るので、中心で最良に実行される。中心の計算は、通信の遅延を負い、これにより、位置にレイテンシ（latency）を導入する効果が生じるが、これは過度に有害ではない。

ＰＣＴ公報第ＷＯ９９／５１０６３は、特に頭の動きが存在するときにオーディオを頭追跡再生するための頭追跡処理に対する別のシステムを開示する。そのようなシステムは、聞き手に対して所定の位置を有するべくオーディオ・トラックを所定のフォーマット（例：ドルビー（登録商標）５．１チャンネル・サラウンド）にレンダリングし、次いで頭の動きが存在するときのオーディオ信号の局所化を規定すべくこのＰＣＴ出願に記載されたシステムを利用することによって、レンダリング・エンジンとして利用することができる。頭追跡は、レイテンシに対して非常に感度が高いので、局所的に実行される。

望ましい実施形態に対する様々なユーザ・インターフェースの変更も可能である。例えば、ユーザの入場及び退場をアナウンスする「神のような」声を与えるアナウンサー・オーディオ・チャンネルを提供することもできる。ユーザが環境を「歩き」回ることができるように、ジョイスティック又はマウスを提供することができる。他のユーザは、チャットの要求を承認するか又は拒否するかの選択を有することができる。

従って、上記実施形態において、ユーザは、従来の方法で−すなわち話すことによって−その会話／チャット会を行う。ユーザは、インターネット・オンライン接続を確立する電話線に接続された受信機と通信するトランスミッターの装着された一組のヘッドホンを身に付ける。新しいユーザがチャット・プログラムすなわち所謂「チャット・ルーム」にログオンすると、ルームに存在しているユーザ及びその詳細について音声アナウンスを受ける。ディスプレイはまた、チャット・ルーム内における全ての他の存在するユーザを基準にしてそのユーザが位置している場所を示す。ユーザは、（ディスプレイ上に位置する）ルームを「動き」回ることができ、個人的な会話を始めようとして、あらゆるユーザのところまで歩くことができる。実施形態の一形態において、全てのユーザは、チャットの要求を承認するか又は拒否するかの選択を有する。

ここで図４を参照すると、インターネットを介して多くのユーザ端末３２．１〜３２．Ｎに接続されているストリーミング・サーバ３０が示されている。ストリーミング・サーバは、典型的にはＳＱＬベースのユーザ状態データベース３４を組み込んでいる。ユーザ状態データベースは、各ユーザ端末３２．１〜３２．Ｎからの入力３６によるユーザの位置及び状態の情報で常に更新される。ユーザ位置データは、チャット・ルーム環境内の他のユーザ及びチャット・ルームの両者を基準にした各ユーザの位置及び方向を含む。状態情報は、特定の時刻におけるユーザの特定の状態を含む。例えば、ユーザは、チャット・ルーム内の他の選択されたユーザ又はグループの話を聞くことを可能とする聞き手状態の様々な範疇を有することができる。同様に、ユーザの話し方の状態は、最低の「無言」状態から、例えば、特定のユーザが、それぞれ、随意に話す、チャット・ルーム環境を通してメッセージ又はスピーチを一斉同報する、又はチャット・ルーム環境内における他のユーザの話し方及び聞き方の状態を制御する、立場になり得る最高の「神の声」、「演説」、又は「議長」状態まで変えることができる。ユーザ状態データベースからの複数の出力３８は、ユーザの位置及び状態の入力４１によって及びオーディオ・エンジン４３を介したオーディオ入力４２によって各ユーザ端末３２．１〜３２．Ｎに接続されたマルチプレクサ型Ｍ選択機能４０．１〜４０．Ｎに通じている。

図５を参照して、ストリーミング・サーバのオーディオ・コンポーネントの動作をここでより詳細に述べることにする。このサーバ内には、Ｎ人のユーザのオーディオ・チャンネルの全てを含むオーディオ・バス４４が備わる。４４．１及び４４．２で示したチャンネルのようなチャンネルの各々は、相当するオーディオ又はマイク入力４６．１及び４６．２を有する。オーディオ・バス４４．Ｎ内の各線からの出力４８．１〜４８．Ｎは、Ｍ選択機能４０．１〜４０．Ｎに入力される。Ｍ個の出力されたオーディオ・チャンネル５０はＭ選択機能から図４のユーザ端末３２．１〜３２．Ｎの各々に入力される。特定のユーザに対してどのオーディオ・チャンネルを選択するかを正確に制御するために利用し得る様々な異なる方法あるいはアルゴリズムが存在する。主要な制御基準の内の二つとして、ユーザ又は聞き手がチャット・ルームに入場するための許可を得る方法、及び各チャット・ルーム内で誰が誰の話を聞くことになるのかを厳密化する方法がある。

典型的には、ルームへの新しい参加者は、参加を許可されるのに先立って承認過程を経ることになろう。その結果、新しい参加者は存在している参加者に事前に通知せずに「忍び込む」ことができないという認識の下で、特定のルーム内における参加者の間で個人的な会話は安全に保たれる。選択過程は、議長すなわち司会者により独裁的となることもあり、また、ユーザの投票により民主的となることもある。定例のチャット・グループの場合には、ユーザの参加をパスワードで制御することもできる。

再び図１を参照すると、新しい参加者５２がユーザ・インターフェースのスクリーン上に現れている仮想チャット・ルーム３の入口５４の所に位置しようとしており、例えば「参加要求」アイコンをクリックすることによってルームへの参加を要求しようとしている。次いで、上述した過程の一つが生じ得る。別の方法として、特定のグループ７は、互いの了解によって自分たちの会話の周囲に「防音」壁５６を立てることができる。ユーザがルーム内にいて討論に参加しようと思っている場合であっても、同様の参加基準が当てはまることになろう。

ユーザ５２がチャット・ルームに入ると、このユーザ又は聞き手が誰の話を聞くのかを厳密に決定するために様々な別の方法を用いることができる。あるバージョンにおいては、Ｎ個の音源からＭ個の最も近い音源を選択することができる。これとは別に、Ｍ個の最も音の大きい音源を選択することができる。ただし、音の大きさは音源信号の振幅並びに音源の聞き手からの距離に基づいている。

誰の話を聞くべきかをルーム内の全聞き手を代表して選択するために、議長、それにはユーザ１が成り得るが、を用いることができる。更なるバリエーションでは、議長は、グループを代表してＭ’個の音源を選択することができ、残りの（Ｍ−Ｍ’）個の音源に対しては聞き手個別の選択を用いることができる。

話し方の状態に関する限りは、聞き手は、自分の望みを議長１に知らせることによって会話の許可を要求することができる。次いで、議長は、聞き手の「列」を審査してグループが誰の話を聞くべきかを選択することができる。一つの選択方法として、予想される話し手の各々が自分の提案した寄稿の簡単なテキスト要約を与えることがあり得る。チャット・ルームに様々なグループが存在し、様々な異なる会話が同時に進行している所では、グループ５、６、７、及び８の各々は、特定のグループ内での討論の流れを制御するためにグループの議長すなわち司会者を有することができる。

再び図５を参照すると、オーディオ・バス４４の全てのオーディオ・チャンネルは、加算器５８で結合され、加算された信号６０は、米国出願第０８／８９３８４８号を参照して上述したＢフォーマット・レンダリング処理のようなバイノーラル残響処理を受ける。左右のバイノーラル残響出力６４及び６６はそれぞれ、オーディオ・バス４４の部分を形成し、左右の加算されたバイノーラル残響入力６４．１〜６４．Ｎ及び６６．１〜６６．Ｎは、各ユーザ端末３２．１〜３２．Ｎに与えられる。

図６を参照すると、ＨＲＴＦ処理６８．１〜６８．Ｍを用いたバイノーラル・レンダリングによって別々に立体化されるＭ個のオーディオ・チャンネル入力５０．１〜５０．Ｍを有するユーザ端末３２．１が示されている。バイノーラル・レンダリングされた信号は、左右の加算器７０及び７２で加算され、ユーザが身につける一組のヘッドホン７４のそれぞれ左右のイヤホンに入力される。左右のバイノーラル残響信号６４．１及び６６．１もまた、それぞれ左右の加算器７０及び７２に入力される。加算されたバイノーラル残響信号６４．１及び６６．１は、背景残響を生成し、それによって、ユーザは、例えばルーム内における３又は４個の最も近い音声のみならずチャット・ルーム環境における加算された音声の全てを代表する背景の喧騒をも体験することができる。このことは、法外な個数の入力オーディオ・チャンネルを要求することなく非常に臨場感のあるオーディオ体験をもたらす。

図５及び６の実施形態において、デジタル信号処理及びチャンネル選択の大部分は、図６に示したオーディオ信号処理機能をヘッドホン７４の左右のイヤホンに内蔵できる程度までストリーミング・サーバにおいて行われ、ストリーミング・サーバは更にレンダリング・コンピュータに接続される。レンダリング・コンピュータの方は、画像ユーザ・インターフェースを内蔵し、ユーザ状態データベース３４を更新するためのユーザの位置及び状態の情報を提供する。チャット・ルーム内にいる他のユーザの位置及び状態につれてユーザ・インターフェース・スクリーンを常に更新できるように、レンダリング・コンピュータはまた、デマルチプレクサ機能４０．１〜４０．Ｎから更新されたユーザの位置及び状態の情報を受け取る。

図７を参照すると、バイノーラル残響機能が取り除かれている点は別として、第１の実施形態と似ているストリーミング・サーバ７６のオーディオ・コンポーネントの第２の実施形態が示されている。代わりに、加算器５８からの加算された出力信号６０は、処理されない加算された入力信号６０．１〜６０．Ｍとして各ユーザ端末に入力される。ユーザ端末の内の一つを図８の７８．１に示す。加算された信号６０．１のバイノーラル残響機能８０は、ユーザ側でレンダリング・コンピュータ内又はヘッドホン７４内のいずれかにおいてＨＲＴＦ機能６８．１〜６８．Ｍと共に実行される。このように、ユーザ側の付加的な処理能力を犠牲にして、入力チャンネルの個数は、減少される。

図９及び１０で、立体的会話システムのより洗練されたバージョンを説明する。ストリーミング・サーバ８２のオーディオ・コンポーネントは、９１〜９８の番号が付いた８人のユーザからの音源信号チャンネルを有するオーディオ・バス８４で構成される。図１０に、相互通行する出入口１０２を有する壁１００によって分割されたチャット・ルームＡ及びＢで構成されるユーザ・インターフェース・スクリーンを示す。ユーザ９１、９２、９４、及び９６は、ルームＡに位置し、ユーザ９３、９５、９７、及び９８は、ルームＢに位置している。ユーザ９２、９３、及び９５への及びからのオーディオ・チャンネルを示す。各ユーザは、自分のマイク信号を１０４で示すようなモノ信号としてサーバに与える。ユーザ９２、９３、及び９５の各々は、他のユーザからの又は出入口１０２からの信号を含む３個の最も近い音源又は選択された音源を与えられる。ルームＡに対する加算されたルーム喧騒は１０６で加算され、ルームＢからの所謂「ウェット・ルーム」信号１０８と共にユーザ９１、９２、９４、及び９６からのオーディオ・チャンネルを含む。この信号１０８は、ルームＡからの「ウェット・ルーム」信号１１２と共に１１０で加算されたユーザ９３、９５、９７、及び９８からの信号で構成される。加算器１１０から直接出力される加算された信号１１６は、ルームＢからの「ドライ・ルーム」信号を構成する。ルームＢからの「ドライ・ルーム」信号は、モノ残響器１１８に入力されて、ルームＢに対する「ウェット・ルーム」信号１２０を提供する。これは、更にルームＡに対する加算器１０６に入力される。加算器１０６から直接出力される加算された１２２は、ルームＡに関する「ドライ・ルーム」信号であり、「ドライ・ルーム」信号は、モノ残響器１２４によって処理されてルームＡに対するウェット・ルーム信号１２６となる。

このように、ユーザ９５は、ルームＢ内の最も近い３人のユーザ９３、９７、及び９８、並びにルームＢに対するドライ・ルーム信号１１６によって構成される加算されたルーム喧騒を入力として有する。他方、ユーザ９３は、ルームＡからの「ウェット・ルーム」残響出力１２６によって構成される出入口信号１２８と共に最も近い２人のユーザ９７及び９５を入力として有する。更に、ルームＢ内のユーザ９３は、ルームＢ内の背景の雑音すなわち喧騒を代表するドライ・ルーム入力１３０を入力として受け取る。

ルームＡ内のユーザ９２は、ルームＢの「ウェット・ルーム」出力１２０からの「ウェット・ルーム」信号１３２によって構成された出入口信号と共に、そのルームの背景雑音を代表するルームＡからの「ドライ・ルーム」出力信号１３４と共に、最も近い２人のユーザ９１及び９６からの音声チャンネルを入力として受け取る。

出入口の近くにいる一方のルーム内のユーザは他方のルームからの「ウェット・ルーム」入力を専用の入力チャンネルとして受け取る点で、二つのチャット・ルーム環境と一致するオーディオ体験が得られる。出入口及び他方のルームから離れているユーザに対しては、各加算器１０６及び１１０で結合された「ウェット・ルーム」信号１０８及び１１２のフィードバックに基づいて、他方の部屋からの減少した入力がやはり得られる。この特徴は、複数のルーム及びドアを介して伝わる離れた喧騒を聞く能力及び最大レベルの可聴活動でルームを見つけるべく音によって移動する能力をユーザに与える。

フィードバックされるドア信号１０８及び１１２の利得は、ドアが部分的に開いているのか完全に開いているのか閉じているのかに依存して１３８で修正することができ、それにより、チャット・ルーム環境の臨場感を強調し、特に１人以上のユーザがドアを「閉じる」もしくは「開く」ことができる場所では盗聴を選択的に認めるもしくは妨げる。

図１１を参照すると、バイノーラル処理がサーバにおいて実行される点は別として、図９の実施形態と実質的に一致するストリーミング・サーバ１３６の更なる実施形態が示されている。特に、バイノーラル・プロセッサ１３８は、様々なウェット及びドライ・ルーム信号及び音源信号を受け取って処理するために備わっている。従って、図８に示したユーザ端末ベースのバイノーラル残響及びＨＲＴＦ処理は、サーバ・ベースのバイノーラル・プロセッサ１３８において実行されるように配置することができる。従って、サーバからのＬ及びＲのバイノーラル信号は、各ユーザ９２、９３、及び９５のヘッドホンに直接入力することができ、それにより、２個の入力オーディオ・チャンネルのみが要求される点で、各ユーザ・ステーションにおけるハードウェア、信号処理、及びネットワーク帯域の要求を減少させる。

ＨＲＴＦ処理の場合には、上述したように、ユーザのスクリーン２上のグラフィック表示におけるユーザの方向及び位置は、ジョイスティック又はマウス・ポインタ１によって制御できることが理解されるであろう。位置及び方向の信号は、特にバイノーラル・プロセッサにおける処理のためにストリーミング・サーバに伝送され、ユーザがグループの他の個人に注意を向けるべく自分の頭を回転するときに、より臨場感のある効果を得るために頭追跡信号によって補強することができる。頭追跡装置から得られる頭追跡信号は、相当する頭の回転及び並進によってユーザ表示の回転の動き及び並進の動きを両者とも生じされるために直感的に用いることができる。これは、マウス・ポインタ４又はジョイスティックによって補完することができる。合成された方向及び位置の信号は、処理するためにストリーミング・サーバに逆に伝送することができ、望ましい立体化効果を得るためにユーザ端末において局所的に処理することもできる。

本明細書において開示し規定した本発明は、記載した個々の特徴又は文章又は図面から明らかとなる個々の特徴の二つ以上の全ての代替となる組み合わせにまで及ぶことが理解されるであろう。これらの様々な組み合わせの全ては、本発明の様々な代替態様を構成する。

本発明の実施形態について前述したが、本発明の範囲から逸脱することなく、当業者には明らかな変形をそれになし得る。

望ましい実施形態のオーディオ・チャット・ルームに対するユーザ・インターフェースの第１の実施形態を概略的に説明する図である。第１の実施形態のストリーミング環境を概略的に説明する図である。第１の実施形態のレンダリング・コンピュータの動作を示す概略的なフローチャートである。本発明の立体的オーディオ会話システムの第２の実施形態の非常に概略的な機能ブロック図である。ストリーミング・サーバのオーディオ・コンポーネントのより詳細な機能ブロック図である。図５のストリーミング・サーバに接続されるユーザ端末のより詳細な機能ブロック図である。ストリーミング・サーバのオーディオ・コンポーネントの第２の実施形態のより詳細なブロック図である。図７のストリーミング・サーバに接続されるユーザ端末の第２の実施形態の機能ブロック図である。本発明のストリーミング・サーバの第３の実施形態のオーディオ・コンポーネントの機能ブロック図である。図９で説明したサーバ構成に相当するユーザ・インターフェース・スクリーンの概略図である。本発明のストリーミング・サーバの第４の実施形態のオーディオ・コンポーネントの機能ブロック図である。

Claims

複数の遠隔ユーザ端末を接続するための対話型空間化オーディオビジュアル・システムであって、
ネットワークに結合された処理システムと、
前記処理システムに結合されているか前記処理システムの一部である、対応する各ユーザのユーザ状態情報を含むユーザデータを含む関連するユーザ・データベースとを有しており、
前記処理システムは：
前記遠隔ユーザ端末から複数のオーディオ・ストリーム及び関連する配置データを受信し、ここで、各オーディオ・ストリームはオーディオ源としてのユーザに対応し、前記配置データは仮想ユーザ環境内でユーザを互いに対して相対的に仮想的に配置するためのものであり、
前記ユーザ・データベース内の状態情報に基づいて、前記複数のオーディオ・ストリームのうちある特定ユーザを含む一または複数のユーザに送信する少なくとも一つのオーディオ・ストリームからなる少なくとも一つのグループを選択し、ここで、各グループはユーザのうちの一に対応し、前記少なくとも一つのグループは前記特定ユーザに対応する特定グループを含み、
前記複数のオーディオ・ストリームのうちの少なくともいくつかを組み合わせて組み合わされたストリームを形成し、
前記ネットワークを介して、前記特定ユーザに関連付けられた特定遠隔ユーザ端末を含む一つまたは複数の遠隔ユーザ端末に、該一つまたは複数の遠隔ユーザ端末に関連付けられた、前記特定ユーザを含むユーザにそれぞれ対応する、前記一つまたは複数の選択されたグループのオーディオ・ストリーム及び関連する配置データを送信し、
前記遠隔ユーザ端末のうち前記特定遠隔ユーザ端末を含む前記少なくとも一つに、前記ネットワークを介して、前記組み合わされたストリームの関数を送信するよう構成されており、ここで、該関数はユーザ依存であってもよく、
前記ネットワークに結合された、前記特定ユーザに対応する前記特定遠隔ユーザ端末は：
前記の送信されたオーディオ・ストリームのグループおよび組み合わされたストリームの関数を受信し、
前記ユーザのうちの少なくとも一部の表現を含む、前記仮想ユーザ環境の視覚的表現を表示し、
前記特定ユーザに対応するオーディオ・ストリームを含む前記特定グループに含まれるオーディオ・ストリームおよび前記組み合わされたストリームの関数を変換して、前記組み合わされたストリームに従って生成されたバイノーラル残響信号を含む一対のオーディオ・ヘッドホン信号にするよう構成されており、
前記変換は、ヘッドホンを通じて前記ヘッドホン信号を聞いている前記特定ユーザが前記特定グループのオーディオ・ストリームが前記仮想ユーザ環境内において、その特定ユーザの位置に対して相対的なそれぞれのユーザ位置から発する感覚をもつよう前記特定グループに含まれるオーディオ・ストリームを空間化する変換であり、
前記空間化は、直接音及び初期エコーを考慮に入れることも含め前記仮想ユーザ環境中の前記特定ユーザの向きおよび位置ならびに前記特定グループ中のオーディオ信号の源の位置を考慮に入れるＨＲＴＦ処理と、前記組み合わされたストリームに従って生成されたバイノーラル残響信号を含めることによる残響とを含んでいる、
システム。
前記処理システムがさらに、オーディオ・ストリームの各グループのオーディオ・ストリームの前記変換の少なくとも一部を実行するよう構成されている、請求項１に記載のシステム。
前記処理システムがさらに、前記組み合わされたストリームの残響処理されたバージョンを空間化して、ヘッドホンを通じて前記ヘッドホン信号を聞いている前記特定ユーザが前記組み合わされたストリームから形成されたバイノーラル残響信号から残響背景を知覚するようにするよう構成されている、請求項１に記載のシステム。
特定ユーザに送信するグループを選択する際に使われる前記ユーザ状態情報は、仮想環境内で前記特定ユーザを配置する働きをするユーザ位置データ、他のユーザ及び前記仮想環境の両者に関して前記特定ユーザを向き付けする働きをするユーザ向きデータ、前記特定ユーザについてのユーザ聞き方状態情報、及び／又は前記特定ユーザについてのユーザ話し方状態情報のうちの一つまたは複数を含む、請求項１に記載のシステム。
特定ユーザに送信するグループを選択する際に使われる前記ユーザ聞き方状態情報は、前記特定ユーザが前記環境内の他の選択されたユーザ又はユーザのグループの話を聞くことを許容するように構成される請求項４に記載のシステム。
特定ユーザに送信するオーディオ・ストリームのグループを選択することは、仮想環境内で最も近いある特定数の他のユーザに対応するオーディオ・ストリームを選択することを含む、請求項４に記載のシステム。
特定ユーザに送信するオーディオ・ストリームのグループを選択することは、オーディオ・ストリーム中のオーディオの振幅及び／又は仮想環境内での前記特定ユーザからのオーディオ・ストリームの音源の距離に基づいて、最も大きい音源を特定数だけ選択することを含む請求項４に記載のシステム。
特定ユーザに送信するオーディオ・ストリームのグループを選択することは、前記特定ユーザ又は他のユーザの遠隔ユーザ端末からの入力に基づいて選択することを含む、請求項４に記載のシステム。
特定ユーザに送信するオーディオ・ストリームのグループを選択することは、ユーザの話し方及び聞き方の状態を制御できる議長からの入力に基づいて選択することを含む、請求項４に記載のシステム。
前記仮想環境が、該仮想環境中のユーザの聞く能力に影響するよう構成されている地形上又はトポロジー上の一つ又は複数の特徴を有しており、特定ユーザに送信するオーディオ・ストリームのグループを選択することは、前記地形上又はトポロジー上の特徴に基づいて選択することを含む、請求項４に記載のシステム。
前記一つまたは複数の特徴は、二つ以上のチャット・ルームを規定する一つまたは複数の壁を含み、特定のルーム内の前記オーディオ・ストリームの少なくともいくつかは加算され、空間化され、その特定のルームに特有の背景残響効果を実現するために残響処理が実行される、請求項１０に記載のシステム。
前記処理システムがさらに、前記特定ユーザが位置する特定のルーム又は領域の仮想環境内に入口又は出口を有する隣接するルーム又は領域内のオーディオ・ストリームを組み合わせて、その特定のルーム又は領域と前記入口又は出口のところで隣接するルーム又は領域から発する組み合わされた雑音を表す、前記入口又は出口に位置する隣接ルーム信号を生成するよう構成されている、請求項１０に記載のシステム。
前記処理システムがさらに、前記特定のルーム又は領域について、その特定のルーム又は領域内のユーザから発するオーディオ・ストリームに起因する背景を表し、任意的にその特定のルーム又は領域に隣接する任意のルーム内のユーザから発する任意の隣接ルーム信号の重み付けされた残響バージョンを含むルーム内信号を生成するよう構成されており、該生成することが、前記特定のルーム又は領域内のユーザから発するオーディオ・ストリームおよび任意的にはその特定のルーム又は領域に隣接する単数又は複数のルーム又は領域内のユーザから発する組み合わされた信号の重み付けされた残響バージョンを組み合わせることを含む、請求項１２に記載のシステム。
前記処理システムがさらに、前記特定のルーム又は領域について、前記特定のルーム又は領域に隣接するルーム内のユーザから発する信号の組み合わせとして形成される隣接ルーム信号の残響バージョンを表すルーム信号を生成するよう構成されている、請求項１２に記載のシステム。
特定ユーザに送信するオーディオ・ストリームのグループを選択することは：
総数Ｎ個のオーディオ・ストリームからＭ人の最も近いユーザに対応するＭ個のオーディオ・ストリームを選択する、
オーディオ・ストリームの信号の振幅及び／又は前記特定ユーザからのオーディオ・ストリームに対応するユーザの距離に基づいてＭ個の最も大きいオーディオ・ストリームを選択する、
前記特定ユーザ又は一もしくは複数の他のユーザによって決定されるユーザ主導の選択プロセスに従って選択する、
前記環境内の「議長」が他のユーザの話し方及び聞き方の状態を制御できる議長主導の選択プロセスに従って選択する、及び／又は
視覚的及び音響的に一貫したランドスケープを提供すべく前記環境内のユーザの聞く力にリアルに影響するように前記環境の特徴が準備されており、前記仮想環境の地理又はトポロジーに基づいて選択する、
ことを含む一つまたは複数の基準に従って選択することを含む、請求項５に記載のシステム。
複数の遠隔ユーザ端末と通信する処理システムの動作方法であって：
複数のオーディオ・ストリーム及び関連する配置データを受信する段階と、ここで、各オーディオ・ストリームはオーディオ源としてのユーザに対応し、前記配置データは仮想ユーザ環境内でオーディオ源を互いに対して相対的に仮想的に配置できるものであり、
前記ユーザのうちの一または複数についてユーザ状態データを判別する段階と、
前記ユーザ状態データに基づいて、前記複数のオーディオ・ストリームのうちある特定ユーザを含む一または複数のユーザに送信する少なくとも一つのオーディオ・ストリームからなる少なくとも一つのグループを選択する段階と、ここで、各グループはユーザのうちの一に対応し、前記少なくとも一つのグループは前記特定ユーザに対応する特定グループを含み、
前記複数のオーディオ・ストリームのうちの少なくともいくつかを組み合わせて組み合わされたストリームを形成する段階と、
前記特定ユーザに関連付けられた特定遠隔ユーザ端末を含む一つまたは複数の遠隔ユーザ端末に、該一つまたは複数の遠隔ユーザ端末に関連付けられた、前記特定ユーザを含むユーザにそれぞれ対応する、前記一つまたは複数の選択されたグループのオーディオ・ストリーム及び関連する配置データを送信する段階と、
前記遠隔ユーザ端末のうち前記特定遠隔ユーザ端末を含む前記少なくとも一つに、前記組み合わされたストリームの関数を送信する段階とを含んでおり、ここで、該関数はユーザ依存であってもよく、
前記特定ユーザに対応する前記特定遠隔ユーザ端末は：
前記の送信されたオーディオ・ストリームのグループおよび組み合わされたストリームの関数を受信し、
前記ユーザのうちの少なくとも一部の表現を含む、前記環境の視覚的表現を表示し、
前記特定ユーザに対応するオーディオ・ストリームを含む前記特定グループに含まれるオーディオ・ストリームおよび前記組み合わされたストリームの関数を変換して、前記組み合わされたストリームに従って生成されたバイノーラル残響信号を含む一対のオーディオ・ヘッドホン信号にするよう構成されており、
前記変換は、ヘッドホンを通じて前記ヘッドホン信号を聞いている前記特定ユーザが前記特定グループのオーディオ・ストリームが前記仮想ユーザ環境内において、その特定ユーザの位置に対して相対的なそれぞれのユーザ位置から発する感覚をもつよう前記特定グループに含まれるオーディオ・ストリームを空間化する変換であり、
前記空間化は、直接音及び初期エコーを考慮に入れることも含め前記仮想ユーザ環境中の前記特定ユーザの向きおよび位置ならびに前記特定グループ中のオーディオ信号の源の位置を考慮に入れるＨＲＴＦ処理と、前記組み合わされたストリームに従って生成されたバイノーラル残響信号を含めることによる残響とを含んでおり、
前記組み合わされたストリームは送信前又は送信後に空間化されて、前記仮想環境中の背景オーディオ効果を与える、
方法。
前記ユーザ状態データが変更されている場合を許容するために前記判別する段階及び前記選択する段階を繰り返すことをさらに含む、請求項１６に記載の方法。
請求項１６に記載の方法であって、前記仮想環境は、二つ以上のルーム又は領域を規定する一つまたは複数の壁を有しており、当該方法がさらに、
前記特定ユーザが位置する特定のルーム又は領域の仮想環境内に入口又は出口を有する隣接するルーム又は領域内のオーディオ・ストリームを組み合わせて、その特定のルーム又は領域と前記入口又は出口のところで隣接するルーム又は領域から発する組み合わされた雑音を表す、前記入口又は出口に位置する隣接ルーム信号を生成する段階を含む、
方法。
請求項１８に記載の方法であって、当該方法がさらに、
前記仮想ユーザ環境内の前記特定のルーム又は領域について、その特定のルーム又は領域内のユーザから発するオーディオ・ストリームに起因する背景を表し、任意的にその特定のルーム又は領域に隣接する任意のルーム内のユーザから発する任意の隣接ルーム信号の重み付けされた残響バージョンを含むルーム内信号を生成するよう構成されており、該生成することが、前記特定のルーム又は領域内のユーザから発するオーディオ・ストリームおよび任意的にはその特定のルーム又は領域に隣接する単数又は複数のルーム又は領域内のユーザから発する組み合わされた信号の重み付けされた残響バージョンを組み合わせることを含む、
方法。
隣接するルーム又は領域内のオーディオ・ストリームを組み合わせる前記段階が、前記特定のルーム又は領域について、前記特定のルーム又は領域に隣接するルーム内のユーザから発する信号の組み合わせの残響バージョンを表すルーム信号を生成することを含む、請求項１８に記載の方法。
ネットワークにおける空間化された会話に参加するためのユーザ端末であって、オーディオ・ストリーム及び関連する空間化情報を当該ユーザ端末にストリーミングできるネットワークに結合されており、当該ユーザ端末は：
レンダリング・システムとユーザ・インターフェースとを有しており、
前記レンダリング・システムは：
複数のオーディオ・ストリームから選択されたオーディオ・ストリームの選択されたグループを受け容れ、ここで、各ストリームは仮想ユーザ環境内でのユーザ位置に対応しており、
仮想ユーザ環境内で前記グループのオーディオ・ストリームに関連付けられたユーザを互いに対して相対的に仮想的に配置するための関連する配置データを受け容れ、
前記複数のオーディオ・ストリームの少なくともいくつかを組み合わせることによって形成された組み合わされたストリームの関数を受け容れ、
前記グループのオーディオ・ストリームおよび前記組み合わされたストリームの関数を変換して、前記組み合わされたストリームに従って生成されたバイノーラル残響信号を含む一対のオーディオ・ヘッドホン信号にするよう構成されており、
前記変換は、ヘッドホンを通じて前記ヘッドホン信号を聞いている特定ユーザが前記グループのオーディオ・ストリームが前記仮想ユーザ環境内において、その特定ユーザの位置に対して相対的なそれぞれのユーザ位置から発する感覚をもつよう前記グループに含まれるオーディオ・ストリームを空間化する変換であり、
前記ユーザ・インターフェースは、前記ユーザのうちの少なくとも一部の表現を含む、前記仮想ユーザ環境の視覚的表現を呈示するよう構成されたディスプレイを有しており、
前記レンダリング・システムによる空間化は、直接音及び初期エコーを考慮に入れることも含め前記仮想ユーザ環境中の前記特定ユーザの向きおよび位置ならびに前記グループ中のオーディオ信号の源の位置を考慮に入れるＨＲＴＦ処理と、前記組み合わされたストリームに応じて生成されたバイノーラル残響信号を含めることによる残響とを含んでいる、
ユーザ端末。
請求項２１に記載のユーザ端末であって、前記仮想環境は、二つ以上のルーム又は領域を規定する一つまたは複数の壁を有しており、前記特定ユーザは仮想環境中で特定のルーム又は領域に位置しており、該特定のルーム又は領域は前記特定のルーム又は領域への入口又は出口を有する隣接するルーム又は領域をもち、
前記レンダリング・システムはさらに、その特定のルーム又は領域と前記入口又は出口のところで隣接するルーム又は領域から発する組み合わされた雑音を表す、前記入口又は出口に位置する隣接ルーム信号を受け容れるよう構成されている、
ユーザ端末。
請求項２２に記載の方法であって、前記レンダリング・システムがさらに、
前記特定のルーム又は領域内のユーザから発するオーディオ・ストリームに起因する背景を表し、任意的に前記特定のルーム又は領域に隣接する任意のルーム又は領域内のユーザから発する任意の隣接ルーム信号の重み付けされた残響バージョンを含むルーム内信号を受信するよう構成されており、ここで、前記ルーム内信号は、前記特定のルーム又は領域内のユーザから発するオーディオ・ストリームおよび任意的にはその特定のルーム又は領域に隣接する単数又は複数のルーム又は領域内のユーザから発する組み合わされた信号の重み付けされた残響バージョンを組み合わせることを含むプロセスによって形成される、
ユーザ端末。
前記隣接ルーム信号が隣接ルーム又は領域内のオーディオ・ストリームを組み合わせる段階を含むプロセスによって形成され、隣接するルーム又は領域内のオーディオ・ストリームを組み合わせる前記段階が、前記特定のルーム又は領域について、前記特定のルーム又は領域に隣接するルーム内のユーザから発する信号の組み合わせの残響バージョンを表すルーム信号を生成することを含む、請求項２２に記載のユーザ端末。
複数の遠隔ユーザ端末と通信する処理システムの一つ又は複数のプロセッサによって実行されたときに請求項１６ないし２０のうちいずれか一項に記載の方法を実施させる実行可能命令を記憶しているコンピュータ可読媒体。
ネットワーク接続されたコンピュータ及び前記ネットワーク接続されたコンピュータに接続された特定ユーザ端末を含む複数のユーザ端末を含む対話型の空間化オーディオ設備の一部である前記特定ユーザ端末の動作方法であって、
特定ユーザによって生成されたオーディオ・ストリーム及び仮想環境内で前記ユーザによって生成された前記オーディオ・ストリームの音源を仮想的に配置することのできる関連する配置データを、前記特定ユーザ端末から前記ネットワーク接続されたコンピュータに送信し、それにより前記ネットワーク接続されたコンピュータが、各ユーザに対応するオーディオ・ストリームのグループを選択し、前記オーディオ・ストリームの少なくともいくつかを選択的に組み合わせ、各グループについて該グループ内のオーディオ・ストリームの音源について関連する配置データを選択できるようにし、ここで前記選択は前記ネットワーク接続されたコンピュータのところで利用可能なユーザ状態データに基づく、段階と、
前記特定ユーザ端末において前記特定ユーザについての前記ユーザ状態データに基づいて選択された複数のオーディオ・ストリームの特定の選択されたグループを受信し、さらに、仮想ユーザ環境内で互いに対して相対的に前記グループのオーディオ・ストリームの音源を仮想的に配置するための関連する配置データを受信する段階と、
前記特定ユーザ端末において、ユーザに対応する前記複数のオーディオ・ストリームの少なくともいくつかを組み合わせることによって形成された組み合わされたオーディオ・ストリームの関数を受信する段階と、
前記特定ユーザ端末において、仮想ユーザ環境内の音源の仮想的な位置を示す、前記オーディオ・ストリームの音源の視覚的表現を生成する段階と、
前記選択されたグループのオーディオ・ストリームおよび前記組み合わされたストリームの関数を変換して、前記組み合わされたストリームに従って生成されたバイノーラル残響信号を含む一対のオーディオ・ヘッドホン信号にするよう構成されており、
前記変換は、ヘッドホンを通じて前記ヘッドホン信号を聞いている前記特定ユーザが前記選択されたグループのオーディオ・ストリームが前記仮想ユーザ環境内において、その特定ユーザの位置に対して相対的なそれぞれのユーザ位置から発する感覚をもつよう前記特定グループに含まれるオーディオ・ストリームを空間化する変換であり、
前記空間化は、直接音及び初期エコーを考慮に入れることも含め前記仮想ユーザ環境中の前記特定ユーザの向きおよび位置を考慮に入れるＨＲＴＦ処理と、前記組み合わされたストリームに応じて生成されたバイノーラル残響信号を含めることによる残響とを含んでいる、
方法。
請求項２６に記載の方法であって、前記仮想環境は、二つ以上のルーム又は領域を規定する一つまたは複数の壁を有しており、前記特定ユーザは仮想環境中で特定のルーム又は領域に位置しており、該特定のルーム又は領域は仮想ユーザ環境内に入口又は出口を有する隣接するルームを含んでおり、
当該方法はさらに、その特定のルーム又は領域とその特定のルーム又は領域に隣接するルーム又は領域との間の前記入口又は出口のところでその特定のルーム又は領域と隣接するルーム又は領域から発する組み合わされた雑音を表す隣接ルーム信号を受信する段階を含む、方法。
請求項２６に記載の方法であって：
前記特定のルーム又は領域内のユーザから発するオーディオ・ストリームに起因する背景を表し、任意的に前記特定のルーム又は領域に隣接する任意のルーム又は領域内のユーザから発する任意の隣接ルーム信号の重み付けされた残響バージョンを含むルーム内信号を受信するよう構成されており、ここで、前記ルーム内信号は、前記特定のルーム又は領域内のユーザから発するオーディオ・ストリームおよび任意的にはその特定のルーム又は領域に隣接する単数又は複数のルーム又は領域内のユーザから発する組み合わされた信号の重み付けされた残響バージョンを組み合わせることを含むプロセスによって形成される、
方法。
特定のユーザ端末内のプロセッサによって実行されたときに、ネットワーク接続されたコンピュータ及び前記ネットワーク接続されたコンピュータに接続された特定ユーザ端末を含む複数のユーザ端末を含む対話型の空間化オーディオ設備の一部である、請求項２６ないし２８のうちいずれか一項に記載の特定ユーザ端末の動作方法を実行させる実行可能命令を記憶しているコンピュータ可読媒体。