WO2014046239A1

WO2014046239A1 - 通信システムと方法とサーバ装置及び端末

Info

Publication number: WO2014046239A1
Application number: PCT/JP2013/075469
Authority: WO
Inventors: 一範小澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-09-21
Filing date: 2013-09-20
Publication date: 2014-03-27
Anticipated expiration: 2015-03-21
Also published as: TW201421963A

Description

通信システムと方法とサーバ装置及び端末

　［関連出願についての記載］
　本発明は、日本国特許出願：特願２０１２－２０８６６３号（２０１２年９月２１日出願）に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
　本発明は、通信システムと方法とサーバ装置及び端末に関する。

　企業等では、高度なセキュリティの確保を図るために、シンクライアント方式が普及し始めている。シンクライアント方式の実装には各種あるが、例えば仮想マシンを用いたシステムが知られている。サーバ装置において、例えば仮想レイヤ上に、仮想マシン（「仮想端末」あるいは「仮想クライアント」ともいう）を備え、仮想マシン上で、仮想ＯＳ（Operating System）（「ゲストＯＳ」ともいう）やアプリケーションを実行する。端末（通信端末）は、ネットワークを介してサーバ装置に通信接続し、あたかも実端末を操作するように、サーバ装置上の仮想端末を操作してアプリケーションを動作させ、例えば画面情報を生成する。仮想端末上のアプリケーションは、該画面情報を端末に送信し、端末の表示装置に該画面情報を表示する。このようなシステムの端末をシンクライアント端末ともいう。端末からのログインＩＤ、端末識別情報に基づきサーバ装置上の、端末の仮想端末への接続が行われ、自宅や外出先からサーバ装置にアクセスし安全に自分の仮想端末に接続し、業務を遂行することができる。

　シンクライアント方式の端末は、データを一切残さないため、例えば端末を紛失しても、秘密情報や企業情報等が外部に漏れることがない。

　なお、シンクライアントシステムに関して、例えば特許文献１には、複数のユーザ夫々に割り当てられたハードウェア資源を用いてコンピュータ画面を映像信号として送信することにより、処理負荷及び通信負荷の増大を抑えて多数のユーザがシンクライアントを利用することができる情報処理装置、情報処理システム及び情報処理装置の制御方法が開示されている。また、特許文献２には、サーバ装置が端末（クライアント端末）における操作情報を取得した上で、その操作により要求された処理を、サーバ装置で動作するアプリケーションに実行させ、該アプリケーションにより実行された処理結果を表示するための画面を生成した上で、その画面を端末（クライアント端末）へ送信するシンクライアントシステムが開示されている。

特開２００９－００９３３０公報特開２０１２－０１４５３３号公報

　以下に関連技術の分析を与える。

　シンクライアントシステムにおいて、サーバ装置を介してＶｏＩＰ（Voice Over IP：IP（Internet Protocol）網上で音声のやり取りを行う）による音声通話を行なう場合、以下のような問題がある。

　モバイルネットワークやインターネットでは、当該ネットワークの帯域幅は、それほど大きくない。またモバイルネットワークやインターネットでは、当該ネットワークの帯域幅が、トラヒックの混み具合により、時間的に変動する。ネットワークの帯域幅が狭くなったときに、音声データがネットワークに滞留する。その結果、音声データがクライアントに到着するまでの遅延時間が長くなり、通話を円滑に行うことが困難となる。

　また、シンクライアント端末と非シンクライアント端末間でサーバ装置を介して音声通話を行う場合、シンクライアント端末に搭載されている音声コーデックと、非シンクライアント端末に搭載されている音声コーデックとは互いに異なる（符号化方式等種類が異なる）場合、サーバ装置で音声コーデックの変換（トランスコーディング）が必要となる。サーバ装置は、シンクライアント端末の音声コーデックで符号化された音声信号を復号し、非シンクライアント端末の音声コーデック対応の符号化方式で符号化して非シンクライアント端末に送信する。またサーバ装置は、非シンクライアント端末の音声コーデックで符号化された音声信号を復号し、シンクライアント端末の音声コーデック対応の符号化方式で符号化して非シンクライアント端末に送信する。トランスコーディングは、処理量が多いため、サーバ装置の負荷が大となる。

　したがって、本発明は上記問題点に鑑みて創案されたものであって、その目的は、ネットワークの帯域幅の変動等による音声の遅延を解消可能とし、例えばシンクライアント端末と非シンクライアント端末間等、音声コーデックが異なる場合の端末間での音声通話時のサーバ装置の負荷を軽減可能とするシステム、装置、方法を提供することにある。

　本発明の一の側面によれば、複数の端末と、ネットワークを介して前記複数の端末に接続されるサーバ装置と、を備え、前記複数の端末は、音声コーデックが異なる第１、第２の端末を含み、前記サーバ装置は、前記ネットワークの帯域を推定し、前記第１及び／又は第２の端末の音声コーデックのビットレートを求め、求めたビットレートを前記第１及び／又は第２の端末に通知し、前記第１又は第２の端末の音声コーデックによる符号を受け、前記符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記符号を復号した信号を、前記符号の送信先である前記第２又は第１の端末の音声コーデック対応の符号化方式にて前記求めたビットレートで符号化するトランスコード処理を行い、前記トランスコード処理した符号を、前記第２又は第１の端末に向けて送信する手段を備えたシステムが提供される。本発明の一の側面によれば、端末と、ネットワークを介して前記端末に接続し、前記端末での操作により、仮想クライアント部でアプリケーションを動作させて得た画面情報を前記端末に転送し、前記端末で表示させるサーバ装置と、
　を備え、前記サーバ装置は、前記端末から受信した操作信号に基づき前記操作が音声通話であるか否かを判別する制御部と、
　前記制御部で音声通話と判別された場合に、前記端末から送出される音声データが格納されたパケットを、前記制御部の指示に基づき、トランスコーディングを行うか、又はトランスコーディングせずにそのまま通過させ、通話先に出力する音声変換部と、
　前記サーバ装置からの所定のパケットの送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し、前記端末の音声コーデックのビットレートを算出し、前記ビットレートを前記端末に通知する帯域推定レート算出部と、
　を備え、
　前記端末が少なくとも第１の端末を含み、
　前記第１の端末と、前記第１の端末の音声コーデックと異なる音声コーデックを備えた第２の端末とが前記サーバ装置を介して音声通話する場合に、前記サーバ装置において、
　前記制御部の指示に基づき、前記音声変換部は、トランスコーディングを行い、その際、前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、前記トランスコーディング後の信号を前記第１の端末に向けて出力し、
　前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、前記トランスコード後の符号を前記第２の端末に向けて出力するシステムが提供される。

　本発明の別の側面によれば、
　ネットワークを介して端末に接続し、前記端末からの操作信号を受信し、前記端末及び他の端末と信号を送受する送受信部と、
　前記端末から受信した操作信号に基づき前記操作が音声通話であるか否かを判別する制御部と、
　前記制御部で音声通話と判別された場合に、前記端末から送出される音声データが格納されたパケットを、前記制御部の指示により、トランスコーディングするか、又はトランスコーディングせずにパケットをそのまま通過させて通話先に出力する音声変換部と、
　所定のパケットの送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し、音声コーデックのビットレートを算出し、前記ビットレートを前記端末に通知する帯域推定レート算出部と、
　を備え、
　前記端末が少なくとも第１の端末を含み、
　前記他の端末が前記第１の端末の音声コーデックと異なる音声コーデックを備えた第２の端末を含み、
　前記第１の端末と前記第２の端末とが前記サーバ装置を介して音声通話するとき、前記制御部の指示に基づき、前記音声変換部は、トランスコーディングを行い、その際、
　前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、トランスコーディング後の信号を前記第１の端末向けに出力し、
　前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、トランスコード後の符号を前記第２の端末向けに出力するサーバ装置が提供される。

　本発明の別の側面によれば、第１の端末と第２の端末とがそれぞれネットワークを介して接続されるサーバ装置を介して音声通話し、
　前記サーバ装置では、前記サーバ装置からの所定のパケットの送出に対する前記第１、第２の端末からの応答信号を基に、前記ネットワークの帯域を推定し、前記端末の音声コーデックのビットレートを算出し、前記ビットレートを前記第１、第２の端末に通知し、
　前記サーバ装置では、前記第１の端末と前記第２の端末の音声コーデックが同一であるか判別し、同一である場合には、前記第１、第２の端末の音声コーデックによるビットストリームをそれぞれ前記第２、第１の端末向けにそのまま出力し、
　前記第１の端末と前記第２の端末の音声コーデックが互いに異なる場合には、サーバ装置にてトランスコーディングを行い、
　その際、前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、トランスコーディング後の信号を前記第１の端末に向けて出力し、前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、トランスコード後の符号を前記第２の端末に向けて出力する、方法が提供される。

　本発明のさらに別の側面によれば、ネットワークを介して、本発明に係る前記サーバ装置に接続し、端末での操作により前記サーバ装置が仮想クライアント部でアプリケーションを動作させて得た画面情報を前記端末に転送し、前記サーバ装置からの画面情報をデコーダで復号して表示部に表示し、他の端末と、前記サーバ装置を介して音声通話する端末が提供される。

　本発明のさらに別の側面によれば、ネットワークを介して端末に接続し、前記端末からの操作信号を受信し、前記端末及び他の端末と信号を送受する送受信処理と、
　前記端末から受信した操作信号に基づき前記操作が音声通話であるか否かを判別する制御処理と、
　前記制御部で音声通話と判別された場合に、前記端末から送出される音声データが格納されたパケットを、前記制御部の指示により、トランスコーディングするか、又はトランスコーディングせずにパケットをそのまま通過させる音声変換処理と、
　前記パケットの送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し、音声コーデックのビットレートを算出し、前記ビットレートを前記端末に通知する帯域推定レート算出処理と、
　を備え、
　前記端末が少なくとも第１の端末を含み、
　前記他の端末が前記第１の端末の音声コーデックと異なる音声コーデックを備えた第２の端末を含み、
　前記第１の端末と前記第２の端末とが前記サーバ装置を介して音声通話するとき、前記制御処理の指示に基づき、前記音声変換処理は、トランスコーディングを行い、その際、前記第２の端末の音声コーデックによる符号の一処理が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、トランスコーディング後の信号を前記第１の端末向けに出力し、
　前記第１の端末の前記音声コーデックによる符号の一処理から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、トランスコード後の符号を前記第２の端末向けに出力する、前記処理をサーバ装置を構成するコンピュータに実行させるプログラムが提供される。

　本発明によれば、ネットワークの帯域幅の変動等による音声の遅延を解消可能とし、例えばシンクライアント端末と非シンクライアント端末間等、音声コーデックが異なる場合の端末間での音声通話時のサーバ装置の負荷を軽減可能としている。

本発明の第１の実施形態の構成例を示す図である。本発明の第１の実施形態におけるサーバ装置の構成を示す図である。本発明の第１の実施形態における音声変換部の構成を示すブロック図である。本発明の第１の実施形態における携帯端末の構成を示す図である。

　本発明によれば、ネットワークを介して端末（図１の１７０）に接続し、前記端末（１７０）での操作により、仮想クライアント部（図２の２１１）でアプリケーション（図２の２１４）を動作させて得た画面情報を前記端末（１７０）に転送し、前記端末で表示させるサーバ装置（１１０）を備え、サーバ装置（１１０）は、前記端末（１７０）から操作信号を格納したパケットを受信し前記操作信号から音声通話であることを判別する制御部（図２の２１２）と、音声通話と判別された場合に、前記端末（１７０）から送出される音声データが格納されたパケットを、前記制御部（図２の２１２）の指示により、トランスコーディング又はパケットスルーして前記端末に送出する音声変換部（図２の１８５）と、前記送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し音声コーデックのビットレートを算出し、該ビットレートを端末（１７０、別の端末１７５）に通知する帯域推定レート算出部（図２の１８３）と、を備えている。前記端末（第１の端末：例えばシンクライアント端末）（１７０）と、前記端末（１７０）の音声コーデックと符号化方式等の種類が異なる音声コーデックを備えた別の端末（第２の端末：例えば非シンクライアント端末）（１７５）とが、前記サーバ装置（１１０）を介して音声通話する場合、前記制御部（図２の２１２）の指示に基づき、前記音声変換部（図２の１８５）は、トランスコーディングを行い、その際、前記別の端末（１７５）の音声コーデック（第１の音声コーデック）による符号の一部が、予め定められた条件を満たす時間区間についてのみ、前記別の端末（１７５）の音声コーデックから、前記端末（１７０）の音声コーデック（第２の音声コーデック）にトランスコーディングし、トランスコーディング後の信号を前記端末（１７０）に出力し、前記端末（１７０）の前記音声コーデック（第２の音声コーデック）による符号の一部から求めた信号が予め定められた条件を満たす時間区間についてのみ、前記端末（１７０）の音声コーデック（第２の音声コーデック）から、前記別の端末（１７５）の音声コーデック（第１の音声コーデック）にトランスコーディングし、トランスコード後の符号を前記別の端末（１７５）に出力する。端末（シンクライアント端末）と、別の端末（非シンクライアント端末）間での、音声通話時のサーバ装置の負荷を軽減可能としており、ネットワークの帯域幅の変動等による音声の遅延を解消可能としている。

　以下では、本発明の実施形態について図面を参照して詳細に説明する。

＜システム構成例＞
　図１は、本発明の第１の実施形態の構成を例示した図である。特に制限されないが、図１では、ネットワークとしては、モバイル３Ｇパケットネットワークを用い、パケット転送装置として、ＳＧＳＮ（Serving GPRS (General Packet Radio Service） Support Node）／ＧＧＳＮ(Gateway GPRS Support Node）装置を用いる場合の構成が示されている。図１において、ＳＧＳＮ／ＧＧＳＮ装置１９０は、ＳＧＳＮ装置とＧＧＳＮ装置を一体化した装置を表している。ネットワークとして、他のネットワーク、例えば、モバイルＬＴＥ（Long Term Evolution）ネットワーク、ＷｉＦｉ（Wireless Fidelity）ネットワーク、ＷｉＭａｘ（Worldwide Interoperability for Microwave Access）ネットワーク、ＩＰ(Internet Protocol)ネットワーク、ＮＧＮ(Next Generation Network)ネットワーク、インターネット等を用いてもよい。

　図１には、携帯端末１７０（携帯電話端末、スマートフォン、タブレット等）が、クラウド網１３０に設置されたサーバ装置１１０に接続し、シンクライアント方式による画面データ転送を行う。携帯端末１７０からサーバ装置１１０を使用して端末１７５に対して、音声通話を行う例を示している。携帯端末１７０は、シンクライアント方式を実現するクライアントソフトウェアを搭載したシンクライアント端末である。端末１７５はシンクライアント方式のクライアントソフトウェアを搭載していない非シンクライアント端末である。また、本実施形態では、携帯端末１７０は、モバイルネットワーク１５０に接続されているが、端末１７５は固定網１５１に接続されている。ＭＧＷ装置（メディアゲートウエイ装置）１９６は、固定網１５１を終端し、音声をＩＰパケットに変換してパケット転送装置に送信し、またＩＰパケットを音声に変換して固定網１５１を介して端末１７５に送信する。

　本実施形態では、サーバ装置１１０には、ユーザ名や電話番号を登録した電話帳１１１が予め用意され接続されている。すなわち、携帯端末（シンクライアント端末）１７０から電話をかけるために必要とされる電話帳（ユーザ名や電話番号等が登録されている）は、サーバ装置１１０側で保有する。このため、携帯端末１７０には、電話帳を一切保有する必要が無い。このため、携帯端末１７０を紛失しても、電話番号やユーザ名等に対するセキュリティを確保することができる。

　図１は、携帯端末１７０がサーバ装置１１０に接続し、端末１７５と音声通話を開始するために、サーバ装置１１０において、不図示の仮想クライアント上で音声通話ＶｏＩＰアプリケーションを起動して生成した画面データを、サーバ装置１１０から携帯端末１７０に転送し、携帯端末１７０のクライアントソフトウェアにより、前記画面データを復号して表示し画面でユーザ名を指定した上で、携帯端末１７０から端末１７５に音声通話をする。

　携帯端末１７０には、シンクライアント端末としての動作をさせるためにクライアントソフトウェア１７１が搭載されている。クライアントソフトウェア１７１については、後に説明する。

　端末１７５は、シンクライアントではない非シンクライアント端末である。このため、クライアントソフトウェアは搭載されていない。したがって、本実施形態では、携帯端末１７０のクライアントソフトウェアに搭載されている音声コーデックと、端末１７５に搭載されている、音声コーデックは異なる（符号化方式等が異なる）ものとする。本実施形態では、一例として、携帯端末１７０のクライアントソフトウェアに搭載されている音声コーデックを、３ＧＰＰ（Third Generation Partner Project）標準のＡＭＲ－ＮＢ(Adaptive Multi-Rate-Narrow Band)、端末１７５の音声コーデックを、ＩＴＵ－Ｔ（International Telecommunication Union Telecommunication Sector）標準のＧ．７１１であるものとする。ＡＭＲ音声コーデックの詳細は、例えば３ＧＰＰ　ＴＳ２６．０９０規格が参照されるＧ．７１１音声コーデックの詳細は、例えばＩＴＵ－Ｔ　Ｇ．７１１規格が参照される。なお、これらの音声コーデックについては、他の周知な音声コーデックを用いてもよい。

　携帯端末１７０が音声通話を開始するために、サーバ装置１１０の仮想クライアント上（図１では不図示：図２の２１１）で音声通話ＶｏＩＰアプリケーション（図１では不図示：図２の２１４）の起動操作をすると、携帯端末１７０からサーバ装置１１０に対してＶｏＩＰアプリケーションを起動させるための操作信号を格納したパケットが送出される。

　サーバ装置１１０は、操作信号を格納したパケットを受信すると、サーバ装置１１０の制御部（図１では不図示：図２の２１２）が音声通話であることを判別し、仮想クライアント（図１では不図示：図２の２１１）上で音声通話ＶｏＩＰアプリケーション（図１では不図示：図２の２１４）を起動させ、画面を生成し、前記画面情報をエンコーダ（図１では不図示：図２の１８８）で符号化してサーバ装置１１０から携帯端末１７０に転送し、携帯端末１７０で前記画面情報をデコードした上で携帯端末１７０の画面に表示する。そして、エンドユーザは、次のアクションである相手先ユーザ名や電話番号の選択等の操作を行う。

　なお、音声通話ＶｏＩＰアプリケーションで作成した画面にオーディオも付随する場合は、画面に付随するオーディオ信号は、音声通話のパスとは別のパスを通り処理される。すわなち、画面キャプチャ部（図１では不図示：図２の１８０）でキャプチャした後でオーディオエンコーダ（図１では不図示：図２の１８９）で圧縮符号化され圧縮符号化ストリームとなり、予め定められたプロトコルにより、音声通話とは別のパケットとして、携帯端末１７０に対して送出される。

　このあと、携帯端末１７０からは、周知の、セッション制御プロトコルによるセッション制御メッセージを格納したパケットと、携帯端末１７０のクライアントソフトウェアに搭載されているＡＭＲ音声エンコーダで音声信号を圧縮符号化して得たビットストリーム（符号）を格納したパケットが送出される。本実施形態では、一例として、セッション制御プロトコルとして、ＳＩＰ (Session Initiation Protocol)を用いるが、他の周知なプロトコルを用いることも出来る。

　これらのパケットは、圏内にあるモバイルネットワーク１５０上の基地局装置１９４に到達し、さらに、ＲＮＣ(Radio Network Controller)装置１９５及びＳＧＳＮ／ＧＧＳＮ装置１９０を経由して、クラウド網１３０のサーバ装置１１０に到達する。

＜サーバ装置＞
　図２は、サーバ装置１１０の構成を説明する図である。図２を参照すると、サーバ装置１１０は、パケット送受信部１８６、制御部２１２、帯域推定・レート算出部１８３、音声変換部１８５、画面生成部２１３、音声通話ＶｏＩＰアプリケーションソフト２１４、画面キャプチャ部１８０、画像エンコーダ部１８８、第１のパケット送受信部１８７、第２のパケット送信部１７６、第３のパケット送信部１７７、オーディオエンコーダ部１８９、仮想クライアント部２１１を備えている。仮想クライアント部２１１は、制御部２１２、画面生成部２１３、音声通話ＶｏＩＰアプリケーションソフト２１４を含む。これら各部は、サーバ装置１１０のコンピュータ上で実行されるプログラムによりその処理・機能の少なくとも１部又は全部を実行するようにしてもよいことは勿論である。この場合、該プログラムを記録したコンピュータ読み出し可能な記録媒体（半導体メモリ、磁気／光ディスク等）が提供される。

　図２には示されていないが、仮想クライアント部２１１は、ホストＯＳの上の仮想化環境におけるゲストＯＳ上で動作している。ホストＯＳやゲストＯＳは周知のＯＳを使用することができる。本実施形態では、一例として、ホストＯＳにはＬｉｎｕｘ（登録商標）を、ゲストＯＳには、端末のＯＳに対応して、例えばＡｎｄｒｏｉｄ（登録商標）を用いる。他のＯＳ、例えばＷｉｎｄｏｗｓ（登録商標）等を用いることもできる。

　仮想クライアント部２１１は、制御部２１２と画面生成部２１３を備えている。音声通話を開始する場合、図１に示した携帯端末１７０は、音声通話ＶｏＩＰアプリソフトを仮想クライアント２１１上で起動するための操作信号を、パケットに格納してサーバ装置１１０に送出する。

　サーバ装置１１０のパケット送受信部１８６が前記操作信号パケットを受信し、パケットから操作信号を取り出し、制御部２１２に出力する。

　制御部２１２は、前記操作信号を入力し、音声通話のためのＶｏＩＰアプリソフトの起動信号であることを判別すると、音声通話ＶｏＩＰアプリケーションソフトを実行させる。

　音声通話ＶｏＩＰアプリケーションソフトの実行により、画面を生成し、画面キャプチャ部１８０に出力する。

　画面キャプチャ部１８０は、前記生成された画面を、予め定められた画面解像度及び予め定められたフレームレートでキャプチャし、画像エンコーダ部１８８に出力する。

　画像エンコーダ部１８８は、入力した画面を予め定められた画像エンコーダを用いて予め定められた画面解像度、ビットレート、フレームレートで圧縮符号化して圧縮符号化ストリームを求め、前記圧縮符号化ストリームを第２のパケット送信部１７６に出力する。ここで圧縮符号化の方式としては、Ｈ．２６４、ＭＰＥＧ（Moving Picture Experts Group）－４、ＪＰＥＧ(Joint Photographic Experts Group)２０００等の周知の圧縮符号化方式を用いることができる。

　第２のパケット送信部１７６は、画像エンコーダ部１８８から入力した圧縮符号化ストリームを予め定められたパケットに格納し、図１に示したＳＧＳＮ／ＧＧＳＮ装置１９０に向け出力する。ここで、パケットのプロトコルは、ＲＴＰ（Real-time Transport Protocol）／ＵＤＰ（User Data Protocol）／ＩＰ(Internet Protocol)でもよいし、ＵＤＰ／ＩＰでもよいし、ＴＣＰ（Transmission Control Protocol）／ＩＰでもよい。本実施形態では、一例として、ＵＤＰ／ＩＰを用いることとする。

　携帯端末１７０（図１）は、サーバ装置１１０の第２のパケット送信部１７６から送信された圧縮符号化ストリームを受信し、予め定められた画面解像度及びフレームレートにより復号し、携帯端末１７０の表示部（不図示）に表示する。

　図２において、制御部２１２は、図１の電話帳１１１から、相手先ユーザ名（図１では、端末１７５を保有するユーザ）、相手先電話番号（図１では、端末１７５の電話番号）を読み出し、画面生成部２１３で画面を生成し、生成画面を画像エンコーダ１８８で圧縮符号化し、携帯端末１７０（図１)に送出する。

　携帯端末１７０（図１の）のエンドユーザは、携帯端末１７０の表示部（不図示）に表示された画面を見ながら、通話先のユーザや電話番号の選択を行なう。音声通話を開始すると、携帯端末１７０（図１）は、サーバ装置１１０（図１）に対して、音声通話開始のＳＩＰメッセージを格納したパケットを送出する。続いて、携帯端末１７０（図１）は、音声信号を、携帯端末１７０のクライアントソフトウェア（図１では不図示：図４の１７１）に搭載されたＡＭＲエンコーダ（図４の２６３）で圧縮符号化したビットストリームを格納したパケットを、サーバ装置１１０に送出する。

　サーバ装置１１０は、音声通話に関わるパケットについては、画面に付随するオーディオとは、別のパスを用いて処理することにより、音声通話の遅延を短縮化する。

　パケット送受信部１８６は、携帯端末１７０から受信したパケットのうち、
・ＳＩＰメッセージが格納されたパケットを、制御部２１２に出力し、
・音声に対する圧縮符号化ストリームが格納されたパケットを、音声変換部１８５に出力し、
・応答パケットを、帯域推定・レート算出部１８３に出力する。

　制御部２１２は、パケット送受信部１８６から前記操作信号を受信すると、次の動作を行う。

（１）前記操作信号を解析し、音声通話の起動操作の場合には、音声通話ＶｏＩＰアプリケーションソフト２１４を起動する。

（２）音声通話の場合、パケット送受信部１８６からＳＩＰメッセージを受信する。

（３）音声通話ＶｏＩＰアプリケーションソフト２１４から、携帯端末１７０（図１）のエンドユーザが選択した、相手先電話番号を入手し、電話帳１１１（図１）を参照して、前記相手先電話番号から、相手先のＩＰアドレスを求める。

（４）前記受信したＳＩＰメッセージの相手先ＩＰアドレスを、（３）で求めたＩＰアドレスに書き換えた上で、書き換え後のＳＩＰメッセージと相手先ＩＰアドレスを、第１のパケット送受信部１８７に出力する。

（５）帯域推定・レート算出部１８３に対して、パケット送受信部１８６からの応答パケット、第１のパケット送受信部１８７からの応答パケットのそれぞれを用いて、携帯端末１７０（図１）に接続しているネットワーク１５０（図１）に対する、上り方向の帯域及び下り方向の帯域を推定するように指示する。

　さらに、必要があれば、制御部２１２は、端末１７５に接続しているネットワーク１５１（図１）に対する、上り方向の帯域及び下り方向の帯域も推定するように指示する。そして、帯域推定・レート算出部１８３に対し、少なくとも、ネットワーク１５０（図１）の上り及び下りのそれぞれに対し、推定した帯域からビットレートを算出し、音声変換部１８５に通知するように指示する。

（６）パケット送受信部１８６より、携帯端末１７０（図１）からのＳＤＰ(Session Description Protocol)を入力し、携帯端末１７０（図１）のクライアントソフトウェアに搭載する音声コーデック（第２の音声コーデック）に関する能力情報をチェックする。本実施形態では、第２の音声コーデックとして、ＡＭＲ音声コーデックを用いるものとする。また、サーバ装置１１０の第１のパケット送受信部１８７にて、端末１７５からのＳＤＰを入力し、端末１７５が搭載する音声コーデック（第１の音声コーデック）に関する能力情報をチェックする。本実施形態では、第１の音声コーデックとして、Ｇ．７１１音声コーデックを使用するものとする。

　次に、制御部２１２は、第１の音声コーデックと第２の音声コーデックが一致するかどうかをチェックするが、本実施形態では、第１の音声コーデックと第２の音声コーデックは一致しない、という判断がなされ、トランスコーディングを行なう、という判断がなされる。

（７）音声変換部１８５に対し次の指示を行なう。

（ａ）第１の音声コーデックのビットストリーム（符号）を第２の音声コーデックのビットストリーム（符号）に変換すること。

（ｂ）第２の音声コーデックのビットストリーム（符号）を第１の音声コーデックのビットストリーム（符号）に変換すること。

　帯域推定・レート算出部１８３は、受動的又は能動的な手法により、パケット送受信部１８６から、応答パケットに含まれる情報を入力し、携帯端末１７０（図１）が接続されるモバイルネットワーク１５０（図１）の帯域ＢＷ＿１を推定する。

　帯域推定・レート算出部１８３は、同様にして、第１のパケット送受信部１８７から、応答パケットに含まれる情報を入力し、端末１７５（図１）が接続されるネットワーク１５１（図１）の帯域ＢＷ＿２を推定する。

　ここで、これらの応答パケットには、少なくとも、次の３種類の情報を含めておくものとする。

（Ａ）サーバ装置１１０（図１）からｊ時刻に送出したデータサイズＤ（ｊ）、

（Ｂ）（Ａ）のパケットを携帯端末１７０（図１）で受信したときの受信時刻Ｒ（ｊ）、

（Ｃ）端末（図１の１７０又は１７５）からサーバ装置１１０（図１）に対し送出する応答信号パケットに含まれるデータサイズＰ（ｍ）。

　なお、能動的手法を用いる場合は、帯域推定・レート算出部１８３は、予め定められたプローブパケットを、予め定められた時間毎に、モバイルネットワーク１５０又は／及びネットワーク１５１に対し送出し、前記プローブパケットに対する、携帯端末１７０又は／及び端末１７５からの応答信号パケットを用いて、モバイルネットワーク１５０又は／及びネットワーク１５１の帯域を推定する。前記プローブパケットには、予め定められたサイズのデータを、複数個、含めておくものとする。

　帯域推定・レート算出部１８３は、応答信号パケットに含まれる３種類の情報を用いてネットワークの帯域を推定する。

　帯域推定・レート算出部１８３は、携帯端末１７０（図１）が接続されるモバイルネットワーク１５０の下り方向の帯域は、式（１）と式（２）を用いて推定する。

　D(j)/W = R(j)- R(j-1) ・・・ (1)

　式（１）において、
Ｗは帯域推定値、
Ｄ（ｊ）は、パケット送受信部１８６又は第１のパケット送受信部１８７から、携帯端末１７０又は端末１７５（図１）に向けて送出したｊ番目のパケットのデータサイズ、
Ｒ（ｊ）、Ｒ（ｊ－１）は、携帯端末１７０又は端末１７５(図１)で、前記ｊ番目、ｊ－１番目をそれぞれ受信したときの受信時刻である。

　帯域推定・レート算出部１８３は、次に、式（１）で計算した帯域推定値Ｗを、式（２）を用いて時間的に平滑化する。

　BW(n) = (1 - β)×BW(n-1) + β×W ・・・ (2)

　ここで、
ＢＷ（ｎ）は第ｎ時刻の平滑化後の帯域推定値であり、
βは０＜β＜１の範囲の定数である。

　次に、帯域推定・レート算出部１８３は、上り方向の帯域推定値を以下のように求める。前記応答信号パケットに、携帯端末１７０（図１）又は端末１７５（図１）が送出した上り方向のデータサイズＰ（ｍ）を含めておくことにより、式（３）により、上り方向の帯域Ｗ’を求める。

　P(m)/W' = T(m) - T(m-1) ・・・(3)

　ここで、
Ｔ（ｍ）は、サーバ装置１１０で、応答信号パケットを受信した受信時刻である。

　帯域推定・レート算出部１８３は、Ｗ’を時間方向で平滑化して、平滑化後の値ＢＷ’を、上り方向の帯域推定値とする。

　BW'(n) = (1 - β)×BW'(n-1) + β×W' ・・・ (4)

　次に、帯域推定・レート算出部１８３は、式（２）で平滑化した帯域推定値ＢＷ（ｎ）を用いて、予め定められた時刻毎に、式（５）、式（６）に従い、下り方向のビットレートＣ（ｎ）を算出する。

　C (n) = (1- γ)×C(n-1) + γ×BW(n) ・・・ (5)

　C(n) ≦ BW(n) ・・・ (6)

　ここで、
Ｃ（ｎ）は、第ｎ時刻でのビットレートであり、
γは０＜γ＜１の範囲の定数である。

　同様にして、式（４）で平滑化した帯域推定値ＢＷ’（ｎ）を用いて、上り方向のビットレートＣ’（ｎ）を、式（７）、式（８）を基に、算出する。

　C'(n) = (1- γ)×C'(n-1) + γ×BW'(n) ・・・ (7)

　C'(n) ≦ BW'(n) ・・・ (8)

　次に、帯域推定・レート算出部１８３は、携帯端末１７０のクライアントソフトウェアに搭載される第２の音声コーデック（ここでは、ＡＭＲ－ＮＢ音声コーデック）に対する上り、下りのビットレートを、式（７）、式（８）を基に、決定する。具体的には、ＡＭＲ－ＮＢ音声コーデックは８種類のビットレート（モード）を持つため、式（７）、式（８）の各々のビットレートを越えない範囲で最も近いビットレートを、前記８種類のビットレートから選択する。そして、帯域推定・レート算出部１８３は、選択した、上り、下りのビットレートをパケット送受信部１８６に出力する。

　パケット送受信部１８６は、選択された、上り、下りのビットレートを入力し、ＡＭＲ－ＮＢのＣＭＲ（Codec Mode Request) に上り、下りのビットレートを含め、前記ＣＭＲをパケットのペイロードヘッダに記載した上で、携帯端末１７０に対して出力する。ここで、ＣＭＲの詳細については、ＩＥＴＦ（The Internet Engineering Task Force）　ＲＦＣ（Request for Comments）３２６７等が参照される。

　さらに、パケット送受信部１８６は、前記上り、下りのビットレートを、音声変換部１８５に出力する。

　また、端末１７５に対する下り、上りのビットレートを、第１のパケット送受信部１８７に出力し、ＳＤＰを用いて、端末１７５に対して通知させる。

　なお、携帯端末１７０に搭載されているＡＭＲ－ＮＢに対しては、下り、上りのビットレートの通知は、ＣＭＲを使う代わりに、ＳＤＰ　(Session Description Protocol)を用いて通知するようにしてもよいし、他の周知な手法を用いても良い。

＜音声変換部＞
　図３は、音声変換部１８５の構成を説明する図である。音声変換部１８５は、トランスコーディング／スルー切り替え部２２０＿１、２２０＿２、レベル判別部２２２、２２３、Ｇ．７１１デコーダ２２１、Ｇ．７１１エンコーダ２２８、ＡＭＲエンコーダ２２４、ＡＭＲデコーダ２２５を備えている。

　トランスコーディング／スルー切り替え部２２０＿１及び２２０＿２は、制御部２１２から、第１の音声コーデックと第２の音声コーデックの種類の通知、及び、第１の音声コーデックと第２の音声コーデック間でトランスコーディングする指示を入力し、トランスコーディングに処理を切り替え、以下の処理を行う。本実施の形態では、第１の音声コーデック、第２の音声コーデックをそれぞれ、ＩＴＵ－Ｔ　Ｇ．７１１、３ＧＰＰ　ＡＭＲ－ＮＢとしている。第１の音声コーデックと第２の音声コーデックが一致し、制御部２１２からの指示が、トランスコーディング（デコーダで復号しエンコーダで再符号化）を行わず、パケットをスルーさせる場合、トランスコーディング／スルー切り替え部２２０＿１及び２２０＿２は、トランスコーディングから、スルーモードに切り替え、パケットをスルーさせる（トランスコーディング／スルー切り替え部２２０＿１に入力されたパケットは、Ｇ．７１１デコーダ２２１、ＡＭＲエンコーダ２２４をスルーして（デコード処理、エンコード処理をスキップして）、トランスコーディング／スルー切り替え部２２０＿２へ転送される。また、トランスコーディング／スルー切り替え部２２０＿２に入力されたパケットは、ＡＭＲデコーダ２２５、Ｇ．７１１エンコーダ２２８をスルーして（デコード処理、エンコード処理をスキップして）、トランスコーディング／スルー切り替え部２２０＿１へ転送される）。

　第１の音声コーデック（Ｇ．７１１）から第２の音声コーデック（ＡＭＲ－ＮＢ）へのトランスコーディングについて説明する。トランスコーディング／スルー切り替え部２２０＿１は、図２の第１のパケット送受信部１８７から第１の音声コーデックによるビットストリーム（符号）を入力する。

　レベル判別部２２２は、第１の音声コーデック（Ｇ．７１１）のビットストリーム（符号）から符号の一部を抽出する。具体的には、ＭＳＢ（Most Significant Bit）である符号ビットを除き上位から３ビット分を抽出して復号する。復号した信号を予め定められた時間区間（例えば２０ｍｓ）にわたり、平滑化処理あるいは平均化処理を行ない、処理結果Ｇ１を求める。

　Ｇ１について、予め定めら得た条件を満足するかどうかを判別する。

　本実施形態では、予め定められた条件とは、次式に示す、予め定められたしきい値Ｔｈ１との比較判別であるものとするが、他の条件を用いることもできる。

　G1 ≧ Th1 ・・・ (9)

　ここで、Ｔｈ１はレベルに関する予め定めら得たしきい値である。

　レベル判別部２２２は、
・処理結果Ｇ１がＴｈ１より大の時間区間は、ＡＭＲエンコーダ２２４に対し、Ｇ．７１１デコーダ２２１の出力信号を、エンコードするように指示し、
・処理結果Ｇ１がＴｈ１未満の時間区間は、ＡＭＲエンコーダ２２４に対し、Ｇ．７１１デコーダ２２１の出力信号を、エンコードしないように指示する。

　Ｇ．７１１デコーダ２２１は、トランスコーディング／スルー切り替え部２２０＿１から第１の音声コーデック（Ｇ．７１１）のビットストリームを入力し復号してＡＭＲエンコーダ２２４に出力する。

　ＡＭＲエンコーダ２２４は、ＡＭＲ－ＮＢエンコーダを保有しており、レベル判別部２２２からＡＭＲエンコードすべき指示を入力し、帯域推定・レート算出部１８３から下り方向のビットレートを入力し、エンコード指示のある時間区間についてのみ、Ｇ．７１１デコーダ２２１から入力した復号信号（Ｇ．７１１復号信号）を、ＡＭＲ－ＮＢにエンコードし、トランスコーディング／スルー切り替え部２２０＿２に出力する。

　ここで、ＡＭＲ－ＮＢエンコードするときのビットレートは、帯域推定・ビットレート算出部１８３から入力したビットレートに従う。

　ＡＭＲエンコーダ２２４は、エンコード指示のない時間区間では、ＡＭＲ－ＮＢエンコードは行わず、トランスコーディング／スルー切り替え部２２０＿２への出力も行なわない。

　トランスコーディング／スルー切り替え部２２０＿２は、ＡＭＲエンコーダ２２４から入力した第２の音声コーデックのビットストリーム（符号）を、図２のパケット送受信部１８６に出力する。

　次に、第２の音声コーデック（ＡＭＲ－ＮＢ）から第１の音声コーデック（Ｇ．７１１）へのトランスコーディングについて説明する。

　トランスコーディング／スルー切り替え部２２０＿２は、パケット送受信部１８６から第２の音声コーデックのビットストリーム（符号）を入力し、レベル判別部２２３とＡＭＲデコーダ２２５へ出力する。

　また、レベル判別部２２３とＡＭＲデコーダ２２５は、帯域推定・レート算出部１８３から、第２の音声コーデックの上り方向のビットレートを入力する。3GPP TS26.090規格に記載されているように、ＡＭＲ－ＮＢコーデックにより２０ｍｓ毎に圧縮符号化されたビットストリームでは、ＡＭＲ－ＮＢのビットレートにより、レベルを表すゲインのビット数が異なっている。したがって、レベル判別部２２３は、第２の音声コーデックのビットストリーム（符号）を入力し、ビットレート情報に基づき、符号から一部を抽出する。具体的には、符号からゲインを示す部分を抽出し、抽出した符号からゲインを復号して、２０ｍｓの時間区間毎に、Ｇ２を得る。復号したゲインＧ２に対し、次式に従い時間方向に平滑化する。

　Gm = (1 - δ)×Gm-1 + δ× G2 ・・・ (10)

　ここで、
Ｇｍは平滑化後のゲインを示し、
δは平滑化次定数を示す。０＜δ＜１とする。

　Ｇｍが予め定められた条件を満たす場合に、第２の音声コーデックから第１の音声コーデックへのトランスコーディングを行なう。ここで、予め定められた条件とは、本実施形態では、次式（１１）とするが、他の条件を用いることもできる。

　Gm ≧ Th2 ・・・ (11)

　レベル判別部２２３は、式（１１）の条件を満たす場合に、Ｇ．７１１エンコーダ２２８に対し、ＡＭＲデコーダ２２５の出力信号（復号信号）に対してＧ．７１１エンコードするように指示する。なお、式（１１）の条件を満たさない場合には、Ｇ．７１１エンコーダ２２８に対しては、Ｇ．７１１エンコードする指示は出さない。

　ＡＭＲデコーダ２２５は、帯域推定・レート算出部１８３から、第２の音声コーデックの上りのビットレートを入力し、当該ビットレートに従い第２の音声コーデックのビットストリームをＡＭＲ復号し、Ｇ．７１１エンコーダ２２８に出力する。

　Ｇ．７１１エンコーダ２２８は、レベル判別部２２３からエンコード指示を入力し、ＡＭＲデコーダ２２５からの出力信号に対し、エンコード指示のある時間区間についてのみＧ．７１１エンコードして、トランスコーディング／スルー切り替え部２２０＿１に出力する。Ｇ．７１１エンコーダ２２８はエンコード指示のない時間区間では、Ｇ．７１１エンコードを行わず、トランスコーディング／スルー切り替え部２２０＿１への出力もしない。

　トランスコーディング／スルー切り替え部２２０＿１は、Ｇ．７１１エンコーダ２２８から入力した第１の音声コーデックのビットストリーム（符号）を、図２の第１のパケット送受信部１８７に出力する。

　図２の第１のパケット送受信部１８７は、制御部２１２から、相手先ＩＰアドレス及びＳＩＰメッセージを入力し、帯域推定・レート算出部１８３から、上り、下りのビットレートを記載したＳＤＰを入力し、これらをＳＩＰ／ＳＤＰパケットとして、図１のＭＧＷ装置１９６に出力する。さらに、図２の第１のパケット送受信部１８７は、音声変換部１８５から第１の音声コーデックによるビットストリームを入力し、予め定められたプロトコルによりパケット化して、図１のＭＧＷ装置１９６に出力する。ここで、予め定められたプロトコルとして、本実施形態では、ＲＴＰ／ＵＤＰ／ＩＰを用いるが、他の周知なプロトコルを用いることもできる。

　図２のパケット送受信部１８６は、帯域推定・レート算出部１８３から、携帯端末１７０のクライアントソフトウェアに搭載したＡＭＲ－ＮＢ音声コーデックに対する上り、下りのビットレートを記載したＣＭＲ又はＳＤＰを入力し、音声変換部１８５から第２の音声コーデックのビットストリームを入力し、予め定められたパケットを構成して図１のＳＧＳＮ／ＧＧＳＮ装置１９０に向けて出力する。ここで、予め定められたプロトコルとして、本実施形態では、ＲＴＰ／ＵＤＰ／ＩＰを用いるが、他の周知なプロトコルを用いることもできる。ここで、ＡＭＲ－ＮＢに対する上り、下りのビットレートの指定法としてＣＭＲを用いる場合は、ＲＴＰパケットのペイロードフォーマットにＣＭＲを組み込む。ＡＭＲ－ＮＢのＲＴＰペイロードフォーマットならびにＣＭＲの詳細は、IETF RFC3267を参照することができる。一方、ＳＤＰを用いる場合は、ＳＩＰ／ＳＤＰメッセージ、ＡＭＲ－ＮＢに対する上り、下りのビットレートを含めることができる。

＜シンクライアント端末＞
　図４は、シンクライアント端末である携帯端末１７０（図１）の構成を説明する図である。クライアントソフトウェア１７１は、第１のパケット送受信部２６０、第２、３のパケット受信部２５０、２５１、パケット送信部２５８、画像デコーダ２５２、画面表示部２５６、オーディオデコーダ２５５、ビットレート制御部２６１、ＡＭＲデコーダ２６２、ＡＭＲエンコーダ２６３、操作信号生成部２５７を備えている。これら各部は、携帯端末１７０のコンピュータ上で実行されるプログラムによりその処理・機能が実現される。図４において、携帯端末１７０には、クライアントソフトウェア１７１を搭載させることにより、シンクライアントのクライアントの動作を実行する。本実施形態では、前述のように、シンクライアントソフトウェアには、第２の音声コーデックであるＡＭＲ－ＮＢ音声コーデックを搭載しているものとする。

　図４において、音声通話の場合に、ユーザが画面上で音声ＶｏＩＰアプリケーションソフトを起動するために携帯端末の画面上で操作すると、操作信号生成部２５７は起動のための操作信号を生成し、パケット送信部２５８でこれをパケット化して携帯端末１７０からモバイルネットワーク１５０（図１）に送出する。

　第１のパケット送受信部２６０は、サーバ装置１１０（図１）から送出された、ＳＩＰ／ＳＤＰによるメッセージと第２の音声コーデックが格納されたパケットを入力する。

　能動的な帯域推定の場合には、第１のパケット送受信部２６０は、図２の帯域推定・レート算出部１８３から、プローブパケットを受信する。

　第１のパケット送受信部２６０は、ＳＤＰメッセージから、又は、前記パケットのＲＴＰペイロードフォーマットのＣＭＲから、ＡＭＲ－ＮＢの上り、下りのビットレート情報を抽出し、ビットレート制御部２６１に出力する。また、ＲＴＰペイロードから第２の音声コーデックのビットストリームを抽出しＡＭＲデコーダ２６２へ出力する。

　また、能動的な帯域推定の場合は、前記プローブパケットに対して、必要な情報を含めた応答信号パケットを作成し、応答信号パケットを携帯端末１７０からモバイルネットワーク１５０に向け送出する。必要な情報とは、例えば、
（１）フローブパケットに対し、携帯端末１７０での到着時間が遅延し始めるときのデータサイズ、
（２）フローブパケットの到着時刻、
（３）携帯端末からサーバ装置に送出する応答パケットに含まれるデータサイズ、
（４）応答パケットを送出するときの送出時刻、
等である。

　受動的な帯域推定の場合は、サーバ装置１１０（図１）からの送出されたパケットに対し、応答信号パケットを作成し、携帯端末１７０からモバイルネットワーク１５０（図１）に向け送出する。

　この応答信号パケットには、例えば、
（１）受信したデータサイズ、
（２）送出パケットを携帯端末で受信したときの受信時刻、
（３）携帯端末１７０からサーバ装置１１０に対し送出する応答信号パケットに含まれるデータサイズ、
等が含まれる。

　ビットレート制御部２６１は、下りのビットレートをＡＭＲデコーダ２６２に出力し、上りのビットレートをＡＭＲエンコーダ２６３に出力する。

　ＡＭＲデコーダ２６２は、ビットレート制御部２６１から下りのビットレートを入力し、下りのビットレートに基づき、ＡＭＲ－ＮＢの８種類のモードから１種類を選択し、第２の音声コーデックのビットストリームを入力し、選択されたビットレートのＡＭＲデコーダで復号する。ただし、前記ビットストリームが入力されない時間区間では、ＣＮＧ（Comfort Noise Generation）による微小レベルのノイズ信号を発生させ（無音区間の背景雑音（白色雑音等）を擬似的に生成する）、前記復号信号に接続することにより全体の音声信号を生成し、携帯端末１７０から出力する。

　ＡＭＲエンコーダ２６３は、ビットレート制御部２６１から入力したビットレートに基づき、８種類あるモードから１種類を選択し、携帯端末１７０のユーザが発声した音声を、指定されたビットレートでエンコードし、第２の音声コーデックによるビットストリームを第１のパケット送受信部２６０に送出し、第１のパケット送受信部２６０はこれを携帯端末１７０からモバイルネットワーク１５０に送出する。

　第２のパケット受信部２５０は、画面信号に対する圧縮符号化ビットストリームを入力し、サーバ装置１１０と同じ画像コーデックを用いて前記圧縮符号化ビットストリームを復号し画面表示部２５６に出力する。

　画面表示部２５６は、前記復号画面信号を入力し、画面を構築して、携帯端末の表示部（不図示）の画面に表示する。

　画面に付随するオーディオ信号がある場合、第３のパケット受信部２５１は、オーディオ信号に対する圧縮符号化ビットストリームが格納されたパケットを入力し、オーディオ信号に対する圧縮符号化ビットストリームを抽出してオーディオデコーダ２５５に出力する。

　オーディオデコーダ２５５は、オーディオ信号に対する圧縮符号化ビットストリームを入力し、復号して携帯端末１７０のスピーカ（不図示）から出力する。

　第一の実施の形態では、ネットワーク１５０として、モバイル３Ｇネットワークのケースを説明したが、モバイルＬＴＥ（Long Term Evolution）ネットワークとしてもよい。また、固定網ネットワークや、ＮＧＮ(Next Generation Network)ネットワークや、Ｗ－ＬＡＮネットワークや、インターネット網等を用いることもできる。また、携帯端末のかわりに固定端末を用いることもできる。また、サーバ装置１１０を企業網ではなく、モバイルネットワークや固定網に配置することもできる。

　また、サーバ装置１１０を、モバイルネットワーク内に配置するようにしてもよい。あるいは、固定網ネットワーク内に配置するようにしてもよい。また、端末として、携帯端末１７０には、スマートフォンやタブレットを用いることもできる。第１の音声コーデック、第２の音声コーデックには、他の周知な音声コーデックを用いることができる。

　トランスコーディグする際の予め定められた条件としては、前記実施形態の条件とは異なる条件を用いるようにしてもよい。

　なお、本実施の形態では、端末での音声コーデックが一致しない場合に、サーバ装置１１０の音声変換部１８５にて、音声コーデックのトランスコーディングを行う例を説明したが、端末での音声コーデックが一致する場合は、サーバ装置１１０では、トランスコーディングは行わずに（音声変換部１８５でパケットをスルーさせているが、音声変換部１８５を経由せず）、パケット送受信部１８６と、第１のパケット送受信部１８７の間で、パケットをスルーする構成としてもよい。

　上記実施形態によれば、シンクライアントを使ってＶｏＩＰによる音声通話を行なう場合に、モバイルネットワーク等での帯域幅の変動に応じてサーバでビットレートを算出し、これに基づき、シンクライアント端末での音声コーデックのビットレートを切り替えることができる。このため、ネットワークの帯域幅が狭くなったときに、遅延時間が長くなり通話がしづらくなる、という前記問題点を解消することができる。

　また、シンクライアント端末で音声コーデックのビットレートを切り替えながらネットワークの帯域変動に対応する場合に、シンクライアント端末と非シンクライアント端末での接続で端末間の音声コーデックが異なる場合、サーバ装置において少ない負荷でトランスコーディングを行うことができる。

　上記した実施形態は、特に制限されないが、例えば以下のように付記される。

（付記１）
　端末と、
　ネットワークを介して前記端末に接続し、前記端末での操作により、仮想クライアント部でアプリケーションを動作させて得た画面情報を前記端末に転送し、前記端末で表示させるサーバ装置と、
　を備え、前記サーバ装置は、前記端末から受信した操作信号に基づき前記操作が音声通話であるか否かを判別する制御部と、
　前記制御部で音声通話と判別された場合に、前記端末から送出される音声データが格納されたパケットを、前記制御部の指示に基づき、トランスコーディングを行うか、又はトランスコーディングせずにそのまま通過させ、通話先に出力する音声変換部と、
　前記サーバ装置からの所定のパケットの送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し、前記端末の音声コーデックのビットレートを算出し、前記ビットレートを前記端末に通知する帯域推定レート算出部と、
　を備え、
　前記端末が少なくとも第１の端末を含み、
　前記第１の端末と、前記第１の端末の音声コーデックと異なる音声コーデックを備えた第２の端末とが前記サーバ装置を介して音声通話する場合に、前記サーバ装置において、
　前記制御部の指示に基づき、前記音声変換部は、トランスコーディングを行い、その際、前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、前記トランスコーディング後の信号を前記第１の端末に向けて出力し、
　前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、前記トランスコード後の符号を前記第２の端末に向けて出力する、ことを特徴とする通信システム。

（付記２）
　前記音声変換部において、
　前記第２の端末の音声コーデックによるビットストリームを復号する第１のデコーダと、
　前記第１の端末の音声コーデックによるビットストリームを復号する第２のデコーダと、
　第１のエンコーダと、
　第２のエンコーダと、
　前記第２の端末の音声コーデックによるビットストリームの一部を抽出し抽出した信号が予め定められた時間区間にわたり平滑化又は平均化処理し処理結果が予め定められた閾値以上であるという条件を満たす前記時間区間について、前記第１のエンコーダに対して、前記第１のデコーダの出力を符号化するように指示する第１の判別部と、
　前記第１の端末の音声コーデックによるビットストリームからゲインを表す部分を抽出し、抽出した符号からゲインを復号し、予め定められた時間区間毎に得た復号したゲインを時間方向に平滑化し、平滑化したゲインが予め定められた閾値以上であるという条件を満たす場合に、前記第２のエンコーダに対して、前記第２のデコーダの出力を符号化するように指示する第２の判別部と、
　を備え、
　前記第１のエンコーダは、前記第１のデコーダで復号された信号を、前記第１の判別部から符号化の指示のある時間区間について、前記第１の端末の音声コーデックの符号化方式で符号化して前記第１の端末向けに出力し、符号化の指示のない時間区間では、符号化せず、出力も行わず、
　前記第２のエンコーダは、前記第２のデコーダで復号された信号を、前記第２の判別部から符号化の指示のある時間区間について、前記第２の端末の音声コーデックの符号化方式で符号化して、前記第２の端末向けに出力し、符号化の指示のない時間区間では符号化せず、出力も行わず、
　前記制御部からの指示に基づき、前記第１の端末と前記第２の端末の音声コーデックが同一である場合には、前記第２の端末の音声コーデックによるビットストリームを前記第１の端末向けにそのまま出力し、前記第１の端末の音声コーデックによるビットストリームを前記第２の端末向けにそのまま出力する、ことを特徴とする付記１記載の通信システム。

（付記３）
　前記制御部からの指示に基づき、前記第１の端末と前記第２の端末の音声コーデックが同一である場合には、前記第１の端末の音声コーデックによるビットストリームを受信した送受信部は、前記ビットストリームを、音声変換部を介さずに、そのまま第１の送受信部に転送し、前記第１の送受信部から前記第２の端末向けに出力し、
　前記第２の端末の音声コーデックによるビットストリームを受信した前記第１の送受信部は、前記ビットストリームを音声変換部を介さずに、そのまま前記送受信部に転送し、前記送受信部から、前記第１の端末向けに出力する、ことを特徴とする付記１又は２記載の通信システム。

（付記４）
　前記帯域推定レート算出部は、前記第１の端末及び前記第２の端末の音声コーデックに対する上りと下りのビットレートを算出し、それぞれ、前記第１の端末及び前記第２の端末に通知し、さらに、前記上りと下りのビットレートを前記音声変換部に出力し、
　前記音声変換部において、前記第１、第２のエンコーダの符号化のビットレートは、前記帯域推定レート算出部から出力されたビットレートに従う、ことを特徴とする付記２記載の通信システム。

（付記５）
　前記制御部は、
（Ａ）前記操作信号を解析し、音声通話の起動操作の場合には、音声通話アプリケーションを起動し、
（Ｂ）音声通話アプリケーションから、前記第１の端末のユーザが選択した、相手先電話番号を取得し、前記相手先電話番号から、相手先のアドレスを求め、
（Ｃ）前記第１の端末から受信したメッセージに前記相手先アドレスを設定し、
（Ｄ）前記帯域推定レート算出部に対して、前記第１の端末に接続しているネットワークに対する、上り方向の帯域及び下り方向の帯域を推定するよう指示し、
（Ｅ）前記第２の端末に接続しているネットワークに対する、上り方向の帯域及び下り方向の帯域も推定するよう指示し、
（Ｆ）前記第２の端末の音声コーデックである第１の音声コーデック、前記第１の端末の音声コーデックである第２の音声コーデックに関する能力情報をチェックし、これらが一致するかどうかを判定し、
（Ｇ）前記音声変換部に対して、前記第１の音声コーデックのビットストリームの前記第２の音声コーデックのビットストリームへの変換、及び、前記第２の音声コーデックのビットストリームの前記第１の音声コーデックのビットストリームへの変換を、指示する、ことを特徴とする付記１乃至４のいずれか一に記載の通信システム。

（付記６）
　前記帯域推定レート算出部は、前記第１、第２の端末の各端末からの応答信号に含まれる情報から、
　前記各端末が接続するネットワークの下り方向の帯域Ｗを、前記サーバ装置が前記各端末に向けて送出したｊ番目（ｊは所定の正整数）のパケットのデータサイズＤ（ｊ）を、前記各端末で前記ｊ番目、（ｊ－１）番目のパケット受信したときの受信時刻Ｒ（ｊ）、Ｒ（ｊ－１）の差分Ｒ（ｊ）－Ｒ（ｊ－１）で除算することで求め、
　前記帯域推定値Ｗを、時間的に平滑化し、平滑化後の第ｎ時刻の帯域推定値ＢＷ（ｎ）を求め、
　前記各端末からの前記応答信号に、前記各端末が送出した上り方向のデータサイズを含め、
　前記各端末が接続するネットワークの上り方向の帯域Ｗ’を、ｍ番目（ｍは所定の正整数）のデータサイズＰ（ｍ）を、前記サーバ装置でｍ番目、（ｍ－１）番目の前記応答信号を受信した受信時刻Ｔ（ｍ）、Ｔ（ｍ－１）の差分Ｔ（ｍ）－Ｔ（ｍ－１）で除算することで求め、
　前記Ｗ’を時間方向で平滑化して、平滑化後の第ｎ時刻の帯域推定値ＢＷ’（ｎ）を上り方向の帯域推定値とし、
　下り方向の第ｎ時刻でのビットレートＣ（ｎ）を以下の式
Ｃ（ｎ）＝（１－γ）×Ｃ（ｎ－１）＋γ×ＢＷ（ｎ）　　
Ｃ（ｎ）≦ＢＷ（ｎ）
（ただし、γは０＜γ＜１の範囲の定数）
に基づき、求め、
　上り方向の第ｎ時刻でのビットレートＣ’（ｎ）を以下の式、
Ｃ’（ｎ）＝（１－γ）×Ｃ’（ｎ－１）＋γ×ＢＷ’（ｎ）
Ｃ’（ｎ）≦ＢＷ’（ｎ）
に基づき求める、ことを特徴とする付記１又は４記載の通信システム。

（付記７）
　前記第１及び第２の端末の少なくとも１つは、前記サーバ装置から送信された符号化されたビットストリームを入力して音声の復号信号を出力するデコーダでは、前記ビットストリームが入力されない時間区間では、ＣＮＧ（Comfort Noise Generation）に雑音信号を発生させ、前記復号信号に接続する、付記１記載の通信システム。

（付記８）
　ネットワークを介して端末に接続し、前記端末からの操作信号を受信し、前記端末及び他の端末と信号を送受する送受信部と、
　前記端末から受信した操作信号に基づき前記操作が音声通話であるか否かを判別する制御部と、
　前記制御部で音声通話と判別された場合に、前記端末から送出される音声データが格納されたパケットを、前記制御部の指示により、トランスコーディングするか、又はトランスコーディングせずにパケットをそのまま通過させて通話先に出力する音声変換部と、
　所定のパケットの送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し、音声コーデックのビットレートを算出し、前記ビットレートを前記端末に通知する帯域推定レート算出部と、
　を備え、
　前記端末が第１の端末を含み、
　前記他の端末が前記第１の端末の音声コーデックと異なる音声コーデックを備えた第２の端末を含み、
　前記第１の端末と前記第２の端末とが前記サーバ装置を介して音声通話するとき、
　前記制御部からの指示により、前記音声変換部はトランスコーディングを行い、その際、前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、トランスコーディング後の信号を前記第１の端末向けに出力し、
　前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、トランスコード後の符号を前記第２の端末向けに出力する、ことを特徴とするサーバ装置。

（付記９）
　前記サーバ装置は、ネットワークを介して前記端末に接続し、前記端末での操作により、仮想クライアント部でアプリケーションを動作させて得た画面情報を前記端末に転送し、前記端末で表示させる、ことを特徴とする付記８記載のサーバ装置。

（付記１０）
　前記音声変換部において、
　前記第２の端末の音声コーデックによるビットストリームを復号する第１のデコーダと、
　前記第１の端末の音声コーデックによるビットストリームを復号する第２のデコーダと、
　第１のエンコーダと、
　第２のエンコーダと、
　前記第２の端末の音声コーデックによるビットストリームの一部を抽出し抽出した信号が予め定められた時間区間にわたり平滑化又は平均化処理し処理結果が予め定められた閾値以上であるという条件を満たす前記時間区間について、前記第１のエンコーダに対して、前記第１のデコーダの出力を符号化するように指示する第１の判別部と、
　前記第１の端末の音声コーデックによるビットストリームからゲインを表す部分を抽出し、抽出した符号からゲインを復号し、予め定められた時間区間毎に得た復号したゲインを時間方向に平滑化し、平滑化したゲインが予め定められた閾値以上であるという条件を満たす場合に、前記第２のエンコーダに対して、前記第２のデコーダの出力を符号化するように指示する第２の判別部と、
　を備え、
　前記第１のエンコーダは、前記第１のデコーダで復号された信号を、前記第１の判別部から符号化の指示のある時間区間について、前記第１の端末の音声コーデックの符号化方式で符号化して前記第１の端末向けに出力し、符号化の指示のない時間区間では、符号化せず、出力も行わず、
　前記第２のエンコーダは、前記第２のデコーダで復号された信号を、前記第２の判別部から符号化の指示のある時間区間について、前記第２の端末の音声コーデックの符号化方式で符号化して、前記第２の端末向けに出力し、符号化の指示のない時間区間では符号化せず、出力も行わず、
　前記制御部からの指示に基づき、前記第１の端末と前記第２の端末の音声コーデックが同一である場合には、前記第２の端末の音声コーデックによるビットストリームを前記第１の端末向けにそのまま出力し、前記第１の端末の音声コーデックによるビットストリームを前記第２の端末向けにそのまま出力する、ことを特徴とする付記８又は９記載のサーバ装置。

（付記１１）
　前記制御部からの指示に基づき、前記第１の端末と前記第２の端末の音声コーデックが同一である場合には、前記第１の端末の音声コーデックによるビットストリームを受信した送受信部は、前記ビットストリームを、音声変換部を介さずに、そのまま第１の送受信部に転送し、前記第１の送受信部から前記第２の端末向けに出力し、
　前記第２の端末の音声コーデックによるビットストリームを受信した前記第１の送受信部は、前記ビットストリームを音声変換部を介さずに、そのまま前記送受信部に転送し、前記送受信部から、前記第１の端末向けに出力する、ことを特徴とする付記１乃至１０のいずれか１項に記載の通信システム。

（付記１２）
　前記帯域推定レート算出部は、前記第１の端末及び前記第２の端末の音声コーデックに対する上りと下りのビットレートを算出し、それぞれ、前記第１の端末及び前記第２の端末に通知し、さらに、前記上りと下りのビットレートを前記音声変換部に出力し、
　前記音声変換部において、前記第１、第２のエンコーダの符号化のビットレートは、前記帯域推定レート算出部から出力されたビットレートに従う、ことを特徴とする付記８記載のサーバ装置。

（付記１３）
　前記制御部は、
（Ａ）前記操作信号を解析し、音声通話の起動操作の場合には、音声通話アプリケーションを起動し、
（Ｂ）音声通話アプリケーションから、前記第１の端末のユーザが選択した、相手先電話番号を取得し、前記相手先電話番号から、相手先のアドレスを求め、
（Ｃ）前記第１の端末から受信したメッセージに前記相手先アドレスを設定し、
（Ｄ）前記帯域推定レート算出部に対して、前記第１の端末に接続しているネットワークに対する、上り方向の帯域及び下り方向の帯域を推定するよう指示し、
（Ｅ）前記第２の端末に接続しているネットワークに対する、上り方向の帯域及び下り方向の帯域も推定するよう指示し、
（Ｆ）前記第２の端末の音声コーデックである第１の音声コーデック、前記第１の端末の音声コーデックである第２の音声コーデックに関する能力情報をチェックし、これらが一致するかどうかを判定し、
（Ｇ）前記音声変換部に対して、前記第１の音声コーデックのビットストリームの前記第２の音声コーデックのビットストリームへの変換、及び、前記第２の音声コーデックのビットストリームの前記第１の音声コーデックのビットストリームへの変換を、指示する、ことを特徴とする付記８乃至１２のいずれか一に記載のサーバ装置。

（付記１４）
　前記帯域推定レート算出部は、前記第１、第２の端末の各端末からの応答信号に含まれる情報から、
　前記各端末が接続するネットワークの下り方向の帯域Ｗを、前記サーバ装置が前記各端末に向けて送出したｊ番目（ｊは所定の正整数）のパケットのデータサイズＤ（ｊ）を、前記各端末で前記ｊ番目、（ｊ－１）番目のパケット受信したときの受信時刻Ｒ（ｊ）、Ｒ（ｊ－１）の差分Ｒ（ｊ）－Ｒ（ｊ－１）で除算することで求め、
　前記帯域推定値Ｗを、時間的に平滑化し、平滑化後の第ｎ時刻の帯域推定値ＢＷ（ｎ）を求め、
　前記各端末からの前記応答信号に、前記各端末が送出した上り方向のデータサイズを含め、
　前記各端末が接続するネットワークの上り方向の帯域Ｗ’を、ｍ番目（ｍは所定の正整数）のデータサイズＰ（ｍ）を、前記サーバ装置でｍ番目、（ｍ－１）番目の前記応答信号を受信した受信時刻Ｔ（ｍ）、Ｔ（ｍ－１）の差分Ｔ（ｍ）－Ｔ（ｍ－１）で除算することで求め、
　前記Ｗ’を時間方向で平滑化して、平滑化後の第ｎ時刻の帯域推定値ＢＷ’（ｎ）を上り方向の帯域推定値とし、
　下り方向の第ｎ時刻でのビットレートＣ（ｎ）を以下の式
Ｃ（ｎ）＝（１－γ）×Ｃ（ｎ－１）＋γ×ＢＷ（ｎ）　　
Ｃ（ｎ）≦ＢＷ（ｎ）
（ただし、γは０＜γ＜１の範囲の定数）
に基づき、求め、
　上り方向の第ｎ時刻でのビットレートＣ’（ｎ）を以下の式、
Ｃ’（ｎ）＝（１－γ）×Ｃ’（ｎ－１）＋γ×ＢＷ’（ｎ）
Ｃ’（ｎ）≦ＢＷ’（ｎ）
に基づき求める、ことを特徴とする付記８又は１２記載のサーバ装置。

（付記１５）
　第１の端末と第２の端末とがそれぞれネットワークを介して接続されるサーバ装置を介して音声通話し、
　前記サーバ装置では、前記サーバ装置からの所定のパケットの送出に対する前記第１、第２の端末からの応答信号を基に、前記ネットワークの帯域を推定し、前記端末の音声コーデックのビットレートを算出し、前記ビットレートを前記第１、第２の端末に通知し、
　前記サーバ装置では、前記第１の端末と前記第２の端末の音声コーデックが同一であるか判別し、同一である場合には、前記第１、第２の端末の音声コーデックによるビットストリームをそれぞれ前記第２、第１の端末向けにそのまま出力し、
　前記第１の端末と前記第２の端末の音声コーデックが互いに異なる場合には、サーバ装置にてトランスコーディングを行い、
　その際、前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、トランスコーディング後の信号を前記第１の端末に向けて出力し、前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、トランスコード後の符号を前記第２の端末に向けて出力する、ことを特徴とする通信方法。

（付記１６）
　前記サーバ装置は、ネットワークを介して前記端末に接続し、前記端末での操作により、仮想クライアント部でアプリケーションを動作させて得た画面情報を前記端末に転送し、前記端末で表示させる、ことを特徴とする付記１５記載の通信方法。

（付記１７）
　ネットワークを介してサーバ装置に接続し、端末での操作により前記サーバ装置が仮想クライアント部でアプリケーションを動作させて得た画面情報を前記端末に転送し、前記サーバ装置からの画面情報をデコーダで復号して表示部に表示し、前記サーバ装置が付記８乃至１４のいずれか１に記載のサーバ装置からなり、他の端末と、前記サーバ装置を介して音声通話する端末。

（付記１８）
　前記サーバ装置から送信された符号化されたビットストリームを入力して音声の復号信号を出力するデコーダでは、前記ビットストリームが入力されない時間区間では、ＣＮＧ（Comfort Noise Generation）に雑音信号を発生させ、前記復号信号に接続する、ことを特徴とする付記１７記載の端末。

（付記１９）
　ネットワークを介して端末に接続し、前記端末からの操作信号を受信し、前記端末及び他の端末と信号を送受する送受信処理と、
　前記端末から受信した操作信号に基づき前記操作が音声通話であるか否かを判別する制御処理と、
　前記制御部で音声通話と判別された場合に、前記端末から送出される音声データが格納されたパケットを、前記制御部の指示により、トランスコーディングするか、又はトランスコーディングせずにパケットをそのまま通過させる音声変換処理と、
　前記パケットの送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し、音声コーデックのビットレートを算出し、前記ビットレートを前記端末に通知する帯域推定レート算出処理と、
　を備え、
　前記端末が第１の端末を含み、
　前記他の端末が前記第１の端末の音声コーデックと異なる音声コーデックを備えた第２の端末を含み、
　前記第１の端末と前記第２の端末とが前記サーバ装置を介して音声通話するとき、
　前記制御処理からの指示に基づき、前記音声変換処理はトランスコーディングを行い、その際、
　前記第２の端末の音声コーデックによる符号の一処理が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、トランスコーディング後の信号を前記第１の端末向けに出力し、
　前記第１の端末の前記音声コーデックによる符号の一処理から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、トランスコード後の符号を前記第２の端末向けに出力する、
　前記処理をサーバ装置を構成するコンピュータに実行させるプログラム。

（付記２０）
　前記音声変換処理において、
　前記第２の端末の音声コーデックによるビットストリームを復号する第１のデコード処理と、
　前記第１の端末の音声コーデックによるビットストリームを復号する第２のデコード処理と、
　第１のエンコード処理と、
　第２のエンコード処理と、
　前記第２の端末の音声コーデックによるビットストリームの一部を抽出し抽出した信号が予め定められた時間区間にわたり平滑化又は平均化処理し処理結果が予め定められた閾値以上であるという条件を満たす前記時間区間について、前記第１のエンコード処理に対して、前記第１のデコード処理の出力を符号化するように指示する第１の判別処理と、
　前記第１の端末の音声コーデックによるビットストリームからゲインを表す部分を抽出し、抽出した符号からゲインを復号し、予め定められた時間区間毎に得た復号したゲインを時間方向に平滑化し、平滑化したゲインが予め定められた閾値以上であるという条件を満たす場合に、前記第２のエンコード処理に対して、前記第２のデコード処理の出力を符号化するように指示する第２の判別処理と、
　を含む
　前記第１のエンコード処理は、前記第１のデコーダで復号された信号を、前記第１の判別部から符号化の指示のある時間区間について、前記第１の端末の音声コーデックの符号化方式で符号化して前記第１の端末向けに出力し、符号化の指示のない時間区間では、符号化せず、出力も行わず、
　前記第２のエンコード処理は、前記第２のデコーダで復号された信号を、前記第２の判別部から符号化の指示のある時間区間について、前記第２の端末の音声コーデックの符号化方式で符号化して、前記第２の端末向けに出力し、符号化の指示のない時間区間では符号化せず、出力も行わず、
　前記制御処理からの指示に基づき、前記第１の端末と前記第２の端末の音声コーデックが同一である場合には、前記第２の端末の音声コーデックによるビットストリームを前記第１の端末向けにそのまま出力し、前記第１の端末の音声コーデックによるビットストリームを前記第２の端末向けにそのまま出力する処理を前記コンピュータに実行させる、付記１９記載のプログラム。

　なお、上記の特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素（各付記の各要素、各実施例の各要素、各図面の各要素等を含む）の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。

１１０　サーバ装置
１１１　電話帳
１３０　クラウド網
１５０　モバイルネットワーク
１５１　固定網
１７０　携帯端末
１７１　クライアントソフトウェア
１７５　端末
１７６　第２のパケット送信部
１７７　第３のパケット送信部
１８０　画面キャプチャ部
１８３　帯域推定・レート算出部
１８５　音声変換部
１８６　パケット送受信部
１８７　第１のパケット送受信部
１８８　画像エンコーダ部
１８９　オーディオエンコーダ部
１９０　ＳＧＳＮ／ＧＧＳＮ装置
１９４　基地局装置
１９５　ＲＮＣ装置
１９６　ＭＧＭ装置
２１１　仮想クライアント部
２１２　制御部
２１３　画面生成部
２１４　音声通話ＶｏＩＰアプリケーションソフト
２２０＿１、２２０＿２　トランスコーディング／スルー切り替え部
２２１　Ｇ．７１１デコーダ
２２２、２２３　レベル判別部
２２４　ＡＭＲエンコーダ
２２５　ＡＭＲデコーダ
２２８　Ｇ．７１１エンコーダ
２５０　第２のパケット受信部
２５１　第３のパケット受信部
２５２　画像デコーダ
２５５　オーディオデコーダ
２５６　画面表示部
２５７　操作信号生成部
２５８　パケット送信部
２６０　第１のパケット送受信部
２６１　ビットレート制御部
２６２　ＡＭＲデコーダ
２６３　ＡＭＲエンコーダ

Claims

　複数の端末と、
　ネットワークを介して前記複数の端末に接続されるサーバ装置と、
　を備え、
　前記複数の端末は、
　音声コーデックが異なる第１、第２の端末を含み、
　前記サーバ装置は、
　前記ネットワークの帯域を推定し、前記第１及び／又は第２の端末の音声コーデックのビットレートを求め、求めたビットレートを前記第１及び／又は第２の端末に通知し、
　前記第１又は第２の端末の音声コーデックによる符号を受け、前記符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記符号を復号した信号を、前記符号の送信先である前記第２又は第１の端末の音声コーデック対応の符号化方式にて前記求めたビットレートで符号化するトランスコード処理を行い、前記トランスコード処理した符号を、前記第２又は第１の端末に向けて送信する手段を備えた、ことを特徴とする通信システム。
　前記サーバ装置は、前記ネットワークを介して前記端末に接続し、前記端末での操作により、仮想クライアント部でアプリケーションを動作させて得た画面情報を前記端末に転送し、前記端末で表示させ、
　前記端末から受信した操作信号に基づき前記操作が音声通話であるか否かを判別する制御部と、
　前記制御部で音声通話と判別された場合に、前記端末から送出される音声データが格納されたパケットを、前記制御部の指示に基づき、トランスコーディングを行うか、又はトランスコーディングせずにそのまま通過させ、通話先に出力する音声変換部と、
　前記サーバ装置からの所定のパケットの送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し、前記端末の音声コーデックのビットレートを算出し、前記ビットレートを前記端末に通知する帯域推定レート算出部と、
　を備え、
　前記第１の端末と、前記第２の端末とが前記サーバ装置を介して音声通話する場合に、前記サーバ装置において、前記制御部の指示に基づき、前記音声変換部は、トランスコーディングを行い、その際、
　前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、前記トランスコーディング後の信号を前記第１の端末に向けて出力し、
　前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコードし、前記トランスコード後の符号を前記第２の端末に向けて出力する、ことを特徴とする請求項１記載の通信システム。
　前記サーバ装置において、
　前記音声変換部は、
　前記第２の端末の音声コーデックによるビットストリームを復号する第１のデコーダと、
　前記第１の端末の音声コーデックによるビットストリームを復号する第２のデコーダと、
　第１のエンコーダと、
　第２のエンコーダと、
　前記第２の端末の音声コーデックによるビットストリームの一部を抽出し抽出した信号が予め定められた時間区間にわたり平滑化又は平均化処理し処理結果が、予め定められた閾値以上であるという条件を満たす前記時間区間について、前記第１のエンコーダに対して、前記第１のデコーダの出力を符号化するように指示する第１の判別部と、
　前記第１の端末の音声コーデックによるビットストリームからゲインを表す部分を抽出し、抽出した符号からゲインを復号し、予め定められた時間区間毎に得た前記ゲインを時間方向に平滑化し、前記平滑化したゲインが予め定められた閾値以上であるという条件を満たす場合に、前記第２のエンコーダに対して、前記第２のデコーダの出力を符号化するように指示する第２の判別部と、
　を備え、
　前記第１のエンコーダは、前記第１のデコーダで復号された信号を、前記第１の判別部から符号化の指示のある時間区間について、前記第１の端末の音声コーデックの符号化方式で符号化して前記第１の端末向けに出力し、符号化の指示のない時間区間では、符号化せず、出力も行わず、
　前記第２のエンコーダは、前記第２のデコーダで復号された信号を、前記第２の判別部から符号化の指示のある時間区間について、前記第２の端末の音声コーデックの符号化方式で符号化して、前記第２の端末向けに出力し、符号化の指示のない時間区間では符号化せず、出力も行わず、
　前記制御部からの指示に基づき、前記第１の端末と前記第２の端末の音声コーデックが同一である場合には、前記第２の端末の音声コーデックによるビットストリームを前記第１の端末向けにそのまま出力し、前記第１の端末の音声コーデックによるビットストリームを前記第２の端末向けにそのまま出力し、
　前記帯域推定レート算出部は、前記第１の端末の前記音声コーデックと前記第２の端末の前記音声コーデックに対する上りと下りのビットレートを算出し、それぞれ、前記第１の端末と前記第２の端末に通知し、さらに、前記上りと下りのビットレートを前記音声変換部に出力し、
　前記音声変換部において、前記第１及び第２のエンコーダの符号化のビットレートは、前記帯域推定レート算出部からそれぞれ出力されたビットレートに従う、ことを特徴とする請求項２記載の通信システム。
　前記制御部は、
（Ａ）前記操作信号を解析し、音声通話の起動操作の場合には、音声通話アプリケーションを起動し、
（Ｂ）音声通話アプリケーションから、前記第１の端末のユーザが選択した、相手先電話番号を取得し、前記相手先電話番号から、相手先のアドレスを求め、
（Ｃ）前記第１の端末から受信したメッセージに前記相手先アドレスを設定し、
（Ｄ）前記帯域推定レート算出部に対して、前記第１の端末に接続しているネットワークに対する、上り方向の帯域及び下り方向の帯域を推定するよう指示し、
（Ｅ）前記第２の端末に接続しているネットワークに対する、上り方向の帯域及び下り方向の帯域も推定するよう指示し、
（Ｆ）前記第２の端末の音声コーデックである第１の音声コーデック、前記第１の端末の音声コーデックである第２の音声コーデックに関する能力情報をチェックし、第１及び第２の音声コーデックが同一であるか、異なるものであるかを判定し、
（Ｇ）前記音声変換部に対して、前記第１の音声コーデックのビットストリームの前記第２の音声コーデックのビットストリームへの変換、及び、前記第２の音声コーデックのビットストリームの前記第１の音声コーデックのビットストリームへの変換を、指示する、ことを特徴とする請求項２又は３に記載の通信システム。
　前記帯域推定レート算出部は、前記第１、第２の端末の各端末からの応答信号に含まれる情報から、
　前記各端末が接続するネットワークの下り方向の帯域Ｗを、前記サーバ装置が前記各端末に向けて送出したｊ番目（ｊは所定の正整数）のパケットのデータサイズＤ（ｊ）を、前記各端末で前記ｊ番目、（ｊ－１）番目のパケット受信したときの受信時刻Ｒ（ｊ）、Ｒ（ｊ－１）の差分Ｒ（ｊ）－Ｒ（ｊ－１）で除算することで求め、
　前記帯域推定値Ｗを、時間的に平滑化し、平滑化後の第ｎ時刻の帯域推定値ＢＷ（ｎ）を求め、
　前記各端末からの前記応答信号に、前記各端末が送出した上り方向のデータサイズを含め、
　前記各端末が接続するネットワークの上り方向の帯域Ｗ’を、ｍ番目（ｍは所定の正整数）のデータサイズＰ（ｍ）を、前記サーバ装置でｍ番目、（ｍ－１）番目の前記応答信号を受信した受信時刻Ｔ（ｍ）、Ｔ（ｍ－１）の差分Ｔ（ｍ）－Ｔ（ｍ－１）で除算することで求め、
　前記Ｗ’を時間方向で平滑化して、平滑化後の第ｎ時刻の帯域推定値ＢＷ’（ｎ）を上り方向の帯域推定値とし、
　下り方向の第ｎ時刻でのビットレートＣ（ｎ）を以下の式
Ｃ（ｎ）＝（１－γ）×Ｃ（ｎ－１）＋γ×ＢＷ（ｎ）　　
Ｃ（ｎ）≦ＢＷ（ｎ）
（ただし、γは０＜γ＜１の範囲の定数）
に基づき、求め、
　上り方向の第ｎ時刻でのビットレートＣ’（ｎ）を以下の式、
Ｃ’（ｎ）＝（１－γ）×Ｃ’（ｎ－１）＋γ×ＢＷ’（ｎ）
Ｃ’（ｎ）≦ＢＷ’（ｎ）
に基づき求める、ことを特徴とする請求項２又は３記載の通信システム。
　音声コーデックが互いに異なる第１、第２の端末にネットワークを介して接続するサーバ装置であって、
　前記ネットワークの帯域を推定し、前記第１及び／又は第２の端末の音声コーデックのビットレートを求め、求めたビットレートを前記第１及び／又は第２の端末に通知し、
　前記第１又は第２の端末の音声コーデックによる符号を受け、前記符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記符号を復号した信号を、前記符号の送信先である前記第２又は第１の端末の音声コーデック対応の符号化方式にて前記求めたビットレートで符号化するトランスコード処理を行い、前記トランスコード処理した符号を、前記第２又は第１の端末に向けて送信する手段を備えた、ことを特徴とするサーバ装置。
　ネットワークを介して端末に接続し、前記端末からの操作信号を受信し、前記端末及び他の端末と信号を送受する送受信部と、
　前記端末から受信した操作信号に基づき前記操作が音声通話であるか否かを判別する制御部と、
　前記制御部で音声通話と判別された場合に、前記端末から送出される音声データが格納されたパケットを、前記制御部の指示により、トランスコーディングするか、又はトランスコーディングせずにパケットをそのまま通過させて通話先に出力する音声変換部と、
　所定のパケットの送出に対する前記端末からの応答信号を基に、前記ネットワークの帯域を推定し、音声コーデックのビットレートを算出し、前記ビットレートを前記端末に通知する帯域推定レート算出部と、
　を備え、
　前記端末が少なくとも第１の端末を含み、
　前記他の端末が前記第１の端末の音声コーデックと異なる音声コーデックを備えた第２の端末を含み、
　前記第１の端末と前記第２の端末とが前記サーバ装置を介して音声通話するとき、前記制御部の指示に基づき、前記音声変換部は、トランスコーディングを行い、その際、
　前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、トランスコーディング後の信号を前記第１の端末向けに出力し、
　前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、トランスコード後の符号を前記第２の端末向けに出力する、ことを特徴とする請求項６記載のサーバ装置。
　前記音声変換部において、
　前記第２の端末の音声コーデックによるビットストリームを復号する第１のデコーダと、
　前記第１の端末の音声コーデックによるビットストリームを復号する第２のデコーダと、
　第１のエンコーダと、
　第２のエンコーダと、
　前記第２の端末の音声コーデックによるビットストリームの一部を抽出し抽出した信号が予め定められた時間区間にわたり平滑化又は平均化処理し処理結果が予め定められた閾値以上であるという条件を満たす前記時間区間について、前記第１のエンコーダに対して、前記第１のデコーダの出力を符号化するように指示する第１の判別部と、
　前記第１の端末の音声コーデックによるビットストリームからゲインを表す部分を抽出し、抽出した符号からゲインを復号し、予め定められた時間区間毎に得た復号したゲインを時間方向に平滑化し、平滑化したゲインが予め定められた閾値以上であるという条件を満たす場合に、前記第２のエンコーダに対して、前記第２のデコーダの出力を符号化するように指示する第２の判別部と、
　を備え、
　前記第１のエンコーダは、前記第１のデコーダで復号された信号を、前記第１の判別部から符号化の指示のある時間区間について、前記第１の端末の音声コーデックの符号化方式で符号化して前記第１の端末向けに出力し、符号化の指示のない時間区間では、符号化せず、出力も行わず、
　前記第２のエンコーダは、前記第２のデコーダで復号された信号を、前記第２の判別部から符号化の指示のある時間区間について、前記第２の端末の音声コーデックの符号化方式で符号化して、前記第２の端末向けに出力し、符号化の指示のない時間区間では符号化せず、出力も行わず、
　前記制御部からの指示に基づき、前記第１の端末と前記第２の端末の音声コーデックが同一である場合には、前記第２の端末の音声コーデックによるビットストリームを前記第１の端末向けにそのまま出力し、前記第１の端末の音声コーデックによるビットストリームを前記第２の端末向けにそのまま出力する、ことを特徴とする請求項７記載のサーバ装置。
　第１の端末と第２の端末とがそれぞれネットワークを介して接続されるサーバ装置を介して音声通話し、
　前記サーバ装置では、前記サーバ装置からの所定のパケットの送出に対する前記第１、第２の端末からの応答信号を基に、前記ネットワークの帯域を推定し、前記端末の音声コーデックのビットレートを算出し、前記ビットレートを前記第１、第２の端末に通知し、
　前記サーバ装置では、前記第１の端末と前記第２の端末の音声コーデックが同一であるか否か判別し、同一である場合には、前記第１、第２の端末の音声コーデックによるビットストリームをそれぞれ前記第２、第１の端末向けにそのまま出力し、
　前記第１の端末と前記第２の端末の音声コーデックが互いに異なる場合には、サーバ装置にてトランスコーディングを行い、
　その際、前記第２の端末の音声コーデックによる符号の一部が、予め定められた条件を満たす時間区間について、前記第２の端末の音声コーデックから、前記第１の端末の音声コーデックにトランスコーディングし、トランスコーディング後の信号を前記第１の端末に向けて出力し、前記第１の端末の前記音声コーデックによる符号の一部から求めた信号が予め定められた条件を満たす時間区間について、前記第１の端末の音声コーデックから前記第２の端末の音声コーデックにトランスコーディングし、トランスコード後の符号を前記第２の端末に向けて出力する、ことを特徴とする通信方法。
　ネットワークを介して請求項６乃至８のいずれか１項に記載のサーバ装置に接続し、他の端末と、前記サーバ装置を介して音声通話する音声コーデックを備えた端末。