[go: up one dir, main page]

JP2009159504A - Video conference system, video conference method, and program - Google Patents

Video conference system, video conference method, and program Download PDF

Info

Publication number
JP2009159504A
JP2009159504A JP2007337742A JP2007337742A JP2009159504A JP 2009159504 A JP2009159504 A JP 2009159504A JP 2007337742 A JP2007337742 A JP 2007337742A JP 2007337742 A JP2007337742 A JP 2007337742A JP 2009159504 A JP2009159504 A JP 2009159504A
Authority
JP
Japan
Prior art keywords
codec
video
information
data
audio processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007337742A
Other languages
Japanese (ja)
Inventor
Masayuki Imanishi
将之 今西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007337742A priority Critical patent/JP2009159504A/en
Publication of JP2009159504A publication Critical patent/JP2009159504A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To select an optimal codec and a multi-point control unit and to perform transcoding. <P>SOLUTION: In a video conference system, an overlay network which is allocated onto a hash space by distribution hash table technology is used. A first video/voice processor 10 is provided with a first storage part for storing information on processable codec, a video processing part 5 and a voice processing part 6 for performing codec to data with a first codec. A first MCU (Multi-point Control Unit) 50 is provided with: a second storage part for storing processable codec information by adjacent nodes; and a video transcode part and voice transcode part 52 for performing transcoding of data which are stored in the second storage part and processed by the first codec on the basis of the information on the processable codec with the adjacent nodes to a second codec. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、例えば、処理可能なコーデックが異なる複数の装置間でデータを送受信する場合に、適切なコーデックにトランスコーディングするビデオ会議システム、ビデオ会議方法及びプログラムに関する。   The present invention relates to a video conference system, a video conference method, and a program for transcoding to an appropriate codec, for example, when data is transmitted and received between a plurality of devices having different processable codecs.

従来、例えば、離れた場所で同時に開催される会議を円滑に進めるため、互いの会議室に設置されたビデオ会議システムを用いて、話者が相互に発言したり、話者の様子を映し出したりすることが可能なビデオ会議システムが用いられている。このビデオ会議システムは、互いの会議室の様子を映したり、話者の発言内容を放音したりすることが可能な複数の映像/音声処理装置を備える。   Conventionally, for example, in order to facilitate a conference that is held at a remote location at the same time, speakers use the video conferencing system installed in each other's conference rooms to talk to each other or to show the state of the speaker. Video conferencing systems that can do this are used. This video conference system includes a plurality of video / audio processing devices capable of reflecting the state of each other's conference room and emitting the content of a speaker's speech.

映像/音声処理装置は、会議中の音声を収音するマイクロホンと、話者を撮影するカメラと、マイクロホンで収音した話者の音声に所定の処理を施す信号処理部と、他の会議室で発話する話者の様子を映し出す表示部と、話者の発話内容を放音するスピーカ等を備える。それぞれの会議室に設置された映像/音声処理装置は、通信回線を介して接続される。そして、記録した映像/音声データを互いに送受信することによって、それぞれの会議室の様子を表示し、発話内容を放音する。   The video / audio processing apparatus includes a microphone that collects audio during a conference, a camera that captures a speaker, a signal processing unit that performs predetermined processing on the audio of the speaker collected by the microphone, and other conference rooms A display unit that reflects the state of the speaker who utters the voice, a speaker that emits the content of the speaker's speech, and the like. The video / audio processing devices installed in each conference room are connected via a communication line. Then, by transmitting and receiving recorded video / audio data to each other, the state of each conference room is displayed and the utterance content is emitted.

そして、複数の拠点に設置された複数のビデオ会議システムで処理できるコーデックにデータをトランスコーディングする多地点接続装置(以下、単にMCU(Multi-point Control Unit)とも称する。)が用いられている。MCUを用いることによって、多地点に設置された映像/音声処理装置から構成されるビデオ会議システムによって、ビデオ会議を実現できる。そして、複数の映像/音声処理装置で扱えるコーデックが異なる場合、MCUが送受信するデータをトランスコーディングすることによって、送受信したデータを互いの装置間で利用できる。   A multipoint connection apparatus (hereinafter also simply referred to as MCU (Multi-point Control Unit)) that transcodes data to a codec that can be processed by a plurality of video conference systems installed at a plurality of bases is used. By using the MCU, a video conference can be realized by a video conference system including video / audio processing devices installed at multiple points. When the codecs that can be handled by a plurality of video / audio processing apparatuses are different, transceiving data transmitted / received by the MCU can be used between the apparatuses.

特許文献1には、MCUを用いて親端末の映像を子端末に通知する技術について開示されている。
特開2000−23129号公報
Patent Document 1 discloses a technique for notifying a child terminal of an image of a parent terminal using an MCU.
JP 2000-23129 A

しかし、MCUでトランスコーディングを行う場合における処理の負荷は重いため、リアルタイムでデータ送受信する場合に支障を来す場合がある。また、伝送されたデータのコーデックをトランスコーディングするため、画質や音質の劣化が発生してしまう。全ての映像/音声処理装置のコーデック情報を予め知ることができればトランスコーディング処理が少なくなるようにコーデックを選択することも可能である。しかし、全ての映像/音声処理装置で使用可能な全てのコーデック情報を管理するために管理サーバ等を準備すると、コストが発生してしまうため得策ではない。また、トランスコーディングの処理は、負荷がかかるため、できるだけトランスコーディングを行わなくてすむことが望ましい。   However, since the processing load when transcoding is performed by the MCU is heavy, there may be a problem in transmitting and receiving data in real time. In addition, since the codec of the transmitted data is transcoded, image quality and sound quality are deteriorated. If the codec information of all the video / audio processing apparatuses can be known in advance, the codec can be selected so that the transcoding process is reduced. However, if a management server or the like is prepared in order to manage all codec information that can be used in all video / audio processing apparatuses, it is not a good idea because costs are generated. Also, since the transcoding process is burdensome, it is desirable to avoid transcoding as much as possible.

本発明はこのような状況に鑑みて成されたものであり、最適なコーデックを選択して、トランスコーディングを行うことを目的とする。   The present invention has been made in view of such a situation, and an object thereof is to select an optimal codec and perform transcoding.

本発明は、少なくとも1つのノードが、分散ハッシュテーブル技術によりハッシュ空間上に割り当てられて構成されるオーバレイネットワークが用いられ、ノードには、データをコーデックする複数のデータ処理装置と、複数のデータ処理装置でコーデックされたデータを他のコーデックにトランスコーディングする多地点接続装置が含まれる場合に適用される。そして、データ処理装置は、処理可能なコーデックの情報を記憶し、記憶されたコーデックの情報に基づいて、第1のコーデックでデータをコーデックする。また、多地点接続装置は、隣り合うノードで処理可能なコーデックの情報を記憶し、隣り合うノードで処理可能なコーデックの情報に基づいて、第1のコーデックで処理されたデータを、第2のコーデックにトランスコーディングする。   The present invention uses an overlay network in which at least one node is allocated on a hash space by a distributed hash table technique, and each node includes a plurality of data processing devices that code data and a plurality of data processing. This is applied when a multipoint connection device that transcodes data coded by the device to another codec is included. Then, the data processing apparatus stores codec information that can be processed, and codes the data using the first codec based on the stored codec information. In addition, the multipoint connection device stores codec information that can be processed by the adjacent nodes, and based on the codec information that can be processed by the adjacent nodes, the data processed by the first codec Transcode to codec.

このようにしたことで、各ノードに配置される映像/音声処理装置毎に利用可能なコーデックを選択し、多地点接続装置でデータをトランスコーディングすることが可能となる。   By doing in this way, it becomes possible to select a codec that can be used for each video / audio processing device arranged in each node, and to transcode data in the multipoint connection device.

本発明によれば、オーバレイネットワークを利用して、映像/音声処理装置が利用可能なコーデックと多地点接続装置がトランスコーディング可能なコーデック情報とを管理しているため、適切な多地点接続装置を選択し、処理負荷が少ないトランスコーディングを行うことができるという効果がある。   According to the present invention, the codec that can be used by the video / audio processing apparatus and the codec information that can be transcoded by the multipoint connection apparatus are managed using the overlay network. There is an effect that it is possible to select and perform transcoding with a small processing load.

以下、本発明の一実施の形態例について、添付図面を参照して説明する。本実施の形態例では、映像データと音声データの処理を行う映像/音声処理システムとして、遠隔地間で映像データと音声データをリアルタイムで送受信可能なビデオ会議システム100に適用した例として説明する。ビデオ会議システム100は、例えば、多地点で同時に会議を行う会議システムとして用いられる。   Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings. In this embodiment, a video / audio processing system for processing video data and audio data will be described as an example applied to a video conference system 100 capable of transmitting and receiving video data and audio data between remote locations in real time. The video conference system 100 is used, for example, as a conference system that performs conferences at multiple points simultaneously.

まず、ビデオ会議システム100が実現されるネットワークの構成例について、図1を参照して説明する。映像/音声処理装置とMCUはノードとしてオーバレイネットワークを構成する。そして、映像/音声処理装置とMCUは、隣り合うノードのコーデック情報を保持する。   First, a configuration example of a network in which the video conference system 100 is realized will be described with reference to FIG. The video / audio processing device and the MCU constitute an overlay network as a node. The video / audio processing device and the MCU hold codec information of adjacent nodes.

図1(a)は、ビデオ会議システム100のネットワークの構成例を示す図である。ビデオ会議システム100は、互いに通信回線で接続される多地点のノードで構成される。
ビデオ会議システム100は、第1の映像/音声処理装置10〜第4の映像/音声処理装置40と、第1のMCU50と、第2のMCU60から構成される。第1の映像/音声処理装置10〜第4の映像/音声処理装置40と、第1のMCU50と、第2のMCU60は、オーバレイネットワークを構成する。MCUは、映像/音声処理装置が処理可能なコーデックの情報と、他のMCUがトランスコーディング可能なコーデックの情報を保持する。このため、例えば、多地点で同時にビデオ会議を行う際、MCUは、各映像/音声処理装置が使用可能な最適なコーデックを選択して、トランスコーディングすることができる。
FIG. 1A is a diagram illustrating a network configuration example of the video conference system 100. The video conference system 100 includes multi-point nodes connected to each other via communication lines.
The video conference system 100 includes a first video / audio processing device 10 to a fourth video / audio processing device 40, a first MCU 50, and a second MCU 60. The first video / audio processing device 10 to the fourth video / audio processing device 40, the first MCU 50, and the second MCU 60 constitute an overlay network. The MCU holds information on codecs that can be processed by the video / audio processing apparatus and information on codecs that can be transcoded by other MCUs. Therefore, for example, when a video conference is simultaneously performed at multiple points, the MCU can select and transcode an optimal codec that can be used by each video / audio processing apparatus.

図1(b)は、各MCUがトランスコーディング可能なコーデックの例を示す図である。
第1のMCU50が処理可能なコーデックは、H.264,MPEG(Moving Picture Experts Group)4,MPEG2である。
第2のMCU60が処理可能なコーデックは、MPEG4,MPEG2,MPEG1である。
FIG. 1B is a diagram illustrating an example of a codec that can be transcoded by each MCU.
The codec that can be processed by the first MCU 50 is H.264. 264, MPEG (Moving Picture Experts Group) 4, MPEG2.
The codecs that can be processed by the second MCU 60 are MPEG4, MPEG2, and MPEG1.

図1(c)は、各映像/音声処理装置が処理可能なコーデック(圧縮符号化方式)の例を示す図である。
第1の映像/音声処理装置10が処理可能なコーデックは、H.264である。
第2の映像/音声処理装置20が処理可能なコーデックは、H.264,MPEG4である。
第3の映像/音声処理装置30が処理可能なコーデックは、MPEG4,MPEG2である。
第4の映像/音声処理装置40が処理可能なコーデックは、MPEG2である。
FIG. 1C is a diagram illustrating an example of a codec (compression encoding method) that can be processed by each video / audio processing apparatus.
The codec that can be processed by the first video / audio processing apparatus 10 is H.264. H.264.
The codec that can be processed by the second video / audio processing device 20 is H.264. 264, MPEG4.
The codecs that can be processed by the third video / audio processing apparatus 30 are MPEG4 and MPEG2.
The codec that can be processed by the fourth video / audio processing device 40 is MPEG2.

本実施の形態に係るビデオ会議システム100は、ネットワークに接続されたすべてのノード(ピアノード)が動的にその役割を変えられる、ピア・ツー・ピア(以降P2Pと称する)と呼ばれる接続形態を採用することを特徴としている。
従来のクライアント・サーバ型のシステムで、サーバが一括して保有していたデータは、P2Pを用いたシステムにおいては各ピアノードに分散して保存される。つまり、データの保存場所の検索はピアノード同士が協力して行う。
The video conference system 100 according to the present embodiment employs a connection form called peer-to-peer (hereinafter referred to as P2P) in which all nodes (peer nodes) connected to the network can dynamically change their roles. It is characterized by doing.
In a conventional client-server type system, data that the server collectively holds is distributed and stored in each peer node in a system using P2P. In other words, the search for the data storage location is performed in cooperation with peer nodes.

データの保存場所の検索技術としては、例えば分散ハッシュテーブル(以下、DHT:Distributed Hash Tableと称する)が知られている。DHTでは、データから生成されたハッシュ値と近いハッシュ値を持つノードに、データの実体の保存場所情報が登録される。このとき、データのハッシュ値生成とノードのハッシュ値生成には、同じハッシュ関数が使われる。そして、データの実態の保存場所情報が登録された各ノードにおいて、データのハッシュ値とデータの実態の保存場所情報との組が、テーブル(ハッシュテーブル)として保持される。   As a data storage location retrieval technique, for example, a distributed hash table (hereinafter referred to as DHT: Distributed Hash Table) is known. In DHT, data storage location information is registered in a node having a hash value close to a hash value generated from data. At this time, the same hash function is used for generating the hash value of the data and the hash value of the node. In each node where the actual storage location information of data is registered, a set of the hash value of the data and the actual storage location information of the data is held as a table (hash table).

ハッシュ値は、元となるデータが異なれば全く違う値となるため、データの保存場所情報が登録される先も、ネットワーク上に分散される。つまり、ハッシュテーブルが各ピアノードに分散して配置されるため、各ピアノードにかかる負荷も分散される。   Since the hash value is completely different if the original data is different, the destination where the data storage location information is registered is also distributed on the network. That is, since the hash table is distributed and arranged in each peer node, the load applied to each peer node is also distributed.

データの検索を行う場合には、データのハッシュ値を算出してそのハッシュ値をキーに検索すればよい。DHTでは、ネットワークを構成するすべてのノードに、近傍のノードへのルートが記されたルーティングテーブルを予め備えさせており、そのルーティングテーブルにおいては、各ノード間の距離が、各ノードのハッシュ値で表現されている。   When searching for data, a hash value of data may be calculated and searched using the hash value as a key. In DHT, all nodes constituting a network are provided with a routing table in which routes to neighboring nodes are recorded in advance. In the routing table, the distance between the nodes is the hash value of each node. It is expressed.

ネットワーク上のいずれかのノードに登録されたデータを参照したい場合は、まずそのデータのハッシュ値を求め、自ノード内のルーティングテーブルの中で、データのハッシュ値と最も近いハッシュ値を持つノードに対して、検索要求を投げかける。検索要求を受け取ったノードがデータの保存場所情報を所持していない場合は、今度は検索要求を受け取ったノードが、自ノード内のルーティングテーブルの中の、データのハッシュ値と最も近いハッシュ値を持つノードに対して、検索要求を投げかける。このような動作が繰り返されることにより検索範囲が縮まっていき、最終的に、検索したいデータの保存場所情報を得ることが可能となる。検索したいデータの保存場所情報が分かれば、その情報を基に実際のデータを取得することができる。つまり、DHTの技術を利用して構築されたオーバレイネットワーク上では、データの実体がどこにあるかを意識することなく、データ実体にアクセスすることが可能となる。   If you want to refer to the data registered in any node on the network, first find the hash value of that data, and in the routing table in your node, find the node that has the closest hash value to the data hash value. On the other hand, a search request is thrown. If the node that received the search request does not have data storage location information, this time, the node that received the search request uses the hash value closest to the hash value of the data in the routing table in its own node. A search request is sent to the node that has it. By repeating such an operation, the search range is narrowed, and finally, it is possible to obtain storage location information of data to be searched. If you know the storage location information of the data you want to search, you can get the actual data based on that information. That is, on the overlay network constructed using the DHT technology, it is possible to access the data entity without being aware of where the data entity is.

このように、DHTでは、ハッシュ値で示された各ピアノード間の距離に基づいてルーティングが行われるため、IPネットワーク上に設けられたセグメントを意識する必要がなくなる。つまり、IP層よりも上の層でルーティングを行うDHTを用いて、オーバレイネットワークを構築することが可能となる。   In this way, in DHT, routing is performed based on the distance between each peer node indicated by the hash value, so it is not necessary to be aware of the segments provided on the IP network. That is, it is possible to construct an overlay network using DHT that performs routing in a layer above the IP layer.

次に、ビデオ会議システム100の内部構成例について、図2を参照して説明する。
図2は、第1の映像/音声処理装置10と第1のMCU50が接続される場合の構成例を示す図である。図示しないが、第1の映像/音声処理装置10と第1のMCU50は、例えば、イントラネット等の通信回線によって他の複数台の映像/音声処理装置やMCUが接続されうる。
Next, an example of the internal configuration of the video conference system 100 will be described with reference to FIG.
FIG. 2 is a diagram illustrating a configuration example when the first video / audio processing apparatus 10 and the first MCU 50 are connected. Although not shown, the first video / audio processing apparatus 10 and the first MCU 50 can be connected to a plurality of other video / audio processing apparatuses and MCUs via a communication line such as an intranet, for example.

第1の映像/音声処理装置10は、話者を撮影して、アナログ映像データを生成する撮像部1と、撮像部1から供給されるアナログ映像データをディジタル映像データに変換するアナログ/ディジタル(A/D:Analog/Digital)変換部11と、を備える。   The first video / audio processing apparatus 10 shoots a speaker and generates analog video data, and analog / digital (converts analog video data supplied from the imaging unit 1 into digital video data). A / D (Analog / Digital) converter 11.

撮像部1は、レンズ部1aを備えており、レンズ部1aを介して入射した像光をCCD(Charge Coupled Device)撮像素子1bの撮像面に結像させる構成としている。撮像部1によって生成されたアナログ映像データは、アナログ/ディジタル変換部11に供給される。   The imaging unit 1 includes a lens unit 1a, and is configured to form image light incident through the lens unit 1a on an imaging surface of a CCD (Charge Coupled Device) imaging element 1b. The analog video data generated by the imaging unit 1 is supplied to the analog / digital conversion unit 11.

また、第1の映像/音声処理装置10は、ディジタル映像データを所定のコーデックで符号/復号化する映像処理部5と、映像処理部5から供給されるディジタル映像データをアナログ映像データに変換するディジタル/アナログ変換部12と、ディジタル/アナログ変換部12から供給されるアナログ映像データをアンプ(不図示)で増幅し、映像を表示する表示部3と、を備える。映像処理部5は、記憶部17(後述の図3を参照)から読み出したコーデックの情報に基づいて、ディジタル映像データを所定のコーデックで符号/復号化する。   The first video / audio processing apparatus 10 also converts the video processing unit 5 that encodes / decodes digital video data with a predetermined codec, and converts the digital video data supplied from the video processing unit 5 into analog video data. A digital / analog conversion unit 12 and a display unit 3 for amplifying analog video data supplied from the digital / analog conversion unit 12 with an amplifier (not shown) and displaying the video are provided. The video processing unit 5 encodes / decodes the digital video data using a predetermined codec based on the codec information read from the storage unit 17 (see FIG. 3 described later).

また、第1の映像/音声処理装置10は、話者が発話する音声を収音してアナログ音声データを生成するマイクロホン2と、マイクロホン2から供給されるアナログ音声データを、アンプ(不図示)で増幅し、ディジタル音声データに変換するアナログ/ディジタル変換部13と、を備える。   Further, the first video / audio processing device 10 collects the voice uttered by the speaker and generates analog voice data, and the amplifier (not shown) receives the analog voice data supplied from the microphone 2. And an analog / digital converter 13 for amplifying and converting the digital audio data into digital audio data.

また、第1の映像/音声処理装置10は、ディジタル音声データを所定のコーデックで符号/復号化する音声処理部6と、音声処理部6から供給されるディジタル音声データをアナログ音声データに変換するディジタル/アナログ変換部14と、ディジタル/アナログ変換部14から供給されるアナログ音声データをアンプ(不図示)で増幅し、放音するスピーカ4と、を備える。音声処理部6は、記憶部17(後述の図3を参照)から読み出したコーデックの情報に基づいて、ディジタル音声データを所定のコーデックで符号/復号化する。   The first video / audio processing apparatus 10 also converts an audio processing unit 6 that encodes / decodes digital audio data with a predetermined codec, and converts the digital audio data supplied from the audio processing unit 6 into analog audio data. A digital / analog conversion unit 14 and a speaker 4 that amplifies analog sound data supplied from the digital / analog conversion unit 14 with an amplifier (not shown) and emits the sound. The audio processing unit 6 encodes / decodes digital audio data using a predetermined codec based on the codec information read from the storage unit 17 (see FIG. 3 described later).

また、第1の映像/音声処理装置10は、隣り合う映像/音声処理装置、MCUに対して、ディジタル映像データとディジタル音声データを送受信するためのインタフェースとなる複数個のネットワークインタフェース7を備える。ネットワークインタフェース7は、ディジタル映像データとディジタル音声データをパケットに分割し、所定の伝送プロトコルで他の映像/音声処理装置、MCUに伝送する。また、他の映像/音声処理装置、MCUから受け取ったパケットを結合し、元のディジタル映像データとディジタル音声データを生成する。   The first video / audio processing apparatus 10 includes a plurality of network interfaces 7 serving as interfaces for transmitting / receiving digital video data and digital audio data to / from adjacent video / audio processing apparatuses and MCUs. The network interface 7 divides the digital video data and digital audio data into packets and transmits them to other video / audio processing devices and MCUs using a predetermined transmission protocol. Also, packets received from other video / audio processing devices and MCUs are combined to generate original digital video data and digital audio data.

第1のMCU50は、第1の映像/音声処理装置10から受け取るディジタル映像データを所定のコーデックにトランスコーディングする映像トランスコード部51と、第1の映像/音声処理装置10から受け取るディジタル音声データを所定のコーデックにトランスコーディングする音声トランスコード部52と、を備える。   The first MCU 50 transcodes digital video data received from the first video / audio processing device 10 into a predetermined codec, and digital audio data received from the first video / audio processing device 10. And an audio transcoding unit 52 for transcoding to a predetermined codec.

また、第1のMCU50は、隣り合う映像/音声処理装置、MCUに対して、ディジタル映像データとディジタル音声データを送受信するためのインタフェースとなる複数個のネットワークインタフェース53を備える。ネットワークインタフェース53は、ディジタル映像データとディジタル音声データをパケットに分割し、所定の伝送プロトコルで他の映像/音声処理装置、MCUにパケットを伝送する。また、他の映像/音声処理装置、MCUから受け取ったパケットを結合し、元のディジタル映像データとディジタル音声データを生成する。   The first MCU 50 also includes a plurality of network interfaces 53 serving as interfaces for transmitting / receiving digital video data and digital audio data to / from adjacent video / audio processing units and MCUs. The network interface 53 divides the digital video data and the digital audio data into packets, and transmits the packets to other video / audio processing devices and MCUs using a predetermined transmission protocol. Also, packets received from other video / audio processing devices and MCUs are combined to generate original digital video data and digital audio data.

映像処理部5で符号化されたディジタル映像データは、ネットワークインタフェース7を介して、隣り合う映像/音声処理装置、MCUに送られる。また、隣り合う映像/音声処理装置、MCUから受け取るディジタル映像データは、ネットワークインタフェース7を介して映像処理部5に送られる。   The digital video data encoded by the video processing unit 5 is sent to the adjacent video / audio processing unit and MCU via the network interface 7. In addition, digital video data received from adjacent video / audio processing devices and MCUs is sent to the video processing unit 5 via the network interface 7.

また、各映像/音声処理装置で収音され、生成されたディジタル音声データは、他の映像/音声処理装置から供給されるディジタル音声データと混合され、他の映像/音声処理装置、MCUに送出される。こうして、映像/音声処理装置とMCUが互いに接続されるため、拠点間での映像と音声がリアルタイムで再生される。接続される回線は、全二重通信であるため、各拠点に散在する話者は、互いの様子を見ながら同時に通話することができる。   Digital audio data collected and generated by each video / audio processing device is mixed with digital audio data supplied from other video / audio processing devices, and sent to the other video / audio processing devices and MCUs. Is done. Thus, since the video / audio processing apparatus and the MCU are connected to each other, video and audio between the bases are reproduced in real time. Since the line to be connected is full-duplex communication, the speakers scattered at each base can talk simultaneously while watching each other.

次に、映像/音声処理装置の構成例について、図3を参照して説明する。
ここでは、第1の映像/音声処理装置10の内部構成例について説明する。ただし、図2において既に説明した箇所と同一の箇所については、詳細な説明を省略する。また、第2の映像/音声処理装置20〜第4の映像/音声処理装置40の内部構成例については、第1の映像/音声処理装置10の内部構成例と同様であるため、詳細な説明を省略する。
Next, a configuration example of the video / audio processing apparatus will be described with reference to FIG.
Here, an example of the internal configuration of the first video / audio processing apparatus 10 will be described. However, detailed description of the same portions as those already described in FIG. 2 is omitted. Further, the internal configuration examples of the second video / audio processing device 20 to the fourth video / audio processing device 40 are the same as the internal configuration example of the first video / audio processing device 10, and thus detailed description will be made. Is omitted.

第1の映像/音声処理装置10は、各部を制御する制御部16と、ディジタル映像データとディジタル音声データを記憶したり、映像処理部5と音声処理部6が処理可能なコーデックの情報を記憶したりする記憶部17と、ユーザからの入力操作を受け付け、処理を実行させる入力部18と、を備える。入力部18は、マウス、キーボード、タッチパネル等の入力装置が含まれる。また、以下の説明において、コーデックの情報とは、例えば、MPEG4などのコーデックの名称を指し、コーデックするとは、コーデックの情報から定まるコーデックを用いて(例えば、MPEG4)、符号化、復号化処理を行うことを意味する。   The first video / audio processing apparatus 10 stores a control unit 16 that controls each unit, digital video data and digital audio data, and information on codecs that can be processed by the video processing unit 5 and the audio processing unit 6. And a storage unit 17 that receives data and an input unit 18 that receives an input operation from a user and executes a process. The input unit 18 includes input devices such as a mouse, a keyboard, and a touch panel. In the following description, codec information refers to the name of a codec such as MPEG4, for example, and a codec refers to encoding and decoding processing using a codec determined from the codec information (for example, MPEG4). Means to do.

第1の映像/音声処理装置10は、他の映像/音声処理装置とMCUから、処理可能なコーデック情報の送出が要求された場合、第1の映像/音声処理装置10が処理可能なコーデック情報や、他の映像/音声処理装置が処理可能なコーデック情報と、MCUがトランスコーディング可能なコーデック情報を、他の映像/音声処理装置とMCUに送出する。一方、第1の映像/音声処理装置10は、他の映像/音声処理装置が処理可能なコーデック情報と、MCUがトランスコーディング可能なコーデック情報について、他の映像/音声処理装置とMCUから取得する。取得した他の映像/音声処理装置が処理可能なコーデック情報と、MCUがトランスコーディング可能なコーデック情報は、記憶部17に記憶される。また、記憶部17には、第1の映像/音声処理装置10を識別するためのユニークな識別情報(以下、ID(Identification)情報と称する。)が記憶される。   The first video / audio processing device 10 is capable of processing codec information that can be processed by the first video / audio processing device 10 when transmission of codec information that can be processed is requested from another video / audio processing device and the MCU. Alternatively, codec information that can be processed by other video / audio processing apparatuses and codec information that can be transcoded by the MCU are transmitted to the other video / audio processing apparatuses and the MCU. On the other hand, the first video / audio processing device 10 acquires codec information that can be processed by other video / audio processing devices and codec information that can be transcoded by the MCU from other video / audio processing devices and the MCU. . The acquired codec information that can be processed by another video / audio processing apparatus and codec information that can be transcoded by the MCU are stored in the storage unit 17. The storage unit 17 also stores unique identification information (hereinafter referred to as ID (Identification) information) for identifying the first video / audio processing device 10.

次に、MCUの構成例について、図4を参照して説明する。
ここでは、第1のMCU50の内部構成例について説明する。ただし、図2において既に説明した箇所と同一の箇所については、詳細な説明を省略する。また、第2のMCU60の内部構成例については、第1のMCU50の内部構成例と同様であるため、詳細な説明を省略する。
Next, a configuration example of the MCU will be described with reference to FIG.
Here, an internal configuration example of the first MCU 50 will be described. However, detailed description of the same portions as those already described in FIG. 2 is omitted. Further, the internal configuration example of the second MCU 60 is the same as the internal configuration example of the first MCU 50, and thus detailed description thereof is omitted.

第1のMCU50は、各部を制御する制御部54と、通過するディジタル映像データとディジタル音声データを一時的に記憶したり、隣り合う映像/音声処理装置が処理可能なコーデックを記憶したり、第1のMCU50がトランスコーディング可能なコーデックを記憶したりする記憶部55と、を備える。また、記憶部55には、第1のMCU50を識別するためのユニークなID情報が記憶される。   The first MCU 50 temporarily stores digital video data and digital audio data that pass through a control unit 54 that controls each unit, a codec that can be processed by an adjacent video / audio processing device, And a storage unit 55 that stores codecs that can be transcoded by one MCU 50. The storage unit 55 stores unique ID information for identifying the first MCU 50.

第1のMCU50は、隣り合う映像/音声処理装置、MCUで処理可能なコーデックを予め記憶部55に記憶する。また、記憶部55には、通過するパケットをディジタル映像データとディジタル音声データに戻して、トランスコーディングするため記憶する場合がある。このため、第1のMCU50は、受け取ったディジタル映像データとディジタル音声データに対して、最適なコーデックにトランスコーディングできる。   The first MCU 50 stores in advance the video / audio processing apparatus adjacent to the first MCU and a codec that can be processed by the MCU in the storage unit 55. In addition, the storage unit 55 may return the passing packets to digital video data and digital audio data and store them for transcoding. Therefore, the first MCU 50 can transcode the received digital video data and digital audio data to an optimum codec.

第1のMCU50は、隣り合う映像/音声処理装置やMCUと所定の周期で情報を交換する。交換する情報には、ビデオ会議システム100に新しく組み込まれた映像/音声処理装置やMCUのID情報や、映像/音声処理装置で処理可能なコーデックの情報が含まれる。第1のMCU50は、これらの情報を基にして、最適なコーデックを選択し、映像トランスコード部51と音声トランスコード部52を用いて、記憶部55に一時記憶されたディジタル映像データとディジタル音声データのコーデックを他のコーデックにトランスコーディングする。このとき、映像トランスコード部51と音声トランスコード部52は、例えば、MPEG2でコーデックされたディジタル映像データとディジタル音声データを、MPEG4にトランスコーディングする。トランスコーディングが不要なデータである場合、第1のMCU50は、パケットで伝送されるディジタル映像データとディジタル音声データに処理を加えることなく通過させる。   The first MCU 50 exchanges information with adjacent video / audio processing devices and MCUs at a predetermined cycle. The information to be exchanged includes video / audio processing apparatus and MCU ID information newly incorporated in the video conference system 100 and codec information that can be processed by the video / audio processing apparatus. The first MCU 50 selects an optimal codec based on these pieces of information, and uses the video transcoding unit 51 and the audio transcoding unit 52 to temporarily store the digital video data and digital audio data stored in the storage unit 55. Transcode data codec to another codec. At this time, the video transcoding unit 51 and the audio transcoding unit 52 transcode digital video data and digital audio data coded in MPEG2 into MPEG4, for example. When the transcoding is unnecessary, the first MCU 50 passes the digital video data and the digital audio data transmitted in the packet without processing.

次に、ビデオ会議システム100を構成するネットワークに新たなノード(映像/音声処理装置やMCU)を追加する場合の構成例について、図5を参照して説明する。   Next, a configuration example in the case where a new node (video / audio processing device or MCU) is added to the network configuring the video conference system 100 will be described with reference to FIG.

図5では、ビデオ会議システム100に第nの映像/音声処理装置110と、第mのMCU120を追加した場合の例を示す図である。   FIG. 5 is a diagram illustrating an example in which an nth video / audio processing device 110 and an mth MCU 120 are added to the video conference system 100.

第1の映像/音声処理装置10に隣り合うノードは、第2の映像/音声処理装置20と第mのMCU120である。ビデオ会議システム100に、第mのMCU120が追加されると、第mのMCU120で処理可能なコーデックの情報が第1の映像/音声処理装置10と第2のMCU60に伝送される。第1の映像/音声処理装置10と、第2の映像/音声処理装置20が処理可能なコーデック情報と、第mのMCU120がトランスコーディング可能なコーデック情報は、第1の映像/音声処理装置10が保持する第1のコーデック管理テーブルに記憶される。第1のコーデック管理テーブル15は、第1の映像/音声処理装置10が備える記憶部17に所定の領域を確保して構成されるテーブルである。   Nodes adjacent to the first video / audio processing apparatus 10 are the second video / audio processing apparatus 20 and the m-th MCU 120. When the m-th MCU 120 is added to the video conference system 100, codec information that can be processed by the m-th MCU 120 is transmitted to the first video / audio processing apparatus 10 and the second MCU 60. The codec information that can be processed by the first video / audio processing device 10, the second video / audio processing device 20, and the codec information that can be transcoded by the m-th MCU 120 are the first video / audio processing device 10. Is stored in the first codec management table. The first codec management table 15 is a table configured by securing a predetermined area in the storage unit 17 included in the first video / audio processing apparatus 10.

同様に、第2の映像/音声処理装置20に隣り合うノードは、第1の映像/音声処理装置10と第3の映像/音声処理装置30である。本例では、第1の映像/音声処理装置10と、第2の映像/音声処理装置20と、第3の映像/音声処理装置30が処理可能なコーデック情報が、第2の映像/音声処理装置20が保持する第2のコーデック管理テーブル25に記憶される。第2のコーデック管理テーブル25も、第2の映像/音声処理装置20が備える記憶部17に所定の領域を確保して構成されるテーブルである。   Similarly, the nodes adjacent to the second video / audio processing device 20 are the first video / audio processing device 10 and the third video / audio processing device 30. In this example, codec information that can be processed by the first video / audio processing device 10, the second video / audio processing device 20, and the third video / audio processing device 30 is the second video / audio processing. It is stored in the second codec management table 25 held by the device 20. The second codec management table 25 is also a table configured by securing a predetermined area in the storage unit 17 included in the second video / audio processing device 20.

オーバレイネットワークではサーバ側で大きなデータベースを持つことなく、大規模ネットワークに適用できるように構成されるため、全てのノードのコーデック情報を一元管理するわけではない。しかし、オーバレイネットワークに参加しているノードのコーデック情報は、ノード間の情報をたどっていけば、目的のコーデック情報に辿りつくことが可能である。そして、ユーザが利用する際には、仮想的にコーデック情報を一元管理したサーバがあるかのように利用できる。   Since the overlay network is configured so that it can be applied to a large-scale network without having a large database on the server side, codec information of all nodes is not centrally managed. However, the codec information of the nodes participating in the overlay network can reach the target codec information by following the information between the nodes. When the user uses it, it can be used as if there is a server that virtually manages codec information.

次に、ノードの初期化処理の例について、図6を参照して説明する。ノードの初期化処理は、ビデオ会議システム100を構成するネットワークに新たなノード(映像/音声処理装置やMCU)を追加する場合に、追加されたノードのコーデック情報を取得する処理である。オーバレイネットワークによって構成されるビデオ会議システム100では、あるノードは、分散ハッシュの技術を利用して、扱うことが可能なコーデックの情報を他のノードに保存する。また、あるノードは、自ノードで管理すべきコーデック情報を、他のノードから受信して、コーデック情報を管理する。   Next, an example of node initialization processing will be described with reference to FIG. The node initialization process is a process of acquiring codec information of an added node when a new node (video / audio processing device or MCU) is added to the network constituting the video conference system 100. In the video conference system 100 configured by an overlay network, a certain node stores codec information that can be handled in another node by using a distributed hash technique. Also, a certain node receives codec information to be managed by its own node from another node and manages the codec information.

以下の説明では、ここで、ビデオ会議システム100に参加するi番目の映像/音声処理装置を、第iの映像/音声処理装置とし、j番目のMCUを第jのMCUとしている。また、ビデオ会議システム100に参加済みのノードとは、オーバレイネットワークに参加するノードを意味する。このノードは、オーバレイネットワークのコンフィグレーションによって変わる。例えば、隣り合う一つのノードの情報を管理するという設定の場合、隣り合うノードのみである。また、隣り合うn個のノード情報を管理するという設定の場合、隣り合うn個のノードである。   In the following description, the i-th video / audio processing device participating in the video conference system 100 is referred to as the i-th video / audio processing device, and the j-th MCU is referred to as the j-th MCU. Further, the node that has already participated in the video conference system 100 means a node that participates in the overlay network. This node varies depending on the configuration of the overlay network. For example, in the case of setting to manage information of one adjacent node, only the adjacent node is used. Further, in the case of setting to manage n pieces of adjacent node information, there are n pieces of adjacent nodes.

始めに、第iの映像/音声処理装置又は第jのMCUが新たに参加すると、隣り合うノードに本ノードのID情報を通知する(ステップS1)。ビデオ会議システム100に参加済みのノードは、第iの映像/音声処理装置又は第jのMCUのID情報を取得する。そして、ビデオ会議システム100に参加済みのノードは、正常にID情報を取得した旨を示すOKレスポンスを第iの映像/音声処理装置又は第jのMCUに通知する(ステップS2)。   First, when the i-th video / audio processing apparatus or the j-th MCU newly participates, the ID information of this node is notified to an adjacent node (step S1). The node that has already participated in the video conference system 100 acquires the ID information of the i-th video / audio processing device or the j-th MCU. Then, the node that has already participated in the video conference system 100 notifies the i-th video / audio processing device or the j-th MCU of an OK response indicating that the ID information has been normally acquired (step S2).

次に、第iの映像/音声処理装置が処理可能なコーデック情報又は第jのMCUがトランスコーディング可能なコーデック情報を、隣り合うノードに通知する(ステップS3)。ビデオ会議システム100に参加済みのノードは、正常にコーデック情報を取得した旨を示すOKレスポンスを、第iの映像/音声処理装置又は第jのMCUに通知する(ステップS4)。   Next, codec information that can be processed by the i-th video / audio processing apparatus or codec information that can be transcoded by the j-th MCU is notified to adjacent nodes (step S3). The node that has already participated in the video conference system 100 notifies the i-th video / audio processing apparatus or the j-th MCU of an OK response indicating that the codec information has been successfully acquired (step S4).

次に、第iの映像/音声処理装置又は第jのMCUは、隣り合うノードから本ノードで管理すべきコーデック情報を受信する用意ができた旨を通知する(ステップS5)。ビデオ会議システム100に参加済みのノードは、本ノードの受信要求を正常に取得した旨を示すOKレスポンスを、第iの映像/音声処理装置又は第jのMCUに通知する(ステップS6)。以降の処理については、後述の図7を参照して説明する。   Next, the i-th video / audio processing apparatus or the j-th MCU notifies from the adjacent node that it is ready to receive codec information to be managed by this node (step S5). The node that has already participated in the video conference system 100 notifies the i-th video / audio processing apparatus or the j-th MCU of an OK response indicating that the reception request of this node has been normally acquired (step S6). The subsequent processing will be described with reference to FIG.

このような処理を経て、例えば、第1のMCU50は、記憶部55に、隣り合うノードに配置される第nの映像/音声処理装置110が処理可能なコーデックの情報と、第2のMCU60がトランスコーディング可能なコーデックの情報を記憶する。   Through such processing, for example, the first MCU 50 stores in the storage unit 55 information on codecs that can be processed by the nth video / audio processing device 110 arranged in an adjacent node, and the second MCU 60 Stores information about codecs that can be transcoded.

次に、多地点で同時に会議を行う場合に、最適なコーデックとMCUを選択する処理の例について、図7を参照して説明する。本例では、特に、第1の映像/音声処理装置10が行う処理に注目して説明する。   Next, an example of processing for selecting an optimal codec and MCU when a conference is simultaneously held at multiple points will be described with reference to FIG. In this example, the description will be given with particular attention to the processing performed by the first video / audio processing apparatus 10.

始めに、第1の映像/音声処理装置10は、ビデオ会議システム100に参加済みのノードに対して、第2の映像/音声処理装置20が処理可能なコーデック情報を取得する取得要求を行う(ステップS11)。ビデオ会議システム100に参加済みのノードは、第2の映像/音声処理装置20が処理可能なコーデック情報を第1の映像/音声処理装置10に通知すると共に、取得要求に対して正常に通知を行った旨を示すOKレスポンスを第1の映像/音声処理装置10に通知する(ステップS12)。   First, the first video / audio processing device 10 makes an acquisition request for acquiring codec information that can be processed by the second video / audio processing device 20 to a node that has already joined the video conference system 100 ( Step S11). The node that has already participated in the video conference system 100 notifies the first video / audio processing device 10 of codec information that can be processed by the second video / audio processing device 20, and normally notifies the acquisition request. The first video / audio processing apparatus 10 is notified of an OK response indicating that it has been performed (step S12).

次に、第1の映像/音声処理装置10は、ビデオ会議システム100に参加済みのノードに対して、第3の映像/音声処理装置30が処理可能なコーデック情報を取得する取得要求を行う(ステップS13)。ビデオ会議システム100に参加済みのノードは、第3の映像/音声処理装置30が処理可能なコーデック情報を第1の映像/音声処理装置10に通知すると共に、取得要求に対して正常に通知を行った旨を示すOKレスポンスを第1の映像/音声処理装置10に通知する(ステップS14)。   Next, the first video / audio processing apparatus 10 makes an acquisition request for acquiring codec information that can be processed by the third video / audio processing apparatus 30 to a node that has already participated in the video conference system 100 ( Step S13). The node that has already participated in the video conference system 100 notifies the first video / audio processing device 10 of codec information that can be processed by the third video / audio processing device 30 and normally notifies the acquisition request. An OK response indicating that it has been performed is notified to the first video / audio processing apparatus 10 (step S14).

次に、第1の映像/音声処理装置10は、ビデオ会議システム100に参加済みのノードに対して、第4の映像/音声処理装置40が処理可能なコーデック情報を取得する取得要求を行う(ステップS15)。ビデオ会議システム100に参加済みのノードは、第4の映像/音声処理装置40が処理可能なコーデック情報を第1の映像/音声処理装置10に通知すると共に、取得要求に対して正常に通知を行った旨を示すOKレスポンスを第1の映像/音声処理装置10に通知する(ステップS16)。   Next, the first video / audio processing apparatus 10 makes an acquisition request for acquiring codec information that can be processed by the fourth video / audio processing apparatus 40 to a node that has already participated in the video conference system 100 ( Step S15). The node that has already participated in the video conference system 100 notifies the first video / audio processing device 10 of codec information that can be processed by the fourth video / audio processing device 40, and normally notifies the acquisition request. The first video / audio processing apparatus 10 is notified of an OK response indicating that it has been performed (step S16).

こうして、第1の映像/音声処理装置10は、ステップS12,14,16で通知された各映像/音声処理装置が処理可能なコーデックの情報及び多地点接続装置でトランスコーディング可能なコーデックの情報を記憶部17に記憶させる。なお、ある端末(本例では、第1の映像/音声処理装置10)が2つ以上先のノードのコーデック情報を取得する場合、隣り合うノード同士でバケツリレーのようにしてコーデック情報を引き渡す。一般的に、自端末で管理しておらず、他の端末が管理している端末(本例では、音声処理装置、MCU)の情報(本例では、コーデック情報)を取得する場合、まず、他の端末が管理している端末の位置情報を取得する。そして、自端末は、取得した位置情報から、他の端末が管理している端末を特定し、情報を取得する。   Thus, the first video / audio processing apparatus 10 receives the information on the codec that can be processed by each video / audio processing apparatus and the information on the codec that can be transcoded by the multipoint connection apparatus notified in steps S12, 14, and 16. The data is stored in the storage unit 17. When a certain terminal (in this example, the first video / audio processing device 10) acquires codec information of two or more nodes ahead, the codec information is handed over between adjacent nodes like a bucket relay. In general, when acquiring information (in this example, codec information) of a terminal (in this example, a voice processing device or MCU) that is not managed by the own terminal but managed by another terminal, Acquire terminal location information managed by other terminals. And the own terminal specifies the terminal which the other terminal is managing from the acquired position information, and acquires information.

次に、第1の映像/音声処理装置10は、取得した第2の映像/音声処理装置20〜第4の映像/音声処理装置40が処理可能なコーデック情報に基づいて、MCUが行うトランスコーディングの負荷が最小となるように最適なコーデックを選択する(ステップS17)。このとき、第1の映像/音声処理装置10は、第1の映像/音声処理装置10〜第4の映像/音声処理装置40で最もよく使われているコーデックを選択する。このため、多数の映像/音声処理装置で使われるコーデックについては、トランスコーディングする必要がなくなり、少数の映像/音声処理装置で使われるコーデックをトランスコーディングするだけでよい。この結果、ビデオ会議システム100全体の処理量が減少する。   Next, the first video / audio processing device 10 performs transcoding performed by the MCU based on the acquired codec information that can be processed by the second video / audio processing device 20 to the fourth video / audio processing device 40. The optimum codec is selected so as to minimize the load (step S17). At this time, the first video / audio processing device 10 selects the codec most frequently used in the first video / audio processing device 10 to the fourth video / audio processing device 40. For this reason, it is not necessary to transcode codecs used in a large number of video / audio processing apparatuses, and it is only necessary to transcode codecs used in a small number of video / audio processing apparatuses. As a result, the processing amount of the entire video conference system 100 is reduced.

次に、第1の映像/音声処理装置10は、ビデオ会議システム100に参加済みのノードに対して、全てのMCUのID情報と、これらMCUがトランスコーディング可能なコーデック情報を取得する取得要求を行う(ステップS18)。ビデオ会議システム100に参加済みのノードは、全てのMCUのID情報と、これらMCUがトランスコーディング可能なコーデック情報を第1の映像/音声処理装置10に通知すると共に、取得要求に対して正常に通知を行った旨を示すOKレスポンスを第1の映像/音声処理装置10に通知する(ステップS19)。   Next, the first video / audio processing apparatus 10 sends an acquisition request for acquiring ID information of all the MCUs and codec information that can be transcoded by the MCUs to the nodes that have already participated in the video conference system 100. This is performed (step S18). The node that has already participated in the video conference system 100 notifies the first video / audio processing device 10 of the ID information of all the MCUs and the codec information that can be transcoded by these MCUs, and responds normally to the acquisition request. An OK response indicating that notification has been given is sent to the first video / audio processing apparatus 10 (step S19).

第1の映像/音声処理装置10は、全てのMCUのID情報を参照して、記憶部17に記憶された他の映像/音声処理装置で処理可能なコーデックの情報とMCUでトランスコーディング可能なコーデックの情報に基づいて、トランスコーディングさせる多地点接続装置を選択する(ステップS20)。
こうして、トランスコーディングの必要がある場合は、MCUの機能一覧から最適なMCUを選択し、多地点会議を行うことができる。
The first video / audio processing device 10 refers to the ID information of all the MCUs, and can transcode the information of the codec that can be processed by other video / audio processing devices stored in the storage unit 17 and the MCU. Based on the information of the codec, the multipoint connection device to be transcoded is selected (step S20).
Thus, when transcoding is necessary, an optimum MCU can be selected from the MCU function list and a multipoint conference can be performed.

次に、トランスコーディングの負荷が最小となるように最適なMCUを選択する処理の例について、図8を参照して説明する。本例では、第1の映像/音声処理装置10がn個の映像/音声処理装置と、m個のMCUから最適なMCUを選択する処理について説明する。   Next, an example of processing for selecting an optimum MCU so that the transcoding load is minimized will be described with reference to FIG. In this example, a process in which the first video / audio processing apparatus 10 selects an optimal MCU from n video / audio processing apparatuses and m MCUs will be described.

始めに、第1の映像/音声処理装置10は、n個の映像/音声処理装置が利用可能なコーデック情報を取得する(ステップS21)。   First, the first video / audio processing device 10 acquires codec information that can be used by n video / audio processing devices (step S21).

次に、第1の映像/音声処理装置10は、n個の映像/音声処理装置で共通に処理できるコーデックがあるか否かを判別する(ステップS22)。n個の映像/音声処理装置で共通に処理できるコーデックがある場合、トランスコーディングを行う必要がないため、処理を終了する。   Next, the first video / audio processing device 10 determines whether there is a codec that can be processed in common by the n video / audio processing devices (step S22). If there is a codec that can be processed in common by n video / audio processing apparatuses, it is not necessary to perform transcoding, and thus the process ends.

一方、n個の映像/音声処理装置で共通に処理できるコーデックがない場合、MCUを識別する変数jを“1”に初期化する(ステップS23)。以下、第jのMCUを、j番目のMCUと称する。第jのMCUは、図7の処理で取得した全てのMCUのID情報から定まる。   On the other hand, if there is no codec that can be processed in common by the n video / audio processing devices, the variable j for identifying the MCU is initialized to “1” (step S23). Hereinafter, the j-th MCU is referred to as a j-th MCU. The j-th MCU is determined from the ID information of all the MCUs acquired in the process of FIG.

次に、第1の映像/音声処理装置10は、j番目のMCUがトランスコーディング可能なコーデック情報を取得する(ステップS24)。
そして、第1の映像/音声処理装置10は、映像/音声処理装置を識別する変数iを“1”に初期化する(ステップS25)。以下、第iのMCUを、i番目のMCUと称する。第jのMCUは、図7の処理で取得した全ての映像/音声処理装置のID情報から定まる。
Next, the first video / audio processing apparatus 10 acquires codec information that can be transcoded by the j-th MCU (step S24).
Then, the first video / audio processing device 10 initializes a variable i for identifying the video / audio processing device to “1” (step S25). Hereinafter, the i-th MCU is referred to as the i-th MCU. The j-th MCU is determined from the ID information of all the video / audio processing devices acquired by the processing of FIG.

次に、第1の映像/音声処理装置10は、j番目のMCUと、i番目の映像/音声処理装置が共通して処理できるコーデックがあるか否かを判別する(ステップS26)。処理できるコーデックがない場合、ステップS30に処理を移す。   Next, the first video / audio processing device 10 determines whether there is a codec that can be processed in common by the j-th MCU and the i-th video / audio processing device (step S26). If there is no codec that can be processed, the process proceeds to step S30.

一方、処理できるコーデックがある場合、第1の映像/音声処理装置10は、変数iが定数nより大きいか否かを判別する(ステップS27)。
変数iが定数n以下である場合、第1の映像/音声処理装置10は、変数iを“1”増加し(ステップS28)、ステップS26の処理に移す。
On the other hand, if there is a codec that can be processed, the first video / audio processing apparatus 10 determines whether or not the variable i is greater than a constant n (step S27).
If the variable i is less than or equal to the constant n, the first video / audio processing apparatus 10 increases the variable i by “1” (step S28), and proceeds to the process of step S26.

一方、変数iが定数nより大きい場合、第1の映像/音声処理装置10は、j番目のMCUが、i番目の映像/音声処理装置と共通に処理できるコーデックがあることを、記憶部1717に記憶する(ステップS29)。   On the other hand, when the variable i is larger than the constant n, the first video / audio processing apparatus 10 indicates that there is a codec that can process the j-th MCU in common with the i-th video / audio processing apparatus. (Step S29).

次に、第1の映像/音声処理装置10は、変数jが定数mより大きいか否かを判別する(ステップS30)。
変数jが定数m以下である場合、第1の映像/音声処理装置10は、変数jを“1”増加し(ステップS31)、ステップS24の処理に移す。
Next, the first video / audio processing apparatus 10 determines whether or not the variable j is larger than a constant m (step S30).
If the variable j is less than or equal to the constant m, the first video / audio processing apparatus 10 increases the variable j by “1” (step S31), and proceeds to the process of step S24.

一方、変数jが定数mより大きい場合、第1の映像/音声処理装置10は、変換処理が可能なMCUから、トランスコーディングが少なくなるMCUを選択し(ステップS32)、処理を終了する。   On the other hand, when the variable j is larger than the constant m, the first video / audio processing apparatus 10 selects an MCU with less transcoding from the MCUs that can perform the conversion process (step S32), and ends the process.

このようにして、映像/音声処理装置間で共通に利用できるコーデックがある場合は、そのコーデックを使用する。また、共通に利用できるコーデックがない場合は、映像/音声処理装置とMCUで共通に利用できるコーデックを調べ、全ての映像/音声処理装置で一つ以上利用できるコーデックがある場合は、そのMCUを使用する。   In this way, when there is a codec that can be used in common between the video / audio processing apparatuses, the codec is used. Also, if there is no codec that can be used in common, the codec that can be used in common by the video / audio processing device and the MCU is checked. use.

以上説明した本実施の形態によれば、オーバレイネットワークを利用して、映像/音声処理装置が利用可能なコーデックとMCUがトランスコーディング可能なコーデック情報といる大量の情報を管理し、取得することが可能となる。会議システム100では、オーバレイネットワークに参加する全ノードが処理可能なコーデック情報を一元管理するためのサーバが設置されていない。しかしながら、オーバレイネットワークを利用することで、従来のサーバ/クライアントシステムと同様の利便性を確保する点に特徴がある。このため、ビデオ会議システム100に加わるノードが多くなる場合であっても、最適なコーデックにトランスコーディングすることが可能なMCUを選択できる。この結果、トランスコーディングの負荷が減少し、ビデオ会議システム100全体で行われる各ノードの処理量が減少するという効果がある。   According to the present embodiment described above, a large amount of information including codec that can be used by the video / audio processing apparatus and codec information that can be transcoded by the MCU can be managed and acquired using the overlay network. It becomes possible. In the conference system 100, a server for centrally managing codec information that can be processed by all nodes participating in the overlay network is not installed. However, there is a feature in that the convenience similar to that of the conventional server / client system is ensured by using the overlay network. For this reason, even when the number of nodes participating in the video conference system 100 increases, it is possible to select an MCU capable of transcoding to an optimal codec. As a result, the transcoding load is reduced, and the processing amount of each node performed in the entire video conference system 100 is reduced.

また、トランスコーディングの負荷が小さくなるようにコーデックを選択できる。例えば、4個の映像/音声処理装置のうち、3個の映像/音声処理装置が共通のコーデック(例えば、MPEG4)であり、1個の映像/音声処理装置が異なるコーデック(例えば、MPEG2)である場合を想定する。このとき、多くの映像/音声処理装置が共通して処理できるコーデック(MPEG4)を用いることで、MPEG2とMPEG4をトランスコーディングすることができる。このため、MCUが行うトランスコーディングの負荷は、MPEG2を処理する映像/音声処理装置に対してだけであるため、ビデオ会議システム100全体の処理負荷が減少するという効果がある。   Also, the codec can be selected so that the transcoding load is reduced. For example, among four video / audio processing devices, three video / audio processing devices are common codecs (for example, MPEG4), and one video / audio processing device is a different codec (for example, MPEG2). Assume a certain case. At this time, MPEG2 and MPEG4 can be transcoded by using a codec (MPEG4) that can be processed in common by many video / audio processing apparatuses. For this reason, since the load of transcoding performed by the MCU is only for the video / audio processing apparatus that processes MPEG2, there is an effect that the processing load of the entire video conference system 100 is reduced.

また、MCUがトランスコーディング可能なコーデックを取得した上で、最適なMCUを選択することができる。このため、従来、新しく映像/音声処理装置を追加する度に、コーデック情報やMCUを選択しなければならなかったが、自動化して行える。この結果、ユーザはコーデックやMCUの設定に煩わされなくなるという効果がある。   In addition, an optimal MCU can be selected after obtaining a codec that can be transcoded by the MCU. For this reason, conventionally, codec information and MCU have to be selected every time a new video / audio processing apparatus is added, but this can be done automatically. As a result, there is an effect that the user is not bothered by the codec and MCU settings.

なお、上述した実施の形態例では、双方向に音声を送受信するテレビ会議システムに適用した例として説明したが、双方向通信を用いるシステムであれば、例えば、電話での音声通信等に適用してもよい。   In the above-described embodiment, the example has been described as applied to a video conference system that transmits and receives audio in both directions. However, if the system uses bidirectional communication, for example, it is applied to audio communication over a telephone. May be.

また、上述した実施の形態例における一連の処理は、ハードウェアにより実行することができるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムを、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに所望のソフトウェアを構成するプログラムをインストールして実行させる。   The series of processes in the above-described embodiment can be executed by hardware, but can also be executed by software. When a series of processing is executed by software, it is possible to execute various functions by installing programs that make up the software into a computer built into dedicated hardware, or by installing various programs. For example, a program constituting desired software is installed and executed in a general-purpose personal computer or the like.

また、上述した実施の形態例の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPU等の制御装置)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。   In addition, a recording medium in which a program code of software that realizes the functions of the above-described embodiments is recorded is supplied to the system or apparatus, and a computer (or a control device such as a CPU) of the system or apparatus stores the recording medium in the recording medium. Needless to say, this can also be achieved by reading and executing the program code.

この場合のプログラムコードを供給するための記録媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disc)−ROM(Read Only Memory)、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。   As a recording medium for supplying the program code in this case, for example, floppy disk, hard disk, optical disk, magneto-optical disk, CD (Compact Disc) -ROM (Read Only Memory), CD-R, magnetic tape, non-volatile A memory card, ROM, or the like can be used.

また、コンピュータが読み出したプログラムコードを実行することにより、上述した実施の形態例の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(Operating System)などが実際の処理の一部又は全部を行い、その処理によって上述した実施の形態例の機能が実現される場合も含まれる。   Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (Operating System) running on the computer based on the instruction of the program code. Includes a case where the functions of the above-described embodiment are realized by performing some or all of the actual processing.

本発明の一実施の形態例におけるビデオ会議システムのネットワーク構成例を示す説明図である。It is explanatory drawing which shows the network structural example of the video conference system in the example of 1 embodiment of this invention. 本発明の一実施の形態例におけるビデオ会議システムの内部構成例を示すブロック図である。It is a block diagram which shows the example of an internal structure of the video conference system in the example of 1 embodiment of this invention. 本発明の一実施の形態例における映像/音声処理装置の内部構成例を示すブロック図である。It is a block diagram which shows the example of an internal structure of the video / audio processing apparatus in the example of 1 embodiment of this invention. 本発明の一実施の形態例におけるMCUの内部構成例を示すブロック図である。It is a block diagram which shows the internal structural example of MCU in the example of 1 embodiment of this invention. 本発明の一実施の形態例における多地点におけるビデオ会議システムのネットワークの構成例を示す説明図である。It is explanatory drawing which shows the structural example of the network of the video conference system in the multipoint in one embodiment of this invention. 本発明の一実施の形態例におけるノードを初期化する処理の例を示すシーケンス図である。It is a sequence diagram which shows the example of the process which initializes the node in one embodiment of this invention. 本発明の一実施の形態例における最適なコーデックとMCUを選択する処理の例を示すシーケンス図である。It is a sequence diagram which shows the example of the process which selects the optimal codec and MCU in one embodiment of this invention. 本発明の一実施の形態例におけるトランスコーディングの負荷が最小となるように、最適なMCUを選択する処理の例を示すフローチャートである。It is a flowchart which shows the example of the process which selects optimal MCU so that the load of transcoding in one embodiment of this invention may become the minimum.

符号の説明Explanation of symbols

1…撮像部、2…マイクロホン、3…表示部、4…スピーカ、5…映像処理部、6…音声処理部、7…ネットワークインタフェース、10…第1の映像/音声処理装置、11…アナログ/ディジタル変換部、12…ディジタル/アナログ変換部、13…アナログ/ディジタル変換部、14…ディジタル/アナログ変換部、15…第1のコーデック管理テーブル、16…制御部、17…記憶部、18…入力部、20…第2の映像/音声処理装置、25…第2のコーデック管理テーブル、30…第3の映像/音声処理装置、40…第4の映像/音声処理装置、50…第1のMCU、51…映像トランスコード部、52…音声トランスコード部、53…制御部、54…記憶部、55…ネットワークインタフェース、60…第2のMCU、100…ビデオ会議システム   DESCRIPTION OF SYMBOLS 1 ... Imaging part, 2 ... Microphone, 3 ... Display part, 4 ... Speaker, 5 ... Video processing part, 6 ... Audio | voice processing part, 7 ... Network interface, 10 ... 1st video / audio processing apparatus, 11 ... Analog / Digital conversion unit, 12 ... digital / analog conversion unit, 13 ... analog / digital conversion unit, 14 ... digital / analog conversion unit, 15 ... first codec management table, 16 ... control unit, 17 ... storage unit, 18 ... input 20 ... second video / audio processing device 25 ... second codec management table 30 ... third video / audio processing device 40 ... fourth video / audio processing device 50 ... first MCU 51 ... Video transcoding unit, 52 ... Audio transcoding unit, 53 ... Control unit, 54 ... Storage unit, 55 ... Network interface, 60 ... Second MCU, 100 ... Video Oh conference system

Claims (5)

少なくとも1つのノードが、分散ハッシュテーブル技術によりハッシュ空間上に割り当てられて構成されるオーバレイネットワークが用いられ、前記ノードには、データをコーデックする複数のデータ処理装置と、前記複数のデータ処理装置でコーデックされたデータを他のコーデックにトランスコーディングする多地点接続装置が含まれるビデオ会議システムにおいて、
前記データ処理装置は、
処理可能なコーデックの情報を記憶する第1の記憶部と、
前記第1の記憶部に記憶されたコーデックの情報に基づいて、第1のコーデックでデータをコーデックするデータ処理部と、を備え、
前記多地点接続装置は、
隣り合う前記ノードで処理可能なコーデックの情報を記憶する第2の記憶部と、
前記第2の記憶部に記憶され、前記隣り合うノードで処理可能なコーデックの情報に基づいて、前記第1のコーデックで処理されたデータを、第2のコーデックにトランスコーディングするトランスコード部を備えることを特徴とする
ビデオ会議システム。
An overlay network is used in which at least one node is allocated on a hash space using a distributed hash table technique, and the nodes include a plurality of data processing devices that code data and the plurality of data processing devices. In a video conference system including a multipoint connection device that transcodes codec data to another codec,
The data processing device includes:
A first storage unit for storing information of codecs that can be processed;
A data processing unit that codec data with the first codec based on the codec information stored in the first storage unit,
The multipoint connection device is:
A second storage unit that stores information of codecs that can be processed by the adjacent nodes;
A transcoding unit configured to transcode data processed by the first codec to a second codec based on information of a codec stored in the second storage unit and processable by the adjacent node; A video conferencing system characterized by that.
請求項1記載のビデオ会議システムにおいて、
前記データ処理装置は、
他のデータ処理装置で処理可能なコーデックの情報及び前記多地点接続装置でトランスコーディング可能なコーデックの情報を前記第1の記憶部に記憶し、
前記第1の記憶部に記憶された、前記他のデータ処理装置で処理可能なコーデックの情報及び前記多地点接続装置でトランスコーディング可能なコーデックの情報に基づいて、前記多地点接続装置を選択することを特徴とする
ビデオ会議システム。
The video conference system according to claim 1.
The data processing device includes:
Storing the information of the codec that can be processed by another data processing device and the information of the codec that can be transcoded by the multipoint connection device in the first storage unit,
The multipoint connection device is selected based on codec information that can be processed by the other data processing device and codec information that can be transcoded by the multipoint connection device, stored in the first storage unit. A video conferencing system characterized by that.
請求項2記載のビデオ会議システムにおいて、
前記多地点接続装置は、
前記第2の記憶部に、前記隣り合うノードに配置される前記データ処理装置が処理可能なコーデックの情報と、他の多地点接続装置がトランスコーディング可能なコーデックの情報を記憶することを特徴とする
ビデオ会議システム。
The video conference system according to claim 2,
The multipoint connection device is:
The second storage unit stores codec information that can be processed by the data processing device arranged in the adjacent node, and codec information that can be transcoded by another multipoint connection device. Video conferencing system.
少なくとも1つのノードが、分散ハッシュテーブル技術によりハッシュ空間上に割り当てられて構成されるオーバレイネットワークが用いられ、前記ノードには、データをコーデックする複数のデータ処理装置と、前記複数のデータ処理装置でコーデックされたデータを他のコーデックにトランスコーディングする多地点接続装置が含まれるビデオ会議方法において、
前記データ処理装置は、
処理可能なコーデックの情報を記憶し、
前記記憶されたコーデックの情報に基づいて、第1のコーデックでデータをコーデックし、
前記多地点接続装置は、
隣り合う前記ノードで処理可能なコーデックの情報を記憶し、
前記隣り合うノードで処理可能なコーデックの情報に基づいて、前記第1のコーデックで処理されたデータを、第2のコーデックにトランスコーディングすることを特徴とする
ビデオ会議方法。
An overlay network is used in which at least one node is allocated on a hash space using a distributed hash table technique, and the nodes include a plurality of data processing devices that code data and the plurality of data processing devices. In a video conferencing method including a multipoint connection device that transcodes codec data to another codec,
The data processing device includes:
Stores information about codecs that can be processed,
Based on the stored codec information, code the data with a first codec,
The multipoint connection device is:
Stores information on codecs that can be processed by the adjacent nodes,
A video conferencing method comprising transcoding data processed by the first codec to a second codec based on codec information that can be processed by the adjacent nodes.
少なくとも1つのノードが、分散ハッシュテーブル技術によりハッシュ空間上に割り当てられて構成されるオーバレイネットワークが用いられ、前記ノードには、データをコーデックする複数のデータ処理装置と、前記複数のデータ処理装置でコーデックされたデータを他のコーデックにトランスコーディングする多地点接続装置が含まれるプログラムにおいて、
前記データ処理装置は、
処理可能なコーデックの情報を記憶する第1の記憶処理と、
前記記憶されたコーデックの情報に基づいて、第1のコーデックでデータをコーデックするコーデック処理と、を行い、
前記多地点接続装置は、
隣り合う前記ノードで処理可能なコーデックの情報を記憶する第2の記憶処理と、
前記第2の記憶処理によって記憶され、前記隣り合うノードで処理可能なコーデックの情報に基づいて、前記第1のコーデックでコーデックされたデータを、第2のコーデックにトランスコーディングするトランスコード処理と、を行うことを特徴とする
プログラム。
An overlay network is used in which at least one node is allocated on a hash space using a distributed hash table technique, and the nodes include a plurality of data processing devices that code data and the plurality of data processing devices. In a program including a multipoint connection device that transcodes coded data to another codec,
The data processing device includes:
A first storage process for storing information on processable codecs;
Based on the stored codec information, codec processing data codec with a first codec,
The multipoint connection device is:
A second storage process for storing codec information that can be processed by the adjacent nodes;
A transcoding process for transcoding data coded by the first codec to a second codec based on codec information stored by the second storage process and processable by the adjacent nodes; A program characterized by
JP2007337742A 2007-12-27 2007-12-27 Video conference system, video conference method, and program Pending JP2009159504A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007337742A JP2009159504A (en) 2007-12-27 2007-12-27 Video conference system, video conference method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007337742A JP2009159504A (en) 2007-12-27 2007-12-27 Video conference system, video conference method, and program

Publications (1)

Publication Number Publication Date
JP2009159504A true JP2009159504A (en) 2009-07-16

Family

ID=40962965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007337742A Pending JP2009159504A (en) 2007-12-27 2007-12-27 Video conference system, video conference method, and program

Country Status (1)

Country Link
JP (1) JP2009159504A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012522462A (en) * 2009-03-30 2012-09-20 アルカテル−ルーセント Method and apparatus for efficient transmission of multimedia streams for teleconferencing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012522462A (en) * 2009-03-30 2012-09-20 アルカテル−ルーセント Method and apparatus for efficient transmission of multimedia streams for teleconferencing

Similar Documents

Publication Publication Date Title
JP6404912B2 (en) Live broadcasting system
US7577110B2 (en) Audio chat system based on peer-to-peer architecture
RU2533304C2 (en) Conference call management method and related device and system
US9204097B2 (en) Recording a videoconference using video different from the videoconference
JP5781441B2 (en) Subscription for video conferencing using multi-bitrate streams
US8780166B2 (en) Collaborative recording of a videoconference using a recording server
US9407867B2 (en) Distributed recording or streaming of a videoconference in multiple formats
TWI533706B (en) Unified communication based multi-screen video system
JP6182902B2 (en) Transmission terminal, transmission system and program
JP5497768B2 (en) Video conference system, video conference device, video conference control method and program
CN109586929B (en) Conference content transmission method and device, electronic equipment and storage medium
JP7677388B2 (en) Transmission Management Device
US20230005487A1 (en) Autocorrection of pronunciations of keywords in audio/videoconferences
JP6557976B2 (en) Transmission system, information processing apparatus, transmission method, program
KR102090070B1 (en) Streaming server, client terminal and audio/video live streaming system using the same
JP2009159504A (en) Video conference system, video conference method, and program
JP6550712B2 (en) Communication system, management server, and communication method
KR20120126101A (en) Method for automatically tagging media content, media server and application server for realizing such a method
JP6610076B2 (en) Information processing apparatus, information processing system, program, and recording medium
JP2007096974A (en) Video conference terminal and display position determining method
JP5899710B2 (en) Transmission system
CN105227895B (en) Video layout and processing method in MCU stack
US12437766B2 (en) Autocorrection of pronunciations of keywords in audio/videoconferences
WO2013066290A1 (en) Videoconferencing using personal devices
EP3563248B1 (en) Unified, browser-based enterprise collaboration platform