JP2011071684A

JP2011071684A - 映像音響処理システム、映像音響処理方法及びプログラム

Info

Publication number: JP2011071684A
Application number: JP2009220198A
Authority: JP
Inventors: Akira Inoue; 晃井上; Toshiyuki Nomura; 俊之野村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-09-25
Filing date: 2009-09-25
Publication date: 2011-04-07

Abstract

【課題】複数のオブジェクトが混在する中から、相関を用いて、音のオブジェクトと映像のオブジェクトとを対応づける映像音響処理システム、映像音響処理方法及びプログラムを提供すること。
【解決手段】本発明は、入力映像信号から映像オブジェクトを分離する映像オブジェクト分離部と、入力音響信号から音響オブジェクトを分離する音響オブジェクト分離部と、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも１以上対応付ける相関対応付け部とを有する映像音響処理システムである。
【選択図】図１

Description

本発明は映像音響処理システム、映像音響処理方法及びプログラムに関する。

映像コミュニケーション装置等において、しばしば映像音響信号から特定のオブジェクト（人や物体など）に注目して視聴したいという要望がある。特定オブジェクトへの注目処理に関し、映像信号における注目処理を映像注目処理とし、音響信号における注目処理を音響注目処理とする。

図１８を用いて映像注目処理の一例について説明する。元映像フレーム７１に、４つのオブジェクト（オブジェクトＡ７４、オブジェクトＢ７５、オブジェクトＣ７６、オブジェクトＤ７７）が含まれているとする。オブジェクトとは撮影された映像空間を構成する物体であり、例えば人物や自動車、建物などである。元映像フレーム７１内では、これらのオブジェクトの位置を示す矩形が点線で表示されている。ここで、元映像フレーム７１内における注目領域を、注目領域７３で示す実線矩形とする。注目処理映像７２は、注目領域７３に対して映像注目処理を施した一例である。注目処理映像７２は、注目領域を拡大して表示幅が最大となるように表示した例である。

音響注目処理の一例として、注目するオブジェクトに対応した音響信号だけを再生する方法がある。この場合、元映像フレーム７１では、注目領域７３を指定するとその内部に含まれるオブジェクトＤ７７のみの音声が再生されることになる。

上述のような注目処理により、視聴者が興味のある領域だけを詳細に観察することが可能となる。

映像中の音を発する特定オブジェクトへの注目処理を実現するには、音源となっている映像オブジェクトを抽出し、それぞれのオブジェクトが発生する音と映像を分離する必要があった。そこで、このような技術に関連する一例が、特許文献１に記載されている。

特許文献１によれば、ＴＶ会議システムにおいて複数のカメラと複数のマイクを用い、注目領域として特定のカメラ映像を選択すると、その映像に近い位置のマイクのみを動作させることで、注目領域に適した音声を収録・再生することが記載されている。すなわち、１つのオブジェクトに対して、特定のカメラとマイクとを固定することにより、映像オブジェクトと音響オブジェクトとを対応づけて分離している。

また、関連する技術として、音源方向検出を利用したオブジェクト分離方法がある。図１９に関連するオブジェクト分離装置を示す。

このオブジェクト分離装置は、映像オブジェクト分離部９０１と、音源方向検出部９０２とから構成される。そして、映像信号は映像オブジェクト分離部９０１に入力され、音響信号は音源方向検出部９０２に入力される。

音源方向検出部９０２は、マルチチャンネルの音響信号を用いて音源方向を検出する。音源方向の検出方法の一例として、複数の指向性マイクの信号を比較して、最も音量の大きいマイクの向いている方向を音源方向とする方法がある。もう一つの音源方向検出方法として、音響ビームフォーミング技術がある。これは、複数のマイク信号の位相差が最も小さくなる方向を音源方向と見なし、信号処理によって音源方向を推定する公知の技術である。なお、音源方向検出部９０２によって求められる音源方向は一つである。

映像オブジェクト分離部９０１は、音源方向検出部９０２で求められた方向情報を用いて、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、図１８におけるオブジェクトＡ７４，オブジェクトＢ７５，オブジェクトＣ７６のような、人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。

映像オブジェクト分離部９０１の例として、パターン認識を利用した物体検出方法がある。予め映像オブジェクト画像のテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。テンプレートとの相関値がしきい値以上であれば、所望の映像オブジェクトが存在するものと判断する。映像オブジェクト分離部９０１は、パターン認識等で検出されたオブジェクト候補の中から、音源方向検出部９０２で求められた方向に存在するオブジェクトを一つ選択して出力する。映像は空間中の限定された領域を投影したものなので、正確には音源方向に最も近い映像オブジェクトを選択して出力する。

このように図１９のオブジェクト分離装置は、音源方向にある映像オブジェクトを分離することで、音と映像の対応付けされたオブジェクト信号を分離することが可能となる。

特開２００５−４５７７９号公報

しかしながら、特許文献１の技術は、オブジェクトごとにカメラとマイクとを適切に配置して映像音響信号を取得する必要があった。その結果、映像制作・蓄積・伝送コストが高くなるという課題があった。

また、他の関連する技術は、音源方向検出において、１つの音源方向しか求められなかった。その結果、複数の音源から同時に発声した場合に、映像オブジェクトとの対応が取れないという課題があった。

そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、複数のオブジェクトが混在する中から、相関を用いて、音のオブジェクトと映像のオブジェクトとを少なくとも１以上対応づける映像音響処理システム、映像音響処理方法及びプログラムを提供することにある。

上記課題を解決する本発明は、入力映像信号から映像オブジェクトを分離する映像オブジェクト分離部と、入力音響信号から音響オブジェクトを分離する音響オブジェクト分離部と、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも１以上対応付ける相関対応付け部とを有する映像音響処理システムである。

上記課題を解決する本発明は、入力映像信号から映像オブジェクトを分離し、入力音響信号から音響オブジェクトを分離し、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも１以上対応付ける映像音響処理方法である。

上記課題を解決する本発明は、入力映像信号から映像オブジェクトを分離する処理と、入力音響信号から音響オブジェクトを分離する処理と、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも１以上対応付ける処理とを情報処理装置に実行させるプログラムである。

本発明は、複数のオブジェクトが信号中に混在していても、映像オブジェクトと音響オブジェクトとを対応付けすることができる。

図１は本実施の形態のブロック図である。図２は本実施の形態を説明するための図である。図３は第１の実施の形態のブロック図である。図４は第２の実施の形態のブロック図である。図５は第２の実施の形態の相関対応付け部３２のブロック図である。図６はカテゴリ対応付け部３２３の動作を説明するための図である。図７は第３の実施の形態のブロック図である。図８は第３の実施の形態の映像オブジェクト分離部１３のブロック図である。図９は第３の実施の形態の相関対応付け部３３のブロック図である。図１０はＡＶ信号相関対応付け部３３３の動作を説明するための図である。図１１はＡＶ信号相関対応付け部３３３の動作を説明するための図である。図１２はＡＶ信号相関対応付け部３３３の動作を説明するための図である。図１３はＡＶ信号相関対応付け部３３３の動作を説明するための図である。図１４はＡＶ信号相関対応付け部３３３の動作を説明するための図である。図１５は第４の実施の形態のブロック図である。図１６は第４の実施の形態の相関対応付け部３４のブロック図である。図１７はＡＶ信号相関対応付け部３４３の動作を説明するための図である。図１８は関連技術を説明するための図である。図１９は関連技術を説明するための図である。

本発明の実施の形態の概要を説明する。

図１を参照すると、本発明は、映像オブジェクト分離部１と、音響オブジェクト分離部２と、相関対応付け部３とから構成されている。

映像オブジェクト分離部１は、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、図２におけるオブジェクトＡ７４，オブジェクトＢ７５，オブジェクトＣ７６のような人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。尚、分離する映像オブジェクトは、複数あってよい。

音響オブジェクト分離部２は、入力された音響信号を、複数の音源信号に分離する部である。ここで、分離された音源信号を音響オブジェクトと呼ぶ。

相関対応付け部３は、複数の映像オブジェクトと複数の音響オブジェクトとを入力し、映像オブジェクトと音響オブジェクトとの相関とを求め、音響オブジェクトが映像フレーム中のどの位置にある映像オブジェクトに対応するのかを特定する。

以下に、本発明の実施の形態を、図面を参照して詳細に説明する。
＜第１の実施の形態＞
第１の実施の形態を説明する。

図３を参照すると、第１の実施の形態は、映像オブジェクト分離部１１と、音響オブジェクト分離部２１と、相関対応付け部３１とから構成されている。

映像オブジェクト分離部１１は、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、図２におけるオブジェクトＡ７４，オブジェクトＢ７５，オブジェクトＣ７６のような人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。映像オブジェクト分離部１の例として、パターン認識を利用した物体検出方法がある。予め映像オブジェクト画像のテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。テンプレートとの相関値がしきい値以上であれば、所望の映像オブジェクトが存在するものと判断して、該当する部分領域を映像オブジェクト信号として分離する。尚、分離する映像オブジェクトは、複数あってよい。

音響オブジェクト分離部２１は、入力されたマルチチャンネルの音響信号を、複数の音源信号に分離する部である。ここで、分離された音源信号を音響オブジェクトと呼ぶ。音響オブジェクト分離部２において、オブジェクト分離情報を生成する方法として、ブラインド信号源分離（Blind Source Separation）や、独立成分分析（Independent Component Analysis）と呼ばれる手法を用いることができる。ブラインド信号源分離および独立成分分析の方法に関連する技術は、非特許文献１（2005年、「スピーチ・エンハンスメント」、シュプリンガー、（Speech Enhancement, Springer, 2005, pp. 271-369）、271ページから369ページ。）に開示されている。適切なパラメータ設定を行うことで、音響オブジェクト分離部２は、入力オーディオ信号から自動的に音源信号に分離することができる。

相関対応付け部３１は、複数の映像オブジェクトと複数の音響オブジェクトとを入力し、映像オブジェクトと音響オブジェクトとの相関を求め、音響オブジェクトが映像フレーム中のどの位置にある映像オブジェクトに対応するのかを特定する。すなわち、音響オブジェクト（音源）が映像フレーム中のどこから発生しているかを求める。対応付け処理は、映像と、音響とのそれぞれのオブジェクトから特徴ベクトルを抽出し、それらの相関を取って最も相関値の高い組み合わせを求めることによって実現する。特徴ベクトルの一例としては、時間周波数特徴や、カテゴリ帰属度などがある。

このようにして、映像オブジェクトと音響オブジェクトとを対応付ける。
＜第２の実施の形態＞
第２の実施の形態を説明する。

図４を参照すると、第２の実施の形態は、映像オブジェクト分離部１２と、音響オブジェクト分離部２２と、相関対応付け部３２とから構成されている。

尚、映像オブジェクト分離部１２と音響オブジェクト分離部２２とは、第１の実施の形態の映像オブジェクト分離部１１と映像オブジェクト分離部１１と同様なものなので、詳細な説明は省略する。

相関対応付け部３２は、図５に示す如く、映像カテゴリ判別部３２１と、音響カテゴリ判別部３２２と、カテゴリ対応付け部３２３とから構成されている。

映像カテゴリ判別部３２１は、映像オブジェクトのカテゴリを特定、またはカテゴリへの帰属度を算出する部である。オブジェクトのカテゴリ例として、男性の顔、女性の顔、子供の顔、男性の全身、女性の全身、子供の全身、自動車、電車、ＰＣ、ディスプレイなどがある。判別されたオブジェクトのカテゴリは、後段の処理によって、映像フレームに存在する音響オブジェクトの特定に用いられる。

映像カテゴリ判別部３２１の動作の一例を以下に述べる。予めいくつかの映像カテゴリを決めておき、それぞれのカテゴリに対応する典型的な画像群をテンプレートとして用意する。ビデオオブジェクト領域画素とテンプレートとのパターンマッチングを行い、最も類似度が大きいカテゴリに当該映像オブジェクトを分類することによって、帰属カテゴリを特定する。また、類似度を各カテゴリへの帰属度として算出する方法もある。パターンマッチングの方法としては、正規化相関法などの公知の技術を用いることができる。

音響カテゴリ判別部３２２は、音響オブジェクトのカテゴリを特定、またはカテゴリへの帰属度を算出する部である。オブジェクトのカテゴリ例として、男性の声、女性の声、子供の声、自動車音、電車音、空調音、キーボード音、マウスクリック音、周辺ノイズ、などがある。

音響カテゴリ判別部３２２の動作の一例を以下に述べる。予めいくつかの音響カテゴリを決めておき、それぞれのカテゴリに対応する典型的な音源データを用意する。オーディオオブジェクトの波形と、前記音源データの波形とのマッチングを行い、最も類似度が大きいカテゴリに当該音響オブジェクトを分類することによって、帰属カテゴリを特定する。また各類似度を各カテゴリへの帰属度として算出する方法もある。

カテゴリ対応付け部３２３は、映像オブジェクトのカテゴリと音響オブジェクトのカテゴリとを対応付けし、映像オブジェクトと音響オブジェクトとの対応付けを行う。カテゴリ対応付け部３２３の動作の一例を、図６を用いて説明する。
映像フレーム１１１において、映像オブジェクトのカテゴリとして男性の顔１１２、女性の顔１１３、自動車１１４が存在する。映像オブジェクト群をオブジェクトリスト１１５に示す。

映像フレーム１１１において音響オブジェクトのカテゴリとして、自動車の音、女性の声、男性の声、ノイズが分類されている。音響オブジェクト群を音響オブジェクトリスト１１６に示す。自動車は自動車の音に対応し、男性の声は男性の顔に対応し、女性の声は女性の顔に対応することは容易に判断することができる。

しかし、ノイズの音響オブジェクトだけは対応する映像オブジェクトが存在しない。

以上の処理によって、オブジェクト対応表１１７を生成することができる。オブジェクト対応表１１７によって、各音響オブジェクトがどの映像オブジェクトに対応しているか、そしてオブジェクトの映像フレーム中の座標値を求めることができる。

尚、オブジェクト対応表１１７はカテゴリを一意に特定する例であるが、カテゴリ対応付け部３２３の実現方法の一例としてカテゴリ帰属度を特徴量として、オブジェクト同士の特徴量の相関を求めて対応付けする方法もある。カテゴリ帰属度は、各カテゴリとの類似度で構成される特徴ベクトルであり、(男、女、自動車)=(1.0, 0.5, 0.2)等の値で表現される。この特徴ベクトルが最も近い組み合わせを取ることによって、映像オブジェクトと音響オブジェクトとの対応付けを実現することができる。

相関対応付け部３２によって、映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とは出力される。
＜第３の実施の形態＞
第３の実施の形態を説明する。

図７を参照すると、第３の実施の形態は、映像オブジェクト分離部１３と、音響オブジェクト分離部２３と、相関対応付け部３３とから構成されている。

音響オブジェクト分離部２３は、音響オブジェクト分離部２１と同様に動作して、音響オブジェクトを分離して出力する。

映像オブジェクト分離部１３は、人物検出部１３１を有している。この人物検出部１３１は、パターン認識を用いて人物領域を映像オブジェクトとして抽出する。人物領域を抽出する方法として、人物の顔領域を検出する方法があり、例えば、非特許文献２（M.Turk, A.Pentland, “Face Recognition on Using Eigenfaces,”Proceedings of IEEE, CVPR91, pp.586-591 (1991)）などに記載されている。

映像オブジェクト分離部１３は、図８に示す如く、人物検出部１３１を用いて人物領域を検出し、人物領域を映像オブジェクトとして分離する。

相関対応付け部３３は、図９に示す如く、動き検出部３３１と、音声区間検出部３３２と、ＡＶ信号相関部３３３とから構成されている。

動き検出部３３１は、人物領域内の唇などの部分領域に着目し、部分領域のフレーム間差分を過去ｔ時間にわたって求め、映像動きパターンを出力する。映像動きパターンは領域内の画素値の時間変化を表す。

音声区間検出部３３２は、音響オブジェクトごとに、過去ｔ時間にわたって音声区間が存在するかどうかを求め、音声区間パターンを出力する。

ＡＶ信号相関対応付け部３３３は、動き検出部３３１からの映像動きパターンと、音声区間検出部３３２からの音声区間パターンとを対応付けし、相関の高い組み合わせを求めることによって、人物の映像オブジェクトに対応した音響オブジェクトを同定する。

図１０を参照して、具体的なＡＶ信号相関対応付け部３３３の動作を説明する。

例えば、映像フレーム１２１において、人物検出部１３１によってオブジェクトＪ１２２と、オブジェクトＫ１２３が検出されている。これらの人物領域内の部分領域である唇部分におけるフレーム間差分が、唇領域フレーム間差分１２４に示されている。唇領域フレーム間差分１２４に対し、適当なしきい値によって２値化することによって動きパターン１２５が得られる。

また、音響オブジェクトに対して音声区間検出を行った結果を音声区間パターン１２６とする。動きパターン１２５と、音声区間パターン１２６とを比較すると、オブジェクトＪの動きパターンと、第一の音声区間パターン１２７との間に高い相関があることが分かるので、これらのオブジェクトが同一であると判断する。また、オブジェクトＫの動きパターンと、第二の音声区間パターン１２８との間に高い相関があるので、同様にこれらのオブジェクトが同一であると判断する。このようにして、オブジェクトＪの音源信号が第一の音響オブジェクトであり、オブジェクトＫの音源信号が第二の音響オブジェクトであることが分かる。

そして、ＡＶ信号相関対応付け部３３３によって映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とを出力する。

次に、ＡＶ信号相関対応付け部３３３における具体的な相関値の計算方法を示す。

図１１に、映像のフレーム間差分の積分値を０と１とに２値化して得られた時系列の動きパターンbx２０１と、０と１とに２値化された音声区間パターンby２０２の例を示す。ここで、動きパターンbx２０１は上述した動きパターン１２５に相当するものであり、音声区間パターンby２０２は上述した音声区間パターン１２６に相当するものである。

予め決められた時間間隔Ｔを用いて、時刻aからＴ時間の相関値Sは、数１を用いて算出することができる。

そして、音と映像の組み合わせの中から、相関値Ｓが大きい組み合わせを選択することによって対応付けを行なう。

他のＡＶ信号相関対応付け部３３３における相関値の計算方法を示す。

図１２に、映像のフレーム間差分の積分値を０と１とに２値化して得られた時系列の動きパターンbx２１１と、０と１とに２値化された音声区間パターンby２１２とを示す。ここで、動きパターンbx２１１は上述した動きパターン１２５に相当するものであり、音声区間パターンby２１２は上述した音声区間パターン１２６に相当するものである。

動きパターンbxがスターとする時間(０から１に変化する時間)をt1xとし、終了時間（１から０に変化する時間）をt2xとする。また、音声区間パターンbｙが立ち上がる時間(０から１に変化する時間)をt1yとし、終了時間（１から０に変化する時間）をt2yとする。そして時間差を数２のＴｄによって算出する。音と映像の組み合わせの中で、時間差Ｔｄが小さほど対応していると考えて、音と映像の対応付けを行なう。

尚、スタート時間だけを比較することで対応付けを行なうことも可能である。この場合には、式１０３に示す時間差Ｔｄ２を用いて時間差を算出する。

ＡＶ信号相関対応付け部３３３は、動き検出部３３１からの映像動きパターン（フレーム間差分）と、音声区間検出部３３２からの音声区間パターンとを入力する。そして、映像のフレーム間差分の積分値の時系列動きパターンＭ２２１と、音響オブジェクトの音声信号パワーＪ２２２とを求める。図１３に、映像のフレーム間差分の積分値の時系列動きパターンＭ２２１と、音響オブジェクトの音声信号パワーＪ２２２との一例を示す。

このとき、映像オブジェクトと音響オブジェクトとの時刻aからＴ時間における相関値S２は、予め決められた時間間隔Ｔを用いて、数３を用いて算出することができる。

また、数４のＳ３のように、ＭとＪとの相関係数を相関値として算出することもできる。

尚、上述したＡＶ信号相関対応付け部３３３における相関値の計算方法において、動きパターンを映像オブジェクトの動きベクトルから算出するようにしても良い。

この場合、図１４に示すように、時刻ｔから時刻ｔ+1までの、映像オブジェクトの動きベクトルを求める。動きベクトルの算出方法として、テンプレートマッチング法などがある。これは時刻ｔでオブジェクトが占める部分領域画像をテンプレートとし、t+1の映像中から類似パターンが存在する位置をテンプレートマッチングで探索する方法である。これにより、映像オブジェクトの時刻ｔからｔ＋１の動きベクトルを算出することができる。次に、動きベクトル２３３の長さを求める。本実施の形態では、動きベクトルの長さを、上述したフレーム間差分の積分値に置き換えて動きパターンを生成し、相関値を算出する。
＜第４の実施の形態＞
第４の実施の形態を説明する。

図１５を参照すると、第４の実施の形態は、映像オブジェクト分離部１４と、音響オブジェクト分離部２４と、相関対応付け部３４とから構成されている。

映像オブジェクト分離部１４は、映像オブジェクト分離部１１と同様に動作して、映像オブジェクトを分離して出力する。音響オブジェクト分離部２４は、音響オブジェクト分離部２１と同様に動作して、音響オブジェクトを分離して出力する。

相関対応付け部３４は、図１６に示す如く、映像動作検出部３４１と、動作音区間検出部３４２と、ＡＶ信号相関対応付け部３４３とから構成されている。

映像動作検出部３４１は、映像オブジェクトが存在する部分領域に着目し、前記部分領域のフレーム間差分を過去ｔ時間にわたって求め、動きパターンを出力する。動きパターンは領域内の画素値の時間変化を表す。

動作音区間検出部３４２は、音響オブジェクトごとに、過去ｔ時間にわたって動作音が存在するかどうかを求め、動作音区間パターンを出力する。動作音の一例として、自動車のエンジン音や、人物の歩く足音などがある。

ＡＶ信号相関対応付け部３４３は、前記映像動きパターンと前記動作音区間パターンとを比較して相関の高い組み合わせを求め、映像オブジェクトに対応した音響オブジェクトを同定する。

図１７を参照してＡＶ信号相関対応付け部３４３の動作を説明する。

映像フレーム１３１において、映像オブジェクト分離部１４によってオブジェクトＬ１３２と、オブジェクトＭ１３３が検出されている。映像動作検出部３４１は、これらのオブジェクトが存在する部分領域のフレーム間差分を算出し（図１７中、オブジェクト領域フレーム間差分１３４）、オブジェクト領域フレーム間差分１３４に対し、適当なしきい値によって２値化することによって動きパターン１３５を算出する。

また、動作音区間検出部３４２は、音響オブジェクトに対して動作音区間検出を行った結果を動作音区間パターン１３６とする。

ＡＶ信号相関対応付け部３４３は、動きパターン１３５と、動作音区間パターン１３６とを比較し、オブジェクトＬの動きパターンと、第一の音声区間パターン１３７との間に高い相関があることが分かるので、これらのオブジェクトが同一であると判断する。また、オブジェクトＭの動きパターンと、第二の音声区間パターン１３８との間に高い相関があるので、同様にこれらのオブジェクトが同一であると判断する。このようにして、オブジェクトＬの音源信号が第一の音響オブジェクトであり、オブジェクトＭの音源信号が第二の音響オブジェクトであることが分かる。

ＡＶ信号相関対応付け部３４３は、映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とを出力する。

また、相関値の算出は、上記第３の実施の形態で説明した相関値の計算方法を用いることができる。

尚、上述した実施の形態では各部をハードウェアで構成したが、プログラムで動作するＣＰＵ等の情報処理装置で構成しても良い。この場合、プログラムは、上述した動作をＣＰＵ等に実行させる。

以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

１映像オブジェクト分離部
２音響オブジェクト分離部
３相関対応付け部
１３１人物検出部
３２１映像カテゴリ判別部
３２３音響カテゴリ判別部
３２３カテゴリ対応付け部
３３１動き検出部
３３２音声区間検出部
３３３ＡＶ信号相関部
３４１映像動作検出部
３４２動作音区間検出部
３４３ＡＶ信号相関対応付け部

Claims

入力映像信号から映像オブジェクトを分離する映像オブジェクト分離部と、
入力音響信号から音響オブジェクトを分離する音響オブジェクト分離部と、
前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも１以上対応付ける相関対応付け部と
を有する映像音響処理システム。
前記相関対応付け部は、
前記映像オブジェクトのカテゴリを算出する映像カテゴリ判別部と、
前記音響オブジェクトのカテゴリを算出する音響カテゴリ判別部と、
前記映像オブジェクトのカテゴリと、前記音響オブジェクトのカテゴリとを対応付け、前記対応付けられたカテゴリに対応する映像オブジェクトと音響オブジェクトとを対応付けるカテゴリ対応付け部と
を有する請求項１に記載の映像音響処理システム。
前記映像オブジェクト分離部は、
入力映像信号から人物領域を抽出する人物検出部を有し、
前記相関対応付け部は、
前記人物領域における映像動きパターンを検出する動き検出部と、
前記音響オブジェクトの音声区間パターンを検出する音声区間検出部と、
前記検出された映像動きパターンと前記検出された音声区間パターンとの相関を求め、相関のある映像動きパターン及び音声区間パターンに対応する映像オブジェクトと音響オブジェクトとを対応付けるＡＶ信号相関対応付け部と
を有する請求項１に記載の映像音響処理システム。
前記相関対応付け部は、
前記映像オブジェクトの映像動きパターンを検出する映像動作検出部と、
前記音響オブジェクトの動作音パターンを検出する動作音区間検出部と、
前記検出された映像動きパターンと前記検出された動作音パターンとの相関を求め、相関のある映像動きパターン及び動作音パターンに対応する映像オブジェクトと音響オブジェクトとを対応付けるＡＶ信号相関対応付け部と
を有する請求項１に記載の映像音響処理システム。
前記映像オブジェクト分離部は、パターン認識により、映像オブジェクトを分離する請求項１から請求項４のいずれかに記載の映像音響処理システム。
入力映像信号から映像オブジェクトを分離し、
入力音響信号から音響オブジェクトを分離し、
前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも１以上対応付ける
映像音響処理方法。
前記映像オブジェクトと前記音響オブジェクトとの対応付は、
前記映像オブジェクトのカテゴリを算出し、
前記音響オブジェクトのカテゴリを算出し、
前記映像オブジェクトのカテゴリと、前記音響オブジェクトのカテゴリとを対応付け、前記対応付けられたカテゴリに対応する映像オブジェクトと音響オブジェクトとを対応付ける
請求項６に記載の映像音響処理方法。
前記映像オブジェクトと前記音響オブジェクトとの対応付けは、
入力映像信号から人物領域を抽出し、
前記人物領域における映像動きパターンを検出し、
前記音響オブジェクトの音声区間パターンを検出し、
前記検出された映像動きパターンと前記検出された音声区間パターンとの相関を求め、相関のある映像動きパターン及び音声区間パターンに対応する映像オブジェクトと音響オブジェクトとを対応付ける
請求項６に記載の映像音響処理方法。
前記映像オブジェクトと前記音響オブジェクトとの対応付けは、
前記映像オブジェクトの映像動きパターンを検出し、
前記音響オブジェクトの動作音パターンを検出し、
前記検出された映像動きパターンと前記検出された動作音パターンとの相関を求め、相関のある映像動きパターン及び動作音パターンに対応する映像オブジェクトと音響オブジェクトとを対応付ける
請求項６に記載の映像音響処理方法。
前記映像オブジェクトの分離は、パターン認識により、映像オブジェクトを分離する請求項６から請求項９のいずれかに記載の映像音響処理方法。
入力映像信号から映像オブジェクトを分離する処理と、
入力音響信号から音響オブジェクトを分離する処理と、
前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも１以上対応付ける処理と
を情報処理装置に実行させるプログラム。