[go: up one dir, main page]

JP2011071684A - 映像音響処理システム、映像音響処理方法及びプログラム - Google Patents

映像音響処理システム、映像音響処理方法及びプログラム Download PDF

Info

Publication number
JP2011071684A
JP2011071684A JP2009220198A JP2009220198A JP2011071684A JP 2011071684 A JP2011071684 A JP 2011071684A JP 2009220198 A JP2009220198 A JP 2009220198A JP 2009220198 A JP2009220198 A JP 2009220198A JP 2011071684 A JP2011071684 A JP 2011071684A
Authority
JP
Japan
Prior art keywords
video
acoustic
audio
pattern
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009220198A
Other languages
English (en)
Inventor
Akira Inoue
晃 井上
Toshiyuki Nomura
俊之 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009220198A priority Critical patent/JP2011071684A/ja
Publication of JP2011071684A publication Critical patent/JP2011071684A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)

Abstract

【課題】複数のオブジェクトが混在する中から、相関を用いて、音のオブジェクトと映像のオブジェクトとを対応づける映像音響処理システム、映像音響処理方法及びプログラムを提供すること。
【解決手段】本発明は、入力映像信号から映像オブジェクトを分離する映像オブジェクト分離部と、入力音響信号から音響オブジェクトを分離する音響オブジェクト分離部と、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける相関対応付け部とを有する映像音響処理システムである。
【選択図】図1

Description

本発明は映像音響処理システム、映像音響処理方法及びプログラムに関する。
映像コミュニケーション装置等において、しばしば映像音響信号から特定のオブジェクト(人や物体など)に注目して視聴したいという要望がある。特定オブジェクトへの注目処理に関し、映像信号における注目処理を映像注目処理とし、音響信号における注目処理を音響注目処理とする。
図18を用いて映像注目処理の一例について説明する。元映像フレーム71に、4つのオブジェクト(オブジェクトA74、オブジェクトB75、オブジェクトC76、オブジェクトD77)が含まれているとする。オブジェクトとは撮影された映像空間を構成する物体であり、例えば人物や自動車、建物などである。元映像フレーム71内では、これらのオブジェクトの位置を示す矩形が点線で表示されている。ここで、元映像フレーム71内における注目領域を、注目領域73で示す実線矩形とする。注目処理映像72は、注目領域73に対して映像注目処理を施した一例である。注目処理映像72は、注目領域を拡大して表示幅が最大となるように表示した例である。
音響注目処理の一例として、注目するオブジェクトに対応した音響信号だけを再生する方法がある。この場合、元映像フレーム71では、注目領域73を指定するとその内部に含まれるオブジェクトD77のみの音声が再生されることになる。
上述のような注目処理により、視聴者が興味のある領域だけを詳細に観察することが可能となる。
映像中の音を発する特定オブジェクトへの注目処理を実現するには、音源となっている映像オブジェクトを抽出し、それぞれのオブジェクトが発生する音と映像を分離する必要があった。そこで、このような技術に関連する一例が、特許文献1に記載されている。
特許文献1によれば、TV会議システムにおいて複数のカメラと複数のマイクを用い、注目領域として特定のカメラ映像を選択すると、その映像に近い位置のマイクのみを動作させることで、注目領域に適した音声を収録・再生することが記載されている。すなわち、1つのオブジェクトに対して、特定のカメラとマイクとを固定することにより、映像オブジェクトと音響オブジェクトとを対応づけて分離している。
また、関連する技術として、音源方向検出を利用したオブジェクト分離方法がある。図19に関連するオブジェクト分離装置を示す。
このオブジェクト分離装置は、映像オブジェクト分離部901と、音源方向検出部902とから構成される。そして、映像信号は映像オブジェクト分離部901に入力され、音響信号は音源方向検出部902に入力される。
音源方向検出部902は、マルチチャンネルの音響信号を用いて音源方向を検出する。音源方向の検出方法の一例として、複数の指向性マイクの信号を比較して、最も音量の大きいマイクの向いている方向を音源方向とする方法がある。もう一つの音源方向検出方法として、音響ビームフォーミング技術がある。これは、複数のマイク信号の位相差が最も小さくなる方向を音源方向と見なし、信号処理によって音源方向を推定する公知の技術である。なお、音源方向検出部902によって求められる音源方向は一つである。
映像オブジェクト分離部901は、音源方向検出部902で求められた方向情報を用いて、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、図18におけるオブジェクトA74,オブジェクトB75,オブジェクトC76のような、人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。
映像オブジェクト分離部901の例として、パターン認識を利用した物体検出方法がある。予め映像オブジェクト画像のテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。テンプレートとの相関値がしきい値以上であれば、所望の映像オブジェクトが存在するものと判断する。映像オブジェクト分離部901は、パターン認識等で検出されたオブジェクト候補の中から、音源方向検出部902で求められた方向に存在するオブジェクトを一つ選択して出力する。映像は空間中の限定された領域を投影したものなので、正確には音源方向に最も近い映像オブジェクトを選択して出力する。
このように図19のオブジェクト分離装置は、音源方向にある映像オブジェクトを分離することで、音と映像の対応付けされたオブジェクト信号を分離することが可能となる。
特開2005−45779号公報
しかしながら、特許文献1の技術は、オブジェクトごとにカメラとマイクとを適切に配置して映像音響信号を取得する必要があった。その結果、映像制作・蓄積・伝送コストが高くなるという課題があった。
また、他の関連する技術は、音源方向検出において、1つの音源方向しか求められなかった。その結果、複数の音源から同時に発声した場合に、映像オブジェクトとの対応が取れないという課題があった。
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、複数のオブジェクトが混在する中から、相関を用いて、音のオブジェクトと映像のオブジェクトとを少なくとも1以上対応づける映像音響処理システム、映像音響処理方法及びプログラムを提供することにある。
上記課題を解決する本発明は、入力映像信号から映像オブジェクトを分離する映像オブジェクト分離部と、入力音響信号から音響オブジェクトを分離する音響オブジェクト分離部と、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける相関対応付け部とを有する映像音響処理システムである。
上記課題を解決する本発明は、入力映像信号から映像オブジェクトを分離し、入力音響信号から音響オブジェクトを分離し、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける映像音響処理方法である。
上記課題を解決する本発明は、入力映像信号から映像オブジェクトを分離する処理と、入力音響信号から音響オブジェクトを分離する処理と、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける処理とを情報処理装置に実行させるプログラムである。
本発明は、複数のオブジェクトが信号中に混在していても、映像オブジェクトと音響オブジェクトとを対応付けすることができる。
図1は本実施の形態のブロック図である。 図2は本実施の形態を説明するための図である。 図3は第1の実施の形態のブロック図である。 図4は第2の実施の形態のブロック図である。 図5は第2の実施の形態の相関対応付け部32のブロック図である。 図6はカテゴリ対応付け部323の動作を説明するための図である。 図7は第3の実施の形態のブロック図である。 図8は第3の実施の形態の映像オブジェクト分離部13のブロック図である。 図9は第3の実施の形態の相関対応付け部33のブロック図である。 図10はAV信号相関対応付け部333の動作を説明するための図である。 図11はAV信号相関対応付け部333の動作を説明するための図である。 図12はAV信号相関対応付け部333の動作を説明するための図である。 図13はAV信号相関対応付け部333の動作を説明するための図である。 図14はAV信号相関対応付け部333の動作を説明するための図である。 図15は第4の実施の形態のブロック図である。 図16は第4の実施の形態の相関対応付け部34のブロック図である。 図17はAV信号相関対応付け部343の動作を説明するための図である。 図18は関連技術を説明するための図である。 図19は関連技術を説明するための図である。
本発明の実施の形態の概要を説明する。
図1を参照すると、本発明は、映像オブジェクト分離部1と、音響オブジェクト分離部2と、相関対応付け部3とから構成されている。
映像オブジェクト分離部1は、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、図2におけるオブジェクトA74,オブジェクトB75,オブジェクトC76のような人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。尚、分離する映像オブジェクトは、複数あってよい。
音響オブジェクト分離部2は、入力された音響信号を、複数の音源信号に分離する部である。ここで、分離された音源信号を音響オブジェクトと呼ぶ。
相関対応付け部3は、複数の映像オブジェクトと複数の音響オブジェクトとを入力し、映像オブジェクトと音響オブジェクトとの相関とを求め、音響オブジェクトが映像フレーム中のどの位置にある映像オブジェクトに対応するのかを特定する。
以下に、本発明の実施の形態を、図面を参照して詳細に説明する。
<第1の実施の形態>
第1の実施の形態を説明する。
図3を参照すると、第1の実施の形態は、映像オブジェクト分離部11と、音響オブジェクト分離部21と、相関対応付け部31とから構成されている。
映像オブジェクト分離部11は、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、図2におけるオブジェクトA74,オブジェクトB75,オブジェクトC76のような人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。映像オブジェクト分離部1の例として、パターン認識を利用した物体検出方法がある。予め映像オブジェクト画像のテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。テンプレートとの相関値がしきい値以上であれば、所望の映像オブジェクトが存在するものと判断して、該当する部分領域を映像オブジェクト信号として分離する。尚、分離する映像オブジェクトは、複数あってよい。
音響オブジェクト分離部21は、入力されたマルチチャンネルの音響信号を、複数の音源信号に分離する部である。ここで、分離された音源信号を音響オブジェクトと呼ぶ。音響オブジェクト分離部2において、オブジェクト分離情報を生成する方法として、ブラインド信号源分離(Blind Source Separation)や、独立成分分析(Independent Component Analysis)と呼ばれる手法を用いることができる。ブラインド信号源分離および独立成分分析の方法に関連する技術は、非特許文献1(2005年、「スピーチ・エンハンスメント」、シュプリンガー、(Speech Enhancement, Springer, 2005, pp. 271-369)、271ページから369ページ。)に開示されている。適切なパラメータ設定を行うことで、音響オブジェクト分離部2は、入力オーディオ信号から自動的に音源信号に分離することができる。
相関対応付け部31は、複数の映像オブジェクトと複数の音響オブジェクトとを入力し、映像オブジェクトと音響オブジェクトとの相関を求め、音響オブジェクトが映像フレーム中のどの位置にある映像オブジェクトに対応するのかを特定する。すなわち、音響オブジェクト(音源)が映像フレーム中のどこから発生しているかを求める。対応付け処理は、映像と、音響とのそれぞれのオブジェクトから特徴ベクトルを抽出し、それらの相関を取って最も相関値の高い組み合わせを求めることによって実現する。特徴ベクトルの一例としては、時間周波数特徴や、カテゴリ帰属度などがある。
このようにして、映像オブジェクトと音響オブジェクトとを対応付ける。
<第2の実施の形態>
第2の実施の形態を説明する。
図4を参照すると、第2の実施の形態は、映像オブジェクト分離部12と、音響オブジェクト分離部22と、相関対応付け部32とから構成されている。
尚、映像オブジェクト分離部12と音響オブジェクト分離部22とは、第1の実施の形態の映像オブジェクト分離部11と映像オブジェクト分離部11と同様なものなので、詳細な説明は省略する。
相関対応付け部32は、図5に示す如く、映像カテゴリ判別部321と、音響カテゴリ判別部322と、カテゴリ対応付け部323とから構成されている。
映像カテゴリ判別部321は、映像オブジェクトのカテゴリを特定、またはカテゴリへの帰属度を算出する部である。オブジェクトのカテゴリ例として、男性の顔、女性の顔、子供の顔、男性の全身、女性の全身、子供の全身、自動車、電車、PC、ディスプレイなどがある。判別されたオブジェクトのカテゴリは、後段の処理によって、映像フレームに存在する音響オブジェクトの特定に用いられる。
映像カテゴリ判別部321の動作の一例を以下に述べる。予めいくつかの映像カテゴリを決めておき、それぞれのカテゴリに対応する典型的な画像群をテンプレートとして用意する。ビデオオブジェクト領域画素とテンプレートとのパターンマッチングを行い、最も類似度が大きいカテゴリに当該映像オブジェクトを分類することによって、帰属カテゴリを特定する。また、類似度を各カテゴリへの帰属度として算出する方法もある。パターンマッチングの方法としては、正規化相関法などの公知の技術を用いることができる。
音響カテゴリ判別部322は、音響オブジェクトのカテゴリを特定、またはカテゴリへの帰属度を算出する部である。オブジェクトのカテゴリ例として、男性の声、女性の声、子供の声、自動車音、電車音、空調音、キーボード音、マウスクリック音、周辺ノイズ、などがある。
音響カテゴリ判別部322の動作の一例を以下に述べる。予めいくつかの音響カテゴリを決めておき、それぞれのカテゴリに対応する典型的な音源データを用意する。オーディオオブジェクトの波形と、前記音源データの波形とのマッチングを行い、最も類似度が大きいカテゴリに当該音響オブジェクトを分類することによって、帰属カテゴリを特定する。また各類似度を各カテゴリへの帰属度として算出する方法もある。
カテゴリ対応付け部323は、映像オブジェクトのカテゴリと音響オブジェクトのカテゴリとを対応付けし、映像オブジェクトと音響オブジェクトとの対応付けを行う。カテゴリ対応付け部323の動作の一例を、図6を用いて説明する。
映像フレーム111において、映像オブジェクトのカテゴリとして男性の顔112、女性の顔113、自動車114が存在する。映像オブジェクト群をオブジェクトリスト115に示す。
映像フレーム111において音響オブジェクトのカテゴリとして、自動車の音、女性の声、男性の声、ノイズが分類されている。音響オブジェクト群を音響オブジェクトリスト116に示す。自動車は自動車の音に対応し、男性の声は男性の顔に対応し、女性の声は女性の顔に対応することは容易に判断することができる。
しかし、ノイズの音響オブジェクトだけは対応する映像オブジェクトが存在しない。
以上の処理によって、オブジェクト対応表117を生成することができる。オブジェクト対応表117によって、各音響オブジェクトがどの映像オブジェクトに対応しているか、そしてオブジェクトの映像フレーム中の座標値を求めることができる。
尚、オブジェクト対応表117はカテゴリを一意に特定する例であるが、カテゴリ対応付け部323の実現方法の一例としてカテゴリ帰属度を特徴量として、オブジェクト同士の特徴量の相関を求めて対応付けする方法もある。カテゴリ帰属度は、各カテゴリとの類似度で構成される特徴ベクトルであり、(男、女、自動車)=(1.0, 0.5, 0.2)等の値で表現される。この特徴ベクトルが最も近い組み合わせを取ることによって、映像オブジェクトと音響オブジェクトとの対応付けを実現することができる。
相関対応付け部32によって、映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とは出力される。
<第3の実施の形態>
第3の実施の形態を説明する。
図7を参照すると、第3の実施の形態は、映像オブジェクト分離部13と、音響オブジェクト分離部23と、相関対応付け部33とから構成されている。
音響オブジェクト分離部23は、音響オブジェクト分離部21と同様に動作して、音響オブジェクトを分離して出力する。
映像オブジェクト分離部13は、人物検出部131を有している。この人物検出部131は、パターン認識を用いて人物領域を映像オブジェクトとして抽出する。人物領域を抽出する方法として、人物の顔領域を検出する方法があり、例えば、非特許文献2(M.Turk, A.Pentland, “Face Recognition on Using Eigenfaces,”Proceedings of IEEE, CVPR91, pp.586-591 (1991))などに記載されている。
映像オブジェクト分離部13は、図8に示す如く、人物検出部131を用いて人物領域を検出し、人物領域を映像オブジェクトとして分離する。
相関対応付け部33は、図9に示す如く、動き検出部331と、音声区間検出部332と、AV信号相関部333とから構成されている。
動き検出部331は、人物領域内の唇などの部分領域に着目し、部分領域のフレーム間差分を過去t時間にわたって求め、映像動きパターンを出力する。映像動きパターンは領域内の画素値の時間変化を表す。
音声区間検出部332は、音響オブジェクトごとに、過去t時間にわたって音声区間が存在するかどうかを求め、音声区間パターンを出力する。
AV信号相関対応付け部333は、動き検出部331からの映像動きパターンと、音声区間検出部332からの音声区間パターンとを対応付けし、相関の高い組み合わせを求めることによって、人物の映像オブジェクトに対応した音響オブジェクトを同定する。
図10を参照して、具体的なAV信号相関対応付け部333の動作を説明する。
例えば、映像フレーム121において、人物検出部131によってオブジェクトJ122と、オブジェクトK123が検出されている。これらの人物領域内の部分領域である唇部分におけるフレーム間差分が、唇領域フレーム間差分124に示されている。唇領域フレーム間差分124に対し、適当なしきい値によって2値化することによって動きパターン125が得られる。
また、音響オブジェクトに対して音声区間検出を行った結果を音声区間パターン126とする。動きパターン125と、音声区間パターン126とを比較すると、オブジェクトJの動きパターンと、第一の音声区間パターン127との間に高い相関があることが分かるので、これらのオブジェクトが同一であると判断する。また、オブジェクトKの動きパターンと、第二の音声区間パターン128との間に高い相関があるので、同様にこれらのオブジェクトが同一であると判断する。このようにして、オブジェクトJの音源信号が第一の音響オブジェクトであり、オブジェクトKの音源信号が第二の音響オブジェクトであることが分かる。
そして、AV信号相関対応付け部333によって映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とを出力する。
次に、AV信号相関対応付け部333における具体的な相関値の計算方法を示す。
図11に、映像のフレーム間差分の積分値を0と1とに2値化して得られた時系列の動きパターンbx201と、0と1とに2値化された音声区間パターンby202の例を示す。ここで、動きパターンbx201は上述した動きパターン125に相当するものであり、音声区間パターンby202は上述した音声区間パターン126に相当するものである。
予め決められた時間間隔Tを用いて、時刻aからT時間の相関値Sは、数1を用いて算出することができる。
Figure 2011071684
そして、音と映像の組み合わせの中から、相関値Sが大きい組み合わせを選択することによって対応付けを行なう。
他のAV信号相関対応付け部333における相関値の計算方法を示す。
図12に、映像のフレーム間差分の積分値を0と1とに2値化して得られた時系列の動きパターンbx211と、0と1とに2値化された音声区間パターンby212とを示す。ここで、動きパターンbx211は上述した動きパターン125に相当するものであり、音声区間パターンby212は上述した音声区間パターン126に相当するものである。
動きパターンbxがスターとする時間(0から1に変化する時間)をt1xとし、終了時間(1から0に変化する時間)をt2xとする。また、音声区間パターンbyが立ち上がる時間(0から1に変化する時間)をt1yとし、終了時間(1から0に変化する時間)をt2yとする。そして時間差を数2のTdによって算出する。音と映像の組み合わせの中で、時間差Tdが小さほど対応していると考えて、音と映像の対応付けを行なう。
Figure 2011071684
尚、スタート時間だけを比較することで対応付けを行なうことも可能である。この場合には、式103に示す時間差Td2を用いて時間差を算出する。
他のAV信号相関対応付け部333における相関値の計算方法を示す。
AV信号相関対応付け部333は、動き検出部331からの映像動きパターン(フレーム間差分)と、音声区間検出部332からの音声区間パターンとを入力する。そして、映像のフレーム間差分の積分値の時系列動きパターンM221と、音響オブジェクトの音声信号パワーJ222とを求める。図13に、映像のフレーム間差分の積分値の時系列動きパターンM221と、音響オブジェクトの音声信号パワーJ222との一例を示す。
このとき、映像オブジェクトと音響オブジェクトとの時刻aからT時間における相関値S2は、予め決められた時間間隔Tを用いて、数3を用いて算出することができる。
Figure 2011071684
また、数4のS3のように、MとJとの相関係数を相関値として算出することもできる。
Figure 2011071684
そして、音と映像の組み合わせの中から、相関値Sが大きい組み合わせを選択することによって対応付けを行なう。
尚、上述したAV信号相関対応付け部333における相関値の計算方法において、動きパターンを映像オブジェクトの動きベクトルから算出するようにしても良い。
この場合、図14に示すように、時刻tから時刻t+1までの、映像オブジェクトの動きベクトルを求める。動きベクトルの算出方法として、テンプレートマッチング法などがある。これは時刻tでオブジェクトが占める部分領域画像をテンプレートとし、t+1の映像中から類似パターンが存在する位置をテンプレートマッチングで探索する方法である。これにより、映像オブジェクトの時刻tからt+1の動きベクトルを算出することができる。次に、動きベクトル233の長さを求める。本実施の形態では、動きベクトルの長さを、上述したフレーム間差分の積分値に置き換えて動きパターンを生成し、相関値を算出する。
<第4の実施の形態>
第4の実施の形態を説明する。
図15を参照すると、第4の実施の形態は、映像オブジェクト分離部14と、音響オブジェクト分離部24と、相関対応付け部34とから構成されている。
映像オブジェクト分離部14は、映像オブジェクト分離部11と同様に動作して、映像オブジェクトを分離して出力する。音響オブジェクト分離部24は、音響オブジェクト分離部21と同様に動作して、音響オブジェクトを分離して出力する。
相関対応付け部34は、図16に示す如く、映像動作検出部341と、動作音区間検出部342と、AV信号相関対応付け部343とから構成されている。
映像動作検出部341は、映像オブジェクトが存在する部分領域に着目し、前記部分領域のフレーム間差分を過去t時間にわたって求め、動きパターンを出力する。動きパターンは領域内の画素値の時間変化を表す。
動作音区間検出部342は、音響オブジェクトごとに、過去t時間にわたって動作音が存在するかどうかを求め、動作音区間パターンを出力する。動作音の一例として、自動車のエンジン音や、人物の歩く足音などがある。
AV信号相関対応付け部343は、前記映像動きパターンと前記動作音区間パターンとを比較して相関の高い組み合わせを求め、映像オブジェクトに対応した音響オブジェクトを同定する。
図17を参照してAV信号相関対応付け部343の動作を説明する。
映像フレーム131において、映像オブジェクト分離部14によってオブジェクトL132と、オブジェクトM133が検出されている。映像動作検出部341は、これらのオブジェクトが存在する部分領域のフレーム間差分を算出し(図17中、オブジェクト領域フレーム間差分134)、オブジェクト領域フレーム間差分134に対し、適当なしきい値によって2値化することによって動きパターン135を算出する。
また、動作音区間検出部342は、音響オブジェクトに対して動作音区間検出を行った結果を動作音区間パターン136とする。
AV信号相関対応付け部343は、動きパターン135と、動作音区間パターン136とを比較し、オブジェクトLの動きパターンと、第一の音声区間パターン137との間に高い相関があることが分かるので、これらのオブジェクトが同一であると判断する。また、オブジェクトMの動きパターンと、第二の音声区間パターン138との間に高い相関があるので、同様にこれらのオブジェクトが同一であると判断する。このようにして、オブジェクトLの音源信号が第一の音響オブジェクトであり、オブジェクトMの音源信号が第二の音響オブジェクトであることが分かる。
AV信号相関対応付け部343は、映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とを出力する。
また、相関値の算出は、上記第3の実施の形態で説明した相関値の計算方法を用いることができる。
尚、上述した実施の形態では各部をハードウェアで構成したが、プログラムで動作するCPU等の情報処理装置で構成しても良い。この場合、プログラムは、上述した動作をCPU等に実行させる。
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
1 映像オブジェクト分離部
2 音響オブジェクト分離部
3 相関対応付け部
131 人物検出部
321 映像カテゴリ判別部
323 音響カテゴリ判別部
323 カテゴリ対応付け部
331 動き検出部
332 音声区間検出部
333 AV信号相関部
341 映像動作検出部
342 動作音区間検出部
343 AV信号相関対応付け部

Claims (11)

  1. 入力映像信号から映像オブジェクトを分離する映像オブジェクト分離部と、
    入力音響信号から音響オブジェクトを分離する音響オブジェクト分離部と、
    前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける相関対応付け部と
    を有する映像音響処理システム。
  2. 前記相関対応付け部は、
    前記映像オブジェクトのカテゴリを算出する映像カテゴリ判別部と、
    前記音響オブジェクトのカテゴリを算出する音響カテゴリ判別部と、
    前記映像オブジェクトのカテゴリと、前記音響オブジェクトのカテゴリとを対応付け、前記対応付けられたカテゴリに対応する映像オブジェクトと音響オブジェクトとを対応付けるカテゴリ対応付け部と
    を有する請求項1に記載の映像音響処理システム。
  3. 前記映像オブジェクト分離部は、
    入力映像信号から人物領域を抽出する人物検出部を有し、
    前記相関対応付け部は、
    前記人物領域における映像動きパターンを検出する動き検出部と、
    前記音響オブジェクトの音声区間パターンを検出する音声区間検出部と、
    前記検出された映像動きパターンと前記検出された音声区間パターンとの相関を求め、相関のある映像動きパターン及び音声区間パターンに対応する映像オブジェクトと音響オブジェクトとを対応付けるAV信号相関対応付け部と
    を有する請求項1に記載の映像音響処理システム。
  4. 前記相関対応付け部は、
    前記映像オブジェクトの映像動きパターンを検出する映像動作検出部と、
    前記音響オブジェクトの動作音パターンを検出する動作音区間検出部と、
    前記検出された映像動きパターンと前記検出された動作音パターンとの相関を求め、相関のある映像動きパターン及び動作音パターンに対応する映像オブジェクトと音響オブジェクトとを対応付けるAV信号相関対応付け部と
    を有する請求項1に記載の映像音響処理システム。
  5. 前記映像オブジェクト分離部は、パターン認識により、映像オブジェクトを分離する請求項1から請求項4のいずれかに記載の映像音響処理システム。
  6. 入力映像信号から映像オブジェクトを分離し、
    入力音響信号から音響オブジェクトを分離し、
    前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける
    映像音響処理方法。
  7. 前記映像オブジェクトと前記音響オブジェクトとの対応付は、
    前記映像オブジェクトのカテゴリを算出し、
    前記音響オブジェクトのカテゴリを算出し、
    前記映像オブジェクトのカテゴリと、前記音響オブジェクトのカテゴリとを対応付け、前記対応付けられたカテゴリに対応する映像オブジェクトと音響オブジェクトとを対応付ける
    請求項6に記載の映像音響処理方法。
  8. 前記映像オブジェクトと前記音響オブジェクトとの対応付けは、
    入力映像信号から人物領域を抽出し、
    前記人物領域における映像動きパターンを検出し、
    前記音響オブジェクトの音声区間パターンを検出し、
    前記検出された映像動きパターンと前記検出された音声区間パターンとの相関を求め、相関のある映像動きパターン及び音声区間パターンに対応する映像オブジェクトと音響オブジェクトとを対応付ける
    請求項6に記載の映像音響処理方法。
  9. 前記映像オブジェクトと前記音響オブジェクトとの対応付けは、
    前記映像オブジェクトの映像動きパターンを検出し、
    前記音響オブジェクトの動作音パターンを検出し、
    前記検出された映像動きパターンと前記検出された動作音パターンとの相関を求め、相関のある映像動きパターン及び動作音パターンに対応する映像オブジェクトと音響オブジェクトとを対応付ける
    請求項6に記載の映像音響処理方法。
  10. 前記映像オブジェクトの分離は、パターン認識により、映像オブジェクトを分離する請求項6から請求項9のいずれかに記載の映像音響処理方法。
  11. 入力映像信号から映像オブジェクトを分離する処理と、
    入力音響信号から音響オブジェクトを分離する処理と、
    前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける処理と
    を情報処理装置に実行させるプログラム。
JP2009220198A 2009-09-25 2009-09-25 映像音響処理システム、映像音響処理方法及びプログラム Pending JP2011071684A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009220198A JP2011071684A (ja) 2009-09-25 2009-09-25 映像音響処理システム、映像音響処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009220198A JP2011071684A (ja) 2009-09-25 2009-09-25 映像音響処理システム、映像音響処理方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014094976A Division JP6016277B2 (ja) 2014-05-02 2014-05-02 映像音響処理システム、映像音響処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2011071684A true JP2011071684A (ja) 2011-04-07

Family

ID=44016534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009220198A Pending JP2011071684A (ja) 2009-09-25 2009-09-25 映像音響処理システム、映像音響処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2011071684A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11463615B2 (en) 2019-03-13 2022-10-04 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
WO2008146616A1 (ja) * 2007-05-25 2008-12-04 Nec Corporation 画像音響区間群対応付け装置と方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
WO2008146616A1 (ja) * 2007-05-25 2008-12-04 Nec Corporation 画像音響区間群対応付け装置と方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11463615B2 (en) 2019-03-13 2022-10-04 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus

Similar Documents

Publication Publication Date Title
US10108709B1 (en) Systems and methods for queryable graph representations of videos
Galatas et al. Audio-visual speech recognition incorporating facial depth information captured by the Kinect
US7920761B2 (en) Multimodal identification and tracking of speakers in video
JP5049117B2 (ja) 音声および映像ソースデータを分離および評価する技術
JP5618043B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
CN102077580B (zh) 显示控制设备、显示控制方法
JP5088507B2 (ja) 同一性判定装置、同一性判定方法および同一性判定用プログラム
CN101518055A (zh) 字幕生成装置、字幕生成方法及字幕生成程序
US20100332229A1 (en) Apparatus control based on visual lip share recognition
CN102279977A (zh) 信息处理设备、信息处理方法和程序
CN102214304A (zh) 信息处理设备、信息处理方法、和程序
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
Tao et al. Aligning audiovisual features for audiovisual speech recognition
US20210281739A1 (en) Information processing device and method, and program
JP7464730B2 (ja) ビデオ情報に基づく空間オーディオ拡張
Tapu et al. DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people
JP6016277B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
JP4565162B2 (ja) 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
JP2013171089A (ja) 音声補正装置、方法、及びプログラム
JP5435221B2 (ja) 音源信号分離装置、音源信号分離方法及びプログラム
Sui et al. A 3D audio-visual corpus for speech recognition
JP2011071684A (ja) 映像音響処理システム、映像音響処理方法及びプログラム
Escalera et al. Multi-modal laughter recognition in video conversations
Li et al. Audio-Visual Wake-up Word Spotting Under Noisy and Multi-person Scenarios
Liu et al. Cross-modal Speech Separation Without Visual Information During Testing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130826

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140205