JP2011071684A - 映像音響処理システム、映像音響処理方法及びプログラム - Google Patents
映像音響処理システム、映像音響処理方法及びプログラム Download PDFInfo
- Publication number
- JP2011071684A JP2011071684A JP2009220198A JP2009220198A JP2011071684A JP 2011071684 A JP2011071684 A JP 2011071684A JP 2009220198 A JP2009220198 A JP 2009220198A JP 2009220198 A JP2009220198 A JP 2009220198A JP 2011071684 A JP2011071684 A JP 2011071684A
- Authority
- JP
- Japan
- Prior art keywords
- video
- acoustic
- audio
- pattern
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000000926 separation method Methods 0.000 claims abstract description 51
- 230000033001 locomotion Effects 0.000 claims description 69
- 238000001514 detection method Methods 0.000 claims description 32
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 238000003909 pattern recognition Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 9
- 238000000034 method Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 6
- 230000009901 attention process Effects 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
Abstract
【解決手段】本発明は、入力映像信号から映像オブジェクトを分離する映像オブジェクト分離部と、入力音響信号から音響オブジェクトを分離する音響オブジェクト分離部と、前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける相関対応付け部とを有する映像音響処理システムである。
【選択図】図1
Description
<第1の実施の形態>
第1の実施の形態を説明する。
<第2の実施の形態>
第2の実施の形態を説明する。
映像フレーム111において、映像オブジェクトのカテゴリとして男性の顔112、女性の顔113、自動車114が存在する。映像オブジェクト群をオブジェクトリスト115に示す。
<第3の実施の形態>
第3の実施の形態を説明する。
<第4の実施の形態>
第4の実施の形態を説明する。
2 音響オブジェクト分離部
3 相関対応付け部
131 人物検出部
321 映像カテゴリ判別部
323 音響カテゴリ判別部
323 カテゴリ対応付け部
331 動き検出部
332 音声区間検出部
333 AV信号相関部
341 映像動作検出部
342 動作音区間検出部
343 AV信号相関対応付け部
Claims (11)
- 入力映像信号から映像オブジェクトを分離する映像オブジェクト分離部と、
入力音響信号から音響オブジェクトを分離する音響オブジェクト分離部と、
前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける相関対応付け部と
を有する映像音響処理システム。 - 前記相関対応付け部は、
前記映像オブジェクトのカテゴリを算出する映像カテゴリ判別部と、
前記音響オブジェクトのカテゴリを算出する音響カテゴリ判別部と、
前記映像オブジェクトのカテゴリと、前記音響オブジェクトのカテゴリとを対応付け、前記対応付けられたカテゴリに対応する映像オブジェクトと音響オブジェクトとを対応付けるカテゴリ対応付け部と
を有する請求項1に記載の映像音響処理システム。 - 前記映像オブジェクト分離部は、
入力映像信号から人物領域を抽出する人物検出部を有し、
前記相関対応付け部は、
前記人物領域における映像動きパターンを検出する動き検出部と、
前記音響オブジェクトの音声区間パターンを検出する音声区間検出部と、
前記検出された映像動きパターンと前記検出された音声区間パターンとの相関を求め、相関のある映像動きパターン及び音声区間パターンに対応する映像オブジェクトと音響オブジェクトとを対応付けるAV信号相関対応付け部と
を有する請求項1に記載の映像音響処理システム。 - 前記相関対応付け部は、
前記映像オブジェクトの映像動きパターンを検出する映像動作検出部と、
前記音響オブジェクトの動作音パターンを検出する動作音区間検出部と、
前記検出された映像動きパターンと前記検出された動作音パターンとの相関を求め、相関のある映像動きパターン及び動作音パターンに対応する映像オブジェクトと音響オブジェクトとを対応付けるAV信号相関対応付け部と
を有する請求項1に記載の映像音響処理システム。 - 前記映像オブジェクト分離部は、パターン認識により、映像オブジェクトを分離する請求項1から請求項4のいずれかに記載の映像音響処理システム。
- 入力映像信号から映像オブジェクトを分離し、
入力音響信号から音響オブジェクトを分離し、
前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける
映像音響処理方法。 - 前記映像オブジェクトと前記音響オブジェクトとの対応付は、
前記映像オブジェクトのカテゴリを算出し、
前記音響オブジェクトのカテゴリを算出し、
前記映像オブジェクトのカテゴリと、前記音響オブジェクトのカテゴリとを対応付け、前記対応付けられたカテゴリに対応する映像オブジェクトと音響オブジェクトとを対応付ける
請求項6に記載の映像音響処理方法。 - 前記映像オブジェクトと前記音響オブジェクトとの対応付けは、
入力映像信号から人物領域を抽出し、
前記人物領域における映像動きパターンを検出し、
前記音響オブジェクトの音声区間パターンを検出し、
前記検出された映像動きパターンと前記検出された音声区間パターンとの相関を求め、相関のある映像動きパターン及び音声区間パターンに対応する映像オブジェクトと音響オブジェクトとを対応付ける
請求項6に記載の映像音響処理方法。 - 前記映像オブジェクトと前記音響オブジェクトとの対応付けは、
前記映像オブジェクトの映像動きパターンを検出し、
前記音響オブジェクトの動作音パターンを検出し、
前記検出された映像動きパターンと前記検出された動作音パターンとの相関を求め、相関のある映像動きパターン及び動作音パターンに対応する映像オブジェクトと音響オブジェクトとを対応付ける
請求項6に記載の映像音響処理方法。 - 前記映像オブジェクトの分離は、パターン認識により、映像オブジェクトを分離する請求項6から請求項9のいずれかに記載の映像音響処理方法。
- 入力映像信号から映像オブジェクトを分離する処理と、
入力音響信号から音響オブジェクトを分離する処理と、
前記映像オブジェクトと前記音響オブジェクトとの相関を求め、前記映像オブジェクトと前記音響オブジェクトとを少なくとも1以上対応付ける処理と
を情報処理装置に実行させるプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009220198A JP2011071684A (ja) | 2009-09-25 | 2009-09-25 | 映像音響処理システム、映像音響処理方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009220198A JP2011071684A (ja) | 2009-09-25 | 2009-09-25 | 映像音響処理システム、映像音響処理方法及びプログラム |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014094976A Division JP6016277B2 (ja) | 2014-05-02 | 2014-05-02 | 映像音響処理システム、映像音響処理方法及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2011071684A true JP2011071684A (ja) | 2011-04-07 |
Family
ID=44016534
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009220198A Pending JP2011071684A (ja) | 2009-09-25 | 2009-09-25 | 映像音響処理システム、映像音響処理方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2011071684A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11463615B2 (en) | 2019-03-13 | 2022-10-04 | Panasonic Intellectual Property Management Co., Ltd. | Imaging apparatus |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004056286A (ja) * | 2002-07-17 | 2004-02-19 | Fuji Photo Film Co Ltd | 画像表示方法 |
| WO2008146616A1 (ja) * | 2007-05-25 | 2008-12-04 | Nec Corporation | 画像音響区間群対応付け装置と方法およびプログラム |
-
2009
- 2009-09-25 JP JP2009220198A patent/JP2011071684A/ja active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004056286A (ja) * | 2002-07-17 | 2004-02-19 | Fuji Photo Film Co Ltd | 画像表示方法 |
| WO2008146616A1 (ja) * | 2007-05-25 | 2008-12-04 | Nec Corporation | 画像音響区間群対応付け装置と方法およびプログラム |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11463615B2 (en) | 2019-03-13 | 2022-10-04 | Panasonic Intellectual Property Management Co., Ltd. | Imaging apparatus |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10108709B1 (en) | Systems and methods for queryable graph representations of videos | |
| Galatas et al. | Audio-visual speech recognition incorporating facial depth information captured by the Kinect | |
| US7920761B2 (en) | Multimodal identification and tracking of speakers in video | |
| JP5049117B2 (ja) | 音声および映像ソースデータを分離および評価する技術 | |
| JP5618043B2 (ja) | 映像音響処理システム、映像音響処理方法及びプログラム | |
| CN102077580B (zh) | 显示控制设备、显示控制方法 | |
| JP5088507B2 (ja) | 同一性判定装置、同一性判定方法および同一性判定用プログラム | |
| CN101518055A (zh) | 字幕生成装置、字幕生成方法及字幕生成程序 | |
| US20100332229A1 (en) | Apparatus control based on visual lip share recognition | |
| CN102279977A (zh) | 信息处理设备、信息处理方法和程序 | |
| CN102214304A (zh) | 信息处理设备、信息处理方法、和程序 | |
| Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
| Tao et al. | Aligning audiovisual features for audiovisual speech recognition | |
| US20210281739A1 (en) | Information processing device and method, and program | |
| JP7464730B2 (ja) | ビデオ情報に基づく空間オーディオ拡張 | |
| Tapu et al. | DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people | |
| JP6016277B2 (ja) | 映像音響処理システム、映像音響処理方法及びプログラム | |
| JP4565162B2 (ja) | 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム | |
| JP2013171089A (ja) | 音声補正装置、方法、及びプログラム | |
| JP5435221B2 (ja) | 音源信号分離装置、音源信号分離方法及びプログラム | |
| Sui et al. | A 3D audio-visual corpus for speech recognition | |
| JP2011071684A (ja) | 映像音響処理システム、映像音響処理方法及びプログラム | |
| Escalera et al. | Multi-modal laughter recognition in video conversations | |
| Li et al. | Audio-Visual Wake-up Word Spotting Under Noisy and Multi-person Scenarios | |
| Liu et al. | Cross-modal Speech Separation Without Visual Information During Testing |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120806 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130625 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130703 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130826 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140205 |