JP2011188342A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2011188342A JP2011188342A JP2010052919A JP2010052919A JP2011188342A JP 2011188342 A JP2011188342 A JP 2011188342A JP 2010052919 A JP2010052919 A JP 2010052919A JP 2010052919 A JP2010052919 A JP 2010052919A JP 2011188342 A JP2011188342 A JP 2011188342A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- scene
- moving image
- content
- video content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
【課題】特徴の類似したコンテンツを広く柔軟に探し出すことが可能な情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出する特徴量抽出部と、抽出された特徴量を人物又は背景に対応付けるラベリング部と、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定する一致度判定部と、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較する比較部と、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測する関係性推測部とを備える。
【選択図】図1
【解決手段】一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出する特徴量抽出部と、抽出された特徴量を人物又は背景に対応付けるラベリング部と、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定する一致度判定部と、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較する比較部と、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測する関係性推測部とを備える。
【選択図】図1
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、ネットワーク分野において、データ伝送の高速化や大容量化が進行している。その結果の一つとして、ネットワーク上に多くの動画コンテンツが、不特定多数のユーザーの入手しやすい場所に出回るようになった。また、動画共有サイトを通じて、多くのユーザーが手元の動画コンテンツをアップロードし、他者と共有している。動画のような大容量コンテンツが簡単に共有できるようになった一方で、我々が目にするコンテンツの数が膨大になり、その中から自身の嗜好性に合うコンテンツを発見したり、アップロードされたコンテンツが違法でないかを判断したりするのが困難な状況になった。
これらを解決する方法として、ユーザーの視聴している動画コンテンツや既存の商用コンテンツを入力として、それに類似のコンテンツを出力するシステムの導入が考えられる。上記のようなシステムを利用することで、別のコンテンツの推薦やアップロードコンテンツの違法性の判断を自動化することができ、膨大なコンテンツを人の労力で処理する必要がなくなる。
現在、動画コンテンツの類似度判定に関する発明は、以下のようなものが開示されている。例えば、動画コンテンツの「映像部分」から得られる情報を利用して動画像間の類似度をはかる手法として、特許文献1〜5がある。
これらは、動体識別や輝度測定手段を用いて、動画コンテンツの「映像部分」から得られる特徴量を基に複数のコンテンツ間の類似度を測定する。しかし、これらは映像部分の類似性を判断するのみであるため、基本的に映像部分の内容がほぼ同じコンテンツ間の類似度判定にしか利用できない。
また、特許文献4においては、映像の遷移や様相の似たコンテンツをユーザーに推薦するが、テニスなどのスポーツシーンのように、カメラ固定で撮影し、かつ映像部分に明らかなパターンが存在する場合に特化したコンテンツ推薦システムといえる。そのため、すべてのコンテンツにおいて同等のコンテンツ推薦効果が得られるとは考え難い。
これに加えて、上記すべての手法は、コンテンツの「内容」をまったく参照しないため、パロディコンテンツのように「内容」が似ていても映像の様相が異なるコンテンツの推薦や、映像部分は異なるが「音声部分」のみに商用コンテンツを無断で利用した違法コンテンツの発見には向かない。
その他の手法としては、「コメント」を利用して動画像間の類似度を測定する特許文献6や、番組に付随する「番組案内のテキスト」内を検索して類似度をはかる特許文献7がある。
特許文献6は、各コンテンツに付随するコメントの内容から、特徴語と称される単語を抽出し、得られた特徴語群の分布を比較することで、動画コンテンツ間の類似度を測定する。これは、対象となるすべてのコンテンツが少なくとも複数のシーンに対し複数のコメントを付与されていることが前提となっている。そのため、類似コンテンツの特定の可否や精度は、対象のコンテンツに付与されたコメントの数に依存する。また、コメント内には望ましい特徴語が高確率で含まれていることを想定しているが、コメントの内容は基本的にユーザーが自由に決められるものであり、望ましい特徴語が含まれる保証はない。一方で、ユーザーが投稿するコメントに制約を設けるのも現実的ではない。
特許文献7は、番組に付随する番組案内情報を利用し、ユーザーが視聴中の番組に対し、ユーザーが視聴可能でかつ番組案内の付与された番組群の類似度を測定し、類似度の高い番組を推薦する。本手法は、番組に付随する内容を基にコンテンツを推薦する。しかし、番組案内はあくまで各々のコンテンツを提供する側で用意した番組の要約である。また、特許文献6と同様に、記述方法に制約がないという理由から、発見可能なコンテンツ数は非常に限られたものとなり、結果として豊富なコンテンツを十分に活かした推薦を実現することは困難であると考えられる。また、番組内容と番組は基本的に1対1の関係にあるため、本手法ではシーン単位でのコンテンツ間類似度判定は不可能である。
本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、特徴の類似したコンテンツを広く柔軟に探し出すことが可能な、新規かつ改良された情報処理装置、情報処理方法及びプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出する特徴量抽出部と、抽出された特徴量を人物又は背景に対応付けるラベリング部と、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定する一致度判定部と、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較する比較部と、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測する関係性推測部とを備える、情報処理装置が提供される。
上記一致度判定部は、対応付けされた特徴量に関して、記憶部に記録された他の動画コンテンツにおける特徴量との一致度を判定し、比較部は、閾値を用いて、対応付けされた特徴量と他の動画コンテンツにおける特徴量とが一致すると判断されたとき、一の動画コンテンツの一シーンにおける複数の特徴量と他の動画コンテンツの一シーンにおける複数の特徴量を比較してもよい。
上記特徴量抽出部は、動画コンテンツのシーン毎に複数の特徴量を抽出してもよい。
上記特徴量抽出部は、動画コンテンツの複数のシーン間で類似する特徴量が得られた場合、複数のシーン間の特徴量が類似していることを示すインデックス情報を付与してもよい。
上記特徴量抽出部は、特徴量として人物の顔を認識して、特徴量として人物の動体を検出し、ラベリング部は、人物ごとに顔及び動体を対応付けて、対応付けされた特徴量を人物ごとにひとまとめにしてもよい。
また、上記課題を解決するために、本発明の別の観点によれば、特徴量抽出部が、一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出するステップと、ラベリング部が、抽出された特徴量を人物又は背景に対応付けるステップと、一致度判定部が、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定するステップと、比較部が、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較するステップと、関係性推測部が、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測するステップとを備える、情報処理方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出する手段、抽出された特徴量を人物又は背景に対応付ける手段、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定する手段、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較する手段、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測する手段としてコンピュータを機能させるためプログラムが提供される。
以上説明したように本発明によれば、特徴の類似したコンテンツを広く柔軟に探し出すことができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.情報処理装置100の処理の概要
2.本実施形態の情報処理システム
3.各処理のフロー
4.動画コンテンツから抽出する特徴量の種類とその抽出方法
5.特徴量のラベリング
6.発話者と発話内容との対応付け
7.特徴量の保存と類似度判定方法
8.動画コンテンツ間の関係性推測方法
9.各特徴量の類似度判定方法
10.本実施形態の効果
1.情報処理装置100の処理の概要
2.本実施形態の情報処理システム
3.各処理のフロー
4.動画コンテンツから抽出する特徴量の種類とその抽出方法
5.特徴量のラベリング
6.発話者と発話内容との対応付け
7.特徴量の保存と類似度判定方法
8.動画コンテンツ間の関係性推測方法
9.各特徴量の類似度判定方法
10.本実施形態の効果
<1.情報処理装置100の処理の概要>
本実施形態は、対象となる動画コンテンツの映像や音声などから様々な特徴量を抽出し、それを基に、特徴の類似したコンテンツやシーンを従来よりも柔軟な方法で探し出し提示する手法を提供する。これにより、例えば、オリジナルコンテンツとパロディコンテンツ同士との関連付けをしたり、ユーザーが視聴しているアニメ動画からその実写の動画コンテンツを推薦したりすることができる。
本実施形態は、対象となる動画コンテンツの映像や音声などから様々な特徴量を抽出し、それを基に、特徴の類似したコンテンツやシーンを従来よりも柔軟な方法で探し出し提示する手法を提供する。これにより、例えば、オリジナルコンテンツとパロディコンテンツ同士との関連付けをしたり、ユーザーが視聴しているアニメ動画からその実写の動画コンテンツを推薦したりすることができる。
また、本実施形態は、動画コンテンツから得られる特徴量を、登場人物(キャラクター)毎にまとめることができ、データベース106に登録することもできる。そして、データベース106を用いて、未知のコンテンツに対する登場人物の判別や、登場人物を利用したコンテンツ同士の関連付けも可能となる。
本実施形態は、特徴量として、例えば、登場人物の顔の情報(高周波成分、肌の色構成等)と、音声情報(登場人物の声紋、BGM等)と、字幕情報と、しぐさ(時間軸方向の動作変化パターン)などを動画コンテンツから抽出し利用する。
本実施形態は、主に以下の処理を行う。
1.動画コンテンツのすべてのシーンから上記の特徴量を抽出し、それらの特徴量がどの登場人物又は背景に帰属するかを判断し、ラベリングを行う。
2.1の処理の後、それぞれラベリングされた特徴量が、既にデータベース106に登録されている別の動画コンテンツの特徴量と一致又は似ていると判断された場合、判断の起因となったシーンにおける類似度を、特徴量毎に判定する。
3.2における類似度判定の結果に従い、二つの動画コンテンツ間の総合的な類似度を算出すると同時に、対象となる二つの動画コンテンツの関係性を推測する。
1.動画コンテンツのすべてのシーンから上記の特徴量を抽出し、それらの特徴量がどの登場人物又は背景に帰属するかを判断し、ラベリングを行う。
2.1の処理の後、それぞれラベリングされた特徴量が、既にデータベース106に登録されている別の動画コンテンツの特徴量と一致又は似ていると判断された場合、判断の起因となったシーンにおける類似度を、特徴量毎に判定する。
3.2における類似度判定の結果に従い、二つの動画コンテンツ間の総合的な類似度を算出すると同時に、対象となる二つの動画コンテンツの関係性を推測する。
図1を参照して、本実施形態における処理の流れを説明する。図1は、本実施形態に係る情報処理装置100の処理概要を示す説明図である。
本実施形態では、まず、対象となる動画コンテンツから、予め決定された特徴量を抽出する。例えば、図1(A)に示すように、動画Aから特徴量1〜3を抽出する。そして、抽出された各々の特徴量に対し、それがどの登場人物又は背景に帰属する特徴量であるかを判断して、ラベリングを行う。
続いて、ラベリングされた特徴量が、データベース106に存在する別の動画コンテンツが所有する特徴量と似ているかを検証する。例えば、図1(A)に示すように、動画Aの特徴量1が動画Bの特徴量1と類似しているかを検証する。
対象の特徴量と一致又は似ている特徴量がデータベース106上に存在している場合、類似度判定の起因となったシーン間について、すべての特徴量に対し類似度を判定する。例えば、図1(B)に示すように、動画AのシーンAと動画BのシーンB間について、特徴量1以外の特徴量2,3に対し類似度を判定する。類似度判定の結果、シーンAとシーンB間の関係性が得られる(図1(C))。
そして、各特徴量の類似度の判定結果を基に、対象となる二つの動画コンテンツ間の類似度を総合的に判断する。また、同時に、特徴量毎の類似度を参考に二つの動画コンテンツの関係性について推測する(図1(D))。
以降では、本実施形態の情報処理システム、各処理のフロー、動画コンテンツから抽出する特徴量の種類とその抽出方法、特徴量の類似度判定方法、動画コンテンツ間の関係性推測方法について説明する。
<2.本実施形態の情報処理システム>
本実施形態に係る情報処理装置100を含む情報処理システムを図2に示す。図2は、本実施形態に係る情報処理装置100を含む情報処理システムを示すブロック図である。
本実施形態に係る情報処理装置100を含む情報処理システムを図2に示す。図2は、本実施形態に係る情報処理装置100を含む情報処理システムを示すブロック図である。
本実施形態に係る情報処理装置100は、中央演算部102と、一時記憶部104と、データベース(記憶装置)106と、顔認識用データベース112と、デコーダ/エンコーダ114と、声認識用データベース116と、映像解析部122と、メタデータ解析部124と、音声解析部126等で構成された装置を有する。また、本装置は、家庭内録画機器内に組み込まれた形でも使用される。
当装置は、動画共有サイトや家庭内録画機器、テレビ番組放送局などの動画像提供装置20から動画コンテンツを受け取り、必要に応じて動画ストリームのデコード/エンコードを行った後、映像部分と音声部分とメタデータ部分に分解する。
映像解析部122と、音声解析部126と、メタデータ解析部124は分解されたストリームを適宜受け取り、動画コンテンツのもつ特徴量を抽出する。
中央演算部102は抽出された特徴量を受け取り、一時記憶部104に蓄積されるかあるいはデータベース106に格納するための処理を施す。中央演算部102は、一時記憶部104に蓄積された特徴量の統計情報や、データベース106に格納する処理を行った結果得られた情報を、表示装置30を通じて出力する。また、中央演算部102は、必要に応じてネットワーク10から特徴量に関する情報を取得できる環境を有する。
<3.各処理のフロー>
本実施形態の処理フローを図3に示す。図3は、本実施形態に係る情報処理装置100の処理動作を示すフローチャートである。
まず、動画コンテンツを読み込む(ステップS11)。そして、読み込んだ動画コンテンツから、すべてのシーンにおけるコンテンツの特徴を表す情報(特徴量)を抽出する(ステップS12)。特徴量抽出は、図2に示した映像解析部122と、音声解析部126と、メタデータ解析部124によって行われる。映像解析部122と、音声解析部126と、メタデータ解析部124は、特徴量抽出部の一例である。図9に、動画コンテンツのタイムラインと抽出する特徴量の関係を示す。
本実施形態の処理フローを図3に示す。図3は、本実施形態に係る情報処理装置100の処理動作を示すフローチャートである。
まず、動画コンテンツを読み込む(ステップS11)。そして、読み込んだ動画コンテンツから、すべてのシーンにおけるコンテンツの特徴を表す情報(特徴量)を抽出する(ステップS12)。特徴量抽出は、図2に示した映像解析部122と、音声解析部126と、メタデータ解析部124によって行われる。映像解析部122と、音声解析部126と、メタデータ解析部124は、特徴量抽出部の一例である。図9に、動画コンテンツのタイムラインと抽出する特徴量の関係を示す。
映像解析部122は、一般的な顔認識機能と動体認識機能を有し、主に顔の高周波成分、顔の色と分布、動作、顔認識によって特定された人物、また必要に応じて体の色と分布を抽出する。顔認識用データベース112は、事前に作成された辞書を有しているものとし、顔認識による人物の特定に使用される。
音声解析部126は、音声情報(周波数特性)抽出機能を有し、動画コンテンツの音声情報から、主に人物の声紋(周波数分布)、音量、周波数分布が急激に変化する区間を抽出する。音声情報(周波数特性)抽出機能は、例えば特願2009−278180号明細書に記載の技術を利用できる。また、音声解析部126が、発話認識(音声認識)機能を有する場合、発話内容も特徴量として抽出する。声認識用データベース116は、事前に作成された辞書を有しているものとし、音声情報抽出による人物の特定に使用される。
メタデータ解析部124は、動画コンテンツに付随するメタデータから、主に字幕情報を抽出する。得られたメタデータにコンテンツのタイトルが含まれている場合、必要に応じてタイトルも特徴量として抽出する。また、得られたメタデータに登場人物の名前が含まれている場合、メタデータ解析部124は、必要に応じて中央演算部102を通じ、登場人物の名前を基にネットワーク10上の顔画像を参照して、顔認識用データベース112に対象人物の顔の構成情報を登録する。
次に、中央演算部102のラベリング部が、抽出された特徴量がどの人物に帰属するか、又はどの人物にも帰属しない情報であるかを特定する(ステップS13)。当プロセスにおける特徴量ラベリングの方法については後述する。
続いて、中央演算部102の一致度判定部が、ラベリングした各シーンの特徴量群に関して、値の近いデータがデータベース106上に存在しているかを確認する(ステップS14)。ここでデータベース106上にあるデータは、以前に同様の処理を行い、データベース106に登録された、別の動画コンテンツが持つ特徴量である。
検証の結果、対象の特徴量に近いデータがデータベース106に発見された場合(ステップS15)、中央演算部102の比較部が、対象の特徴量をもつ二つの動画コンテンツに対し、互いの特徴量を比較する(ステップS16)。比較は、特徴量が近いと判断されたシーンに含まれるすべての特徴量間で行う。
比較の結果から、各特徴量の類似度を基に、中央演算部102の関係性推測部が、二つの動画コンテンツの関係性を推測する(ステップS17)。
一方で、対象の特徴量に近いデータがデータベース106上に一つも存在しない場合は、動画コンテンツの比較処理及び関係性推測処理を行わない。
最後に、対象の特徴量をデータベース106に新規登録し、処理を終了する(ステップS18)。ただし、登録する特徴量に近いデータがデータベース106上に発見された場合のみ、対象の特徴量ならびに近いデータをもつ特徴量の登録内容に対し、二つの特徴量が所属するシーンならびにコンテンツの関係性の情報を追加する。
また、補足として、ステップS12において、ある動画コンテンツから特徴量群を抽出した際に、対象コンテンツの複数のシーン間で似た特徴量が得られた場合、それらが似ていることを示すインデックス情報を付与しておくことで、データベース106上のデータと、新規に抽出した特徴量との比較における検索回数を削減することができ、結果として処理時間を減らすことができる。
<4.動画コンテンツから抽出する特徴量の種類とその抽出方法>
動画コンテンツから抽出する特徴量の種類と抽出方法を以下に示す。
(映像解析部122)
図4は、検出された顔の特徴である高周波成分と顔の色構成の一例を示す説明図である。図4(A)は、動画コンテンツ内の顔の一例を示す。
映像解析部122は、図4(B),図4(F)に示すように、顔認識機能として、フーリエ変換により顔の輪郭(高周波)成分を抽出する。また、映像解析部122は、図4(C)〜(E)及び図4(G)に示すように、検出された顔の色の構成比を、顔の面積に対する割合として算出する。そして、特徴量抽出処理によって得られる図4に示すような顔の輪郭や色構成の情報を利用して、顔認識処理することができる。更に映像解析部122は、動体認識機能として、動画コンテンツから動体を検出する。図5は、しぐさ・動作パターンの検出の一例を示す説明図である。そして、映像解析部122は、顔認識と動体検出の結果から、顔と動体を関連づけて、一連のシーンにおける対象の動作変化を記録する。
動画コンテンツから抽出する特徴量の種類と抽出方法を以下に示す。
(映像解析部122)
図4は、検出された顔の特徴である高周波成分と顔の色構成の一例を示す説明図である。図4(A)は、動画コンテンツ内の顔の一例を示す。
映像解析部122は、図4(B),図4(F)に示すように、顔認識機能として、フーリエ変換により顔の輪郭(高周波)成分を抽出する。また、映像解析部122は、図4(C)〜(E)及び図4(G)に示すように、検出された顔の色の構成比を、顔の面積に対する割合として算出する。そして、特徴量抽出処理によって得られる図4に示すような顔の輪郭や色構成の情報を利用して、顔認識処理することができる。更に映像解析部122は、動体認識機能として、動画コンテンツから動体を検出する。図5は、しぐさ・動作パターンの検出の一例を示す説明図である。そして、映像解析部122は、顔認識と動体検出の結果から、顔と動体を関連づけて、一連のシーンにおける対象の動作変化を記録する。
(音声解析部126)
音声解析部126は、動画コンテンツから声紋を検出する。また、音声解析部126は、検出された顔の口元の動きから、対象人物の声情報を背景音と分離し、取得する。更に、音声解析部126は、発話内容を抽出する。音声解析部126は、発話認識により、対象人物の発言内容(台詞)を抽出する。また、音声解析部126は、図6に示すように、動画コンテンツからBGMを検出する。図6は、動画コンテンツのテーマ曲(テーマBGM)の抽出を示す説明図である。音声解析部126は、例えば、人物登場シーン、音量、周波数成分の急激な変化を参考に背景音を分離する。
音声解析部126は、動画コンテンツから声紋を検出する。また、音声解析部126は、検出された顔の口元の動きから、対象人物の声情報を背景音と分離し、取得する。更に、音声解析部126は、発話内容を抽出する。音声解析部126は、発話認識により、対象人物の発言内容(台詞)を抽出する。また、音声解析部126は、図6に示すように、動画コンテンツからBGMを検出する。図6は、動画コンテンツのテーマ曲(テーマBGM)の抽出を示す説明図である。音声解析部126は、例えば、人物登場シーン、音量、周波数成分の急激な変化を参考に背景音を分離する。
(メタデータ解析部124)
メタデータ解析部124は、動画コンテンツのメタデータに字幕が含まれる場合、動画コンテンツから字幕を抽出する。
メタデータ解析部124は、動画コンテンツのメタデータに字幕が含まれる場合、動画コンテンツから字幕を抽出する。
<5.特徴量のラベリング>
次に、特徴量のラベリング処理について説明する。図7は、特徴量のラベリング処理を示すフローチャートである。
まず、映像解析部122によって得られた顔認識済みのシーンについて、検出された人物の人物名で顔検出されたシーンをラベリングする(ステップS21)。ラベル名は、正式な人物名でなくとも、特定の人物を指す固有の識別子であればどのようなものでもかまわない。
次に、特徴量のラベリング処理について説明する。図7は、特徴量のラベリング処理を示すフローチャートである。
まず、映像解析部122によって得られた顔認識済みのシーンについて、検出された人物の人物名で顔検出されたシーンをラベリングする(ステップS21)。ラベル名は、正式な人物名でなくとも、特定の人物を指す固有の識別子であればどのようなものでもかまわない。
次に、検出された顔を用いて動体検出を行うことにより得られた人物の動作変化パターンに、対象の顔についているのと同じ人物名でラベルを付与する(ステップS22)。
さらに、上記の顔ならびに動体が検出されたシーンにおける音声情報について、音声解析部126にて得られた声紋が、当シーンにおける顔や動体に付与されたラベルの人物のものであるかを検証する(ステップS23)。ここで、声紋の認識には、例えば特願2009−278180号記載の手法を利用する。
検証の結果、対象のシーンにて得られた声紋がラベルの示す人物と一致した場合(ステップS24)、声紋に当ラベルを付与する(ステップS26)。一方、対象の声紋が別の人物のものであると認識された場合(ステップS24)、これに背景音のラベルを付与し、今後処理の対象外とする(ステップS25)。これにより、以降の類似度判定処理の処理量を削減できる。
なお、特願2009−278180号記載の声紋認識を利用すれば、上記のように音声情報のみからどの人物の声であるかを特定することができる。しかし、本実施形態では、登場人物を基準として、動画コンテンツを対象として特徴量を収集することに重きを置く。そのため、映像がない音声のみの情報については、対象の人物の特徴を抽出するものとして不十分であると判断し、これを利用しないものとする。
また、図6のようにしてBGMが検出された場合、これを特徴量として声紋と同様にラベリングを行い、類似度判定に利用することができる。
続いて、声紋と同様に、対象のシーンにおいて、音声解析部126の発話認識又はメタデータ解析部124の字幕情報から得られた発話内容が、ラベリングされた人物のものであるかを検証する(ステップS27)。発話内容に関しては、音声解析部126の発話認識を利用する場合、声紋認識によって声紋も同時に抽出できるため、声紋から人物を特定できれば、その発話内容がどの人物のものであるかを容易に特定できる。
一方、字幕情報からの発話内容に関しても、字幕情報に付随する発話時間と映像解析部122における顔認識を利用して、口元の動きが検出されたシーンの時間とを照合することで、どの人物の発話であるかを特定できる。発話者と発話内容との対応付けの方法については後述する。
検証の結果、発話内容が対象の人物のものであると認識された場合(ステップS28)、この発話内容に当ラベルを付与する(ステップS30)。逆に、別の人物の発話内容であると認識された場合は背景音のラベルを付与し、今後処理の対象としない(ステップS29)。以上をもって特徴量ラベリングの処理を終了する。
<6.発話者と発話内容との対応付け>
発話者と発話内容との対応付けについて図8を用いて説明する。図8は、発話者と発話内容との対応付けについて示す説明図である。
発話者と発話内容との対応付けについて図8を用いて説明する。図8は、発話者と発話内容との対応付けについて示す説明図である。
まず、映像解析部122において顔認識機能により、各シーンにおける登場人物を検出し特定する。次に、対象シーン内において、口元が動くシーンをさらに検出し、マークをつける。
一方、メタデータ解析部124において得られた字幕情報から、発話内容が付随した時間情報を基に各シーンへ割り当てる。ここで、映像解析部122で口元の動きを検出したシーンと、割り当てられた字幕情報とを時間軸ですり合わせる。これにより、どの発話内容をどの人物が話したかを特定できる。
<7.特徴量の保存と類似度判定方法>
特徴量の保存は以下のデータをもって行う。
(一時記憶部104への特徴量の保存)
・特徴量タイプ
・特徴量の値
・ラベル
・シーン開始時間
・シーン終了時間
・インデックス番号
(特徴量保存用データベース106)
・特徴量タイプ
・特徴量の値
・ラベル
・シーン開始時間
・シーン終了時間
・対象動画コンテンツのID番号
(動画コンテンツ/シーン間関係性保存用データベース106)
・対象動画コンテンツ1のID番号
・対象動画コンテンツ1のシーン開始時間
・対象動画コンテンツ1のシーン終了時間
・対象動画コンテンツ2のID番号
・対象動画コンテンツ2のシーン開始時間
・対象動画コンテンツ2のシーン終了時間
・コンテンツ/シーンフラグ
・関係性タイプ
特徴量の保存は以下のデータをもって行う。
(一時記憶部104への特徴量の保存)
・特徴量タイプ
・特徴量の値
・ラベル
・シーン開始時間
・シーン終了時間
・インデックス番号
(特徴量保存用データベース106)
・特徴量タイプ
・特徴量の値
・ラベル
・シーン開始時間
・シーン終了時間
・対象動画コンテンツのID番号
(動画コンテンツ/シーン間関係性保存用データベース106)
・対象動画コンテンツ1のID番号
・対象動画コンテンツ1のシーン開始時間
・対象動画コンテンツ1のシーン終了時間
・対象動画コンテンツ2のID番号
・対象動画コンテンツ2のシーン開始時間
・対象動画コンテンツ2のシーン終了時間
・コンテンツ/シーンフラグ
・関係性タイプ
各特徴量と一致するデータ、又は閾値を利用した結果から似ていると判断されるデータがデータベース106上に存在している場合、対象の特徴量が存在するシーン間において、すべての特徴量の類似度を測定する。これらをもって、対象となる二つの動画コンテンツ間またはシーン間の関係性を決定する。
次に、類似度の算出について説明する。
(映像の類似度)
顔・・・検出された顔の輪郭・色の構成比から、シーン間での登場人物の顔の類似度を判定する。
動作・・・時間軸方向の姿勢変化から、シーン間での登場人物の動作の類似度を判定する。
(音声の類似度)
声紋・・・音声の周波数分布から、シーン間での登場人物の声の類似度を判定する。
BGM・・・一定時間に流れる音声情報から、シーン間での登場人物のBGMの類似度を判定する。
(内容の類似度)
台詞・・・声紋と字幕や発言内容から、シーン間での登場人物の台詞の類似度を判定する。
(映像の類似度)
顔・・・検出された顔の輪郭・色の構成比から、シーン間での登場人物の顔の類似度を判定する。
動作・・・時間軸方向の姿勢変化から、シーン間での登場人物の動作の類似度を判定する。
(音声の類似度)
声紋・・・音声の周波数分布から、シーン間での登場人物の声の類似度を判定する。
BGM・・・一定時間に流れる音声情報から、シーン間での登場人物のBGMの類似度を判定する。
(内容の類似度)
台詞・・・声紋と字幕や発言内容から、シーン間での登場人物の台詞の類似度を判定する。
<8.動画コンテンツ間の関係性推測方法>
二つの動画コンテンツがどの特徴に対し、どれだけ似ているかを上記の特徴量比較によって行うことで、以下のような関係性の分類が可能になる。
・比較する特徴量と類似度
(1)顔が同じである。または似ている。
(2)動作パターンが同じである。または似ている。
(3)声紋が同じである。または似ている。
(4)台詞が同じである。または似ている。
二つの動画コンテンツがどの特徴に対し、どれだけ似ているかを上記の特徴量比較によって行うことで、以下のような関係性の分類が可能になる。
・比較する特徴量と類似度
(1)顔が同じである。または似ている。
(2)動作パターンが同じである。または似ている。
(3)声紋が同じである。または似ている。
(4)台詞が同じである。または似ている。
これらの特徴量に対し、両者間の類似度が0(ゼロ)以下すなわち似ていないか、又は事前に設定した閾値よりも大きい値をとるか否かで以下のような評価が行える。
・類似度と評価
(1)類似度が0(ゼロ)以下である場合 → 別人物の可能性。
(2)類似度が閾値以上の場合 → 同一人物である可能性。
(3)類似度が閾値以下の場合 → ものまねなど別人物や変形したものの可能性。
・類似度と評価
(1)類似度が0(ゼロ)以下である場合 → 別人物の可能性。
(2)類似度が閾値以上の場合 → 同一人物である可能性。
(3)類似度が閾値以下の場合 → ものまねなど別人物や変形したものの可能性。
また、各シーンについてすべての特徴間の類似度を総合的に見て、両者間の関係性を判断する。
・類似度の結果と両者の関係性判断
(1)上記すべての特徴量において、類似度が閾値よりも高い場合 → 二つの動画コンテンツは同じ内容。
(2)一定人数以上の顔と声紋において、類似度が閾値よりも高い場合 → 二つの動画コンテンツはシリーズ。
(3)一人ないし一定人数以下の顔と声紋において、類似度が閾値よりも高い場合 → 二つの動画コンテンツは、登場人物が共通する別の番組。
(4)顔と声紋間の類似度が閾値よりも低く、動作パターンや台詞の類似度が閾値よりも高いシーンが存在する場合 → ものまねをした別人物が登場するパロディコンテンツ。
(5)すべての特徴量において、類似度が閾値よりも低い場合 → 関係性のない番組。
・類似度の結果と両者の関係性判断
(1)上記すべての特徴量において、類似度が閾値よりも高い場合 → 二つの動画コンテンツは同じ内容。
(2)一定人数以上の顔と声紋において、類似度が閾値よりも高い場合 → 二つの動画コンテンツはシリーズ。
(3)一人ないし一定人数以下の顔と声紋において、類似度が閾値よりも高い場合 → 二つの動画コンテンツは、登場人物が共通する別の番組。
(4)顔と声紋間の類似度が閾値よりも低く、動作パターンや台詞の類似度が閾値よりも高いシーンが存在する場合 → ものまねをした別人物が登場するパロディコンテンツ。
(5)すべての特徴量において、類似度が閾値よりも低い場合 → 関係性のない番組。
また、上記判断は、どれだけのシーンにおいて高い類似度が得られたかの統計をとることによって、関係性が二つの動画コンテンツ全体において成立するか、又は特定のシーン間でのみ成立するものかを評価できる。
動画コンテンツ間の関係性を推測する際、同じ顔(人物)が映っているシーン毎に処理してもよいが、顔認識ならびにそれに付随する動体検出によって、登場人物が現れるシーンのみを処理対象としたほうがよい。
これによって、各動画コンテンツにおいて、登場人物ごとに各特徴量にラベリング(インデキシング)を行うことができる。その結果、人物の特徴量をひとまとめにすることができ、事前に情報の重要度決めや取捨選択が行える。また、処理の高速化を図ることができる。
一方、顔の特徴量を優先させると、二つのシーンについて、同じシリーズか、同じ人物が登場する別のコンテンツかは分類できる。しかし、顔の特徴量を優先させると、顔以外の特徴量が同じで、顔が異なるコンテンツの関係性を見出せなくなる。たとえば、台詞や声が同じだが顔が違う場合、顔の特徴量を優先させた処理では類似度を判定できない。しかし、台詞や声が同じだが顔が違う場合、実際は異なる人物がしぐさ等を「まねをしている」という関係性があると推定される。そのため、動画コンテンツ間の関係性を推測する際、顔認識の結果、すなわちラベルが一致するシーン毎の処理に分けるのは望ましくないと判断される。
<9.各特徴量の類似度判定方法>
各特徴量の類似度判定方法について図10の流れに則して説明する。図10は、各特徴量の類似度判定方法を示す説明図である。
各特徴量の類似度判定方法について図10の流れに則して説明する。図10は、各特徴量の類似度判定方法を示す説明図である。
まず、図10中(1)において、処理対象となる動画A内のシーンaよりシーン内の特徴量を抽出し、データベース106に渡す。ここで、処理対象となるシーンは、一般的な顔検出手法によって顔が検出されたシーンとする。
また、各シーンから抽出される特徴量として、対象人物の顔情報、しぐさ(シーン内動作パターン)、対象顔の声紋、シーン内BGM(対象人物の声を除いたシーンの背景音)、台詞(字幕情報)の五つが例として挙げられる。なお、特徴量は、必ずしもこの五つに限定されるわけではなく、他の特徴量を使用することもできる。
抽出された特徴量は、本システムによってデータベース106に登録される(図10中(2))。また同時に、抽出された特徴量は、既にデータベース106に登録されている他の動画(シーン)から抽出された特徴量との類似度が計算される(図10中(3))。
各特徴量の類似度判定の基準と計算式を以下に示す。以下では、類似度判定対象となる二つのシーンをそれぞれA、Bとする。また、計算式から算出される類似度は0から1の値をとり、0から1のうち値が大きいほど類似度が高いものとして説明する。
(顔の類似度判定)
顔の類似度判定は、顔の輪郭ならびに色彩情報を比較する。
シーン間の顔比較は、まず、双方の顔のサイズが同じになるようにリサイズを行う。例えば、シーンA、Bそれぞれのシーンにおける検出顔のサイズをFs(A)、Fs(B)とした場合、リサイズの倍率rは、以下の数式1で表される。
r=Fs(B)/Fs(A) ……(数式1)
ここで、リサイズは、顔の変形を防ぐために縦横ともに同じ倍率にて行うものとする。
顔の類似度判定は、顔の輪郭ならびに色彩情報を比較する。
シーン間の顔比較は、まず、双方の顔のサイズが同じになるようにリサイズを行う。例えば、シーンA、Bそれぞれのシーンにおける検出顔のサイズをFs(A)、Fs(B)とした場合、リサイズの倍率rは、以下の数式1で表される。
r=Fs(B)/Fs(A) ……(数式1)
ここで、リサイズは、顔の変形を防ぐために縦横ともに同じ倍率にて行うものとする。
続いて、両者の顔の輪郭ならびに色彩の類似度を比較する。
ここで、2次元平面をx,yで表す。また、シーンA、Bそれぞれにおける顔の2次元の輪郭情報をFl(A(x,y))、Fl(B(x,y))で表し、2次元の色彩情報をFc(A(x,y))、Fc(B(x,y))で表す。更に、それぞれの比較結果の荷重をuとすると、シーンAB間における顔の類似度RF(A,B)は以下の数式2のように表される。
RF(A,B)=uΣx,y [1−{Fl(A(x,y))−Fl(B(x,y))}]/(L_MAX×Fs(B))+(1−u)Σx,y[1−{Fc(A(x,y))−Fc(B(x,y))}]/(C_MAX×Fs(B)) ……(数式2)
ここで、L_MAXならびにC_MAXは、それぞれ輪郭情報と色彩情報の最大値を表す。
ここで、2次元平面をx,yで表す。また、シーンA、Bそれぞれにおける顔の2次元の輪郭情報をFl(A(x,y))、Fl(B(x,y))で表し、2次元の色彩情報をFc(A(x,y))、Fc(B(x,y))で表す。更に、それぞれの比較結果の荷重をuとすると、シーンAB間における顔の類似度RF(A,B)は以下の数式2のように表される。
RF(A,B)=uΣx,y [1−{Fl(A(x,y))−Fl(B(x,y))}]/(L_MAX×Fs(B))+(1−u)Σx,y[1−{Fc(A(x,y))−Fc(B(x,y))}]/(C_MAX×Fs(B)) ……(数式2)
ここで、L_MAXならびにC_MAXは、それぞれ輪郭情報と色彩情報の最大値を表す。
(声紋の類似度判定)
声紋の類似度判定は、声の周波数分布を比較する。
周波数をfとし、シーンA、Bにおける対象人物の声紋、すなわち周波数分布をVFA(f)、VFB(f)とすると、AB間における声紋の類似度RV(A,B)は以下の数式3のように表される。
RV(A,B)=Σf{VFA(f)―VFB(f)}/(F_MAX×D_MAX) ……(数式3)
ここで、F_MAXならびにD_MAXは、周波数最大値ならびに音響を正規化するための値を表す。
声紋の類似度判定は、声の周波数分布を比較する。
周波数をfとし、シーンA、Bにおける対象人物の声紋、すなわち周波数分布をVFA(f)、VFB(f)とすると、AB間における声紋の類似度RV(A,B)は以下の数式3のように表される。
RV(A,B)=Σf{VFA(f)―VFB(f)}/(F_MAX×D_MAX) ……(数式3)
ここで、F_MAXならびにD_MAXは、周波数最大値ならびに音響を正規化するための値を表す。
(しぐさの類似度判定)
しぐさの類似度判定は、既存の動体検出手法によって、動体の端点位置(頭と両手足)を五つ検出し、シーン内における各端点の移動軌跡を測定し比較する。
時間をt、端点番号をnとし、端点の位置をp(t,n)とすると、ある時点t0から別の時点t1までの端点n0の移動ベクトルは(p(t1,n0)−p(t0,n0))で表される。
しぐさの類似度判定は、既存の動体検出手法によって、動体の端点位置(頭と両手足)を五つ検出し、シーン内における各端点の移動軌跡を測定し比較する。
時間をt、端点番号をnとし、端点の位置をp(t,n)とすると、ある時点t0から別の時点t1までの端点n0の移動ベクトルは(p(t1,n0)−p(t0,n0))で表される。
ここで、端点の初期位置は顔が正面を向いており、かつ両眼の中線が水平方向に対し垂直になっている状態を基準とする。そのため、検出された顔の水平ならびに垂直方向への傾きを参考に、対象人物の姿勢を推定し、端点位置を3次元で求めることができる。
次に、シーンA、Bにおいて求められた端点移動ベクトルの類似度を比較する。時間tにおけるシーンA、Bの端点nがもつ移動ベクトルをvA(t,n)、vB(t,n)とすると、AB間のしぐさの類似度RM(A,B)は以下の数式4のように表される。
RM(A,B)=1−Σt,n|{(vA(t,n)−vB(t,n))/(|vA(t,n)||vB(t,n))|}|/(DIM×T_MAX×N_MAX) ……(数式4)
ここで、DIMは次元数を表し、T_MAXは比較対象のシーンの時間の長さを表し、N_MAXは比較する端点の数を表す。
RM(A,B)=1−Σt,n|{(vA(t,n)−vB(t,n))/(|vA(t,n)||vB(t,n))|}|/(DIM×T_MAX×N_MAX) ……(数式4)
ここで、DIMは次元数を表し、T_MAXは比較対象のシーンの時間の長さを表し、N_MAXは比較する端点の数を表す。
(台詞の類似度判定)
台詞の類似度判定は、両者の発話内容に対し、テキストマッチングを行う。
シーンA、Bにおいて得られた発話内容をそれぞれs(A)、s(B)とし、シーンAB間に共通する単語ないし文章の長さを測定する関数をCl(s(A),s(B))とすると、シーンAB間の台詞の類似度RS(A,B)は以下の数式5のように表される。
RS(A,B)=Cl(s(A),s(B))/S_MAX ……(数式5)
ここで、S_MAXは比較する文字列の長さを表す。
台詞の類似度判定は、両者の発話内容に対し、テキストマッチングを行う。
シーンA、Bにおいて得られた発話内容をそれぞれs(A)、s(B)とし、シーンAB間に共通する単語ないし文章の長さを測定する関数をCl(s(A),s(B))とすると、シーンAB間の台詞の類似度RS(A,B)は以下の数式5のように表される。
RS(A,B)=Cl(s(A),s(B))/S_MAX ……(数式5)
ここで、S_MAXは比較する文字列の長さを表す。
(BGMの類似度判定)
BGMの類似度判定は、両者間で共通の連続再生音がシーン内にどれだけの時間含まれているかを計測する。
BGMの類似度判定は、両者間で共通の連続再生音がシーン内にどれだけの時間含まれているかを計測する。
ある時刻tにシーンA、Bそれぞれで得られるBGM波形又は旋律をgA(t)、gB(t)をする。さらに、gA(t)とgB(t)の相関をはかる関数をR(gA(t),gB(t))とし、高い相関を得られた領域のうち最長のものを選択する関数をLr(Σt{R(gA(t),gB(t))})とすると、シーンAB間のBGMの類似度RG(A,B)は以下の数式6のように表される。
RG(A,B)=Lr(Σt{R(gA(t),gB(t))})/T_MAX ……(数式6)
ここで、T_MAXは比較対象のシーンの時間の長さを表す。
RG(A,B)=Lr(Σt{R(gA(t),gB(t))})/T_MAX ……(数式6)
ここで、T_MAXは比較対象のシーンの時間の長さを表す。
上記計算式から算出された値を基に、各特徴量は以下のような判定結果を得る。
・顔・・・[1:同じ]>[全体の輪郭または色構成が似ている]>[輪郭または色構成が部分的に似ている]>[0:異なる]
・声紋・・・[1:同じ]>[部分的に同じ連続区間がある。一部の端点が異なる軌跡である]>[0:異なる]
・しぐさ・・・[1:同じ]>[全ての点が時系列で見て長い時間類似の軌跡を描いている]>[全ての点が短い時間類似の軌跡を描いている。もしくは、多くの点が長い時間類似の軌跡を描いている]>[多くの点が短い時間類似の軌跡を描いている]>[0:異なる]
・台詞・・・[1:同じ][0:異なる]※特徴的な台詞のみを残し、頻出の部分は排除する。
・BGM・・・[1:同じ]>[全体の長さに対し部分的に同じ]>[旋律が同じ、演奏・収録方法などが別。内容は同じでモノは別]>[全体の一部に含まれる、別のものと混じっている]>[0:異なる]
上記の判定は、各々に閾値を設けて行われるものとする。
・顔・・・[1:同じ]>[全体の輪郭または色構成が似ている]>[輪郭または色構成が部分的に似ている]>[0:異なる]
・声紋・・・[1:同じ]>[部分的に同じ連続区間がある。一部の端点が異なる軌跡である]>[0:異なる]
・しぐさ・・・[1:同じ]>[全ての点が時系列で見て長い時間類似の軌跡を描いている]>[全ての点が短い時間類似の軌跡を描いている。もしくは、多くの点が長い時間類似の軌跡を描いている]>[多くの点が短い時間類似の軌跡を描いている]>[0:異なる]
・台詞・・・[1:同じ][0:異なる]※特徴的な台詞のみを残し、頻出の部分は排除する。
・BGM・・・[1:同じ]>[全体の長さに対し部分的に同じ]>[旋律が同じ、演奏・収録方法などが別。内容は同じでモノは別]>[全体の一部に含まれる、別のものと混じっている]>[0:異なる]
上記の判定は、各々に閾値を設けて行われるものとする。
上記の判定結果をもとに、二つのシーン間の関係性を推測する(図10中(4))。
まず、上記特徴量群は図11に示す三つのカテゴリに分類される。
まず、上記特徴量群は図11に示す三つのカテゴリに分類される。
また、これらのカテゴリにおいて算出される類似度の組み合わせとそれによるシーン間の関係性の例を図12に示す表に示す。ここで、類似度は、対象のカテゴリに属する特徴量がシーン間で同じである場合を1、全く異なる場合を0としている。また、実際に算出される類似度は0から1までの任意の値をとるため、シーン間の関係性判定は以下の項目がすべてではない。
<10.本実施形態の効果>
類似度判定の基準となる動画コンテンツに対し、内容がほぼ同じ動画コンテンツだけでなく、シリーズの動画コンテンツ、パロディコンテンツ、アニメ版動画コンテンツなど、特徴の似ている要素を有するコンテンツを広く関連付けることができる。また、複数の動画コンテンツ間のどの部分が似ているかによって、関連動画コンテンツ群をさらに基準となる動画コンテンツとの関係性で分類することができる。
類似度判定の基準となる動画コンテンツに対し、内容がほぼ同じ動画コンテンツだけでなく、シリーズの動画コンテンツ、パロディコンテンツ、アニメ版動画コンテンツなど、特徴の似ている要素を有するコンテンツを広く関連付けることができる。また、複数の動画コンテンツ間のどの部分が似ているかによって、関連動画コンテンツ群をさらに基準となる動画コンテンツとの関係性で分類することができる。
コンテンツ単位だけでなく、シーン単位(任意区間)でも各動画コンテンツ間の類似度や関係性を評価することができる。
動画コンテンツから抽出した特徴量に対しラベリングを行うことで、対象の動画コンテンツに登場した人物の特徴をデータとして保持することができ、それらの特徴量を基に、別の動画コンテンツに登場する人物が誰に似ているか、また、似ている部分を評価することができる。
商用のコンテンツから抽出した特徴量を用いて、動画共有サイトや個人のwebページにアップロードされたコンテンツが著作権を侵害していないかを容易に調べることができる。
抽出された特徴量から人物毎に台詞や動作パターン統計をとることで、対象人物の口癖やしぐさを知ることができる。
データベース106に登録された登場人物の動作パターンや台詞、声紋などを、別途作成した新しいキャラクターに適用する(つけかえる)ことができる。
ものまねをしている人物が模倣対象の人物とどれだけ似ているか、また、どの特徴が似ているかを定量的に評価することができる。
メタデータの付与されていないコンテンツに対し、類似度の高い別の動画コンテンツのメタデータを流用することができる。また、類似度判定の結果をメタデータとして、それぞれの動画コンテンツに付与することができる。
コンテンツから複数の特徴量を独立に抽出することで、各特徴量を利用して、コンテンツやシーンに関連のない登場人物の情報などもwebや類似コンテンツから取得することができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
10 ネットワーク
20 動画像提供装置
30 表示装置
100 情報処理装置
102 中央演算部
104 一時記憶部
106 データベース
112 顔認識用データベース
114 デコーダ/エンコーダ
116 声認識用データベース
122 映像解析部
124 メタデータ解析部
126 音声解析部
20 動画像提供装置
30 表示装置
100 情報処理装置
102 中央演算部
104 一時記憶部
106 データベース
112 顔認識用データベース
114 デコーダ/エンコーダ
116 声認識用データベース
122 映像解析部
124 メタデータ解析部
126 音声解析部
Claims (7)
- 一の動画コンテンツから前記動画コンテンツの特徴を表す情報である複数の特徴量を抽出する特徴量抽出部と、
抽出された前記特徴量を人物又は背景に対応付けるラベリング部と、
対応付けされた前記特徴量と、他の動画コンテンツにおける前記特徴量との一致度を判定する一致度判定部と、
前記特徴量が抽出された前記一の動画コンテンツの一シーンにおける複数の前記特徴量と、前記他の動画コンテンツの一シーンにおける複数の前記特徴量を比較する比較部と、
比較結果によって、前記一の動画コンテンツの一シーンと前記他の動画コンテンツの一シーンの関係性を推測する関係性推測部と
を備える、情報処理装置。 - 前記一致度判定部は、対応付けされた前記特徴量に関して、記憶部に記録された前記他の動画コンテンツにおける前記特徴量との一致度を判定し、
前記比較部は、閾値を用いて、対応付けされた前記特徴量と他の動画コンテンツにおける前記特徴量とが一致すると判断されたとき、前記一の動画コンテンツの一シーンにおける複数の前記特徴量と前記他の動画コンテンツの一シーンにおける複数の前記特徴量を比較する、請求項1に記載の情報処理装置。 - 前記特徴量抽出部は、前記動画コンテンツのシーン毎に複数の特徴量を抽出する、請求項1又は2に記載の情報処理装置。
- 前記特徴量抽出部は、前記動画コンテンツの複数のシーン間で類似する特徴量が得られた場合、前記複数のシーン間の特徴量が類似していることを示すインデックス情報を付与する、請求項3に記載の情報処理装置。
- 前記特徴量抽出部は、前記特徴量として人物の顔を認識して、前記特徴量として前記人物の動体を検出し、
前記ラベリング部は、前記人物ごとに前記顔及び前記動体を対応付けて、対応付けされた前記特徴量を前記人物ごとにひとまとめにする、請求項1〜4のいずれか1項に記載の情報処理装置。 - 特徴量抽出部が、一の動画コンテンツから前記動画コンテンツの特徴を表す情報である複数の特徴量を抽出するステップと、
ラベリング部が、抽出された前記特徴量を人物又は背景に対応付けるステップと、
一致度判定部が、対応付けされた前記特徴量と、他の動画コンテンツにおける前記特徴量との一致度を判定するステップと、
比較部が、前記特徴量が抽出された前記一の動画コンテンツの一シーンにおける複数の前記特徴量と、前記他の動画コンテンツの一シーンにおける複数の前記特徴量を比較するステップと、
関係性推測部が、比較結果によって、前記一の動画コンテンツの一シーンと前記他の動画コンテンツの一シーンの関係性を推測するステップと
を備える、情報処理方法。 - 一の動画コンテンツから前記動画コンテンツの特徴を表す情報である複数の特徴量を抽出する手段、
抽出された前記特徴量を人物又は背景に対応付ける手段、
対応付けされた前記特徴量と、他の動画コンテンツにおける前記特徴量との一致度を判定する手段、
前記特徴量が抽出された前記一の動画コンテンツの一シーンにおける複数の前記特徴量と、前記他の動画コンテンツの一シーンにおける複数の前記特徴量を比較する手段、
比較結果によって、前記一の動画コンテンツの一シーンと前記他の動画コンテンツの一シーンの関係性を推測する手段
としてコンピュータを機能させるためプログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010052919A JP2011188342A (ja) | 2010-03-10 | 2010-03-10 | 情報処理装置、情報処理方法及びプログラム |
| US13/038,625 US8731307B2 (en) | 2010-03-10 | 2011-03-02 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010052919A JP2011188342A (ja) | 2010-03-10 | 2010-03-10 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2011188342A true JP2011188342A (ja) | 2011-09-22 |
Family
ID=44560026
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010052919A Withdrawn JP2011188342A (ja) | 2010-03-10 | 2010-03-10 | 情報処理装置、情報処理方法及びプログラム |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US8731307B2 (ja) |
| JP (1) | JP2011188342A (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015053056A (ja) * | 2013-09-06 | 2015-03-19 | イマージョン コーポレーションImmersion Corporation | 自動遠隔検出およびハプティック変換システム |
| JP2015136050A (ja) * | 2014-01-17 | 2015-07-27 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| JP2016017980A (ja) * | 2014-07-04 | 2016-02-01 | 日本電信電話株式会社 | 声まね音声評価装置、声まね音声評価方法及びプログラム |
| JPWO2017217314A1 (ja) * | 2016-06-13 | 2018-06-21 | 日本電気株式会社 | 応対装置、応対システム、応対方法、及び記録媒体 |
| JP2019527444A (ja) * | 2016-06-27 | 2019-09-26 | フェイスブック,インク. | 一致するコンテンツを特定するためのシステムおよび方法 |
| JP2019191738A (ja) * | 2018-04-20 | 2019-10-31 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
| US11030462B2 (en) | 2016-06-27 | 2021-06-08 | Facebook, Inc. | Systems and methods for storing content |
| JP2021528765A (ja) * | 2018-08-31 | 2021-10-21 | 日本電気株式会社 | 同一人物をグループ化するための方法、システム、およびプログラム |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9025836B2 (en) | 2011-10-28 | 2015-05-05 | Intellectual Ventures Fund 83 Llc | Image recomposition from face detection and facial features |
| US8938100B2 (en) | 2011-10-28 | 2015-01-20 | Intellectual Ventures Fund 83 Llc | Image recomposition from face detection and facial features |
| US9008436B2 (en) | 2011-10-28 | 2015-04-14 | Intellectual Ventures Fund 83 Llc | Image recomposition from face detection and facial features |
| US8811747B2 (en) * | 2011-10-28 | 2014-08-19 | Intellectual Ventures Fund 83 Llc | Image recomposition from face detection and facial features |
| US9025835B2 (en) | 2011-10-28 | 2015-05-05 | Intellectual Ventures Fund 83 Llc | Image recomposition from face detection and facial features |
| WO2013082709A1 (en) * | 2011-12-06 | 2013-06-13 | Aastra Technologies Limited | Collaboration system and method |
| JP2014067333A (ja) * | 2012-09-27 | 2014-04-17 | Sony Corp | 画像処理装置、画像処理方法、およびプログラム |
| JP2014068290A (ja) * | 2012-09-27 | 2014-04-17 | Sony Corp | 画像処理装置、画像処理方法、およびプログラム |
| US10001904B1 (en) | 2013-06-26 | 2018-06-19 | R3 Collaboratives, Inc. | Categorized and tagged video annotation |
| US9201900B2 (en) * | 2013-08-29 | 2015-12-01 | Htc Corporation | Related image searching method and user interface controlling method |
| US20150248918A1 (en) * | 2014-02-28 | 2015-09-03 | United Video Properties, Inc. | Systems and methods for displaying a user selected object as marked based on its context in a program |
| US9996769B2 (en) * | 2016-06-08 | 2018-06-12 | International Business Machines Corporation | Detecting usage of copyrighted video content using object recognition |
| CN107958212A (zh) * | 2017-11-20 | 2018-04-24 | 珠海市魅族科技有限公司 | 一种信息提示方法、装置、计算机装置及计算机可读存储介质 |
| US10299008B1 (en) * | 2017-11-21 | 2019-05-21 | International Business Machines Corporation | Smart closed caption positioning system for video content |
| CN111462758A (zh) * | 2020-03-02 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 智能会议角色分类的方法、装置、设备及存储介质 |
| CN112866800A (zh) * | 2020-12-31 | 2021-05-28 | 四川金熊猫新媒体有限公司 | 视频内容相似性检测方法、装置、设备及存储介质 |
| CN115396627B (zh) * | 2022-08-24 | 2025-02-14 | 易讯科技股份有限公司 | 一种录屏视频会议的定位管理方法及系统 |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3569441B2 (ja) | 1998-04-24 | 2004-09-22 | シャープ株式会社 | 類似番組検索装置、類似番組検索方法および類似番組検索プログラムを記録した媒体 |
| JP3738631B2 (ja) * | 1999-09-27 | 2006-01-25 | 三菱電機株式会社 | 画像検索システムおよび画像検索方法 |
| US7308140B2 (en) * | 2000-05-31 | 2007-12-11 | Samsung Electronics Co., Ltd. | Method and device for measuring similarity between images |
| KR100677096B1 (ko) | 2000-05-31 | 2007-02-05 | 삼성전자주식회사 | 영상의 유사도 평가방법 및 그 장치 |
| JP3711022B2 (ja) | 2000-12-28 | 2005-10-26 | 株式会社東芝 | 動画像内の特定物体認識方法及び装置 |
| EP1496701A4 (en) * | 2002-04-12 | 2009-01-14 | Mitsubishi Electric Corp | METADATA EDITING DEVICE, METADATA REPRODUCTION DEVICE, METADATA DISTRIBUTION DEVICE, METADATA SEARCHING DEVICE, METADATA REPRODUCTION CONDITION SETTING DEVICE, AND METADATA DISTRIBUTION METHOD |
| WO2004061711A1 (en) | 2003-01-06 | 2004-07-22 | Koninklijke Philips Electronics N.V. | Method and apparatus for similar video content hopping |
| JP2006285907A (ja) | 2005-04-05 | 2006-10-19 | Nippon Hoso Kyokai <Nhk> | 指定流通コンテンツ特定装置、指定流通コンテンツ特定プログラムおよび指定流通コンテンツ特定方法 |
| US20080298643A1 (en) * | 2007-05-30 | 2008-12-04 | Lawther Joel S | Composite person model from image collection |
| JP2009070278A (ja) | 2007-09-14 | 2009-04-02 | Toshiba Corp | コンテンツ類似性判定装置およびコンテンツ類似性判定方法 |
| JP5061877B2 (ja) | 2007-12-13 | 2012-10-31 | オムロン株式会社 | 動画像同定装置 |
| JP4760892B2 (ja) * | 2008-10-10 | 2011-08-31 | ソニー株式会社 | 表示制御装置、表示制御方法及びプログラム |
-
2010
- 2010-03-10 JP JP2010052919A patent/JP2011188342A/ja not_active Withdrawn
-
2011
- 2011-03-02 US US13/038,625 patent/US8731307B2/en not_active Expired - Fee Related
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10416774B2 (en) | 2013-09-06 | 2019-09-17 | Immersion Corporation | Automatic remote sensing and haptic conversion system |
| JP2015053056A (ja) * | 2013-09-06 | 2015-03-19 | イマージョン コーポレーションImmersion Corporation | 自動遠隔検出およびハプティック変換システム |
| JP2015136050A (ja) * | 2014-01-17 | 2015-07-27 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| JP2016017980A (ja) * | 2014-07-04 | 2016-02-01 | 日本電信電話株式会社 | 声まね音声評価装置、声まね音声評価方法及びプログラム |
| US11430207B2 (en) | 2016-06-13 | 2022-08-30 | Nec Corporation | Reception apparatus, reception system, reception method and storage medium |
| JPWO2017217314A1 (ja) * | 2016-06-13 | 2018-06-21 | 日本電気株式会社 | 応対装置、応対システム、応対方法、及び記録媒体 |
| US11850728B2 (en) | 2016-06-13 | 2023-12-26 | Nec Corporation | Reception apparatus, reception system, reception method, and storage medium |
| US11514663B2 (en) | 2016-06-13 | 2022-11-29 | Nec Corporation | Reception apparatus, reception system, reception method, and storage medium |
| JP2019527444A (ja) * | 2016-06-27 | 2019-09-26 | フェイスブック,インク. | 一致するコンテンツを特定するためのシステムおよび方法 |
| US11030462B2 (en) | 2016-06-27 | 2021-06-08 | Facebook, Inc. | Systems and methods for storing content |
| JP2019191738A (ja) * | 2018-04-20 | 2019-10-31 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
| JP7143620B2 (ja) | 2018-04-20 | 2022-09-29 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置およびプログラム |
| US11386658B2 (en) | 2018-04-20 | 2022-07-12 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
| JP7111188B2 (ja) | 2018-08-31 | 2022-08-02 | 日本電気株式会社 | 同一人物をグループ化するための方法、システム、およびプログラム |
| JP2021528765A (ja) * | 2018-08-31 | 2021-10-21 | 日本電気株式会社 | 同一人物をグループ化するための方法、システム、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20110222782A1 (en) | 2011-09-15 |
| US8731307B2 (en) | 2014-05-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2011188342A (ja) | 情報処理装置、情報処理方法及びプログラム | |
| CN101650722B (zh) | 基于音视频融合的足球视频精彩事件检测方法 | |
| Merler et al. | Automatic curation of sports highlights using multimodal excitement features | |
| CN102427507A (zh) | 一种基于事件模型的足球视频集锦自动合成方法 | |
| US8558952B2 (en) | Image-sound segment corresponding apparatus, method and program | |
| US9009054B2 (en) | Program endpoint time detection apparatus and method, and program information retrieval system | |
| CN103761261B (zh) | 一种基于语音识别的媒体搜索方法及装置 | |
| CN109922373A (zh) | 视频处理方法、装置及存储介质 | |
| US20100005485A1 (en) | Annotation of video footage and personalised video generation | |
| CN103200463A (zh) | 一种视频摘要生成方法和装置 | |
| Xu et al. | An HMM-based framework for video semantic analysis | |
| CN106462609A (zh) | 用于呈现与媒体内容相关的音乐项的方法、系统和介质 | |
| Merler et al. | The excitement of sports: Automatic highlights using audio/visual cues | |
| CN101243448A (zh) | 影像场面分类装置及影像场面分类方法 | |
| CN107247919A (zh) | 一种视频情感内容的获取方法及系统 | |
| Merler et al. | Automatic curation of golf highlights using multimodal excitement features | |
| Liu et al. | Multimodal semantic analysis and annotation for basketball video | |
| Ekenel et al. | Content-based video genre classification using multiple cues | |
| Ren et al. | Football video segmentation based on video production strategy | |
| CN119418241A (zh) | 基于汽车领域高光视频的提取系统及方法 | |
| Adami et al. | Overview of multimodal techniques for the characterization of sport programs | |
| Choroś | Video structure analysis for content-based indexing and categorisation of TV sports news | |
| Zhao et al. | Highlight summarization in soccer video based on goalmouth detection | |
| Xing et al. | A scheme for racquet sports video analysis with the combination of audio-visual information | |
| Wang et al. | Semantic and structural analysis of TV diving programs |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130604 |