JP2011188342A

JP2011188342A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2011188342A
Application number: JP2010052919A
Authority: JP
Inventors: Akifumi Kashiwagi; 暁史柏木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-10
Filing date: 2010-03-10
Publication date: 2011-09-22
Also published as: US20110222782A1; US8731307B2

Abstract

【課題】特徴の類似したコンテンツを広く柔軟に探し出すことが可能な情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出する特徴量抽出部と、抽出された特徴量を人物又は背景に対応付けるラベリング部と、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定する一致度判定部と、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較する比較部と、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測する関係性推測部とを備える。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、ネットワーク分野において、データ伝送の高速化や大容量化が進行している。その結果の一つとして、ネットワーク上に多くの動画コンテンツが、不特定多数のユーザーの入手しやすい場所に出回るようになった。また、動画共有サイトを通じて、多くのユーザーが手元の動画コンテンツをアップロードし、他者と共有している。動画のような大容量コンテンツが簡単に共有できるようになった一方で、我々が目にするコンテンツの数が膨大になり、その中から自身の嗜好性に合うコンテンツを発見したり、アップロードされたコンテンツが違法でないかを判断したりするのが困難な状況になった。

これらを解決する方法として、ユーザーの視聴している動画コンテンツや既存の商用コンテンツを入力として、それに類似のコンテンツを出力するシステムの導入が考えられる。上記のようなシステムを利用することで、別のコンテンツの推薦やアップロードコンテンツの違法性の判断を自動化することができ、膨大なコンテンツを人の労力で処理する必要がなくなる。

現在、動画コンテンツの類似度判定に関する発明は、以下のようなものが開示されている。例えば、動画コンテンツの「映像部分」から得られる情報を利用して動画像間の類似度をはかる手法として、特許文献１〜５がある。

特開２００２−２０３２４５号公報（特許第３７１１０２２号公報）特開２００６−２８５９０７号公報特開２００９−１４７６０３号公報特表２００６−５１４４５１号公報特開２００２−３２７６１号公報（特許第３６３６６７４号公報）特開２００９−７０２７８号公報特開平１１−３０８５８１号公報（特許第３５６９４４１号公報）

これらは、動体識別や輝度測定手段を用いて、動画コンテンツの「映像部分」から得られる特徴量を基に複数のコンテンツ間の類似度を測定する。しかし、これらは映像部分の類似性を判断するのみであるため、基本的に映像部分の内容がほぼ同じコンテンツ間の類似度判定にしか利用できない。

また、特許文献４においては、映像の遷移や様相の似たコンテンツをユーザーに推薦するが、テニスなどのスポーツシーンのように、カメラ固定で撮影し、かつ映像部分に明らかなパターンが存在する場合に特化したコンテンツ推薦システムといえる。そのため、すべてのコンテンツにおいて同等のコンテンツ推薦効果が得られるとは考え難い。

これに加えて、上記すべての手法は、コンテンツの「内容」をまったく参照しないため、パロディコンテンツのように「内容」が似ていても映像の様相が異なるコンテンツの推薦や、映像部分は異なるが「音声部分」のみに商用コンテンツを無断で利用した違法コンテンツの発見には向かない。

その他の手法としては、「コメント」を利用して動画像間の類似度を測定する特許文献６や、番組に付随する「番組案内のテキスト」内を検索して類似度をはかる特許文献７がある。

特許文献６は、各コンテンツに付随するコメントの内容から、特徴語と称される単語を抽出し、得られた特徴語群の分布を比較することで、動画コンテンツ間の類似度を測定する。これは、対象となるすべてのコンテンツが少なくとも複数のシーンに対し複数のコメントを付与されていることが前提となっている。そのため、類似コンテンツの特定の可否や精度は、対象のコンテンツに付与されたコメントの数に依存する。また、コメント内には望ましい特徴語が高確率で含まれていることを想定しているが、コメントの内容は基本的にユーザーが自由に決められるものであり、望ましい特徴語が含まれる保証はない。一方で、ユーザーが投稿するコメントに制約を設けるのも現実的ではない。

特許文献７は、番組に付随する番組案内情報を利用し、ユーザーが視聴中の番組に対し、ユーザーが視聴可能でかつ番組案内の付与された番組群の類似度を測定し、類似度の高い番組を推薦する。本手法は、番組に付随する内容を基にコンテンツを推薦する。しかし、番組案内はあくまで各々のコンテンツを提供する側で用意した番組の要約である。また、特許文献６と同様に、記述方法に制約がないという理由から、発見可能なコンテンツ数は非常に限られたものとなり、結果として豊富なコンテンツを十分に活かした推薦を実現することは困難であると考えられる。また、番組内容と番組は基本的に１対１の関係にあるため、本手法ではシーン単位でのコンテンツ間類似度判定は不可能である。

本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、特徴の類似したコンテンツを広く柔軟に探し出すことが可能な、新規かつ改良された情報処理装置、情報処理方法及びプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出する特徴量抽出部と、抽出された特徴量を人物又は背景に対応付けるラベリング部と、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定する一致度判定部と、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較する比較部と、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測する関係性推測部とを備える、情報処理装置が提供される。

上記一致度判定部は、対応付けされた特徴量に関して、記憶部に記録された他の動画コンテンツにおける特徴量との一致度を判定し、比較部は、閾値を用いて、対応付けされた特徴量と他の動画コンテンツにおける特徴量とが一致すると判断されたとき、一の動画コンテンツの一シーンにおける複数の特徴量と他の動画コンテンツの一シーンにおける複数の特徴量を比較してもよい。

上記特徴量抽出部は、動画コンテンツのシーン毎に複数の特徴量を抽出してもよい。

上記特徴量抽出部は、動画コンテンツの複数のシーン間で類似する特徴量が得られた場合、複数のシーン間の特徴量が類似していることを示すインデックス情報を付与してもよい。

上記特徴量抽出部は、特徴量として人物の顔を認識して、特徴量として人物の動体を検出し、ラベリング部は、人物ごとに顔及び動体を対応付けて、対応付けされた特徴量を人物ごとにひとまとめにしてもよい。

また、上記課題を解決するために、本発明の別の観点によれば、特徴量抽出部が、一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出するステップと、ラベリング部が、抽出された特徴量を人物又は背景に対応付けるステップと、一致度判定部が、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定するステップと、比較部が、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較するステップと、関係性推測部が、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測するステップとを備える、情報処理方法が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、一の動画コンテンツから動画コンテンツの特徴を表す情報である複数の特徴量を抽出する手段、抽出された特徴量を人物又は背景に対応付ける手段、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定する手段、特徴量が抽出された一の動画コンテンツの一シーンにおける複数の特徴量と、他の動画コンテンツの一シーンにおける複数の特徴量を比較する手段、比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測する手段としてコンピュータを機能させるためプログラムが提供される。

以上説明したように本発明によれば、特徴の類似したコンテンツを広く柔軟に探し出すことができる。

本発明の一実施形態に係る情報処理装置１００の処理概要を示す説明図である。同実施形態に係る情報処理装置１００を含む情報処理システムを示すブロック図である。同実施形態に係る情報処理装置１００の処理動作を示すフローチャートである。検出された顔の特徴である高周波成分と顔の色構成の一例を示す説明図である。しぐさ・動作パターンの検出の一例を示す説明図である。動画コンテンツのテーマ曲（テーマＢＧＭ）の抽出を示す説明図である。特徴量のラベリング処理を示すフローチャートである。発話者と発話内容との対応付けについて示す説明図である。動画コンテンツのタイムラインと抽出する特徴量の関係を示す説明図である。各特徴量の類似度判定方法を示す説明図である。三つのカテゴリに分類される特徴量群を示す表である。類似度の組み合わせとシーン間の関係性を示す表である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．情報処理装置１００の処理の概要
２．本実施形態の情報処理システム
３．各処理のフロー
４．動画コンテンツから抽出する特徴量の種類とその抽出方法
５．特徴量のラベリング
６．発話者と発話内容との対応付け
７．特徴量の保存と類似度判定方法
８．動画コンテンツ間の関係性推測方法
９．各特徴量の類似度判定方法
１０．本実施形態の効果

＜１．情報処理装置１００の処理の概要＞
本実施形態は、対象となる動画コンテンツの映像や音声などから様々な特徴量を抽出し、それを基に、特徴の類似したコンテンツやシーンを従来よりも柔軟な方法で探し出し提示する手法を提供する。これにより、例えば、オリジナルコンテンツとパロディコンテンツ同士との関連付けをしたり、ユーザーが視聴しているアニメ動画からその実写の動画コンテンツを推薦したりすることができる。

また、本実施形態は、動画コンテンツから得られる特徴量を、登場人物（キャラクター）毎にまとめることができ、データベース１０６に登録することもできる。そして、データベース１０６を用いて、未知のコンテンツに対する登場人物の判別や、登場人物を利用したコンテンツ同士の関連付けも可能となる。

本実施形態は、特徴量として、例えば、登場人物の顔の情報（高周波成分、肌の色構成等）と、音声情報（登場人物の声紋、ＢＧＭ等）と、字幕情報と、しぐさ（時間軸方向の動作変化パターン）などを動画コンテンツから抽出し利用する。

本実施形態は、主に以下の処理を行う。
１．動画コンテンツのすべてのシーンから上記の特徴量を抽出し、それらの特徴量がどの登場人物又は背景に帰属するかを判断し、ラベリングを行う。
２．１の処理の後、それぞれラベリングされた特徴量が、既にデータベース１０６に登録されている別の動画コンテンツの特徴量と一致又は似ていると判断された場合、判断の起因となったシーンにおける類似度を、特徴量毎に判定する。
３．２における類似度判定の結果に従い、二つの動画コンテンツ間の総合的な類似度を算出すると同時に、対象となる二つの動画コンテンツの関係性を推測する。

図１を参照して、本実施形態における処理の流れを説明する。図１は、本実施形態に係る情報処理装置１００の処理概要を示す説明図である。

本実施形態では、まず、対象となる動画コンテンツから、予め決定された特徴量を抽出する。例えば、図１（Ａ）に示すように、動画Ａから特徴量１〜３を抽出する。そして、抽出された各々の特徴量に対し、それがどの登場人物又は背景に帰属する特徴量であるかを判断して、ラベリングを行う。

続いて、ラベリングされた特徴量が、データベース１０６に存在する別の動画コンテンツが所有する特徴量と似ているかを検証する。例えば、図１（Ａ）に示すように、動画Ａの特徴量１が動画Ｂの特徴量１と類似しているかを検証する。

対象の特徴量と一致又は似ている特徴量がデータベース１０６上に存在している場合、類似度判定の起因となったシーン間について、すべての特徴量に対し類似度を判定する。例えば、図１（Ｂ）に示すように、動画ＡのシーンＡと動画ＢのシーンＢ間について、特徴量１以外の特徴量２，３に対し類似度を判定する。類似度判定の結果、シーンＡとシーンＢ間の関係性が得られる（図１（Ｃ））。

そして、各特徴量の類似度の判定結果を基に、対象となる二つの動画コンテンツ間の類似度を総合的に判断する。また、同時に、特徴量毎の類似度を参考に二つの動画コンテンツの関係性について推測する（図１（Ｄ））。

以降では、本実施形態の情報処理システム、各処理のフロー、動画コンテンツから抽出する特徴量の種類とその抽出方法、特徴量の類似度判定方法、動画コンテンツ間の関係性推測方法について説明する。

＜２．本実施形態の情報処理システム＞
本実施形態に係る情報処理装置１００を含む情報処理システムを図２に示す。図２は、本実施形態に係る情報処理装置１００を含む情報処理システムを示すブロック図である。

本実施形態に係る情報処理装置１００は、中央演算部１０２と、一時記憶部１０４と、データベース（記憶装置）１０６と、顔認識用データベース１１２と、デコーダ／エンコーダ１１４と、声認識用データベース１１６と、映像解析部１２２と、メタデータ解析部１２４と、音声解析部１２６等で構成された装置を有する。また、本装置は、家庭内録画機器内に組み込まれた形でも使用される。

当装置は、動画共有サイトや家庭内録画機器、テレビ番組放送局などの動画像提供装置２０から動画コンテンツを受け取り、必要に応じて動画ストリームのデコード／エンコードを行った後、映像部分と音声部分とメタデータ部分に分解する。

映像解析部１２２と、音声解析部１２６と、メタデータ解析部１２４は分解されたストリームを適宜受け取り、動画コンテンツのもつ特徴量を抽出する。

中央演算部１０２は抽出された特徴量を受け取り、一時記憶部１０４に蓄積されるかあるいはデータベース１０６に格納するための処理を施す。中央演算部１０２は、一時記憶部１０４に蓄積された特徴量の統計情報や、データベース１０６に格納する処理を行った結果得られた情報を、表示装置３０を通じて出力する。また、中央演算部１０２は、必要に応じてネットワーク１０から特徴量に関する情報を取得できる環境を有する。

＜３．各処理のフロー＞
本実施形態の処理フローを図３に示す。図３は、本実施形態に係る情報処理装置１００の処理動作を示すフローチャートである。
まず、動画コンテンツを読み込む（ステップＳ１１）。そして、読み込んだ動画コンテンツから、すべてのシーンにおけるコンテンツの特徴を表す情報（特徴量）を抽出する（ステップＳ１２）。特徴量抽出は、図２に示した映像解析部１２２と、音声解析部１２６と、メタデータ解析部１２４によって行われる。映像解析部１２２と、音声解析部１２６と、メタデータ解析部１２４は、特徴量抽出部の一例である。図９に、動画コンテンツのタイムラインと抽出する特徴量の関係を示す。

映像解析部１２２は、一般的な顔認識機能と動体認識機能を有し、主に顔の高周波成分、顔の色と分布、動作、顔認識によって特定された人物、また必要に応じて体の色と分布を抽出する。顔認識用データベース１１２は、事前に作成された辞書を有しているものとし、顔認識による人物の特定に使用される。

音声解析部１２６は、音声情報（周波数特性）抽出機能を有し、動画コンテンツの音声情報から、主に人物の声紋（周波数分布）、音量、周波数分布が急激に変化する区間を抽出する。音声情報（周波数特性）抽出機能は、例えば特願２００９−２７８１８０号明細書に記載の技術を利用できる。また、音声解析部１２６が、発話認識（音声認識）機能を有する場合、発話内容も特徴量として抽出する。声認識用データベース１１６は、事前に作成された辞書を有しているものとし、音声情報抽出による人物の特定に使用される。

メタデータ解析部１２４は、動画コンテンツに付随するメタデータから、主に字幕情報を抽出する。得られたメタデータにコンテンツのタイトルが含まれている場合、必要に応じてタイトルも特徴量として抽出する。また、得られたメタデータに登場人物の名前が含まれている場合、メタデータ解析部１２４は、必要に応じて中央演算部１０２を通じ、登場人物の名前を基にネットワーク１０上の顔画像を参照して、顔認識用データベース１１２に対象人物の顔の構成情報を登録する。

次に、中央演算部１０２のラベリング部が、抽出された特徴量がどの人物に帰属するか、又はどの人物にも帰属しない情報であるかを特定する（ステップＳ１３）。当プロセスにおける特徴量ラベリングの方法については後述する。

続いて、中央演算部１０２の一致度判定部が、ラベリングした各シーンの特徴量群に関して、値の近いデータがデータベース１０６上に存在しているかを確認する（ステップＳ１４）。ここでデータベース１０６上にあるデータは、以前に同様の処理を行い、データベース１０６に登録された、別の動画コンテンツが持つ特徴量である。

検証の結果、対象の特徴量に近いデータがデータベース１０６に発見された場合（ステップＳ１５）、中央演算部１０２の比較部が、対象の特徴量をもつ二つの動画コンテンツに対し、互いの特徴量を比較する（ステップＳ１６）。比較は、特徴量が近いと判断されたシーンに含まれるすべての特徴量間で行う。

比較の結果から、各特徴量の類似度を基に、中央演算部１０２の関係性推測部が、二つの動画コンテンツの関係性を推測する（ステップＳ１７）。

一方で、対象の特徴量に近いデータがデータベース１０６上に一つも存在しない場合は、動画コンテンツの比較処理及び関係性推測処理を行わない。

最後に、対象の特徴量をデータベース１０６に新規登録し、処理を終了する（ステップＳ１８）。ただし、登録する特徴量に近いデータがデータベース１０６上に発見された場合のみ、対象の特徴量ならびに近いデータをもつ特徴量の登録内容に対し、二つの特徴量が所属するシーンならびにコンテンツの関係性の情報を追加する。

また、補足として、ステップＳ１２において、ある動画コンテンツから特徴量群を抽出した際に、対象コンテンツの複数のシーン間で似た特徴量が得られた場合、それらが似ていることを示すインデックス情報を付与しておくことで、データベース１０６上のデータと、新規に抽出した特徴量との比較における検索回数を削減することができ、結果として処理時間を減らすことができる。

＜４．動画コンテンツから抽出する特徴量の種類とその抽出方法＞
動画コンテンツから抽出する特徴量の種類と抽出方法を以下に示す。
（映像解析部１２２）
図４は、検出された顔の特徴である高周波成分と顔の色構成の一例を示す説明図である。図４（Ａ）は、動画コンテンツ内の顔の一例を示す。
映像解析部１２２は、図４（Ｂ），図４（Ｆ）に示すように、顔認識機能として、フーリエ変換により顔の輪郭（高周波）成分を抽出する。また、映像解析部１２２は、図４（Ｃ）〜（Ｅ）及び図４（Ｇ）に示すように、検出された顔の色の構成比を、顔の面積に対する割合として算出する。そして、特徴量抽出処理によって得られる図４に示すような顔の輪郭や色構成の情報を利用して、顔認識処理することができる。更に映像解析部１２２は、動体認識機能として、動画コンテンツから動体を検出する。図５は、しぐさ・動作パターンの検出の一例を示す説明図である。そして、映像解析部１２２は、顔認識と動体検出の結果から、顔と動体を関連づけて、一連のシーンにおける対象の動作変化を記録する。

（音声解析部１２６）
音声解析部１２６は、動画コンテンツから声紋を検出する。また、音声解析部１２６は、検出された顔の口元の動きから、対象人物の声情報を背景音と分離し、取得する。更に、音声解析部１２６は、発話内容を抽出する。音声解析部１２６は、発話認識により、対象人物の発言内容（台詞）を抽出する。また、音声解析部１２６は、図６に示すように、動画コンテンツからＢＧＭを検出する。図６は、動画コンテンツのテーマ曲（テーマＢＧＭ）の抽出を示す説明図である。音声解析部１２６は、例えば、人物登場シーン、音量、周波数成分の急激な変化を参考に背景音を分離する。

（メタデータ解析部１２４）
メタデータ解析部１２４は、動画コンテンツのメタデータに字幕が含まれる場合、動画コンテンツから字幕を抽出する。

＜５．特徴量のラベリング＞
次に、特徴量のラベリング処理について説明する。図７は、特徴量のラベリング処理を示すフローチャートである。
まず、映像解析部１２２によって得られた顔認識済みのシーンについて、検出された人物の人物名で顔検出されたシーンをラベリングする（ステップＳ２１）。ラベル名は、正式な人物名でなくとも、特定の人物を指す固有の識別子であればどのようなものでもかまわない。

次に、検出された顔を用いて動体検出を行うことにより得られた人物の動作変化パターンに、対象の顔についているのと同じ人物名でラベルを付与する（ステップＳ２２）。

さらに、上記の顔ならびに動体が検出されたシーンにおける音声情報について、音声解析部１２６にて得られた声紋が、当シーンにおける顔や動体に付与されたラベルの人物のものであるかを検証する（ステップＳ２３）。ここで、声紋の認識には、例えば特願２００９−２７８１８０号記載の手法を利用する。

検証の結果、対象のシーンにて得られた声紋がラベルの示す人物と一致した場合（ステップＳ２４）、声紋に当ラベルを付与する（ステップＳ２６）。一方、対象の声紋が別の人物のものであると認識された場合（ステップＳ２４）、これに背景音のラベルを付与し、今後処理の対象外とする（ステップＳ２５）。これにより、以降の類似度判定処理の処理量を削減できる。

なお、特願２００９−２７８１８０号記載の声紋認識を利用すれば、上記のように音声情報のみからどの人物の声であるかを特定することができる。しかし、本実施形態では、登場人物を基準として、動画コンテンツを対象として特徴量を収集することに重きを置く。そのため、映像がない音声のみの情報については、対象の人物の特徴を抽出するものとして不十分であると判断し、これを利用しないものとする。

また、図６のようにしてＢＧＭが検出された場合、これを特徴量として声紋と同様にラベリングを行い、類似度判定に利用することができる。

続いて、声紋と同様に、対象のシーンにおいて、音声解析部１２６の発話認識又はメタデータ解析部１２４の字幕情報から得られた発話内容が、ラベリングされた人物のものであるかを検証する（ステップＳ２７）。発話内容に関しては、音声解析部１２６の発話認識を利用する場合、声紋認識によって声紋も同時に抽出できるため、声紋から人物を特定できれば、その発話内容がどの人物のものであるかを容易に特定できる。

一方、字幕情報からの発話内容に関しても、字幕情報に付随する発話時間と映像解析部１２２における顔認識を利用して、口元の動きが検出されたシーンの時間とを照合することで、どの人物の発話であるかを特定できる。発話者と発話内容との対応付けの方法については後述する。

検証の結果、発話内容が対象の人物のものであると認識された場合（ステップＳ２８）、この発話内容に当ラベルを付与する（ステップＳ３０）。逆に、別の人物の発話内容であると認識された場合は背景音のラベルを付与し、今後処理の対象としない（ステップＳ２９）。以上をもって特徴量ラベリングの処理を終了する。

＜６．発話者と発話内容との対応付け＞
発話者と発話内容との対応付けについて図８を用いて説明する。図８は、発話者と発話内容との対応付けについて示す説明図である。

まず、映像解析部１２２において顔認識機能により、各シーンにおける登場人物を検出し特定する。次に、対象シーン内において、口元が動くシーンをさらに検出し、マークをつける。

一方、メタデータ解析部１２４において得られた字幕情報から、発話内容が付随した時間情報を基に各シーンへ割り当てる。ここで、映像解析部１２２で口元の動きを検出したシーンと、割り当てられた字幕情報とを時間軸ですり合わせる。これにより、どの発話内容をどの人物が話したかを特定できる。

＜７．特徴量の保存と類似度判定方法＞
特徴量の保存は以下のデータをもって行う。
（一時記憶部１０４への特徴量の保存）
・特徴量タイプ
・特徴量の値
・ラベル
・シーン開始時間
・シーン終了時間
・インデックス番号
（特徴量保存用データベース１０６）
・特徴量タイプ
・特徴量の値
・ラベル
・シーン開始時間
・シーン終了時間
・対象動画コンテンツのＩＤ番号
（動画コンテンツ／シーン間関係性保存用データベース１０６）
・対象動画コンテンツ１のＩＤ番号
・対象動画コンテンツ１のシーン開始時間
・対象動画コンテンツ１のシーン終了時間
・対象動画コンテンツ２のＩＤ番号
・対象動画コンテンツ２のシーン開始時間
・対象動画コンテンツ２のシーン終了時間
・コンテンツ／シーンフラグ
・関係性タイプ

各特徴量と一致するデータ、又は閾値を利用した結果から似ていると判断されるデータがデータベース１０６上に存在している場合、対象の特徴量が存在するシーン間において、すべての特徴量の類似度を測定する。これらをもって、対象となる二つの動画コンテンツ間またはシーン間の関係性を決定する。

次に、類似度の算出について説明する。
（映像の類似度）
顔・・・検出された顔の輪郭・色の構成比から、シーン間での登場人物の顔の類似度を判定する。
動作・・・時間軸方向の姿勢変化から、シーン間での登場人物の動作の類似度を判定する。
（音声の類似度）
声紋・・・音声の周波数分布から、シーン間での登場人物の声の類似度を判定する。
ＢＧＭ・・・一定時間に流れる音声情報から、シーン間での登場人物のＢＧＭの類似度を判定する。
（内容の類似度）
台詞・・・声紋と字幕や発言内容から、シーン間での登場人物の台詞の類似度を判定する。

＜８．動画コンテンツ間の関係性推測方法＞
二つの動画コンテンツがどの特徴に対し、どれだけ似ているかを上記の特徴量比較によって行うことで、以下のような関係性の分類が可能になる。
・比較する特徴量と類似度
（１）顔が同じである。または似ている。
（２）動作パターンが同じである。または似ている。
（３）声紋が同じである。または似ている。
（４）台詞が同じである。または似ている。

これらの特徴量に対し、両者間の類似度が０（ゼロ）以下すなわち似ていないか、又は事前に設定した閾値よりも大きい値をとるか否かで以下のような評価が行える。
・類似度と評価
（１）類似度が０（ゼロ）以下である場合 → 別人物の可能性。
（２）類似度が閾値以上の場合 → 同一人物である可能性。
（３）類似度が閾値以下の場合 → ものまねなど別人物や変形したものの可能性。

また、各シーンについてすべての特徴間の類似度を総合的に見て、両者間の関係性を判断する。
・類似度の結果と両者の関係性判断
（１）上記すべての特徴量において、類似度が閾値よりも高い場合 → 二つの動画コンテンツは同じ内容。
（２）一定人数以上の顔と声紋において、類似度が閾値よりも高い場合 → 二つの動画コンテンツはシリーズ。
（３）一人ないし一定人数以下の顔と声紋において、類似度が閾値よりも高い場合 → 二つの動画コンテンツは、登場人物が共通する別の番組。
（４）顔と声紋間の類似度が閾値よりも低く、動作パターンや台詞の類似度が閾値よりも高いシーンが存在する場合 → ものまねをした別人物が登場するパロディコンテンツ。
（５）すべての特徴量において、類似度が閾値よりも低い場合 → 関係性のない番組。

また、上記判断は、どれだけのシーンにおいて高い類似度が得られたかの統計をとることによって、関係性が二つの動画コンテンツ全体において成立するか、又は特定のシーン間でのみ成立するものかを評価できる。

動画コンテンツ間の関係性を推測する際、同じ顔（人物）が映っているシーン毎に処理してもよいが、顔認識ならびにそれに付随する動体検出によって、登場人物が現れるシーンのみを処理対象としたほうがよい。

これによって、各動画コンテンツにおいて、登場人物ごとに各特徴量にラベリング(インデキシング)を行うことができる。その結果、人物の特徴量をひとまとめにすることができ、事前に情報の重要度決めや取捨選択が行える。また、処理の高速化を図ることができる。

一方、顔の特徴量を優先させると、二つのシーンについて、同じシリーズか、同じ人物が登場する別のコンテンツかは分類できる。しかし、顔の特徴量を優先させると、顔以外の特徴量が同じで、顔が異なるコンテンツの関係性を見出せなくなる。たとえば、台詞や声が同じだが顔が違う場合、顔の特徴量を優先させた処理では類似度を判定できない。しかし、台詞や声が同じだが顔が違う場合、実際は異なる人物がしぐさ等を「まねをしている」という関係性があると推定される。そのため、動画コンテンツ間の関係性を推測する際、顔認識の結果、すなわちラベルが一致するシーン毎の処理に分けるのは望ましくないと判断される。

＜９．各特徴量の類似度判定方法＞
各特徴量の類似度判定方法について図１０の流れに則して説明する。図１０は、各特徴量の類似度判定方法を示す説明図である。

まず、図１０中（１）において、処理対象となる動画Ａ内のシーンａよりシーン内の特徴量を抽出し、データベース１０６に渡す。ここで、処理対象となるシーンは、一般的な顔検出手法によって顔が検出されたシーンとする。

また、各シーンから抽出される特徴量として、対象人物の顔情報、しぐさ（シーン内動作パターン）、対象顔の声紋、シーン内ＢＧＭ（対象人物の声を除いたシーンの背景音）、台詞（字幕情報）の五つが例として挙げられる。なお、特徴量は、必ずしもこの五つに限定されるわけではなく、他の特徴量を使用することもできる。

抽出された特徴量は、本システムによってデータベース１０６に登録される（図１０中（２））。また同時に、抽出された特徴量は、既にデータベース１０６に登録されている他の動画（シーン）から抽出された特徴量との類似度が計算される（図１０中（３））。

各特徴量の類似度判定の基準と計算式を以下に示す。以下では、類似度判定対象となる二つのシーンをそれぞれＡ、Ｂとする。また、計算式から算出される類似度は０から１の値をとり、０から１のうち値が大きいほど類似度が高いものとして説明する。

（顔の類似度判定）
顔の類似度判定は、顔の輪郭ならびに色彩情報を比較する。
シーン間の顔比較は、まず、双方の顔のサイズが同じになるようにリサイズを行う。例えば、シーンＡ、Ｂそれぞれのシーンにおける検出顔のサイズをＦ_ｓ（Ａ）、Ｆ_ｓ（Ｂ）とした場合、リサイズの倍率ｒは、以下の数式１で表される。

ｒ＝Ｆ_ｓ（Ｂ）／Ｆ_ｓ（Ａ） ……（数式１）

ここで、リサイズは、顔の変形を防ぐために縦横ともに同じ倍率にて行うものとする。

続いて、両者の顔の輪郭ならびに色彩の類似度を比較する。
ここで、２次元平面をｘ，ｙで表す。また、シーンＡ、Ｂそれぞれにおける顔の２次元の輪郭情報をＦ_ｌ（Ａ（ｘ，ｙ））、Ｆ_ｌ（Ｂ（ｘ，ｙ））で表し、２次元の色彩情報をＦ_ｃ（Ａ（ｘ，ｙ））、Ｆ_ｃ（Ｂ（ｘ，ｙ））で表す。更に、それぞれの比較結果の荷重をｕとすると、シーンＡＢ間における顔の類似度ＲＦ（Ａ，Ｂ）は以下の数式２のように表される。

ＲＦ（Ａ，Ｂ）＝ｕΣ_ｘ，ｙ［１−｛Ｆ_ｌ（Ａ（ｘ，ｙ））−Ｆ_ｌ（Ｂ（ｘ，ｙ））｝］／（Ｌ＿ＭＡＸ×Ｆ_ｓ（Ｂ））＋（１−ｕ）Σ_ｘ，ｙ［１−｛Ｆ_ｃ（Ａ（ｘ，ｙ））−Ｆ_ｃ（Ｂ（ｘ，ｙ））｝］／（Ｃ＿ＭＡＸ×Ｆ_ｓ（Ｂ）） ……（数式２）

ここで、Ｌ＿ＭＡＸならびにＣ＿ＭＡＸは、それぞれ輪郭情報と色彩情報の最大値を表す。

（声紋の類似度判定）
声紋の類似度判定は、声の周波数分布を比較する。
周波数をｆとし、シーンＡ、Ｂにおける対象人物の声紋、すなわち周波数分布をＶ_ＦＡ（ｆ）、Ｖ_ＦＢ（ｆ）とすると、ＡＢ間における声紋の類似度Ｒ_Ｖ（Ａ，Ｂ）は以下の数式３のように表される。

Ｒ_Ｖ（Ａ，Ｂ）＝Σ_ｆ｛Ｖ_ＦＡ（ｆ）―Ｖ_ＦＢ（ｆ）｝／（Ｆ＿ＭＡＸ×Ｄ＿ＭＡＸ） ……（数式３）

ここで、Ｆ＿ＭＡＸならびにＤ＿ＭＡＸは、周波数最大値ならびに音響を正規化するための値を表す。

（しぐさの類似度判定）
しぐさの類似度判定は、既存の動体検出手法によって、動体の端点位置（頭と両手足）を五つ検出し、シーン内における各端点の移動軌跡を測定し比較する。
時間をｔ、端点番号をｎとし、端点の位置をｐ（ｔ，ｎ）とすると、ある時点ｔ_０から別の時点ｔ_１までの端点ｎ_０の移動ベクトルは（ｐ（ｔ_１，ｎ_０）−ｐ（ｔ_０，ｎ_０））で表される。

ここで、端点の初期位置は顔が正面を向いており、かつ両眼の中線が水平方向に対し垂直になっている状態を基準とする。そのため、検出された顔の水平ならびに垂直方向への傾きを参考に、対象人物の姿勢を推定し、端点位置を３次元で求めることができる。

次に、シーンＡ、Ｂにおいて求められた端点移動ベクトルの類似度を比較する。時間ｔにおけるシーンＡ、Ｂの端点ｎがもつ移動ベクトルをｖ_Ａ（ｔ，ｎ）、ｖ_Ｂ（ｔ，ｎ）とすると、ＡＢ間のしぐさの類似度Ｒ_Ｍ（Ａ，Ｂ）は以下の数式４のように表される。

Ｒ_Ｍ（Ａ，Ｂ）＝１−Σ_ｔ，ｎ｜｛（ｖ_Ａ（ｔ，ｎ）−ｖ_Ｂ（ｔ，ｎ））／（｜ｖ_Ａ（ｔ，ｎ）｜｜ｖ_Ｂ（ｔ，ｎ））｜｝｜／（ＤＩＭ×Ｔ＿ＭＡＸ×Ｎ＿ＭＡＸ） ……（数式４）

ここで、ＤＩＭは次元数を表し、Ｔ＿ＭＡＸは比較対象のシーンの時間の長さを表し、Ｎ＿ＭＡＸは比較する端点の数を表す。

（台詞の類似度判定）
台詞の類似度判定は、両者の発話内容に対し、テキストマッチングを行う。
シーンＡ、Ｂにおいて得られた発話内容をそれぞれｓ（Ａ）、ｓ（Ｂ）とし、シーンＡＢ間に共通する単語ないし文章の長さを測定する関数をＣ_ｌ（ｓ（Ａ），ｓ（Ｂ））とすると、シーンＡＢ間の台詞の類似度Ｒ_Ｓ（Ａ，Ｂ）は以下の数式５のように表される。

Ｒ_Ｓ（Ａ，Ｂ）＝Ｃ_ｌ（ｓ（Ａ），ｓ（Ｂ））／Ｓ＿ＭＡＸ ……（数式５）

ここで、Ｓ＿ＭＡＸは比較する文字列の長さを表す。

（ＢＧＭの類似度判定）
ＢＧＭの類似度判定は、両者間で共通の連続再生音がシーン内にどれだけの時間含まれているかを計測する。

ある時刻ｔにシーンＡ、Ｂそれぞれで得られるＢＧＭ波形又は旋律をｇ_Ａ（ｔ）、ｇ_Ｂ（ｔ）をする。さらに、ｇ_Ａ（ｔ）とｇ_Ｂ（ｔ）の相関をはかる関数をＲ（ｇ_Ａ（ｔ），ｇ_Ｂ（ｔ））とし、高い相関を得られた領域のうち最長のものを選択する関数をＬ_ｒ（Σ_ｔ｛Ｒ（ｇ_Ａ（ｔ），ｇ_Ｂ（ｔ））｝）とすると、シーンＡＢ間のＢＧＭの類似度Ｒ_Ｇ（Ａ，Ｂ）は以下の数式６のように表される。

Ｒ_Ｇ（Ａ，Ｂ）＝Ｌ_ｒ（Σ_ｔ｛Ｒ（ｇ_Ａ（ｔ），ｇ_Ｂ（ｔ））｝）／Ｔ＿ＭＡＸ ……（数式６）

ここで、Ｔ＿ＭＡＸは比較対象のシーンの時間の長さを表す。

上記計算式から算出された値を基に、各特徴量は以下のような判定結果を得る。
・顔・・・［１：同じ］＞［全体の輪郭または色構成が似ている］＞［輪郭または色構成が部分的に似ている］＞［０：異なる］
・声紋・・・［１：同じ］＞［部分的に同じ連続区間がある。一部の端点が異なる軌跡である］＞［０：異なる］
・しぐさ・・・［１：同じ］＞［全ての点が時系列で見て長い時間類似の軌跡を描いている］＞［全ての点が短い時間類似の軌跡を描いている。もしくは、多くの点が長い時間類似の軌跡を描いている］＞［多くの点が短い時間類似の軌跡を描いている］＞［０：異なる］
・台詞・・・［１：同じ］［０：異なる］※特徴的な台詞のみを残し、頻出の部分は排除する。
・ＢＧＭ・・・［１：同じ］＞［全体の長さに対し部分的に同じ］＞［旋律が同じ、演奏・収録方法などが別。内容は同じでモノは別］＞［全体の一部に含まれる、別のものと混じっている］＞［０：異なる］
上記の判定は、各々に閾値を設けて行われるものとする。

上記の判定結果をもとに、二つのシーン間の関係性を推測する（図１０中（４））。
まず、上記特徴量群は図１１に示す三つのカテゴリに分類される。

また、これらのカテゴリにおいて算出される類似度の組み合わせとそれによるシーン間の関係性の例を図１２に示す表に示す。ここで、類似度は、対象のカテゴリに属する特徴量がシーン間で同じである場合を１、全く異なる場合を０としている。また、実際に算出される類似度は０から１までの任意の値をとるため、シーン間の関係性判定は以下の項目がすべてではない。

＜１０．本実施形態の効果＞
類似度判定の基準となる動画コンテンツに対し、内容がほぼ同じ動画コンテンツだけでなく、シリーズの動画コンテンツ、パロディコンテンツ、アニメ版動画コンテンツなど、特徴の似ている要素を有するコンテンツを広く関連付けることができる。また、複数の動画コンテンツ間のどの部分が似ているかによって、関連動画コンテンツ群をさらに基準となる動画コンテンツとの関係性で分類することができる。

コンテンツ単位だけでなく、シーン単位（任意区間）でも各動画コンテンツ間の類似度や関係性を評価することができる。

動画コンテンツから抽出した特徴量に対しラベリングを行うことで、対象の動画コンテンツに登場した人物の特徴をデータとして保持することができ、それらの特徴量を基に、別の動画コンテンツに登場する人物が誰に似ているか、また、似ている部分を評価することができる。

商用のコンテンツから抽出した特徴量を用いて、動画共有サイトや個人のｗｅｂページにアップロードされたコンテンツが著作権を侵害していないかを容易に調べることができる。

抽出された特徴量から人物毎に台詞や動作パターン統計をとることで、対象人物の口癖やしぐさを知ることができる。

データベース１０６に登録された登場人物の動作パターンや台詞、声紋などを、別途作成した新しいキャラクターに適用する（つけかえる）ことができる。

ものまねをしている人物が模倣対象の人物とどれだけ似ているか、また、どの特徴が似ているかを定量的に評価することができる。

メタデータの付与されていないコンテンツに対し、類似度の高い別の動画コンテンツのメタデータを流用することができる。また、類似度判定の結果をメタデータとして、それぞれの動画コンテンツに付与することができる。

コンテンツから複数の特徴量を独立に抽出することで、各特徴量を利用して、コンテンツやシーンに関連のない登場人物の情報などもｗｅｂや類似コンテンツから取得することができる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１０ネットワーク
２０動画像提供装置
３０表示装置
１００情報処理装置
１０２中央演算部
１０４一時記憶部
１０６データベース
１１２顔認識用データベース
１１４デコーダ／エンコーダ
１１６声認識用データベース
１２２映像解析部
１２４メタデータ解析部
１２６音声解析部

Claims

一の動画コンテンツから前記動画コンテンツの特徴を表す情報である複数の特徴量を抽出する特徴量抽出部と、
抽出された前記特徴量を人物又は背景に対応付けるラベリング部と、
対応付けされた前記特徴量と、他の動画コンテンツにおける前記特徴量との一致度を判定する一致度判定部と、
前記特徴量が抽出された前記一の動画コンテンツの一シーンにおける複数の前記特徴量と、前記他の動画コンテンツの一シーンにおける複数の前記特徴量を比較する比較部と、
比較結果によって、前記一の動画コンテンツの一シーンと前記他の動画コンテンツの一シーンの関係性を推測する関係性推測部と
を備える、情報処理装置。
前記一致度判定部は、対応付けされた前記特徴量に関して、記憶部に記録された前記他の動画コンテンツにおける前記特徴量との一致度を判定し、
前記比較部は、閾値を用いて、対応付けされた前記特徴量と他の動画コンテンツにおける前記特徴量とが一致すると判断されたとき、前記一の動画コンテンツの一シーンにおける複数の前記特徴量と前記他の動画コンテンツの一シーンにおける複数の前記特徴量を比較する、請求項１に記載の情報処理装置。
前記特徴量抽出部は、前記動画コンテンツのシーン毎に複数の特徴量を抽出する、請求項１又は２に記載の情報処理装置。
前記特徴量抽出部は、前記動画コンテンツの複数のシーン間で類似する特徴量が得られた場合、前記複数のシーン間の特徴量が類似していることを示すインデックス情報を付与する、請求項３に記載の情報処理装置。
前記特徴量抽出部は、前記特徴量として人物の顔を認識して、前記特徴量として前記人物の動体を検出し、
前記ラベリング部は、前記人物ごとに前記顔及び前記動体を対応付けて、対応付けされた前記特徴量を前記人物ごとにひとまとめにする、請求項１〜４のいずれか１項に記載の情報処理装置。
特徴量抽出部が、一の動画コンテンツから前記動画コンテンツの特徴を表す情報である複数の特徴量を抽出するステップと、
ラベリング部が、抽出された前記特徴量を人物又は背景に対応付けるステップと、
一致度判定部が、対応付けされた前記特徴量と、他の動画コンテンツにおける前記特徴量との一致度を判定するステップと、
比較部が、前記特徴量が抽出された前記一の動画コンテンツの一シーンにおける複数の前記特徴量と、前記他の動画コンテンツの一シーンにおける複数の前記特徴量を比較するステップと、
関係性推測部が、比較結果によって、前記一の動画コンテンツの一シーンと前記他の動画コンテンツの一シーンの関係性を推測するステップと
を備える、情報処理方法。
一の動画コンテンツから前記動画コンテンツの特徴を表す情報である複数の特徴量を抽出する手段、
抽出された前記特徴量を人物又は背景に対応付ける手段、
対応付けされた前記特徴量と、他の動画コンテンツにおける前記特徴量との一致度を判定する手段、
前記特徴量が抽出された前記一の動画コンテンツの一シーンにおける複数の前記特徴量と、前記他の動画コンテンツの一シーンにおける複数の前記特徴量を比較する手段、
比較結果によって、前記一の動画コンテンツの一シーンと前記他の動画コンテンツの一シーンの関係性を推測する手段
としてコンピュータを機能させるためプログラム。