以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態の概要は次の通りである。
(1)放送局に蓄積された膨大な過去映像の中から、可能な限り全ての出演者の顔画像のみを切出して出演シーンのタイムコード情報とともに顔画像蓄積サーバに保存しておく。
(2)蓄積された顔画像と目的の出演者の顔画像を比較して、その出演者の出演シーンを検出する。
(3)検出した結果の出演シーンの顔画像を用いて、類似顔画像検出処理によって類似した出演シーンを絞り込む。
(4)検出した出演シーンのタイムコード情報を編集機に渡すことで、その出演者が出演している特集番組の制作を容易にする。
(5)低解像度映像を使用して検出した出演シーンを簡易に再生する。
(6)放送直前に出演者の映像が放送不可になった場合、その出演者が出演しているシーンを特定して、編集(モザイク、カット等)する。
図1は、本実施形態に係る映像編集システム1の概略構成を示すブロック図である。映像編集システム1は、カメラ10と、収録装置11と、記録装置12(ビデオサーバ)と、自動編集情報作成装置13と、編集装置14と、管理端末17と、送出サーバ18と、システム制御部15とを備え、それらはLAN回線や所定の通信回線等のネットワーク2で接続されている。システム制御部15は、映像編集システム1全体を統括的に制御するものであって、単独で構成されてもよいし、他装置(記録装置12や編集装置14など)と同一に含まれて構成されてもよい。
カメラ10は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)素子等で撮像した画像にデジタル変換処理を施し、変換結果の画像データ(例えば、HD−SDI規格の素材映像データ)を、収録装置11を用いて、ネットワーク2を介して記録装置12へ出力する。記録装置12(ビデオサーバ)は、これを記憶する。記録装置12には、ネットワーク2を介して自動編集情報作成装置13が接続され、素材映像データは自動編集情報作成装置13に入力されてから、記録装置12に記憶される。ただし、素材映像データは、自動編集情報作成装置13を介さずに記録装置12に直接入力され記憶されてもよい。
図2は、記録装置12の概略構成を示すブロック図である。記録装置12は、録画機能及び類似顔画像検出機能(類似顔画像検出装置16)と、データ保存機能(121〜127)を備える。
記録装置12のデータ保存機能について説明する。記録装置12は、素材映像データを記録する素材映像データ部121と、編集済み映像データを記録する編集済み映像データ部122と、自動編集済み映像データを記録する自動編集済み映像データ部123と、最終編集情報を記録する最終編集情報部124と、自動編集情報を記録する自動編集情報部125と、低解像度ファイルを記録する低解像度サーバ126と、映像中に含まれる顔画像を記録し蓄積する顔画像蓄積サーバ127と、を備える。
低解像度サーバ126を設ける理由は次の通りである。すなわち、一般に、メディア5(光学メディア5a、磁気メディア5b、VTRテープ5c)内の映像ファイルは高画質で保存する必要があるため、映像ファイルサイズが大きくなる。すなわち、常にアクセス可能なHDDストレージに保存しておくことはできない。低解像度ファイルであれば、ファイルサイズが小さいため常にアクセス可能なHDDストレージに映像ファイルを保存して試写することが可能である。そこで、メディア5をダビングする場合は、低解像度映像(低解像度ファイル)を同時に作成して、低解像度サーバ126に記録する。
つづいて、記録装置12の録画機能及び類似顔画像検出機能を実現する類似顔画像検出装置16について図3を参照して説明する。
図3は、類似顔画像検出装置16の概略構成を示すブロック図である。類似顔画像検出装置16は、画像送受信部210と、画像記録部211と、再生制御部212と、人物領域検出部213と、人物特徴量抽出部214と、人物特徴量記録部215と、属性情報記録部216と、要求受信部217と、類似人物検索部218と、登場イベント検索部219と、検索結果送信部220と、キーワード記録部110と、キーワード検索部111とを有する。
画像送受信部210は、装置外部からの画像の入出力を行う処理部であり、カメラ10や他の装置からの入力画像データの受信、他装置(編集装置14等)への出力画像データの送信を行う。
画像記録部211は、入力画像データの記録媒体へ書込みや出力画像データの記録媒体からの読出し(VTRテープ5cの場合はメディア再生装置19に接続される)を行う。書込みの際には、画像データに加え、画像データを読出す際の情報となる画像ID(画像の識別情報)も併せて記録する。再生制御部212は、編集装置14への映像再生を制御する。
人物領域検出部213は、入力画像データに対し画像認識技術を用いた人物検出を行い、画像中の人物の存在判定をし、人物が存在する場合には、その領域の座標算出を行う。また、人物領域検出部213は、人物の「顔」の領域を特定し、その領域を含む顔画像を抽出し、顔画像蓄積サーバ127に記録する。
人物特徴量抽出部214は、人物領域検出部213で検出した領域に対して画像認識技術を用いて特徴量算出を行う。ここで算出する人物特徴量とは、例えば、人物の輪郭の形状や方向、皮膚の色、歩容(どの脚をどのようにどんなタイミングで動かすかといった脚の捌き方)、或いは、人物を特定する代表的な部位である顔の輪郭の形状や方向、目や鼻、口といった主要構成要素の大きさ、形状、配置関係等が挙げられるが、本実施形態においては、使用する特徴量の種類や数はいずれであってもよい。人物特徴量抽出部214は、顔種別(正面、横顔、斜め顔、後ろ顔、笑った顔、怒った顔等)を特徴量の種類として判別することができ、検出対象の顔画像とそのような特徴量を関連づけることができる。
人物特徴量記録部215は、人物特徴量抽出部214で算出した特徴量の記録媒体への書込みと読出しを行う。このとき、人物特徴量は、人物領域検出部213が抽出した顔画像を顔画像蓄積サーバ127に記録する際に関連付けられる。顔画像には、所定のタイミング(ユーザによる入力または類似顔画像検索による自動付与)で人物の名前と関連付けられる。
画像記録部211における画像データの記録媒体と本処理部における人物特徴量の記録媒体とは同一であっても別個であってもよい。
属性情報記録部216は、画像データに関連する属性情報の記録媒体への書込みと読出しを行う。属性情報とは、例えば、画像の撮影時刻や撮像装置番号等である。
要求受信部217は、編集装置14からの検索要求やキーワード付与要求の受信を行う。検索要求には、類似顔画像検索要求と、登場イベント検索要求がある。
類似人物検索部218は、要求受信部217にて受信した要求が類似人物検索要求であった場合に、類似顔画像検索を行う。
登場イベント検索部219は、要求受信部にて受信した要求が登場イベント検索要求であった場合に、登場イベント検索を行う。
検索結果送信部220は、類似人物検索部218や登場イベント検索部219から得た類似人物検索結果や登場イベント検索結果の編集装置14への送信を行う。
キーワード記録部110は、要求受信部217にて受信したキーワード付与要求に基づくキーワードの記録媒体への書込みと読出しを行う。
キーワード検索部111は、要求受信部217にて受信した検索要求データ中にキーワードが含まれていた場合に、キーワード検索を行う。
つづいて、図4を参照して編集装置14(編集機)を説明する。図4は、編集装置14の概略構成を示すブロック図である。編集装置14は、素材映像データに対して実際にレンダリング処理等を施す編集処理を行う。
編集装置14は、実際にこの編集作業を行うプロセッサを具備する編集制御部(編集手段)141と、素材映像データ、及びこれに編集が施された後の映像データに基づく映像を表示させる表示部142(ディスプレイ)と、その画像や音声における各部分を選択する、あるいは指示を入力するための操作パネル143(操作手段)と、類似顔画像検出操作部103とを備える。表示部142と操作パネル143とが一体化されたタッチパネルディスプレイ144として設けられてもよい。
編集制御部141は、素材映像データと上記の自動編集情報を記録装置12(自動編集情報部125)から読み出し、自動編集情報に基づいて素材映像データを編集した新たな映像データ(自動編集済み映像データ)を作成し、自動編集済み映像データを記録装置12(自動編集済み映像データ部123)に記憶させる。
ただし、編集装置14においては、この自動編集済み映像データに基づく画像をユーザが表示部142で確認した上で、操作パネル143を操作して、自動編集済み映像データにおいて処理が施された部分のうち、適切でないと認識された部分の処理を解除するための指示を編集制御部141に出し、この処理の解除を行うこともできる。この場合には、素材映像データを参照することもできる。
同様に、編集制御部141は、自動編集済み映像データに対して、更に追加の処理を施すこともできる。この際に新たに処理の対象となる部分は、ユーザによって指定される。この際にも、ユーザは、自動編集済み映像データに基づく映像を表示部142で確認した上で、操作パネル143を操作して、この操作を行うことができる。こうしたユーザによる操作によって、前記の自動編集情報が書き換えられた最終編集情報が生成される。この最終編集情報は素材映像データに対する編集処理に反映されると共に、後述されるように、処理対象情報の更新に利用される。
同様に、編集制御部141は、記録装置12から素材映像データを直接読み込み、この素材映像データに基づく画像を表示部142でユーザに確認させた上で操作パネル143を操作させ、前記の自動編集情報を用いずに、処理の対象となる部分を指定し、レンダリング処理を施す操作を行うこともできる。この操作においては、ユーザは、自動編集情報とは無関係に、素材映像データに対してレンダリング処理を行うことができる。
編集制御部141は、このように、自動編集情報に基づいて編集された自動編集済み映像データ、ユーザによって自動編集済み映像データ又は素材映像データが編集された編集済み映像データを、記録装置12に記録させることができる。
類似顔画像検出操作部103は、機能構成として、検索要求送信部221、検索結果受信部222、検索結果表示部223、再生画像表示部224、画面操作検知部225、キーワード付与要求送信部112、複数検索キー選択部113の各処理部を有する。
検索要求送信部221は、検索要求の記録装置12への送信を行う。類似人物検索の場合、検索要求データには、類似人物検索の検索キーとして、人物の名前、検索キー画像(特に顔画像)或いはその特徴量が含まれる。また、検索要求データには、絞込みパラメータを含めることも可能である。
検索結果受信部222は、検索結果の記録装置12(類似顔画像検出装置16)からの受信を行う。検索結果として受信するデータには、記録装置12(類似顔画像検出装置16)において、類似人物検索、或いは、登場イベント検索を実施して得られた画像の集合が含まれる。集合を構成する個々の画像は、記録装置12(類似顔画像検出装置16)に記録された映像から画像サイズ縮小処理等を施して生成される。以下、この個々の画像を「検索結果画像」、検索結果として送受信するデータを「検索結果データ」ともいう。
検索結果表示部223は、検索結果受信部222にて受信した検索結果の画面表示を行う。表示される画面例については後述する。
再生画像表示部224は、記録装置12(類似顔画像検出装置16)から入力された画像データの画面への連続動画表示を行う。
画面操作検知部225は、ユーザによる操作内容の検知及び取得を行う。
キーワード付与要求送信部112は、キーワード付与要求の記録装置12(類似顔画像検出装置16)への送信を行う。
複数検索キー選択部113は、検索キー画像の候補が複数選択されたときに、より少ない数の検索キー画像を適切に選択する処理を行う。
図5は、自動編集情報作成装置13の機能ブロックである。自動編集情報作成装置13は、処理対象認識部131と、情報記憶部132とを備える。情報記憶部132は、最終編集情報部124と、自動編集情報部125と、処理対象情報部128とを備える。最終編集情報部124、自動編集情報部125は、記録装置12に設けられるものと同一であってもよいし、別に設けられてもよい。
自動編集情報作成装置13は、この素材映像データを読み込み、処理対象認識部131で、レンダリング処理を施す部分を認識する。この際、処理対象認識部131におけるプロセッサは、情報記憶部132に記憶された処理対象情報を基にして、この認識を行い、このように処理の対象となる部分とその処理についての情報(自動編集情報)を記録装置12に記憶させる。
自動編集情報の内容における処理の対象となる部分に関する情報としては、具体的には、処理対象となる部分の映像フレーム位置(タイムコード情報)、映像上の座標、あるいは処理対象が音声の場合には音声サンプルの位置の範囲、処理の内容等がある。処理の内容としては、処理対象が映像の場合にはモザイク処理、ブラー処理、映像カット、輝度の増減処理、処理対象が音声の場合にはミュート処理、音量調整等がある。また、処理の対象とする理由(例えば放送禁止に該当する、特定企業名である等)も処理対象情報に含まれる。
処理対象情報としては、例えば映像の配信先(目的)等に応じ、複数のものを設定することができる。これに応じて、例えばある一つの配信先に対しては処理の対象とならない部分を他の配信先に対しては処理の対象とすること、上記の処理の内容を配信先に応じて変える、等の操作が可能となる。こうした場合には、処理対象情報がユーザによって選択される構成とされる。
また、後述するように、最終的に素材映像データに対して編集が行われる際には、処理対象となった部分や処理の内容は、ユーザによって確認された後に、修正が施される。こうした最終的な編集情報(最終編集情報)あるいは最終編集情報と自動編集情報との違いに関する情報も、情報記憶部132に記憶される。
以上の構成による動作例を説明する。
まず、図6〜10を参照して編集処理例を説明し、次に図11〜13を参照して類似人物検索処理(特に類似顔検出処理)について説明し、さらに図14〜16を参照して類似顔検出処理を編集処理に適用した処理例を説明する。
図6は、システム制御部15が行わせる具体的な動作を示すフローチャートの一例である。ここでは、単純化のために、編集装置14を用いてユーザによって指定された処理は行われないものとする。また、図1において、素材映像データは自動編集情報作成装置13を介してのみ記録装置12に入力する(記憶される)ものとする。
まず、収録装置11は、素材映像データを入手する(S1)。自動編集情報作成装置13は、この素材映像データを入手し、素材映像データ中の画像において処理対象となる部分があるかを解析する(S2)。ここでは、処理対象認識部131が、情報記憶部132中の情報を参照し、素材映像データ中の画像において処理対象となる部分があるかを認識し、この部分が認識された場合には、この部分に対する処理も、情報記憶部132中の情報に基づき、決定する(S3)。これによって、自動編集情報が作成される。処理の対象となる部分が認識されなかった場合(S4のNo)には、素材映像データがそのまま記録装置12に記憶される(S5)。
処理の対象となる部分が認識された場合(S4のYes)、システム制御部15は、素材映像データを記憶するか否かをユーザに問い合わせる(S6)。記憶しない場合(S6のNo)、前記の通り、編集装置14を用いて、この素材映像データに対して自動編集情報に基づく編集を行わせた自動編集済み映像データを作成し(S7)、この自動編集済み映像データと自動編集情報とを記録装置12に記憶させる(S8)。この場合には、記録装置12に記憶される映像データは、編集後の自動編集済み映像データのみとなる、あるいは、素材映像データが記録装置12に記憶されていた場合には、素材映像データは自動編集済み映像データに置き換えられる。
素材映像データを記憶する場合(S6のYes)、システム制御部15は、素材映像データと自動編集情報を記録装置12に記憶させた後(S9)、ユーザに対して、自動編集を行うか否かの確認を行う(S10)。自動編集を行わない場合(S10のNo)、処理は終了する。この場合には、記録装置12には編集前の素材映像データと自動編集情報が記憶される。このため、この時点では自動編集済み映像データは存在しないが、編集装置14を用いて、後で容易に自動編集済み映像データを作成することができる。
自動編集を行う場合(S10のYes)、システム制御部15は、編集装置14に自動編集済み映像データを作成させ(S11)、これを記録装置12に記憶させる(S12)。この場合、記録装置12には、元となった素材映像データ、自動編集情報、自動編集済み映像データの全てが記憶される。このため、例えば、上記のように複数の処理対象情報が設定された場合において、同一の素材映像データに対して他の処理対象情報を用いた処理を後で行うことが容易となる。
なお、記録装置12が収録装置11から素材映像データを直接受信してこれを記憶する場合には、上記のS6〜S8の工程は不要となる。ただし、自動編集済み映像データが記憶された(S12)後に、素材映像データを削除してもよい。
図6のフローチャートにおいては、素材映像データの入力があった後におけるシステム制御部15の動作が示された。一方、素材映像データが記録装置12に予め記憶されている状態でシステム制御部15に対して映像の配信(出力)要求があり、これに応じて素材映像データが編集された後の映像データを出力させる場合もある。
図7は、こうした場合におけるシステム制御部15の動作の一例を示すフローチャートである。ここでは、少なくとも素材映像データは記録装置12に記憶されているものとする。
まず、システム制御部15は、配信の要求があった場合(S21)、記録装置12に自動編集済み映像データが記憶されているか否かを確認する(S22)。自動編集済み映像データが記憶されていなかった場合(S22のNo)、自動編集情報が記憶されているか否かを確認する(S23)。
自動編集情報が存在する場合(S23のYes)、システム制御部15は、前記のように編集装置14を用いて自動編集済み映像データを作成し、これを記録装置12に記憶させる(S24)。自動編集情報が存在しない場合(S23のNo)、システム制御部15は、自動編集情報作成装置13を用いて自動編集情報を作成し(S25)、同様に編集装置14を用いて自動編集済み映像データを作成し、これを記録装置12に記憶させる(S24)。これによって、自動編集済み映像データが記憶されていなかった場合(S22のNo)、自動編集済み映像データが新たに作成されて記録装置12に記憶される。
自動編集済み映像データが記憶されていた場合(S22のYes)、あるいは上記のように新たに自動編集済み映像データが作成・記憶された場合(S24)、システム制御部15は、この自動編集済み映像データに基づく画像を編集装置14(表示部142)で表示させ(S26)、この内容で配信してよいか否かをユーザに問い合わせる(S27)。
この内容で配信してよい場合(S27のYes)、この自動編集済み映像データを、配信が許可された編集済み映像データと設定する(S28)。一方、この内容からの変更を希望する場合(S27のNo)、システム制御部15は、編集装置14を用いて自動編集済み映像データを更に編集させ(S29)、この編集後の映像データを、配信が許可された編集済み映像データと設定し、記録装置12に記憶させる(S30)。この際、前記の通り最終編集情報も作成し、記憶させる。
その後、システム制御部15は、上記のように記録装置12に記憶された編集済み映像データを配信させる(S31)。
また、自動編集情報が作成されてもこれを適用して自動編集済み映像データを作成するのには時間を要し、記録装置12に様々な映像データを記憶させるのにも時間を要する。このため、配信において不要となることが明らかな映像データを記憶させない、作成しないことが好ましい。更に、処理の時間を短縮するために、ユーザが他の装置を用いて同時に映像を確認する場合もある。
図8は、こうした点を考慮したシステム制御部15の動作を示すフローチャートの一例である。
ここでは、収録装置11が素材映像データを入手したら(S41)、この素材映像データをそのまま記録装置12に記憶するか否かが判断される(S42)。素材映像データの記憶が不要であると認識された場合(S42のNo)、前記の通りに自動編集処理が行われて自動編集済み映像データが作成され(S43)、この自動編集済み映像データを配信用の映像データであるとして記録装置12に記憶する(S44)。この場合においては、記録装置12に記録される映像データは自動編集済み映像データのみである。
素材映像データの記憶をすると認識された場合(S42のYes)、素材映像データが記録装置12に記憶される(S45)。その後、他装置も用いて素材映像データの解析を行うか否かが問い合わせられる(S46)。他装置も用いて素材映像データの解析を行う場合(S46のYes)、ユーザは、他装置を用いて素材映像データの解析を行い(S47)、その上で編集装置14を用いた以降の処理を開始させることができる。この解析結果を、以下の判定(S50、S56)に利用できる。
その後、自動編集を直ちに行うか否かが問い合わせられ(S48)、直ちに行わない場合(S48のNo)、自動編集情報作成装置13によって自動編集情報が作成され(S49)、その後で編集装置14は、この自動編集情報の内容でよいか否かを問い合わせる(S50)。
この問い合わせを行う際には、実際に自動編集済み映像データは作成されていないが、ユーザは、この自動編集情報に基づく編集後の内容を確認するために、前記の通り、ある一時点での静止画像を用いて、この確認をすることが可能である。
この内容を変更したい場合(S50のNo)、編集装置14は、ユーザにその修正を行わせる(S51)。その後、内容の変更がない場合(S50のYes)、そのままの自動編集情報に基づいて、素材映像データに対する実際の編集作業が行われた編集済み映像データが作成される(S52)。この編集済み映像データが、配信用の映像データとして記録装置12に記憶される(S53)。この場合には、最終的に内容が確定するまで編集済み映像データは作成されない。
自動編集を直ちに行う場合(S48のYes)、直ちに自動編集情報とこれに基づいた自動編集済み映像データが作成され(S54)、自動編集済み映像データを表示部142で表示させる(S55)。この場合には、ユーザは、自動編集済み映像データの全ての時点で、この編集内容が適正か否かを詳細に確認することができる(S56)。
その後、この編集内容の修正を望む場合(S56のNo)には、上記と同様にその修正作業、確認が行われ(S57)、その後に再びこの修正後の編集情報に基づき新たな映像データ(編集済み映像データ)が作成され(S58)、この編集済み映像データが配信用の映像データとして記録装置12に記憶される(S59)。この際に作成された最終編集情報も同時に記憶される。
自動編集情報に基づく編集が適正であると認められた場合(S56のYes)には、既に作成された自動編集済み映像データが、配信用の映像データとして記録装置12に記憶される(S60)。
上記の動作においては、素材映像データに対して実際に編集処理を施すことを必要最小限に留めることによって処理時間を短くし、かつユーザによる編集処理が適正か否かのチェックを確実に行うことができ、その修正も行われる。
次に、素材映像データにおける処理の対象となる部分を認識するために情報記憶部132に記憶される処理対象情報について説明する。こうした処理の対象となる部分としては、前記のような時刻表示、映り込んだ自動車の登録ナンバー、企業名、映り込んだ人物の顔等がある。時刻表示や登録ナンバーは、数字をパターン認識することによって認識することができ、企業名は文字のパターン認識によって認識することができ、顔もパターン認識手法によって認識することができる。
前記の通り、上記の編集装置14においては、ユーザ自身が操作パネル143を操作することによって、こうした処理の対象となる部分を設定することもでき、その後にこの操作が反映された最終編集情報が作成される。この場合、この最終編集情報を処理対象認識部131が認識して、処理対象情報を更新(あるいは作成)することもできる。この場合、処理対象認識部131は、処理対象情報をより好ましい内容に更新する処理対象情報改変手段として機能する。
図9は、処理対象認識部131におけるこうした動作の流れを示す図である。
まず、初期状態(初期設定)の処理対象情報は、ユーザによって作成される(P1)。ここでは、例えば、処理の対象として必要最小限でありかつ認識が比較的容易なもののみが対象として選定される。また例えば、前記のような画像中の時刻表示を、こうした対象とすることができる。この処理対象情報を用いて、前記のようにこの映像編集システム1が繰り返し用いられる。この際、前記のように、自動編集情報による編集に加え、あるいはこの編集に代わり、ユーザによっても編集作業が行われ、最終的に素材映像データに対して適用された最終編集情報が作成され、この最終編集情報も情報記憶部132に記憶される。
このため、処理対象認識部131は、自動編集済み映像データの基となった自動編集情報と、その後に生成された最終編集情報とを比較することによって、自動編集情報の基となり情報記憶部132に記憶された処理対象情報を改変することができる。例えば、画像中のある文字列が処理対象情報における処理の対象に含まなかったために自動編集情報においては処理の対象とされていなかったが、ユーザによって後で指定されて最終編集情報においては処理の対象とされた場合には、この文字列を処理の対象として追加するように処理対象情報を改変することができる。逆に、画像中のある文字列が処理対象情報における処理の対象に含まれたために自動編集情報においては処理の対象とされたが、ユーザによって後でこの指定が解除されて最終編集情報においては処理の対象とされなかった場合には、この文字列を処理の対象から削除するように処理対象情報を改変することができる。処理対象情報における処理の内容(ブラー処理等)についても、同様に改変することができる。こうした作業は、例えば画像中の顔認識を用いれば、特定の人物を処理の対象とする場合においても同様に行うことができる。
また、このように処理の対象として選択されたか否かという単純な判断を用いずに、処理対象認識部131は、記録された複数の最終編集情報における統計的処理に基づいて、処理対象情報を改変することもできる。この際、例えば、最終編集情報と自動編集情報との相違点の各々を数値評価してその数値の総計を点数として算出し、この数値に基づき、処理対象情報を改変することもできる。例えば、この点数が大きかった(違いが大きかった)最終編集情報を抽出し、これらの中で共通の処理対象とされ処理対象情報に含まれなかったものを、新たに処理対象情報に取り入れることができる。
このため、図9のフローにおいては、初期状態の処理対象情報(P1)を用いてこの映像編集システム1が用いられ、この際に、ユーザの操作により最終編集情報が作成され、情報記憶部132に記憶される(P2)。その後、上記のように、最終編集情報と自動編集情報の違いが数値化されて評価される(P3)。この数値に基づき、総合的解析として、現在の処理対象情報を書き換えることが好ましいか、あるいはどのように書き換えるかが判定され(P4)、最終的に処理対象情報が更新される(P5)。ここで、図9に示されるように、最終的な判定(P4)に際しては、上記のような最終編集情報と自動編集情報の違いだけでなく、編集装置14におけるユーザによる編集作業の傾向(例えばあるユーザにおいては編集作業が多く、他のあるユーザでは編集作業が少ない)や、初期設定(P1)後に新たに発生した事情によって追加された画像に対する条件、等も考慮することができる。
このような処理対象情報の改変作業は、この映像編集システム1が使用されて最終編集情報が作成される度に繰り返してもよく、周期的に行ってもよい。また、上記の点数を用いる場合には、この点数の累積値に応じて行ってもよい。
このように、処理対象情報を、多数の最終編集情報を基にして改変する作業は、周知の機械学習手法(ディープラーニング)等を用いても行うことができる。前記のように、映像の配信先等に応じて複数の処理対象情報が設定される場合には、これらの作業も処理対象情報毎に行うことができる。
ユーザ自身が自動編集済み映像データに対する評価を入力できる設定とするための問い合わせ、入力は、編集装置14における表示部142、操作パネル143(タッチパネルディスプレイ144)を用いて行うことができる。
図10は、こうした表示の一例である。ここでは、表示Kにおいて、自動編集情報(処理の対象となる部分の各々及びそれぞれにおける処理の内容)の説明及びその適用の可否が行われ、上側の表示Lで、この際の自動編集情報の評価がユーザによって入力される。その後で下側の表示Mを操作することによって、自動編集情報が表示Kの操作を反映して改変された最終編集情報を用いた編集処理が実行される。
素材映像データには様々な種類のものがあり、場合によっては、一般的ではない特殊部分に対して処理を施す場合もある。こうした場合においては、自動編集情報と最終編集情報の違いが大きくなった場合でも、この場合の最終編集情報は、一般的に用いられる処理対象情報の改変に用いないことが好ましい。図10に示されたように、この場合の自動編集情報を評価の対象としないことを選択した場合には、このように特殊な場合の最終編集情報は処理対象情報の改変には使用されない。
このように、新たに作成された最終編集情報をフィードバックして処理対象情報を更新する方法として、上記の他にも、様々な手法が適用可能である。
また、例えば、上記の処理の対象となりうる部分としては、映り込んだ人物の顔があり、処理対象認識部131は画像中における顔を認識することが可能である。ここで、例えば、映り込んだ人物が複数おり、ある特定の人物の顔のみに対して処理を適用したい場合、あるいは逆にこの特定の人物以外の全ての人物の顔に処理を施したい場合がある。こうした場合には、処理対象情報において、人物の顔を上記の第1のレベルに設定すれば、前記の放送禁止用語の場合と同様に、警告のみを発し、この警告が解除されない限り、自動編集済み映像データを作成せず、かつ素材映像データも配信しない構成とすればよい。その後、ユーザは、映り込んだ全ての顔のうち、特定の人物の顔のみに処理を行う、あるいは逆に特定の人物の顔のみに処理を行わないように、操作パネル143を制御して最終編集情報を作成し、この最終編集情報に応じて編集済み映像データを作成した後に、これを配信させることができる。
なお、上述の構成においては、記録装置12(ビデオサーバ)に、処理対象認識部(処理対象認識手段、処理対象情報改変手段)131、情報記憶部(情報記憶手段)132を具備する自動編集情報作成装置13と、編集制御部(編集手段)141、表示部(表示手段)142、操作パネル(操作手段)143を具備する編集装置14が接続され、上記の動作が行われた。しかしながら、上記と同様の機能をもつ処理対象認識手段、処理対象情報改変手段、情報記憶手段、編集手段、表示手段等が素材映像データに関わって設けられ、自動編集済み映像データ、自動編集情報、最終編集情報等を作成することができる限りにおいて、具体的な装置の構成は任意である。すなわち、使用される各装置において上記の各手段がどのように設けられるかは任意であり、上記の各手段が全て単一の装置内に設けられていてもよい。
次に図11〜18を参照して類似人物検索処理(特に類似顔検出処理)について説明する。当該処理は、類似顔画像検出装置16や編集装置14(特に類似顔画像検出操作部103)の機能により実行されるもので、特開2013−101431号公報に開示の技術を顔画像の認識処理に適用したものである。以下では、開示されている主要部分を例示する。
図11(a)〜(g)には、本実施例において、類似人物検索を実施する手順に沿って、検索キー画像の候補となった画像の特徴量を例示している。図12には、類似人物検索(類似顔検出処理)を実施する手順を例示している。
まず、最初のキー画像による検索処理6001では、ユーザが選択した最初の検索キー画像によって最初の検索が行われる。ここでは、最初の検索キー画像に選択された画像の特徴量(本例では、画像中の人物の特徴量)と距離が近い特徴量を有する画像を記録装置12内の類似人物検索部218を通じて検索し、その結果、例えば10件の画像が検索される。
図11(a)には、最初の検索キー画像の特徴量を「○」で示してある。ここでは、説明の分かり易さのために画像の特徴量を2次元で表現しているが、実際には、画像の特徴量は例えば数百次元といった非常に多くの次元数を持つ場合が多い。
ここで、検索結果である10件の画像のうち3件が最初の検索キー画像と同一の対象であるとする。検索結果から同一人物を選択する処理6002では、10件の検索結果画像から目的の3件の画像を選択する。具体的には、例えば、ユーザが編集装置14の操作パネル143やマウス(図示せず)を操作して目的の画像を選択する。なお、画像の特徴量について閾値を設け、最初の検索キー画像の特徴量と検索結果画像の特徴量との距離が閾値以下なら同一の対象(同一人物)であると判断し、該当する検索結果画像を自動選択する方法としてもよい。
図11(b)には、図11(a)の内容に加え、検索結果から同一人物を選択する処理6002によって選択された画像の特徴量を「△」で示してある。このような処理によって選択された画像は、新たな検索キー画像の候補となる。
ここで、検索結果画像が動画を形成する連続的な画像のうちの1枚であるとすると、その動画における検索結果画像の前後にも同一人物の画像が含まれている場合が多い。検索結果前後の同一人物を選択する処理6003では、検索結果画像が抽出された動画における検索結果画像の前又は後の所定長の時間帯に含まれる複数の画像から、人物の位置や進行速度等に基づいて検索結果画像の人物と同一人物(すなわち、検索キー画像の人物と同一人物)と判定される画像を自動的に選択する。なお、ユーザが指定できるようにしてもよい。
図11(c)には、図11(b)の内容に加え、検索結果前後の同一人物を選択する処理6003によって選択された画像の特徴量を「□」で示してある。このような処理によって選択された画像は、新たな検索キー画像の候補となる。
マスクを付加する画像処理6004では、これまでの処理で新たな検索キー画像の候補とした人物の画像に対し、画像処理で鼻や口を覆うマスクを付加した画像を生成し、新たな検索キー画像の候補に追加する処理を行う。なお、これとは逆に、画像処理前の人物の画像が鼻や口を覆うマスクをしている場合に、画像処理でマスクを外すようにする処理を行ってもよい。また、マスクの画像は複数種類の画像を準備してもよい。
サングラスや眼鏡を付加する画像処理6005では、これまでの処理で新たな検索キー画像の候補とした人物の画像に対し、画像処理でサングラスや眼鏡を付加した画像を生成し、新たな検索キー画像の候補に追加する処理を行う。なお、これとは逆に、画像処理前の人物の画像がサングラスや眼鏡をかけている場合に、画像処理でサングラスや眼鏡を外すようにする処理を行ってもよい。また、サングラスや眼鏡の画像は複数種類の画像を準備してもよい。
人物の向きを変更する画像処理6006では、これまでの処理で新たな検索キー画像の候補とした人物の画像に対し、画像処理で人物の向きを変更した画像を生成し、新たな検索キー画像の候補に追加する処理を行う。人物の向きは通常複数であるが、単純な左右反転であってもよい。
図11(d)には、図11(c)の内容に加え、マスクを付加する画像処理6004、サングラスや眼鏡を付加する画像処理6005、人物の向きを変更する画像処理6006の結果生成された複数の画像の特徴量を「×」で示してある。このような処理によって生成された画像は、新たな検索キー画像の候補として追加される。
なお、マスクを付加する画像処理6004、サングラスや眼鏡を付加する画像処理6005、人物の向きを変更する画像処理6006は、最初の検索キー画像、検索結果から同一人物を選択する処理6002の結果の画像、検索結果前後の同一人物を選択する処理6003の結果の画像のいずれを対象にして施してもよい。また、対象の画像に対していずれか1つの画像処理を施してもよく、任意の2つの画像処理を施してもよく、3つの画像処理を全て施してもよい。また、対象の画像の明暗を変える画像処理など、上記以外の画像処理を施してもよい。
次に、クラスタリング処理6007では、これまでの処理6001〜6006により検索キー画像の候補とされた複数の画像をクラスタリングして、各クラスタを代表する画像(或いはその特徴量)を求める。クラスタリング方法としては、k−means法などの公知の技術を用いることができる。各クラスタを代表する画像としては、例えば、そのクラスタに含まれる画像の特徴量の平均に最も近い画像が用いられ、その画像の特徴量が新たな検索キーとされる。なお、クラスタに含まれる画像の特徴量の平均をそのまま新たな検索キーとしてもよい。
図11(e)には、これまでの処理6001〜6006によって得られた新たな検索キー画像の候補がクラスタリング処理6007によってクラスタに分けられた様子と、各クラスタを代表する画像の特徴量を例示してある。図11(e)では、3つのクラスタを枠線で囲って示してあり、各クラスタを代表する画像の特徴量として、各クラスタの重心に最も近い画像の特徴量P11、P12、P13がそれぞれ選択されている。
代表する検索キーによる検索処理6008では、クラスタリング処理6007によって得られた各クラスタを代表する画像の特徴量を新たな検索キーに用いて類似画像検索を行い、結果を出力する。
ここで、図11(e)の例では、最初の検索キー画像に関連する画像(処理6001〜6006により得られた画像)は29枚あるため、従来であれば、これらの画像の特徴量を新たな検索キーとした検索を29回繰り返していたところ、本実施例においては、クラスタリング処理6007によって得られた各クラスタを代表する3つの画像の特徴量を用いて類似顔画像検索を行うことで、特徴量のバランスをとりつつ3回の検索で済むようにしている。ここでは、クラスタの数を3としたが、これは設定によって変えることができる。
次に、図13を参照して編集装置14の類似顔画像検出操作部103の画面について説明する。図13には、本例の類似顔画像検索システムに使用可能な検索画面を例示してある。
検索画面は、再生画像表示領域3001、画像再生操作領域3003、検索キー画像指定領域3004、検索絞込パラメータ指定領域3008、検索実行領域3017、検索結果表示領域3020を有する。
再生画像表示領域3001は、(類似顔画像検出装置16や)記録装置12に記録された画像を動画像として表示する領域である。また、再生画像表示領域3001の動画3002は、記録装置12に記録された画像を動画像として表示するものである。
画像再生操作領域3003は、記録装置12に記録された画像を再生操作する領域である。本領域3003を構成する各ボタンには、それぞれ固有の再生種類が割当てられている。本図においては、巻戻し、逆再生、再生停止、順再生、早送りの再生種類が左から順に割当てられている例を示している。ユーザが各ボタンをマウス282で適宜押下することにより、動画3002がボタンに割当てられた再生種類に切り替る。
検索キー画像指定領域3004は、検索キー画像の指定と表示を行う領域である。本領域3004は、検索キー画像3005と、映像指定ボタン3006、ファイル指定ボタン3007を有する。
検索キー画像3005は、類似検索のための最初の検索キー画像とする画像である。初期状態においては、検索キー画像は、未指定であるので、画像表示はされていない状態となる。なお、未指定の場合に、別途用意した未指定状態を示す画像を表示する等、未指定である旨の表記をするようにしてもよい。
映像指定ボタン3006は、押下時に再生画像表示領域3001に表示されている画像を、検索キー画像3005として指定するボタンである。
ファイル指定ボタン3007は、記録装置12に記録されている画像以外の画像、例えば、デジタルスチルカメラで撮影した画像やスキャナで取込んだ画像等を、検索キー画像3005として指定するボタンである。このボタン3007を押下すると、それらの画像をファイル指定するダイアログボックスが表示され、ユーザはそこで所望の画像を指定することができる。
検索絞込パラメータ指定領域3008は、検索の際の絞込パラメータの種類とその値(範囲)を指定する領域である。本領域3008は、撮像装置指定チェックボックス3009、3010、3011、3012と、タイムコード指定チェックボックス3013、3014と、タイムコード指定欄3015、3016を有する。
撮像装置指定チェックボックス3009、3010、3011、3012は、検索の際に検索対象とする撮像装置(カメラ10等)を指定するチェックボックスである。本チェックボックス3009、3010、3011、3012は、押下すると選ばれたことを示すチェックマークがそれぞれ表示される。このマークは再押下すると非表示となり、押下で表示・非表示を繰り返す。
タイムコード指定チェックボックス3013、3014は、検索の際に検索対象とする時刻範囲を指定するチェックボックスである。表示の態様については本チェックボックスも他のチェックボックスと同様である。タイムコード指定チェックボックス3013を選択状態にした場合には時刻範囲に先頭時刻を与える。非選択状態にした場合には、時刻範囲に先頭時刻を与えない、すなわち、記録装置12に記録された最も古い時刻の画像までを検索対象範囲とすることを意味する。
同様にタイムコード指定チェックボックス3014を選択状態にした場合には時刻範囲に末尾時刻を与える。非選択状態にした場合には、時刻範囲に末尾時刻を与えない、すなわち、記録装置12に記録された最も新しい時刻の画像までを検索対象範囲とすることを意味する。
タイムコード指定欄3015、3016は、上述の先頭時刻と末尾時刻の値を指定する入力欄である。初期状態においては、全時間帯を検索対象とするため、タイムコード指定チェックボックス3013、3014は全て非選択状態、タイムコード指定欄3015、3016は空欄とする。
検索実行領域3017は、検索実行を指示する領域である。本領域3017は、類似人物検索ボタン3018、登場イベント検索ボタン3019に加え、検索結果からの類似人物検索ボタン3300、同一シーンチェックボックス3201、マスクチェックボックス3202、サングラスチェックボックス3203、異なる角度チェックボックス3204を有する。
類似人物検索ボタン3018は、検索キー画像3005による類似人物検索(最初のキー画像による検索処理6001)の実行を指示するボタンである。検索絞込パラメータ指定領域3008にてパラメータが指定されている場合には、指定されたパラメータに従って類似人物検索の実行を指示する。
登場イベント検索ボタン3019は、登場イベント検索の実行を指示するボタンである。検索絞込パラメータ指定領域3008にてパラメータが指定されている場合には、指定されたパラメータに従って登場イベント検索の実行を指示する。
検索結果表示領域3020は、検索結果を表示する領域である。検索結果の表示は、検索結果画像を一覧表示することにより実施する。初期状態においては、検索結果表示領域3020には何も表示されない。
ここで、ユーザが、映像指定ボタン3006を押下し、また、撮像装置指定チェックボックス3009、3010、3012を押下し、更に、タイムコード指定チェックボックス3013、3014を押下し、タイムコード指定欄3015、3016にそれぞれ「15:30:20:17」、「12:30:20:17」と入力したとする。
これにより、図13に示すように、検索キー画像3005には、動画3002に表示された人物「Aさん」の画像が検索キー画像として指定され、また、検索対象としたい撮像装置201として「カメラ1」、「カメラ2」、「カメラ4」の3つが指定され、検索対象としたい時刻範囲として「15:30:20:17から12:30:20:17まで」が指定される。
その後、ユーザが、類似人物検索ボタン3018を押下したとする。すると、検索結果表示領域3020には、検索キー画像3005を用いて類似人物検索を実行して得られた検索結果が表示される。図13は、この状態における検索画面の一例を示したものである。検索結果の表示は、検索結果画像(本例では、検索結果画像3031〜3141)を一覧表示することにより実施する。
検索結果画像3031〜3141は、例えば、最上段左から右へ、次に2段目左から右へと検索キー画像3005に対する類似度順に表示する。この表示例においては、検索結果画像3031が検索キー画像3005に対し最も類似度が高く、検索結果画像3141が最も類似度が低いということを示している。
この図に示された例の表記において、検索結果表示領域3020内の検索結果画像3031〜3141上に図示した円とアルファベットは、人物の顔と人物名称を簡略表示したものであり、例えば、検索結果画像3031には、人物「Aさん」が登場することを示している。この簡略表示している部分には、もちろん、実際のシステムでの表示では実画像が表示される。
検索結果画像3031の周辺には、頭出し再生ボタン3032、検索キー画像指定ボタン3033、検索対象チェックボックス3301を備える。他の検索結果画像3041〜3141も同様である。
頭出し再生ボタン3032は、検索結果画像3031を先頭とした連続動画再生開始を指示するボタンである。例えば、頭出し再生ボタン3032を押下すると動画3002が検索結果画像3031に切り替り、その検索結果画像3031を先頭として始まる動画をユーザは、視聴することができる。
検索キー画像指定ボタン3033は、検索結果画像3031を新たな検索キー画像に指定するボタンである。例えば、検索キー画像指定ボタン3033を押下すると、検索結果画像3031が検索キー画像3005に表示される。これにより、検索結果画像3031を使って再検索を実施することができる。
検索対象チェックボックス3301は、検索結果からの類似人物検索ボタン3300を押下した場合に新たな検索キー画像(或いはその候補)として検索結果画像3031を指定するチェックボックスである。例えば、検索結果に出てきた「Aさん」の画像(本例では、検索結果画像2031〜3061、3081、3091、3121、3141)を全てチェックして、検索結果からの類似人物検索ボタン3300を押すことで、様々なパターンの「Aさん」を検索することが可能である。
検索結果からの類似人物検索ボタン3300は、検索キー画像3005による類似人物検索の結果に基づく再度の類似人物検索(代表する検索キーによる検索処理6008)の実行を指示するボタンである。再度の類似人物検索では、検索結果表示領域3020の表示(最初のキー画像による検索処理6001の結果)の中からユーザに選択された(検索対象チェックボックスがチェックされた)画像を新たな検索キー画像(或いはその候補)として類似人物検索を再実行する。
同一シーンチェックボックス3201は、検索結果表示領域3020の表示の中からユーザに選択された画像を対象にして検索結果前後の同一人物を選択する処理6003を実行し、その結果の画像(対象の画像中の人物と同一人物を映した前後の画像)を新たな検索キー画像の候補に追加することを指定するチェックボックスである。
尚、マスクチェックボックス3202は、検索結果表示領域3020の表示の中からユーザに選択された画像を対象にしてマスクを付加する画像処理6004を実行し、その結果の画像(対象の画像中の人物にマスクを付加した画像或いは当該人物からマスクを外した画像)を新たな検索キー画像の候補に追加することを指定するチェックボックスである。
また、サングラスチェックボックス3203は、検索結果表示領域3020の表示の中からユーザに選択された画像を対象にしてサングラスや眼鏡を付加する画像処理6005を実行し、その結果の画像(対象の画像中の人物にサングラス等を付加した画像或いは当該人物からサングラス等を外した画像)を新たな検索キー画像の候補に追加することを指定するチェックボックスである。
異なる角度チェックボックス3204は、検索結果表示領域3020の表示の中からユーザに選択された画像を対象にして人物の向きを変更する画像処理6006を実行し、その結果の画像(対象の画像中の人物の向きを変更した画像)を新たな検索キー画像の候補に追加することを指定するチェックボックスである。
これらのチェックボックス3201〜3204の1以上がチェックされた状態で検索結果からの類似人物検索ボタン3300が押下された場合には、検索結果表示領域3020の表示の中からユーザに選択された各々の画像を対象にして、チェックされた状態のチェックボックスに対応する画像処理を実行し、その結果生成された画像を新たな検索キー画像の候補を追加し、その後、新たな検索キー画像の候補に対してクラスタリング処理6007を実行して各クラスタを代表する検索キー画像を求め、各クラスタを代表する画像の特徴量を検索キーとして用いて類似画像検索を実行する。
以上のように、上記の例では、検索キーの候補である複数の画像の特徴量に基づいて、検索キーとする画像の特徴量を決定する検索キー決定手段と、検索キー決定手段により検索キーに決定された画像の特徴量に類似する特徴量を有する画像を検索する検索手段と、を備えた構成において、検索キー決定手段が、検索キーの候補である複数の画像の特徴量をクラスタリングし、クラスタ毎にそのクラスタを代表する画像の特徴量を検索キーとして決定し、検索手段が、検索キー決定手段により決定されたクラスタ毎の検索キーをそれぞれ用いて検索を行うように構成した。
なお、本例では、編集装置14の類似顔画像検出操作部103の複数検索キー選択部113の機能により検索キー決定手段を実現し、類似顔画像検出装置16の類似人物検索部218の機能により検索手段を実現しているが、他の態様により検索キー決定手段及び検索手段を実現しても構わない。
次に、図14〜16を参照して上述した類似人物検索処理(類似顔検出処理)を編集処理に適用した処理例を説明する。
上述の様に、従来から行われている出演者の出演シーン(出演映像)を探し出すまでのフローでは、担当者(編集者等)は管理端末で出演者の情報を検索すると、その出演者が出演している番組及び、その番組が記録されているVTRテープ番号の一覧が表示される。その後、担当者は出力されたテープ番号のVTRテープを棚から取り出し、VTR再生機にかけて再生する。そして、再生映像を目視して出演シーンを探し、出演シーンのタイムコード情報を記録していた。このようなフローでは、作業効率や精度の観点から、改善が必要とされていた。そこで、次の様なフローによる技術を導入する。
図14は元の映像が、メディア5(光学メディア5a、磁気メディア5b及びVTRテープ5c)に記録されている場合に、顔画像蓄積サーバ127に顔画像を蓄積する手順を示す。メディア5を探し出すまでの手順は、従来通りである。
元の映像が光学メディア5aや磁気メディア5bに記録されている場合は、探し出したメディア(光学メディア5aや磁気メディア5b)から映像ファイルを取り出し、類似顔画像検出装置16で映像ファイルを再生し、上述の類似人物検索処理の技術を用いて、再生映像から顔部分の映像のみを切出して、切出した顔画像をタイムコード情報と共に顔画像蓄積サーバ127に保存する。
蓄積される顔画像は、1種類(一般には正面の顔)のみでなく、顔種別(正面、横顔、斜め顔、後ろ顔、笑った顔、怒った顔等)を検出対象の顔画像として複数登録して保存可能であり、顔画像とその顔種別が関連付けられて記録される。検出対象とする顔画像を複数、特に種別の異なる顔画像を複数、準備しておくことにより、特定の出演者が出演している映像をより精度よく検出することが可能となると共に、特定の出演者の映像の中でも特に欲しい状況(笑った顔の映像が欲しい等)を検出することができる。また、顔画像の蓄積の際に、出演者の名前が特定できている場合には、その名前も登録されてもよい。また、同一出演者について複数の顔画像が顔画像蓄積サーバ127に記録される場合に、基準となる顔画像(基準顔画像)が指定されてもよい。基準顔画像は、一つに限る趣旨では無いが、作業性の観点から、顔種別毎に1つや、所定の出演時期(例えば5年間)に一つといった程度に設定されうる。
元の映像がVTRテープ5cに記録されている場合は、探し出したVTRテープ5cをVTR再生装置(メディア再生装置19)で再生し、類似顔画像検出装置16に取り込む。類似顔画像検出装置16は、取り込んだ再生映像から、光学メディア5aや磁気メディア5bの場合と同様に、類似人物検索処理の技術を用いて、顔部分の映像のみを切出して、切出した顔画像をタイムコード情報と共に顔画像蓄積サーバ127に保存する。
図15は元の映像が低解像度サーバ126に記録されている場合に、顔画像蓄積サーバ127に顔画像を蓄積する手順を示す。
元の映像が低解像度サーバ126に記録されている場合、担当者が管理端末17上で出演者の情報を検索すると、その出演者が出演している番組及び、その番組が記録されている低解像度サーバ126内の映像ファイル名が出力される。その情報をそのままオンラインで、すなわちネットワーク2を介して類似顔画像検出装置16に渡される。その結果、低解像度サーバ126から映像ファイルを取り出し、類似顔画像検出装置16で映像ファイルを再生することで再生映像から顔部分の映像のみを切出して、切出した顔画像をタイムコード情報と共に顔画像蓄積サーバ127に保存する。
図16は目的の出演者の顔画像を検出対象として顔画像蓄積サーバ127から類似顔検出した図である。
編集者は目的の出演者の顔画像ファイル(検出対象顔画像)を類似顔画像検出装置16に読み込ませる。検出対象顔画像は、編集対象の映像ファイルから代表的な顔画像として抽出された画像でもよいし、顔画像蓄積サーバ127に含まれる顔画像から選択された顔画像でもよいし、ウェブ上の画像から取り込んだ画像でもよい。類似顔画像検出装置16は、検出対象顔画像と顔画像蓄積サーバ127内の顔画像とを比較し、同じ顔の出演者が出演するシーンの顔画像及び、タイムコード情報が検索される。
ここで検出した出演シーンのタイムコード情報が編集装置14に渡される。編集者は目的の出演者が出演しているシーンを探し出す手間がなく、出演者の特集番組を制作したり出演者にモザイクをかけることが可能となる。
また、検出した出演シーンについて、編集装置14を使用せずに試写したい場合は、低解像度サーバ126内の映像ファイルを再生することで、出演シーン試写が容易に可能となる。
このような類似顔検出処理をすることで、例えば、放送局の厖大な過去映像の中から目的の出演者が出演しているシーンを探し出す場合に、類似顔画像検出装置16が自動的に出演シーンを検出してくれる。その結果、編集者はメディア5(光学メディア5a、磁気メディア5b、VTRテープ5c)の映像を注視している必要がなくなる。その間に編集者は他の仕事をすることが可能となり、編集者の業務効率を大幅に向上させることができる。
また、編集装置14の数には限りがあるため、編集装置14を使用できない場合は事前に目的の出演者の出演シーンを探して、低解像度サーバ126の映像ファイルを使用して出演シーンを事前に試写しておくことで、編集前の事前作業が可能となる。
また、番組編集を完了して放送直前に出演者が問題を起こしたことにより、その出演者の放送が不可になった場合には、上述の技術によって、容易に目的の出演者の出演シーンを探し、その出演者にモザイクをかける処理や、または出演シーンをカットする処理が可能となり、スポンサーや視聴者からのクレーム防止になる。
上記処理では、放送局の過去の映像から出演者を検出する。しかし、映像収録から数十年経つと出演者の顔も変化していくため、目的の出演者の現在の顔画像を検出対象とすると、検出の精度が落ちる可能性が高くなる。それを解決するために、一度、現在の顔画像を検出対象として検出した結果の顔画像(検出精度の落ちた過去の顔画像)に替えて、検出対象の顔画像として新たに再登録し、再度類似顔画像検出することで検出精度を向上させることができる。すなわち、2ステップの検出(基準顔(基準顔画像)の新情報再登録→類似顔画像検索)による検出精度向上が期待できる。
そして、検出した出演映像のタイムコード情報を編集機に渡すことで、編集者はその出演者が出演している映像にモザイクをかけたり、または出演映像をカットすることが可能となる。
また、出演時期(撮影時期)が近い顔画像であれば、同じような特徴量が現れると考えられるため、同じような特徴量を辿りながら出演時期が開いている顔画像も検出することができる。また、同様に横顔の映像が欲しい場合は、横顔を検出対象の顔画像として再登録し、類似顔画像検出することで、より絞った出演シーンの検出が可能となる。
そして、検出した出演シーンのタイムコード情報を編集機に渡すことで、編集者はその出演者が出演しているシーンのみを纏めた特集番組を作成することが可能となる。
現在の放送局では、編集完了した映像(編集済み映像)を光学メディア5aで記録し、それを再生装置にかけて放送出力するか、または、その光学メディア5aから送出サーバ18に取り込んで放送出力する運用が多い。そのため、光学メディア5aから映像ファイルを取り出し、類似顔画像検出装置16(類似顔検出装置)内で映像ファイルを再生させ、再生映像から顔の映像のみ切出して、切出した顔画像をタイムコードと共に顔画像蓄積サーバ127に保存しておき、目的の出演者の顔画像を検出対象として類似顔検出することで担当者は映像を目視しなくても出演シーンを探すことが可能となる。ここで、検出対象とする顔画像を正面顔、横顔、斜め顔等複数準備しておくことにより、探したい出演者が出演しているシーンをより精度よく検出することが可能となる。
以上、本発明を実施形態をもとに説明した。この実施形態は例示であり、それらの各構成要素の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。