JP2019092025A

JP2019092025A - 編集システム

Info

Publication number: JP2019092025A
Application number: JP2017219011A
Authority: JP
Inventors: 治彦小島; Haruhiko Kojima
Original assignee: Hitachi Kokusai Electric Inc
Current assignee: Kokusai Denki Electric Inc
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2019-06-13
Anticipated expiration: 2037-11-14
Also published as: JP6934402B2

Abstract

【課題】番組中（映像データ中）の検索対象の人物の顔画像の検出を容易にし、モザイク処理等の編集を効果的に行う技術を提供する。【解決手段】編集者は目的の出演者の顔画像ファイル（検出対象顔画像）を類似顔画像検出装置１６に読み込ませる。類似顔画像検出装置１６は、検出対象顔画像と顔画像蓄積サーバ１２７内の顔画像とを比較し、同じ顔の出演者が出演するシーンの顔画像及び、タイムコード情報が検索される。検出した出演シーンのタイムコード情報は、編集装置１４に渡される。編集者は目的の出演者が出演しているシーンを探し出す手間がなく、出演者の特集番組を制作したり出演者にモザイクをかけることができる。また、検出した出演シーンについて、編集装置１４を使用せずに試写したい場合は、低解像度サーバ１２６内の映像ファイルを再生する。【選択図】図１６

Description

本発明は、編集システムに係り、例えば、映像を蓄積している放送局において、祝賀番組や追悼番組などを制作するために、過去の映像の中から特定の出演者の出演シーンを検出して、番組制作のための編集を補助する機能を有する編集システムに関する。

従来、過去の映像資産はＶＴＲテープに記録されており、膨大な数のＶＴＲテープが倉庫に保管されていた。各ＶＴＲテープにはテープ番号が貼られ、テープ番号とともに、そのテープに記録されている番組名や出演者、番組内容概略の情報が管理されていた。そのため、特定の出演者の映像が欲しい場合、放送局の担当者はＶＴＲテープの管理情報を元に、その出演者が出演している番組が記録されているＶＴＲテープを特定していた。

例えば、特許文献１では、同じ番組編集技術として、編集用元素材と編集済素材との関係を抜き出した情報である元素材情報データを作成し、再び編集する場合には、編集済素材とプロジェクトデータと元素材情報データとを使用して編集する技術が提案されている。

特開２０１２−３４２１８号公報

ところで、従来では、ＶＴＲテープのどのシーンに出演しているかを特定するためには、ＶＴＲテープをＶＴＲ装置にかけて再生させ、目視でその出演者の出演シーンを探す必要があり、出演シーンが見つかった場合、出演シーンのタイムコード情報をメモして、編集に使用しており、作業効率や精度の観点から対策の新たな技術が求められていた。

近年、映像資産をＶＴＲテープからＬＴＯテープ等の磁気メディアやブルーレイディスク（登録商標）等の光学メディアにダビングして、これらのメディア内で映像ファイルとして保管する方式に変わりつつある。しかし、出演シーンを探し出すためには、これらのメディア内の映像ファイルを再生して目視する必要があることには変わりはなく、同様の課題があった。

また、番組の編集が完了してから放送直前に出演者が問題を起こしたことにより、その出演者の放送が不可になった場合は、その出演者にモザイクをかけるか、または出演シーンをカットするための再編集を行う必要がある。再編集するために出演シーンを探し出すためには、編集完了後の映像を再生させて、編集者が目視で出演シーンを探し出す必要があった。この点でも、同様の課題があった。

本発明は、このような状況に鑑みなされたもので、上記課題を解決することを目的とする。

本発明は、放送に用いられる映像ファイルを編集する編集装置を備えた編集システムであって、前記映像ファイルに含まれる出演者の顔画像を取得し、前記顔画像と各出演者の出演映像のタイムコード情報とを関連付けて記録する顔画像蓄積サーバと、前記顔画像蓄積サーバに記録されている顔画像と、特定番組の映像ファイルに含まれる検索対象となる顔画像とを比較し、前記特定番組における出演映像を検出する出演映像検出部と、前記出演映像検出部が検出した出演映像に基づいて、前記特定番組において前記検索対象となる顔画像の人物が出演している他の出演映像を類似顔画像検索により検出し、検出した出演映像のタイムコード情報を前記検索対象となった出演者情報と関連付けて前記編集装置に通知する類似顔画像検出装置と、を備え、前記編集装置は、前記タイムコード情報を用いて前記特定番組の映像ファイルを編集する。
また、前記編集装置は、前記映像ファイルの編集の際に、出演者の前記映像ファイルが前記類似顔画像検出装置の処理対象の記録装置に保存されている場合は、前記記録装置の映像ファイルを再生することで出演映像の映像確認を可能に表示してもよい。
また、前記編集装置は、低解像度映像を使用して検出した出演映像を再生してもよい。
また、前記顔画像蓄積サーバは、検出対象の顔画像を顔の種別と関連付けて保存可能であり、前記類似顔画像検出装置は、前記顔種別に応じて類似顔画像検索を行ってもよい。

本発明よれば、番組中（映像データ中）の検索対象の人物の顔画像の検出を容易にし、モザイク処理等の編集を効果的に行う技術を提供できる。

実施形態に係る、映像編集システムの概略構成を示すブロック図である。実施形態に係る、記録装置の概略構成を示すブロック図である。実施形態に係る、類似顔画像検出装置の概略構成を示すブロック図である。実施形態に係る、編集装置の概略構成を示すブロック図である。実施形態に係る、自動編集情報作成装置の概略構成を示す機能ブロックである。実施形態に係る、編集処理の一例を示すフローチャートである。実施形態に係る、編集処理の一例を示すフローチャートである。実施形態に係る、編集処理の一例を示すフローチャートである。実施形態に係る、処理対象認識部の動作例を示すフローチャートである。実施形態に係る、編集装置における表示方法（タッチパネルディスプレイの表示）の例を示す図である。実施形態に係る、検索キー画像の候補となった画像の特徴量の例を示す図である。実施形態に係る、類似人物検索（類似顔画像検出処理）を実施する手順を示すフローチャートである。実施形態に係る、類似顔画像検索システムに使用可能な検索画面の例を示す図である。実施形態に係る、顔画像蓄積サーバに顔画像を蓄積する手順例を示す図である。実施形態に係る、顔画像蓄積サーバに顔画像を蓄積する手順例を示す図である。実施形態に係る、目的の出演者の顔画像を検出対象として顔画像蓄積サーバから類似顔画像検出した例を示す図である。

以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態の概要は次の通りである。
（１）放送局に蓄積された膨大な過去映像の中から、可能な限り全ての出演者の顔画像のみを切出して出演シーンのタイムコード情報とともに顔画像蓄積サーバに保存しておく。
（２）蓄積された顔画像と目的の出演者の顔画像を比較して、その出演者の出演シーンを検出する。
（３）検出した結果の出演シーンの顔画像を用いて、類似顔画像検出処理によって類似した出演シーンを絞り込む。
（４）検出した出演シーンのタイムコード情報を編集機に渡すことで、その出演者が出演している特集番組の制作を容易にする。
（５）低解像度映像を使用して検出した出演シーンを簡易に再生する。
（６）放送直前に出演者の映像が放送不可になった場合、その出演者が出演しているシーンを特定して、編集（モザイク、カット等）する。

図１は、本実施形態に係る映像編集システム１の概略構成を示すブロック図である。映像編集システム１は、カメラ１０と、収録装置１１と、記録装置１２（ビデオサーバ）と、自動編集情報作成装置１３と、編集装置１４と、管理端末１７と、送出サーバ１８と、システム制御部１５とを備え、それらはＬＡＮ回線や所定の通信回線等のネットワーク２で接続されている。システム制御部１５は、映像編集システム１全体を統括的に制御するものであって、単独で構成されてもよいし、他装置（記録装置１２や編集装置１４など）と同一に含まれて構成されてもよい。

カメラ１０は、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）素子等で撮像した画像にデジタル変換処理を施し、変換結果の画像データ（例えば、ＨＤ−ＳＤＩ規格の素材映像データ）を、収録装置１１を用いて、ネットワーク２を介して記録装置１２へ出力する。記録装置１２（ビデオサーバ）は、これを記憶する。記録装置１２には、ネットワーク２を介して自動編集情報作成装置１３が接続され、素材映像データは自動編集情報作成装置１３に入力されてから、記録装置１２に記憶される。ただし、素材映像データは、自動編集情報作成装置１３を介さずに記録装置１２に直接入力され記憶されてもよい。

図２は、記録装置１２の概略構成を示すブロック図である。記録装置１２は、録画機能及び類似顔画像検出機能（類似顔画像検出装置１６）と、データ保存機能（１２１〜１２７）を備える。

記録装置１２のデータ保存機能について説明する。記録装置１２は、素材映像データを記録する素材映像データ部１２１と、編集済み映像データを記録する編集済み映像データ部１２２と、自動編集済み映像データを記録する自動編集済み映像データ部１２３と、最終編集情報を記録する最終編集情報部１２４と、自動編集情報を記録する自動編集情報部１２５と、低解像度ファイルを記録する低解像度サーバ１２６と、映像中に含まれる顔画像を記録し蓄積する顔画像蓄積サーバ１２７と、を備える。

低解像度サーバ１２６を設ける理由は次の通りである。すなわち、一般に、メディア５（光学メディア５ａ、磁気メディア５ｂ、ＶＴＲテープ５ｃ）内の映像ファイルは高画質で保存する必要があるため、映像ファイルサイズが大きくなる。すなわち、常にアクセス可能なＨＤＤストレージに保存しておくことはできない。低解像度ファイルであれば、ファイルサイズが小さいため常にアクセス可能なＨＤＤストレージに映像ファイルを保存して試写することが可能である。そこで、メディア５をダビングする場合は、低解像度映像（低解像度ファイル）を同時に作成して、低解像度サーバ１２６に記録する。

つづいて、記録装置１２の録画機能及び類似顔画像検出機能を実現する類似顔画像検出装置１６について図３を参照して説明する。

図３は、類似顔画像検出装置１６の概略構成を示すブロック図である。類似顔画像検出装置１６は、画像送受信部２１０と、画像記録部２１１と、再生制御部２１２と、人物領域検出部２１３と、人物特徴量抽出部２１４と、人物特徴量記録部２１５と、属性情報記録部２１６と、要求受信部２１７と、類似人物検索部２１８と、登場イベント検索部２１９と、検索結果送信部２２０と、キーワード記録部１１０と、キーワード検索部１１１とを有する。

画像送受信部２１０は、装置外部からの画像の入出力を行う処理部であり、カメラ１０や他の装置からの入力画像データの受信、他装置（編集装置１４等）への出力画像データの送信を行う。

画像記録部２１１は、入力画像データの記録媒体へ書込みや出力画像データの記録媒体からの読出し（ＶＴＲテープ５ｃの場合はメディア再生装置１９に接続される）を行う。書込みの際には、画像データに加え、画像データを読出す際の情報となる画像ＩＤ（画像の識別情報）も併せて記録する。再生制御部２１２は、編集装置１４への映像再生を制御する。

人物領域検出部２１３は、入力画像データに対し画像認識技術を用いた人物検出を行い、画像中の人物の存在判定をし、人物が存在する場合には、その領域の座標算出を行う。また、人物領域検出部２１３は、人物の「顔」の領域を特定し、その領域を含む顔画像を抽出し、顔画像蓄積サーバ１２７に記録する。

人物特徴量抽出部２１４は、人物領域検出部２１３で検出した領域に対して画像認識技術を用いて特徴量算出を行う。ここで算出する人物特徴量とは、例えば、人物の輪郭の形状や方向、皮膚の色、歩容（どの脚をどのようにどんなタイミングで動かすかといった脚の捌き方）、或いは、人物を特定する代表的な部位である顔の輪郭の形状や方向、目や鼻、口といった主要構成要素の大きさ、形状、配置関係等が挙げられるが、本実施形態においては、使用する特徴量の種類や数はいずれであってもよい。人物特徴量抽出部２１４は、顔種別（正面、横顔、斜め顔、後ろ顔、笑った顔、怒った顔等）を特徴量の種類として判別することができ、検出対象の顔画像とそのような特徴量を関連づけることができる。

人物特徴量記録部２１５は、人物特徴量抽出部２１４で算出した特徴量の記録媒体への書込みと読出しを行う。このとき、人物特徴量は、人物領域検出部２１３が抽出した顔画像を顔画像蓄積サーバ１２７に記録する際に関連付けられる。顔画像には、所定のタイミング（ユーザによる入力または類似顔画像検索による自動付与）で人物の名前と関連付けられる。

画像記録部２１１における画像データの記録媒体と本処理部における人物特徴量の記録媒体とは同一であっても別個であってもよい。

属性情報記録部２１６は、画像データに関連する属性情報の記録媒体への書込みと読出しを行う。属性情報とは、例えば、画像の撮影時刻や撮像装置番号等である。

要求受信部２１７は、編集装置１４からの検索要求やキーワード付与要求の受信を行う。検索要求には、類似顔画像検索要求と、登場イベント検索要求がある。

類似人物検索部２１８は、要求受信部２１７にて受信した要求が類似人物検索要求であった場合に、類似顔画像検索を行う。

登場イベント検索部２１９は、要求受信部にて受信した要求が登場イベント検索要求であった場合に、登場イベント検索を行う。

検索結果送信部２２０は、類似人物検索部２１８や登場イベント検索部２１９から得た類似人物検索結果や登場イベント検索結果の編集装置１４への送信を行う。

キーワード記録部１１０は、要求受信部２１７にて受信したキーワード付与要求に基づくキーワードの記録媒体への書込みと読出しを行う。

キーワード検索部１１１は、要求受信部２１７にて受信した検索要求データ中にキーワードが含まれていた場合に、キーワード検索を行う。

つづいて、図４を参照して編集装置１４（編集機）を説明する。図４は、編集装置１４の概略構成を示すブロック図である。編集装置１４は、素材映像データに対して実際にレンダリング処理等を施す編集処理を行う。

編集装置１４は、実際にこの編集作業を行うプロセッサを具備する編集制御部（編集手段）１４１と、素材映像データ、及びこれに編集が施された後の映像データに基づく映像を表示させる表示部１４２（ディスプレイ）と、その画像や音声における各部分を選択する、あるいは指示を入力するための操作パネル１４３（操作手段）と、類似顔画像検出操作部１０３とを備える。表示部１４２と操作パネル１４３とが一体化されたタッチパネルディスプレイ１４４として設けられてもよい。

編集制御部１４１は、素材映像データと上記の自動編集情報を記録装置１２（自動編集情報部１２５）から読み出し、自動編集情報に基づいて素材映像データを編集した新たな映像データ（自動編集済み映像データ）を作成し、自動編集済み映像データを記録装置１２（自動編集済み映像データ部１２３）に記憶させる。

ただし、編集装置１４においては、この自動編集済み映像データに基づく画像をユーザが表示部１４２で確認した上で、操作パネル１４３を操作して、自動編集済み映像データにおいて処理が施された部分のうち、適切でないと認識された部分の処理を解除するための指示を編集制御部１４１に出し、この処理の解除を行うこともできる。この場合には、素材映像データを参照することもできる。

同様に、編集制御部１４１は、自動編集済み映像データに対して、更に追加の処理を施すこともできる。この際に新たに処理の対象となる部分は、ユーザによって指定される。この際にも、ユーザは、自動編集済み映像データに基づく映像を表示部１４２で確認した上で、操作パネル１４３を操作して、この操作を行うことができる。こうしたユーザによる操作によって、前記の自動編集情報が書き換えられた最終編集情報が生成される。この最終編集情報は素材映像データに対する編集処理に反映されると共に、後述されるように、処理対象情報の更新に利用される。

同様に、編集制御部１４１は、記録装置１２から素材映像データを直接読み込み、この素材映像データに基づく画像を表示部１４２でユーザに確認させた上で操作パネル１４３を操作させ、前記の自動編集情報を用いずに、処理の対象となる部分を指定し、レンダリング処理を施す操作を行うこともできる。この操作においては、ユーザは、自動編集情報とは無関係に、素材映像データに対してレンダリング処理を行うことができる。

編集制御部１４１は、このように、自動編集情報に基づいて編集された自動編集済み映像データ、ユーザによって自動編集済み映像データ又は素材映像データが編集された編集済み映像データを、記録装置１２に記録させることができる。

類似顔画像検出操作部１０３は、機能構成として、検索要求送信部２２１、検索結果受信部２２２、検索結果表示部２２３、再生画像表示部２２４、画面操作検知部２２５、キーワード付与要求送信部１１２、複数検索キー選択部１１３の各処理部を有する。

検索要求送信部２２１は、検索要求の記録装置１２への送信を行う。類似人物検索の場合、検索要求データには、類似人物検索の検索キーとして、人物の名前、検索キー画像（特に顔画像）或いはその特徴量が含まれる。また、検索要求データには、絞込みパラメータを含めることも可能である。

検索結果受信部２２２は、検索結果の記録装置１２（類似顔画像検出装置１６）からの受信を行う。検索結果として受信するデータには、記録装置１２（類似顔画像検出装置１６）において、類似人物検索、或いは、登場イベント検索を実施して得られた画像の集合が含まれる。集合を構成する個々の画像は、記録装置１２（類似顔画像検出装置１６）に記録された映像から画像サイズ縮小処理等を施して生成される。以下、この個々の画像を「検索結果画像」、検索結果として送受信するデータを「検索結果データ」ともいう。

検索結果表示部２２３は、検索結果受信部２２２にて受信した検索結果の画面表示を行う。表示される画面例については後述する。
再生画像表示部２２４は、記録装置１２（類似顔画像検出装置１６）から入力された画像データの画面への連続動画表示を行う。
画面操作検知部２２５は、ユーザによる操作内容の検知及び取得を行う。
キーワード付与要求送信部１１２は、キーワード付与要求の記録装置１２（類似顔画像検出装置１６）への送信を行う。
複数検索キー選択部１１３は、検索キー画像の候補が複数選択されたときに、より少ない数の検索キー画像を適切に選択する処理を行う。

図５は、自動編集情報作成装置１３の機能ブロックである。自動編集情報作成装置１３は、処理対象認識部１３１と、情報記憶部１３２とを備える。情報記憶部１３２は、最終編集情報部１２４と、自動編集情報部１２５と、処理対象情報部１２８とを備える。最終編集情報部１２４、自動編集情報部１２５は、記録装置１２に設けられるものと同一であってもよいし、別に設けられてもよい。

自動編集情報作成装置１３は、この素材映像データを読み込み、処理対象認識部１３１で、レンダリング処理を施す部分を認識する。この際、処理対象認識部１３１におけるプロセッサは、情報記憶部１３２に記憶された処理対象情報を基にして、この認識を行い、このように処理の対象となる部分とその処理についての情報（自動編集情報）を記録装置１２に記憶させる。

自動編集情報の内容における処理の対象となる部分に関する情報としては、具体的には、処理対象となる部分の映像フレーム位置（タイムコード情報）、映像上の座標、あるいは処理対象が音声の場合には音声サンプルの位置の範囲、処理の内容等がある。処理の内容としては、処理対象が映像の場合にはモザイク処理、ブラー処理、映像カット、輝度の増減処理、処理対象が音声の場合にはミュート処理、音量調整等がある。また、処理の対象とする理由（例えば放送禁止に該当する、特定企業名である等）も処理対象情報に含まれる。

処理対象情報としては、例えば映像の配信先（目的）等に応じ、複数のものを設定することができる。これに応じて、例えばある一つの配信先に対しては処理の対象とならない部分を他の配信先に対しては処理の対象とすること、上記の処理の内容を配信先に応じて変える、等の操作が可能となる。こうした場合には、処理対象情報がユーザによって選択される構成とされる。

また、後述するように、最終的に素材映像データに対して編集が行われる際には、処理対象となった部分や処理の内容は、ユーザによって確認された後に、修正が施される。こうした最終的な編集情報（最終編集情報）あるいは最終編集情報と自動編集情報との違いに関する情報も、情報記憶部１３２に記憶される。

以上の構成による動作例を説明する。
まず、図６〜１０を参照して編集処理例を説明し、次に図１１〜１３を参照して類似人物検索処理（特に類似顔検出処理）について説明し、さらに図１４〜１６を参照して類似顔検出処理を編集処理に適用した処理例を説明する。

図６は、システム制御部１５が行わせる具体的な動作を示すフローチャートの一例である。ここでは、単純化のために、編集装置１４を用いてユーザによって指定された処理は行われないものとする。また、図１において、素材映像データは自動編集情報作成装置１３を介してのみ記録装置１２に入力する（記憶される）ものとする。

まず、収録装置１１は、素材映像データを入手する（Ｓ１）。自動編集情報作成装置１３は、この素材映像データを入手し、素材映像データ中の画像において処理対象となる部分があるかを解析する（Ｓ２）。ここでは、処理対象認識部１３１が、情報記憶部１３２中の情報を参照し、素材映像データ中の画像において処理対象となる部分があるかを認識し、この部分が認識された場合には、この部分に対する処理も、情報記憶部１３２中の情報に基づき、決定する（Ｓ３）。これによって、自動編集情報が作成される。処理の対象となる部分が認識されなかった場合（Ｓ４のＮｏ）には、素材映像データがそのまま記録装置１２に記憶される（Ｓ５）。

処理の対象となる部分が認識された場合（Ｓ４のＹｅｓ）、システム制御部１５は、素材映像データを記憶するか否かをユーザに問い合わせる（Ｓ６）。記憶しない場合（Ｓ６のＮｏ）、前記の通り、編集装置１４を用いて、この素材映像データに対して自動編集情報に基づく編集を行わせた自動編集済み映像データを作成し（Ｓ７）、この自動編集済み映像データと自動編集情報とを記録装置１２に記憶させる（Ｓ８）。この場合には、記録装置１２に記憶される映像データは、編集後の自動編集済み映像データのみとなる、あるいは、素材映像データが記録装置１２に記憶されていた場合には、素材映像データは自動編集済み映像データに置き換えられる。

素材映像データを記憶する場合（Ｓ６のＹｅｓ）、システム制御部１５は、素材映像データと自動編集情報を記録装置１２に記憶させた後（Ｓ９）、ユーザに対して、自動編集を行うか否かの確認を行う（Ｓ１０）。自動編集を行わない場合（Ｓ１０のＮｏ）、処理は終了する。この場合には、記録装置１２には編集前の素材映像データと自動編集情報が記憶される。このため、この時点では自動編集済み映像データは存在しないが、編集装置１４を用いて、後で容易に自動編集済み映像データを作成することができる。

自動編集を行う場合（Ｓ１０のＹｅｓ）、システム制御部１５は、編集装置１４に自動編集済み映像データを作成させ（Ｓ１１）、これを記録装置１２に記憶させる（Ｓ１２）。この場合、記録装置１２には、元となった素材映像データ、自動編集情報、自動編集済み映像データの全てが記憶される。このため、例えば、上記のように複数の処理対象情報が設定された場合において、同一の素材映像データに対して他の処理対象情報を用いた処理を後で行うことが容易となる。

なお、記録装置１２が収録装置１１から素材映像データを直接受信してこれを記憶する場合には、上記のＳ６〜Ｓ８の工程は不要となる。ただし、自動編集済み映像データが記憶された（Ｓ１２）後に、素材映像データを削除してもよい。

図６のフローチャートにおいては、素材映像データの入力があった後におけるシステム制御部１５の動作が示された。一方、素材映像データが記録装置１２に予め記憶されている状態でシステム制御部１５に対して映像の配信（出力）要求があり、これに応じて素材映像データが編集された後の映像データを出力させる場合もある。

図７は、こうした場合におけるシステム制御部１５の動作の一例を示すフローチャートである。ここでは、少なくとも素材映像データは記録装置１２に記憶されているものとする。

まず、システム制御部１５は、配信の要求があった場合（Ｓ２１）、記録装置１２に自動編集済み映像データが記憶されているか否かを確認する（Ｓ２２）。自動編集済み映像データが記憶されていなかった場合（Ｓ２２のＮｏ）、自動編集情報が記憶されているか否かを確認する（Ｓ２３）。

自動編集情報が存在する場合（Ｓ２３のＹｅｓ）、システム制御部１５は、前記のように編集装置１４を用いて自動編集済み映像データを作成し、これを記録装置１２に記憶させる（Ｓ２４）。自動編集情報が存在しない場合（Ｓ２３のＮｏ）、システム制御部１５は、自動編集情報作成装置１３を用いて自動編集情報を作成し（Ｓ２５）、同様に編集装置１４を用いて自動編集済み映像データを作成し、これを記録装置１２に記憶させる（Ｓ２４）。これによって、自動編集済み映像データが記憶されていなかった場合（Ｓ２２のＮｏ）、自動編集済み映像データが新たに作成されて記録装置１２に記憶される。

自動編集済み映像データが記憶されていた場合（Ｓ２２のＹｅｓ）、あるいは上記のように新たに自動編集済み映像データが作成・記憶された場合（Ｓ２４）、システム制御部１５は、この自動編集済み映像データに基づく画像を編集装置１４（表示部１４２）で表示させ（Ｓ２６）、この内容で配信してよいか否かをユーザに問い合わせる（Ｓ２７）。

この内容で配信してよい場合（Ｓ２７のＹｅｓ）、この自動編集済み映像データを、配信が許可された編集済み映像データと設定する（Ｓ２８）。一方、この内容からの変更を希望する場合（Ｓ２７のＮｏ）、システム制御部１５は、編集装置１４を用いて自動編集済み映像データを更に編集させ（Ｓ２９）、この編集後の映像データを、配信が許可された編集済み映像データと設定し、記録装置１２に記憶させる（Ｓ３０）。この際、前記の通り最終編集情報も作成し、記憶させる。

その後、システム制御部１５は、上記のように記録装置１２に記憶された編集済み映像データを配信させる（Ｓ３１）。

また、自動編集情報が作成されてもこれを適用して自動編集済み映像データを作成するのには時間を要し、記録装置１２に様々な映像データを記憶させるのにも時間を要する。このため、配信において不要となることが明らかな映像データを記憶させない、作成しないことが好ましい。更に、処理の時間を短縮するために、ユーザが他の装置を用いて同時に映像を確認する場合もある。

図８は、こうした点を考慮したシステム制御部１５の動作を示すフローチャートの一例である。

ここでは、収録装置１１が素材映像データを入手したら（Ｓ４１）、この素材映像データをそのまま記録装置１２に記憶するか否かが判断される（Ｓ４２）。素材映像データの記憶が不要であると認識された場合（Ｓ４２のＮｏ）、前記の通りに自動編集処理が行われて自動編集済み映像データが作成され（Ｓ４３）、この自動編集済み映像データを配信用の映像データであるとして記録装置１２に記憶する（Ｓ４４）。この場合においては、記録装置１２に記録される映像データは自動編集済み映像データのみである。

素材映像データの記憶をすると認識された場合（Ｓ４２のＹｅｓ）、素材映像データが記録装置１２に記憶される（Ｓ４５）。その後、他装置も用いて素材映像データの解析を行うか否かが問い合わせられる（Ｓ４６）。他装置も用いて素材映像データの解析を行う場合（Ｓ４６のＹｅｓ）、ユーザは、他装置を用いて素材映像データの解析を行い（Ｓ４７）、その上で編集装置１４を用いた以降の処理を開始させることができる。この解析結果を、以下の判定（Ｓ５０、Ｓ５６）に利用できる。

その後、自動編集を直ちに行うか否かが問い合わせられ（Ｓ４８）、直ちに行わない場合（Ｓ４８のＮｏ）、自動編集情報作成装置１３によって自動編集情報が作成され（Ｓ４９）、その後で編集装置１４は、この自動編集情報の内容でよいか否かを問い合わせる（Ｓ５０）。

この問い合わせを行う際には、実際に自動編集済み映像データは作成されていないが、ユーザは、この自動編集情報に基づく編集後の内容を確認するために、前記の通り、ある一時点での静止画像を用いて、この確認をすることが可能である。

この内容を変更したい場合（Ｓ５０のＮｏ）、編集装置１４は、ユーザにその修正を行わせる（Ｓ５１）。その後、内容の変更がない場合（Ｓ５０のＹｅｓ）、そのままの自動編集情報に基づいて、素材映像データに対する実際の編集作業が行われた編集済み映像データが作成される（Ｓ５２）。この編集済み映像データが、配信用の映像データとして記録装置１２に記憶される（Ｓ５３）。この場合には、最終的に内容が確定するまで編集済み映像データは作成されない。

自動編集を直ちに行う場合（Ｓ４８のＹｅｓ）、直ちに自動編集情報とこれに基づいた自動編集済み映像データが作成され（Ｓ５４）、自動編集済み映像データを表示部１４２で表示させる（Ｓ５５）。この場合には、ユーザは、自動編集済み映像データの全ての時点で、この編集内容が適正か否かを詳細に確認することができる（Ｓ５６）。

その後、この編集内容の修正を望む場合（Ｓ５６のＮｏ）には、上記と同様にその修正作業、確認が行われ（Ｓ５７）、その後に再びこの修正後の編集情報に基づき新たな映像データ（編集済み映像データ）が作成され（Ｓ５８）、この編集済み映像データが配信用の映像データとして記録装置１２に記憶される（Ｓ５９）。この際に作成された最終編集情報も同時に記憶される。

自動編集情報に基づく編集が適正であると認められた場合（Ｓ５６のＹｅｓ）には、既に作成された自動編集済み映像データが、配信用の映像データとして記録装置１２に記憶される（Ｓ６０）。

上記の動作においては、素材映像データに対して実際に編集処理を施すことを必要最小限に留めることによって処理時間を短くし、かつユーザによる編集処理が適正か否かのチェックを確実に行うことができ、その修正も行われる。

次に、素材映像データにおける処理の対象となる部分を認識するために情報記憶部１３２に記憶される処理対象情報について説明する。こうした処理の対象となる部分としては、前記のような時刻表示、映り込んだ自動車の登録ナンバー、企業名、映り込んだ人物の顔等がある。時刻表示や登録ナンバーは、数字をパターン認識することによって認識することができ、企業名は文字のパターン認識によって認識することができ、顔もパターン認識手法によって認識することができる。

前記の通り、上記の編集装置１４においては、ユーザ自身が操作パネル１４３を操作することによって、こうした処理の対象となる部分を設定することもでき、その後にこの操作が反映された最終編集情報が作成される。この場合、この最終編集情報を処理対象認識部１３１が認識して、処理対象情報を更新（あるいは作成）することもできる。この場合、処理対象認識部１３１は、処理対象情報をより好ましい内容に更新する処理対象情報改変手段として機能する。

図９は、処理対象認識部１３１におけるこうした動作の流れを示す図である。
まず、初期状態（初期設定）の処理対象情報は、ユーザによって作成される（Ｐ１）。ここでは、例えば、処理の対象として必要最小限でありかつ認識が比較的容易なもののみが対象として選定される。また例えば、前記のような画像中の時刻表示を、こうした対象とすることができる。この処理対象情報を用いて、前記のようにこの映像編集システム１が繰り返し用いられる。この際、前記のように、自動編集情報による編集に加え、あるいはこの編集に代わり、ユーザによっても編集作業が行われ、最終的に素材映像データに対して適用された最終編集情報が作成され、この最終編集情報も情報記憶部１３２に記憶される。

このため、処理対象認識部１３１は、自動編集済み映像データの基となった自動編集情報と、その後に生成された最終編集情報とを比較することによって、自動編集情報の基となり情報記憶部１３２に記憶された処理対象情報を改変することができる。例えば、画像中のある文字列が処理対象情報における処理の対象に含まなかったために自動編集情報においては処理の対象とされていなかったが、ユーザによって後で指定されて最終編集情報においては処理の対象とされた場合には、この文字列を処理の対象として追加するように処理対象情報を改変することができる。逆に、画像中のある文字列が処理対象情報における処理の対象に含まれたために自動編集情報においては処理の対象とされたが、ユーザによって後でこの指定が解除されて最終編集情報においては処理の対象とされなかった場合には、この文字列を処理の対象から削除するように処理対象情報を改変することができる。処理対象情報における処理の内容（ブラー処理等）についても、同様に改変することができる。こうした作業は、例えば画像中の顔認識を用いれば、特定の人物を処理の対象とする場合においても同様に行うことができる。

また、このように処理の対象として選択されたか否かという単純な判断を用いずに、処理対象認識部１３１は、記録された複数の最終編集情報における統計的処理に基づいて、処理対象情報を改変することもできる。この際、例えば、最終編集情報と自動編集情報との相違点の各々を数値評価してその数値の総計を点数として算出し、この数値に基づき、処理対象情報を改変することもできる。例えば、この点数が大きかった（違いが大きかった）最終編集情報を抽出し、これらの中で共通の処理対象とされ処理対象情報に含まれなかったものを、新たに処理対象情報に取り入れることができる。

このため、図９のフローにおいては、初期状態の処理対象情報（Ｐ１）を用いてこの映像編集システム１が用いられ、この際に、ユーザの操作により最終編集情報が作成され、情報記憶部１３２に記憶される（Ｐ２）。その後、上記のように、最終編集情報と自動編集情報の違いが数値化されて評価される（Ｐ３）。この数値に基づき、総合的解析として、現在の処理対象情報を書き換えることが好ましいか、あるいはどのように書き換えるかが判定され（Ｐ４）、最終的に処理対象情報が更新される（Ｐ５）。ここで、図９に示されるように、最終的な判定（Ｐ４）に際しては、上記のような最終編集情報と自動編集情報の違いだけでなく、編集装置１４におけるユーザによる編集作業の傾向（例えばあるユーザにおいては編集作業が多く、他のあるユーザでは編集作業が少ない）や、初期設定（Ｐ１）後に新たに発生した事情によって追加された画像に対する条件、等も考慮することができる。

このような処理対象情報の改変作業は、この映像編集システム１が使用されて最終編集情報が作成される度に繰り返してもよく、周期的に行ってもよい。また、上記の点数を用いる場合には、この点数の累積値に応じて行ってもよい。

このように、処理対象情報を、多数の最終編集情報を基にして改変する作業は、周知の機械学習手法（ディープラーニング）等を用いても行うことができる。前記のように、映像の配信先等に応じて複数の処理対象情報が設定される場合には、これらの作業も処理対象情報毎に行うことができる。

ユーザ自身が自動編集済み映像データに対する評価を入力できる設定とするための問い合わせ、入力は、編集装置１４における表示部１４２、操作パネル１４３（タッチパネルディスプレイ１４４）を用いて行うことができる。

図１０は、こうした表示の一例である。ここでは、表示Ｋにおいて、自動編集情報（処理の対象となる部分の各々及びそれぞれにおける処理の内容）の説明及びその適用の可否が行われ、上側の表示Ｌで、この際の自動編集情報の評価がユーザによって入力される。その後で下側の表示Ｍを操作することによって、自動編集情報が表示Ｋの操作を反映して改変された最終編集情報を用いた編集処理が実行される。

素材映像データには様々な種類のものがあり、場合によっては、一般的ではない特殊部分に対して処理を施す場合もある。こうした場合においては、自動編集情報と最終編集情報の違いが大きくなった場合でも、この場合の最終編集情報は、一般的に用いられる処理対象情報の改変に用いないことが好ましい。図１０に示されたように、この場合の自動編集情報を評価の対象としないことを選択した場合には、このように特殊な場合の最終編集情報は処理対象情報の改変には使用されない。

このように、新たに作成された最終編集情報をフィードバックして処理対象情報を更新する方法として、上記の他にも、様々な手法が適用可能である。

また、例えば、上記の処理の対象となりうる部分としては、映り込んだ人物の顔があり、処理対象認識部１３１は画像中における顔を認識することが可能である。ここで、例えば、映り込んだ人物が複数おり、ある特定の人物の顔のみに対して処理を適用したい場合、あるいは逆にこの特定の人物以外の全ての人物の顔に処理を施したい場合がある。こうした場合には、処理対象情報において、人物の顔を上記の第１のレベルに設定すれば、前記の放送禁止用語の場合と同様に、警告のみを発し、この警告が解除されない限り、自動編集済み映像データを作成せず、かつ素材映像データも配信しない構成とすればよい。その後、ユーザは、映り込んだ全ての顔のうち、特定の人物の顔のみに処理を行う、あるいは逆に特定の人物の顔のみに処理を行わないように、操作パネル１４３を制御して最終編集情報を作成し、この最終編集情報に応じて編集済み映像データを作成した後に、これを配信させることができる。

なお、上述の構成においては、記録装置１２（ビデオサーバ）に、処理対象認識部（処理対象認識手段、処理対象情報改変手段）１３１、情報記憶部（情報記憶手段）１３２を具備する自動編集情報作成装置１３と、編集制御部（編集手段）１４１、表示部（表示手段）１４２、操作パネル（操作手段）１４３を具備する編集装置１４が接続され、上記の動作が行われた。しかしながら、上記と同様の機能をもつ処理対象認識手段、処理対象情報改変手段、情報記憶手段、編集手段、表示手段等が素材映像データに関わって設けられ、自動編集済み映像データ、自動編集情報、最終編集情報等を作成することができる限りにおいて、具体的な装置の構成は任意である。すなわち、使用される各装置において上記の各手段がどのように設けられるかは任意であり、上記の各手段が全て単一の装置内に設けられていてもよい。

次に図１１〜１８を参照して類似人物検索処理（特に類似顔検出処理）について説明する。当該処理は、類似顔画像検出装置１６や編集装置１４（特に類似顔画像検出操作部１０３）の機能により実行されるもので、特開２０１３−１０１４３１号公報に開示の技術を顔画像の認識処理に適用したものである。以下では、開示されている主要部分を例示する。

図１１（ａ）〜（ｇ）には、本実施例において、類似人物検索を実施する手順に沿って、検索キー画像の候補となった画像の特徴量を例示している。図１２には、類似人物検索（類似顔検出処理）を実施する手順を例示している。

まず、最初のキー画像による検索処理６００１では、ユーザが選択した最初の検索キー画像によって最初の検索が行われる。ここでは、最初の検索キー画像に選択された画像の特徴量（本例では、画像中の人物の特徴量）と距離が近い特徴量を有する画像を記録装置１２内の類似人物検索部２１８を通じて検索し、その結果、例えば１０件の画像が検索される。

図１１（ａ）には、最初の検索キー画像の特徴量を「○」で示してある。ここでは、説明の分かり易さのために画像の特徴量を２次元で表現しているが、実際には、画像の特徴量は例えば数百次元といった非常に多くの次元数を持つ場合が多い。

ここで、検索結果である１０件の画像のうち３件が最初の検索キー画像と同一の対象であるとする。検索結果から同一人物を選択する処理６００２では、１０件の検索結果画像から目的の３件の画像を選択する。具体的には、例えば、ユーザが編集装置１４の操作パネル１４３やマウス（図示せず）を操作して目的の画像を選択する。なお、画像の特徴量について閾値を設け、最初の検索キー画像の特徴量と検索結果画像の特徴量との距離が閾値以下なら同一の対象（同一人物）であると判断し、該当する検索結果画像を自動選択する方法としてもよい。

図１１（ｂ）には、図１１（ａ）の内容に加え、検索結果から同一人物を選択する処理６００２によって選択された画像の特徴量を「△」で示してある。このような処理によって選択された画像は、新たな検索キー画像の候補となる。

ここで、検索結果画像が動画を形成する連続的な画像のうちの１枚であるとすると、その動画における検索結果画像の前後にも同一人物の画像が含まれている場合が多い。検索結果前後の同一人物を選択する処理６００３では、検索結果画像が抽出された動画における検索結果画像の前又は後の所定長の時間帯に含まれる複数の画像から、人物の位置や進行速度等に基づいて検索結果画像の人物と同一人物（すなわち、検索キー画像の人物と同一人物）と判定される画像を自動的に選択する。なお、ユーザが指定できるようにしてもよい。

図１１（ｃ）には、図１１（ｂ）の内容に加え、検索結果前後の同一人物を選択する処理６００３によって選択された画像の特徴量を「□」で示してある。このような処理によって選択された画像は、新たな検索キー画像の候補となる。

マスクを付加する画像処理６００４では、これまでの処理で新たな検索キー画像の候補とした人物の画像に対し、画像処理で鼻や口を覆うマスクを付加した画像を生成し、新たな検索キー画像の候補に追加する処理を行う。なお、これとは逆に、画像処理前の人物の画像が鼻や口を覆うマスクをしている場合に、画像処理でマスクを外すようにする処理を行ってもよい。また、マスクの画像は複数種類の画像を準備してもよい。

サングラスや眼鏡を付加する画像処理６００５では、これまでの処理で新たな検索キー画像の候補とした人物の画像に対し、画像処理でサングラスや眼鏡を付加した画像を生成し、新たな検索キー画像の候補に追加する処理を行う。なお、これとは逆に、画像処理前の人物の画像がサングラスや眼鏡をかけている場合に、画像処理でサングラスや眼鏡を外すようにする処理を行ってもよい。また、サングラスや眼鏡の画像は複数種類の画像を準備してもよい。

人物の向きを変更する画像処理６００６では、これまでの処理で新たな検索キー画像の候補とした人物の画像に対し、画像処理で人物の向きを変更した画像を生成し、新たな検索キー画像の候補に追加する処理を行う。人物の向きは通常複数であるが、単純な左右反転であってもよい。

図１１（ｄ）には、図１１（ｃ）の内容に加え、マスクを付加する画像処理６００４、サングラスや眼鏡を付加する画像処理６００５、人物の向きを変更する画像処理６００６の結果生成された複数の画像の特徴量を「×」で示してある。このような処理によって生成された画像は、新たな検索キー画像の候補として追加される。

なお、マスクを付加する画像処理６００４、サングラスや眼鏡を付加する画像処理６００５、人物の向きを変更する画像処理６００６は、最初の検索キー画像、検索結果から同一人物を選択する処理６００２の結果の画像、検索結果前後の同一人物を選択する処理６００３の結果の画像のいずれを対象にして施してもよい。また、対象の画像に対していずれか１つの画像処理を施してもよく、任意の２つの画像処理を施してもよく、３つの画像処理を全て施してもよい。また、対象の画像の明暗を変える画像処理など、上記以外の画像処理を施してもよい。

次に、クラスタリング処理６００７では、これまでの処理６００１〜６００６により検索キー画像の候補とされた複数の画像をクラスタリングして、各クラスタを代表する画像（或いはその特徴量）を求める。クラスタリング方法としては、ｋ−ｍｅａｎｓ法などの公知の技術を用いることができる。各クラスタを代表する画像としては、例えば、そのクラスタに含まれる画像の特徴量の平均に最も近い画像が用いられ、その画像の特徴量が新たな検索キーとされる。なお、クラスタに含まれる画像の特徴量の平均をそのまま新たな検索キーとしてもよい。

図１１（ｅ）には、これまでの処理６００１〜６００６によって得られた新たな検索キー画像の候補がクラスタリング処理６００７によってクラスタに分けられた様子と、各クラスタを代表する画像の特徴量を例示してある。図１１（ｅ）では、３つのクラスタを枠線で囲って示してあり、各クラスタを代表する画像の特徴量として、各クラスタの重心に最も近い画像の特徴量Ｐ１１、Ｐ１２、Ｐ１３がそれぞれ選択されている。

代表する検索キーによる検索処理６００８では、クラスタリング処理６００７によって得られた各クラスタを代表する画像の特徴量を新たな検索キーに用いて類似画像検索を行い、結果を出力する。

ここで、図１１（ｅ）の例では、最初の検索キー画像に関連する画像（処理６００１〜６００６により得られた画像）は２９枚あるため、従来であれば、これらの画像の特徴量を新たな検索キーとした検索を２９回繰り返していたところ、本実施例においては、クラスタリング処理６００７によって得られた各クラスタを代表する３つの画像の特徴量を用いて類似顔画像検索を行うことで、特徴量のバランスをとりつつ３回の検索で済むようにしている。ここでは、クラスタの数を３としたが、これは設定によって変えることができる。

次に、図１３を参照して編集装置１４の類似顔画像検出操作部１０３の画面について説明する。図１３には、本例の類似顔画像検索システムに使用可能な検索画面を例示してある。

検索画面は、再生画像表示領域３００１、画像再生操作領域３００３、検索キー画像指定領域３００４、検索絞込パラメータ指定領域３００８、検索実行領域３０１７、検索結果表示領域３０２０を有する。

再生画像表示領域３００１は、（類似顔画像検出装置１６や）記録装置１２に記録された画像を動画像として表示する領域である。また、再生画像表示領域３００１の動画３００２は、記録装置１２に記録された画像を動画像として表示するものである。

画像再生操作領域３００３は、記録装置１２に記録された画像を再生操作する領域である。本領域３００３を構成する各ボタンには、それぞれ固有の再生種類が割当てられている。本図においては、巻戻し、逆再生、再生停止、順再生、早送りの再生種類が左から順に割当てられている例を示している。ユーザが各ボタンをマウス２８２で適宜押下することにより、動画３００２がボタンに割当てられた再生種類に切り替る。

検索キー画像指定領域３００４は、検索キー画像の指定と表示を行う領域である。本領域３００４は、検索キー画像３００５と、映像指定ボタン３００６、ファイル指定ボタン３００７を有する。

検索キー画像３００５は、類似検索のための最初の検索キー画像とする画像である。初期状態においては、検索キー画像は、未指定であるので、画像表示はされていない状態となる。なお、未指定の場合に、別途用意した未指定状態を示す画像を表示する等、未指定である旨の表記をするようにしてもよい。

映像指定ボタン３００６は、押下時に再生画像表示領域３００１に表示されている画像を、検索キー画像３００５として指定するボタンである。

ファイル指定ボタン３００７は、記録装置１２に記録されている画像以外の画像、例えば、デジタルスチルカメラで撮影した画像やスキャナで取込んだ画像等を、検索キー画像３００５として指定するボタンである。このボタン３００７を押下すると、それらの画像をファイル指定するダイアログボックスが表示され、ユーザはそこで所望の画像を指定することができる。

検索絞込パラメータ指定領域３００８は、検索の際の絞込パラメータの種類とその値（範囲）を指定する領域である。本領域３００８は、撮像装置指定チェックボックス３００９、３０１０、３０１１、３０１２と、タイムコード指定チェックボックス３０１３、３０１４と、タイムコード指定欄３０１５、３０１６を有する。

撮像装置指定チェックボックス３００９、３０１０、３０１１、３０１２は、検索の際に検索対象とする撮像装置（カメラ１０等）を指定するチェックボックスである。本チェックボックス３００９、３０１０、３０１１、３０１２は、押下すると選ばれたことを示すチェックマークがそれぞれ表示される。このマークは再押下すると非表示となり、押下で表示・非表示を繰り返す。

タイムコード指定チェックボックス３０１３、３０１４は、検索の際に検索対象とする時刻範囲を指定するチェックボックスである。表示の態様については本チェックボックスも他のチェックボックスと同様である。タイムコード指定チェックボックス３０１３を選択状態にした場合には時刻範囲に先頭時刻を与える。非選択状態にした場合には、時刻範囲に先頭時刻を与えない、すなわち、記録装置１２に記録された最も古い時刻の画像までを検索対象範囲とすることを意味する。

同様にタイムコード指定チェックボックス３０１４を選択状態にした場合には時刻範囲に末尾時刻を与える。非選択状態にした場合には、時刻範囲に末尾時刻を与えない、すなわち、記録装置１２に記録された最も新しい時刻の画像までを検索対象範囲とすることを意味する。

タイムコード指定欄３０１５、３０１６は、上述の先頭時刻と末尾時刻の値を指定する入力欄である。初期状態においては、全時間帯を検索対象とするため、タイムコード指定チェックボックス３０１３、３０１４は全て非選択状態、タイムコード指定欄３０１５、３０１６は空欄とする。

検索実行領域３０１７は、検索実行を指示する領域である。本領域３０１７は、類似人物検索ボタン３０１８、登場イベント検索ボタン３０１９に加え、検索結果からの類似人物検索ボタン３３００、同一シーンチェックボックス３２０１、マスクチェックボックス３２０２、サングラスチェックボックス３２０３、異なる角度チェックボックス３２０４を有する。

類似人物検索ボタン３０１８は、検索キー画像３００５による類似人物検索（最初のキー画像による検索処理６００１）の実行を指示するボタンである。検索絞込パラメータ指定領域３００８にてパラメータが指定されている場合には、指定されたパラメータに従って類似人物検索の実行を指示する。

登場イベント検索ボタン３０１９は、登場イベント検索の実行を指示するボタンである。検索絞込パラメータ指定領域３００８にてパラメータが指定されている場合には、指定されたパラメータに従って登場イベント検索の実行を指示する。

検索結果表示領域３０２０は、検索結果を表示する領域である。検索結果の表示は、検索結果画像を一覧表示することにより実施する。初期状態においては、検索結果表示領域３０２０には何も表示されない。

ここで、ユーザが、映像指定ボタン３００６を押下し、また、撮像装置指定チェックボックス３００９、３０１０、３０１２を押下し、更に、タイムコード指定チェックボックス３０１３、３０１４を押下し、タイムコード指定欄３０１５、３０１６にそれぞれ「１５：３０：２０：１７」、「１２：３０：２０：１７」と入力したとする。

これにより、図１３に示すように、検索キー画像３００５には、動画３００２に表示された人物「Ａさん」の画像が検索キー画像として指定され、また、検索対象としたい撮像装置２０１として「カメラ１」、「カメラ２」、「カメラ４」の３つが指定され、検索対象としたい時刻範囲として「１５：３０：２０：１７から１２：３０：２０：１７まで」が指定される。

その後、ユーザが、類似人物検索ボタン３０１８を押下したとする。すると、検索結果表示領域３０２０には、検索キー画像３００５を用いて類似人物検索を実行して得られた検索結果が表示される。図１３は、この状態における検索画面の一例を示したものである。検索結果の表示は、検索結果画像（本例では、検索結果画像３０３１〜３１４１）を一覧表示することにより実施する。

検索結果画像３０３１〜３１４１は、例えば、最上段左から右へ、次に２段目左から右へと検索キー画像３００５に対する類似度順に表示する。この表示例においては、検索結果画像３０３１が検索キー画像３００５に対し最も類似度が高く、検索結果画像３１４１が最も類似度が低いということを示している。

この図に示された例の表記において、検索結果表示領域３０２０内の検索結果画像３０３１〜３１４１上に図示した円とアルファベットは、人物の顔と人物名称を簡略表示したものであり、例えば、検索結果画像３０３１には、人物「Ａさん」が登場することを示している。この簡略表示している部分には、もちろん、実際のシステムでの表示では実画像が表示される。

検索結果画像３０３１の周辺には、頭出し再生ボタン３０３２、検索キー画像指定ボタン３０３３、検索対象チェックボックス３３０１を備える。他の検索結果画像３０４１〜３１４１も同様である。

頭出し再生ボタン３０３２は、検索結果画像３０３１を先頭とした連続動画再生開始を指示するボタンである。例えば、頭出し再生ボタン３０３２を押下すると動画３００２が検索結果画像３０３１に切り替り、その検索結果画像３０３１を先頭として始まる動画をユーザは、視聴することができる。

検索キー画像指定ボタン３０３３は、検索結果画像３０３１を新たな検索キー画像に指定するボタンである。例えば、検索キー画像指定ボタン３０３３を押下すると、検索結果画像３０３１が検索キー画像３００５に表示される。これにより、検索結果画像３０３１を使って再検索を実施することができる。

検索対象チェックボックス３３０１は、検索結果からの類似人物検索ボタン３３００を押下した場合に新たな検索キー画像（或いはその候補）として検索結果画像３０３１を指定するチェックボックスである。例えば、検索結果に出てきた「Ａさん」の画像（本例では、検索結果画像２０３１〜３０６１、３０８１、３０９１、３１２１、３１４１）を全てチェックして、検索結果からの類似人物検索ボタン３３００を押すことで、様々なパターンの「Ａさん」を検索することが可能である。

検索結果からの類似人物検索ボタン３３００は、検索キー画像３００５による類似人物検索の結果に基づく再度の類似人物検索（代表する検索キーによる検索処理６００８）の実行を指示するボタンである。再度の類似人物検索では、検索結果表示領域３０２０の表示（最初のキー画像による検索処理６００１の結果）の中からユーザに選択された（検索対象チェックボックスがチェックされた）画像を新たな検索キー画像（或いはその候補）として類似人物検索を再実行する。

同一シーンチェックボックス３２０１は、検索結果表示領域３０２０の表示の中からユーザに選択された画像を対象にして検索結果前後の同一人物を選択する処理６００３を実行し、その結果の画像（対象の画像中の人物と同一人物を映した前後の画像）を新たな検索キー画像の候補に追加することを指定するチェックボックスである。

尚、マスクチェックボックス３２０２は、検索結果表示領域３０２０の表示の中からユーザに選択された画像を対象にしてマスクを付加する画像処理６００４を実行し、その結果の画像（対象の画像中の人物にマスクを付加した画像或いは当該人物からマスクを外した画像）を新たな検索キー画像の候補に追加することを指定するチェックボックスである。

また、サングラスチェックボックス３２０３は、検索結果表示領域３０２０の表示の中からユーザに選択された画像を対象にしてサングラスや眼鏡を付加する画像処理６００５を実行し、その結果の画像（対象の画像中の人物にサングラス等を付加した画像或いは当該人物からサングラス等を外した画像）を新たな検索キー画像の候補に追加することを指定するチェックボックスである。

異なる角度チェックボックス３２０４は、検索結果表示領域３０２０の表示の中からユーザに選択された画像を対象にして人物の向きを変更する画像処理６００６を実行し、その結果の画像（対象の画像中の人物の向きを変更した画像）を新たな検索キー画像の候補に追加することを指定するチェックボックスである。

これらのチェックボックス３２０１〜３２０４の１以上がチェックされた状態で検索結果からの類似人物検索ボタン３３００が押下された場合には、検索結果表示領域３０２０の表示の中からユーザに選択された各々の画像を対象にして、チェックされた状態のチェックボックスに対応する画像処理を実行し、その結果生成された画像を新たな検索キー画像の候補を追加し、その後、新たな検索キー画像の候補に対してクラスタリング処理６００７を実行して各クラスタを代表する検索キー画像を求め、各クラスタを代表する画像の特徴量を検索キーとして用いて類似画像検索を実行する。

以上のように、上記の例では、検索キーの候補である複数の画像の特徴量に基づいて、検索キーとする画像の特徴量を決定する検索キー決定手段と、検索キー決定手段により検索キーに決定された画像の特徴量に類似する特徴量を有する画像を検索する検索手段と、を備えた構成において、検索キー決定手段が、検索キーの候補である複数の画像の特徴量をクラスタリングし、クラスタ毎にそのクラスタを代表する画像の特徴量を検索キーとして決定し、検索手段が、検索キー決定手段により決定されたクラスタ毎の検索キーをそれぞれ用いて検索を行うように構成した。

なお、本例では、編集装置１４の類似顔画像検出操作部１０３の複数検索キー選択部１１３の機能により検索キー決定手段を実現し、類似顔画像検出装置１６の類似人物検索部２１８の機能により検索手段を実現しているが、他の態様により検索キー決定手段及び検索手段を実現しても構わない。

次に、図１４〜１６を参照して上述した類似人物検索処理（類似顔検出処理）を編集処理に適用した処理例を説明する。

上述の様に、従来から行われている出演者の出演シーン（出演映像）を探し出すまでのフローでは、担当者（編集者等）は管理端末で出演者の情報を検索すると、その出演者が出演している番組及び、その番組が記録されているＶＴＲテープ番号の一覧が表示される。その後、担当者は出力されたテープ番号のＶＴＲテープを棚から取り出し、ＶＴＲ再生機にかけて再生する。そして、再生映像を目視して出演シーンを探し、出演シーンのタイムコード情報を記録していた。このようなフローでは、作業効率や精度の観点から、改善が必要とされていた。そこで、次の様なフローによる技術を導入する。

図１４は元の映像が、メディア５（光学メディア５ａ、磁気メディア５ｂ及びＶＴＲテープ５ｃ）に記録されている場合に、顔画像蓄積サーバ１２７に顔画像を蓄積する手順を示す。メディア５を探し出すまでの手順は、従来通りである。

元の映像が光学メディア５ａや磁気メディア５ｂに記録されている場合は、探し出したメディア（光学メディア５ａや磁気メディア５ｂ）から映像ファイルを取り出し、類似顔画像検出装置１６で映像ファイルを再生し、上述の類似人物検索処理の技術を用いて、再生映像から顔部分の映像のみを切出して、切出した顔画像をタイムコード情報と共に顔画像蓄積サーバ１２７に保存する。

蓄積される顔画像は、１種類（一般には正面の顔）のみでなく、顔種別（正面、横顔、斜め顔、後ろ顔、笑った顔、怒った顔等）を検出対象の顔画像として複数登録して保存可能であり、顔画像とその顔種別が関連付けられて記録される。検出対象とする顔画像を複数、特に種別の異なる顔画像を複数、準備しておくことにより、特定の出演者が出演している映像をより精度よく検出することが可能となると共に、特定の出演者の映像の中でも特に欲しい状況（笑った顔の映像が欲しい等）を検出することができる。また、顔画像の蓄積の際に、出演者の名前が特定できている場合には、その名前も登録されてもよい。また、同一出演者について複数の顔画像が顔画像蓄積サーバ１２７に記録される場合に、基準となる顔画像（基準顔画像）が指定されてもよい。基準顔画像は、一つに限る趣旨では無いが、作業性の観点から、顔種別毎に１つや、所定の出演時期（例えば５年間）に一つといった程度に設定されうる。

元の映像がＶＴＲテープ５ｃに記録されている場合は、探し出したＶＴＲテープ５ｃをＶＴＲ再生装置（メディア再生装置１９）で再生し、類似顔画像検出装置１６に取り込む。類似顔画像検出装置１６は、取り込んだ再生映像から、光学メディア５ａや磁気メディア５ｂの場合と同様に、類似人物検索処理の技術を用いて、顔部分の映像のみを切出して、切出した顔画像をタイムコード情報と共に顔画像蓄積サーバ１２７に保存する。

図１５は元の映像が低解像度サーバ１２６に記録されている場合に、顔画像蓄積サーバ１２７に顔画像を蓄積する手順を示す。

元の映像が低解像度サーバ１２６に記録されている場合、担当者が管理端末１７上で出演者の情報を検索すると、その出演者が出演している番組及び、その番組が記録されている低解像度サーバ１２６内の映像ファイル名が出力される。その情報をそのままオンラインで、すなわちネットワーク２を介して類似顔画像検出装置１６に渡される。その結果、低解像度サーバ１２６から映像ファイルを取り出し、類似顔画像検出装置１６で映像ファイルを再生することで再生映像から顔部分の映像のみを切出して、切出した顔画像をタイムコード情報と共に顔画像蓄積サーバ１２７に保存する。

図１６は目的の出演者の顔画像を検出対象として顔画像蓄積サーバ１２７から類似顔検出した図である。

編集者は目的の出演者の顔画像ファイル（検出対象顔画像）を類似顔画像検出装置１６に読み込ませる。検出対象顔画像は、編集対象の映像ファイルから代表的な顔画像として抽出された画像でもよいし、顔画像蓄積サーバ１２７に含まれる顔画像から選択された顔画像でもよいし、ウェブ上の画像から取り込んだ画像でもよい。類似顔画像検出装置１６は、検出対象顔画像と顔画像蓄積サーバ１２７内の顔画像とを比較し、同じ顔の出演者が出演するシーンの顔画像及び、タイムコード情報が検索される。

ここで検出した出演シーンのタイムコード情報が編集装置１４に渡される。編集者は目的の出演者が出演しているシーンを探し出す手間がなく、出演者の特集番組を制作したり出演者にモザイクをかけることが可能となる。

また、検出した出演シーンについて、編集装置１４を使用せずに試写したい場合は、低解像度サーバ１２６内の映像ファイルを再生することで、出演シーン試写が容易に可能となる。

このような類似顔検出処理をすることで、例えば、放送局の厖大な過去映像の中から目的の出演者が出演しているシーンを探し出す場合に、類似顔画像検出装置１６が自動的に出演シーンを検出してくれる。その結果、編集者はメディア５（光学メディア５ａ、磁気メディア５ｂ、ＶＴＲテープ５ｃ）の映像を注視している必要がなくなる。その間に編集者は他の仕事をすることが可能となり、編集者の業務効率を大幅に向上させることができる。

また、編集装置１４の数には限りがあるため、編集装置１４を使用できない場合は事前に目的の出演者の出演シーンを探して、低解像度サーバ１２６の映像ファイルを使用して出演シーンを事前に試写しておくことで、編集前の事前作業が可能となる。

また、番組編集を完了して放送直前に出演者が問題を起こしたことにより、その出演者の放送が不可になった場合には、上述の技術によって、容易に目的の出演者の出演シーンを探し、その出演者にモザイクをかける処理や、または出演シーンをカットする処理が可能となり、スポンサーや視聴者からのクレーム防止になる。

上記処理では、放送局の過去の映像から出演者を検出する。しかし、映像収録から数十年経つと出演者の顔も変化していくため、目的の出演者の現在の顔画像を検出対象とすると、検出の精度が落ちる可能性が高くなる。それを解決するために、一度、現在の顔画像を検出対象として検出した結果の顔画像（検出精度の落ちた過去の顔画像）に替えて、検出対象の顔画像として新たに再登録し、再度類似顔画像検出することで検出精度を向上させることができる。すなわち、２ステップの検出（基準顔（基準顔画像）の新情報再登録→類似顔画像検索）による検出精度向上が期待できる。

そして、検出した出演映像のタイムコード情報を編集機に渡すことで、編集者はその出演者が出演している映像にモザイクをかけたり、または出演映像をカットすることが可能となる。

また、出演時期（撮影時期）が近い顔画像であれば、同じような特徴量が現れると考えられるため、同じような特徴量を辿りながら出演時期が開いている顔画像も検出することができる。また、同様に横顔の映像が欲しい場合は、横顔を検出対象の顔画像として再登録し、類似顔画像検出することで、より絞った出演シーンの検出が可能となる。

そして、検出した出演シーンのタイムコード情報を編集機に渡すことで、編集者はその出演者が出演しているシーンのみを纏めた特集番組を作成することが可能となる。

現在の放送局では、編集完了した映像（編集済み映像）を光学メディア５ａで記録し、それを再生装置にかけて放送出力するか、または、その光学メディア５ａから送出サーバ１８に取り込んで放送出力する運用が多い。そのため、光学メディア５ａから映像ファイルを取り出し、類似顔画像検出装置１６（類似顔検出装置）内で映像ファイルを再生させ、再生映像から顔の映像のみ切出して、切出した顔画像をタイムコードと共に顔画像蓄積サーバ１２７に保存しておき、目的の出演者の顔画像を検出対象として類似顔検出することで担当者は映像を目視しなくても出演シーンを探すことが可能となる。ここで、検出対象とする顔画像を正面顔、横顔、斜め顔等複数準備しておくことにより、探したい出演者が出演しているシーンをより精度よく検出することが可能となる。

以上、本発明を実施形態をもとに説明した。この実施形態は例示であり、それらの各構成要素の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

１映像編集システム
２ネットワーク
５メディア
５ａ光学メディア
５ｂ磁気メディア
５ｃＶＴＲテープ
１０カメラ
１１収録装置
１２記録装置
１３自動編集情報作成装置
１４編集装置
１５システム制御部
１６類似顔画像検出装置
１７管理端末
１８送出サーバ
１９メディア再生装置
１０３類似顔画像検出操作部
１１０キーワード記録部
１１１キーワード検索部
１１２キーワード付与要求送信部
１１３複数検索キー選択部
１２１素材映像データ部
１２２編集済み映像データ部
１２３自動編集済み映像データ部
１２４最終編集情報部
１２５自動編集情報部
１２６低解像度サーバ
１２７顔画像蓄積サーバ
１２８処理対象情報部
１３１処理対象認識部
１３２情報記憶部
１４１編集制御部
１４２表示部
１４３操作パネル
１４４タッチパネルディスプレイ
２１０画像送受信部
２１１画像記録部
２１２再生制御部
２１３人物領域検出部
２１４人物特徴量抽出部
２１５人物特徴量記録部
２１６属性情報記録部
２１７要求受信部
２１８類似人物検索部
２１９登場イベント検索部
２２０検索結果送信部
２２１検索要求送信部
２２２検索結果受信部
２２３検索結果表示部
２２４再生画像表示部
２２５画面操作検知部

Claims

放送に用いられる映像ファイルを編集する編集装置を備えた編集システムであって、
前記映像ファイルに含まれる出演者の顔画像を取得し、前記顔画像と各出演者の出演映像のタイムコード情報とを関連付けて記録する顔画像蓄積サーバと、
前記顔画像蓄積サーバに記録されている顔画像と、特定番組の映像ファイルに含まれる検索対象となる顔画像とを比較し、前記特定番組における出演映像を検出する出演映像検出部と、
前記出演映像検出部が検出した出演映像に基づいて、前記特定番組において前記検索対象となる顔画像の人物が出演している他の出演映像を類似顔画像検索により検出し、検出した出演映像のタイムコード情報を前記検索対象となった出演者情報と関連付けて前記編集装置に通知する類似顔画像検出装置と、を備え、
前記編集装置は、前記タイムコード情報を用いて前記特定番組の映像ファイルを編集することを特徴とする編集システム。
前記編集装置は、前記映像ファイルの編集の際に、出演者の前記映像ファイルが前記類似顔画像検出装置の処理対象の記録装置に保存されている場合は、前記記録装置の映像ファイルを再生することで出演映像の映像確認を可能に表示することを特徴とする請求項１に記載の編集システム。
前記編集装置は、低解像度映像を使用して検出した出演映像を再生することを特徴とする請求項１または２に記載の編集システム。
前記顔画像蓄積サーバは、検出対象の顔画像を顔の種別と関連付けて保存可能であり、
前記類似顔画像検出装置は、前記顔種別に応じて類似顔画像検索を行うことを特徴とする請求項１から３までのいずれかに記載の編集システム。