本発明はダイジェスト情報生成装置に係り、特にビデオコンテンツの各ハイライトシーンを自動的にダイジェスト情報として抽出するダイジェスト情報生成装置に関する。
現在、ハードディスクレコーダの普及などにより、視聴者が蓄積するビデオコンテンツの量は、加速度的に増大している。しかし、ビデオコンテンツの蓄積量が増大しても、視聴者がそれを視聴する時間が増えているということではない。そのため、ビデオコンテンツの蓄積量が増大するに伴い、すべてのコンテンツを完全に見ることは視聴者にとって益々難しい問題になってくる。従って、視聴者は、ビデオコンテンツに関し一層選択的になり、視聴するビデオコンテンツを選ぶようになる。だが、ここで選択されなかったビデオコンテンツは視聴されることなく消去されてしまうことになる。そこで、ビデオコンテンツを或る程度まで短縮して示すビデオコンテンツの要約であるダイジェスト情報を提供する技法が開発されている。
例えば、スポーツのテレビ中継番組を記録した記録媒体を再生装置で再生して見る場合、視聴者にとって無駄で見る価値が無いと思われる部分が多々みられる。例えば、野球を例にとると、選手が打撃から守備に交代したり、監督が投手に話しかけたり、審判がホームプレートを掃除したり、打者がバットの素振りをしたり、打者が投手を待っていたり、外野席の観客が映されていたり、解説者が話していたりする時間である。ビデオコンテンツの要約は、このような部分を省略することによって、試合の要約を提供するものである。
他のスポーツでも同様に、視聴者にとって必要の無い映像を省略することによって試合の要約を提供することができる。また、先に挙げたような無駄な部分を省略するだけではなく、視聴者が興味を持つと思われる映像の中でも特に重要なイベント(スポーツ番組ならば一際大きな歓声があがるなど)を中心とし、その前後から成るハイライト部分のみを抽出し、それらを集めることによりダイジェスト映像を作成することで、より短い映像により元の試合と同じレベルの興奮を視聴者に提供することができる。
例えば、自動的にダイジェスト映像を作成する方法として、ビデオコンテンツのハイライト部分における重要度を自動的に計算して、この重要度に応じてイベントを抽出し、要約映像を作成する方法が従来知られている(例えば、特許文献1参照)。
しかしながら、特許文献1記載の従来のダイジェスト情報生成方法では、ハイライト部分の検出はできるものの、各ハイライト部分の始点及び終点は重要イベントの数秒前から数秒後までのように、時間によって区切られるなどしており、それぞれの抽出された部分の始点や終点は視聴者にとって違和感があるものである。
しかし、スポーツ番組においてハイライト部分を抽出して要約を作成する場合、各ハイライト部分は、そのスポーツのルールによって決定される一つのシーンとして抽出されるべきである。ここでいう「シーン」とは、一連の映像中で文脈的に連続する区間を指す。例えば、テニスであればサーブからどちらかに点数が入るまで、野球であれば投球からストライク、ヒット、ホームラン等の結果が分かるまでといった一連の動きである。抽出された各ハイライト部分の映像がこれより短かった場合、視聴者はその映像によって試合に関する十分な情報を得ることができない。一方、抽出された映像が長すぎる場合は、視聴者につまらないシーンを見せてしまうことになる。
本発明は以上の点に鑑みてなされたもので、コンテンツ内容に合わせて要約情報の各ハイライト部分を、視聴に違和感の無い形の一つのシーンとして自動的に切り出すことが可能なダイジェスト情報生成装置を提供することを目的とする。
上記の目的を達成するため、本発明は、時刻情報を含む一連の映像データからダイジェスト情報を生成するダイジェスト情報生成装置であって、映像データから映像内容の特徴を取得する映像特徴取得手段と、映像データから、映像が物理的に区切られた箇所である複数のショットチェンジをその時点の時刻情報と共に検出し、検出した各ショットチェンジのそれぞれについて、そのショットチェンジが映像データ中で文脈的に連続する区間であるシーンの始点であるかを判別して、そのシーン始点をシーン開始候補としてショットチェンジが発生した時刻と対応付けて保持するショットチェンジ検出手段と、映像特徴取得手段によって得られた特徴と、ショットチェンジ検出手段によって得られたショットチェンジが発生した時刻とシーン開始候補とを対応付けた情報のうち、少なくともショットチェンジが発生した時刻とシーン開始候補とを対応付けた情報に基づいて、映像データ中の各ハイライトシーンの始点と終点とをそれぞれ決定するシーン始点・終点決定手段とを有し、シーン始点・終点決定手段により決定された各ハイライトシーンの始点と終点とを少なくとも含むダイジェスト情報を生成することを特徴とする。
この発明では、映像データの特徴と、映像データ中のショットチェンジが発生した時刻を、映像データから検出した各ショットチェンジのうち、シーンの始点のショットチェンジをシーン開始候補として対応付けた情報のうち、少なくともショットチェンジが発生した時刻とシーン開始候補とを対応付けた情報に基づいて、映像データ中の各ハイライトシーンの始点と終点とをそれぞれ決定するようにしたため、映像データ中で文脈的に連続する区間である一連のシーンをダイジェスト情報として生成することができる。
また、上記の目的を達成するため、本発明は、上記のショットチェンジ検出手段を、検出した各ショットチェンジのそれぞれにおいて、ショットチェンジ後のショットから1フレーム選択した画像の所定の画像領域の色情報に基づいて、シーンの開始候補か否かを判別し、判別したそのシーンの開始候補をショットチェンジが発生した時刻と対応付けて保持する構成としたことを特徴とする。この発明では、シーンの開始候補を、ショットチェンジ後のショットから1フレーム選択した画像の所定の画像領域の色情報に基づいて、判別するため、自動的に、かつ、正確にシーンの開始候補の判別ができる。
また、上記の目的を達成するため、本発明は、映像データ中のイベントの起こった時刻とその重要度からなる重要イベント情報を予め記憶している重要イベント情報保持手段を更に有し、シーン始点・終点決定手段は、映像特徴取得手段によって得られた特徴と、ショットチェンジ検出手段によって得られたショットチェンジが発生した時刻とシーン開始候補とを対応付けた情報と、重要イベント情報保持手段からの重要イベント情報とのうち、少なくともショットチェンジが発生した時刻とシーン開始候補とを対応付けた情報と重要イベント情報とに基づいて、重要イベント情報中のイベントを含むシーンをハイライトシーンとし、そのハイライトシーンの始点と終点とをそれぞれ決定することを特徴とする。
この発明では、重要イベント情報が示すイベントを含むシーンをハイライトシーンとして、その始点と終点とを決定するようにしたため、映像データ中の重要度の高いシーンのみをダイジェスト情報として生成することができる。
本発明によれば、少なくともショットチェンジが発生した時刻とシーン開始候補とを対応付けた情報に基づいて、映像データ中の各ハイライトシーンの始点と終点とをそれぞれ決定することにより、映像データ中で文脈的に連続する区間である一連のシーンをダイジェスト情報として生成するようにしたため、各ハイライトシーンを始点及び終点に違和感の無いシーンとして抽出して視聴させることができる。
また、本発明によれば、重要イベント情報が示すイベントを含むシーンをハイライトシーンとして、その始点と終点とを決定することにより、映像データ中の重要度の高いシーンのみをダイジェスト情報として生成するようにしたため、重要度の高いシーンのみを短時間で視聴するなどの、視聴者の視聴形態に合わせたダイジェスト情報の生成ができる。
次に、本発明の実施の形態について図面と共に説明する。図1は本発明になるダイジェスト情報生成装置の一実施の形態のブロック図を示す。同図に示すように、本実施の形態のダイジェスト情報生成装置は、ハイライトシーンを検出するハイライトシーン検出手段1と、元映像(要約前映像)を保持する元映像保持手段2と、重要イベント情報保持手段3と、ハイライトシーン情報を保持するハイライトシーン情報保持手段4と、要約映像を生成し、出力する再生制御手段5と、入力指示手段6とから構成されている。
元映像保持手段2は、ダイジェスト情報が生成される番組の元の映像(要約前映像)を、記録媒体や記憶素子などにその映像の再生時刻を示す時刻情報と共に予め保持している。ハイライトシーン検出手段1は、元映像保持手段2によって保持されている要約前映像と、重要イベント情報保持手段3によって保持されている重要イベント情報(重要イベント情報は、図2に示すように、各重要イベントの発生時刻とその重要度からなる)とから、各イベントを含んだハイライトシーンを抽出し、シーンの開始、終了時刻及びそのシーンの重要度からなるハイライトシーン情報(ダイジェスト情報)を出力する。ここで、シーンとは、一連の映像中で文脈的に連続する区間で、元映像(要約前映像)の番組がスポーツ番組の場合、一つのプレー毎に区切られる。
すなわち、ハイライトシーン検出手段1は、映像特徴取得手段11と、ショットチェンジ検出手段12と、シーン始点・終点決定手段13とからなり、まず、映像特徴取得手段11により、元映像保持手段2から入力された要約前映像から、その映像内容の特徴を取得する。映像内容の特徴とは、要約前映像の番組がスポーツ番組の場合、そのスポーツがどのような状況下でなされているかなどの情報である(例えば、野球の場合は、内野が土か芝生のどちらの野球場で行われているか、あるいはテニスの場合は、テニスがどのようなテニスコートで行われているかなど)。この映像特徴取得手段11による特徴取得作業は、後述するように必要な番組と不要な番組があり、不要な場合この映像特徴取得手段11による特徴取得作業はスキップする。
続いて、ショットチェンジ検出手段12により要約前映像におけるショットチェンジをその時の時刻情報と共に全て検出する。ショットチェンジとは、カメラの切り替えなどにより、映像が物理的に区切られた時の区切り点を指す。また、ショットチェンジ検出手段12は、検出した各ショットチェンジのそれぞれについて、文脈的に連続する区間であるシーンの開始ショットのショットチェンジであるかどうかを判別して、開始ショットのショットチェンジであるときには、それをシーン開始候補として決定し、図3に示すようなショットチェンジ時刻とシーン開始候補であるか否かの情報とを対応付けたショットチェンジ情報を生成して保存する。
シーン始点・終点決定手段13では、映像特徴取得手段11により得られた条件を基にして重要度の高いイベントから順に、ハイライトシーンの始点・終点をショットチェンジ検出手段12によって検出されたショットチェンジ点の中から決定する。
ここで、図4のフローチャートと共に、シーン始点・終点決定手段13の動作について詳細に説明する。まず、シーン始点・終点決定手段13は、重要イベント情報保持手段3からの図2に示す重要イベント情報の中から、ハイライトシーンの始点・終点が未決定の重要箇所で、最も重要度の高い箇所(イベント)を選択する(図4のステップS11)。もし、同じ重要度のイベントが複数存在する場合は、発生時刻がより後にあるものを優先して選択する。図2では重要度「12」のものが最も重要度が高いため、その重要イベント発生時刻125374msを変数iに代入し、その重要イベント発生時刻の画像から遡ってこの重要イベントを含むシーンの始点を探索する(図4のステップS12)。
続いて、上記の変数iが示す時刻が、その重要イベントが含まれるシーンの開始候補時刻と一致するかどうか比較し(図4のステップS13)、一致しなければ変数iを1msだけ差し引き(図4のステップS14)、再び上記の変数iがシーンの開始候補時刻と一致するかどうか比較する(図4のステップS13)。なお、シーンの開始時刻候補は、各ショットから一枚検出した代表画像の色相、輝度、彩度が、スポーツ毎のシーン開始ショットと一致するかどうかにより決定されている。
上記の動作を繰り返し、重要イベント発生時刻から遡って行きシーン開始候補時刻が見つかった場合、その時刻がシーンの開始時刻となり、変数iに代入される(図4のステップS13〜S15)。図3のショットチェンジ情報では、上記の重要イベント開始時刻125374msの直前のショットチェンジ時刻119750msがこのハイライトシーンの開始時刻である。
相撲番組では、長い取り組みのときに、取り組み中にシーン開始ショットが検出される場合がある。ハイライトシーンがそのような取り組み中のシーン開始ショットから始まらないように、検出されたシーン開始ショットの開始前15秒以内に他のシーン開始ショットがあった場合に、検出されたシーン開始ショットは無視する、という処理を行ってもよい。
重要イベント発生時刻からある程度遡っても、シーン開始ショットが検出できない場合は、シーンが長くなり過ぎることを防ぐために、重要イベント発生時刻からある定められた時間遡った時点でのショットの始点をシーン始点としてもよい。例えば、重要イベント開始時刻からその90秒前までの間にシーン開始ショットの始点が検出できなければ、90秒前のショットの始点をシーン開始点にする。また、野球番組の場合は重要イベントの前には見所がさほど多くないため、他のジャンルよりも短い30秒前までしか遡らない等、番組のジャンルによって遡る時刻を変更することも好適である。
続いて、ハイライトシーンの終点を決定する。こちらは変数kを、まず「0」に初期化した後(図4のステップS16)、最も重要度の高い重要イベント発生時刻(図2の場合、125374ms)を変数jに代入し(図4のステップS17)、その変数jの時刻がショットチェンジ時刻に一致するまで1msずつ進んで行く(図4のステップS18、S22)。変数jで示す時刻とショットチェンジ時刻とが一致すると、変数kを1だけインクリメントし(図4のステップS19)、kが3であるかどうか判定し(図4のステップS20)、kが3未満の時には、変数jがシーン開始時刻候補かどうか判定する(図4のステップS21)。
変数jが示す時刻がシーン開始時刻候補でない場合は、ショットチェンジ時刻に一致した回数を示す変数kが「3」になった時、すなわち、3度目のショットチェンジがあった場合、そこをハイライトシーンの終点、すなわち、シーン終了時刻とする(図4のステップS18〜S23)。図3のショットチェンジ情報では、上記の重要イベント開始時刻125374msから時間が進む方向の3度目のショットチェンジ時刻である132847msがハイライトシーンの終点となる。
また、3度目のショットチェンジでなくとも、ショットチェンジ点がシーン開始候補点であった場合、そこがシーンの終点とする(図4のステップS21、S23)。例えば、図2の重要度「9」、イベント発生時刻29350msのシーンの終点は、図3に示すように3度目のショットチェンジが起こる94215msではなく、その前のシーン開始候補点である40769msとなる。
この方法の他にも、重要イベント発生時刻から一定時間経過後のショットの終点をシーンの終点とする方法もある。例えば、重要イベント開始時刻から5秒後のショットの終点をシーンの終点としてもよい。また、野球番組の場合、重要イベントの後に見所が多いため、他のジャンルよりも長い10秒後のショットの終点をシーンの終点にする等、番組のジャンルによって経過時間を変更することも好適である。
この様にして、最も重要度の高い重要イベントを含むシーンの始点・終点を決定する。続いて、全てのハイライトシーン(重要箇所)の始点と終点を抽出し終わったかどうか判定し(図4のステップS24)、すべてのハイライトシーンの始点と終点を抽出し終わっていない場合は、これまでに抽出した要約映像の合計時間やシーン数が、予め設定していた条件を満たしたかどうか判定する(図4のステップS25)。ステップS25で条件を満たしていないと判定された場合は、最初のステップS11に戻り、ステップS11以降の処理を再び繰り返す。
また、ステップS24ですべてのハイライトシーンの始点と終点を抽出し終わったと判定された場合、又はすべてのハイライトシーンの始点と終点を抽出し終わっていなくても、ステップS25で所定の条件を満たしていると判定された場合、そこで処理を終了する。
このように、シーン始点・終点決定手段13では、重要度の高いイベントから順に重要イベント情報に基づきハイライトシーンを全て抽出することができるが、視聴者の好みに合わせて抽出するハイライトシーンの数や、その合計時間を決定することもできる。これにより、重要度の比較的高いシーンのみを短時間で視聴するなど、視聴者の視聴形態に合わせた要約映像を提供することができる。このハイライトシーン数や合計時間は、入力指示手段6を用いることで視聴者が入力することが可能である。
再び図1に戻って説明するに、以上のハイライトシーン検出手段1によって決定されたハイライトシーンの始点・終点及びそのシーンの重要度からなるハイライトシーン情報を、ハイライトシーン情報保持手段4が記録する。また、再生制御手段5は、入力指示手段6を用いて視聴者が指示を与えることで、元映像保持手段2に保持されている元映像とハイライトシーン情報保持手段4により保持されているハイライトシーン情報とから、要約映像であるダイジェスト情報を生成し、出力する。
このようにして自動的に切り出して生成された要約映像であるダイジェスト情報は、コンテンツ内容に合わせたハイライトシーンの映像であるため、視聴に違和感の無い形の一つのシーンとして視聴者が視聴することができる。
次に、本発明の実施例1について、図面と共に説明する。本実施例はハイライトシーン検出手段1を野球番組に適用した実施例であり、図5のフローチャートと共にその動作を説明する。まず、図1のハイライトシーン検出手段1は、元映像保持手段2から野球番組の画像を1フレーム読み込む(図5のステップS31)。前回、色情報を検出してから300ms以上経っている場合、映像特徴取得手段11によってその画像の色情報を検出する。(図5のステップS32)。
野球場には大きく分けて2つの種類が存在する。内野が土のものと芝のものである。この2つでは、図6の様なピッチャーがボールを投げる場面をセンターカメラでピッチャーの背後から撮影しているショットの画像の特徴が大きく異なる。内野が土の球場ではセンターカメラからのショットの下半分の大部分が土の色になっている(図6(a))のに対し、内野が芝の球場では土と芝の色が同程度存在する(図6(b))。
映像特徴取得手段11では、以下の手法で試合が行なわれている球場が、この2種類のうち、どちらであるかを検出する。具体的には、画像の上部40%を走査し、その中に芝色の画素が30%以上含まれていないかどうかを検出する。含まれていなかった場合、その画像はセンターカメラから撮影した画像と判断し、この画像の特徴を取得する。この時、画像の下部25%を走査し、土色の画素が50%以上存在するかどうかを検出する。また、同様に土色の画素と芝色の画素が20%以上ずつ存在するかどうかを検出する。土色の画素が50%以上存在した場合、その画像は内野が土の球場を撮影したものであると判断する。また、土色の画素と芝色の画素が20%以上ずつ存在した場合、その画像は内野が芝の球場を撮影したものであると判断する。(図5のステップS33)。
続いて、図1のショットチェンジ検出手段12が、全てのショットチェンジを検出し(図5のステップS34)、検出したそのショットチェンジが起こったかどうかを判断する(図5のステップS35)。ショットチェンジ検出には様々な方法があるが、ここでは30ms前の画像との比較によりショットチェンジが起こったかどうかを判断する。現在の画像と30ms前の画像の色相及び輝度のヒストグラムを作成し、その相関を求める。ここで、どちらか一方の相関が閾値以下であった場合、それを、ショットチェンジ候補点とする。
続いて、ショットチェンジ候補点の前後から画像を1フレームずつ選択し、その相関を求める。この相関が閾値以下であった場合、このショットチェンジ候補点ではショットチェンジは起こっているとし、ショットチェンジ候補点はショットチェンジ点(シーン開始ショット)であると決定する(図5のステップS35、S36)。一方、相関が閾値以上であった場合は、カメラの動きや、カメラの前を人が通ることなどによる、一時的な相関の低下と考え、このショットチェンジ候補点ではショットチェンジは起こっていないとする(図5のステップS35)。
本実施例の野球番組の場合、ステップS24でショットチェンジが検出された場合、土、芝の球場それぞれの条件で、シーン開始候補点であるかどうかを判断する(図5のステップS35)。野球の場合、ピッチャーがボールを投げる場面からバッターがボールを打つ、または打つことができずにストライク、ヒットなどの結果が確定するまでを一つのシーンとする。よって、シーン開始ショットは図6のようなピッチャーがボールを投げる場面をセンターカメラでピッチャーの背後から撮影しているショットとなる。検出された各ショットチェンジ点において、ショットチェンジ後のショットから画像を1フレーム選択し、この代表画像を用いて、このショットがシーン開始ショットであるか否かを判断する。
画像の下部25%に土色の画素が50%以上存在するかどうか、及び画像の上部40%に芝色の画素が30%以上含まれているかどうかによって、その画像が土の球場のセンターカメラにより撮影された画像かどうかを判断する。同様に、画像の下部25%に土色の画素と芝色の画素が20%以上ずつ存在するかどうか、及び上部40%を走査し、その中に芝色の画素が30%以上含まれているかどうかによって、その画像が芝の球場のセンターカメラにより撮影された画像かどうかを判断する。センターカメラにより撮影された画像と判断された場合、その画像を含むショットはそれぞれ土、及び芝の球場での試合を撮影した映像のシーン開始ショットであるとし、このショットへのショットチェンジ点を土、芝それぞれの映像のシーン開始候補点とする(図5のステップS36)。
続いて、全ての画像について検出が終わったかどうかチェックし(図5のステップS37)、全ての画像について検出が終わっていない場合、図5のステップS31に戻り、次の画像を読み込む。映像が終了した場合は、シーン始点・終点決定手段13による重要シーン始点・終点決定処理へと進む(図5のステップS38)。
シーン始点・終点決定手段13では、映像特徴取得手段11とショットチェンジ検出手段12によって得られた情報および、重要イベント情報保持手段3から得た重要イベント情報から、ハイライトシーンの始点・終点を決定する。まず、映像特徴取得手段11で内野が土の球場とされた画像と内野が芝の球場とされた画像のフレーム数を比較し、多かった方をこの映像の試合が行われている球場の特徴とする。
これにより、ショットチェンジ検出手段12によって得られた内野が土の場合のシーン開始候補点情報と、内野が芝の場合のシーン開始候補点情報のどちらを用いるかを選択し、選択された方のシーン開始候補点情報から各ハイライトシーンの始点と終点を決定する。ハイライトシーンの始点・終点は、重要イベントの中から重要度が高く時間が後にあるものから順に決定していく。
ハイライトシーンの始点は重要イベントの直前にあるシーン開始候補点とする。なお、視聴者のハイライトシーンについての理解度を向上させるために、重要イベントの直前にあるシーン開始候補点の1つ前のショットチェンジ点をハイライトシーンの始点としてもよい。また、重要イベントの30秒前までにシーン開始候補点が検出されない場合は、30秒前のショットの始点をシーン開始点としてもよい。ハイライトシーンの終点は、重要イベントから3回目のショットチェンジが起こった時点、または重要イベントの直後にあるシーン開始候補点とする(図5のステップS38)。また、重要イベントから10秒経過後のシーンの終点をシーンの終点とする方法もある。
なお、以上に示した割合等の数値は一例であり、別の数値で検出を行なってもよい。また、野球の他にもソフトボールなど、野球と似た構成をしたスポーツ番組のハイライトシーンも同様の手法で抽出することが期待できる。
次に、本発明の実施例2について、図面と共に説明する。本実施例はハイライトシーン検出手段1をテニス番組に適用した実施例であり、本実施例の動作について図5のフローチャートと共に説明する。まず、ハイライトシーン検出手段1は画像を1フレーム読み込む(図5のステップS31)。前回、色情報を検出してから300ms以上経っている場合、映像特徴取得手段11によってその画像の色情報を検出する(図5のステップS32)。
図7(a)、(b)に示すようにテニスコートには芝のものや土のもの、その他様々な色のものが存在する。そこで、映像特徴取得手段11では、以下の手法で試合が行われているテニスコートの色を検出する。まず、色相を黄から緑の範囲の色相、シアン、青、マゼンタ、赤の5種類に分割し、画像の左右20%ずつを除いた画像領域で、上記の各色のうち、50%以上使われている色があるかどうかを判定する。続いて、50%以上使われている色がある場合、画像はその色のテニスコート全景を映したものであるとし、この画像の特徴、つまり50%以上使われている色を取得する。
続いて、図1のショットチェンジ検出手段12が、全てのショットチェンジを検出し(図5のステップS34)、検出したそのショットチェンジが起こったかどうかを判断する(図5のステップS35)。ショットチェンジ検出には様々な方法があるが、本実施例も実施例1と同様に、30ms前の画像との比較によりショットチェンジが起こったかどうかを判断する。現在の画像と30ms前の画像の色相及び輝度のヒストグラムを作成し、その相関を求める。ここで、どちらか一方の相関が閾値以下であった場合、それを、ショットチェンジ候補点とする。
続いて、ショットチェンジ候補点の前後から画像を1フレームずつ選択し、その相関を求める。この相関が閾値以下であった場合、このショットチェンジ候補点ではショットチェンジは起こっているとし、ショットチェンジ候補点はショットチェンジ点(シーン開始ショット)であると決定する(図5のステップS35、S26)。一方、相関が閾値以上であった場合は、カメラの動きや、カメラの前を人が通ることなどによる、一時的な相関の低下と考え、このショットチェンジ候補点ではショットチェンジは起こっていないとする(図5のステップS35)。
本実施例のテニス番組の場合、ショットチェンジが検出された場合、各色のテニスコートにおいて、シーン開始候補点であるかどうかを判断する(図5のステップS35)。テニスの場合、ボールをサーブしてからラリーが終了するまでを一つのシーンとする。そこで、シーン開始ショットは図7(a)、(b)のようなコート全景が映されているショットとする。検出された各ショットチェンジ点において、ショットチェンジ後のショットから画像を1フレーム選択し、この代表画像を用いて、このショットがシーン開始ショットであるか否かを判断する。
代表画像の左右20%ずつを除いた領域の色が領域内の50%以上の画素が、黄から緑の範囲の色相、シアン、青、マゼンタ、赤の5分割された色相のどれかに含まれていた場合、代表画像はその色のテニスコート全景を移したものであるとし、このショットはシーン開始ショットであるとする。このショットへのショットチェンジ点をその色でのシーン開始候補点とする(図5のステップS36)。
続いて、全ての画像について検出が終わったかどうかチェックし(図5のステップS37)、全ての画像について検出が終わっていない場合、図5のステップS31に戻り、次の画像を読み込む。映像が終了した場合は、シーン始点・終点決定手段13による重要シーン始点・終点決定処理へと進む(図5のステップS38)。
図1のシーン始点・終点決定手段13では、映像特徴取得手段11とショットチェンジ検出手段12によって得られた情報、及び重要イベント情報保持手段3から得た重要イベント情報から、ハイライトシーンの始点・終点を決定する。まず、映像特徴取得手段11で最も多く選ばれた色をこの映像のテニス試合が行われているテニスコートの色とする。これによりショットチェンジ検出手段12によって得られた各テニスコート色でのショットチェンジ点情報のどれを用いるかを選択し、選択されたショットチェンジ点情報から各重要イベントの始点と終点を決定する。
重要イベントの中でも重要度が高く時間が後にあるものから順にハイライトシーンの始点・終点を決定する。ハイライトシーンの始点は重要イベントの直前にあるシーン開始候補点とする。なお、視聴者のハイライトシーンについての理解度を向上させるために、重要イベントの直前にあるシーン開始候補点の1つ前のショットチェンジ点をハイライトシーンの始点としてもよい。また、重要イベントの90秒前までにシーン開始候補点が検出されない場合は、90秒前のショットの始点をシーン開始点としてもよい。ハイライトシーンの終点は、重要イベントから3回目のショットチェンジが起こった時点、または重要イベントの直後にあるシーン開始候補点とする(図5のステップS38)。また、重要イベントから5秒経過後のシーンの終点をシーンの終点とする方法もある。
なお、以上に示した割合等の数値は一例であり、別の数値で検出を行なってもよい。テニスの他にもバレーボールなど、テニスと似た構成をしたスポーツ番組のハイライトシーンも同様の手法で抽出することが期待できる。
次に、本発明の実施例3について、図面と共に説明する。本実施例はハイライトシーン検出手段1をサッカー番組に適用した実施例であり、本実施例の動作について図5のフローチャートと共に説明する。まず、ハイライトシーン検出手段1は画像を1フレーム読み込む(図5のステップS31)。サッカーの場合、殆どの試合は芝のフィールドで行われ、番組によっての違いも殆ど現れないため、映像特徴取得手段11は用いない。
続いて、図1のショットチェンジ検出手段12が、全てのショットチェンジを検出し(図5のステップS34)、検出したそのショットチェンジが起こったかどうかを判断する(図5のステップS35)。ショットチェンジ検出には様々な方法があるが、本実施例も実施例1、2と同様に、30ms前の画像との比較によりショットチェンジが起こったかどうかを判断する。現在の画像と30ms前の画像の色相及び輝度のヒストグラムを作成し、その相関を求める。ここで、どちらか一方の相関が閾値以下であった場合、それを、ショットチェンジ候補点とする。
続いて、ショットチェンジ候補点の前後から画像を1フレームずつ選択し、その相関を求める。この相関が閾値以下であった場合、このショットチェンジ候補点ではショットチェンジは起こっているとし、ショットチェンジ候補点はショットチェンジ点(シーン開始ショット)であると決定する(図5のステップS35、S26)。一方、相関が閾値以上であった場合は、カメラの動きや、カメラの前を人が通ることなどによる、一時的な相関の低下と考え、このショットチェンジ候補点ではショットチェンジは起こっていないとする(図5のステップS35)。
サッカーの場合、フィールドでパス、ドリブルなどによってボールを回し、シュートへと至る。パスやドリブルなどでボールを回している場面は殆どの場合、フィールド遠景を映している構図となっている。そこで、シーン開始ショットは図8のようなフィールド遠景が映されているショットとする。検出された各ショットチェンジ点において、ショットチェンジ後のショットから画像を1フレーム選択し、この代表画像を用いて、このショットがシーン開始ショットであるか否かを判断する。代表画像の60%以上の画素が芝の色であった場合、このショットはシーン開始ショットであるとし、このショットへのショットチェンジ点をシーン開始候補点とする(図5のステップS36)。
続いて、全ての画像について検出が終わったかどうかチェックし(図5のステップS37)、全ての画像について検出が終わっていない場合、図5のステップS31に戻り、次の画像を読み込む。映像が終了した場合は、シーン始点・終点決定手段13による重要シーン始点・終点決定処理へと進む(図5のステップS38)。
図1のシーン始点・終点決定手段13では、ショットチェンジ検出手段12によって得られた情報、及び重要イベント情報保持手段3から得た重要イベント情報から、ハイライトシーンの始点・終点を決定する。重要イベントの中でも重要度が高く時間が後にあるものから順にハイライトシーンの始点・終点を決定する。ハイライトシーンの始点は重要イベントの直前にあるシーン開始候補点とする。
なお、視聴者のハイライトシーンについての理解度を向上させるために、重要イベントの直前にあるシーン開始候補点の1つ前のショットチェンジ点をハイライトシーンの始点としてもよい。また、重要イベントの90秒前までにシーン開始候補点が検出されない場合は、90秒前のショットの始点をシーン開始点としてもよい。ハイライトシーンの終点は、重要イベントから3回目のショットチェンジが起こった時点、または重要イベントの直後にあるシーン開始候補点とする(図5のステップS38)。また、重要イベントから5秒経過後のシーンの終点をシーンの終点とする方法もある。
なお、以上に示した割合等の数値は一例であり、別の数値で検出を行なってもよい。サッカーの他にもラグビー、アメリカンフットボールなど、サッカーと似た構成をしたスポーツ番組のハイライトシーンも同様の手法で抽出することが期待できる。
次に、本発明の実施例4について、図面と共に説明する。本実施例はハイライトシーン検出手段1を相撲番組に適用した実施例であり、本実施例の動作について図5のフローチャートと共に説明する。まず、ハイライトシーン検出手段1は画像を1フレーム読み込む(図5のステップS31)。相撲の場合、全ての取り組みは土でできた土俵で行われ、番組によっての違いも殆ど現れないため、実施例3と同様、映像特徴取得手段11は用いない。
続いて、図1のショットチェンジ検出手段12が、全てのショットチェンジを検出し(図5のステップS34)、検出したそのショットチェンジが起こったかどうかを判断する(図5のステップS35)。ショットチェンジ検出には様々な方法があるが、本実施例も実施例1、2、3と同様に、30ms前の画像との比較によりショットチェンジが起こったかどうかを判断する。現在の画像と30ms前の画像の色相及び輝度のヒストグラムを作成し、その相関を求める。ここで、どちらか一方の相関が閾値以下であった場合、それを、ショットチェンジ候補点とする。
続いて、ショットチェンジ候補点の前後から画像を1フレームずつ選択し、その相関を求める。この相関が閾値以下であった場合、このショットチェンジ候補点ではショットチェンジは起こっているとし、ショットチェンジ候補点はショットチェンジ点(シーン開始ショット)であると決定する(図5のステップS35、S26)。一方、相関が閾値以上であった場合は、カメラの動きや、カメラの前を人が通ることなどによる、一時的な相関の低下と考え、このショットチェンジ候補点ではショットチェンジは起こっていないとする(図5のステップS35)。
本実施例の相撲番組の場合、1つの取り組みを1つのシーンとする。このシーンは土俵全体を映したショットから始まる事が多い。そこで、相撲番組のシーン開始ショットは図9のような土俵全体を映しているショットとする。検出された各ショットチェンジ点において、ショットチェンジ後のショットから画像を1フレーム選択し、この代表画像を用いて、このショットがシーン開始ショットであるか否かを判断する。代表画像の下部30%の内、60%以上の画素が土の色であった場合、このショットはシーン開始ショットであるとし、このショットへのショットチェンジ点をシーン開始候補点とする(図5のステップS36)。
シーン始点・終点決定手段13では、ショットチェンジ検出手段12によって得られた情報と重要イベント情報保持手段3から得た重要イベント情報から、ハイライトシーンの始点・終点を決定する。重要イベントの中でも重要度が高く時間が後にあるものから順にハイライトシーンの始点・終点を決定する。ハイライトシーンの始点は重要イベントの直前にあるシーン開始候補点とする。
なお、視聴者のハイライトシーンについての理解度を向上させるために、重要イベントの直前にあるシーン開始候補点の1つ前のショットチェンジ点をハイライトシーンの始点としてもよい。また、重要イベントの90秒前までにシーン開始候補点が検出されない場合は、90秒前のショットの始点をシーン開始点としてもよい。ハイライトシーンの終点は、重要イベントから3回目のショットチェンジが起こった時点、または重要イベントの直後にあるシーン開始候補点とする(図5のステップS38)。また、重要イベントから5秒経過後のシーンの終点をシーンの終点とする方法もある。
なお、以上に示した割合等の数値は一例であり、別の数値で検出を行なってもよい。相撲の他にもボクシング等の格闘技など、相撲と似た構成をしたスポーツ番組のハイライトシーンも同様の手法で抽出することが期待できる。
なお、本発明は以上の実施の形態及び実施例に限定されるものではなく、例えば、入力の映像データの内容により自動的にシーンの始点・終点の決定条件を入力指示手段6を用いて変更する構成としてもよく、また、特徴やショットチェンジの判別のパラメータの変更を入力指示手段6により与えることも可能である。
また、本発明は図1のブロック図の各手段や図5のフローチャートの各処理を、コンピュータにより実行させるためのコンピュータプログラムを含むものである。この場合、コンピュータプログラムは、記録媒体に記録されており、記録媒体を介してコンピュータに取り込まれてもよいし、ネットワークを介して配信されてコンピュータにダウンロードされてもよいし、更にはコンピュータ内のメモリなどに予め組み込まれていてもよい。
本発明の一実施の形態のブロック図である。
図1中の重要イベント情報保持手段により保持されている重要イベント情報の一例を示す図である。
図1中のショットチェンジ検出手段により求められたショットチェンジデータの一例を示す図である。
図1中のハイライトシーン検出手段による検出処理説明用フローチャートである。
図1中のシーン始点・終点決定手段による処理説明用フローチャートである。
本発明の実施例1における特徴取得画像及びシーン開始ショットを示す図である。
本発明の実施例2における特徴取得画像及びシーン開始ショットを示す図である。
本発明の実施例3におけるシーン開始ショットを示す図である。
本発明の実施例4におけるシーン開始ショットを示す図である。
符号の説明
1 ハイライトシーン検出手段
2 元映像保持手段
3 重要イベント情報保持手段
4 ハイライトシーン情報保持手段
5 再生制御手段
6 入力指示手段
11 映像特徴取得手段
12 ショットチェンジ検出手段
13 シーン始点・終点決定手段