JP2014110020A - Image processor, image processing method and image processing program - Google Patents
Image processor, image processing method and image processing program Download PDFInfo
- Publication number
- JP2014110020A JP2014110020A JP2012265629A JP2012265629A JP2014110020A JP 2014110020 A JP2014110020 A JP 2014110020A JP 2012265629 A JP2012265629 A JP 2012265629A JP 2012265629 A JP2012265629 A JP 2012265629A JP 2014110020 A JP2014110020 A JP 2014110020A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- learning
- video data
- frame images
- temporal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
【課題】映像の時空間変化の特徴に基づいて、より高精度かつ高速でシーンチェンジを検出する。
【解決手段】本発明に係る画像処理装置は、学習用映像データを取得する第1取得部11と、学習用映像データから、映像の時空間変化の特徴を抽出する第1特徴抽出部12と、第1特徴を用いて、場面の切り替わりの有無を学習する学習部10と、表示用映像データを取得する第2取得部11’と、表示用映像データから、映像の時空間変化の特徴を抽出する第2特徴抽出部13’と、第2特徴および学習部10により得られた学習結果に基づき、場面の切り替わりの有無を推定する推定部12’と、を有し、第1特徴および第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかを含む。
【選択図】図1A scene change is detected with higher accuracy and higher speed based on the characteristics of temporal and spatial changes of an image.
An image processing apparatus according to the present invention includes a first acquisition unit that acquires learning video data, a first feature extraction unit that extracts features of temporal and temporal changes of the video from the learning video data, and Using the first feature, the learning unit 10 that learns whether or not the scene is switched, the second obtaining unit 11 ′ that obtains the display video data, and the temporal and spatial change characteristics of the video from the display video data. A second feature extracting unit 13 ′ for extracting, and an estimating unit 12 ′ for estimating presence / absence of a scene change based on the learning result obtained by the second feature and the learning unit 10; Two features are the co-occurrence probability of the difference value of luminance or color between frame images and the temporal change rate of the difference value, the difference value of luminance or color between adjacent blocks in the frame image, and the temporal change of the difference value. Rate co-occurrence and Even without including any.
[Selection] Figure 1
Description
本発明は、画像処理装置、画像処理方法および画像処理プログラムに関する。 The present invention relates to an image processing apparatus, an image processing method, and an image processing program.
近年、テレビ映像等の連続する複数のフレーム画像を含む映像において、フレーム画像間の場面の切り替わり(シーンチェンジともいう)を検出する需要がある。たとえば、テレビコマーシャルを含む映像において、テレビコマーシャル前後のシーンチェンジを検出することにより、テレビコマーシャルの部分をスキップさせて、テレビコマーシャル以外の映像を表示させることができる。 In recent years, there is a demand for detecting a scene change (also referred to as a scene change) between frame images in a video including a plurality of continuous frame images such as a television video. For example, in a video including a TV commercial, by detecting a scene change before and after the TV commercial, it is possible to skip the TV commercial portion and display a video other than the TV commercial.
これに関連した技術として、物の動きを表現する映像において、動く前の物を含むフレーム画像と、動いた後の当該物を含むフレーム画像との間の画素毎の誤差値に基づいて、シーンチェンジを検出するものがある(たとえば、特許文献1)。具体的には、この技術では、動く前の物のフレーム画像内での位置から、動いた後の当該物の、時間的に後のフレーム画像内での位置までの平面的な距離を、動きベクトルとして検出する。そして、時間的に後のフレーム画像内での動きベクトル先のフレーム画像の一部をブロックとして切り出して、切り出したブロックと、動く前の物を含むブロックとの間のピクセル毎の誤差値の和を算出し、算出値に基づいてシーンチェンジを検出する。 As a technology related to this, in a video representing the movement of an object, a scene based on an error value for each pixel between a frame image including the object before moving and a frame image including the object after moving. There is one that detects a change (for example, Patent Document 1). Specifically, in this technique, the planar distance from the position in the frame image of the object before the movement to the position in the frame image after the movement of the object after the movement Detect as a vector. Then, a part of the frame image ahead of the motion vector in the later frame image is cut out as a block, and the sum of error values for each pixel between the cut out block and the block including the object before moving is cut out. And a scene change is detected based on the calculated value.
また、シーンチェンジを検出するために、フレーム画像内の特徴点のマッチング数を特徴量として算出するSIFT(Scale−Invariant Feature Transform)アルゴリズムや、FFT(Fast Fourier Transform)を用いる技術もある(たとえば、非特許文献1および非特許文献2)。 In addition, in order to detect a scene change, there is a technique that uses a SIFT (Scale-Invariant Feature Transform) algorithm that calculates the number of matching of feature points in a frame image as a feature amount, or a technique that uses FFT (Fast Fourier Transform) (for example, Non-patent document 1 and Non-patent document 2).
しかしながら、上記特許文献1記載の技術では、シーンチェンジの検出の際に、動きベクトルを検出したり、動きベクトルを用いてフレーム画像からブロックの切り出しを行ったりしなくてはならず、その分処理時間が余計にかかる。また、上記非特許文献1および非特許文献2記載の技術では、処理量の多いSIFTアルゴリズムやFFTを用いるので、処理時間がかかる。 However, in the technique described in Patent Document 1, when detecting a scene change, it is necessary to detect a motion vector or to extract a block from a frame image using the motion vector. It takes extra time. Further, in the techniques described in Non-Patent Document 1 and Non-Patent Document 2, since a SIFT algorithm or FFT with a large amount of processing is used, processing time is required.
本願発明は、上記課題に鑑みてなされたものであり、従来よりも高精度かつ高速でシーンチェンジを検出することのできる画像処理装置、画像処理方法および画像処理プログラムを提供する。 The present invention has been made in view of the above problems, and provides an image processing apparatus, an image processing method, and an image processing program capable of detecting a scene change with higher accuracy and higher speed than conventional ones.
上記目的を達成するための本発明による画像処理装置は、連続する複数のフレーム画像についてのデータを含む学習用映像データを取得する第1取得部と、前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出する第1特徴抽出部と、前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する学習部と、連続する複数のフレーム画像についてのデータを含む表示用映像データを取得する第2取得部と、前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する第2特徴抽出部と、前記第2特徴および前記学習部により得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定する推定部と、を有し、前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含むことを特徴とする。 In order to achieve the above object, an image processing apparatus according to the present invention includes a first acquisition unit for acquiring learning video data including data on a plurality of continuous frame images, and a time-space of video from the learning video data. A first feature extraction unit that extracts a change feature as a first feature; a learning unit that learns whether scenes are switched between successive frame images using the first feature; and a plurality of consecutive frame images A second acquisition unit that acquires display video data including data about, a second feature extraction unit that extracts, from the display video data, a feature of temporal and temporal changes of the video as a second feature, and the second feature And an estimation unit that estimates the presence or absence of scene switching between successive frame images based on the learning result obtained by the learning unit, and the first feature and the second feature are Co-occurrence of luminance or color difference value between frame images and temporal change rate of the difference value, and co-occurrence of luminance or color difference value and temporal change rate of the difference value between adjacent blocks in the frame image And a co-occurrence probability of at least one of the probabilities.
また、上記目的を達成するための本発明による画像処理方法は、連続する複数のフレーム画像についてのデータを含む学習用映像データを取得するステップ(a)と、前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出するステップ(b)と、前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習するステップ(c)と、連続する複数のフレーム画像についてのデータを含む表示用映像データを取得するステップ(d)と、前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する(e)と、前記第2特徴および前記ステップ(c)で得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定するステップ(f)と、を有し、前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含むことを特徴とする。 In addition, an image processing method according to the present invention for achieving the above object includes a step (a) of acquiring learning video data including data on a plurality of continuous frame images, and the learning video data from the learning video data. A step (b) for extracting a feature of spatio-temporal change as a first feature, a step (c) for learning whether or not scenes are switched between successive frame images using the first feature, and a plurality of successive features (D) obtaining display video data including data on the frame image, and (e) extracting a feature of temporal and temporal changes of the video from the display video data as the second feature. (F) estimating the presence / absence of scene switching between successive frame images based on the characteristics and the learning result obtained in step (c), The feature and the second feature are: a co-occurrence probability of a luminance or color difference value between frame images and a temporal change rate of the difference value, a luminance or color difference value between adjacent blocks in the frame image, and the difference It includes the co-occurrence probability of the time change rate of the value and at least one of the co-occurrence probabilities.
すなわち、本発明は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率、または、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率に基づいて、シーンチェンジを検出する。 That is, the present invention provides a co-occurrence probability of a luminance or color difference value between frame images and a temporal change rate of the difference value, or a luminance or color difference value between adjacent blocks in the frame image and the difference value. The scene change is detected based on the co-occurrence probability of the time change rate.
本発明によれば、従来よりも高精度かつ高速でシーンチェンジを検出することができる。 According to the present invention, it is possible to detect a scene change with higher accuracy and higher speed than before.
以下、本発明の実施形態を添付した図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the accompanying drawings.
図1は、本発明の実施形態に係る画像処理装置1の構成を示すブロック図である。本実施形態に係る画像処理装置1は、図1に示すように学習部10および推定部10’を含み、連続する複数のフレーム画像についてのデータを含む映像データ内のシーンチェンジの有無に関する推定結果を出力する。学習部10は、取得部11、第1特徴抽出部12およびシーンチェンジ学習部17を含み、入力された学習用映像データから学習された、シーンチェンジを検出するための学習結果を出力する。第1特徴抽出部12は、時空間特徴抽出部13、距離計算部14、フレーム間相関値計算部15、および画面輝度平均差分計算部16を含み、学習用映像に含まれる各フレーム画像から、複数種の特徴(特徴量または特徴ベクトル)を抽出する。 FIG. 1 is a block diagram showing a configuration of an image processing apparatus 1 according to an embodiment of the present invention. As shown in FIG. 1, the image processing apparatus 1 according to the present embodiment includes a learning unit 10 and an estimation unit 10 ′, and an estimation result regarding the presence or absence of a scene change in video data including data on a plurality of consecutive frame images. Is output. The learning unit 10 includes an acquisition unit 11, a first feature extraction unit 12, and a scene change learning unit 17, and outputs a learning result for detecting a scene change learned from the input learning video data. The first feature extraction unit 12 includes a spatio-temporal feature extraction unit 13, a distance calculation unit 14, an inter-frame correlation value calculation unit 15, and a screen luminance average difference calculation unit 16. From each frame image included in the learning video, A plurality of types of features (feature quantities or feature vectors) are extracted.
また、推定部10’は、取得部11’、第2特徴抽出部12’およびシーンチェンジ推定部17’を含み、シーンチェンジ学習部17による学習結果に基づいて、表示用映像データからシーンチェンジの有無を推定して、推定結果を出力する。第2特徴抽出部12’は、第1特徴抽出部12と同様に、時空間特徴抽出部13’、距離計算部14’、フレーム間相関値計算部15’および画面輝度平均差分計算部16’を含み、表示用映像に含まれる各フレーム画像から、複数種の特徴(特徴量または特徴ベクトル)を抽出する。 The estimation unit 10 ′ includes an acquisition unit 11 ′, a second feature extraction unit 12 ′, and a scene change estimation unit 17 ′. Based on the learning result by the scene change learning unit 17, the scene change is displayed from the display video data. Presence / absence is estimated and the estimation result is output. Similar to the first feature extraction unit 12, the second feature extraction unit 12 ′ is a spatio-temporal feature extraction unit 13 ′, a distance calculation unit 14 ′, an inter-frame correlation value calculation unit 15 ′, and a screen luminance average difference calculation unit 16 ′. Multiple types of features (features or feature vectors) are extracted from each frame image included in the display video.
以下、上記画像処理装置1の各構成について、それぞれ詳細に説明する。 Hereinafter, each configuration of the image processing apparatus 1 will be described in detail.
取得部11は、外部から、学習部10がシーンチェンジの有無を学習するために準備された学習用映像データを取得する。取得部11は、第1取得部として機能する。 The acquisition unit 11 acquires learning video data prepared for the learning unit 10 to learn whether there is a scene change from the outside. The acquisition unit 11 functions as a first acquisition unit.
第1特徴抽出部12は、取得部11により取得された学習用映像に含まれる各フレーム画像から、複数種の特徴を抽出し、シーンチェンジ学習部17に出力する。複数種の特徴については後述する。 The first feature extraction unit 12 extracts a plurality of types of features from each frame image included in the learning video acquired by the acquisition unit 11 and outputs the extracted features to the scene change learning unit 17. The multiple types of features will be described later.
時空間特徴抽出部(以下、抽出部という)13は、取得された学習用映像データに画像データとして含まれる各フレーム画像を相互に比較して、輝度の時空間変化を特徴量(第1特徴量)として算出し、シーンチェンジ学習部17に出力する。詳細は図2を参照して後述する。 A spatiotemporal feature extraction unit (hereinafter referred to as an extraction unit) 13 compares each frame image included as image data in the acquired learning video data with each other, and compares the spatiotemporal change in luminance with a feature amount (first feature). Amount) and output to the scene change learning unit 17. Details will be described later with reference to FIG.
距離計算部14は、フレーム画像毎にカラーヒストグラムを作成し、作成したカラーヒストグラムに基づいて、フレーム画像間の距離(類似度)を算出する。フレーム画像間の距離を算出する方法には、相関値やManhattan距離を用いる方法等があるが、本実施形態では、たとえば下記数式1に示されるIntersection距離を用いる。 The distance calculation unit 14 creates a color histogram for each frame image, and calculates a distance (similarity) between the frame images based on the created color histogram. The method for calculating the distance between the frame images includes a method using a correlation value or a Manhattan distance. In this embodiment, for example, an Intersection distance expressed by the following Equation 1 is used.
ここで、Dはフレーム画像間距離、Y,Cr,Cbはフレーム画像内の各色、NはカラーヒストグラムHのビンの数、H(b,t)は時刻tにおけるフレーム画像のカラーヒストグラムのビンbの値、minは時刻tおよびt−1におけるフレーム画像のカラーヒストグラムのビンの値のうち小さい方の値をそれぞれ示す。これにより、距離計算部14は、フレーム画像間の類似度Dを算出し、これを特徴量(第2特徴量)としてシーンチェンジ学習部17に出力する。 Here, D is a distance between frame images, Y, Cr, and Cb are each color in the frame image, N is the number of bins of the color histogram H, and H (b, t) is a bin b of the color histogram of the frame image at time t. , Min indicates the smaller value of the bin values of the color histogram of the frame image at times t and t−1. Thereby, the distance calculation unit 14 calculates the similarity D between the frame images, and outputs this to the scene change learning unit 17 as a feature amount (second feature amount).
フレーム間相関値計算部(以下、相関値計算部という)15は、フレーム画像間の相関度合を示す相関値(Correlation)を算出する。具体的には、相関値計算部15は、まず、たとえば一フレーム画像内において隣接するブロック(以下、隣接ブロックという)間の輝度の差分Sを算出する。たとえば、フレーム画像内において横方向の座標をxおよび縦方向の座標をyとする場合、隣接ブロック間([x,y]および[x+1,y]におけるブロック)の輝度Iの差分は、下記数式2により算出される。 An inter-frame correlation value calculation unit (hereinafter referred to as a correlation value calculation unit) 15 calculates a correlation value (correlation) indicating the degree of correlation between frame images. Specifically, the correlation value calculation unit 15 first calculates, for example, a luminance difference S between adjacent blocks (hereinafter referred to as adjacent blocks) in one frame image. For example, when the horizontal coordinate in the frame image is x and the vertical coordinate is y, the difference in luminance I between adjacent blocks (blocks in [x, y] and [x + 1, y]) is expressed by the following equation: 2 is calculated.
そして、相関値計算部15は、数値Sから0〜1までの数値Eが求まるように、算出した数値Sを数値Eに線形変換する。たとえば、時刻tにおけるフレーム画像の数値Eは、下記数式3により算出される。 Then, the correlation value calculation unit 15 linearly converts the calculated numerical value S into the numerical value E so that the numerical value E from 0 to 1 is obtained. For example, the numerical value E of the frame image at time t is calculated by the following mathematical formula 3.
そして、相関値計算部15は、下記数式4に従って、異なる時刻tおよびt−1におけるフレーム画像に対する数値Eの差分の絶対値に基づいて、当該フレーム画像間の相関値(Correlation)を算出する。 Then, the correlation value calculation unit 15 calculates a correlation value (Correlation) between the frame images based on the absolute value of the difference of the numerical value E with respect to the frame images at different times t and t−1 according to the following mathematical formula 4.
相関値計算部15は、このように算出した相関値(Correlation)を、フレーム画像間の相関度についての特徴量(第3特徴量)としてシーンチェンジ学習部17に出力する。 The correlation value calculation unit 15 outputs the correlation value (Correlation) calculated in this way to the scene change learning unit 17 as a feature amount (third feature amount) regarding the degree of correlation between frame images.
画面輝度平均差分計算部(以下、平均差分計算部という)16は、フレーム画像ごとに輝度の平均値を算出して、フレーム画像間の平均輝度の差分を算出する。平均差分計算部16は、このように算出した差分を、特徴量(第4特徴量)としてシーンチェンジ学習部17に出力する。 A screen luminance average difference calculation unit (hereinafter referred to as an average difference calculation unit) 16 calculates an average luminance value for each frame image, and calculates an average luminance difference between the frame images. The average difference calculation unit 16 outputs the difference thus calculated to the scene change learning unit 17 as a feature amount (fourth feature amount).
シーンチェンジ学習部17は、抽出部13からの時空間変化特徴量(第1特徴量)、距離計算部14からの画像間距離(第2特徴量)、相関値計算部15からの相関値(第3特徴量)、および平均差分計算部16からの平均輝度の差分(第4特徴量)に基づいて、シーンチェンジを学習する。具体的には、シーンチェンジ学習部17は、第1特徴抽出部12から得られた複数種の特徴量(第1〜第4特徴量)と、正解データとを関連付ける学習を行う。すなわち、シーンチェンジ学習部17は、第1特徴抽出部12から得られた複数種の特徴量から、シーンチェンジの有無を判定するための学習モデル(識別器)を生成する。たとえば、シーンチェンジ学習部17は、学習モデルとして、少なくとも一つ以上のパラメータ(変数)を持つ数理モデルを採用し、各特徴量(第1〜第4特徴量)を入力したときに正解データの値(シーンチェンジの有無)を出力するように数理モデルのパラメータ値を決定する。ここで決定されたパラメータ値は、学習結果(学習パラメータ)として記憶される。 The scene change learning unit 17 includes a spatio-temporal change feature amount (first feature amount) from the extraction unit 13, an inter-image distance (second feature amount) from the distance calculation unit 14, and a correlation value from the correlation value calculation unit 15 (second feature amount). The scene change is learned based on the third feature amount) and the difference of the average luminance (fourth feature amount) from the average difference calculation unit 16. Specifically, the scene change learning unit 17 performs learning that associates a plurality of types of feature amounts (first to fourth feature amounts) obtained from the first feature extraction unit 12 with correct data. That is, the scene change learning unit 17 generates a learning model (discriminator) for determining the presence / absence of a scene change from a plurality of types of feature amounts obtained from the first feature extraction unit 12. For example, the scene change learning unit 17 adopts a mathematical model having at least one parameter (variable) as a learning model, and when each feature quantity (first to fourth feature quantities) is input, The parameter value of the mathematical model is determined so as to output the value (presence / absence of scene change). The parameter value determined here is stored as a learning result (learning parameter).
推定部10’については後述する。 The estimation unit 10 'will be described later.
次に、図2および図3を参照して、抽出部13の詳細な構成および各機能について詳細に説明する。 Next, with reference to FIG. 2 and FIG. 3, the detailed structure and each function of the extraction part 13 are demonstrated in detail.
図2は時空間特徴抽出部の構成を示すブロック図、図3は時空間変化の特徴量の説明に供する図である。 FIG. 2 is a block diagram showing the configuration of the spatiotemporal feature extraction unit, and FIG. 3 is a diagram for explaining the feature quantity of the spatiotemporal change.
図2に示すように、抽出部13は、ブロック分割部13a、時間的差分算出部13b、比率算出部13c、共起ヒストグラム作成部13d、1次元化処理部13eを含む。また、抽出部13は、空間的差分算出部13f、差分算出部13g、比率算出部13h、共起ヒストグラム作成部13iおよび1次元化処理部13jを含む。さらに、抽出部13は、結合部13kおよびフレーム画像の一部や数値等を一時的に記憶するためのバッファを備えている。 As shown in FIG. 2, the extraction unit 13 includes a block division unit 13a, a temporal difference calculation unit 13b, a ratio calculation unit 13c, a co-occurrence histogram creation unit 13d, and a one-dimensionalization processing unit 13e. The extraction unit 13 includes a spatial difference calculation unit 13f, a difference calculation unit 13g, a ratio calculation unit 13h, a co-occurrence histogram creation unit 13i, and a one-dimensional processing unit 13j. Furthermore, the extraction unit 13 includes a combining unit 13k and a buffer for temporarily storing a part of the frame image, numerical values, and the like.
ブロック分割部13aは、入力されたフレーム画像を所定の大きさのブロックに分割する。分割されたブロック画像は、時間的差分算出部13bおよび空間的差分算出部13fに渡される。 The block dividing unit 13a divides the input frame image into blocks having a predetermined size. The divided block images are passed to the temporal difference calculation unit 13b and the spatial difference calculation unit 13f.
時間的差分算出部13bは、時間的に連続するフレーム画像内の、対応するブロック間の輝度の差分Tを算出する。たとえば、図3に示すように、時間的差分算出部13bは、時刻tおよびt−1のフレーム画像間において、位置[x,y]のブロック間の輝度Iの差分T(x,y,t)(=I(x,y,t)−I(x,y,t−1))を算出する。フレーム画像内の全てのブロックについて、Tが算出される。なお、時間的に先行するフレーム画像内のブロックの輝度を一時的に記憶するために、バッファが適宜用いられる。 The temporal difference calculation unit 13b calculates a luminance difference T between corresponding blocks in temporally continuous frame images. For example, as illustrated in FIG. 3, the temporal difference calculation unit 13b, between the frame images at time t and t−1, the luminance I difference T (x, y, t) between the blocks at the position [x, y]. ) (= I (x, y, t) −I (x, y, t−1)). T is calculated for all blocks in the frame image. Note that a buffer is appropriately used to temporarily store the luminance of the block in the temporally preceding frame image.
比率算出部13cは、異なる時刻のフレーム画像間について算出されたTの時間的変化率を表すパラメータLTを算出する。具体的には、比率算出部13cは、[x,y]に位置するブロックについて、時刻tの一時刻前t−1に算出されたT(x,y,t−1)を、時刻tに算出されたT(x,y,t)により除算することにより、LT(=T(x,y,t−1)/T(x,y,t))を算出する。ここで、LTの値は、たとえば、小数点以下第1位までの数値に量子化される。また、分母が0(ゼロ)または非常に小さい値の場合、LTは、適宜設定される上限値として出力されうる。また、時間的に先行して算出されたTを記憶するために、バッファが適宜用いられる。 Ratio calculating unit 13c calculates a parameter L T representing the time rate of change of T calculated for different time of the frame image. Specifically, the ratio calculation unit 13c sets T (x, y, t-1) calculated at time t-1 immediately before time t for the block located at [x, y] at time t. By dividing by the calculated T (x, y, t), L T (= T (x, y, t−1) / T (x, y, t)) is calculated. Here, the value of L T, for example, are quantized to a number up to the first decimal place. Also, if the denominator is 0 (zero) or very small values, L T may be output as an upper limit value is appropriately set. In addition, a buffer is appropriately used to store T calculated in advance in time.
共起ヒストグラム作成部13dは、算出された値に基づいて、共起ヒストグラムを作成する。本実施形態では、共起ヒストグラムとは、たとえば2つの変数の組合せのうち、組合せが同一となる(共起する)ブロックの総数(投票数)をビンの値とする2次元ヒストグラムである。たとえば、共起ヒストグラム作成部13dは、時間的差分算出部13bおよび比率算出部13cによりブロックごとに算出されたTおよびLTの値の組合せに応じて各ブロックを分類し、同一の分類となるブロックの数を累積(投票)して、その投票数をビンの値とする共起ヒストグラムを作成する。共起ヒストグラムの詳細については後述する。 The co-occurrence histogram creation unit 13d creates a co-occurrence histogram based on the calculated value. In the present embodiment, the co-occurrence histogram is, for example, a two-dimensional histogram in which the total number (number of votes) of the same combination (co-occurs) among the combinations of two variables is the bin value. For example, co-occurrence histogram creation unit 13d, and classifies each block in accordance with a combination of the values of T and L T that is calculated for each block by the time difference calculating portion 13b and the ratio calculation unit 13c, the same classification A co-occurrence histogram is created by accumulating (voting) the number of blocks and using the number of votes as a bin value. Details of the co-occurrence histogram will be described later.
1次元化処理部13eは、生成された共起ヒストグラムを表現する情報を1次元化する。具体的には、1次元化処理部13eは、たとえばTおよびLTを変数とする共起ヒストグラムについて、T、LTおよび共起確率の個々の値を所定順に羅列した情報に変換することにより、1次元的な情報に変換する。 The one-dimensionalization processing unit 13e makes one-dimensional information representing the generated co-occurrence histogram. Specifically, one-dimensional processing unit 13e, for example, the co-occurrence histograms and variables T and L T, T, by converting the individual values of L T and co-occurrence probability enumerated information in a predetermined order Convert to one-dimensional information.
空間的差分算出部13fは、一フレーム画像内における隣接ブロック間の輝度の差分を算出する。たとえば、空間的差分算出部13fは、図3に示すように、時刻tのフレーム画像内の[x,y]と[x+1,y]とにおけるブロック間の輝度Iの差分S(x,y,t)(=I(x+1,y,t)−I(x,y,t))を算出する。全ての隣接ブロック間について、Sが算出される。ブロックの輝度を一時的に記憶するために、バッファが適宜用いられる。 The spatial difference calculation unit 13f calculates a luminance difference between adjacent blocks in one frame image. For example, as shown in FIG. 3, the spatial difference calculation unit 13f, as shown in FIG. 3, the difference S (x, y, y) of the luminance I between blocks in [x, y] and [x + 1, y] in the frame image at time t. t) (= I (x + 1, y, t) −I (x, y, t)) is calculated. S is calculated between all adjacent blocks. A buffer is used as appropriate to temporarily store the brightness of the block.
差分算出部13gは、空間的差分算出部13fにより算出されたSの差分を算出する。具体的には、差分算出部13gは、時刻tにおける位置[x+1,y]および[x,y]のブロック間の輝度差S(x,y,t)から、時刻t−1における同位置のブロック間の輝度差S(x,y,t−1)を減算して、U(x,y,t)(=S(x,y,t)−S(x,y,t−1))を算出する。なお、先行する時間において算出されたSを一時的に記憶するために、バッファが適宜用いられる。 The difference calculation unit 13g calculates the difference of S calculated by the spatial difference calculation unit 13f. Specifically, the difference calculation unit 13g calculates the same position at time t-1 from the luminance difference S (x, y, t) between the blocks at position [x + 1, y] and [x, y] at time t. The luminance difference S (x, y, t−1) between the blocks is subtracted to obtain U (x, y, t) (= S (x, y, t) −S (x, y, t−1)). Is calculated. Note that a buffer is appropriately used to temporarily store S calculated in the preceding time.
比率算出部13hは、異なる時間について算出されたUの時間変化率を表すパラメータLUを算出する。具体的には、比率算出部13hは、[x,y]および[x+1,y]のブロック間の輝度差Sの、時刻t−2とt−1間における差分U(x,y,t−1)を、同ブロック間の輝度差Sの、時刻t−1とt間における差分U(x,y,t)により除算して、LU(=U(x,y,t−1)/U(x,y,t))を算出する。ここで、LUの値は、上述のLTと同様に、小数点以下第1までの数値に量子化してもよい。また、分母が0(ゼロ)または非常に小さい値の場合、LUは、適宜設定される上限値として出力されうる。また、先行する時間において算出されたUを一時的に記憶するために、バッファが適宜用いられる。 The ratio calculation unit 13h calculates a parameter L U that represents the time change rate of U calculated for different times. Specifically, the ratio calculation unit 13h calculates the difference U (x, y, t−) between the times t−2 and t−1 of the luminance difference S between the blocks [x, y] and [x + 1, y]. 1) is divided by the difference U (x, y, t) between the times t−1 and t of the luminance difference S between the same blocks, and L U (= U (x, y, t−1) / U (x, y, t)) is calculated. Here, the value of L U, like the above-mentioned L T, may be quantized to a number up to the first decimal. Also, if the denominator is 0 (zero) or very small values, L U may be output as an upper limit value is appropriately set. In addition, a buffer is appropriately used to temporarily store U calculated in the preceding time.
共起ヒストグラム作成部13iは、上述の共起ヒストグラム作成部13dと同様に、共起ヒストグラムを作成する。たとえば、共起ヒストグラム作成部13iは、差分算出部13gおよび比率算出部13hにより隣接ブロックごとに算出されたUおよびLUの値の組合せに応じて、各隣接ブロックを分類し、同一の分類となる隣接ブロックの数を累積(投票)して、その投票数をビンの値とする2次元ヒストグラムを作成する。共起ヒストグラムの詳細については後述する。 The co-occurrence histogram creation unit 13i creates a co-occurrence histogram similarly to the above-described co-occurrence histogram creation unit 13d. For example, co-occurrence histogram creation section 13i in accordance with the combination of the values of U is calculated for each neighboring block and L U by the difference calculation section 13g and the ratio calculation unit 13h, classifies each adjacent block, the same classification and The number of adjacent blocks is accumulated (voted), and a two-dimensional histogram is created with the number of votes as a bin value. Details of the co-occurrence histogram will be described later.
1次元化処理部13jは、上述の1次元化処理部13eと同様に、作成された共起ヒストグラムを1次元的な情報に変換する。 The one-dimensionalization processing unit 13j converts the created co-occurrence histogram into one-dimensional information in the same manner as the one-dimensionalization processing unit 13e described above.
結合処理部13kは、1次元化処理部13eおよび1次元化処理部13jにより1次元化された情報を結合して、結合した情報を時空間変化特徴量(第1特徴量)として出力する。 The combination processing unit 13k combines the information one-dimensionalized by the one-dimensionalization processing unit 13e and the one-dimensionalization processing unit 13j, and outputs the combined information as a spatiotemporal change feature amount (first feature amount).
次に、推定部10’(図1参照)について詳細に説明する。 Next, the estimation unit 10 ′ (see FIG. 1) will be described in detail.
推定部10’は、表示用映像データを取得して、当該映像データ内のシーンチェンジを推定して、推定結果を出力する。推定部10’の取得部11’、第2特徴抽出部12’、時空間特徴抽出部13’、距離計算部14’、フレーム間相関値計算部15’および画面輝度平均差分計算部16’の機能は、上述した学習部10の対応する各部の機能と同様であるので、重複を避けるために、その説明を省略する。 The estimation unit 10 'acquires display video data, estimates a scene change in the video data, and outputs an estimation result. Of the acquisition unit 11 ′, the second feature extraction unit 12 ′, the spatio-temporal feature extraction unit 13 ′, the distance calculation unit 14 ′, the inter-frame correlation value calculation unit 15 ′, and the screen luminance average difference calculation unit 16 ′ of the estimation unit 10 ′. Since the functions are the same as the functions of the corresponding units of the learning unit 10 described above, description thereof is omitted to avoid duplication.
シーンチェンジ推定部17’は、時空間特徴抽出部13’、距離計算部14’、フレーム間相関値計算部15’および画面輝度平均差分計算部16’により算出された、表示用映像データについての特徴量と、学習部10により取得された学習結果(学習モデル)とに基づいて、表示用映像データ内のシーンチェンジの有無を推定する。 The scene change estimator 17 ′ is for display video data calculated by the spatiotemporal feature extractor 13 ′, the distance calculator 14 ′, the inter-frame correlation value calculator 15 ′, and the screen luminance average difference calculator 16 ′. Based on the feature amount and the learning result (learning model) acquired by the learning unit 10, the presence / absence of a scene change in the display video data is estimated.
また、シーンチェンジ推定部17’は、時空間特徴抽出部13’により算出された特徴量SおよびTに基づいて、シーンチェンジの種類を識別できる。たとえば、シーンの急な変化を表すハードカット(Hardcut)や、シーンが徐々に変化するディゾルブ(Dissolve)を検出できる。具体的には、シーンチェンジ推定部17’は、T(x,y,t)≠T(x,y,t−1)かつS(x,y,t)≠S(x,y,t−1)の場合、ハードカットであると判断し、T(x,y,t)≒T(x,y,t−1)かつS(x,y,t)≒S(x,y,t−1)の場合、ディゾルブであると判断する。このとき、シーンチェンジ学習部17は、シーンチェンジの種類を学習可能なように構成される。 The scene change estimation unit 17 ′ can identify the type of scene change based on the feature amounts S and T calculated by the spatiotemporal feature extraction unit 13 ′. For example, it is possible to detect a hard cut that represents a sudden change in the scene and a dissolve that gradually changes the scene. Specifically, the scene change estimator 17 ′ calculates T (x, y, t) ≠ T (x, y, t−1) and S (x, y, t) ≠ S (x, y, t−). In the case of 1), it is determined that it is a hard cut, and T (x, y, t) ≈T (x, y, t−1) and S (x, y, t) ≈S (x, y, t− In the case of 1), it is determined to be a dissolve. At this time, the scene change learning unit 17 is configured to learn the type of scene change.
なお、画像処理装置1の上記各部は、制御部(不図示)により制御される。たとえば、制御部は、CPU(Central Processing Unit)がストレージにインストールされているプログラムをメモリーに読み出して実行することにより実現される。 The above-described units of the image processing apparatus 1 are controlled by a control unit (not shown). For example, the control unit is realized by a CPU (Central Processing Unit) reading a program installed in a storage into a memory and executing the program.
次に、図4および図5を参照して、本実施形態に係る画像処理装置1によりシーンチェンジの有無を学習する処理の手順について詳細に説明する。 Next, with reference to FIG. 4 and FIG. 5, a process procedure for learning the presence / absence of a scene change by the image processing apparatus 1 according to the present embodiment will be described in detail.
図4は本実施形態に係る、シーンチェンジの有無を学習するための処理の手順を示すフローチャート、図5は本実施形態に係る、フレーム画像および時空間変化特徴量の共起ヒストグラムを例示する図である。 FIG. 4 is a flowchart showing a processing procedure for learning the presence / absence of a scene change according to the present embodiment, and FIG. 5 is a diagram illustrating a co-occurrence histogram of a frame image and a spatiotemporal variation feature amount according to the present embodiment. It is.
図4に示すように、まず、学習用映像データが取得される(ステップS1)。このステップでは、学習部10の取得部11が、学習用の映像データを取得する。 As shown in FIG. 4, first, learning video data is acquired (step S1). In this step, the acquisition unit 11 of the learning unit 10 acquires video data for learning.
続いて、学習用映像の時空間変化の特徴(上記の第1特徴量)が抽出される(ステップS2)。このステップでは、時空間特徴抽出部13が、ステップS1で取得された学習用映像データについて、時空間変化特徴量を抽出する。具体的には、時空間特徴抽出部13は、上述のように、学習用映像に含まれる各フレーム画像についてTおよびSを算出し、Sに基づいてUを算出し、TおよびUに基づいてLTおよびLUを算出する。そして、TおよびLT並びにUおよびLUに基づいて共起ヒストグラムを作成する。 Subsequently, the feature (the first feature amount) of the temporal and spatial change of the learning video is extracted (step S2). In this step, the spatiotemporal feature extraction unit 13 extracts a spatiotemporal change feature amount for the learning video data acquired in step S1. Specifically, as described above, the spatio-temporal feature extraction unit 13 calculates T and S for each frame image included in the learning video, calculates U based on S, and based on T and U L T and L U are calculated. Then, to create a co-occurrence histogram based on the T and L T and U and L U.
学習用映像に含まれる時間的に連続するフレーム画像の例は、図5(A)〜図5(C)に示す通りである。図5(A)に示されるフレーム画像(たとえば、時刻tにおける画像)と、図5(A)に時間的に先行する図示しないフレーム画像(たとえば、時刻t−1および時刻t−2における画像)とを用いて、時刻tにおけるパラメータT、S、U、LTおよびLUが算出される。そして、TおよびLTの組合せ並びにUおよびLUの組合せの共起確率についての2次元ヒストグラムが作成される。たとえば、TおよびLTの組合せの投票数を示す、図5(D)に示した共起ヒストグラムが作成される。当該共起ヒストグラムは、(0≦T<1,0≦LT<0.25)となるブロックが、図5(A)のフレーム画像に関して1400弱程あることを示している。これは、フレーム画像間の輝度差Tが1未満と小さいが、Tの変化量が時間経過に連れて大きくなっている(LTが低い)ためである。 Examples of temporally continuous frame images included in the learning video are as shown in FIGS. 5 (A) to 5 (C). A frame image (for example, an image at time t) shown in FIG. 5A and a frame image (not shown) that precedes in time in FIG. 5A (for example, images at time t-1 and time t-2). Are used to calculate parameters T, S, U, L T and L U at time t. Then, a two-dimensional histogram is created for the co-occurrence probabilities of the combination of T and L T and the combination of U and L U. For example, indicating the number of votes of the combination of T and L T, co-occurrence histogram is generated as shown in FIG. 5 (D). The co-occurrence histogram indicates that there are approximately 1400 blocks with respect to the frame image in FIG. 5A, where (0 ≦ T <1, 0 ≦ L T <0.25). This is brightness difference T between the frame images and a small than 1, the amount of change T is increased As the elapsed time (L T is low) because.
同様に、図5(E)に示す共起ヒストグラムは、図5(B)に示すフレーム画像と、これに時間的に先行するフレーム画像とを用いて算出されたTおよびLTの値の組合せの共起確率を示している。当該共起ヒストグラムでは、図5(B)のフレーム画像に関して、0≦T<4となるブロックが増加しており、時間的に連続するフレーム画像間の差分値Tの大きいブロックが、図5(A)のフレーム画像の場合と比べて多いという傾向があることがわかる。これは、輝度差Tが2または3以上と比較的大きいと同時に、Tの変化量が時間経過に連れて大きくなっている(LTが低い)ためである。 Similarly, co-occurrence histogram shown in FIG. 5 (E), the combination of values of the calculated T and L T by using the frame image shown in FIG. 5 (B), and a frame image temporally preceding thereto Indicates the co-occurrence probability. In the co-occurrence histogram, with respect to the frame image of FIG. 5B, the number of blocks satisfying 0 ≦ T <4 is increased, and a block having a large difference value T between temporally consecutive frame images is illustrated in FIG. It can be seen that there is a tendency to be larger than the case of the frame image of A). This is at the same time as the brightness difference T is relatively large and two or more, the amount of change T is increased As the elapsed time (L T is low) because.
図5(F)の共起ヒストグラムも、図5(C)に示すフレーム画像と、これに先行するフレーム画像とを用いて算出されたTおよびLTの値の組合せの共起確率を示している。当該共起ヒストグラムでは、図5(C)のフレーム画像に関して、(0≦T<1,0≦LT<1.0)の範囲で、幅広く共起ヒストグラムの値が高くなっており、輝度差Tの時間的な変化率LTが比較的大きい範囲において、輝度差Tが大きくなっていることがわかる。これは、輝度差Tが0から9以下となる範囲で様々に変化するブロックがある一方で、Tの変化量が画面全体的に時間経過に対して一律となってきている(LTが1に近い)ためである。 Co-occurrence histogram of FIG. 5 (F) also show a frame image shown in FIG. 5 (C), the co-occurrence probabilities of the combination of the values of the calculated T and L T by using the frame image which precedes it Yes. In the co-occurrence histogram, the value of the co-occurrence histogram is wide in the range of (0 ≦ T <1, 0 ≦ L T <1.0) with respect to the frame image in FIG. It can be seen that the luminance difference T increases in a range where the temporal change rate LT of T is relatively large. This is because there are blocks that change variously in a range where the luminance difference T is 0 to 9 or less, but the change amount of T is uniform over time on the entire screen (L T is 1). It is close to).
また、時空間特徴抽出部13は、UおよびLUの組合せの投票数を示す共起ヒストグラム(不図示)を、各フレーム画像に対して同様に作成する。そして、時空間特徴抽出部13は、上述したように、共起ヒストグラムを表現する情報を一元化し、統合したものを時空間変化特徴量として出力する。 The spatio-temporal feature extraction unit 13 similarly creates a co-occurrence histogram (not shown) indicating the number of votes of a combination of U and L U for each frame image. Then, as described above, the spatiotemporal feature extraction unit 13 unifies the information representing the co-occurrence histogram and outputs the integrated information as the spatiotemporal change feature amount.
図4に戻って、ステップS2後、類似度についての特徴量(上記の第2特徴量)が抽出される(ステップS3)。このステップでは、上述した距離計算部14が、ステップS1で取得された学習用映像内の時間的に連続するフレーム画像間の類似度を算出し、類似度についての特徴量として出力する。 Returning to FIG. 4, after step S <b> 2, a feature amount (the above-described second feature amount) for the similarity is extracted (step S <b> 3). In this step, the distance calculation unit 14 described above calculates the similarity between temporally consecutive frame images in the learning video acquired in step S1, and outputs the similarity as a feature amount.
続いて、相関度についての特徴量(上記の第3特徴量)が抽出される(ステップS4)。このステップでは、上述した相関値計算部15が、ステップS1で取得された学習用映像内の時間的に連続するフレーム画像間の相関度を算出し、相関度についての特徴量として出力する。 Subsequently, a feature amount (the above-described third feature amount) regarding the degree of correlation is extracted (step S4). In this step, the correlation value calculation unit 15 described above calculates the degree of correlation between temporally continuous frame images in the learning video acquired in step S1, and outputs it as a feature amount for the degree of correlation.
続いて、画面輝度平均の差分についての特徴量(上記の第4特徴量)が抽出される(ステップS5)。このステップでは、上述した平均差分計算部16がステップS1で取得された学習用映像内の時間的に連続するフレーム画像間の平均輝度の差分を算出し、輝度平均差分についての特徴量として出力する。 Subsequently, a feature amount (the above-described fourth feature amount) regarding the difference in average screen luminance is extracted (step S5). In this step, the above-described average difference calculation unit 16 calculates a difference in average luminance between temporally continuous frame images in the learning video acquired in step S1, and outputs the difference as a feature amount for the luminance average difference. .
続いて、第1特徴抽出部12から抽出された複数種の特徴量(第1〜第4特徴量)から、シーンチェンジの有無を判定するための学習パラメータが生成される(ステップS6)。このステップでは、ステップS1で取得された学習用映像内の全てのフレーム画像に対する特徴量と、別途取得された正解データとに基づいて、シーンチェンジ学習部17が、シーンチェンジの有無を学習する。そして、各特徴量(第1〜第4特徴量)を学習モデルに入力したときに正解データの値(シーンチェンジの有無)が出力されるように学習モデルのパラメータ値を決定する。ここで決定されたパラメータ値は、学習結果(学習パラメータ)として出力、記憶される。 Subsequently, a learning parameter for determining the presence or absence of a scene change is generated from a plurality of types of feature amounts (first to fourth feature amounts) extracted from the first feature extraction unit 12 (step S6). In this step, the scene change learning unit 17 learns whether or not there is a scene change based on the feature amounts for all the frame images in the learning video acquired in step S1 and the correct data acquired separately. Then, the parameter value of the learning model is determined so that the correct data value (presence / absence of scene change) is output when each feature value (first to fourth feature values) is input to the learning model. The parameter value determined here is output and stored as a learning result (learning parameter).
その後、シーンチェンジの有無を学習する処理の手順は終了する。 Thereafter, the processing procedure for learning the presence / absence of a scene change ends.
次に、図6を参照して、本実施形態に係る画像処理装置1によりシーンチェンジを推定する処理の手順について詳細に説明する。 Next, with reference to FIG. 6, a procedure of processing for estimating a scene change by the image processing apparatus 1 according to the present embodiment will be described in detail.
図6は、本実施形態に係る、シーンチェンジの有無を推定するための処理の手順を示すフローチャートである。 FIG. 6 is a flowchart illustrating a procedure of processing for estimating the presence / absence of a scene change according to the present embodiment.
図6に示すように、まず、表示用映像データが取得される(ステップS11)。このステップでは、推定部10’の取得部11’が、表示用映像データを取得する。 As shown in FIG. 6, first, display video data is acquired (step S11). In this step, the acquisition unit 11 ′ of the estimation unit 10 ′ acquires display video data.
続いて、表示用映像の時空間変化の特徴(上記の第1特徴量)が抽出される(ステップS12)。このステップでは、時空間特徴抽出部13’が、ステップS11で取得された表示用映像データについて、時空間変化特徴量を抽出する。このステップは、時空間特徴抽出部13により実行される上記ステップS2と同様である。 Subsequently, the feature (the first feature amount) of the temporal and spatial change of the display video is extracted (step S12). In this step, the spatiotemporal feature extraction unit 13 'extracts a spatiotemporal change feature amount for the display video data acquired in step S11. This step is the same as step S2 executed by the spatiotemporal feature extraction unit 13.
続いて、類似度についての特徴量(上記の第2特徴量)が抽出される(ステップS13)。このステップでは、距離計算部14’が、ステップS11で取得された表示用映像に含まれるフレーム画像間の類似度を算出し、類似度についての特徴量として出力する。このステップは、距離計算部14により実行される上記ステップS3と同様である。 Subsequently, a feature amount (the above-described second feature amount) regarding the similarity is extracted (step S13). In this step, the distance calculation unit 14 ′ calculates the similarity between the frame images included in the display video acquired in step S <b> 11 and outputs it as a feature amount for the similarity. This step is the same as step S3 executed by the distance calculation unit 14.
続いて、相関度についての特徴量(上記の第3特徴量)が抽出される(ステップS14)。このステップでは、相関値計算部15’が、ステップS11で取得された表示用映像に含まれるフレーム画像間の相関度を算出し、相関度についての特徴量として出力する。このステップは、相関値計算部15により実行される上記ステップS4と同様である。 Subsequently, the feature amount (the above-described third feature amount) regarding the degree of correlation is extracted (step S14). In this step, the correlation value calculation unit 15 ′ calculates the degree of correlation between the frame images included in the display video acquired in step S <b> 11 and outputs it as a feature amount for the degree of correlation. This step is the same as step S4 executed by the correlation value calculation unit 15.
続いて、画面輝度平均の差分についての特徴量(上記の第4特徴量)が抽出される(ステップS15)。このステップでは、上述した平均差分計算部16’がステップS11で取得された表示用映像内の時間的に連続するフレーム画像間の平均輝度の差分を算出し、輝度平均差分についての特徴量として出力する。このステップは、平均差分計算部16により実行される上記ステップS5と同様である。 Subsequently, a feature amount (the above-described fourth feature amount) regarding the difference in average screen luminance is extracted (step S15). In this step, the above-described average difference calculation unit 16 ′ calculates a difference in average luminance between temporally continuous frame images in the display video acquired in step S11, and outputs it as a feature amount for the luminance average difference. To do. This step is the same as step S5 executed by the average difference calculation unit 16.
続いて、シーンチェンジの有無が推定される(ステップS16)。このステップでは、ステップS11で取得された表示用映像内のフレーム画像から抽出された特徴量(第1〜第4抽出量)を、ステップS6で生成された学習結果に基づく学習モデルに入力することによって、シーンチェンジ推定部17’が、表示用映像データ内のシーンチェンジの有無を推定し、推定結果を出力する。 Subsequently, the presence / absence of a scene change is estimated (step S16). In this step, the feature amount (first to fourth extraction amounts) extracted from the frame image in the display video acquired in step S11 is input to the learning model based on the learning result generated in step S6. Thus, the scene change estimation unit 17 ′ estimates the presence / absence of a scene change in the display video data and outputs the estimation result.
その後、シーンチェンジの有無を推定する処理の手順は終了する。 Thereafter, the processing procedure for estimating the presence / absence of a scene change ends.
以上のように、本実施形態によれば、フレーム画像内のブロック間の輝度の差分値によるパラメータS,UやT、およびこれらの比率によるパラメータLT,LUについての共起確率により、シーンチェンジを高精度で検出できると同時にその種類も検出できる。さらに、これらのパラメータは、比較的容易に算出できるので、より高速にシーンチェンジの有無や種類を検出できる。 As described above, according to the present embodiment, the scenes are determined based on the co-occurrence probabilities for the parameters S T, U and T based on the luminance difference values between the blocks in the frame image, and the parameters L T and L U based on their ratio. Changes can be detected with high accuracy and at the same time. Furthermore, since these parameters can be calculated relatively easily, the presence / absence and type of a scene change can be detected at a higher speed.
以上本発明を適用した実施形態を説明したが、そのほか、本願の特許請求の範囲に記載した技術思想の範囲でさまざまな変形形態が可能であることは言うまでもない。 Although the embodiment to which the present invention is applied has been described above, it goes without saying that various modifications are possible within the scope of the technical idea described in the claims of the present application.
たとえば、ブロックの大きさは、図示した大きさに限定されない。任意に設定できる。ブロックではなく、画素毎にパラメータを算出してもよい。または、フレーム画像を縮小、すなわちフレーム画像についてのデータ量を減少した上で、当該データに基づいて輝度を算出し、各種特徴量を抽出してもよい。 For example, the size of the block is not limited to the illustrated size. Can be set arbitrarily. You may calculate a parameter for every pixel instead of a block. Alternatively, the frame image may be reduced, that is, the data amount of the frame image may be reduced, and the luminance may be calculated based on the data to extract various feature amounts.
また、図4のフローチャートでは、ステップS2〜5およびステップS12〜15において時空間変化特徴量、類似度、相関度および画面輝度平均の差分に関する特徴量を抽出する形態について述べたが、これに限定されない。シーンチェンジを検出するためのその他の特徴量が追加的に抽出されてもよい。 In the flowchart of FIG. 4, the mode of extracting the feature quantity regarding the difference between the spatio-temporal change feature quantity, the similarity degree, the correlation degree, and the screen luminance average in steps S2 to S5 and S12 to S15 is described. Not. Other feature quantities for detecting a scene change may be additionally extracted.
また、図5(D)〜図5(F)の共起ヒストグラムでは、便宜のため0(ゼロ)以上の値のみを示しているが、これに限定されない。負の値を含むこともある。 Further, in the co-occurrence histograms of FIGS. 5D to 5F, only values of 0 (zero) or more are shown for convenience, but the present invention is not limited to this. May contain negative values.
また、上記実施形態では、輝度の差分に基づいてSやT等のパラメータを算出したが、これに限定されない。フレーム画像内の各色の明度または彩度等の値や色温度の差分に基づいて、各パラメータを算出してもよい。 Moreover, in the said embodiment, although parameters, such as S and T, were calculated based on the difference of a brightness | luminance, it is not limited to this. Each parameter may be calculated based on a value such as brightness or saturation of each color in the frame image or a difference in color temperature.
上記本実施形態にかかる画像処理装置における各種処理を行う手段および方法は、専用のハードウエア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、たとえば、メモリスティックおよびCD−ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、画像形成システムの一機能としてその装置のソフトウエアに組み込まれてもよい。 The means and method for performing various processes in the image processing apparatus according to the present embodiment can be realized by either a dedicated hardware circuit or a programmed computer. The program may be provided by a computer-readable recording medium such as a memory stick and a CD-ROM, or may be provided online via a network such as the Internet. In this case, the program recorded on the computer-readable recording medium is usually transferred to and stored in a storage unit such as a hard disk. The program may be provided as a single application software, or may be incorporated in the software of the apparatus as one function of the image forming system.
1 画像処理装置、
10 学習部、
11 取得部、
12 第1特徴抽出部、
13 時空間特徴抽出部、
13a ブロック分割部、
13b 時間的差分算出部、
13c,13h 比率算出部、
13d,13i 共起ヒストグラム作成部、
13e,13j 1次元化処理部、
13f 空間的差分算出部、
13g 差分算出部、
13k 結合処理部、
14 距離計算部、
15 フレーム間相関値計算部、
16 画面輝度平均差分計算部、
17 シーンチェンジ学習部、
10’ 推定部、
11’ 取得部、
12’ 第2特徴抽出部、
13’ 時空間特徴抽出部、
14’ 距離計算部、
15’ フレーム間相関値計算部、
16’ 画面輝度平均差分計算部、
17’ シーンチェンジ推定部。
1 image processing device,
10 Learning Department,
11 Acquisition Department,
12 1st feature extraction part,
13 Spatio-temporal feature extraction unit,
13a Block division unit,
13b Temporal difference calculation unit,
13c, 13h ratio calculation unit,
13d, 13i co-occurrence histogram generator,
13e, 13j one-dimensional processing unit,
13f spatial difference calculation unit,
13g difference calculation unit,
13k joint processing unit,
14 Distance calculator,
15 inter-frame correlation value calculator,
16 screen brightness average difference calculation unit,
17 Scene Change Learning Department,
10 'estimator,
11 'acquisition unit,
12 '2nd feature extraction part,
13 'spatiotemporal feature extraction unit,
14 'distance calculation part,
15 'interframe correlation value calculator,
16 'screen brightness average difference calculation section,
17 'Scene change estimation part.
Claims (15)
前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出する第1特徴抽出部と、
前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する学習部と、
連続する複数のフレーム画像についてのデータを含む表示用映像データを取得する第2取得部と、
前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する第2特徴抽出部と、
前記第2特徴および前記学習部により得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定する推定部と、
を有し、
前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含む画像処理装置。 A first acquisition unit that acquires learning video data including data on a plurality of consecutive frame images;
A first feature extraction unit for extracting, from the learning video data, a feature of temporal and spatial changes of the video as a first feature;
A learning unit that learns whether or not scenes are switched between successive frame images using the first feature;
A second acquisition unit that acquires display video data including data on a plurality of consecutive frame images;
A second feature extraction unit for extracting, as a second feature, a feature of temporal and spatial changes of the video from the display video data;
Based on the learning result obtained by the second feature and the learning unit, an estimation unit that estimates the presence or absence of scene switching between successive frame images;
Have
The first feature and the second feature are: a luminance or color difference value between frame images and a co-occurrence probability of a temporal change rate of the difference value, and a luminance or color difference value between adjacent blocks in the frame image. And an image processing apparatus including at least one of the co-occurrence probabilities of the time change rate of the difference value.
前記学習部は、前記第3特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項1に記載の画像処理装置。 The first feature extraction unit extracts a feature based on the similarity between frame images from the learning video data as a third feature amount,
The image processing apparatus according to claim 1, wherein the learning unit learns whether or not scenes are switched between consecutive frame images by further using the third feature amount.
前記学習部は、前記第4特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項1または2に記載の画像処理装置。 The first feature extraction unit extracts a feature based on a correlation degree between frame images from the learning video data as a fourth feature amount,
The image processing apparatus according to claim 1, wherein the learning unit learns whether or not scenes are switched between consecutive frame images by further using the fourth feature amount.
前記第2特徴抽出部は、前記表示用映像データを減少し、減少した表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する、請求項1〜4のいずれか一項に記載の画像処理装置。 The first feature extraction unit reduces the learning video data, extracts a temporal and spatial change feature of the video from the reduced learning video data as a first feature,
The said 2nd feature extraction part reduces the said video data for a display, and extracts the characteristic of the spatio-temporal change of a video as a 2nd feature from the reduced video data for a display. An image processing apparatus according to 1.
前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出するステップ(b)と、
前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習するステップ(c)と、
連続する複数のフレーム画像についてのデータを含む表示用映像データを取得するステップ(d)と、
前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出するステップ(e)と、
前記第2特徴および前記ステップ(c)で得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定するステップ(f)と、
を有し、
前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含む画像処理方法。 Acquiring learning video data including data on a plurality of consecutive frame images;
(B) extracting a feature of temporal and temporal changes of the video from the learning video data as a first feature;
Learning whether or not there is a scene change between successive frame images using the first feature;
Obtaining video data for display including data on a plurality of continuous frame images (d);
(E) extracting from the display video data a feature of temporal and spatial changes of the video as a second feature;
Estimating the presence or absence of scene switching between successive frame images based on the second feature and the learning result obtained in step (c);
Have
The first feature and the second feature are: a luminance or color difference value between frame images and a co-occurrence probability of a temporal change rate of the difference value, and a luminance or color difference value between adjacent blocks in the frame image. And an image processing method including at least one of the co-occurrence probabilities of the time change rate of the difference value.
前記ステップ(c)において、前記第3特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項6に記載の画像処理方法。 A step (g) of extracting a feature based on a similarity between frame images as a third feature amount from the learning video data;
The image processing method according to claim 6, wherein in step (c), the presence or absence of scene switching between successive frame images is learned by further using the third feature amount.
前記ステップ(c)において、前記第4特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項6または7に記載の画像処理方法。 A step (h) of extracting a feature based on the degree of correlation between the frame images from the learning video data as a fourth feature amount;
The image processing method according to claim 6 or 7, wherein in the step (c), the presence or absence of scene switching between successive frame images is learned by further using the fourth feature amount.
前記ステップ(e)の前に前記表示用映像データを減少し、前記ステップ(e)において、減少した表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する、請求項6〜9のいずれか一項に記載の画像処理方法。 Before the step (b), there is a step of reducing the learning video data. In the step (b), a feature of temporal and temporal changes of the video is extracted from the reduced learning video data as a first feature. ,
The display video data is reduced before the step (e), and a feature of temporal and spatial changes of the video is extracted as a second feature from the reduced display video data in the step (e). The image processing method as described in any one of -9.
前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出する手順(b)と、
前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する手順(c)と、
連続する複数のフレーム画像についてのデータを含む表示用映像データを取得する手順(d)と、
前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する手順(e)と、
前記第2特徴および前記手順(c)で得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定する手順(f)と、
を含む手順をコンピューターに実行させるための画像処理プログラムにおいて、
前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含む画像処理プログラム。 A procedure (a) for acquiring video data for learning including data on a plurality of continuous frame images;
A procedure (b) for extracting, from the learning video data, a feature of temporal and spatial changes of the video as a first feature;
A procedure (c) for learning whether or not there is a scene change between successive frame images using the first feature;
A procedure (d) of acquiring display video data including data on a plurality of consecutive frame images;
A procedure (e) for extracting, from the display video data, a feature of temporal and spatial changes of the video as a second feature;
A procedure (f) for estimating the presence or absence of a scene change between successive frame images based on the learning result obtained in the second feature and the procedure (c);
In an image processing program for causing a computer to execute a procedure including:
The first feature and the second feature are: a luminance or color difference value between frame images and a co-occurrence probability of a temporal change rate of the difference value, and a luminance or color difference value between adjacent blocks in the frame image. And an image processing program including at least one of the co-occurrence probabilities of the time change rate of the difference value.
前記手順(c)において、前記第3特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項11に記載の画像処理プログラム。 A step (g) of extracting a feature based on the similarity between frame images as a third feature amount from the learning video data;
The image processing program according to claim 11, wherein in the step (c), the presence or absence of a scene change between consecutive frame images is learned by further using the third feature amount.
前記手順(c)において、前記第4特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項11または12に記載の画像処理プログラム。 A step (h) of extracting a feature based on the degree of correlation between the frame images from the learning video data as a fourth feature amount;
The image processing program according to claim 11 or 12, wherein in the step (c), the presence or absence of a scene change between successive frame images is learned by further using the fourth feature amount.
前記手順(e)の前に前記表示用映像データを減少し、前記手順(e)において、減少した表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する、請求項11〜14のいずれか一項に記載の画像処理プログラム。 Before the step (b), there is a step of reducing the learning video data. In the step (b), a feature of temporal and temporal changes of the video is extracted from the reduced learning video data as a first feature. ,
12. The display video data is reduced before the procedure (e), and the temporal and spatial change characteristics of the video are extracted as second characteristics from the reduced display video data in the procedure (e). The image processing program as described in any one of -14.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012265629A JP2014110020A (en) | 2012-12-04 | 2012-12-04 | Image processor, image processing method and image processing program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012265629A JP2014110020A (en) | 2012-12-04 | 2012-12-04 | Image processor, image processing method and image processing program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2014110020A true JP2014110020A (en) | 2014-06-12 |
Family
ID=51030588
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012265629A Pending JP2014110020A (en) | 2012-12-04 | 2012-12-04 | Image processor, image processing method and image processing program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2014110020A (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105744252A (en) * | 2014-12-12 | 2016-07-06 | 华为终端(东莞)有限公司 | Frame output method and device |
| CN108335292A (en) * | 2015-08-13 | 2018-07-27 | 海信集团有限公司 | A kind of method of insert pictures in scene switching |
| JP2018120362A (en) * | 2017-01-24 | 2018-08-02 | 日本放送協会 | Scene change point model learning device, scene change point detection device, and program thereof |
| CN110189242A (en) * | 2019-05-06 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | Image processing method and device |
| JP2020506446A (en) * | 2017-02-14 | 2020-02-27 | グーグル エルエルシー | Unsupervised learning method of time difference model |
| CN113225461A (en) * | 2021-02-04 | 2021-08-06 | 江西方兴科技有限公司 | System and method for detecting video monitoring scene switching |
-
2012
- 2012-12-04 JP JP2012265629A patent/JP2014110020A/en active Pending
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105744252A (en) * | 2014-12-12 | 2016-07-06 | 华为终端(东莞)有限公司 | Frame output method and device |
| CN105744252B (en) * | 2014-12-12 | 2018-01-16 | 华为终端(东莞)有限公司 | A kind of frame output intent and device |
| CN108335292A (en) * | 2015-08-13 | 2018-07-27 | 海信集团有限公司 | A kind of method of insert pictures in scene switching |
| CN108335292B (en) * | 2015-08-13 | 2021-07-30 | 海信集团有限公司 | Method for inserting picture in scene switching |
| JP2018120362A (en) * | 2017-01-24 | 2018-08-02 | 日本放送協会 | Scene change point model learning device, scene change point detection device, and program thereof |
| JP2020506446A (en) * | 2017-02-14 | 2020-02-27 | グーグル エルエルシー | Unsupervised learning method of time difference model |
| CN110189242A (en) * | 2019-05-06 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | Image processing method and device |
| CN113225461A (en) * | 2021-02-04 | 2021-08-06 | 江西方兴科技有限公司 | System and method for detecting video monitoring scene switching |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11538232B2 (en) | Tracker assisted image capture | |
| JP6904346B2 (en) | Image processing equipment, image processing systems, and image processing methods, and programs | |
| US7489803B2 (en) | Object detection | |
| US7421149B2 (en) | Object detection | |
| US7522772B2 (en) | Object detection | |
| JP6474854B2 (en) | Method and apparatus for updating a background model | |
| JP5478047B2 (en) | Video data compression pre-processing method, video data compression method and video data compression system using the same | |
| CN110443833A (en) | Method for tracing object and equipment | |
| EP1542154A2 (en) | Object detection | |
| EP1542152A1 (en) | Object detection | |
| US20140126818A1 (en) | Method of occlusion-based background motion estimation | |
| JP7197000B2 (en) | Information processing device, information processing method and information processing program | |
| JP2014110020A (en) | Image processor, image processing method and image processing program | |
| JP2018124689A (en) | Moving body detection device, moving body detection system and moving body detection method | |
| KR101396838B1 (en) | Video stabilization method and system by selection one of various motion models | |
| JP5644505B2 (en) | Collation weight information extraction device | |
| Teknomo et al. | Background image generation using boolean operations | |
| JP2006244074A (en) | Animal up-frame detection method, program, and storage medium storing program, and animal up-shot detection method, animal up-frame or shot detection method, program, and storage medium | |
| JP6257337B2 (en) | Image selection device | |
| WO2013136395A1 (en) | Sensor device, sensing method, and recording medium storing program | |
| JP5699856B2 (en) | Moving image processing apparatus, moving image processing method, and moving image processing computer program | |
| JP4924423B2 (en) | Device for detecting cut point of moving image based on prediction error of feature amount | |
| JP4378801B2 (en) | Image processing method and image processing apparatus |