JP2009181306A - VIDEO INDEXING DEVICE, VIDEO INDEXING METHOD, VIDEO INDEXING PROGRAM, AND ITS RECORDING MEDIUM - Google Patents
VIDEO INDEXING DEVICE, VIDEO INDEXING METHOD, VIDEO INDEXING PROGRAM, AND ITS RECORDING MEDIUM Download PDFInfo
- Publication number
- JP2009181306A JP2009181306A JP2008019319A JP2008019319A JP2009181306A JP 2009181306 A JP2009181306 A JP 2009181306A JP 2008019319 A JP2008019319 A JP 2008019319A JP 2008019319 A JP2008019319 A JP 2008019319A JP 2009181306 A JP2009181306 A JP 2009181306A
- Authority
- JP
- Japan
- Prior art keywords
- image
- video
- label
- identification function
- definition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】辞書データの収集に多大なコストと時間をかけることなく,定義ラベルと画像内容との関係が変動する場合にも高精度の映像インデキシングを実現する。
【解決手段】定義ラベルと,1クラス識別関数算出手段4が正事例画像から算出した処理対象画像が定義ラベルを表す画像であるか否かを判別する1クラス識別関数と,2クラス識別関数算出手段5が正事例画像と負事例画像とから算出した正事例画像と負事例画像とを識別する2クラス識別関数とを辞書記憶手段6に記憶しておく。ラベル付与候補検出手段7は,インデキシング対象映像を入力し,辞書記憶手段6に記憶された1クラス識別関数を用いて定義ラベルを付与する候補となるフレーム画像を求め,インデキシング手段8は,候補とされたフレーム画像から辞書記憶手段6に記憶された2クラス識別関数を用いて負事例画像に該当する画像を排除し,定義ラベルを付与すべき画像を決定する。
【選択図】図1High accuracy video indexing is realized even when the relationship between the definition label and the image content changes without taking much cost and time to collect dictionary data.
A definition label, a one-class identification function for determining whether or not a processing target image calculated from a normal case image by a one-class identification function calculating unit is an image representing a definition label, and a two-class identification function calculation The dictionary storage means 6 stores a two-class identification function for identifying the positive case image and the negative case image calculated by the means 5 from the positive case image and the negative case image. The labeling candidate detection means 7 receives the indexing target video, obtains a frame image as a candidate for giving a definition label using the one-class identification function stored in the dictionary storage means 6, and the indexing means 8 The image corresponding to the negative case image is excluded from the frame image thus obtained using the two-class discriminant function stored in the dictionary storage means 6, and the image to be assigned the definition label is determined.
[Selection] Figure 1
Description
本発明は,映像の中の見たいシーンに効率よくアクセスするための検索や閲覧に必要となるインデックスを自動付与する映像インデキシングの技術に関する。 The present invention relates to a video indexing technique for automatically assigning an index required for searching and browsing for efficiently accessing a scene to be viewed in a video.
予め定義しておいたラベルと画像内容との関係に基づいて,映像の中で定義ラベルに該当するシーンが出現したときに,そのシーンに定義ラベルを付与する映像インデキシング装置の従来技術として,大量の辞書データを事前に収集し,学習させることで,高精度にインデキシングするものがある。例えば「人物顔」のように普遍的な定義ラベルであれば,事前に大量の辞書画像を収集することができる。辞書データで学習した人物顔画像の辞書を用意しておき,インデキシングの対象映像の各フレーム画像と辞書との類似度から顔画像が含まれると判定されたときに,「人物顔」の定義ラベルを付与すればよい(非特許文献1参照)。 Based on the relationship between predefined labels and image content, when a scene corresponding to a defined label appears in a video, a large number of conventional video indexing devices that assign a defined label to a scene Some dictionary data are indexed with high accuracy by collecting and learning in advance. For example, a universal definition label such as “person face” can collect a large amount of dictionary images in advance. A dictionary of human face images learned from dictionary data is prepared, and when it is determined that a face image is included from the similarity between each frame image of the indexing target video and the dictionary, the definition label of “person face” (See Non-Patent Document 1).
また,利用者がサンプル画像を指定することで意味ラベルを定義した場合には,テンプレートマッチングなどの手法によりサンプル画像と類似したシーンを検出し(非特許文献2参照),検出したシーンに意味ラベルを付与すればよい。
従来の大量の辞書データを用いる技術は,辞書データの収集に多大のコストと時間がかかることが問題であり,さらに定義ラベルと画像内容との関係が変動する場合に適用できないことが問題である。すなわち,利用者の検索要求が生じるたびに,その定義ラベルを表す画像を大量に収集する必要がある。また,最近話題になったオブジェクトやイベントを表したシーンや,放送映像などで撮影方法などが変更になったりした場合には,定義ラベルと画像内容との関係が変動するので,そのたびに改めて大量の辞書データを収集して学習しなおす必要がある。このように,学習にコストと時間がかかるため,適用領域が限定されるという問題があった。 The conventional technique using a large amount of dictionary data is problematic in that it takes a lot of cost and time to collect dictionary data, and it cannot be applied when the relationship between the definition label and the image content changes. . That is, each time a user search request occurs, a large amount of images representing the definition label must be collected. In addition, when the shooting method is changed in a scene that represents an object or event that has recently become a topic or in a broadcast video, the relationship between the definition label and the image content changes. It is necessary to collect and learn a large amount of dictionary data. As described above, there is a problem that the application area is limited because learning costs and time.
従来のテンプレートマッチングを用いる技術では,定義ラベルを付与するかを判別するための類似度のしきい値の最適解を求めることが困難である。また,少数のテンプレートでは定義ラベルを表現することが困難な場合には,インデキシングの精度が低いことが問題であった。 In the conventional technique using template matching, it is difficult to obtain an optimum solution of the threshold value of similarity for determining whether to provide a definition label. In addition, when it is difficult to express definition labels with a small number of templates, the problem is that indexing accuracy is low.
本発明は,上記問題点の解決を図り,辞書データの収集に負荷をかけることなく,意味ラベル等のラベルを付与するかを判別するための類似度のしきい値が最適値でなくても高精度にインデキシングできる装置を提供することを目的とする。 The present invention solves the above-described problems, and does not impose a burden on the collection of dictionary data, and the similarity threshold for determining whether to add a label such as a semantic label is not the optimum value. An object of the present invention is to provide a device capable of indexing with high accuracy.
本発明の原理構成図を図1に示す。本発明の映像インデキシング装置は,図1に示すような手段を備える。 A principle configuration diagram of the present invention is shown in FIG. The video indexing apparatus of the present invention includes means as shown in FIG.
基準画像選定手段1は,与えられた辞書用映像の中から,定義ラベルを表す基準画像を選定する手段である。辞書データ収集手段2は,辞書用映像の中から基準画像と類似する画像を検出する手段である。正事例・負事例選定手段3は,収集した類似画像の中で定義ラベルを表す画像として正しい画像を正事例画像,正しくない画像を類似している順に負事例画像としてそれぞれ選定する手段である。 The reference image selection means 1 is a means for selecting a reference image representing a definition label from a given dictionary video. The dictionary data collecting means 2 is a means for detecting an image similar to the reference image from the dictionary video. The positive case / negative case selection means 3 is a means for selecting a correct image as a positive case image and an incorrect image as negative case images in the order of similarity, as an image representing a definition label among the collected similar images.
1クラス識別関数算出手段4は,正事例画像から定義ラベルを表す画像であるか否かを判別するための1クラス識別関数を算出する手段である。2クラス識別関数算出手段5は,正事例画像と負事例画像とから両者を識別するための2クラス識別関数を算出する手段である。辞書記憶手段6は,1クラス識別関数算出手段4が算出した1クラス識別関数および2クラス識別関数算出手段5が算出した2クラス識別関数を,定義ラベルとともに蓄積し記憶しておく手段である。 The one class discriminant function calculating unit 4 is a unit that calculates a one class discriminant function for discriminating whether or not the image represents a definition label from the positive case image. The 2-class discriminant function calculating means 5 is a means for calculating a 2-class discriminant function for discriminating both from the positive case image and the negative case image. The dictionary storage means 6 is a means for accumulating and storing the 1-class discrimination function calculated by the 1-class discrimination function calculation means 4 and the 2-class discrimination function calculated by the 2-class discrimination function calculation means 5 together with the definition label.
ラベル付与候補検出手段7は,インデキシング対象映像が与えられたときに,当該映像から選択したフレーム画像について,1クラス識別関数算出手段4で求めた1クラス識別関数を用いて定義ラベルを付与する候補となるフレーム画像を求める手段である。インデキシング手段8は,ラベル付与候補検出手段7が求めた候補のフレーム画像について,2クラス識別関数算出手段5で求めた2クラス識別関数を用いて定義ラベルを付与すべき画像であるか否かを判定する手段である。
The candidate for label addition detection means 7 is a candidate for giving a definition label to the frame image selected from the video using the one class identification function obtained by the one class identification function calculation means 4 when the index target video is given. Means for obtaining a frame image. The
本発明は,正事例画像を抽出する1クラス識別関数により,正事例画像に似た対象を抽出した後,正事例画像と負事例画像とを区別する2クラス識別関数を用いた負事例画像の排除を実施することにより,定義ラベルを付与すべき画像であるか否かを適切に判定することができる。 According to the present invention, an object similar to a positive case image is extracted by a one-class identification function for extracting a positive case image, and then a negative case image using a two-class identification function for distinguishing a positive case image from a negative case image is used. By performing the exclusion, it is possible to appropriately determine whether or not the image is to be provided with a definition label.
1クラス識別関数算出手段4および2クラス識別関数算出手段5での特徴量として,フレーム画像の映像における出現時刻(メディア時刻)と画像特徴量を用いることができる。 Appearance time (media time) and image feature quantity in the video of the frame image can be used as the feature quantity in the first class discrimination function calculation means 4 and the second class discrimination function calculation means 5.
また,本発明は,上記の手段に加え,複数の定義ラベルが出現する順序関係や時間間隔でイベントをルール化し,検出すべきイベントのルールとラベルとを設定するイベント設定手段と,インデキシング手段8で付与された定義ラベルの順序関係や時間間隔と,イベント設定手段で設定されているルールとの類似度に基づいてイベントラベルを付与するイベントラベル付与手段とを設けることもできる。 In addition to the above-described means, the present invention includes an event setting means that rules events according to the order relationship and time intervals in which a plurality of definition labels appear, and sets the rules and labels of events to be detected, and the indexing means 8 It is also possible to provide event label assigning means for assigning event labels based on the similarity between the order relationship and the time interval of the definition labels given in step 1 and the rules set by the event setting means.
また,上記本発明において,1クラス識別関数算出手段4は,1クラス識別関数を辞書データ収集手段2における類似度の基準に基づいて算出することができる。例えば,1クラス識別関数算出手段4での正事例画像から定義ラベルを表す画像であるか否かを判別するための特徴量として,辞書データ収集手段2における画像の類似度の基準とした特徴量を用いることができる。 In the present invention, the one-class discriminant function calculating unit 4 can calculate the one-class discriminant function based on the similarity criterion in the dictionary data collecting unit 2. For example, as a feature value for discriminating whether or not the image represents a definition label from the positive case image in the one-class discrimination function calculation unit 4, a feature value used as a reference for image similarity in the dictionary data collection unit 2 Can be used.
本発明によれば,1クラス識別関数による判定と2クラス識別関数による判定の2段階の判定手段により判定することで精度よくインデキシングを行うことができる。また,1クラス識別関数算出手段のしきい値を調整するための手間をなくすことができる。 According to the present invention, it is possible to perform indexing with high accuracy by performing the determination by two-stage determination means, that is, determination by a one-class identification function and determination by a two-class identification function. Further, it is possible to eliminate the trouble of adjusting the threshold value of the one class identification function calculating means.
また,本発明は,定義ラベルが出現する順序関係や時間間隔と事前に設定したルールとを比較することでイベントラベルを付与するイベントラベル付与手段を設けることにより,さらに精度よく所望の映像区間にインデキシングが行えるようになる。 In addition, the present invention provides an event label assigning means for assigning an event label by comparing the order relationship and time interval in which the definition labels appear with a preset rule, thereby further accurately adding a desired video section. Indexing can be performed.
さらに,本発明は,基準画像を選定する手段,辞書データ収集手段,正事例画像と負事例画像の選定手段を設けることにより,辞書データを簡単に効率よく集めることができる。 Furthermore, according to the present invention, dictionary data can be collected easily and efficiently by providing means for selecting a reference image, dictionary data collecting means, and means for selecting positive case images and negative case images.
以下,図面を用いて,本発明の実施の形態を説明する。本発明に係る映像インデキシング装置は,大きく分けて,辞書を生成する辞書生成部とインデキシング対象映像にラベルを付与するインデキシング部とから構成される。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The video indexing apparatus according to the present invention is roughly composed of a dictionary generation unit that generates a dictionary and an indexing unit that assigns a label to the indexed video.
図2は,本発明の第1の実施例における映像インデキシング装置の辞書生成部の構成,図3は,本発明の第1の実施例における映像インデキシング装置のインデキシング部の構成をそれぞれ説明するための図である。 FIG. 2 illustrates the configuration of the dictionary generation unit of the video indexing apparatus according to the first embodiment of the present invention, and FIG. 3 illustrates the configuration of the indexing unit of the video indexing apparatus according to the first embodiment of the present invention. FIG.
図2の辞書生成部は,辞書用映像蓄積部11,基準画像選定処理部12,画像特徴抽出部13,辞書データ収集処理部14,正事例・負事例選定処理部15,特徴量抽出部16,1クラス識別関数算出部17,2クラス識別関数算出部18,定義ラベル辞書記憶部19で構成される。
2 includes a dictionary video storage unit 11, a reference image
図3のインデキシング部は,インデキシング映像取得部20,フレーム画像取得部21,特徴量抽出部16,定義ラベル辞書記憶部19,1クラス識別関数による候補検出部22,2クラス識別関数によるインデキシング部23で構成される。
The indexing unit in FIG. 3 includes an indexing
辞書用映像蓄積部11は,事前に取得しておいた辞書用の映像を蓄積・管理しておき,基準画像選定処理部12からの要求に応じて辞書用映像を基準画像選定処理部12に出力する。
The dictionary video storage unit 11 stores and manages the dictionary video acquired in advance, and sends the dictionary video to the reference image
基準画像選定処理部12は,定義ラベルが入力されると,辞書用映像蓄積部11に読み取り要求を出して辞書用映像蓄積部11から受けとった辞書用映像の中から,定義ラベルを表す典型的なフレーム画像を選定する。選定した画像を基準画像として,辞書用映像とともに画像特徴抽出部13に出力する。基準画像の選定方法として,例えば,辞書映像のシーンが大きく変わるところを区切りとするショット分割を行い,各ショットの先頭画像を一覧表示し,その中から基準画像をマウスなどで指定させるインタフェースを実装する方法を用いることができるが,この方法に限らず,基準画像の選定は,種々の方法により容易に実施することができる。
When the definition label is input, the reference image
画像特徴抽出部13は,基準画像選定処理部12から受け取った基準画像および辞書用映像の各フレーム画像から,色やテクスチャーなどに関する画像特徴量を抽出し,抽出した特徴空間での各フレーム画像を特徴ベクトルで表し,特徴ベクトルを辞書データ収集処理部14に出力する。
The image
辞書データ収集処理部14は,画像特徴抽出部13から各画像の特徴ベクトルを受け取ると,その基準画像と類似した画像を辞書用映像の中から収集し,収集した画像群を正事例・負事例選定処理部15に出力する。
When the dictionary data
正事例・負事例選定処理部15は,辞書データ収集処理部14から受け取った画像群から,定義ラベルの画像内容を表している正事例画像と,表していない負事例画像を所定の数だけ選定し,正事例画像と負事例画像を特徴量抽出部16に出力する。
The positive case / negative case
特徴量抽出部16は,正事例・負事例選定処理部15から受け取った正事例画像または負事例画像の色やテクスチャーに関する画像特徴をもとに,識別関数を算出するための特徴量を抽出し,抽出した特徴空間での各画像を特徴ベクトルで表し,正事例画像の特徴ベクトルを1クラス識別関数算出部17へ,正事例画像と負事例画像の特徴ベクトルを2クラス識別関数算出部18へそれぞれ出力する。特徴量の具体例として,画像特徴抽出部13で抽出した画像特徴に画像の映像での出現時刻を特徴量として追加する方法や,正事例画像と負事例画像の全画像を対象として,画像特徴抽出部13で抽出した画像特徴を用いて主成分分析を行い,次元圧縮したものを特徴量とする方法などが有効である。
The feature
また,特徴量抽出部16は,図3に示すフレーム画像取得部21から画像を受け取った場合には,同様の特徴抽出を行い,抽出した特徴ベクトルを1クラス識別関数による候補検出部22に出力する。
Further, when receiving an image from the frame
1クラス識別関数算出部17は,特徴量抽出部16から受け取った正事例画像の特徴ベクトルから,特徴空間において,定義ラベルを表す画像であるか否かを判別するための1クラス識別関数を算出し,算出した1クラス識別関数を定義ラベル辞書記憶部19に出力する。
The one-class identification
1クラス識別関数として,例えば,特徴空間における正事例画像の平均ベクトルを中心とする球面の中に正事例画像が全て含まれるような球面を識別関数とする方法や,特徴空間での正事例画像の分布を複数のガウシアン分布でモデル化した混合ガウシアンモデルで正事例であることの確率分布を表し,この確率分布に基づいて正事例画像であることの確率が予め設定したしきい値以上であれば正事例と判定することを識別関数とする方法などを用いればよい。このときのしきい値の設定を,例えば60%と低く設定しておけば,1クラス識別関数による検出漏れが少なくなる。もちろん誤検出が増えることになるが,これは,2クラス識別関数算出部18の処理により除外できるので問題ない。このように,1クラス識別関数のしきい値を最適値にする必要がないので,しきい値の調整にコストをかけることなく精度よくインデキシングを行うことができる。
As a one-class discriminant function, for example, a method in which a spherical surface in which all positive case images are included in a spherical surface centered on an average vector of positive case images in a feature space is used as a discriminant function, or a positive case image in a feature space The probability distribution of a positive case image is expressed by a mixed Gaussian model obtained by modeling the distribution of multiple Gaussian distributions, and the probability of being a positive case image based on this probability distribution is greater than a preset threshold. For example, a method using an identification function to determine a positive case may be used. If the threshold setting at this time is set as low as 60%, for example, the detection omission due to the one-class identification function is reduced. Of course, the number of false detections increases, but this can be eliminated by the processing of the two-class discriminant
2クラス識別関数算出部18は,特徴量抽出部16から受け取った正事例画像と負事例画像の特徴ベクトルから,特徴空間において,定義ラベルを表す画像と表さない画像とを判別するための2クラス識別関数を算出し,算出した2クラス識別関数を定義ラベル辞書記憶部19に出力する。2クラス識別関数として,例えば,フィッシャーの判別関数やSVM(Support Vector Machine)などを用いればよい。
The two-class discriminant
定義ラベル辞書記憶部19は,1クラス識別関数算出部17から受け取った1クラス識別関数と,2クラス識別関数算出部18から受け取った2クラス識別関数を,定義ラベルとともに蓄積しておき,図3に示す1クラス識別関数による候補検出部22,および2クラス識別関数によるインデキシング部23からの要求に応じて,1クラス識別関数または2クラス識別関数を出力する。
The definition label
次に,図3のインデキシング映像取得部20は,インデキシングの対象となる映像を取得し,取得した映像をフレーム画像取得部21へ出力する。
Next, the indexed
フレーム画像取得部21は,インデキシング映像取得部20から受け取ったインデキシングの対象映像から一定間隔でサンプリングすることによりフレーム画像を取得し,取得したフレーム画像を特徴量抽出部16へ出力する。
The frame
1クラス識別関数による候補検出部22は,特徴量抽出部16から各フレーム画像の特徴ベクトルを受け取ると,定義ラベルと1クラス識別関数の要求信号を定義ラベル辞書記憶部19に出力し,定義ラベル辞書記憶部19から定義ラベルと1クラス識別関数を受け取る。受け取った1クラス識別関数を用いて,各フレーム画像が定義ラベルを表す画像であるか否かを判定し,定義ラベルを表す画像であると判定された画像を候補画像とし,候補画像の特徴ベクトルを2クラス識別関数によるインデキシング部23に出力する。
Upon receiving the feature vector of each frame image from the feature
2クラス識別関数によるインデキシング部23は,1クラス識別関数による候補検出部22から候補画像の特徴ベクトルを受け取ると,定義ラベルと2クラス識別関数の要求信号を定義ラベル辞書記憶部19に出力し,定義ラベル辞書記憶部19から定義ラベルと2クラス識別関数を受け取る。2クラス識別関数によるインデキシング部23は,受け取った2クラス識別関数を用いて,候補画像の中で定義ラベルを表す画像を決定し,映像の中で定義ラベルが出現した画像であることを示す情報をインデキシング結果として出力する。
When receiving the feature vector of the candidate image from the
次に,上記の構成における処理手順について,図4に示す辞書用映像の例を用いて説明する。辞書用映像をVd,定義ラベルの基準画像をFdとする。図4において,区間1,2,3は,定義ラベルを表す画像が出現する区間である。 Next, a processing procedure in the above configuration will be described using an example of a dictionary video shown in FIG. The dictionary video is Vd, and the reference image of the definition label is Fd. In FIG. 4, sections 1, 2, and 3 are sections in which images representing definition labels appear.
図5は,本発明の第1の実施例における辞書生成部の処理を示すフローチャートである。 FIG. 5 is a flowchart showing the processing of the dictionary generation unit in the first embodiment of the present invention.
[ステップS501]
基準画像選定処理部12において,基準画像と辞書用映像蓄積部11で管理されている辞書用映像の各フレーム画像を読み込む。基準画像として図4に示すFdが選定されたとする。
[Step S501]
The reference image
次に,画像特徴抽出部13において,ステップS502,S503,S504,S505の手順で画像特徴量を抽出する。以下では,色特徴量としてカラーモーメント,テクスチャー特徴量として濃度勾配ヒストグラムを用いる場合を例に説明する。
Next, the image
[ステップS502]
各フレーム画像はRGBの3原色で表現されているので,これをLab色空間に変換する。
[Step S502]
Since each frame image is represented by the three primary colors RGB, it is converted to the Lab color space.
[ステップS503]
画像をM×N個のブロックに分割する。図6に分割例を示す。図6の例では,フレーム画像を4×4=16個のブロック領域に分割している。
[Step S503]
The image is divided into M × N blocks. FIG. 6 shows an example of division. In the example of FIG. 6, the frame image is divided into 4 × 4 = 16 block areas.
[ステップS504]
各ブロックに属する画素の色情報からカラーモーメントを算出する。Lab色空間の各成分L,a,bについて,ブロック内の全画素に対する1次,2次,3次のモーメントをそれぞれ算出する。各ブロックから9次元のカラーモーメントが得られるので,各フレーム画像からの色特徴は,この例ではM×N×9次元の特徴ベクトルで表されることになる。
[Step S504]
The color moment is calculated from the color information of the pixels belonging to each block. For each component L, a, and b in the Lab color space, first, second, and third moments are calculated for all the pixels in the block. Since a 9-dimensional color moment is obtained from each block, the color feature from each frame image is represented by an M × N × 9-dimensional feature vector in this example.
[ステップS505]
Lab色空間のL成分のみを対象としてテクスチャー特徴である濃度勾配ヒストグラムを算出する。
[Step S505]
A density gradient histogram that is a texture feature is calculated only for the L component of the Lab color space.
まず,L成分を表す画像の各画素について,エッジ方向とエッジ強度を求める。画素(x,y)のL成分の値をL(x,y)とすると,エッジ方向とエッジ強度は次式で求められる。 First, the edge direction and the edge strength are obtained for each pixel of the image representing the L component. When the value of the L component of the pixel (x, y) is L (x, y), the edge direction and the edge strength are obtained by the following equations.
エッジ強度:sqrt(ΔX*ΔX+ΔY*ΔY)
エッジ方向:arctan(ΔY/ΔX)
ここで,
ΔX=L(x+1,y)−L(x,y)
ΔY=L(x,y+1)−L(x,y)
次に,ブロック内の各画素について,エッジ強度で重み付けしたエッジ方向の頻度分布を算出する。エッジ方向について,例えば0度〜180度を20度間隔に9分割して,頻度を集計すると,各ブロックの濃度勾配ヒストグラムは9次元となる。この場合,各フレーム画像からのテクスチャー特徴は,M×N×9次元の特徴ベクトルで表される。
Edge strength: sqrt (ΔX * ΔX + ΔY * ΔY)
Edge direction: arctan (ΔY / ΔX)
here,
ΔX = L (x + 1, y) −L (x, y)
ΔY = L (x, y + 1) −L (x, y)
Next, for each pixel in the block, the frequency distribution in the edge direction weighted by the edge strength is calculated. For the edge direction, for example, when the frequency is totaled by dividing 9 degrees into 0 degrees to 180 degrees at 20 degree intervals, the density gradient histogram of each block becomes 9 dimensions. In this case, the texture feature from each frame image is represented by a feature vector of M × N × 9 dimensions.
次に,辞書データ収集処理部14において,ステップS506,S507により辞書データを収集する。
Next, the dictionary data
[ステップS506]
辞書用映像Vdの各フレーム画像Fi(i=1,2,... ,I)と基準画像Fdとの距離r(i)を算出する。
[Step S506]
A distance r (i) between each frame image Fi (i = 1, 2,..., I) of the dictionary video Vd and the reference image Fd is calculated.
基準画像Fdと各フレーム画像Fiとから求めたM×N×9次元の色特徴ベクトル間のユークリッド距離をr_col,基準画像Fdと各フレーム画像Fiとから求めたM×N×9次元のテクスチャー特徴ベクトル間のユークリッド距離をr_texとすると,それらの重み和としてr(i)を次式で求める。 The Euclidean distance between the M × N × 9-dimensional color feature vectors obtained from the reference image Fd and each frame image Fi is r_col, and the M × N × 9-dimensional texture feature obtained from the reference image Fd and each frame image Fi. Assuming that the Euclidean distance between vectors is r_tex, r (i) is obtained by the following equation as the weight sum thereof.
r(i)=w1・r_col+w2・r_tex
ここで,w1,w2は事前に設定した定数である。
r (i) = w1 · r_col + w2 · r_tex
Here, w1 and w2 are constants set in advance.
[ステップS507]
辞書用映像の各フレーム画像と基準画像に対して,ステップS506で求めた距離r(i)から,基準画像と類似したフレーム画像を収集する。予め設定した閾値TH_rを用いて,
r(i)<TH_r
となるフレーム画像Fiを収集すればよい。図4の場合には,定義ラベルを表すフレーム画像が出現する区間が3個,定義ラベルを表していないが基準画像と類似している区間が1個あるので,合計4個の区間内のフレーム画像が辞書データとして収集されることになる。
[Step S507]
Frame images similar to the reference image are collected from the distance r (i) obtained in step S506 for each frame image of the dictionary video and the reference image. Using a preset threshold TH_r,
r (i) <TH_r
What is necessary is just to collect frame image Fi. In the case of FIG. 4, there are three sections in which a frame image representing a definition label appears, and there is one section that does not represent a definition label but is similar to the reference image, so frames in a total of four sections Images are collected as dictionary data.
次に,正事例・負事例選定処理部15において,ステップS508,S509,S510により正事例と負事例を選定する。
Next, the positive case / negative case
[ステップS508]
収集した画像を基準画像との距離r(i)が小さい順位にソートする。
[Step S508]
The collected images are sorted in order of decreasing distance r (i) from the reference image.
[ステップS509]
正事例画像をチェックする画面を提示する。図7に,正事例画像をチェックするGUI(Graphical User Interface)の例を示す。例えば図7に示すように,ディスプレイに画像を一覧表示し,正事例画像とみなす画像をマウスでクリックさせるGUIを提供すればよい。
[Step S509]
A screen for checking the correct case images is presented. FIG. 7 shows an example of a GUI (Graphical User Interface) for checking a correct case image. For example, as shown in FIG. 7, it is only necessary to provide a GUI that displays a list of images on a display and allows the user to click an image that is regarded as a normal case image with a mouse.
[ステップS510]
図7に示すようなGUIにより,正事例画像としてチェックされた画像を正事例画像とし,正事例画像としてチェックされなかった画像の中から,基準画像との距離r(i)が小さい順に正事例画像と同数だけ,負事例画像として選定する。
[Step S510]
Using the GUI as shown in FIG. 7, an image checked as a positive case image is set as a positive case image, and a positive case is selected from the images not checked as a positive case image in ascending order of the distance r (i) from the reference image. Select as many negative images as there are images.
[ステップS511]
特徴量抽出部16において,正事例画像と負事例画像から特徴ベクトルを算出する。特徴ベクトルの例として,ステップS502,S503,S504,S505の手順と同様の方法で,M×N×9次元の色特徴ベクトルとM×N×9次元のテクスチャ特徴ベクトルの画像特徴量を抽出し,画像特徴量だけを特徴ベクトルとして用いる方法や,選定された正事例画像と負事例画像が属していた辞書用映像Vdにおける出現時刻(メディア時刻)を画像特徴量に加える方法などが有効である。
[Step S511]
The feature
[ステップS512]
1クラス識別関数算出部17において,正事例画像を識別するための1クラス識別関数を算出する。1クラス識別関数の算出で用いる特徴量として,辞書データ収集処理部14が辞書データを収集するときに用いた画像の類似度の基準とした特徴量を用いることができる。例えば1クラス識別関数として,特徴空間における正事例画像の確率分布または正事例画像の平均特徴ベクトルからの距離により,処理対象画像が定義ラベルを表す画像であるか否かを識別する関数を用いることができる。
[Step S512]
The one class identification
[ステップS513]
2クラス識別関数算出部18において,正事例画像と負事例画像とから両者を識別する2クラス識別関数を算出する。
[Step S513]
The 2-class discriminant
[ステップS514]
定義ラベルの1クラス識別関数と2クラス識別関数を定義ラベル辞書記憶部19に保存する。
[Step S514]
The one-class discriminant function and the two-class discriminant function of the definition label are stored in the definition label
以上の処理により,定義ラベルに対する辞書が生成できる。 With the above processing, a dictionary for the definition label can be generated.
次に,インデキシング対象映像の各フレームに対して定義ラベルを付与するかどうかを判定するインデキシング処理部の処理手順を図8を用いて説明する。 Next, the processing procedure of the indexing processing unit for determining whether or not to assign a definition label to each frame of the indexing target video will be described with reference to FIG.
[ステップS801]
インデキシング映像取得部20において,インデキシング対象映像を読み込み,フレーム画像取得部21でインデキシング対象映像からフレーム画像を取り込む。以下では,P枚のフレーム画像を取り込んだとして説明する。
[Step S801]
The indexing
[ステップS802]
P枚のフレーム画像を順番に処理するために,初期値としてp=1に設定する。
[Step S802]
In order to sequentially process P frame images, p = 1 is set as an initial value.
[ステップS803]
特徴量抽出部16において,p枚目(p=1,2,... ,P)のフレーム画像から特徴量を算出する。
[Step S803]
The feature
[ステップS804]
1クラス識別関数による候補検出部22において,定義ラベル辞書記憶部19に保存してある1クラス識別関数を用いて,p番目のフレーム画像が定義ラベルを付与する候補になるかを判定する。候補になる場合には,ステップS805に進み,候補にならない場合には,ステップS807に進む。
[Step S804]
The
判定方法として,例えば,ステップS511で求めた特徴ベクトルについて正事例画像の平均ベクトルを算出し,未知画像と平均ベクトルからのユークリッド距離が予め設定しておいた閾値TH_pos1以下であれば,その未知画像に定義ラベルを付与すると判定する方法や,ステップS511で求めた特徴ベクトルにおける正事例画像の分布を複数のガウシアン分布で推定し,混合ガウシアン分布に対する未知画像の尤度が予め設定しておいた閾値TH_pos2以下であれば,その未知画像に定義ラベルを付与すると判定する方法を用いればよい。 As a determination method, for example, an average vector of positive case images is calculated for the feature vector obtained in step S511. If the Euclidean distance from the unknown image and the average vector is equal to or less than a preset threshold TH_pos1, the unknown image A method for determining that a definition label is to be assigned to the threshold value, and a distribution of the positive case image in the feature vector obtained in step S511 is estimated using a plurality of Gaussian distributions, and the likelihood of an unknown image with respect to the mixed Gaussian distribution is set in advance. If TH_pos2 or less, a method of determining that a definition label is to be given to the unknown image may be used.
[ステップS805]
2クラス識別関数によるインデキシング部23において,p番目のフレーム画像に定義ラベルを表しているかを判定する。定義ラベルを表していると判定された場合には,ステップS806へ,表していないと判定された場合には,ステップS807に進む。
[Step S805]
In the
[ステップS806]
p番目のフレームのメディア時刻を,定義ラベルのインデキシング結果として記憶する。すなわち,定義ラベルを付与するフレーム画像のメディア時刻を記憶する。
[Step S806]
The media time of the p-th frame is stored as an indexing result of the definition label. That is, the media time of the frame image to which the definition label is assigned is stored.
[ステップS807]
P個のフレーム画像の全てに対して処理が終了したかを判定する。処理が終了していない場合には,ステップS808に進み,処理が終了した場合には,ステップS809に進む。
[Step S807]
It is determined whether or not processing has been completed for all P frame images. If the process has not been completed, the process proceeds to step S808. If the process has been completed, the process proceeds to step S809.
[ステップS808]
p=p+1とし,ステップS803以降の処理を繰り返す。
[Step S808]
p = p + 1 is set, and the processing after step S803 is repeated.
[ステップS809]
インデキシング結果として,P個のフレーム画像の中で定義ラベルを付与するフレーム画像のメディア時刻をまとめ,そのインデキシング結果を出力する。
[Step S809]
Among the P frame images, the media times of the frame images to which the definition label is added are collected as the indexing result, and the indexing result is output.
以上の処理により,インデキシング対象映像に対して定義ラベルを付与することができる。 With the above processing, a definition label can be assigned to the indexing target video.
次に,本発明の第2の実施例について説明する。図9は,本発明の第2の実施例における映像インデキシング装置のインデキシング部の構成を説明するための図である。 Next, a second embodiment of the present invention will be described. FIG. 9 is a diagram for explaining the configuration of the indexing unit of the video indexing apparatus according to the second embodiment of the present invention.
第2の実施例では,図9のインデキシング処理部は,特徴量抽出部16,定義ラベル辞書記憶部19,インデキシング映像取得部20,フレーム画像取得部21,1クラス識別関数による候補検出部22,2クラス識別関数によるインデキシング部23,フレーム画像インデキシング結果管理部30,イベントルール記憶部31,イベントラベル付与部32で構成される。
In the second embodiment, the indexing processing unit of FIG. 9 includes a feature
特徴量抽出部16,定義ラベル辞書記憶部19,インデキシング映像取得部20,フレーム画像取得部21,定義ラベル辞書記憶部19,1クラス識別関数による候補検出部22,2クラス識別関数によるインデキシング部23は,前述した第1の実施例と同じ処理を行う。
Feature
フレーム画像インデキシング結果管理部30は,2クラス識別関数によるインデキシング部23より出力される,インデキシング対象映像に対する定義ラベルが付与されたメディア時刻を管理する。
The frame image indexing
イベントルール記憶部31は,複数の定義ラベルが出現する順序関係や時間間隔をイベントラベルのルールとして設定する。イベントルールの例を図10に示す。同図において,イベントルール1は,イベントラベル1を付与するためのルールであり,定義ラベルAが付与された区間の次に定義ラベルCが付与された区間が出現し,さらにその次に定義ラベルBが付与された区間が出現し,最後に定義ラベルAが出現するイベントのルールを示す。イベントルール2は,イベントラベル2を付与するためのルールであり,定義ラベルAが付与された区間の10秒以内に,また定義ラベルAの区間が出現し,さらに10秒以内にもう一度,定義ラベルAの区間が出現するイベントのルールを示す。
The event
イベントラベル付与部32は,フレーム画像インデキシング結果管理部30から定義ラベルが付与されたメディア時刻を受け取ると,イベントルール記憶部31に取得要求信号を出して,イベントルールを読み取る。
When the event
インデキシング対象映像に対して付与された定義ラベルの中で,読み取ったイベントルールとの類似度を算出し,類似度が予め設定しておいた閾値以上であれば,そのイベントラベルを付与する。 Among the definition labels assigned to the indexing target video, the similarity with the read event rule is calculated, and if the similarity is equal to or higher than a preset threshold, the event label is assigned.
次に,上記の構成における処理手順について説明する。定義ラベル辞書記憶部19において,定義ラベルA,定義ラベルB,定義ラベルCに対する辞書が管理されており,本発明の第1の実施例の手順に従って,フレーム画像インデキシング結果管理部30では,インデキシング対象映像に対して定義ラベルA,定義ラベルB,定義ラベルCが付与され,イベントルール記憶部31において,図10のイベントラベル1とイベントラベル2が付与されている場合を例に説明する。
Next, a processing procedure in the above configuration will be described. The definition label
イベントラベル付与部32は,フレーム画像インデキシング結果管理部30で管理されているインデキシング対象映像に付与された定義ラベルと,イベントルール記憶部31で記憶されているイベントルールとの類似度を算出する。
The event
類似度の算出方法の例として,イベントルールの定義区間数(図10のイベントルール1では4,イベントルール2では5)に対して出現順序が一致した区間数の比を求める方法がある。例えば,図11に示すように,インデキシング対象映像に対して付与された定義ラベルが映像メディア時刻の順番に定義ラベルA,定義ラベルC,定義ラベルB,定義ラベルCという区間があれば,イベントルール1との類似度は3/4=0.75となる。0.75以上の類似度であればイベントラベルを付与すると設定されていれば,この区間に対してイベントラベル1が付与されることになる。 As an example of the similarity calculation method, there is a method of obtaining a ratio of the number of sections having the same appearance order with respect to the number of defined sections of the event rule (4 for event rule 1 in FIG. 10 and 5 for event rule 2). For example, as shown in FIG. 11, if the definition label given to the indexed video has sections of definition label A, definition label C, definition label B, and definition label C in the order of the video media time, the event rule The similarity with 1 is 3/4 = 0.75. If it is set to add an event label if the degree of similarity is 0.75 or more, event label 1 is assigned to this section.
このような処理をイベントルール1とイベントルール2に対して行うことで,予め設定しておいたイベントが出現した区間に対してインデックスを付与することができる。 By performing such processing for the event rule 1 and the event rule 2, an index can be assigned to a section in which a preset event appears.
イベントラベル付与の具体例について説明する。 A specific example of event label assignment will be described.
〔例1〕例えばサッカー映像での定義ラベルとして,以下のシーンを設定しておく。
・グランドシーン:グランド全体が映っているシーン
・ゴールポストシーン:ゴールポストが大きく映っているシーン
・人物顔シーン:人物顔が大きく映っているシーン
ゴールというイベントを,グランドシーンの後に,ゴールポストシーンが出現し,そのT秒以内に人物顔シーンが出現すると規定する。このようなイベントルールを設定しておけば,サッカー映像においてゴールが映っている可能性の大きい映像区間に,ゴールのイベントラベルを自動付与することができる。
[Example 1] For example, the following scene is set as a definition label in a soccer video.
・ Grand scene: The scene where the whole ground is reflected ・ Goal post scene: The scene where the goal post is reflected greatly ・ The human face scene: The scene where the person face is reflected greatly The event called the goal is the goal post scene after the grand scene Appears, and a human face scene appears within T seconds. If such an event rule is set, an event label for the goal can be automatically assigned to a video section where there is a high possibility that the goal is reflected in the soccer video.
〔例2〕例えばニュース映像での定義ラベルとして,以下のシーンを設定しておく。
・アナウンサーシーン:アナウンサーが映っているシーン
・テロップシーン:テロップが表示されたシーン
トピック遷移イベントを,アナウンサーシーンの直後に,テロップシーンが出現し,そのT秒以上はアナウンサーシーンが出現しないと規定する。このようなイベントルールを設定しておけば,ニュース映像においてトピック遷移イベントを検出し,そのイベントラベルを自動付与することができる。
[Example 2] For example, the following scene is set as a definition label in a news video.
-Announcer scene: Scene where the announcer is shown-Telop scene: Scene where the telop is displayed Topic transition events are defined as the telop scene appears immediately after the announcer scene, and the announcer scene does not appear for more than T seconds. . If such an event rule is set, it is possible to detect a topic transition event in a news video and automatically assign the event label.
以上の映像インデキシングの処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも,ネットワークを通して提供することも可能である。 The above video indexing processing can be realized by a computer and a software program, and the program can be provided by being recorded on a computer-readable recording medium or provided through a network.
1 基準画像選定手段
2 辞書データ収集手段
3 正事例・負事例選定手段
4 1クラス識別関数算出手段
5 2クラス識別関数算出手段
6 辞書記憶手段
7 ラベル付与候補検出手段
8 インデキシング手段
DESCRIPTION OF SYMBOLS 1 Reference image selection means 2 Dictionary data collection means 3 Positive case / negative case selection means 4 1 class discrimination function calculation means 5 2 class discrimination function calculation means 6 Dictionary storage means 7 Label addition candidate detection means 8 Indexing means
Claims (12)
定義ラベルと,学習用の画像として与えられた該定義ラベルを表す正しい正事例画像から抽出された特徴量により算出された,処理対象画像が前記定義ラベルを表す画像であるか否かを判別する1クラス識別関数と,学習用の画像として与えられた該定義ラベルを表す正しい正事例画像と正しくない負事例画像とから抽出された特徴量により算出された,正事例画像と負事例画像とを識別する2クラス識別関数とを辞書データとして記憶する辞書記憶手段と,
インデキシング対象の映像が与えられたときに,当該映像から選択したフレーム画像について,前記辞書記憶手段に記憶された1クラス識別関数を用いて前記辞書記憶手段に記憶された定義ラベルを表す画像であるか否かを判別し,前記定義ラベルを付与する候補となるフレーム画像を求めるラベル付与候補検出手段と,
前記ラベル付与候補検出手段によって候補とされたフレーム画像について,前記辞書記憶手段に記憶された2クラス識別関数を用いて正事例画像もしくは負事例画像のどちらに該当するかを判別することにより,前記候補とされたフレーム画像から負事例画像に該当する画像を排除し,正事例画像に該当する前記定義ラベルを付与すべき画像を決定して,定義ラベルを付与するインデキシング手段とを備える
ことを特徴とする映像インデキシング装置。 In a video indexing device that predefines a definition label that represents image content and assigns a definition label to the scene when a scene corresponding to the definition label appears in a video to be indexed,
It is determined whether or not the processing target image is an image representing the definition label, which is calculated from the definition label and the feature amount extracted from the correct positive case image representing the definition label given as the learning image. A positive case image and a negative case image calculated by a feature amount extracted from a class identification function and a correct positive case image and an incorrect negative case image representing the definition label given as a learning image. Dictionary storage means for storing, as dictionary data, a two-class identification function for identification;
When an image to be indexed is given, the image represents a definition label stored in the dictionary storage unit using a one-class identification function stored in the dictionary storage unit for a frame image selected from the video. Labeling candidate detection means for determining whether or not to determine a frame image as a candidate for giving the definition label;
For the frame image that is a candidate by the labeling candidate detection means, by determining whether it corresponds to a positive case image or a negative case image using a two-class identification function stored in the dictionary storage means, An indexing unit that eliminates images corresponding to negative case images from candidate frame images, determines an image to which the definition label corresponding to a positive case image is to be assigned, and assigns a definition label. A video indexing device.
前記1クラス識別関数および前記2クラス識別関数は,フレーム画像の映像における出現時刻と画像特徴量とを特徴量として識別する関数である
ことを特徴とする映像インデキシング装置。 The video indexing device according to claim 1,
The video indexing device, wherein the 1-class discriminant function and the 2-class discriminant function are functions that identify an appearance time and an image feature amount in a video of a frame image as a feature amount.
映像中のイベントを表すイベントラベルと,映像中のイベントを検出するための複数の定義ラベルが出現する順序関係または時間間隔によって定義されるイベントルールとを記憶するイベントルール記憶手段と,
前記インデキシング手段で付与された定義ラベルの順序関係または時間間隔と,前記イベントルール記憶手段に記憶されているイベントルールとを照合し,それらの類似度が所定の閾値より大きい映像部分に前記イベントラベルを付与するイベントラベル付与手段とをさらに備える
ことを特徴とする映像インデキシング装置。 The video indexing device according to claim 1 or 2,
An event rule storage means for storing an event label representing an event in the video and an event rule defined by an order relation or a time interval in which a plurality of definition labels for detecting the event in the video appear;
The order relationship or time interval of the definition labels given by the indexing means is collated with the event rules stored in the event rule storage means, and the event label is displayed on the video portion whose similarity is greater than a predetermined threshold. An image labeling device, further comprising:
辞書用映像が与えられたときに,辞書用映像の中から定義ラベルを表す基準画像を選定する基準画像選定手段と,
前記辞書用映像の中から前記基準画像と類似する画像を検出する辞書データ収集手段と,
収集した類似画像の中で定義ラベルを表す画像として正しい画像を正事例画像,正しくない画像を前記基準画像に類似している順に負事例画像としてそれぞれ選定する正事例・負事例選定手段と,
前記正事例画像から抽出された特徴量をもとに定義ラベルを表す画像であるか否かを判別するための1クラス識別関数を算出する1クラス識別関数算出手段と,
前記正事例画像と前記負事例画像とからそれぞれ抽出された特徴量をもとに両者を識別するための2クラス識別関数を算出する2クラス識別関数算出手段とを備え,
前記1クラス識別関数算出手段によって算出された1クラス識別関数と,前記2クラス識別関数算出手段によって算出された2クラス識別関数と,当該定義ラベルとを,辞書データとして前記辞書記憶手段に格納する
ことを特徴とする映像インデキシング装置。 In the video indexing device according to claim 1, claim 2 or claim 3,
A reference image selection means for selecting a reference image representing a definition label from the dictionary image when the dictionary image is given;
Dictionary data collection means for detecting an image similar to the reference image from the dictionary video;
A positive case / negative case selection means for selecting a correct image as a positive case image and an incorrect image as a negative case image in the order of similarity to the reference image among the collected similar images representing the definition label;
One class identification function calculating means for calculating one class identification function for determining whether or not the image represents a definition label based on the feature amount extracted from the positive case image;
2-class discriminant function calculating means for calculating a 2-class discriminant function for discriminating both based on the feature values extracted from the positive case image and the negative case image,
The one-class identification function calculated by the one-class identification function calculating means, the two-class identification function calculated by the two-class identification function calculating means, and the definition label are stored as dictionary data in the dictionary storage means. A video indexing device characterized by that.
前記1クラス識別関数算出手段は,前記1クラス識別関数を前記辞書データ収集手段での類似度の基準に基づいて算出する
ことを特徴とする映像インデキシング装置。 The video indexing device according to claim 4,
The video indexing apparatus according to claim 1, wherein the one-class discriminant function calculating unit calculates the one-class discriminant function based on a similarity criterion in the dictionary data collecting unit.
定義ラベルと,学習用の画像として与えられた該定義ラベルを表す正しい正事例画像から抽出された特徴量により算出された,処理対象画像が前記定義ラベルを表す画像であるか否かを判別する1クラス識別関数と,学習用の画像として与えられた該定義ラベルを表す正しい正事例画像と正しくない負事例画像とから抽出された特徴量により算出された,正事例画像と負事例画像とを識別する2クラス識別関数とを辞書データとして記憶する辞書記憶手段を参照し,
インデキシング対象の映像が与えられたときに,当該映像から選択したフレーム画像について,前記辞書記憶手段に記憶された1クラス識別関数を用いて前記辞書記憶手段に記憶された定義ラベルを表す画像であるか否かを判別し,前記定義ラベルを付与する候補となるフレーム画像を求めるラベル付与候補検出処理と,
前記ラベル付与候補検出処理によって候補とされたフレーム画像について,前記辞書記憶手段に記憶された2クラス識別関数を用いて正事例画像もしくは負事例画像のどちらに該当するかを判別することにより,前記候補とされたフレーム画像から負事例画像に該当する画像を排除し,正事例画像に該当する前記定義ラベルを付与すべき画像を決定して,定義ラベルを付与するインデキシング処理とを実行する
ことを特徴とする映像インデキシング方法。 In a video indexing method executed by a video indexing device that predefines a definition label that represents image content and assigns a definition label to the scene when a scene corresponding to the definition label appears in the video to be indexed ,
It is determined whether or not the processing target image is an image representing the definition label, which is calculated from the definition label and the feature amount extracted from the correct positive case image representing the definition label given as the learning image. A positive case image and a negative case image calculated by a feature amount extracted from a class identification function and a correct positive case image and an incorrect negative case image representing the definition label given as a learning image. Refer to the dictionary storage means for storing the two-class identification function for identification as dictionary data,
When an image to be indexed is given, the image represents a definition label stored in the dictionary storage unit using a one-class identification function stored in the dictionary storage unit for a frame image selected from the video. A labeling candidate detection process for determining whether or not a frame image that is a candidate for giving the definition label,
For the frame image that is a candidate by the labeling candidate detection process, by determining whether it corresponds to a positive case image or a negative case image using a two-class identification function stored in the dictionary storage means, An image corresponding to the negative case image is excluded from the candidate frame images, an image to which the definition label corresponding to the positive case image is to be assigned is determined, and an indexing process for assigning the definition label is executed. Characteristic video indexing method.
前記1クラス識別関数および前記2クラス識別関数は,フレーム画像の映像における出現時刻と画像特徴量とを特徴量として識別する関数である
ことを特徴とする映像インデキシング方法。 The video indexing method according to claim 6,
The video indexing method, wherein the 1-class discriminant function and the 2-class discriminant function are functions for discriminating an appearance time and an image feature quantity in a video of a frame image as a feature quantity.
映像中のイベントを表すイベントラベルと,映像中のイベントを検出するための複数の定義ラベルが出現する順序関係または時間間隔によって定義されるイベントルールとを記憶するイベントルール記憶手段を参照し,
前記インデキシング処理で付与された定義ラベルの順序関係または時間間隔と,前記イベントルール記憶手段に記憶されているイベントルールとを照合し,それらの類似度が所定の閾値より大きい映像部分に前記イベントラベルを付与するイベントラベル付与処理とをさらに実行する
ことを特徴とする映像インデキシング方法。 The video indexing method according to claim 6 or 7,
Referring to an event rule storage means for storing an event label representing an event in the video and an event rule defined by an order relation or a time interval in which a plurality of definition labels for detecting the event in the video appear,
The event label stored in the event rule storage means is collated with the order relationship or time interval of the definition labels given in the indexing process, and the event label is displayed on the video portion whose similarity is greater than a predetermined threshold. And an event label assigning process for assigning a video indexing method.
辞書用映像が与えられたときに,辞書用映像の中から定義ラベルを表す基準画像を選定する基準画像選定処理と,
前記辞書用映像の中から前記基準画像と類似する画像を検出する辞書データ収集処理と,
収集した類似画像の中で定義ラベルを表す画像として正しい画像を正事例画像,正しくない画像を前記基準画像に類似している順に負事例画像としてそれぞれ選定する正事例・負事例選定処理と,
前記正事例画像から抽出された特徴量をもとに定義ラベルを表す画像であるか否かを判別するための1クラス識別関数を算出する1クラス識別関数算出処理と,
前記正事例画像と前記負事例画像とからそれぞれ抽出された特徴量をもとに両者を識別するための2クラス識別関数を算出する2クラス識別関数算出処理とを実行し,
前記1クラス識別関数算出処理によって算出された1クラス識別関数と,前記2クラス識別関数算出処理によって算出された2クラス識別関数と,当該定義ラベルとを,辞書データとして前記辞書記憶手段に格納する
ことを特徴とする映像インデキシング方法。 In the video indexing method according to claim 6, claim 7 or claim 8,
A reference image selection process for selecting a reference image representing a definition label from a dictionary image when a dictionary image is given;
Dictionary data collection processing for detecting an image similar to the reference image from the dictionary video;
A positive case / negative case selection process for selecting a correct image as a positive case image and an incorrect image as a negative case image in order of similarity to the reference image among the collected similar images,
A one-class identification function calculating process for calculating a one-class identification function for determining whether or not the image represents a definition label based on the feature amount extracted from the positive case image;
Performing a two-class identification function calculation process for calculating a two-class identification function for identifying both based on the feature values extracted from the positive case image and the negative case image,
The one class identification function calculated by the one class identification function calculation process, the two class identification function calculated by the two class identification function calculation process, and the definition label are stored as dictionary data in the dictionary storage means. A video indexing method characterized by the above.
前記1クラス識別関数算出処理では,前記1クラス識別関数を前記辞書データ収集処理における類似度の基準に基づいて算出する
ことを特徴とする映像インデキシング方法。 The video indexing method according to claim 9,
In the one-class identification function calculation process, the one-class identification function is calculated based on a similarity criterion in the dictionary data collection process.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008019319A JP4838272B2 (en) | 2008-01-30 | 2008-01-30 | VIDEO INDEXING DEVICE, VIDEO INDEXING METHOD, VIDEO INDEXING PROGRAM, AND ITS RECORDING MEDIUM |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008019319A JP4838272B2 (en) | 2008-01-30 | 2008-01-30 | VIDEO INDEXING DEVICE, VIDEO INDEXING METHOD, VIDEO INDEXING PROGRAM, AND ITS RECORDING MEDIUM |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2009181306A true JP2009181306A (en) | 2009-08-13 |
| JP4838272B2 JP4838272B2 (en) | 2011-12-14 |
Family
ID=41035250
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008019319A Expired - Fee Related JP4838272B2 (en) | 2008-01-30 | 2008-01-30 | VIDEO INDEXING DEVICE, VIDEO INDEXING METHOD, VIDEO INDEXING PROGRAM, AND ITS RECORDING MEDIUM |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4838272B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019101959A (en) * | 2017-12-07 | 2019-06-24 | ヤフー株式会社 | Extraction device, extraction method, extraction program and model |
| JPWO2020144736A1 (en) * | 2019-01-08 | 2021-02-18 | 三菱電機株式会社 | Semantic relationship learning device, semantic relationship learning method, and semantic relationship learning program |
| US12272035B2 (en) | 2019-11-25 | 2025-04-08 | Nec Corporation | Machine learning device, machine learning method, and recording medium storing machine learning program |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000331019A (en) * | 1999-05-20 | 2000-11-30 | Nippon Telegr & Teleph Corp <Ntt> | Landscape image indexing method and apparatus, and recording medium recording landscape image index program |
| JP2007142527A (en) * | 2005-11-15 | 2007-06-07 | Hitachi Ltd | MOBILE MONITOR SYSTEM, MOBILE FEATURE CALCULATION DEVICE, AND INTERMOBILE MOBILE DEVICE COLLECTION TRACKING DEVICE |
| JP2007317133A (en) * | 2006-05-29 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | Image classification method, apparatus and program |
-
2008
- 2008-01-30 JP JP2008019319A patent/JP4838272B2/en not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000331019A (en) * | 1999-05-20 | 2000-11-30 | Nippon Telegr & Teleph Corp <Ntt> | Landscape image indexing method and apparatus, and recording medium recording landscape image index program |
| JP2007142527A (en) * | 2005-11-15 | 2007-06-07 | Hitachi Ltd | MOBILE MONITOR SYSTEM, MOBILE FEATURE CALCULATION DEVICE, AND INTERMOBILE MOBILE DEVICE COLLECTION TRACKING DEVICE |
| JP2007317133A (en) * | 2006-05-29 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | Image classification method, apparatus and program |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019101959A (en) * | 2017-12-07 | 2019-06-24 | ヤフー株式会社 | Extraction device, extraction method, extraction program and model |
| JPWO2020144736A1 (en) * | 2019-01-08 | 2021-02-18 | 三菱電機株式会社 | Semantic relationship learning device, semantic relationship learning method, and semantic relationship learning program |
| US12272035B2 (en) | 2019-11-25 | 2025-04-08 | Nec Corporation | Machine learning device, machine learning method, and recording medium storing machine learning program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4838272B2 (en) | 2011-12-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6446971B2 (en) | Data processing apparatus, data processing method, and computer program | |
| US10726312B2 (en) | System and method for appearance search | |
| RU2693906C2 (en) | Rule-based analysis of video importance | |
| JP6532190B2 (en) | Image search apparatus, image search method | |
| JP4591215B2 (en) | Facial image database creation method and apparatus | |
| US9996554B2 (en) | Search apparatus, search method, and storage medium | |
| US20100318566A1 (en) | Behavior history retrieval apparatus and behavior history retrieval method | |
| CN109727275B (en) | Object detection method, device, system and computer readable storage medium | |
| CN106845513B (en) | Human Hand Detector and Method Based on Conditional Random Forest | |
| US10762372B2 (en) | Image processing apparatus and control method therefor | |
| CN112651996A (en) | Target detection tracking method and device, electronic equipment and storage medium | |
| WO2022228325A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
| CN114581819B (en) | Video behavior recognition method and system | |
| JP4838272B2 (en) | VIDEO INDEXING DEVICE, VIDEO INDEXING METHOD, VIDEO INDEXING PROGRAM, AND ITS RECORDING MEDIUM | |
| KR102475752B1 (en) | Method and apparatus for prodicting moving path | |
| JP5552946B2 (en) | Face image sample collection device, face image sample collection method, program | |
| KR20210031444A (en) | Method and Apparatus for Creating Labeling Model with Data Programming | |
| CN112001280A (en) | Real-time online optimization face recognition system and method | |
| JP7540500B2 (en) | GROUP IDENTIFICATION DEVICE, GROUP IDENTIFICATION METHOD, AND PROGRAM | |
| KR20150030445A (en) | System for detecting child pornography | |
| Salehin et al. | Video summarization using geometric primitives | |
| EP4546265A1 (en) | Image processing method, computer program, and image processing device | |
| CN110879970A (en) | Video interest area face abstraction method and device based on deep learning and storage device thereof | |
| CN116052220B (en) | Pedestrian re-identification method, device, equipment and medium | |
| Zhang et al. | Video entity resolution: Applying er techniques for smart video surveillance |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100331 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110914 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110927 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110929 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |