JP2009048334A - Video identification processing device, image identification processing device, and computer program - Google Patents
Video identification processing device, image identification processing device, and computer program Download PDFInfo
- Publication number
- JP2009048334A JP2009048334A JP2007212412A JP2007212412A JP2009048334A JP 2009048334 A JP2009048334 A JP 2009048334A JP 2007212412 A JP2007212412 A JP 2007212412A JP 2007212412 A JP2007212412 A JP 2007212412A JP 2009048334 A JP2009048334 A JP 2009048334A
- Authority
- JP
- Japan
- Prior art keywords
- class
- word
- video
- parameter value
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】映像データや画像データと関連付けられたテキストデータの中に、被写体そのものを表わす単語が含まれていない場合にも、所望の被写体が映されている映像データや画像データを検索結果として得る。
【解決手段】映像識別処理装置が、映像データと映像データに関連付けられたテキストデータとをクラスごとに分類して保持するコンテンツデータベースと、単語とクラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、コンテンツデータベースから読み出したテキストデータに含まれる単語の出現頻度に基づき、単語とクラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された確率パラメタ値を当該単語及び当該クラスに関連付けて確率パラメタ値データベースに書き込む確率計算処理部と、を備える。
【選択図】図1Even when text data associated with video data or image data does not include a word representing the subject itself, video data or image data showing the desired subject is obtained as a search result. .
A video identification processing device classifies and stores video data and text data associated with the video data for each class, and a probability parameter value representing a relationship between the word and the class. And a probability parameter value database to be held in association with the class, and based on the appearance frequency of the word included in the text data read from the content database, to calculate a probability parameter value representing the relationship between the word and the class, A probability calculation processing unit that writes the calculated probability parameter value in the probability parameter value database in association with the word and the class.
[Selection] Figure 1
Description
本発明は、映像識別処理装置、画像識別処理装置、およびコンピュータプログラムに関する。 The present invention relates to a video identification processing device, an image identification processing device, and a computer program.
テキストによるコンテンツの検索技術が進歩し実用化の範囲が広がる一方で、映像や画像などの非テキストコンテンツを効率よく検索する技術が求められている。
特許文献1には、映像に予め人がキーワードテキストを付与しておいて、検索語がマッチするキーワードを有する映像を出力するという、キーワードによる映像検索方法の技術が記載されている。
特許文献2には、映像情報に含まれるクローズドキャプションから、その構文に基づいて抽出される特定の品詞の語を基に、映像をインデクス化する映像インデキシング装置の技術が記載されている。
また、特許文献3には、映像と同時に用いられる台本またはクローズドキャプションを含むテキストデータに基づいて、所望の被写体が含まれた映像を抽出する映像被写体抽出装置の技術が記載されている。
Japanese Patent Application Laid-Open No. 2004-228561 describes a technique of a keyword video search method in which a keyword text is given to a video in advance and a video having a keyword that matches a search word is output.
Japanese Patent Application Laid-Open No. 2004-228561 describes a technique of a video subject extraction device that extracts a video including a desired subject based on text data including a script or closed caption used simultaneously with the video.
上記の背景技術に記載した特許文献1に開示された技術では、映像をインデクス付けするために、キーワードの付与を人手で行なう必要があり、膨大な時間等労力がかかるという問題があった。
また、特許文献2および特許文献3に開示された技術では、人手によるキーワードの付与は不要であるものの、所望の被写体が写されている映像を検索する際、当該被写体そのものを表わす語がテキストに含まれていなければ、検索結果としてその映像を得ることはできなかった。例えば、動物のライオンが被写体となっている映像を検索して得るためには、当該映像に関連付けられているクローズドキャプション等のテキスト内に、「これは百獣の王、ライオンです。」というように、「ライオン」という言葉そのものが含まれている必要があった。
In the technique disclosed in
In addition, in the techniques disclosed in
しかしながら、実際には、被写体そのものを直接表わす語が、クローズドキャプション等のテキストには含まれないこともある。一例としては、野球のバッターボックスが映っている映像シーンに対応するクローズドキャプションに、「バッター」、「カーブ」、「ストライク」などといった単語は含まれているものの、「バッターボックス」という単語そのものは含まれていない場合がある。また他の例として、料理のためのガスレンジが移っている映像シーンに対応するクローズドキャプションに、「フライパン」、「強火」、「大さじ1ぱい」などといった単語等は含まれているものの、「ガスレンジ」という単語そのものは含まれていない場合がある。 In practice, however, words that directly represent the subject itself may not be included in text such as closed captions. For example, the closed caption corresponding to a video scene showing a baseball batter box contains words such as “batter”, “curve”, and “strike”, but the word “batter box” itself is May not be included. As another example, although closed captions corresponding to video scenes where the gas range for cooking has moved include words such as “fry pan”, “high heat”, “1 tablespoon”, etc., “ The word “gas range” may not be included.
上記の例のように、被写体そのものを直接表わす単語がクローズドキャプション等のテキストに含まれていない場合にも、そのような映像を検索結果に含めることができるようになれば、映像や画像の検索精度を向上させることにつながる。 As in the above example, even if a word that directly represents the subject itself is not included in text such as closed captions, if such a video can be included in the search results, the search for the video or image is possible. This leads to improved accuracy.
本発明は、このような事情、課題を考慮してなされたものであり、映像データや画像データと関連付けられたテキストデータの中に、被写体そのものを表わす単語が含まれていない場合にも、所望の被写体が映されている映像データや画像データを検索結果として得るための、映像識別処理装置、画像識別処理装置、およびコンピュータプログラムを提供することを目的とする。 The present invention has been made in view of such circumstances and problems, and is desired even when a word representing the subject itself is not included in text data associated with video data or image data. An object of the present invention is to provide a video identification processing device, an image identification processing device, and a computer program for obtaining video data and image data showing a subject as a search result.
上記の課題を解決するため、本発明は、映像データや画像データの周辺のテキストから得られる周辺単語情報から、被写体そのものを表す単語が文書中に出現していなくても映像内容をある程度予測する手段を提供する。
そして、本発明は、画像的特徴、映像的特徴などにより、似ているもので映像データや画像データのクラスわけをし、それぞれのクラスのテキスト中の語彙的特徴(クラスの語彙的特徴は、単語の出現頻度のベクトルとして表わされる)から確率値を算出し、言語と画像の相関の指標とする。つまり、語彙的特徴が与えられたときのクラス生起確率、あるいは単語が与えられたときのクラス生起確率が、この言語と画像との相関の指標となる。例えば、「フライパン」、「強火」、「大さじ1ぱい」という語からは料理番組でガスレンジの前で調理する映像(のクラス)が予測され(つまり生起確率が高く)、「バッター」、「ストライク」、「カーブ」という語からは野球番組のバッターボックスの映像(のクラス)が予測される。言語上は「ガスレンジ」という単語も「バッターボックス」という単語も出現していないが、周辺の単語(上記例においては、「フライパン」、「強火」、「大さじ1ぱい」という語や、「バッター」、「ストライク」、「カーブ」という語)を手掛かりとして映像を推定する。これを映像とテキストの対からモデル化し、テキストのみの入力がきたときに映像を予測するシステムを提供する。
In order to solve the above problems, the present invention predicts video content to some extent even if a word representing the subject itself does not appear in a document from peripheral word information obtained from video data and text around image data. Provide a means.
Then, the present invention classifies video data and image data with similar ones according to image characteristics, video characteristics, etc., and lexical characteristics in the text of each class (the lexical characteristics of the class are: A probability value is calculated from a word appearance frequency vector) and used as an index of correlation between language and image. That is, the class occurrence probability when a lexical feature is given or the class occurrence probability when a word is given is an index of the correlation between the language and the image. For example, the words “frying pan”, “high heat”, and “one tablespoon” predict a video (class) of cooking in front of a gas range in a cooking program (that is, a high probability of occurrence), “batter”, “ From the words “strike” and “curve”, a video of a batter box of a baseball program is predicted. In terms of language, neither the word “gas range” nor the word “batter box” appears, but the surrounding words (in the above example, “fry pan”, “high heat”, “one tablespoon”, “ Video is estimated using clues such as “batter”, “strike”, and “curve”. We provide a system that models video and text pairs and predicts video when text-only input is received.
[1]本発明の一態様による映像識別処理装置は、映像データと前記映像データに関連付けられたテキストデータとをクラスごとに分類して保持するコンテンツデータベースと、単語と前記クラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、前記コンテンツデータベースから読み出した前記テキストデータに含まれる単語の出現頻度に基づき、前記単語と前記クラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された前記確率パラメタ値を当該単語及び当該クラスに関連付けて前記確率パラメタ値データベースに書き込む確率計算処理部と、を備えることを特徴とする。
これによれば、映像データとテキストデータは元々関連付けられている。コンテンツデータベースにおいては、映像データとテキストデータのペアが、あるクラスに属する。確率計算処理部は、クラス分けされているコンテンツデータベースから読み出したテキストデータに含まれる単語の出現頻度に基づき、単語とクラスとの関係を表わす確率パラメタ値を算出する。確率パラメタ値の最良の形態のひとつとして、例えば、与えられた単語に対するクラス生起確率を用いる。これにより、確率パラメタ値データベースには、単語とクラスと算出された確率パラメタ値との関係を表わすデータが蓄えられる。
[1] A video identification processing device according to an aspect of the present invention represents a relationship between a content database that stores video data and text data associated with the video data by class, and a word and the class. Based on the probability parameter value database that holds the probability parameter value in association with the word and the class, and the appearance frequency of the word included in the text data read from the content database, the relationship between the word and the class is determined. A probability calculation processing unit that performs a process of calculating a probability parameter value to be expressed and writes the calculated probability parameter value in the probability parameter value database in association with the word and the class.
According to this, video data and text data are originally associated with each other. In the content database, a pair of video data and text data belongs to a certain class. The probability calculation processing unit calculates a probability parameter value representing the relationship between the word and the class based on the appearance frequency of the word included in the text data read from the classified content database. As one of the best forms of the probability parameter value, for example, the class occurrence probability for a given word is used. As a result, data representing the relationship between the word, the class, and the calculated probability parameter value is stored in the probability parameter value database.
[2]また、本発明の一態様による映像識別処理装置においては、入力されるテキストデータを読み込み、当該テキストデータに含まれる単語の出現頻度と、前記確率パラメタ値データベースから読み出した前記確率パラメタ値と、に基づき、当該テキストデータが前記クラスに属する確率であるクラス生起確率を各々のクラスごとに算出する識別処理部を、さらに備えることを特徴とする。
これによれば、識別処理部は、確率パラメタ値データベースから読み出した前記の確率パラメタ値と、入力されるテキストデータの出現頻度とから、所定の計算処理により、入力されたテキストデータからのクラス生起確率を算出することができ、つまり入力されたテキストが属するクラスを推定できる。なお、算出されたクラス生起確率の最も高いクラスを、最尤クラスとして決定できる。
[2] Further, in the video identification processing device according to one aspect of the present invention, the input text data is read, the appearance frequency of words included in the text data, and the probability parameter value read from the probability parameter value database. And an identification processing unit that calculates a class occurrence probability, which is a probability that the text data belongs to the class, for each class.
According to this, the identification processing unit generates a class from the input text data by a predetermined calculation process from the probability parameter value read from the probability parameter value database and the appearance frequency of the input text data. The probability can be calculated, that is, the class to which the input text belongs can be estimated. The class with the highest class occurrence probability calculated can be determined as the maximum likelihood class.
[3]また、本発明の一態様による映像識別処理装置においては、入力される映像データの映像の特徴に基づき、当該映像データが属するクラスを決定し、当該映像データと、当該映像データに関連付けられたテキストデータを、前記コンテンツデータベースに書き込む映像分類処理部を、さらに備えることを特徴とする映像識別処理装置。
これによれば、映像分類処理部は、テキストデータに依らず、また映像データが表わす意味等にも依らず、映像の特徴に基づいて映像データとテキストデータのペアをクラスに分類し、コンテンツデータベースに書き込む。
[3] In the video identification processing device according to one aspect of the present invention, the class to which the video data belongs is determined based on the video characteristics of the input video data, and the video data is associated with the video data. A video identification processing device, further comprising: a video classification processing unit that writes the text data to the content database.
According to this, the video classification processing unit classifies the pairs of video data and text data into classes based on the characteristics of the video regardless of the text data and the meaning represented by the video data, and the content database. Write to.
[4]また、本発明の一態様による映像識別処理装置は、テキストデータに含まれる単語の出現頻度に基づき算出した、前記単語とクラスとの関係を表わす確率パラメタ値を、当該単語及び当該クラスに関連付けて保持する確率パラメタ値データベースと、入力されるテキストデータを読み込み、当該テキストデータに含まれる単語の出現頻度と、前記確率パラメタ値データベースから読み出した前記確率パラメタ値と、に基づき、当該テキストデータが前記クラスに属する確率であるクラス生起確率を各々のクラスごとに算出する識別処理部と、を備えることを特徴とする。 [4] Further, the video identification processing device according to one aspect of the present invention uses the probability parameter value representing the relationship between the word and the class calculated based on the appearance frequency of the word included in the text data as the word and the class. A probability parameter value database stored in association with the text data, the input text data, the appearance frequency of words included in the text data, and the probability parameter value read from the probability parameter value database, the text An identification processing unit that calculates a class occurrence probability, which is a probability that data belongs to the class, for each class.
[5]また、本発明の一態様による映像識別処理装置においては、映像データをクラスごとに分類して保持する映像データベースと、入力される検索語を基に、当該検索語にマッチする検索結果クラスを求め、映像データベースを参照することによって、前記検索結果クラスに属する映像データ又は前記検索結果クラスに属する映像データへの参照情報の少なくともいずれかを出力する検索処理部と、を備えるとともに、前記入力されるテキストデータには映像データが関連付けられており、前記識別処理部は、さらに、算出した前記クラス生起確率に基づき、前記入力されるテキストデータの最尤クラスを決定するとともに、前記映像データが決定された最尤クラスに属するように前記映像データを前記映像データベースに書き込む、ことを特徴とする。
これにより、検索語にマッチするクラスを求めることができる。そのクラスを最尤クラスとする映像データを(或いは映像データへの参照情報を)映像データベースから読み出して映像検索結果として出力することができる。
[5] Also, in the video identification processing device according to one aspect of the present invention, a video database that stores video data classified by class and a search result that matches the search word based on the input search word A search processing unit that obtains a class and outputs at least one of video data belonging to the search result class or reference information to video data belonging to the search result class by referring to a video database; and Video data is associated with the input text data, and the identification processing unit further determines a maximum likelihood class of the input text data based on the calculated class occurrence probability, and the video data Writing the video data to the video database so that the video data belongs to the maximum likelihood class determined. And features.
Thereby, a class that matches the search term can be obtained. Video data whose class is the maximum likelihood class (or reference information to the video data) can be read from the video database and output as a video search result.
[6]また、本発明の一態様による映像識別処理装置においては、前記単語は、前記テキストデータを形態素解析処理した結果の中から助詞と助動詞と記号とを除外したものであることを特徴とする。 [6] In the video identification processing device according to one aspect of the present invention, the word is obtained by excluding particles, auxiliary verbs, and symbols from the result of morphological analysis processing of the text data. To do.
[7]また、本発明の一態様による映像識別処理装置においては、前記単語は、前記テキストデータを形態素解析処理した結果の中から名詞と動詞と形容詞と未知語とを抽出したものであることを特徴とする。
ここで、未知語とは、後述するように、形態素解析処理の結果、未知の品詞として扱われる語であり、そのように扱われた品詞は、実際には名詞である可能性が高い。
[7] Further, in the video identification processing device according to one aspect of the present invention, the word is obtained by extracting a noun, a verb, an adjective, and an unknown word from a result of morphological analysis processing on the text data. It is characterized by.
Here, as will be described later, the unknown word is a word that is treated as an unknown part of speech as a result of morphological analysis processing, and the part of speech treated as such is likely to be a noun actually.
[8]また、本発明の一態様による映像識別処理装置においては、前記映像データは、放送番組の映像データであり、前記テキストデータは、前記放送番組のクローズドキャプションのテキストデータ、時刻情報に関連付けられた前記放送番組の台本のテキストデータ、前記放送番組の映像データを基に音声認識処理をした結果得られ時刻情報に関連付けられたテキストデータ、のいずれかであることを特徴とする。 [8] In the video identification processing device according to the aspect of the present invention, the video data is video data of a broadcast program, and the text data is associated with text data of closed caption of the broadcast program and time information. Or the text data associated with time information obtained as a result of voice recognition processing based on the video data of the broadcast program.
[9]また、本発明の一態様による画像識別処理装置は、画像データとテキストデータとを含むウェブコンテンツデータをクラスごとに分類して保持するコンテンツデータベースと、単語と前記クラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、前記コンテンツデータベースから読み出した前記テキストデータに含まれる単語の出現頻度に基づき、前記単語と前記クラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された前記確率パラメタ値を当該単語及び当該クラスに関連付けて前記確率パラメタ値データベースに書き込む確率計算処理部と、を備えることを特徴とする。
を特徴とする。
これにより、ウェブコンテンツデータに含まれる画像データの画像的特徴に基づいて分類されたウェブコンテンツデータを、クラスごとにコンテンツデータベースに保持する。そして、そのクラスに含まれるウェブコンテンツデータ、に含まれるテキストデータの語彙的特徴に基づき、確率計算処理部は、単語とクラスとの関係を表わす確率パラメタ値(最良の形態のひとつとして、例えば、与えられた単語に対するクラス生起確率)を確率パラメタ値データベースに書き込み、蓄積することができる。
[9] In addition, the image identification processing device according to an aspect of the present invention represents a content database that classifies and holds web content data including image data and text data for each class, and a relationship between words and the classes. Based on the probability parameter value database that holds the probability parameter value in association with the word and the class, and the appearance frequency of the word included in the text data read from the content database, the relationship between the word and the class is determined. A probability calculation processing unit that performs a process of calculating a probability parameter value to be expressed and writes the calculated probability parameter value in the probability parameter value database in association with the word and the class.
It is characterized by.
Thereby, the web content data classified based on the image characteristics of the image data included in the web content data is held in the content database for each class. Then, based on the lexical characteristics of the text data included in the web content data included in the class, the probability calculation processing unit calculates a probability parameter value representing the relationship between the word and the class (as one of the best modes, for example, The class occurrence probability for a given word) can be written and stored in the probability parameter value database.
[10]また、本発明の一態様によるコンピュータプログラムは、 映像データと前記映像データに関連付けられたテキストデータとをクラスごとに分類して保持するコンテンツデータベースと、単語と前記クラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、を備えるコンピュータに、前記コンテンツデータベースから読み出した前記テキストデータに含まれる単語の出現頻度に基づき、前記単語と前記クラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された前記確率パラメタ値を当該単語及び当該クラスに関連付けて前記確率パラメタ値データベースに書き込む確率計算処理ステップ、の処理を実行させるコンピュータプログラムである。 [10] A computer program according to an aspect of the present invention represents a relation between a content database that stores video data and text data associated with the video data by class, and a word and the class. A computer comprising a probability parameter value database that stores the probability parameter value in association with the word and the class, based on the appearance frequency of the word included in the text data read from the content database, the word and the A computer that executes a process of calculating a probability parameter value representing a relationship with a class, and writing the calculated probability parameter value in the probability parameter value database in association with the word and the class. It is a program.
[11]また、本発明の一態様によるコンピュータプログラムは、テキストデータに含まれる単語の出現頻度に基づき算出した、前記単語とクラスとの関係を表わす確率パラメタ値を、当該単語及び当該クラスに関連付けて保持する確率パラメタ値データベース、を備えるコンピュータに、入力されるテキストデータを読み込み、当該テキストデータに含まれる単語の出現頻度と、前記確率パラメタ値データベースから読み出した前記確率パラメタ値と、に基づき、当該テキストデータが前記クラスに属する確率であるクラス生起確率を各々のクラスごとに算出する識別処理ステップ、の処理を実行させるコンピュータプログラムである。 [11] Further, the computer program according to one aspect of the present invention associates a probability parameter value representing a relationship between the word and the class, calculated based on the appearance frequency of the word included in the text data, with the word and the class. A computer having a probability parameter value database to be stored, read the input text data, based on the appearance frequency of words included in the text data, and the probability parameter value read from the probability parameter value database, A computer program for executing a process of an identification processing step for calculating a class occurrence probability, which is a probability that the text data belongs to the class, for each class.
[12]また、本発明の一態様によるコンピュータプログラムは、画像データとテキストデータとを含むウェブコンテンツデータをクラスごとに分類して保持するコンテンツデータベースと、単語と前記クラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、を備えるコンピュータに、前記コンテンツデータベースから読み出した前記テキストデータに含まれる単語の出現頻度に基づき、前記単語と前記クラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された前記確率パラメタ値を当該単語及び当該クラスに関連付けて前記確率パラメタ値データベースに書き込む確率計算処理ステップと、の処理を実行させるコンピュータプログラムである。 [12] A computer program according to an aspect of the present invention includes a content database that classifies and holds web content data including image data and text data for each class, and a probability parameter that represents a relationship between a word and the class. A probability parameter value database that stores values in association with the word and the class, and based on the appearance frequency of the word included in the text data read from the content database, the word and the class A probability calculation processing step of performing a process of calculating a probability parameter value representing the relationship between the probability parameter value and writing the calculated probability parameter value to the probability parameter value database in association with the word and the class. It is.
本発明によれば、映像データに関連するテキストデータに含まれない語であっても、映像に映っている被写体等を表わす語を用いて、映像を検索できるようになる。或いは、そのような映像検索の基になる確率パラメタ値データベース(識別モデルデータベース)を作成することが可能となる。
また、本発明によれば、画像データ(或いは映像データ)とテキストデータを含むウェブコンテンツを基に、そのテキストデータに含まれない語であっても、画像、映像に映っている被写体等を表わす語を用いて、画像、映像を検索できるようになる。
なお、テキストデータとして用いるのは、例えば、クローズドキャプションデータや、台本データや、音声認識結果データであるため、わざわざ手間をかけて新たにテキストデータを作る必要がない。つまり、効率的に、検索対象となるデータを蓄積することができる。
According to the present invention, even if the word is not included in the text data related to the video data, the video can be searched using the word representing the subject or the like shown in the video. Alternatively, it is possible to create a probability parameter value database (identification model database) that is the basis of such video search.
In addition, according to the present invention, based on web content including image data (or video data) and text data, even a word not included in the text data represents a subject or the like reflected in the image or video. You can search for images and videos using words.
Note that text data used is, for example, closed caption data, script data, or voice recognition result data, so that it is not necessary to create new text data by taking time and effort. That is, the data to be searched can be accumulated efficiently.
[第1の実施形態]
以下、図面を参照しながら、本発明の第1の実施の形態について説明する。
<識別モデル生成処理>
図1は、本実施形態による識別モデル生成装置(映像識別処理装置)の機能構成を示すブロック図である。この図において、符号100が識別モデル生成装置(映像識別処理装置)である。そして、識別モデル生成装置100は、番組映像データ1(映像データ)を格納する記憶手段と、クローズドキャプションデータ2(テキストデータ)を格納する記憶手段と、映像分類処理部3と、コンテンツデータベース4と、確率計算処理部5と、識別モデルデータベース6(確率パラメタ値データベース)を含んで構成される。
[First Embodiment]
The first embodiment of the present invention will be described below with reference to the drawings.
<Identification model generation process>
FIG. 1 is a block diagram showing a functional configuration of an identification model generation device (video identification processing device) according to the present embodiment. In this figure,
番組映像データ1は、例えばテレビ放送などの番組の映像を表わすデータであり、数分から数時間程度の長さの動画と、その動画に同期して記録されている単数又は複数のチャネルの音声を含むものである。クローズドキャプションデータ2は、番組映像データに対応するテキストデータであり、単数又は複数の文が時刻に対応付いて記録されている。言い換えれば、クローズドキャプションデータ2のテキストデータは、時間に同期しているデータである。ここでの時刻としては、放送日時等に対応する標準時間(日本標準時などのローカルタイムや、世界標準時)を用いても良いし、映像開始時点からの相対時刻を用いても良い。クローズドキャプションデータ2も、元はテレビ放送に用いられる目的で作成されているものであり、典型的には番組内での人の発話を文字としてテレビ画面に表示するためのテキストデータである。番組映像データ1やクローズドキャプションデータ2は、放送後には、後で資料等として用いるために放送局のアーカイブデータとして蓄積されている。これらのデータは、磁気テープ、磁気ハードディスク、光ディスクなどの媒体に記録されており、それぞれを読み出す装置を用いて適宜読み出せる。
The
映像分類処理部3は、入力される番組映像データ1の映像の特徴に基づき、当該番組映像データ1が属するクラスを決定し、当該番組映像データ1と、当該映像データに関連付けられたクローズドキャプションデータ2を、コンテンツデータベース4に書き込むものである。
The video
コンテンツデータベース4は、番組映像データ1とその番組映像データ1に関連付けられたクローズドキャプションデータ2とをクラスごとに分類して保持するものである。図示するようにコンテンツデータベース4は、クラス1、クラス2、クラス3、・・・というクラスごとに、映像データとテキストデータとを関連付けて記憶している。各クラスには、映像データとテキストデータのペアが複数含まれていても良い。コンテンツデータベース4は、磁気ディスク装置や光ディスク装置などといった記憶手段を用いて実現される。コンテンツデータベース4のデータ構造については後で別図面を参照しながら説明する。
The
確率計算処理部5は、コンテンツデータベース4から読み出したテキストデータに含まれる単語の出現頻度に基づき、単語とクラスとの関係を表わす確率パラメタ値を算出する処理を行なう。また、確率計算処理部5は、算出された確率パラメタ値を当該単語及び当該クラスに関連付けて確率パラメタ値データベースに書き込む。
ここで、確率パラメタ値とは、例えば、あるクラスにおけるある単語の生起確率の値である。このような生起確率の計算方法については、後で詳しく説明する。
The probability
Here, the probability parameter value is, for example, a value of occurrence probability of a certain word in a certain class. Such an occurrence probability calculation method will be described in detail later.
識別モデルデータベース6は、上で計算された、単語とクラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持するデータベースである。識別モデルデータベース6は、磁気ディスク装置や光ディスク装置などといった記憶手段を用いて実現される。識別モデルデータベース6のデータ構造については後で別図面を参照しながら説明する。
The
図2は、コンテンツデータベース4のデータ構成を示す概略図である。図示するようにコンテンツデータベース4は、テーブル(2次元の表)形式のデータで構成され、そのテーブルは、クラス、映像データ、テキストデータといったデータ項目を含む。このテーブルの各行において、それぞれのデータ項目の値によって、クラスと映像データとテキストデータとが関連付けられている。例えば、図示するデータ例の1行目では、「映像データ1」と「テキストデータ1」とが対応しており、その「映像データ1」が属するクラスが「クラス1」であることを表わしている。ここで、「クラス1」、「クラス2」、「クラス3」などは、クラスを識別するデータである。また「映像データ1」、「映像データ2」などは、MPEG(Moving Picture Experts Group)−4形式などのバイナリデータそのもの、あるいはそのようなバイナリデータを格納するデータファイルへの参照データである。また「テキストデータ1」、「テキストデータ2」などは、映像に対応するクローズドキャプションのテキストデータそのもの、あるいはそのようなテキストデータを格納するデータファイルへの参照データである。
FIG. 2 is a schematic diagram showing the data structure of the
図3は、識別モデルデータベース6のデータ構成およびデータ例を示す概略図である。図示するようにコンテンツデータベース4は、テーブル形式のデータで構成され、そのテーブルは、クラス、単語、生起確率というデータ項目を含む。このテーブルの各行において、それぞれのデータ項目の値によって、クラスと、単語と、生起確率とが関連付けられている。例えば、図示するデータ例の1行目では、「カーブ」という単語が「クラス1」というクラスにおいて生起する確率の値が、生起確率の欄に格納されている(生起確率の数値そのものは図示せず)。
FIG. 3 is a schematic diagram illustrating a data configuration and a data example of the
次に、識別モデル生成装置100の各部による処理の手順について、順に説明する。
まず、映像分類処理部3は、番組映像データ1を解析することにより、番組映像データ1およびそれに対応するクローズドオキャプションデータ2を時間方向に適当な長さに区切る。区切るタイミングは、例えば、番組映像のシーンの切り替え時や、音声レベルが所定値未満から所定値以上に切り替わる時(またはその逆の時)とする。映像シーンの切り替えタイミングは、動画データを時間方向に微分することによって検出する。
また、映像分類処理部3は、区切られた各区間の映像の特徴を基に、番組映像データを複数のクラスに分類する。ここでの分類のための映像の特徴とは、RGB(赤・緑・青)それぞれのチャネルの輝度やそれらの画面上の位置における分布など、純粋に画像データそのものから得られる特徴であり、映像の意味的な特徴による分類は必要ない。そして、映像分類処理部3は、分類結果のクラスごとに分類した形で、番組映像データ1とそれに対応付くクローズドキャプションデータ2とをコンテンツデータベースに書き込む。
Next, processing procedures by each unit of the identification
First, the video
In addition, the video
次に、確率計算処理部5は、分類されている画像(映像データ)のクラスに対応するテキストを解析する。この際、言語情報(テキストに含まれる単語)と分類クラスの関係を数値化した確率パラメタ値を計算する。
図4は、確率計算処理部5による処理の前半部分の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
Next, the probability
FIG. 4 is a flowchart showing the procedure of the first half of the processing by the probability
まずステップS11において、確率計算処理部5は、コンテンツデータベース4から文書を読み込む。この文書とは、コンテンツデータベース4に記憶されているテキストデータである。そして、1つのクラスに属するテキストデータをすべてまとめたものが1つの文書である。
次に、ステップS12において、確率計算処理部5は、読み出した文書の中から一文を取り出す。
次に、ステップS13において、確率計算処理部5は、取り出した一文について形態素解析の処理を行なう。そして、この形態素解析の結果として、文書に含まれる単語(形態素)が抽出される。
First, in step S <b> 11, the probability
Next, in step S12, the probability
Next, in step S <b> 13, the probability
次に、ステップS14において、確率計算処理部5は、抽出された各単語が、助詞、助動詞、記号以外の単語であるかどうかを判定する。判定結果が肯定的な場合、つまりその単語が助詞、助動詞、記号のいずれでもない場合には、そのままステップS15に進む。判定結果が否定的な場合、つまりその単語が助詞、助動詞、記号のいずれかである場合は、ステップS15をスキップして、ステップS16に進む。
次に、ステップS15において、確率計算処理部5は、単語の頻度を計算し、更新する。なお、このステップS15の処理は、上記の形態素解析の結果得られた単語であって、助詞、助動詞、記号のいずれでもない単語の各々について行なう。なお、頻度の計算の詳細については後述する。
Next, in step S14, the probability
Next, in step S15, the probability
次に、ステップS16において、確率計算処理部5は、上のステップS12で取り出した一文が、当該文書の最後の文であったかどうかを判定する。最後の文であった場合にはステップS17に移る。最後の文でなかった場合には、次の一文の処理をするために、ステップS12に戻る。
次に、ステップS17において、確率計算処理部5は、すべての文についての各単語の頻度を集計し、頻度ベクトルを求める。頻度ベクトルについては、後で説明する。
Next, in step S16, the probability
Next, in step S <b> 17, the probability
次に、上述したステップS11からS17までの処理について、数式を用いてより詳細に説明する。つまり、確率計算処理部5は、コンテンツデータベース4から読み出したテキストデータの中の文を形態素解析し、単語に分ける。そして、それらの単語から助詞、助動詞、記号を除外し、残った単語の出現頻度により、文書ベクトルxと頻度ベクトルN(x)を求める。これら、文書ベクトルxと頻度ベクトルN(x)は、それぞれ下記の式(1)および(2)で表わされる。
Next, the process from step S11 to S17 mentioned above is demonstrated in detail using numerical formula. That is, the probability
但しここで、文書とは、1つのクラスに属するテキストデータの全てである。そして、wi(i=1,2,3,・・・,n)は、文書に属する単語である。なお、wiの集合には、重複する単語はない。つまり、当該文書内には、助詞、助動詞、記号を除いて、n種類の単語が出現している。言い換えれば、任意のi,j(但しi≠j)に対して、wi≠wjである。また、ni(i=1,2,3,・・・,n)は、当該文書内での単語wiの出現頻度(即ち、出現回数)である。 Here, the document is all text data belonging to one class. W i (i = 1, 2, 3,..., N) is a word belonging to the document. Note that there are no overlapping words in the set of w i . That is, n types of words appear in the document, excluding particles, auxiliary verbs, and symbols. In other words, for any i, j (where i ≠ j), w i ≠ w j . N i (i = 1, 2, 3,..., N) is the appearance frequency (that is, the number of appearances) of the word w i in the document.
上述したステップS11からS17までの処理で、文書ベクトルxと頻度ベクトルN(x)が得られているため、これらを用いて、次に、確率計算処理部5は、下記の式(3)を用いて、各々のクラスにおける単語wiの生起確率P(wi|c)を算出する。
Since the document vector x and the frequency vector N (x) are obtained in the processing from step S11 to S17 described above, the probability
但し、N(i,x)は、文書x内での単語wiの頻度(出現回数)である。また、この式では、ゼロ頻度問題を考慮して、ラプラス推定(Laplace estimation)によるスムージングを行い、そのパラメタとしてスムージング係数δを用いている。なお、Vは、クラスc中の単語の種類数を表わしている。 However, N (i, x) is the frequency of the word w i in the document x (number of occurrences). Also, in this equation, smoothing by Laplace estimation is performed in consideration of the zero frequency problem, and the smoothing coefficient δ is used as the parameter. V represents the number of types of words in class c.
なお、確率計算処理部5は、すべての単語とすべてのクラスとの組み合わせについて、上記の方法により生起確率P(wi|c)を算出する。そして、単語およびクラスと関連付けて、算出された生起確率P(wi|c)を識別モデルデータベース6のテーブルに書き込む。
The probability
以上の一連の処理により、識別モデル生成装置100は、番組映像データ1とクローズドキャプションデータ2のペアを基に、クローズドキャプションデータ2に含まれる単語と映像の特徴に基づくクラスとの関係を表わす確率パラメタ値である生起確率P(wi|c)を算出し、これによる識別モデルデータベース6を構築する。
Through the above-described series of processing, the identification
<識別処理>
次に、上述した識別モデル生成処理によって構築された識別モデルを用いて、新たに入力されるテキストデータがマッチする画像クラスを識別する処理について説明する。
図5は、本実施形態による識別処理装置(映像識別処理装置)の機能構成を示すブロック図である。図示するように、符号200が識別処理装置である。そして、この識別処理装置200は、識別モデルデータベース6と、文書7を記憶する記憶手段と、識別処理部8と、画像クラス9を記憶する記憶手段とを含んで構成される。
<Identification process>
Next, processing for identifying an image class that matches newly input text data using the identification model constructed by the above-described identification model generation processing will be described.
FIG. 5 is a block diagram showing a functional configuration of the identification processing device (video identification processing device) according to the present embodiment. As shown in the figure,
上記構成において、識別モデルデータベース6は、識別モデル生成処理において算出された確率パラメタ値(つまり、生起確率P(wi|c))を、単語ごと且つクラスごとに保持している。また、文書7は、入力されるテキストデータである。識別処理装置200の利用者は、文書7に相応しい映像を取り出すことを目的として、この文書7を入力することが可能となっている。また、識別処理部8は、文書7(テキストデータ)を読み込み、この文書7に含まれる単語の出現頻度を計算し、算出された出現頻度と、識別モデルデータベース6から読み出した確率パラメタ値とに基づき、文書7のテキストがあるクラスに属する確率であるクラス生起確率を各々のクラスごとに算出するものである。また、識別処理部8は、算出されたクラス生起確率を用いて、文書7に対応する最尤クラスを決定する。画像クラス9は、識別処理部8によって決定された最尤クラスが出力されたものである。
In the above configuration, the
なお、文書7および画像クラス9を記憶する記憶手段は、例えば、半導体メモリや、磁気ディスク装置や、光ディスク装置などを用いて実現する。
The storage means for storing the
図6は、上記の識別処理部8による識別処理の手順を示すフローチャートである。以下、この図に沿って識別処理部8が実行する識別処理について説明する。
まず、ステップS31において、識別処理部8は、入力される文書7を読み込む。
次に、ステップS32において、識別処理部8は、読み込んだ文書7に含まれる単語を抽出し、それら単語の頻度を計算する。この部分の、単語抽出と頻度計算の方法は、識別モデル生成処理の中での方法(前述した、ステップS11からS17までの処理の方法)と同様である。このステップS32の結果、入力された文書7に対する文書ベクトルと頻度ベクトルとが得られる。
FIG. 6 is a flowchart showing a procedure of identification processing by the identification processing unit 8. Hereinafter, the identification process performed by the identification processing unit 8 will be described with reference to FIG.
First, in step S31, the identification processing unit 8 reads the
Next, in step S32, the identification processing unit 8 extracts words included in the read
次に、ステップS33において、識別処理部8は、下記の方法を用いて、入力された文書7に対する各クラスの生起確率(クラス生起確率)を計算する。
その方法とは、まず、識別処理部8は、適宜識別モデルデータベース6を参照して必要な生起確率P(wi|c)の値を読み出しながら、下記の式(4)を用いて、条件付確率P(c|x)を求める。
Next, in step S33, the identification processing unit 8 calculates the occurrence probability (class occurrence probability) of each class for the
First, the identification processing unit 8 reads the necessary occurrence probability P (w i | c) with reference to the
ここで、xは、入力された文書7の文書ベクトルである。また、N(i,x)は、文書ベクトルxに対応する単語wiの頻度である。また、「!」は階乗演算子である。
Here, x is a document vector of the
また、式(4)において、P(wi|c)は、識別処理部8が単語wiおよびクラスcをキーとして識別モデルデータベース6から読み出した確率パラメタ値である。なお、識別モデルデータベース6に単語wiに対応するP(wi|c)の値が格納されていない場合には、式(3)により、P(wi|c)=δ/(δ・|V|)とする。つまり、式(3)により、P(wi|c)=1/|V|とする。
In the equation (4), P (w i | c) is a probability parameter value read from the
また、式(4)において、|x|は文書の頻度である。つまり、文書ベクトルxと同じ文書ベクトルを有する文書の出現数である。また、P(|x|)は、文書頻度が|x|である確率である。
つまり、あるクラスにおいてx1という文書ベクトルを持つ文書が2つあった場合には、|x|は2である。そして、ベクトルx1に限らず、|x|=2となる文書ベクトルの割合がp(|x|)である。
例えば、あるクラスにおいて、文書ベクトルx1を有する文書が2個あり(つまり|x1|=2)、文書ベクトルx2を有する文書が1個あり(つまり|x2|=1)、文書ベクトルx3を有する文書が2個ある(つまり|x3|=2)場合、且つその他の文書がない場合には、|x|=2である頻度が2であり(x1とx3)、|x|=1である頻度が1である(x2)。よって、p(|x1|)=2/3であり、p(|x2|)=1/3であり、p(|x3|)=2/3である。
In Expression (4), | x | is a document frequency. That is, the number of appearances of a document having the same document vector as the document vector x. P (| x |) is a probability that the document frequency is | x |.
That is, if there are two documents having a document vector of x1 in a certain class, | x | is 2. In addition to the vector x1, the ratio of document vectors in which | x | = 2 is p (| x |).
For example, in a certain class, there are two documents having the document vector x1 (that is, | x1 | = 2), one document having the document vector x2 (that is, | x2 | = 1), and a document having the document vector x3. If there are two (ie, | x3 | = 2) and there are no other documents, the frequency of | x | = 2 is 2 (x1 and x3), and the frequency of | x | = 1 Is 1 (x2). Therefore, p (| x1 |) = 2/3, p (| x2 |) = 1/3, and p (| x3 |) = 2/3.
次に、識別処理部8は、式(4)に基づき、ベイズの定理により、式(5)を用いて、P(c|x)を求める。 Next, the identification processing unit 8 obtains P (c | x) by using Bayes's theorem and using Equation (5) based on Equation (4).
ここで、P(c)は、単純に、クラス間の文書の分布に基づくクラスcの存在確率である。
なお、式(5)における最右辺の分母は、クラスに依らずに一定である。よって、式(6)の通りである。
Here, P (c) is simply the existence probability of class c based on the distribution of documents between classes.
Note that the rightmost denominator in the equation (5) is constant regardless of the class. Therefore, it is as Formula (6).
上では、計算過程として式(4)および式(5)を示したが、当然のことながら、識別処理部8が各クラスについて式(6)の右辺の値のみを直接計算し、その比率によってクラス生起確率P(c|x)を計算するようにしても良い。 In the above, Expression (4) and Expression (5) are shown as the calculation process. However, as a matter of course, the identification processing unit 8 directly calculates only the value on the right side of Expression (6) for each class, The class occurrence probability P (c | x) may be calculated.
フローチャートに戻って、次に、ステップS34において、識別処理部8は、計算された各クラスのクラス生起確率P(c|x)に基づき、与えられた文書に対する最尤クラスを決定する。つまり、最尤クラスは、下の式(7)により与えられる。 Returning to the flowchart, next, in step S34, the identification processing unit 8 determines the maximum likelihood class for the given document based on the calculated class occurrence probability P (c | x) of each class. That is, the maximum likelihood class is given by the following equation (7).
つまり、この処理により、識別処理部8は、与えられた文書7に最も相応しい映像のクラスを決定することができる。
なお、当然のことながら、識別処理部8が各クラスについて式(7)を用いて、文書の最尤クラスを直接計算するようにしても良い。
なお、上述した処理は、ナイーブベイズ(Naive Bayes)分離器による。また、各単語の生起は独立と仮定している。
That is, through this process, the identification processing unit 8 can determine the video class most suitable for the given
As a matter of course, the identification processing unit 8 may directly calculate the maximum likelihood class of the document using the equation (7) for each class.
In addition, the process mentioned above is based on a Naive Bayes separator. In addition, the occurrence of each word is assumed to be independent.
なお、識別処理部8への入力となる文書7に、映像データが関連付けられていても良い。その場合には、文書7と、識別モデルデータベース6に記憶されているクラス生起確率に基づいて、映像データのクラス生起確率を計算することができ、従って、その映像データの最尤クラス(画像クラス9)を出力することができる。
Note that video data may be associated with the
次に、識別モデルを生成する処理手段と、識別処理を行なう処理手段とを兼ね備えた、識別モデル生成及び識別処理装置(映像識別処理装置)について説明する。
図7は、識別モデル生成及び識別処理装置300の構成を示すブロック図である。図示するように、識別モデル生成及び識別処理装置300は、識別モデル生成装置100と識別処理装置200とを含んで構成される。識別モデル生成装置100と識別処理装置200の詳細については、既に、それぞれ、図面を参照しながら説明した。
Next, an identification model generation and identification processing apparatus (video identification processing apparatus) that includes both a processing unit that generates an identification model and a processing unit that performs identification processing will be described.
FIG. 7 is a block diagram illustrating a configuration of the identification model generation and
そして既に説明したように、識別モデル生成装置100と識別処理装置200は、識別モデルデータベース6を有している。識別モデル生成装置100における処理の結果、単語とクラスとの関係を表わす確率パラメタ値(つまり、ある単語を前提とした、クラス生起確率値)が、識別モデル生成装置100の識別モデルデータベース6に書き込まれる。書き込まれた値は、識別処理装置200の識別モデルデータベース6に反映される。識別処理装置200側では、識別モデルデータベース6に書かれている確率パラメタ値を用いて、既に述べた識別処理を行なう。なお、両者間でデータベースの更新を反映する方法としては、例えば、ハードディスク装置のミラーリングを用いたり、データベース管理システムが有するミラーリングのしくみを用いたり、識別モデル生成装置100側でのデータベース更新をトリガーとして検出して所定の手順が起動されるしくみを用いて識別処理装置200側のデータベースにも同じ値を書き込むようにして実現できる。また、単純に、単一のデータベースを、識別モデル生成装置100と識別処理装置200の双方からアクセスできる形で共有するようにしてもよい。
As already described, the identification
つまり、この識別モデル生成及び識別処理装置300は、コンテンツデータベース(図示せず)内の番組映像データとクローズドキャプションデータを基に、番組映像データのクラスへの分類と、識別モデル構築の処理を行ない(以上は、識別モデル生成装置100の処理)、構築された識別モデルを用いて、文書(テキスト)に対するクラス生起確率を計算し、このクラス生起確率に基づいて、その文書に適合する映像のクラスを決定する処理を行なう(以上は、識別処理装置200の処理)ことができる。
That is, the identification model generation and
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。なお、以下では、上述した第1の実施形態と同様である部分についての説明を省略し、本実施形態特有の部分についてのみ、説明する。
第1の実施形態に置いては文書ベクトルを構成する単語として、助詞以外、且つ助動詞以外、且つ記号以外の単語を用いていたが、本実施形態においては、その代わりに、名詞と、動詞と、形容詞と、未知語を用いるようにする。
[Second Embodiment]
Next, a second embodiment of the present invention will be described. In the following, description of parts that are the same as those in the first embodiment described above will be omitted, and only parts that are unique to the present embodiment will be described.
In the first embodiment, words other than particles, non-auxiliary verbs, and non-symbols are used as words constituting the document vector. In this embodiment, instead of nouns, verbs, Use adjectives and unknown words.
図8は、本実施形態の確率計算処理部5や識別処理部8における、単語抽出及び頻度ベクトル作成の処理の手順を示すフローチャートである。この図を参照しながら説明すると、ステップS11で文書を読み込み、ステップS12で文書から一文を取り出し、ステップS13で形態素解析をするところまでの処理は、第1の実施形態と同様である。
FIG. 8 is a flowchart illustrating a procedure of word extraction and frequency vector creation processing in the probability
次のステップS14Aにおける処理は本実施形態特有のものであり、ステップS14Aにおいて、確率計算処理部5または識別処理部8は、抽出された各単語が、名詞、動詞、形容詞、未知語のいずれかの単語であるかどうかを判定する。判定結果が肯定的な場合、つまりその単語が名詞、動詞、形容詞、未知語のいずれかである場合には、そのままステップS15に進む。判定結果が否定的な場合、つまりその単語が名詞、動詞、形容詞、未知語のいずれでもない場合は、ステップS15をスキップして、ステップS16に進む。
The processing in the next step S14A is specific to this embodiment. In step S14A, the probability
なお、ステップS14Aにおいて、未知語とは、形態素解析の結果として未知の品詞であると判定される形態素(単語)である。形態素解析処理の手法によっては、このような、品詞を特定できない未知語が、解析結果として出力される。なお、未知語と判定された語は、実際には名詞であることが多く、そのような未知語は、文書ベクトルおよび頻度ベクトルに含めるようにして、文書の特徴の一部とすることが有効である。 In step S14A, the unknown word is a morpheme (word) determined to be an unknown part of speech as a result of morphological analysis. Depending on the method of morphological analysis processing, such unknown words whose part of speech cannot be specified are output as analysis results. Note that words that are determined to be unknown words are often nouns in practice, and it is effective to include such unknown words as part of the document characteristics by including them in the document vector and frequency vector. It is.
そして、ステップS15において単語頻度を計算、更新する処理と、ステップS16において最後の文であるかどうかを判定して分岐する処理と、ステップS17において頻度ベクトルを計算する処理は、第1の実施形態と同様である。 The process of calculating and updating the word frequency in step S15, the process of determining whether or not it is the last sentence in step S16, and the process of calculating the frequency vector in step S17 are the first embodiment. It is the same.
上記のようなステップS14Aの処理により、本実施形態による識別モデル生成装置(映像識別処理装置)や識別処理装置(映像識別処理装置)などでは、では、名詞、動詞、形容詞、未知語を対象として確率計算処理や識別処理が行なわれる。 In the identification model generation device (video identification processing device) or the identification processing device (video identification processing device) according to the present embodiment by the processing in step S14A as described above, nouns, verbs, adjectives, and unknown words are targeted. Probability calculation processing and identification processing are performed.
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。なお、以下では、上述した実施形態と同様である部分についての説明を省略し、本実施形態特有の部分についてのみ、説明する。
[Third embodiment]
Next, a third embodiment of the present invention will be described. In the following, description of parts that are the same as those of the above-described embodiment will be omitted, and only parts that are unique to this embodiment will be described.
図9は、本実施形態による識別モデル生成装置100B(映像識別処理装置)の機能構成を示すブロック図である。本実施形態の特徴は、第1の実施形態においてはクローズドキャプションデータ2を用いていたのに代えて、時刻情報が付与された番組台本データ2B(テキストデータ)を用いている点である。
FIG. 9 is a block diagram illustrating a functional configuration of the identification
番組台本データ2Bは、番組映像データ1の番組を制作する際に用意されていた台本のテキストデータである。番組台本の内容と、実際の番組の中での出演者やナレーターの発話とは、完全に一致するわけではないが、非常に近い。よって、番組台本を基に、確率計算処理部5による確率計算の処理を行なっても、良好な結果が得られる。近年では番組台本データがテキストデータとして保存されている場合もあり、そのような場合には、たとえクローズドキャプションデータがない状況であっても、膨大な人手をかけることなく、識別モデルデータベース6を作成することができる。
The
番組台本データ2Bには、時刻情報が付与されているため、この時刻情報を用いて番組映像データ1との同期ポイントを特定することができる。これにより、番組映像データ1を複数の時間区間に分割しても、各時間区間に適合したテキストデータを与えることができる。
なお、番組台本データ2Bは、番組制作段階で元々時刻情報が付加されている場合もあるためこの時刻情報をそのまま用いても良いし、時刻情報のみを人手で番組台本のテキストに付加して作成しても良い。
Since time information is given to the
Since the
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。なお、以下では、上述した実施形態と同様である部分についての説明を省略し、本実施形態特有の部分についてのみ、説明する。
[Fourth Embodiment]
Next, a fourth embodiment of the present invention will be described. In the following, description of parts that are the same as those of the above-described embodiment will be omitted, and only parts that are unique to this embodiment will be described.
図10は、本実施形態による識別モデル生成装置100C(映像識別処理装置)の機能構成を示すブロック図である。本実施形態の特徴は、第1の実施形態においてはクローズドキャプションデータ2を用いていたのに代えて、時刻情報が付与された音声認識結果データ2C(テキストデータ)を用いている点である。
FIG. 10 is a block diagram illustrating a functional configuration of the identification model generation device 100C (video identification processing device) according to the present embodiment. A feature of the present embodiment is that, instead of using the
音声認識結果データ2Cは、対応する番組映像データ1を基に、予め音声認識処理により作成したものである。また、その番組映像データ1に含まれている映像および音声は元々時刻情報と同期しているため、その時刻情報を用いて、音声認識結果データ2Cにも時刻情報を付与するようにしておく。
The voice
このように音声認識結果データ2Cを用いることにより、たとえクローズドキャプションデータがない状況であっても、膨大な人手をかけることなく、識別モデルデータベースを作成することができる。
By using the speech
[第5の実施形態]
次に、本発明の第5の実施形態について説明する。なお、以下では、上述した実施形態と同様である部分についての説明を省略し、本実施形態特有の部分についてのみ、説明する。
[Fifth Embodiment]
Next, a fifth embodiment of the present invention will be described. In the following, description of parts that are the same as those of the above-described embodiment will be omitted, and only parts that are unique to this embodiment will be described.
図11は、本実施形態による識別モデル生成装置100D(画像識別処理装置)の機能構成を示すブロック図である。本実施形態による識別モデル生成装置100Dの特徴的な構成は次の通りである。即ち、第1実施形態における番組映像データ1の代わりに、本実施形態では画像データ1Dを用いる。また、第1実施形態におけるクローズドキャプションデータ2の代わりに、本実施形態ではウェブテキストデータ2D(テキストデータ)を用いる。なお、画像データ1Dとウェブテキストデータ2Dをまとめてウェブコンテンツデータと称する。また、第1実施形態におけるコンテンツデータベース4はクラスごとに映像データとテキストデータのペアを格納していたのに対して、本実施形態におけるコンテンツデータベース4Dは、クラスごとに、画像データとテキストデータのペアを複数格納している。
FIG. 11 is a block diagram illustrating a functional configuration of the identification model generation device 100D (image identification processing device) according to the present embodiment. The characteristic configuration of the identification model generation device 100D according to the present embodiment is as follows. That is, instead of the
ここで、画像データ1Dと、ウェブテキストデータ2Dは、同一のウェブコンテンツから抽出されたものである。例えば、単一のウェブページにおいてページ上に表示されている単一又は複数の画像のデータを画像データ1Dとする。ここで、画像は、静止画であっても動画であってもよい。そして、ウェブテキストデータ2Dは、そのウェブページにおいて表示されているテキストのデータである。同じウェブページに表示されている画像データ1Dとウェブテキストデータ2Dは、意味的につながりを持つ場合が非常に多い。
Here, the
一例としては、1つのHTML(ハイパーテキスト・マークアップ言語)ファイルの中に、「<img>」タグにより参照されている画像ファイルを画像データ1Dとして用い、そのHTMLファイルの中の、タグ以外のテキスト部分をウェブテキストデータ2Dとする。
As an example, an image file referred to by the “<img>” tag is used as
本実施形態では、映像分類処理部3は、画像データ1Dの画像上の特徴(画素値の特徴、画素値の画面上での分布の特徴、そして動画の場合には画素値の時間方向の分布の特徴など)により、クラス分類を行なう。
In the present embodiment, the video
本実施形態の識別モデル生成装置100Dにより、ウェブページ等に掲載されている画像を、その純粋に画像的な特徴のみからクラスに分類し、クラスごとのウェブテキストに基づいて確率計算処理を行なうことによりクラスと単語との関係を示す確率パラメタ値を算出し、それらの確率パラメタ値を書き込んだ識別モデルデータベース6を作成することができる。そして、この識別モデルデータベース6を用いて既に述べた識別処理を行なうことにより、入力される文書にマッチに応じたクラス生起確率を求めることができるとともに、その文書にマッチした画像のクラスを決定することができる。
The identification model generation apparatus 100D of the present embodiment classifies images posted on a web page or the like into classes based only on their purely image features, and performs probability calculation processing based on the web text for each class. By calculating the probability parameter value indicating the relationship between the class and the word, the
[第6の実施形態]
次に、本発明の第6の実施形態について説明する。なお、以下では、上述した実施形態と同様である部分についての説明を省略し、本実施形態特有の部分についてのみ、説明する。
[Sixth Embodiment]
Next, a sixth embodiment of the present invention will be described. In the following, description of parts that are the same as those of the above-described embodiment will be omitted, and only parts that are unique to this embodiment will be described.
図12は、本実施形態による映像検索装置の機能構成を示すブロック図である。図示する通り、映像検索装置400(映像識別処理装置)は、識別モデルデータベース6(確率パラメタ値データベース)と、文書7(テキストデータ)を記憶する手段と、映像データ1Eを記憶する手段と、識別処理部8Eと、画像クラス9を記憶する手段と、映像データベース12と、検索装置13(検索処理部)と、映像検索インターフェース部14と、入力される検索語15を少なくとも一時的に記憶する手段と、検索結果16を少なくとも一時的に記憶する手段とを含んで構成される。
なお、文書7や、映像データ1Eや、画像クラス9や、検索語15や、検索結果16を記憶する手段は、それぞれ、半導体メモリや、磁気ハードディスク装置や、光ディスク装置などを用いて実現される。
また、映像データベース12は、映像データをクラスごとに分類して保持するものである。
FIG. 12 is a block diagram illustrating a functional configuration of the video search apparatus according to the present embodiment. As shown in the figure, the video search device 400 (video identification processing device) includes an identification model database 6 (probability parameter value database), means for storing a document 7 (text data), means for storing
Note that the means for storing the
The
この映像検索装置400の中で、識別処理部8Eが、識別モデルデータベース6を参照しながら、入力される文書7に相応しい画像クラス9を決定する処理の部分は、図5を参照しながら既に説明したのと同様であるので、ここでは説明を省略する。
識別処理部8Eによる本実施形態特有の処理は、文書7に関連付けられている映像データ1Eを読み込み、文書7に基づいて決定された画像クラス9(最尤クラス)に関連付けて、その映像データ1Eと文書7とのペアを映像データベース12に書き込む処理を行なう点である。つまり、識別処理部8Eは、第1実施形態における識別処理部8の処理に加えてさらに、算出したクラス生起確率に基づき、入力される文書7の最尤クラスを決定するとともに、文書7に対応付いている映像データ1Eが決定されたその最尤クラスに属するように、映像データ1Eを映像データベース12に書き込む処理を行なう。
In this
The processing unique to the present embodiment by the identification processing unit 8E reads the
識別処理部8Eが上記のような処理を行なうことにより、映像データ1Eを、その映像あるいは画像の特徴によらずに、関連している文書7の特徴によってクラスに分類し、分類したクラスごとに映像データベース12に書き込むことができる。このような処理を繰り返すことにより、映像データベース12には、クラスごとに分類された映像データが蓄積される。
When the identification processing unit 8E performs the above-described processing, the
なお、映像データベース12においては、各クラスに対応するテキスト情報(被検索テキストと呼ぶ)も記録されている。この被検索テキストとしては、例えば、人が適宜付与した単語(例えば、その単語が、そのクラスのクラス名であってもよい)を用いる。例えば、「ガスレンジ」や、「バッターボックス」などといった単語を用いる。これら以外にも、そのクラスに関連性の深いテキストを自動的に生成して、各クラスに対応する被検索テキストとして用いるようにしても良い。そのための方法は、例えば、類義語辞書あるいは概念辞書を参照することによって、「バッター」、「ストライク」、「カーブ」などという単語の上位概念として対応付けられている「野球」という単語を自動的に抽出したり、それらの単語の同概念あるいは類似概念として対応付けられている「バッターボックス」という単語を自動的に抽出したりする。また、そのように類義語辞書あるいは概念辞書から単語を抽出する際に、例えば、具象物名詞であるという限定を加えたり、場所を表す名詞であるという限定を加えたりするなど、自動生成する単語ないしはテキストに関するルールを予め設けるようにしておいても良い。
In the
映像検索インターフェース部14は、利用者による検索語(15)の入力ないしは選択を受け付けるとともに、検索結果(16)を利用者に対して表示する機能を有するものである。映像検索インターフェース部14は、例えば、パーソナルコンピュータのディスプレイ装置やキーボードやマウスなどを制御することにより、上記の利用者インターフェースを実現する。
The video
検索装置13は、入力された検索語を映像検索インターフェース部14から受け取り、その検索語にマッチするクラスを求め、求められたクラスを検索結果クラスとし、その検索結果クラスに属する映像データを映像データベース13から読み出して、検査結果16として映像検索インターフェース部14に渡す。
なお、検索装置13が入力された検索語に基づいてマッチするクラスを求める部分の処理は、テキストを対象としたウェブ検索エンジン(サーチエンジン)の技術を用いる。この技術を用いて、検索装置13は、上記の、各クラスに対応する被検索テキストを検索し、ヒットするクラスを検索結果クラスとする。なお、検索結果クラスの数は1つであっても良いし、複数であっても良い。
The
In addition, the process of the part which calculates | requires the class which matches based on the search term in which the
なお、検索装置13は、検索結果16として映像データそのものを映像検索インターフェース部14に渡す代わりに、検索でヒットした映像データへの参照情報を検索結果16として映像検索インターフェース部に渡すようにしてもよい。ここで、映像データへの参照情報としては、例えば、映像データのファイルの場所を示すURL(ユニフォーム・リソース・ロケータ)や、或いは映像データベース12内での目的の映像データのデータベースインデックス値など、映像データを特定できる情報を用いる。
Instead of passing the video data itself as the
この映像検索装置400を用いることにより、映像データ1Eに元々対応する文書7(テキストデータ)に「ガスレンジ」や「バッターボックス」などの語が含まれていなくても、検索語として「ガスレンジ」や「バッターボックス」などといった語が利用者によって入力された場合に、該当する(つまり、ガスレンジやバッターボックスなどが映されている)映像データを取り出して利用者に見せることができる。
なお、上では、各クラスに対応する被検索テキストを人が付与する形態も記載しているが、たとえこの部分の被検索テキストの付与を人手で行なったとしても、各映像データに対して個別にメタデータを付与する方法を採るよりは、格段に手間が削減され、効率化を図ることができる。
By using the
In the above, a form in which a search target text corresponding to each class is given by a person is described, but even if this search text is given manually, each video data is individually provided. Compared to the method of assigning metadata to the, it is possible to significantly reduce labor and improve efficiency.
なお、上述した実施形態における識別モデル生成装置や、識別処理装置や、識別モデル生成及び識別処理装置や、映像検索装置の全部又は一部、例えば、映像分類処理や確率計算処理や識別処理や検索等の機能をコンピュータで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 In addition, all or part of the identification model generation device, the identification processing device, the identification model generation and identification processing device, and the video search device in the above-described embodiment, for example, video classification processing, probability calculation processing, identification processing, and search These functions may be realized by a computer. In that case, a program for realizing these functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It is also possible to include those that hold a program for a certain time, such as a volatile memory inside a computer system serving as a server or client in that case. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、番組映像データに限らず、何らかのテキストデータが関連付けられている一般の映像データ、画像データ等を用いて、上記実施形態で記載したのと同様の処理を行なっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
Although a plurality of embodiments have been described above, the present invention can also be implemented in the following modifications.
For example, the same processing as described in the above embodiment may be performed using not only program video data but also general video data, image data, or the like associated with some text data.
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
1 番組映像データ(映像データ)
1D 画像データ
1E 映像データ
2 クローズドキャプションデータ(テキストデータ)
2B 番組台本データ(テキストデータ)
2C 音声認識結果データ(テキストデータ)
2D ウェブテキストデータ(テキストデータ)
3 映像分類処理部
4,4D コンテンツデータベース
5 確率計算処理部
6 識別モデルデータベース(確率パラメタ値データベース)
7 文書(テキストデータ)
8,8E 識別処理部
9 画像クラス
12 映像データベース
13 検索装置(検索処理部)
100,100B,100C 識別モデル生成装置(映像識別処理装置)
100D 識別モデル生成装置(画像識別処理装置)
200 識別処理装置(映像識別処理装置)
300 識別モデル生成及び識別処理装置(映像識別処理装置)
1 Program video data (video data)
2B Script script data (text data)
2C Voice recognition result data (text data)
2D web text data (text data)
3 Video
7 Document (text data)
8, 8E Identification processing unit 9
100, 100B, 100C Identification model generation device (video identification processing device)
100D identification model generation device (image identification processing device)
200 Identification processing device (video identification processing device)
300 Identification Model Generation and Identification Processing Device (Video Identification Processing Device)
Claims (12)
単語と前記クラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、
前記コンテンツデータベースから読み出した前記テキストデータに含まれる単語の出現頻度に基づき、前記単語と前記クラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された前記確率パラメタ値を当該単語及び当該クラスに関連付けて前記確率パラメタ値データベースに書き込む確率計算処理部と、
を備えることを特徴とする映像識別処理装置。 A content database that classifies and holds video data and text data associated with the video data for each class;
A probability parameter value database that stores a probability parameter value representing a relationship between a word and the class in association with the word and the class;
Based on the appearance frequency of the word included in the text data read from the content database, the probability parameter value representing the relationship between the word and the class is calculated, the calculated probability parameter value is the word and A probability calculation processor that writes to the probability parameter value database in association with the class;
A video identification processing apparatus comprising:
入力されるテキストデータを読み込み、当該テキストデータに含まれる単語の出現頻度と、前記確率パラメタ値データベースから読み出した前記確率パラメタ値と、に基づき、当該テキストデータが前記クラスに属する確率であるクラス生起確率を各々のクラスごとに算出する識別処理部を、
さらに備えることを特徴とする映像識別処理装置。 The video identification processing device according to claim 1,
A class occurrence that is a probability that the text data belongs to the class based on the appearance frequency of the words included in the text data and the probability parameter value read from the probability parameter value database. An identification processing unit that calculates the probability for each class,
A video identification processing apparatus, further comprising:
入力される映像データの映像の特徴に基づき、当該映像データが属するクラスを決定し、当該映像データと、当該映像データに関連付けられたテキストデータを、前記コンテンツデータベースに書き込む映像分類処理部を、
さらに備えることを特徴とする映像識別処理装置。 The video identification processing device according to claim 1,
A video classification processing unit that determines a class to which the video data belongs based on the video characteristics of the input video data and writes the video data and text data associated with the video data to the content database,
A video identification processing apparatus, further comprising:
入力されるテキストデータを読み込み、当該テキストデータに含まれる単語の出現頻度と、前記確率パラメタ値データベースから読み出した前記確率パラメタ値と、に基づき、当該テキストデータが前記クラスに属する確率であるクラス生起確率を各々のクラスごとに算出する識別処理部と、
を備えることを特徴とする映像識別処理装置。 A probability parameter value database that stores the probability parameter value representing the relationship between the word and the class, calculated based on the appearance frequency of the word included in the text data, in association with the word and the class;
A class occurrence that is a probability that the text data belongs to the class based on the appearance frequency of the words included in the text data and the probability parameter value read from the probability parameter value database. An identification processing unit for calculating the probability for each class;
A video identification processing apparatus comprising:
映像データをクラスごとに分類して保持する映像データベースと、
入力される検索語を基に、当該検索語にマッチする検索結果クラスを求め、映像データベースを参照することによって、前記検索結果クラスに属する映像データ又は前記検索結果クラスに属する映像データへの参照情報の少なくともいずれかを出力する検索処理部と、
を備えるとともに、
前記入力されるテキストデータには映像データが関連付けられており、
前記識別処理部は、さらに、算出した前記クラス生起確率に基づき、前記入力されるテキストデータの最尤クラスを決定するとともに、前記映像データが決定された最尤クラスに属するように前記映像データを前記映像データベースに書き込む、
ことを特徴とする映像識別処理装置。 The video identification processing device according to claim 4,
A video database that stores video data classified by class, and
Based on an input search term, a search result class that matches the search term is obtained, and reference information to video data belonging to the search result class or video data belonging to the search result class is obtained by referring to a video database. A search processing unit that outputs at least one of
With
Video data is associated with the input text data,
The identification processing unit further determines a maximum likelihood class of the input text data based on the calculated class occurrence probability, and the video data so that the video data belongs to the determined maximum likelihood class. Write to the video database;
A video identification processing apparatus characterized by the above.
前記テキストデータは、前記放送番組のクローズドキャプションのテキストデータ、時刻情報に関連付けられた前記放送番組の台本のテキストデータ、前記放送番組の映像データを基に音声認識処理をした結果得られ時刻情報に関連付けられたテキストデータ、のいずれかである
ことを特徴とする請求項1から5までのいずれか一項に記載の映像識別処理装置。 The video data is video data of a broadcast program,
The text data is obtained as a result of voice recognition processing based on the closed caption text data of the broadcast program, the text data of the broadcast program script associated with the time information, and the video data of the broadcast program. The video identification processing device according to claim 1, wherein the video identification processing device is associated text data.
単語と前記クラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、
前記コンテンツデータベースから読み出した前記テキストデータに含まれる単語の出現頻度に基づき、前記単語と前記クラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された前記確率パラメタ値を当該単語及び当該クラスに関連付けて前記確率パラメタ値データベースに書き込む確率計算処理部と、
を備えることを特徴とする画像識別処理装置。 A content database that classifies and stores web content data including image data and text data,
A probability parameter value database that stores a probability parameter value representing a relationship between a word and the class in association with the word and the class;
Based on the appearance frequency of the word included in the text data read from the content database, the probability parameter value representing the relationship between the word and the class is calculated, the calculated probability parameter value is the word and A probability calculation processor that writes to the probability parameter value database in association with the class;
An image identification processing device comprising:
単語と前記クラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、
を備えるコンピュータに、
前記コンテンツデータベースから読み出した前記テキストデータに含まれる単語の出現頻度に基づき、前記単語と前記クラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された前記確率パラメタ値を当該単語及び当該クラスに関連付けて前記確率パラメタ値データベースに書き込む確率計算処理ステップ、
の処理を実行させるコンピュータプログラム。 A content database that classifies and holds video data and text data associated with the video data for each class;
A probability parameter value database that stores a probability parameter value representing a relationship between a word and the class in association with the word and the class;
On a computer with
Based on the appearance frequency of the word included in the text data read from the content database, the probability parameter value representing the relationship between the word and the class is calculated, the calculated probability parameter value is the word and Probability calculation processing step to write to the probability parameter value database in association with the class,
A computer program that executes the process.
入力されるテキストデータを読み込み、当該テキストデータに含まれる単語の出現頻度と、前記確率パラメタ値データベースから読み出した前記確率パラメタ値と、に基づき、当該テキストデータが前記クラスに属する確率であるクラス生起確率を各々のクラスごとに算出する識別処理ステップ、
の処理を実行させるコンピュータプログラム。 A computer comprising a probability parameter value database that stores the probability parameter value representing the relationship between the word and the class, which is calculated based on the appearance frequency of the word included in the text data, in association with the word and the class,
A class occurrence that is a probability that the text data belongs to the class based on the appearance frequency of the words included in the text data and the probability parameter value read from the probability parameter value database. An identification processing step for calculating the probability for each class;
A computer program that executes the process.
単語と前記クラスとの関係を表わす確率パラメタ値を、当該単語と当該クラスとに関連付けて保持する確率パラメタ値データベースと、
を備えるコンピュータに、
前記コンテンツデータベースから読み出した前記テキストデータに含まれる単語の出現頻度に基づき、前記単語と前記クラスとの関係を表わす確率パラメタ値を算出する処理を行ない、算出された前記確率パラメタ値を当該単語及び当該クラスに関連付けて前記確率パラメタ値データベースに書き込む確率計算処理ステップ、
の処理を実行させるコンピュータプログラム。 A content database that classifies and stores web content data including image data and text data,
A probability parameter value database that stores a probability parameter value representing a relationship between a word and the class in association with the word and the class;
On a computer with
Based on the appearance frequency of the word included in the text data read from the content database, the probability parameter value representing the relationship between the word and the class is calculated, the calculated probability parameter value is the word and Probability calculation processing step to write to the probability parameter value database in association with the class,
A computer program that executes the process.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007212412A JP2009048334A (en) | 2007-08-16 | 2007-08-16 | Video identification processing device, image identification processing device, and computer program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007212412A JP2009048334A (en) | 2007-08-16 | 2007-08-16 | Video identification processing device, image identification processing device, and computer program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009048334A true JP2009048334A (en) | 2009-03-05 |
Family
ID=40500502
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007212412A Pending JP2009048334A (en) | 2007-08-16 | 2007-08-16 | Video identification processing device, image identification processing device, and computer program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009048334A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014192895A (en) * | 2013-03-26 | 2014-10-06 | Excelitas Canada Inc | DIFFERENTIAL OPTICAL RECEIVER FOR AVALANCHE PHOTODIODE AND SiPM |
| JP2016152033A (en) * | 2015-02-19 | 2016-08-22 | 日本電信電話株式会社 | Difficulty estimation learning device, difficulty estimation model learning device, and device, method and program for estimating difficulty |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006107354A (en) * | 2004-10-08 | 2006-04-20 | Nippon Telegr & Teleph Corp <Ntt> | Automatic classification method, automatic classification program, recording medium, and automatic classification device |
| JP2006293767A (en) * | 2005-04-12 | 2006-10-26 | Nomura Research Institute Ltd | Sentence classification apparatus, sentence classification method, and classification dictionary creation apparatus |
| JP2007200249A (en) * | 2006-01-30 | 2007-08-09 | Nippon Telegr & Teleph Corp <Ntt> | VIDEO SEARCH METHOD, DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM |
-
2007
- 2007-08-16 JP JP2007212412A patent/JP2009048334A/en active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006107354A (en) * | 2004-10-08 | 2006-04-20 | Nippon Telegr & Teleph Corp <Ntt> | Automatic classification method, automatic classification program, recording medium, and automatic classification device |
| JP2006293767A (en) * | 2005-04-12 | 2006-10-26 | Nomura Research Institute Ltd | Sentence classification apparatus, sentence classification method, and classification dictionary creation apparatus |
| JP2007200249A (en) * | 2006-01-30 | 2007-08-09 | Nippon Telegr & Teleph Corp <Ntt> | VIDEO SEARCH METHOD, DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014192895A (en) * | 2013-03-26 | 2014-10-06 | Excelitas Canada Inc | DIFFERENTIAL OPTICAL RECEIVER FOR AVALANCHE PHOTODIODE AND SiPM |
| JP2016152033A (en) * | 2015-02-19 | 2016-08-22 | 日本電信電話株式会社 | Difficulty estimation learning device, difficulty estimation model learning device, and device, method and program for estimating difficulty |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108829893B (en) | Method and device for determining video label, storage medium and terminal equipment | |
| KR101721338B1 (en) | Search engine and implementation method thereof | |
| US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
| US8577882B2 (en) | Method and system for searching multilingual documents | |
| CN105975558B (en) | Establish method, the automatic edit methods of sentence and the corresponding intrument of statement editing model | |
| CN116361510B (en) | Method and device for automatically extracting and retrieving scenario segment video established by utilizing film and television works and scenario | |
| JP2009043156A (en) | Program search device and program search method | |
| JP4487018B2 (en) | Related scene assigning apparatus and related scene assigning method | |
| JPWO2007091587A1 (en) | Representative image or representative image group display system, method and program thereof, and representative image or representative image group selection system, method and program thereof | |
| US12069090B2 (en) | Illegal content search device, illegal content search method, and program | |
| KR102345401B1 (en) | methods and apparatuses for content retrieval, devices and storage media | |
| CN112804580A (en) | Video dotting method and device | |
| CN112382295A (en) | Voice recognition method, device, equipment and readable storage medium | |
| JP2016186768A (en) | Candidate keyword evaluation apparatus and candidate keyword evaluation program | |
| CN114090766A (en) | Video text screening method and device and electronic equipment | |
| CN109977294B (en) | Information/query processing device, query processing/text query method, and storage medium | |
| KR101868936B1 (en) | Keyword extracting and refining system, and method thereof | |
| CN109670080A (en) | A kind of determination method, apparatus, equipment and the storage medium of video display label | |
| KR20170048736A (en) | Evnet information extraciton method for extracing the event information for text relay data, and user apparatus for perfromign the method | |
| CN113901263B (en) | Label generation method and device for video material | |
| KR20230119398A (en) | Video editing automation system | |
| JP2009048334A (en) | Video identification processing device, image identification processing device, and computer program | |
| CN119377369A (en) | A multimodal RAG, device, equipment and storage medium based on a large model | |
| KR102422844B1 (en) | Method of managing language risk of video content based on artificial intelligence | |
| CN114780755B (en) | A method, device and electronic device for locating playback data based on knowledge graph |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091016 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111125 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111206 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120120 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120214 |