JP2016009430A - Video classifier learning device and program - Google Patents
Video classifier learning device and program Download PDFInfo
- Publication number
- JP2016009430A JP2016009430A JP2014131273A JP2014131273A JP2016009430A JP 2016009430 A JP2016009430 A JP 2016009430A JP 2014131273 A JP2014131273 A JP 2014131273A JP 2014131273 A JP2014131273 A JP 2014131273A JP 2016009430 A JP2016009430 A JP 2016009430A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice
- program
- video data
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、映像識別器学習装置、及びプログラムに関する。 The present invention relates to a video classifier learning device and a program.
映像にどのような物体が映っているのか、あるいは、映像がどのようなシーンであるかを認識する物体認識技術では、認識を行うための識別器を事前に学習する。物体認識を行う際、識別器は、映像から抽出された特徴を入力とし、その映像に検出対象の物体が映っているか否か、あるいは、その映像が検出対象のシーンであるか否かを判別し、判別結果を2値で出力する。識別器の学習には、映っている物体やシーンを表すラベルが付与された多量の学習用の映像データが用いられる。学習用の映像データにラベルを付与する方法には、人手で付与する方法や(例えば、非特許文献1参照)、放送のクローズドキャプションを利用する方法もある(例えば、非特許文献2参照)。 In the object recognition technology for recognizing what kind of object appears in the video or what kind of scene the video is, a classifier for recognition is learned in advance. When performing object recognition, the discriminator receives the feature extracted from the video and determines whether or not the object to be detected is reflected in the video or whether the video is a scene to be detected. Then, the discrimination result is output as a binary value. For learning of the discriminator, a large amount of video data for learning to which a label representing the object or scene being shown is attached is used. As a method of assigning a label to video data for learning, there are a method of assigning manually (for example, refer to Non-Patent Document 1) and a method of using closed captions for broadcasting (for example, refer to Non-Patent Document 2).
上述のように、映像に映っている物体や映像のシーンなどの検出対象を認識するための識別器の学習には、検出対象に対応したラベルが付与された学習用の映像データが必要である。 As described above, learning of the discriminator for recognizing a detection target such as an object reflected in a video or a scene of video requires video data for learning with a label corresponding to the detection target. .
ところで、放送番組における解説放送は、放送番組のナレーションやセリフとは別に、主に視覚障碍者のために番組の映像を解説音声で説明するサービスである。解説放送では、人物の動作を描写したり、場所・時刻を伝えたり、映像中の文字を読んだりする。一方、字幕放送は、聴力に障碍のある方や、テレビの音声が聞こえにくい高齢者の方のために、テレビの音声を文字で字幕化するサービスである。このサービスで放送される字幕が、「クローズドキャプション」である。 By the way, commentary broadcasting in a broadcast program is a service that explains the video of a program with commentary audio mainly for the visually impaired, apart from narration and dialogue of the broadcast program. In commentary broadcasting, the movement of a person is depicted, the location and time are conveyed, and the characters in the video are read. On the other hand, subtitle broadcasting is a service that converts TV audio into subtitles for people with hearing impairments and elderly people who are difficult to hear TV audio. The closed caption broadcasted by this service is “closed caption”.
図5は、あるドラマ番組のクローズドキャプションと解説音声の書き起こしを時系列で並べた例を示す図である。開始時刻及び終了時刻は、クローズドキャプションの字幕に書き起こしの内容が表示された開始時刻及び終了時刻、あるいは、解説音声において書き起こしの内容が発話された開始時刻及び終了時刻を示す。字幕/解説は、書き起こしの内容がクローズドキャプションの字幕から得られたか、解説音声から得られたかの種別を示す。<字幕>と<解説>の書き起こしの内容を比較すると、登場人物のセリフなど、耳で聞いて認識するような情報は、<字幕>には含まれるが、<解説>には含まれない。一方で、「職員室」、「笑顔」など、目で見て認識するような情報は、<解説>に含まれるが<字幕>には含まれない。 FIG. 5 is a diagram illustrating an example in which closed captions of a certain drama program and transcripts of commentary audio are arranged in time series. The start time and end time indicate the start time and end time when the content of the transcript is displayed on the closed caption caption, or the start time and end time when the content of the transcript is spoken in the commentary voice. The caption / explanation indicates the type of whether the content of the transcription is obtained from closed caption subtitles or commentary audio. When comparing the transcripts of <Subtitles> and <Description>, information that can be heard and recognized by the ear, such as the characters of the characters, is included in <Subtitles> but not in <Description>. . On the other hand, information that can be visually recognized such as “staff room” and “smile” is included in <Explanation> but not in <Subtitle>.
上記のように、クローズドキャプションには映像に映っている物体や映像のシーンを表す単語が含まれていないことも多い。そのため、人手によるラベル付与にかかる負担を軽減するために、放送のクローズドキャプションを利用して映像データにラベルを付与した場合、十分な学習用の映像データを用意することができず、高い精度の識別器を学習することができない可能性があった。 As described above, closed captions often do not include an object appearing in a video or a word representing a video scene. Therefore, in order to reduce the burden of manual labeling, if video data is labeled using closed captions for broadcasting, sufficient video data for learning cannot be prepared, and high accuracy is achieved. There was a possibility that the classifier could not be learned.
本発明は、このような事情を考慮してなされたもので、物体やシーンなどの検出対象に対応した映像であるか否かを識別するための識別器を精度よく学習することができる映像識別器学習装置、及びプログラムを提供する。 The present invention has been made in view of such circumstances, and is capable of accurately learning a discriminator for identifying whether or not the video corresponds to a detection target such as an object or a scene. A learning device and program are provided.
本発明の一態様は、番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出部と、前記解説音声抽出部が抽出した前記解説音声信号を音声認識する音声認識部と、前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理部と、を備えることを特徴とする映像識別器学習装置である。
この発明によれば、映像識別器学習装置は、番組音声の音声信号と、解説音声が付加された番組音声の音声信号とを比較して抽出した解説音声信号を音声認識する。映像識別器学習装置は、音声認識の結果からラベルとなる単語を抽出し、抽出した単語と、当該単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて識別器を学習する。
これにより、映像識別器学習装置は、人手をかけることなく、精度よく映像データにラベルを付与して識別器の学習に用いることができるため、従来よりも精度の高い識別器を学習することができる。
One aspect of the present invention compares the first audio signal, which is the audio signal of the program audio, with the second audio signal, which is the audio signal of the program audio, to which the explanation audio is added. A commentary speech extraction unit that extracts a commentary speech signal, a speech recognition unit that recognizes the commentary speech signal extracted by the commentary speech extraction unit, and a word that is a label is extracted from the result of speech recognition by the speech recognition unit Then, using the extracted word and the feature amount extracted from the program video data of the video section corresponding to the utterance time of the word, whether or not the video data is related to the extracted word is determined. An image discriminator learning device comprising: a discriminator learning processing unit that learns a discriminator for detection from a feature amount.
According to the present invention, the video discriminator learning apparatus recognizes the comment audio signal extracted by comparing the audio signal of the program audio and the audio signal of the program audio to which the comment audio is added. The video discriminator learning device extracts a word as a label from the result of speech recognition, and uses the extracted word and a feature amount extracted from program video data of a video section corresponding to the utterance time of the word. To learn.
As a result, the video discriminator learning device can label the video data with high accuracy and use it for learning of the discriminator without manpower, so that it can learn a discriminator with higher accuracy than before. it can.
本発明の一態様は、上述する映像識別器学習装置であって、前記識別器学習処理部は、前記番組映像データをシーン毎に分割した分割映像データを出力するシーン分割部と、前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語の発話時刻に対応した時刻の前記分割映像データに前記単語をラベルとして付与するラベル付与部と、前記ラベル付与部がラベルを付与した前記分割映像データを用いて前記識別器を学習する識別器学習部とを備える、ことを特徴とする。
この発明によれば、映像識別器学習装置は、番組映像データの各シーンにラベルを付与し、シーン毎にラベルが付与された番組映像データを用いて識別器を学習する。
これにより、映像識別器学習装置は、映像のシーン毎に解説音声に基づいてラベルを付与するため、解説音声の発話のタイミングと発話内容に対応する映像のタイミングとがずれている場合でも、精度よく映像データにラベルを付与することができる。
One aspect of the present invention is the video discriminator learning device described above, wherein the discriminator learning processing unit includes a scene division unit that outputs divided video data obtained by dividing the program video data for each scene, and the voice recognition A label providing unit that extracts a word to be a label from a result of speech recognition by the unit, and assigns the word as a label to the divided video data at a time corresponding to the utterance time of the extracted word; And a discriminator learning unit that learns the discriminator using the divided video data to which is assigned.
According to the present invention, the video discriminator learning device assigns a label to each scene of the program video data, and learns the discriminator using the program video data to which the label is assigned for each scene.
As a result, the video discriminator learning device assigns a label based on the commentary audio for each scene of the video, so even if the timing of the commentary speech is different from the timing of the video corresponding to the utterance content, it is accurate. A label can be often given to video data.
本発明の一態様は、上述する映像識別器学習装置であって、前記音声認識部が音声認識に用いる音響モデルを、前記解説音声抽出部が抽出した前記解説音声信号と前記音声認識部による前記音声認識の結果とを用いて適応化する処理と、前記音声認識部が音声認識に用いる言語モデルを、前記音声認識部による前記音声認識の結果、番組のクローズドキャプション、番組情報のうち1以上を用いて適応化する処理との少なくともいずれか一方を行う適応化部をさらに備える、ことを特徴とする。
この発明によれば、映像識別器学習装置は、解説者に適応化した音響モデルや、番組に適応化した言語モデルにより解説音声信号を音声認識し、音声認識した結果得られた単語をラベルとして映像データに付加する。
これにより、映像識別器学習装置は、精度よく解説音声を音声認識することができるため、映像データに適切なラベルを付与することができる。
One aspect of the present invention is the video classifier learning device described above, wherein the commentary speech signal extracted by the commentary speech extraction unit and the speech recognition unit extract an acoustic model used by the speech recognition unit for speech recognition. A process of adapting using a result of voice recognition, a language model used by the voice recognition unit for voice recognition, a result of the voice recognition by the voice recognition unit, a closed caption of the program, and one or more of program information. It further comprises an adapting unit that performs at least one of processing to be used and adapted.
According to the present invention, the video discriminator learning device recognizes a commentary speech signal using an acoustic model adapted to a commentator or a language model adapted to a program, and uses a word obtained as a result of the speech recognition as a label. Append to video data.
Thereby, since the video discriminator learning apparatus can recognize the commentary speech with high accuracy, it is possible to give an appropriate label to the video data.
本発明の一態様は、上述する映像識別器学習装置であって、前記識別器学習処理部により学習された前記識別器を用いて映像データを認識する認識部をさらに備える、ことを特徴とする。
この発明によれば、映像識別器学習装置は、学習した識別器を用いて映像データを認識する。
これにより、映像識別器学習装置は、映像に映っている物体や映像に含まれるシーンを精度よく識別することができる。
One aspect of the present invention is the video discriminator learning device described above, further comprising a recognition unit that recognizes video data using the discriminator learned by the discriminator learning processing unit. .
According to the present invention, the video classifier learning device recognizes video data using the learned classifier.
Thereby, the video discriminator learning device can accurately identify an object shown in the video and a scene included in the video.
本発明の一態様は、上述する映像識別器学習装置であって、前記第1音声信号及び前記第2音声信号は、放送番組の主音声信号及び副音声信号である、ことを特徴とする。
この発明によれば、映像識別器学習装置は、解説放送番組の主音声信号及び副音声信号から解説音声信号を抽出し、抽出した解説音声信号を音声認識した結果得られた単語をラベルとして放送番組の映像データに付加する。
これにより、映像識別器学習装置は、放送番組を利用して識別器を学習することができる。
One aspect of the present invention is the video discriminator learning device described above, wherein the first audio signal and the second audio signal are a main audio signal and a sub audio signal of a broadcast program.
According to the present invention, the video discriminator learning device extracts a comment audio signal from the main audio signal and sub audio signal of the comment broadcast program, and broadcasts the word obtained as a result of the voice recognition of the extracted comment audio signal as a label. It is added to the video data of the program.
Thereby, the video discriminator learning device can learn the discriminator using the broadcast program.
本発明の一態様は、コンピュータを、番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出手段と、前記解説音声抽出手段が抽出した前記解説音声信号を音声認識する音声認識手段と、前記音声認識手段による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理手段と、を具備する映像識別器学習装置として機能させるためのプログラムである。 According to one embodiment of the present invention, a computer compares a first audio signal that is an audio signal of a program audio with a second audio signal that is an audio signal of the program audio to which the explanation audio is added. The commentary voice extracting means for extracting the commentary voice signal, which is a voice signal, the voice recognition means for recognizing the commentary voice signal extracted by the commentary voice extraction means, and the result of the voice recognition by the voice recognition means becomes a label. Extracting a word, and using the extracted word and a feature amount extracted from program video data of a video section corresponding to the utterance time of the word, whether or not video data is related to the extracted word It is a program for functioning as a video discriminator learning device comprising discriminator learning processing means for learning a discriminator for detection from a feature amount of video data.
本発明によれば、物体やシーンなどの検出対象に対応した映像であるか否かを識別するための識別器を精度よく学習することができる。 ADVANTAGE OF THE INVENTION According to this invention, the discriminator for identifying whether it is an image | video corresponding to detection targets, such as an object and a scene, can be learned accurately.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態の映像識別器学習装置は、解説放送番組の主音声チャンネルと副音声チャンネルを比較して解説音声を抽出する。本実施形態の映像識別器学習装置は、抽出した解説音声を音声認識した結果得られた単語を、その単語の発話時刻に対応した映像区間の番組映像データにラベルとして付与する。本実施形態の映像識別器学習装置は、ラベルが付与された番組映像データを用いて、映像が物体やシーンなどの検出対象に対応するか否かを判定するための識別器を学習する。識別器は、検出対象が物体である場合は、検出対象の物体が映像中に表示されているか否かを判定し、検出対象がシーンであれば、映像に表示される一連の動作がその検出対象のシーンであるか否かを判定する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
The video discriminator learning apparatus according to the present embodiment extracts the commentary audio by comparing the main audio channel and the sub audio channel of the comment broadcast program. The video discriminator learning device of this embodiment gives a word obtained as a result of voice recognition of the extracted commentary voice as a label to program video data in a video section corresponding to the utterance time of the word. The video discriminator learning device according to the present embodiment learns a discriminator for determining whether video corresponds to a detection target such as an object or a scene, using program video data to which a label is attached. When the detection target is an object, the discriminator determines whether or not the detection target object is displayed in the video. If the detection target is a scene, a series of operations displayed in the video is detected. It is determined whether or not the target scene.
上記のように、本実施形態の映像識別器学習装置は、映像中の物体やシーンを説明する解説音声の認識結果に基づいて映像データにラベルを付与して学習用映像データを生成する。従って、本実施形態の映像識別器学習装置は、人的コスト及び時間的コストを低減しながら、クローズドキャプションを用いるよりも精度よく映像データにラベルを付与し、大量の学習用映像データを生成することができる。本実施形態の映像識別器学習装置は、このように精度よくラベルが付与された大量の学習用映像データを用いることによって、精度の高い識別器を学習することができる。 As described above, the video discriminator learning device according to the present embodiment generates learning video data by assigning a label to video data based on a recognition result of commentary audio that explains an object or a scene in the video. Therefore, the video discriminator learning device of the present embodiment generates a large amount of video data for learning by assigning labels to video data more accurately than using closed captioning while reducing human costs and time costs. be able to. The video discriminator learning device according to the present embodiment can learn a discriminator with high accuracy by using a large amount of video data for learning with labels attached with high accuracy in this way.
図1は、本実施形態の映像識別器学習装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。映像識別器学習装置1は、例えば、コンピュータ装置により実現され、解説音声認識結果抽出部2、識別器学習処理部3、及び認識処理部4を備えて構成される。
FIG. 1 is a functional block diagram showing the configuration of the video
解説音声認識結果抽出部2は、解説音声抽出部21、音響モデル記憶部22、言語モデル記憶部23、音声認識部24、及びモデル適応化部25を備えて構成される。
解説音声抽出部21は、解説放送番組の主音声信号と副音声信号とを比較し、解説音声信号を抽出する。主音声信号は、解説なしの番組音声の音声信号(第1音声信号)であり、副音声信号は、番組音声に対して解説音声を付加した解説付き音声の音声信号(第2音声信号)である。解説付き音声においては、番組音声と解説音声は重ならずに発話されることがほとんどである。解説音声信号は、解説音声の音声信号である。
The commentary speech recognition
The commentary
音響モデル記憶部22は、各音素の周波数特性を表す音響モデルを記憶する。言語モデル記憶部23は、単語のつながり易さを表す言語モデルを記憶する。音声認識部24は、解説音声抽出部21が抽出した解説音声信号を、音響モデル記憶部22に記憶されている音響モデル、及び、言語モデル記憶部23に記憶されている言語モデルを用いて音声認識する。音声認識部24は、解説音声信号の音声認識結果を設定した音声認識結果データを出力する。音声認識結果は、形態素単位の発話内容の書き起こしと、各形態素が発話された開始時刻及び終了時刻を含む。
The acoustic
モデル適応化部25は、音響モデル記憶部22に記憶されている音響モデルを解説音声の発話者に応じて適応化し、言語モデル記憶部23に記憶されている言語モデルを番組に応じて適応化する。音響モデル及び言語モデルの適応化には、解説音声信号と、その解説音声信号の音声認識結果が示す解説内容が用いられる。
The
識別器学習処理部3は、シーン分割部31、ラベル付与部32、及び識別器学習部33を備えて構成される。
シーン分割部31は、解説放送番組の映像データ(番組映像データ)を類似したシーン毎に分割し、シーン毎に分割された映像データである分割映像データを出力する。ラベル付与部32は、シーン分割部31から出力された分割映像データに、音声認識部24から出力された音声認識結果データが示す解説音声の音声認識結果に基づいてラベルを付与する。識別器学習部33は、ラベル付与部32がラベルを付与した分割映像データを学習用映像データとして用い、識別器34を学習する。識別器34は、映像データから得られる映像の特徴量に基づいて、映像データが検出対象の単語に関連するか否かを検出する。
The classifier
The
認識処理部4は、シーン分割部41、及び認識部42を備えて構成される。
シーン分割部41は、シーン分割部31と同様の処理により、認識対象のコンテンツの映像データをシーン毎に分割し、分割映像データを出力する。認識対象のコンテンツは、解説放送番組でもよく、解説放送番組以外の放送番組でもよく、放送番組以外の動画でもよい。本実施形態では、認識対象のコンテンツが放送番組である場合を例に説明する。認識部42は、シーン分割部41から出力された分割映像データに対して、識別器学習部33が学習した識別器34により認識を行い、認識結果を設定した認識結果データを出力する。
The
The
続いて、映像識別器学習装置1の動作を説明する。
図2は、映像識別器学習装置1の識別器学習処理の処理フローを示す図である。
まず、映像識別器学習装置1に解説放送番組の主音声信号、副音声信号、及び、映像データが入力される(ステップS110:YES)。これらは、例えば、放送信号から得られる。ステレオ二重放送の場合、主音声と副音声のそれぞれLチャンネルの音声信号及びRチャンネルの音声信号が入力される。解説音声認識結果抽出部2は入力された主音声信号及び副音声信号を受信し、識別器学習処理部3は、入力された映像データを受信する。
Next, the operation of the video
FIG. 2 is a diagram illustrating a processing flow of the discriminator learning process of the video
First, the main audio signal, sub audio signal, and video data of the commentary broadcast program are input to the video discriminator learning device 1 (step S110: YES). These are obtained from broadcast signals, for example. In the case of stereo duplex broadcasting, an L channel audio signal and an R channel audio signal of the main audio and sub audio are input. The commentary speech recognition
解説音声認識結果抽出部2の解説音声抽出部21は、解説放送の主音声信号と副音声信号を比較して、解説音声信号を抽出する(ステップS120)。解説音声信号を精度よく抽出するために、主音声信号と副音声信号の同期が合っていない場合には、両信号の同期を正確に合わせてから比較する必要がある。そこでまず、解説音声抽出部21は、主音声信号と副音声信号の同期を合わせる処理を行う。開始時刻t、音声区間長Tの主音声信号、副音声信号をそれぞれ、xt t+T=[x(t)…x(t+T−1)]、yt t+T=[y(t)…y(t+T−1)]とする。解説音声抽出部21は、以下の式(1)で表される相関係数rが最大となるように、同期ズレ時間aを算出する。なお、音声区間長Tは、予想される同期ズレ時間aよりも十分長い時間とする。
The commentary
ここで、S(x,y)は、変数xとyの共分散を表し、S(x)は変数xの標準偏差、S(y)は変数yの標準偏差を表す。 Here, S (x, y) represents the covariance of variables x and y, S (x) represents the standard deviation of variable x, and S (y) represents the standard deviation of variable y.
解説音声抽出部21は、音声区間長T毎に、算出された同期ズレ時間aを用いて主音声信号と副音声信号の同期を合わせる。解説音声抽出部21は、同期を合わせた主音声信号と副音声信号から、副音声信号に重畳されている解説音声の音声信号を抽出する。解説音声の音声信号の抽出方法には、例えば、以下の抽出方法A〜Cがある。
The commentary
(抽出方法A)
解説音声抽出部21は、主音声信号及び副音声信号のそれぞれに対して短時間の窓かけを行う。窓かけを行う部分は、窓の大きさに応じて時間方向に順にシフトさせる。解説音声抽出部21は、窓毎に主音声信号のパワーと副音声信号のパワーの差を計算する。解説音声抽出部21は、計算したパワーの差が、予め決められた閾値よりも小さい場合、その窓の音声区間は解説音声以外の音声区間と判断する。一方、解説音声抽出部21は、計算したパワーの差が、予め決められた閾値以上である場合、その窓の音声区間を解説音声区間として特定する。解説音声抽出部21は、特定した解説音声区間における副音声信号を解説音声信号として抽出する。解説音声信号には、開始時刻及び終了時刻が付与される。なお、抽出方法Aを用いる場合、主音声信号と副音声信号の同期を合わせる処理は必ずしも必要ではない。
(Extraction method A)
The commentary
(抽出方法B)
解説音声抽出部21は、副音声信号を解説音声に解説音声以外の雑音が付加された音声信号、主音声信号を解説音声以外の雑音の音声信号と考え、スペクトルサブトラクション法により、副音声信号から解説音声信号のみを抽出する。このとき、解説音声抽出部21は、副音声信号から雑音として除去する音声信号の特徴を、主音声信号から取得する。
(Extraction method B)
The explanation
(抽出方法C)
抽出方法Cでは、解説音声抽出部21は、副音声信号が示す音声から主音声信号が示す音声を減算し、その差分の音声の音声信号を解説音声信号として抽出する。ただし、解説音声が重畳されていない区間において、主音声と副音声の間で音声レベルに差がある場合には、単純に減算処理するだけでは、解説以外の音声を精度よく除去することができず、解説音声に対する雑音として残留してしまう。このような雑音を精度よく除去するため、解説音声抽出部21は、音声区間長T毎に主音声信号と副音声信号の相関係数を計算し、相関係数が一定の閾値以上の区間については、解説音声信号の値を全て0としてもよい。
(Extraction method C)
In the extraction method C, the commentary
図3は、抽出方法Cによる解説音声抽出部21の解説音声信号抽出処理の処理フローを示す図である。
まず、解説音声抽出部21は、tに初期値0を設定する(ステップS210)。解説音声抽出部21は、主音声信号xt t+Tと副音声信号yt+a t+a+Tの相関係数rt(xt t+T,yt+a t+a+T)が閾値rthre以上であるか否かを判断する(ステップS220)。相関係数は、上述した式(1)により算出される。
FIG. 3 is a diagram showing a processing flow of the commentary voice signal extraction process of the commentary
First, the commentary
解説音声抽出部21は、相関係数が閾値以上であると判断した場合(ステップS220:YES)、開始時刻t、音声区間長Tの解説音声信号zt t+Tの値を全て0とする(ステップS230)。
一方、解説音声抽出部21は、相関係数が閾値未満であると判断した場合(ステップS220:NO)、解説音声信号zt t+Tを、副音声信号yt+a t+a+Tから主音声信号xt t+Tを減算した値とする(ステップS240)。
When the commentary
On the other hand, when the commentary
ステップS230またはステップS240の処理の後、解説音声抽出部21は、全音声信号についてステップS220〜ステップS240の処理を終了したか否かを判断する(ステップS250)。解説音声抽出部21は、まだ終了していないと判断した場合(ステップS250:NO)、tの値にTを加算して更新した後(ステップS260)、ステップS220からの処理を繰り返す。そして、解説音声抽出部21は、全音声信号についてステップS220〜ステップS240の処理を終了したと判断した場合(ステップS250:YES)、処理を終了する。
After the process of step S230 or step S240, the commentary
解説音声抽出部21は、上記のいずれかの抽出方法により抽出した解説音声信号を音声認識部24に出力する。
The commentary
図2において、音声認識部24は、解説音声抽出部21が抽出した解説音声信号を、音響モデル記憶部22に記憶されている音響モデル、及び、言語モデル記憶部23に記憶されている言語モデルを用いて従来技術と同様に音声認識する(ステップS130)。
In FIG. 2, the
図4は、音声認識結果の例を示す図である。同図に示すように、解説音声信号の音声認識結果は、解説音声の発話内容に含まれる単語と、それら各単語の開始時刻及び終了時刻を含む。解説音声の発話内容に含まれる単語は、形態素に相当する。例えば、開始時刻「03:46.52」から終了時刻「03:47.01」までは「笑顔」と発話され、開始時刻「03:47.02」から終了時刻「03:47.04」までは「で」と発話されたことを示す。
音声認識部24は、音声認識結果を設定した音声認識結果データを出力する。
FIG. 4 is a diagram illustrating an example of a speech recognition result. As shown in the figure, the speech recognition result of the commentary speech signal includes the words included in the utterance content of the commentary speech and the start time and end time of each word. A word included in the utterance content of the explanation voice corresponds to a morpheme. For example, “smile” is spoken from the start time “03: 46.52” to the end time “03: 47.01”, and from the start time “03: 47.02” to the end time “03: 47.04”. Indicates that “de” was spoken.
The
モデル適応化部25は、解説音声信号と、音声認識結果データが示すその解説音声信号の音声認識結果を用いて、音響モデル及び言語モデルを従来技術により適応化(教師なし適応化)する(ステップS140)。例えば、音響モデルの適応化の手法には、MLLRやMAP推定がある。また、言語モデルの適応化の手法には、線形補間法がある。
The
なお、MLLRは、例えば、「C. J. Leggetter and P. C. Woodland、“Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”、Computer Speech and Language、1995年、Volume9、p.171−185」(文献1)に記載されている。
また、MAP推定は、例えば、「J. Gauvain and Chin-Hui Lee、“Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”、Speech and Audio Processing、IEEE Transactionson、1994年、Volume2、Issue2、p.291−298」(文献2)に記載されている。
また、線形補間法は、例えば、「北 研二、“確率的言語モデル”、東京大学出版会、1999年、p.63−66」(文献3)に記載されている。
The MLLR is, for example, “CJ Leggetter and PC Woodland,“ Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models ”, Computer Speech and Language, 1995, Volume 9, p. 171-185 (Reference 1). It is described in.
MAP estimation is described in, for example, “J. Gauvain and Chin-Hui Lee,“ Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains ”, Speech and Audio Processing, IEEE Transactionson, 1994,
The linear interpolation method is described in, for example, “Kita Kenji,“ Probabilistic Language Model ”, University of Tokyo Press, 1999, p. 63-66” (Reference 3).
同じ解説放送番組であれば、同一人物の解説音声が使用されることが多い。また、各ドラマでは放送番組によって使用されやすい単語も異なる。そこで、モデル適応化部25は、解説放送番組に応じて音響モデル及び言語モデルを適応化し、適応化した音響モデル及び言語モデルをその解説放送番組の番組IDと対応づけてそれぞれ音響モデル記憶部22、言語モデル記憶部23に登録する。モデル適応化部25は、解説音声の音声認識結果に加えて、あるいは、解説音声の音声認識結果に代えて、解説放送番組のクローズドキャプションや、電子番組ガイドから取得したその解説放送番組の番組情報を言語モデルの適応化に利用することもできる。クローズドキャプションや電子番組ガイドは、例えば、放送信号から得ることができる。これらの情報を適応化に利用することで、解説音声で発話されるドラマの登場人物や場所の名前などの固有名詞を効率的に学習することができる。音声認識部24は、適応化後の繰り返し処理で再びステップS130において音声認識を行う際、主音声信号及び副音声信号が得られた解説放送番組の番組IDに対応付けられた音響モデル及び言語モデルを用いる。主音声信号及び副音声信号が得られた解説放送番組と同じジャンルの解説放送番組など、類似あるいは関連した解説放送番組の番組IDに対応付けられた音響モデル及び言語モデルを用いてもよい。なお、モデル適応化部25は、音響モデルの適応化と言語モデルの適応化の一方のみを行ってもよい。
In the case of the same commentary broadcast program, the commentary sound of the same person is often used. In each drama, words that are easy to use vary depending on the broadcast program. Therefore, the
識別器学習処理部3のシーン分割部31は、既存の技術を用いて解説放送番組の映像データを類似したシーン毎に分割する(ステップS140)。このシーン分割には、画像特徴量を用いて同じ場面のショット(カットともいう)をまとめてシーンと判断する既存技術を用いることができる。
The
具体的には、シーン分割部31が備える図示しない記憶部(映像識別器学習装置1に接続される外部の記憶装置でもよい。)に、予め、複数の映像から生成した画像片ワードを記憶しておく。画像片ワードを生成するためには、複数の映像からサンプリングしたフレーム画像を所定の画像サイズに区切ってブロック画像とし、各ブロック画像の特徴量を表す特徴ベクトルに基づいてブロック画像集合をクラスタリングする。画像片ワードは、各クラスタの中心ベクトルを要素するベクトルとして得られる。シーン分割部31は、入力された解説放送番組の映像データを、既存の任意のショット検出技術を用いてショット毎に分割し、ショット系列を生成する。シーン分割部31は、解説放送番組の映像データの各ショットから所定間隔毎のフレーム画像をサンプリングすると、サンプリングしたフレーム画像を所定の画像サイズに区切ったブロック画像から画像の特徴量を表す特徴ベクトルを取得する。シーン分割部31は、ショット毎に特徴ベクトルと画像片ワードとの類似性に基づいて、画像片ワードのヒストグラムを算出する。このヒストグラムにより、各ショットにどの種類のブロック画像がどのくらい存在するかの出現比率が得られる。シーン分割部31は、各ショットのヒストグラムの変化量に基づいて、ショットを統合してシーンに分割する。シーン分割部31は、映像データをシーン毎に分割して分割映像データを生成し、ラベル付与部32に出力する。
Specifically, image segment words generated from a plurality of videos are stored in advance in a storage unit (not shown) included in the scene division unit 31 (or an external storage device connected to the video classifier learning device 1). Keep it. In order to generate an image fragment word, a frame image sampled from a plurality of videos is divided into a predetermined image size to form a block image, and a block image set is clustered based on a feature vector representing a feature amount of each block image. The image fragment word is obtained as a vector that is an element of the center vector of each cluster. The
ラベル付与部32は、シーン分割部31から出力された各シーンの分割映像データに、音声認識部24が出力した音声認識結果データにより示される解説音声の音声認識結果に基づいてラベルを付与する(ステップS150)。例えば、ラベル付与部32は、まだラベルを付加していない分割映像データを一つ選択し、音声認識結果データが示す認識結果の単語の中から、選択した分割映像データの開始時刻及び終了時刻の範囲内に開始時刻または終了時刻が含まれる単語を特定する。ラベル付与部32は、特定した単語から助詞や助動詞などの所定の品詞の単語を除外してラベルとなる単語を取得する。ラベル付与部32は、取得した単語を示すラベルデータを選択中の分割映像データに付加する。ラベル付与部32は、まだラベルを付加していない分割映像データを選択し、同様の処理を繰り返す。これにより、例えば、ラベル付与部32は、開始時刻「03:45.00」、終了時刻「03:55.00」のシーンの分割映像データに、図4に示す解説音声の認識結果の単語のうち、「笑顔」、「廊下」、「行く」、「セリ」、「職員室」、「前」を示すラベルデータを付与する。
The
映像識別器学習装置1は、解説放送番組の入力がまだある場合(ステップS110:YES)、ステップS120〜ステップS160の処理を繰り返す。解説放送番組の入力がない場合(ステップS110:NO)、識別器学習部33は、各検出対象に対応する識別器34を、その検出対象の単語がラベルとして付与された分割映像データを用いて学習する(ステップS170)。そこで、識別器学習部33は、各分割映像データに付加されたラベルデータを参照して、識別器34を学習する対象のラベルを抽出する。あるいは、識別器学習部33は、ユーザから識別器34を学習する対象のラベルの入力を受けてもよい。識別器学習部33は、識別器34を学習する対象のラベルが付与された分割映像データを選択する。例えば、識別器学習部33は、識別器34を学習する対象のラベル「笑顔」を含んだラベルデータが付与された分割映像データを全て選択する。識別器学習部33は、選択した分割映像データから取得した映像の特徴量を用いて、「笑顔」に対応する映像の識別器34を機械学習により学習する。機械学習には、例えば、サポートベクターマシンやランダムフォレストなどを用いることができるが、他の教師あり学習の手法を用いてもよい。また、映像の特徴量には、任意の1以上の種類の特徴量を用いることができる。例えば、SIFT(Scale-Invariant Feature Transform)特徴量、PCA(Principal Component Analysis)−SIFT特徴量、Haar−like特徴量、HOG(Histograms of Oriented Gradients)特徴量、LBP(Local Binary Pattern)特徴量などを用いることができるが、他の特徴量を用いてもよい。
If there is still an explanation broadcast program input (step S110: YES), the video
なお、上述した識別器学習処理において、映像識別器学習装置1は、ステップS120〜ステップS140の処理と、ステップS150の処理とを並行して行ってもよく、ステップS150の処理の後にステップS120〜ステップS140の処理を行ってもよい。また、映像識別器学習装置1は、ステップS140の処理をステップS150またはステップS160の処理の後に、あるいは、ステップS150またはステップS160の処理と並行して実行してもよく、ステップS140の処理を行わなくともよい。
In the classifier learning process described above, the video
映像識別器学習装置1の認識処理部4は、上記の識別器学習処理により学習された識別器34を用いて放送番組の映像を認識し、映像に含まれるシーン毎の認識結果を出力する。
The
映像にどのようなシーンが含まれているか、また、どのような物体が表示されているかの認識を行う場合、映像識別器学習装置1は、以下のように動作する。
まず、認識対象の放送番組の映像データが映像識別器学習装置1の認識処理部4に入力される。シーン分割部41は、シーン分割部31と同様の処理により、認識対象の放送番組の映像データをシーン毎に分割し、分割映像データを出力する。
認識部42は、全ての識別器34それぞれを用いて、各分割映像データの認識を行う。例えば、「笑顔」に対応した識別器34を用いて分割映像データを認識することによって、分割映像データが「笑顔」に対応しているか否かの判定結果が得られる。「笑顔」に対応しているか否かとは、分割映像データに認識対象である「笑顔」のシーンが含まれるか否かを意味する。また、「廊下」に対応した識別器34を用いて分割映像データを認識することによって、分割映像データが「廊下」に対応しているか否かの判定結果が得られる。「廊下」に対応しているか否かとは、映像中に認識対象である「廊下」が表示されているか否かを意味する。認識部42は、各分割映像データの認識結果を設定した認識結果データを出力する。例えば、認識結果データには、各分割映像データ(シーン)の開始時刻及び終了時刻と、各分割映像データが対応していると判断された認識対象とが含まれる。
When recognizing what scene is included in a video and what object is displayed, the video
First, video data of a broadcast program to be recognized is input to the
The
また、キーワードに対応した放送番組の映像を検索する場合、映像識別器学習装置1は、以下のように動作する。
認識処理部4は、各放送番組の映像データに対して上記のように全ての識別器34を用いた認識処理を行い、放送番組の識別情報と認識結果とを対応付けて内部に備える図示しない記憶部(映像識別器学習装置1に接続される外部の記憶装置でもよい。)に記憶しておく。認識処理部4にキーワードが入力された場合、認識部42は、記憶部に記憶されている各放送番組の認識結果を、入力されたキーワードにより検索する。なお、キーワードに加えて検索対象の放送番組の情報が入力された場合、認識部42は、検索対象の放送番組の認識結果を、入力されたキーワードにより検索する。認識部42は、キーワードに対応するとして特定された分割映像データの開始時刻及び終了時刻と、特定された分割映像データが認識結果に含まれる放送番組の識別情報を取得する。認識部42は、映像識別器学習装置1の内部または外部に備えるデータベース等から放送番組の識別情報に対応した番組情報を読み出し、読み出した番組情報と分割映像データの情報を認識結果データとして出力する。番組情報は、例えば、放送番組の番組IDや放送番組のタイトル、放送番組の説明など任意とすることができる。また、分割映像データの情報は、分割映像データの開始時刻及び終了時刻でもよく、その開始時刻及び終了時刻の放送番組の映像データやその映像データから抽出した静止画でもよい。
When searching for a broadcast program video corresponding to the keyword, the video
The
また、映像がキーワードに対応しているか否かを検索する場合、映像識別器学習装置1は、以下のように動作する。
まず、認識対象の放送番組の映像データとキーワードが映像識別器学習装置1の認識処理部4に入力される。シーン分割部41は、シーン分割部31と同様の処理により、認識対象の放送番組の映像データをシーン毎に分割し、分割映像データを出力する。
認識部42は、キーワードに対応した識別器34を用いて各分割映像データの認識を行う。認識部42は、キーワードに対応した識別器34を用いた認識により、キーワードに対応していると判断された分割映像データがある場合、その分割映像データの開始時刻及び終了時刻を出力する。また、認識部42は、キーワードに対応していると判断された分割映像データがない場合、キーワードに対応しない旨を出力する。
When searching for whether or not a video corresponds to a keyword, the video
First, video data and keywords of a broadcast program to be recognized are input to the
The
なお、上記実施形態において、シーン分割部31及びシーン分割部41は、映像データをシーン毎に分割しているが、ショット毎、あるいは、所定の時間毎に映像データを分割し、分割映像データとして出力してもよい。
また、映像識別器学習装置1を、シーン分割部31を備えずに構成することもできる。この場合、ラベル付与部32は、音声認識結果データが示す認識結果の単語の中から、助詞や助動詞などの所定の品詞の単語を除外してラベルとなる単語を取得する。ラベル付与部32は、取得した単語を1つずつ選択し、選択した単語を示すラベルデータを、選択した単語の開始時刻または終了時刻から所定だけ前後の時間の映像データに付与する。例えば、選択した単語wの開始時刻がtである場合、映像データの時刻t−aから時刻t+bに単語wを表すラベルデータが付与される(a,bは0以上)。解説された内容は、解説の後に映像に表われることが多いため、a<bとしてもよい。
In the above embodiment, the
Further, the video
なお、上述した実施形態では、認識対象のコンテンツが動画である場合を説明したが、静止画であってもよい。認識対象のコンテンツが静止画である場合、静止画の画像データは、シーン分割部41に入力されず、認識部42に直接入力される。また、識別器学習部33は、静止画の画像データから抽出可能な画像特徴量を用いて識別器を学習する。
In the above-described embodiment, the case where the content to be recognized is a moving image has been described, but it may be a still image. When the content to be recognized is a still image, the image data of the still image is input directly to the
上述した実施形態によれば、映像識別器学習装置1は、解説放送番組に人手をかけることなく識別器学習用のラベルを付与することができる。また、映像識別器学習装置1は、クローズドキャプションを利用した従来の手法に比較して精度よくラベルを付与することが可能である。従って、映像識別器学習装置1は、従来よりも精度のよい識別器を学習することができる。
According to the above-described embodiment, the video
なお、上述の映像識別器学習装置1は、内部にコンピュータシステムを有している。そして、映像識別器学習装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
Note that the video
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1 映像識別器学習装置
2 解説音声認識結果抽出部
3 識別器学習処理部
4 認識処理部
21 解説音声抽出部
22 音響モデル記憶部
23 言語モデル記憶部
24 音声認識部
25 モデル適応化部
31 シーン分割部
32 ラベル付与部
33 識別器学習部
34 識別器
41 シーン分割部
42 認識部
DESCRIPTION OF
Claims (6)
前記解説音声抽出部が抽出した前記解説音声信号を音声認識する音声認識部と、
前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理部と、
を備えることを特徴とする映像識別器学習装置。 The first audio signal, which is the audio signal of the program audio, is compared with the second audio signal, which is the audio signal of the program audio, to which the explanation audio is added, and the explanation audio signal which is the audio signal of the explanation audio is extracted. Commentary voice extractor,
A voice recognition unit that recognizes the commentary voice signal extracted by the commentary voice extraction unit;
A word as a label is extracted from a result of speech recognition by the speech recognition unit, and extracted using the extracted word and a feature amount extracted from program video data of a video section corresponding to the utterance time of the word. A discriminator learning processing unit for learning a discriminator for detecting whether or not video data is related to the word from the feature amount of the video data;
A video discriminator learning device comprising:
前記番組映像データをシーン毎に分割した分割映像データを出力するシーン分割部と、
前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語の発話時刻に対応した時刻の前記分割映像データに前記単語をラベルとして付与するラベル付与部と、
前記ラベル付与部がラベルを付与した前記分割映像データを用いて前記識別器を学習する識別器学習部とを備える、
ことを特徴とする請求項1に記載の映像識別器学習装置。 The classifier learning processing unit
A scene division unit for outputting divided video data obtained by dividing the program video data for each scene;
A label providing unit that extracts a word as a label from a result of speech recognition by the speech recognition unit, and that gives the word as a label to the divided video data at a time corresponding to the utterance time of the extracted word;
A discriminator learning unit that learns the discriminator using the divided video data to which the label imparting unit has a label;
The video discriminator learning device according to claim 1.
ことを特徴とする請求項1または請求項2に記載の映像識別器学習装置。 A process of adapting an acoustic model used by the speech recognition unit for speech recognition using the commentary speech signal extracted by the commentary speech extraction unit and a result of the speech recognition by the speech recognition unit; and the speech recognition unit An adaptation unit that performs at least one of adaptation of a language model used for speech recognition by using one or more of program closed caption and program information as a result of the speech recognition by the speech recognition unit. In addition,
The video discriminator learning device according to claim 1 or 2.
ことを特徴とする請求項1から請求項3のいずれか1項に記載の映像識別器学習装置。 A recognition unit that recognizes video data using the classifier learned by the classifier learning processing unit;
The video discriminator learning device according to any one of claims 1 to 3, wherein
ことを特徴とする請求項1から請求項4のいずれか1項に記載の映像識別器学習装置。 The first audio signal and the second audio signal are a main audio signal and a sub audio signal of a broadcast program,
The video discriminator learning device according to any one of claims 1 to 4, characterized in that:
番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出手段と、
前記解説音声抽出手段が抽出した前記解説音声信号を音声認識する音声認識手段と、
前記音声認識手段による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理手段と、
を具備する映像識別器学習装置として機能させるためのプログラム。 Computer
The first audio signal, which is the audio signal of the program audio, is compared with the second audio signal, which is the audio signal of the program audio, to which the explanation audio is added, and the explanation audio signal which is the audio signal of the explanation audio is extracted. Commentary voice extraction means,
Voice recognition means for recognizing the commentary voice signal extracted by the commentary voice extraction means;
A word to be a label is extracted from a result of speech recognition by the speech recognition means, and extracted using the extracted word and a feature amount extracted from program video data of a video section corresponding to the utterance time of the word. Discriminator learning processing means for learning a discriminator for detecting whether or not video data is related to the word from the feature amount of the video data;
A program for causing a video discriminator learning device to function.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014131273A JP6344849B2 (en) | 2014-06-26 | 2014-06-26 | Video classifier learning device and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014131273A JP6344849B2 (en) | 2014-06-26 | 2014-06-26 | Video classifier learning device and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016009430A true JP2016009430A (en) | 2016-01-18 |
| JP6344849B2 JP6344849B2 (en) | 2018-06-20 |
Family
ID=55226922
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014131273A Active JP6344849B2 (en) | 2014-06-26 | 2014-06-26 | Video classifier learning device and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6344849B2 (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021012466A (en) * | 2019-07-04 | 2021-02-04 | Jcc株式会社 | Metadata generation system, video content management system, and program |
| JP2021516407A (en) * | 2018-03-22 | 2021-07-01 | オッポ広東移動通信有限公司Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Methods and systems for searching video time segments |
| JP2022549821A (en) * | 2019-09-19 | 2022-11-29 | ヴェルンステル | A method and system for editing digital audiovisual or audiorecorded content of an oral presentation |
| JP2024546432A (en) * | 2021-11-12 | 2024-12-24 | ソニーグループ株式会社 | Emotion Recognition in Multimedia Videos Using Multimodal Fusion-Based Deep Neural Networks |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006303959A (en) * | 2005-04-21 | 2006-11-02 | Fujitsu Ltd | Subtitle generation program and subtitle generation apparatus |
| JP2010055030A (en) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | Acoustic processor and program |
| JP2012038240A (en) * | 2010-08-11 | 2012-02-23 | Sony Corp | Information processing equipment, information processing method and program |
-
2014
- 2014-06-26 JP JP2014131273A patent/JP6344849B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006303959A (en) * | 2005-04-21 | 2006-11-02 | Fujitsu Ltd | Subtitle generation program and subtitle generation apparatus |
| JP2010055030A (en) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | Acoustic processor and program |
| JP2012038240A (en) * | 2010-08-11 | 2012-02-23 | Sony Corp | Information processing equipment, information processing method and program |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021516407A (en) * | 2018-03-22 | 2021-07-01 | オッポ広東移動通信有限公司Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Methods and systems for searching video time segments |
| JP7091468B2 (en) | 2018-03-22 | 2022-06-27 | オッポ広東移動通信有限公司 | Methods and systems for searching video time segments |
| US11663268B2 (en) | 2018-03-22 | 2023-05-30 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and system for retrieving video temporal segments |
| JP2021012466A (en) * | 2019-07-04 | 2021-02-04 | Jcc株式会社 | Metadata generation system, video content management system, and program |
| JP2022549821A (en) * | 2019-09-19 | 2022-11-29 | ヴェルンステル | A method and system for editing digital audiovisual or audiorecorded content of an oral presentation |
| JP7700104B2 (en) | 2019-09-19 | 2025-06-30 | ヴェルンステル | Method and system for editing digital audiovisual or audio recorded content of an oral presentation - Patents.com |
| JP2024546432A (en) * | 2021-11-12 | 2024-12-24 | ソニーグループ株式会社 | Emotion Recognition in Multimedia Videos Using Multimodal Fusion-Based Deep Neural Networks |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6344849B2 (en) | 2018-06-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111968649B (en) | Subtitle correction method, subtitle display method, device, equipment and medium | |
| US11197036B2 (en) | Multimedia stream analysis and retrieval | |
| US8775174B2 (en) | Method for indexing multimedia information | |
| JP6323947B2 (en) | Acoustic event recognition apparatus and program | |
| JP4024679B2 (en) | Program classification method and apparatus using cues observed in transcript information | |
| CN104598644B (en) | Favorite tag mining method and device | |
| CN110853615B (en) | Data processing method, device and storage medium | |
| US9449617B2 (en) | Method and apparatus for exemplary segment classification | |
| JP2004229283A (en) | Method for identifying transition of news presenter in news video | |
| CN112733654B (en) | Method and device for splitting video | |
| JP2004516727A (en) | Program classification method and apparatus based on syntax of transcript information | |
| CN109145149B (en) | Information alignment method, device, equipment and readable storage medium | |
| KR20180057409A (en) | A method and an appratus for classfiying videos based on audio signals | |
| EP3839953A1 (en) | Automatic caption synchronization and positioning | |
| JP6344849B2 (en) | Video classifier learning device and program | |
| US20240064383A1 (en) | Method and Apparatus for Generating Video Corpus, and Related Device | |
| CN114143479A (en) | Video abstract generation method, device, equipment and storage medium | |
| Boggust et al. | Grounding spoken words in unlabeled video. | |
| CN110992984B (en) | Audio processing method and device and storage medium | |
| CN104900226A (en) | Information processing method and device | |
| Mocanu et al. | Automatic subtitle synchronization and positioning system dedicated to deaf and hearing impaired people | |
| Desplanques et al. | Adaptive speaker diarization of broadcast news based on factor analysis | |
| CN117711384A (en) | Training method of voice recognition model, voice recognition method and related device | |
| Saha et al. | Merkel podcast corpus: A multimodal dataset compiled from 16 years of angela merkel’s weekly video podcasts | |
| US20160163354A1 (en) | Programme Control |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170501 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180302 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180424 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180521 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6344849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |