JP2018007134A - Scene extraction device and its program - Google Patents
Scene extraction device and its program Download PDFInfo
- Publication number
- JP2018007134A JP2018007134A JP2016134108A JP2016134108A JP2018007134A JP 2018007134 A JP2018007134 A JP 2018007134A JP 2016134108 A JP2016134108 A JP 2016134108A JP 2016134108 A JP2016134108 A JP 2016134108A JP 2018007134 A JP2018007134 A JP 2018007134A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- value
- realistic
- time interval
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
【課題】コンテンツから臨場感の高いシーンを抽出するシーン抽出装置を提供する。【解決手段】シーン抽出装置1は、時間区間ごとに、コンテンツの映像、音響特徴量を分析し、コンテンツを構成する信号の特徴量に対する臨場感の度合いを予め学習した臨場感学習データから臨場感推定値を算出する臨場感推定手段10と、予め設定された閾値に基づいて、時間区間ごとに臨場感が高いか否かを判定する判定手段50と、臨場感が高いと判定された時間区間に対応するシーンをコンテンツから抽出する抽出手段60と、を備える。【選択図】図1Kind Code: A1 A scene extracting device for extracting a highly realistic scene from content is provided. Kind Code: A1 A scene extracting apparatus 1 analyzes video and audio feature amounts of content for each time interval, and extracts a sense of presence from presence learning data in which the degree of presence for the feature amounts of signals constituting the content is learned in advance. Presence estimation means 10 for calculating an estimated value; Determination means 50 for determining whether the sense of presence is high for each time interval based on a preset threshold; and extracting means 60 for extracting from the content a scene corresponding to . [Selection drawing] Fig. 1
Description
本発明は、映像音声コンテンツから、視聴者の主観的印象に基づいてシーンを抽出するシーン抽出装置およびそのプログラムに関する。 The present invention relates to a scene extraction apparatus that extracts a scene from video / audio content based on a subjective impression of a viewer, and a program thereof.
従来、映像音声コンテンツから、要約映像、ダイジェスト映像等、ある被写体を抽出する手法が存在する。
この従来の手法として、映像の動きの特徴量である動きベクトル等を用いて映像音声コンテンツから特定のシーンを抽出する手法、顔認識技術を用いて特定の人物が映っているシーンを抽出する手法等、映像特徴量に基づいてシーンを抽出する手法がある(例えば、特許文献1,2参照)。
また、従来の手法として、音声の音響特徴から発話を検出して、発話シーンを抽出する手法がある(例えば、特許文献3参照)。
このように、映像音声コンテンツから、要約映像、ダイジェスト映像等、部分的にシーンを抽出する手法は、映像あるいは音声の特徴量から、具体的な被写体を客観的に抽出する手法が一般的である。
Conventionally, there is a method for extracting a certain subject such as a summary video, a digest video, and the like from video / audio contents.
As a conventional method, a method of extracting a specific scene from video / audio content using a motion vector that is a feature amount of video motion, a method of extracting a scene showing a specific person using a face recognition technology For example, there is a technique for extracting a scene based on a video feature amount (see, for example,
Further, as a conventional method, there is a method of detecting an utterance from an acoustic feature of speech and extracting an utterance scene (see, for example, Patent Document 3).
As described above, a method for partially extracting a scene such as a summary video or a digest video from video / audio content is generally a method for objectively extracting a specific subject from a feature amount of video or audio. .
従来の手法は、映像音声コンテンツから客観的な特徴のみで具体的な被写体を抽出するため、抽象的な印象である臨場感の高いシーンを抽出することができないという問題がある。
ここで臨場感とは、あたかもその場にいるような感覚をいう。例えば、「井ノ上,超臨場感コミュニケーションにおける人の感じる臨場感評価,社団法人電子情報通信学会,信学技報,CQ2008−47,pp.7−12,2008」では、臨場感は、質感等の空間要素、同時感等の時間要素、情感等の身体要素で構成され、視覚、聴覚等の外的要因や過去の経験等の内的要因の影響を受けて人が感じるものとされている。
すなわち、臨場感の高いシーンは、映像音声コンテンツの客観的な特徴では抽出することはできず、人の主観的な印象に基づいて抽出する必要がある。
Since the conventional method extracts a specific subject only from objective features from video and audio content, there is a problem that a scene with high realistic sensation that is an abstract impression cannot be extracted.
Here, the sense of presence means a sense of being in the place. For example, in "Inoue, Evaluation of the sense of reality that people feel in ultra-realistic communication, The Institute of Electronics, Information and Communication Engineers, IEICE Technical Report, CQ 2008-47, pp. 7-12, 2008", It is composed of spatial elements, time elements such as simultaneous feelings, and body elements such as emotions, and is felt by humans under the influence of external factors such as vision and hearing, and internal factors such as past experiences.
In other words, a scene with a high sense of realism cannot be extracted with objective features of video and audio content, but needs to be extracted based on a person's subjective impression.
本発明は、このような問題に鑑みてなされたものであり、映像音声コンテンツから、主観的な印象を基準として、臨場感の高いシーンを抽出することが可能なシーン抽出装置およびそのプログラムを提供することを課題とする。 The present invention has been made in view of such a problem, and provides a scene extraction apparatus and a program thereof capable of extracting a scene with high presence on the basis of a subjective impression from video and audio content. The task is to do.
前記課題を解決するため、本発明に係るシーン抽出装置は、コンテンツの所定の特徴量の学習によって定義された臨場感により、コンテンツから臨場感の高いシーンを抽出するシーン抽出装置であって、臨場感学習データ記憶手段と、設定情報記憶手段と、臨場感推定手段と、臨場感推定値記憶手段と、判定手段と、判定結果記憶手段と、抽出手段と、を備える構成とした。 In order to solve the above-described problem, a scene extraction device according to the present invention is a scene extraction device that extracts a highly realistic scene from content based on a sense of presence defined by learning a predetermined feature amount of the content. The sensation learning data storage unit, the setting information storage unit, the presence sensation estimation unit, the presence sensation estimated value storage unit, the determination unit, the determination result storage unit, and the extraction unit are provided.
かかる構成において、シーン抽出装置は、臨場感学習データ記憶手段に、コンテンツを構成する映像信号、音響信号等の信号の特徴量に対する臨場感の度合いを予め学習した臨場感学習データを記憶しておく。この臨場感学習データは、例えば、ニューラルネットワーク、機械学習等により学習したデータである。また、シーン抽出装置は、設定情報記憶手段に、少なくとも臨場感を分析するための前記信号の時間間隔および時間幅と、臨場感が高いか否かの判定基準となる閾値とを設定情報として予め記憶しておく。 In such a configuration, the scene extraction apparatus stores, in the presence learning data storage unit, the presence learning data in which the degree of presence with respect to the feature amount of a signal such as a video signal or an audio signal that constitutes the content is previously learned. . This presence learning data is data learned by, for example, neural network, machine learning, or the like. In addition, the scene extraction device stores in advance in the setting information storage means, as setting information, a time interval and a time width of the signal for analyzing the presence, and a threshold value as a criterion for determining whether or not the presence is high. Remember.
そして、シーン抽出装置は、臨場感推定手段によって、コンテンツの特徴量を分析し、臨場感学習データから、臨場感の度合いを臨場感推定値として算出する。このとき、臨場感推定手段は、重複区間を含んで所定の時間間隔だけずれた所定の時間幅の時間区間ごとに、コンテンツの臨場感推定値を算出し、時間区間に対応付けて臨場感推定値を臨場感推定値記憶手段に記憶する。このように、重複区間を持たせることで、臨場感推定手段は、所定の時間間隔で臨場感を推定する際に、臨場感推定値を算出するために十分な時間を確保することができる。
これによって、シーン抽出装置は、人が主観的な印象として感じるコンテンツの時間の経過に伴って変化する臨場感の状態を、時間区間単位で、時系列の臨場感推定値として求めることができる。
Then, the scene extraction device analyzes the feature amount of the content by the presence estimator, and calculates the degree of presence as a presence estimation value from the presence learning data. At this time, the realistic sensation estimation means calculates the realistic sensation estimated value of the content for each time interval having a predetermined time width that includes the overlapping interval and is shifted by a predetermined time interval, and associates the realistic sensation with the time interval. The value is stored in the realistic sensation estimated value storage means. As described above, by providing the overlapping section, the presence sensation estimation means can secure a sufficient time for calculating the presence sensation estimation value when estimating the presence sensation at a predetermined time interval.
As a result, the scene extraction apparatus can obtain a realistic feeling state that changes with the passage of time of the content that a person feels as a subjective impression as a time-series realistic feeling estimated value for each time interval.
そして、シーン抽出装置は、判定手段によって、予め設定された閾値に基づいて、臨場感推定値が対応付けられた時間区間のシーンの臨場感が高いか否かを判定し、判定結果を、判定結果記憶手段に記憶する。なお、閾値は、臨場感を判定する基準となる臨場感推定値そのもの(絶対閾値)であってもよいし、臨場感推定値の大きいものからどの程度の割合でシーンを抽出するのかを示す相対閾値であっても構わない。
これによって、シーン抽出装置は、時系列の時間区間において、臨場感が高いか否かを判定することができる。
Then, the scene extraction device determines whether or not the presence of the scene in the time interval associated with the estimated presence value is high based on a preset threshold by the determination unit, and determines the determination result. Store in the result storage means. Note that the threshold value may be the realistic sensation estimation value itself (absolute threshold) that serves as a criterion for determining the sensation of realism, or a relative value that indicates how much the scene is extracted from the one with the large realistic sensation estimation value. It may be a threshold value.
Thereby, the scene extraction apparatus can determine whether or not the presence is high in the time series of time sections.
そして、シーン抽出装置は、抽出手段によって、判定結果記憶手段に記憶されている臨場感が高いと判定された時間区間に対応するシーンをコンテンツから抽出する。すなわち、抽出手段は、臨場感が高いと判定された連続した時間区間のうちで、最初の時間区間の先頭時間から、最後の時間区間の終了時間までの時間に相当するシーンをコンテンツから抽出する。
これによって、シーン抽出装置は、視聴者の主観的な印象によって、コンテンツから臨場感の高いシーンを抽出することができる。
Then, the scene extraction apparatus extracts, from the content, a scene corresponding to the time interval determined by the extraction unit as having a high sense of presence stored in the determination result storage unit. That is, the extraction unit extracts, from the content, a scene corresponding to the time from the beginning time of the first time interval to the end time of the last time interval, among the continuous time intervals determined to have high presence. .
As a result, the scene extraction device can extract a scene with high presence from the content based on the subjective impression of the viewer.
なお、シーン抽出装置は、コンピュータを、前記した各手段として機能させるためのシーン抽出プログラムで動作させることができる。 Note that the scene extraction apparatus can operate a computer with a scene extraction program for causing a computer to function as each of the above-described means.
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、従来のように、コンテンツの客観的な特徴ではなく、コンテンツに対する人が感じる主観的な印象に基づいて、コンテンツから臨場感の高いシーンを抽出することができる。
また、本発明によれば、コンテンツを構成する信号から、予め学習した臨場感学習データを用いて臨場感推定値を推定するため、高精度、かつ、自動的にコンテンツから臨場感の高いシーンを抽出することができる。
The present invention has the following excellent effects.
According to the present invention, it is possible to extract a highly realistic scene from content based on a subjective impression felt by a person with respect to the content instead of an objective feature of the content as in the past.
In addition, according to the present invention, since the realistic sensation estimated value is estimated from the signals constituting the content using the pre-learned realistic sensation learning data, a scene with high sensation of realism is automatically obtained from the content. Can be extracted.
以下、本発明の実施形態について図面を参照して説明する。
≪第1実施形態≫
〔シーン抽出装置の構成〕
まず、図1を参照して、本発明の第1実施形態に係るシーン抽出装置1の構成について説明する。
Embodiments of the present invention will be described below with reference to the drawings.
<< First Embodiment >>
[Configuration of scene extraction device]
First, the configuration of the
シーン抽出装置1は、映像音声コンテンツ(以下、コンテンツ)Cから、臨場感の高いシーンを抽出するものである。このシーン抽出装置1は、抽出したシーンを表示装置2に出力する。
なお、コンテンツCは、映像信号および音響信号以外にも、時系列の感覚信号を含んでいてもよい。この感覚信号は、例えば、ホームシアター、映画館等の椅子に与える振動を再現するための振動の大きさを振幅で表した振動信号とすることができる。あるいは、感覚信号は、椅子の傾きを表す時系列の角度信号であってもよい。
また、ここでは、シーン抽出装置1は、PC(パーソナルコンピュータ)等の設定装置3を外部に接続し、予め各種の設定情報を設定されるものとする。
図1に示すように、シーン抽出装置1は、臨場感推定手段10と、臨場感学習データ記憶手段20と、臨場感推定値/判定結果記憶手段30と、設定情報記憶手段40と、判定手段50と、抽出手段60と、を備える。
The
Note that the content C may include a time-series sensory signal in addition to the video signal and the audio signal. This sensory signal can be, for example, a vibration signal that represents, in amplitude, the magnitude of vibration for reproducing vibration given to a chair of a home theater, a movie theater, or the like. Alternatively, the sensory signal may be a time-series angle signal representing the tilt of the chair.
Here, it is assumed that the
As shown in FIG. 1, the
臨場感推定手段10は、設定情報記憶手段40から時間間隔、時間幅を読み込み、コンテンツCから時間単位で臨場感の度合いを示す臨場感推定値を算出するものである。すなわち、臨場感推定手段10は、重複区間を含んで所定の時間間隔だけずれた所定の時間幅の時間区間ごとに、コンテンツCの特徴量を分析し、臨場感学習データ記憶手段20に記憶されている臨場感学習データから、臨場感の度合いを臨場感推定値として算出する。
ここでは、臨場感推定手段10は、聴覚臨場感推定手段11と、視覚臨場感推定手段12と、感覚臨場感推定手段13と、臨場感特定手段14と、を備える。
The realistic sensation estimation means 10 reads the time interval and the time width from the setting information storage means 40, and calculates the realistic sensation estimation value indicating the degree of realism from the content C in units of time. In other words, the realistic sensation estimation means 10 analyzes the feature amount of the content C for each time interval having a predetermined time width that is shifted by a predetermined time interval including the overlapping interval, and is stored in the realistic sensation learning data storage means 20. From the sense of presence learning data, the degree of presence is calculated as an estimated presence value.
Here, the realistic sensation estimation means 10 includes an auditory realistic sensation estimation means 11, a visual presence sensation estimation means 12, a sensory presence sensation estimation means 13, and a presence sensation identification means 14.
聴覚臨場感推定手段11は、コンテンツCの音響信号から、臨場感推定値を算出するものである。この聴覚臨場感推定手段11は、図2に示すような構成とすることができる。
図2に示すように、聴覚臨場感推定手段11は、音響信号分析手段110と、聴覚臨場感算出手段111と、を備える。
The auditory realistic
As shown in FIG. 2, the auditory
音響信号分析手段110は、所定の時間間隔ごとに、所定の時間幅で、コンテンツCの音響信号を分析して音響特徴量を抽出するものである。ここでいう時間間隔は、音響特徴量を抽出する時系列の時間区間において、時間区間の先頭の時間と、次の時間区間の先頭の時間との間隔をいう。また、ここでいう時間幅は、音響特徴量を抽出する時間区間の長さをいう。
この音響信号分析手段110は、例えば、図5に示すように、所定の時間間隔として0.5秒間隔、所定の時間幅として3秒幅の音響信号を逐次分析する。
The acoustic
For example, as shown in FIG. 5, the acoustic
また、音響信号分析手段110は、音響特徴量として、例えば、ラウドネス、シャープネス、ラフネス、ダイナミックレンジ(95%時間率音圧レベルに対する5%時間率音圧レベルの相対レベル)、音像の動き(動きの有無〔1,0〕、または、仰角・水平角の変化で表現)等を求める。また、音響信号が左右2チャンネルであれば、音響信号分析手段110は、両耳間相互相関度、両耳間レベル差、両耳間位相差を音響特徴量としてもよい。
Further, the acoustic
なお、これら音響分析の手法は、一般的なものであるため説明を省略する。また、音響信号分析手段110が求める音響特徴量は、音響分析可能なものであれば、例示したものに限定されないことは言うまでもない。
ただし、音響信号分析手段110が求める音響特徴量は、後記する臨場感学習データ記憶手段20に記憶されている臨場感学習データを学習する際に用いた音響特徴量と同じ特徴量とする。この音響信号分析手段110は、所定の時間間隔および所定の時間幅で求めた音響特徴量を、順次、聴覚臨場感算出手段111に出力する。
Note that these acoustic analysis methods are general and will not be described. Further, it goes without saying that the acoustic feature amount obtained by the acoustic signal analyzing means 110 is not limited to the exemplified one as long as acoustic analysis is possible.
However, the acoustic feature amount obtained by the acoustic
聴覚臨場感算出手段111は、臨場感学習データ記憶手段20に記憶されている臨場感学習データに基づいて、音響信号分析手段110で分析された音響特徴量から聴覚臨場感推定値(個別臨場感推定値)を算出するものである。
ここでは、聴覚臨場感算出手段111は、臨場感学習データとして予め学習してある、複数の音響特徴量から聴覚臨場感推定値を算出するニューラルネットワークの関数により、入力した所定の時間幅の複数の音響特徴量から聴覚臨場感推定値を算出する。なお、聴覚臨場感推定値は、正規化(例えば、0〜1の範囲)された値とする。
この聴覚臨場感算出手段111は、算出した聴覚臨場感推定値を臨場感特定手段14に出力する。
図1に戻って、シーン抽出装置1の構成について説明を続ける。
The auditory realistic sensation calculating means 111 is based on the realistic sensation learning data stored in the realistic sensation learning data storage means 20 and is based on the acoustic feature amount analyzed by the acoustic signal analyzing means 110 (individual realistic sensation). Estimated value) is calculated.
Here, the auditory realistic sensation calculating means 111 uses a neural network function that calculates an auditory realistic sensation estimated value from a plurality of acoustic feature quantities previously learned as realistic sensation learning data. An auditory realistic sensation estimate is calculated from the acoustic feature value. Note that the auditory presence sense value is a normalized value (for example, a range of 0 to 1).
The auditory realistic
Returning to FIG. 1, the description of the configuration of the
視覚臨場感推定手段12は、コンテンツCの映像信号から、視覚臨場感推定値を算出するものである。この視覚臨場感推定手段12は、図3に示すような構成とすることができる。
図3に示すように、視覚臨場感推定手段12は、映像信号分析手段120と、視覚臨場感算出手段121と、を備える。
The visual presence estimation means 12 calculates a visual presence estimation value from the video signal of the content C. The visual presence estimation means 12 can be configured as shown in FIG.
As shown in FIG. 3, the visual
映像信号分析手段120は、所定の時間間隔ごとに、所定の時間幅で、コンテンツCの映像信号を分析して映像特徴量を抽出するものである。
この映像信号の分析を行う時間間隔は、音響信号分析手段110が音響信号を分析する時間と同じとする。
この映像信号分析手段120は、映像特徴量として、例えば、所定の時間幅のフレーム区間における輝度特徴(輝度の平均値、標準偏差、歪度)、彩度特徴(彩度の平均値、標準偏差、歪度)、色相特徴(赤、黄、青等の所定の色相値ごとの平均画素数)、移動物体特徴(移動物体が占める画素数の平均値、移動物体が占める画素数の95パーセンタイル値と5パーセンタイル値との差)等を求める。
The video
The time interval for analyzing the video signal is the same as the time for the acoustic
The video
なお、これら映像分析の手法は、一般的なものであるため説明を省略する。また、映像信号分析手段120が求める映像特徴量は、映像分析可能なものであれば、例示したものに限定されないことは言うまでもない。
ただし、映像信号分析手段120が求める映像特徴量は、後記する臨場感学習データ記憶手段20に記憶されている臨場感学習データを学習する際に用いた映像特徴量と同じ特徴量とする。
この映像信号分析手段120は、所定の時間間隔および所定の時間幅で求めた映像特徴量を、順次、視覚臨場感算出手段121に出力する。
Note that these video analysis techniques are general and will not be described. Needless to say, the video feature amount required by the video
However, the video feature amount required by the video
The video
視覚臨場感算出手段121は、臨場感学習データ記憶手段20に記憶されている臨場感学習データに基づいて、映像信号分析手段120で分析された映像特徴量から視覚臨場感推定値(個別臨場感推定値)を算出するものである。
ここでは、視覚臨場感算出手段121は、臨場感学習データとして予め学習してある、複数の映像特徴量から視覚臨場感推定値を算出するニューラルネットワークの関数により、入力した所定の時間幅の複数の映像特徴量から視覚臨場感推定値を算出する。なお、視覚臨場感推定値は、正規化(例えば、0〜1の範囲)された値とする。
この視覚臨場感算出手段121は、算出した視覚臨場感推定値を臨場感特定手段14に出力する。
図1に戻って、シーン抽出装置1の構成について説明を続ける。
Based on the presence learning data stored in the presence learning
Here, the visual presence calculation means 121 uses a function of a neural network that calculates a visual presence estimation value from a plurality of video feature quantities previously learned as the presence learning data, and inputs a plurality of predetermined time widths. The visual presence estimation value is calculated from the video feature amount. Note that the visual presence estimation value is a normalized value (for example, a range of 0 to 1).
The visual presence calculation means 121 outputs the calculated visual presence estimation value to the presence determination means 14.
Returning to FIG. 1, the description of the configuration of the
感覚臨場感推定手段13は、コンテンツCの感覚信号から、感覚臨場感推定値を算出するものである。この感覚臨場感推定手段13は、図4に示すような構成とすることができる。
図4に示すように、感覚臨場感推定手段13は、感覚信号分析手段130と、感覚臨場感算出手段131と、を備える。
The sensory realistic sensation estimation means 13 calculates a sensory realistic sensation estimated value from the sensory signal of the content C. This sensory presence estimation means 13 can be configured as shown in FIG.
As shown in FIG. 4, the sensory
感覚信号分析手段130は、所定の時間間隔ごとに、所定の時間幅で、コンテンツCの感覚信号を分析して感覚特徴量を抽出するものである。
この感覚信号の分析を行う時間間隔は、音響信号分析手段110が音響信号を分析する時間と同じとする。
この感覚信号分析手段130は、感覚信号として振動信号を用いる場合、例えば、所定の時間幅の振幅特徴(振幅の平均値、標準偏差、最大振幅と最小振幅との差)、周期情報(周期の平均値、標準偏差、最大周期と最小周期との差)等を求める。
また、感覚信号分析手段130は、感覚信号として角度信号を用いる場合、例えば、所定の時間幅の角度変位特徴として、水平からの角度の平均値、標準偏差、最大角度変位等を求める。
The sensory
The time interval for analyzing the sensory signal is the same as the time for the acoustic
When the sensory
In addition, when the angle signal is used as the sensory signal, the sensory
なお、これら分析手法は、一般的なものであるため説明を省略する。また、感覚信号分析手段130が求める感覚特徴量は、感覚として分析可能なものであれば、例示したものに限定されないことは言うまでもない。
ただし、感覚信号分析手段130が求める感覚特徴量は、後記する臨場感学習データ記憶手段20に記憶されている臨場感学習データを学習する際に用いた感覚特徴量と同じ特徴量とする。
この感覚信号分析手段130は、所定の時間間隔および所定の時間幅で求めた感覚特徴量を、順次、感覚臨場感算出手段131に出力する。
In addition, since these analysis methods are general, description is abbreviate | omitted. Needless to say, the sensory feature amount required by the sensory
However, the sensory feature value calculated by the sensory
The sensory
感覚臨場感算出手段131は、臨場感学習データ記憶手段20に記憶されている臨場感学習データに基づいて、感覚信号分析手段130で分析された感覚特徴量から感覚臨場感推定値(個別臨場感推定値)を算出するものである。
ここでは、感覚臨場感算出手段131は、臨場感学習データとして予め学習してある、複数の感覚特徴量から感覚臨場感推定値を算出するニューラルネットワークの関数により、入力した所定の時間幅の複数の感覚特徴量から感覚臨場感推定値を算出する。なお、感覚臨場感推定値は、正規化(例えば、0〜1の範囲)された値とする。
この感覚臨場感算出手段131は、算出した感覚臨場感推定値を臨場感特定手段14に出力する。
The sensory realistic sensation calculating means 131 is based on the realistic sensation learning data stored in the realistic sensation learning data storage means 20 and is based on the sensory feature amount analyzed by the sensory signal analyzing means 130 (individual presence sensation). Estimated value) is calculated.
Here, the sensory realistic sensation calculating means 131 uses a neural network function that calculates a sensory realistic sensation estimated value from a plurality of sensory feature quantities previously learned as realistic sensation learning data. An estimated sensory presence value is calculated from the sensory feature amount. Note that the sense realistic sensation estimated value is a normalized value (for example, a range of 0 to 1).
The sensory realistic sensation calculating means 131 outputs the calculated sensory realistic sensation estimated value to the realistic
臨場感特定手段14は、聴覚臨場感推定手段11、視覚臨場感推定手段12および感覚臨場感推定手段13でそれぞれ推定された時間区間の個別臨場感推定値から、当該時間区間の代表となる臨場感推定値(代表値)を特定するものである。
ここでは、臨場感特定手段14は、個別臨場感推定値(聴覚臨場感推定値、視覚臨場感推定値、感覚臨場感推定値)のうちの最大値を当該時間区間における臨場感推定値とする。ただし、この臨場感特定手段14は、必ずしも最大値で臨場感推定値を特定する必要はなく、例えば、平均値、重み付け加算等の統計量によって、臨場感推定値を特定することとしてもよい。
The realistic sensation specifying means 14 is a representative representative of the time interval from the individual realistic sensation estimated values of the time intervals estimated by the auditory realistic sensation estimation means 11, the visual presence sensation estimation means 12, and the sensory presence sensation feeling estimation means 13, respectively. This is to identify the estimated feeling value (representative value).
Here, the realistic sensation specifying means 14 sets the maximum value among the individual realistic sensation estimated values (auditory realistic sensation estimated value, visual realistic sensation estimated value, sensory realistic sensation estimated value) as the realistic sensation estimated value in the time interval. . However, the presence
なお、重み付け加算で臨場感推定値を特定する場合、臨場感特定手段14は、予め設定情報記憶手段40に記憶させたそれぞれの個別臨場感推定値(聴覚臨場感推定値、視覚臨場感推定値、感覚臨場感推定値)の重み係数を読み込む。あるいは、コンテンツCに予めコンテンツの内容を分類した情報をタグとして付加しておき、臨場感特定手段14は、重み係数として、タグで示される分類ごとに予め定めた値を用いることとしてもよい。例えば、コンテンツCの分類が「音楽番組」であれば、聴覚臨場感推定値の重みを大きくし、コンテンツCの分類が「紀行番組」であれば、視覚臨場感推定値の重みを大きくする等である。
この臨場感特定手段14は、特定した臨場感推定値を、コンテンツCの先頭からの経過時間に対応付けて、順次、臨場感推定値/判定結果記憶手段30に書き込み記憶する。
When the realistic sensation estimated value is specified by weighted addition, the realistic
The presence
臨場感学習データ記憶手段20は、コンテンツCを構成する信号(音響信号、映像信号および感覚信号)の特徴量に対する臨場感の度合いを予め学習した学習データ(臨場感学習データ)を記憶するものである。この臨場感学習データ記憶手段20は、ハードディスク等の一般的な記録媒体で構成することができる。
この臨場感学習データは、複数のコンテンツにおいて複数の被験者が主観評価した結果を予め学習したものであって、複数の特徴量から臨場感を推定するモデルとして、ニューラルネットワーク等で定義される。
The sense of presence learning data storage means 20 stores learning data (presence learning data) obtained by learning in advance the degree of sense of presence with respect to the feature quantities of signals (acoustic signals, video signals, and sensory signals) constituting the content C. is there. The presence learning data storage means 20 can be configured by a general recording medium such as a hard disk.
The sense of presence learning data is obtained by learning in advance the results of subjective evaluation by a plurality of subjects in a plurality of contents, and is defined by a neural network or the like as a model for estimating the sense of presence from a plurality of feature amounts.
例えば、臨場感学習データの学習は、評価用コンテンツに含まれる音響信号、映像信号および感覚信号をそれぞれ被験者に提示し、それぞれの信号ごとに、臨場感を「全く感じない」から「非常に感じる」までを複数のレベル(例えば、7段階)で時間の経過とともに評価してもらう。そして、音響信号、映像信号および感覚信号のそれぞれの所定の時間幅(例えば、0.5秒)ごとの特徴量と、その時間幅の区間における全被験者が感じた臨場感のレベルの平均値とから、ニューラルネットワークを学習する。ここでは、ニューラルネットの出力は、正規化(例えば、0〜1の範囲)された値とする。 For example, in the learning of realistic sense learning data, an audio signal, a video signal, and a sensory signal included in the evaluation content are presented to the subject, and for each signal, the realistic feeling is “not felt at all” to “very felt” Are evaluated over time at multiple levels (eg, 7 levels). And the feature value for each predetermined time width (for example, 0.5 seconds) of each of the audio signal, the video signal, and the sensory signal, and the average value of the level of presence felt by all subjects in the interval of the time width To learn a neural network. Here, the output of the neural network is a normalized value (for example, a range of 0 to 1).
なお、臨場感学習データの学習における音響信号の特徴量は、音響信号分析手段110(図2参照)で分析する音響特徴量と同じものである。また、臨場感学習データの学習における映像信号の特徴量は、映像信号分析手段120(図3参照)で分析する映像特徴量と同じものである。また、臨場感学習データの学習における感覚信号の特徴量は、感覚信号分析手段130(図4参照)で分析する感覚特徴量と同じものである。
このように、臨場感学習データをニューラルネットワークで学習することで、複数の特徴量から臨場感を推定するモデルを構築することができる。もちろん、この臨場感学習データは、ニューラルネットワークに限定されず、一般的な機械学習によって、複数の特徴量から臨場感を推定するモデルを構築することができる。
Note that the feature amount of the acoustic signal in the learning of the realistic sense learning data is the same as the acoustic feature amount analyzed by the acoustic signal analysis unit 110 (see FIG. 2). Further, the feature amount of the video signal in the learning of the realistic sense learning data is the same as the video feature amount analyzed by the video signal analysis unit 120 (see FIG. 3). In addition, the sensory signal feature amount in the learning of the realistic sense learning data is the same as the sensory feature amount analyzed by the sensory signal analysis unit 130 (see FIG. 4).
As described above, by learning the realistic sense learning data with the neural network, it is possible to construct a model for estimating the realistic sense from a plurality of feature amounts. Of course, the realistic sense learning data is not limited to the neural network, and a model for estimating the realistic sense from a plurality of feature amounts can be constructed by general machine learning.
臨場感推定値/判定結果記憶手段(臨場感推定値記憶手段、判定結果記憶手段)30は、臨場感推定手段10で推定されたコンテンツCの時間区間ごとの臨場感推定値を、コンテンツCの先頭からの経過時間に対応付けて記憶するものである。
さらに、臨場感推定値/判定結果記憶手段30は、各時間区間の臨場感推定値が視聴者に対して臨場感を与えるか否かについて、判定手段50によって判定した結果(例えば、フラグ)を記録する領域を有する。
The realistic sensation estimated value / determination result storage means (the realistic sensation estimated value storage means, the determination result storage means) 30 calculates the realistic sensation estimated value for each time interval of the content C estimated by the realistic sensation estimation means 10. This is stored in association with the elapsed time from the beginning.
Further, the realistic sensation estimated value / determination result storage means 30 indicates the result (for example, flag) determined by the determination means 50 as to whether or not the realistic sensation estimated value in each time interval gives the viewer a sense of realism. It has an area to record.
例えば、臨場感推定値/判定結果記憶手段30は、図6に示すように、時間(先頭からの経過時間)、臨場感推定値、判定結果(総合判定結果、閾値判定結果、順位)を記録する領域を有する。時間および臨場感推定値は、臨場感推定手段10によって書き込まれ、判定結果は、判定手段50によって書き込まれる。この判定結果における総合判定結果、閾値判定結果、順位については、判定手段50の説明において詳細に説明する。
For example, as shown in FIG. 6, the realistic sensation estimated value / determination result storage means 30 records time (elapsed time from the beginning), realistic sensation estimated value, and determination result (overall determination result, threshold determination result, rank). It has the area to do. The time and the realistic sensation estimation value are written by the realistic sensation estimation means 10, and the determination result is written by the determination means 50. The overall determination result, the threshold determination result, and the rank in the determination result will be described in detail in the description of the
この臨場感推定値/判定結果記憶手段30は、半導体メモリ等の一般的な記録媒体で構成することができる。なお、臨場感推定値/判定結果記憶手段30は、時間区間ごとに臨場感推定値を記憶する臨場感推定値記憶手段、時間区間ごとに判定結果を記憶する判定結果記憶手段のように個別の手段として構成してもよい。 The realistic sensation estimated value / determination result storage means 30 can be composed of a general recording medium such as a semiconductor memory. Note that the realistic sensation estimated value / determination result storage means 30 is an individual sensation estimated value storage means for storing the realistic sensation estimated value for each time interval, and a determination result storage means for storing the determination result for each time interval. You may comprise as a means.
設定情報記憶手段40は、設定装置3で設定された各種情報を記憶するものであって、半導体メモリ等の一般的な記録媒体で構成することができる。ここでは、設定情報記憶手段40は、設定装置3によって、閾値、抽出条件、糊代時間が書き込まれる。 The setting information storage means 40 stores various information set by the setting device 3 and can be configured by a general recording medium such as a semiconductor memory. Here, the setting information storage means 40 is written by the setting device 3 with the threshold value, the extraction condition, and the paste margin time.
閾値は、臨場感が高いか否かの判定基準となる値である。ここでは、設定装置3が、表示装置2に表示した設定画面を介して閾値を入力し、シーン抽出装置1に設定する。
この閾値は、固定の値である絶対閾値としてもよいし、コンテンツC内の時間長によって変動する値である相対閾値としてもよい。
例えば、閾値を絶対閾値とする場合、設定装置3は、臨場感推定値の範囲内(例えば、0〜1の範囲)で、閾値の設定を行う。すなわち、設定装置3は、表示装置2の画面上に表示した設定画面を介して視聴者によって設定される値(例えば、0.8)を閾値として設定する。
The threshold value is a value serving as a criterion for determining whether or not the presence is high. Here, the setting device 3 inputs a threshold value via the setting screen displayed on the
This threshold value may be an absolute threshold value that is a fixed value, or may be a relative threshold value that varies depending on the time length in the content C.
For example, when the threshold value is an absolute threshold value, the setting device 3 sets the threshold value within the range of realistic sensation estimation values (for example, a range of 0 to 1). That is, the setting device 3 sets a value (for example, 0.8) set by the viewer via the setting screen displayed on the screen of the
また、例えば、閾値を相対閾値とする場合、設定装置3は、コンテンツC全体のうちで臨場感推定値の高い方からシーンを抽出する時間長あるいは割合を設定する。すなわち、設定装置3は、表示装置2の画面上に表示した設定画面を介して視聴者によって設定される時間長(例えば、5分)または割合(例えば、80%)を、閾値を算出するための情報として設定する。この時間長あるいは割合は、後記する判定手段50において、相対閾値を算出する際に使用される。
For example, when the threshold value is a relative threshold value, the setting device 3 sets a time length or a ratio for extracting a scene from the higher content C estimated value in the entire content C. That is, the setting device 3 calculates the threshold value for the time length (for example, 5 minutes) or the ratio (for example, 80%) set by the viewer via the setting screen displayed on the screen of the
抽出条件は、シーンを抽出するための条件である。この抽出条件は、例えば、最短シーン抽出時間、最大シーン抽出数、表示順序等である。
最短シーン抽出時間は、臨場感の高いシーンとして少なくともその臨場感が継続する最短時間である。すなわち、最短シーン抽出時間は、たとえ、臨場感が高いとして判定されたシーンであっても、その時間が短時間である場合には、抽出を行わないようにする制限時間である。
最大シーン抽出数は、抽出するシーンの最大数である。すなわち、最大シーン抽出数は、コンテンツCに臨場感の高いシーンが多く含まれている場合、シーンを抽出する数の上限を示す。
表示順序は、臨場感の高いシーンとして表示装置2に抽出して表示するシーンの表示の順番を示す。例えば、表示順序は、コンテンツCの再生時間に合わせた順番とする、臨場感推定値の高い順番とする等である。
The extraction condition is a condition for extracting a scene. The extraction conditions are, for example, the shortest scene extraction time, the maximum number of scene extractions, the display order, and the like.
The shortest scene extraction time is at least the shortest time that the realistic sensation continues as a highly realistic scene. In other words, the shortest scene extraction time is a time limit that prevents extraction even if a scene is determined to have a high sense of realism if the time is short.
The maximum number of scene extractions is the maximum number of scenes to be extracted. That is, the maximum number of scene extractions indicates the upper limit of the number of scenes to be extracted when the content C includes many scenes with a high presence.
The display order indicates the display order of scenes that are extracted and displayed on the
ここでは、設定装置3が、表示装置2に表示した設定画面を介して、最短シーン抽出時間、最大シーン抽出数、表示順序等を識別する識別情報とともに、各情報の具体的な値(抽出時間、抽出数等)を入力し、シーン抽出装置1に設定する。また、表示順序は、再生時間順、臨場感推定値の高い順等に予め固有の値を定めておく。
Here, the setting device 3 uses the setting screen displayed on the
糊代時間は、臨場感の高いシーンとして抽出するシーンの前後に余分に付加する糊代の時間である。この糊代時間は、臨場感の高いシーンだけを厳密に抽出するのではなく、前後の余韻を含めて抽出を行うための時間である。なお、糊代時間は、シーン前後で同じ時間を設定しても、異なる時間を設定してもよい。ここでは、設定装置3が、表示装置2に表示した設定画面を介して、糊代時間を入力し、シーン抽出装置1に設定する。
The paste margin time is a paste margin time that is added extra before and after the scene extracted as a highly realistic scene. This glue allowance time is a time for extracting not only a scene with high presence, but also including the lingering sound before and after. The pasting time may be set to the same time before and after the scene, or may be set to different times. Here, the setting device 3 inputs the paste allowance time via the setting screen displayed on the
判定手段50は、設定情報記憶手段40に記憶されている設定情報に基づいて、臨場感推定手段10で臨場感推定値が対応付けられた時間区間のシーンの抽出を行うか否かを判定するものである。
ここでは、判定手段50は、図6に示すように、判定結果として、閾値判定結果と、順位と、総合判定結果とを臨場感推定値/判定結果記憶手段30に書き込む。
Based on the setting information stored in the setting
Here, as shown in FIG. 6, the
「閾値判定結果」は、当該時間区間が、設定された閾値以上の臨場感推定値であるか否かの判定結果を示す。具体的には、判定手段50は、設定情報記憶手段40に記憶されている閾値と、臨場感推定値/判定結果記憶手段30に記憶されている臨場感推定値とを比較し、臨場感推定値が閾値以上であれば、当該時間区間は臨場感が高いと判定し、フラグをセットする。一方、判定手段50は、臨場感推定値が閾値未満であれば、当該時間区間は臨場感が高くないと判定し、フラグをリセットする。例えば、図6の例では、閾値として“0.7”が設定され、臨場感推定値が閾値以上の時間区間(t1,t2,t10)に対してフラグ(“1”)を設定した状態を示している。
The “threshold determination result” indicates a determination result as to whether or not the time interval is an estimated presence value equal to or greater than a set threshold. Specifically, the
なお、閾値として、相対閾値を用いる場合、判定手段50は、コンテンツC全体のうちで臨場感推定値の高い方から設定情報記憶手段40に設定されている時間長あるいは割合に達する臨場感推定値を閾値とする。すなわち、判定手段50は、臨場感推定値/判定結果記憶手段30に記憶されている臨場感推定値の上位から、設定される時間長(例えば、5分)または割合(例えば、80%)に達する臨場感推定値を閾値とする。
When a relative threshold value is used as the threshold value, the
「順位」は、「閾値判定結果」で臨場感が高いと判定された(フラグがセットされた)連続した時間区間ごとに、その区間に設定されている最も高い臨場感推定値に基づいて上位から順に順位を付けた番号である。具体的には、判定手段50は、臨場感推定値/判定結果記憶手段30に記憶されている閾値判定結果でフラグが連続する区間が、設定情報記憶手段40に記憶されている最短シーン抽出時間以上である連続時間区間であるかを探索するとともに、それぞれの連続時間区間に設定されている最も高い臨場感推定値に基づいて、連続時間区間を臨場感の高い順番に順位付けする。
なお、最短シーン抽出時間が設定されていない場合、判定手段50は、閾値判定結果でフラグが連続するすべての時間区間を順位付けの対象とする。もちろん、予め定めたデフォルト値を最短シーン抽出時間として設けておくこととしてもよい。
“Rank” ranks higher on the basis of the highest realistic sensation estimation value set for each consecutive time interval (flag is set) determined to be high in the “threshold determination result”. The numbers are assigned in order. Specifically, the
When the shortest scene extraction time is not set, the
例えば、図6の例では、閾値以上の臨場感推定値が最短シーン抽出時間以上連続する時間区間(t1,t2)、時間区間(t10)に、臨場感推定値の上位から、それぞれ、順位“1”、順位“10”を設定した例を示している。もちろん、ここでは、中間の順位は図示を省略している。 For example, in the example of FIG. 6, the rankings “from the top of the realistic feeling estimated value to the time interval (t1, t2) and the time interval (t10) in which the estimated realistic feeling value equal to or greater than the threshold value continues for the shortest scene extraction time or longer, respectively. In this example, 1 ”and ranking“ 10 ”are set. Of course, the intermediate ranks are not shown here.
「総合判定結果」は、「順位」によって臨場感推定値の順に順位付けされた時間区間のシーンが、設定された最大シーン抽出数のシーンであるか否かの判定結果を示す。具体的には、判定手段50は、順位付けされたシーンの順番に、設定情報記憶手段40に記憶されている最大シーン抽出数までを、抽出対象のシーンとして、当該シーンに対応する時間区間のフラグをセットし、他の時間区間のフラグをリセットする。
なお、最大シーン抽出数が設定されていない場合、判定手段50は、抽出数の制限を設けないこととする。もちろん、予め定めたデフォルト値を最大シーン抽出数として設けておくこととしてもよい。
例えば、図6の例で、最大シーン抽出数を“5”とした場合、順位“1”の時間区間(t1,t2)には、総合判定結果のフラグがセットされ、順位“10”の時間区間(t10)にはフラグがセットされないことになる。
The “total determination result” indicates a determination result as to whether or not the scenes in the time interval ranked in the order of the realistic sensation estimation value by the “rank” are the scenes having the set maximum number of extracted scenes. Specifically, the
Note that when the maximum number of scene extractions is not set, the
For example, in the example of FIG. 6, when the maximum number of scene extractions is “5”, the flag of the comprehensive determination result is set in the time interval (t1, t2) of the rank “1”, and the time of the rank “10” The flag is not set in the section (t10).
この総合判定結果によって、抽出手段60が、抽出するシーンを特定することができる。ここで、設定情報記憶手段40に設定情報として糊代時間が設定されている場合、判定手段50は、総合判定結果のフラグがセットされたシーンの前後の糊代時間分の時間区間にフラグをセットすることとする。これによって、抽出手段60で抽出されるシーンの時間の前後に糊代時間分拡張されることになる。
Based on the comprehensive determination result, the
また、設定情報記憶手段40に設定情報として表示順序が設定されている場合、判定手段50は、表示順序を示す値を臨場感推定値/判定結果記憶手段30の総合判定結果のフラグがセットされたシーンごとに、表示順序の番号を付加することする(不図示)。なお、表示順序が設定されていない場合、判定手段50は、予め定めたデフォルトの表示順序、例えば、臨場感推定値の高い順番で、表示順序の番号を付加する。なお、この表示順序は、臨場感推定値/判定結果記憶手段30の「順序」(図6参照)を上書きして利用することとしてもよい。
When the display order is set as the setting information in the setting
抽出手段60は、コンテンツCから、臨場感の高いシーンを抽出するものである。この抽出手段60は、コンテンツCにおいて、臨場感推定値/判定結果記憶手段30で臨場感の高いシーンとして判定されたシーンを抽出する。
具体的には、抽出手段60は、臨場感推定値/判定結果記憶手段30に記憶されている判定結果(具体的には、総合判定結果)でフラグがセットされているシーンを、設定されている表示順序で、最初の時間区間の先頭時間から、最後の時間区間の終了時間までの時間に相当する区間ごとに、コンテンツCから順次読み込み再生し、表示装置2に出力する。
The
Specifically, the extracting
このとき、判定手段50が最短シーン抽出時間以上の連続時間区間に対してフラグを設定することで、抽出手段60は、最短シーン抽出時間以上のシーンのみを抽出することができる。また、判定手段50が最大シーン抽出数を上限として連続時間区間に対してフラグを設定することで、抽出手段60は、抽出するシーンの数を制限してシーンを抽出することができる。
なお、コンテンツCに振動信号のような感覚信号が付加されている場合、抽出手段60は、コンテンツCの抽出時間に対応する感覚信号を、図示を省略した再現装置(例えば、振動再現装置)に出力すればよい。
これによって、抽出手段60は、視聴者が設定した抽出方法によって、コンテンツCから、高臨場感のシーンを抽出することができる。
At this time, when the
When a sensation signal such as a vibration signal is added to the content C, the
Thereby, the extraction means 60 can extract a highly realistic scene from the content C by the extraction method set by the viewer.
以上説明したようにシーン抽出装置1を構成することで、シーン抽出装置1は、コンテンツCの客観的な特徴量ではなく、視聴者の主観的な感覚に基づいて、臨場感の高いシーンを抽出することができる。
By configuring the
〔シーン抽出装置の動作〕
次に、図7〜図10を参照(構成については適宜図1参照)して、本発明の第1実施形態に係るシーン抽出装置1の動作について説明する。なお、臨場感学習データ記憶手段20には、音響信号、映像信号および感覚信号の特徴量に対する臨場感を予め学習した学習データ(臨場感学習データ)を記憶しておくものとする。また、設定情報記憶手段40には、設定装置3によって予め各種設定情報を設定しておく。この設定動作について、図7を参照して説明する。
[Operation of the scene extraction device]
Next, the operation of the
図7に示すように、設定装置3は、臨場感が高いか否かの判定基準となる閾値をシーン抽出装置1に設定する(ステップS100)。すなわち、ステップS100では、設定装置3が、表示装置2に設定画面を表示し、視聴者による閾値の設定を受け付ける。この閾値は、設定情報記憶手段40に記憶される。
なお、閾値として、相対閾値を用いる場合、設定装置3は、視聴者によって、コンテンツC全体のうちで臨場感推定値の高い方からシーンを抽出する時間長あるいは割合を受け付け、設定情報記憶手段40に記憶する。
As illustrated in FIG. 7, the setting device 3 sets a threshold value serving as a criterion for determining whether or not presence is high in the scene extraction device 1 (step S100). That is, in step S100, the setting device 3 displays a setting screen on the
When a relative threshold value is used as the threshold value, the setting device 3 accepts a time length or a ratio for extracting a scene from the one with the higher realistic sensation value in the entire content C by the viewer, and the setting
また、設定装置3は、臨場感の高いシーンとして表示装置2に表示するシーンの抽出条件をシーン抽出装置1に設定する(ステップS101)。すなわち、ステップS101では、設定装置3が、表示装置2に設定画面を表示し、視聴者による抽出条件の設定を受け付ける。この抽出条件は、例えば、最短シーン抽出時間、最大シーン抽出数、表示順序等である。この抽出条件は、設定情報記憶手段40に記憶される。
Further, the setting device 3 sets, in the
また、設定装置3は、臨場感の高いシーンとして抽出するシーンの前後に余分に付加する糊代時間をシーン抽出装置1に設定する(ステップS102)。すなわち、ステップS102では、設定装置3が、表示装置2に設定画面を表示し、糊代時間の設定を受け付ける。この糊代時間は、設定情報記憶手段40に記憶される。
なお、以上説明したステップS100からステップS102までの動作は、どのような順番で行っても構わない。
Further, the setting device 3 sets, in the
Note that the operations from step S100 to step S102 described above may be performed in any order.
次に、図8を参照(適宜図1参照)して、シーン抽出装置1の全体動作について説明する。
シーン抽出装置1は、まず、設定情報記憶手段40から各種設定情報を読み込む(ステップS1)。
ステップS1による各種設定の読み込み後、シーン抽出装置1は、臨場感推定手段10によって、コンテンツCの所定の時間間隔ごとに、所定の時間幅における臨場感を推定する(ステップS2)。
このステップS2の動作については、図9を参照してさらに詳細に説明する。
Next, the overall operation of the
The
After reading the various settings in step S1, the
The operation of step S2 will be described in more detail with reference to FIG.
図9に示すように、臨場感推定手段10は、聴覚臨場感推定手段11、視覚臨場感推定手段12および感覚臨場感推定手段13によって、複数の信号(映像信号、音響信号、感覚信号)ごとに、所定の時間間隔、所定の時間幅で臨場感推定値を算出する(ステップS20)。
すなわち、聴覚臨場感推定手段11は、コンテンツCの音響信号から、臨場感学習データ記憶手段20に記憶されている臨場感学習データに基づいて、聴覚臨場感推定値を算出する。また、視覚臨場感推定手段12は、コンテンツCの映像信号から、臨場感学習データに基づいて、視覚臨場感推定値を算出する。また、感覚臨場感推定手段13は、コンテンツCの感覚信号から、臨場感学習データに基づいて、感覚臨場感推定値を算出する。
As shown in FIG. 9, the realistic sensation estimation means 10 uses the auditory presence sensation estimation means 11, the visual presence sensation estimation means 12, and the sensory presence sensation estimation means 13 for each of a plurality of signals (video signal, sound signal, sensory signal). In addition, the realistic sensation estimated value is calculated at a predetermined time interval and a predetermined time width (step S20).
That is, the auditory realistic
そして、シーン抽出装置1は、臨場感推定手段10の臨場感特定手段14によって、ステップS20で算出された複数の臨場感推定値(聴覚臨場感推定値、視覚臨場感推定値、感覚臨場感推定値)の最大値を、その時間区間における臨場感推定値(代表値)として特定する(ステップS21)。なお、ステップS21では、最大値の代わりに、平均値、重み付け加算等の統計量を、その時間区間における臨場感推定値として特定してもよい。
Then, the
そして、臨場感特定手段14は、ステップS21で特定された時間区間ごとの臨場感推定値(代表値)を、その時間区間に対応付けて臨場感推定値/判定結果記憶手段30に書き込み記憶する(ステップS22)。 Then, the realistic sensation specifying means 14 writes and stores the realistic sensation estimated value (representative value) for each time interval specified in step S21 in association with the time interval in the realistic sensation estimated value / determination result storage means 30. (Step S22).
ここで、シーン抽出装置1は、臨場感推定手段10において、コンテンツCを終了まで読み込んだか否かを判定する(ステップS23)。そして、コンテンツCのデータがまだ残っている場合(ステップS23でNo)、シーン抽出装置1は、ステップS20に戻って次の時間区間での臨場感を推定する。
一方、コンテンツCのデータの読み込みが完了した場合(ステップS23でYes)、シーン抽出装置1は、臨場感推定の動作を終了する。
このステップS20からステップS23までの動作によって、臨場感推定値が時系列に臨場感推定値/判定結果記憶手段30に記憶されることになる。
図8に戻って、シーン抽出装置1の全体動作について説明を続ける。
Here, the
On the other hand, when the reading of the data of the content C is completed (Yes in step S23), the
Through the operations from step S20 to step S23, the realistic sense estimated value is stored in the realistic sense estimated value / determination result storage means 30 in time series.
Returning to FIG. 8, the overall operation of the
ステップS2による臨場感の推定の後、シーン抽出装置1は、判定手段50によって、時間区間ごとに、視聴者に対して臨場感を与えるシーンであるか否かを判定し、その結果を記録する(ステップS3)。
このステップS3の動作については、図10を参照してさらに詳細に説明する。
After the estimation of the presence in step S2, the
The operation in step S3 will be described in more detail with reference to FIG.
図10に示すように、判定手段50は、臨場感推定値/判定結果記憶手段30に記憶されている臨場感推定値が、設定情報記憶手段40に記憶されている閾値以上の時間区間に閾値判定結果(図6参照)のフラグをセットする(ステップS30)。このとき、臨場感推定値が閾値未満の時間区間についてはフラグをリセットする。
なお、閾値として、相対閾値を用いる場合、判定手段50は、コンテンツC全体のうちで臨場感推定値の高い方から設定情報記憶手段40に設定されている時間長あるいは割合に達する臨場感推定値を閾値とする。
As shown in FIG. 10, the
When a relative threshold value is used as the threshold value, the
そして、判定手段50は、臨場感推定値/判定結果記憶手段30に記憶されているステップS30でフラグが設定された時間区間で、設定情報記憶手段40に記憶されている最短シーン抽出時間以上連続する連続時間区間を探索する(ステップS31)。
その後、判定手段50は、ステップS31で探索された連続時間区間において、当該連続時間区間の最大臨場感推定値の高い方から順に順位付け(図6参照)を行う(ステップS32)。
Then, the
Thereafter, the
そして、判定手段50は、ステップS32で順位付けされた連続時間区間において、設定情報記憶手段40に記憶されている最大シーン抽出数のシーン(連続時間区間)に対応する各時間区間に総合判定結果(図6参照)のフラグをセットする(ステップS33)。
さらに、判定手段50は、設定情報記憶手段40に設定情報として糊代時間が設定されている場合、総合判定結果のフラグがセットされたシーンの前後の糊代時間分の時間区間に総合判定結果のフラグをセットする(ステップS34)。
このステップS30からステップS34までの動作によって、コンテンツC中、時間区間単位で臨場感が高いか否かの判定結果が臨場感推定値/判定結果記憶手段30に記録されることになる。
図8に戻って、シーン抽出装置1の全体動作について説明を続ける。
Then, the
Further, when the margin time is set as the setting information in the setting
Through the operations from step S30 to step S34, the determination result as to whether or not the presence is high in the time interval in the content C is recorded in the presence estimation value / determination result storage means 30.
Returning to FIG. 8, the overall operation of the
ステップS3による時間区間単位での臨場感の判定後、シーン抽出装置1は、抽出手段60によって、コンテンツCから臨場感の高いシーンを抽出する(ステップS4)。
すなわち、抽出手段60は、臨場感推定値/判定結果記憶手段30の判定結果(具体的には、総合判定結果)を参照して、臨場感が高いと判定された(フラグがセットされた)時間区間(連続時間区間)のシーンをコンテンツCから抽出し、表示装置2に出力する。
以上説明した動作によって、シーン抽出装置1は、コンテンツCの客観的な特徴量ではなく、視聴者の主観的な印象に基づいて、臨場感の高いシーンを抽出することができる。
After determining the presence in units of time in step S3, the
That is, the extracting
Through the operation described above, the
≪第2実施形態≫
次に、図11を参照して、本発明の第2実施形態に係るシーン抽出装置1Bの構成について説明する。
<< Second Embodiment >>
Next, the configuration of the
シーン抽出装置1Bは、コンテンツCから、臨場感の高いシーンを抽出するものである。このシーン抽出装置1Bは、抽出したシーンを表示装置2に出力する。
図1で説明したシーン抽出装置1は、複数の臨場感推定値から1つの臨場感推定値を特定(算出)して、ある時間区間における臨場感推定値を1つ保持することとした。一方、シーン抽出装置1Bは、ある時間区間における臨場感推定値を複数保持し、外部から重みを設定されることで、高臨場感のシーンを抽出する際にどの臨場感を高めたシーンを抽出するかを設定可能としている。
The
The
シーン抽出装置1Bは、臨場感推定手段10Bと、臨場感学習データ記憶手段20と、臨場感推定値/判定結果記憶手段30Bと、設定情報記憶手段40Bと、判定手段50Bと、抽出手段60と、を備える。臨場感学習データ記憶手段20および抽出手段60は、シーン抽出装置1(図1参照)と同じ構成であるため、説明を省略する。
The
臨場感推定手段10Bは、コンテンツCから時間単位で臨場感の度合いを示す臨場感推定値を算出するものである。ここでは、臨場感推定手段10Bは、臨場感推定手段10(図1参照)から、臨場感特定手段14を除いたものである。
この臨場感推定手段10Bは、聴覚臨場感推定手段11、視覚臨場感推定手段12および感覚臨場感推定手段13が、それぞれ推定した個別臨場感推定値(聴覚臨場感推定値、視覚臨場感推定値、感覚臨場感推定値)を、臨場感推定値/判定結果記憶手段30Bに記憶する。
The realistic sensation estimation means 10B calculates a realistic sensation estimated value indicating the degree of realistic sensation in time units from the content C. Here, the realistic sensation estimation means 10B is obtained by removing the realistic sensation specifying means 14 from the realistic sensation estimation means 10 (see FIG. 1).
This realistic sensation estimation means 10B is an auditory realistic sensation estimation means 11, a visual presence sensation estimation means 12, and a sensory presence sensation estimation means 13 that are estimated by the individual presence sensation estimation values (audience realistic sensation estimation values, visual presence sensation estimation values). , Sensory presence sense value) is stored in the presence sense value / determination result storage means 30B.
臨場感推定値/判定結果記憶手段30Bは、臨場感推定手段10Bで推定されたコンテンツCの時間区間ごとの個別臨場感推定値を、コンテンツCの先頭からの経過時間に対応付けて記憶するものである。
さらに、臨場感推定値/判定結果記憶手段30Bは、各時間区間の個別臨場感推定値が視聴者に対して臨場感を与えるか否かについて、判定手段50Bによって判定した結果(例えば、フラグ)を記録する領域を有する。
例えば、臨場感推定値/判定結果記憶手段30Bは、図12に示すように、時間(先頭からの経過時間)、臨場感推定値、判定結果(総合判定結果、閾値判定結果、順位)を記録する領域を有する。時間および臨場感推定値は、臨場感推定手段10Bによって書き込まれ、判定結果は、判定手段50Bによって書き込まれる。なお、臨場感推定値として、聴覚臨場感推定値、視覚臨場感推定値、感覚臨場感推定値が個別に記憶される。
この臨場感推定値/判定結果記憶手段30Bは、半導体メモリ等の一般的な記録媒体で構成することができる。
The realistic sensation estimated value / determination result storage means 30B stores the individual realistic sensation estimated value for each time interval of the content C estimated by the realistic sensation estimation means 10B in association with the elapsed time from the beginning of the content C. It is.
Further, the realistic presence estimated value / determination
For example, as shown in FIG. 12, the realistic sensation estimated value / determination
The realistic sensation estimated value / determination result storage means 30B can be configured by a general recording medium such as a semiconductor memory.
設定情報記憶手段40Bは、設定装置3で設定された各種情報を記憶するものであって、半導体メモリ等の一般的な記録媒体で構成することができる。ここでは、設定情報記憶手段40Bは、設定装置3によって、閾値、抽出条件、糊代時間、重みが書き込まれる。
The setting information storage means 40B stores various information set by the setting device 3, and can be configured by a general recording medium such as a semiconductor memory. Here, in the setting
重みは、臨場感推定手段10Bで臨場感を推定するコンテンツの信号(音響信号、映像信号、感覚信号)に対する重み係数である。この重みは、臨場感推定手段10Bで臨場感を推定するコンテンツの信号(音響信号、映像信号、感覚信号)に対して、各重みの総和が“1”となるような値とする。ここでは、設定装置3が、表示装置2に表示した設定画面を介して、重みを入力し、シーン抽出装置1に設定する。
The weight is a weighting coefficient for a content signal (acoustic signal, video signal, sensory signal) whose presence is estimated by the presence estimation means 10B. This weight is set to a value such that the sum of the weights is “1” with respect to a content signal (sound signal, video signal, sensory signal) whose presence is estimated by the presence estimation means 10B. Here, the setting device 3 inputs weights via the setting screen displayed on the
判定手段50Bは、設定情報記憶手段40Bに記憶されている設定情報に基づいて、臨場感推定手段10Bで臨場感推定値が対応付けられた時間区間のシーンの抽出を行うか否かを判定するものである。この判定手段50Bの機能は、基本的に、判定手段50(図1参照)と同じである。ただし、判定手段50Bは、時間区間ごとに臨場感を判定するために、設定情報記憶手段40Bに記憶されている重みによって、個別臨場感推定値(聴覚臨場感推定値、視覚臨場感推定値、感覚臨場感推定値)を重み付け加算した値と閾値とを比較する点が異なる。
Based on the setting information stored in the setting
すなわち、判定手段50Bは、臨場感推定値/判定結果記憶手段30Bに記憶されている時間区間ごとの個別臨場感推定値(聴覚臨場感推定値、視覚臨場感推定値、感覚臨場感推定値)を、設定装置3で設定された重みによって重み付け加算した値を、当該時間区間の臨場感推定値とする。そして、判定手段50Bは、この重み付け加算値を、臨場感推定値として、判定手段50(図1参照)と同様の判定手法によって、臨場感が高いと判定された時間区間に判定結果として閾値判定結果のフラグをセットし、臨場感が高くないと判定された時間区間では閾値判定結果のフラグをリセットする(図12参照)。
In other words, the
以上説明したようにシーン抽出装置1Bを構成することで、シーン抽出装置1Bは、コンテンツCの客観的な特徴量ではなく、視聴者の主観的な印象に基づいて、臨場感の高いシーンを抽出することができる。さらに、シーン抽出装置1Bは、複数の臨場感の重みを、臨場感を推定した後に変えることができるため、コンテンツCから、適宜重み付けを変えて、視聴者が所望のシーンを抽出することができる。
By configuring the
以上、本発明の実施形態について説明したが、シーン抽出装置1,1Bは、コンピュータを、前記した各手段として機能させるシーン抽出プログラムで動作させることができる。
また、本発明は、これらの実施形態に限定されるものではない。以下、本発明の変形例について説明する。
Although the embodiment of the present invention has been described above, the
Further, the present invention is not limited to these embodiments. Hereinafter, modifications of the present invention will be described.
≪変形例1≫
シーン抽出装置1,1Bは、設定装置3で、臨場感が高いか否かの判定基準となる閾値を1つ設定することとした。しかし、この閾値は、臨場感の高さのレベルを設けて複数設定することとしてもよい。例えば、「臨場感が非常に高い」、「臨場感がやや高い」等のレベルによって、閾値を複数設定することとする。
<<
In the
この場合、判定手段50,50Bは、臨場感推定値/判定結果記憶手段30に臨場感の判定結果を設定する際に、臨場感の高さのレベルに応じた判定結果(総合判定結果、閾値判定結果)を記憶すればよい。例えば、「臨場感が非常に高い」を示す閾値以上の臨場感推定値が推定された時間区間については、判定結果を“2”、「臨場感が非常に高い」を示す閾値未満で「臨場感がやや高い」を示す閾値以上の臨場感推定値が推定された時間区間については、判定結果を“1”のように区別する。
そして、設定装置3によってレベルを指定されることで、抽出手段60が、そのレベルが設定されている時間区間に対応するシーンを抽出する。
これによって、視聴者は、臨場感の大きさをカテゴライズして、臨場感の異なるシーンを視聴することができる。
In this case, when the determination means 50 and 50B set the determination result of the realistic sensation in the realistic sensation estimated value / determination result storage means 30, the determination result (the comprehensive determination result, the threshold value) according to the level of the realistic sensation level. (Determination result) may be stored. For example, for a time interval in which an estimated value of realistic sensation equal to or greater than the threshold value indicating “very high sense of reality” is used, the determination result is “2”, and the value is less than the threshold value indicating “very high sense of reality”. The determination result is distinguished as “1” for the time interval in which the realistic sensation estimated value equal to or greater than the threshold indicating “slightly high” is estimated.
Then, when the level is designated by the setting device 3, the
Thus, the viewer can categorize the magnitude of the presence and view a scene with a different presence.
≪変形例2≫
シーン抽出装置1,1Bは、抽出手段60によって、抽出したシーンを表示装置2に表示することとした。しかし、抽出手段60は、一旦、抽出する各シーンの先頭フレームをサムネイル画像として、表示装置2に表示し、視聴者が選択したシーンのみを、コンテンツCから抽出して表示することとしてもよい。また、このサムネイル画像を表示する順序は、時刻順であっても、臨場感推定値の高い順であってもよい。
これによって、視聴者は、高臨場感のシーンの中からシーンを選択して視聴することができる。
<<
The
Thus, the viewer can select and view a scene from highly realistic scenes.
≪変形例3≫
シーン抽出装置1,1Bは、聴覚臨場感推定手段11において、コンテンツCの音響信号から、臨場感推定値を算出することとした。しかし、聴覚臨場感推定手段11は、音響特徴量から、音響信号が主に人の音声であるか否かを判定し、設定により、人の音声の度合いが高い場合に聴覚臨場感推定値を高める、あるいは、人の音声の度合いが低い場合に聴覚臨場感推定値を低くすることとしてもよい。
これによって、シーン抽出装置1,1Bは、対人活動によって臨場感が高くなりシーンを抽出するのか、対人活動以外の環境によって臨場感が高くなるシーンを抽出するのかを区別してシーンを抽出することができる。
<< Modification 3 >>
In the
As a result, the
≪変形例4≫
シーン抽出装置1,1Bは、臨場感推定手段10Bによって、臨場感推定値を臨場感推定値/判定結果記憶手段30に記憶することとした。
しかし、臨場感推定手段10Bは、臨場感以外にさらに感情の度合いを推定することとしてもよい。この場合、予め臨場感学習データ記憶手段20に、学習によって、音響信号、映像信号、感覚信号ごとに、ワクワクするシーンの度合い、ジーンとするシーンの度合い、快適であるシーンの度合い、活動的であるシーンの度合い等を学習しておく。これによって、臨場感推定手段10Bは、各推定手段11,12,13において、臨場感以外に感情の度合い(感情推定値)を推定する。
そして、設定装置3によって、臨場感の重みに加え、感情の度合いの推定値に対する重みを設定されることで、判定手段50Bは、臨場感推定値と感情推定値とを重み付け加算する。
これによって、シーン抽出装置1Bは、臨場感に加え、感情の高ぶりが高くなるシーンを抽出することができる。
<< Modification 4 >>
The
However, the realistic sensation estimation means 10B may further estimate the degree of emotion other than the realistic sensation. In this case, the realistic learning data storage means 20 is preliminarily trained for each of the sound signal, video signal, and sensory signal, the degree of the exciting scene, the degree of the scene to be gene, the degree of the comfortable scene, Learn the degree of a scene. Accordingly, the realistic sensation estimation means 10B estimates the degree of emotion (emotion estimated value) in addition to the realism in each of the estimation means 11, 12, and 13.
Then, the setting device 3 sets a weight for the estimated value of the feeling level in addition to the realistic weight, so that the
As a result, the
≪変形例5≫
シーン抽出装置1,1Bは、臨場感推定手段10,10Bにおいて、聴覚臨場感、視覚臨場感および感覚臨場感を個別に推定した。
しかし、臨場感推定手段10,10Bは、臨場感を個別に推定するのではなく、一度に代表する臨場感を推定することとしてもよい。この場合、臨場感学習データ記憶手段20には、複数の信号(音響信号、映像信号および感覚信号)の特徴量から1つの臨場感を推定するモデルを、ニューラルネットワーク等で予め学習しておく。そして、臨場感推定手段10,10Bは、コンテンツCを構成する複数の信号(音響信号、映像信号および感覚信号)の特徴量から、ニューラルネットワークにより各信号を代表する臨場感を推定すればよい。
<< Modification 5 >>
The
However, the realistic sensation estimation means 10 and 10B may estimate the realistic sensation represented at a time instead of estimating the realistic sensation individually. In this case, in the realistic sense learning
1 シーン抽出装置
10 臨場感推定手段
11 聴覚臨場感推定手段
12 視覚臨場感推定手段
13 感覚臨場感推定手段
14 臨場感特定手段
20 臨場感学習データ記憶手段
30 臨場感推定値/判定結果記憶手段
(臨場感推定値記憶手段、判定結果記憶手段)
40 設定情報記憶手段
50 判定手段
60 抽出手段
2 表示装置
3 設定装置
DESCRIPTION OF
40 setting information storage means 50 determination means 60 extraction means 2 display device 3 setting device
Claims (10)
前記コンテンツを構成する信号の前記特徴量に対する臨場感の度合いを予め学習した臨場感学習データを記憶する臨場感学習データ記憶手段と、
少なくとも臨場感を分析するための前記信号の時間間隔および時間幅と、臨場感が高いか否かの判定基準となる閾値とを設定情報として記憶する設定情報記憶手段と、
重複区間を含んで所定の前記時間間隔だけずれた所定の前記時間幅の時間区間ごとに、前記コンテンツの前記特徴量を分析し、前記臨場感学習データから、前記臨場感の度合いを臨場感推定値として算出する臨場感推定手段と、
前記時間区間に対応付けて前記臨場感推定値を記憶する臨場感推定値記憶手段と、
予め設定された前記閾値に基づいて、前記臨場感推定値が対応付けられた前記時間区間のシーンの臨場感が高いか否かを判定する判定手段と、
この判定手段の判定結果を記憶する判定結果記憶手段と、
この判定結果記憶手段に記憶されている臨場感が高いと判定された時間区間に対応するシーンを前記コンテンツから抽出する抽出手段と、
を備えることを特徴とするシーン抽出装置。 A scene extraction device that extracts a highly realistic scene from content by a sense of presence defined by learning a predetermined feature amount of the content,
Presence learning data storage means for storing presence learning data in which the degree of presence with respect to the feature amount of the signal constituting the content is previously learned;
A setting information storage means for storing, as setting information, a time interval and a time width of the signal for analyzing at least the presence, and a threshold value that is a criterion for determining whether or not the presence is high;
The feature amount of the content is analyzed for each time interval of the predetermined time width that includes an overlapping interval and is shifted by the predetermined time interval, and the degree of presence is estimated from the presence learning data Presence estimation means to calculate as a value;
A sense of presence estimated value storing means for storing the sense of presence estimated value in association with the time interval;
Determining means for determining whether or not the presence of the scene in the time interval associated with the estimated presence value is high based on the preset threshold;
Determination result storage means for storing the determination result of the determination means;
Extraction means for extracting a scene corresponding to a time interval determined to have high presence stored in the determination result storage means from the content;
A scene extraction apparatus comprising:
前記判定手段は、前記時間区間ごとに、複数の前記個別臨場感推定値の最大値、平均値または重み付け加算値を前記臨場感推定値として算出し、予め設定された前記閾値に基づいて臨場感が高いか否かを判定することを特徴とする請求項1に記載のシーン抽出装置。 The realistic sensation estimation means calculates an individual realistic sensation estimated value for each signal constituting the content and stores it in the realistic sensation estimated value storage means,
The determination means calculates a maximum value, an average value, or a weighted addition value of the plurality of individual realistic sensation estimated values for each time interval as the realistic sensation estimated value, and based on the preset threshold value The scene extraction device according to claim 1, wherein it is determined whether or not the value is high.
前記判定手段は、前記臨場感推定値の高い時間区間から順に、前記時間長または前記割合に達する臨場感推定値を前記閾値とすることを特徴とする請求項1から請求項3のいずれか一項に記載のシーン抽出装置。 As the setting information, a time length or a ratio of a scene determined to be high in the content is stored in the setting information storage unit in advance.
The said determination means uses the realistic feeling estimated value which reaches the said time length or the said ratio in an order from the time interval with the said high realistic feeling estimated value as the said threshold value, The any one of Claim 1 to 3 characterized by the above-mentioned. The scene extraction device according to item.
前記判定手段は、前記時間区間に、前記時間区間の臨場感推定値と複数の前記閾値とを比較することで、当該時間区間に前記臨場感の高さのレベルを設定し、
前記抽出手段は、外部から指定されたレベルが設定されている前記時間区間に対応するシーンを前記コンテンツから抽出することを特徴とする請求項1から請求項3のいずれか一項に記載のシーン抽出装置。 The threshold value is a plurality of values determined in advance according to the height of the realistic sensation,
The determination means sets the level of the level of presence in the time interval by comparing the estimated value of presence in the time interval and a plurality of the threshold values in the time interval,
4. The scene according to claim 1, wherein the extraction unit extracts a scene corresponding to the time interval in which a level designated from the outside is set from the content. 5. Extraction device.
前記抽出手段は、前記臨場感の高いシーンとして、前記最短シーン抽出時間以上のシーンのみを抽出することを特徴とする請求項1から請求項5のいずれか一項に記載のシーン抽出装置。 As the setting information, the shortest scene extraction time is previously stored in the setting information storage means,
The scene extraction apparatus according to any one of claims 1 to 5, wherein the extraction unit extracts only scenes having a time longer than the shortest scene extraction time as the highly realistic scenes.
前記抽出手段は、前記臨場感の高いシーンとして、前記最大シーン抽出数を上限としてシーンを抽出することを特徴とする請求項1から請求項6のいずれか一項に記載のシーン抽出装置。 As the setting information, the maximum scene extraction number is stored in advance in the setting information storage means,
The scene extraction apparatus according to any one of claims 1 to 6, wherein the extraction unit extracts a scene with the maximum number of extracted scenes as an upper limit as the scene with high presence.
前記抽出手段は、前記臨場感が高いと判定された時間区間に、前記糊代時間を付加した時間区間に対応するシーンを前記コンテンツから抽出することを特徴とする請求項1から請求項7のいずれか一項に記載のシーン抽出装置。 As the setting information, paste margin time is previously stored in the setting information storage means,
8. The extraction unit according to claim 1, wherein the extraction unit extracts, from the content, a scene corresponding to a time interval in which the pasting time is added to a time interval in which the presence is determined to be high. The scene extraction device according to any one of claims.
前記判定手段は、前記臨場感推定値と前記感情推定値との重み付け加算値によって、前記臨場感が高いか否かを判定することを特徴とする請求項1から請求項8のいずれか一項に記載のシーン抽出装置。 The realistic sensation estimation means calculates an emotion estimation value for each of the time intervals from the content by learning data in which the feature amount of the content and the degree of emotion are learned in advance.
The said determination means determines whether the said presence is high by the weighted addition value of the said presence feeling estimated value and the said emotion estimated value. The scene extraction device described in 1.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016134108A JP6688179B2 (en) | 2016-07-06 | 2016-07-06 | Scene extraction device and its program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016134108A JP6688179B2 (en) | 2016-07-06 | 2016-07-06 | Scene extraction device and its program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018007134A true JP2018007134A (en) | 2018-01-11 |
| JP6688179B2 JP6688179B2 (en) | 2020-04-28 |
Family
ID=60950052
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016134108A Active JP6688179B2 (en) | 2016-07-06 | 2016-07-06 | Scene extraction device and its program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6688179B2 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008312061A (en) * | 2007-06-15 | 2008-12-25 | Sony Corp | Image processing apparatus, processing method thereof, and program |
| WO2010001512A1 (en) * | 2008-07-03 | 2010-01-07 | パナソニック株式会社 | Impression degree extraction apparatus and impression degree extraction method |
| WO2011099299A1 (en) * | 2010-02-10 | 2011-08-18 | パナソニック株式会社 | Video extraction device, image capturing apparatus, program, and recording medium |
| JP2014007556A (en) * | 2012-06-25 | 2014-01-16 | Nippon Hoso Kyokai <Nhk> | Auditory impression amount estimation device and program thereof |
-
2016
- 2016-07-06 JP JP2016134108A patent/JP6688179B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008312061A (en) * | 2007-06-15 | 2008-12-25 | Sony Corp | Image processing apparatus, processing method thereof, and program |
| WO2010001512A1 (en) * | 2008-07-03 | 2010-01-07 | パナソニック株式会社 | Impression degree extraction apparatus and impression degree extraction method |
| WO2011099299A1 (en) * | 2010-02-10 | 2011-08-18 | パナソニック株式会社 | Video extraction device, image capturing apparatus, program, and recording medium |
| JP2014007556A (en) * | 2012-06-25 | 2014-01-16 | Nippon Hoso Kyokai <Nhk> | Auditory impression amount estimation device and program thereof |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6688179B2 (en) | 2020-04-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12175385B2 (en) | Adapting a virtual reality experience for a user based on a mood improvement score | |
| US8416332B2 (en) | Information processing apparatus, information processing method, and program | |
| JP7440020B2 (en) | Information processing method, terminal device, information processing device, and information processing system | |
| US8447761B2 (en) | Lifestyle collecting apparatus, user interface device, and lifestyle collecting method | |
| KR102340196B1 (en) | Video processing apparatus and method of operations thereof | |
| KR20150127070A (en) | Pictorial summary for video | |
| JP7604892B2 (en) | Information processing device, information processing method, and information processing program | |
| KR20150093425A (en) | Method and apparatus for recommending content | |
| KR101375119B1 (en) | Virtual interview mothod and mobile device readable recording medium for executing application recorded the method | |
| US9754156B2 (en) | Content output apparatus, content output method and recording medium | |
| JP2016100033A (en) | Playback control device | |
| KR102452100B1 (en) | Method, device and system for providing learning service base on brain wave and blinking eyes | |
| CN101661558A (en) | Image processing apparatus and image processing method, and imaging apparatus | |
| JP4461834B2 (en) | VIDEO DISPLAY METHOD, VIDEO DISPLAY METHOD PROGRAM, RECORDING MEDIUM CONTAINING VIDEO DISPLAY METHOD PROGRAM, AND VIDEO DISPLAY DEVICE | |
| JP6688179B2 (en) | Scene extraction device and its program | |
| WO2010140254A1 (en) | Image/sound output device and sound localizing method | |
| Bajcsy et al. | Fast forwarding egocentric videos by listening and watching | |
| CN105187909B (en) | Method and device for terminal detecting loss of recorded audio and video | |
| JP6218296B1 (en) | Video playback device, video playback method, program thereof, and recording medium | |
| US20200005833A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
| US12488360B2 (en) | Product performance estimation in a virtual reality environment | |
| JP6838739B2 (en) | Recent memory support device | |
| KR102154859B1 (en) | Cognition improvement training system for prevention of dementia | |
| JP2017199058A (en) | Recognition device, image content presentation system, program | |
| JP2023181568A (en) | Information processing device and information processing method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190531 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200228 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200403 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6688179 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |