JP2020035261A - Topic splitter - Google Patents
Topic splitter Download PDFInfo
- Publication number
- JP2020035261A JP2020035261A JP2018162452A JP2018162452A JP2020035261A JP 2020035261 A JP2020035261 A JP 2020035261A JP 2018162452 A JP2018162452 A JP 2018162452A JP 2018162452 A JP2018162452 A JP 2018162452A JP 2020035261 A JP2020035261 A JP 2020035261A
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- time
- unit
- division
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management Or Editing Of Information On Record Carriers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 話者の変化が乏しい動画データを、トピックごとに分割することができるトピック分割装置を提供すること。【解決手段】 トピック分割装置100は、入力した動画データから音声部分を抽出するコンテンツ読込部102と、音声部分から、所定時刻ごとに、意味情報を表す特徴量を算出する内容特徴量計算部103と、特徴量の変化に基づいて、一または複数の動画分割時刻を特定する内容変化度解析部104と、動画分割時刻に基づいて、動画データを分割する分割処理部105と、を備える。【選択図】図1PROBLEM TO BE SOLVED: To provide a topic dividing device capable of dividing video data with little change in speakers for each topic. SOLUTION: A topic dividing device 100 calculates a feature amount representing semantic information from a content reading unit 102 that extracts an audio part from input moving image data and an audio part at predetermined time intervals, and a content feature amount calculation unit 103. A content change degree analysis unit 104 that specifies one or a plurality of moving image division times based on a change in the feature amount, and a division processing unit 105 that divides moving image data based on the moving image dividing time are provided. [Selection diagram] Fig. 1
Description
本発明は、音声を用いた映像を分割するトピック分割装置に関するものである。 The present invention relates to a topic division device that divides a video using audio.
画像特徴と音声特徴とのどちらか一方、あるいは両方を用いて映像をいくつかの区間に分割する映像処理装置が知られている。(下記特許文献1参照) 2. Description of the Related Art There is known a video processing device that divides a video into several sections using one or both of an image feature and an audio feature. (See Patent Document 1 below)
上記特許文献1に記載の技術は、以下に示す問題点を有している。すなわち、上記技術は、音声特徴として、音量、周波数成分、および話者の変化を用いるため、単独話者が発話を続けて、話者の変化に乏しい動画を想定していない。 The technique described in Patent Document 1 has the following problems. That is, since the above technology uses the volume, the frequency component, and the change of the speaker as the voice feature, the moving image in which the single speaker continues to speak and the change of the speaker is scarce is not assumed.
そこで本発明は、上記問題点を解決し、話者の変化が乏しい動画データを、トピックごとに分割することができるトピック分割装置を提供することを目的とする。 Accordingly, it is an object of the present invention to solve the above-mentioned problems and to provide a topic dividing device capable of dividing moving image data with a small change in speakers for each topic.
上記課題を解決するために、本発明のトピック分割装置は、入力した動画データから音声部分を抽出する音声抽出部と、前記音声部分から、所定時刻ごとに、意味情報を表す特徴量を算出する算出部と、前記特徴量の変化に基づいて、一または複数の動画分割時刻を特定する特定部と、前記動画分割時刻に基づいて、前記動画データを分割する分割部と、を備える。 In order to solve the above-mentioned problem, a topic division device of the present invention calculates a feature amount representing semantic information at a predetermined time from a sound extraction unit that extracts a sound portion from input moving image data. The image processing apparatus includes a calculating unit, a specifying unit that specifies one or a plurality of moving image division times based on the change in the feature amount, and a dividing unit that divides the moving image data based on the moving image division time.
この構成により、動画データにおける音声部分の意味内容から動画データを分割することができ、動画データをそのトピックごとに分割することができる。 With this configuration, the moving image data can be divided from the meaning of the audio part in the moving image data, and the moving image data can be divided for each topic.
本発明は、動画データのトピック分割を行うことができる。 According to the present invention, topic division of moving image data can be performed.
本実施形態にかかるトピック分割装置について、図面を用いて説明する。まず、本実施形態にかかるトピック分割装置の構成について説明する。図1は、本実施形態にかかるトピック分割装置の機能構成を示すブロック図である。本実施形態のトピック分割装置100は、蓄積装置101、コンテンツ読込部102(音声抽出部)、内容特徴量計算部103(算出部)、内容変化度解析部104(特定部)、および分割処理部105(分割部)を含む。本実施形態において、トピックとは、発話内容の一の話題を示す。このトピック分割装置100は、話題ごとに動画データを分割、いわゆるトピック分割するための装置である。以下、詳細に説明する。
A topic division device according to the present embodiment will be described with reference to the drawings. First, the configuration of the topic division device according to the present embodiment will be described. FIG. 1 is a block diagram illustrating a functional configuration of the topic division device according to the present embodiment. The topic dividing
蓄積装置101は、分割前の動画データおよび分割後の動画データを記憶する装置である。
The
コンテンツ読込部102は、蓄積装置101から動画データを読み込み、音声部分(音声データ)と映像部分(映像データ)とを抽出する部分である。
The
内容特徴量計算部103は、コンテンツ読込部102から音声部分を受け取り、所定の時間単位で構成される音声を、意味情報を表す特徴量へと変換し、所定の時間単位の音声の起点を示す時刻(発話した時刻)とそれに対応する特徴量とのペアを算出する部分である。
The content feature
この内容特徴量計算部103は、音声認識機能を備え、当該音声認識機能により音声波形を発話内容の文字列へと変換し、これを形態素、単語、または文として、意味を持つ認識単位へと分割し、各認識単位をベクトル化する。ベクトル化する手法は、Word2Vec、GloVe、FastTextなど公知の手法を使う。文を認識単位とする場合には、Sentence2Vecもあり得る。この構成により、内容特徴量計算部103は、各時間単位の意味情報を表す特徴量(ベクトル)と発話した時刻とのペアへと変換することが可能である。さらに図2(a)および図2(b)に示すように、内容特徴量計算部103は、任意長のフィルタ内の各認識単位における特徴量の和を算出することで、フィルタ長Nの意味情報を表す特徴量と発話した時刻とのペアを算出する。例えば、[0秒、(0.2、0.4、・・・)]などのような配列からなるペア情報を計算する。なお、ここでは“0秒”は、フィルタの起点となる時刻情報であり、この時刻情報のうち所定条件を満たした情報が、動画分割時刻となる。(0.2、0.4、・・・)は、ベクトル情報であって、フィルタで捉えられた文字列の特徴量を示す。
The content
さらに詳細に説明する。図2(a)は、フィルタ長Nの長さを有するフィルタで、発話した内容を処理することを示す概念図である。図に示されるとおり、フィルタが捉えた、時刻t0〜t1(時刻t1=時刻t0+N)の間における発話内容は「ニュースはまずこちら」である。それぞれ認識単位は「ニュース」「は」「まず」「こちら」であり、それぞれの特徴量が算出される。内容特徴量計算部103は、このフィルタ内における各認識単位の特徴量を合算する。なお、特徴量を合算するに際して、正規化してもよい。
This will be described in more detail. FIG. 2A is a conceptual diagram showing that a uttered content is processed by a filter having a filter length N. As shown in the figure, the filter is captured, speech content in between the time t 0 ~t 1 (time t 1 = time t 0 + N) is "news here first." Recognition units are "news", "ha", "first", and "here", and the respective feature amounts are calculated. The content feature
図2(b)は、時刻t2(=時刻t0+d)〜時刻t3(=時刻t0+d+N)の長さを有するフィルタで、発話した内容を処理することを示す概念図である。フィルタは、時間dだけ、ずれることにより、フィルタは発話内容として「まずこちらの映像」を捉える。同様に、認識単位は「まず」「こちら」「の」「映像」であり、それぞれの特徴量が算出される。内容特徴量計算部103は、このフィルタ内における各認識単位の特徴量を合算する。上記の通り、内容特徴量計算部103は、各フィルタ内における各認識単位の特徴量を合算し、それぞれ時刻(フィルタの起点となる時刻)とともに算出する。これら処理を、フィルタを時間dずらしながら動画データの終端まで繰り返し行う。
FIG. 2B is a conceptual diagram showing that the uttered content is processed by a filter having a length from time t 2 (= time t 0 + d) to time t 3 (= time t 0 + d + N). The filter shifts by the time d, so that the filter captures “first this image” as the utterance content. Similarly, the recognition unit is “first”, “here”, “no”, and “video”, and the respective feature amounts are calculated. The content feature
内容変化度解析部104は、内容特徴量計算部103から、発話した時刻(各フィルタの起点時刻)とそれに対応する特徴量とのペアを受け取り、トピックの変化した時刻を検出する部分である。
The content change
この内容変化度解析部104は、特徴量(ベクトル)の変化を算出する手法を用いて、意味情報を表す特徴量と時刻とのペアに基づいて、各時刻の特徴量の変化度を計算する。すなわち、内容変化度解析部104は、時系列順に並んでいるペアにおいて、隣同士のペアの差分を計算することでペアの変化度を算出する。例えば、以下の計算を行う。
The content change
変化度ptn=特徴量の和Wtn−特徴量の和Wtn+1
tnは時刻であり、Wtnは、時刻tnの特徴量の和を示す。
Degree of change p tn = sum of feature amounts W tn -sum of feature amounts W tn + 1
t n is time, and W tn indicates the sum of the feature amounts at time t n .
そして、内容変化度解析部104は、所定条件を満たす変化度pの時刻tnを動画分割時刻として選択する。なお、時刻tn+1を動画分割時刻としてもよい。所定条件としては、以下の通りの条件およびそのための処理が考えられる。
Then, the content change
例えば、内容変化度解析部104は、あらかじめ分割したいトピック数を与える場合には、変化度の高い順に分割トピック数を得るためのいくつかの時刻を取得する。また、内容変化度解析部104は、あらかじめ分割したいトピック数を与えない場合には、閾値を設定し、その閾値を超える変化度の時刻を取得する。
For example, when the number of topics to be divided is given in advance, the content change
また、一つのトピックの動画の時間長としてあり得る最短の時間を事前に与えることで、内容変化度解析部104は、任意の二つの時刻の差がそれより短いか否かを判断し、短い場合には、より変化度の小さい時刻を削除することが可能である。
Also, by giving in advance the shortest possible time as the time length of the video of one topic, the content change
例えば、あり得る最短の時間がLのとき、図3に示す閾値を超えた変化度p1、p2、p3について、変化度p1と変化度p2の時刻の差はL未満のため、変化度の小さい変化度p1に対応する動画分割時刻が削除される。同様に、変化度p2と変化度p3の時刻の差はL未満のため、変化度の小さい変化度p3の動画分割時刻が削除される。すなわち、内容変化度解析部104は、任意に決めた変化度pに対して所定時間Lの範囲に、他の変化度pがあった場合には、いずれの変化度pが高いかを判断し、低い変化度pに対応する動画分割時刻を削除する処理を行う。そして、残った変化度pに対して再度所定時間Lの範囲に、他の変化度pがあるか否かを判断し、同様に対応する動画分割時刻を削除する処理を行う。これら処理を繰り返し行うことにより、所定時間Lの範囲内に、変化度pが複数存在しなくなる。
For example, when the shortest possible time is L, the difference between the changes p1, p2, and p3 exceeding the threshold shown in FIG. The moving image division time corresponding to the degree of change p1 is deleted. Similarly, since the difference between the times of the change degree p2 and the change degree p3 is less than L, the moving image division time of the change degree p3 with the small change degree is deleted. That is, the content change
分割処理部105は、内容変化度解析部104で得られた動画分割時刻で、入力された動画データを分割し、分割した動画データを蓄積装置101に記録する部分である。
The
なお、上記実施形態にかかる内容特徴量計算部103で、発話内容を意味のある単位に分割するとき、この分割された単位の切れ目の時刻(以下、発話単位時刻とする)を分割処理部105は受け取ってもよい。この切れ目の時刻を特定する手法として、Voice Activity Detectionを利用することが可能である。このとき分割処理部105は、内容変化度解析部104で得られた動画分割時刻を、最も近い発話単位時刻へと変換してもよい。このような構成にすることで、図1の構成において意味のある単位の途中でトピック分割が行われていた場合、変形後には意味のある単位の開始前か、終了後に分割される動画分割時刻が移される。
When the utterance content is divided into meaningful units by the content feature
つぎに、本実施形態にかかるトピック分割装置100の動作について、図4のフローチャートを参照して説明する。図4は、トピック分割装置100の動作を示すフローチャートである。
Next, the operation of the
コンテンツ読込部102が蓄積装置101から動画データを読み込む(S101)。コンテンツ読込部102が動画データから音声部分を抽出し、内容特徴量計算部103が受け取る(S102)。内容特徴量計算部103が、受け取った音声部分(音声波形)を、音声認識により文字列に変換する(S103)。内容特徴量計算部103が、文字列を形態素、単語、または文といった意味のある単位(認識単位)に分割する(S104)。内容特徴量計算部103が、認識単位ごとに、分割された文字列を、意味情報を表す特徴量(ベクトル情報)へと変換する(S105)。
The
内容特徴量計算部103は、時刻Tを0に設定する。時刻Tは、動画データの時刻情報を示す。そして、内容特徴量計算部103は、時刻Tを起点として、所定時間長における特徴量の和を算出し、時刻Tにおける特徴量の和のペアを算出する(S107)。つぎに、内容特徴量計算部103は、時刻Tに時間dを加算し、それを新たな時刻Tとし(S108)、新たな時刻Tに基づいて、所定時間長における特徴量の和を算出し、時刻Tにおける特徴量の和のペアを算出する。これを動画データの終端まで繰り返し処理する。
The content feature
ステップS107における処理を詳細に説明する。図2(a)および図2(b)に示すように、内容特徴量計算部103は、フィルタ長Nを持つフィルタを時間方向にスライドさせながら、フィルタ内部の各認識単位の特徴量の和を算出し、算出した特徴量の和と時刻とのペアを内容変化度解析部104に受け渡す。
The processing in step S107 will be described in detail. As shown in FIGS. 2A and 2B, the content feature
図2(a)に示されるとおり、時刻t0〜時刻t0+Nの間の文字列は、「ニュース」「は」「まず」「こちら」の認識単位からなり、内容特徴量計算部103は、それぞれの特徴量の和W1を算出する。図2(b)では、内容特徴量計算部103は、フィルタを時間dずらし、時刻t0+d〜時刻t0+N+dのフィルタに基づき、特徴量の和W2を算出する。これら処理が、動画データの終端まで繰り返し行われる(S107−S108)。
As shown in FIG. 2A, the character string between time t 0 and time t 0 + N is composed of recognition units of “news”, “ha”, “first”, and “here”, and the content feature
内容変化度解析部104が、意味情報を表す特徴量の各時刻における変化度を算出する(S109)。例えば、図2を例にとると、内容変化度解析部104は、和W1と、和W2との差を算出することで、変化度を算出する。すなわち、内容変化度解析部104は、各時刻間における変化度を算出する。
The content change
内容変化度解析部104は、各時刻間における変化度に基づいて、トピック分割に適した動画分割時刻を求める(S109)。すなわち、上述したとおり、変化度の大きい時刻を、動画分割時刻として求める。
The content change
そして、分割処理部105が、トピック分割に適した動画分割時刻で入力された動画データの分割を行い、分割した動画データを蓄積装置101に記憶する(S111)。
Then, the
この処理によって、音声部分の内容に応じて、動画データを分割することができる。すなわち、トピックごとに動画データを分割することができる。 By this processing, the moving image data can be divided according to the content of the audio part. That is, moving image data can be divided for each topic.
続いて、他の実施形態にかかるトピック分割装置100aについて説明する。図5は、トピック分割装置100aの機能構成を示すブロック図である。このトピック分割装置100aは、映像特徴を用いて分割するための装置が追加されている。すなわち、トピック分割装置100aは、蓄積装置101、コンテンツ読込部102(映像抽出部)、内容特徴量計算部103、内容変化度解析部104、および分割処理部105aに加えて、安定領域検出部106(領域検出部)、映像変化度解析部107(解析部)を含んでいる。分割処理部105aは、音声部分における動画分割時刻(および発話単位時刻)と、映像部分における分割可能時間帯とに基づいて分割できる構成である。以下、映像部分を用いて分割するための処理構成について説明する。
Subsequently, a topic division device 100a according to another embodiment will be described. FIG. 5 is a block diagram showing a functional configuration of the topic division device 100a. The topic dividing device 100a has an additional device for dividing using a video feature. That is, the topic dividing device 100a includes a stable
安定領域検出部106は、コンテンツ読込部102から映像部分を受け取り、映像を通して変化の少ない領域(以下、安定領域とする)を検出する部分である。図6に示すように、撮影された映像と編集時に挿入されるCG部分1およびCG部分2が混在する動画において、撮影された映像部分は、常に微小な変化はある一方で、編集時に追加されるCG部分は、変化しない時間帯と変化する時間帯を繰り返す安定した領域である(以下、安定領域とする)。例えば、このCG部分1およびCG部分2は、ニュース番組などのテロップ、キャプションなどである。
The stable
安定領域検出部106は、このような安定領域を検出するために、各画素において、時系列方向での分散を算出し、離散値を二値化する手法を用い、あるいは閾値を下回る画素を抽出することで、分散が閾値以上の領域と分散が閾値未満の領域とに全画素を分類する。安定領域検出部106は、分散が閾値未満の領域を安定領域として検出する。すなわち、安定領域検出部106は、上記CG部分を検出する。
In order to detect such a stable region, the stable
映像変化度解析部107は、安定領域検出部106で得られた安定領域の変化が大きい部分をトピック分割の候補の時間帯である分割可能時間帯として検出する部分である。すなわち、映像変化度解析部107は、内容変化度解析部104と同様に、変化度が閾値を超えた部分を分割可能時間帯として検出する。なお、映像変化度解析部107は、安定領域内において、時系列方向に画素単位での変化度を算出する。安定領域内の変化度は、RGBの割合の変化を見ることによって、求められる。
The video change
分割処理部105aは、内容変化度解析部104で得られた動画分割時刻のうち映像変化度解析部107で得られた分割可能時間帯に含まれる動画分割時刻で、入力された動画データを分割し、蓄積装置101に記憶する部分である。さらに分割処理部105aは、内容特徴量計算部103で音声認識した結果に基づいて、発話の切れ目の時刻に基づいて動画分割時刻を調整する。
The division processing unit 105a divides the input moving image data at the moving image division time included in the dividable time zone obtained by the video change
以下、図面を用いて動画分割時刻の選択処理について説明する。図7に示すように、内容変化度解析部104により算出された変化度のうち、閾値を超える変化度として、変化度p1〜変化度p5の5つが存在した場合で、安定領域の変化が閾値を超えた分割可能時間帯s1〜s3を想定する。この場合、変化度p1〜p5における動画分割時刻のうち、分割可能時間帯s1〜s3に含まれる変化度p2、p3、p5に対応する時刻がトピック分割すべき動画分割時刻として選択される。
Hereinafter, a process of selecting a moving image division time will be described with reference to the drawings. As shown in FIG. 7, in the case where there are five change degrees p <b> 1 to change degree p <b> 5 among the change degrees calculated by the content change
この構成により、映像部分の内容と音声部分の内容との両方に基づいてトピック分割することができる。 With this configuration, topic division can be performed based on both the content of the video portion and the content of the audio portion.
つぎに、他の本実施形態にかかるトピック分割装置100aの動作について説明する。図8は、映像部分と音声部分とを用いて、トピック分割を行うトピック分割装置100aの動作を示すフローチャートである。 Next, the operation of the topic division device 100a according to another embodiment will be described. FIG. 8 is a flowchart showing the operation of the topic division device 100a that divides a topic using a video part and an audio part.
ステップS101〜S109は、上記本実施形態における処理と同じであり、音声部分における意味を示す特徴量に基づいて内容を解析して、動画分割時刻を特定する処理である。 Steps S101 to S109 are the same as the processing in the present embodiment described above, and are processings for analyzing the content based on the characteristic amount indicating the meaning in the audio part and specifying the moving image division time.
ステップS101において、コンテンツ読込部102は、蓄積装置101から動画データを読込み、さらに動画データから映像部分を抽出する(S102a)。安定領域検出部106は、抽出した映像部分から各画素の時系列方向の分散を算出する(S103a)。安定領域検出部106が、一定以上の分散を持つ画素と一定未満の分散を持つ画素とに各画素を分類し、一定未満の分散と分類された画素の集合を安定領域とする(S104a)。このとき、安定領域の外形が矩形であるといった情報を事前に与え、それに該当する領域のみに安定領域を限定しても良い。
In step S101, the
つぎに、映像変化度解析部107が、安定領域内の時系列方向の変化度を算出し(S104a)、閾値を超える変化度があった時間帯を分割可能時間帯として算出する(S105a)。
Next, the video change
そして、分割処理部105aが、図7に示すように、内容変化度解析部104から渡された動画分割時刻のうち、映像変化度解析部107から渡された分割可能時間帯に含まれる動画分割時刻で、動画データの分割を行い、分割した動画データを蓄積装置101に記憶する。このとき、発話の途中でトピック分割されることを避けるため、図9に示すように、各トピック分割の時刻を、内容変化度解析部104から渡された発話単位時刻の中から最近傍のものに変換しても良い。なお、図9において、時刻X1、X2が、内容変化度解析部104から渡された動画分割時刻であり、時刻Y1、Y2が、時刻X1、X2に最も近い発話単位時刻である。それぞれ時刻X1を時刻Y1に、時刻X2を時刻Y2に変更することで、発話の切れ目で動画データを分割することができる。
Then, as shown in FIG. 7, the division processing unit 105 a divides the moving image division time included in the divisional time zone passed from the video change
つぎに、本実施形態のトピック分割装置100の作用効果について説明する。このトピック分割装置100は、入力した動画データから音声部分を抽出するコンテンツ読込部102と、音声部分から、所定時刻ごとに、意味情報を表す特徴量を算出する内容特徴量計算部103と、特徴量の変化に基づいて、一または複数の動画分割時刻を特定する内容変化度解析部104と、動画分割時刻に基づいて、動画データを分割する分割処理部105と、を備える。
Next, the operation and effect of the
この構成により、動画データにおける音声部分の意味内容から動画データを分割することができる。したがって、動画データにおけるトピックごとに分割することができる。例えばニュース番組のようにいくつかのトピックに分かれている動画データをそのトピックごとに分割することで、動画データの編集等を容易にすることができる。 With this configuration, the moving image data can be divided from the meaning of the audio part in the moving image data. Therefore, the video data can be divided for each topic. For example, by dividing moving image data divided into several topics such as a news program for each topic, editing of moving image data and the like can be facilitated.
特に、発話内容の話題の変化を用いることで、音響特徴や画像特徴における変化が乏しくとも動画データを分割できる。 In particular, by using the change of the topic of the utterance content, the moving image data can be divided even if the change in the acoustic feature or the image feature is small.
また、本実施形態のトピック分割装置100において、内容特徴量計算部103は、音声部分における音声波形を入力し、各時刻間における波形を、意味情報を表す特徴量に変換する変換部を有する。内容変化度解析部104は、特徴量と時刻とのペアに基づいて動画分割時刻を特定し、分割処理部105は、動画データを分割する。
Further, in the
また、本実施形態のトピック分割装置100において、内容変化度解析部104は、特徴量と時刻とのペアに基づいて、時系列上での特徴量の変化から話題の変化した時刻を検出して、動画分割時刻として特定する時刻検出部を含む。
Further, in the
また、本実施形態のトピック分割装置100において、内容変化度解析部104は、特徴量の変化量が所定条件を満たすときの動画分割時刻が複数ある場合に、動画分割時刻における時間差が所定値以下である場合には、その変化量に基づいていずれかの動画分割時刻を選択する。例えば、所定条件とは、変化量が所定値以上である、または所定の順位内の変化量とする。
Further, in the
また、本実施形態のトピック分割装置100および他の実施形態のトピック分割装置100aにおいて、分割処理部105(105a)は、音声部分における発話の切れ目に基づいて、動画分割時刻を調整して分割する。この構成により、発話の途中で分割することを防止することができる。
Further, in the
また、他の本実施形態におけるトピック分割装置100aは、入力した動画データから映像部分を抽出するコンテンツ読込部102と、映像部分から安定領域を検出する安定領域検出部106と、安定領域の映像部分の変化を解析する映像変化度解析部107と、を備え、分割処理部105aは、動画分割時刻に加えて、映像部分の変化に基づいて、動画データを分割する。
The topic dividing apparatus 100a according to another embodiment includes a
この構成により、音声部分と映像部分とから動画データを分割することができる。特に映像部分には、安定領域を含むことが多く、この安定領域は、内容に連動して変化する場合が多い。従って、内容に則した動画分割時刻を特定し、それに基づいた分割を行うことができる。 With this configuration, the moving image data can be divided from the audio part and the video part. In particular, the video portion often includes a stable region, and the stable region often changes in accordance with the content. Therefore, it is possible to specify the moving image division time according to the content and perform the division based on the time.
また、他の実施形態におけるトピック分割装置100aにおいて、安定領域検出部106は、安定領域における各画素の時系列における変化を参照し、話題が変化していない箇所では画素値の変化の少ない領域を安定領域として検出する。
Further, in the topic dividing device 100a according to another embodiment, the stable
この構成により、ニュース番組などのテロップなどの安定領域を正確に検出することができる。 With this configuration, a stable area such as a telop of a news program can be accurately detected.
また、他の実施形態におけるトピック分割装置100aにおいて、映像変化度解析部107は、安定領域として検出された箇所が変化した一または複数の時間帯を分割可能時間帯として検出し、分割処理部105aは、検出した分割可能時間帯および動画分割時刻に基づいて、動画データを分割する。
Further, in the topic dividing device 100a according to another embodiment, the video change
この構成により、内容に則した動画分割時刻を正確に特定し、それに基づいた分割を行うことができる。 With this configuration, it is possible to accurately specify a moving image division time in accordance with the content, and perform division based on the time.
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。 Note that the block diagram used in the description of the above-described embodiment shows blocks in functional units. These functional blocks (components) are realized by an arbitrary combination of at least one of hardware and software. In addition, a method of implementing each functional block is not particularly limited. That is, each functional block may be realized using one device physically or logically coupled, or directly or indirectly (for example, two or more devices physically or logically separated from each other). , Wired, wireless, etc.), and may be implemented using these multiple devices. The functional block may be realized by combining one device or the plurality of devices with software.
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。 Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, resolution, selection, selection, establishment, comparison, assumption, expectation, deemed, Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, but not limited to these I can't. For example, a functional block (configuration unit) that causes transmission to function is called a transmitting unit (transmitting unit) or a transmitter (transmitter). In any case, as described above, the realization method is not particularly limited.
例えば、本開示の一実施の形態におけるトピック分割装置100(100a)などは、本開示の無線通信方法の処理を行うコンピュータとして機能してもよい。図10は、本開示の一実施の形態に係るトピック分割装置100(100a)のハードウェア構成の一例を示す図である。上述のトピック分割装置100(100a)は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
For example, the topic division device 100 (100a) or the like according to an embodiment of the present disclosure may function as a computer that performs processing of the wireless communication method according to the present disclosure. FIG. 10 is a diagram illustrating an example of a hardware configuration of the topic division device 100 (100a) according to an embodiment of the present disclosure. The above-described topic division device 100 (100a) may be physically configured as a computer device including a
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。トピック分割装置100(100a)のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。 In the following description, the term “apparatus” can be read as a circuit, a device, a unit, or the like. The hardware configuration of the topic division device 100 (100a) may be configured to include one or more devices shown in the drawing, or may be configured without including some devices.
トピック分割装置100(100a)における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
The functions of the topic dividing apparatus 100 (100a) are controlled by reading predetermined software (program) on hardware such as the
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述の内容特徴量計算部103、内容変化度解析部104などは、プロセッサ1001によって実現されてもよい。
The
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、トピック分割装置100(100a)の内容特徴量計算部103等は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
In addition, the
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
The
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
The
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。
The
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
The
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
Each device such as the
また、トピック分割装置100(100a)は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
The topic dividing device 100 (100a) includes hardware such as a microprocessor, a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). It may be configured to include hardware, and some or all of the functional blocks may be realized by the hardware. For example, the
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、DCI(Downlink Control Information)、UCI(Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、MAC(Medium Access Control)シグナリング、報知情報(MIB(Master Information Block)、SIB(System Information Block)))、その他の信号又はこれらの組み合わせによって実施されてもよい。また、RRCシグナリングは、RRCメッセージと呼ばれてもよく、例えば、RRC接続セットアップ(RRC Connection Setup)メッセージ、RRC接続再構成(RRC Connection Reconfiguration)メッセージなどであってもよい。 The notification of information is not limited to the aspects / embodiments described in the present disclosure, and may be performed using another method. For example, the information is notified by physical layer signaling (for example, DCI (Downlink Control Information), UCI (Uplink Control Information)), higher layer signaling (for example, RRC (Radio Resource Control) signaling, MAC (Medium Access Control) signaling, Broadcast information (MIB (Master Information Block), SIB (System Information Block))), other signals, or a combination thereof may be used. Further, the RRC signaling may be called an RRC message, and may be, for example, an RRC connection setup message, an RRC connection reconfiguration message, or the like.
本開示において説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、NR(new Radio)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE−Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。 Each aspect / embodiment described in the present disclosure is applicable to LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G (4th generation mobile communication system), 5G (5th generation mobile communication system). system), FRA (Future Radio Access), NR (new Radio), W-CDMA (registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi (registered trademark) )), Systems utilizing IEEE 802.16 (WiMAX®), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth (registered trademark), and other suitable systems, and extensions based thereon. It may be applied to at least one of the next generation systems. Further, a plurality of systems may be combined (for example, a combination of at least one of LTE and LTE-A with 5G) and applied.
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The processing procedure, sequence, flowchart, and the like of each aspect / embodiment described in the present disclosure may be rearranged as long as there is no inconsistency. For example, for the methods described in this disclosure, elements of various steps are presented in an exemplary order, and are not limited to the specific order presented.
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。 The terms "determining" and "determining" as used in the present disclosure may encompass a wide variety of operations. `` Judgment '', `` decision '', for example, judgment (judging), calculation (calculating), calculation (computing), processing (processing), derivation (deriving), investigating (investigating), searching (looking up, search, inquiry) (E.g., searching in a table, database, or another data structure), ascertaining may be considered "determined", "determined", and the like. Also, “determining” and “deciding” include receiving (eg, receiving information), transmitting (eg, transmitting information), input (input), output (output), and access. (accessing) (for example, accessing data in a memory) may be regarded as “determined” or “determined”. In addition, `` judgment '' and `` decision '' means that resolving, selecting, selecting, establishing, establishing, comparing, etc. are considered as `` judgment '' and `` decided ''. May be included. In other words, “judgment” and “decision” may include deeming any operation as “judgment” and “determined”. “Judgment (determination)” may be read as “assuming”, “expecting”, “considering”, or the like.
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 The phrase "based on" as used in the present disclosure does not mean "based solely on" unless stated otherwise. In other words, the phrase "based on" means both "based only on" and "based at least on."
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 Where the terms “include”, “including” and variations thereof are used in the present disclosure, these terms are as inclusive as the term “comprising” Is intended. Further, the term "or" as used in the present disclosure is not intended to be an exclusive or.
本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。 In the present disclosure, where articles are added by translation, for example, a, an and the in English, the present disclosure may include that the nouns following these articles are plural.
100 …トピック分割装置、100a…トピック分割装置、101…蓄積装置、102…コンテンツ読込部、103…内容特徴量計算部、104…内容変化度解析部、105…分割処理部、105a…分割処理部、106…安定領域検出部、107…映像変化度解析部。
100: Topic dividing device, 100a: Topic dividing device, 101: Storage device, 102: Content reading unit, 103: Content feature amount calculating unit, 104: Content change degree analyzing unit, 105: Dividing processing unit, 105a: Dividing processing unit .., 106... A stable area detection unit, 107.
Claims (7)
前記音声部分から、所定時刻ごとに、意味情報を表す特徴量を算出する算出部と、
前記特徴量の変化に基づいて、一または複数の動画分割時刻を特定する特定部と、
前記動画分割時刻に基づいて、前記動画データを分割する分割部と、
を備えるトピック分割装置。 An audio extraction unit for extracting an audio part from the input video data,
A calculating unit that calculates a feature amount representing semantic information from the audio portion at each predetermined time;
A specifying unit that specifies one or a plurality of moving image division times based on the change in the feature amount;
A dividing unit that divides the moving image data based on the moving image division time;
A topic division device comprising:
前記音声部分における音声波形を入力し、各時刻間における波形を、意味情報を表す特徴量に変換する変換部を含み、
前記特定部は、特徴量と時刻とのペアに基づいて動画分割時刻を特定し、
前記分割部は、前記動画データを分割する、
請求項1に記載のトピック分割装置。 The calculation unit,
A conversion unit for inputting a voice waveform in the voice portion and converting a waveform between respective times into a feature amount representing semantic information,
The specifying unit specifies a moving image division time based on a pair of a feature amount and a time,
The dividing unit divides the moving image data,
The topic dividing device according to claim 1.
前記特徴量の変化量が所定条件を満たすときの動画分割時刻が複数ある場合に、動画分割時刻における時間差が所定値以下である場合には、その変化量に基づいていずれかの動画分割時刻を選択する、
請求項1または2に記載のトピック分割装置。 The identification unit is
When there are a plurality of moving image division times when the amount of change in the feature amount satisfies a predetermined condition, and when the time difference between the moving image division times is equal to or less than a predetermined value, one of the moving image division times is determined based on the change amount. select,
The topic dividing device according to claim 1.
前記映像部分から安定領域を検出する領域検出部と、
前記安定領域の映像部分の変化を解析する解析部と、
を備え、
前記分割部は、前記動画分割時刻に加えて、前記映像部分の変化に基づいて、前記動画データを分割する、請求項1〜4のいずれか一項に記載のトピック分割装置。 A video extracting unit for extracting a video portion from the input moving image data,
An area detection unit that detects a stable area from the image portion,
An analysis unit that analyzes a change in an image portion of the stable region,
With
The topic division device according to claim 1, wherein the division unit divides the moving image data based on a change in the video portion in addition to the moving image division time.
前記安定領域における各画素の時系列における変化を参照し、話題が変化していない箇所では画素値の変化の少ない領域を安定領域として検出する、請求項5に記載のトピック分割装置。 The area detection unit,
6. The topic division device according to claim 5, wherein a time-series change of each pixel in the stable area is referred to, and an area having a small change in pixel value is detected as a stable area in a place where the topic has not changed.
前記安定領域として検出された箇所が変化した一または複数の時間帯を分割可能時間帯として検出し、
前記分割部は、
前記分割可能時間帯および前記動画分割時刻に基づいて、前記動画データを分割する、請求項5または6に記載のトピック分割装置。
The analysis unit,
Detecting one or more time zones where the location detected as the stable area has changed as a dividable time zone,
The dividing unit includes:
The topic division device according to claim 5, wherein the moving image data is divided based on the divideable time zone and the moving image division time.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018162452A JP2020035261A (en) | 2018-08-31 | 2018-08-31 | Topic splitter |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018162452A JP2020035261A (en) | 2018-08-31 | 2018-08-31 | Topic splitter |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2020035261A true JP2020035261A (en) | 2020-03-05 |
Family
ID=69668207
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018162452A Pending JP2020035261A (en) | 2018-08-31 | 2018-08-31 | Topic splitter |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2020035261A (en) |
-
2018
- 2018-08-31 JP JP2018162452A patent/JP2020035261A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7166350B2 (en) | dialogue device | |
| US7945864B2 (en) | Operation assisting apparatus and operation assisting method | |
| JP6802364B2 (en) | Dialogue system | |
| CN109086276B (en) | Data translation method, device, terminal and storage medium | |
| JP7438191B2 (en) | information processing equipment | |
| JP6782329B1 (en) | Emotion estimation device, emotion estimation system, and emotion estimation method | |
| JP7003228B2 (en) | Dialogue server | |
| JP7016405B2 (en) | Dialogue server | |
| JP2024097525A (en) | Synchronous Control Device | |
| JP7087095B2 (en) | Dialogue information generator | |
| US20210034678A1 (en) | Dialogue server | |
| JP2020035261A (en) | Topic splitter | |
| US12164876B2 (en) | Interactive system | |
| WO2021251187A1 (en) | Prediction device | |
| JP6745402B2 (en) | Question estimator | |
| JP2021124913A (en) | Retrieval device | |
| US11914601B2 (en) | Re-ranking device | |
| JP2024097523A (en) | Synchronous Control Device | |
| WO2024089955A1 (en) | Information processing device | |
| JPWO2019216054A1 (en) | Dialogue server | |
| JP2019016048A (en) | Information processing apparatus and program | |
| JP2020129776A (en) | Control system | |
| JP2020071758A (en) | Control system and control method | |
| JP2024169918A (en) | Automatic scoring device | |
| JP2024169914A (en) | Automatic scoring device |