JP2006237791A - Information processing apparatus and program - Google Patents
Information processing apparatus and program Download PDFInfo
- Publication number
- JP2006237791A JP2006237791A JP2005046716A JP2005046716A JP2006237791A JP 2006237791 A JP2006237791 A JP 2006237791A JP 2005046716 A JP2005046716 A JP 2005046716A JP 2005046716 A JP2005046716 A JP 2005046716A JP 2006237791 A JP2006237791 A JP 2006237791A
- Authority
- JP
- Japan
- Prior art keywords
- still image
- location
- utterance
- output
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 claims abstract description 131
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 description 69
- 230000008569 process Effects 0.000 description 48
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007664 blowing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】従来の情報処理装置においては、動画から所定の静止画を適切に抽出して出力できないという課題があった。
【解決手段】映像を有する映像情報と音声を有する音声情報を含むコンテンツを1以上格納しているコンテンツ格納部101と、前記音声に基づいて、発話している箇所である発話箇所を検出する発話箇所検出部102と、前記発話箇所検出部102が検出した発話箇所を構成する1以上の静止画を前記映像から抽出する静止画抽出部104と、前記静止画抽出部104が抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力部108を具備する情報処理装置により、動画から所定の静止画を適切に抽出して出力できる。
【選択図】図1
A conventional information processing apparatus has a problem that a predetermined still image cannot be appropriately extracted from a moving image and output.
A content storage unit that stores at least one content including video information having video and audio information having audio, and an utterance that detects an utterance location that is an utterance location based on the audio. A location detection unit 102; a still image extraction unit 104 that extracts one or more still images constituting the utterance location detected by the utterance location detection unit 102; and one or more extracted by the still image extraction unit 104 A predetermined still image can be appropriately extracted from the moving image and output by the information processing apparatus including the output unit 108 that outputs the still image to one or more non-overlapping windows.
[Selection] Figure 1
Description
本発明は、動画から所定の静止画を抽出して出力する情報処理装置等に関するものである。 The present invention relates to an information processing apparatus that extracts and outputs a predetermined still image from a moving image.
従来の動画等を要約する動画要約方法において、動画内の意味的に重要なイベントを自動抽出することが可能な動画要約方法が存在する(例えば、特許文献1参照)。本動画要約方法は、動画の特徴を抽出する特徴抽出器40と、特徴をインテグレートし境界を決定するための隠れマルコフモデルなどのモデルを使用する確率モデル42と、コマーシャル及び非コマーシャルスローモーション再生セグメントを区別するコマーシャル/非コマーシャルフィルタ44と、検出したスローモーション再生セグメントに基づき要約を生成する要約生成器46とを含む。本動画要約方法における特徴抽出器40は、ブロック50でカラーヒストグラムから特徴を抽出し、ブロック52で画素に基づく差から3つの特徴を抽出する。ブロック52で抽出した特徴は、再生セグメントのスローモーション,静止フィールド,及び/又はノーマル速度再生の各構成成分を特徴づける。本動画要約方法におけるブロック50で抽出した特徴は編集効果成分を特徴付ける。
また、本実施の形態で述べる動画や音声を含むコンテンツの取得方法に関して、非特許文献1において開示されている。
Further, Non-Patent
しかしながら、従来の動画要約方法を実現する情報処理装置においては、動画の中から適切に静止画を切り出して、効果的に出力することができないという課題があった。 However, the information processing apparatus that implements the conventional moving image summarization method has a problem that a still image cannot be appropriately cut out from the moving image and output effectively.
本第一の発明の情報処理装置は、映像を有する映像情報と音声を有する音声情報を含むコンテンツを1以上格納しているコンテンツ格納部と、前記音声に基づいて、発話している箇所である発話箇所を検出する発話箇所検出部と、前記発話箇所検出部が検出した発話箇所を構成する1以上の静止画を前記映像から抽出する静止画抽出部と、前記静止画抽出部が抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力部を具備する情報処理装置である。 The information processing apparatus according to the first aspect of the invention is a content storage unit that stores at least one content including video information having video and audio information having audio, and a portion that speaks based on the audio An utterance location detection unit that detects an utterance location, a still image extraction unit that extracts one or more still images constituting the utterance location detected by the utterance location detection unit, and a 1 extracted by the still image extraction unit The information processing apparatus includes an output unit that outputs the above still image to one or more windows that do not substantially overlap.
かかる構成により、会話や発言している場など、着目すべき場面を構成する静止画を自動的に抽出し、多数のウィンドウに配置することにより、例えば、イベントに参加した者の行動を要約する電子アルバムができる。 With this configuration, for example, the actions of those who participated in the event are summarized by automatically extracting still images that make up the scene to be noticed, such as conversation or speaking, and placing them in many windows. An electronic album is available.
また、本第二の発明の情報処理装置は、映像を有する映像情報と音声を有する音声情報を含むコンテンツを1以上格納しているコンテンツ格納部と、前記映像に写っている2以上のオブジェクトが対向していることを検知する対向箇所検出部と、前記対向箇所検出部が検出した対向箇所を構成する映像の中から、1以上の静止画を抽出する静止画抽出部と、前記静止画抽出部が抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力部を具備する情報処理装置である。 The information processing apparatus according to the second aspect of the invention includes a content storage unit that stores at least one content including video information having video and audio information having audio, and two or more objects reflected in the video. A facing part detection unit that detects that they are facing each other; a still image extraction unit that extracts one or more still images from the video that configures the facing part detected by the facing part detection unit; and the still image extraction The information processing apparatus includes an output unit that outputs one or more still images extracted by the unit to one or more non-overlapping windows.
かかる構成により、オブジェクトに対向しており、主人公が見ている場など、着目すべき場面を構成する静止画を自動的に抽出し、多数のウィンドウに配置することにより、例えば、イベントに参加した者の行動を要約する電子アルバムができる。 With this configuration, for example, you participated in an event by automatically extracting still images that make up the scene you should pay attention to, such as the place where the main character is viewing, facing the object, and placing it in many windows. An electronic album summarizing the behavior of the person.
また、本第三の発明の情報処理装置は、第一の発明に対して、前記静止画抽出部は、発話箇所または/および対向箇所を構成する1以上の静止画を前記映像から繰り返し抽出し、前記出力部は、前記1以上のウィンドウに、前記静止画抽出部が抽出した静止画を切り換えながら出力する情報処理装置である。
かかる構成により、多数の場面を切り出した際に、狭いディスプレイでも、効果的に一連の行動が概観できる。
In the information processing apparatus according to the third aspect of the present invention, in contrast to the first aspect, the still image extraction unit repeatedly extracts one or more still images constituting an utterance location or / and an opposite location from the video. The output unit is an information processing apparatus that outputs the one or more windows while switching the still image extracted by the still image extraction unit.
With this configuration, when a large number of scenes are cut out, a series of actions can be effectively overviewed even on a narrow display.
また、本第四の発明の情報処理装置は、第一から第三の発明に対して、前記出力部は、前記静止画抽出部が抽出した静止画を出力する静止画出力手段と、前記静止画に重ねて吹き出しを出力する吹出出力手段を具備する情報処理装置である。
かかる構成により、切り出した複数の静止画を、漫画のように閲覧ができる。
Further, in the information processing apparatus according to the fourth aspect of the present invention, as compared with the first to third aspects, the output unit includes a still image output unit that outputs the still image extracted by the still image extraction unit, and the still image It is an information processing apparatus including a blowout output unit that outputs a blowout over a picture.
With this configuration, it is possible to view a plurality of cut out still images like a comic.
また、本第五の発明の情報処理装置は、第四の発明に対して、前記吹出出力手段は、前記静止画を有する映像に対応する音声を分析し、当該分析結果に応じて2種類以上の形状の吹き出しを区別して出力する情報処理装置である。
かかる構成により、吹き出しを見るだけで、どのような場面であったかを容易に把握できる。
Further, in the information processing apparatus according to the fifth aspect of the invention, in contrast to the fourth aspect of the invention, the blowout output means analyzes the sound corresponding to the video having the still image, and two or more types according to the analysis result It is an information processing apparatus which distinguishes and outputs the balloon of the shape.
With such a configuration, it is possible to easily grasp what kind of scene it was just by looking at the balloon.
また、本第六の発明の情報処理装置は、第三、第四の発明に対して、前記吹出出力手段は、前記静止画を有する映像に対応する音声を分析し、発話の長さを取得し、当該長さに応じた長さを有する文字列を吹き出し内に出力する情報処理装置である。
かかる構成により、吹き出し内の文字列を見るだけで、会話や発声の長さが、直感的に把握できる。
Further, in the information processing apparatus according to the sixth invention, in contrast to the third and fourth inventions, the blowing output means analyzes the voice corresponding to the video having the still image and acquires the length of the utterance. The information processing apparatus outputs a character string having a length corresponding to the length in a balloon.
With such a configuration, it is possible to intuitively grasp the length of conversation or utterance simply by looking at the character string in the balloon.
また、本第七の発明の情報処理装置は、第四から第六の発明に対して、前記映像を分析し、オブジェクトの少なくとも周辺の位置を検出する位置検出部をさらに具備し、前記吹出出力手段は、前記位置検出部が検出した位置周辺に吹き出しを出力する情報処理装置である。
かかる構成により、静止画に写っている人があたかも話しているような吹き出しを表示できる。
In addition, the information processing apparatus according to the seventh aspect of the invention further includes a position detection unit that analyzes the video and detects a position of at least the periphery of the object, as compared with the fourth to sixth aspects. The means is an information processing apparatus that outputs a balloon around the position detected by the position detection unit.
With this configuration, it is possible to display a speech balloon as if a person in a still image is talking.
また、本第八の発明の情報処理装置は、第四から第七の発明に対して、前記映像と前記音声を分析し、出力する静止画に対応する音声が、静止画に現れるユーザではないユーザの音声であることを検出する非表示ユーザ発声検出部をさらに具備し、前記吹出出力手段は、前記非表示ユーザ発声検出部が静止画に現れるユーザではないユーザの音声であることを検出した場合、前記ウィンドウの外または隅から吹き出しが現れる態様で吹き出しを出力する情報処理装置である。
かかる構成により、静止画中に写っていない人がお話していることを直感的に把握できる。
Further, the information processing apparatus according to the eighth aspect of the invention is not a user who analyzes the video and the sound and outputs the sound corresponding to the output still picture in the still picture, as compared with the fourth to seventh aspects of the invention. The non-display user utterance detection unit further detects that the voice is a user's voice, and the blowing output unit detects that the non-display user utterance detection unit is a voice of a user who is not a user who appears in a still image. In this case, the information processing apparatus outputs a speech balloon in such a manner that the speech balloon appears from the outside or corner of the window.
With this configuration, it is possible to intuitively understand that a person who is not shown in the still image is talking.
また、本第九の発明の情報処理装置は、第一から第六、第八の発明に対して、前記映像を分析し、オブジェクトの少なくとも周辺の位置を検出する位置検出部をさらに具備し、前記出力部は、前記位置検出部が検出した位置の周辺の領域と、他の領域とで出力態様を変更して、前記静止画を出力する情報処理装置である。
かかる構成により、着目したいオブジェクトを着目できる態様で表示できる。
また、本第十の発明の情報処理装置は、第九の発明に対して、前記出力部は、前記位置検出部が検出した位置の周辺の領域はカラーで、かつ他の領域はモノクロで、前記静止画を出力する情報処理装置である。
かかる構成により、適切なハイライト表示ができる。
The information processing apparatus according to the ninth aspect of the invention further includes a position detection unit that analyzes the video and detects at least a peripheral position of the object with respect to the first to sixth and eighth aspects of the invention, The output unit is an information processing apparatus that outputs the still image by changing an output mode between a region around the position detected by the position detection unit and another region.
With this configuration, it is possible to display an object in which attention is desired in a manner that allows attention.
The information processing apparatus according to the tenth aspect of the present invention is the information processing apparatus according to the tenth aspect of the present invention, wherein the output section is a color area around the position detected by the position detection section, and the other area is monochrome. An information processing apparatus that outputs the still image.
With this configuration, appropriate highlight display can be performed.
また、本第十一の発明の情報処理装置は、第一から第十の発明に対して、前記映像情報は、映像と当該映像に表れるオブジェクトを識別するオブジェクト識別子を有し、前記音声情報は、音声と音声の発話者を識別するオブジェクト識別子を有し、前記発話箇所検出部は、前記音声の大きさが所定以上の大きさの箇所である発話箇所であり、一のオブジェクト識別子と対になる音声と、ほぼ連続する他のオブジェクト識別子と対になる音声を有する対話の箇所である発話箇所を検出する情報処理装置である。
かかる構成により、対話している箇所に対応する静止画の切り出しができる。
The information processing apparatus according to the eleventh aspect of the present invention is the information processing apparatus according to the eleventh aspect, wherein the video information has an object identifier for identifying a video and an object appearing in the video, and the audio information is , Having an object identifier for identifying a voice and a voice speaker, the utterance point detection unit is a utterance point where the volume of the voice is equal to or larger than a predetermined size, and is paired with one object identifier. And an utterance part that is a part of a conversation having a voice paired with another object identifier that is substantially continuous.
With this configuration, it is possible to cut out a still image corresponding to the part where the conversation is performed.
また、本第十二の発明の情報処理装置は、第十一の発明に対して、前記対話の箇所である発話箇所を構成するコンテンツを分析し、場面の種類を決定する場面種決定部をさらに具備し、前記出力部は、前記場面の種類に基づいて、前記位置検出部が検出した位置の周辺の領域の形状が異なる情報処理装置である。
かかる構成により、ハイライト形状を見れば、場面の種類が直感的に把握できる。
The information processing apparatus according to the twelfth aspect of the present invention is the information processing apparatus according to the eleventh aspect, further comprising: a scene type determining unit that analyzes the content that constitutes the utterance location that is the location of the dialogue and determines the type of scene. Further, the output unit is an information processing apparatus in which the shape of the area around the position detected by the position detection unit is different based on the type of the scene.
With this configuration, the type of scene can be intuitively grasped by looking at the highlight shape.
本発明による情報処理装置によれば、動画から適切な静止画を抽出し、概観できる。 According to the information processing apparatus of the present invention, an appropriate still image can be extracted from a moving image and overviewed.
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
図1は、本実施の形態における情報処理装置のブロック図である。
Hereinafter, embodiments of an information processing apparatus and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
FIG. 1 is a block diagram of an information processing apparatus according to this embodiment.
情報処理装置は、コンテンツ格納部101、発話箇所検出部102、対向箇所検出部103、静止画抽出部104、位置検出部105、場面種決定部106、非表示ユーザ発声検出部107、出力部108を具備する。
出力部108は、静止画出力手段1081、吹出出力手段1082を具備する。
The information processing apparatus includes a
The
コンテンツ格納部101は、映像を有する映像情報と音声を有する音声情報を含むコンテンツを1以上格納している。コンテンツは、例えば、映像情報と、音声情報と、映像が捕らえたオブジェクトを識別するオブジェクト識別子を有する。オブジェクトとは、例えば、人や展示物や展示パネルなどである。映像情報は、例えば、映像と当該映像を撮影した人を識別するオブジェクト識別子を有する。また、映像情報は、例えば、映像と当該映像を撮影するカメラが設置されている展示物を識別するオブジェクト識別子を有する。音声情報は、音声と音声の発話者を識別するオブジェクト識別子を有する。かかるコンテンツは、例えば、以下の情報取得装置により取得される。情報取得装置の例を図2に示す。図2において、ユーザ(オブジェクト)の耳の上部に「CCDカメラ」「赤外線IDタグ」「赤外線センサ」を具備する。「CCDカメラ」は、映像を取得する。「赤外線IDタグ」は、本ユーザのオブジェクト識別子を示す信号を重畳した赤外線信号を発信する。「赤外線センサ」は、外部からの赤外線信号を受信する。つまり、「赤外線センサ」は、「IRトラッカ」である。「IRトラッカ」は、対向するオブジェクトの「赤外線IDタグ」から発信される信号を受信し、オブジェクト識別子を得る。そして、口元に「マイク」、および喉元に「スロート・マイク」を有する。また、目の前にHMD(ヘッド・マウント・ディスプレイ)を具備する。そして、「CCDカメラ」の信号は、ユーザの背中の背負われたPCが取得し、PCから、本情報処理装置に送信される構成である。さらに、HMDはユーザの居る位置や、閲覧した展示物や対向した人(オブジェクト)に関する情報を出力するために利用する。なお、コンテンツの方法として、図2の情報取得装置は、一例であることは言うまでもない。コンテンツ格納部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。不揮発性の記録媒体でも、揮発性の記録媒体でも良い。
The
発話箇所検出部102は、音声に基づいて、発話している箇所である発話箇所を検出する。発話箇所は、通常、音声の大きさが所定以上の大きさの箇所であり、かつ、連続して所定時間(例えば、5秒など)以上、所定以上の大きさの音声が継続して検出される箇所である。発話箇所検出部102は、音声の大きさが所定以上の大きさの箇所である発話箇所であり、一のオブジェクト識別子と対になる音声と、ほぼ連続する他のオブジェクト識別子と対になる音声を有する対話の箇所である発話箇所(かかる場合、対話箇所ともいう)を検出しても良い。発話箇所検出部102は、通常、MPUやメモリ等から実現され得る。発話箇所検出部102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、箇所とは、動画や音声など時間軸を有する情報のうちのある時間分の部分の情報、または当該部分の情報を特定する情報である。
The utterance
対向箇所検出部103は、2以上のオブジェクトが対向している箇所を検知する。ここで、「対向する」とは、真正面から向きあう必要はなく、対話できる位置関係にあれば良い。また、人と展示物が向かい合う位置に居ることも対向という。対向箇所検出部103は、例えば、ユーザAが保持している「IRトラッカ」が取得するオブジェクト識別子がユーザBのオブジェクト識別子であり、ユーザBが保持している「IRトラッカ」が取得するオブジェクト識別子がユーザAのオブジェクト識別子である場合、ユーザAとユーザBは、向かい合っている(対向している)と判断する。つまり、ユーザAの「IRトラッカ」を有する情報取得装置から送信されるオブジェクト識別子が、ユーザBのオブジェクト識別子であり、かつ、ユーザBの「IRトラッカ」を有する情報取得装置から送信されるオブジェクト識別子が、ユーザAのオブジェクト識別子である場合に、ユーザAとユーザBは対向していると、対向箇所検出部103は判断する。なお、映像を画像解析することにより、2以上のオブジェクトが対向していることを検知しても良い。その他、「対向する」ことを認識するアルゴリズムは問わない。対向箇所検出部103は、通常、MPUやメモリ等から実現され得る。対向箇所検出部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The facing
静止画抽出部104は、発話箇所検出部102が検出した発話箇所を構成する1以上の静止画を映像から抽出する。また、静止画抽出部104は、対向箇所検出部103が検出した対向箇所を構成する映像の中から、1以上の静止画を抽出する。また、静止画抽出部104は、発話箇所または/および対向箇所を構成する1以上の静止画を映像から繰り返し抽出しても良い。「静止画を映像から抽出する」とは、静止画自体を取得しても良いし、静止画を取得するための、映像中のポインタ情報を取得しても良い。静止画抽出部104は、通常、MPUやメモリ等から実現され得る。静止画抽出部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The still
位置検出部105は、映像を分析し、オブジェクトの少なくとも周辺の位置を検出する。位置検出部105は、映像中の赤外線の発信位置(赤外線IDタグが存在する箇所)を2以上の静止画を解析することにより検知し、当該発信位置をオブジェクト(人や展示物など)の位置であると検出しても良い。人や展示物等のオブジェクトは、赤外線を発信する赤外線IDタグを保持している。位置検出部105は、通常、MPUやメモリ等から実現され得る。位置検出部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The
場面種決定部106は、対話の箇所である発話箇所を構成するコンテンツを分析し、場面の種類を決定する。場面の種類とは、例えば、映像に写っている人(オブジェクトの一種)が展示物(オブジェクトの一種)を見ていることを示す第一の場面「対向」、映像に写っている人(オブジェクトの一種)が他の人(オブジェクトの一種)に話をしている第二の場面「被発話」、映像に写っている人(オブジェクトの一種)に他の人(オブジェクトの一種)が話をしている第三の場面「発話」、映像に写っている人(オブジェクトの一種)と他の人(オブジェクトの一種)がお互いに話をしている第四の場面「対話」等である。場面種決定部106は、通常、MPUやメモリ等から実現され得る。場面種決定部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The scene
非表示ユーザ発声検出部107は、発話箇所または対向箇所を構成するコンテンツを分析し、出力する静止画に対応する音声が、静止画に現れるユーザではないユーザの音声であることを検出する。非表示ユーザ発声検出部107は、通常、MPUやメモリ等から実現され得る。非表示ユーザ発声検出部107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The non-display user
出力部108は、静止画抽出部104が抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する。このウィンドウは、通常、タイル式ウィンドウであるが、一部、重なっても良い。また、ウィンドウとは、ウィンドウシステムにおけるウィンドウとは限らない。表示の態様が区画されている態様であれば良い。出力部108は、静止画を漫画のように、表示することが好適である。漫画の技法において、枠が重なる技法もあり、かかる技法に従った静止画の表示をすることは好適である。出力部108は、例えば、静止画出力手段1081と吹出出力手段1082を具備する。ただし、出力部108において、吹出出力手段1082は必須ではない。
The
静止画出力手段1081は、静止画抽出部104が抽出した静止画を出力する。静止画を出力する態様は問わない。また、静止画出力手段1081は、静止画を含む映像と同期する音声を音声出力しても良い。静止画出力手段1081は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。静止画出力手段1081は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信等を含む概念である。
The still
吹出出力手段1082は、静止画出力手段1081が出力する静止画に重ねて吹き出しを出力する。吹出出力手段1082は、静止画を有する映像に対応する音声を分析し、当該分析結果に応じて2種類以上の形状の吹き出しを区別して出力することは好適である。吹出出力手段1082は、静止画を有する映像に対応する音声を分析し、発話の長さを取得し、当該長さに応じた長さを有する文字列を吹き出し内に出力することは好適である。吹出出力手段1082は、位置検出部105が検出した位置周辺に吹き出しを出力することは好適である。吹出出力手段1082は、非表示ユーザ発声検出部107が静止画に現れるユーザではないユーザの音声であることを検出した場合、ウィンドウの外または隅から吹き出しが現れる態様で吹き出しを出力することは好適である。「吹き出し」とは、発言やコメントや説明などを付記する枠であり、漫画等に利用されるものである。「吹き出し」の形状や、色などの出力態様は問わない。また、「吹き出し」の中には、何が表示されていても良いし、何も表示されていなくても良い。吹出出力手段1082は、ディスプレイデバイスを含むと考えても含まないと考えても良い。出力部108は、例えば、ディスプレイデバイスのドライバーソフトまたは、ディスプレイデバイスのドライバーソフトとディスプレイデバイス等で実現され得る。出力とは、ディスプレイへの表示、プリンタへの印字、外部の装置への送信等を含む概念である。
The
次に、情報処理装置の動作について図3から図9のフローチャートを用いて説明する。なお、本動作の例は、例えば、以下のような状況であることを想定する。つまり、ユーザ(オブジェクトの一種であり、以下、適宜「主人公」という)が、展示物、展示パネルなどが展示されている会場を歩きながら、かつ展示物を見ながら、かつ展示物の説明員等と議論をしながら、会場をめぐる。その際に、主人公は、図2に示すような情報取得装置を装着している。また、会場に居る他の見学者、展示物の説明員、展示物も、図2に示すような情報取得装置を装着している。そして、各オブジェクト(見学者、説明員、展示物などを含む)が取得した映像、音声、オブジェクト識別子などを有するコンテンツが、情報処理装置に蓄えられている。かかる場合の情報処理装置の動作について説明する。 Next, the operation of the information processing apparatus will be described using the flowcharts of FIGS. In addition, the example of this operation | movement assumes that it is the following situations, for example. In other words, a user (a kind of object, hereinafter referred to as “the main character” as appropriate) walks through the venue where exhibits, exhibition panels, etc. are displayed, and while viewing the exhibits, and the exhibitors of the exhibits. Talking about the venue. At that time, the main character wears an information acquisition device as shown in FIG. Further, other visitors, exhibitors, and exhibits in the venue are also equipped with information acquisition devices as shown in FIG. And the content which has the image | video, audio | voice, object identifier, etc. which each object (including a visitor, an instructor, an exhibit, etc.) acquired is stored in the information processing apparatus. An operation of the information processing apparatus in such a case will be described.
(ステップS301)発話箇所検出部102は、主人公が装着している情報取得装置が蓄積したコンテンツを、コンテンツ格納部101から取得する。なお、通常、情報処理装置は、主人公を識別するオブジェクト識別子の入力を受け付け、かかるオブジェクト識別子に対応するコンテンツを取得する。
(ステップS302)発話箇所検出部102は、ステップS301で取得したコンテンツ等に基づいて、発話箇所を検出する。発話箇所を検出する処理の詳細は、図4、図5のフローチャートを用いて説明する。
(Step S <b> 301) The utterance
(Step S302) The utterance
(ステップS303)対向箇所検出部103は、ステップS301で取得したコンテンツ中の箇所であり、2以上のオブジェクトが対向している箇所を検知する。かかる対向箇所の検知処理の詳細は、図6のフローチャートを用いて説明する。
(Step S303) The facing
(ステップS304)出力部108は、出力する際のコマ割りを決定する。コマ割りとは、画面上のウィンドウの配置、大きさ等の決定である。コマ割りの決定処理は、例えば、予め決められているコマ割りを示す情報であるコマ割情報を選択する処理である。また、コマ割りの決定処理は、例えば、ウィンドウの数、大きさを自由に決定しても良い。コマ割りの決定処理の詳細は、図7のフローチャートを用いて説明する。
(ステップS305)出力部108は、カウンタiに1を代入する。
(Step S304) The
(Step S305) The
(ステップS306)出力部108は、i番目の箇所(発話箇所、または対向箇所)が存在するか否かを判断する。i番目の箇所が存在すればステップS307に行き、i番目の箇所が存在しなければステップS309に行く。
(Step S306) The
(ステップS307)出力部108は、i番目の箇所の映像を構成する一静止画を出力するコマを決定する。出力部108は、例えば、i番目の箇所の時間が長ければ、サイズの大きなコマに配置し、i番目の箇所の時間が短ければ、サイズの小さなコマに配置することは好適である。かかる場合の詳細なアルゴリズム例は、以下である。まず、出力部108は、全箇所の数P(例えば、10)を取得する。そして、出力部108は、ステップS304で決定したコマ割りのコマの数をN(例えば、5)を取得する。次に、N個のコマをコマの大きさ順に並べる。そして、すべての箇所の時間を取得しておき、i番目の箇所の時間がM番目(Mは、例えば、2)の長い箇所であると、取得する、とする。次に、P,N,Mをパラメータとして、時間が長い箇所に対応する静止画は、大きなサイズのコマに出力されるようにする。出力部108は、P=10、N=5、M=2の場合、1コマに2つの箇所の静止画を、切り替えて表示することとなるので、出力部108は、i番目の箇所の静止画は最も大きなコマに表示されるように、割り当てる。
(ステップS308)出力部108は、カウンタiを1、インクリメントする。ステップS306に戻る。
(ステップS309)出力部108は、カウンタiに1を代入する。
(ステップS310)出力部108は、i番目の箇所が存在するか否かを判断する。i番目の箇所が存在すればステップS311に行き、i番目の箇所が存在しなければ処理を終了する。
(Step S307) The
(Step S308) The
(Step S309) The
(Step S310) The
(ステップS311)出力部108は、i番目の箇所のコンテンツが有する映像のうち、一の静止画を取得する。一の静止画を取得するアルゴリズムは問わない。出力部108は、例えば、i番目の箇所の時間の中の真ん中の静止画を取得する。また、出力部108は、例えば、i番目の箇所のコンテンツの最初の静止画を取得しても良い。
(ステップS312)出力部108は、吹き出しの処理を行う。吹き出し処理の詳細については、図8のフローチャートを用いて説明する。
(Step S <b> 311) The
(Step S312) The
(ステップS313)出力部108は、ステップS311で取得した静止画と、ステップS312で取得した吹き出し画像に基づいて、静止画を生成する。出力する静止画を生成する処理の詳細については、図9のフローチャートを用いて説明する。
(ステップS314)出力部108は、ステップS313で生成した静止画を、割り当てられたコマ(ウィンドウ)に表示する。各静止画のコマへの割り当ては、ステップS307において決定されている。
(ステップS315)出力部108は、カウンタiを1、インクリメントする。ステップS310に戻る。
なお、図3のフローチャートにおいて、i番目の箇所に対応する音声も出力しても良い。なお、音声の出力は、例えば、2以上の静止画を出力している場合、一の音声を選択して出力しても良い。
なお、図3のフローチャートにおいて、処理は、終了せずに、繰り返し、再度、ステップS301からの処理を行っても良い。
(Step S313) The
(Step S314) The
(Step S315) The
In the flowchart of FIG. 3, a voice corresponding to the i-th location may also be output. For example, when two or more still images are output, one sound may be selected and output.
In the flowchart of FIG. 3, the process may be repeated without repeating and the process from step S301 may be performed again.
次に、発話箇所を検出する処理の詳細動作について図4、図5のフローチャートを用いて説明する。本発話箇所とは、一のオブジェクトが一方的に話をしている発話の箇所と、二人のオブジェクトがお互いに話をしている対話の箇所がある。 Next, the detailed operation of the processing for detecting the utterance location will be described with reference to the flowcharts of FIGS. The utterance part includes an utterance part where one object talks unilaterally and a conversation part where two objects talk to each other.
(ステップS401)発話箇所検出部102は、主人公の音声であって、所定時間以上、ほぼ連続する音声の箇所をすべて取得し、マークする。音声の箇所は、音声のデータ自体であっても良いし、コンテンツ中の始点、および終点の情報でも良い。その他、音声の箇所のデータ構造は問わない。なお、通常、コンテンツ格納部101において、コンテンツは、オブジェクト識別子と対に管理されている。また、「マークする」とは、例えば、音声の箇所を示す箇所情報(たとえば、主人公のオブジェクト識別子、始点、終点の情報、場面種識別子を有する)の場面種識別子に「1」を書き込むことである。場面種識別子とは、切り出した箇所の場面(インタラクション)の種類を示す情報である。場面種識別子は、例えば、「1」は「発話」(一方的な発声)、「2」は「対話」(双方向の会話)、「3」は「対向」(主人公が展示物を見ていること)である。
(Step S401) The utterance
(ステップS402)発話箇所検出部102は、主人公以外の音声であって、所定時間以上、ほぼ連続する音声の箇所をすべて取得し、マークする。音声の箇所は、を示す箇所情報は、例えば、主人公以外のオブジェクト識別子、始点、終点の情報、場面種識別子を有する。そして、場面種識別子には「1」(発話を示す)を書き込む。
(ステップS403)発話箇所検出部102は、カウンタi,jに1を代入する。
(Step S402) The utterance
(Step S403) The utterance
(ステップS404)発話箇所検出部102は、ステップS401で取得した音声箇所のうち、i番目の主人公の音声箇所が存在するか否かを判断する。i番目の主人公の音声箇所が存在すればステップS405に行き、i番目の主人公の音声箇所が存在しなければ上位関数にリターンする。
(ステップS405)発話箇所検出部102は、発話箇所検出部102は、i番目の主人公の音声箇所を取得する。
(Step S404) The speech
(Step S405) The utterance
(ステップS406)発話箇所検出部102は、ステップS402で取得した音声箇所のうち、j番目の他人の音声箇所が存在するか否かを判断する。j番目の他人の音声箇所が存在すればステップS407に行き、j番目の他人の音声箇所が存在しなければステップS414に行く。
(ステップS407)発話箇所検出部102は、j番目の他人の音声箇所を取得する。
(Step S406) The utterance
(Step S407) The utterance
(ステップS408)発話箇所検出部102は、i番目の主人公の音声箇所と、j番目の他人の音声箇所が、ほぼ連続するか否かを判断する。2つの音声がほぼ連続するか否かの判断方法を、図10を用いて説明する。「ほぼ連続」とは、図10の(a)(b)(c)の状況を言う。つまり、(a)は、2つの音声(音声1、音声2)が、少しの重複(x)だけで、引き続いて、出力されていることを示す。かかる場合のxの時間間隔は、例えば、「3秒以下」が好適である。また、(b)は、2つの音声(音声1、音声2)が、重複も隙間もなく、連続している場合である。さらに、(c)は、2つの音声(音声1、音声2)が発せされる間に、少しの時間間隔(y)を有する場合である。なお、「y」は、例えば「2秒以下」が好適である。また、図10(d)(e)に示す態様は、「ほぼ連続」とは、判断され得ない。二人の発声者が重複して発声している時間が、所定時間以上であるからである。なお、図10において、線は、発声していることを示し、横軸は時間(t)である。また、音声1と音声2は、異なる者が発声した音声(異なる発声者識別子と対になる音声)である。
(Step S408) The utterance
(ステップS409)発話箇所検出部102は、i番目の主人公の音声箇所と、j番目の他人の音声箇所をグループ化する。「2つの音声箇所をグループ化する」とは、2つの音声箇所が、対話であることを識別できるようにすることであり、例えば、i番目の主人公の音声箇所と、j番目の他人の音声箇所が有する場面種識別子に「2」を書き込み、かつ2つの音声箇所を対応付ける。
(Step S409) The utterance
(ステップS410)発話箇所検出部102は、j番目の他人の音声箇所が、i番目の主人公の音声箇所と比較して、時間的に後であるか否かを判断する。後であればステップS411に行き、後でなければステップS412に行く。
(ステップS411)発話箇所検出部102は、カウンタiを1、インクリメントする。ステップS404に戻る。
(ステップS412)発話箇所検出部102は、カウンタjを1、インクリメントする。ステップS404に戻る。
(ステップS413)発話箇所検出部102は、カウンタjを1、インクリメントする。ステップS406に戻る。
(ステップS414)発話箇所検出部102は、カウンタiを1、インクリメントする。
(ステップS415)発話箇所検出部102は、カウンタjを1、インクリメントする。ステップS404に戻る。
なお、発話箇所の検出アルゴリズムは、上記に限られないことは言うまでもない。
次に、他人の音声箇所を取得する動作について図5のフローチャートを用いて説明する。
(Step S410) The utterance
(Step S411) The utterance
(Step S412) The utterance
(Step S413) The utterance
(Step S414) The utterance
(Step S415) The utterance
Needless to say, the algorithm for detecting the utterance location is not limited to the above.
Next, the operation | movement which acquires another person's audio | voice part is demonstrated using the flowchart of FIG.
(ステップS501)発話箇所検出部102は、主人公のオブジェクト識別子と対になるコンテンツが有する、すべてのオブジェクト識別子を取得する。このオブジェクト識別子は、主人公が保持している情報取得装置が取得したオブジェクト識別子であり、主人公と対向した人や展示物等を識別する情報である。
(ステップS502)発話箇所検出部102は、カウンタiに1を代入する。
(Step S501) The utterance
(Step S502) The utterance
(ステップS503)発話箇所検出部102は、ステップS501の中に、i番目のオブジェクト識別子が存在するか否かを判断する。発話箇所検出部102は、i番目のオブジェクト識別子が存在すればステップS504に行き、i番目のオブジェクト識別子が存在しなければ上位関数にリターンする。
(ステップS504)発話箇所検出部102は、i番目のオブジェクト識別子に対応する音声(i番目のオブジェクト識別子のユーザが発声した音声)の中で、所定の時間以上の音声の箇所をすべて取得する。
(ステップS505)発話箇所検出部102は、カウンタjに1を代入する。
(Step S503) The utterance
(Step S <b> 504) The utterance
(Step S505) The utterance
(ステップS506)発話箇所検出部102は、ステップS504で取得した音声箇所の中で、j番目の音声箇所が存在するか否かを判断する。発話箇所検出部102は、j番目の音声箇所が存在すればステップS507に行き、j番目の音声箇所が存在しなければステップS511に行く。
(Step S506) The utterance
(ステップS507)発話箇所検出部102は、j番目の音声箇所に対応するオブジェクト識別子を取得する。このオブジェクト識別子は、本他人が装着している情報取得装置が、かかる音声箇所の時間帯において、取得したオブジェクト識別子である。つまり、このオブジェクト識別子で識別されるオブジェクトは、本音声箇所の時間帯において、本他人と対向していたことを示す。
(Step S507) The utterance
(ステップS508)発話箇所検出部102は、ステップS507で取得したオブジェクト識別子のうち、主人公のオブジェクト識別子が存在するか否かを判断する。主人公のオブジェクト識別子が存在すればステップS509に行き、主人公のオブジェクト識別子が存在しなければステップS510に飛ぶ。
(ステップS509)発話箇所検出部102は、j番目の音声箇所を取得し、マークする。
(ステップS510)発話箇所検出部102は、カウンタjを1、インクリメントする。ステップS506に行く。
(ステップS511)発話箇所検出部102は、カウンタiを1、インクリメントする。ステップS503に行く。
次に、対向箇所の検知処理例の詳細について図6のフローチャートを用いて説明する。
(Step S508) The utterance
(Step S509) The utterance
(Step S510) The utterance
(Step S511) The utterance
Next, details of an example of processing for detecting a facing portion will be described with reference to the flowchart of FIG.
(ステップS601)対向箇所検出部103は、主人公のオブジェクト識別子に対応するコンテンツが有するオブジェクト識別子を検査し、所定時間以上、ほぼ連続して取得したオブジェクト識別子、およびその時間に関する情報である時間情報の組をすべて取得する。
(ステップS602)対向箇所検出部103は、カウンタiに1を代入する。
(Step S601) The opposite
(Step S602) The facing
(ステップS603)対向箇所検出部103は、ステップS601で取得したオブジェクト識別子と時間情報の組の中に、i番目の組の情報が存在するか否か判断する。i番目の組の情報が存在すればステップS604に行き、i番目の組の情報が存在しなければ上位関数にリターンする。
(ステップS604)対向箇所検出部103は、i番目の組の情報が有するオブジェクト識別子と対になるコンテンツの、当該組の情報が有する時間情報が示す時間におけるオブジェクト識別子を、すべて取得する。
(Step S603) The facing
(Step S604) The facing
(ステップS605)対向箇所検出部103は、ステップS604で取得したオブジェクト識別子に基づいて、主人公のオブジェクト識別子が所定の条件を満たすか否かを判断する。この所定の条件は、i番目の組の情報が有するオブジェクト識別子で識別されるオブジェクトと主人公が所定の時間以上、対向していたことを認識するための条件である。ここでは、本条件は、例えば、i番目の組の情報が有する時間情報が示す間におけるオブジェクト識別子の中に、主人公のオブジェクト識別子が所定の間隔を空けずに存在することである。所定の条件を満たせばステップS606に行き、所定の条件を満たさなければステップS608に飛ぶ。
(Step S605) The facing
(ステップS606)対向箇所検出部103は、i番目の組の情報が有する時間情報が示す時間において、主人公および、主人公に対向するオブジェクトが発声していないか否かを判断する。発声していなければステップS607に行き、発声していていればステップS608に飛ぶ。
(ステップS607)対向箇所検出部103は、i番目の組の情報が有する時間情報に基づいて、対向箇所を取得し、マークする。
(ステップS608)対向箇所検出部103は、カウンタiを1、インクリメントする。ステップS603に行く。
次に、コマ割りを決定する動作の例について図7のフローチャートを用いて説明する。なお、ここでは、出力部108は、コマ割りを示す情報であるコマ割情報を2以上格納している、とする。
(ステップS701)出力部108は、先に検出した箇所(発話箇所、対話箇所、対向箇所)の数を取得する。
(ステップS702)出力部108は、先に検出したすべての箇所のデータサイズ(時間長と同意義)に関する情報を取得する。
(Step S606) The facing
(Step S607) The facing
(Step S608) The facing
Next, an example of the operation for determining the frame division will be described with reference to the flowchart of FIG. Here, it is assumed that the
(Step S701) The
(Step S <b> 702) The
(ステップS703)出力部108は、ステップS701で取得した全箇所の数、ステップS702で取得した各箇所のデータサイズに基づいて、コマ割情報を決定する。例えば、出力部108は、全箇所の数が多ければ、コマ数の多いコマ割情報を選択し、全箇所の数が少なければ、コマ数の少ないコマ割情報を選択する。また、例えば、出力部108は、データサイズのばらつきが少なければ、コマのサイズのばらつきが少ないコマ割情報を選択し、データサイズのばらつきが大きければ、コマのサイズのばらつきが大きいコマ割情報を選択する。ただし、コマ割情報を決定するアルゴリズムは問わない。
次に、吹き出し処理の詳細な動作例について図9のフローチャートを用いて説明する。
(ステップS801)吹出出力手段1082は、カウンタiに1を代入する。
(Step S703) The
Next, a detailed operation example of the balloon process will be described with reference to the flowchart of FIG.
(Step S801) The blowout output means 1082
(ステップS802)吹出出力手段1082は、ステップS311で取得した静止画に対応する箇所(対話箇所等)において、i番目の音声が存在するか否かを判断する。i番目の音声が存在すればステップS803に行き、i番目の音声が存在しなければステップS812に飛ぶ。なお、i番目の音声は、主人公とそれ以外のもののすべての音声を対象とする。また、i番目の音声は、所定の時間以上、発せられている音声群である。 (Step S802) The blowout output means 1082 determines whether or not the i-th sound is present at a location (such as a dialogue location) corresponding to the still image acquired at Step S311. If the i-th voice exists, the process goes to step S803, and if the i-th voice does not exist, the process jumps to step S812. Note that the i-th sound covers all sounds of the main character and others. The i-th sound is a sound group that has been emitted for a predetermined time or longer.
(ステップS803)吹出出力手段1082は、i番目の音声が、主人公を識別するオブジェクト識別子と対になるコンテンツが有するオブジェクト識別子のオブジェクト(映像に写っている人)の音声であるか否かを判断する。当該オブジェクトの音声であればステップS804に行き、当該オブジェクトの音声でなければステップS811に飛ぶ。
(Step S803) The
(ステップS804)位置検出部105は、静止画中のオブジェクトの位置を取得する。例えば、位置検出部105は、静止画を含む映像を解析し、赤外線を発している位置を認識することにより、オブジェクトの位置が取得され得る。
(ステップS805)吹出出力手段1082は、i番目の音声のデータ長を取得する。
(Step S804) The
(Step S805) The
(ステップS806)吹出出力手段1082は、ステップS805で取得したデータ長に基づいて、吹き出しの種類を決定する。吹出出力手段1082は、例えば、音声のデータ長が短ければギザギザの吹き出しの情報で、長ければほぼ楕円形の吹き出しの情報を選択する。
(Step S806) The
(ステップS807)吹出出力手段1082は、ステップS805で取得したデータ長に基づいて、文字列を生成する。文字列は、例えば、意味のないものであり、吹出出力手段1082は、データ長に応じた文字列を、例えば、乱数を用いて生成する。吹出出力手段1082は、例えば、乱数を発生させ、当該乱数を文字コードに変換し、文字を得る。そして、吹出出力手段1082は、かかる処理をデータ長に応じて、繰り返し、文字列を生成する。
(ステップS808)吹出出力手段1082は、ステップS806で決定し、取得した吹き出しの情報と、ステップS807で生成した文字列から、吹き出しの画像を生成する。
(ステップS809)吹出出力手段1082は、オブジェクトの位置を吹き出しの画像の表示位置として設定する。
(ステップS810)吹出出力手段1082は、カウンタiを1、インクリメントする。ステップS802に戻る。
(ステップS811)吹出出力手段1082は、オブジェクトの位置をコマ(ウィンドウ)の外部とする。外部とは、角の点を含み、例えば、ウィンドウ内の相対位置座標の(0,0)などでも良い。
(ステップS812)吹出出力手段1082は、カウンタiが1であるか否かを判断する。カウンタiが1であれば上位関数にリターンし、カウンタiが1でなければステップS813に行く。
(Step S807) The
(Step S808) The
(Step S809) The
(Step S810) The blowout output means 1082 increments the counter i by 1. The process returns to step S802.
(Step S811) The
(Step S812) The blowout output means 1082 determines whether or not the counter i is 1. If the counter i is 1, the process returns to the upper function. If the counter i is not 1, the process goes to step S813.
(ステップS813)吹出出力手段1082は、ステップS808で生成した1以上の吹き出し画像を、ステップS809で設定した表示位置に配置し、静止画に合成する吹き出し画像を合成する。上位関数にリターンする。
次に、出力画像生成処理の詳細な動作例について図9のフローチャートを用いて説明する。
(Step S813) The balloon output means 1082 arranges the one or more balloon images generated in step S808 at the display position set in step S809, and synthesizes the balloon image to be combined with the still image. Return to upper function.
Next, a detailed operation example of the output image generation processing will be described with reference to the flowchart of FIG.
(ステップS901)位置検出部105は、出力する静止画上のオブジェクトの位置を取得する。ここで取得するオブジェクトは、1つだけでも良いし、2以上でも良い。出力部108は、例えば、静止画上のオブジェクトの位置は、赤外線信号を発信している位置を画像認識することで取得する。
(ステップS902)出力部108は、静止画が含まれる箇所の場面の種類が一方向の発話であるか否かを判断する。発話であればステップS903に行き、発話でなければステップS906に飛ぶ。
(ステップS903)出力部108は、静止画中のオブジェクトを強調するためのハイライトの形状を、「発話」に対応する第一形状(例えば、円)と決定する。
(Step S901) The
(Step S902) The
(Step S903) The
(ステップS904)出力部108は、ステップS903等で決定したハイライトの形状に基づいて、静止画に対してハイライト処理を行う。出力部108は、ステップS901で取得した位置を中心として、ステップS903で決定した形状についてはカラーにし、かつ他の領域はモノクロに前記静止画を修正する。つまり、通常、出力部108は、ステップS901で取得した位置を中心として、ステップS903で決定した形状の領域を除く領域について、カラー画像をモノクロ画像に変換する処理を行う。カラー画像をモノクロ画像に変換する処理は、公知技術であるので、詳細な説明は省略する。なお、ハイライトの方法は、上記に限らない。出力部108は、位置検出部105が検出した位置の周辺の領域と、他の領域とで出力態様を変更して、静止画を出力すれば良い。
(ステップS905)出力部108は、ステップS904で処理した静止画と、生成した吹き出し画像を合成し、出力する静止画を構成する。上位関数にリターンする。
(ステップS906)出力部108は、静止画が含まれる箇所の場面の種類が対話であるか否かを判断する。対話であればステップS907に行き、対話でなければステップS908に飛ぶ。
(ステップS907)出力部108は、静止画中のオブジェクトを強調するためのハイライトの形状を、「対話」に対応する第二形状(例えば、楕円)と決定する。ステップS904に行く。
(ステップS908)出力部108は、静止画が含まれる箇所の場面の種類が対向であるか否かを判断する。対向であればステップS909に行き、対向でなければステップS910に飛ぶ。
(ステップS909)出力部108は、静止画中のオブジェクトを強調するためのハイライトの形状を、「対向」に対応する第三形状(例えば、矩形)と決定する。ステップS904に行く。
(ステップS910)出力部108は、静止画中のオブジェクトを強調するためのハイライトの形状を、第四形状(例えば、星型)と決定する。ステップS904に行く。
(Step S904) The
(Step S905) The
(Step S906) The
(Step S907) The
(Step S908) The
(Step S909) The
(Step S910) The
以下、本実施の形態における情報処理装置の具体的な動作について説明する。本具体例において、主人公を含むユーザは、展示会や博物館などの見学している、とする。ここでは、展示会は、技術展示会である。また、主人公を含むユーザは、図2に示すような情報取得装置を装着している。さらに、展示物(技術展示のパネルなど)にも、図2に示すような情報取得装置、または、図2に示す情報取得装置に、マイク、スロート・マイク、HMDが存在しない情報取得装置が設置されている。また、本具体例において、主人公が、展示会のパネルを見ながら、他の人と議論をしながら、または他の人にパネル等の説明をしながら、数時間を過ごした場合の、情報処理装置の処理例について説明する。 Hereinafter, a specific operation of the information processing apparatus according to the present embodiment will be described. In this specific example, it is assumed that the user including the main character is visiting an exhibition or a museum. Here, the exhibition is a technology exhibition. In addition, users including the main character wear an information acquisition device as shown in FIG. In addition, an information acquisition device as shown in FIG. 2 or an information acquisition device without a microphone, a throat microphone, and an HMD is installed in an exhibit (such as a panel for a technical display) as shown in FIG. Has been. Also, in this specific example, information processing when the hero spends several hours while observing the panels of the exhibition, discussing with other people, or explaining the panel etc. to other people. A processing example of the apparatus will be described.
図11は、本具体例において、主人公が保持している情報取得装置が、取得した映像、音声、オブジェクト識別子を取得する生コンテンツを示す。図11のうちの映像は、主人公が保持している情報取得装置のCCDカメラが取得した情報である。図11の音声は、当該情報取得装置のマイクが取得する情報である。図11のオブジェクト識別子は、当該情報取得装置の赤外線センサ(IRトラッカ)が取得する情報である。図11のオブジェクト識別子は、主人公が対向したオブジェクト(人や展示物)を示す。また、図11において、映像、音声、オブジェクト識別子は、取得した時刻順に格納されており、それぞれ同期している。また、図11において、ヘッダー情報として、情報取得装置の保持者(ここでは、主人公)を識別するオブジェクト識別子「35」が格納されている。例えば、情報取得装置のCCDカメラは、情報取得装置の保持者を識別するオブジェクト識別子と取得した映像を対にして送信する。また、例えば、情報取得装置のマイクは、情報取得装置の保持者を識別するオブジェクト識別子と取得した音声を対にして送信する。さらに、例えば、情報取得装置のIRトラッカは、情報取得装置の保持者を識別するオブジェクト識別子と取得したオブジェクト識別子を対にして送信する。図11における生コンテンツは、例えば、情報取得装置から送信された情報の集合である。 FIG. 11 shows raw content in which the information acquisition device held by the main character acquires the acquired video, audio, and object identifier in this specific example. The video in FIG. 11 is information acquired by the CCD camera of the information acquisition device held by the main character. The audio | voice of FIG. 11 is the information which the microphone of the said information acquisition apparatus acquires. The object identifier in FIG. 11 is information acquired by the infrared sensor (IR tracker) of the information acquisition apparatus. The object identifier in FIG. 11 indicates an object (person or exhibit) that the main character faces. In FIG. 11, video, audio, and object identifiers are stored in order of acquired time, and are synchronized with each other. In FIG. 11, an object identifier “35” for identifying the holder of the information acquisition device (here, the main character) is stored as header information. For example, the CCD camera of the information acquisition device transmits an object identifier for identifying the holder of the information acquisition device and the acquired video as a pair. Further, for example, the microphone of the information acquisition device transmits the object identifier for identifying the holder of the information acquisition device and the acquired voice as a pair. Further, for example, the IR tracker of the information acquisition device transmits the object identifier for identifying the holder of the information acquisition device and the acquired object identifier as a pair. The raw content in FIG. 11 is a set of information transmitted from the information acquisition device, for example.
次に、図12は、オブジェクト識別子「38」で識別されるユーザが装着している情報取得装置が取得したコンテンツを示す。また、図13は、オブジェクト識別子「01」で識別される展示パネルに設置されている情報取得装置が取得したコンテンツを示す。図13のコンテンツにおいて、音声の情報は存在しない。 Next, FIG. 12 shows the content acquired by the information acquisition device worn by the user identified by the object identifier “38”. FIG. 13 shows the content acquired by the information acquisition device installed in the display panel identified by the object identifier “01”. In the content of FIG. 13, there is no audio information.
さらに、図14は、オブジェクト識別子「01」で識別される展示パネルの概観図である。本展示パネルは、技術説明を表示するディスプレイを有し、ディスプレイの上部には、赤外線IDタグと、IRトラッカと、CCDカメラが設置されている。赤外線IDタグは、本展示パネルを識別するオブジェクト識別子「01」を重畳した赤外線信号を発信する。また、IRトラッカは、本展示パネルを見ているユーザが装着している情報取得装置の赤外線IDタグから発信されたオブジェクト識別子を取得する。さらに、CCDカメラは、本展示パネルを見ているユーザ等を撮影し、映像を取得する。
そして、上記の各情報取得装置が取得したコンテンツを、図示しない手段(通信手段、放送手段、記録媒体など)により取得し、情報処理装置はコンテンツ格納部101に当該コンテンツを格納している、とする。
かかる場合、所定のタイミングになった場合、またはユーザの指示により、本情報処理装置の発話箇所検出部102は、主人公(オブジェクト識別子「35」)のコンテンツ(図11のコンテンツ)を取得する。
Further, FIG. 14 is an overview of the display panel identified by the object identifier “01”. This exhibition panel has a display for displaying technical explanations, and an infrared ID tag, an IR tracker, and a CCD camera are installed on the top of the display. The infrared ID tag transmits an infrared signal on which an object identifier “01” for identifying the display panel is superimposed. Further, the IR tracker acquires an object identifier transmitted from an infrared ID tag of an information acquisition device worn by a user who is viewing this display panel. Further, the CCD camera captures images of a user or the like who is looking at the display panel and acquires a video.
The content acquired by each of the information acquisition devices is acquired by means (not shown) (communication means, broadcast means, recording medium, etc.), and the information processing apparatus stores the content in the
In this case, the utterance
次に、発話箇所検出部102は、上述した動作により、図11のコンテンツから発話箇所を検出する。つまり、発話箇所検出部102は、「t=0」から「t=80」、「t=350」から「t=720」等を取得する。そして、発話箇所検出部102は、「t=0」から「t=80」の音声と対になる他人のオブジェクト識別子「38」を取得する。次に、他人のオブジェクト識別子「38」で識別されるオブジェクトのコンテンツ「t=0」から「t=80」の区間に、ほぼ連続する区間において、発声しているか否かを判断する。ここでは、「t=0」から「t=80」の区間に、ほぼ連続する区間である区間「t=75」から「t=200」において、オブジェクト識別子「38」に対応する音声は、発声していると判断される。次に、発話箇所検出部102は、区間「t=75」から「t=200」にほぼ連続する区間において、オブジェクト識別子「35」に対応する音声は、発声していないと判断する。以上より、発話箇所検出部102は、区間「t=0」(これを始点という)から「t=200」(これを終点という)を取得する。そして、かかる区間において、二人の会話がなされているので、場面種決定部106は、場面種を「対話」と決定する。
次に、発話箇所検出部102は、図11のコンテンツから検出した区間「t=350」から「t=720」において、対応するオブジェクト識別子「40」を図11のコンテンツから取得する。
Next, the utterance
Next, the utterance
そして、発話箇所検出部102は、オブジェクト識別子「40」に対応するコンテンツ(図示しない)から、区間「t=350」から「t=720」にほぼ連続する発声が存在しないことを検出する。したがって、発話箇所検出部102は、区間「t=350」(始点)、「t=720」(終点)を取得する。次に、場面種決定部106は、場面種を「発話」と決定する。
以上の処理と同様に、発話箇所検出部102は、図11のコンテンツに基づいて、主人公が関与する「対話」または「発話」の箇所を検出する。
次に、対向箇所検出部103は、上述した処理に基づいて、図11のコンテンツのうち、対向する箇所を検出する。
Then, the utterance
Similarly to the above processing, the utterance
Next, the facing
まず、対向箇所検出部103は、主人公のオブジェクト識別子「35」に対応するコンテンツが有するオブジェクト識別子を検査し、所定時間以上、ほぼ連続して取得したオブジェクト識別子、およびその時間に関する情報である時間情報の組をすべて取得する。ここで、対向箇所検出部103は、例えば、区間「t=3500」(始点)、「t=3820」(終点)を検出する。図11において、かかる区間で、オブジェクト識別子「01」が所定時間以上、間をおかずに連続して存在する。したがって、主人公は、オブジェクト識別子「01」で識別されるオブジェクト(展示パネル)を、区間「t=3500」(始点)、「t=3820」(終点)の間、連続して見学していたことが分かる。そして、対向箇所検出部103は、「t=3500」(始点)、「t=3820」(終点)の情報を取得する。次に、場面種決定部106は、場面種を「対向」と決定する。その他の区間においても、対向箇所検出部103は、図11のコンテンツに基づいて、「対向」の箇所を検出することは言うまでもない。なお、対向箇所検出部103は、上記区間において、図13に示すオブジェクト識別子「01」の展示パネルに設置された情報取得装置が取得したオブジェクト識別子の中に、主人公のオブジェクト識別子「35」が、ほぼ連続的に含まれるか否かをも判断して、「対向」の区間であると判断しても良い。
First, the opposite
以上の処理により、発話箇所検出部102、および対向箇所検出部103は、図11のコンテンツに基づいて、主人公が関与する「対話」、「発話」、および「対向」の箇所を検出し、場面種決定部106は、場面種を決定した。その検出した箇所、および場面種を示す情報を図15の箇所管理表に示す。箇所管理表は、発話箇所検出部102、および対向箇所検出部103が検出した箇所に関する情報、場面種決定部106が決定した場面種を、少なくとも一時的に保持している表である。箇所管理表は、「ID」「オブジェクト識別子」「始点(t)」「終点(t)」「場面種」を有するレコードを1以上格納している。「ID」は、レコードを識別する情報を識別するオブジェクト識別子である。
Through the processing described above, the utterance
次に、出力部108は、出力する箇所の数「218」、各箇所のデータサイズ(区間の時間的長さ)に基づいて、出力の際のコマ割りを決定する。具体的には、出力部108は、図16の多数のコマ割情報を保持している。コマ割情報は、画面を構成するコマのウィンドウ情報(ウィンドウの属性値[位置、サイズ、背景色など])でも良いし、図16の各コマ割を示すビットマップデータ等でも良く、そのデータ構造は問わない。
Next, the
また、出力部108は、図17に示す、コマ割を決定するための情報であるコマ割決定情報を保持している。コマ割決定情報は、「ID」「コマ割識別子」「箇所数」「最大データ長(t)」を有するレコードを1以上保持している。「コマ割識別子」は、コマ割情報を識別する情報であり、その値が「a」である場合は、コマ割は図16(a)のコマ割に決定される。また、「箇所数」は、出力する対象の箇所の数の条件である。「最大データ長(t)」は、出力する対象の箇所のデータ長の中で最大のデータ長(単位は、t(秒))の条件である。
Further, the
かかる場合、出力部108は、図15の箇所管理表に基づいて、図17のコマ割決定情報を参照し、コマ割情報を選択する。ここでは、出力部108は、図15の箇所管理表の箇所数「218」を取得する。そして、図15の箇所管理表の各箇所に対応する最大データ長「320」を取得する、とする。なお、最大データ長「320」は、図15の「ID=15」のレコードの「終点―始点」の値である。
そして、出力部108は、箇所数「218」、最大データ長「320」を満たすコマ割識別子「a」を取得する。そして、出力部108は、図16から、コマ割情報(a)を選択する。
In such a case, the
Then, the
次に、静止画出力手段1081は、図15の箇所管理表の各箇所のコンテンツが有する映像のうち、一の静止画を取得する。ここで、静止画出力手段1081は、たとえば、各箇所に対応する映像の中で、ほぼ真ん中の静止画を取得する、とする。なお、静止画出力手段1081が、映像の中の静止画を取得するアルゴリズムは問わない。ここで、静止画出力手段1081が各箇所に対応する映像から1つずつ取得した静止画の例を図18に示す。図18(a)は、図15の「ID=1」の箇所に対応する静止画である。図18(b)は、図15の「ID=2」の箇所に対応する静止画である。図18(c)は、図15の「ID=15」の箇所に対応する静止画である。
Next, the still
次に、吹出出力手段1082は、各静止画に付加する吹き出しを構成する。次に、吹き出しを構成する処理の例について述べる。まず、吹出出力手段1082は、図19に示す吹き出し管理表を保持している。吹き出し管理表は、「ID」「吹き出し形状」「音声長(t)」を有するレコードを1以上格納している。「吹き出し形状」は、吹き出しの形状を示す属性であり、その属性値はビットマップでも、グラフィカルデータ等でも良い。また、「音声長(t)」は、音声の長さを示す、ここでは時間(t)である。つまり、発声している時間の長さに応じて、吹き出しの形状が変わる。 Next, the balloon output means 1082 constitutes a balloon to be added to each still image. Next, an example of processing that constitutes a balloon will be described. First, the blowout output means 1082 holds a balloon management table shown in FIG. The balloon management table stores one or more records having “ID”, “balloon shape”, and “voice length (t)”. The “balloon shape” is an attribute indicating the shape of the balloon, and the attribute value may be a bitmap or graphical data. “Speech length (t)” is the time (t) in this case, indicating the length of the speech. That is, the shape of the balloon changes according to the length of time during which the utterance is made.
まず、位置検出部105は、取得した静止画、およびその前後の静止画(つまり、映像)を分析し、オブジェクトの少なくとも周辺の位置を検出する。オブジェクトは、通常、赤外線を発信しており、位置検出部105は、画像処理により赤外線を発信している位置(座標)を取得する。ここで、例えば、図18(a)の静止画、およびその前後の静止画に基づいて、位置検出部105は、表示されているオブジェクトの位置座標(250,323)を取得した、とする。
First, the
次に、吹出出力手段1082は、取得した静止画に対応する音声長「200−0=200」を取得する。次に、吹出出力手段1082は、音声長(t)「200」に対応する吹き出しの種類を図19の「ID=2」の吹き出しと決定する。
次に、吹出出力手段1082は、音声長(t)「200」に応じた文字列を生成する。ここでは、「200/4=50文字」の文字列「#ロ・・XY・・・Z・・・・」生成する、とする。
次に、吹出出力手段1082は、図19の「ID=2」の吹き出し形状、50文字の文字列「#ロ・・XY・・・Z・・・・」に基づいて、吹き出し画像を生成する。
Next, the
Next, the blowout output means 1082 generates a character string corresponding to the voice length (t) “200”. Here, it is assumed that a character string “#B ··· XY...
Next, the
次に、吹出出力手段1082は、吹き出しの表示位置を、表示されているオブジェクトの位置座標(250,323)として決定する。なお、吹出出力手段1082は、吹き出しの本体(文字列が入る空間)を、位置座標に対して、画面の空いている側に配置することは好適である。
次に、吹出出力手段1082は、静止画を有する箇所に対応する主人公の音声が存在するか否かを判断し、音声が存在する(発声されている)場合には、その音声長を取得する。
Next, the balloon output means 1082 determines the display position of the balloon as the position coordinates (250, 323) of the displayed object. Note that it is preferable that the blowout output means 1082 is arranged such that the main body of the balloon (a space in which the character string enters) is arranged on the vacant side of the screen with respect to the position coordinates.
Next, the blowout output means 1082 determines whether or not the main character's voice corresponding to the part having the still image exists, and if the voice exists (spoken), acquires the voice length. .
そして、吹出出力手段1082は、オブジェクトの位置座標をコマの外部の(0,500)とする。そして、吹出出力手段1082は、その音声長に基づいた文字列を生成し、上記と同様に、吹き出し画像を生成する。
同様に、吹出出力手段1082、および位置検出部105は、処理を行う、図18(b)、(c)の静止画に対応する吹き出し画像を生成する。
そして、かかる静止画と吹き出し画像を合成し、図20(a)(b)(c)に示す画像を生成する。
The
Similarly, the
Then, the still image and the balloon image are combined to generate the images shown in FIGS. 20 (a), (b), and (c).
次に、出力部108は、以下に示す処理により、静止画(例えば、図20(a)(b)(c))に対してハイライト処理を行う。ここで、出力部108は、図21に示すハイライト図形管理表を保持している。ハイライト図形管理表は、「ID」「場面種」「ハイライト図形」を有するレコードを1以上、保持している。「場面種」は場面の種類、「ハイライト図形」は、場面種に応じたハイライトの図形を示す。ハイライト図形は、ここでは、円、正方形、長方形であるが、他の図形でも良いことは言うまでもない。また、「ハイライト図形」の属性値のデータ構造は問わない。
Next, the
次に、位置検出部105は、出力する静止画上のオブジェクトの位置を取得する。次に、出力部108は、静止画の場面種に応じたハイライト図形を取得する。つまり、出力部108は、図20(a)の静止画の場面種「対話」に応じた正方形のハイライト図形を、図21のハイライト図形管理表から取得する。
Next, the
次に、出力部108は、図20(a)の静止画に対して、オブジェクトの位置を中心として、正方形のハイライト処理を行う。正方形の大きさは、予め決められても良いし、コマの大きさに応じて、動的に変更しても良い。ハイライト処理とは、例えば、ハイライト図形の内側をカラー画像に、外側をモノクロ画像にする処理である。その他、ハイライト処理は、ハイライト図形の内側をフルカラー表示に、外側を16ビットのカラー画像表示にするなどしても良い。つまり、ハイライト処理とは、ハイライト図形の内側を目立つ態様にする処理を言う。
Next, the
同様に、出力部108は、図20(b)(c)の静止画に対して、オブジェクトの位置を中心として、場面種に対応する図形の形状で、ハイライト処理を行う。その結果、出力部108は、図22(a)(b)(c)の静止画を得る。
Similarly, the
そして、出力部108は、各静止画が対応するコマ(ウィンドウ)に表示する。なお、出力部108は、静止画が対応する箇所の時間が長ければ、当該静止画を大きなサイズのコマに配置するようなアルゴリズムが好適である。
Then, the
また、出力部108は、図15に示す「218」の箇所に対応する静止画を、上記の処理により順次、抽出、かつ生成し、図16(a)のコマ割情報が有するコマに配置する。つまり、出力部108は、コマにある静止画を表示された後、所定の時間(時間はランダムでも良い)、表示を継続し、その後、他の静止画を上書き表示する。したがって、ユーザは、ぱらぱら静止画を見ることとなる。つまり、静止画抽出部104は、発話箇所または/および対向箇所を構成する1以上の静止画を映像から繰り返し抽出し、出力部108は、1以上のウィンドウに、静止画抽出部104が抽出した静止画を切り換えながら出力する。
なお、かかる場合の、全体の表示イメージを図23、24に示す。図23において、コマとコマの間に、漫画特有の空きがある。図24には、その空きがない態様である。
以上、本実施の形態によれば、動画から静止画を抽出して、漫画的に表示できる。かつ、漫画的な表示を構成するコマ内の静止画を切り替えるような効果的な表示を実現できる。
さらに、例えば、技術等の各種展示会や博物館や美術館などをめぐったり、さらに、観光したりした際に、取得したコンテンツ(映像、音声などを含む)から、自動的に、好適な電子アルバムを構成できる。
Further, the
In this case, the entire display image is shown in FIGS. In FIG. 23, there is a space unique to comics between frames. FIG. 24 shows a mode in which there is no space.
As described above, according to the present embodiment, a still image can be extracted from a moving image and displayed in a comic style. In addition, it is possible to realize an effective display such as switching still images in frames constituting a comic display.
In addition, for example, when visiting various exhibitions such as technology, museums and art museums, and further sightseeing, a suitable electronic album is automatically created from the acquired content (including video, audio, etc.) Can be configured.
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、映像および音声を有するコンテンツが有する音声に基づいて、発話している箇所である発話箇所を検出する発話箇所検出ステップと、前記発話箇所検出ステップで検出した発話箇所を構成する1以上の静止画を前記映像から抽出する静止画抽出ステップと、前記静止画抽出ステップで抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力ステップを実行させるためのプログラム、である。 Furthermore, the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded and distributed on a recording medium such as a CD-ROM. This also applies to other embodiments in this specification. Note that the software that implements the information processing apparatus according to the present embodiment is the following program. In other words, the program includes, on the computer, an utterance location detecting step for detecting an utterance location that is an utterance location based on the voice of content having video and audio, and the utterance location detected in the utterance location detection step. A still image extraction step for extracting one or more still images constituting the image from the video, and an output step for outputting the one or more still images extracted in the still image extraction step to one or more substantially non-overlapping windows. Program.
また、このプログラムは、コンピュータに、格納しているコンテンツ中の箇所であり、2以上のオブジェクトが対向している箇所を検知する対向箇所検出ステップと、前記対向箇所検出ステップで検出した対向箇所を構成する映像の中から、1以上の静止画を抽出する静止画抽出ステップと、前記静止画抽出ステップで抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力ステップを実行させるためのプログラムである。 In addition, the program stores a location in the content stored in the computer, an opposing location detection step for detecting a location where two or more objects are opposed, and an opposing location detected in the opposing location detection step. A still image extracting step for extracting one or more still images from the constituting video and an output step for outputting the one or more still images extracted in the still image extracting step to one or more windows that do not substantially overlap each other are executed. It is a program for.
また、本プログラムにおける前記静止画抽出ステップにおいて、発話箇所または/および対向箇所を構成する1以上の静止画を前記映像から繰り返し抽出し、前記出力ステップにおいて、前記1以上のウィンドウに、前記静止画抽出ステップで抽出した静止画を切り換えながら出力することは好適である。 Further, in the still image extraction step in the program, one or more still images constituting an utterance location or / and an opposite location are repeatedly extracted from the video, and in the output step, the still image is displayed in the one or more windows. It is preferable to output while switching the still images extracted in the extraction step.
また、本プログラムにおける前記出力ステップは、前記静止画抽出ステップで抽出した静止画を出力する静止画出力サブステップと、前記静止画に重ねて吹き出しを出力する吹出出力サブステップを具備することは好適である。
また、上記プログラムにおける吹出出力サブステップにおいて、前記静止画を有する映像に対応する音声を分析し、当該分析結果に応じて2種類以上の形状の吹き出しを区別して出力することは好適である。
In addition, it is preferable that the output step in the program includes a still image output substep for outputting the still image extracted in the still image extraction step, and a blowout output substep for outputting a balloon over the still image. It is.
Further, in the blowout output sub-step in the program, it is preferable to analyze the audio corresponding to the video having the still image and distinguish and output two or more types of balloons according to the analysis result.
また、上記プログラムにおける吹出出力サブステップにおいて、前記静止画を有する映像に対応する音声を分析し、発話の長さを取得し、当該長さに応じた長さを有する文字列を吹き出し内に出力することは好適である。 Also, in the blowing output sub-step in the above program, the voice corresponding to the video having the still image is analyzed, the length of the utterance is acquired, and the character string having a length corresponding to the length is output in the balloon. It is preferable to do.
また、上記プログラムは、コンピュータに、前記映像を分析し、オブジェクトの少なくとも周辺の位置を検出する位置検出ステップをさらに実行させ、前記吹出出力サブステップにおいて、前記位置検出ステップで検出した位置周辺に吹き出しを出力することは好適である。 Further, the program causes the computer to further execute a position detection step of analyzing the video and detecting a position of at least the periphery of the object, and in the blowing output sub-step, the balloon is blown around the position detected in the position detection step. Is preferably output.
また、上記プログラムは、コンピュータに、前記発話箇所または前記対向箇所を構成するコンテンツを分析し、出力する静止画に対応する音声が、静止画に現れるユーザではないユーザの音声であることを検出する非表示ユーザ発声検出ステップをさらに実行させ、前記吹出出力サブステップにおいて、前記非表示ユーザ発声検出ステップで静止画に現れるユーザではないユーザの音声であることを検出した場合、前記ウィンドウの外または隅から吹き出しが現れる態様で吹き出しを出力することは好適である。 Further, the program analyzes the content constituting the utterance location or the opposite location on a computer, and detects that the audio corresponding to the output still image is the audio of a user who is not a user who appears in the still image. If the non-display user utterance detection step is further executed and it is detected in the blowout output sub-step that the voice of a user who is not a user who appears in a still image is detected in the non-display user utterance detection step, the outside or corner of the window is detected. It is preferable to output the speech balloon in such a manner that the speech balloon appears.
また、上記プログラムは、コンピュータに、前記映像を分析し、オブジェクトの少なくとも周辺の位置を検出する位置検出部をさらに実行させ、前記出力ステップにおいて、前記位置検出ステップで検出した位置の周辺の領域と、他の領域とで出力態様を変更して、前記静止画を出力することは好適である。 Further, the program causes the computer to further execute a position detection unit that analyzes the video and detects a position of at least the periphery of the object, and in the output step, a region around the position detected in the position detection step It is preferable to output the still image by changing the output mode with other regions.
また、上記プログラムにおいて、前記映像情報は、映像と当該映像に表れるオブジェクトを識別するオブジェクト識別子を有し、前記音声情報は、音声と音声の発話者を識別するオブジェクト識別子を有し、前記発話箇所検出ステップにおいて、前記音声の大きさが所定以上の大きさの箇所である発話箇所であり、一のオブジェクト識別子と対になる音声と、ほぼ連続する他のオブジェクト識別子と対になる音声を有する対話の箇所である発話箇所を検出することは好適である。 In the above program, the video information includes an object identifier for identifying a video and an object appearing in the video, and the audio information includes an object identifier for identifying a voice and a voice speaker. In the detecting step, the dialogue is an utterance portion where the volume of the voice is a predetermined size or more, and has a voice paired with one object identifier and a voice paired with another substantially continuous object identifier. It is preferable to detect the utterance location that is the location of.
また、上記プログラムにおいて、前記対話の箇所である発話箇所を構成するコンテンツを分析し、場面の種類を決定する場面種決定をさらに実行させ、前記出力ステップにおいて、前記場面の種類に基づいて、前記位置検出ステップで検出した位置の周辺の領域の形状が異なることは好適である。 Further, in the above program, the content constituting the utterance location that is the location of the dialogue is analyzed, and scene type determination for determining the type of scene is further executed, and in the output step, based on the type of scene, It is preferable that the shape of the area around the position detected in the position detection step is different.
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。 In each of the above embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.
また、図25は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図25は、このコンピュータシステム250の概観図であり、図26は、システム250のブロック図である。
FIG. 25 shows the external appearance of a computer that executes the programs described in this specification to realize the information processing apparatuses according to the various embodiments described above. The above-described embodiments can be realized by computer hardware and a computer program executed thereon. FIG. 25 is an overview of the
図25において、コンピュータシステム250は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ251と、キーボード252と、マウス253と、モニタ254と、スピーカー255とを含む。
25, a
図26において、コンピュータ251は、FDドライブ2511、CD−ROMドライブ2512に加えて、CPU(Central Processing Unit)2513と、CPU2513、CD−ROMドライブ2512及びFDドライブ2511に接続されたバス2514と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)2515と、CPU2513に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)2516と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク2517とを含む。ここでは、図示しないが、コンピュータ251は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
26, in addition to the
コンピュータシステム250に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM2601、またはFD2602に記憶されて、CD−ROMドライブ2512またはFDドライブ2511に挿入され、さらにハードディスク2517に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ251に送信され、ハードディスク2517に記憶されても良い。プログラムは実行の際にRAM2516にロードされる。プログラムは、CD−ROM2601、FD2602またはネットワークから直接、ロードされても良い。
A program that causes the
プログラムは、コンピュータ251に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム250がどのように動作するかは周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
なお、上記プログラムにおいて、情報を出力するステップなどでは、ハードウェアによって行われる処理、例えば、出力するステップにおけるモニタなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
In the above program, the step of outputting information does not include processing performed by hardware, for example, processing performed by a monitor in the outputting step (processing performed only by hardware).
Further, the computer that executes the program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上のように、本発明にかかる情報処理装置は、動画から所定の静止画を適切に抽出して出力できるという効果を有し、電子アルバム装置等として有用である。 As described above, the information processing apparatus according to the present invention has an effect of appropriately extracting and outputting a predetermined still image from a moving image, and is useful as an electronic album apparatus or the like.
101 コンテンツ格納部
102 発話箇所検出部
103 対向箇所検出部
104 静止画抽出部
105 位置検出部
106 場面種決定部
107 非表示ユーザ発声検出部
108 出力部
1081 静止画出力手段
1082 吹出出力手段
DESCRIPTION OF
Claims (9)
前記音声に基づいて、発話している箇所である発話箇所を検出する発話箇所検出部と、
前記発話箇所検出部が検出した発話箇所を構成する1以上の静止画を前記映像から抽出する静止画抽出部と、
前記静止画抽出部が抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力部を具備する情報処理装置。 A content storage unit storing at least one content including video information including video and audio information including audio;
Based on the voice, an utterance location detector that detects an utterance location that is an utterance location,
A still image extraction unit for extracting one or more still images constituting the utterance location detected by the utterance location detection unit from the video;
An information processing apparatus comprising: an output unit that outputs one or more still images extracted by the still image extraction unit to one or more windows that do not substantially overlap.
コンテンツ中の箇所であり、2以上のオブジェクトが対向している箇所を検知する対向箇所検出部と、
前記対向箇所検出部が検出した対向箇所を構成する映像の中から、1以上の静止画を抽出する静止画抽出部と、
前記静止画抽出部が抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力部を具備する情報処理装置。 A content storage unit storing at least one content including video information including video and audio information including audio;
A facing part detection unit that detects a part in the content and two or more objects are facing each other;
A still image extraction unit that extracts one or more still images from the video that configures the opposite location detected by the opposite location detection unit;
An information processing apparatus comprising: an output unit that outputs one or more still images extracted by the still image extraction unit to one or more windows that do not substantially overlap.
発話箇所または/および対向箇所を構成する1以上の静止画を前記映像から繰り返し抽出し、
前記出力部は、
前記1以上のウィンドウに、前記静止画抽出部が抽出した静止画を切り換えながら出力する請求項1記載の情報処理装置。 The still image extraction unit
One or more still images constituting the utterance location or / and the opposite location are repeatedly extracted from the video,
The output unit is
The information processing apparatus according to claim 1, wherein the still image extracted by the still image extraction unit is output to the one or more windows while being switched.
前記静止画抽出部が抽出した静止画を出力する静止画出力手段と、
前記静止画に重ねて吹き出しを出力する吹出出力手段を具備する請求項1から請求項3記載の情報処理装置。 The output unit is
A still image output means for outputting the still image extracted by the still image extraction unit;
The information processing apparatus according to claim 1, further comprising a blowout output unit that outputs a blowout on the still image.
前記吹出出力手段は、
前記位置検出部が検出した位置周辺に吹き出しを出力する請求項4記載の情報処理装置。 Further comprising a position detector for analyzing the video and detecting a position of at least the periphery of the object;
The blowout output means includes
The information processing apparatus according to claim 4, wherein a balloon is output around the position detected by the position detection unit.
前記吹出出力手段は、
前記非表示ユーザ発声検出部が静止画に現れるユーザではないユーザの音声であることを検出した場合、前記ウィンドウの外または隅から吹き出しが現れる態様で吹き出しを出力する請求項4または請求項5記載の情報処理装置。 A non-display user utterance detecting unit that analyzes the content constituting the utterance location or the opposite location and detects that the audio corresponding to the output still image is the audio of a user who is not a user appearing in the still image. And
The blowout output means includes
6. The speech balloon is output in such a manner that a speech balloon appears outside or at a corner of the window when the non-display user utterance detection unit detects a voice of a user who is not a user who appears in a still image. Information processing device.
前記位置検出部が検出した位置の周辺の領域はカラーで、かつ他の領域はモノクロで、前記静止画を出力する請求項5記載の情報処理装置。 The output unit is
The information processing apparatus according to claim 5, wherein an area around the position detected by the position detection unit is in color and the other area is monochrome, and outputs the still image.
映像および音声を有するコンテンツが有する音声に基づいて、発話している箇所である発話箇所を検出する発話箇所検出ステップと、
前記発話箇所検出ステップで検出した発話箇所を構成する1以上の静止画を前記映像から抽出する静止画抽出ステップと、
前記静止画抽出ステップで抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力ステップを実行させるためのプログラム。 On the computer,
An utterance location detection step of detecting an utterance location that is an utterance location based on the audio of content having video and audio,
A still image extraction step of extracting one or more still images constituting the utterance location detected in the utterance location detection step from the video;
A program for executing an output step of outputting one or more still images extracted in the still image extraction step to one or more windows that do not substantially overlap.
格納しているコンテンツ中の箇所であり、2以上のオブジェクトが対向している箇所を検知する対向箇所検出ステップと、
前記対向箇所検出ステップで検出した対向箇所を構成する映像の中から、1以上の静止画を抽出する静止画抽出ステップと、
前記静止画抽出ステップで抽出した1以上の静止画を1以上のほぼ重ならないウィンドウに出力する出力ステップを実行させるためのプログラム。 On the computer,
A facing location detection step of detecting a location in the stored content and a location where two or more objects are facing,
A still image extraction step of extracting one or more still images from the video constituting the opposite location detected in the opposite location detection step;
A program for executing an output step of outputting one or more still images extracted in the still image extraction step to one or more windows that do not substantially overlap.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005046716A JP2006237791A (en) | 2005-02-23 | 2005-02-23 | Information processing apparatus and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005046716A JP2006237791A (en) | 2005-02-23 | 2005-02-23 | Information processing apparatus and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006237791A true JP2006237791A (en) | 2006-09-07 |
Family
ID=37044995
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005046716A Pending JP2006237791A (en) | 2005-02-23 | 2005-02-23 | Information processing apparatus and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006237791A (en) |
-
2005
- 2005-02-23 JP JP2005046716A patent/JP2006237791A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8515728B2 (en) | Language translation of visual and audio input | |
| CN104092957B (en) | A kind of screen video generation method for merging portrait and voice | |
| CN108847214B (en) | Voice processing method, client, device, terminal, server and storage medium | |
| WO2017157272A1 (en) | Information processing method and terminal | |
| CN109637518A (en) | Virtual newscaster's implementation method and device | |
| JP7092108B2 (en) | Information processing equipment, information processing methods, and programs | |
| EP4080907B1 (en) | Information processing device | |
| CN113794927A (en) | Information display method and device and electronic equipment | |
| JPWO2018043112A1 (en) | Information presentation apparatus and information presentation method | |
| AU2013222959A1 (en) | Method and apparatus for processing information of image including a face | |
| JP2017064853A (en) | Robot, content deciding device, content deciding method, and program | |
| WO2020234939A1 (en) | Information processing device, information processing method, and program | |
| CN112287129A (en) | Audio data processing method and device and electronic equipment | |
| CN107566863A (en) | A kind of exchange of information methods of exhibiting, device and equipment, set top box | |
| WO2021153303A1 (en) | Information processing device and information processing method | |
| JP5619214B2 (en) | Image processing apparatus, image processing program, and image processing method | |
| US20240379107A1 (en) | Real-time ai screening and auto-moderation of audio comments in a livestream | |
| JP5427622B2 (en) | Voice changing device, voice changing method, program, and recording medium | |
| JP2006237791A (en) | Information processing apparatus and program | |
| JP5289527B2 (en) | Image processing apparatus, image processing program, and image processing method | |
| JP2006227219A (en) | Information generation device, information output device, and program | |
| KR101562901B1 (en) | System and method for supporing conversation | |
| JP7685660B1 (en) | Information processing device, display device, television receiver, and information processing system | |
| JP2004287004A (en) | Display system | |
| WO2025061291A1 (en) | Systems and methods for generating and presenting a summary of a stream-of-interest |