JP2022019341A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2022019341A JP2022019341A JP2020123121A JP2020123121A JP2022019341A JP 2022019341 A JP2022019341 A JP 2022019341A JP 2020123121 A JP2020123121 A JP 2020123121A JP 2020123121 A JP2020123121 A JP 2020123121A JP 2022019341 A JP2022019341 A JP 2022019341A
- Authority
- JP
- Japan
- Prior art keywords
- posture
- time
- image
- shooting
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
【課題】 オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成する。
【解決手段】 情報処理装置は、所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の撮影画像に基づいて、当該撮影時刻におけるオブジェクトの三次元形状を表す形状データを生成する。また情報処理装置は、当該撮影時刻におけるオブジェクトの姿勢を表す第1姿勢情報と、当該撮影時刻とは異なる特定時刻におけるオブジェクトの姿勢を表す第2姿勢情報とを取得する。そして情報処理装置は、第1姿勢情報及び第2姿勢情報と、当該撮影時刻に対応する形状データとに基づいて、特定時刻におけるオブジェクトの三次元形状を表す形状データを生成する。
【選択図】 図9
PROBLEM TO BE SOLVED: To generate three-dimensional shape data of an object at a time different from the shooting time based on a shot image obtained by shooting the object.
SOLUTION: An information processing device has a shape representing a three-dimensional shape of an object at a predetermined shooting time based on a plurality of shot images obtained by shooting an object from different directions by a plurality of shooting devices. Generate data. Further, the information processing apparatus acquires the first posture information representing the posture of the object at the shooting time and the second posture information representing the posture of the object at a specific time different from the shooting time. Then, the information processing apparatus generates shape data representing the three-dimensional shape of the object at a specific time based on the first posture information and the second posture information and the shape data corresponding to the shooting time.
[Selection diagram] Fig. 9
Description
本発明は、複数の撮影画像を用いてオブジェクトの3次元モデルを生成する技術に関する。 The present invention relates to a technique for generating a three-dimensional model of an object using a plurality of captured images.
複数の撮影装置を異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数視点画像を用いて、任意の視点から見た光景を表す仮想視点画像を生成する技術がある。このような技術によれば、例えば、サッカーやバスケットボール等の試合のハイライトシーンやコンサート等を様々な角度から視聴することが可能となり、通常の画像と比較してユーザに高臨場感を与えることができる。 There is a technique in which a plurality of photographing devices are installed at different positions to perform synchronous photography from multiple viewpoints, and a virtual viewpoint image representing a scene viewed from an arbitrary viewpoint is generated using the multiple viewpoint images obtained by the photographing. With such technology, for example, it is possible to watch highlight scenes of games such as soccer and basketball, concerts, etc. from various angles, and give the user a high sense of presence as compared with ordinary images. Can be done.
仮想視点画像の生成方法としては、複数の撮影装置により撮影された画像を用いて撮影領域内のオブジェクトの三次元形状データを生成し、その三次元形状データを用いたレンダリング処理を行って仮想視点画像を生成する方法がある。また、特許文献1には、予め設定された調整可能な三次元オブジェクトテンプレートモデルを、複数のカメラ画像から得られたオブジェクト三次元情報に基づいて調整し、調整されたモデルに射影変換を施すことで仮想視点画像を生成することが記載されている。 As a method of generating a virtual viewpoint image, three-dimensional shape data of an object in the shooting area is generated using images taken by a plurality of shooting devices, and rendering processing is performed using the three-dimensional shape data to perform a virtual viewpoint. There is a way to generate an image. Further, in Patent Document 1, a preset adjustable three-dimensional object template model is adjusted based on object three-dimensional information obtained from a plurality of camera images, and the adjusted model is subjected to projective transformation. It is described that a virtual viewpoint image is generated in.
撮影装置は所定のフレームレートの撮影画像を生成するが、撮影画像のフレームに対応する時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することが求められる場合がある。例えば、撮影画像のフレームレートより高いフレームレートで画像を表示可能なデバイスで仮想視点画像を表示する場合に、高いフレームレートの仮想視点画像を用いると、滑らかな動画の再生が可能となる。また例えば、高いフレームレートの仮想視点画像をスロー再生することで、スロー動画を滑らかに再生することが可能となる。撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成するためには、撮影画像のフレームに対応する時刻とは異なる時刻の三次元形状データを生成することが要求される。しかしながら、従来の方法では、撮影が行われていない時刻におけるオブジェクトの三次元形状データを取得することはできない。 Although the photographing device generates a captured image at a predetermined frame rate, it may be required to generate three-dimensional shape data of an object at a time different from the time corresponding to the frame of the captured image. For example, when a virtual viewpoint image is displayed on a device capable of displaying an image at a frame rate higher than the frame rate of the captured image, smooth playback of a moving image is possible by using a virtual viewpoint image having a high frame rate. Further, for example, by slow-playing a virtual viewpoint image having a high frame rate, it is possible to smoothly play a slow moving image. In order to generate a virtual viewpoint image having a frame rate higher than the frame rate of the captured image, it is required to generate three-dimensional shape data at a time different from the time corresponding to the frame of the captured image. However, with the conventional method, it is not possible to acquire the three-dimensional shape data of the object at the time when the shooting is not performed.
本発明は上記の課題に鑑みてなされたものであり、オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to generate three-dimensional shape data of an object at a time different from the shooting time based on a shot image obtained by shooting the object. ..
上記の課題を解決するため、本発明に係る情報処理装置は、例えば以下の構成を有する。すなわち、所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の撮影画像に基づいて、前記所定の撮影時刻における前記オブジェクトの三次元形状を表す形状データを生成する第1生成手段と、前記所定の撮影時刻における前記オブジェクトの姿勢を表す第1姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第2姿勢情報と、を取得する取得手段と、前記取得手段により取得された前記第1姿勢情報及び前記第2姿勢情報と、前記生成手段により生成された前記形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第2生成手段と、を有する。 In order to solve the above problems, the information processing apparatus according to the present invention has, for example, the following configuration. That is, shape data representing the three-dimensional shape of the object at the predetermined shooting time is generated based on a plurality of shot images obtained by shooting the object from different directions by a plurality of shooting devices at a predetermined shooting time. The first generation means, the first posture information representing the posture of the object at the predetermined shooting time, and the second posture information representing the posture of the object at a specific time different from the predetermined shooting time are acquired. Based on the acquisition means, the first posture information and the second posture information acquired by the acquisition means, and the shape data generated by the generation means, the three-dimensional shape of the object at the specific time is obtained. It has a second generation means for generating the shape data to be represented.
本発明によれば、オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することができる。 According to the present invention, it is possible to generate three-dimensional shape data of an object at a time different from the shooting time based on the shot image obtained by shooting the object.
[システム構成]
以下、本発明の実施形態について、図面を使用して詳細に説明する。図1は、画像生成システム100の構成例を示す。画像生成システム100は、複数の撮影装置による撮影に基づく複数の画像(複数視点画像)と、仮想的な視点位置及び視線方向とに基づいて、仮想視点からの見えを表す仮想視点画像を生成するシステムである。本実施形態における仮想視点画像は、自由視点映像とも呼ばれるものであるが、ユーザが自由に(任意に)指定した視点に対応する画像に限定されず、例えば複数の候補からユーザが選択した視点に対応する画像なども仮想視点画像に含まれる。また、本実施形態では仮想視点の指定がユーザ操作により行われる場合を中心に説明するが、仮想視点の指定が画像解析の結果等に基づいて自動で行われてもよい。画像生成システム100は、動画を構成するフレームの画像としての静止画の仮想視点画像を所定のフレーム更新間隔で更新することで再生される、仮想視点の動画を生成する。以降の説明に於いては、特に断りがない限り、画像という文言が動画と静止画の両方の概念を含むものとして説明する。
[System configuration]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a configuration example of the
また、本実施形態では、画像生成システム100が仮想視点画像と仮想視点音声を含む仮想視点コンテンツを提供する例を中心に説明する。ただし、仮想視点コンテンツに音声が含まれていなくても良い。また、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音声であっても良い。また、本実施形態では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理されるものとする。
Further, in the present embodiment, an example in which the
画像生成システム100は、センサシステム110a~センサシステム110z、画像生成装置122、コントローラ123、スイッチングハブ121、エンドユーザ端末126、及びタイムサーバ127を有する。
The
センサシステム110aはマイク111a、カメラ112a、雲台113a、外部センサ114a、及びカメラアダプタ120aを有する。なお、センサシステム110aはこの構成に限定されるものではなく、少なくとも1台のカメラ112aまたはマイク111aを有していれば良い。また例えば、センサシステム110aは1台のカメラアダプタ120aと複数のカメラ112aで構成されてもよいし、1台のカメラ112aと複数のカメラアダプタ120aで構成されてもよい。即ち、画像生成システム100内の複数のカメラ112と複数のカメラアダプタ120はN対M(NとMは共に1以上の整数)で対応する。また、センサシステム110aは、マイク111a、カメラ112a、雲台113a、及びカメラアダプタ120a以外の装置を含んでいてもよい。また、カメラ112aとカメラアダプタ120aが一体となって構成されていてもよい。
The
マイク111aにより集音された音声と、カメラ112aにより撮影された画像は、カメラアダプタ120aを介し、スイッチングハブ121へ伝送される。なお、本実施形態では、カメラ112aとカメラアダプタ120aが分離された構成である例を示しているが、これらが同一筺体に一体化されていてもよい。その場合、マイク111aは一体化されたカメラ112aに内蔵されてもよいし、カメラ112aの外部に接続されていてもよい。
The sound collected by the
本実施形態では、センサシステム110b~センサシステム110zは、センサシステム110aと同様の構成である。ただしこれに限らず、それぞれのセンサシステム110が異なる構成でもよい。本実施形態において、センサシステム110aからセンサシステム110zまでの26セットのシステムを特に区別しない場合には、センサシステム110と記載する。センサシステム110内の装置についても同様に、特に区別しない場合には、マイク111、カメラ112、雲台113、外部センサ114、及びカメラアダプタ120と記載する。なお、図1ではセンサシステムが26セットの例を示しているが、画像生成システム100に含まれるセンサシステム110の数はこれに限定されない。
In the present embodiment, the
複数のセンサシステム110は、それぞれ1台ずつのカメラ112を有する。即ち、画像生成システム100は、被写体を複数の方向から撮影するための複数の撮影装置としてのカメラ112を有する。複数のカメラ112により撮影される撮影領域は、例えばサッカーや空手などの競技が行われる競技場、もしくはコンサートや演技が行われる舞台などである。複数のカメラ112は、このような撮影領域を取り囲むようにそれぞれ異なる位置に設置され、同期して撮影を行う。なお、複数のカメラ112は撮影領域の全周にわたって設置されていなくてもよく、設置場所の制限等によっては撮影領域の周囲の一部にのみ設置されていてもよい。また、複数のカメラ112には、望遠カメラと広角カメラなど機能が異なる撮影装置が含まれていてもよい。
Each of the plurality of sensor systems 110 has one camera 112. That is, the
複数のセンサシステム110は、スイッチングハブ121に接続され、スイッチングハブ121を経由して複数のセンサシステム110間のデータ送受信を行う、スター型のネットワークを構成する。また、複数のセンサシステム110は、それぞれスイッチングハブ121を介して画像生成装置122に接続され、複数のカメラ112による撮影に基づく複数視点画像を画像生成装置122へ出力する。
The plurality of sensor systems 110 are connected to the
タイムサーバ127は、時刻及び同期信号を配信する機能を有し、スイッチングハブ121を介して複数のセンサシステム110に時刻及び同期信号を配信する。時刻と同期信号を受信したカメラアダプタ120は、時刻と同期信号を基にカメラ112にGenlockをかけ画像フレーム同期を行う。即ち、タイムサーバ127は、複数のカメラ112の撮影タイミングを同期させる。これにより、画像生成システム100は同じタイミングで撮影された複数の撮影画像に基づいて仮想視点画像を生成できるため、撮影タイミングのずれによる仮想視点画像の品質低下を抑制できる。なお、本実施形態ではタイムサーバ127が複数のカメラ112の時刻同期を管理するものとするが、これに限らず、時刻同期のための処理をカメラ112又はカメラアダプタ120が独立して行ってもよい。
The
コントローラ123は、制御ステーション124と仮想カメラ操作UI125を有する。制御ステーション124は、画像生成システム100を構成するそれぞれの装置とネットワークを介して接続され、各装置の動作状態の管理及びパラメータ設定制御などを行う。ここで、ネットワークはEthernet(登録商標)であるIEEE標準準拠のGbE(ギガビットイーサーネット)や10GbEでもよいし、インターコネクトInfiniband、産業用イーサーネット等を組合せて構成されてもよい。また、これらに限定されず、他の種別のネットワークであってもよい。
The
具体的には、制御ステーション124は、画像生成システム100についての各種設定や制御を実行する。また、制御ステーション124は、撮影対象のスタジアム等の三次元モデルを画像生成装置122に送信する。さらに、制御ステーション124は、複数のカメラ112のキャリブレーションを実施する。カメラキャリブレーションでは、撮影対象のフィールド上にマーカーを設置して複数のカメラ112で撮影を行い、撮影画像からカメラ112それぞれの世界座標系における位置と向き、および焦点距離が算出される。算出されたカメラ112の位置、向き、及び焦点距離の情報は、画像生成装置122に送信される。送信された三次元モデルおよびカメラ112の情報は、画像生成装置122が仮想視点画像を生成する際に使用される。
Specifically, the
仮想カメラ操作UI125は、生成すべき仮想視点画像に対応する仮想視点を指定するためのユーザ操作を受け付け、ユーザ操作に応じた視点情報を、仮想視点画像を生成する画像生成装置122に送信する。仮想視点画像の生成に用いられる視点情報は、仮想視点の位置及び向き(視線方向)を示す情報である。具体的には、視点情報は、仮想視点の三次元位置を表すパラメータと、パン、チルト、及びロール方向における仮想視点の向きを表すパラメータとを含む、パラメータセットを有する。また、視点情報は複数の時点にそれぞれ対応する複数のパラメータセットを有する。例えば、視点情報は、仮想視点画像の動画を構成する複数のフレームにそれぞれ対応する複数のパラメータセットを有し、連続する複数の時点それぞれにおける仮想視点の位置及び向きを示す。なお、視点情報の内容は上記に限定されない。例えば、視点情報としてのパラメータセットには、仮想視点の視野の大きさ(画角)を表すパラメータや、時刻を表すパラメータが含まれてもよい。
The virtual
画像生成装置122は、複数のセンサシステム110から取得した複数視点画像と、仮想カメラ操作UI125から取得した視点情報とに基づいて、仮想視点画像を生成する。仮想視点画像は、例えば以下のような方法で生成される。まず、複数の撮像装置によりそれぞれ異なる方向から撮像することで得られた複数視点画像から、人物やボールなどの所定のオブジェクトに対応する前景領域を抽出した前景画像と、前景領域以外の背景領域を抽出した背景画像が取得される。また、所定のオブジェクトの三次元形状を表す前景モデルと前景モデルに色付けするためのテクスチャデータとが前景画像に基づいて生成され、競技場などの背景の三次元形状を表す背景モデルに色づけするためのテクスチャデータが背景画像に基づいて生成される。そして、前景モデルと背景モデルに対してテクスチャデータをマッピングし、視点情報が示す仮想視点に応じてレンダリングを行うことにより、仮想視点画像が生成される。ただし、仮想視点画像の生成方法はこれに限定されず、三次元モデルを用いずに撮像画像の射影変換により仮想視点画像を生成する方法など、種々の方法を用いることができる。
The
画像生成装置122によって生成された仮想視点画像は、エンドユーザ端末126に送信され、エンドユーザ端末126が有する表示画面に表示される。なお、エンドユーザ端末126は、仮想カメラ操作UI125と同様に、仮想視点を指定するためのユーザ操作に応じた視点情報を画像生成装置122に出力してもよい。これにより、エンドユーザ端末126を操作するユーザは、視点の指定に応じた画像閲覧及び音声視聴が出来る。
The virtual viewpoint image generated by the
画像生成装置122は、仮想視点画像をH.264やHEVC等に代表される標準技術により圧縮符号化したうえで、MPEG-DASHプロトコルを使ってエンドユーザ端末126へデータを送信してもよい。また、仮想視点画像は、非圧縮でエンドユーザ端末126へ送信されてもよい。例えば、エンドユーザ端末126としてスマートフォンやタブレットが用いられる場合には圧縮符号化が行われ、エンドユーザ端末126が非圧縮画像を表示可能なディスプレイである場合には非圧縮画像が送信されてもよい。すなわち、エンドユーザ端末126の種別に応じて画像フォーマットが切り替え可能である。また、画像の送信プロトコルはMPEG-DASHに限らず、例えば、HLS(HTTP Live Streaming)やその他の送信方法が用いられても良い。
The
[ハードウェア構成]
画像生成システム100に含まれる情報処理装置の一例としての画像生成装置122のハードウェア構成について、図2(a)を用いて説明する。なお、図1に示した画像生成システム100に含まれる他の装置のハードウェア構成も、以下で説明する画像生成装置122の構成と同様であってよい。画像生成装置122は、CPU211、ROM212、RAM213、補助記憶装置214、表示部215、操作部216、通信I/F217、及びバス218を有する。
[Hardware configuration]
The hardware configuration of the
CPU211は、ROM212やRAM213に格納されているコンピュータプログラムやデータを用いて画像生成装置122の全体を制御することで、図2(b)に示す画像生成装置122の各機能を実現する。なお、画像生成装置122がCPU211とは異なる1又は複数の専用のハードウェアを有し、CPU211による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。ROM212は、変更を必要としないプログラムなどを格納する。RAM213は、補助記憶装置214から供給されるプログラムやデータ、及び通信I/F217を介して外部から供給されるデータなどを一時記憶する。補助記憶装置214は、例えばハードディスクドライブ等で構成され、画像データや音声データなどの種々のデータを記憶する。
The
表示部215は、例えば液晶ディスプレイやLED等で構成され、ユーザが画像生成装置122を操作するためのGUI(Graphical User Interface)などを表示する。操作部216は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をCPU211に入力する。CPU211は、表示部215を制御する表示制御部、及び操作部216を制御する操作制御部として動作する。通信I/F217は、画像生成装置122の外部の装置との通信に用いられる。例えば、画像生成装置122が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F217に接続される。画像生成装置122が外部の装置と無線通信する機能を有する場合には、通信I/F217はアンテナを備える。バス218は画像生成装置122の各部をつないで情報を伝達する。
The
本実施形態では表示部215と操作部216が画像生成装置122の内部に存在するものとするが、表示部215と操作部216との少なくとも一方が画像生成装置122の外部に別の装置として存在していてもよい。
In the present embodiment, it is assumed that the
[機能構成]
図2(b)は、画像生成装置122の機能構成の例を示す図である。データ受信部201は、複数のカメラ112による撮影に基づく画像データを、スイッチングハブ121を介して受信する。ここで受信される画像データは、カメラ112により撮影された撮影画像であってもよいし、撮影画像から特定のオブジェクトに対応する領域を抽出することで得られる画像であってもよい。本実施形態では、データ受信部201が取得する画像データは、複数のフレームにより構成される動画の撮影画像であるものとする。すなわち、データ受信部201は、所定の撮影期間における複数の撮影装置による撮影に基づく複数の動画を取得する。
[Functional configuration]
FIG. 2B is a diagram showing an example of the functional configuration of the
モデル生成部202は、データ受信部201により取得された画像データを用いて、撮影画像のフレームに対応する撮影時刻毎に、撮影領域内のオブジェクトの三次元形状を表す三次元モデルを生成する。三次元モデルの生成方法には様々な手法が存在するが、本実施形態ではVisual Hull又は視体積交差法と呼ばれる、三次元空間内のボクセルのうち複数のカメラ112から観察される被写体領域を残すことによって三次元モデル取得する方法が利用される。ただし、モデル生成部202による三次元モデルの生成方法はこれに限定されない。また、三次元モデルの表現方法も各種存在するが、本実施例ではボクセル(点)の集合により表現される三次元モデルを扱うものとする。ただし、三次元モデルがポリゴン等により表現されてもよい。三次元モデルの詳細については後述する。
The
姿勢推定部203は、データ受信部201により取得された画像データを用いて、撮影画像のフレームに対応する撮影時刻毎に、撮影領域内のオブジェクトの姿勢を表す姿勢情報を生成する。姿勢情報の生成方法として、本実施形態では、深層学習を利用した姿勢推定を利用するものとする。また本実施形態では、姿勢情報は対象のオブジェクトの骨格(スケルトン)を表現するボーンモデルを表す情報であるものとする。但し、姿勢情報の内容及び生成方法はこれらに限定されない。姿勢情報の詳細については後述する。姿勢補間部204は、姿勢推定部203により生成された複数の時刻それぞれにおける姿勢情報を利用して、それらの時刻の中間の時刻における姿勢情報を補間により生成する。補間する時刻の情報は、制御部208により指示される。
The
動きベクトル算出部205は、姿勢推定部203により生成された姿勢情報が表すボーンモデルと、姿勢補間部204により補間して生成された姿勢情報が表すボーンモデルとの間の差異を示す動きベクトルを取得する。モデル補間部206は、モデル生成部202によって生成された三次元モデルと、動きベクトル算出部205により求められた動きベクトルを用いて、補間する時刻における三次元モデルを生成する。
The motion
レンダリング処理部207は、三次元モデルのデータとデータ受信部201により取得された画像データを基に、仮想視点画像を生成する処理を行う。制御部208は、画像生成装置122が行う各処理の順序等を制御する。
The
[三次元モデルと姿勢情報]
図3を用いて、三次元モデルと姿勢情報について説明をする。図3は、撮影領域内のオブジェクトの例である人物とその三次元モデル及びボーンモデルを示す模式図である。なお、三次元モデルは三次元空間におけるオブジェクトの位置及び形状を示すモデルであり、ボーンモデルは三次元空間におけるオブジェクトの姿勢を示すモデルあるが、説明の簡略化のために図3では二次元的に表現する。複数のカメラ112が撮影領域内のオブジェクト301を撮影することにより得られる画像データに基づいて、三次元モデル302を表す三次元形状データ及びボーンモデル303を表す姿勢情報が生成される。
[3D model and posture information]
The three-dimensional model and the posture information will be described with reference to FIG. FIG. 3 is a schematic diagram showing a person who is an example of an object in the shooting area, a three-dimensional model thereof, and a bone model. The three-dimensional model is a model showing the position and shape of the object in the three-dimensional space, and the bone model is a model showing the posture of the object in the three-dimensional space. Express in. Based on the image data obtained by photographing the
本実施形態における三次元モデル302は、ボクセルの集合である点群で表現される。点群は、三次元空間内の各ボクセルの三次元位置情報(x,y,z)と、1つのボクセルの大きさを示す情報により表される。ボクセルは立方体であり、ボクセルの大きさは例えば一辺の長さで表現される。ボクセルの集合によりオブジェクト301の三次元形状が表現されるため、三次元モデル302によって表現される三次元形状の精度はボクセルが細かいほど高くなる。一方、ボクセルが細かいと、三次元モデル302を構成するボクセルの数が多くなるため、三次元モデルの情報量(三次元形状データのデータサイズ)が大きくなる。
The three-
姿勢情報が表すボーンモデル303は、図3に示すように、オブジェクト301の構造上の主要な節点と、節点間を接続する線により構成される。三次元モデル302と比較するとボーンモデル303は情報量が少ないため、姿勢情報は三次元形状データよりも小さいデータサイズでオブジェクト301の大まかな動きや姿勢の状態を表現することが可能である。
As shown in FIG. 3, the
図4を用いて、カメラ112により取得される撮影画像、モデル生成部202により生成される三次元モデル、及び姿勢推定部203により生成される姿勢情報の時間的な関係について説明を行う。本実施形態では、カメラ112の撮影フレームレート(撮影画像のフレームレート)が60fpsであるものとする。つまり、1/60秒毎にカメラ112により1フレームの撮影画像が取得される。三次元モデルと姿勢情報もそれぞれ、撮影画像に基づいて、撮影画像と同じ60fpsのフレームレートで生成される。このような60fpsのフレームレートの三次元モデルを用いて仮想視点画像を生成する場合、仮想視点画像のフレームレートも60fpsとなる。
FIG. 4 will explain the temporal relationship between the photographed image acquired by the camera 112, the three-dimensional model generated by the
一方、撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成することが求められる場合がある。そこで、画像生成システム100は、撮影画像に対応する時刻とは異なる時刻における三次元モデルを補間により生成することで、120fpsの仮想視点画像を生成する。具体的には、姿勢補間部204が、2つの時間的に連続するフレームそれぞれに対応する姿勢情報から、それらのフレームに対応する撮影時刻の中間の時刻における姿勢情報を補間により生成する。そしてモデル補間部206が、姿勢補間部204により生成された姿勢情報に基づいて、補間により生成された姿勢情報と同時刻に対応する三次元モデルを生成する。
On the other hand, it may be required to generate a virtual viewpoint image having a frame rate higher than the frame rate of the captured image. Therefore, the
図9に、補間により生成された姿勢情報(以下では補間姿勢情報と表記する)と補間姿勢情報に基づいて生成された三次元モデル(以下では補間三次元モデルと表記する)の時間的な位置付けを示す。撮影画像は1/60秒ごとに1フレームが取得されるが、補間姿勢情報と補間三次元モデルが生成されることにより、1/120秒ごとの姿勢情報と三次元モデルが得られる。この三次元モデルを用いることで、撮影画像のフレームレートの2倍である120fpsの仮想視点画像を生成することが可能になる。 In FIG. 9, the posture information generated by interpolation (hereinafter referred to as interpolated posture information) and the three-dimensional model generated based on the interpolated posture information (hereinafter referred to as interpolated three-dimensional model) are temporally positioned. Is shown. One frame is acquired every 1/60 second of the captured image, and the posture information and the three-dimensional model are obtained every 1/120 second by generating the interpolated posture information and the interpolated three-dimensional model. By using this three-dimensional model, it is possible to generate a virtual viewpoint image of 120 fps, which is twice the frame rate of the captured image.
[動作フロー]
図10は、画像生成装置122の動作の例を示すフローチャートである。図10に示す処理は、画像生成装置122のCPU211がROM212に格納されたプログラムをRAM213に展開して実行することで実現される。なお、図10に示す処理の少なくとも一部を、CPU211とは異なる1又は複数の専用のハードウェアにより実現してもよい。図10に示す処理は、複数のカメラ112による撮影が行われ、仮想視点画像を生成するための指示が画像生成装置122に入力されたタイミングで開始される。ただし、図10に示す処理の開始タイミングはこれに限定されない。図10に示す処理は、複数のカメラ112による撮影中に実行されてもよいし、撮影が完了して撮影画像が記録された後に実行されてもよい。
[Operation flow]
FIG. 10 is a flowchart showing an example of the operation of the
S1001において、データ受信部201は、複数のカメラ112による撮影に基づく撮影画像を取得する。S1002において、モデル生成部202は、撮影画像に基づいて、撮影画像の時刻と同時刻における三次元モデルを表す三次元形状データを生成する。この三次元モデルを以下では基準三次元モデルと表記する。S1003において、姿勢推定部203は、撮影画像に基づいて、撮影画像の時刻と同時刻における姿勢情報を生成する。この姿勢情報を以下では基準姿勢情報と表記する。
In S1001, the
S1004において、姿勢補間部204、動きベクトル算出部205、及びモデル補間部206は、基準三次元モデルと基準姿勢情報に基づいて補間三次元モデルを表す三次元形状データを生成する。S1005において、レンダリング処理部207は、基準三次元モデルを用いて基準フレームの仮想視点画像のレンダリングを行う。仮想視点画像の基準フレームとは、撮影画像のフレームと同時刻に対応するフレームである。S1006において、レンダリング処理部207は、補間三次元モデルを用いて補間フレームの仮想視点画像のレンダリングを行う。仮想視点画像の補間フレームとは、撮影画像のフレームとは異なる時刻に対応するフレームであり、2つの連続する基準フレームの中間に挿入されるフレームである。
In S1004, the
S1004及びS1005におけるレンダリング処理により、撮影画像のフレームレートより高いフレームレートの仮想視点画像が生成される。S1007において、レンダリング処理部207は、生成された仮想視点画像をエンドユーザ端末126へ出力する。出力された仮想視点画像は、エンドユーザ端末126の画面に表示される。このように、撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成することで、例えば、撮影画像のフレームレートより高いフレームレートで画像を表示可能なデバイスで仮想視点画像を表示する場合に、滑らかな動画の再生が可能となる。また例えば、高いフレームレートの仮想視点画像をスロー再生することで、スロー動画を滑らかに再生することが可能となる。
The rendering process in S1004 and S1005 generates a virtual viewpoint image having a frame rate higher than the frame rate of the captured image. In S1007, the
次に、S1004における補間三次元モデルを生成する処理の詳細について、図5を用いて説明する。S501にて、制御部208は、補間により生成すべき補間フレームの時刻情報を取得する。本実施形態では、60fpsの撮影画像から120fpsの仮想視点画像が生成されるため、補間フレームの時刻情報は、複数の基準フレームのそれぞれに対応する時刻の中間の時刻を示す。補間フレームの時刻情報は、ユーザ操作に基づいて取得される。例えばユーザが「120fps」や「倍速」を指定する操作を行った場合に、120fpsの仮想視点画像を生成するための補間フレームの時刻情報が取得される。ただし、補間フレームの時刻情報の取得方法はこれに限定されず、制御部208は、撮影領域におけるオブジェクトの状況や撮影対象のイベント等に基づいて決められた時刻情報を取得してもよい。
Next, the details of the process of generating the interpolated three-dimensional model in S1004 will be described with reference to FIG. In S501, the
S502において、姿勢補間部204は、補間フレームの前後の基準フレームに対応する基準姿勢情報から、補間フレームに対応する時刻の姿勢情報を補間により生成する。S502で実施される姿勢情報の補間方法について、図6を用いて説明する。ここでは、フレームNとフレームN+1という二つの連続する基準フレームの中間の時刻に対応する補間フレームの姿勢情報を生成する例について説明する。
In S502, the
ボーンモデル600は、フレームNの姿勢情報が表すボーンモデルであり、フレームNに対応する時刻におけるオブジェクトの姿勢を表す。また、ボーンモデル620は、フレームN+1の姿勢情報が表すボーンモデルであり、フレームN+1に対応する時刻におけるオブジェクトの姿勢を表す。ボーンモデル610は、補間フレームの姿勢情報が表すボーンモデルであり、補間フレームに対応する時刻におけるオブジェクトの姿勢を表す。
The
姿勢補間部204は、ボーンモデル600における節点601の位置とボーンモデル620における対応する節点602の位置から、補間フレームにおける対応する節点603の位置を線形補間により算出する。本実施形態では、2つの基準フレームの間の中央の特定時刻が補間フレームの時刻であるため、補間フレームにおける節点603の位置として、節点601の座標と節点602の座標の平均値が算出される。このようにして補間フレームにおける各節点の位置が算出され、算出された節点間を接続することで、補間フレームのボーンモデル610を表す姿勢情報が生成される。
The
S503において、動きベクトル算出部205及びモデル補間部206は、S502において生成された補間姿勢情報を用いて補間三次元モデルを生成する。S503における処理の詳細について、図7を用いて説明する。S701において、動きベクトル算出部205は、基準姿勢情報が表すボーンモデルと補間姿勢情報が表すボーンモデルとの間の動きベクトルを算出する。ここで使用される基準姿勢情報は、補間精度を向上させるために、補間フレームの時刻に近い時刻の基準姿勢情報であることが望ましい。例えば、2つの基準フレームの間の中央の特定時刻を補間フレームとする場合、補間フレームの前後の基準フレームのいずれかの基準姿勢情報が使用される。
In S503, the motion
S702において、モデル補間部206は、動きベクトルの大きさに応じて補間フレームのボーンモデルを領域分割する。図8(a)は、図6に示した補間フレームにおけるボーンモデル610を示す。図8(b)は、ボーンモデル610の部分800を拡大した様子を示す。図8(b)に示すように、基準フレームにおけるボーンモデル600と補間フレームにおけるボーンモデル610との間における領域811の動きは、動きベクトル801で表される。同様に、領域812の動きは動きベクトル802で表され、領域811の動きは動きベクトル801で表される。動きベクトルは単位時間あたりの動き方向と動き量を示すベクトルであり、例えば座標(vx,vy,vz)で表される。なお、本実施形態では動きベクトルの大きさによりボーンモデルを複数の領域に分割するものとするが、これに限らず、その他の基準によってボーンモデルが複数の領域に分割されたうえで、各領域の動きベクトルが算出されてもよい。
In S702, the
S703において、モデル補間部206は、基準三次元モデルを構成する各ボクセルの位置を、そのボクセルが属する領域に対応する動きベクトルに従って変更することで、補間三次元モデルを生成する。例えば図8(c)に示すように、フレームNの基準三次元モデルを構成するボクセル821を、ボクセル821が属する領域813に対応する動きベクトル803に従って動かすことで、補間三次元モデルを構成するボクセル822が得られる。基準三次元モデルにおけるボクセル821の座標を(x,y,z)とすると、補間三次元モデルにおける対応するボクセル822の座標(x’,y’,z’)は、以下の式で示すように求められる。
x’=x + vx × t
y’=y + vy × t
z’=z + vz × t
ここでtは基準フレームの時刻から補間フレームの時刻までの時間であり、本実施形態では1/120秒である。このようにして、補間三次元モデルを構成する各ボクセルの位置を算出することで、補間三次元モデルが生成される。
In S703, the
x'= x + vx x t
y'= y + by x t
z'= z + vz x t
Here, t is the time from the time of the reference frame to the time of the interpolation frame, which is 1/120 second in the present embodiment. In this way, the interpolated three-dimensional model is generated by calculating the position of each voxel constituting the interpolated three-dimensional model.
[変形例]
上述した実施形態では、撮影画像のフレームレート2倍のフレームレートの仮想視点画像を生成する場合について説明した。ただし、画像生成システム100により生成される仮想視点画像のフレームレートはこれに限定されず、上述した方法と同様の方法で画像生成システム100は任意のフレームレートの仮想視点画像を生成することができる。以下では、撮影画像のフレームレートの3倍のフレームレートの仮想視点画像を生成する場合の具体例を示す。
[Modification example]
In the above-described embodiment, a case of generating a virtual viewpoint image having a frame rate twice the frame rate of the captured image has been described. However, the frame rate of the virtual viewpoint image generated by the
図11は、撮影画像、基準三次元モデル、基準姿勢情報、補間三次元モデル、及び補間姿勢情報の時間的な関係を示す。撮影画像のフレームN、フレームN+1、及びフレームN+2は連続するフレームであり、フレーム間の間隔は1/60秒である。そして、撮影画像のフレームレートの3倍のフレームレートの仮想視点画像を生成するために、連続する2つの基準フレームの間に2つの補間フレームが挿入され、各補間フレームに対応する補間姿勢情報および補間三次元モデルが生成される。本変形例では補間フレームを含めた複数フレーム間の時間間隔を等間隔にするため、フレーム間の時間間隔は1/180秒となる。 FIG. 11 shows the temporal relationship between the captured image, the reference three-dimensional model, the reference attitude information, the interpolated three-dimensional model, and the interpolated attitude information. Frames N, frames N + 1, and frames N + 2 of the captured image are continuous frames, and the interval between the frames is 1/60 second. Then, in order to generate a virtual viewpoint image having a frame rate three times the frame rate of the captured image, two interpolation frames are inserted between two consecutive reference frames, and the interpolation posture information and the interpolation posture information corresponding to each interpolation frame are inserted. An interpolated three-dimensional model is generated. In this modification, since the time interval between a plurality of frames including the interpolation frame is made equal, the time interval between the frames is 1/180 second.
図12に、フレームNの姿勢情報が表すボーンモデル600と、フレームN+1の姿勢情報が表すボーンモデル620と、補間フレームの姿勢情報が表すボーンモデル1210を示す。この補間フレームは、フレームNに対応する時刻の1/180秒後の時刻に対応する。ボーンモデル1210は、ボーンモデル600とボーンモデル620を用いた補間処理により生成される。具体的には、姿勢補間部204が、ボーンモデル600における節点601の位置とボーンモデル620における対応する節点602の位置から、補間フレームにおける対応する節点1203の位置を線形補間により算出する。節点1203の座標(x,y,z)は、以下の式で求められる。
x=x1 + (x2 - x1) × t1/T
y=y1 + (y2 - y1) × t1/T
z=z1 + (z2 ― z1) × t1/T
ここで、(x1,y1,z1)がフレームNにおける節点601の座標であり、(x2,y2,z2)がフレームN+1における節点602の座標である。TはフレームNとフレームN+1との間の時間間隔であり、t1はフレームNとフレームNに連続する補間フレームとの間の時間間隔である。
FIG. 12 shows a
x = x1 + (x2-x1) x t1 / T
y = y1 + (y2-y1) × t1 / T
z = z1 + (z2-z1) × t1 / T
Here, (x1, y1, z1) are the coordinates of the
このようにして補間フレームにおける各節点の位置が算出され、算出された節点間を接続することで、補間フレームのボーンモデル1210を表す姿勢情報が生成される。なお、フレームNとフレームN+1との間に挿入されるもう一つの補間フレームに対応する時刻(フレームNの時刻から2/180秒後)におけるボーンモデルも、同様の方法で生成される。そして、生成された補間フレームのボーンモデルを表す補間姿勢情報に基づいて、上述した実施形態と同様に補間三次元モデルが生成される。これにより、180fpsの仮想視点画像の生成が可能となる。
In this way, the position of each node in the interpolated frame is calculated, and by connecting the calculated nodes, the posture information representing the
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC等)によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。 The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC or the like) that realizes one or more functions. Further, the program may be recorded and provided on a recording medium readable by a computer.
100 画像生成システム
112 カメラ
122 画像生成装置
100 Image generation system 112
Claims (14)
前記所定の撮影時刻における前記オブジェクトの姿勢を表す第1姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第2姿勢情報と、を取得する取得手段と、
前記取得手段により取得された前記第1姿勢情報及び前記第2姿勢情報と、前記第1生成手段により生成された形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第2生成手段と、を有することを特徴とする情報処理装置。 First generation that generates shape data representing the three-dimensional shape of the object at the predetermined shooting time based on a plurality of images obtained by shooting the object from different directions by a plurality of shooting devices at a predetermined shooting time. Means and
An acquisition means for acquiring first posture information representing the posture of the object at the predetermined shooting time and second posture information representing the posture of the object at a specific time different from the predetermined shooting time.
Shape data representing the three-dimensional shape of the object at the specific time based on the first posture information and the second posture information acquired by the acquisition means and the shape data generated by the first generation means. An information processing apparatus comprising: a second generation means for generating the data.
前記所定の撮影時刻は前記複数のフレームに含まれるフレームに対応する時刻であり、
前記特定時刻は、前記所定の撮影期間に含まれる時刻であって、且つ、前記複数のフレームに対応する前記複数の時刻には含まれない時刻であることを特徴とする請求項1に記載の情報処理装置。 The first generation means comprises a plurality of moving images included in the plurality of moving images based on a plurality of moving images obtained by shooting the object from different directions by the plurality of photographing devices in a predetermined shooting period. Generates shape data representing the three-dimensional shape of the object at each of multiple times corresponding to the frame.
The predetermined shooting time is a time corresponding to a frame included in the plurality of frames.
The first aspect of the present invention, wherein the specific time is a time included in the predetermined shooting period and not included in the plurality of times corresponding to the plurality of frames. Information processing device.
前記所定の撮影時刻とは異なる他の撮影時刻において前記複数の撮影装置により撮影することで得られる複数の画像に基づいて、前記他の撮影時刻における前記オブジェクトの姿勢を表す第3姿勢情報を取得し、
前記第1姿勢情報と前記第3姿勢情報とを用いた補間処理により前記第2姿勢情報を取得することを特徴とする請求項4に記載の情報処理装置。 The acquisition means
Acquire third posture information representing the posture of the object at the other shooting time based on a plurality of images obtained by shooting with the plurality of shooting devices at another shooting time different from the predetermined shooting time. death,
The information processing apparatus according to claim 4, wherein the second posture information is acquired by interpolation processing using the first posture information and the third posture information.
前記所定の撮影時刻における前記オブジェクトの姿勢を表す第1姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第2姿勢情報と、を取得する取得工程と、
前記取得工程において取得された前記第1姿勢情報及び前記第2姿勢情報と、前記第1生成工程において生成された形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第2生成工程と、を有することを特徴とする情報処理方法。 First generation that generates shape data representing the three-dimensional shape of the object at the predetermined shooting time based on a plurality of images obtained by shooting the object from different directions by a plurality of shooting devices at a predetermined shooting time. Process and
An acquisition step of acquiring first posture information representing the posture of the object at the predetermined shooting time and second posture information representing the posture of the object at a specific time different from the predetermined shooting time.
Shape data representing the three-dimensional shape of the object at the specific time based on the first posture information and the second posture information acquired in the acquisition step and the shape data generated in the first generation step. A second generation step, and an information processing method comprising.
前記所定の撮影時刻は前記複数のフレームに含まれるフレームに対応する時刻であり、
前記特定時刻は、前記所定の撮影期間に含まれ、且つ前記複数のフレームに対応する前記複数の時刻に含まれない時刻であることを特徴とする請求項11に記載の情報処理方法。 In the first generation step, a plurality of moving images included in the plurality of moving images are formed based on a plurality of moving images obtained by shooting the object from different directions by the plurality of photographing devices in a predetermined shooting period. Shape data representing the three-dimensional shape of the object at each of the plurality of times corresponding to the frame of is generated.
The predetermined shooting time is a time corresponding to a frame included in the plurality of frames.
The information processing method according to claim 11, wherein the specific time is a time included in the predetermined shooting period and not included in the plurality of times corresponding to the plurality of frames.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020123121A JP2022019341A (en) | 2020-07-17 | 2020-07-17 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020123121A JP2022019341A (en) | 2020-07-17 | 2020-07-17 | Information processing apparatus, information processing method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2022019341A true JP2022019341A (en) | 2022-01-27 |
Family
ID=80203641
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020123121A Pending JP2022019341A (en) | 2020-07-17 | 2020-07-17 | Information processing apparatus, information processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2022019341A (en) |
-
2020
- 2020-07-17 JP JP2020123121A patent/JP2022019341A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6918455B2 (en) | Image processing equipment, image processing methods and programs | |
| JP6948171B2 (en) | Image processing equipment and image processing methods, programs | |
| JP7179515B2 (en) | Apparatus, control method and program | |
| JP7072378B2 (en) | Image generator and its control method, image generation system, program | |
| EP3573026B1 (en) | Information processing apparatus, information processing method, and program | |
| JP2020135222A (en) | Image generator, image generation method, program | |
| US10863210B2 (en) | Client-server communication for live filtering in a camera view | |
| JP2019054488A (en) | Providing device, providing method, and program | |
| WO2018100928A1 (en) | Image processing device and method | |
| JP3623415B2 (en) | Avatar display device, avatar display method and storage medium in virtual space communication system | |
| US11461942B2 (en) | Generating and signaling transition between panoramic images | |
| JP2021033347A (en) | Image processing equipment, image processing methods and programs | |
| JP6812181B2 (en) | Image processing device, image processing method, and program | |
| JP2020071394A (en) | Information processing device, information processing method, and program | |
| JP2024135024A (en) | Image processing device and image processing method | |
| JP2023131566A (en) | Image processing device, image processing method, and program | |
| WO2022176719A1 (en) | Image processing device, image processing method, and program | |
| JP2019075740A (en) | Image processing system, image processing apparatus, image transmission method, and program | |
| JP7296735B2 (en) | Image processing device, image processing method and program | |
| JP2022019341A (en) | Information processing apparatus, information processing method, and program | |
| JP7354186B2 (en) | Display control device, display control method, and display control program | |
| WO2024014197A1 (en) | Image processing device, image processing method, and program | |
| JP2023183059A (en) | Information processing device, information processing method, and computer program | |
| JP2022119067A (en) | IMAGE PROCESSING APPARATUS AND METHOD, IMAGE PROCESSING SYSTEM, PROGRAM | |
| JP2025017526A (en) | Information processing device, information processing method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20200731 |