CN116075860A

CN116075860A - 信息处理装置、信息处理方法、视频分发方法和信息处理系统

Info

Publication number: CN116075860A
Application number: CN202180049906.0A
Authority: CN
Inventors: 福安彻也
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-07-30
Filing date: 2021-07-15
Publication date: 2023-05-05
Anticipated expiration: 2041-07-15
Also published as: CN116075860B; US12260491B2; WO2022024780A1; EP4178199A1; US20230260199A1; JPWO2022024780A1; EP4178199A4

Abstract

本发明从通过体积技术生成的三维对象生成添加了各种渲染的视频。该信息处理装置设置有第一生成单元(134)，该第一生成单元基于二维图像和通过使用通过对被摄体成像捕获的多个图像生成的被摄体的三维模型，生成其中同时存在二维图像和从三维模型生成的被摄体的视频。

Description

信息处理装置、信息处理方法、视频分发方法和信息处理系统

技术领域

本公开内容涉及信息处理装置、信息处理方法、视频分发方法和信息处理系统。

背景技术

已经提出了体积技术的技术(也被称为体积捕获技术)，其使用被布置成围绕被摄体(对象)的多个相机来重建内部的被摄体(对象)的三维形状并从自由视点重新绘制形状。通过布置相机以通过该体积技术捕获背面和头顶，可以生成使得观看者能够在所有方向上观看被摄体的视频(体积视频)。

引文列表

专利文献

专利文献1：WO 2019/021375A

概要

技术问题

在观看视频的典型情况下，用户将观看通过将由体积技术生成的三维对象叠加在预先创建的背景对象上并渲染组合对象而生成的视频。然而，存在的问题是，简单地通过将背景对象叠加在三维对象上，不可能实现适合于诸如音乐现场表演、体育赛事、演讲和学术课程的各种视频内容中的每一种的演示。

因此，本公开内容提出了信息处理装置、信息处理方法、视频分发方法和信息处理系统，使得能够从由体积技术等生成的三维对象生成具有宽范围演示的视频。

问题的解决方案

为了解决上述问题，根据本公开内容的实施方式的信息处理装置包括第一生成单元，该第一生成单元基于通过使用通过对被摄体成像获得的多个捕获图像生成的被摄体的三维模型以及基于二维图像，来执行视频的生成，在该视频中同时存在从三维模型生成的被摄体和二维图像。

附图说明

图1是示出根据本公开内容的一个实施方式的信息处理系统的示意性配置的框图。

图2是示出根据本实施方式的成像装置的示例的图。

图3是示出由根据本实施方式的信息处理系统执行的处理的流程的示例的流程图。

图4是示出根据本实施方式的信息处理系统的硬件配置的示例的框图。

图5是示出根据本实施方式的渲染单元的进一步详细配置示例的框图。

图6是示出根据本实施方式的中间渲染视频的示例的图。

图7是示出根据本实施方式的虚拟视点视频(RGB)的示例的图。

图8是示出根据本实施方式的虚拟视点视频(深度)的示例的图。

图9是示出根据本实施方式的真实相机图像的示例的图。

图10是示出根据本实施方式的辅助视频的示例的视图。

图11是示出根据本实施方式的初始虚拟视点视频生成单元的进一步详细配置示例的框图。

图12是示出根据本实施方式的最终虚拟视点视频生成单元的进一步详细配置示例的框图。

图13是示出由根据本实施方式的图像质量增强单元执行的处理的示例的图。

图14是示出在本实施方式中分发到用户的视频内容的示例的图。

图15是示出在本实施方式中分发到用户的体积视频的另一示例的视图。

图16是示出根据本实施方式的信息处理系统的具体示例的系统配置图。

具体实施方式

下面将参照附图详细描述本公开内容的实施方式。在下面的实施方式中的每一个中，相同部分用相同的附图标记表示，并且将省略其重复描述。

将按以下顺序描述本公开内容。

0.引言

1.一个实施方式

1-1.信息处理系统的功能配置

1-2.由信息处理系统执行的处理的流程

1-3.信息处理系统的硬件配置

1-4.本实施方式的进一步细节

1-4-1.渲染单元的进一步详细配置示例

1-4-2.中间渲染视频的具体示例

1-4-3.初始虚拟视点视频生成单元131的进一步详细配置示例

1-4-4.最终虚拟视点视频生成单元134的进一步详细配置示例

1-5.根据本实施方式的演示的示例

1-6.信息处理系统的具体示例

1-7.总结

0.引言

体积技术是这样的技术，其使用被排列成围绕被摄体(对象)的多个相机以重建内部的被摄体(对象)的三维形状并从自由视点重新绘制形状。通过布置相机以捕获背面和头顶，观看者可以在所有方向上观看被摄体。由于在这样的体积技术中诸如捕获、建模和渲染的各种类型的处理需要巨大的计算成本和长的处理时间，因此通常应当离线执行处理。然而，利用在线实时地执行体积技术中的各种类型的处理的能力，可以从捕获的三维对象立即生成体积视频并将生成的视频分发到用户。这导致在实时表演非常重要的使用情况下，例如音乐现场表演、体育赛事、演讲和学术课程，需要实时地执行体积技术中的各种类型的处理。顺便提及，体积视频可以是例如通过使用由体积技术生成的3D对象生成的视频。

例如，可以通过利用用于超级计算机或数据中心中的大规模处理的高性能计算(HPC)技术来实现体积技术中的各种类型的处理的实时执行。

此外，如上所述，在观看体积视频的典型情况下，人们观看通过将由体积技术生成的3D对象叠加在预先创建的背景对象上而生成的体积视频。然而，并不总是能够简单地通过将背景对象叠加在3D对象上，来实现适合于诸如音乐现场表演、体育赛事、演讲和学术课程的各种视频中的每一种的演示。

为了处理该问题，以下实施方式使得可以从由体积技术生成的三维对象生成应用了宽范围演示的视频。

另外，当体积视频的生成将由诸如一个个人计算机(在下文中，被称为PC)的有限资源执行时，例如，处理不能跟上捕获的视频数据，导致实时性能受损的可能性。特别地，在体积技术中结合诸如另一3D对象的叠加、图像质量增强、各种效果等的各种类型的附加处理将增加整体处理负荷，使得难以确保实时性。

此外，由于每个PC取决于规范具有其适合的处理任务，因此在一个PC中聚合体积技术的各种类型的处理可能降低开发效率。例如，可能存在这样的情况，一方面，安装有Linux(注册商标)的PC可以执行低延迟分发处理，通过该低延迟分发处理，处理中的每一个被分发到多个图形处理单元(GPU)(在下文中，被称为GPU分发处理)，另一方面，PC具有很少必要的处理库，导致差的开发效率。

因此，在以下实施方式中，体积技术中的各种类型的处理被分发到多个计算机，从而使得能够快速生成体积视频。例如，可以生成确保实时性的体积视频。另外，将处理分发到多个计算机将提高系统的开发环境的自由度，使得可以构建抑制了开发效率的恶化的系统。

然而，即使在处理被分发到多个计算机的情况下，也存在增加的延迟的问题，除非使用具有小传送量的传输方法。因此，在以下实施方式中，还将通过示例来描述具有小传送量的计算机之间的数据传输方法。

1.一个实施方式

1-1.信息处理系统的功能配置

首先，将参照图1描述根据本公开内容的一个实施方式的信息处理系统的概述。图1是示出本实施方式的信息处理系统的示意性配置的框图。

如图1所示，信息处理系统10包括数据获取单元11、3D模型生成单元12、渲染单元13、发送单元14、接收单元15和显示单元16。注意，显示单元16不需要包括在信息处理系统10中。

(数据获取单元11)

数据获取单元11获取用于生成作为成像目标对象的被摄体90的三维模型的图像数据(在下文中，被称为真实相机图像)。(注意，本说明书中的图像数据还可以包括诸如运动图像的视频数据)。例如，如图2所示，获取由被布置成围绕被摄体90的多个真实相机70a、70b、70c、70d、70e……(在下文中，真实相机70a、70b、70c、70d、70e……也被统称为真实相机70)捕获的多个视点图像作为真实相机图像。在这种情况下，多个视点图像优选地是由多个真实相机70同步捕获的图像。此外，例如，数据获取单元11可以通过移动一个真实相机70并从多个视点对被摄体90成像来获取来自不同视点的多个真实相机图像。然而，本发明不限于此，并且数据获取单元11可以获取被摄体90的一个真实相机图像。在这种情况下，将在下面描述的3D模型生成单元12可以例如使用机器学习基于一个真实相机图像来生成被摄体90的三维模型。

注意，数据获取单元11可以基于真实相机图像来执行校准，并且获取每个真实相机70的内部参数和外部参数。此外，数据获取单元11可以获取例如指示从多个视点到被摄体90的距离的多条深度信息。

(3D模型生成单元12)

3D模型生成单元12基于用于生成被摄体90的三维模型的真实相机图像来生成具有被摄体的三维信息的三维模型。例如，3D模型生成单元12可以通过使用被称为视觉外壳的技术，基于来自多个视点的图像(例如，来自多个视点的轮廓图像)雕刻被摄体的三维形状，来生成被摄体的三维模型。在这种情况下，3D模型生成单元12还可以通过使用指示从多个位置处的视点到被摄体的距离的多条深度信息，对利用视觉外壳生成的三维模型执行高准确度变换。此外，如上所述，3D模型生成单元12可以从被摄体90的一个真实相机图像生成被摄体90的三维模型。

由3D模型生成单元12生成的三维模型还可以被定义为三维模型的运动图像，因为模型是以以帧为单位的时间序列生成的。此外，三维模型使用由真实相机70获取的真实相机图像来生成，并且因此可以被定义为实时三维模型。三维模型可以被形成为具有指示以三维形状网格数据的形式表达的被摄体90的表面形状的形状信息，该三维形状网格数据被称为多边形网格，其由顶点之间的连接表达。三维形状网格数据包括例如网格的顶点的三维坐标和指示哪些顶点要被组合以形成三角形网格的索引信息。注意，表达三维模型的方法不限于此，并且三维模型可以通过被称为点云表达方法的技术来描述，该点云表达方法通过由点形成的位置信息来表达。

三维形状网格数据可以与关于作为纹理的颜色和图案的信息(也被称为纹理图像)相关联。纹理关联包括其中颜色在任何观看方向上均不改变的视图无关纹理方法，以及其中颜色取决于观看方向而改变的视图相关纹理方法。在本实施方式中，可以采用这些方法中的一者或二者，并且可以采用其他纹理方法。

(渲染单元13)

例如，渲染单元13以绘制相机视点(对应于下面描述的虚拟视点)投影三维模型的三维形状网格数据，并且执行将表示网格的颜色或图案的纹理应用于投影的网格形状的纹理映射，从而生成三维模型的体积视频。由于此时的视点是与成像时的相机位置无关的自由设置的视点，因此在本实施方式中视点也被称为虚拟视点。

纹理映射包括诸如考虑用户的观看视点的视图相关方法(VD方法)和不考虑用户的观看视点的视图无关方法(VI方法)的方法。VD方法根据观看视点的位置改变要应用于三维模型的纹理，并且因此具有成功地实现与VI方法相比具有更高质量的渲染的优点。另一方面，VI方法没有考虑观看中的视点位置，并且因此具有与VD方法相比需要更少处理量的优点。注意，可以获得用于观看的视点数据，使得用户的观看位置(关注区域)由用户侧显示装置(也被称为用户终端)检测，并且然后从用户终端输入至渲染单元13。

此外，允许在渲染单元13中采用例如广告牌渲染方法，其中对象被渲染以能够保持被摄体相对于观看中的视点的垂直姿势。例如，当渲染多个被摄体时，允许对观看者不太关注的被摄体采用广告牌渲染方法，而对其他被摄体采用另一渲染方法。

此外，渲染单元13适当地对生成的体积视频应用各种类型的处理例如阴影的添加、图像质量增强和效果，以生成要最终分发到用户的视频内容。

(发送单元14)

发送单元14经由预定网络将从渲染单元13输出的视频内容的视频流发送(分发)至包括接收单元15和显示单元16的一个或更多个用户终端。预定网络可以是各种网络，例如因特网、局域网(LAN)(包括Wi-Fi等)、广域网(WAN)和移动通信网络(包括长期演进(LTE)、第四代移动通信系统、第五代移动通信系统等)。

(接收单元15)

接收单元15被设置在上述用户终端中，并且经由预定网络接收从发送单元14发送(分发)的视频内容。

(显示单元16)

显示单元16被设置在上述用户终端中，并且向用户显示由接收单元15接收的视频内容。用户终端可以是例如能够观看运动图像内容的电子装置，例如头戴式显示器、空间显示器、电视、PC、智能电话、移动电话或平板终端。此外，显示单元16可以是2D监视器或3D监视器。

注意，示出图1中的信息处理系统10以指示从获取作为生成内容的材料的捕获图像的数据获取单元11开始直到控制由用户用于观看的用户终端的显示单元16的一系列流程。然而，并非所有的功能块均是实现本实施方式所必需的，并且可以针对每个功能块或多个功能块的组合来实现本实施方式。例如，图1中示出的配置是渲染单元13被设置在服务器侧的示例性情况，配置不限于这种情况，并且渲染单元13可以被设置在包括显示单元16的用户终端侧。此外，在3D模型生成单元12和渲染单元13被设置在经由网络连接的相互不同的服务器(信息处理装置)中的情况下，允许为具有3D模型生成单元12的服务器配备对传输数据进行压缩的编码单元，并且为具有渲染单元13的服务器配备对压缩数据进行解码的解码单元。

当实现信息处理系统10时，同一个操作者可以实现所有处理，或者不同的操作者可以实现将在下面描述的每个功能块或每个处理(步骤)的处理。例如，公司X通过数据获取单元11和3D模型生成单元12生成一条3D内容。还存在这样的情况，通过多个操作者共同地对内容进行处理以允许通过公司Y的平台分发3D内容，并且然后由公司Z中的信息处理装置执行诸如3D内容的渲染和显示控制的操作，来进行实现。

另外，上述每个功能块可以在云上实现。例如，渲染单元13可以在用户终端侧实现，或者可以在服务器侧实现。在这种情况下，在用户终端与服务器之间交换信息。

图1作为信息处理系统10一起示出了数据获取单元11、3D模型生成单元12、渲染单元13、发送单元14、接收单元15和显示单元16。替选地，本说明书的信息处理系统10可以被灵活地定义，使得包括两个或更多个功能块的系统被称为信息处理系统，或者例如，数据获取单元11、3D模型生成单元12、渲染单元13和发送单元14中的两个单元可以被统称为信息处理系统10，而不包括接收单元15或显示单元16。

1-2.由信息处理系统执行的处理的流程

接下来，将参照图3描述由信息处理系统10执行的处理的流程。图3是示出由信息处理系统执行的处理的流程的示例的流程图。

如图3所示，当数据获取单元11获取由多个真实相机70捕获的被摄体的真实相机图像(步骤S11)时，开始本操作。

接下来，3D模型生成单元12基于在步骤S11中获取的真实相机图像来生成具有被摄体的三维信息(三维形状网格数据和纹理)的三维模型(步骤S12)。

接下来，渲染单元13基于三维形状网格数据和纹理来执行在步骤S12中生成的三维模型的渲染，以生成要向用户呈现的一条视频内容(步骤S13)。

接下来，发送单元14将在步骤S13中生成的视频内容发送(分发)至用户终端(步骤S14)。

接下来，用户终端的接收单元15接收从发送单元14发送的视频内容(步骤S15)。随后，用户终端的显示单元16向用户显示在步骤S15中接收的视频内容(步骤S16)。此后，信息处理系统10结束本操作。

1-3.信息处理系统的硬件配置

接下来，将参照图4描述信息处理系统10的硬件配置。图4是示出信息处理系统的硬件配置的示例的硬件框图。

在图4中，CPU 21、ROM 22和RAM 23经由总线24互连。总线24还连接至输入/输出接口25。输入/输出接口25连接至输入单元26、输出单元27、存储单元28、通信单元29和驱动器20。

输入单元26包括例如键盘、鼠标、麦克风、触摸面板、输入终端等。输出单元27包括例如显示器、扬声器、输出终端等。存储单元28包括例如硬盘、RAM盘、非易失性存储器等。通信单元29包括例如网络接口等。驱动器20驱动可移除介质，例如磁盘、光盘、磁光盘或半导体存储器。

在如上所述配置的计算机中，例如，CPU 21经由输入/输出接口25和总线24将存储在存储单元28中的程序加载到RAM 23中并且执行程序，由此执行上述一系列处理。RAM 23还适当地存储CPU 21执行各种类型的处理所需的数据等。

由计算机执行的程序可以通过例如将程序记录在作为封装介质的可移除介质等中来应用。在这种情况下，通过将可移除介质附接至驱动器，可以经由输入/输出接口将程序安装在存储单元28中。

注意，程序还可以经由有线或无线传输介质例如局域网、因特网或数字卫星广播来提供。在这种情况下，程序可以被通信单元29接收并且被安装在存储单元28中。

1-4.本实施方式的进一步细节

上面已经描述了信息处理系统10的整体示意性配置示例。在下文中，将参照附图详细描述在上述信息处理系统10的前提下的更详细的配置示例。

1-4-1.渲染单元的进一步详细配置示例

图5是示出根据本实施方式的渲染单元13的进一步详细配置示例的框图。如图5所示，渲染单元13包括初始虚拟视点视频生成单元131、发送单元132、接收单元133和最终虚拟视点视频生成单元134。尽管图4示出了一个最终虚拟视点视频生成单元134，但是渲染单元13可以包括多个最终虚拟视点视频生成单元134。

渲染单元13接收由3D模型生成单元12生成的三维模型(三维形状网格数据和纹理)的输入。

此外，渲染单元13还接收关于在渲染三维模型时的虚拟视点的信息(在下文中，被称为虚拟视点信息)的输入。虚拟视点信息可以包括指示虚拟视点的位置(在下文中，被称为虚拟视点位置)的信息，以及关于相对于虚拟视点的参考位置的三维旋转矩阵的信息(在下文中，被称为虚拟视点旋转信息)。

此外，渲染单元13还可以接收由真实相机70中的任何一个或更多个(在下文中，以N个视点(N是0或更大的整数))获取的真实相机图像的输入、N个视点中的每一个的真实相机70的视点位置(在下文中，被称为真实相机视点位置)、以及指示相对于N个视点中的每一个的真实相机70的视点位置的参考位置的三维旋转矩阵的信息(在下文中，被称为真实相机视点旋转信息)。真实相机视点位置和真实相机视点旋转信息可以是例如通过由数据获取单元11执行的校准获得的内部参数和外部参数中包括的信息，并且这些信息在以下描述中被统称为真实相机视点信息。

(初始虚拟视点视频生成单元131)

初始虚拟视点视频生成单元131基于输入的三维形状网格数据、纹理和虚拟视点信息从虚拟视点渲染三维模型，从而生成虚拟视点视频。随后，初始虚拟视点视频生成单元131使用生成的虚拟视点视频以生成要发送至最终虚拟视点视频生成单元134的中间渲染视频。如下所述，中间渲染视频可以是通过将虚拟视点视频(RGB)和虚拟视点视频(Depth)平铺在一起以聚合成一个图像而获得的视频，并且可以是其中诸如辅助视频或真实相机图像的图像被进一步包括在一个图像中的视频。下面将描述中间渲染视频的细节。例如，初始虚拟视点视频生成单元131可以对应于权利要求中的第二生成单元的一个示例。

(发送单元132和接收单元133)

发送单元132和接收单元133是用于将由初始虚拟视点视频生成单元131生成的中间渲染视频发送至一个或多个最终虚拟视点视频生成单元134的配置。经由发送单元132和接收单元133的中间渲染视频的传输可以通过诸如LAN、WAN、因特网或移动通信网络的预定网络进行，或者可以通过诸如高清晰度多媒体接口(HDMI(注册商标))或通用串行总线(USB)的预定接口进行。然而，传输方法不限于此，并且可以使用各种通信手段。

(最终虚拟视点视频生成单元134)

基于经由发送单元132和接收单元133从初始虚拟视点视频生成单元131输入的中间渲染视频，以及基于由一个或多个最终虚拟视点视频生成单元134共享的真实相机视点信息，最终虚拟视点视频生成单元134执行在初始虚拟视点视频生成单元131中未执行的处理，从而生成要最终呈现给用户的视频内容。例如，最终虚拟视点视频生成单元134执行诸如背景对象或另一3D对象在从三维模型生成的体积视频上的叠加以及体积视频的图像质量增强的处理。此外，最终虚拟视点视频生成单元134还可以执行真实相机图像33相对于生成的体积视频的布置、效果处理等。例如，最终虚拟视点视频生成单元134可以对应于权利要求中的第一生成单元的一个示例。

1-4-2.中间渲染视频的具体示例

这里，将描述中间渲染视频的具体示例。图6是示出根据本实施方式的中间渲染视频的示例的图。如图6所示，中间渲染视频30具有这样的配置，其中虚拟视点视频(RGB)31、虚拟视点视频(深度)32、真实相机图像33和辅助视频34被组合(在本说明书中被描述为平铺)以形成一条图像数据。例如，真实相机图像33和辅助视频34可以分别对应于权利要求中的捕获图像的一个示例。然而，本实施方式中的真实相机图像33和辅助视频34以及权利要求中的多个捕获图像不限于由真实相机70获取的真实相机图像，并且可以是各种类型的视频内容等，例如电影、音乐视频、其推广视频、在电视上广播的视频、在因特网上分发的视频、以及在视频会议中共享的视频，且不论在线捕获的视频和离线创建的视频。此外，例如，中间渲染视频30可以对应于权利要求中的打包图像的一个示例。

(虚拟视点视频(RGB)31)

图7是示出根据本实施方式的虚拟视点视频(RGB)的示例的图。如图7所示，虚拟视点视频(RGB)31例如可以是通过基于虚拟视点信息从虚拟视点渲染三维模型(三维形状网格数据和纹理)而生成的当前点处的体积视频。在这种情况下，虚拟视点视频(RGB)31可以保持当从虚拟视点观看三维模型时获得的纹理信息。例如，虚拟视点视频(RGB)31可以对应于权利要求中的第一纹理图像的一个示例。

(虚拟视点视频(深度)32)

图8是示出根据本实施方式的虚拟视点视频(深度)的示例的图。如图8所示，虚拟视点视频(深度)32可以是指示虚拟视点视频(RGB)31中的每个像素距虚拟视点的深度的图像数据，并且可以是通过计算从虚拟视点位置到三维形状网格数据中的每个点的距离(深度信息)而生成的深度图像。在这种情况下，虚拟视点视频(深度)32可以保持从虚拟视点到当从虚拟视点观看三维模型时获得的三维模型的深度信息。

(真实相机图像33)

图9是示出根据本实施方式的真实相机图像的示例的图。如图9所示，例如，真实相机图像33可以是由从真实相机70中选择的任何一个相机捕获的真实相机图像。注意，对一个相机的选择可以是随机选择，在内容创建者侧进行的选择，或者可以是由内容观看者(用户)进行的选择。

(辅助视频34)

图10是示出根据本实施方式的辅助视频的示例的图。如图10所示，例如，辅助视频34是用于增强要最终提供给用户的体积视频的图像质量的图像数据，并且例如可以是包括从与虚拟视点相同的视点并且与虚拟视点视频(RGB)31不同的视点捕获的被摄体90的图像。例如，辅助视频34可以是由从真实相机70中选择的任何一个相机捕获的真实相机图像。类似于真实相机图像33，对任意一个真实相机的选择可以是随机选择，可以是在内容创建者侧进行的选择，或者可以是由内容观看者(用户)进行的选择。然而，可以省略辅助视频34。注意，例如，辅助视频34可以对应于权利要求中的第二纹理图像的一个示例。

(共享虚拟视点)

在本实施方式中，初始虚拟视点视频生成单元131和一个或多个最终虚拟视点视频生成单元134共享虚拟视点信息(虚拟视点位置和虚拟视点旋转信息)，以使得能够基于相同虚拟视点执行处理。这使得能够在初始虚拟视点视频生成单元131和/或多个最终虚拟视点视频生成单元134中的每一个中执行基于相同虚拟视点的处理，使得可以执行诸如以下的操作：由多个计算机关于初始虚拟视点视频生成单元131中的每个处理和/或最终虚拟视点视频生成单元134中的每个处理进行的分布式执行，以及多个计算机中的多个最终虚拟视点视频生成单元134中的每一个的分布式布置，以分别生成要提供给用户的最终体积视频(对应于视频内容)。

1-4-3.初始虚拟视点视频生成单元131的进一步详细配置示例

接下来，将描述初始虚拟视点视频生成单元131的进一步详细配置示例。图11是示出根据本实施方式的初始虚拟视点视频生成单元的进一步详细配置示例的框图。如图11所示，初始虚拟视点视频生成单元131包括虚拟视点视频(RGB)生成单元1312、辅助视频生成单元1313、虚拟视点视频(深度)生成单元1314和中间渲染视频生成单元1315。

虚拟视点视频(RGB)生成单元1312接收三维形状网格数据、纹理、虚拟视点信息和真实相机视点信息的输入。辅助视频生成单元1313接收三维形状网格数据、纹理、虚拟视点信息、真实相机视点信息和真实相机图像(N个视点)的输入。注意，真实相机图像(N个视点)也被输入至中间渲染视频生成单元1315。

(虚拟视点视频(RGB)生成单元1312)

如上所述，作为渲染单元13的操作，虚拟视点视频(RGB)生成单元1312从虚拟视点投影三维形状网格数据，并且执行将表示网格的颜色或图案的纹理应用到投影的网格形状上的纹理映射。如此生成的虚拟视点视频(RGB)31分别被输入至虚拟视点视频(深度)生成单元1314和中间渲染视频生成单元1315。

(辅助视频生成单元1313)

辅助视频生成单元1313生成辅助视频34以用于由下述最终虚拟视点视频生成单元134执行的图像质量增强。注意，由真实相机70中的任何一个或更多个获取的真实相机图像可以用作辅助视频34。

(虚拟视点视频(深度)生成单元1314)

虚拟视点视频(深度)生成单元1314根据当虚拟视点视频(RGB)生成单元1312生成虚拟视点视频(RGB)32时确定的三维模型上的每个点(对应于像素)的深度信息来生成作为深度图像的虚拟视点视频(深度)31。生成的虚拟视点视频(深度)32被输入至中间渲染视频生成单元1315。

注意，在虚拟视点视频(RGB)生成单元1312以绝对值(mm等)确定深度信息的情况下，虚拟视点视频(深度)生成单元1314可以通过量化每个像素的深度信息来生成虚拟视点视频(深度)32。例如，在诸如虚拟视点视频(RGB)31的其他图像数据的位深度是8位的情况下，虚拟视点视频(深度)生成单元1314可以将每个像素的深度信息(mm等)量化成“0”至“255”的256个灰度的深度信息。这消除了增加中间渲染视频的位深度的必要性，使得可以抑制要发送的数据量的增加。

(中间渲染视频生成单元1315)

中间渲染视频生成单元1315以预定布置平铺从虚拟视点视频(RGB)生成单元1312输入的虚拟视点视频(RGB)31、从虚拟视点视频(深度)生成单元1314输入的虚拟视点视频(深度)32、直接输入的真实相机图像(N个视点)33、以及从辅助视频生成单元1313输入的辅助视频34，从而生成一个中间渲染视频30(参照图6)。生成的中间渲染视频30被输出至渲染单元13中的发送单元132。

1-4-4.最终虚拟视点视频生成单元134的进一步详细配置示例

接下来，将描述最终虚拟视点视频生成单元134的进一步详细配置示例。图12是示出根据本实施方式的最终虚拟视点视频生成单元的进一步详细配置示例的框图。如图12所示，最终虚拟视点视频生成单元134包括对象生成单元1342、相机图像更新单元1343、虚拟视点视频生成单元1344、阴影生成单元1345、图像质量增强单元1346和效果处理单元1347。

对象生成单元1342接收要叠加在三维模型上的对象(内容)和虚拟视点信息的输入。相机图像更新单元1343接收中间渲染视频30和虚拟视点信息的输入。注意，中间渲染视频30还被输入至虚拟视点视频生成单元1344、阴影生成单元1345和图像质量增强单元1346。此外，虚拟视点信息还可以被输入至虚拟视点视频生成单元1344、阴影生成单元1345、图像质量增强单元1346和效果处理单元1347。

(对象生成单元1342)

对象生成单元1342通过使用输入对象(内容)来生成要叠加在要提供给用户的体积视频上的三维对象、背景对象等(在下文中，被称为附加对象)。生成的附加对象被输入至虚拟视点视频生成单元1344。

(相机图像更新单元1343)

相机图像更新单元1343从中间渲染视频30提取真实相机图像33。注意，结合在中间渲染视频30中的真实相机图像33可以是与虚拟视点视频(RGB)同步、即在时间上对应于虚拟视点视频(RGB)的真实相机图像。换言之，真实相机图像33可以是包括在时间上对应于用于生成三维模型的被摄体90的被摄体90的二维图像。提取的真实相机图像33被输入至虚拟视点视频生成单元1344。

(虚拟视点视频生成单元1344)

虚拟视点视频生成单元1344从中间渲染视频30提取虚拟视点视频(RGB)31和虚拟视点视频(深度)32，并且使用提取的虚拟视点视频(RGB)31和虚拟视点视频(深度)32来重建三维模型。此外，虚拟视点视频生成单元1344根据需要将从对象生成单元1342输入的附加对象叠加在重建的三维模型上。即，虚拟视点视频生成单元1344将三维模型和附加对象布置在同一虚拟空间中。此时，例如，虚拟视点视频生成单元1344可以基于附加对象相对于虚拟视点的深度信息以及基于虚拟视点视频(深度)32来调整三维模型与附加对象之间的位置关系。

虚拟视点视频生成单元1344然后通过使用基于虚拟视点信息(虚拟视点位置和虚拟视点旋转信息)的虚拟视点渲染重建的三维模型(和附加对象)来生成三维模型(和附加对象)的体积视频。

另外，虚拟视点视频生成单元1344通过将从相机图像更新单元1343输入的真实相机图像33叠加在生成的体积视频的预定区域上来生成视频内容。如此生成的视频内容例如是其中从三维模型生成的被摄体和基于真实相机图像33的对象同时存在的视频，并且可以对应于权利要求中的视频的一个示例。

然而，内容生成不限于此，并且虚拟视点视频生成单元1344可以通过将真实相机图像33布置在布置有三维模型(和附加对象)的虚拟空间内的平面上并通过使用虚拟视点渲染三维模型(和附加对象)和真实相机图像33来直接生成视频内容。此时生成的三维模型(和附加对象)与真实相机图像33的组合模型可以对应于权利要求中的组合的三维模型的一个示例。

以这种方式生成的视频内容被输入至阴影生成单元1345。

(阴影生成单元1345)

阴影生成单元1345将阴影应用于输入视频内容中的体积视频中包括的对象。因此，可以增强体积视频的现实性。然而，在不应用阴影的情况下，阴影生成单元1345可以被省略或无效。例如，阴影生成单元1345基于中间渲染视频30中包括的虚拟视点视频(深度)32、当对象生成单元1342生成附加对象时生成的附加对象的深度信息等，将阴影应用于三维模型和附加对象的图像。其中阴影被添加至对象的视频内容被输入至图像质量增强单元1346。

注意，阴影生成单元1345还接收关于用于生成阴影的光源的位置和类型(色调等)的信息(在下文中，被称为光源信息)的输入。例如，光源信息可以包括在虚拟视点信息中，或者可以单独输入至阴影生成单元1345。

(图像质量增强单元1346)

图像质量增强单元1346执行增强输入视频内容的图像质量的处理。例如，图像质量增强单元1346对特定视频内容的体积视频中包括的三维模型、附加对象的图像等执行诸如轮廓模糊处理、阿尔法混合处理和噪声去除处理的处理，从而抑制在体积视频中出现的时间序列波动。此时，图像质量增强单元1346可以将中间渲染视频30中包括的辅助视频34用于以上处理。

图像质量增强单元1346在渲染时去除绿色屏幕的颜色，使得绿色屏幕的颜色不剩余在三维模型的轮廓中。在本说明书中，去除之前的视频被称为辅助视频34。例如，如图13所示，图像质量增强单元1346可以计算辅助视频34与由虚拟视点视频生成单元1344生成的体积视频40之间的差，以提取体积视频40中包括的三维模型(和附加对象)的图像的轮廓41，并且然后可以基于提取的轮廓41对体积视频执行模糊处理、阿尔法混合处理、噪声去除处理等。此时，图像质量增强单元1346可以调整体积视频40和/或辅助视频34的比例、倾斜度、颜色等，以实现体积视频40中包括的三维模型的图像与辅助视频34中包括的被摄体90的图像之间的近乎完美的匹配。

(效果处理单元1347)

效果处理单元1347可以对视频内容执行各种效果处理。例如，效果处理单元1347执行效果处理，包括将诸如光影效果的效果应用于三维模型或附加对象的图像、将诸如马赛克的效果应用于真实相机图像33、以及将花瓣落下效果应用为背景。这使得可以扩展演示的范围。注意，在不应用效果的情况下，效果处理单元1347可以被省略或无效。随后，效果处理单元1347根据需要向发送单元14输出应用了效果的视频内容作为要分发到用户的最终视频内容。因此，从发送单元14发送的最终视频内容由用户终端的接收单元接收，并显示在用户终端的显示单元16上。

1-5.根据本实施方式的演示的示例

图14是示出在本实施方式中分发到用户的视频内容的示例的图。在图14中示出的视频内容50A中，与包括三维模型的图像52的体积视频同步(在时间上对应于包括三维模型的图像52的体积视频)的真实相机图像33被叠加在体积视频上。此外，在根据本实施方式的视频内容50A中，还叠加与体积视频同步(在时间上对应于体积视频)的辅助视频34。辅助视频34已经经过了作为光影效果的效果51，其允许显示的被摄体90看起来像它正在发出光影。

图15是示出在本实施方式中要分发到用户的体积视频的另一示例的视图。在图15中示出的视频内容50B中，背景对象的图像53被叠加在三维模型的图像52上。即，在将背景对象设置在设置有三维模型的虚拟空间中的状态下生成体积视频。同样在图15中，与体积视频同步(在时间上对应于体积视频)的真实相机图像33被叠加在体积视频上。

以这种方式，本实施方式使得另一视频能够叠加在体积视频上，使得可以扩展提供给用户的视频内容中的演示的范围。注意，要叠加在体积视频上的视频不限于真实相机图像33(包括辅助视频34的真实相机图像)，并且可以是单独准备的各种图像数据，例如推广视频、动画或电影的一个场景。

另外，根据本实施方式，可以将各种效果应用于体积视频和叠加在体积视频上的图像数据。这使得可以进一步扩展要提供给用户的视频内容中的演示的范围。

此外，根据本实施方式，可以执行其中在体积视频上叠加另一三维对象、背景对象等的呈现显示。这使得可以进一步扩展要提供给用户的视频内容中的演示的范围。

注意，叠加在体积视频上的图像数据和附加对象可以被配置为自动切换或基于用户操作在任何定时处切换。

1-6.信息处理系统的具体示例

接下来，将描述根据本实施方式的信息处理系统10的具体示例。图16是示出根据本实施方式的信息处理系统的具体示例的系统配置图。如图16所示，信息处理系统10包括云服务器83、发布服务器85、分发服务器87和用户终端89。用户终端89不需要包括在信息处理系统10中。

例如，通过利用安装在体积工作室80中的一个或更多个真实相机70(参照图2)捕获被摄体90来获取用于生成体积视频的真实相机图像81。此时，基于与真实相机图像81一起记录的声音信号的音频数据可以由音频混合器82生成。体积工作室80可以在室内或室外，只要其是能够在一个方向或多个方向上对被摄体90进行成像的环境即可。

由真实相机70获取的真实相机图像81和由音频混合器82生成的音频数据被输入至设置在预定网络上的云服务器83。云服务器83包括例如图1中示出的配置的数据获取单元11、3D模型生成单元12和渲染单元13的一部分——即初始虚拟视点视频生成单元131和发送单元132。

通过使用3D模型生成单元12，云服务器83从由数据获取单元11获取的真实相机图像81生成被摄体90的三维模型。然后，云服务器83从渲染单元13的初始虚拟视点视频生成单元131中的三维模型生成虚拟视点视频(RGB)31和虚拟视点视频(深度)32，并且从生成的虚拟视点视频(RGB)31和虚拟视点视频(深度)32以及从输入的真实相机图像81(对应于真实相机图像33和辅助视频34)生成中间渲染视频30。

注意，云服务器83仅是示例，并且可以通过使用设置在网络上的各种信息处理装置例如雾服务器和边缘服务器来实现。

生成的中间渲染视频30经由预定网络从渲染单元13的发送单元132发送至发布服务器85。发布服务器85包括例如渲染单元13中的接收单元133和最终虚拟视点视频生成单元134。

发布服务器85从中间渲染视频30提取虚拟视点视频(RGB)31、虚拟视点视频(深度)、真实相机图像33和辅助视频34，并且基于这些视频来生成要最终呈现给用户的视频内容50。具体操作可以类似于上述最终虚拟视点视频生成单元134的操作。

以这种方式生成的视频内容50在设置有发送单元14的分发服务器87中被转换成与每个用户终端89对应的分发流88，并且然后经由预定网络从分发服务器87分发到用户终端89。响应于此，用户终端89通过接收单元15接收分发的分发流88，并且从分发流88恢复视频内容。用户终端89然后在显示单元16上朝向用户显示恢复的视频内容50。

1-7总结

如上所述，根据本实施方式，可以显示真实相机图像33(包括透视视频、具有效果的视频等)以与体积视频40同步并叠加在体积视频40上。此外，可以与体积视频40相反地在呈现中显示背景对象。这使得可以在实时分发体积视频时极大地扩展演示的范围。

此外，在本实施方式中，在由渲染单元13执行的处理过程中，三维数据被转换成作为二维图像数据的中间渲染视频30。这使得能够通过HDMI(注册商标)捕获或编解码器压缩来传送用于生成体积视频的数据，使得可以在传输时具有较低的通信量以缩短数据传输时间。因此，可以增强包括体积视频的视频内容的分发中的实时性。

此外，通过在多个计算机之间共享虚拟视点信息并将中间渲染视频30分发到每个计算机，可以通过在多个计算机上使用分布式处理来执行与体积视频的生成有关的处理(例如，虚拟视点视频生成、阴影生成、图像质量增强、效果处理等)。这使得可以减少每个计算机上的负荷。另外，可以将与体积视频的生成有关的处理灵活地分配给适合于每个处理的计算机，使得可以进一步减少每个计算机上的负荷。例如，可以执行作业分配，使得虚拟视点视频(RGB)31和虚拟视点视频(深度)32的生成将由结合有能够执行GPU分发处理的Linux(注册商标)的计算机执行，而诸如阴影应用、图像质量增强和效果处理的后续处理将由配备有能够使用适合于无困难地实现处理的库的操作系统(OS)的计算机执行。因此，可以通过高效地执行每个处理来缩短总处理时间，使得可以增强包括体积视频的视频内容的分发中的实时性。

例如，用于实现上述实施方式中描述的每个单元(每个处理)的程序可以在特定装置上执行。在这种情况下，只要装置具有必要的功能块并且可以获得必要的信息，就不会有问题。

此外，例如，一个流程图的每个步骤可以由一个装置执行，或者可以由多个装置共享和执行。此外，在一个步骤中包括多个处理的情况下，多个处理可以由一个装置执行，或者可以由多个装置共享和执行。换言之，一个步骤中包括的多个处理也可以作为多个步骤的处理被执行。相反，被描述为多个步骤的处理可以作为一个步骤被共同执行。

此外，例如，关于由计算机执行的程序，描述程序的步骤的处理可以按照本说明书中描述的顺序以时间序列来执行，或者可以在必要的定时处例如当进行调用时单独执行或并行执行。即，只要不存在矛盾，就可以以与上述顺序不同的顺序执行每个步骤的处理。此外，描述该程序的步骤的处理可以与另一程序的处理并行执行，或者可以与另一程序的处理组合执行。

此外，例如，只要不存在矛盾，就可以独立地单独实现与本技术有关的多个技术。自然地，多个本技术中的任何技术可以组合实现。例如，在实施方式中的任何实施方式中描述的本技术中的一些或全部可以与在其他实施方式中描述的本技术中的一些或全部组合实现。此外，上述任意本技术中的一些或全部可以与以上未描述的其他技术组合实现。

上面已经描述了本公开内容的实施方式。然而，本公开内容的技术范围不限于上述实施方式，并且可以在不脱离本公开内容的范围的情况下进行各种修改。此外，允许将跨不同实施方式的部件和适当的修改组合。

本说明书的各个实施方式中描述的效果仅是示例，并且因此，可以存在其他效果，不限于例示的效果。

注意，本技术还可以具有以下配置。

(1)

一种信息处理装置，包括第一生成单元，所述第一生成单元基于通过使用经由对被摄体成像获得的多个捕获图像生成的所述被摄体的三维模型以及基于二维图像，来执行视频的生成，在所述视频中同时存在从所述三维模型生成的被摄体和所述二维图像。

(2)

根据(1)所述的信息处理装置，

其中，所述二维图像是使用了用于生成所述被摄体的三维模型的所述多个捕获图像中的至少一个捕获视频的二维图像，并且

所述第一生成单元生成所述视频，在所述视频中同时存在从所述三维模型生成的被摄体和基于与所述被摄体对应的所述二维图像的被摄体。

(3)

根据(2)所述的信息处理装置，

其中，所述第一生成单元基于所述被摄体的三维模型以及基于包括在时间上与用于生成所述三维模型的被摄体对应的被摄体的二维图像，来生成所述视频。

(4)

根据(1)至(3)中任一项所述的信息处理装置，还包括

第二生成单元，所述第二生成单元生成打包图像，在所述打包图像中，通过基于虚拟视点将所述被摄体的三维模型转换成二维纹理信息而获得的纹理图像和通过将从所述虚拟视点到所述被摄体的三维模型的深度信息转换成二维图像而获得的深度图像被打包在一帧中，所述虚拟视点被设置在布置有所述三维模型的虚拟空间中。

(5)

根据(4)所述的信息处理装置，

其中，所述打包图像还包括所述多个捕获图像中的至少一个捕获图像。

(6)

根据(5)所述的信息处理装置，

其中，所述打包图像中包括的所述纹理图像和所述捕获图像是在时间上彼此对应的图像。

(7)

根据(4)至(6)中任一项所述的信息处理装置，

其中，所述打包图像中包括的纹理图像包括：第一纹理图像，其通过基于所述虚拟视点将所述被摄体的三维模型转换成所述二维纹理信息而获得，所述虚拟视点被设置在布置有所述三维模型的所述虚拟空间中；以及第二纹理图像，其包括来自与所述虚拟视点相同的视点的被摄体，并且是与所述第一纹理图像不同的图像。

(8)

根据(4)至(7)中任一项所述的信息处理装置，还包括

发送单元，所述发送单元发送所述打包图像；以及

接收单元，所述接收单元从所述发送单元接收所述打包图像，

其中，所述第一生成单元基于由所述接收单元接收到的所述打包图像重建所述三维模型，并以设置在布置有所述三维模型的虚拟空间中的虚拟视点渲染所述三维模型，并且通过所述重建和渲染操作，所述第一生成单元生成包括从所述三维模型生成的被摄体的二维图像，并且使用所述二维图像生成所述视频。

(9)

根据(4)至(8)中任一项所述的信息处理装置，还包括

多个所述第一生成单元，

其中，所述第一生成单元中的每一个通过使用根据从所述第二生成单元获取到的打包图像重建的三维模型来生成所述视频。

(10)

根据(1)至(9)中任一项所述的信息处理装置，还包括

阴影生成单元，所述阴影生成单元对所述视频中包括的被摄体的区域赋予阴影。

(11)

根据(1)至(10)中任一项所述的信息处理装置，还包括

图像质量增强单元，所述图像质量增强单元通过使用所述多个捕获图像中的至少一个捕获图像来增强所述视频的图像质量。

(12)

根据(1)至(11)中任一项所述的信息处理装置，还包括

效果处理单元，所述效果处理单元对所述视频执行效果处理。

(13)

根据(1)至(12)中任一项所述的信息处理装置，还包括

发送单元，所述发送单元经由预定网络将由所述第一生成单元生成的视频发送至一个或更多个用户终端。

(14)

根据(1)至(13)中任一项所述的信息处理装置，

其中，所述第一生成单元将使用通过对所述被摄体成像获得的多个捕获图像生成的所述被摄体的三维模型设置在三维空间中，并且将基于所述多个捕获图像中的至少一个图像的二维图像布置在所述三维空间中，并且通过该布置，所述第一生成单元生成包括所述三维模型和所述二维图像的组合三维模型。

(15)

根据(14)所述的信息处理装置，

其中，所述第一生成单元通过基于设置在布置有所述三维模型的虚拟空间中的虚拟视点渲染所述组合三维模型，来生成所述视频。

(16)

一种信息处理方法，包括：使用计算机基于通过使用经由对被摄体成像获得的多个捕获图像生成的所述被摄体的三维模型以及基于二维图像，来生成视频，在所述视频中同时存在从所述三维模型生成的被摄体和所述二维图像。

(17)

一种视频分发方法，包括：

通过使用经由对被摄体成像获得的多个捕获图像来生成所述被摄体的三维模型；

基于所述被摄体的三维模型和二维图像，来生成其中同时存在从所述三维模型生成的被摄体和所述二维图像的视频；以及

经由预定网络将所述视频分发到用户终端。

(18)

一种信息处理系统，包括：

成像装置，所述成像装置对被摄体成像来生成所述被摄体的多个捕获图像；

信息处理装置，所述信息处理装置基于通过使用所述多个捕获图像生成的所述被摄体的三维模型和二维图像，来生成其中同时存在从所述三维模型生成的被摄体和所述二维图像的视频；以及

用户终端，所述用户终端向用户显示由所述信息处理装置生成的所述视频。

附图标记列表

10 信息处理系统

11 数据获取单元

12 3D模型生成单元

13 渲染单元

14 发送单元

15 接收单元

16 显示单元

20 驱动器

21 CPU

22 ROM

23 RAM

24 BUS

25 输入/输出接口

26 输入单元

27 输出单元

28 存储单元

29 通信单元

30 中间渲染视频

31 虚拟视点视频(RGB)

32 虚拟视点视频(深度)

33，81 真实相机图像

34 辅助视频

40 体积视频

41 轮廓

50，50A，50B 视频内容

51 效果

52 三维模型的图像

53 背景对象的图像

70，70a，70b，70c，70d，70e，……真实相机

80 体积工作室

82 音频混合器

83 云服务器

85 发布服务器

87 分发服务器

88 分发流

89 用户终端

90 被摄体

131 初始虚拟视点视频生成单元

132 发送单元

133 接收单元

134 最终虚拟视点视频生成单元

1312 虚拟视点视频(RGB)生成单元

1313 辅助视频生成单元

1314 虚拟视点视频(深度)生成单元

1315 中间渲染视频生成单元

1342 对象生成单元

1343 相机图像更新单元

1344 虚拟视点视频生成单元

1345 阴影生成单元

1346 图像质量增强单元

1347 效果处理单元

Claims

1.一种信息处理装置，包括第一生成单元，所述第一生成单元基于通过使用经由对被摄体成像获得的多个捕获图像生成的所述被摄体的三维模型以及基于二维图像，来执行视频的生成，在所述视频中同时存在从所述三维模型生成的被摄体和所述二维图像。

2.根据权利要求1所述的信息处理装置，

3.根据权利要求2所述的信息处理装置，

4.根据权利要求1所述的信息处理装置，还包括

5.根据权利要求4所述的信息处理装置，

6.根据权利要求5所述的信息处理装置，

7.根据权利要求4所述的信息处理装置，

8.根据权利要求4所述的信息处理装置，还包括

发送单元，所述发送单元发送所述打包图像；以及

9.根据权利要求4所述的信息处理装置，还包括

多个所述第一生成单元，

10.根据权利要求1所述的信息处理装置，还包括

11.根据权利要求1所述的信息处理装置，还包括

12.根据权利要求1所述的信息处理装置，还包括

13.根据权利要求1所述的信息处理装置，还包括

14.根据权利要求1所述的信息处理装置，

15.根据权利要求14所述的信息处理装置，

16.一种信息处理方法，包括：使用计算机基于通过使用经由对被摄体成像获得的多个捕获图像生成的所述被摄体的三维模型以及基于二维图像，来生成视频，在所述视频中同时存在从所述三维模型生成的被摄体和所述二维图像。

17.一种视频分发方法，包括：

经由预定网络将所述视频分发到用户终端。

18.一种信息处理系统，包括：