CN120339561A - 一种多视频与三维场景融合方法、系统、设备和介质 - Google Patents
一种多视频与三维场景融合方法、系统、设备和介质Info
- Publication number
- CN120339561A CN120339561A CN202510568466.XA CN202510568466A CN120339561A CN 120339561 A CN120339561 A CN 120339561A CN 202510568466 A CN202510568466 A CN 202510568466A CN 120339561 A CN120339561 A CN 120339561A
- Authority
- CN
- China
- Prior art keywords
- dimensional model
- dimensional
- video
- camera
- truncated cone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Geometry (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Image Processing (AREA)
Abstract
本发明涉及数字孪生技术领域,公开了一种多视频与三维场景融合方法、系统、设备和介质,本方法通过重建目标物体的三维模型,并用它来标定视频摄像机的相机参数,确定摄像机的截锥体平面,用这些平面裁剪三维模型,得到位于截锥体内的三维模型面,基于这些三维模型面,识别视频帧图像间的重叠区域,对重叠区域的三维模型面进行聚类,投影至摄像机截锥体上,比较投影面积以确定最佳视点,利用最佳视点分割重叠区域,并将结果映射回三维模型,确定三维模型分割面,将视频帧图像的纹理映射到三维模型分割面上,从而生成满足直观、动态、实时感知真实世界的需求的视频三维融合模型,并提高了三维模型融合的精确性以及重叠区域分割的精确性。
Description
技术领域
本发明涉及数字孪生技术领域,尤其涉及一种多视频与三维场景融合方法、系统、设备和介质。
背景技术
三维真实场景与现有的测绘地理信息产品相比,三维真实场景具有可视化立体直观、几何和空间关系精确、纹理信息丰富、易于人类理解等优点。在测绘领域数字化、信息化广泛发展的背景下,三维真实场景的构建对提高测绘成果可视化和社会经济发展具有重要作用,已成为智慧城市、城市安防、增强现实、地理信息系统(Geographic InformationSystem,GIS)等智能应用的关键基础数据。
三维模型是三维真实场景的基础和核心组成部分之一,目前,现有的三维模型构建和更新方法,需要获得的点云数据体积大,冗余度高。点云的纹理信息相对缺乏,点云软件的处理效率较低,难以满足直观、动态、实时感知真实世界的需求,同时,在与单个视频融合时,三维模型融合不够精确,且多个视频重叠区域分割不精确。
发明内容
有鉴于此,本发明提供了一种多视频与三维场景融合方法、系统、设备和介质,解决了现有的三维模型构建和更新方法,需要获得的点云数据体积大,冗余度高。点云的纹理信息相对缺乏,点云软件的处理效率较低,难以满足直观、动态、实时感知真实世界的需求,同时,在与单个视频融合时,三维模型融合不够精确,且多个视频重叠区域分割不精确的技术问题。
本发明第一方面提供了一种多视频与三维场景融合方法,包括:
获取目标物体的二维图像数据,以及获取多个视频摄像机拍摄所述目标物体的视频帧图像;
通过所述二维图像数据进行重建所述目标物体的三维模型,并利用所述三维模型标定各所述视频摄像机的相机参数;
根据所述相机参数确定各所述视频摄像机的多个截锥体平面,并利用多个所述截锥体平面对所述三维模型进行裁剪,得到经裁剪后位于所述截锥体平面内侧的多个三维模型面;
根据位于所述截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域;
对所述重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对所述三维模型面进行投影至各所述视频摄像机的截锥体上,比较各投影面积确定所述重叠区域的最佳视点;所述最佳视点为所述重叠区域对应的最佳拍摄点上的视频摄像机;
利用所述最佳视点对所述重叠区域进行分割,并将分割结果映射回所述三维模型,确定多个三维模型分割面;
将多个视频帧图像的视频纹理映射到各所述三维模型分割面的空间位置上,得到所述视频帧图像与所述三维模型相融合的视频三维融合模型。
可选地,所述通过所述二维图像数据进行重建所述目标物体的三维模型,并利用所述三维模型标定各所述视频摄像机的相机参数,包括:
通过所述二维图像数据进行重建所述目标物体的三维模型,并提取所述二维图像数据的第一特征点,并对重叠的所述二维图像数据之间的第一特征点进行匹配,根据匹配的第一特征点,确定所述三维模型的稀疏点云;
提取所述视频帧图像的第二特征点,并对所述第二特征点与所述第一特征点进行特征匹配,利用特征匹配结果将所述第二特征点添加至所述稀疏点云中,得到扩展稀疏点云;
根据所述扩展稀疏点云确定所有特征点的观测图像坐标;其中,所述特征点包括第一特征点和第二特征点;
根据所述视频摄像机的初始相机参数将所述特征点对应的三维点坐标投影到图像平面上,得到预测图像坐标;所述初始相机参数包括初始内部参数和初始外部参数;
以所述观测图像坐标和所述预测图像坐标之间的误差平方和最小化为目标,构建光束法平差的目标函数;
对所述目标函数进行寻优求解,得到目标函数值最小的最优解,根据所述最优解确定所述视频摄像机的相机参数。
可选地,所述根据所述相机参数确定各所述视频摄像机的多个截锥体平面,并利用多个所述截锥体平面对所述三维模型进行裁剪,得到经裁剪后位于所述截锥体平面内侧的多个三维模型面,包括:
针对每个所述视频摄像机,基于透视投影原理,确定所述视频摄像机的截锥体的多个截锥体平面方程以及所述截锥体平面方程对应的截锥体平面;
利用三维变换矩阵,将所述三维模型上的所有顶点转换到每个所述视频摄像机的摄像机坐标系中,并根据所述三维模型在摄像机坐标系下的各顶点与各所述截锥体平面方程,确定所述三维模型在摄像机坐标系下的各顶点与各所述截锥体平面的位置关系;
根据各所述顶点与截锥体平面的位置关系,剔除位于所有截锥体平面外侧的顶点,保留位于至少一个所述截锥体平面内侧的顶点,得到每个所述视频摄像机下被所述截锥体平面裁剪后的三维模型面。
可选地,所述根据位于所述截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域,包括:
根据每个所述视频摄像机下裁剪后的三维模型面,确定所述三维模型面的包围盒,并确定各所述视频摄像机分别对应的所述包围盒的区域交集;
根据所述区域交集确定多个所述视频帧图像之间的重叠区域。
可选地,所述对所述重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对所述三维模型面进行投影至各所述视频摄像机的截锥体上,比较各投影面积确定所述重叠区域的最佳视点,包括:
获取所述重叠区域内的多个三维模型面;
对多个所述三维模型面进行聚类,得到多个三维模型面簇;
针对每个所述三维模型面簇,初始化所述三维模型面簇的最大投影面积,并将所述三维模型面簇投影到各所述视频摄像机的截锥体的近平面上,得到各所述视频摄像机分别对应的投影后的面;
分别计算各所述视频摄像机分别对应的投影后的面的当前投影面积,比较各所述当前投影面积分别与所述最大投影面积的大小;
当所述当前投影面积大于所述最大投影面积时,则将所述当前投影面积更新为所述最大投影面积,并找到各所述当前投影面积中最大投影面积;
根据找到的最大投影面积对应的所述视频摄像机作为所述三维模型面簇的最佳视点,根据各所述三维模型面簇的最佳视点确定所述重叠区域的最佳视点。
可选地,所述利用所述最佳视点对所述重叠区域进行分割,并将分割结果映射回所述三维模型,确定多个三维模型分割面,包括:
针对每个所述三维模型面簇,对所述最佳视点对应的投影后的面进行边缘检测;
基于边缘检测结果,根据像素点的灰度值特征、颜色特征对所述投影后的面进行聚类,对所述投影后的面进行分割;
将各所述投影后的面的分割结果映射回所述三维模型,确定所述三维模型的分割边界;
根据所述分割边界通过三角剖分方法对所述述三维模型进行分割,得到多个所述三维模型分割面。
可选地,所述将多个视频帧图像的视频纹理映射到各所述三维模型分割面的空间位置上,得到所述视频帧图像与所述三维模型相融合的视频三维融合模型,包括:
根据所述最佳视点下的三维模型分割面的所有顶点的位置,确定所述三维模型分割面的各顶点分别对应的视频纹理坐标;
根据每个所述三维模型分割面的各顶点以及所述三维模型分割面的各顶点分别对应的视频纹理坐标,确定顶点与视频纹理坐标的映射关系;
基于所述映射关系,将多个视频帧图像的视频纹理映射到各所述三维模型分割面的顶点上,得到初始视频三维融合模型;
对所述初始视频三维融合模型进行渲染操作,得到视频三维融合模型。
第二方面,本发明提供了一种多视频与三维场景融合系统,包括:
数据获取模块,用于获取目标物体的二维图像数据,以及获取多个视频摄像机拍摄所述目标物体的视频帧图像;
参数标定模块,用于通过所述二维图像数据进行重建所述目标物体的三维模型,并利用所述三维模型标定各所述视频摄像机的相机参数;
模型裁剪模块,用于根据所述相机参数确定各所述视频摄像机的多个截锥体平面,并利用多个所述截锥体平面对所述三维模型进行裁剪,得到经裁剪后位于所述截锥体平面内侧的多个三维模型面;
重叠识别模块,用于根据位于所述截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域;
视点确定模块,用于对所述重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对所述三维模型面进行投影至各所述视频摄像机的截锥体上,比较各投影面积确定所述重叠区域的最佳视点;所述最佳视点为所述重叠区域对应的最佳拍摄点上的视频摄像机;
区域分割模块,用于利用所述最佳视点对所述重叠区域进行分割,并将分割结果映射回所述三维模型,确定多个三维模型分割面;
视频融合模块,用于将多个视频帧图像的视频纹理映射到各所述三维模型分割面的空间位置上,得到所述视频帧图像与所述三维模型相融合的视频三维融合模型。
第三方面,本发明提供了一种电子设备,所述电子设备包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面所述的多视频与三维场景融合方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如第一方面所述的多视频与三维场景融合方法的步骤。
从以上技术方案可以看出,本发明通过重建目标物体的三维模型,并用它来标定视频摄像机的相机参数,确定摄像机的截锥体平面,用这些平面裁剪三维模型,得到位于截锥体内的三维模型面,基于这些三维模型面,识别视频帧图像间的重叠区域,对重叠区域的三维模型面进行聚类,投影至摄像机截锥体上,比较投影面积以确定最佳视点,利用最佳视点分割重叠区域,并将结果映射回三维模型,确定三维模型分割面,将视频帧图像的纹理映射到三维模型分割面上,从而生成满足直观、动态、实时感知真实世界的需求的视频三维融合模型,并提高了三维模型融合的精确性以及重叠区域分割的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种多视频与三维场景融合方法的应用环境;
图2为本发明实施例提供的一种多视频与三维场景融合方法的流程图;
图3a~图3b为本发明实施例提供的三维模型顶点归一化处理过程示意图;
图4为本发明实施例提供的纹理映射示意图;
图5为本发明实施例提供的一种多视频与三维场景融合系统的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供的多视频与三维场景融合方法,可以应用于如图1所示的应用环境中。其中,终端101通过网络与服务器102进行通信。数据存储系统可以存储服务器102需要处理的数据。数据存储系统可以集成在服务器102上,也可以放在云上或其他网络服务器上。终端101或服务器102获取目标物体的二维图像数据,以及获取多个视频摄像机拍摄目标物体的视频帧图像;通过二维图像数据进行重建目标物体的三维模型,并利用三维模型标定各视频摄像机的相机参数;根据相机参数确定各视频摄像机的多个截锥体平面,并利用多个截锥体平面对三维模型进行裁剪,得到经裁剪后位于截锥体平面内侧的多个三维模型面;根据位于截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域;对重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对三维模型面进行投影至各视频摄像机的截锥体上,比较各投影面积确定重叠区域的最佳视点;最佳视点为重叠区域对应的最佳拍摄点上的视频摄像机;利用最佳视点对重叠区域进行分割,并将分割结果映射回三维模型,确定多个三维模型分割面;将多个视频帧图像的视频纹理映射到各三维模型分割面的空间位置上,得到视频帧图像与三维模型相融合的视频三维融合模型。
终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑等。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云计算服务的云服务器。
如图2所示,本申请实施例提供了一种多视频与三维场景融合方法,以该方法应用于图1中的终端101或服务器102为例进行说明,包括以下步骤S1至步骤S7。其中:
步骤S1、获取目标物体的二维图像数据,以及获取多个视频摄像机拍摄目标物体的视频帧图像。
其中,随着基于无人机影像测量技术的不断发展,大量目标物体的二维图像数据可以轻松获取。二维图像数据是可以通过无人机等方式获取的。视频帧图像是多个视频摄像机从多个角度对目标物体进行拍摄所得到的。
步骤S2、通过二维图像数据进行重建目标物体的三维模型,并利用三维模型标定各视频摄像机的相机参数。
其中,通过二维图像数据利用三维重建技术快速自动构建目标物体的三维模型。
视频摄像机的相机参数包括内部参数和外部参数,内部参数主要描述了摄像机的内部几何和光学特性,如焦距、光心位置、畸变系数等;外部参数则描述了摄像机在世界坐标系中的位置和姿态。
步骤S3、根据相机参数确定各视频摄像机的多个截锥体平面,并利用多个截锥体平面对三维模型进行裁剪,得到经裁剪后位于截锥体平面内侧的多个三维模型面。
其中,截锥体平面是由视频摄像机的视锥体确定的平面,视锥体是摄像机观察空间的一个几何体,它决定了摄像机能够看到的空间范围。根据相机参数中的内部参数和外部参数,可以确定每个视频摄像机的视锥体,进而确定其截锥体平面。利用这些截锥体平面,可以对三维模型进行裁剪,保留位于截锥体平面内侧的三维模型面。
步骤S4、根据位于截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域。
其中,通过比较不同视频摄像机下的三维模型面在摄像机坐标系中的位置关系,确定它们之间的重叠部分。这些重叠部分即代表了多个视频帧图像之间的重叠区域。重叠区域的确定确保了不同视角下的视频内容能够准确地拼接在一起,形成连贯的三维场景。
步骤S5、对重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对三维模型面进行投影至各视频摄像机的截锥体上,比较各投影面积确定重叠区域的最佳视点;最佳视点为重叠区域对应的最佳拍摄点上的视频摄像机。
其中,本申请实施例对重叠区域中模型面对应的视频摄像机视点进行量化评估,为了提高最终的融合效果,为重叠区域中的模型面选择具有最佳视点的视频摄像机。
在一般示例中,最佳视点的选择依据是投影面积的大小,投影面积越大,说明该视频摄像机视角下的重叠区域信息越丰富,更适合作为融合的中心视角。确定最佳视点后,可以基于该视点对重叠区域进行进一步的分割和处理,以确保视频三维融合模型的准确性和连贯性。
步骤S6、利用最佳视点对重叠区域进行分割,并将分割结果映射回三维模型,确定多个三维模型分割面。
其中,通过最佳视点对应的视频摄像机视角,对重叠区域的三维模型面进行分割。分割过程中,可以依据最佳视点下的投影信息,对重叠区域进行精确的划分,确保每个分割部分都对应着清晰且连续的三维模型面。分割完成后,将分割结果映射回原始的三维模型上,可以清晰地识别出多个三维模型分割面,提高视频纹理映射的准确性。
步骤S7、将多个视频帧图像的视频纹理映射到各三维模型分割面的空间位置上,得到视频帧图像与三维模型相融合的视频三维融合模型。
其中,将视频帧图像中的像素信息准确地对应到三维模型分割面的每一个顶点上,通过纹理映射技术,使得三维模型分割面呈现出与视频帧图像一致的视觉效果。通过视频纹理与三维模型的精确融合,生成具有真实感和动态效果的视频三维融合模型。
需要说明的是,本申请实施例通过重建目标物体的三维模型,并用它来标定视频摄像机的相机参数,确定摄像机的截锥体平面,用这些平面裁剪三维模型,得到位于截锥体内的三维模型面,基于这些三维模型面,识别视频帧图像间的重叠区域,对重叠区域的三维模型面进行聚类,投影至摄像机截锥体上,比较投影面积以确定最佳视点,利用最佳视点分割重叠区域,并将结果映射回三维模型,确定三维模型分割面,将视频帧图像的纹理映射到三维模型分割面上,从而生成满足直观、动态、实时感知真实世界的需求的视频三维融合模型,并提高了三维模型融合的精确性以及重叠区域分割的精确性。
为了将2D视频中的像素投影到三维场景中,需要准确计算视频摄像机的内外参数,即对视频摄像机进行参数标定。
设二维图像中坐标为 (ui,vi)的像素对应于三维场景中坐标为 (Xi,Yi, Zi)的点,则它们之间的关系可表示为式(1):
(1)
其中,K为相机内参数矩阵,它是由相机本身定义的。其中 分别是相机在x,
y 方向的焦距,单位为像素;(u0,v0)是图像平面的主点坐标,通常位于图像中心,s代表尺度
因子,为一个非零的常数,它表示三维点到相机光心的距离与图像平面上像素点到主点距
离的比例关系,是相机外参数矩阵,用于描述相机相对于世界坐标系的位置和姿态。R
是旋转矩阵,为3矩阵,用于描述相机的旋转角度;T是平移向量,为3矩阵,用于描述
相机原点在世界坐标系中的位置。
在一些实施例中,通过二维图像数据进行重建目标物体的三维模型,并利用三维模型标定各视频摄像机的相机参数,包括:
步骤S201、通过二维图像数据进行重建目标物体的三维模型,并提取二维图像数据的第一特征点,并对重叠的二维图像数据之间的第一特征点进行匹配,根据匹配的第一特征点,确定三维模型的稀疏点云。
其中,特征提取可以采用尺度不变特征变换(Scale-Invariant FeatureTransform,SIFT)、加速稳健特征(Speeded-Up Robust Features,SURF)等特征提取算法,特征点匹配可以采用暴力匹配、近似最近邻搜索(Approximate Nearest NeighborSearch,FLANN)匹配等匹配方式。
同时,通过构建稀疏点云用于恢复无人机摄像机的位置和姿态。
步骤S202、提取视频帧图像的第二特征点,并对第二特征点与第一特征点进行特征匹配,利用特征匹配结果将第二特征点添加至稀疏点云中,得到扩展稀疏点云。
在具体实现中,首先,统一坐标系统:在将视频帧图像特征点添加到无人机图像的稀疏点云之前,首先需要统一两者的坐标系统。通过建立合适的坐标变换关系,使得视频帧图像和无人机图像处于同一坐标体系下。
其次,进行特征匹配点关联,利用已完成的图像特征匹配结果,将视频图像中的特征点与无人机图像稀疏点云中的点进行关联。具体而言,通过计算匹配描述子之间的距离,在稀疏点云中找到与第二特征点距离最近的点,从而建立两者之间的对应关系。
最后,添加第二特征点到稀疏点云,更新稀疏点云数据,并更新稀疏点云数据。通过这种方式,逐步将新图像中的特征点融入现有点云,使其包含更多来自视频帧图像的信息,使稀疏点云逐渐密集化。
步骤S203、根据扩展稀疏点云确定所有特征点的观测图像坐标;其中,特征点包括第一特征点和第二特征点。
其中,观测图像坐标是从实际图像中提取的特征点坐标。通过遍历扩展稀疏点云中的每个特征点,找到每个特征点被观测到的所有视频帧图像,并记录这些图像中特征点的坐标。这些观测图像坐标将用于后续的三维重建和相机参数标定过程。
步骤S204、根据视频摄像机的初始相机参数将特征点对应的三维点坐标投影到图像平面上,得到预测图像坐标;初始相机参数包括初始内部参数和初始外部参数。
其中,基于初始相机参数,通过投影变换公式,将三维空间中的特征点坐标通过旋转和平移变换将三维点从世界坐标系转换到相机坐标系下。然后,通过摄像机的内部参数将相机坐标系下的点投影到图像平面上,得到预测图像坐标。
预测图像坐标是基于相机参数和三维点坐标计算得到的理论图像坐标,它反映了在没有噪声和误差的理想情况下,特征点在图像平面上的位置。
其中,投影变换公式考虑了相机的内部参数(如焦距、主点坐标等)和外部参数(如旋转矩阵、平移向量等),确保了三维点到图像平面的准确映射。
其中,可以通过使用张正友标定法,初步确定视频摄像机的初始内部参数,并初步根据内部参数设计外部参数。或通过配备实时运动学和惯性测量单元等传感器的无人机,在拍摄时记录相机的实际位置和姿态信息,从而确定视频摄像机的初始外部参数。
步骤S205、以观测图像坐标和预测图像坐标之间的误差平方和最小化为目标,构建光束法平差的目标函数。
其中,光束法平差的目标函数是一种衡量观测图像坐标与预测图像坐标之间差异的函数,通过最小化该函数,可以优化相机参数和三维点坐标,使其更准确地反映实际场景。在光束法平差过程中,会考虑所有特征点的观测图像坐标和预测图像坐标,通过迭代优化算法,不断调整相机参数和三维点坐标,直到目标函数达到最小值或收敛到某个阈值以下。
通过光束法平差,可以进一步提高三维重建的准确性和相机参数标定的精度。优化后的相机参数和三维点坐标将用于后续的视频三维融合模型生成过程,确保融合效果的准确性和连贯性。
步骤S206、对目标函数进行寻优求解,得到目标函数值最小的最优解,根据最优解确定视频摄像机的相机参数。
其中,可以通过牛顿法,拟牛顿法等优化算法对目标函数进行求解,同时优化摄像机的内外参数以及三维点坐标,从而得到更精确的内部参数和外部参数。
其中,牛顿法是一种迭代优化算法,其核心思想是通过在当前点处构建目标函数的二次近似模型,然后求解该二次模型的最小值来得到下一个迭代点。拟牛顿法是对牛顿法的改进,因为在实际应用中,计算海森矩阵及其逆矩阵的计算量非常大。拟牛顿法通过近似计算海森矩阵或其逆矩阵来减少计算量。
视频与三维场景融合的关键在于准确计算视频摄像机的拍摄区域,以便在三维场景中重现视频的视觉效果,这类似于拍摄三维场景的逆过程。图3a~图3b展示了在渲染管线中的三维模型顶点的归一化处理,并从摄像机坐标系转换到NDC坐标系,根据透视摄像机的概念,摄像机可视空间内的三维模型面始终被摄像机的截锥体包围。
其中,NDC(Normalized Device Coordinates)坐标系是计算机图形学中的一个概念,用于将三维场景中的点映射到二维屏幕上。
首先,使用模型视图变换将三维模型的顶点转换到摄像机坐标系,根据透视投影原理,假设摄像机截锥体中某点P的坐标在摄像机坐标系下为a (Px,Py,Pz),对应的NDC坐标系下的坐标值 P′的计算公式如式(2)所示。
(2)
其中,l、r、b、t分别为截锥体的左平面、右平面、下平面、上平面在摄像机坐标系下的坐标值,由摄像机内部参数计算得到;n、f为近平面和远平面的坐标值,一般根据需要手工指定。
然后通过透视或正射影投影转换为归一化设备坐标,其形状为立方体,范围为[-1, 1]。3D模型表面通常不均匀,摄像机位置可能无法看到截锥内的某些面,如背面或被遮挡的面,这会导致视频错误映射并影响渲染效率。因此,在一些实施例中,可以采用后向面检测和z-buffer算法,删除不可见的面,并确定与摄像机实际拍摄范围匹配的可见模型面。根据z-buffer算法,在NDC坐标系中, z ′与顶点Pz的坐标值成反比,如式(3)所示:
(3)
其中, z ′称为伪深度,表示模型顶点的序列。取值范围为,Pz对应为。
本申请实施例在NDC坐标系中实现了深度缓存算法伪深度值被设置为最大深度1.0。然后逐一计算顶点的深度与深度缓存中的对应值进行比较。如果面部深度值为小于缓存值。最后,NDC坐标系中与深度缓存对应的顶点为通过使用相机的外部参数投影矩阵恢复到世界坐标系获得了与摄像机的可见空间相对应的面部。
最后,为限制多个视频的计算量,还需确定摄像机可见范围内的重叠区域。为此,下面介绍根据相机参数确定各视频摄像机的多个截锥体平面,并利用多个截锥体平面对三维模型进行裁剪,得到经裁剪后位于截锥体平面内侧的多个三维模型面的过程,包括:
步骤S301、针对每个视频摄像机,基于透视投影原理,确定视频摄像机的截锥体的多个截锥体平面方程以及截锥体平面方程对应的截锥体平面。
其中,根据摄像机坐标系与世界坐标系之间的转换关系,推导出每个视频摄像机的截锥体平面在世界坐标系下的方程。这些方程描述了摄像机的可视范围,即哪些三维模型面会被摄像机捕捉到。
对于每个摄像机,根据其位置、朝向和投影参数计算出截锥体的六个平面方程。一般来说,截锥体的六个平面分别为近裁剪平面、远裁剪平面、左裁剪平面、右裁剪平面、上裁剪平面和下裁剪平面。
步骤S302、利用三维变换矩阵,将三维模型上的所有顶点转换到每个视频摄像机的摄像机坐标系中,并根据三维模型在摄像机坐标系下的各顶点与各截锥体平面方程,确定三维模型在摄像机坐标系下的各顶点与各截锥体平面的位置关系。
其中,利用三维变换矩阵,将三维模型的所有顶点从世界坐标系转换到每个视频摄像机的摄像机坐标系中。便于后续与视频摄像机截锥体平面进行比较。对每个视频摄像机,判断模型顶点与截锥体平面的位置关系。
对于每个摄像机截锥体的平面方程,将三维模型在该摄像机坐标系下的顶点代入平面方程。根据代入结果判断顶点位于平面的哪一侧,若顶点代入平面方程的值小于0,则顶点位于平面的内侧(朝向摄像机方向),反之则位于外侧。
步骤S303、根据各顶点与截锥体平面的位置关系,剔除位于所有截锥体平面外侧的顶点,保留位于至少一个截锥体平面内侧的顶点,得到每个视频摄像机下被截锥体平面裁剪后的三维模型面。
其中,根据各顶点与截锥体平面的位置关系,剔除位于所有截锥体平面外侧的顶点,保留位于至少一个平面内侧的顶点,从而得到每个摄像机下被截锥体平面裁剪后的三维模型部分,作为每个视频摄像机下被截锥体平面裁剪后的三维模型面。
下面介绍根据位于截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域的过程,包括:
步骤S401、根据每个视频摄像机下裁剪后的三维模型面,确定三维模型面的包围盒,并确定各视频摄像机分别对应的包围盒的区域交集。
步骤S402、根据区域交集确定多个视频帧图像之间的重叠区域。
在一些实施例中,基于包围盒的方法,计算多个视频摄像机下裁剪后模型部分的重叠区域,即计算每个视频摄像机下裁剪后模型的包围盒(如AABB(Axis-AlignedBounding Box)包围盒或轴对齐包围盒(Oriented Bounding Box,OBB)),然后通过计算这些包围盒的交集来初步确定重叠区的范围。再对位于交集包围盒内的模型顶点进行进一步判断,确定是否真正位于所有裁剪后模型部分内。其中,AABB包围盒是一个与坐标轴对齐的矩形(在二维中)或长方体(在三维中),其边界平行于坐标轴。
在处理视频重叠区域时,3D模型面往往与多个视频纹理相关。目前的技术通常通过均匀划分重叠区域来处理接缝,但这可能导致边缘明显拉伸;而人工掩模方法虽然能防止纹理重复,但需要手动评估质量,难以适应大量视频场景。为了解决这些问题,提出了一种基于最优视点选择的重叠区域分割方法。该方法首先通过模拟考试评估同一模型面上多个视频纹理的视点角度,然后选择最佳视角的摄像机参数,最终完成对重叠区域的有效分割。
为此,下面介绍对重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对三维模型面进行投影至各视频摄像机的截锥体上,比较各投影面积确定重叠区域的最佳视点的过程,包括:
步骤S501、获取重叠区域内的多个三维模型面。
其中,根据重叠区域的范围,从三维模型中提取出位于该重叠区域内的所有三维模型面。
步骤S502、对多个三维模型面进行聚类,得到多个三维模型面簇。
其中,其中,聚类处理是将相似的三维模型面归为一类的过程。在本实施例中,可以采用K-means聚类、密度聚类算法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)对重叠区域内的三维模型面进行聚类。通过聚类处理,可以将具有相似特征或属性的模型面归为一类,便于后续的分析和处理。聚类处理的结果是将重叠区域内的三维模型面划分为至少一个聚类簇,每个聚类簇包含一组相似的三维模型面。
步骤S503、针对每个三维模型面簇,初始化三维模型面簇的最大投影面积,并将三维模型面簇投影到各视频摄像机的截锥体的近平面上,得到各视频摄像机分别对应的投影后的面。
其中,针对每个三维模型面簇,首先计算其在各个视频摄像机截锥体近平面上的投影面积。投影面积的计算可以通过将三维模型面簇中的每个面投影到近平面上,并计算投影后的面的面积来实现。为了得到准确的投影面积,需要考虑摄像机的内部参数,如焦距、主点坐标等,以确保投影的准确性。
在投影过程中,可以利用摄像机的投影矩阵,将三维模型面簇中的每个顶点从三维空间投影到二维平面上。投影矩阵包含了摄像机的内部参数和外部参数,能够准确地将三维点映射到图像平面上。通过计算投影后顶点的坐标,可以得到投影面的形状和大小,进而计算出投影面积。
步骤S504、分别计算各视频摄像机分别对应的投影后的面的当前投影面积,比较各当前投影面积分别与最大投影面积的大小。
步骤S505、当当前投影面积大于最大投影面积时,则将当前投影面积更新为最大投影面积,并找到各当前投影面积中最大投影面积。
其中,初始化每个三维模型面簇的最大投影面积为0,然后遍历所有视频摄像机,将三维模型面簇投影到每个摄像机的截锥体近平面上,并记录投影后的面积。在遍历过程中,更新每个三维模型面簇的最大投影面积,保留投影面积最大的摄像机作为该三维模型面簇的最佳视点。
通过比较不同三维模型面簇在各个视频摄像机上的投影面积,可以确定每个面簇的最佳视点。
最佳视点是投影面积最大的摄像机,因为它能够提供更完整、更清晰的视图。在确定最佳视点后,可以利用该视点的摄像机参数对重叠区域进行分割,确保分割后的区域在视觉上更加连贯和一致。
步骤S506、根据找到的最大投影面积对应的视频摄像机作为三维模型面簇的最佳视点,根据各三维模型面簇的最佳视点确定重叠区域的最佳视点。
本申请实施例中,采用投影面积法对摄像机的视点角度进行评价。它不仅计算简单,而且同时表示视频纹理角度和模型顶点距离。在摄像机坐标系中,首先将三维模型面顶点P(Px,Py,Pz)投影到截锥体的近平面上,即计算该截锥体的近平面与摄像机位置与模型面顶点构造的连线的交点,记为点Pn′(x,y, - n)。根据相似三角形原理,Pn′与P有如下的转换关系如公式4所示。
(4)
重复以上步骤,按顺时针依次将三维模型面所有顶点投影到摄像机截锥体近平面,按照顶点的顺序依次连接相邻顶点的投影点,得到投影面组成的二维多边形。然后计算多边形的面积作为摄像机视点的定量评价指标。
可以理解的是,通过对重叠区域中模型面对应的视频摄像机视点进行量化评估。为了提高最终的融合效果,为重叠区域中的模型面选择具有最佳视点的视频摄像机。首先,遍历重叠区域中的模型面,计算单个面对应的多个摄像机的视点评估指标值,然后,选择并记录视点最佳的视频摄像机(即投影面积最大,说明离得最近)。
下面介绍利用最佳视点对重叠区域进行分割,并将分割结果映射回三维模型,确定多个三维模型分割面的过程,包括:
步骤S601、针对每个三维模型面簇,对最佳视点对应的投影后的面进行边缘检测。
其中,可以对二维投影图应用边缘检测算法,如Canny算子,Sobel算子等,提取模型投影的边缘信息,这些边缘作为分割的初步边界。
Canny 算子是一种多阶段的边缘检测算法,主要包括高斯平滑、梯度计算、非极大值抑制和双阈值处理四个步骤。首先使用高斯滤波器对图像进行平滑处理,以减少噪声的影响;然后计算图像的梯度幅值和方向;接着通过非极大值抑制,只保留局部梯度最大的点,细化边缘;最后使用双阈值处理,将梯度幅值大于高阈值的点作为强边缘,介于高阈值和低阈值之间且与强边缘相连的点作为弱边缘,从而得到最终的边缘图像。
Sobel 算子是一种基于一阶导数的边缘检测算子,通过计算图像在水平和垂直方向上的梯度,然后将两个方向的梯度幅值合并得到最终的边缘图像。Sobel 算子使用两个3x3 的卷积核分别对图像进行卷积,一个用于检测水平边缘,另一个用于检测垂直边缘。
步骤S602、基于边缘检测结果,根据像素点的灰度值特征、颜色特征对投影后的面进行聚类,对投影后的面进行分割。
可以理解的是,边缘检测得到的只是模型投影的大致轮廓,为了更精确地分割投影图,需要进一步将相邻的像素点根据其特征相似性合并成不同的区域。
本申请实施例是采用K 均值聚类对投影后的面进行聚类,实现对投影后的面进行分割。
其中,K 均值聚类是一种无监督的聚类算法,其基本思想是选择 K 个初始种子点,将每个像素点分配到距离最近的种子点所在的聚类中,然后更新每个聚类的中心点,重复这个过程直到满足停止条件(如中心点不再变化或达到最大迭代次数)。在投影图分割中,可以根据像素的灰度值、颜色等特征进行聚类。
步骤S603、将各投影后的面的分割结果映射回三维模型,确定三维模型的分割边界。
步骤S604、根据分割边界通过三角剖分方法对述三维模型进行分割,得到多个三维模型分割面。
其中,根据二维投影图上的分割结果,找到每个分割区域对应的像素点。对于每个像素点,通过投影矩阵的逆变换,找到三维模型中对应的顶点。根据这些顶点确定三维模型的分割边界。可以使用三角剖分等方法将这些顶点连接成面,从而完成三维模型的分割。
在视频空间还原过程中可以找到与三维模型面相对应的摄像机。对于多个视频重叠区域,采用本文提出的最优视点分割方法,可以根据不同的摄像机对三维模型面进行分类。因此,相机视觉空间范围内的每个三维模型面都有自己的视频纹理。另一方面,视频与三维模型的融合需要动态地将2D视频纹理附加到三维模型的表面。本研究利用纹理映射方法实现视频像素与三维模型顶点的一对一关联,并随着视频播放动态更新三维模型顶点的纹理。最后,基于渲染流水线完成整个场景的渲染。
下面介绍将多个视频帧图像的视频纹理映射到各三维模型分割面的空间位置上,得到视频帧图像与三维模型相融合的视频三维融合模型的过程,包括:
步骤S701、根据最佳视点下的三维模型分割面的所有顶点的位置,确定三维模型分割面的各顶点分别对应的视频纹理坐标。
其中,根据纹理映射的概念,在计算视频对应的模型顶点的纹理坐标的基础上,将视频纹理动态映射到三维模型的表面上。对三维模型面进行分割后,根据最优视点,模型面上的顶点P(Px,Py,Pz)对应视频纹理坐标Pt′(u,v),如图4所示。式中,α为垂直平面与顶点P到主光轴的垂直线之间的夹角,β为水平方向对应的夹角。利用纹理坐标与面顶点的映射关系,可以计算出顶点P对应的纹理坐标u和v,如式(5)所示:
(5)
其中,fov是相机的垂直视场角度,aspect是相机的水平和垂直视场角度之比。在摄像机坐标系中,遍历摄像机可见空间中的三维模型顶点,并根据模型顶点位置导出纹理坐标。
在实际计算过程中,可以在重叠区域的分割阶段进行本步骤处理,以减少总体计算量。
步骤S702、根据每个三维模型分割面的各顶点以及三维模型分割面的各顶点分别对应的视频纹理坐标,确定顶点与视频纹理坐标的映射关系。
步骤S703、基于映射关系,将多个视频帧图像的视频纹理映射到各三维模型分割面的顶点上,得到初始视频三维融合模型。
其中,将视频帧图像中的每个像素与三维模型分割面上的顶点一一对应,实现视频纹理与三维模型的精准贴合。这一过程中,利用纹理映射技术,确保视频纹理能够随着视频的播放动态地更新到三维模型的表面上,使得融合后的模型既保留了三维的空间感,又能够呈现出视频的动态效果。
步骤S704、对初始视频三维融合模型进行渲染操作,得到视频三维融合模型。
其中,根据三维模型渲染原理,首先对三维模型顶点的几何信息进行处理。包括投影变换、基元装配、视景体裁剪和顶点着色等步骤。然后,在栅格化阶段,将归一化设备坐标中的顶点值进行插值和着色,以生成栅格像素或片段。在片段处理阶段,应用纹理映射和隐藏表面消除技术来增强视觉细节并提高渲染效率。最后,处理后的片段被保存到帧缓存中,准备输出到显示设备,其中纹理映射通过独立的纹理像素管道与片段处理和几何绘制管道汇聚,从而最终呈现出高质量的3D图像。
其中,投影变换是将三维模型从模型坐标系转换到摄像机坐标系的过程。这一步骤是为了将三维模型投影到摄像机的视平面上,以便于后续的渲染和纹理映射。投影变换通常包括透视投影和平行投影两种方式,本申请实施例中采用的是透视投影,因为它能够模拟人眼的视觉效果,使得远处的物体看起来更小,近处的物体看起来更大,增强了场景的真实感。
基元装配是将投影变换后的顶点组装成基本的图形元素,如点、线、三角形等。这些基本图形元素是构成三维模型的基础。
视景体裁剪是为了去除摄像机视锥体以外的部分,以减少不必要的计算量。视锥体是摄像机能够看到的空间范围,由摄像机的位置和视角决定。只有位于视锥体内的三维模型部分才会被渲染出来。
顶点着色是对三维模型顶点的颜色、光照等信息进行处理的过程。通过顶点着色,可以为三维模型添加光照效果、阴影等,增强场景的真实感和立体感。
栅格化是将顶点信息转换为像素信息的过程。在栅格化阶段,会根据顶点的几何信息和颜色信息,计算出每个像素的颜色值。这一步骤是三维渲染中最为耗时的一步,因为它需要对每个像素进行处理。
片段处理阶段是在栅格化之后进行的,主要是对像素进行进一步的处理,如纹理映射、隐藏表面消除等。纹理映射是将二维纹理图像映射到三维模型表面上的过程,它能够增加模型的细节和真实感。隐藏表面消除是为了去除被遮挡的部分,只保留可见的部分,以提高渲染效率。
通过处理后的片段最终被保存到帧缓存中,等待输出到显示设备上。帧缓存是一个存储图像数据的缓冲区,它保存了当前场景的渲染结果。当所有的渲染操作完成后,帧缓存中的图像数据就会被输出到显示设备上,呈现出最终的3D图像。
需要说明的是,本申请实施例利用三维场景渲染管道将视频与三维模型融合为可视化网格。通过摄像机参数恢复视频空间,结合顶点位置、法线和纹理信息构建几何模型。视频被转换为动态纹理,并对模型中的面组件进行插值和上色,以增强真实感。随后,将几何图形与视频素材结合,形成统一的网格结构,并根据最佳视点进行合理分割。最终,经过窗口变换和隐藏面消除等步骤,可成功实现多个视频与三维模型的叠加融合渲染,创造出丰富的视觉体验。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的多视频与三维场景融合方法的多视频与三维场景融合系统。
该系统所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个多视频与三维场景融合系统实施例中的具体限定可以参见上文中对于多视频与三维场景融合方法的限定,在此不再赘述。
如图5所示,本申请实施例提供了一种多视频与三维场景融合系统,其包括:
数据获取模块100,用于获取目标物体的二维图像数据,以及获取多个视频摄像机拍摄目标物体的视频帧图像;
参数标定模块200,用于通过二维图像数据进行重建目标物体的三维模型,并利用三维模型标定各视频摄像机的相机参数;
模型裁剪模块300,用于根据相机参数确定各视频摄像机的多个截锥体平面,并利用多个截锥体平面对三维模型进行裁剪,得到经裁剪后位于截锥体平面内侧的多个三维模型面;
重叠识别模块400,用于根据位于截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域;
视点确定模块500,用于对重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对三维模型面进行投影至各视频摄像机的截锥体上,比较各投影面积确定重叠区域的最佳视点;最佳视点为重叠区域对应的最佳拍摄点上的视频摄像机;
区域分割模块600,用于利用最佳视点对重叠区域进行分割,并将分割结果映射回三维模型,确定多个三维模型分割面;
视频融合模块700,用于将多个视频帧图像的视频纹理映射到各三维模型分割面的空间位置上,得到视频帧图像与三维模型相融合的视频三维融合模型。
在一些实施例中,参数标定模块200,用于:
通过二维图像数据进行重建目标物体的三维模型,并提取二维图像数据的第一特征点,并对重叠的二维图像数据之间的第一特征点进行匹配,根据匹配的第一特征点,确定三维模型的稀疏点云;
提取视频帧图像的第二特征点,并对第二特征点与第一特征点进行特征匹配,利用特征匹配结果将第二特征点添加至稀疏点云中,得到扩展稀疏点云;
根据扩展稀疏点云确定所有特征点的观测图像坐标;其中,特征点包括第一特征点和第二特征点;
根据视频摄像机的初始相机参数将特征点对应的三维点坐标投影到图像平面上,得到预测图像坐标;初始相机参数包括初始内部参数和初始外部参数;
以观测图像坐标和预测图像坐标之间的误差平方和最小化为目标,构建光束法平差的目标函数;
对目标函数进行寻优求解,得到目标函数值最小的最优解,根据最优解确定视频摄像机的相机参数。
在一些实施例中,模型裁剪模块300,用于:
针对每个视频摄像机,基于透视投影原理,确定视频摄像机的截锥体的多个截锥体平面方程以及截锥体平面方程对应的截锥体平面;
利用三维变换矩阵,将三维模型上的所有顶点转换到每个视频摄像机的摄像机坐标系中,并根据三维模型在摄像机坐标系下的各顶点与各截锥体平面方程,确定三维模型在摄像机坐标系下的各顶点与各截锥体平面的位置关系;
根据各顶点与截锥体平面的位置关系,剔除位于所有截锥体平面外侧的顶点,保留位于至少一个截锥体平面内侧的顶点,得到每个视频摄像机下被截锥体平面裁剪后的三维模型面。
在一些实施例中,重叠识别模块400,用于:
根据每个视频摄像机下裁剪后的三维模型面,确定三维模型面的包围盒,并确定各视频摄像机分别对应的包围盒的区域交集;
根据区域交集确定多个视频帧图像之间的重叠区域。
在一些实施例中,视点确定模块500,用于:
获取重叠区域内的多个三维模型面;
对多个三维模型面进行聚类,得到多个三维模型面簇;
针对每个三维模型面簇,初始化三维模型面簇的最大投影面积,并将三维模型面簇投影到各视频摄像机的截锥体的近平面上,得到各视频摄像机分别对应的投影后的面;
分别计算各视频摄像机分别对应的投影后的面的当前投影面积,比较各当前投影面积分别与最大投影面积的大小;
当当前投影面积大于最大投影面积时,则将当前投影面积更新为最大投影面积,并找到各当前投影面积中最大投影面积;
根据找到的最大投影面积对应的视频摄像机作为三维模型面簇的最佳视点,根据各三维模型面簇的最佳视点确定重叠区域的最佳视点。
在一些实施例中,区域分割模块600,用于:
针对每个三维模型面簇,对最佳视点对应的投影后的面进行边缘检测;
基于边缘检测结果,根据像素点的灰度值特征、颜色特征对投影后的面进行聚类,对投影后的面进行分割;
将各投影后的面的分割结果映射回三维模型,确定三维模型的分割边界;
根据分割边界通过三角剖分方法对述三维模型进行分割,得到多个三维模型分割面。
在一些实施例中,视频融合模块700,用于:
根据最佳视点下的三维模型分割面的所有顶点的位置,确定三维模型分割面的各顶点分别对应的视频纹理坐标;
根据每个三维模型分割面的各顶点以及三维模型分割面的各顶点分别对应的视频纹理坐标,确定顶点与视频纹理坐标的映射关系;
基于映射关系,将多个视频帧图像的视频纹理映射到各三维模型分割面的顶点上,得到初始视频三维融合模型;
对初始视频三维融合模型进行渲染操作,得到视频三维融合模型。
如图6所示,本申请实施例提供了一种电子设备,电子设备10包括存储器20及处理器30,存储器20中储存有计算机程序,计算机程序被处理器30执行时,使得处理器30执行如上述实施例中的多视频与三维场景融合方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被执行时实现如上述实施例中的多视频与三维场景融合方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,电子设备和计算机存储介质的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,电子设备,计算机存储介质和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种多视频与三维场景融合方法,其特征在于,包括:
获取目标物体的二维图像数据,以及获取多个视频摄像机拍摄所述目标物体的视频帧图像;
通过所述二维图像数据进行重建所述目标物体的三维模型,并利用所述三维模型标定各所述视频摄像机的相机参数;
根据所述相机参数确定各所述视频摄像机的多个截锥体平面,并利用多个所述截锥体平面对所述三维模型进行裁剪,得到经裁剪后位于所述截锥体平面内侧的多个三维模型面;
根据位于所述截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域;
对所述重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对所述三维模型面进行投影至各所述视频摄像机的截锥体上,比较各投影面积确定所述重叠区域的最佳视点;所述最佳视点为所述重叠区域对应的最佳拍摄点上的视频摄像机;
利用所述最佳视点对所述重叠区域进行分割,并将分割结果映射回所述三维模型,确定多个三维模型分割面;
将多个视频帧图像的视频纹理映射到各所述三维模型分割面的空间位置上,得到所述视频帧图像与所述三维模型相融合的视频三维融合模型。
2.根据权利要求1所述的多视频与三维场景融合方法,其特征在于,所述通过所述二维图像数据进行重建所述目标物体的三维模型,并利用所述三维模型标定各所述视频摄像机的相机参数,包括:
通过所述二维图像数据进行重建所述目标物体的三维模型,并提取所述二维图像数据的第一特征点,并对重叠的所述二维图像数据之间的第一特征点进行匹配,根据匹配的第一特征点,确定所述三维模型的稀疏点云;
提取所述视频帧图像的第二特征点,并对所述第二特征点与所述第一特征点进行特征匹配,利用特征匹配结果将所述第二特征点添加至所述稀疏点云中,得到扩展稀疏点云;
根据所述扩展稀疏点云确定所有特征点的观测图像坐标;其中,所述特征点包括第一特征点和第二特征点;
根据所述视频摄像机的初始相机参数将所述特征点对应的三维点坐标投影到图像平面上,得到预测图像坐标;所述初始相机参数包括初始内部参数和初始外部参数;
以所述观测图像坐标和所述预测图像坐标之间的误差平方和最小化为目标,构建光束法平差的目标函数;
对所述目标函数进行寻优求解,得到目标函数值最小的最优解,根据所述最优解确定所述视频摄像机的相机参数。
3.根据权利要求1所述的多视频与三维场景融合方法,其特征在于,所述根据所述相机参数确定各所述视频摄像机的多个截锥体平面,并利用多个所述截锥体平面对所述三维模型进行裁剪,得到经裁剪后位于所述截锥体平面内侧的多个三维模型面,包括:
针对每个所述视频摄像机,基于透视投影原理,确定所述视频摄像机的截锥体的多个截锥体平面方程以及所述截锥体平面方程对应的截锥体平面;
利用三维变换矩阵,将所述三维模型上的所有顶点转换到每个所述视频摄像机的摄像机坐标系中,并根据所述三维模型在摄像机坐标系下的各顶点与各所述截锥体平面方程,确定所述三维模型在摄像机坐标系下的各顶点与各所述截锥体平面的位置关系;
根据各所述顶点与截锥体平面的位置关系,剔除位于所有截锥体平面外侧的顶点,保留位于至少一个所述截锥体平面内侧的顶点,得到每个所述视频摄像机下被所述截锥体平面裁剪后的三维模型面。
4.根据权利要求1或3所述的多视频与三维场景融合方法,其特征在于,所述根据位于所述截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域,包括:
根据每个所述视频摄像机下裁剪后的三维模型面,确定所述三维模型面的包围盒,并确定各所述视频摄像机分别对应的所述包围盒的区域交集;
根据所述区域交集确定多个所述视频帧图像之间的重叠区域。
5.根据权利要求1所述的多视频与三维场景融合方法,其特征在于,所述对所述重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对所述三维模型面进行投影至各所述视频摄像机的截锥体上,比较各投影面积确定所述重叠区域的最佳视点,包括:
获取所述重叠区域内的多个三维模型面;
对多个所述三维模型面进行聚类,得到多个三维模型面簇;
针对每个所述三维模型面簇,初始化所述三维模型面簇的最大投影面积,并将所述三维模型面簇投影到各所述视频摄像机的截锥体的近平面上,得到各所述视频摄像机分别对应的投影后的面;
分别计算各所述视频摄像机分别对应的投影后的面的当前投影面积,比较各所述当前投影面积分别与所述最大投影面积的大小;
当所述当前投影面积大于所述最大投影面积时,则将所述当前投影面积更新为所述最大投影面积,并找到各所述当前投影面积中最大投影面积;
根据找到的最大投影面积对应的所述视频摄像机作为所述三维模型面簇的最佳视点,根据各所述三维模型面簇的最佳视点确定所述重叠区域的最佳视点。
6.根据权利要求5所述的多视频与三维场景融合方法,其特征在于,所述利用所述最佳视点对所述重叠区域进行分割,并将分割结果映射回所述三维模型,确定多个三维模型分割面,包括:
针对每个所述三维模型面簇,对所述最佳视点对应的投影后的面进行边缘检测;
基于边缘检测结果,根据像素点的灰度值特征、颜色特征对所述投影后的面进行聚类,对所述投影后的面进行分割;
将各所述投影后的面的分割结果映射回所述三维模型,确定所述三维模型的分割边界;
根据所述分割边界通过三角剖分方法对所述述三维模型进行分割,得到多个所述三维模型分割面。
7.根据权利要求1所述的多视频与三维场景融合方法,其特征在于,所述将多个视频帧图像的视频纹理映射到各所述三维模型分割面的空间位置上,得到所述视频帧图像与所述三维模型相融合的视频三维融合模型,包括:
根据所述最佳视点下的三维模型分割面的所有顶点的位置,确定所述三维模型分割面的各顶点分别对应的视频纹理坐标;
根据每个所述三维模型分割面的各顶点以及所述三维模型分割面的各顶点分别对应的视频纹理坐标,确定顶点与视频纹理坐标的映射关系;
基于所述映射关系,将多个视频帧图像的视频纹理映射到各所述三维模型分割面的顶点上,得到初始视频三维融合模型;
对所述初始视频三维融合模型进行渲染操作,得到视频三维融合模型。
8.一种多视频与三维场景融合系统,其特征在于,包括:
数据获取模块,用于获取目标物体的二维图像数据,以及获取多个视频摄像机拍摄所述目标物体的视频帧图像;
参数标定模块,用于通过所述二维图像数据进行重建所述目标物体的三维模型,并利用所述三维模型标定各所述视频摄像机的相机参数;
模型裁剪模块,用于根据所述相机参数确定各所述视频摄像机的多个截锥体平面,并利用多个所述截锥体平面对所述三维模型进行裁剪,得到经裁剪后位于所述截锥体平面内侧的多个三维模型面;
重叠识别模块,用于根据位于所述截锥体平面内侧的多个三维模型面,确定多个视频帧图像之间的重叠区域;
视点确定模块,用于对所述重叠区域对应的多个三维模型面进行聚类,并利用聚类结果对所述三维模型面进行投影至各所述视频摄像机的截锥体上,比较各投影面积确定所述重叠区域的最佳视点;所述最佳视点为所述重叠区域对应的最佳拍摄点上的视频摄像机;
区域分割模块,用于利用所述最佳视点对所述重叠区域进行分割,并将分割结果映射回所述三维模型,确定多个三维模型分割面;
视频融合模块,用于将多个视频帧图像的视频纹理映射到各所述三维模型分割面的空间位置上,得到所述视频帧图像与所述三维模型相融合的视频三维融合模型。
9.一种电子设备,其特征在于,所述电子设备包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的多视频与三维场景融合方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-7任一项所述的多视频与三维场景融合方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510568466.XA CN120339561A (zh) | 2025-04-30 | 2025-04-30 | 一种多视频与三维场景融合方法、系统、设备和介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510568466.XA CN120339561A (zh) | 2025-04-30 | 2025-04-30 | 一种多视频与三维场景融合方法、系统、设备和介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN120339561A true CN120339561A (zh) | 2025-07-18 |
Family
ID=96361554
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510568466.XA Pending CN120339561A (zh) | 2025-04-30 | 2025-04-30 | 一种多视频与三维场景融合方法、系统、设备和介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN120339561A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120751279A (zh) * | 2025-08-26 | 2025-10-03 | 宁波朗达科技有限公司 | 一种用于全域追踪的摄像头补点方法 |
-
2025
- 2025-04-30 CN CN202510568466.XA patent/CN120339561A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120751279A (zh) * | 2025-08-26 | 2025-10-03 | 宁波朗达科技有限公司 | 一种用于全域追踪的摄像头补点方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108876926B (zh) | 一种全景场景中的导航方法及系统、ar/vr客户端设备 | |
| Newcombe et al. | Live dense reconstruction with a single moving camera | |
| US9251623B2 (en) | Glancing angle exclusion | |
| Hirschmuller | Stereo processing by semiglobal matching and mutual information | |
| KR101195942B1 (ko) | 카메라 보정 방법 및 이를 이용한 3차원 물체 재구성 방법 | |
| US9426444B2 (en) | Depth measurement quality enhancement | |
| KR101310589B1 (ko) | 이미지들로부터의 빠른 스테레오 재구성을 위한 기술들 | |
| CN111243071A (zh) | 实时三维人体重建的纹理渲染方法、系统、芯片、设备和介质 | |
| US20100156901A1 (en) | Method and apparatus for reconstructing 3d model | |
| Niem | Automatic reconstruction of 3D objects using a mobile camera | |
| WO2013056188A1 (en) | Generating free viewpoint video using stereo imaging | |
| EP3756163B1 (en) | Methods, devices, and computer program products for gradient based depth reconstructions with robust statistics | |
| EP1063614A2 (en) | Apparatus for using a plurality of facial images from different viewpoints to generate a facial image from a new viewpoint, method thereof, application apparatus and storage medium | |
| KR20070009899A (ko) | 다중 스테레오 카메라를 이용한 3차원 모델링 장치 및 그방법 | |
| US9147279B1 (en) | Systems and methods for merging textures | |
| CN111462030A (zh) | 多图像融合的立体布景视觉新角度构建绘制方法 | |
| Kim et al. | Interactive 3D building modeling method using panoramic image sequences and digital map | |
| CN109979013A (zh) | 三维人脸贴图方法及终端设备 | |
| CN113129352A (zh) | 一种稀疏光场重建方法及装置 | |
| CN113989434A (zh) | 一种人体三维重建方法及设备 | |
| CN115035235A (zh) | 三维重建方法及装置 | |
| CN118314271A (zh) | 一种基于3d高斯光栅化快速高精度稠密重建方法和系统 | |
| CN119888133A (zh) | 一种结构感知的三维场景重建方法及装置 | |
| CN120339561A (zh) | 一种多视频与三维场景融合方法、系统、设备和介质 | |
| CN109064533B (zh) | 一种3d漫游方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |