[go: up one dir, main page]

CN112102411A - 一种基于语义误差图像的视觉定位方法及装置 - Google Patents

一种基于语义误差图像的视觉定位方法及装置 Download PDF

Info

Publication number
CN112102411A
CN112102411A CN202011199775.8A CN202011199775A CN112102411A CN 112102411 A CN112102411 A CN 112102411A CN 202011199775 A CN202011199775 A CN 202011199775A CN 112102411 A CN112102411 A CN 112102411A
Authority
CN
China
Prior art keywords
image
semantic
pose
dimensional
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011199775.8A
Other languages
English (en)
Other versions
CN112102411B (zh
Inventor
蒋杰
辛星
康来
邹银
方玉杰
魏迎梅
谢毓湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011199775.8A priority Critical patent/CN112102411B/zh
Publication of CN112102411A publication Critical patent/CN112102411A/zh
Application granted granted Critical
Publication of CN112102411B publication Critical patent/CN112102411B/zh
Priority to US17/473,190 priority patent/US11321937B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本说明书一个或多个实施例提供一种基于语义误差图像的视觉定位方法及装置,包括对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对;对目标图像进行语义分割处理,得到目标图像的二维语义图像,根据二维语义图像的各像素的语义信息,确定各匹配对的语义信息;根据各匹配对,构建包括至少一个假设位姿的假设位姿池;对于每个假设位姿,构建重投影误差图像和语义误差图像;根据每个重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。通过利用语义误差构成的语义误差图像进行最佳位姿的筛选,即使场景发生较大的变化,也能够达到良好的定位效果。

Description

一种基于语义误差图像的视觉定位方法及装置
技术领域
本说明书一个或多个实施例涉及图像处理技术领域,尤其涉及一种基于语义误差图像的视觉定位方法及装置。
背景技术
视觉定位是根据图像、三维点云等数据获取目标周围的信息,从而得到目标的空间位置及方向,即得到目标的位姿估计,在机器人定位导航、自动驾驶车辆导航、增强现实、三维重建等领域得到了广泛应用。
目前的视觉定位方法一般分为以下三种:一种是基于三维结构的定位方法,在场景环境变化大、场景中存在大量重复结构、场景的弱纹理、无纹理结构、强光照变化、运动模糊、强视点变化等情况下,该方法的定位精度会大大下降,甚至可能失败;第二种是基于图像的定位方法,其主要是通过从图像数据库中检索到的与目标图像最相似的图片进行位姿估计,定位精度不高;第三种是基于学习模型的定位方法,预先学习训练模型,利用模型进行位姿估计,该方法难以处理较大的场景,且每个场景都需要构建模型,不具有通用性。由于上述方法都存在图像相似度检索,在实际应用中,光线、季节等变化因素都会对场景造成很大影响,图像之间的结构重叠会大大减少,导致定位效果下降。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于语义误差图像的视觉定位方法及装置,在场景变化较大的情况下具有较高的定位精度。
基于上述目的,本说明书一个或多个实施例提供了一种基于语义误差图像的视觉定位方法,包括:
对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的所述目标图像的像素点与所述三维场景模型的三维点;
对所述目标图像进行语义分割处理,得到所述目标图像的二维语义图像,所述二维语义图像的每个像素点具有对应的语义信息,根据所述二维语义图像的各像素的语义信息,确定各匹配对的语义信息;
根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;
对于所述假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;所述语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将所述三维语义图像按照当前假设位姿重投影得到二维图像,将所述二维图像的每个理论像素点的语义信息赋予所述二维语义图像的对应像素点的语义信息后,由所述二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;
根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。
可选的,构建所述假设位姿池的方法是:
从所有匹配对中随机选取四个匹配对,根据PNP算法和选取出的四个匹配对,计算得到一个假设位姿,由所有匹配对的随机组合所计算得到的所有假设位姿,构成所述假设位姿池。
可选的,所述假设位姿的计算方法为:
Figure 614340DEST_PATH_IMAGE001
(5)
其中,R为旋转矩阵,t为平移矩阵。
可选的,所述根据每个假设位姿的重投影误差图像和语义误差图像,选取出重投影误差最小且语义误差最小的假设位姿作为位姿估计包括:
根据每个假设位姿对应的重投影误差图像,统计正确位置总数;
根据每个假设位姿对应的语义误差图像,统计正确语义总数;
选取出正确位置总数最大且正确语义总数最大的假设位姿作为最佳的位姿估计。
可选的,根据每个假设位姿对应的重投影误差图像,统计正确位置总数,包括:
对于每个假设位姿
Figure 656245DEST_PATH_IMAGE002
,j=1,2…n,将三维语义图像按照假设位姿
Figure 281261DEST_PATH_IMAGE002
重投影为二维图像,任意一个三维点
Figure 547158DEST_PATH_IMAGE003
的位置坐标
Figure 624835DEST_PATH_IMAGE004
,投影得到的二维图像的理论像素点
Figure 798327DEST_PATH_IMAGE005
的理论位置坐标
Figure 274921DEST_PATH_IMAGE006
表示为:
Figure 711718DEST_PATH_IMAGE007
(6)
其中,
Figure 11113DEST_PATH_IMAGE008
Figure 191558DEST_PATH_IMAGE009
Figure 791167DEST_PATH_IMAGE010
为三维点
Figure 8653DEST_PATH_IMAGE003
在x、y、z方向上的位置坐标,C为相机投影矩阵;
二维图像的理论像素点
Figure 998605DEST_PATH_IMAGE005
的理论位置坐标
Figure 248321DEST_PATH_IMAGE006
,与所述二维语义图像的像素点
Figure 905698DEST_PATH_IMAGE003
的实际位置坐标
Figure 687228DEST_PATH_IMAGE011
存在重投影误差
Figure 961215DEST_PATH_IMAGE012
为:
Figure 280201DEST_PATH_IMAGE013
(7)
根据重投影误差
Figure 588822DEST_PATH_IMAGE012
构建得到重投影误差图像,设置匹配对内层阈值
Figure 272745DEST_PATH_IMAGE014
,有:
Figure 299606DEST_PATH_IMAGE015
(8)
若重投影误差
Figure 156704DEST_PATH_IMAGE012
小于内层阈值
Figure 319832DEST_PATH_IMAGE014
,该假设位姿投影得到的二维图像的理论像素点与所述二维语义图像的对应像素点位置一致,为正确位置;
对于每个假设位姿对应的重投影误差图像,计算内点总数
Figure 440235DEST_PATH_IMAGE016
,统计正确位置总数为:
Figure 688814DEST_PATH_IMAGE017
(9)
可选的,根据根据每个假设位姿对应的语义误差图像,统计正确语义总数的方法是:
判断所述二维图像的理论像素点的语义信息与三维点的语义信息之间存在语义误差
Figure 349602DEST_PATH_IMAGE018
Figure 632816DEST_PATH_IMAGE019
(10)
对于每个假设位姿对应的语义误差图像,统计正确语义总数
Figure 658541DEST_PATH_IMAGE020
Figure 394415DEST_PATH_IMAGE021
(11)
本说明书实施例还提供一种基于语义误差图像的视觉定位装置,包括:
匹配模块,用于对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的所述目标图像的像素点与所述三维场景模型的三维点;
语义分割模块,用于对所述目标图像进行语义分割处理,得到所述目标图像的二维语义图像,所述二维语义图像的每个像素点具有对应的语义信息,根据所述二维语义图像的各像素的语义信息,确定各匹配对的语义信息;
位姿池构建模块,用于根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;
图像构建模块,用于对于所述假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;所述语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将所述三维语义图像按照当前假设位姿重投影得到二维图像,将所述二维图像的每个理论像素点的语义信息赋予所述二维语义图像的对应像素点的语义信息后,由所述二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;
位姿估计模块,用于根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。
可选的,所述位姿池构建模块,用于从所有匹配对中随机选取四个匹配对,根据PNP算法和选取出的四个匹配对,计算得到一个假设位姿,由所有匹配对的随机组合所计算得到的所有假设位姿,构成所述假设位姿池。
可选的,所述假设位姿的计算方法为:
Figure 62157DEST_PATH_IMAGE022
(5)
其中,R为旋转矩阵,t为平移矩阵。
可选的,所述位姿估计模块,用于根据每个假设位姿对应的重投影误差图像,统计正确位置总数;根据每个假设位姿对应的语义误差图像,统计正确语义总数;选取出正确位置总数最大且正确语义总数最大的假设位姿作为最佳的位姿估计。
从上面所述可以看出,本说明书一个或多个实施例提供的基于语义误差图像的视觉定位方法及装置,通过对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对;对目标图像进行语义分割处理,得到目标图像的二维语义图像,根据二维语义图像的各像素的语义信息,确定各匹配对的语义信息;根据各匹配对,构建包括至少一个假设位姿的假设位姿池;对于每个假设位姿,构建重投影误差图像和语义误差图像;根据每个重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。通过利用语义误差构成的语义误差图像进行最佳位姿的筛选,即使场景发生较大的变化,也能够达到良好的定位效果。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的方法流程示意图;
图2为本说明书一个或多个实施例的语义误差图像示意图;
图3为本说明书一个或多个实施例的匹配对示意图;
图4为本说明书一个或多个实施例的理论像素点与三维点的语义信息示意图;
图5为本说明书一个或多个实施例的装置结构示意图;
图6为本说明书一个或多个实施例的电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如图1所示,本说明书一个或多个实施例提供一种基于语义误差图像的视觉定位方法,包括:
S101:对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的目标图像的像素点与三维场景模型的三维点;
本实施例中,利用数据集中的若干图像,采用增量SFM算法(如COLMAP方法)构建三维场景模型,使用无序的图像作为输入,在特征提取时,采用siftGPU作为局部特征,在构建出三维场景模型之后,还可以将每一张图像的局部特征和三维场景模型中的三维点的所有信息单独存储起来,方便后续的管理与使用。
对目标图像进行特征提取,得到多个特征点,将各特征点与三维场景模型的各三维点进行特征匹配,得到特征匹配的至少一个匹配对。
一些方式中,可利用近似最近邻检索算法进行二维的特征点与三维的三维点之间的特征匹配,查找确定出特征匹配的特征点与三维点;查找过程中,为提高匹配成功率,可设定较为宽松的误差阈值,例如,误差阈值设为0.9。
S102:对目标图像进行语义分割处理,得到目标图像的二维语义图像,二维语义图像的每个像素点具有对应的语义信息,根据二维语义图像的各像素的语义信息,确定各匹配对的语义信息;
本实施例中,对目标图像进行语义分割处理,得到语义分割后的二维语义图像,以及二维语义图像的各像素点的语义信息。在确定各像素点的语义信息之后,将每个匹配对中像素点的语义信息作为该匹配对的语义信息,作为该匹配对中的三维点的语义信息。
S103:根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;
本实施例中,根据各匹配对,利用PNP(pespective-n-point)算法构建假设位姿池,假设位姿池中包括至少一个假设位姿,每个假设位姿由随机选取的四个匹配对所确定。
S104:对于假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;其中,语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将三维语义图像按照当前假设位姿重投影得到二维图像,将二维图像的每个理论像素点的语义信息赋予二维语义图像的对应像素点的语义信息后,由二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;
本实施例中,基于构建出的假设位姿池,对于每个假设位姿,构建对应的重投影误差图像和语义误差图像。其中,由所有匹配对中的三维点构成三维语义图像,重投影误差图像为:将三维语义图像按照当前假设位姿重投影得到二维图像,由二维图像的各理论像素点的理论位置与二维语义图像的对应像素点的实际位置之间的位置误差构成的图像。语义误差图像为:将二维图像的各理论像素点的语义信息赋予二维语义图像的对应像素点的语义信息后,二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像。
S105:根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿为位姿估计。
本实施例中,确定了每个假设位姿对应的重投影误差图像和语义误差图像之后,根据每个假设位姿对应的重投影误差图像,统计正确位置总数,正确位置总数越大,重投影误差越小;根据每个假设位姿对应的语义误差图像,统计正确语义总数,正确语义总数越大,语义误差越小;之后,选取出正确位置总数最大且正确语义总数最大的假设位姿作为最佳的位姿估计。
本实施例提供的基于语义误差图像的视觉定位方法,通过对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,对目标图像进行语义分割处理,得到目标图像的二维语义图像,二维语义图像的每个像素点具有对应的语义信息,根据二维语义图像的各像素的语义信息,确定各匹配对的语义信息,根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池,对于假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像,根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿为位姿估计。本实施例的视觉定位方法,引入了场景的语义信息,利用语义误差构成的语义误差图像进行最佳位姿的筛选,即使场景发生较大的变化,也能够达到良好的定位效果。
以下结合附图和实施例对本实施例的视觉定位方法进行详细说明。
一些实施方式中,在步骤S102中,目标图像为RGB图像,可利用segnet图像分割网络对目标图像进行分割处理,以得到二维语义图像。segnet图像分割网络包括编码器和解码器。编码器交替采用卷积层和池化层,解码器交替采用卷积层和上采样层,像素分类采用Softmax分类器。在编解码过程中,采用池化索引(池化过程中的放置信息)传输解码器,提高图像分割率。Segnet图像分割网络的关键在于底部抽样和顶部抽样,在上采样过程中,使用下采样过程中记录的最大像素位置指数,在每个卷积层之后添加一个批处理标准化层(normlization层),在批处理标准化层之后添加ReLu(Rectified Linear Units)激活层,以提高图像分割效果。
最大池化可以实现在输入的目标图像上进行小的空间位移时保持平移不变性。连续的下采样导致了在输出的特征图上,每个像素都重叠着大量的目标图像中的空间信息。对于图像分类任务,多层最大池化和下采样由于平移不变性可以获得较好的鲁棒性,但导致了特征图大小和空间信息的损失。在下采样后,所有编码器特征映射中只存储最大池化索引,即存储每个池化窗口中最大特征值的位置,用于每个编码器特征映射。
所述步骤S103中,根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池的方法是:
在像素点与三维点的匹配过程中有四大坐标系:世界坐标系O-XYZ、相机坐标系
Figure 996615DEST_PATH_IMAGE023
、平面坐标系O-xy、像素坐标系uv,像素坐标(u,v)与平面坐标(x,y,z)的坐标转换为:
Figure 458820DEST_PATH_IMAGE024
(1)
其中,每个像素在x轴和y轴方向上的长度为dx、dy,像素在平面坐标系下的坐标为(u0,v0)。
以此类推,最终得到像素坐标(u,v)与世界坐标(X,Y,Z)之间的转换关系:
Figure 416412DEST_PATH_IMAGE025
(2)
Figure 887845DEST_PATH_IMAGE026
(3)
Figure 676809DEST_PATH_IMAGE027
(4)
其中,Cx、Cy为中心点在像素坐标系中的位置,fx、fy为焦距,S为坐标轴倾斜参数,R为旋转矩阵,t为平移矩阵,R和t为相机的外参矩阵。
根据PNP算法和上述坐标转换关系,随机选取四个匹配对能够计算出一组假设位姿,根据四个匹配对的像素坐标(u,v)和世界坐标(X,Y,Z),可计算得到假设位姿
Figure 309916DEST_PATH_IMAGE028
,计算公式为:
Figure 17453DEST_PATH_IMAGE029
(5)
基于上述原理,从所有匹配对中随机选取四个匹配对,分别计算对应的假设位姿,所有匹配对的随机组合计算之后,得到多个假设位姿,由所有假设位姿构建得到假设位姿池。
一些实施例中,步骤S104中,构建重投影误差图像的方法是:
对于匹配对(
Figure 761418DEST_PATH_IMAGE030
)的位置坐标,二维语义图像的像素点
Figure 608152DEST_PATH_IMAGE031
的实际位置坐标为
Figure 474476DEST_PATH_IMAGE032
,三维语义图像的三维点
Figure 406660DEST_PATH_IMAGE033
的位置坐标为
Figure 954316DEST_PATH_IMAGE034
,利用PNP算法,每次随机取四个匹配对可计算得到一个假设位姿
Figure 655556DEST_PATH_IMAGE035
,所有匹配对的随机组合计算得到多个假设位姿,由所有假设位姿构建得到假设位姿池
Figure 896045DEST_PATH_IMAGE036
,其中,n为假设位姿池中假设位姿的数量。
对于每个假设位姿
Figure 112262DEST_PATH_IMAGE035
,j=1,2…n,当假设位姿
Figure 463609DEST_PATH_IMAGE035
为正确位姿时,将三维语义图像按照假设位姿
Figure 19355DEST_PATH_IMAGE035
重投影为二维图像,在假设位姿
Figure 430745DEST_PATH_IMAGE035
下,任意一个三维点
Figure 134259DEST_PATH_IMAGE033
的位置坐标
Figure 289297DEST_PATH_IMAGE034
,投影得到的二维图像的理论像素点
Figure 965129DEST_PATH_IMAGE037
的理论位置坐标
Figure 281841DEST_PATH_IMAGE038
表示为:
Figure 675913DEST_PATH_IMAGE039
(6)
其中,
Figure 165800DEST_PATH_IMAGE040
Figure 961718DEST_PATH_IMAGE041
Figure 183752DEST_PATH_IMAGE042
为三维点
Figure 79768DEST_PATH_IMAGE033
在x、y、z方向上的位置坐标,C为相机投影矩阵。
由于假设位姿不一定是正确位姿,投影得到的二维图像的理论像素点
Figure 576609DEST_PATH_IMAGE037
的理论位置坐标
Figure 23771DEST_PATH_IMAGE038
,与二维语义图像的像素点
Figure 947864DEST_PATH_IMAGE033
的实际位置坐标
Figure 785370DEST_PATH_IMAGE043
存在重投影误差
Figure 820323DEST_PATH_IMAGE044
,表示为:
Figure 387570DEST_PATH_IMAGE045
(7)
根据理论位置坐标
Figure 482565DEST_PATH_IMAGE038
与实际位置坐标
Figure 72946DEST_PATH_IMAGE043
存在的重投影误差
Figure 911589DEST_PATH_IMAGE044
构建得到重投影误差图像。对于重投影误差图像,设置匹配对内层阈值
Figure 271027DEST_PATH_IMAGE046
,则有:
Figure 536923DEST_PATH_IMAGE047
(8)
根据公式(7),若重投影误差
Figure 411338DEST_PATH_IMAGE044
小于内层阈值
Figure 788093DEST_PATH_IMAGE046
,内点值
Figure 267615DEST_PATH_IMAGE048
为1,匹配对(
Figure 438834DEST_PATH_IMAGE049
)为内点,表示按照该假设位姿投影得到的二维图像的理论像素点与二维语义图像的对应像素点位置一致,为正确位置;若重投影误差
Figure 3807DEST_PATH_IMAGE044
大于等于内层阈值
Figure 980991DEST_PATH_IMAGE046
,内点值
Figure 315020DEST_PATH_IMAGE048
为0。
对于每个假设位姿对应的重投影误差图像,均计算内点总数
Figure 657140DEST_PATH_IMAGE050
,即统计正确位置总数:
Figure 706480DEST_PATH_IMAGE051
(9)
进一步构建语义误差图像,方法是:根据二维图像的理论像素点的理论位置坐标
Figure 487354DEST_PATH_IMAGE052
,确定与二维语义图像的相应位置的像素点的语义信息,将确定出的语义信息作为二维图像的该理论像素点的语义信息;根据二维图像的各理论像素点的语义信息,确定二维图像的各理论像素点的语义信息与匹配的各三维点的语义信息之间的语义误差,根据各理论像素点的语义信息与匹配的三维点的语义信息之间的语义误差构建语义误差图像。
结合图2-4所示,匹配对的像素点(2D)与三维点(3D)的语义信息为S(例如,S为天空),三维语义图像按照假设位姿重投影得到二维图像后,得到理论匹配对的理论像素点(2D`)与三维点,根据理论像素点的理论位置坐标,确定与二维语义图像的相应位置的像素点的语义信息(例如,B为建筑物),将确定出的语义信息作为理论像素点的语义信息,之后,判断理论像素点的语义信息B与三维点的语义信息S并不相同,二者存在语义误差
Figure 675890DEST_PATH_IMAGE053
,表示为:
Figure 188911DEST_PATH_IMAGE054
(10)
根据式(10)对于每个语义误差图像,实际位置坐标
Figure 728476DEST_PATH_IMAGE055
的像素点的语义信息为
Figure 47462DEST_PATH_IMAGE056
,理论位置坐标
Figure 356084DEST_PATH_IMAGE057
理论像素点的语义信息为
Figure 40006DEST_PATH_IMAGE058
,若像素点与理论像素点的语义信息相同,则语义误差为1,否则语义误差为0。
对于每个假设位姿对应的每个语义误差图像,统计正确语义总数
Figure 66868DEST_PATH_IMAGE059
Figure 127228DEST_PATH_IMAGE060
(11)
为确定最佳的位姿估计,遍历每个假设位姿,按照公式(9)、(11),确定出每个假设位姿对应的正确位置总数
Figure 87094DEST_PATH_IMAGE061
和正确语义总数
Figure 473076DEST_PATH_IMAGE062
,从中选取出正确位置总数最大且正确语义总数最大的假设位姿,作为最佳的位姿估计。
以下结合实验数据说明依照本实施例的方法可达到的定位效果。
使用两个评价指标进行评价:一个是摄像机位置,另一个是摄像机的方向。评价结果采取目标图像的位置和方向达到某阈值的百分比形式,阈值包括位置阈值和方向阈值,位置阈值的形式为Xm(X米),方向阈值的形式为Y(Y度)。使用三种不同的阈值组合:(0.25米,2°)、(0.5米,5°)和(5米,10°),比如,阈值组合(0.25米,2°)表示测试所有图像后,最终位姿估计与真实位姿之间位置相差在0.25米以内、方向相差在2°以内的图像数量占图像总数量的百分比。
表1 CMU数据集的测试结果
Figure 456075DEST_PATH_IMAGE063
表1是CMU数据集中的城市数据集下的测试结果,根据测试结果,本实施例的方法在此数据集下的所有测试图像的位姿估计结果与图像的真实位姿的位置误差在0.25米以内、方向误差在2°以内的图像数量占图像总数量的63.1%,与真实位姿的位置误差在0.5米以内、方向误差在5°以内的图像数量占图像总数量的69.0%,与真实位姿的位置误差在5米以内、方向误差在10°以内的图像数量占图像总数量的73.7%。
根据上述测试结果,可以得到,在具有挑战性的场景下,本实施例的方法是明显优于其他方法,从表1可以看到,在CMU数据集上,本实施例的方法是全面优于AS、CSL、DenseVLAD、NetVLAD方法的,在CMU数据集中,由于季节,光照等影响,使得场景更具有挑战性,对于这类场景传统的方法如AS、CSL方法由于光照、视点、重复结构等原因,定位效果大幅降低,而本实施例的方法由于引入了语义信息,构建语义误差图像,在一定程度上对具有挑战性的场景更具有鲁棒性。
表2 RobotCar Seasons数据集的测试结果
Figure 320126DEST_PATH_IMAGE064
根据表2所示测试结果可以得到,在具有挑战性的场景下,本实施例的方法是优于传统的主动搜索方法和CSL方法以及基于图像检索的DenseVLAD和NetVLAD方法,从夜晚数据集的结果可以看出,RobotCarSeasons数据集的日间和夜间姿态精度下降得很厉害,由于白天、夜晚的变化很大,使得所有方法的定位效果都大幅降低,在这种情况下,主动搜索和CSL等基于三维结构的方法定位精度下降的最厉害,甚至可能失败,而在这种场景发生很大的变化时,本实施例的方法具有更好的鲁棒性,对这种场景大变化有一定的适应性。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
如图5所示,本说明书实施例还提供一种基于语义误差图像的视觉定位装置,包括:
语义信息确定模块,用于确定目标图像的二维语义图像及三维语义图像,二维语义图像的每个像素点具有对应的二维语义信息,三维语义图像的每个三维点具有对应的三维语义信息;
匹配模块,用于根据二维语义图像与三维语义图像,确定由语义信息匹配的像素点与三维点构成的至少一个匹配对;
位姿构建模块,用于根据至少一个匹配对,构建一组假设位姿;
误差图像构建模块,用于对于每个假设位姿,构建重投影误差图像和语义误差图像;其中,语义误差图像为:将所述三维语义图像重投影得到二维图像,将二维图像的每个理论像素点的语义信息赋予二维语义图像的对应像素点的语义信息后,由二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;
位姿估计模块,用于根据每个假设位姿的重投影误差图像和语义误差图像,选取出重投影误差最小且语义误差最小的假设位姿作为位姿估计。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于语义误差图像的视觉定位方法,其特征在于,包括:
对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的所述目标图像的像素点与所述三维场景模型的三维点;
对所述目标图像进行语义分割处理,得到所述目标图像的二维语义图像,所述二维语义图像的每个像素点具有对应的语义信息,根据所述二维语义图像的各像素的语义信息,确定各匹配对的语义信息;
根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;
对于所述假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;所述语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将所述三维语义图像按照当前假设位姿重投影得到二维图像,将所述二维图像的每个理论像素点的语义信息赋予所述二维语义图像的对应像素点的语义信息后,由所述二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;
根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。
2.根据权利要求1所述的方法,其特征在于,构建所述假设位姿池的方法是:
从所有匹配对中随机选取四个匹配对,根据PNP算法和选取出的四个匹配对,计算得到一个假设位姿,由所有匹配对的随机组合所计算得到的所有假设位姿,构成所述假设位姿池。
3.根据权利要求2所述的方法,其特征在于,所述假设位姿的计算方法为:
Figure 887763DEST_PATH_IMAGE001
(5)
其中,R为旋转矩阵,t为平移矩阵。
4.根据权利要求1所述的方法,其特征在于,所述根据每个假设位姿的重投影误差图像和语义误差图像,选取出重投影误差最小且语义误差最小的假设位姿作为位姿估计包括:
根据每个假设位姿对应的重投影误差图像,统计正确位置总数;
根据每个假设位姿对应的语义误差图像,统计正确语义总数;
选取出正确位置总数最大且正确语义总数最大的假设位姿作为最佳的位姿估计。
5.根据权利要求4所述的方法,其特征在于,根据每个假设位姿对应的重投影误差图像,统计正确位置总数,包括:
对于每个假设位姿
Figure 146706DEST_PATH_IMAGE002
,j=1,2…n,将三维语义图像按照假设位姿
Figure 432194DEST_PATH_IMAGE002
重投影为二维图像,任意一个三维点
Figure 434785DEST_PATH_IMAGE003
的位置坐标
Figure 223749DEST_PATH_IMAGE004
,投影得到的二维图像的理论像素点
Figure 919173DEST_PATH_IMAGE005
的理论位置坐标
Figure 442689DEST_PATH_IMAGE006
表示为:
Figure 983392DEST_PATH_IMAGE007
(6)
其中,
Figure 892442DEST_PATH_IMAGE008
Figure 493188DEST_PATH_IMAGE009
Figure 753268DEST_PATH_IMAGE010
为三维点
Figure 97661DEST_PATH_IMAGE003
在x、y、z方向上的位置坐标,C为相机投影矩阵;
二维图像的理论像素点
Figure 861218DEST_PATH_IMAGE005
的理论位置坐标
Figure 147712DEST_PATH_IMAGE006
,与所述二维语义图像的像素点
Figure 363929DEST_PATH_IMAGE011
的实际位置坐标
Figure 777593DEST_PATH_IMAGE012
存在重投影误差
Figure 395656DEST_PATH_IMAGE013
为:
Figure 603784DEST_PATH_IMAGE014
(7)
根据重投影误差
Figure 307298DEST_PATH_IMAGE013
构建得到重投影误差图像,设置匹配对内层阈值
Figure 993494DEST_PATH_IMAGE015
,有:
Figure 747954DEST_PATH_IMAGE016
(8)
若重投影误差
Figure 126983DEST_PATH_IMAGE017
小于内层阈值
Figure 317793DEST_PATH_IMAGE015
,该假设位姿投影得到的二维图像的理论像素点与所述二维语义图像的对应像素点位置一致,为正确位置;
对于每个假设位姿对应的重投影误差图像,计算内点总数
Figure 807680DEST_PATH_IMAGE018
,统计正确位置总数为:
Figure 134756DEST_PATH_IMAGE019
(9)。
6.根据权利要求5所述的方法,其特征在于,根据根据每个假设位姿对应的语义误差图像,统计正确语义总数的方法是:
判断所述二维图像的理论像素点的语义信息与三维点的语义信息之间存在语义误差
Figure 684686DEST_PATH_IMAGE020
Figure 362792DEST_PATH_IMAGE021
(10)
对于每个假设位姿对应的语义误差图像,统计正确语义总数
Figure 171217DEST_PATH_IMAGE022
Figure 618379DEST_PATH_IMAGE023
(11)。
7.一种基于语义误差图像的视觉定位装置,其特征在于,包括:
匹配模块,用于对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的所述目标图像的像素点与所述三维场景模型的三维点;
语义分割模块,用于对所述目标图像进行语义分割处理,得到所述目标图像的二维语义图像,所述二维语义图像的每个像素点具有对应的语义信息,根据所述二维语义图像的各像素的语义信息,确定各匹配对的语义信息;
位姿池构建模块,用于根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;
图像构建模块,用于对于所述假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;所述语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将所述三维语义图像按照当前假设位姿重投影得到二维图像,将所述二维图像的每个理论像素点的语义信息赋予所述二维语义图像的对应像素点的语义信息后,由所述二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;
位姿估计模块,用于根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。
8.根据权利要求7所述的装置,其特征在于,
所述位姿池构建模块,用于从所有匹配对中随机选取四个匹配对,根据PNP算法和选取出的四个匹配对,计算得到一个假设位姿,由所有匹配对的随机组合所计算得到的所有假设位姿,构成所述假设位姿池。
9.根据权利要求8所述的装置,其特征在于,所述假设位姿的计算方法为:
Figure 73631DEST_PATH_IMAGE024
(5)
其中,R为旋转矩阵,t为平移矩阵。
10.根据权利要求7所述的装置,其特征在于,
所述位姿估计模块,用于根据每个假设位姿对应的重投影误差图像,统计正确位置总数;根据每个假设位姿对应的语义误差图像,统计正确语义总数;选取出正确位置总数最大且正确语义总数最大的假设位姿作为最佳的位姿估计。
CN202011199775.8A 2020-11-02 2020-11-02 一种基于语义误差图像的视觉定位方法及装置 Active CN112102411B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011199775.8A CN112102411B (zh) 2020-11-02 2020-11-02 一种基于语义误差图像的视觉定位方法及装置
US17/473,190 US11321937B1 (en) 2020-11-02 2021-09-13 Visual localization method and apparatus based on semantic error image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011199775.8A CN112102411B (zh) 2020-11-02 2020-11-02 一种基于语义误差图像的视觉定位方法及装置

Publications (2)

Publication Number Publication Date
CN112102411A true CN112102411A (zh) 2020-12-18
CN112102411B CN112102411B (zh) 2021-02-12

Family

ID=73784300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011199775.8A Active CN112102411B (zh) 2020-11-02 2020-11-02 一种基于语义误差图像的视觉定位方法及装置

Country Status (2)

Country Link
US (1) US11321937B1 (zh)
CN (1) CN112102411B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837367A (zh) * 2021-01-27 2021-05-25 清华大学 语义分解式物体位姿估计方法及系统
CN112907657A (zh) * 2021-03-05 2021-06-04 科益展智能装备有限公司 一种机器人重定位方法、装置、设备及存储介质
CN113129419A (zh) * 2021-04-27 2021-07-16 南昌虚拟现实研究院股份有限公司 基于语义的智能视觉交互方法及系统
CN113362461A (zh) * 2021-06-18 2021-09-07 盎锐(上海)信息科技有限公司 基于语义分割的点云匹配方法、系统及扫描终端
CN114170366A (zh) * 2022-02-08 2022-03-11 荣耀终端有限公司 基于点线特征融合的三维重建方法及电子设备
CN117115238A (zh) * 2023-04-12 2023-11-24 荣耀终端有限公司 一种确定位姿的方法、电子设备及存储介质

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866526B (zh) * 2018-08-28 2024-10-01 北京三星通信技术研究有限公司 图像分割方法、电子设备及计算机可读存储介质
JP7140209B2 (ja) * 2018-12-21 2022-09-21 株式会社ニコン 検出装置、情報処理装置、検出方法、及び情報処理プログラム
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
US11615544B2 (en) * 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models
CN113780461B (zh) * 2021-09-23 2022-08-05 中国人民解放军国防科技大学 基于特征匹配的鲁棒神经网络训练方法
CN114677567B (zh) * 2022-05-27 2022-10-14 成都数联云算科技有限公司 模型训练方法、装置、存储介质及电子设备
CN115063485B (zh) * 2022-08-19 2022-11-29 深圳市其域创新科技有限公司 三维重建方法、装置及计算机可读存储介质
KR102823611B1 (ko) * 2022-11-10 2025-06-23 한국전자통신연구원 메타버스 가상공연 환경 생성 방법 및 장치
CN116164746A (zh) * 2022-12-12 2023-05-26 阿里巴巴(中国)有限公司 基于vo的位姿解算方法、装置、设备及产品
CN116105603B (zh) * 2023-04-13 2023-09-19 安徽蔚来智驾科技有限公司 用于确定移动物体在场所中的位置的方法及系统
CN116630422B (zh) * 2023-05-25 2025-11-21 上海交通大学 基于文字标识的语义视觉定位方法
CN116363218B (zh) * 2023-06-02 2023-09-01 浙江工业大学 一种适用于动态环境的轻量化视觉slam方法
CN117078753B (zh) * 2023-08-09 2025-11-04 常州大学 基于相机的渐进式特征分布采样6d位姿估计方法及系统
CN118089753B (zh) * 2024-04-26 2024-08-02 江苏集萃清联智控科技有限公司 基于三维目标的单目语义slam定位方法及系统
CN118608574B (zh) * 2024-06-05 2025-03-21 安徽工程大学 一种基于光照抑制的视觉里程计方法、存储介质及设备
CN119295535B (zh) * 2024-09-13 2025-09-16 中国电子科技集团公司第五十四研究所 一种基于三角形构建伴随图的语义点集匹配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3114833A1 (en) * 2014-03-06 2017-01-11 NEC Laboratories America, Inc. High accuracy monocular moving object localization
CN106803275A (zh) * 2017-02-20 2017-06-06 苏州中科广视文化科技有限公司 基于相机位姿估计和空间采样的2d全景视频生成
CN107063258A (zh) * 2017-03-07 2017-08-18 重庆邮电大学 一种基于语义信息的移动机器人室内导航方法
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法
US10366508B1 (en) * 2016-08-29 2019-07-30 Perceptin Shenzhen Limited Visual-inertial positional awareness for autonomous and non-autonomous device
CN110503688A (zh) * 2019-08-20 2019-11-26 上海工程技术大学 一种用于深度相机的位姿估计方法
US10600210B1 (en) * 2019-07-25 2020-03-24 Second Spectrum, Inc. Data processing systems for real-time camera parameter estimation

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2327061A4 (en) * 2008-08-15 2016-11-16 Univ Brown METHOD AND DEVICE FOR ESTIMATING BODY SHAPES
US20120082371A1 (en) * 2010-10-01 2012-04-05 Google Inc. Label embedding trees for multi-class tasks
US9116924B2 (en) * 2013-01-14 2015-08-25 Xerox Corporation System and method for image selection using multivariate time series analysis
AU2014295972B2 (en) * 2013-08-02 2018-10-11 Xactware Solutions, Inc. System and method for detecting features in aerial images using disparity mapping and segmentation techniques
US9552070B2 (en) * 2014-09-23 2017-01-24 Microsoft Technology Licensing, Llc Tracking hand/body pose
US10551913B2 (en) * 2015-03-21 2020-02-04 Mine One Gmbh Virtual 3D methods, systems and software
GB2541884A (en) * 2015-08-28 2017-03-08 Imp College Of Science Tech And Medicine Mapping a space using a multi-directional camera
US9652896B1 (en) * 2015-10-30 2017-05-16 Snap Inc. Image based tracking in augmented reality systems
KR20190028422A (ko) * 2016-07-08 2019-03-18 아벤트, 인크. 해부학적 대상들의 자동 검출, 국부화, 및 의미론적 세그먼트화를 위한 시스템 및 방법
US10482618B2 (en) * 2017-08-21 2019-11-19 Fotonation Limited Systems and methods for hybrid depth regularization
US10467501B2 (en) * 2017-10-30 2019-11-05 Sap Se Computer vision architecture with machine learned image recognition models
US10769411B2 (en) * 2017-11-15 2020-09-08 Qualcomm Technologies, Inc. Pose estimation and model retrieval for objects in images
US10560689B2 (en) * 2017-11-28 2020-02-11 Paul Lapstun Viewpoint-optimized light field display
US10586350B2 (en) * 2017-12-03 2020-03-10 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN109949255B (zh) * 2017-12-20 2023-07-28 华为技术有限公司 图像重建方法及设备
US10657391B2 (en) * 2018-01-05 2020-05-19 Uatc, Llc Systems and methods for image-based free space detection
US10685446B2 (en) * 2018-01-12 2020-06-16 Intel Corporation Method and system of recurrent semantic segmentation for image processing
KR102565278B1 (ko) * 2018-03-26 2023-08-09 삼성전자주식회사 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법
US10977827B2 (en) * 2018-03-27 2021-04-13 J. William Mauchly Multiview estimation of 6D pose
US10984583B2 (en) * 2018-03-28 2021-04-20 Apple Inc. Reconstructing views of real world 3D scenes
US10684910B2 (en) * 2018-04-17 2020-06-16 International Business Machines Corporation Intelligent responding to error screen associated errors
GB201809345D0 (en) * 2018-06-07 2018-07-25 Five Ai Ltd Image segmentation
US10650573B2 (en) * 2018-06-29 2020-05-12 Proprio, Inc. Synthesizing an image from a virtual perspective using pixels from a physical imager array weighted based on depth error sensitivity
US10922832B2 (en) * 2018-07-31 2021-02-16 Intel Corporation Removal of projection noise and point-based rendering
JP7134016B2 (ja) * 2018-08-10 2022-09-09 キヤノン株式会社 情報処理装置、情報処理方法
EP3844477A4 (en) * 2018-08-28 2023-01-04 Essenlix Corporation IMPROVING THE ACCURACY OF A DOSAGE
JP7406875B2 (ja) * 2018-09-28 2023-12-28 キヤノン株式会社 情報処理装置およびプログラム
US10839508B2 (en) * 2019-03-21 2020-11-17 Sri International Integrated circuit image alignment and stitching
CN110303000A (zh) 2019-07-16 2019-10-08 江苏维乐益生食品科技有限公司 一种食品加工原料清洗装置
CN110533006B (zh) * 2019-09-11 2022-03-25 北京小米智能科技有限公司 一种目标跟踪方法、装置及介质
US11250051B2 (en) * 2019-09-19 2022-02-15 Here Global B.V. Method, apparatus, and system for predicting a pose error for a sensor system
US20210166477A1 (en) * 2019-12-03 2021-06-03 Augustus Intelligence Inc. Synthesizing images from 3d models
US11158087B2 (en) * 2019-12-06 2021-10-26 Intel Corporation Adaptive virtual camera for indirect-sparse simultaneous localization and mapping systems
US11295473B2 (en) * 2019-12-18 2022-04-05 Intel Corporation Continuous local 3D reconstruction refinement in video
US11107244B1 (en) * 2020-04-17 2021-08-31 Applied Research Associates, Inc. Location determination in a GPS-denied environment with user annotation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3114833A1 (en) * 2014-03-06 2017-01-11 NEC Laboratories America, Inc. High accuracy monocular moving object localization
US10366508B1 (en) * 2016-08-29 2019-07-30 Perceptin Shenzhen Limited Visual-inertial positional awareness for autonomous and non-autonomous device
CN106803275A (zh) * 2017-02-20 2017-06-06 苏州中科广视文化科技有限公司 基于相机位姿估计和空间采样的2d全景视频生成
CN107063258A (zh) * 2017-03-07 2017-08-18 重庆邮电大学 一种基于语义信息的移动机器人室内导航方法
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法
US10600210B1 (en) * 2019-07-25 2020-03-24 Second Spectrum, Inc. Data processing systems for real-time camera parameter estimation
CN110503688A (zh) * 2019-08-20 2019-11-26 上海工程技术大学 一种用于深度相机的位姿估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENG TANG 等: "JOINT MULTI-VIEW PEOPLE TRACKING AND POSE ESTIMATION FOR 3D SCENE RECONSTRUCTION", 《2018 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
王召东: "应用语义分割优化的移动机器人同时定位与地图构建", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837367A (zh) * 2021-01-27 2021-05-25 清华大学 语义分解式物体位姿估计方法及系统
CN112837367B (zh) * 2021-01-27 2022-11-25 清华大学 语义分解式物体位姿估计方法及系统
CN112907657A (zh) * 2021-03-05 2021-06-04 科益展智能装备有限公司 一种机器人重定位方法、装置、设备及存储介质
CN113129419A (zh) * 2021-04-27 2021-07-16 南昌虚拟现实研究院股份有限公司 基于语义的智能视觉交互方法及系统
CN113129419B (zh) * 2021-04-27 2023-06-20 南昌虚拟现实研究院股份有限公司 基于语义的智能视觉交互方法及系统
CN113362461A (zh) * 2021-06-18 2021-09-07 盎锐(上海)信息科技有限公司 基于语义分割的点云匹配方法、系统及扫描终端
CN113362461B (zh) * 2021-06-18 2024-04-02 盎锐(杭州)信息科技有限公司 基于语义分割的点云匹配方法、系统及扫描终端
CN114170366A (zh) * 2022-02-08 2022-03-11 荣耀终端有限公司 基于点线特征融合的三维重建方法及电子设备
CN117115238A (zh) * 2023-04-12 2023-11-24 荣耀终端有限公司 一种确定位姿的方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN112102411B (zh) 2021-02-12
US20220138484A1 (en) 2022-05-05
US11321937B1 (en) 2022-05-03

Similar Documents

Publication Publication Date Title
CN112102411B (zh) 一种基于语义误差图像的视觉定位方法及装置
JP7560021B2 (ja) 深層学習システム
Noh et al. Hvpr: Hybrid voxel-point representation for single-stage 3d object detection
CN111627065B (zh) 一种视觉定位方法及装置、存储介质
CN114463736B (zh) 一种基于多模态信息融合的多目标检测方法及装置
Da Silveira et al. 3d scene geometry estimation from 360 imagery: A survey
CN108537876B (zh) 三维重建方法、装置、设备及存储介质
CN107329962B (zh) 图像检索数据库生成方法、增强现实的方法及装置
KR20210013150A (ko) 조명 추정
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
CN116597096B (zh) 场景重建方法、装置、存储介质及电子设备
Niu et al. Overview of image-based 3D reconstruction technology
CN114972492B (zh) 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质
CN117541816B (zh) 目标检测方法、装置和电子设备
CN114743139A (zh) 视频场景检索方法、装置、电子设备及可读存储介质
CN114612572B (zh) 一种基于深度学习的激光雷达与相机外参标定方法及装置
CN116895014A (zh) 语义地图构建方法及装置、电子设备、存储介质
CN110163095A (zh) 回环检测方法、回环检测装置及终端设备
Su et al. Omnidirectional depth estimation with hierarchical deep network for multi-fisheye navigation systems
CN114820755B (zh) 一种深度图估计方法及系统
CN117115238B (zh) 一种确定位姿的方法、电子设备及存储介质
CN116412809A (zh) 动态环境下的即时定位与建图方法、装置及电子设备
Chen et al. Robust Hierarchical Point Matching Between Aerial and Ground Imagery Through Depth Map‐Based Partitioned Attention Aggregation
CN114078256A (zh) 人体检测角度编码/图片训练方法、系统、终端及介质
CN115588085A (zh) 轴线重建方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant