CN116237937B

CN116237937B - 视觉定位方法、机器人的控制方法、相关设备及介质

Info

Publication number: CN116237937B
Application number: CN202310130923.8A
Authority: CN
Inventors: 王琳; 李若男
Original assignee: Wanxun Technology Shenzhen Co ltd
Current assignee: Wanxun Technology Shenzhen Co ltd
Priority date: 2023-02-02
Filing date: 2023-02-02
Publication date: 2025-09-05
Anticipated expiration: 2043-02-02
Also published as: CN116237937A

Abstract

本申请实施例适用于机器视觉领域，提供了一种视觉定位方法、机器人的控制方法、相关设备及介质，该视觉定位方法包括：通过视觉传感器采集数据流，所述数据流包括RGB图像、深度图像和点云，所述数据流中包括待定位的目标物体的数据；根据所述RGB图像和所述深度图像，从所述点云中确定所述目标物体对应的目标点云；根据所述目标点云，确定所述目标物体的质心和主方向；根据所述质心和所述主方向，对所述目标物体进行定位。通过上述方法，能够降低视觉定位的难度，提高视觉定位的准确度。

Description

视觉定位方法、机器人的控制方法、相关设备及介质

技术领域

本申请属于机器视觉技术领域，特别是涉及一种视觉定位方法、机器人的控制方法、相关设备及介质。

背景技术

随着计算机和机器人技术的发展，现代移动机器人在工业制造，军事，民用，科学研究等方面得到了越来越广泛的应用。它们可以代替人类执行很多繁重或恶劣条件下人类无法胜任的工作。移动机器人的研究处在的多学科交叉领域，给新理论和方法的产生都提供了广阔的实践舞台。根据移动机器人的工作环境不同，可以简单地把它分为两大类:室外作业机器人和室内作业机器人。

室外作业机器人的视觉定位系统包含摄像机系统和控制系统，其中摄像机系统中包括计算机(具有图像采集卡)、工业相机或者深度相机，主要收集视觉图像或者3D点云，借助机器视觉技术处理对应的图像或者点云实现引导定位和模式识别等操作，快速获取物体的质心和边界，满足机器人系统运行的自定位需求，缩短其期望位置和末端位置间的差距。控制系统包含控制箱和计算机，对计算机末端具体位置完成控制。工作区利用相机进行拍摄，并使用计算机识别图像，得到跟踪特征，完成数据的计算和识别，借助逆运动学方式获取机器人每一位置的误差，再对高精度末端执行模块进行控制，精确地调整机器人的位置和位姿。

当前，室外机器人的视觉系统在设计时，主流的选择方案是通过激光雷达对场景进行扫描，根据扫描得到的场景点云，结合点云的特征提取、模式识别等，对感兴趣物体进行定位。这是因为在室外光线条件下，激光雷达对光照变化不敏感，可以在不同的光照下仍然保持相对一致的深度成像表现。但实际上，激光雷达的测距优势在于远距离测距，当在只有几米范围内的近距离内进行物体识别，激光雷达几乎是无法胜任的，或者说为了近距离识别定位，必须使用高精度测距雷达对小范围内的场景进行扫描重建，从而获取定位信息。然而激光雷达本身的高成本也造成了该种方法在作业式机器人的视觉引导中无法进行广泛推广，除此之外，激光雷达所获取的点云原始数据在算法处理过程中数据量庞杂，处理时间久，对计算机的性能要求更高，更进一步地提高了整体硬件成本。

发明内容

有鉴于此，本申请实施例提供了一种视觉定位方法、机器人的控制方法、相关设备及介质，用以降低视觉定位的难度，提高视觉定位的准确度，从而得到通用的视觉定位方法，且该视觉定位方法对设备的要求不高。

本申请实施例的第一方面提供了一种视觉定位方法，所述方法包括：

通过视觉传感器相机采集数据流，所述数据流包括RGB图像、深度图像和点云，所述数据流中包括待定位的目标物体的数据；

根据所述图像所述RGB图像和所述深度图像，从所述点云中确定所述目标物体对应的目标点云；

根据所述目标点云，确定所述目标物体的质心和主方向；

根据所述质心和所述主方向，对所述目标物体进行定位。

本申请实施例的第二方面提供了一种机器人的控制方法，应用于机器人，所述机器人包括机械平台和机械臂，所述方法包括：

确定第一定位数据，所述目标物体为所述机器人的作业对象，所述第一定位数据用于表征所述机械平台相对于目标物体的位置关系；

控制所述机械平台移动至所述第一定位数据对应的位置；

确定第二定位数据，所述第二定位数据用于表征所述机械平台到达预定位置后，所述机械臂相对于所述目标物体的位置关系；

其中，所述第一定位数据的定位精度低于所述第二定位数据的定位精度，所述机器人通过如上述第一方面所述的方法确定所述第一定位数据和所述第二定位数据。

本申请实施例的第三方面提供了一种视觉定位装置，所述装置包括：

视觉数据采集模块，用于通过视觉传感器相机采集数据流，所述数据流包括RGB图像、深度图像和点云，所述数据流中包括待定位的目标物体的数据；

目标点云确定模块，用于根据所述图像所述RGB图像和所述深度图像，从所述点云中确定所述目标物体对应的目标点云；

质心和方向确定模块，用于根据所述目标点云，确定所述目标物体的质心和主方向；

定位模块，用于根据所述质心和所述主方向，对所述目标物体进行定位。

本申请实施例的第四方面提供了一种机器人的控制装置，应用于机器人，所述机器人包括机械平台和机械臂，所述装置包括：

第一定位模块，用于确定第一定位数据，所述目标物体为所述机器人的作业对象，所述第一定位数据用于表征所述机械平台相对于目标物体的位置关系；

第一控制模块，用于控制所述机械平台移动至所述第一定位数据对应的位置；

第二定位模块，用于确定第二定位数据，所述第二定位数据用于表征所述机械平台到达预定位置后，所述机械臂相对于所述目标物体的位置关系；

第二控制模块，用于控制所述机械臂根据所述第二定位数据对所述目标物体进行作业；

本申请实施例的第五方面提供了一种机器人，所述机器人包括机械平台和机械臂，所述机器人通过上述第一方面所述的方法对目标物体进行定位；所述机器人通过上述第二方面所述的方法进行控制，以实现对所述目标物体的作业。

本申请实施例的第六方面提供了一种机械臂，所述机械臂安装有单目深度相机，所述机械臂通过上述第一方面所述的方法对目标物体进行定位，以实现对所述目标物体的作业。

本申请实施例的第七方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面或第二方面所述的方法。

本申请实施例的第八方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面或第二方面所述的方法。

本申请实施例的第九方面提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述第一方面或第二方面所述的方法。

与现有技术相比，本申请实施例包括以下优点：

本申请实施例，在进行视觉定位时，终端设备可以通过视觉传感器采集数据流，数据流可以包括RGB图像、深度图像和点云，数据流中包括带定位的目标物体的数据；根据RGB图像和深度图像，终端设备可以从点云图像中确定目标物体对应的目标点云，从而能够根据目标点云确定目标物体的质心和主方向，基于目标物体的质心和主方向，实现对目标物体的定位。本申请实施例中，在进行视觉定位时，可以同时使用RGB图像数据、深度图像数据和点云数据确定目标物体，将复杂的点云轮廓提取算法转换成图像检测结合点云基本数据处理，方便移植集成，且参数量较少。因此本申请实施例中的视觉定位方法通用性强，硬件要求低。

本申请实施例基于上述视觉定位方法，还提供了一种机器人的控制方法，机器人可以包括机械平台和机械臂，机器人可以使用上述视觉定位方法对目标物体进行粗定位，得到第一定位数据，然后根据第一定位数据控制机械平台行驶到机械臂的作业半径内；在机械平台行驶到第一定位数据对应的位置后，再使用上述视觉定位方法实现对目标物体的精定位，得到第二定位数据，从而根据第一定位数据控制机械臂对目标物体进行作业。机器人通过粗定位和精定位相结合的方式，基于二次定位对目标物体进行作业，从而可以提高机器人定位的精确度，相应地提高机器人的作业准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。

图1是本申请实施例提供的一种视觉定位方法的步骤流程示意图；

图2是本申请实施例提供的一种机器人的控制方法的步骤流程示意图；

图3是本申请实施例提供的另一种机器人的控制方法的流程示意图；

图4是本申请实施例提供的一种视觉定位装置的示意图；

图5是本申请实施例提供的一种机器人的控制装置的示意图；

图6是本申请实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

下面通过具体实施例来说明本申请的技术方案。

参照图1，示出了本申请实施例提供的一种视觉定位方法的步骤流程示意图，具体可以包括如下步骤：

S101，通过视觉传感器相机采集数据流，所述数据流包括RGB图像、深度图像和点云，所述数据流中包括待定位的目标物体的数据。

本申请实施例的执行主体为终端设备，终端设备可以包括视觉传感器，基于视觉传感器采集的数据，终端设备可以进行视觉定位。示例性地，终端设备可以为机器人，机器人可以包括机械平台和机械臂。机器人的机械平台和机械臂分别可以安装视觉传感器，基于视觉传感器可以分别对机械平台和机械臂进行定位。当机器人与目标物体的距离较远时，机器人可以进行视觉定位，确定机械平台与目标物体之间的位置关系，从而基于定位结果控制机械平台运动到目标物体的附近，然后确定机械臂与目标物体之间的位置关系，从而基于在此定位结果控制机械臂对目标物体进行操作。视觉传感器可以为相机，具体地，可以为主动光双目深度相机、单目深度相机等，本实施例中对视觉传感器的种类不做限制。

视觉传感器可以采集视觉图像数据，例如，视觉传感器可以采集RGB图像数据、深度图像以及点云。RGB图像为视觉传感器采集的二维图像，其中可以包含目标物体图像，当然也可以包含目标物体图像周围的图像。深度图像中包括每个像素点的深度值，该深度值可以表征视觉传感器和目标物体之间的距离信息。点云图像可以为视觉传感器视野内的图像的点，相当于包括了目标物体的表面的多个点的集合，当然点云中也包含了目标物体周围的物体的点云集合。

为了进行视觉定位，需要从RGB图像数据、深度图像以及点云中确定出目标物体。

S102，根据所述图像所述RGB图像和所述深度图像，从所述点云中确定所述目标物体对应的目标点云。

本实施例中，可以将RGB图像、深度图像以及点云对齐，将深度图像和点云全部转换到RGB图像对应的图像坐标系下，从而可以在图像坐标系下进行对应。图像坐标系可以由相机自动进行标定生成，相机坐标系为相机坐标系是以相机的聚焦中心为原点，以光轴为Z轴建立的三维直角坐标系；相机坐标系的原点投射到图像中，可以得到图像坐标系的原点，从而建立图像坐标系。图像坐标系和深度坐标系之间的转换也可以由相机自带的标定系统进行标定。

终端设备可以根据RGB图像对点云进行重排，得到重排点云，使得重排点云的形状与RGB图像的形状一致，从而实现RGB图像与点云的对齐。在对齐之后，相当于RGB图像中地各个像素点与点云中的各个像素点已经对齐，也就是说在RGB图像数据和点云中目标物体的对应位置是相同的。

示例性地，终端设备可以确定在深度坐标系下的深度点云，深度坐标系是基于深度图像建立的坐标系，深度点云中的每个像素点具有深度值，相当于是将点云对齐到深度图像中。然后可以将深度点云转换到图像坐标系中，得到视觉点云，相当于将点云以及深度图像全部与RGB图像对齐。也就是说，视觉点云与RGB图像对齐，同时每个点地深度值也是确定的。在确定视觉点云之后，可以对视觉点云进行预处理，即去除视觉点云中的前景像素点和背景像素点，前景像素点为深度值小于第一预设深度阈值的像素点，也就是前景像素点可以相当于距离视觉传感器比较近的点；背景像素点为深度值大于第二预设深度阈值的像素点，也就是背景像素点相当于距离视觉传感器比较远的点。也就是前景像素点和背景像素点为确定不可能为目标物体的像素点，删除视觉点云中的前景像素点和背景像素点，相当于去除噪音信息，方便后续的目标识别。对视觉点云进行重排，得到与RGB图像对齐的重排点云。

在一种可能的实现方式中，深度坐标系下获取的点云可以对齐到RGB图像坐标系，可以记深度坐标系为T_depth，在深度坐标系下对应的点云可以记为P_depth，RGB图像坐标系为T_color。视觉传感器可以自动进行标定得到深度坐标系到RGB图像坐标系的转换矩阵为对齐后的点云在图像坐标系的表达可以为：

对于对齐后的点云，可以基于设定的深度阈值去除前景和背景。具体地，可以根据深度阈值将对齐后的点云进行深度截断，截断后的点云记为P_c′_olor，其形式可以为：

其中，z为像素点地深度值，为第一深度阈值，为第二深度阈值。在去除背景和前景之后，可以对点云进行重排，使得点云与RGB图像形状大小一致，从而得到与RGB图像相互对应地重排点云。例如，若RGB图像的分辨率为W×H，W表示RGB图像的长度，H表示RGB图像的高度，对点云进行形状重排，重排后的点云形状与RGB图像形状保持一致，即：

P′_color·shape＝Image_color·shape＝(H,W,3)

基于RGB图像和重排点云，可以确定目标物体在重排点云中对应的目标点云。

首先可以对RGB图像进行目标检测，从而从RGB图像中确定至少一个待检测物体框；待检测物体框中包括目标物体的检测框。

示例性地，可以通过深度学习得到预测模型，预测模型用于从图像中检测出对应类别物体的检测框。具体地，可以通过视觉传感器在终端设备的作业范围内采集多张样本图像；基于多张样本图像对预设的模型进行训练，可以得到预测模型，预测模型用于从图像中识别目标类别的物体所对应的物体框；之后可以通过预测模型，从RGB图像中确定至少一个待检测物体框。示例性地，目标物体的类别可以为杯子，将杯子的类别确定为0，然后输入到预测模型中，基于该预测模型可以从图像中识别出类别为0的物体对应的检测框，也就是目标物体对应的目标类别的物体的待检测物体框，待检测物体框具有对应的位置信息。

在一种可能的实现方式中，视觉传感器可以在机器人的作业范围内采集1000张RGB图像，然后将其中800张图像作为训练数据进行训练，剩下的200张作为测试数据验证模型，训练500个回合后选择在测试集上表现最好的模型作为最终的预测模型。对于实时的RGB图像，经过归一化处理之后输入到训练好的模型中，预测模型的预测结果的形式刻有为：预测类别预测置信度p_i、边界框表示预测的中心点，w_i,h_i表示边界框的宽和高。例如，设置置信度阈值设为p_thres＝0.5，待检测物体对应的类别是0，则有：

由于待检测物体框为目标物体对应的类别所对应的检测框，因此，待检测物体框中包括目标物体的检测框。在确定待检测物体框后，可以基于重排点云确定其中的目标物体的检测框。由于RGB图像和重排点云已经对齐，因此，基于待检测物体框对应的位置可以从重排点云中确定对应的待检测点云框。

基于深度图像，可以从待检测点云框中确定目标物体对应的目标点云框。示例性地，可以确定待检测点云框对应的平均深度值，平均深度值可以为待检测点云框中深度值不为零的各个像素点的深度值的平均值；然后将平均深度值处于预设范围内的待检测点云框作为中间点云框；若只存在一个中间点云框，则可以直接确定中间点云框为目标点云框；或，若存在多个中间点云框，则可以根据成像质量从多个中间点云框中确定目标点云框。

成像质量可以通过成像比例和成像均匀度进行表征。将中间点云框中深度值不为零的像素点所占的比例作为成像比例。具体地，可以确定中间点云框中的深度值不为零的像素点个数，基于中间点云框对应的长和宽，计算中间点云框对应的像素点的总个数，将深度值不为零的像素点个数除以像素点的总个数的值作为成像比例。

一般地，目标物体一般是联通的点云区域，因此，可以对中间点云框中的像素点进行聚类，得到中间点云框中多个像素点对应的类别数量，类别数量用于表征成像均匀度。例如，当类别数量比较多时，可以确定中间点云框中的物体是割裂的，不属于目标物体。

基于此，可以将成像比例大于预设阈值且类别数量小于预设数值的中间点云框确定为目标点云框。当然，若成像比例大于预设阈值且类别数量小于预设数值的中间点云框包括多个，可以从中选择成像比例最大或类别数量最低的中间点云框作为目标点云框。

在一种可能的实现方式中，可以将待检测物体框对应到重排点云中，将待检测物体框映射到三维空间中获取待检测物体框对应的点云信息,裁剪后的待检测点云框记为P″_color。

计算每个待检测点云框内的深度值不为0的像素点的平均深度，公式如下：

其中n表示z_i≠0的像素总和，z_i为像素点的深度值。

根据平均深度对候选检测框进一步筛选，一般可以结合终端设备自身的运动范围进行选择，设置适用于视觉传感器的深度检测范围为

对筛选后的待检测点云框进行深度成像质量判定。深度成像质量判断的义质量指标可以包括成像比例和成像均匀度。成像比例为框内的具有有效深度的像素点所占的比例。成像比例可以具有阈值，例如该阈值设为0.8。成像均匀度可以使用待检测点云框内的点云的聚类结果进行表征。例如待检测点云框内的点云进行对聚类分割，如果聚类结果≥2，则该框内点云成像存在断裂。因此，可以将成像比例大于0.8，聚类结果为1的待检测点云框作为目标点云框B^*。然后使用目标点云框B^*进行定位。

目标点云框中的点云即为目标物体对应的目标点云。目标点云相当于目标物体的外表面上所有的点的集合。

在确定目标点云后，可以对目标点云进行滤波处理，以过滤目标点云中的噪音点。噪音点可以包括离群点、杂乱点。对点云的滤波处理可以包括点云球半径滤波和点云统计滤波。点云统计滤波用于去除目标点云中的明显离群点，明显离群点比较稀疏，信息密度少，可以过滤。进行点云统计滤波，可以定义某处点云小于某个密度，既点云无效。计算目标点云中每个点到其最近的k个点的平均距离，根据给定均值与方差，可以剔除该点周围的给定方差之外的点，从而剔除明显离群点。点云球半径滤波可以以某点为中心画一个球计算落在该球中点的数量，当数量大于给定值时，则保留该点；数量小于给定值则剔除该点。点云球半径滤波用于去除目标点云中的杂乱点。

示例性地，对B^*框内映射的3D点云进行滤波，去除离群点、杂乱点等，最终得到干净的物体表面点云数据，记为P^*。

S103，根据所述目标点云，确定所述目标物体的质心和主方向。

确定目标点云中深度值不为零的目标像素点，目标像素点为目标物体表面地点。基于各个目标像素点的向量坐标，可以确定中心的像素点，从而将中心像素点地坐标作为目标物体的质心向量坐标，质心向量坐标用于表征质心所在的位置。示例性地，通过以下公式，可以基于各个目标像素点的向量坐标，确定目标物体的质心向量坐标：

其中，为质心向量坐标，p_i为第i个目标像素点的向量坐标，n为目标像素点的数量。

根据各个目标像素点，可以计算所述目标物体对应的旋转矩阵。具体地，可以基于各个目标像素点的向量坐标，确定协方差矩阵；通过以下公式，基于各个目标像素点的向量坐标，确定协方差矩阵：

其中，E为协方差矩阵，为质心向量坐标，p_i为第i个目标像素点的向量坐标，n为目标像素点的数量。确定协方差矩阵的特征值和特征向量；将特征值中的最大值所对应的特征向量作为目标特征向量；对目标特征向量进行正交计算，得到目标特征向量在向量空间的正交基；计算图像坐标系与正交基对应的坐标轴之间的旋转矩阵。

基于旋转矩阵转换得到旋转向量，旋转向量用于表征目标物体的主方向。

S104，根据所述质心和所述主方向，对所述目标物体进行定位。

质心和主方向组合起来，即可得到目标物体的位姿，实现对目标物体的定位。其中，位姿可以包括位置和姿势，质心向量坐标用于表征目标物体的位置；主方向相当于表征目标物体的姿势。

本实施例中，在进行视觉定位时，可以基于RGB图像、深度图像以及点云共同进行目标检测，从而降低了目标检测的难度，提高了目标检测的准确度；将复杂的点云轮廓提取算法转换成图像检测结合点云进行数据处理，方便数据的移植集成，且参数量较少，通用性强。

参照图2，示出了本申请实施例提供的另一种机器人的控制方法的步骤流程示意图，该机器人可以包括机械平台和机械臂，具体可以包括如下步骤：

S201，确定第一定位数据，所述目标物体为所述机器人的作业对象，所述第一定位数据用于表征所述机械平台相对于目标物体的位置关系。

机械平台可以安装主动光双目深度相机，机械臂末端可以安装单目深度相机。

基于主动光双目深度相机，可以采用上一实施例中的视觉定位方法确定第一定位数据，第一定位数据为机械平台相对于目标物体的视觉定位，用于表征机械平台相对于目标物体的位置关系，为粗定位数据。

S202，控制所述机械平台移动至所述第一定位数据对应的位置。

机器人根据第一定位数据控制机械平台进行移动，从而使得机器人靠近目标物体，使得机器人移动到机械臂的作业范围内。

S203，确定第二定位数据，所述第二定位数据用于表征所述机械平台到达预定位置后，所述机械臂相对于所述目标物体的位置关系。

上述预定位置可以为第一定位数据对应的位置。在该机械平台到达该预定位置后，机器人可以确定机械臂相对于目标物体的第二定位数据。

基于单目深度相机，可以采用上一实施例中的视觉定位方法确定第二定位数据，第二定位数据为机械臂相对于目标物体的视觉定位，用于表征在机械平台到达第一定位数据对应的位置之后，机械臂相对于目标物体的位置关系，为精定位数据。

S204，控制所述机械臂根据所述第二定位数据对所述目标物体进行作业。

机器人根据第二定位数据控制机械臂进行移动，从而使得机器臂对目标物体进行作业。

上述第一定位数据的定位精度低于第二定位数据的定位精度，第一定位数据为粗定位数据，用于将机器人靠近目标物体；第二定位数据为精定位数据，用于控制机械臂对目标物体进行操作。

本申请实施例中，第一定位数据的确定，相当于进行远距离的目标检测；第二定位数据的确定，相当于进行近距离的目标检测。在一种可能的实现方式中，可以基一个多尺度识别的神经网络进行目标识别，在确定定位数据过程中可以通过参数调节神经网络的尺度，从而使得神经网络可以实现不同距离的图像的目标识别。

本申请实施例中，基于双目深度相机结合单目深度相机实现由远及近的精细三维定位，提高了定位精度和作业准确度。此外进行视觉定位时，可以基于图像处理和点云处理相融合实现待测物体的快速质心方向提取，对硬件要求不高，具有通用性，从而便于对室外作业机器人的控制。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

参照图3，示出了本申请实施例提供的另一种机器人的控制方法的流程示意图，在图3所示的方法中，机器人可以安装主动光双目深度相机和单目深度相机，主动光双目深度相机可以安装于机械平台本身，单目深度相机可以安装于机械臂末端。主动光双目深度相机的检测距离可以为0.4-4m，单目深度相机的检测范围在0.2-1.5m，可见主动光深度相机的检测距离比较远，单目深度相机的检测范围比较小，也就是主动光深度相机的适用于长距离检测，单目深度相机适用于近距离检测。当机器人距离目标物体比较远时，可以基于机械平台的主动光深度相机对目标物体进行定位，从而得到目标物体的粗定位数据，基于粗定位数据机器人控制机械平台移动至距离目标物体较近的位置。在机器人位于距离目标物体较近的位置，可以使用单目深度相机进行精定位，从而基于精定位数据控制机械臂对目标物体进行操作。

在基于主动光双目深度相机进行粗定位时，可以使用主动光深度相机进行数据流获取，获取的数据流可以包括RGB图像、深度图像和点云。然后将图像坐标系和深度坐标系对齐。

将深度坐标系下获取的点云对齐到RGB图像坐标系，记深度坐标系为T_depth，在深度坐标系下对应的点云为P_depth，RGB图像坐标系为T_color，根据双目相机标定可得深度坐标系到RGB图像坐标系的转换矩阵为对齐后的点云在相机坐标系的表达为：

在进行数据处理时，可以对RGB图像和点云数据开启双线程处理，其中包括深度学习图像处理线程和点云数据处理线程。

深度学习图像处理线程可以包括：使用深度相机在机械臂作业范围内采集1000张RGB图像，其中800张作为训练数据进行训练，剩下的200张作为测试数据验证模型，训练500个回合后选择在测试集上表现最好的模型作为最终的模型，对于实时的RGB图像，经过归一化(normalize)之后输入到训练好的模型中。模型的预测结果的形式可以为：预测类别预测置信度p_i、边界框表示预测的中心点，w_i，h_i表示边界框的宽和高。

点云数据处理线程可以包括：设置初步深度阈值为采用初步深度阈值去除前景和背景，根据深度阈值将对齐后的点云进行深度截断，截断后的点云记为P_c′_olor，其形式为：

深度学习图像处理线程和点云数据处理线程得到的数据可以进一步筛选和处理。具体地，可以从深度学习图像处理线程得到的预测结果筛选候选框，设置置信度阈值设为p_thres＝0.5，待检测物体对应的类别是0，则有：

记RGB图像的分辨率为W×H，W表示图片的长度，H表示图片的高度，对点云数据处理线程获取的点云进行形状重排，重排后的点云形状与RGB图像形状保持一致：

P′_color·shape＝Image_color·shape＝(H,W,3)

将候选边界框应用到重排点云中，将边界框映射到三维空间中获取边框内对应的点云信息，裁剪后的点云记为P″_color。

截断点云计算每个框内的平均深度，公式如下：

其中n表示z_i≠0的像素总和(有效值)。

根据平均深度对候选检测框进一步筛选，一般结合机械臂自身的运动范围进行选择，设置适用于机械臂的相机深度检测范围为

对保留的边界框进行深度成像质量判定，定义质量指标包括成像比例和成像均匀度。成像比例即候选边界框内，具有有效深度的像素点大于一定的阈值，该阈值设为0.8；成像均匀度为对候选框内的点云进行聚类分割，如果聚类结果≥2，则该框内点云成像存在断裂。

满足上述指标的边界框，作为物体对应的最终边界框B^*进行定位；

对B^*框内映射的3D点云进行滤波，去除离群点、杂乱点等，其中包括：点云球半径滤波；点云统计滤波。最终得到干净的物体表面点云数据，记为P^*。

对获取的点云P^*提取质心和方向，具体步骤包括：

质心计算公式：其中p_k是一个三维向量，由(x，y，z)表示；

主方向计算过程：

计算协方差矩阵，计算公式为：其中N表示P^*中点的个数；

计算协方差矩阵的特征值和特征向量，求解方程为：其中λ_j表示协方差矩阵的第j个特征值，为第j个特征向量；

将特征值λ_j进行排序，λ₀≥λ₁≥λ₂；

保留最大的特征值对应的特征向量

对进行Schmid正交化计算得到在该向量空间下的一组正交基，即得到一套沿着物体主方向构建的坐标轴；

将各点的(x，y，z)坐标投影到上述坐标轴，得到整块点云的紧致包围框；

计算上述坐标轴与相机本身坐标系之间的旋转矩阵，转换为旋转向量，作为点云的主方向。

将获取的质心和主方向组合在一起，作为机器人作业的粗定位姿态指导机器人进行运动。

待机器人运动到指定位置，此时将主动光双目深度相机切换为单目深度相机，获取其对应的深度数据流，重复上述步骤，最终得到物体的精确三维定位姿态。然后基于精定位数据对机械臂进行控制。

本申请实施例还提供了一种机器人，所述机器人包括机械平台和机械臂，所述机器人通过如实施例一所述的方法对目标物体进行定位；所述机器人通过如实施例二所述的方法进行控制，以实现对所述目标物体的作业。其中，机械平台和机械臂均可以安装视觉传感器，例如，机械平台可以包括主动光双目深度相机，机械臂的末端可以安装单目深度相机。基于视觉传感器，可以采集数据流，从而基于采集的数据流进行视觉定位。

本申请实施例还提供了一种机械臂，所述机械臂安装有单目深度相机，所述机械臂通过如实施例一所述的方法对目标物体进行定位，以实现对所述目标物体的作业。机械臂可以安装视觉传感器，例如，机械臂可以安装相机，本申请实施例对视觉传感器的类型不做限定。

参照图4，示出了本申请实施例提供的一种视觉定位装置的示意图，具体可以包括视觉数据采集模块41、目标点云确定模块42、质心和方向确定模块43和定位模块44，其中：

视觉数据采集模块41，用于通过视觉传感器相机采集数据流，所述数据流包括RGB图像、深度图像和点云，所述数据流中包括待定位的目标物体的数据；

目标点云确定模块42，用于根据所述图像所述RGB图像和所述深度图像，从所述点云中确定所述目标物体对应的目标点云；

质心和方向确定模块43，用于根据所述目标点云，确定所述目标物体的质心和主方向；

定位模块44，用于根据所述质心和所述主方向，对所述目标物体进行定位。

在一种可能的实现方式中，上述目标点云确定模块42包括：

重排子模块，用于根据所述RGB图像和所述点云，确定重排点云，所述重排点云的形状与所述RGB图像的形状一致；

待检测物体框确定子模块，用于从所述RGB图像中确定至少一个待检测物体框；

待检测点云框确定子模块，用于从所述重排点云中确定所述待检测物体框对应的待检测点云框；

目标点云框确定子模块，用于基于所述深度图像，从所述待检测点云框中确定目标物体对应的目标点云框；

目标点云确定子模块，用于将所述目标点云框中的点云作为所述目标点云。

在一种可能的实现方式中，上述重排子模块包括：

深度点云确定单元，用于确定在深度坐标系下的深度点云，所述深度坐标系是基于所述深度图像建立的，所述深度点云中的每个像素点具有深度值；

视觉点云确定单元，用于将所述深度点云转换到图像坐标系中，得到视觉点云，所述图像坐标系是基于所述RGB图像建立的；

前背景删除单元，用于删除所述视觉点云中的前景像素点和背景像素点，所述前景像素点为深度值小于第一预设深度阈值的像素点，所述背景像素点为深度值大于第二预设深度阈值的像素点；

重排单元，用于对所述视觉点云进行重排，得到所述重排点云。

在一种可能的实现方式中，上述待检测物体框确定子模块包括：

样本图像采集单元，用于通过所述视觉传感器在所述终端设备的作业范围内采集多张样本图像；

预测模型训练单元，用于基于多张所述样本图像对预设的模型进行训练，得到预测模型，所述预测模型用于从图像中识别目标类别的物体所对应的物体框；

待检测物体框确定单元，用于根据所述预测模型，从所述RGB图像中确定至少一个所述待检测物体框。

在一种可能的实现方式中，上述目标点云框确定子模块包括：

平均深度值确定单元，用于确定所述待检测点云框对应的平均深度值，所述平均深度值为所述待检测点云框中深度值不为零的各个像素点的深度值的平均值；

中间点云框确定单元，用于将所述平均深度值处于预设范围内的所述待检测点云框作为中间点云框；

目标点云框确定单元，用于若只存在一个所述中间点云框，则确定所述中间点云框为所述目标点云框；或，若存在多个所述中间点云框，则根据成像质量从多个所述中间点云框中确定所述目标点云框。

在一种可能的实现方式中，所述成像质量通过成像比例和成像均匀度进行表征，上述目标点云框确定单元包括：

成像比例确定子单元，用于将所述中间点云框中深度值不为零的像素点所占的比例作为所述成像比例；

类别数量确定子单元，用于对所述中间点云框中的像素点进行聚类，得到所述中间点云框中多个像素点对应的类别数量，所述类别数量用于表征所述成像均匀度；

目标点云框确定子单元，用于将所述成像比例大于预设阈值且所述类别数量小于预设数值的所述中间点云框确定为所述目标点云框。

在一种可能的实现方式中，上述装置还包括：

滤波模块，用于对所述目标点云进行滤波处理，以过滤所述目标点云中的噪音点。

在一种可能的实现方式，上述质心和方向确定模块43包括：

目标像素点确定子模块，用于确定所述目标点云中深度值不为零的目标像素点；

质心向量坐标确定子模块，用于基于各个所述目标像素点的向量坐标，确定所述目标物体的质心向量坐标，所述质心向量坐标用于表征所述质心所在的位置；

旋转矩阵确定子模块，用于根据各个所述目标像素点，计算所述目标物体对应的旋转矩阵；

旋转向量确定子模块，用于基于所述旋转矩阵转换得到旋转向量，所述旋转向量用于表征所述目标物体的主方向。

在一种可能的实现方式中，上述质心向量坐标确定子模块包括：

质心向量坐标确定单元，用于通过以下公式，基于各个所述目标像素点的向量坐标，确定所述目标物体的质心向量坐标：

其中，为所述质心向量坐标，p_i为第i个所述目标像素点的向量坐标，n为所述目标像素点的数量。

在一种可能的实现方式中，上述旋转矩阵确定子模块包括：

协方差矩阵确定单元，用于基于各个所述目标像素点的向量坐标，确定协方差矩阵；

特征数据确定单元，用于确定所述协方差矩阵的特征值和特征向量；

目标特征向量确定单元，用于将所述特征值中的最大值所对应的特征向量作为目标特征向量；

正交基确定单元，用于对所述目标特征向量进行正交计算，得到所述目标特征向量在向量空间的正交基；

旋转矩阵确定单元，用于计算相机坐标系与所述正交基对应的坐标轴之间的旋转矩阵。

在一种可能的实现方式，上述协方差矩阵确定单元包括：

协方差矩阵确定子单元，用于通过以下公式，基于各个所述目标像素点的向量坐标，确定协方差矩阵：

其中，E为所述协方差矩阵，为所述质心向量坐标，p_i为第i个目标像素点的向量坐标，n为所述目标像素点的数量。

参照图5，示出了本申请实施例提供的一种视觉定位装置的示意图，该装置可以应用于机器人，所述机器人包括机械平台和机械臂，所述装置具体可以包括第一定位模块51、第一控制模块52、第二定位模块53和第二控制模块54，其中：

第一定位模块51，用于确定第一定位数据，所述目标物体为所述机器人的作业对象，所述第一定位数据用于表征所述机械平台相对于目标物体的位置关系；

第一控制模块52，用于控制所述机械平台移动至所述第一定位数据对应的位置；

第二定位模块53，用于确定第二定位数据，所述第二定位数据用于表征所述机械平台到达预定位置后，所述机械臂相对于所述目标物体的位置关系；

第二控制模块54，用于控制所述机械臂根据所述第二定位数据对所述目标物体进行作业；

其中，所述第一定位数据的定位精度高于所述第二定位数据的定位精度，所述机器人通过如上述第一方面所述的方法确定所述第一定位数据和所述第二定位数据。

在一种可能的实现方式中，所述机器人的机械平台上安装有主动光双目深度相机，所述机械臂上安装有单目深度相机，所述主动光双目深度相机用于在确定所述第一定位数据时采集数据流，所述单目深度相机用于在确定第二定位数据时采集数据流。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例部分的说明即可。

图6为本申请实施例提供的一种终端设备的结构示意图。如图6所示，该实施例的终端设备6包括：至少一个处理器60(图6中仅示出一个)处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述任意各个方法实施例中的步骤。

终端设备可以为机器人或其他智能设备。该终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的举例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，该处理器60还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视觉定位方法，其特征在于，所述方法包括：

通过视觉传感器采集数据流，所述数据流包括RGB图像、深度图像和点云，所述数据流中包括待定位的目标物体的数据；

根据所述RGB图像和所述深度图像，从所述点云中确定所述目标物体对应的目标点云；

根据所述目标点云，确定所述目标物体的质心和主方向；

根据所述质心和所述主方向，对所述目标物体进行定位；

所述根据所述RGB图像和所述深度图像，从所述点云中确定所述目标物体对应的目标点云，包括：

根据所述RGB图像和所述点云，确定重排点云，所述重排点云的形状与所述RGB图像的形状一致；

从所述RGB图像中确定至少一个待检测物体框；

从所述重排点云中确定所述待检测物体框对应的待检测点云框；

确定所述待检测点云框对应的平均深度值，所述平均深度值为所述待检测点云框中深度值不为零的各个像素点的深度值的平均值；

将所述平均深度值处于预设范围内的所述待检测点云框作为中间点云框；

若只存在一个所述中间点云框，则确定所述中间点云框为所述目标点云框；或，若存在多个所述中间点云框，则根据成像质量从多个所述中间点云框中确定所述目标点云框；

将所述目标点云框中的点云作为所述目标点云；

所述成像质量通过成像比例和成像均匀度进行表征，所述根据成像质量从多个所述中间点云框中确定所述目标点云框，包括：

将所述中间点云框中深度值不为零的像素点所占的比例作为所述成像比例；

对所述中间点云框中的像素点进行聚类，得到所述中间点云框中多个像素点对应的类别数量，所述类别数量用于表征所述成像均匀度；

将所述成像比例大于预设阈值且所述类别数量小于预设数值的所述中间点云框确定为所述目标点云框。

2.如权利要求1所述的方法，其特征在于，所述根据所述RGB图像和所述点云，确定重排点云，包括：

确定在深度坐标系下的深度点云，所述深度坐标系是基于所述深度图像建立的，所述深度点云中的每个像素点具有深度值；

将所述深度点云转换到图像坐标系中，得到视觉点云，所述图像坐标系是基于所述RGB图像建立的；

删除所述视觉点云中的前景像素点和背景像素点，所述前景像素点为深度值小于第一预设深度阈值的像素点，所述背景像素点为深度值大于第二预设深度阈值的像素点；

对所述视觉点云进行重排，得到所述重排点云。

3.如权利要求1所述的方法，其特征在于，所述从所述RGB图像中确定至少一个待检测物体框，包括：

通过所述视觉传感器采集多张样本图像；

基于多张所述样本图像对预设的模型进行训练，得到预测模型，所述预测模型用于从图像中识别目标类别的物体所对应的物体框；

根据所述预测模型，从所述RGB图像中确定至少一个所述待检测物体框。

4.如权利要求1-3任一项所述的方法，其特征在于，在根据所述图像所述RGB图像和所述深度图像，从所述点云中确定所述目标物体对应的目标点云步骤之后，并在根据所述目标点云，确定所述目标物体的质心和主方向步骤之前，所述方法还包括：

对所述目标点云进行滤波处理，以过滤所述目标点云中的噪音点。

5.如权利要求4所述的方法，其特征在于，所述根据所述目标点云，确定所述目标物体的质心和主方向，包括：

确定所述目标点云中深度值不为零的目标像素点；

基于各个所述目标像素点的向量坐标，确定所述目标物体的质心向量坐标，所述质心向量坐标用于表征所述质心所在的位置；根据各个所述目标像素点，计算所述目标物体对应的旋转矩阵；

基于所述旋转矩阵转换得到旋转向量，所述旋转向量用于表征所述目标物体的主方向。

6.如权利要求5所述的方法，其特征在于，所述基于各个所述目标像素点的向量坐标，确定所述目标物体的质心向量坐标，包括：

通过以下公式，基于各个所述目标像素点的向量坐标，确定所述目标物体的质心向量坐标：

其中，为所述质心向量坐标，为第i个所述目标像素点的向量坐标，n为所述目标像素点的数量。

7.如权利要求5所述的方法，其特征在于，所述根据各个所述目标像素点，计算所述目标物体对应的旋转矩阵，包括：

基于各个所述目标像素点的向量坐标，确定协方差矩阵；

确定所述协方差矩阵的特征值和特征向量；

将所述特征值中的最大值所对应的特征向量作为目标特征向量；

对所述目标特征向量进行正交计算，得到所述目标特征向量在向量空间的正交基；

计算图像坐标系与所述正交基对应的坐标轴之间的旋转矩阵。

8.如权利要求7所述的方法，其特征在于，所述基于各个所述目标像素点的向量坐标，确定协方差矩阵，包括：

通过以下公式，基于各个所述目标像素点的向量坐标，确定协方差矩阵：

，

其中，E为所述协方差矩阵，为所述质心向量坐标，为第i个目标像素点的向量坐标，n为所述目标像素点的数量。

9.一种机器人的控制方法，其特征在于，应用于机器人，所述机器人包括机械平台和机械臂，所述方法包括：

控制所述机械平台移动至所述第一定位数据对应的位置；

控制所述机械臂根据所述第二定位数据对所述目标物体进行作业；

其中，所述第一定位数据的定位精度低于所述第二定位数据的定位精度，所述机器人通过如权利要求1-8任一项所述的方法确定所述第一定位数据和所述第二定位数据。

10.如权利要求9所述的方法，其特征在于，所述机器人的机械平台上安装有主动光双目深度相机，所述机械臂上安装有单目深度相机，所述主动光双目深度相机用于在确定所述第一定位数据时采集数据流，所述单目深度相机用于在确定第二定位数据时采集数据流。

11.一种机器人，其特征在于，所述机器人包括机械平台和机械臂，所述机器人通过如权利要求1-8任一项所述的方法对目标物体进行定位；所述机器人通过如权利要求9-10任一项所述的方法进行控制，以实现对所述目标物体的作业。

12.一种机械臂，其特征在于，所述机械臂通过如权利要求1-8任一项所述的方法对目标物体进行定位，以实现对所述目标物体的作业。

13.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8或9-10任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8或9-10任一项所述的方法。