CN119234196A

CN119234196A - 具有手形校准的手势检测方法和系统

Info

Publication number: CN119234196A
Application number: CN202280095937.4A
Authority: CN
Inventors: 周扬
Original assignee: Innopeak Technology Inc
Current assignee: Innopeak Technology Inc
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2024-12-31
Also published as: WO2022241328A1

Abstract

本发明涉及扩展现实系统和方法。在示例性实施例中，在手形校准过程中使用由至少两个摄像头捕获的手部图像，这将手形与距离相关联。所得到的校准参数被用于后续的手势检测过程。还有其他的实施例。

Description

具有手形校准的手势检测方法和系统

发明背景

本发明涉及扩展现实系统和方法。

在过去十年中，扩展现实(Extended Reality，XR)设备——包括增强现实(Augmented Reality，AR)设备和虚拟现实(Virtual Reality，VR)设备——变得越来越流行。XR设备的重要设计考虑和挑战包括性能、成本和功耗。由于各种限制，现有的XR设备已经无法胜任，原因如下面所阐明的。

期望有新的和改进的XR系统及其方法。

发明内容

本发明涉及扩展现实系统和方法。在示例性实施例中，在手形校准过程中使用由至少两个摄像头捕获的手部图像，这将手形与距离相关联。所得到的校准参数被用于后续的手势检测过程。还有其他实施例。

一个或多个设备的系统可以被配置成通过在系统上安装软件、固件、硬件或它们的组合来执行特定的操作或动作，这些软件、固件、硬件或它们的组合在运行时使系统执行动作。一个或多个程序可以被配置成通过包括指令来执行特定的操作或动作，上述指令在由数据处理装置执行时使该装置执行动作。一个一般性方面包括手形校准方法。该方法还包括使用左镜头捕获位于第一距离的手部的左图像，该手部在左图像中具有第一位置和第一大小，左镜头具有第一视场。该方法还包括将左图像存储在存储器中。该方法还包括使用右镜头捕获该手部的右图像，该手部在右图像中具有第二位置和第二大小，右镜头具有第二视场。例如，第一大小和第二大小可以基本相同。该方法还包括将右图像存储在存储器中。该方法还包括基于第一视场和第二视场之间的重叠来定义公共视场。该方法还包括计算校准参数。上述手部位于公共视场内。校准参数至少基于第一大小以及第一位置与第二位置之间的差。该方法还包括使用至少校准参数来检测手势。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，每个计算机程序均配置为执行方法的动作。

实施方式可以包括以下特征中的一个或多个。该方法可以包括使用第一位置和第二位置之间的差来确定第二距离。校准参数可以包括基于第一大小和参考手部大小的缩放因子。该方法可以包括从左图像中识别左手关键点。该方法可以包括：识别右手关键点，并将左手关键点与右手关键点相关联。该方法可以包括确定手部是左手还是右手。左图像是单色图像。该方法可以包括对左图像执行图像处理。该方法可以包括追踪手部。该方法还包括使用卷积网络处理手势。左镜头可以包括鱼眼镜头或广角镜头。

在各实施例中，该方法还可以包括：利用左镜头或右镜头捕获手势的手势图像；裁剪手势图像；利用裁剪的手势图像识别一组二维关键点，以及利用该组二维关键点生成一组三维关键点。所描述技术的实施可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。

一个一般性方面涉及扩展现实装置，该装置包括具有正面和背面的壳体。该装置还包括左摄像头，该左摄像头包括第一传感器和第一镜头，第一镜头具有第一视场，左摄像头被配置在正面的左侧区域。该装置还包括右摄像头，该右摄像头包括第二传感器和第二镜头，第二镜头具有第二视场，右摄像头配置在正面的右侧区域，第二视场与第一视场共享公共视场。该装置还包括配置在壳体的背面的显示器。该装置还包括耦合到第一传感器和第二传感器的存储器。该装置还包括耦合到存储器的处理器。该处理器被配置为：基于由左摄像头捕获的左图像和由右摄像头捕获的右图像来计算手形校准参数，左图像包括位于左图像的第一位置且在公共视场内的第一手部，右图像包括位于右图像的第二位置且在公共视场内的第一手部。处理器还被配置为基于第一位置和第二位置之间的差来确定第一手部的距离。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，每个计算机程序均配置为执行方法的动作。

实施方式可以包括以下特征中的一个或多个。该装置将左图像和右图像存储在存储器中。第一镜头可以包括鱼眼镜头。第一传感器可以包括具有少于一百万像素的单色传感器。左摄像头的捕获速率为每秒至少15帧。所描述技术的实施可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。

一个一般性方面涉及手形校准方法。该方法包括使用左镜头捕获位于第一距离的手部的左图像，该手部在左图像中具有第一位置和第一大小，左镜头具有第一视场。该方法还包括使用右镜头捕获手部的右图像，该手部在右图像中具有第二位置和第二大小，右镜头具有第二视场。例如，第一大小和第二大小可以基本相同。该方法还包括基于第一视场和第二视场之间的重叠来定义公共视场。该方法还包括计算手部缩放因子。手部位于公共视场内。缩放因子至少基于第一大小以及第一位置与第二位置之间的差。该方法还包括捕获手部的手势。该方法还包括使用至少手部缩放因子来识别与手势相关联的二维关键点。该方法还包括使用至少二维关键点来识别手势。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，每个计算机程序均配置为执行方法的动作。

实施方式可以包括将二维关键点映射到三维关键点。所描述技术的实施可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。

要认识到的是，本发明实施例提供了优于传统技术的许多优点。特别地，手形校准技术可以实现有效的手势检测。此外，根据本发明实施例的手形校准技术可以在不使用昂贵的测距组件例如激光雷达模块的情况下执行。

本发明实施例可以与现有的系统和方法结合实施。例如，根据本发明的手形校准技术可用于各种XR系统，包括配备有测距组件的XR设备。此外，根据本发明的各种技术可以通过软件或固件更新而应用到现有的XR系统中。还有其他益处。

本发明在已知技术的背景下实现了这些益处和其他益处。然而，通过参考说明书的后面部分和所附附图，可以进一步理解本发明的性质和优点。

附图说明

图1A是示出根据本发明实施例的扩展现实(XR)装置115n的简化图。

图1B是示出根据本发明实施例的扩展现实装置115n的组件的简化框图。

图2是示出根据本发明实施例的扩展现实装置210上的摄像头的视场的简化图。

图3A是示出根据本发明实施例的在右手上定义的关键点的简化图。

图3B是示出根据本发明实施例的示例性手势的简化图。

图4是示出根据本发明实施例的扩展现实装置的功能块的简化框图。

图5是示出根据本发明实施例的手势检测算法中的功能模块的简化框图。

图6是示出根据本发明实施例的手形校准方法的过程的简化流程图。

具体实施方式

随着虚拟现实和增强现实应用的出现，基于手势的控制方案越来越流行。从图像中准确且有效地重构人手运动的能力有望在沉浸式虚拟和增强现实、机器人控制和手语识别中实现令人兴奋的新应用。近年来已取得很大进展，尤其是随着深度学习技术的到来。然而，由于不受约束的整体和局部姿势变化、频繁的遮挡、局部自相似性和高衔接(articulation，连接、关节)度，它仍然是一项具有挑战性的任务。近年来，AR眼镜上商业的基于深度相机的3D手部追踪技术已盛行，其直接对手部进行3D测量。传统的研究通常集中于基于RGB相机的手部追踪算法，相较于算法，对实际的手部追踪系统的研究工作非常有限。

本发明实施例为AR眼镜提供了完整的手部追踪系统。整个系统可实现多种特征，包括实时追踪、双手追踪、形状校准和同时手势识别。在各实施例中，具有低功率传感器的立体鱼眼摄像头与鱼眼镜头一起使用，以捕获大视场(field of view,FoV)。要注意的是，用于VR和AR应用的传统三维(3D)手部追踪方案利用飞行时间(ToF)设备来确定手部的深度图并输出3D手部关键点。ToF设备虽然准确，但也存在成本高、复杂度高、能耗高等缺点。要理解的是，本发明实施例采用立体鱼眼(或超广角)摄像头而非ToF模块来进行距离测定。利用立体摄像头，本发明实施例提供了完整的系统范围方案，其可以涉及诸如边缘设备(例如，移动电话、嵌入设备)上的实时性等特征，以同时实现双手追踪和手势识别，并调整手部比例以匹配真实手部。

下面的描述是为了使本领域普通技术人员能够做出和使用本发明，并将其纳入特定应用的上下文中。对于本领域技术人员而言，各种修改以及在不同应用中的各种用途将是明显的，并且本文定义的一般原理可应用于各种实施例。因此，本发明不限于所介绍的实施例，而是应具有与本文所公开的原理和新颖特征一致的最宽范围。

在下面的详细描述中，阐述了许多具体细节以便更透彻地理解本发明。然而，对于本领域技术人员而言，本发明显然可以在不局限于这些具体细节的情况下实践。在其他情况下，众所周知的结构和设备以框图形式示出，而未详细示出，以避免模糊本发明。

请读者注意，对于与本说明书同时提交且与本说明书同时向公众开放的所有文件和资料，该类文件和资料的所有内容均通过引用并入本文。除非另有明确说明，本说明书(包括任何所附的权利要求书、摘要和附图)中公开的所有特征都可以被服务于相同、等同或类似目的的替代特征所替代。因此，除非另有明确说明，否则所公开的每个特征仅是一系列等同或相似特征中的一个示例。

此外，权利要求中任何未明确说明用于执行指定功能的“装置”或用于执行特定功能的“步骤”的元素均不得解释为35U.S.C.第112条第6款规定的“装置”或“步骤”条款。特别地，本文权利要求书中使用的“步骤”或“动作”并非旨在调用35U.S.C.112第6款的规定。

请注意，如果使用的话，左、右、前、后、顶、底、向前、向后、顺时针和逆时针等标签仅出于方便的目的，并不表示任何特定的固定方向。相反，它们用于反映物体各部分之间的相对位置和/或方向。

图1A是示出根据本发明实施例的扩展现实装置115n的简化图(顶视图)。该图仅仅是示例，不应过度限制权利要求的范围。本领域普通技术人员会认识到许多变型、替代和修改。要理解的是，术语“扩展现实”(ER)是广义限定的，其包括虚拟现实(VR)、增强现实(AR)和/或其他类似技术。例如，所示的ER装置115可以被配置为VR、AR或其他。根据具体实施方式，ER装置115对于AR应用可以包括小型壳体，或者对于VR应用可以包括相对较大的壳体。摄像头180A和180B被配置在装置115的正面。例如，摄像头180A、180B分别安装在ER装置115的左侧和右侧。在各种应用中，可以在摄像头180A和180B下方配置另外的摄像头，以提供附加视场和距离估计精度。例如，摄像头180A和180B均包括提供大视场的超广角或鱼眼镜头，并且它们共享一公共视场。根据具体实施方式，摄像头180A和180B可以被配置不同的安装角度。例如，在装置115上安装四个或更多个摄像头的VR应用中，摄像头被配置有竖向和水平倾斜角度，以最大化总视场。AR应用通常使用不超过两个摄像头，这两个摄像头可以稍微向侧面倾斜以增加水平视场，但在佩戴时它们在竖直方向上基本上是同水平。在各实施例中，竖向摄像头倾斜被限制为向上或向下各向小于10度，以避免潜在的遮挡(例如，用户在冬天可能穿的厚衣服，如棉衣)。由于两个摄像头的布置，可以使用两个摄像头的距离(例如约8-12厘米)及所产生的视差(已知因素)来估计对象距离。显示器185被配置在ER装置115的背面。例如，在AR应用中，显示器185可以是半透明显示器，其将信息叠加在光学透镜上。在VR实现中，显示器185可以包括非透明显示器。

图1B是示出根据本发明实施例的扩展现实装置115的组件的简化框图。该图仅仅是示例，不应过度限制权利要求的范围。本领域普通技术人员会认识到许多变型、替代和修改。在一些实施例中，XR头戴式装置(例如，所示的AR头戴式装置115n等)可以包括但不限于处理器150、数据存储器155、扬声器或耳机160、眼动追踪传感器165、光源170、音频传感器或麦克风175、前置或面向前方的摄像头180、显示器185和/或通信接口190和/或类似物中的至少一个。

在一些情况下，处理器150可以在通信上耦合(例如，通过总线、通过有线连接器、或通过印刷电路板(PCB)或集成电路(IC)的电通路(例如迹线和/或焊盘等)和/或类似物)至数据存储器155、扬声器或耳机160、眼动追踪传感器165、光源170、音频传感器或麦克风175、前置摄像头180、显示器185和/或通信接口190和/或类似物中的一个或多个中的每一个。在各实施例中，数据存储器155可以包括动态随机存取存储器(DRAM)和/或非易失性存储器。例如，摄像头180捕获的图像可以暂时存储在DRAM中以供处理，可执行指令(例如，手形校准和手势识别算法)可以存储在非易失性存储器中。在各实施例中，数据存储器155可以在片上系统(system-on-chip，SoC)布置中被实施为处理器150的一部分。

眼动追踪传感器165——其可以包括但不限于一个或多个摄像头、一个或多个运动传感器或一个或多个追踪传感器等中的至少一个——追踪用户眼睛的注视点，并与处理器150、计算系统105a或105b和/或AI系统140的计算处理相结合，以与在ER装置115前面拍摄的图像或视频进行比较。音频传感器175可以包括但不限于麦克风、声音传感器、噪声传感器等，并且可用于接收或捕获语音信号、声音信号和/或噪声信号等。

前置摄像头180包括各自的镜头和传感器，以用于捕获ER装置115前方区域的图像或视频。例如，前置摄像头180包括图1B所示的分别配置在壳体的左右两侧的摄像头180A和180B。在不同实现中，前置摄像头的传感器可以是低分辨率单色传感器，其不仅节能(无需彩色滤光片及其颜色处理)，而且无论是在设备大小还是成本方面都相对便宜。

图2是示出根据本发明实施例的扩展现实装置210上的摄像头的视场的简化图。该图仅仅是示例，不应过度限制权利要求的范围。本领域普通技术人员会认识到许多变型、替代和修改。左摄像头180A安装在ER装置壳体210的左侧，右摄像头180B安装在ER装置壳体210的右侧。每个摄像头均具有超广角或鱼眼镜头，能够捕获广视场。例如，摄像头180A具有在左侧且角度为θ_L的视场，摄像头180B具有在右侧且角度为θ_R的视场。在各实施例中，摄像头180A和180B被配置有向外倾斜角θ_R，以增加组合视场。在各实施例中，倾斜角θ_R约为五度(从而将组合FOV增大约10度)。任一摄像头均可以检测手部或其他对象。例如，手部221在摄像头180A的视场范围内，手部223在摄像头180B的视场范围内。在各实施例中，当手部仅在单个摄像头的FOV内时，处理量有限，可能无法进行诸如距离估计和3D映射等计算。区域220位于两个摄像头的视场内，可以对位于区域220内的对象执行另外的处理。例如，区域220可以被称为“公共FOV”，其由两个FOV和距离限定；也就是说，在预定的距离(例如，用户的手臂长度)和FOV内，可以执行另外的计算和处理。在各实施方式中，两个摄像头180A和180B之间的距离D为约8厘米至12厘米，其针对视差距离计算进行了校准和优化。在一种具体实施例中，距离D为约10厘米。特别地，由于手部222位于两个摄像头180A和180B的视场内，因此可以使用两个摄像头捕获的图像之间的差——归因于摄像头180A和180B之间的距离D——来近似手部222和壳体210之间的距离。例如，当手部222如所示出的位于区域220中时，可以执行诸如手形校准、三维映射等处理。在一些实施例中，形状校准过程(如下文进一步详细描述的)被实施为初始校准过程的一部分，并且用户被提示将她的手定位到区域220以进行形状校准，而且在此过程中生成的校准参数稍后用于其他计算和处理。

现在返回参考图1B。在各实施例中，处理器150被配置为基于左摄像头(例如，摄像头180A)捕获的左图像和右摄像头(例如，摄像头180B)捕获的右图像来计算手形校准参数。左图像包括位于左图像的第一位置且在公共视场(例如，区域220)内的手部(例如，手部222)。右图像包括位于右图像的第二位置且在公共视场内的手部(例如，手部222)。处理器被配置为根据第一位置和第二位置之间的差来确定手部的距离。利用手部的距离和大小的信息，处理器150可以执行手形校准过程，该过程生成一个或多个校准参数。

在AR应用中，每个前置摄像头180的视场与用户120的眼睛的视场、所捕获的图像或视频重叠。显示屏和/或投影仪185可以用于显示或投射所生成的图像覆盖(和/或显示结合有叠加在实际区域的图像或视频上的所生成图像覆盖的合成图像或视频)。通信接口190提供与其他设备和/或网络的有线或无线通信。例如，通信接口190可以连接到计算机以进行栓系操作，其中计算机提供图形密集型应用所需的处理能力。

图3A是示出根据本发明实施例的在右手上定义的关键点的简化图。该图仅仅是示例，不应过度限制权利要求的范围。本领域普通技术人员会认识到许多变型、替代和修改。例如，关键点0-19被分配到用户右手的不同区域。根据这些关键点的位置，可以确定手势。例如，通过识别0-19这些关键点的相对位置，可以确定不同的手势。在各实施例中，在初始手形校准过程中校准关键点的相对位置(例如，以像素距离所测量的)，这使得手势识别过程更加准确。

图3B是示出根据本发明实施例的示例性手势的简化图。该图仅仅是示例，不应过度限制权利要求的范围。本领域普通技术人员会认识到许多变型、替代和修改。例如，被设备摄像头捕获为二维(2D)图像的手部图像可以被映射到3D空间中进行处理。如所示出的，左手手势被转换成3D关键点，通过这些关键点，扩展现实装置可以将该手势识别为“OK”手势。也可以执行另外的过程。

图4是示出根据本发明实施例的扩展现实装置的功能块的简化框图。该图仅仅是示例，不应过度限制权利要求的范围。本领域普通技术人员会认识到许多变型、替代和修改。图4中的扩展现实装置400的系统流水线可以包括功能组件，其可以对应于图1B中所示出的装置115的各个部分。在前端，传感器——例如右侧鱼眼摄像头401、左侧鱼眼摄像头402和惯性测量单元(IMU)403——捕获图像和其他信息，并将捕获的数据发送到传感器处理器411(例如，轻量级嵌入式CPU，例如图1B中的处理器150)。传感器处理器411执行各种简单的图像处理(例如，去噪、曝光控制等)，然后将处理后的数据打包到XR服务器421。例如，XR服务器421被实施为用作数据消费者，并将数据传送给各种算法451，例如3D手部追踪431、6DoF 441等。3D手部追踪算法431的位置如图所示配置在XR服务器421之后，其后是APP模块432。例如，统一APP 432接收手部追踪结果以用于不同目的，例如游戏、虚拟对象的操纵等。可以如所示出的那样配置另外的功能，例如系统渲染434、异步时间扭曲(ATW)435和显示436。根据具体实施，还可以有其他功能块。

图5是示出根据本发明实施例的手势检测算法中的功能模块的简化框图。该图仅仅是示例，不应过度限制权利要求的范围。本领域普通技术人员会认识到许多变型、替代和修改。根据各实施例，可以用图1B所示的装置150来实施的手部追踪系统500使用针对左手(l)和右手(r)的双手追踪过程。例如，系统500在边缘设备上提供实时(即每秒30帧)手部追踪，并且其作为3D手部追踪系统运行。立体鱼眼摄像头用于获取具有已知视差校准的左图像和右图像。该系统包括各种算法集，包括手部获取501、手部检测502、手部预测503r和503l、边界框追踪504r和504l、2D手部关键点检测505r和505l、3D手部关键点检测507r和507l、手势识别508r和508l以及手形校准570。

在各实施例中，手形校准过程在初始校准过程期间执行，其可以由新用户触发。特别地，手形校准过程依赖于依据左右摄像头捕获的立体图像所计算的距离信息，立体手部图像的形状与距离相关。

图6是示出根据本发明实施例的手形校准方法的过程的简化流程图。该图仅仅是示例，不应过度限制权利要求的范围。本领域普通技术人员会认识到许多变型、替代和修改。例如，可以添加、删除、重复、修改、替换、重叠和重新排列一个或多个步骤，这不应限制权利要求的范围。

在步骤610，分别由左摄像头和右摄像头捕获手部图像，只要手部位于允许基于摄像头的距离计算的公共视场内。例如，当手部222(参见图2)位于公共FOV 220中时，允许两个摄像头180A和180B记录它们各自的图像，其中手部222位于左帧和右帧的略微不同的位置，并且位置的差允许进行距离计算或近似。

在步骤620，将左图像和右图像存储在存储器中。例如，可以使用缓冲存储器来存储左图像和右图像。在各实施例中，所捕获的图像被临时存储以便处理，并且可以首先被存储在易失性存储器中并且随后转移到非易失性存储器。

在步骤630，对存储在存储器中的左图像和右图像进行手部检测。根据具体实施方式，可以使用各种类型的图像识别算法。例如，可以采用机器学习算法进行手部检测过程。

在步骤640，确定手部是否在公共视场内。如上所述，定义了基于第一视场(例如，左摄像头的FOV)和第二视场(例如，右摄像头的FOV)之间的重叠的公共视场。在各实施例中，通过定位手部图像和裁剪所捕获的图像来生成手势检测中使用的边界框。例如，图2中的区域220被定义为公共视场。由于根据本发明实施例的XR装置依赖于由至少两个摄像头捕获的图像及其已知的视差，因此只有当手部位于公共视场内并因此出现在两个图像中时才可以确定手部距离。如果在步骤640中确定手部位于公共视场内，则执行步骤650和后续的手形校准步骤。另一方面，如果手部没有位于公共视场内(即，在一个或两个图像中都不存在)，则返回到步骤610进行另外的手部图像捕获和处理。例如，可以使用以下伪代码来确定手部是否位于允许进行距离计算的公共视场内：

Hand3D＝getHand3DPrediction()

leftCameraHand2D,rightCameraHand2D＝projection(Hand3D)

insideStrereoView＝leftCameraHand2D in Image&&rightCameraHand2D inImage

//leftCameraHand2D、rightCameraHand2D均为(21,2)图像坐标，21为手部关键点总数，2为二维位置(x,y)，

//确定图像中的关键点p＝(x,y)需要

x>＝0&&x<imageWidth&&y>＝0&&y<imageHeight

//确定图像中的leftCameraHand2D/rightCameraHand2D，要求所有21个手部关键点都位于图像内

在步骤650，确定手形。例如，术语“手形”指的是各种手部特征，例如大小、形状、手部关键点等。

在步骤660，使用所捕获的图像来确定手部距离。例如，由于两个摄像头之间的距离是已知的，因此可以利用不同摄像头捕获的图像的手部位置之间的差来计算手部距离。根据具体实施情况，也可以使用其他技术。

在步骤670，创建和/或更新一个或多个校准参数。在具体实施例中，校准参数包括缩放因子，其中使用手部的相对大小(例如，以两个手部关键点之间的像素数所测量的，如图3A中关键点8和关键点19之间的距离)及其到摄像头的距离来计算大小缩放因子。例如，对“正常”的参考手部大小分配默认缩放因子10，而相对较小的手部可以具有缩放因子8-9，相对较大的手部可以具有缩放因子10-11。除了大小缩放因子之外，校准参数还可以包括手指(例如，图3A中拇指指尖处的关键点16和食指指尖处的关键点12)之间的距离、各个手指的大小(例如，图3A中关键点16和关键点18之间的距离)等。

校准参数用于后续的手势检测过程。例如，如果尚未执行形状校准过程(例如，手部从未进入允许距离计算的公共FOV区域)，则使用默认校准参数(例如，针对参考手部形的校准)，并且如果已执行形状校准过程，则使用更新的校准参数(例如，在步骤670中更新的)。

在步骤680，捕获一个或多个手部图像。所捕获的图像可以存储在存储器中并进行进一步处理(例如，降噪、距离计算等)。在各实施例中，可以使用校准参数来计算手部距离。例如，基于新捕获的手部图像的大小和缩放因子，可以估计手部距离。

在步骤690，使用校准参数执行手势检测。例如，在手势检测过程中，可以使用手部大小缩放因子等校准参数来提高准确性。在各实施例中，在考虑校准参数的情况下使用传统的神经网络进行手势检测。根据具体实施方式，可以在手势检测过程中以多种方式使用校准参数。

现在返回图5。系统500在框507r和507l中实现包括3D手部关键点的一组输出。例如，手部关键点如图3A和图3B所示。要注意的是，虽然捕获的图像是二维的，但手势检测是使用3D手部关键点进行的。例如，在框505l和507l之间执行2D到3D映射，并且可以在映射过程中使用校准参数。

如所示出的，系统500包括五个组件：主线程501、手部检测线程502、右手线程502r、左手线程502l和手形校准线程570。这些组件彼此相互作用。

作为示例，主线程501用于将右侧鱼眼摄像头501r和左侧鱼眼摄像头501l捕获的图像复制到系统的本地存储器中。

手部检测线程502等待右鱼眼图像和左鱼眼图像。一旦接收到图像，手部检测线程502可以对右鱼眼图像和左鱼眼图像使用手部检测卷积网络。例如，手部检测线程502输出右手和左手的置信度值和边界框。

右手线程502r和左手线程502l可以对称实施，它们分别接收来自右鱼眼图像和左鱼眼图像的线程输入。它们还依赖于各自的边界框追踪(即框504r和504l)。例如，可以使用置信度值和边界框追踪来生成允许识别手势类型的3D手部关键点。

手部边界框线程504r和504l提供追踪，它们的输入是来自手部预测框503r和503l的边界框大小置信度值和边界框预测值。手部边界框线程504r和504l特别地输出手部状态(例如是否存在)和边界框数据等。

如图5所示，如果存在手部(如在框504r和504l中确定的)，则2D手部关键点检测(例如，框505r和/或505l)使用来自对所捕获图像进行手部边界框追踪的边界框裁剪出手部。例如，将所捕获图像裁剪出来并调整为预定大小(例如，96像素×96像素，这是为实现高效处理最优的小尺寸)。2D手部关键点检测(例如，框505r和505l)对调整大小后的图像使用2D关键点检测卷积网络，并输出2D手部关键点。如上所述，如果存在2D关键点，则将其映射到3D关键点以进行手势检测。

尽管上面完整描述了具体实施例，但是可以使用各种修改、替代构造和等同方案。因此，上述描述和说明不应被视为限制由所附权利要求书限定的本发明的范围。

Claims

1.一种手形校准方法，所述方法包括：

使用左镜头捕获位于第一距离的手部的左图像，所述手部在所述左图像中具有第一位置和第一大小，所述左镜头具有第一视场；

将所述左图像存储在存储器中；

使用右镜头捕获所述手部的右图像，所述手部在所述右图像中具有第二位置，所述右镜头具有第二视场；

将所述右图像存储在所述存储器中；

基于所述第一视场和所述第二视场之间的重叠，定义公共视场；

计算校准参数，所述手部位于所述公共视场内，所述校准参数至少基于所述第一大小以及所述第一位置和所述第二位置之间的差；以及

使用至少所述校准参数来检测手势。

2.根据权利要求1所述的方法，还包括：使用所述第一位置和所述第二位置之间的差，确定第二距离。

3.根据权利要求1所述的方法，其中，所述校准参数包括基于所述第一大小和参考手部大小的缩放因子。

4.根据权利要求1所述的方法，还包括：从所述左图像中识别左手关键点。

5.根据权利要求4所述的方法，还包括：识别右手关键点，并将所述左手关键点与所述右手关键点相关联。

6.根据权利要求1所述的方法，还包括：确定所述手部是左手还是右手。

7.根据权利要求1所述的方法，其中，所述左图像是单色图像。

8.根据权利要求1所述的方法，还包括：对所述左图像执行图像处理。

9.根据权利要求1所述的方法，还包括：追踪所述手部。

10.根据权利要求1所述的方法，还包括：使用卷积网络处理所述手势。

11.根据权利要求1所述的方法，其中，所述左镜头包括鱼眼镜头或广角镜头。

12.根据权利要求1所述的方法，还包括：

使用所述左镜头或所述右镜头捕获所述手势的手势图像；

裁剪所述手势图像；

使用裁剪的手势图像识别一组二维关键点；以及

使用该组二维关键点生成一组三维关键点。

13.一种扩展现实装置，包括：

壳体，所述壳体包括正面和背面；

左摄像头，所述左摄像头包括第一传感器和第一镜头，所述第一镜头具有第一视场，所述左摄像头被配置在所述正面的左侧区域；

右摄像头，所述右摄像头包括第二传感器和第二镜头，所述第二镜头具有第二视场，所述右摄像头被配置在所述正面的右侧区域，所述第二视场与所述第一视场共享一公共视场；

显示器，配置在所述壳体的背面；

存储器，耦合至所述第一传感器和所述第二传感器；

处理器，耦合至所述存储器；

其中，所述处理器被配置为：基于由所述左摄像头捕获的左图像和由所述右摄像头捕获的右图像来计算手形校准参数，所述左图像包括位于所述左图像的第一位置且在所述公共视场内的第一手部，所述右图像包括位于所述右图像的第二位置且在所述公共视场内的所述第一手部；所述处理器还被配置为基于所述第一位置和所述第二位置之间的差来确定所述第一手部的距离。

14.根据权利要求13所述的装置，其中，所述左图像和所述右图像存储在所述存储器中。

15.根据权利要求13所述的装置，其中，所述处理器还。

16.根据权利要求13所述的装置，其中，所述第一镜头包括鱼眼镜头。

17.根据权利要求13所述的装置，其中，所述第一传感器包括具有少于一百万像素的单色传感器。

18.根据权利要求13所述的装置，其中，所述左摄像头的捕获速率为每秒至少15帧。

19.一种手形校准方法，所述方法包括：

计算手部缩放因子，所述手部位于所述公共视场内，所述缩放因子至少基于所述第一大小以及所述第一位置和所述第二位置之间的差；

捕获所述手部的手势；

使用至少所述手部缩放因子来识别与所述手势相关联的二维关键点；以及

使用至少所述二维关键点来识别所述手势。

20.根据权利要求19所述的方法，还包括：将所述二维关键点映射到三维关键点。