CN119200859B

CN119200859B - 一种基于ar眼镜的多功能检测识别交互系统及其使用方法

Info

Publication number: CN119200859B
Application number: CN202411736571.1A
Authority: CN
Inventors: 刘向农; 刘伟平
Original assignee: Jixin Integrated Circuit Industry Research Institute
Current assignee: Jixin Integrated Circuit Industry Research Institute
Priority date: 2024-11-29
Filing date: 2024-11-29
Publication date: 2025-07-01
Anticipated expiration: 2044-11-29
Also published as: CN119200859A

Abstract

本发明涉及一种基于AR眼镜的多功能检测识别交互系统，包括头箍佩戴件和装置主机，装置主机的背板与头箍佩戴件的前部连接，装置主机底部设有双衍射光机组件和手势识别组件，双衍射光机组件包括影像输出光机和波导衍射镜片，波导衍射镜片用于将影像源成像至左、右眼视野区；手势识别组件用于拍摄识别佩戴者的手势；装置主机的前侧面中间设有摄像头和TOF传感器。本发明通过使用影像输出光机和波导衍射镜片，能够提供更清晰的图像，波导衍射镜片实现更轻薄的设计，并助于将虚拟信息自然地叠加到用户的视野中，而不会造成明显的视觉失真；内置的手势识别组件使得用户可以通过简单的手势进行指令发送；配备的摄像头与TOF传感器结合使用，精准空间定位及物体距离测量等功能。

Description

一种基于AR眼镜的多功能检测识别交互系统及其使用方法

技术领域

本发明涉及增强现实技术领域，具体的说，是涉及一种基于AR眼镜的多功能检测识别交互系统及其使用方法。

背景技术

在工业环境中，增强现实（AR）眼镜作为一种能够提供实时信息和指导的工具，受到了广泛的关注。有的工业作业环境需要佩戴安全帽，比如电力厂的电力检查、火灾现场的消防救援、建筑施工场地的测绘作业等；有的工业作业环境无需佩戴安全帽，比如电子装配车间的电子检修、家用电器维修等。

现有AR眼镜产品通常采用较为传统的眼镜结构设计，其中用于显示虚拟图像的电子部件，如显示器、光学组件、处理器和其他电子模块，主要集中在两个镜框中间的部分，没有很好地解决重量分布问题，导致长时间佩戴后会感到疲劳或不适，尤其是在鼻梁和耳朵部位的压力较大。而且常规眼镜结构的AR眼镜可配置的空间较少，导致其仅能提供基础的显示功能，缺少如手势识别、语音控制等高级交互手段，限制了其在工业等复杂场景下的应用潜力。

以上问题，值得解决。

发明内容

为了克服现有的技术的不足，本发明提供一种基于AR眼镜的多功能检测识别交互系统及其使用方法。

本发明技术方案如下所述：

本发明提供一种基于AR眼镜的多功能检测识别交互系统，包括头箍佩戴件和装置主机，所述装置主机的背板与所述头箍佩戴件的前部下边缘连接，所述装置主机的底部设有双衍射光机组件和手势识别组件，所述双衍射光机组件包括影像输出光机和波导衍射镜片，所述影像输出光机用于输出影像源至波导衍射镜片，所述波导衍射镜片用于将影像源成像至佩戴者的左、右眼视野区域内；所述手势识别组件用于拍摄识别佩戴者的手势；所述装置主机的前侧面中间设有摄像头和TOF传感器，所述摄像头用于拍摄周围环境的实景影像，所述TOF传感器用于实时测量物体与所述TOF传感器之间的距离；

所述手势识别组件拍摄并识别佩戴者的手势，包括：

S1、读入预先训练好的手掌检测模型和手部关键点检测模型；

S2、手势识别镜头捕捉的手部图像；

S3、使用手掌检测模型定位手部图像中的手掌区域；

S4、使用手部关键点检测模型获取手部的关键点位置；

S5、利用关键点的位置信息，通过算法计算手指角度；

S501、计算手腕到手指根部的第一向量；

S502、计算手指根部到指尖的第二向量；

S503、计算第一向量和第二向量之间的角度；

S6、根据计算出的手指角度与预设阈值进行比较，判断出手势类型。

根据上述方案的本发明，所述摄像头左右两侧均设有红外LED补光灯。

根据上述方案的本发明，所述装置主机的工作主板集成有处理单元和存储单元，所述处理单元用于根据AR眼镜的摄像头和/或传感器获取的真实场景及空间定位数据分析环境，并自动计算出放置虚拟内容的相应位置，还用于从所述存储单元调取显示内容在相应位置进行显示。

根据上述方案的本发明，所述装置主机的侧边设有热成像镜头组件，所述热成像镜头组件设有手动对焦环，通过旋转所述手动对焦环以调整热成像镜头的焦距。

根据上述方案的本发明，所述装置主机的工作主板集成有定位模块、惯性测量模块，所述定位用于获取用户当前的位置，所述惯性测量模块用于检测用户的运动状态。

根据上述方案的本发明，还包括控制主机，所述控制主机通过数据线与所述装置主机电连接以传输数据，或者向所述装置主机发送控制指令。

根据上述方案的本发明，所述控制主机设有拾音器和立体声耳机，所述控制主机的主控板集成有处理器、蜂窝网络模块、图像编解码模块和音频编解码模块；

所述控制主机通过4G/5G网络接收音频数据流、视频数据流；

所述音频编解码模块解码接收到的音频数据流，将其转换为可播放的音频信号，所述立体声耳机播放音频；

所述图像编解码模块解码接收到的视频数据流，将其转换为可显示的图像帧，所述双衍射光机组件播放图像帧。

根据上述方案的本发明，所述手势识别组件设置在所述装置主机的底部右侧，其手势识别镜头的拍摄方向朝下以近距离拍摄佩戴者的右手手势。

本发明还提供一种如上述方案的基于AR眼镜的多功能检测识别交互系统的使用方法：

将头箍佩戴件固定于头部，确保装置主机位于额头前方且双衍射光机组件位于鼻梁前方，波导衍射镜片正对双眼；

启动控制主机和装置主机，系统自检并初始化，包括摄像头、红外LED补光灯、TOF传感器、手势识别组件以及热成像镜头；

摄像头捕捉周围环境实景影像，TOF传感器实时测量物体与传感器之间的距离，系统分析用户的环境；

根据数据自动计算虚拟内容的位置，调取相应的内容，并通过波导衍射镜片将虚拟图像叠加到用户的现实视野中；

通过手动对焦环调整热成像镜头的焦距；

热成像镜头组件捕捉物体的热辐射，并将其转化为可视化的热力图像；

手势识别组件拍摄并识别用户手势，将识别出的手势信号传输给处理单元以输出相应的指令或对于的信息；

控制主机通过4G/5G网络与其他控制主机或者后端平台远程通讯，包括发送短信、音视频实时播报。

根据上述方案的本发明，所述手势识别组件拍摄并识别用户手势，包括：

S2、手势识别镜头捕捉的手部图像；

S3、使用手掌检测模型定位手部图像中的手掌区域；

S4、使用手部关键点检测模型获取手部的关键点位置；

S5、利用关键点的位置信息，通过算法计算手指角度；

S6、根据计算出的手指角度与预设阈值进行比较，判断出手势类型；

进一步的，步骤5中的所述计算手指角度，包括以下步骤：

S501、计算手腕到手指根部的第一向量；

S502、计算手指根部到指尖的第二向量；

S503、计算第一向量和第二向量之间的角度。

进一步的，步骤6包括以下步骤：

S601、设定拇指角度阈值为53°、第一角度阈值为65°、第二角度阈值为49°；

S602、拇指的角度大于拇指角度阈值，则进入步骤S603，否则进入步骤S605；

S603、其余四指的角度大于第一角度阈值，则判定为拳头手势，否则进入步骤S604；

S604、根据其余四指的角度小于第二角度阈值的手指数量，判定为数字1、2、3、4；

S605、拇指的角度小于第二角度阈值，且其余四指的角度大于第一角度阈值，则判定为大拇指手势，否则进入步骤S606；

S606、拇指、尾指的角度小于第二角度阈值，且其余三指的角度大于第一角度阈值，则判定为数字6，否则进入步骤S607；

S607、拇指、食指的角度小于第二角度阈值，且其余三指的角度大于第一角度阈值，则判定为数字8，否则进入步骤S608；

S608、拇指、食指、中指、无名指、尾指的角度均小于第二角度阈值，则判定为张开手掌。

更进一步的，为了降低模型复杂度的同时保证模型的精度，本发明手掌检测模型和手部关键点检测模型均采用DHRNet网络模型。

根据上述方案的本发明，其有益效果在于：

本发明通过使用影像输出光机和波导衍射镜片，能够提供更清晰的图像，双衍射光机组件的波导衍射镜片可以实现更轻薄的设计，并且有助于将虚拟信息自然地叠加到用户的视野中，而不会造成明显的视觉失真或不适；

内置的手势识别组件使得用户可以通过简单的手势进行指令发送，进行手势沟通；配备的摄像头与TOF传感器结合使用，不仅可以让设备更好地理解周围环境，还能实现精准的空间定位及物体距离测量等功能；

装置主机背板直接连接于头箍佩戴件前端下缘处，有助于长时间佩戴的舒适性，确保即使在持续工作状态下也能保持良好的用户体验。

附图说明

图1为本发明的结构示意图；

图2为本发明另一视角的结构示意图；

图3为本发明的结构分解图；

图4为本发明中头箍佩戴件的结构示意图；

图5为本发明中装置主机的背面结构示意图；

图6为本发明的装置主机的结构分解图；

图7为本发明中波导衍射镜片倾斜设置的示意图；

图8为本发明中双衍射光机组件的结构分解图；

图9为双衍射光机组件另一视角的结构分解图；

图10为一优选实施例中热成像镜头组件的结构示意图；

图11为现有HRNet网络模型的结构示意图；

图12为本发明的DHRNet网络模型的结构示意图。

在图中，

1、头箍佩戴件；101、前部；102、支脚；11、转轴；12、电插口；13、凹弧结构；14、第一穿线孔；

2、装置主机；20、放置槽位；21、容纳腔；211、腔室盖板；22、轴槽；221、轴销；23、弧形插槽；24、第二穿线孔；

3、双衍射光机组件；31、影像输出光机；32、波导衍射镜片；321、弧形槽口；33、光机主壳体；331、方形散热孔；332、圆形出光孔；333、安装槽；34、壳体侧盖板；35、壳体背板；351、限位槽；352、凸弧面；353、定位销；

41、摄像头；42、红外LED补光灯；43、TOF传感器；44、手势识别镜头组件；

5、防护镜；51、卡接槽；52、承托槽；

6、热成像镜头组件；61、手动对焦环；62、镜头座；63、插接头；

7、松紧带；

8、第一供电主机；81、穿接孔；82、凹弧面；

9、第二供电主机；91、数据线。

具体实施方式

为了更好地理解本发明的目的、技术方案以及技术效果，以下结合附图和实施例对本发明进行进一步的讲解说明。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时声明，以下所描述的实施例仅用于解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件，当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

指示方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

术语“第一”、“第二”仅用于便于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明技术特征的数量。

如图1至图3所示，一种基于AR眼镜的多功能检测识别交互系统，包括头箍佩戴件1和装置主机2，头箍佩戴件1与装置主机2之间可以是固定连接，也可以是转动连接，还可以是可拆卸连接。用户通过佩戴头箍佩戴件1，实现将装置主机2固定在使用者的额头部。

在本实施例中，装置主机2的背板与头箍佩戴件1的前部101下边缘连接，能够实现头箍佩戴件1避开装置背面上的散热孔，防止因遮挡影响装置主机2的散热效果。装置主机2连接于头箍佩戴件1的下边缘，还能使得装置主机2的上表面位于头箍佩戴件1前部101的下方，从而使得装置主机2的上表面在头箍佩戴件1的前方形成一个放置槽位20。当用户佩戴安全帽时，安全帽的帽舌可置于放置槽位20上，AR眼镜可兼容安全帽使用，且装置主机2能够承载安全帽的部分重量；当用户摘下安全帽时也无需摘下AR眼镜。可见，AR眼镜的使用独立于安全帽，且能够牢固地佩戴在用户头部。

装置主机2的形状呈弯月状，装置主机2的宽度等于头箍佩戴件1的两侧支脚102之间的间距，使得装置主机2的尺寸更接近帽舌，增加与帽舌的接触面积，利于同时佩戴AR眼镜和安全帽的稳定性。装置主机2内部的工作主板也呈弯月状，以适配装置主机2内部结构，同时具有充足的电子元件布设空间，为多功能AR眼镜的实现提供物理基础。

头箍佩戴件1的前部101顶端朝后倾斜，使得头箍佩戴件1的前部101顺利插入安全帽与佩戴者头部之间的缝隙中，并且头箍佩戴件1的前部101背侧面能够贴合用户（或称佩戴者）的前额，从而增加佩戴接触面积，减轻装置及安全帽的重力压强，提高佩戴舒适度。

头箍佩戴件1的前部101和两侧支脚102一体成型而成，形成具有开口的环状，且两侧支脚102具有一定的弹性，方便用户撑开两个支脚102并进行佩戴。头箍佩戴件1的开口处设有松紧带7，松紧带7的两端分别连接于两侧支脚102，利用松紧带7调节头箍佩戴件1的紧固程度。

如图5所示，在一个优选实施例中，头箍佩戴件1的前部101下边缘设有转轴11，装置主机2的背面设有轴槽22，轴槽22内设有轴销221，转轴11与轴销转动连接，从而实现装置主机2沿着转轴11可相对头箍佩戴件1转动，转动角度为0至60°。

如图4所示，在一个可选实施例中，头箍佩戴件1的前部101与支脚102的衔接处具有凹弧结构13，凹弧结构13能够减轻头箍佩戴件1的前部101重量，利于减轻AR眼镜产品整体的前端重量，避免产品前端重量过重而影响佩戴稳定性和舒适性。头箍佩戴件1的背侧面（与用户头部接触的一面）设有硅胶或海绵等柔性材质，可避免硬性材质壳体对用户头部造成损伤，故头箍佩戴件1柔性的背侧面能够提高佩戴舒适性和安全性。

在本发明中，头箍佩戴件1的其中一个支脚102末端设有电插口12，电插口12与装置主机2的工作主板电连接；第一供电主机8利用电源线与电插口12插接，以向工作主板提供电能。其中，头箍佩戴件1内部设有柔性电路板，头箍佩戴件1与装置主机2的连接处设有走线通道，柔性电路板一端连接电插口12，另一端通过走线通道内的连接线与工作主板电连接。

第一供电主机8的输出接口设置在靠近电插口12的一侧，方便在同一侧上连接第一供电主机8的输出接口和头箍佩戴件1的电插口12，利于缩短连接线材的长度。

在一个具体实施例中，头箍佩戴件1的前壳体设有第一穿线孔14，装置主机2的壳体背板35对应设有第二穿线孔24，第一穿线孔14作为头箍佩戴件1与装置主机2之间走线通道的一端，第二穿线孔24作为走线通道的另一端，且走线通道内置用于连接柔性电路板和工作主板的连接线。在头箍佩戴件1和装置主机2为转动连接结构的AR眼镜产品中，第一穿线孔14设置在头箍佩戴件1的前壳体靠近转轴11一侧，第二穿线孔24设置在轴槽22的侧壁，且第一穿线孔14和第二穿线孔24位于转轴11同一侧。

第一供电主机8的两端设有穿接孔81，松紧带7与穿接孔81可拆卸连接以将第一供电主机8安装在松紧带7上，具体地，松紧带7的一端连接左侧支脚102末端，另一端依次穿过第一供电主机8的左侧穿接孔81、第一供电主机8的右侧穿接孔81，再与右侧支脚102末端连接。第一供电主机8的底面（靠近用户头部的一面）为凹弧面82，凹弧面结构设计有利于更好地贴合用户的后脑部，提高佩戴舒适性。

在本发明中，装置主机2的底部中间设有双衍射光机组件3，双衍射光机组件3包括影像输出光机31和波导衍射镜片32，影像输出光机31用于输出影像源至波导衍射镜片32，波导衍射镜片32用于将影像源成像至佩戴者的左、右眼视野区域内，实现左右双通道增强现实的效果。

在一个应用例中，影像输出光机31的影像源来源于云端或后台终端。具体如消防行业中，指挥中心通过摄像头41监控现场环境，在后台终端分析现场火情、制定救援计划，再将命令或分析信息等数据远程发送至现场消防员的AR眼镜，最后通过双衍射光机组件3成像至波导衍射镜片32，实现消防员同步获取信息，与指挥中心实时沟通交流。

在其他应用例中，影像输出光机31的影像源来源于装置主机2内的存储单元。装置主机2的工作主板至少集成有处理单元（MCU）和存储单元，处理单元可以根据AR眼镜的摄像头41和/或传感器获取的真实场景及空间定位数据分析环境，并自动计算出如何准确地将虚拟内容放置于真实世界的相应位置，从存储单元内调取显示内容并在对应的位置进行显示。例如，分析出前方的柜子位置以及距离用户为2米，则将文字信息“2米”以及距离尺图标正确显示在柜子上。

如图8和图9所示，在一个可选实施例中，双衍射光机组件3不仅包括影像输出光机31和波导衍射镜片32，还包括：光机主壳体33、壳体侧盖板34、壳体背板35，光机主壳体33具有用于安装影像输出光机31的腔室，腔室具有侧向开口，壳体侧盖板34可拆卸安装于光机主壳体33的侧向开口处，光机主壳体33和壳体侧盖板34组装成防护壳。光机主壳体33的一侧设有方形散热孔331，相对的另一侧设有圆形出光孔332，且方形散热孔331和圆形出光孔332位于侧向开口的两侧。方形散热孔331能够为防护壳内的影像输出光机31提供散热出口，利于影像输出光机31工作产生的热量排出。圆形出光孔332大小等于影像输出光机31的光口大小，能够为防护壳内的影像输出光机31提供较大的出光口，可以满足影像输出光机31采用更短焦距的镜头来实现相同的视场角，利于将影像投放至近距离的波导衍射镜片32上；不仅如此，较大的出光口可以通过更多的光线，有助于提高画面的整体亮度，从而提供清晰的虚拟图像。

光机主壳体33和壳体侧盖组装成的防护壳在靠近圆形出光孔332一侧设有用于安装波导衍射镜片32的安装槽333，壳体背板35对应设有限位槽351，且限位槽351适配波导衍射镜片32的结构。壳体背板35可安装拆卸于防护壳上，并通过相互拼接的限位槽351和安装槽333将波导衍射镜片32固定。壳体背板35的上下两端设有螺孔，在维护或更换波导衍射镜片32时，可通过旋拧螺丝的方式拆卸壳体背板35，再将波导衍射镜片32取下。在安装波导衍射镜片32时，通过限位槽351和安装槽333的组合结构固定波导衍射镜片32，无需复杂的镜片调试，非常方便。

壳体背板35的上、下螺孔旁侧均设有定位销353，光机主壳体33的背面相应设有销孔，在安装壳体背板35时仅需将定位销353对准插入销孔内即可快速完成安装。

波导衍射镜片32的中部下侧设有弧形槽口321，中部镜片的宽度仅需满足覆盖圆形出光孔332，以使得光线顺利耦入波导衍射镜片32内即可，弧形槽口321既能够起到安装定位的作用，还能够减少镜片用料以节约成本。对应地，壳体背板35的限位槽351下端设有凸弧面352，凸弧面352与波导衍射镜片32的弧形槽口321部分下表面贴合，确保波导衍射镜片32安装稳定。

如图7所示，在一个优选实施例中，波导衍射镜片32倾斜设置，具体地，其顶端靠近影像输出光机31，底端远离影像输出光机31；波导衍射镜片32的倾角α范围为10°至15°，倾斜状态的波导衍射镜片32既能够使得影像输出光机31的光线更好地耦入波导衍射镜片32，还能防止AR眼镜下方的环境光通过波导衍射镜片32的内侧镜面反射至人眼，影响观看波导衍射镜片32上的影像。相应地，光机主壳体33的安装槽333和壳体背板35的限位槽351均倾斜设置，以适配倾斜状态的波导衍射镜片32。

如图5和图6所示，在一个可选实施例中，装置主机2的壳体底部中间向下延伸形成用于安装双衍射光机组件3的容纳腔21，且装置主机2的内腔与容纳腔21连通，方便双衍射光机组件3的接线排从容纳腔21穿入装置主机2内腔后与工作主板电连接。容纳腔21配置有可拆卸的腔室盖板211，容纳腔21内部设有两根螺柱，腔室盖板211对应设有螺栓孔，双衍射光机组件3的光机主壳体33设有带螺孔的连接耳，将双衍射光机组件3置入容纳腔21，盖上腔室盖板211，且螺柱的螺孔、连接耳的螺孔、腔室盖板211的螺栓孔对应对齐，螺栓由外至内穿过，拧紧螺栓即可将双衍射光机组件3固定安装在容纳腔21内。容纳腔21的侧壁和腔室盖板211的侧壁均设有用于避让波导衍射镜片32的缺口。

在本发明中，装置主机2的底部前侧设有透明的防护镜5，防护镜5的材质可以是聚碳酸酯，聚碳酸酯的防护镜5具有抗冲击性能和轻量化的特点；防护镜5的材质也可以玻璃，玻璃的防护镜5硬度较高，表面更加坚硬和平滑，不易被刮花。

防护镜5的底部设有承托槽52，当用户佩戴AR眼镜时，用户的鼻梁置入承托槽52内，增加鼻梁与防护镜5的接触面积，减小防护镜5在鼻梁上的重力压强，提升佩戴舒适度。优选地，可在承托槽52的槽底设置硅胶或海绵等柔性材质。

防护镜5呈弧形，防护镜5的弦高不小于2厘米，且防护镜5的宽度大于波导衍射镜片32的宽度，以提供足够的空间安装双衍射光机组件3，避免影响佩戴；同时防护镜5在双衍射光机组件3前侧形成半包围的保护结构。

如图5所示，装置主机2的壳体底部对应防护镜5位置设有弧形插槽23，壳体内壁邻近弧形插槽23处设有卡接块，防护镜5的顶端设有卡接槽51，卡接槽51与卡接块的数量及位置一一对应，通过上述结构可实现防护镜5与装置主机2的可拆卸安装，方便检修人员对老化的防护镜5进行维修或更换。

如图1所示，在本发明中，装置主机2的前侧面中间设有摄像头41，摄像头41用于拍摄周围环境的实景影像，通过处理单元进行计算处理，实现对周围环境的空间定位和三维映射，基于摄像头41捕捉到的现实世界图像，AR眼镜可以实时地在其上叠加虚拟信息或图形。摄像头41获取的拍摄数据可存储于存储单元，还可以通过无线网络或移动网络传输至其他设备或上传云端。

摄像头41左右两侧均设有红外LED补光灯42，在完全黑暗的环境中，红外LED补光灯42发出的红外光照射物体，摄像头41中的CCD或CMOS传感器捕捉到反射回来的红外光，并将其转换成图像，实现摄像头41带红外夜视功能。

装置主机2的前侧面中间还设有TOF传感器43，TOF传感器43位于摄像头41下方；TOF传感器43用于实时测量物体与TOF传感器43之间的距离；TOF传感器43可以为视野中的每个点都测量出一个距离值，从而生成一张完整的深度图。深度图显示了各个位置的深度信息，即每个像素点对应的实际距离。生成的深度图会被进一步处理，AR眼镜系统通过深度图重建用户周围的三维环境，并据此放置虚拟对象或进行其他操作。

装置主机2的侧边设有热成像镜头组件6，热成像镜头组件6通过检测物体发出的红外辐射（热量）来生成图像，可显示不同物体的温度分布；通过热成像镜头捕捉到的温度信息，AR眼镜系统可在用户的视野中叠加虚拟信息，如温度读数、警报提示等。

在一个具体应用例中，带有热成像功能的AR眼镜在消防领域具有非常重要的作用。热成像镜头能够迅速检测并显示高温区域，帮助消防员快速定位火源位置。在一些情况下，火源可能被墙壁、家具或其他障碍物遮挡，热成像镜头可以通过检测热量穿透障碍物，帮助消防员发现隐藏的火源，利于消防员更早地采取措施；通过热成像图像，消防员可以直观地看到火势的蔓延方向和速度，从而更好地规划灭火策略和疏散路线；在浓烟和低能见度的环境中，利用人体发出的热量与周围环境的明显区别，热成像镜头帮助消防员找到被困人员，使得救援工作更加高效；在火灾扑灭后，热成像镜头可以用来检测可能存在余烬或过热点的位置，防止复燃等。

如图10所示，在一个优选实施例中，热成像镜头组件6设有手动对焦环61，通过旋转手动对焦环61可以调整热成像镜头的焦距，以获得所需的清晰度。热成像图的清晰度直接影响到用户对细节的识别和分析能力，以细节识别方面为例，清晰的图像可以帮助用户更准确地识别和区分不同的物体或区域，比如，在工业检测中，清晰的图像可以更容易地发现设备中的热点或缺陷。另外，由于在某些极端环境下（如高温、高湿度、低光照等），自动对焦系统可能会受到影响，故手动对焦功能的热成像镜头在火灾高温现场中更为可靠。

在一个可选实施例中，热成像镜头组件6具有镜头座62，镜头座62的一侧设有插接头63，而装置主机2对应设有插接槽，通过插接头63与插接槽的连接结构，实现热成像镜头组件6与装置主机2可拆卸连接，并通过装置主机2取电。本实施例满足用户根据实际需求情况对AR眼镜产品进行选配，灵活性更高；也利于降低维护成本，当热成像镜头出现故障或损坏，可以简单地更换该热成像镜头组件6而不是整个设备。

在本发明中，装置主机2的工作主板集成有北斗模块和/或GPS模块、惯性测量模块，北斗模块和/或GPS模块通过接收北斗或GPS卫星信号，获取用户当前的精确位置信息；惯性测量模块用于检测用户的运动状态，包括行走方向、速度和姿态等。

AR眼镜系统访问云端或者存储单元中的地图数据库，利用根据用户的当前位置和目的地，计算出最优路径，并生成导航指令；AR眼镜系统通过波导衍射镜片32显示导航指令，如导航箭头、距离提示等，最终实现在用户视野中叠加导航信息。

在本发明中，AR眼镜配置有第二供电主机9，第二供电主机9可选尺寸为115×70×34mm，方便作业人员将第二供电主机9放置在手臂口袋或者胸前口袋。第二供电主机9通过数据线91与装置主机2的电插口12连接。

在一个可选实施例中，第一供电主机8为控制主机，第二供电主机9为移动充电电源。

在另一个可选实施例中，第一供电主机8为移动充电电源，第二供电主机9为控制主机。

其中，移动充电电源通过头箍佩戴件1的电插口12连接装置主机2，为工作主板提供工作所需电能。控制主机通过头箍佩戴件1的电插口12连接装置主机2，既能给装置主机供电，还能与装置主机2之间收发数据，向装置主机2发送控制指令。具体地，控制主机设有拾音器和立体声耳机，控制主机的主控板集成有处理器、蜂窝网络模块（4G/5G）、图像编解码模块和音频编解码模块，处理器用于协调各个模块的工作以处理视频和音频数据。控制主机通过4G/5G网络接收对方的音、视频数据；音频编解码模块解码接收到的音频数据流，将其转换为可播放的音频信号，立体声耳机播放音频；图像编解码模块解码接收到的视频数据流，将其转换为可显示的图像帧，影像输出光机31输出图像帧。

装置主机2的摄像头41捕捉用户前方的视频画面，通过处理单元编码后传输视频数据流给控制主机；控制主机通过拾音器采集用户的语音，并编码形成音频数据流；控制主机通过4G/5G网络发送音、视频数据至对方。可见，本发明通过配置控制主机，增加AR眼镜的语音视频通话功能，通过网络连接，类似于直播方式，将眼前的影像发送给通话另一方，并且可以实时沟通交流。

在一个可选实施例中，控制主机设有显示屏或触控屏，屏幕下方设有若干按键。显示屏显示内容包括但不限于：网络运营商、网络连接状态、电池电量、日期、时间和短信。按键包括上下左右四个方向键和确认键，方便在控制主机上进行设置操作、选择操作、翻页操作等。当屏幕为触控屏时，用户可通过触控屏进行上述操作。

如图2所示，在本发明中，装置主机2靠近人手右侧的底部设有手势识别镜头组件44，手势识别镜头组件44的拍摄方向朝下，可见，本方案的AR眼镜手势识别区域在AR眼镜的下方右手侧，近距离拍摄右手手势，该设计符合大多数人的右手用手习惯。

本发明还提供一种上述方案的基于AR眼镜的多功能检测识别交互系统的使用方法：

步骤A、将头箍佩戴件固定于头部，确保装置主机位于额头前方且双衍射光机组件位于鼻梁前方，波导衍射镜片正对双眼；

步骤B、启动控制主机和装置主机，系统自检并初始化，包括摄像头、红外LED补光灯、TOF传感器、手势识别组件以及热成像镜头；

步骤C、摄像头捕捉周围环境实景影像，TOF传感器实时测量物体与传感器之间的距离，系统分析用户的环境；

步骤D、根据数据自动计算虚拟内容的位置，调取相应的内容，并通过波导衍射镜片将虚拟图像叠加到用户的现实视野中；

步骤E、通过手动对焦环调整热成像镜头的焦距；

步骤F、热成像镜头组件捕捉物体的热辐射，并将其转化为可视化的热力图像；

步骤G、手势识别组件拍摄并识别用户手势，将识别出的手势信号传输给处理单元以输出相应的指令或对于的信息；

步骤H、控制主机通过4G/5G网络与其他控制主机或者后端平台远程通讯，包括发送短信、音视频实时播报。

在步骤G中，所述手势识别组件拍摄并识别用户手势，包括：

S2、手势识别镜头捕捉的手部图像；

S3、使用手掌检测模型定位手部图像中的手掌区域；

S4、使用手部关键点检测模型获取手部的关键点位置；

S5、利用关键点的位置信息，通过算法计算手指角度；

其中，步骤S5中的所述计算手指角度，包括以下步骤：

S501、计算手腕到手指根部的第一向量；

S502、计算手指根部到指尖的第二向量；

S503、计算第一向量和第二向量之间的角度。

其中，步骤S6包括以下步骤：

为了降低模型复杂度的同时保证模型的精度，本发明手掌检测模型和手部关键点检测模型均采用DHRNet网络模型，在现有HRNet 网络模型进行改进。

如图11所示，首先，HRNet 网络模型首先经过两次卷积操作对输入图像进行下采样，将输入图像的分辨率降低4倍，达到初始尺寸的1/4，然后进入到主网络中。HRNet 网络的主体部分由四个阶段组成，其中阶段1由4个BottleNeck残差单元构成，阶段1后是一系列交换结构以及阶段结构，每经过一个交换结构网络都会通过下采样操作增加一个尺度分支。此外，为了获得多尺度信息，网络中每个阶段都会对不同尺度的特征进行融合。阶段2、阶段3和阶段4分别重复堆叠1，4，3次，其中阶段4中的最后一个交换单元只保留分辨率最高的特征层，最终在高分辨率特征图上进行手部点预测。

观察 HRNet 网络结构可以发现，随着低分辨率子网络的增加，网络分支以及卷积模块也随之增多，从而导致网络的参数量和模型的计算开销随着阶数的增加而成指数倍增加。但是在实际应用中，往往需要兼备速度快、精度高的要求。

如图12所示，DHRNet网络模型保留了前三个阶段（阶段1、阶段2和阶段3）的基础上，将阶段4改为阶段 D，阶段 D通过转置卷积融合了多尺度的特征，并大幅减少了模型的参数量还在其输出的最高分辨率特征图上再次添加了一个转置卷积，生成了更高分辨率的特征图用于预测热图。

为了更好地处理尺度变化，提升网络对学习误差的感知能力，在训练时采用了多分辨率监督策略。具体地，将阶段 D中的最高分辨率（输入的1/4分辨率）分支与经过转置卷积后的更高分辨率（输入的1/2分辨率）分支分别计算预测热图的损失函数，最终热图的损失值为上述两分支损失的总和。

在阶段 D中，含有i个关键点的1/4分辨率热图和在转置卷积操作之后，最终得到的1/2分辨率热图为网络的学习目标。采用二维高斯分布函数生成真实热图 h_i（x,y）:

其中，（x,y）表示真实热图中任意像素点的位置坐标，（x_i,y_i）为高斯函数的中心，表示第i个关键点的真实位置坐标，表示每个关键点预设的高斯函数的标准差。

预测热图由如下公式计算得到：

损失函数分为分类损失和回归损失，采用均方误差MSE损失函数进行计算，公式如下：

其中，Nb表示手部关键点的数量，和分别表示第b幅热图的预测热力图和真实热力图。

将阶段D中的最高分辨率（输入的1/4分辨率）分支损失值用表示，将经过转置卷积后的更高分辨率（输入的 1/2 分辨率）分支损失值用表示，最终关键点检测热图的总损失值L为：

最后，提供实验：改进后的DHRNet网络在COCO数据集上进行实验验证，具体如下：

1、COCO关键点检测数据集设计了目标关键点相似度（OKS）指标，用来表示真实值与预测的手部关键点之间的相似度。OKS计算方法如下所示：

其中，i表示第 i 个手部关键点，d_i表示第 i 个手部关键点的预测位置与真实位置之间的欧氏距离，s 表示目标的尺度，为目标检测框的面积，k_i表示手部点的归一化因子，是一个用来控制衰减的常量。v_i表示手部点的可见性，可以取 0、1、2，0 表示手部点未标注，1表示手部点已标注但是存在遮挡不可见，2表示手部点已标注且可见。表示当时取值为 1，否则为 0。

2、平均准确度 AP：

其中，p表示目标数，T为预先设定的OKS阈值，只有当OKS值大于阈值时，才表明预测正确。用来表示OKS与阈值T之间的关系，若OKS大于T则取值为1。

表示的是在T=n时的准确率，表示中尺度目标平均准确率，表示大尺度目标的平均准确率，表示平均召回率。

先将手部检测框高度与宽度的纵横比调整到 4：3，然后从图像中剪裁该框并调整至固定输入大小。为了减少计算成本和实验周期，本实验网络的输入尺寸设置为256 像素x192像素。此外，数据增强方法采取的是随机旋转、随机尺度变换和翻转，随旋转范围为[-45°,45°]，随机尺度变换范围为[0.65，1.35]。需要说明的是，0.65和1.35没有单位，它们表示的是相对于原图像尺寸的比例因子。

实验结果表明，将阶段4改进为阶段D可以有效降低网络参数量和计算量，准确率与原先基本一致。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于AR眼镜的多功能检测识别交互系统，其特征在于，包括头箍佩戴件和装置主机，所述装置主机的背板与所述头箍佩戴件的前部下边缘连接，所述头箍佩戴件的前部下边缘设有转轴，所述装置主机的背面设有轴槽，所述轴槽内设有轴销，所述转轴与所述轴销转动连接，所述装置主机沿着所述转轴可相对所述头箍佩戴件转动，且转动角度为0至60°；

所述装置主机的底部设有双衍射光机组件和手势识别组件，所述双衍射光机组件包括影像输出光机、波导衍射镜片、光机主壳体、壳体侧盖板和壳体背板，所述影像输出光机用于输出影像源至波导衍射镜片，所述波导衍射镜片用于将影像源成像至佩戴者的左、右眼视野区域内；波导衍射镜片倾斜设置，波导衍射镜片的顶端靠近影像输出光机，底端远离影像输出光机；所述波导衍射镜片的倾角α范围为10°至15°；

所述光机主壳体具有用于安装影像输出光机的腔室，所述腔室具有侧向开口，所述壳体侧盖板可拆卸安装于所述光机主壳体的侧向开口处以与所述光机主壳体组装成防护壳，所述光机主壳体的一侧设有方形散热孔，相对的另一侧设有圆形出光孔，所述方形散热孔和圆形出光孔位于侧向开口的两侧；所述防护壳在靠近圆形出光孔一侧设有安装槽，所述壳体背板对应设有限位槽，所述壳体背板可安装拆卸于防护壳上，通过所述限位槽和安装槽的组合结构固定波导衍射镜片；

所述手势识别组件用于拍摄识别佩戴者的手势；

所述装置主机的前侧面中间设有摄像头和TOF传感器，所述摄像头用于拍摄周围环境的实景影像，所述TOF传感器用于实时测量物体与所述TOF传感器之间的距离；

所述手势识别组件拍摄并识别佩戴者的手势，包括：

S2、手势识别镜头捕捉的手部图像；

S3、使用手掌检测模型定位手部图像中的手掌区域；

S4、使用手部关键点检测模型获取手部的关键点位置；

S5、利用关键点的位置信息，通过算法计算手指角度；

S501、计算手腕到手指根部的第一向量；

S502、计算手指根部到指尖的第二向量；

S503、计算第一向量和第二向量之间的角度；

手掌检测模型和手部关键点检测模型均采用DHRNet网络模型，所述DHRNet网络模型的前三阶段采用HRNet 网络模型的前三阶段，且所述DHRNet网络模型的第四阶段将最高分辨率分支与经过转置卷积后的更高分辨率分支分别计算预测热图的损失函数，最终热图的损失值为上述两分支损失的总和，其中，最高分辨率为输入的1/4分辨率，更高分辨率为输入的1/2分辨率；具体地，

将含有i个关键点的1/4分辨率热图和在转置卷积操作之后，得到的1/2分辨率热图为网络的学习目标，采用二维高斯分布函数生成真实热图 hi（x,y），并利用下述公式得到预测热图 hi*（x,y）：

；

关键点检测热图的总损失值L为：

；

其中，Loss1/4表示输入的1/4分辨率分支损失值，Loss1/2表示经过转置卷积后的1/2分辨率分支损失值。

2.根据权利要求1所述基于AR眼镜的多功能检测识别交互系统，其特征在于，所述装置主机的侧边设有热成像镜头组件，所述热成像镜头组件设有手动对焦环，通过旋转所述手动对焦环以调整热成像镜头的焦距。

3.根据权利要求1所述基于AR眼镜的多功能检测识别交互系统，其特征在于，所述装置主机的工作主板集成有定位模块、惯性测量模块，所述定位用于获取用户当前的位置，所述惯性测量模块用于检测用户的运动状态。

4.根据权利要求1所述基于AR眼镜的多功能检测识别交互系统，其特征在于，还包括控制主机，所述控制主机通过数据线与所述装置主机电连接以传输数据，或者向所述装置主机发送控制指令。

5.根据权利要求4所述基于AR眼镜的多功能检测识别交互系统，其特征在于，所述控制主机设有拾音器和立体声耳机，所述控制主机的主控板集成有处理器、蜂窝网络模块、图像编解码模块和音频编解码模块；

所述控制主机通过4G/5G网络接收音频数据流、视频数据流；

6.根据权利要求1所述基于AR眼镜的多功能检测识别交互系统，其特征在于，所述手势识别组件设置在所述装置主机的底部右侧，其手势识别镜头的拍摄方向朝下以近距离拍摄佩戴者的右手手势。

7.一种如权利要求1至6任一项所述的基于AR眼镜的多功能检测识别交互系统的使用方法，其特征在于，步骤如下：

启动控制主机和装置主机，系统自检并初始化；

通过手动对焦环调整热成像镜头的焦距；

8.根据权利要求7所述的基于AR眼镜的多功能检测识别交互系统的使用方法，其特征在于，所述手势识别组件拍摄并识别用户手势，包括：

S2、手势识别镜头捕捉的手部图像；

S3、使用手掌检测模型定位手部图像中的手掌区域；

S4、使用手部关键点检测模型获取手部的关键点位置；

S5、利用关键点的位置信息，通过算法计算手指角度；

9.根据权利要求8所述的基于AR眼镜的多功能检测识别交互系统的使用方法，其特征在于，步骤5中的所述计算手指角度，包括以下步骤：

S501、计算手腕到手指根部的第一向量；

S502、计算手指根部到指尖的第二向量；

S503、计算第一向量和第二向量之间的角度。

10.根据权利要求8所述的基于AR眼镜的多功能检测识别交互系统的使用方法，其特征在于，步骤6包括以下步骤：