CN120839803A

CN120839803A - 基于多视觉模块的仿生机器人视觉协同方法以及机器人视觉装置

Info

Publication number: CN120839803A
Application number: CN202511343393.0A
Authority: CN
Inventors: 谢云鹏; 于淼
Original assignee: Shanghai Today Xindong Technology Co ltd
Current assignee: Shanghai Today Xindong Technology Co ltd
Priority date: 2025-09-19
Filing date: 2025-09-19
Publication date: 2025-10-28
Anticipated expiration: 2045-09-19
Also published as: CN120839803B

Abstract

本申请的实施例涉及仿生机器人技术领域，具体涉及一种基于多视觉模块的仿生机器人视觉协同方法、一种机器人视觉装置、一种视觉单元装置以及一种机器人。该方法包括：S1：接收并解析任务指令，获取任务语义；S2：获取主视图像数据及提取低级视觉特征；S3：查找仿生注意力权重映射表，获得高级视觉特征需求及初始特征权重；S4：生成初始的动态注意力热力图，确定高关注区域与次要关注区域；S5：获取高分辨率图像数据，更新主视图像数据的低级视觉特征；S6：加权融合，实时更新动态注意力热力图，形成感知‑行动闭环。该方法通过模拟人类根据任务自上而下任务驱动选择性聚焦和自底而上显著性感知的视觉注意力机制，实现机器人视觉协同仿生度的提升。

Description

基于多视觉模块的仿生机器人视觉协同方法以及机器人视觉装置

技术领域

本申请的实施例涉及仿生机器人技术领域，具体涉及一种基于多视觉模块的仿生机器人视觉协同方法、一种机器人视觉装置、一种视觉单元装置以及一种机器人。

背景技术

这里的陈述仅仅提供与本申请有关的背景信息，而不必然地构成现有技术。

随着服务、陪伴等场景对仿生机器人的需求持续增长，提升人机交互的自然真实感已成为技术发展的核心诉求。通过模仿人类的形态与行为模式，仿生机器人旨在增强其交互亲和力与协作效率。在此过程中，视觉系统作为环境感知的核心，其设计需兼顾形态仿生与功能实现的双重目标。

目前，仿生机器人的视觉系统设计主要存在两种技术方案：其一，模拟人类双眼的外观形态，侧重于形态仿生，现有方案通常选择在双眼位置各配置一个摄像头的设计。这种配置在外观形态上实现了较高的仿生度，但其视觉功能与人类相比存在差异，人类视觉所具备的动态注意力机制（如中央凹精细视觉与周边视野的协同）和基于任务语义的选择性感知能力，是该路径尚未充分实现的功能特性，该技术方案仅能实现外观仿真，在功能与感知模式上缺乏仿真，无法在复杂环境中兼顾全局感知与局部感知、任务适应性及交互自然性。其二，提升感知性能，侧重于功能实现，这种功能性机器人通常采用融合广角、长焦等多种异构摄像头，通过工程化注意力模块实现复杂环境感知与任务执行，然而，多摄像头的物理排布难以完全契合仿生头部的形态约束，破坏外观仿生度，此外，现有的感知策略多依赖于数据驱动的统计性加权规则，缺乏基于任务语义动态分配感知资源的能力，导致计算资源在非关键区域的冗余消耗，关键特征易被环境噪声淹没。因此，仿生机器人亟需一种模仿人类视觉机制与注意力机制的多视觉模块协同的仿生视觉方法。

发明内容

在下文中给出了关于本申请的简要概述，以便提供关于本申请的某些方面的基本理解。应当理解，这个概述并不是关于本申请的穷举性概述。它并不是意图确定本申请的关键或重要部分，也不是意图限定本申请的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

第一方面，本申请的实施例提供了一种基于多视觉模块的仿生机器人视觉协同方法，应用于搭载多个成像模块的仿生机器人，该方法至少包括以下步骤：

S1：接收并解析任务指令，获取任务语义；

S2：广角主视模块同步获取主视图像数据，同时并行提取低级视觉特征；

S3：根据任务语义，查找一预置的仿生注意力权重映射表，获得与任务语义相匹配的高级视觉特征需求及对应的初始特征权重；

S4：基于低级视觉特征以及高级视觉特征需求，获取高级视觉特征，并根据初始特征权重对高级视觉特征进行加权融合，生成初始的动态注意力热力图，据此初步确定高关注区域与次要关注区域；

S5：功能成像模块对准高关注区域并获取其高分辨率图像数据，提取其高级视觉特征；同时，广角主视模块持续运行，更新主视图像数据的低级视觉特征，提取次要关注区域的高级视觉特征并赋予权重；

S6：加权融合高关注区域的高级视觉特征、次要关注区域的高级视觉特征、所述低级视觉特征，实时更新动态注意力热力图，并动态调整高关注区域与次要关注区域，形成仿生的感知-行动闭环。

本申请的实施例提供的方法，通过将任务指令转化为任务语义，将抽象的任务转变为可量化的视觉需求，为后续视觉资源分配提供任务导向，通过广角主视模块同步获取主视图像数据并提取低级视觉特征，以模仿双眼视觉的全局视野，实现对环境的全面覆盖；通过查找预置的仿生注意力权重映射表，确定任务语义所需的高级视觉特征及初始权重，模仿人类视觉“根据目标调整关注重点”的注意力机制，使高级视觉特征的分配更贴近生物视觉的认知规律；通过根据高级视觉特征需求以及低级视觉特征，获取高级视觉特征并加权融合生成动态注意力热力图，初步划分高关注区域与次要关注区域，实现对重点区域的聚焦关注，在复杂环境中优先处理潜在目标区域，提高处理效率；通过控制功能成像模块对高关注区域进行高分辨率成像并提取高级视觉特征，同时广角主视模块持续更新主视图像数据的低级视觉特征并处理次要关注区域的高级视觉特征，通过“全局监控+局部精查”的协同模式，既模仿了人类周边视野与中央凹的分工，又兼顾了对环境动态的覆盖和对目标细节的高精度识别，克服了单一摄像头无法兼顾全局与局部的固有缺陷；通过融合高关注区域的高级视觉特征、次要关注区域的高级视觉特征、低级视觉特征，实时更新动态注意力热力图并调整高关注区域以及次要关注区域，形成感知-行动闭环，可以根据新获取的特征动态调整注意力，模拟人类视觉的动态调整能力，使视觉系统具备自适应能力，在目标移动、遮挡变化等动态场景中仍能高效聚焦于关键区域，提高了机器人视觉系统的鲁棒性。该方法模拟了人类视觉注意力机制，又通过多模块协同解决了仿生机器人在形态约束下的视觉功能局限，使仿生机器人模拟人类根据任务自上而下任务驱动选择性聚焦和自底而上显著性感知的视觉注意力机制，实现机器人视觉协同仿生度的提升，增强仿生机器人在复杂场景中的任务适应性与人机交互自然性。

本申请的实施例还提供了一种机器人视觉装置，该装置包括第一视觉单元、第二视觉单元以及两个仿生眼球外壳，其中：两个仿生眼球外壳分别设置于第一视觉单元和第二视觉单元前，仿生眼球外壳表面包括第一区域和第二区域，以模拟眼球形态；第一视觉单元中集成有至少两个成像单元，其中，至少有两个成像单元的采集视角在安装固定后保持相对位置恒定且具有重叠区域；第二视觉单元中集成有至少一个成像单元，至少一个成像单元的采集视角在安装固定后与第一视觉单元的其中一个成像单元保持相对位置恒定且具有重叠区域。

本申请的实施例还提供了一种应用于机器人的视觉单元装置，该装置包括成像模块以及仿生眼球外壳，其中：仿生眼球外壳表面包括第一区域和第二区域，以模拟眼球形态；成像模块中集成有至少两个成像单元，其中，至少有两个成像单元的采集视角在安装固定后保持相对位置恒定且具有重叠区域。

本申请的实施例还提供了一种机器人，该机器人包括本申请中任意一种仿生机器人视觉装置或任意一种应用于机器人的视觉单元装置。

通过以下结合附图对本申请的优选实施例的详细说明，本申请的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本申请的以上和其它优点和特征，下面结合附图对本申请的具体实施方式作进一步详细的说明。附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本申请的典型示例，而不应看作是对本申请的范围的限定。

图1是根据本申请的实施例的基于多视觉模块的仿生机器人视觉协同方法的流程示意图；

图2是根据本申请的实施例的机器人视觉装置的前侧结构示意图；

图3是根据本申请的实施例的应用于机器人的视觉单元装置的结构示意图。

需要说明的是，附图并不一定按比例来绘制，而是仅以不影响读者理解的示意性方式示出。

附图标记说明：

10、第一视觉单元；20、第二视觉单元；30、成像单元；40、仿生眼球外壳；41、第一区域；42、第二区域；50、通信接口；60、成像模块。

具体实施方式

在下文中将结合附图对本申请的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本申请内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的设备结构和/或处理步骤，而省略了与本申请关系不大的其他细节。

需要说明的是，除非另外定义，本申请使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。

在本申请实施例的描述中“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

相关技术中，仿生机器人视觉方案的发展围绕形态模拟与功能扩展展开，传统仿生机器人视觉系统多以人类双眼结构为原型，采用两个同构摄像头组成立体双目系统。这类系统通过匹配人类瞳距的光学中心间距设计，在形态上模拟人类视觉器官，并主要依靠双目视差计算获取环境深度信息，为机器人提供基础的三维空间感知能力。其摄像头参数（如视场角、分辨率）通常固定，在实际应用中主要用于静态场景的结构感知，对大范围环境扫描与远距离细节观察的兼顾能力有限。随着复杂场景需求提升，机器人出现了集成多种类型摄像头的方案，例如将广角、长焦、微距等不同参数的成像模块组合应用。这类方案通过多模块覆盖不同观测需求，但各摄像头的数据处理相对独立，缺乏统一的协同机制，并且多模块耦合极大的破坏仿生外观，同时，系统无法根据当前执行的任务类型（如目标查找、动态跟随、环境巡逻）动态调整各模块的处理优先级与资源分配比例，多模块间的协同性与智能化程度有待提升。

针对上述技术问题，本申请的实施例提供了一种基于多视觉模块的仿生机器人视觉协同方法，应用于搭载多个成像模块的仿生机器人，图1是根据本申请的实施例的基于多视觉模块的仿生机器人视觉协同方法的流程示意图，如图1所示，该方法至少包括以下步骤：S1：接收并解析任务指令，获取任务语义；S2：广角主视模块同步获取主视图像数据，同时并行提取低级视觉特征；S3：根据任务语义，查找一预置的仿生注意力权重映射表，获得与任务语义相匹配的高级视觉特征需求及对应的初始特征权重；S4：基于低级视觉特征以及高级视觉特征需求，获取高级视觉特征，并根据初始特征权重对高级视觉特征进行加权融合，生成初始的动态注意力热力图，据此初步确定高关注区域与次要关注区域；S5：功能成像模块对准高关注区域并获取其高分辨率图像数据，提取其高级视觉特征；同时，广角主视模块持续运行，更新主视图像数据的低级视觉特征，提取次要关注区域的高级视觉特征并赋予权重；S6：加权融合高关注区域的高级视觉特征、次要关注区域的高级视觉特征、所述低级视觉特征，实时更新动态注意力热力图，并动态调整高关注区域与次要关注区域，形成仿生的感知-行动闭环。

在一些实施例中，广角主视模块包括两个具有广角成像功能的成像模块，其中，两个成像模块对称嵌设于仿生机器人头部的左右眼窝位置，其光学中心间距设置为42~80mm（匹配人类瞳距范围），以模拟人类双眼的生理布局，从硬件形态上实现对人类双目视觉系统的仿生。

在一些实施例中，功能成像模块是指能够针对高关注区域提供比广角主视模块更高分辨率的图像数据或特定成像功能（如长焦成像、微距成像、红外成像等）的成像组件，并且可以根据任务需求进行指向调整。

在一些实施例中，任务语义至少包括目标任务、目标任务时序、任务优先级以及目标对象。

本申请提供的实施例通过从任务指令中解析出目标任务、目标任务时序、任务优先级以及目标对象，可以使仿生机器人明确视觉模块的任务指令、任务执行顺序、资源分配优先级以及视觉关注的具体对象，实现根据任务内容调度成像模块协同完成并行任务，有效提升复杂任务场景下仿生机器人视觉协同的适应性。

在一些实施例中，可以通过预训练语言模型解析任务指令，例如BERT（Bidirectional Encoder Representations from Transformers，基于转换器的双向编码器表示）模型。

在一些实施例中，低级视觉特征包括边缘、角点、深度。

本申请提供的实施例通过从主视图像数据中提取边缘、角点、深度，模拟人类视觉感知中的整体感知，为动态注意力热力图的生成提供结构化数据，确保高关注区域的划分更贴合真实场景结构，减少因底层特征缺失导致的偏差，提升视觉协同中基础感知的鲁棒性。其中，边缘特征可快速识别物体轮廓与场景边界，为定位潜在遮挡物与角落区域提供依据；角点特征能标记空间结构的转折点，辅助构建场景的空间布局；深度特征则通过双目视差生成三维距离信息，精准区分物体前后位置关系。

在一些实施例中，高级视觉特征为与目标对象相关的特征，包括目标对象的几何形状、空间位置、纹理、语义标签、光学字符识别（OCR）区域、运动状态。

本申请提供的实施例通过获取与目标对象相关的几何形状、空间位置、纹理、语义标签、光学字符识别（OCR）区域、运动状态等高级视觉特征，可精准刻画目标对象多维度的视觉属性，其中，几何形状特征可区分目标对象与干扰物，空间位置特征结合深度信息确定目标的三维坐标可指导功能成像模块的转向控制，纹理特征可强化对于目标对象细节的辨识，语义标签直接关联任务语义，OCR区域特征可解析目标对象附带的文字信息，运动状态特征可支持动态目标追踪，这些高级特征的协同作用，既满足了不同任务对目标描述的差异化需求，又为动态注意力热力图的权重调整提供了依据，提升了复杂场景下目标识别的精准度、动态跟踪的稳定性及任务适配的灵活性，更贴近人类视觉对目标的认知模式。

在一些实施例中，动态注意力热力图以及仿生注意力权重映射表均基于Itti-Koch模型构建形成。

本申请提供的实施例通过基于Itti-Koch模型构建动态注意力热力图以及仿生注意力权重映射表，基于Itti-Koch模型对生物视觉的仿生核心，通过与任务语义解析、多模块协同的结合，使视觉系统的注意力调控机制更贴近人类视觉的认知规律，实现自底向上显著性感知与自顶向下任务驱动的双通路协同，提升复杂场景下任务执行的鲁棒性与人机交互的自然度。

在一些实施例中，基于Itti-Koch模型构建仿生注意力权重映射表时，可以以 Itti-Koch模型的原生特征通道为基础，结合所提取的视觉特征类型，形成特征集合，其中，

为低级视觉特征，为高级视觉特征。其中，深度特征作为扩展维度，通过与亮度、边缘特征的关联度融入显著性计算；

将解析出的任务语义作为核心要素，构建关联矩阵,其中,元素表示第m个任务语义与第i个视觉特征的关联强度，例如：

若特征为目标对象的核心标识特征（如“绿植”与“绿色纹理”），则=0.8~1.0；

若特征为目标对象的关键支撑特征（如“寻找任务”与“角落空间位置”），则= 0.6~0.9；

若特征与任务优先级、目标任务时序强相关（如“高优先级任务”与“目标运动状态”），则或=0.5~0.8；

若无直接关联，则=0。

融合Itti-Koch模型的自底向上显著性与任务语义的自顶向下调制，特征的权重符合公式（1）：

（1）。

其中，为Itti-Koch模型输出的特征基础显著性值（归一化至[0,1]，低级视觉特征主要依赖此值）；为第m个任务语义的优先级系数（由任务语义解析确定，如高优先级任务的）；为平衡系数（初始扫描阶段侧重低级视觉特征，；聚焦阶段侧重高级视觉特征，）。

根据任务执行阶段（全局扫描-局部聚焦-目标确认），动态调整关联矩阵与平衡系数，形成阶段子表，其中，阶段子表为适配任务执行的不同阶段（如全局扫描、局部聚焦、目标确认等），在仿生注意力权重映射表中预设的、针对该阶段特征权重分配的细分规则集合，例如：

全局扫描：强化边缘、角点等低级视觉特征及空间位置类高级视觉特征权重，；

局部聚焦阶段：提升目标对象的几何形状、纹理等高级视觉特征权重，；

目标确认阶段：最大化语义标签、OCR区域等任务核心高级视觉特征权重，。

在一些实施例中，基于Itti-Koch模型生成动态注意力热力图时，可以将主视图像划分为预设尺寸的网格单元，计算每个单元内的特征响应值，例如：低级视觉特征响应值可以是单元内边缘密度、深度梯度的归一化结果（取值0-1）；高级视觉特征响应值可以是单元内目标形状匹配度、纹理相似度的归一化结果（取值0-1）。

对每个网格单元，根据查找预置的仿生注意力权重映射表获取的权重，将低级视觉特征响应值与高级视觉特征响应值加权求和，得到单元关注度，其数学关系符合公式（2）：

（2）。

其中，为网格单元的单元关注度，为低级视觉特征权重，为单元内低级特征响应值，为高级视觉特征权重，为单元内高级特征响应值。

结合任务阶段设定第一关注度阈值和第二关注度阈值，将单元关注度不低于第一关注度阈值的连续网格单元划分为高关注区域，将单元关注度低于第一关注度阈值但不低于第二关注度阈值的连续网格单元划分为次要关注区域，采用高斯滤波对单元关注度分布进行空间平滑处理，消除孤立高响应单元导致的区域碎片化，最终输出具有连续高关注区域的动态注意力热力图。

在一些实施例中，在S5步骤中，还包括以下步骤：S51：验证高关注区域的高级视觉特征是否满足任务语义的要求；若不满足，则将该区域判定为误判区域；S52：在动态注意力热力图中对误判区域进行降权处理；S53：从当前次要关注区域中，选取特征权重最高的区域作为新的高关注区域；S54：控制功能成像模块转向新的高关注区域并获取高分辨率图像数据；S55：重复执行S51步骤至S54步骤，直至成功定位到包含任务语义的要求的高级视觉特征的区域或遍历完所有次要关注区域；S56：若遍历完所有次要关注区域后仍未成功定位满足任务语义要求的区域，则基于最新的主视图像数据与任务语义，重新生成动态注意力热力图。

本申请提供的实施例通过验证高关注区域高级视觉特征是否匹配任务语义、对误判区域降权，并从次要关注区域选取特征权重最高的区域重新定位（而非退回全局扫描），实现了避免无效视觉运算、大幅缩短目标定位耗时的效果，通过发现误判区域后将功能成像模块转向新高关注区域的同时，保留广角主视模块持续更新图像数据与特征，实现了避免视觉感知断层、保障多模块协同连贯性，进一步地，通过在遍历次要区域仍未定位时，基于最新主视图像与任务语义重新生成动态注意力热力图，形成局部修正和全局更新协同的机制，实现了避免任务因误判中断、提升复杂环境下任务执行鲁棒性的效果。在仿生机器人应用的实际场景中，该方法能让机器人减少无效视觉探索、不因误判目标而卡顿，始终连贯高效地推进任务，更适配真实环境里干扰多、目标可能移动的复杂需求。

在一些实施例中，在S6步骤中，还包括以下步骤：若接收到任务优先级更高的新任务指令，基于新任务指令的任务语义更新动态注意力热力图，并将原任务指令的高关注区域设为新任务指令的次要关注区域。

本申请提供的实施例通过优先响应更高优先级新任务、基于新任务语义实时更新动态注意力热力图，实现了任务切换的快速适配，避免因任务优先级冲突导致的响应延迟，提升机器人对动态任务需求的应对效率，并且通过将原任务高关注区域设为新任务的次要关注区域，而非直接丢弃原任务视觉数据，实现了视觉资源的高效复用——新任务完成后可快速回溯原任务关注点，无需重新全局扫描，减少无效运算，在家庭服务（如从“整理桌面”切换到“处理洒落食物”）等实际应用场景中，该设计让仿生机器人能优先处理紧急/高价值任务，同时保留原任务进度，满足真实场景下多任务动态交替的需求，提升机器人的实用适配性，使机器人的行为更贴近人类。

本申请的实施例还提供了一种机器人视觉装置，图2是根据本申请的实施例的机器人视觉装置的前侧结构示意图，如图2所示，该装置包括第一视觉单元10、第二视觉单元20以及两个仿生眼球外壳40，其中：两个仿生眼球外壳40分别设置于第一视觉单元10和第二视觉单元20前，仿生眼球外壳40表面包括第一区域41和第二区域42，以模拟眼球形态；第一视觉单元10中集成有至少两个成像单元30，其中，至少有两个成像单元30的采集视角在安装固定后保持相对位置恒定且具有重叠区域；第二视觉单元20中集成有至少一个成像单元30，至少一个成像单元30的采集视角在安装固定后与第一视觉单元10的其中一个成像单元30保持相对位置恒定且具有重叠区域。

本申请的实施例提供的装置，通过将仿生眼球外壳40设置于第一视觉单元10和第二视觉单元20前，可以让机器人视觉装置在外观上贴近眼部形态，提升了人机交互时的视觉亲和力，减少人类与机器人互动时的疏离感，同时，通过设置第一视觉单元10、第二视觉单元20中的多个成像单元30，实现了至少三个成像单元30的结构化布局，为机器人视觉感知提供硬件支持，其中，第一视觉单元10中至少两个成像单元30的恒定重叠视角，可稳定捕捉同一场景的多维度图像信息，避免因视角偏移导致的特征错位，第二视觉单元20与第一视觉单元10成像单元30的视角重叠，进一步扩大了有效感知范围的同时，确保多源图像数据在空间维度上的关联性，便于后续的图像数据处理。该装置解决了现有的仿生机器人双眼视觉功能单一、功能型机器人视觉系统不仿生的问题，提高了仿生机器人视觉装置的综合性能，使其既能凭借贴近人眼的外观设计近距离人机交互场景，弱化人类与机器人互动时的机械感；又能依托多成像单元的结构化布局与恒定重叠视角，稳定输出多维度、空间关联的图像数据，为后续特征提取、目标识别提供可靠硬件支撑，进而让仿生机器人在复杂环境中也能实现精准视觉感知，提升其在实际应用场景中的适配性与实用价值。

在一些实施例中，仿生眼球外壳40可以是可呈现眼部外观的任意结构，如封闭式球壳、开放式球壳、半球壳、流线型壳及有厚度的梭状物体等，本申请对此不作限制。

在一些实施例中，仿生眼球外壳40可以是封闭式结构，第一视觉单元10、第二视觉单元20设置于各自的仿生眼球外壳40内部，并与外部的处理器通信连接。

在一些实施例中，本申请对于两个仿生眼球外壳40各自第一区域41的中心点间距并不作限制，但优选地，两个仿生眼球外壳40各自第一区域41的中心点间距可以设置为42~80mm，以模仿人类眼距的常见范围。

在一些实施例中，第一区域41为模拟瞳孔虹膜（眼黑）外观的圆形区域，第二区域42为围绕第一区域41设置、模拟巩膜（眼白）外观的区域，且第一区域41和第二区域42在成像单元30的透光路径上均具备透光性，本申请的实施例既通过仿生眼球外壳40的分区还原人眼形态，又能保证光线顺利进入成像单元30，实现仿生外观与视觉采集功能的兼容。

在一些实施例中，第一区域41的具体形态和材料可灵活设置：例如可以为贯穿孔洞，可以为不透光材料，也可以是透明圆形材料，也可以选用透光率高于85%的深色透光材料，例如染色光学玻璃、深色光学亚克力、深色结构光学膜等，本申请对此不作限制。

在一些实施例中，第二区域42的材料同样可灵活选择，例如可为浅色不透光材质，也可为透光的浅色材料，例如乳白透光PC（聚碳酸酯）、浅色光学硅胶等，本申请对此不作限制。

在一些实施例中，第一视觉单元10和第二视觉单元20还可以包括：特征提取模块，其设置成对成像单元30获取的图像进行低级特征提取。

在一些实施例中，该装置还包括：通信接口50，用于将成像单元30采集的图像数据传输至处理器进行处理。

本申请提供的实施例通过通信接口50将图像数据高效稳定传输至处理器，避免数据丢失或延迟。既保障后续图像处理的准确性，又为成像单元30自适应调整提供及时数据支撑，有利于机器人精准完成追踪、检测等任务。

在一些实施例中，第一区域41设置成模拟人眼瞳孔虹膜区域外观，第二区域42设置成模拟人眼巩膜区域外观。

本申请提供的实施例通过将第一区域41和第二区域42分别设置成人眼瞳孔虹膜区域外观和人眼巩膜区域外观，能高度还原人类眼部的外观结构，让机器人视觉装置从视觉上更贴近真实人眼形态，显著提升外观仿真度，有利于弱化机器人的机械感，减少人类与机器人接触时的心理疏离感，同时，符合人类眼部认知习惯的区域划分，也让机器人的“视觉表达”更易被人类理解，进一步强化仿生设计的实用价值。

在一些实施例中，第一视觉单元10和第二视觉单元20中分别包含至少一个实现广角成像功能的广角单元，且多个成像单元30中，除了两个广角单元外，至少还包含一个功能性成像单元。

本申请提供的实施例通过两个广角单元模拟人类双眼周边视野，支持双目成像与全局环境感知，搭配功能性成像单元模仿中央视觉的精细识别能力，助力局部聚焦阶段精准提取特征，形成全局-局部协同闭环，既提升视觉仿生度，又强化识别精准性与效率。

在一些实施例中，可以根据仿生机器人的具体应用场景选择具有特定成像功能的功能性成像单元，其中，成像功能可以是长焦成像、微距成像、运动成像、红外成像中的一种或多种。

在一些实施例中，第一视觉单元10中的至少有两个成像单元30的光轴平行且间距小于或等于16mm；第二视觉单元20中存在多个成像单元30时，至少有两个成像单元30的光轴平行且间距小于或等于16mm。

本申请提供的实施例通过使第一视觉单元10或第二视觉单元20内至少两个成像单元30光轴平行且间距小于或等于16mm，实现多个成像单元30适配仿生眼球外壳40的有限内部空间的目的，避免了因为多个成像单元30的分布间距过大而超出人类眼球形态的尺寸限制，使成像单元30能在仿生眼球的仿生结构内稳定排布，确保集成多个成像单元30时不破坏眼球的仿生外观，让功能单元与仿生形态的紧凑性形成兼容，更贴合仿生人眼球的装配需求。

本申请的实施例还提供了一种应用于机器人的视觉单元装置，图3是根据本申请的实施例的应用于机器人的视觉单元装置的结构示意图，如图3所示，该装置包括成像模块60以及仿生眼球外壳40，其中：仿生眼球外壳40表面包括第一区域41和第二区域42，以模拟眼球形态；成像模块60中集成有至少两个成像单元30，其中，至少有两个成像单元30的采集视角在安装固定后保持相对位置恒定且具有重叠区域。

本申请提供的实施例中，通过将仿生眼球外壳40设置于成像模块60前，可以让机器人视觉装置在外观上贴近眼部形态，提升了人机交互时的视觉亲和力，减少人类与机器人互动时的疏离感，同时，通过设置多个成像单元30，为机器人视觉感知提供多模态的硬件支持，其中，至少两个成像单元30的恒定重叠视角，可稳定捕捉同一场景的多维度图像信息，避免因视角偏移导致的特征错位，该装置可以实现外观仿生以适配人机交互场景、多视觉模块协同保障视觉感知的目的。

在一些实施例中，多个成像单元30设置成可以实现至少两种成像功能。

本申请提供的实施例通过将多个成像单元30设置成可以实现至少两种成像功能，避免了传统机器人视觉系统单一成像功能的局限，增强视觉系统的整体适应性与灵活性，有利于提升机器人对多样化的视觉感知任务的处理能力。

在一些实施例中，成像单元30的成像功能可以是广角成像、长焦成像、微距成像、运动成像、红外成像中的一种或多种。

本申请提供的实施例通过使机器人包含本申请中任意一种仿生机器人视觉装置或应用于机器人的视觉单元装置，提升了人机交互时的视觉亲和力，减少人类与机器人互动时的疏离感，同时也为机器人视觉感知提供多模态的硬件支持，实现机器人外观仿生以适配人机交互场景、多视觉模块协同保障视觉感知的目的。

下面以“将桌子上的绿植放到地上”任务指令为例，详细说明发明人如何通过本申请提供的机器人视觉装置及基于多视觉模块的仿生机器人视觉协同方法，对上文中涉及的一个或多个实施例进行具体补充。

仿生眼球外壳采用两个直径35mm的半球壳，第一区域为直径8mm的深色透光玻璃（透光率90%），第二区域为乳白透光PC材质；两外壳第一区域中心点间距65mm，分别罩设于第一视觉单元、第二视觉单元前方，视觉单元整体嵌入外壳内部。

第一视觉单元集成两个成像单元，其中，广角单元的视场角为120°、分辨率为1920×1080，功能性成像单元为一长焦镜头，支持4K分辨率，两单元光轴平行且间距12mm，采集视角重叠率≥70%。

第二视觉单元集成一个参数与第一视觉单元的广角单元一致的广角单元，其采集视角与第一视觉单元的广角单元重叠率≥80%，确保全局场景覆盖无死角。

其中，成像单元可选用例如小米Civi系列摄像头，通信接口采用高速数据接口，将成像单元采集的图像数据实时传输至机器人处理器。

“将桌子上的绿植放到地上”任务指令执行流程如下：

机器人通过语音交互模块接收用户指令“将桌子上的绿植放到地上”，处理器调用BERT模型解析任务语义，获取以下任务语义：

目标任务：抓取桌子上的绿植并放置于地面；

目标对象：桌子上的绿植（特征：带叶片、有花盆，位于桌面区域）；

任务优先级：常规优先级，，无更高优先级任务；

任务时序：无先后子任务，直接执行定位-抓取-放置。

第一视觉单元、第二视觉单元中的广角单元同步启动，实时采集客厅全局图像（帧率30FPS），处理器并行提取低级视觉特征，获取以下低级视觉特征：

边缘特征：通过Canny（坎尼）算法提取桌面轮廓（矩形边缘）、绿植叶片边缘（不规则曲线）、花盆边缘（圆形或方形）；

角点特征：通过Harris（哈里斯）算法标记桌子四角、花盆底座与桌面接触的角点；

深度特征：基于双目视差计算，获取绿植顶部距桌面高度（约20cm）、桌面距地面高度（约75cm）、绿植与机器人当前距离（约1.5m）。

处理器根据任务语义，调用预置的基于Itti-Koch模型构建的仿生注意力权重映射表，确定以下内容：

高级视觉特征需求：绿植的几何形状（羽状/卵形）、空间位置（桌面范围内）、纹理（叶脉纹理）、运动状态（静态，无运动）；

初始特征权重：基于关联矩阵计算（M=4，4个任务语义要素；n=6，6个高级视觉特征和低级视觉特征）；

绿植纹理（核心标识特征）：，目标对象与特征强关联；

绿植几何形状（关键支撑特征）：，区分绿植与桌面杂物；

绿植空间位置（桌面区域）：，限定目标范围；

其他特征（如运动状态）：，无关联；

平衡系数：初始扫描阶段，侧重低级特征，确保全局定位。

处理器基于低级视觉特征（边缘、角点、深度）和高级视觉特征需求，获取当前场景的高级视觉特征，并以10×10像素为一单元，通过公式（2）计算图像网格单元的单元关注度：

对于桌面区域网格单元：低级特征响应值（边缘、角点清晰），高级特征响应值（存在疑似绿植纹理），权重、，单元关注度=0.8× 0.7+0.6×0.3=0.74；

对于非桌面区域（如墙面、地面）：（边缘模糊），（无绿植特征），=0.2×0.7+0×0.3=0.14；

设定第一关注度阈值为0.6、第二关注度阈值为0.3，划分高关注区域为桌面内≥0.6的连续网格单元，划分次要关注区域为桌面内0.3≤<0.6的网格单元，生成动态注意力热力图，并对动态注意力热力图进行5×5高斯滤波，消除桌面反光导致的孤立高响应单元，使高关注区域连续无碎片化。

处理器控制第一视觉单元的功能性成像单元转向高关注区域，获取绿植的4K高分辨率图像，提取以下高级视觉特征：

几何形状：确认叶片为卵形，花盆为圆柱形（排除桌面方形纸巾盒）；

纹理：清晰识别叶片网状叶脉（确认是绿植，非塑料假绿植）。

若桌面存在“带绿色贴纸的盒子”（边缘、颜色类似绿植），功能单元提取特征后发现无叶脉纹理，判定为误判区域；

从次要关注区域选取权重最高的“桌面左侧带叶片轮廓区域”作为新高关注区域；

功能性成像单元重新转向该区域，确认是目标绿植，完成定位；

广角单元始终运行，实时更新桌面是否有遮挡（如用户伸手拿东西），并维持次要关注区域的特征权重。

融合以下三类特征，重新计算单元关注度以更新动态注意力热力图，此时，侧重高级特征：

高关注区域高级视觉特征（绿植纹理、形状）：；

次要关注区域高级视觉特征（桌面边缘）：；

低级视觉特征（机器人移动至距绿植0.8m处，深度值更新为0.8m）。

更新后的动态注意力热力图中，绿植所在网格单元关注度提升至0.92，仍为高关注区域。

机器人根据更新的热力图，控制机械臂对准高关注区域的绿植，结合深度数据调整抓取力度（避免捏碎叶片）；抓取后，广角单元实时跟踪绿植位置，动态注意力热力图随绿植移动更新（高关注区域从桌面转移至机械臂末端）。

机械臂将绿植放置于地面后，广角单元确认绿植位于地面（绿植与地面相对深度值更新为0，符合“放到地上”的任务语义），处理器判定任务完成，关闭功能性成像单元的高负载模式（仅保留广角单元监控）。

对于本申请的实施例，还需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多视觉模块的仿生机器人视觉协同方法，应用于搭载多个成像模块的仿生机器人，其特征在于，该方法至少包括以下步骤：

S1：接收并解析任务指令，获取任务语义；

S3：根据所述任务语义，查找一预置的仿生注意力权重映射表,获得与所述任务语义相匹配的高级视觉特征需求及对应的初始特征权重；

S4：基于所述低级视觉特征以及所述高级视觉特征需求，获取高级视觉特征，并根据所述初始特征权重对所述高级视觉特征进行加权融合，生成初始的动态注意力热力图，据此初步确定高关注区域与次要关注区域；

S5：功能成像模块对准所述高关注区域并获取其高分辨率图像数据，提取其所述高级视觉特征；同时，所述广角主视模块持续运行，更新所述主视图像数据的所述低级视觉特征，提取次要关注区域的高级视觉特征并赋予权重；

S6：加权融合所述高关注区域的所述高级视觉特征、所述次要关注区域的高级视觉特征、所述低级视觉特征，实时更新所述动态注意力热力图，并动态调整所述高关注区域与所述次要关注区域，形成仿生的感知-行动闭环。

2.如权利要求1中所述的方法，其特征在于，所述任务语义至少包括目标任务、目标任务时序、任务优先级以及目标对象。

3.如权利要求1中所述的方法，其特征在于，所述低级视觉特征包括边缘、角点、深度。

4.如权利要求2中所述的方法，其特征在于，所述高级视觉特征为与所述目标对象相关的特征，包括所述目标对象的几何形状、空间位置、纹理、语义标签、光学字符识别（OCR）区域、运动状态。

5.如权利要求1中所述的方法，其特征在于，所述动态注意力热力图以及所述仿生注意力权重映射表均基于Itti-Koch模型构建形成。

6.如权利要求1所述的方法，其特征在于，在S5步骤中，还包括以下步骤：

S51：验证所述高关注区域的所述高级视觉特征是否满足所述任务语义的要求，若不满足，则将该区域判定为误判区域；

S52：在所述动态注意力热力图中对所述误判区域进行降权处理；

S53：从当前所述次要关注区域中，选取特征权重最高的区域作为新的高关注区域；

S54：控制所述功能成像模块转向所述新的高关注区域并获取所述高分辨率图像数据；

S55：重复执行S51步骤至S54步骤，直至成功定位到包含所述任务语义的要求的高级视觉特征的区域或遍历完所有所述次要关注区域；

S56：若遍历完所有所述次要关注区域后仍未成功定位满足所述任务语义的要求的区域，则基于最新的主视图像数据与所述任务语义，重新生成所述动态注意力热力图。

7.如权利要求1中所述的方法，其特征在于，在S6步骤中，还包括以下步骤：

若接收到任务优先级更高的新任务指令，基于所述新任务指令的任务语义更新所述动态注意力热力图，并将原任务指令的所述高关注区域设为所述新任务指令的次要关注区域。

8.一种机器人视觉装置，其特征在于，该装置包括第一视觉单元、第二视觉单元以及两个仿生眼球外壳，其中：

两个所述仿生眼球外壳分别设置于所述第一视觉单元和所述第二视觉单元前，所述仿生眼球外壳表面包括第一区域和第二区域，以模拟眼球形态；

所述第一视觉单元中集成有至少两个成像单元，其中，至少有两个所述成像单元的采集视角在安装固定后保持相对位置恒定且具有重叠区域；

所述第二视觉单元中集成有至少一个所述成像单元，至少一个所述成像单元的采集视角在安装固定后与所述第一视觉单元的其中一个所述成像单元保持相对位置恒定且具有重叠区域。

9.如权利要求8中所述的装置，其特征在于，该装置还包括：通信接口，用于将所述成像单元采集的图像数据传输至处理器进行处理。

10.如权利要求8中所述的装置，其特征在于，所述第一区域设置成模拟人眼瞳孔虹膜区域外观，所述第二区域设置成模拟人眼巩膜区域外观。

11.如权利要求8中所述的装置，其特征在于，所述第一视觉单元和所述第二视觉单元中分别包含至少一个实现广角成像功能的广角单元，且所述多个成像单元中，除了两个所述广角单元外，至少还包含一个功能性成像单元。

12.如权利要求8中所述的装置，其特征在于，所述第一视觉单元中的至少有两个所述成像单元的光轴平行且间距小于或等于16mm；所述第二视觉单元中存在多个所述成像单元时，至少有两个所述成像单元的光轴平行且间距小于或等于16mm。

13.一种视觉单元装置，应用于机器人，其特征在于，该装置包括成像模块以及仿生眼球外壳，其中：

所述仿生眼球外壳表面包括第一区域和第二区域，以模拟眼球形态；

所述成像模块中集成有至少两个成像单元，其中，至少有两个所述成像单元的采集视角在安装固定后保持相对位置恒定且具有重叠区域。

14.如权利要求13中所述的装置，其特征在于，多个所述成像单元设置成可以实现至少两种成像功能。

15.一种机器人，其特征在于，包括如权利要求8-14中任意一项所述的装置。