CN121011175A

CN121011175A - 对象识别方法、对象识别模型的训练方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN121011175A
Application number: CN202410649636.2A
Authority: CN
Inventors: 刘彦宏; 曾定衡; 冯月; 郑筝; 王骞; 吴剑宇
Original assignee: Wuhan University WHU; Mashang Consumer Finance Co Ltd
Current assignee: Wuhan University WHU; Mashang Consumer Finance Co Ltd
Priority date: 2024-05-23
Filing date: 2024-05-23
Publication date: 2025-11-25
Also published as: WO2025241352A1

Abstract

本申请提供了一种对象识别方法、对象识别模型的训练方法、装置、电子设备、存储介质及程序产品；方法包括：在目标时段内向待识别对象发送声音信号，目标时段包括第一时段和第二时段；其中，第一时段内待识别对象保持静止，第二时段内待识别对象执行规定动作；获取声音信号对应的回声信号，并基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号；基于静态回声信号和动态回声信号，对待识别对象进行对象识别，得到对象识别结果。通过本申请，能够有效提高对象识别的准确性。

Description

对象识别方法、对象识别模型的训练方法、装置、电子设备、存储介质及程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种对象识别方法、对象识别模型的训练方法、装置、电子设备、存储介质及程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

相关技术中，通常是采用图像识别的方式，对待识别对象进行识别，由于对象识别的准确性依赖于图像识别的准确性，存在敏感信息的待识别图像会使得对象识别的准确性较低。

发明内容

本申请实施例提供一种对象识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高对象识别的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种对象识别方法，包括：

在目标时段内向待识别对象发送声音信号，所述目标时段包括第一时段和第二时段；

其中，所述第一时段内的所述声音信号为静态的声音信号，所述第二时段内的所述声音信号为动态的声音信号；

获取所述声音信号对应的回声信号，并基于所述第一时段和所述第二时段，对所述回声信号进行信号划分，得到静态回声信号和动态回声信号；

基于所述静态回声信号和所述动态回声信号，对所述待识别对象进行对象识别，得到对象识别结果。

本申请实施例提供一种对象识别模型的训练方法，包括：

获取样本对象的回声信号样本，所述回声信号样本包括静态回声信号样本和动态回声信号样本；

调用初始对象识别模型，基于所述静态回声信号样本和所述动态回声信号样本，对所述样本对象进行对象识别，得到所述样本对象的对象识别结果；

基于所述样本对象的对象识别结果和所述回声信号样本携带的样本标签，对所述初始对象识别模型进行训练，得到所述对象识别模型；

其中，所述对象识别模型，用于基于待识别对象的静态回声信号和动态回声信号，对所述待识别对象进行对象识别。

本申请实施例提供一种对象识别装置，包括：

发送模块，用于在目标时段内向待识别对象发送声音信号，所述目标时段包括第一时段和第二时段；其中，所述第一时段内的所述声音信号为静态的声音信号，所述第二时段内的所述声音信号为动态的声音信号；

划分模块，用于获取所述声音信号对应的回声信号，并基于所述第一时段和所述第二时段，对所述回声信号进行信号划分，得到静态回声信号和动态回声信号；

对象识别模块，用于基于所述静态回声信号和所述动态回声信号，对所述待识别对象进行对象识别，得到对象识别结果。

本申请实施例提供一种对象识别模型的训练装置，包括：

获取模块，获取样本对象的回声信号样本，所述回声信号样本包括静态回声信号样本和动态回声信号样本；

样本识别模块，用于调用初始对象识别模型，基于所述静态回声信号样本和所述动态回声信号样本，对所述样本对象进行对象识别，得到所述样本对象的对象识别结果；

训练模块，用于基于所述样本对象的对象识别结果和所述回声信号样本携带的样本标签，对所述初始对象识别模型进行训练，得到所述对象识别模型；其中，所述对象识别模型，用于基于待识别对象的静态回声信号和动态回声信号，对所述待识别对象进行对象识别。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的对象识别方法或对象识别模型的训练方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于引起处理器执行时，实现本申请实施例提供的对象识别方法或对象识别模型的训练方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的对象识别方法或对象识别模型的训练方法。

本申请实施例具有以下有益效果：

通过在目标时段内向待识别对象发送声音信号，获取声音信号对应的回声信号，基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号，基于静态回声信号和动态回声信号，对待识别对象进行对象识别，得到对象识别结果。如此，一方面由于声音信号较之于图像信号等形式的信号，更加难以添加敏感信息，通过声音信号的方式进行对象识别，从而有效防止敏感信息对识别的影响，另一方面，通过基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号，基于静态回声信号和动态回声信号参与识别过程，从而较之于单一维度的识别，基于静态回声信号和动态回声信号参与识别过程能够丰富对象识别的识别维度，从而实现双重识别，从而使得对象识别的准确性能够有效提高，从而能够有效提高对象识别的准确性。

附图说明

图1是本申请实施例提供的对象识别系统的架构示意图；

图2是本申请实施例提供的用于对象识别的电子设备的结构示意图；

图3是本申请实施例提供的用于训练对象识别模型的电子设备的结构示意图；

图4是本申请实施例提供的对象识别方法的流程示意图；

图5是本申请实施例提供的对象识别模型的训练方法的流程示意图；

图6是本申请实施例提供的对象识别模型的原理示意图；

图7是本申请实施例提供的对象识别方法的原理示意图；

图8是本申请实施例提供的声音信号处理的原理示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

3)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feed forward Neural Networks)，是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力，能够按其阶层结构对输入图像进行平移不变分类(Shift-InvariantClassification)。

4)响应于：用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

5)对象识别(Object Recognition)：是指在计算机视觉和人工智能领域中，通过计算机算法和模型，对图像或视频中的物体进行识别和分类的过程。对象识别是计算机视觉和人工智能领域的基础，是许多应用领域如自动驾驶、医疗诊断、智能监控等的关键技术之一。对象识别通常涉及图像处理、计算机视觉、机器学习等多个学科的知识，常用的算法包括基于特征提取的算法、基于深度学习的算法等。

6)短时傅里叶变换(Short-Time Fourier Transform，STFT)：是一种在信号处理领域常用的技术，用于在时间-频率平面上对信号进行分解。它可以将一个信号分解为一系列加权的、重叠的窗口，每个窗口对应于信号的一个频率成分。傅里叶变换将这些窗口中的信号转换为其在时间和频率两方面的表示形式，从而提供了时间-频率分析，这对于信号处理和噪声抑制等任务非常重要。

在本申请实施例的实施过程中，申请人发现相关技术存在以下问题：

本申请实施例提供一种对象识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高对象识别的准确性，下面说明本申请实施例提供的对象识别系统的示例性应用。

参见图1，图1是本申请实施例提供的对象识别系统100的架构示意图，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于供用户使用客户端410，在图形界面410-1(示例性示出了图形界面410-1)显示对象识别结果。终端400和服务器200通过有线或者无线网络相互连接。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端等，但并不局限于此。本申请实施例提供的电子设备可以实施为终端，也可以实施为服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，终端400在目标时段内向待识别对象发送声音信号，服务器200获取声音信号对应的回声信号，并对回声信号进行信号划分，得到静态回声信号和动态回声信号，并基于静态回声信号和动态回声信号，对待识别对象进行对象识别，得到对象识别结果，并将动态识别结果发送至终端400。

在另一些实施例中，终端400在目标时段内向待识别对象发送声音信号，并获取声音信号对应的回声信号，并对回声信号进行信号划分，得到静态回声信号和动态回声信号，并基于静态回声信号和动态回声信号，对待识别对象进行对象识别，得到对象识别结果，并将动态识别结果发送至终端400。

在另一些实施例中，本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

参见图2，图2是本申请实施例提供的用于对象识别的电子设备500的结构示意图，其中，图2所示出的电子设备500可以是图1中的服务器200或者终端400，图2所示的电子设备500包括：至少一个处理器430、存储器450、至少一个网络接口420。电子设备500中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器430可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器430的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi，Wireless Fidelity)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的对象识别装置可以采用软件方式实现，图2示出了存储在存储器450中的对象识别装置455，其可以是程序和插件等形式的软件，包括以下软件模块：发送模块4551、划分模块4552、对象识别模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

参见图3，图3是本申请实施例提供的用于训练对象识别模型的电子设备的结构示意图，其中，图3所示出的电子设备600可以是图1中的服务器200或者终端400，图3所示的电子设备600包括：至少一个处理器530、存储器550、至少一个网络接口520。电子设备600中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统540。

处理器530可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器530的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他电子设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi，Wireless Fidelity)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的对象识别模型的训练装置可以采用软件方式实现，图3示出了存储在存储器550中的对象识别模型的训练装置555，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5551、样本识别模块5552和训练模块5553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的对象识别装置可以采用硬件方式实现，作为示例，本申请实施例提供的对象识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的对象识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Pr ogrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序或计算机可执行指令来实现本申请实施例提供的对象识别方法。举例来说，计算机程序可以是操作系统中的原生程序(例如，专用的对象识别程序)或软件模块，例如，可以嵌入到任意程序(如即时通信客户端、相册程序、电子地图客户端、导航客户端)中的对象识别模块；例如可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

将结合本申请实施例提供的服务器或终端的示例性应用和实施，说明本申请实施例提供的对象识别方法。

参见图4，图4是本申请实施例提供的对象识别方法的流程示意图，将结合图4示出的步骤101至步骤104进行说明，本申请实施例提供的对象识别方法可以由服务器或终端单独实施，或者由服务器及终端协同实施，下面将以终端单独实施为例进行说明。

在步骤101中，在目标时段内向待识别对象发送声音信号，目标时段包括第一时段和第二时段。

在一些实施例中，第一时段内待识别对象保持静止，第二时段内待识别对象执行规定动作。

在一些实施例中，上述在目标时段内向待识别对象发送声音信号，可以通过如下方式实现：在第一时段内向待识别对象发送第一声音信号，在第二时段内向待识别对象发送第二声音信号，第一声音信号和第二声音信号对应的信号参数不同。

在一些实施例中，本申请实施例主要从以下几个方面设计上述声音信号：信号波形，频率以及持续时间和间隔，下面分别进行说明。

在一些实施例中，信号波形，由于不同的面部区域到设备的距离不同，那么可以利用声信号对距离敏感的特性，从人脸的回声信号中获取关于人脸深度的静态信息。并且，声信号的频率会因为观察者与声源的运动发生变化，产生多普勒频移，因此可以通过检测回声信号中的多普勒频移获取人脸的动作信息。

在一些实施例中，为了检测人脸深度的静态信息，本申请实施例利用了广泛应用于距离测量的频率调制连续波(FMCW)信号作为上述第一声音信号：

其中，e_s用于表示第一声音信号，f_l表示起始频率，c表示每增加一个样本要增加的频率，sp为采样率(44.1KHz)。

在一些实施例中，为了检测人脸的动态信息，本申请实施例则利用了更容易体现多普勒频移的恒定频率的第二声音信号：

e_D＝2Asin(2πft) (2)

其中，e_D用于表示第二声音信号，f用于表示信号频率，A用于表示幅度。

在一些实施例中，针对声音信号的频率，由于成年人可以听见的声音上限平均频率约为15-17KHz，检测静态的声信号e_s的频率增长范围设置为16-22KHz，而检测动态的声信号e_D频率设置为了20KHz。

在一些实施例中，在目标时段内向待识别对象发送声音信号的过程中，对于上述目标时段的持续时间和间隔的设置，根据调研户面部与设备之间的距离约为25-50cm，相应的时间延迟为1.4-2.8ms。由于静态特征的提取需要在信号中定位人脸的位置，静态特征检测信号e_s的持续时间设置为60个样本(约1ms，采样率sp为44.1KHz)，从而实现最小化面部回波信号与下一个发射信号之间的重叠；此外，为了最小化来自远处其他距离的物体的回波信号对下一个发射信号的干扰，本申请实施例将间隔设置为1042个样本(约24ms)，对应的距离范围为408cm；对于静态特征的提取，一共发射并收集N个脉冲连续波信号，周期T为1102个样本(1042+60＝1102，约25ms)，总持续时间约为t_s＝N*0.025秒。而对于检测动态的人脸信号e_D，信号持续时间为t_d没有间隔时长，这是因为持续的信号可以捕捉到较为连续的动态特征。

在一些实施例中，在所述第一时段内输出第一提示信息，所述第一提示信息，用于提示的所述声音信号为静态的声音信号。

在一些实施例中，通过在第一时段内输出用于提示待识别对象保持静止的第一提示信息，并在第一时段内向待识别对象发送第一声音信号，从而使得待识别对象在保持静止的状态下接收并反射到第一声音信号。

作为示例，上述在第一时段内输出第一提示信息，可以是在第一时段内播放第一提示语音：请您保持静止；也可以是在第一时段内显示第一提示文本：请您保持静止。

在一些实施例中，在所述第二时段内输出第二提示信息，所述第二提示信息，用于提示所述待识别对象执行所述规定动作。

在一些实施例中，通过在第二时段内输出用于提示待识别对象执行规定动作的第二提示信息，并在第二时段内向待识别对象发送第二声音信号，从而使得待识别对象在执行规定动作的状态下接收并反射到第二声音信号。

作为示例，上述在第二时段内输出第二提示信息，可以是在第二时段内播放第二提示语音：请您左转头；也可以是在第二时段内显示第二提示文本：请您左转头。

如此，在第一时段内向待识别对象发送第一声音信号，可以通过声音信号来识别待识别对象的位置和状态。声音信号可以被接收器接收并转化为电信号，进而可以用来定位和检测待识别对象。第一声音信号和第二声音信号对应的信号参数不同，这可以使系统具有更高的可靠性和稳定性。由于声音信号是依赖于环境和环境条件的，如果不同信号的参数不同，可以降低信号的干扰和失真，从而更准确地识别待识别对象。在第一时段内待识别对象保持静止，这意味着声音信号可以更准确地定位待识别对象的位置。这对于需要精确控制和定位的应用场景非常有用。在第二时段内待识别对象执行规定动作，这意味着声音信号可以用来检测和跟踪待识别对象的动作。声音信号可以被用来检测待识别对象的运动状态，从而可以实时检测和调整系统的状态。

在步骤102中，获取声音信号对应的回声信号。

在一些实施例中，声音信号对应的回声信号是指当声音信号在空间传播时，遇到障碍物会反射回来，形成回声，回声信号可以被接收器接收并转化为电信号，进而可以用来定位和识别声音信号的来源和方向。在声音识别和定位系统中，回声信号可以提供额外的信息，帮助系统更好地识别和定位声音信号。

在一些实施例中，在一个特定的目标时段内，向待识别对象发送声音信号，然后通过接收器获取该声音信号的回声信号。回声信号可以提供待识别对象的位置和方向信息，进而可以用来定位和识别待识别对象。在许多声音识别和定位应用中，回声信号是不可或缺的一部分，可以帮助系统更准确地识别和定位声音信号。

在一些实施例中，上述步骤102可以通过如下方式实现：接收所述声音信号对应的初始回声信号，并获取所述回声信号的目标信号频率；基于所述目标信号频率，对所述初始回声信号进行去噪处理，得到所述回声信号。

在一些实施例中，上述基于所述目标信号频率，对所述初始回声信号进行去噪处理，得到所述回声信号，可以通过如下方式实现：将初始回声信号中不等于目标信号频率的信号删除，得到回声信号。

在一些实施例中，可以通过信号接收器接收声音信号对应的初始回声信号，由于环境背景噪声的频率通常在12KHz以下，而所设计的回声信号频率在16KHz以上，为了有效消除由背景噪声引起的干扰，采用高通滤波器滤除16KHz以下的环境噪声。

如此，接收所述声音信号对应的初始回声信号，并获取所述回声信号的目标信号频率，是指在接收回声信号后，通过分析回声信号的频率来确定待识别对象的声音信号的频率。基于目标信号频率，对初始回声信号进行去噪处理，得到回声信号，是指根据目标信号频率，对回声信号进行滤波或降噪处理，以消除或减少噪声干扰，得到更纯净的回声信号，从而可以提高回声信号的质量和准确性，从而更准确地识别和定位声音信号。

在步骤103中，基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号。

在一些实施例中，回声信号中包括静态回声信号和动态回声信号，静态回声信号对应的待识别对象处于静止状态，动态回声信号对应的待识别对象处于运动状态。

在一些实施例中，基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号，是指根据声音信号发送的时间段，将回声信号分为两个部分：第一时段的回声信号为静态回声信号，第二时段的回声信号为动态回声信号。静态回声信号表示待识别对象在声音信号发送期间保持静止，而动态回声信号表示待识别对象在声音信号发送后的运动状态。这种信号划分可以帮助进一步分析待识别对象的状态和位置，从而更准确地识别和定位声音信号。

在一些实施例中，上述基于所述第一时段和所述第二时段，对所述回声信号进行信号划分，得到静态回声信号和动态回声信号，可以通过如下方式实现：获取所述第一时段占所述目标时段的第一时段比值，及所述第二时段占所述目标时段的第二时段比值；基于所述第一时段比值和所述回声信号的信号时长，确定所述静态回声信号的静态信号时长；基于所述第二时段比值和所述回声信号的信号时长，确定所述动态回声信号的动态信号时长；基于所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号。

在一些实施例中，上述基于所述第一时段比值和所述回声信号的信号时长，确定所述静态回声信号的静态信号时长，可以通过如下方式实现：将第一时段比值和回声信号的信号时长相乘，得到静态回声信号的静态信号时长。

在一些实施例中，上述基于所述第二时段比值和所述回声信号的信号时长，确定所述动态回声信号的动态信号时长，可以通过如下方式实现：将第二时段比值和回声信号的信号时长相乘，得到动态回声信号的动态信号时长。

在一些实施例中，获取第一时段占目标时段的比值，以及第二时段占目标时段的比值，是通过对回声信号进行分析和测量，得到不同时间段在回声信号中所占的比例。基于第一时段比值和回声信号的信号时长，可以确定静态回声信号的静态信号时长，即待识别对象在第一时段内保持静止的时间长度。基于第二时段比值和回声信号的信号时长，可以确定动态回声信号的动态信号时长，即待识别对象在第二时段内执行规定动作的时间长度。最后，根据动态信号时长和静态信号时长，可以对回声信号进行信号划分，得到静态回声信号和动态回声信号，从而更准确地识别和定位声音信号。

作为示例，上述第一时段比值的表达式可以为:

其中，T1用于表示第一时段比值，t1用于表示第一时段，T用于表示目标时段。

作为示例，上述第二时段比值的表达式可以为：

其中，T2用于表示第二时段比值，t2用于表示第二时段，T用于表示目标时段。

如此，获取第一时段占目标时段的比值，以及第二时段占目标时段的比值，是通过对回声信号进行分析和测量，得到不同时间段在回声信号中所占的比例。基于第一时段比值和回声信号的信号时长，可以确定静态回声信号的静态信号时长，即待识别对象在第一时段内保持静止的时间长度。基于第二时段比值和回声信号的信号时长，可以确定动态回声信号的动态信号时长，即待识别对象在第二时段内执行规定动作的时间长度。最后，根据动态信号时长和静态信号时长，可以对回声信号进行信号划分，得到静态回声信号和动态回声信号，从而更准确地识别和定位声音信号。

在一些实施例中，上述基于所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号，可以通过如下方式实现：获取所述第一时段和所述第二时段之间的时段关系，所述时段关系，用于指示所述第一时段是否在所述第二时段之前；基于所述时段关系、所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号。

在一些实施例中，获取第一时段和第二时段之间的时段关系，即两者之间的先后顺序，可以用于判断第一时段是否在第二时段之前。基于这个时段关系、动态信号时长和静态信号时长，可以对回声信号进行信号划分，得到静态回声信号和动态回声信号。如果第一时段在第二时段之前，那么静态回声信号将包含第一时段内的回声信号，而动态回声信号将包含第二时段内的回声信号。这种信号划分可以帮助进一步分析待识别对象的状态和动作，从而更准确地识别和定位声音信号。

在一些实施例中，上述基于所述时段关系、所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号，可以通过如下方式实现：若所述时段关系指示所述第一时段在所述第二时段之前，则将所述回声信号中起始时刻至第一时刻之间的子回声信号，确定为所述静态回声信号，将所述回声信号中所述第一时刻至终止时刻之间的子回声信号，确定为所述动态回声信号；若所述时段关系指示所述第二时段在所述第一时段之前，则将所述回声信号中所述起始时刻至第二时刻之间的子回声信号，确定为所述动态回声信号，并将所述回声信号中所述第二时刻至所述终止时刻之间的子回声信号，确定为所述静态回声信号。

在一些实施例中，所述起始时刻至所述第一时刻的时段长度等于所述第一时段的时段长度，所述起始时刻至所述第二时刻的时段长度等于所述第二时段的时段长度。

在一些实施例中，若时段关系指示第一时段在第二时段之前，则回声信号中起始时刻至第一时刻之间的子回声信号被确定为静态回声信号，这是因为这段信号表示待识别对象在第一时段内保持静止。回声信号中第一时刻至终止时刻之间的子回声信号被确定为动态回声信号，这是因为这段信号表示待识别对象在第二时段内执行规定动作。若时段关系指示第二时段在第一时段之前，则回声信号中起始时刻至第二时刻之间的子回声信号被确定为动态回声信号，这是因为这段信号表示待识别对象在第二时段开始时就已经开始运动。回声信号中第二时刻至终止时刻之间的子回声信号被确定为静态回声信号，这是因为这段信号表示待识别对象在第一时段内已经结束静止状态，从而通过信号划分可以帮助进一步理解待识别对象在不同时间段内的状态和动作。

如此，若第一时段在第二时段之前，则将回声信号中起始时刻至第一时刻之间的子回声信号确定为静态回声信号，将第一时刻至终止时刻之间的子回声信号确定为动态回声信号，这种处理方式可以提供更详细的信息来描述待识别对象在第一时段内的状态。具体来说，若第一时段在第二时段之前，则动态回声信号提供的是在第二时段内待识别对象的运动信息，这有助于实时监控和调整系统的状态。而静态回声信号则提供的是在第一时段内待识别对象的位置信息，这有助于更准确地识别和定位声音信号。因此，这种处理方式可以更全面地了解待识别对象在不同时间段内的状态和动作，从而提高了系统的可靠性和准确性。

在一些实施例中，若所述时段关系指示所述第二时段在所述第一时段之前，则将所述回声信号中起始时刻至第一时刻之间的子回声信号，确定为所述静态回声信号，将所述回声信号中所述第一时刻至终止时刻之间的子回声信号，确定为所述动态回声信号；若所述时段关系指示所述第一时段在所述第一时段之前，则将所述回声信号中所述起始时刻至第一时刻之间的子回声信号，确定为所述动态回声信号，并将所述回声信号中所述第一时刻至所述终止时刻之间的子回声信号，确定为所述静态回声信号。

在一些实施例中，所述起始时刻至所述第二时刻的时段长度等于所述第一时段的时段长度，所述起始时刻至所述第一时刻的时段长度等于所述第二时段的时段长度。

在一些实施例中，上述动态回声信号可以是回声信号中起始时刻至第一时刻(包括第一时刻)之间的子回声信号，上述静态回声信号可以是回声信号中第一时刻(不包括第一时刻)至终止时刻之间的子回声信号。上述动态回声信号可以是回声信号中起始时刻至第一时刻(不包括第一时刻)之间的子回声信号，上述静态回声信号可以是回声信号中第一时刻(包括第一时刻)至终止时刻之间的子回声信号，上述动态回声信号和静态回声信号是否包括第一时刻的回声信号不构成对本申请实施例的限定。

在一些实施例中，若第二时段在第一时段之前，则回声信号中起始时刻至第一时刻之间的子回声信号被确定为动态回声信号，这是因为这段信号表示待识别对象在第二时段开始时就已经开始运动。而回声信号中第一时刻至终止时刻之间的子回声信号被确定为静态回声信号，这是因为这段信号表示待识别对象在第一时段内保持静止。同样，若第一时段在第二时段之前，则回声信号中起始时刻至第一时刻之间的子回声信号被确定为静态回声信号，这是因为这段信号表示待识别对象在第一时段内结束静止状态。这些信息有助于进一步理解待识别对象在不同时间段内的状态和动作。

如此，若第二时段在第一时段之前，则将回声信号中起始时刻至第一时刻之间的子回声信号确定为动态回声信号，并将第一时刻至终止时刻之间的子回声信号确定为静态回声信号，这种处理方式可以更好地反映待识别对象在第二时段内的动作状态。动态回声信号可以提供待识别对象在第二时段内的运动信息，而静态回声信号则可以提供第一时段内待识别对象的位置信息。这样可以更全面地了解待识别对象在不同时间段内的状态和动作，从而提高了系统的可靠性和准确性。同样，若第一时段在第二时段之前，则将回声信号中起始时刻至第一时刻之间的子回声信号确定为静态回声信号，并将第一时刻至终止时刻之间的子回声信号确定为动态回声信号，这种处理方式可以更好地反映待识别对象在第一时段内的静止状态和第二时段内的动作状态。这样可以更准确地识别和定位声音信号，提高了系统的效率和精度。

在步骤104中，基于静态回声信号和动态回声信号，对待识别对象进行对象识别，得到对象识别结果。

在一些实施例中，对象识别结果，用于指示待识别对象是否为认证对象，也即对象识别结果，用于指示待识别对象是否通过对象认证，若待识别对象为认证对象，则待识别对象通过对象认证，若待识别对象不是认证对象，则待识别对象则没有通过对象认证。

在一些实施例中，上述步骤104可以通过如下方式实现：对所述静态回声信号进行静态信号处理，得到静态回声信息，并对所述动态回声信号进行动态信号处理，得到动态回声信息；基于所述静态回声信息和所述动态回声信息，对所述待识别对象进行对象识别，得到所述对象识别结果。

在一些实施例中，所述对象识别结果，用于指示所述待识别对象是否为认证对象。

在一些实施例中，上述对静态回声信号进行静态信号处理，得到静态回声信息，可以通过如下方式实现：对所述静态回声信号进行信号净化，得到静态净化信号，并对所述静态净化信号进行时域信号处理，得到所述静态净化信号的静态时域信息；对所述静态净化信号进行频域信号处理，得到所述静态净化信号的静态频域信息；将所述静态时域信息和所述静态频域信息进行信息融合，得到所述静态回声信息。

在一些实施例中，上述对静态回声信号进行信号净化，得到静态净化信号是指由于静态回声信号r_s中还包含扬声器到麦克风的直接传输信号、人脸回声信号以及环境反射信号。为了更好的定位人脸回声，此阶段将信号分段成了N个片段。具体而言，使用峰值检测算法寻找第一个波的峰值p₁，然后再根据信号的周期找到所有波的峰值P＝{p₁,…,p_N}，其中p_i＝p₁+(i-1)*T，并且将峰值的前30个样本的位置作为每个片段的起始点，这是因为每个片段的峰值前仍然有一段有值的信号。直接传输去除，为了进一步精确的定位人脸回声，还需要初步确认直接传输的位置，并将其去除。具体而言，首先将使用希尔伯变换函数计算每一个片段的包络曲线，然后计算包络曲线的第一个峰值的左右波谷，作为直接传输信号的起始位置和终点，在定位到直接传输信号之后，即可将其去除。

在一些实施例中，通过人脸回声定位，通常来说，直接传输后的第一个峰值位置即为人脸回声的位置，为了增强鲁棒性，将对一个信号的所有片段都计算一个人脸回声位置，最终的人脸回声位置等于所有片段的人脸回声位置的均值。获取人脸回声位置后，将截取60个样本信号作为人脸回声信号。

在一些实施例中，上述对所述静态净化信号进行时域信号处理，得到所述静态净化信号的静态时域信息是指短时傅立叶变换获取时频特征，FFT特征通常为人脸回声信号的全局范围的频域表示，忽略了人脸信号中时域上的信息。为了进一步提升精度，利用短时傅立叶变换获取人脸信号的获取时频特征F_s2，补充人脸信号时域上的局部频谱信息。最终获取的时频特征F_s2维度也为2*30*60，其中第一个维度亦代表幅度和相位两个值，第二个维度代表时间分辨率，而第三个维度则是频率分辨率。

在一些实施例中，上述对所述静态净化信号进行频域信号处理，得到所述静态净化信号的静态频域信息，可以通过快速傅立叶变换来获取静态频域信息，通过获取到人脸回声信号后，利用快速傅立叶变换算法(FFT)将其转换为频域上的FFT特征表示。由于一共包含30个片段，最终获得的FFT特征表示F_s1维度为2*30*60，其中第一个维度代表幅度和相位两个值，第二个维度代表人脸回声片段，而第三个维度则是每个片段的特征长度。

如此，对静态回声信号进行信号净化，得到静态净化信号，这一步骤可以消除噪声干扰，提高静态回声信号的质量。然后，对静态净化信号进行时域信号处理，可以得到静态时域信息，如待识别对象在第一时段内的位置信息。同时，对静态净化信号进行频域信号处理，可以得到静态频域信息，如信号的频率分布和能量分布等信息。将静态时域信息和静态频域信息进行信息融合，可以得到更全面、更准确的静态回声信息，这对于进一步分析待识别对象的状态和动作具有重要意义。

在一些实施例中，上述对所述动态回声信号进行动态信号处理，得到动态回声信息，可以通过如下方式实现：对所述动态回声信号进行频移信号处理，得到所述动态回声信号的动态频移信息；对所述动态回声信号进行相位信号处理，得到所述动态回声信号的动态相位信息；将所述动态频移信息和所述动态相位信息进行信息融合，得到所述动态回声信息。

在一些实施例中，由于检测动态信息的信号r_d为恒定频率的信号，因此为了提取指定频率(20KHz)的信号，并且保留动态信息带来的频移，采用19.9-20.1KHz的带宽滤波器对动态特征信号进行滤波。短时傅立叶变换，此步骤采用了短时傅立叶算法(STFT)提取动态信号的时频分布图，时频图可以清晰的描述信号频率随着时间的变化关系，体现动态信息带来的多普勒频移。归一化，为了使所获取的多普勒特征更具有鲁棒性，对时频图做了频域上的归一化，归一化处理后可以减轻幅值差异对特征带来的影响。

在一些实施例中，上述对所述动态回声信号进行频移信号处理，得到所述动态回声信号的动态频移信息，可以通过多普勒频移特征提取实现，为了使多普勒频移特征更显著，将原始频率部分去除，只保留频率变化部分，最终获取的多普勒频移特征表示符F_d1的维度为100*67，其中100表示信号被分为了100段，代表时间分辨率，67则表示每段的FFT特征的长度，也代表了频率分辨率。

在一些实施例中，上述对所述动态回声信号进行相位信号处理，得到所述动态回声信号的动态相位信息，可以通过相位变化特征提取实现，除了多普勒频移特征，动态信息还会引起信号中的相位变化，假设φ(t)代表回声信号中时间点t时的相位，则Δφ(t)＝φ(t)-φ(t-1)，最终得到的相位变化特征表示为F_d2＝{Δφ(t₁),Δφ(t₂),…,Δφ(t_n)}。

如此，通过动态回声信号是描述待识别对象在第二时段内动作状态的重要信息。对动态回声信号进行频移信号处理，可以得到动态频移信息，这可以提供待识别对象在第二时段内的运动频率变化情况。同时，对动态回声信号进行相位信号处理，可以得到动态相位信息，这可以反映待识别对象的运动相位变化。将动态频移信息和动态相位信息进行信息融合，可以得到更全面、更准确的动态回声信息。这些信息对于进一步理解待识别对象的运动状态和动作具有重要意义。通过对动态回声信号进行频移和相位信号处理，可以更准确地识别和定位声音信号，提高了系统的效率和精度。

在一些实施例中，所述对象识别通过对象识别模型实现，所述对象识别模型包括静态特征提取层、动态特征提取层和识别层；上述基于所述静态回声信息和所述动态回声信息，对所述待识别对象进行对象识别，得到所述对象识别结果，可以通过如下方式实现：调用所述静态特征提取层，对所述静态回声信息进行静态特征提取，得到静态回声特征；调用所述动态特征提取层，对所述动态回声信息进行动态特征提取，得到动态回声特征；调用所述识别层，基于所述静态回声特征和所述动态回声特征，对所述待识别对象进行对象识别，得到所述对象识别结果。

作为示例，参见图6，图6是本申请实施例提供的对象识别模型的原理示意图，图6所示出的对象识别模型包括静态特征提取层71、动态特征提取层72和识别层73；调用静态特征提取层71，对静态回声信息Fs进行静态特征提取，得到静态回声特征；调用动态特征提取层72，对动态回声信息Fd1和Fd2进行动态特征提取，得到动态回声特征；调用识别层73，基于静态回声特征Fs和动态回声特征Fd1和Fd2，对待识别对象进行对象识别，得到对象识别结果。

在一些实施例中，静态特征提取层被调用，对静态回声信息进行静态特征提取，得到静态回声特征。静态回声特征可能包括静态回声信号的频率、振幅、相位等特征。接下来，动态特征提取层被调用，对动态回声信息进行动态特征提取，得到动态回声特征。动态回声特征可能包括动态回声信号的频率变化、相位变化、信号能量等特征。最后，识别层被调用，基于静态回声特征和动态回声特征，对待识别对象进行对象识别，得到对象识别结果。这个过程可以通过机器学习算法，如分类、聚类、深度学习等，以实现准确的识别结果。

如此，静态回声特征和动态回声特征分别提供了待识别对象在静态和动态状态下的信息，包括信号的频率、振幅、相位等特征。这些特征经过提取和处理后，可以用于训练和识别模型，从而更好地区分不同类型的对象。同时，利用这些特征进行对象识别，可以提供更准确、更可靠的识别结果，提高系统的效率和精度。

参见图5，图5是本申请实施例提供的对象识别模型的训练方法的流程示意图，将结合图5示出的步骤201至步骤203进行说明，本申请实施例提供的对象识别模型的训练方法可以由服务器或终端单独实施，或者由服务器及终端协同实施，下面将以服务器单独实施为例进行说明。

在步骤201中，获取样本对象的回声信号样本。

在一些实施例中，回声信号样本包括静态回声信号样本和动态回声信号样本。

在一些实施例中，上述步骤201可以通过如下方式实现：向样本对象发送声音信号，接收样本对象针对声音信号的回声信号样本。

在一些实施例中，通过对回声信号样本进行样本划分，得到静态回声信号和动态回声信号。

在步骤202中，调用初始对象识别模型，基于静态回声信号样本和动态回声信号样本，对样本对象进行对象识别，得到样本对象的对象识别结果。

在一些实施例中，初始对象识别模型包括初始静态特征提取层、初始动态特征提取层和初始识别层，调用初始对象识别模型，基于静态回声信号样本和动态回声信号样本，对样本对象进行对象识别，得到样本对象的对象识别结果，可以通过如下方式实现：调用初始静态特征提取层，对静态回声信号样本进行静态特征提取，得到静态回声样本特征；调用初始动态特征提取层，对动态回声信号样本进行动态特征提取，得到动态回声样本特征；调用识别层，基于静态回声样本特征和动态回声样本特征，对样本对象进行对象识别，得到样本对象的对象识别结果。

在步骤203中，基于样本对象的对象识别结果和回声信号样本携带的样本标签，对初始对象识别模型进行训练，得到对象识别模型。

在一些实施例中，对象识别模型，用于基于待识别对象的静态回声信号和动态回声信号，对待识别对象进行对象识别。

在一些实施例中，训练集D_d中含有n位合法用户的数据集作为正样本，并且，对每一位用户，都有相应的攻击数据作为负样本，因此，其中d表示正常数据，d′表示攻击数据。

使用交叉熵误差作为模型训练的损失函数，计算公式为：

其中，N代表总样本数，p_i代表样本i预测为正样本的概率，而y_i则表示样本i的标签(正样本为1，负样本为0)。

如此，获取样本对象的回声信号样本，包括静态回声信号样本和动态回声信号样本，为后续的对象识别提供了丰富的数据资源。其次，基于静态回声信号样本和动态回声信号样本，调用初始对象识别模型对样本对象进行对象识别，可以得到初步的识别结果。这些结果可以用于验证和改进模型，提高模型的准确性和可靠性。最后，基于样本对象的对象识别结果和回声信号样本携带的样本标签，可以对初始对象识别模型进行训练，得到更准确、更可靠的识别模型。这种训练过程可以进一步提高模型的性能，使其能够更好地对待识别对象进行对象识别。

如此，通过在目标时段内向待识别对象发送声音信号，获取声音信号对应的回声信号，基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号，基于静态回声信号和动态回声信号，对待识别对象进行对象识别，得到对象识别结果。如此，一方面由于声音信号较之于图像信号等形式的信号，更加难以添加敏感信息，通过声音信号的方式进行对象识别，从而有效防止敏感信息对识别的影响，另一方面，通过基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号，基于静态回声信号和动态回声信号参与识别过程，从而较之于单一维度的识别，基于静态回声信号和动态回声信号参与识别过程能够丰富对象识别的识别维度，从而实现双重识别，从而使得对象识别的准确性能够有效提高，从而能够有效提高对象识别的准确性。

下面，将说明本申请实施例在一个实际的对象识别的应用场景中的示例性应用。

人脸认证是一种基于人脸生物特征的身份验证方法，通过将输入的人脸图像与预先注册的人脸模板进行匹配，来确认用户的身份。相比传统的密码或卡片验证方式，人脸认证具有不可伪造性、方便性和高效性等优势，因此人脸认证系统在日常生活中已经得到了广泛的应用。但是，现有的人脸认证系统容易受到各种展示攻击的威胁，如何确保人脸认证的安全性显得尤为重要。目前针对人脸认证系统的攻击手段日益多样化和高级化。攻击者可以利用各种手段欺骗人脸认证系统，例如使用照片/视频、3D面具、对抗样本等伪造的人脸来冒充合法用户，从而绕过认证过程。例如，传统的2D人脸认证系统，容易受到如图像或视频攻击等基本攻击。为了增强人脸认证系统的安全性，人脸抗欺骗技术引起了广泛的关注。

在一些实施例中，参见图7，图7是本申请实施例提供的对象识别方法的原理示意图。本申请实施例致力于利用声信号实现人脸抗欺骗，通过声学感知获取人脸的静态信息(深度特征)以及动态信息(表情、点头等动作特征)作为线索，研究和探索出了一种了基于动静结合特征的声学人脸活体检测方案，提升了人脸认证系统的安全性。本申请实施例所采用的技术方案可以通过图7所示出的步骤实现，步骤一：声信号感知，即利用扬声器播放预先设计好的超声波信号，并且利用麦克风收集包含用户人脸深度信息及动态信息的回声信号。步骤二：声信号预处理，即对采集的声信号进行环境噪声去除、信号同步及分割等预处理操作。步骤三：静态特征提取，包括信号分段，去除扬声器到麦克风的直接传输，定位并提取人脸回声信号，利用快速傅立叶变换算法获取全局特征表示，利用短时傅立叶变换算法获取局部特征表示，以及特征组合。步骤四：动态特征提取，包括利用带宽滤波器提取特定频率范围内的信号，使用短时傅立叶变换算法获取信号的多普勒频移声谱图，归一化以，多普勒频移特征表示的生成以及相位变化特征提取等。步骤五：决策模块，设计深度学习网络，结合使用静态特征和动态特征训练深度学习模型，使用训练好的模型判断用户的合法性。

在一些实施例中，上述步骤一可以通过如下方式实现：声信号设计，本申请实施例主要从三个方面设计声信号：信号波形，频率以及持续时间和间隔。信号波形，由于不同的面部区域到设备的距离不同，基于声信号对距离敏感的特性，可以从人脸的回声信号中获取关于人脸深度的静态信息。并且，声信号的频率会因为观察者与声源的运动发生变化，产生多普勒频移，因此可以通过检测回声信号中的多普勒频移获取人脸的动作信息。为了检测人脸深度的静态信息，本申请实施例利用了广泛应用于距离测量的频率调制连续波(FMCW)信号其中f_l表示起始频率，c表示每增加一个样本要增加的频率，sp为采样率(44.1KHz)；而为了检测人脸的动态信息，本申请实施例则利用了更容易体现多普勒频移的恒定频率声信号e_D＝2Asin(2πft)。频率，由于成年人的可以听见的声音上限平均频率约为15-17KHz，检测静态的声信号e_s的频率增长范围设置为16-22KHz，而检测动态的声信号e_D频率设置为了20KHz。持续时间和间隔，根据调研，用户面部与设备之间的距离约为25-50cm，相应的时间延迟为1.4-2.8ms。由于静态特征的提取需要在信号中定位人脸的位置，静态特征检测信号e_s的持续时间设置为60个样本(约1ms，采样率sp为44.1KHz)，目的是最小化面部回波信号与下一个发射信号之间的重叠；此外，为了最小化来自远处其他距离的物体的回波信号对下一个发射信号的干扰，本申请实施例将间隔设置为1042个样本(约24ms)，对应的距离范围为408cm；对于静态特征的提取，一共发射并收集N个脉冲连续波信号，周期T为1102个样本(1042+60＝1102，约25ms)，总持续时间约为t_s＝N*0.025秒。而对于检测动态的人脸信号e_D，信号持续时间为t_d没有间隔时长，这是因为持续的信号可以捕捉到较为连续的动态特征。声信号感知，使用扬声器播放所设计的声信号，同时调用麦克风收集回声信号。

在一些实施例中，针对上述步骤二可以通过如下方式实现：环境噪声去除，根据调研，环境背景噪声的频率通常在12KHz以下，而所设计的声信号频率在16KHz以上；为了有效消除由背景噪声引起的干扰，采用高通滤波器滤除16KHz以下的环境噪声。信号同步及分割，由于回声信号与发射信号之间存在时延，为了减轻时延对后面的处理操作带来的影响，采用互相关函数对回声信号与发射信号进行对齐。由于设计的声信号包含检测静态信息和动态信息的两段信号，根据两段信号的持续时间，将回声信号r分割成含静态信息的信号r_s和含动态信息的信号r_d。

在一些实施例中，针对上述步骤三可以通过如下方式实现：信号分段，步骤2后，静态信息信号r_s中还包含扬声器到麦克风的直接传输信号、人脸回声信号以及环境反射信号。为了更好的定位人脸回声，此阶段将信号分段成了N个片段。具体而言，使用峰值检测算法寻找第一个波的峰值p₁，然后再根据信号的周期找到所有波的峰值P＝{p₁,…,p_N}，其中p_i＝p₁+(i-1)*T，并且将的峰值的前30个样本的位置作为每个片段的起始点，这是因为每个片段的峰值前仍然有一段有值的信号。直接传输去除，为了进一步精确的定位人脸回声，还需要初步确认直接传输的位置，并将其去除。具体而言，首先将使用希尔伯变换函数计算每一个片段的包络曲线，然后计算包络曲线的第一个峰值的左右波谷，作为直接传输信号的起始位置和终点，在定位到直接传输信号之后，即可将其去除。人脸回声定位，通常来说，直接传输后的第一个峰值位置即为人脸回声的位置，为了增强鲁棒性，将对一个信号的所有片段都计算一个人脸回声位置，最终的人脸回声位置等于所有片段的人脸回声位置的均值。获取人脸回声位置后，将截取60个样本信号作为人脸回声信号。快速傅立叶变换获取频域特征，通过步骤3.3获取到人脸回声信号后，利用快速傅立叶变换算法(FFT)将其转换为频域上的FFT特征表示。由于一共包含30个片段，最终获得的FFT特征表示F_s1维度为2*30*60，其中第一个维度代表幅度和相位两个值，第二个维度代表人脸回声片段，而第三个维度则是每个片段的特征长度。短时傅立叶变换获取时频特征，FFT特征通常为人脸回声信号的全局范围的频域表示，忽略了人脸信号中时域上的信息。为了进一步提升精度，利用短时傅立叶变换获取人脸信号的获取时频特征F_s2，补充人脸信号时域上的局部频谱信息。最终获取的时频特征F_s2维度也为2*30*60，其中第一个维度亦代表幅度和相位两个值，第二个维度代表时间分辨率，而第三个维度则是频率分辨率。特征组合，获取人脸回声信号的全局频域特征F_s1以及时频特征F_s2后，可将其连接组合成4*30*60的最终静态特征F_s，此特征表示组合了全局以及局部的频谱特征，包含丰富的人脸深度信息，进一步提升了系统最终的性能。

在一些实施例中，针对上述步骤四可以通过如下方式实现：带通滤波，步骤2后，由于检测动态信息的信号r_d为恒定频率的信号，因此为了提取指定频率(20KHz)的信号，并且保留动态信息带来的频移，采用19.9-20.1KHz的带宽滤波器对动态特征信号进行滤波。短时傅立叶变换，此步骤采用了短时傅立叶算法(STFT)提取动态信号的时频分布图，时频图可以清晰的描述信号频率随着时间的变化关系，体现动态信息带来的多普勒频移。归一化，为了使所获取的多普勒特征更具有鲁棒性，对时频图做了频域上的归一化，归一化处理后可以减轻幅值差异对特征带来的影响。多普勒频移特征提取，为了使多普勒频移特征更显著，将原始频率部分去除，只保留频率变化部分，最终获取的多普勒频移特征表示符F_d1的维度为100*67，其中100表示信号被分为了100段，代表时间分辨率，67则表示每段的FFT特征的长度，也代表了频率分辨率。相位变化特征提取，除了多普勒频移特征，动态信息还会引起信号中的相位变化，假设φ(t)代表回声信号中时间点t时的相位，则Δφ(t)＝φ(t)-φ(t-1)，最终得到的相位变化特征表示为F_d2＝{Δφ(t₁),Δφ(t₂),…,Δφ(t_n)}。

在一些实施例中，针对上述步骤五可以通过如下方式实现：模型的设计，相较于图像信号的处理，模型对声信号的处理存在以下差异：(1)图像通常是三维数据，而音频信号通常是两维，因此在输入CNN模型前，需要从音频信号提取出三维的特征表示符，例如提取的静态特征F_s；(2)图像信号通常不具备时序性，而音频信号是具有时序性的数据，需要关注其时序上的信息，因此引入了LSTM模型(信号处理中常用的模型之一)学习动态特征F_D中的时序信息；(3)图像数据通常需要较大的参数量模型进行处理，而信号数据要求的模型的参数量较少，减少了计算成本。

基于上面的考虑，使用提取出的静态人脸特征F_s，以及提取出的动态特征F_d1和F_d2，作为模型的输入。参见图6，将静态特征F_s输入至卷积神经网络(CNN)中，依次经过：卷积层CONV1，卷积层CONV2，卷积层CONV3，卷积层CONV4，卷积层CONV5，全连接层FC1，最终可以得到一个256维的特征向量fea_s。为了学习动态信息中的时序特征，将F_d1输入至长短时记忆网络(LSTM)中，隐藏层的大小设置为512，将LSTM的输出输入到全连接层FC2中，得到一个512维的特征向量fea_d1。同时，将F_d2输入至长短时记忆网络(LST M)中，隐藏层的大小设置为128，将LSTM的输出输入到全连接层FC3中，得到一个128维的特征向量fea_d2。连接特征向量fea_d1、fea_d2，组成动态特征向量fea_d，并将其输入到全连接层FC4中。最终，连接特征向量fea_s、fea_d，输入到全连接层FC5中，最后是一个Soft max层决定当前特征属于哪个类别。

在一些实施例中，训练，训练集D_d中含有n位合法用户的数据集作为正样本，并且，对每一位用户，都有相应的攻击数据作为负样本，因此，其中d表示正常数据，d′表示攻击数据。

使用交叉熵误差作为模型训练的损失函数，计算公式为：

其中N代表总样本数，p_i代表样本i预测为正样本的概率，而y_i则表示样本i的标签(正样本为1，负样本为0)。

在一些实施例中，预测，测试集D_t中含有m位与D_d不同的用户，与训练集相似，对每一位用户，都有相应的攻击数据作为负样本，因此D_t＝{d_idn+1,…,d_idn+m,d′_idn+1,…,d′_idn+m}。模型训练完成之后，在未参与训练的用户的数据集D_t上进行测试，对于每个样本，模型输出1，则代表样本为合法用户，模型输出0，则为攻击者。

在一些实施例中，参见图8，图8是本申请实施例提供的声音信号处理的原理示意图，通过声音信号r进行高通滤波得到滤波信号rs，对滤波信号rs进行信号分段，然后进行直接传输去除，并进行人脸回声定位，然后进行快速傅里叶变换得到结果Fs。通过声音信号r进行信号分割，得到分割结果rd，然后进行带宽滤波，然后进行短时傅里叶变换，然后进行归一化然后进行多普勒特征提取得到结果Fd。

如此，本申请实施例主要用于人脸抗欺骗领域，现有的人脸抗欺骗技术大多是基于视觉的，然而这些方案存在着隐私性差(可能需要额外收集包含人脸的视觉数据)、鲁棒性差(易受环境光线影响)以及依赖额外硬件(深度摄像头)。而现有的基于声学的人脸抗欺骗技术仅利用了人脸的深度信息，只能够抵御2D人脸展示攻击，未考虑3D人脸展示攻击的威胁。为了解决以上缺点，本申请实施例通过结合使用声学信号感知到的人脸静态信息和动态信息进行人脸抗欺骗，无需收集敏感的视觉人脸数据，对环境噪声以及光线鲁棒，无需额外硬件，并且可以抵御2D和3D的人脸展示攻击，是一种鲁棒性强、实用、安全性高的人脸抗欺骗技术。

如此，本申请实施例利用声信号感知人脸实现活体检测，与基于视觉的方案相比，本申请实施例无需收集含有敏感信息的视觉数据(例如人脸图像等)，减少了用户对个人隐私的担忧；本申请实施例依赖的传感器为传统设备普遍存在的麦克风和扬声器，无需额外传感器(例如深度摄像头等)，实用性和推广性高；本申请实施例安全性较高，结合利用人脸的静态信息(深度特征)以及动态信息(表情、点头等)，能够抵御目前主流的人脸展示攻击，包含2D展示攻击以及3D展示攻击，而现有的其他基于声学的人脸活体检测方案不能抵御3D展示攻击；本申请实施例采用超声波进行感知人脸，不会受到环境光线及环境噪声的影响，鲁棒性较好。

可以理解的是，在本申请实施例中，涉及到声音信号等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的对象识别装置455的实施为软件模块的示例性结构，在一些实施例中，如图1所示，存储在存储器450的对象识别装置455中的软件模块可以包括：发送模块4551，用于在目标时段内向待识别对象发送声音信号，所述目标时段包括第一时段和第二时段；其中，所述第一时段内的所述声音信号为静态的声音信号，所述第二时段内的所述声音信号为动态的声音信号；划分模块4552，用于获取所述声音信号对应的回声信号，并基于所述第一时段和所述第二时段，对所述回声信号进行信号划分，得到静态回声信号和动态回声信号；对象识别模块4553，用于基于所述静态回声信号和所述动态回声信号，对所述待识别对象进行对象识别，得到对象识别结果。

在一些实施例中，上述对象识别装置455，还包括：输出模块，还用于在所述第一时段内输出第一提示信息，所述第一提示信息，用于提示的所述声音信号为静态的声音信号；在所述第二时段内输出第二提示信息，所述第二提示信息，用于提示所述待识别对象执行所述规定动作。

在一些实施例中，上述划分模块4552，还用于接收所述声音信号对应的初始回声信号，并获取所述回声信号的目标信号频率；基于所述目标信号频率，对所述初始回声信号进行去噪处理，得到所述回声信号。

在一些实施例中，上述划分模块4552，还用于获取所述第一时段占所述目标时段的第一时段比值，及所述第二时段占所述目标时段的第二时段比值；基于所述第一时段比值和所述回声信号的信号时长，确定所述静态回声信号的静态信号时长；基于所述第二时段比值和所述回声信号的信号时长，确定所述动态回声信号的动态信号时长；基于所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号。

在一些实施例中，上述划分模块4552，还用于获取所述第一时段和所述第二时段之间的时段关系，所述时段关系，用于指示所述第一时段是否在所述第二时段之前；基于所述时段关系、所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号。

在一些实施例中，上述划分模块4552，还用于若所述时段关系指示所述第一时段在所述第二时段之前，则将所述回声信号中起始时刻至第一时刻之间的子回声信号，确定为所述静态回声信号，将所述回声信号中所述第一时刻至终止时刻之间的子回声信号，确定为所述动态回声信号；若所述时段关系指示所述第二时段在所述第一时段之前，则将所述回声信号中所述起始时刻至第二时刻之间的子回声信号，确定为所述动态回声信号，并将所述回声信号中所述第二时刻至所述终止时刻之间的子回声信号，确定为所述静态回声信号；其中，所述起始时刻至所述第一时刻的时段长度等于所述第一时段的时段长度，所述起始时刻至所述第二时刻的时段长度等于所述第二时段的时段长度。

在一些实施例中，上述划分模块4552，还用于对所述静态回声信号进行静态信号处理，得到静态回声信息，并对所述动态回声信号进行动态信号处理，得到动态回声信息；基于所述静态回声信息和所述动态回声信息，对所述待识别对象进行对象识别，得到所述对象识别结果；其中，所述对象识别结果，用于指示所述待识别对象是否为认证对象。

在一些实施例中，上述划分模块4552，还用于对所述静态回声信号进行信号净化，得到静态净化信号，并对所述静态净化信号进行时域信号处理，得到所述静态净化信号的静态时域信息；对所述静态净化信号进行频域信号处理，得到所述静态净化信号的静态频域信息；将所述静态时域信息和所述静态频域信息进行信息融合，得到所述静态回声信息。

在一些实施例中，上述划分模块4552，还用于对所述动态回声信号进行频移信号处理，得到所述动态回声信号的动态频移信息；对所述动态回声信号进行相位信号处理，得到所述动态回声信号的动态相位信息；将所述动态频移信息和所述动态相位信息进行信息融合，得到所述动态回声信息。

在一些实施例中，所述对象识别通过对象识别模型实现，所述对象识别模型包括静态特征提取层、动态特征提取层和识别层；上述对象识别模块4553，还用于调用所述静态特征提取层，对所述静态回声信息进行静态特征提取，得到静态回声特征；调用所述动态特征提取层，对所述动态回声信息进行动态特征提取，得到动态回声特征；调用所述识别层，基于所述静态回声特征和所述动态回声特征，对所述待识别对象进行对象识别，得到所述对象识别结果。

下面继续说明本申请实施例提供的对象识别装置555的实施为软件模块的示例性结构，在一些实施例中，如图1所示，存储在存储器550的对象识别模型的训练装置555中的软件模块可以包括：获取模块5551，获取样本对象的回声信号样本，所述回声信号样本包括静态回声信号样本和动态回声信号样本；样本识别模块5552，用于调用初始对象识别模型，基于所述静态回声信号样本和所述动态回声信号样本，对所述样本对象进行对象识别，得到所述样本对象的对象识别结果；训练模块5553，用于基于所述样本对象的对象识别结果和所述回声信号样本携带的样本标签，对所述初始对象识别模型进行训练，得到所述对象识别模型；其中，所述对象识别模型，用于基于待识别对象的静态回声信号和动态回声信号，对所述待识别对象进行对象识别。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的对象识别方法和对象识别模型的训练方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的对象识别方法和对象识别模型的训练方法，例如，如图4示出的对象识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEP ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上，本申请实施例具有如下有益效果：

(1)通过在目标时段内向待识别对象发送声音信号，获取声音信号对应的回声信号，基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号，基于静态回声信号和动态回声信号，对待识别对象进行对象识别，得到对象识别结果。如此，一方面由于声音信号较之于图像信号等形式的信号，更加难以添加敏感信息，通过声音信号的方式进行对象识别，从而有效防止敏感信息对识别的影响，另一方面，通过基于第一时段和第二时段，对回声信号进行信号划分，得到静态回声信号和动态回声信号，基于静态回声信号和动态回声信号参与识别过程，从而较之于单一维度的识别，基于静态回声信号和动态回声信号参与识别过程能够丰富对象识别的识别维度，从而实现双重识别，从而使得对象识别的准确性能够有效提高，从而能够有效提高对象识别的准确性。

(2)接收所述声音信号对应的初始回声信号，并获取所述回声信号的目标信号频率，是指在接收回声信号后，通过分析回声信号的频率来确定待识别对象的声音信号的频率。基于目标信号频率，对初始回声信号进行去噪处理，得到回声信号，是指根据目标信号频率，对回声信号进行滤波或降噪处理，以消除或减少噪声干扰，得到更纯净的回声信号，从而可以提高回声信号的质量和准确性，从而更准确地识别和定位声音信号。

(3)在第一时段内向待识别对象发送第一声音信号，可以通过声音信号来识别待识别对象的位置和状态。声音信号可以被接收器接收并转化为电信号，进而可以用来定位和检测待识别对象。第一声音信号和第二声音信号对应的信号参数不同，这可以使系统具有更高的可靠性和稳定性。由于声音信号是依赖于环境和环境条件的，如果不同信号的参数不同，可以降低信号的干扰和失真，从而更准确地识别待识别对象。在第一时段内待识别对象保持静止，这意味着声音信号可以更准确地定位待识别对象的位置。这对于需要精确控制和定位的应用场景非常有用。在第二时段内待识别对象执行规定动作，这意味着声音信号可以用来检测和跟踪待识别对象的动作。声音信号可以被用来检测待识别对象的运动状态，从而可以实时检测和调整系统的状态。

(4)获取第一时段占目标时段的比值，以及第二时段占目标时段的比值，是通过对回声信号进行分析和测量，得到不同时间段在回声信号中所占的比例。基于第一时段比值和回声信号的信号时长，可以确定静态回声信号的静态信号时长，即待识别对象在第一时段内保持静止的时间长度。基于第二时段比值和回声信号的信号时长，可以确定动态回声信号的动态信号时长，即待识别对象在第二时段内执行规定动作的时间长度。最后，根据动态信号时长和静态信号时长，可以对回声信号进行信号划分，得到静态回声信号和动态回声信号，从而更准确地识别和定位声音信号。

(5)当第一时段在第二时段之前时，将回声信号中起始时刻至第一时刻之间的子回声信号确定为静态回声信号，将第一时刻至终止时刻之间的子回声信号确定为动态回声信号，这种处理方式可以提供更详细的信息来描述待识别对象在第一时段内的状态。具体来说，当第一时段在第二时段之前时，动态回声信号提供的是在第二时段内待识别对象的运动信息，这有助于实时监控和调整系统的状态。而静态回声信号则提供的是在第一时段内待识别对象的位置信息，这有助于更准确地识别和定位声音信号。因此，这种处理方式可以更全面地了解待识别对象在不同时间段内的状态和动作，从而提高了系统的可靠性和准确性。

(6)当第二时段在第一时段之前时，将回声信号中起始时刻至第一时刻之间的子回声信号确定为动态回声信号，并将第一时刻至终止时刻之间的子回声信号确定为静态回声信号，这种处理方式可以更好地反映待识别对象在第二时段内的动作状态。动态回声信号可以提供待识别对象在第二时段内的运动信息，而静态回声信号则可以提供第一时段内待识别对象的位置信息。这样可以更全面地了解待识别对象在不同时间段内的状态和动作，从而提高了系统的可靠性和准确性。同样，当第一时段在第二时段之前时，将回声信号中起始时刻至第一时刻之间的子回声信号确定为静态回声信号，并将第一时刻至终止时刻之间的子回声信号确定为动态回声信号，这种处理方式可以更好地反映待识别对象在第一时段内的静止状态和第二时段内的动作状态。这样可以更准确地识别和定位声音信号，提高了系统的效率和精度。

(7)对静态回声信号进行信号净化，得到静态净化信号，这一步骤可以消除噪声干扰，提高静态回声信号的质量。然后，对静态净化信号进行时域信号处理，可以得到静态时域信息，如待识别对象在第一时段内的位置信息。同时，对静态净化信号进行频域信号处理，可以得到静态频域信息，如信号的频率分布和能量分布等信息。将静态时域信息和静态频域信息进行信息融合，可以得到更全面、更准确的静态回声信息，这对于进一步分析待识别对象的状态和动作具有重要意义。

(8)通过动态回声信号是描述待识别对象在第二时段内动作状态的重要信息。对动态回声信号进行频移信号处理，可以得到动态频移信息，这可以提供待识别对象在第二时段内的运动频率变化情况。同时，对动态回声信号进行相位信号处理，可以得到动态相位信息，这可以反映待识别对象的运动相位变化。将动态频移信息和动态相位信息进行信息融合，可以得到更全面、更准确的动态回声信息。这些信息对于进一步理解待识别对象的运动状态和动作具有重要意义。通过对动态回声信号进行频移和相位信号处理，可以更准确地识别和定位声音信号，提高了系统的效率和精度。

(9)静态回声特征和动态回声特征分别提供了待识别对象在静态和动态状态下的信息，包括信号的频率、振幅、相位等特征。这些特征经过提取和处理后，可以用于训练和识别模型，从而更好地区分不同类型的对象。同时，利用这些特征进行对象识别，可以提供更准确、更可靠的识别结果，提高系统的效率和精度。

(10)本申请实施例主要用于人脸抗欺骗领域，现有的人脸抗欺骗技术大多是基于视觉的，然而这些方案存在着隐私性差(可能需要额外收集包含人脸的视觉数据)、鲁棒性差(易受环境光线影响)以及依赖额外硬件(深度摄像头)。而现有的基于声学的人脸抗欺骗技术仅利用了人脸的深度信息，只能够抵御2D人脸展示攻击，未考虑3D人脸展示攻击的威胁。为了解决以上缺点，本申请实施例通过结合使用声学信号感知到的人脸静态信息和动态信息进行人脸抗欺骗，无需收集敏感的视觉人脸数据，对环境噪声以及光线鲁棒，无需额外硬件，并且可以抵御2D和3D的人脸展示攻击，是一种鲁棒性强、实用、安全性高的人脸抗欺骗技术。

(11)本申请实施例利用声信号感知人脸实现活体检测，与基于视觉的方案相比，本申请实施例无需收集含有敏感信息的视觉数据(例如人脸图像等)，减少了用户对个人隐私的担忧；本申请实施例依赖的传感器为传统设备普遍存在的麦克风和扬声器，无需额外传感器(例如深度摄像头等)，实用性和推广性高；本申请实施例安全性较高，结合利用人脸的静态信息(深度特征)以及动态信息(表情、点头等)，能够抵御目前主流的人脸展示攻击，包含2D展示攻击以及3D展示攻击，而现有的其他基于声学的人脸活体检测方案不能抵御3D展示攻击；本申请实施例采用超声波进行感知人脸，不会受到环境光线及环境噪声的影响，鲁棒性较好。

(12)获取样本对象的回声信号样本，包括静态回声信号样本和动态回声信号样本，为后续的对象识别提供了丰富的数据资源。其次，基于静态回声信号样本和动态回声信号样本，调用初始对象识别模型对样本对象进行对象识别，可以得到初步的识别结果。这些结果可以用于验证和改进模型，提高模型的准确性和可靠性。最后，基于样本对象的对象识别结果和回声信号样本携带的样本标签，可以对初始对象识别模型进行训练，得到更准确、更可靠的识别模型。这种训练过程可以进一步提高模型的性能，使其能够更好地对待识别对象进行对象识别。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种对象识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述声音信号对应的回声信号，包括：

接收所述声音信号对应的初始回声信号，并获取所述回声信号的目标信号频率；

基于所述目标信号频率，对所述初始回声信号进行去噪处理，得到所述回声信号。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一时段和所述第二时段，对所述回声信号进行信号划分，得到静态回声信号和动态回声信号，包括：

获取所述第一时段占所述目标时段的第一时段比值，及所述第二时段占所述目标时段的第二时段比值；

基于所述第一时段比值和所述回声信号的信号时长，确定所述静态回声信号的静态信号时长；

基于所述第二时段比值和所述回声信号的信号时长，确定所述动态回声信号的动态信号时长；

基于所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号。

4.根据权利要求3所述的方法，其特征在于，所述基于所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号，包括：

获取所述第一时段和所述第二时段之间的时段关系，所述时段关系用于指示所述第一时段是否在所述第二时段之前；

基于所述时段关系、所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号。

5.根据权利要求4所述的方法，其特征在于，所述基于所述时段关系、所述动态信号时长和所述静态信号时长，对所述回声信号进行信号划分，得到所述静态回声信号和所述动态回声信号，包括：

若所述时段关系指示所述第一时段在所述第二时段之前，则将所述回声信号中起始时刻至第一时刻之间的子回声信号，确定为所述静态回声信号，将所述回声信号中所述第一时刻至终止时刻之间的子回声信号，确定为所述动态回声信号；

若所述时段关系指示所述第二时段在所述第一时段之前，则将所述回声信号中所述起始时刻至第二时刻之间的子回声信号，确定为所述动态回声信号，并将所述回声信号中所述第二时刻至所述终止时刻之间的子回声信号，确定为所述静态回声信号；

其中，所述起始时刻至所述第一时刻的时段长度等于所述第一时段的时段长度，所述起始时刻至所述第二时刻的时段长度等于所述第二时段的时段长度。

6.根据权利要求1所述的方法，其特征在于，所述基于所述静态回声信号和所述动态回声信号，对所述待识别对象进行对象识别，得到对象识别结果，包括：

对所述静态回声信号进行静态信号处理，得到静态回声信息，并对所述动态回声信号进行动态信号处理，得到动态回声信息；

基于所述静态回声信息和所述动态回声信息，对所述待识别对象进行对象识别，得到所述对象识别结果；

其中，所述对象识别结果，用于指示所述待识别对象是否为认证对象。

7.根据权利要求6所述的方法，其特征在于，所述对所述静态回声信号进行静态信号处理，得到静态回声信息，包括：

对所述静态回声信号进行信号净化，得到静态净化信号，并对所述静态净化信号进行时域信号处理，得到所述静态净化信号的静态时域信息；

对所述静态净化信号进行频域信号处理，得到所述静态净化信号的静态频域信息；

将所述静态时域信息和所述静态频域信息进行信息融合，得到所述静态回声信息。

8.根据权利要求6所述的方法，其特征在于，所述对所述动态回声信号进行动态信号处理，得到动态回声信息，包括：

对所述动态回声信号进行频移信号处理，得到所述动态回声信号的动态频移信息；

对所述动态回声信号进行相位信号处理，得到所述动态回声信号的动态相位信息；

将所述动态频移信息和所述动态相位信息进行信息融合，得到所述动态回声信息。

9.根据权利要求6所述的方法，其特征在于，所述对象识别通过对象识别模型实现，所述对象识别模型包括静态特征提取层、动态特征提取层和识别层；所述基于所述静态回声信息和所述动态回声信息，对所述待识别对象进行对象识别，得到所述对象识别结果，包括：

调用所述静态特征提取层，对所述静态回声信息进行静态特征提取，得到静态回声特征；

调用所述动态特征提取层，对所述动态回声信息进行动态特征提取，得到动态回声特征；

调用所述识别层，基于所述静态回声特征和所述动态回声特征，对所述待识别对象进行对象识别，得到所述对象识别结果。

10.一种对象识别模型的训练方法，其特征在于，所述方法包括：

获取样本对象的回声信号样本以及所述回声信号样本的样本标签，所述回声信号样本包括静态回声信号样本和动态回声信号样本；

基于所述样本对象的对象识别结果和所述回声信号样本的样本标签，对所述初始对象识别模型进行训练，得到所述对象识别模型；

11.一种对象识别装置，其特征在于，所述装置包括：

12.一种对象识别模型的训练装置，其特征在于，所述方法包括：

获取模块，获取样本对象的回声信号样本以及所述回声信号样本的样本标签，所述回声信号样本包括静态回声信号样本和动态回声信号样本；

训练模块，用于基于所述样本对象的对象识别结果和所述回声信号样本的样本标签，对所述初始对象识别模型进行训练，得到所述对象识别模型；其中，所述对象识别模型，用于基于待识别对象的静态回声信号和动态回声信号，对所述待识别对象进行对象识别。

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求1至10任一项所述的方法。

14.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的方法。

15.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的方法。