CN113703585A

CN113703585A - 交互方法、装置、电子设备及存储介质

Info

Publication number: CN113703585A
Application number: CN202111115768.XA
Authority: CN
Inventors: 李慧
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-11-26

Abstract

本申请公开了一种交互方法、交互装置、电子设备和存储介质。交互方法包括：获取用户的人脸图像，并对人脸图像检测以进行人脸识别得到识别结果，再根据识别结果生成对应的问候音频和问候动作，以及控制数字人播放问候音频并显示问候动作。本申请的交互方法中，能够实现通过人脸图像识别从而根据不同的用户生成对应的问候音频和问候动作，并通过虚拟数字人与用户进行互动，从而提高了用户体验。

Description

交互方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能领域，特别涉及一种交互方法、交互装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，数字人的应用越来越广泛。通过数字人能够为人类提供各种便捷的服务。但是当前的大多数场景下，基于虚拟形象的人机交互方式较为单一。

发明内容

有鉴于此，本申请实施方式提供了一种交互方法、交互装置、语音交互系统、电子设备及计算机可读存储介质。

本申请提供了一种交互方法，其特征在于，所述交互方法包括：

获取用户的人脸图像；

对所述人脸图像检测以进行人脸识别得到识别结果；

根据所述识别结果生成对应的问候音频和问候动作；和

控制数字人播放所述问候音频并展示所述问候动作。

在某些实施方式中，所述交互方法还包括：

获取用户的语音请求；

根据所述语音请求生成文本数据并进行意图理解查询和请求查询以得到回应结果；

通过语音云服务对所述回应结果进行语音合成以生成回应音频；

控制所述数字人播放所述回应音频。

在某些实施方式中，所述根据所述语音请求生成文本数据并进行意图理解查询和请求查询以得到回应结果包括：

判断所述语音请求的类型；

在所述语音请求为单轮类型的情况下，采用FAQ和KBQA对所述文本数据进行意图理解查询和请求查询以得到回应结果；

在所述语音请求为多轮类型的情况下，采用RASA对所述文本数据进行意图理解查询和请求查询以得到回应结果。

在某些实施方式中，所述根据所述语音请求生成文本数据并进行意图理解查询和请求查询以得到回应结果，包括：

根据所述语音请求确定与所述语音请求匹配的目标交互场景；

根据所述语音请求和所述目标交互场景确定所述语音请求的问题类型；

根据所述问题类型和所述语音请求得到回应结果。

在某些实施方式中，所述对所述人脸图像检测以进行人脸识别得到识别结果包括：

提取所述人脸特征点；

将所述人脸特征点与预设人脸特征库匹配以得到所述识别结果。

在某些实施方式中，所述根据所述识别结果生成对应的问候音频和问候动作包括：

根据所述识别结果确定问候场景；

通过数字人云服务根据所述问候场景确定问候语；

通过所述语音云服务将所述问候语生成对应的问候音频。

在某些实施方式中，所述交互方法还包括：

响应于用户第一输入以显示数字人控件；

响应于用户对所述数字人控件的第二输入以生成问候控制指令；

响应于用户对所述数字人控件的第三输入以生成对话控制指令；

响应于用户对所述数字人控件的第四输入以生成动作控制指令，所述动作控制指令包括问候动作指令和对话动作指令。

本申请还提供了一种交互装置，所述交互装置包括：

获取模块，用于获取用户的人脸图像；

识别模块，用于对所述人脸图像检测以进行人脸识别得到识别结果；

生成模块，用于根据所述识别结果生成对应的问候音频；和

控制模块，用于控制数字人播放所述问候音频并展示所述问候动作。

本申请还提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述任一项所述的交互方法。

本申请还提供一种计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，实现上述任一项实施方式中所述的交互方法。

本申请的交互方法、交互装置、语音交互系统、电子设备以及计算机可读存储介质中，通过获取用户的人脸图像，再对人脸图像进行图像检测，并进行人脸识别得到识别结果，进而根据识别结果生成对应的问候音频和问候动作，最后通过数字人播放问候音频并展示问候动作。如此，通过人脸识别和动作反馈等方式综合起来形成多模态交互系统，提高了数字人的智能性和友好性，从而提高了用户体验。

本申请实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的交互方法的流程示意图；

图2是本申请某些实施方式的交互装置的模块示意图；

图3是本申请某些实施方式的交互方法的场景图；

图4是本申请某些实施方式的电子设备的场景示意图；

图5-7是本申请某些实施方式的交互方法的流程示意图；

图8是本申请某些实施方式的交互装置的又一模块示意图；

图9-11是本申请某些实施方式的交互方法的流程示意图；

图12-14是本申请某些实施方式的数字人控件的场景示意图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的实施方式的限制。

当前，在物联网、大数据、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的驱动下，人工智能加速发展，与各领域各行业进行深度融合，呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。在一些智能设备或者应用中设置有虚拟形象，以通过虚拟形象实现与用户的可视化交互，从而提高用户的人机交互体验。当今，数字虚拟人在游戏、娱乐、影视领域广泛地被应用。随着信息技术的发展，数字人的应用越来越广泛。通过数字人，能够为人类提供各种便捷的服务。但是当前的大多数场景下，基于虚拟形象的人机交互方式较为单一，需要将数字虚拟人的交付形式进行拟人化的多模态升级。

有鉴于此，请参阅图1，本申请提供了一种交互方法，交互方法包括：

01：获取用户的人脸图像；

02：对人脸图像检测以进行人脸识别得到识别结果；

03：根据识别结果生成对应的问候音频和问候动作；和

04：控制数字人播放问候音频并展示问候动作。

相应地，请参阅图2，本申请实施方式还提供了一种交互装置100，本申请实施方式的交互方法可以由交互装置100实现。

交互装置100包括获取模块110、识别模块120、生成模块130以及控制模块140。步骤01可以由获取模块110实现，步骤02可以由识别模块120实现，步骤03可以由生成模块130实现，步骤04可以由控制模块140实现。或者说，获取模块110用于获取用户的人脸图像。识别模块120用于对人脸图像检测以进行人脸识别得到识别结果。生成模块130用于根据识别结果生成对应的问候音频和问候动作。控制模块140用于控制数字人播放问候音频并展示问候动作。

本申请实施方式还提供了一种电子设备。电子设备包括存储器和处理器。存储器中存储有计算机程序。处理器用于获取用户的人脸图像，并对人脸图像检测以进行人脸识别得到识别结果，再根据识别结果生成对应的问候音频和问候动作，以及控制数字人播放问候音频并展示问候动作。

本申请的交互方法、交互装置以及电子设备中，通过获取用户的人脸图像，再对人脸图像进行图像检测，并进行人脸识别得到识别结果，进而根据识别结果生成对应的问候音频和问候动作，最后通过数字人播放问候音频并展示问候动作。如此，通过人脸识别和动作反馈等方式综合起来形成多模态交互系统，提高了数字人的智能性和友好性，从而提高了用户体验。

具体地，电子设备包括具有图形用户界面显示的屏幕，以及可进行语音交互的语音识别设备。电子设备可包括但不限于机器人、计算机、平板电脑、手机等。以机器人为例，机器人包括显示区域、电声元件、通信元件和处理器。机器人的显示区域可以包括显示屏等。机器人运行的系统使用图形用户界面(Graphical User Interface，GUI)为用户呈现展示的内容。显示区域包括诸多UI元素，不同的显示区域可以展示相同或不同的UI元素。其中，UI元素可以包括卡片对象、应用程序图标或界面、文件夹图标、多媒体文件图标以及用于进行交互可操作的控件等。电声元件可以用于采集用户的语音请求。系统可以通过通信元件发送语音请求和交互场景信息至服务器，并通过通信元件接收服务器根据语音请求生成的问候音频操作指令。处理器用于执行与操作指令对应的操作。

请结合图3和图4，以下为便于描述，以电子设备为对话机器人为例进行实施例展开。

电子设备内置有数字人，其中，数字人是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。其包括四个交叉重叠的发展阶段，可视人，物理人，生理人，智能人，最终建立多学科和多层次的数字模型并达到对人体从微观到宏观的精确模拟。数字人可以实现与用户的交互。

电子设备包括有图像传感器和显示屏，其中，图像传感器用于采集人脸图像，显示屏可用于显示数字人，数字人用于实现与用户进行交互。电子设备还与服务器通信，服务器可提供数字人云服务和语音云服务。

当用户经过电子设备的图像传感器的检测范围内，图像传感器可扫描到人脸图像，并由处理器对人脸图像进行人脸识别，进而得到识别结果，在处理器根据人脸图像得到识别结果后，可将识别结果传输至服务器的数字人云服务中，由数字人云服务根据识别结果生成问候语文本数据以及问候动作，并将问候语文本数据传输至语音云服务中进行语音合成，得到相应的问候音频，最后由数字人云服务将问候动作以及语音云服务将问候音频传输至电子设备中，使得处理器控制电子设备的数字人播放问候音频的同时还展示问候动作。问候动作可包括但不限于挥手、鞠躬、点头等动作。

如此，可以通过人脸识别和动作反馈等方式综合起来形成多模态交互系统，提高了数字人的智能性和友好性，从而提高了用户体验。

优选地，请参阅图5，在某些实施方式中，步骤02包括：

021：提取人脸特征点；

022：将人脸特征点与预设人脸特征库匹配以得到识别结果。

请进一步地参阅图2，在某些实施方式中，步骤021和022可以由识别模块120来实现。或者说，识别模块120用于提取人脸特征点，并将人脸特征点与预设人脸特征库匹配以得到识别结果。

在某些实施方式中，处理器用于提取人脸特征点，并将人脸特征点与预设人脸特征库匹配以得到识别结果。

人脸特征点的提取方式可包括但不限于神经网络(Neural Networks，NNs)、尺度不变特征变换(Scale-Invariant Feature Transform，sift)算法、Surf(Speeded UpRobustFeatures)等特征点提取算法。其中，神经网络它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。尺度不变特征变换算法是指在计算机视觉领域中检测和描述图像中局部特征的算法，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声保持一定程度的稳定。

人脸特征库可预先存储多个人脸特征以及人脸特征对应的身份信息(例如，姓名、性别、年龄等)，在得到了人脸特征点后，可将人脸特征点与预设的人脸特征库中的人脸特征进行匹配，若人脸特征点与预设的人脸特征库中的特征有重合，则可将人脸特征对应的身份信息(ID)发送至服务器的数字人云服务中，从而，数字人云服务根据身份信息以及预设的问候语进行文本合成，得到问候文本，以及根据问候语生成对应的问候动作。

优选地，请参阅图6，在某些实施方式中，步骤03包括：

031：根据识别结果和识别时间确定问候场景；

032：通过数字人云服务根据问候场景确定问候语；

033：通过语音云服务将问候语生成对应的问候音频。

在某些实施方式中，子步骤031-033可以由生成模块130实现，或者说，生成模块130用于根据识别结果和识别时间确定问候场景，并通过数字人云服务根据问候场景确定问候语，以及通过语音云服务将问候语生成对应的问候音频。

在某些实施方式中，处理器用于根据识别结果和识别时间确定问候场景，并通过数字人云服务根据问候场景确定问候语，以及通过语音云服务将问候语生成对应的问候音频。

识别结果可包括但不限于性别特征(男性、女性)，年龄特征(少年、青年、中年、老年)以及角色特征(VIP客户、普通客户、陌生人)等。

识别时间可以为识别过程中的时间或者数字人云服务接收到识别结果的时间，识别时间可包括早上、上午、中午、下午或晚上等。

问候场景可包括但不限于问候时间、地点，人物的性别、年龄等。例如，也即是问候语可由问候场景中的时间、地点、人物的性别、年龄等而确定。

例如，处理器根据人脸图像识别得到的识别结果为性别特征为男性、年龄特征为青年、角色特征为普通客户，时间为上午。则生成的问候音频可以为：“XX先生，上午好，欢迎您莅临本营业厅”。又例如，处理器根据人脸图像识别得到的性别特征为女性、年龄特征为少年、角色特征为VIP客户，且时间为晚上，则生成的问候音频可以为：“尊敬的XX小朋友，晚上好呀，欢迎你莅临本营业厅”。

请结合图7，在某些实施方式中，交互方法还包括：

05：获取用户的语音请求；

06：根据语音请求生成文本数据并进行意图理解查询和请求查询以得到回应结果；

07：通过语音云服务对回应结果进行语音合成以生成回应音频；

08：控制数字人播放回应音频。

请结合图8，在某些实施方式中，交互装置还包括查询模块150和合成模块160，步骤05可以由获取模块110实现，步骤06可以由查询模块150实现，步骤07可以由合成模块160实现，步骤08可以由控制模块140实现。或者说，获取模块110还用于获取用户的语音请求，查询模块150用于根据语音请求生成文本数据并进行意图理解查询和请求查询以得到回应结果，合成模块160可以用于通过语音云服务对回应结果进行语音合成以生成回应音频，控制模块140可以用于控制数字人播放回应音频。

在某些实施方式中，处理器用于根据语音请求生成文本数据并进行意图理解查询和请求查询以得到回应结果，处理器还可以用于通过语音云服务对回应结果进行语音合成以生成回应音频，以及控制数字人播放回应音频。

电子设备的数字人可预置有语音软件开发工具包。在数字人运行时，可在电子设备的显示区域实时显示数字人。软件开发工具包(Software Development Kit，SDK)是指实现产品软件某项功能而开发的工具包。数字人可通过语音软件开发工具包同步至服务器，语音软件开发工具包是电子设备与服务器的语音云服务进行语音交互的枢纽。一方面语音软件开发工具包定义了语音请求的生成规范。另一方面，语音软件开发工具包能够实现将电子设备中的数字人信息同步到服务器的语音云服务，并将服务器的语音云服务针对语音请求生成的操作指令传输到数字人。

请进一步地结合图3，具体地，电子设备还可包括有拾音装置，处理器可控制拾音装置获取用户的语音输入，并在可接收到用户的语音输入后，可对语音输入进行降噪等处理，再传输至服务器的语音云服务，语音云服务通过自动语音识别技术(ASR)进行语音识别生成文本数据。进而再发送至数字人云服务，由数字人云服务进行意图理解查询和请求查询以得到回应结果，再发送回语音云服务，由语音云服务进行语音合成生成回应音频，并回传至电子设备。使得处理器控制数字人播放回应音频并展示对应的回应动作。如此，可以通过人脸识别、动作反馈以及语音交互等方式综合起来形成多模态交互系统，提高了数字人的智能性和友好性，从而提高了用户体验。

优选地，请参阅图9，在某些实施方式中，步骤06包括：

061：判断语音请求的类型；

062：在语音请求为单轮类型的情况下，采用FAQ和KBQA对文本数据进行意图理解查询和请求查询以得到回应结果；或

063：在语音请求为多轮类型的情况下，采用RASA对文本数据进行意图理解查询和请求查询以得到回应结果。

请参阅图8，在某些实施方式中，步骤061-063可以由查询模块150实现，或者说，查询模块150还用于判断语音请求的类型，并在语音请求为单轮类型的情况下，采用FAQ和KBQA对文本数据进行意图理解查询和请求查询以得到回应结果，或者，在语音请求为多轮类型的情况下，采用RASA对文本数据进行意图理解查询和请求查询以得到回应结果。

在某些实施方式中，处理器用于判断语音请求的类型，并在语音请求为单轮类型的情况下，采用FAQ和KBQA对文本数据进行意图理解查询和请求查询以得到回应结果，或者，在语音请求为多轮类型的情况下，采用RASA对文本数据进行意图理解查询和请求查询以得到回应结果。

常见问题解答(Frequently Asked Questions，FAQ)是指当前网络上提供在线帮助的主要手段，通过事先组织好一些可能的常问问答对，发布在网页上为用户提供咨询服务。QA是指利用各种技术和数据对用户提出的自然语言问题直接给出问题答案，KBQA是指基于知识库的自然语言问答。

Rasa是一个开源机器学习框架，用于构建上下文AI助手和对话机器人，Rasa有两个主要模块：Rasa NLU模块和Rasa Core模块。Rasa NLU模块用于理解用户消息，包括意图识别和实体识别，它会把用户的输入转换为结构化的数据。Rasa Core模块是一个对话管理平台，用于举行对话和决定下一步做什么。

如此，电子设备能够更加智能的与用户进行互动，进一步地提高了电子设备的智能性和友好性。

请参阅图10，在某些实施方式中，步骤06还包括：

064：根据语音请求确定与语音请求匹配的目标交互场景；

065：根据语音请求和目标交互场景确定语音请求的问题类型；

066：根据问题类型和语音请求得到回应结果。

请参阅图8，在某些实施方式中，步骤064-066可以由查询模块150实现，或者说，查询模块150用于根据语音请求确定与语音请求匹配的目标交互场景，并根据语音请求和目标交互场景确定语音请求的问题类型，以及根据问题类型和语音请求得到回应结果。

在某些实施方式中，处理器用于根据语音请求确定与语音请求匹配的目标交互场景，并根据语音请求和目标交互场景确定语音请求的问题类型，以及根据问题类型和语音请求得到回应结果。

具体地，在通过语音云服务根据语音请求生成文本数据后，可对文本数据进行意图识别，从而确定文本数据匹配的目标交互场景。目标交互场景可以包括但不限于问答场景、具体业务场景等。例如，在一些示例中，语音云服务可以使用训练后的意图识别神经网络，识别语音请求对应的目标交互场景。比如，可以针对每种目标交互场景，存储该目标交互场景下常用的多条样本语音请求对应的文本数据，使用意图识别神经网络确定语音请求生成的文本数据与每种目标场景对应的文本数据的相似度，从而确定匹配的目标交互场景。

如此，针对接收到的语音请求，并根据不同的问题类型，确定回应结果的不同，提高了对话交互的灵活性，同时，语音请求确定目标交互场景，并在该目标交互场景下确定语音请求的回应结果，可使得回应结果与当前交互场景相匹配，提高了回应结果与语音请求的匹配度，从而可进一步地提升用户体验。

优选地，请参阅图11，在某些实施方式中，在步骤01前，交互方法还包括：

001：响应于用户第一输入以显示数字人控件；

002：响应于用户对数字人控件的第二输入以生成问候控制指令；

003：响应于用户对数字人控件的第三输入以生成对话控制指令；

004：响应于用户对数字人控件的第四输入以生成动作控制指令，动作控制指令包括问候动作指令和对话动作指令。

请进一步地参阅图8，在某些实施方式中，步骤001-004可以由控制模块140来实现。或者说，控制模块140用于响应于用户第一输入以显示数字人控件，响应于用户对数字人控件的第二输入以生成问候控制指令，响应于用户对数字人控件的第三输入以生成对话控制指令，响应于用户对数字人控件的第四输入以生成动作控制指令，动作控制指令包括问候动作指令和对话动作指令。

在某些实施方式中，处理器用于响应于用户第一输入以显示数字人控件，响应于用户对数字人控件的第二输入以生成问候控制指令，响应于用户对数字人控件的第三输入以生成对话控制指令，响应于用户对数字人控件的第四输入以生成动作控制指令，动作控制指令包括问候动作指令和对话动作指令。

具体地，电子设备还可设有数字人控件，数字人控件一般包括但不限于如下信息：控件标识、控件类型和控件的动作类型等。其中，控件标识对于每个控件而言是唯一的，通过该标识可以寻找到该控件。控件类型可包括组、文本、图像等。控件的动作类型可包括点击、滑动等。

请结合图12至图14，数字人控件包括接待问候子控件、动作编辑子控件以及语音对话子控件，点击对应的子控件，可显示对应的子控件的相关界面，用户可在子控件所显示的界面进行用户设置。其中，接待问候子控件用于针对首次唤醒的场景，可针对不同场景下进行问候语的设置。接待问候子控件可对角色、时间、性别、年龄等进行设置。例如，在一些示例中，针对男性VIP客户，可将问候语设置为“XX先生，早上好，欢迎莅临本营业厅”。当然，上述说明仅仅是进行举例说明，也即是，问候语可根据用户喜好设定，并不限于上述例子。

动作编辑子控件可用于语音(用户的语音请求、语音云服务生成的音频等)与动作匹配的设置，例如，在欢迎场景中，语音“欢迎莅临”与动作“鞠躬”匹配。

语音对话子控件可针对不同场景的对话内容进行设置，使机器人引导用户更好的办理相关业务。

第二输入可用于对接待问候子控件进行设置，第三输入可用于对对话子控件进行设置，第四输入可用于对动作编辑子控件进行设置。用户的输入可以为语音输入、触控输入或外部设备输入等。例如，用户的第一输入可以为语音输入，第二输入、第三输入和第四输入都可以触控输入，也即是，用户可通过语音输入控制电子设备调出数字人控件，并通过显示屏输入实现分别对问候子控件、对话子控件以及动作子控件的相关内容进行编辑设置，从而生成问候控制指令、对话控制指令、动作控制指令等。

如此，通过可视化方式对电子设备的数字人进行配置，提高了使用的灵活性，使得电子设备应用范围更广，进一步地提升了用户体验。

本申请实施方式还提供了一种存储有计算机程序的非易失性计算机可读存储介质，当计算机程序被一个或多个处理器执行时，实现上述任一实施方式的交互方法。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的软件来完成。程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。同时，参考术语“第一”、“第二”等的描述意在将同类或相似操作区别开来，“第一”与“第二”之间在某些实施方式中具有前后逻辑关系，在某些实施方式中并不一定具有逻辑或前后关系，需要根据实际实施例进行判定，不应该仅通过字面意思进行判定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种交互方法，其特征在于，所述交互方法包括：

获取用户的人脸图像；

对所述人脸图像进行人脸识别得到识别结果；

根据所述识别结果生成对应的问候音频和问候动作；和

控制数字人播放所述问候音频并展示所述问候动作。

2.根据权利要求1所述交互方法，其特征在于，所述交互方法还包括：

获取用户的语音请求；

控制所述数字人播放所述回应音频。

3.根据权利要求2所述交互方法，其特征在于，所述根据所述语音请求生成文本数据并进行意图理解查询和请求查询以得到回应结果包括：

判断所述语音请求的类型；

4.根据权利要求2所述交互方法，其特征在于，所述根据所述语音请求生成文本数据并进行意图理解查询和请求查询以得到回应结果，包括：

根据所述问题类型和所述语音请求得到回应结果。

5.根据权利要求1所述交互方法，其特征在于，所述对所述人脸图像检测以进行人脸识别得到识别结果包括：

提取所述人脸特征点；

6.根据权利要求1所述交互方法，其特征在于，所述根据所述识别结果生成对应的问候音频和问候动作包括：

根据所述识别结果和识别时间确定问候场景；

通过数字人云服务根据所述问候场景确定问候语；

通过所述语音云服务将所述问候语生成对应的问候音频。

7.根据权利要求1所述交互方法，其特征在于，所述交互方法还包括：

响应于用户第一输入以显示数字人控件；

8.一种交互装置，其特征在于，所述交互装置包括：

获取模块，用于获取用户的人脸图像；

生成模块，用于根据所述识别结果生成对应的问候音频；和

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-7任一项所述的交互方法。

10.一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-7任一项所述的交互方法。