CN116701596A

CN116701596A - 基于数字人的对话处理方法、训练方法、装置以及设备

Info

Publication number: CN116701596A
Application number: CN202310736811.7A
Authority: CN
Inventors: 刘安平; 金昕
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-05

Abstract

本申请提供的一种基于数字人的对话处理方法，涉及人工智能技术领域。该方法包括响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，确定与问题请求匹配的至少一个回复信息；根据至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息；控制数字人向所述用户反馈最优的回复信息。采用本技术方案，能够准确地找到符合用户需求的回复，进而提升交互效率。

Description

基于数字人的对话处理方法、训练方法、装置以及设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于数字人的对话处理方法、训练方法、装置以及设备。

背景技术

在金融行业电子客服的使用越来越广泛，电子客服将成为未来主要的对客渠道之一。当前电子客服主要通过大量的文本来实现各类对话功能，但是由于文本数量的限制，生成的对话内容并不能完全使用户满意，可能会需要用户重新提问，以得到符合用户自己需求的回复，导致交互的效率低、用户不能及时得到符合自己需求的回复

因此，亟需一种基于数字人的对话处理方法，能够准确地确定出让用户满意的回复文本，进而提高交互效率。

发明内容

本申请提供一种基于数字人的对话处理方法、训练方法、装置以及设备，能够准确地确定出让用户满意的回复文本，进而提高交互效率。

第一方面，本申请提供一种基于数字人的对话处理方法，包括：

响应于用户的问题请求，将所述问题请求输入至预设的对话回复模型中，确定与所述问题请求匹配的至少一个回复信息；其中，所述问题请求表征用户的用户问题；所述回复信息具有情绪标签；所述情绪标签具有优先级；所述情绪标签表征所述回复信息的情感信息；其中，所述预设的对话回复模型是基于预设对话训练集合进行训练所得到的，所述预设对话训练集合中包括至少一个待训练对话，所述待训练对话包括用户问题、回复信息、以及回复信息的情绪标签；

根据所述至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息；

控制所述数字人向所述用户反馈所述最优的回复信息。

在一个示例中，所述响应于用户的问题请求，将所述问题请求输入至预设的对话回复模型中，确定与所述问题请求匹配的至少一个回复信息，包括：

响应于用户的问题请求，将所述问题请求输入至预设的对话回复模型中，确定与所述问题请求匹配的回复信息；

基于所述预设的对话回复模型，确定所述回复信息的情绪标签。

在一个示例中，所述根据所述至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息，包括：

基于所述预设的对话回复模型，输出优先级最高的情绪标签对应的回复信息；其中，所述优先级最高的情绪标签对应的回复信息为最优的回复信息。

在一个示例中，所述方法还包括：

获取所述用户对所述最优的回复信息的指示消息；其中，所述指示消息用于指示所述最优的回复信息在电子设备的展示方式；

根据所述指示消息，确定所述最优的回复信息在所述电子设备的展示方式。

第二方面，本申请提供一种应用于对话处理的对话回复模型的训练方法，所述方法包括：

获取预设对话训练集合；其中，所述预设对话训练集合中包括至少一个待训练对话，所述待训练对话包括用户问题、回复信息、以及回复信息的情绪标签；

将所述预设对话训练集合输入至预设初始模型中进行训练，得到对话回复模型；

其中，所述对话回复模型用于对用户的问题请求所表征的用户问题进行处理得到优先级最高的情绪标签对应的回复信息；其中，优先级最高的情绪标签对应的回复信息，为最优的回复信息；所述最优的回复信息用于基于数字人向用户反馈该最优的回复信息。

在一个示例中，所述待训练对话中的回复信息的情绪标签是基于多模态情绪识别模型所得到的；所述回复信息中包括文本信息、语音信息以及图像；

其中，所述多模态情绪识别模型为基于待训练对话中的回复信息和回复信息的情绪标签进行处理所得到的。

在一个示例中，所述多模态情绪识别模型中包括BERT模型、语音识别预训练模型和关键点识别表；所述方法，还包括：

对所述待训练对话中回复信息中的文本信息，基于所述多模态情绪识别模型中的BERT模型确定文本向量；

对所述待训练对话中回复信息中的语音信息，基于所述多模态情绪识别模型中的语音识别预训练模型进行语音分析，得到语音向量；

对所述待训练对话中回复信息中的图像，基于所述多模态情绪识别模型中的关键点识别表进行图像关键点识别，得到面部情绪向量；

根据文本向量、语音向量以及面部情绪向量，进行融合后，得到所述待训练对话中的回复信息的情绪标签。

在一个示例中，所述基于所述多模态情绪识别模型中的BERT模型确定文本向量，包括：

基于所述多模态情绪识别模型中的BERT模型，确定与所述文本信息相似度超过阈值的标签文本信息；

根据所述标签文本信息确定文本向量。

在一个示例中，所述基于所述多模态情绪识别模型中的关键点识别表进行图像关键点识别，得到面部情绪向量，包括：

基于所述多模态情绪识别模型中的关键点识别表进行图像关键点识别，确定出所述图像关键点连接线的弧度和所述图像关键点之间的距离；

根据所述图像关键点连接线的弧度和所述图像关键点之间的距离，确定出所述面部情绪向量。

第三方面，本申请提供一种基于数字人的对话处理装置，所述装置包括：

第一确定单元，用于响应于用户的问题请求，将所述问题请求输入至预设的对话回复模型中，确定与所述问题请求匹配的至少一个回复信息；其中，所述问题请求表征用户的用户问题；所述回复信息具有情绪标签；所述情绪标签具有优先级；所述情绪标签表征所述回复信息的情感信息；其中，所述预设的对话回复模型是基于预设对话训练集合进行训练所得到的，所述预设对话训练集合中包括至少一个待训练对话，所述待训练对话包括用户问题、回复信息、以及回复信息的情绪标签；

第二确定单元，用于根据所述至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息；

反馈单元，用于控制所述数字人向所述用户反馈所述最优的回复信息。

第四方面，本申请提供一种应用于对话处理的对话回复模型的训练装置，所述装置包括：

获取单元，用于获取预设对话训练集合；其中，所述预设对话训练集合中包括至少一个待训练对话，所述待训练对话包括用户问题、回复信息、以及回复信息的情绪标签；

训练单元，用于将所述预设对话训练集合输入至预设初始模型中进行训练，得到对话回复模型；

第五方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的方法。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。

第七方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。

本申请提供的一种基于数字人的对话处理方法，该方法包括响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，确定与问题请求匹配的至少一个回复信息；根据至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息；控制数字人向所述用户反馈最优的回复信息。采用本技术方案，能够准确地找到符合用户需求的回复，进而提升交互效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据本申请实施例一提供的一种基于数字人的对话处理方法的流程示意图；

图2a是根据本申请实施例二提供的一种基于数字人的对话处理方法的流程示意图；

图2b是根据本申请实施例二提供的一种预设的对话回复模型的示意图；

图3a是根据本申请实施例三提供的一种应用于对话处理的对话回复模型的训练方法的流程示意图；

图3b是根据本申请实施例三提供的一种待训练对话中的回复信息的情绪标签的过程示意图；

图4是根据本申请实施例四提供的一种基于数字人的对话处理装置的结构示意图；

图5是根据本申请实施例四提供的一种基于数字人的对话处理装置的结构示意图；

图6是根据本申请实施例六提供的一种应用于对话处理的对话回复模型的训练装置的结构示意图；

图7是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要说明的是，本申请基于数字人的对话处理方法和装置可用于人工智能技术领域，也可用于除人工智能技术领域之外的任意领域，本申请基于数字人的对话处理方法和装置的应用领域不作限定。

本申请提供的基于数字人的对话处理方法，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1是根据本申请实施例一提供的一种基于数字人的对话处理方法的流程示意图。实施例一中包括如下步骤：

S101、响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，确定与问题请求匹配的至少一个回复信息；其中，问题请求表征用户的用户问题；回复信息具有情绪标签；情绪标签具有优先级；情绪标签表征回复信息的情感信息；其中，预设的对话回复模型是基于预设对话训练集合进行训练所得到的，预设对话训练集合中包括至少一个待训练对话，待训练对话包括用户问题、回复信息、以及回复信息的情绪标签。

在一个示例中，用户的问题请求是通过与数字人进行交互产生的，用户问题包括：文本信息、语音信息以及图像。例如，将文本信息、语音信息和图像输入与数字交互的界面中与数字人进行交互。情绪标签表征回复信息的情感信息，例如，情绪标签可以是“开心”、“高兴”、“悲伤”和“难过”。情绪标签具有优先级，并且每一个回复信息都具有情绪标签，进而回复信息也相应具有优先级。本实施例中，情绪标签可以通过情绪数值表示，情绪数值可以是数字，情绪数值越高，该情绪标签的优先级越高。例如，情绪数值为5的情绪标签的优先级高于情绪数值为3的情绪标签的优先级。

预设的对话回复模型可以为神经网络模型，能够根据输入的文本信息、语音信息和图像，确定出与用户问题匹配的至少一个回复信息。

其中，预设的对话回复模型是基于预设对话训练集合进行训练所得到的，预设对话训练集合中包括至少一个待训练对话，待训练对话包括用户问题、回复信息、以及回复信息的情绪标签。

本实施例中，待训练对话可以是从预设的数据库中获取的，待训练对话包括多种用户问题，与用户问题对应的回复消息，以及每一个回复消息的情绪标签。进一步地，待训练对话也可以是由对话生成模型得到的。

S102、根据至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息。

本实施例中，与用户问题匹配的回复信息可以是多个，然后根据每一个回复信息的情绪标签进行排序，进而根据情绪标签的排序确定对应的回复信息的排序，优先级最高的情绪标签对应的回复信息为最优的回复信息。其中，优先级的顺序可以为积极情绪＞中立情绪＞消极情绪。具体的，排序的过程可以人为进行筛选，也可以利用预设的对话回复模型。

S103、控制数字人向用户反馈最优的回复信息。

本实施例中，将最优的回复信息通过数字人展示给用户，具体的，最优的回复信息中的内容可以通过数字人进行演绎，并向用户展示。

本申请提供的一种基于数字人的对话处理方法，该方法包括响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，确定与问题请求匹配的至少一个回复信息；根据至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息；控制数字人向用户反馈最优的回复信息。采用本技术方案，能够准确地找到符合用户需求的回复，进而提升交互效率。

图2a是根据本申请实施例二提供的一种基于数字人的对话处理方法的流程示意图。

实施例二中包括如下步骤：

S201、响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，确定与问题请求匹配的回复信息。

本实施例中，将用户的问题请求输入至预设的对话回复模型中，对话回复模型能够根据用户的问题请求确定出回复信息，在初始确定回复信息时，回复信息只是文字信息。

S202、基于预设的对话回复模型，确定回复信息的情绪标签。

本实施例中，基于预设的对话回复模型，继续从至少一个回复信息中，识别出每一个回复信息的情绪标签。

S203、基于预设的对话回复模型，输出优先级最高的情绪标签对应的回复信息；其中，优先级最高的情绪标签对应的回复信息为最优的回复信息。

本实施例中，基于预设的对话回复模型，从至少一个具备情绪标签的回复信息中输出优先级最高的情绪标签对应的回复信息。为了更好地说明本实施例，可以参见图2b示出的一种预设的对话回复模型的示意图。

S204、控制数字人向用户反馈最优的回复信息。

示例性地，本步骤可以参见上述步骤S103，不再赘述。

S205、获取用户对最优的回复信息的指示消息；其中，指示消息用于指示最优的回复信息在电子设备的展示方式。

本实施例中，指示消息可以为文本信息、语音信息以及图像。进一步地，通过识别文本信息、语音信息和图像中的内容，确定具体的指示内容。

S206、根据指示消息，确定最优的回复信息在电子设备的展示方式。

本实施例中，若指示消息为让数字人边跳舞边进行展示最优的回复信息，则数字人可以在电子设备中边跳舞边进行展示。

本申请提供的一种基于数字人的对话处理方法，该方法包括响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，优先确定出与问题请求所表征的用户问题匹配的至少一个回复信息，然后继续基于预设的对话回复模型，从至少一个回复信息，输出优先级最高的情绪标签对应的回复信息，并控制数字人向用户反馈最优的回复信息，最后获取用户对最优的回复信息的指示消息，根据指示消息，确定最优的回复信息在电子设备的展示方式。采用本技术方案，能够通过预设的对话回复模型快速地确定出最优的回复信息，提升交互效率。

图3a是根据本申请实施例三提供的一种应用于对话处理的对话回复模型的训练方法的流程示意图。实施例三中包括如下步骤：

S301、获取预设对话训练集合；其中，预设对话训练集合中包括至少一个待训练对话，待训练对话包括用户问题、回复信息、以及回复信息的情绪标签。

本实施例中，预设对话训练集合可以从数据库中获取，也可以从网页中获取。待训练对话中包括用户问题、回复信息以及回复信息的情绪标签，其中，每一个回复信息具备对应的情绪标签。

S302、将预设对话训练集合输入至预设初始模型中进行训练，得到对话回复模型；其中，对话回复模型用于对用户的问题请求所表征的用户问题进行处理得到优先级最高的情绪标签对应的回复信息；其中，优先级最高的情绪标签对应的回复信息，为最优的回复信息；最优的回复信息用于基于数字人向用户反馈该最优的回复信息。

本实施例中，将喜悦情绪分成两种：很高兴和比较高兴，将不喜悦情绪分成两种：非常不满意和不满意，另外当用户没有情绪时分类为中立。在一个示例中，优先级最高的情绪标签为情绪积极的标签。按照优先级排序成五类，依次是：很高兴>比较高兴>中立>不满意>非常不满意。

在一个示例中，待训练对话中的回复信息的情绪标签是基于多模态情绪识别模型所得到的；回复信息中包括文本信息、语音信息以及图像；

其中，多模态情绪识别模型为基于待训练对话中的回复信息和回复信息的情绪标签进行处理所得到的。

本实施例中，图3b示出了一种待训练对话中的回复信息的情绪标签的过程示意图。本实施例中，多模态情绪识别模型中包括BERT模型、语音识别预训练模型和关键点识别表。将待训练对话中的文本信息、语音信息和图像输入至多模态情绪识别模型确定回复信息的情绪标签。进一步地，文本信息通过BERT模型、投影网络确定出文本向量，语音信息通过语音识别预训练模型、投影网络确定出语音向量，图像通过关键点识别表、投影网络确定出面部情绪向量，三者通过模态融合模块以及Transformer Encoder，并通过分类器确定出待训练对话中的回复信息的情绪标签。

在一个示例中，多模态情绪识别模型中包括BERT模型和语音识别预训练模型；方法，还包括：

对待训练对话中回复信息中的文本信息，基于多模态情绪识别模型中的BERT模型确定文本向量；

对待训练对话中回复信息中的语音信息，基于多模态情绪识别模型中的语音识别预训练模型进行语音分析，得到语音向量；

对待训练对话中回复信息中的图像，基于多模态情绪识别模型中的关键点识别表进行图像关键点识别，得到面部情绪向量；

根据文本向量、语音向量以及面部情绪向量，进行融合后，得到待训练对话中的回复信息的情绪标签。

本实施例中，将待训练对话中回复信息中的文本信息、语音信息以及图像分别输入至多模态情绪识别模型中，对于回复信息中的文本信息用多模态情绪识别模型中的BERT模型确定文本向量，对于回复信息中的语音信息用多模态情绪识别模型中的语音识别预训练模型确定语音向量，对于回复信息中的图像用多模态情绪识别模型中的关键点识别表确定面部情绪向量，然后通过多模态情绪识别模型中的融合模块，将文本向量、语音向量以及面部情绪向量，进行融合后，得到待训练对话中的回复信息的情绪标签。

在一个示例中，基于多模态情绪识别模型中的BERT模型确定文本向量，包括：

基于多模态情绪识别模型中的BERT模型，确定与文本信息相似度超过阈值的标签文本信息；

根据标签文本信息确定文本向量。

本实施例中，利用BERT模型对文本信息进行聚类，聚类的过程就是两两判别相似度，例如“我爱吃冰激凌”和“我很喜欢吃冰激凌”。若利用BERT模型计算相似度为0.9，那么可以认为是相似文本信息。通过相似度确定出标签文本信息后，再通过标签文本信息确定文本向量。

在一个示例中，基于多模态情绪识别模型中的关键点识别表进行图像关键点识别，得到面部情绪向量，包括：

基于多模态情绪识别模型中的关键点识别表进行图像关键点识别，确定出图像关键点连接线的弧度和图像关键点之间的距离；

根据图像关键点连接线的弧度和图像关键点之间的距离，确定出面部情绪向量。

本实施例中，基于多模态情绪识别模型中的关键点识别表进行图像关键点识别，然后根据多模态情绪识别模型计算图像关键点连接线的弧度和图像关键点之间的距离；弧度越大或者距离越大表征情绪标签越积极。

本申请提供的一种应用于对话处理的对话回复模型的训练方法，通过获取预设对话训练集合，将预设对话训练集合输入至预设初始模型中进行训练，得到对话回复模型。采用本技术方案，通过使用多个模型，能够获取到更准确的标注数据，从而得到更加准确的模型。

图4是根据本申请实施例四提供的一种基于数字人的对话处理装置的结构示意图。具体的，实施例四的装置40中包括：

第一确定单元401，用于响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，确定与问题请求匹配的至少一个回复信息；其中，问题请求表征用户的用户问题；回复信息具有情绪标签；情绪标签具有优先级；情绪标签表征回复信息的情感信息；其中，预设的对话回复模型是基于预设对话训练集合进行训练所得到的，预设对话训练集合中包括至少一个待训练对话，待训练对话包括用户问题、回复信息、以及回复信息的情绪标签；

第二确定单元402，用于根据至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息；

反馈单元403，用于控制数字人向用户反馈最优的回复信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图5是根据本申请实施例五提供的一种基于数字人的对话处理装置的结构示意图。具体的，实施例五的装置50中包括：

第一确定单元501，用于响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，确定与问题请求匹配的至少一个回复信息；其中，问题请求表征用户的用户问题；回复信息具有情绪标签；情绪标签具有优先级；情绪标签表征回复信息的情感信息；其中，预设的对话回复模型是基于预设对话训练集合进行训练所得到的，预设对话训练集合中包括至少一个待训练对话，待训练对话包括用户问题、回复信息、以及回复信息的情绪标签。

第二确定单元502，用于根据至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息。

反馈单元503，用于控制数字人向用户反馈最优的回复信息。

在一个示例中，第一确定单元501，包括：

第一确定模块5011，用于响应于用户的问题请求，将问题请求输入至预设的对话回复模型中，确定与问题请求匹配的回复信息；

第二确定模块5012，用于基于预设的对话回复模型，确定回复信息的情绪标签。

在一个示例中，第二确定单元502，包括：

输出模块5021，用于基于预设的对话回复模型，输出优先级最高的情绪标签对应的回复信息；其中，优先级最高的情绪标签对应的回复信息为最优的回复信息。

在一个示例中，装置50还包括：

获取单元504，用于获取用户对最优的回复信息的指示消息；其中，指示消息用于指示最优的回复信息在电子设备的展示方式；

第三确定单元505，用于根据指示消息，确定最优的回复信息在电子设备的展示方式。

图6是根据本申请实施例六提供的一种应用于对话处理的对话回复模型的训练装置的结构示意图。具体的，实施例六的装置60中包括：

获取单元601，用于获取预设对话训练集合；其中，预设对话训练集合中包括至少一个待训练对话，待训练对话包括用户问题、回复信息、以及回复信息的情绪标签；

训练单元602，用于将预设对话训练集合输入至预设初始模型中进行训练，得到对话回复模型；

其中，对话回复模型用于对用户的问题请求所表征的用户问题进行处理得到优先级最高的情绪标签对应的回复信息；其中，优先级最高的情绪标签对应的回复信息，为最优的回复信息；最优的回复信息用于基于数字人向用户反馈该最优的回复信息。

在一个示例中，多模态情绪识别模型中包括BERT模型和语音识别预训练模型；装置，还包括：

确定单元603，用于对待训练对话中回复信息中的文本信息，基于多模态情绪识别模型中的BERT模型确定文本向量；

分析单元604，用于对待训练对话中回复信息中的语音信息，基于多模态情绪识别模型中的语音识别预训练模型进行语音分析，得到语音向量；

识别单元605，用于对待训练对话中回复信息中的图像，基于多模态情绪识别模型中的关键点识别表进行图像关键点识别，得到面部情绪向量；

融合单元606，用于根据文本向量、语音向量以及面部情绪向量，进行融合后，得到待训练对话中的回复信息的情绪标签。

在一个示例中，确定单元603，包括：

第一确定模块6031，用于基于多模态情绪识别模型中的BERT模型，确定与文本信息相似度超过阈值的标签文本信息；

第二确定模块6032，用于根据标签文本信息确定文本向量。

在一个示例中，识别单元605，包括：

第三确定模块6051，用于基于多模态情绪识别模型中的关键点识别表进行图像关键点识别，确定出图像关键点连接线的弧度和图像关键点之间的距离；

第四确定模块6052，用于根据图像关键点连接线的弧度和图像关键点之间的距离，确定出面部情绪向量。

在一个示例中，优先级最高的情绪标签为情绪积极的标签。

图7是根据一示例性实施例示出的一种电子设备的框图，该设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述电子设备的一种基于数字人的对话处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种基于数字人的对话处理方法，其特征在于，所述方法包括：

控制所述数字人向所述用户反馈所述最优的回复信息。

2.根据权利要求1所述的方法，其特征在于，所述响应于用户的问题请求，将所述问题请求输入至预设的对话回复模型中，确定与所述问题请求匹配的至少一个回复信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个回复信息，确定优先级最高的情绪标签对应的回复信息，为最优的回复信息，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：

5.一种应用于对话处理的对话回复模型的训练方法，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述待训练对话中的回复信息的情绪标签是基于多模态情绪识别模型所得到的；所述回复信息中包括文本信息、语音信息以及图像；

7.根据权利要求6所述的方法，其特征在于，所述多模态情绪识别模型中包括BERT模型、语音识别预训练模型和关键点识别表；所述方法，还包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述多模态情绪识别模型中的BERT模型确定文本向量，包括：

根据所述标签文本信息确定文本向量。

9.根据权利要求7所述的方法，其特征在于，所述基于所述多模态情绪识别模型中的关键点识别表进行图像关键点识别，得到面部情绪向量，包括：

10.一种基于数字人的对话处理装置，其特征在于，所述装置包括：

11.一种应用于对话处理的对话回复模型的训练装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-4中任一项所述的方法或权利要求5-9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-4中任一项所述的方法或权利要求5-9中任一项所述的方法。