CN110688008A

CN110688008A - 虚拟形象交互方法和装置

Info

Publication number: CN110688008A
Application number: CN201910925952.7A
Authority: CN
Inventors: 周永吉
Original assignee: Guizhou Little Love Robot Technology Co Ltd
Current assignee: Guizhou Little Love Robot Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-14

Abstract

本申请实施例提供了一种虚拟形象交互方法、虚拟形象交互装置、电子设备和计算机可读存储介质，解决了现有技术基于虚拟形象进行交互时的信息量大和运算量大的问题。该虚拟形象交互方法包括：获取用户的交互指令信息；将所述交互指令信息输入动作生成模型，其中，所述动作生成模型配置为根据所述交互指令信息输出与虚拟形象的多个关键点分别对应的多个动作数据；以及根据所述多个动作数据驱动所述虚拟形象的所述多个关键点分别产生对应的动作。

Description

虚拟形象交互方法和装置

技术领域

本申请涉及电子通信技术领域，具体涉及一种虚拟形象交互方法、虚拟形象交互装置、电子设备和计算机可读存储介质。

背景技术

随着计算机技术的不断发展，用户之间交流沟通的方式也在不断演进，其中通过虚拟形象来进行交互就成为了当下互联网通信的热点方式之一。然而，现有技术中虽然能够通过虚拟形象完成用户之间的交互，但在通过虚拟形象展示用户的交互指令时，其实是生成与虚拟形象对应的每帧图像。而生成完整图像的信息量较大，所需的运算量也非常大，这会为实时的交互过程带来不必要的计算硬件资源和存储硬件资源负担，并影响用户通过虚拟形象进行交互的实时体验。

发明内容

有鉴于此，本申请实施例提供了一种虚拟形象交互方法、虚拟形象交互装置、电子设备和计算机可读存储介质，解决了现有技术基于虚拟形象进行交互时的信息量大和运算量大的问题。

根据本申请的一个方面，本申请一实施例提供的一种虚拟形象交互方法包括：获取用户的交互指令信息；将所述交互指令信息输入动作生成模型，其中，所述动作生成模型配置为根据所述交互指令信息输出与虚拟形象的多个关键点分别对应的多个动作数据；以及根据所述多个动作数据驱动所述虚拟形象的所述多个关键点分别产生对应的动作。

根据本申请的另一个方面，申请一实施例提供的一种虚拟形象交互装置包括：获取模块，配置为获取用户的交互指令信息；动作生成模型，配置为根据来自所述获取模块的所述交互指令信息输出与虚拟形象的多个关键点分别对应的多个动作数据；以及驱动模块，配置为根据所述多个动作数据驱动所述虚拟形象的所述多个关键点分别产生对应的动作。

根据本申请的另一个方面，本申请一实施例提供的一种电子设备包括：处理器；以及存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如前任一所述的虚拟形象交互方法。

根据本申请的另一个方面，本申请一实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如前任一所述的虚拟形象交互方法。

本申请实施例提供的一种虚拟形象交互方法、虚拟形象交互装置、电子设备和计算机可读存储介质，通过采用动作生成模型可基于用户的交互指令信息获取与虚拟形象的多个关键点分别对应的多个动作数据，这样用户在通过虚拟形象进行交互时，并不需要生成与虚拟信息的动作对应的完整图像，而只是基于动作数据来驱动虚拟形象的多个关键点即可产生对应的动作。由于关键点的动作数据的数据量较小，这样可大幅度减少对设备硬件的需求，不仅有助于提高用户的实时交互体验，还使得一些低配置硬件终端仍能够运行该虚拟形象交互方式，扩展了虚拟形象交互方式的应用终端范围，降低了硬件预算需求。

附图说明

图1所示为本申请一实施例提供的一种虚拟形象交互方法的流程示意图。

图2所示为本申请一实施例提供的虚拟形象交互方法中动作生成模型的训练过程的流程示意图。

图3所示为本申请另一实施例提供的虚拟形象交互方法的流程示意图。

图4所示为本申请一实施例提供的虚拟形象交互方法中获取交互指令信息的流程示意图。

图5所示为本申请一实施例提供的虚拟形象交互方法中根据自然语言信息生成交互指令信息的流程示意图。

图6所示为本申请一实施例提供的虚拟形象交互装置的结构示意图。

图7所示为本申请另一实施例提供的虚拟形象交互装置的结构示意图。

图8所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示为本申请一实施例提供的一种虚拟形象交互方法的流程示意图。如图1所示，该虚拟形象交互方法包括如下步骤：

步骤101：获取用户的交互指令信息。

用户的交互指令信息为用于驱动虚拟形象产生对应动作的参考信息，通过交互指令信息可以明确虚拟形象需要产生怎样的对应动作以满足当下交互场景的需求。应当理解，根据在具体应用场景下与用户的交互方式不同，交互指令信息也可有多种实现方式。在本申请一实施例中，交互指令信息就可包括以下信息中的一种或多种组合：语音指令信息、文字指令信息、动作定义指令信息(例如抬手指令信息、低头指令信息等)、情绪定义指令信息(例如高兴指令信息、悲伤指令信息和愤怒指令信息等)、传感器信息(比如味道信息、距离信息、环境温度信息等)和图像识别结果(比如图像识别出的人脸特征、肢体动作、目标检测结果等)。

用户的交互指令信息可以是用户直接输入的明确指令信息，也可以是根据采集的一些用户信息或用户输入的信息而实时生成的。例如，用户可以直接语音输入明确的内容为“微笑”的语音指令信息，也可以是识别到了用户的身体或面部动作(例如点头或微笑)后，实时生成了对应的内容为点头或微笑的动作定义指令信息。本申请对该用于指导虚拟形象动作的交互指令信息的具体来源和具体内容均不做严格限定。

步骤102：将交互指令信息输入动作生成模型，其中，动作生成模型配置为根据交互指令信息输出与虚拟形象的多个关键点分别对应的多个动作数据。

虚拟形象为代替用户进行交互的计算机生成形象，可以为通过计算机建模技术生成的二维形象或三维形象，具体的形式可为虚拟人、虚拟卡通形象等。虚拟形象是采用计算机图形学的相关技术构造一个能说、会动、具有表情的虚拟人物形象、卡通角色或者其他类人形象，以便在各种带屏设备(包括手机、大屏等)及虚拟现实设备用于作为进行人机交互的对象。虚拟形象可被大量的应用在公共场所、展示中心、个人设备等场景用于人机交互并提高用户体验。本申请对该虚拟形象的具体呈现形式不做限定，但应当理解，根据虚拟形象的呈现形式不同，对应的关键点也会有所不同。例如在本申请一实施例中，虚拟形象可以是类人形象，虚拟形象的多个关键点就可包括以下一种或多种组合：身体关节特征点、身体骨骼部位特征点、面部表情特征点以及嘴型特征点。

动作生成模型可以是基于预学习的训练过程建立，训练好的动作生成模型可以根据接收到的交互指令信息直接输出与虚拟形象的多个关键点分别对应的多个动作数据。这些动作数据可为驱动关键点产生对应动作的空间数据的组合，例如位移、旋转角度和方向等。应当理解，这些动作数据的具体内容和形式与关键点的部位和具体的应用场景有关，例如肩部关节部分的关键点只可能旋转，那么对应的动作数据就可以为旋转角度，而面部上嘴唇的关键点就可能旋转和位移，那么对应的动作数据既可以包括旋转角度和位移。此外，如果虚拟形象为二维形象，那么动作数据则为二维空间信息；而如果虚拟形象为三维形象，那么动作数据则为三维空间信息。本申请对该动作数据的具体内容和形式也不做严格限定。

步骤103：根据多个动作数据驱动虚拟形象的多个关键点分别产生对应的动作。

当获取了动作生成模型根据用户的交互指令信息输出的动作数据，便可基于这些动作数据来直接驱动虚拟形象的关键点产生对应的动作。例如，用户交互指令可以是内容为“微笑”的语音指令信息，动作生成模型根据该语音指令信息便可输出一系列面部关键点的动作数据，例如眉毛区域的关键点的动作数据会使得眉毛下弯，嘴部区域的关键点的动作数据会使得嘴角上扬，根据这些关键点的动作数据，虚拟形象便可做出眉毛下弯和嘴角上扬的面部表情动作。

由此可见，本申请实施例提供的一种虚拟形象交互方法，通过采用动作生成模型可基于用户的交互指令信息获取与虚拟形象的多个关键点分别对应的多个动作数据，这样用户在通过虚拟形象进行交互时，并不需要生成与虚拟信息的动作对应的完整图像，而只是基于动作数据来驱动虚拟形象的多个关键点即可产生对应的动作。由于关键点的动作数据的数据量较小(关键点的动作数据的数据维度在10²数量级，而直接生成图像的数据维度则为10⁵数量级以上)，这样可大幅度减少对设备硬件的需求，不仅有助于提高用户的实时交互体验，还使得一些低配置硬件终端仍能够运行该虚拟形象交互方式，扩展了虚拟形象交互方式的应用终端范围，降低了硬件预算需求。

图2所示为本申请一实施例提供的虚拟形象交互方法中动作生成模型的训练过程的流程示意图。如图2所示，该动作生成模型可基于如下训练过程建立：

步骤201：获取与多个关键点分别对应的多个动作数据样本。

在本申请一实施例中，动作数据样本可以是预设好的，此时便可直接获取预设的与虚拟形象的多个关键点分别对应的多个动作数据样本。例如，用户可自定义打招呼动作所对应的动作数据样本，包括嘴部区域的关键点的动作数据样本使得嘴部张开以及胳膊区域的关键点的动作数据样本使得胳膊上扬并摆动。

在本申请另一实施例中，动作数据样本也可以是通过动作识别模型来生成的。例如，可以将包括动作内容的图像数据输入该动作识别模型，该动作识别模型配置为根据图像数据输出多个关键点的位置和运动轨迹，此时便可识别多个关键点的位置和运动轨迹以生成与多个关键点分别对应的多个动作数据样本。

步骤202：获取与多个动作数据样本对应的多个交互指令样本。

为了建立关键点的动作数据样本和具体交互含义的对应关系，还应获取与这些动作数据样本对应的交互指令样本。例如在获取了打招呼动作所对应的动作数据样本时，可获取内容为“你好”的语音内容或文字内容作为对应的交互指令样本。

步骤203：以多个动作数据样本和多个交互指令样本为训练集，通过深度学习过程训练生成动作生成模型。

通过大量地建立交互指令样本与关键点的动作数据样本之间的对应关系作为训练集，便可通过后续的深度学习过程使得该动作生成模型具备根据接收到的交互指令信息输出与关键点的动作数据的能力。在本申请一实施例中，深度学习过程基于生成模型(比如GAN,Generative Adversarial Networks)和序列模型(比如LSTM，Long Short-TermMemory或Sequence To Sequence模型)实现。本申请对具体通过怎样的深度学习过程建立该动作生成模型不做严格限定。

图3所示为本申请另一实施例提供的虚拟形象交互方法的流程示意图。如图3所示，该虚拟形象交互方法可包括如下步骤：

步骤301：接收用户的自然语言信息，其中自然语言信息包括基于自然语言的语音信息和/或文字信息。

自然语言信息为用户输入的基于自然语言表述习惯的信息，可以是语音信息也可以是文字信息。后续根据自然语言信息生成交互指令信息的目的就是要通过分析自然语言信息了解用户的意图，并由此生成与用户的意图对应的交互指令信息。

步骤302：根据自然语言信息生成交互指令信息。

这里是基于用户输入的自然语言信息获取用户的交互指令信息。具体而言，如图4所示，可通过如下步骤来获取交互指令信息：

步骤401：将自然语言信息与多个预先存储的标准语义模板进行相似度计算。

标准语义模板可由语义成分词和语义规则词构成，而这些语义成分词和语义规则词又与这些词语在语义模板中的词性以及词语之间的语法关系有关，因此该相似度计算过程可具体为：先识别出自然语言信息中的词语、词语的词性以及语法关系，然后根据词语的词性以及语法关系识别出其中的语义成分词和语义规则词，再将所识别出的语义成分词和语义规则词引入向量空间模型以计算自然语言信息的文本内容与多个预设的标准语义模板之间的多个相似度。在本发明一实施例中，可以如下分词方法中的一种或多种识别自然语言信息中的词语、词语的词性以及词语之间的语法关系：隐马尔可夫模型方法、正向最大匹配方法、逆向最大匹配方法以及命名实体识别方法。

在本发明一实施例中，如前所述，标准语义模板可为表示某一种语义内容的多个语义表达式的集合，此时通过一个标准语义模板就可描述所对应语义内容的多种不同表达方式的语句，以对应同一标准问的多个扩展问。因此在计算自然语言信息与预先存储的标准语义模板之间的相似度时，需要计算自然语言信息的文本内容与多个标准语义模板各自展开的至少一个扩展问之间的相似度，然后将相似度最高的扩展问所对应的标准语义模板作为匹配的语义模板。这些展开的扩展问可根据标准语义模板所包括的语义成分词和/或语义规则词和/或语义符号而获得。

步骤402：根据相似度最高的标准语义模板获取对应的交互指令信息，其中标准语义模板与交互指令信息之间的映射关系为预先建立。

在确定了标准语义模板后便已经了解到了用户意图，根据标准语义模板与交互指令信息之间的映射关系便可直接确定对应的交互指令信息。例如，用户以自然语言表述的内容为“这样确实不错呢！”，根据该自然语言信息匹配到了内容为“这样真好！”的标准语义模板，而该标准语义模板对应的交互指令信息变为内容为点头的动作定义指令信息。

步骤303：将交互指令信息输入动作生成模型，其中，动作生成模型配置为根据交互指令信息输出与虚拟形象的多个关键点分别对应的多个动作数据。

与图1所示的虚拟形象交互方法的步骤102类似，动作生成模型根据该内容为点头的动作定义指令信息便可输出虚拟形象的头部区域的关键点的对应的动作数据。

步骤304：根据多个动作数据驱动虚拟形象的多个关键点分别产生对应的动作。

与图1所示的虚拟形象交互方法的步骤103类似，根据这些关键点的动作数据便可直接驱动虚拟形象做出对应动作，从而便可实现了在用户以自然语言表述“这样确实不错呢！”的同时，虚拟形象同时做出点头动作。由此可见，通过图3所示的虚拟形象交互方法，用户通过自然语言去表述即可完成基于虚拟形象的交互，用户不需要刻意去输入明确的交互指令也不需要预先记住特定的交互指令，而是随着用户的自然语言表述，虚拟形象便会做出对应的动作，由此进一步显著提高了用户的交互体验。

在本申请一实施例中，如图5所示，用户输入的自然语言信息包括基于自然语言的语音信息，此时根据自然语言信息生成交互指令信息可具体包括如下步骤：

步骤501：提取自然语言信息的音频特征向量或文字特征向量。

音频特征向量或文字特征向量可包括至少一个音频特征。这样其实是利用一个至少一维的向量空间中的向量来表征所有的音频特征或文字特征，在该向量空间中，每个维度对应一个音频特征或文字特征的一种计算表征方式，音频特征向量或文字特征向量的方向和取值可看做是由很多个音频特征或文字特征各自的不同计算表征方式在向量空间内求和而成，其中每个音频特征或文字特征的每种计算表征方式可看做音频特征向量或文字特征向量的一个分量。包括了不同情绪的自然语言信息必然有着不同的音频特征或文字特征，本申请正是利用不同情绪与不同音频特征或文字特征之间的对应关系来识别自然语言信息的情绪的。

在本申请一实施例中，音频特征向量可包括以下几种音频特征中的一种或多种：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征。在本发明一实施例中，这些音频特征可通过以下计算表征方式中的一种或多种来表征：比例值、均值、最大值、中值以及标准差。

在本申请一实施例中，文字特征向量可包括以下几种文字特征中的一种或多种：语气词特征、动词特征，形容词特征、状态词特征等。这些文字特征可通过文本识别的方式来获取。

步骤502：将音频特征向量与多个情绪特征模型进行匹配，其中多个情绪特征模型分别对应多个情绪分类之一。

这些情绪特征模型可通过对包括多个情绪分类对应的情绪分类标签的多个预设自然语言信息各自的音频特征向量进行预学习而建立，这样就相当于建立起了情绪特征模型与情绪分类之间的对应关系，每个情绪特征模型可对应一个情绪分类。在本发明一实施例中，该多个情绪分类可包括：满意分类、平静分类以及烦躁分类，以对应客服交互场景中用户可能出现的情绪状态。在另一实施例中，该多个情绪分类可包括：满意分类、平静分类、烦躁分类以及生气分类，以对应客服交互场景中客服人员可能出现的情绪状态。

步骤503：将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为自然语言信息的情绪分类。

如前所述，由于情绪特征模型与情绪分类之间存在对应关系，因此当根据步骤502的匹配过程确定了相匹配的情绪特征模型后，该匹配的情绪特征模型所对应的情绪分类便为所识别出的情绪分类。例如，当这些情绪特征模型为混合高斯模型时，该匹配过程就可通过衡量当前自然语言信息的音频特征向量分别与多个情绪特征模型之间的似然概率的方式实现，然后将似然概率大于预设阈值且最大的情绪特征模型所对应的情绪分类作为自然语言信息的情绪分类即可。

步骤504：根据自然语言信息的情绪分类获取对应的交互指令信息，其中情绪分类与交互指令信息之间的映射关系为预先建立。

例如，当用户输入的自然语言信息为内容为“今天太倒霉了”的语音片段时，通过提取该语音片段的音频特征信息便可匹配到对应烦躁分类的情绪特征模型，而烦躁分类的情绪特征模型与内容为低头的动作定义指令信息是对应的。此时动作生成模型根据该内容为低头的动作定义指令信息便可输出虚拟形象的头部区域的关键点的对应的动作数据，从而便可实现了在用户以自然语言表述“今天太倒霉了”的同时，虚拟形象同时做出低头动作。

由此可见，通过图5实施例所示的获取交互指令信息的方式，通过提取自然语言信息的音频特征向量或文字特征向量，并利用预先建立的情绪特征模型对所提取的音频特征向量或文字特征向量进行匹配，从而实现了对自然语言信息的实时情绪识别。这样可实现根据用户的实时情绪使得虚拟形象做出对应的动作，从进一步增加虚拟形象和用户之间的交互同步性，同样也不需要用户刻意去输入明确的交互指令，也不需要用户预先记住特定的交互指令，而是随着用户的自然语言表述，虚拟形象便会做出对应用户情绪的动作，进一步显著提高了用户体验。

在本申请另一实施例中，也可以通过识别自然语言信息中的特征词汇，然后根据特征词汇获取对应的交互指令信息，其中特征词汇与交互指令信息之间的映射关系为预先建立。例如，当用户输入内容为“今天太倒霉了”的语音片段时，便可识别到其中的特征词汇“倒霉”，此时可直接根据该特征词汇对应获取到内容为低头的动作定义指令信息。

应当理解，虽然上面给出了多种基于自然语言信息获取交互指令信息的方式，但在本申请的其他实施例中，这些基于自然语言信息获取交互指令信息的方式是可以自由组合的，通过多种方式的配合使用以使得虚拟形象能够更好地实时反映用户的意图和情绪，从而进一步提高该基于虚拟形象交互的用户体验。

图6所示为本申请一实施例提供的虚拟形象交互装置的结构示意图。如图6所示，该虚拟形象交互装置60包括：获取模块601、动作生成模型602和驱动模块603。其中获取模块601配置为获取用户的交互指令信息，动作生成模型602配置为根据来自获取模块601的交互指令信息输出与虚拟形象的多个关键点分别对应的多个动作数据，驱动模块603配置为根据多个动作数据驱动虚拟形象的多个关键点分别产生对应的动作。

在本申请一实施例中，如图7所示，该虚拟形象交互装置60进一步包括动作生成模型训练模块604，包括：第一获取单元6041、第二获取单元6042和训练单元6043。第一获取单元6041配置为获取与多个关键点分别对应的多个动作数据样本；第二获取单元6042配置为获取与多个动作数据样本对应的多个交互指令样本；训练单元6043配置为以多个动作数据样本和多个交互指令样本为训练集，通过深度学习过程训练生成动作生成模型602。

在本申请一实施例中，深度学习过程基于生成模型和序列模型实现。

在本申请一实施例中，第一获取单元6041进一步配置为：将图像数据输入动作识别模型，其中，动作识别模型配置为根据图像数据输出多个关键点的位置和运动轨迹；以及，识别多个关键点的位置和运动轨迹以生成与多个关键点分别对应的多个动作数据样本；

或，第一获取单元6041进一步配置为：获取预设的与虚拟形象的多个关键点分别对应的多个动作数据样本。

在本申请一实施例中，交互指令信息包括以下信息中的一种或多种组合：语音指令信息、文字指令信息、动作定义指令信息和情绪定义指令信息。

在本申请一实施例中，如图7所示，该虚拟形象交互装置60进一步包括：接收模块605，配置为接收用户的自然语言信息，其中自然语言信息包括基于自然语言的语音信息和/或文字信息；其中，获取模块601进一步配置为：根据自然语言信息生成交互指令信息。

在本申请一实施例中，如图7所示，获取模块601包括：计算单元6011，配置为将自然语言信息与多个预先存储的标准语义模板进行相似度计算；以及第三获取单元6012，配置为根据相似度最高的标准语义模板获取对应的交互指令信息，其中标准语义模板与交互指令信息之间的映射关系为预先建立。

在本申请一实施例中，自然语言信息包括基于自然语言的语音信息；其中，如图7所示，获取模块601包括：提取单元6013，配置为提取自然语言信息的音频特征向量；匹配单元6014，配置为将音频特征向量与多个情绪特征模型进行匹配，其中多个情绪特征模型分别对应多个情绪分类之一；以及第一确定单元6015，配置为将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为自然语言信息的情绪分类；以及第四获取单元6016，配置为根据自然语言信息的情绪分类获取对应的交互指令信息，其中情绪分类与交互指令信息之间的映射关系为预先建立。

在本申请一实施例中，如图7所示，获取模块601包括：识别单元6017，配置为识别自然语言信息中的特征词汇；以及第五获取单元6018，配置为根据特征词汇获取对应的交互指令信息，其中特征词汇与交互指令信息之间的映射关系为预先建立。

在本申请一实施例中，虚拟形象为类人形象，其中，多个关键点包括以下一种或多种组合：身体关节特征点、身体骨骼部位特征点、面部表情特征点以及嘴型特征点。

由此可见，本申请实施例提供的一种虚拟形象交互装置，通过采用动作生成模型可基于用户的交互指令信息获取与虚拟形象的多个关键点分别对应的多个动作数据，这样用户在通过虚拟形象进行交互时，并不需要生成与虚拟信息的动作对应的完整图像，而只是基于动作数据来驱动虚拟形象的多个关键点即可产生对应的动作。由于关键点的动作数据的数据量较小，这样可大幅度减少对设备硬件的需求，不仅有助于提高用户的实时交互体验，还使得一些低配置硬件终端仍能够运行该虚拟形象交互方式，扩展了虚拟形象交互方式的应用终端范围，降低了硬件预算需求。

上述虚拟形象交互装置60中的各个模块的具体功能和操作已经在上面参考图1到图5描述的虚拟形象交互方法中进行了详细介绍，因此，这里将省略其重复描述。

需要说明的是，根据本申请实施例的虚拟形象交互装置60可以作为一个软件模块和/或硬件模块而集成到电子设备80中，换言之，该电子设备80可以包括该虚拟形象交互装置60。例如，该虚拟形象交互装置60可以是该电子设备80的操作系统中的一个软件模块，或者可以是针对于其所开发的一个应用程序；当然，该虚拟形象交互装置60同样可以是该电子设备80的众多硬件模块之一。

在本申请另一实施例中，该虚拟形象交互装置60与该电子设备80也可以是分立的设备(例如，服务器)，并且该虚拟形象交互装置60可以通过有线和/或无线网络连接到该电子设备80，并且按照约定的数据格式来传输交互信息。

图8所示为本申请一实施例提供的电子设备的结构示意图。如图8所示，该电子设备80包括：一个或多个处理器801和存储器802；以及存储在存储器802中的计算机程序指令，计算机程序指令在被处理器801运行时使得处理器801执行如上述任一实施例的虚拟形象交互方法。

处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器802可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器801可以运行程序指令，以实现上文的本申请的各个实施例的虚拟形象交互方法中的步骤以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如光线强度、补偿光强度、滤光片的位置等信息。

在一个示例中，电子设备80还可以包括：输入装置803和输出装置804，这些组件通过总线系统和/或其他形式的连接机构(图8中未示出)互连。

例如，在该电子设备是单机设备时，该输入装置803可以是通信网络连接器，用于从外部的可移动设备接收所采集的输入信号。此外，该输入设备803还可以包括例如键盘、鼠标、麦克风等等。

该输出装置804可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备80中与本申请有关的组件中的一些，省略了诸如总线、输入装置/输出接口等组件。除此之外，根据具体应用情况，电子设备80还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的虚拟形象交互方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的虚拟形象交互方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器((RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟形象交互方法，其特征在于，包括：

获取用户的交互指令信息；

将所述交互指令信息输入动作生成模型，其中，所述动作生成模型配置为根据所述交互指令信息输出与虚拟形象的多个关键点分别对应的多个动作数据；以及

根据所述多个动作数据驱动所述虚拟形象的所述多个关键点分别产生对应的动作。

2.根据权利要求1所述的方法，其特征在于，所述动作生成模型基于如下训练过程建立：

获取与所述多个关键点分别对应的多个动作数据样本；

获取与所述多个动作数据样本对应的多个交互指令样本；以及

以所述多个动作数据样本和所述多个交互指令样本为训练集，通过深度学习过程训练生成所述动作生成模型。

3.根据权利要求1所述的方法，其特征在于，所述深度学习过程基于生成模型和序列模型实现。

4.根据权利要求2所述的方法，其特征在于，所述获取与所述多个关键点分别对应的多个动作数据样本包括：

将图像数据输入动作识别模型，其中，所述动作识别模型配置为根据所述图像数据输出所述多个关键点的位置和运动轨迹；以及，识别所述多个关键点的位置和运动轨迹以生成与所述多个关键点分别对应的多个动作数据样本；或，

获取预设的与所述虚拟形象的所述多个关键点分别对应的所述多个动作数据样本。

5.根据权利要求1所述的方法，其特征在于，所述交互指令信息包括以下信息中的一种或多种组合：语音指令信息、文字指令信息、动作定义指令信息、情绪定义指令信息、传感器信息和图像识别结果。

6.根据权利要求1所述的方法，其特征在于，进一步包括：

接收用户的自然语言信息，其中所述自然语言信息包括基于自然语言的语音信息和/或文字信息；

其中，所述获取用户的交互指令信息包括：

根据所述自然语言信息生成所述交互指令信息。

7.根据权利要求6所述的方法，其特征在于，所述根据所述自然语言信息生成所述交互指令信息包括：

将所述自然语言信息与多个预先存储的标准语义模板进行相似度计算；以及

根据相似度最高的所述标准语义模板获取对应的所述交互指令信息，其中所述标准语义模板与所述交互指令信息之间的映射关系为预先建立。

8.根据权利要求6所述的方法，其特征在于，所述自然语言信息包括基于自然语言的语音信息；

其中，所述根据所述自然语言信息生成所述交互指令信息包括：

提取所述自然语言信息的音频特征向量或文字特征向量；

将所述音频特征向量或文字特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类之一；以及

将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述自然语言信息的情绪分类；以及

根据所述自然语言信息的情绪分类获取对应的所述交互指令信息，其中所述情绪分类与所述交互指令信息之间的映射关系为预先建立。

9.根据权利要求6所述的方法，其特征在于，所述根据所述自然语言信息生成所述交互指令信息包括：

识别所述自然语言信息中的特征词汇；以及

根据所述特征词汇获取对应的所述交互指令信息，其中所述特征词汇与所述交互指令信息之间的映射关系为预先建立。

10.根据权利要求1所述的方法，其特征在于，所述虚拟形象为类人形象，其中，所述多个关键点包括以下一种或多种组合：身体关节特征点、身体骨骼部位特征点、面部表情特征点以及嘴型特征点。

11.一种虚拟形象交互装置，其特征在于，包括：

获取模块，配置为获取用户的交互指令信息；

动作生成模型，配置为根据来自所述获取模块的所述交互指令信息输出与虚拟形象的多个关键点分别对应的多个动作数据；以及

驱动模块，配置为根据所述多个动作数据驱动所述虚拟形象的所述多个关键点分别产生对应的动作。

12.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1至10中任一所述的虚拟形象交互方法。

13.根据权利要求12所述的电子设备，其特征在于，进一步包括：

用于展示所述虚拟形象的显示屏。

14.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1至10中任一所述的虚拟形象交互方法。