CN111316203A

CN111316203A - 自动生成形象的动作

Info

Publication number: CN111316203A
Application number: CN201880072227.3A
Authority: CN
Inventors: 陈粤洋; 徐翔; 宋睿华; 王烁; 张惠; 李笛; 刘成城; 齐晓宇
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2020-06-19
Anticipated expiration: 2038-07-10
Also published as: US20210192824A1; US11983807B2; EP3821323A4; WO2020010530A1; CN111316203B; EP3821323A1

Abstract

本公开提供了用于自动生成形象的动作的方法和装置。可以获得用户和电子对话代理之间的会话中的消息，所述形象是所述电子对话代理的视觉表示。可以基于所述消息的至少一部分来确定至少一个面部动画和/或身体动画。可以至少基于所述面部动画和/或所述身体动画来生成所述形象的至少一个动作。

Description

自动生成形象的动作

背景技术

动画技术广泛用于生成虚拟形象(virtual avatar)或物理形象(physicalavatar)的动作。例如，为了生成形象的一系列期望动作，可以创建与期望动作对应的一系列动画，然后可以将动画应用于形象以使形象的各个部分根据动画移动或行动，从而实现形象的一系列期望动作。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于自动生成形象的动作的方法和装置。可以获得用户和电子对话代理之间的会话中的消息，所述形象是所述电子对话代理的视觉表示。可以基于所述消息的至少一部分来确定至少一个面部动画和/或身体动画。可以至少基于所述面部动画和/或所述身体动画来生成所述形象的至少一个动作。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的虚拟形象的示例性应用场景。

图2示出了根据实施例的虚拟形象的应用场景下的示例性系统架构。

图3示出了根据实施例的物理形象的示例性应用场景。

图4示出了根据实施例的物理形象的应用场景下的示例性系统架构。

图5示出了根据实施例的用于通过时序动作解析来自动生成虚拟形象的动作的示例性过程。

图6示出了根据实施例的用于通过时序动作解析来从动画数据库中确定动画的示例性过程。

图7示出了根据实施例的各种动画的示例性序列图。

图8示出了根据实施例的用于通过时序动作解析来自动生成物理形象的动作的示例性过程。

图9示出了根据实施例的用于通过检索模型来确定动画的示例性过程。

图10示出了根据实施例的用于通过生成模型来确定动画的示例性过程。

图11示出了根据实施例的用于自动生成形象的动作的示例性方法的流程图。

图12示出了根据实施例的用于自动生成形象的动作的示例性装置。

图13示出了根据实施例的用于自动生成形象的动作的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

通常，许多人为工作应当被涉及以生成形象的动作。例如，对于形象的每个动作，设计者或工程师需要设计一个相应的动画或一系列相应的动画。因此，当必须生成形象的许多动作时，需要的人为工作将显著增加，并且生成形象的动作的效率将非常低。此外，形象可以做出的所有动作都应当事先准备好，因此形象只能在实际应用环境中呈现少量动作。以实时交互环境为例，例如，在形象被设计用于与用户交谈的情况下，可以预先针对特定内容准备一组动作。因此，当谈论任何特定内容时，形象可以做出预先准备的相应动作。然而，由于实际谈论的主题不限于任何特定范围，形象可能无法做出与超出为形象准备的所述特定内容的当前谈论的主题相对应的动作，因此形象在与用户交谈期间不能以实时的方式地做出动作。

本公开的实施例提出在实时交互环境中自动生成形象的动作。例如，在用户和电子对话代理之间的会话期间，作为电子对话代理的视觉表示的形象可以响应于在会话中以实时方式获得的消息而做出相应的动作，而不需要事先准备与消息对应的动作。此外，由于形象的动作与消息具有高度相关性，因此可以在与电子对话代理交谈期间改善用户的体验。

在本文中，形象可以是虚拟形象，例如数字形象、虚拟人物、卡通人物、拟人形象等，或者可以是物理形象，例如物理机器人等。形象可以具有面部部分，其包括眼、鼻、嘴、脸部基底等中的至少一个，并且可以呈现各种面部动作。形象还可以具有身体部分，其包括头、肩、手、臂、腿、脚等中的至少一个，并且可以呈现各种身体动作。在本文中，电子对话代理可以例如是聊天机器人。传统上，聊天机器人可以与用户进行自动会话。在本文中，“会话”可以指两个聊天参与者之间的时间连续对话，并且可以包括来自任一聊天参与者，例如用户或聊天机器人，的消息。

根据本公开的实施例，响应于在用户和聊天机器人之间的会话中获得消息，可以相应地确定至少一个动画。动画可以包括面部动画和/或身体动画。在本文中，“动画”可以指基于各种3D重构技术的、面部部分或身体部分中的各种特征点的移动轨迹。例如，可以通过多个，例如48个，基本面部表情的线性组合来重构指示面部表情的动画，每个基本面部表情由面部部分中的预定特征点集合来表征。此外，例如，可以通过身体部分中的预定特征点集合来重构指示身体动作的动画。所确定的动画可以进一步应用于代表聊天机器人的形象，使得形象可以相应地做出动作。以这种方式，形象可以做出与在会话中获得的消息相关联的实时动作。此处，“消息”可以来自聊天机器人或用户。即，一方面，形象可以根据聊天机器人将要说的内容做出动作，并且另一方面，形象也可以响应于用户正在说的内容做出动作。

本公开的实施例可以采用各种方法来响应于会话中的消息而自动确定动画并进一步生成形象的动作。这些方法可以包括例如基于时序动作解析的方法，基于检索的方法，基于生成的方法等，稍后将对这些方法进行详细讨论。然而，应当理解，本公开不限于这些方法中的任何一种，而是可以覆盖用于在实时交互环境中自动生成形象的动作的任何其他方法。

图1示出了根据实施例的虚拟形象的示例性应用场景。虚拟形象是电子对话代理，例如聊天机器人，的视觉表示，并且被呈现在聊天机器人的用户界面100中。

用户界面100被显示在终端设备，例如智能电话，的屏幕中，并且可以包括例如聊天机器人图标110、呈现区域120、控制区域130和输入区域140。聊天机器人图标110可以是表示聊天机器人的照片或图片。呈现区域120显示包含用户160和聊天机器人之间的会话中的消息的聊天窗口。控制区域130包括用于用户160执行消息输入设置的多个虚拟按钮。例如，用户可以通过控制区域130选择进行语音输入、附加图像文件、选择表情符号、制作当前屏幕的屏幕截图、激活相机等。输入区域140由用户用于输入消息。例如，用户可以通过输入区域140键入文本。用户界面100可以进一步包括用于确认发送输入消息的虚拟按钮150。如果用户触摸虚拟按钮150，则可以将在输入区域140中输入的消息发送到呈现区域120。用户160和聊天机器人之间的会话中的消息可以是各种格式，例如语音、文本等。如在呈现区域120中所示，用户160现在通过语音与聊天机器人聊天。虚拟形象112被呈现在呈现区域120中，该虚拟形象112表示聊天机器人并且可以响应于会话中的消息而做出面部动作和/或身体动作。

应当理解，图1中所示的所有元素及其布局都是示例性的。取决于具体的应用需求，图1中的用户界面可以省略或添加任何元素，并且图1中的用户界面中的元素的布局也可以以各种方式改变。

图2示出了根据实施例的虚拟形象的应用场景下的示例性系统架构200。例如，图1中所示的应用场景可以基于系统架构200。

在图2中，网络210被应用于终端设备220和聊天服务器230之间的互连。

网络210可以是能够互连网络实体的任何类型的网络。网络210可以是单个网络或各种网络的组合。在覆盖范围方面，网络210可以是局域网(LAN)、广域网(WAN)等。在承载介质方面，网络210可以是有线网络、无线网络等。在数据交换技术方面，网络210可以是电路交换网络、分组交换网络等。

终端设备220可以是能够连接到网络210、访问网络210上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如，终端设备220可以是智能电话、台式计算机、膝上型计算机、平板电脑、AI终端、可穿戴设备、智能电视等。虽然图2中仅示出了一个终端设备，但是应当理解，不同数量的终端设备可以连接到网络210。图1中所示的智能电话可以是终端设备220的示例。

在一种实施方式中，终端设备220可以由用户使用。终端设备220可以包括聊天机器人客户端222，其可以为用户提供自动聊天服务。聊天机器人客户端222可以通过用户界面与用户交互。在一些情况下，聊天机器人客户端222可以与聊天机器人服务器230交互。例如，聊天机器人客户端222可以将用户输入的消息发送到聊天机器人服务器230，从聊天机器人服务器230接收与消息相关联的响应，并向用户提供响应。聊天机器人服务器230可以连接到或包含聊天机器人数据库240。聊天机器人数据库240可以包括聊天机器人服务器230可以用于生成响应的信息。然而，应当理解，在其他情况下，聊天机器人客户端222也可以在本地生成对用户输入的消息的响应，而不是与聊天机器人服务器230交互。

在一些实施方式中，在聊天机器人客户端222为用户提供自动聊天服务期间，聊天机器人客户端222可以通过用户界面向用户呈现虚拟形象，其中，虚拟形象可以响应于用户和聊天机器人之间的会话中的消息而做出动作。虚拟形象的动作可以由聊天服务器230生成或由聊天机器人客户端222本地生成。

应当理解，图2中示出的所有实体或单元都是示例性的，并且取决于具体的应用需求，系统架构200中可以涉及任何其他实体或单元。

图3示出了根据实施例的物理形象的示例性应用场景。物理形象310可以是物理机器人，其具有针对不同部分，例如脸部部分、身体部分等，的各种机械单元。提供这些机械单元以使物理形象310能够以与人类相似的方式做出各种面部动作和/或身体动作。

物理形象310是电子对话代理，例如聊天机器人，的视觉表示。例如，聊天机器人客户端312可以在物理形象310内部安装或运行。因此，物理形象310可以通过聊天机器人客户端312与用户320聊天。在用户320和聊天机器人之间的会话期间，物理形象310可以响应于会话中的消息而做出面部动作和/或身体动作。

应当理解，图3中所示的物理形象是示例性的。取决于具体的应用需求，可以以各种方式设计图3中的物理形象，例如，仅具有面部部分和上身部分，具有不同的体形，具有不同的面部部分等。

图4示出了根据实施例的物理形象的应用场景下的示例性系统架构400。例如，图3中所示的应用场景可以基于系统架构400。

在图4中，网络410被应用于终端设备420和聊天服务器430之间的互连。网络410类似于图2中的网络210。

终端设备420可以是具有计算和处理能力的任何类型的机械设备。终端设备420被设计为物理形象，其具有针对物理形象的不同部分的各种机械单元。例如，终端设备420可以包括机械单元集合422，其包括多个面部机械单元和/或多个身体机械单元。面部机械单元对应于物理形象的眼、鼻、嘴、脸部基底等中的至少一个，并且身体机械单元对应于物理形象的头、肩、手、臂、腿、脚等中的至少一个。机械单元集合422可以在终端设备420中的控制单元424的控制下以与人类类似的方式呈现各种面部动作和/或各种身体动作。

终端设备420可以包括聊天机器人客户端426，其可以为用户提供自动聊天服务。聊天机器人客户端426可以通过用户界面与用户交互。在一些情况下，聊天机器人客户端426可以与聊天机器人服务器430交互以获得对用户输入的消息的响应。聊天机器人服务器430可以连接到或包含聊天机器人数据库440。聊天机器人数据库440可以包括聊天机器人服务器430可以用于生成响应的信息。替代地，聊天机器人客户端426也可以在本地生成对用户输入的消息的响应，而不是与聊天机器人服务器430交互。

在一些实施方式中，在聊天机器人客户端426为用户提供自动聊天服务期间，可以响应于会话中的消息来确定动画，并且控制单元424可以使用所确定的动画来控制机械单元集合422，使得物理形象可以相应地做出动作。动画可以由聊天机器人服务器430确定或由聊天机器人客户端426本地确定。

应当理解，图4中示出的所有实体或单元都是示例性的，并且取决于具体的应用需求，系统架构400中可以涉及任何其他实体或单元。

此外，应当理解，虚拟形象，例如图1中的虚拟形象112，和物理形象，例如图3中的物理形象310，也可以组合在一起。例如，可以利用图1中的虚拟形象112的面部部分和图3中的物理形象310的身体部分形成新的形象。因此，该新形象可以具有在屏幕中示出的虚拟面部部分和由机械单元构造的物理身体部分，其中，可以基于以下讨论的与虚拟形象相关的过程来生成虚拟面部部分的动作，并且可以基于以下讨论的与物理形象相关的过程来生成物理身体部分的动作。

图5示出了根据实施例的用于通过时序动作解析来自动生成虚拟形象的动作的示例性过程500。根据过程500，应用基于时序动作解析的方法以响应于用户和聊天机器人之间的会话中的消息来自动确定一个或多个动画，并进一步生成虚拟形象的动作。

可以在用户和聊天机器人之间的会话中获得消息510。消息510可以来自用户或聊天机器人。在假设消息510来自聊天机器人的前提下提供以下讨论。即，以下讨论集中在自动生成形象的对应于聊天机器人将在会话中所说的内容的动作。

在520处，可以对消息510执行时序动作解析。在一种实施方式中，可以对从消息510获得的纯文本512执行时序动作解析。如果消息510是文本格式，则可以直接从消息510获得纯文本512。如果消息510是语音格式，则可以通过语音到文本转换将语音消息510转换为纯文本512。在另一种实施方式中，可以对从消息510获得的语音合成标记语言(SpeechSynthesis Markup Language，SSML)文件514执行时序动作解析。SSML是众所周知的语音合成技术，其可以标记文本的各种语音属性，以便表征与文本相对应的语音。通过SSML技术获得的SSML文件可以包括例如多个文本段、每段的韵律、每段的音调等。如果消息510是语音格式，则可以通过SSML技术，基于语音消息510来获得SSML文件514。

可以执行时序动作解析以确定对应于消息510的一个或多个面部动画和/或身体动画。在一种实施方式中，时序动作解析可以利用预先建立的动画数据库530来确定面部动画和/或身体动画。

图6示出了根据实施例的用于通过时序动作解析来从动画数据库中确定动画的示例性过程600。根据过程600，可以对消息610的至少一部分执行时序动作解析，以便从动画数据库630确定面部动画和/或身体动画，其中，消息610和动画数据库630分别对应于图5中的消息510和动画数据库530。

尽管在图6中示出了通过时序动作解析来处理消息610，但是实际上可以对从消息610获得的纯文本或SSML文件执行时序动作解析。

可以通过时序动作解析来从消息610获得多个特征620。这些特征620可以由时序动作解析用于确定相应的动画。

在一种实施方式中，特征620可以包括消息610中的关键词。在本公开中，“词”用于统一指代各种语言族中的字符、词语、短语等。在本文中，“关键词”可以指代已经针对其在动画数据库630中收集或创建了一个或多个相应动画的一个或多个词。例如，关键词“高兴”可以至少对应于指示面部部分中的咧嘴笑的面部动画。例如，关键词“非常惊讶”可以至少对应于指示面部部分中的嘴和眼睛张得很大的面部动画，并且还可以对应于指示身体部分中的臂和手摊开的身体动画。

在一种实施方式中，特征620可以包括消息610的情感。情感可以是多个情感类别中的一个，例如快乐、愤怒、悲伤、厌恶、惊讶、恐惧、蔑视、中性等。可以通过各种现有的情感分析方法，例如用于预测文本的情感的神经网络分类器，来确定消息610的情感。动画数据库630可以包括与各种情感类别相对应的动画。例如，情感“恐惧”可以至少对应于指示身体部分中的用手抱住胸部的身体动画。例如，情感“愤怒”可以至少对应于指示面部部分中的皱眉、瞪眼和噘嘴的面部动画，以及指示身体部位中的跺脚的身体动画。

在一种实施方式中，特征620可以包括消息610的语句类型。在本文中，“语句类型”可以指消息610中的语句是肯定句、否定句还是疑问句。每种语句类型可以对应于不同的动画。例如，肯定句可以至少对应于指示身体部位中的点头的身体动画。例如，否定句可以至少对应于指示面部部分中的紧闭嘴的面部动画和指示身体部分中的摇头和摆手的身体动画。例如，疑问句可以至少对应于指示面部部分中的略微皱眉和张开嘴的面部动画以及指示身体部分中的歪头的身体动画。

在一种实施方式中，特征620可以包括消息610中的代词。代词可以是“我”、“你”等。每种类型的代词可以对应于不同的动画。例如，代词“我”可以至少对应于指示手指指向面部的身体动画。例如，代词“你”可以至少对应于指示手指指向用户的身体动画。

在一种实施方式中，特征620可以包括消息610中的问候语。问候语可以是“你好”、“再见”等。每种类型的问候语可以对应于不同的动画。例如，问候语“你好”可以至少对应于指示身体部分中的前倾和点头的身体动画。例如，问候语“再见”可以至少对应于指示身体部分中的举起手臂和挥手的身体动画。

应当理解，特征620可以包括上述特征中的至少一个，并且还可以包括有助于确定动画的任何其他特征。

动画数据库630可以包括大量动画，这些动画存储在动画数据库630中以供时序动作解析选择。这些动画可以预先从各种动画源获得或者人为创建。

动画数据库630可以包括面部动画集632。面部动画集632包括与不同面部动作相对应的各种面部动画。根据用于呈现面部动作的不同方面，可以将面部动画集632中的面部动画分类为例如持续面部表情子集、瞬时面部表情子集、口型子集、眨眼子集等。

持续面部表情指的是可以持续相对长时间，例如在一个语句期间持续，在多于一个语句中持续等，的面部表情。持续面部表情可以与消息或消息的上下文相关联，并旨在反映例如消息或上下文的整体情感。例如，如果在一个或多个消息中描述了愉快的旅行，则可以在这一个或多个消息期间在面部部分中持续呈现对应于情感“快乐”的持续面部表情。持续面部表情子集可以包括多个动画，例如动画a1-1、动画a1-2等，其分别对应于各种持续面部表情。在一种实施方式中，持续面部表情子集中的动画可以对应于反映各种情感的面部表情。例如，假设动画a1-1对应于反映情感“快乐”的面部表情，动画a1-1可以指示面部部分中的眯眼和咧嘴笑的面部动作。

瞬时面部表情指的是仅持续相对短的时间，例如在一个或多个词语期间持续等，的面部表情。瞬时面部表情可以与消息的至少一部分相关联，并且旨在响应于消息的该部分的内容而呈现面部动作。例如，如果在消息中出现关键词“哇”，则在关键词期间可以在面部部分中呈现对应于情感“惊讶”的瞬时面部表情。例如，如果在消息中出现关键词“如何”以指示这是疑问句，则可以在该关键词或一个或多个后续词语期间在面部部分中呈现对应于疑问句类型的瞬时面部表情。瞬时面部表情子集可包括多个动画，例如动画a2-1、动画a2-2等，其分别对应于各种瞬时面部表情。在一种实施方式中，瞬时面部表情子集中的动画可以对应于反映各种情感、各种语句类型等的面部表情。例如，假设动画a2-2对应于反映疑问句类型的面部表情，则动画a2-2可以指示面部部分中的略微皱眉和张开嘴的面部动作。

口型子集可包括多个动画，例如动画a3-1、动画a3-2等，其分别指示对应于各种词语的各种口型。可以采用各种现有技术来创建模拟与特定词语相对应的口型的动画。

眨眼子集可包括多个动画，例如动画a4-1、动画a4-2等，其分别对应于各种眨眼方式。例如，动画a4-1可以指示快速眨眼，而动画a4-2可以指示缓慢眨眼等。

动画数据库630可以包括身体动画集634。身体动画集634包括对应于不同身体动作的各种身体动画。根据用于呈现身体动作的不同方面，可以将身体动画集634中的身体动画分类为例如正常身体动作子集、情感相关身体动作子集、语句类型相关身体动作子集、代词相关身体动作子集、问候语相关身体动作子集、象征性身体动作子集、琐碎身体动作子集、身体动作习惯子集等。

正常身体动作子集可以包括多个动画，例如动画b1-1、动画b1-2等，其分别对应于各种正常身体动作。正常身体动作指的是如果不需要做出其他身体动作就可以持续相对长时间的身体动作。在一种实施方式中，正常身体动作可以包括在说话时的身体动作或者在倾听时的身体动作，例如，将手放在身后，将手放在身前，将手放在两侧等。

情感相关身体动作子集可以包括多个动画，例如动画b2-1、动画b2-2等，其分别对应于各种情感相关身体动作。情感相关身体动作指的是可以反映特定情感的身体动作。例如，用手抱住胸部的身体动作可以对应于情感“恐惧”，向后摆臂和跺脚的身体动作可以对应于情感“非常愤怒”等。

语句类型相关身体动作子集可以包括多个动画，例如动画b3-1、动画b3-2等，其分别对应于各种语句类型相关身体动作。语句类型相关身体动作指的是与消息的语句类型相关联的身体动作。例如，摇头和摆手的身体动作可以对应于否定句，歪头的身体动作可以对应于疑问句，点头的身体动作可以对应于肯定句等。

代词相关身体动作子集可以包括多个动画，例如动画b4-1、动画b4-2等，其分别对应于各种代词相关身体动作。代词相关身体动作指的是与消息中的代词相关联的身体动作。例如，手指指向面部的身体动作可以对应于代词“我”，手指指向用户的身体动作可以对应于代词“你”等。

问候语相关身体动作子集可以包括多个动画，例如动画b5-1、动画b5-2等，其分别对应于各种问候语相关身体动作。问候语相关身体动作指的是与消息中的问候语相关联的身体动作。例如，前倾和点头的身体动作可以对应于问候语“你好”，举起手臂和挥手的身体动作可以对应于问候语“再见”等。

象征性身体动作子集可以包括多个动画，例如动画b6-1、动画b6-2等，其分别对应于各种象征性身体动作。象征性身体动作指的是用于以预定义模式表达特定意义的身体动作。示例性类型的象征性身体动作可以是“表现得可爱”，例如鼓起脸颊并将一根手指放在嘴前等的身体动作等。另一种示例性类型的象征性身体动作可以是“摆用于拍照的姿势”。例如举起手臂并用手形成V形的身体动作等。

琐碎身体动作子集可以包括多个动画，例如动画b7-1、动画b7-2等，其分别对应于各种琐碎身体动作。琐碎身体动作可以包括例如挠头、揉眼等。

身体动作习惯子集可以包括多个动画，例如动画b8-1、动画b8-2等，其分别对应于形象的各种身体动作习惯。可以为形象预定义身体动作习惯以反映形象的一些动作习惯，例如，在说话时抬起手臂，在倾听时歪头等。

应当理解，上面讨论的动画数据库630中的所有动画集和子集都是示例性的，可以省略、替换、组合或划分这些集合和子集中的任何一个，并且可以将任何其他集合或子集或动画添加到动画数据库630中。此外，为了尽可能多地提供各种类型的动画，可以进一步细化动画数据库630中的分类。以情感相关身体动作子集为例，该子集可以基于不同的情感被进一步划分为多个组，例如与情感“愤怒”相关的组、与情感“悲伤”相关的组等。某个组可以被进一步划分为几个子组，并且每个子组可以包括一个或多个相应的动画。例如，对于与情感“愤怒”相关的组，该组可以基于不同程度的“愤怒”被进一步划分为几个子组，例如“狂怒”的子组，“大怒”的子组，“恼怒”子组等，并且每个子组可以包括表示相应程度的“愤怒”的动画。

根据过程600，从消息610获得的特征620可以由时序动作解析用于从动画数据库630中确定面部动画和/或身体动画640。时序动作解析可以利用特征620中的单个特征或特征620中的两个或多个特征的组合来确定与消息610相关联的面部动画和/或身体动画640。

假设消息610包括示例性语句“我真的生气”。在一个方面，该消息的情感类别可以被检测为“愤怒”，对应于情感“愤怒”的持续面部表情可以被确定为在该消息期间被应用。因此，可以从面部动画集632中的持续面部表情子集中选择指示皱眉的示例性面部动画。在另一方面，消息中的词语“生气”可以是可以引起相应的瞬时面部表情的关键词。因此，可以从面部动画集632中的瞬时面部表情子集中选择指示瞪眼、张大鼻孔和紧闭嘴的示例性面部动画。同时，对于关键词“生气”，也可以从身体动画集630中的情感相关身体动作子集中选择指示跺脚的示例性身体动画。在另一方面，可以从面部动画集632中的口型子集中选择指示词语“我”、“真的”、“生”和“气”的口型的动画。在另一方面，当检测到消息中的词语“我”是代词时，可以从身体动画集634中的代词相关身体动作子集中选择指示手指指向面部的示例性动画。在另一方面，如果形象具有在说话时抬起手臂的预定义的身体动作习惯，则可以从身体动画集630中的身体动作习惯子集中选择指示这种身体动作的动画。上述面部动画和身体动画中的任何一种或全部可以组合在一起以应用于消息610。

图6中的过程600可以由图5中的时序动作解析采用以确定与图5中的消息510相对应的一个或多个面部动画和/或身体动画。

应当理解，根据图5中的过程500，时序动作解析可以进一步确定所确定的面部动画和/或身体动画的时间段。即，时序动作解析还可以指定每个动画相对于消息510中的词语的开始时间和结束时间。

关于持续面部表情，其对应的动画可以在消息之前开始或者在消息的开始处开始，并且可以在消息之后或在消息的结尾处结束。

关于由消息中的关键词触发的瞬时面部表情，其对应的动画可以在消息中的关键词之前、开始处或之后开始。在一种实施方式中，瞬时面部表情和持续面部表情可能彼此排斥，例如，这两种类型的面部表情不能同时发生。在一种实施方式中，瞬时面部表情可以具有比持续面部表情更高的优先级。例如，在呈现持续面部表情期间，如果确定要呈现瞬时面部表情，则将中断持续面部表情并且代之以呈现瞬时面部表情，在完成瞬时面部表情的呈现后，可以再次恢复持续面部表情。在一种实施方式中，瞬时面部表情可以使得在消息内添加强制等待时段，其中，强制等待时段确保可以完整地呈现瞬时面部表情。

关于消息中的词语的口型，其对应的动画可以与词语准确地同步。因此，对应于消息中的所有词语的一系列口型可以在消息的开始处开始，并且可以在消息的结尾处结束。替代地，如果形象在一段时间内没有说话，则可以在该时间段期间应用指示闭嘴的口型的动画。

关于眨眼，其对应的动画可以在定时方面以随机方式应用。替代地，也可以随着聊天节奏的改变而应用指示眨眼的动画。例如，如果消息由形象快速讲出，则可以在消息期间应用频繁的眨眼。

关于由消息或消息中的关键词触发的身体动作，其对应的动画可以在消息或关键词之前、开始处或之后开始，并且可以在消息或关键词期间或之后结束。替代地，如果身体动作不是由消息中的任何特定词语触发，例如正常身体动作、象征性身体动作、琐碎身体动作或者身体动作习惯，其相应的动画也可以以随机方式应用。

图7示出了根据实施例的各种动画的示例性序列图700。序列图700基于用户和聊天机器人之间的示例性对话，其在时间序列中包括在时间点t₀和时间点t₁之间来自用户的消息710、在t₂和t₂之间来自聊天机器人的消息712、在t₄和t₅之间来自聊天机器人的消息713、以及在t₆和t₇之间来自用户的消息714。序列图700示出了应用于会话中的消息的各种动画的时间段。

聊天机器人说出的消息712可以包括三个示例性词语712-1、712-2、712-3。可以为消息712确定持续面部表情721，其在消息712之前开始并且在消息712的结尾处结束。三个口型731-1、731-2、731-3是分别针对三个词语712-1、712-2、712-3来确定的，并与词语准确同步。确定在消息712内应用眨眼742。此外，至少基于词语712-1来确定身体动作752，其在词语712-1期间开始并在词语712-3期间结束。针对消息712确定瞬时面部表情722，其在消息712之后开始。

聊天机器人说出的消息713可以包括三个示例性词语713-1、713-2、713-3。可以针对消息713确定持续面部表情723，其在消息713的开始处开始并且在消息713之后结束。至少基于例如消息713中的词语713-2确定瞬时面部表情724，其与词语713-2同步并使得持续面部表情723在词语713-2期间被中断。三个口型732-1、732-2、732-3是分别针对三个词语713-1、713-2、713-3来确定的，并与词语准确地同步。确定在消息713内应用眨眼743。此外，至少基于词语713-2来确定身体动作753，其与词语713-2同步。

应当理解，序列图700是示例性的，其仅旨在给出一些示例，这些示例示出指示面部动作和身体动作的各种动画的时间段。取决于具体的应用需求，可以在序列图700中进行任何改变。

返回图5，在时序动作解析获得一个或多个面部动画和/或身体动画以及面部动画和/或身体动画的时间段之后，面部动画和/或身体动画可以与虚拟形象550进一步合成，以生成形象的与消息510相对应的动作。

在替代实施方式中，可以通过时序动作解析来生成动作合成标记语言(MSML)文件522。MSML文件522可以包括对面部动画和/或身体动画的指示，其中，对面部动画和/或身体动画的“指示”可以是这些动画在动画数据库530中的索引。MSML文件522可以进一步包括面部动画和/或身体动画的时间段。因此，还可以基于MSML文件522来生成形象的动作。在本文中，MSML是众所周知的动作标记技术，其可以为文本标记各种动作。通过MSML技术获得的MSML文件可以包括例如多个文本段、为段确定的动画、每个动画的时间段、文本的情感等。

在540处，可以对所确定的面部动画和/或身体动画以及虚拟形象550执行动作合成。例如，可以基于MSML文件522来执行动作合成，其中，动作合成可以根据MSML文件522中的对动画的指示，从动画数据库530中提取动画数据，并根据MSML文件522中指示的这些动画的时间段来应用动画。在一种实施方式中，动作合成可以采用任何现有的3D结构合并技术，其可以将所确定的面部动画和/或身体动画应用于虚拟形象，以生成虚拟形象的相应动作。

动作合成可以输出3D工程文件542，其包括生成形象的视觉动作所需的各种信息。在560处，可以根据3D工程文件542来执行渲染过程，以生成视频562。视频562可以以视觉方式呈现形象的动作。

在一种实施方式中，如果消息510是文本格式，则过程500可以进一步包括将消息510转换为语音，并将语音合并到视频562中。因此，形象的动作和音频可以一起呈现。

应当理解，可以对过程500进行各种改进。在一种实施方式中，可以将镜头变化功能添加到过程500中。例如，取决于形象的动作，可以进行各种镜头变化，例如可以进行放大、缩小、旋转等，以便可以进一步强调、更好地呈现形象的动作等。镜头变化功能可以在例如3D工程文件中实现。

结合图5的上述讨论是在假设消息510来自聊天机器人的情况下提供的。然而，应当理解，即使消息510来自用户，也可以以类似的方式应用过程500。即，还可以在仅需要对过程500进行一些适配的情况下，执行过程500以自动生成形象的与用户在会话中所说的内容相对应的动作。接下来，将讨论在将消息来自用户的情况下的对过程500的这种适配。

在一个方面，由于消息510来自用户，因此不需要确定例如指示与消息510中的词语相对应的口型的动画、指示代词相关身体动作的动画等。

在一个方面，考虑到消息510是由用户说的，可以确定所确定的面部动画和/或身体动画的时间段。例如，持续面部表情或瞬时面部表情可以在消息期间或消息之后开始，身体动作可以在消息期间或消息之后开始等。参考图7，由用户说出消息710。确定在消息710内应用眨眼741。此外，基于消息710的至少一部分确定身体动作751，身体动作751在消息710期间开始并在消息710之后结束。由用户说出消息714。基于消息714的至少一部分确定瞬时面部表情725，瞬时面部表情725在消息714期间开始和结束。此外，确定在消息714内应用眨眼744。

在一个方面，由于消息510来自用户，因此不需要将对应于消息510的语音添加到视频562中。

以上结合图5-图7讨论了通过时序动作解析来自动生成形象的动作的方法。通过时序动作解析实现的功能可以通过各种技术手段来实现。

在一种实施方式中，时序动作解析可以由基于规则的模型来实现。基于规则的模型可以定义规则集，其可以将从消息中获得的特征，例如图6中的特征620，映射到动画数据库中的相应动画。参考上面对图6的讨论，特征620可以单独地或联合地指示相应动画，并且动画数据库630中的动画也可以拥有相应的特征属性。因此，特征和动画之间的这种关系可以由基于规则的模型捕获以创建规则集。基于规则的模型可以采用各种技术，例如Rocchio算法、文本挖掘方法等。在建立之后，基于规则的模型可以被配置用于通过对消息的至少一部分应用预定义规则集，来从动画数据库中确定面部动画和/或身体动画。

在一种实施方式中，时序动作解析可以由机器学习模型实现。机器学习模型可以被配置用于通过对消息执行序列标记来从动画数据库中确定面部动画和/或身体动画。在本文中，“序列标记”可以指标记消息中的每个词语并标记对应于该词语的动画。机器学习模型可以基于神经网络，例如指针网络，和/或基于条件随机场(CRF)。如上所述，机器学习模型的训练数据可以来自消息中的特征与动画数据库中的动画之间的映射关系集合。

在一种实施方式中，时序动作解析还可以由联合模型实现，该联合模型根据基于规则的模型和机器学习模型的组合。

图8示出了根据实施例的用于通过时序动作解析来自动生成物理形象的动作的示例性过程。根据过程800，应用基于时序动作解析的方法以响应于用户和聊天机器人之间的会话中的消息来自动确定一个或多个动画，并进一步生成物理形象的动作。

过程800是图5中的过程500的修改版本，其中，在过程800中，通过时序动作解析确定的面部动画和/或身体动画用于驱动物理形象以生成物理形象的动作，而不是生成显示虚拟形象的动作的视频。

根据过程800，可以将在520处通过时序动作解析确定的面部动画和/或身体动画提供给物理形象内部的控制单元840。在一种实施方式中，可以将包括至少面部动画和/或身体动画的MSML文件522提供给控制单元840。控制单元840可以对应于图4中的控制单元424。

在850处，控制单元840可以至少根据面部动画和/或身体动画或者MSML文件522来驱动物理形象中的机械单元，其方式与图4中控制单元424驱动机械单元集合422中的机械单元的方式类似。因此，物理形象可以做出与消息510相对应的面部和/或身体动作。

图9示出了根据实施例的用于通过检索模型来确定动画的示例性过程900。根据过程900，应用基于检索的方法以响应于用户和聊天机器人之间的会话中的消息来自动确定动画。所确定的动画可以进一步用于以与结合图5和图8讨论的方式类似的方式生成形象的动作。

图9中示出了检索模型910，其可以基于消息从动画数据库检索面部动画和/或身体动画。图9的下部示出了检索模型910的训练过程。

视频源920可以指代多个电影。视频源920还可以指代从各种社交媒体获得的多个视频剪辑。以电影为例，电影可以包括剧本和视频，其中，剧本包括演员所说的语句，并且视频包括演员的面部动作和身体动作的视觉表示。可以从视频源920中提取训练数据930。例如，对于电影剧本中的语句，可以在屏幕显示说出该语句的演员或者听到该语句的演员的面部动作和/或身体动作。可以通过各种现有的3D重构技术来创建指示面部动作和/或身体动作的动画，并且可以将动画映射到该语句。因此，可以获得具有<参考语句，参考动画>形式的多个训练数据，其中，参考动画可以指代一个或多个面部动画和/或身体动画。训练数据930可以用于训练检索模型910，使得检索模型910可以建立多个参考语句和多个参考动画之间的映射关系。

在一种实施方式中，训练数据930可以进一步用于建立动画数据库940。动画数据库940可以包括彼此映射的多个参考语句以及多个参考面部和/或身体动画。

当应用经训练的检索模型910时，可以向检索模型910提供消息950。检索模型910可以从动画数据库940中识别与消息910相关的参考语句。可以通过语句相似性模型来执行对与消息940相关联的参考语句的识别。语句相似性模型可以采用情感向量、词向量、隐含狄利克雷分配(Latent Dirichlet Allocation，LDA)分布、语句类型向量等的至少一个特征，用于在消息950与动画数据库940中的参考语句之间进行相似性匹配。如果识别出与消息950相关联的参考语句，就可以从动画数据库940中检索与参考语句相对应的参考面部动画和/或参考身体动画，并将其用作与消息950相对应的面部动画和/或身体动画960。

由检索模型910确定的面部动画和/或身体动画960可以进一步用于生成形象的动作。

图10示出了根据实施例的用于通过生成模型来确定动画的示例性过程1000。根据过程1000，应用基于生成的方法以响应于用户和聊天机器人之间的会话中的消息来自动确定动画。所确定的动画可以进一步用于以与结合图5和图8讨论的方式类似的方式生成形象的动作。

图10中示出了生成模型1010，其可以基于消息生成面部动画和/或身体动画。图10的下部示出了生成模型1010的训练过程。视频源1020和训练数据1030可以分别与视频源920和训练数据930相同。

可以通过训练数据1030以序列到序列的方式来训练生成模型1010，训练数据1030包括多个<参考语句，参考动画>对。

当应用经训练的生成模型1010时，可以向生成模型1010提供消息1040。生成模型1010可以基于消息1040生成面部动画和/或身体动画1050。由生成模型1010确定的面部动画和/或身体动画1050可以进一步用于生成形象的动作。

图11示出了根据实施例的用于自动生成形象的动作的示例性方法1100的流程图。

在1110处，可以获得用户和电子对话代理之间的会话中的消息，所述形象是所述电子对话代理的视觉表示。

在1120处，可以基于所述消息的至少一部分来确定至少一个面部动画和/或身体动画。

在1130处，可以至少基于所述面部动画和/或所述身体动画来生成所述形象的至少一个动作。

在一种实施方式中，所述确定可以包括：对从所述消息中获得的纯文本或语音合成标记语言(SSML)文件执行时序动作解析，以确定所述面部动画和/或所述身体动画。

所述时序动作解析还可以被执行用于确定所述面部动画和/或所述身体动画的时间段

所述时序动作解析可以基于以下各项中的至少一项：所述消息中的关键词、所述消息的情感、所述消息的语句类型、所述消息中的代词和所述消息中的问候语。

所述时序动作解析可以由基于规则的模型和/或机器学习模型来实现。所述基于规则的模型可以被配置用于通过对所述消息的所述至少一部分应用预定义规则集来从动画数据库中确定所述面部动画和/或所述身体动画。所述机器学习模型可以被配置用于通过对所述消息执行序列标记来从所述动画数据库中确定所述面部动画和/或所述身体动画

所述方法还可以包括：通过执行所述时序动作解析来生成MSML文件，所述MSML文件至少包括对所述面部动画和/或所述身体动画的指示，并且其中，所述生成所述形象的所述至少一个动作包括：基于所述MSML文件来生成所述形象的所述至少一个动作。

所述面部动画可以指示以下各项中的至少一项：与所述消息或所述消息的上下文相关联的持续面部表情、与所述消息的所述至少一部分相关联的瞬时面部表情、与所述消息中的每个词语相对应的口型、以及眨眼。

所述身体动画可以指示以下各项中的至少一项：正常身体动作、情感相关身体动作、语句类型相关身体动作、代词相关身体动作、问候语相关身体动作、象征性身体动作、琐碎身体动作、以及身体动作习惯。

在一种实施方式中，所述确定可以包括：通过检索模型，基于所述消息从动画数据库中检索所述面部动画和/或所述身体动画，所述动画数据库包括至少一个参考语句和相应的参考面部动画和/或参考身体动画。所述检索模型可以被配置用于从所述动画数据库中识别与所述消息相关联的参考语句，并且从所述动画数据库中检索与所述参考语句相对应的参考面部动画和/或参考身体动画以作为所述面部动画和/或所述身体动画。

与所述消息相关联的所述参考语句可以是通过语句相似性模型来识别的，所述语句相似性模型采用以下特征中的至少一个特征：情感向量、词向量、LDA分布和语句类型向量。

在一种实施方式中，所述确定可以包括：通过生成模型，基于所述消息来生成所述面部动画和/或所述身体动画，所述生成模型是通过至少一个参考语句以及相应的参考面部动画和/或参考身体动画以序列到序列的方式来训练的。

在一种实施方式中，所述形象可以是虚拟形象，并且所述生成可以包括：通过对所述虚拟形象以及所述面部动画和/或所述身体动画进行合成来生成所述形象的所述至少一个动作。

在一种实施方式中，所述形象可以是物理形象，并且所述生成可以包括：通过利用所述面部动画和/或所述身体动画驱动所述物理形象来生成所述形象的所述至少一个动作。

在一种实施方式中，所述方法还可以包括：如果所述消息是从所述电子对话代理获得的，则连同从所述消息中获得的音频呈现所述形象的所述至少一个动作；或者如果所述消息是从所述用户获得的，则呈现所述形象的所述至少一个动作。

应当理解，方法1100还可以包括根据如上所述的本公开的实施例的用于自动生成形象的动作的任何步骤/过程。

图12示出了根据实施例的用于自动生成形象的动作的示例性装置1200。

装置1200可以包括：消息获得模块1210，用于获得用户和电子对话代理之间的会话中的消息，所述形象是所述电子对话代理的视觉表示；动画确定模块1220，用于基于所述消息的至少一部分来确定至少一个面部动画和/或身体动画；以及动作生成模块1230，用于至少基于所述面部动画和/或所述身体动画来生成所述形象的至少一个动作。

在一种实施方式中，动画确定模块1220还可以用于：对从所述消息中获得的纯文本或SSML文件执行时序动作解析，以确定所述面部动画和/或所述身体动画。

在一种实施方式中，动画确定模块1220还可以用于：通过检索模型，基于所述消息从动画数据库中检索所述面部动画和/或所述身体动画，所述动画数据库包括至少一个参考语句和相应的参考面部动画和/或参考身体动画。所述检索模型可以被配置用于从所述动画数据库中识别与所述消息相关联的参考语句，并且从所述动画数据库中检索与所述参考语句相对应的参考面部动画和/或参考身体动画以作为所述面部动画和/或所述身体动画。

在一种实施方式中，动画确定模块1220还可以用于：通过生成模型，基于所述消息来生成所述面部动画和/或所述身体动画，所述生成模型是通过至少一个参考语句以及相应的参考面部动画和/或参考身体动画以序列到序列的方式来训练的。

在一种实施方式中，所述形象可以是虚拟形象，并且所述动作生成模块1230还可以用于：通过对所述虚拟形象以及所述面部动画和/或所述身体动画进行合成来生成所述形象的所述至少一个动作。

在一种实施方式中，所述形象可以是物理形象，并且所述动作生成模块1230还可以用于：通过利用所述面部动画和/或所述身体动画驱动所述物理形象来生成所述形象的所述至少一个动作。

此外，装置1200还可以包括被配置用于根据如上所述的本公开的实施例的用于自动生成形象的动作的任何其他模块。

图13示出了根据实施例的用于自动生成形象的动作的示例性装置1300。

装置1300可以包括一个或多个处理器1310和存储计算机可执行指令的存储器1320。当执行计算机可执行指令时，一个或多个处理器1310可以：获得用户和电子对话代理之间的会话中的消息，所述形象是所述电子对话代理的视觉表示；基于所述消息的至少一部分来确定至少一个面部动画和/或身体动画；以及至少基于所述面部动画和/或所述身体动画来生成所述形象的至少一个动作。一个或多个处理器1310还可以被配置用于执行根据如上所述的本公开的实施例的用于自动生成形象的动作的方法的任何操作。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据如上所述的本公开的实施例的用于自动生成形象的动作的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(例如硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部，例如缓存器或寄存器。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。对这些方面的各种修改对于本领域技术人员是显而易见的，并且本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换都将通过引用而明确地包含到本文中，并且旨在由权利要求所覆盖。

Claims

1.一种用于自动生成形象的动作的方法，包括：

获得用户和电子对话代理之间的会话中的消息，所述形象是所述电子对话代理的视觉表示；

基于所述消息的至少一部分来确定至少一个面部动画和/或身体动画；以及

至少基于所述面部动画和/或所述身体动画来生成所述形象的至少一个动作。

2.根据权利要求1所述的方法，其中，所述确定包括：

对从所述消息中获得的纯文本或语音合成标记语言(SSML)文件执行时序动作解析，以确定所述面部动画和/或所述身体动画。

3.根据权利要求2所述的方法，其中，所述时序动作解析还被执行用于确定所述面部动画和/或所述身体动画的时间段。

4.根据权利要求2所述的方法，其中，所述时序动作解析基于以下各项中的至少一项：所述消息中的关键词、所述消息的情感、所述消息的语句类型、所述消息中的代词和所述消息中的问候语。

5.根据权利要求2所述的方法，其中，所述时序动作解析是由基于规则的模型和/或机器学习模型来实现的，

所述基于规则的模型被配置用于通过对所述消息的所述至少一部分应用预定义规则集来从动画数据库中确定所述面部动画和/或所述身体动画，

所述机器学习模型被配置用于通过对所述消息执行序列标记来从所述动画数据库中确定所述面部动画和/或所述身体动画。

6.根据权利要求2所述的方法，还包括：

通过执行所述时序动作解析来生成动作合成标记语言(MSML)文件，所述MSML文件至少包括对所述面部动画和/或所述身体动画的指示，并且

其中，所述生成所述形象的所述至少一个动作包括：基于所述MSML文件来生成所述形象的所述至少一个动作。

7.根据权利要求2所述的方法，其中，

所述面部动画指示以下各项中的至少一项：与所述消息或所述消息的上下文相关联的持续面部表情、与所述消息的所述至少一部分相关联的瞬时面部表情、与所述消息中的每个词语相对应的口型、以及眨眼；并且

所述身体动画指示以下各项中的至少一项：正常身体动作、情感相关身体动作、语句类型相关身体动作、代词相关身体动作、问候语相关身体动作、象征性身体动作、琐碎身体动作、以及身体动作习惯。

8.根据权利要求1所述的方法，其中，所述确定包括：

通过检索模型，基于所述消息从动画数据库中检索所述面部动画和/或所述身体动画，所述动画数据库包括至少一个参考语句和相应的参考面部动画和/或参考身体动画，

其中，所述检索模型被配置用于从所述动画数据库中识别与所述消息相关联的参考语句，并且从所述动画数据库中检索与所述参考语句相对应的参考面部动画和/或参考身体动画以作为所述面部动画和/或所述身体动画。

9.根据权利要求8所述的方法，其中，与所述消息相关联的所述参考语句是通过语句相似性模型来识别的，所述语句相似性模型采用以下特征中的至少一个特征：情感向量、词向量、隐含狄利克雷分配(LDA)分布和语句类型向量。

10.根据权利要求1所述的方法，其中，所述确定包括：

通过生成模型，基于所述消息来生成所述面部动画和/或所述身体动画，所述生成模型是通过至少一个参考语句以及相应的参考面部动画和/或参考身体动画以序列到序列的方式来训练的。

11.根据权利要求1所述的方法，其中，所述形象是虚拟形象，并且所述生成包括：

通过对所述虚拟形象以及所述面部动画和/或所述身体动画进行合成来生成所述形象的所述至少一个动作。

12.根据权利要求1所述的方法，其中，所述形象是物理形象，并且所述生成包括：

通过利用所述面部动画和/或所述身体动画驱动所述物理形象来生成所述形象的所述至少一个动作。

13.根据权利要求1所述的方法，还包括：

如果所述消息是从所述电子对话代理获得的，则连同从所述消息中获得的音频呈现所述形象的所述至少一个动作；或者

如果所述消息是从所述用户获得的，则呈现所述形象的所述至少一个动作。

14.一种用于自动生成形象的动作的装置，包括：

消息获得模块，用于获得用户和电子对话代理之间的会话中的消息，所述形象是所述电子对话代理的视觉表示；

动画确定模块，用于基于所述消息的至少一部分来确定至少一个面部动画和/或身体动画；以及

动作生成模块，用于至少基于所述面部动画和/或所述身体动画来生成所述形象的至少一个动作。

15.根据权利要求14所述的装置，其中，所述动画确定模块还用于：

16.根据权利要求14所述的装置，其中，所述动画确定模块还用于：

17.根据权利要求14所述的装置，其中，所述动画确定模块还用于：

18.根据权利要求14所述的装置，其中，所述形象是虚拟形象，并且所述动作生成模块还用于：

19.根据权利要求14所述的装置，其中，所述形象是物理形象，并且所述动作生成模块还用于：

20.一种用于自动生成形象的动作的装置，包括：

一个或多个处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使得所述一个或多个处理器：