CN108646918A

CN108646918A - 基于虚拟人的视觉交互方法及系统

Info

Publication number: CN108646918A
Application number: CN201810443323.6A
Authority: CN
Inventors: 尚小维; 李晓丹; 俞志晨
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-10-12

Abstract

本发明提供基于虚拟人的视觉交互方法，虚拟人通过智能设备展示，在处于交互状态时启动语音、情感、视觉以及感知能力，包含以下步骤：通过虚拟人输出多模态数据；接收用户针对多模态数据提供的多模态交互数据；解析多模态交互数据，其中：通过视觉能力检测并提取多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图；通过虚拟人按照交互意图进行多模态交互输出。本发明的基于虚拟人的视觉交互方法及系统提供了一种虚拟人，具备预设形象和预设属性，能够与用户进行多模态的交互。并且，还能够通过手部的握拳动作以及与手部配合的肢体动作判断用户的意图，使得用户享受拟人的交互体验。

Description

基于虚拟人的视觉交互方法及系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种基于虚拟人的视觉交互方法及系统。

背景技术

机器人多模态交互系统的开发致力于模仿人类对话，以试图在上下文之间模仿人类之间的交互。但是，目前来说，对于虚拟人相关的机器人多模态交互系统的开发还不太完善，尚未出现进行多模态交互的虚拟人，更为重要的是，尚无针对肢体，尤其针对手势交互，且对肢体、尤其手势交互有响应的基于虚拟人的视觉交互产品。

因此，本发明提供了一种基于虚拟人的视觉交互方法及系统。

发明内容

为解决上述问题，本发明提供了一种基于虚拟人的视觉交互方法，所述虚拟人通过智能设备展示，在处于交互状态时启动语音、情感、视觉以及感知能力，所述方法包含以下步骤：

通过所述虚拟人输出多模态数据；

接收用户针对所述多模态数据提供的多模态交互数据；

解析所述多模态交互数据，其中：通过视觉能力检测并提取所述多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图；

通过所述虚拟人按照所述交互意图进行多模态交互输出。

根据本发明的一个实施例，在判断周期内，如果所提取的用户的手部动作与预先保存的握拳信息相似度大于第一阈值，则识别所述手部动作作为手部握拳动作。

根据本发明的一个实施例，当同时出现的与手部配合的肢体动作还包括所述用户一个手臂或两个手臂位于身体上半部，并立于胸前时，则判断所述多模态交互数据中的手部握拳动作为用户当前的交互意图。

根据本发明的一个实施例，基于所述虚拟人已经输出的多模态数据将所述交互意图识别为鼓励意图，其中，所述鼓励意图表示用户对所述虚拟人输出的多模态数据的认可并鼓励。

根据本发明的一个实施例，所述虚拟人接收来自多个用户的针对所述多模态数据提供的多模态交互数据，识别出所述多个用户中的主要用户，并对所述主要用户的手部握拳动作以及与手部配合的肢体动作进行检测；

或，

采集当前全部或部分用户的手部握拳动作以及与手部配合的肢体动作，按照预设的用户采集比例确定被采集用户的交互意图。

根据本发明的一个实施例，当所述多模态交互数据中包含语音数据或表情数据时，依据所述手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图，以上步骤还包含：

检测并提取所述多模态交互数据中的语音数据或表情数据；

解析所述语音数据或所述表情数据，判断所述语音数据或所述表情数据与所述手部握拳动作以及与手部配合的肢体动作的意图是否符合；

若符合，则根据解析的结果结合所述手部握拳动作、同时出现的与手部配合的肢体动作以及交互上下文环境作为交互意图；

若不符合，则依据所述手部握拳动作和同时出现的与手部配合的肢体动作，并与交互上下文环境进行结合以识别出交互意图。

根据本发明的一个实施例，通过所述虚拟人按照所述交互意图进行多模态交互输出，包括：通过所述虚拟人按照所述手部握拳动作对应的交互意图输出并展示多模态交互输出，所述多模态交互输出包括：鼓励意图对应的结果数据。

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种虚拟人，所述虚拟人具备特定的虚拟形象和预设属性，采用如上任一项所述的方法进行多模态的交互。

根据本发明的另一个方面，还提供了一种基于虚拟人的视觉交互系统，所述系统包含：

智能设备，其上装载有如上所述的虚拟人，用于获取多模态交互数据，并具备语言、情感、表情和动作输出的能力；

云端大脑，其用于对所述多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算，以决策所述虚拟人输出多模态交互数据。

本发明提供的基于虚拟人的视觉交互方法及系统提供了一种虚拟人，虚拟人具备预设形象和预设属性，能够与用户进行多模态的交互。并且，本发明提供的虚拟人的视觉交互方法及系统还能够通过手部的握拳动作以及与手部配合的肢体动作判断用户的意图，与用户展开交互，使得用户与虚拟人之间能够进行流畅的交流，并使得用户享受拟人的交互体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统的结构框图；

图2显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统的结构框图；

图3显示了根据本发明的另一个实施例的基于虚拟人的视觉交互系统的模块框图；

图4显示了根据本发明的另一个实施例的基于虚拟人的视觉交互系统的结构框图；

图5显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统进行视觉交互的示意图；

图6显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的流程图；

图7显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图；

图8显示了根据本发明的另一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图；

图9显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的另一流程图；以及

图10显示了根据本发明的一个实施例的在用户、智能设备以及云端大脑三方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的虚拟人搭载于支持感知、控制等输入输出模块的智能设备；以高仿真3d虚拟人物形象为主要用户界面，具备显著人物特征的外观；支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验的虚拟人物。

虚拟人所搭载的智能设备为：具备非触摸、非鼠标键盘输入的屏幕(全息、电视屏、多媒体显示屏、LED屏等)，并携带有摄像头的智能设备，同时，可以是全息设备、VR设备、PC机。但并不排除其他智能设备，如：手持平板、裸眼3D设备、甚至智能手机等。

虚拟人在系统层面与用户进行交互，所述系统硬件中运行操作系统，如全息设备内置系统，如PC则为windows或MAC OS。

虚拟人为系统应用程序，或者可执行文件。

虚拟机器人基于所述智能设备的硬件获取用户多模态交互数据，在云端大脑的能力支持下，对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策输出的过程。

所提到的云端大脑为提供所述虚拟人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策所述虚拟人的输出多模态交互数据。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统的结构框图。如图1所示，进行多模态交互需要用户101、智能设备102、虚拟人103以及云端大脑104。其中，与虚拟人交互的用户101可以为真实人、另一个虚拟人以及实体的虚拟人，另一虚拟人以及实体虚拟人与虚拟人的交互过程与单个的人与虚拟人的交互过程类似。因此，在图1中仅展示的是用户(人)与虚拟人的多模态交互过程。

另外，智能设备102包括显示区域1021以及硬件支持设备1022(实质为核心处理器)。显示区域1021用于显示虚拟人103的形象，硬件支持设备1022与云端大脑104配合使用，用于交互过程中的数据处理。虚拟人103需要屏显载体来呈现。因此，显示区域1021包括：全息屏、电视屏、多媒体显示屏以及LED屏等。

图1中虚拟人与用户101之间交互的过程为：

交互所需的前期准备或是条件有，虚拟人搭载并运行在智能设备102上，并且虚拟人具备特定的形象特征。虚拟人具备自然语言理解、视觉感知、触摸感知、语言输出、情感表情动作输出等AI能力。为了配合虚拟人的触摸感知功能，智能设备上也需要安装有具备触摸感知功能的部件。根据本发明的一个实施例，为了提升交互的体验，虚拟人在被启动后就显示在预设区域内。

在此需要说明的是，虚拟人103的形象以及装扮不限于一种模式。虚拟人103可以具备不同的形象以及装扮。虚拟人103的形象一般为3D高模动画形象。虚拟人103可以具备不同的外貌以及装饰。每种虚拟人103的形象还会对应多种不同的装扮，装扮的分类可以依据季节分类，也可以依据场合分类。这些形象以及装扮可以存在于云端大脑104中，也可以存在于智能设备102中，在需要调用这些形象以及装扮时可以随时调用。

虚拟人103的社会属性、人格属性以及人物技能也不限于一种或是一类。虚拟人103可以具备多种社会属性、多种人格属性以及多种人物技能。这些社会属性、人格属性以及人物技能可以分别搭配，并不固定于一种搭配方式，用户可以根据需要进行选择与搭配。

具体来说，社会属性可以包括：外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性；人格属性可以包括：性格、气质等属性；人物技能可以包括：唱歌、跳舞、讲故事、培训等专业技能，并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中，虚拟人的社会属性、人格属性和人物技能等可以使得多模态交互的解析和决策结果更倾向或更为适合该虚拟人。

以下为多模态交互过程，首先，通过虚拟人输出多模态数据。在虚拟人103与用户101交流时，虚拟人103首先输出多模态数据，以等待用户101对于多模态数据的回应。在实际运用当中，虚拟人103可能播放一段话、一段音乐或一段视频。

接着，接收用户针对多模态数据提供的多模态交互数据。多模态交互数据可以包含文本、语音、视觉以及感知信息等多种模态的信息。获取多模态交互数据的接收装置均安装或是配置于智能设备102上，这些接收装置包含接收文本的文本接收装置，接收语音的语音接收装置，接收视觉的摄像头以及接收感知信息的红外线设备等。

然后，解析多模态交互数据，其中：通过视觉能力检测并提取多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图。在判断周期内，如果所提取的用户的手部动作与预先保存的握拳信息相似度大于第一阈值，则识别手部握拳动作作为手部握拳动作，所述握拳信息可以是手部握拳预存的图像信息，所述图像信息指示握拳对应的鼓励或许可的意图。

最后，通过虚拟人按照交互意图进行多模态交互输出。

另外，虚拟人103还可以接收来自多个用户的针对多模态数据提供的多模态交互数据，识别出多个用户中的主要用户，并对主要用户的手部握拳动作以及与手部配合的肢体动作进行检测。或者，采集当前全部或部分用户的手部握拳动作以及与手部配合的肢体动作，按照预设的用户采集比例确定被采集用户的交互意图。

根据本发明的另一个实施例，一种虚拟人，虚拟人具备特定的虚拟形象和预设属性，采用基于虚拟人的视觉交互方法进行多模态的交互。

图2显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统的结构框图。如图2所示，通过系统完成多模态交互需要：用户101、智能设备102以及云端大脑104。其中，智能设备102包含接收装置102A、处理装置102B、输出装置102C以及连接装置102D。云端大脑104包含通信装置104A。

在本发明提供的基于虚拟人的视觉交互系统需要在用户101、智能设备102以及云端大脑104之间建立通畅的通信通道，以便能够完成用户101与虚拟人的交互。为了完成交互的任务，智能设备102以及云端大脑104会设置有支持完成交互的装置以及部件。与虚拟人交互的对象可以为一方，也可以为多方。

智能设备102包含接收装置102A、处理装置102B、输出装置102C以及连接装置102D。其中，接收装置102A用于接收多模态交互数据。接收装置102A的例子包括用于语音操作的麦克风、扫描仪、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。智能设备102可以通过以上提到的输入设备来获取多模态交互数据。输出装置102C用于输出虚拟人与用户101交互的多模态输出数据，与接收装置102A的配置基本相当，在此不再赘述。

处理装置102B用于处理交互过程中由云端大脑104传送的交互数据。连接装置102D用于与云端大脑104之间的联系，处理装置102B处理接收装置102A预处理的多模态交互数据或由云端大脑104传送的数据。连接装置102D发送调用指令来调用云端大脑104上的机器人能力。

云端大脑104包含的通信装置104A用于完成与智能设备102之间的通信联系。通信装置104A与智能设备102上的连接装置102D之间保持通讯联系，接收智能设备102发来的请求，并发送云端大脑104发出的处理结果，是智能设备102以及云端大脑104之间沟通的介质。

图3显示了根据本发明的另一个实施例的基于虚拟人的视觉交互系统的模块框图。如图3所示，系统包含交互模块301、接收模块302、解析模块303以及决策模块304。其中，接收模块302包含文本采集单元3021、音频采集单元3022、视觉采集单元3023以及感知采集单元3024。

交互模块301用于通过虚拟人输出多模态数据。虚拟人103通过智能设备102展示，在处于交互状态时启动语音、情感、视觉以及感知能力。在一轮交互中，虚拟人103首先输出多模态数据，以等待用户101对于多模态数据的回应。根据本发明的一个实施例，交互模块301包含输出单元3011。输出单元3011能够输出多模态数据。

接收模块302用于接收多模态交互数据。其中，文本采集单元3021用来采集文本信息。音频采集单元3022用来采集音频信息。视觉采集单元3023用来采集视觉信息。感知采集单元3024用来采集感知信息。接收模块302的例子包括用于语音操作的麦克风、扫描仪、摄像头、感控设备，如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态交互数据。多模态交互可以包含文本、音频、视觉以及感知数据中的一种，也可以包含多种，本发明不对此作出限制。

解析模块303用于解析多模态交互数据，其中：通过视觉能力检测并提取多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图。其中，解析模块303包含检测单元3031以及提取单元3032。检测单元3031用于通过视觉能力检测多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作。

如果检测单元3031检测到多模态交互数据中存在手部握拳动作以及同时出现的与手部配合的肢体动作，则提取单元3032提取手部握拳动作以及同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图。根据本发明的一个实施例，用户的手部握拳动作包含手部握拳动作。判断手部握拳动作是否为手部握拳动作的过程可以是：在判断周期内，如果所提取的用户的手部动作与预先保存的握拳图片相似度大于第一阈值，则识别手部握拳动作为手部握拳动作。

另外，当同时出现的与手部配合的肢体动作还包括用户一个手臂或两个手臂位于身体上半部，并立于胸前时，则判断多模态交互数据中的手部握拳动作为用户当前的交互意图。

在本发明中，交互意图包含鼓励意图，将交互意图判断为鼓励意图的过程可以是：基于虚拟人已经输出的多模态数据将交互意图识别为鼓励意图，其中，鼓励意图表示用户对虚拟人输出的多模态数据的认可并鼓励。

决策模块304用于通过虚拟人按照交互意图进行多模态交互输出。通过解析模块303确定交互意图后，决策模块304会输出符合交互意图的多模态交互输出。决策模块304包含输出数据单元3041，其能够根据交互意图确定需要输出的多模态交互输出，并通过虚拟人将多模态交互输出展示给用户101。

图4显示了根据本发明的另一个实施例的基于虚拟人的视觉交互系统的结构框图。如图4所示，完成交互需要用户101、智能设备102以及云端大脑104。其中，智能设备102包含人机界面401、数据处理单元402、输入输出装置403以及接口单元404。云端大脑104包含语义理解接口1041、视觉识别接口1042、认知计算接口1043以及情感计算接口1044。

本发明提供的基于虚拟人的视觉交互系统包含智能设备102以及云端大脑104。虚拟人103在智能设备102中运行，且虚拟人103具备预设形象和预设属性，在处于交互状态时可以启动语音、情感、视觉和感知能力。

在一个实施例中，智能设备102可以包括：人机界面401、数据处理单元402、输入输出装置403以及接口单元404。其中，人机界面401在智能设备102的预设区域内显示处于运行状态的虚拟人103。

数据处理单元402用于处理用户101与虚拟人103进行多模态交互过程中产生的数据。所用的处理器可以为数据处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

智能设备102中包含存储器，存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能设备102的使用所创建的数据(比如音频数据、浏览记录等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入输出装置403用于获取多模态交互数据以及输出交互过程中的输出数据。接口单元404用于与云端大脑104展开通信，通过与云端大脑104中的接口对接来调取云端大脑104中的虚拟人能力。

云端大脑104包含语义理解接口1041、视觉识别接口1042、认知计算接口1043以及情感计算接口1044。以上这些接口与智能设备102中的接口单元404展开通信。并且，云端大脑104还包含与语义理解接口1041对应的语义理解逻辑、与视觉识别接口1042对应的视觉识别逻辑、与认知计算接口1043对应的认知计算逻辑以及与情感计算接口1044对应的情感计算逻辑。

如图4所示，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明：

语义理解接口1041，其接收从接口单元404转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口1042，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能；

其中，图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

认知计算接口1043，其接收从接口单元404转发的多模态数据，认知计算接口1043用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

情感计算接口1044，其接收从接口单元404转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

情感计算接口1044是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

图5显示了根据本发明的一个实施例的基于虚拟人的视觉交互系统进行视觉交互的示意图。如图5所示，解析多模态交互数据，其中：通过视觉能力检测并提取多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图。智能设备102上配置能够进行视觉能力检测的硬件设备，用来监测用户的手部握拳动作以及与手部配合的肢体动作。

在本发明的一个实施例中，交互意图包含鼓励意图。鼓励意图表示用户对虚拟人输出的多模态数据的认可并鼓励。当用户的手部握拳动作为握拳动作，同时与手部配合的肢体动作包含用户一个手臂或两个手臂位于身体上半部，并立于胸前时，可以判断多模态交互数据中的手部握拳动作作为当前的交互意图。再基于虚拟人已经输出的多模态数据就可以将当前的交互意图识别为鼓励意图。

在确定了用户的交互意图后，就可以通过虚拟人按照交互意图进行多模态交互输出，包括：通过虚拟人按照手部握拳动作对应的交互意图输出并展示多模态交互输出，多模态交互输出包括：鼓励意图对应的结果数据。

根据本发明的一个实施例，在实际应用中，虚拟人可以与用户展开对话交互，如下：

虚拟人：您好，很高兴为您服务，请问有什么可以帮您的呢？

用户：有的，我想放松一下，想听歌。

虚拟人：您想听什么歌？

用户：歌名我不记得了，只记得一小段旋律以及歌词，你能帮我找到吗？

虚拟人：我试试，请您哼唱您记得的那一段歌曲吧。

用户：好的，好像是这样唱的“all the wishes…，upon the…”，后边记不清了，你能帮我查到这首歌吗？

虚拟人：根据搜索，应当是“I remember”？。

用户：太棒了，是这首(同时配合握拳动作+与手部配合的肢体动作)！谢谢。

虚拟人：谢谢您的认可。

在上述多模态交互中，用户想要虚拟人帮助查找一首歌，虚拟人模糊搜索成功，此时，用户的握拳以及与手部配合的肢体动作表示对可以被识别为鼓励意图，表示对虚拟人的认可并鼓励。虚拟人最后的输出“谢谢您的认可”可以被识别为针对用户鼓励意图对应的结果数据。

图6显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的流程图。

如图6所示，在步骤S601中，通过虚拟人输出多模态数据。在本步骤中，智能设备102中的虚拟人103向用户101输出多模态数据，以期在一轮交互中与用户101展开对话或其他交互。虚拟人103输出的多模态数据可以是一段话、一段音乐或一段视频。

在步骤S602中，接收用户针对多模态数据提供的多模态交互数据。在本步骤中，智能设备102会获取多模态交互数据，智能设备102会配置有获取多模态交互数据的相应装置。多模态交互数据可以是文本输入、音频输入以及感知输入等形式的输入。

在步骤S603中，解析多模态交互数据，其中：通过视觉能力检测并提取多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图。多模态交互数据中可能会包含手部握拳动作，也可能不包含手部握拳动作，为了确定交互意图，需要检测多模态交互数据中是否包含手部握拳动作以及同时出现的与手部配合的肢体动作。

在本发明的一个实施例中，交互意图包含鼓励意图。鼓励意图表示用户对虚拟人输出的多模态数据的认可并鼓励。

最后，在步骤S604中，通过虚拟人按照交互意图进行多模态交互输出。确定了交互意图后，虚拟人103就可以根据确认的交互意图输出相应的多模态交互输出。

此外，本发明提供的基于虚拟人的视觉交互系统还可以配合一种程序产品，其包含用于执行完成虚拟人的视觉交互方法步骤的一系列指令。程序产品能够运行计算机指令，计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，程序产品不包括电载波信号和电信信号。

图7显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图。

在步骤S701中，解析多模态交互数据，其中：通过视觉能力检测并提取多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作。在本步骤中，判断用户的交互意愿需要通过用户的手势语言以及肢体语言联合判断，因此需要通过视觉能力检测用户的动作，采集的部位包含手部以及与手部配合的肢体动作。

接着，在步骤S702中，在判断周期内，如果所提取的用户的手部动作与预先保存的握拳信息相似度大于第一阈值，则识别手部握拳动作作为手部握拳动作。在本发明的一个实施例中，需要检测用户的手部握拳动作是否为握拳动作。检测的方式可以是：提取用户当前的手部握拳动作图像，与握拳动作数据库中存储的握拳信息进行相似度判断匹配。通过比对图像中的关键点来识别用户的手部握拳动作是否为握拳动作，当相似度大于第一阈值时，判断用户的手部握拳动作为握拳动作。第一阈值的实际数值可以是90％，也可以是其他数值，第一阈值的数值可以根据实际情况进行调整，本发明不对此作出限制。

需要说明的是，握拳动作可以包含任一只手或两只手的所有手指自然蜷缩握紧。大拇指可以在掌心内，也可以在掌心外。握拳动作的空间位置不限，拳头朝向不限。

然后，在步骤S703中，当同时出现的与手部配合的肢体动作还包括预设姿态时，则判断多模态交互数据中的手部握拳动作作为用户当前的交互意图。根据本发明的一个实施例，预设姿势可以为用户一个手臂或两个手臂位于身体上半部，并立于胸前。

接着，在步骤S704中，基于虚拟人已经输出的多模态数据将交互意图识别为鼓励意图。最后，在步骤S705中，通过虚拟人按照交互意图进行多模态交互输出。

图8显示了根据本发明的另一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图。

在步骤S801中，检测并提取多模态交互数据中的语音数据或表情数据。在多模态交互数据中包含多种形式的数据，这些数据都可能包含用户101当前的交互意愿。在本步骤中，检测多模态交互数据中是否包含语音数据或是表情数据，以为确定交互意图做出参考。

接着，在步骤S802中，解析语音数据或表情数据。如果多模态交互数据中包含语音数据或是表情数据，在本步骤中，解析语音数据或表情数据，获知语音数据或表情数据中用户的交互意愿，得到解析结果。

然后，在步骤S803中，判断语音数据或表情数据与手部握拳动作的以及与手部配合的肢体动作意图是否符合。如果语音数据或表情数据与手部握拳动作以及与手部配合的肢体动作的意图符合，则进入步骤S804，根据解析的结果结合手部握拳动作、同时出现的与手部配合的肢体动作以及交互上下文环境作为交互意图。如果语音数据或表情数据与手部握拳动作以及与手部配合的肢体动作的意图不符合，则进入步骤S805，依据手部握拳动作和同时出现的与手部配合的肢体动作，并与交互上下文环境进行结合以识别出交互意图。

图9显示了根据本发明的一个实施例的基于虚拟人的视觉交互方法的另一流程图。

如图9所示，在步骤S901中，智能设备102向云端大脑104发出请求。之后，在步骤S902中，智能设备102一直处于等待云端大脑104回复的状态。在等待的过程中，智能设备102会对返回数据所花费的时间进行计时操作。

在步骤S903中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则智能设备102会选择进行本地回复，生成本地常用应答数据。然后，在步骤S904中，输出与本地常用应答配合的动画，并调用语音播放设备进行语音播放。

为了实现智能设备102与用户101之间的多模态交互，需要用户101、智能设备102以及云端大脑104之间建立起通信连接。这种通信连接应该是实时的、通畅的，能够保证交互不受影响的。

为了完成交互，需要具备一些条件或是前提。这些条件或是前提包含，智能设备102中装载并运行虚拟人，并且智能设备102具备感知以及控制功能的硬件设施。虚拟人在处于交互状态时启动语音、情感、视觉以及感知能力。

完成前期准备后，智能设备102开始与用户101展开交互，首先，智能设备102通过虚拟人103输出多模态数据。多模态数据可以是在一轮交互中，虚拟人输出的一段话、一段音乐或视频。此时，展开通信的两方是智能设备102与用户101，数据传递的方向是从智能设备102传向用户101。

然后，智能设备102接收多模态交互数据。多模态交互数据是用户针对多模态数据提供的回应。多模态交互数据中可以包含多种形式的数据，例如，多模态交互数据中可以包含文本数据、语音数据、感知数据以及动作数据等。智能设备102中配置有接收多模态交互数据的相应设备，用来接收用户101发送的多模态交互数据。此时，展开数据传递的两方是用户101与智能设备102，数据传递的方向是从用户101传向智能设备102。

接着，智能设备102向云端大脑104发送请求。请求云端大脑104对多模态交互数据进行语义理解、视觉识别、认知计算以及情感计算，以帮助用户进行决策。此时，通过视觉能力检测并提取多模态交互数据中的手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图。然后，云端大脑104将回复数据传送至智能设备102。此时，展开通信的两方是智能设备102以及云端大脑104。

最后，当智能设备102接收到云端大脑104传输的数据后，智能设备102会通过虚拟人按照交互意图进行多模态交互输出。此时，展开通信的两方为智能设备102与用户101。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于虚拟人的视觉交互方法，其特征在于，所述虚拟人通过智能设备展示，在处于交互状态时启动语音、情感、视觉以及感知能力，所述方法包含以下步骤：

通过所述虚拟人输出多模态数据；

接收用户针对所述多模态数据提供的多模态交互数据；

通过所述虚拟人按照所述交互意图进行多模态交互输出。

2.如权利要求1所述的基于虚拟人的视觉交互方法，其特征在于，在判断周期内，如果所提取的用户的手部动作与预先保存的握拳信息相似度大于第一阈值，则识别所述手部动作作为手部握拳动作。

3.如权利要求2所述的基于虚拟人的视觉交互方法，其特征在于，当同时出现的与手部配合的肢体动作还包括所述用户一个手臂或两个手臂位于身体上半部，并立于胸前时，则判断所述多模态交互数据中的手部握拳动作为用户当前的交互意图。

4.如权利要求2或3所述的基于虚拟人的视觉交互方法，其特征在于，

基于所述虚拟人已经输出的多模态数据将所述交互意图识别为鼓励意图，其中，所述鼓励意图表示用户对所述虚拟人输出的多模态数据的认可并鼓励。

5.如权利要求1-4中任一项所述的基于虚拟人的视觉交互方法，其特征在于，所述虚拟人接收来自多个用户的针对所述多模态数据提供的多模态交互数据，识别出所述多个用户中的主要用户，并对所述主要用户的手部握拳动作以及与手部配合的肢体动作进行检测；

或，

6.如权利要求1-4中任一项所述的基于虚拟人的视觉交互方法，其特征在于，当所述多模态交互数据中包含语音数据或表情数据时，依据所述手部握拳动作和同时出现的与手部配合的肢体动作，并将其与交互上下文环境进行结合以识别出交互意图，以上步骤还包含：

检测并提取所述多模态交互数据中的语音数据或表情数据；

7.如权利要求4-6中任一项所述的基于虚拟人的视觉交互方法，其特征在于，通过所述虚拟人按照所述交互意图进行多模态交互输出，包括：通过所述虚拟人按照所述手部握拳动作对应的交互意图输出并展示多模态交互输出，所述多模态交互输出包括：鼓励意图对应的结果数据。

8.一种程序产品，其包含用于执行如权利要求1-7中任一项所述的方法步骤的一系列指令。

9.一种虚拟人，其特征在于，所述虚拟人具备特定的虚拟形象和预设属性，采用如权利要求1-7中任一项所述的方法进行多模态的交互。

10.一种基于虚拟人的视觉交互系统，其特征在于，所述系统包含：

智能设备，其上装载有如权利要求9所述的虚拟人，用于获取多模态交互数据，并语音、情感、表情和动作输出的能力；