CN107817799A

CN107817799A - 结合虚拟迷宫进行智能交互的方法及系统

Info

Publication number: CN107817799A
Application number: CN201711071018.0A
Authority: CN
Inventors: 王恺; 赖昱竹
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2018-03-20
Anticipated expiration: 2037-11-03
Also published as: CN107817799B

Abstract

本发明公开了一种结合虚拟迷宫进行智能交互的方法及系统，所述虚拟迷宫配置有虚拟机器人，搭载虚拟迷宫及虚拟机器人的硬件设备具备人机交互功能的数据输入输出模块，该方法包括如下步骤：开启虚拟迷宫场景，启动虚拟机器人；在该场景中，获取并解析用户与虚拟机器人的对话交互信息，以确定通过虚拟迷宫中各个房间的设定任务；解析当前用户与所述虚拟机器人设定轮次对话中的多模态交互信息，与当前房间的设定任务对应的交互信息进行匹配，若匹配成功，则判定通过当前房间并进入下一房间或结束操作。本发明实施例提出了一种新型交互模式，能够提高儿童用户的兴趣，改善了用户体验。

Description

结合虚拟迷宫进行智能交互的方法及系统

技术领域

本发明涉及智能交互领域，尤其涉及一种结合虚拟迷宫进行智能交互的方法及系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。人机交互领域主要涉及一般服务行业，目前针对儿童用户的人机交互模式还有待完善，因此，提出一种新的交互模式，改善儿童用户的用户体验是现在亟需解决的重要问题。

发明内容

本发明所要解决的技术问题之一是需要提供一种能够提高儿童用户的兴趣，满足用户需求的新型人机交互模式。

为了解决上述技术问题，本申请的实施例首先提供了一种结合虚拟迷宫进行智能交互的方法，所述虚拟迷宫配置有虚拟机器人，所述虚拟迷宫及虚拟机器人在智能设备上运行，该方法包括如下步骤：开启虚拟迷宫场景，启动虚拟机器人；确定通过虚拟迷宫中各个房间的设定任务，并通过所述虚拟机器人输出所述设定任务对应的多模态输出信息；在该场景中，获取用户与所述虚拟机器人的多模态交互信息；解析当前用户与所述虚拟机器人设定轮次对话中的多模态交互信息，与当前房间的设定任务对应的交互信息进行匹配，若匹配成功，则判定通过当前房间并进入下一房间或结束操作。

优选地，该方法还包括：获取用户人脸信息，识别用户当前情绪；根据用户当前情绪确定虚拟机器人需展现的情绪状态，基于所述情绪状态生成并输出对应的表情输出数据。

优选地，该方法还包括：所述虚拟机器人在根据表情输出数据展现表情状态的同时，还展示与表情状态匹配的动作。

优选地，在设定任务为寻找规定物体时，进一步包括：获取用户寻找到的实体物体的图像信息；对所述图像信息进行视觉识别，判断用户寻找到的实体物体与规定物体是否匹配，若匹配，则判定通过当前房间并进入下一房间或结束操作，并输出将该实体物体的虚拟影像映射到虚拟迷宫场景的多模态数据中。

优选地，该方法还包括：获取当前用户的人脸信息，并通过用户数据库识别该用户的身份；根据该用户的身份信息选择虚拟迷宫每个房间的主题布局、关卡和虚拟机器人角色，输出对应的多模态数据。

根据本发明实施例的另一方面，还提供了一种结合虚拟迷宫进行智能交互的系统，所述虚拟迷宫配置有虚拟机器人，所述虚拟迷宫及虚拟机器人在智能设备上运行，所述系统包括：智能设备，其开启虚拟迷宫场景，启动虚拟机器人；确定通过虚拟迷宫中各个房间的设定任务，通过所述虚拟机器人输出所述设定任务对应的多模态输出信息；在该场景中，获取用户与所述虚拟机器人的多模态交互信息；游戏服务器，其解析当前用户与所述虚拟机器人设定轮次对话中的多模态交互信息，与当前房间的设定任务对应的交互信息进行匹配，若匹配成功，则判定通过当前房间并进入下一房间或结束操作。

优选地，所述游戏服务器包括：情感计算单元，其获取用户人脸信息，识别用户当前情绪；决策单元，其根据用户当前情绪确定虚拟机器人需展现的情绪状态，基于所述情绪状态生成并输出对应的表情输出数据。

优选地，所述智能设备，在控制所述虚拟机器人根据表情输出数据展现表情状态的同时，还展示与表情状态匹配的动作。

优选地，所述游戏服务器还包括：视觉识别单元，其在设定任务为寻找规定物体时，获取用户寻找到的实体物体的图像信息，对所述图像信息进行视觉识别；所述决策单元，其进一步判断用户寻找到的实体物体与规定物体是否匹配，若匹配，则判定通过当前房间并进入下一房间或结束操作，并输出将该实体物体的虚拟影像映射到虚拟迷宫场景的多模态数据中。

优选地，所述视觉识别单元，其进一步获取当前用户的人脸信息，并通过用户数据库识别该用户的身份；所述决策单元，其进一步根据该用户的身份信息选择虚拟迷宫每个房间的主题布局、关卡和虚拟机器人角色，输出对应的多模态数据。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例提出了一种新的用户交互模式，即结合虚拟迷宫进行智能交互的方法，在该交互过程中：开启虚拟迷宫场景，启动虚拟机器人；在该场景中，获取并解析用户与所述虚拟机器人的对话交互信息，以确定通过虚拟迷宫中各个房间的设定任务，通过虚拟机器人输出与该设定任务对应的多模态输出信息；解析当前用户与所述虚拟机器人设定轮次对话中的多模态交互信息，与当前房间设定任务对应的交互信息进行匹配，若匹配成功，则判定通过当前房间并进入下一房间或结束操作。本发明实施例能够提高儿童用户的兴趣，满足用户需求，改善了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请实施例的结合虚拟迷宫进行智能交互的系统的结构框图。

图2为图1所示系统中的游戏服务器100的功能结构框图。

图3为图1所示系统中的智能设备200的功能结构框图。

图4为本申请实施例的结合虚拟迷宫进行智能交互的方法的流程示意图。

图5为本申请实施例的虚拟迷宫场景的布局设计示意图。

图6为本申请实施例的虚拟迷宫场景中某一房间的关卡设计示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

随着计算机技术的不断发展，用户对交互方式的要求不断提高，希望人机交互更为自然更为方便。目前，已经有各种各样的人机交互方式，例如最常用的接触式人机交互，还有以用户的声音、手势和面部表情等生理信息作为非接触式人机交互的输入等诸多人机交互模式。以儿童用户为例，当前为儿童用户设计的机器人一般为实体机器人中，例如早教型机器人、陪护型机器人，通过与儿童进行简单语音交互来帮助他们学习和娱乐。然而，这种实体机器人的功能多为固定不变的，其智能性和拟人性都较差，虽然能够达到一定用户需求，但仍然无法满足儿童用户的学习和娱乐要求。因此，本发明实施例提出了一种新型的交互方式，即通过虚拟机器人结合虚拟迷宫的方式进行智能交互的方法，可以使儿童用户在娱乐的过程中提高学习能力，改善用户体验度。

为了更好地理解本发明实施例，下面对涉及的虚拟机器人稍作说明。本例中的虚拟机器人搭载于支持感知、控制等输入输出模块的智能设备上，由于针对儿童用户，因此优选具备卡通人物形象，且该虚拟机器人支持多模态人机交互，具备自然语言理解、视觉感知、感知、语言语音输出、情感表情动作输出等AI能力，在与用户交互的过程中，能够使用户享受智能化及个性化流畅体验。

在本例中，虚拟机器人为系统的应用程序或者可执行文件。在系统层面与用户进行交互，所述系统硬件中运行操作系统，如全息设备内置系统，如果为PC机则系统为windows或Mac OS操作系统。在与用户交互的过程中，该虚拟机器人基于搭载的智能设备的硬件获取用户多模态交互数据，在游戏服务器端对多模态交互数据进行语义理解、视觉识别、情感计算。

同样的，本例涉及的虚拟迷宫也可以搭载在与虚拟机器人相同的硬件设备上，且在本例中以应用场景为面向儿童的商业场景，例如儿童游乐场，或者儿童游戏机等为例来说明整个交互模式的运行过程。

实施例

图1为本申请实施例的结合虚拟迷宫进行智能交互的系统的结构框图，该系统应用场景在本例中设定为儿童游乐园场景。虚拟机器人A可以通过其所搭载的智能设备，如儿童游戏机或广告机，以全息影像或显示界面显示的方式展示给儿童用户U，且该虚拟机器人A在与用户U进行多模态交互过程中，可以向用户输出语音信息、表情信息和动作信息等多模态交互信息。如图1所示，该系统主要包括游戏服务器100和与儿童进行多模态交互的智能设备200。智能设备200除了可以为儿童游戏机或广告机以外，在其他例子中还可以为传统的PC个人电脑、LapTop笔记本电脑等，也可以是能够随身携带且能通过无线局域网、移动通信网络等无线方式接入互联网的终端设备。本申请实施例中，无线终端包括但不限于手机、Netbook(上网本)等，无线终端一般具有多模态信息采集和数据传输等功能。

如图1所示，游戏服务器100内部包括控制单元110、通信单元120、主题布局数据库D1、虚拟角色数据库D2、关卡数据库D3、输入单元130和输出单元140。控制单元110例如由CPU(Central Processing Unit:中央运算处理装置)等构成，控制游戏服务器100的各部分，并通过执行预定的程序来实现后述的各处理。通信单元120例如具有调制解调器、路由器等通信装置，控制游戏服务器100和智能终端200之间的网络通信。网络可以选择专用线路网、公众线路网、无线通信网等。

主题布局数据库D1例如由硬盘装置等可改写的存储装置构成，将输入单元130传输的主题布局数据和版本信息(例如时间戳)存储起来。虚拟角色数据库D2例如由硬盘装置等可改写的存储装置构成，将输入单元130传输的虚拟角色数据和版本信息(例如时间戳)存储起来。关卡数据库D3例如由硬盘装置等可改写的存储装置构成，将输入单元130传输的关卡数据和版本信息(例如时间戳)存储起来。游戏服务器100的管理者通过操作输入单元130来更新各个数据库D1～D3的数据信息。输出单元140用于向外界输出数据信息。

主题布局数据包括针对虚拟迷宫的房间布局以及每个房间的主题，以图5为例，在探险类主题游戏中，设计了多个房间，通过对房间布局可以根据儿童闯关情况进入不同子主题的房间中，每个房间都有自己的子主题，例如魔境遇险、大战魔物、沙漠寻宝、丛林探秘、智斗猛虎、勇攀高峰、深海探险和BOSS决战。除了探险类主题之外，还可以包括动作类、角色扮演类、养成类、体育竞技类、飞行射击类、多人游戏类等。虚拟角色数据包括针对不同主题虚拟迷宫的角色和不同房间的虚拟角色的数据内容。虚拟角色可以包括卡通角色、历史人物角色和原创角色等，如图6所示，在该房间中的虚拟角色是名为“炸弹君”的原创角色，通过语音输出与儿童用户进行交互。关卡数据包括通过每一个关卡(主要是房间)需完成的设定任务，例如规定物体的查找、问题的解答、设定表情、语言或动作的完成等。如图6所示，炸弹君的焦虑值达到峰值就会自爆(警报灯闪烁)，小朋友需要和它交流，降低它的焦虑值。如果成功让炸弹君冷静下来，它会交给小朋友任务，找到道具(蓝色铲子)，在完成任务后，则打开其中的蓝色门；如果炸弹君爆炸，则开启另一支线任务，打开橙色门。

接下来参考图2来说明游戏服务器100内部的控制单元110各组成部分的功能。如图2所示，控制单元110包括语义理解单元111、视觉识别单元112、情感计算单元113和决策单元114。

语义理解单元111，其接收从通信单元120转发的语音信息，对当前用户与虚拟机器人设定轮次对话中的语音信息进行语音识别。在语音识别的过程中，先对语音信息进行预处理，然后进行特征提取和训练识别。预处理主要包括语音信号的预加重，分帧加窗和端点检测等工作。将待识别语音经过特征提取后的特征参数与参考模型库中的各个模式一一进行比较，将相似度最高的模式作为识别的结果输出，完成模式的匹配过程，获取语义信息。

视觉识别单元112，其接收从通信单元120转发的图像信息，对目标的特征进行提取，例如提取线段、区域或特征点等。最后根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能。图像预处理主要是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化。特征提取主要提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息。决策主要是对特征信息，按照一定的决策策略分发给需要该特征信息的具体应用。具体应用功能实现人脸检测、人物识别、运动检测等功能。

情感计算单元113，其接收从通信单元120转发的多模态数据，利用情感计算逻辑(主要是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容来可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

决策单元114，其主要功能是综合语义理解单元111、视觉识别单元112、情感计算单元113的解析结果，决策输出多模态数据或指令。

在任务匹配模式下，将解析结果与当前房间的设定任务对应的交互信息进行匹配，若匹配成功，则判定通过当前房间并进入下一房间或结束操作。在一个例子中，在设定任务为寻找规定物体时，视觉识别单元112获取用户寻找到的实体物体的图像信息，对所述图像信息进行视觉识别获取物体描述参数。决策单元114判断用户寻找到的实体物体与规定物体是否匹配，即判断物体描述参数与待寻找物体的描述参数是否具备一定相似度，若匹配，则判定通过当前房间并进入下一房间或结束操作，并输出将该实体物体的虚拟影像映射到虚拟迷宫场景的多模态数据中。如小朋友寻找指定的道具，放到智能设备200的摄像头前扫描，然后通过智能设备200发送到游戏服务器100的视觉识别单元112进行识别后，决策单元114确定该道具为指定道具，则发送通过当前房间并进入下一房间的指令以及将该道具的虚拟影像映射到虚拟迷宫场景的多模态数据。在智能设备200显示的虚拟迷宫场景中，迷宫主角会得到相应道具，进入下一房间，从而帮助推进剧情的发展。

另外，在本例中，虚拟迷宫里的虚拟角色具备自然语言的“闲聊”能力，例如可以和虚拟角色聊任何问题、开玩笑、问动画背景等。在进行该种交互时，语义理解单元111接收从通信单元120转发的语音信息进行语义识别，决策单元114根据识别结果从问答数据库中查找对应的回复内容，发送给智能设备200，控制虚拟机器人输出与回复内容匹配的语音。

而且，在虚拟机器人与用户进行对话的过程中，可以让虚拟角色与用户交流时声情并茂。也就是说，虚拟机器人可以在语音交流时，展现出表情状态。具体来说，情感计算单元113获取用户人脸信息，识别用户当前情绪。决策单元114根据用户当前情绪确定虚拟机器人需展现的情绪状态，基于所述情绪状态生成并输出对应的表情输出数据。例如，当用户当前情绪为高兴，则对应虚拟机器人需要展示的情绪状态也为“高兴”，决策单元114发送与该决策结果对应的表情输出数据给智能设备200，控制虚拟机器人在输出语音的同时展示与表情输出数据匹配的表情状态。

在其他例子中，为了使不同的儿童用户能够进行个性化游玩体验，还可以进一步根据用户身份来设计虚拟迷宫场景。以儿童乐园场景为例，视觉识别单元112获取当前站在儿童游戏机屏幕前的用户的人脸信息，并通过儿童乐园的用户数据库识别该用户的身份。具体地，先从场景中检测出人脸的存在并确定其位置。然后，在检测到人脸后，进行人脸识别，即将已检测到的待识别的人脸与数据库中已知人脸进行比较匹配，得到相关信息。人脸识别可以采取提取人脸几何特征的方法和模板匹配的方法，本例中优先采取模板匹配的方法。

决策单元114根据确定的用户身份，从存储用户个性化数据库中获取预先存储的该用户的个性化数据记录。其中涉及到的用户的个性化数据包括：性格特征以及属性信息。用户的性格特征，包括例如开朗、腼腆、温柔等。用户的属性信息，包括例如姓名、性别、年龄、昵称、喜好等。例如，在通过人脸识别检测出用户是“麦克”时，则可以获取有关“麦克”的如下个性化数据：性格开朗、性别男、年龄8岁、喜欢变形金刚等信息。

决策单元114根据该用户的身份信息选择虚拟迷宫每个房间的主题布局、关卡和虚拟机器人角色，输出对应的多模态数据。例如，针对上面提到的用户“麦克”，可以选择探险类的虚拟迷宫场景，而虚拟机器人角色可以选择变形金刚，则向智能设备200发送有关该类型虚拟迷宫场景的主题布局、关卡和虚拟机器人角色等多模态数据，增强用户体验。

接下来说明智能设备200的功能。图3为图1所示系统中的智能设备200的功能结构框图。如图3所示，智能设备200主要包括：人机交互输入输出模块(图中的多模态输入模块21和多模态输出模块25)、数据处理模块22、通信模块23、虚拟迷宫控制模块24和执行参数数据库D4。

多模态输入模块21，其获取用户与虚拟机器人交互的多模态交互信息。本例涉及的多模态交互信息主要包括语音和图像，因此多模态输入模块21主要包括语音输入单元211和图像输入单元212。语音输入单元211主要包括麦克风、A/D转换器等设备。在用户发出语音信息后，语音输入单元211经由麦克风采集该模拟语音信号，利用A/D转换器将将模拟语音信号转换成系统能够处理的语音信号，然后将数字语音信号输入至数据处理模块22的语音处理单元221中进行语音信息的预处理，包括滤波、放大等。图像输入单元212主要包括图像传感器和数据转换装置等设备。图像传感器可以为CCD摄像器件或CMOS摄像器件，主要对用户当前的面部图像、姿态图像进行采集。图像输入单元212将转换后的数字图像数据发送至数据处理模块22的图像处理单元222进行图像预处理。在对原始图像进行预处理时，一般需要执行滤波去噪、灰度修正、图像增强和几何变换等。而图像分割一般包括边缘检测、二值化、细化和边缘连接等。除了上面提到的多模态输入单元以外，还可以包括其他模态的单元，例如触觉采集系统、键盘、鼠标等设备。相应地，数据处理模块22包括语音处理单元221和图像处理单元222，主要是对采集到的数字语音数据和数字图像数据进行预处理，然后将预处理后的数据传输给通信模块23。

通信模块23，其发送经预处理后的数据并接收来自游戏服务器100决策出的多模态输出数据。

多模态输出模块25包括语音输出单元251和图像输出单元252，接收虚拟迷宫控制模块24发送的执行参数或通信模块23转发的多模态数据，并将这些数据展示出来。例如，图像输出单元252的代表例为用户界面，也称人机界面或使用者界面，是系统和用户之间进行交互和信息交换的媒介，主要借助于显示设备来展现虚拟迷宫场景和虚拟机器人的状态。在该用户界面的预设显示区域内，例如中心位置，显示启动后的虚拟迷宫场景和虚拟机器人影像(主要是虚拟人3D外貌)以及虚拟机器人多模态操作的执行参数(表情、动作等)。语音输出单元251输出通信模块23转发的语音数据，其包括D/A转换器、AF放大器和扬声器。通过D/A转换器将数字语音数据转换成模拟语音信号，AF放大器放大模拟语音信号，扬声器根据模拟语音信号进行震动，再现模拟语音数据所表示的语音。

虚拟迷宫控制模块24，其开启虚拟迷宫场景，启动虚拟机器人；确定通过虚拟迷宫中各个房间的设定任务，并通过虚拟机器人输出所述设定任务对应的多模态输出信息。

具体来说，在虚拟迷宫开启时，接收来自通信模块23发送的主题布局数据、关卡数据和角色数据进行处理并转发给多模态输出模块25来展示虚拟迷宫场景。根据这些数据能够确定各个房间的设定任务，在控制虚拟机器人与用户进行交互时，将设定任务性信息转换成对应的多模态输出信息(主要是语音信息)，发送给用户。例如在查找指定物体的任务时，通过虚拟机器人输出“请找到xx物体”的语音信息；在需要用户回答问题时，则通过虚拟机器人发出问题语音。除了采用语音信息以外，还可以以文本的方式来告知用户设定任务，例如文本内容“请成功让炸弹君冷静下来”。

另外，虚拟迷宫控制模块24还接收来自通信模块23发送的针对虚拟机器人的多模态数据(如表情输出数据)，控制虚拟机器人根据表情输出数据来展示表情状态或同时展示表情状态以及与表情状态匹配的动作。

在执行参数数据库D4的内部预先存储了面部表情和肢体动作的执行参数。以面部表情为例，针对不同的表情状态关联存储了表情执行参数。本例中的表情状态主要包括高兴、生气、沮丧等，根据面部解剖学理论、面部编码系统等技术，得出这几种表情的面部运动相对于中性状态时的各个运动区域的相对运动参数，中性状态下的运动即不具情感意义的运动，即不做出任何运动、自然状态下的面孔，根据检测结果及事先选择好的一个中性标准网格模型进行空间网格变形模型以使其变形为虚拟机器人的几何模型，对这些几何模型进行存储。对于肢体动作，也是针对不同的表情状态关联存储了肢体动作执行参数。肢体动作的参数包括针对躯干的位置和方位参数(如旋转参数)、左右上肢和左右下肢的关节参数等。容易理解，在该数据库D4中还可以存储嘴型动作的执行参数和头部动作的执行参数，本例不做限定。

在虚拟迷宫控制模块24在接收到虚拟机器人的表情输出数据时，解析表情输出数据获取表情状态，然后调用最接近的模型的参数发送给多模态输出模块25就能较好地展示出需要的表情状态。在其他的例子中，在虚拟迷宫控制模块24在接收到虚拟机器人的表情输出数据时，除了调用表情执行参数还调用动作执行参数发送给多模态输出模块25，多模态输出模块25接收这些执行参数后，根据已定义的命令库查询动作指令后，会解析出各个重点关节的旋转角度之类的信息，并根据这些信息驱动相应的关节进行动作，从而完成虚拟机器人的肢体动作。在用户与虚拟机器人的交互过程中，增加面部表情和肢体动作，能够进一步增加对话的生动性和有趣性，提高用户体验。

另外，虚拟迷宫控制模块24在接收到主题布局数据、关卡数据和角色数据后，通过简单处理，将这些数据按照一定时序输出给多模态输出模块25来展示。例如，虚拟迷宫控制模块24在接收到游戏服务器100发来的指令信息，例如任务完成进入下一房间或结束操作的指令时，则调取相应的主题布局数据中的下一房间数据、关卡数据和角色数据，发送给多模态输出模块25来展示，然用户进行下一关卡的闯关操作。

接下来，参照附图4对本发明实施例的系统的多模态交互流程进行说明。

在智能设备200端，虚拟迷宫控制模块24开启虚拟迷宫场景，启动虚拟机器人，确定通过虚拟迷宫中各个房间的设定任务，并通过所述虚拟机器人输出所述设定任务对应的多模态输出信息。在该场景中，多模态输入模块21获取用户与所述虚拟机器人的多模态交互信息，经数据处理模块22的预处理后通过通信模块23发送给游戏服务器100。在游戏服务器100端，通信单元120将接收的多模态数据转发给控制单元110，控制单元110中的语义理解单元111、视觉识别单元112和情感计算单元113解析当前用户与所述虚拟机器人设定轮次对话中的多模态交互信息。决策单元140先将解析结果与当前房间的设定任务对应的交互信息进行匹配，若匹配成功，则判定通过当前房间并进入下一房间或结束操作，并发送相应的指令给智能设备200。否则，决策单元140基于解析结果决策输出多模态数据并输出，例如针对聊天情景的问答语音输出、表情数据输出以及个性化调用虚拟迷宫相关数据库D1～D3的数据输出等。智能设备200获取这些指令或多模态数据，经数据处理后通过多模态输出模块25输出展示给用户。

本发明实施例提出了一种新的用户交互模式，即结合虚拟迷宫进行智能交互的方法，在该交互过程中，虚拟迷宫场景的虚拟机器人与儿童用户进行多模态交互，并指引儿童用户完成游戏任务，丰富了儿童的知识，能够使儿童在娱乐的同时提高学习技能，从而改善用户体验，提高用户的兴趣度。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种结合虚拟迷宫进行智能交互的方法，其特征在于，所述虚拟迷宫配置有虚拟机器人，所述虚拟迷宫及虚拟机器人在智能设备上运行，该方法包括如下步骤：

开启虚拟迷宫场景，启动虚拟机器人；

确定通过虚拟迷宫中各个房间的设定任务，并通过所述虚拟机器人输出所述设定任务对应的多模态输出信息；

在该场景中，获取用户与所述虚拟机器人的多模态交互信息；

解析当前用户与所述虚拟机器人设定轮次对话中的多模态交互信息，与当前房间的设定任务对应的交互信息进行匹配，若匹配成功，则判定通过当前房间并进入下一房间或结束操作。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

获取用户人脸信息，识别用户当前情绪；

根据用户当前情绪确定虚拟机器人需展现的情绪状态，基于所述情绪状态生成并输出对应的表情输出数据。

3.根据权利要求2所述的方法，其特征在于，该方法还包括：

所述虚拟机器人在根据表情输出数据展现表情状态的同时，还展示与表情状态匹配的动作。

4.根据权利要求1～3中任一项所述的方法，其特征在于，在设定任务为寻找规定物体时，进一步包括：

获取用户寻找到的实体物体的图像信息；

对所述图像信息进行视觉识别，判断用户寻找到的实体物体与规定物体是否匹配，若匹配，则判定通过当前房间并进入下一房间或结束操作，并输出将该实体物体的虚拟影像映射到虚拟迷宫场景的多模态数据中。

5.根据权利要求1所述的方法，其特征在于，该方法还包括：

获取当前用户的人脸信息，并通过用户数据库识别该用户的身份；

根据该用户的身份信息选择虚拟迷宫每个房间的主题布局、关卡和虚拟机器人角色，输出对应的多模态数据。

6.一种结合虚拟迷宫进行智能交互的系统，其特征在于，所述虚拟迷宫配置有虚拟机器人，所述虚拟迷宫及虚拟机器人在智能设备上运行，所述系统包括：

智能设备，其开启虚拟迷宫场景，启动虚拟机器人；确定通过虚拟迷宫中各个房间的设定任务，通过所述虚拟机器人输出所述设定任务对应的多模态输出信息；在该场景中，获取用户与所述虚拟机器人的多模态交互信息；

游戏服务器，其解析当前用户与所述虚拟机器人设定轮次对话中的多模态交互信息，与当前房间的设定任务对应的交互信息进行匹配，若匹配成功，则判定通过当前房间并进入下一房间或结束操作。

7.根据权利要求6所述的系统，其特征在于，所述游戏服务器包括：

情感计算单元，其获取用户人脸信息，识别用户当前情绪；

决策单元，其根据用户当前情绪确定虚拟机器人需展现的情绪状态，基于所述情绪状态生成并输出对应的表情输出数据。

8.根据权利要求7所述的系统，其特征在于，

所述智能设备，在控制所述虚拟机器人根据表情输出数据展现表情状态的同时，还展示与表情状态匹配的动作。

9.根据权利要求6～8中任一项所述的系统，其特征在于，所述游戏服务器还包括：

视觉识别单元，其在设定任务为寻找规定物体时，获取用户寻找到的实体物体的图像信息，对所述图像信息进行视觉识别；

所述决策单元，其进一步判断用户寻找到的实体物体与规定物体是否匹配，若匹配，则判定通过当前房间并进入下一房间或结束操作，并输出将该实体物体的虚拟影像映射到虚拟迷宫场景的多模态数据中。

10.根据权利要求6所述的系统，其特征在于，

所述视觉识别单元，其进一步获取当前用户的人脸信息，并通过用户数据库识别该用户的身份；

所述决策单元，其进一步根据该用户的身份信息选择虚拟迷宫每个房间的主题布局、关卡和虚拟机器人角色，输出对应的多模态数据。