CN111104523A

CN111104523A - 基于语音辅助的视听协同学习机器人及学习方法

Info

Publication number: CN111104523A
Application number: CN201911326275.3A
Authority: CN
Inventors: 苟先太; 沈谦; 李高云; 张葛祥
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-05

Abstract

本发明公开了一种基于语音辅助的视听协同学习机器人，其特征在于，包括视觉系统、语音系统、综合学习系统和控制系统，本方案直接通过语言来获得大量打好语音标签的数据集可以解决传统繁琐而低效率的打标签现状，其次将打好语音标签的数据集导入神经网络进行训练，引导机器人对新对象进行自主学习，将提取到的特征信息存入使用知识图谱方法建立起的知识库中，这种通过知识图谱建立起的数据库可以用于推理，相对传统知识库的存储方式，更有利于机器人的实时学习。

Description

基于语音辅助的视听协同学习机器人及学习方法

技术领域

本发明涉及机器人技术领域，具体涉及一种基于语音辅助的视听协同学习机器人。

背景技术

现有技术中机器人视觉学习使用的传统的方式来给数据集打标签，例如使用打标签工具来圈出图片中要识别训练的对象，这种传统的打标签方式不仅繁琐耗时，工作量大，而且效率极低，显然不利于机器人的实时学习新的对象。而本专利中提出的语音标签，直接通过人类语言辅助机器人理解图片信息，自主对图片中需要学习的对象进行打标签，使得打标签高效快捷，有利于机器人的实时在线学习。

当前基于语音来辅助机器人进行视听协同学习新对象的研究并不多，目前对机器人视听觉研究主要集中在视听觉交叉模式上，这些现有研究目的并不在于通过人类语音来引导机器人对拍摄“看到”的新对象进行学习，而主要在于解决机器人的识别与定位问题，而这些都是在基于先验知识的基础上建立的研究，比如让机器人定位识别桌子上的苹果，默认机器人已经知道苹果是什么特征，当机器人拍摄到苹果时，便会快速的与先验知识库进行对比，一旦匹配成功便能锁定对象，定位成功。

发明内容

针对现有技术的上述不足，本发明提供了一种通过语音辅助来协同机器人进行视觉学习新对象的机器人。

为达到上述发明目的，本发明所采用的技术方案为：

提供一种基于语音辅助的视听协同学习机器人，其包括视觉系统、语音系统、综合学习系统和控制系统，视觉系统包括激光雷达、360°旋转摄像头和图像预处理模块，语音系统包括语音输入模块、语音输出模块和语音处理模块，综合学习系统包括搭载有神经网络模型和知识图谱的主控板和GPU云集群，控制系统包括主控板、机器人操作系统和控制指令集；

视觉系统与主控板连接，激光雷达扫描环境中障碍物信息，然后利用SLAM建立该区域环境下的地图，实现在该区域的避障与自主导航，自主运动到建好地图范围内的任意地点；

360°旋转摄像头拍摄需要学习区域的图片，通过图像处理OpenCV检测图片中的对象信息，并将检测对象信息后的图片直接输入到综合学习系统；

语音系统与控制系统的主控板连接，语音接收模块接收外界的语音输入，语音输入为人们描述的学习区域所需学习的对象信息，利用语音识别将语音信息转化为文字信息，再输入到语言处理模块中使用QA&NLP对其理解处理，并将处理后的语音信息输入到综合学习模块；语音输出模块负责机器人的语言输出，实现机器人与人之间的语音交互；

综合学习系统接收视觉系统和语音系统的输入，利用语音系统发送的语音信息识别视觉系统输入的图片信息，学习图片信息中的新目标。

进一步地，新目标学习方法包括以下步骤：

S1：输入经过OpenCV处理后的图片P_in和经过QA&NLP处理后的语言信息V_in，假定经过映射f，得到图片中的两个点坐标(x₁，y₁)和(x₂，y₂)且满足x₁≠x₂，y₁≠y₂，由两个点所构成的长方形区域将拍摄的学习区域的图片中需要学习的新对象给框选出来，即生成语音标签PV_Lab((x₁，y₁)，(x₂，y₂))，此时有：

PV_Lab((x₁，y₁)(x₂，y₂))＝f(P_in，V_in) x₁≠x₂，y₁≠y₂；

S2：将打好语音标签的图片保存至机器人的内存中；

S3：机器人以语音标签中需要学习的对象为中心，移动车身并转动360°旋转摄像头，获取新对象若干角度的图像信息，并保存在机器人内存中；

S4：利用内存中打好语音标签的图片对若干角度的图像信息进行图像增广，获得图像的数据集；

S5：将图像的数据集导入神经网络，在神经网络中提取新对象的颜色、大小和形状特征，然后通过softmax函数对图像中标注的新对象特征进行分类；

S6：将新对象的特征信息存入知识图谱中。

进一步地，还包括以下步骤：

S7：设定阈值W，利用余弦相似度量法计算两幅图像特征之间的距离，度量该学习的新对象与知识图谱中同类对象的相似度：

其中，学习对象提取的特征为I₁＝(x₁，x₂，x₃，...，x_n)，知识图谱中已存储同类对象的特征记为I₂＝(y₁，y₂，y₃，...，y_m)，x_i为需要学习的新对象的第i个特征，y_i为知识图谱中已存储同类对象的第i个特征；

S8：若W≥cosθ，判定已经学过此新对象，综合学习系统直接反馈给语音系统，通过语音输出模块输出该学习对象的信息；

S9：若W＜cosθ，判定未学过此新对象或者未完全学会该新对象，提取新对象的特征信息存入知识图谱中。

本发明的有益效果为：本方案不同于传统手动打标签的模式，而是直接通过输入语言来对机器人摄像头拍摄的图片信息进行描述，通过机器人的理解后，锁定要学习的新对象，生成相应的语音标签，之后通移动车身并转动360°旋转摄像头，获取新对象不同角度、不同方向的图像信息，再经图像增广形成相应的数据集。这种直接通过语言来获得大量打好语音标签的数据集可以解决传统繁琐而低效率的打标签现状，其次将打好语音标签的数据集导入神经网络进行训练，引导机器人对新对象进行自主学习，将提取到的特征信息存入使用知识图谱方法建立起的知识库中，这种通过知识图谱建立起的数据库可以用于推理，相对传统知识库的存储方式，更有利于机器人的实时学习。

附图说明

图1为基于语音辅助的视听协同学习机器人的结构原理图

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，基于语音辅助的视听协同学习机器人包括视觉系统、语音系统、综合学习系统和控制系统，视觉系统包括激光雷达、360°旋转摄像头和图像预处理模块，语音系统包括语音输入模块(麦克风)、语音输出模块(音响)和语音处理模块，综合学习系统包括搭载有神经网络模型和知识图谱的主控板和GPU云集群，控制系统包括主控板、机器人操作系统和控制指令集；

360°旋转摄像头直接与控制系统中的主控板连接，机器人自主导航到指定地点后，360°旋转摄像头拍摄需要学习对象所在区域的图片，通过图像处理OpenCV检测图片中的对象信息，并将检测对象信息后的图片直接输入到综合学习系统；

综合学习系统接收视觉系统和语音系统的输入，利用语音系统发送的语音信息识别视觉系统输入的图片信息，从而为机器人在语音辅助下实现视听协同学习新对象奠定了基础，学习图片信息中的新目标。

本方案中机器人学习图片信息中的新目标的学习方法包括以下步骤：

S1：输入经过OpenCV处理后的图片P_in和经过QA&NLP处理后的语言信息V_in，图片P_in为360°旋转摄像头拍摄的学习区域的图片，语言信息V_in为语音接收模块接收的人们所描述学习区域中所需要学习的新对象信息；假定经过映射f，得到图片中的两个点坐标(x₁，y₁)和(x₂，y₂)且满足x₁≠x₂，y₁≠y₂，由两个点所构成的长方形区域将拍摄的学习区域的图片中需要学习的新对象给框选出来，即生成语音标签PV_Lab((x₁，y₁)，(x₂，y₂))，此时有：

PV_Lab((x₁，y₁)，(x₂，y₂))＝f(P_in，V_in)x₁≠x₂，y₁≠y₂；

S2：将打好语音标签的图片保存至机器人的内存中，机器人内存指插在主控板上的U盘，该U盘内存要求不下于16G；

S6：将新对象的特征信息存入知识图谱中。

本方案优选有以下步骤：

S7：在学习的新对象存入知识图谱前，设定阈值W，利用余弦相似度量法计算两幅图像特征之间的距离，度量该学习的新对象与知识图谱中同类对象的相似度：

本方案不同于传统手动打标签的模式，而是直接通过输入语言来对机器人摄像头拍摄的图片信息进行描述，通过机器人的理解后，锁定要学习的新对象，生成相应的语音标签，之后通过移动车身并转动360°旋转摄像头，获取新对象不同角度、不同方向的图像信息，再经图像增广方法形成相应的数据集。

这种直接通过语言来获得大量打好语音标签的数据集可以解决传统繁琐而低效率的打标签现状，其次将打好语音标签的数据集导入神经网络进行训练，引导机器人对新对象进行自主学习，将提取到的特征信息存入使用知识图谱方法建立起的知识库中，这种通过知识图谱建立起的数据库可以用于推理，相对传统知识库的存储方式，更有利于机器人的实时学习。

将学习到的特征信息存入使用知识图谱方法建立好的知识库中，相对传统存入数据库的方式，知识图谱方法具有推理能力，能够保障下次识别同一对象时识别的准确率。

Claims

1.一种基于语音辅助的视听协同学习机器人，其特征在于，包括视觉系统、语音系统、综合学习系统和控制系统，所述视觉系统包括激光雷达、360°旋转摄像头和图像预处理模块，所述语音系统包括语音输入模块、语音输出模块和语音处理模块，所述综合学习系统包括搭载有神经网络模型和知识图谱的主控板和GPU云集群，所述控制系统包括主控板、机器人操作系统和控制指令集；

所述视觉系统与主控板连接，激光雷达扫描环境中障碍物信息，然后利用SLAM建立该区域环境下的地图，实现在该区域的避障与自主导航，自主运动到建好地图范围内的任意地点；

所述360°旋转摄像头拍摄需要学习区域的图片，通过图像处理OpenCV检测图片中的对象信息，并将检测对象信息后的图片直接输入到综合学习系统；

所述语音系统与控制系统的主控板连接，所述语音接收模块接收外界的语音输入，语音输入为人们描述的学习区域所需学习的对象信息，利用语音识别将语音信息转化为文字信息，再输入到语言处理模块中使用QA&NLP对其理解处理，并将处理后的语音信息输入到综合学习模块；所述语音输出模块负责机器人的语言输出，实现机器人与人之间的语音交互；

所述综合学习系统接收视觉系统和语音系统的输入，利用语音系统发送的语音信息识别视觉系统输入的图片信息，学习图片信息中的新目标。

2.根据权利要求1所述的基于语音辅助的视听协同学习机器人的新目标学习方法，其特征在于，包括以下步骤：

PV_Lab((x₁，y₁)，(x₂，y₂))＝f(P_in，V_in) x₁≠x₂，y₁≠y₂；

S2：将打好语音标签的图片保存至机器人的内存中；

S6：将新对象的特征信息存入知识图谱中。

3.根据权利要求2所述的基于语音辅助的视听协同学习机器人的新目标学习方法，其特征在于，还包括以下步骤：