CN111084711A

CN111084711A - 一种基于主动视觉引导的导盲杖地形探测方法

Info

Publication number: CN111084711A
Application number: CN201911355769.4A
Authority: CN
Inventors: 刘华平; 李尧尧; 赵怀林
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-01
Anticipated expiration: 2039-12-25
Also published as: CN111084711B

Abstract

本发明涉及一种基于主动视觉引导的导盲杖地形探测方法，属于主动引导和深度学习技术领域。本发明方法在残疾人服务设备领域，利用了已有的GAN生成触觉信号，用于盲人辅助设备即导盲杖中，引入了主动视觉引导，可以通过振动触觉帮助盲人更好的感知地面信息。在保证盲人感知地面信息的情况下，避免了漫无目的的探测地面，而是基于主动视觉引导来探测地面，方便了视障人士的出行。相比于传统的导盲设备，不再需要通过导盲杖漫无目的的探测，而是先进行了地面异常检测，做到了有针对性地探测地面区域，更有利于视障人士出行的安全、可靠和便捷。

Description

一种基于主动视觉引导的导盲杖地形探测方法

技术领域

本发明涉及一种基于主动视觉引导的导盲杖地形探测方法，属于主动引导和深度学习技术领域。

背景技术

近年来，随着电子产品的普及以及人们生活方式的改变，造成了全球视力受损或失明人数不断增加。据世界卫生组织2019年报告，全球至少有22亿人视力受损或失明。更令人担忧的是全世界盲人数量每年都在不断增加，盲人已成为全球不可忽视的一个群体。

而触觉作为人类5种感觉通道之一，是人类与外部世界进行信息交互的基本渠道，通过触觉通道可以感知来自于外界的硬度、温度、形状、表面纹理等重要信息，尤其对于盲人来说，这是其感觉外界事物和补偿视觉缺陷的主要途径之一。因此，而出现的触觉替代视觉技术成为了研究的热点，科技工作者更是将其用在盲人辅助设备中，研制出了一系列触觉替代视觉辅助设备，其中第一个触觉替代视觉的有效工具是手杖，盲人通过拐杖接触地面，可以获得周围的地面信息如材质、高度以及斜坡。再通过给手杖装配激光、声纳等障碍检测器，可以使盲人获得障碍物的方位及距离。手杖因为其操作的简便性而得到广泛使用，但是将地面信息转换成盲人一种直观感觉的触觉的研究却很少，尤其是目前还未见到基于主动视觉引导的导盲杖研究。

深度学习模型具备多层次结构，会自动提取图像中从底层到高层的特征信息。而在对数据的学习过程中，模型会自动生成图像的特征表述，无需再考虑人为构建特征的问题，因此深度学习得到广泛应用，而生成对抗网络(GANs)作为深度学习中的一种生成式网络模型，其被广泛的应用于计算机视觉领域，例如图像合成，文本到图像的合成,风格迁移，图像超分辨率,图像域的转换,图像修复等。尽管它们在计算机视觉方面取得了巨大的成功，但在使用GAN进行音频建模方面，并没有多大的进展，利用GAN生成触觉信号的研究也很少。

发明内容

本发明的目的是是提出一种基于主动视觉引导的导盲杖地形探测方法，以克服已有技术的不足之处，基于提取的图像特征，检测地面异常，以及基于生成对抗网络生成触觉振动，将视觉信息转换到触觉信息，为盲人探测地面提供可靠信息。

本发明提出的基于主动视觉引导的导盲杖地形探测方法，包括以下步骤：

(1)用盲人眼镜上的摄像头获取地面图像；

(2)采用均匀分块法，对步骤(1)的地面图像进行分割，得到多个图像块；

(3)对步骤(2)中的多个图像块进行特征提取，包括以下步骤：

(3-1)每个图像块的颜色直方图h_ij,c为：

其中，M,N分别表示图像块的长与宽，f_mn表示像素点(m,n)处的颜色值，c表示图像块中的一种颜色，每个图像块上所包含的颜色集为C，δ表示激活函数，将颜色直方图作为每个图像块的图像特征；

(3-2)计算所有图像块的颜色直方图h_ij,c的均值：

其中，I,J分别表示对地面图像进行分割后的图像块的位置，位置为(i,j)处的图像块的颜色直方图为h_ij,c；

(3-3)设定一个置信度阈值σ，根据每个图像块的颜色直方图h_ij,c以及颜色直方图h_ij,c的均值

对地面的状态进行判断，若

则判定地面状态无异常，盲人正常行走，若

则判定地面状态为异常，进行步骤(4)；

(4)用盲人导盲仗进行触觉再现，包括以下步骤：

(4-1)通过导盲杖的加速度传感器获取步骤(3-3)中异常地面的加速度信号，对该加速度信号进行短时傅里叶变换，得到与该加速度信号相对应的该地面图像的频谱图；

(4-2)利用LJ Speech数据集对生成对抗网络(MelGAN)进行训练，该生成对抗网络由一个由生成器和判别器组成，其中生成器的目标函数为：

判别器的目标函数为：

其中，x表示真实音频，从LJ Speech数据集中获取，s表示生成器的输入频谱图，从LJ Speech数据集中获取；z表示高斯噪声向量，k表示生成对抗网络中的第k个判别器，λ是特征匹配损失的权重，T表示判别网络的层数，N_i表示第i个判别层的单位神经元数量，上述参数根据训练精度设置；

表示第k个判别器的第i个判别层输出的特征图，G(s,z)表示生成器生成的音频，

表示生成器的输入频谱图和高斯噪声向量的数学期望，

表示真实音频和生成器的输入频谱图的数学期望，D_k(x)表示第k个判别器判别样本为真实音频的概率，

表示真实音频的数学期望；

训练过程包括以下步骤：

(4-2-1)对LJ Speech数据集中的音频进行采样，得到采样信号，对采样信号进行短时傅里叶变换得到对应的频谱图；

(4-2-2)向生成对抗网络的生成器输入(4-2-1)的频谱图,输出音频；

(4-2-3)将生成器输出的音频与LJ Speech数据集中的原始音频作为生成对抗网络的判别器的输入，判别器输出一个判别结果，得到判别器的输入音频为真实音频的概率；

(4-2-4)根据生成器和判别器的目标函数，训练由(4-2-2)和(4-2-3)组成的生成对抗网络，得到生成对抗网络的权重；

(4-3)将(4-1)地面图像的频谱图输入到(4-2)训练后的生成对抗网络中，输出得到与步骤(4-1)的加速度信号相对应的音频；

(4-4)将(4-3)得到的音频输出通过功率放大器，产生触觉振动，根据不同的地面触觉振动，提示盲人地面信息，实现导盲杖的地形探测。

本发明提出的基于主动视觉引导的导盲杖地形探测方法，与现有技术相比，其优点是：

本发明的基于主动视觉引导的导盲杖地形探测方法，在残疾人服务设备领域，利用了已有的GAN生成触觉的信号，但是已有技术中，利用GAN模拟时间序列数据分布，将振动触觉信号转换成图像，最后根据纹理图像或纹理特性产生振动触觉信号。该方法是间接的，且无法做到端到端处理，中间难免丢失振动信息。而本发明方法本将MelGAN用在振动触觉信号生成上，实现了图像到振动的直接转换，是一种端到端的处理。将本发明方法用于盲人辅助设备即导盲杖中，引入了主动视觉引导，可以通过振动触觉帮助盲人更好的感知地面信息。在保证盲人感知地面信息的情况下，避免了漫无目的的探测地面，而是基于主动视觉引导来探测地面，方便了视障人士的出行。相比于传统的导盲设备，不再需要通过导盲杖漫无目的的探测，而是先进行了地面异常检测，做到了有针对性地探测地面区域，更有利于视障人士出行的安全、可靠和便捷。

附图说明

图1为本发明方法的流程框图。

图2是本发明提出的主动视觉引导的导盲杖地形探测装置

图1中，1是盲人眼镜上的摄像头，2是集成芯片，3是耳机，4是振动块，5是功率放大器，6是加速度传感器。

具体实施方式

本发明提出的基于主动视觉引导的导盲杖地形探测方法，其流程框图如图1所示，包括以下步骤：

(1)用盲人眼镜上的摄像头1获取地面图像，如图2所示；

(2)由盲人眼镜上的集成芯片2对地面图像进行处理，对采用均匀分块法，对步骤(1)的地面图像进行分割，得到多个图像块；

本步骤利用分块方法对图像进行分割,常用的分块方法有均匀分块法、超像素分割法等。其中,超像素法分割后的局部块大小不一,无法保证每个特征点所占图像信息量的比重是一致的。为了避免引入更多的干扰参数,本步骤中采用均匀分块法对图像进行分割。

(3)对步骤(2)中的多个图像块进行特征提取，包括以下步骤：

本步骤通过提取图像块的特征来表征该图像块所在区域的图像信息,同时降低少数特征点对图像造成的噪声干扰。描述物体特征有很多方法，颜色特征在图像检索中应用最为广泛。主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。颜色特征是基于像素点的一种直观特征，包括颜色直方图、颜色集、颜色聚、颜色相关图等。最常用的颜色特征表达方法是颜色直方图法，其优点是归一化后可以不受图像旋转、平移以及尺度变化的影响，常用的颜色直方图特征匹配方法有距离法、直方图累加法等。

(3-1)每个图像块的颜色直方图h_ij,c为：

(3-2)计算所有图像块的颜色直方图h_ij,c的均值：

本发明的一个实施例中，I＝J＝20，图像块的平均颜色直方图

。

对地面的状态进行判断，若

则判定地面状态无异常，盲人正常行走，若

则判定地面状态为异常，进行步骤(4)；地面无异常的情况下，盲人正常行走。若为异常，则停下检测，异常位置。

(4)用盲人导盲仗进行触觉再现，导盲杖的结构如图2所示，图2中，1是盲人眼镜上的摄像头，2是集成芯片，3是耳机，4是振动块，5是功率放大器，6是加速度传感器。

触觉再现包括以下步骤：

(4-1)通过导盲杖的加速度传感器获取步骤(3-3)中异常地面的加速度信号，对该加速度信号进行短时傅里叶变换(STFT)，STFT是一个与傅里叶变换相关的数学变换,它决定了频率和相位时变信号的局部区域正弦波。STFT处理的信号在时域和频域具有局域性。加速度信号被用作振动触觉刺激的表示，通过导盲杖上安装的加速度传感器，可以得到加速度信号，经过STFT得到与该加速度信号相对应的该地面图像的频谱图；

判别器的目标函数为：

表示生成器的输入频谱图和高斯噪声向量的数学期望，

表示真实音频的数学期望；

生成对抗网络(MelGAN)进行训练，是一种自回归前向卷积结构。MelGAN在GAN中实现音频波形的产生。这是第一个成功地训练GANs生成原始音频而不需要额外的感知损失函数，同时仍然产生高质量的音频生成模型。训练过程包括以下步骤：

(4-2-1)用于训练的LJ Speech数据集是一个公共领域的语音数据集，由13100个简短的音频剪辑组成，这些音频剪辑来自于一个演讲者朗读7本非小说类书籍中的段落。每个片段都有一个转录。剪辑的长度从1秒到10秒不等，总长度约为24小时。是训练模型常用的音频数据集。对LJ Speech数据集中的音频进行采样，得到采样信号，对采样信号进行短时傅里叶变换得到对应的频谱图；

输入频谱图，经过一层卷积层后送到上采样阶段,先后经过两次8倍上采样和两次2倍上采样,每次上采样后，接着送入带有空洞卷积的残差模块，最后经过一层卷积层得到音频输出。残差块主要是3个空洞卷积块组成,每个空洞卷积块由两层带有不同膨胀率的卷积层和激活函数组成。选择空洞卷积是为了增强音频在生成过程中的时间步长之间存在远程相关性。空洞卷积层的感受野随层数的增加而指数增加,能够有效地增加每个输出时间步长的感应野。相距较远的时间步长的感应野中存在较大的重叠,从而导致更好的远程相关性。

判别器采用多尺度架构，也就是除了对原始音频做判别,还对原始音频做降频处理后再馈送到下一个判别器中进行判别,这里的降频方式采用平均池化方法，共进行了2次降频处理，对应于3个尺度的鉴别器。判别器的内部模块设计主要是卷积层和下采样层组成。