CN115966301A

CN115966301A - 一种孤独症辅助诊断系统、方法、存储介质及终端

Info

Publication number: CN115966301A
Application number: CN202211422447.9A
Authority: CN
Inventors: 刘志; 罗新辉; 谢佳伟
Original assignee: University of Shanghai for Science and Technology
Current assignee: Wenzhou Kesong Technology Development Co ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-04-14

Abstract

本发明提供一种孤独症辅助诊断系统、方法、存储介质及终端，包括预处理、模型搭建、训练、采集和预测等模块；预处理模块，对眼动数据进行掩码操作，筛选出与受试者视觉注意力相关的图像块，作为预处理后的眼动数据；模型搭建模块，使用VisionTransformer编码器作为主干网络提取特征，结合分类器搭建模型；训练模块，采用预处理后的眼动数据，训练模型；采集模块，获取待诊断受试者观看实验范式的眼动数据；预测模块，将受试者眼动数据输入训练好的模型进行孤独症预测，输出用于孤独症辅助诊断的预测概率。本发明提出了操作方便、无须人工干预、客观的孤独症辅助诊断方法，成功将深度学习方法引入孤独症诊断领域，为孤独症的筛查和诊断提供明确的预测结果。

Description

一种孤独症辅助诊断系统、方法、存储介质及终端

技术领域

本发明涉及人体神经技术领域，具体地，涉及一种孤独症辅助诊断系统、方法、存存储介质及终端。

背景技术

孤独症(ASD)是一种影响患者的交流、行为和社交技能的发育疾病。准确及时的判断有助于孤独症患者能够进一步治疗。因此，高效、便捷地判断和筛查是否患有ASD是一个需要重点关注的技术领域。目前的ASD患者的综合判断需要经验丰富的临床专家进行评估，这在医疗资源匮乏的区域是不现实的。

近年来，眼动数据被使用的频率越来越高。眼动数据同样可以使用在孤独症判断中，现有的基于眼动数据的孤独症辅助诊断方法可根据输入不同被分为三类，事件级、图像级、主题级。事件级方法使用眼球运动事件(如注视)进行判断。图像级方法使用完整的眼动数据进行判断，例如单张图像上的全部扫视路径。主题级方法则更复杂，其使用受试者观看所有图像的全部眼动数据对受试者进行判断。

由于模型创建和训练相对方便，图像级方法逐渐成为相关研究的主流。此外，深度学习的快速发展重塑了很多的研究方向，也有助于改善一些眼动的相关研究，这其中就包括孤独症诊断。循环神经网络(RNN)已广泛应用于自然语言处理、语音识别等序列数据分析，并取得了比传统模型更好的结果。Transformer网络作为RNN最重要的变体之一，已显示出强大的性能。因此，基于Transformer,使用扫视路径的图像级孤独症诊断技术可以作为便捷且有效的孤独症辅助诊断方法。

经检索，申请号为CN202010149062.4的中国专利，公开了一种孤独症快速筛查系统，包括眼动追踪装置和筛查服务器。眼动追踪装置包括注视目标单元、目标刺激单元以及眼动信息采集单元。注视目标单元用于在屏幕上呈现供注视的目标。目标刺激单元用于对注视目标单元提供刺激以使注视目标单元出现、消失或移动。眼动信息采集单元用于采集眼部跟随注视目标单元出现、消失或移动时的眼部位置变化。筛查服务器包括眼动轨迹计算单元和判定单元，眼动轨迹计算单元基于眼动信息采集单元反馈的眼部位置变化计算注视时间百分比，判定单元基于注视时间百分比得到筛查结果。但是其不足在于：基于事件的方法往往基于一些手工设计特征，即手动计算眼动指标作为特征，进行孤独症的诊断，导致提取出来的特征限制了检测性能；其基于深度学习的方法使用卷积神经网络(CNN)对图像内容进行特征提取，卷积神经网络感受野有限导致很难捕获全局信息。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种孤独症辅助诊断系统、方法、存储介质及终端。

根据本发明的一个方面，提供一种孤独症辅助诊断系统，包括：

预处理模块，对已有的孤独症眼动数据集中眼动数据进行掩码操作，筛选出与受试者视觉注意力相关的图像块，作为预处理后的眼动数据；

模型搭建模块，使用Vision Transformer编码器作为主干网络进行特征提取，并结合分类器搭建模型；

训练模块，采用所述预处理模块预处理后的眼动数据，训练所述模型搭建模块搭建好的模型；

采集模块，获取待诊断受试者观看实验范式的眼动数据；

预测模块，将所述采集模块获取的眼动数据输入训练好的模型中进行孤独症预测，输出用于孤独症辅助诊断的预测概率。

优选地，所述预处理模块，包括：

对象先验知识获取单元，用于确定一显著性预测模型，所述显著性预测模型用于生成任意图像的显著性图结构，即提取浅层特征，为所述主干网络提供先验知识；

掩码操作单元，通过扫视路径中注视点生成的掩码图，对由模型的输入图像块生成的显著性图进行掩码操作，使模型关注具有正常人或孤独症患者潜在视觉行为的相应图像块；

扫视路径特征嵌入单元，对所述眼动数据的扫视路径中的注视点个数统一进行零补操作，将每个受试者扫视路径中的注视点个数操作为指定个数的注视点；将每条扫视路径数据转换为固定大小的特征表示。

优选地，每个受试者的扫视路径由若干个注视点的横坐标、纵坐标和持续时间组成。

优选地，所述模型搭建模块，包括：

特征提取单元，以Vision Transformer的编码器为主干网络，并在所述掩码操作单元输入和编码器输出之间进行残差连接；其中，所述编码器由交替的多层多头自注意MSA和多层感知机MLP块组成；在每个块之前设置标准化层(LN)，在每个块之后应用残差连接；编码器输出之后的残差连接保留全局信息，以及保持所有图像块的相关性；

分类器单元，采用三层全连接神经网络和sigmoid激活函数，监督方式采用有监督分类，即用来训练分类器的所有样本都经过人工标注；所述分类器的最终输出为孤独症的预测概率。

优选地，所述训练模块，包括：

映射单元，选择孤独症眼动数据集作为训练集，将所述训练集中的图像对应的显著性图和扫视路径作为输入，扫视路径对应的受试者作为分类标签，使其自动学习从扫视路径和图像的显著性图的先验知识到分类标签之间的映射关系；

掩码操作单元，通过扫视路径中注视点生成的掩码图，预测显著性单元生成的显著性图进行掩码操作，使模型关注具有正常人或孤独症患者潜在视觉行为的相应图像块；

扫视路径特征嵌入单元，对眼动数据的扫视路径进行扫视路径特征嵌入，即对注视点个数统一进行零补操作，将每个受试者扫视路径中的注视点个数操作为指定个数的注视点；将每条扫视路径数据转换为固定大小的特征表示；

模型初始化参数单元，对模型参数初始化，其中，特征提取单元的主干网络的初始化参数为Vision Transformer在预测任务中的参数，其他网络层的初始参数被随机初始化；

收敛单元，采用交叉熵损失函数和随机梯度下降方法，训练直到模型收敛。

优选地，所述采集模块获取受试者的眼动数据并进行预处理，然后直接将显著性图和扫视路径输入训练好的模型优选地，所述预测模块根据分类概率进行判断：

其中，p定义为分类器单元输出的预测概率，t为阈值。

根据本发明的第二个方面，提供一种孤独症辅助诊断方法，包括：

对已有的孤独症眼动数据集中眼动数据进行掩码操作，筛选出与受试者视觉注意力相关的图像块，作为预处理后的眼动数据；

使用Vision Transformer编码器作为主干网络进行特征提取，并结合分类器搭建模型；

采用所述预处理后的眼动数据，训练所述搭建好的所述模型；

获取待诊断受试者观看实验范式的眼动数据；

将获取的所述眼动数据输入训练好的所述模型中进行孤独症预测，输出用于孤独症辅助诊断的预测概率。

根据本发明的第三个方面，提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于运行上述的系统，或，执行上述的系统。

根据本发明的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于运行上述的系统，或，执行上述的系统。

与现有技术相比，本发明具有如下的有益效果：

本发明实施例中的孤独症辅助诊断系统和方法，其基于已有且公开眼动数据集，提出了操作方便、无须人工干预、客观的孤独症辅助诊断方法，成功地将深度学习方法引入孤独症诊断领域，为孤独症的筛查和诊断提供了辅助的预测结果。具体使用中为医生提供孤独症辅助诊断的帮助。

本发明实施例中的孤独症辅助诊断系统和方法，其预处理模块，首先通过对象先验知识获取单元来提供先验知识，其次通过掩码操作单元筛选出需要重点关注的图像区域，使得特征提取模块能更有效的提取特征；扫视路径特征嵌入单元则将扫视路径的时序信息进行嵌入，方便特征提取模块提取长期和短期时序特征。

本发明实施例中的孤独症辅助诊断系统和方法，其特征提取单元，利用VisionTransformer的多头自注意力机制提取长短期时序特征，并使用残差连接来调整特征提取模块，保留所有图像块的相关性，从而提高了预测的准确性及模型的鲁棒性，可达到极好的诊断效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中的孤独症辅助诊断系统的系统框架图；

图2为本发明另一实施例中的孤独症辅助诊断方法的方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明提供一个实施例，参见图1，一种孤独症辅助诊断系统，包括预处理模块、模型搭建模块、训练模块、采集模块和预测模块；其中，预处理模块基于已有的孤独症眼动数据集，对眼动数据进行预处理，所述预处理是进行掩码操作；模型搭建模块使用VisionTransformer编码器作为主干网络进行特征提取，并结合分类器搭建模型，该模型作为分类模型；训练模块结合预处理后的眼动数据，训练搭建好的模型；对于新的受试者，采集模块获取其观看实验范式的眼动数据；预测模块将获取的眼动数据输入训练好的模型中进行判断。

本实施例的预处理模块中进行掩码操作，可实现筛选出与受试者视觉注意力相关的图像块，引导特征提取模块聚焦于与视觉行为相关的图像块。在模型搭建模块中提出了在未屏蔽的输入和最后一个Vision Transformer(ViT)编码器层之间添加一个残差连接，以保留所有图像块的关系，使得本实施例的孤独症辅助诊断系统既利用了显著性图做掩码的先验知识，又利用了Transfromer模型对数据的建模能力，更有效地注入了扫视路径的时序信息。

需要说明的是，Vision Transformer是Transformer(有很多变体)的一个重要变体，底层原理基本一致，本发明用的是Vision Transformer，因此在大部分Transformer前面加上了Vision，其他未加上Vision的泛指Transformer这一类模型。

在本发明的一个优选实施例中，提供了预处理模块的优选实现方式。具体的，该预处理模块包括：显著对象先验知识获取单元、掩码操作单元以及扫视路径特征嵌入单元。

其中，显著对象先验知识获取单元，用于确定一个显著性预测模型，该模型为任意已经训练好参数的基于深度学习的显著性预测模型，该显著性预测模型用于生成任意图像的显著性图结果也可以看成浅层特征提取。显著性图就是检测出图像中最吸引正常人注意力的区域，而正常人和孤独症患者在注意力上的区别就是正常人往往会观看输入图像中显著的区域，而孤独症患者趋向于观看背景区域，所以显著性图可以为相关主干网络提供先验知识，能更快的学会提取有效的特征。显著性预测模型可选用的包括SimpleNet、SAM和MSI-Net等。

其中，掩码操作单元通过扫视路径中注视点生成的掩码图，可以对由模型的输入图像块生成的显著性图进行掩码操作，从而迫使模型关注具有正常人或孤独症患者潜在视觉行为的相应图像块。此处，掩码操作主要是让掩码图和显著性图进行相乘，有正常人或孤独症患者观看的掩码区域不为零，而其他没有观看的掩码区域基本为零，可以看成背景区域，会对最后分类结果造成干扰。也就相当于在进行特征提取时只处理受试者观看的区域，减少背景区域的干扰，提取更具代表性的特征。

具体的，本步骤的操作计算过程为：

其中z₀为N个图像块嵌入向量，mask为注视点生成的掩码图，·为向量点乘；

其中，扫视路径特征嵌入单元统一进行零补操作，将每个受试者扫视路径中的注视点个数操作为36个注视点，将数据转换为固定大小的特征表示。具体的，由于每个受试者扫视路径中的注视点个数不一致，所有统一进行补零操作至36个注视点。因此每条扫视路径由36个注视点的横坐标、纵坐标和持续时间组成。扫视路径中包含了受试者观看图像中的具体位置以及观看的持续时间，这是典型的时序信息，包含了相邻注视点的关联以及时间间隔较长的注视点的关联，因此扫视路径特征嵌入单元将扫视路径的时序信息进行嵌入，方便特征提取模块提取短期和长期时序特征。特征嵌入，可以将扫视路径数据转换(降维)为固定大小的特征表示(矢量)，以便于处理和计算(如求距离)。特征嵌入的另一个目的是对特征进行降维，它降维的方式可以类比为一个全连接层(没有激活函数)，通过特征嵌入层的权重矩阵计算来降低维度。

在本发明的一个优选实施例中，提供模型搭建模块的优选实现方式，具体包括：

S201，特征提取单元，包含一个编码器以及一个在掩码操作单元输入和编码器输出之间的残差连接。编码器使用Vision Transformer的编码器相同的结构，由交替的多头自注意(MSA)和多层感知机(MLP)块组成。在每个块之前标准化层(LN)，在每个块之后应用残差连接。其中，多头自注意可以提取图像块自身块间依赖。或者说，多头自注意帮助编码器在对每个图像块编码时关注输入的其他图像块，从而提取长短期时序特征。特征提取单元的编码器使用预训练的Vision Transformer的编码器参数进行初始化，这可以减少模型训练时间，提高模型的泛化能力。

在掩码操作单元输入和编码器输出之间的残差连接，残差是指预测值与实际值的差，缓解了在特征提取单元中增加网络深度带来的梯度消失问题，在本单元中，经过掩码操作单元，部分区域信息丢失，加上残差连接之后，能保留全局信息，以及保留所有图像块的相关性。残差连接设输入为z₀，映射输出为z，映射输出通常包括了多头自注意力、卷积、激活等操作，当强行将一个输入添加到函数的输出的时候，其映射函数可以明确的拆分成z和z₀的线性叠加，即将输出表述为输入和输入的一个非线性变换的线性叠加。该残差连接具体操作计算过程为：

其中z₀为掩码操作单元输入时N个显著性图像块的嵌入向量，z为编码器输出的向量，out为特征提取单元输出。

S202，分类器单元，用于得到孤独症的预测概率。

分类器单元采用三层全连接神经网络和sigmoid激活函数，监督方式采用了有监督分类，即指用来训练分类器的所有样本都经过了人工标注。分类器最终输出为受试者患孤独症的预测概率。当然，该预测概率仅为医生诊断提供中间辅助，具体是否确定患孤独症还要医生根据受试者其他信息才能给出最终诊断结果。

在一些实施例中，概率阈值可以设为0.5，大于0.5则诊断为孤独症患者；当然，在其他实施例中，也可以设置为其他的阈值。

在一些实施例中，sigmoid激活函数为：

在本发明的一个优选实施例中，提供训练模块的优选实现方式，具体包括：

S301，预测显著性单元，采用一个显著性预测模型SimpleNet，使用预训练的模型参数，该模型在训练阶段能端到端的预测训练集图像的显著性图，在完成训练后，对受试者观看的图像预测显著性；并保持图像像素不变；

S302，掩码操作单元，通过扫视路径中注视点生成的掩码图，预测显著性单元生成的显著性图进行掩码操作，使模型关注具有正常人或孤独症患者潜在视觉行为的相应图像块；

S303，扫视路径特征嵌入单元，对眼动数据的扫视路径进行扫视路径特征嵌入，即对注视点个数统一进行零补操作，将每个受试者扫视路径中的注视点个数操作为指定个数的注视点；将每条扫视路径数据转换为固定大小的特征表示；

S304，训练集获取单元；

采用孤独症数据集Saliency4ASD作为训练集，该数据集公开了13孤独症患者+13正常人观看300张图像的扫视路径，另外还有100图像对应的扫视路径未公开以进行公平比较。将孤独症数据集Saliency4ASD经过S301、S302和S303后，将获得的训练集中的图像对应的显著性图和扫视路径作为输入，扫视路径对应的受试者(一般使用1代表孤独症患者，0代表正常人)作为标签，使其自动学习从扫视路径和图像的先验知识到到分类标签之间的映射关系；

S305，模型初始化参数单元；

对模型参数进行初始化，其中，特征提取主干网络的初始化参数为VisionTransformer在预测任务中的参数，其他网络层的初始参数被随机初始化；

S306，损失计算单元；

采用交叉熵损失作为模型训练的损失函数，采用随机梯度下降方法，其中，学习率为10^-4，Batchsize大小不固定，由待检测图像组的图像数量决定，训练直到模型收敛一般需要迭代90个epoch。

当然，S304与S305的顺序互换，可以作为训练模块的另一种实现方式。

在本发明的一个优选实施例中，提供采集模块的优选实现方式，因为训练模型时使用的是公开图像及其对应的扫视路径，在该采集模块中，需要采集受试者的眼动数据并进行预处理，然后直接将显著性图和扫视路径输入训练好的基于受试者扫视路径的孤独症诊断分类模型进行判断。

在本发明的一个优选实施例中，提供预测模块的优选实现方式，其中，即根据设定的阈值来得到预测概率，并根据预测概率来通过辅助诊断：

其中，p定义为分类模块输出的预测概率，t为阈值，一般为0.5。

根据相同的技术构思，本发明的另一实施例中，还提供一种孤独症辅助诊断方法，可以采用上述实施例中的孤独症辅助判断系统来实现。具体的，参见图2，孤独症辅助诊断方法可以包括如下步骤：

S100，对已有的孤独症眼动数据集中眼动数据进行掩码操作，筛选出与受试者视觉注意力相关的图像块，作为预处理后的眼动数据；

S200，使用Vision Transformer编码器作为主干网络进行特征提取，并结合分类器搭建模型；

S300，采用S100获得的预处理后的眼动数据，训练S200搭建好的模型；

S400，对于新的受试者，获取其观看实验范式的眼动数据；

S500，将S400获取的眼动数据输入训练好的模型中进行判断。

其中，实验范式跟孤独症眼动数据集范式保持一致。实验范式指的是自由视图，让受试者在固定时间内自由观看图像，该实验范式能保证得到两个输入，一个是输入图像(可以和孤独症眼动数据集中不同)，另一个是受试者观看图像时的眼动数据(即扫视路径)。

需要说明的是，本发明实施例提供的方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，在此不予赘述。

在本发明另一实施例中，还提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于运行上述实施例中的孤独症辅助判断系统，或，执行上述的孤独症辅助诊断方法。

在本发明另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于运行上述实施例中的孤独症辅助判断系统，或，执行上述的孤独症辅助诊断方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。

Claims

1.一种孤独症辅助诊断系统，其特征在于，包括：

采集模块，获取待诊断受试者观看实验范式的眼动数据；

2.根据权利要求1所述的一种孤独症辅助诊断系统，其特征在于，所述预处理模块，包括：

3.根据权利要求2所述的一种孤独症辅助诊断系统，其特征在于，每个受试者的扫视路径由若干个注视点的横坐标、纵坐标和持续时间组成。

4.根据权利要求2所述的一种孤独症辅助诊断系统，其特征在于，所述模型搭建模块，包括：

特征提取单元，以Vision Transformer的编码器为主干网络，并在所述掩码操作单元输入和编码器输出之间进行残差连接；其中，所述编码器由交替的多层多头自注意MSA和多层感知机MLP块组成；在每个块之前设置标准化层LN，在每个块之后应用残差连接；编码器输出之后的残差连接保留全局信息，以及保持所有图像块的相关性；

5.根据权利要求1所述的一种孤独症辅助诊断系统，其特征在于，所述训练模块，包括：

6.根据权利要求1所述的一种孤独症辅助诊断系统，其特征在于，所述采集模块获取受试者的眼动数据并进行预处理，然后直接将显著性图和扫视路径输入训练好的模型进行判断。

7.根据权利要求1所述的一种孤独症辅助诊断系统，其特征在于，所述预测模块根据分类概率进行判断：

其中，p定义为分类器单元输出的预测概率，t为阈值。

8.一种孤独症辅助诊断方法，其特征在于，包括：

获取待诊断受试者观看实验范式的眼动数据；

9.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于运行权利要求1-7中任一项所述的系统，或，执行权利要求8中任一项所述的系统。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于运行权利要求1-7中任一项所述的系统，或，执行权利要求8中任一项所述的系统。