发明内容
本发明提供的阿尔兹海默症的特征分析方法,可以结合脑电图特征和外周血生物标记物数据进行特征融合,可以充分挖掘相关数据的特性,提高特征分析的全面性和有效性。
方法包括:
S101:获取脑电图数据和外周血生物标记物数据作为原始数据;
S102:构建训练集以及测试集;
S103:对脑电信号预处理;预处理方式包括:去除脑电信号中的噪声,对脑电信号进行分段处理以及对脑电信号进行压缩处理;
S104:提取预处理后的脑电信号的特征参数以及脑电图总特征参数;
S105:对获取的外周血生物标记物数据进行数据清洗以及归一化处理,形成外周血检测特征;
S106:对脑电信号特征和外周血检测特征进行特征融合;
S107:基于训练集中的数据训练分类器;
S108:对测试集中的脑电图数据和外周血生物标记物数据依次进行预处理,特征提取以及特征融合,然后将融合后的特征向量送入分类器进行分类;
S109:基于分类器输出评估信息,并进行显示。
进一步需要说明的是,步骤S101中,从数据库中调取阿尔兹海默症的脑电图数据和外周血生物标记物数据、认知功能障碍的脑电图数据和外周血生物标记物数据以及健康的脑电图数据和外周血生物标记物数据。
进一步需要说明的是,步骤S102中,
选择预设数量的阿尔兹海默症的脑电图数据和外周血生物标记物数据、认知功能障碍的脑电图数据和外周血生物标记物数据以及健康的脑电图数据和外周血生物标记物数据作为训练集;
选择预设数量的阿尔兹海默症的脑电图数据和外周血生物标记物数据、认知功能障碍的脑电图数据和外周血生物标记物数据以及健康的脑电图数据和外周血生物标记物数据作为测试集。
进一步需要说明的是,步骤S103中,去除脑电信号中的噪声的方式包括:
使用平稳小波变换分解和重建来对脑电信号进行去噪;保留0.5-32Hz的分量;
对脑电信号进行分段处理方式包括:以长度为6s至10s的滑动窗口对脑电信号进行分段处理;
对脑电信号进行压缩处理包括:采用分段聚合近似的数据压缩技术对脑电信号进行压缩处理,处理步骤包括:
设在时间窗口内具有一个维的时间序列,,所述时间序列包含个数据点,将时间序列压缩为个数据点,;
将时间序列等分为段,对于每个小等分段,计算其中所有数据点的均值,并生成一个新的序列;
其中每个小等分段均由一个均值代表;
设压缩后的维时间序列为,的计算公式为:
至此,将维的时间序列压缩为一个维的时间序列。
进一步需要说明的是,步骤S104中,使用自回归模型对脑电图中的脑电信号进行特征提取;
将阶自回归模型定义到压缩后的维时间序列中,表示为是前个序列的线性组合及误差项的函数,数学模型为:
其中,是模型系数,是具备均值为0,方差为的白噪声;
使用贝叶斯信息量准则确定模型的阶数:
其中,是参数的数量,即模型的阶数,表示数据点的数量,为似然函数;
使用最小二乘法对每个通道的每个窗口数据段进行AR模型系数的估计;基于最小二乘法求解AR模型系数的步骤如下:
AR模型表示为,由最小二乘法原理,AR模型系数估计为。
进一步需要说明的是,步骤S104中,还使用排列熵对脑电图数据进行特征提取,排列熵的求法如下:
(1)信号的相空间重构:以预处理之后的一个小窗口内的时间序列为例,时间序列为,规定一个嵌入维度和一个时间延迟,重构分量;重构空间为:
(2)提取符号序列:将重构矩阵中的个重构分量,按照数值大小升序排列,所得到的排序的索引值构成一组符号序列,列的重构矩阵;
(3)统计个重构分量对应的每种排列在全排列中出现的次数:将每种排列的概率分布用表示,其中;
(4)计算时间序列的排列熵为:
;
步骤S104中,还使用Hjorth参数进行特征提取;
Hjorth的计算方法为:
(1)对于时间序列进行一阶导数计算,以获得信号的变化速度,通过对每个时间点的信号值进行差分来实现,一阶导数的计算公式为:,一阶导数仍然为一个时间序列;
(2)对一阶导数进行一次再差分,以获得信号的加速度,,二阶导数仍然为一个时间序列;
(3)计算Hjorth参数:
,
,
分别表示原时间序列,一阶导数时间序列,二阶导数时间序列的标准差;
S104还包括:对脑电图数据的总特征进行提取:提取每个脑电图数据段的自回归模型的特征向量,排列熵特征向量,Hjorth特征向量,先分别作归一化处理,采用最大最小标准化方法,将数据缩放到指定范围[0, 1];通过如下计算进行处理:
。
进一步需要说明的是,S105中的数据归一化方式采用最大最小标准化方法,将数据缩放到指定范围[0, 1];具体的计算公式如下:
。
进一步需要说明的是,S107中,分类器选用支持向量机;并基于支持向量机对阿尔兹海默症的数据、认知功能障碍的数据以及健康的数据进行分类,对于每一个类,将其作为+1类,而其余两类的所有样本作为-1类,构造3个SVM决策函数,且通过下述处理方式将其中一个SVM决策函数与其余两类分开,即求解二次规划问题:
下标表示样本的索引;上标,共需3个SVM;
第类的决策函数为:
对于,3个决策函数共有3个输出,选择使上式最大的类作为的预测,也即采用如下的决策函数对其进行分类:
。
进一步需要说明的是,S109中还基于准确率、精确率以及召回率来评价分类器输出的评估信息;
准确率为分类模型所有预测正确的结果占总观测值的比重,通过下述公式进行计算:
精确率通过下述公式进行计算:
召回率通过下述公式进行计算:
。
本发明还提供一种终端机,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现基于外周血和脑电图信息对阿尔兹海默症的特征分析方法的步骤。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的基于外周血和脑电图信息对阿尔兹海默症的特征分析方法充分利用了两种不同信息来源的特征,实现了高效的特征融合。而且本发明提出结合AR模型,排列熵,Hjorth参数这3种方法对脑电图时域特征进行提取,这三种方法从不同角度捕捉和描述脑电图的特性,相互之间具有一定的互补性,可以充分挖掘信号的特性,提高特征提取的全面性和有效性。本发明还将脑电图信号划分为6s小窗口,对每一个小窗口都进行时域特征提取,最后对所有时间窗口的特征加和取平均值,这种方法既可以捕捉到信号的短期变化和局部特征,又可以得到整体特征的平均表征。综合考虑局部和整体特性,本发明的方法在提取脑电图信号的时域特征时能够更全面地描述信号的动态特性。
具体实施方式
本发明提供的基于外周血和脑电图信息对阿尔兹海默症的特征分析方法主要是结合脑电图和外周血特征对阿尔兹海默症实现早期评估,提供模型分析及数据支持。本发明的方法可以通过两种不同模态的特征实现对脑电图和外周血特征的分析,相比使用单一模态进行阿尔兹海默症的早期评估,有着更丰富的信息分析过程,并且该方法无创伤,可重复,基于以往数据就可以实现病程跟踪,并对评估结果进行显示。
本发明的辅助评估方法可以基于智能技术对关联的外周血数据和脑电图数据进行获取和处理。方法中可以采用计算机视角技术、人工神经网络、置信网络、强化学习、迁移学习以及计算机程序设计语言来实现。程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。
本发明涉及的基于外周血和脑电图信息对阿尔兹海默症的特征分析方法可以应用于一个或者多个终端机中,所述终端机是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegratedCircuit,ASIC)、可编程门阵列(Field-ProgrammableGate Array,FPGA)、数字处理器(DigitalSignalProcessor,DSP)、嵌入式设备等。
终端机可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(PersonalDigitalAssistant,PDA)、交互式网络电视(InternetProtocolTelevision,IPTV)、智能式穿戴式设备等。
终端机所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(VirtualPrivateNetwork,VPN)等。
本发明的方法在终端机中执行,并通过脑电图和外周血检测指标,结合多模态特征融合和机器学习技术,实现对阿尔兹海默症相关数据进行早期评估。整体流程如图1和2所示,步骤主要包括数据采集,训练集与测试集划分,数据预处理、特征提取,特征融合,训练分类器,测试集验证几部分。先对于训练集,在数据预处理部分,先后对脑电图数据做去除噪声,分段及数据压缩处理,在脑电图特征提取部分,分别使用自回归模型,排列熵和Hjorth参数来提取脑电图的时域特征,对这3种时域特征进行结合,并通过主成分分析进行降维。在外周血检测部分,使用夹心酶联免疫吸附法(ELISA)测定外周血及水平,采用RT-PCR(Reverse Transcription-Polymerase Chain Reaction)的方法检测单个核细胞基因组DNA的端粒长度及端粒相关蛋白TRF1、TRF2、POT1的mRNA表达水平。
本发明在特征融合部分,将脑电图提取的时域特征向量和外周血检测指标向量进行特征拼接,得到融合后的特征向量,然后对分类器支持向量机进行训练。对于测试集,与训练集做相同的预处理,特征提取,特征融合等工作,以确保模型对测试数据的泛化能力和准确性,然后将融合后的特征向量送入分类器分类。实现了对早期阿尔兹海默症相关数据的分析并评估,得出相应结果。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至2所示是一具体实施例中基于外周血和脑电图信息对阿尔兹海默症的特征分析方法的流程图,方法包括:
S101:获取脑电图数据和外周血生物标记物数据作为原始数据;
具体来讲,本实施例的脑电图数据和外周血生物标记物数据可以通过数据库还进行提取。数据库中可以预存多个脑电图数据以及多个外周血生物标记物数据供阿尔兹海默症的特征分析使用。获取的方式可以由用户进行主动调取相应数量的数据,也可以基于预设条件自动提取。比如提取一定数量的具有阿尔兹海默症的脑电图数据和外周血生物标记物数据,不具有阿尔兹海默症的脑电图数据和外周血生物标记物数据等等,具体获取方式不做限定。
示例性的讲,可以获取多个阿尔兹海默症的脑电图数据和外周血生物标记物数据、多个认知功能障碍的脑电图数据和多个外周血生物标记物数据以及健康的脑电图数据和外周血生物标记物数据。
S102:构建训练集以及测试集;
本实施例可以选取一定数量的阿尔兹海默症的脑电图数据和外周血生物标记物数据、认知功能障碍的脑电图数据和外周血生物标记物数据以及健康的脑电图数据和外周血生物标记物数据作为训练集。
再选取数量比训练集少的数据作为测试集。
S103:对脑电信号预处理;预处理方式包括:去除脑电信号中的噪声,对脑电信号进行分段处理以及对脑电信号进行压缩处理;
本实施例的去除噪声方式为:使用平稳小波变换(Stationary WaveletTransform, SWT)分解和重建来对 EEG 信号进行去噪。去除EEG信号中的0-0.5 Hz范围内的低频噪声和32 Hz-128 Hz范围内的高频噪声。保留0.5-32Hz的分量。此过程可由matlab实现,选择母小波基函数:“sym9”,将分解级别设置为8,使用’swt’函数进行平稳小波变换,使用’iswt’函数来执行逆平稳小波变换。进行去噪处理后的数据仍然是脑电图(EEG)时间序列,但它的频谱特性已经被改变。去除低频和高频噪声后,信号中只包含0.5-32 Hz范围内的分量。
本实施例的分段处理方式考虑了EEG 信号是非周期性和非平稳的,并且信号的幅度随时间变化,为了正确考虑具有特定时间段的代表性信息的可能的平稳性,将每个受试者的每个通道的去噪数据分割成一些不重叠的滑动窗口,设置滑动窗口长度为6s,以便进行后续的时域分析。
根据阿尔兹海默症的特征分析需要,一般会从数据库中采集大量相关脑电图数据量,进行数据压缩的目的是减少时间序列中数据点的数量,这有助于减少数据的复杂性,降低计算和存储需求,同时保留了数据的主要特征,不会丢失太多信息,进行数据压缩后的脑电图时间序列还会和原始脑电图时间序列保持相同形状。对于脑电图的每个通道,每个时间窗口都采用分段聚合近似(PAA)的数据压缩技术进行压缩,以一个时间窗口为例,说明如何进行分段近似聚合:
假设在这个时间窗口里有一个维的时间序列,,这个时间序列包含个数据点,希望将时间序列压缩为个数据点,,首先将时间序列等分为段,对于每个小等分段,计算其中所有数据点的均值。这将生成一个新的序列,其中每个小等分段都由一个均值代表。设压缩后的维时间序列为,的计算公式为:
这样就把一个维的时间序列压缩为一个维的时间序列。
本实施例中,脑电信号特征的提取方式包括如下方式:
其中一种方式是使用自回归模型(Autoregressive Model,AR)对脑电图进行特征提取,AR模型是一种被广泛用于分析时间序列数据的统计模型,通常用于捕捉信号的自相关性和趋势,提供了有关信号的时间演化的信息。上述经过预处理之后的一个小窗口内的时间序列为,阶自回归模型表明序列中是前个序列的线性组合及误差项的函数,一般形式的数学模型为:
其中,是模型系数,是具备均值为0,方差为的白噪声。
AR自回归模型的阶数的确定是十分重要的,可以使用贝叶斯信息量准则(Bayesian information criterion,BIC)来确定模型的阶数:
其中,是参数的数量,即模型的阶数,表示数据点的数量,为似然函数。BIC越小越好,较小的BIC意味着更简单的模型在拟合数据方面表现较好。
使用最小二乘法对每个通道的每个窗口数据段进行AR模型系数的估计。基于最小二乘法求解AR模型系数的步骤如下:
AR模型可以表示为,由最小二乘法原理,AR模型系数估计为。
这里AR模型阶数选择6阶,一个EEG窗口数据段共可得到19通道6阶=114个模型系数,估计出的系数序列构成特征向量,每个特征向量的维数为114,对于一个受试者的记录的20min的脑电图,以6s划分时间窗口,可以得到200个时间窗口,表示成一个200行114列的一个特征矩阵,每一行代表各时间窗口的AR模型系数向量。
本实施例还使用排列熵(PE)对脑电图进行特征提取,PE用于测量信号的复杂性和不规则性,它可以揭示信号中的模式和规则性,排列熵的求法如下:
(5)信号的相空间重构:以预处理之后的一个小窗口内的时间序列为例,时间序列为,规定一个嵌入维度和一个时间延迟,重构分量。重构空间为:
(6)提取符号序列:将重构矩阵中的个重构分量,按照数值大小升序排列,所得到的排序的索引值构成一组符号序列,列的重构矩阵,也即是m维如果按照(1,2....m)的不同排列总共有全排列个符号序列。
(7)统计个重构分量对应的每种排列在全排列中出现的次数:将每种排列的概率分布用表示,其中。
(8)计算时间序列的排列熵为:
对于脑电图的每个通道,每个时间窗口,都计算排列熵,每个窗口的排列熵为一个数值标量。一个EEG窗口数据段共可以得到19个排列熵参数,将这些参数构成一个19维的特征向量。同样,对于一个受试者来说,可得到200行19列的一个特征矩阵。
本实施例中,提取方式还涉及Hjorth参数,Hjorth参数是一种用于描述脑电图(EEG)信号的特征参数,通常用于分析 EEG 信号的时域特性。Hjorth 参数包括三个主要参数:活动度(Activity)、移动度(Mobility)、复杂度(Complexity)。这些参数可以帮助分析EEG 信号的活跃程度、频率分布和波形形状。Hjorth的计算方法为:
(4)对于时间序列进行一阶导数计算,以获得信号的变化速度,可以通过对每个时间点的信号值进行差分来实现,一阶导数的计算公式为:,一阶导数仍然为一个时间序列。
(5)对一阶导数进行一次再差分,以获得信号的加速度,,二阶导数仍然为一个时间序列。
(6)计算Hjorth参数:
,
,
分别表示原时间序列,一阶导数时间序列,二阶导数时间序列的标准差。
一个EEG窗口数据段可以得到个Hjorth参数,将这些参数构成一个57维的特征向量,对于一个受试者来说,可得到200行57列的一个特征矩阵。
本实施例还涉及脑电图总特征的提取,提取方式为:根据每个EEG窗口数据段的AR特征向量,排列熵特征向量,Hjorth特征向量,分别作归一化处理,采用最大最小标准化(Min-Max Normalization)方法,将数据缩放到指定范围[0, 1]。该方法计算公式如下:
同一个窗口,将经过归一化处理之后的AR特征向量,排列熵特征向量,Hjorth特征向量串联成一个特征向量,该特征向量的维数为维。得到下面这样一个200行190列的特征矩阵:
然后,对于每个受试者,将200个窗口的特征向量进行逐元素相加取平均值,得到一个新的特征向量。也就是对脑电图总的特征矩阵按列取平均值。这样每个受试者提取的脑电图时域特征为1个特征向量,该特征向量的维数为190维。
然而,每个受试者特征向量的维数为190,维数过高,容易导致维数灾难,计算复杂度增加,过拟合风险增加,影响算法的性能等问题。因此,在这里使用主成分分析(Principal Components Analysis,PCA)对数据进行降维,主成分分析算法是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。训练集一共有120个样本,每个样本有190维特征,得到一个120行190列的一个矩阵,对其使用PCA降维,该算法步骤如下:
(1)对所有的样本进行中心化,即求每一个特征的平均值,然后对于所有的样本,每一个特征都减去自身的均值。
(2)计算样本的协方差矩阵。
(3)对协方差矩阵做特征值分解。
(4)按特征值的大小从大到小排序,并求出其对应的特征向量。
(5)设置累计贡献率85%,选取使下式成立的最小值
(6)取前个特征值对应的特征向量,构建投影矩阵
(7)将原始的数据矩阵乘以投影矩阵,映射到低维空间。
使用PCA后,训练集的120个样本,从原本的190维特征降到维特征。
S105:对获取的外周血生物标记物数据进行数据清洗以及归一化处理,形成外周血检测特征;
根据本申请的实施例,外周血生物标记物提取及数据处理采用如下步骤:
S1051:外周血生物标记物获取方法
(1)采用夹心酶联免疫吸附法(ELISA)测定外周血及水平。与健康人相比,阿尔兹海默症的数值明显下降,数值会上升。
(2)采用RT-PCR(Reverse Transcription-Polymerase Chain Reaction)的方法检测单个核细胞基因组DNA的端粒长度及端粒相关蛋白TRF1、TRF2、POT1的mRNA表达水平。与健康的外周血生物标记物数据相比,阿尔兹海默症的外周血生物标记物数据中单个核细胞端粒长度会更低,TRF1、TRF2、POT1的mRNA表达水平均升高。
下表给出了外周血检测的生物标记物名称,检测方法,以及相关生物标记物检测指标的大致数值范围。
S1052:数据处理;
(1)数据清洗:对外周血检测的所有指标进行数据清洗,若检测结果超出大致范围,则被认定为异常值,可能原因是血液标本处理不当,应重新采样处理。
(2)数据归一化:对于每个从数据库中提取的相关数据进行归一化处理,为确保数据的可行性,进行归一化处理,采用最大最小标准化(Min-Max Normalization)方法,将数据缩放到指定范围[0, 1]。该方法计算公式如下:
S106:对脑电信号特征和外周血检测特征进行特征融合;
本实施例可以调取一组相匹配的脑电图数据和外周血生物标记物数据中的脑电图特征向量,并经过主成分分析后维数从190维根据累计贡献率降为维,再将外周血生物标记物数据涉及的外周血检测特征向量配置维数为7,将脑电图特征向量与外周血检测指标特征向量进行特征拼接,拼接之后,每个每组数据得到1个维数为维的特征向量。
S107:基于训练集中的数据训练分类器;
本实施例中,可以从数据库中调取40组样本,也就是40组脑电图数据以及相匹配的外周血生物标记物数据。这样是相当于是120个样本,使用这些样本训练分类器,分类器选用支持向量机。
支持向量机(Support Vector Machine,SVM)是一种二元分类算法,但它可以通过一对多(One-Versus-Rest,OvR)策略来实现多分类任务。
本实施例对AD、MCI、CN三个组进行分类,对于每一个类,将其作为+1类,而其余两类的所有样本作为-1类,构造一个SVM决策函数,一共需要3个SVM决策函数。构造一个SVM决策函数将某一类与其余两类分开,即求解二次规划问题:
下标表示样本的索引;上标,共需3个SVM。
第类的决策函数为:
对于,3个决策函数共有3个输出,选择使上式最大的类作为的预测,也即采用如下的决策函数对其进行分类:
S108:对测试集中的脑电图数据和外周血生物标记物数据依次进行预处理,特征提取以及特征融合,然后将融合后的特征向量送入分类器进行分类。
具体来讲,对测试集中的样本,进行预处理,特征提取,特征融合等工作,具体方式与训练集中的数据处理方式一致。这样可以确保模型对测试数据的泛化能力和准确性,然后将融合后的特征向量送入分类器进行分类。
S109:基于分类器输出评估信息,并进行显示。
对于本步骤来讲,可以设三分类之后的混淆矩阵如下所示:
(1)准确率(Accuracy):
准确率是对于整体而言的,指分类模型所有预测正确的结果占总观测值的比重。对于上述多分类混淆矩阵,准确率为:
(2)精确率(Precision):
精确率是对于单个类别而言的,某类的精确率为在模型预测为本类的所有结果中,模型预测正确的比例。
(3)召回率(Recall):
召回率是对于单个类别而言的,某类的召回率为在真实值为本类的所有结果中,模型预测正确的比例。
基于上述基于外周血和脑电图信息对阿尔兹海默症的特征分析方法充分利用了两种不同信息来源的特征,实现了高效的特征融合。而且本发明提出结合AR模型,排列熵,Hjorth参数这3种方法对脑电图时域特征进行提取,这三种方法从不同角度捕捉和描述脑电图的特性,相互之间具有一定的互补性,可以充分挖掘信号的特性,提高特征提取的全面性和有效性。本发明还将脑电图信号划分为6s小窗口,对每一个小窗口都进行时域特征提取,最后对所有时间窗口的特征加和取平均值,这种方法既可以捕捉到信号的短期变化和局部特征,又可以得到整体特征的平均表征。综合考虑局部和整体特性,本发明的方法在提取脑电图信号的时域特征时能够更全面地描述信号的动态特性。
本发明提供的基于外周血和脑电图信息对阿尔兹海默症的特征分析方法是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。