CN119132401B - 一种基于人工智能算法的高精度单细胞分类方法和装置 - Google Patents
一种基于人工智能算法的高精度单细胞分类方法和装置 Download PDFInfo
- Publication number
- CN119132401B CN119132401B CN202411617083.9A CN202411617083A CN119132401B CN 119132401 B CN119132401 B CN 119132401B CN 202411617083 A CN202411617083 A CN 202411617083A CN 119132401 B CN119132401 B CN 119132401B
- Authority
- CN
- China
- Prior art keywords
- cell
- gene
- data
- model
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于人工智能算法的高精度单细胞分类方法和装置,包括:首先,将原始单细胞数据转换为csv格式,并构建表达矩阵以描述基因在不同条件下的表达水平;接着,通过降维和聚类分析初步划分单细胞类别;进一步,结合PPI和GO信息,使用图神经网络方法对基因进行量化表征和分类;然后,构建单细胞数据嵌入模型,通过编码器和解码器提取特征,并通过交叉验证和超参数优化训练模型;最后将模型中编码器的隐藏层作为单细胞的嵌入表达矩阵,该层囊括了原始单细胞表达信息、PPI、GO等多维度数据,可实现包括单细胞精确分类在内的多种下游任务。本发明有助于深入理解基因表达模式,为疾病治疗和药物设计提供数据支持。
Description
技术领域
本发明涉及生物信息学、人工智能和单细胞组学分析的技术领域,具体涉及一种基于人工智能算法的高精度单细胞分类方法和装置。
背景技术
单细胞测序技术是现代生物学研究中的一项关键技术,它可以定量测量基因的表达水平、全基因组上的DNA甲基化水平、染色质开放区域可及性和单细胞空间转录组表达水平。这些数据揭示了细胞间的异质性和复杂性,研究它们的特性和功能,从而深入了解细胞异质性的来源和机制。同时,单细胞分类可以应用于临床诊断和治疗,为理解细胞功能和疾病机制提供了新的视角。此外,单细胞分类还可以应用于移植医学、再生医学等领域,为临床实践提供更准确和可靠的信息。
然而,单细胞数据的分析面临诸多挑战,例如数据本身存在高维度、大规模、缺失值、批次效应等特点。同时,细胞类型的分类往往是非线性的,不能简单地通过阈值或边界来划分。这需要更复杂的算法和模型来处理这种非线性关系,增加了分类的难度。最后,由于技术的敏感性,数据中可能包含大量的噪声。这些问题限制了单细胞分类的准确性和可靠性。
这一问题难点在于找到一个最优的非线性模型,能够同时拟合各种特征的单细胞数据,识别细胞类型子类及一些稀有细胞。目前已经提出的几种单细胞数据分析方法包括Satija Lab推出的Seurat和Nir Yosef等人基于深度学习开发的totalVI算法。下面简单介绍一下这两种单细胞多组学数据分析方法。
1. Seurat:对于每个细胞,Seurat首先对每个模态分别计算k=20个最近邻的集合。接下来,对转录组邻居的分子谱进行平均(即预测相邻细胞的分子含量),并将平均值与原始测量值进行比较。然后,Seurat利用这些预测的相对准确性来描述每个细胞的相对信息内容。使用Softmax变换计算模态权重。
2. TotalVi:TotalVI学习成对测量数据的联合概率表示,它解释了每种模态的独特噪声和技术偏差,以及批量效应。对于转录组,totalVI使用类似于变分自编码器的建模策略,其结果可以用于多种不同的分析任务。
尽管已有几种方法可以分析单细胞组学数据,但单细胞分类仍然存在一些挑战。这一问题的解决,急需要设计合适的统计模型和计算方法,开发可扩展且有效的计算方法来揭示对细胞异质性、生物状态、细胞类型、细胞发育和复杂组织的空间模式的生物学规律。
发明内容
针对现有技术的不足之处,本发明提供了一种基于人工智能算法的高精度单细胞分类方法和装置,该方法通过结合原始单细胞表征数据、PPI、GO、图神经网络以及单细胞数据嵌入模型实现对单细胞的高精度分类,有效解决了现有技术中的挑战,更加全面和系统地描绘细胞的状态和命运,在生命科学、医学疾病诊断和治疗等领域可望有重要应用价值。
根据本申请实施例的第一方面,提供一种基于人工智能算法的高精度单细胞分类方法,包括以下步骤:
(1)对原始单细胞数据进行预处理,构建单细胞表达矩阵;
(2)将单细胞表达矩阵通过降维和聚类分析来划分单细胞类别,得到细胞类别标签;
(3)结合蛋白互作网络和基因本体论信息,使用图神经网络方法对基因进行量化表征和分类,得到基因类别标签;
(4)结合单细胞表达矩阵、细胞类别标签、基因类别标签,构建单细胞数据嵌入模型;通过编码器和解码器提取特征,构建由细胞类别标签损失函数和基因类别标签损失函数组成的总损失函数实现细胞和基因特征的平衡,并通过交叉验证和超参数优化训练模型;
(5)将训练好的模型中编码器的隐藏层作为单细胞的嵌入表达矩阵,该层囊括了原始单细胞表达信息、蛋白互作网络、基因本体论信息的多维度数据;最终通过该模型实现单细胞的高精度分类。
进一步地,所述步骤(1)中,预处理包括标准化和全局归一化处理;单细胞表达矩阵用于描述细胞中基因在不同条件下的表达水平。
进一步地,所述步骤(2)具体为:将预处理后的单细胞数据降至低级维度,再通过碎石图观测分析主成分分布特征,从而初步确定细胞的总类别数;采用聚类算法对降维后的单细胞数据进行聚类分析,进一步确定细胞的总类别数,得到细胞类别标签。
进一步地,所述步骤(3)包括以下子步骤:
(3.1)蛋白互作网络图数据构建:以蛋白名作为节点、蛋白之间的相互作用作为边,构建有向蛋白互作网络图数据:
(3.2)基于基因本体论的最短基因通路计算:解析基因本体论的本体文件,提取出生物过程、细胞组分、分子功能三个部分的术语和它们之间的关系;再根据本体文件中的层级关系,构建出每个部分的树状结构,即有向无环图,图中节点表示基因;再利用Dijkstra或Floyd算法计算有向无环图中目标基因到根节点的最短路径,将最短路径拼接后作为目标基因的基因本体论特征;
(3.3)融合蛋白互作网络和基因本体论信息的图数据构建:将目标基因的基因本体论特征作为蛋白互作网络图数据的节点特征,得到初级基因图网络数据;
(3.4)无监督图网络节点嵌入和聚类:采用无监督图神经网络方法在初级基因图网络数据上实现节点嵌入,得到基因表征向量;采用降维方法将基因表征向量降至低级维度;然后采用聚类算法对降维后的基因表征向量进行聚类,从而确定基因的总类别数,以及每个基因所属的类别。
进一步地,所述步骤(4)中,编码器用于提取、压缩单细胞数据特征,同时去除无关的噪声和冗余信息;所述编码器采用三层全连接网络,其中,三层全连接网络的输出维度以30%递减。
进一步地,所述步骤(4)中,解码器用于将编码后的结果重新恢复成以细胞作为样本,基因作为特征,同时将缺失值、统计误差、实验误差的噪声进行消除和弱化;所述解码器采用三层全连接网络,其中,三层全连接网络的输出维度以30%递增。
进一步地,所述步骤(4)中,总损失函数Loss_total的表达式为:
;
式中,表示控制参数,Loss1表示细胞类别标签损失函数,Loss2表示基因类别标签损失函数;
所述细胞类别标签损失函数采用交叉熵损失函数,表达式为:
;
式中,b_size表示训练时一个批次的大小,即单细胞的个数;Ccell表示细胞总类别数,j表示第j个细胞,i表示第i个细胞类别,pj,i表示第j个细胞属于第i种细胞类别的概率,表示第j个细胞属于第i种细胞类别的真实概率;
所述基因类别标签损失函数采用交叉熵损失函数,表达式为:
;
式中,gene_m表示解码器最后一层全连接网络的输出维度,Cgene表示总基因类别,k表示第k个基因,s表示第s种基因类别,Pk,s表示第k个基因属于第s种基因类别的概率,表示第k个基因属于第s种基因类别的真实概率。
进一步地,所述步骤(4)中,采用Optuna算法对模型的超参数进行调整,在固定模型的超参数之后,重新训练模型,并实施交叉验证来评估模型的性能。
本发明实施例第二方面提供了一种基于人工智能算法的高精度单细胞分类装置,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述基于人工智能算法的高精度单细胞分类方法。
本发明实施例第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于人工智能算法的高精度单细胞分类方法。
与现有技术相比,本发明具有以下有益效果:
1)为高精度单细胞分类、发现新的细胞类型提供了一种基于人工智能方法的新途径;
2)在单细胞表达数据的基础上整合先验的生物属性数据PPI和GO,从理论和实际两方面提升单细胞分类结果的科学性和可信度;
3)从细胞和基因两个维度设计单细胞数据嵌入模型,有效降低了单细胞数据中的噪声和批次效应;
4)有助于进行单细胞的异质性和复杂性研究,同时对推动临床基础研究和临床应用研究具有借鉴意义。
附图说明
为了更清楚地说明本发明中的技术方案或具体实施方式,下面将对本发明的技术描述和具体实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图;
图2为本发明中的原始单细胞数据示例图;
图3为本发明中的原始单细胞数据细胞样本缺失值分布图;
图4为本发明中的原始单细胞数据细胞缺失值堆叠柱状图;
图5为本发明中的原始单细胞数据基因缺失值分布图;
图6为本发明中的原始单细胞数据细胞降维聚类结果示意图;其中,图6中的(a)为UMPA降维结果示意图,图6中的(b)为降维后的聚类结果示意图;
图7为本发明中的PPI示意图;
图8为本发明中的基于基因本体论的基因最短路径计算过程示意图;其中,图8中的(a)为从基因本体论中抽取的BP树示意图,图8中的(b)为从基因本体论中抽取的CC树示意图,图8中的(c)为从基因本体论中抽取的MF树示意图,图8中的(d)为某基因在BP树中最短路径构建示意图,图8中的(e)为某基因在CC树中最短路径构建示意图,图8中的(f)为某基因在MF树中最短路径构建示意图;
图9为本发明中的基因GO特征与PPI图数据结合示意图;
图10为本发明中的无监督图网络实现基因量化表征及聚类过程示意图;其中,图10中的(a)为基于GO特征和无监督图网络的基因量化表征过程以及表征后的降维聚类示意图,图10中的(b)为实际数据降维结果示意图,图10中的(c)为实际数据降维后聚类结果示意图;
图11为本发明中的结合单细胞归一化表征数据、PPI、GO信息的单细胞数据嵌入模型示意图;
图12为本发明中的单细胞数据嵌入模型带交叉验证的模型训练与验证及模型超参数搜索过程示意图;
图13为本发明中的单细胞数据嵌入模型带交叉验证的损失和正确率结果示意图;
图14为本发明中的经过单细胞数据嵌入模型表征后对编码器输出结果进行降维和聚类结果示意图;
图15为本发明装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加明白清楚,结合附图和实施例,对本发明进一步详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均在本发明保护范围。
示例数据说明:为了验证本方案的实际效果,采用来源于外周血单核细胞(Peripheral Blood Mononuclear Cells,PBMC)的“pbmc3k”经典单细胞测序数据集进行测试,通过10X Genomics公司官网可直接获取(https://support.10xgenomics.com/single-cell-gene-expression/datasets/1.1.0/pbmc3k)。pbmc3k数据包含2700个细胞、13714个基因,原始数据包含barcodes.tsv(细胞条形码信息)、features.tsv(量化基因标识符)和matrix.mtx(基因表达数值)三个文件,通过预处理后,可转化成行、列分别表示基因和细胞的矩阵。
参见图1,本发明提供的一种基于人工智能算法的高精度单细胞分类方法,包括以下步骤:
1、单细胞原始数据分析。
首先读取以文本形式储存的原始单细胞数据,并将其转换成csv格式以便后续分析处理,构建单细胞表达矩阵。
表达矩阵是一种二维的统计表,它描述了细胞中基因在不同条件下的表达水平,如图2所示,图2的第一列中每一行均表示基因名称,第一行中每一列均表示细胞代号。这种矩阵通常由一行表示一个基因,而每一列则表示一个样本(例如一种细胞或一个组织)。在矩阵中,每一个单元格都包含某基因在某样本中表达量,这些数据可以是基因表达活性的直接测量,也可以是基因表达状态的推断。表达矩阵可以作为生物体内某一特定环境或状态下基因的表达模式的综合评价指标,它可以帮助生物学家和医生了解大量的基因表达模式,以便更有效地检测特定的基因表达是否受到特定的条件或环境影影响,此外,表达矩阵还可以用来理解特定基因在不同生物体中发挥的功能,以及比较不同生物体中基因表达的相似性和差异。在实际应用中,基因表达矩阵的分析方法可以帮助更深入地洞察基因表达信息网络的动态特征,以及更有效地检测癌症抗原表位、识别肿瘤细胞的抗药性标记,研究多种生物过程比遗传表达的调控、DNA甲基化的调控、基因突变的调控和免疫系统的作用等。同时,基于表达矩阵的研究还可以用来设计新型药物或基因治疗,以及精细化治疗和预防各种疾病。
首先,从细胞角度分析缺失值,即统计每个细胞样本表达矩阵的0值所占比例(由于数据集已经过清洗,并非统计NA值)。如图3及图4所示,细胞的最高基因数据缺失比例达98.45%,最小为75.21%,平均缺失93.8%,缺失数据极其严重,每个细胞的大部分基因都缺失数据且每个细胞的缺失数据比例基本一致。
相似的,从基因角度分析缺失值,如图5所示,平均缺失百分比高达93.83%。
在单细胞转录组测序分析中,有些基因表达量较低或测序深度不够而无法被检测到,这种由技术造成的检测基因表达数据不真实的情况被称为dropout效应。与此同时,在细胞中有些基因确实没有表达,称之为真零值。在测序结果中,往往混杂着由于dropout效应造成的零值和真零值。多重测序可一定程度上减少缺失值的比例。这种广泛的数据缺失不仅揭示了单细胞表达矩阵的显著异质性,而且也引入了高水平的信号噪声,影响了数据的完整性和后续分析的准确性。
具体而言,单细胞数据集的异质性是由多种因素造成的,包括但不限于细胞所处环境的复杂性、细胞群体内在的生物学多样性,以及特定细胞类型(如癌细胞)的高度遗传和表型变异性。这些因素共同作用,导致了单细胞水平上的基因表达数据呈现出高度的变异性和不确定性。因此,为了准确地解析和解释单细胞转录组数据,必须采用一些常见的数据处理技术和统计方法来纠正dropout现象,减少噪声的影响,并揭示细胞间真实的生物学差异。包括质量控制(QC)、标准化、数据校正、特征选择、降维、低秩矩阵填补、深度学习算法以及其他数据恢复方法来估计和填补缺失的表达值,进而提高数据的完整性和分析结果的可靠性。
鉴于原始单细胞数据较高的缺失值比例,首先对数据集做标准化处理,这有助于校正技术变异,使不同样本或批次之间的数据具有可比性。然后对细胞做全局归一化处理,它可以处理零值,并且能够减少数据中的方差,将标准化后的数据保存,构建单细胞表达矩阵,作为后续处理的基础。
2、单细胞类别初步划分。
针对标准化和全局归一化之后的原始单细胞数据以细胞作为样本进行降维分析,可采用的方法包括PCA、t-SNE和UMAP等,目的在于将高维数据转换到低维空间,以便于数据可视化和进一步分析。参见图6,图6中的(a)以UMAP为例将标准化后的单细胞数据降至2维,再通过碎石图观测分析主成分分布特征,从而初步确定细胞的总类别数Ccell。然后采用聚类算法对降维后的单细胞数据进行聚类分析,可采用的方法包括K-Means、Mean Shift、Hierarchical Clustering、DBSCAN等,进一步确定细胞总类别数Ccell,得到细胞类别标签。实际中在进行聚类分析时,类别总数Ccell必须谨慎确定。例如在采用K-Means进行聚类分析时,建议采用肘部法则(Elbow Method)确定Ccell的值,图6中的(b)中Ccell=11。至此,已经对单细胞做了粗略的类别标签确定。
3、基于PPI、GO和图神经网络的基因量化表征与分类。
3.1蛋白互作网络(Protein-protein interaction networks,PPI)图数据构建。
蛋白互作网络(PPI)是指两个或多个蛋白质在细胞内通过物理方式相互作用,形成复合物,参与调控生物信号传递、基因表达、代谢过程等多种生物学功能。常用的PPI数据库包括STRING、bioGRID、GeNets等。将基于实验数据(如RNA-seq、蛋白质组分析)获得的差异表达基因或蛋白列表,在STRING数据库中进行搜索(基因或蛋白名列表),从而得到目标蛋白间可能的潜在相互作用。然后以蛋白名作为节点,以蛋白之间的相互作用作为边构建有向PPI图数据G PPI ,如图7所示。
3.2基于基因本体论(Gene Ontology,GO)的最短基因通路计算。
注意到上述PPI图G PPI 中只有蛋白之间的相互作用数据,即只有边信息而没有节点信息。为了解决这个问题,将基因本体论(GO)相关信息纳入G PPI 中,从而增加PPI图数据的完整性。GO数据是一个系统化的分类框架,用于描述基因及其产物的功能,包括生物过程(Biological process,BP)、细胞组分(Cellular component,CC)和分子功能(Molecularfunction,MF)三个主要方面。
首先从GO官方网(https://www.geneontology.org/)站下载GO的本体文件,通常为.obo格式。然后使用生物信息学工具或编程语言(如Python)解析本体文件,提取出BP、CC、MF三个部分的术语(term)和它们之间的关系。再根据本体文件中的层级关系,构建出每个部分的树状结构,即有向无环图(DAG)。图中节点表示基因(可翻译成对应蛋白),节点名称以数字表示,可由GO原始信息转化而来。再利用Dijkstra或Floyd算法计算目标基因到根节点的最短路径。如图8所示,图8中的(a)为从基因本体论中抽取的BP树示意图,图8中的(b)为从基因本体论中抽取的CC树示意图,图8中的(c)为从基因本体论中抽取的MF树示意图,图8中的(d)为某基因在BP树中最短路径构建示意图,图8中的(e)为某基因在CC树中最短路径构建示意图,图8中的(f)为某基因在MF树中最短路径构建示意图;以PRCC目标基因为例,其在实际BP树、实际CC树、实际MF树这三棵树上最短路径分别为:[29,18,53]、[32,76,12,39]、[95,35,62,77,41]。将该基因在三棵树上的最短路径拼接后作为该基因的GO特征即:
GOPRCC=[29,18,53,32,76,12,39,95,35,62,77,41]
3.3融合PPI和GO信息的图数据构建。
将前述构建的基因GO特征作为PPI图数据的节点特征,形成更完整的图数据,如图9所示。
3.4无监督图网络节点嵌入和聚类。
前面得到了结合PPI和GO信息的初级基因图网络数据,直接在该网络上对基因进行聚类是困难的。为了将PPI和GO数据在图数据上实现进一步融合,并实现基因聚类,采用无监督图神经网络方法(GAT、GCN、DeepWalk、Node2Vec)在初级基因图网络数据上实现节点嵌入,从而将每个基因表征成长度为512或1024的数值向量。在此基础上采用降维方法(PCA、UMAP、t-SNE)将基因表征向量降至2维或其他合适的低级维度;然后采用聚类算法(K-Means、Mean Shift、Hierarchical Clustering、DBSCAN)对降维后的基因表征向量进行聚类,从而确定基因的总类别数Cgene,以及每个基因属于哪个类别,即得到基因类别标签。整个过程如图10所示,图10中的(a)为基于GO特征和无监督图网络的基因量化表征过程以及表征后的降维聚类示意图,图10中的(b)为实际数据降维结果示意图,图10中的(c)为实际数据降维后聚类结果示意图;示例中Cgene=16。
4、单细胞数据嵌入模型构建。
前面步骤得到了标准化后的单细胞表达矩阵、基于单细胞表达矩阵聚类获得的细胞类别标签以及基于PPI结合GO信息后获得的基因类别标签。参见图11,下一步将设计神经网络模型将这三类数据相结合,从而实现单细胞数据的嵌入表达,即将标准化后的单细胞表达向量嵌入成长度相同的数值向量,嵌入后的向量理论上包含了原始单细胞表达信息、PPI信息以及GO信息,相比于只使用原始单细胞表达信息的情况更合理;模型结构如图11所示。
4.1单细胞数据编码器:读取标准化之后的单细胞表达矩阵,编码器负责提取、压缩单细胞数据特征,同时去除了无关的噪声和冗余信息。由于单细胞表达矩阵的稀疏性,编码器将在该网络中起关键作用。编码器采用三层全连接网络,三层全连接网络的输出维度以30%递减,且最后一层的输出维度设置为512,即编码器的最终输出维度为:h_shape=(b_size,h_size),其中b_size表示训练时一个批次(batch)的大小,即单细胞的个数,h_size表示编码器输出维度,由于三层网络输出递减,因此有h_size小于gene_m,本文设置为h_size=512。此外,每层网络x采用ReLU激活层实现非线性映射,如式(1)所示,且每层设置dropout=10%用于防止过拟合,
(1)
这里编码器的作用实际上就是将一个细胞看成一个样本,一个基因看成样本的一个特征,训练结束后即融合了所有基因的关键特征,并用h_size个数值来表示每个细胞。
4.2单细胞分类网络:编码器的输出本质上是特征提取和压缩后的细胞样本,将其输入细胞分类网络,对细胞进行分类,细胞的分类标签正是前面章节计算得到的细胞标签,总类别数为Ccell的,分类网络同样采用三层全连接网络,每层同样采用ReLU函数进行激活,第三层输出维度为:out_shape=(b_size,Ccell),然后采用Softmax函数(如式(2)所示)将输出值转化成类别概率,一个批次的细胞中,对于第j(j∈[1,b_size])个细胞属于第i(i∈[1,Ccell])种类型的概率为pj,i,式中xj,i即表示第三层输出中第j个细胞第i顺位(即细胞类别i)的值:
(2)
细胞类别标签损失函数采用交叉熵损失函数,如式(3)所示,式中表示第j个细胞属于第i类的真实概率:
(3)
4.3解码器:编码器以细胞作为样本对基因特征进行提取、重组和压缩,而这里解码器的目的是将编码后的结果重新恢复成以细胞作为样本,基因作为特征,不同的是解码后的基因特征相比于编码之前的基因特征理论上更加合理,一定程度上将缺失值、统计误差、实验误差等噪声进行了消除和弱化。解码器同样采用三层全连接网络,三层全连接网络的输出维度以30%递增,且最后一层的输出维度设置为gene_m,即解码器的最终输出维度为:out_shape=(b_size,gene_m)。此外,每层网络采用ReLU激活层实现非线性映射,且每层设置dropout=10%用于防止过拟合。
4.4转置:对解码器输出结果进行转置,是为了将基因作为样本,将细胞作为特征,从而便于后续对基因进行分类,转置后的输出维度为:out_shape=(gene_m,b_size)。
4.5基因分类网络:整个模型的前半部分以细胞作为样本,以基因作为特征进行分析;而模型的后半部分则以基因作为样本,以细胞作为特征进行分析,解码并转置后的输出结果正是为了该目的。由于前文已经专门针对基因做了聚类,即每个基因都被赋予了标签,总基因类别为Cgene的,因此此处的基因分类网络的最后出维度必须为:out_shape=(gene_m,Cgene)。基因分类网络依然采用三层全接连网络,输入层和输出层前面已被确定,中间层的输出设置为1.2倍的输入与输出维度之和。同样,每层网络采用ReLU激活层实现非线性映射,且每层设置dropout=10%用于防止过拟合。输出后采用Softmax函数(如式(4)所示)将输出值转化成类别概率,对于第k(k∈[1,gene_m])个基因属于第s(s∈[1,Cgene])种类型的概率为Pk,s,式中yk,s即表示第三层输出中第k个基因第s顺位(即基因类别s)的值:
(4)
基因类别标签损失函数采用交叉熵损失函数,如式(5)所示,表示第k个基因属于第s类的真实概率:
(5)
4.6总损失函数定义:根据前面定义,该模型有针对细胞和基因两个分支,分别对应细胞类别标签损失函数Loss1和基因类别标签损失函数Loss2。为了使两者融合,还需要构建一个总损失函数Loss_total,其定义如式(6)所示:
(6)
总损失函数对细胞和基因两个分支做了平衡,其中控制参数,实际中通常选择在0.6到0.8之间。
4.7模型训练:本发明采用六折交叉验证法充分利用有限的数据资源,提高模型的泛化能力,将数据集均匀分成六份,采用轮流的方式,每次选取其中五份作为训练数据,剩余一份作为验证数据。交叉验证是一种统计方法,它通过将数据集分割成多个子集,然后在这些子集上轮流进行训练和验证,从而减少了模型过拟合的风险,并提高了模型评估的准确性。
同时,为了提高模型的分类精度和训练效率,本发明采用Optuna算法对模型的超参数进行调整。Optuna是一种基于TPE(Tree-structured Parzen Estimator)算法的贝叶斯优化工具,能够智能地选择下一组实验参数,加速超参数搜索过程。在超参数优化后,可以选择两种方式来确定最终模型。第一种是直接使用优化得到的超参数和对应的模型作为最终模型。第二种是使用优化得到的超参数在整个数据集上重新训练模型,以获得更稳健的模型性能。最终使用最终的超参数重新进行完整训练得到最终模型。如图12所示。
在固定了模型的超参数之后,重新训练了模型,并实施了交叉验证来进一步评估模型的性能。图13展示了交叉验证的结果,包括损失(Loss)和准确性(Accuracy),即模型正确预测的样本数与总样本数的比例。此外,展示了模型在每次交叉验证中的性能变化,以评估模型的稳定性。例如,可能观察到模型在不同的训练-测试分割上的准确率波动情况,以及模型是否对特定的数据子集存在过拟合或欠拟合的现象。最终,选择表现最稳定、性能最好的模型作为最终模型。
5、单细胞嵌入数据聚类(分类)。
前面详细阐述了从数据预处理到模型构建和完整训练的整个过程。而本方案的最终目的是为了更精确的单细胞分类,因此还需要从训练好的模型中提取编码器最后一层权重作为单细胞最终的嵌入向量,即图11标注形状“☆”部分。之所以选择该层(隐藏层)作为最后的单细胞嵌入表达矩阵,主要是因为该层处于整个模型的枢纽位置,其前面是原始数据,后面则衔接了细胞和基因两个维度,训练结束后,有理由认为该层囊括了核心信息(即原始单细胞表达信息、蛋白互作网络、基因本体论信息等多维度数据);再通过单细胞数据嵌入模型实现包括单细胞的高精度分类。在本方案的实例中相当于将2700个由13714个基因表征的单细胞分别转化成了由512个数值特征组成的向量。为了进一步理解这些表征的内在特征,先对表征结果进行了PCA和UMAP分析,再分别进行了聚类处理,结果如图14所示。从结果可以看出,经过本方案处理后的单细胞分类结果相较于直接使用单一原始数据进行分类的结果有了很大不同,特别是UMAP结果,不同细胞团簇之间界限明显,这为高精度的细胞分类甚至发现新的细胞类型提供了可能性。
参见图15,本发明实施例提供的一种基于人工智能算法的高精度单细胞分类装置,包括一个或多个处理器,用于实现上述实施例中的一种基于人工智能算法的高精度单细胞分类方法。
本发明基于人工智能算法的高精度单细胞分类装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图15所示,为本发明基于人工智能算法的高精度单细胞分类装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图15所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于人工智能算法的高精度单细胞分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (9)
1.一种基于人工智能算法的高精度单细胞分类方法,其特征在于,包括以下步骤:
(1)对原始单细胞数据进行预处理,构建单细胞表达矩阵;
(2)将单细胞表达矩阵通过降维和聚类分析来划分单细胞类别,得到细胞类别标签;
(3)结合蛋白互作网络和基因本体论信息,使用图神经网络方法对基因进行量化表征和分类,得到基因类别标签;
(4)结合单细胞表达矩阵、细胞类别标签、基因类别标签,构建单细胞数据嵌入模型;通过编码器和解码器提取特征,构建由细胞类别标签损失函数和基因类别标签损失函数组成的总损失函数实现细胞和基因特征的平衡,并通过交叉验证和超参数优化训练模型;总损失函数Loss_total的表达式为:
;
式中,表示控制参数,Loss1表示细胞类别标签损失函数,Loss2表示基因类别标签损失函数;
所述细胞类别标签损失函数采用交叉熵损失函数,表达式为:
;
式中,b_size表示训练时一个批次的大小,即单细胞的个数;Ccell表示细胞总类别数,j表示第j个细胞,i表示第i个细胞类别,pj,i表示第j个细胞属于第i种细胞类别的概率,表示第j个细胞属于第i种细胞类别的真实概率;
所述基因类别标签损失函数采用交叉熵损失函数,表达式为:
;
式中,gene_m表示解码器最后一层全连接网络的输出维度,Cgene表示总基因类别,k表示第k个基因,s表示第s种基因类别,Pk,s表示第k个基因属于第s种基因类别的概率,表示第k个基因属于第s种基因类别的真实概率;
(5)将训练好的模型中编码器的隐藏层作为单细胞的嵌入表达矩阵,该层囊括了原始单细胞表达信息、蛋白互作网络、基因本体论信息的多维度数据;最终通过该模型实现单细胞的高精度分类。
2.根据权利要求1所述的基于人工智能算法的高精度单细胞分类方法,其特征在于,所述步骤(1)中,预处理包括标准化和全局归一化处理;单细胞表达矩阵用于描述细胞中基因在不同条件下的表达水平。
3.根据权利要求1所述的基于人工智能算法的高精度单细胞分类方法,其特征在于,所述步骤(2)具体为:将预处理后的单细胞数据降至低级维度,再通过碎石图观测分析主成分分布特征,从而初步确定细胞的总类别数;采用聚类算法对降维后的单细胞数据进行聚类分析,进一步确定细胞的总类别数,得到细胞类别标签。
4.根据权利要求1所述的基于人工智能算法的高精度单细胞分类方法,其特征在于,所述步骤(3)包括以下子步骤:
(3.1)蛋白互作网络图数据构建:以蛋白名作为节点、蛋白之间的相互作用作为边,构建有向蛋白互作网络图数据:
(3.2)基于基因本体论的最短基因通路计算:解析基因本体论的本体文件,提取出生物过程、细胞组分、分子功能三个部分的术语和它们之间的关系;再根据本体文件中的层级关系,构建出每个部分的树状结构,即有向无环图,图中节点表示基因;再利用Dijkstra或Floyd算法计算有向无环图中目标基因到根节点的最短路径,将最短路径拼接后作为目标基因的基因本体论特征;
(3.3)融合蛋白互作网络和基因本体论信息的图数据构建:将目标基因的基因本体论特征作为蛋白互作网络图数据的节点特征,得到初级基因图网络数据;
(3.4)无监督图网络节点嵌入和聚类:采用无监督图神经网络方法在初级基因图网络数据上实现节点嵌入,得到基因表征向量;采用降维方法将基因表征向量降至低级维度;然后采用聚类算法对降维后的基因表征向量进行聚类,从而确定基因的总类别数,以及每个基因所属的类别。
5.根据权利要求1所述的基于人工智能算法的高精度单细胞分类方法,其特征在于,所述步骤(4)中,编码器用于提取、压缩单细胞数据特征,同时去除无关的噪声和冗余信息;所述编码器采用三层全连接网络,其中,三层全连接网络的输出维度以30%递减。
6.根据权利要求1所述的基于人工智能算法的高精度单细胞分类方法,其特征在于,所述步骤(4)中,解码器用于将编码后的结果重新恢复成以细胞作为样本,基因作为特征,同时将缺失值、统计误差、实验误差的噪声进行消除和弱化;所述解码器采用三层全连接网络,其中,三层全连接网络的输出维度以30%递增。
7.根据权利要求1所述的基于人工智能算法的高精度单细胞分类方法,其特征在于,所述步骤(4)中,采用Optuna算法对模型的超参数进行调整,在固定模型的超参数之后,重新训练模型,并实施交叉验证来评估模型的性能。
8.一种基于人工智能算法的高精度单细胞分类装置,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1~7任一项所述的基于人工智能算法的高精度单细胞分类方法。
9.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1~7中任意一项所述的基于人工智能算法的高精度单细胞分类方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411617083.9A CN119132401B (zh) | 2024-11-13 | 2024-11-13 | 一种基于人工智能算法的高精度单细胞分类方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411617083.9A CN119132401B (zh) | 2024-11-13 | 2024-11-13 | 一种基于人工智能算法的高精度单细胞分类方法和装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN119132401A CN119132401A (zh) | 2024-12-13 |
| CN119132401B true CN119132401B (zh) | 2025-02-11 |
Family
ID=93758167
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202411617083.9A Active CN119132401B (zh) | 2024-11-13 | 2024-11-13 | 一种基于人工智能算法的高精度单细胞分类方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119132401B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN121075448A (zh) * | 2025-08-25 | 2025-12-05 | 广州大学 | 融合go功能注释与ppi网络信息的细胞浸润推断方法及系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114783526A (zh) * | 2022-05-11 | 2022-07-22 | 南开大学 | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 |
| CN118571328A (zh) * | 2024-05-20 | 2024-08-30 | 浙江大学 | 一种基于图对比学习的单细胞多组学数据整合方法和系统 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200109544A (ko) * | 2019-03-13 | 2020-09-23 | 울산대학교 산학협력단 | 공통 유전자 추출에 의한 다중 암 분류 방법 |
-
2024
- 2024-11-13 CN CN202411617083.9A patent/CN119132401B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114783526A (zh) * | 2022-05-11 | 2022-07-22 | 南开大学 | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 |
| CN118571328A (zh) * | 2024-05-20 | 2024-08-30 | 浙江大学 | 一种基于图对比学习的单细胞多组学数据整合方法和系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN119132401A (zh) | 2024-12-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Lan et al. | A survey of data mining and deep learning in bioinformatics | |
| US12315600B2 (en) | Genome-wide prediction method based on deep learning by using genome-wide data and bioinformatics features | |
| García et al. | Data preprocessing in data mining | |
| US20240029834A1 (en) | Drug Optimization by Active Learning | |
| CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
| Raza et al. | Understanding and using rough set based feature selection: concepts, techniques and applications | |
| CN119557840B (zh) | 一种基于多模态医学数据的特征融合方法 | |
| CN113535947B (zh) | 一种带有缺失标记的不完备数据的多标记分类方法及装置 | |
| Downey et al. | alineR: An R package for optimizing feature-weighted alignments and linguistic distances | |
| CN119132401B (zh) | 一种基于人工智能算法的高精度单细胞分类方法和装置 | |
| CN121195264A (zh) | 用于预测生物实体的方法和系统 | |
| Lu et al. | Combining transformer-based model and GCN to predict ICD codes from clinical records | |
| CN117476252A (zh) | 一种基于知识图谱的病因病理预测方法 | |
| Salman | Gene expression analysis via spatial clustering and evaluationindexing | |
| CN111581469B (zh) | 基于多子空间表示的偏多标记学习方法 | |
| CN118861848A (zh) | 考虑拓扑特征的智能优化与学习融合的蛋白质分类方法 | |
| Shukla et al. | Application of deep learning in biological big data analysis | |
| Muddana et al. | Python for Machine Learning | |
| CN119943427B (zh) | 一种基于监督学习预测患者辅助检查项目的方法和系统 | |
| Lacalamita | Integrazione di approcci di intelligenza artificiale e reti complesse per l'analisi dei dati genomici e la scoperta di biomarcatori in malattie complesse | |
| Zhou | Gene-based disease classification using bayesian self-organizing map neural networks | |
| Salman | Bootstrap-based Aggregations and their Stability in Feature Selection | |
| de Abreu | Development of DNA Sequence Classifiers Based on Deep Learning | |
| Hashes et al. | Institute of Computer Science University of Bern | |
| Zang et al. | Hierarchical Quantized Diffusion Based Tree Generation Method for Hierarchical Representation and Lineage Analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |