CN116583903A

CN116583903A - 基于机器学习的肽免疫原性预测、鉴别系统及方法

Info

Publication number: CN116583903A
Application number: CN202180080477.3A
Authority: CN
Inventors: 王明杰; 崔辉; 温婧
Original assignee: Shanghai Ruihongdi Pharmaceutical Co ltd
Current assignee: Shanghai Ruihongdi Pharmaceutical Co ltd
Priority date: 2020-12-09
Filing date: 2021-12-09
Publication date: 2023-08-11
Also published as: WO2022121973A1; TW202228153A

Abstract

一种基于机器学习的肽免疫原性预测、鉴别系统及方法。系统包括：数据编码模块、神经网络训练模块、集成学习训练模块、免疫原性预测和/或鉴定模块。

Description

基于机器学习的肽免疫原性预测、鉴别系统及方法

本申请要求2020年12月9日提交的专利申请(申请号CN202011450578.9)和2021年7月5日提交的专利申请(申请号CN202110756286.6)的优先权。

技术领域

本公开属于生物医药领域，提供一种预测和/或鉴定肽由人类白细胞抗原(humanleukocyte antigen,HLA)分子呈递可能性的方法，用于制备免疫治疗肿瘤的疫苗。

背景技术

免疫治疗是近年来兴起的一种新型肿瘤治疗手段。相对于手术切除、传统放化疗、靶向治疗等方法，免疫治疗效果更为显著、副作用较小，且患者获益时间更长。经典的免疫治疗方案使用注射免疫检查点抑制剂达到激活患者免疫细胞的目的，但激活的免疫细胞往往不能特异性攻击肿瘤细胞，反而可能攻击正常细胞，导致免疫治疗仅适用于肿瘤与正常组织差异较大的患者，极大限制了免疫治疗的适用范围、安全性和疗效。在此基础上发展出肿瘤新生抗原疫苗、肿瘤新生抗原体外T细胞激活培养等方法，使激活的免疫细胞对肿瘤细胞的特异性更高，从而提升免疫治疗的泛用性与安全性。

肿瘤新生抗原疫苗和肿瘤新生抗原体外T细胞激活培养等方法的核心是抗原的免疫原性预测，只有免疫原性较高的肿瘤新生抗原制成的疫苗/激活的T细胞才具有疗效，然而这一步骤目前存在较大挑战。使用ELISPOT实验手段能够准确得到肽的免疫原性，但这一实验一次仅能检测数十条肽，不能满足临床需求。使用质谱实验手段能够一次性检测大量肽的免疫原性，但质谱实验周期往往长达数月，实验条件也尚不稳定，临床应用困难较大。

随着机器学习的快速发展以及医学和人工智能的不断融合，采用计算机方法辅助研究生物学和医学领域相关问题成为有力的工具。预测HLA结合的第一种计算方法是SYFPEITHI，但是SYFPEITHI对大多数HLA类型只能预测9个氨基酸和10个氨基酸肽。目前对于肿瘤新生抗原的免疫原性判定大多依赖于公开软件，诸如netMHCpan、MHCflurry等进行预测。NetMHCpan 4.0同时整合了亲和力(binding affinity)以及质谱洗脱配体(MS eluted ligand)数据进行训练，得到了相比使用单一数据训练更好的预测结果。在亲和力测量方面进行训练时，MHCflurry 1.2的整体性能优于标准预测指标NetMHC 4.0和NetMHCpan 3.0(参见O'Donnell,Timothy J.,et al.“MHCflurry:open-source class I MHC binding affinity prediction.”Cell systems 7.1(2018):129-132.)。但是，这些软件的准确度都不足10％，Bonsack等人的研究表明，NetMHCpan 4.0和MHCflurry 1.2并不能明显胜过 PickPocket 1.1、IEDB SMM、IEDB SMMPMBEC以及SYFPEITHI等方法(参见Bonsack,Maria,et al.“Performance evaluation of MHC class-I binding prediction tools based on an experimentally validated MHC–peptide binding data set.”Cancer immunology research 7.5(2019):719-736.)。因此有必要研发新的预测抗原由人类白细胞抗原分子呈递可能性的方法，从而促进肿瘤免疫治疗的发展。

集成学习模型是一种近年来发展较快的机器学习方法，其主要原理是将多个效果较弱的模型进行集成得到一个效果较强的模型。集成学习方法首先训练一个效果较弱的模型，然后依据前一个模型得到的结果训练下一个效果较弱的模型，如此迭代多次，最后将一系列效果较弱的模型集成，即可得到最终的一个效果较强的模型。集成学习的优点在于能够自适应进行参数调整，且多次迭代集成，所以往往准确度较高。

已有集成学习模型包括AdaBoost、XGBoost和LightGBM。AdaBoost是原始的集成学习模型，训练时能够自行优化参数并集成，但其没有多线程功能，且一次会纳入所有数据进行训练，数据集过大时往往耗时过长；XGBoost在此基础上进行了多线程优化，并且随机使用部分数据进行训练，从而提升训练速度与模型性能；LighGBM则使用了不同的参数自优化方法，其训练速度较XGBoost更快，但往往得到的模型准确度略低。目前，未见集成学习模型应用于抗原的免疫原性预测的报道，抗原免疫原性仍然缺乏准确度高、有效的预测模型。

发明内容

本公开提供了一种基于机器学习的肽免疫原性预测和/或鉴定的系统和方法，通过高质量的质谱数据进行参数训练，同时融合神经网络模型和集成学习模型，提升现有预测和/或鉴定方法准确性，解决了免疫原性检测精度低的问题，从而提升下游免疫治疗疗法的有效性与安全性。

本公开提供了一种基于融合神经网络模型和集成学习模型预测和/或鉴定肽由HLA分子呈递可能性的方法。每个呈递可能性代表了相应的肽被一个或多个HLA等位基因呈递在受试者的肿瘤细胞表面上的可能性。

一些实施方案中，所述方法包括模型构建步骤和预测和/或鉴定应用步骤。

一些实施方案中，所述模型构建步骤包括构建数据集；训练神经网络模型和集成学习模型，并进行模型融合。一些实施方案中，包括在质谱实验提供的数据上进行参数训练。

一些实施方案中，所述预测和/或鉴定应用步骤包括预测和/或鉴定待测肽是否将由HLA等位基因呈递的可能性。

本公开从公共数据库获取质谱实验得到的构建数据集数据。合适的数据库包括但不限于可在NCBI、EMBL、GenBank、RefSeq、UCSC数据库等中访问的序列、GenPept、EBI表达谱(https://www.ebi.ac.uk/gxa/home)、UniProtKB/Swiss-Prot (http://www.uniprot.org/)、蛋白质信息资源(Protein Information Resource，PIR)(http://pir.georgetown.edu/pirwww/index.shtml)、COSMIC、MOWSE、DDBJ、PDB、EST、STS、GSS、HTGS、IEDB、SYFPEITHI和MassIVE等本领域的普通技术人员已知的计算机化数据库。

一些实施方案中，数据集数据包括在人群中高频出现HLA分型递呈的阳性肽数据。

一些具体实施方案中，从公共数据库IEDB、SYFPEITHI和MassIVE获取质谱实验得到的肽、免疫原性数据与表达量数据。

作为训练集和测试集的肽序列长度可以是任何长度。一些实施方案中，长度小于或等于50，一些实施方案中，小于或等于40，一些实施方案中，小于或等于30，一些实施方案中，小于或等于20或小于或等于10。

一些具体实施方案中，作为训练集和测试集的肽序列长度是5-15个氨基酸、7-12个氨基酸、8-11个氨基酸，例如5、6、7、8、9、10、11、12、13、14或15个氨基酸。

一些具体实施方案中，训练集包括在人群中高频出现HLA分型递呈的阳性肽。

一些实施方案中，数据集包括阳性肽集和阴性肽集。

所述阳性肽集包括从由一个或多个不同的HLA等位基因编码的表面结合或分泌的HLA/肽复合物中鉴定或推断出的肽的条目。一些实施方案中，阳性肽集包括被人群中高频出现HLA分型递呈的阳性肽。

所述阴性肽集包括从表面结合或分泌的HLA肽复合物中未鉴定或未推断出的肽的条目。

一些实施方案中，数据集分为一个或多个训练数据集(训练集)和一个或多个测试数据集(测试集)。

一些实施方案中，数据集中阳性肽集和阴性肽集按照1:1至1:20000混合，一些实施方案中，1:1至1:10000混合、1:1至1:5000混合、1:1至1:4000混合、1:1至1:3000混合、1:1至1:2000混合、1:1至1:1000混合、1:1至1:500混合。例如1:20000、1:10000、1:5000、1:2000、1:1000、1:500、1:300、1:150、1:100、1:50、1:10、1:1。

一些具体实施方案中，数据集包括单等位基因数据集和/或多等位基因数据集。

一些具体实施方案中，训练集基于由表达单个HLA等位基因产生的训练数据训练模型。

一些具体实施方案中，训练集基于表达单个HLA等位基因、表达多个HLA等位基因或其组合产生的训练数据训练模型。

模型构建步骤包括数据集预处理，一些实施方案中，模型训练之前将数据集中的数据进行数据编码。一些实施方案中，包括将数据集中肽、表达量、HLA分型数据进行数字化编码。例如，将HLA分型和肽序列氨基酸编码，连同表达量数据与肽所属蛋白家族ID输入模型之中进行训练。

一些实施方案中，使用独热编码(one-hot)、BLOMAP、PSSM、word2vec或BLOSUM62，将肽、HLA分型数据编码成多个数字组成的数据行。

一些具体实施方案中，使用独热编码。使用N位状态寄存器对N种状态进行编码。本公开实施例中肽序列的氨基酸，总计有21位状态(20种氨基酸加1个空位，空位用Z表示，状态顺序按氨基酸缩写字母顺序A-Z)。对于第一种状态氨基酸A(Alanine，丙氨酸)，其独热编码。

一些具体实施方案中，编码为[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]；对于最后一种状态空位，其独热编码。独热编码为[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1]；其他状态以此类推。

一些具体实施方案中，使用Scikit-learn 0.20.3实现独热编码。

一些实施方案中，神经网络模型包括全连接神经网络、卷积神经网络、长短期记忆神经网络等。一些具体实施方案中，所述神经网络模型为全连接神经网络模型。

一些实施方案中，利用全连接神经网络模型在质谱实验数据上进行参数训练，具体为：

假定有m个训练肽，每个肽对应n个HLA分型：

其中为各训练肽经数据编码后的数据矩阵(不包含HLA分型)，为各训练肽在质谱实验中的阳性/阴性标签，β _target1为神经网络系数矩阵，经交叉验证训练得到准确度最大时的系数。

一些具体实施方案中，经3倍或5倍交叉验证训练。

一些实施方案中，全连接神经网络模型架构为3-5层，例如3层、4层、5层。一些具体实施方案中，全连接神经网络模型架构4层，每层神经元个数依次为256、32、16和1。

一些实施方案中，激活函数为sigmoid、tanh、relu、softmax。

一些实施方案中，损失函数为Negative Bernoulli’s log loss或交叉熵(Cross entropy)。一些具体实施方案中交叉熵为binary crossentropy。

一些实施方案中，神经网络初始化为Glorot初始化、Kaiming初始化、lecun初始化或批标准化(Batch Normalization)。

一些实施方案中，集成学习模型包括Bagging和Boosting。例如随机森林、Adaboost，梯度提升决策树(GBDT)，XGboost，LightGBM。

一些具体实施方案中，集成学习模型为XGBoost。

一些具体实施方案中，利用XGBoost集成学习模型在质谱实验数据上进行参数训练，具体为：

假定有m个训练肽，每个肽对应n个HLA分型：

其中为各训练肽经数据编码后的数据矩阵(包含HLA分型)，为各训练肽在质谱实验中的阳性/阴性标签，β _target2为集成学习系数矩阵，经交叉验证训练得到准确度最大时的系数。

一些具体实施方案中，经3倍或5倍交叉验证训练。

一些实施方案中，通过测试集阳性预测值(positive predictive values，PPV)作为优选目标，优化模型参数与架构。

优化集成学习模型的参数包括分类树的最大深度(max depth)、一个子节点所需的最小实例权重总和(min child weight)、构造每棵树时列的子采样比率(colsample bytree)、叶节点上划分所需的最小损失减少(gamma)、最大的弱学习器的个数(n estimators)、学习率(learning rate)和训练实例的子样本比率(subsample)。

一些具体实施方案中，max depth选自3-10、4-8，例如3、4、5、6、7、8、9、10。

一些具体实施方案中，min child weight选自2-10、3-9、4-8，例如2、3、4、5、6。

一些具体实施方案中，colsample bytree选自0.40-1.1、0.5.-0.90、0.50-0.80、0.50-0.60、0.45-0.55、0.50-0.54。

一些具体实施方案中，gamma选自0.01-1.0、0.05-1.0、0.1-1.0、0.2-0.9、0.3-0.8、0.4-0.7、0.5-0.6。

一些具体实施方案中，n estimators选自100-2500、500-2300、1000-1800、1500-1700、1550-1650。

一些具体实施方案中，learning rate选自0.01-0.5，例如0.02-0.5、0.03-0.45、0.04-0.40、0.05-0.35、0.06-0.30、0.07-0.25。

一些具体实施方案中，subsample选自0.5-1、0.6-0.9、0.7-0.8。

一些实施方案中，预测和/或鉴定肽由HLA分子呈递可能性，包括融合神经网络模型系数矩阵和集成学习模型系数矩阵。

一些具体实施方案中，包括对于神经网络模型和集成学习模型进行融合。

一些实施方案中，融合神经网络模型和集成学习模型的策略包括平均法、投票法和学习法，其中，平均法包括简单平均法或加权平均法。

一些实施方案中，融合包括将集成学习模型的输出在神经网络模型中的得分乘以权重系数，组成最终模型。

一些具体实施方案中，通过阳性预测值(positive predictive values，PPV)作为优选目标，优化权重系数。

一些实施方案中，权重系数选自0.1-0.00001、0.005-0.0001、0.05-0.0001、0.02-0.001、0.01-0.005，例如0.1、0.05、0.02、0.01、0.005、0.002、0.001、0.0005、0.0002、0.0001。

一些实施方案中，预测和/或鉴定肽由HLA分子呈递可能性的方法，包括根据待测样本预测和/或鉴定待测样本各肽由HLA分子呈递可能性。

一些实施方案中，包括根据待测样本的肽、表达量和HLA分型数据预测和/或鉴定待测样本各肽由HLA分子呈递可能性。

一些实施方案中，对待测样本进行与模型构建阶段相同的预处理。将处理后的待预测和/或鉴定数据输入至模型中预测和/或鉴定，并使用划定阈值进行分类，输出待预测和/或鉴定数据的免疫原性分类结果。

一些实施方案中，对待测样本进行数据编码。

一些实施方案中，使用独热编码(one-hot)、BLOMAP、PSSM、word2vec或BLOSUM62，将待测样本肽、HLA分型数据编码成多个数字组成的数据行。

一些具体实施方案中，使用Scikit-learn 0.20.3实现独热编码。

一些实施方案中，对待测和/或鉴定样本的肽进行与模型构建阶段相同的预处理，将处理后的待预测和/或鉴定数据输入至模型中预测和/或鉴定，并使用划定阈值进行分类，输出待预测和/或鉴定数据的由HLA分子呈递可能性结果。待测样本中高于该阈值的的肽被预测和/或鉴定为由HLA分子呈递。

一些实施方案中，待预测和/或鉴定数据集还包括以下至少一种：肽中的至少一个的肽-HLA结合亲和力测量值相关的数据；及与所述肽中的至少一个的肽-HLA结合稳定性测量值相关的数据。

一些实施方案中，用于预测和/或鉴定待测肽的免疫原性具体为：

其中X为各肽经数据编码模块编码后得到的数据行。

一些实施方案中，以得分最高的0.1％选为阳性(top 0.1％)或40％召回率下的阳性预测值(recall 0.4)作为阈值，待测样本中高于该阈值的的肽被预测和/或鉴定为由HLA分子呈递。

一些具体实施方案中，以recall 0.4作为阈值。

本公开待预测和/或鉴定样本的肽，包括从受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中该肿瘤核苷酸测序数据被用于获得肽的数据。

一些实施方案中，待预测和/或鉴定样本包括以下至少一种：被工程改造成表达单个HLA等位基因的细胞系；被工程改造成表达多个HLA等位基因的细胞系；从多个患者获得或得到的人细胞系；从多个患者获得的新鲜或冷冻的肿瘤样品；以及从多个患者获得的新鲜或冷冻的组织样品。

一些实施方案中，呈递可能性任选地进一步通过如由RNA-seq或质谱法测量受试者中一个或多个HLA等位基因的表达水平鉴别。一些具体实施方案中，待测样本数据集预处理与构建模型相同。一些具体实施方案中，待测样本数据集使用独热编码(one-hot)、BLOMAP、PSSM、word2vec或BLOSUM62，将待测样本肽、HLA分型数据编码成多个数字组成的数据行。

一些实施方案中，预测和/或鉴定选自单HLA等位基因预测和/或鉴定、多等位基因预测和/或鉴定。

一些实施方案中，本公开融合的神经网络模型和集成学习模型，选自单等位基因模型、多等位基因模型。

一些具体实施方案中，单等位基因模型在单HLA等位基因的基础上构建模型并预测和/或鉴定肽是否将由相关HLA等位基因呈递的可能性。

一些具体实施方案中，多等位基因模型在存在两个或更多个HLA等位基因的多等位基因环境中构建模型，并预测和/或鉴定肽是否将由多个HLA等位基因呈递的可能性。

一些具体实施方案中，两个或更多个HLA等位基因包括两个或更多个不同的HLA等位基因。

一些具体实施方案中，HLA等位基因包括I类HLA等位基因。

一些具体实施方案中，HLA等位基因包括II类HLA等位基因。

一些具体实施方案中，HLA等位基因包括HLA-A、HLA-B、HLA-C、HLA-E、HLA-F、HLA-G、HLA-DQ、HLA-DR、HLA-DP。

一些具体实施方案中，HLA等位基因选自A*01:01,A*02:01,A*02:03,A*02:04,A*02:07,A*03:01,A*24:02,A*29:02,A*31:01,A*68:02,B*35:01,B*44:02,B*44:03,B*51:01,B*54:01,B57:01,C*03:02,C*03:04,C*04:01,C*05:01,C*06:02,C*08:01,C*08:02,C*12:02,C*14:02,C*14:03,C*15:02和C*16:01。本领域技术人员已知，存在上述HLA类型的等位基因变体，本发明涵盖所有这些等位基因变体。HLA类等位基因的完整列表可见于http：//hla.alleles.org/alleles/。例如，可以在http：//hla.alleles.org/alleles/class1.html上找到HLA I类等位基因的完整列表。

一些具体实施方案中，本公开提供基于融合的神经网络模型和集成学习模型预测和/或鉴定肽或肽的组合由HLA分子呈递可能性的方法，包括：

步骤1：数据编码，将肽、表达量、HLA分型数据等进行数字化编码；

步骤2：神经网络模型训练，利用全连接神经网络模型，在质谱实验提供的数据上进行参数训练；

步骤3：集成学习模型训练，利用集成学习模型，在质谱实验提供的免疫原性数据上进行参数训练；

步骤4：肽由HLA分子呈递可能性预测和/或鉴定，将待预测和/或鉴定样本的肽、表达量和HLA分型数据，根据神经网络系数矩阵和集成学习系数矩阵，预测和/或鉴定样本各肽由HLA分子呈递可能性。

本公开提供了一种基于融合神经网络模型和集成学习模型预测和/或鉴定肽由HLA分子呈递可能性的方法，所述方法包括：构建数据集和数据编码；训练、融合神经网络模型和集成学习模型；预测和/或鉴定肽由HLA分子呈递可能性，其中，数据集、数据编码、训练、融合、神经网络模型、集成学习模型、预测和/或鉴定如本公开所述。

本公开提供了机器学习模型在制备mRNA、多肽疫苗、抗肿瘤药物或肿瘤疫苗中的应用。一些具体实施方案中，机器学习模型为本公开提供的融合的神经网络模型和集成学习模型。

本公开提供了用于鉴别来自受试者的一个或多个肿瘤细胞的可能被一个或多个HLA等位基因呈递在所述肿瘤细胞表面上的至少一种肽的方法，包括通过本公开所述预测和/或鉴定肽由HLA分子呈递可能性的方法。

本公开提供了本公开所述预测和/或鉴定肽由HLA分子呈递可能性的方法在制备mRNA、多肽疫苗、抗肿瘤药物或肿瘤疫苗中的应用。

一些具体实施方案中，肿瘤选自由以下组成的组：肺癌、黑色素瘤、乳癌、卵巢癌、前列腺癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病和T细胞淋巴细胞性白血病、非小细胞肺癌和小细胞肺癌。

一些实施方案中，该方法进一步包括从被预测和/或鉴定为由HLA分子呈递的肽或肽的组合产生用于构建个性化癌症疫苗的输出。在这样的实施方案中，个性化癌症疫苗的输出可包括编码所述选定的肽或肽的组合的至少一个肽或至少一个多核苷酸。

另一方面，提供了基于本公开的基于融合的神经网络模型和集成学习模型，鉴别肿瘤中变体或等位基因突变的方法。

一些实施方案中，包括鉴别在肿瘤细胞中具有突变的肽或由例如剪接位点突变、移码突变、通读突变或基因融合突变产生的突变多肽。

本公开提供了一种肽或肽的组合，其包括一种或多种由本公开所述的方法预测和/或鉴定的肽。

本公开提供了一种肽或肽的组合，其包括一种或多种由本公开所述的方法预测和/或鉴定为由HLA分子呈递的肽。

一些实施方案中，肽是以高于野生型肽的亲和力呈递于HLA蛋白质上。

一些具体实施方案中，肽的IC50值可以是至少低于5000nM、至少低于1000nM、至少低于500nM、至少低于250nM、至少低于200nM、至少低于150nM、至少低于100nM、至少低于50nM或更低。

一些实施方案中，肽的长度包括但不限5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、60、70、80、90、100、110、120或更多个氨基分子残基，以及由其中可衍生的任何范围。在特定实施方案中，肽的长度等于或少于50个氨基酸。

一些实施方案中，肽的组合包括至少两个或更多个肽。

一些具体实施方案中，该组合含有至少两个不同的肽。

一些实施方案中，具有所希望的活性或特性的肽可以被修饰成用于提供某些所希望的属性，例如改良的药理学特征，同时增加或至少保持未修饰肽的大体上所有生物活性以结合所希望的HLA分子并活化适当T细胞。

本公开提供了用于鉴别来自受试者的一个或多个肿瘤细胞的可能被一个或多个HLA等位基因呈递在所述肿瘤细胞表面上的至少一种肽的方法，所述肽选自本公开所述的方法预测和/或鉴定的肽。

本公开提供了一种分离的T细胞，其对本公开所述的肽或肽的组合具有特异性。

本公开提供了一种多核苷酸，其编码本公开所述的肽或肽的组合。

一些实施方案中，多核苷酸可以是例如单链和/或双链DNA、cDNA、PNA、CAN、RNA(例如mRNA)，或多核苷酸的天然或化学修饰形式，或其组合，并且该多核苷酸可以含有或可以不含内含子。

一些具体的实施方案中，多核苷酸选自mRNA。

一些实施方案中，多核苷酸被直接递送。

一些实施方案中，多核苷酸通过递药系统递送。各种递药系统是已知的并且可以用于本公开的多核苷酸，例如封装在病毒载体、mRNA载体、DNA载体、脂质体中。

一些具体的实施方案中，多核苷酸与阳离子性化合物，如阳离子性脂质，形成复合物递送。

本公开提供了一种载体，其含有如本公开所述多核苷酸，所述载体为真核表达载体、原核表达载体或病毒载体。

另一方面，本公开提供了一种宿主细胞，其包含本公开所述的载体；一些实施方案中，所述宿主细胞为细菌、酵母、哺乳动物细胞，一些实施方案中，所述宿主细胞为大肠杆菌、毕赤酵母、中国仓鼠卵巢细胞或人胚肾293细胞。

本公开提供了一种制备肽的方法，所述肽由本公开所述的方法预测和/或鉴定。

一些实施方案中，所述肽由本公开所述的方法预测和/或鉴定为由HLA分子呈递。

一些实施方案中，所述肽为本公开所述的肽或肽的组合。

本公开提供了一种制备肽的方法，包含本公开所述的预测和/或鉴定肽由HLA分子呈递可能性方法的步骤。

本公开提供了一种制备多核苷酸的方法。

一些实施方案中，所述多核苷酸编码由本公开所述的方法预测和/或鉴定的由HLA分子呈递的肽。

一些实施方案中，所述多核苷酸编码本公开所述的肽或肽的组合。

一些实施方案中，所述多核苷酸为本公开所述的多核苷酸。

本公开提供了抗原，其包括本公开所述的多核苷酸或肽。

一些实施方案中，抗原包括了编码肽或其部分的多核苷酸。该多核苷酸可以是例如单链和/或双链DNA、cDNA、PNA、CAN、RNA(例如mRNA)，或多核苷酸的天然或化学修饰形式，或其组合，并且该多核苷酸可以含有或可以不含内含子。

一些实施方案中，抗原包括通过本公开的方法预测和/或鉴定的肿瘤特异性突变的分离的肽、包含已知肿瘤特异性突变的肽，以及通过本文所公开的方法预测和/或鉴定的肽或其片段。一些实施方案中，一种或多种抗原可以被呈递在肿瘤表面上。

一些实施方案中，一种或多抗原可以在患肿瘤的受试者中具有免疫原性，例如能够在该受试者体内引起T细胞应答或B细胞应答。

一些实施方案中，在产生用于患肿瘤的受试者的疫苗的情况下，可以考虑排除在受试者体内诱导自体免疫应答的一种或多种抗原。

一些实施方案中，提供了一种能够表达肽或其部分的表达载体。

本公开的抗原可以使用本领域中已知的方法制造，包括在适于表达所述抗原或肽或载体的条件下培养宿主细胞，其中所述宿主细胞包含至少一个编码抗原或肽或载体的多核苷酸；以及纯化所述抗原或肽或载体。标准纯化方法包括色谱技术、电泳技术、免疫技术、沉淀、透析、过滤、浓缩和等电聚焦技术。

另一方面，本公开提供了一种能够引起特异性免疫应答(例如肿瘤特异性免疫应答)的组合物，其包含多个使用本公开所描述的方法预测和/或鉴定的肽或编码肽或其部分的多核苷酸。

一些实施方案中，组合物为mRNA、多肽疫苗、抗肿瘤药物或肿瘤疫苗。

一些实施方案中，组合物能够在该受试者体内引起T细胞应答或B细胞应答。

一些实施方案中，组合物为免疫原性组合物例如疫苗组合物，或药物组合物。

一些实施方案中，疫苗组合物或药物组合物包括个数在1个与30个之间的肽，即2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个不同的肽。

一些实施方案中，可以通过若干方式设计出更长的肽。在一种情况下，当预测和/或鉴定出或已知肽在HLA等位基因上呈递的可能性时，较长的肽可以由以下任一种组成：(1)朝各相应基因产物的N末端和C末端延伸2-5个氨基酸的个别呈递的肽；(2)一些或全部呈递肽与各自的延伸序列的串接。在另一情况下，当测序披露在肿瘤中存在较长的(>10个残基)新表位(例如由产生新颖肽的移码、通读或包括内含子引起)时，较长的肽将由以下组成：(3)由新颖肿瘤特异性氨基酸组成的整个延伸段，由此绕过了对基于计算或体外测试来选择HLA呈递最强的较短肽的需求。在两种情况下，较长链的使用使患者细胞能够进行内源性加工并且可以产生更有效的抗原呈递和T细胞应答的诱导作用。

一些具体实施方案中，肽可以包括翻译后修饰。

肽可以通过本领域技术人员已知的任何技术制备，包括通过标准分子生物学技术表达多肽或肽、从天然来源分离肽，或化学合成肽。先前已公开对应于各种基因的多核苷酸和蛋白质、多肽和肽，并且可以见于本领域普通技术人员已知的计算机化数据库。一种此类数据库是位于美国国家卫生研究院(NationalInstitutes of Health)网站的国家生物技术信息中心(National Center forBiotechnology Information)的Genbank和GenPept数据库。已知基因的编码区可以使用本文所公开或本领域普通技术人员已知的技术扩增和/或表达。或者，本领域技术人员已知肽和肽序列的各种市售制剂。

一些实施方案中，疫苗组合物或药物组合物包括个数在1个与100个之间或更多个多核苷酸序列，即2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94,95、96、97、98、99、100或更多个不同的多核苷酸序列。

一些实施方案中，不同肽或编码其的多核苷酸的选择使得这些肽能够与不同HLA分子，如不同的I类HLA分子和/或不同的II类HLA分子缔合。

一些具体实施方案中，疫苗组合物或药物组合物包含能够与最常出现的I类HLA分子和/或II类HAL分子缔合的肽。例如，疫苗组合物可以包含能够与至少2个、至少3个或至少4个I类HLA分子和/或II类HLA分子缔合的不同片段。

一些实施方案中，该疫苗组合物或药物组合物能够引起特异性细胞毒性T细胞应答和/或特异性辅助T细胞应答。

一些实施方案中，疫苗组合物还包括佐剂和/或载体。

一些实施方案中，药物组合物还包括药学上可接受的载体。

一些实施方案中，组合物也可以被包括在基于病毒载体的疫苗或药物平台中，如牛痘、禽痘、自复制型α病毒、马拉巴病毒、腺病毒或慢病毒。

一些实施方案中，组合物可以被包括在脂质体中。

一些实施方案中，组合物可以通过肠胃外施用，例如静脉内、皮下、皮内或肌肉内施用。例如可以制备供静脉内注射、皮下注射、皮内注射、腹膜内注射、腹腔注射、肌肉内注射的组合物。

一些实施方案中，本公开组合物包含肽或编码肽或其部分的多核苷酸溶液并且被溶解或悬浮于可接受的载体，例如水性载体中。这些组合物可以通过众所周知的常规灭菌技术灭菌，或者可以经历无菌过滤。由此得到的制剂可以被包装起来按原样使用，或者被冻干；冻干制剂在复溶后施用。

另一方面，本公开提供了一种通过向受试者施用一种或多种抗原或肽，如使用本文所公开的方法预测和/或鉴定的多个抗原或肽来诱导受试者的肿瘤特异性免疫应答、针对肿瘤接种疫苗、治疗和或缓解受试者的癌症症状的方法。

一些实施方案中，肿瘤可以是任何实体肿瘤，如乳房肿瘤、卵巢肿瘤、前列腺肿瘤、肺肿瘤、肾肿瘤、胃肿瘤、结肠肿瘤、睾丸肿瘤、头颈部肿瘤、胰腺肿瘤、脑肿瘤、黑素瘤及其它组织器官肿瘤；以及血液肿瘤，如淋巴瘤和白血病，包括急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病、T细胞淋巴细胞性白血病及B细胞淋巴瘤。

一些实施方案中，抗原或肽可以单独施用或与其它治疗剂组合施用。

一些具体实施方案中，治疗剂是例如化学治疗剂、放射或免疫疗法。针对特定癌症的任何适合的治疗性治疗都可以施用。

另一方面，本公开提供了一种制造肿瘤疫苗的方法，该方法包括执行本公开的方法的各个步骤；及产生包含多个抗原或肽或该多个抗原或肽的子集的肿瘤疫苗。一些实施方案中，制造肿瘤疫苗的方法包括通过鉴别来自受试者的一种或多种肿瘤细胞的可能呈递于所述肿瘤细胞表面上的一种或多种抗原或肽的步骤。

一些实施方案中，制造肿瘤疫苗的方法包括以下步骤：从受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中该肿瘤核苷酸测序数据用于获得肽或肽的组合的数据；将每个肽的数据输入到一个或多个机器学习系统中，以产生肽或肽的组合中的每一者在受试者肿瘤细胞的肿瘤细胞表面上由一个或多个HLA等位基因递呈的数值可能性集合，该数值可能性集合任选地基于所接收的质谱数据进行鉴定；以及基于该数值可能性集合选择该肽或肽的组合的子集，以产生经选择的肽或肽的组合；以及产生或已产生包含该经选择的肽或肽的组合的肿瘤疫苗。本公开治疗和/或预防方法中所用化合物或组合物的剂量通常将随疾病的严重性、患者的体重和化合物的相对功效而改变。不过，作为一般性指导，合适的单位剂量可以是0.1～1000mg。

如本领域技术人员所熟知的，药物的给药剂量依赖于多种因素，包括但并非限定于以下因素：所用具体化合物的活性、患者的年龄、患者的体重、患者的健康状况、患者的行为、患者的饮食、给药时间、给药方式、排泄的速率、药物的组合等；另外，最佳的治疗方式如治疗的模式、通式化合物(I)的日用量或可药用的盐的种类可以根据传统的治疗方案来验证。

本公开还提供了计算机系统，其包括计算机处理器和存储计算机程序指令的内存，该计算机程序指令在被计算机处理器执行时使计算机处理器执行本公开上述方法的实施方案。

一些实施方案中，本公开计算机系统，能够基于融合神经网络模型和集成学习模型预测和/或鉴定肽由HLA分子呈递可能性。

一些具体实施方案中，本公开系统包括：

数据编码模块：用于将肽、表达量、HLA分型等数据进行数字化编码；

神经网络训练模块：与数据编码模块相连，利用全连接神经网络模型，在质谱实验数据上进行参数训练；

集成学习训练模块：与数据编码模块相连，利用集成学习模型在质谱实验数据上进行参数训练；

免疫原性预测和/或鉴定模块：与神经网络训练模块和集成学习模块相连。基于待测样本的肽、表达量和HLA分型数据，根据神经网络系数矩阵和集成学习系数矩阵，用于预测和/或鉴定HLA分子呈递可能性。

本公开还提供了计算机可读介质，其具有存储于其上用于实现本公开所述方法的计算机可执行指令。

一些实施方案中提供了计算机可读介质，其具有存储于其上用于实现本公开所述预测和/或鉴定肽由HLA分子呈递可能性方法的计算机可执行指令。

本公开还提供了一种装置，包括用于存储程序的存储器以及用于执行所述程序的处理器，以实现本公开所述的方法。

一些实施方案中提供了一种预测和/或鉴定肽由HLA分子呈递可能性的装置，包括用于存储程序的存储器以及用于执行所述程序的处理器，以实现本公开所述的预测和/或鉴定方法。

本公开还提供了一种HLA等位基因特异性结合信息数据库，其包括本公开所述的方法预测和/或鉴定的肽的信息和/或编码本公开所述的方法预测和/或鉴定的肽的多核苷酸信息。

本公开还提供了一种HLA等位基因特异性结合肽序列数据库，包括根据本公开方法预测和/或鉴定的肽序列信息。

附图说明

图1为基于融合神经网络模型和集成学习模型预测肽由HLA分子呈递可能性的系统和方法的流程图。

图2为神经网络模型召回率40％时的阳性预测值。

图3为实施例4中本公开与质谱实验数据的阳性肽特征比较。

图4为实施例6扩充机器学习模型系统阳性肽集后，召回率40％时的阳性预测值。

图5为质谱分析样品蛋白免疫印迹实验。

图6为质谱分析样品银染实验。

具体实施方式

术语：

为了更容易理解本申请，以下具体定义了某些技术和科学术语。除显而易见在本文件中的它处另有明确定义，否则本文使用的所有其它技术和科学术语都具有本申请所属领域的一般技术人员通常理解的含义。

本申请所用氨基酸三字母代码和单字母代码如J.Biol.Chem,243,p3558(1968)中所述。“抗原”是诱导免疫应答的物质，包括与抗体或T淋巴细胞(T细胞)特异性反应的肽或蛋白质，本公开抗原可以包括至少一个使其不同于相应野生型亲本抗原的变化的抗原，例如，该变化是肿瘤细胞突变或肿瘤细胞特异性翻译后修饰。抗原可以包括多肽或多核苷酸。突变可以包括移码或非移码插入缺失、错义或无义取代、剪接位点变化、基因组重排或基因融合，或产生由突变或其它异常如剪接而产生的肿瘤特异性开放阅读框的任何基因组或表达变化。突变还可以包括剪接变体。肿瘤细胞特异性翻译后修饰可以包括异常磷酸化。肿瘤细胞特异性翻译后修饰还可以包括蛋白酶体产生的剪接抗原。

“肿瘤抗原”是存在于受试者的肿瘤细胞或组织中但不存在于受试者的相应正常细胞或组织中的抗原。

“诱导免疫应答”和“增强免疫应答”可互换使用，并指免疫应答对特定抗原的剌激(即，被动或适应性的)。在对象中诱导免疫应答之后，所述对象被保护免于发生疾病(例如癌症疾病)或者通过诱导免疫应答使疾病状况得到改善。例如，对肿瘤所表达抗原的免疫应答可在患有癌症疾病的患者中或者在有风险发生癌症疾病的对象中被诱导。在这种情况下，诱导免疫应答可意味着对象的疾病状况得到改善，对象没有发生转移，或者有风险发生癌症疾病的对象没有发生癌症疾病。

“免疫原性”是例如通过T细胞、B细胞或两者引发免疫应答的能力。

“肽”、“肽序列”、“肽段”与“多肽”可互换使用，并指氨基酸残基的链，通常具有确定的序列，包括肽的变体或片段，肽片段可以是单体或聚合的。“肽”包含通过修饰或未修饰的肽键连接的至少两个氨基酸的任何肽，L-氨基酸和D-氨基酸均可使用。肽可包含修饰的氨基酸，例如可通过自然过程如转录后修饰或通过化学过程进行修饰。这些修饰的一些实例是：乙酰化，酰化，ADP-核糖基化，酰胺化，与黄素的共价键合，与血红素的共价键合，与核苷酸或核苷酸衍生物的共价键合，与修饰或未修饰的碳水化合物部分的共价键合，与脂质或脂质衍生物键合，与磷脂酰肌醇共价键合，交联，环化，二硫键形成，去甲基化，半胱氨酸分子形成，焦谷氨酸形成，甲酰化，γ-羧化，羟基化，碘化，甲基化，氧化，磷酸化，外消旋化，羟基化等。

“多核苷酸”或“核酸”指任何长度的核苷酸链，包括DNA和RNA。核苷酸可为脱氧核糖核苷酸、核糖核苷酸、经修饰的核苷酸或碱基和/或其类似物、或者可通过DNA或RNA聚合酶掺入链内的任何底物。多核苷酸可包含经修饰的核苷酸，例如甲基化的核苷酸及其类似物。如果存在的话，可在链组装之前或链组装之后赋予对核苷酸结构的修饰。多核苷酸还可含有本领域一般已知的核糖或脱氧核糖糖的类似形式，包括例如2后赋予对甲基-、2基赋予对烯丙基、2丙基氟-或2丙-叠氮基-核糖、碳环糖类似物、α-或β-异头糖、差向异构糖(如阿拉伯糖、木糖或来苏糖、吡喃糖、呋喃糖、景天庚酮糖)、无环类似物和无碱基核苷类似物如甲基核糖苷。

“抗原加工”或“加工”是指多肽或抗原到加工产物(为所述多肽或抗原之片段)的降解(例如，多肽到肽的降解)以及这些片段中的一个或更多个与MHC分子的相关联(例如，通过结合)来被细胞(优选抗原呈递细胞)呈递到特异性T细胞。

“抗原呈递细胞”(APC)是在其细胞表面展示与MHC分子相关联之蛋白质抗原的肽片段的细胞。一些APC可活化抗原特异性T细胞。

“HLA亲和力”是特定抗原与特定HLA等位基因之间的结合亲和力。

“疫苗”是指其在施用后诱导识别并攻击病原体或病变细胞如癌症细胞的免疫应答，特别是细胞免疫应答。疫苗可用于预防或治疗疾病。

“个体化癌症疫苗”涉及特定的癌症患者并且意指癌症疫苗适合于个体癌症患者的需要或特殊情况。

“神经网络”是用于分类或回归的机器学习模型，由多层线性变换，继之以通常通过随机梯度下降和反向传播训练的逐元素非线性组成。

“集成学习”是指将多个学习模型进行组合，以获得更好的预测效果，从而使组合后的模型具有更强的泛化能力，或者说具有更强的普适性。

“XGBoost”运用集成学习思想来进行结果/标签的预测。XGBoost通常可以用于解决两种问题，包括分类问题和回归问题。

“训练集”是指用于训练的样本集合主要用来训练学习模型中的参数。

“验证集”是指用于验证模型性能的样本集合，不同学习模型在训练集上训练结束后，通过验证集来比较判断各个模型的性能。

“程序”或“计算机程序”通常是指符合特定编程语言规则的语法单位，其由声明和语句或者指令组成，可以分成解决或执行某功能、任务或问题所需的“代码段”。

“系统”或“计算机系统”通常是指一个或多个进行数据处理的计算机，外部设备以及软件。“用户”或“系统操作者”通常包括通过“用户装置”(例如，计算机、无线装置等)接入并使用计算机网络的人，其目的在于数据处理和信息交换。

“计算机”通常是能够进行实质性计算(substantial computation)，包括大量的没有人为干预的算术运算和逻辑运算的功能单元。

“应用软件”或“应用程序”通常是指特意解决应用问题的软件或程序。

“受试者”涵盖细胞、组织或生物体、人或非人，无论是体内、离体还是体外，雄性还是雌性的。术语受试者包括含人在内的哺乳动物。

“核酸”是脱氧核糖核酸(DNA)或核糖核酸(RNA)。根据本公开，核酸包括基因组DNA、cDNA、mRNA、重组产生的和化学合成的分子。根据本公开，核酸可以以单链或双链的以及线性或共价环状闭合的分子存在。根据本公开的核酸可以是分离的。根据本公开，术语“分离的核酸”意指所述核酸为(i)体外扩增的，例如通过聚合酶链反应(PCR)，(ii)通过克隆重组产生的，(iii)纯化的，例如通过切割和经凝胶电泳分离，或(iv)合成的，例如通过化学合成。可用核酸引入(即转染)细胞，尤其是，可通过体外转录从DNA模板制备的RNA形式。RNA还可在应用之前通过稳定序列、加帽和聚腺苷酸化进行修饰。

“制备”包含大规模生产过程中的制备和实验室制备。

“预测”意指前瞻性的确定或鉴别。

“给予”和“处理”当应用于动物、人、实验受试者、细胞、组织、器官或生物流体时，是指外源性药物、治疗剂、诊断剂或组合物与动物、人、受试者、细胞、组织、器官或生物流体的接触。“给予”和“处理”可以指例如治疗、药物代谢动力学、诊断、研究和实验方法。细胞的处理包括试剂与细胞的接触，以及试剂与流体的接触，其中所述流体与细胞接触。“给予”和“处理”还意指通过试剂、诊断、结合组合物或通过另一种细胞体外和离体处理例如细胞。“处理”当应用于人、兽医学或研究受试者时，是指治疗处理、预防或预防性措施，研究和诊断应用。

“治疗”意指给予患者内用或外用治疗剂，诸如包含本文的任一种结合化合物的组合物，所述患者具有一种或多种疾病症状，而已知所述治疗剂对这些症状具有治疗作用。通常，在受治疗患者或群体中以有效缓解一种或多种疾病症状的量给予治疗剂，无论是通过诱导这类症状退化还是抑制这类症状发展到任何临床右测量的程度。有效缓解任何具体疾病症状的治疗剂的量(也称作“治疗有效量”)可根据多种因素变化，例如患者的疾病状态、年龄和体重，以及药物在患者产生需要疗效的能力。通过医生或其它专业卫生保健人士通常用于评价该症状的严重性或进展状况的任何临床检测方法，可评价疾病症状是否已被减轻。尽管本本的实施方案(例如治疗方法或制品)在缓解单个患者的目标疾病症状方面可能无效，但是根据本领域已知的任何统计学检验方法如Student t检验、卡方检验、依据Mann和Whitney的U检验、Kruskal-Wallis检验(H检验)、Jonckheere-Terpstra检验和Wilcoxon检验确定，其在统计学显著数目的患者中应当减轻目标疾病症状。

“保守修饰”或“保守置换或取代”是指具有类似特征(例如电荷、侧链大小、疏水性/亲水性、主链构象和刚性等)的其它氨基酸置换蛋白中的氨基酸，使得可频繁进行改变而不改变蛋白的生物学活性。本领域技术人员知晓，一般而言，多肽的非必需区域中的单个氨基酸置换基本上不改变生物学活性(参见例如Watson等(1987)Molecular Biology of the Gene，The Benjamin/Cummings Pub.Co.，第224页，(第4版))。另外，结构或功能类似的氨基酸的置换不大可能破环生物学活性。

应用于某个对象的术语“天然存在的”是指这样的事实，即该对象可在自然界中发现。例如存在于可从自然界来源分离得到的生物体(包括病毒)、且未经人工在实验室中有意修饰的肽或多核苷酸即是天然存在的。

“有效量”包含足以改善或预防医字病症的症状或病症的量。有效量还意指足以允许或促进诊断的量。用于特定患者或兽医学受试者的有效量可依据以下因素而变化：如待治疗的病症、患者的总体健康情况、给药的方法途径和剂量以及副作用严重性。有效量可以是避免显著副作用或毒性作用的最大剂量或给药方案。

“外源性”指根据背景在生物、细胞或人体外产生的物质。“内源性”指根据背景在细胞、生物或人体内产生的物质。

“同源性”或“同一性”是指两个多核苷酸序列之间或两个多肽之间的序列相似性。当两个比较序列中的位置均被相同碱基或氨基酸单体亚基占据时，例如如果两个DNA分子的每一个位置都被腺嘌呤占据时，那么所述分子在该位置是同源的。两个序列之间的同源性百分率是两个序列共有的匹配或同源位置数除以比较的位置数×100％的函数。例如，在序列最佳比对时，如果两个序列中的10个位置有6个匹配或同源，那么两个序列为60％同源。一般而言，当比对两个序列而得到最大的同源性百分率时进行比较。本文所述“至少85％序列同一性”是指变体与亲本序列相比，两序列具有至少85％同源，在一些方案中，其具有至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％序列同源；在一些具体的方案中，其具有90％、95％或99％以上；在另一些具体的方案中，其具有至少95％序列同源。所述具有至少85％序列同一性的氨基酸序列包括通过对亲本序列进行一个或者多个氨基酸缺失、插入或替换突变获得。

本文使用的表述“细胞”、“细胞系”和“细胞培养物”可互换使用，并且所有这类名称都包括其后代。因此，单词“转化体”和“转化细胞”包括原代受试细胞和由其衍生的培养物，而不考虑转移数目。还应当理解的是，由于故意或非有意的突变，所有后代在DNA含量方面不可能精确相同。包括具有与最初转化细胞中筛选的相同的功能或生物学活性的突变后代。

“任选”或“任选地”意味着随后所描述地事件或环境可以但不必发生，该说明包括该事件或环境发生或不发生地场合。例如，“任选包含1-3个抗体重链可变区”意味着特定序列的抗体重链可变区可以但不必须存在。

“药物组合物”表示含有一种或多种本文所述化合物或其生理学上/可药用的盐或前体药物与其他化学组分的混合物，以及其他组分例如生理学/可药用的载体和赋形剂。药物组合物的目的是促进对生物体的给药，利于活性成分的吸收进而发挥生物活性。

术语“载体”是指能够运输已与其连接的另一个核酸的核酸分子。在一个实施方案中，载体是“质粒”，其是指可将另外的DNA区段连接至其中的环状双链DNA环。在另一个实施方案中，载体是病毒载体，其中可将另外的DNA区段连接至病毒基因组中。本文中公开的载体能够在已引入它们的宿主细胞中自主复制(例如，具有细菌的复制起点的细菌载体和附加型哺乳动物载体)或可在引入宿主细胞后整合入宿主细胞的基因组，从而随宿主基因组一起复制(例如，非附加型哺乳动物载体)。

以下结合实施例进一步描述本公开，但这些实施例并非限制着本公开的范围。本公开实施例中未注明具体条件的实验方法，通常按照常规条件，如冷泉港的抗体技术实验手册，分子克隆手册；或按照原料或商品制造厂商所建议的条件。未注明具体来源的试剂，为市场购买的常规试剂。

实施例1.机器学习模型系统构建

数据集构建过程：

首先，从公共数据库IEDB、SYFPEITHI和MassIVE等获取质谱实验得到的肽的免疫原性数据与表达量数据，仅保留长度为8-11个氨基酸且有表达的肽，总共得到154,103条质谱肽阳性数据，作为阳性肽集。

然后，从UCSC数据库中查找人类参考基因组hg38所有有表达的蛋白数据，并穷举切割为8-11个氨基酸长度，作为阴性肽集。同时使用UCSC数据库获取各肽的注释信息，使用BioMart网站将注释信息转化为各肽所属蛋白家族ID(即PANTHER family ID字段)。

最后，将阳性肽集与阴性肽集混合，再切分为两类，一类为测试数据集(测试集)，包含多等位基因测试集和单等位基因测试集，两个测试集分别计分，用于检测模型效果；一类为训练数据集(训练集)，用于进行模型训练。多等位基因测试集包含5,000,500条肽，单等位基因测试集包含32,003,200条肽，训练集包含105,724,241条肽。

数据集构建过程在神经网络模型训练和集成学习模型训练中一致。

模型训练优化过程：

经过大量实验，本实施例选择神经网络模型与集成学习模型相融合组成最终的优选模型，并划定阈值使回归模型具有分类能力。神经网络模型同在后实施例2构建，以relu作为激活函数和Lecun初始化的全连接神经网络模型。

模型训练之前需要将数据集中的数据进行预处理，将HLA分型和肽序列氨基酸转化为独热编码，连同表达量数据与肽所属蛋白家族ID输入模型之中进行训练。

训练过程中使用CentOS 7.0操作系统，使用python 2.17.15和Perl 5.10作为编程语言。使用Keras 2.2.4和TensorFlow 1.15.0构建的全连接网络作为神经网络架构，使用XGBoost 0.82作为集成学习器进行训练。其中全连接网络架构为4层，每层神经元个数依次为256、32、16和1，使用二元交叉熵(binary crossentropy)作为损失函数，使用Adam作为优化器进行参数优化。XGBoost使用贝叶斯(Bayesian)法对分类树的最大深度(max depth)、一个子节点所需的最小实例权重总和(min child weight)、构造每棵树时列的子采样比率(colsample bytree)、叶节点上划分所需的最小损失减少(gamma)、最大的弱学习器的个数(n estimators)、学习率(learning rate)和训练实例的子样本比率(subsample)等参数进行优化搜索。

训练过程中对训练集取出10％用于验证当次训练模型表现，重复十次以使验证数据覆盖所有训练集。十次训练完成后使用十个模型对多等位基因测试集进行预测，以测试集召回率(recall)＝0.4划定阈值，以测试集上的PPV作为优选目标，优化模型参数与架构。

经过训练与优化，各实施例使用1:1000作为训练集中阳性阴性数据混合比例，使用relu作为神经网络激活函数，使用Lecun初始化器作为神经网络初始化器，将集成学习模型的输出结果在神经网络模型中的得分乘以权重系数0.01，组成最终优选模型为本公开融合模型。

针对预测应用阶段，首先同模型构建阶段对待预测数据集进行预处理，将转化后的待预测数据输入至模型中预测，并使用划定阈值进行分类，输出待预测数据的免疫原性分类结果。高于阈值的肽预测和/或鉴定为由HLA分子呈递。

实施例2.神经网络模型构建

使用来自公共数据库IEDB、SYFPEITHI和MassIVE等中HLA分型为A*02:07的五组阳性肽，平均每组586.8条，按照1:10,000比例添加阴性对照肽。

使用本发明中以relu作为激活函数和Lecun初始化的全连接神经网络模型，和未使用relu作为激活函数(使用tanh作为激活函数)且未使用Lecun初始化(不进行初始化)的全连接神经网络模型对测试数据集进行HLA分子呈递可能性预测。样本检测结果如下表1，结果显示，使用relu作为激活函数和Lecun初始化的全连接神经网络在五组测试数据的平均检测准确度提升了1倍以上(如图2)。其中，真阳性表示预测为阳性且数据库中为阳性的肽；假阴性表示预测为阴性且数据库中为阳性的肽；假阳性表示预测为阳性且数据库中为阴性的肽；真阴性表示预测为阴性且数据库中为阴性的肽。

表1：relu、Lecun初始化性能比较

实施例3.融合模型单HLA等位基因分型的HLA分子呈递可能性预测

使用公开软件netMHCpan和MHCflurry以及实施例一获得的融合模型对测试数据集进行HLA分子呈递可能性预测。样本检测结果如下表2，结果显示，相对于公开软件结果，实施例一获得的融合模型在五组测试数据的平均检测准确度提升了10倍以上。其中，真阳性表示预测为阳性且数据库中为阳性的肽；假阴性表示预测为阴性且数据库中为阳性的肽；假阳性表示预测为阳性且数据库中为阴性的肽；真阴性表示预测为阴性且数据库中为阴性的肽。

表2：HLA分子呈递可能性预测结果比较

部分检测结果示例如表3所示，第二列为对应肽经实施例一获得的融合模型预测的在A*02:07分型下的免疫原性，阈值为0.232，大于该阈值则表明融合模型该肽免疫原性为阳性。

表3：部分检测结果

待预测肽序列	免疫原性预测结果	实验结果	一致性
ILDAVVVVV	0.815221366	阳性	是
LLDSSHSEL	0.689283328	阳性	是
TMDDLTTAL	0.241618491	阳性	是
YIDKDMIHI	0.758448538	阳性	是
……	……	……	……
HKVSPASESPF	1.87E-09	阴性	是
DPPPPPAPAP	2.84E-16	阴性	是
LALGPADSKEV	7.09E-13	阴性	是
SRFNKDRAEA	7.92E-10	阴性	是

实施例4.融合模型16组单HLA等位基因分型的HLA分子呈递可能性预测

使用来自MassIVE数据库的16组不同HLA分型的每组200条(共计3200条)质谱阳性肽数据，按照1:10,000比例添加阴性对照肽。使用实施例一获得的融合模型对测试数据集进行HLA分子呈递可能性预测。样本检测结果如下表4，使用召回率40％时的阳性预测值作为评价标准，本公开准确度提升为52.52％，相较于公开软件准确度显著提升。

表4：HLA分子呈递可能性预测

使用其中2组不同HLA分型(A*24:02、A*02:01)的质谱阳性肽数据和本发明预测得到的阳性肽数据，分别绘制各HLA分型上阳性肽特征图，结果如图3所示，本实施例中学习到的阳性肽特征与质谱数据相似，说明学习结果较好。

实施例5.多HLA等位基因分型质谱数据进行HLA分子呈递可能性预测

本实例通过以下方法鉴定阳性样本和负对照样本的肽，每组分别两个重复：

利用2.5X10 ⁸的A375细胞，用细胞裂解液(20mM Tris 8.0,1mM EDTA,100mM NaCl,1％Triton X-100)5ml，4℃冷库摇床裂解1小时。再将蛋白裂解液在4℃预冷离心机进行14000转每分钟，30分钟。将蛋白裂解液进行BCA蛋白定量后，按照4mg总蛋白量对应30μL蛋A/G磁珠(Protein A/G beads)，6μg抗体(阳性样本)或者6μg抗体(负对照)进行免疫共沉淀样品混合物(co-IP样品，HLA相关复合物)的制备，并将从co-IP样品放置4℃冷库旋转，均匀混合过夜。随后，用co-IP清洗液(20mM Tris 8.0,1mM EDTA,100mM NaCl)对HLA相关复合物沉积的磁珠(beads)进行4次清洗。最后，用浓度为1-2mol/L的醋酸与HLA相关复合物沉积的beads室温孵育10min，将HLA复合物从beads上洗脱下来，离心1000rpm,1min。收集上清即为用于MS分析的样品。

质谱样品将利用液质联用法对HLA呈递抗原肽鉴定分离肽。使用Mascot(V2.3.0)软件对液质联用获得的数据进行分析。检索参数设置如下：数据库分别设置为SwissProt Homo_sapiens；酶切方式设置为None；漏切位点设置为0；肽离子打分要求高于20。主要用到的仪器包括Thermo Scientific EASY-nLC 1200UPLC Thermo纳升超高效液相色谱仪，Thermo Scientific Q ExactiveTM HF-X四级杆-轨道肼质谱仪和Thermo Scientific C18色谱柱(1.9μm，250mm×100μm i.d.)。

使用通过以上质谱实验所得多HLA分型的阳性肽数据与负对照所得阴性对照肽数据，分别使用实施例一获得的融合模型进行抗原免疫原性预测，并使用内置阈值进行免疫原性判断。内置阈值表示训练集召回率40％，因此对阳性数据的预测结果也以召回率作为评价标准。检测结果如下表5，测试样本中召回率大于40％，负对照样本中召回率远低于40％，说明本发明在多HLA分型数据上应用结果良好。

表5：多HLA分型数据

	阳性样本1	阳性样本2	负对照1	负对照2
实验所得肽数	1433	1571	152	156
本公开判断阳性肽数	727	784	1	1
召回率	50.73％	49.90％	0.66％	0.64％

检测结果及统计表明，本公开的基于机器学习方法的抗原免疫原性预测方法能准确预测出抗原的免疫原性，阳性预测值显著高于现行公开软件。

实施例6.针对人群中高频HLA分型进行质谱分析，扩充机器学习模型系统阳性肽集

本实例通过以下方法鉴定公开数据库未报道、在人群中高频出现HLA分型结合的阳性多肽。该实例主要包括以下三步：单HLA分型细胞系的构建，HLA质谱样品制备及定量，质谱分析。

利用慢病毒感染K562细胞构建单HLA分型的稳转细胞系，根据不同分型细胞系HLA表达量，调整质谱样品制备的细胞量，将1X 10 8至5X 10 8细胞用细胞裂解液(20mM Tris 8.0,1mM EDTA,100mM NaCl,1％Triton X-100)5-20ml，4℃裂解1小时，4℃预冷离心机进行14000转每分钟，30分钟；蛋白裂解液经BCA蛋白定量后，按照4mg总蛋白量对应30μL Protein A/G beads,6μg MHC-I抗体(阳性样本)或者6μg正常小白鼠(normal mouse)IgG抗体(负对照)的比例，进行免疫共沉淀样品混合物的制备(co-IP样品，HLA相关复合物)。co-IP样品4℃均匀混合过夜，随后用清洗液(20mM Tris 8.0,1mM EDTA,100mM NaCl)对co-IP beads进行4次清洗。最后，用浓度为1-2mol/L的醋酸与co-IP beads孵育10min，将HLA复合物洗脱下来，离心1000rpm,1min。收集上清即为用于质谱分析样品(MS样品)。

将质谱分析样品取出5％进行蛋白免疫印迹实验和银染，分别定性评价质谱样品特异性、定量分析HLA相关蛋白复合物总量。首先将样品与SDS-PAGE蛋白上样缓冲液(5X)预混，100℃煮沸5分钟；然后将样品分为两份进行SDS-PAGE电泳。其中一份通过转至PVDF膜，孵育兔抗人MHC—I抗体，HRP偶联抗兔IgG二抗进行蛋白免疫印迹实验。如图5，通过比较normal mouse IgG组(阴性对照)和MHC-I抗体组(阳性样本)，MHC-I信号在阳性样本组出现，阴性对照组无信号(图5，泳道#6，#7)，说明该样品制备过程具有特异性；通过比较co-IP前后细胞裂解液中HLA蛋白含量(图5，泳道#1，#4)，可以计算co-IP富集效率。图5中，泳道#1为Co-IP前蛋白裂解液样本、泳道#2为Marker、泳道#3为IgG Co-IP后的蛋白裂解液、泳道#4为HLA抗体Co-IP后的蛋白质裂解液、泳道#5为空泳道、泳道#6为normal mouse IgG组(阴性对照)、泳道#7为MHC-I抗体组(阳性样本)。结果表明，目前实验体系可有效富集蛋白裂解液中90％以上HLA蛋白，说明样品制备过程具有高效性。

另一份SDS-PAGE直接进行银染，通过比较1ng，5ng，10ng蛋白标准品BSA的信号值，可计算质谱样品的总蛋白量，辅助质谱分析。如图6，泳道#1为Marker、泳道#2为质谱样本1的阴性对照、泳道#3为质谱样本1的阳性对照、泳道#4为质谱样本2的阴性对照、泳道#5为质谱样本2的阳性对照、泳道#6为Marker、泳道#7为1ng蛋白标准品(BSA)、泳道#8为5ng蛋白标准品(BSA)、泳道#9为10ng蛋白标准品(BSA)。箭头指示MHC-I抗体组(阳性样本)特异富集蛋白，其中45KDa附近条带鉴定为HLA蛋白(箭头HLA)，此次实验共获得1.0-12.4ug的总蛋白量。

如图4所示，利用这些阳性肽进行重新训练融合模型，所得模型比未添加模型表现更好，有大约15％的准确率提升，阳性预测值显著高于现行公开软件。

以上仅是本发明的具体应用范例，对本发明的保护范围不构成任何限制；对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里也无需也无法对所有的实施方式予以列举说明。凡采用等同变换或者等效替换而形成的类似此种的技术方案，均落在本发明权利保护范围之内。

Claims

一种预测和/或鉴定肽由HLA分子呈递可能性的方法，包括：

步骤1：构建数据集和数据编码，包括将数据集中肽、表达量、HLA分型数据进行数字化编码；

步骤2：训练神经网络模型和集成学习模型，包括在质谱实验提供的数据上进行参数训练；

步骤3：预测和/或鉴定肽由HLA分子呈递可能性，包括融合神经网络模型系数矩阵和集成学习模型系数矩阵，根据待测样本的肽、表达量和HLA分型数据预测和/或鉴定待测样本各肽由HLA分子呈递可能性。
如权利要求1所述的方法，所述神经网络模型选自全连接神经网络模型、卷积神经网络模型、长短期记忆神经网络模型，优选全连接神经网络模型。
如权利要求1或2所述的方法，所述神经网络模型架构为3-5层；优选的，所述神经网络模型架构为4层，每层神经元个数依次为256、32、16和1。
如权利要求1-3任一项所述的方法，所述集成学习模型选自随机森林、Adaboost、XGboost、LightGBM，优选XGboost。
如权利要求1-4任一项所述的方法，所述数据集包括阳性肽集和阴性肽集，分为一个或多个训练数据集和一个或多个测试数据集。
如权利要求1-5任一项所述的方法，所述数据集中肽的长度是5-15个氨基酸，优选7-12个氨基酸，最优选8-11个氨基酸。
如权利要求1-6任一项所述的方法，所述数据编码选自独热编码、BLOMAP、PSSM、word2vec和BLOSUM62，优选独热编码。
如权利要求1-7任一项所述的方法，所述神经网络模型在质谱实验数据上进行参数训练：

假定有m个训练肽，每个肽对应n个HLA分型：

其中为各训练肽经数据编码模块编码后的不包含HLA分型的数据矩阵，矩阵中每一行为一条肽经过数据编码模块编码后的数据行；为各训练肽在质谱实验中的阳性/阴性标签；β _target1为神经网络系数矩阵，经交叉验证训练得到准确度最大时的系数。
如权利要求1-8任一项所述的方法，所述神经网络模型的激活函数为relu。
如权利要求1-9任一项所述的方法，所述神经网络模型的初始化器为Lecun初始化器。
如权利要求1-10任一项所述的方法，所述集成学习模型在质谱实验数据上进行参数训练：

假定有m个训练肽，每个肽对应n个HLA分型：

其中为各训练肽经数据编码后的包含HLA分型的数据矩阵，矩阵中每一行为一条肽经过数据编码后的数据行；为各训练肽在质谱实验中的阳性/阴性标签；β _target2为集成学习系数矩阵，经交叉验证训练得到准确度最大时的系数。
如权利要求1-11任一项所述的方法，融合神经网络模型和集成学习模型的策略选自平均法、投票法和学习法；优选的，所述融合包括将集成学习模型输出结果在神经网络模型中的得分乘以权重系数。
如权利要求12所述的方法，所述权重系数为0.1-0.00001，优选0.05-0.0001，最优选0.01。
如权利要求1-13任一项所述的方法，所述预测和/或鉴定选自单HLA等位基因预测和/或鉴定、多等位基因预测和/或鉴定。
如权利要求1-14任一项所述的方法，预测和/或鉴定肽的由HLA分子呈递可能性的期望值具体为：

其中X为各肽经数据编码后得到的数据行。
如权利要求1-15任一项所述的方法，以得分最高的0.1％选为阳性或40％召回率下的阳性预测值作为阈值，待测样本中高于阈值的肽预测和/或鉴定为由HLA分子呈递。
一种制备肽的方法，所述肽由权利要求1-16任一项方法预测和/或鉴定。
一种制备多核苷酸的方法，所述多核苷酸编码权利要求17所述方法制备的肽。
一种如权利要求1-18中任一项所述的方法在制备mRNA、多肽疫苗、抗肿瘤药物或肿瘤疫苗中的应用，优选的，所述肿瘤选自由以下组成的组：肺癌、黑色素瘤、乳癌、卵巢癌、前列腺癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病和T细胞淋巴细胞性白血病、非小细胞肺癌和小细胞肺癌。
一种预测和/或鉴定肽由HLA分子呈递可能性的装置，其特征在于，所述的装置包括用于存储程序的存储器以及用于执行所述程序的处理器，以实现权利要求1-16中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括程序，所述程序被处理器执行以完成权利要求1-16中任一项所述的方法。
一种预测和/或鉴定一种或多种肽由HLA分子呈递可能性的方法，其包括以下步骤：构建数据集和数据编码；训练、融合神经网络模型和集成学习模型；预测和/或鉴定肽由HLA分子呈递可能性。
一种HLA等位基因特异性结合信息数据库，其包括权利要求1-16中任一项所述的方法预测和/或鉴定的肽的信息或编码权利要求1-16中任一项所述的方法预测和/或鉴定的肽的多核苷酸信息。