发明详述
在一方面,本发明提供了一种鉴定对象中肿瘤新生抗原的方法,所述方法包括以下步骤:
(a)分析所述对象肿瘤组织或细胞和正常组织或细胞的全外显子组测序结果,鉴定肿瘤组织特异性体细胞突变;
(b)分析所述对象肿瘤组织或细胞的转录组测序结果,对步骤(a)所鉴定的体细胞突变进行进一步筛选;
(c)分析所述对象正常组织或细胞的全外显子组测序结果,对所述患者进行HLA分型;
(d)基于步骤(b)和(c)的结果,分析对应于所述体细胞突变的突变肽与MHC的结合,从而筛选出候选的肿瘤特异性新生抗原。
在本发明个方面的一些实施方案中,所述测序是高通量测序,也称作二代测序(“NGS”)。二代测序在并行的测序过程中同时产生数千至数百万条序列。NGS区别于“Sanger测序”(一代测序),后者是基于单个测序反应中的链终止产物的电泳分离。可用本发明的NGS的测序平台是商用可得的,包括但不限于Roche/454FLX、Illumina/Solexa GenomeAnalyzer和Applied Biosystems SOLID system等。
外显子组测序是利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于它具有对常见和罕见变异高灵敏度,因此仅需对2%的基因组进行测序就能发现外显子区域的大部分疾病相关变异。
转录组测序是通过二代测序平台快速全面地获得某一物种特定细胞或组织在某一状态下的几乎所有的转录本及基因序列,可以用于研究基因表达量、基因功能、结构、可变剪接和新转录本预测等。
所述正常组织或细胞可以是任何的非肿瘤组织或细胞,例如外周血(对于非血液癌症)或是癌旁组织,优选外周血。
所述肿瘤组织或细胞包括但不限于以下的肿瘤组织或细胞:肝癌、肺癌、卵巢癌、结肠癌、直肠癌、黑色素瘤、肾癌、膀胱癌、前列腺癌、乳腺癌、淋巴瘤、恶性血液病、头颈癌、胶质瘤、胃癌、鼻咽癌、喉癌、胰腺癌、宫颈癌、食道癌、小肠癌、慢性或急性白血病和骨肉瘤。
“体细胞突变(somatic mutation)”是指生物体除生殖细胞外的体细胞发生的突变。体细胞突变不会传给后代,但可能导致当代生物体的表型,例如导致肿瘤。体细胞突变通常是指DNA序列中的核苷酸突变。然而如本领域技术人员可以理解,在特定上下文中该术语也可以指相应的氨基酸突变。
如本文所使用,术语“抗原”是指诱导免疫反应的物质,例如多肽。如本文所用,术语“新生抗原”是具有至少一个使其不同于相应野生型亲本抗原的变化的抗原,例如,该变化是肿瘤特异性体细胞突变。如本文所用,术语“肿瘤新生抗原”或“肿瘤特异性新生抗原”是存在于对象的肿瘤细胞或组织中但基本上不存在于对象的正常细胞或组织中的新生抗原。术语“新生抗原”可以是全长蛋白质,或其包含所述变化的部分。例如,“肿瘤新生抗原”可以是从全长蛋白截取的包含肿瘤特异性体细胞突变的多肽(突变肽),特别是具有免疫原性的多肽(例如包含T细胞表位)。所述多肽长度可以是大约8-大约35个氨基酸,例如8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35个氨基酸,或它们之间的任何范围。
如本文所用,“对象”意指哺乳动物,包括啮齿类动物或灵长类动物,例如小鼠、大鼠、猴、人。优选所述对象是人。
如本文所用,“MHC”是指主要组织相容性复合体(major histocompatibilitycomplex)。人类的MHC也叫做HLA(human leukocyte antigen)。本领域技术人员应当理解,当用于其他物种时,本发明中所述HLA分型,实质上指的是MHC分型,此时该术语并不限于人类。
如上所述,本发明的肿瘤新生抗原的鉴定方法包含四个主要步骤,其中第一个步骤(步骤(a))目的是准确分析肿瘤组织内肿瘤特异性体细胞突变。
通过分析配对的正常和肿瘤组织或细胞,得到的肿瘤组织特有的或者突变比例显著高于同一个体正常组织的变异,被认为是肿瘤组织产生的特异性体细胞突变。一般而言,肿瘤组织基因组是高度动态性的,其不断发展变化,存在很大的异质性。而且在肿瘤基因组测序中,不少样本的肿瘤细胞纯度达不到80%,有些甚至更低。这些造成肿瘤特异性体细胞突变难以被准确发现。
现今已经发表了多种基于不同原理的检测肿瘤体细胞突变的算法,包括但不限于:1)Strelka采用一种新颖的贝叶斯方法,它将癌和癌旁组织的等位基因频率认定为连续值,即将癌旁组织表示为生殖突变与噪声的混合物,而肿瘤组织则表示为癌旁组织和体细胞突变的混合物。因此,即使是不纯的样本,Strelka也可以保证较高的灵敏度。Strelka搜索候选的InDels用于后续的重比对(indel realignment);然后根据重比对的信息推算somatic variant probability,再进行一系列过滤,得到可信的体细胞突变检测结果。2)MuTect2是基于GATK HaplotypeCaller模块,通过明显的变异证据,找到要进一步分析的区域,称之为ActiveRegions。然后该算法会建立一张类似De Brujin的图,重新装配ActiveRegions,检测可能出现的单倍型,使用Smith-Waterman算法重新比对。使用PairHMM算法,在读数据基础上,ActiveRegions与每一单倍型成对的比对,产生一个单倍型似然度矩阵。然后转换这一矩阵,为每一可能的变异位置产生等位基因似然度,进而推断出每个潜在变异位置体细胞突变的概率。3)Sentieon的TNHaplotyper与Mutect2检测原理一致,将癌样本和配对的癌旁样本进行co-realignment之后,通过Sentieon的TNHaplotyper模型对以上一系列操作后的比对BAM文件进行somatic SNV和Indel的变异检测。但是上述每种方法都存在检测假阳性率高,准确度差的缺点。
针对已有的肿瘤体细胞突变检测的缺点,本发明人构建了一套可以有效降低检测假阳性率,提高体细胞突变检测准确度的分析流程和策略。
首先,本发明人选择多种基于不同原理的方法,使用这些方法分别从高通量测序数据中检测肿瘤组织中的体细胞突变,然后对这些独立分析的体细胞突变检测结果取交集,大大降低检测的假阳性率。所述检测体细胞突变的方法包括但不限于Strelka1(参见https://academic.oup.com/bioinformatics/article/28/14/1811/218573)、Strelka2(参见https://www.nature.com/articles/s41592-018-0051-x)、VarScan(参见http://varscan.sourceforge.net)、Mutect2(参见http://www.broadinstitute.org/cancer/cga/mutect)和/或MuSE(参见https://bioinformatics.mdanderson.org/main/MuSE)方法。本领域已知的其他检测体细胞突变的方法也可以应用于本发明。
在本发明方法的一些实施方案中,步骤(a)通过至少3种、至少4种、至少5种,例如3种、4种、5种、6种、7种、8种、9种或10种或更多种不同的方法分别独立地从所述全外显子组测序结果中鉴定肿瘤特异性体细胞突变。
在一些实施方案中,步骤(a)通过至少3种不同的方法分别独立地从所述全外显子组测序结果中鉴定肿瘤特异性体细胞突变,并选择在所述至少3种不同的方法中均被鉴定出的肿瘤特异性体细胞突变。例如所述至少3种不同的方法选自Strelka1、Strelka2、VarScan、Mutect2和MuSE。
在一些优选实施方案中,使用至少5种不同的方法鉴定所述肿瘤特异性体细胞突变,例如,所述至少5种不同的方法包括Strelka1、Strelka2、VarScan、Mutect2和MuSE。然而,还可以进一步包括本领域已知的其他检测体细胞突变的方法。
此外,所述方法各自的参数可以根据需要进行调整,提高检测阈值,从而进一步降低检测的假阳性率。
更重要的是,本发明人令人惊奇地发现,通过设定一系列特定的过滤标准,对所得结果进行进一步的过滤,可以更加精确地获得肿瘤特异性体细胞突变。因此,在一些实施方案中,步骤(a)进一步筛选符合以下标准的体细胞突变:
1)所述肿瘤组织或细胞和正常组织或细胞的测序深度大于或等于10;
2)在所述肿瘤组织或细胞的测序数据中,包含所述突变的读段数大于或等于3;
3)在所述肿瘤组织或细胞的测序数据中,所述突变的等位基因频率大于0.1;
4)在所述正常组织或细胞的测序数据中,所述突变的等位基因频率小于或等于0.01;和
5)在包含至少100个、至少200个、至少300个或更多个,例如200-300个正常对象的正常组织或细胞的全外显子组测序结果中,所述突变的等位基因频率小于0.01。
如本文所用,“测序深度”指的是测序获得的总碱基数与待测基因组大小(碱基数)的比率。例如,对长1000bp的目标区域进行测序,总共得到200个读段(read),每个读段长50bp,则测序深度为200x50bp/1000bp=10。
如本文所用,“等位基因频率”指的是样本中某一特定变异在该变异位点全部等位基因中所占比率。例如,在一样本测序数据中,包含某一特定变异的读段数与该位点全部的读段数的比率为该变异的等位基因频率。
本发明的肿瘤新生抗原的鉴定方法包含的第二个步骤(步骤(b))是结合基因表达水平、所述突变的基因功能预测等信息进一步筛选候选体细胞突变位点。
在该步骤中,对通过第一个步骤获得的每一个体细胞突变,基于NCBI人类基因组注释信息数据库,对突变位点进行基因结构水平、突变功能水平(影响基因编码功能水平)的注释的分析。
NCBI注释数据库中,突变位点在基因结构水平的注释包括:exonic、splicing、ncRNA、UTR5/UTR3、intron、upstream/downstream、intergenic>unknown。在本发明的方法的一些实施方案中,其筛选优先级顺序为:exonic=splicing>ncRNA>UTR5/UTR3>intron>upstream/downstream>intergenic>unknown。
NCBI注释数据库中,突变位点影响基因编码功能的注释包括:stopgain、stoploss、nonsynonymous SNV、synonymous SNV、unknown。在本发明的方法的一些实施方案中,其筛选优先级顺序为:stopgain>stoploss>nonsynonymous SNV>synonymous SNV>unknown。
在一些优选实施方案中,选择基因结构水平注释注释为exonic且影响基因编码功能水平注释为nonsynonymous SNV(非同义单核苷酸变异)的体细胞突变。
此外,基于肿瘤组织或细胞的转录组测序数据,可以检测NCBI人类基因组注释信息数据库中已经注释的所有约3万个蛋白编码基因的表达水平。因此,在该步骤中,还可以包括基于基因表达水平选择体细胞突变。
在一些实施方案中,其中选择位于高表达的基因内的体细胞突变,例如,所述高表达的基因的RPKM(Reads Per Kilobase per Million mapped reads)大于或等于1。RPKM是将定位到基因(外显子)的读段数除以定位到基因组上的所有读段数(以百万为单位)与基因(外显子)的长度(以kb为单位)的乘积。
通过以上步骤,可以鉴定出位于高表达基因内且改变氨基酸序列的肿瘤特异性体细胞突变。因此,在一些实施方案中,本发明的体细胞突变是位于高表达基因的蛋白编码序列中的突变,且其导致氨基酸突变。
此外,基于肿瘤组织或细胞的转录组测序数据,还可以评估对象的HLA基因、CD4基因和/或CD8基因的表达水平,从而判断所述对象是否适用于使用肿瘤新生抗原的免疫疗法。
因此,在一些实施方案中,步骤b)还包括评估所述对象中HLA基因、CD4基因和/或CD8基因的表达水平。
本发明的肿瘤新生抗原的鉴定方法包含的第三个步骤(步骤(c))是根据所述对象正常组织或细胞的全外显子组测序结果,对所述对象进行HLA分型。
HLA分型仍然是现在医学上的一个难题。临床中,目前世界卫生组织(WHO)推荐的HLA分型的“金标准”方法为PCR-SBT技术,但是其存在分型不唯一,分辨率低(4位),耗时长(15天-20天),成本高(2000元/样本)等问题。
本发明中,利用对象正常组织或细胞(如外周血)的外显子测序数据进行HLA分型,整合了目前已知的所有HLA I/II型基因座位上的每一个等位基因信息,通过外显子测序数据在氨基酸序列和核苷酸序列2个层次进行高精度比对分析,从而使得针对HLA I/II基因座进行的分型能做到6位(2*3)以上的精度,分析时间不超过3个小时,准确度大于98%(与“金标准”PCR-SBT技术结果比对的一致性)。
在一些实施方案中,步骤(c)中至少使用以下的一或多个、优选全部数据库进行HLA分型:ATHLATES(http://www.broadinstitute.org/scientific-community/science/projects/viral-genomics/athlates)、HLA-HD(https://www.genome.med.kyoto-u.ac.jp/HLA-HD/)、HLAVBseq(http://nagasakilab.csml.org/hla)、seq2HLA(http://bitbucket.org/sebastian_boegel/seq2hla)和HLAminer(http://www.bcgsc.ca/platform/bioinfo/software/hlaminer)。
本发明的肿瘤新生抗原的鉴定方法包含的第四个步骤(步骤(d))是基于前3个步骤的分析结果,对筛选出来的位于高表达基因上的、改变氨基酸序列的肿瘤特异性体细胞突变,针对于特定的HLA分型,预测肿瘤新生抗原。
在一些实施方案中,步骤(d)包括:
d1)提取对应所述体细胞突变的氨基酸序列,从而获得对应于所述体细胞突变的突变肽;
d2)基于步骤(c)的HLA分型结果,通过MHC结合亲和力、MHC结合稳定性、蛋白酶体酶切、质谱数据分别独立地对所提取的突变肽进行打分并排序;和
d3)基于步骤d2)的结果,通过几何平均法对所述突变肽进行打分并排序,由此选择出候选肿瘤新生抗原。
如本文所用,“对应于所述体细胞突变的”氨基酸序列或突变肽指的是包含所述体细胞突变导致的氨基酸突变的氨基酸序列或肽,其由对象基因组中包含所述体细胞突变的核苷酸序列编码。
在一些实施方案中,d1)中提取对应所述体细胞突变的约8-35个氨基酸,优选约15-27个氨基酸的氨基酸序列。例如可以针对每个经前述步骤鉴定出的肿瘤特异性体细胞突变,基于由对象基因组中包含所述体细胞突变的核苷酸序列编码的蛋白质的氨基酸序列,提取以相应的突变氨基酸(即,所述体细胞突变导致的突变氨基酸)为中心向前和/或向后延伸约7-约17个氨基酸的全部氨基酸序列,由此获得对应于所述体细胞突变的一系列长度约8个-约35个氨基酸的突变肽。优选地,例如可以针对每个经前述步骤鉴定出的肿瘤特异性体细胞突变,提取以相应的突变氨基酸为中心向前和向后延伸约7个-约13个氨基酸的全部氨基酸序列,由此获得对应于所述体细胞突变的一系列长度约15个-约27个氨基酸的突变肽。
然后,对所获的突变肽,针对相应的由前述步骤确定的HLA分型,分别从MHC结合亲和力、MHC结合稳定性、蛋白酶体切割(即所述突变肽能否通过蛋白酶体切割产生)、质谱数据角度独立地对其作为候选新生抗原的可能性进行预测打分并排序。
在一些实施方案中,步骤(d2)中使用选自NetMHCcons(http://www.cbs.dtu.dk/services/NetMHCcons)、NetMHC(http://www.cbs.dtu.dk/services/NetMHC)、NetMHCpan(http://www.cbs.dtu.dk/services/NetMHCpan)、PickPocket(http://www.cbs.dtu.dk/services/PickPocket)、MHCflurry(https://www.sciencedirect.com/science/article/pii/S2405471218302321?dgcid=rss_sd_all)、netMHCstab(http://www.cbs.dtu.dk/services/NetMHCstab-1.0)、NetChop(www.cbs.dtu.dk/services/NetChop)的一或多种方法/工具对所提取的突变肽进行打分并排序。例如,可以使用NetMHCcons、NetMHC、NetMHCpan和/或PickPocket工具分析突变肽与特定MHC的结合亲和力;可以使用netMHCstab工具分析突变肽与特定MHC的结合稳定性;可以使用MHCflurry依赖于质谱数据预测突变肽与MHC的结合;可以使用NetChop分析蛋白酶体切割产生突变肽的可能性。
最后,基于不同角度的预测结果,通过几何平均的方法,对突变肽进行最终的综合打分排序。例如,对某一特定突变肽,其MHC结合亲和力排序打分为3,MHC结合稳定性排序打分为2,蛋白酶体切割排序打分为2,质谱数据排序打分为4,则几何平均后的排序打分为可以依据几何平均后的打分对突变肽进行排序,并从中选择出候选肿瘤新生抗原。
通过本发明的上述方法,可以以更高的准确度鉴定肿瘤新生抗原,显著降低假阳性率。
本领域技术人员可以理解,上述方法步骤的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法步骤中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
在第二方面,本发明提供一种鉴定对象中肿瘤新生抗原的装置,所述装置包括以下四个模块:肿瘤特异性体细胞突变鉴定模块I);肿瘤特异性体细胞突变筛选模块II);HLA分型模块III);和肿瘤新生抗原预测模块IV)。
其中肿瘤特异性体细胞突变鉴定模块I)基于所述对象肿瘤组织或细胞和正常组织或细胞的全外显子组测序结果鉴定肿瘤特异性体细胞突变。
在一些实施方案中,肿瘤特异性体细胞突变鉴定模块I)通过至少3种不同的方法分别独立地从所述全外显子组测序结果中鉴定体细胞突变,并选择在所述至少3种不同的方法中均被鉴定出的体细胞突变。例如所述至少3种不同的方法选自Strelka1、Strelka2、VarScan、Mutect2和MuSE。
在一些优选实施方案中,肿瘤特异性体细胞突变鉴定模块I)使用至少5种不同的方法鉴定所述体细胞突变,例如,所述至少5种不同的方法包括Strelka1、Strelka2、VarScan、Mutect2和MuSE。然而,还可以进一步包括本领域已知的其他检测体细胞突变的方法。
在一些实施方案中,肿瘤特异性体细胞突变鉴定模块I)进一步筛选符合以下标准的体细胞突变:
1)所述肿瘤组织或细胞和正常组织或细胞的测序深度大于或等于10;
2)在所述肿瘤组织或细胞的测序数据中,包含所述突变的读段数大于或等于3;
3)在所述肿瘤组织或细胞的测序数据中,所述突变的等位基因频率大于0.1;
4)在所述正常组织或细胞的测序数据中,所述突变的等位基因频率小于或等于0.01;和
5)在包含至少100个、至少200个、至少300个或更多个,例如200-300个正常对象的正常组织或细胞的全外显子组测序结果中,所述突变的等位基因频率小于0.01。
肿瘤特异性体细胞突变筛选模块II)基于所述对象肿瘤组织或细胞的转录组测序结果进一步筛选肿瘤特异性体细胞突变。
在一些实施方案中,肿瘤特异性体细胞突变筛选模块II)基于基因表达水平选择体细胞突变。在一些实施方案中,其选择位于高表达的基因内的体细胞突变,例如,所述高表达的基因的RPKM大于等于1。
在一些实施方案中,肿瘤特异性体细胞突变筛选模块II)对所述体细胞突变进行基因结构水平和影响基因编码功能水平的选择,例如,选择基因结构水平注释为exonic且影响基因编码功能水平注释为nonsynonymous SNV的体细胞突变。
在一些实施方案中,肿瘤特异性体细胞突变筛选模块II)还任选地评估所述对象中HLA基因、CD4基因和/或CD8基因的表达水平。
HLA分型模块III)基于所述对象正常组织或细胞的全外显子组测序结果进行HLA分型。
在一些实施方案中,HLA分型模块III)至少使用以下数据库进行HLA分型:ATHLATES、HLA-HD、HLAVBseq、seq2HLA和HLAminer。
肿瘤新生抗原预测模块IV)基于前述三个步骤的结果,预测肿瘤新生抗原。
在一些实施方案中,肿瘤新生抗原预测模块IV):
提取对应所述体细胞突变的氨基酸序列,从而获得对应于所述体细胞突变的突变肽,例如,提取对应所述体细胞突变的约8-35个氨基酸,优选约15-27个氨基酸,例如25个氨基酸的氨基酸序列;
基于HLA分型结果,通过MHC结合亲和力、MHC结合稳定性、蛋白酶体酶切、质谱数据分别独立地对所提取的突变肽进行打分并排序;和
通过几何平均法对所述突变肽进行综合打分并排序,由此选择出候选肿瘤新生抗原。
在一些实施方案中,使用选自NetMHCcons、NetMHC、NetMHCpan、PickPocket、MHCflurry、netMHCstab、NetChop的一或多种对所提取的突变肽进行打分并排序。
在另一方面,本发明还提供一种鉴定对象中肿瘤新生抗原的装置,所述装置包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现本发明第一方面的方法。
在另一方面,本发明还提供一种计算机可读存储介质,其包括程序,该程序能够被处理器执行以实现本发明第一方面的方法。
在另一方面,本发明提供根据本发明的方法或装置鉴定的肿瘤新生抗原。
在另一方面,本发明提供一种药物组合物,其包含根据本发明的方法或装置鉴定的肿瘤新生抗原,以及药学上可接受的载体。
如本文所用,“药学可接受的载体”是可以添加至活性药物成分以帮助配制或稳定制剂而不对患者引起显著不利的毒物学效果的物质,包括但不限于崩解剂、粘合剂、填充剂、缓冲剂、等张剂、稳定剂、抗氧化剂、表面活性剂或润滑剂。
在另一方面,本发明还提供根据本发明的方法或装置鉴定的肿瘤新生抗原或本发明的药物组合物在制备用于治疗和/或预防癌症的药物中的用途。
在一些实施方案中,所述药物是肿瘤疫苗。在一些实施方案中,所述疫苗是治疗性疫苗。
在一些实施方案中,所述药物组合物或所述药物还包含佐剂。例如所述佐剂是poly I:C。
在另一方面,本发明提供一种在对象中治疗癌症的方法,所述方法包括:
a)通过本发明的方法或装置鉴定对象的至少一种肿瘤新生抗原;
b)产生步骤a)中所鉴定的至少一种肿瘤新生抗原;和
c)给所述对象施用步骤b)中产生的所述至少一种肿瘤新生抗原。
在一些实施方案中,其中鉴定、产生和施用多种肿瘤新生抗原,例如至少5种、至少10种、至少20种、至少30种、至少40种、至少50种或甚至更多种肿瘤新生抗原。
在一些实施方案中,所述肿瘤新生抗原和佐剂一起施用。例如所述佐剂是poly I:C。
在一些优选实施方案中,所述方法还包括给所述对象施用免疫检查点抑制剂。所述免疫检查点抑制剂包括但不限于PD1抗体、PDL1抗体、CTLA-4抗体等。
在本文各个方面和各个实施方案中,所述癌症包括但不限于肝癌、肺癌、卵巢癌、结肠癌、直肠癌、黑色素瘤、肾癌、膀胱癌、前列腺癌、乳腺癌、淋巴瘤、恶性血液病、头颈癌、胶质瘤、胃癌、鼻咽癌、喉癌、胰腺癌、宫颈癌、食道癌、小肠癌、慢性或急性白血病和骨肉瘤。
在本文上下文中,术语“和/或”涵盖由该术语连接的项目的所有组合,应视作各个组合已经单独地在本文列出。例如,“A和/或B”涵盖了“A”、“A和B”以及“B”。例如,“A、B和/或C”涵盖“A”、“B”、“C”、“A和B”、“A和C”、“B和C”以及“A和B和C”。
下面通过具体实施例和附图对本发明作进一步详细说明。然而,其并不应该理解为对本发明的限制。
实施例
本研究以小鼠肝癌模型为例,从肿瘤组织和外周血全外显子组二代测序,和转录组二代测序结果出发,鉴定肝癌特异性新生抗原。
实施例1、准确分析肿瘤组织内中特异性体细胞突变(somatic mutation):
1.1该实施例所需公共数据库和公开发表的算法汇总
表1
1.2具体方法步骤:
1)肿瘤组织样本和外周血对照样本的原始测序数据获得和说明(raw data):全外显子组测序是利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于它具有对常见和罕见变异高灵敏度,因此仅需对2%的基因组进行测序就能发现外显子区域的大部分疾病相关变异。全外显子组测序技术具有针对性强,覆盖度深,数据准确性高,简便、经济、高效等特点。
获取肿瘤组织样品和外周血对照样品,通过Illumina平台进行高通量外显子测序。得到的原始图像数据文件经CASAVA碱基识别(Base Calling)分析转化为测序读段(Sequenced Reads),结果以FASTQ(简称为fq)文件格式存储,称之为Raw Reads。
FASTQ文件包含每条读段的名称、碱基序列以及其对应的测序质量信息。在FASTQ格式文件中,每个碱基对应一个碱基质量字符,每个碱基质量字符对应的ASCII码值减去33,即为该碱基的测序质量得分(Phred Quality Score)。不同Phred Quality Score代表不同的碱基测序错误率,如Phred Quality Score值为20和30分别表示碱基测序错误率为1.0%和0.1%。其中FASTQ格式示例如下:
(1)第一行以“@”开头,随后为Illumina测序标识别符(Sequence Identifiers)和描述文字(选择性部分);
(2)第二行是碱基序列;
(3)第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);
(4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行对应碱基的测序质量值。
2)原始测序数据的质控和过滤(clean data):利用FastQC算法对原始测序数据进行质量评估。利用Trim_galore软件对原始测序数据进行处理,标准如下:从3’端去除接头序列片段和Q值小于20的低质量片段,同时去除长度小于70bp的片段,得到的干净的高质量的测序序列片段用于后续分析(Clean data)。
3)测序数据比对到参考基因组上(alignment):通过质控的高质量的测序数据利用Bowtie2算法比对到参考基因组上。比对结果进行排序,标记重复序列并将其去除。
4)通过与外周血对照样本的测序结果比较,在肿瘤组织样本测序数据结果中分析体细胞突变:通过Strelka1、Stralka2、VarScan、Mutect2(Sentieon)和MuSE分析算法分别检测肿瘤组织中的体细胞突变,然后对这5种独立分析的体细胞突变检测结果取交集,大大降低检测的假阳性率。并且调整了上述每个算法的参数,提高了检测阈值,进一步降低检测的假阳性率。
5)5种独立算法结果的整合和过滤(consistent and filtering):对上面的5种独立分析的体细胞突变检测结果取交集,并过滤,得到高质量的肿瘤组织中的体细胞突变结果。过滤标准如下:(i)肿瘤组织和外周血样本的测序深度皆>=10;(ii)在肿瘤样本数据中,支持该变异的读段数>=3(去重数据);(iii)在肿瘤样本数据中,该变异的等位基因频率>=0.1;(iv)在外周血样本测序数据中,该变异的等位基因频率<=0.01;(v)在发明人已经建立的100个正常人外周血外显子测序数据中,该变异的频率<0.01。
6)通过一代测序(Sanger测序)对选定的具体体细胞突变进行验证。结果显示,本发明所述方法鉴定体细胞突变的假阳性率相比现有技术的方法降低2-3倍。
实施例2、结合基因表达水平、突变的基因功能预测等信息筛选体细胞突变位点
对实施例1检测到的每一个体细胞突变,基于NCBI人类基因组注释信息数据库,对变异位点进行基因水平(gene-based)、功能水平(region-based)注释的分析。
(1)基因结构水平的注释信息和优先级顺序:exonic=splicing>ncRNA>UTR5/UTR3>intron>upstream/downstream>intergenic>unknown。
(2)影响基因编码功能的注释信息和优先级顺序:stopgain>stoploss>nonsynonymousSNV>synonymous SNV>unknown。
本发明中,只筛选出位于exonic(基因结构水平)中的nonsynonymous SNV(影响基因编码功能水平)。
同时,基于转录组测序数据,检测所有NCBI人类基因组注释信息数据库中已经注释的蛋白编码基因的表达水平,从中
(1)进一步筛选出位于中高表达水平(RPKM≥1)的基因上的体细胞突变;
(2)评估样本中HLA基因/CD4/CD8的表达水平。
这样可以进一步筛选出位于中高表达水平基因上的、可以改变蛋白编码序列的体细胞突变,同时评估HLA基因/CD4/CD8的表达水平,判断患者目前是否适用于肿瘤新生抗原免疫疗法。
2.1该实施例所需公共数据库和公开发表的算法汇总
表2
2.2具体方法步骤:
1)肿瘤组织样本转录组的原始测序数据获得和说明(raw data):获取肿瘤组织样本,利用特征PolyA序列捕获mRNA并进行二代测序。高通量测序(Illumina)得到的原始图像数据文件经CASAVA碱基识别(Base Calling)分析转化为测序读段(Sequenced Reads),结果以FASTQ(简称为fq)文件格式存储,称之为Raw Reads。
2)原始测序数据的质控和过滤(clean data):利用FastQC算法对原始测序数据进行质量评估。利用Trim_galore软件对原始测序数据进行处理,标准如下:从3’端去除接头序列片段和Q值小于20的低质量片段,同时去除长度小于70bp的片段,得到的干净的高质量的测序序列片段用于后续分析(Clean data)。
3)测序数据比对到参考基因组上(alignment):通过质控的高质量的测序数据利用Tophat2算法比对到参考基因组上,比对结果进行排序。
4)基因表达水平的分析(gene expression information):通过计算RPKM值评估每个基因的表达水平。
5)体细胞突变的功能注释分析(mutation annotation):针对每一个体细胞突变,基于NCBI基因组注释信息数据库,对变异位点进行基因水平(gene-based)、功能水平(region-based)的注释的分析。只筛选出位于exonic(基因结构水平)中的nonsynonymousSNV(影响基因编码功能水平)。
结果如下表所示:
小鼠模型中基于基因表达水平和注释信息进一步筛选的体细胞突变。其中粗体示出每个模型进一步筛选出的体细胞突变数目。
表3
实施例3、基于外周血外显子测序数据对检测样本进行HLA-I/II分型
3.1该实施例所需公共数据库和公开发表的算法汇总
表4
3.2具体方法步骤:
1)原始测序数据获得以及质控和过滤:同实施例1。
2)基于5个不同的HLA基因型数据库信息,将测序数据进行严格比对到HLA基因注释区域并进行HLA分型(alignment and genotyping)。基于5个不同数据库的分析结果,判断HLA分型。
结果如下表所示,对8个个体的HLA分型结果可以看出本发明的方法能够将分型做到6位(2*3)以上,且与金标准PCR-SBT技术相比,准确度大于98%。
表5
粗体所示两列为PCR-SBT的分型结果。
实施例4、利用优化的计算模型平台筛选个性化的肿瘤新生抗原表位
本实施例中,基于前3个实施例的分析结果,对筛选出来的位于中高表达水平基因上的、可以改变蛋白编码序列的体细胞突变,针对于特定的HLA分型,预测肿瘤新生抗原。本实施例采用从多角度分析、综合预测的策略。该策略虽然会过滤掉一些阳性结果,但是筛选保留下来的新生抗原更加准确,假阳性率低。本实施例从结合亲和力(binding affinity)、结合稳定性(binding stability)、蛋白酶体切割(proteasomal cleavages)、质谱数据(Mass spectrometry)这些角度先独立预测肿瘤特异性新生抗原,然后再整合不同角度独立分析的结果,筛选出几个角度都显著的新生抗原。最后,采用几何平均法的策略,将预测出来的新生抗原进行排序。
4.1该实施例所需公共数据库和公开发表的算法汇总
表6
4.2具体方法步骤:
1)基于实施例1-3分析出来的体细胞突变位点,以蛋白编码区域内错义突变位点为中心,前后延伸7-13aa,提取所有氨基酸序列。
2)结合预测出来的HLA分型,使用NetMHCcons、NetMHC、NetMHCpan、PickPocket、MHCflurry、netMHCstab、NetChop分别针对结合亲和力(binding affinity)、结合稳定性(binding stability)、蛋白酶体切割(proteasomal cleavages)、质谱数据(Massspectrometry)独立预测肿瘤特异性新生抗原,根据可能性从高到底排序。
3)最后,根据不同方法的排序,采用几何平均法,将预测出来的新生抗原进行综合排序。
实施例5、基于H22小鼠肿瘤模型验证新生抗原鉴定方法和效果
一、肿瘤新生抗原筛选
全外显子测序(WES)筛选肿瘤体细胞突变
首先,从复旦细胞库(FDCC公司供货)购买小鼠肝细胞癌(HCC)H22细胞。取培养第10代的细胞抽提基因组DNA。从北京维通利华公司采购6-8周龄的H22细胞源发Balb/C小鼠,取鼠尾组织抽提了基因组DNA。随后,将以上基因组DNA样本交由上海诺和致源公司进行了200×的WES测序。原始测序数据按上述实施例描述进行生物信息学分析,即以Balb/C基因序列为野生型对照,计算得出H22细胞的体细胞突变/等位基因突变频率等数据,同时分析Balb/C小鼠和H22细胞的MHC I类分子分型。结果表明,H22细胞共有108个基因发生了氨基酸突变,即含有108个候选新生抗原,且H22细胞和Balb/C小鼠的MHC I类分子均为H2-Kd型。
RNA测序(RNA-seq)检测基因表达水平
取培养第9和10代的H22细胞分别进行RNA-seq,以检测基因的mRNA表达水平,取两代的平均值代表蛋白表达水平。mRNA表达水平由RPKM值表示,值越大表达水平越高。
新生抗原肽的MHC I类分子亲和力预测
肽的免疫原性包括MHC I/II类分子对肽的提呈能力(以肽段的MHC摩尔亲和力和MHC-肽复合物稳定性等表征)及TCR识别MHC-肽复合物的能力等方面。MHC I提呈的肽由CD8T细胞进行识别,预测肽的MHC I亲和力将辅助预测其激活CD8 T细胞免疫应答的能力。
上述三个步骤的部分代表性结果见下表。
表7
新生抗原候选库筛选
肿瘤细胞通常含有多个新生抗原,如H22有108个,判断一个新生抗原是否为合适的疫苗靶点,基因表达水平是第一要素。根据RNA-seq测序反馈的数据,以“RPKM≥1”为标准筛选H22细胞的候选新生抗原库,共筛得23个候选新生抗原(图2)。
二、新生抗原疫苗设计
一般情况下,氨基酸突变位点附近可能存在多个包含突变位点在内的新生CD8 T细胞表位,长度通常为8~13个氨基酸。这些表位都有可能成功CD8 T细胞攻击靶点,为了最大程度地涵盖这些表位,我们按如下原则设计了单个突变位点对应的免疫原:根据蛋白氨基酸序列,以突变位点为中心,两侧各拓展12个氨基酸的25氨基酸长肽即为免疫原。H22模型共筛得23个新生抗原,分别确定各新生抗原的长肽序列后,交由吉尔生化(上海)有限公司进行合成,最终有17/23个长肽合成成功。治疗时,将所选取的新生抗原长肽组合即为长肽疫苗。以下是长肽序列及合成情况。
表8
三、动物药效学评价
具体药效学实验方案见图3。
疾病模型建立
为了建立H22荷瘤小鼠模型,从北京维通利华公司采购36只SPF级Balb/C小鼠(6-8周龄,雌性),饲养于复旦大学张江校区药学院的SPF级动物房。小鼠到达后一周内状态正常,随即开始肿瘤细胞接种。
接种当日,收集体外悬浮培养的H22细胞悬液,离心后细胞沉淀用无菌PBS清洗两遍,最终沉淀用无菌PBS重悬至2×107细胞/ml,至于冰上保存。H22细胞皮下瘤接种时,用注射器将0.1ml细胞悬液(约2×106细胞)注射至右侧腹皮下。接种完成后,每天观察皮下瘤生长情况,第三天形成明显结节,直至第五天形成约5mm×7mm左右的红肿结节,说明皮下瘤模型建立成功。
荷瘤小鼠分组及治疗结果
种瘤后5天,用游标卡尺测量每只小鼠肿瘤结节的长短径并计算肿瘤体积。随后,根据肿瘤体积将36只小鼠均分为6个组别,分组结果显示每组小鼠肿瘤体积较为均一(图4)。
种瘤后6天第一次给药,此后分别于9、13、16天再次给药,共4次。每次均配制SLPs疫苗/anti-PD1/poly I:C三种单药。SLPs疫苗配制时,先用0.1ml DMSO(SIGMA)溶解2mgSLP干粉,随后加入0.3ml 1640培养基(GIBCO,不含血清和双抗)配制成5mg/ml母液,分装后保存于-80℃冰箱。随后,按照20μg/SLP/剂的比例逐个混合总共17种SLPs,再按50μg/剂的比例加入佐剂poly I:C(Sigma,5mg/ml),最终用无菌PBS定容至0.2ml/剂。anti-PD1(BE0146)采购至美国BIOXCELL公司,配制时用推荐的同公司pH7.0(IP0070)缓冲液将anti-PD1原液稀释至1mg/ml。poly I:C配制时按照SLP的制备方法配制溶媒,随后加入与SLPs疫苗同等量的poly I:C和PBS即可。给药时,SLPs和poly I:C通过肿瘤对侧腹皮下注射(s.c.)给予,anti-PD1则通过腹腔注射(i.p.)给药。
肿瘤尺寸每3天测量一次,共采集8个时间点的数据,绘制单只小鼠的肿瘤生长曲线(图5)。最后一个时间点测量完成后,将小鼠处死并拍摄了荷瘤小鼠照片(图6)。随后,进行了样品采集等工作。
治疗后荷瘤小鼠脾细胞IFN-γELISPOT检测结果
小鼠处死后,采集每只小鼠的脾脏并制备脾脏单细胞悬液,并挑选SLPs+anti-PD1组全部6只及其余5组各4只(肿瘤尺寸最大/最小各2只)共计26只小鼠,使用IFN-γ酶联免疫斑点法检测这些小鼠脾脏中新生抗原特异的T细胞免疫反应。SLPs疫苗包含了17种新生抗原,其SLP编号如下(表8)。为检测针对SLPs的免疫反应,对17个SLPs分别设计并合成了4个相互迭连的检测肽(ASP)(图7)。ELISPOT检测前,先在96孔板中使用ASPs长期刺激脾细胞以产生更多的抗原特异性T细胞,具体操作如下:将一个SLP的4个迭连ASP等比混合至单个ASP的浓度为4μg/ml,取50μl ASPs与5×105脾细胞等体积混合,体系中添加终浓度为20U/ml的细胞因子IL-2,其间每3天使用含2×ASPs和2×IL-2的新鲜培养基半量换液,刺激11天后进行ELISPOT检测。检测时,取50μl刺激混合物与50μl 2×ASPs混合,置于包被了anti-IFN-γ(BD,51-2525KC)的96孔板(BD,51-2447KC)中过夜培养,随后使用anti-IFN-γ检测抗体(BD,51-1818KZ)按照试剂盒(BD,551083)说明检测IFN-γ的分泌。IFN-γELISPOT检测结果表明:整体上,SLPs+anti-PD1组中IFN-γ分泌脾细胞的数量明显优于其它组,且在SLP1/2/6/7/15/16/17等中尤为显著;对比分析poly I:C+anti-PD1和SLPs+anti-PD1组,SLPs+anti-PD1组在除SLP5外的其它SLPs中均产生了更多分泌IFN-γ的脾细胞(图8)。
表9、H22新生抗原SLP编号及对应基因
| SLP编号 |
SLP1 |
SLP2 |
SLP3 |
SLP4 |
SLP5 |
SLP6 |
| 基因 |
Bard1 |
Cep192 |
Dhodh |
Endog |
Eya3 |
Fbxo4 |
| SLP编号 |
SLP7 |
SLP8 |
SLP9 |
SLP10 |
SLP11 |
SLP12 |
| 基因 |
Hipk1 |
Kpnb1 |
Lcp1 |
Rnf121 |
Sdcbp |
Sestd1 |
| SLP编号 |
SLP13 |
SLP14 |
SLP15 |
SLP16 |
SLP17 |
|
| 基因 |
Slc25a37 |
Snd1 |
Srr |
Tiam1 |
Vps33a |
|
结果讨论
以上结果表明:1.单独使用SLPs,对肿瘤早中期(7~14天)生长有轻微抑制作用;2.单独使用anti-PD1,即可显著抑制肿瘤生长,其中有2/6小鼠中肿瘤消失;3.poly I:C单独或联用均不影响肿瘤生长;4.SLPs+anti-PD1处理在肿瘤生长早中期即显示出极强烈抑制作用,并可持续直至肿瘤消失,最终仅1只小鼠肿瘤生长逃逸,但仍受到显著抑制;5.SLPs+anti-PD1处理能使小鼠体内产生更多针对新生抗原SLPs的IFN-γ阳性脾细胞,提示SLPs+anti-PD1处理是通过诱导抗原特异性免疫反应达到了清除肿瘤的作用。这些结果表明本发明的鉴定新生抗原的方法能够有效地计算筛选出具有免疫原性的新生抗原。