[go: up one dir, main page]

CN111883211B - 一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法 - Google Patents

一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法 Download PDF

Info

Publication number
CN111883211B
CN111883211B CN202010789009.0A CN202010789009A CN111883211B CN 111883211 B CN111883211 B CN 111883211B CN 202010789009 A CN202010789009 A CN 202010789009A CN 111883211 B CN111883211 B CN 111883211B
Authority
CN
China
Prior art keywords
score
preset
length
allele
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010789009.0A
Other languages
English (en)
Other versions
CN111883211A (zh
Inventor
张哲�
孟元光
杜欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010789009.0A priority Critical patent/CN111883211B/zh
Publication of CN111883211A publication Critical patent/CN111883211A/zh
Application granted granted Critical
Publication of CN111883211B publication Critical patent/CN111883211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,包括如下步骤:步骤1进行全基因组测序,得到基因原始数据;步骤2建立染色体信息矩阵X(X1、X2、X3…Xn),步骤3数据质量控制,步骤4序列比对,步骤5删除重复的读段,步骤6通过两个基因组拷贝的信号提取出LRP文件;步骤7将高质量非参考碱基与高质量碱基的数量比较提取出BAF文件;步骤8生成片段化的LRP和BAF文件进行预处理,得出A等位基因拷贝数为nA和B等位基因拷贝数为nB,步骤9通过nA与nB得出端粒等位基因失衡TAI得分;步骤10通过对每个位点的长度得出大规模跃迁LST得分;步骤11通过每个SNP位点的nA与nB的判断得出杂合性缺失LOH得分;步骤12统计计算得出HRD得分并进行判断。

Description

一种表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法
技术领域
本发明涉及生物信息领域技术领域,尤其涉及一种表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法。
背景技术
目前国内的专利“一种表征hHRD同源重组缺陷的基因组重组指纹及其鉴定方法”专注在HRD的基因组重组指纹,对于PARP抑制剂的预测效率不高,国外有研究表明HRD可致“基因组疤痕”现象简称为genomic scars,包括基因组杂合性缺失,英文为Loss ofHeterozygosity,简称为LOH、端粒等位基因不平衡英文为Telomeric Allelic Imbalance,简称为TAI、大片段迁移,英文为Large-scale state Transition,简称为LST。有研究检测综合LOH、TAI、LST等进行评分,对分值进行判断将BRCA突变者定义为HRD阳性。但是该数据来源于基因芯片数据,基因芯片数据存在误差比较大、鲁棒性较差的问题。
发明内容
为此,本发明提供一种表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法用以克服现有技术中基因芯片数据存在误差比较大、鲁棒性较差的问题。
为实现上述目的,本发明提供一种表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,包括如下步骤:
步骤1:收集样本,通过进行全基因组测序,得到基因原始数据;
步骤2:通过提取公共数据库建立染色体信息矩阵X(X1、X2、X3…Xn),其中,X1表示第一预设染色体信息矩阵,X2表示第二预设染色体信息矩阵,X3表示第三预设染色体信息矩阵,Xn表示第n预设染色体信息矩阵,每个预设染色体信息矩阵内包含24条染色体的长度、起始点和终点,着丝粒的位置、起始点和终点;
步骤3:数据质量控制,通过计算每个基因的质量得分,确定相应的核苷酸调用不正确的概率进行质量控制;
步骤4:序列比对,将读段比对到染色体信息矩阵中进行序列比对;
步骤5:删除重复的读段,将读取对的两次读取的起始坐标和方向,根据相同的5'映射坐标确定重复项并进行删除;
步骤6:通过两个基因组拷贝的观察信号与预期信号比较,提取出LRP文件;
步骤7:通过将高质量非参考碱基的数量与高质量碱基的数量比较,提取出BAF文件;
步骤8:预处理,将所述步骤7中生成片段化的LRP和BAF文件进行预处理,将SNP位点生成平均的片段,记录每个位点的染色体位置,区域起始点和终点得出A等位基因拷贝数为nA和B等位基因拷贝数为nB;
步骤9:通过比较染色体的端粒位置的nA与nB得出端粒等位基因失衡TAI的得分;
步骤10:通过对每个SNP位点的长度与预设长度进行比较得出大规模跃迁LST的得分;
步骤11:通过将每个SNP位点的nA与nB值的判断以及所述位点长度的对比判断得出杂合性缺失LOH得分;
步骤12:通过对所述端粒等位基因失衡TAI、大规模跃迁LST、杂合性缺失LOH的得分进行统计后对基因进行判断。
进一步地,所述步骤3中,所述基因的质量得分表示为:
Q=-10x log10(P)
其中,Q表示为序列格式质量得分,P表示每个碱基错误的概率。
进一步地,所述步骤6中,提取出的LRP文件包括LRP值和对应的染色体位置,LRP值可表示为:
Figure BDA0002623092800000021
其中,LRP表示文件信号的密度,X表示提取的每个区域的实际值,i表示染色体起始的位置,k表示染色体中最后的区域位置;
所述步骤7中,提取出的BAF文件包括BAF值和对应的染色体位置,BAF值可表示为:
Figure BDA0002623092800000031
其中,BAF表示文件等位基因频率,XAD表示提取的高质量非参考碱基的数量,XAP表示为高质量碱基的数量。
进一步地,所述步骤8中,通过记录所述LRP文件和BAF文件中记载的对应染色体的位置,染色体的区域起点和终点能够得出nA为A等位基因拷贝数,nB为B等位基因拷贝数,nA表示为:
Figure BDA0002623092800000032
其中,nA表示A等位基因拷贝数,α,β表示约束参数,X为片段化的LRP值,Y为片段化的BAF值;
nB表示为:
Figure BDA0002623092800000033
其中,nB为B等位基因拷贝数,α,β表示约束参数,X为片段化的LRP值,Y为片段化的BAF值。
进一步地,所述BAF值的取值区间为0-1。
进一步地,所述步骤9中,SNP表示为单核苷酸多态性,端粒等位基因失衡TAI的得分如下:首先对SNP的每个位点进行判断,若所述位点不是端粒位置,则判断该位点得分为0,若位点是端粒位置,则对nA与nB进行比较,
其中,nA与nB进行比较过程中,预设SNP的所有位点中A等位基因拷贝数nA出现的数量形成矩阵Ta(Ta1、Ta2、Ta3…Tan),其中,Ta1表示A等位基因第一预设拷贝数,Ta2表示A等位基因第二预设拷贝数,Ta3表示A等位基因第三预设拷贝数,Tan表示A等位基因第n预设拷贝数;
预设SNP的所有位点中B等位基因拷贝数nB出现的数量形成矩阵Tb(Tb1、Tb2、Tb3…Tbn),其中,Tb1表示B等位基因第一预设拷贝数,Tb2表示B等位基因第二预设拷贝数,Tb3表示B等位基因第三预设拷贝数,Tbn表示B等位基因第n预设拷贝数;
将Ta1与Tb1进行比较,Ta2与Tb2进行比较,Ta3与Tb3进行比较,Tan与Tbn进行比较,若Tai=Tbi时,得计算该位点得分为1,若Tai≠Tbi时,得计算该位点得分为0,通过对染色体所有位点的计算得出端粒等位基因失衡TAI的得分。
进一步地,所述步骤10中,预设SNP的位点长度包括预设第一长度和预设第二长度,首先对每个SNP的每个位点的长度与第一预设长度进行比较,若所述位点大于等于所述预设第一长度时,判断所述位点得分为0,若所述位点的长度小于所述预设第一长度时,则判断所述位点的上一个位点的终点到所述位点的起点的长度与所述预设第二长度的关系,若所述位点的上一个位点的终点到所述位点的起点的长度小于所述预设第二长度时,判断所述位点得分为1,若所述位点的上一个位点的终点到所述位点的起点的长度大于等于所述预设第二长度时,判断所述位点得分为0,通过所述SNP位点长度的关系计算得出大规模跃迁LST的得分。
进一步地,所述步骤11中,预设SNP的位点长度包括预设第三长度,首先对每个SNP的每个位点的nA进行判断,若nA不等于0时,判断所述位点得分为0,若nA等于0时,则对nB进行判断,若nB不等于0时,判断所述位点得分为0,若nB等于0时,则对所述位点的长度与预设第三长度进行比较,若所述位点长度大于预设第三长度时,判断所述位点得分为1,若所述位点长度小于等于预设第三长度时,判断所述位点得分为0,通过计算每个位点nA与nB值的关系得出杂合性缺失LOH的得分。
进一步地,所述步骤12中,HRD表示为同源重组缺陷,所述HRD得分表示为:
HRD=LOH+TAI+LST
其中,HRD表示同源重组缺陷得分,LOH表示杂合性缺失得分,LST表示大规模跃迁得分,TAI表示端粒等位基因失衡得分;
预设HRD的比对参考值为P,若HRD≥P时,则判断所述HRD为阳性,若所述HRD<P时,则判断所述HRD为阴性。
进一步地,所述步骤1中,得到的原始数据的格式为FASTQ文件,所述步骤2中,所述提取公共数据库的资源选自hg38。
与现有技术相比,本发明的有益效果在于,本发明通过基于HRD基因组瘢痕现象,利用二代测序数据寻找出新的鉴定方法的流程,通过离题体液和组织进行全基因组测序的方法,提高了全基因组测定的检验准确性;通过对样本数据的全基因组测序得到原始数据,通过原始数据的每个基因的质量得分确定不正确的概率,再通过与染色体信息矩阵的序列比对,删除重复的读段,提取出LRP和BAF文件,通过LRP和BAF文件计算出A等位基因拷贝数为nA和B等位基因拷贝数为nB,再通过nA与nB的位置关系和长度的关系计算出端粒等位基因失衡TAI的得分、大规模跃迁LST的得分和杂合性缺失LOH的得分,通过对所述端粒等位基因失衡TAI、大规模跃迁LST、杂合性缺失LOH的得分进行统计后对基因进行判断,通过系统的判断方法,在每个步骤中,逐步减少误差的产生,提高了鉴定方法的鲁棒性。
进一步地,本发明通过将测序获得的数据采用BWA软件,Picard,GATK,VarScan2软件进行运算,通过软件的计算,减少了人为的因素,提高了数据的准确性。
进一步地,通过对基因的质量得分,确定相应的核苷酸调用不正确的概率进行质量控制,减少了误差的产生;通过记录所述LRP文件和BAF文件中记载的对应染色体的位置,染色体的区域起点和终点能够得出nA为A等位基因拷贝数,nB为B等位基因拷贝数。通过分别计算nA和nB并对nA和nB的数值进行判断,进一步减少了误差,避免因出现一些不可控因素使得数据的产生的不准确性,通过公式的计算方法也提高了数据的适应性。
进一步地,在nA与nB进行比较过程中,预设SNP的所有位点中A等位基因拷贝数nA出现的数量形成矩阵Ta(Ta1、Ta2、Ta3…Tan),预设SNP的所有位点中B等位基因拷贝数nB出现的数量形成矩阵Tb(Tb1、Tb2、Tb3…Tbn),将Ta1与Tb1进行比较,Ta2与Tb2进行比较,Ta3与Tb3进行比较,Tan与Tbn进行比较,若Tai=Tbi时,得计算该位点得分为1,若Tai≠Tbi时,得计算该位点得分为0,通过对染色体每个位点的计算得分相加得出所有位点的得分从而得出端粒等位基因失衡TAI的得分,通过每个位点精确的计算,进一步减少了误差的产生。
进一步地,通过预设SNP的位点长度包括预设第一长度和预设第二长度与实际的,每个SNP的每个位点的长度比较,首先将所述位点与预设第一长度比较判断,其次将所述位点与预设第二长度比较判断,通过两个长度设置的比较,通过每个SNP位点长度的关系计算得出大规模跃迁LST的得分,进一步减少误差,提高计算方法过程中数据的准确性,提高计算系统的鲁棒性。
进一步地,通过预设SNP的位点长度包括预设第三长度,首先将SNP的每个位点的nA进行判断,再对nB进行判断,最后对所述位点的长度与预设第三长度进行比较,通过计算每个位点nA与nB值的关系得出杂合性缺失LOH的得分,通过层层递进的判断方法,避免因一个数据对整个数据造成大的影响,而且在数据的判断过程中,若某个节点的判断失误不会对整体的数据造成大的影响,进一步减少数据出现的误差,提高鉴定方法的鲁棒性。
进一步地,通过对杂合性缺失LOH得分,大规模跃迁LST得分,端粒等位基因失衡TAI得分的计算得出同源重组缺陷HRD得分,通过将同源重组缺陷HRD得分与预设比对参考值,通过比对得出HRD的阴性或阳性的判断,通过对三组得分的统筹计算,设置截断点来判断基因瘢痕阳性阴性的判断,进一步减少数据出现误差的可能性。
附图说明
图1为本发明所述实施例表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法的流程示意图;
图2为本发明所述实施例表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法中端粒等位基因失衡TAI得分的流程示意图;
图3为本发明所述实施例表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法中大规模跃迁LST得分的流程示意图;
图4为本发明所述实施例表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法中杂合性缺失LOH得分的流程示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,一种表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,包括如下步骤:
步骤1:收集样本,通过进行全基因组测序,得到基因原始数据;
步骤2:通过提取公共数据库建立染色体信息矩阵X(X1、X2、X3…Xn),其中,X1表示第一预设染色体信息矩阵,X2表示第二预设染色体信息矩阵,X3表示第三预设染色体信息矩阵,Xn表示第n预设染色体信息矩阵,每个预设染色体信息矩阵内包含24条染色体的长度、起始点和终点,着丝粒的位置、起始点和终点;
步骤3:数据质量控制,通过计算每个基因的质量得分,确定相应的核苷酸调用不正确的概率进行质量控制;
步骤4:序列比对,将读段比对到染色体信息矩阵中进行序列比对;
步骤5:删除重复的读段,将读取对的两次读取的起始坐标和方向,根据相同的5'映射坐标确定重复项并进行删除;
步骤6:通过两个基因组拷贝的观察信号与预期信号比较,提取出LRP文件;
步骤7:通过将高质量非参考碱基的数量与高质量碱基的数量比较,提取出BAF文件;
步骤8:预处理,将所述步骤7中生成片段化的LRP和BAF文件进行预处理,将SNP位点生成平均的片段,记录每个位点的染色体位置,区域起始点和终点得出A等位基因拷贝数为nA和B等位基因拷贝数为nB;
步骤9:通过比较染色体的端粒位置的nA与nB得出端粒等位基因失衡TAI的得分;
步骤10:通过对每个SNP位点的长度与预设长度进行比较得出大规模跃迁LST的得分;
步骤11:通过将每个SNP位点的nA与nB值的判断以及所述位点长度的对比判断得出杂合性缺失LOH得分;
步骤12:通过对所述端粒等位基因失衡TAI、大规模跃迁LST、杂合性缺失LOH的得分进行统计后对基因进行判断。
具体而言,本发明实施例中,所述步骤1中,得到的原始数据的格式为FASTQ文件。所述FASTQ文件格式是事实上的文件格式,用于从二代测序技术生成的序列读取。这种文件格式是从FASTA演变而来的,它既包含序列数据,又包含质量信息。与FASTA相似,FASTQ文件以标题行开头。区别在于FASTQ标头第一行是由@字符表示,第4行为具有编码读取中每个核苷酸质量的字符。
具体而言,本发明实施例中,所述步骤2中,建立染色体信息矩阵X(X1、X2、X3…Xn),其中,X1表示第一预设染色体信息矩阵,X2表示第二预设染色体信息矩阵,X3表示第三预设染色体信息矩阵,Xn表示第n预设染色体信息矩阵,每个预设染色体信息矩阵内包含24条染色体的长度、起始点和终点,着丝粒的位置、起始点和终点;本发明的染色体信息矩阵信息的基因版本取自hg38,也可以取自其他版本,本发明并不对基因版作任何的限定,一切以具体实施为准。
具体而言,本发明实施例中,所述步骤3中,所述质量得分是基于对数计算的,通过fastqc软件计算得出的,所述质量得分的计算公式为:
Q=-10x log10(P)
其中,Q表示为序列格式质量得分,P表示每个碱基错误的概率。
具体而言,本发明实施例中,预设Q的预制值为20,对应碱基错误的概率为0.01,这样仅仅纳入正确率大于99%的碱基,去掉质量分数Q低于20的碱基。也可以预设Q的预制值为10或30,本发明并不限定Q的预制值的具体值,一切以具体实施需要为准。
具体而言,本发明实施例中,所述步骤4中,通过BWA软件将读段比对到参考基因组中,BWA软件可能用其他的软件,本发明并不限定具体使用什么软件,一切以具体实施为准。参考基因组中可以选用hg38版本的基因数据作为参考比对数据,也可以选用hg19的基因数据作为参考比对数据,将BWA软件读段的数据与参考基因组的数据进行序列比对生成BAM文件。
具体而言,本发明实施例中,所述步骤5中,由于样品或文库制备中的错误,读数可能来自完全相同的输入DNA模板,并积累在参考基因组的相同起始位置。任何测序错误都会成倍增加,并可能导致下游变异调用中出现伪像。尽管读取的重复片段可以代表真实的DNA物质,但无法将它们与PCR伪像区分开来,后者是DNA片段扩增不均匀的结果。为了减少在发现变体之前重复项的这种有害影响,将运行基于Picard MarkDuplicates工具的“删除重复的映射读取”应用程序。要确定重复项,Picard MarkDuplicates使用读取对的两次读取的起始坐标和方向。根据相同的5'映射坐标,它会丢弃所有重复项,但“最佳”副本除外。
具体而言,本发明实施例中,所述步骤6中,LRP表示文件信号的密度,来自每个SNP标记的信号强度的归一化度量,SNP表示为单核苷酸多态性。它是根据两个基因组拷贝的观察信号与预期信号之比的log2进行计算的。归一化之后,当该区域有两个副本时,我们期望看到信号聚集在0附近。较高的值可能表示重复事件,而较低的值可能表示删除。LRP提取的文件包括提取的LRP值和对应的染色体位置,LRP值可表示为:
Figure BDA0002623092800000091
其中,LRP表示文件信号的密度,X表示提取的每个区域的实际值。i表示染色体起始的位置,k表示染色体中最后的区域位置。
具体而言,本发明实施例中,所述步骤7中,BAF表示文件等位基因频率,BAF值在0-1之间。通过将高质量非参考碱基的数量与高质量碱基的数量相除,可以计算异源基因座上的B等位基因频率,提取出的BAF文件包含BAF值和对应的染色体位置。BAF值可表示为:
Figure BDA0002623092800000092
其中,BAF表示文件等位基因频率,XAD表示BAM文件中提取的高质量非参考碱基的数量,XAP表示为高质量碱基的数量。
具体而言,本发明实施例中,所述步骤8中,生成片段化的LRP和BAF(对于每个样品取均值),这一步是将SNP位点生成平均的片段,记录每个位点的染色体位置,区域起始点和终点可得nA为A等位基因拷贝数,nB为B等位基因拷贝数,ploidy为染色体倍数。nA可表示为:
Figure BDA0002623092800000101
其中,nA表示A等位基因拷贝数,α,β表示约束参数。
nB可表示为:
Figure BDA0002623092800000102
其中,nB为B等位基因拷贝数,α,β表示约束参数,X为片段化的LRP值,Y为片段化的BAF值。
具体而言,本发明实施例中,设定α=1,β=0.1,nA,nB为整数,ploidy为染色体倍数。
请参阅图2所示,所述步骤9中,在每个样本中,对于每条染色体,比较其端粒位置的nA是否等于nB,如果是则记为1,如果不是则记为0,则最终该样本的TAI得分为1的计数,TAI表示为端粒等位基因失衡。首先对SNP位点进行判断,若位点不是端粒位置,则判断该位点得分为0,若位点是端粒位置,则对nA与nB进行比较,若nA=nB时,该位点得分为1,若nA≠nB时,则该位点得分为0。其中,nA与nB进行比较过程中,预设SNP的所有位点中A等位基因拷贝数nA出现的数量形成矩阵Ta(Ta1、Ta2、Ta3…Tan),其中,Ta1表示A等位基因第一预设拷贝数,Ta2表示A等位基因第二预设拷贝数,Ta3表示A等位基因第三预设拷贝数,Tan表示A等位基因第n预设拷贝数。预设SNP的所有位点中B等位基因拷贝数nB出现的数量形成矩阵Tb(Tb1、Tb2、Tb3…Tbn),其中,Tb1表示B等位基因第一预设拷贝数,Tb2表示B等位基因第二预设拷贝数,Tb3表示B等位基因第三预设拷贝数,Tbn表示B等位基因第n预设拷贝数。将Ta1与Tb1进行比较,Ta2与Tb2进行比较,Ta3与Tb3进行比较,Tan与Tbn进行比较,若Tai=Tbi时,得计算该位点得分为1。
请参阅图3所示,所述步骤10中,LST表示大规模跃迁得分,在每个样本中,对于每个SNP位点,如果该位点长度大于10MB,并且上一个位点的终点到这个位点的起点长度小于3MB,则记为1,否则记为0,最终该样本的LST得分为1的计数。每个SNP的每个位点长度包含预设第一长度和预设第二长度,
首先对每个SNP的每个位点的长度与第一预设长度进行比较,若所述位点大于等于所述预设第一长度时,判断所述位点得分为0,若所述位点的长度小于所述预设第一长度时,则判断所述位点的上一个位点的终点到所述位点的起点的长度与所述预设第二长度的关系,若所述位点的上一个位点的终点到所述位点的起点的长度小于所述预设第二长度时,判断所述位点得分为1,若所述位点的上一个位点的终点到所述位点的起点的长度大于等于所述预设第二长度时,判断所述位点得分为0。
请参阅图4所示,所述步骤11中,LOH表示杂合性缺失,对每个样本中每个SNP位点的nA与nB值的关系和该位点长度的关系得出杂合性缺失LOH得分。每个SNP的每个位点长度还包含预设第三长度,首先对每个SNP的每个位点的nA进行判断,若nA不等于0时,判断所述位点得分为0,若nA等于0时,则对nB进行判断,若nB不等于0时,判断所述位点得分为0,若nB等于0时,则对所述位点的长度与预设第三长度进行比较,若所述位点长度大于预设第三长度时,判断所述位点得分为1,若所述位点长度小于等于预设第三长度时,判断所述位点得分为0。
具体而言,本发明实施例中,所述步骤12中,通过对所述端粒等位基因失衡TAI、大规模跃迁LST、杂合性缺失LOH的得分进行统计并进行判断,统计如下:
HRD=LOH+TAI+LST
其中,HRD表示同源重组缺陷得分,LOH表示杂合性缺失得分,LST表示大规模跃迁得分,TAI表示端粒等位基因失衡得分,通过将三者相加得出所述HRD同源重组缺陷得分,
预设比对参考值为P,若HRD≥P时,则判断所述HRD为阳性,若所述HRD<P时,则判断所述HRD为阴性,
本发明实施例中,所述比对值P设定为43,比对值也可以设定其他数值,一切以具体实施为准。本发明HRD的计算为相加,也可以采取加权平均的方法,本发明不限定具体的计算方法和预设比对参考值的具体大小,如果采取加权平均的方法,对应的预设比对参考值的大小也要根据实际进行相应的调整,一切以具体实施为准。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,其特征在于,包括如下步骤:
步骤1:收集样本,通过进行全基因组测序,得到基因原始数据;
步骤2:通过提取公共数据库建立染色体信息矩阵X(X1、X2、X3…Xn),其中,X1表示第一预设染色体信息矩阵,X2表示第二预设染色体信息矩阵,X3表示第三预设染色体信息矩阵,Xn表示第n预设染色体信息矩阵,每个预设染色体信息矩阵内包含24条染色体的长度、起始点和终点,着丝粒的位置、起始点和终点;
步骤3:数据质量控制,通过计算每个基因的质量得分,确定相应的核苷酸调用不正确的概率进行质量控制;
步骤4:序列比对,将读段比对到染色体信息矩阵中进行序列比对;
步骤5:删除重复的读段,将读取对的两次读取的起始坐标和方向,根据相同的5'映射坐标确定重复项并进行删除;
步骤6:通过两个基因组拷贝的观察信号与预期信号比较,提取出LRP文件;
步骤7:通过将高质量非参考碱基的数量与高质量碱基的数量比较,提取出BAF文件;
步骤8:预处理,将所述步骤7中生成片段化的LRP和BAF文件进行预处理,将SNP位点生成平均的片段,记录每个位点的染色体位置,区域起始点和终点得出A等位基因拷贝数为nA和B等位基因拷贝数为nB;
步骤9:通过比较染色体的端粒位置的nA与nB得出端粒等位基因失衡TAI的得分;
步骤10:通过对每个SNP位点的长度与预设长度进行比较得出大规模跃迁LST的得分;
步骤11:通过将每个SNP位点的nA与nB值的判断以及所述位点长度的对比判断得出杂合性缺失LOH得分;
步骤12:通过对所述端粒等位基因失衡TAI、大规模跃迁LST、杂合性缺失LOH的得分进行统计后对基因进行判断;
所述步骤6中,提取出的LRP文件包括LRP值和对应的染色体位置,LRP值表示为:
Figure FDA0002968444570000021
其中,LRP表示文件信号的密度,X表示提取的每个区域的实际值,i表示染色体起始的位置,k表示染色体中最后的区域位置;
所述步骤7中,提取出的BAF文件包括BAF值和对应的染色体位置,BAF值表示为:
Figure FDA0002968444570000022
其中,BAF表示文件等位基因频率,XAD表示提取的高质量非参考碱基的数量,XAP表示为高质量碱基的数量;
所述步骤8中,通过记录所述LRP文件和BAF文件中记载的对应染色体的位置,染色体的区域起点和终点能够得出nA为A等位基因拷贝数,nB为B等位基因拷贝数,nA表示为:
Figure FDA0002968444570000023
其中,nA表示A等位基因拷贝数,α,β表示约束参数,X为片段化的LRP值,Y为片段化的BAF值;
nB表示为:
Figure FDA0002968444570000024
其中,nB为B等位基因拷贝数,α,β表示约束参数,X为片段化的LRP值,Y为片段化的BAF值;
所述步骤9中,SNP表示为单核苷酸多态性,端粒等位基因失衡TAI的得分如下:首先对SNP的每个位点进行判断,若所述位点不是端粒位置,则判断该位点得分为0,若位点是端粒位置,则对nA与nB进行比较,
其中,nA与nB进行比较过程中,预设SNP的所有位点中A等位基因拷贝数nA出现的数量形成矩阵Ta(Ta1、Ta2、Ta3…Tan),其中,Ta1表示A等位基因第一预设拷贝数,Ta2表示A等位基因第二预设拷贝数,Ta3表示A等位基因第三预设拷贝数,Tan表示A等位基因第n预设拷贝数;
预设SNP的所有位点中B等位基因拷贝数nB出现的数量形成矩阵Tb(Tb1、Tb2、Tb3…Tbn),其中,Tb1表示B等位基因第一预设拷贝数,Tb2表示B等位基因第二预设拷贝数,Tb3表示B等位基因第三预设拷贝数,Tbn表示B等位基因第n预设拷贝数;
将Ta1与Tb1进行比较,Ta2与Tb2进行比较,Ta3与Tb3进行比较,Tan与Tbn进行比较,若Tai=Tbi时,则所述位点得分为1,若Tai≠Tbi时,则所述位点得分为0,通过对染色体所有位点的计算得出端粒等位基因失衡TAI的得分;
所述步骤10中,预设SNP的位点长度包括预设第一长度和预设第二长度,首先对每个SNP的每个位点的长度与第一预设长度进行比较,若所述位点大于等于所述预设第一长度时,判断所述位点得分为0,若所述位点的长度小于所述预设第一长度时,则判断所述位点的上一个位点的终点到所述位点的起点的长度与所述预设第二长度的关系,若所述位点的上一个位点的终点到所述位点的起点的长度小于所述预设第二长度时,判断所述位点得分为1,若所述位点的上一个位点的终点到所述位点的起点的长度大于等于所述预设第二长度时,判断所述位点得分为0,通过所述SNP位点长度的关系计算得出大规模跃迁LST的得分。
2.根据权利要求1所述的表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,其特征在于,所述步骤3中,所述基因的质量得分表示为:
Q=-10 x log10(P)
其中,Q表示为序列格式质量得分,P表示每个碱基错误的概率。
3.根据权利要求2所述的表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,其特征在于,所述BAF值的取值区间为0-1。
4.根据权利要求3所述的表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,其特征在于,所述步骤11中,预设SNP的位点长度包括预设第三长度,首先对每个SNP的每个位点的nA进行判断,若nA不等于0时,判断所述位点得分为0,若nA等于0时,则对nB进行判断,若nB不等于0时,判断所述位点得分为0,若nB等于0时,则对所述位点的长度与预设第三长度进行比较,若所述位点长度大于预设第三长度时,判断所述位点得分为1,若所述位点长度小于等于预设第三长度时,判断所述位点得分为0,通过计算每个位点nA与nB值的关系得出杂合性缺失LOH的得分。
5.根据权利要求4所述的表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,其特征在于,所述步骤12中,HRD表示为同源重组缺陷,所述HRD得分表示为:
HRD=LOH+TAI+LST
其中,HRD表示同源重组缺陷得分,LOH表示杂合性缺失得分,LST表示大规模跃迁得分,TAI表示端粒等位基因失衡得分;
预设HRD的比对参考值为P,若HRD≥P时,则判断所述HRD为阳性,若所述HRD<P时,则判断所述HRD为阴性。
6.根据权利要求1所述的表征HRD同源重组修复缺陷的基因瘢痕及鉴定方法,其特征在于,所述步骤1中,得到的原始数据的格式为FASTQ文件,所述步骤2中,所述提取公共数据库的资源选自hg38。
CN202010789009.0A 2020-08-07 2020-08-07 一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法 Active CN111883211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010789009.0A CN111883211B (zh) 2020-08-07 2020-08-07 一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010789009.0A CN111883211B (zh) 2020-08-07 2020-08-07 一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法

Publications (2)

Publication Number Publication Date
CN111883211A CN111883211A (zh) 2020-11-03
CN111883211B true CN111883211B (zh) 2021-04-23

Family

ID=73211843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010789009.0A Active CN111883211B (zh) 2020-08-07 2020-08-07 一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法

Country Status (1)

Country Link
CN (1) CN111883211B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110106063B (zh) * 2019-05-06 2022-07-08 臻和精准医学检验实验室无锡有限公司 基于二代测序的用于神经胶质瘤1p/19q联合缺失检测的系统
CN112397145A (zh) * 2020-11-19 2021-02-23 河南省肿瘤医院 一种基于芯片检测的hrd评分计算方法
CN112980834B (zh) * 2021-04-22 2021-08-17 菁良基因科技(深圳)有限公司 一种同源重组修复缺陷参考品及其制备方法和试剂盒
CN113948151B (zh) * 2021-06-28 2022-07-05 北京橡鑫生物科技有限公司 一种低深度wgs下机数据的处理方法
CN114242170B (zh) * 2021-12-21 2023-05-09 深圳吉因加医学检验实验室 一种同源重组修复缺陷的评估方法、装置和存储介质
CN114283889B (zh) * 2021-12-27 2024-12-10 深圳吉因加医学检验实验室 一种矫正同源重组修复缺陷评分的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014165785A2 (en) * 2013-04-05 2014-10-09 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN110029157A (zh) * 2018-01-11 2019-07-19 北京大学 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法
CN110093417A (zh) * 2018-01-31 2019-08-06 北京大学 一种检测肿瘤单细胞体细胞突变的方法
CN110241198A (zh) * 2019-05-30 2019-09-17 成都吉诺迈尔生物科技有限公司 一种表征hHRD同源重组缺陷的基因组重组指纹及其鉴定方法
CN110913896A (zh) * 2017-07-14 2020-03-24 弗朗西斯.克里克研究所 肿瘤中hla等位基因的分析及其用途

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1728566B1 (en) * 2004-03-11 2012-08-29 Sumitomo Metal Industries, Ltd. Seamless pipe producing device and seamless pipe producing method using them
GB0603683D0 (en) * 2006-02-23 2006-04-05 Novartis Ag Organic compounds
CN110527744A (zh) * 2019-05-30 2019-12-03 四川大学华西第二医院 一组与同源重组修复缺陷相关的基因组特征性突变指纹的鉴定方法
CN111462823B (zh) * 2020-04-08 2022-07-12 西安交通大学 一种基于dna测序数据的同源重组缺陷判定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014165785A2 (en) * 2013-04-05 2014-10-09 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN110913896A (zh) * 2017-07-14 2020-03-24 弗朗西斯.克里克研究所 肿瘤中hla等位基因的分析及其用途
CN110029157A (zh) * 2018-01-11 2019-07-19 北京大学 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法
CN110093417A (zh) * 2018-01-31 2019-08-06 北京大学 一种检测肿瘤单细胞体细胞突变的方法
CN110241198A (zh) * 2019-05-30 2019-09-17 成都吉诺迈尔生物科技有限公司 一种表征hHRD同源重组缺陷的基因组重组指纹及其鉴定方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Characterisation of homologous recombination deficiency in paired primary and recurrent high-grade serous ovarian cancer;Jai N. Patel et al.;《British Journal of Cancer》;20181215;全文 *
Homologous recombination deficiency in triple negative breast cancer;Carmen Belli et al.;《The Breast》;20191231;全文 *
Migrating the SNP array-based homologous recombination deficiency measures to next generation sequencing data of breast cancer;Zsofia Sztupinszki et al.;《npj Breast Cancer》;20180702;第1-4页 *
基于二代测序数据的SNP发现策略及其初步应用;高彧辉;《中国优秀硕士学位论文全文数据库 基础科学辑》;20140115(第02期);第20-41页 *

Also Published As

Publication number Publication date
CN111883211A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111883211B (zh) 一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法
CN114999573B (zh) 一种基因组变异检测方法及检测系统
CN110029157B (zh) 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法
JP2023524722A (ja) 遺伝子の突然変異及び発現量を検出する方法及び装置
CN109949861B (zh) 肿瘤突变负荷检测方法、装置和存储介质
KR101686146B1 (ko) 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법
CN111755068B (zh) 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置
CN111863127B (zh) 一种构建植物转录因子对靶基因遗传调控网络的方法
CN110993023B (zh) 复杂突变的检测方法及检测装置
WO2018157861A1 (zh) 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
KR102405245B1 (ko) 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도
WO2021232388A1 (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN103114150A (zh) 基于酶切建库测序与贝叶斯统计的单核苷酸多态性位点鉴定的方法
CN117316271A (zh) 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统
CN118441073B (zh) 与绒山羊胸宽相关的单倍型分子标记及其应用
CN116516029A (zh) 一种金鲳全基因组育种芯片及应用
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
CN114171116B (zh) 孕妇游离及本身dna评估胎儿dna浓度的方法及应用
CN114023391A (zh) 一种呼伦贝尔羊snp数据库的构建方法
CN117925820B (zh) 一种用于胚胎植入前变异检测的方法
CA3149056A1 (en) Methods for dna library generation to facilitate the detection and reporting of low frequency variants
CN114990202A (zh) Snp位点在评估基因组异常的应用及评估基因组异常的方法
CN117649873A (zh) 一种检测地中海贫血患者拷贝数变异类型的方法及装置
CN115862733A (zh) 基于中深度全基因组二代测序检测杂合性缺失的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant