[go: up one dir, main page]

CN111095422A - 通过综合计算和实验深度突变学习框架解释基因和基因组变体 - Google Patents

通过综合计算和实验深度突变学习框架解释基因和基因组变体 Download PDF

Info

Publication number
CN111095422A
CN111095422A CN201880050685.7A CN201880050685A CN111095422A CN 111095422 A CN111095422 A CN 111095422A CN 201880050685 A CN201880050685 A CN 201880050685A CN 111095422 A CN111095422 A CN 111095422A
Authority
CN
China
Prior art keywords
molecular
phenotypic
variant
score
variants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880050685.7A
Other languages
English (en)
Inventor
C·L·阿拉亚
J·A·罗伊特
S·R·帕迪格帕蒂
A·科拉温
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Invet Corp
Original Assignee
Jongra Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jongra Co ltd filed Critical Jongra Co ltd
Priority to CN202410955984.2A priority Critical patent/CN119028454A/zh
Publication of CN111095422A publication Critical patent/CN111095422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Physiology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文公开了用于确定生物样品内所鉴别的分子变体的表型影响的系统、方法和计算机程序产品实施方案。实施方案包括接收与模型系统内的功能元件相关联的分子变体。实施方案然后确定与所述模型系统相关联的分子得分。实施方案然后基于所述分子得分确定与所述分子变体相关联的分子信号和群体信号。实施方案然后基于统计学习确定所述分子变体的功能得分。实施方案然后基于所述功能得分得出所述分子变体的证据得分。实施方案然后基于所述功能得分或证据得分确定所述分子变体的表型影响。

Description

通过综合计算和实验深度突变学习框架解释基因和基因组 变体
概述
了解基因组中的功能元件(诸如蛋白质编码基因、非编码基因和调节元件)内的基因型(例如序列)变体的影响对于各种生命科学应用至关重要。目前,普通人群中全部疾病相关联基因有几乎一半含有的未表征变体的数目高于已知临床意义的变体。这对于评价基因序列和基因组序列的诊断和筛查测试均构成重大挑战(Landrum等人,2015年;Lek等人, 2016年)。大量具有未知临床意义的新变体是几乎所有基因的特征(例如对于群体中的种系变体和体细胞变体二者),甚至影响最频繁测试的基因。例如,评价一组基因的癌症易感性突变的测试报道,发现每个已知的致病变体有多达95个未表征的变体(Maxwell等人,2016 )。因此,预测基因型变体的表型(例如细胞、生物体、临床或其它)后果是在广泛的临床环境中利用基因和基因组信息的障碍。
基因组编码的功能元件内的基因型(例如序列)变体可以影响多种生物物理过程,从而改变每个元件内的独特分子功能,并导致各种临床和非临床表型。例如,在已确立的肿瘤抑制蛋白编码基因磷酸酶-张力蛋白同源物(PTEN)中,影响转录的基因型变体(例如–903G>A、–975G>C和–1026C>A)、影响蛋白质稳定性的基因型变体(例如C136R)、影响磷酸酶催化活性的基因型变体(例如C124S、H93R)和影响底物识别的基因型变体(例如G129E)都与考登综合征(CS)相关联,呈现出乳腺癌、甲状腺癌、子宫内膜癌、肾癌、结肠直肠癌和黑素瘤的高风险(Heikkinen等人,2011年;He等人,2013年;Myers等人,1997年;Myers等人,1998 )。影响相同生物物理过程和分子功能的变体可导致不同障碍之间的合并症,例如影响磷酸酶活性的PTEN变体(例如H93R),其又另外与自闭症谱系障碍(ASD)有关(Johnston和 Raines,2015年),从而导致频繁的ASD与癌症之间的合并症(Markkanen等人,2016年)。此外,功能元件内影响不同生物物理过程和分子机制的变体可以呈现模式化的、差异化的临床和非临床表型。核纤层蛋白A/C基因(LMNA)中的突变会导致总共超过15种疾病,这些疾病统称为“核纤层蛋白病”,其包括A-EDMD(常染色体埃-德二氏肌营养不良症)、DCM(扩张型心肌病)、LGMD1B(肢体-腰带性肌营养不良症1B)、L-CMD(LMNA相关的先天性肌营养不良症)、FPLD2(家族性部分脂肪营养不良症2)、HGPS(哈钦森-吉尔福德早衰综合征)、非典型性WRN(沃纳综合征)、MAD(下颌骨发育不良)和CMT2B(2B型Charcot-Marie-Tooth障碍)(Scharner 等人,2010年)。在LMNA中,导致HGPS的基因型(例如序列)变体会在核纤层蛋白A特异性外显子11中产生一个隐蔽的剪接位点供体,其导致核纤层蛋白的截短形式,而导致FPLD2的变体会改变Ig样结构域的表面电荷并且不改变突变蛋白的晶体结构(Scharner等人,2010年)。因此,弄清各种变体类型、功能元件和分子系统与细胞效应之间的基因型-表型关系的复杂性,是对临床和非临床基因和基因组测试中所发现的变体的表型结果进行鲁棒性、可扩展性解释的一个突出挑战。
确实,对基因型(例如序列)变体的重要性进行评估可能是一项复杂而具有挑战性的任务。就在2015年,一项对变体分类的调查显示,分类提交者中多达17%(例如2,229/12,895)的变体分类是不一致的(Rehm等人,2015年)。在临床测试实验室之间,尽管具体的建议可以使实验室间的一致性提高到71%,但解释的一致性测得为低至34%(Amendola等人,2016年)。
市场上有超过5,300个基因通过基因测试进行评价(例如,根据NCBI基因测试注册表),因此用于对各种基因、疾病和环境(如临床和非临床)中的基因型(例如序列)变体进行解释(例如分类)的可扩展解决方案对于精密医学和生命科学行业的工作至关重要。临床测试市场中在与单核苷酸变体(SNV)相对应的分子变体亚组内、编码序列亚组内以及蛋白质编码基因亚组内,有超过14,000,000个可能的(例如独特的)分子变体,因此用于分子变体分类的有效解决方案需要是鲁棒性且可扩展性的。
尽管目前有多种策略可用于鉴别分子变体的表型影响(包括但不限于家庭隔离、功能测定法和案例对照研究),但只有变体影响的计算预测器能在所需规模上提供支持证据。实际上,按照美国医学遗传学和基因组学学院(ACMG)和分子病理学协会(AMP)关于临床变体解释的联合指南对来自从业人员的临床变体分类进行分析表明,约有50%的临床变体分类依赖于变体影响计算预测器的使用。然而,尽管它们得到了广泛的应用,但基准测试研究却表明,变体影响计算预测算法(诸如SIFT、PolyPhen(v2)、GERP++、Condel、CADD、REVEL等)具有明显低的性能,其准确率(AUC)在0.52-0.75的范围内(Mahmood等人,2017年)。
分子功能的直接测定可为准确解释基因型(例如序列)变体的临床和非临床影响提供基础(Shendure和Fields,2016年;Araya和Fowler,2011年)。迄今为止,已经设计了多种测定法以直接评估变体对各种分子功能的影响。但是,现有方法需要先验知识或对与正在研究的临床(和非临床)表型相关联的变体的作用机理进行假设,以定义要测定的分子功能(Shendure和Fields,2016年)。这些方法通常仅限于捕获影响所测定的具体分子功能的变体的影响以及得出其信息,从而对可以大规模测定的变体的类型、分子功能的类型以及功能元件和基因的类型施加限制。因此,尽管例如磷酸酶测定法可以提名(例如划入)影响PTEN肿瘤抑制因子的催化活性的变体的潜在疾病关联,但是这种测定法可能不能排除(例如划去)影响蛋白质稳定性的变体的潜在疾病关联,因为这些变体可能会增加发生疾病的风险而催化活性却没有明显的缺陷。相反,虽然例如蛋白质稳定性测定法可以提名(例如划入)导致PTEN肿瘤抑制因子的稳定性缺陷的变体的潜在疾病关联,但这种测定法可能无法排除(例如划去)影响催化活性的变体的潜在疾病关联。对作用机理的先验知识或假设(以及因此待测的相关分子功能)的潜在需求可能会将这些方法的应用限制在充分表征的功能元件(例如基因)和表型上,这可能会阻止其应用于了解得很少的疾病相关联基因。
在高通量DNA测序平台的技术基础上,最近开发的大规模功能测定法(诸如深突变扫描(Deep Mutational Scanning,DMS)、HITS-KIN、RNA-MAP等)已使得能全面或接近全面地涵盖不同序列类别的可能序列变体,包括编码元件、非编码元件和调控元件中的单核苷酸变体(SNV)和非同义变体(NSV,错义变体)(Fowler等人,2010年;Araya等人,2012年; Guenther等人,2013年;Buenrostro等人,2014年;Kelsic等人,2016年;Patwardhan等人, 2009年)。此类方法可作为对分子变体(诸如基因型(例如序列)变体)对患者表型的影响,包括临床表型,诸如带PPARG变体的患者的脂肪营养不良和2型糖尿病(T2D)风险增加,或带BRCA1变体的患者的乳腺癌和卵巢癌风险增加,进行鲁棒性的、经统计学验证的解释的基础(Starita等人,2015年;Majithia等人,2016年)。尽管此类方法可以在临床和非临床测试环境中提供鲁棒性的变体解释,但这些方法可能需要进行重大开发和定制才能测定每种分子功能和每种功能元件。这可能限制了它们作为通用的、可扩展的解决方案以在不同类型的变体、生物物理过程、分子功能、功能元件、基因以及最终途径背景下系统地评估分子变体(诸如基因型(例如序列)变体)的临床和非临床后果的实用性。因此,需要用于变体影响评估的多功能平台和方法。
附图说明
将附图并入本文并且形成说明书的一部分。
图1A-1C示出了根据一些实施方案,用于确定分子变体的表型影响的综合的功能测定法和计算深度突变学习(DML)过程和系统,以及在疾病的RAS/MAPK家族的两个基因中应用过程和系统而生成的示例(例如中间)数据。
图2A-2B示出了根据一些实施方案,深度突变学习(DML)过程和系统在对RAS/MAPK途径的三个基因(HRAS、PTPN11和MAP2K2)中的种系(例如遗传)障碍和体细胞障碍的致病性(例如病原性)和中性(例如良性)分子变体进行鉴别(例如二元分类)的性能。
图3A-3B示出了根据一些实施方案,深度突变学习(DML)流程和系统在对在MAP2K2中具有致种系障碍性(例如致病性)或中性(例如良性)分子变体的细胞进行鉴别(例如二元分类)的性能。
图4示出了根据一些实施方案的基于神经网络的去噪自动编码器的架构,所述去噪自动编码器经过训练并应用于生成分子得分的鲁棒简化表示。
图5示出了根据一些实施方案的归一化的ERK途径激活,该归一化的ERK途径激活通过对来自带有MAP2K2和PTPN11的对照形式、野生型形式和突变形式的H293细胞的细胞提取物进行酶联免疫吸附测量为磷酸化的总ERK蛋白的比率。
图6示出了根据一些实施方案,用于通过在不同细胞数目、读段深度、降维模型(mDR)和功能模型(mF)的情况分阶段优化和部署测定法来降低部署深度突变学习(DML)来鉴别分子变体的表型影响的成本的方法实例,其中优化首先在分子变体的(减少的)真集上进行,并且部署包括分子变体的目标集。
图7示出了根据一些实施方案的用于计算表型得分的方法的实例。
图8示出了根据一些实施方案的用于计算分子得分的方法的实例。
图9示出了根据一些实施方案的用于计算与各个分子变体相关联的分子信号的方法。
图10示出了根据一些实施方案的用于计算分子信号的分子状态特异性的独立或不相交估计的方法。
图11示出了根据一些实施方案的用于表征具有特定分子变体的细胞在各分子状态或表型得分上的分布以及得出群体信号的方法。
图12示出了根据一些实施方案,利用无监督学习技术从与各个分子变体相关联的低阶分子信号鉴别高阶分子信号的方法的实例。
图13示出了根据一些实施方案的通过机器学习得出功能得分和功能分类的方法的实例,所述机器学习通过回归技术和分类技术将分子、表型或群体信号与分子变体的表型影响相关联。
图14A-14B示出了根据一些实施方案,使用不同数量的细胞进行训练时用于对具有两种独特表型影响的分子变体进行二项式分类的方法和系统的性能实例。
图15示出了根据一些实施方案的方法的实例,该方法允许使用来自蛋白质编码基因中所有可能的非同义变体的子集的功能得分和功能分类,推理出描述所述可能的非同义变体的功能得分或功能分类的序列-功能图。
图16示出了根据一些实施方案的系统和方法的实例,该系统和方法用于通过一系列建模层来降低DML过程确定分子变体的表型影响的成本并增加其范围。
图17示出了根据一些实施方案的方法的实例,该方法用于使用机器学习技术来生成低阶变体解释引擎(VIE),该引擎可以是基因和条件特异性的。
图18示出了根据一些实施方案的方法的实例,该方法用于鉴别显著突变区域(SMR)和显著突变网络(SMN)。
图19示出了可用于实现各实施方案的示例性计算机系统。
在附图中,相同的附图标记通常表示相同或相似的元件。另外,通常而言,附图标记的最左边的数字标识该附图标记首次出现的附图。
具体实施方式
本文提供了系统、装置、设备、方法和/或计算机程序产品实施方案,和/或其组合和子组合,用于实现在各种各样的变体类型、生物物理过程、分子功能和表型背景下对变体的表型影响的多功能、多元件和多基因(例如,途径层面)评估。
本公开提供了系统、装置、设备、方法和/或计算机程序产品实施方案,其可以利用高通量分子测量(例如下一代测序)技术、单细胞操作技术、分子生物学技术、计算建模技术和统计学习技术,并且可以在各种各样的变体类型、生物物理过程、分子功能和表型背景下对变体的表型影响进行多功能、多元件和多基因(途径层面)评估。
本公开提供了系统、装置、设备、方法和/或计算机程序产品实施方案,其用于系统地确定并统计地验证受试者的生物学样品或其记录内的(例如,核、线粒体等)基因组或其衍生分子中的一个或多个(例如编码或非编码)功能元件(例如蛋白质编码基因、非编码基因、分子结构域诸如蛋白质或RNA结构域、启动子、增强子、沉默子、调节结合位点、复制起点等)中所鉴别的分子变体(诸如基因型(例如序列)变体)的一种或多种表型(例如,临床或非临床的)影响(例如,致病性、功能性或相对效应)。
本公开内容提供了系统、装置、设备、方法和/或计算机程序产品实施方案,其用于基于在体内或体外功能模型系统中测量的一种或多种分子信号、表型信号或群体信号对受试者中可能的表型影响进行分类(或回归)。得到的回归或分类可以被称为功能得分或功能分类。
本文的实施方案背离用于分子变体分类的现有计算或功能证据支持系统,如例如临床基因诊断和基因组诊断中所用的。
首先,尽管现有的用于变体分类的计算方法和系统依赖于用于变体分类的各种各样的群体的、进化的、物理化学的、结构的和/或分子的注释和特性,但现有的计算方法和系统并未采用关于分子变体对细胞生物学的影响的信息。结果,这样的计算方法不能捕获通过细胞内分子特性的变化或细胞群体的变化和细胞异质性而起作用的表型影响。
其次,现有的能够测定数千种分子变体的活性的大规模功能测定法和解决方案可提供每个分子变体沿单个维度的活性测量,并且通常需要分子变体施加表型影响的作用机理的先验知识或假设。
由于这些局限性,虽然用于变体分类的常规计算方法和系统可以访问涵盖多种注释和参数的数据,但这些常规方法在分子变体表型影响的分类(和回归)任务中的性能明显较差。类似地,这些常规方法需要有关作用机理(以及因此待测定的相关分子功能)的先验知识或假设,这将它们的应用局限在充分表征的功能元件(例如基因)上。这进一步排除了其在了解得很少的疾病相关联基因上的应用。最后,这些常规方法需要大量开发和定制以测定每种分子功能和每种功能元件。
在本文的实施方案中,克服这些技术问题的技术解决方案涉及这样的数据结构,该数据结构提供对在一个或多个功能元件(例如基因)中和在一个或多个背景(例如,细胞类型、药物治疗、基因型背景)中带有特定基因型(例如分子变体)的细胞和细胞群体的多维表征。这样的数据结构使得用于统计学习的系统和方法能够在与基因型(例如,分子变体或其组合)的表型影响有关的分类任务中实现提高的准确率。
通过每个模型系统(例如细胞)获取数百到数万(~102–104)个分子测量结果、为每个分子变体构建数十到数千(~101–103)个模型系统的分子谱(molecular profile)、为每个功能元件(例如基因)以及单个或并行的多个功能元件构建数千(~103)个分子变体的分子谱,本文的实施方案使得能够在各种功能元件和表型上对分子变体(及其组合)进行鲁棒性的、可扩展的多维分类。
如图1A中所示,本公开的实施方案整合了用于高通量诱变的变体文库生成102方法和用于细胞工程技术的细胞文库生成104方法,以生成在目标功能元件(例如基因)中带有独特分子变体的模型系统(例如细胞)的概略。该实施方案提供了处理、单细胞捕获、文库制备、测序106方法,所述方法利用细胞技术、分子生物学技术和基因组学技术以及用于模型系统的处理和捕获、分子实体文库的制备的技术和用于测量模型系统内的多种分子实体(例如转录物)的技术。该实施方案提供映射、归一化108生物信息学技术、计算生物学技术和统计技术,用于对分子变体、模型系统和每个模型系统内的分子实体之间的关联进行映射、量化和归一化。该实施方案提供特征选择、降维110和背景标注、训练、分类112统计(例如机器)学习技术、分布式和高性能计算技术、系统生物学技术、群体和临床基因组学技术,用于标签生成、特征选择、降维、训练和分子变体的分类。
在一些实施方案中,本公开描述了使用图1A的这些方法和技术系列来确定生物样品内所鉴别的分子变体的表型影响。在一些实施方案中,本公开描述了将分子变体引入模型系统内的一个或多个功能元件中。模型系统可以包括单细胞、细胞区室、亚细胞区室或合成区室。在一些实施方案中,本公开描述了单细胞、细胞区室、亚细胞区室或合成区室的分子得分或表型得分的确定。在一些实施方案中,本公开描述了单细胞、细胞区室、亚细胞区室或合成区室内的分子变体的鉴别。如本领域普通技术人员所理解的,可将各种方法用于鉴别单细胞、细胞区室、亚细胞区室或合成区室内的分子变体。这可以是基于单细胞、细胞区室、亚细胞区室或合成区室的分子测量。在一些实施方案中,本公开描述了分别基于来自与特定分子变体相关联的单细胞、细胞区室、亚细胞区室或合成区室的分子得分或表型得分,确定与各个分子变体相关联的分子信号或表型信号。在一些实施方案中,本公开描述了基于与特定分子变体相关联的单细胞、细胞区室、亚细胞区室或合成区室的分子得分或表型得分,确定与分子变体相关联的群体信号。
在一些实施方案中,本公开描述了通过应用统计(例如机器)学习方法来确定分子变体的功能得分或功能分类,所述学习方法将分子信号、表型信号或群体信号与分子变体的表型影响相关联。在一些实施方案中,本发明描述了基于功能得分、功能分类、预测得分、预测分类、热点得分或热点分类来确定分子变体的证据得分或证据分类。在一些实施方案中,本公开描述了基于所鉴别的分子变体的功能得分、功能分类、证据得分或证据分类来确定生物样品内所鉴别的分子变体的表型影响。
本文的实施方案整合了来自多个领域的方法、技巧和技术。虽然已经开发出利用单细胞分子测量的统计、机器学习技术并将其应用于对源自数十个(例如,少于102个)不同组织或发育阶段的模型系统(例如细胞)进行分类,但是在相同细胞系、组织或发育阶段内的数千个具有细微差异(诸如由大于3×109个核苷酸定义的基因组背景中的单核苷酸差异)的细胞之间实现准确的基因型特异性(例如分子变体特异性)分类的要求,会带来相当大的挑战。
本公开提供了深度突变学习(DML)系统、装置、设备、方法和/或计算机程序产品实施方案,和/或其组合和子组合,用于基于在单个模型系统(例如细胞)和模型系统(例如细胞)群体中测定的生物信号,克服受试者中所鉴别的分子变体的表型影响的鉴定(例如分类)方面的挑战。
本公开提供了系统、装置、设备、方法和/或计算机程序产品实施方案,和/或其组合和子组合,其通过(i)定向部署具有低成本预测模型的DML过程和系统(参见图16),以及(ii)分层部署允许以低成本鲁棒地重建分子信号的DML过程和系统(参见图6),来提高分子变体的分类中的成本效率。
本发明提供了系统、设备、装置、方法和/或计算机程序产品实施方案,和/或其组合和子组合,其通过利用功能元件之间的信息的DML过程和系统来提高在各功能元件(例如基因)上的可扩展性和性能(参见图3A和图3B)。
本发明提供了系统、设备、装置、方法和/或计算机程序产品实施方案,和/或其组合和子组合,其用于评估(例如核、线粒体等的)基因组或其衍生分子中的一个或多个(例如编码或非编码)功能元件(例如,蛋白质编码基因、非编码基因、分子结构域诸如蛋白质或RNA结构域、启动子、增强子、沉默子、调节结合位点、复制起点等)中的一个或多个分子(例如基因型)变体的表型影响(例如,致病性、功能性或相对效应)。如本领域普通技术人员所理解的,分子变体可以是基因型(例如序列)变体,诸如核基因组、线粒体基因组或附加体基因组中的单核苷酸变体(SNV)、拷贝数变体(CNV)或影响编码或非编码序列(或两者)的插入或缺失,其为自然的或合成的。如本领域普通技术人员所理解的,分子变体也可以是蛋白质分子中的单氨基酸置换、RNA分子中的单核苷酸置换、DNA分子中的单核苷酸置换,或多聚生物分子变为同源序列的任何其它分子变更。
在一些实施方案中,分类(或回归)可基于受试者的生物样品或其记录内所鉴别的分子变体,涉及具有遗传组分的障碍的(例如,可能的)致病性(例如,病原性)和中性(例如,良性)变体,或者其严重性的预测。在一些其它实施方案中,分类(或回归)可基于具有可能的分子结果(例如,无意义突变或插入突变和缺失突变)和可能的分子中性(例如,同义)的分子变体,涉及分子影响(例如,功能丧失、功能获得或中性)。在一些其它实施方案中,分类(或回归)可基于受试者的生物样品或其记录内所鉴别的分子变体,涉及响应治疗处理(例如化学的、生物化学的、物理的、行为的、数字的或其它方式)的变异。在一些实施方案中,表型影响可以指表型类别(例如,中性、病原性、良性、高风险、低风险、阳性响应变体、阴性响应变体)和表型得分(例如,发展特定临床和非临床表型的可能性、血液中代谢产物的水平、以及特定化合物被吸收或代谢的速率)。
在一些实施方案中,本公开提供了基于代表性群体中的分子变体的多样性和普遍性来对群体内的表型特性的多样性和普遍性进行建模的系统和方法。在一些实施方案中,本公开内容提供了基于分子变体的表型影响(具有已知或预期的多样性和普遍性)来对群体内的表型特性的多样性和普遍性进行建模的系统和方法,其中可以从先前与体内或体外功能模型系统中的变体相关联的一种或多种分子信号、表型信号或群体信号对表型影响进行建模。在一些实施方案中,这样的建模可以用于告知群体中的耐药性机制的多样性和普遍性。
在一些实施方案中,本公开描述了将一群个体内的表型特性的多样性和普遍性(例如,如通过从功能模型系统中的一种或多种分子信号、表型信号或群体信号建模得到的分子变体的表型影响所告知的)的模型用于构建受试者(例如患者)组群,以及用于研究治疗性和非治疗性干预的功效。
在一些实施方案中,本公开内容提供了系统和方法,所述系统和方法基于源自与功能模型系统中所测定的变体相关联的一个或多个分子信号、表型信号或群体信号的功能得分或功能分类来对分子变体的表型影响进行分类(或回归)。在一些实施方案中,可以在作为体内或体外模型系统的细胞、细胞区室或合成区室内对分子变体进行功能性建模。
在一些实施方案中,可以通过单细胞、细胞区室、亚细胞区室或合成区室(例如,统称为模型系统)内的核酸或核酸片段的文库制备、测序和表征直接在被建模的功能元件的核酸序列内鉴别被建模(例如,体内或体外)的分子变体。在一些其它实施方案中,可以使用预先组装的相关联条形码和变体的数据库,通过模型系统(例如,单细胞、细胞区室、亚细胞区室或合成区室)内的核酸或核酸片段的文库制备、测序和表征,由与功能元件中的各变体相关联的条形码序列推理出被建模(例如,体内或体外)的分子变体。如本领域普通技术人员将理解的,分子变体可以通过多种技术诸如直接(例如化学)合成、易错PCR、寡核苷酸定向诱变、切口诱变或饱和基因组编辑(SGE)等产生(Firnberg等人,2012年;Kitzman等人,2014年;Wrenbeck等人,2016年;和Findlay等人,2014年)。如本领域普通技术人员将理解的,然后可以使用多种方法,诸如但不限于同源重组(例如,Cas9介导的或腺病毒介导的重组)、位点特异性重组(例如,Flp介导的重组)或病毒转导(例如,慢病毒介导的转导)(Findlay等人,2018年;Wissink等人,2016年;和Macosko等人,2015年)将变体文库引入(例如添加)到模型系统(例如,细胞、细胞区室、亚细胞区室或合成区室)中。
在一些实施方案中,与各分子变体相关联的功能得分和功能分类可以源自对体内或体外模型系统内存在的分子和或化学修饰物的测量,所述体内或体外模型系统在功能元件(包括但不限于DNA、RNA以及蛋白质分子或其修饰物)内包含变体。例如,在一些实施方案中,可以对分子信号、细胞信号或群体信号进行测量或建模,并用于学习功能得分和或功能分类。在一些实施方案中,功能得分和功能分类可源自通过单细胞、细胞区室、亚细胞区室或合成区室内的多个核酸或核酸片段(包括但不限于RNA分子、基因组DNA、染色质相关联的DNA、蛋白质相关联的DNA、可及的DNA片段或化学修饰的核酸)的核酸条形码编码、分离、富集、文库制备、测序和表征而获得的分子测量结果。在一些实施方案中,这些流程可以利用分子条形码编码技术来唯一地鉴别或关联源于各个单细胞、细胞区室、亚细胞区室或合成区室的核酸、核酸片段或核酸序列(Macosko等人,2015年;Buenrostro等人,2015年; Cusanovich等人,2015年;Dixit等人,2016年;Adamson等人,2016年;Jaitin等人,2016年; Datlinger等人,2017年;Zheng等人,2017年;Cao等人,2017年)。这些方法可基于单细胞基因组学领域的发展(Schwartzman和Tanay2015年;Tanay和Regev2017年;Gawad等人,2016 年)。在一些实施方案中,本公开的系统和方法可以应用用于单细胞RNA测序的方法,以从单细胞、细胞区室、亚细胞区室或合成区室得出分子测量结果。这些方法包括但不限于单细胞测序文库生成、高通量核酸测序、测序读段质量控制、条形码鉴别(例如,单细胞、细胞区室、亚细胞区室或合成区室的条形码鉴别)和质量控制、测序读段独特分子条形码鉴别和质量控制、测序读段比对、以及读段比对过滤和质量控制。在一些实施方案中,分子测量结果可以对应于基因表达(例如,RNA转录物的丰度)、蛋白质的丰度或修饰(例如,磷酸化蛋白质的丰度)、染色质可及性(例如,核小体占位)、表观遗传修饰(例如,DNA甲基化)、调节活性(例如,转录因子结合)、转录后加工(例如,剪接)、翻译后修饰(例如,泛素化)、突变负荷(例如,计数)、突变率(例如,频率)、突变特征(例如,每种突变类型的计数或频率)的位点特异性测量结果,或本领域普通技术人员应当理解的单细胞、细胞区室、亚细胞区室或合成区室内的分子的各种其它类型的测量结果。在一些实施方案中,本发明描述了通过在单细胞RNA文库加工之前、期间或之后,使用靶向富集或靶向捕获技术(通过基于杂交或基于扩增子的技术和探针)来增强特定目标基因和功能元件的分子测量结果的质量的系统和方法。
在一些实施方案中,来自单细胞、细胞(或亚细胞)区室或合成区室的分子测量结果可用于得出分子过程的多位点测量结果。例如,这些分子过程的测量结果可以包括基因表达、染色质可及性、表观遗传修饰、调节活性、转录活性、翻译活性、信号传导活性、信号传导活性、途径活性、突变负荷、突变率、突变特征的多位点测量结果,以及本领域普通技术人员将理解的各种其它测量结果。
在一些实施方案中,来自单细胞、细胞(或亚细胞)区室或合成区室的分子测量结果和分子过程可以用于得出分子特征的全局(例如,泛基因座的或基因座无关的)测量结果。例如,这些分子特征的测量结果可以包括基因表达、染色质可及性、表观遗传修饰、调节活性、转录活性、翻译活性、信号传导活性、信号传导活性、途径活性、突变负荷、突变率、突变特征的全局测量结果,以及本领域普通技术人员将理解的各种其它测量结果。
在一些实施方案中,单细胞、细胞区室、亚细胞区室或合成区室的分子测量结果、分子过程或分子特征可以直接用作(例如,低阶)分子得分。在一些实施方案中,(例如,高阶)分子得分可以通过应用预先存在的模型来得出,该预先存在的模型将多个低阶(例如,低阶)分子得分(例如,分子测量结果、分子过程或分子特征)关联至调节、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态。在一些实施方案中,这类方法可以应用基因集富集分析或本领域普通技术人员将理解的其它衍生方法。在一些实施方案中,如图8中所示,来自具有相同分子变体802的单细胞、细胞区室、亚细胞区室或合成区室的分子测量结果、分子过程、分子特征或(例如,低阶)分子得分806可以被馈送通过人工神经网络804(ANN)中的一系列人工神经元层(例如,卷积层或感知层),以得出越来越复杂(例如,高阶)的分子得分806,并生成具有所学特征的自动编码器。在一些实施方案中,用于计算分子得分的方法,诸如途径水平分析,可用于在允许降维的同时保留生物学功能的信息。
在一些实施方案中,如图9中所示,可以通过细胞评分层902从多个独立的单细胞、细胞区室、亚细胞区室或合成区室构建分子得分的数据库。在一些实施方案中,来自多个具有相同分子变体906(例如,v1、v2和v3)的单细胞、细胞区室、亚细胞区室或合成区室的分子得分可用变体采样层908访问并在变体评分层910中分析以得出(例如,直接测量或建模)有关于与各分子变体相关联的趋势(例如,均值、中位数、众数)、离散性(例如,方差、标准偏差)、形状(例如,偏度、峰度)、概率(例如,分位数)、范围(例如,置信区间、最小值、最大值)、误差(例如,标准误差)或协变(例如,协方差)的汇总统计。在一些实施方案中,如图9中所示,有关于分子得分的趋势、离散性、形状、范围或误差的汇总统计可用于创建与各分子变体906相关联的(例如,质量控制)分子信号912的数据库。在一些实施方案中,分子测量结果、分子过程、分子特征和分子得分904可以是各单细胞、细胞区室、亚细胞区室或合成区室的特性。在一些实施方案中,分子信号可以是分子变体的特性。
如本领域普通技术人员将理解的,来自模型系统(例如,单细胞、细胞区室、亚细胞区室或合成区室)的分子测量结果、过程、特征和得分可以限定或对应于具有相似分子特性的模型系统(例如,单细胞、细胞区室、亚细胞区室或合成区室)的独特分子状态或特定亚群。如本领域普通技术人员将理解并且如图10中所示的,可基于多种方法将细胞评分层1002应用于确定模型系统的分子状态、表型得分1006(例如,s1、s2、s3)。
例如,可基于源自基因表达分子得分的细胞周期特征(signature)来鉴别模型系统的分子状态(Macosko等人,2015年)。如本领域普通技术人员将理解的,可以通过使用先前得出的模型进行评分,例如,对先前已表征分子状态的基因表达特征(诸如先前在以化学方法同步化的细胞中表征的反映不同细胞周期阶段的基因表达特征(Whitfield等人,2002 ))进行评分,来得出分子状态。如本领域普通技术人员将理解的,也可以通过使用来自模型系统的划分的内部衍生模型进行评分来得出分子状态,在所述内部衍生模型中可以检测或预期分子信号之间的特征相关性(例如,在整个细胞周期的不同阶段中基因表达发生变化就是这种情况)。如本领域普通技术人员将理解的,可以使用多种统计技术(例如,机器学习技术)来生成所述内部衍生模型。
在一些实施方案中,如图7中所示,本公开提供了通过使用统计技术(例如,机器学习技术)来生成用于得出表型得分的表型模型(mP)的系统和方法,所述统计技术将模型系统(例如,单细胞、细胞区室、亚细胞区室或合成区室)的分子得分和分子状态与每个模型系统内的分子变体的表型影响相关联。尽管分子得分可以直接与各模型系统内的分子特性、生物学特性或物理特性相关,但表型得分可以描述分子变体的(例如,可能的)表型关联。在一些实施方案中,通过应用监督学习技术将模型系统内的分子变体的表型影响(例如,标签)与模型系统的分子得分或分子状态(例如,特征)相关联来得出表型得分。
在一些实施方案中,表型模型(mP)和表型得分(或表型分类)的数据库通过访问描述单细胞702的(例如,低阶和高阶)分子得分和分子状态704的特征数据库以及描述单细胞702内所鉴别的分子变体的表型影响706的输入标签708(例如,数据库)而生成。在一些实施方案中,训练/验证层710生成可以预测各单细胞702的表型影响706的表型模型(mP)并对其进行质量控制。在一些实施方案中,将描述单细胞(测试)714的分子得分和分子状态716的特征数据库提供给所生成的表型模型(mP),以计算和创建描述单细胞(测试)714中的分子变体的预测表型影响718的表型得分720的数据库。如本领域普通技术人员将理解的,可以对照测试层712内单细胞(测试)714中的分子变体的已知表型影响来确定每个细胞中的预测表型影响718(例如表型得分720)的性能(例如准确率)。如本领域普通技术人员将理解的,可应用该表型模型(mP)以根据需要预先计算或计算训练、验证或测试中未包括的单细胞的表型得分。在一些实施方案中,这样的评分和评价可以在表型评分和分类层722中进行。表型评分和分类层722可以基于表型得分720检验所允许的表型影响分类准确率。
在一些实施方案中,有关于表型得分的趋势、离散性、形状、范围或误差的汇总统计信息可用于创建与各分子变体相关联的(例如,质量控制的)表型信号的数据库。
在一些实施方案中,如图10中所示,本公开描述了分子状态特异性分子信号在分子状态特异性模型或多状态模型的生成中,用于无监督学习和监督学习的后续轮中的用途。在一些实施方案中,如图10中所示,本公开描述了使用分子状态特异性的、变体特异性的采样层1008来访问具有特定分子变体1010(例如v1、v2、v3)并且处于特定分子状态、具有特征性表型得分或它们的组合的模型系统的分子测量结果、过程、特征和得分1004以及分子状态、表型得分1006。在一些实施方案中,可以由细胞评分层1002根据需要预先计算或计算分子测量结果、过程、特征和得分1004或分子状态、表型得分1006。在一些实施方案中,将分子状态特异性的、变体特异性的采样层1008所访问的数据模型、汇总统计模型、描述性统计(例如,单变量分析、双变量分析或多变量分析)模型、推理统计模型、贝叶斯推理统计模型(例如,变分贝叶斯推理模型)、狄利克雷过程或数据的其它模型用于构建分子、表型信号矩阵1012,描述每个分子变体在每种分子状态下的分子信号和表型信号。
在一些实施方案中,可根据需要预先计算或计算分子、表型信号矩阵1012。在一些实施方案中,可根据需要由分子状态、变体特异性评分层1016预先计算或计算分子、表型信号矩阵1012,得到分子状态特异性的矩阵。在一些实施方案中,可根据需要由多状态、变体特异性评分层1014预先计算或计算分子、表型信号矩阵1012,得到含有来自多分子状态的数据的矩阵。
在一些实施方案中,如图11中所示,本公开提供了用于表征具有特定分子变体的细胞在分子状态(例如亚群)或表型得分1106(如由细胞评分层1102使用分子测量结果、过程、特征和得分1104作为输入而产生的)上的分布的方法。这些分子状态(例如亚群)或表型得分可以与由以下限定的细胞亚群相关联但不限于以下限定的细胞亚群:(a)分子信号(例如,在细胞周期阶段期间的细胞周期蛋白依赖性激酶)的特征水平或它们之间的相关性,无论是通过应用先前存在的模型还是内部衍生模型来确定,(b)表型得分的特征水平或它们之间的相关性,或(c)无监督或有监督机器学习方法,包括但不限于降维技术,其实例包括但不限于主成分分析(PCA)、独立成分分析(ICA)和t随机邻域嵌入(tSNE)。在一些实施方案中,如图11中所示,对于每个单独的分子变体1110,群体采样层1108产生细胞在各分子状态上的相对呈现(例如,分布、概率等)的度量(例如,停留在某一分子状态的带有变体的细胞的比例或概率)或在表型得分上的相对呈现(例如,分布、概率等)的度量(例如,具有特定得分的带有变体的细胞的比例或概率),并且可以用来提供描述分子变体如何在群体水平上影响细胞的群体信号矩阵1112。群体信号矩阵1112可含有多个分子变体的多个群体信号。
在一些实施方案中,可应用对来自带有相同分子变体的模型系统(例如,单细胞、细胞区室、亚细胞区室或合成区室)的分子测量结果、分子过程、分子特征、分子得分或表型得分的子采样,生成有关于与各分子变体相关联的分子测量结果、分子过程、分子特征或者分子得分或表型得分的趋势、离散性、形状、概率、范围、协变或误差的汇总统计的独立或不相交估计。
在一些实施方案中,可将有关于分子测量结果、分子过程、分子特征或者分子得分或表型得分的趋势、离散性、形状、概率、范围、协变或误差的汇总统计的独立或不相交估计用于创建与各分子变体相关联的分子信号或表型信号的(质量控制的)独立或不相交估计的数据库。如本领域普通技术人员将理解的,分子信号或表型信号的独立或不相交估计可用于创建与各分子变体相关联的(质量控制的)分子或表型信号的数据库。
在一些实施方案中,本公开描述了用于得出汇总统计的独立或不相交估计的系统和方法,所述汇总统计有关于与来自特定分子状态的模型系统(例如,单细胞、细胞区室、亚细胞区室或合成区室)亚群内的各分子变体相关联的分子测量结果、分子过程、分子特征或分子得分的趋势、离散性、形状、概率、范围、协变或误差。如本领域普通技术人员将理解的,这些方法可以利用多种统计技术(例如,机器学习技术)。
在一些实施方案中,有关于分子测量结果、分子过程、分子特征或者分子得分或表型得分的趋势、离散性、形状、概率、范围、协变或误差的汇总统计的分子状态特异性独立或不相交估计可用于创建与处于特定分子状态的各分子变体相关联的分子信号或表型信号的(例如质量控制的)分子状态特异性独立和不相交估计的数据库。
在一些实施方案中,有关于与各分子变体相关联的群体信号的趋势、离散性、形状、概率、范围、协变或误差的汇总统计的独立或不相交估计可用于创建与各分子变体相关联的(例如,质量控制的)群体信号的数据库。
在一些实施方案中,如图12中所示,本公开提供了系统和方法,所述系统和方法利用从与各分子变体1202相关联的低阶分子信号、表型信号或群体信号1204鉴别高阶分子信号、表型信号或群体信号的特征提取层1208(例如,无监督学习技术),包括但不限于部署人工神经网络(ANN)1210以生成能够利用底层关联来产生低阶分子信号、表型信号或群体信号的高阶表示的自动编码器的特征学习(或表示学习)技术。在一些实施方案中,这些方法允许构建低阶和高阶分子的信号、表型信号和群体信号1214的数据库。在一些实施方案中,除了低阶分子信号、表型信号或群体信号1204之外,特征提取层1208还可以访问或接收来自注释特征1206的数据。在一些实施方案中,注释特征1206可涵盖描述与基因型变化(例如,序列变体、分子变体等)相关联的变化的多个独立的(例如,未测定的)特征(例如,与变体、基因组坐标、转录物(例如RNA)坐标、翻译(例如蛋白质)坐标、氨基酸,以及本领域普通技术人员将理解的各种其它项相关联的进化特征、群体特征、功能(例如基于注释的)特征、结构特征、动力学特征和物理化学特征)。
在一些实施方案中,本公开描述了使用分子状态特异性的低阶分子信号或表型信号来得出分子状态特异性的高阶分子信号或表型信号的用途。在一些实施方案中,本公开描述了使用低阶分子、表型或群体信号的多状态矩阵来得出多状态高阶分子、表型或群体信号,其利用各分子状态下分子信号之间的结构化关系,诸如各细胞周期阶段(例如分子状态)下的结构化基因表达模式(例如分子信号)。在一些实施方案中,本公开描述了使用卷积神经网络(CNN)来学习各分子状态下分子信号、表型信号或群体信号(和注释特征)中的模式关联。
在一些实施方案中,如图13中所示,本公开提供了通过统计(例如,机器)学习来生成功能模型(mF)而得出功能得分和功能分类的系统和方法,所述功能模型(mF)分别通过回归和分类技术将分子、表型或群体信号(例如特征)(单个或多个分子测量结果、分子过程、分子特征和分子得分)与分子变体的表型影响(例如标签)相关联。
在一些实施方案中,通过访问描述用于训练/验证的分子变体1302的分子(例如,低阶或高阶)、表型或群体信号1304的特征数据库以及描述分子变体1302的表型影响1308的一组输入标签1310(例如数据库),来生成功能模型(mF)和功能得分(或功能分类)的数据库。通过应用统计(例如机器)学习技术将分子、表型或群体信号1304(例如特征)与表型影响(例如标签)相关联来进一步执行所述生成。
在一些实施方案中,训练/验证层1312执行训练和验证以生成可以预测分子变体1302的表型影响1308的质量控制功能模型(mF)。在一些实施方案中,训练/验证层1312可以部署交叉验证技术,诸如但不限于,K折交叉验证或留一法交叉验证(LOOCV)。在一些实施方案中,可将描述分子变体(测试)1316的分子、表型或群体信号1318的特征数据库提供给所生成的功能模型(mF),以计算和创建描述分子变体(测试)1316的预测表型影响1322的功能得分1324的数据库。如本领域普通技术人员将理解的,可以对照分子变体(诸如测试分子变体1316)的已知表型影响来确定分子变体的预测表型影响1322(例如功能得分1324)的性能(例如准确率)。如本领域普通技术人员将理解的,可应用功能模型(mF)来在测试层1314内根据需要预先计算或计算不包括在训练、验证或测试阶段中的分子变体的功能得分。在一些实施方案中,这样的评分和评价可在功能评分和分类层1326中进行,以例如检验基于功能得分1324所允许的表型影响分类准确率。
在一些实施方案中,可以在功能模型(mF)的训练和测试(预测生成)期间提供附加的注释特征1306、1320。在一些实施方案中,注释特征1306和1320可涵盖描述与基因型变化(例如,序列变体、分子变体)相关联的变化的多个独立的(例如,未测定的)特征(例如,与变体、基因组坐标、转录物(例如RNA)坐标、翻译(例如蛋白质)坐标、氨基酸,以及本领域普通技术人员将理解的各种其它项相关联的进化特征、群体特征、功能(例如基于注释的)特征、结构特征、动力学特征和物理化学特征)。
如本领域普通技术人员将理解的,分子变体的表型影响(例如,标签)的多种来源可用于定义真集,包括(例如,公开和/或私有的)临床和非临床变体数据库(例如,ClinVar、HumVar、VariBench、SwissVar、PhenCode、PharmGKB或位点特异性数据库),以及结果数据库。
在一些其它实施方案中,本公开提供了通过统计(例如,机器)学习来生成功能模型(mF)而得出功能得分和功能分类的系统和方法,所述功能模型(mF)通过回归和分类技术将分子、表型或群体信号(例如特征)(源自一个或多个分子测量结果、分子过程、分子特征和/或分子得分)与直接从独特的分子、表型或群体信号计算而来的分子变体的表型影响(例如标签)相关联。在一些实施方案中,该方法可允许例如得出可预测来自具有特定分子变体的受试者的样品的相对突变负荷、突变率或突变特征的功能得分和功能分类。在一些实施方案中,来自此类测定法的功能得分或功能分类可允许告知测试受试者发展癌症的终生风险。
如本领域普通技术人员将理解的,用于生成功能模型(mF)的回归和分类可以依赖于用于半监督学习或监督学习的各种统计(例如,机器)学习技术,包括但不限于随机森林(RF)、梯度提升树(GBT)、零规则(ZR)、朴素贝叶斯(NB)、简单逻辑回归(LR)、支持向量机(SVM)、k最近邻(kNN),以及部署各种各样的人工神经网络(ANN)架构和技术的方法。在一些实施方案中,本公开描述了使用分子状态特异性的分子信号来得出分子状态特异性的功能得分或功能分类。在一些实施方案中,本公开描述了使用分子信号的多状态矩阵来得出分子状态感知的功能得分或功能分类。在一些实施方案中,本公开描述了使用卷积神经网络(CNN)来学习功能得分或功能分类与分布于各分子状态下的分子信号之间的模式关联。
图1A示出了根据一些实施方案在RAS/MAPK途径的基因中应用DML过程和系统。RAS/丝裂原活化蛋白激酶(MAPK)途径可在细胞增殖、分化、存活和死亡中起作用,并且RAS/MAPK基因中的体细胞突变可通过MAPK/ERK信号转导的激活和失调来在多种癌症类型的发生、进展和治疗响应中起作用。此外,已将RAS/MAPK基因中的遗传(例如种系)突变与多种常染色体显性先天综合征(包括但不限于努南综合征(NS)、科斯特洛综合征(CS)和心-脸-皮肤(CFC)综合征和LEOPARD综合征(LS))相关联,其存在于具有特征性的面部表情、心脏缺陷、肌肉皮肤异常和智力低下以及皮肤、内耳和生殖器异常的患者中(Aoki等人,2008年)。例如,已在努南综合征患者和CFC患者中反复发现非受体11型蛋白质酪氨酸磷酸酶(PTPN11)和双重特异性丝裂原活化蛋白激酶激酶1/2基因(MAP2K1、MAP2K2)中的突变,其中在多达50%的努南综合征患者中存在PTPN11突变(Aoki等人,2008年)。
实施方案可以使用在HEK293细胞中构建并过表达的关键RAS/MAPK途径组分的野生型、体细胞和种系分子变体,诸如HRAS(例如,G12V)、PTPN11(例如,E76K和N308D)和MAP2K2(例如,F57C和P128Q)。实施方案可以用1mg/ml嘌呤霉素选择细胞以确保外源引入的功能元件(例如基因)的表达,并且可以使用针对磷酸-ERK蛋白丰度和总ERK蛋白丰度的酶联免疫吸附测定法(ELISA)验证RAS/MAPK途径的激活(见图5)。为了生成单细胞RNA测序数据,实施方案可以使用10X Genomics Chromium系统靶向捕获每种分子变体的500个细胞。捕获和随后的单细胞文库生成可根据制造商的建议进行。可以汇集每个功能元件(例如,基因)的所得文库,并在Illumina MiniSeq测序仪上测序,直到对于每种基因型每个细胞的平均读段超过30,000个读段/细胞。可以使用10X Genomics Cell Ranger 2.1.0管线和默认设置进行单细胞RNA测序处理(例如,单细胞质量控制、归一化、转录组计数等)。
图1B和图1C示出了根据一些实施方案,带有野生型和突变型PTPN11和MAP2K2(与种系障碍相关联的分子变体(F57C、P128Q和N308D)以及与体细胞障碍相关联的分子变体(E76K))的哺乳动物细胞(例如HEK293)的投影。可以根据一些实施方案,基于从单细胞基因表达的按比例缩放的、归一化的唯一分子标识符(UMI)计数测定的分子得分(例如,低阶),将细胞投影到通过t-随机邻域嵌入(tSNE)得出的二维平面。对于每个基因,示出了基于高阶分子得分的tSNE投影,所述高阶分子得分是通过应用本领域广泛的通用算法标准(例如,主成分分析,PCA)和定制开发的解决方案(包括为了低阶分子得分的鲁棒压缩表示而训练的细胞类型特异性、基因特异性或途径特异性自动编码器(AE))而得到。在一些实施方案中,自动编码器可以被构造为具有全连接层、在中间层周围含有对称数量的神经元(例如,跨层)以及具有用于激活的修正线性单元(ReLu)的神经网络。在一些实施方案中,可以使用亚当优化器来训练自动编码器,并且针对均方误差(MSE)损失函数对自动编码器进行优化。
如图1B和图1C中所示,相对于广义降维算法,来自定制的细胞类型和途径特异性自动编码器(AE)的细胞投影可改善带有中性(例如野生型)分子变体和疾病相关联分子变体(例如N308D、E76K)的模型系统(例如细胞)之间的超维分离。在830万低阶分子得分上对去噪自动编码器(AE)进行训练,该低阶得分来自在3,495个带有野生型和突变型RAS/MAPK基因的单个HEK293细胞中检测的超过18,800个基因。训练进行30代(epoch),采用的小批次大小为10,每代训练之间的UMI计数采样随机减少5%后进行噪声模拟。所使用的全连接对称自动编码器的架构在图4中示出。低阶分子得分的缩放、归一化和降维的领域中的常规方法可能无法分离具有努南综合征(NS;N308D)分子变体和野生型PTPN11的细胞的tSNE投影,而定制的细胞类型和途径特异性自动编码器可显示出具有体细胞障碍分子变体(E76K)和种系障碍分子变体(N308D)的细胞与PTPN11野生型细胞的鲁棒分离。
根据一些实施方案,图14A和14B示出了对具有两种独特表型影响的分子变体进行二项式分类的系统和方法的性能,其在具有人HRAS基因的疾病相关联(例如致病性)基因型(例如序列)变体(例如G12V)和野生型(例如良性)基因型(例如序列)形式,或者编码癌蛋白h-Ras(也称为转化蛋白p21)的RAS/MAPK途径的第三个成员的哺乳动物细胞中测定。小GTP酶Ras超家族的Ras亚家族中的一个小G蛋白,h-Ras(与三磷酸鸟苷结合后)可以激活RAF家族激酶(例如c-Raf),从而导致MAPK/ERK途径的细胞激活。
图14A示出了野生型和突变型哺乳动物细胞(HEK293)在二维平面上的投影1402,所述二维平面是通过细胞的t-随机邻域嵌入(tSNE)基于它们归一化的单细胞基因表达测量结果得出的。如图14A中所示,低阶分子得分可以从超过33,500个基因的分子测量结果得出,每个细胞平均约3500个分子测量结果。可应用主成分分析(PCA)来得到降低低阶分子得分的维度的高阶分子得分。可应用高斯混合模型(GMM)将投影的细胞基于从它们归一化的单细胞基因表达测量结果(例如UMI计数)得到的低阶分子得分,分配给分子状态1404,从而定义例如N=6个细胞亚群。伪疾病相关联基因型和良性基因型可通过分别将突变型细胞和野生型细胞随机分配给例如kP=15个疾病相关联伪群和kB=15个良性伪群而生成。为了训练和测试能够区分疾病相关联基因型和良性基因型的机器学习功能模型(mF),可以应用例如80/20交叉验证方案将伪群(kP1–15、kB1–15)分为训练集和测试集,从而导致例如,每个类别标签(例如,疾病相关联的和良性的)的k训练=12个训练基因型和k测试=3个测试基因型,统称为真集。可在f=5个折子的每个中重复此过程,例如,i=25次迭代,其中在每个折子中,可以对伪群(例如kP1–15、kB1–15)内的细胞进行采样替换以保留,例如20%、40%、60%、80%或100%的细胞。在每个迭代、折子和采样中,可将疾病相关联基因型和良性基因型的低阶分子信号和高阶分子信号分别计算为低阶分子得分和高阶得分的平均值。在每个迭代、折子和采样中,可将疾病相关联基因型和良性基因型的群体信号确定为对应于例如N=6个亚群每一者的细胞的比率。在每个迭代、折子和采样中,机器学习功能模型(mF)可基于k训练数据中观察到的低阶分子信号、高阶分子信号或群体信号,从真集中划分疾病相关联基因型和良性基因型。可以使用10折交叉验证策略以及随机森林估计器来训练此功能模型(mF),以对变体进行划分。在每个迭代、折子和采样中,经训练的功能模型(mF)可基于k测试伪群的低阶分子信号、高阶分子信号或群体信号,预测其类别标签(例如疾病相关联的或良性的)。如图14B中所示,该方法可基于在突变型和野生型细胞群体内测定的低阶分子信号、高阶分子信号和群体信号,在疾病相关联基因型和良性基因型之间产生鲁棒的区分。
为了评价DML过程和系统作为在多基因和障碍情形下对疾病相关联(例如,致病性)分子变体进行准确鉴别的可扩展解决方案的性能,可使用统一的分布式DML处理管线进行对例如RAS/MAPK途径的三个基因(HRAS、PTPN11和MAP2K2)的分子和群体信号的预处理、缩放、归一化、降维以及计算。应用如上所述的类似训练/测试方案来评价分类准确率,在HRAS中的体细胞癌驱动分子变体(例如G12V)和PTPN11中的体细胞癌驱动分子变体(例如E76K)的分析中,DML过程可分别达到约99.9%和约100%的(例如,中值)原始分类准确率202,并且在PTPN11中的分子变体形式种系(例如遗传)障碍(例如N308D)和MAP2K2中的分子变体形式种系(例如遗传)障碍(例如F57C、P128Q)的分析中,(例如中值)原始分类准确率204分别为约98.5%和约96.1%,如图2A中所示。在已知会引起HRAS中的体细胞障碍、PTPN11中的种系障碍和MAP2K2中的种系障碍的分子变体的分类中,平衡准确率206、208(例如,马修相关系数,MCC)可分别为约99.4%、约100%、约95.2%和约90.1%,如图2B中所示。基于本文描述的分子信号和群体信号,在疾病相关联(例如,体细胞和种系、二者的组合)分子变体的分析中,原始分类准确率(例如,ACC)和平衡分类准确率(例如,MCC)可分别为约98.4%和约95.6%。
在一些实施方案中,本公开提供了通过应用统计机器学习模型来将低阶和高阶分子得分与模型系统(例如细胞)内所含的变体的已知表型影响相关联来得出模型系统水平(例如,细胞水平)表型得分的系统和方法。图3A和图3B示出了根据一些实施方案的机器学习模型的细胞水平原始分类准确率,该机器学习模型被训练以得出带有MAP2K2的野生型形式和突变型形式的细胞的表型得分。
在图3A中,种系条柱和增强条柱可表示基于细胞表型得分的排除在训练之外的具有MAP2K2种系障碍分子变体的测试细胞的平均分类准确率,其中训练仅基于MAP2K2中性分子变体和种系障碍分子变体(例如种系302)或包括来自PTPN11种系障碍分子变体的数据(例如增强304)。图3B中的种系302条柱和增强304条柱表示排除在训练之外的测试MAP2K2种系障碍分子变体的平均分类准确率,其是基于具有不同细胞数目的细胞群体的主要细胞表型得分确定的。如图3A中所示,种系条柱和增强条柱可对应于测试分子变体的分类的原始准确率,其中训练仅基于MAP2K2中性分子变体和种系障碍分子变体(例如,种系)或包括来自PTPN11种系障碍分子变体的数据(例如增强)。
图3A和3B展示了用逻辑回归(LR)分类器获得的数据,该分类器经训练以基于从(例如缩放的和/或归一化的)低阶分子得分计算为前100个主成分的高阶分子得分,对带有疾病相关联分子变体的细胞和带有野生型MAP2K2的细胞的二元分类。可以通过以下方式创建用于训练和测试的细胞集:将分子变体划分进训练箱和测试箱中,然后基于分子变体基因型将细胞划分进相应的训练集和测试集中,使得将具有特定疾病相关联分子变体的特定细胞集排除在训练之外。因此,分类测试性能可在排除在训练之外具有变体的整个细胞群体上计算。如图3A和图3B中所示,对于与MAP2K2中的种系(例如遗传)障碍相关联的分子变体,平均按细胞分类准确率可以为约80.3%。
在一些实施方案中,本公开描述了分子变体的表型后果的学习和预测,其是基于在相同的、相关的或相互作用的途径内的多个基因、分子元件中测定的分子、表型或群体信号。如图3A和图3B中所示,将来自与种系(例如遗传)障碍相关联的PTPN11分子变体的数据包含在内,可以使PTPN11中各种系障碍分子变体的平均按细胞分类准确率从约80.3%(例如,种系302)增加到约92.8%(例如,增强304),从而证明所公开的DML方法和系统鉴别和利用明了的(coherent)细胞特性以对多个功能元件的分子变体的表型影响进行准确分类的能力。如图3A和图3B中所示,按细胞分类的性能增加可导致基于来自具有分子变体的细胞群体的多数类型分类对分子变体的分类增加。
在一些实施方案中,本公开提供了用于得出各功能元件(例如各基因)的功能得分和功能分类的系统和方法。在一些实施方案中,本公开提供了利用多个功能元件内的分子变体之间的一致分子信号来得出众多功能元件的功能得分和功能分类的方法。在一些实施方案中,本公开描述了结合使用诱变技术、分子条形码编码技术、分子克隆技术和细胞汇集技术来生成细胞群的系统和方法,在所述细胞群中独特功能元件中的分子变体被独特地创建、条形码编码或这两者。
在一些实施方案中,分子、表型或群体信号(例如特征)的独立或不相交的估计可用于通过统计(例如机器)学习来得出独立或不相交的功能得分和功能分类,所述统计(例如机器)学习分别通过回归技术和分类技术将分子信号(例如特征)与分子变体的表型影响(例如标签)相关联。
在一些实施方案中,使用领域普通技术人员将理解的技术,将来自使用每个分子、表型或群体信号的独立或不相交的估计生成的统计(例如机器)学习模型的特征权重进行计算、收集并用于鲁棒的特征选择。在一些实施方案中,本公开提供了通过统计(例如机器)学习来得出功能得分和功能分类的方法,所述统计(例如机器)学习分别通过回归技术和分类技术将所鉴别的鲁棒的分子、表型或群体信号(例如,鲁棒的特征)与分子变体的表型影响(例如标签)相关联。
在一些实施方案中,本公开描述了从多个统计(例如机器)学习模型得出功能得分和功能分类的系统和方法,所述统计(例如机器)学习模型是利用分子信号的独立或不相交的估计,应用模型选择或模型组合(例如混合)技术(Pan等人,2006年)而生成的。
在应用模型选择技术的一些实施方案中,可以使用测量模型的预测性能或模型为真实模型的概率的模型选择标准来比较模型,并且可以应用选择以使选择标准的估计最大化。如本领域普通技术人员所理解的,可以应用多种模型选择标准,包括(但不限于)赤池信息准则(AIC)、贝叶斯信息准则(BIC)、交叉验证(CV)、Bootstrap(Efron,1983年;Efron, 1986年;Efron和Tibshirani,1997年),或在训练数据或输入测试数据上计算的自适应模型选择标准(George和Foster,2000年;Shen和Ye,2002年;Shen等人,2004年),如测试输入依赖性权重(IDW)所示例的。候选模型的IDW可定义为模型对给定输入给出正确预测的概率或量化模型对输入测试数据的预测性能的合理度量(Pan等人,2006年)。
在应用模型组合技术的一些其它实施方案中,可以通过应用集成方法,通过取各个模型的输出的相等或不相等加权平均值来产生组合模型(Ripley,2008年;Hastie等人, 2001年)。例如,集成方法可以包括但不限于贝叶斯模型平均、堆叠法(stacking)、自助聚合法(bagging)、随机森林、提升法(boosting)、ARM,以及使用性能指标(例如AIC和BIC)作为在训练数据上计算的(Burnham和Anderson,2003年;Hastie等人,2001年)或在输入测试数据上计算的(Pan等人,2006年)权重。在应用模型组合技术的一些其它实施方案中,可以应用人工神经网络(ANN)架构来生成组合模型。在一些实施方案中,本公开描述了用于从多个统计(例如机器)学习模型得出功能得分和功能分类的系统和方法,所述统计(例如机器)学习模型是利用涉及应用各种噪声控制技术(例如,Bootstrap Ensemble with NoiseAlgorithm(Yuval Raviv,1996年))的分子信号的独立或不相交的估计生成的。
在一些实施方案中,本公开描述了用于估计分子变体的功能得分和功能分类的系统和方法,所述系统和方法是应用统计(例如机器)学习技术来生成推理模型(mI),所述推理模型对(例如测定终点)功能得分或功能分类与多个依赖性(例如,已测定的)特征(例如,分子、表型或群体信号)或独立的(例如,非测定的)特征(例如,与变体、基因组坐标、转录物(例如RNA)坐标、翻译(例如蛋白质)坐标、氨基酸以及本领域普通技术人员将理解的各种其它项相关联的进化的、群体的、功能的(例如基于注释的)、结构的、动力学的和物理化学的特征)之间的关系进行建模。如本领域普通技术人员将理解的,这样的推理模型(mI)可以允许在有或没有明确使用分子、表型或群体信号、分子测量结果、分子过程、分子特征或分子得分的情况下估计分子变体的功能得分和功能分类。在一些实施方案中,此类方法可以允许对功能得分和功能分类未被直接测量的分子变体推理描述其功能得分和功能分类的序列-功能图。在一些实施方案中,如图15中所示,这样的系统和方法可以允许利用来自序列功能图1502(代表可能的非同义变体的子集)的功能得分和功能分类,对蛋白质编码基因中所有可能的非同义变体推理描述其功能得分或功能分类的序列-功能图1514。在一些实施方案中,这种推理可以利用得分回归层1504,其访问作为输入的由注释特征1508、标签1510和功能得分1512组成的注释矩阵1506。如本领域普通技术人员将理解的,可以将多种统计验证和交叉验证技术应用于监视并确保所估计的功能得分和功能分类的准确率。
在一些实施方案中,如图16中所示,本公开描述了用于通过一系列建模层来确定分子变体的表型影响(例如,致病性、功能性或相对效应)的系统和方法,所述一系列建模层(a)收集或生成表型影响的现有知识或可靠预测,(b)通过对具有已知的、高可信度预测的和未知的表型影响的采样分子变体进行功能建模(例如,通过功能建模引擎(FME)执行)来扩大具有已知的或预测的表型影响的分子变体集,以及(c)通过推理建模进一步完善具有已知的或预测的表型影响的分子变体集。结合起来,这些层可扩展(或优化)可用于功能模型(mF)1607生成的真集的范围,并减少(或优化)功能模型(mF)1607生成的对推理模型(mI)1609的支持的所需范围。在一些实施方案中,这些系统和方法可以克服表型影响(例如致病性、功能性或相对效应)已知的分子变体的可用性有限的功能元件(例如基因)和背景的训练、验证和测试的局限性。这样的系统和方法从而使得能阐明原本对于模型产生而言数据有限的功能元件(例如基因)的分子变体的表型影响,并且可以降低总成本。
在一些实施方案中,如图16中所示,这样的系统和方法可以组合以下建模层中的一个或多个来实现此目的:(1)预测模型(mP)1603,(2)采样模型(mS)1605,(3)功能模型(mF)1607,以及(4)推理模型(mI)1609。在一些实施方案中,本公开描述了访问来自现有来源的具有已知表型影响(例如,致病性或良性)的分子变体以填入描述基因/功能元件中的分子变体的表型影响的序列-功能图1602的系统和方法。在一些实施方案中,充分表征的预测模型(mP)1603可用于产生增强的序列-功能图1604,其并入了具有高置信度预测的分子变体的表型影响。在一些实施方案中,应用采样模型(mS)1605来生成一组基因型(例如分子变体)1606,其含有(a)通过对具有已知的或高置信度预测的表型影响的分子变体进行选择或子采样而得到的真集,和(b)具有未知表型影响的分子变体的目标集。
在一些实施方案中,本公开描述了使用统计(例如,机器)学习来生成功能模型(mF)1607,该功能模型将分子、表型或群体信号与从真集中(例如来自基因型1606)的分子变体学到的功能得分和功能分类相关联,以预测目标集中(例如,来自基因型1606)的分子变体的功能得分和功能分类,从而产生功能得分的序列-功能图1608。
在一些实施方案中,如图16中所示,功能模型(mF)1607访问增强的真集1611和1612,其包括来自相同的、相关的或相互作用的途径中的多个功能元件(例如基因)的分子和群体信号。这种能力可以使系统能基于来自具有明了的作用机理的功能元件(例如基因)的分子、表型或群体信号,为具有已知的或高度置信预测的表型影响的分子变体的可用性有限或者没有的功能元件(例如基因)生成功能模型(mF)1607。图3A和图3B示出了其实例。
在一些实施方案中,推理模型(mI)1609可利用已知的分子变体、高置信预测的分子变体以及功能建模的分子变体的表型影响,所述推理模型对表型影响与多个依赖性(例如,已测定的)特征(例如,分子、表型或群体信号)或独立的(例如,非测定的)特征(例如,与变体、基因组坐标、转录物(例如RNA)坐标、翻译(例如蛋白质)坐标、氨基酸以及本领域普通技术人员将理解的各种其它项相关联的进化的、群体的、功能的(例如基于注释的)、结构的、动力学的和物理化学的特征)之间的关系进行建模以产生功能得分的增强的序列-功能图1610。如本领域普通技术人员将理解的,这样的推理模型(mI)1609可以允许在有或没有明确使用分子、表型或群体信号的情况下估计分子变体的表型影响。
在一些实施方案中,本公开描述了通过在分子变体的真集和目标集(查询集)上分阶段部署深度突变学习(DML)过程和系统来优化分子变体分类的成本效率的系统和方法。一些实施方案包括例如图6中所示的第I阶段优化610步骤,其中(在细胞数量、读段深度优化612中)在高模型系统(例如,细胞)数量和读段深度下测定包含真集变体的模型系统(例如,细胞),以生成用于降维模型(mDR)614(诸如自动编码器(mAE))和功能模型(mF)616优化的高质量数据。在此第一阶段,可以优化分子变体的目标表型影响的降维和分类准确率以确定可保证鲁棒的目标性能的降维模型(614)、功能模型(616)与细胞数、读段深度(612)的组合。在一些实施方案中,可将子采样和噪声仿真用于降维模型和功能模型的性能的训练和建模。如图6中所示,某些实施方案包括第II阶段生产620步骤,其中含有目标集变体以及任选的真集变体的模型系统(例如,细胞)可以在采用当部署特定的降维模型624和功能模型626时被确定为鲁棒的(例如,最佳或最小的)细胞数量和/或读段深度的部署622中进行测定。
在一些实施方案中,本公开描述了基于如上所述确定的功能得分和功能分类来确定在受试者的生物样品或记录内鉴别的分子变体的表型影响(例如,致病性、功能或相对效应)的系统和方法。在一些实施方案中,可以创建、评价、验证、选择并应用一组(例如,多个独特的)分子变体的功能得分和功能分类的归并的带时间戳记录,以确定在受试者的生物样品或记录内鉴别分子变体的表型影响。
在一些实施方案中,本公开描述了基于来自计算预测器的预测器得分或预测器分类确定在受试者的生物样品或记录内所鉴别的分子变体的表型影响(例如,致病性、功能性或相对效应)的系统和方法,所述计算预测器通过应用统计(例如机器)学习方法来利用功能得分和功能分类而生成。
在一些实施方案中,如图17中所示,本公开描述了通过统计(例如,机器)学习技术来生成(例如低阶)变体解释引擎(VIE)的方法,所述变体解释引擎(VIE)可以是基因特异性的和条件特异性的,所述统计(例如,机器)学习技术基于输入标签1714和包括它们的功能得分1702、1708(或功能分类)的注释矩阵1706和其它注释特征1710对分子变体的表型影响1712进行建模,所述其它注释特征1710包括计算预测器创建中常用的特征,包括但不限于与功能元件的变体和残基相关联的进化的、群体的、功能的(例如基于注释的)、结构的、动力学的和物理化学的特征。在一些实施例中,训练和验证层1704可采用交叉验证技术1716(例如,K-折或LOOCV)来训练和质量控制VIE,随后由测试层1718对其进行评价,以得出用于分子变体分类的预测器得分1720。
在一些实施例中,本公开还描述了应用模型组合技术来生成途径特异性和条件特异性的(高阶)变体解释引擎(VIE)的系统和方法,所述模型组合技术可整合来自所关注目标途径中多个基因的(低阶)基因特异性和条件特异性的变体解释引擎(VIE)。在其它实施方案中,本公开还描述了通过统计(例如机器)学习技术来生成途径特异性和条件特异性的(高阶)变体解释引擎(VIE)的系统和方法,所述统计(例如机器)学习技术基于它们的功能得分、功能分类以及计算预测器创建中常用的其它特征(包括但不限于与功能元件的变体和残基相关联的进化的、群体的、功能的(例如基于注释的)、结构的、动力学的和物理化学的特征)对分子变体的表型影响进行建模。
在一些实施方案中,本公开描述了基于来自突变热点的热点得分和热点分类来确定在受试者的生物样品或其记录内所鉴别的分子变体的表型影响(例如,致病性、功能性或相对效应)的系统和方法,所述突变热点通过应用空间聚类技术利用本文描述和启用的与分子变体和残基相关联的功能得分、功能分类和分子信号鉴定具有特定表型影响的残基网络来计算。
在一些实施方案中,本公开描述了通过以下方式得出分子变体或它们的对应残基之间的功能距离的矩阵的系统和方法:(1)计算在由一组M个功能得分、功能分类和分子信号(如上所述)定义的N维空间(1≤N≤M)中投影的分子变体之间的距离度量,其中当应用降维技术来减少分子变体的特征-空间时,N<M。如本领域普通技术人员将理解的,可以应用各种降维技术,包括但不限于依赖于线性变换的技术(如主成分分析(PCA)中)或依赖于非线性变换的技术(如各种各样的学习技术(例如t分布随机邻域嵌入(tSNE)和内核主成分分析(kPCA))中)。如本领域普通技术人员将理解的,可以利用各种距离度量,包括但不限于欧几里得距离、曼哈顿距离(例如城市街区)、马哈拉诺比斯距离或切比雪夫距离,以及各种其它距离。
在一些实施方案中,本公开描述了通过在多种空间距离度量(包括本文所述且启用的功能距离、序列距离、结构距离、(共)进化距离以及它们的组合)上应用空间聚类技术对功能元件(例如蛋白质编码基因)的空间上邻近的残基内的表型相关联突变密度(例如,每个残基所观察到的表型相关联变体的数目)进行测量和评分,来鉴别显著突变区域(SMR)和显著突变网络(SMN)的系统和方法。
在一些实施例中,如图18中所示,SMR/SMN的鉴定可应用训练/验证层1804,以鉴别基于分子变体的功能得分的共同性而确定的表型相关或功能相关的分子变体1806之间的空间聚类。在一些实施方案中,可以从蛋白质编码基因1802的序列-功能图中的分子变体的功能得分鉴别这些共性。
在一些实施方案中,如图18中所示,训练/验证层1804中的SMR/SMN的鉴别可包括一系列步骤,包括但不限于:(1)SMR/SMN检测技术1805,用于鉴别在具有特定表型关联的分子变体中富集的单残基或残基网络,如先前所述的(Araya等人,2016年,美国专利申请20160378915A1),以及(2)SMR/SMN选择技术1815。
SMR/SMN检测技术1805可包括一系列步骤,包括但不限于:(1.1)在功能、序列、结构或(共)进化维度(或它们的组合)上对表型相关联分子变体1806进行投影1810,(1.2)应用空间聚类技术1812(例如,DBSCAN)检测在空间上邻近的表型相关联变体的簇,以及(1.3)测量簇中每个残基的表型相关联变体的突变密度、评分数。
SMN检测技术1805可还包括1814中指示的步骤,包括但不限于:(1.4)在给定每个功能元件(例如蛋白质编码基因)内的每残基突变率的情况下,通过(例如)计算每个簇获得k个或更多个(例如,大于或等于k个)观察到的表型相关联变体的(例如,二项式)概率,对突变密度概率进行评分,(1.5)对所发现的簇的突变密度概率应用多重假设校正(MHC),以及(1.6)使用突变密度概率的背景模型计算所观察到的(例如,原始的或校正的)突变密度概率的假发现率(FDR),该背景模型通过使每个功能元件内所观察到的表型相关联变体的位置随机化而得出。
训练/验证层1804可进一步执行SMR/SMN选择技术1815。SMR/SMN选择技术可包括以下步骤:(2.1)将(例如,原始的或校正的)突变密度概率和/或假发现率(FDR)定义为热点得分并应用截止值来统计定义热点分类,从而在候选簇(例如,序列1816、功能1818和序列1820)中指定残基,(2.2)从多个独特的投影/空间检测候选簇中的残基,(2.3)应用分配试探法将残基分配给各个簇(例如,选择大小最大的簇(例如,残基数最多的簇)),以及(2.4)将SMR/SMN鉴别为符合这些标准的簇的最终集合。可从多个独特的投影(例如,序列1820、功能1818或者序列、功能(组合)1822)得出最终的SMR/SMN集。
在一些实施方案中,本公开描述了通过在多种空间距离度量上应用空间聚类技术对功能元件(例如蛋白质编码基因)的空间上邻近的残基内的表型相关联突变密度(例如,每残基所观察到的表型相关联变体的数目)进行测量和评分,来鉴别SMR/SMN的系统和方法,其中所述表型相关联变体可基于本文所述的功能得分和功能分类来定义。如本领域普通技术人员将理解的,这些方法可允许确定其中可出现具有明确限定的表型影响的变体的残基簇。
在一些实施方案中,本公开描述了系统和方法,其用于评价用于解释分子变体的独立证据数据集,诸如来自计算预测器(例如,M-CAP、REVEL、SIFT和PolyPhen2)以及基因特异性预测器(例如PON-P2)、突变热点和群体基因组学指标(例如,基于等位基因频率的变体分类)的定量(例如得分)或定性(分类)证据(Amendola等人,2016年),相对于本文所述的功能得分和功能分类的准确率、性能或鲁棒性。
在一些实施例中,本公开描述了计算用以评估证据数据集与本文描述的功能得分和功能分类之间的一致性的评价指标,并基于这些评价指标选择供用于变体解释和优先级排序的表现最好的证据数据集的系统和方法。如本领域普通技术人员将理解的,可以使用各种评价指标来评估证据数据集相对于本文描述的功能得分或功能分类的一致性。对于定量证据(例如得分),这些评价指标可包括皮尔逊相关系数、斯皮尔曼等级相关、肯德尔相关以及本领域普通技术人员应该理解的各种其它评价指标。对于定性证据(例如分类),这些评价指标可包括准确率、马修斯相关系数、科恩kappa系数、约登指数(例如informedness)、F量度(例如F1得分)、真阳性率(例如灵敏度或召回率)、真阴性率(例如特异性)、阳性预测值(例如精确率)、阴性预测值、阳性似然比、阴性似然比和诊断比值比,以及本领域普通技术人员应该理解的各种其它评价指标。
在一些实施方案中,本公开描述了系统和方法,其可基于上述评价指标连续地评价、验证和优化(例如,选择、移除或修改)各种证据数据集,并经由应用程序接口(API)将表现最好的(例如独立的)证据数据集分发给客户端系统以用于变体解释和优先级排序实践,从而确定受试者的生物样品或其记录内鉴别的分子变体的表型影响(例如,致病性、功能性或相对效应)。
在一些实施例中,本公开描述了确定存在于变体的数据集内的确认偏差、报告偏差或结果偏差的程度的系统和方法,所述变体的数据集包括临床数据集(例如,ClinVar、HumVar、VariBench、SwissVar、PhenCode或位点特异性数据库)、群体数据集(例如,ExAC、GnomAD和1000基因组),或用于解释分子变体的独立证据数据集,诸如但不限于计算预测器(例如,M-CAP、REVEL、SIFT、PolyPhen2以及PON-P2)。在一些实施方案中,本公开描述了基于本文描述的与分子变体和残基相关联的功能得分、功能分类和分子信号的预期分布来确定偏差的系统和方法。
在一些实施方案中,本公开描述了通过对目标数据集内的分子变体和残基的功能得分、功能分类和分子信号的分布与来自参考数据集的分子变体的功能得分、功能分类和分子信号的预期分布之间的差异进行测量和评分,来评价目标变体数据集的系统和方法。在一些实施方案中,目标变体数据集内的固有偏差的测量可包括一系列步骤,包括但不限于:(1)收集目标数据集和参考数据集中与分子变体相关联的功能得分、功能分类和分子信号,(2)估计参考数据集内与分子变体相关联的功能得分、功能分类或分子信号的概率密度函数,(3)估计目标数据集内与分子变体相关联的功能得分、功能分类或分子信号的概率密度函数,以及(4)测量功能得分、功能分类或分子信号的目标数据集得出的概率密度函数与参考数据集得出的概率密度函数之间的统计距离。在一些实施方案中,目标变体数据集内的固有偏差的测量包括一系列步骤,包括:(5)从参考数据集采样变体(例如,以匹配目标数据集的样本群体大小),(6)估计步骤5中的采样参考数据集的功能得分、功能分类或分子信号的概率密度函数,(7)测量功能得分、功能分类或分子信号的目标数据集得出的概率密度函数与采样参考数据集得出的概率密度函数之间的统计距离,(8)迭代步骤5-8以获得目标数据集与参考数据集的功能得分、功能分类或分子信号的概率密度函数之间的统计距离的鲁棒性估计和置信区间。在一些实施方案中,上述用于偏差的检测和统计评价的系统和方法允许鉴别其中所包含的变体具有的功能得分、功能分类或分子信号与参考数据集中所预期的不同的临床数据集、群体数据集或证据数据集。
在一些其它实施方案中,本公开描述了通过一系列步骤来评价证据数据集内的潜在偏差的系统和方法,所述步骤包括但不限于:(1)将证据数据集和参考数据集划分进匹配的分位数集(例如,用于定量证据得分)或类别集(例如,定性证据分类);(2)就多种特性(例如,与变体相关联的进化特征、群体特征、功能(例如,基于注释的)特征、结构特征、动力学特征和物理化学特征)对每个集内的变体进行评分;(3)估计每个集(例如,证据集与参考集)内每种特性得分的概率密度函数;(4)测量每种特性得分的证据集得出的概率密度函数与参考集得出的概率密度函数之间的统计距离;以及(5)鉴别参考集与证据集之间得分具有统计学显着性差异的特性。
在一些实施方案中,本公开描述了系统和方法,其可基于上述偏差指标连续地评价和选择各种证据数据集,并经由应用程序接口(API)将偏差最小的(例如独立的)证据数据集分发给客户端系统以用于变体解释和优先级排序实践,从而确定受试者的生物样品或其记录内鉴别的分子变体的表型影响(例如,致病性、功能性或相对效应)。
在一些实施方案中,本公开描述了基于功能元件(例如基因)和途径中本文所述的功能得分、功能分类、预测器得分、预测器分类、热点得分和热点分类来确定受试者的生物样品或记录内所鉴别的分子变体的表型影响(例如,致病性、功能或相对效应)的系统和方法,所述功能元件和途径为孟德尔病相关联的(例如表1)、为已知的癌症驱动基因(例如表2)、其中基因型(例如序列)变异与药物响应变异相关联的药物基因组学基因(表3)或其它临床上有价值的基因(例如表4)。
在一些实施方案中,本公开描述了系统和方法,其用于评价、选择、分发和利用独立的证据(基于本文所述的功能得分和分类被确定为表现最好且偏差最小),以供功能元件(例如基因)和途径中的变体的解释和优先级排序,所述功能元件和途径为孟德尔病相关联的(例如表1)、为已知的癌症驱动基因(例如表2)、其中基因型(例如序列)变异与药物响应变异相关联的药物基因组学基因(表3)或其它临床上有价值的基因(例如表4)。
如上面所论述的,表1是根据一些实施方案的与孟德尔病相关联的功能元件和途径的示例表。表2是根据一些实施方案的作为已知的癌症驱动基因的功能元件和途径的示例表。表3是根据一些实施方案的其中基因型(例如序列)变异与药物响应变异相关联的药物基因组学基因的示例表。表4是根据一些实施方案的其它临床上有价值的基因的示例表。表1-4可以在说明书的第47页上找到。
在一些实施方案中,本公开描述了基于已知致病性变异目标(包括(但不限于)突变热点)内的变体,或者在这种热点的例如50个、100个、500个和1,000个碱基对(bp)内的变体的本文所述和启用的功能得分、功能分类、预测器得分、预测器分类,来确定受试者的生物样品或记录内所鉴别的分子变体的表型影响(例如,致病性、功能或相对效应)的系统和方法。在一些实施方案中,本公开描述了基于群体中的变异受限区域内的变体,或者在这种区域的例如50、100、500和1000bp内的变体的功能得分、功能分类、预测器得分或预测器分类,来确定受试者的生物样品或记录内所鉴别的分子变体的表型影响(例如,致病性、功能或相对效应)的系统和方法。如本领域普通技术人员将理解的,可应用多种方法来确定突变热点和变异受限区域。
可例如使用一种或多种计算机系统(诸如图19中所示的计算机系统1900)来实现各种实施方案。计算机系统1900可例如用于实现图1A、图6-13和图15-18的方
法。计算机系统1900可以是能够执行本文描述的功能的任何计算机。
计算机系统1900可以是能够执行本文描述的功能的任何公知的计算机。
计算机系统1900包括一个或多个处理器(也称为中央处理单元或CPU),诸如处理器1904。处理器1904连接至通信基础架构或总线1906。
一个或多个处理器1904可各自是图形处理单元(GPU)。在一个实施方案中,GPU是作为设计用于处理数学密集型应用的专用电子电路的处理器。GPU可具有并行结构,可有效用于大数据块(诸如计算机图形应用程序、图像、视频等常见的数学密集型数据)的并行处理。
计算机系统1900还包括通过用户输入/输出接口1902与通信基础架构1906通信的用户输入/输出装置1903,诸如监视器、键盘、指针设备等。
计算机系统1900还包括主存储器1908,诸如随机存取存储器(RAM)。主存储器1908可包括一级或多级缓存。主存储器1908在其中存储了控制逻辑(例如计算机软件)和/或数据。
计算机系统1900还可包括一个或多个辅助存储设备或存储器1910。辅助存储器1910可包括例如本地、网络或云可访问硬盘驱动器1912和/或可移动存储设备或驱动器1914。可移动存储驱动器1914可以是软盘驱动器、磁带驱动器、光盘驱动器、光存储设备、磁带备份设备和/或任何其它存储设备/驱动器。
可移动存储驱动器1914可与可移动存储单元1918交互。可移动存储单元1918包括计算机可用的或可读的存储设备,其上存储有计算机软件(控制逻辑)和/或数据。可移动存储单元1918可以是软盘、磁带、光盘、DVD、光学存储盘和/或任何其它计算机数据存储设备。可移动存储驱动器1914以众所周知的方式读取和/或写入可移动存储单元1918。
根据示例性实施方案,辅助存储器1910可包括用于允许计算机系统1900访问计算机程序和/或其它指令和/或数据的其它装置、机构或其它方法。这种装置、机构或其它方法可包括例如可移动存储单元1922和接口1920。可移动存储单元1922和接口1920的实例可包括程序盒和盒式接口(诸如存在于视频游戏设备中的那些)、可移动存储芯片(诸如EPROM或PROM)和相关联插座、存储棒和USB端口、存储卡和相关联存储卡插槽,和/或任何其它可移动存储单元和相关联接口。
计算机系统1900还可包括通信或网络接口1924。通信接口1924使得计算机系统1900能够与远程设备、远程网络、远程实体等的任何组合通信和交互(由参考标号1928单独地和总体地指代)。例如,通信接口1924可以允许计算机系统1900通过通信路径1926与远程设备1928通信,通信路径1926可以是有线和/或无线的,并且可包括LAN、WAN、因特网等的任何组合。控制逻辑和/或数据可经由通信路径1926传送到计算机系统1900和从计算机系统1900传送。
在一个实施方案中,包括在其上存储有控制逻辑(软件)的有形计算机可用或可读介质的有形设备或制品在本文中也称为计算机程序产品或程序存储设备。这包括但不限于计算机系统1900、主存储器1908、辅助存储器1910和可移动存储单元1918和1922,以及体现上述任何组合的有形制品。当由一个或多个数据处理设备(诸如计算机系统1900)执行时,这种控制逻辑会使这种数据处理设备如本文所述进行工作。
基于本公开中包含的教导,对相关领域的技术人员将显而易见的是,如何使用除图12中所示之外的数据处理设备、计算机系统和/或计算机架构来制造和使用本公开的实施方案。具体而言,实施方案可以使用除本文所述之外的软件、硬件和/或操作系统实现来操作。
应当理解,具体实施方式部分而不是任何其它部分旨在用于解释权利要求。其它部分可以阐述发明人所设想的一个或多个但不是所有示例性实施方案,因此,无意于以任何方式限制本公开或所附权利要求。
虽然本发明描述了用于示例性领域和应用的示例性实施方案,但应当理解,本发明不限于此。其它实施方案及其修改形式是可能的,并且在本公开的范围和精神范围内。例如,并且在不限制本段的一般性的情况下,实施方案不限于附图中所示和/或本文中所描述的软件、硬件、固件和/或实体。此外,实施方案(无论这里是否明确描述)对于本文所述的实例之外的领域和应用具有重大的实用性。
在此已借助于示出特定功能及其关系的实现的功能构造块描述了实施方案。为了描述的方便,本文已任意定义了这些功能构造块的边界。可以定义备选的边界,只要恰当地执行所指定的功能和关系(或其等效项)即可。而且,备选的实施方案可以使用与本文描述的顺序不同的顺序来执行功能块、步骤、操作、方法等。
本文中提及“一个实施方案”、“实施方案”、“示例性实施方案”或类似短语表示所描述的实施方案可包括特定的特征、结构或特性,但是每一实施方案可不一定包括该特定的特征、结构或特性。此外,这些短语不一定指同一实施方案。此外,当结合实施方案描述特定的特征、结构或特性时,将这种特征、结构或特性结合到其它实施方案中将在相关领域技术人员的知识范围内,而无论是否在本文中明确提及或描述。另外,可以使用表述“耦合”和“连接”及其派生词来描述一些实施方案。这些术语不一定是彼此的同义词。例如,可以使用术语“连接”和/或“耦合”来描述一些实施方案,以指示两个或多个元件彼此直接物理或电接触。然而,术语“耦合”也可意指两个或多个元件彼此之间没有直接接触,但仍然相互合作或相互作用。
本公开的广度和范围不应受限于任何上述示例性实施方案,而应仅根据以下权利要求书及其等同物来限定。
表1孟德尔病
1/2
基因(HGNC符号)
BRCA1
BRCA2
APOB
LDLR
PCSK9
SCN5A
APC
MLH1
MSH2
MSH6
STK11
MUTYH
MYH7
LMNA
MYBPC3
TNNI3
TNNT2
KCNQ1
KCNH2
SDHB
ACTA2
MYH11
VHL
RET
SDHAF2
SDHC
SDHD
TP53
TSC1
TSC2
NF2
PTEN
RB1
RYR1
GLA
RYR2
TGFBR1
TGFBR2
ACTC1
CACNA1S
COL3A1
DSC2
DSG2
DSP
FBN1
表1孟德尔病
2/2
基因(HGNC符号)
MEN1
MYL2
MYL3
PKP2
PMS2
PRKAG2
SMAD3
TMEM43
TPM1
WT1
BMPR1A
SMAD4
ATP7B
OTC
表2癌症驱动基因(CCG La)
1/14
基因(HGNC符号)
TP53
PIK3CA
ARID1A
RB1
PTEN
KRAS
BRAF
CDKN2A
NRAS
FBXW7
STAG2
NFE2L2
NF1
IDH1
ATM
PIK3R1
CASP8
HRAS
MLL2
SF3B1
ERBB2
CREBBP
AKT1
HLA-A
CTCF
ERBB3
CTNNB1
RUNX1
MYD88
SMARCA4
EP300
SETD2
SMARCB1
EGFR
TBL1XR1
U2AF1
EZH2
RAC1
MLL3
IL7R
CD79B
POU2AF1
MAP2K1
PTPN11
CCND1
表2癌症驱动基因(CCG La)
2/14
基因(HGNC符号)
MAP2K4
TCF7L2
KIT
CDK4
FOXA1
TSC1
FAT1
WT1
BCOR
XPO1
PRDM1
KEAP1
NSD1
PPP2R1A
CDKN1B
ASXL1
MET
RPL5
MYCN
TNFRSF14
FLT3
ALK
KDM5C
KDM6A
APC
PBRM1
STK11
RAD21
EZR
SPOP
TET2
PHF6
IRF4
DDX5
CCDC6
HIST1H3B
CARD11
IDH2
MLL
FGFR2
CDK12
ERCC2
B2M
MED12
CEBPA
NOTCH1
BRCA1
MAP3K1
VHL
DNMT3A
表2癌症驱动基因(CCG La)
3/14
基因(HGNC符号)
FGFR3
NPM1
FAM46C
CBFB
GATA3
MYB
CDH1
BAP1
ELF3
ZNF198
MALT1
WIF1
KDR
SFRS3
MXRA5
SS18
TAL1
RXRA
TCEA1
HEAB
THRAP3
RUNDC2A
SLC44A3
TNF
TAL2
FLJ27352
LAF4
STK19
DDX10
MSI2
NUTM2A
POU5F1
TRIP11
STAT5B
NCOA2
AZGP1
NCOA1
STAT3
NCOA4
OR52N1
CDKN2a(p14)
CEP1
TFPT
SUFU
HOXA13
DDB2
HOXA11
P2RY8
ECT2L
TRD@
表2癌症驱动基因(CCG La)
4/14
基因(HGNC符号)
IGH@
SMAD4
RBM10
LASP1
ROS1
KMT2D
WASF3
RBM15
PRKAR1A
KCNJ5
ATRX
EPHA2
BIRC3
HNRNPA2B1
OR4A16
NUTM2B
KLF4
MAP2K2
C15orf21
ERG
CD79A
SRGAP3
MLLT3
MITF
MN1
MLLT2
MLLT7
MLLT6
FAS
C15orf55
POU2F2
EIF2S2
MLLT4
EPS15
HERPUD1
TBC1D12
MLLT1
ALO17
CNOT3
FIP1L1
CBL
OLIG2
HOXC13
NT5C2
ABL1
ZNF521
PLAG1
TPM4
LMO1
LMO2
表2癌症驱动基因(CCG La)
5/14
基因(HGNC符号)
BLM
NTN4
SLC4A5
IRTA1
JAK3
PMS2
ATP1A1
TERT
CDH11
PTCH
DDX3X
HEY1
MORC4
TLX3
PALB2
BCR
BRCA2
MDM4
MDM2
BRD4
TFG
CSF3R
RPL10
PER1
ITPKB
PDSS2
CREB1
AF3p21
TRIM27
WRN
KIF5B
CHD8
RAB40A
GATA1
ATIC
CD1D
SETBP1
CRTC3
TNFRSF17
COL1A1
DUX4
ACVR1B
C16orf75
NIN
ZNF278
MAF
NF2
AKAP9
CCND2
MAX
表2癌症驱动基因(CCG La)
6/14
基因(HGNC符号)
MECT1
ARHGEF12
SEPT6
CBLB
FACL6
ALKBH6
CHN1
CBFA2T1
IL6ST
TCEB1
MEN1
FBXO11
HIST1H4I
RALGDS
BUB1B
FHIT
CRLF2
RASA1
TLX1
IGK@
SELP
TXNDC8
CACNA1D
GUSB
NUP214
NKX2-1
INPPL1
CBFA2T3
BCLAF1
TSC2
SDH5
CDC73
ZNF384
CDC27
OTUD7A
SIL
RANBP17
NDRG1
SMC3
FH
PAX7
CD273
HLA-B
PHOX2B
CD274
GNAS
GNAQ
PSIP1
ASPSCR1
GPHN
表2癌症驱动基因(CCG La)
7/14
基因(HGNC符号)
XIRP2
PAX8
MYOCD
FRMD7
RAP1GDS1
PAX3
AJUBA
SLC34A2
HLF
UBR5
REL
RPS2
GNA11
LHFP
TBX3
SMO
RET
PAPD5
RPS15
SS18L1
MYH11
EIF4A2
LCK
XPA
HSPCA
PPARG
CHIC2
HOXC11
H3F3B
JAK2
TFRC
ZNF620
SOX17
MTCP1
JUN
LCTL
TAF15
NONO
SRSF2
CHCHD7
MAML2
PPM1D
DAXX
H3F3A
JAK1
RIT1
CCND3
TRRAP
MED23
IGL@
表2癌症驱动基因(CCG La)
8/14
基因(HGNC符号)
SPEN
DIAPH1
CMKOR1
ZNF471
STL
POLE
MAP4K3
ING1
FOXO1A
LIFR
CHEK2
LCP1
AKT2
TPR
NFKB2
FOXL2
COL5A1
FEV
HMGA1
BCL3
HMGA2
CARS
PCSK7
ELL
GMPS
LYL1
BMPR1A
TGFBR2
SLC45A3
GRAF
HLXB9
HIST1H1E
DIS3
WWTR1
PDGFRA
PDE4DIP
ARID5B
ALDH2
STX2
SACS
ARNT
GOPC
SOS1
ITK
DICER1
KEL
CIC
RAB5EP
FVT1
PML
表2癌症驱动基因(CCG La)
9/14
基因(HGNC符号)
ADNP
FANCA
ABL2
C12orf9
BRIP1
MALAT1
FANCD2
PAFAH1B2
MUTYH
POT1
JAZF1
GNPTAB
FGFR1OP
RAD51L1
DNER
ZNF331
CD70
IKZF1
NCOR1
MLF1
MYH9
SYK
HCMOGT-1
FANCE
FANCF
FANCG
TPM3
NUP210L
INTS12
SDHC
RUNXBP2
BTG1
TTLL9
EML4
SDHB
CDK6
PMX1
PDGFRB
FOXO3A
NTRK1
CLTCL1
SH2B3
EBF1
GPC3
FGFR1
ETV6
NR4A3
SBDS
PIM1
ALPK2
表2癌症驱动基因(CCG La)
10/14
基因(HGNC符号)
PDGFB
CUL4B
YWHAE
ETV1
BCL10
PBX1
IL21R
CREB3L1
ATF1
FANCC
C2orf44
HSPCB
CANT1
PTPRC
WAS
NFIB
CREB3L2
AF1Q
NOTCH2
ABI1
SH3GL1
NBS1
OMD
SUZ12
TRA@
AF5q31
RSBN1L
BCL11B
MSH6
ERCC5
BCL11A
ERCC3
MSH2
NUMA1
KTN1
TFE3
IL2
MYCL1
LPP
HOXA9
RPL22
MSN
EVI1
BCL7A
AXIN1
NBPF1
ZNF9
MLH1
SFRS2
TRIM33
表2癌症驱动基因(CCG La)
11/14
基因(HGNC符号)
SIRT4
AXIN2
CIITA
ARHGAP35
SET
ELF4
HIP1
MSF
SOX2
FNBP1
CD74
TCL1A
RAF1
MADH4
COPEB
FLI1
CBLC
GATA2
EXT1
EXT2
MICALCL
DDIT3
D10S170
CDKN2C
MYC
GOLGA5
TRIM23
NTRK3
KLK2
SLC1A3
PRF1
ACSL3
NUP98
ELK4
CYLD
TMPRSS2
DDX6
CCNB1IP1
TTL
ZNF750
TIF1
SOCS1
PNUTL1
FOXQ1
ATP2B3
PMS1
FSTL3
PCBP1
KDM5A
ZNF145
表2癌症驱动基因(CCG La)
12/14
基因(HGNC符号)
PICALM
EWSR1
AF15Q14
BCL6
GNA13
BCL5
BCL9
ANK3
RHEB
BHD
QKI
PPP6C
CALR
PRCC
FCGR2B
BCL2
RPN1
SSX4
MDS2
TPX2
RARA
ZFHX3
TRB@
MDS1
MAFB
SLC26A3
SGK1
SDHD
CDX2
SSX1
ZRANB3
KIAA1549
SSX2
HOOK3
MTOR
SNX25
TCF1
MGA
LRIG3
PRDM16
ELKS
RHOA
ACO1
ELN
VTI1A
BRD3
MLLT10
RNF43
CDKN1A
ARID2
表2癌症驱动基因(CCG La)
13/14
基因(HGNC符号)
LCX
TFEB
WHSC1L1
ETV5
ETV4
HOXD11
GAS7
ARHH
IPO7
GOT1
SMAD2
WHSC1
TNFAIP3
TCL6
HOXD13
SDC4
PAX5
MPL
MPO
SFPQ
TCF3
NACA
RECQL4
SMC1A
ERCC4
TCF12
KLHL8
DNM2
CLTC
SMARCE1
DEK
XPC
USP6
FUBP1
PCM1
TRAF7
ZRSR2
FUS
FOXP1
FLG
TOP1
MUC1
TCP11L2
COX6C
MYST4
MUC17
CAMTA1
C3orf70
CUX1
CAP2
表2癌症驱动基因(CCG La)
14/14
基因(HGNC符号)
TRAF3
MKL1
CCNE1
TSHR
AMER1
CCDC120
CHD4
TAP1
表3药物基因组学(Pharm)
1/28
基因(HGNC符号)
A2M
ABAT
ABCA1
ABCA12
ABCA3
ABCA8
ABCB1
ABCB11
ABCB4
ABCB5
ABCB6
ABCB9
ABCC1
ABCC10
ABCC11
ABCC2
ABCC3
ABCC4
ABCC5
ABCC6
ABCC8
ABCC9
ABCD1
ABCD2
ABCG1
ABCG2
ABCG8
ABL1
ABO
ACBD4
ACE
ACE2
ACHE
ACP5
ACSS2
ACTG1
ACY3
ACYP2
ADA
ADAM12
ADAM33
ADAMTS1
ADAMTS14
ADCK4
ADCY2
表3药物基因组学(Pharm)
2/28
基因(HGNC符号)
ADCY9
ADD1
ADH1A
ADH1B
ADH1C
ADH7
ADIPOQ
ADK
ADM
ADORA1
ADORA2A
ADORA2A-AS1
ADRA1A
ADRA2A
ADRA2B
ADRA2C
ADRB1
ADRB2
ADRB3
ADRBK2
AFAP1L1
AGAP1
AGBL4
AGO1
AGT
AGTR1
AGXT
AHR
AIDA
AK4
AKR1C3
AKR1C4
AKR7A2
AKT1
AKT2
ALDH1A1
ALDH1A2
ALDH2
ALDH3A1
ALDH5A1
ALG10
ALOX12
ALOX15
ALOX5
ALOX5AP
AMHR2
AMPD1
ANGPT2
ANGPTL4
ANKFN1
表3药物基因组学(Pharm)
3/28
基因(HGNC符号)
ANKK1
ANKRD55
ANKS1B
ANXA11
AOX1
APBB1
APEH
APLF
APOA1
APOA4
APOA5
APOB
APOBEC2
APOC1
APOC3
APOE
APOH
AQP2
AQP9
ARAP1
ARAP2
AREG
ARG1
ARHGEF10
ARHGEF4
ARID5B
ARMS2
ARNT
ARNTL
ARRB2
ARVCF
AS3MT
ASIC2
ASPH
ASS1
ATF3
ATG16L1
ATG5
ATIC
ATM
ATP2B1
ATP5E
ATP7A
ATP7B
AXIN2
B4GALT2
BACH1
BAD
BAG6
BAZ2B
表3药物基因组学(Pharm)
4/28
基因(HGNC符号)
BCAP31
BCHE
BCL2
BCL2L11
BCR
BDKRB1
BDKRB2
BDNF
BDNF-AS
BGLAP
BLK
BLMH
BMP5
BMP7
BRAF
BRD2
BTG4
BTRC
C10orf107
C10orf11
C11orf30
C11orf65
C12orf40
C17orf51
C18orf21
C18orf56
C1orf167
C2
C20orf194
C3
C5
C5orf22
C8orf34
C9orf72
CA10
CA12
CACNA1A
CACNA1C
CACNA1E
CACNA1H
CACNA1S
CACNB2
CACNG2
CALU
CAMK1D
CAMK2N1
CAMK4
CAP2
CAPG
CAPN10
表3药物基因组学(Pharm)
5/28
基因(HGNC符号)
CAPZA1
CARD16
CARTPT
CASP1
CASP3
CASP7
CASP9
CASR
CAT
CBR1
CBR3
CBS
CCDC22
CCHCR1
CCL2
CCL21
CCND1
CCNH
CCNY
CCR5
CD14
CD28
CD38
CD3EAP
CD40
CD58
CD69
CD74
CD84
CDA
CDC5L
CDCA3
CDH13
CDH4
CDK1
CDK4
CDK9
CDKAL1
CDKN2B-AS1
CELF4
CELSR2
CEP68
CEP72
CERKL
CERS6
CES1
CES1P1
CES2
CETP
CFAP44
表3药物基因组学(Pharm)
6/28
基因(HGNC符号)
CFB
CFH
CFI
CFLAR
CFTR
CHAT
CHIA
CHIC2
CHL1
CHRM2
CHRM3
CHRM4
CHRNA1
CHRNA3
CHRNA4
CHRNA5
CHRNA7
CHRNB1
CHRNB2
CHRNB3
CHRNB4
CHST13
CHST3
CHUK
CLASP1
CLCN6
CLMN
CLNK
CLOCK
CMPK1
CNKSR3
CNOT1
CNPY4
CNR1
CNTF
CNTN4
CNTN5
CNTNAP2
COL18A1
COL1A1
COL1A2
COL22A1
COL26A1
COLEC10
COMT
COQ2
CPA2
CPS1
CR1
CR1L
表3药物基因组学(Pharm)
7/28
基因(HGNC符号)
CREB1
CRH
CRHR1
CRHR2
CRP
CRTC2
CRY1
CSK
CSMD1
CSMD2
CSMD3
CSNK1E
CSPG4
CSRNP3
CSRP3
CST5
CTH
CTLA4
CTNNA2
CTNNA3
CTNNB1
CUX1
CUX2
CXCL10
CXCL12
CXCL5
CXCL8
CXCR2
CXCR4
CXXC4
CYB5A
CYB5R3
CYBA
CYCSP5
CYP11B2
CYP19A1
CYP1A1
CYP1A2
CYP1B1
CYP24A1
CYP27B1
CYP2A6
CYP2B6
CYP2B7P1
CYP2C18
CYP2C19
CYP2C8
CYP2C9
CYP2D6
CYP2E1
表3药物基因组学(Pharm)
8/28
基因(HGNC符号)
CYP2J2
CYP2R1
CYP39A1
CYP3A
CYP3A4
CYP3A43
CYP3A5
CYP3A7
CYP4A11
CYP4B1
CYP4F11
CYP4F2
CYP51A1
CYP7A1
DAOA
DAPK1
DBH
DCAF4
DCBLD1
DCK
DCP1B
DCTD
DDC
DDHD1
DDRGK1
DDX20
DDX53
DDX58
DEAF1
DGCR5
DGKH
DGKI
DHFR
DHODH
DIAPH3
DIO1
DIO2
DKK1
DLEU7
DLG5
DLGAP1
DMPK
DNAH12
DNAJB13
DNMT3A
DOCK4
DOK5
DOT1L
DPP4
DPYD
表3药物基因组学(Pharm)
9/28
基因(HGNC符号)
DPYS
DRD1
DRD2
DRD3
DRD4
DROSHA
DSCAM
DTNBP1
DUSP1
DUX1
DYNC2H1
E2F7
EBF1
ECT2L
EDN1
EGF
EGFR
EGLN3
EHF
EIF2AK4
EIF3A
EIF4E2
ENG
ENOSF1
EPAS1
EPB41
EPHA5
EPHA6
EPHA8
EPHX1
EPM2A
EPM2AIP1
EPO
ERAP1
ERBB2
ERCC1
ERCC2
ERCC3
ERCC4
ERCC5
ERCC6L2
EREG
ERICH3
ESR1
ESR2
ETS2
EXO1
F11
F12
F13A1
表3药物基因组学(Pharm)
10/28
基因(HGNC符号)
F2
F3
F5
F7
FAAH
FABP1
FABP2
FADS1
FAM19A5
FAM65B
FARS2
FAS
FASLG
FASTKD3
FAT1
FBXL17
FBXL19
FCAR
FCER1A
FCER1G
FCER2
FCGR2A
FCGR2B
FCGR3A
FDPS
FEN1
FGD4
FGF2
FGF5
FGFBP1
FGFBP2
FGFR2
FGFR4
FHIT
FKBP5
FLOT1
FLT1
FLT3
FLT4
FMO1
FMO2
FMO3
FMO5
FNTB
FOLH1
FOLR3
FOXC1
FOXP3
FPGS
FSHR
表3药物基因组学(Pharm)
11/28
基因(HGNC符号)
FSIP1
FSTL5
FTO
FYN
FZD3
FZD4
G6PD
GABRA1
GABRA3
GABRA6
GABRB1
GABRB2
GABRG2
GABRG3
GABRP
GABRQ
GAD2
GADL1
GAL
GALNT14
GALNT18
GALNT2
GALR1
GAPDHP64
GAPVD1
GATA3
GATA4
GATM
GBP6
GCG
GCKR
GCLC
GDNF
GEMIN4
GFRA2
GGCX
GGH
GHSR
GIPR
GJA1
GLCCI1
GLDC
GLP1R
GLRB
GNAS
GNB3
GNMT
GP1BA
GP6
GPR1
表3药物基因组学(Pharm)
12/28
基因(HGNC符号)
GPR83
GPX1
GPX3
GPX5
GRIA1
GRIA3
GRID2
GRIK1
GRIK2
GRIK3
GRIK4
GRIN1
GRIN2A
GRIN2B
GRIN3A
GRK4
GRK5
GRM3
GRM7
GSK3B
GSR
GSTA1
GSTA2
GSTA5
GSTM1
GSTM3
GSTM4
GSTP1
GSTT1
GSTZ1
H19
HAS3
HCG22
HCP5
HDAC1
HES6
HFE
HIF1A
HLA-A
HLA-B
HLA-C
HLA-DOB
HLA-DPA1
HLA-DPB1
HLA-DPB2
HLA-DQA1
HLA-DQB1
HLA-DRA
HLA-DRB1
HLA-DRB3
表3药物基因组学(Pharm)
13/28
基因(HGNC符号)
HLA-DRB5
HLA-E
HLA-G
HMGB1
HMGB2
HMGCR
HNF1A
HNF1B
HNF4A
HNMT
HOMER1
HOTAIR
HOTTIP
HRH1
HRH2
HRH3
HRH4
HS3ST4
HSD11B1
HSD3B1
HSPA1A
HSPA1L
HSPA5
HSPG2
HTR1A
HTR1B
HTR1D
HTR2A
HTR2C
HTR3A
HTR3B
HTR5A
HTR6
HTR7
HTRA1
HUS1
HYKK
IBA57
IDO1
IFIT1
IFNAR1
IFNB1
IFNG
IFNGR1
IFNGR2
IFNL3
IFNL4
IGF1
IGF1R
IGF2BP2
表3药物基因组学(Pharm)
14/28
基因(HGNC符号)
IGF2R
IGFBP3
IGFBP7
IKBKG
IKZF3
IL10
IL11
IL12A
IL12B
IL13
IL16
IL17A
IL17F
IL17RA
IL18
IL1A
IL1B
IL1RN
IL2
IL21R
IL23R
IL27
IL2RA
IL2RB
IL3
IL4
IL4R
IL6
IL6R
IL6ST
IL7R
ILKAP
IMPA2
IMPDH1
IMPDH2
INSIG2
INSR
IP6K2
IRS1
ITGA1
ITGA2
ITGA9
ITGB1
ITGB3
ITGBL1
ITIH3
ITPA
ITPKC
JAK2
KANSL1
表3药物基因组学(Pharm)
15/28
基因(HGNC符号)
KCNE1
KCNH2
KCNH7
KCNIP1
KCNIP4
KCNJ1
KCNJ11
KCNJ6
KCNMA1
KCNMB1
KCNQ1
KCNQ5
KCNT1
KCNT2
KDM4A
KDR
KIAA0391
KIF6
KIR2DL2
KIRREL2
KIT
KL
KLC1
KLC3
KLRC1
KLRD1
KLRK1
KRAS
KYNU
LAMB3
LARP1B
LCE3B
LCE3C
LDLR
LECT2
LEP
LEPR
LGALS3
LGR5
LIG3
LINC00251
LINC00478
LIPC
LPA
LPHN3
LPIN1
LPL
LRP1
LRP1B
LRP2
表3药物基因组学(Pharm)
16/28
基因(HGNC符号)
LRP5
LRRC15
LST1
LTA
LTA4H
LTB
LTC4S
LUC7L2
LYN
LYRM5
MAD1L1
MAFB
MAFK
MALAT1
MAML3
MAN1B1
MAP3K1
MAP3K5
MAP4K4
MAPK1
MAPK14
MAPT
March1
MC1R
MC4R
MCPH1
MDGA2
MDM2
MDM4
MECP2
MED12L
MEG3
MET
METTL21A
MEX3C
MGAT4A
MGMT
MIA3
MICA
MICB
MIR1206
MIR1307
MIR133B
MIR146A
MIR2053
MIR27A
MIR300
MIR423
MIR4278
MIR449B
表3药物基因组学(Pharm)
17/28
基因(HGNC符号)
MIR492
MIR577
MIR595
MIR604
MIR611
MIR618
MIR7-2
MISP
MLLT3
MLN
MME
MMP1
MMP10
MMP2
MMP3
MMP9
MOB3B
MOCOS
MOV10
MPO
MPZ
MS4A2
MSH2
MSH3
MSH6
MT-RNR1
MTCL1
MTHFD1
MTHFR
MTMR12
MTOR
MTR
MTRF1L
MTRR
MTTP
MUC5B
MUTYH
MVK
MYC
MYLIP
MYOCD
N6AMT1
NALCN
NANOGP6
NAT1
NAT2
NAV2
NBAS
NBEA
NCF4
表3药物基因组学(Pharm)
18/28
基因(HGNC符号)
NCOA1
NCOA3
NEDD4
NEDD4L
NEFM
NELFCD
NELL1
NEUROD1
NFATC1
NFATC2
NFE2L2
NFKB1
NFKBIA
NGF
NGFR
NLGN1
NLRP3
NLRP8
NOD2
NOS1AP
NOS2
NOS3
NPAS3
NPC1L1
NPHS1
NPPA
NPPA-AS1
NQO1
NQO2
NR1D1
NR1H3
NR1I2
NR1I3
NR3C1
NR3C2
NRAS
NRG1
NRG3
NRP1
NRP2
NRXN1
NT5C1A
NT5C2
NT5C3A
NT5E
NTRK1
NTRK2
NUBPL
NUDT15
NUMA1
表3药物基因组学(Pharm)
19/28
基因(HGNC符号)
OAS1
OASL
OCRL
OPN1SW
OPRD1
OPRK1
OPRM1
OR10AE3P
OR4D6
OR52E2
OR52J3
ORM1
ORM2
ORMDL3
OSMR
OTOS
OXT
P2RY1
P2RY12
PACSIN2
PADI4
PAPD7
PAPLN
PAPPA2
PARD3B
PARP11
PAX4
PCK1
PCSK9
PDCD1LG2
PDE4B
PDE4C
PDE4D
PDGFRA
PDGFRB
PDLIM5
PDZRN3
PEAR1
PEMT
PER2
PER3
PGLYRP4
PGR
PHACTR1
PHB2
PHTF1
PI4KA
PICALM
PICK1
PIGB
表3药物基因组学(Pharm)
20/28
基因(HGNC符号)
PIK3CA
PIK3R1
PITPNM2
PKLR
PLA2G4A
PLAGL1
PLCB1
PLCD3
PLCG1
PLEKHH2
PLEKHN1
PLG
PLXNB3
PMCH
POLA2
POLG
POLR3G
POMT2
PON1
PON2
POR
POU2F1
POU2F2
POU5F1
PPARA
PPARD
PPARG
PPARGC1A
PPFIA1
PPM1A
PPP1R13L
PPP1R1C
PPP2R5E
PRB2
PRCP
PRDM1
PRDM16
PRDX4
PRIMPOL
PRKAA1
PRKAA2
PRKCA
PRKCB
PRKCE
PRKCQ
PRKG1
PROC
PROCR
PROM1
PROS1
表3药物基因组学(Pharm)
21/28
基因(HGNC符号)
PROX1
PRRC2A
PRSS53
PSMA4
PSMB3P
PSMB4
PSMB8
PSMD14
PSORS1C1
PSORS1C3
PSRC1
PTCHD1
PTEN
PTGER2
PTGER3
PTGER4
PTGES
PTGFR
PTGIR
PTGS1
PTGS2
PTH
PTH1R
PTPN22
PTPRC
PTPRD
PTPRM
PTPRN2
PYGL
RAB27A
RABEPK
RAC2
RAD18
RAD52
RAF1
RALBP1
RAPGEF5
RARG
RARS
RBFOX1
RBMS3
REEP5
REL
REN
REPS1
RET
REV1
REV3L
RFK
RGS17
表3药物基因组学(Pharm)
22/28
基因(HGNC符号)
RGS2
RGS4
RGS5
RHBDF2
RHOA
RICTOR
RND1
RNFT2
RORA
RPL13
RRAS2
RRM1
RRM2
RRM2B
RSBN1
RSRP1
RUNX1
RXRA
RYR1
RYR2
RYR3
SACM1L
SCAP
SCARB1
SCGB3A1
SCN10A
SCN1A
SCN2A
SCN4A
SCN5A
SCN8A
SCN9A
SCNN1B
SCNN1G
SELE
SELP
SEMA3C
SERPINA3
SERPINA6
SERPINE1
SERPINF1
SERPING1
SETD4
SFRP5
SH2B3
SH2D5
SH3BP2
SHMT1
SIK3
SIN3A
表3药物基因组学(Pharm)
23/28
基因(HGNC符号)
SKIV2L
SKOR2
SLC10A2
SLC12A3
SLC12A8
SLC14A2
SLC15A1
SLC15A2
SLC16A5
SLC16A7
SLC17A3
SLC18A2
SLC19A1
SLC1A1
SLC1A2
SLC1A3
SLC1A4
SLC22A1
SLC22A11
SLC22A12
SLC22A16
SLC22A17
SLC22A2
SLC22A3
SLC22A4
SLC22A5
SLC22A6
SLC22A7
SLC22A8
SLC24A4
SLC25A13
SLC25A14
SLC25A27
SLC25A31
SLC26A9
SLC28A1
SLC28A2
SLC28A3
SLC29A1
SLC2A1
SLC2A2
SLC2A9
SLC30A8
SLC30A9
SLC31A1
SLC37A1
SLC39A14
SLC47A1
SLC47A2
SLC5A2
表3药物基因组学(Pharm)
24/28
基因(HGNC符号)
SLC5A7
SLC6A12
SLC6A2
SLC6A3
SLC6A4
SLC6A5
SLC6A9
SLC7A5
SLC7A8
SLCO1A2
SLCO1B1
SLCO1B3
SLCO1C1
SLCO2B1
SLCO3A1
SLCO4C1
SLCO6A1
SLIT1
SMARCAD1
SMYD3
SNAP25
SNORA59B
SNORD68
SOCS3
SOD2
SOD3
SORT1
SOX10
SP1
SPARC
SPATS2L
SPECC1L
SPG7
SPIDR
SPINK5
SPP1
SPTA1
SQSTM1
SREBF1
SREBF2
SRP19
SRR
ST13
STAT3
STAT4
STAT6
STIM1
STIP1
STK39
STMN1
表3药物基因组学(Pharm)
25/28
基因(HGNC符号)
STMN2
STX1B
STX4
SUGCT
SULT1A1
SULT1A2
SULT1C4
SULT1E1
SULT2B1
SV2C
SYN3
SYNE3
SZRD1
T
TAAR6
TAC1
TAGAP
TANC1
TANC2
TAP1
TAP2
TAPBP
TAS2R16
TBC1D1
TBC1D32
TBX21
TBXA2R
TBXAS1
TCF19
TCF7L2
TCL1A
TDP1
TDRD6
TERT
TET2
TF
TGFB1
TGFBR2
TGFBR3
TH
THBD
THRA
THRB
TIGD1
TK1
TLR2
TLR3
TLR4
TLR5
TLR7
表3药物基因组学(Pharm)
26/28
基因(HGNC符号)
TLR9
TMCC1
TMCO6
TMEFF2
TMEM205
TMEM258
TMEM57
TMPRSS11E
TNF
TNFAIP3
TNFRSF10A
TNFRSF11A
TNFRSF11B
TNFRSF1A
TNFRSF1B
TNFSF10
TNFSF11
TNFSF13B
TNRC6A
TNRC6B
TOLLIP
TOMM40
TOMM40L
TOP1
TOP2B
TP53
TPH1
TPH2
TPMT
TRAF1
TRAF3IP2
TRIB3
TRIM5
TRPM6
TSC1
TSPAN5
TTC6
TUBB1
TUBB2A
TXNRD2
TYMP
TYMS
UBASH3B
UBE2I
UCP2
UCP3
UGGT2
UGT1A
UGT1A1
UGT1A10
表3药物基因组学(Pharm)
27/28
基因(HGNC符号)
UGT1A3
UGT1A4
UGT1A5
UGT1A6
UGT1A7
UGT1A8
UGT1A9
UGT2B10
UGT2B15
UGT2B17
UGT2B4
UGT2B7
ULK3
UMPS
UPB1
USH2A
USP24
USP5
UST
VAC14
VASP
VDR
VEGFA
VKORC1
WBP2NL
WBSCR17
WDR7
WIF1
WNK1
WNT5B
WT1
WWOX
XBP1
XDH
XPA
XPC
XPO1
XPO5
XRCC1
XRCC3
XRCC4
XRCC5
YAP1
YBX1
YEATS4
ZBTB22
ZBTB4
ZCCHC6
ZFP91-CNTF
ZMAT4
表3药物基因组学(Pharm)
28/28
基因(HGNC符号)
ZNF100
ZNF215
ZNF423
ZNF432
ZNF652
ZNF697
ZNF804A
ZNF816
ZNRD1-AS1
ZSCAN25
表4临床测试基因
1/37
基因(HGNC符号)
LMNA
PTEN
TP53
BRCA2
MLH1
MSH2
BRCA1
MSH6
FGFR3
MECP2
CFTR
RET
PTPN11
SCN5A
MYH7
CAV3
PMS2
KRAS
APC
ATM
ARX
DMD
DES
STK11
POLG
NF1
BRAF
TSC1
CDKL5
TSC2
TTN
COL2A1
FMR1
FKTN
KCNQ1
VHL
SLC2A1
FBN1
EPCAM
HRAS
PALB2
RAF1
TNNT2
CEP290
SMAD4
表4临床测试基因
2/37
基因(HGNC符号)
MUTYH
SCN1A
SCN1B
KCNJ2
RYR2
GLA
CDH1
NRAS
FKRP
KCNH2
LDB3
CACNA1A
MYBPC3
FGFR2
UBE3A
CACNA1C
GJB2
TAZ
SDHB
TNNI3
ACTC1
GAA
TCAP
CHEK2
LAMP2
COL1A1
TTR
DSP
HBB
SDHD
SOS1
NBN
COL1A2
TGFBR2
POMT1
TPM1
FLNA
KCNE1
PCDH19
MAP2K1
CHD7
FOXG1
SDHC
TGFBR1
RYR1
MTHFR
SGCD
CDKN2A
PMP22
POMT2
表4临床测试基因
3/37
基因(HGNC符号)
FH
WT1
EMD
SCN4A
FGFR1
PLP1
PAX6
POMGNT1
TMEM43
MEN1
PKP2
SLC9A6
RHO
F5
GCK
BRIP1
TRIM32
DSG2
RAD51C
TRPV4
SCN2A
CPT2
KCNE2
GJB6
COL3A1
MAP2K2
NPHP1
DNM2
BMPR1A
PRKAG2
ACADM
OFD1
MYOT
CASQ2
HEXA
DSC2
MEF2C
HFE
CLN3
PTCH1
CRYAB
JUP
PLN
MED12
ZEB2
FHL1
ABCC8
F2
ACADVL
BAG3
表4临床测试基因
4/37
基因(HGNC符号)
ATP7A
CASR
SCN9A
BSCL2
PDHA1
SHOC2
ETFDH
KCNQ2
HADHA
TNNC1
PRRT2
TPP1
ANO5
COL5A1
ETFB
MPZ
ETFA
ACTA1
PPT1
CASK
STXBP1
ABCD1
KCNJ11
ATRX
GNAS
ABCA4
DYSF
ABCC9
TCF4
BLM
SLC22A5
SDHA
MYH6
HCN4
ATP7B
PLA2G6
FANCC
MYL2
CBS
ANK2
KCNE3
MYL3
CLN5
DCX
PANK2
ALDH7A1
NKX2-5
GBA
TIMM8A
PNKP
表4临床测试基因
5/37
基因(HGNC符号)
ACTA2
WFS1
MFN2
FOLR1
JAG1
SMN1
SMARCB1
L1CAM
GPC3
KIT
NSD1
OPA1
DHCR7
NF2
SGCA
MITF
CLRN1
TPM2
SPRED1
MKS1
NIPBL
AGL
OTC
RB1
CSRP3
GLB1
TMEM67
CLN6
HNF1B
SMC1A
SCN4B
CACNB2
ACVRL1
DLD
CBL
FXN
ARSA
PSEN1
COL6A3
LAMA2
SMAD3
ENG
PRPS1
ACTN2
TWNK
CAPN3
GDAP1
COL5A2
EYA1
PCDH15
表4临床测试基因
6/37
基因(HGNC符号)
GCH1
SURF1
SGCB
SCN3B
TMEM216
PITX2
COL6A1
PEX1
MYH11
VCL
NOTCH3
LARGE1
SLC26A4
CLN8
BTD
GAMT
USH2A
MYH9
AR
NPC1
TERT
GABRG2
GCDH
HNF1A
FLNC
IDS
COL6A2
BBS1
RPGR
FLCN
GNE
RPGRIP1L
MEFV
CALM1
CDKN1C
MFSD8
PRPH2
SMPD1
OPHN1
CNTNAP2
BCKDHB
PLOD1
PLEC
CREBBP
SDHAF2
ARHGEF9
AKAP9
RAD51D
NEB
OPA3
表4临床测试基因
7/37
基因(HGNC符号)
MBD5
NPC2
MYO7A
CTSD
VPS13B
GALC
KCNJ5
PAFAH1B1
PYGM
GRN
ASPA
CDK4
PEX7
MET
FBN2
CC2D2A
GARS
NRXN1
PIK3CA
COL11A2
HTT
SLC26A2
SETX
NEXN
TGFB3
SELENON
KCNJ10
CPT1A
HPRT1
ELN
UGT1A1
WAS
OCRL
KCND3
MUT
VCP
HADHB
GPD1L
KCNQ3
SUCLA2
SCO2
FTL
EGR2
PMM2
ALPL
SNTA1
BBS2
G6PC
HADH
PKD2
表4临床测试基因
8/37
基因(HGNC符号)
PKHD1
COQ2
MMACHC
GJB1
BEST1
SGCG
BCKDHA
LDLR
NPHP3
SLC25A20
ACADS
DYNC1H1
KCTD7
MAPT
FIG4
TREX1
MMAB
PQBP1
GRIN2A
COL4A5
MMAA
MKKS
RPE65
GBE1
NDP
HSD17B10
GATA1
APOB
TTC8
SPG7
PDX1
GABRA1
APTX
IKBKAP
NEFL
PEX6
COL11A1
TBC1D24
TGFB2
CRX
APOE
GUCY2D
PHOX2B
ISPD
ATP1A2
ATP13A2
ATL1
SYNE1
ATXN2
SLC6A8
表4临床测试基因
9/37
基因(HGNC符号)
ALMS1
HNF4A
AHI1
ACAD9
PRKAR1A
SNRPN
COL4A1
NOTCH1
SLC25A22
GLDC
ADGRV1
GALT
PEX26
TRDN
PHF6
PNPO
KCNT1
MTM1
COX15
SLC4A1
RRM2B
PRSS1
TPM3
BBS10
BAP1
BCS1L
CDH23
MRE11
PCCA
TBX5
MPL
PAH
SPTAN1
SCN8A
AMT
ASS1
PSEN2
CACNA1S
USH1C
FANCA
CYP21A2
FGD1
PEX12
SLC2A10
WDR62
FAH
GLI3
RUNX1
ANKRD1
GNPTAB
表4临床测试基因
10/37
基因(HGNC符号)
SLC25A4
SERPINA1
RELN
BARD1
RAPSN
DKC1
CSTB
SGCE
F8
KCNJ8
MYPN
MVK
PEX10
REEP1
CRB1
CHRNA1
RBM20
PCCB
BCOR
NLRP3
HBA1
EPM2A
SKI
GATA2
MYLK
FANCB
TYR
ABCB4
C12orf65
PEX2
LRP5
TTC21B
SLC25A13
HSPB1
HSPB8
MPV17
SPAST
SLC37A4
IQCB1
IDUA
EYA4
KCNA1
PGK1
CYP1B1
WHRN
SMARCA4
TERC
ADSL
DMPK
ATXN1
表4临床测试基因
11/37
基因(HGNC符号)
ATP6AP2
SYNGAP1
RDH12
TARDBP
KMT2D
PRKN
NPHP4
TK2
NHLRC1
GJA1
SUCLG1
GATA4
NDUFA1
COL4A3
ATXN3
VWF
TH
DBT
KIF1A
MMADHC
MID1
PKD1
AP3B1
CHRNA4
DNAJB6
APP
SHH
FA2H
CHRNB2
EDN3
SLC16A2
ELANE
FUS
INS
RPS6KA3
INVS
MYOZ2
TNNT1
ALK
TMEM70
CACNB4
JAK2
CNGB3
SPINK1
AGXT
PAX3
MCOLN1
PEX5
ASPM
DGUOK
表4临床测试基因
12/37
基因(HGNC符号)
IGHMBP2
CFH
SOD1
TUBA1A
DOLK
PROM1
SYN1
HMGCL
KDM5C
RAB39B
DNAJC5
AUH
SHOX
ATXN7
CENPJ
SRPX2
SOX10
CYP2D6
DCTN1
TBX1
ALDOB
ARL6
BBS12
COQ8A
TWIST1
RECQL4
OTX2
PC
DPAGT1
TP63
GP1BA
ARG1
POLD1
SACS
AKT1
PEX3
SMC3
OCA2
CYP2C19
RMRP
IL2RG
DNAH5
SPG11
NDRG1
COL4A4
FOXC1
BMPR2
MCCC2
MAX
F9
表4临床测试基因
13/37
基因(HGNC符号)
ERCC6
C9orf72
TYMP
RAI1
AIPL1
MCCC1
SLC25A19
COL9A1
BTK
P3H1
PDSS2
PCNT
NOTCH2
ATP8B1
ATP1A3
ETHE1
HEXB
SLC25A15
CP
COL9A2
CHRNA2
CHRNE
CUL4B
DOK7
CHRND
GUSB
SLC19A3
IVD
SH3TC2
EFHC1
IMPDH1
CRTAP
CYP27A1
HSPD1
SOX2
SDCCAG8
CYP2C9
ALS2
RPS19
GOSR2
RARS2
GFAP
PEX14
CYP11B1
GMPPB
BBS4
SGSH
GJC2
GLUD1
GATM
表4临床测试基因
14/37
基因(HGNC符号)
TMEM127
RPGRIP1
PDGFRA
LGI1
MT-ATP6
ADAMTS13
BBS5
WDR45
MTMR2
GATA6
BBS7
LITAF
POLG2
ABCB11
PRX
ALG2
ABCC6
RNASEH2B
FANCG
ADA
SIL1
RP2
RASA1
NTRK1
TNFRSF1A
SCNN1B
CHAT
USH1G
FLNB
DNAI1
CFL2
OPTN
NDUFS4
ARL13B
BBS9
TOR1A
LRPPRC
ATPAF2
SAMHD1
TSEN54
NPHS2
TSFM
HBA2
GALNS
FKBP14
CHST14
FOXRED1
TRPM4
NHS
RNASEH2A
表4临床测试基因
15/37
基因(HGNC符号)
RNASEH2C
ADGRG1
MT-RNR1
AGK
CEP152
ASL
SNCA
GRIN2B
DTNA
SIX1
CPS1
KIF7
AIFM1
PDHX
NAGLU
MT-TL1
NSDHL
HDAC8
HGSNAT
LRRK2
SBF2
RAB7A
SCNN1G
LRAT
DARS2
KIF5A
RIT1
PCSK9
GFM1
PINK1
NPHS1
ARSB
NDUFS7
POLE
PFKM
SCN2B
IDH2
FBLN5
INPP5E
PDSS1
GABRD
ATP6V0A2
PRICKLE1
ACAT1
SOX9
CACNA2D1
G6PD
SPG20
SCARB2
NLGN3
表4临床测试基因
16/37
基因(HGNC符号)
ANOS1
NLGN4X
GABRB3
HAX1
AFG3L2
GJB3
TINF2
KRIT1
GPR143
CDC73
EDNRB
MLYCD
AARS2
JAK3
SDHAF1
JPH2
NDUFV1
PEX13
PLCB1
ABHD12
PEX16
IRF6
SUMF1
BSND
DAG1
HLCS
ATR
EGFR
AFF2
EZH2
PEX19
ABCA3
PAK3
NDUFS1
PHYH
PRKCG
TMPO
TULP1
COMP
MPI
MYLK2
HESX1
YARS
BIN1
DPM3
LYST
AARS
SIX3
ACTG1
C19orf12
表4临床测试基因
17/37
基因(HGNC符号)
PDHB
COQ9
MLC1
NODAL
DPYD
CHM
DPM1
LIPA
SFTPC
DLAT
VRK1
TUBB2B
ATP6V1B1
HSD17B4
CERKL
EP300
SLC12A3
GATA3
FANCE
FGD4
CFI
SCN10A
COLQ
COX6B1
FKBP10
EXT1
ADAMTS2
SBDS
CD46
TGIF1
SALL1
ERCC4
KIF1B
SLC17A5
WNK1
KCNA5
ARFGEF2
FANCF
ELOVL4
SALL4
CYP7B1
KARS
GRIA3
ALDH5A1
SPR
CLCN1
HCCS
GNS
EIF2AK3
PUS1
表4临床测试基因
18/37
基因(HGNC符号)
PDE6B
PLOD2
PAX2
DHDDS
WDR19
ALG6
PPARG
VAPB
CHD2
RP1
PSAP
WRN
LMBRD1
INSR
CEBPA
LPIN1
SMS
MT-TK
PARK7
SUFU
UMOD
PRNP
AGA
RAD50
FUCA1
SLC39A13
NDUFA2
ISCU
MT-TS1
SEMA4A
FOXP3
TACO1
LIG4
AIRE
SRY
KBTBD13
EIF2B5
MT-ND1
IKBKG
DICER1
TRMU
MUSK
SLC25A3
OTOF
POMK
TBP
RAG2
UPF3B
EDA
RLBP1
表4临床测试基因
19/37
基因(HGNC符号)
RAB3GAP1
LAMB2
CEP41
RAD21
KDM6A
MCPH1
CABP4
SPATA7
MTRR
LAMA4
EFEMP2
NDUFS8
GALK1
SAG
LCA5
NR2E3
EXT2
GCSH
PPIB
PORCN
EHMT1
CTNNB1
CTNS
TFR2
C3
HCN1
EIF2B1
SLX4
POU3F4
WDPCP
INF2
LIAS
CHRNB1
ACTB
AP1S2
PHEX
SPTB
NEUROD1
RS1
NPPA
SOX3
FGF23
MAN2B1
DNAH11
ERCC2
DGKE
CCM2
NDUFAF2
EVC
RAG1
表4临床测试基因
20/37
基因(HGNC符号)
HPS1
NDUFS3
NDUFS2
ZIC2
FGF8
LPL
FASTKD2
TCTN2
CACNA1D
HPS4
CACNA1F
CLCN5
GJA5
SYP
GP1BB
FANCL
ACSL4
IDH1
CLCNKB
CISD2
ROR2
NEU1
GATAD1
MYH3
NDE1
PRPF31
ABCG5
NKX2-1
PGM1
TMEM237
FBP1
CDK5RAP2
NDUFAF5
ZFYVE26
DPM2
PHKA1
MT-ND6
STIL
TUBB3
BICD2
IQSEC2
SPTA1
ITGA7
QDPR
TJP2
PTS
EIF2B3
NOD2
GLRA1
CSF1R
表4临床测试基因
21/37
基因(HGNC符号)
PRF1
ATN1
PAX4
GPSM2
CHMP2B
CFB
EYS
FANCI
ST3GAL3
AGPAT2
PDP1
IL7R
HK1
PNPLA2
RAB27A
DCLRE1C
MC4R
GYS2
B9D1
SCNN1A
ANG
ENPP1
PRPF8
SFTPB
FANCM
AXIN2
LMX1B
NHEJ1
SYNE2
TTC19
PROP1
MAGT1
COL7A1
FANCD2
FSCN2
NDUFAF1
MT-ND4
KCNJ1
COL12A1
CNGA3
STAT3
TYRP1
NDUFS6
GUCA1B
SLC2A2
SIX5
ADAR
SLC33A1
CCDC39
AMACR
表4临床测试基因
22/37
基因(HGNC符号)
GAN
HFE2
B3GLCT
EFNB1
UQCRB
SLC12A6
FGA
HPS3
XRCC2
MTR
C8orf37
ACTN4
EVC2
THAP1
TRPS1
IDH3B
RUNX2
LAMB3
SH2D1A
GDI1
TMC1
DNMT1
PDCD10
MRPS22
LAMA3
TOPORS
CHKB
MTPAP
CYP17A1
POMGNT2
SLC12A1
ZIC3
GLI2
RD3
ALAS2
RPL35A
CNGB1
LDLRAP1
DEPDC5
THBD
DYRK1A
SLC19A2
DNAI2
PGAM2
PNKD
ASAH1
WDR35
VKORC1
DOCK8
PHGDH
表4临床测试基因
23/37
基因(HGNC符号)
SLC45A2
GP9
CCDC78
SPTLC1
IL1RAPL1
SLC35C1
UBE2A
NR0B1
CAVIN1
ACOX1
AGRN
CA4
COL9A3
CNGA1
LAMC2
DTNBP1
EIF2B2
TTPA
FLVCR1
MYH14
ERBB2
ITGB3
VLDLR
WASHC5
NDUFA11
C2orf71
PTCHD1
NRL
ALDH4A1
RSPH9
ATP5E
GK
CTDP1
ABL1
TCTN1
ANK1
CTSA
SLC40A1
AKT3
B4GAT1
ZMPSTE24
MERTK
EIF2B4
ERCC8
NUBPL
PPOX
PDLIM3
PNPLA6
TNXB
PRKG1
表4临床测试基因
24/37
基因(HGNC符号)
FOXH1
COG7
RPL11
GPHN
ABCG8
PDE6C
B4GALT7
G6PC3
GNA11
CLCN2
NME8
KCNJ13
HEPACAM
SLCO1B1
UQCRQ
NDUFAF4
TMEM138
MT-ND5
NDUFAF3
HMBS
NHP2
IFITM5
MBTPS2
SMN2
PDE6A
VSX2
MYO6
CPOX
ALG13
CCDC40
ALDH3A2
NIPA1
TSHR
ZNF423
SQSTM1
MOCS2
L2HGDH
SCO1
TUBB4A
TCOF1
MOCS1
MTO1
CIB2
HINT1
KIAA2022
ERCC3
PITX3
PRPF3
DNM1L
TCTN3
表4临床测试基因
25/37
基因(HGNC符号)
FHL2
CA2
GRHPR
PLEKHG5
CDON
KLHL40
TSEN2
SLC1A3
RGR
NEBL
C5orf42
HPS6
GFI1
MYCN
LZTR1
BRWD3
TSEN34
F11
SNRNP200
GNAT2
ALG1
TMEM126A
SP7
KLHL7
TUFM
DLG3
DNAAF2
DNAAF1
VPS13A
NOP10
TMEM5
MCEE
STXBP2
MED25
SHANK3
SLC3A1
TECTA
COX10
CHRNG
RDH5
CDHR1
PHF8
RPL5
MAOA
GFPT1
RAB3GAP2
CALM2
NAGS
POLR1C
HSD3B2
表4临床测试基因
26/37
基因(HGNC符号)
AMPD1
BUB1B
NEK8
TUBA8
B3GALNT2
FLT3
MATR3
KRT5
GDF6
GREM1
AVPR2
DNAL1
ZDHHC9
CTC1
ALDOA
NR5A1
CYBB
FTSJ1
BLOC1S3
EBP
DCAF17
SPG21
ACAD8
ABCB7
F12
GLRB
GLIS2
EXOSC3
HUWE1
BMP4
TMIE
GNPTG
RPS26
ITGA2B
LRSAM1
SLC6A3
ALDH18A1
SERPINC1
KLF11
F7
RPS10
WNT10A
NFIX
MGAT2
ACSF3
RBBP8
CFHR5
COQ6
UBQLN2
CDKN1B
表4临床测试基因
27/37
基因(HGNC符号)
SUOX
FAM126A
COG8
NDUFA10
SMARCE1
ALG8
GSS
EPB42
RPL10
DNAJC19
NAA10
KCNMA1
RPS24
STX11
ALG3
XK
MFRP
TMPRSS3
TSPAN7
SERPINH1
IMPG2
ALG12
SERPINE1
SLC16A1
TCIRG1
STIM1
ETV6
CLCN7
GDF2
SLC35A1
FAM161A
ARID1B
TMEM231
SLC35A2
NGF
COX4I2
POU1F1
GLIS3
TAF1
PNP
POMC
KIF1BP
BLK
YARS2
TCN2
UNC13D
HAMP
HOGA1
ACADSB
B4GALT1
表4临床测试基因
28/37
基因(HGNC符号)
MANBA
KAT6B
RSPH4A
ACE
EDAR
WWOX
FARS2
GNAQ
GNPAT
ANKH
ENO3
FRAS1
RANGRF
GALE
TREM2
CD3D
LEP
TFG
IER3IP1
DYNC2H1
NPM1
KMT2A
CD40LG
PYGL
MT-CYB
DFNB59
MRPS16
RTN2
KCNE5
MATN3
TAT
NDUFV2
CDAN1
STS
CAV1
B3GALT6
CTSK
CALR3
KCNV2
AP4M1
SERPING1
GYS1
HPS5
ST3GAL5
SLC6A5
ARID1A
PRKRA
COG1
COL4A2
EFEMP1
表4临床测试基因
29/37
基因(HGNC符号)
PIK3R2
MTFMT
SEPT9
FOXP1
NDUFAF6
ROM1
KRT14
SLC25A12
SEC23B
TNNI2
CD3E
HPD
PHKB
AIP
FZD4
XPNPEP3
CEP164
ITGB4
SLMAP
PABPN1
TBCE
GHR
NOG
CACNA2D4
ALG9
FOXL2
TYROBP
THRB
AP4E1
BDNF
AKT2
DSPP
MPDU1
EDARADD
TPMT
SPTBN2
BLOC1S6
FGF14
CTSF
PRCD
SRD5A3
PRPF6
TRAPPC11
PHKA2
COCH
AGPS
EARS2
FOXE3
IGBP1
RBP3
表4临床测试基因
30/37
基因(HGNC符号)
PKLR
PIGA
MAT1A
SPTLC2
CEP63
FBXO7
SETBP1
OTOA
RTEL1
PTF1A
LEPR
SMARCAL1
SCP2
PCBD1
DMP1
MOGS
CNTN1
TNPO3
POLR3A
SLC46A1
FOXI1
MYO15A
KCNQ4
MYOC
PYCR1
APOA5
GRHL2
POR
AICDA
KISS1R
PRDM16
ARSE
LHFPL5
PDE6G
HARS
SNAI2
VCAN
SMPX
CSF3R
COL17A1
LOXHD1
MTTP
SERPINF1
PROKR2
GNRHR
D2HGDH
B9D2
ZAP70
AP5Z1
CTNNA3
表4临床测试基因
31/37
基因(HGNC符号)
CSF2RA
SLC34A3
ZNF513
TNFRSF11A
CTRC
RP9
HSPG2
KANSL1
RPS7
TRIOBP
CEL
SHROOM4
SLC7A7
RFT1
ADAMTSL4
ABCA12
ABAT
LPIN2
ERCC5
HGF
PROC
LHX4
ROGDI
ABCA1
DIABLO
ESCO2
PRDM5
PHKG2
FREM1
PRODH
DIS3L2
RDX
WRAP53
MC1R
ACVR1
ZNF711
IFT80
ACVR2B
EFTUD2
LTBP2
MEGF10
RAB18
CLDN14
FLT4
CCT5
SRCAP
ESRRB
PDZD7
NEK1
NR3C2
表4临床测试基因
32/37
基因(HGNC符号)
TBX20
DNAJB2
FAS
ATXN10
CFHR1
GDF5
PSTPIP1
ARHGEF6
TDP1
GUCA1A
OXCT1
PPP2R2B
AQP2
TRPC6
MARVELD2
FECH
OAT
PEX11B
PRICKLE2
APOC2
PDGFRB
CACNA1H
LHCGR
SARS2
LRTOMT
COL10A1
XIAP
UNG
MGME1
SLC26A5
CYBA
PITPNM3
PTH1R
TIMP3
DRD2
PDE6H
ALX4
TXNRD2
OBSL1
ORC1
GH1
CSPP1
LEFTY2
CCDC50
ABCD4
DIAPH1
CDH3
CHCHD10
PAX8
GDNF
表4临床测试基因
33/37
基因(HGNC符号)
MT-CO1
HARS2
HTRA1
BMP1
MSRB3
ZDHHC15
CAVIN4
AP4S1
CFHR3
ACADL
NDUFA9
MSX1
MYO3A
CYP11B2
CTF1
MAK
AP4B1
IFT122
ABHD5
MARS
A2ML1
CHST3
CYLD
GDF1
XPA
MT-TH
TPRN
MT-TQ
POU4F3
XPC
GRIN1
GIPC3
CYP27B1
POLR1D
LHX3
TGFB1
TOR1AIP1
CNBP
GM2A
DDHD2
TRPM1
BCKDK
DNAAF3
HSD11B2
ADAM9
CLCNKA
NDUFB3
LAS1L
MAGI2
ANKRD11
表4临床测试基因
34/37
基因(HGNC符号)
NMNAT1
ZFYVE27
DNMT3A
PROK2
SMARCA2
GFER
POLR3B
NDUFA12
PLCE1
STRA6
EMX2
HMGCS2
ASCL1
COMT
PROS1
KCNC3
ILK
FGB
C10orf11
ILDR1
ANKRD26
GRXCR1
SZT2
HNRNPDL
KIF11
FGG
DDC
TTBK2
FREM2
ZNF469
TUSC3
TFAP2A
DLL3
CLIC2
GDF3
MT-TS2
CYP3A5
AHCY
LDHA
SLC52A3
PRKCSH
ACY1
ACO2
KCNK3
AMER1
WNT1
MARS2
NYX
VPS35
UROS
表4临床测试基因
35/37
基因(HGNC符号)
COG6
REN
AVP
MTOR
TBX3
RBM10
PFN1
TPO
MYBPC1
SERPINB6
PTPRC
H19
ABCB6
WNT7A
MYO5A
CCDC88C
ATP6V0A4
OSTM1
SRD5A2
CDT1
DFNA5
ESPN
MYF6
USB1
DDOST
CRYM
APOA1
ATXN8OS
AGTR2
SLC17A8
MSX2
DST
LTBP4
KLHL3
AAAS
RFX6
LBR
CYP3A4
F13A1
RAX2
RAC2
PREPL
ERLIN2
ANK3
NFU1
LRP4
TNFRSF13B
TNFSF11
SNAP29
LAMC3
表4临床测试基因
36/37
基因(HGNC符号)
RBM8A
ORC6
GRM6
COG5
ORC4
PDYN
CRELD1
SLC5A7
ITGA3
SPINK5
WNT4
ENAM
C1QTNF5
PDK3
HTRA2
GNB4
WNK4
COG4
MT-TI
HSPB3
MT-TL2
HCFC1
POT1
ICOS
SIGMAR1
ATP2A1
GNAT1
SOS2
CTSC
FOXP2
TMEM165
CXCR4
SH3BP2
TACR3
CFC1
ABCC2
DNAJC6
DHODH
CPA6
AK2
HOXD13
VPS45
PLOD3
KRT1
MT-ATP8
DNAAF5
TGM1
TSPAN12
IFT172
CD2AP
表4临床测试基因
37/37
基因(HGNC符号)
MRPL3
LIFR
RIMS1
CNNM4
CDC6
F10
FOXC2
STAT5B
PIK3R1
ORAI1
ZNF81
ZFP57
CYP24A1
GLE1
COL18A1
TIA1
RPL26
GNAO1
LCAT
VDR
ANO10
TNNT3
LZTFL1
COL4A6
SHANK2
参考文献
Aoki等人,“The RAS/MAPK Syndromes:Novel Roles of the RAS Pathway in HumanGenetic Disorders,”Human Mutation,2008.
KARCZEWSKI等人,“Analysis of protein-coding genetic variation in 60,706humans,”Nature,2016.
LANDRUM等人,“ClinVar:public archive of interpretations of clinicallyrelevant variants,”Nucleic Acids Res.,2015.
MAXWELL等人,“Evaluation of ACMG-Guideline-Based Variant Classification ofCancer Susceptibility and Non-Cancer-Associated Genes in Families Affected byBreast Cancer,”Am.J.Hum.Genet.,2016.
MYERS等人,“The lipid phosphatase activity of PTEN is critical for itstumor supressor function,”Proc.Natl.Acad.Sci.U.S.A.,1998.
MYERS等人,“P-TEN,the tumor suppressor from human chromosome 10q23,is adual-specificity phosphatase,”Proc.Natl.Acad.Sci.U.S.A.,1997.
HE等人,“Cowden syndrome-related mutations in PTEN associate with enhancedproteasome activity,”Cancer Res.,2013.
HEIKKINEN等人,“Variants on the promoter region of PTEN affect breastcancer progression and patient survival,”Breast Cancer Res.,2011.
JOHNSTON等人,“Conformational stability and catalytic activity of PTENvariants linked to cancers and autism spectrum disorders,”Biochemistry,2015.
MARKKANEN等人,“DNA Damage and Repair in Schizophrenia and Autism:Implications for Cancer Comorbidity and Beyond,”Int.J.Mol.Sci.,2016.
SCHARNER等人,“Genotype–phenotype correlations in laminopathies:how doesfate translate?,”Biochem.Soc.Trans.,2010.
ARAYA等人,“Deep mutational scanning:assessing protein function on amassive scale,”Trends Biotechnol.,2011.
SHENDURE等人,“Massively Parallel Genetics,”Genetics,2016.
KELSIC等人,“RNA Structural Determinants of Optimal Codons Revealed byMAGE-Seq,”Cell Syst,2016.
PATWARDHAN等人,“High-resolution analysis of DNA regulatory elements bysynthetic saturation mutagenesis,”Nat.Biotechnol.,2009.
BUENROSTRO等人,“Quantitative analysis of RNA-protein interactions on amassively parallel array reveals biophysical and evolutionary landscapes,”Nat.Biotechnol.,2014.
GUENTHER等人,“Hidden specificity in an apparently nonspecific RNA-bindingprotein,”Nature,2013.
ARAYA等人,“A fundamental protein property,thermodynamic stability,revealed solely from large-scale measurements of protein function,”Proc.Natl.Acad.Sci.U.S.A.,2012.
FOWLER等人,“High-resolution mapping of protein sequence-functionrelationships,”Nat.Methods,2010.
MAJITHIA等人,“Prospective functional classification of all possiblemissense variants in PPARG,”Nat.Genet.,2016.
STARITA等人,“Massively Parallel Functional Analysis of BRCA1 RING DomainVariants,”Genetics,2015.
BUENROSTRO等人,“Single-cell chromatin accessibility reveals principles ofregulatory variation,”Nature,2015.
CUSANOVICH等人,“Multiplex single-cell profiling of chromatinaccessibility by combinatorial cellular indexing,”Science,2015.
CAO等人,“Comprehensive single cell transcriptional profiling of amulticellular organism by combinatorial indexing,”bioRxiv,2017.
ZHENG等人,“Massively parallel digital transcriptional profiling of singlecells,”Nat.Commun.,2017.
DATLINGER等人,“Pooled CRISPR screening with single-cell transcriptomereadout,”Nat.Methods,2017.
JAITIN等人,“Dissecting Immune Circuits by Linking CRISPR-Pooled Screenswith Single-Cell RNA-Seq,”Cell,2016.
ADAMSON等人,“A Multiplexed Single-Cell CRISPR Screening Platform EnablesSystematic Dissection of the Unfolded Protein Response,”Cell,2016.
DIXIT等人,“Perturb-Seq:Dissecting Molecular Circuits with ScalableSingle-Cell RNA Profiling of Pooled Genetic Screens,”Cell,2016.
MACOSKO等人,“Highly Parallel Genome-wide Expression Profiling ofIndividual Cells Using Nanoliter Droplets,”Cell,2015.
GAWAD等人,“Single-cell genome sequencing:current state of the science,”Nat.Rev.Genet.,2016.
TANAY等人,“Scaling single-cell genomics from phenomenology to mechanism,”Nature,2017.
SCHWARTZMAN等人,“Single-cell epigenomics:techniques and emergingapplications,”Nat.Rev.Genet.,2015.
BUZDIN等人,“The OncoFinder algorithm for minimizing the errors introducedby the high-throughput methods of transcriptome analysis,”Front Mol Biosci,2014.
MACOSKO等人,“Highly Parallel Genome-wide Expression Profiling ofIndividual Cells Using Nanoliter Droplets,”Cell,2015.
WHITFIELD等人,“Identification of genes periodically expressed in thehuman cell cycle and their expression in tumors,”Mol.Biol.Cell,2002.
PAN等人,“Using input dependent weights for model combination and modelselection with multiple sources of data,”Stat.Sin.,2006.
EFRON等人,“Improvements on Cross-Validation:The 632+Bootstrap Method,”J.Am.Stat.Assoc.,1997.
EFRON,“How Biased is the Apparent Error Rate of a Prediction Rule?,”J.Am.Stat.Assoc.,1986.
EFRON,“Estimating the Error Rate of a Prediction Rule:Improvement onCross-Validation,”J.Am.Stat.Assoc.,1983.
SHEN等人,“Adaptive Model Selection and Assessment for Exponential FamilyDistributions,”Technometrics,2004.
SHEN等人,“Adaptive Model Selection,”J.Am.Stat.Assoc.,2002.
GEORGE等人,“Calibration and Empirical Bayes Variable Selection,”Biometrika,2000.
RIPLEY等人,“Pattern Recognition and Neural Networks,”Cambridge UniversityPress,2008.
HASTIE等人,“The Elements of Statistical Learning.Data Mining,Inference,and Prediction,”Springer,2001.
BURNHAM等人,“Model Selection and Multimodel Inference:A PracticalInformation-Theoretic Approach,”Springer,2003.
YUVAL,“Bootstrapping with Noise:An Effective Regularization Technique,”Connection Science,1996.
AMENDOLA等人,“Performance of ACMG-AMP Variant-Interpretation Guidelinesamong Nine Laboratories in the Clinical Sequencing Exploratory ResearchConsortium,”Am.J.Hum.Genet.,2016.
BERGER等人,“High-throughput Phenotyping of Lung Cancer SomaticMutations,”Cancer Cell,2016 30(2);第214–228页.
MACOSKO等人,“Highly Parallel Genome-wide Expression Profiling ofIndividual Cells Using Nanoliter Droplets,”Cell,2015 161(5);第1202–1214页.
STARITA等人,“Deep Mutational Scanning:A Highly Parallel Method to Measurethe Effects of Mutation on Protein Function,”Cold Spring Harb Protoc,2015(8);第711–714页.
SHENDURE等人,“A framework for determining the relative effect of geneticvariants,”美国专利号15/023,355,2016年3月18日提交.
REGEV等人,“A droplet-based method and apparatus for composite single-cellnucleic acid analysis,”国际专利出版号WO 2016/040476,2016年3月17日出版.
KALIA SS等人,“Recommendations for reporting of secondary findings inclinical exome and genome sequencing,2016update(ACMG SF v2.0):a policystatement of the American College of Medical Genetics and Genomics,”GenetMed.,2016.
FUTREAL AP等人,“A census of human cancer genes,”Nat Rev Cancer,2004 4(3);第177–183页.
LAWRENCE MS等人,“Discovery and saturation analysis of cancer genes across21tumour types,”Nature,2014 505(7484);第495–501页.
WHIRL-CARRILLO等人,“Pharmacogenomics knowledge for personalizedmedicine,”Clin Pharmacol Ther,2012 92(4);第414–417页.
RUBINSTEIN等人,“The NIH genetic testing registry:a new,centralizeddatabase of genetic tests to enable access to comprehensive information andimprove transparency,”Nucleic Acids Res,2013 4;第D925–35页.
SAMOCHA KE等人,(2017)“Regional missense constraint improves variantdeleteriousness prediction,”bioRxiv:148353.
Kitzman,J.O.,Starita,L.M.,Lo,R.S.,Fields,S.&Shendure,J.Massively parallelsingle-amino-acid mutagenesis.Nat.Methods 12,203–206(2015).
Findlay,G.M.,Boyle,E.a.,Hause,R.J.,Klein,J.C.和Shendure,J.(2014).Saturation editing of genomic regions by multiplex homology-directedrepair.Nature 513,1–2.
Firnberg,E.&Ostermeier,M.PFunkel:Efficient,Expansive,User-DefinedMutagenesis.PLoS One 7,1–10(2012).
Wrenbeck,E.E.等人,Plasmid-based one-pot saturationmutagenesis.Nat.Methods 13,928–930(2016).
Wissink,E.M.,Fogarty,E.A.&Grimson,A.High-throughput discovery of post-transcriptional cis-regulatory elements.BMC Genomics 17,1–14(2016).
Araya等人,2016年,美国专利申请20160378915A1。

Claims (137)

1.一种用于确定生物样品内所鉴别的分子变体的表型影响的计算机实现方法,包括:
接收与模型系统内的一个或多个功能元件相关联的分子变体,其中所述模型系统包含单细胞、细胞区室、亚细胞区室或合成区室;
确定所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子得分或表型得分;
基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的各自的分子得分或表型得分,确定与所述分子变体相关联的分子信号或表型信号;
基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子得分或表型得分,确定与所述分子变体相关联的群体信号;
基于统计学习确定所述分子变体的功能得分或功能分类,其中所述统计学习将所述分子变体的所述分子信号、所述表型信号或所述群体信号与所述分子变体的表型影响相关联;
基于所述功能得分或功能分类、所述功能得分或功能分类的建模、预测器得分或预测器分类的建模、或者热点得分或热点分类的建模,得出所述分子变体的证据得分或证据分类;以及
基于所述功能得分、所述功能分类、所述证据得分或所述证据分类,确定所述分子变体的所述表型影响。
2.根据权利要求1所述的方法,其中所述证据得分或所述证据分类是基于来自一个或多个功能元件中的所述分子变体的所述分子信号、所述表型信号或所述群体信号确定的。
3.根据权利要求1所述的方法,其中所述证据得分或证据分类得自所述功能得分或功能分类、所述预测器得分或预测器分类或者所述热点得分或热点分类。
4.根据权利要求1所述的方法,其中通过应用所述统计学习利用回归或分类将证据得分和证据分类与所述分子变体的表型影响相关联而得出所述证据得分或证据分类。
5.根据权利要求1所述的方法,其中通过应用统计学习利用回归或分类将分子信号与所述分子变体的表型影响相关联而得出所述分子变体的所述功能得分或功能分类。
6.根据权利要求4所述的方法,其中基于变体、受试者或群体的临床数据库、表型数据库、群体数据库、分子注释数据库或功能数据库得出所述分子变体的所述表型影响。
7.根据权利要求4所述的方法,其中基于分子信号诸如突变负荷、突变率和突变特征得出所述分子变体的所述表型影响。
8.根据权利要求1所述的方法,其中从使用所述分子信号、所述表型信号或所述群体信号的独立或不相交的估计生成的多个统计模型得出所述分子变体的所述功能得分或功能分类。
9.根据权利要求1所述的方法,其中从功能建模引擎(FME)得出所述分子变体的所述功能得分或功能分类,其中所述FME是通过应用机器学习技术将所述分子变体的未测定特征与所述功能得分或功能分类相关联而生成的,并且其中所述未测定特征包括进化特征、群体特征、功能特征、结构特征、动力学特征和理化特征。
10.根据权利要求1所述的方法,其中从变体解释引擎(VIE)得出所述分子变体的所述预测器得分或预测器分类,其中所述VIE是通过应用机器学习技术将所述功能得分或功能分类和所述未测定特征与所述分子变体的所述表型影响相关联而生成。
11.根据权利要求1所述的方法,其中从低阶变体解释引擎(VIE)得出所述预测器得分或预测器分类,其中所述低阶VIE是功能元件特异性的、功能类型特异性的或条件特异性的。
12.根据权利要求1所述的方法,其中从高阶变体解释引擎(VIE)得出所述预测器得分或预测器分类,其中所述高阶VIE是途径特异性的、同源物家族特异性的、酶家族特异性的或条件特异性的。
13.根据权利要求1所述的方法,其中从高阶变体解释引擎(VIE)得出所述预测器得分或预测器分类,其中所述VIE提供多种途径、同源物家族、酶家族或条件的信息。
14.根据权利要求1所述的方法,其中从显著突变区域和显著突变网络(SMR/SMN)得出所述分子变体的所述热点得分或热点分类,所述显著突变区域和显著突变网络是应用空间聚类技术来检测具有高密度的有着高或低的功能得分或特定的功能分类的分子变体的残基区域和网络而计算得出的。
15.根据权利要求1所述的方法,其中所述分子信号包含所述分子变体的低阶分子信号,所述低阶分子信号是作为在带有所述分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室中测量的所述分子得分的汇总统计模型、汇总统计模型、描述统计模型、推理统计模型或贝叶斯推理模型得出的。
16.根据权利要求1所述的方法,其中所述分子信号包含所述分子变体的高阶分子信号,所述高阶分子信号是通过应用将低阶分子信号与调控、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态相关联的预先存在的模型而得出的。
17.根据权利要求1所述的方法,其中所述分子信号包含所述分子变体的高阶分子信号,所述高阶分子信号是经由无监督学习技术、特征学习技术或降维技术从低阶分子信号而得出的。
18.根据权利要求1所述的方法,其中所述分子信号包含低阶分子得分,所述低阶分子得分对应于来自所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子测量结果、分子过程、分子特征。
19.根据权利要求1所述的方法,其中所述分子信号包含所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的高阶分子得分,所述高阶分子得分是通过应用将低阶分子得分与调控、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态相关联的预先存在的模型而得出的。
20.根据权利要求1所述的方法,其中所述分子信号包含所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的高阶分子得分,所述高阶分子得分是经由无监督学习技术、特征学习技术或降维技术从低阶分子得分得出的。
21.根据权利要求20所述的方法,其中训练自动编码器神经网络以学习低阶分子得分的压缩表示,并且利用所述自动编码器来将低阶分子信号编码成高阶压缩表示。
22.根据权利要求21所述的方法,其中将所述自动编码器训练为去噪自动编码器(DAE),或者将所述自动编码器构造为具有全连接层的神经网络,或者将所述自动编码器构造为具有对称数目的神经元的神经网络,或者所述自动编码器被内置有用于激活的修正线性单元(ReLu),或者使用亚当优化器训练所述自动编码器,或者所述自动编码器是细胞类型特异性的、基因特异性的、途径特异性的或障碍特异性的。
23.根据权利要求18所述的方法,其中所述分子测量结果对应于所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内分子的基因表达、蛋白质表达、染色质可及性、表观遗传修饰、调节活性、转录后加工、翻译后修饰、突变状态、突变负荷或突变率的位点特异性测量结果。
24.根据权利要求18所述的方法,其中所述分子过程对应于源自所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的分子测量结果的基因表达、蛋白质表达、染色质可及性、表观遗传修饰、调节活性、转录活性、翻译活性、信号传导活性、途径活性、突变状态、突变负荷或突变率等的多位点测量结果。
25.根据权利要求18所述的方法,其中所述分子特征对应于源自所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的分子测量结果或分子过程的基因表达、蛋白质表达、染色质可及性、表观遗传修饰、调节活性、转录活性、翻译活性、信号传导活性、途径活性、突变状态、突变负荷或突变率等的全局测量结果。
26.根据权利要求18所述的方法,其中通过对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的群体应用单细胞条形码编码技术和核酸测序技术得出所述分子测量结果。
27.根据权利要求18所述的方法,其中所述分子测量结果可以包括:测序读段质量控制、细胞条形码鉴别或质量控制、分子条形码鉴别或质量控制、与参考基因组的测序读段比对、测序读段比对过滤或质量控制、将经过滤和质量控制的测序读段映射到功能元件、将经过滤和质量控制的分子条形码映射到功能元件,以及将经过滤和质量控制的测序读段或特定细胞条形码的分子条形码映射到功能元件。
28.根据权利要求1所述的方法,其中所述分子信号、所述表型信号或所述群体信号是分子状态特异性的,其源自特定分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的群体,以允许在状态特异性的学习层中进行学习。
29.根据权利要求1所述的方法,其中所述分子信号、所述表型信号或所述群体信号是分子状态不可知的,其源自多个分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的群体,以允许在状态不可知的学习层中进行学习。
30.根据权利要求1所述的方法,其中所述分子信号、所述表型信号或所述群体信号是分子状态有序的,其源自多个分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的群体,以允许在多状态学习层中进行学习。
31.根据权利要求1所述的方法,其中通过应用将分子得分或表型得分与所述分子状态相关联的预先存在的模型来得出所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子状态,其中所述模型基于先前表征的基因表达特征将单细胞分配给细胞周期阶段。
32.根据权利要求1所述的方法,其中通过对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子得分或表型得分应用无监督学习技术、特征学习技术或降维技术,得出所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子状态。
33.根据权利要求1所述的方法,其中所述分子信号、所述表型信号或所述群体信号是从单细胞、细胞区室、亚细胞区室或合成区室的独立或不相交的群体计算得出的,所述独立或不相交的群体是通过随机采样选自带有相同分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室。
34.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径内。
35.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径内。
36.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径内。
37.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点内。
38.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点内。
39.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点内。
40.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点内。
41.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点内。
42.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的10bp内。
43.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的10bp内。
44.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的10bp内。
45.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的10bp内。
46.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的50bp内。
47.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的50bp内。
48.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的50bp内。
49.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的50bp内。
50.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的100bp内。
51.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的100bp内。
52.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的100bp内。
53.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的100bp内。
54.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的500bp内。
55.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的500bp内。
56.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的500bp内。
57.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的500bp内。
58.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的1,000bp内。
59.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的1,000bp内。
60.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的1,000bp内。
61.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的1,000bp内。
62.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域内。
63.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域内。
64.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域内。
65.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域内。
66.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的10bp内。
67.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的10bp内。
68.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的10bp内。
69.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的10bp内。
70.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的50bp内。
71.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的50bp内。
72.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的50bp内。
73.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的50bp内。
74.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的100bp内。
75.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的100bp内。
76.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的100bp内。
77.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的100bp内。
78.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的500bp内。
79.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的500bp内。
80.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的500bp内。
81.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的500bp内。
82.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的1,000bp内。
83.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的1,000bp内。
84.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的1,000bp内。
85.根据权利要求1所述的方法,其中所述分子变体对应于编码或非编码变体,所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的1,000bp内。
86.根据权利要求1所述的方法,其中所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述表型得分代表所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内所鉴别的分子变体的表型关联。
87.根据权利要求1所述的方法,其中所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述表型得分包含低阶表型得分,其中所述低阶表型得分对应于由表型模型通过使用统计学习技术而生成的得分或分类,所述统计学习技术将模型系统的分子得分和分子状态与每个模型系统内的分子变体的表型影响相关联。
88.根据权利要求87所述的方法,其中使用用于单任务或多任务统计学习的神经网络架构生成所述表型模型,所述神经网络架构将来自一个或多个功能元件的分子得分与所述一个或多个功能元件中的分子变体的一种或多种表型影响相关联。
89.根据权利要求1所述的方法,其中所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述表型得分包含高阶表型得分,其中所述高阶表型得分是通过应用将低阶表型得分与调控、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态相关联的预先存在的模型而得出的。
90.根据权利要求1所述的方法,其中所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述表型得分包含高阶表型得分,其中所述高阶表型得分是经由无监督学习技术、特征学习技术或降维技术从低阶表型得分得出的。
91.根据权利要求1所述的方法,其中与所述分子变体相关联的所述表型信号包含与所述分子变体相关联的低阶表型信号,其中所述与所述分子变体相关联的低阶表型信号是作为在带有所述分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室中测量的所述表型得分的汇总统计模型、描述统计模型、推理统计模型或贝叶斯推理模型得出的。
92.根据权利要求1所述的方法,其中与所述分子变体相关联的所述表型信号包含与所述分子变体相关联的高阶表型信号,其中所述与所述分子变体相关联的高阶表型信号是通过应用将低阶表型信号与调控、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态相关联的预先存在的模型而得出的。
93.根据权利要求1所述的方法,其中与所述分子变体相关联的所述表型信号包含与所述分子变体相关联的高阶表型信号,其中所述与所述分子变体相关联的高阶表型信号是经由无监督学习技术、特征学习技术或降维技术从低阶表型信号得出的。
94.根据权利要求1所述的方法,还包括:
访问来自现有来源的具有推定的或已知的表型影响的分子变体的集合;
使用预测模型增加所述具有推定的或已知的表型影响的分子变体的集合;
使用采样模型选择具有推定的或已知的表型影响的第一组基因型;
使用采样模型选择具有未知的、推定的或已知的表型影响的第二组基因型;
使用采样模型选择具有未知的、推定的或已知的表型影响的第三组基因型;
通过应用将所述第一组基因型的分子信号、表型信号或群体信号与推定的或已知的表型影响相关联的统计学习技术来生成功能模型;
通过应用所述功能模型基于所述第二组基因型的分子信号、表型信号或群体信号进行预测,为所述第二组基因型生成预测的表型影响;
通过应用统计学习技术生成推理模型,其中所述推理模型将未测定特征与分子变体的表型影响相关联;以及
通过应用所述推理模型基于所述第三组基因型的未测定特征进行预测,为所述第三组基因型生成预测的表型影响。
95.根据权利要求94所述的方法,其中所述预测模型是基因特异性的、结构域特异性的、同源物特异性的或全基因组范围的计算预测器或功能测定法。
96.根据权利要求94所述的方法,其中所述预测模型为所述预测模型的每次预测提供性能或置信度估计。
97.根据权利要求94所述的方法,其中所述预测模型的阳性预测值(PPV)包括所述预测模型的预测的性能或置信度估计的函数。
98.根据权利要求94所述的方法,其中所述预测模型的阴性预测值(NPV)包括所述预测模型的预测的性能或置信度估计的函数。
99.根据权利要求94所述的方法,其中所述预测模型是分子影响预测器。
100.根据权利要求94所述的方法,其中所述预测模型预测蛋白质编码功能元件中的提前终止分子变体、无义分子变体或截短分子变体是功能丧失变体。
101.根据权利要求94所述的方法,其中所述预测模型预测蛋白质编码功能元件中的同义或沉默分子变体是中性变体。
102.根据权利要求1所述的方法,还包括:
通过应用将所述分子信号、所述表型信号或所述群体信号与所述功能元件的所述分子变体的表型影响相结合的统计学习技术来生成功能模型。
103.根据权利要求102所述的方法,其中所述生成功能模型还包括:
使用用于单任务或多任务学习的神经网络架构生成所述功能模型,所述神经网络架构将来自所述功能元件的所述分子信号、所述表型信号或所述群体信号与所述功能元件的所述分子变体的所述一种或多种表型影响相关联。
104.根据权利要求1所述的方法,还包括:
通过应用将所述分子得分与所述功能元件的所述分子变体的所述表型影响相结合的统计学习技术来生成表型模型。
105.根据权利要求104所述的方法,其中所述生成表型模型还包括:
使用用于单任务或多任务学习的神经网络架构生成表型模型,所述神经网络架构将来自所述功能元件的所述分子得分与所述功能元件的所述分子变体的所述一种或多种表型影响相关联。
106.根据权利要求1所述的方法,还包括:
将所述分子变体引入所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的所述功能元件中;
鉴别所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的所述分子变体;
确定所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的所述分子变体的所述表型影响;以及
确定所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的分子测量结果、分子特征或分子过程。
107.根据权利要求1所述的方法,其中与所述分子变体相关联的所述群体信号描述了与所述分子变体相关联的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室在来自独特分子状态的单细胞、细胞区室、亚细胞区室或合成区室的亚群中的分布。
108.根据权利要求1所述的方法,其中与所述分子变体相关联的所述群体信号描述了与所述分子变体相关联的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室在来自独特分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的亚群中的动态。
109.根据权利要求1所述的方法,其中与所述分子变体相关联的所述群体信号描述了所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室在来自与所述分子变体相关联的独特分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的亚群中的分布变化。
110.根据权利要求1所述的方法,其中与所述分子变体相关联的所述群体信号描述了所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室在来自与所述分子变体相关联的独特分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的亚群中的动态。
111.根据权利要求107所述的方法,其中基于所述分子得分或所述表型得分,应用聚类技术对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室进行聚类并分配。
112.根据权利要求111所述的方法,其中应用高斯混合模型(GMM)对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室进行聚类并分配给限定数量的分子状态。
113.根据权利要求111所述的方法,其中应用变分高斯混合模型(VGMM)采用狄利克雷过程对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室进行聚类并分配给推定数量的分子状态。
114.根据权利要求107所述的方法,其中与所述分子变体相关联的所述群体信号被测定为与对应于特定分子状态的分子变体相关联的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的比率。
115.根据权利要求1所述的方法,其中所述分子变体的所述分子得分或所述表型得分包含经调整的分子得分或表型得分,所述经调整的分子得分或表型得分被计算为所述分子变体的所述分子得分或所述表型得分与参考分子变体或参考单细胞、细胞区室、亚细胞区室或合成区室的所述分子得分或所述表型得分之间的差值。
116.根据权利要求1所述的方法,其中所述分子变体的所述分子得分或所述表型得分包含经调整的分子得分或表型得分,所述经调整的分子得分或表型得分通过相对于参考分子变体或参考单细胞、细胞区室、亚细胞区室或合成区室的分子得分或表型得分对所述分子变体的所述分子得分或所述表型得分进行归一化而计算。
117.根据权利要求1所述的方法,其中分子变体的分子信号、表型信号或群体信号分别包含经调整的分子信号、表型信号或群体信号,所述经调整的分子信号、表型信号或群体信号被计算为分子变体的所述分子信号、表型信号或群体信号与参考分子变体的所述分子信号、表型信号或群体信号之间的差值。
118.根据权利要求1所述的方法,其中与所述分子变体相关联的所述分子信号、所述表型信号或所述群体信号分别包含经调整的分子信号、表型信号或群体信号,所述经调整的分子信号、表型信号或群体信号通过用参考分子变体的分子信号、表型信号或群体信号对与所述分子变体相关联的所述分子信号、所述表型信号或所述群体信号进行归一化而计算。
119.根据权利要求1所述的方法,其中与所述分子变体相关联的所述分子信号、所述表型信号或所述群体信号分别包含经调整的分子信号、表型信号或群体信号,所述经调整的分子信号、表型信号或群体信号计算为与所述分子变体相关联的所述分子信号、所述表型信号或所述群体信号在参考分子变体的分子信号、表型信号或群体信号中的分位数。
120.一种计算机实现方法,还包括:
选择具有表型影响的第一组基因型;
选择具有表型影响的第二组基因型;
应用单细胞捕获或条形码编码技术从与所述第一组基因型相关联的第一细胞数目的单细胞、细胞区室、亚细胞区室或合成区室获得分子;
通过使用与所述第一组基因型相关联的模型系统执行测序、测序读段质量控制、细胞条形码鉴别或质量控制、分子条形码鉴别或质量控制、与参考基因组的测序读段比对或读段比对过滤或质量控制,获得每个模型系统的第一读段数目的分子读段;
应用单细胞捕获或条形码编码技术从与所述第一组基因型相关联的第二细胞数目的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室获得分子;
通过使用与所述第一组基因型相关联的所述模型系统执行测序、测序读段质量控制、细胞条形码鉴别或质量控制、分子条形码鉴别或质量控制、与参考基因组的测序读段比对或读段比对过滤或质量控制,获得每个模型的第二读段数目的分子读段;
从每个基因型的总细胞数目的单细胞、细胞区室、亚细胞区室或合成区室得出来自每个模型系统的总读段数目的分子读段的总分子读段或总分子测量结果;
通过应用用于特征选择或降维的统计学习技术来利用所述总分子读段和所述总分子测量结果确定所述第一组基因型的分子得分、表型得分、分子信号、表型信号或群体信号,生成总降维模型;
通过应用将来自所述总降维模型的分子信号、表型信号或群体信号与所述第一组基因型的表型影响相关联的统计学习技术,利用所述总分子读段和所述总分子测量结果生成总功能模型;
使用用于预测所述第一组基因型的表型影响的所述总细胞数、所述总读段数、所述总降维模型或所述总功能模型确定功能得分或功能分类的阈性能;
从每个基因型的最佳细胞数目的单细胞、细胞区室、亚细胞区室或合成区室得出来自每个模型系统的最佳读段数目的分子读段的最佳分子读段或最佳分子测量结果,其中所述最佳分子读段和所述最佳分子测量结果是通过对所述总分子读段或所述总分子测量结果进行子采样而获得的;
通过应用用于特征选择或降维的统计学习技术来使用所述最佳分子读段和所述最佳分子测量结果确定所述第一组基因型的分子得分、表型得分、分子信号、表型信号或群体信号,生成最佳降维模型;
通过应用将来自所述最佳降维模型的分子信号、表型信号或群体信号与所述第一组基因型的表型影响相关联的统计学习技术利用所述最佳分子读段和所述最佳分子测量结果生成最佳功能模型;
基于用于预测所述第一组基因型的表型影响的所述最佳细胞数、所述最佳读段数、所述最佳降维模型或所述最佳功能模型验证所述功能得分或功能分类的阈性能;
应用单细胞捕获或条形码编码技术从与所述第二组基因型相关联的所述最佳细胞数目的单细胞、细胞区室、亚细胞区室或合成区室获得分子;
通过使用与所述第二组基因型相关联的模型系统执行测序、测序读段质量控制、细胞条形码鉴别或质量控制、分子条形码鉴别或质量控制、与参考基因组的测序读段比对或读段比对过滤或质量控制,获得每个模型系统的所述最佳读段数目的分子读段;以及
基于所述最佳细胞数、所述最佳读段数、所述最佳降维模型或所述最佳功能模型,为所述第二组基因型生成功能得分或功能分类。
121.一种用于对分子变体的表型影响进行评分的计算机实现方法,包括:
基于证据数据集的准确率评价所述证据数据集;
基于所述证据数据集的所述准确率验证所述证据数据集;
基于所述证据数据集的所述准确率优化所述证据数据集;以及
基于对所述证据集的所述评价、验证和优化确定所述分子变体的所述表型影响。
122.根据权利要求121所述的方法,其中所述证据数据集包含基于机器学习模型的分子变体的功能得分或功能分类,所述机器学习模型将所述分子变体的分子信号、表型信号或群体信号与所述分子变体的所述表型影响相关联。
123.根据权利要求121所述的方法,其中所述证据数据集包含来自全基因组的、同源物特异性的、酶类别特异性的、结构域特异性的或基因特异性的计算预测器的预测器得分或预测器分类。
124.根据权利要求121所述的方法,其中所述证据数据集包含来自突变热点的热点得分或热点分类。
125.根据权利要求121所述的方法,其中所述证据数据集包含来自基于群体基因组学指标而得出的变体分类的群体得分或群体分类。
126.根据权利要求121所述的方法,还包括:
计算评价指标以评估所述证据数据集与功能得分或功能分类之间的一致性。
127.根据权利要求121所述的方法,其中所述评价指标包括皮尔逊相关系数、斯皮尔曼等级相关、肯德尔相关、马修相关系数、科恩kappa系数、约登指数、F量度、真阳性率、真阴性率、阳性预测值、阴性预测值、阳性似然比、阴性似然比或诊断比值比。
128.根据权利要求121所述的方法,其中所述证据数据集的所述验证包括基于所述评价指标来验证所述证据数据集。
129.根据权利要求121所述的方法,其中所述证据数据集的所述优化包括基于所述评价指标来选择或移除所述证据数据集内的数据。
130.一种用于对分子变体的表型影响进行评分的计算机实现方法,包括:
基于证据数据集的内在偏差来评价所述证据数据集;
基于所述证据数据集的所述内在偏差来验证所述证据数据集;
基于所述证据数据集的所述内在偏差来优化所述证据数据集;以及
基于对所述证据集的所述评价、验证和优化来确定所述分子变体的所述表型影响的得分。
131.根据权利要求130所述的方法,其中所述证据数据集的偏差被测量为所述证据数据集中变体的观察到的证据得分或证据分类与参考数据集中变体的预期证据得分或证据分类之间的统计距离。
132.根据权利要求130所述的方法,其中所述证据数据集的确认偏差测量为所述证据数据集中变体的观察到的特征和特性与基于匹配的分位数或分类定义的参考数据集中变体的期望特征和特性之间的统计距离。
133.根据权利要求130所述的方法,其中所述证据数据集的确认偏差被测量为所述证据数据集中变体的观察到的特征和特性与基于证据得分或证据分类的匹配分布定义的参考数据集中变体的期望特征和特性之间的统计距离。
134.根据权利要求130所述的方法,其中所述证据数据集的所述验证包括基于目标评价偏差指标来验证所述证据数据集。
135.根据权利要求130所述的方法,其中所述证据数据集的所述优化包括基于目标验证标准来选择或移除所述证据数据集内的数据。
136.一种系统,包括:
存储器;和
至少一个处理器,所述处理器耦合至所述存储器并被构造用于:
接收与模型系统内的一个或多个功能元件相关联的分子变体,其中所述模型系统包含单细胞、细胞区室、亚细胞区室或合成区室;
确定所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子得分或表型得分;
基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的各分子得分或表型得分,确定与所述分子变体相关联的分子信号或表型信号;
基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述分子得分或表型得分,确定与所述分子变体相关联的群体信号;
基于统计学习确定所述分子变体的功能得分或功能分类,其中所述统计学习将分子变体的所述分子信号、所述表型信号或所述群体信号与所述分子变体的表型影响相关联;
基于所述功能得分或功能分类、所述功能得分或功能分类的建模、预测器得分或预测器分类的建模、或者热点得分或热点分类的建模,得出所述分子变体的证据得分或证据分类;
基于所述功能得分、所述功能分类、所述证据得分或所述证据分类,确定所述分子变体的所述表型影响。
137.一种其上存储有指令的有形计算机可读设备,在由至少一种计算设备执行时,所述有形计算机可读设备使所述至少一种计算设备执行包括以下的操作:
接收与模型系统内的一个或多个功能元件相关联的分子变体,其中所述模型系统包含单细胞、细胞区室、亚细胞区室或合成区室;
确定所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子得分或表型得分;
基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述各自的分子得分或表型得分,确定与所述分子变体相关联的分子信号或表型信号;
基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述分子得分或表型得分,确定与所述分子变体相关联的群体信号;
基于统计学习确定所述分子变体的功能得分或功能分类,其中所述统计学习将分子变体的所述分子信号、所述表型信号或所述群体信号与所述分子变体的表型影响相关联;
基于所述功能得分或功能分类、所述功能得分或功能分类的建模、预测器得分或预测器分类的建模、或者热点得分或热点分类的建模,得出所述分子变体的证据得分或证据分类;
基于所述功能得分、所述功能分类、所述证据得分或所述证据分类,确定所述分子变体的所述表型影响。
CN201880050685.7A 2017-06-19 2018-06-19 通过综合计算和实验深度突变学习框架解释基因和基因组变体 Pending CN111095422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410955984.2A CN119028454A (zh) 2017-06-19 2018-06-19 通过综合计算和实验深度突变学习框架解释基因和基因组变体

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762521759P 2017-06-19 2017-06-19
US62/521,759 2017-06-19
US201862640432P 2018-03-08 2018-03-08
US62/640,432 2018-03-08
PCT/US2018/038255 WO2018236852A1 (en) 2017-06-19 2018-06-19 Interpretation of genetic and genomic variants via an integrated computational and experimental deep mutational learning framework

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202410955984.2A Division CN119028454A (zh) 2017-06-19 2018-06-19 通过综合计算和实验深度突变学习框架解释基因和基因组变体

Publications (1)

Publication Number Publication Date
CN111095422A true CN111095422A (zh) 2020-05-01

Family

ID=64657156

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880050685.7A Pending CN111095422A (zh) 2017-06-19 2018-06-19 通过综合计算和实验深度突变学习框架解释基因和基因组变体
CN202410955984.2A Pending CN119028454A (zh) 2017-06-19 2018-06-19 通过综合计算和实验深度突变学习框架解释基因和基因组变体

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202410955984.2A Pending CN119028454A (zh) 2017-06-19 2018-06-19 通过综合计算和实验深度突变学习框架解释基因和基因组变体

Country Status (9)

Country Link
US (2) US20180365372A1 (zh)
EP (1) EP3642748A4 (zh)
JP (3) JP7316270B2 (zh)
CN (2) CN111095422A (zh)
AU (2) AU2018289410B2 (zh)
BR (1) BR112019027179A2 (zh)
CA (1) CA3067642A1 (zh)
IL (1) IL271498A (zh)
WO (1) WO2018236852A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN111951896A (zh) * 2020-08-20 2020-11-17 杭州瀚因生命科技有限公司 基于临床样本的染色质可及性数据分析方法
CN112102878A (zh) * 2020-09-16 2020-12-18 张云鹏 一种LncRNA学习系统
CN112669901A (zh) * 2020-12-31 2021-04-16 北京优迅医学检验实验室有限公司 基于低深度高通量基因组测序的染色体拷贝数变异检测装置
CN113249483A (zh) * 2021-06-10 2021-08-13 北京泛生子基因科技有限公司 一种检测肿瘤突变负荷的基因组合、系统及应用
CN113990390A (zh) * 2021-06-07 2022-01-28 重庆南鹏人工智能科技研究院有限公司 一种基于机器学习的新冠病毒亚群识别方法
CN114058689A (zh) * 2020-07-30 2022-02-18 南京市妇幼保健院 一种基因突变检测试剂盒及其应用
CN114438190A (zh) * 2022-01-14 2022-05-06 中国人民解放军空军军医大学 启闭安神汤-孤独症核心作用基因靶点及其筛选方法
CN114464246A (zh) * 2022-01-19 2022-05-10 华中科技大学同济医学院附属协和医院 基于CovMutt框架检测与遗传性增加相关的突变的方法
CN114783529A (zh) * 2022-01-14 2022-07-22 中国人民解放军空军军医大学 木犀草素-孤独症相关作用基因靶点及其筛选方法
CN114974417A (zh) * 2021-06-03 2022-08-30 广州燃石医学检验所有限公司 一种甲基化测序方法和装置
CN115631784A (zh) * 2022-10-26 2023-01-20 苏州立妙达药物科技有限公司 一种基于多尺度判别的无梯度柔性分子对接方法
CN115798586A (zh) * 2022-07-20 2023-03-14 中日友好医院(中日友好临床医学研究所) 基于多基因突变的vte风险评估模型、构建方法及应用
CN116013506A (zh) * 2023-01-11 2023-04-25 南京大学 一种基于量表的自闭症智能预测方法
CN116246701A (zh) * 2023-02-13 2023-06-09 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN119360955A (zh) * 2024-12-26 2025-01-24 中国农业科学院北京畜牧兽医研究所 一种肉牛品种分子身份证构建应用方法、设备及介质
CN121054088A (zh) * 2025-08-27 2025-12-02 河北省人民医院 一种计算机辅助筛选药物的方法、系统及设备

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922551B2 (en) * 2017-10-06 2021-02-16 The Nielsen Company (Us), Llc Scene frame matching for automatic content recognition
US20200020419A1 (en) 2018-07-16 2020-01-16 Flagship Pioneering Innovations Vi, Llc. Methods of analyzing cells
CN109652532A (zh) * 2019-01-11 2019-04-19 中国人民解放军总医院 一种检测心血管系统用药的标志物
US11174522B2 (en) 2019-03-11 2021-11-16 Pioneer Hi-Bred International, Inc. Methods and compositions for imputing or predicting genotype or phenotype
CN110942805A (zh) * 2019-12-11 2020-03-31 云南大学 一种基于半监督深度学习的绝缘子元件预测系统
EP4073807A4 (en) * 2019-12-12 2024-05-01 Tempus AI, Inc. REAL-WORLD EVIDENCE OF DIAGNOSTIC TESTS AND TREATMENT REGIMENS IN US PATIENTS WITH BREAST CANCER
CN111126470B (zh) * 2019-12-18 2023-05-02 创新奇智(青岛)科技有限公司 基于深度度量学习的图片数据迭代聚类分析方法
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
CN111243662B (zh) * 2020-01-15 2023-04-21 云南大学 基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质
JP2023510399A (ja) * 2020-01-16 2023-03-13 コンジェニカ リミテッド 遺伝子バリアント解釈を生成するためのゲノム情報を取得および処理するためのスクリーニングシステムおよび方法
WO2021211840A1 (en) * 2020-04-15 2021-10-21 Chan Zuckerberg Biohub, Inc. Local-ancestry inference with machine learning model
WO2021237117A1 (en) * 2020-05-22 2021-11-25 Insitro, Inc. Predicting disease outcomes using machine learned models
JP2023526670A (ja) 2020-05-22 2023-06-22 インシトロ インコーポレイテッド 機械学習モデルを使用した疾患の転帰の予測
US11785022B2 (en) * 2020-06-16 2023-10-10 Zscaler, Inc. Building a Machine Learning model without compromising data privacy
WO2022054086A1 (en) * 2020-09-08 2022-03-17 Indx Technology (India) Private Limited A system and a method for identifying genomic abnormalities associated with cancer and implications thereof
US11308101B2 (en) * 2020-09-19 2022-04-19 Bonnie Berger Leighton Multi-resolution modeling of discrete stochastic processes for computationally-efficient information search and retrieval
KR20220078787A (ko) 2020-12-03 2022-06-13 삼성전자주식회사 컴퓨팅 장치의 동작 방법 그리고 명령들을 저장하는 컴퓨터로 독출 가능한 저장 매체
AU2022224103A1 (en) * 2021-02-18 2023-08-31 Insitro, Inc. Synthetic barcoding of cell line background genetics
CN113743453A (zh) * 2021-07-21 2021-12-03 东北大学 一种基于随机森林的人口数量预测方法
CN113823354B (zh) * 2021-08-12 2025-07-01 厦门艾德生物医药科技股份有限公司 一种brca1/2基因变异的分类评价方法
JP2024540883A (ja) * 2021-10-13 2024-11-06 インビテ・コーポレイション コンフォメーション動力学からのバリアント効果の高スループット予測
US20250062023A1 (en) * 2021-12-16 2025-02-20 Plan Heal Health Companies, Inc. Machine learning methods and systems for phenotype classifications
CN116486918A (zh) * 2022-01-14 2023-07-25 天士力干细胞产业平台有限公司 一种干细胞质量评价方法
US20230281444A1 (en) * 2022-03-04 2023-09-07 Cella Farms Inc Computational system and algorithm for selecting nutritional microorganisms based on in silico protein quality determination
CN115116557A (zh) * 2022-05-26 2022-09-27 腾讯科技(深圳)有限公司 一种预测分子标签的方法以及相关装置
AU2023295552A1 (en) 2022-06-17 2024-12-12 Insitro, Inc. In situ sequencing of rna transcripts with non-uniform 5' ends
EP4634920A2 (en) * 2022-12-16 2025-10-22 Orion Medicines, Inc. Systems and methods for evaluation of expression patterns
US12368503B2 (en) 2023-12-27 2025-07-22 Quantum Generative Materials Llc Intent-based satellite transmit management based on preexisting historical location and machine learning
US20250218601A1 (en) * 2023-12-29 2025-07-03 Utah State University Assessing Health Effects of Landscape Designs

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2376666A1 (en) * 1999-07-30 2001-02-08 Epidauros Polymorphisms in the human mdr-1 gene and their use in diagnostic and therapeutic applications
WO2008151110A2 (en) * 2007-06-01 2008-12-11 The University Of North Carolina At Chapel Hill Molecular diagnosis and typing of lung cancer variants
WO2011123388A1 (en) * 2010-03-28 2011-10-06 Trustees Of The University Of Pennsylvania Novel gene targets associated with amyotrophic lateral sclerosis and methods of use thereof
CN103733065A (zh) * 2011-06-02 2014-04-16 阿尔玛克诊断有限公司 用于癌症的分子诊断试验
CN103748236A (zh) * 2011-04-15 2014-04-23 约翰·霍普金斯大学 安全测序系统
WO2014210327A1 (en) * 2013-06-27 2014-12-31 The Brigham And Women's Hospital, Inc. Methods and systems for determining m. tuberculosis infection
CN105765592A (zh) * 2013-09-27 2016-07-13 科德克希思公司 酶变体的自动筛选
US20160364522A1 (en) * 2015-06-15 2016-12-15 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
CN106575321A (zh) * 2014-01-14 2017-04-19 欧米希亚公司 用于基因组分析的方法和系统
CN106795558A (zh) * 2014-05-30 2017-05-31 维里纳塔健康公司 检测胎儿亚染色体非整倍性和拷贝数变异

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2334011T3 (es) * 2000-06-08 2010-03-04 Virco Bvba Metodo para predecir la resistencia a los agentes terapeuticos utilizando redes neurales.
CN101382971A (zh) * 2000-09-12 2009-03-11 株式会社医药分子设计研究所 分子功能网络的生成方法
US20090307179A1 (en) * 2008-03-19 2009-12-10 Brandon Colby Genetic analysis
WO2012034030A1 (en) * 2010-09-09 2012-03-15 Omicia, Inc. Variant annotation, analysis and selection tool
US9773091B2 (en) * 2011-10-31 2017-09-26 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
WO2014015196A2 (en) * 2012-07-18 2014-01-23 The Board Of Trustees Of The Leland Stanford Junior University Techniques for predicting phenotype from genotype based on a whole cell computational model
US10119134B2 (en) * 2013-03-15 2018-11-06 Abvitro Llc Single cell bar-coding for antibody discovery
SG10201507049XA (en) * 2014-09-10 2016-04-28 Agency Science Tech & Res Method and system for automatically assigning class labels to objects
WO2016154493A1 (en) * 2015-03-24 2016-09-29 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for multi-scale, annotation-independent detection of functionally-diverse units of recurrent genomic alteration
AU2016284455A1 (en) 2015-06-22 2017-11-23 Myriad Women's Health, Inc. Methods of predicting pathogenicity of genetic sequence variants
WO2017049214A1 (en) * 2015-09-18 2017-03-23 Omicia, Inc. Predicting disease burden from genome variants

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2376666A1 (en) * 1999-07-30 2001-02-08 Epidauros Polymorphisms in the human mdr-1 gene and their use in diagnostic and therapeutic applications
WO2008151110A2 (en) * 2007-06-01 2008-12-11 The University Of North Carolina At Chapel Hill Molecular diagnosis and typing of lung cancer variants
WO2011123388A1 (en) * 2010-03-28 2011-10-06 Trustees Of The University Of Pennsylvania Novel gene targets associated with amyotrophic lateral sclerosis and methods of use thereof
CN103748236A (zh) * 2011-04-15 2014-04-23 约翰·霍普金斯大学 安全测序系统
CN103733065A (zh) * 2011-06-02 2014-04-16 阿尔玛克诊断有限公司 用于癌症的分子诊断试验
WO2014210327A1 (en) * 2013-06-27 2014-12-31 The Brigham And Women's Hospital, Inc. Methods and systems for determining m. tuberculosis infection
CN105765592A (zh) * 2013-09-27 2016-07-13 科德克希思公司 酶变体的自动筛选
CN106575321A (zh) * 2014-01-14 2017-04-19 欧米希亚公司 用于基因组分析的方法和系统
CN106795558A (zh) * 2014-05-30 2017-05-31 维里纳塔健康公司 检测胎儿亚染色体非整倍性和拷贝数变异
US20160364522A1 (en) * 2015-06-15 2016-12-15 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CARLOS L ARAYA等: "Identification of significantly mutated regions across cancer types highlights a rich landscape of functional molecular alterations", pages 117 - 125 *
杨力;魏刚;唐鲲;CHRISTINE NARDINI;韩敬东;: "以海量数据计算揭示人类疾病发生机制及相关分子标志物", 中国科学:生命科学, no. 01, 20 January 2013 (2013-01-20) *
王艳双等: "梅花鹿鹿茸Ⅰ型胶原对大鼠成骨样细胞(ROS1728) 的影响及其分子机制的研究", pages 3412 - 3418 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599409B (zh) * 2020-05-20 2022-05-20 电子科技大学 基于MapReduce并行的circRNA识别方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN114058689A (zh) * 2020-07-30 2022-02-18 南京市妇幼保健院 一种基因突变检测试剂盒及其应用
CN111951896A (zh) * 2020-08-20 2020-11-17 杭州瀚因生命科技有限公司 基于临床样本的染色质可及性数据分析方法
CN111951896B (zh) * 2020-08-20 2023-10-20 杭州瀚因生命科技有限公司 基于临床样本的染色质可及性数据分析方法
CN112102878A (zh) * 2020-09-16 2020-12-18 张云鹏 一种LncRNA学习系统
CN112102878B (zh) * 2020-09-16 2024-01-26 张云鹏 一种LncRNA学习系统
CN112669901A (zh) * 2020-12-31 2021-04-16 北京优迅医学检验实验室有限公司 基于低深度高通量基因组测序的染色体拷贝数变异检测装置
CN114974417A (zh) * 2021-06-03 2022-08-30 广州燃石医学检验所有限公司 一种甲基化测序方法和装置
WO2022253288A1 (zh) * 2021-06-03 2022-12-08 广州燃石医学检验所有限公司 一种甲基化测序方法和装置
CN114974417B (zh) * 2021-06-03 2025-11-14 广州燃石医学检验所有限公司 一种甲基化测序方法和装置
CN113990390A (zh) * 2021-06-07 2022-01-28 重庆南鹏人工智能科技研究院有限公司 一种基于机器学习的新冠病毒亚群识别方法
CN113249483B (zh) * 2021-06-10 2021-10-08 北京泛生子基因科技有限公司 一种检测肿瘤突变负荷的基因组合、系统及应用
CN113249483A (zh) * 2021-06-10 2021-08-13 北京泛生子基因科技有限公司 一种检测肿瘤突变负荷的基因组合、系统及应用
CN114438190A (zh) * 2022-01-14 2022-05-06 中国人民解放军空军军医大学 启闭安神汤-孤独症核心作用基因靶点及其筛选方法
CN114783529A (zh) * 2022-01-14 2022-07-22 中国人民解放军空军军医大学 木犀草素-孤独症相关作用基因靶点及其筛选方法
CN114464246A (zh) * 2022-01-19 2022-05-10 华中科技大学同济医学院附属协和医院 基于CovMutt框架检测与遗传性增加相关的突变的方法
CN115798586A (zh) * 2022-07-20 2023-03-14 中日友好医院(中日友好临床医学研究所) 基于多基因突变的vte风险评估模型、构建方法及应用
CN115631784B (zh) * 2022-10-26 2024-04-23 苏州立妙达药物科技有限公司 一种基于多尺度判别的无梯度柔性分子对接方法
CN115631784A (zh) * 2022-10-26 2023-01-20 苏州立妙达药物科技有限公司 一种基于多尺度判别的无梯度柔性分子对接方法
CN116013506A (zh) * 2023-01-11 2023-04-25 南京大学 一种基于量表的自闭症智能预测方法
CN116246701A (zh) * 2023-02-13 2023-06-09 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN116246701B (zh) * 2023-02-13 2024-03-22 广州金域医学检验中心有限公司 基于表型术语和变异基因的数据分析装置、介质和设备
CN119360955A (zh) * 2024-12-26 2025-01-24 中国农业科学院北京畜牧兽医研究所 一种肉牛品种分子身份证构建应用方法、设备及介质
CN121054088A (zh) * 2025-08-27 2025-12-02 河北省人民医院 一种计算机辅助筛选药物的方法、系统及设备

Also Published As

Publication number Publication date
JP7316270B2 (ja) 2023-07-27
CN119028454A (zh) 2024-11-26
AU2018289410A1 (en) 2020-02-06
WO2018236852A1 (en) 2018-12-27
IL271498A (en) 2020-02-27
JP7678034B2 (ja) 2025-05-15
AU2018289410B2 (en) 2024-06-13
CA3067642A1 (en) 2018-12-27
JP2025114687A (ja) 2025-08-05
US20230187016A1 (en) 2023-06-15
JP2023130495A (ja) 2023-09-20
EP3642748A1 (en) 2020-04-29
JP2020524350A (ja) 2020-08-13
BR112019027179A2 (pt) 2020-06-30
EP3642748A4 (en) 2021-03-10
US20180365372A1 (en) 2018-12-20
AU2024219712A1 (en) 2024-10-03

Similar Documents

Publication Publication Date Title
US20230187016A1 (en) Systems and methods for the interpretation of genetic and genomic variants via an integrated computational and experimental deep mutational learning framework
US20210151123A1 (en) Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
AU2020274091B2 (en) Systems and methods for multi-label cancer classification
US12024750B2 (en) Methylation markers and targeted methylation probe panel
US20230349073A1 (en) Methods and systems for detecting tissue conditions
US12281301B2 (en) Sequencing-based proteomics
US20160340740A1 (en) Methylation haplotyping for non-invasive diagnosis (monod)
US10793914B2 (en) Cancer-related biological materials in microvesicles
CN110499364A (zh) 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用
WO2012104642A1 (en) Method for predicting risk of developing cancer
CN109161591A (zh) 单基因遗传性肾脏病基因联合筛查方法、试剂盒及其制备方法
KR20200044677A (ko) 암 약물 반응성 판단을 위한 바이오 마커, 이를 이용한 암 약물 반응성 판단 방법 및 이를 위한 암 약물 반응성 진단칩
US20250391505A1 (en) Methods and Systems for Machine Learning Analysis of Lupus Nephritis
US20250006313A1 (en) High-throughput prediction of variant effects from conformational dynamics
EP4616404A1 (en) Methods and systems for evaluation of lupus based on ancestry-associated molecular pathways
US20250305061A1 (en) Methods and systems for inferring gene expression using cell-free dna fragments
STREAMS Family based whole genome sequencing in a cohort of undifferentiated (and related) connective tissue diseases
UPPALURI et al. An AI-Integrated Framework for Precision Genomics in Coronary Artery Disease Using Whole Exome and Phenotypic Data
Hirono et al. The presence of multiple variants affects the clinical phenotype and prognosis in left ventricular noncompaction after surgery
Kazan et al. The Promise of Exome Sequencing for the Differential Diagnosis of Late-Onset End-Stage Renal Disease in Turkish Cypriots
Karakahya Predicting Informative Spatio-Temporal Neurodevelopmental Windows and Gene Risk for Autism Spectrum Disorder
Beyreli Multitask Learning of Gene Risk for Autism Spectrum Disorder and Intellectual Disability
WO2026020029A1 (en) Methods for analyzing cervicovaginal samples
CN121532411A (zh) 用于调控靶基因的系统和方法
TOKGUN Next Generation Sequencing: Areas of use in Medicine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201223

Address after: California, USA

Applicant after: Invet Corp.

Address before: California, USA

Applicant before: Jongra Co.,Ltd.

AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20250117