CN111095422A

CN111095422A - 通过综合计算和实验深度突变学习框架解释基因和基因组变体

Info

Publication number: CN111095422A
Application number: CN201880050685.7A
Authority: CN
Inventors: C·L·阿拉亚; J·A·罗伊特; S·R·帕迪格帕蒂; A·科拉温
Original assignee: Jongra Co ltd
Current assignee: Invet Corp
Priority date: 2017-06-19
Filing date: 2018-06-19
Publication date: 2020-05-01
Also published as: JP7316270B2; CN119028454A; AU2018289410A1; WO2018236852A1; IL271498A; JP7678034B2; AU2018289410B2; CA3067642A1; JP2025114687A; US20230187016A1; JP2023130495A; EP3642748A1; JP2020524350A; BR112019027179A2; EP3642748A4; US20180365372A1; AU2024219712A1

Abstract

本文公开了用于确定生物样品内所鉴别的分子变体的表型影响的系统、方法和计算机程序产品实施方案。实施方案包括接收与模型系统内的功能元件相关联的分子变体。实施方案然后确定与所述模型系统相关联的分子得分。实施方案然后基于所述分子得分确定与所述分子变体相关联的分子信号和群体信号。实施方案然后基于统计学习确定所述分子变体的功能得分。实施方案然后基于所述功能得分得出所述分子变体的证据得分。实施方案然后基于所述功能得分或证据得分确定所述分子变体的表型影响。

Description

通过综合计算和实验深度突变学习框架解释基因和基因组变体

概述

了解基因组中的功能元件(诸如蛋白质编码基因、非编码基因和调节元件)内的基因型(例如序列)变体的影响对于各种生命科学应用至关重要。目前，普通人群中全部疾病相关联基因有几乎一半含有的未表征变体的数目高于已知临床意义的变体。这对于评价基因序列和基因组序列的诊断和筛查测试均构成重大挑战(Landrum等人，2015年；Lek等人， 2016年)。大量具有未知临床意义的新变体是几乎所有基因的特征(例如对于群体中的种系变体和体细胞变体二者)，甚至影响最频繁测试的基因。例如，评价一组基因的癌症易感性突变的测试报道，发现每个已知的致病变体有多达95个未表征的变体(Maxwell等人，2016 年)。因此，预测基因型变体的表型(例如细胞、生物体、临床或其它)后果是在广泛的临床环境中利用基因和基因组信息的障碍。

基因组编码的功能元件内的基因型(例如序列)变体可以影响多种生物物理过程，从而改变每个元件内的独特分子功能，并导致各种临床和非临床表型。例如，在已确立的肿瘤抑制蛋白编码基因磷酸酶-张力蛋白同源物(PTEN)中，影响转录的基因型变体(例如–903G>A、–975G>C和–1026C>A)、影响蛋白质稳定性的基因型变体(例如C136R)、影响磷酸酶催化活性的基因型变体(例如C124S、H93R)和影响底物识别的基因型变体(例如G129E)都与考登综合征(CS)相关联，呈现出乳腺癌、甲状腺癌、子宫内膜癌、肾癌、结肠直肠癌和黑素瘤的高风险(Heikkinen等人，2011年；He等人，2013年；Myers等人，1997年；Myers等人，1998 年)。影响相同生物物理过程和分子功能的变体可导致不同障碍之间的合并症，例如影响磷酸酶活性的PTEN变体(例如H93R)，其又另外与自闭症谱系障碍(ASD)有关(Johnston和 Raines，2015年)，从而导致频繁的ASD与癌症之间的合并症(Markkanen等人，2016年)。此外，功能元件内影响不同生物物理过程和分子机制的变体可以呈现模式化的、差异化的临床和非临床表型。核纤层蛋白A/C基因(LMNA)中的突变会导致总共超过15种疾病，这些疾病统称为“核纤层蛋白病”，其包括A-EDMD(常染色体埃-德二氏肌营养不良症)、DCM(扩张型心肌病)、LGMD1B(肢体-腰带性肌营养不良症1B)、L-CMD(LMNA相关的先天性肌营养不良症)、FPLD2(家族性部分脂肪营养不良症2)、HGPS(哈钦森-吉尔福德早衰综合征)、非典型性WRN(沃纳综合征)、MAD(下颌骨发育不良)和CMT2B(2B型Charcot-Marie-Tooth障碍)(Scharner 等人，2010年)。在LMNA中，导致HGPS的基因型(例如序列)变体会在核纤层蛋白A特异性外显子11中产生一个隐蔽的剪接位点供体，其导致核纤层蛋白的截短形式，而导致FPLD2的变体会改变Ig样结构域的表面电荷并且不改变突变蛋白的晶体结构(Scharner等人，2010年)。因此，弄清各种变体类型、功能元件和分子系统与细胞效应之间的基因型-表型关系的复杂性，是对临床和非临床基因和基因组测试中所发现的变体的表型结果进行鲁棒性、可扩展性解释的一个突出挑战。

确实，对基因型(例如序列)变体的重要性进行评估可能是一项复杂而具有挑战性的任务。就在2015年，一项对变体分类的调查显示，分类提交者中多达17％(例如2,229/12,895)的变体分类是不一致的(Rehm等人，2015年)。在临床测试实验室之间，尽管具体的建议可以使实验室间的一致性提高到71％，但解释的一致性测得为低至34％(Amendola等人，2016年)。

市场上有超过5,300个基因通过基因测试进行评价(例如，根据NCBI基因测试注册表)，因此用于对各种基因、疾病和环境(如临床和非临床)中的基因型(例如序列)变体进行解释(例如分类)的可扩展解决方案对于精密医学和生命科学行业的工作至关重要。临床测试市场中在与单核苷酸变体(SNV)相对应的分子变体亚组内、编码序列亚组内以及蛋白质编码基因亚组内，有超过14,000,000个可能的(例如独特的)分子变体，因此用于分子变体分类的有效解决方案需要是鲁棒性且可扩展性的。

尽管目前有多种策略可用于鉴别分子变体的表型影响(包括但不限于家庭隔离、功能测定法和案例对照研究)，但只有变体影响的计算预测器能在所需规模上提供支持证据。实际上，按照美国医学遗传学和基因组学学院(ACMG)和分子病理学协会(AMP)关于临床变体解释的联合指南对来自从业人员的临床变体分类进行分析表明，约有50％的临床变体分类依赖于变体影响计算预测器的使用。然而，尽管它们得到了广泛的应用，但基准测试研究却表明，变体影响计算预测算法(诸如SIFT、PolyPhen(v2)、GERP++、Condel、CADD、REVEL等)具有明显低的性能，其准确率(AUC)在0.52-0.75的范围内(Mahmood等人，2017年)。

分子功能的直接测定可为准确解释基因型(例如序列)变体的临床和非临床影响提供基础(Shendure和Fields，2016年；Araya和Fowler，2011年)。迄今为止，已经设计了多种测定法以直接评估变体对各种分子功能的影响。但是，现有方法需要先验知识或对与正在研究的临床(和非临床)表型相关联的变体的作用机理进行假设，以定义要测定的分子功能(Shendure和Fields，2016年)。这些方法通常仅限于捕获影响所测定的具体分子功能的变体的影响以及得出其信息，从而对可以大规模测定的变体的类型、分子功能的类型以及功能元件和基因的类型施加限制。因此，尽管例如磷酸酶测定法可以提名(例如划入)影响PTEN肿瘤抑制因子的催化活性的变体的潜在疾病关联，但是这种测定法可能不能排除(例如划去)影响蛋白质稳定性的变体的潜在疾病关联，因为这些变体可能会增加发生疾病的风险而催化活性却没有明显的缺陷。相反，虽然例如蛋白质稳定性测定法可以提名(例如划入)导致PTEN肿瘤抑制因子的稳定性缺陷的变体的潜在疾病关联，但这种测定法可能无法排除(例如划去)影响催化活性的变体的潜在疾病关联。对作用机理的先验知识或假设(以及因此待测的相关分子功能)的潜在需求可能会将这些方法的应用限制在充分表征的功能元件(例如基因)和表型上，这可能会阻止其应用于了解得很少的疾病相关联基因。

在高通量DNA测序平台的技术基础上，最近开发的大规模功能测定法(诸如深突变扫描(Deep Mutational Scanning,DMS)、HITS-KIN、RNA-MAP等)已使得能全面或接近全面地涵盖不同序列类别的可能序列变体，包括编码元件、非编码元件和调控元件中的单核苷酸变体(SNV)和非同义变体(NSV，错义变体)(Fowler等人，2010年；Araya等人，2012年； Guenther等人，2013年；Buenrostro等人，2014年；Kelsic等人，2016年；Patwardhan等人， 2009年)。此类方法可作为对分子变体(诸如基因型(例如序列)变体)对患者表型的影响，包括临床表型，诸如带PPARG变体的患者的脂肪营养不良和2型糖尿病(T2D)风险增加，或带BRCA1变体的患者的乳腺癌和卵巢癌风险增加，进行鲁棒性的、经统计学验证的解释的基础(Starita等人，2015年；Majithia等人，2016年)。尽管此类方法可以在临床和非临床测试环境中提供鲁棒性的变体解释，但这些方法可能需要进行重大开发和定制才能测定每种分子功能和每种功能元件。这可能限制了它们作为通用的、可扩展的解决方案以在不同类型的变体、生物物理过程、分子功能、功能元件、基因以及最终途径背景下系统地评估分子变体(诸如基因型(例如序列)变体)的临床和非临床后果的实用性。因此，需要用于变体影响评估的多功能平台和方法。

附图说明

将附图并入本文并且形成说明书的一部分。

图1A-1C示出了根据一些实施方案，用于确定分子变体的表型影响的综合的功能测定法和计算深度突变学习(DML)过程和系统，以及在疾病的RAS/MAPK家族的两个基因中应用过程和系统而生成的示例(例如中间)数据。

图2A-2B示出了根据一些实施方案，深度突变学习(DML)过程和系统在对RAS/MAPK途径的三个基因(HRAS、PTPN11和MAP2K2)中的种系(例如遗传)障碍和体细胞障碍的致病性(例如病原性)和中性(例如良性)分子变体进行鉴别(例如二元分类)的性能。

图3A-3B示出了根据一些实施方案，深度突变学习(DML)流程和系统在对在MAP2K2中具有致种系障碍性(例如致病性)或中性(例如良性)分子变体的细胞进行鉴别(例如二元分类)的性能。

图4示出了根据一些实施方案的基于神经网络的去噪自动编码器的架构，所述去噪自动编码器经过训练并应用于生成分子得分的鲁棒简化表示。

图5示出了根据一些实施方案的归一化的ERK途径激活，该归一化的ERK途径激活通过对来自带有MAP2K2和PTPN11的对照形式、野生型形式和突变形式的H293细胞的细胞提取物进行酶联免疫吸附测量为磷酸化的总ERK蛋白的比率。

图6示出了根据一些实施方案，用于通过在不同细胞数目、读段深度、降维模型(m_DR)和功能模型(m_F)的情况分阶段优化和部署测定法来降低部署深度突变学习(DML)来鉴别分子变体的表型影响的成本的方法实例，其中优化首先在分子变体的(减少的)真集上进行，并且部署包括分子变体的目标集。

图7示出了根据一些实施方案的用于计算表型得分的方法的实例。

图8示出了根据一些实施方案的用于计算分子得分的方法的实例。

图9示出了根据一些实施方案的用于计算与各个分子变体相关联的分子信号的方法。

图10示出了根据一些实施方案的用于计算分子信号的分子状态特异性的独立或不相交估计的方法。

图11示出了根据一些实施方案的用于表征具有特定分子变体的细胞在各分子状态或表型得分上的分布以及得出群体信号的方法。

图12示出了根据一些实施方案，利用无监督学习技术从与各个分子变体相关联的低阶分子信号鉴别高阶分子信号的方法的实例。

图13示出了根据一些实施方案的通过机器学习得出功能得分和功能分类的方法的实例，所述机器学习通过回归技术和分类技术将分子、表型或群体信号与分子变体的表型影响相关联。

图14A-14B示出了根据一些实施方案，使用不同数量的细胞进行训练时用于对具有两种独特表型影响的分子变体进行二项式分类的方法和系统的性能实例。

图15示出了根据一些实施方案的方法的实例，该方法允许使用来自蛋白质编码基因中所有可能的非同义变体的子集的功能得分和功能分类，推理出描述所述可能的非同义变体的功能得分或功能分类的序列-功能图。

图16示出了根据一些实施方案的系统和方法的实例，该系统和方法用于通过一系列建模层来降低DML过程确定分子变体的表型影响的成本并增加其范围。

图17示出了根据一些实施方案的方法的实例，该方法用于使用机器学习技术来生成低阶变体解释引擎(VIE)，该引擎可以是基因和条件特异性的。

图18示出了根据一些实施方案的方法的实例，该方法用于鉴别显著突变区域(SMR)和显著突变网络(SMN)。

图19示出了可用于实现各实施方案的示例性计算机系统。

在附图中，相同的附图标记通常表示相同或相似的元件。另外，通常而言，附图标记的最左边的数字标识该附图标记首次出现的附图。

具体实施方式

本文提供了系统、装置、设备、方法和/或计算机程序产品实施方案，和/或其组合和子组合，用于实现在各种各样的变体类型、生物物理过程、分子功能和表型背景下对变体的表型影响的多功能、多元件和多基因(例如，途径层面)评估。

本公开提供了系统、装置、设备、方法和/或计算机程序产品实施方案，其可以利用高通量分子测量(例如下一代测序)技术、单细胞操作技术、分子生物学技术、计算建模技术和统计学习技术，并且可以在各种各样的变体类型、生物物理过程、分子功能和表型背景下对变体的表型影响进行多功能、多元件和多基因(途径层面)评估。

本公开提供了系统、装置、设备、方法和/或计算机程序产品实施方案，其用于系统地确定并统计地验证受试者的生物学样品或其记录内的(例如，核、线粒体等)基因组或其衍生分子中的一个或多个(例如编码或非编码)功能元件(例如蛋白质编码基因、非编码基因、分子结构域诸如蛋白质或RNA结构域、启动子、增强子、沉默子、调节结合位点、复制起点等)中所鉴别的分子变体(诸如基因型(例如序列)变体)的一种或多种表型(例如，临床或非临床的)影响(例如，致病性、功能性或相对效应)。

本公开内容提供了系统、装置、设备、方法和/或计算机程序产品实施方案，其用于基于在体内或体外功能模型系统中测量的一种或多种分子信号、表型信号或群体信号对受试者中可能的表型影响进行分类(或回归)。得到的回归或分类可以被称为功能得分或功能分类。

本文的实施方案背离用于分子变体分类的现有计算或功能证据支持系统，如例如临床基因诊断和基因组诊断中所用的。

首先，尽管现有的用于变体分类的计算方法和系统依赖于用于变体分类的各种各样的群体的、进化的、物理化学的、结构的和/或分子的注释和特性，但现有的计算方法和系统并未采用关于分子变体对细胞生物学的影响的信息。结果，这样的计算方法不能捕获通过细胞内分子特性的变化或细胞群体的变化和细胞异质性而起作用的表型影响。

其次，现有的能够测定数千种分子变体的活性的大规模功能测定法和解决方案可提供每个分子变体沿单个维度的活性测量，并且通常需要分子变体施加表型影响的作用机理的先验知识或假设。

由于这些局限性，虽然用于变体分类的常规计算方法和系统可以访问涵盖多种注释和参数的数据，但这些常规方法在分子变体表型影响的分类(和回归)任务中的性能明显较差。类似地，这些常规方法需要有关作用机理(以及因此待测定的相关分子功能)的先验知识或假设，这将它们的应用局限在充分表征的功能元件(例如基因)上。这进一步排除了其在了解得很少的疾病相关联基因上的应用。最后，这些常规方法需要大量开发和定制以测定每种分子功能和每种功能元件。

在本文的实施方案中，克服这些技术问题的技术解决方案涉及这样的数据结构，该数据结构提供对在一个或多个功能元件(例如基因)中和在一个或多个背景(例如，细胞类型、药物治疗、基因型背景)中带有特定基因型(例如分子变体)的细胞和细胞群体的多维表征。这样的数据结构使得用于统计学习的系统和方法能够在与基因型(例如，分子变体或其组合)的表型影响有关的分类任务中实现提高的准确率。

通过每个模型系统(例如细胞)获取数百到数万(～10²–10⁴)个分子测量结果、为每个分子变体构建数十到数千(～10¹–10³)个模型系统的分子谱(molecular profile)、为每个功能元件(例如基因)以及单个或并行的多个功能元件构建数千(～10³)个分子变体的分子谱，本文的实施方案使得能够在各种功能元件和表型上对分子变体(及其组合)进行鲁棒性的、可扩展的多维分类。

如图1A中所示，本公开的实施方案整合了用于高通量诱变的变体文库生成102方法和用于细胞工程技术的细胞文库生成104方法，以生成在目标功能元件(例如基因)中带有独特分子变体的模型系统(例如细胞)的概略。该实施方案提供了处理、单细胞捕获、文库制备、测序106方法，所述方法利用细胞技术、分子生物学技术和基因组学技术以及用于模型系统的处理和捕获、分子实体文库的制备的技术和用于测量模型系统内的多种分子实体(例如转录物)的技术。该实施方案提供映射、归一化108生物信息学技术、计算生物学技术和统计技术，用于对分子变体、模型系统和每个模型系统内的分子实体之间的关联进行映射、量化和归一化。该实施方案提供特征选择、降维110和背景标注、训练、分类112统计(例如机器)学习技术、分布式和高性能计算技术、系统生物学技术、群体和临床基因组学技术，用于标签生成、特征选择、降维、训练和分子变体的分类。

在一些实施方案中，本公开描述了使用图1A的这些方法和技术系列来确定生物样品内所鉴别的分子变体的表型影响。在一些实施方案中，本公开描述了将分子变体引入模型系统内的一个或多个功能元件中。模型系统可以包括单细胞、细胞区室、亚细胞区室或合成区室。在一些实施方案中，本公开描述了单细胞、细胞区室、亚细胞区室或合成区室的分子得分或表型得分的确定。在一些实施方案中，本公开描述了单细胞、细胞区室、亚细胞区室或合成区室内的分子变体的鉴别。如本领域普通技术人员所理解的，可将各种方法用于鉴别单细胞、细胞区室、亚细胞区室或合成区室内的分子变体。这可以是基于单细胞、细胞区室、亚细胞区室或合成区室的分子测量。在一些实施方案中，本公开描述了分别基于来自与特定分子变体相关联的单细胞、细胞区室、亚细胞区室或合成区室的分子得分或表型得分，确定与各个分子变体相关联的分子信号或表型信号。在一些实施方案中，本公开描述了基于与特定分子变体相关联的单细胞、细胞区室、亚细胞区室或合成区室的分子得分或表型得分，确定与分子变体相关联的群体信号。

在一些实施方案中，本公开描述了通过应用统计(例如机器)学习方法来确定分子变体的功能得分或功能分类，所述学习方法将分子信号、表型信号或群体信号与分子变体的表型影响相关联。在一些实施方案中，本发明描述了基于功能得分、功能分类、预测得分、预测分类、热点得分或热点分类来确定分子变体的证据得分或证据分类。在一些实施方案中，本公开描述了基于所鉴别的分子变体的功能得分、功能分类、证据得分或证据分类来确定生物样品内所鉴别的分子变体的表型影响。

本文的实施方案整合了来自多个领域的方法、技巧和技术。虽然已经开发出利用单细胞分子测量的统计、机器学习技术并将其应用于对源自数十个(例如，少于10²个)不同组织或发育阶段的模型系统(例如细胞)进行分类，但是在相同细胞系、组织或发育阶段内的数千个具有细微差异(诸如由大于3×10⁹个核苷酸定义的基因组背景中的单核苷酸差异)的细胞之间实现准确的基因型特异性(例如分子变体特异性)分类的要求，会带来相当大的挑战。

本公开提供了深度突变学习(DML)系统、装置、设备、方法和/或计算机程序产品实施方案，和/或其组合和子组合，用于基于在单个模型系统(例如细胞)和模型系统(例如细胞)群体中测定的生物信号，克服受试者中所鉴别的分子变体的表型影响的鉴定(例如分类)方面的挑战。

本公开提供了系统、装置、设备、方法和/或计算机程序产品实施方案，和/或其组合和子组合，其通过(i)定向部署具有低成本预测模型的DML过程和系统(参见图16)，以及(ii)分层部署允许以低成本鲁棒地重建分子信号的DML过程和系统(参见图6)，来提高分子变体的分类中的成本效率。

本发明提供了系统、设备、装置、方法和/或计算机程序产品实施方案，和/或其组合和子组合，其通过利用功能元件之间的信息的DML过程和系统来提高在各功能元件(例如基因)上的可扩展性和性能(参见图3A和图3B)。

本发明提供了系统、设备、装置、方法和/或计算机程序产品实施方案，和/或其组合和子组合，其用于评估(例如核、线粒体等的)基因组或其衍生分子中的一个或多个(例如编码或非编码)功能元件(例如，蛋白质编码基因、非编码基因、分子结构域诸如蛋白质或RNA结构域、启动子、增强子、沉默子、调节结合位点、复制起点等)中的一个或多个分子(例如基因型)变体的表型影响(例如，致病性、功能性或相对效应)。如本领域普通技术人员所理解的，分子变体可以是基因型(例如序列)变体，诸如核基因组、线粒体基因组或附加体基因组中的单核苷酸变体(SNV)、拷贝数变体(CNV)或影响编码或非编码序列(或两者)的插入或缺失，其为自然的或合成的。如本领域普通技术人员所理解的，分子变体也可以是蛋白质分子中的单氨基酸置换、RNA分子中的单核苷酸置换、DNA分子中的单核苷酸置换，或多聚生物分子变为同源序列的任何其它分子变更。

在一些实施方案中，分类(或回归)可基于受试者的生物样品或其记录内所鉴别的分子变体，涉及具有遗传组分的障碍的(例如，可能的)致病性(例如，病原性)和中性(例如，良性)变体，或者其严重性的预测。在一些其它实施方案中，分类(或回归)可基于具有可能的分子结果(例如，无意义突变或插入突变和缺失突变)和可能的分子中性(例如，同义)的分子变体，涉及分子影响(例如，功能丧失、功能获得或中性)。在一些其它实施方案中，分类(或回归)可基于受试者的生物样品或其记录内所鉴别的分子变体，涉及响应治疗处理(例如化学的、生物化学的、物理的、行为的、数字的或其它方式)的变异。在一些实施方案中，表型影响可以指表型类别(例如，中性、病原性、良性、高风险、低风险、阳性响应变体、阴性响应变体)和表型得分(例如，发展特定临床和非临床表型的可能性、血液中代谢产物的水平、以及特定化合物被吸收或代谢的速率)。

在一些实施方案中，本公开提供了基于代表性群体中的分子变体的多样性和普遍性来对群体内的表型特性的多样性和普遍性进行建模的系统和方法。在一些实施方案中，本公开内容提供了基于分子变体的表型影响(具有已知或预期的多样性和普遍性)来对群体内的表型特性的多样性和普遍性进行建模的系统和方法，其中可以从先前与体内或体外功能模型系统中的变体相关联的一种或多种分子信号、表型信号或群体信号对表型影响进行建模。在一些实施方案中，这样的建模可以用于告知群体中的耐药性机制的多样性和普遍性。

在一些实施方案中，本公开描述了将一群个体内的表型特性的多样性和普遍性(例如，如通过从功能模型系统中的一种或多种分子信号、表型信号或群体信号建模得到的分子变体的表型影响所告知的)的模型用于构建受试者(例如患者)组群，以及用于研究治疗性和非治疗性干预的功效。

在一些实施方案中，本公开内容提供了系统和方法，所述系统和方法基于源自与功能模型系统中所测定的变体相关联的一个或多个分子信号、表型信号或群体信号的功能得分或功能分类来对分子变体的表型影响进行分类(或回归)。在一些实施方案中，可以在作为体内或体外模型系统的细胞、细胞区室或合成区室内对分子变体进行功能性建模。

在一些实施方案中，可以通过单细胞、细胞区室、亚细胞区室或合成区室(例如，统称为模型系统)内的核酸或核酸片段的文库制备、测序和表征直接在被建模的功能元件的核酸序列内鉴别被建模(例如，体内或体外)的分子变体。在一些其它实施方案中，可以使用预先组装的相关联条形码和变体的数据库，通过模型系统(例如，单细胞、细胞区室、亚细胞区室或合成区室)内的核酸或核酸片段的文库制备、测序和表征，由与功能元件中的各变体相关联的条形码序列推理出被建模(例如，体内或体外)的分子变体。如本领域普通技术人员将理解的，分子变体可以通过多种技术诸如直接(例如化学)合成、易错PCR、寡核苷酸定向诱变、切口诱变或饱和基因组编辑(SGE)等产生(Firnberg等人，2012年；Kitzman等人，2014年；Wrenbeck等人，2016年；和Findlay等人，2014年)。如本领域普通技术人员将理解的，然后可以使用多种方法，诸如但不限于同源重组(例如，Cas9介导的或腺病毒介导的重组)、位点特异性重组(例如，Flp介导的重组)或病毒转导(例如，慢病毒介导的转导)(Findlay等人，2018年；Wissink等人，2016年；和Macosko等人，2015年)将变体文库引入(例如添加)到模型系统(例如，细胞、细胞区室、亚细胞区室或合成区室)中。

在一些实施方案中，与各分子变体相关联的功能得分和功能分类可以源自对体内或体外模型系统内存在的分子和或化学修饰物的测量，所述体内或体外模型系统在功能元件(包括但不限于DNA、RNA以及蛋白质分子或其修饰物)内包含变体。例如，在一些实施方案中，可以对分子信号、细胞信号或群体信号进行测量或建模，并用于学习功能得分和或功能分类。在一些实施方案中，功能得分和功能分类可源自通过单细胞、细胞区室、亚细胞区室或合成区室内的多个核酸或核酸片段(包括但不限于RNA分子、基因组DNA、染色质相关联的DNA、蛋白质相关联的DNA、可及的DNA片段或化学修饰的核酸)的核酸条形码编码、分离、富集、文库制备、测序和表征而获得的分子测量结果。在一些实施方案中，这些流程可以利用分子条形码编码技术来唯一地鉴别或关联源于各个单细胞、细胞区室、亚细胞区室或合成区室的核酸、核酸片段或核酸序列(Macosko等人，2015年；Buenrostro等人，2015年； Cusanovich等人，2015年；Dixit等人，2016年；Adamson等人，2016年；Jaitin等人，2016年； Datlinger等人，2017年；Zheng等人，2017年；Cao等人，2017年)。这些方法可基于单细胞基因组学领域的发展(Schwartzman和Tanay2015年；Tanay和Regev2017年；Gawad等人，2016 年)。在一些实施方案中，本公开的系统和方法可以应用用于单细胞RNA测序的方法，以从单细胞、细胞区室、亚细胞区室或合成区室得出分子测量结果。这些方法包括但不限于单细胞测序文库生成、高通量核酸测序、测序读段质量控制、条形码鉴别(例如，单细胞、细胞区室、亚细胞区室或合成区室的条形码鉴别)和质量控制、测序读段独特分子条形码鉴别和质量控制、测序读段比对、以及读段比对过滤和质量控制。在一些实施方案中，分子测量结果可以对应于基因表达(例如，RNA转录物的丰度)、蛋白质的丰度或修饰(例如，磷酸化蛋白质的丰度)、染色质可及性(例如，核小体占位)、表观遗传修饰(例如，DNA甲基化)、调节活性(例如，转录因子结合)、转录后加工(例如，剪接)、翻译后修饰(例如，泛素化)、突变负荷(例如，计数)、突变率(例如，频率)、突变特征(例如，每种突变类型的计数或频率)的位点特异性测量结果，或本领域普通技术人员应当理解的单细胞、细胞区室、亚细胞区室或合成区室内的分子的各种其它类型的测量结果。在一些实施方案中，本发明描述了通过在单细胞RNA文库加工之前、期间或之后，使用靶向富集或靶向捕获技术(通过基于杂交或基于扩增子的技术和探针)来增强特定目标基因和功能元件的分子测量结果的质量的系统和方法。

在一些实施方案中，来自单细胞、细胞(或亚细胞)区室或合成区室的分子测量结果可用于得出分子过程的多位点测量结果。例如，这些分子过程的测量结果可以包括基因表达、染色质可及性、表观遗传修饰、调节活性、转录活性、翻译活性、信号传导活性、信号传导活性、途径活性、突变负荷、突变率、突变特征的多位点测量结果，以及本领域普通技术人员将理解的各种其它测量结果。

在一些实施方案中，来自单细胞、细胞(或亚细胞)区室或合成区室的分子测量结果和分子过程可以用于得出分子特征的全局(例如，泛基因座的或基因座无关的)测量结果。例如，这些分子特征的测量结果可以包括基因表达、染色质可及性、表观遗传修饰、调节活性、转录活性、翻译活性、信号传导活性、信号传导活性、途径活性、突变负荷、突变率、突变特征的全局测量结果，以及本领域普通技术人员将理解的各种其它测量结果。

在一些实施方案中，单细胞、细胞区室、亚细胞区室或合成区室的分子测量结果、分子过程或分子特征可以直接用作(例如，低阶)分子得分。在一些实施方案中，(例如，高阶)分子得分可以通过应用预先存在的模型来得出，该预先存在的模型将多个低阶(例如，低阶)分子得分(例如，分子测量结果、分子过程或分子特征)关联至调节、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态。在一些实施方案中，这类方法可以应用基因集富集分析或本领域普通技术人员将理解的其它衍生方法。在一些实施方案中，如图8中所示，来自具有相同分子变体802的单细胞、细胞区室、亚细胞区室或合成区室的分子测量结果、分子过程、分子特征或(例如，低阶)分子得分806可以被馈送通过人工神经网络804(ANN)中的一系列人工神经元层(例如，卷积层或感知层)，以得出越来越复杂(例如，高阶)的分子得分806，并生成具有所学特征的自动编码器。在一些实施方案中，用于计算分子得分的方法，诸如途径水平分析，可用于在允许降维的同时保留生物学功能的信息。

在一些实施方案中，如图9中所示，可以通过细胞评分层902从多个独立的单细胞、细胞区室、亚细胞区室或合成区室构建分子得分的数据库。在一些实施方案中，来自多个具有相同分子变体906(例如，v₁、v₂和v₃)的单细胞、细胞区室、亚细胞区室或合成区室的分子得分可用变体采样层908访问并在变体评分层910中分析以得出(例如，直接测量或建模)有关于与各分子变体相关联的趋势(例如，均值、中位数、众数)、离散性(例如，方差、标准偏差)、形状(例如，偏度、峰度)、概率(例如，分位数)、范围(例如，置信区间、最小值、最大值)、误差(例如，标准误差)或协变(例如，协方差)的汇总统计。在一些实施方案中，如图9中所示，有关于分子得分的趋势、离散性、形状、范围或误差的汇总统计可用于创建与各分子变体906相关联的(例如，质量控制)分子信号912的数据库。在一些实施方案中，分子测量结果、分子过程、分子特征和分子得分904可以是各单细胞、细胞区室、亚细胞区室或合成区室的特性。在一些实施方案中，分子信号可以是分子变体的特性。

如本领域普通技术人员将理解的，来自模型系统(例如，单细胞、细胞区室、亚细胞区室或合成区室)的分子测量结果、过程、特征和得分可以限定或对应于具有相似分子特性的模型系统(例如，单细胞、细胞区室、亚细胞区室或合成区室)的独特分子状态或特定亚群。如本领域普通技术人员将理解并且如图10中所示的，可基于多种方法将细胞评分层1002应用于确定模型系统的分子状态、表型得分1006(例如，s₁、s₂、s₃)。

例如，可基于源自基因表达分子得分的细胞周期特征(signature)来鉴别模型系统的分子状态(Macosko等人，2015年)。如本领域普通技术人员将理解的，可以通过使用先前得出的模型进行评分，例如，对先前已表征分子状态的基因表达特征(诸如先前在以化学方法同步化的细胞中表征的反映不同细胞周期阶段的基因表达特征(Whitfield等人，2002 年))进行评分，来得出分子状态。如本领域普通技术人员将理解的，也可以通过使用来自模型系统的划分的内部衍生模型进行评分来得出分子状态，在所述内部衍生模型中可以检测或预期分子信号之间的特征相关性(例如，在整个细胞周期的不同阶段中基因表达发生变化就是这种情况)。如本领域普通技术人员将理解的，可以使用多种统计技术(例如，机器学习技术)来生成所述内部衍生模型。

在一些实施方案中，如图7中所示，本公开提供了通过使用统计技术(例如，机器学习技术)来生成用于得出表型得分的表型模型(m_P)的系统和方法，所述统计技术将模型系统(例如，单细胞、细胞区室、亚细胞区室或合成区室)的分子得分和分子状态与每个模型系统内的分子变体的表型影响相关联。尽管分子得分可以直接与各模型系统内的分子特性、生物学特性或物理特性相关，但表型得分可以描述分子变体的(例如，可能的)表型关联。在一些实施方案中，通过应用监督学习技术将模型系统内的分子变体的表型影响(例如，标签)与模型系统的分子得分或分子状态(例如，特征)相关联来得出表型得分。

在一些实施方案中，表型模型(m_P)和表型得分(或表型分类)的数据库通过访问描述单细胞702的(例如，低阶和高阶)分子得分和分子状态704的特征数据库以及描述单细胞702内所鉴别的分子变体的表型影响706的输入标签708(例如，数据库)而生成。在一些实施方案中，训练/验证层710生成可以预测各单细胞702的表型影响706的表型模型(m_P)并对其进行质量控制。在一些实施方案中，将描述单细胞(测试)714的分子得分和分子状态716的特征数据库提供给所生成的表型模型(m_P)，以计算和创建描述单细胞(测试)714中的分子变体的预测表型影响718的表型得分720的数据库。如本领域普通技术人员将理解的，可以对照测试层712内单细胞(测试)714中的分子变体的已知表型影响来确定每个细胞中的预测表型影响718(例如表型得分720)的性能(例如准确率)。如本领域普通技术人员将理解的，可应用该表型模型(m_P)以根据需要预先计算或计算训练、验证或测试中未包括的单细胞的表型得分。在一些实施方案中，这样的评分和评价可以在表型评分和分类层722中进行。表型评分和分类层722可以基于表型得分720检验所允许的表型影响分类准确率。

在一些实施方案中，有关于表型得分的趋势、离散性、形状、范围或误差的汇总统计信息可用于创建与各分子变体相关联的(例如，质量控制的)表型信号的数据库。

在一些实施方案中，如图10中所示，本公开描述了分子状态特异性分子信号在分子状态特异性模型或多状态模型的生成中，用于无监督学习和监督学习的后续轮中的用途。在一些实施方案中，如图10中所示，本公开描述了使用分子状态特异性的、变体特异性的采样层1008来访问具有特定分子变体1010(例如v₁、v₂、v₃)并且处于特定分子状态、具有特征性表型得分或它们的组合的模型系统的分子测量结果、过程、特征和得分1004以及分子状态、表型得分1006。在一些实施方案中，可以由细胞评分层1002根据需要预先计算或计算分子测量结果、过程、特征和得分1004或分子状态、表型得分1006。在一些实施方案中，将分子状态特异性的、变体特异性的采样层1008所访问的数据模型、汇总统计模型、描述性统计(例如，单变量分析、双变量分析或多变量分析)模型、推理统计模型、贝叶斯推理统计模型(例如，变分贝叶斯推理模型)、狄利克雷过程或数据的其它模型用于构建分子、表型信号矩阵1012，描述每个分子变体在每种分子状态下的分子信号和表型信号。

在一些实施方案中，可根据需要预先计算或计算分子、表型信号矩阵1012。在一些实施方案中，可根据需要由分子状态、变体特异性评分层1016预先计算或计算分子、表型信号矩阵1012，得到分子状态特异性的矩阵。在一些实施方案中，可根据需要由多状态、变体特异性评分层1014预先计算或计算分子、表型信号矩阵1012，得到含有来自多分子状态的数据的矩阵。

在一些实施方案中，如图11中所示，本公开提供了用于表征具有特定分子变体的细胞在分子状态(例如亚群)或表型得分1106(如由细胞评分层1102使用分子测量结果、过程、特征和得分1104作为输入而产生的)上的分布的方法。这些分子状态(例如亚群)或表型得分可以与由以下限定的细胞亚群相关联但不限于以下限定的细胞亚群：(a)分子信号(例如，在细胞周期阶段期间的细胞周期蛋白依赖性激酶)的特征水平或它们之间的相关性，无论是通过应用先前存在的模型还是内部衍生模型来确定，(b)表型得分的特征水平或它们之间的相关性，或(c)无监督或有监督机器学习方法，包括但不限于降维技术，其实例包括但不限于主成分分析(PCA)、独立成分分析(ICA)和t随机邻域嵌入(tSNE)。在一些实施方案中，如图11中所示，对于每个单独的分子变体1110，群体采样层1108产生细胞在各分子状态上的相对呈现(例如，分布、概率等)的度量(例如，停留在某一分子状态的带有变体的细胞的比例或概率)或在表型得分上的相对呈现(例如，分布、概率等)的度量(例如，具有特定得分的带有变体的细胞的比例或概率)，并且可以用来提供描述分子变体如何在群体水平上影响细胞的群体信号矩阵1112。群体信号矩阵1112可含有多个分子变体的多个群体信号。

在一些实施方案中，可应用对来自带有相同分子变体的模型系统(例如，单细胞、细胞区室、亚细胞区室或合成区室)的分子测量结果、分子过程、分子特征、分子得分或表型得分的子采样，生成有关于与各分子变体相关联的分子测量结果、分子过程、分子特征或者分子得分或表型得分的趋势、离散性、形状、概率、范围、协变或误差的汇总统计的独立或不相交估计。

在一些实施方案中，可将有关于分子测量结果、分子过程、分子特征或者分子得分或表型得分的趋势、离散性、形状、概率、范围、协变或误差的汇总统计的独立或不相交估计用于创建与各分子变体相关联的分子信号或表型信号的(质量控制的)独立或不相交估计的数据库。如本领域普通技术人员将理解的，分子信号或表型信号的独立或不相交估计可用于创建与各分子变体相关联的(质量控制的)分子或表型信号的数据库。

在一些实施方案中，本公开描述了用于得出汇总统计的独立或不相交估计的系统和方法，所述汇总统计有关于与来自特定分子状态的模型系统(例如，单细胞、细胞区室、亚细胞区室或合成区室)亚群内的各分子变体相关联的分子测量结果、分子过程、分子特征或分子得分的趋势、离散性、形状、概率、范围、协变或误差。如本领域普通技术人员将理解的，这些方法可以利用多种统计技术(例如，机器学习技术)。

在一些实施方案中，有关于分子测量结果、分子过程、分子特征或者分子得分或表型得分的趋势、离散性、形状、概率、范围、协变或误差的汇总统计的分子状态特异性独立或不相交估计可用于创建与处于特定分子状态的各分子变体相关联的分子信号或表型信号的(例如质量控制的)分子状态特异性独立和不相交估计的数据库。

在一些实施方案中，有关于与各分子变体相关联的群体信号的趋势、离散性、形状、概率、范围、协变或误差的汇总统计的独立或不相交估计可用于创建与各分子变体相关联的(例如，质量控制的)群体信号的数据库。

在一些实施方案中，如图12中所示，本公开提供了系统和方法，所述系统和方法利用从与各分子变体1202相关联的低阶分子信号、表型信号或群体信号1204鉴别高阶分子信号、表型信号或群体信号的特征提取层1208(例如，无监督学习技术)，包括但不限于部署人工神经网络(ANN)1210以生成能够利用底层关联来产生低阶分子信号、表型信号或群体信号的高阶表示的自动编码器的特征学习(或表示学习)技术。在一些实施方案中，这些方法允许构建低阶和高阶分子的信号、表型信号和群体信号1214的数据库。在一些实施方案中，除了低阶分子信号、表型信号或群体信号1204之外，特征提取层1208还可以访问或接收来自注释特征1206的数据。在一些实施方案中，注释特征1206可涵盖描述与基因型变化(例如，序列变体、分子变体等)相关联的变化的多个独立的(例如，未测定的)特征(例如，与变体、基因组坐标、转录物(例如RNA)坐标、翻译(例如蛋白质)坐标、氨基酸，以及本领域普通技术人员将理解的各种其它项相关联的进化特征、群体特征、功能(例如基于注释的)特征、结构特征、动力学特征和物理化学特征)。

在一些实施方案中，本公开描述了使用分子状态特异性的低阶分子信号或表型信号来得出分子状态特异性的高阶分子信号或表型信号的用途。在一些实施方案中，本公开描述了使用低阶分子、表型或群体信号的多状态矩阵来得出多状态高阶分子、表型或群体信号，其利用各分子状态下分子信号之间的结构化关系，诸如各细胞周期阶段(例如分子状态)下的结构化基因表达模式(例如分子信号)。在一些实施方案中，本公开描述了使用卷积神经网络(CNN)来学习各分子状态下分子信号、表型信号或群体信号(和注释特征)中的模式关联。

在一些实施方案中，如图13中所示，本公开提供了通过统计(例如，机器)学习来生成功能模型(m_F)而得出功能得分和功能分类的系统和方法，所述功能模型(m_F)分别通过回归和分类技术将分子、表型或群体信号(例如特征)(单个或多个分子测量结果、分子过程、分子特征和分子得分)与分子变体的表型影响(例如标签)相关联。

在一些实施方案中，通过访问描述用于训练/验证的分子变体1302的分子(例如，低阶或高阶)、表型或群体信号1304的特征数据库以及描述分子变体1302的表型影响1308的一组输入标签1310(例如数据库)，来生成功能模型(m_F)和功能得分(或功能分类)的数据库。通过应用统计(例如机器)学习技术将分子、表型或群体信号1304(例如特征)与表型影响(例如标签)相关联来进一步执行所述生成。

在一些实施方案中，训练/验证层1312执行训练和验证以生成可以预测分子变体1302的表型影响1308的质量控制功能模型(m_F)。在一些实施方案中，训练/验证层1312可以部署交叉验证技术，诸如但不限于，K折交叉验证或留一法交叉验证(LOOCV)。在一些实施方案中，可将描述分子变体(测试)1316的分子、表型或群体信号1318的特征数据库提供给所生成的功能模型(m_F)，以计算和创建描述分子变体(测试)1316的预测表型影响1322的功能得分1324的数据库。如本领域普通技术人员将理解的，可以对照分子变体(诸如测试分子变体1316)的已知表型影响来确定分子变体的预测表型影响1322(例如功能得分1324)的性能(例如准确率)。如本领域普通技术人员将理解的，可应用功能模型(m_F)来在测试层1314内根据需要预先计算或计算不包括在训练、验证或测试阶段中的分子变体的功能得分。在一些实施方案中，这样的评分和评价可在功能评分和分类层1326中进行，以例如检验基于功能得分1324所允许的表型影响分类准确率。

在一些实施方案中，可以在功能模型(m_F)的训练和测试(预测生成)期间提供附加的注释特征1306、1320。在一些实施方案中，注释特征1306和1320可涵盖描述与基因型变化(例如，序列变体、分子变体)相关联的变化的多个独立的(例如，未测定的)特征(例如，与变体、基因组坐标、转录物(例如RNA)坐标、翻译(例如蛋白质)坐标、氨基酸，以及本领域普通技术人员将理解的各种其它项相关联的进化特征、群体特征、功能(例如基于注释的)特征、结构特征、动力学特征和物理化学特征)。

如本领域普通技术人员将理解的，分子变体的表型影响(例如，标签)的多种来源可用于定义真集，包括(例如，公开和/或私有的)临床和非临床变体数据库(例如，ClinVar、HumVar、VariBench、SwissVar、PhenCode、PharmGKB或位点特异性数据库)，以及结果数据库。

在一些其它实施方案中，本公开提供了通过统计(例如，机器)学习来生成功能模型(m_F)而得出功能得分和功能分类的系统和方法，所述功能模型(m_F)通过回归和分类技术将分子、表型或群体信号(例如特征)(源自一个或多个分子测量结果、分子过程、分子特征和/或分子得分)与直接从独特的分子、表型或群体信号计算而来的分子变体的表型影响(例如标签)相关联。在一些实施方案中，该方法可允许例如得出可预测来自具有特定分子变体的受试者的样品的相对突变负荷、突变率或突变特征的功能得分和功能分类。在一些实施方案中，来自此类测定法的功能得分或功能分类可允许告知测试受试者发展癌症的终生风险。

如本领域普通技术人员将理解的，用于生成功能模型(m_F)的回归和分类可以依赖于用于半监督学习或监督学习的各种统计(例如，机器)学习技术，包括但不限于随机森林(RF)、梯度提升树(GBT)、零规则(ZR)、朴素贝叶斯(NB)、简单逻辑回归(LR)、支持向量机(SVM)、k最近邻(kNN)，以及部署各种各样的人工神经网络(ANN)架构和技术的方法。在一些实施方案中，本公开描述了使用分子状态特异性的分子信号来得出分子状态特异性的功能得分或功能分类。在一些实施方案中，本公开描述了使用分子信号的多状态矩阵来得出分子状态感知的功能得分或功能分类。在一些实施方案中，本公开描述了使用卷积神经网络(CNN)来学习功能得分或功能分类与分布于各分子状态下的分子信号之间的模式关联。

图1A示出了根据一些实施方案在RAS/MAPK途径的基因中应用DML过程和系统。RAS/丝裂原活化蛋白激酶(MAPK)途径可在细胞增殖、分化、存活和死亡中起作用，并且RAS/MAPK基因中的体细胞突变可通过MAPK/ERK信号转导的激活和失调来在多种癌症类型的发生、进展和治疗响应中起作用。此外，已将RAS/MAPK基因中的遗传(例如种系)突变与多种常染色体显性先天综合征(包括但不限于努南综合征(NS)、科斯特洛综合征(CS)和心-脸-皮肤(CFC)综合征和LEOPARD综合征(LS))相关联，其存在于具有特征性的面部表情、心脏缺陷、肌肉皮肤异常和智力低下以及皮肤、内耳和生殖器异常的患者中(Aoki等人，2008年)。例如，已在努南综合征患者和CFC患者中反复发现非受体11型蛋白质酪氨酸磷酸酶(PTPN11)和双重特异性丝裂原活化蛋白激酶激酶1/2基因(MAP2K1、MAP2K2)中的突变，其中在多达50％的努南综合征患者中存在PTPN11突变(Aoki等人，2008年)。

实施方案可以使用在HEK293细胞中构建并过表达的关键RAS/MAPK途径组分的野生型、体细胞和种系分子变体，诸如HRAS(例如，G12V)、PTPN11(例如，E76K和N308D)和MAP2K2(例如，F57C和P128Q)。实施方案可以用1mg/ml嘌呤霉素选择细胞以确保外源引入的功能元件(例如基因)的表达，并且可以使用针对磷酸-ERK蛋白丰度和总ERK蛋白丰度的酶联免疫吸附测定法(ELISA)验证RAS/MAPK途径的激活(见图5)。为了生成单细胞RNA测序数据，实施方案可以使用10X Genomics Chromium系统靶向捕获每种分子变体的500个细胞。捕获和随后的单细胞文库生成可根据制造商的建议进行。可以汇集每个功能元件(例如，基因)的所得文库，并在Illumina MiniSeq测序仪上测序，直到对于每种基因型每个细胞的平均读段超过30,000个读段/细胞。可以使用10X Genomics Cell Ranger 2.1.0管线和默认设置进行单细胞RNA测序处理(例如，单细胞质量控制、归一化、转录组计数等)。

图1B和图1C示出了根据一些实施方案，带有野生型和突变型PTPN11和MAP2K2(与种系障碍相关联的分子变体(F57C、P128Q和N308D)以及与体细胞障碍相关联的分子变体(E76K))的哺乳动物细胞(例如HEK293)的投影。可以根据一些实施方案，基于从单细胞基因表达的按比例缩放的、归一化的唯一分子标识符(UMI)计数测定的分子得分(例如，低阶)，将细胞投影到通过t-随机邻域嵌入(tSNE)得出的二维平面。对于每个基因，示出了基于高阶分子得分的tSNE投影，所述高阶分子得分是通过应用本领域广泛的通用算法标准(例如，主成分分析，PCA)和定制开发的解决方案(包括为了低阶分子得分的鲁棒压缩表示而训练的细胞类型特异性、基因特异性或途径特异性自动编码器(AE))而得到。在一些实施方案中，自动编码器可以被构造为具有全连接层、在中间层周围含有对称数量的神经元(例如，跨层)以及具有用于激活的修正线性单元(ReLu)的神经网络。在一些实施方案中，可以使用亚当优化器来训练自动编码器，并且针对均方误差(MSE)损失函数对自动编码器进行优化。

如图1B和图1C中所示，相对于广义降维算法，来自定制的细胞类型和途径特异性自动编码器(AE)的细胞投影可改善带有中性(例如野生型)分子变体和疾病相关联分子变体(例如N308D、E76K)的模型系统(例如细胞)之间的超维分离。在830万低阶分子得分上对去噪自动编码器(AE)进行训练，该低阶得分来自在3,495个带有野生型和突变型RAS/MAPK基因的单个HEK293细胞中检测的超过18,800个基因。训练进行30代(epoch)，采用的小批次大小为10，每代训练之间的UMI计数采样随机减少5％后进行噪声模拟。所使用的全连接对称自动编码器的架构在图4中示出。低阶分子得分的缩放、归一化和降维的领域中的常规方法可能无法分离具有努南综合征(NS；N308D)分子变体和野生型PTPN11的细胞的tSNE投影，而定制的细胞类型和途径特异性自动编码器可显示出具有体细胞障碍分子变体(E76K)和种系障碍分子变体(N308D)的细胞与PTPN11野生型细胞的鲁棒分离。

根据一些实施方案，图14A和14B示出了对具有两种独特表型影响的分子变体进行二项式分类的系统和方法的性能，其在具有人HRAS基因的疾病相关联(例如致病性)基因型(例如序列)变体(例如G12V)和野生型(例如良性)基因型(例如序列)形式，或者编码癌蛋白h-Ras(也称为转化蛋白p21)的RAS/MAPK途径的第三个成员的哺乳动物细胞中测定。小GTP酶Ras超家族的Ras亚家族中的一个小G蛋白，h-Ras(与三磷酸鸟苷结合后)可以激活RAF家族激酶(例如c-Raf)，从而导致MAPK/ERK途径的细胞激活。

图14A示出了野生型和突变型哺乳动物细胞(HEK293)在二维平面上的投影1402，所述二维平面是通过细胞的t-随机邻域嵌入(tSNE)基于它们归一化的单细胞基因表达测量结果得出的。如图14A中所示，低阶分子得分可以从超过33,500个基因的分子测量结果得出，每个细胞平均约3500个分子测量结果。可应用主成分分析(PCA)来得到降低低阶分子得分的维度的高阶分子得分。可应用高斯混合模型(GMM)将投影的细胞基于从它们归一化的单细胞基因表达测量结果(例如UMI计数)得到的低阶分子得分，分配给分子状态1404，从而定义例如N＝6个细胞亚群。伪疾病相关联基因型和良性基因型可通过分别将突变型细胞和野生型细胞随机分配给例如k_P＝15个疾病相关联伪群和k_B＝15个良性伪群而生成。为了训练和测试能够区分疾病相关联基因型和良性基因型的机器学习功能模型(m_F)，可以应用例如80/20交叉验证方案将伪群(k_P1–15、k_B1–15)分为训练集和测试集，从而导致例如，每个类别标签(例如，疾病相关联的和良性的)的k_训练＝12个训练基因型和k_测试＝3个测试基因型，统称为真集。可在f＝5个折子的每个中重复此过程，例如，i＝25次迭代，其中在每个折子中，可以对伪群(例如k_P1–15、k_B1–15)内的细胞进行采样替换以保留，例如20％、40％、60％、80％或100％的细胞。在每个迭代、折子和采样中，可将疾病相关联基因型和良性基因型的低阶分子信号和高阶分子信号分别计算为低阶分子得分和高阶得分的平均值。在每个迭代、折子和采样中，可将疾病相关联基因型和良性基因型的群体信号确定为对应于例如N＝6个亚群每一者的细胞的比率。在每个迭代、折子和采样中，机器学习功能模型(m_F)可基于k_训练数据中观察到的低阶分子信号、高阶分子信号或群体信号，从真集中划分疾病相关联基因型和良性基因型。可以使用10折交叉验证策略以及随机森林估计器来训练此功能模型(m_F)，以对变体进行划分。在每个迭代、折子和采样中，经训练的功能模型(m_F)可基于k_测试伪群的低阶分子信号、高阶分子信号或群体信号，预测其类别标签(例如疾病相关联的或良性的)。如图14B中所示，该方法可基于在突变型和野生型细胞群体内测定的低阶分子信号、高阶分子信号和群体信号，在疾病相关联基因型和良性基因型之间产生鲁棒的区分。

为了评价DML过程和系统作为在多基因和障碍情形下对疾病相关联(例如，致病性)分子变体进行准确鉴别的可扩展解决方案的性能，可使用统一的分布式DML处理管线进行对例如RAS/MAPK途径的三个基因(HRAS、PTPN11和MAP2K2)的分子和群体信号的预处理、缩放、归一化、降维以及计算。应用如上所述的类似训练/测试方案来评价分类准确率，在HRAS中的体细胞癌驱动分子变体(例如G12V)和PTPN11中的体细胞癌驱动分子变体(例如E76K)的分析中，DML过程可分别达到约99.9％和约100％的(例如，中值)原始分类准确率202，并且在PTPN11中的分子变体形式种系(例如遗传)障碍(例如N308D)和MAP2K2中的分子变体形式种系(例如遗传)障碍(例如F57C、P128Q)的分析中，(例如中值)原始分类准确率204分别为约98.5％和约96.1％，如图2A中所示。在已知会引起HRAS中的体细胞障碍、PTPN11中的种系障碍和MAP2K2中的种系障碍的分子变体的分类中，平衡准确率206、208(例如，马修相关系数，MCC)可分别为约99.4％、约100％、约95.2％和约90.1％，如图2B中所示。基于本文描述的分子信号和群体信号，在疾病相关联(例如，体细胞和种系、二者的组合)分子变体的分析中，原始分类准确率(例如，ACC)和平衡分类准确率(例如，MCC)可分别为约98.4％和约95.6％。

在一些实施方案中，本公开提供了通过应用统计机器学习模型来将低阶和高阶分子得分与模型系统(例如细胞)内所含的变体的已知表型影响相关联来得出模型系统水平(例如，细胞水平)表型得分的系统和方法。图3A和图3B示出了根据一些实施方案的机器学习模型的细胞水平原始分类准确率，该机器学习模型被训练以得出带有MAP2K2的野生型形式和突变型形式的细胞的表型得分。

在图3A中，种系条柱和增强条柱可表示基于细胞表型得分的排除在训练之外的具有MAP2K2种系障碍分子变体的测试细胞的平均分类准确率，其中训练仅基于MAP2K2中性分子变体和种系障碍分子变体(例如种系302)或包括来自PTPN11种系障碍分子变体的数据(例如增强304)。图3B中的种系302条柱和增强304条柱表示排除在训练之外的测试MAP2K2种系障碍分子变体的平均分类准确率，其是基于具有不同细胞数目的细胞群体的主要细胞表型得分确定的。如图3A中所示，种系条柱和增强条柱可对应于测试分子变体的分类的原始准确率，其中训练仅基于MAP2K2中性分子变体和种系障碍分子变体(例如，种系)或包括来自PTPN11种系障碍分子变体的数据(例如增强)。

图3A和3B展示了用逻辑回归(LR)分类器获得的数据，该分类器经训练以基于从(例如缩放的和/或归一化的)低阶分子得分计算为前100个主成分的高阶分子得分，对带有疾病相关联分子变体的细胞和带有野生型MAP2K2的细胞的二元分类。可以通过以下方式创建用于训练和测试的细胞集：将分子变体划分进训练箱和测试箱中，然后基于分子变体基因型将细胞划分进相应的训练集和测试集中，使得将具有特定疾病相关联分子变体的特定细胞集排除在训练之外。因此，分类测试性能可在排除在训练之外具有变体的整个细胞群体上计算。如图3A和图3B中所示，对于与MAP2K2中的种系(例如遗传)障碍相关联的分子变体，平均按细胞分类准确率可以为约80.3％。

在一些实施方案中，本公开描述了分子变体的表型后果的学习和预测，其是基于在相同的、相关的或相互作用的途径内的多个基因、分子元件中测定的分子、表型或群体信号。如图3A和图3B中所示，将来自与种系(例如遗传)障碍相关联的PTPN11分子变体的数据包含在内，可以使PTPN11中各种系障碍分子变体的平均按细胞分类准确率从约80.3％(例如，种系302)增加到约92.8％(例如，增强304)，从而证明所公开的DML方法和系统鉴别和利用明了的(coherent)细胞特性以对多个功能元件的分子变体的表型影响进行准确分类的能力。如图3A和图3B中所示，按细胞分类的性能增加可导致基于来自具有分子变体的细胞群体的多数类型分类对分子变体的分类增加。

在一些实施方案中，本公开提供了用于得出各功能元件(例如各基因)的功能得分和功能分类的系统和方法。在一些实施方案中，本公开提供了利用多个功能元件内的分子变体之间的一致分子信号来得出众多功能元件的功能得分和功能分类的方法。在一些实施方案中，本公开描述了结合使用诱变技术、分子条形码编码技术、分子克隆技术和细胞汇集技术来生成细胞群的系统和方法，在所述细胞群中独特功能元件中的分子变体被独特地创建、条形码编码或这两者。

在一些实施方案中，分子、表型或群体信号(例如特征)的独立或不相交的估计可用于通过统计(例如机器)学习来得出独立或不相交的功能得分和功能分类，所述统计(例如机器)学习分别通过回归技术和分类技术将分子信号(例如特征)与分子变体的表型影响(例如标签)相关联。

在一些实施方案中，使用领域普通技术人员将理解的技术，将来自使用每个分子、表型或群体信号的独立或不相交的估计生成的统计(例如机器)学习模型的特征权重进行计算、收集并用于鲁棒的特征选择。在一些实施方案中，本公开提供了通过统计(例如机器)学习来得出功能得分和功能分类的方法，所述统计(例如机器)学习分别通过回归技术和分类技术将所鉴别的鲁棒的分子、表型或群体信号(例如，鲁棒的特征)与分子变体的表型影响(例如标签)相关联。

在一些实施方案中，本公开描述了从多个统计(例如机器)学习模型得出功能得分和功能分类的系统和方法，所述统计(例如机器)学习模型是利用分子信号的独立或不相交的估计，应用模型选择或模型组合(例如混合)技术(Pan等人，2006年)而生成的。

在应用模型选择技术的一些实施方案中，可以使用测量模型的预测性能或模型为真实模型的概率的模型选择标准来比较模型，并且可以应用选择以使选择标准的估计最大化。如本领域普通技术人员所理解的，可以应用多种模型选择标准，包括(但不限于)赤池信息准则(AIC)、贝叶斯信息准则(BIC)、交叉验证(CV)、Bootstrap(Efron，1983年；Efron， 1986年；Efron和Tibshirani，1997年)，或在训练数据或输入测试数据上计算的自适应模型选择标准(George和Foster，2000年；Shen和Ye，2002年；Shen等人，2004年)，如测试输入依赖性权重(IDW)所示例的。候选模型的IDW可定义为模型对给定输入给出正确预测的概率或量化模型对输入测试数据的预测性能的合理度量(Pan等人，2006年)。

在应用模型组合技术的一些其它实施方案中，可以通过应用集成方法，通过取各个模型的输出的相等或不相等加权平均值来产生组合模型(Ripley，2008年；Hastie等人， 2001年)。例如，集成方法可以包括但不限于贝叶斯模型平均、堆叠法(stacking)、自助聚合法(bagging)、随机森林、提升法(boosting)、ARM，以及使用性能指标(例如AIC和BIC)作为在训练数据上计算的(Burnham和Anderson，2003年；Hastie等人，2001年)或在输入测试数据上计算的(Pan等人，2006年)权重。在应用模型组合技术的一些其它实施方案中，可以应用人工神经网络(ANN)架构来生成组合模型。在一些实施方案中，本公开描述了用于从多个统计(例如机器)学习模型得出功能得分和功能分类的系统和方法，所述统计(例如机器)学习模型是利用涉及应用各种噪声控制技术(例如，Bootstrap Ensemble with NoiseAlgorithm(Yuval Raviv，1996年))的分子信号的独立或不相交的估计生成的。

在一些实施方案中，本公开描述了用于估计分子变体的功能得分和功能分类的系统和方法，所述系统和方法是应用统计(例如机器)学习技术来生成推理模型(m_I)，所述推理模型对(例如测定终点)功能得分或功能分类与多个依赖性(例如，已测定的)特征(例如，分子、表型或群体信号)或独立的(例如，非测定的)特征(例如，与变体、基因组坐标、转录物(例如RNA)坐标、翻译(例如蛋白质)坐标、氨基酸以及本领域普通技术人员将理解的各种其它项相关联的进化的、群体的、功能的(例如基于注释的)、结构的、动力学的和物理化学的特征)之间的关系进行建模。如本领域普通技术人员将理解的，这样的推理模型(m_I)可以允许在有或没有明确使用分子、表型或群体信号、分子测量结果、分子过程、分子特征或分子得分的情况下估计分子变体的功能得分和功能分类。在一些实施方案中，此类方法可以允许对功能得分和功能分类未被直接测量的分子变体推理描述其功能得分和功能分类的序列-功能图。在一些实施方案中，如图15中所示，这样的系统和方法可以允许利用来自序列功能图1502(代表可能的非同义变体的子集)的功能得分和功能分类，对蛋白质编码基因中所有可能的非同义变体推理描述其功能得分或功能分类的序列-功能图1514。在一些实施方案中，这种推理可以利用得分回归层1504，其访问作为输入的由注释特征1508、标签1510和功能得分1512组成的注释矩阵1506。如本领域普通技术人员将理解的，可以将多种统计验证和交叉验证技术应用于监视并确保所估计的功能得分和功能分类的准确率。

在一些实施方案中，如图16中所示，本公开描述了用于通过一系列建模层来确定分子变体的表型影响(例如，致病性、功能性或相对效应)的系统和方法，所述一系列建模层(a)收集或生成表型影响的现有知识或可靠预测，(b)通过对具有已知的、高可信度预测的和未知的表型影响的采样分子变体进行功能建模(例如，通过功能建模引擎(FME)执行)来扩大具有已知的或预测的表型影响的分子变体集，以及(c)通过推理建模进一步完善具有已知的或预测的表型影响的分子变体集。结合起来，这些层可扩展(或优化)可用于功能模型(m_F)1607生成的真集的范围，并减少(或优化)功能模型(m_F)1607生成的对推理模型(m_I)1609的支持的所需范围。在一些实施方案中，这些系统和方法可以克服表型影响(例如致病性、功能性或相对效应)已知的分子变体的可用性有限的功能元件(例如基因)和背景的训练、验证和测试的局限性。这样的系统和方法从而使得能阐明原本对于模型产生而言数据有限的功能元件(例如基因)的分子变体的表型影响，并且可以降低总成本。

在一些实施方案中，如图16中所示，这样的系统和方法可以组合以下建模层中的一个或多个来实现此目的：(1)预测模型(m_P)1603，(2)采样模型(m_S)1605，(3)功能模型(m_F)1607，以及(4)推理模型(m_I)1609。在一些实施方案中，本公开描述了访问来自现有来源的具有已知表型影响(例如，致病性或良性)的分子变体以填入描述基因/功能元件中的分子变体的表型影响的序列-功能图1602的系统和方法。在一些实施方案中，充分表征的预测模型(m_P)1603可用于产生增强的序列-功能图1604，其并入了具有高置信度预测的分子变体的表型影响。在一些实施方案中，应用采样模型(m_S)1605来生成一组基因型(例如分子变体)1606，其含有(a)通过对具有已知的或高置信度预测的表型影响的分子变体进行选择或子采样而得到的真集，和(b)具有未知表型影响的分子变体的目标集。

在一些实施方案中，本公开描述了使用统计(例如，机器)学习来生成功能模型(m_F)1607，该功能模型将分子、表型或群体信号与从真集中(例如来自基因型1606)的分子变体学到的功能得分和功能分类相关联，以预测目标集中(例如，来自基因型1606)的分子变体的功能得分和功能分类，从而产生功能得分的序列-功能图1608。

在一些实施方案中，如图16中所示，功能模型(m_F)1607访问增强的真集1611和1612，其包括来自相同的、相关的或相互作用的途径中的多个功能元件(例如基因)的分子和群体信号。这种能力可以使系统能基于来自具有明了的作用机理的功能元件(例如基因)的分子、表型或群体信号，为具有已知的或高度置信预测的表型影响的分子变体的可用性有限或者没有的功能元件(例如基因)生成功能模型(mF)1607。图3A和图3B示出了其实例。

在一些实施方案中，推理模型(mI)1609可利用已知的分子变体、高置信预测的分子变体以及功能建模的分子变体的表型影响，所述推理模型对表型影响与多个依赖性(例如，已测定的)特征(例如，分子、表型或群体信号)或独立的(例如，非测定的)特征(例如，与变体、基因组坐标、转录物(例如RNA)坐标、翻译(例如蛋白质)坐标、氨基酸以及本领域普通技术人员将理解的各种其它项相关联的进化的、群体的、功能的(例如基于注释的)、结构的、动力学的和物理化学的特征)之间的关系进行建模以产生功能得分的增强的序列-功能图1610。如本领域普通技术人员将理解的，这样的推理模型(m_I)1609可以允许在有或没有明确使用分子、表型或群体信号的情况下估计分子变体的表型影响。

在一些实施方案中，本公开描述了通过在分子变体的真集和目标集(查询集)上分阶段部署深度突变学习(DML)过程和系统来优化分子变体分类的成本效率的系统和方法。一些实施方案包括例如图6中所示的第I阶段优化610步骤，其中(在细胞数量、读段深度优化612中)在高模型系统(例如，细胞)数量和读段深度下测定包含真集变体的模型系统(例如，细胞)，以生成用于降维模型(m_DR)614(诸如自动编码器(m_AE))和功能模型(m_F)616优化的高质量数据。在此第一阶段，可以优化分子变体的目标表型影响的降维和分类准确率以确定可保证鲁棒的目标性能的降维模型(614)、功能模型(616)与细胞数、读段深度(612)的组合。在一些实施方案中，可将子采样和噪声仿真用于降维模型和功能模型的性能的训练和建模。如图6中所示，某些实施方案包括第II阶段生产620步骤，其中含有目标集变体以及任选的真集变体的模型系统(例如，细胞)可以在采用当部署特定的降维模型624和功能模型626时被确定为鲁棒的(例如，最佳或最小的)细胞数量和/或读段深度的部署622中进行测定。

在一些实施方案中，本公开描述了基于如上所述确定的功能得分和功能分类来确定在受试者的生物样品或记录内鉴别的分子变体的表型影响(例如，致病性、功能或相对效应)的系统和方法。在一些实施方案中，可以创建、评价、验证、选择并应用一组(例如，多个独特的)分子变体的功能得分和功能分类的归并的带时间戳记录，以确定在受试者的生物样品或记录内鉴别分子变体的表型影响。

在一些实施方案中，本公开描述了基于来自计算预测器的预测器得分或预测器分类确定在受试者的生物样品或记录内所鉴别的分子变体的表型影响(例如，致病性、功能性或相对效应)的系统和方法，所述计算预测器通过应用统计(例如机器)学习方法来利用功能得分和功能分类而生成。

在一些实施方案中，如图17中所示，本公开描述了通过统计(例如，机器)学习技术来生成(例如低阶)变体解释引擎(VIE)的方法，所述变体解释引擎(VIE)可以是基因特异性的和条件特异性的，所述统计(例如，机器)学习技术基于输入标签1714和包括它们的功能得分1702、1708(或功能分类)的注释矩阵1706和其它注释特征1710对分子变体的表型影响1712进行建模，所述其它注释特征1710包括计算预测器创建中常用的特征，包括但不限于与功能元件的变体和残基相关联的进化的、群体的、功能的(例如基于注释的)、结构的、动力学的和物理化学的特征。在一些实施例中，训练和验证层1704可采用交叉验证技术1716(例如，K-折或LOOCV)来训练和质量控制VIE，随后由测试层1718对其进行评价，以得出用于分子变体分类的预测器得分1720。

在一些实施例中，本公开还描述了应用模型组合技术来生成途径特异性和条件特异性的(高阶)变体解释引擎(VIE)的系统和方法，所述模型组合技术可整合来自所关注目标途径中多个基因的(低阶)基因特异性和条件特异性的变体解释引擎(VIE)。在其它实施方案中，本公开还描述了通过统计(例如机器)学习技术来生成途径特异性和条件特异性的(高阶)变体解释引擎(VIE)的系统和方法，所述统计(例如机器)学习技术基于它们的功能得分、功能分类以及计算预测器创建中常用的其它特征(包括但不限于与功能元件的变体和残基相关联的进化的、群体的、功能的(例如基于注释的)、结构的、动力学的和物理化学的特征)对分子变体的表型影响进行建模。

在一些实施方案中，本公开描述了基于来自突变热点的热点得分和热点分类来确定在受试者的生物样品或其记录内所鉴别的分子变体的表型影响(例如，致病性、功能性或相对效应)的系统和方法，所述突变热点通过应用空间聚类技术利用本文描述和启用的与分子变体和残基相关联的功能得分、功能分类和分子信号鉴定具有特定表型影响的残基网络来计算。

在一些实施方案中，本公开描述了通过以下方式得出分子变体或它们的对应残基之间的功能距离的矩阵的系统和方法：(1)计算在由一组M个功能得分、功能分类和分子信号(如上所述)定义的N维空间(1≤N≤M)中投影的分子变体之间的距离度量，其中当应用降维技术来减少分子变体的特征-空间时，N<M。如本领域普通技术人员将理解的，可以应用各种降维技术，包括但不限于依赖于线性变换的技术(如主成分分析(PCA)中)或依赖于非线性变换的技术(如各种各样的学习技术(例如t分布随机邻域嵌入(tSNE)和内核主成分分析(kPCA))中)。如本领域普通技术人员将理解的，可以利用各种距离度量，包括但不限于欧几里得距离、曼哈顿距离(例如城市街区)、马哈拉诺比斯距离或切比雪夫距离，以及各种其它距离。

在一些实施方案中，本公开描述了通过在多种空间距离度量(包括本文所述且启用的功能距离、序列距离、结构距离、(共)进化距离以及它们的组合)上应用空间聚类技术对功能元件(例如蛋白质编码基因)的空间上邻近的残基内的表型相关联突变密度(例如，每个残基所观察到的表型相关联变体的数目)进行测量和评分，来鉴别显著突变区域(SMR)和显著突变网络(SMN)的系统和方法。

在一些实施例中，如图18中所示，SMR/SMN的鉴定可应用训练/验证层1804，以鉴别基于分子变体的功能得分的共同性而确定的表型相关或功能相关的分子变体1806之间的空间聚类。在一些实施方案中，可以从蛋白质编码基因1802的序列-功能图中的分子变体的功能得分鉴别这些共性。

在一些实施方案中，如图18中所示，训练/验证层1804中的SMR/SMN的鉴别可包括一系列步骤，包括但不限于：(1)SMR/SMN检测技术1805，用于鉴别在具有特定表型关联的分子变体中富集的单残基或残基网络，如先前所述的(Araya等人，2016年，美国专利申请20160378915A1)，以及(2)SMR/SMN选择技术1815。

SMR/SMN检测技术1805可包括一系列步骤，包括但不限于：(1.1)在功能、序列、结构或(共)进化维度(或它们的组合)上对表型相关联分子变体1806进行投影1810，(1.2)应用空间聚类技术1812(例如，DBSCAN)检测在空间上邻近的表型相关联变体的簇，以及(1.3)测量簇中每个残基的表型相关联变体的突变密度、评分数。

SMN检测技术1805可还包括1814中指示的步骤，包括但不限于：(1.4)在给定每个功能元件(例如蛋白质编码基因)内的每残基突变率的情况下，通过(例如)计算每个簇获得k个或更多个(例如，大于或等于k个)观察到的表型相关联变体的(例如，二项式)概率，对突变密度概率进行评分，(1.5)对所发现的簇的突变密度概率应用多重假设校正(MHC)，以及(1.6)使用突变密度概率的背景模型计算所观察到的(例如，原始的或校正的)突变密度概率的假发现率(FDR)，该背景模型通过使每个功能元件内所观察到的表型相关联变体的位置随机化而得出。

训练/验证层1804可进一步执行SMR/SMN选择技术1815。SMR/SMN选择技术可包括以下步骤：(2.1)将(例如，原始的或校正的)突变密度概率和/或假发现率(FDR)定义为热点得分并应用截止值来统计定义热点分类，从而在候选簇(例如，序列1816、功能1818和序列1820)中指定残基，(2.2)从多个独特的投影/空间检测候选簇中的残基，(2.3)应用分配试探法将残基分配给各个簇(例如，选择大小最大的簇(例如，残基数最多的簇))，以及(2.4)将SMR/SMN鉴别为符合这些标准的簇的最终集合。可从多个独特的投影(例如，序列1820、功能1818或者序列、功能(组合)1822)得出最终的SMR/SMN集。

在一些实施方案中，本公开描述了通过在多种空间距离度量上应用空间聚类技术对功能元件(例如蛋白质编码基因)的空间上邻近的残基内的表型相关联突变密度(例如，每残基所观察到的表型相关联变体的数目)进行测量和评分，来鉴别SMR/SMN的系统和方法，其中所述表型相关联变体可基于本文所述的功能得分和功能分类来定义。如本领域普通技术人员将理解的，这些方法可允许确定其中可出现具有明确限定的表型影响的变体的残基簇。

在一些实施方案中，本公开描述了系统和方法，其用于评价用于解释分子变体的独立证据数据集，诸如来自计算预测器(例如，M-CAP、REVEL、SIFT和PolyPhen2)以及基因特异性预测器(例如PON-P2)、突变热点和群体基因组学指标(例如，基于等位基因频率的变体分类)的定量(例如得分)或定性(分类)证据(Amendola等人，2016年)，相对于本文所述的功能得分和功能分类的准确率、性能或鲁棒性。

在一些实施例中，本公开描述了计算用以评估证据数据集与本文描述的功能得分和功能分类之间的一致性的评价指标，并基于这些评价指标选择供用于变体解释和优先级排序的表现最好的证据数据集的系统和方法。如本领域普通技术人员将理解的，可以使用各种评价指标来评估证据数据集相对于本文描述的功能得分或功能分类的一致性。对于定量证据(例如得分)，这些评价指标可包括皮尔逊相关系数、斯皮尔曼等级相关、肯德尔相关以及本领域普通技术人员应该理解的各种其它评价指标。对于定性证据(例如分类)，这些评价指标可包括准确率、马修斯相关系数、科恩kappa系数、约登指数(例如informedness)、F量度(例如F₁得分)、真阳性率(例如灵敏度或召回率)、真阴性率(例如特异性)、阳性预测值(例如精确率)、阴性预测值、阳性似然比、阴性似然比和诊断比值比，以及本领域普通技术人员应该理解的各种其它评价指标。

在一些实施方案中，本公开描述了系统和方法，其可基于上述评价指标连续地评价、验证和优化(例如，选择、移除或修改)各种证据数据集，并经由应用程序接口(API)将表现最好的(例如独立的)证据数据集分发给客户端系统以用于变体解释和优先级排序实践，从而确定受试者的生物样品或其记录内鉴别的分子变体的表型影响(例如，致病性、功能性或相对效应)。

在一些实施例中，本公开描述了确定存在于变体的数据集内的确认偏差、报告偏差或结果偏差的程度的系统和方法，所述变体的数据集包括临床数据集(例如，ClinVar、HumVar、VariBench、SwissVar、PhenCode或位点特异性数据库)、群体数据集(例如，ExAC、GnomAD和1000基因组)，或用于解释分子变体的独立证据数据集，诸如但不限于计算预测器(例如，M-CAP、REVEL、SIFT、PolyPhen2以及PON-P2)。在一些实施方案中，本公开描述了基于本文描述的与分子变体和残基相关联的功能得分、功能分类和分子信号的预期分布来确定偏差的系统和方法。

在一些实施方案中，本公开描述了通过对目标数据集内的分子变体和残基的功能得分、功能分类和分子信号的分布与来自参考数据集的分子变体的功能得分、功能分类和分子信号的预期分布之间的差异进行测量和评分，来评价目标变体数据集的系统和方法。在一些实施方案中，目标变体数据集内的固有偏差的测量可包括一系列步骤，包括但不限于：(1)收集目标数据集和参考数据集中与分子变体相关联的功能得分、功能分类和分子信号，(2)估计参考数据集内与分子变体相关联的功能得分、功能分类或分子信号的概率密度函数，(3)估计目标数据集内与分子变体相关联的功能得分、功能分类或分子信号的概率密度函数，以及(4)测量功能得分、功能分类或分子信号的目标数据集得出的概率密度函数与参考数据集得出的概率密度函数之间的统计距离。在一些实施方案中，目标变体数据集内的固有偏差的测量包括一系列步骤，包括：(5)从参考数据集采样变体(例如，以匹配目标数据集的样本群体大小)，(6)估计步骤5中的采样参考数据集的功能得分、功能分类或分子信号的概率密度函数，(7)测量功能得分、功能分类或分子信号的目标数据集得出的概率密度函数与采样参考数据集得出的概率密度函数之间的统计距离，(8)迭代步骤5-8以获得目标数据集与参考数据集的功能得分、功能分类或分子信号的概率密度函数之间的统计距离的鲁棒性估计和置信区间。在一些实施方案中，上述用于偏差的检测和统计评价的系统和方法允许鉴别其中所包含的变体具有的功能得分、功能分类或分子信号与参考数据集中所预期的不同的临床数据集、群体数据集或证据数据集。

在一些其它实施方案中，本公开描述了通过一系列步骤来评价证据数据集内的潜在偏差的系统和方法，所述步骤包括但不限于：(1)将证据数据集和参考数据集划分进匹配的分位数集(例如，用于定量证据得分)或类别集(例如，定性证据分类)；(2)就多种特性(例如，与变体相关联的进化特征、群体特征、功能(例如，基于注释的)特征、结构特征、动力学特征和物理化学特征)对每个集内的变体进行评分；(3)估计每个集(例如，证据集与参考集)内每种特性得分的概率密度函数；(4)测量每种特性得分的证据集得出的概率密度函数与参考集得出的概率密度函数之间的统计距离；以及(5)鉴别参考集与证据集之间得分具有统计学显着性差异的特性。

在一些实施方案中，本公开描述了系统和方法，其可基于上述偏差指标连续地评价和选择各种证据数据集，并经由应用程序接口(API)将偏差最小的(例如独立的)证据数据集分发给客户端系统以用于变体解释和优先级排序实践，从而确定受试者的生物样品或其记录内鉴别的分子变体的表型影响(例如，致病性、功能性或相对效应)。

在一些实施方案中，本公开描述了基于功能元件(例如基因)和途径中本文所述的功能得分、功能分类、预测器得分、预测器分类、热点得分和热点分类来确定受试者的生物样品或记录内所鉴别的分子变体的表型影响(例如，致病性、功能或相对效应)的系统和方法，所述功能元件和途径为孟德尔病相关联的(例如表1)、为已知的癌症驱动基因(例如表2)、其中基因型(例如序列)变异与药物响应变异相关联的药物基因组学基因(表3)或其它临床上有价值的基因(例如表4)。

在一些实施方案中，本公开描述了系统和方法，其用于评价、选择、分发和利用独立的证据(基于本文所述的功能得分和分类被确定为表现最好且偏差最小)，以供功能元件(例如基因)和途径中的变体的解释和优先级排序，所述功能元件和途径为孟德尔病相关联的(例如表1)、为已知的癌症驱动基因(例如表2)、其中基因型(例如序列)变异与药物响应变异相关联的药物基因组学基因(表3)或其它临床上有价值的基因(例如表4)。

如上面所论述的，表1是根据一些实施方案的与孟德尔病相关联的功能元件和途径的示例表。表2是根据一些实施方案的作为已知的癌症驱动基因的功能元件和途径的示例表。表3是根据一些实施方案的其中基因型(例如序列)变异与药物响应变异相关联的药物基因组学基因的示例表。表4是根据一些实施方案的其它临床上有价值的基因的示例表。表1-4可以在说明书的第47页上找到。

在一些实施方案中，本公开描述了基于已知致病性变异目标(包括(但不限于)突变热点)内的变体，或者在这种热点的例如50个、100个、500个和1,000个碱基对(bp)内的变体的本文所述和启用的功能得分、功能分类、预测器得分、预测器分类，来确定受试者的生物样品或记录内所鉴别的分子变体的表型影响(例如，致病性、功能或相对效应)的系统和方法。在一些实施方案中，本公开描述了基于群体中的变异受限区域内的变体，或者在这种区域的例如50、100、500和1000bp内的变体的功能得分、功能分类、预测器得分或预测器分类，来确定受试者的生物样品或记录内所鉴别的分子变体的表型影响(例如，致病性、功能或相对效应)的系统和方法。如本领域普通技术人员将理解的，可应用多种方法来确定突变热点和变异受限区域。

可例如使用一种或多种计算机系统(诸如图19中所示的计算机系统1900)来实现各种实施方案。计算机系统1900可例如用于实现图1A、图6-13和图15-18的方

法。计算机系统1900可以是能够执行本文描述的功能的任何计算机。

计算机系统1900可以是能够执行本文描述的功能的任何公知的计算机。

计算机系统1900包括一个或多个处理器(也称为中央处理单元或CPU)，诸如处理器1904。处理器1904连接至通信基础架构或总线1906。

一个或多个处理器1904可各自是图形处理单元(GPU)。在一个实施方案中，GPU是作为设计用于处理数学密集型应用的专用电子电路的处理器。GPU可具有并行结构，可有效用于大数据块(诸如计算机图形应用程序、图像、视频等常见的数学密集型数据)的并行处理。

计算机系统1900还包括通过用户输入/输出接口1902与通信基础架构1906通信的用户输入/输出装置1903，诸如监视器、键盘、指针设备等。

计算机系统1900还包括主存储器1908，诸如随机存取存储器(RAM)。主存储器1908可包括一级或多级缓存。主存储器1908在其中存储了控制逻辑(例如计算机软件)和/或数据。

计算机系统1900还可包括一个或多个辅助存储设备或存储器1910。辅助存储器1910可包括例如本地、网络或云可访问硬盘驱动器1912和/或可移动存储设备或驱动器1914。可移动存储驱动器1914可以是软盘驱动器、磁带驱动器、光盘驱动器、光存储设备、磁带备份设备和/或任何其它存储设备/驱动器。

可移动存储驱动器1914可与可移动存储单元1918交互。可移动存储单元1918包括计算机可用的或可读的存储设备，其上存储有计算机软件(控制逻辑)和/或数据。可移动存储单元1918可以是软盘、磁带、光盘、DVD、光学存储盘和/或任何其它计算机数据存储设备。可移动存储驱动器1914以众所周知的方式读取和/或写入可移动存储单元1918。

根据示例性实施方案，辅助存储器1910可包括用于允许计算机系统1900访问计算机程序和/或其它指令和/或数据的其它装置、机构或其它方法。这种装置、机构或其它方法可包括例如可移动存储单元1922和接口1920。可移动存储单元1922和接口1920的实例可包括程序盒和盒式接口(诸如存在于视频游戏设备中的那些)、可移动存储芯片(诸如EPROM或PROM)和相关联插座、存储棒和USB端口、存储卡和相关联存储卡插槽，和/或任何其它可移动存储单元和相关联接口。

计算机系统1900还可包括通信或网络接口1924。通信接口1924使得计算机系统1900能够与远程设备、远程网络、远程实体等的任何组合通信和交互(由参考标号1928单独地和总体地指代)。例如，通信接口1924可以允许计算机系统1900通过通信路径1926与远程设备1928通信，通信路径1926可以是有线和/或无线的，并且可包括LAN、WAN、因特网等的任何组合。控制逻辑和/或数据可经由通信路径1926传送到计算机系统1900和从计算机系统1900传送。

在一个实施方案中，包括在其上存储有控制逻辑(软件)的有形计算机可用或可读介质的有形设备或制品在本文中也称为计算机程序产品或程序存储设备。这包括但不限于计算机系统1900、主存储器1908、辅助存储器1910和可移动存储单元1918和1922，以及体现上述任何组合的有形制品。当由一个或多个数据处理设备(诸如计算机系统1900)执行时，这种控制逻辑会使这种数据处理设备如本文所述进行工作。

基于本公开中包含的教导，对相关领域的技术人员将显而易见的是，如何使用除图12中所示之外的数据处理设备、计算机系统和/或计算机架构来制造和使用本公开的实施方案。具体而言，实施方案可以使用除本文所述之外的软件、硬件和/或操作系统实现来操作。

应当理解，具体实施方式部分而不是任何其它部分旨在用于解释权利要求。其它部分可以阐述发明人所设想的一个或多个但不是所有示例性实施方案，因此，无意于以任何方式限制本公开或所附权利要求。

虽然本发明描述了用于示例性领域和应用的示例性实施方案，但应当理解，本发明不限于此。其它实施方案及其修改形式是可能的，并且在本公开的范围和精神范围内。例如，并且在不限制本段的一般性的情况下，实施方案不限于附图中所示和/或本文中所描述的软件、硬件、固件和/或实体。此外，实施方案(无论这里是否明确描述)对于本文所述的实例之外的领域和应用具有重大的实用性。

在此已借助于示出特定功能及其关系的实现的功能构造块描述了实施方案。为了描述的方便，本文已任意定义了这些功能构造块的边界。可以定义备选的边界，只要恰当地执行所指定的功能和关系(或其等效项)即可。而且，备选的实施方案可以使用与本文描述的顺序不同的顺序来执行功能块、步骤、操作、方法等。

本文中提及“一个实施方案”、“实施方案”、“示例性实施方案”或类似短语表示所描述的实施方案可包括特定的特征、结构或特性，但是每一实施方案可不一定包括该特定的特征、结构或特性。此外，这些短语不一定指同一实施方案。此外，当结合实施方案描述特定的特征、结构或特性时，将这种特征、结构或特性结合到其它实施方案中将在相关领域技术人员的知识范围内，而无论是否在本文中明确提及或描述。另外，可以使用表述“耦合”和“连接”及其派生词来描述一些实施方案。这些术语不一定是彼此的同义词。例如，可以使用术语“连接”和/或“耦合”来描述一些实施方案，以指示两个或多个元件彼此直接物理或电接触。然而，术语“耦合”也可意指两个或多个元件彼此之间没有直接接触，但仍然相互合作或相互作用。

本公开的广度和范围不应受限于任何上述示例性实施方案，而应仅根据以下权利要求书及其等同物来限定。

表1孟德尔病

1/2

基因(HGNC符号)

BRCA1

BRCA2

APOB

LDLR

PCSK9

SCN5A

APC

MLH1

MSH2

MSH6

STK11

MUTYH

MYH7

LMNA

MYBPC3

TNNI3

TNNT2

KCNQ1

KCNH2

SDHB

ACTA2

MYH11

VHL

RET

SDHAF2

SDHC

SDHD

TP53

TSC1

TSC2

NF2

PTEN

RB1

RYR1

GLA

RYR2

TGFBR1

TGFBR2

ACTC1

CACNA1S

COL3A1

DSC2

DSG2

DSP

FBN1

表1孟德尔病

2/2

基因(HGNC符号)

MEN1

MYL2

MYL3

PKP2

PMS2

PRKAG2

SMAD3

TMEM43

TPM1

WT1

BMPR1A

SMAD4

ATP7B

OTC

表2癌症驱动基因(CCG La)

1/14

基因(HGNC符号)

TP53

PIK3CA

ARID1A

RB1

PTEN

KRAS

BRAF

CDKN2A

NRAS

FBXW7

STAG2

NFE2L2

NF1

IDH1

ATM

PIK3R1

CASP8

HRAS

MLL2

SF3B1

ERBB2

CREBBP

AKT1

HLA-A

CTCF

ERBB3

CTNNB1

RUNX1

MYD88

SMARCA4

EP300

SETD2

SMARCB1

EGFR

TBL1XR1

U2AF1

EZH2

RAC1

MLL3

IL7R

CD79B

POU2AF1

MAP2K1

PTPN11

CCND1

表2癌症驱动基因(CCG La)

2/14

基因(HGNC符号)

MAP2K4

TCF7L2

KIT

CDK4

FOXA1

TSC1

FAT1

WT1

BCOR

XPO1

PRDM1

KEAP1

NSD1

PPP2R1A

CDKN1B

ASXL1

MET

RPL5

MYCN

TNFRSF14

FLT3

ALK

KDM5C

KDM6A

APC

PBRM1

STK11

RAD21

EZR

SPOP

TET2

PHF6

IRF4

DDX5

CCDC6

HIST1H3B

CARD11

IDH2

MLL

FGFR2

CDK12

ERCC2

B2M

MED12

CEBPA

NOTCH1

BRCA1

MAP3K1

VHL

DNMT3A

表2癌症驱动基因(CCG La)

3/14

基因(HGNC符号)

FGFR3

NPM1

FAM46C

CBFB

GATA3

MYB

CDH1

BAP1

ELF3

ZNF198

MALT1

WIF1

KDR

SFRS3

MXRA5

SS18

TAL1

RXRA

TCEA1

HEAB

THRAP3

RUNDC2A

SLC44A3

TNF

TAL2

FLJ27352

LAF4

STK19

DDX10

MSI2

NUTM2A

POU5F1

TRIP11

STAT5B

NCOA2

AZGP1

NCOA1

STAT3

NCOA4

OR52N1

CDKN2a(p14)

CEP1

TFPT

SUFU

HOXA13

DDB2

HOXA11

P2RY8

ECT2L

TRD@

表2癌症驱动基因(CCG La)

4/14

基因(HGNC符号)

IGH@

SMAD4

RBM10

LASP1

ROS1

KMT2D

WASF3

RBM15

PRKAR1A

KCNJ5

ATRX

EPHA2

BIRC3

HNRNPA2B1

OR4A16

NUTM2B

KLF4

MAP2K2

C15orf21

ERG

CD79A

SRGAP3

MLLT3

MITF

MN1

MLLT2

MLLT7

MLLT6

FAS

C15orf55

POU2F2

EIF2S2

MLLT4

EPS15

HERPUD1

TBC1D12

MLLT1

ALO17

CNOT3

FIP1L1

CBL

OLIG2

HOXC13

NT5C2

ABL1

ZNF521

PLAG1

TPM4

LMO1

LMO2

表2癌症驱动基因(CCG La)

5/14

基因(HGNC符号)

BLM

NTN4

SLC4A5

IRTA1

JAK3

PMS2

ATP1A1

TERT

CDH11

PTCH

DDX3X

HEY1

MORC4

TLX3

PALB2

BCR

BRCA2

MDM4

MDM2

BRD4

TFG

CSF3R

RPL10

PER1

ITPKB

PDSS2

CREB1

AF3p21

TRIM27

WRN

KIF5B

CHD8

RAB40A

GATA1

ATIC

CD1D

SETBP1

CRTC3

TNFRSF17

COL1A1

DUX4

ACVR1B

C16orf75

NIN

ZNF278

MAF

NF2

AKAP9

CCND2

MAX

表2癌症驱动基因(CCG La)

6/14

基因(HGNC符号)

MECT1

ARHGEF12

SEPT6

CBLB

FACL6

ALKBH6

CHN1

CBFA2T1

IL6ST

TCEB1

MEN1

FBXO11

HIST1H4I

RALGDS

BUB1B

FHIT

CRLF2

RASA1

TLX1

IGK@

SELP

TXNDC8

CACNA1D

GUSB

NUP214

NKX2-1

INPPL1

CBFA2T3

BCLAF1

TSC2

SDH5

CDC73

ZNF384

CDC27

OTUD7A

SIL

RANBP17

NDRG1

SMC3

FH

PAX7

CD273

HLA-B

PHOX2B

CD274

GNAS

GNAQ

PSIP1

ASPSCR1

GPHN

表2癌症驱动基因(CCG La)

7/14

基因(HGNC符号)

XIRP2

PAX8

MYOCD

FRMD7

RAP1GDS1

PAX3

AJUBA

SLC34A2

HLF

UBR5

REL

RPS2

GNA11

LHFP

TBX3

SMO

RET

PAPD5

RPS15

SS18L1

MYH11

EIF4A2

LCK

XPA

HSPCA

PPARG

CHIC2

HOXC11

H3F3B

JAK2

TFRC

ZNF620

SOX17

MTCP1

JUN

LCTL

TAF15

NONO

SRSF2

CHCHD7

MAML2

PPM1D

DAXX

H3F3A

JAK1

RIT1

CCND3

TRRAP

MED23

IGL@

表2癌症驱动基因(CCG La)

8/14

基因(HGNC符号)

SPEN

DIAPH1

CMKOR1

ZNF471

STL

POLE

MAP4K3

ING1

FOXO1A

LIFR

CHEK2

LCP1

AKT2

TPR

NFKB2

FOXL2

COL5A1

FEV

HMGA1

BCL3

HMGA2

CARS

PCSK7

ELL

GMPS

LYL1

BMPR1A

TGFBR2

SLC45A3

GRAF

HLXB9

HIST1H1E

DIS3

WWTR1

PDGFRA

PDE4DIP

ARID5B

ALDH2

STX2

SACS

ARNT

GOPC

SOS1

ITK

DICER1

KEL

CIC

RAB5EP

FVT1

PML

表2癌症驱动基因(CCG La)

9/14

基因(HGNC符号)

ADNP

FANCA

ABL2

C12orf9

BRIP1

MALAT1

FANCD2

PAFAH1B2

MUTYH

POT1

JAZF1

GNPTAB

FGFR1OP

RAD51L1

DNER

ZNF331

CD70

IKZF1

NCOR1

MLF1

MYH9

SYK

HCMOGT-1

FANCE

FANCF

FANCG

TPM3

NUP210L

INTS12

SDHC

RUNXBP2

BTG1

TTLL9

EML4

SDHB

CDK6

PMX1

PDGFRB

FOXO3A

NTRK1

CLTCL1

SH2B3

EBF1

GPC3

FGFR1

ETV6

NR4A3

SBDS

PIM1

ALPK2

表2癌症驱动基因(CCG La)

10/14

基因(HGNC符号)

PDGFB

CUL4B

YWHAE

ETV1

BCL10

PBX1

IL21R

CREB3L1

ATF1

FANCC

C2orf44

HSPCB

CANT1

PTPRC

WAS

NFIB

CREB3L2

AF1Q

NOTCH2

ABI1

SH3GL1

NBS1

OMD

SUZ12

TRA@

AF5q31

RSBN1L

BCL11B

MSH6

ERCC5

BCL11A

ERCC3

MSH2

NUMA1

KTN1

TFE3

IL2

MYCL1

LPP

HOXA9

RPL22

MSN

EVI1

BCL7A

AXIN1

NBPF1

ZNF9

MLH1

SFRS2

TRIM33

表2癌症驱动基因(CCG La)

11/14

基因(HGNC符号)

SIRT4

AXIN2

CIITA

ARHGAP35

SET

ELF4

HIP1

MSF

SOX2

FNBP1

CD74

TCL1A

RAF1

MADH4

COPEB

FLI1

CBLC

GATA2

EXT1

EXT2

MICALCL

DDIT3

D10S170

CDKN2C

MYC

GOLGA5

TRIM23

NTRK3

KLK2

SLC1A3

PRF1

ACSL3

NUP98

ELK4

CYLD

TMPRSS2

DDX6

CCNB1IP1

TTL

ZNF750

TIF1

SOCS1

PNUTL1

FOXQ1

ATP2B3

PMS1

FSTL3

PCBP1

KDM5A

ZNF145

表2癌症驱动基因(CCG La)

12/14

基因(HGNC符号)

PICALM

EWSR1

AF15Q14

BCL6

GNA13

BCL5

BCL9

ANK3

RHEB

BHD

QKI

PPP6C

CALR

PRCC

FCGR2B

BCL2

RPN1

SSX4

MDS2

TPX2

RARA

ZFHX3

TRB@

MDS1

MAFB

SLC26A3

SGK1

SDHD

CDX2

SSX1

ZRANB3

KIAA1549

SSX2

HOOK3

MTOR

SNX25

TCF1

MGA

LRIG3

PRDM16

ELKS

RHOA

ACO1

ELN

VTI1A

BRD3

MLLT10

RNF43

CDKN1A

ARID2

表2癌症驱动基因(CCG La)

13/14

基因(HGNC符号)

LCX

TFEB

WHSC1L1

ETV5

ETV4

HOXD11

GAS7

ARHH

IPO7

GOT1

SMAD2

WHSC1

TNFAIP3

TCL6

HOXD13

SDC4

PAX5

MPL

MPO

SFPQ

TCF3

NACA

RECQL4

SMC1A

ERCC4

TCF12

KLHL8

DNM2

CLTC

SMARCE1

DEK

XPC

USP6

FUBP1

PCM1

TRAF7

ZRSR2

FUS

FOXP1

FLG

TOP1

MUC1

TCP11L2

COX6C

MYST4

MUC17

CAMTA1

C3orf70

CUX1

CAP2

表2癌症驱动基因(CCG La)

14/14

基因(HGNC符号)

TRAF3

MKL1

CCNE1

TSHR

AMER1

CCDC120

CHD4

TAP1

表3药物基因组学(Pharm)

1/28

基因(HGNC符号)

A2M

ABAT

ABCA1

ABCA12

ABCA3

ABCA8

ABCB1

ABCB11

ABCB4

ABCB5

ABCB6

ABCB9

ABCC1

ABCC10

ABCC11

ABCC2

ABCC3

ABCC4

ABCC5

ABCC6

ABCC8

ABCC9

ABCD1

ABCD2

ABCG1

ABCG2

ABCG8

ABL1

ABO

ACBD4

ACE

ACE2

ACHE

ACP5

ACSS2

ACTG1

ACY3

ACYP2

ADA

ADAM12

ADAM33

ADAMTS1

ADAMTS14

ADCK4

ADCY2

表3药物基因组学(Pharm)

2/28

基因(HGNC符号)

ADCY9

ADD1

ADH1A

ADH1B

ADH1C

ADH7

ADIPOQ

ADK

ADM

ADORA1

ADORA2A

ADORA2A-AS1

ADRA1A

ADRA2A

ADRA2B

ADRA2C

ADRB1

ADRB2

ADRB3

ADRBK2

AFAP1L1

AGAP1

AGBL4

AGO1

AGT

AGTR1

AGXT

AHR

AIDA

AK4

AKR1C3

AKR1C4

AKR7A2

AKT1

AKT2

ALDH1A1

ALDH1A2

ALDH2

ALDH3A1

ALDH5A1

ALG10

ALOX12

ALOX15

ALOX5

ALOX5AP

AMHR2

AMPD1

ANGPT2

ANGPTL4

ANKFN1

表3药物基因组学(Pharm)

3/28

基因(HGNC符号)

ANKK1

ANKRD55

ANKS1B

ANXA11

AOX1

APBB1

APEH

APLF

APOA1

APOA4

APOA5

APOB

APOBEC2

APOC1

APOC3

APOE

APOH

AQP2

AQP9

ARAP1

ARAP2

AREG

ARG1

ARHGEF10

ARHGEF4

ARID5B

ARMS2

ARNT

ARNTL

ARRB2

ARVCF

AS3MT

ASIC2

ASPH

ASS1

ATF3

ATG16L1

ATG5

ATIC

ATM

ATP2B1

ATP5E

ATP7A

ATP7B

AXIN2

B4GALT2

BACH1

BAD

BAG6

BAZ2B

表3药物基因组学(Pharm)

4/28

基因(HGNC符号)

BCAP31

BCHE

BCL2

BCL2L11

BCR

BDKRB1

BDKRB2

BDNF

BDNF-AS

BGLAP

BLK

BLMH

BMP5

BMP7

BRAF

BRD2

BTG4

BTRC

C10orf107

C10orf11

C11orf30

C11orf65

C12orf40

C17orf51

C18orf21

C18orf56

C1orf167

C2

C20orf194

C3

C5

C5orf22

C8orf34

C9orf72

CA10

CA12

CACNA1A

CACNA1C

CACNA1E

CACNA1H

CACNA1S

CACNB2

CACNG2

CALU

CAMK1D

CAMK2N1

CAMK4

CAP2

CAPG

CAPN10

表3药物基因组学(Pharm)

5/28

基因(HGNC符号)

CAPZA1

CARD16

CARTPT

CASP1

CASP3

CASP7

CASP9

CASR

CAT

CBR1

CBR3

CBS

CCDC22

CCHCR1

CCL2

CCL21

CCND1

CCNH

CCNY

CCR5

CD14

CD28

CD38

CD3EAP

CD40

CD58

CD69

CD74

CD84

CDA

CDC5L

CDCA3

CDH13

CDH4

CDK1

CDK4

CDK9

CDKAL1

CDKN2B-AS1

CELF4

CELSR2

CEP68

CEP72

CERKL

CERS6

CES1

CES1P1

CES2

CETP

CFAP44

表3药物基因组学(Pharm)

6/28

基因(HGNC符号)

CFB

CFH

CFI

CFLAR

CFTR

CHAT

CHIA

CHIC2

CHL1

CHRM2

CHRM3

CHRM4

CHRNA1

CHRNA3

CHRNA4

CHRNA5

CHRNA7

CHRNB1

CHRNB2

CHRNB3

CHRNB4

CHST13

CHST3

CHUK

CLASP1

CLCN6

CLMN

CLNK

CLOCK

CMPK1

CNKSR3

CNOT1

CNPY4

CNR1

CNTF

CNTN4

CNTN5

CNTNAP2

COL18A1

COL1A1

COL1A2

COL22A1

COL26A1

COLEC10

COMT

COQ2

CPA2

CPS1

CR1

CR1L

表3药物基因组学(Pharm)

7/28

基因(HGNC符号)

CREB1

CRH

CRHR1

CRHR2

CRP

CRTC2

CRY1

CSK

CSMD1

CSMD2

CSMD3

CSNK1E

CSPG4

CSRNP3

CSRP3

CST5

CTH

CTLA4

CTNNA2

CTNNA3

CTNNB1

CUX1

CUX2

CXCL10

CXCL12

CXCL5

CXCL8

CXCR2

CXCR4

CXXC4

CYB5A

CYB5R3

CYBA

CYCSP5

CYP11B2

CYP19A1

CYP1A1

CYP1A2

CYP1B1

CYP24A1

CYP27B1

CYP2A6

CYP2B6

CYP2B7P1

CYP2C18

CYP2C19

CYP2C8

CYP2C9

CYP2D6

CYP2E1

表3药物基因组学(Pharm)

8/28

基因(HGNC符号)

CYP2J2

CYP2R1

CYP39A1

CYP3A

CYP3A4

CYP3A43

CYP3A5

CYP3A7

CYP4A11

CYP4B1

CYP4F11

CYP4F2

CYP51A1

CYP7A1

DAOA

DAPK1

DBH

DCAF4

DCBLD1

DCK

DCP1B

DCTD

DDC

DDHD1

DDRGK1

DDX20

DDX53

DDX58

DEAF1

DGCR5

DGKH

DGKI

DHFR

DHODH

DIAPH3

DIO1

DIO2

DKK1

DLEU7

DLG5

DLGAP1

DMPK

DNAH12

DNAJB13

DNMT3A

DOCK4

DOK5

DOT1L

DPP4

DPYD

表3药物基因组学(Pharm)

9/28

基因(HGNC符号)

DPYS

DRD1

DRD2

DRD3

DRD4

DROSHA

DSCAM

DTNBP1

DUSP1

DUX1

DYNC2H1

E2F7

EBF1

ECT2L

EDN1

EGF

EGFR

EGLN3

EHF

EIF2AK4

EIF3A

EIF4E2

ENG

ENOSF1

EPAS1

EPB41

EPHA5

EPHA6

EPHA8

EPHX1

EPM2A

EPM2AIP1

EPO

ERAP1

ERBB2

ERCC1

ERCC2

ERCC3

ERCC4

ERCC5

ERCC6L2

EREG

ERICH3

ESR1

ESR2

ETS2

EXO1

F11

F12

F13A1

表3药物基因组学(Pharm)

10/28

基因(HGNC符号)

F2

F3

F5

F7

FAAH

FABP1

FABP2

FADS1

FAM19A5

FAM65B

FARS2

FAS

FASLG

FASTKD3

FAT1

FBXL17

FBXL19

FCAR

FCER1A

FCER1G

FCER2

FCGR2A

FCGR2B

FCGR3A

FDPS

FEN1

FGD4

FGF2

FGF5

FGFBP1

FGFBP2

FGFR2

FGFR4

FHIT

FKBP5

FLOT1

FLT1

FLT3

FLT4

FMO1

FMO2

FMO3

FMO5

FNTB

FOLH1

FOLR3

FOXC1

FOXP3

FPGS

FSHR

表3药物基因组学(Pharm)

11/28

基因(HGNC符号)

FSIP1

FSTL5

FTO

FYN

FZD3

FZD4

G6PD

GABRA1

GABRA3

GABRA6

GABRB1

GABRB2

GABRG2

GABRG3

GABRP

GABRQ

GAD2

GADL1

GAL

GALNT14

GALNT18

GALNT2

GALR1

GAPDHP64

GAPVD1

GATA3

GATA4

GATM

GBP6

GCG

GCKR

GCLC

GDNF

GEMIN4

GFRA2

GGCX

GGH

GHSR

GIPR

GJA1

GLCCI1

GLDC

GLP1R

GLRB

GNAS

GNB3

GNMT

GP1BA

GP6

GPR1

表3药物基因组学(Pharm)

12/28

基因(HGNC符号)

GPR83

GPX1

GPX3

GPX5

GRIA1

GRIA3

GRID2

GRIK1

GRIK2

GRIK3

GRIK4

GRIN1

GRIN2A

GRIN2B

GRIN3A

GRK4

GRK5

GRM3

GRM7

GSK3B

GSR

GSTA1

GSTA2

GSTA5

GSTM1

GSTM3

GSTM4

GSTP1

GSTT1

GSTZ1

H19

HAS3

HCG22

HCP5

HDAC1

HES6

HFE

HIF1A

HLA-A

HLA-B

HLA-C

HLA-DOB

HLA-DPA1

HLA-DPB1

HLA-DPB2

HLA-DQA1

HLA-DQB1

HLA-DRA

HLA-DRB1

HLA-DRB3

表3药物基因组学(Pharm)

13/28

基因(HGNC符号)

HLA-DRB5

HLA-E

HLA-G

HMGB1

HMGB2

HMGCR

HNF1A

HNF1B

HNF4A

HNMT

HOMER1

HOTAIR

HOTTIP

HRH1

HRH2

HRH3

HRH4

HS3ST4

HSD11B1

HSD3B1

HSPA1A

HSPA1L

HSPA5

HSPG2

HTR1A

HTR1B

HTR1D

HTR2A

HTR2C

HTR3A

HTR3B

HTR5A

HTR6

HTR7

HTRA1

HUS1

HYKK

IBA57

IDO1

IFIT1

IFNAR1

IFNB1

IFNG

IFNGR1

IFNGR2

IFNL3

IFNL4

IGF1

IGF1R

IGF2BP2

表3药物基因组学(Pharm)

14/28

基因(HGNC符号)

IGF2R

IGFBP3

IGFBP7

IKBKG

IKZF3

IL10

IL11

IL12A

IL12B

IL13

IL16

IL17A

IL17F

IL17RA

IL18

IL1A

IL1B

IL1RN

IL2

IL21R

IL23R

IL27

IL2RA

IL2RB

IL3

IL4

IL4R

IL6

IL6R

IL6ST

IL7R

ILKAP

IMPA2

IMPDH1

IMPDH2

INSIG2

INSR

IP6K2

IRS1

ITGA1

ITGA2

ITGA9

ITGB1

ITGB3

ITGBL1

ITIH3

ITPA

ITPKC

JAK2

KANSL1

表3药物基因组学(Pharm)

15/28

基因(HGNC符号)

KCNE1

KCNH2

KCNH7

KCNIP1

KCNIP4

KCNJ1

KCNJ11

KCNJ6

KCNMA1

KCNMB1

KCNQ1

KCNQ5

KCNT1

KCNT2

KDM4A

KDR

KIAA0391

KIF6

KIR2DL2

KIRREL2

KIT

KL

KLC1

KLC3

KLRC1

KLRD1

KLRK1

KRAS

KYNU

LAMB3

LARP1B

LCE3B

LCE3C

LDLR

LECT2

LEP

LEPR

LGALS3

LGR5

LIG3

LINC00251

LINC00478

LIPC

LPA

LPHN3

LPIN1

LPL

LRP1

LRP1B

LRP2

表3药物基因组学(Pharm)

16/28

基因(HGNC符号)

LRP5

LRRC15

LST1

LTA

LTA4H

LTB

LTC4S

LUC7L2

LYN

LYRM5

MAD1L1

MAFB

MAFK

MALAT1

MAML3

MAN1B1

MAP3K1

MAP3K5

MAP4K4

MAPK1

MAPK14

MAPT

March1

MC1R

MC4R

MCPH1

MDGA2

MDM2

MDM4

MECP2

MED12L

MEG3

MET

METTL21A

MEX3C

MGAT4A

MGMT

MIA3

MICA

MICB

MIR1206

MIR1307

MIR133B

MIR146A

MIR2053

MIR27A

MIR300

MIR423

MIR4278

MIR449B

表3药物基因组学(Pharm)

17/28

基因(HGNC符号)

MIR492

MIR577

MIR595

MIR604

MIR611

MIR618

MIR7-2

MISP

MLLT3

MLN

MME

MMP1

MMP10

MMP2

MMP3

MMP9

MOB3B

MOCOS

MOV10

MPO

MPZ

MS4A2

MSH2

MSH3

MSH6

MT-RNR1

MTCL1

MTHFD1

MTHFR

MTMR12

MTOR

MTR

MTRF1L

MTRR

MTTP

MUC5B

MUTYH

MVK

MYC

MYLIP

MYOCD

N6AMT1

NALCN

NANOGP6

NAT1

NAT2

NAV2

NBAS

NBEA

NCF4

表3药物基因组学(Pharm)

18/28

基因(HGNC符号)

NCOA1

NCOA3

NEDD4

NEDD4L

NEFM

NELFCD

NELL1

NEUROD1

NFATC1

NFATC2

NFE2L2

NFKB1

NFKBIA

NGF

NGFR

NLGN1

NLRP3

NLRP8

NOD2

NOS1AP

NOS2

NOS3

NPAS3

NPC1L1

NPHS1

NPPA

NPPA-AS1

NQO1

NQO2

NR1D1

NR1H3

NR1I2

NR1I3

NR3C1

NR3C2

NRAS

NRG1

NRG3

NRP1

NRP2

NRXN1

NT5C1A

NT5C2

NT5C3A

NT5E

NTRK1

NTRK2

NUBPL

NUDT15

NUMA1

表3药物基因组学(Pharm)

19/28

基因(HGNC符号)

OAS1

OASL

OCRL

OPN1SW

OPRD1

OPRK1

OPRM1

OR10AE3P

OR4D6

OR52E2

OR52J3

ORM1

ORM2

ORMDL3

OSMR

OTOS

OXT

P2RY1

P2RY12

PACSIN2

PADI4

PAPD7

PAPLN

PAPPA2

PARD3B

PARP11

PAX4

PCK1

PCSK9

PDCD1LG2

PDE4B

PDE4C

PDE4D

PDGFRA

PDGFRB

PDLIM5

PDZRN3

PEAR1

PEMT

PER2

PER3

PGLYRP4

PGR

PHACTR1

PHB2

PHTF1

PI4KA

PICALM

PICK1

PIGB

表3药物基因组学(Pharm)

20/28

基因(HGNC符号)

PIK3CA

PIK3R1

PITPNM2

PKLR

PLA2G4A

PLAGL1

PLCB1

PLCD3

PLCG1

PLEKHH2

PLEKHN1

PLG

PLXNB3

PMCH

POLA2

POLG

POLR3G

POMT2

PON1

PON2

POR

POU2F1

POU2F2

POU5F1

PPARA

PPARD

PPARG

PPARGC1A

PPFIA1

PPM1A

PPP1R13L

PPP1R1C

PPP2R5E

PRB2

PRCP

PRDM1

PRDM16

PRDX4

PRIMPOL

PRKAA1

PRKAA2

PRKCA

PRKCB

PRKCE

PRKCQ

PRKG1

PROC

PROCR

PROM1

PROS1

表3药物基因组学(Pharm)

21/28

基因(HGNC符号)

PROX1

PRRC2A

PRSS53

PSMA4

PSMB3P

PSMB4

PSMB8

PSMD14

PSORS1C1

PSORS1C3

PSRC1

PTCHD1

PTEN

PTGER2

PTGER3

PTGER4

PTGES

PTGFR

PTGIR

PTGS1

PTGS2

PTH

PTH1R

PTPN22

PTPRC

PTPRD

PTPRM

PTPRN2

PYGL

RAB27A

RABEPK

RAC2

RAD18

RAD52

RAF1

RALBP1

RAPGEF5

RARG

RARS

RBFOX1

RBMS3

REEP5

REL

REN

REPS1

RET

REV1

REV3L

RFK

RGS17

表3药物基因组学(Pharm)

22/28

基因(HGNC符号)

RGS2

RGS4

RGS5

RHBDF2

RHOA

RICTOR

RND1

RNFT2

RORA

RPL13

RRAS2

RRM1

RRM2

RRM2B

RSBN1

RSRP1

RUNX1

RXRA

RYR1

RYR2

RYR3

SACM1L

SCAP

SCARB1

SCGB3A1

SCN10A

SCN1A

SCN2A

SCN4A

SCN5A

SCN8A

SCN9A

SCNN1B

SCNN1G

SELE

SELP

SEMA3C

SERPINA3

SERPINA6

SERPINE1

SERPINF1

SERPING1

SETD4

SFRP5

SH2B3

SH2D5

SH3BP2

SHMT1

SIK3

SIN3A

表3药物基因组学(Pharm)

23/28

基因(HGNC符号)

SKIV2L

SKOR2

SLC10A2

SLC12A3

SLC12A8

SLC14A2

SLC15A1

SLC15A2

SLC16A5

SLC16A7

SLC17A3

SLC18A2

SLC19A1

SLC1A1

SLC1A2

SLC1A3

SLC1A4

SLC22A1

SLC22A11

SLC22A12

SLC22A16

SLC22A17

SLC22A2

SLC22A3

SLC22A4

SLC22A5

SLC22A6

SLC22A7

SLC22A8

SLC24A4

SLC25A13

SLC25A14

SLC25A27

SLC25A31

SLC26A9

SLC28A1

SLC28A2

SLC28A3

SLC29A1

SLC2A1

SLC2A2

SLC2A9

SLC30A8

SLC30A9

SLC31A1

SLC37A1

SLC39A14

SLC47A1

SLC47A2

SLC5A2

表3药物基因组学(Pharm)

24/28

基因(HGNC符号)

SLC5A7

SLC6A12

SLC6A2

SLC6A3

SLC6A4

SLC6A5

SLC6A9

SLC7A5

SLC7A8

SLCO1A2

SLCO1B1

SLCO1B3

SLCO1C1

SLCO2B1

SLCO3A1

SLCO4C1

SLCO6A1

SLIT1

SMARCAD1

SMYD3

SNAP25

SNORA59B

SNORD68

SOCS3

SOD2

SOD3

SORT1

SOX10

SP1

SPARC

SPATS2L

SPECC1L

SPG7

SPIDR

SPINK5

SPP1

SPTA1

SQSTM1

SREBF1

SREBF2

SRP19

SRR

ST13

STAT3

STAT4

STAT6

STIM1

STIP1

STK39

STMN1

表3药物基因组学(Pharm)

25/28

基因(HGNC符号)

STMN2

STX1B

STX4

SUGCT

SULT1A1

SULT1A2

SULT1C4

SULT1E1

SULT2B1

SV2C

SYN3

SYNE3

SZRD1

T

TAAR6

TAC1

TAGAP

TANC1

TANC2

TAP1

TAP2

TAPBP

TAS2R16

TBC1D1

TBC1D32

TBX21

TBXA2R

TBXAS1

TCF19

TCF7L2

TCL1A

TDP1

TDRD6

TERT

TET2

TF

TGFB1

TGFBR2

TGFBR3

TH

THBD

THRA

THRB

TIGD1

TK1

TLR2

TLR3

TLR4

TLR5

TLR7

表3药物基因组学(Pharm)

26/28

基因(HGNC符号)

TLR9

TMCC1

TMCO6

TMEFF2

TMEM205

TMEM258

TMEM57

TMPRSS11E

TNF

TNFAIP3

TNFRSF10A

TNFRSF11A

TNFRSF11B

TNFRSF1A

TNFRSF1B

TNFSF10

TNFSF11

TNFSF13B

TNRC6A

TNRC6B

TOLLIP

TOMM40

TOMM40L

TOP1

TOP2B

TP53

TPH1

TPH2

TPMT

TRAF1

TRAF3IP2

TRIB3

TRIM5

TRPM6

TSC1

TSPAN5

TTC6

TUBB1

TUBB2A

TXNRD2

TYMP

TYMS

UBASH3B

UBE2I

UCP2

UCP3

UGGT2

UGT1A

UGT1A1

UGT1A10

表3药物基因组学(Pharm)

27/28

基因(HGNC符号)

UGT1A3

UGT1A4

UGT1A5

UGT1A6

UGT1A7

UGT1A8

UGT1A9

UGT2B10

UGT2B15

UGT2B17

UGT2B4

UGT2B7

ULK3

UMPS

UPB1

USH2A

USP24

USP5

UST

VAC14

VASP

VDR

VEGFA

VKORC1

WBP2NL

WBSCR17

WDR7

WIF1

WNK1

WNT5B

WT1

WWOX

XBP1

XDH

XPA

XPC

XPO1

XPO5

XRCC1

XRCC3

XRCC4

XRCC5

YAP1

YBX1

YEATS4

ZBTB22

ZBTB4

ZCCHC6

ZFP91-CNTF

ZMAT4

表3药物基因组学(Pharm)

28/28

基因(HGNC符号)

ZNF100

ZNF215

ZNF423

ZNF432

ZNF652

ZNF697

ZNF804A

ZNF816

ZNRD1-AS1

ZSCAN25

表4临床测试基因

1/37

基因(HGNC符号)

LMNA

PTEN

TP53

BRCA2

MLH1

MSH2

BRCA1

MSH6

FGFR3

MECP2

CFTR

RET

PTPN11

SCN5A

MYH7

CAV3

PMS2

KRAS

APC

ATM

ARX

DMD

DES

STK11

POLG

NF1

BRAF

TSC1

CDKL5

TSC2

TTN

COL2A1

FMR1

FKTN

KCNQ1

VHL

SLC2A1

FBN1

EPCAM

HRAS

PALB2

RAF1

TNNT2

CEP290

SMAD4

表4临床测试基因

2/37

基因(HGNC符号)

MUTYH

SCN1A

SCN1B

KCNJ2

RYR2

GLA

CDH1

NRAS

FKRP

KCNH2

LDB3

CACNA1A

MYBPC3

FGFR2

UBE3A

CACNA1C

GJB2

TAZ

SDHB

TNNI3

ACTC1

GAA

TCAP

CHEK2

LAMP2

COL1A1

TTR

DSP

HBB

SDHD

SOS1

NBN

COL1A2

TGFBR2

POMT1

TPM1

FLNA

KCNE1

PCDH19

MAP2K1

CHD7

FOXG1

SDHC

TGFBR1

RYR1

MTHFR

SGCD

CDKN2A

PMP22

POMT2

表4临床测试基因

3/37

基因(HGNC符号)

FH

WT1

EMD

SCN4A

FGFR1

PLP1

PAX6

POMGNT1

TMEM43

MEN1

PKP2

SLC9A6

RHO

F5

GCK

BRIP1

TRIM32

DSG2

RAD51C

TRPV4

SCN2A

CPT2

KCNE2

GJB6

COL3A1

MAP2K2

NPHP1

DNM2

BMPR1A

PRKAG2

ACADM

OFD1

MYOT

CASQ2

HEXA

DSC2

MEF2C

HFE

CLN3

PTCH1

CRYAB

JUP

PLN

MED12

ZEB2

FHL1

ABCC8

F2

ACADVL

BAG3

表4临床测试基因

4/37

基因(HGNC符号)

ATP7A

CASR

SCN9A

BSCL2

PDHA1

SHOC2

ETFDH

KCNQ2

HADHA

TNNC1

PRRT2

TPP1

ANO5

COL5A1

ETFB

MPZ

ETFA

ACTA1

PPT1

CASK

STXBP1

ABCD1

KCNJ11

ATRX

GNAS

ABCA4

DYSF

ABCC9

TCF4

BLM

SLC22A5

SDHA

MYH6

HCN4

ATP7B

PLA2G6

FANCC

MYL2

CBS

ANK2

KCNE3

MYL3

CLN5

DCX

PANK2

ALDH7A1

NKX2-5

GBA

TIMM8A

PNKP

表4临床测试基因

5/37

基因(HGNC符号)

ACTA2

WFS1

MFN2

FOLR1

JAG1

SMN1

SMARCB1

L1CAM

GPC3

KIT

NSD1

OPA1

DHCR7

NF2

SGCA

MITF

CLRN1

TPM2

SPRED1

MKS1

NIPBL

AGL

OTC

RB1

CSRP3

GLB1

TMEM67

CLN6

HNF1B

SMC1A

SCN4B

CACNB2

ACVRL1

DLD

CBL

FXN

ARSA

PSEN1

COL6A3

LAMA2

SMAD3

ENG

PRPS1

ACTN2

TWNK

CAPN3

GDAP1

COL5A2

EYA1

PCDH15

表4临床测试基因

6/37

基因(HGNC符号)

GCH1

SURF1

SGCB

SCN3B

TMEM216

PITX2

COL6A1

PEX1

MYH11

VCL

NOTCH3

LARGE1

SLC26A4

CLN8

BTD

GAMT

USH2A

MYH9

AR

NPC1

TERT

GABRG2

GCDH

HNF1A

FLNC

IDS

COL6A2

BBS1

RPGR

FLCN

GNE

RPGRIP1L

MEFV

CALM1

CDKN1C

MFSD8

PRPH2

SMPD1

OPHN1

CNTNAP2

BCKDHB

PLOD1

PLEC

CREBBP

SDHAF2

ARHGEF9

AKAP9

RAD51D

NEB

OPA3

表4临床测试基因

7/37

基因(HGNC符号)

MBD5

NPC2

MYO7A

CTSD

VPS13B

GALC

KCNJ5

PAFAH1B1

PYGM

GRN

ASPA

CDK4

PEX7

MET

FBN2

CC2D2A

GARS

NRXN1

PIK3CA

COL11A2

HTT

SLC26A2

SETX

NEXN

TGFB3

SELENON

KCNJ10

CPT1A

HPRT1

ELN

UGT1A1

WAS

OCRL

KCND3

MUT

VCP

HADHB

GPD1L

KCNQ3

SUCLA2

SCO2

FTL

EGR2

PMM2

ALPL

SNTA1

BBS2

G6PC

HADH

PKD2

表4临床测试基因

8/37

基因(HGNC符号)

PKHD1

COQ2

MMACHC

GJB1

BEST1

SGCG

BCKDHA

LDLR

NPHP3

SLC25A20

ACADS

DYNC1H1

KCTD7

MAPT

FIG4

TREX1

MMAB

PQBP1

GRIN2A

COL4A5

MMAA

MKKS

RPE65

GBE1

NDP

HSD17B10

GATA1

APOB

TTC8

SPG7

PDX1

GABRA1

APTX

IKBKAP

NEFL

PEX6

COL11A1

TBC1D24

TGFB2

CRX

APOE

GUCY2D

PHOX2B

ISPD

ATP1A2

ATP13A2

ATL1

SYNE1

ATXN2

SLC6A8

表4临床测试基因

9/37

基因(HGNC符号)

ALMS1

HNF4A

AHI1

ACAD9

PRKAR1A

SNRPN

COL4A1

NOTCH1

SLC25A22

GLDC

ADGRV1

GALT

PEX26

TRDN

PHF6

PNPO

KCNT1

MTM1

COX15

SLC4A1

RRM2B

PRSS1

TPM3

BBS10

BAP1

BCS1L

CDH23

MRE11

PCCA

TBX5

MPL

PAH

SPTAN1

SCN8A

AMT

ASS1

PSEN2

CACNA1S

USH1C

FANCA

CYP21A2

FGD1

PEX12

SLC2A10

WDR62

FAH

GLI3

RUNX1

ANKRD1

GNPTAB

表4临床测试基因

10/37

基因(HGNC符号)

SLC25A4

SERPINA1

RELN

BARD1

RAPSN

DKC1

CSTB

SGCE

F8

KCNJ8

MYPN

MVK

PEX10

REEP1

CRB1

CHRNA1

RBM20

PCCB

BCOR

NLRP3

HBA1

EPM2A

SKI

GATA2

MYLK

FANCB

TYR

ABCB4

C12orf65

PEX2

LRP5

TTC21B

SLC25A13

HSPB1

HSPB8

MPV17

SPAST

SLC37A4

IQCB1

IDUA

EYA4

KCNA1

PGK1

CYP1B1

WHRN

SMARCA4

TERC

ADSL

DMPK

ATXN1

表4临床测试基因

11/37

基因(HGNC符号)

ATP6AP2

SYNGAP1

RDH12

TARDBP

KMT2D

PRKN

NPHP4

TK2

NHLRC1

GJA1

SUCLG1

GATA4

NDUFA1

COL4A3

ATXN3

VWF

TH

DBT

KIF1A

MMADHC

MID1

PKD1

AP3B1

CHRNA4

DNAJB6

APP

SHH

FA2H

CHRNB2

EDN3

SLC16A2

ELANE

FUS

INS

RPS6KA3

INVS

MYOZ2

TNNT1

ALK

TMEM70

CACNB4

JAK2

CNGB3

SPINK1

AGXT

PAX3

MCOLN1

PEX5

ASPM

DGUOK

表4临床测试基因

12/37

基因(HGNC符号)

IGHMBP2

CFH

SOD1

TUBA1A

DOLK

PROM1

SYN1

HMGCL

KDM5C

RAB39B

DNAJC5

AUH

SHOX

ATXN7

CENPJ

SRPX2

SOX10

CYP2D6

DCTN1

TBX1

ALDOB

ARL6

BBS12

COQ8A

TWIST1

RECQL4

OTX2

PC

DPAGT1

TP63

GP1BA

ARG1

POLD1

SACS

AKT1

PEX3

SMC3

OCA2

CYP2C19

RMRP

IL2RG

DNAH5

SPG11

NDRG1

COL4A4

FOXC1

BMPR2

MCCC2

MAX

F9

表4临床测试基因

13/37

基因(HGNC符号)

ERCC6

C9orf72

TYMP

RAI1

AIPL1

MCCC1

SLC25A19

COL9A1

BTK

P3H1

PDSS2

PCNT

NOTCH2

ATP8B1

ATP1A3

ETHE1

HEXB

SLC25A15

CP

COL9A2

CHRNA2

CHRNE

CUL4B

DOK7

CHRND

GUSB

SLC19A3

IVD

SH3TC2

EFHC1

IMPDH1

CRTAP

CYP27A1

HSPD1

SOX2

SDCCAG8

CYP2C9

ALS2

RPS19

GOSR2

RARS2

GFAP

PEX14

CYP11B1

GMPPB

BBS4

SGSH

GJC2

GLUD1

GATM

表4临床测试基因

14/37

基因(HGNC符号)

TMEM127

RPGRIP1

PDGFRA

LGI1

MT-ATP6

ADAMTS13

BBS5

WDR45

MTMR2

GATA6

BBS7

LITAF

POLG2

ABCB11

PRX

ALG2

ABCC6

RNASEH2B

FANCG

ADA

SIL1

RP2

RASA1

NTRK1

TNFRSF1A

SCNN1B

CHAT

USH1G

FLNB

DNAI1

CFL2

OPTN

NDUFS4

ARL13B

BBS9

TOR1A

LRPPRC

ATPAF2

SAMHD1

TSEN54

NPHS2

TSFM

HBA2

GALNS

FKBP14

CHST14

FOXRED1

TRPM4

NHS

RNASEH2A

表4临床测试基因

15/37

基因(HGNC符号)

RNASEH2C

ADGRG1

MT-RNR1

AGK

CEP152

ASL

SNCA

GRIN2B

DTNA

SIX1

CPS1

KIF7

AIFM1

PDHX

NAGLU

MT-TL1

NSDHL

HDAC8

HGSNAT

LRRK2

SBF2

RAB7A

SCNN1G

LRAT

DARS2

KIF5A

RIT1

PCSK9

GFM1

PINK1

NPHS1

ARSB

NDUFS7

POLE

PFKM

SCN2B

IDH2

FBLN5

INPP5E

PDSS1

GABRD

ATP6V0A2

PRICKLE1

ACAT1

SOX9

CACNA2D1

G6PD

SPG20

SCARB2

NLGN3

表4临床测试基因

16/37

基因(HGNC符号)

ANOS1

NLGN4X

GABRB3

HAX1

AFG3L2

GJB3

TINF2

KRIT1

GPR143

CDC73

EDNRB

MLYCD

AARS2

JAK3

SDHAF1

JPH2

NDUFV1

PEX13

PLCB1

ABHD12

PEX16

IRF6

SUMF1

BSND

DAG1

HLCS

ATR

EGFR

AFF2

EZH2

PEX19

ABCA3

PAK3

NDUFS1

PHYH

PRKCG

TMPO

TULP1

COMP

MPI

MYLK2

HESX1

YARS

BIN1

DPM3

LYST

AARS

SIX3

ACTG1

C19orf12

表4临床测试基因

17/37

基因(HGNC符号)

PDHB

COQ9

MLC1

NODAL

DPYD

CHM

DPM1

LIPA

SFTPC

DLAT

VRK1

TUBB2B

ATP6V1B1

HSD17B4

CERKL

EP300

SLC12A3

GATA3

FANCE

FGD4

CFI

SCN10A

COLQ

COX6B1

FKBP10

EXT1

ADAMTS2

SBDS

CD46

TGIF1

SALL1

ERCC4

KIF1B

SLC17A5

WNK1

KCNA5

ARFGEF2

FANCF

ELOVL4

SALL4

CYP7B1

KARS

GRIA3

ALDH5A1

SPR

CLCN1

HCCS

GNS

EIF2AK3

PUS1

表4临床测试基因

18/37

基因(HGNC符号)

PDE6B

PLOD2

PAX2

DHDDS

WDR19

ALG6

PPARG

VAPB

CHD2

RP1

PSAP

WRN

LMBRD1

INSR

CEBPA

LPIN1

SMS

MT-TK

PARK7

SUFU

UMOD

PRNP

AGA

RAD50

FUCA1

SLC39A13

NDUFA2

ISCU

MT-TS1

SEMA4A

FOXP3

TACO1

LIG4

AIRE

SRY

KBTBD13

EIF2B5

MT-ND1

IKBKG

DICER1

TRMU

MUSK

SLC25A3

OTOF

POMK

TBP

RAG2

UPF3B

EDA

RLBP1

表4临床测试基因

19/37

基因(HGNC符号)

RAB3GAP1

LAMB2

CEP41

RAD21

KDM6A

MCPH1

CABP4

SPATA7

MTRR

LAMA4

EFEMP2

NDUFS8

GALK1

SAG

LCA5

NR2E3

EXT2

GCSH

PPIB

PORCN

EHMT1

CTNNB1

CTNS

TFR2

C3

HCN1

EIF2B1

SLX4

POU3F4

WDPCP

INF2

LIAS

CHRNB1

ACTB

AP1S2

PHEX

SPTB

NEUROD1

RS1

NPPA

SOX3

FGF23

MAN2B1

DNAH11

ERCC2

DGKE

CCM2

NDUFAF2

EVC

RAG1

表4临床测试基因

20/37

基因(HGNC符号)

HPS1

NDUFS3

NDUFS2

ZIC2

FGF8

LPL

FASTKD2

TCTN2

CACNA1D

HPS4

CACNA1F

CLCN5

GJA5

SYP

GP1BB

FANCL

ACSL4

IDH1

CLCNKB

CISD2

ROR2

NEU1

GATAD1

MYH3

NDE1

PRPF31

ABCG5

NKX2-1

PGM1

TMEM237

FBP1

CDK5RAP2

NDUFAF5

ZFYVE26

DPM2

PHKA1

MT-ND6

STIL

TUBB3

BICD2

IQSEC2

SPTA1

ITGA7

QDPR

TJP2

PTS

EIF2B3

NOD2

GLRA1

CSF1R

表4临床测试基因

21/37

基因(HGNC符号)

PRF1

ATN1

PAX4

GPSM2

CHMP2B

CFB

EYS

FANCI

ST3GAL3

AGPAT2

PDP1

IL7R

HK1

PNPLA2

RAB27A

DCLRE1C

MC4R

GYS2

B9D1

SCNN1A

ANG

ENPP1

PRPF8

SFTPB

FANCM

AXIN2

LMX1B

NHEJ1

SYNE2

TTC19

PROP1

MAGT1

COL7A1

FANCD2

FSCN2

NDUFAF1

MT-ND4

KCNJ1

COL12A1

CNGA3

STAT3

TYRP1

NDUFS6

GUCA1B

SLC2A2

SIX5

ADAR

SLC33A1

CCDC39

AMACR

表4临床测试基因

22/37

基因(HGNC符号)

GAN

HFE2

B3GLCT

EFNB1

UQCRB

SLC12A6

FGA

HPS3

XRCC2

MTR

C8orf37

ACTN4

EVC2

THAP1

TRPS1

IDH3B

RUNX2

LAMB3

SH2D1A

GDI1

TMC1

DNMT1

PDCD10

MRPS22

LAMA3

TOPORS

CHKB

MTPAP

CYP17A1

POMGNT2

SLC12A1

ZIC3

GLI2

RD3

ALAS2

RPL35A

CNGB1

LDLRAP1

DEPDC5

THBD

DYRK1A

SLC19A2

DNAI2

PGAM2

PNKD

ASAH1

WDR35

VKORC1

DOCK8

PHGDH

表4临床测试基因

23/37

基因(HGNC符号)

SLC45A2

GP9

CCDC78

SPTLC1

IL1RAPL1

SLC35C1

UBE2A

NR0B1

CAVIN1

ACOX1

AGRN

CA4

COL9A3

CNGA1

LAMC2

DTNBP1

EIF2B2

TTPA

FLVCR1

MYH14

ERBB2

ITGB3

VLDLR

WASHC5

NDUFA11

C2orf71

PTCHD1

NRL

ALDH4A1

RSPH9

ATP5E

GK

CTDP1

ABL1

TCTN1

ANK1

CTSA

SLC40A1

AKT3

B4GAT1

ZMPSTE24

MERTK

EIF2B4

ERCC8

NUBPL

PPOX

PDLIM3

PNPLA6

TNXB

PRKG1

表4临床测试基因

24/37

基因(HGNC符号)

FOXH1

COG7

RPL11

GPHN

ABCG8

PDE6C

B4GALT7

G6PC3

GNA11

CLCN2

NME8

KCNJ13

HEPACAM

SLCO1B1

UQCRQ

NDUFAF4

TMEM138

MT-ND5

NDUFAF3

HMBS

NHP2

IFITM5

MBTPS2

SMN2

PDE6A

VSX2

MYO6

CPOX

ALG13

CCDC40

ALDH3A2

NIPA1

TSHR

ZNF423

SQSTM1

MOCS2

L2HGDH

SCO1

TUBB4A

TCOF1

MOCS1

MTO1

CIB2

HINT1

KIAA2022

ERCC3

PITX3

PRPF3

DNM1L

TCTN3

表4临床测试基因

25/37

基因(HGNC符号)

FHL2

CA2

GRHPR

PLEKHG5

CDON

KLHL40

TSEN2

SLC1A3

RGR

NEBL

C5orf42

HPS6

GFI1

MYCN

LZTR1

BRWD3

TSEN34

F11

SNRNP200

GNAT2

ALG1

TMEM126A

SP7

KLHL7

TUFM

DLG3

DNAAF2

DNAAF1

VPS13A

NOP10

TMEM5

MCEE

STXBP2

MED25

SHANK3

SLC3A1

TECTA

COX10

CHRNG

RDH5

CDHR1

PHF8

RPL5

MAOA

GFPT1

RAB3GAP2

CALM2

NAGS

POLR1C

HSD3B2

表4临床测试基因

26/37

基因(HGNC符号)

AMPD1

BUB1B

NEK8

TUBA8

B3GALNT2

FLT3

MATR3

KRT5

GDF6

GREM1

AVPR2

DNAL1

ZDHHC9

CTC1

ALDOA

NR5A1

CYBB

FTSJ1

BLOC1S3

EBP

DCAF17

SPG21

ACAD8

ABCB7

F12

GLRB

GLIS2

EXOSC3

HUWE1

BMP4

TMIE

GNPTG

RPS26

ITGA2B

LRSAM1

SLC6A3

ALDH18A1

SERPINC1

KLF11

F7

RPS10

WNT10A

NFIX

MGAT2

ACSF3

RBBP8

CFHR5

COQ6

UBQLN2

CDKN1B

表4临床测试基因

27/37

基因(HGNC符号)

SUOX

FAM126A

COG8

NDUFA10

SMARCE1

ALG8

GSS

EPB42

RPL10

DNAJC19

NAA10

KCNMA1

RPS24

STX11

ALG3

XK

MFRP

TMPRSS3

TSPAN7

SERPINH1

IMPG2

ALG12

SERPINE1

SLC16A1

TCIRG1

STIM1

ETV6

CLCN7

GDF2

SLC35A1

FAM161A

ARID1B

TMEM231

SLC35A2

NGF

COX4I2

POU1F1

GLIS3

TAF1

PNP

POMC

KIF1BP

BLK

YARS2

TCN2

UNC13D

HAMP

HOGA1

ACADSB

B4GALT1

表4临床测试基因

28/37

基因(HGNC符号)

MANBA

KAT6B

RSPH4A

ACE

EDAR

WWOX

FARS2

GNAQ

GNPAT

ANKH

ENO3

FRAS1

RANGRF

GALE

TREM2

CD3D

LEP

TFG

IER3IP1

DYNC2H1

NPM1

KMT2A

CD40LG

PYGL

MT-CYB

DFNB59

MRPS16

RTN2

KCNE5

MATN3

TAT

NDUFV2

CDAN1

STS

CAV1

B3GALT6

CTSK

CALR3

KCNV2

AP4M1

SERPING1

GYS1

HPS5

ST3GAL5

SLC6A5

ARID1A

PRKRA

COG1

COL4A2

EFEMP1

表4临床测试基因

29/37

基因(HGNC符号)

PIK3R2

MTFMT

SEPT9

FOXP1

NDUFAF6

ROM1

KRT14

SLC25A12

SEC23B

TNNI2

CD3E

HPD

PHKB

AIP

FZD4

XPNPEP3

CEP164

ITGB4

SLMAP

PABPN1

TBCE

GHR

NOG

CACNA2D4

ALG9

FOXL2

TYROBP

THRB

AP4E1

BDNF

AKT2

DSPP

MPDU1

EDARADD

TPMT

SPTBN2

BLOC1S6

FGF14

CTSF

PRCD

SRD5A3

PRPF6

TRAPPC11

PHKA2

COCH

AGPS

EARS2

FOXE3

IGBP1

RBP3

表4临床测试基因

30/37

基因(HGNC符号)

PKLR

PIGA

MAT1A

SPTLC2

CEP63

FBXO7

SETBP1

OTOA

RTEL1

PTF1A

LEPR

SMARCAL1

SCP2

PCBD1

DMP1

MOGS

CNTN1

TNPO3

POLR3A

SLC46A1

FOXI1

MYO15A

KCNQ4

MYOC

PYCR1

APOA5

GRHL2

POR

AICDA

KISS1R

PRDM16

ARSE

LHFPL5

PDE6G

HARS

SNAI2

VCAN

SMPX

CSF3R

COL17A1

LOXHD1

MTTP

SERPINF1

PROKR2

GNRHR

D2HGDH

B9D2

ZAP70

AP5Z1

CTNNA3

表4临床测试基因

31/37

基因(HGNC符号)

CSF2RA

SLC34A3

ZNF513

TNFRSF11A

CTRC

RP9

HSPG2

KANSL1

RPS7

TRIOBP

CEL

SHROOM4

SLC7A7

RFT1

ADAMTSL4

ABCA12

ABAT

LPIN2

ERCC5

HGF

PROC

LHX4

ROGDI

ABCA1

DIABLO

ESCO2

PRDM5

PHKG2

FREM1

PRODH

DIS3L2

RDX

WRAP53

MC1R

ACVR1

ZNF711

IFT80

ACVR2B

EFTUD2

LTBP2

MEGF10

RAB18

CLDN14

FLT4

CCT5

SRCAP

ESRRB

PDZD7

NEK1

NR3C2

表4临床测试基因

32/37

基因(HGNC符号)

TBX20

DNAJB2

FAS

ATXN10

CFHR1

GDF5

PSTPIP1

ARHGEF6

TDP1

GUCA1A

OXCT1

PPP2R2B

AQP2

TRPC6

MARVELD2

FECH

OAT

PEX11B

PRICKLE2

APOC2

PDGFRB

CACNA1H

LHCGR

SARS2

LRTOMT

COL10A1

XIAP

UNG

MGME1

SLC26A5

CYBA

PITPNM3

PTH1R

TIMP3

DRD2

PDE6H

ALX4

TXNRD2

OBSL1

ORC1

GH1

CSPP1

LEFTY2

CCDC50

ABCD4

DIAPH1

CDH3

CHCHD10

PAX8

GDNF

表4临床测试基因

33/37

基因(HGNC符号)

MT-CO1

HARS2

HTRA1

BMP1

MSRB3

ZDHHC15

CAVIN4

AP4S1

CFHR3

ACADL

NDUFA9

MSX1

MYO3A

CYP11B2

CTF1

MAK

AP4B1

IFT122

ABHD5

MARS

A2ML1

CHST3

CYLD

GDF1

XPA

MT-TH

TPRN

MT-TQ

POU4F3

XPC

GRIN1

GIPC3

CYP27B1

POLR1D

LHX3

TGFB1

TOR1AIP1

CNBP

GM2A

DDHD2

TRPM1

BCKDK

DNAAF3

HSD11B2

ADAM9

CLCNKA

NDUFB3

LAS1L

MAGI2

ANKRD11

表4临床测试基因

34/37

基因(HGNC符号)

NMNAT1

ZFYVE27

DNMT3A

PROK2

SMARCA2

GFER

POLR3B

NDUFA12

PLCE1

STRA6

EMX2

HMGCS2

ASCL1

COMT

PROS1

KCNC3

ILK

FGB

C10orf11

ILDR1

ANKRD26

GRXCR1

SZT2

HNRNPDL

KIF11

FGG

DDC

TTBK2

FREM2

ZNF469

TUSC3

TFAP2A

DLL3

CLIC2

GDF3

MT-TS2

CYP3A5

AHCY

LDHA

SLC52A3

PRKCSH

ACY1

ACO2

KCNK3

AMER1

WNT1

MARS2

NYX

VPS35

UROS

表4临床测试基因

35/37

基因(HGNC符号)

COG6

REN

AVP

MTOR

TBX3

RBM10

PFN1

TPO

MYBPC1

SERPINB6

PTPRC

H19

ABCB6

WNT7A

MYO5A

CCDC88C

ATP6V0A4

OSTM1

SRD5A2

CDT1

DFNA5

ESPN

MYF6

USB1

DDOST

CRYM

APOA1

ATXN8OS

AGTR2

SLC17A8

MSX2

DST

LTBP4

KLHL3

AAAS

RFX6

LBR

CYP3A4

F13A1

RAX2

RAC2

PREPL

ERLIN2

ANK3

NFU1

LRP4

TNFRSF13B

TNFSF11

SNAP29

LAMC3

表4临床测试基因

36/37

基因(HGNC符号)

RBM8A

ORC6

GRM6

COG5

ORC4

PDYN

CRELD1

SLC5A7

ITGA3

SPINK5

WNT4

ENAM

C1QTNF5

PDK3

HTRA2

GNB4

WNK4

COG4

MT-TI

HSPB3

MT-TL2

HCFC1

POT1

ICOS

SIGMAR1

ATP2A1

GNAT1

SOS2

CTSC

FOXP2

TMEM165

CXCR4

SH3BP2

TACR3

CFC1

ABCC2

DNAJC6

DHODH

CPA6

AK2

HOXD13

VPS45

PLOD3

KRT1

MT-ATP8

DNAAF5

TGM1

TSPAN12

IFT172

CD2AP

表4临床测试基因

37/37

基因(HGNC符号)

MRPL3

LIFR

RIMS1

CNNM4

CDC6

F10

FOXC2

STAT5B

PIK3R1

ORAI1

ZNF81

ZFP57

CYP24A1

GLE1

COL18A1

TIA1

RPL26

GNAO1

LCAT

VDR

ANO10

TNNT3

LZTFL1

COL4A6

SHANK2

参考文献

Aoki等人，“The RAS/MAPK Syndromes:Novel Roles of the RAS Pathway in HumanGenetic Disorders,”Human Mutation,2008.

KARCZEWSKI等人，“Analysis of protein-coding genetic variation in 60,706humans,”Nature,2016.

LANDRUM等人，“ClinVar:public archive of interpretations of clinicallyrelevant variants,”Nucleic Acids Res.,2015.

MAXWELL等人，“Evaluation of ACMG-Guideline-Based Variant Classification ofCancer Susceptibility and Non-Cancer-Associated Genes in Families Affected byBreast Cancer,”Am.J.Hum.Genet.,2016.

MYERS等人，“The lipid phosphatase activity of PTEN is critical for itstumor supressor function,”Proc.Natl.Acad.Sci.U.S.A.,1998.

MYERS等人，“P-TEN,the tumor suppressor from human chromosome 10q23,is adual-specificity phosphatase,”Proc.Natl.Acad.Sci.U.S.A.,1997.

HE等人，“Cowden syndrome-related mutations in PTEN associate with enhancedproteasome activity,”Cancer Res.,2013.

HEIKKINEN等人，“Variants on the promoter region of PTEN affect breastcancer progression and patient survival,”Breast Cancer Res.,2011.

JOHNSTON等人，“Conformational stability and catalytic activity of PTENvariants linked to cancers and autism spectrum disorders,”Biochemistry,2015.

MARKKANEN等人，“DNA Damage and Repair in Schizophrenia and Autism:Implications for Cancer Comorbidity and Beyond,”Int.J.Mol.Sci.,2016.

SCHARNER等人，“Genotype–phenotype correlations in laminopathies:how doesfate translate？,”Biochem.Soc.Trans.,2010.

ARAYA等人，“Deep mutational scanning:assessing protein function on amassive scale,”Trends Biotechnol.,2011.

SHENDURE等人，“Massively Parallel Genetics,”Genetics,2016.

KELSIC等人，“RNA Structural Determinants of Optimal Codons Revealed byMAGE-Seq,”Cell Syst,2016.

PATWARDHAN等人，“High-resolution analysis of DNA regulatory elements bysynthetic saturation mutagenesis,”Nat.Biotechnol.,2009.

BUENROSTRO等人，“Quantitative analysis of RNA-protein interactions on amassively parallel array reveals biophysical and evolutionary landscapes,”Nat.Biotechnol.,2014.

GUENTHER等人，“Hidden specificity in an apparently nonspecific RNA-bindingprotein,”Nature,2013.

ARAYA等人，“A fundamental protein property,thermodynamic stability,revealed solely from large-scale measurements of protein function,”Proc.Natl.Acad.Sci.U.S.A.,2012.

FOWLER等人，“High-resolution mapping of protein sequence-functionrelationships,”Nat.Methods,2010.

MAJITHIA等人，“Prospective functional classification of all possiblemissense variants in PPARG,”Nat.Genet.,2016.

STARITA等人，“Massively Parallel Functional Analysis of BRCA1 RING DomainVariants,”Genetics,2015.

BUENROSTRO等人，“Single-cell chromatin accessibility reveals principles ofregulatory variation,”Nature,2015.

CUSANOVICH等人，“Multiplex single-cell profiling of chromatinaccessibility by combinatorial cellular indexing,”Science,2015.

CAO等人，“Comprehensive single cell transcriptional profiling of amulticellular organism by combinatorial indexing,”bioRxiv,2017.

ZHENG等人，“Massively parallel digital transcriptional profiling of singlecells,”Nat.Commun.,2017.

DATLINGER等人，“Pooled CRISPR screening with single-cell transcriptomereadout,”Nat.Methods,2017.

JAITIN等人，“Dissecting Immune Circuits by Linking CRISPR-Pooled Screenswith Single-Cell RNA-Seq,”Cell,2016.

ADAMSON等人，“A Multiplexed Single-Cell CRISPR Screening Platform EnablesSystematic Dissection of the Unfolded Protein Response,”Cell,2016.

DIXIT等人，“Perturb-Seq:Dissecting Molecular Circuits with ScalableSingle-Cell RNA Profiling of Pooled Genetic Screens,”Cell,2016.

MACOSKO等人，“Highly Parallel Genome-wide Expression Profiling ofIndividual Cells Using Nanoliter Droplets,”Cell,2015.

GAWAD等人，“Single-cell genome sequencing:current state of the science,”Nat.Rev.Genet.,2016.

TANAY等人，“Scaling single-cell genomics from phenomenology to mechanism,”Nature,2017.

SCHWARTZMAN等人，“Single-cell epigenomics:techniques and emergingapplications,”Nat.Rev.Genet.,2015.

BUZDIN等人，“The OncoFinder algorithm for minimizing the errors introducedby the high-throughput methods of transcriptome analysis,”Front Mol Biosci,2014.

WHITFIELD等人，“Identification of genes periodically expressed in thehuman cell cycle and their expression in tumors,”Mol.Biol.Cell,2002.

PAN等人，“Using input dependent weights for model combination and modelselection with multiple sources of data,”Stat.Sin.,2006.

EFRON等人，“Improvements on Cross-Validation:The 632+Bootstrap Method,”J.Am.Stat.Assoc.,1997.

EFRON,“How Biased is the Apparent Error Rate of a Prediction Rule？,”J.Am.Stat.Assoc.,1986.

EFRON,“Estimating the Error Rate of a Prediction Rule:Improvement onCross-Validation,”J.Am.Stat.Assoc.,1983.

SHEN等人，“Adaptive Model Selection and Assessment for Exponential FamilyDistributions,”Technometrics,2004.

SHEN等人，“Adaptive Model Selection,”J.Am.Stat.Assoc.,2002.

GEORGE等人，“Calibration and Empirical Bayes Variable Selection,”Biometrika,2000.

RIPLEY等人，“Pattern Recognition and Neural Networks,”Cambridge UniversityPress,2008.

HASTIE等人，“The Elements of Statistical Learning.Data Mining,Inference,and Prediction,”Springer,2001.

BURNHAM等人，“Model Selection and Multimodel Inference:A PracticalInformation-Theoretic Approach,”Springer,2003.

YUVAL,“Bootstrapping with Noise:An Effective Regularization Technique,”Connection Science,1996.

AMENDOLA等人，“Performance of ACMG-AMP Variant-Interpretation Guidelinesamong Nine Laboratories in the Clinical Sequencing Exploratory ResearchConsortium,”Am.J.Hum.Genet.,2016.

BERGER等人，“High-throughput Phenotyping of Lung Cancer SomaticMutations,”Cancer Cell,2016 30(2)；第214–228页.

MACOSKO等人，“Highly Parallel Genome-wide Expression Profiling ofIndividual Cells Using Nanoliter Droplets,”Cell,2015 161(5)；第1202–1214页.

STARITA等人，“Deep Mutational Scanning:A Highly Parallel Method to Measurethe Effects of Mutation on Protein Function,”Cold Spring Harb Protoc,2015(8)；第711–714页.

SHENDURE等人，“A framework for determining the relative effect of geneticvariants,”美国专利号15/023,355，2016年3月18日提交.

REGEV等人，“A droplet-based method and apparatus for composite single-cellnucleic acid analysis,”国际专利出版号WO 2016/040476，2016年3月17日出版.

KALIA SS等人，“Recommendations for reporting of secondary findings inclinical exome and genome sequencing,2016update(ACMG SF v2.0):a policystatement of the American College of Medical Genetics and Genomics,”GenetMed.,2016.

FUTREAL AP等人，“A census of human cancer genes,”Nat Rev Cancer,2004 4(3)；第177–183页.

LAWRENCE MS等人，“Discovery and saturation analysis of cancer genes across21tumour types,”Nature,2014 505(7484)；第495–501页.

WHIRL-CARRILLO等人，“Pharmacogenomics knowledge for personalizedmedicine,”Clin Pharmacol Ther,2012 92(4)；第414–417页.

RUBINSTEIN等人，“The NIH genetic testing registry:a new,centralizeddatabase of genetic tests to enable access to comprehensive information andimprove transparency,”Nucleic Acids Res,2013 4；第D925–35页.

SAMOCHA KE等人，(2017)“Regional missense constraint improves variantdeleteriousness prediction,”bioRxiv:148353.

Kitzman,J.O.,Starita,L.M.,Lo,R.S.,Fields,S.&Shendure,J.Massively parallelsingle-amino-acid mutagenesis.Nat.Methods 12,203–206(2015).

Findlay,G.M.,Boyle,E.a.,Hause,R.J.,Klein,J.C.和Shendure,J.(2014).Saturation editing of genomic regions by multiplex homology-directedrepair.Nature 513,1–2.

Firnberg,E.&Ostermeier,M.PFunkel:Efficient,Expansive,User-DefinedMutagenesis.PLoS One 7,1–10(2012).

Wrenbeck,E.E.等人，Plasmid-based one-pot saturationmutagenesis.Nat.Methods 13,928–930(2016).

Wissink,E.M.,Fogarty,E.A.&Grimson,A.High-throughput discovery of post-transcriptional cis-regulatory elements.BMC Genomics 17,1–14(2016).

Araya等人，2016年，美国专利申请20160378915A1。

Claims

1.一种用于确定生物样品内所鉴别的分子变体的表型影响的计算机实现方法，包括：

接收与模型系统内的一个或多个功能元件相关联的分子变体，其中所述模型系统包含单细胞、细胞区室、亚细胞区室或合成区室；

确定所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子得分或表型得分；

基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的各自的分子得分或表型得分，确定与所述分子变体相关联的分子信号或表型信号；

基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子得分或表型得分，确定与所述分子变体相关联的群体信号；

基于统计学习确定所述分子变体的功能得分或功能分类，其中所述统计学习将所述分子变体的所述分子信号、所述表型信号或所述群体信号与所述分子变体的表型影响相关联；

基于所述功能得分或功能分类、所述功能得分或功能分类的建模、预测器得分或预测器分类的建模、或者热点得分或热点分类的建模，得出所述分子变体的证据得分或证据分类；以及

基于所述功能得分、所述功能分类、所述证据得分或所述证据分类，确定所述分子变体的所述表型影响。

2.根据权利要求1所述的方法，其中所述证据得分或所述证据分类是基于来自一个或多个功能元件中的所述分子变体的所述分子信号、所述表型信号或所述群体信号确定的。

3.根据权利要求1所述的方法，其中所述证据得分或证据分类得自所述功能得分或功能分类、所述预测器得分或预测器分类或者所述热点得分或热点分类。

4.根据权利要求1所述的方法，其中通过应用所述统计学习利用回归或分类将证据得分和证据分类与所述分子变体的表型影响相关联而得出所述证据得分或证据分类。

5.根据权利要求1所述的方法，其中通过应用统计学习利用回归或分类将分子信号与所述分子变体的表型影响相关联而得出所述分子变体的所述功能得分或功能分类。

6.根据权利要求4所述的方法，其中基于变体、受试者或群体的临床数据库、表型数据库、群体数据库、分子注释数据库或功能数据库得出所述分子变体的所述表型影响。

7.根据权利要求4所述的方法，其中基于分子信号诸如突变负荷、突变率和突变特征得出所述分子变体的所述表型影响。

8.根据权利要求1所述的方法，其中从使用所述分子信号、所述表型信号或所述群体信号的独立或不相交的估计生成的多个统计模型得出所述分子变体的所述功能得分或功能分类。

9.根据权利要求1所述的方法，其中从功能建模引擎(FME)得出所述分子变体的所述功能得分或功能分类，其中所述FME是通过应用机器学习技术将所述分子变体的未测定特征与所述功能得分或功能分类相关联而生成的，并且其中所述未测定特征包括进化特征、群体特征、功能特征、结构特征、动力学特征和理化特征。

10.根据权利要求1所述的方法，其中从变体解释引擎(VIE)得出所述分子变体的所述预测器得分或预测器分类，其中所述VIE是通过应用机器学习技术将所述功能得分或功能分类和所述未测定特征与所述分子变体的所述表型影响相关联而生成。

11.根据权利要求1所述的方法，其中从低阶变体解释引擎(VIE)得出所述预测器得分或预测器分类，其中所述低阶VIE是功能元件特异性的、功能类型特异性的或条件特异性的。

12.根据权利要求1所述的方法，其中从高阶变体解释引擎(VIE)得出所述预测器得分或预测器分类，其中所述高阶VIE是途径特异性的、同源物家族特异性的、酶家族特异性的或条件特异性的。

13.根据权利要求1所述的方法，其中从高阶变体解释引擎(VIE)得出所述预测器得分或预测器分类，其中所述VIE提供多种途径、同源物家族、酶家族或条件的信息。

14.根据权利要求1所述的方法，其中从显著突变区域和显著突变网络(SMR/SMN)得出所述分子变体的所述热点得分或热点分类，所述显著突变区域和显著突变网络是应用空间聚类技术来检测具有高密度的有着高或低的功能得分或特定的功能分类的分子变体的残基区域和网络而计算得出的。

15.根据权利要求1所述的方法，其中所述分子信号包含所述分子变体的低阶分子信号，所述低阶分子信号是作为在带有所述分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室中测量的所述分子得分的汇总统计模型、汇总统计模型、描述统计模型、推理统计模型或贝叶斯推理模型得出的。

16.根据权利要求1所述的方法，其中所述分子信号包含所述分子变体的高阶分子信号，所述高阶分子信号是通过应用将低阶分子信号与调控、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态相关联的预先存在的模型而得出的。

17.根据权利要求1所述的方法，其中所述分子信号包含所述分子变体的高阶分子信号，所述高阶分子信号是经由无监督学习技术、特征学习技术或降维技术从低阶分子信号而得出的。

18.根据权利要求1所述的方法，其中所述分子信号包含低阶分子得分，所述低阶分子得分对应于来自所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子测量结果、分子过程、分子特征。

19.根据权利要求1所述的方法，其中所述分子信号包含所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的高阶分子得分，所述高阶分子得分是通过应用将低阶分子得分与调控、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态相关联的预先存在的模型而得出的。

20.根据权利要求1所述的方法，其中所述分子信号包含所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的高阶分子得分，所述高阶分子得分是经由无监督学习技术、特征学习技术或降维技术从低阶分子得分得出的。

21.根据权利要求20所述的方法，其中训练自动编码器神经网络以学习低阶分子得分的压缩表示，并且利用所述自动编码器来将低阶分子信号编码成高阶压缩表示。

22.根据权利要求21所述的方法，其中将所述自动编码器训练为去噪自动编码器(DAE)，或者将所述自动编码器构造为具有全连接层的神经网络，或者将所述自动编码器构造为具有对称数目的神经元的神经网络，或者所述自动编码器被内置有用于激活的修正线性单元(ReLu)，或者使用亚当优化器训练所述自动编码器，或者所述自动编码器是细胞类型特异性的、基因特异性的、途径特异性的或障碍特异性的。

23.根据权利要求18所述的方法，其中所述分子测量结果对应于所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内分子的基因表达、蛋白质表达、染色质可及性、表观遗传修饰、调节活性、转录后加工、翻译后修饰、突变状态、突变负荷或突变率的位点特异性测量结果。

24.根据权利要求18所述的方法，其中所述分子过程对应于源自所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的分子测量结果的基因表达、蛋白质表达、染色质可及性、表观遗传修饰、调节活性、转录活性、翻译活性、信号传导活性、途径活性、突变状态、突变负荷或突变率等的多位点测量结果。

25.根据权利要求18所述的方法，其中所述分子特征对应于源自所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的分子测量结果或分子过程的基因表达、蛋白质表达、染色质可及性、表观遗传修饰、调节活性、转录活性、翻译活性、信号传导活性、途径活性、突变状态、突变负荷或突变率等的全局测量结果。

26.根据权利要求18所述的方法，其中通过对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的群体应用单细胞条形码编码技术和核酸测序技术得出所述分子测量结果。

27.根据权利要求18所述的方法，其中所述分子测量结果可以包括：测序读段质量控制、细胞条形码鉴别或质量控制、分子条形码鉴别或质量控制、与参考基因组的测序读段比对、测序读段比对过滤或质量控制、将经过滤和质量控制的测序读段映射到功能元件、将经过滤和质量控制的分子条形码映射到功能元件，以及将经过滤和质量控制的测序读段或特定细胞条形码的分子条形码映射到功能元件。

28.根据权利要求1所述的方法，其中所述分子信号、所述表型信号或所述群体信号是分子状态特异性的，其源自特定分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的群体，以允许在状态特异性的学习层中进行学习。

29.根据权利要求1所述的方法，其中所述分子信号、所述表型信号或所述群体信号是分子状态不可知的，其源自多个分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的群体，以允许在状态不可知的学习层中进行学习。

30.根据权利要求1所述的方法，其中所述分子信号、所述表型信号或所述群体信号是分子状态有序的，其源自多个分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的群体，以允许在多状态学习层中进行学习。

31.根据权利要求1所述的方法，其中通过应用将分子得分或表型得分与所述分子状态相关联的预先存在的模型来得出所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子状态，其中所述模型基于先前表征的基因表达特征将单细胞分配给细胞周期阶段。

32.根据权利要求1所述的方法，其中通过对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子得分或表型得分应用无监督学习技术、特征学习技术或降维技术，得出所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的分子状态。

33.根据权利要求1所述的方法，其中所述分子信号、所述表型信号或所述群体信号是从单细胞、细胞区室、亚细胞区室或合成区室的独立或不相交的群体计算得出的，所述独立或不相交的群体是通过随机采样选自带有相同分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室。

34.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径内。

35.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径内。

36.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径内。

37.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点内。

38.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点内。

39.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点内。

40.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点内。

41.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点内。

42.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的10bp内。

43.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的10bp内。

44.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的10bp内。

45.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的10bp内。

46.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的50bp内。

47.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的50bp内。

48.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的50bp内。

49.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的50bp内。

50.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的100bp内。

51.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的100bp内。

52.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的100bp内。

53.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的100bp内。

54.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的500bp内。

55.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的500bp内。

56.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的500bp内。

57.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的500bp内。

58.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的突变热点的1,000bp内。

59.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的突变热点的1,000bp内。

60.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的突变热点的1,000bp内。

61.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的突变热点的1,000bp内。

62.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域内。

63.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域内。

64.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域内。

65.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域内。

66.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的10bp内。

67.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的10bp内。

68.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的10bp内。

69.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的10bp内。

70.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的50bp内。

71.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的50bp内。

72.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的50bp内。

73.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的50bp内。

74.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的100bp内。

75.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的100bp内。

76.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的100bp内。

77.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的100bp内。

78.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的500bp内。

79.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的500bp内。

80.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的500bp内。

81.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的500bp内。

82.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与孟德尔病相关联的功能元件、基因和途径的先前鉴别的受限区域的1,000bp内。

83.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与已知的癌症驱动基因相关联的功能元件、基因和途径的先前鉴别的受限区域的1,000bp内。

84.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与药物响应变异相关联的功能元件、基因和途径的先前鉴别的受限区域的1,000bp内。

85.根据权利要求1所述的方法，其中所述分子变体对应于编码或非编码变体，所述编码或非编码变体在与其它有临床价值的基因相关联的功能元件、基因和途径的先前鉴别的受限区域的1,000bp内。

86.根据权利要求1所述的方法，其中所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述表型得分代表所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内所鉴别的分子变体的表型关联。

87.根据权利要求1所述的方法，其中所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述表型得分包含低阶表型得分，其中所述低阶表型得分对应于由表型模型通过使用统计学习技术而生成的得分或分类，所述统计学习技术将模型系统的分子得分和分子状态与每个模型系统内的分子变体的表型影响相关联。

88.根据权利要求87所述的方法，其中使用用于单任务或多任务统计学习的神经网络架构生成所述表型模型，所述神经网络架构将来自一个或多个功能元件的分子得分与所述一个或多个功能元件中的分子变体的一种或多种表型影响相关联。

89.根据权利要求1所述的方法，其中所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述表型得分包含高阶表型得分，其中所述高阶表型得分是通过应用将低阶表型得分与调控、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态相关联的预先存在的模型而得出的。

90.根据权利要求1所述的方法，其中所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述表型得分包含高阶表型得分，其中所述高阶表型得分是经由无监督学习技术、特征学习技术或降维技术从低阶表型得分得出的。

91.根据权利要求1所述的方法，其中与所述分子变体相关联的所述表型信号包含与所述分子变体相关联的低阶表型信号，其中所述与所述分子变体相关联的低阶表型信号是作为在带有所述分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室中测量的所述表型得分的汇总统计模型、描述统计模型、推理统计模型或贝叶斯推理模型得出的。

92.根据权利要求1所述的方法，其中与所述分子变体相关联的所述表型信号包含与所述分子变体相关联的高阶表型信号，其中所述与所述分子变体相关联的高阶表型信号是通过应用将低阶表型信号与调控、信号传导、途径、加工、细胞周期的活性、变更、缺陷或状态相关联的预先存在的模型而得出的。

93.根据权利要求1所述的方法，其中与所述分子变体相关联的所述表型信号包含与所述分子变体相关联的高阶表型信号，其中所述与所述分子变体相关联的高阶表型信号是经由无监督学习技术、特征学习技术或降维技术从低阶表型信号得出的。

94.根据权利要求1所述的方法，还包括：

访问来自现有来源的具有推定的或已知的表型影响的分子变体的集合；

使用预测模型增加所述具有推定的或已知的表型影响的分子变体的集合；

使用采样模型选择具有推定的或已知的表型影响的第一组基因型；

使用采样模型选择具有未知的、推定的或已知的表型影响的第二组基因型；

使用采样模型选择具有未知的、推定的或已知的表型影响的第三组基因型；

通过应用将所述第一组基因型的分子信号、表型信号或群体信号与推定的或已知的表型影响相关联的统计学习技术来生成功能模型；

通过应用所述功能模型基于所述第二组基因型的分子信号、表型信号或群体信号进行预测，为所述第二组基因型生成预测的表型影响；

通过应用统计学习技术生成推理模型，其中所述推理模型将未测定特征与分子变体的表型影响相关联；以及

通过应用所述推理模型基于所述第三组基因型的未测定特征进行预测，为所述第三组基因型生成预测的表型影响。

95.根据权利要求94所述的方法，其中所述预测模型是基因特异性的、结构域特异性的、同源物特异性的或全基因组范围的计算预测器或功能测定法。

96.根据权利要求94所述的方法，其中所述预测模型为所述预测模型的每次预测提供性能或置信度估计。

97.根据权利要求94所述的方法，其中所述预测模型的阳性预测值(PPV)包括所述预测模型的预测的性能或置信度估计的函数。

98.根据权利要求94所述的方法，其中所述预测模型的阴性预测值(NPV)包括所述预测模型的预测的性能或置信度估计的函数。

99.根据权利要求94所述的方法，其中所述预测模型是分子影响预测器。

100.根据权利要求94所述的方法，其中所述预测模型预测蛋白质编码功能元件中的提前终止分子变体、无义分子变体或截短分子变体是功能丧失变体。

101.根据权利要求94所述的方法，其中所述预测模型预测蛋白质编码功能元件中的同义或沉默分子变体是中性变体。

102.根据权利要求1所述的方法，还包括：

通过应用将所述分子信号、所述表型信号或所述群体信号与所述功能元件的所述分子变体的表型影响相结合的统计学习技术来生成功能模型。

103.根据权利要求102所述的方法，其中所述生成功能模型还包括：

使用用于单任务或多任务学习的神经网络架构生成所述功能模型，所述神经网络架构将来自所述功能元件的所述分子信号、所述表型信号或所述群体信号与所述功能元件的所述分子变体的所述一种或多种表型影响相关联。

104.根据权利要求1所述的方法，还包括：

通过应用将所述分子得分与所述功能元件的所述分子变体的所述表型影响相结合的统计学习技术来生成表型模型。

105.根据权利要求104所述的方法，其中所述生成表型模型还包括：

使用用于单任务或多任务学习的神经网络架构生成表型模型，所述神经网络架构将来自所述功能元件的所述分子得分与所述功能元件的所述分子变体的所述一种或多种表型影响相关联。

106.根据权利要求1所述的方法，还包括：

将所述分子变体引入所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的所述功能元件中；

鉴别所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的所述分子变体；

确定所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的所述分子变体的所述表型影响；以及

确定所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室内的分子测量结果、分子特征或分子过程。

107.根据权利要求1所述的方法，其中与所述分子变体相关联的所述群体信号描述了与所述分子变体相关联的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室在来自独特分子状态的单细胞、细胞区室、亚细胞区室或合成区室的亚群中的分布。

108.根据权利要求1所述的方法，其中与所述分子变体相关联的所述群体信号描述了与所述分子变体相关联的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室在来自独特分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的亚群中的动态。

109.根据权利要求1所述的方法，其中与所述分子变体相关联的所述群体信号描述了所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室在来自与所述分子变体相关联的独特分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的亚群中的分布变化。

110.根据权利要求1所述的方法，其中与所述分子变体相关联的所述群体信号描述了所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室在来自与所述分子变体相关联的独特分子状态的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的亚群中的动态。

111.根据权利要求107所述的方法，其中基于所述分子得分或所述表型得分，应用聚类技术对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室进行聚类并分配。

112.根据权利要求111所述的方法，其中应用高斯混合模型(GMM)对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室进行聚类并分配给限定数量的分子状态。

113.根据权利要求111所述的方法，其中应用变分高斯混合模型(VGMM)采用狄利克雷过程对所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室进行聚类并分配给推定数量的分子状态。

114.根据权利要求107所述的方法，其中与所述分子变体相关联的所述群体信号被测定为与对应于特定分子状态的分子变体相关联的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的比率。

115.根据权利要求1所述的方法，其中所述分子变体的所述分子得分或所述表型得分包含经调整的分子得分或表型得分，所述经调整的分子得分或表型得分被计算为所述分子变体的所述分子得分或所述表型得分与参考分子变体或参考单细胞、细胞区室、亚细胞区室或合成区室的所述分子得分或所述表型得分之间的差值。

116.根据权利要求1所述的方法，其中所述分子变体的所述分子得分或所述表型得分包含经调整的分子得分或表型得分，所述经调整的分子得分或表型得分通过相对于参考分子变体或参考单细胞、细胞区室、亚细胞区室或合成区室的分子得分或表型得分对所述分子变体的所述分子得分或所述表型得分进行归一化而计算。

117.根据权利要求1所述的方法，其中分子变体的分子信号、表型信号或群体信号分别包含经调整的分子信号、表型信号或群体信号，所述经调整的分子信号、表型信号或群体信号被计算为分子变体的所述分子信号、表型信号或群体信号与参考分子变体的所述分子信号、表型信号或群体信号之间的差值。

118.根据权利要求1所述的方法，其中与所述分子变体相关联的所述分子信号、所述表型信号或所述群体信号分别包含经调整的分子信号、表型信号或群体信号，所述经调整的分子信号、表型信号或群体信号通过用参考分子变体的分子信号、表型信号或群体信号对与所述分子变体相关联的所述分子信号、所述表型信号或所述群体信号进行归一化而计算。

119.根据权利要求1所述的方法，其中与所述分子变体相关联的所述分子信号、所述表型信号或所述群体信号分别包含经调整的分子信号、表型信号或群体信号，所述经调整的分子信号、表型信号或群体信号计算为与所述分子变体相关联的所述分子信号、所述表型信号或所述群体信号在参考分子变体的分子信号、表型信号或群体信号中的分位数。

120.一种计算机实现方法，还包括：

选择具有表型影响的第一组基因型；

选择具有表型影响的第二组基因型；

应用单细胞捕获或条形码编码技术从与所述第一组基因型相关联的第一细胞数目的单细胞、细胞区室、亚细胞区室或合成区室获得分子；

通过使用与所述第一组基因型相关联的模型系统执行测序、测序读段质量控制、细胞条形码鉴别或质量控制、分子条形码鉴别或质量控制、与参考基因组的测序读段比对或读段比对过滤或质量控制，获得每个模型系统的第一读段数目的分子读段；

应用单细胞捕获或条形码编码技术从与所述第一组基因型相关联的第二细胞数目的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室获得分子；

通过使用与所述第一组基因型相关联的所述模型系统执行测序、测序读段质量控制、细胞条形码鉴别或质量控制、分子条形码鉴别或质量控制、与参考基因组的测序读段比对或读段比对过滤或质量控制，获得每个模型的第二读段数目的分子读段；

从每个基因型的总细胞数目的单细胞、细胞区室、亚细胞区室或合成区室得出来自每个模型系统的总读段数目的分子读段的总分子读段或总分子测量结果；

通过应用用于特征选择或降维的统计学习技术来利用所述总分子读段和所述总分子测量结果确定所述第一组基因型的分子得分、表型得分、分子信号、表型信号或群体信号，生成总降维模型；

通过应用将来自所述总降维模型的分子信号、表型信号或群体信号与所述第一组基因型的表型影响相关联的统计学习技术，利用所述总分子读段和所述总分子测量结果生成总功能模型；

使用用于预测所述第一组基因型的表型影响的所述总细胞数、所述总读段数、所述总降维模型或所述总功能模型确定功能得分或功能分类的阈性能；

从每个基因型的最佳细胞数目的单细胞、细胞区室、亚细胞区室或合成区室得出来自每个模型系统的最佳读段数目的分子读段的最佳分子读段或最佳分子测量结果，其中所述最佳分子读段和所述最佳分子测量结果是通过对所述总分子读段或所述总分子测量结果进行子采样而获得的；

通过应用用于特征选择或降维的统计学习技术来使用所述最佳分子读段和所述最佳分子测量结果确定所述第一组基因型的分子得分、表型得分、分子信号、表型信号或群体信号，生成最佳降维模型；

通过应用将来自所述最佳降维模型的分子信号、表型信号或群体信号与所述第一组基因型的表型影响相关联的统计学习技术利用所述最佳分子读段和所述最佳分子测量结果生成最佳功能模型；

基于用于预测所述第一组基因型的表型影响的所述最佳细胞数、所述最佳读段数、所述最佳降维模型或所述最佳功能模型验证所述功能得分或功能分类的阈性能；

应用单细胞捕获或条形码编码技术从与所述第二组基因型相关联的所述最佳细胞数目的单细胞、细胞区室、亚细胞区室或合成区室获得分子；

通过使用与所述第二组基因型相关联的模型系统执行测序、测序读段质量控制、细胞条形码鉴别或质量控制、分子条形码鉴别或质量控制、与参考基因组的测序读段比对或读段比对过滤或质量控制，获得每个模型系统的所述最佳读段数目的分子读段；以及

基于所述最佳细胞数、所述最佳读段数、所述最佳降维模型或所述最佳功能模型，为所述第二组基因型生成功能得分或功能分类。

121.一种用于对分子变体的表型影响进行评分的计算机实现方法，包括：

基于证据数据集的准确率评价所述证据数据集；

基于所述证据数据集的所述准确率验证所述证据数据集；

基于所述证据数据集的所述准确率优化所述证据数据集；以及

基于对所述证据集的所述评价、验证和优化确定所述分子变体的所述表型影响。

122.根据权利要求121所述的方法，其中所述证据数据集包含基于机器学习模型的分子变体的功能得分或功能分类，所述机器学习模型将所述分子变体的分子信号、表型信号或群体信号与所述分子变体的所述表型影响相关联。

123.根据权利要求121所述的方法，其中所述证据数据集包含来自全基因组的、同源物特异性的、酶类别特异性的、结构域特异性的或基因特异性的计算预测器的预测器得分或预测器分类。

124.根据权利要求121所述的方法，其中所述证据数据集包含来自突变热点的热点得分或热点分类。

125.根据权利要求121所述的方法，其中所述证据数据集包含来自基于群体基因组学指标而得出的变体分类的群体得分或群体分类。

126.根据权利要求121所述的方法，还包括：

计算评价指标以评估所述证据数据集与功能得分或功能分类之间的一致性。

127.根据权利要求121所述的方法，其中所述评价指标包括皮尔逊相关系数、斯皮尔曼等级相关、肯德尔相关、马修相关系数、科恩kappa系数、约登指数、F量度、真阳性率、真阴性率、阳性预测值、阴性预测值、阳性似然比、阴性似然比或诊断比值比。

128.根据权利要求121所述的方法，其中所述证据数据集的所述验证包括基于所述评价指标来验证所述证据数据集。

129.根据权利要求121所述的方法，其中所述证据数据集的所述优化包括基于所述评价指标来选择或移除所述证据数据集内的数据。

130.一种用于对分子变体的表型影响进行评分的计算机实现方法，包括：

基于证据数据集的内在偏差来评价所述证据数据集；

基于所述证据数据集的所述内在偏差来验证所述证据数据集；

基于所述证据数据集的所述内在偏差来优化所述证据数据集；以及

基于对所述证据集的所述评价、验证和优化来确定所述分子变体的所述表型影响的得分。

131.根据权利要求130所述的方法，其中所述证据数据集的偏差被测量为所述证据数据集中变体的观察到的证据得分或证据分类与参考数据集中变体的预期证据得分或证据分类之间的统计距离。

132.根据权利要求130所述的方法，其中所述证据数据集的确认偏差测量为所述证据数据集中变体的观察到的特征和特性与基于匹配的分位数或分类定义的参考数据集中变体的期望特征和特性之间的统计距离。

133.根据权利要求130所述的方法，其中所述证据数据集的确认偏差被测量为所述证据数据集中变体的观察到的特征和特性与基于证据得分或证据分类的匹配分布定义的参考数据集中变体的期望特征和特性之间的统计距离。

134.根据权利要求130所述的方法，其中所述证据数据集的所述验证包括基于目标评价偏差指标来验证所述证据数据集。

135.根据权利要求130所述的方法，其中所述证据数据集的所述优化包括基于目标验证标准来选择或移除所述证据数据集内的数据。

136.一种系统，包括：

存储器；和

至少一个处理器，所述处理器耦合至所述存储器并被构造用于：

基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的各分子得分或表型得分，确定与所述分子变体相关联的分子信号或表型信号；

基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述分子得分或表型得分，确定与所述分子变体相关联的群体信号；

基于统计学习确定所述分子变体的功能得分或功能分类，其中所述统计学习将分子变体的所述分子信号、所述表型信号或所述群体信号与所述分子变体的表型影响相关联；

基于所述功能得分或功能分类、所述功能得分或功能分类的建模、预测器得分或预测器分类的建模、或者热点得分或热点分类的建模，得出所述分子变体的证据得分或证据分类；

137.一种其上存储有指令的有形计算机可读设备，在由至少一种计算设备执行时，所述有形计算机可读设备使所述至少一种计算设备执行包括以下的操作：

基于带有特定分子变体的所述单细胞、所述细胞区室、所述亚细胞区室或所述合成区室的所述各自的分子得分或表型得分，确定与所述分子变体相关联的分子信号或表型信号；