[go: up one dir, main page]

JP7735457B2 - コピー数バリアントコーラ - Google Patents

コピー数バリアントコーラ

Info

Publication number
JP7735457B2
JP7735457B2 JP2024042482A JP2024042482A JP7735457B2 JP 7735457 B2 JP7735457 B2 JP 7735457B2 JP 2024042482 A JP2024042482 A JP 2024042482A JP 2024042482 A JP2024042482 A JP 2024042482A JP 7735457 B2 JP7735457 B2 JP 7735457B2
Authority
JP
Japan
Prior art keywords
copy number
segment
sequence
segments
mapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024042482A
Other languages
English (en)
Other versions
JP2024069550A (ja
Inventor
ハース,ケビン・アール
ホーン,スン・ヘ
カレタ,ピョートル
ホーガン,グレゴリー・ジョン
Original Assignee
ミリアド・ウィメンズ・ヘルス・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ミリアド・ウィメンズ・ヘルス・インコーポレーテッド filed Critical ミリアド・ウィメンズ・ヘルス・インコーポレーテッド
Publication of JP2024069550A publication Critical patent/JP2024069550A/ja
Application granted granted Critical
Publication of JP7735457B2 publication Critical patent/JP7735457B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

関連出願の相互参照
本出願は、2018年6月6日に出願された米国仮特許出願第62/681,517号、および2018年9月20日に出願された米国仮特許出願第62/733,842号の優先権を主張し、これらの各々は、すべての表、図面、および特許請求の範囲を含めてその全体が本明細書に組み込まれる。
本発明は、関心遺伝子領域のコピー数を決定するための方法に関する。
癌や他の病気に対する遺伝的感受性の理解には多くの重要な進歩があった。遺伝性癌症候群および他の疾患に関連付けられた変異を特定することは、対象を絞ったリスク管理オプションを通じた罹患率および死亡率の低下につながる可能性がある。生殖細胞系列テストのための従来のアプローチは、サンガー配列を使用して単一の遺伝子または限られた遺伝子パネルの変異をテストすることであった。次世代配列技術およびバイオインフォマティクス分析の進歩により、従来のテストに匹敵するコストで多数の遺伝子を同時にテスト(パネルベースのテスト)することが可能である。パネルベースのテストは、従来の方法と比較した精度の向上、ならびに次世代配列(「NGS」)の結果と、単一のヌクレオチドバリアント、小さな欠失、および小さな挿入などの小さな変異を検出するための従来のサンガー法との間の分析的一致による診断率の改善を提供することができる。
過去数年間のNGS技術の進歩にもかかわらず、NGSパネルには、サンプル調製、配列、マッピング、ターゲットのGC含量、標的サイズ、および配列複雑性さから生じる分析上の制限がある。これらの要因は、リード深度と、コピー数バリアントコールの鍵となるコピー数と、の関係に影響を与え、その結果、コピー数バリアントの検出を使用するためのNGS技術の使用の精度に影響を与える。このような制限は、NGS技術を、エクソンレベルのコピー数バリアント、より大きな挿入変異または欠失バリアント、または再配列などのコピー数バリアント(CNV)の検出に使用することを困難にする。科学的研究は、統合失調症などの多くの癌および複雑な疾患が、少なくとも部分的にはコピー数バリアントに関連していることを示唆している。したがって、より高い精度、および配列深度をコピー数に関連付ける際のノイズへの影響を考慮することが、特に望ましい。この懸念に対処するために、いくつかの研究所は、NGSをマイクロアレイで補完し、マイクロアレイは、独自のレベルの複雑性およびバイアスをコールに導入する。コピー数バリアントは、癌および他の疾患に対する遺伝的感受性の理解および特性化の向上に必要な貴重な情報を提供する。そのため、CNVを高精度で検出する方法が、望ましい。
一般に、遺伝子バリアントスクリーニングの性能は、既知の基準サンプルとの一致について評価される。不十分な品質制御(QC)対策と結合された配列データの本質的な変動は、高いCNVコーリング精度を損なう可能性がある。スクリーンの評価は、既知の遺伝的バリアントを有する多数の陽性対照を使用して実行することができ、スクリーニングの性能統計(感度または特異性など)が、決定され得る。しかしながら、まれな遺伝子バリアントイベントを伴う対照などの多数の陽性対照が利用可能でない場合、遺伝子バリアントコーリングアルゴリズム(すなわち、「コーラ」)またはアッセイの性能は、正確に評価することができない。単一のヌクレオチドバリアント(SNV)を有する多数の陽性対照が、一般的に利用可能である一方、コピー数バリアントを有する陽性対照サンプルの頻度はより低い。
本明細書で言及されるすべての刊行物、特許、および特許出願の開示は、各々、参照によってそれらの全体が本明細書に組み込まれる。参照によって組み込まれる任意の参考文献が本開示と矛盾する限り、本開示が統制するものとする。
本明細書には、コピー数バリアントモデルのサンプル特異的な性能を評価する方法、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法、および関心領域内のコピー数バリアント異常を決定するための方法が開示される。
いくつかの実施形態では、コピー数バリアントモデルを含むコピー数バリアントコーラのサンプル特異的な性能を評価する方法であって、テストサンプルからの、関心領域内のセグメントにマッピングされた実際の配列リード数に基づいて、コピー数バリアントモデルをパラメータ化して、1つ以上のコピー数バリアントモデルパラメータを決定することと、複数の合成のコピー数バリアントを生成することであって、各合成のコピー数バリアントが、セグメントのうちの1つ以上の合成のコピー数を含み、各合成のコピー数が、テストサンプルからの対応するセグメントの実際の配列リード数に基づく合成の配列リード数によって表される、生成することと、コピー数バリアントモデル、および1つ以上の決定されたコピー数バリアントモデルパラメータを使用して、合成のコピー数バリアントの1つ以上のセグメントのコピー数をコールすることと、コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアントコーラについてのサンプル特異的な性能統計を決定することと、サンプル特異的な性能統計に基づいて、コピー数バリアントコーラのサンプル特異的な性能を評価することと、を含む。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、1つ以上のセグメントの合成の配列リード数が、1つ以上のセグメントの所定のコピー数に比例して、テストサンプルからの対応するセグメントの実際の配列リード数を増加、減少、または維持することによって生成される。いくつかの実施形態では、所定のコピー数は、整数のコピー数である。いくつかの実施形態では、所定のコピー数は、非整数のコピー数である。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、合成の配列リード数は、m/xに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい試行数と、での二項分布をサンプリングすることによって生成され、mが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、xが、テストサンプルからの対応するセグメントの仮定されたコピー数である。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、m/xに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい成功数と、での負の二項分布としての配列リード数をサンプリングすることであって、mが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、xが、テストサンプルからの対応するセグメントの仮定されたコピー数である、サンプリングすることと、サンプリングされた配列リード数を、テストサンプルからの対応するセグメントの実際の配列リード数に加算することと、によって生成される。いくつかの実施形態では、合成の配列リード数は、負の二項分布の期待値として配列リード数をサンプリングすることによって生成される。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルが、隠れマルコフモデルである。いくつかの実施形態では、隠れマルコフモデルは、(i)問い合わせされたセグメント、または問い合わせさ
れたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、(ii)問い合わせされたセグメントの実際の配列リード数または合成の配列リード数を含む観測状態と、(iii)問い合わせされたセグメントの、期待される実際の配列リード数または合成の配列リード数に基づくコピー数尤度モデルと、を含む。いくつかの実施形態では、方法は、コピー数尤度モデルを決定することを含む。いくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、コピー数尤度モデルを、テストサンプルからの、問い合わせされたセグメントにマッピングされた実際の配列リード数にフィッティングするように調整することを含む。いくつかの実施形態では、コピー数尤度モデルは、2つ以上のコピー数状態の分布を含む。いくつかの実施形態では、コピー数尤度モデルは、負の二項分布を含み、負の二項分布は、ポアソン分布ではない。いくつかの実施形態では、期待される実際の配列リード数または合成の配列リード数は、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数と、テストサンプル内のセグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数、またはテストサンプル内の複数のセグメントにわたる代表値のマッピングされた配列リード数は、正規化された代表値である。いくつかの実施形態では、コピー数尤度モデルは、GC含量バイアスの存在を考慮するように調整される。いくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む。いくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む。いくつかの実施形態では、遷移確率は、コピー数バリアントの代表値の長さを考慮する。いくつかの実施形態では、遷移確率は、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する。いくつかの実施形態では、コピー数バリアントの代表値の長さ、または問い合わせされたセグメントでのコピー数バリアントの確率は、ヒト集団における観測に基づいて決定される。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルをパラメータ化することは、1つ以上のスプリアス捕捉プローブを考慮することを含む。いくつかの実施形態では、1つ以上のスプリアス捕捉プローブを考慮することは、複数の観測状態の1つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含む。いくつかの実施形態では、スプリアス捕捉プローブインジケータは、ベルヌーイ過程を使用して決定される。いくつかの実施形態では、1つ以上の捕捉プローブが偽物であると考慮することは、期待値最大化を使用することを含む。いくつかの実施形態では、捕捉プローブがスプリアスであると決定される場合、その捕捉プローブに由来する配列リードは、コピー数バリアントモデルで破棄される。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルをパラメータ化することは、マッピングされた配列リード数のノイズを考慮することを含む。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルは、1つ以上のコピー数バリアントモデルパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルは、信頼領域ニュートン共役勾配アルゴリズムを解くことによってパラメータ化される。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルは、期待値最大化を使用して反復的にパラメータ化される。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、方法は、テストサンプルからの実際の配列リードを関心領域内のセグメントにマッピングすることと、セグメントにマッピングされた実際の配列リード数を決定することと、を含む。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、テストサンプルは、1つ以上の直接標的配列捕捉プローブを使用して濃縮される。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、方法は、テストサンプル用に1つ以上のセグメントのコピー数をコールすることを含む。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、セグメントは、空間的に隣接するセグメントを含む。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、サンプル特異的な性能統計は、検出、感度、特異度、適合率、再現率、精度、正の予測値、または負の予測値の限界である。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、サンプル特異的な性能統計は、感度または精度である。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、方法は、コピー数バリアントモデルのサンプル特異的な性能が所望の性能閾値を下回っている場合、テストサンプルを不合格にすることを含む。
また、本明細書には、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法が記載されており、(a)テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。
さらに、本明細書には、関心領域内の問い合わせされたセグメントのコピー数を決定す
るための方法が記載されており、(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。
また、本明細書には、関心領域内のコピー数バリアント異常を決定するための方法が記載されており、(a)テスト配列ライブラリから生成された複数の配列リードを、関心領域内の問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、(g)問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む。
さらに、本明細書には、関心領域内のコピー数バリアント異常を決定するための方法が記載されており、(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む
複数の観測状態と、(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、(g)問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む。
また、本明細書には、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法が記載されており、(a)テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の捕捉プローブを使用して濃縮される、マッピングすることと、(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、によって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。
本明細書には、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法がさらに記載されており、(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、を含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。
上述された方法のいくつかの実施形態では、コピー数尤度モデルの1つ以上のパラメータが、セグメントのマッピングされた配列リード数の分散(d)、セグメントの代表値のマッピングされた配列リード数(μ)、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散(d)、またはテスト配列ライブラリ内のセグメントの代表値のマッピングされた配列リード数(μ)を含む。
上述された方法のいくつかの実施形態では、関心領域内のセクションの最も確率が高いコピー数を決定することをさらに含み、セクションが、問い合わせされたセグメントを含む複数の空間的に隣接するセグメントを含む。
上述された方法のいくつかの実施形態では、コピー数尤度モデルが、2つ以上のコピー数状態の分布を含む。
上述された方法のいくつかの実施形態では、コピー数尤度モデルが、負の二項分布を含み、負の二項分布が、ポアソン分布ではない。
上述された方法のいくつかの実施形態では、期待される配列リード数は、複数の配列ライブラリにわたる対応するセグメントでの代表値のマッピングされた配列リード数と、テスト配列ライブラリ内の複数の関心セグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数の配列ライブラリにわたる対応するセグメントでの代表値のマッピングされた配列リード数、またはテスト配列ライブラリ内の複数の関心セグメントにわたる代表値のマッピングされた配列リード数は、正規化された代表値である。
上述された方法のいくつかの実施形態では、コピー数尤度モデルは、GC含量バイアスの存在を考慮するように調整される。いくつかの実施形態では、調整は、問い合わせされたセグメントに対応する捕捉プローブのGC含量、または問い合わせされたセグメントのGC含量に依存する。
上述された方法のいくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む。いくつかの実施形態では、遷移確率は、コピー数バリアントの代表値の長さを考慮する。いくつかの実施形態では、遷移確率は、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する。いくつかの実施形態では、問い合わせされたセグメントでのコピー数バリアントの代表値の長さまたはコピー数バリアントの確率は、ヒト集団における観測に基づいて決定される。
上述された方法のいくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む。いくつかの実施形態では、遷移確率は、コピー数バリアントの代表値の長さを考慮する。いくつかの実施形態では、遷移確率は、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する。いくつかの実施形態では、問い合わせされたセグメントでのコピー数バリアントの代表値の長さまたはコピー数バリアントの確率は、ヒト集団における観測に基づいて決定される。
上述された方法のいくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、1つ以上のスプリアス捕捉プローブを考慮することを含む。いくつかの実施形態では、1つ以上のスプリアス捕捉プローブを考慮することは、複数の観測状態の1つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含む。いくつかの実施形態では、スプリアス捕捉プローブインジケータは、ベルヌーイ過程を使用して決
定される。いくつかの実施形態では、1つ以上の捕捉プローブが偽物であると考慮することは、期待値最大化を使用することを含む。いくつかの実施形態では、捕捉プローブがスプリアスであると決定される場合、その捕捉プローブからの尤度情報は、コピー数尤度モデルで破棄される。
上述された方法のいくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、マッピングされた配列リード数のノイズを考慮することを含む。
上述された方法のいくつかの実施形態では、マッピングされた配列決リード数のノイズを考慮することは、コピー数尤度モデルを調整することを含む。いくつかの実施形態では、ノイズを考慮するためにコピー数尤度モデルを調整することは、期待値最大化ステップを含む。いくつかの実施形態では、期待値最大化ステップは、テスト配列ライブラリからのマッピングされた配列リード数のノイズのレベルを重み付けすることを含む。いくつかの実施形態では、マッピングされた配列リード数のノイズが所定の閾値を上回っている場合、問い合わせされたセグメントの最も確率が高いコピー数は、コールされない。
上述された方法のいくつかの実施形態では、重複する捕捉プローブからの配列リードは、マージされる。
上述された方法のいくつかの実施形態では、ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロを使用して、問い合わせされたセグメントの最も確率が高いコピー数を決定する。
上述された方法のいくつかの実施形態では、セグメントの最も確率が高いコピー数の信頼度を決定することをさらに含む。
上述された方法のいくつかの実施形態では、コピー数尤度モデルの1つ以上のパラメータは、セグメントのマッピングされた配列リード数の分散(d)、セグメントの代表値のマッピングされた配列リード数(μ)、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散(d)、またはテスト配列ライブラリ内のセグメントの代表値のマッピングされた配列リード数(μ)を含む。
上述された方法のいくつかの実施形態では、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数解析的ヘッシアンは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれる。
また、本明細書には、上述の方法のうちのいずれか1つを実行するための命令を含むコンピュータ可読媒体を含むコンピュータシステムが記載される。
セグメントのコピー数を決定するための方法の一実施形態のフローチャートを示す。 48個のテスト配列ライブラリ中のおよそ2500個のセグメント(およそ2500個の固有の捕捉プローブ)にわたる配列リードカウントの中央値(すなわち、配列深度)を示す。 図2Aに示された48個の異なるテスト配列ライブラリの正規化された配列深度の中央値(すなわち、すべてのテスト配列ライブラリにわたる同じセグメントの中央値に正規化された単一セグメントの配列深度)を示す。 複数の異なるサンプルの関心領域の配列ライブラリを濃縮するために使用されるおよそ2500個の捕捉プローブの平均の配列リード数(「平均深度」)に対する配列深度分散のプロットを示す。データは、負の二項分布を使用してフィッティングされたものであり、負の二項分布は、ポアソン分布ではない。比較として、分散と平均深度との間の線形関係を仮定したポアソン分布も例示される。グラフに見られるように、プローブにわたる深度分布に対する分散は、負の二項分布に従い、単なるポアソン分布ではない。 負の二項分布を含むコピー数尤度モデルを示し、負の二項分布は、ポアソン分布ではないか、またはセグメントのコピー数が1、2、または3コピーであるポアソン分布である。分布は、セグメントに対応する捕捉プローブからの配列リード数の関数としての確率質量関数(pmf)である。「CN」=コピー数。 、c、c、およびcの例示的な隠れマルコフモデルは、隠れた状態(すなわち、4つの異なるセグメントの最も確率が高いコピー数)を表し、k、k、k、およびkは、観測される状態(すなわち、対応する各セグメントのマッピングされた配列リード数)を表す。対応する各セグメントでの観測される状態と隠れた状態との間の確率は、p(c|k)、p(c|k)、p(c|k)、およびp(c|k))によって示され、隠れた状態間の遷移確率は、p(c|c)、p(c|c)、およびp(c|c)によって示される。コピー数尤度モデルは、観測される状態と隠れた状態との間の確率をパラメータ化するために使用される。確率の両方のセットは、期待値最大化(EM)を使用して最適化される。 サブセグメントに細分化された2つのセグメントの隠れマルコフモデルを例示する。サブセグメントは、隠れた状態を含むが、観測される状態を含まない。隣接するサブセグメントのコピー数の状態に基づくサブセグメントの遷移確率。これは、塩基ごと(またはサブセグメントごと)のセグメンテーションで実行することができる。 隠れマルコフモデルを例示し、スプリアス捕捉プローブインジケータが、観測状態に配置されている。 所与の捕捉プローブが、観測される状態kに対する事前のbを決定するために使用されるスプリアスの捕捉プローブであるかどうかを決定するために調整することができる事前分布を例示する。ベルヌーイ過程を使用して、各テスト配列ライブラリのスプリアス捕捉プローブ確率と、この確率がそのテスト配列ライブラリのプローブのスプリアス性にどのように影響し得るかと、を判定することができる。 ノイズがより少ないテスト配列ライブラリのために、22個の遺伝子にわたる複数のセグメントの消費された配列深度によって正規化された配列リード数を示す。 ノイズがより多いテスト配列ライブラリのために、22個の遺伝子にわたる複数のセグメントの消費された配列深度によって正規化された決定された配列リード数を示す。同じ捕捉プローブで濃縮された2つの異なるテスト配列ライブラリは、異なるレベルのノイズを表示する。 コピー数尤度モデルのみに依拠するいくつかのテスト配列ライブラリ(x軸)の同じ関心領域(y軸)内の多数のセグメントにわたるコピー数コールを示す。濃い色の領域は、2のコピー数状態からの逸脱を示す。四角で囲まれた領域は、真のコピー数バリアントが多数のセグメントにまたがる様子を示すのに対して、セグメント内でのみ観測される2のコピー数状態からの逸脱は、真のコピー数バリアントではなく誤検出である可能性が高い。 隠れマルコフモデルを使用して最も確率が高いコピー数を決定した後の、いくつかのテスト配列ライブラリ(x軸)の同じ関心領域(y軸)内の多数のセグメントにわたるコピー数コールを示す。濃い色の領域は、2のコピー数状態からの逸脱を示す。ボックス領域は、真のコピー数バリアントが、多数のセグメントにまたがり、誤検出が最小限に抑えられる方法を示す。HMMは、隣接するセグメントのコピー数状態が後続のセグメントに与える影響を考慮に入れる。これにより、モデルは、単一のセグメント内で観測されるバリエーションとは対照的に、真のコピー数バリアントをコールすることが可能になる。 テストサンプルからの実際の配列リード数を使用してコピー数バリアントモデルをパラメータ化することと、実際の配列リード数に基づいて合成のコピー数バリアントを生成することと、パラメータ化されたコピー数バリアントモデルに基づく合成のコピー数バリアント内のセグメントのコピー数をコールすることと、によって、コピー数バリアントモデルを評価するための概略図を提供する。 セグメントの1つのコピーを有する合成のコピー数バリアントを生成するための、セグメントの2つのコピーを有するテストサンプルからの実際の配列リードの二項サンプリングを例示する。 問い合わせされたセグメントのコピー数をコールするか、またはコピー数バリアントモデルの性能を評価するための様々な例示的な方法を含む、上述のプロセスのいずれか1つを実行するように構成された例示的なコンピューティングシステムを描示する。 唾液サンプルの割合の増加に対してプロットされた2つの隠れマルコフモデルコピー数バリアントコーラの感度結果を示す。唾液サンプルは、一般に、ノイズが多い配列深度を有する。基準コーラは、配列ライブラリノイズまたはスプリアス捕捉プローブを考慮しない一方、テストコーラは、これらの要因の両方を考慮する。
本明細書に記載された方法は、遺伝子または遺伝子セグメントなどのゲノムの問い合わせされたセグメントのコピー数の正確な決定を可能にする。いくつかの態様では、コピー数バリアントコーラの品質は、サンプルごとに品質管理メトリック(感度など)を生成することによって制御される。正確なコピー数コールは、特定の遺伝的異常の向上した診断を可能にし、重要な医学的決定を行うことを支援する。
コピー数バリアントコーラを使用して、関心領域内の1つ以上のセグメントでのコピー数バリアントのテスト配列ライブラリをスクリーニングすることができる。これらのコーラは、隠れマルコフモデル(HMM)などのコピー数バリアントモデルを構築することによって動作し、HMMは、テストサンプルを1つ以上のコピー数バリアント(CNV)モデルパラメータを生じさせるためにパラメータ化される。CNVモデルパラメータは、配列深度、サンプルノイズ、捕捉プローブ効率、および/またはテスト配列ライブラリの配列中に生じる他のアーティファクトによって異なり得る。
合成のコピー数バリアントを生成して、コピー数バリアントコーラ(またはコーラが使用するコピー数バリアントモデル)の性能を評価することができる。コーラは、合成のコピー数バリアント内の1つ以上のセグメントでコピー数をコールするために使用され、コーラの評価を提供する性能統計を決定することができる。コピー数バリアントモデルのパラメータ化は、計算集約的である。したがって、特にコーラを使用して多数のサンプルをスクリーニングする場合、各合成のコピー数バリアントについてCNVモデルをパラメータ化することによるサンプル特異的な性能評価は、実用的でない。ただし、本明細書に記載されているように、コピー数バリアントモデルは、サンプル特異的なCNVモデルパラメータを決定するために、テストサンプルからの配列リードを使用してパラメータ化することができる。合成のコピー数バリアントは、テストサンプルからの配列リードに基づいて生成することができ、CNVモデルパラメータは、テストサンプルに特異的であり、かつ合成のコピー数バリアントがテストサンプルに基づいて生成されるため、決定されたサンプル特異的なCNVモデルパラメータをコーラによって使用して、モデルを再パラメータ化せずに、合成のコピー数バリアントのセグメントのコピー数をコールすることができる。したがって、本明細書に記載された方法は、CNVモデルの評価のための信頼できる性能統計を生成しながら、実質的なコンピューティング能力を節約する。
隠れマルコフモデル(HMM)などのコピー数バリアントモデルは、コピー数尤度モデルの1つ以上のパラメータの分析的な1次導関数勾配および2次導関数ヘッシアンを使用
してパラメータ化することができる。いくつかの実施形態では、1次導関数勾配および2次導関数ヘッシアンは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれる。期待値最大化(EM)ステップを使用して、複数の最適化ループを含むことができるコピー数バリアントモデルパラメータを決定することができる。いくつかの実施形態では、EMは、CNVモデルをパラメータ化して、期待されるコピー数コールによって重み付けされた対数尤度を最大化する。
特定の方法は、隠れマルコフモデル(HMM)を使用して、テスト配列ライブラリの問い合わせされたセグメントの最も確率が高いコピー数を決定することを含む。いくつかの実施形態では、テスト配列ライブラリは、直接標的配列(DTS)法を使用して濃縮される。DTS法は、問い合わせされた配列の高解像度標的化を提供し、本明細書に記載されたHMMコーラは、コピー数コーリングのための収集された大量のデータによって実質的に恩恵を受ける。HMMコーラの精度をさらに高めるために、直接標的配列法から生じ得る配列深度アーティファクトを考慮することができる。このような配列深度アーティファクトは、例えば、GCバイアス補正とスプリアスプローブの決定とを含み得る。これに加えて、本明細書に記載された方法は、配列リードが、ノイズが多い配列ライブラリから生成される場合に、正確なコピー数コーリングを提供する。
患者サンプルに由来する配列ライブラリを配列して、いくつかの配列リードを取得することができる。セグメントのコピー数は、そのセグメントでの配列深度(すなわち、配列リード数または正規化された配列リード数)に関連しる。本開示は、セグメントでの配列深度を使用して、セグメントでのコピー数状態の存在を決定する方法を記載する。配列深度は、そのセグメントにマッピングされた配列リードを決定することによって取得され得る。配列深度は、そのセグメントに対応する捕捉プローブにマッピングされた配列リードを決定することによって取得され得る。この方法は、コールがより正確になるように最適化するために、配列技術に関連付けられたいくつかの要因を考慮に入れる。
セグメントのマッピングされた配列リード数の決定は、少なくとも部分的に、セグメントの実際のコピー数状態に依存する。哺乳類の遺伝子領域の大部分は2倍体であり、そのため、一般に、遺伝子セグメントの2つのコピーがあると予想されるが、これが常に当てはまるとは限らない場合がある。例えば、ゲノムのいくつかの領域は、それらの領域の場所(例えば、Y染色体上に位置する)に起因して、2倍体ではない。ゲノムの他の領域は、ゲノム再配列をもたらす免疫細胞などのいくつかの細胞の機能的特殊化の結果としてそれらの領域の2倍体を失う。ただし、これらの標準からの逸脱にかかわらず、ほとんどのゲノム領域のコピー数状態は2であると期待され、2のコピー数状態からの逸脱は、マッピングされた配列リード数に反映されることが期待される。
配列リードをセグメントにマッピングする前に、断片化、配列ライブラリの形成(例えば、配列アダプターを配列ライブラリ内の核酸分子にライゲーションすることによる)、および配列ライブラリを配列することを含むサンプル調製などの1つ以上の上流ステップを行うことができる。これらの上流ステップのうちのいずれかでの配列深度のノイズは、配列リード数にノイズを導入する可能性がある。さらに、捕捉プローブライブラリ内の様々な捕捉プローブは、同じように動作しない場合がある。例えば、関心領域内の特定のセグメントは、理想的な捕捉プローブ設計を可能にしない場合があり、これは、スウリアス捕捉プローブにつながる可能性がある。したがって、セグメントのコピー数状態を決定するために、決定された数のマッピングされた配列リードを使用することは、セグメントのコピー数状態と、セグメントでの決定されたマッピングされた配列リード数と、の間の既存の依存性を認識することよりも直接的ではない。本発明の方法は、マッピングされた配列リード数とセグメントのコピー数状態との間の依存性を考慮するためにパラメータ化および最適化される隠れマルコフモデルを使用して、関心領域内の問い合わせされたセグメ
ントのコピー数コールを行うことを可能にする。隠れマルコフモデルはまた、交絡因子の様々なソースとレベルを考慮することができる。この方法は、関心領域内の問い合わせされたセグメントまたはサブセグメントのコピー数を決定するための、および関心領域内のコピー数バリアント異常を決定するための特に効果的かつ効率的なプロセスを可能にする。
本発明のいくつかの実施形態では、配列ライブラリは、直接標的配列を使用して、関心領域について濃縮される。直接標的配列は、配列ライブラリ内の核酸分子にハイブリダイズする複数の捕捉プローブを含む捕捉プローブライブラリを使用する。捕捉プローブは、関心領域内のセグメントにハイブリダイズするように設計されており、各捕捉プローブは、対応するセグメントを有する。したがって、関心領域は、配列ライブラリを濃縮するために使用される捕捉プローブによって決定される。捕捉プローブは、捕捉プローブにハイブリダイズした核酸分子をテンプレートとして使用して伸長される。次いで、伸長された捕捉プローブを配列して、核酸分子の一部分(すなわち、関心領域からのセグメントに対応する部分)の配列を取得することができる。捕捉プローブ自体の配列が決定されるため、捕捉プローブに対応するセグメントは、捕捉プローブの終端に続いて開始する。いくつかの実施形態では、伸長された捕捉プローブは、追加のコピーを取得するために増幅される。伸長された捕捉プローブの増幅はまた、本明細書に記載されているように正規化することができる配列深度にアーティファクトを導入する可能性がある。「Direct Capture,Amplification and Sequencing of Target DNA using Immobilized Primers」と題された米国特許第9,309,556号、「System and Method for Detecting Genetic Variation」と題された米国特許第9,092,401号、「Methods and Compositions for High-throughput Screening」と題された米国特許出願第2014/0024541号、Myllykangas el al.「Efficient targeted resequencing of human germline and cancer genomes by oligonucleotide-selective sequencing.」Nat Biotechnol.29(11):1024-7(2011)、およびHopmans el al..「A. programmable method for massively parallel targeted sequencing.」Nucleic Acids Res.42(10):e88(2014)は、直接標的配列の実施形態を記載している。直接標的配列は、表面ベースの方法を使用して実行される必要はないが、溶液中でも実行することができる。
いくつかの実施形態では、配列ライブラリは、直接標的配列以外の方法を使用して、関心領域について濃縮される。例えば、配列ライブラリは、配列ライブラリを捕捉プローブライブラリと組み合わせて、捕捉プローブを配列ライブラリ内の核酸分子とハイブリダイズさせることを含む、ハイブリッド捕捉技術を使用して濃縮され得る。次いで、ハイブリダイズされた核酸分子を、残りの配列ライブラリから単離することができる(例えば、ビオチン化捕捉プローブを使用し、かつストレプトアビジンビーズを使用して、ハイブリダイズした分子を分離することによる)。次いで、濃縮された配列ライブラリ内の核酸分子が、配列され得る。配列ライブラリからの核酸分子は(直接ターゲット配列法とは対照的に)直接配列されるため、捕捉プローブは、必ずしも関心領域内の特異的なセグメントに対応するわけではない。代わりに、関心領域内の任意の所与の塩基での配列深度は、その塩基での配列リード数によって決定され得る。
本明細書には、当業者が提供された方法の範囲を理解することを可能にし、当業者が本発明を実施することを可能にする定義、説明、例および説明が、提供される。本明細書に
記載された様々な実施形態の特性の1つ、いくつか、またはすべてを組み合わせて、本発明の他の実施形態を形成し得ることを理解されたい。本書で使用されるセクション見出しは、編成上の目的のみであり、記載された主題を限定するものとして解釈されないものとする。
定義
本明細書で使用される場合、単数形「a」、「an」、および「the」は、文脈が明確に別段の指示をしない限り、複数形の言及を含む。
本明細書における「約」または「およそ」の値またはパラメータへの言及は、その値またはパラメータ自体を対象とする変動を含む(および記載する)。例えば、「約X」に言及する説明は、「X」の説明を含む。
本明細書で使用される場合の「代表値」という用語は、文脈が明確に別段の指示をしない限り、平均値または中央値、あるいは平均値または中央値を概算するために使用される任意の値を指す。
「捕捉プローブ」は、相補的な配列、または通常のハイブリダイゼーション条件下でのハイブリダイゼーションを可能にするのに十分に相補的な配列を有するセグメントを有する配列ライブラリに存在する核酸分子にハイブリダイズするDNA分子またはRNA分子を指す。
「コピー数尤度」は、関心セグメントまたは関心サブセグメントにおけるコピー数の尤度を指す。
「コピー数尤度モデル」は、そのセグメントでのマッピングされた配列リード数が与えられた場合にコピー数尤度を決定するために使用される統計モデルを指す。コピー数尤度モデルは、モデルがカバーする各コピー数状態の統計分布を含み、各分布は、所与の数のマッピングされた配列リードに対してコピー数状態が正しい確率を反映する。
「コピー数バリアント」または「CNV」は、野生型からのコピー数状態の逸脱を指す。本明細書で使用される場合の「野生型」は、正常であると見なされる特定のセグメントの所定のコピー数状態を指す。「野生型」であるものの決定は、ヒト、哺乳類、または他の動物の個体数データに基づいて行うことができる。「野生型」が何であるかを決定することはまた、基準実行、内部実験、およびこのような実験から生成されたデータに基づいて行うことができる。
「直接標的配列捕捉プローブ」は、直接標的配列を使用して配列ライブラリから配列を濃縮するために使用される捕捉プローブである。
「問い合わせされたセグメント」は、コピー数バリアントモデルがコピー数状態を決定するために使用される関心領域内のセグメントを指す。問い合わせされたセグメントは、1つの塩基対と同じくらい小さいが、問い合わせされたセグメントの長さよりも長くない可能性があるサブセグメントに分割することができる。
配列ライブラリからの「ノイズが多い配列ライブラリ」または「ノイズ」は、1つ以上の捕捉プローブにわたって粗悪なデータを生成する配列ライブラリを指す。
本明細書で使用される場合の「配列リード数」は、配列リードの絶対数または配列リードの正規化された数を指す。
「実際のサンプル」は、配列、配列リード、または配列リード数が変更されることなく、遺伝子配列に供された物理的サンプルを発生元とする配列リードを発生元とする核酸配列または配列リードを指す。「実際の基準サンプル」は、遺伝子バリアントコーラによって合成のサンプル(例えば、合成のコピー数バリアント)と比較される実際のサンプルを指す。
「実際の配列リード」は、配列の変更なしに実際のサンプルを発生元とする配列リードを指す。「実際の配列リード数」は、実際の配列リードの絶対数または配列リードの正規化された数を指すが、いかなるセグメントまたは関心領域のコピー数の増加を反映するように変更された配列リード数を指さない。
「セグメント」は、2つ以上の塩基を含むヌクレオチド鎖を指す。セグメントは、1つ以上の「サブセグメント」に細分化することができる。「サブセグメント」は、1つのヌクレオチドほど小さいが、サブセグメントが位置するセグメントよりも長くないことが可能である。関心領域は、1つ以上のセグメントに分割され得る。セグメントは、連接することが可能であるが、連接する必要はない。したがって、関心領域は、任意で、連接しないサブ領域を含むことができる。セグメントは、同じ長さであるかまたは、異なる長さであり得る。関心領域内の2つ以上のセグメントをグループ化して、関心領域内のセクションを作製することができる。関心領域内のセクションを構成するセグメントは、連接し得るが、連接する必要はない。
「スプリアス捕捉プローブ」は、コピー数と関連しない配列リード数にアーティファクトを生成する捕捉プローブを指す。アーティファクトは、標準以下の配列リード、一貫性のない配列リード、所定のレベルを下回る長さの配列リード、所定のレベルを下回る配列リード数、または他の捕捉プローブと比較した場合の表示低品質に起因し得る。
「空間的に隣接するセグメント」は、同じ染色体内に位置するが、連接する必要はない一連のセグメントのセットを指す。すなわち、2つの空間的に隣接するセグメントは、いくつかの介在するヌクレオチドによって分離され得るが、空間的に隣接するセグメントのセットの外側の介在するセグメントによっては分離され得ない。2つの空間的に隣接するセグメントが、連接しない場合、介在するヌクレオチドのコピー数は、隠れマルコフモデルにより推測され得る。「空間的に隣接する直接標的配列捕捉プローブ」を含む「空間的に隣接する捕捉プローブ」は、空間的に隣接するセグメントに対応する捕捉プローブを指す。
「合成のコピー数バリアント」という用語は、実際のサンプルに対する関心領域内の1つ以上のセグメントのコピー数の増加または減少を伴う、実際の配列リード、または実際のサンプルからの実際の配列リード数を使用して生成された人工サンプルを指す。
「合成のコピー数」は、合成のコピー数バリアントの関心領域内のセグメントのコピー数を指し、実際のサンプルに対してコピー数は増加し、減少し、または同じであり得る。合成のコピー数バリアントは、各セグメントのコピー数を変更する必要がなく、1つ以上のセグメントの野生型のコピー数を含み得るため、合成のコピー数バリアントの1つ以上のセグメントの合成のコピー数は、セグメントの実際のコピー数と同じであり得る。
「合成の配列リード数」は、関心領域内のセグメントの合成のコピー数を表すために使用される配列リード数を指す。セグメントの合成の配列リード数は、対応するセグメントの実際の配列リード数と比較して、増加、減少、または維持され得る。
本明細書に記載された本発明の態様および変形例は、「からなる」および/または「本質的に~からなる」態様および変形例を含むことが理解される。
値の範囲が提供される場合、その範囲の上限と下限との間の各介在値、およびその述べられた範囲内の任意の他の述べられた値または介在値は、本開示の範囲内に包含されることを理解されたい。述べられた範囲が上限または下限を含む場合、それらの含まれる限界のいずれかを除く範囲もまた、本開示に含まれる。
コピー数を決定する方法
本開示は、セグメントの決定されたマッピングされた配列リード数に基づいて、関心領域の問い合わせされたセグメント(または問い合わせされたセグメントのサブセグメント)のコピー数、または関心領域内のコピー数バリアント異常を決定するための方法を提供する。方法は、1つ以上のコピー数状態の期待されるマッピングされた配列リード数に基づいてコピー数尤度モデルを決定することを含む。コピー数尤度モデルの1つ以上のパラメータの1次導関数勾配および2次導関数ヘッシアンを、期待値最大化(EM)と共に使用して、モデルの潜在パラメータ推定および最適化を可能にすることができる。1次導関数勾配および2次導関数ヘッシアンは、例えば、信頼領域ニュートン共役勾配アルゴリズムを使用して解くことができる。モデルへのいくつかの追加のステップおよび調整を使用して、コピー数とマッピングされた配列リード数との関係に影響を与える他の要因を考慮することができる。この情報を使用して、隠れマルコフモデルをパラメータ化し、次いで隠れマルコフモデルを使用して、問い合わせされたセグメントでの最も確率が高いコピー数状態を判定することができる。コピー数尤度モデル、期待値最大化実装、多数の要因を考慮したモデルの調整、隠れマルコフモデルのパラメータ化を構築するための方法、ならびに様々なステップおよびモデル全体を解決する方法が、以下に概して提供される。
簡単には、セグメントまたはサブセグメントのコピー数を決定するための方法は、(1)問い合わせされたセグメントにマッピングされた配列リード数を決定すること、(2)コピー数尤度モデルを決定することによって、隠れマルコフモデルを構築およびパラメータ化すること、および(3)パラメータ化された隠れマルコフモデルを使用して、問い合わせされたセグメント(または問い合わせされたセグメントのサブセグメント)の最も確率が高いコピー数を決定することを含むことができる。隠れマルコフモデルは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれ得る期待値最大化(EM)と共に、コピー数尤度モデルの1つ以上のパラメータの1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される。いくつかの実施形態では、本明細書で提供される方法はまた、プロセス中に生じ得る交絡効果を考慮することによってモデルを改良するためのステップを含む。
本明細書に記載された方法のいくつかの実施形態では、隠れマルコフモデルを使用して、セグメントの最も確率が高いコピー数状態を決定する。隠れマルコフモデルは、関心セグメントのコピー数状態を含む隠れ層、マッピングされた配列リード数を含む観測層、隠れ層のコピー数状態とマッピングされた配列リード数との間の遷移確率(確率層間)、および先行する隣接するセグメントのコピー数状態が与えられた場合の、セグメントのコピー数状態の遷移確率(確率イントラ隠し層)を含むことができる。図1は、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法の一実施形態を例示する。ステップ110で、テスト配列ライブラリのために生成された配列リードが、1つまたは複数の関心領域内の1つまたは複数のセグメントにマッピングされる。ステップ120で、関心領域(単数または複数)内のセグメント(単数または複数)でのマッピングされた配列リード数が、決定される。ステップ130で、観測されるマッピングされた配列リード数が与えられた場合のコピー数状態の遷移確率を設定するために使用されるコピー数尤度モデルが、決定される。ステップ140で、隠れ層、観測層、および遷移確率を含む隠
れマルコフモデルが構築される。ステップ150で、好ましくは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれ得る、コピー数尤度モデルの1つ以上のパラメータの1次導関数勾配および2次導関数ヘッシアンを使用して、隠れマルコフモデルが、パラメータ化される。最も単純な形式では、隠れマルコフモデルは、コピー数状態と、コピー数尤度モデルによって決定される、コピー数状態と観測される配列リード数との間の遷移確率と、の少なくとも2つの未知のパラメータを含む。コピー数尤度モデルの1つ以上のパラメータの1次導関数勾配および2次導関数ヘッシアンを、期待値最大化と共に使用して、データの最適なフィッティングに基づいてこれらのパラメータを決定し(すなわち、モデルをパラメータ化し)、最も確率が高いコピー数を決定する。モデルでは、セグメントの最も確率が高いコピー数を決定するために、観測される配列リード数が与えられた場合にコピー数状態の確率を最大化することが望ましい。ステップ160で、セグメントの最も確率が高いコピー数状態が、決定される。このプロセスは、GC含量の偏り、セグメントと関連付けられた捕捉プローブのスプリアス性、遷移確率に影響を与える、ノイズが多いテスト配列ライブラリなどの、観測状態に影響を与える他の変数を考慮し得る。追加の変数は、潜在的なものとして扱われ、利用可能なデータが与えられた場合にEMによって決定される。次いで、遷移確率は、これらの他の変数を考慮して調整される。EMプロセスは、累積的(すべての変数を一度に調整する)であり得るか、または最も確率が高いコピー数状態を決定するためにHMMを解く前に、別個のEM反復で変数に順応することができる。
マッピングされた配列リード数の決定
いくつかの実施形態では、本明細書に記載された方法は、テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントなどの1つ以上のセグメントにマッピングすることを含む。いくつかの実施形態では、本明細書に記載された方法は、テスト配列ライブラリから生成された複数の配列リードを複数のセグメント(空間的に隣接し得る)にマッピングすることを含み得、複数のセグメントは、問い合わせされたセグメントを含む。配列ライブラリは、直接標的配列などによって、関心領域について濃縮される。マッピングされた配列リードをカウントして、問い合わせされたセグメントまたは空間的に隣接するセグメントにマッピングされた配列リード数を決定することができる。
いくつかの実施形態では、セグメントは、同じ染色体内に位置する。いくつかの実施形態では、セグメントは、同じ染色体領域内に位置する。いくつかの実施形態では、セグメントは、同じ遺伝子内に位置する。いくつかの実施形態では、セグメントは、同じ関心領域内に位置する。いくつかの実施形態では、セグメントは、関心領域内の同じ部分内に位置する。
配列ライブラリを配列して、関心領域にマッピングすることができる複数の配列リードを生成することができる。配列ライブラリは、血液、血漿、唾液、尿などの体液からか、または組織もしくは培養細胞から分離することができる複数の核酸断片を含む。核酸断片は、動物からのものであり得る。核酸断片は、哺乳動物、例えば、ヒトからのものであり得る。好ましい実施形態では、テスト配列ライブラリは、患者から単離された複数の核酸断片を含む。配列ライブラリ内の核酸分子は、特定の配列方法でのアライメントを支援し得る配列アダプタにライゲーションすることができる。例えば、アダプタは、インデックス付けされ得、インデックス付けを使用して、配列のアライメントを支援し得る。配列ライブラリは、核酸分子を配列アダプタにライゲーションする前または後のいずれかで、関心領域について(直接標的配列によるなど)濃縮され得る。
テスト配列ライブラリ内の核酸断片は、RNAまたはDNA核酸断片であり得る。核酸断片は、無細胞DNAであり得る。いくつかの実施形態では、無細胞DNAは、胎児の無細胞DNAを含む。いくつかの実施形態では、無細胞DNAは、循環腫瘍無細胞DNAを
含む。
配列ライブラリ内の核酸断片は、関心領域を含む。関心領域は、全ゲノム、またはゲノムの任意の部分であり得る。いくつかの実施形態では、関心領域は、1つ以上の染色体を含む。いくつかの実施形態では、関心領域は、1つ以上の関心遺伝子(例えば、2つ以上、3つ以上、4つ以上、5つ以上、約10個以上、約15個以上、約20個以上、約30個以上、約40個以上、約50個以上、約75個以上、約100個以上、約150個以上、約200個以上、約250個以上の遺伝子、約300個以上、約350個以上、約400個以上、約450個以上、約500個以上、約550個以上、約600個以上、約650個以上、約700個以上、約750個以上、約800個以上、約850個以上、約900個以上、約950個以上、または約1000個以上など)を含む。1つ以上の関心遺伝子は、疾患と関連付けられた任意の遺伝子であり得る。1つ以上の関心遺伝子は、遺伝性疾患と関連付けられた任意の遺伝子を含み得る。1つ以上の関心遺伝子は、遺伝性癌などの癌の形態と関連付けられた遺伝子を含み得る。いくつかの実施形態では、関心領域は、1つ以上のエクソン(例えば、2つ以上、3つ以上、4つ以上、5つ以上、10個以上、15個以上、20個以上、30個以上、40個以上、50個以上、75個以上、100個以上、150個以上、200個以上、250個以上、500個以上、1000個以上、または2000個以上のエクソン)。いくつかの実施形態では、関心領域は、APC、ATM、BARD1、BMPR1A、BRCA1、BRCA2、BRIPI、CDH1、CDK4、CDKN2A、CHEK2、EPCAM、GREM1、MEN1、MLH1、MRE11A、MSH2、MSH6、MUTYH、NBN、PALB2、PMS2、POLD1、POLE、PTEN、RAD50、RAD51C、RAD51D、RET、SDHA、SDHB、SDHC、SMAD4、STK11、TP53、VHL、PEX10、MTHFR、ALPL、HMGCL、DHDDS、PPT1、MPL、MMACHC、POMGNT1、CPT2、ALG6、RPE65、ACADM、DPYD、AGL、SLC35A3、DBT、PHGDH、CTSK、NTRK1、NPHS2、LAMC2、LAMB3、USH2A、PHYH、ERCC6、PCDH15、LIPA、HOGA1、OAT、TH、HBB、SMPD1、TPP1、KCNJ11、ABCC8、USH1C、RAG2、RAPSN、TMEM216、PYGM、BBS1、PC、TCIRG1、CPT1A、DHCR7、MYO7A、MED17、PTS、SLC37A4、HYLS1、PFKM、BBS10、GNPTAB、PAH、MMAB、ACADS、PUS1、GJB2、GJB6、SGCG、SACS、ATP7B、CLN5、PCCA、TGM1、ZFYVE26、VSX2、NPC2、GALC、SERPINA1、VRK1、TECPR2、SLC12A6、IVD、CAPN3、CLN6、NR2E3、HEXA、MPI、FAH、MESP2、BLM、GNPTG、MEFV、PMM2、CLN3、BBS2、TAT、CYBA、FANCA、VPS53、ASPA、CTNS、ACADVL、ALDH3A2、PEX12、NAGLU、G6PC、SGCA、MKS1、DNAI2、GALK1、GAA、SGSH、NPC1、LAMA3,LOXHD1、MCOLN1、MAN2B1、GCDH、NPHS1、BCKDHA、OPA3、FKRP、HADHA、LRPPRC、FAM161A、ATP6V1B1、DYSF、ALMS1、NEB、CERKL、CPS1、BCS1L、CYP27A1、COL4A4、COL4A3、AGXT、NDUFAF5、ADA、RTEL1、HLCS、CBS、AIRE、TRMU、MLC1、TYMP、ARSA、SUMF1、XPC、BTD、GLB1、AMT、GBE1、HGD、PCCB、HPS3、CLRN1、BCHE、IDUA、EVC2、EVC、SEPSECS、SGCB、MTTP、BBS12、MMAA、AGA、F11、NDUFS6、DNAH5、NDUFS4、ERCC8、HEXB、HSD17B4、SLC22A5、SLC26A2、SGCD、PROP1、ADAMTS2、PEX6、MUT、PKHD1、EYS、SLC17A5、BCKDHB、RARS2、LAMA2、ARG1、PEX7、ASL,PEX1、SAMD9、ASNS、SLC26A4、DLD、CFTR、CLN8、STAR、HGSNAT、TTPA、PEX2、CNGB3、
VPS13B、CYP11B1、CYP11B2、GLDC、DNAI1、GALT、RMRP、GNE、GRHPR、VPS13A、FANCC、XPA、ALDOB、FKTN、IKBKAP、ASS1、RS1、NR0B1、DMD、OTC、IL2RG、ATP7A、CHM、GLA、COL4A5、IDS、MTM1、ABCD1、またはそれらの組み合わせからなる群から選択される、遺伝子または遺伝子の一部分、エクソンまたはエクソンの一部分を含む。
関心領域は、複数のセグメントに分割することができる。各セグメントは、サブセグメントにさらに分割することができる。サブセグメントは、1つ以上のヌクレオチドの長さであり得る。関心領域内のセグメントは、連接し得るが、連接する必要はない。例えば、いくつかの実施形態では、関心領域は、1つ以上の連接しないセグメント、2つ以上の連接しないセグメント、3つ以上の連接しないセグメント、4つ以上の連接しないセグメント、5つ以上の連接しないセグメント、10個以上の連接しないセグメント、25個以上の連接しないセグメント、50個以上の連接しないセグメント、100個以上の連接しないセグメント、150個以上の連接しないセグメント、200個以上の連接しないセグメント、250個以上の連接しないセグメント、300個以上の連接しないセグメント、350個以上の連接しないセグメント、400個以上の連接しないセグメント、450個以上の連接しないセグメント、500個以上の連接しないセグメント、550個以上の連接しないセグメント、600個以上の連接しないセグメント、650個以上の連接しないセグメント、700個以上の連接しないセグメント、750個以上の連接しないセグメント、800個以上の連接しないセグメント、850個以上の連接しないセグメント、900個以上の連接しないセグメント、950個以上の連接しないセグメント、または1000個の連接しないセグメントを含む。いくつかの実施形態では、連接しないセグメントの各々は、1つ以上の連接する塩基、2つ以上の連接する塩基、3つ以上の連接する塩基、4つ以上の連接する塩基、または5つ以上の連接する塩基を含む。例えば、いくつかの実施形態では、連接しないセグメントの各々は、1つ~約20個の連接する塩基(例えば、1つ~約10個の連接する塩基、または約1つ~約5つの連接する塩基)を含む。いくつかの実施形態では、関心領域は、1つ以上の連接するセグメント、2つ以上の連接するセグメント、3つ以上の連接するセグメント、4つ以上の連接するセグメント、5つ以上の連接するセグメント、10個以上の連接するセグメント、25個以上の連接するセグメント、50個以上の連接するセグメント、100個以上の連接するセグメント、150個以上の連接するセグメント、200個以上の連接するセグメント、250個以上の連接するセグメント、300個以上の連接するセグメント、350個以上の連接するセグメント、400個以上の連接するセグメント、450個以上の連接するセグメント、500個以上の連接するセグメント、550個以上の連接するセグメント、600個以上の連接するセグメント、650個以上の連接するセグメント、700個以上の連接するセグメント、750個以上の連接するセグメント、800個以上の連接するセグメント、850個以上の連接するセグメント、900個以上の連接するセグメント、950個以上の連接するセグメント、または1000個の連接するセグメントを含む。いくつかの実施形態では、連接するセグメントの各々は、1つ以上の連接する塩基、2つ以上の連接する塩基、3つ以上の連接する塩基、4つ以上の連接する塩基、または5つ以上の連接する塩基を含む。例えば、いくつかの実施形態では、連接しないセグメントの各々は、1つ~約20個の連接する塩基(例えば、1つ~約10個の連接する塩基、または約1つ~約5つの連接する塩基)を含む。いくつかの実施形態では、関心領域は、連接しないセグメントと連接するセグメントとの組み合わせを含む。いくつかの実施形態では、関心領域は、1つのセグメントのみを含む。いくつかの実施形態では、関心領域は、少なくとも1つのセグメントを含む。いくつかの実施形態では、関心領域は、少なくとも2つのセグメントを含む。いくつかの実施形態では、関心領域は、隣接する少なくとも2つのセグメントを含む。いくつかの実施形態では、第1の関心領域内の1つのセグメントは、第1の関心領域に隣接する第2の関心領域内のセグメントに隣接し得る。
関心領域は、1つ以上の捕捉プローブで濃縮され得る。関心領域に関する捕捉プローブの基準場所は、既知である。例えば、捕捉プローブは、所定のプローブ座標に対応する基準配列を含む。いくつかの実施形態では、関心領域は、捕捉プローブの場所に基づいてセグメントに分割される(すなわち、捕捉プローブは、セグメントに対応する)。捕捉プローブは、プローブ座標に対応する基準配列を含む。例えば、セグメントの最初のヌクレオチドは、捕捉プローブの3’末端にハイブリダイズする配列の最初のヌクレオチドと一致し得る。いくつかの実施形態では、セグメントの最初のヌクレオチドは、捕捉プローブの5’末端にハイブリダイズする配列の最初のヌクレオチドと一致する。いくつかの実施形態では、関心領域は、2つの空間的に隣接するセグメントを含む。関心領域内のセグメントは、サブセグメントに分割され得る。サブセグメントは、1つのヌクレオチドがセグメントと同じ長さであり得るのと同じくらい小さくあり得る。サブセグメントは、重複し得る。例えば、第1のサブセグメントは、セグメントの最初のヌクレオチドに1つの下流ヌクレオチドを加えたものであり得る。第2のサブセグメントは、第1のサブセグメントに追加の下流ヌクレオチドを加えたものを含み得る。いくつかの実施形態では、n個のヌクレオチドの長さのセグメントは、n-1個のサブセグメントを含み、後続の各サブセグメントは、前のものよりも1つのヌクレオチドだけ長い。いくつかの実施形態では、n個のヌクレオチドの長さのセグメントは、n個のサブセグメントを含み、各サブセグメントは、長さが1つのヌクレオチドである。
関心領域は、少なくとも1つの問い合わせされたセグメントを含む。問い合わせされたセグメントは、コピー数を知ることが望ましいセグメントである。問い合わせされたセグメントのコピー数状態は、未知の状態であり、隠れマルコフモデルを解くことにより、問い合わせされたセグメントの最も確率が高いコピー数が決定される。他のセグメントのように、問い合わせされたセグメントは、サブセグメントに分割され得る。いくつかの実施形態では、問い合わせされたセグメントの最初のヌクレオチドは、捕捉プローブの5’末端にハイブリダイズする配列の最初のヌクレオチドと一致する。いくつかの実施形態では、問い合わせされたセグメントの最初のヌクレオチドは、捕捉プローブの3’末端にハイブリダイズする配列の最初のヌクレオチドと一致する。いくつかの実施形態では、問い合わせされたセグメントは、2つの空間的に隣接する捕捉プローブにまたがる配列を含む。好ましい実施形態では、問い合わせされたセグメントは、2つの隣接する捕捉プローブ間にヌクレオチド配列を含み、配列の最初のヌクレオチドは、捕捉プローブの5’末端または3’末端にハイブリダイズする最初のヌクレオチドであり、セグメントの最後のヌクレオチドは、空間的に隣接するプローブの5’末端または3’末端にハイブリダイズする最初のヌクレオチドに連接する。
テスト配列ライブラリを、配列リードを生成するために次世代配列を使用して配列することができる。次世代配列技術は、当技術分野で周知である。テスト配列ライブラリは、Illumina HiSeq2500、Illumina HiSeq3000、Illumina HiSeq4000、Illumina HiSeqX、Roche 454、PacBio Sequel System PacBio RS II、Life Technologies Ion Proton配列システムなどの高スループットシーケンサを使用して配列することができる。配列の他の方法は、当技術分野で知られている。
いくつかの実施形態では、配列ライブラリは、直接標的配列によって1つ以上の捕捉プローブで濃縮される。直接標的配列では、捕捉プローブは、配列ライブラリ内から核酸分子の特異的な標的領域をハイブリダイズさせる。この方法により、標的領域の濃縮が可能になり、後続の配列作業が、関心ゲノム領域または関心転写産物に焦点を当てることを可能にする。関心領域について捕捉プローブでターゲット領域を濃縮することにより、関心
領域のより効率的な高スループット配列が可能になる。この効率により、診断テストまたは画面の感度および特異性を維持または向上させながら、配列テスト配列ライブラリの全体的なコストが保たれる。捕捉プローブは、関心領域の一部分を内包する配列ライブラリ内のそれらの核酸分子が捕捉プローブにハイブリダイズして濃縮することができるように、関心領域に基づいて選択することができるのに対して、関心領域の一部分を内包しない、配列ライブラリ内のそれらの核酸分子は、捕捉プローブにハイブリダイズせず、濃縮されない。
直接標的配列では、関心領域内の対応するセグメントに隣接する標的配列にハイブリダイズする捕捉プローブは、配列ライブラリと組み合わされることにより、捕捉プローブを、標的配列にハイブリダイズさせることを含めて核酸分子にハイブリダイズさせる。直接標的配列法では、捕捉プローブは、核酸分子をテンプレートとして使用して伸長され、伸長された捕捉プローブは、配列される。伸長された捕捉プローブ(または伸長された捕捉プローブの増幅コピー)自体が配列されるため、捕捉プローブの配列は、配列アライメントを支援するために使用され得るが、テスト配列ライブラリから生じる配列として解釈されない。
捕捉プローブを使用して配列ライブラリを濃縮するための他の方法は、当技術分野で一般に知られており、ハイブリッド捕捉技術(例えば、ビオチン化捕捉プローブを使用する)、および捕捉プローブをPCRプライマとして使用するPCR増幅を含むことができる。
いくつかの実施形態では、ハイブリッド捕捉技術を使用して、関心領域の一部分に対して実質的に相補的である捕捉プローブを配列ライブラリと組み合わせることによって関心領域を濃縮し、それにより、捕捉プローブを、関心領域のこの部分を含む核酸分子にハイブリダイズさせる。捕捉プローブにハイブリダイズする核酸分子は、ハイブリダイズしていない核酸分子から単離され得る(例えば、プルダウン法による)。ハイブリダイズした複合体は、変性させることができ、配列ライブラリからの濃縮された核酸分子は、配列され得る。いくつかの実施形態では、濃縮された核酸分子は、配列される前に、捕捉プローブへのハイブリダイゼーション、単離および変性の2回目(またはそれよりも多く)のラウンドで再濃縮される。任意で、配列ライブラリ内の核酸分子は、濃縮前または後のいずれかで増幅され得る(例えば、PCRによる)。
いくつかの実施形態では、捕捉プローブのうちの1つ以上が、追加のオリゴヌクレオチド(プライマ結合部位または他の特殊な核酸セグメントなど)に付着する。いくつかの実施形態では、捕捉プローブライブラリ内の捕捉プローブは、DNAオリゴヌクレオチド、RNAオリゴヌクレオチド、またはDNAオリゴヌクレオチドとRNAオリゴヌクレオチドとの混合物である。いくつかの実施形態では、捕捉プローブは、長さが約10~100塩基である。いくつかの実施形態では、捕捉プローブは、長さが約20~60塩基である。いくつかの実施形態では、捕捉プローブは、長さが約30~50塩基である。いくつかの実施形態では、捕捉プローブは、長さが40塩基長である。
一般に、関心領域が大きいほど、適切なカバレッジのためにより多くの捕捉プローブが必要になるため、捕捉プローブライブラリ内の捕捉プローブの数は、関心領域のサイズに依存し得る。いくつかの実施形態では、捕捉プローブライブラリは、約10個以上の固有の捕捉プローブ(約50個以上、約100個以上、約250個以上、約500個以上、約1000個以上、約2500個以上、約5000個以上、約10,000個以上、約25,000個以上、約50,000個以上、約100,000個以上、または約200,000個以上など)固有の捕捉プローブを含む。
濃縮された配列ライブラリを配列することは、複数の配列リードを生成する。セグメントまたはサブセグメントの配列深度を決定するために、そのセグメントにマッピングされた配列リード数が、決定される。配列リードは、例えば、配列リード(または配列リードの一部分)を基準配列にアライメントすることによって、または配列リードの一部分に基づくセグメントに配列リードを割り当てることによってマッピングされ得る。
いくつかの実施形態では、配列リードは、配列リード(または配列リードの一部分)を基準配列にアライメントすることによってマッピングされる。例えば、直接標的配列から結果として生じる配列リードは、捕捉プローブ部分(すなわち、捕捉プローブ自体に帰属し得る配列リードの部分)およびセグメント部分(すなわち、捕捉プローブにより標的とされ、かつ捕捉プローブと関連付けられたセグメントに帰属し得る配列リードの部分)を含むことができる。いくつかの実施形態では、セグメント部分は、基準配列とアライメントされ、捕捉プローブ部分は、基準配列とアライメントされ、または捕捉プローブ部分およびセグメント部分は、基準配列とアライメントされる。基準配列は、セグメントに事前分割された関心領域を含む。したがって、基準配列にアライメントされた配列リードは、対応するセグメントにアライメントされ得、アライメントされた配列リードは、そのセグメントに割り当てられるか、または「マッピング」される。
いくつかの実施形態では、配列リードは、配列リードの一部分に基づくセグメントに配列リードを割り当てることによって、マッピングされる。このような実施形態では、配列のリードを基準配列にアライメントさせる必要がない。捕捉プローブは各々、セグメントに対応し、かつ対応するセグメントは、捕捉プローブの設計によって既知であるため、捕捉プローブ(または捕捉プローブの補体)の配列を内包する配列リードを、対応するセグメントに割り当てる(または「マッピング」する)ことができる。
いくつかの実施形態では、配列深度は、そのセグメントにマッピングされた配列リードを決定することによって取得され得る。いくつかの実施形態では、配列深度は、そのセグメントに対応する捕捉プローブにマッピングされた配列リードを決定することによって取得され得る。
いくつかの実施形態では、2つ以上の捕捉プローブが重複する(すなわち、捕捉プローブは、関心領域内の重複する配列にハイブリダイズすることができる)。2つ以上の捕捉プローブは、プローブの長さの約0%~10%、約10~20%、約20%~30%、約30%~40%、約40%~50%、約50%~60%、約60%~70%、約70%~80%、約80%~90%、または約90%~99%だけ重複し得る。いくつかの実施形態では、2つ以上の捕捉プローブは、100%重複する。いくつかの実施形態では、2つ以上の捕捉プローブに帰属し得る配列の数は、互いに相関する。重複するまたは相関する捕捉プローブは、重複するまたは相関する捕捉プローブに帰属する配列リード数をマージ(つまり、合計)することによって、考慮され得る。
複数の配列リードが、問い合わせされたセグメントまたは複数の空間的に隣接するセグメント(問い合わせされたセグメントを含む)にマッピングされると、セグメントに割り当てられた配列リード数をカウントすることによって、問い合わせされたセグメントまたは空間的に隣接するセグメント(問い合わせされたセグメントを含む)にマッピングされた配列リード数を決定することができる。
コピー数尤度モデルの構築、初期化、および最大化
コピー数尤度モデルは、セグメントのコピー数状態が与えられた場合に、セグメントでマッピングされた配列リード数を観測する尤度を決定するために使用することができる任意の統計モデルであり得る。初期コピー数尤度モデルは、モデルのパラメータが定義され
ているが、モデルを最適化する前であるモデルを指す。好ましい実施形態では、コピー数尤度モデルは、コピー数状態が与えられた場合に期待されるマッピングされた配列リード数の1つ以上の尤度分布を含む。すなわち、各尤度分布は、コピー数状態に対応する。例えば、コピー数尤度モデルは、1のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、2のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、3のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、および4のコピー数状態が与えられた場合の期待される配列リード数の尤度分布を含み得る。コピー数尤度モデルは、可能な各コピー数状態の尤度分布を含む必要はないが、少なくとも1つの尤度分布を含む。同様に、コピー数尤度モデルは、5の、6の、7の、または8のコピー数状態などの、4よりも大きいコピー数状態の分布を含み得る。いくつかの実施形態では、コピー数尤度モデルに含まれる分布は、ポアソン分布である。いくつかの実施形態では、コピー数尤度モデルに含まれる分布は、二項分布である。いくつかの実施形態では、コピー数尤度モデルは、負の二項分布を含む。例えば、いくつかの実施形態では、コピー数尤度モデルは、コピー数状態ci,jのテスト配列ライブラリj内の問い合わせされたセグメントiの期待されるマッピングされた配列リードについての1つ以上の負の二項分布(または負の二項分布がポアソン分布ではない1つ以上の負の二項分布)を含む。
コピー数尤度モデルの尤度分布は、平均値(μ)および分散(d)によってさらに特性化することができる。尤度分布の平均値および分散は、セグメントiで(すなわち、同じ捕捉プローブを使用して)、複数のセグメントでテスト配列ライブラリjを配列することによって(すなわち、捕捉プローブライブラリを使用して)、および配列ライブラリjのセグメントiにコピー数状態を設定することによって、決定された期待される配列リード数を使用することによって最適化される。期待される配列リード数は、少なくとも3つの要因、すなわち、複数の配列ライブラリにわたるセグメントの代表値のマッピングされた配列リード数、複数のセグメントにわたるテスト配列ライブラリの代表値のマッピングされた配列リード数、およびセグメントのローカルコピー数状態に基づく。分布の平均値は、μ=ci,jμμと設定することができ、
μは、N個の配列ライブラリにわたるセグメントiについての代表値のマッピングされた配列リード数であり、μは、N個のセグメントにわたるテスト配列ライブラリjについての代表値のマッピングされた配列リード数であり、ci,j・は、テスト配列ライブラリjのセグメントiでのコピー数状態であり、ki,jは、テスト配列ライブラリjのセグメントiでの決定された配列リード数であり、μおよび/またはμは、正規化される。
形式的に、
コピー数尤度モデルは、異なるコピー数状態の期待される配列リード数から分布を決定することによって設定され、次いで、セグメントで実際のマッピングされた配列リード数が与えられた場合に、最も確率が高いci,jに対して最大化される。
遺伝子の大多数について、期待されるコピー数(すなわち、「野生型」)は2(すなわち、2倍体)であると仮定される。このことは、常に当てはまるとは限らない。例えば、
Y染色体上の遺伝子について、期待されるコピー数(すなわち、「野生型」)は1であると仮定するとよい。この関係を考慮すると、いくつかの実施形態では、任意の所与のコピー数状態のコピー数尤度分布は、代表値が中心に位置し、
μは、N個の配列ライブラリにわたるセグメントiについての代表値のマッピングされた配列数であり、μは、N個のセグメントにわたるテスト配列ライブラリjについての代表値のマッピングされた配列リード数であり、cは、所与のコピー数尤度分布のコピー数であり、μおよび/またはμは、正規化された代表値のマッピングされた配列リード数である。所与の配列ライブラリ内のセグメントのマッピングされた配列リード数は、配列ライブラリ内のセグメントiでのマッピングされた配列リード数を、その配列ライブラリ内のN個のセグメントにわたる代表値のマッピングされた配列リード数で除算することによって、正規化することができる。図2Aは、およそ2500個の捕捉プローブの配列リード数の例示的なプロファイルを提示し、配列ライブラリは、直接標的配列によって濃縮された。図2Bは、およそ48個の異なる配列ライブラリのセグメントiでの正規化されたマッピングされた配列リード数の例示的なプロファイルを提示し、配列ライブラリは、直接標的配列によってセグメントiについて濃縮された。
コピー数尤度分布はまた、セグメントiについて次のように推定される分散(d)を含み、
σ は、複数の配列ライブラリについてのマッピングされた配列リード数の分散である。本明細書にさらに記載されるように、コピー数尤度分布の分散は、セグメントi(すなわち、セグメントiでの捕捉プローブに起因するノイズからの分散)と、テスト配列ライブラリj内のセグメント全体と、の両方の成分を含むことができる。
コピー数尤度分布は、ポアソン分布、二項分布、負の二項分布(一般化されたポアソンの負の二項分布、またはポアソン分布ではない負の二項分布など)、または任意の他の好適な分布であり得る。負の二項分布がポアソン分布ではない負の二項分布は、コピー数尤度分布を決定するために特に有用であることが見出された。図3Aは、複数の異なるテスト配列ライブラリの関心領域の配列ライブラリを濃縮するために使用されるおよそ2500個の捕捉プローブの平均の配列リード数(「平均深度」)に対する配列深度分散のプロットを示す。データは、負の二項分布を使用してフィッティングされたものであり、負の二項分布は、ポアソン分布ではない。比較として、分散と平均深度との間の線形関係を仮定したポアソン分布も例示される。図3Aに見られるように、データをプロットすると分散が平均値よりも大きいことが示されるため、データは、平均の配列深度が配列深度分散に等しいというポアソン仮定に反する。したがって、データは、ポアソン分布よりも負の二項分布に大幅に良好にフィッティングする。
図3Bは、1(CN=1)、2(CN=2)、および3(CN=3)のコピー数のコピー数尤度分布を含むコピー数尤度モデルを例示する。図3Bは、ポアソン分布および負の二項分布を例示し、負の二項分布は、各コピー数のポアソン分布ではない。分布は、セグメントに対応する捕捉プローブからの配列リード数の関数としての確率質量関数(pmf)である。
隠れマルコフモデルの構築
隠れマルコフモデルは、マッピングされた配列リード数(観測状態)からの最も確率が高いコピー数(隠れた状態)の決定を可能にする。一般に、隠れマルコフモデルには、4つの主要なパラメータ、すなわち、1つ以上の隠れた状態、1つ以上の観測状態、隠れた状態から観測状態への1つ以上の放出確率、および隠れた状態間の遷移確率がある。本明細書では、隠れマルコフモデルを構築し、かつ隠れマルコフモデルをパラメータ化する方法が、提供される。また、本明細書では、不完全なデータセットを使用して隠れマルコフモデルをトレーニングする方法が、提供される。また、本明細書では、隠れマルコフモデルのパラメータを最適化して、隠れた状態と観測状態との間の放出確率に影響を与える変数を考慮することによって、隠れマルコフモデルを最適化する方法が、提供される。具体的には、以下では、隠れマルコフモデルの層に関する方法および説明、マルコフモデルの遷移確率、コピー数尤度モデル、期待値最大化を使用して、隠れマルコフモデルをパラメータ化すること、隠れマルコフモデルを調整して、潜在変数の数を考慮すること、隠れマルコフモデルを解くことが提供される。
開示された方法で使用され得る例示的な隠れマルコフモデルが、図4Aに例示される。図4Aでは、c、c、c、およびcは、隠れた状態(すなわち、モデルはn個のセグメントを含むことができると理解されるが、4つの異なるセグメントの最も確率が高いコピー数)およびk、k、k、およびkは、観測される状態(すなわち、対応する各セグメントのマッピングされた配列リード数)を表す。遷移確率は、1つのセグメントのコピー数から隣接するセグメントのコピー数に遷移する確率であり、p(c|c)、p(c|c)、およびp(c|c)によって表される。最後に、観測される状態(そのセグメントのマッピングされた配列リード数)が与えられた場合の隠れた状態(すなわち、セグメントのコピー数)の確率は、p(c|k)、p(c|k)、p(c|k)、およびp(c|k)によって表される。後者は、解かれる事後確率である。事後確率を決定するために、p(k|c)のコピー数尤度モデルが、使用される。
いくつかの実施形態では、隠れマルコフモデルは、1つの隠れた状態および対応する観測状態のみを含む。いくつかの実施形態では、隠れた状態は、セグメントのコピー数状態に対応し、観測状態は、そのセグメントでのマッピングされた配列リード数に対応する。いくつかの実施形態では、隠れマルコフモデルは、複数の隠れた状態および複数の観測状態を含む。いくつかの実施形態では、複数の隠れた状態は、複数のセグメントでのコピー数状態に対応し、複数の観測状態は、複数のセグメントでのマッピングされた配列リード数に対応する。いくつかの実施形態では、関心領域内の各セグメントは、関心領域の捕捉プローブに対応する。いくつかの実施形態では、2つの隣接する隠れた状態は、関心領域内の2つの空間的に隣接するセグメントに対応する。
セグメントは、本明細書で前述したように、サブセグメントに分割され得る。いくつかの実施形態では、隠れた状態は、サブセグメントのコピー数に対応する。サブセグメントは、親セグメント(すなわち、サブセグメントがメンバであるセグメント)のマッピングされた配列リード数とは独立したマッピングされた配列リード数を含まない。いくつかの実施形態では、セグメントのマッピングされた配列リード数は、セグメント内の各サブセグメントに帰属する。いくつかの実施形態では、サブセグメントは、隠れた状態(すなわち、コピー数)を含むが、マッピングされた配列リード数は、セグメントの最初のサブセグメントにのみ帰属する。これは、図4Bに例示される。図4Bは、破線で識別される2つのセグメント、すなわち、セグメントAおよびセグメントBを含む。セグメントAは、サブセグメント1、サブセグメント2、およびサブセグメント3を含む一方、セグメントBは、サブセグメント4、サブセグメント5、およびサブセグメント6を含む。セグメントAのマッピングされた配列リード数は、そのセグメントの最初のサブセグメントであるサブセグメント1に帰属する。セグメントBのマッピングされた配列リード数は、そのセ
グメントの最初のサブセグメントであるサブセグメント4に帰属する。C、C、C、C、C、およびCは、サブセグメントの各々の隠れた状態(コピー数)を表し、kおよびkは、それぞれサブセグメント1およびサブセグメント4の観測される状態(配列リード数)を表す。サブセグメントの隠れた状態間の遷移確率は、p(c|c)、p(c|c)、p(c|c)、p(c|c)、およびp(c|c)によって識別される。サブセグメント1およびサブセグメント4のみが観測状態を含むため、サブセグメントのコピー数が与えられた場合のマッピングされた配列リード数の2つの確率、すなわち、p(k|c)およびp(k|c)のみが含まれる。
セグメントのコピー数状態は、その場所にマッピングされた配列リード数に関連する。テスト配列ライブラリj内のセグメント(またはサブセグメント)iのマッピングされた配列リード数(ki,jと表記することができる)が与えられた場合に、セグメントまたはサブセグメント(ci,jと表記することができる)のコピー数状態を決定することにより、そのセグメントまたはサブセグメントのコピー数をコールすることが可能になる。所与のコピー数の状態が正しいコピー数である確率は、少なくともマッピングされた配列リード数に依存する。ベイズ統計では、ki,j(すなわち、p(ci,j|ki,j))が与えられた場合のci,jの事後確率は、コピー数尤度分布を使用して決定され得る。事後確率は、いくつかのデータが与えられた場合のパラメータの確率である一方、尤度モデルは、パラメータが与えられた場合のデータの確率である。この場合、事後確率は、セグメントまたはサブセグメントでマッピングされた配列リード数が与えられた場合の、セグメントまたはサブセグメントのコピー数状態の確率(すなわち、p(ci,j|ki,j))であるのに対して、コピー数尤度モデルは、セグメントのコピー数状態が与えられた場合の、セグメントでマッピングされた配列リード数を観測する尤度(つまり、p(ki,j|ci,j))である。p(ci,j|ki,j)は、直接決定することができないため、コピー数尤度モデルp(ki,j|ci,j)を使用して、隠れマルコフモデルをパラメータ化することができ、これを使用して、事後確率p(ci,j|ki,j)を解くことができる。以下で、負の二項分布としてのコピー数尤度モデルを考察するが、同様の態様が他の分布形式にも当てはまることが理解される。いくつかの実施形態では、コピー数尤度モデルは、
p(ki,j|ci,j)=NegBinom(ki,j|μc,i,j=ci,jμμ;d=d
のように定義することができ、ki,jは、テスト配列ライブラリjのセグメントiでのマッピングされた配列リード数である。
負の二項分布は、データに最も良くフィッティングするようにパラメータ化される。最も単純な形式では、コピー数尤度モデルは、負の二項モデルである。ただし、生成されたデータによっては、異なるタイプの分布が、データにより良くフィッティングする場合があり、より適する場合がある。本発明の一般的な態様は、異なる統計的分布を含むモデルに当てはまるであろう。
セグメントまたはサブセグメントのコピー数の遷移確率は、部分的に、空間的に隣接するセグメントまたはサブセグメントのコピー数の状態に依存する。コピー数バリアントの長さおよび頻度はまた、遷移確率に影響を与え得る。
いくつかの実施形態では、遷移確率は、事前決定され得るか、または固定され得る。好ましい実施形態では、遷移確率は、可変である。例えば、遷移確率は、0、1、2、3、または4個のコピーに制限された隠れたコピー数状態を仮定して(2の野生型コピー数を仮定して)、次の確率的遷移行列で形式的に表すことができ、
は、第1のセグメントまたは第1のサブセグメントのコピー数状態であり、ci+1は、第1のセグメントまたは第1のサブセグメントに空間的に隣接する第2のセグメントまたは第2のサブセグメントのコピー数状態であり、rabは、第1のコピー数状態aから第2のコピー数状態bへの遷移確率を表す。例えば、aは、3のコピー数状態であり、bは、2のコピー数状態であり得る。第1のセグメントは、問い合わせされたセグメントであり得る(または、第1のサブセグメントは、問い合わせされたセグメントのサブセグメントであり得る)。上記の確率的遷移行列は、0、1、2、3、または4個のコピーを仮定しているが、確率的遷移行列は、任意の数のコピーに使用され得ることが理解される。
コピー数バリアントは、代表値の長さを有し、この長さよりも長いかまたは短いコピー数は、代表値の長さのコピー数よりも少ない傾向がある。いくつかの実施形態では、遷移確率(または複数の遷移確率)は、コピー数バリアントの代表値の長さを考慮する。コピー数バリアントの代表値の長さは、履歴集団(例えば、履歴ヒト集団)からの観測に基づき得る。履歴集団は、コピー数バリアントがコールされた配列ライブラリの履歴集団である。履歴集団が大きいほど、より正確な代表値のコピー数バリアント長さをもたらし得る。いくつかの実施形態では、履歴集団は、約1000個以上の配列ライブラリ(例えば、約5000個以上、約10,000個以上、約25,000個以上、約50,000個以上、約100,000個以上、約250,000個以上、または約500,000個以上の配列ライブラリなど)を含む。コピー数バリアントの代表値の長さは、事前決定される。いくつかの実施形態では、コピー数バリアントの代表値の長さは、約3000~約1000塩基(例えば、約4000~約8000塩基、約5000~約7000塩基、約5500塩基~約6500塩基、または約6200塩基)である。コピー数の代表値の長さを考慮して、塩基ごとの遷移確率を計算するために使用される確率的遷移行列の遷移(またはサブセグメント遷移確率は、
として設定することができ、
は、コピー数バリアントの代表値の長さである。
遷移確率はまた、空間的に隣接するセグメントでのコピー数状態が与えられた場合に、問い合わせされたセグメントでのコピー数バリアントの確率を考慮することができる。ゲノムの特定の部分は、コピー数バリアントを含む遺伝的バリアントの「ホットスポット」を含み得る。ホットスポットは、あらゆる種類の変異について高い傾向を呈するゲノム内の領域を指す。これは、領域の構造的構成、または領域の機能的側面に起因し得、これにより、領域が変異しやすくなる。任意の所与のセグメント(問い合わせされたセグメントまたは空間的に隣接するセグメントなど)でのコピー数バリアントの確率は、履歴集団(例えば、履歴ヒト集団)からの観測に基づき得る。履歴集団は、コピー数バリアントがコールされた配列ライブラリの履歴集団である。履歴集団が大きいほど、より正確なコピー
数バリアント確率をもたらし得る。いくつかの実施形態では、履歴集団は、約1000個以上の配列ライブラリ(例えば、約5000個以上、約10,000個以上、約25,000個以上、約50,000個以上、約100,000個以上、約250,000個以上、または約500,000個以上の配列ライブラリなど)を含む。問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの確率を考慮するために、確率的遷移行列の遷移は、
として設定され得、pCNVは、コピー数バリアントの確率であり、
は、代表値のコピー数バリアントの長さである。r01=r12=r32=r43であるため、記載された関係は、すべてのコピー数に当てはまる。
いくつかの実施形態では、隠れマルコフモデルは、セグメントまたはサブセグメントのコピー数状態の1つの遷移確率を含む。いくつかの実施形態では、隠れマルコフモデルは、セグメントまたはサブセグメントのコピー数状態の複数の遷移確率を含む。いくつかの実施形態では、隣接する先行するセグメントのコピー数状態が与えられた場合のコピー数状態の遷移確率は、コピー数バリアントの長さに依存する。いくつかの実施形態では、コピー数バリアントの長さは、ゲノムのその特定の領域に特異的である。いくつかの実施形態では、コピー数バリアントの長さは、ゲノム全体でのコピー数バリアントの代表値の長さである。
いくつかの実施形態では、隣接する先行するセグメントのコピー数状態が与えられた場合のコピー数状態の遷移確率は、コピー数バリアントを観測する確率に依存する。いくつかの実施形態では、コピー数バリアントを観測する確率は、ゲノムのその特定の領域に特異的である。いくつかの実施形態では、コピー数バリアントを観測する確率は、ゲノム全体でのコピー数バリアントを観測する代表値の確率である。
隠れマルコフモデルのパラメータ化および最も確率が高いコピー数の決定
上述されたように、隠れマルコフモデルは、(i)1つ以上のセグメントまたはサブセグメント(少なくとも問い合わせされたセグメント、または問い合わせされたセグメントのサブセグメントを含む)に対応するコピー数を含む1つ以上の隠れた状態、(ii)1つ以上のセグメントにマッピングされた配列リード数を含む1つ以上の観測状態、および(iii)コピー数尤度モデルを含む。コピー数尤度モデルは、所与の隠れた状態についての観測状態を観測する確率(すなわち、p(ki,j|ci,j))を記述するために使用される。隠れマルコフモデルはまた、隠れた状態間の遷移確率を含み、これは、上述されたように固定または可変であり得る。
隠れマルコフモデルは、コピー数尤度モデルを使用して開始される。隠れマルコフモデルはまた、コピー数状態(すなわち、隠れた状態)が、遷移確率を決定するために遷移(r)を逆算するために使用することができる野生型コピー数(例えば、2つのコピー)を有すると仮定することによって開始され得る。コピー数尤度モデルは、上記で説明したように、セグメントにマッピングされた期待される配列リード数に基づくが、コピー数尤度モデルは、例えば、コピー数尤度モデルの各コピー数尤度分布の平均値μc,i,jおよび分散dが、隠れマルコフモデルをパラメータ化するときにフロートすることを可能にすることによって、セグメントにマッピングされた決定された配列リード数(すなわち、観測される状態)にフィッティングするように調整され得る。遷移確率はまた、可変の場合、隠れマルコフモデルのパラメータ化中に調整され得る。
隠れマルコフモデルのパラメータ化は、セグメント(例えば、問い合わせされたセグメントまたは空間的に隣接するセグメント)にマッピングされた決定された配列リード数にフィッティングするようにコピー数尤度モデルを調整することを含む。いくつかの実施形態では、コピー数尤度モデルは、セグメント(例えば、問い合わせされたセグメントまたは空間的に隣接するセグメント)にマッピングされた決定された数の配列リードにフィッティングするように最適化される。コピー数尤度モデルは、観測される状態に最も良くフィッティングするように複数の調整ラウンドの後に「最適化」される。いくつかの実施形態では、隠れマルコフモデルのパラメータ化は、遷移確率を調整する(または最適化する)ことを含む。隠れマルコフモデルは、例えば、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれ得る、コピー数尤度モデルの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用して、コピー数尤度モデルを最適化することによって、パラメータ化され得る。最適化された尤度モデルのようなコピー数の典型的なパラメータは、セグメントのマッピングされた配列リード数の分散(d)、セグメントの代表値のマッピングされた配列リード数(μ)、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散(d)、またはテスト配列ライブラリ内のセグメントの代表値のマッピングされた配列リード数(μ)のうちの1つ以上を含む。次いで、期待値最大化(EM)アルゴリズムを使用して、隠れマルコフモデルを適用する1回以上の反復でパラメータを最適化して、セグメントの最も確率が高いコピー数(例えば、ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロをバウムウェルチアルゴリズムと共に使用して)および隠れマルコフモデルの再パラメータ化を決定することができる。
例えば、期待値最大化(EM)を使用して、コピー数尤度モデル(配列リードの予想数に基づく)および/または1つ以上の追加のモデルパラメータを調整(または最適化)して、セグメントにマッピングされた最大化された期待される配列リード(すなわち、調整されたμi,j)と、そのセグメントの調整された分散(すなわち、調整されたd)と、を見つけ得る。すなわち、問い合わせされたセグメントでの期待される配列リード数の確率が、そのセグメントでの所与のコピー数状態に対して最大化されるようにする。
一般に、期待値最大化(EM)を使用して、不完全なデータにもかかわらず、潜在的な、または未知のパラメータを推定することができる。EMアルゴリズムは、(最も確率が高いコピー数が決定され得るように)セグメントにマッピングされた決定された配列リード数が与えられた場合のコピー数尤度モデルから最も確からしいコピー数尤度分布を選択する期待値「E」ステップと、コピー数尤度モデルパラメータ(すなわち、μc,i,jおよびd)を再推定する最大化「M」ステップと、繰り返し切り替えることができる。最大化ステップは、固定された確率モデルおよび配列リード数を仮定し、モデルに適用されたときに、他のすべての可能なコピー数からの実際のマッピングされた配列リード数の最も高い確率をもたらすコピー数状態を見つける。EMプロセスは、HMMの異なるパラメータに適用することができ、例えば、EMプロセスは、「E」ステップで生成された期待値を使用して、該当する場合は、隠れた状態間の遷移(r)を考慮することができる。簡単に言うと、EMを使用してモデルを最大化して、いずれのci,jについて、観測したマッピングされた配列リード数を最も確からしく確認できるかを見つけるようにする。形式的には、ビタビアルゴリズムは、コピー数尤度モデルの最大尤度を、次のように決定することができる。
いくつかの実施形態では、バウムウェルチアルゴリズムが、セグメントのコピー数コー
ルの期待される確率を決定する、EMプロセスの期待値ステップに使用される。バウムウェルチアルゴリズムは、セグメントiでの所与のマッピングされた配列リード数に対するセグメントiでのコピー数状態の確率である事後確率α(c|k[0,i])と、セグメントiでの所与のコピー数状態に対する下流の空間的に隣接するセグメントI~Iのマッピングされた配列リード数の確率である尤度β(k[i,I]|c)と、を使用する。バウムウェルチアルゴリズムは、当業者に知られている方法を使用して解くことができる。
パラメータ化された隠れマルコフモデルを使用して、最大化ステップ中に、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することができる。問い合わせされたセグメントの最も確率が高いコピー数は、ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロなどの、当技術分野で知られている任意の有用なアルゴリズムを使用して決定することができる。
GC含量バイアス補正
関心領域のセグメントまたはセグメントに対応する捕捉プローブのGC含有量は、例えば捕捉プローブのハイブリダイゼーション効率の違いに起因して、セグメントにマッピングされた配列リード数に影響を与え得る。したがって、GC含有量によっては、捕捉プローブは、セグメントでのコピー数状態に関係なく、セグメントにマッピングされた配列リード数に強い影響を及ぼし得る。このGC含量バイアスは、周知であり、当技術分野に記載されている。本明細書に記載された方法のいくつかの実施形態では、セグメントのコピー数を決定するときに、GC含量バイアスが考慮される。GC含量バイアス補正は、コピー数バリアントを決定するいずれの方法にも有用であり得、直接ターゲット配列でのみ使用される必要はない。例えば、いくつかの実施形態では、GC含量バイアスは、関心領域内のセグメントのコピー数を決定するときに補正され、配列ライブラリは、ハイブリッド捕捉技術を使用して濃縮される。これに加えて、GC含量バイアスを補正するための方法は、隠れマルコフモデルを使用してコピー数を決定する方法に限定される必要はないが、GC含量バイアスは、コピー数尤度モデルの使用を含む任意の方法について補正され得る。
いくつかの実施形態では、任意の所与のセグメントの配列リード数(コピー数尤度モデルを決定するために使用される期待される配列リード数など)は、配列リード数にGCバイアス補正係数を乗算することによってGC含量について補正される。GCバイアス補正係数は、所与のセグメントに、およびテスト配列ライブラリに特異的である。すなわち、GCバイアス補正係数は、セグメントおよびテスト配列ライブラリに対して一意に決定され、GCバイアス補正係数は、異なるセグメントについて、および異なる各テスト配列ライブラリについて再決定されなければならない。
所与のセグメント(問い合わせされたセグメントを含み得る)にマッピングされた配列リード数は、そのセグメントでのマッピングされた配列数を、テスト配列ライブラリから濃縮された複数のセグメントの代表値のマッピングされた配列リード数で除算することによって正規化することができる。複数のセグメント内の各セグメントの正規化された配列リード数は、そのセグメントでのGC含量に対してプロットされ得る。次いで、データポイントは、2次補正、
i,j=a+b(GC)+c(GC)
を使用してフィッティングすることができ、gi,jは、複数のセグメントのテスト配列ライブラリjのセグメントiに特異的なGCバイアス補正係数であり、(GC)は、GC含量であり、a、b、およびcは、2次フィッティングによって決定される定数である。
したがって、GCバイアス補正係数は、2次関数を複数のデータポイントにフィッティングさせることによって決定され得、データポイントは各々、セグメントにマッピングされた正規化された数の配列リードおよびそのセグメントのGC含有量を含み、複数のデータポイントは、テスト配列ライブラリ内の捕捉プローブによって濃縮された複数のセグメントを表し、GCバイアス補正係数を、セグメントのGC含量の2次関数によって決定された正規化された配列リード数であるように定義する。
コピー数尤度モデルは、同様の様式でGC含量バイアスの存在を考慮するように調整され得る。すなわち、コピー数尤度モデルの基礎として使用される期待される配列リード数は、GC含量の存在を考慮するように調整され得る。例えば、モデル内のコピー数尤度分布の代表値は、次のように調整され得る。
μc,i,j=ci,jμμi,j
さらに、コピー数尤度モデルは、
p(ki,j|ci,j)=NegBinom(ki、j|μc,i,j=ci,jμμi,j,d)
のように定式化することができ、ki,jは、テストライブラリj内のセグメントiでの配列リード数を指し、dは、d、d、またはdi,jである。
いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、(a)テスト配列ライブラリから生成された複数の配列リードを関心領域内のセグメントにマッピングすることであって、テスト配列ライブラリが、捕捉プローブを使用して濃縮される、マッピングすることと、(b)セグメントにマッピングされた配列リード数を決定することと、(c)セグメントでの期待されるマッピングされた配列リード数に基づいてセグメントのコピー数尤度モデルを決定することであって、期待されるマッピングされた配列リード数が、セグメントのGC含量について補正される、決定することと、(d)コピー数尤度モデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。問い合わせされたセグメントの最も確率が高いコピー数は、本明細書に記載された隠れマルコフモデルを使用してコピー数尤度モデルに基づいて決定され得るか、または当技術分野で知られている他の任意の方法によって決定され得る。例えば、最も確率が高いコピー数は、その領域の捕捉プローブに基づく各領域の最大コピー数確率に基づいて決定され得る。別の例では、最も確率が高いコピー数は、ブルートフォースセグメンテーションアプローチを使用して決定され得る。
いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、(a)テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の捕捉プローブを使用して濃縮される、マッピングすることと、(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、(c)問い合わせされたセグメントにマッピングされた期待される配列リード数に基づいてコピー数尤度モデルを決定することであって、期待されるマッピングされた配列リード数が、問い合わせされたセグメントのGC含量について補正される、決定することと、(d)隠れマルコフモデルであって、(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わ
せされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。
いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、(a)テスト配列ライブラリから生成された複数の配列リードを複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する捕捉プローブを使用して濃縮される、マッピングすることと、(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することであって、期待されるマッピングされた配列リード数は、空間的に隣接するセグメントのGC含量について補正される、決定することと、(d)隠れマルコフモデルであって、(i)空間的に隣接するセグメントの各々または空間的に隣接するセグメントの各々内の複数のサブセグメントのコピー数を含む複数の隠れた状態と、(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。
スプリアス捕捉プローブ
関心領域内のセグメントを濃縮するために使用される特定の捕捉プローブは、スプリアス結果を生成し得る。例えば、スプリアス捕捉プローブによって生成された配列リード数は、セグメントの濃縮が不足しているか、または過剰であるかのいずれかによって、対応するセグメントのコピー数と一致しない場合がある。これらのスプリアス結果は、例えば、捕捉プローブの設計、または捕捉プローブがハイブリダイズするように設計された配列内の配列バリアント(例えば、SNP)に起因して発生し得る。スプリアス捕捉プローブは、マッピングされた配列リード数に影響を与え、コピー数尤度モデルおよびパラメータを人為的に交絡させ得る。したがって、スプリアス捕捉プローブを考慮することが望ましい。スプリアス捕捉プローブは、直接標的配列捕捉プローブである必要はなく、同様の方法が、テスト配列ライブラリを濃縮するために使用される捕捉プローブに適用され得る(ハイブリッド捕捉技術など)。捕捉プローブが、スプリアス捕捉プローブであるかどうかの判定は、EMを使用して行うことができる。例えば、捕捉プローブが、スプリアスであるかどうかの判定は、期待値ステップ中に行うことができ、捕捉プローブがスプリアスである確率がEMの反復中に変化すると、最大化ステップも変化することとなり、当該最大化ステップは、捕捉プローブのスプリアス性を新たに考慮に入れた、セグメントの最も確からしいコピー数状態を決定する。捕捉プローブが、スプリアス捕捉プローブであると判定される場合、期待値最大化プロセス中に、コピー数状態のセグメントのマッピングされた配列リード数の確率が、1に設定される。確率を定数に設定することによって、スプリアス捕捉プローブは追加の情報を提供せず、したがって、モデルがパラメータ化される際にスプリアス捕捉プローブは考慮されないため、モデルがスプリアス捕捉プローブを効率的に破棄することが可能になる。捕捉プローブのスプリアス性の判定は、例えば、捕捉プローブが何回かのEMサイクル後にスプリアスであるかどうかを判定することによって反復され得る。
いくつかの実施形態では、ベルヌーイ過程を使用して、所与の捕捉プローブがスプリア
スである確率を判定する。ベルヌーイ過程は、捕捉プローブのいくつかまたはすべてに適用され得る。すなわち、各捕捉プローブについて、そのスプリアス性が、独立して判定される。捕捉プローブiについて、インジケータ変数bが、導入され、式中、1は、捕捉プローブtがスプリアスであることを意味し、0は、捕捉プローブがスプリアスではないことを意味する。
この指標を使用することによって、コピー数尤度モデルを調整することによって、スプリアス捕捉プローブを考慮することが可能である。捕捉プローブが、スプリアスであると判定される場合、任意の所与のコピー数の対応するセグメントのマッピングされた配列リード数の確率が、1に設定される。捕捉プローブが、スプリアスでない場合、コピー数尤度モデルのコピー数尤度分布は、変更されない。形式的に、
隠れマルコフモデルの観測される状態に関するインジケータが、図5Aに例示される。
捕捉プローブのスプリアスは、テスト配列ライブラリに依存し得る。すなわち、いくつかのテスト配列ライブラリは、他のテスト配列ライブラリよりもスプリアス捕捉プローブになりやすくなり得る。いくつかの実施形態では、テスト配列ライブラリが、スプリアス捕捉プローブになりやすいかどうかが、テスト配列ライブラリの事前分布に基づいて判定される。いくつかの実施形態では、テスト配列ライブラリが、スプリアスである特定のプローブになりやすいものとなるかどうかを判定することは、一般の事前分布に依存する。
図5Bは、所与の捕捉プローブが、スプリアス捕捉プローブであるかどうかを判定するために調整され得る事前分布を例示する。インジケータ変数bi,jは、セグメントiの観測状態(マッピングされた配列リード数)であるkに関する、ベルヌーイ分布の事前分布である。インジケータ変数bi,jは、セグメントiに、およびテスト配列ライブラリjに特異的であり得る。テスト配列ライブラリ事前分布πは、インジケータ変数bに対して設定され、テスト配列ライブラリの関心領域内のすべてのセグメントにわたって同じである。一般の事前分布πは、テスト配列のライブラリ事前分布πに対して設定され、同様に濃縮されたすべての配列ライブラリについて同じである。一般の事前分布πは、事前決定され、検証されて、感度を失うことなく誤コールを低減することができる。調整ステップ(EMアルゴリズムの最大化ステップなど)は、捕捉プローブが、スプリアスである確率でベルヌーイ分布に従うと仮定することによって設定され得る。事前分布πが与えられた場合の、スプリアスであるテスト配列ライブラリjの捕捉プローブiの確率は、次のように表現され得る。
ベルヌーイ分布は、bを0または1のいずれかであるように制限するため、上記の確率は、π(b=1の場合)または1-π(b=0の場合)に設定される。
空間的に隣接するセグメント(または空間的に隣接するサブセグメント)0~Iにマッピングされた決定された配列リード数が与えられた場合、捕捉プローブiがスプリアスである確率は、次のように導出され得る。
インジケータの期待値bが与えられた場合、テスト配列ライブラリ事前分布πは、次のように決定され得る。
いくつかの実施形態では、問い合わせされたセグメント、または問い合わせされたセグメントの1つ以上のサブセグメントの最も確率が高いコピー数は、問い合わせされたセグメントと関連付けられた捕捉プローブがスプリアスであると判定される場合、コールされない。いくつかの実施形態では、問い合わせされたセグメント、または問い合わせされたセグメントの1つ以上のサブセグメントの最も確率が高いコピー数は、捕捉プローブiがスプリアスである確率(すなわち、p(b|k[0,I]))が、所定の閾値(約0.1以上、約0.2以上、約0.3以上、約0.4以上、または約0.5以上など)を上回っている場合、コールされない。
いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、(a)テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上のキャプチャプローブを使用して濃縮される、マッピングすることと、(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、(c)問い合わせされたセグメントにマッピングされた期待される配列リード数に基づいてコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、によって隠れマルコフモデルをパラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。
いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、(a)テスト配列ライブラリから生成された複数の配列リードを複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)空間的に隣接するセグメントの各々または空間的に隣接するセグメントの各々内の複数のサブセグメントのコピー数を含む複数の隠れた状態と、(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、(iii)空
間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、を含む、隠れマルコフモデルをパラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。
ノイズが多いテスト配列ライブラリ
テスト配列ライブラリの調製中に、いくつかのステップが、多数の捕捉プローブにわたって「ノイズ」になりやすくなるテスト配列ライブラリの核酸をもたらし得る。このことは、一貫性がないデータおよび多数の誤検出をもたらす。図6Aは、ノイズが少ないテスト配列ライブラリの例を示し、図6Bは、2つの配列ライブラリが、同じ捕捉プローブライブラリを使用して濃縮された場合でも、ノイズがより多いテスト配列ライブラリの例を示す。ノイズは、例えば、テスト配列ライブラリの調製または配列中に導入され得、テストサンプルからの核酸の単離、配列ライブラリの格納、またはテストサンプルから単離された核酸の断片化が、オリゴヌクレオチドの完全性を損なう可能性があり、このことは、ひいてはオリゴヌクレオチドの方法に影響を与える可能性がある。
いくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、マッピングされた配列リード数のノイズを考慮することを含む。いくつかの実施形態では、マッピングされた配列決リード数のノイズを考慮することは、コピー数尤度モデルを調整することを含む。例えば、隠れマルコフモデルをパラメータ化することは、期待値最大化ステップを含み得、ノイズを考慮することは、期待値最大化ステップ中に発生し得る。
コピー数尤度モデルにおけるコピー数尤度分布の分散dは、上で考察された。捕捉プローブ(すなわち、セグメントでの)に起因する分散のみが、考慮される場合、d=d。また、コピー数尤度分布の分散を使用して、テスト配列ライブラリj内のセグメント全体のノイズを考慮することができる。テスト配列ライブラリ内のセグメント全体のノイズを考慮することに起因する分散と、捕捉プローブに起因するノイズと、は、算術的な組み合わせによって、例えば、配列ライブラリノイズに起因する分散と、捕捉プローブノイズに起因する分散と、を乗算または加算することによって、決定され得る。例えば、いくつかの実施形態では、コピー数尤度分布の分散は、形式的に次のように見なされ得る。
d=d*d
配列ライブラリノイズに起因する分散と捕捉プローブノイズへの分散とは、いくつかの実施形態では、例えば、次の加算により結合され得る。
隠れマルコフモデルのパラメータ化は、モデルによるコピー数尤度分布の分散を含む、コピー数尤度モデルを調整する。したがって、分散dの両方の成分(すなわち、dおよびd)は、例えば、期待値最大化アルゴリズムを使用して、隠れマルコフモデルのパラメータ化中に調整され得る。いくつかの実施形態では、ノイズを考慮するために、テスト配列ライブラリ(d)内のセグメントのマッピングされた配列リード数の分散の解析的な1次導関数勾配および2次導関数ヘッシアンが、使用される。いくつかの実施形態では、準ニュートン法を使用して、最大化ステップ中にノイズを考慮することができる。特に、期待値ステップは、次を最大化することを求める。
式中、
は、モデルのすべてのデータおよび現在のパラメータが与えられた場合の、期待される対数尤度を表す。TSLは、テスト配列ライブラリ(test sequencing library)の略で、cptプローブは、捕捉プローブ(capture probe)を指す。平均の
は、二重正規化を使用することによって概算することができ、これは、テスト配列ライブラリ内のセグメント全体の配列深度の中央値と、同じセグメント全体の複数のテスト配列ライブラリの配列深度の中央値と、の両方を考慮する。いくつかの実施形態では、この関数を最大化することができる分散
を見つけるために、準ニュートン法が使用される。準ニュートン法は、
に関するこの関数の偏導関数を0に設定する。テスト配列ライブラリと捕捉プローブの形状とは、独立しているため、そのことは、各タイプの偏導関数を0に設定するのと等価である。
分布のパラメータが設定されると、パラメータ化された隠れマルコフモデルを使用して、セグメントの最も確率が高いコピー数状態を決定することができる。
コピー数バリアント画面の性能
特定の態様では、本明細書に記載された方法を使用して、コピー数バリアント画面またはコピー数バリアントモデルのサンプル特異的な性能を評価する。合成のコピー数バリアントは、テストサンプルからの実際の配列リードを使用してインシリコで生成される。したがって、合成のコピー数バリアントは、サンプル特異的である。コピー数バリアントモデルは、コピー数バリアントモデルパラメータを決定するために、テストサンプルの関心領域内のセグメントにマッピングされた実際の配列リード数を使用してパラメータ化される。合成のコピー数バリアントは、テストサンプルに基づき、かつ決定されたコピー数バリアントモデルパラメータは、サンプル特異的であるため、決定されたサンプル特異的なコピー数バリアントモデルパラメータは、合成のコピー数バリアント内のセグメントのコ
ピー数をコールするためにコピー数バリアントコーラによって使用される。
合成のコピー数バリアントは、関心領域を有する1つ以上のセグメントの合成のコピー数を含み、合成のコピー数は、関心領域内の1つ以上のセグメントからの合成の配列リード数によって表される。いくつかの実施形態では、合成の配列リード数は、テストサンプルからの関心領域内の1つ以上のセグメントの配列リード数を調整することによって取得される。調整は、合成のコピー数に比例して行われる。いくつかの実施形態では、合成の配列リード数は、実際のサンプルからの関心領域内の1つ以上のセグメントの配列リードを含むデータベースの直接操作によって、例えば、データベース内の配列リードのランダムな欠失または複製によって取得される。いくつかの実施形態では、合成の配列リード数は、分布(二項分布または負の二項分布など)をサンプリングすることによって生成される。複数の合成のコピー数バリアントは、例えば、複数のテストサンプルまたは基準サンプルに基づいて生成され得る。
合成のコピー数バリアントに存在する関心領域内の1つ以上のセグメントの合成のコピー数は、コピー数バリアントコーラを使用してコールされる。いくつかの実施形態では、コーラは、合成のコピー数バリアント内の1つ以上のセグメントからの合成の配列リード数を、セグメントの既知のコピー数を有する実際の基準サンプル内の1つ以上のセグメントからの配列リード数と比較する。コーラは、例えば、本明細書に記載された隠れマルコフモデル(HMM)を使用して、合成のコピー数バリアント内のセグメントのコピー数を決定することができる。実際の基準サンプルは、好ましくは、合成のコピー数バリアントを生成するための基礎として使用される実際のサンプル以外の異なる実際のサンプルである。
コピー数バリアントコーラは、図9に示されているように、合成のコピー数バリアントおよび決定されたコピー数バリアントモデルパラメータを使用する。関心領域内のセグメントにマッピングされたテストサンプルからの実際の配列リード数を使用して、隠れマルコフモデルでのコピー数バリアントモデルなどの初期コピー数バリアントモデルパラメータを決定するために、コピー数バリアントモデルを初期化する。コピー数バリアントモデルは、例えば、解析的な1次導関数勾配および2次導関数ヘッシアンを使用して、コピー数バリアントモデルパラメータを決定するためにパラメータ化され得る。初期CNVモデルパラメータを使用して、例えばビタビアルゴリズムおよびバウムウェルチアルゴリズムを使用して、CNVモデルが適用される。期待値最大化ステップが反復して実行されて、CNVモデルパラメータを、実際の配列リード数にフィッティングするように最適化することにより、テストサンプル用に最適化された1つ以上のコピー数バリアントモデルパラメータ(すなわち、サンプル特異的なコピー数バリアントモデルパラメータ)を決定することができる。コピー数バリアントモデルは、サンプル特異的なコピー数バリアントモデルパラメータとセグメントの実際の配列リード数とを使用して、テストサンプル内のコピー数バリアントをコールすることができる。テストサンプルからの実際の配列リード数はまた、合成の配列リード数を生成するために使用され、合成の配列リード数は、合成のコピー数バリアントの関心領域内のセグメントの合成のコピー数を表すために使用される。複数の合成のコピー数バリアント、例えば、約10~約10,000個の合成のコピー数バリアントは、このように生成され得る。コピー数バリアントモデルおよびサンプル特異的なコピー数バリアントモデルパラメータは、合成の配列リード数を使用して、合成のコピー数バリアントの1つ以上のセグメントのコピー数をコールすることができる。
コピー数バリアント画面の性能統計を決定して、コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアント画面のサンプル特異的な性能を評価することができる。コーラによって複数の合成のコピー数バリアントが生成およびコールされるため、性能統計は、合成のバリアントのコンテキストでの画
面の性能を反映する。したがって、(複数の実際のサンプルに基づくことができる)合成のコピー数バリアントのより大きい多様性は、コピー数バリアントモデルの性能を特性化するより正確な性能統計を提供する。
いくつかの実施形態では、コピー数バリアントモデルのサンプル特異的な性能を評価する方法であって、テストサンプルからの、関心領域内のセグメントにマッピングされた実際の配列リード数に基づいて、コピー数バリアントモデルをパラメータ化して、1つ以上のコピー数バリアントモデルパラメータを決定することと、複数の合成のコピー数バリアントを生成することであって、各合成のコピー数バリアントが、セグメントのうちの1つ以上の合成のコピー数を含み、各合成のコピー数が、テストサンプルからの対応するセグメントの実際の配列リード数に基づく合成の配列リード数によって表される、生成することと、コピー数バリアントモデル、および1つ以上の決定されたコピー数バリアントモデルパラメータを使用して、合成のコピー数バリアントの1つ以上のセグメントのコピー数をコールすることと、コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアントモデルについてのサンプル特異的な性能統計を決定することと、サンプル特異的な性能統計に基づいて、コピー数バリアントモデルのサンプル特異的な性能を評価することと、を含む。いくつかの実施形態では、サンプル特異的な性能統計は、検出、感度、特異度、適合率、再現率、精度、正の予測値、または負の予測値の限界である。
いくつかの実施形態では、コピー数バリアントコーラは、隠れマルコフモデルを使用して、合成のコピー数バリアントのコピー数をコールする。所与のセグメントのコピー数バリアントは、比較的まれであるため、テストサンプルは、所与のセグメントでのコピー数バリアントを有しないことが仮定され得る。テストサンプルが、コピー数バリアントを有しない場合でも、テストサンプルは、評価方法が信頼できるように、十分な非バリアント(すなわち、野生型)セグメントを含むようになっている。
合成のコピー数バリアントを生成する目的で、テストサンプルは、関心領域を有するセグメントのコピー数に対して野生型であると仮定され、配列リード数は、代表値(平均値または中央値)および分散を有する負の二項分布を形成すると仮定することができる。分布の分散は、例えば、セグメントの濃縮または配列中のノイズから生じ得る。合成のコピー数バリアントの集団からの配列リードの分布は、好ましくは、等価に処理され、したがって同じコピー数バリアントモデルパラメータを有する実際のコピー数バリアントの理論的集団からの配列リードの期待される負の二項分布に類似する。
いくつかの実施形態では、関心領域内の1つ以上のセグメントからの合成の配列リード数によって表される1つ以上のセグメントの合成のコピー数を含む複数の合成のコピー数バリアントが、生成される。1つ以上のセグメントの各々の合成の配列リード数は、テストサンプルからの関心領域内の1つ以上のセグメントからの実際の配列リード数を増加、減少、または維持することによって生成することができる。例えば、第1の実際の配列リード数が、関心領域内の第1のセグメントに対応し、かつ第2の実際の配列リード数が、関心領域内の第2のセグメントに対応し、かつテストサンプルが、関心領域の2つのコピーを有すると仮定または期待される場合、関心領域の3つのコピーを有する合成のコピー数バリアントが、第1のセグメントの3つのコピーを反映するように第1の実際の配列リード数を増加させることによって第1のセグメントに対応する第1の合成の配列リード数を生成することと、第2のセグメントの3つのコピーを反映するように第2の実際の配列リード数を増加させることによって第2のセグメントに対応する第2の合成の配列リード数を生成することと、によって生成することができる。第1のセグメントおよび第2のセグメントに対応する合成の配列リード数は、3つのコピーを反映するように増加するため、合成のコピー数バリアントは、第1のセグメントおよび第2のセグメントを有する関心
領域の3つのコピーを有する。いくつかの実施形態では、合成の配列リード数は、実際の配列リード数に係数(例えば、コピー数を2~3に増加させるための1.5、またはコピー数を2~1に減少させるための0.5)を乗算することによって、生成される。いくつかの実施形態では、合成の配列リード数は、配列リード数(関心領域内のすべてのセグメントに対応する代表値の実際の配列リード数の50%など)を実際の配列リード数に加算(または減算)することによって、生成される。いくつかの実施形態では、配列リード数は、関心領域の単一のコピーが、正規化された配列リード数(例えば、0.5)によって表され、かつ関心領域の2つのコピーが、正規化された配列リード数(例えば、1)によって表されるように、正規化される(例えば、以下に記載されるように)。したがって、いくつかの実施形態では、正規化された配列リード数(0.5など)が、正規化された配列リード数に追加されて、合成のコピー数バリアントのコピー数を増加させ、正規化された配列リード数(0.5など)が、正規化された配列リード数に減算されて、合成のコピー数バリアントのコピー数を減少させる。好ましくは、実際の配列リード数が、増加または減少されて、合成の配列コピー数を生成して、所定の数(整数または非整数であり得る)のセグメントのコピー(セグメントの1つ以上、2つ以上、3つ以上、4つ以上、または5つ以上のコピーなど)を有する合成のコピー数バリアントを表す。
いくつかの実施形態では、合成のコピー数バリアントを生成するために、テストサンプルからの配列リード数からの配列リード数を加算または減算することによって、合成の配列リード数が、生成される。複製を含む合成のコピー数バリアントが、配列リード数を加算することによって生成され、欠失イベントを含む合成のコピー数バリアントが、配列リード数を欠失させることによって生成される。テストサンプルからの配列リード数から加算または減算される配列リード数は、合成のコピー数バリアントでシミュレートされる重複または欠失イベントの数に、部分的に基づく。いくつかの実施形態では、テストサンプル内の仮定された(例えば、野生型)コピー数xよりも多い(または少ない)関心領域(または関心領域のセグメント)のn個のコピーを含む合成のコピー数バリアントの合成の配列リード数が、テストサンプルからのその関心領域(または関心領域のセグメント)の配列リード数に(またはから)、その関心領域(または関心領域のセグメント)の複数のテストサンプルからの代表値(例えば、平均値または中央値)の配列リード数を、
回加算(または減算)することによって、決定される。例えば、欠失を含む合成のコピー数バリアント(すなわち、テストサンプル中の仮定されたコピー数xよりも少ない、関心領域または関心領域のセグメントのn個のコピーを有する)について、合成のコピー数バリアントの合成の配列リード数kx-nは、
として決定され、ki,jは、テストサンプルiの関心領域(またはセグメント)jでの配列リード数を指し、μは、代表値(平均値または中央値)の配列リード数を指し、これは、例えば、テストサンプル内のすべてのセグメント(からの代表値の配列リード数(すなわち、μ、複数のテストサンプルにわたる関心領域(またはセグメント)jでの代表値の配列リード数(すなわち、μ)、または複数のテストサンプルの関心領域(またはセグメント)jの代表値の配列リード数である正規化された(または二重正規化された)代表値の配列リード数であり得、各テストサンプルの配列リード数は、テストサンプル全体で正規化される(すなわち、μμ)。例として、セグメントjの1つのコピーを有する合成のコピー数バリアントは、セグメントの2つのコピーを有すると仮定されたテストサンプルiからの配列リード数に基づいて決定することができ、
として決定することができる。いくつかの実施形態では、合成のコピー数バリアントが、複製を含み(すなわち、テストサンプル中の仮定されたコピー数xよりも、関心領域または関心領域のセグメントのn個の追加のコピーを有する)、合成のコピー数バリアントの合成の配列リード数kx+nは、
として決定される。例として、セグメントjの3つのコピーを有する合成のコピー数バリアントが、セグメントの2つのコピーを有すると仮定されるテストサンプルiからの配列リード数に基づいて決定され得、
として決定され得る。
いくつかの実施形態では、関心領域(または関心領域のセグメント)のm個のコピーを含む合成のコピー数バリアントの合成の配列リード数は、
に従って関心領域(または関心領域のセグメント)のx個のコピーを含むその関心領域(または関心領域のセグメント)の配列リード数に基づいて生成することができる。例えば、関心領域(または関心領域のセグメント)の3つのコピーを有する合成のコピー数バリアントの合成の配列リード数は、
に従って関心領域または関心領域のセグメント)の2つのコピーを有するテストサンプルからの配列リード数に基づいて生成することができる。いくつかの実施形態では、関心領域(または関心領域のセグメント)の1つのコピーを有する合成のコピー数バリアントは、
に従って関心領域(または関心領域のセグメント)の2つのコピーを有するテストサンプルからの配列リード数に基づいて生成することができる。
いくつかの実施形態では、セグメントのm個のコピーを含む合成のコピー数バリアントの合成の配列リード数は、テストサンプルからの配列リード数に
を乗算することによる仮定された(例えば、野生型)コピー数xを有するテストサンプルからの配列リード数から生成される。すなわち、合成のコピー数バリアントの合成の配列
リード数
は、
に従う配列リード数
に基づいて決定され得る。例えば、関心領域(または関心領域のセグメント)の3つのコピーを有する合成のコピー数バリアントの合成の配列リード数は、
に従って関心領域(または関心領域のセグメント)の2つのコピーを有すると仮定されたテストサンプルからの配列リード数に基づいて生成することができる。関心領域(または関心領域のセグメント)の1つのコピー有する合成のコピー数バリアントの合成の配列リード数は、
に従って関心領域(または関心領域のセグメント)の2つのコピーを有すると仮定されたテストサンプルからの配列リード数に基づいて生成することができる。いくつかの実施形態では、合成の配列リード数を決定するときにファッジ係数が含まれ、ファッジ係数を使用して、複数の合成の配列リード数(すなわち、複数の合成のコピー数バリアント)の分散を、複数の合成のコピー数バリアントの基礎として使用される複数のテストサンプルの分散に対してより近くモデル化することができる。ファッジ係数は、代表値の配列リード数を変更するときにポアソン分布に期待される分散の増加または減少から導出され得る。
いくつかの実施形態では、合成のコピー数バリアントの合成の配列リード数は、テストサンプルからの実際の配列リードの二項分布または負の二項分布をサンプリングすることによって決定される。例えば、関心領域(または関心領域のセグメント)のm個のコピーを有する合成のコピー数欠失バリアントについて、合成の配列リード数は、
に等しい成功確率と実際の配列数に等しい試行数とを有する、関心領域(または関心領域のセグメント)のx個のコピーを有するテストサンプルからの実際の配列リードの二項分布からサンプリングすることによって生成することができる。すなわち、合成のコピー数欠失バリアントについて、

例えば、関心領域(または関心領域のセグメント)の1つのコピーを有する合成のコピー数バリアントについて、合成の配列リード数は、1/2に等しい成功確率と実際の配列数に等しい試行数とを有する、関心領域(または関心領域のセグメント)の2つのコピーを
有するテストサンプルからの実際の配列リードの二項分布からサンプリングすることによって生成することができる。すなわち、
。図10は、セグメントの1つのコピーを有する合成のコピzー数バリアントを生成する
ための、セグメントの2つのコピーを有するテストサンプルからの実際の配列リードの二項サンプリングを例示する。例示された例では、5つのテストサンプルを使用して5つの合成のコピー数バリアントを生成するが、複数は、任意のテストサンプル数および合成のコピー数バリアントを含むことができる。例示された例では、各テストサンプルは、100の実際の配列リード数を含むが、配列リードの分布が確からしいことが理解される。二項分布は、1/2に等しい成功確率で各テストサンプルに対してサンプリングされる。成功は、セグメントの第1のコピーを表し、失敗は、第2のコピーを表す。成功した配列リード(つまり、第1のコピーを表すもの)数は、合成のコピー数バリアントの合成の配列リード数に等しい。
いくつかの実施形態では、関心領域(または関心領域のセグメント)のm個のコピーを有する合成のコピー数複製バリアントの合成の配列リード数が、負の二項分布からサンプリングすることによって生成され、成功数が、関心領域(または関心領域のセグメント)の仮定されたx個のコピー数を有するテストサンプルからの実際の配列リード数に等しく、成功の確率は、
に等しく、サンプリングされた負の二項分布の期待値を実際の配列リード数に加算する。すなわち、合成のコピー数複製バリアントについて、
。例えば、関心領域(または関心領域のセグメント)の3つのコピーを有する合成のコピー数複製バリアントの合成の配列リード数は、負の二項分布からサンプリングすることによって生成することができ、成功数は、関心領域(または関心領域のセグメント)の仮定された2つのコピー数を有するテストサンプルからの実際の配列リード数に等しく、成功の確率は、2/3に等しく、サンプリングされた負の二項分布の期待値を実際の配列リード
数に加算する。すなわち、
。いくつかの実施形態では、合成の配列リード数を決定するときにファッジ係数が含まれ、ファッジ係数を使用して、複数の合成の配列リード数(すなわち、複数の合成のコピー数バリアント)の分散を、複数の合成のコピー数バリアントの基礎として使用される複数のテストサンプルの分散に対してより近くモデル化することができる。ファッジ係数は、経験的に決定され得る。例えば、ファッジ係数は、男性のX染色体からの配列リードの分布(X染色体の単一のコピーを有する)を、単一のX染色体のシミュレートされた欠失を有する(したがって、X染色体のシミュレートされた1つのコピーを有する)女性のX染色体からの配列リードの分布(X染色体の2つのコピーを有する)と比較することによって決定され得る。ファッジ係数は、観測される1コピー男性が、シミュレートされた1コピー女性と比較されるように調整され得る。例えば、合成の配列リード数は、
に従って決定され得、
、βは、ファッジ係数である。一例では、
であり、
コピー数バリアントコーラは、複数の合成のコピー数バリアントの各合成のコピー数バリアントの関心領域内の1つ以上のセグメントのコピー数をコールすることができる。合成のコピー数バリアント内のセグメントのコピー数は、テストサンプルからの実際の配列リード数を1つ以上のセグメントのコピーの望ましい数に調整することによって生成された合成の配列リード数によって表されるため、各合成のコピー数バリアントの1つ以上のセグメントのコピー数は、既知である。コールされたコピー数を、複数の合成のコピー数バリアントの各合成のコピー数バリアントのコピー数と比較して、コピー数バリアントモデルの性能統計を決定することができる。性能統計は、例えば、感度、特異度、適合率、再現率、精度、正の予測値、負の予測値、または任意の他の一致のメトリックであり得る。
性能統計は、コピー数バリアント画面またはモデルの性能を示す。例えば、コピー数バリアントモデルでは、真陽性の数が多く、偽陰性の数が少ないことが望ましい。したがって、性能統計を使用して、コピー数バリアントモデルの性能を評価することができる。いくつかの実施形態では、性能統計のための所定の閾値を選択することができる。いくつかの実施形態では、性能統計が、所定の閾値を下回っている場合、テストサンプルを再分析することができ、および/またはテストサンプルについて新たな配列リードのセットを生成することができる。
コンピュータシステム
いくつかの実施形態では、本明細書に記載された方法は、コンピュータシステム上で実行されるプログラムによって実装される。図11は、問い合わせされたセグメントのコピー数をコールするか、またはコピー数バリアントモデルの性能を評価するための様々な例示的な方法を含む、上述のプロセスのいずれか1つを実行するように構成された例示的なコンピューティングシステム1100を描示する。コンピューティングシステム1100は、例えば、プロセッサ、メモリ、ストレージ、および入力/出力デバイス(例えば、モニタ、キーボード、ディスクドライブ、インターネット接続など)を含み得る。コンピューティングシステム1100は、プロセスのいくつかまたはすべての態様を実施するための回路機構または他の専用のハードウェアを含み得る。例えば、いくつかの実施形態では、コンピューティングシステムは、シーケンサ(超並列シーケンサなど)を含む。いくつかの動作設定では、コンピューティングシステム1100は、1つ以上のユニットを含むシステムとして構成され得、各ユニットは、ソフトウェア、ハードウェア、またはそれらの何らかの組み合わせのいずれかでプロセスのいくつかの態様を実施するように構成され
る。
図11は、上述のプロセスを実行するために使用され得るいくつかの構成要素を有するコンピューティングシステム1100を描示する。メインシステム1102は、入力/出力(「I/O」)セクション1106、1つ以上の中央処理装置(「CPU」)1108(例えば、プロセッサ)、および関連するフラッシュメモリカード1112を有し得るメモリセクション1110を有するマザーボード1104を含む。I/Oセクション1106は、ディスプレイ1114、キーボード1116、ディスク記憶ユニット1118、および媒体ドライブユニット1120に接続される。媒体ドライブユニット1120は、プログラム1124および/またはデータを内包することができるコンピュータ可読媒体1122を読み取り/書き込みすることができる。
上述のプロセスの結果に基づく少なくともいくつかの値は、後続の使用のために保存することができる。これに加えて、非一過性コンピュータ可読媒体を使用して、コンピュータによって上述のプロセスのいずれか1つを実行するための1つ以上のコンピュータプログラムを記憶することができる(例えば、1つ以上の中央処理装置(「CPU」)1108は、記憶された1つ以上のコンピュータプログラム(または命令)を実行して、上述のプロセスを実行することができる)。コンピュータプログラムは、例えば、汎用プログラミング言語(例えば、Pascal、C、C++、Java、Python、JSON、Rなど)またはいくつかの専用のアプリケーション特有の言語で記述され得る。
いくつかの実施形態では、概要統計量が、報告される(例えば、患者、医師、介護者、または規制当局に)。いくつかの実施形態では、概要統計量は、例えば、モニタ上に表示される。
様々な例示的な実施形態が、本明細書に記載される。これらの例には、非限定的な意味で参照がなされる。それらは、開示された技術のより広く適用可能な態様を例示するために提供される。様々な実施形態の実際の趣旨および範囲から逸脱することなく、様々な変更を行うことができ、均等物が置き換えられ得る。加えて、特定の状況、材料、物質の組成、プロセス、プロセス行為(単数または複数)またはステップ(単数または複数)を、様々な実施形態の目的(単数または複数)、趣旨、または範囲に適合させるために、多くの修正を行うことができる。さらに、当業者によって理解されるように、本明細書に記載および例示された個々の変形例の各々は、様々な実施形態の範囲または趣旨から逸脱することなく他のいくつかの実施形態のいずれかの特徴から容易に分離または組み合わせることができる個別の構成要素および特徴を有する。このようなすべての修正は、本開示と関連付けられた特許請求の範囲の範囲内にあることが意図される。
例示的な実施形態
以下の実施形態は、例示的なものであり、本発明を限定することを意図するものではない。
実施形態1.コピー数バリアントモデルを含むコピー数バリアントコーラのサンプル特異的な性能を評価する方法であって、
テストサンプルからの、関心領域内のセグメントにマッピングされた実際の配列リード数に基づいて、コピー数バリアントモデルをパラメータ化して、1つ以上のコピー数バリアントモデルパラメータを決定することと、
複数の合成のコピー数バリアントを生成することであって、各合成のコピー数バリアントが、セグメントのうちの1つ以上の合成のコピー数を含み、各合成のコピー数が、テストサンプルからの対応するセグメントの実際の配列リード数に基づく合成の配列リード数によって表される、生成することと、
コピー数バリアントモデル、および1つ以上の決定されたコピー数バリアントモデルパラメータを使用して、合成のコピー数バリアントの1つ以上のセグメントのコピー数をコールすることと、
コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアントコーラについてのサンプル特異的な性能統計を決定することと、
サンプル特異的な性能統計に基づいて、コピー数バリアントコーラのサンプル特異的な性能を評価することと、を含む、方法。
実施形態2.1つ以上のセグメントの合成の配列リード数が、1つ以上のセグメントの所定のコピー数に比例して、テストサンプルからの対応するセグメントの実際の配列リード数を増加、減少、または維持することによって生成される、実施形態1に記載の方法。
実施形態3.所定のコピー数が、整数のコピー数である、実施形態2に記載の方法。
実施形態4.所定のコピー数が、非整数のコピー数である、実施形態2に記載の方法。
実施形態5.合成の配列リード数が、m/xに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい試行数と、での二項分布をサンプリングすることによって生成され、mが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、xが、テストサンプルからの対応するセグメントの仮定されたコピー数である、実施形態1~4のいずれか1つに記載の方法。
実施形態6.合成の配列リード数が、
m/xに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい成功数と、での負の二項分布としての配列リード数をサンプリングすることであって、mが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、xが、テストサンプルからの対応するセグメントの仮定されたコピー数である、サンプリングすることと、
サンプリングされた配列リード数を、テストサンプルからの対応するセグメントの実際の配列リード数に加算することと、によって生成される、実施形態1~5のいずれか1つに記載の方法。
実施形態7.合成の配列リード数が、負の二項分布の期待値として配列リード数をサンプリングすることによって生成される、実施形態6に記載の方法。=
実施形態8.コピー数バリアントモデルが、隠れマルコフモデルである、実施形態1~7のいずれか1つに記載の方法。
実施形態9.隠れマルコフモデルが、
(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントの実際の配列リード数または合成の配列リード数を含む観測状態と、
(iii)問い合わせされたセグメントの、期待される実際の配列リード数または合成の配列リード数に基づくコピー数尤度モデルと、を含む、実施形態8に記載の方法。
実施形態10.コピー数尤度モデルを決定することを含む、実施形態9に記載の方法。
実施形態11.隠れマルコフモデルをパラメータ化することが、コピー数尤度モデルを
、テストサンプルからの、問い合わせされたセグメントにマッピングされた実際の配列リード数にフィッティングするように調整することを含む、実施形態9または10に記載の方法。
実施形態12.コピー数尤度モデルが、2つ以上のコピー数状態の分布を含む、実施形態9~11のいずれか1つに記載の方法。
実施形態13.コピー数尤度モデルが、負の二項分布を含み、負の二項分布が、ポアソン分布ではない、実施形態9~12のいずれか1つに記載の方法。
実施形態14.期待される実際の配列リード数または合成の配列リード数が、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数と、テストサンプル内のセグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数、またはテストサンプル内の複数のセグメントにわたる代表値のマッピングされた配列リード数が、正規化された代表値である、実施形態9~13のいずれか1つに記載の方法。
実施形態15.コピー数尤度モデルが、GC含量バイアスの存在を考慮するように調整される、実施形態9~14のいずれか1つに記載の方法。
実施形態16.隠れマルコフモデルが、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む、実施形態9~15のいずれか1つに記載の方法。
実施形態17.隠れマルコフモデルが、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む、実施形態9~15のいずれか1つに記載の方法。
実施形態18.遷移確率が、コピー数バリアントの代表値の長さを考慮する、実施形態16または17に記載の方法。
実施形態19.遷移確率が、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する、実施形態16~18のいずれか1つに記載の方法。
実施形態20.コピー数バリアントの代表値の長さ、または問い合わせされたセグメントでのコピー数バリアントの確率が、ヒト集団における観測に基づいて決定される、実施形態18または19に記載の方法。
実施形態21.コピー数バリアントモデルをパラメータ化することが、1つ以上のスプリアス捕捉プローブを考慮することを含む、実施形態1~20のいずれか1つに記載の方法。
実施形態22.1つ以上のスプリアス捕捉プローブを考慮することが、複数の観測状態の1つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含む、実施形態21に記載の方法。
実施形態23.スプリアス捕捉プローブインジケータが、ベルヌーイ過程を使用して決定される、実施形態22に記載の方法。
実施形態24.捕捉プローブのうちの1つ以上がスプリアスであることを考慮することが、期待値最大化を使用することを含む、実施形態22または23に記載の方法。
実施形態25.捕捉プローブがスプリアスであると決定される場合、その捕捉プローブに由来する配列リードが、コピー数バリアントモデルで破棄される、実施形態21~24のいずれか1つに記載の方法。
実施形態26.コピー数バリアントモデルをパラメータ化することが、マッピングされた配列リード数のノイズを考慮することを含む、実施形態1~25のいずれか1つに記載の方法。
実施形態27.コピー数バリアントモデルが、1つ以上のコピー数バリアントモデルパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、実施形態1~26のいずれか1つに記載の方法。
実施形態28.コピー数バリアントモデルが、信頼領域ニュートン共役勾配アルゴリズムを解くことによってパラメータ化される、実施形態1~27のいずれか1つに記載の方法。
実施形態29.コピー数バリアントモデルが、期待値最大化を使用して反復的にパラメータ化される、実施形態1~28のいずれか1つに記載の方法。
実施形態30.テストサンプルからの実際の配列リードを関心領域内のセグメントにマッピングすることと、セグメントにマッピングされた実際の配列リード数を決定することと、を含む、実施形態1~29のいずれか1つに記載の方法。
実施形態31.テストサンプルが、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、実施形態1~30のいずれか1つに記載の方法。
実施形態32.テストサンプル用に1つ以上のセグメントのコピー数をコールすることを含む、実施形態1~31のいずれか1つに記載の方法。
実施形態33.セグメントが、空間的に隣接するセグメントを含む、実施形態1~32のいずれか1つに記載の方法。
実施形態34.サンプル特異的な性能統計が、検出、感度、特異度、適合率、再現率、精度、正の予測値、または負の予測値の限界である、実施形態1~33のいずれか1つに記載の方法。
実施形態35.サンプル特異的な性能統計が、感度または精度である、実施形態1~34のいずれか1つに記載の方法。
実施形態36.コピー数バリアントモデルのサンプル特異的な性能が、所望の性能閾値を下回っている場合、テストサンプルを不合格にすることを含む、実施形態1~35のいずれか1つに記載の方法。
実施形態37.関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
(a)テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセ
グメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。
実施形態38.関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。
実施形態39.コピー数尤度モデルの1つ以上のパラメータが、セグメントのマッピングされた配列リード数の分散(d)、セグメントの平均のマッピングされた配列リード数(μ)、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散(d)、またはテスト配列ライブラリ内のセグメントの平均のマッピングされた配列リード数(μ)を含む、実施形態37または38に記載の方法。
実施形態40.関心領域内のセクションの最も確率が高いコピー数を決定することをさらに含み、セクションが、問い合わせされたセグメントを含む複数の空間的に隣接するセグメントを含む、実施形態37~39のいずれか1つに記載の方法。
実施形態41.コピー数尤度モデルが、2つ以上のコピー数状態の分布を含む、実施形態37~40のいずれか1つに記載の方法。
実施形態42.コピー数尤度モデルが、負の二項分布を含み、負の二項分布が、ポアソン分布ではない、実施形態37~41のいずれか1つに記載の方法。
実施形態43.期待される配列リード数が、複数の配列ライブラリにわたる対応するセグメントでの平均のマッピングされた配列リード数と、テスト配列ライブラリ内の複数の関心セグメントにわたる平均のマッピングされた配列リード数と、に基づいており、複数の配列ライブラリにわたる対応するセグメントでの平均のマッピングされた配列リード数、またはテスト配列ライブラリ内の複数の関心セグメントにわたる平均のマッピングされた配列リード数が、正規化された代表値である、実施形態37~42のいずれか1つに記載の方法。
実施形態44.コピー数尤度モデルが、GC含量バイアスの存在を考慮するように調整される、実施形態37~43のいずれか1つに記載の方法。
実施形態45.調整が、問い合わせされたセグメントに対応する捕捉プローブのGC含量、または問い合わせされたセグメントのGC含量に依存する、実施形態44に記載の方法。
実施形態46.隠れマルコフモデルが、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む、実施形態37~45のいずれか1つに記載の方法。
実施形態47.隠れマルコフモデルが、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む、実施形態37~45のいずれか1つに記載の方法。
実施形態48.遷移確率が、コピー数バリアントの代表値の長さを考慮する、実施形態46または47に記載の方法。
実施形態49.遷移確率が、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する、実施形態46~48のいずれか1つに記載の方法。
実施形態50.コピー数バリアントの代表値の長さ、または問い合わせされたセグメントでのコピー数バリアントの確率が、ヒト集団における観測に基づいて決定される、実施形態48または49に記載の方法。
実施形態51.隠れマルコフモデルをパラメータ化することが、1つ以上のスプリアス捕捉プローブを考慮することを含む、実施形態37~50のいずれか1つに記載の方法。
実施形態52.1つ以上のスプリアス捕捉プローブを考慮することが、複数の観測状態の1つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含
む、実施形態51に記載の方法。
実施形態53.スプリアス捕捉プローブインジケータが、ベルヌーイ過程を使用して決定される、実施形態52に記載の方法。
実施形態54.捕捉プローブのうちの1つ以上がスプリアスであることを考慮することが、期待値最大化を使用することを含む、実施形態52または53に記載の方法。
実施形態55.捕捉プローブがスプリアスであると決定される場合、その捕捉プローブからの尤度情報が、コピー数尤度モデルで破棄される、実施形態52~54のいずれか1つに記載の方法。
実施形態56.隠れマルコフモデルをパラメータ化することが、マッピングされた配列リード数のノイズを考慮することを含む、実施形態37~55のいずれか1つに記載の方法。
実施形態57.マッピングされた配列決リード数のノイズを考慮することが、コピー数尤度モデルを調整することを含む、実施形態37~56のいずれか1つに記載の方法。
実施形態58.ノイズを考慮するためにコピー数尤度モデルを調整することは、期待値最大化ステップを含む、実施形態57に記載の方法。
実施形態59.期待値最大化ステップが、テスト配列ライブラリからのマッピングされた配列リード数のノイズのレベルを重み付けすることを含む、実施形態58に記載の方法。
実施形態60.マッピングされた配列リード数のノイズが、所定の閾値を上回っている場合、問い合わせされたセグメントの最も確率が高いコピー数が、コールされない、実施形態56~59のいずれか1つに記載の方法。
実施形態61.重複する捕捉プローブからの配列リードが、マージされる、実施形態37~60のいずれか1つに記載の方法。
実施形態62.ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロを使用して、問い合わせされたセグメントの最も確率が高いコピー数を決定する、実施形態37~61のいずれか1つに記載の方法。
実施形態63.セグメントの最も確率が高いコピー数の信頼度を決定することをさらに含む、実施形態37~62のいずれか1つに記載の方法。
実施形態64.関心領域内のコピー数バリアント異常を決定するための方法であって、
(a)テスト配列ライブラリから生成された複数の配列リードを、関心領域内の問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数の
サブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、
(g)問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む、方法。
実施形態65.関心領域内のコピー数バリアント異常を決定するための方法であって、
(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、
(g)問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む、方法。
実施形態66.関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
(a)テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の捕捉プローブを使用して濃縮される、マッピングすることと、
(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、によって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。
実施形態67.関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、を含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。
実施形態68.コピー数尤度モデルの1つ以上のパラメータが、セグメントのマッピングされた配列リード数の分散(d)、セグメントの平均のマッピングされた配列リード数(μ)、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散(d)、またはテスト配列ライブラリ内のセグメントの平均のマッピングされた配列リード数(μ)を含む、実施形態64~67のいずれか1つに記載の方法。
実施形態69.コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数解析的ヘッシアンが、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれる、実施形態37~68のいずれか1つに記載の方法。
実施形態70.実施形態1~68のいずれか1つに記載の方法を実行するための命令を含むコンピュータ可読媒体を含むコンピュータシステム。
血液または唾液からの生物学的サンプルは、178個の遺伝子のパネル全体で直接標的配列を濃縮した後、イルミナプラットフォームHiSeq2500を使用して配列された。46個のサンプルのバッチが分析され、バッチは、唾液および血液のサンプルの比率が異なっていた。唾液サンプルは、一般に、ノイズがより多い配列結果を生成し、同じフローセルバッチ内の他のサンプルの感度に影響を与え得る。各サンプル内のセグメントからの配列リード数を使用して、セグメントの隠れマルコフモデルをパラメータ化し、400個の合成のコピー数バリアントを生成し、隠れマルコフモデルコーラを使用して各サンプルの合成のコピー数バリアント内のセグメントのコピー数をコールした。隠れマルコフモデルは、(i)所与のセグメントのコピー数の隠れた状態と、(ii)所与のセグメントの合成の配列リード数を有する観測状態と、(iii)所与のセグメントの合成のリード数に基づくコピー数尤度モデルと、を含んでいた。各テストサンプルの感度は、合成のバリアント内のセグメントのコールされたコピー数と、合成のバリアント内の実際のコピー数と、を使用して決定された。
コピー数バリアントコール分析は、2つの異なる隠れマルコフモデルコーラを使用して行われた。基準隠れマルコフモデルコーラでは、サンプルノイズ(すなわち、テスト配列ライブラリ内のノイズに起因する分散)およびスプリアス捕捉プローブノイズは、無視された。テスト隠れマルコフモデルでは、テスト配列ライブラリ内のノイズは、
に従って分散パラメータに配列ライブラリ内のセグメント全体のノイズに起因する分散(d)のパラメータを含めることによって、コピー数尤度モデルで考慮された。これに加えて、テスト隠れマルコフモデルは、ベルヌーイ過程を使用してスプリアス捕捉プローブを考慮した。
各サンプルの決定された感度は、図12に示されており、唾液サンプル数に対してプロットされる(46個のうち、残りは血液サンプルである)。基準隠れマルコフコーラを使用する感度は、一般に、バッチに唾液サンプルが多く存在すると悪化する。ただし、バッチに44個の唾液サンプルが含まれている場合でも、テスト隠れマルコフコーラの感度は、一般に、90%を上回ったままである。

Claims (7)

  1. 関心領域内のコピー数バリアント異常を決定する方法であって、
    (a)テスト配列ライブラリから生成された複数の配列リードを、前記関心領域内の問い合わせされたセグメントにマッピングするステップであって、前記テスト配列ライブラリは、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、ステップと、
    (b)前記問い合わせされたセグメントにマッピングされた配列リード数を決定するステップと、
    (c)前記問い合わせされたセグメントにマッピングされた配列リードの期待される数に基づいて、コピー数尤度モデルを決定するステップと、
    (d)隠れマルコフモデルであって、
    (i)前記問い合わせされたセグメント、または前記問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
    (ii)問い合わせされたセグメントにマッピングされた前記配列リード数を含む観測状態と、
    (iii)前記問い合わせされたセグメントのコピー数から、前記問い合わせされたセグメントに空間的に隣接するセグメントのコピー数に遷移する遷移確率と、
    (iv)前記コピー数尤度モデルと
    を含む、隠れマルコフモデルを構築するステップと、
    (e)前記コピー数尤度モデルを調節して、前記問い合わせされたセグメントにマッピングされた決定された前記配列リード数にフィッティングするために、前記隠れマルコフモデルをパラメータ化するステップであって、前記隠れマルコフモデルは、前記コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、ステップと、
    (f)パラメータ化された前記隠れマルコフモデルに基づいて、前記問い合わせされたセグメントの最も確率が高いコピー数を決定するステップと、および
    (g)前記問い合わせされたセグメントの前記最も確率が高いコピー数に基づいて、コピー数バリアントの異常を決定するステップと、
    を含む、方法。
  2. 関心領域内のコピー数バリアント異常を決定する方法であって、
    (a)テスト配列ライブラリから生成された複数の配列リードを、空間的に隣接する複数のセグメントにマッピングするステップであって、前記空間的に隣接する複数のセグメントは問い合わせされたセグメントを含み、前記テスト配列ライブラリは、空間的に隣接する複数の直接標的配列捕捉プローブを使用して濃縮される、ステップと、
    (b)空間的に隣接する各セグメントにマッピングされる配列リード数を決定するステップと、
    (c)空間的に隣接する各セグメントにおいてマッピングされる配列リードの期待される数に基づいて、空間的に隣接する各セグメントについてコピー数尤度モデルを決定するステップと、
    (d)隠れマルコフモデルであって、
    (i)空間的に隣接する各セグメントまたは前記空間的に隣接する各セグメント内の複数のサブセグメントのコピー数を含む複数の隠れ状態と、
    (ii)空間的に隣接する各セグメントにマッピングされた前記配列リード数を含む複数の観測状態と、
    (iii)前記問い合わせされたセグメントのコピー数から、前記問い合わせされたセグメントに空間的に隣接するセグメントのコピー数に遷移する遷移確率と、および
    (iv)空間的に隣接する各セグメントの前記コピー数尤度モデルと、
    を含む、隠れマルコフモデルを構築するステップと、
    (e)空間的に隣接する各セグメントにマッピングされた決定された前記配列リード数にフィッティングするように、各コピー数尤度モデルを調整することを含む、前記隠れマルコフモデルをパラメータ化するステップであって、前記隠れマルコフモデルは、前記コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、ステップと、
    (f)パラメータ化された前記隠れマルコフモデルに基づいて、前記問い合わせされたセグメントの最も確率が高いコピー数を決定するステップと、および
    (g)前記問い合わせされたセグメントの前記最も確率が高いコピー数に基づいて、コピー数バリアントの異常を決定するステップと、
    を含む方法。
  3. 前記コピー数尤度モデルの前記1つ以上のパラメータが、前記問い合わされたセグメントのマッピングされた配列リード数の分散(di)、前記問い合わされた前記セグメントの代表値のマッピングされた配列リード数(μi)、前記テスト配列ライブラリ内のセグメント全体のマッピングされた配列リード数の分散(dj)、または前記テスト配列ライブラリ内のセグメント全体の代表値のマッピングされた配列リード数(μj)を含む、請求項1または2に記載の方法。
  4. 前記関心領域内のセクションの最も確率が高いコピー数を決定することをさらに含み、前記セクションが、前記問い合わせされたセグメントを含む複数の空間的に隣接するセグメントを含み、前記コピー数尤度モデルが、2つ以上のコピー数状態の分布を含み、前記コピー数尤度モデルが、負の二項分布を含み、前記負の二項分布が、ポアソン分布ではなく、前記期待される配列リード数が、複数の配列ライブラリにわたる対応するセグメントでの代表値のマッピングされた配列リード数と、前記テスト配列ライブラリ内の複数の関心セグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数の配列ライブラリにわたる対応するセグメントでの前記代表値のマッピングされた配列リード数、または前記テスト配列ライブラリ内の複数の関心セグメントにわたる前記代表値のマッピングされた配列リード数が、正規化された代表値であり、前記コピー数尤度モデルが、GC含量バイアスの存在に基づいて調整され、前記調整が、前記問い合わせされたセグメントに対応する前記直接標的配列捕捉プローブのGC含量、または前記問い合わせされたセグメントの前記GC含量に依存する、請求項1から3のいずれかに記載の方法。
  5. 記遷移確率が、前記問い合わせされたセグメントまたは空間的に隣接するセグメントにおけるコピー数バリアントの代表値の長さまたはコピー数バリアントの事前確率を考慮し、前記コピー数バリアントの代表値の長さがヒト集団における観測に基づいて決定される、請求項1から4のいずれかに記載の方法。
  6. ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロを使用して、前記問い合わせされたセグメントの最も確率の高いコピー数を決定する、請求項1からのいずれかに記載の方法。
  7. 前記セグメントの最も確率が高いコピー数の信頼度を決定することをさらに含む、請求項1からのいずれかに記載の方法。
JP2024042482A 2018-06-06 2024-03-18 コピー数バリアントコーラ Active JP7735457B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201862681517P 2018-06-06 2018-06-06
US62/681,517 2018-06-06
US201862733842P 2018-09-20 2018-09-20
US62/733,842 2018-09-20
PCT/US2019/034998 WO2019236420A1 (en) 2018-06-06 2019-05-31 Copy number variant caller
JP2020567795A JP7488772B2 (ja) 2018-06-06 2019-05-31 コピー数バリアントコーラ

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020567795A Division JP7488772B2 (ja) 2018-06-06 2019-05-31 コピー数バリアントコーラ

Publications (2)

Publication Number Publication Date
JP2024069550A JP2024069550A (ja) 2024-05-21
JP7735457B2 true JP7735457B2 (ja) 2025-09-08

Family

ID=68770574

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020567795A Active JP7488772B2 (ja) 2018-06-06 2019-05-31 コピー数バリアントコーラ
JP2024042482A Active JP7735457B2 (ja) 2018-06-06 2024-03-18 コピー数バリアントコーラ

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020567795A Active JP7488772B2 (ja) 2018-06-06 2019-05-31 コピー数バリアントコーラ

Country Status (5)

Country Link
US (1) US20210246493A1 (ja)
EP (1) EP3803879A4 (ja)
JP (2) JP7488772B2 (ja)
AU (2) AU2019280571B2 (ja)
WO (1) WO2019236420A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4413157A4 (en) * 2021-10-08 2025-10-22 Found Medicine Inc METHODS AND SYSTEMS FOR DETECTING COPY NUMBER ALTERATIONS
CN118103525A (zh) * 2021-10-08 2024-05-28 基金会医学公司 用于自动调用拷贝数改变的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016187051A1 (en) 2015-05-18 2016-11-24 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
WO2017172958A1 (en) 2016-03-29 2017-10-05 Regeneron Pharmaceuticals, Inc. Genetic variant-phenotype analysis system and methods of use
WO2018085779A1 (en) 2016-11-07 2018-05-11 Counsyl, Inc. Methods for assessing genetic variant screen performance

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2591433A4 (en) * 2010-07-06 2017-05-17 Life Technologies Corporation Systems and methods to detect copy number variation
US8725422B2 (en) * 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
US20140336950A1 (en) * 2011-11-16 2014-11-13 Univerisity of South Dakota Clustering copy-number values for segments of genomic data
CA3057589A1 (en) * 2017-03-24 2018-09-27 Counsyl, Inc. Copy number variant caller
CA3085739A1 (en) * 2017-12-14 2019-06-20 Ancestry.Com Dna, Llc Detection of deletions and copy number variations in dna sequences

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016187051A1 (en) 2015-05-18 2016-11-24 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
WO2017172958A1 (en) 2016-03-29 2017-10-05 Regeneron Pharmaceuticals, Inc. Genetic variant-phenotype analysis system and methods of use
WO2018085779A1 (en) 2016-11-07 2018-05-11 Counsyl, Inc. Methods for assessing genetic variant screen performance

Also Published As

Publication number Publication date
JP2021527250A (ja) 2021-10-11
EP3803879A1 (en) 2021-04-14
JP2024069550A (ja) 2024-05-21
WO2019236420A1 (en) 2019-12-12
AU2019280571A1 (en) 2021-01-07
EP3803879A4 (en) 2022-10-05
AU2019280571B2 (en) 2024-06-20
AU2024219901A1 (en) 2024-10-10
US20210246493A1 (en) 2021-08-12
JP7488772B2 (ja) 2024-05-22

Similar Documents

Publication Publication Date Title
JP7735457B2 (ja) コピー数バリアントコーラ
JP7385686B2 (ja) 無細胞核酸の多重解像度分析のための方法
AU2024219712A1 (en) Interpretation of genetic and genomic variants via an integrated computational and experimental deep mutational learning framework
JP6987786B2 (ja) がんの進化の検出および診断
CN112218957B (zh) 用于确定在无细胞核酸中的肿瘤分数的系统及方法
JP2023524722A (ja) 遺伝子の突然変異及び発現量を検出する方法及び装置
US20150310163A1 (en) System for genome analysis and genetic disease diagnosis
CN105648045B (zh) 确定胎儿目标区域单体型的方法和装置
US20250087301A1 (en) Target-associated molecules for characterization associated with biological targets
KR101721480B1 (ko) 염색체 이상 검사 방법 및 시스템
CN105648043A (zh) 试剂盒及其在检测矮小相关基因中的用途
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
US20220108767A1 (en) Copy number variant caller
JP7775192B2 (ja) メチル化情報を用いた細胞源割合を推定するシステムおよび方法
WO2019242187A1 (zh) 检测染色体拷贝数异常的方法、装置和存储介质
CN109402131B (zh) 一种编码kansl1基因突变体的核酸及其应用
CN119301273A (zh) 用于诊断和管理遗传病的亲源疾病等位基因检测的方法和装置
Beyreli Multitask Learning of Gene Risk for Autism Spectrum Disorder and Intellectual Disability
WO2025250794A1 (en) Two-copy allele detection
Kvapilová The importance of different sources and sequencing protocols in increasing the accuracy of NGS analysis in diagnostic applications
CN120641574A (zh) 单分子链特异性的末端形态
Jang et al. Pangenome-based identification of cryptic pathogenic variants in undiagnosed rare disease patients
Krawczak Gene Mapping and Meiotic Recombination
CN115579049A (zh) 一种基于pdtx模型对抗肿瘤药物快速开发伴随诊断试剂的方法及应用
HK40080623A (en) Biterminal dna fragment types in cell-free samples and uses thereof

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240417

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250827

R150 Certificate of patent or registration of utility model

Ref document number: 7735457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150