JP7735457B2 - コピー数バリアントコーラ - Google Patents
コピー数バリアントコーラInfo
- Publication number
- JP7735457B2 JP7735457B2 JP2024042482A JP2024042482A JP7735457B2 JP 7735457 B2 JP7735457 B2 JP 7735457B2 JP 2024042482 A JP2024042482 A JP 2024042482A JP 2024042482 A JP2024042482 A JP 2024042482A JP 7735457 B2 JP7735457 B2 JP 7735457B2
- Authority
- JP
- Japan
- Prior art keywords
- copy number
- segment
- sequence
- segments
- mapped
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
本出願は、2018年6月6日に出願された米国仮特許出願第62/681,517号、および2018年9月20日に出願された米国仮特許出願第62/733,842号の優先権を主張し、これらの各々は、すべての表、図面、および特許請求の範囲を含めてその全体が本明細書に組み込まれる。
れたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、(ii)問い合わせされたセグメントの実際の配列リード数または合成の配列リード数を含む観測状態と、(iii)問い合わせされたセグメントの、期待される実際の配列リード数または合成の配列リード数に基づくコピー数尤度モデルと、を含む。いくつかの実施形態では、方法は、コピー数尤度モデルを決定することを含む。いくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、コピー数尤度モデルを、テストサンプルからの、問い合わせされたセグメントにマッピングされた実際の配列リード数にフィッティングするように調整することを含む。いくつかの実施形態では、コピー数尤度モデルは、2つ以上のコピー数状態の分布を含む。いくつかの実施形態では、コピー数尤度モデルは、負の二項分布を含み、負の二項分布は、ポアソン分布ではない。いくつかの実施形態では、期待される実際の配列リード数または合成の配列リード数は、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数と、テストサンプル内のセグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数、またはテストサンプル内の複数のセグメントにわたる代表値のマッピングされた配列リード数は、正規化された代表値である。いくつかの実施形態では、コピー数尤度モデルは、GC含量バイアスの存在を考慮するように調整される。いくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む。いくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む。いくつかの実施形態では、遷移確率は、コピー数バリアントの代表値の長さを考慮する。いくつかの実施形態では、遷移確率は、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する。いくつかの実施形態では、コピー数バリアントの代表値の長さ、または問い合わせされたセグメントでのコピー数バリアントの確率は、ヒト集団における観測に基づいて決定される。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、サンプル特異的な性能統計は、感度または精度である。
るための方法が記載されており、(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、(d)隠れマルコフモデルであって、(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。
複数の観測状態と、(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、(g)問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む。
定される。いくつかの実施形態では、1つ以上の捕捉プローブが偽物であると考慮することは、期待値最大化を使用することを含む。いくつかの実施形態では、捕捉プローブがスプリアスであると決定される場合、その捕捉プローブからの尤度情報は、コピー数尤度モデルで破棄される。
してパラメータ化することができる。いくつかの実施形態では、1次導関数勾配および2次導関数ヘッシアンは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれる。期待値最大化(EM)ステップを使用して、複数の最適化ループを含むことができるコピー数バリアントモデルパラメータを決定することができる。いくつかの実施形態では、EMは、CNVモデルをパラメータ化して、期待されるコピー数コールによって重み付けされた対数尤度を最大化する。
ントのコピー数コールを行うことを可能にする。隠れマルコフモデルはまた、交絡因子の様々なソースとレベルを考慮することができる。この方法は、関心領域内の問い合わせされたセグメントまたはサブセグメントのコピー数を決定するための、および関心領域内のコピー数バリアント異常を決定するための特に効果的かつ効率的なプロセスを可能にする。
記載された様々な実施形態の特性の1つ、いくつか、またはすべてを組み合わせて、本発明の他の実施形態を形成し得ることを理解されたい。本書で使用されるセクション見出しは、編成上の目的のみであり、記載された主題を限定するものとして解釈されないものとする。
本明細書で使用される場合、単数形「a」、「an」、および「the」は、文脈が明確に別段の指示をしない限り、複数形の言及を含む。
本開示は、セグメントの決定されたマッピングされた配列リード数に基づいて、関心領域の問い合わせされたセグメント(または問い合わせされたセグメントのサブセグメント)のコピー数、または関心領域内のコピー数バリアント異常を決定するための方法を提供する。方法は、1つ以上のコピー数状態の期待されるマッピングされた配列リード数に基づいてコピー数尤度モデルを決定することを含む。コピー数尤度モデルの1つ以上のパラメータの1次導関数勾配および2次導関数ヘッシアンを、期待値最大化(EM)と共に使用して、モデルの潜在パラメータ推定および最適化を可能にすることができる。1次導関数勾配および2次導関数ヘッシアンは、例えば、信頼領域ニュートン共役勾配アルゴリズムを使用して解くことができる。モデルへのいくつかの追加のステップおよび調整を使用して、コピー数とマッピングされた配列リード数との関係に影響を与える他の要因を考慮することができる。この情報を使用して、隠れマルコフモデルをパラメータ化し、次いで隠れマルコフモデルを使用して、問い合わせされたセグメントでの最も確率が高いコピー数状態を判定することができる。コピー数尤度モデル、期待値最大化実装、多数の要因を考慮したモデルの調整、隠れマルコフモデルのパラメータ化を構築するための方法、ならびに様々なステップおよびモデル全体を解決する方法が、以下に概して提供される。
れマルコフモデルが構築される。ステップ150で、好ましくは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれ得る、コピー数尤度モデルの1つ以上のパラメータの1次導関数勾配および2次導関数ヘッシアンを使用して、隠れマルコフモデルが、パラメータ化される。最も単純な形式では、隠れマルコフモデルは、コピー数状態と、コピー数尤度モデルによって決定される、コピー数状態と観測される配列リード数との間の遷移確率と、の少なくとも2つの未知のパラメータを含む。コピー数尤度モデルの1つ以上のパラメータの1次導関数勾配および2次導関数ヘッシアンを、期待値最大化と共に使用して、データの最適なフィッティングに基づいてこれらのパラメータを決定し(すなわち、モデルをパラメータ化し)、最も確率が高いコピー数を決定する。モデルでは、セグメントの最も確率が高いコピー数を決定するために、観測される配列リード数が与えられた場合にコピー数状態の確率を最大化することが望ましい。ステップ160で、セグメントの最も確率が高いコピー数状態が、決定される。このプロセスは、GC含量の偏り、セグメントと関連付けられた捕捉プローブのスプリアス性、遷移確率に影響を与える、ノイズが多いテスト配列ライブラリなどの、観測状態に影響を与える他の変数を考慮し得る。追加の変数は、潜在的なものとして扱われ、利用可能なデータが与えられた場合にEMによって決定される。次いで、遷移確率は、これらの他の変数を考慮して調整される。EMプロセスは、累積的(すべての変数を一度に調整する)であり得るか、または最も確率が高いコピー数状態を決定するためにHMMを解く前に、別個のEM反復で変数に順応することができる。
いくつかの実施形態では、本明細書に記載された方法は、テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントなどの1つ以上のセグメントにマッピングすることを含む。いくつかの実施形態では、本明細書に記載された方法は、テスト配列ライブラリから生成された複数の配列リードを複数のセグメント(空間的に隣接し得る)にマッピングすることを含み得、複数のセグメントは、問い合わせされたセグメントを含む。配列ライブラリは、直接標的配列などによって、関心領域について濃縮される。マッピングされた配列リードをカウントして、問い合わせされたセグメントまたは空間的に隣接するセグメントにマッピングされた配列リード数を決定することができる。
含む。
VPS13B、CYP11B1、CYP11B2、GLDC、DNAI1、GALT、RMRP、GNE、GRHPR、VPS13A、FANCC、XPA、ALDOB、FKTN、IKBKAP、ASS1、RS1、NR0B1、DMD、OTC、IL2RG、ATP7A、CHM、GLA、COL4A5、IDS、MTM1、ABCD1、またはそれらの組み合わせからなる群から選択される、遺伝子または遺伝子の一部分、エクソンまたはエクソンの一部分を含む。
領域のより効率的な高スループット配列が可能になる。この効率により、診断テストまたは画面の感度および特異性を維持または向上させながら、配列テスト配列ライブラリの全体的なコストが保たれる。捕捉プローブは、関心領域の一部分を内包する配列ライブラリ内のそれらの核酸分子が捕捉プローブにハイブリダイズして濃縮することができるように、関心領域に基づいて選択することができるのに対して、関心領域の一部分を内包しない、配列ライブラリ内のそれらの核酸分子は、捕捉プローブにハイブリダイズせず、濃縮されない。
コピー数尤度モデルは、セグメントのコピー数状態が与えられた場合に、セグメントでマッピングされた配列リード数を観測する尤度を決定するために使用することができる任意の統計モデルであり得る。初期コピー数尤度モデルは、モデルのパラメータが定義され
ているが、モデルを最適化する前であるモデルを指す。好ましい実施形態では、コピー数尤度モデルは、コピー数状態が与えられた場合に期待されるマッピングされた配列リード数の1つ以上の尤度分布を含む。すなわち、各尤度分布は、コピー数状態に対応する。例えば、コピー数尤度モデルは、1のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、2のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、3のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、および4のコピー数状態が与えられた場合の期待される配列リード数の尤度分布を含み得る。コピー数尤度モデルは、可能な各コピー数状態の尤度分布を含む必要はないが、少なくとも1つの尤度分布を含む。同様に、コピー数尤度モデルは、5の、6の、7の、または8のコピー数状態などの、4よりも大きいコピー数状態の分布を含み得る。いくつかの実施形態では、コピー数尤度モデルに含まれる分布は、ポアソン分布である。いくつかの実施形態では、コピー数尤度モデルに含まれる分布は、二項分布である。いくつかの実施形態では、コピー数尤度モデルは、負の二項分布を含む。例えば、いくつかの実施形態では、コピー数尤度モデルは、コピー数状態ci,jのテスト配列ライブラリj内の問い合わせされたセグメントiの期待されるマッピングされた配列リードについての1つ以上の負の二項分布(または負の二項分布がポアソン分布ではない1つ以上の負の二項分布)を含む。
μiは、Ns個の配列ライブラリにわたるセグメントiについての代表値のマッピングされた配列リード数であり、μjは、Np個のセグメントにわたるテスト配列ライブラリjについての代表値のマッピングされた配列リード数であり、ci,j・は、テスト配列ライブラリjのセグメントiでのコピー数状態であり、ki,jは、テスト配列ライブラリjのセグメントiでの決定された配列リード数であり、μiおよび/またはμjは、正規化される。
Y染色体上の遺伝子について、期待されるコピー数(すなわち、「野生型」)は1であると仮定するとよい。この関係を考慮すると、いくつかの実施形態では、任意の所与のコピー数状態のコピー数尤度分布は、代表値が中心に位置し、
隠れマルコフモデルは、マッピングされた配列リード数(観測状態)からの最も確率が高いコピー数(隠れた状態)の決定を可能にする。一般に、隠れマルコフモデルには、4つの主要なパラメータ、すなわち、1つ以上の隠れた状態、1つ以上の観測状態、隠れた状態から観測状態への1つ以上の放出確率、および隠れた状態間の遷移確率がある。本明細書では、隠れマルコフモデルを構築し、かつ隠れマルコフモデルをパラメータ化する方法が、提供される。また、本明細書では、不完全なデータセットを使用して隠れマルコフモデルをトレーニングする方法が、提供される。また、本明細書では、隠れマルコフモデルのパラメータを最適化して、隠れた状態と観測状態との間の放出確率に影響を与える変数を考慮することによって、隠れマルコフモデルを最適化する方法が、提供される。具体的には、以下では、隠れマルコフモデルの層に関する方法および説明、マルコフモデルの遷移確率、コピー数尤度モデル、期待値最大化を使用して、隠れマルコフモデルをパラメータ化すること、隠れマルコフモデルを調整して、潜在変数の数を考慮すること、隠れマルコフモデルを解くことが提供される。
グメントの最初のサブセグメントであるサブセグメント4に帰属する。C1、C2、C3、C4、C5、およびC6は、サブセグメントの各々の隠れた状態(コピー数)を表し、k1およびk4は、それぞれサブセグメント1およびサブセグメント4の観測される状態(配列リード数)を表す。サブセグメントの隠れた状態間の遷移確率は、p(c2|c1)、p(c3|c2)、p(c4|c3)、p(c5|c4)、およびp(c6|c5)によって識別される。サブセグメント1およびサブセグメント4のみが観測状態を含むため、サブセグメントのコピー数が与えられた場合のマッピングされた配列リード数の2つの確率、すなわち、p(k1|c1)およびp(k4|c4)のみが含まれる。
p(ki,j|ci,j)=NegBinom(ki,j|μc,i,j=ci,jμiμj;d=di)
のように定義することができ、ki,jは、テスト配列ライブラリjのセグメントiでのマッピングされた配列リード数である。
数バリアント確率をもたらし得る。いくつかの実施形態では、履歴集団は、約1000個以上の配列ライブラリ(例えば、約5000個以上、約10,000個以上、約25,000個以上、約50,000個以上、約100,000個以上、約250,000個以上、または約500,000個以上の配列ライブラリなど)を含む。問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの確率を考慮するために、確率的遷移行列の遷移は、
上述されたように、隠れマルコフモデルは、(i)1つ以上のセグメントまたはサブセグメント(少なくとも問い合わせされたセグメント、または問い合わせされたセグメントのサブセグメントを含む)に対応するコピー数を含む1つ以上の隠れた状態、(ii)1つ以上のセグメントにマッピングされた配列リード数を含む1つ以上の観測状態、および(iii)コピー数尤度モデルを含む。コピー数尤度モデルは、所与の隠れた状態についての観測状態を観測する確率(すなわち、p(ki,j|ci,j))を記述するために使用される。隠れマルコフモデルはまた、隠れた状態間の遷移確率を含み、これは、上述されたように固定または可変であり得る。
ルの期待される確率を決定する、EMプロセスの期待値ステップに使用される。バウムウェルチアルゴリズムは、セグメントiでの所与のマッピングされた配列リード数に対するセグメントiでのコピー数状態の確率である事後確率α(ci|k[0,i])と、セグメントiでの所与のコピー数状態に対する下流の空間的に隣接するセグメントI~Iのマッピングされた配列リード数の確率である尤度β(k[i,I]|ci)と、を使用する。バウムウェルチアルゴリズムは、当業者に知られている方法を使用して解くことができる。
関心領域のセグメントまたはセグメントに対応する捕捉プローブのGC含有量は、例えば捕捉プローブのハイブリダイゼーション効率の違いに起因して、セグメントにマッピングされた配列リード数に影響を与え得る。したがって、GC含有量によっては、捕捉プローブは、セグメントでのコピー数状態に関係なく、セグメントにマッピングされた配列リード数に強い影響を及ぼし得る。このGC含量バイアスは、周知であり、当技術分野に記載されている。本明細書に記載された方法のいくつかの実施形態では、セグメントのコピー数を決定するときに、GC含量バイアスが考慮される。GC含量バイアス補正は、コピー数バリアントを決定するいずれの方法にも有用であり得、直接ターゲット配列でのみ使用される必要はない。例えば、いくつかの実施形態では、GC含量バイアスは、関心領域内のセグメントのコピー数を決定するときに補正され、配列ライブラリは、ハイブリッド捕捉技術を使用して濃縮される。これに加えて、GC含量バイアスを補正するための方法は、隠れマルコフモデルを使用してコピー数を決定する方法に限定される必要はないが、GC含量バイアスは、コピー数尤度モデルの使用を含む任意の方法について補正され得る。
gi,j=a+b(GC)+c(GC)2
を使用してフィッティングすることができ、gi,jは、複数のセグメントのテスト配列ライブラリjのセグメントiに特異的なGCバイアス補正係数であり、(GC)は、GC含量であり、a、b、およびcは、2次フィッティングによって決定される定数である。
μc,i,j=ci,jμiμjgi,j
さらに、コピー数尤度モデルは、
p(ki,j|ci,j)=NegBinom(ki、j|μc,i,j=ci,jμiμjgi,j,d)
のように定式化することができ、ki,jは、テストライブラリj内のセグメントiでの配列リード数を指し、dは、di、dj、またはdi,jである。
せされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。
関心領域内のセグメントを濃縮するために使用される特定の捕捉プローブは、スプリアス結果を生成し得る。例えば、スプリアス捕捉プローブによって生成された配列リード数は、セグメントの濃縮が不足しているか、または過剰であるかのいずれかによって、対応するセグメントのコピー数と一致しない場合がある。これらのスプリアス結果は、例えば、捕捉プローブの設計、または捕捉プローブがハイブリダイズするように設計された配列内の配列バリアント(例えば、SNP)に起因して発生し得る。スプリアス捕捉プローブは、マッピングされた配列リード数に影響を与え、コピー数尤度モデルおよびパラメータを人為的に交絡させ得る。したがって、スプリアス捕捉プローブを考慮することが望ましい。スプリアス捕捉プローブは、直接標的配列捕捉プローブである必要はなく、同様の方法が、テスト配列ライブラリを濃縮するために使用される捕捉プローブに適用され得る(ハイブリッド捕捉技術など)。捕捉プローブが、スプリアス捕捉プローブであるかどうかの判定は、EMを使用して行うことができる。例えば、捕捉プローブが、スプリアスであるかどうかの判定は、期待値ステップ中に行うことができ、捕捉プローブがスプリアスである確率がEMの反復中に変化すると、最大化ステップも変化することとなり、当該最大化ステップは、捕捉プローブのスプリアス性を新たに考慮に入れた、セグメントの最も確からしいコピー数状態を決定する。捕捉プローブが、スプリアス捕捉プローブであると判定される場合、期待値最大化プロセス中に、コピー数状態のセグメントのマッピングされた配列リード数の確率が、1に設定される。確率を定数に設定することによって、スプリアス捕捉プローブは追加の情報を提供せず、したがって、モデルがパラメータ化される際にスプリアス捕捉プローブは考慮されないため、モデルがスプリアス捕捉プローブを効率的に破棄することが可能になる。捕捉プローブのスプリアス性の判定は、例えば、捕捉プローブが何回かのEMサイクル後にスプリアスであるかどうかを判定することによって反復され得る。
スである確率を判定する。ベルヌーイ過程は、捕捉プローブのいくつかまたはすべてに適用され得る。すなわち、各捕捉プローブについて、そのスプリアス性が、独立して判定される。捕捉プローブiについて、インジケータ変数biが、導入され、式中、1は、捕捉プローブtがスプリアスであることを意味し、0は、捕捉プローブがスプリアスではないことを意味する。
間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、を含む、隠れマルコフモデルをパラメータ化することと、(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。
テスト配列ライブラリの調製中に、いくつかのステップが、多数の捕捉プローブにわたって「ノイズ」になりやすくなるテスト配列ライブラリの核酸をもたらし得る。このことは、一貫性がないデータおよび多数の誤検出をもたらす。図6Aは、ノイズが少ないテスト配列ライブラリの例を示し、図6Bは、2つの配列ライブラリが、同じ捕捉プローブライブラリを使用して濃縮された場合でも、ノイズがより多いテスト配列ライブラリの例を示す。ノイズは、例えば、テスト配列ライブラリの調製または配列中に導入され得、テストサンプルからの核酸の単離、配列ライブラリの格納、またはテストサンプルから単離された核酸の断片化が、オリゴヌクレオチドの完全性を損なう可能性があり、このことは、ひいてはオリゴヌクレオチドの方法に影響を与える可能性がある。
d=di*dj
配列ライブラリノイズに起因する分散と捕捉プローブノイズへの分散とは、いくつかの実施形態では、例えば、次の加算により結合され得る。
特定の態様では、本明細書に記載された方法を使用して、コピー数バリアント画面またはコピー数バリアントモデルのサンプル特異的な性能を評価する。合成のコピー数バリアントは、テストサンプルからの実際の配列リードを使用してインシリコで生成される。したがって、合成のコピー数バリアントは、サンプル特異的である。コピー数バリアントモデルは、コピー数バリアントモデルパラメータを決定するために、テストサンプルの関心領域内のセグメントにマッピングされた実際の配列リード数を使用してパラメータ化される。合成のコピー数バリアントは、テストサンプルに基づき、かつ決定されたコピー数バリアントモデルパラメータは、サンプル特異的であるため、決定されたサンプル特異的なコピー数バリアントモデルパラメータは、合成のコピー数バリアント内のセグメントのコ
ピー数をコールするためにコピー数バリアントコーラによって使用される。
面の性能を反映する。したがって、(複数の実際のサンプルに基づくことができる)合成のコピー数バリアントのより大きい多様性は、コピー数バリアントモデルの性能を特性化するより正確な性能統計を提供する。
領域の3つのコピーを有する。いくつかの実施形態では、合成の配列リード数は、実際の配列リード数に係数(例えば、コピー数を2~3に増加させるための1.5、またはコピー数を2~1に減少させるための0.5)を乗算することによって、生成される。いくつかの実施形態では、合成の配列リード数は、配列リード数(関心領域内のすべてのセグメントに対応する代表値の実際の配列リード数の50%など)を実際の配列リード数に加算(または減算)することによって、生成される。いくつかの実施形態では、配列リード数は、関心領域の単一のコピーが、正規化された配列リード数(例えば、0.5)によって表され、かつ関心領域の2つのコピーが、正規化された配列リード数(例えば、1)によって表されるように、正規化される(例えば、以下に記載されるように)。したがって、いくつかの実施形態では、正規化された配列リード数(0.5など)が、正規化された配列リード数に追加されて、合成のコピー数バリアントのコピー数を増加させ、正規化された配列リード数(0.5など)が、正規化された配列リード数に減算されて、合成のコピー数バリアントのコピー数を減少させる。好ましくは、実際の配列リード数が、増加または減少されて、合成の配列コピー数を生成して、所定の数(整数または非整数であり得る)のセグメントのコピー(セグメントの1つ以上、2つ以上、3つ以上、4つ以上、または5つ以上のコピーなど)を有する合成のコピー数バリアントを表す。
リード数
例えば、関心領域(または関心領域のセグメント)の1つのコピーを有する合成のコピー数バリアントについて、合成の配列リード数は、1/2に等しい成功確率と実際の配列数に等しい試行数とを有する、関心領域(または関心領域のセグメント)の2つのコピーを
有するテストサンプルからの実際の配列リードの二項分布からサンプリングすることによって生成することができる。すなわち、
ための、セグメントの2つのコピーを有するテストサンプルからの実際の配列リードの二項サンプリングを例示する。例示された例では、5つのテストサンプルを使用して5つの合成のコピー数バリアントを生成するが、複数は、任意のテストサンプル数および合成のコピー数バリアントを含むことができる。例示された例では、各テストサンプルは、100の実際の配列リード数を含むが、配列リードの分布が確からしいことが理解される。二項分布は、1/2に等しい成功確率で各テストサンプルに対してサンプリングされる。成功は、セグメントの第1のコピーを表し、失敗は、第2のコピーを表す。成功した配列リード(つまり、第1のコピーを表すもの)数は、合成のコピー数バリアントの合成の配列リード数に等しい。
数に加算する。すなわち、
いくつかの実施形態では、本明細書に記載された方法は、コンピュータシステム上で実行されるプログラムによって実装される。図11は、問い合わせされたセグメントのコピー数をコールするか、またはコピー数バリアントモデルの性能を評価するための様々な例示的な方法を含む、上述のプロセスのいずれか1つを実行するように構成された例示的なコンピューティングシステム1100を描示する。コンピューティングシステム1100は、例えば、プロセッサ、メモリ、ストレージ、および入力/出力デバイス(例えば、モニタ、キーボード、ディスクドライブ、インターネット接続など)を含み得る。コンピューティングシステム1100は、プロセスのいくつかまたはすべての態様を実施するための回路機構または他の専用のハードウェアを含み得る。例えば、いくつかの実施形態では、コンピューティングシステムは、シーケンサ(超並列シーケンサなど)を含む。いくつかの動作設定では、コンピューティングシステム1100は、1つ以上のユニットを含むシステムとして構成され得、各ユニットは、ソフトウェア、ハードウェア、またはそれらの何らかの組み合わせのいずれかでプロセスのいくつかの態様を実施するように構成され
る。
以下の実施形態は、例示的なものであり、本発明を限定することを意図するものではない。
テストサンプルからの、関心領域内のセグメントにマッピングされた実際の配列リード数に基づいて、コピー数バリアントモデルをパラメータ化して、1つ以上のコピー数バリアントモデルパラメータを決定することと、
複数の合成のコピー数バリアントを生成することであって、各合成のコピー数バリアントが、セグメントのうちの1つ以上の合成のコピー数を含み、各合成のコピー数が、テストサンプルからの対応するセグメントの実際の配列リード数に基づく合成の配列リード数によって表される、生成することと、
コピー数バリアントモデル、および1つ以上の決定されたコピー数バリアントモデルパラメータを使用して、合成のコピー数バリアントの1つ以上のセグメントのコピー数をコールすることと、
コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアントコーラについてのサンプル特異的な性能統計を決定することと、
サンプル特異的な性能統計に基づいて、コピー数バリアントコーラのサンプル特異的な性能を評価することと、を含む、方法。
m/xに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい成功数と、での負の二項分布としての配列リード数をサンプリングすることであって、mが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、xが、テストサンプルからの対応するセグメントの仮定されたコピー数である、サンプリングすることと、
サンプリングされた配列リード数を、テストサンプルからの対応するセグメントの実際の配列リード数に加算することと、によって生成される、実施形態1~5のいずれか1つに記載の方法。
(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントの実際の配列リード数または合成の配列リード数を含む観測状態と、
(iii)問い合わせされたセグメントの、期待される実際の配列リード数または合成の配列リード数に基づくコピー数尤度モデルと、を含む、実施形態8に記載の方法。
、テストサンプルからの、問い合わせされたセグメントにマッピングされた実際の配列リード数にフィッティングするように調整することを含む、実施形態9または10に記載の方法。
(a)テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセ
グメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。
(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。
む、実施形態51に記載の方法。
(a)テスト配列ライブラリから生成された複数の配列リードを、関心領域内の問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数の
サブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、
(g)問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む、方法。
(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、
(g)問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む、方法。
(a)テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、1つ以上の捕捉プローブを使用して濃縮される、マッピングすることと、
(b)問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
(c)問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
(iii)コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、によって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。
(a)テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
(b)空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
(c)空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
(d)隠れマルコフモデルであって、
(i)空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
(ii)空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
(iii)空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
(e)各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、1つ以上のスプリアス捕捉プローブを考慮することと、を含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
(f)パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。
Claims (7)
- 関心領域内のコピー数バリアント異常を決定する方法であって、
(a)テスト配列ライブラリから生成された複数の配列リードを、前記関心領域内の問い合わせされたセグメントにマッピングするステップであって、前記テスト配列ライブラリは、1つ以上の直接標的配列捕捉プローブを使用して濃縮される、ステップと、
(b)前記問い合わせされたセグメントにマッピングされた配列リード数を決定するステップと、
(c)前記問い合わせされたセグメントにマッピングされた配列リードの期待される数に基づいて、コピー数尤度モデルを決定するステップと、
(d)隠れマルコフモデルであって、
(i)前記問い合わせされたセグメント、または前記問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む1つ以上の隠れた状態と、
(ii)問い合わせされたセグメントにマッピングされた前記配列リード数を含む観測状態と、
(iii)前記問い合わせされたセグメントのコピー数から、前記問い合わせされたセグメントに空間的に隣接するセグメントのコピー数に遷移する遷移確率と、
(iv)前記コピー数尤度モデルと
を含む、隠れマルコフモデルを構築するステップと、
(e)前記コピー数尤度モデルを調節して、前記問い合わせされたセグメントにマッピングされた決定された前記配列リード数にフィッティングするために、前記隠れマルコフモデルをパラメータ化するステップであって、前記隠れマルコフモデルは、前記コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、ステップと、
(f)パラメータ化された前記隠れマルコフモデルに基づいて、前記問い合わせされたセグメントの最も確率が高いコピー数を決定するステップと、および
(g)前記問い合わせされたセグメントの前記最も確率が高いコピー数に基づいて、コピー数バリアントの異常を決定するステップと、
を含む、方法。 - 関心領域内のコピー数バリアント異常を決定する方法であって、
(a)テスト配列ライブラリから生成された複数の配列リードを、空間的に隣接する複数のセグメントにマッピングするステップであって、前記空間的に隣接する複数のセグメントは問い合わせされたセグメントを含み、前記テスト配列ライブラリは、空間的に隣接する複数の直接標的配列捕捉プローブを使用して濃縮される、ステップと、
(b)空間的に隣接する各セグメントにマッピングされる配列リード数を決定するステップと、
(c)空間的に隣接する各セグメントにおいてマッピングされる配列リードの期待される数に基づいて、空間的に隣接する各セグメントについてコピー数尤度モデルを決定するステップと、
(d)隠れマルコフモデルであって、
(i)空間的に隣接する各セグメントまたは前記空間的に隣接する各セグメント内の複数のサブセグメントのコピー数を含む複数の隠れ状態と、
(ii)空間的に隣接する各セグメントにマッピングされた前記配列リード数を含む複数の観測状態と、
(iii)前記問い合わせされたセグメントのコピー数から、前記問い合わせされたセグメントに空間的に隣接するセグメントのコピー数に遷移する遷移確率と、および
(iv)空間的に隣接する各セグメントの前記コピー数尤度モデルと、
を含む、隠れマルコフモデルを構築するステップと、
(e)空間的に隣接する各セグメントにマッピングされた決定された前記配列リード数にフィッティングするように、各コピー数尤度モデルを調整することを含む、前記隠れマルコフモデルをパラメータ化するステップであって、前記隠れマルコフモデルは、前記コピー数尤度モデルでの1つ以上のパラメータの解析的な1次導関数勾配および2次導関数ヘッシアンを使用してパラメータ化される、ステップと、
(f)パラメータ化された前記隠れマルコフモデルに基づいて、前記問い合わせされたセグメントの最も確率が高いコピー数を決定するステップと、および
(g)前記問い合わせされたセグメントの前記最も確率が高いコピー数に基づいて、コピー数バリアントの異常を決定するステップと、
を含む方法。 - 前記コピー数尤度モデルの前記1つ以上のパラメータが、前記問い合わされたセグメントのマッピングされた配列リード数の分散(di)、前記問い合わされた前記セグメントの代表値のマッピングされた配列リード数(μi)、前記テスト配列ライブラリ内のセグメント全体のマッピングされた配列リード数の分散(dj)、または前記テスト配列ライブラリ内のセグメント全体の代表値のマッピングされた配列リード数(μj)を含む、請求項1または2に記載の方法。
- 前記関心領域内のセクションの最も確率が高いコピー数を決定することをさらに含み、前記セクションが、前記問い合わせされたセグメントを含む複数の空間的に隣接するセグメントを含み、前記コピー数尤度モデルが、2つ以上のコピー数状態の分布を含み、前記コピー数尤度モデルが、負の二項分布を含み、前記負の二項分布が、ポアソン分布ではなく、前記期待される配列リード数が、複数の配列ライブラリにわたる対応するセグメントでの代表値のマッピングされた配列リード数と、前記テスト配列ライブラリ内の複数の関心セグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数の配列ライブラリにわたる対応するセグメントでの前記代表値のマッピングされた配列リード数、または前記テスト配列ライブラリ内の複数の関心セグメントにわたる前記代表値のマッピングされた配列リード数が、正規化された代表値であり、前記コピー数尤度モデルが、GC含量バイアスの存在に基づいて調整され、前記調整が、前記問い合わせされたセグメントに対応する前記直接標的配列捕捉プローブのGC含量、または前記問い合わせされたセグメントの前記GC含量に依存する、請求項1から3のいずれかに記載の方法。
- 前記遷移確率が、前記問い合わせされたセグメントまたは空間的に隣接するセグメントにおけるコピー数バリアントの代表値の長さまたはコピー数バリアントの事前確率を考慮し、前記コピー数バリアントの代表値の長さがヒト集団における観測に基づいて決定される、請求項1から4のいずれかに記載の方法。
- ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロを使用して、前記問い合わせされたセグメントの最も確率の高いコピー数を決定する、請求項1から5のいずれかに記載の方法。
- 前記セグメントの最も確率が高いコピー数の信頼度を決定することをさらに含む、請求項1から6のいずれかに記載の方法。
Applications Claiming Priority (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201862681517P | 2018-06-06 | 2018-06-06 | |
| US62/681,517 | 2018-06-06 | ||
| US201862733842P | 2018-09-20 | 2018-09-20 | |
| US62/733,842 | 2018-09-20 | ||
| PCT/US2019/034998 WO2019236420A1 (en) | 2018-06-06 | 2019-05-31 | Copy number variant caller |
| JP2020567795A JP7488772B2 (ja) | 2018-06-06 | 2019-05-31 | コピー数バリアントコーラ |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020567795A Division JP7488772B2 (ja) | 2018-06-06 | 2019-05-31 | コピー数バリアントコーラ |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024069550A JP2024069550A (ja) | 2024-05-21 |
| JP7735457B2 true JP7735457B2 (ja) | 2025-09-08 |
Family
ID=68770574
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020567795A Active JP7488772B2 (ja) | 2018-06-06 | 2019-05-31 | コピー数バリアントコーラ |
| JP2024042482A Active JP7735457B2 (ja) | 2018-06-06 | 2024-03-18 | コピー数バリアントコーラ |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020567795A Active JP7488772B2 (ja) | 2018-06-06 | 2019-05-31 | コピー数バリアントコーラ |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20210246493A1 (ja) |
| EP (1) | EP3803879A4 (ja) |
| JP (2) | JP7488772B2 (ja) |
| AU (2) | AU2019280571B2 (ja) |
| WO (1) | WO2019236420A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4413157A4 (en) * | 2021-10-08 | 2025-10-22 | Found Medicine Inc | METHODS AND SYSTEMS FOR DETECTING COPY NUMBER ALTERATIONS |
| CN118103525A (zh) * | 2021-10-08 | 2024-05-28 | 基金会医学公司 | 用于自动调用拷贝数改变的方法和系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016187051A1 (en) | 2015-05-18 | 2016-11-24 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
| WO2017172958A1 (en) | 2016-03-29 | 2017-10-05 | Regeneron Pharmaceuticals, Inc. | Genetic variant-phenotype analysis system and methods of use |
| WO2018085779A1 (en) | 2016-11-07 | 2018-05-11 | Counsyl, Inc. | Methods for assessing genetic variant screen performance |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2591433A4 (en) * | 2010-07-06 | 2017-05-17 | Life Technologies Corporation | Systems and methods to detect copy number variation |
| US8725422B2 (en) * | 2010-10-13 | 2014-05-13 | Complete Genomics, Inc. | Methods for estimating genome-wide copy number variations |
| US20140336950A1 (en) * | 2011-11-16 | 2014-11-13 | Univerisity of South Dakota | Clustering copy-number values for segments of genomic data |
| CA3057589A1 (en) * | 2017-03-24 | 2018-09-27 | Counsyl, Inc. | Copy number variant caller |
| CA3085739A1 (en) * | 2017-12-14 | 2019-06-20 | Ancestry.Com Dna, Llc | Detection of deletions and copy number variations in dna sequences |
-
2019
- 2019-05-31 AU AU2019280571A patent/AU2019280571B2/en active Active
- 2019-05-31 JP JP2020567795A patent/JP7488772B2/ja active Active
- 2019-05-31 WO PCT/US2019/034998 patent/WO2019236420A1/en not_active Ceased
- 2019-05-31 EP EP19814587.2A patent/EP3803879A4/en active Pending
-
2020
- 2020-12-03 US US17/111,272 patent/US20210246493A1/en active Pending
-
2024
- 2024-03-18 JP JP2024042482A patent/JP7735457B2/ja active Active
- 2024-09-19 AU AU2024219901A patent/AU2024219901A1/en active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016187051A1 (en) | 2015-05-18 | 2016-11-24 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
| WO2017172958A1 (en) | 2016-03-29 | 2017-10-05 | Regeneron Pharmaceuticals, Inc. | Genetic variant-phenotype analysis system and methods of use |
| WO2018085779A1 (en) | 2016-11-07 | 2018-05-11 | Counsyl, Inc. | Methods for assessing genetic variant screen performance |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021527250A (ja) | 2021-10-11 |
| EP3803879A1 (en) | 2021-04-14 |
| JP2024069550A (ja) | 2024-05-21 |
| WO2019236420A1 (en) | 2019-12-12 |
| AU2019280571A1 (en) | 2021-01-07 |
| EP3803879A4 (en) | 2022-10-05 |
| AU2019280571B2 (en) | 2024-06-20 |
| AU2024219901A1 (en) | 2024-10-10 |
| US20210246493A1 (en) | 2021-08-12 |
| JP7488772B2 (ja) | 2024-05-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7735457B2 (ja) | コピー数バリアントコーラ | |
| JP7385686B2 (ja) | 無細胞核酸の多重解像度分析のための方法 | |
| AU2024219712A1 (en) | Interpretation of genetic and genomic variants via an integrated computational and experimental deep mutational learning framework | |
| JP6987786B2 (ja) | がんの進化の検出および診断 | |
| CN112218957B (zh) | 用于确定在无细胞核酸中的肿瘤分数的系统及方法 | |
| JP2023524722A (ja) | 遺伝子の突然変異及び発現量を検出する方法及び装置 | |
| US20150310163A1 (en) | System for genome analysis and genetic disease diagnosis | |
| CN105648045B (zh) | 确定胎儿目标区域单体型的方法和装置 | |
| US20250087301A1 (en) | Target-associated molecules for characterization associated with biological targets | |
| KR101721480B1 (ko) | 염색체 이상 검사 방법 및 시스템 | |
| CN105648043A (zh) | 试剂盒及其在检测矮小相关基因中的用途 | |
| CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
| US20220108767A1 (en) | Copy number variant caller | |
| JP7775192B2 (ja) | メチル化情報を用いた細胞源割合を推定するシステムおよび方法 | |
| WO2019242187A1 (zh) | 检测染色体拷贝数异常的方法、装置和存储介质 | |
| CN109402131B (zh) | 一种编码kansl1基因突变体的核酸及其应用 | |
| CN119301273A (zh) | 用于诊断和管理遗传病的亲源疾病等位基因检测的方法和装置 | |
| Beyreli | Multitask Learning of Gene Risk for Autism Spectrum Disorder and Intellectual Disability | |
| WO2025250794A1 (en) | Two-copy allele detection | |
| Kvapilová | The importance of different sources and sequencing protocols in increasing the accuracy of NGS analysis in diagnostic applications | |
| CN120641574A (zh) | 单分子链特异性的末端形态 | |
| Jang et al. | Pangenome-based identification of cryptic pathogenic variants in undiagnosed rare disease patients | |
| Krawczak | Gene Mapping and Meiotic Recombination | |
| CN115579049A (zh) | 一种基于pdtx模型对抗肿瘤药物快速开发伴随诊断试剂的方法及应用 | |
| HK40080623A (en) | Biterminal dna fragment types in cell-free samples and uses thereof |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240417 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240417 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250325 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250625 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250805 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250827 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7735457 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |