HK40000214B

HK40000214B - Genetic multi-region joint detection and variant calling

Info

Publication number: HK40000214B
Application number: HK19123380.8A
Authority: HK
Inventors: Van Rooyen Pieter; Ruehle Michael; Mehio Rami; Stone Gavin; Hahm Mark; Ojard Eric; Ptashek Amnon
Original assignee: Illumina 公司
Priority date: 2016-06-07
Filing date: 2017-06-07
Publication date: 2022-06-02

Claims

Computer-implementiertes Verfahren zum gemeinsamen Aufrufen von Varianten in homologen Regionen, wobei das Verfahren Folgendes umfasst:
Identifizieren einer oder mehrerer homologer Regionen, um gemeinsam verarbeitet zu werden;

Laden eines gemeinsamen Pileups für die Regionen, die gemeinsam verarbeitet werden sollen;

Erzeugen einer Kandidatenvariantenliste aus dem gemeinsamen Pileup; und

Erzeugen einer Verbindungsmatrix, die eine Verarbeitungsreihenfolge der Kandidatenvariantenpositionen definiert;

für jede Kandidatenvariantenposition:
Erzeugen von gemeinsamen Kandidatendiplotypen, einschließlich der aktuellen Kandidatenvariantenposition,

Berechnen einer A-posteriori-Wahrscheinlichkeit P(G_m|R) von jedem der gemeinsamen Kandidatendiplotypen G_m im Hinblick auf das Pileup R,

Computing-Berechnen einer Genotypmatrix, die für jede Kandidatenvariante die Summe von A-posteriori-Wahrscheinlichkeiten aller gemeinsamen Diplotypen umfasst, welche die Variante unterstützen,

Entfernen von gemeinsamen Kandidatendiplotypen mit den niedrigsten A-posteriori-Wahrscheinlichkeiten,

Aufnehmen einer nächsten Kandidatenvariantenposition als Beweis für eine aktuelle Kandidatenvariantenposition und Wiederholen des Erzeugungs-, Berechnungs-, Computing-Berechnungs-, Entfernungs- und Aufnahmeschritts, bis ein Stoppkriterium erfüllt wird; und

Aufrufen der Kandidatenvariantenposition aus der finalen Genotypmatrix; und Ausgeben einer Variantenaufrufdatei.
Verfahren nach Anspruch 1, wobei das Identifizieren einer oder mehrerer homologer Regionen das Verwenden einer gemappten, alignierten und/oder sortierten Eingabenucleotidsequenz umfasst, die ein primäres Alignment und N sekundäre Alignments für jede alignierte Auslesung umfasst.
Verfahren nach Anspruch 1 oder 2, wobei das Laden eines gemeinsamen Pileups Folgendes umfasst:
Extrahieren von Referenzregionen für einen gegebenen Bereich, wobei die extrahierten Referenzregionen den identifizierten homologen Regionen entsprechen,

Smith-Waterman-Alignieren der Referenzregionen, um universelle Koordinaten zu erhalten,

Extrahieren aller entsprechenden Auslesungen und Mappen derselben in Bezug auf universelle Koordinaten unter Verwendung von Alignment-Informationen aus einer gemappten, alignierten und/oder sortierten Eingabenucleotidsequenzdatei.
Verfahren nach Anspruch 3, wobei die Alignment-Informationen CIGAR-Strings umfassen.
Verfahren nach einem der Ansprüche 1-4, wobei das Erzeugen einer Kandidatenvariantenliste aus dem gemeinsamen Pileup Folgendes umfasst: Verwenden eines De-Bruijn-Graphen zum Extrahieren von Kandidatenvarianten aus dem gemeinsamen Pileup, wobei Blasen im Graphen die Liste von Kandidaten angeben und wobei die Verwendung des De-Bruijn-Graphen anhand aller Auslesungen das Erzeugen des De-Bruijn-Graphen unter Verwendung jeder Referenzregion als ein Rückgrat und das Anordnen aller Kandidatenvariantenpositionen in Bezug auf universelle Koordinaten umfasst.
Verfahren nach einem der Ansprüche 1-5, wobei das Erzeugen der Verbindungsmatrix Folgendes umfasst: Definieren einer Verarbeitungsreihenfolge von Kandidatenvariantenpositionen, wobei die Reihenfolge eine Funktion der Ausleselänge und Insertionsgröße ist.
Verfahren nach Anspruch 5, wobei die Verwendung des De-Bruijn-Graphen zum Extrahieren von Kandidatenvarianten aus dem gemeinsamen Pileup Folgendes für jede der einen oder mehreren homologen Regionen umfasst:
Verwenden aller Auslesungen aus den Regionen, um gemeinsam verarbeitet zu werden, und der aktuellen Referenzregion als Rückgrat, um einen De-Bruijn-Graphen zu erzeugen,

Extrahieren von Blasen aus dem De-Bruijn-Graphen,

für jede Blase, Smith-Waterman-Alignieren eines alternativen Wegs zu einem Referenzrückgrat,

Extrahieren von Kandidatenvarianten aus dem Smith-Waterman-Alignment und Speichern von Vorgängen, welche die Kandidatenpositionen und Varianten umfassen, für den De-Bruijn-Graphen,

Heranziehen einer Union aller Kandidatenvorgänge aus allen De-Bruijn-Graphen für jede der einen oder mehreren homologen Regionen,

Entfernen aller doppelten Kandidatenvorgänge und

Mappen aller Kandidatenvarianten in Bezug auf ein universelles Koordinatensystem, um die Kandidatenvariantenliste zum Aufrufen von Kandidatenvarianten zu erstellen.
Verfahren nach einem der Ansprüche 1-7, wobei das Verfahren Folgendes umfasst:
Eingeben eines A-priori-Wahrscheinlichkeitsmodells;

Bestimmen, ob alle Kandidatenvariantenpositionen verarbeitet wurden;

wenn alle Kandidatenvariantenpositionen verarbeitet wurden, dann: Umwandeln einer finalen Genotypisierungsmatix in Ausgabevarianten in der Variantenaufrufdatei;

wenn nicht alle Kandidatenvariantenpositionen verarbeitet wurden, dann Bewerten einer ersten unverarbeiteten Kandidatenvariantenposition durch:
Erzeugen von gemeinsamen Diplotypkandidaten,

Berechnen der Wahrscheinlichkeiten der Auslesungen ri im Pileup im Hinblick auf jeden Haplotyp H_k in jedem gemeinsamen Kandidatendiplotyp P(ri|H_k) unter Verwendung eines verdeckten Markow-Modells,

ausgehend von den Wahrscheinlichkeiten, Berechnen einer bedingten Wahrscheinlichkeit für jede Auslesung P(ri|G_m) für jeden gemeinsamen Kandidatendiplotyp Gm,

ausgehend von der bedingten Wahrscheinlichkeit jeder Auslesung P(ri|G_m), Berechnen einer bedingten Wahrscheinlichkeit des Pileups P(R|G_m),

Berechnen einer A-posteriori-Wahrscheinlichkeit P(G_m|R) für jeden gemeinsamen Diplotypkandidaten ausgehend von dem beobachteten Pileup unter Verwendung von P(R|G_m) und der A-priori-Wahrscheinlichkeit P(G_m) des gemeinsamen Diplotypkandidaten gemäß dem A-priori-Wahrscheinlichkeitsmodell,

Berechnen einer intermediären Genotypmatrix aus P(G_m|R)Entfernen der gemeinsamen Diplotypkandidaten basierend auf der A-posteriori-Wahrscheinlichkeit,

Aktualisieren einer finalen Genotypmatrix basierend auf der Konfidenz für jede Variante,

Bestimmen, ob alle Kandidatenvariantenpositionen aufgenommen wurden, um einen Beweis für eine aktuelle Position bereitzustellen,

wenn nicht alle Kandidatenvariantenpositionen aufgenommen wurden, dann Aufnehmen einer nächsten Position aus der Verbindungsmatrix und Zurückkehren zum Erzeugen von gemeinsamen Diplotypkandidaten;

wenn alle Kandidatenvariantenpositionen aufgenommen wurden, dann Zurückkehren zum Bestimmen, ob alle Kandidatenvariantenpositionen verarbeitet wurden.
Verfahren nach Anspruch 5, wobei das Verwenden des De-Bruijn-Graphen zum Extrahieren von Kandidatenvarianten aus dem gemeinsamen Pileup Folgendes umfasst:
Setzen einer Zählung i auf null;

Bestimmen, ob die Zählung i niedriger als die Anzahl von Regionen ist, die gemeinsam verarbeitet werden sollen;

wenn die Zählung niedriger ist als die Anzahl von Regionen, die gemeinsam verarbeitet werden sollen, dann:
Verwenden aller Auslesungen aus den Regionen, die gemeinsam verarbeitet werden sollen, und der i.-ten Referenzregion als Rückgrat zum Erzeugen eines i.-ten De-Bruijn-Graphen,

Extrahieren von Blasen aus dem i.-ten De-Bruijn-Graphen,

für jede Blase, Smith-Waterman-Alignieren eines alternativen Wegs zu einem Referenzrückgrat,

Extrahieren von Kandidatenvarianten aus dem Smith-Waterman-Alignment und Speichern von Kandidatenvarianten für den i.-ten De-Bruijn-Graphen,

Erhöhen der Zählung i um eins und

Zurückkehren zur Bestimmung, ob die Zählung i niedriger ist als die Anzahl von Regionen, die gemeinsam verarbeitet werden sollen;

wenn die Zählung nicht niedriger ist als die Anzahl von Regionen, die gemeinsamen verarbeitet werden sollen, dann:
Heranziehen einer Union aller Kandidatenvorgänge aus allen De-Bruijn-Grafiken, Entfernen aller Duplikate,

Mappen aller Koordinatenvarianten in Bezug auf universelle Koordinaten, um die Kandidatenvariantenliste zum Aufrufen von Kandidatenvarianten zu erstellen.