[go: up one dir, main page]

HK40000214B - Genetic multi-region joint detection and variant calling - Google Patents

Genetic multi-region joint detection and variant calling Download PDF

Info

Publication number
HK40000214B
HK40000214B HK19123380.8A HK19123380A HK40000214B HK 40000214 B HK40000214 B HK 40000214B HK 19123380 A HK19123380 A HK 19123380A HK 40000214 B HK40000214 B HK 40000214B
Authority
HK
Hong Kong
Prior art keywords
candidate
read
alignment
reads
variant
Prior art date
Application number
HK19123380.8A
Other languages
English (en)
French (fr)
Chinese (zh)
Other versions
HK40000214A (en
Inventor
Van Rooyen Pieter
Ruehle Michael
Mehio Rami
Stone Gavin
Hahm Mark
Ojard Eric
Ptashek Amnon
Original Assignee
Illumina 公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina 公司 filed Critical Illumina 公司
Publication of HK40000214A publication Critical patent/HK40000214A/xx
Publication of HK40000214B publication Critical patent/HK40000214B/en

Links

Claims (9)

  1. Computer-implementiertes Verfahren zum gemeinsamen Aufrufen von Varianten in homologen Regionen, wobei das Verfahren Folgendes umfasst:
    Identifizieren einer oder mehrerer homologer Regionen, um gemeinsam verarbeitet zu werden;
    Laden eines gemeinsamen Pileups für die Regionen, die gemeinsam verarbeitet werden sollen;
    Erzeugen einer Kandidatenvariantenliste aus dem gemeinsamen Pileup; und
    Erzeugen einer Verbindungsmatrix, die eine Verarbeitungsreihenfolge der Kandidatenvariantenpositionen definiert;
    für jede Kandidatenvariantenposition:
    Erzeugen von gemeinsamen Kandidatendiplotypen, einschließlich der aktuellen Kandidatenvariantenposition,
    Berechnen einer A-posteriori-Wahrscheinlichkeit P(Gm|R) von jedem der gemeinsamen Kandidatendiplotypen Gm im Hinblick auf das Pileup R,
    Computing-Berechnen einer Genotypmatrix, die für jede Kandidatenvariante die Summe von A-posteriori-Wahrscheinlichkeiten aller gemeinsamen Diplotypen umfasst, welche die Variante unterstützen,
    Entfernen von gemeinsamen Kandidatendiplotypen mit den niedrigsten A-posteriori-Wahrscheinlichkeiten,
    Aufnehmen einer nächsten Kandidatenvariantenposition als Beweis für eine aktuelle Kandidatenvariantenposition und Wiederholen des Erzeugungs-, Berechnungs-, Computing-Berechnungs-, Entfernungs- und Aufnahmeschritts, bis ein Stoppkriterium erfüllt wird; und
    Aufrufen der Kandidatenvariantenposition aus der finalen Genotypmatrix; und Ausgeben einer Variantenaufrufdatei.
  2. Verfahren nach Anspruch 1, wobei das Identifizieren einer oder mehrerer homologer Regionen das Verwenden einer gemappten, alignierten und/oder sortierten Eingabenucleotidsequenz umfasst, die ein primäres Alignment und N sekundäre Alignments für jede alignierte Auslesung umfasst.
  3. Verfahren nach Anspruch 1 oder 2, wobei das Laden eines gemeinsamen Pileups Folgendes umfasst:
    Extrahieren von Referenzregionen für einen gegebenen Bereich, wobei die extrahierten Referenzregionen den identifizierten homologen Regionen entsprechen,
    Smith-Waterman-Alignieren der Referenzregionen, um universelle Koordinaten zu erhalten,
    Extrahieren aller entsprechenden Auslesungen und Mappen derselben in Bezug auf universelle Koordinaten unter Verwendung von Alignment-Informationen aus einer gemappten, alignierten und/oder sortierten Eingabenucleotidsequenzdatei.
  4. Verfahren nach Anspruch 3, wobei die Alignment-Informationen CIGAR-Strings umfassen.
  5. Verfahren nach einem der Ansprüche 1-4, wobei das Erzeugen einer Kandidatenvariantenliste aus dem gemeinsamen Pileup Folgendes umfasst: Verwenden eines De-Bruijn-Graphen zum Extrahieren von Kandidatenvarianten aus dem gemeinsamen Pileup, wobei Blasen im Graphen die Liste von Kandidaten angeben und wobei die Verwendung des De-Bruijn-Graphen anhand aller Auslesungen das Erzeugen des De-Bruijn-Graphen unter Verwendung jeder Referenzregion als ein Rückgrat und das Anordnen aller Kandidatenvariantenpositionen in Bezug auf universelle Koordinaten umfasst.
  6. Verfahren nach einem der Ansprüche 1-5, wobei das Erzeugen der Verbindungsmatrix Folgendes umfasst: Definieren einer Verarbeitungsreihenfolge von Kandidatenvariantenpositionen, wobei die Reihenfolge eine Funktion der Ausleselänge und Insertionsgröße ist.
  7. Verfahren nach Anspruch 5, wobei die Verwendung des De-Bruijn-Graphen zum Extrahieren von Kandidatenvarianten aus dem gemeinsamen Pileup Folgendes für jede der einen oder mehreren homologen Regionen umfasst:
    Verwenden aller Auslesungen aus den Regionen, um gemeinsam verarbeitet zu werden, und der aktuellen Referenzregion als Rückgrat, um einen De-Bruijn-Graphen zu erzeugen,
    Extrahieren von Blasen aus dem De-Bruijn-Graphen,
    für jede Blase, Smith-Waterman-Alignieren eines alternativen Wegs zu einem Referenzrückgrat,
    Extrahieren von Kandidatenvarianten aus dem Smith-Waterman-Alignment und Speichern von Vorgängen, welche die Kandidatenpositionen und Varianten umfassen, für den De-Bruijn-Graphen,
    Heranziehen einer Union aller Kandidatenvorgänge aus allen De-Bruijn-Graphen für jede der einen oder mehreren homologen Regionen,
    Entfernen aller doppelten Kandidatenvorgänge und
    Mappen aller Kandidatenvarianten in Bezug auf ein universelles Koordinatensystem, um die Kandidatenvariantenliste zum Aufrufen von Kandidatenvarianten zu erstellen.
  8. Verfahren nach einem der Ansprüche 1-7, wobei das Verfahren Folgendes umfasst:
    Eingeben eines A-priori-Wahrscheinlichkeitsmodells;
    Bestimmen, ob alle Kandidatenvariantenpositionen verarbeitet wurden;
    wenn alle Kandidatenvariantenpositionen verarbeitet wurden, dann: Umwandeln einer finalen Genotypisierungsmatix in Ausgabevarianten in der Variantenaufrufdatei;
    wenn nicht alle Kandidatenvariantenpositionen verarbeitet wurden, dann Bewerten einer ersten unverarbeiteten Kandidatenvariantenposition durch:
    Erzeugen von gemeinsamen Diplotypkandidaten,
    Berechnen der Wahrscheinlichkeiten der Auslesungen ri im Pileup im Hinblick auf jeden Haplotyp Hk in jedem gemeinsamen Kandidatendiplotyp P(ri|Hk) unter Verwendung eines verdeckten Markow-Modells,
    ausgehend von den Wahrscheinlichkeiten, Berechnen einer bedingten Wahrscheinlichkeit für jede Auslesung P(ri|Gm) für jeden gemeinsamen Kandidatendiplotyp Gm,
    ausgehend von der bedingten Wahrscheinlichkeit jeder Auslesung P(ri|Gm), Berechnen einer bedingten Wahrscheinlichkeit des Pileups P(R|Gm),
    Berechnen einer A-posteriori-Wahrscheinlichkeit P(Gm|R) für jeden gemeinsamen Diplotypkandidaten ausgehend von dem beobachteten Pileup unter Verwendung von P(R|Gm) und der A-priori-Wahrscheinlichkeit P(Gm) des gemeinsamen Diplotypkandidaten gemäß dem A-priori-Wahrscheinlichkeitsmodell,
    Berechnen einer intermediären Genotypmatrix aus P(Gm|R)Entfernen der gemeinsamen Diplotypkandidaten basierend auf der A-posteriori-Wahrscheinlichkeit,
    Aktualisieren einer finalen Genotypmatrix basierend auf der Konfidenz für jede Variante,
    Bestimmen, ob alle Kandidatenvariantenpositionen aufgenommen wurden, um einen Beweis für eine aktuelle Position bereitzustellen,
    wenn nicht alle Kandidatenvariantenpositionen aufgenommen wurden, dann Aufnehmen einer nächsten Position aus der Verbindungsmatrix und Zurückkehren zum Erzeugen von gemeinsamen Diplotypkandidaten;
    wenn alle Kandidatenvariantenpositionen aufgenommen wurden, dann Zurückkehren zum Bestimmen, ob alle Kandidatenvariantenpositionen verarbeitet wurden.
  9. Verfahren nach Anspruch 5, wobei das Verwenden des De-Bruijn-Graphen zum Extrahieren von Kandidatenvarianten aus dem gemeinsamen Pileup Folgendes umfasst:
    Setzen einer Zählung i auf null;
    Bestimmen, ob die Zählung i niedriger als die Anzahl von Regionen ist, die gemeinsam verarbeitet werden sollen;
    wenn die Zählung niedriger ist als die Anzahl von Regionen, die gemeinsam verarbeitet werden sollen, dann:
    Verwenden aller Auslesungen aus den Regionen, die gemeinsam verarbeitet werden sollen, und der i.-ten Referenzregion als Rückgrat zum Erzeugen eines i.-ten De-Bruijn-Graphen,
    Extrahieren von Blasen aus dem i.-ten De-Bruijn-Graphen,
    für jede Blase, Smith-Waterman-Alignieren eines alternativen Wegs zu einem Referenzrückgrat,
    Extrahieren von Kandidatenvarianten aus dem Smith-Waterman-Alignment und Speichern von Kandidatenvarianten für den i.-ten De-Bruijn-Graphen,
    Erhöhen der Zählung i um eins und
    Zurückkehren zur Bestimmung, ob die Zählung i niedriger ist als die Anzahl von Regionen, die gemeinsam verarbeitet werden sollen;
    wenn die Zählung nicht niedriger ist als die Anzahl von Regionen, die gemeinsamen verarbeitet werden sollen, dann:
    Heranziehen einer Union aller Kandidatenvorgänge aus allen De-Bruijn-Grafiken, Entfernen aller Duplikate,
    Mappen aller Koordinatenvarianten in Bezug auf universelle Koordinaten, um die Kandidatenvariantenliste zum Aufrufen von Kandidatenvarianten zu erstellen.
HK19123380.8A 2016-06-07 2017-06-07 Genetic multi-region joint detection and variant calling HK40000214B (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US62/347,080 2016-06-07
US62/399,582 2016-09-26
US62/414,637 2016-10-28
US15/404,146 2017-01-11
US62/462,869 2017-02-23
US62/469,442 2017-03-09
US15/497,149 2017-04-25

Publications (2)

Publication Number Publication Date
HK40000214A HK40000214A (en) 2020-02-07
HK40000214B true HK40000214B (en) 2022-06-02

Family

ID=

Similar Documents

Publication Publication Date Title
AU2022252718B2 (en) Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing
AU2022218629B2 (en) Bioinformatics Systems, Apparatuses, And Methods For Performing Secondary And/or Tertiary Processing
US12374427B2 (en) Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
WO2017214320A1 (en) Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing
US20250218542A1 (en) Bioinformatics Systems, Apparatuses, and Methods for Performing Secondary and/or Tertiary Processing
HK40072573B (en) Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
HK40109851A (en) Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
HK40072573A (en) Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
KR102906399B1 (ko) 2차 및/또는 3차 프로세싱을 수행하기 위한 생물정보학 시스템, 장치, 및 방법
HK40110250A (zh) 用於进行二级和/或三级处理的生物信息学系统、设备和方法
HK40000214B (en) Genetic multi-region joint detection and variant calling
NZ789147A (en) Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing
NZ789137A (en) Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing
NZ789149A (en) Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
KR20260012812A (ko) 2차 및/또는 3차 프로세싱을 수행하기 위한 생물정보학 시스템, 장치, 및 방법