[go: up one dir, main page]

BE1027035A1 - Depot van vingerafdruk-datastrings - Google Patents

Depot van vingerafdruk-datastrings Download PDF

Info

Publication number
BE1027035A1
BE1027035A1 BE20195077A BE201905077A BE1027035A1 BE 1027035 A1 BE1027035 A1 BE 1027035A1 BE 20195077 A BE20195077 A BE 20195077A BE 201905077 A BE201905077 A BE 201905077A BE 1027035 A1 BE1027035 A1 BE 1027035A1
Authority
BE
Belgium
Prior art keywords
fingerprint data
biological
sequence
data strings
deposit
Prior art date
Application number
BE20195077A
Other languages
English (en)
Other versions
BE1027035B1 (nl
Inventor
Hyfte Dirk Van
Ingrid Brands
Original Assignee
Biokey Bv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to BE20195077A priority Critical patent/BE1027035B1/nl
Application filed by Biokey Bv filed Critical Biokey Bv
Priority to EP23164752.0A priority patent/EP4250300A3/en
Priority to CN202080015463.9A priority patent/CN113454727A/zh
Priority to PCT/EP2020/053220 priority patent/WO2020161344A1/en
Priority to KR1020217027614A priority patent/KR102902195B1/ko
Priority to IL285393A priority patent/IL285393B2/en
Priority to EP20704821.6A priority patent/EP3881326B1/en
Priority to PCT/EP2020/053223 priority patent/WO2020161346A1/en
Priority to AU2020219429A priority patent/AU2020219429B2/en
Priority to US17/428,357 priority patent/US20220199199A1/en
Priority to EP20704823.2A priority patent/EP3921835A1/en
Priority to CN202080012591.8A priority patent/CN113454726B/zh
Priority to AU2020218104A priority patent/AU2020218104B2/en
Priority to JP2021546006A priority patent/JP7602264B2/ja
Priority to CA3129108A priority patent/CA3129108C/en
Priority to US17/428,478 priority patent/US20220254449A1/en
Priority to CA3129095A priority patent/CA3129095A1/en
Priority to KR1020217027414A priority patent/KR102614401B1/ko
Priority to JP2021569592A priority patent/JP7352985B2/ja
Publication of BE1027035A1 publication Critical patent/BE1027035A1/nl
Application granted granted Critical
Publication of BE1027035B1 publication Critical patent/BE1027035B1/nl
Priority to IL285443A priority patent/IL285443A/en
Priority to ZA2021/06381A priority patent/ZA202106381B/en
Priority to ZA2021/06380A priority patent/ZA202106380B/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Er is een depot van vingerafdruk-datastrings (100) geopenbaard. Elke vingerafdruk-datastring vertoont een kenmerkende biologische subsequentie. Het depot omvat ten minste een eerste vingerafdruk-datastring die een eerste kenmerkende biologische subsequentie van een eerste lengte voorstelt en een tweede vingerafdruk-datastring die een tweede kenmerkende biologische subsequentie van een tweede lengte voorstelt, waarbij de eerste en de tweede lengte gelijk zijn aan 4 of meer en waarbij de eerste en de tweede lengte van elkaar verschillen.

Description

Depot van vingerafdruk-datastrings Technisch gebied van de uitvinding De onderhavige uitvinding heeft betrekking op de hantering van biologische sequentie-informatie, bevattende bijvoorbeeld verwerking, opslag en vergelijking van genoemde biologische sequentie-informatie. Achtergrond van de uitvinding Biologische sequentiebepaling is de laatste decennia met steeds toenemende snelheid geëvolueerd en heeft in tussentijd het humane genoomproject mogelijk gemaakt, waardoor reeds meer dan 15 jaar geleden een volledige sequentiebepaling van het humane genoom werd verkregen. Om deze evolutie te bewerkstelligen was grote technische vooruitgang vereist, gaande van vooruitgang in staalbereidings- en sequentiebepalingswerkwijzen tot gegevensverwerving, -verwerking en -analyse. Tegelijkertijd werden nieuwe wetenschappelijke gebieden voortgebracht en ontwikkeld, waaronder genomica, proteomica en bio-informatica.
Gevoed door het belang van gegevensverwerving in het postgenomische tijdperk resulteerde deze evolutie in de accumulatie van enorme hoeveelheden sequentiegegevens. De mogelijkheid om deze sequentie te organiseren, analyseren en interpreteren, teneinde daaruit biologisch relevante informatie te onttrekken, werd steeds meer verwaarloosd. Dit probleem werd verder versterkt door de omvang van nieuwe sequentie-informatie, die nog steeds op dagelijkse basis wordt gegenereerd. Muir et al. stelden vast dat dit tot een paradigmaverschuiving leidt en becommentarieerden de resulterende veranderende kostenstructuur voor sequentiebepaling en andere daarmee gepaard gaande hindernissen (MUIR, Paul, et al. The real cost of sequencing: scaling computation to keep pace with data generation. Genome biology, 2016, 17.1: 53.).
Het verkrijgen van toegang tot, het analyseren of het gebruiken van sequentie- informatie op een betekenisvolle manier vereist over het algemeen de nood aan een vorm van sequentie-uitlijning en zoeken naar overeenkomst. Er is in de handel een enorme hoeveelheid computersoftware verkrijgbaar voor het uitvoeren van dergelijkeuitlijningen en zoekopdrachten naar sequentie-overeenkomst, bv. BLAST, PSI-BLAST; SSEARCH, FASTA, HMMER3. Niettegenstaande ontbreekt het de bekende algoritmes aan snelheid of praktische mogelijkheid om de grote hoeveelheid reeds bestaande gegevens te verwerken. Er werden ook pogingen ondernomen voor hardware- optimalisaties, zoals geopenbaard in US2006020397A1, maar deze hebben niet tot de noodzakelijke doorbraak geleid. De aanzet tot deze strijd is dat het probleem waarvoor een oplossing wordt gezocht van de NP-harde of NP-volledige aard is (NP = niet- deterministische polynomiale tijd); daardoor nemen de vereiste hulpbronnen exponentieel af als de moeilijkheid van de taak toeneemt (bv. met toenemende sequentielengte of met toenemend aantal sequenties die moeten worden vergeleken).
Er is dus in het vakgebied nog steeds nood aan manieren om op een efficiënte manier gebruik te maken van sequentie-informatie, waardoor de relevante informatie daarin kan worden onttrokken en gebruikt om een specifiek probleem op te lossen.
Samenvatting van de uitvinding Het is een doelstelling van de onderhavige uitvinding om een goede manier te verschaffen om biologische sequentie-informatie te behandelen. Deze doelstelling wordt bereikt door werkwijzen, inrichtingen en gegevensstructuren volgens de onderhavige uitvinding.
In een eerste aspect heeft de onderhavige uitvinding betrekking op een depot van vingerafdruk-datastrings, waarbij elke vingerafdruk-datastring een kenmerkende biologische subsequentie voorstelt, het depot omvattende ten minste een eerste vingerafdruk-datastring die een eerste kenmerkende biologische subsequentie van een eerste lengte voorstelt en een tweede vingerafdruk-datastring die een tweede kenmerkende biologische subsequentie van een tweede lengte voorstelt, waarbij de eerste en de tweede lengte gelijk zijn aan 4 of meer en waarbij de eerste en de tweede lengte van elkaar verschillen.
Het is een voordeel van uitvoeringsvormen van de onderhavige uitvinding dat een depot van vingerafdruk-datastrings die overeenkomen met kenmerkende biologische subsequenties kan worden verschaft. Het is een verder voordeel vanuitvoeringsvormen dat de biologische subsequenties niet van een enkele lengte moeten zijn, zoals het geval is bij bv. k-meren.
Het is een voordeel van uitvoeringsvormen van de onderhavige uitvinding dat verdere gegevens, bv. metagegevens, kunnen worden opgenomen in het depot, zoals gegevens over de eenheid (eenheden) die kunnen volgen of voorafgaan, bv. direct vóór of direct na, een kenmerkende biologische subsequentie, gegevens over de secundaire/tertiaire/quaternaire structuur van een kenmerkende biologische subsequentie, bv. wanneer genoemde kenmerkende biologische subsequentie aanwezig is in q-biopolymeer, gegevens over een verhouding tussen vingerafdrukken, bv. gegevens met betrekking tot een verhouding tussen de kenmerkende biologische subsequentie en één of meer verdere kenmerkende biologische subsequenties, enz.
De onderhavige uitvinding heeft ook betrekking op een opslaginrichting omvattende een depot van vingerafdruk-datastrings, zoals hoger beschreven.
Ze kan verder betrekking hebben op een verwerkingssysteem omvattende een dergelijke opslaginrichting en verder omvattende een verwerkingseenheid aangepast voor het verkrijgen van vingerafdruk-datastrings van de opslaginrichting en/of voor het opslaan van vingerafdruk-datastrings in de opslaginrichting en/of het zoeken in vingerafdruk- datastrings in de opslaginrichting.
De onderhavige uitvinding heeft ook betrekking op een computerprogrammaproduct omvattende instructies die, wanneer het programma wordt uitgevoerd door een computersysteem, het computersysteem aanzetten tot het uitvoeren van het verkrijgen, zoeken of opslaan van vingerafdruk-datastrings respectievelijk van, in of naar het depot van vingerafdruk-datastrings.
Er is een werkwijze beschreven voor verwerking van een biologische sequentie, omvattende: (a) het ophalen van één of meer vingerafdruk-datastrings uit het depot zoals gedefinieerd in elke uitvoeringsvorm van het eerste aspect, (b) het zoeken in de biologische sequentie naar het voorkomen van de kenmerkende biologische subsequenties voorgesteld door de één of meer vingerafdruk-datastrings, en (c) het construeren van een verwerkte biologische sequentie omvattende, voor elk voorkomen in stap b, een vingerafdrukmerker geassocieerd met de vingerafdruk- datastring die het voorkomen van de kenmerkende biologische subsequentie voorstelt.
Het is een voordeel van uitvoeringsvormen dat een biologische sequentie relatief gemakkelijk en efficiënt kan worden verwerkt. Het is een verder voordeel van uitvoeringsvormen van de onderhavige uitvinding dat een biologische sequentie kan worden geanalyseerd op een lexicale of zelfs een semantische manier.
Het is een voordeel van uitvoeringsvormen dat de verwerkte biologische sequentie kan worden geconstrueerd door het daarin vervangen van de geïdentificeerde kenmerkende biologische subsequenties door merkers die geassocieerd zijn met de overeenkomstige vingerafdruk-datastrings.
Het is een voordeel van uitvoeringsvormen dat de gedeelten van de biologische sequentie die niet overeenkomen met één van de kenmerkende biologische subsequenties op verschillende manieren kunnen worden gehanteerd. Het is een verder voordeel van sommige uitvoeringsvormen dat de biologische sequentie op een volledig verliesvrije manier kan worden verwerkt (d.w.z. er gaat geen informatie verloren door verwerking). Het is een verder voordeel van alternatieve uitvoeringsvormen van de onderhavige uitvinding dat de biologische sequentie kan worden verwerkt op een manier waarop de meer belangrijke informatie in een meer gecondenseerd formaat wordt gedistilleerd.
Het is een voordeel dat de verwerkte biologische sequenties kunnen worden gecomprimeerd zodat ze minder opslagruimte kunnen innemen dan hun niet- verwerkte tegenhangers.
Het is een voordeel van uitvoeringsvormen dat overeenkomstige gedeelten van de biologische sequentie ten opzichte van de kenmerkende biologische subsequenties niet uitsluitend wordt beperkt tot de primaire structuur, maar ook rekening kan houden met de secundaire/tertiaire/quaternaire structuur.
Het is een voordeel van uitvoeringsvormen dat een secundaire/tertiaire/quaternaire structuur van een biologische subsequentie ten minste gedeeltelijk kan worden toegelicht op basis van de bekende secundaire/tertiaire/quaternaire structuur van daarin opgenomen kenmerkende biologische subsequenties. Het is een verder voordeel van uitvoeringsvormen van de onderhavige uitvinding dat ontwerp van biologische sequentie (bv. eiwit) kan worden geholpen of vergemakkelijkt.
Er is een verwerkte biologische sequentie beschreven die kan worden verkregen door de werkwijze volgens één van de uitvoeringsvormen zoals hierboven beschreven.
In een vierde aspect is een werkwijze beschreven voor het opbouwen van een 5 depot van verwerkte biologische sequenties, omvattende het populeren van genoemd depot met verwerkte biologische sequenties zoals gedefinieerd in elke uitvoeringsvorm zoals hierboven beschreven. Het depot kan worden gecombineerd met het depot van vingerafdruk-datastrings.
Het is een voordeel van uitvoeringsvormen dat een depot van verwerkte biologische sequentie kan worden geconstrueerd en opgeslagen.
In een vijfde aspect is een depot van verwerkte biologische sequenties beschreven die kan worden verkregen door de werkwijze volgens elke uitvoeringsvorm van het vierde aspect.
Het is een voordeel van uitvoeringsvormen dat het depot van verwerkte biologische sequenties snel kan worden doorzocht en genavigeerd. Het is een verder voordeel dat de opslaggrootte van het depot relatief klein kan zijn in vergelijking met de bekende databanken door ze te populeren met gecomprimeerde verwerkte biologische sequenties.
In een zesde aspect is een werkwijze beschreven voor het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, omvattende: (a) het verwerken van de eerste biologische sequentie door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect om een eerste verwerkte biologische sequentie te verkrijgen, of het ophalen van de eerste verwerkte biologische sequentie uit een depot zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect, (b) het verwerken van de tweede biologische sequentie door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect om een tweede verwerkte biologische sequentie te verkrijgen, of het ophalen van de tweede verwerkte biologische sequentie uit een depot zoals gedefinieerd in elke bovenstaande uitvoeringsvorm, en (c) het vergelijken van ten minste de vingerafdrukmerkers in de eerste verwerkte biologische sequentie met de vingerafdrukmerkers in de tweede verwerkte biologische sequentie.
Het is een voordeel van uitvoeringsvormen van de onderhavige uitvinding dat de vergelijking van biologische sequenties kan worden veranderd van een NP-volledig of NP-hard probleem naar een polynomiale-tijd probleem. Het is een verder voordeel van uitvoeringsvormen dat vergelijking kan worden uitgevoerd in een sterk verminderde tijd en goed schaalbaar is met toenemende complexiteit (bv. toenemende lengte van of aantal biologische sequenties). Het is nog een verder voordeel van uitvoeringsvormen van de onderhavige uitvinding dat het vereiste computervermogen en opslagruimte kunnen worden gereduceerd. Het is een voordeel van uitvoeringsvormen dat een graad van overeenkomst tussen biologische sequenties kan worden berekend. Het is een verder voordeel van uitvoeringsvormen dat een veelheid aan biologische sequenties kan worden gerangschikt op basis van de graad van overeenkomst.
Het is een voordeel dat een zoekopdracht naar sequentie-overeenkomst snel en gemakkelijk kan worden uitgevoerd (bv. in polynomiale tijd).
In een zevende aspect wordt een werkwijze voor het uitlijnen van een eerste biologische sequentie naar een tweede biologische sequentie beschreven, omvattende het uitvoeren van de werkwijze volgens een uitvoeringsvorm zoals hierboven beschreven, waarbij stap c verder het uitlijnen van de vingerafdrukmerkers in de eerste verwerkte biologische sequentie met de vingerafdrukmerkers in de tweede verwerkte biologische sequentie omvat.
Het is een voordeel van uitvoeringsvormen dat vergeleken biologische sequenties gemakkelijk en snel kunnen worden uitgelijnd (bv. in polynomiale tijd).
Het is een voordeel van uitvoeringsvormen dat ook een veelheid aan sequenties gemakkelijk en snel kunnen worden vergeleken en uitgelijnd. Het is een verder voordeel van uitvoeringsvormen dat er geen accumulatie van fouten is tijdens de uitlijning, zoals het geval is bij huidige bekende werkwijzen (bv. op basis van progressieve uitlijning).
In een achtste aspect is een werkwijze voor het uitvoeren van een sequentiesamenstelling beschreven, omvattende: (a) het verschaffen van een eerste biologische sequentie, waarbij de eerste biologische sequentie een biologische sequentie van een eerste biopolymeerfragment is, (b) het verschaffen van een tweedebiologische sequentie, waarbij de tweede biologische sequentie ofwel een biologische sequentie van een tweede biopolymeerfragment, ofwel een referentie-biologische sequentie is, (c) het uitlijnen van de eerste biologische sequentie met de tweede biologische sequentie door middel van de werkwijze volgens elke uitvoeringsvorm van het zevende aspect, en (d) het samenvoegen van de eerste biologische sequentie met de tweede biologische sequentie om een samengestelde biologische sequentie te verkrijgen.
Het is een voordeel van uitvoeringsvormen dat sequenties van biopolymeerfragmenten gemakkelijk en snel kunnen worden uitgelijnd en samengevoegd om de originele biopolymeersequentie te reconstrueren.
In een negende aspect is een systeem beschreven dat middelen omvat voor het uitvoeren van de werkwijze volgens elke uitvoeringsvorm zoals hierboven beschreven.
Het is een voordeel van uitvoeringsvormen dat de werkwijzen kunnen worden uitgevoerd door een waaier aan systemen en inrichtingen, zoals computer-gebaseerde systemen of een sequencer, afhankelijk van de toepassing. Het is een verder voordeel van uitvoeringsvormen van de onderhavige uitvinding dat de werkwijzen kunnen worden uitgevoerd door een computer-gebaseerd systeem, inclusief een cloud- gebaseerd systeem.
In een tiende aspect is een computerprogrammaproduct beschreven omvattende instructies die, wanneer het programma wordt uitgevoerd door een computersysteem, het computersysteem aanzet tot het uitvoeren van de werkwijze volgens elke hoger beschreven uitvoeringsvorm.
In een elfde aspect is een computerleesbaar medium beschreven omvattende instructies die, wanneer uitgevoerd door een computersysteem, het computersysteem aanzet tot het uitvoeren van de werkwijze volgens elke hoger beschreven uitvoeringsvorm.
In een twaalfde aspect is een gebruik van een bibliotheek van biologische sequentie-vingerafdrukken zoals gedefinieerd in elke uitvoeringsvorm van het eerste aspect beschreven, voor één of meer gekozen uit: het verwerken van een biologische sequentie, het bouwen van een depot van verwerkte biologische sequenties, het vergelijken van een eerste biologische sequentie met een tweede biologischesequentie, het uitlijnen van een eerste biologische sequentie met een tweede biologische sequentie, het uitvoeren van een meervoudige sequentie-uitlijning, het uitvoeren van een zoekopdracht naar sequentie-overeenkomst en het uitvoeren van een variant-calling.
In een dertiende aspect is een gebruik van een verwerkte biologische sequentie zoals gedefinieerd in elke bovenstaande uitvoeringsvorm beschreven voor een gebruik van een bibliotheek van verwerkte biologische sequenties zoals gedefinieerd in elke bovenstaande uitvoeringsvorm, voor één of meer gekozen uit: het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, het uitlijnen van eeneerste biologische sequentie met een tweede biologische sequentie, het uitvoeren van een meervoudige sequentie-uitlijning, het uitvoeren van een zoekopdracht naar sequentie-overeenkomst en het uitvoeren van een variant-calling.
Specifieke en te verkiezen aspecten van de uitvinding zijn opgenomen in de bijbehorende onafhankelijke en afhankelijke conclusies. Kenmerken van de afhankelijke conclusies kunnen worden gecombineerd met kenmerken van de onafhankelijke conclusies en met kenmerken van andere afhankelijke conclusies zoals gepast en niet louter zoals expliciet opgenomen in de conclusies.
Hoewel er op dit gebied constante verbetering, verandering en evolutie van inrichtingen werd verschaft, worden de onderhavige concepten verondersteld substantiële nieuwe en vernieuwende verbeteringen voor te stellen, inclusief afwijkingen van vorige praktijken, dat resulteert in het verschaffen van meer efficiënte, stabiele en betrouwbare apparaten van deze aard.
De bovenstaande en andere kenmerken, eigenschappen en voordelen van de onderhavige uitvinding worden duidelijk uit de volgende gedetailleerde beschrijving, samen genomen met de bijbehorende tekeningen, die, bij wijze van voorbeeld, de principes van de uitvinding illustreren. Deze beschrijving wordt uitsluitend gegeven als voorbeeld, zonder de doelstelling van de uitvinding te beperken. De hieronder opgegeven referentiefiguren verwijzen naar de bijgevoegde tekeningen.
Korte beschrijving van de tekeningen Figuren 1 en 2 zijn grafieken die verwachte progressie tonen die mogelijk is gemaakt door uitvoeringsvormen van de onderhavige uitvinding.
Figuren3 tot5 zijn diagrammen die systemen afbeelden volgens uitvoeringsvormen van de onderhavige uitvinding.
Figuren 6 en 9 zijn grafieken die de totale lengte van zoekresultaten vergelijken aan de hand van, enerzijds, een werkwijze uit de voorgaande stand der techniek (stippellijn) en, anderzijds, een werkwijze volgens kenschetsende uitvoeringsvormen van de onderhavige uitvinding (ononderbroken lijn).
Figuren 7 en 10 zijn grafieken die de Levenshtein-afstand van zoekresultaten vergelijken aan de hand van, enerzijds, een werkwijze uit de voorgaande stand der techniek (stippellijn) en, anderzijds, een werkwijze volgens kenschetsende uitvoeringsvormen van de onderhavige uitvinding (ononderbroken lijn).
Figuren 8 en 11 zijn grafieken die de langste gezamenlijke substring van zoekresultaten vergelijken aan de hand van, enerzijds, een werkwijze uit de voorgaande stand der techniek (stippellijn) en, anderzijds, een werkwijze volgens kenschetsende uitvoeringsvormen van de onderhavige uitvinding (ononderbroken lijn).
In de verschillende figuren verwijzen dezelfde referentietekens naar dezelfde of analoge elementen.
Beschrijving van illustratieve uitvoeringsvormen De onderhavige uitvinding wordt beschreven met betrekking tot specifieke uitvoeringsvormen en met verwijzing naar bepaalde tekeningen, maar de uitvinding is niet beperkt daartoe maar alleen tot de conclusies. De beschreven tekeningen zijn louter schematisch en niet beperkend. In de tekeningen kan de grootte van sommige van de elementen overdreven zijn en niet op schaal zijn getekend voor illustratieve doeleinden. De dimensies en de relatieve dimensies komen niet overeen met werkelijke reducties voor de praktijk van de uitvinding.
Verder worden de termen eerste, tweede, derde en dergelijke in de beschrijving en in de conclusies, gebruikt voor het maken van onderscheid tussensoortgelijke elementen en niet noodzakelijk voor het beschrijven van een reeks, hetzij in tijd, ruimte, rangorde of op enige andere wijze. Het is duidelijk dat de aldus gebruikte termen onder gepaste omstandigheden onderling verwisselbaar zijn en dat de hierin beschreven uitvoeringsvormen van de uitvinding kunnen werken in andere volgorden dan hierin beschreven of geïllustreerd.
Bovendien worden de termen voor, na en dergelijke in de beschrijving en de conclusies gebruikt voor descriptieve doeleinden en niet noodzakelijk voor het beschrijven van relatieve posities. Het is duidelijk dat de aldus gebruikte termen onder gepaste omstandigheden onderling verwisselbaar zijn met hun antoniemen en dat de hierin beschreven uitvoeringsvormen van de uitvinding kunnen werken in andere oriëntaties dan hierin beschreven of geïllustreerd.
Het dient vermeld dat de term ‘omvattende’, gebruikt in de conclusies, niet mag worden geïnterpreteerd als zijnde beperkt tot de daarna opgesomde middelen; het sluit geen andere elementen of stappen uit. Het moet dus worden geïnterpreteerd als specificerend voor de aanwezigheid van de vermelde kenmerken, gehele getallen, stappen of componenten waarnaar wordt verwezen, maar sluit de aanwezigheid of toevoeging van één of meer andere kenmerken, gehele getallen, stappen of componenten, of groepen daarvan, niet uit. De term ‘omvattende’ dekt daarom de situatie waarin alleen de genoemde kenmerken aanwezig zijn en de situatie waarin deze kenmerken en één of meer andere kenmerken aanwezig zijn. De bedoeling van de uitdrukking ‘een inrichting omvattende middelen A en B’ mag dus niet worden geïnterpreteerd als zijnde beperkt tot inrichtingen die alleen bestaan uit componenten A en B. Dit betekent dat met betrekking tot de onderhavige uitvinding de enige relevante componenten van de inrichting A en B zijn.
Verwijzing doorheen deze specificatie naar ‘een bepaalde uitvoeringsvorm’ of ‘een uitvoeringsvorm’ betekent dat een specifieke eigenschap, structuur of kenmerk beschreven met betrekking tot de uitvoeringsvorm is opgenomen in ten minste één uitvoeringsvorm van de onderhavige uitvinding. De opnamen van de uitdrukkingen ‘in een bepaalde uitvoeringsvorm’ of ‘in een uitvoeringsvorm’ op diverse plaatsen doorheen deze specificatie verwijzen niet noodzakelijk allemaal naar dezelfde uitvoeringsvormen, maar kunnen dat wel. Verder kunnen de specifieke eigenschappen,
structuren of kenmerken op elke geschikte manier worden gecombineerd, zoals uit deze openbaring duidelijk is voor eenieder die is onderlegd in het vakgebied, in één of meer uitvoeringsvormen.
Evenzo dient het duidelijk te zijn dat in de beschrijving van de kenschetsende uitvoeringsvormen van de uitvinding diverse kenmerken van de uitvinding soms samen worden gegroepeerd in een enkele uitvoeringsvorm, figuur, of beschrijving daarvan voor het stroomlijnen van de openbaring en helpen bij het verkrijgen van inzicht in één of meer van de diverse aspecten van de uitvinding. Deze openbaringsmethode mag echter niet worden geïnterpreteerd als zijnde een intentie dat de geclaimde uitvinding meer kenmerken vereist dan expliciet vermeld in elke conclusie. In de plaats daarvan liggen, zoals blijkt uit de volgende conclusies, de inventieve aspecten in minder dan alle kenmerken van een enkele daarvoor geopenbaarde uitvoeringsvorm. De conclusies die volgen op de gedetailleerde beschrijving zijn hierdoor dus expliciet opgenomen in deze gedetailleerde beschrijving, waarbij elke conclusie op zichzelf staat als een afzonderlijke uitvoeringsvorm van deze uitvinding.
Verder zijn, hoewel enkele hierin beschreven uitvoeringsvormen sommige maar geen andere eigenschappen die zijn opgenomen in andere uitvoeringsvormen omvatten, combinaties van eigenschappen van verschillende uitvoeringsvormen bedoeld om binnen de doelstelling van de uitvinding te liggen, en verschillende uitvoeringsvormen vormen, zoals duidelijk is voor de ervaren deskundige. Bijvoorbeeld, in de volgende conclusies kan elke van de geclaimde uitvoeringsvormen in elke combinatie worden gebruikt.
Verder zijn sommige van de uitvoeringsvormen hierin beschreven als een werkwijze of combinatie van elementen van een werkwijze die kan worden uitgevoerd door een processor van een computersysteem of door andere middelen voor het uitoefenen van de functie. Een processor met de nodige instructies voor het uitvoeren van een dergelijke werkwijze of element van een werkwijze vormt dus een middel voor het uitvoeren van de werkwijze of element van een werkwijze. Verder is een hierin beschreven element van een uitvoeringsvorm van een apparaat een voorbeeld van een middel voor het uitvoeren van de functie die door het element wordt uitgevoerd met als doel het uitvoeren van de uitvinding.
In de hierin verschafte beschrijving zijn diverse specifieke details opgenomen. Het dient echter duidelijk te zijn dat uitvoeringsvormen van de uitvinding in de praktijk kunnen worden gebracht zonder deze specifieke details. In andere instanties werden bekende werkwijzen, structuren en technieken niet in detail weergegeven om de duidelijkheid van de beschrijving niet in gevaar te brengen.
De volgende termen worden uitsluitend verschaft als hulp voor het begrijpen van de uitvinding.
Zoals hierin gebruikt is een biologische sequentie een sequentie van een biopolymeer die ten minste de primaire structuur van het biopolymeer definieert. Het biopolymeer kan, bijvoorbeeld, een deoxyribonucleïnezuur (DNA), ribonucleïnezuur (RNA) of een eiwit zijn. Het biopolymeer is kenmerkend een polymeer van biomonomeren (bv. nucleotiden of aminozuren), maar kan in sommige gevallen verder één of meer synthetische monomeren bevatten.
Zoals hierin gebruikt is een ‘eenheid’ in een biologische sequentie een aminozuur wanneer de biologische sequentie betrekking heeft op een eiwit en is een codon wanneer de biologische sequentie betrekking heeft op DNA of RNA.
Zoals hierin gebruikt is een biologische subsequentie een gedeelte van een biologische sequentie die kleiner is dan de volledige biologische sequentie. De biologische subsequentie kan, bijvoorbeeld, een totale lengte van 100 eenheden of minder hebben, bij voorkeur 50 of minder, met een nog grotere voorkeur 20 of minder.
Zoals hierin gebruikt zullen sommige concepten worden geïllustreerd met voorbeelden die betrekking hebben op eiwitten en wordt ervan uit gegaan dat de mogelijke monomere eenheden de 20 canonische (of ‘standaard’) aminozuren zijn. Het is echter duidelijk dat dit louter is om de illustratie te vereenvoudigen en dat gelijkaardige uitvoeringsvormen evenzo kunnen worden geformuleerd met een groter aantal aminozuren (bv. het toevoegen van niet-canonische aminozuren of zelfs synthetische verbindingen), of betrekking hebbende op DNA of RNA. In het geval van DNA of RNA kan een link tussen het DNA of RNA en eiwitten gemakkelijk worden gelegd door de overeenkomst tussen codons en aminozuren.
Zoals hierin gebruikt verwijst ‘secundair/tertiair/quaternair’ naar ‘secundair en/of tertiair en/of quaternair’.
Er werd in de onderhavige uitvinding verrassend vastgesteld dat, waar voorheen werd aangenomen dat de primaire structuur van een biologische sequentie bestaat uit een in wezen onafhankelijke selectie van eenheden, zodat er bv. m” biologische sequenties met een lengte n gebaseerd op m mogelijke eenheden (bv. 20° op basis van 20 canonische aminozuren), dit in feite niet wordt waargenomen in de natuur.
Er werd wel degelijk ontdekt dat vanaf een bepaalde lengte niet elke theoretische combinatie wordt waargenomen.
Om maar één voorbeeld te geven: de eiwit-subsequentie ‘MCMHNQA'’ wordt niet aangetroffen in enig eiwit in de openbare databanken.
Er werd gesteld dat dit niet gewoon een hiaat in de databanken is, maar dat deze afwezigheid een fysieke en/of chemische oorsprong heeft.
Zonder gebonden te willen zijn door theorie kan, om maar één mogelijk effect te noemen, de sterische hindering van de naburige aminozuren (bv. ‘MCMHNQ’ in het bovenstaande voorbeeld) verhinderen dat één of meer andere aminozuren (bv. ‘A’ in het bovenstaande voorbeeld) daaraan binden.
Zo kunnen, eens een afwezige subsequentie werd geïdentificeerd, computerstudies worden gebruikt om te valideren of deze subsequentie mogelijk zou kunnen optreden of dat het bestaan ervan fysiek onmogelijk is (of onwaarschijnlijk, bv. omdat het chemisch onstabiel is). De ‘bepaalde lengte’ waarnaar hierboven werd verwezen hangt af van de dataset die in beschouwing wordt genomen, maar komt bv. overeen met ongeveer 5 of 6 aminozuren voor het openbaar beschikbare eiwitsequentie-databanken (die nagenoeg de totale diversiteit die in de natuur wordt waargenomen reflecteren). Voor een meer beperkte set (bv. een set gefilterd op basis van een specifiek criterium) werd reeds minder dan het theoretischemaximum van m” combinaties gevonden voor een lengte van ongeveer 4 of 5. Tegelijk is, omdat de subsequentie ‘MCMHNQA' niet bestaat, de subsequentie ‘MCMHNQ' niet louter een willekeurige combinatie van 5 aminozuren maar wint steeds meer aan betekenis; dergelijke subsequenties worden verder omschreven als ‘kenmerkende biologische subsequenties’ of ‘vingerafdrukken’. Door de toegevoegde significantie of betekenis van deze vingerafdrukken kan worden gesteld dat de onderhavige uitvinding biologische sequentie informatie op een meer semantische manier hanteert.
Over het algemeen wordt een kenmerkende subsequentie gekenmerkt doordat deze voor de eenheid die hier direct op volgt (of voorafgaat)
minder mogelijke opties dan het maximumaantal eenheden (bv. minder dan de 20 canonische aminozuren) heeft; met andere woorden, ten minste één van de eenheden kan deze niet opvolgen (of voorafgaan). Het is echter mogelijk om een striktere definitie te selecteren: bv. alleen die subsequenties die 15 eenheden of minder hebben die deze mogelijk kunnen opvolgen, of 10 of minder, 5 of minder, 3, 2 of zelfs 1. Verder kan deze worden gekozen om elke dergelijke subsequentie te beschouwen als een vingerafdruk, of om alleen die subsequenties als vingerafdrukken te beschouwen die al geen andere vingerafdruk omvatten. Bijvoorbeeld: als we ‘'MCMHNQ' nemen als vingerafdruk, zullen er langere subsequenties zijn die MCMHNQ’ omvatten en die ook minder dan het theoretische aantal eenheden hebben die deze kunnen opvolgen (of voorafgaan); in dat geval bestaat de optie om zowel de langere subsequenties als ‘MCMHNQ’ te beschouwen als vingerafdrukken, of om alleen ‘MCMHNQ' te beschouwen als een vingerafdruk.
Er werd vervolgens verrassend vastgesteld dat een beperkte set kenmerkende biologische subsequenties kan worden geïdentificeerd. Verder werd waargenomen dat deze kenmerkende biologische subsequenties een evenwicht vormen tussen, enerzijds, voldoende specifiek zijn zodat niet elke kenmerkende biologische subsequentie wordt aangetroffen in elke biologische sequentie en, anderzijds, voldoende gewoon is zodat de bekende biologische sequenties kenmerkend ten minste één van deze vingerafdrukken omvatten.
Op basis van deze ontdekking kunnen nieuwe benaderingen voor het hanteren van biologische sequentie-informatie, in al zijn moeilijke maar onderling verwante fasen, worden geformuleerd. Deze benaderingen kunnen worden beschouwd als zijnde verwant aan een meer lexicale analyse van de sequenties. Het resultaat is schematisch weergegeven in Fig. 1, dat de complexiteit-schaling van de biologische sequentie- informatie met een toenemend aantal eenheden (n) toont. Deze complexiteit kan het totale aantal mogelijke combinaties van eenheden zijn, maar dat heeft op zijn beurt ook betrekking op het computervermogen (bv. tijd en geheugen) die nodig is voor de hantering ervan (bv. voor het uitvoeren van een gelijkaardige zoekopdracht). De ononderbroken kromme geeft het aantal theoretische combinaties weer waarvan wordt uitgegaan dat alle eenheden onafhankelijk zijn geselecteerd, geschaald als m”,
wat ook overeenkomt met de schaling van de momenteel bekende algoritmes. De streepjeskromme toont het aantal actuele combinaties die in de natuur worden aangetroffen (zoals waargenomen in de onderhavige uitvinding), waar de kromme van m” afwijkt met ongeveer 5 of 6 eenheden en asymptotisch afvlakt voor hoge n. De stippellijn toont het aantal sequenties die voor de eerste keer overeenkomen met een kenmerkende sequentie waarvoor het aantal eenheden dat kan volgen gelijk is aan 1; hier betekent ‘voor de eerste keer’ dat langere sequenties nooit meetelden als ze een reeds getelde vingerafdruk omvatten. Dit laatste komt dus overeen met het aantal vingerafdrukken met lengte n (zoals waargenomen in de onderhavige uitvinding), wanneer de definitie daarvan is gekozen als een subsequentie die slechts 1 eenheid heeft die deze mogelijk kan opvolgen en die reeds geen andere (kortere) vingerafdruk omvat (zie hoger).
Fig. 2 toont de voorspelde voordelen van de onderhavige uitvinding in tijd, waar de markering op de onderste as de huidige dag weergeeft. Kromme 1 toont de wet van Moore als referentie. Kromme 2 toont de totale hoeveelheid verworven sequentiegegevens. Kromme 3 toont de totale kost van het verwerken en behouden van genoemde sequentiegegevens. Bij het hanteren van biologische sequentie- informatie, zoals voorgesteld in de onderhavige uitvinding, verwacht men dat de totale vereiste opslag voor sequentiegegevens en de totale kostprijs van gegevensverwerking en behoud dalen zoals weergegeven in de krommen 4 en 5, respectievelijk.
In een eerste aspect heeft de onderhavige uitvinding betrekking op een depot van vingerafdruk-datastrings, waarbij elke vingerafdruk-datastring een kenmerkende biologische subsequentie voorstelt, het depot omvattende ten minste een eerste vingerafdruk-datastring die een eerste kenmerkende biologische subsequentie van een eerste lengte voorstelt en een tweede vingerafdruk-datastring die een tweede kenmerkende biologische subsequentie van een tweede lengte voorstelt, waarbij de eerste en de tweede lengte gelijk zijn aan 4 of meer en waarbij de eerste en de tweede lengte van elkaar verschillen. Een depot (bv. databank) van vingerafdruk- datastrings 100 is schematisch weergegeven in Fig. 3, dat meer in detail wordt besproken onder het tweede en vierde aspect.
In uitvoeringsvormen kan de lengte overeenkomen met het aantal eenheden. In uitvoeringsvormen kan de lengte tot 100 of minder, bij voorkeur 50 of minder, met een grotere voorkeur 20 of minder zijn. In uitvoeringsvormen kunnen de eerste en de tweede lengte gelijk zijn aan 5 of meer, bij voorkeur 6 of meer. In uitvoeringsvormen kunnen de eerste en tweede kenmerkende biologische subsequenties een lengte hebben tussen 4 en 20, bij voorkeur tussen 5 en 15, met een grotere voorkeur tussen 6 en 12. In uitvoeringsvormen kan het depot van vingerafdruk-datastrings ten minste 3 vingerafdruk-datastrings omvatten die in lengte van elkaar verschillen, bij voorkeur ten minste 4, met een grotere voorkeur ten minste 5, met de meeste voorkeur ten minste 6. Doordat de kenmerkende biologische subsequenties niet gedefinieerd zijn door hun lengte, maar door het aantal mogelijke eenheden die volgen (of er aan vooraf gaan), omvat een set kenmerkende biologische subsequenties op voordelige wijze subsequenties van variërende lengtes. Het depot van vingerafdruk-datastrings in de onderhavige uitvinding verschilt van bv. een verzameling k-meren (zoals bekend in het vakgebied) doordat deze biologische subsequenties van variërende lengtes omvat. Verder omvat een verzameling k-meren kenmerkend elke permutatie (d.w.z. elke mogelijke combinatie van eenheden) van lengte k; dit is niet het geval voor het onderhavige depot van vingerafdruk-datastrings.
In uitvoeringsvormen kunnen de vingerafdruk-datastrings eiwit-vingerafdruk- datastrings, DNA-vingerafdruk-datastrings of RNA-vingerafdruk-datastrings zijn. In uitvoeringsvormen kunnen de kenmerkende biologische subsequentie een kenmerkende eiwit-subsequentie, een kenmerkende DNA-subsequentie of eenkenmerkende RNA-subsequentie zijn. In uitvoeringsvormen kan het depot van vingerafdruk-datastrings eiwit-vingerafdruk-datastrings, DNA-vingerafdruk- datastrings, RNA-vingerafdruk-datastrings of een combinatie van één of meer hiervan omvatten (bv. bestaan uit). Een kenmerkende eiwit-subsequentie kan in uitvoeringsvormen worden getranslateerd in een kenmerkende DNA- of RNA- subsequentie, en vice versa. Deze translatie kan gebaseerd zijn op de welbekende DNA- en RNA-codontabellen. Evenzo kan een eiwit-vingerafdruk-datastring worden getranslateerd in een DNA- of RNA-vingerafdruk-datastring. In uitvoeringsvormen kaneen depot van DNA- of RNA-vingerafdruk-datastrings informatie omvatten over equivalente codons (d.w.z. codons die coderen voor hetzelfde aminozuur). Deze informatie over equivalente codons kan als dusdanig worden opgenomen in de vingerafdruk-datastring, of afzonderlijk daarvan opgeslagen in het depot.
In uitvoeringsvormen kan het depot van vingerafdruk-datastrings verder additionele gegevens voor ten minste één van de vingerafdruk-datastrings omvatten. In voorkeursuitvoeringsvormen kunnen genoemde gegevens opgenomen zijn in de vingerafdruk-datastring. In alternatieve uitvoeringsvormen kunnen genoemde gegevens afzonderlijk van de vingerafdruk-datastrings opgeslagen zijn.
In uitvoeringsvormen kunnen de additionele gegevens gegevens omvatten die betrekking hebben op één of meer eenheden die direct vóór of na de kenmerkende biologische subsequentie kunnen voorkomen (bv. die realistisch kunnen voorkomen, zoals die combinaties die stabiel zijn) wanneer genoemde kenmerkende biologische subsequentie aanwezig is in een biologische sequentie. In uitvoeringsvormen kunnen de gegevens die betrekking hebben op de één of meer eenheden het aantal mogelijke eenheden, de mogelijke eenheden al dusdanig, de kans (bv. waarschijnlijkheid) op elke eenheid, enz. omvatten.
In uitvoeringsvormen kunnen de additionele gegevens gegevens omvatten die betrekking hebben op een secundaire/tertiaire/quaternaire structuur van de kenmerkende biologische subsequentie wanneer genoemde kenmerkende biologische subsequentie aanwezig is in een biopolymeer. In uitvoeringsvormen kunnen de gegevens met betrekking tot de secundaire (of tertiaire/quaternaire) structuur het aantal mogelijke structuren, de mogelijke structuren als dusdanig, de kans (bv. waarschijnlijkheid) op elke structuur, enz. omvatten. In het geval van meerdere mogelijke secundaire/tertiaire/quaternaire structuren voor een bepaalde kenmerkende biologische subsequentie kan het depot in uitvoeringsvormen een afzonderlijke invoer voor elke combinatie van de kenmerkende biologische subsequentie en een geassocieerde secundaire/tertiaire/quaternaire structuur omvatten. In alternatieve uitvoeringsvormen kan het depot één invoer omvattende de kenmerkende biologische subsequentie en een veelheid aan zijn geassocieerde secundaire/tertiaire/quaternaire structuren omvatten. In uitvoeringsvormen, kan desecundaire/tertiaire/quaternaire structuur meer relevant zijn voor eiwitten dan voor DNA en RNA.
In uitvoeringsvormen kunnen de additionele gegevens gegevens omvatten die betrekking hebben op een verhouding tussen de kenmerkende biologische subsequentie en één of meer verder kenmerkende biologische subsequenties. In uitvoeringsvormen kunnen de gegevens die betrekking hebben op een verhouding tussen de kenmerkende biologische subsequentie verdere kenmerkende biologische subsequenties omvatten die gezamenlijk in de buurt daarvan voorkomen, de kans dat de verdere kenmerkende biologische subsequentie voorkomt in de nabijheid ervan, een specifieke significantie (bv. een biologisch relevante betekenis, zoals een kenmerk of een secundaire/tertiaire/quaternaire structuur) van deze kenmerkende biologische subsequenties die dicht bij elkaar optreden, enz. In uitvoeringsvormen kan de verhouding worden uitgedrukt in de vorm van een route tussen twee of meer kenmerkende biologische subsequenties en kunnen de volgorde van de kenmerkende biologische subsequenties, hun onderlinge afstand, enz. bevatten. In uitvoeringsvormen kunnen de additionele gegevens ook metagegevens omvatten die geschikt zijn voor het bouwen van genoemde routes. In sommige uitvoeringsvormen kunnen de additionele gegevens opgehaald zijn uit een bekende dataset; bv. de secundaire/tertiaire/quaternaire structuur van diverse biologische sequenties is beschikbaar in het vakgebied. In andere uitvoeringsvormen kunnen de additionele gegevens onttrokken zijn uit een verwerkte biologische sequentie zoals gedefinieerd in elke uitvoeringsvorm van het derde aspect of uit een depot van verwerkte biologische sequenties zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect. Bijvoorbeeld, na het verwerken van een biologische sequentie volgens elke uitvoeringsvorm van het tweede aspect (of het bouwen van een depot van verwerkte biologische sequenties volgens elke uitvoeringsvorm van het vierde aspect) kunnen verhoudingen tussen de kenmerkende biologische subsequenties (bv. routes) worden onttrokken uit en toegevoegd aan een depot van vingerafdruk- datastrings van het onderhavige aspect; dit is schematisch afgebeeld in Fig. 3 door de gestreepte pijlen die wijzen van de verwerkte biologische sequentie 210 en het depotvan verwerkte biologische sequenties 220 naar het depot van vingerafdruk- datastrings 100. In een tweede aspect is een werkwijze voor het verwerken van een biologische sequentie beschreven, omvattende: (a) het ophalen van één of meer vingerafdruk- datastrings uit het depot zoals gedefinieerd in elke uitvoeringsvorm van het eerste aspect, (b) het zoeken in de biologische sequentie naar het voorkomen van de kenmerkende biologische subsequenties voorgesteld door de één of meer vingerafdruk-datastrings, en (c) het construeren van een verwerkte biologische sequentie omvattende, voor elk voorkomen in stap b, een vingerafdrukmerker geassocieerd met de vingerafdruk-datastring die het voorkomen van de kenmerkende biologische subsequentie voorstelt. Fig. 3 toont schematisch een sequentie- verwerkingseenheid 310 die een biologische sequentie 200 verwerkt met behulp van een depot van vingerafdruk-datastrings 100, waardoor een verwerkte biologische sequentie 210 wordt verkregen.
In sommige uitvoeringsvormen kan de merker een referentiestring zijn. Een dergelijke referentiestring kan, bijvoorbeeld, wijzen naar de overeenkomstige vingerafdruk-datastring in het depot. In andere uitvoeringsvormen kan de merker de vingerafdruk-datastring als dusdanig, of een gedeelte daarvan, zijn.
In uitvoeringsvormen kan de biologische sequentie omvatten: (i) één of meer eerste gedeelten, waarbij elk eerste gedeelte overeenkomt met één van de kenmerkende biologische subsequenties voorgesteld door de één of meer vingerafdruk-datastrings, en (ii) één of meer tweede gedeelten, waarbij elk tweede gedeelte niet overeenkomt met elke van de kenmerkende biologische subsequenties voorgesteld door de één of meer vingerafdruk-datastrings. In uitvoeringsvormen, kan het construeren van de verwerkte biologische sequentie in stap c het vervangen van ten minste één eerste gedeelte door de overeenkomstige merker omvatten. In uitvoeringsvormen kan het construeren van de verwerkte biologische sequentie in stap c verder het toevoegen van positionele informatie over genoemd eerste gedeelte aan de verwerkte biologische sequentie (bv. bijgevoegd bij de merker) omvatten. In uitvoeringsvormen kan het construeren van de verwerkte biologische sequentie in stap c het ten minste één tweede gedeelte onveranderd laten, en/of het vervangenvan ten minste één tweede gedeelte door een indicatie van de lengte van genoemd tweede gedeelte, en of het volledig verwijderen van ten minste één tweede gedeelte omvatten. Bij het onveranderd laten van de tweede gedeelten is de biologische sequentie in staat om te worden verwerkt op een volledig verliesloze manier.
In uitvoeringsvormen kan de verwerkte biologische sequentie worden geformuleerd in een gecondenseerd formaat. Bijvoorbeeld, door het vervangen van de kenmerkende biologische subsequenties (d.w.z. eerste gedeelten) door referentiestrings en/of door het vervangen van de tweede gedeelten met ofwel een indicatie van de lengte ervan, ofwel volledige verwijdering ervan, wordt een verwerkte biologische sequentie verkregen die minder opslagruimte vereist dan de oorspronkelijke (d.w.z. onverwerkte) biologische sequentie. Er kan additionele gegevenscompressie worden verkregen door gebruik te maken van routes die meerdere vingerafdrukken kunnen voorstellen door hun onderlinge relatie.
In uitvoeringsvormen kunnen de één of meer vingerafdruk-datastrings in een ander biologisch formaat zijn dan de biologische sequenties (bv. eiwit- vs DNA- vs RNA- sequentie-informatie) en kan stap b verder het translateren of transcriberen van de kenmerkende biologische subsequenties voorafgaand aan de zoekopdracht omvatten.
In uitvoeringsvormen kan de zoekopdracht in stap b het zoeken naar een specifieke overeenkomst of een equivalente overeenkomst (bv. een equivalent codon, of een verschillend aminozuur dat resulteert in dezelfde secundaire/tertiaire/quaternaire structuur) bevatten. In uitvoeringsvormen kan de zoekopdracht in stap b rekening houden met een secundaire/tertiaire/quaternaire structuur van de kenmerkende biologische subsequentie. De secundaire, tertiaire en quaternaire zijn kenmerkend meer evolutionair bewaard en er treedt vaak variatie in de primaire structuur op die de functie van het biopolymeer niet verandert, bv. omdat de secundaire/tertiaire/quaternaire structuur van de actieve plaatsen ervan nagenoeg bewaard is. De secundaire/tertiaire/quaternaire structuur kan daarom relevante informatie onthullen over het biopolymeer die verloren zou gaan wanneer uitsluitend naar een volledig overeenkomende primaire structuur zou worden gezocht.
In uitvoeringsvormen kan de werkwijze een verdere stap d, na stap c, omvatten van het ten minste gedeeltelijk afleiden van secundaire/tertiaire/quaternaire structuurvan de verwerkte biologische subsequentie op basis van de gegevens die betrekking hebben op de secundaire/tertiaire/quaternaire structuur zoals gedefinieerd in uitvoeringsvormen van het eerste aspect. Deze ten minste gedeeltelijke verklaring van de secundaire/tertiaire/quaternaire structuur kan het ontwerp van de biologische sequentie helpen en/of vergemakkelijken. In uitvoeringsvormen waarin een enkele primaire structuur van een kenmerkende biologische subsequentie is gelinkt aan een veelheid aan secundaire of tertiaire of quaternaire structuren, kan de secundaire/tertiaire/quaternaire structuur gedesambigueerd zijn op basis van de context waarin de kenmerkende biologische subsequentie is aangetroffen, zoals de kenmerkende biologische subsequenties waardoor deze is omgeven. De informatie die nodig is voor een dergelijke desambiguatie kan, bijvoorbeeld, worden gevonden in het depot van vingerafdruk-datastrings in de vorm van gegevens die verband houden met een verhouding in de termen secundaire/tertiaire/quaternaire structuur van tussen de kenmerkende biologische subsequentie en één of meer verdere kenmerkende biologische subsequenties, zoals gedefinieerd in uitvoeringsvormen van het eerste aspect.
In een derde aspect is een verwerkte biologische sequentie beschreven, die kan worden verkregen door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect. Een verwerkte biologische sequentie 210 is schematisch afgebeeld in Fig. 3.
In een vierde aspect is een werkwijze beschreven voor het bouwen van een depot van verwerkte biologische sequenties, omvattende het populeren van genoemd depot met verwerkte biologische sequenties zoals gedefinieerd in elke uitvoeringsvorm van het derde aspect. Fig. 3 toont schematisch een depot- opbouweenheid 320 die een verwerkte biologische sequentie 210 opslaat in een depot van verwerkte biologische sequenties 220.
In een vijfde aspect is een depot van verwerkte biologische sequenties beschreven die kan worden verkregen door de werkwijze volgens elke uitvoeringsvorm van het vierde aspect. Een depot van 220 is schematisch afgebeeld in Fig. 3. Een dergelijk depot kan worden gecombineerd met het depot van vingerafdruk-datastrings zoals beschreven in het eerste aspect.
In uitvoeringsvormen kan het depot een databank zijn. In sommige uitvoeringsvormen kan het depot van verwerkte biologische sequenties een geïndexeerd depot zijn. Het depot kan, bijvoorbeeld, geïndexeerd zijn op basis van de vingerafdrukmerkers (overeenkomstig met de kenmerkende biologische subsequenties) die aanwezig zijn in elke verwerkte biologische sequentie. In andere uitvoeringsvormen kan het depot een grafiekdepot zijn.
In een zesde aspect is een werkwijze beschreven voor het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, omvattende: (a) het verwerken van de eerste biologische sequentie door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect om een eerste verwerkte biologische sequentie te verkrijgen, of het ophalen van de eerste verwerkte biologische sequentie uit een depot zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect, (b) het verwerken van de tweede biologische sequentie door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect om een tweede verwerkte biologische sequentie te verkrijgen, of het ophalen van de tweede verwerkte biologische sequentie uit een depot zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect, en (c) het vergelijken van ten minste de vingerafdrukmerkers in de eerste verwerkte biologische sequentie met de vingerafdrukmerkers in de tweede verwerkte biologische sequentie. Fig. 4 toont schematisch een vergelijkingseenheid 330 die ten minste een eerste biologische sequentie 211 en een tweede biologische sequentie 212 vergelijkt met uitgevoerde resultaten 400.
Door gebruik te maken van kenmerkende biologische subsequenties van de onderhavige uitvinding (door de vingerafdrukmerkers in de verwerkte biologische sequenties), wordt het probleem van het vergelijken van sequenties op voordelige wijze geherformuleerd van een NP-volledig of NP-hard probleem naar een polynomiale-tijd probleem. Het identificeren van de vingerafdrukken in een sequentie en het vervolgens vergelijken van sequenties op basis van deze vingerafdrukken, dat kan worden beschouwd als een lexicale benadering, is met gebruik van een computer veel eenvoudiger dan de momenteel gebruikte algoritmes (die bv. volledige sequenties vergelijken op basis van een benadering met schuivende vensters). Daardoor kan de vergelijking merkelijk sneller worden uitgevoerd en schaalt goed met toenemendecomplexiteit (bv. toenemende lengte van of aantal biologische sequenties}, zelfs terwijl minder computervermogen en opslagruimte is vereist.
In uitvoeringsvormen kan stap c het identificeren bevatten of één of meer kenmerkende biologische subsequenties (voorgesteld door de vingerafdrukmerkers) in de eerste verwerkte biologische sequentie overeenkomen (bv. matchen) met één of meer kenmerkende biologische subsequenties (voorgesteld door de vingerafdrukmerkers) in de tweede verwerkte biologische sequentie. In uitvoeringsvormen kan stapc het identificeren omvatten of de overeenkomstige kenmerkende biologische subsequenties optreden in dezelfde volgorde in de eerste verwerkte biologische sequentie als in de tweede verwerkte biologische sequentie. In uitvoeringsvormen kan stapc het identificeren omvatten of één of meer paren kenmerkende biologische subsequenties in de eerste verwerkte biologische sequentie en één of meer overeenkomstige paren kenmerkende biologische subsequenties in de tweede verwerkte biologische sequentie eenzelfde of gelijkaardige (bv. verschillend met meer dan 100 eenheden, bij voorkeur minder dan 50 eenheden, met een grotere voorkeur minder dan 20 eenheden, met de meeste voorkeur minder dan 10 eenheden) onderlinge afstand hebben.
In uitvoeringsvormen kan stap c verder het vergelijken omvatten van één of meer tweede gedeelten van de eerste verwerkte biologische sequentie met één of meer tweede gedeelten in de tweede verwerkte biologische sequentie. In uitvoeringsvormen kan het vergelijken van één of meer tweede gedeelten het vergelijken omvatten van overeenkomstige tweede gedeelten (d.w.z. een tweede gedeelte dat optreedt tussen een naburig paar kenmerkende biologische subsequenties in de eerste verwerkte biologische sequentie en een tweede gedeelte dat optreedt tussen een overeenkomstig naburig paar kenmerkende biologische subsequenties in de eerste verwerkte biologische sequentie).
In uitvoeringsvormen kan stapc verder het berekenen omvatten van een meting die een mate van overeenkomst (bv. een Levenshtein-afstand) tussen de eerste en de tweede biologische sequentie voorstelt.
In uitvoeringsvormen kan de werkwijze worden gebruikt in een zoekopdracht naar sequentie-overeenkomst, door het vergelijken van een aanvraagsequentie metéén of meer andere biologische sequenties (bv. overeenkomstig met een sequentie- databank die moet worden doorzocht, bijvoorbeeld in de vorm van een depot van verwerkte biologische sequenties). In uitvoeringsvormen kan een graad van overeenkomst worden berekend voor elke van de andere biologische sequenties. In uitvoeringsvormen kan de werkwijze een verdere stap omvatten van het rangschikken van de biologische sequenties (bv. door het verlagen van de mate van overeenkomst). In uitvoeringsvormen kan de werkwijze het filteren van de biologische sequenties omvatten. Het filteren kan worden uitgevoerd vóór en/of na stap c. Bijvoorbeeld, het filteren kan worden uitgevoerd door het selecteren voor vergelijking van alleen die biologische sequenties uit de databank die voldoen aan een bepaald criterium, zoals gebaseerd op het organisme of groep van organismen waaruit ze zijn afgeleid (bv. planten, dieren, mensen, micro-organismen, enz.), of een secundaire/tertiaire/quaternaire structuur bekend is, hun lengte, enz. Alternatief kan het filteren worden uitgevoerd nadat de vergelijking werd uitgevoerd, op basis van dezelfde criteria of op basis van de berekende mate van overeenkomst (bv. alleen die sequenties mogen worden geselecteerd die een bepaalde drempel van overeenkomst overschrijden). In tegenstelling tot het zoeken naar sequentie-overeenkomst uit de vorige stand der techniek, waar kenmerkend een uitlijningsstap vereist is en daaruit vervolgens een mate van overeenkomst wordt bepaald, is uitlijning niet strikt noodzakelijk voor het zoeken naar overeenkomst. Overeenkomstige sequenties kunnen wel degelijk reeds worden gevonden door het eenvoudigweg zoeken naar sequenties met dezelfde vingerafdrukken (optioneel ook rekening houdend met hun volgorde en hun onderlinge afstand) zonder uitlijning; dit maakt op zijn beurt een grotere zoeksnelheid mogelijk. Niettegenstaande het bovenstaande wordt uitlijning (zie het zevende aspect) met een computer ook vereenvoudigd, zodat ervoor kan worden gekozen toch een uitlijning te doen, zelfs als dit niet strikt vereist is.
De werkwijze van dit aspect maakt dus het bepalen (en optioneel meten) van de overeenkomst tussen een eerste en een tweede biologische sequentie mogelijk. Een dergelijke vergelijking vormt ook de hoeksteen bij andere werkwijzen, zoals die van het zevende en achtste aspect.
In een zevende aspect wordt een werkwijze voor het uitlijnen van een eerste biologische sequentie naar een tweede biologische sequentie beschreven, omvattende het uitvoeren van de werkwijze volgens een uitvoeringsvorm van het zesde aspect, waarbij stap c verder het uitlijnen van de vingerafdrukmerkers in de eerste verwerkte biologische sequentie met de vingerafdrukmerkers in de tweede verwerkte biologische sequentie omvat. Fig.4 toont schematisch uitvoerresultaten 400 van vergelijkingseenheid 330 (wat in dit geval beter wordt omschreven als ‘uitlijningseenheid 330’) waarin biologische sequenties worden uitgelijnd door hun vingerafdrukmerkers.
Uitlijning is dus ook vereenvoudigd in uitvoeringsvormen, doordat een goede uitlijning reeds kan worden verkregen door het eenvoudigweg uitlijnen van de vingerafdrukken. Dit vermindert nogmaals significant de computer-complexiteit van het probleem. Verder is er, in de werkwijzen uit de voorgaande stand der techniek, zoals die gebaseerd op progressieve uitlijning, een accumulatie van uitlijningsfouten, doordat foutieve uitlijning voor één van de eerdere sequenties zich kenmerkend voortzet en additionele foutieve uitlijningen in de later sequenties veroorzaakt. Omgekeerd is er, doordat het telkens dezelfde aparte set vingerafdrukmerkers is die wordt uitgelijnd (of ten minste getracht) binnen één (meervoudige) uitlijning, geen dergelijke voortzetting van fouten.
In uitvoeringsvormen kan de werkwijze verder opeenvolgende uitlijning van overeenkomstige tweede gedeelten omvatten. Uitlijning van de tweede gedeelten kan, bijvoorbeeld, worden uitgevoerd door middel van één van de uitlijningswerkwijzen die bekend zijn uit de voorgaande stand der techniek. Doordat het ‘skelet’ van de uitlijning reeds werd verschaft door uitlijning van de vingerafdrukmerkers, blijft alleen de uitlijning tussen deze merkers over voor uitwerking. Doordat elke van deze tweede gedeelten kenmerkend relatief kort is in vergelijking met de totale biologische sequentielengte, kunnen de bekende werkwijzen een dergelijke uitlijning kenmerkend relatief snel en efficiënt uitvoeren.
In uitvoeringsvormen kan de werkwijze dienen voor het uitvoeren van een meervoudige sequentie-uitlijning (d.w.z. de werkwijze kan uitlijning van drie of meer biologische sequenties omvatten). In uitvoeringsvormen kan de werkwijze het uitlijnenvan vingerafdrukmerkers omvatten in een derde (of vierde, enz.) verwerkte biologische sequentie met vingerafdrukmerkers in de eerste en/of tweede verwerkte biologische sequenties. Dit is schematisch afgebeeld in Fig. 4 waarin uitlijningseenheid 330 ook een willekeurig aantal verder verwerkte biologische sequenties 213-216 kan vergelijken en uitlijnen.
In uitvoeringsvormen kan de werkwijze worden gebruikt in variant-calling. In het geval van sequentie-uitlijning tussen twee biologische sequenties kan de variant- calling varianten (bv. mutaties) tussen een opvraagsequentie en een referentiesequentie identificeren. In het geval van een meervoudige sequentie- uitlijning kan de variant-calling de mogelijke variaties (die het bepalen van hun frequentie van optreden kunnen bevatten) in een set gerelateerde sequenties identificeren; optioneel ten opzichte van een referentiesequentie. Het identificeren van varianten kan verder worden uitgevoerd op basis van de primaire structuur, maar kan ook rekening houden met de secundaire/tertiaire/quaternaire structuur.
In een achtste aspect is een werkwijze beschreven voor het uitvoeren van een sequentiemontage, omvattende: (a) het verschaffen van een eerste biologische sequentie, waarbij de eerste biologische sequentie een biologische sequentie van een eerste biopolymeerfragment is, (b)het verschaffen van een tweede biologische sequentie, waarbij de tweede biologische sequentie ofwel een biologische sequentie van een tweede biopolymeerfragment, ofwel een referentie-biologische sequentie is, (c) het uitlijnen van de eerste biologische sequentie met de tweede biologische sequentie door middel van de werkwijze volgens elke uitvoeringsvorm van het zevende aspect, en (d) het samenvoegen van de eerste biologische sequentie met de tweede biologische sequentie om een samengestelde biologische sequentie te verkrijgen.
Fig.5 toont schematisch een sequentie-samenstellingseenheid 340 die een samengestelde biologische sequentie 510 uitvoert door eerste uitlijning (door hun vingerafdrukmerkers) en vervolgens het samenvoegen van een willekeurig aantal biologische sequenties 500 (omvattende ten minste een eerste biologische sequentie 501 en tweede biologische sequentie 502).
In uitvoeringsvormen kunnen de werkwijzestappen a tot en met d worden herhaald om een willekeurig aantal biopolymeerfragmenten uit te lijnen en samen te voegen.
Om rangschikking te vergemakkelijken kunnen langere biopolymeren worden gefragmenteerd, doordat de individuele fragmenten sneller en gemakkelijker kunnen worden gerangschikt (bv. ze kunnen parallel worden gerangschikt}; zoals bekend is in het vakgebied.
Sequentiesamenstelling wordt vervolgens kenmerkend gebruikt voor het uitlijnen en samenvoegen van fragmentsequenties voor het reconstrueren van de originele sequentie; dit kan ook worden omschreven als ‘lees-mapping’, waar ‘aflezingen’ van een fragmentsequentie worden ‘gemapt’ naar een tweede biopolymeersequentie.
Afhankelijk van het type van sequentiesamenstelling dat wordt uitgevoerd, bv. een de-novo samenstelling vs. een mapping-samenstelling, kan de tweede biopolymeersequentie worden gekozen om, zoals gepast, een tweede biopolymeerfragment of een referentiesequentie te zijn.
Hierin is een de-novo samenstel een samenstel dat van nul begint, zonder gebruik van een sjabloon (bv. een hoofdketensequentie). Een mapping-samenstelling daarentegen is een samenstelling door mapping van één of meer biopolymeerfragmentsequenties tot een bestaande hoofdketensequentie (bv. een referentiesequentie), die kenmerkend overeenkomt met (maar niet noodzakelijk identiek is aan) de te reconstrueren sequentie.
Een referentiesequentie kan, bijvoorbeeld, gebaseerd zijn op (een deel van) een volledig genoom of transcriptoom, of kan verkregen zijn uit een vroegere de-novo samenstelling.
In uitvoeringsvormen kan de werkwijze een verdere stap (e), na stap (d), omvatten van het uitlijnen van de samengestelde biologische sequentie met de tweede biologische sequentie door middel van de werkwijze volgens elke uitvoeringsvorm van het achtste aspect.
Deze additionele uitlijning kan worden gebruikt voor het uitvoeren van variant-calling van de samengestelde biologische sequentie ten opzichte van de tweede biologische sequentie (bv. de referentiesequentie). In een negende aspect is een systeem omvattende middelen voor het uitvoeren vande werkwijze volgens elke uitvoeringsvorm van het tweede, vierde, zesde, zevende of achtste aspect beschreven.
Het systeem kan kenmerkend een verschillende vorm aannemen, afhankelijk van de werkwijze(n) die het moet uitvoeren. In uitvoeringsvormen kan het systeem een sequentieverwerkingseenheid (zie tweede aspect), een depot-opbouweenheid (zie vierde aspect), een vergelijkingseenheid (zie zesde aspect), een uitlijningseenheid (zie zevende aspect), een sequentiesamenstellingseenheid (zie achtste aspect) zijn. In uitvoeringsvormen kan een generisch gegevensverwerkingsmiddel (bv. een persoonlijke computer of een smartphone) of een gedistribueerde computeromgeving (bv. cloud-gebaseerd systeem) worden geconfigureerd voor het uitvoeren van één of meer van deze functies. De gedistribueerde computeromgeving kan, bijvoorbeeld, een serverinrichting en een aan een netwerk aangesloten cliëntinrichting omvatten. Hierin kan de serverinrichting de meeste van één of meer werkwijzen uitvoeren, waaronder het opslaan van het depot van vingerafdruk- datastrings (zie het eerste aspect) en het depot van verwerkte biologische sequenties (zie het vijfde aspect). Anderzijds kan de aan een netwerk aangesloten cliëntinrichting instructie (bv. invoer, zoals een opvraagsequentie, en instellingen, zoals zoekvoorkeuren) communiceren met de serverinrichting en kan de werkwijze-uitvoer ontvangen.
In een tiende aspect is een computerprogrammaproduct beschreven omvattende instructies die, wanneer het programma wordt uitgevoerd door een computersysteem, het computersysteem aanzet tot het uitvoeren van de werkwijze volgens elke uitvoeringsvorm van het tweede, vierde, zesde, zevende of achtste aspect.
In een elfde aspect is een computerleesbaar medium beschreven omvattende instructies die, wanneer uitgevoerd door een computersysteem, het computersysteem aanzet tot het uitvoeren van de werkwijze volgens elke uitvoeringsvorm van het tweede, vierde, zesde, zevende of achtste aspect.
In een twaalfde aspect is gebruik van een bibliotheek van biologische sequentie-vingerafdrukken zoals gedefinieerd in elke uitvoeringsvorm van het eerste aspect beschreven, voor één of meer gekozen uit: het verwerken van een biologische sequentie, het bouwen van een depot van verwerkte biologische sequenties, het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, het uitlijnen van een eerste biologische sequentie met een tweedebiologische sequentie, het uitvoeren van een meervoudige sequentie-uitlijning, het uitvoeren van een zoekopdracht naar sequentie-overeenkomst en het uitvoeren van een variant-calling.
In een dertiende aspect is gebruik van een verwerkte biologische sequentie zoals gedefinieerd in elke uitvoeringsvorm van het derde aspect of een bibliotheek van verwerkte biologische sequenties zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect beschreven, voor één of meer gekozen uit: het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, het uitlijnen van een eerste biologische sequentie met een tweede biologische sequentie, het uitvoeren van een meervoudige sequentie-uitlijning, het uitvoeren van een zoekopdracht naar sequentie-overeenkomst en het uitvoeren van een variant-calling.
In uitvoeringsvormen kan elk kenmerk van elke uitvoeringsvorm van elke van de bovenstaande aspecten onafhankelijk zijn zoals overeenkomstig beschreven voor elke uitvoeringsvorm van elke van de andere aspecten.
Een gedetailleerde beschrijving van diverse uitvoeringsvormen wordt nu getoond. Het is duidelijk dat andere uitvoeringsvormen kunnen worden geconfigureerd overeenkomstig de kennis van de ervaren deskundige zonder af te wijken van de werkelijke technische omschrijving van dergelijke uitvoeringsvormen, waarbij de uitvoeringsvormen uitsluitend beperkt zijn door de termen van de bijgevoegde conclusies.
Example 1: Vergelijking tussen een sequentie-zoekopdracht zoals bekend in de voorgaande stand der techniek en een volgens de onderhavige beschrijving Example 1a: Gebruik van een korte zoekstring Er werden twee afzonderlijke zoekopdrachten uitgevoerd op basis van de zoekstring “AVFPSIVGRPRHQGVMVGMGOQKDSY”. Dit komt overeen met een relatief korte eiwitsequentie van 25 eenheden lang, dat, bijvoorbeeld, een eiwitfragment in eiwitsequentiebepaling zou kunnen zijn.
De eerste zoekopdracht werd uitgevoerd met behulp van BLAST (Basic Local Alignment Search Tool); meer specifiek ‘Protein BLAST’ (beschikbaar via URL: https://blast.ncbi.nlm.nih.gov/Blast.cgiPPROGRAM=blastp&PAGE TYPE=BlastSearch& LINK LOC=blasthome). De volgende zoekparameters werden gebruikt: Databank =
Protein Data Bank-eiwitten (pdb); Algoritme = blastp (protein-protein BLAST); Max targetsequenties = 1000; Korte opvragingen = Automatisch parameters bijstellen voor korte invoersequenties; Verwachte drempelwaarde = 20000; Woordgrootte =2; Matrix = PAM30; Compositionele bijstelling = Geen bijstelling. BLAST vereist over 30seconden voor deze zoekopdracht, waarna 604 zoekresultaten werden teruggevoerd.
Anderzijds werd, op basis van de principes van de onderhavige uitvoeringsvorm, bepaald dat “IVGRPRHQGVM” een kenmerkende biologische subsequentie (d.w.z. een ‘vingerafdruk’) opgenomen in de bovenstaande korte eiwitsequentie is. Zo werd de tweede zoekopdracht uitgevoerd in een depot van verwerkte biologische sequenties op basis van de zoekstring “IVGRPRHQGVM”. Dit depot was gebaseerd op dezelfde eiwitdatabank zoals die gebruikt in BLAST (d.w.z. Protein Data Bank; PDB), die eerder werd verwerkt aan de hand van een depot van vingerafdruk-datastrings; d.w.z. kenmerkende biologische subsequenties voorgesteld door de vingerafdruk-datastrings werden geïdentificeerd en gemarkeerd in een set algemeen beschikbare biologische sequenties. Deze zoekopdracht verschafte 661 resultaten. In tegenstelling tot BLAST was het tijdskader dat in dit geval nodig was slechts 196 milliseconden. Zo werd waargenomen dat, zelfs voor een dergelijke relatief korte sequentie, de onderhavige werkwijze in staat was tot het verminderen van de vereiste tijd met een factor van meer dan 150 in vergelijking met de bekende werkwijze uit de huidige stand der techniek.
We verwijzen u naar Figuren 6, 7 en 8, die de resultaten tonen van beide zoekopdrachten (BLAST = stippellijn; onderhavige werkwijze = ononderbroken lijn} in termen van hun totale lengte (fig. 6), hun Levenshtein-afstand (fig. 7) en langste gezamenlijke substring (fig. 8). Voor elke grafiek zijn de zoekresultaten van laag naar hoog weergegeven ten opzichte van de uitgezette parameter (d.w.z. totale lengte, Levenshtein-afstand of langste gezamenlijke substring) gerangschikt. Verder werd één van de zoekresultaten, namelijk de eiwitsequentie 5SNW4_V (d.w.z. het eerste resultaat weergegeven door BLAST), geselecteerd als een referentie ten opzichte van dewelke de Levenshtein-afstand en de langste gezamenlijke substring werden berekend. Zoals men in deze figuren kan waarnemen verschafte de onderhavige werkwijze, over hetvolledige bereik van zoekresultaten, een kleinere variatie in totale lengte (gekenmerkt door een relatieve plateau-overspanning over een significant gedeelte van de resultaten), een aanzienlijk lagere Levenshtein-afstand en een aanzienlijk grotere langste gezamenlijke substring, in vergelijking met de BLAST-resultaten.
De combinatie hiervan suggereert dat de werkwijze van de onderhavige uitvoeringsvorm in staat was tot het identificeren van resultaten die meer relevant zijn voor de uitgevoerde zoekopdracht.
Example 1b: Gebruik van een langer eiwit als zoekstring Het vorige voorbeeld werd herhaald, maar ditmaal werd een volledige eiwitsequentie, 3MN5 A (met een lengte van 359 eenheden) gezocht.
De eerste zoekopdracht, met behulp van BLAST, verschafte 88 zoekresultaten.
Anderzijds werd, op basis van de principes van de onderhavige uitvoeringsvorm, bepaald dat zes kenmerkende biologische subsequenties (d.w.z. ‘vingerafdrukken’) konden worden gevonden in de sequentie 3MN5_A; deze werden aangeduid als: +4641474444415052415646 1, +495647525052485147564d 1, +4949544e5744444d454b49 1, +494d464554464e5650414d 1, +494b454b4c435956414c44_1 en +49474d4553414749484554 1, waarbij bv. ‘49474d4553414749484554’ overeenkomt met de respectieve subsequentie in hexadecimaal formaat.
Zo werd de tweede zoekopdracht uitgevoerd, in dezelfde depot van verwerkte biologische sequenties als in het vorige voorbeeld, om die eiwitsequenties te vinden die dezelfde zes kenmerkende biologische subsequenties in dezelfde volgorde omvatten.
Deze zoekopdracht verschafte 661 resultaten.
We verwijzen nu naar Fig. 9, 10 en 11, die de resultaten tonen van beide zoekopdrachten (BLAST = stippellijn; onderhavige werkwijze = ononderbroken lijn) in termen van hun totale lengte (Fig. 9), hun Levenshtein-afstand (Fig. 10) en langste gezamenlijke substring (Fig. 11). Voor elke grafiek zijn de zoekresultaten van laag naar hoog weergegeven ten opzichte van de uitgezette parameter (d.w.z. totale lengte, Levenshtein-afstand of langste gezamenlijke substring) gerangschikt.
In dit geval werden de Levenshtein-afstand en de langste gezamenlijke substring ten opzichte van de originele opvraagsequentie 3MN5 A berekend.
Zoals men kan zien in deze figurenzijn de kenmerken van de zoekresultaten voor beide werkwijzen relatief vergelijkbaar aan de extremen. De onderhavige werkwijze verschafte in het intermediaire bereik een plateau van resultaten met weinig variatie in totale lengte, een lage Levenshtein- afstand en een tamelijk hoge langste gezamenlijke substring. De combinatie hiervan suggereert dat de werkwijze van de onderhavige uitvoeringsvorm in staat was tot het identificeren van een groter aantal relevante resultaten.
Het dient vermeld dat hoewel voorkeursuitvoeringsvormen, specifieke constructies en configuraties, evenals materialen hierin werden besproken voor inrichtingen volgens de onderhavige uitvoeringsvorm, er diverse veranderingen of modificaties in vorm en detail kunnen worden aangebracht zonder af te wijken van de doelstelling en technische omschrijvingen van deze beschrijving. Alle bovenstaande formules zijn louter representatief voor procedures die kunnen worden gebruikt. Functionaliteit kan worden toegevoegd aan of verwijderd van de blokdiagrammen en operaties kunnen tussen functionele blokken onderling verwisseld worden. Er kunnen stappen worden toegevoegd aan of verwijderd van werkwijzen die werden beschreven binnen de doelstelling van de onderhavige uitvoeringsvormen.

Claims (12)

Conclusies
1.- Depot van vingerafdruk-datastrings (100), waarbij elke vingerafdruk-datastring een kenmerkende biologische subsequentie voorstelt, het depot omvattende ten minste een eerste vingerafdruk-datastring die een eerste kenmerkende biologische subsequentie van een eerste lengte voorstelt en een tweede vingerafdruk-datastring die een tweede kenmerkende biologische subsequentie van een tweede lengte voorstelt, waarbij de eerste en de tweede lengte gelijk zijn aan 4 of meer en waarbij de eerste en de tweede lengte van elkaar verschillen.
2.- Depot van vingerafdruk-datastrings (100) volgens conclusie 1, verder omvattende voor ten minste één van de vingerafdruk-datastrings additionele metadata.
3.- Depot van vingerafdruk-datastrings (100) volgens een van de voorgaande conclusies, verder omvattende voor ten minste één van de vingerafdruk- datastrings gegevens met betrekking tot één of meer eenheden die direct vóór of na de kenmerkende biologische subsequentie kunnen verschijnen wanneer genoemde kenmerkende biologische subsequentie aanwezig is in een biologische sequentie.
4- Depot van vingerafdruk-datastrings (100) volgens een van de voorgaande conclusies, verder omvattende voor ten minste één van de vingerafdruk- datastrings gegevens met betrekking tot een secundaire en/of tertiaire en/of quaternaire structuur van de kenmerkende biologische subsequentie wanneer genoemde kenmerkende biologische subsequentie aanwezig is in een biopolymeer.
5.- Depot van vingerafdruk-datastrings (100) volgens een van de voorgaande conclusies, verder omvattende voor ten minste één van de vingerafdruk- datastrings gegevens met betrekking tot een verhouding tussen de kenmerkende biologische subsequentie en één of meer verdere kenmerkende biologische subsequenties.
6.- Depot van vingerafdruk-datastrings (100) volgens conclusie 5, waarbij de verhouding is uitgedrukt in de vorm van een route tussen twee of meer kenmerkende biologische subsequenties.
7.- Depot van vingerafdruk-datastrings (100) volgens de voorgaande conclusie, waarbij de verhouding een volgorde van de kenmerkende biologische subsequenties en/of hun onderlinge afstand omvat.
8.- Depot van vingerafdruk-datastrings (100) volgens een van de voorgaande conclusies, waarbij de eerste en tweede lengte tussen 5 en 15, bv. tussen 6 en 12 kan zijn.
9.- Depot van vingerafdruk-datastrings (100) volgens een van de voorgaande conclusies, waarbij de vingerafdruk-datastrings elke van eiwit-vingerafdruk- datastrings, DNA-vingerafdruk-datastrings of RNA-vingerafdruk-datastrings of een combinatie van één of meer van deze zijn.
10.-Opslaginrichting omvattende een depot van vingerafdruk-datastrings (100) volgens een van conclusies 1 tot en met 9.
11.- Verwerkingssysteem omvattende een opslaginrichting volgens conclusie 10 en een verwerkingseenheid aangepast voor het verkrijgen en/of opslaan van vingerafdruk-datastrings (100) naar/van genoemde opslaginrichting.
12.-Computerprogrammaproduct omvattende instructies die, wanneer het programma wordt uitgevoerd door een computersysteem, het computersysteem aanzetten tot het uitvoeren van het verkrijgen, zoeken en opslaan van vingerafdruk-datastrings (100) respectievelijk van, in of naar het depot van vingerafdruk-datastrings (100).
BE20195077A 2019-02-07 2019-02-07 Depot van vingerafdruk-datastrings BE1027035B1 (nl)

Priority Applications (22)

Application Number Priority Date Filing Date Title
BE20195077A BE1027035B1 (nl) 2019-02-07 2019-02-07 Depot van vingerafdruk-datastrings
CN202080012591.8A CN113454726B (zh) 2019-02-07 2020-02-07 生物信息处理
PCT/EP2020/053220 WO2020161344A1 (en) 2019-02-07 2020-02-07 Biological sequence information handling
KR1020217027614A KR102902195B1 (ko) 2019-02-07 2020-02-07 생물학적 정보 핸들링
IL285393A IL285393B2 (en) 2019-02-07 2020-02-07 Biological sequence information handling
EP20704821.6A EP3881326B1 (en) 2019-02-07 2020-02-07 Biological sequence information handling
CN202080015463.9A CN113454727A (zh) 2019-02-07 2020-02-07 生物序列信息处理
AU2020219429A AU2020219429B2 (en) 2019-02-07 2020-02-07 Biological information handling
US17/428,357 US20220199199A1 (en) 2019-02-07 2020-02-07 Biological sequence information handling
EP20704823.2A EP3921835A1 (en) 2019-02-07 2020-02-07 Biological information handling
EP23164752.0A EP4250300A3 (en) 2019-02-07 2020-02-07 Biological sequence information handling
PCT/EP2020/053223 WO2020161346A1 (en) 2019-02-07 2020-02-07 Biological information handling
KR1020217027414A KR102614401B1 (ko) 2019-02-07 2020-02-07 생물학적 서열 정보 핸들링
CA3129108A CA3129108C (en) 2019-02-07 2020-02-07 Biological sequence information handling
US17/428,478 US20220254449A1 (en) 2019-02-07 2020-02-07 Biological information handling
CA3129095A CA3129095A1 (en) 2019-02-07 2020-02-07 Biological information handling
JP2021546006A JP7602264B2 (ja) 2019-02-07 2020-02-07 生物学的情報の取り扱い
JP2021569592A JP7352985B2 (ja) 2019-02-07 2020-02-07 生物学的配列情報の取り扱い
AU2020218104A AU2020218104B2 (en) 2019-02-07 2020-02-07 Biological sequence information handling
IL285443A IL285443A (en) 2019-02-07 2021-08-08 Biological information management
ZA2021/06381A ZA202106381B (en) 2019-02-07 2021-09-01 Biological information handling
ZA2021/06380A ZA202106380B (en) 2019-02-07 2021-09-01 Biological sequence information handling

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BE20195077A BE1027035B1 (nl) 2019-02-07 2019-02-07 Depot van vingerafdruk-datastrings

Publications (2)

Publication Number Publication Date
BE1027035A1 true BE1027035A1 (nl) 2020-08-31
BE1027035B1 BE1027035B1 (nl) 2020-09-07

Family

ID=66439819

Family Applications (1)

Application Number Title Priority Date Filing Date
BE20195077A BE1027035B1 (nl) 2019-02-07 2019-02-07 Depot van vingerafdruk-datastrings

Country Status (1)

Country Link
BE (1) BE1027035B1 (nl)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020218626B2 (en) * 2019-02-07 2024-12-05 Bioclue Bv Biological sequencing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020397A1 (en) 2004-07-21 2006-01-26 Kermani Bahram G Methods for nucleic acid and polypeptide similarity search employing content addressable memories

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020397A1 (en) 2004-07-21 2006-01-26 Kermani Bahram G Methods for nucleic acid and polypeptide similarity search employing content addressable memories

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MUIR, PAUL ET AL.: "The real cost of sequencing: scaling computation to keep pace with data generation", GENOME BIOLOGY, vol. 17.1, 2016, pages 53

Also Published As

Publication number Publication date
BE1027035B1 (nl) 2020-09-07

Similar Documents

Publication Publication Date Title
Cattaneo et al. An effective extension of the applicability of alignment-free biological sequence comparison algorithms with Hadoop
US20240355426A1 (en) Functional protein classification for pandemic research
Friedberg et al. Using an alignment of fragment strings for comparing protein structures
Pibiri et al. Meta-colored compacted de Bruijn graphs
BE1027035B1 (nl) Depot van vingerafdruk-datastrings
Cenzato et al. BWT for string collections
KR102902195B1 (ko) 생물학적 정보 핸들링
JP7560885B2 (ja) 生物学的配列決定
EP3693970A1 (en) Biological sequence information handling
Fernández OrfViralScan 3.0: An intuitive tool for the identification and tracking of open reading frames in viral genomes
KR102614401B1 (ko) 생물학적 서열 정보 핸들링
EP3693971B1 (en) Biological sequencing
Parmentier et al. Cache-based parallelization of multiple sequence alignment problem
Torkamanian-Afshar et al. RPINaptaBASE: a Database for RNA-Protein Interaction Network Analysis and Aptamer Design
HK40061633A (en) Biological sequence information handling

Legal Events

Date Code Title Description
FG Patent granted

Effective date: 20200907