[go: up one dir, main page]

DE102005061819B3 - Verfahren zur Reduktion eines Datensatzes - Google Patents

Verfahren zur Reduktion eines Datensatzes Download PDF

Info

Publication number
DE102005061819B3
DE102005061819B3 DE200510061819 DE102005061819A DE102005061819B3 DE 102005061819 B3 DE102005061819 B3 DE 102005061819B3 DE 200510061819 DE200510061819 DE 200510061819 DE 102005061819 A DE102005061819 A DE 102005061819A DE 102005061819 B3 DE102005061819 B3 DE 102005061819B3
Authority
DE
Germany
Prior art keywords
values
value
sum
sub
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE200510061819
Other languages
English (en)
Inventor
Manfred Wozny
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE200510061819 priority Critical patent/DE102005061819B3/de
Priority to PCT/EP2006/011252 priority patent/WO2007079819A1/de
Application granted granted Critical
Publication of DE102005061819B3 publication Critical patent/DE102005061819B3/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • G01N30/724Nebulising, aerosol formation or ionisation
    • G01N30/7266Nebulising, aerosol formation or ionisation by electric field, e.g. electrospray
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8603Signal analysis with integration or differentiation
    • G01N30/8617Filtering, e.g. Fourier filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8696Details of Software

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

Ein Computerverfahren zur Reduktion eines Datensatzes, der aus N (n+1)-Tupeln (x<SUB>1alpha</SUB>, x<SUB>2alpha</SUB>, ..., x<SUB>nalpha</SUB>, y<SUB>alpha</SUB>) besteht, wobei alpha = 1, 2, ..., N gilt und n mindestens 2 beträgt, weist die folgenden Schritte auf: a) Erstellen eines ersten Summendatensatzes dadurch, dass die y-Werte der Tupel ersetzt werden durch die Summen der y-Werte derjenigen Tupel, deren x<SUB>1</SUB>-Werte in einem Intervall um den x<SUB>1</SUB>-Wert des ursprünglichen Tupels liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der x<SUB>1</SUB>-Dimension entsprechen, b) Erstellen eines zweiten Summendatensatzes dadurch, dass die y-Werte der Tupel des in a) erhaltenen ersten Summendatensatzes ersetzt werden durch die Summen der y-Werte derjenigen Tupel, deren x<SUB>2</SUB>-Werte in einem Intervall um den x<SUB>2</SUB>-Wert des ursprünglichen Tupels des ersten Summendatensatzes liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der x<SUB>2</SUB>-Dimension entsprechen, c) Für alle n > 2, falls vorhanden: Erstellen eines n-ten Summendatensatzes dadurch, dass die y-Werte der Tupel des in b) erhaltenen n-1 -ten Summendatensatzes ersetzt werden durch die y-Werte derjenigen Tupel, deren x<SUB>n</SUB>-Werte in einem Intervall um den x<SUB>n</SUB>-Wert des ursprünglichen Tupels des n-1 -ten Summendatensatzes liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der x<SUB>n</SUB>-Dimension entsprechen, d) Ermitteln mindestens ...

Description

  • Die vorliegende Erfindung betrifft allgemein das Gebiet der Reduktion der Datenmenge von Datensätzen wobei der Verlust an relevanter Information weitgehend vermieden wird.
  • Insbesondere betrifft die vorliegende Erfindung ein Verfahren zur Reduktion von Datensätzen, ein Computerprogramm, das in Verbindung mit einem Computer das erfindungsgemäße Verfahren ausführt, sowie ein entsprechendes Computerprogramm, das auf einem computerlesbaren Medium gespeichert ist.
  • Die Größe von Datensätzen spielt bei deren Bearbeitung mit dem Computer eine entscheidende Rolle. Die zunehmende Größe von Datensätzen verlängert die Bearbeitungsdauer und erhöht die Anforderungen an die Systemressourcen. So werden beispielsweise größere Speichermedien, ein verbessertes Speichermanagement sowie gesteigerte Prozessorenleistungen erforderlich. Somit verursachen große Datenmengen einen oft exponentiell ansteigenden Kostenaufwand und zudem einen erhöhten Zeitaufwand und machen so häufig die Bearbeitung dieser großen Datensätze mit dem Durchschnitts-PC unmöglich.
  • Ein Weg, diesen Problemen zu begegnen, ist es. die Größe der anfallenden Datensätze zu reduzieren.
  • Ein Gebiet, das hier lediglich beispielgebend näher erläutert werden soll und auf dem Probleme mit der anfallenden großen Datenmenge häufig auftreten, ist die Auswertung von Datensätzen von gekoppelten Chromatographie-Massenspektroskopie-Experimenten.
  • Hierbei wird eine zu untersuchende Probe zunächst chromatographisch in einer Säule aufgetrennt, bevor die einzelnen Probenbestandteile massenspektroskopisch analysiert werden.
  • Im Fall von LC-MS, d. h. Flüssigchromatographie-Massenspektrometrie(Liquid Chromatography – Mass Spectroscopy)-Experimenten, wird der massenspektroskopische Teil der Analyse oft mit der Elektrospray-Massenspektroskopie durchgeführt. Hierbei entstehen Datensätze, die in der Regel einen Umfang von einigen hundert Megabytes bis zu mehr als einem Gigabyte aufweisen.
  • Diese Größe der Datensätze ist problematisch sowohl im Hinblick auf die Auswertung als auch im Hinblick auf die Archivierung.
  • Im Stand der Technik sind beispielsweise folgende Verfahren bekannt, die Größe von LC-MS-Datensätzen zu reduzieren:
    Einerseits ist es möglich, die Detektionsempfindlichkeit des massenspektrometrischen Schritts zu reduzieren. Bei den häufig verwendeten MCP (Microchannelplate)-Detektoren kann dies dadurch erreicht werden, dass die MCP-Spannung vermindert wird. Mit dieser Maßnahme kann der Umfang der Datensätze beliebig reduziert werden. Allerdings hat diese Reduktion zur Folge, dass sehr schwache Signale nicht mehr detektiert werden oder dass der massenspektroskopische Response-Faktor – das Verhältnis der Intensität des massenspektroskopischen Signals zur Konzentration des Analyten in der Probe – mit abnehmender Analyt-Konzentration abnimmt und gegen Null strebt. Durch dieses Verhalten ist die zuverlässige Quantifizierung kleiner Signale nicht mehr sichergestellt. Dies stellt insbesondere bei vergleichenden Studien rekombinanter therapeutischer Proteine, sogenannten Comparability-Studien, einen entscheidenden Nachteil dar, da das Ziel solcher Studien darin besteht, die Anwesenheit nicht erwarteter Signale mit möglichst großer Zuverlässigkeit ausschließen zu können.
  • Weiterhin kann ein so genannter Cutoff-Wert bei der Datenaufnahme der Massenspektren verwendet werden. Bei diesem Verfahren handelt es sich ebenfalls um ein Verfahren, mit dem die Datensätze schon bei der Aufnahme der Daten in Ihrem Umfang beschränkt werden. Die Reduktion kommt dabei dadurch zustande, dass Signale unterhalb des Cutoff-Wertes nicht aufgezeichnet werden. Der Nach teil dieses Verfahrens besteht darin, dass der richtige Cutoff-Wert im Voraus nur schwer festzulegen ist, und in der Regel nicht derselbe Wert für alle Einzelspektren geeignet ist. Der letzte Punkt ist deshalb von Bedeutung, weil der Umfang unspezifischer Signale insbesondere durch das Vorhandensein von Analyt-Ionen hoher Konzentration signifikant erhöht wird.
  • Schließlich können Rauschsignale durch die statistische Analyse einzelner Massenspektren entfernt werden. Ein solches Verfahren ist beispielsweise in der Patentanmeldung WO 2005031791 beschrieben. Hierbei werden einzelne Massenspektren statistisch mit dem Ziel analysiert, unspezifische, d.h. dem Rauschen zuzuordnende Signale zu identifizieren, um diese Signale aus den Spektren zu entfernen. Ein ähnliches Verfahren ist auch in der unter dem Markennamen MassMap® (www.massmap.bregler.org) vertriebenen Software zur Auswertung von LC-MS-Datensätzen implementiert. Im Fall von MassMap® erfolgt keine Speicherung der Spektren, aus denen die Rauschsignale entfernt wurden. Die Software stellt eine Routine zur Verfügung, mit der Total-Ionenstrom-Chromatogramme berechnet werden, bei denen die dem Rauschen zugeordneten Signale nicht berücksichtigt werden. Mit der Entfernung von Peaks, die den Rauschsignalen zuzuordnen sind und wie sie anhand von statistischen Analysen einzelner Spektren identifiziert werden, werden eine Reduktion des Umfangs von LC-MS-Datensätzen und eine Verbesserung des Signal/Rausch-Verhältnisses von Total-Ionenstrom-Chromatogrammen erreicht. Allerdings führt die Betrachtung der Einzelspektren bei Signalen an der Nachweisgrenze dazu, dass auch bei diesem Verfahren viele Signale, die von Analyten stammen, fälschlicherweise dem Rauschen zugeordnet werden. Im Ergebnis resultiert auch hier ein Sensitivitätsverlust.
  • Nachteilig an all diesen Verfahren ist es somit, dass obwohl Signale, die den Analyten entsprechen, an der Nachweisgrenze noch zuverlässig detektierbar sind, die erwähnten Verfahren diese Signale in einzelnen Massenspektren als Rauschsignale fehlidentifizieren.
  • In der Konsequenz führen diese Verfahren so zu einer Verminderung der Detektierbarkeit von Signalen an der Nachweisgrenze.
  • Die Druckschrift US 3,800,236 beschreibt eine Schaltungsanordnung zum Kompensieren einer driftenden Grundlinie (Nulllinie) eines zu messenden Eingangssignals, das aus aufeinander folgenden Peaks besteht. Die Schaltungsanordnung weist auf: einen Peakdetektor, der einen Integrierer, der die Signalvariationen über aufeinander folgende kurze Messintervalle integriert und nach jedem Messintervall auf Null zurücksetzbar ist, und außerdem einen Vergleicher enthält, durch den der Ausgang des Integrierers mit einem speziellen Bezugssignal verglichen wird und der ein Peakerkennungssignal zur Verfügung stellt, wenn der Ausgang des Integrierers das Bezugssignal während eines Messintervalls überschreitet; einen Zähler, in dem Pulse bei einer Abweichung des Eingangssignals von Null gezählt werden können, einen Digital/Analog-Wandler, durch den das Ausleseergebnis des Zählers in ein analoges Korrektursignal gewandelt werden kann, das algebraisch von dem Eingangssignal zur Nulllinienkorrektur subtrahiert wird, und eine Einrichtung zum Steuern des Zählbetriebes in Abhängigkeit von dem Peakerkennungssignal des Peakdetektors derart, dass beim Bestimmen des Vorhandenseins eines Peaks in dem Eingangssignal die Nulllinienkompensation angehalten wird.
  • Die Druckschrift US 5,995,989 A beschreibt ein Verfahren zum Komprimieren und Filtern von Spektroskopiedaten. Das Verfahren dient zum Erkennen von Peaks und Filterdaten, die Hintergrundrauschen betreffen, wodurch das Datenvolumen verringert wird. Das Verfahren überwacht den Wert eines jeweiligen Datenpunkts und vergleicht diesen mit vorherigen Daten, um zu bestimmen, ob dieser Datenpunkt sich auf oder in der Nähe eines Peaks befindet. Die y-Werte für jeden Datenpunkt werden kontinuierlich aufsummiert und gemittelt, um den mittleren Hintergrundpegel zu bestimmen. Die Abweichung wird für jeden folgenden Datenpunkt bestimmt und verwendet, um einen Schwellenwert zu bestimmen. Jeder folgende Datenpunkt wird mit dem Schwellenwert verglichen, und wenn dieser oberhalb des Schwellenwertes ist, wird angenommen, dass er Teil eines Peaks ist oder sich in der Nähe davon befindet. Zu diesem Zeitpunkt wird die Mittelung angehalten, bis ein folgender Datenpunkt unterhalb des Schwellenwertes liegt. Nach der Erfassung sämtlicher Peaks können Daten, die das Hintergrundrauschen betreffen, weggelassen werden.
  • Bei den Verfahren gemäß der beiden zuletzt genannten Druckschriften ist es jedoch nicht möglich, kleine Peaks, die in den Bereich unterhalb des Schwellenwertes fallen, zu erkennen, so dass auch diese entfernt werden und somit wesentliche Information durch die Datenreduktion verloren geht.
  • Ausgehend vom Stand der Technik war es daher Aufgabe der vorliegenden Erfindung, ein Verfahren zur Reduktion von Datensätzen zur Verfügung zu stellen, bei der die Erkennbarkeit von Signalen an der Nachweisgrenze so wenig wie möglich vermindert wird.
  • Insbesondere war es Aufgabe der vorliegenden Erfindung, ein dementsprechendes Verfahren zur Reduktion von Chromatographie-Massenspektroskopie-Datensätzen, ein Computerprogramm, das in Verbindung mit einem Computer oder einem Computersystem dieses Verfahren ausführt, sowie ein entsprechendes Computerprogramm, das auf einem computerlesbaren Medium gespeichert ist, zur Verfügung zu stellen.
  • Diese Aufgabe wird durch ein Verfahren zur Reduktion von Datensätzen gemäß Anspruch 1 oder 2, durch ein Computerprogramm nach Anspruch 14, das in Verbindung mit einem Computer das erfindungsgemäße Verfahren ausführt, sowie durch ein Computerprogramm nach Anspruch 15, das auf einem computerlesbaren Medium gespeichert ist, gelöst.
  • Überraschenderweise hat der Erfinder der vorliegenden Erfindung herausgefunden, dass wenn man bei der statistischen Analyse einzelner Datensätze statt der einzelnen Datenaufnahmevorgänge, beispielsweise Scans, Summen mehrerer einzelner Datenaufnahmevorgänge verwendet, die Signale an der Nachweisgrenze nicht mehr fälschlicherweise dem Rauschen zugeordnet werden, sondern als relevante Signale erkannt werden.
  • Somit kam der Erfinder zu dem Resultat, dass man mit dem erfindungsgemäßen Verfahren letztendlich zu einem genaueren Ergebnis gelangt, obwohl man sum mierte Scans statt Einzelscans statistisch analysiert, und somit die absoluten Signalwerte und die Meßfehler summiert.
  • Neben diesen Eigenschaften unterscheidet sich das erfindungsgemäße Verfahren auch durch einige weitere Aspekte vom beispielsweise in der Patentanmeldung WO 2005031791 offenbarten Stand der Technik.
  • Im Unterschied zu dem Verfahren des Standes der Technik kommt das erfindungsgemäße Verfahren ohne einen Extraschritt zur Identifizierung von Peaks aus. Dies ermöglicht eine schnellere Datenverarbeitung und schont Systemressourcen.
  • Das erfindungsgemäße Verfahren benötigt ferner im Gegensatz zu dem in der Druckschrift WO 2005031791 offenbarten Verfahren keinerlei Voraussetzungen hinsichtlich der Struktur des Rauschens, während in der WO 2005031791 z.B. im Fall von Tof-Spektren eine Poisson-Verteilung angenommen wird.
  • Schließlich kann die Berechnung des Mittelwerts und der Standardabweichung als statistische Momente beim erfindungsgemäßen Verfahren beispielsweise nur für Datenpunkte mit von Null verschiedenen Intensitätswerten erfolgen.
  • Weiterhin hat der Erfinder überraschenderweise herausgefunden, dass die selektive Erkennung unspezifischer Peaks, wie beispielsweise Rauschpeaks, weiter verbessert wird, wenn die einzelnen Scans so summiert werden, dass sich die jeweils zu addierenden Scans an der Breite eines charakteristischen Signals orientieren.
  • Ein solches charakteristisches Signal ist beispielsweise ein Messsignal, das in der Dimension, in der es gemessen wurde, einen bestimmten Teil oder eine bestimmte Eigenschaft des gemessenen Objekts, beispielsweise einer Probensubstanz oder einer zu beobachtenden Anordnung genauer beschreibt.
  • Somit umfasst die vorliegende Erfindung ein Verfahren zur Reduktion eines Datensatzes, der aus N (n+1)-Tupeln (x, x, ... x, yα) besteht, wobei α=1, 2, ..., N gilt und n mindestens 2 beträgt, wobei das Computerverfahren die folgenden Schritte aufweist:
    • a) Erstellen eines ersten Summendatensatzes dadurch, dass die y-Werte der Tupel ersetzt werden durch die Summen der y-Werte derjenigen Tupel, deren x1-Werte in einem Intervall um den x1-Wert des ursprünglichen Tupels liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der x1-Dimension entsprechen,
    • b) Erstellen eines zweiten Summendatensatzes dadurch, dass die y-Werte der Tupel des in a) erhaltenen ersten Summendatensatzes ersetzt werden durch die Summen der y-Werte derjenigen Tupel, deren x2-Werte in einem Intervall um den x2-Wert des ursprünglichen Tupels des ersten Summendatensatzes liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der x2-Dimension entsprechen,
    • c) Für alle n > 2, falls vorhanden: Erstellen eines n-ten Summendatensatzes dadurch, dass die y-Werte der Tupel des in b) erhaltenen n-1-ten Summendatensatzes ersetzt werden durch die y-Werte derjenigen Tupel, deren xn-Werte in einem Intervall um den xn-Wert des ursprünglichen Tupels des n-1-ten Summendatensatzes liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der xn-Dimension entsprechen,
    • d) Ermitteln mindestens eines jeweiligen ersten statistischen Parameters des jeweiligen n-ten Summendatensatzes aus Schritt b) oder c),
    • e) Ermitteln eines jeweiligen Schwellenwertes für die y-Werte aus dem jeweiligen ersten statistischen Parameter,
    • f) Vergleichen der y-Werte des n-ten Summendatensatzes mit dem jeweiligen Schwellenwert,
    • g) Erzeugen eines reduzierten Datensatzes durch Entfernen aller Tupel des zu reduzierenden Datensatzes, deren entsprechender y-Wert im n-ten Summendatensatz aus Schritt b) oder c) nicht größer als der Schwellenwert ist.
  • Optional können auch in Schritt g) zunächst alle y-Werte des zu reduzierenden Datensatzes auf Null gesetzt werden, deren entsprechender Wert im n-ten Summendatensatz aus Schritt b) oder c) nicht größer als der jeweilige Schwellenwert ist.
  • Danach wird dann durch Entfernen der Tupel, deren y-Werte im vorhergehenden Schritt auf Null gesetzt wurden, ein reduzierter Datensatz erstellt.
  • Beispielsweise bei zeitabhängigen Bildverarbeitungs-Anwendungen ist ein solches Verfahren nützlich und reduziert die erforderliche Speichermenge ohne Qualitätsverlust und verbessert zusätzlich die Bildqualität durch den Wegfall von Rauschsignalen.
  • Besonders geeignet ist ein solches Verfahren beispielsweise, wenn Veränderungen von bekannten Objekten im Laufe der Zeit überwacht werden sollen. Denkbar ist eine Anwendung des erfindungsgemäßen Verfahrens somit unter anderem bei der Datensicherung bei Kamera-gestützen Überwachungssystemen.
  • Bei Chromatographie-Massenspektroskopie-Analyseverfahren wird ein zusätzlicher Gewinn an Selektivität mit dem erfindungsgemäßen Verfahren dadurch erreicht, dass die Bewertung der Signale der summierten Massenspektren anhand von Summen erfolgt, die sich über m/z-Bereiche erstrecken, die der erwarteten Breite massenspektrometrischer Signale entsprechen.
  • Hierbei können beliebige chromatographische Verfahren, wie beispielsweise Flüssigkeitschromatographie, Kapillarelektrophorese oder Gaschromatographie mit beliebigen geeigneten massenspektroskopischen Verfahren, wie z.B. Elektrospray-, Elektronenstoß-Ionisation-, Kollisions-Aktivierungs-, oder Neutralisations-Reionisierungs-MS kombiniert werden.
  • Somit ist eine Ausführungsform der vorliegenden Erfindung ein Verfahren zur Reduktion von beispielsweise Flüssigchromatographie-Massenspektroskopie-Datensätzen durch Entfernen unspezifischer Signale aus den Datensätzen, die aus N Massenspektren Mα bestehen, die während der Erstellung der Datensätze zu aufeinander folgenden Zeiten tα aufgenommen werden und die jeweils nα Wertepaare (xαj, yαj) aufweisen, wobei die xαj die m/z-Werte und die yαj die Intensitätswerte darstellen und α ∊ {1, 2, ..., N} sowie j ∊ {1, 2, ..., nα} gilt, wobei das Verfahren die folgenden Schritte aufweist:
    • a) für α ∊ {1, ...N} Summieren von einzelnen Massenspektren aus der Gesamtheit der Massenspektren einschließlich Mα, die innerhalb eines tα einschließenden Zeitintervalls Tα aufgenommen wurden, zu jeweiligen ersten Summenmassenspektren M'α bestehend aus n'α Wertepaaren (x'αk, y'αk), wobei k ∊ {1,2, ..,n'α} gilt, und die Breite der Zeitintervalle Tα in Abhängigkeit von der Breite von mindestens einem chromatographischen Peak im Zeitbereich um tα bestimmt wird,
    • b) für jedes x'αk eines jeweiligen ersten Summenmassenspektrums M'α Summieren der Werte y'αm, deren entsprechende Werte x'αm in einem m/z-Intervall X'αk um x'αk liegen, zu jeweiligen Summenwerten y''αk, um ein jeweiliges zweites Summenmassenspektrum M''α zu erhalten mit den Wertepaaren (x''αk=x'αk,y''αk), wobei das m/z-Intervall X'αk in Abhängigkeit von der Breite der entsprechenden massenspektrometrischen Peaks im Bereich um x'αk bestimmt wird,
    • c) Ermitteln mindestens eines jeweiligen ersten statistischen Parameters des jeweiligen zweiten Summenmassenspektrums M''α,
    • d) Ermitteln eines jeweiligen Schwellenwerts Yα aus dem jeweiligen ersten statistischen Parameter,
    • e) Vergleichen der Summenwerte y''αk mit dem jeweiligen Schwellenwert Yα,
    • f) Erzeugen eines jeweiligen reduzierten Datensatzes durch Entfernen der Wertepaare (xαj, yαj) der jeweiligen Massenspektren Mα, für die die entsprechenden Summenwerte y''αk nicht größer als der jeweilige Schwellenwert Yα sind, wobei x''αk = xαj gilt.
  • Auch bei diesem Verfahren ist es wiederum möglich, den Schritt f) in zwei Teilschritte zu unterteilen, wobei in einem ersten Teilschritt die yαj-Werte der jeweiligen Massenspektren Mα, für die die entsprechenden Summenwerte y''αk nicht größer als der jeweilige Schwellenwert Yα sind, zu Null gesetzt werden. In einem zweiten Teilschritt werden diese Wertepaare mit den zu Null gesetzten yαj-Werten aus dem Datensatz entfernt.
  • Entsprechend einer besonders bevorzugten Ausführungsform der Erfindung findet in Schritt a) eine gewichtete Summation statt, bei der die Gewichtung der zu summierenden Massenspektren Mβ eine mit dem Betrag |tα – tβ| des zeitlichen Abstands des Massenspektrums vom jeweiligen Massenspektrum Mα monoton abnehmende Funktion darstellt.
  • Unter monoton abnehmend wird verstanden, dass der Funktionswert mit größer werdendem x nicht größer wird, d.h., dass aus x1 < x2 folgt, dass f(x1) ≥ f(x2) ist.
  • Bevorzugt ist die Funktion streng abnehmend, d.h., dass aus x1 < x2 folgt, dass f(x1) > f(x2) ist.
  • In einer weiteren bevorzugten Ausführungsform der Erfindung findet in Schritt b) eine gewichtete Summation der Intensitäten statt, bei der die Gewichtung der jeweiligen Werte y'αm eine mit dem Betrag |x'αm – x'αk| des Abstandes des jeweiligen Wertes x'αm von x'αk monoton abnehmende Funktion darstellt.
  • Auch hier ist eine streng monoton abnehmende Funktion wiederum besonders bevorzugt.
  • Bei einem erfindungsgemäßen Verfahren zur Reduktion von Datensätzen für Chromatographie-Massenspektroskopiedatensätze kann ferner der jeweilige Zeitbereich Tα so ausgewählt werden, dass er im Wesentlichen der vollen Breite auf halber Höhe (FWHM) der chromatographischen Peaks entspricht.
  • So kann die Scan-Summation jeweils optimal an ein vorhandenes Signal angepasst werden. Somit wird sichergestellt, dass sich die Anzahl der summierten Scans in sinnvoller Weise aus den Umständen ergibt, und dass nur die Scans in einem Teilbereich summiert werden, die sinnvollerweise eine gewisse Datenähnlichkeit erwarten lassen. In besonderer Weise wird durch diesen Schritt der Probenauftrennung in dem vorgeschalteten Chromatographieverfahren Rechnung getragen. Ergeben sich in dem Chromatogramm relativ breite Peaks, so wird bevorzugt auch nur über diese breiten Bereiche summiert, während, wenn die Chromatographie vorwiegend schmale Peaks liefert, auch nur über diese schmalen Bereiche summiert wird. Dies hat den Vorteil, dass die Massenspektren in den Bereichen summiert werden, die nach dem Chromatographieschritt einer größtenteils aufgereinigten Probenkomponente entsprechen.
  • Ebenso kann in dem zweiten Summierungsschritt der Summierungsbereich Xαk so ausgewählt werden, dass er im Wesentlichen der vollen Breite auf halber Höhe (FWHM) der massenspektrometrischen Peaks im Summierungsbereich entspricht. Die hierbei für die Intervallgröße zu verwendende Peakbreite muss nicht vom jeweiligen Massenspektrum abhängen, sondern ist in der Regel eine Funktion des m/z- bzw. x-Werts. Die Peakbreite kann auf der Grundlage der Auflösung des Massenanalysators bestimmt werden. Sie kann entweder, wie im Fall von Ionenfallen und Quadrupolanalysatoren, weitgehend unabhängig vom m/z-Wert oder, wie im Fall von Tof-Analysatoren, direkt proportional zum m/z-Wert sein. Durch diese Auswahl des Summierungsbereichs Xαk wird vermieden, dass zu viele unspezifische Signale summiert werden, die aus peakfremden Bereichen stammen.
  • Die Berechnung der statistischen Parameter der zweiten Summenmassenspektren erfolgt bevorzugt individuell für jedes einzelne Spektrum. Die gemeinsame Verwendung von statistischen Parametern für mehrere Spektren ist jedoch ebenfalls möglich.
  • Die Ermittlung des Schwellenwerts Yα im Schritt d) weist in einer weiteren Ausführungsform die folgenden Schritte auf:
    • da) Ermitteln eines ersten Schwellenwerts Yα1 aus dem ersten statistischen Parameter,
    • db) Ermitteln mindestens eines zweiten statistischen Parameters für diejenigen Wertepaare des zweiten Summenmassenspektrums M''α, für die der Summenwert y''αk größer als der erste Schwellenwert Yα1 ist,
    • dc) Ermitteln eines zweiten Schwellenwerts Yα2 aus dem zweiten statistischen Parameter,
    • dd) Wiederholen der Schritte da) bis dc) bis der Betrag der Differenz zwischen dem ersten Schwellenwert Yα1 und dem zweiten Schwellenwert Yα2 einen vorbestimmten Grenzwert ΔY nicht mehr übersteigt.
  • Solch ein Verfahren erlaubt es, dass der Schwellenwert jeweils automatisch für jedes Summenmassenspektrum optimal angepasst berechnet wird und nicht durch den Fachmann jeweils individuell festgelegt werden muss.
  • Optional können die Schritte c) bis e) für den gesamten Wertepaarbereich des jeweiligen zweiten Summenmassenspektrums M''α durchgeführt werden.
  • In einer Ausführungsform wird zur Durchführung der Schritte c) bis e) das jeweilige zweite Summenmassenspektrum M''α in Wertepaarteilbereiche Iακ mit
    Figure 00140001
    unterteilt, und die Schritte c) bis e) werden jeweils für einen Wertepaarteilbereich Iακ durchgeführt.
  • Hierdurch kann vorteilhafterweise der Wertepaarteilbereich in seiner Ausdehnung an die entsprechende Peakbreite angepasst werden, so dass entsprechend einer weiteren Ausführungsform bei der Bearbeitung von massenspektroskopischen Datensätzen der jeweilige Wertepaarteilbereich Iακ in Abhängigkeit von der Breite der massenspektrometrischen Peaks bestimmt wird.
  • In einer speziellen Ausführungsform werden die Wertepaarteilbereiche Iακ entsprechend den folgenden Gleichungen bestimmt:
    Figure 00140002
    Figure 00150001
    wobei X(u)ακ die untere Grenze und X(o)ακ die obere Grenze des Wertepaarteilbereichs Iακ sind, β einen Faktor größer als 5 darstellt, und δ für die Breite des Summierungsbereichs X'ακ für m/z-Werte des Wertepaarbereichs Iακ steht.
  • Weiterhin können bei dem erfindungsgemäßen Verfahren im Schritt c) der Mittelwert MWα und die Standardabweichung SDα der von Null verschiedenen Intensitätswerte als statistische Parameter und im Schritt d) der Schwellenwert Yα entsprechend der Gleichung Yα = MWα + f(α)·SDα bestimmt werden, wobei f(α) einen Faktor darstellt, der bevorzugt in einem Bereich von 0,5 bis 5 rangiert und besonders bevorzugt 2 ist.
  • Es ist dem Fachmann jedoch klar, dass er je nach den Anforderungen an die Genauigkeit der Datenerfassung bzw. an die Größe der resultierenden Datensätze den Faktor f(α) jeweils individuell anpassen kann. Hierbei führt ein kleiner Faktor f(α) zu einer besseren Datenerfassung an der Nachweisgrenze, allerdings auch zu einer erhöhten Datenmenge.
  • Es ist dem Fachmann ferner klar, dass sämtliche in dieser Erfindung offenbarte Ausführungsformen beliebig miteinander kombinierbar sind, ohne dass dadurch vom Umfang der vorliegenden Erfindung abgewichen wird.
  • Losgelöst von spektroskopischen Analyseverfahren ist ein erfindungsgemäßes Verfahren zur Reduktion von Datensätzen beispielsweise auch auf dem Gebiet der Bildverarbeitung denkbar.
  • Ein entsprechendes Computerprogramm, das in Verbindung mit einem Computer direkt oder nach Durchführung einer vorbestimmten Routine ein Verfahren nach einem der Ansprüche 2 bis 13 ausführt, ist ebenfalls durch die vorliegende Erfindung umfasst.
  • Schließlich umfasst die vorliegende Erfindung ein Computerprogramm, das auf einem computerlesbaren Medium, wie beispielsweise Disketten, Festplatten, tragbare Laufwerke, CDs, DVDs, optische Disketten oder Bänder, gespeichert ist.
  • Weitere Vorteile und Ausführungsformen der vorliegenden Erfindung ergeben sich aus den Ausführungsbeispielen sowie aus der Zeichnung.
  • Es zeigt
  • 1 einen schematischen Überblick über wesentliche Verfahrensschritte des erfindungsgemäßen Verfahrens;
  • 2 einen Ausschnitt aus dem Totalionenstrom-Chromatogramm eines Datensatzes;
  • 3 einen Ausschnitt aus dem Summenmassenspektrum (Summe der Scans von 13,85 min bis 14,25 min) des in 2 mit A gekennzeichneten Peaks;
  • 4 einen vergrößerten Ausschnitt des Massenspektrums aus 3 in der Umgebung des in 3 mit a bezeichneten Peaks;
  • 5 einen Vergleich von Summenmassenspektren, wie sie ausgehend von verschieden verarbeiteten Datensätzen entsprechend dem Summenmassenspektrum der 3 erhalten wurden; und
  • 6 einen Vergleich von Summenmassenspektren, wie sie ausgehend von verschieden verarbeiteten Datensätzen entsprechend dem Summenmassenspektrum der 3 erhalten wurden.
  • Die folgenden Beispiele sollen dazu dienen, die Erfindung zu verdeutlichen. Sie sind jedoch nicht dafür vorgesehen, den Umfang der vorliegenden Erfindung, wie er durch die Patentansprüche bestimmt wird, einzuschränken.
  • Anhand von 1 wird das erfindungsgemäße Verfahren anhand eines Datensatzes aus einem LC-MS-Experiment schematisch beispielhaft erläutert.
  • Ein solcher Datensatz besteht hier beispielsweise aus einer Anzahl einzelner Massenspektren, die in regelmäßiger zeitlicher Abfolge aufgenommen werden. Ein solches Einzelmassenspektrum Mα, das aus einer Anzahl an Wertepaaren (xαj, yαj) besteht, ist schematisch im oberen Schaubild in 1A dargestellt.
  • Diese Einzelmassenspektren werden nun in einem ersten Schritt intervallartig summiert. Dies geschieht, indem eine bestimmte Anzahl an Spektren, die zeitlich aufeinander folgend aufgenommen wurden, summiert werden. Hierbei umfassen die im Summationsintervall Tα summierten Spektren das Einzelmassenspektrum Mα, das zum Zeitpunkt tα aufgenommen wurde, sowie die Spektren Mα–6, Mα–5, Mα–4, Mα–3, Mα–2, Mα–1, Mα+1, Mα+2, Mα+3, Mα+4, Mα+5 und Mα+6.
  • Das auf diese Weise erhaltene erste Summenmassenspektrum M'α ist im unteren Schaubild in 1A gezeigt.
  • In einem zweiten Schritt, gezeigt in 1B, werden die so erhaltenen ersten Summenmassenspektrum M'α erneut summiert. Diese Summation erfolgt jedoch anders als im ersten Summationsschritt innerhalb der jeweiligen ersten Summenmassenspektren. Hier werden die zu den x'αk-Werten gehörigen y'αk-Werte innerhalb eines Intervalls X'αk jeweils intervallartig zu einem y''αk-Wert summiert, so dass das im unteren Schaubild in 1B gezeigte zweite Summenmassenspektrum M''α entsteht.
  • Aus diesen zweiten Summenmassenspektrums M''α wird nun ein erster statistischer Parameter bestimmt, woraus wiederum ein Schwellenwert Yα ermittelt wird.
  • Dieser Schwellenwert ist im oberen Schaubild in 1C durch eine horizontale Linie im zweiten Summenmassenspektrum angegeben. Erkennbar liegen einige y''αk-Werte in dem zweiten Summenmassenspektrum unter dem Schwellenwert Yα.
  • Diese y''αk-Werte, die kleiner als Yα sind, sind einem x''αk-Wert zugeordnet. Diesem jeweiligen x''αk-Wert im zweiten Summenmassenspektrum M''α entspricht ein xαk-Wert in einem Einzelmassenspektrum Mα. Dieses entsprechende Einzelmassenspektrum Mα ist zur verbesserten Übersichtlichkeit noch einmal direkt unter dem Summenmassenspektrum M''α in dem zweiten Schaubild von oben in der 1C erneut dargestellt.
  • In einem letzten Schritt werden die Wertepaare (xαj, yαj) aus dem jeweiligen entsprechenden Einzelmassenspektrum Mα entfernt, deren entsprechende y''αk-Werte kleiner als Yα sind.
  • Auf diese Weise entsteht ein reduzierter Datensatz ohne den Verlust relevanter Information.
  • Das Ergebnis der erfindungsgemäßen Datenverarbeitung wird im Folgenden anhand eines beispielhaften LCMS-Datensatzes näher erläutert.
  • Bei der dem Datensatz zu Grunde liegenden Probe handelt es sich um einen Proteinspot, der aus einem Polyacrylamidgel isoliert wurde. Die reduzierte und alkylierte Probe wurde tryptisch verdaut.
  • Die im Chromatographieschritt erfolgte RP („reversed phase")-Analyse des Peptidgemisches erfolgte mit Hilfe einer Vydac C18-Kapillarsäule (Durchmesser 0,3 mm, Länge 150 mm) und eines linearen Acetonitril/Wasser-Gradienten (Eluent A: Wasser mit 0,075% (v/v) TFA; Eluent B: 80% Acetonitril/20% Wasser mit 0,055% TFA; Gradient: 5% B bis 90% B in 30 Minuten; Flussrate 5 μl/min).
  • 2 zeigt einen Ausschnitt aus dem so erhaltenen Totalionenstrom-Chromatogramm der zu analysierenden reduzierten, alkylierten und tryptisch verdauten Proteinspotprobe. Klar erkennbar ist, wie der RP-Trennungsschritt die Probe aufgetrennt hat, so dass die einzelnen Bestandteile der zu analysierenden Probe in zeitlicher Abfolge als Eluat die Säule verlassen haben.
  • Dieses Eluat der Säule wurde direkt in die Quelle eines Electrospray-Massenspektrometers eingeleitet. Bei dem Gerät handelte es sich um ein Q-Tof 2 der Fa. Micromass, GB. Als Ionenquelle wurde eine Nano-Spray-Vorrichtung verwendet. Der zeitliche Abstand zwischen den Massenspektren betrug 2,15 s, die Massenspektren wurden von 200 amu bis 2000 amu aufgenommen. Hierbei entspricht 1 (Atommasseneinheit (atomic mass unit)) 1,660538 × 10–27 kg.
  • Ein Summenspektrum des so aufgenommenen Datensatzes ist in 3 gezeigt. 3 zeigt einen Ausschnitt aus dem Summenmassenspektrum (Summe der Scans von 13,85 min bis 14,25 min) des in 2 mit A gekennzeichneten Peaks. Der Datensatz weist die in Tabelle 1 angegebenen Eigenschaften auf: Tabelle 1:
    Figure 00200001
  • 4 zeigt einen vergrößerten Ausschnitt aus dem Spektrum aus 3. Es ist deutlich sichtbar, dass sich die einzelnen Peaks des Massenspektrums über einen gewissen m/z-Bereich erstrecken und einen FWHM-Wert von etwa 0,15 amu aufweisen.
  • Dieser Datensatz wurde mit dem erfindungsgemäßen Verfahren und vergleichsweise mit dem in der WO 2005031791 offenbarten Verfahren verarbeitet.
  • Auf die Druckschrift WO 2005031791 wird hiermit vollinhaltlich verwiesen.
  • Entsprechend dem in der Druckschrift WO 2005031791 gelehrten Verfahren wurden zunächst die Daten ausgelesen, die mit einem jeweiligen Spektrum korrespondieren. Anschließend wurde eine statistische Rausch-Analyse mit diesen ausgelesenen Daten durchgeführt, um statistische Parameter zu erhalten, die mit der Rauschverteilung im Zusammenhang stehen. Bei der Berechnung der Erwartungswerte und der Standardabweichungen als diese statistischen Parameter wurden in Übereinstimmung mit der Beschreibung alle Datenpunkte verwendet und somit auch solche, die Intensitätswerte gleich Null aufwiesen. Aus den erhaltenen statistischen Parametern wurde ein Grenzwert bestimmt. Dieser Grenzwert ergab sich aus dem Erwartungswert, multipliziert mit dem Zweifachen der Standardabweichung. Schließlich wurden die relevanten Signale in einem jeweiligen Spektrum durch Vergleich der Datenpunkte in dem Spektrum mit dem Grenzwert identifiziert. Signale mit einer Intensität unterhalb dieses Grenzwerts wurden verworfen.
  • Bei der Verarbeitung desselben Datensatzes mit dem erfindungsgemäßen Verfahren wurde die Breite der Zeitbereiche Tα konstant auf 7 Datenpunkte eingestellt, wobei die Zeitbereiche symmetrisch um tα verteilt waren. Die Breite der m/z-Intervalle X'αk entsprach x'αj/5000, wobei diese Intervalle ebenfalls symmetrisch um x'αj verteilt waren.
  • Schließlich wurde das Verfahren mit dem Faktor zur Bestimmung der Wertepaarteilbereiche β = 400 und mit variablen Werten für den Faktor f im Bereich von 2 bis 2,5 zur Bestimmung des Schwellenwerts durchgeführt.
  • Die Dateigrößen, die sich dadurch ergeben, dass alle Datenpunkte aus den Originalspektren entfernt werden, deren zuzuordnende Intensitäten in den jeweiligen zweiten Summenmassenspektren nach Durchführung der Schritte a) bis f) gemäß Anspruch 2 gleich Null sind, sind in der nachfolgenden Tabelle 2 zusammengestellt und werden mit den resultierenden Dateigrößen nach der Datensatzverarbeitung gemäß der WO 2005031791 verglichen. Tabelle 2:
    Figure 00220001
  • Zur Bewertung der resultierenden Datensätze wurden von den Datensätzen mit f = 2,15 und f = 2,50 die Summenmassenspektren berechnet.
  • Vergleiche der entsprechenden Summenmassenspektren sind in den 5 und 6 gezeigt.
  • In 5 wurde das mit „Original geglättet" bezeichnete Spektrum dadurch erhalten, dass das vom Originaldatensatz abgeleitete Einzelspektrum a) einer binomialen Glättung unterworfen wurde. Dieses geglättete Spektrum ist mit b) bezeichnet. Die in dieses Spektrum eingezeichnete Linie entspricht dem Rauschpegel des Spektrums, d.h. dass Peaks oberhalb der Linie als echt zu betrachten sind, während Peaks, die die Linie nicht übersteigen, nicht notwendigerweise als signifikant anzusehen sind. Das Vergleichsspektrum c) wurde nach der Datenverarbeitung mit dem in der WO 2005031791 offenbarten Verfahren erhalten. Spektrum d) wurde mit dem erfindungsgemäßen Verfahren erstellt. Hierbei wurde für f ein Wert von 2,15 gewählt.
  • Der mit dem erfindungsgemäßen Verfahren mit f = 2,15 erhaltene Datensatz besitzt entsprechend der oben gezeigten Tabelle einen Umfang, der etwas kleiner ist als der Umfang des gemäß der WO 2005031791 erhaltenen Datensatzes. Trotz ungefähr gleichen Umfangs sind im Massenspektrum, das entsprechend dem erfindungsgemäßen Verfahren erhalten wurde, alle die im Spektrum b) mit Buchstaben gekennzeichneten signifikanten Peaks eindeutig erkennbar.
  • Im Gegensatz dazu sind in dem nach WO 2005031791 erzeugten Massenspektrum die Peaks b, e, i, r, t und w nicht mehr erkennbar.
  • Analog zu 5 wurden das in 6 mit b) bezeichnete Spektrum dadurch erhalten, dass das vom Originaldatensatz abgeleitete Spektrum a) einer binomialen Glättung unterworfen wurde.
  • Das Vergleichsspektrum c) wurde nach der Datenverarbeitung mit dem in der WO 2005031791 offenbarten Verfahren erhalten und ist mit dem in 5 gezeigtem Spektrum identisch.
  • Das mit d) bezeichnete Spektrum wurde abgeleitet aus einem Datensatz, der entsprechend dem erfindungsgemäßen Verfahren mit f = 2,50 erhalten wurde.
  • Es ist offensichtlich, dass selbst bei dem mit f = 2,50 entsprechend dem erfindungsgemäßen Verfahren erhaltene Spektrum die Detektierbarkeit signifikanter Peaks mit Intensitäten an der Nachweisgrenze verglichen mit dem gemäß WO 2005031791 erhaltenen Spektrum stark verbessert ist. Dies gilt, obwohl der entsprechende Datensatz einen Umfang besitzt, der lediglich 55 % des Umfangs des nach der WO 2005031791 erhaltenen Datensatzes beträgt.
  • Da der Rechenaufwand zur automatischen Auswertung von LCMS-Datensätzen ungefähr mit dem Quadrat der Datensatzgröße zunimmt, bedeutet eine Halbierung der Datensatzgröße bei gleichzeitig verbesserter Detektierbarkeit von Signalen nahe der Nachweisgrenze einen wesentlichen Vorteil.
  • So können durch das erfindungsgemäße Verfahren kleinere Datensätze mit sehr genauen Informationen auch mit vergleichsweise leistungsschwachen Computern zügig bearbeitet werden.
  • Die Genauigkeit an der Nachweisgrenze erlaubt dabei dennoch eine sehr detaillierte Auswertung der Daten.
  • Auch die Datensicherung erfordert geringere Systemressourcen, da durch die Nichtberücksichtigung unspezifischer Information und durch die Beschränkung auf die signifikante Information die zu speichernde Datenmenge erheblich reduziert wird.

Claims (15)

  1. Verfahren zur Reduktion eines Datensatzes, der aus N (n+1)-Tupeln (x, x, ... x, yα) besteht, wobei α=1, 2, ..., N gilt und n mindestens 2 beträgt, das die folgenden Schritte aufweist: a) Erstellen eines ersten Summendatensatzes dadurch, dass die y-Werte der Tupel ersetzt werden durch die Summen der y-Werte derjenigen Tupel, deren x1-Werte in einem Intervall um den x1-Wert des ursprünglichen Tupels liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der x1-Dimension entsprechen, b) Erstellen eines zweiten Summendatensatzes dadurch, dass die y-Werte der Tupel des in a) erhaltenen ersten Summendatensatzes ersetzt werden durch die Summen der y-Werte derjenigen Tupel, deren x2-Werte in einem Intervall um den x2-Wert des ursprünglichen Tupels des ersten Summendatensatzes liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der x2-Dimension entsprechen, c) Für alle n > 2, falls vorhanden: Erstellen eines n-ten Summendatensatzes dadurch, dass die y-Werte der Tupel des in b) erhaltenen n-1-ten Summendatensatzes ersetzt werden durch die y-Werte derjenigen Tupel, deren xn-Werte in einem Intervall um den xn-Wert des ursprünglichen Tupels des n-1-ten Summendatensatzes liegen, wobei die Intervalle so gewählt sind, dass ihre Breiten der Breite charakteristischer Signale in der xn-Dimension entsprechen, d) Ermitteln mindestens eines jeweiligen ersten statistischen Parameters des jeweiligen n-ten Summendatensatzes aus Schritt b) oder c), e) Ermitteln eines jeweiligen Schwellenwertes für die y-Werte aus dem jeweiligen ersten statistischen Parameter, f) Vergleichen der y-Werte des n-ten Summendatensatzes mit dem jeweiligen Schwellenwert, g) Erzeugen eines reduzierten Datensatzes durch Entfernen aller Tupel des zu reduzierenden Datensatzes, deren entsprechender y-Wert im n-ten Summendatensatz aus Schritt b) oder c) nicht größer als der Schwellenwert ist.
  2. Verfahren zur Reduktion von Chromatographie-Massenspektroskopiedatensätzen durch Entfernen unspezifischer Signale aus Datensätzen, die aus einer Gesamtheit von N Massenspektren Mα bestehen, die zu den aufeinander folgenden Zeiten tα aufgenommen werden und die jeweils nα Wertepaare (xαj, yαj) aufweisen, wobei die xαj die m/z-Werte und die yαj die Intensitätswerte darstellen und α ∊ {1,2, ..., N} sowie j ∊ {1,2, ..., nα} gilt, das die folgenden Schritte aufweist: a) für α ∊ {1, ...N} Summieren von einzelnen Massenspektren aus der Gesamtheit der Massenspektren einschließlich Mα, die innerhalb eines tα einschließenden Zeitintervalls Tα aufgenommen wurden, zu jeweiligen ersten Summenmassenspektren M'α bestehen aus n'α Wertepaaren (x'αk, y'αk), wobei k ∊ {1,2, .., n'α} gilt, und die Breite der Zeitintervalle Tα in Abhängigkeit von der Breite von mindestens einem chromatographischen Peak im Zeitbereich um tα bestimmt wird, b) für jedes x'αk eines jeweiligen ersten Summenmassenspektrums M'α Summieren der Werte y'αm, deren entsprechende Werte x'αm in einem m/z-Intervall X'αk um x'αk liegen, zu jeweiligen Summenwerten y''αk, um ein jeweiliges zweites Summenmassenspektrum M''α zu erhalten mit den Wertepaaren (x''αk=x'αk, y''αk), wobei das m/z-Intervall X'αk in Abhängigkeit von der Breite der entsprechenden massenspektrometrischen Peaks im Bereich um x'αk bestimmt wird, c) Ermitteln mindestens eines jeweiligen ersten statistischen Parameters des jeweiligen zweiten Summenmassenspektrums M''α, d) Ermitteln eines jeweiligen Schwellenwerts Yα aus dem jeweiligen ersten statistischen Parameter, e) Vergleichen der Summenwerte y''αk mit dem jeweiligen Schwellenwert Yα, f) Erzeugen eines jeweiligen reduzierten Datensatzes durch Entfernen der Wertepaare (xαj, yαj) der jeweiligen Massenspektren Mα, für die die entsprechenden Summenwerte y''αk nicht größer als der jeweilige Schwellenwert Yα sind, wobei x''αk = xαj gilt.
  3. Verfahren gemäß Anspruch 2, wobei im Schritt a) eine gewichtete Summation erfolgt, bei der die Gewichtung der zu summierenden Massenspektren Mβ eine mit dem Betrag |tα – tβ| des zeitlichen Abstands des Massenspektrums vom jeweiligen Massenspektrum Mα monoton abnehmende Funktion darstellt.
  4. Verfahren gemäß Anspruch 2, wobei im Schritt b) eine gewichtete Summation erfolgt, bei der die Gewichtung der jeweiligen Werte y'αm eine mit dem Betrag |X'αm – X'αk| des Abstandes des jeweiligen Wertes x'αm von x'αk monoton abnehmende Funktion darstellt.
  5. Verfahren gemäß einem der Ansprüche 2 bis 4, wobei die Ermittlung des Schwellenwertes Yα im Schritt d) die folgenden Schritte aufweist: da) Ermittlung eines ersten Schwellenwertes Yα1 aus dem ersten statistischen Parameter, db) Ermitteln mindestens eines zweiten statistischen Parameters für diejenigen Wertepaare des zweiten Summenmassenspektrums M''α, für die der Summenwert y''αk größer als der erste Schwellenwert Yα1 ist, dc) Ermitteln eines zweiten Schwellenwertes Yα2 aus dem zweiten statistischen Parameter, dd) Wiederholen der Schritte da) bis dc) bis der Betrag der Differenz zwischen dem ersten Schwellenwert Yα1 und dem zweiten Schwellenwert Yα2 einen vorbestimmten Grenzwert ΔY nicht mehr übersteigt.
  6. Verfahren gemäß einem der Ansprüche 2 bis 5, wobei die Schritte c) bis e) für den gesamten Wertepaarbereich des jeweiligen zweiten Summenmassenspektrums M''α durchgeführt werden.
  7. Verfahren gemäß einem der Ansprüche 2 bis 6, wobei zur Durchführung der Schritte c) bis e) das jeweilige zweite Summenmassenspektrum M''α in Wertepaarteilbereiche Iακ mit
    Figure 00280001
    unterteilt wird, und die Schritte c) bis e) jeweils für einen Wertepaarteilbereich Iακ durchgeführ werden.
  8. Verfahren gemäß Anspruch 7, wobei der jeweilige Wertepaarteilbereich Iακ in Abhängigkeit von der Breite der massenspektrometrischen Peaks bestimmt wird.
  9. Verfahren gemäß einem der Ansprüche 2 bis 8, wobei der jeweilige Zeitbereich Tα im Wesentlichen der vollen Breite auf halber Höhe, FWHM, der chromatographischen Peaks entspricht.
  10. Verfahren gemäß einem der Ansprüche 2 bis 9 wobei das m/z-Intervall X'ακ im Wesentlichen der vollen Breite auf halber Höhe, FWHM, der massenspektrometrischen Peaks entspricht.
  11. Verfahren gemäß einem der Ansprüche 7 bis 10, wobei die Wertepaarteilbereiche Iακ entsprechend der folgenden Gleichungen bestimmt werden:
    Figure 00280002
    Figure 00290001
    wobei x(u)ακ die untere Grenze und x(o)ακ die obere Grenze des Wertepaarteilbereichs Iακ sind, β einen Faktor darstellt, der größer als 5 ist und δ für die Breite des m/z-Intervalls X'ακ im Wertepaarbereich Iακ steht.
  12. Verfahren gemäß einem der Ansprüche 1 bis 11, wobei im Schritt c) der Mittelwert MWα und die Standardabweichung SDα der von Null verschiedenen Intensitätswerte als statistische Parameter bestimmt werden und im Schritt d) der Schwellenwert Yα entsprechend der Gleichung Yα = MWα + f(α)·SDα bestimmt wird, wobei f(α) einen Faktor darstellt.
  13. Verfahren gemäß Anspruch 12, wobei f(α) einen von α unabhängigen Wert von 0,5 bis 5, insbesondere 2 aufweist.
  14. Computerprogramm mit Programmcode, zur Durchführung der Verfahrensschritte nach einem der Ansprüche 1 bis 13, wenn das Programm in einem Computer ausgeführt wird.
  15. Computerprogramm mit Programmcode, der auf einem computerlesbaren Medium gespeichert ist, zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 13, wenn das Programm in einem Computer ausgeführt wird.
DE200510061819 2005-12-23 2005-12-23 Verfahren zur Reduktion eines Datensatzes Expired - Fee Related DE102005061819B3 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE200510061819 DE102005061819B3 (de) 2005-12-23 2005-12-23 Verfahren zur Reduktion eines Datensatzes
PCT/EP2006/011252 WO2007079819A1 (de) 2005-12-23 2006-11-23 Verfahren zur reduktion eines datensatzes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200510061819 DE102005061819B3 (de) 2005-12-23 2005-12-23 Verfahren zur Reduktion eines Datensatzes

Publications (1)

Publication Number Publication Date
DE102005061819B3 true DE102005061819B3 (de) 2007-08-23

Family

ID=37969601

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200510061819 Expired - Fee Related DE102005061819B3 (de) 2005-12-23 2005-12-23 Verfahren zur Reduktion eines Datensatzes

Country Status (2)

Country Link
DE (1) DE102005061819B3 (de)
WO (1) WO2007079819A1 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3800236A (en) * 1972-02-08 1974-03-26 Bodenseewerk Perkin Elmer Co Circuit arrangement for base line compensation
US5995989A (en) * 1998-04-24 1999-11-30 Eg&G Instruments, Inc. Method and apparatus for compression and filtering of data associated with spectrometry
US20010027382A1 (en) * 1999-04-07 2001-10-04 Jarman Kristin H. Identification of features in indexed data and equipment therefore
WO2005031791A2 (en) * 2003-09-25 2005-04-07 Thermo Finnigan Llc Method of processing and storing mass spectrometry data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3800236A (en) * 1972-02-08 1974-03-26 Bodenseewerk Perkin Elmer Co Circuit arrangement for base line compensation
US5995989A (en) * 1998-04-24 1999-11-30 Eg&G Instruments, Inc. Method and apparatus for compression and filtering of data associated with spectrometry
US20010027382A1 (en) * 1999-04-07 2001-10-04 Jarman Kristin H. Identification of features in indexed data and equipment therefore
WO2005031791A2 (en) * 2003-09-25 2005-04-07 Thermo Finnigan Llc Method of processing and storing mass spectrometry data

Also Published As

Publication number Publication date
WO2007079819A1 (de) 2007-07-19

Similar Documents

Publication Publication Date Title
DE102017111067B4 (de) Isomeren-Analyse in TIMS-Q-q-TOF Massenspektrometern
DE60114245T2 (de) Verfahren und vorrichtung zur identifizierung und quantifizierung chemischer komponenten einer mischung
DE102004015018B4 (de) Verfahren zum Identifizieren von Ionen aus Chromatographie-Massenspektral-Datensätzen, die überlappende Komponenten enthalten
DE10152821B4 (de) Massenspektren ohne elektronisches Rauschen
DE68925727T2 (de) Methode zur Bestimmung der optimalen Arbeitsbedingungen in einem elektrochemischen Detektor und elektrochemischer Detektor, diese Methode benutzend
DE69508866T2 (de) Verfahren zur raumladungskontrolle in einem ionenfallemassenspektrometer
DE102010019590B4 (de) Datenabhängiges Erfassungssystem für die Massenspektrometrie und Verfahren für dessen Anwendung
DE69518890T2 (de) Verfahren zum steuern der raumladung zur verbesserung der ionenisolierung in einem ionen fallenmassenspektrometer durch dynamischadaptieve optimierung
DE112014001182B4 (de) Analysesystem
DE112004001811B4 (de) Verfahren zum Bearbeiten und Speichern von Massenspektrometriedaten
DE112014003221B4 (de) Verfahren zum Aufzeichnen einer ADC-Sättigung
DE102018000832A1 (de) Hochauflösende MS1-basierte Quantifizierung
DE20321731U1 (de) Massenspektrometer
DE102016200165A1 (de) Massenkorrektur
DE112015001668B4 (de) Verfahren zur Optimierung von Spektraldaten
DE102017011423B4 (de) Verfahren und Vorrichtung für lsotopenverhältnis-Massenspektrometrie
WO2011157781A1 (de) Verfahren für die ionenmobilitätsspektrometrie
DE112017007538T5 (de) Chromatographie Massenspektrometrie und Chromatograph Massenspektrometer
DE102013006428A1 (de) Flugzeit-Massenspektrometer und Datenkompressionsverfahren dafür
DE112015000644T5 (de) Optimiertes Mehrfachreaktionsüberwachungs- oder Einzelionenaufzeichnungsverfahren
DE112015004216T5 (de) Techniken für die Darstellung und Verarbeitung von Massenspektraldaten
DE102004051043B4 (de) Angleichung von Flugzeitmassenspektren
DE102007039970B4 (de) Mehrkanalschnellabtastung von chromatographischen Spitzen durch ein Tandem-Massenspektrometer
DE102008046139A1 (de) Verfahren zur quantitativen Bestimmung einer Substanz durch Massenspektrometrie
DE102021117017B4 (de) Peakbreitenabschätzung in massenspektren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee