WO2018158801A1 - スペクトルデータの特徴抽出装置および方法 - Google Patents
スペクトルデータの特徴抽出装置および方法 Download PDFInfo
- Publication number
- WO2018158801A1 WO2018158801A1 PCT/JP2017/007674 JP2017007674W WO2018158801A1 WO 2018158801 A1 WO2018158801 A1 WO 2018158801A1 JP 2017007674 W JP2017007674 W JP 2017007674W WO 2018158801 A1 WO2018158801 A1 WO 2018158801A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- spectrum
- difference
- feature
- similarity
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/27—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands using photo-electric detection ; circuits for computing concentration
Definitions
- the present invention is a three-dimensional spectrum data for processing a three-dimensional spectrum data in which a spectrum indicating a relationship between a predetermined parameter and a signal intensity value such as a mass spectrum or an absorption spectrum is obtained according to a change in another parameter such as time or spatial position. More specifically, the present invention relates to a three-dimensional spectral data processing apparatus and a processing method for performing analysis based on the similarity or difference of a plurality of three-dimensional spectral data obtained from different samples, for example.
- the present invention includes, for example, a liquid chromatograph using a multichannel detector such as a liquid chromatograph mass spectrometer (LC-MS), a gas chromatograph mass spectrometer (GC-MS), a photodiode array (PDA) detector, Suitable for processing three-dimensional spectral data obtained by liquid chromatographs and gas chromatographs using a wavelength-scannable UV-visible spectrophotometer or infrared spectrophotometer as a detector, or an imaging mass spectrometer. is there.
- LC-MS liquid chromatograph mass spectrometer
- GC-MS gas chromatograph mass spectrometer
- PDA photodiode array
- the mass spectrometer which is a detector, repeats scan measurement within a predetermined mass-to-charge ratio m / z range, thereby indicating a mass-to-mass ratio and a signal intensity relationship.
- a spectrum can be obtained from moment to moment.
- an absorption spectrum showing a relationship between a wave number, a wavelength, and the like and a signal intensity (absorbance) can be obtained every moment.
- data constituting spectra such as a plurality of mass spectra and absorption spectra obtained in accordance with changes in parameters such as time are referred to as three-dimensional spectrum data.
- FIG. 10 (a) is a schematic diagram of three-dimensional spectrum data obtained by LC-MS.
- the three-dimensional spectrum data in this case is data having three dimensions of mass-to-charge ratio m / z which is a unit axis of mass spectrum, signal intensity (ion intensity) of mass spectrum, and time (retention time RT). .
- profiling multivariate analysis
- difference analysis using three-dimensional spectrum data obtained from each sample generally, first, feature extraction is performed from three-dimensional spectrum data to create two-dimensional feature data. Then, multivariate analysis such as principal component analysis is performed on the two-dimensional feature data created for each sample to be compared, and the similarity of a plurality of samples is grasped from the result.
- peak information about all peaks appearing in all mass spectra can be obtained.
- a two-dimensional feature data table indicating the peak height (or area) of each peak with respect to the mass-to-charge ratio and the retention time is created for each sample.
- the peak height corresponding to the mass to charge ratio and the holding time is set to zero. Just keep it.
- Multi-profiling (multivariate analysis)-Multivariate analysis enabling profiling and mixed system quantification- Shimadzu Corporation, [Search on December 187, 2014], Internet ⁇ URL: http: // www. an.shimadzu.co.jp/apl/chemometrics/ >
- the above problem is mainly caused by performing peak detection in units of spectrum.
- the present invention has been made to solve these problems, and an object of the present invention is to obtain an accurate multivariate analysis result based on a plurality of three-dimensional spectrum data without performing peak detection in a spectrum unit.
- An object of the present invention is to provide a three-dimensional spectral data processing apparatus and processing method.
- the feature extraction apparatus for spectral data includes a plurality of spectra obtained by obtaining a spectrum indicating the relationship between the first parameter and the signal intensity along with the change of the second parameter.
- An apparatus for processing three-dimensional spectral data constituting a spectrum wherein the spectral data feature extracting apparatus is for analyzing similarity or difference between three-dimensional spectral data respectively obtained from a plurality of samples. a) A multivariate in which a plurality of spectra created from one three-dimensional spectrum data obtained from a specific sample among a plurality of samples are regarded as a set of one spectrum that does not depend on the value of the second parameter.
- a feature spectrum acquisition unit that performs analysis and obtains one or more feature spectra that can characterize the specific sample based on the results; b) For each feature spectrum obtained by the feature spectrum acquisition unit, for each of the three-dimensional spectrum data for a plurality of samples, each of the plurality of spectra created from the three-dimensional spectrum data for one sample and one feature spectrum, A spectrum similarity calculating unit that calculates a similarity value corresponding to the sample from the plurality of similarities, c) Whether or not there is a significant difference that can distinguish between a specific sample and a non-specific sample based on a representative value of similarity obtained for each of the feature spectra corresponding to a plurality of samples.
- a difference spectrum determining unit that determines a feature spectrum that provides a similarity with a significant difference as a difference spectrum; It is characterized by having.
- the three-dimensional spectrum data processing method according to the present invention made to solve the above-mentioned problem is a plurality of spectra obtained by obtaining a spectrum indicating the relationship between the first parameter and the signal intensity along with the change of the second parameter.
- a method for processing three-dimensional spectral data constituting the spectrum of the three-dimensional spectral data for analyzing the similarity or difference between the three-dimensional spectral data respectively obtained from a plurality of samples a) A multivariate in which a plurality of spectra created from one three-dimensional spectrum data obtained from a specific sample among a plurality of samples are regarded as a set of one spectrum that does not depend on the value of the second parameter.
- a difference spectrum determining step for determining whether or not a characteristic spectrum having a similarity with a significant difference is determined as a difference spectrum; It is characterized by having.
- the “three-dimensional spectrum data” here is, for example, data representing a large number of mass spectra (including MS n spectra where n is 2 or more) obtained over time in LC-MS or GC-MS, imaging mass Data representing a large number of mass spectra obtained from a large number of different measurement points on the sample (ie different spatial positions) in the analyzer, time course in LC using a PDA detector and wavelength-scannable UV-visible spectrophotometer Data representing a number of absorption spectra obtained along with the data, data representing a number of absorption spectra obtained with time in a GC using an infrared spectrophotometer as a detector, and the like.
- three-dimensional spectrum data obtained by measuring each of the plurality of samples is given in order to perform difference analysis of the plurality of samples.
- additional information that one of the plurality of samples is, for example, a specific sample including a specific component is separately given. That is, this is a supervised difference analysis.
- the feature spectrum acquisition unit regards a plurality of spectra created from one three-dimensional spectrum data derived from a specific sample specified by the additional information as a set of spectra, and performs a predetermined multivariate analysis on the spectra. Do. For example, when the three-dimensional spectrum data is data obtained by LC-MS, information on the retention time of each mass spectrum is discarded at the stage of creating a set of spectra.
- the multivariate analysis used is typically principal component analysis (PCA), but is not limited to this.
- PCA principal component analysis
- NMF Non-negative Matrix Factorization
- the relationship between the first parameter and the factor loading can be used as a feature spectrum, and feature spectra can be obtained as many as the number of principal components.
- the number of principal components is preferably determined automatically based on the cumulative contribution rate.
- the spectrum similarity calculation unit for each feature spectrum, for each of the plurality of spectra created from the three-dimensional spectrum data for one sample, for each of the three-dimensional spectrum data for a plurality of samples.
- the similarity with the feature spectrum is calculated. Accordingly, in one sample, the degree of similarity related to one feature spectrum is obtained by the number of spectra. Therefore, a representative value of similarity related to one feature spectrum in one sample is calculated from the plurality of similarities.
- the representative value may be any one of, for example, an average value, median value, mode value, total value, or maximum value of a plurality of similarities. As a result, a representative value of the degree of similarity corresponding to the number of feature spectra is obtained for each sample.
- the difference spectrum determination unit has a significant difference that can distinguish between a specific sample and a non-specific sample included in a plurality of given samples. Check if it is allowed. For example, the representative value of similarity is divided into a plurality of levels, and a histogram with the number of samples corresponding to each level as a frequency, that is, a distribution of representative values is created. On the histogram, the difference between the first representative value obtained from the peak corresponding to the specific sample and the second representative value obtained from the peak corresponding to the non-specific sample is greater than or equal to a predetermined threshold value. Judge that there is a significant difference.
- the determination of the presence or absence of a significant difference can be made using various hypothesis testing methods in statistics.
- a feature spectrum showing a distribution in which a significant difference is observed between a specific sample and a non-specific sample is presumed to contain information related to a component corresponding to the difference. Therefore, the difference spectrum determination unit determines a feature spectrum that provides a similarity with which a significant difference is recognized as a difference spectrum reflecting a difference between a specific sample and a non-specific sample.
- a peak showing a large intensity in a difference spectrum is estimated to be derived from a characteristic component that is included in a specific sample and not included in a non-specific sample. Therefore, for example, the analyst obtains a mass-to-charge ratio corresponding to a peak with a large intensity from the difference spectrum displayed on the display screen, and estimates a component from the mass-to-charge ratio. Of course, it is preferable to automatically perform such component estimation.
- the spectral data feature extraction device is preferably, A database containing information on compounds, A component identification unit that performs component identification by comparing information obtained from the difference spectrum determined by the difference spectrum determination unit with information in the database; It is good to set it as the structure further provided.
- a general-purpose compound database that contains various compounds can be used as the database.
- a database containing compounds according to the purpose may be used. According to the above configuration, for example, even if a component that characterizes a specific sample is unknown, such component can be automatically specified by difference analysis.
- a display unit that displays the difference spectrum determined by the difference spectrum determination unit and the distribution of representative values of similarity in all samples with respect to the difference spectrum is provided. It is good also as composition provided further. According to this configuration, the analyst can not only visually recognize the difference spectrum estimated to correspond to the component characterizing the specific sample, but also the reliability of the difference spectrum from the distribution status of the representative value of the similarity. Judgment can be made.
- the first parameter such as the holding time is not considered when obtaining the feature spectrum. There is no need for an alignment process for aligning the holding time between samples, and the labor and time required for such a process can be saved. As a result, the overall throughput of the difference analysis can be improved.
- FIG. 1 is a schematic configuration diagram of an embodiment of an LC-MS system including a three-dimensional spectral data processing apparatus according to the present invention.
- the conceptual diagram of a difference analysis The flowchart which shows the procedure of the characteristic spectrum acquisition process in the LC-MS system of a present Example.
- the flowchart which shows the procedure of the spectrum similarity calculation process in the LC-MS system of a present Example.
- the flowchart which shows the procedure of the difference spectrum determination process in the LC-MS system of a present Example.
- Explanatory drawing of a difference spectrum determination process Explanatory drawing of a characteristic spectrum acquisition process and a spectrum similarity calculation process.
- FIG. 1 The figure which shows the example of a display of distribution of similarity of all the samples.
- (A) is a schematic diagram of three-dimensional mass spectrum data obtained by LC-MS, and
- (b) is a diagram showing one mass spectrum.
- the LC unit 1 includes a liquid feed pump that feeds the mobile phase at a constant flow rate, an injector that injects a sample into the fed mobile phase, and a component in the sample. Including a column for separating them in the time direction.
- the MS unit 2 is, for example, a quadrupole mass spectrometer equipped with an electrospray ion source. Samples containing components separated in the time direction in the LC unit 1 are sequentially introduced into the MS unit 2, and the MS unit In 2, the ion derived from the component contained in the introduced sample is detected.
- the detection signal obtained by the MS unit 2 is input to the data processing unit 3.
- the data processing unit 3 performs, as a functional block, a data collection processing unit 31, a data storage unit 32, a principal component analysis processing unit 33, a characteristic spectrum acquisition unit 34, and a spectrum similarity calculation unit 35 in order to perform characteristic processing described later. , A difference spectrum determination unit 36, a component identification unit 37, and a spectrum library 38.
- the data processing unit 3 is connected to an input unit 4 for an analyst to perform various input operations and a display unit 5 for displaying processing results and the like. Most of the functions of the data processing unit 3 can be realized by operating dedicated data processing software installed in a personal computer on the computer.
- the measurement signal including the LC part 1 and the MS part 2 is measured on the sample, so that the detection signal is generated as time elapses from the time when the sample is introduced into the LC part 1. can get.
- the data collection processing unit 31 converts the input detection signal into digital data and stores it in the data storage unit 32.
- three-dimensional mass spectrum data as shown in FIG. 8A is obtained.
- FIG. 2 is a conceptual diagram of the difference analysis assumed here.
- a number of samples to be measured include samples a1, a2,... Known to contain specific components and samples b1, b2,... Known to contain no specific components. These samples are divided into a specific sample group and a non-specific sample group as shown in the figure, and each sample is labeled as belonging to one of the groups. However, it is unclear what the specific component is.
- the purpose of the analysis is to analyze the difference between the samples contained in two groups, a specific sample group and a non-specific sample group, and to identify the component that characterizes the difference, that is, the specific component. Yes.
- FIG. 3 is a flowchart showing the procedure of the characteristic spectrum acquisition process
- FIG. 4 is a flowchart showing the procedure of the spectrum similarity calculation process
- FIG. 6 is a flowchart showing the procedure of the difference spectrum determination process.
- 8 is an explanatory diagram of the feature spectrum acquisition process and the spectrum similarity calculation process
- FIG. 5 is a diagram showing a similarity representative value table obtained by the spectrum similarity calculation process
- FIG. 7 is an explanatory diagram of the difference spectrum determination process. .
- the data processing unit 3 performs the characteristic spectrum acquisition process according to the procedure shown in FIG. That is, the principal component analysis processing unit 33 reads out three-dimensional mass spectrum data corresponding to one of the samples labeled with specific sample groups from the data storage unit 32 and performs principal component analysis on this data. (Step S11).
- One sample selected here is preferably the sample estimated to be the most specific. Therefore, it is preferable that the analyzer can designate from the input unit 4 which specific sample is selected.
- the three-dimensional mass spectrum data obtained from the data storage unit 32 includes information on the retention time RT, but when performing principal component analysis in step S11, the three-dimensional mass spectrum.
- the data is regarded as simply a collection of mass spectrum data that is not related to the retention time (see FIG. 8B). At this time, the retention time information is discarded from the three-dimensional mass spectrum data.
- the principal component analysis processing unit 33 does not determine the number of principal components in advance, but determines the number of principal components PC based on the cumulative contribution rate obtained by principal component analysis (step S12).
- factor loadings principal component loading
- the characteristic spectrum acquisition unit 34 creates a spectrum (see FIG. 8C) in which the factor loadings are arranged on the mass-to-charge ratio axis, and determines this as characteristic spectra L 1 to L PC of a specific sample (step S13).
- the characteristics of 3D mass spectrum data in specific samples can be extracted based on statistics, and information on specific components is reflected in at least one of the PC characteristic spectra. It should be done. At this point in time, it is unclear which factor loading for which principal component contains information on specific components, and what is obtained in step S13 is a spectrum that may be characteristic of a specific sample. .
- principal component analysis which is one method of multivariate analysis, is applied to a set of mass spectra obtained from three-dimensional mass spectrum data.
- NMF non-negative matrix factorization
- MCR multivariate spectral decomposition
- the factor loading may be negative, so care should be taken, but in multivariate spectrum decomposition etc., the factor loading is always positive, so it is convenient to create a feature spectrum.
- the data processing unit 3 performs a spectrum similarity calculation process according to the procedure shown in FIG. That is, the spectrum similarity calculation unit 35 sets a variable pc for designating the principal component to 1 (step S21), and sets a feature spectrum L pc as a reference for similarity calculation (step S22). Next, a variable n for designating a sample is set to 1 (step S23), and three-dimensional mass spectrum data obtained from the nth sample is set as data to be analyzed (step S24).
- step S25 set the variable t to specify the retention time 0 (step S25), and extracts the mass spectrum S t at n th retention time t in the three-dimensional mass spectral data from a sample, the mass spectrum S t and wherein calculating a similarity Corr t the spectrum L pc (step S26).
- the similarity Corr t may be, for example, shall be calculated based on the difference of the signal intensity values for each mass-to-charge ratio.
- the detection sensitivity may differ if the sample is different, so before calculating the similarity, for example, the signal intensity value or intensity at a specific mass to charge ratio is the maximum. You may make it normalize the signal strength in one or both spectra so that a value may be equalized.
- step S27 determines whether or not the variable t has reached the measurement end time T. If the variable t has not reached the measurement end time T, a value obtained by adding the data measurement time interval ⁇ t to the variable t is set as a new variable t (step S28), and the process returns to step S26. Therefore, by repeating steps S26, S27, and S28, the variable t is obtained for the designated n-th sample from 0 to the measurement end time T, that is, in the entire measurement period from the measurement start time to the measurement end time. is the similarity Corr t between the characteristic spectrum L pc for all mass spectra would be calculated with the measurement points as many similarities Corr t is obtained (see FIG. 8 (d)).
- the spectral similarity calculating unit 35 obtained for that n-th sample, based on all of the similarities Corr t equal in number to the number of measurement points, the similarity representative values V n Is calculated and stored (step S29).
- step S30 it is then determined whether or not the variable pc specifying the principal component has reached the number of principal components PC (step S32). If not, the variable pc is incremented (step S32). S33) Return to step S22. Therefore, by repeating steps S22 to S33, the similarity representative value corresponding to each of the N samples is obtained for each of the PC characteristic spectra L pc . That is, the similarity representative value for all combinations of (N ⁇ PC), that is, the sample and the feature spectrum in the frame 102 surrounded by the two-dot chain line in the table shown in FIG. The similarity representative value table shown in FIG. 5 is completed. It is obvious that a procedure different from the procedure shown in FIG. 4 can be used to obtain each similarity representative value that fills the similarity representative value table in this way.
- the data processing unit 3 further performs difference spectrum determination processing according to the procedure shown in FIG. That is, the difference spectrum determination unit 36 first sets a variable pc for designating the principal component to 1 (step S41). Then, using the similarity representative value in the above-described similarity representative value table, the distribution of the similarity representative value with respect to the feature spectrum L pc between the two sample groups of the specific sample group and the non-specific sample group. A test is performed to determine whether or not there is a significant difference (step S42).
- M samples whose sample numbers are 1 to M belong to a specific sample group, and (NM) samples whose sample numbers are M + 1 to N are non-specific sample groups. It belongs to.
- the feature spectrum used when calculating the similarity is an appropriate spectrum to distinguish between specific and non-specific sample groups, i.e.
- the spectrum reflects a characteristic component that is not included, the peaks corresponding to each sample group are separated to some extent as shown in FIG.
- the distance ⁇ between the centers of the distributions for the two sample groups is greater than or equal to a predetermined value, it can be estimated that there is a significant difference between the two distributions.
- step S43 If it is determined by the above test that there is a significant difference in the distribution of the similarity representative values corresponding to the two sample groups (Yes in step S43), the characteristic spectrum L pc at that time is used as the difference spectrum for the two sample groups. (Step S44). On the other hand, if it is determined in step S43 that there is no significant difference in the distribution of the similarity representative value, the process in step S44 is passed. Then, it is determined whether or not the variable pc specifying the principal component has reached the number of principal components PC (step S45). If not reached, the variable pc is incremented (step S46) and the process returns to step S42.
- steps S42 to S46 it is determined whether or not there is a significant difference in the distribution of the similarity representative value for each of all the PC characteristic spectra L pc , and one or more of the significant differences are determined.
- a feature spectrum is determined as the difference spectrum. As described above, this difference spectrum is considered to be a spectrum including information characteristic of a specific component that is included in a specific sample and not included in a non-specific sample.
- the component identification unit 37 determines whether or not the spectrum library 38 is available (step S47). If the spectrum library 38 is available, the component identification unit 37 compares one or a plurality of difference spectra with information in the spectrum library 38. Specific components are identified (step S48). At this time, the pattern of the mass spectrum (that is, the mass-to-charge ratio of a plurality of peaks in the mass spectrum) may be collated. It is only necessary to check the mass of the compound recorded in 38.
- a spectrum library 38 for example, a general-purpose compound database such as Pubchem operated by the US National Bioinformatics Center may be used, or only specific compounds provided by the apparatus manufacturer or created by the user himself / herself are used. May be used.
- the identification result is displayed on the screen of the display unit 5 together with the difference spectrum. If the component cannot be identified, a message to that effect is displayed. Furthermore, if the spectrum library 38 cannot be used for some reason, only the difference spectrum is displayed (step S49). In this way, according to the LC-MS system of the present embodiment, it is possible to provide the analyst with information on the difference spectrum obtained by the difference analysis for the two sample groups and the specific component derived from the difference spectrum. it can.
- FIG. 9 is an example of a graph showing the distribution of similarity of all samples with respect to the feature spectra of the first to third principal components.
- the characteristic spectrum of the third principal component is determined as the difference spectrum by the test in step S42. Looking at the distribution of similarity in the third principal component, the non-specific sample and the specific sample are clearly separated, and the analyst can also confirm that the determined difference spectrum is appropriate. .
- the present invention is applied to data obtained by LC-MS.
- LC and infrared spectroscopy using a GC-MS, a PDA detector and a UV-visible spectrophotometer capable of wavelength scanning are used. It is clear that the present invention can be applied to data constituting a spectrum that is sequentially obtained with time in a GC using a photometer as a detector.
- the present invention can also be used when processing data respectively obtained from a large number of measurement points having different spatial positions.
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
特異的サンプル群と非特異的サンプル群との差異解析を行う際に、主成分分析処理部(33)は特異的サンプルの一つについて得られたデータから作成される複数のマススペクトルの集合に対し主成分分析を行い、特徴スペクトル取得部(34)は複数の主成分毎に因子負荷量を用いた特徴スペクトルを取得する。スペクト類似度算出部(35)はサンプル毎に全マススペクトルと特徴スペクトルとの類似度を各々計算し、その代表値を求める。サンプル毎の類似度代表値を全ての特徴スペクトルについて求め、差異スペクトル決定部(36)は類似度代表値のレベル毎のサンプル数を示すヒストグラムから、各サンプル群に対応する分布に有意差があるか否かを検定し、有意差がある類似度の元となる特徴スペクトルを差異スペクトルとして決定する。差異スペクトルにはサンプル群差を特徴付ける成分の情報が反映されているから、成分同定部(37)は差異スペクトルをライブラリ検索して成分を同定する。
Description
本発明は、マススペクトルや吸光スペクトルなど、所定のパラメータと信号強度値との関係を示すスペクトルが、時間や空間位置など別のパラメータの変化に従って得られる3次元スペクトルデータを処理する3次元スペクトルデータ処理装置及び処理方法に関し、さらに詳しくは、例えばそれぞれ異なるサンプルから得られた複数の3次元スペクトルデータの類似性や相違性に基づく解析を行うための3次元スペクトルデータ処理装置及び処理方法に関する。本発明は例えば、液体クロマトグラフ質量分析装置(LC-MS)、ガスクロマトグラフ質量分析装置(GC-MS)、フォトダイオードアレイ(PDA)検出器等のマルチチャンネル型検出器を用いた液体クロマトグラフ、波長走査可能な紫外可視分光光度計や赤外分光光度計を検出器として用いた液体クロマトグラフやガスクロマトグラフ、さらにはイメージング質量分析装置などで得られた3次元スペクトルデータを処理するのに好適である。
液体クロマトグラフ質量分析装置(LC-MS)では、検出器である質量分析装置において所定の質量電荷比m/z範囲のスキャン測定を繰り返すことで、質量電荷比と信号強度との関係を示すマススペクトルを時々刻々と得ることができる。また、PDA検出器を検出器として用いた液体クロマトグラフでは、波数や波長などと信号強度(吸光度)との関係を示す吸光スペクトルを時々刻々と得ることができる。本明細書では、こうした時間等のパラメータの変化に従って得られる複数のマススペクトルや吸収スペクトル等のスペクトルを構成するデータを、3次元スペクトルデータという。
図10(a)はLC-MSにより得られる3次元スペクトルデータの模式図である。この場合の3次元スペクトルデータとは、マススペクトルの単位軸である質量電荷比m/z、マススペクトルの信号強度(イオン強度)、及び時間(保持時間RT)という三つのディメンジョンを有するデータである。
ところで、生化学分野や食品、環境などの様々な分野において、多成分を含む複雑なサンプルから特徴的な成分を探索したり該成分の含有量を調べたりするために、プロファイリング(多変量解析)による差異解析が利用されている(非特許文献1参照)。各サンプルからそれぞれ得られた3次元スペクトルデータを用いた差異解析では、一般に、まず、3次元スペクトルデータから特徴抽出を行い2次元特徴データを作成する。そして、比較したいサンプル毎に作成した2次元特徴データに対して主成分分析などの多変量解析を行い、その結果から複数のサンプルの類似性等を把握する。
3次元スペクトルデータから2次元特徴データを作成する従来の一方法について説明する。図10(a)に示したような3次元スペクトルデータに基づいて、例えば保持時間RT=0.00におけるマススペクトルを作成すると図10(b)に示すようなマススペクトルが得られる。こうしたマススペクトルに対し所定の条件に従ってピーク検出を行い、検出された各ピークの高さ(強度値)又はピーク面積(強度の積分値)を求める。そして、マススペクトルに現れる各ピークの質量電荷比及びピーク高さ(又は面積)をピーク情報として収集する。
測定開始時点から測定終了時点までの保持時間全体に亘って得られた全てのマススペクトルに対して同様の処理を行うことで、全てのマススペクトルに現れる全てのピークについてのピーク情報が得られる。そして、このピーク情報に基づき、図11に示すように、サンプル毎に、各ピークの質量電荷比及び保持時間に対するピーク高さ(又は面積)を示した2次元特徴データテーブルを作成する。なお、このテーブルでは、或るサンプルにおいて或る質量電荷比及び或る保持時間にピークが存在しない(検出されない)場合には、その質量電荷比及び保持時間に対応するピーク高さをゼロにしておけばよい。
また、LCやGC(特にLC)では、たとえカラムでの成分分離条件を同一にしても、サンプルが異なると同一成分の保持時間が若干相違する、つまりは保持時間ずれが起こることがある。そのため、上記のような手順で2次元特徴データテーブルを作成するに先立って、保持時間方向のアライメント処理(保持時間を合わせる処理)を行う必要がある場合がある(特許文献1参照)。
このようにして作成した2次元特徴データテーブルを用いて主成分分析などの多変量解析を行い、その結果に基づいて例えば多数のサンプルを複数のグループに分け、さらにはその差異を特徴付ける成分の特定などを行う。
このようにして作成した2次元特徴データテーブルを用いて主成分分析などの多変量解析を行い、その結果に基づいて例えば多数のサンプルを複数のグループに分け、さらにはその差異を特徴付ける成分の特定などを行う。
「マルチプロファイリング(多変量解析)~プロファイリングと混合系定量を可能とする多変量解析~」、株式会社島津製作所、[平成26年12月187日検索]、インターネット<URL: http://www.an.shimadzu.co.jp/apl/chemometrics/>
上述したように、多変量解析を利用する従来の差異解析では、3次元スペクトルデータから2次元特徴データを求める際にスペクトルに対してピーク検出を行い、ピーク情報を抽出する必要がある。そのため、次のような問題がある。
(1)スペクトル波形におけるピーク検出のアルゴリズムには様々なものが知られており、同じスペクトル波形でもそのアルゴリズムの種類によって検出されるピークが異なる。そのため、ピーク検出のアルゴリズムの種類によって、得られる2次元特徴データが変わることになり、それを用いた多変量解析の結果も異なることになる。
(2)どのようなアルゴリズムであっても、ピーク検出を行う際には例えば強度閾値などの検出条件を設定する必要があるが、設定する条件が適切でないと的確なピーク検出ができず、重要なピークを見落としたり逆に本来はピークでないものをピークとして誤検出したりするおそれがある。
(3)スペクトルに現れるピークの数が多すぎると2次元特徴データが膨大になり、多変量解析により適切な結果が得られなくなることがある。
(4)LCやGCを用いたシステムにおいてスペクトル単位で正確なピーク検出を行うには、上述したように保持時間方向のアライメント処理が必要である。こうしたアライメント処理が不十分であると2次元特徴データが正確でなくなり、多変量解析により適切な結果が得られなくなる。これを回避するには、分析者自身が3次元スペクトルデータや2次元特徴データを確認し、手動で修正しなければならないことがある。
(1)スペクトル波形におけるピーク検出のアルゴリズムには様々なものが知られており、同じスペクトル波形でもそのアルゴリズムの種類によって検出されるピークが異なる。そのため、ピーク検出のアルゴリズムの種類によって、得られる2次元特徴データが変わることになり、それを用いた多変量解析の結果も異なることになる。
(2)どのようなアルゴリズムであっても、ピーク検出を行う際には例えば強度閾値などの検出条件を設定する必要があるが、設定する条件が適切でないと的確なピーク検出ができず、重要なピークを見落としたり逆に本来はピークでないものをピークとして誤検出したりするおそれがある。
(3)スペクトルに現れるピークの数が多すぎると2次元特徴データが膨大になり、多変量解析により適切な結果が得られなくなることがある。
(4)LCやGCを用いたシステムにおいてスペクトル単位で正確なピーク検出を行うには、上述したように保持時間方向のアライメント処理が必要である。こうしたアライメント処理が不十分であると2次元特徴データが正確でなくなり、多変量解析により適切な結果が得られなくなる。これを回避するには、分析者自身が3次元スペクトルデータや2次元特徴データを確認し、手動で修正しなければならないことがある。
上記問題は主としてスペクトル単位でピーク検出を行うことに伴って生じる問題である。本発明はこうした課題を解決するために成されたものであり、その目的とするところは、スペクトル単位でのピーク検出を行うことなく複数の3次元スペクトルデータに基づく的確な多変量解析結果を得ることができる3次元スペクトルデータ処理装置及び処理方法を提供することにある。
上記課題を解決するためになされた本発明に係るスペクトルデータの特徴抽出装置は、第1のパラメータと信号強度との関係を示すスペクトルが第2のパラメータの変化に伴って得られてなる複数のスペクトルを構成する3次元スペクトルデータを処理する装置であって、複数のサンプルからそれぞれ得られた3次元スペクトルデータの間の類似性又は相違性を解析するためのスペクトルデータの特徴抽出装置において、
a)複数のサンプルの中で特異的なサンプルから得られた一つの3次元スペクトルデータから作成される複数のスペクトルを、第2のパラメータの値によらない一つのスペクトルの集合とみなして多変量解析を行い、その結果に基づいてその特異的なサンプルを特徴付け得る1又は複数の特徴スペクトルを求める特徴スペクトル取得部と、
b)前記特徴スペクトル取得部で得られた特徴スペクトル毎に、複数のサンプルに対する3次元スペクトルデータそれぞれについて、一つのサンプルに対する3次元スペクトルデータから作成される複数のスペクトルのそれぞれと一つの特徴スペクトルとの類似度を計算し、その複数の類似度から該サンプルに対応する類似度の代表値を算出するスペクトル類似度算出部と、
c)前記特徴スペクトル毎に複数のサンプルに対応してそれぞれ得られた類似度の代表値に基づいて、特異的なサンプルと非特異的なサンプルとを区別し得る有意な差が認められるか否かを調べ、有意な差が認められる類似度が得られる特徴スペクトルを差異スペクトルとして決定する差異スペクトル決定部と、
を備えることを特徴としている。
a)複数のサンプルの中で特異的なサンプルから得られた一つの3次元スペクトルデータから作成される複数のスペクトルを、第2のパラメータの値によらない一つのスペクトルの集合とみなして多変量解析を行い、その結果に基づいてその特異的なサンプルを特徴付け得る1又は複数の特徴スペクトルを求める特徴スペクトル取得部と、
b)前記特徴スペクトル取得部で得られた特徴スペクトル毎に、複数のサンプルに対する3次元スペクトルデータそれぞれについて、一つのサンプルに対する3次元スペクトルデータから作成される複数のスペクトルのそれぞれと一つの特徴スペクトルとの類似度を計算し、その複数の類似度から該サンプルに対応する類似度の代表値を算出するスペクトル類似度算出部と、
c)前記特徴スペクトル毎に複数のサンプルに対応してそれぞれ得られた類似度の代表値に基づいて、特異的なサンプルと非特異的なサンプルとを区別し得る有意な差が認められるか否かを調べ、有意な差が認められる類似度が得られる特徴スペクトルを差異スペクトルとして決定する差異スペクトル決定部と、
を備えることを特徴としている。
また上記課題を解決するためになされた本発明に係る3次元スペクトルデータ処理方法は、第1のパラメータと信号強度との関係を示すスペクトルが第2のパラメータの変化に伴って得られてなる複数のスペクトルを構成する3次元スペクトルデータを処理する方法であって、複数のサンプルからそれぞれ得られた3次元スペクトルデータの間の類似性又は相違性を解析するための3次元スペクトルデータ処理方法において、
a)複数のサンプルの中で特異的なサンプルから得られた一つの3次元スペクトルデータから作成される複数のスペクトルを、第2のパラメータの値によらない一つのスペクトルの集合とみなして多変量解析を行い、その結果に基づいてその特異的なサンプルを特徴付け得る1又は複数の特徴スペクトルを求める特徴スペクトル取得ステップと、
b)前記特徴スペクトル取得ステップにおいて得られた特徴スペクトル毎に、複数のサンプルに対する3次元スペクトルデータそれぞれについて、一つのサンプルに対する3次元スペクトルデータから作成される複数のスペクトルのそれぞれと一つの特徴スペクトルとの類似度を計算し、その複数の類似度から該サンプルに対応する類似度の代表値を算出するスペクトル類似度算出ステップと、
c)前記特徴スペクトル毎に複数のサンプルに対応してそれぞれ得られた類似度の代表値に基づいて、特異的なサンプルと非特異的なサンプルとを区別し得る有意な差が認められるか否かを調べ、有意な差が認められる類似度が得られる特徴スペクトルを差異スペクトルとして決定する差異スペクトル決定ステップと、
を有することを特徴としている。
a)複数のサンプルの中で特異的なサンプルから得られた一つの3次元スペクトルデータから作成される複数のスペクトルを、第2のパラメータの値によらない一つのスペクトルの集合とみなして多変量解析を行い、その結果に基づいてその特異的なサンプルを特徴付け得る1又は複数の特徴スペクトルを求める特徴スペクトル取得ステップと、
b)前記特徴スペクトル取得ステップにおいて得られた特徴スペクトル毎に、複数のサンプルに対する3次元スペクトルデータそれぞれについて、一つのサンプルに対する3次元スペクトルデータから作成される複数のスペクトルのそれぞれと一つの特徴スペクトルとの類似度を計算し、その複数の類似度から該サンプルに対応する類似度の代表値を算出するスペクトル類似度算出ステップと、
c)前記特徴スペクトル毎に複数のサンプルに対応してそれぞれ得られた類似度の代表値に基づいて、特異的なサンプルと非特異的なサンプルとを区別し得る有意な差が認められるか否かを調べ、有意な差が認められる類似度が得られる特徴スペクトルを差異スペクトルとして決定する差異スペクトル決定ステップと、
を有することを特徴としている。
ここでいう「3次元スペクトルデータ」とは例えば、LC-MSやGC-MSにおいて時間経過に伴い得られる多数のマススペクトル(nが2以上であるMSnスペクトルを含む)を表すデータ、イメージング質量分析装置においてサンプル上の多数の異なる(つまりは空間位置が異なる)測定点から得られる多数のマススペクトルを表すデータ、PDA検出器や波長走査可能な紫外可視分光光度計を用いたLCにおいて時間経過に伴い得られる多数の吸光スペクトルを表すデータ、赤外分光光度計を検出器として用いたGCにおいて時間経過に伴い得られる多数の吸光スペクトルを表すデータ、などである。
本発明に係る3次元スペクトルデータ処理装置では、複数のサンプルの差異解析を行うために、その複数のサンプルをそれぞれ測定することで得られた3次元スペクトルデータが与えられる。ただし、その複数のサンプルの中の一つは例えば特異的な成分が含まれる特異的なサンプルであるとの付加情報が別途与えられる。即ち、これは教師ありの差異解析である。
特徴スペクトル取得部は、上記付加情報により特定される特異的なサンプル由来の一つの3次元スペクトルデータから作成される複数のスペクトルを一つのスペクトルの集合とみなし、これに対し所定の多変量解析を行う。例えば3次元スペクトルデータがLC-MSにより得られるデータである場合、スペクトルの集合を作成する段階で、各マススペクトルの保持時間の情報は廃棄される。使用される多変量解析は典型的には主成分解析(PCA)であるが、これに限るものではなく、非負値行列因子分解(NMF=Non-negative Matrix Factorization)、多変量スペクトル分解(MCR=Multivariate Curve Resolution) などでもよい。スペクトルデータ集合に対し主成分分析を行った場合、導出される各主成分に対して第1のパラメータ値(例えば質量電荷比)毎に因子負荷量が求まる。したがって、第1のパラメータと因子負荷量との関係を特徴スペクトルとすることができ、主成分の数だけ特徴スペクトルが求まる。なお、この場合、主成分数は累積寄与率などに基づき自動的に定まるようにするとよい。
通常、特徴スペクトルは複数求まるから、スペクトル類似度算出部は、特徴スペクトル毎に、複数のサンプルに対する3次元スペクトルデータそれぞれについて、一つのサンプルに対する3次元スペクトルデータから作成される複数のスペクトルのそれぞれと特徴スペクトルとの類似度を計算する。したがって、一つのサンプルにおいて、一つの特徴スペクトルに関連する類似度がスペクトルの数だけ求まる。そこで、その複数の類似度から、一つのサンプルにおいて一つの特徴スペクトルに関連する類似度の代表値を計算する。代表値は、例えば複数の類似度の平均値、中央値、最頻値、合計値、又は最大値などのいずれかとすればよい。これにより、サンプル毎に、特徴スペクトルの数だけ類似度の代表値が求まる。
差異スペクトル決定部は、上述したように得られた類似度の代表値に基づいて、与えられた複数のサンプルに含まれる特異的なサンプルと非特異的なサンプルとを区別し得る有意な差が認められるか否かを調べる。例えば、類似度の代表値を複数のレベルに分けて、レベル毎に該当するサンプルの数を頻度としたヒストグラム、つまりは代表値の分布を作成する。そして、そのヒストグラム上で、特異的なサンプルに対応するピークから求まる第1の代表値と、非特異的なサンプルに対応するピークから求まる第2の代表値との差が、所定閾値以上であれば有意な差があると判断する。有意差の有無の判断は、統計学における様々な仮説検定の手法を用いて行うことができる。特異的なサンプルと非特異的なサンプルとの間で有意な差が認められるような分布を示す特徴スペクトルは、その差に対応する成分に関連する情報を含んでいると推定される。そこで、差異スペクトル決定部は、有意な差が認められる類似度が得られる特徴スペクトルを、特異的なサンプルと非特異的なサンプルとの間の相違を反映した差異スペクトルとして決定する。
例えば差異スペクトルにおいて大きな強度を示すピークは、特異的なサンプルに含まれ非特異的なサンプルには含まれない特徴的な成分由来であると推定される。そこで、例えば分析者は表示画面上に表示された差異スペクトルから大きな強度のピークに対応した質量電荷比を求め、その質量電荷比から成分を推定する。もちろん、好ましくは、このような成分推定を自動的に行えるようにするとよい。
即ち、本発明に係るスペクトルデータの特徴抽出装置は、好ましくは、
化合物に関する情報が収録されているデータベースと、
前記差異スペクトル決定部で決定された差異スペクトルから得られる情報を前記データベース内の情報と照合することで成分同定を行う成分同定部と、
をさらに備える構成とするとよい。
化合物に関する情報が収録されているデータベースと、
前記差異スペクトル決定部で決定された差異スペクトルから得られる情報を前記データベース内の情報と照合することで成分同定を行う成分同定部と、
をさらに備える構成とするとよい。
データベースとしては様々な化合物が収録された汎用の化合物データベースを利用することができる。また、サンプルの種類が限定された特定の目的の解析を行う場合には、その目的に応じた化合物を収録したデータベースを用いるとよい。上記構成によれば、例えば特異的なサンプルを特徴付ける成分が未知であっても、そうした成分を差異解析によって自動的に特定することができる。
また本発明に係る3次元スペクトルデータ処理装置では、前記差異スペクトル決定部で決定された差異スペクトル、及び、該差異スペクトルに対する全てのサンプルにおける類似度の代表値の分布状況、を表示する表示部をさらに備える構成としてもよい。
この構成によれば、分析者は特異的なサンプルを特徴付ける成分に対応すると推定される差異スペクトルを視認することができるだけでなく、類似度の代表値の分布状況から、その差異スペクトルの信頼度も判断することができる。
この構成によれば、分析者は特異的なサンプルを特徴付ける成分に対応すると推定される差異スペクトルを視認することができるだけでなく、類似度の代表値の分布状況から、その差異スペクトルの信頼度も判断することができる。
本発明に係る3次元スペクトルデータ処理装置及び処理方法によれば、従来のように3次元スペクトルデータに対するピーク検出を行って2次元特徴データを求めることなく、特定の成分を含む特異的なサンプル群と該成分を含まないサンプル群との二つに対する差異解析を的確に行い、その成分に対応するスペクトルを求めることができる。このため、ピーク検出のアルゴリズムの種類の相違やピーク検出条件の設定の不適切さなどに起因する差異解析の誤差を回避することができ、差異解析で得られるスペクトルを用いた成分の推定の精度も向上する。
また、本発明に係る3次元スペクトルデータ処理装置及び処理方法では、特徴スペクトルを求める際に保持時間等の第1のパラメータは考慮されないので、2次元特徴データを求める際に通常必要となる複数のサンプル間で保持時間を揃えるアライメント処理も不要であり、そうした処理に要する手間と時間を省くことができる。その結果、差異解析全体のスループットを向上させることができる。
また、本発明に係る3次元スペクトルデータ処理装置及び処理方法では、特徴スペクトルを求める際に保持時間等の第1のパラメータは考慮されないので、2次元特徴データを求める際に通常必要となる複数のサンプル間で保持時間を揃えるアライメント処理も不要であり、そうした処理に要する手間と時間を省くことができる。その結果、差異解析全体のスループットを向上させることができる。
本発明に係る3次元スペクトルデータ処理装置を備えたLC-MSシステムの一実施例について、添付図面を参照して説明する。
本実施例のLC-MSシステムにおいて、図示しないものの、LC部1は、移動相を一定流量で送給する送液ポンプ、送給される移動相中に試料を注入するインジェクタ、試料中の成分を時間方向に分離するカラム、などを含む。また、MS部2は例えば、エレクトロスプレーイオン源を備えた四重極型質量分析装置であり、LC部1において時間方向に分離された成分を含む試料が順次MS部2に導入され、MS部2では導入される試料に含まれる成分由来のイオンが検出される。
本実施例のLC-MSシステムにおいて、図示しないものの、LC部1は、移動相を一定流量で送給する送液ポンプ、送給される移動相中に試料を注入するインジェクタ、試料中の成分を時間方向に分離するカラム、などを含む。また、MS部2は例えば、エレクトロスプレーイオン源を備えた四重極型質量分析装置であり、LC部1において時間方向に分離された成分を含む試料が順次MS部2に導入され、MS部2では導入される試料に含まれる成分由来のイオンが検出される。
MS部2で得られた検出信号はデータ処理部3に入力される。データ処理部3は後述する特徴的な処理を行うために、機能ブロックとして、データ収集処理部31、データ記憶部32、主成分分析処理部33、特徴スペクトル取得部34、スペクトル類似度算出部35、差異スペクトル決定部36、成分同定部37、スペクトルライブラリ38、を含む。また、このデータ処理部3には、分析者が各種入力操作を行うための入力部4と、処理結果などを表示するための表示部5と、が接続されている。なお、データ処理部3の機能の大部分は、パーソナルコンピュータにインストールされた専用のデータ処理ソフトウエアを該コンピュータ上で動作させることで具現化することができる。
本実施例のLC-MSシステムでは、LC部1及びMS部2を含む測定部でサンプルに対する測定を行うことにより、サンプルをLC部1に導入した時点から時間が経過するに伴って検出信号が得られる。データ収集処理部31は入力された検出信号をデジタルデータに変換しデータ記憶部32に格納する。一つのサンプルに対する測定によって、例えば図8(a)(図10(a)と同じ)に示したような3次元マススペクトルデータが得られる。多変量解析による網羅的解析を行う場合には、解析対象である多数のサンプルに対する測定がそれぞれ行われ、各サンプルに対応する3次元マススペクトルデータがデータ記憶部32に格納される。
上記のように複数のサンプルに対応する3次元マススペクトルデータがそれぞれデータ記憶部32に格納されている状態で実行される、本実施例のLC-MSシステムにおける特徴的なデータ処理について説明する。
図2はここで想定している差異解析の概念図である。
測定される多数のサンプルには、特異的成分を含むことが分かっているサンプルa1、a2、…と、特異的成分を含まないことが分かっているサンプルb1、b2、…とがある。これらサンプルは、図示するように、特異的サンプル群と非特異的サンプル群とに分けられ、各サンプルはそのいずれかの群に属するものとしてラベル付けされているものとする。ただし、特異的成分が何であるのかは不明である。ここでは、特異的サンプル群と非特異的サンプル群という二つの群に含まれるサンプルの間の差異解析を行い、その差異を特徴付ける成分、つまりは上記特異的成分を同定することを解析の目的としている。
測定される多数のサンプルには、特異的成分を含むことが分かっているサンプルa1、a2、…と、特異的成分を含まないことが分かっているサンプルb1、b2、…とがある。これらサンプルは、図示するように、特異的サンプル群と非特異的サンプル群とに分けられ、各サンプルはそのいずれかの群に属するものとしてラベル付けされているものとする。ただし、特異的成分が何であるのかは不明である。ここでは、特異的サンプル群と非特異的サンプル群という二つの群に含まれるサンプルの間の差異解析を行い、その差異を特徴付ける成分、つまりは上記特異的成分を同定することを解析の目的としている。
図3は特徴スペクトル取得処理の手順を示すフローチャート、図4はスペクトル類似度算出処理の手順を示すフローチャート、図6は差異スペクトル決定処理の手順を示すフローチャートである。また、図8は特徴スペクトル取得処理及びスペクトル類似度算出処理の説明図、図5はスペクトル類似度算出処理により求まる類似度代表値テーブルを示す図、図7は差異スペクトル決定処理の説明図である。
例えば分析者が入力部4から差異解析の実行を指示すると、データ処理部3では、図3に示す手順で特徴スペクトル取得処理が行われる。
即ち、主成分分析処理部33は、特異的サンプル群のラベルが付されたサンプルのうちの一つに対応する3次元マススペクトルデータをデータ記憶部32から読み出し、このデータに対する主成分分析を行う(ステップS11)。ここで選択される一つのサンプルは、最も特異的であると推定されるサンプルであることが望ましい。そこで、いずれの特異的サンプルを選択するかを分析者が入力部4から指定できるようにしておくとよい。図8(a)に示すように、データ記憶部32から得られる3次元マススペクトルデータには保持時間RTの情報が含まれるが、ステップS11において主成分分析を行う際には、3次元マススペクトルデータを保持時間に関係のない、単なるマススペクトルデータの集合であるとみなす(図8(b)参照)。この時点で、3次元マススペクトルデータから保持時間の情報は破棄される。
即ち、主成分分析処理部33は、特異的サンプル群のラベルが付されたサンプルのうちの一つに対応する3次元マススペクトルデータをデータ記憶部32から読み出し、このデータに対する主成分分析を行う(ステップS11)。ここで選択される一つのサンプルは、最も特異的であると推定されるサンプルであることが望ましい。そこで、いずれの特異的サンプルを選択するかを分析者が入力部4から指定できるようにしておくとよい。図8(a)に示すように、データ記憶部32から得られる3次元マススペクトルデータには保持時間RTの情報が含まれるが、ステップS11において主成分分析を行う際には、3次元マススペクトルデータを保持時間に関係のない、単なるマススペクトルデータの集合であるとみなす(図8(b)参照)。この時点で、3次元マススペクトルデータから保持時間の情報は破棄される。
主成分分析処理部33は予め主成分の数を決めておかず、主成分分析によって求まる累積寄与率に基づいて主成分数PCを定める(ステップS12)。主成分分析によって、第1主成分~第PC主成分までの各主成分に対する因子負荷量(主成分ローディング)が、質量電荷比毎に計算される。特徴スペクトル取得部34は、この因子負荷量を質量電荷比軸上に並べたスペクトル(図8(c)参照)を作成し、これを特異的サンプルの特徴スペクトルL1~LPCとして定める(ステップS13)。主成分分析を実施することによって特異的サンプルにおける3次元マススペクトルデータの特徴を統計量に基づいて抽出することができ、PC個の特徴スペクトルの少なくともいずれか一つに特異的成分の情報が反映される筈である。この時点では、いずれの主成分に対する因子負荷量が特異的成分の情報を含むのかは不明であるため、ステップS13で得られるのは、特異的サンプルに特徴的である可能性のあるスペクトルである。
なお、本実施例では、3次元マススペクトルデータから求めたマススペクトルの集合に対し多変量解析の一手法である主成分分析を適用しているが、ここで利用可能な手法は主成分分析に限らない。例えば、非負値行列因子分解(NMF)、多変量スペクトル分解(MCR) などでもよい。主成分分析では因子負荷量が負値になる場合があるため注意を要するが、多変量スペクトル分解などでは因子負荷量が必ず正値になるため、特徴スペクトルを作成するのに却って都合がよい。
データ処理部3では、続いて、図4に示す手順でスペクトル類似度算出処理が行われる。即ち、スペクトル類似度算出部35は、主成分を指定する変数pcを1に設定し(ステップS21)、類似度算出の基準となる特徴スペクトルLpcを設定する(ステップS22)。次に、サンプルを指定する変数nを1に設定し(ステップS23)、n番目のサンプルから得られた3次元マススペクトルデータを解析対象のデータとして設定する(ステップS24)。ここで、全てのサンプルa1、a2、…、b1、b2、…には予め連続番号を付しておくものとする。
次いで、保持時間を指定する変数tを0に設定し(ステップS25)、n番目のサンプル由来の3次元マススペクトルデータにおいて保持時間tにおけるマススペクトルStを抽出し、このマススペクトルStと特徴スペクトルLpcとの類似度Corrtを計算する(ステップS26)。この類似度Corrtは例えば、質量電荷比毎の信号強度値の差異に基づいて計算するものとすることができる。また、測定条件が同じでってもサンプルが異なると検出感度が相違することがあるから、類似度を計算する前に、例えば特定の質量電荷比における信号強度値や強度が最大である信号強度値を揃えるように、一方又は両方のスペクトルにおける信号強度を規格化するようにしてもよい。
二つのスペクトル間の類似度Corrtが得られたならば、変数tが測定終了時間Tに達したか否かを判定する(ステップS27)。そして変数tが測定終了時間Tに達していなければ、変数tにデータ測定時間間隔Δtを加算したものを新たな変数tとし(ステップS28)ステップS26へと戻る。したがって、ステップS26、S27、S28の繰り返しによって、指定されたn番目のサンプルに対し、変数tが0から測定終了時間Tまでの、つまりは測定開始時点から測定終了時点までの全測定期間に得られた全てのマススペクトルについて特徴スペクトルLpcとの間の類似度Corrtが計算されることになり、測定点数と同数の類似度Corrtが得られる(図8(d)参照)。
ステップS27でYesと判定されると、スペクトル類似度算出部35は、そのn番目のサンプルについて得られた、測定点数と同数の全ての類似度Corrtに基づいて、類似度の代表値Vnを計算して保存する(ステップS29)。この代表値Vnは全ての類似度の平均値、中央値、最頻値、合計値又は最大値などである。例えばn=1、pc=1であるときには、図5に示したテーブル中の実線で囲んだ枠100内の一つの代表値が求まる。
続いて、サンプルを指定する変数nが全サンプル数Nに達したか否かを判定し(ステップS30)、達していなければ変数nをインクリメントして(ステップS31)ステップS24へと戻る。したがって、ステップS24~S31の繰り返しによって、N個の全てのサンプルそれぞれについて、各サンプルから得られた3次元マススペクトルデータに基づくマススペクトルと一つの特徴スペクトルLpcとの間の類似度の代表値Vnが求まることになる。例えばpc=1であるときには、図5に示したテーブル中の一点鎖線で囲んだ枠101内のN個の類似度代表値が求まる。
ステップS30でYesと判定されると、次いで、主成分を指定する変数pcが主成分数PCに達したか否かを判定し(ステップS32)、達していなければ変数pcをインクリメントして(ステップS33)ステップS22へと戻る。したがって、ステップS22~S33の繰り返しによって、PC個の全ての特徴スペクトルLpcそれぞれについて、N個のサンプルのそれぞれに対応する類似度代表値が求まることになる。即ち、図5に示したテーブル中の二点鎖線で囲んだ枠102内の(N×PC)個の、つまりはサンプルと特徴スペクトルとの全ての組み合わせに対する類似度代表値が求まることになり、図5に示した類似度代表値テーブルが完成する。なお、このように類似度代表値テーブルを埋める各類似度代表値を求めるために、図4に示した手順とは異なる手順を用いることができることは明らかである。
データ処理部3ではさらに、図6に示す手順で差異スペクトル決定処理が行われる。即ち、差異スペクトル決定部36は、まず主成分を指定する変数pcを1に設定する(ステップS41)。そして、上述した類似度代表値テーブル中の類似度代表値を用いて、特異的サンプル群と非特異的サンプル群との二つのサンプル群の間で、特徴スペクトルLpcに対する類似度代表値の分布に有意差があるか否かの検定を実施する(ステップS42)。
具体的には、例えばいま、サンプル番号:1~MであるM個のサンプルが特異的サンプル群に属し、サンプル番号:M+1~Nである(N-M)個のサンプルが非特異的サンプル群に属するとする。特異的サンプル群における特徴スペクトルL1に対する類似度代表値はM個、非特異的サンプル群における特徴スペクトルL1に対する類似度代表値は(N-M)個存在する。それら類似度代表値を複数段階のレベルに分け、そのレベル毎にサンプル数を計数してヒストグラムで示すと、例えば図7に示すようになる。類似度を計算したときに用いた特徴スペクトルが特異的サンプル群と非特異的サンプル群とを区別するために適切なスペクトルである、つまりはそれら二つのサンプル群の一方には含まれ、他方には含まれない特徴的な成分が反映されたスペクトルであると、図7に示すように、各サンプル群に対応するピークは或る程度分離される。そこで、こうしたヒストグラムにおいて、二つのサンプル群に対する分布の中心間の距離Δが所定以上であれば、両分布には有意差があると推測できる。
もちろん、複数の群それぞれに対応する何らかの確率分布が離れているか否かを調べるには、上記例のみならず、従来から知られている様々な統計学上の仮説検定を用いることができる。
上記検定によって二つのサンプル群に対応する類似度代表値の分布に有意差があると判定された場合(ステップS43でYes)には、そのときの特徴スペクトルLpcを二つのサンプル群に対する差異スペクトルとして決定する(ステップS44)。一方、ステップS43で類似度代表値の分布に有意差がないと判定された場合には、ステップS44の処理をパスする。そして、主成分を指定する変数pcが主成分数PCに達したか否かを判定し(ステップS45)、達していなければ変数pcをインクリメントして(ステップS46)ステップS42へと戻る。したがって、ステップS42~S46の繰り返しによって、PC個の全ての特徴スペクトルLpcそれぞれについて、類似度代表値の分布に有意差があるか否が判定され、有意差があるとされた1又は複数の特徴スペクトルが差異スペクトルとして決定される。上述したように、この差異スペクトルは特異的サンプルに含まれ非特異的サンプルには含まれない特異的成分に特徴的である情報を含むスペクトルであると考えられる。
そこで、成分同定部37はスペクトルライブラリ38が利用可能であるか否かを判定し(ステップS47)、利用可能であれば、1又は複数の差異スペクトルをスペクトルライブラリ38中の情報と照合することで特異的成分を同定する(ステップS48)。このとき、マススペクトルのパターン(つまりはマススペクトル中の複数のピークの質量電荷比)を照合してもよいが、差異スペクトルから強度の大きな特定のピークに対応する質量電荷比を求め、スペクトルライブラリ38中に収録されている化合物の質量と照合するだけでもよい。なお、こうしたスペクトルライブラリ38としては、例えば米国国立バイオインフォマティクスセンターが運用するPubchemなどの汎用の化合物データベースを用いてもよいし、或いは、装置メーカーから提供された若しくはユーザー自身が作成した特定の化合物のみを収録したライブラリを用いてもよい。
そして、成分が同定できればその同定結果を差異スペクトルとともに表示部5の画面上に表示する。また、成分同定できなければその旨を表示する。さらには、何らかの理由でスペクトルライブラリ38が利用できなければ、差異スペクトルのみを表示する(ステップS49)。このようにして、本実施例のLC-MSシステムによれば、二つのサンプル群に対する差異解析によって求まる差異スペクトルや、該差異スペクトルから導出される特異的成分に関する情報を分析者に提供することができる。
また、差異スペクトルだけでなく、全てのサンプルの類似度の分布を示すグラフを作成して表示すると、ステップS44で決定された差異スペクトルが複数のサンプル群を識別するのに適切か否かを分析者が直感的に且つ容易に確認することができる。
図9は第1~第3主成分の特徴スペクトルに対する全サンプルの類似度の分布を示すグラフの一例である。この例では、ステップS42の検定によって、第3主成分の特徴スペクトルのみが差異スペクトルとして決定された。この第3主成分における類似度の分布を見ると、非特異的サンプルと特異的サンプルとが明確に分離されており、決定された差異スペクトルが適切であることを分析者も確認することができる。
図9は第1~第3主成分の特徴スペクトルに対する全サンプルの類似度の分布を示すグラフの一例である。この例では、ステップS42の検定によって、第3主成分の特徴スペクトルのみが差異スペクトルとして決定された。この第3主成分における類似度の分布を見ると、非特異的サンプルと特異的サンプルとが明確に分離されており、決定された差異スペクトルが適切であることを分析者も確認することができる。
なお、上記実施例は本発明の一例であり、本発明の趣旨の範囲で適宜変形、追加、修正を加えても本願特許請求の範囲に包含されることは明らかである。
例えば、上記実施例は本発明をLC-MSで得られたデータに適用したものであるが、GC-MS、PDA検出器や波長走査可能な紫外可視分光光度計を用いたLC、赤外分光光度計を検出器として用いたGCなどにおいて、時間経過に伴って順次得られるスペクトルを構成するデータに適用できることは明らかである。また、イメージング質量分析装置において、空間位置が相違する多数の測定点からそれぞれ得られるデータを処理する際に本発明を用いることもできる。
1…LC部
2…MS部
3…データ処理部
31…データ収集処理部
32…データ記憶部
33…主成分分析処理部
34…特徴スペクトル取得部
35…スペクトル類似度算出部
36…差異スペクトル決定部
37…成分同定部
38…スペクトルライブラリ
4…入力部
5…表示部
2…MS部
3…データ処理部
31…データ収集処理部
32…データ記憶部
33…主成分分析処理部
34…特徴スペクトル取得部
35…スペクトル類似度算出部
36…差異スペクトル決定部
37…成分同定部
38…スペクトルライブラリ
4…入力部
5…表示部
Claims (4)
- 第1のパラメータと信号強度との関係を示すスペクトルが第2のパラメータの変化に伴って得られてなる複数のスペクトルを構成する3次元スペクトルデータを処理する装置であって、複数のサンプルからそれぞれ得られた3次元スペクトルデータの間の類似性又は相違性を解析するための3次元スペクトルデータ処理装置において、
a)複数のサンプルの中で特異的なサンプルから得られた一つのスペクトルデータから作成される複数のスペクトルを、第2のパラメータの値によらない一つのスペクトルの集合とみなして多変量解析を行い、その結果に基づいてその特異的なサンプルを特徴付け得る1又は複数の特徴スペクトルを求める特徴スペクトル取得部と、
b)前記特徴スペクトル取得部で得られた特徴スペクトル毎に、複数のサンプルに対する3次元スペクトルデータそれぞれについて、一つのサンプルに対する3次元スペクトルデータから作成される複数のスペクトルのそれぞれと一つの特徴スペクトルとの類似度を計算し、その複数の類似度から該サンプルに対応する類似度の代表値を算出するスペクトル類似度算出部と、
c)前記特徴スペクトル毎に複数のサンプルに対応してそれぞれ得られた類似度の代表値に基づいて、特異的なサンプルと非特異的なサンプルとを区別し得る有意な差が認められるか否かを調べ、有意な差が認められる類似度が得られる特徴スペクトルを差異スペクトルとして決定する差異スペクトル決定部と、
前記差異スペクトル決定部において決定された差異スペクトルから得られる情報を、化合物に関する情報が収録されているデータベース内の情報と照合することで成分同定を行う成分同定部と、
を備えることを特徴とするスペクトルデータの特徴抽出装置。 - 請求項1に記載のスペクトルデータの特徴抽出装置であって、
化合物に関する情報が収録されているデータベースと、
前記差異スペクトル決定部で決定された差異スペクトルから得られる情報を前記データベース内の情報と照合することで成分同定を行う成分同定部と、
をさらに備えることを特徴とするスペクトルデータの特徴抽出装置。 - 請求項1又は2に記載のスペクトルデータの特徴抽出装置であって、
前記差異スペクトル決定部で決定された差異スペクトル、及び、該差異スペクトルに対する全てのサンプルにおける類似度の代表値の分布状況、を表示する表示部をさらに備えることを特徴とするスペクトルデータの特徴抽出装置。 - 第1のパラメータと信号強度との関係を示すスペクトルが第2のパラメータの変化に伴って得られてなる複数のスペクトルを構成する3次元スペクトルデータを処理する方法であって、複数のサンプルからそれぞれ得られた3次元スペクトルデータの間の類似性又は相違性を解析するためのスペクトルデータの特徴抽出方法において、
a)複数のサンプルの中で特異的なサンプルから得られた一つの3次元スペクトルデータから作成される複数のスペクトルを、第2のパラメータの値によらない一つのスペクトルの集合とみなして多変量解析を行い、その結果に基づいてその特異的なサンプルを特徴付け得る1又は複数の特徴スペクトルを求める特徴スペクトル取得ステップと、
b)前記特徴スペクトル取得ステップにおいて得られた特徴スペクトル毎に、複数のサンプルに対する3次元スペクトルデータそれぞれについて、一つのサンプルに対する3次元スペクトルデータから作成される複数のスペクトルのそれぞれと一つの特徴スペクトルとの類似度を計算し、その複数の類似度から該サンプルに対応する類似度の代表値を算出するスペクトル類似度算出ステップと、
c)前記特徴スペクトル毎に複数のサンプルに対応してそれぞれ得られた類似度の代表値に基づいて、特異的なサンプルと非特異的なサンプルとを区別し得る有意な差が認められるか否かを調べ、有意な差が認められる類似度が得られる特徴スペクトルを差異スペクトルとして決定する差異スペクトル決定ステップと、
を有することを特徴とするスペクトルデータの特徴抽出方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2017/007674 WO2018158801A1 (ja) | 2017-02-28 | 2017-02-28 | スペクトルデータの特徴抽出装置および方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2017/007674 WO2018158801A1 (ja) | 2017-02-28 | 2017-02-28 | スペクトルデータの特徴抽出装置および方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2018158801A1 true WO2018158801A1 (ja) | 2018-09-07 |
Family
ID=63370692
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2017/007674 Ceased WO2018158801A1 (ja) | 2017-02-28 | 2017-02-28 | スペクトルデータの特徴抽出装置および方法 |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2018158801A1 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2022270289A1 (ja) * | 2021-06-24 | 2022-12-29 | 国立研究開発法人物質・材料研究機構 | 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム |
| CN119104503A (zh) * | 2024-10-16 | 2024-12-10 | 东北农业大学 | 用于青贮全株玉米iNDF含量的光谱测定方法及系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009530624A (ja) * | 2006-03-24 | 2009-08-27 | フェノメノーム ディスカバリーズ インク | 前立腺癌を診断するために有用なバイオマーカー及びその方法 |
| WO2016120958A1 (ja) * | 2015-01-26 | 2016-08-04 | 株式会社島津製作所 | 3次元スペクトルデータ処理装置及び処理方法 |
| JP2016200435A (ja) * | 2015-04-08 | 2016-12-01 | 国立大学法人山梨大学 | マススペクトル解析システム,方法およびプログラム |
-
2017
- 2017-02-28 WO PCT/JP2017/007674 patent/WO2018158801A1/ja not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009530624A (ja) * | 2006-03-24 | 2009-08-27 | フェノメノーム ディスカバリーズ インク | 前立腺癌を診断するために有用なバイオマーカー及びその方法 |
| WO2016120958A1 (ja) * | 2015-01-26 | 2016-08-04 | 株式会社島津製作所 | 3次元スペクトルデータ処理装置及び処理方法 |
| JP2016200435A (ja) * | 2015-04-08 | 2016-12-01 | 国立大学法人山梨大学 | マススペクトル解析システム,方法およびプログラム |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2022270289A1 (ja) * | 2021-06-24 | 2022-12-29 | 国立研究開発法人物質・材料研究機構 | 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム |
| JPWO2022270289A1 (ja) * | 2021-06-24 | 2022-12-29 | ||
| JP7628731B2 (ja) | 2021-06-24 | 2025-02-12 | 国立研究開発法人物質・材料研究機構 | 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム |
| CN119104503A (zh) * | 2024-10-16 | 2024-12-10 | 东北农业大学 | 用于青贮全株玉米iNDF含量的光谱测定方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6245387B2 (ja) | 3次元スペクトルデータ処理装置及び処理方法 | |
| CN105518448B (zh) | 色谱质谱分析用数据处理装置 | |
| JP6620894B2 (ja) | クロマトグラフ質量分析用データ解析装置 | |
| US10718713B2 (en) | Unknown sample determining method, unknown sample determining instrument, and unknown sample determining program | |
| US11423331B2 (en) | Analytical data analysis method and analytical data analyzer | |
| JP7108136B2 (ja) | 分析装置 | |
| JP5962775B2 (ja) | クロマトグラフ質量分析用データ処理装置 | |
| CN109073615B (zh) | 数据处理装置 | |
| US6944549B2 (en) | Method and apparatus for automated detection of peaks in spectroscopic data | |
| US20150198569A1 (en) | Mass analysis method and mass analysis system | |
| JP2024152037A (ja) | 波形解析方法、波形解析装置、及び分析装置 | |
| GB2561879A (en) | Spectroscopic analysis | |
| JP7334788B2 (ja) | 波形解析方法及び波形解析装置 | |
| US20200011769A1 (en) | Indentification of chemicals in a sample using gc/saw and raman spectroscopy | |
| JP2018504600A (ja) | 干渉検出および着目ピークのデコンボルーション | |
| JP2022545666A (ja) | 機械学習を使用した圧力トレースからのlc問題診断 | |
| WO2018158801A1 (ja) | スペクトルデータの特徴抽出装置および方法 | |
| US9823228B2 (en) | Chromatograph mass spectrometer and control method therefor | |
| CN109477776B (zh) | 使用gc/saw和拉曼光谱学来鉴别样本中的化学物质 | |
| EP4556904A1 (en) | Fingerprint similarity based sample analysis | |
| Kehimkar et al. | Targeted mass spectral ratio analysis: A new tool for gas chromatography—mass spectrometry | |
| US20250165560A1 (en) | Fingerprint similarity based sample analysis | |
| WO2024236865A1 (ja) | 波形解析方法、波形解析装置、及び分析装置 | |
| JP6628181B2 (ja) | 質量分析を用いた試料解析方法及び試料解析システム | |
| JPH0954072A (ja) | クロマトグラフのデータ処理装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17899004 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 17899004 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: JP |