[go: up one dir, main page]

JP7562585B2 - 部分構造推定装置及び部分構造推定モデル生成方法 - Google Patents

部分構造推定装置及び部分構造推定モデル生成方法 Download PDF

Info

Publication number
JP7562585B2
JP7562585B2 JP2022028364A JP2022028364A JP7562585B2 JP 7562585 B2 JP7562585 B2 JP 7562585B2 JP 2022028364 A JP2022028364 A JP 2022028364A JP 2022028364 A JP2022028364 A JP 2022028364A JP 7562585 B2 JP7562585 B2 JP 7562585B2
Authority
JP
Japan
Prior art keywords
explanatory variable
peaks
substructure
peak
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022028364A
Other languages
English (en)
Other versions
JP2023124547A (ja
Inventor
歩 久保
正章 生方
健治 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jeol Ltd
Original Assignee
Jeol Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jeol Ltd filed Critical Jeol Ltd
Priority to JP2022028364A priority Critical patent/JP7562585B2/ja
Priority to EP23156565.6A priority patent/EP4235681A1/en
Priority to US18/113,153 priority patent/US12542265B2/en
Publication of JP2023124547A publication Critical patent/JP2023124547A/ja
Application granted granted Critical
Publication of JP7562585B2 publication Critical patent/JP7562585B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/004Combinations of spectrometers, tandem spectrometers, e.g. MS/MS, MSn
    • H01J49/009Spectrometers having multiple channels, parallel analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Description

本発明は、部分構造推定装置及び部分構造推定モデル生成方法に関し、特に、マススペクトルに基づいて未知化合物が有している部分構造を推定する技術に関する。
未知化合物の分子構造を推定するために、あるいは、未知化合物が有する化学的性質を決定又は推定するために、未知化合物が有している部分構造(未知化合物分子における一部分の化学構造)を特定することが望まれる。部分構造として、カルボン酸(carboxylic acid)、ニトリル(nitrile)、ベンゼン(benzene)、チオフェン(thiophene)、等が挙げられる。
非特許文献1には、機械学習済みモデルを用いて部分構造を推定する方法が記載されている。その方法では、マススペクトルに含まれる各フラグメントピークが有する強度及び各フラグメントピークに対応する整数質量が利用されている。非特許文献1には、フラグメントの組成やフラグメント間の組成差に基づく部分構造の推定については記載されていない。なお、特許文献1には、機械学習技術を用いて、未知の微生物を同定する方法が記載されているが、未知化合物が有する部分構造を推定することは記載されていない。
特表2015-522249号公報
小松他「マススペクトルに対する機械学習による未知化合物の部分構造推定」(講演要旨番号:B205)、第25回高分子分析討論会 講演要旨集、日本分析化学会 高分子分析研究懇談会、2020年10月23日(日本の国会図書館に記録されている出版年月日)
本発明の目的は、試料に含まれる部分構造を精度良く推定することにある。あるいは、本発明の目的は、試料に含まれるより多くの部分構造を推定することにある。あるいは、本発明の目的は、試料に含まれる部分構造を精度良く推定するモデルを生成することにある。
本発明に係る部分構造推定装置は、試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数を生成する第1説明変数生成器と、前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数を生成する第2説明変数生成器と、前記第1説明変数及び前記第2説明変数に基づいて前記試料が有する部分構造を目的変数として推定する部分構造推定器と、を含むことを特徴とする。
本発明に係る部分構造推定モデル生成方法は、複数の部分構造を登録する工程と、既知化合物から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数を生成する工程と、前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数を生成する工程と、登録された部分構造ごとに前記既知化合物における当該部分構造の存否を判定することにより目的変数を生成する工程と、前記第1説明変数、前記第2説明変数及び前記目的変数からなる訓練データを用いた機械学習により部分構造推定モデルを生成する工程と、を含むことを特徴とする。
本発明によれば、試料に含まれる部分構造を精度良く推定できる。あるいは、本発明によれば、試料に含まれる多くの部分構造を推定できる。あるいは、本発明によれば、試料に含まれる部分構造を精度良く推定するモデルを生成できる。
実施形態に係る部分構造推定システムの構成例を示すブロック図である。 実施形態に係る部分構造推定モデル生成装置の構成例を示すブロック図である。 実施形態に係る部分構造推定装置の構成例を示すブロック図である。 部分構造の登録方法を示す図である。 公知部分構造の登録例を示す図である。 複数の基本骨格を示す図である。 基本骨格に基づいて生成された複数の新規部分構造を示す図である。 水素原子の付加により生成された複数の新規部分構造を示す図である。 目的変数の生成方法を示す図である。 フラグメントピークごとの組成推定及びフラグメントピーク間隔ごとの組成推定を示す図である。 第1説明変数を示す図である。 第2説明変数を示す図である。 訓練データセットを示す図である。 第1表示例を示す図である。 第2表示例を示す図である。 第3表示例を示す図である。 部分構造推定モデルの評価方法の一例を示す図である。 他の実施形態に係る部分構造推定モデル生成装置の構成例を示すブロック図である。 フラグメントピークごとの組成推定、フラグメントピーク間隔ごとの組成推定、及び、ニュートラルロスごとの組成推定を示す図である。 第3説明変数を示す図である。 他の実施形態に係る部分構造推定装置の構成例を示すブロック図である。
以下、実施形態を図面に基づいて説明する。
(1)実施形態の概要
実施形態に係る部分構造推定装置は、第1説明変数生成器、第2説明変数生成器、及び、部分構造推定器を有する。第1説明変数生成器は、試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数を生成する。第2説明変数生成器は、ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数を生成する。部分構造推定器は、第1説明変数及び第2説明変数に基づいて試料が有する部分構造を目的変数として推定する。
マススペクトルに含まれるピーク群がフラグメントピーク群であるとみなせる場合、そのピーク群は、試料中の多様な部分構造を直接的に反映している有意な情報である。現在普及している組成推定技術によれば、個々のピークに対応する質量(実施形態において測定精密質量)から、数学的処理により、質量誤差や推定確率を考慮しつつ、組成(部分組成)を精度良く推定できる。よって、複数のピークから推定される複数の組成は、部分構造を推定する上での根幹的又は決定的な特徴量であり、これと同様に、複数のピーク間隔から推定される複数の組成も、部分構造を推定する上での根幹的又は決定的な特徴量である。
以上のような観点から、複数のピークから推定される複数の組成に基づいて第1説明変数が生成され、複数のピーク間隔から推定される複数の組成に基づいて第2説明変数が生成される。それらの説明変数に基づいて目的変数としての部分構造を推定することにより、その推定精度を高められる。
測定精密質量それ自体を説明変数(特徴量)として扱うことも可能であるが、その場合には、フラグメントピーク以外の信号(夾雑成分等の信号)も説明変数の基礎とされてしまうので、部分構造の推定精度が悪化してしまう。これに対し、上記構成によれば、フラグメントピーク以外の信号が説明変数の基礎とされないので又はその可能性を低減できるので、部分構造の推定精度を高められる。なお、第1説明変数及び第2説明変数の実体はいずれもベクトルである。3つ以上の説明変数に基づいて部分構造が推定されてもよい。
化合物分子における一部分の組成は、当該一部分を構成する1又は複数の元素及び各元素の原子数を示す情報である。一部分の組成は、当該一部分が有する化学構造(部分構造)までを示すものではないが、当該一部分が有する化学構造を基礎付ける有意な情報である。部分構造は、通常、構造式として表現される。部分構造が二次元又は三次元の構造モデルとして表現されてもよい。
上記のピーク間隔の概念には、2つのフラグメントピークの間隔(フラグメントロス)、及び、分子ピークとフラグメントピークの間隔(ニュートラルロス)、が含まれる。上記のマススペクトルの概念には、ハードイオン化法の1つである電子イオン化法(EI法)を用いて生成されたEIマススペクトルが含まれる。EIマススペクトルには、比較的に多くのフラグメントピーク(フラグメントイオンピーク)が含まれる。ピーク群の特定に当たって、更に、ソフトイオン化法を用いて生成されたマススペクトルが参照されてもよい。フラグメントの概念には、CID(Collision-Induced Dissociation)により生成されたプロダクトイオンが含まれ得る。
実施形態において、部分構造推定器は、第1説明変数及び第2説明変数に基づいて部分構造を推定する機械学習済み部分構造推定モデルを有する。実施形態において、第1説明変数生成器は、ピークに対応する測定精密質量に基づいて組成推定を行う。第2説明変数生成器は、ピーク間隔に対応する組成差又は測定精密質量差に基づいて組成推定を行う。測定精密質量は小数点以下を含むものであり、整数質量と対比される物理量である。組成差は、2つのピークに対応する2つの組成の差分により特定される。組成差をそのまま部分組成として採用してもよいし、組成差の修正により部分組成を特定してもよい。なお、一般に、測定精密質量とは、十分な精度で1mDa(1x10-3u)以下まで質量を測定した場合における測定値のことである(マススペクトリー関係用語集改訂第4版(WWW版)、質量分析学会)。測定精密質量の定義として、質量分析の目的や期待する質量分析精度等に応じた定義を採用し得る。
実施形態において、ピーク群には複数のフラグメントピークが含まれる。第1説明変数生成器は、フラグメントピークごとに組成推定を行うことにより複数の第1部分組成を推定する。また、第1説明変数生成器は、複数の第1部分組成に基づいて第1説明変数を構成する複数の第1要素を特定する。実施形態において、各第1要素は重み値を含む。各重み値は、各第1部分組成に対応するフラグメントピークの強度に基づいて決定される。
実施形態において、複数のフラグメントピークに基づいて複数のフラグメントピーク間隔が定義される。第2説明変数生成器は、フラグメントピーク間隔ごとに組成推定を行うことにより複数の第2部分組成を推定する。また、第2説明変数生成器は、複数の第2部分組成に基づいて第2説明変数を構成する複数の第2要素を特定する。各第2要素に、それに対応する2つのフラグメントピークから演算される重み値を含めてもよい。
実施形態において、ピーク群には分子ピーク及び複数のフラグメントピークが含まれる。分子ピーク及び複数のフラグメントピークに基づいて複数のニュートラルロスが定義される。実施形態に係る部分構造推定装置は、ピーク群に基づいてニュートラルロスごとに組成推定を行うことにより第3説明変数を生成する第3説明変数生成器を含む。部分構造推定器は、第1説明変数、第2説明変数及び第3説明変数に基づいて試料が有する部分構造を推定する。第3説明変数は、説明対象の特徴の表現に当たって、第1説明変数及び第2説明変数を補完する役割を果たすものである。第3説明変数の導入により、部分構造の推定精度を高められる。
実施形態において、部分構造推定器の推定結果に基づいて、試料が有する1又は複数の部分構造を示す部分構造リストを生成する表示処理部と、マススペクトル及び部分構造リストを表示する表示器と、を含む。この構成によれば、マススペクトルを参照しながら試料に含まれる1又は複数の部分構造を認識できる。
実施形態において、表示処理部は、部分構造リストの中から特定の部分構造が指定された場合に、特定の部分構造に対応するピーク又はピーク間隔を識別する識別情報をマススペクトル上に表示する。この構成によれば、マススペクトルにおいて、注目する部分構造に対応するピーク又はピーク間を容易に特定できる。
実施形態に係るプログラムは、情報処理装置において実行されるプログラムであって、第1説明変数生成機能、第2説明変数生成機能、及び、部分構造推定機能を有する。第1説明変数生成機能は、試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数を生成する機能である。第2説明変数生成機能は、ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数を生成する機能である。部分構造推定機能は、第1説明変数及び第2説明変数に基づいて試料が有する部分構造を目的変数として推定する機能である。上記のプログラムは、可搬型記憶媒体又はネットワークを介して、情報処理装置へインストールされる。情報処理装置は、上記のプログラムを非一時的に記憶する記憶媒体を備える。プログラムが有する機能の一部又は全部がネットワーク上のサーバーによって実行されてもよい。
実施形態に係る部分構造推定モデル生成方法は、登録工程、第1説明変数生成工程、第2説明変数生成工程、目的変数生成工程、及び、モデル生成工程する。登録工程では、複数の部分構造が登録される。第1説明変数生成工程では、既知化合物から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数が生成される。第2説明変数生成工程では、ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数が生成される。目的変数生成工程では、登録された部分構造ごとに既知化合物における当該部分構造の存否を判定することにより目的変数が生成される。モデル生成工程では、第1説明変数、第2説明変数及び目的変数からなる訓練データを用いた機械学習により部分構造推定モデルが生成される。
上記構成によれば、既知化合物のマススペクトルに基づいて第1説明変数及び第2説明変数が生成され、既知化合物の構造式及び登録された複数の部分構造に基づいて目的変数が生成される。第1説明変数、第2説明変数及び目的変数により1つの訓練データが構成される。一般に、多数の既知化合物に基づいて多数の訓練データが生成され、それらの訓練データを用いた機械学習により部分構造推定モデルが生成される。機械学習過程において目的変数が正解データとして機能する。
実施形態において、登録工程は、複数の公知部分構造を登録する工程と、複数の新規部分構造を作出する工程と、複数の新規部分構造を登録する工程と、を含む。この構成によれば、推定される部分構造の範囲を拡大できる。
実施形態において、複数の新規部分構造を作出する工程は、複数の基本骨格を定義する工程と、各基本骨格における複数の原子位置に対して、元素グループの中から選択された複数の元素を仮想的に配置することにより、複数の新規部分構造を定義する工程と、を含む。この構成によれば、多数の新規部分構造を容易に生成し得る。
(2)実施形態の詳細
図1には、実施形態に係る部分構造推定システムの構成例が示されている。図示された部分構造推定システム10は、第1のサブシステム10A及び第2のサブシステム10Bにより構成される。第1のサブシステム10Aは、部分構造推定モデルを生成するものであり、第2のサブシステム10Bは、部分構造推定モデルを用いて部分構造を推定するものである。
第1のサブシステム10Aは、質量分析装置11及び部分構造推定モデル生成装置12を有する。標準試料群16は、数十個、数百個、又は、数千個の標準試料により構成される。各標準試料の構造式は既知である。質量分析装置11は、各標準試料に対して質量分析を実行し、これにより各標準試料のマススペクトルを生成する。それらのマススペクトルが部分構造推定モデル生成装置12へ与えられる。
質量分析装置11は、イオン源、質量分析器、検出器等を有する。イオン源は、電子イオン化法(EI法)に従うイオン源である。他のイオン化法に従うイオン源が設けられてもよい。EI法に従うイオン源とソフトイオン化法に従うイオン源とが選択的に利用されてもよい。イオン源において、試料である化合物がイオン化される。その際、通常、多数のフラグメントイオンが生じる。質量分析器は、生成された各イオンに対して質量分析を実施するものである。質量分析器として、飛行時間型質量分析器、フーリエ変換型質量分析器、磁場型質量分析器、等を用い得る。検出器において各イオンが検出される。検出器の出力信号に基づいてマススペクトルが生成される。
質量分析装置11の前段にガスクロマトグラフが設けられてもよい。ガスクロマトグラフに代えて液体クロマトグラフが設けられてもよい。質量分析装置11の後段には、マススペクトル処理装置が設けられているが、図1においては、マススペクトル処理装置の図示が省略されている。マススペクトル処理装置は、例えば、プログラムを実行するプロセッサを有するコンピュータにより構成される。
部分構造推定モデル生成装置12は、機械学習を行う学習器17を有する。学習器17に対して、複数の訓練データを与えることにより、部分構造推定モデル18が生成される。実施形態においては、後述するように、1つの標準試料マススペクトルから1つの訓練データが生成される。部分構造推定モデル生成装置12は、例えば、プログラムを実行するプロセッサを有するコンピュータにより構成される。部分構造推定モデル生成装置12については後に図2を用いて詳述する。
データベース群(DB群)14には、複数の標準試料の構造式を含むDB、複数の公知部分構造が登録されたDB、等が含まれる。DB群14から部分構造推定モデル生成装置12へ、各標準試料の構造式が与えられており、また、複数の公知部分構造を表す情報が与えられる。分子構造又は部分構造がSMILES(Simplified Molecular Input Line Entry System)等によって記述されてもよい。
部分構造生成器15は、部分構造推定モデルの生成に先立って、所定条件に従って複数の新規部分構造を生成するものである。生成された複数の新規部分構造が部分構造推定モデル生成装置12に登録される。部分構造生成器15は、例えば、プログラムを実行するコンピュータにより構成される。部分構造推定モデル生成装置12が部分構造生成器15として機能してもよい。部分構造の生成については後に詳述する。
次に、第2のサブシステム10Bについて説明する。第2のサブシステム10Bは、未知試料21の化学構造を推定するために、あるいは、未知試料21の性質を決定又は推定するために、未知試料21(未知化合物分子)が有する1又は複数の部分構造を推定するものである。第2のサブシステム10Bは、質量分析装置19及び部分構造推定装置20を有する。
質量分析装置19は、上記の質量分析装置11と同様の構成を有し、すなわち、イオン源、質量分析器、検出器、等を有する。同じ質量分析装置を質量分析装置11及び質量分析装置19として機能させてもよい。質量分析装置19が有するイオン源は、質量分析装置11が有するイオン源と同様、電子イオン化法(EI法)に従うイオン源である。EI法に従うイオン源に代えて、他のイオン化法に従うイオン源が設けられてもよいし、EI法に従うイオン源とソフトイオン化法に従うイオン源とが選択的に利用されてもよい。質量分析装置19において生成された未知試料マススペクトルが部分構造推定装置20へ送られている。質量分析装置19の前段にガスクロマトグラフが設けられてもよい。ガスクロマトグラフに代えて液体クロマトグラフが設けられてもよい。質量分析装置19の後段には、マススペクトル処理装置が設けられているが、図1においては、その図示が省略されている。
部分構造推定装置20は、未知試料マススペクトルに基づいて、未知試料21が有する1又は複数の部分構造を推定するものである。具体的には、部分構造推定装置20は、部分構造推定器22を有する。部分構造推定器22は、部分構造推定モデル生成装置12において生成された部分構造推定モデル24を有する。部分構造推定装置20は、例えば、プログラムを実行するプロセッサを有するコンピュータにより構成される。部分構造推定装置20については後に図3を用いて詳述する。同じコンピュータ上に部分構造推定モデル生成装置12及び部分構造推定装置20が構築されてもよい。
図1において、符号26が示すように、未知試料21が有する化学構造は当然ながら不明である。未知試料21に対する質量分析により、符号30が示すように、未知試料マススペクトルが生成される。未知試料21のイオン化に際しては、符号28が示すように、未知試料21に含まれる複数の部分構造a1,b1,c1が複数のフラグメントイオンとして生じる。質量分析装置19において各フラグメントイオンが観測される。すなわち、未知試料マススペクトルには、複数のフラグメントピーク(複数のフラグメントイオンピーク)が含まれる。なお、EI法に従うマススペクトルにおいて、分子ピーク(分子イオンピーク)を明瞭に特定できる場合もあるが、そうでない場合も多い。
部分構造推定装置20では、未知試料マススペクトルに基づいて、未知試料が有する1又は複数の部分構造が推定される。その際に、部分構造推定モデル24が利用される。符号32が示すように、例えば、未知試料21に含まれる部分構造a2,b2,c2が推定される。それらの部分構造a2,b2,c2を示す情報がユーザーに提供される。
次に、図2を用いて、部分構造推定モデル生成装置について具体的に説明する。図示された部分構造推定モデル生成装置12は、学習用データセット生成部34及び学習器17を有する。
質量分析装置11において、標準試料群16を構成する各標準試料の質量分析が実行される。これにより標準試料マススペクトル群54が生成される。マススペクトル処理装置40は、ピーク検出器56及び規格化器58を有する。ピーク検出器56は、標準試料マススペクトルごとに、標準試料マススペクトルに対してピーク検出を実行する。これによりピーク群が検出される。規格化器58は、ピーク群を規格化する。例えば、ピーク群の強度の合計値が1000になるようにピーク群が規格化される。標準試料マススペクトルごとに、規格化後のピーク群(規格化後の標準試料マススペクトルとも言い得る)が学習用データセット生成部34へ送られる。実施形態において、標準試料マススペクトルは、EIマススペクトルであり、ピーク群はフラグメントピーク群であるとみなせる。
なお、規格化に際して、標準試料ごとにつまり化合物ごとに合計強度の条件を変更してもよい。例えば、分子量や原子数等によって合計強度を変更してもよい。
学習用データセット生成部34は、目的変数生成器52、第1説明変数生成器60、及び、第2説明変数生成器62を有する。目的変数生成器52については後に説明する。
第1説明変数生成器60は、標準試料マススペクトルごとに、標準試料マススペクトルに含まれるピーク群に基づいて第1説明変数を生成するものである。具体的には、第1説明変数生成器60は組成推定器61を有する。組成推定器61は、ピーク群中のピークごとに、それに対応する測定精密質量に基づいて、1又は複数の組成(部分組成)を推定する。組成推定器61の組成推定結果から第1説明変数が生成される。第1説明変数については後に具体例を用いて詳述する。
第2説明変数生成器62は、標準試料マススペクトルごとに、標準試料マススペクトルに含まれるピーク群に基づいて第2説明変数を生成するものである。具体的には、第2説明変数生成器62は組成推定器63を有する。組成推定器63は、ピーク群中のピーク間隔ごとに、それに対応する組成差又は測定精密質量差に基づいて、1又は複数の組成(部分組成)を推定する。組成推定器61によりピークごとの組成が既に推定されている場合、組成推定器63は、ピーク間ごとに2つの組成の差分演算により組成差を求める。その組成差が部分組成とされる。2つのピークに対応する2つの測定精密質量から演算される測定精密質量差に基づいて部分組成が推定されてもよい。組成推定器63の組成推定結果から第2説明変数が生成される。第2説明変数については後に具体例を用いて詳述する。同じ組成推定器を組成推定器61及び組成推定器63として機能させてもよい。
上記のピーク群は、基本的に、フラグメントピーク群である。ピーク群の中からすべてのピークペアが抽出され、抽出されたピークペアごとにピーク間が特定される。もっとも、ピーク群の中から一部のピークペア(代表ピークペア)が抽出され、抽出された代表ピークペアごとにピーク間が特定されてもよい。なお、ピーク群に分子ピークが含まれる場合、分子ピークと各フラグメントピークに基づいて複数のピーク間(ニュートラルロス)が特定されてもよい。これについては後述する。
DB群14には、構造式DB44及び部分構造DB48が含まれる。構造式DB44には、標準試料群16を構成する複数の標準試料の構造式が含まれる。それらの構造式を示すデータが構造式DB44から学習用データセット生成部34へ与えられる。そのデータが他の方法により学習用データセット生成部34へ与えられてもよい。部分構造DB48には、複数の公知部分構造が登録されている。複数の公知部分構造を示すデータが部分構造DB48から学習用データセット生成部34に与えられる。そのデータが他の方法により学習用データセット生成部34へ与えられてもよい。
部分構造生成器15は、ユーザーにより指定された生成条件に従って、複数の新規部分構造を生成するものである。生成された複数の新規部分構造を示すデータが学習用データセット生成部34に与えられる。複数の公知部分構造及び複数の新規部分構造が学習用データセット生成部34に登録される。登録された複数の部分構造により部分構造リスト46が構成される。
目的変数生成器52は、標準試料ごとに、標準試料の構造式及び部分構造リスト46に基づいて目的変数を生成する。具体的には、標準試料の構造式に、部分構造リスト46を構成する各部分構造が含まれるか否かを個別的に判定することにより、目的変数を生成する。目的変数については後に具体例を用いて詳述する。
標準試料ごとに、目的変数、第1説明変数及び第2説明変数が生成され、それらにより訓練データが構成される。複数の標準試料に対応する複数の訓練データにより訓練データセット64が構成される。訓練データセット64が学習器17に与えられる。
学習器17は、訓練データセットを用いた機械学習により、部分構造推定モデル18を生成するものである。具体的には、訓練データごとに、第1説明変数及び第2説明変数が学習完了前の推定モデルに与えられ、推定モデルの推定結果が目的変数に近付くように、推定モデルの内容が修正される。これが繰り返し実施され、最終的に、部分構造推定モデル18が生成される。生成された部分構造推定モデル18が部分構造推定装置へ送られる。その際、評価部68による、部分構造推定モデル18の評価が実施されてもよい。例えば、部分構造推定モデル18の内で、推定精度の低い部分については除外又は無効化されてもよい。
利用し得る機械学習アルゴリズムとして、例えば、決定木(decision tree)、ランダムフォレスト(random forest)、ロジスティック回帰(logistic regression)、ナイーブベイズ(naive bayes)等に基づくアルゴリズムが挙げられる。他のアルゴリズムが用いられてもよい。事後的な検証の観点からアルゴリズムが選択されてもよい。
図3には、部分構造推定装置の構成例が示されている。図示された部分構造推定装置20は、説明変数セット生成部70及び部分構造推定器22を有する。
質量分析装置19において、未知試料の質量分析が実行される。これにより未知試料マススペクトル78が生成される。マススペクトル処理装置76は、ピーク検出器80及び規格化器82を有する。ピーク検出器80は、未知試料マススペクトルに対してピーク検出を実行する。これによりピーク群が検出される。規格化器82は、ピーク群を規格化する。例えば、ピーク群の強度の合計値が1000になるようにピーク群が規格化される。規格化後のピーク群(規格化後の未知試料マススペクトルとも言い得る)が説明変数セット生成部70へ送られる。未知試料マススペクトルは、EIマススペクトルであり、ピーク群はフラグメントピーク群とみなせる。
説明変数セット生成部70は、第1説明変数生成器84及び第2説明変数生成器86を有する。第1説明変数生成器84及び第2説明変数生成器86は、上述した学習用データセット生成部における第1説明変数生成器及び第2説明変数生成器と同様の機能を有するものである。
第1説明変数生成器84は、未知試料マススペクトルに含まれるピーク群に基づいて第1説明変数を生成する。具体的には、第1説明変数生成器84は組成推定器85を有する。組成推定器85は、ピーク群中のピークごとに、それに対応する測定精密質量に基づいて、1又は複数の組成(部分組成)を推定する。組成推定器85の組成推定結果から第1説明変数が生成される。
第2説明変数生成器86は、未知試料マススペクトルに含まれるピーク群に基づいて第2説明変数を生成する。具体的には、第2説明変数生成器86は組成推定器87を有する。組成推定器87は、ピーク群中のピーク間隔ごとに、それに対応する組成差又は測定精密質量差に基づいて、1又は複数の組成(部分組成)を推定する。組成推定器87の組成推定結果から第2説明変数が生成される。単一の組成推定器を組成推定器85及び組成推定器87として機能させてもよい。
以上のように生成された第1説明変数及び第2説明変数により説明変数セットが構成される。説明変数セットが部分構造推定器22へ与えられる。
部分構造推定器22は、部分構造推定モデル24を有する。部分構造推定モデル24は、部分構造推定モデル生成装置において事前に生成されたものである。部分構造推定モデル24により、説明変数セットに基づいて、未知試料が有する1又は複数の部分構造(1又は複数の目的変数)が推定される。推定結果を表すデータが表示処理器90に送られる。表示処理器90は、推定結果を含む画像を生成し、その画像が表示器92に表示される。
次に、図4~図9を用いて、部分構造推定モデル生成過程における目的変数の生成について説明する。図4には、部分構造リスト46の生成方法の一例が示されている。
図4において、符号96が示すように、部分構造DBに登録されている複数の部分構造(公知部分構造)が部分構造リスト46に登録される。それらの部分構造は、例えば、IUPAC命名法に従って登録されている複数の部分構造である。その登録作業がユーザーによって行われてもよいし、その登録作業が自動化されてもよい。
図5には、上記の登録作業が模式的に示されている。部分構造群110は、複数の部分構造114A~114Dにより構成される。部分構造群110が部分構造リスト46に登録される。
図4において、複数の新規部分構造を登録する場合、符号98~符号106が示す処理が実施される。符号98が示すように、最初に、ユーザーにより指定された条件に従って、複数の基本骨格が網羅的に定義される。その条件には原子数nの範囲及び結合の種類が含まれる。nの範囲として例えば3~6が指定される。結合の種類として、単結合、二重結合、三重結合、等が指定される。
図6には、以上のように生成された基本骨格が示されている。図6において、(A)はn=3の場合を示している。その場合、基本骨格116が定義される。基本骨格116において、ノード118は原子の位置を示している。バー120は、原子間の結合を示している。(B)はn=4の場合を示している。(C)はn=5の場合を示している。(D)はn=6の場合を示している。なお、図6には、代表的な基本骨格が例示されている。基本骨格のタイプとして、直鎖型、分岐型、環型、等が挙げられる。
図4において、符号100が示すように、基本骨格ごとに網羅的な元素配置が実施される。具体的には、指定された元素群の中から各ノードに配置する元素が選択される。元素群は、例えば、C,N,O,P,S,Si,F,Cl,Brにより構成される。元素組み合わせを変更しながら元素配置が実施され、これにより多様な新規部分構造が生成される。この段階で、原子価が考慮されてもよいし、事後的に原子価が考慮されてもよい。いずれにしても化学的に成立しない新規部分構造は棄却され、化学的に成立する新規部分構造が生成される。
図7には、以上のように生成された新規部分構造が示されている。例えば、図6において符号118が示す基本骨格に基づいて、図7に示すように、部分構造列121を生成し得る。
図4において、符号102が示すように、以上のように生成された複数の新規部分構造が部分構造リスト46に追加的に登録される。一方、図4において、符号104が示すように、原子価を考慮しつつ、生成された複数の新規部分構造に対して1又は複数のHが付加され、これにより更に新規部分構造が生成される。符号106が示すように、Hの付加により生成された複数の新規部分構造が部分構造リスト46に追加的に登録される。
図8には、Hの付加により生成された部分構造が示されている。図6において示した特定の部分構造124に着目した場合、図8に示すように、特定の部分構造124に対して、様々な態様で、1又は複数のHが明示的に指定される。例えば、符号126が示すように、左端に位置するCに対しては0~3個のHが明示的に指定される。符号128が示すように、左端から2番目のCに対しては0~2個のHが明示的に指定される。符号130が示すように、左端から3番目のCに対しては0~1個のHが明示的に指定される。符号132が示すように、右端に位置するCに対しては0~2個のHが明示的に指定される。Hを明示的に指定する位置や明示的に指定するHの個数を変化させながら部分構造124の自由度を減らしていくことにより、新規部分構造が生成される。
図8において、符号134は、以上のように生成された複数の新規部分構造を示している。なお、部分構造の生成に際しては、当然ながら、他の部分構造へ結合が考慮される。
以上のように、部分構造リストに対して、多様な公知部分構造及び多様な新規部分構造が登録される。例えば、数千個、数万個、数十万個、又は、それ以上の部分構造が登録される。もっとも、推定可能な部分構造が、登録された部分構造の一部に限定されてもよい。
図9には、目的変数の生成方法の具体例が示されている。注目する標準試料の構造式136が特定される。例えば、構造式DB44上において、その構造式136を特定し得る。部分構造リストを構成する部分構造ごとに、当該部分構造が構造式136内に存在するか否かが判定される。部分構造リストを構成する複数の部分構造についての判定結果から目的変数138が生成される。
目的変数138は、複数の部分構造に対応する複数の要素140を有する。各要素140は、ラベル(部分構造)及び値の組み合わせに相当する。注目する部分構造が構造式136に存在する場合、値として1が与えられ、一方、注目する部分構造が構造式136に存在しない場合、値として0が与えられる。標準試料ごとに目的変数が生成される。
次に、図10~図12を用いて、第1説明変数及び第2説明変数の生成について説明する。部分構造推定モデル生成過程での第1説明変数の生成方法と部分構造推定過程での第1説明変数の生成方法は同じであり、以下においては前者について説明する。同様に、部分構造推定モデル生成過程での第2説明変数の生成方法と部分構造推定過程での第2説明変数の生成方法は同じであり、以下においては前者について説明する。
図10には、標準試料マススペクトル146が示されている。標準試料マススペクトル146にはピーク群148が含まれる。ピーク群148はフラグメントピーク群(フラグメントイオンピーク群)と言い得る。標準試料マススペクトル146はEIマススペクトルである。EIマススペクトルにおいて、分子ピーク(分子イオンピーク)150が明瞭に生じる場合もあるが、それが明瞭に生じない場合も多い。
上述したピーク検出によりピーク群148が抽出される。ピーク群148はフラグメントピーク群と言い得る。その後、そのピーク群148が規格化される。上述したように、ピーク群148を構成する複数のピークの強度の総和が所定値になるようにピーク群148が規格化される。
符号152が示すように、ピーク群を構成するピークごとに、それに対応する測定精密質量(具体的にはm/z)が特定される。マススペクトル生成において生じ得る一定の質量誤差を考慮しつつ、特定された測定精密質量に基づいて組成推定が実行される。これにより、ピークに対応する1又は複数の組成が推定される。ピーク群における全部のピークについて組成推定を行うのではなく、ピーク群における代表的な複数のピークに対して組成推定を行うようにしてもよい。例えば、一定以上の強度を有するピークが組成推定の対象とされてもよい。
部分構造推定モデル生成過程での組成推定に際しては、標準試料の分子式に基づいて組成推定条件が定められてもよい。例えば、分子式中の各元素の個数を推定上限としつつ、それらの条件が満たされるように組成推定が実施されてもよい。分子式に基づいて、元素の範囲が定められてもよい。
ピーク群148を構成する複数のピークに基づいて推定された複数の組成、及び、ピーク群148を構成する複数のピークの強度(規格化後の強度)に基づいて、第1説明変数が生成される。
図11には、第1説明変数が例示されている。図示された第1説明変数162は複数の要素164により構成される。各要素164は、ラベル166と値168の組み合わせに相当する。ラベル166は部分組成であり、値168はピークの強度(規格化後の強度)である。値168は重み値として作用する。例えば、推定可能性のあるすべての部分組成をそれぞれラベル166としてもよい。あるいは、標準試料マススペクトル群に基づいて推定されたすべての部分組成をそれぞれラベル166としてもよい。推定されなかった部分組成に対応する値には0が与えられる。
なお、ピークの強度をそのまま重み値として使用せず、ピークの強度の変換により重み値を求めてもよい。例えば、ピークの強度が入る区分に対応した重み値を用いてもよい。
図10に戻って、符号154が示すように、第2説明変数の生成に際しては、ピーク群148に基づいて全部のピーク間隔が特定される。図10においては、符号156が特定のピーク間隔を示している。全部のピーク間隔に代えて一部のピーク間隔が特定されてもよい。個々のピーク間隔は、それぞれ、化合物分子における一部分に相当し、それはフラグメントロスとも言い得る。
ピーク間隔ごとに、それに対応する組成差又は測定精密質量差から組成推定が実行される。各ピーク間隔は、m/z軸上において左側にある第1ピーク及びm/z軸上において右側にある第2ピークにより定義される。第1ピークに基づいて推定された組成から、第2ピークに基づいて推定された組成を減算することにより、組成差が演算される。組成差の中に負の元素が含まれる場合、その組成差を棄却してもよいし、それを採用してもよい。ピーク群148から定義される複数のピーク間隔に基づいて推定された複数の組成から、第2説明変数が生成される。
図12には、第2説明変数が例示されている。図示された第2説明変数170は複数の要素172により構成される。各要素172は、ラベル174と値176の組み合わせである。ラベル174は部分組成であり、値176は部分組成の推定有無を示している。上記同様に、推定可能性のあるすべての部分組成をそれぞれラベル174としてもよい。あるいは、標準試料マススペクトル群に基づいて推定されたすべての部分組成をそれぞれラベル174としてもよい。推定された部分組成については値として1が与えられ、推定されなかった部分組成については値として0が与えられる。なお、図12においては、各部分組成が組成差として求められたことを明示するために、各部分組成の先頭に「--」が付加されている。
なお、第2説明変数に含まれる各値として、2つのフラグメントピークの強度から算出される値を用いてもよい。例えば、その値として、2つの強度の比の自然対数を用いてもよい。
既に説明したように、部分構造推定過程においても、上記同様の方法により、未知試料マススペクトルに基づいて第1説明変数及び第2説明変数が生成される。
図13には、訓練データセットが例示されている。図示された訓練データセット178は、複数の化合物(複数の標準試料)に対応する複数の訓練データ180により構成される。個々の訓練データ180は、目的変数、第1説明変数、及び、第2説明変数により構成される。複数の目的変数にわたってラベル列188は共通であり、各目的変数の実体は値列182である。複数の第1説明変数にわたってラベル列190は共通であり、各第1説明変数の実体は値列184である。複数の第2説明変数にわたってラベル列192は共通であり、各第2説明変数の実体は値列186である。図13において、Yは目的変数を示しており、X1は第1説明変数を示しており、X2は第2説明変数を示している。訓練データセット178を用いた機械学習により部分構造推定モデルが生成される。
なお、部分構造推定過程では、第1説明変数及び第2説明変数からなる説明変数セットが部分構造推定モデルへ与えられる。その場合においても、第1説明変数の実体は値列であり、第2説明変数の実体は値列である。目的変数及び各説明変数はベクトルである。
図14には第1表示例が示されている。表示画像194には、未知試料から取得されたマススペクトル196及び部分構造リスト198が含まれる。マススペクトルの横軸はm/z軸であり、その縦軸は強度軸である。部分構造リスト198には、推定された複数の部分構造を特定する情報200が含まれる。情報200には、個々の部分構造を示す構造式(構造モデル)202及び部分構造名204が含まれる。新規部分構造の場合、その部分構造名204として機械的に付与された識別子が表示されてもよい。
部分構造リスト198において、符号202Aが示すように、特定の部分構造を選択すると、符号206が示すように、その部分構造に対応するピーク又はピーク間が識別表示される。例えば、ピーク又はピーク間を特定する識別子としてマーカーが表示される。これにより、ユーザーにおいて、個々の部分構造とマススペクトル196の関係を認識することが可能となり、また、マススペクトル196の解析又は評価をより正確に行うことが可能となる。
図15には、第2表示例が示されている。表示画像208には、マススペクトル210及び推定結果表示欄212が含まれる。推定結果表示欄212には「“C5H5”及び“C6H5”が観測されているため、試料に「部分構造A」が含まれる可能性が高い。」という文章、及び、「“--C2H3O2”及び“--C1H1O2”が観測されているため、試料に「部分構造B」が含まれる可能性が高い。」という文章が含まれる。各文には、推定された部分構造と推定に際しての根拠が含まれる。2表示例を採用する場合、根拠を提示することが可能な機械学習方法(例えば決定木)が選択される。
図16には、第3表示例が示されている。質量分析装置がEIイオン源及びソフトイオン源を含み、質量分析装置の前段にガスクロマトグラフ(GC)が接続されている場合に、第3表示例が採用され得る。
表示画像218には、第1のグラフ220、第2のグラフ222、及び、推定結果表224が含まれる。GCにおいて元試料から分離された複数の試料がEIイオン源に送られ、各試料がイオン化される。それにより生じたイオンの質量分析によりマススペクトル(EIマススペクトル)が順次生成される。保持時間軸(RT軸)上に並ぶ複数のマススペクトルに基づいて第1のTICC(トータルイオンカレントクロマトグラム)が生成される。第1のグラフ220が第1のTICCである。
また、GCにおいて同一の元試料から分離された複数の試料がソフトイオン化法に従うイオン源に送られ、各試料がイオン化される。それにより生じたイオンの質量分析によりマススペクトル(SIマススペクトル)が順次生成される。保持時間軸(RT軸)上に並ぶ複数のマススペクトルに基づいて第2のTICCが生成される。第2のグラフ222が第2のTICCである。
推定結果表224は、複数の行226を有する。各行226には、保持時間(RT)228、及び、部分構造ごとの存否を示す情報232が含まれる。図示の例では、チェックマーク234が部分構造の存在を示している。なお、推定アルゴリズムとしてロジスティック回帰やナイーブベイズを用いる場合には、存否を示す情報に代えて、推定モデルからの出力値が表示されてもよい。
なお、同じ試料からEIマススペクトル及びSIマススペクトルの両方を取得することにより、後述するニュートラルロスを確実に特定し得る。
図17には、生成された部分構造推定モデルの評価方法が例示されている。生成された部分構造推定モデルを用いて、構造式が既知である他の複数の標準試料に対して部分構造の推定を行うことにより、複数の推定結果が得られる。複数の推定結果が以下のように評価される。
例えば、符号236が示すように、推定可能な複数の部分構造の中から、1つの部分構造が選択された上で、符号238が示す第1評価が実行される。第1評価では、複数の推定結果に基づいて、選択された部分構造を有する化合物(標準試料)の個数が評価される。例えば、その個数が第1閾値以上であることが求められる。続いて、符号240で示す第2評価が実行される。第2評価では、複数の評価結果に基づいて、選択された部分構造に対する推定精度が評価される。例えば、その推定精度としてF1スコア(適合率と再現率の調和平均)が計算される。その場合、F1スコアが第2閾値以上であることが求められる。
個々の部分構造ごとに第1評価条件及び第2評価条件が満たされるか否かが評価される。その上で、符号242が示すように、第1評価条件及び第2評価条件のいずれかを満たされない部分構造については、その部分構造の推定が制限される。例えば、部分構造推定モデルの一部が除去又は制限されてもよいし、部分構造推定モデルが推定した結果が部分的にマスクされてもよい。これにより、一定以上の推定精度を確保しつつ、人が推定根拠を解釈できる形式で推定結果を提示できるという利点を得られる。
次に、図18~図21を用いて、他の実施形態について説明する。図18には、他の実施形態に係る部分構造推定モデル生成装置12Aが示されている。なお、図18において、図2に示した構成と同様の構成には同一の符号を付し、その説明を省略する。
図18において、学習用データセット生成部34Aは、第3説明変数生成器260を有している。第3説明変数生成器260は組成推定器261を有している。組成推定器261は、標準試料マススペクトルに含まれるピーク群(但し、複数のフラグメントピークの他に分子ピークが含まれる)に基づいて第3説明変数を生成するものである。具体的には、組成推定器261は、フラグメントピークごとに、ニュートラルロスに相当するすべてのピーク間隔を特定し、ピーク間隔ごとにそれに対応する組成差又は測定精密質量差に基づいて1又は複数の組成(部分組成)を推定する。ニュートラルロスは、分子ピークとフラグメントピークとの間の質量差に相当するものである。組成推定器261の組成推定結果から、後に示す第3説明変数が生成される。
目的変数、第1説明変数、第2説明変数及び第3説明変数により訓練データが構成される。複数の標準試料に対応する複数の訓練データからなる訓練データセット64Aが学習器17Aに与えられる。訓練データセット64Aを用いた機械学習により部分構造推定モデル18Aが生成される。
図19において、(A)は標準試料から取得されたEIマススペクトルを示しており、(B)は同じ標準試料から取得されたSIマススペクトルを示している。なお、図19において、図10に示した要素と同様の要素には同一の符号を付し、その説明を省略する。
SIマススペクトルは、ソフトイオン化を用いて取得されたマススペクトルであり、それには通常、分子ピーク151が明瞭に現れる。EIマススペクトルにおいては分子ピーク150が現れないことも多い。
SIマススペクトルに含まれる分子ピーク151(具体的にはそれに対応するm/z)を基準として、EIマススペクトルにおいて複数のニュートラルロスに相当する複数のピーク間隔160を特定し得る。符号158が示すように、個々のピーク間隔ごとに組成推定が実施される。その場合、組成差をそのまま部分組成として推定してもよいし、測定精密質量差から組成推定を行ってもよい。組成推定に際しては、分子式が考慮されてもよい。
図20には、第3説明変数が例示されている。図示された第3説明変数は複数の要素252により構成される。各要素252は、ラベル254及び値256の組み合わせである。ラベル254は具体的には部分組成であり、値256はフラグメントピークの強度である。その値は重み値として機能する。推定される可能性のあるすべての部分組成をそれぞれラベル254としてもよい。標準試料マススペクトル群154に基づいて推定される可能性のあるすべての部分組成をそれぞれラベル254としてもよい。なお、図20においては、各部分組成がニュートラルロスに相当するものであることを明示するために、各部分組成の先頭に「-」が付加されている。
図21には、他の実施形態に係る部分構造推定装置20Aが示されている。なお、図21において、図3に示した構成と同様の構成には同一符号を付し、その説明を省略する。
図21において、説明変数セット生成部70Aは、第3説明変数生成器262を有する。第3説明変数生成器262は、未知試料マススペクトル(但し、複数のフラグメントピークの他に分子ピークが含まれる)に基づいて第3説明変数を生成するものである。具体的には、第3説明変数生成器262は、組成推定器263を有する。組成推定器263は、フラグメントピークごとに、ニュートラルロスに相当するすべてのピーク間隔を特定し、ピーク間隔ごとにそれに対応する組成差又は測定精密質量差に基づいて1又は複数の組成(部分組成)を推定する。組成推定器263の組成推定結果から第3説明変数が生成される。分子ピークの特定に際しては、必要に応じて、未知試料から取得されたSIマススペクトルが参照される。
説明変数セット生成部70Aにおける第1説明変数、第2説明変数及び第3説明変数の生成方法は、図18に示した学習用データセット生成部34Aにおける第1説明変数、第2説明変数及び第3説明変数の生成方法と同じである。
図21において、部分構造推定器22Aは、図18に示した部分構造推定モデル生成装置において生成された部分構造推定モデル24Aを有している。部分構造推定モデル24Aに対して、未知試料マススペクトル78から求められた説明変数セット(第1説明変数、第2説明変数及び第3説明変数)を与えることにより、目的変数として部分構造が推定される。推定された部分構造を示す情報が表示器92に表示される。
他の実施形態によれば、3つの説明変数を基礎として部分構造を推定できるので、部分構造の推定精度を高められる。部分構造ごとに、参照する説明変数の組み合わせを変更してもよい。上記の第1説明変数と上記の第3説明変数により説明変数セットを構成してもよい。更に、不飽和度、分子量等を追加の説明変数として利用してもよい。
実施形態に係る部分構造推定システムによれば、未知試料に含まれる部分構造を精度良く推定することが可能である。既に求められている複数の構造式候補から特定の構造式候補を絞り込む際に、実施形態に係る部分構造推定システムが利用されてもよい。
10 部分構造推定システム、11 質量分析装置、12 部分構造推定モデル生成装置、17 学習器、18 部分構造推定モデル、19 質量分析装置、20 部分構造推定装置、22 部分構造推定器、24 部分構造推定モデル、34 学習用データセット生成部、60 第1説明変数生成器、62 第2説明変数生成器、70 説明変数セット生成部、84 第1説明変数生成器、86 第2説明変数生成器。

Claims (13)

  1. 試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより前記ピーク群中の複数のピークから推定された複数の組成を含む第1説明変数を生成する第1説明変数生成器と、
    前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより前記ピーク群中の複数のピーク間隔から推定された複数の組成を含む第2説明変数を生成する第2説明変数生成器と、
    前記第1説明変数及び前記第2説明変数に基づいて前記試料が有する部分構造を目的変数として推定する部分構造推定器と、
    を含むことを特徴とする部分構造推定装置。
  2. 請求項1記載の部分構造推定装置において、
    前記部分構造推定器は、前記第1説明変数及び前記第2説明変数に基づいて前記部分構造を推定する機械学習済み部分構造推定モデルを有する、
    ことを特徴とする部分構造推定装置。
  3. 請求項1記載の部分構造推定装置において、
    前記第1説明変数生成器は、前記ピークに対応する測定精密質量に基づいて前記組成推定を行い、
    前記第2説明変数生成器は、前記ピーク間隔に対応する組成差又は測定精密質量差に基づいて前記組成推定を行う、
    ことを特徴とする部分構造推定装置。
  4. 試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数を生成する第1説明変数生成器と、
    前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数を生成する第2説明変数生成器と、
    前記第1説明変数及び前記第2説明変数に基づいて前記試料が有する部分構造を目的変数として推定する部分構造推定器と、
    を含み、
    前記ピーク群には複数のフラグメントピークが含まれ、
    前記第1説明変数生成器は、
    前記フラグメントピークごとに前記組成推定を行うことにより複数の第1部分組成を推定し、
    前記複数の第1部分組成に基づいて前記第1説明変数を構成する複数の第1要素を特定する、
    ことを特徴とする部分構造推定装置。
  5. 請求項4記載の部分構造推定装置において、
    前記各第1要素は重み値を含み、
    前記各重み値が前記各第1部分組成に対応するフラグメントピークの強度に基づいて決定される、
    ことを特徴とする部分構造推定装置。
  6. 試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数を生成する第1説明変数生成器と、
    前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数を生成する第2説明変数生成器と、
    前記第1説明変数及び前記第2説明変数に基づいて前記試料が有する部分構造を目的変数として推定する部分構造推定器と、
    を含み、
    前記ピーク群には複数のフラグメントピークが含まれ、
    前記複数のフラグメントピークに基づいて複数のフラグメントピーク間隔が定義され、
    前記第2説明変数生成器は、
    前記フラグメントピーク間隔ごとに前記組成推定を行うことにより複数の第2部分組成を推定し、
    前記複数の第2部分組成に基づいて前記第2説明変数を構成する複数の第2要素を特定する、
    ことを特徴とする部分構造推定装置。
  7. 試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数を生成する第1説明変数生成器と、
    前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数を生成する第2説明変数生成器と、
    前記第1説明変数及び前記第2説明変数に基づいて前記試料が有する部分構造を目的変数として推定する部分構造推定器と、
    を含み、
    前記ピーク群には分子ピーク及び複数のフラグメントピークが含まれ、
    前記分子ピーク及び前記複数のフラグメントピークに基づいて複数のニュートラルロスが定義され、
    前記ピーク群に基づいて前記ニュートラルロスごとに組成推定を行うことにより第3説明変数を生成する第3説明変数生成器が設けられ、
    前記部分構造推定器は、前記第1説明変数、前記第2説明変数及び前記第3説明変数に基づいて前記試料が有する部分構造を推定する、
    ことを特徴とする部分構造推定装置。
  8. 請求項1記載の部分構造推定装置において、
    前記部分構造推定器の推定結果に基づいて、前記試料が有する1又は複数の部分構造を示す部分構造リストを生成する表示処理部と、
    前記マススペクトル及び前記部分構造リストを表示する表示器と、
    を含むことを特徴とする部分構造推定装置。
  9. 試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより第1説明変数を生成する第1説明変数生成器と、
    前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより第2説明変数を生成する第2説明変数生成器と、
    前記第1説明変数及び前記第2説明変数に基づいて前記試料が有する部分構造を目的変数として推定する部分構造推定器と、
    を含み、更に、
    前記部分構造推定器の推定結果に基づいて、前記試料が有する1又は複数の部分構造を示す部分構造リストを生成する表示処理部と、
    前記マススペクトル及び前記部分構造リストを表示する表示器と、
    を含み、
    前記表示処理部は、前記部分構造リストの中から特定の部分構造が指定された場合に、前記特定の部分構造に対応するピーク又はピーク間隔を識別する識別情報を前記マススペクトル上に表示する、
    ことを特徴とする部分構造推定装置。
  10. 情報処理装置において実行されるプログラムであって、
    試料から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより前記ピーク群中の複数のピークから推定された複数の組成を含む第1説明変数を生成する機能と、
    前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより前記ピーク群中の複数のピーク間隔から推定された複数の組成を含む第2説明変数を生成する機能と、
    前記第1説明変数及び前記第2説明変数に基づいて前記試料が有する部分構造を目的変数として推定する機能と、
    を含むことを特徴とするプログラム。
  11. コンピュータが複数の部分構造を登録する工程と、
    前記コンピュータが、既知化合物から得られたマススペクトルに含まれるピーク群に基づいてピークごとに組成推定を行うことにより前記ピーク群中の複数のピークから推定された複数の組成を含む第1説明変数を生成する工程と、
    前記コンピュータが、前記ピーク群に基づいてピーク間隔ごとに組成推定を行うことにより前記ピーク群中の複数のピーク間隔から推定された複数の組成を含む第2説明変数を生成する工程と、
    前記コンピュータが、登録された部分構造ごとに前記既知化合物における当該部分構造の存否を判定することにより目的変数を生成する工程と、
    前記コンピュータが、前記第1説明変数、前記第2説明変数及び前記目的変数からなる訓練データを用いた機械学習により部分構造推定モデルを生成する工程と、
    を含むことを特徴とする部分構造推定モデル生成方法。
  12. 請求項11記載の部分構造推定モデル生成方法において、
    前記複数の部分構造を登録する工程は、
    前記コンピュータが複数の公知部分構造を登録する工程と、
    前記コンピュータが複数の新規部分構造を作出する工程と、
    前記コンピュータが前記複数の新規部分構造を登録する工程と、
    を含む、ことを特徴とする部分構造推定モデル生成方法。
  13. 請求項12記載の部分構造推定モデル生成方法において、
    前記複数の新規部分構造を作出する工程は、
    ユーザーにより指定された条件に従って、前記コンピュータが複数の基本骨格を定義する工程と、
    前記コンピュータが、前記各基本骨格における複数の原子位置に対して、元素グループの中から選択された複数の元素を仮想的に配置することにより、前記複数の新規部分構造を定義する工程と、
    を含む、ことを特徴とする部分構造推定モデル生成方法。
JP2022028364A 2022-02-25 2022-02-25 部分構造推定装置及び部分構造推定モデル生成方法 Active JP7562585B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022028364A JP7562585B2 (ja) 2022-02-25 2022-02-25 部分構造推定装置及び部分構造推定モデル生成方法
EP23156565.6A EP4235681A1 (en) 2022-02-25 2023-02-14 Partial structure estimation apparatus and method of generating partial structure estimation model
US18/113,153 US12542265B2 (en) 2022-02-25 2023-02-23 Partial structure estimation apparatus and method of generating partial structure estimation model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022028364A JP7562585B2 (ja) 2022-02-25 2022-02-25 部分構造推定装置及び部分構造推定モデル生成方法

Publications (2)

Publication Number Publication Date
JP2023124547A JP2023124547A (ja) 2023-09-06
JP7562585B2 true JP7562585B2 (ja) 2024-10-07

Family

ID=85239187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022028364A Active JP7562585B2 (ja) 2022-02-25 2022-02-25 部分構造推定装置及び部分構造推定モデル生成方法

Country Status (2)

Country Link
EP (1) EP4235681A1 (ja)
JP (1) JP7562585B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102476A (ja) 2013-11-27 2015-06-04 株式会社島津製作所 イオントラップ質量分析装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2648133A1 (fr) 2012-04-04 2013-10-09 Biomerieux Identification de microorganismes par spectrometrie et classification structurée
JP7114527B2 (ja) * 2019-06-10 2022-08-08 日本電子株式会社 組成推定装置及び方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102476A (ja) 2013-11-27 2015-06-04 株式会社島津製作所 イオントラップ質量分析装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Qing Xiong, et al.,Computer-assisted prediction of psticide substructure using mass spectra,Analytica Chimica Acta [online] ,2007年06月19日,Vol.593, Issue 2,Abstract,[検索日:2024年3月14日], <URL:https://doi.org/10.1016/j.aca.2007.04.060>
Zhi-Shui Zhang, et al.,Prediction of Molecular Substructure Using Mass Spectral Data based on Metric Learning,ICIC 2014 Inteligent Computing in Bioinformatics [online],2014年,Pages 248-249,[検索日:2024年3月14日], <URL:https://doi.org/10.1007/978-3-319-09330-7_30>

Also Published As

Publication number Publication date
EP4235681A1 (en) 2023-08-30
US20230274923A1 (en) 2023-08-31
JP2023124547A (ja) 2023-09-06

Similar Documents

Publication Publication Date Title
Lu et al. Comprehensive investigation of pathway enrichment methods for functional interpretation of LC–MS global metabolomics data
Rosato et al. From correlation to causation: analysis of metabolomics data using systems biology approaches
Scheubert et al. Computational mass spectrometry for small molecules
Karpievitch et al. A statistical framework for protein quantitation in bottom-up MS-based proteomics
Krettler et al. A map of mass spectrometry-based in silico fragmentation prediction and compound identification in metabolomics
Ludwig et al. De novo molecular formula annotation and structure elucidation using SIRIUS 4
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
CN114283877A (zh) 一种建立代谢物模型及其代谢组学数据库的方法
DK2590206T3 (en) Method and apparatus for estimating the elemental composition of a molecule from an isotope distribution
Rose et al. Improving confidence in lipidomic annotations by incorporating empirical ion mobility regression analysis and chemical class prediction
JP7562585B2 (ja) 部分構造推定装置及び部分構造推定モデル生成方法
Guillevic et al. Automated fragment formula annotation for electron ionisation, high resolution mass spectrometry: application to atmospheric measurements of halocarbons
US20200075132A1 (en) Systems and Methods for Calculating Protein Confidence Values
US20240347141A1 (en) Chemical peak finder model for unknown compound detection and identification
Ma et al. PIXiE: an algorithm for automated ion mobility arrival time extraction and collision cross section calculation using global data association
JP2024534077A (ja) 複合混合物の低分子成分の構造解明の方法ならびに関連装置およびコンピュータープログラム製品
JP7569821B2 (ja) 試料分析装置及び方法
Shahin-Shamsabadi et al. Proteomics and machine learning: Leveraging domain knowledge for feature selection in a skeletal muscle tissue meta-analysis
US12542265B2 (en) Partial structure estimation apparatus and method of generating partial structure estimation model
US20230253109A1 (en) Cancer screening device and cancer screening method
Chen et al. MetTailor: dynamic block summary and intensity normalization for robust analysis of mass spectrometry data in metabolomics
EP4399711A2 (en) Ion type tailored library search pre-processing, constraints and spectral database building
Lewis et al. Peptide refinement by using a stochastic search
Boscolo Agostini et al. Disentangling the worldwide invasion process of Halyomorpha halys through approximate Bayesian computation
JP7777563B2 (ja) 分析装置及び分析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240925

R150 Certificate of patent or registration of utility model

Ref document number: 7562585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150