[go: up one dir, main page]

JP7030171B2 - 生物活性を持つ化合物の探索システム - Google Patents

生物活性を持つ化合物の探索システム Download PDF

Info

Publication number
JP7030171B2
JP7030171B2 JP2020183449A JP2020183449A JP7030171B2 JP 7030171 B2 JP7030171 B2 JP 7030171B2 JP 2020183449 A JP2020183449 A JP 2020183449A JP 2020183449 A JP2020183449 A JP 2020183449A JP 7030171 B2 JP7030171 B2 JP 7030171B2
Authority
JP
Japan
Prior art keywords
compound
biological activity
compounds
designated
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020183449A
Other languages
English (en)
Other versions
JP2021108108A (ja
Inventor
隆史 磯部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi High Tech Solutions Corp
Original Assignee
Hitachi High Tech Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi High Tech Solutions Corp filed Critical Hitachi High Tech Solutions Corp
Publication of JP2021108108A publication Critical patent/JP2021108108A/ja
Application granted granted Critical
Publication of JP7030171B2 publication Critical patent/JP7030171B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、生物活性を持つ化合物の探索システムに関する。
本出願は、2019年12月27日に出願された米国特許出願第16/728097号明細書の優先権を主張し、その全体を参照により援用する。
生物活性を持つ化合物の探索システムは、非特許文献1および非特許文献2によると、バーチャルスクリーニングと呼ばれ、リガンド等の既存化合物との類似性に基づく手法と、標的たんぱく質とのドッキングを構造または極性情報を用いて3次元でシミュレートする手法とに分類される。既存化合物との類似性を判定する手法は、生物活性を持つ化合物のデータが多いほど、精度が向上する可能性がある。標的たんぱく質との結合を3次元でシミュレートする手法は、新規構造を持つ未知の化合物を探索するのに適している。
既存化合物との類似性を計算する手法として、フィンガープリントと呼ばれる技法が良く知られている。非特許文献3には、「構造的な類似性を測るために2Dフィンガープリントを利用したスクリーニング法」が記載されている。非特許文献4には、「3Dのpharmacophoric triplets (PDTs) fingerprint」が記載されている。
T. Scior, A. Bender, G. Tresadern, et al., "Recognizing Pitfalls in Virtual Screening: A Critical Review", Journal of Chemical Information and Modeling, 2012, 52 (4), 867-881 David K. Johnson and John Karanicolas, "Ultra-High-Throughput Structure-Based Virtual Screening for Small-Molecule Inhibitors of Protein-Protein Interactions", Journal of Chemical Information and Modeling, 2016, 56 (2), 399-411 Peter Willett, "Similarity-based virtual screening using 2D fingerprints", Drug Discovery Today, Volume 11, Issues 23-24, December 2006, Pages 1046-1053 Hans Matter and Thorsten Poetter, "Comparing 3D Pharmacophore Triplets and 2D Fingerprints for Selecting Diverse Compound Subsets", Journal of Chemical Information and Computer Sciences, 1999, 39 (6), 1211-1225
従来の類似度判定では、環構造・鎖構造・ファーマコフォアなど様々な構造的特徴の有無を1または0で表したフィンガープリントを用いる。このような手法は、構造的特徴の数や物理化学的特性(モル質量、沸点、凝固点、蒸気圧、密度、水溶解度、有機溶媒溶解度、熱安定性、酸アルカリ度、スペクトル、等)が大きく異なる化合物でも類似性の高い化合物として判定してしまうため、精度が低下するという課題がある。
また、従来の類似度判定では、単一の化合物に対する類似度判定はできるが、特定の生物活性を持つ化合物が複数存在する場合に、どの特徴量を、どの程度持つ化合物が、代表化合物なのかを決定できないという課題がある。
更に、従来の類似度判定では、生物活性データが数多く揃っている化合物空間では精度が高い一方で、生物活性データの多くは組織毎に秘匿され公開されていないことが多く、生物活性のデータが十分に揃っている化合物空間は少ない。そのため、従来の手法は、生物活性データの少ない化合物空間において、何らかの生物活性を持ち未知の新規構造を有する化合物候補の有望性を客観的に判断できないという課題がある。
本発明の一実施例に係る化合物の探索システムは、
複数の化合物について、構造的特徴または物理化学的特性を表す情報を記録し、さらに、生物学的応答または生物作用量を含む生物活性を表す情報を記録可能である、検索テーブルおよびお手本テーブルと、
化合物探索器であって、
‐前記お手本テーブルに記録された化合物に基づき、少なくとも1つの化合物を指定化合物として取得し、
‐前記指定化合物と、前記検索テーブルに記録された各化合物とについて、前記構造的特徴または前記物理化学的特性を表す特徴ベクトルを取得し、
‐前記指定化合物の特徴ベクトルと、前記検索テーブルに記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算し、
‐前記特徴ベクトル間距離に応じて、前記検索テーブルに記録された化合物を類似化合物として取得する、
化合物探索器と、
前記類似化合物と、前記類似化合物の生物活性を表す情報とを表示する、GUIと
を備える。
本発明の別の実施例は、様々な構造的特徴(環構造、鎖構造、ファーマコフォアなど)の数と、物理化学的特性(モル質量、沸点、凝固点、蒸気圧、密度、水溶解度、有機溶媒溶解度、熱安定性、酸アルカリ度、スペクトルなど)とを特徴量として持つ特徴ベクトルについて、特徴ベクトル間距離(ユークリッド距離など)を用いることで、生物活性を持つ既存化合物と類似した化合物の探索を高い精度で実現する。
本発明のさらに別の実施例は、特定の生物活性を持つ複数のお手本化合物と、化合物空間に含まれる複数の化合物との間で特徴ベクトル間距離を計算し、化合物空間に含まれる化合物のうち特徴ベクトル間距離の総和や平均が最小となるものを類似化合物として探索し、類似化合物をその特徴ベクトルと共に提示することで、特定の生物活性を持つ代表化合物の探索を実現する。
本発明のさらに別の実施例は、お手本化合物の特徴ベクトルに差分特徴量を追加してカスタマイズ可能とすることで、未知の新規構造を持つ化合物候補の周辺の化合物空間の探索を実現する。
本発明のさらに別の実施例は、生物活性が互いに異なる複数のお手本化合物と、化合物空間に含まれる複数の化合物との間で特徴ベクトル間距離を計算し、複数のお手本化合物との特徴ベクトル間距離が同時に近くなるような共通の類似化合物を含む化合物空間を探索する。
本発明のさらに別の実施例は、複数の類似化合物について生物活性情報存在率を計算し、化合物空間全体の生物活性情報存在率との乖離を計算することにより、類似化合物が含まれる各化合物空間の有望性を判定する指標を提供する。
本発明の一実施例によれば、様々な構造的特徴(環構造、鎖構造、ファーマコフォアなど)の数だけでなく、物理化学的特性(モル質量、沸点、凝固点、蒸気圧、密度、水溶解度、有機溶媒溶解度、熱安定性、酸アルカリ度、スペクトルなど)も特徴量として含む特徴ベクトルについて、特徴ベクトル間距離(ユークリッド距離など)を用いることで、構造的特徴の数と、物理化学的特性との両方の観点で類似性の高い化合物を高い精度で探索することが可能となる。
また、本発明の別の実施例によれば、特定の生物活性を持つ複数のお手本化合物と、化合物空間に含まれる複数の化合物との間で特徴ベクトル間距離を計算し、化合物空間に含まれる化合物のうち特徴ベクトル間距離の総和や平均が最小となるものを類似化合物として探索し、類似化合物をその特徴ベクトルと共に提示することで、特定の生物活性を持つ代表化合物の探索を実現する。
また、本発明のさらに別の実施例によれば、お手本化合物の特徴ベクトルに差分特徴量を追加してカスタマイズ可能とすることで、未知の新規構造を持つ化合物候補の周辺の化合物空間を探索することが可能となる。
また、本発明のさらに別の実施例によれば、生物活性が互いに異なる複数のお手本化合物と、化合物空間に含まれる複数の化合物との間で特徴ベクトル間距離を計算し、複数のお手本化合物との特徴ベクトル間距離が同時に近くなるような共通の類似化合物を含む化合物空間を探索することにより、お手本化合物との特徴量距離が比較的遠い場合においても、未知の新規構造を持つ化合物候補を探索することが可能となる。
また、本発明のさらに別の実施例によれば、複数の類似化合物について生物活性情報存在率を計算し、化合物空間全体の生物活性情報存在率との乖離を計算することにより、類似化合物を含む各化合物空間の有望性を判定する指標を提供する。このため、入手可能な生物活性データが無い未知の化合物空間においても、新規構造の化合物が何らかの生物活性を持つか否かに関する有望度が判定できる。
前述したもの以外の課題、構成及び効果は、以下の実施例の説明および添付図面によって明らかにされる。
実施例1の探索システムの概略図である。 実施例1の探索システムをクラウドサービスとして提供する代替例の概略図である。 実施例1のお手本テーブルのフォーマットである。 実施例1の検索テーブルのフォーマットである。 実施例1において、ユーザ指定の化合物との特徴ベクトル間距離に基づき、類似化合物を検索テーブルから探索して出力する処理を表すフローチャートである。 実施例1において、ユーザ指定の生物活性を持つ化合物との特徴ベクトル間距離に基づき、類似化合物を検索テーブルから探索して出力する処理を表すフローチャートである。 実施例1において、ユーザ指定の化合物またはユーザ指定の生物活性を持つ化合物との特徴ベクトル間距離に基づき、類似化合物を検索テーブルから探索して出力するGUIである。 実施例1において、ユーザ指定の生物活性を持つ化合物全てとの特徴ベクトル間距離の総和に基づき、代表化合物を検索テーブルから探索して出力する処理を表すフローチャートである。 実施例1において、ユーザ指定の生物活性を持つ化合物全てとの特徴ベクトル間距離の総和に基づき、代表化合物を検索テーブルから探索して出力するGUIである。 実施例1において、ユーザ指定の第1指定生物活性を持つ化合物と、ユーザ指定の第2指定生物活性を持つ化合物との両方に類似する化合物を、検索テーブルから探索して出力する処理を表すフローチャートである。 実施例1において、ユーザ指定の第1指定生物活性を持つ化合物と、ユーザ指定の第2指定生物活性を持つ化合物との両方に類似する化合物を出力するGUIである。 実施例1において、ユーザ指定の元となる化合物の特徴ベクトルに対してユーザ指定の構造を付加または置換した未知の新規特徴を持つ指定化合物との特徴ベクトル間距離に基づき、何らかの生物活性を持つ未知の特徴を持つ類似化合物を、お手本テーブルまたは検索テーブルから探索して出力する処理を表すフローチャートである。 実施例1において、ユーザ指定の化合物の様々なポイントで、ユーザ指定の構造を付加または置換した未知の新規特徴を持つ化合物を作成する処理を説明する図である。 実施例1において、ユーザ指定の化合物に対して、ユーザ指定の構造を付加または置換した未知の新規特徴を持つ化合物について、生物活性情報存在率および存在率乖離を出力するGUIである。 実施例1において、化合物をノードとして表し、特徴ベクトル間距離をノード間の線の長さまたは太さで表すGUIである。 実施例1において、特徴ベクトル間距離の閾値(距離閾値)と、使用する検索テーブルを選択するための情報と、元の化合物と、特徴量をマスクまたは重み付けするための重み値と、未知の特徴量を作成するための差分特徴量とをユーザが入力するためのGUIである。 実施例1において、類似化合物、代表化合物、共通の類似化合物、および生物活性情報存在率を説明する図である。
以下、添付図面を参照して本発明の実施例について説明する。各図において共通の構成については同一の参照符号を付す場合がある。
[実施例1]
実施例1では、本発明に係る基本的なシステムの一形態を説明する。
図1は、生物活性を持つ化合物(または化合物候補)の探索システム100の概略図である。
図1に示すように、生物活性を持つ化合物の探索システム100は、情報抽出モジュール114,112と、整形データプール113,111と、特徴抽出モジュール108,110と、お手本テーブル300と、検索テーブル400と、探索モジュール109とを備える。更に、探索システム100は、ユーザの持つ過去の候補化合物テーブル101と、GUI102とに接続しており、また、インターネット105(または他の通信ネットワーク)経由で、分野毎の専用化合物データベース104と、一般化合物データベース103とに接続している。
探索システム100は、公知のコンピュータを用いて構成することができる。コンピュータは演算手段および記憶手段を備えてもよい。演算手段は、プロセッサを備えてもよく、記憶手段は、非一時的記憶媒体を備えてもよく、たとえば、半導体メモリ、磁気ディスク装置、可搬記憶媒体、等のいずれかまたは複数を備えてもよい。化合物の探索システム100がコンピュータである場合には、記憶手段はコンピュータプログラムを格納してもよく、演算手段がこのコンピュータプログラムを実行することにより、コンピュータが化合物の探索システム100として機能してもよい。
分野毎の専用化合物データベース104および一般化合物データベース103は、公開データベースを用いることができる。これらのデータベースには、たとえば、複数の化合物について、ID(または化合物を識別する情報)、名前、構造式(たとえばInChI:International Chemical Identifier)、物理化学的特性、生物活性、等が記録されている。物理化学的特性は、たとえばモル質量、沸点、凝固点、蒸気圧、密度、水溶解度、有機溶媒溶解度、熱安定性、酸アルカリ度、および、スペクトルを含む。生物活性は、バイオアッセイと呼ばれる情報であってもよく、生物学的応答および生物作用量を含む。分野毎の専用化合物データベース104および一般化合物データベース103の形式は任意であるが、たとえばSDF形式のデータを含むものを用いることができる。
情報抽出モジュール114は、一般化合物データベース103からデータ116を読み出して、化合物毎に、ID、名前、構造式、物理化学的特性、生物活性を表す情報を含むデータ117を抽出し、このデータ117を整形データプール113に記録する。データ117は、化合物毎に、生物活性に関する情報が存在するか否かを表す情報を含む。
生物活性に関する情報が存在するか否かを表す情報は、一般化合物データベース103以外の情報に基づいて作成されてもよい。たとえば、公開された特許出願または論文に、化合物名または化合物に関する特定の文字列(たとえば略称、構造式または元素記号等)が含まれる場合には、その化合物について生物活性に関する情報が存在するものとして記録されてもよい。このようにすると、一般化合物データベース103に登録されていない生物活性も利用することができる。
特徴抽出モジュール108は、整形データプール113のデータ118を読み出し、このデータ118に基づき、検索テーブル400に化合物の情報を記録する。検索テーブル400には、複数の化合物について、構造的特徴または物理化学的特性を表す情報を含むデータ119が記録される。さらに、データ119は、少なくとも一部の化合物について、生物活性に関する情報を含む可能性があり、すなわち、検索テーブル400には、生物活性を表す情報が記録可能である。
構造的特徴は、化合物の分子構造に関する情報によって表され、たとえば、環構造に関する数、鎖構造に関する数、またはファーマコフォアに関する数を含む。構造的特徴は、たとえばInChIなどの構造式を解析することによって取得することができる。
環構造に関する数は、6員環の数、5員環の数、4員環の数、3員環の数、等を含んでもよい。また、各員環を特定元素の含有有無または含有数に基づいて分類したものであってもよく、たとえば、窒素を1つだけ含む6員環の数、窒素を2つだけ含む6員環の数、窒素を1つだけ含む5員環の数、および窒素を2つだけ含む5員環の数を含んでもよい。また、たとえば、窒素および酸素を含む6員環の数、窒素および酸素を含む5員環の数、硫黄を含む6員環の数、硫黄を含む5員環の数、等を含んでもよい。
鎖構造に関する数は、置換基の数、官能基の数、特性基の数、等を含んでもよい。具体例として、メチル基の数、オキソ鎖の数、エステル結合の数、アミド結合の数、等を含んでもよい。
ファーマコフォアとは、環構造および鎖構造を組合せた集合体を意味してもよく、ファーマコフォアに関する数は、6員環エーテル結合の数、5員環エーテル結合の数、等を含んでもよい。
物理化学的特性は、物理的特性または化学的特性を含む。物理化学的特性は、モル質量、沸点、凝固点、蒸気圧(または飽和蒸気圧)、密度、水溶解度、有機溶媒溶解度、熱安定性、酸アルカリ度、またはスペクトルを含んでもよい。スペクトルは、たとえば所定波長のX線をその化合物に照射した場合の反射波のスペクトルのうち強度が最大となる波長を表す。
このように、構造的特徴または物理化学的特性を表す情報として様々な要素を用いることにより、精度の高い検索が可能となる。
生物活性は、生物学的応答および生物作用量を含む。生物学的応答とは、その化合物に対する特定生物、蛋白質、酵素または生合成回路等の応答の種類を表す情報であってもよく、生物作用量とは、その化合物が特定の生物学的応答を起こすために必要な量を表す情報であってもよい。
過去の候補化合物テーブル101は、ユーザが所有する私有データベースであってもよく、非公開であってもよい。過去の候補化合物テーブル101には、たとえば分野毎の専用化合物データベース104または一般化合物データベース103と同形式のデータが記録されている。
情報抽出モジュール112は、分野毎の専用化合物データベース104からデータ115を読み出し、または、過去の候補化合物テーブル101からデータ127を読み出し、化合物毎に、ID、名前、構造式、物理化学的特性、生物活性を表す情報を抽出し、抽出されたデータ120を整形データプール111に記録する。データ120は、化合物毎に、生物活性に関する情報の有無を表す情報も含む。整形データプール111の形式は、整形データプール113と同様とすることができる。
特徴抽出モジュール110は、整形データプール111のデータ121を読み出し、このデータ121に基づき、お手本テーブル300に化合物の情報を記録する。お手本テーブル300の形式は、検索テーブル400と同様とすることができる。すなわち、お手本テーブル300には、複数の化合物について、構造的特徴または物理化学的特性を表す情報を含むデータ122が記録される。さらに、データ122は、少なくとも一部の化合物について、生物活性に関する情報を含む可能性があり、すなわち、お手本テーブル300には、生物活性を表す情報が記録可能である。
お手本テーブル300は、特徴抽出モジュール110によって記録される情報に代えて、またはこれに加えて、人間のオペレータ107によって記録される情報を記録してもよい。たとえば、オペレータ107は、分野毎の専用化合物データベース104からのデータ115、あるいは、過去の候補化合物テーブル101からのデータ127を読み出して、マニュアルで整形したデータ128をお手本テーブル300に記録してもよい。様々な分野の化合物に基づいてデータ128を作成することにより、探索システム100の構成を大きく変更することなく様々な用途に利用することが可能となる。
ユーザ106は、GUI102経由で、化合物を探索するための探索コマンド126を、探索システム100の探索モジュール109へ送信することができる。GUI102は、周知のコンピュータまたはディスプレイ装置等を用いて構成することができ、探索コマンド126の入力を受け付けて探索モジュール109に送信する。探索コマンド126は、お手本テーブル300の化合物を指定する情報、お手本テーブル300の化合物に関する生物活性を指定する情報、特徴ベクトル間距離の閾値を指定する情報、付加または置換したい置換基、官能基または特性基を指定する情報、などを含む。
探索モジュール109は、化合物探索器の一例である。探索モジュール109は、様々な構造的特徴(環構造の数、鎖構造の数またはファーマコフォアの数)または物理化学的特性(モル質量、沸点、凝固点、蒸気圧、密度、水溶解度、有機溶媒溶解度、熱安定性、酸アルカリ度、スペクトルなど)を表す特徴ベクトルを取得し、この特徴ベクトルを用いて、化合物の探索を行う。
化合物の探索は、特徴ベクトル間距離に基づいて行われる。たとえば、探索モジュール109は、お手本テーブル300におけるユーザ指定の化合物、または、お手本テーブル300においてユーザ指定の生物活性を持つ化合物の特徴ベクトルと、検索テーブル400における各化合物の特徴ベクトルとの特徴ベクトル間距離を計算し、特徴ベクトル間距離に基づいて、検索テーブル400における各化合物について類似度を計算する。
これによって、探索モジュール109は、ユーザが関心のある化合物と類似性の高い化合物を、検索テーブル400から探索することができる。
あるいは、お手本テーブル300において、ユーザ指定の生物活性を持つ化合物が複数存在する場合には、探索モジュール109は、それら複数の化合物と類似する化合物のうちのいずれが代表化合物であるかを決定することができる。
あるいは、探索モジュール109は、お手本テーブル300における複数の化合物との特徴ベクトル間距離が同時に近くなるような共通の類似化合物を含む化合物空間を探索することにより、お手本化合物との特徴量距離が比較的遠い場合においても、未知の新規構造を持つ化合物候補を探索することができる。
あるいは、探索モジュール109は、お手本テーブル300におけるユーザ指定の化合物の特徴ベクトルに対し、ユーザ指定の差分特徴量を適用することにより、未知の化合物の特徴ベクトルを生成することができる。差分特徴量は、たとえば置換基、官能基または特性基の数の差分である。このような構成によれば、何らかの生物活性を持つ可能性が高い化合物の候補を決定することができる。
探索モジュール109は、探索結果125をGUI102へ出力する。これにより、たとえば構造的特徴および物理化学的特性の両方の観点から類似性の高い化合物を、高い精度で探索することが可能となる。
図2は、生物活性を持つ化合物の探索システム100を、クラウドサービスとして提供する代替例の構成図である。
本構成では、お手本テーブル300は、ユーザの知的財産であり得る過去の候補化合物テーブル101に基づく情報を含まない。また、過去の候補化合物テーブル101およびGUI102は、インターネット203(または他の通信ネットワーク)経由で探索システム100に接続される。過去の候補化合物テーブル101は、ユーザ106からコマンド202を受信した場合に、そのコマンド202によって指定されたデータ201を、インターネット203経由で、探索システム100の探索モジュール109へと送信する。送信の際に、データ201の一部または全部が暗号化されてもよい。これにより、セキュリティをより向上させた化合物の探索サービス提供が可能となる。
図3は、実施例1のお手本テーブル300のフォーマットである。
お手本テーブル300は、化合物毎にエントリ301を含み、エントリ301は、化合物を識別するID番号302と、化合物名303と、InChI式304と、環構造情報305と、鎖構造情報306と、ファーマコフォア情報354と、物理化学的特性情報307と、生物活性情報308とを含む。お手本テーブル300は複数(たとえばN個)の化合物を記録しており、図3では各化合物のエントリ301をエントリ301-1~301-Nとして示す。
環構造情報305は、たとえば員数または環構造の数を含む。環構造の数は、特定の元素(窒素、酸素、硫黄等)の含有数に基づいて分類されていてもよい。図3は、環構造情報305として、炭化水素6員環数309、炭化水素5員環数310、炭化水素3員環数311、窒素を1つだけ含む6員環数312、窒素を1つだけ含む5員環数313、窒素を2つだけ含む6員環数314、窒素を2つだけ含む5員環数315、窒素および酸素をそれぞれ1つ以上含む6員環数316、窒素および酸素をそれぞれ1つ以上含む5員環数317、硫黄を1つ以上含む6員環数318、硫黄を1つ以上含む5員環数319、および、環構造の数の総和を表す環数355を含む例を示す。
鎖構造情報306は、たとえば鎖構造の数を含む。鎖構造の数は、置換基、官能基、特性基、等の種類に基づいて分類されていてもよい。図3は、鎖構造情報306として、メチル基数320、炭化水素鎖数321(すなわち-CH-の数)、酸素を含む構造の数(オキソ基数322、カルボニル基数323、アルデヒド基数324、カルボキシ基数325、ヒドロキシ基数326、およびアセチル基数327)、窒素を含む構造の数(アミノ基数328、ニトロ基数329、およびシアノ基数330)、陰極系の構造(塩素、臭素、ヨウ素などに関するもの)の数を表すハロゲノ基数331、エステル結合数332、アミド結合数333、ウレタン結合数334、リン酸系結合数335、酸化硫黄系結合数336、およびエチル・メチルエーテル結合数337を含む例を示す。
ファーマコフォア情報354は、環構造、鎖構造および/または極性構造を組合せた集合体であるファーマコフォア(Pharmacophore)の数を含む。図3は、ファーマコフォア情報354として、6員環とのエーテル結合数338および5員環とのエーテル結合数339を含む例を示す。
物理化学的特性情報307は、物理的特性または化学的特性を表す情報であり、たとえば、モル質量、沸点、凝固点、蒸気圧、密度、水溶解度、有機溶媒溶解度、熱安定性、酸アルカリ度、スペクトル、などの情報を含む。図3は、物理化学的特性情報307として、溶解度340、沸点341、凝固点342、分子量343を含む例を示す。
生物活性情報308は、生物活性を表す情報であり、たとえば生物学的応答および生物作用量の情報を含む。生物活性情報308は、その化合物についてお手本テーブル300に生物活性を表す情報が記録されているか否かを表す存在フラグ344を含んでもよい。図3は、生物活性情報308として、存在フラグ344、ある生物学的応答を表す特性Aの種類またはその有無345、生物学的応答である特性Bの種類またはその有無346、特性Aに関する生物作用量347、および、特性Bに関する生物作用量348を含む例を示す。生物活性情報308は、存在フラグ344の情報だけを持っていてもよく、その場合には、他の情報をID番号302を用いて外部のデータベース(たとえば一般化合物データベース103または分野毎の専用化合物データベース104等)から取得しても良い。
生物活性情報308は、お手本テーブル300、一般化合物データベース103および分野毎の専用化合物データベース104以外の情報に基づいて作成されてもよい。たとえば、公開された文献(たとえば特許出願または論文)に、化合物名または化合物に関する特定の文字列(たとえば略称、構造式または元素記号等)が含まれる場合には、生物活性に関する情報が存在するものとして記録されてもよい。
その場合には、当該文字列に応じてその文献の文献スコアを計算してもよく、文献スコアが化合物ごとにお手本テーブル300に記録されてもよい。文献スコアの計算方法は任意に設計可能であるが、たとえば各文献の文献スコアを常に1としてもよいし(その場合には文献数が化合物の文献スコアとなる)、特定のアルゴリズムに従って各文献の文献スコアを計算してもよい。このようにすると、一般化合物データベース103に登録されていない生物活性も利用することができる。
図4は、実施例1の検索テーブル400のフォーマットである。
検索テーブル400は、お手本テーブル300と同様の形式に構成することができる。なお上述のように、生物活性情報308は、バイオアッセイを表すバイオアッセイ情報であるということができる。検索テーブル400は複数(たとえばM個)の化合物を記録しており、図4では化合物のエントリ401をエントリ401-1~401-Mとして示す。
図5は、実施例1において、探索モジュール109が、お手本テーブル300におけるユーザ指定の化合物との特徴ベクトル間距離に基づき、類似化合物を検索テーブル400から探索して出力する処理を表すフローチャートである。
探索モジュール109は、ユーザ106から探索コマンド126を受け取ると、図5の処理をスタートして(ステップ500)、探索結果125をGUI102へ出力すると処理を終了する(ステップ505)。
図5の処理に関連して、ユーザ106は、探索コマンド126を用いて、お手本テーブル300の化合物1つ以上と、特徴ベクトル間距離の閾値(距離閾値)とを指定する(ステップ501)。探索モジュール109は、探索コマンド126を介して、ユーザ指定の化合物と、閾値とを取得する。すなわち、探索モジュール109は、お手本テーブル300に記録された化合物に基づき、少なくとも1つの化合物を取得する。ここで取得したユーザ指定の化合物を、以下では指定化合物と称する。
探索モジュール109は、指定化合物と、検索テーブル400の各化合物との間で、特徴ベクトル間距離を計算する(ステップ502)。ステップ502において、探索モジュール109は、まず、指定化合物と、検索テーブル400に記録された各化合物とについて、構造的特徴または物理化学的特性を表す特徴ベクトルを取得する。
実施例1では、特徴ベクトルは構造的特徴および物理化学的特性の双方を表す情報を含む。特徴ベクトルの形式は任意に設計可能であるが、たとえば構造的特徴および物理化学的特性を表す情報のそれぞれを特徴量とし、各特徴量を特徴ベクトルの要素とすることができる。この場合には、特徴ベクトルは、構造的特徴および物理化学的特性を表す情報の項目数と同じ次元を有するベクトルとして構成することができる。特徴ベクトルは任意の方法で正規化されてもよい。
ステップ502において、次に、探索モジュール109は、指定化合物の特徴ベクトルと、検索テーブル400に記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算する。指定化合物の特徴ベクトルをXとし、検索テーブル400の各化合物の特徴ベクトルをそれぞれA、B、Cとすると、特徴ベクトル間距離X-A(ベクトルXとベクトルAとの距離を表す。以下同様)、X-B、X-Cが計算される。
2つの特徴ベクトルについて、特徴ベクトル間距離を計算する方法は任意に設計可能であるが、以下に2例を説明する。たとえば、各特徴ベクトルに含まれる互いに対応する特徴量(すなわちベクトルの要素)の差を二乗したものを足し合わせることにより計算することができる。または、各特徴ベクトルに含まれる互いに対応する特徴量の差を二乗したものを足し合わせた後に、その平方根を取ることにより計算することができる(この場合には特徴ベクトル間距離はユークリッド距離となる)。これらの場合には、特徴ベクトル間距離が小さいほど類似度が高いということができる。
特徴ベクトル間距離を計算する際に、特徴量の一部について重みを変化させてもよい。たとえば、マスキング(すなわち計算から除外)することで重みを無くしたり、重みを増やしたりしても良い。
探索モジュール109は、探索結果をソートする(ステップ503)。このステップ503において、まず探索モジュール109は、特徴ベクトル間距離に応じて、検索テーブル400に記録された化合物を取得する。実施例1では、検索テーブル400の化合物のうち指定化合物との特徴ベクトル間距離がユーザ指定の閾値以下となるものを取得し、これらを特徴ベクトル間距離の小さい順にソートする。ここで取得される化合物を、以下では類似化合物と称する。また、類似化合物は、ユーザが期待するなんらかの特性を有している可能性があり、候補化合物と呼ぶこともできる。
探索モジュール109は、類似化合物に関する情報を、ソートされた順序でGUI102に出力する(ステップ504)。GUI102はこれを受信して表示する。たとえば、GUI102は、類似化合物(より具体的には、類似化合物を表す情報であり、たとえばID番号302または化合物名303であってもよい)を表示し、さらに、その類似化合物の生物活性情報308を表示する。ここで、各類似化合物は上記のようにソートされているので、GUI102は、各類似化合物を、特徴ベクトル間距離が小さい順に表示することができる。
このため、ユーザは、各類似化合物の類似度を容易に理解することができる。
なお、探索モジュール109は、各類似化合物について、生物活性情報存在率および存在率乖離を出力してもよく、GUI102はこれらを表示してもよい。この処理については図7等に関して後述する。
図6は、実施例1において、指定化合物との特徴ベクトル間距離に基づき、類似化合物を検索テーブル400から探索して出力する処理を表すフローチャートである。
探索モジュール109は、ユーザ106から探索コマンド126を受け取ると、図6の処理をスタートして(ステップ600)、探索結果125をGUI102へ出力すると処理を終了する(ステップ605)。
図6の処理に関連して、ユーザ106は、探索コマンド126を用いて、お手本テーブル300の化合物のいずれかについて記録された生物活性情報308に含まれる生物活性と、特徴ベクトル間距離の閾値とを指定する(ステップ601)。探索モジュール109は、探索コマンド126を介して、ユーザ指定の生物活性を取得する。
生物活性は、たとえば特定の生物学的応答を指定するか、または特定の生物学的応答に関する特定の生物作用量を指定することによって指定される。すなわち、探索モジュール109は、少なくとも1つの生物活性を取得する。ここで取得したユーザ指定の生物活性を、以下では指定生物活性と称する。
ステップ601において、探索モジュール109は、お手本テーブル300に記録された化合物のうち、その生物活性が指定生物活性に適合する1つ以上の化合物を、指定化合物として取得する。「適合する」の意味は当業者が適宜定義可能であるが、たとえばある化合物の生物活性が指定生物活性に一致する場合を含む。複数の化合物の生物活性が指定生物活性に適合する場合には、指定化合物は複数となる。以下、指定化合物が複数であった場合について説明する。
探索モジュール109は、各指定化合物と、検索テーブル400の各化合物との間で、特徴ベクトル間距離を計算する(ステップ602)。指定化合物の特徴ベクトルをX、Yとし、検索テーブル400の各化合物の特徴ベクトルをそれぞれA、B、Cとすると、特徴ベクトル間距離X-A、X-B、X-C、Y-A、Y-B、Y-Cが計算される。すなわち、指定化合物の数と、検索テーブルに記録された化合物の数とを乗算した数の特徴ベクトル間距離が計算される。特徴ベクトル間距離の具体的な計算方法は、図5のステップ502と同様であってもよい。
探索モジュール109は、図5の処理と同様に探索結果をソートして類似化合物を取得し(ステップ603)、GUI102へと出力し(ステップ604)、GUI102はこれを受信して表示する。ここで、図6の例では1つの類似化合物について複数の特徴ベクトル間距離が計算されるので、GUI102は1つの類似化合物について複数回の表示を行うことになる。
図7は、実施例1において、指定化合物との、または指定生物活性を持つ化合物との、特徴ベクトル間距離に基づき、類似化合物を検索テーブル400から探索して表示するGUI700である。このGUI700は、たとえば図1のGUI102の一部であってもよい。
GUI700は類似化合物を表示する。そのため、GUI700は、検索テーブル400と同様に、類似化合物毎にエントリ701を含み、エントリ701は、化合物を識別するID番号302と、化合物名303と、InChI式304と、環構造情報305と、鎖構造情報306と、ファーマコフォア情報354と、物理化学的特性情報307と、生物活性情報308とを含む。GUI700は複数(たとえばK個)の化合物に関する情報を表示し、図7では各化合物のエントリ701をエントリ701-1~701-Kとして示す。
更に、エントリ701は、指定化合物のID番号702と、指定化合物の化合物名703とを含む。また、エントリ701は、指定生物活性704を含んでもよい。また、エントリ701は、その類似化合物と、その指定化合物との特徴ベクトル間距離705を含む。
ユーザは、探索システム100の探索モジュール109が出力した結果を表示するGUI700を用いることで、構造的特徴および物理化学的特性の両方で類似性の高い化合物を高い精度で探索することが可能となる。
更に、GUI700は、探索結果として表示した類似化合物の生物活性情報存在率710と、存在率乖離720とを表示してもよい。このために、探索モジュール109は、類似化合物のうち、生物活性を表す情報が記録されているものの比率(生物活性情報存在率710に対応する。以下、類似化合物生物活性情報存在率と呼ぶ)を計算してもよい。生物活性を表す情報が記録されているか否かは、たとえばその化合物に関する存在フラグ344に基づいて判定することができる。GUI700は、表示した類似化合物の生物活性情報のサマリとして、生物作用量の平均値および予測値と、生物学的応答の種類別の合計数とを表示してもよい。
また、探索モジュール109は、検索テーブル400に記録された化合物のうち、生物活性を表す情報が記録されているものの比率(以下、全体生物活性情報存在率と呼ぶ)を計算してもよい。
そして、探索モジュール109は、類似化合物生物活性情報存在率と、全体生物活性情報存在率とに基づき、存在率乖離720を計算してもよい。存在率乖離720は、たとえばこれら2つの数の比率として計算することができ、具体例として類似化合物生物活性情報存在率を全体生物活性情報存在率で除算した値として計算される。GUI700は、これらの値を探索モジュール109から受信して表示する。
類似化合物生物活性情報存在率は、類似化合物全体について生物活性を評価したいと考えた人間が過去に存在した割合を表し、存在率乖離は、探索結果が過去の人間の思考パターンまたは行動パターンをどれだけ再現できたかの指標となる。
また、探索モジュール109は、すべての類似化合物の文献スコアの平均(平均文献スコア)を計算してもよく、GUI700は、この平均文献スコアを受信して表示してもよい。このようにすると、一般化合物データベース103に登録されていない生物活性も利用することができる。なお、文献スコアは、有望度の指標として用いることができる。
図8は、実施例1において、指定生物活性を持つ化合物全てとの特徴ベクトル間距離総和に基づき、代表化合物を検索テーブル400から探索して出力する処理を表すフローチャートである。
探索モジュール109は、ユーザ106から探索コマンド126を受け取ると、図8の処理をスタートして(ステップ800)、探索結果125をGUI102へ出力すると処理を終了する(ステップ805)。
図8の処理に関連して、ユーザ106は、探索コマンド126を用いて、指定生物活性1つと、特徴ベクトル間距離の閾値とを指定する(ステップ801)。探索モジュール109は、探索コマンド126を介して、指定生物活性と、閾値とを取得する。
ステップ801において、探索モジュール109は、お手本テーブル300に記録された化合物のうち、その生物活性が指定生物活性に適合する1つ以上の化合物を、指定化合物として取得する。複数の化合物の生物活性が指定生物活性に適合する場合には、指定化合物は複数となる。以下、指定化合物が複数であった場合について説明する。
探索モジュール109は、各指定化合物と、検索テーブル400の各化合物との間で、総合特徴ベクトル間距離を計算する(ステップ802)。ステップ802において、まず探索モジュール109は、指定化合物の特徴ベクトルをX、Yとし、検索テーブル400の各化合物の特徴ベクトルをそれぞれA、B、Cとすると、特徴ベクトル間距離X-A、X-B、X-C、Y-A、Y-B、Y-Cが計算される。特徴ベクトル間距離の具体的な計算方法は、図5のステップ502と同様であってもよい。
ステップ802において、探索モジュール109は、次に、検索テーブル400の各化合物について、特徴ベクトル間距離の総和を計算する。たとえば、上記の例において、ある化合物の特徴ベクトルがAである場合には、特徴ベクトル間距離の総和は、X-AとY-Aとの和となる。この総和を総合特徴ベクトル間距離としてもよいし、総和を指定化合物の数で除算した値(すなわち平均)を総合特徴ベクトル間距離としてもよい。
なお、この総合特徴ベクトル間距離は、ベクトルの結合を用いて計算することもできる。たとえば、まずベクトルXおよびYを結合することにより、結合ベクトルXYを取得する。結合ベクトルXYの次元は、ベクトルXの次元と、ベクトルYの次元との和(すなわちベクトルXの次元の2倍)に等しい。結合ベクトルXYの要素のうち前半のものは、ベクトルXの要素と同一であり、結合ベクトルXYの要素のうち後半のものは,ベクトルYの各要素と同一である。
次に、ベクトルAを自分自身と結合し、結合ベクトルAAを取得する。そして、結合ベクトルXYと、結合ベクトルAAとの間で、結合ベクトル間距離XY-AAを計算する。なお、この結合ベクトル間距離XY-AAは、特徴ベクトル間距離X-AおよびY-Aの和に等しい。この結合ベクトル間距離を総合特徴ベクトル間距離としてもよいし、結合ベクトル間距離を指定化合物の数で除算した値(すなわち平均)を総合特徴ベクトル間距離としてもよい。
探索モジュール109は、図5の処理と同様に探索結果をソートして類似化合物を取得する(ステップ803)。ここで、探索モジュール109は、類似化合物のうち、各指定化合物との総合特徴ベクトル間距離(たとえば特徴ベクトル間距離の総和または平均)が最も小さい類似化合物を、代表化合物として取得する。そして、探索モジュール109は、各類似化合物および代表化合物に関する情報をGUI102へと出力する(ステップ804)。
GUI102はこれを受信して表示する。GUI102は、各類似化合物を、総合特徴ベクトル間距離が小さい順に表示することができる。また、GUI102は、各類似化合物を表示する際に、代表化合物を特定する情報を表示することができる。たとえば、ある類似化合物が代表化合物である場合に、その類似化合物の名称近傍に、「代表的構造」等の文字列を表示してもよい。
図9は、実施例1において、指定生物活性を持つ化合物全てとの特徴ベクトル間距離総和に基づき、代表化合物を検索テーブル400から探索して出力するGUI900である。このGUI900は、たとえば図1のGUI102の一部であってもよい。GUI900は複数(たとえばL個)の化合物に関する情報を表示し、図9では各化合物のエントリ901をエントリ901-1~901-Lとして示す。
GUI900の内容は、図7に示すGUI700と同一の内容を含んでもよい。また、上述のように、GUI900は、各類似化合物を表示する際に、代表化合物を特定する情報を表示してもよい。たとえば、ある類似化合物が代表化合物である場合に、その類似化合物の名称近傍に、「代表的構造」等の文字列を表示してもよい。さらに、GUI900は、各類似化合物について、指定生物活性902と、総合特徴ベクトル間距離903とを表示してもよい。
図10は、実施例1において、ユーザ指定の第1指定生物活性を持つ化合物と、ユーザ指定の第2指定生物活性を持つ化合物との両方に類似する化合物を、検索テーブル400から探索して出力する処理を表すフローチャートである。
探索モジュール109は、ユーザ106から探索コマンド126を受け取ると、図10の処理をスタートして(ステップ1000)、探索結果125をGUI102へ出力すると処理を終了する(ステップ1006)。
図10の処理に関連して、ユーザ106は、探索コマンド126を用いて、複数の生物活性(図10の例では2つ)と、特徴ベクトル間距離の閾値とを指定する(ステップ1001)。探索モジュール109は、探索コマンド126を介して、第1指定生物活性、第2指定生物活性および閾値を取得する。
ステップ1001において、探索モジュール109は、お手本テーブル300に記録された化合物のうち、その生物活性が第1指定生物活性に適合する1つ以上の化合物を取得する。ここで取得される化合物を、以下では第1指定化合物と称する。複数の化合物の生物活性が第1指定生物活性に適合する場合には、第1指定化合物は複数となる。
また、ステップ1001において、探索モジュール109は、お手本テーブル300に記録された化合物のうち、その生物活性が第2指定生物活性に適合する1つ以上の化合物を取得する。ここで取得される化合物を、以下では第2指定化合物と称する。複数の化合物の生物活性が第2指定生物活性に適合する場合には、第2指定化合物は複数となる。
探索モジュール109は、各第1指定化合物と、検索テーブル400の各化合物との間で、特徴ベクトル間距離を計算する(ステップ1002)。特徴ベクトル間距離の具体的な計算方法は、図5のステップ502と同様であってもよい。
また、探索モジュール109は、各第2指定化合物と、検索テーブル400の各化合物との間で、特徴ベクトル間距離を計算する(ステップ1003)。特徴ベクトル間距離の具体的な計算方法は、図5のステップ502と同様であってもよい。
次に、探索モジュール109は、探索結果をソートする(ステップ1004)。ここで、探索モジュール109は、検索テーブル400の化合物のうち、2つの各指定化合物との特徴ベクトル間距離がいずれもユーザ指定の閾値以下となるものを、2つの特徴ベクトル間距離の総和(または平均、以下同様)が小さい順にソートする(ステップ1004)。
すなわち、探索モジュール109は、各類似化合物のうち、第1指定化合物との特徴ベクトル間距離の総和が閾値以下であり、かつ、第2指定化合物との特徴ベクトル間距離の総和が距離閾値以下であるものを取得する。ここで取得される化合物を、以下では多生物活性化合物と称する。多生物活性化合物は、2種類の生物活性にそれぞれ適合する2つの化合物のいずれにも類似する、共通類似化合物であるということができる。
探索モジュール109は、多生物活性化合物を、特徴ベクトル間距離の総和の合計(すなわち、第1指定化合物との特徴ベクトル間距離の総和と、第2指定化合物との特徴ベクトル間距離の総和との合計)が小さい順に、GUI102へと出力する(ステップ1005)。多生物活性化合物は、ユーザ指定の第1指定生物活性および第2指定生物活性を同時に併せ持つ化合物の候補となる。
GUI102はこれを受信して表示する。GUI102は、多生物活性化合物を含む類似化合物を、特徴ベクトル間距離の総和の合計が小さい順に表示することができる。また、GUI102は、各類似化合物を表示する際に、多生物活性化合物を特定する情報を表示することができる。たとえば、ある類似化合物が多生物活性化合物である場合に、その類似化合物の名称近傍に、「すべての生物活性に適合」等の文字列を表示してもよい。
図11は、実施例1において、第1指定化合物と、第2指定化合物との両方に類似する化合物を、検索テーブル400から探索して出力するGUI1100である。このGUI1100は、たとえば図1のGUI102の一部であってもよい。GUI1100は複数(たとえばP個)の化合物に関する情報を表示し、図11では各化合物のエントリ1101をエントリ1101-1~1101-Pとして示す。
GUI1100の内容は、図7に示すGUI700と同一の内容を含んでもよい。さらに、上述のように、GUI1100は、類似化合物を表示する際に、多生物活性化合物を特定する情報を表示してもよい。たとえば、ある類似化合物が代表化合物である場合に、その類似化合物の名称近傍に、「すべての生物活性に適合」等の文字列を表示してもよい。
なお、GUI1100は、第1指定生物活性に関する情報として、生物活性1102と、その生物活性を識別するID番号1103と、その生物活性を有する化合物名1104(化合物名のリストであってもよい)と、総合特徴ベクトル間距離1105とを表示してもよい。同様に、GUI1100は、第2指定生物活性に関する情報として、生物活性1106と、その生物活性を識別するID番号1107と、その生物活性を有する化合物名1108(化合物名のリストであってもよい)と、総合特徴ベクトル間距離1109とを表示してもよい。
図12は、実施例1において、元となる化合物の特徴ベクトルに対し、ユーザ指定の構造を付加または置換した、未知の特徴を持つ指定化合物との特徴ベクトル間距離に基づき、何らかの生物活性を持つ未知の特徴を持つ類似化合物を、お手本テーブル300または検索テーブル400から探索して出力する処理を表すフローチャートである。
探索モジュール109は、ユーザ106から探索コマンド126を受け取ると、図12の処理をスタートして(ステップ1200)、探索結果125をGUI102へ出力すると処理を終了する(ステップ1205)。
図12の処理に関連して、ユーザ106は、探索コマンド126を用いて、お手本テーブル300に記録された化合物1つ(以下、「元の化合物」と称する)と、構造的特徴の差分を表す情報と、特徴ベクトル間距離の閾値とを指定する(ステップ1201)。探索モジュール109は、探索コマンド126を介して、お手本テーブル300に記録された化合物と、構造的特徴の差分を表す情報と、特徴ベクトル間距離の閾値とを取得する。
次に、探索モジュール109は、構造的特徴の差分に基づく未知の化合物を指定化合物とし、この指定化合物と、検索テーブル400の各化合物との間で、特徴ベクトル間距離を計算する(ステップ1202)。このステップ1202において、探索モジュール109は、ステップ1201で指定された元の化合物の構造的特徴に、構造的特徴の差分を適用することにより、1つ以上の指定化合物を取得する。
構造的特徴の差分は、たとえば付加または置換によって表現される。付加とは、たとえば、元の化合物の、ユーザ指定のポイントに、ユーザ指定の構造を追加することである。置換とは、たとえば、元の化合物の、ユーザ指定のポイントにおける構造を、ユーザ指定の別の構造で置換することである。具体例は図13を用いて後述する。付加または置換によって、新規な化合物(未知の特徴または構造を有する場合がある)を指定化合物とすることができる。
ステップ1202において、次に、探索モジュール109は、このようにして生成された指定化合物と、お手本テーブル300に記録された各化合物と、検索テーブル400に記録された各化合物とについて、特徴ベクトルを取得する。なお、図5の処理とは異なり、図12の処理では指定化合物はお手本テーブル300に記録された化合物とは異なるので、お手本テーブル300に記録された化合物も探索の対象となる(ただし変形例として、お手本テーブル300は探索の対象から除外してもよい)。
ステップ1202において、次に、探索モジュール109は、指定化合物の特徴ベクトルと、お手本テーブル300に記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算する。また、探索モジュール109は、指定化合物の特徴ベクトルと、検索テーブル400に記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算する。特徴ベクトル間距離の具体的な計算方法は、図5のステップ502と同様であってもよい。
探索モジュール109は、探索結果をソートする(ステップ1203)。このステップ1203において、まず探索モジュール109は、特徴ベクトル間距離に応じて、お手本テーブル300に記録された化合物および検索テーブル400に記録された化合物を、少なくとも1つ取得する。実施例1では、お手本テーブル300または検索テーブル400の化合物のうち指定化合物との特徴ベクトル間距離がユーザ指定の閾値以下となるもの(類似化合物)を取得し、これらを特徴ベクトル間距離の小さい順にソートする。
探索モジュール109は、図5の処理と同様に探索結果をGUI102へと出力し(ステップ1204)、GUI102はこれを受信して表示する。
図13は、実施例1において、ユーザ指定の化合物の様々なポイントで、ユーザ指定の構造を付加または置換した未知の新規特徴を持つ化合物を作成する処理を説明する図である。
ユーザ指定の化合物(すなわち、付加または置換の元となる化合物)が、化合物1300であるとする。また、ある例において、構造的特徴の差分として、化合物1300のメタ位置にメチル基を付加することと、化合物1300のパラ位置にメチル基を付加することとが指定されたとする。この場合には、図13に示す化合物Aおよび化合物Bを含む2つの指定化合物1301が生成される。(なお、メチル基等の付加は、実際には水素原子との置換を表す場合がある。)
また、別の例において、構造的特徴の差分として、化合物1300のフッ素原子の1つをメチル基で置換することが指定されたとする。この場合には、図13に示す化合物Cおよび化合物Dを含む2つの指定化合物1302が生成される。(なお、図13では説明の便宜上、化合物Cおよび化合物Dを異なる化合物として扱っている。)
図13ではメチル基を用いた付加および置換の例を示したが、ハイドロ基または他の構造を付加または置換することも可能である。
図12の処理に基づいてGUI102に表示される内容は、図7のGUI700と同一であってもよい。また、探索モジュール109は、類似化合物に関する情報のみならず指定化合物に関する情報もGUI102に出力してもよく、GUI102は指定化合物に関する情報を表示してもよい。この例を図14に示す。
図14は、実施例1において、元の化合物に対して、ユーザ指定の構造を付加または置換した未知の化合物(指定化合物)について、生物活性情報存在率および存在率乖離を出力するGUI1400である。このGUI1400は、たとえば図1のGUI102の一部であってもよい。GUI1400は複数(たとえばQ個)の化合物に関する情報を表示し、図14では各化合物のエントリ1401をエントリ1401-1~1401-Qとして示す。
GUI1400は、指定化合物のID番号1402を含んでもよい。また、GUI1400は、各指定化合物について、その指定化合物に対する類似化合物のID番号1405(ID番号のリストであってもよい)、その指定化合物と類似化合物との特徴ベクトル間距離1406(特徴ベクトル間距離のリストであってもよい)、等を表示してもよい。
図15は、実施例1において、化合物をノードとして表し、特徴ベクトル間距離をノード間の線の長さまたは太さで表すGUI1500である。このGUI1500は、図5、6、8、10、12の各処理に対応する表示例の一部を集合的に示したものであり、図15の全体が特定の処理に対応するものではない。
GUI1500は、グラフ画面を表示することができる。グラフ画面は、化合物をノードとして表示する。たとえば、グラフ画面は、第1指定生物活性Aを備えるお手本テーブル300の第1指定化合物1501と、第2指定生物活性Bを備えるお手本テーブル300の第2指定化合物1504とを表示する。また、グラフ画面は、図6の処理において出力され図7のGUI700において表示される類似化合物1502(生物活性Aを指定生物活性とするもの)を表示する。また、グラフ画面は、図8の処理において出力され図9のGUI900において表示される代表化合物1503(生物活性Aを指定生物活性とするもの)を表示する。また、グラフ画面は、図10の処理において出力され図11のGUI1100において表示される多生物活性化合物1505(生物活性Aを第1指定生物活性とし、生物活性Bを第2指定生物活性とするもの)を表示する。また、グラフ画面は、図12の処理において出力され図14のGUI1400において表示される未知の特徴を持つ指定化合物または類似化合物1506を表示する。
グラフ画面において、これらのノードは、その種類に応じて異なる色で表示されてもよい。たとえば、指定化合物と類似化合物とが、それぞれ異なる色のノードとして表示されてもよい。異なる指定生物活性に係る指定化合物は、互いに異なる色のノードとして表示されてもよい。類似化合物のうち代表化合物は、他の類似化合物とは異なる色のノードとして表示されてもよい。類似化合物のうち多生物活性化合物は、他の類似化合物とは異なる色のノードとして表示されてもよい。未知の特徴を持つ化合物(たとえば付加または置換によって生成された化合物)は、そうでない化合物とは異なる色のノードとして表示されてもよい。
このように各ノードの色を異ならせることにより、ユーザは各ノードの意味を容易に理解し、ノード間の関係を容易に把握することができる。
グラフ画面において、各ノードを結ぶ線が表示されてもよい。その場合において、これらのノードを結ぶ線(たとえば指定化合物のノードおよび類似化合物のノードを結ぶ線)の長さまたは太さは、それらの特徴ベクトル間距離に応じて決定されてもよい。このようにすると、ノード間の関係がより容易に把握できる。
図16は、実施例1において、特徴ベクトル間距離の閾値と、使用する検索テーブルを選択するための情報と、元の化合物と、特徴量をマスクまたは重み付けするための重み値と、未知の特徴量を作成するための構造的特徴の差分とを、ユーザが入力するための入力用GUI1600である。
GUI1600は、以下の項目のいずれかまたはすべてを含む。
‐単一の生物活性を持つ類似化合物を抽出するための閾値を指定するテキストボックス
‐複数の生物活性を併せ持つ類似化合物を抽出するための閾値を指定するテキストボックス
‐使用する検索テーブルを指定するラジオボタン
‐特徴ベクトルの要素(特徴量)毎にマスキングまたは重み付けするための重み値を指定するテキストボックス
‐未知の特徴量を作成するための構造的特徴の差分を入力するテキストボックス
‐お手本テーブル300に記録された化合物のうち第1指定生物活性を持つお手本テーブル化合物を指定するチェックボックス群(たとえば指定化合物を直接的に指定するために用いることができる)
‐お手本テーブル300に記録された化合物のうち第2指定生物活性を持つお手本テーブル化合物を指定するチェックボックス群(たとえば指定化合物を直接的に指定するために用いることができる)
重み値を指定するテキストボックスでは、0または正の数値を含む列を入力することができ、数値がそれぞれ特徴量に対応する。特徴ベクトル間距離の計算に重み値を適用する場合には、たとえば、まず互いに対応する2つの特徴量を乗算し、次に、対応する重み値を乗算する。特徴量の順序と重み値の順序との対応関係は、事前に定義しておくことができる。たとえば、最初の数値は炭化水素6員環の数に対応し、2番目の数値は炭化水素5員環の数に対応し、3番目の数値は炭化水素3員環の数に対応する。
特徴ベクトル間距離の計算に用いたくない特徴量については、対応する数値を0にセットすることにより、マスキングすることができる。また、特徴ベクトル間距離の計算において重視したい特徴量については、対応する数値を大きくセットすることにより、距離への寄与を増大させることができる。
重み値の範囲は任意に決定可能であるが、たとえば0以上2以下の区間を含む範囲としてもよい。この場合には、探索モジュール109は、特徴ベクトル間距離を計算する際に、特徴ベクトルにおける各要素の重みを、0から2までの区間を含む範囲で変更することができる。
構造的特徴の差分を入力するテキストボックスでは、構造的特徴の差分を表す情報を、プラスまたはマイナスの符号を有する数値を含む列として入力することができる。すなわち、探索モジュール109は、構造的特徴の差分を表す情報を、プラスまたはマイナスの符号を有する数値を含む列として取得する。このような形式を用いることにより、ユーザは構造的特徴の差分を容易に指定することができる。
構造的特徴の順序と入力される数値の順序との対応関係は、事前に定義しておくことができる。たとえば、図16の例のように3番目の数値が5(すなわち+5)であれば、元の化合物の炭化水素3員環数を5だけ増加させる。また、5番目の数値が-4であれば、元の化合物の窒素を1つだけ含む5員環数を4だけ減少させる。このようにして指定化合物が決定される。
図17は、実施例1において、類似化合物、代表化合物、多生物活性化合物、および生物活性情報存在率を説明する図である。この例は、特徴ベクトル空間上における有望化合物領域スペース(指定化合物、類似化合物、代表化合物および多生物活性化合物を含む)と、各スペースにおける生物活性情報存在率とを示す。
特徴ベクトルは、特徴量の項目数に応じて次元が変化するため、特徴ベクトル空間は、1から3次元だけでなく、それ以上の次元を持っていても良い。特徴ベクトル空間が3次元以上である場合には、より低い次元に特徴ベクトル空間を写像して示してもよい。図17では2次元に写像した例を示す。
菱形点は、お手本テーブル300に含まれる化合物(指定化合物)の特徴ベクトルの座標を表す。菱形点(お手本A1~A3およびB1~B3)を中心とする同心円は、それぞれ類似化合物を含む有望化合物スペース1701~1706を表す。
有望化合物スペース1701~1706は、丸形点および四角点で表される検索テーブル400の類似化合物の特徴ベクトルの座標を含む。丸形点は生物活性情報の記録が存在しない類似化合物の特徴ベクトルの座標を表し、四角点は生物活性情報の記録が存在する類似化合物の特徴ベクトルの座標を表す。
有望化合物スペース1701~1706はそれぞれ、生物活性情報の記録が存在しない類似化合物(丸形点)を5、3、4、2、3、1個含み、生物活性情報の記録が存在する類似化合物(四角点)を0、1、2、0、0、2個含む。このため、それぞれの生物活性情報存在率は0%、25%、33%、0%、0%、66%となる。
お手本A1~A3はいずれも指定生物活性Aに適合するものである。これら3つのお手本の特徴ベクトルの座標のいずれからも近い距離にある領域である有望化合物スペース1707は、生物活性Aに関する代表化合物の特徴ベクトルの座標を含む。同じように、お手本B1~B3はいずれも指定生物活性Bに適合するものであり、これら3つのお手本の特徴ベクトルの座標のいずれからも近い距離にある領域である有望化合物スペース1708は、生物活性Bに関する代表化合物の特徴ベクトル座標を含む。
有望化合物スペース1707と1708はそれぞれ、生物活性情報の記録が存在しない類似化合物(丸形点)を3、2個含み、生物活性情報の記録が存在する類似化合物(四角点)を0、1個含むため、それぞれの生物活性情報存在率は0%、33%となる。
生物活性Aに適合するお手本A1の特徴ベクトルの座標と、生物活性Bに適合するお手本B1の特徴ベクトルの座標とのいずれからも近い距離にある領域である有望化合物スペース1709は、これら2つの生物活性の共通の類似化合物(たとえば多生物活性化合物)の特徴ベクトルの座標を含む。
生物活性Aに適合するお手本A2の特徴ベクトルの座標と、生物活性Bに適合するお手本B2の特徴ベクトルの座標とのいずれからも近い距離にある領域である有望化合物スペース1710もまた、これら2つの生物活性の共通の類似化合物(たとえば多生物活性化合物)の特徴ベクトル座標を含む。
有望化合物スペース1709と1710はそれぞれ、生物活性情報の記録が存在しない類似化合物(丸形点)を5、4個含み、生物活性情報の記録が存在する類似化合物(四角点)を0、3個含むため、それぞれの生物活性情報存在率は0%、43%となる。
お手本B3に対して未知の差分特徴量を追加すると、お手本B3の類似化合物を含む有望化合物スペース1706は、追加した差分特徴量に応じて有望化合物スペース1711へと平行移動する。同様に、代表化合物を含む有望化合物スペース1708は、差分特徴量に応じて有望化合物スペース1712へと平行移動し、多生物活性化合物を含む有望化合物スペース1709は、差分特徴量に応じて有望化合物スペース1713へと平行移動する。
ユーザは、経験と勘に基づいて、お手本化合物と差分特徴量を指定することで、複数のお手本化合物を掛け合せた多生物活性化合物を含む有望化合物領域スペースや、差分特徴量に応じて並行移動した有望化合物領域スペースの位置を少しずつ調整しながら、有望度の高い新規領域スペースの探索を繰り返す。お手本化合物と差分特徴量の指定を、組合せや配列値を総当りで割り当てるなどの方法で自動化することで、有望度の高い領域を自動的に探索してもよい。複数のお手本化合物の特徴ベクトルを掛け合せた領域の探索や、差分特徴量で一部変化させた領域の探索を繰り返して、有望度の高い領域を手動または自動で探索していく手法は、生物が進化において、雄と雌のDNA配列の掛け合せや、突然変異によるDNA配列の一部変化を繰り返して、生存に有利な生物種へと進化していった手法を再現しようとするものであり、複数の異種データを組み合わせて新規概念を生み出す人間の直観や創造性を再現しようとするものである。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100…探索システム
102,700,900,1100,1400,1500,1600…GUI
109…探索モジュール(化合物探索器)
300…お手本テーブル
305…環構造情報(構造的特徴を表す情報)
306…鎖構造情報(構造的特徴を表す情報)
307…物理化学的特性情報
308…生物活性情報
354…ファーマコフォア情報(構造的特徴を表す情報)
400…検索テーブル
710…類似化合物生物活性情報存在率
720…存在率乖離

Claims (9)

  1. 複数の化合物について、構造的特徴または物理化学的特性を表す情報を記録し、さらに、生物学的応答または生物作用量を含む生物活性を表す情報を記録可能である、検索テーブルおよびお手本テーブルと、
    化合物探索器であって、
    ‐前記お手本テーブルに記録された化合物に基づき、少なくとも1つの化合物を指定化合物として取得し、
    ‐前記指定化合物と、前記検索テーブルに記録された各化合物とについて、前記構造的特徴または前記物理化学的特性を表す特徴ベクトルを取得し、
    ‐前記指定化合物の特徴ベクトルと、前記検索テーブルに記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算し、
    ‐前記特徴ベクトル間距離に応じて、前記検索テーブルに記録された化合物を類似化合物として取得する、
    化合物探索器と、
    前記類似化合物と、前記類似化合物の生物活性を表す情報とを表示する、GUIと
    を備える、生物活性を持つ化合物の探索システムであって、
    前記化合物探索器は、前記指定化合物を取得する際に、
    ‐指定生物活性を取得し、
    ‐前記お手本テーブルに記録された化合物のうち、生物活性が前記指定生物活性に適合する1つ以上の化合物を、前記指定化合物として取得し、
    前記化合物探索器は、さらに、各前記類似化合物のうち、各前記指定化合物との特徴ベクトル間距離の総和または平均が最も小さい類似化合物を、代表化合物として取得し、
    前記GUIは、前記類似化合物を表示する際に、前記代表化合物を特定する情報を表示する、
    生物活性を持つ化合物の探索システム。
  2. 複数の化合物について、構造的特徴または物理化学的特性を表す情報を記録し、さらに、生物学的応答または生物作用量を含む生物活性を表す情報を記録可能である、検索テーブルおよびお手本テーブルと、
    化合物探索器であって、
    ‐前記お手本テーブルに記録された化合物に基づき、少なくとも1つの化合物を指定化合物として取得し、
    ‐前記指定化合物と、前記検索テーブルに記録された各化合物とについて、前記構造的特徴または前記物理化学的特性を表す特徴ベクトルを取得し、
    ‐前記指定化合物の特徴ベクトルと、前記検索テーブルに記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算し、
    ‐前記特徴ベクトル間距離に応じて、前記検索テーブルに記録された化合物を類似化合物として取得する、
    化合物探索器と、
    前記類似化合物と、前記類似化合物の生物活性を表す情報とを表示する、GUIと
    を備える、生物活性を持つ化合物の探索システムであって、
    前記化合物探索器は、前記指定化合物を取得する際に、
    ‐距離閾値を取得し、
    ‐第1指定生物活性および第2指定生物活性を取得し、
    ‐前記お手本テーブルに記録された化合物のうち、生物活性が前記第1指定生物活性に適合する1つ以上の化合物を、第1指定化合物として取得し、
    ‐前記お手本テーブルに記録された化合物のうち、生物活性が前記第2指定生物活性に適合する1つ以上の化合物を、第2指定化合物として取得し、
    前記化合物探索器は、さらに、各前記類似化合物のうち、前記第1指定化合物との特徴ベクトル間距離の総和または平均が前記距離閾値以下であり、かつ、前記第2指定化合物との特徴ベクトル間距離の総和または平均が前記距離閾値以下である類似化合物を、多生物活性化合物として取得し、
    前記GUIは、前記類似化合物を表示する際に、前記多生物活性化合物を特定する情報を表示する、
    生物活性を持つ化合物の探索システム。
  3. 複数の化合物について、構造的特徴または物理化学的特性を表す情報を記録し、さらに、生物学的応答または生物作用量を含む生物活性を表す情報を記録可能である、検索テーブルおよびお手本テーブルと、
    化合物探索器であって、
    ‐前記お手本テーブルに記録された化合物に基づき、少なくとも1つの化合物を指定化合物として取得し、
    ‐前記指定化合物と、前記検索テーブルに記録された各化合物とについて、前記構造的特徴または前記物理化学的特性を表す特徴ベクトルを取得し、
    ‐前記指定化合物の特徴ベクトルと、前記検索テーブルに記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算し、
    ‐前記特徴ベクトル間距離に応じて、前記検索テーブルに記録された化合物を類似化合物として取得する、
    化合物探索器と、
    前記類似化合物と、前記類似化合物の生物活性を表す情報とを表示する、GUIと
    を備える、生物活性を持つ化合物の探索システムであって、
    前記化合物探索器は、前記指定化合物を取得する際に、
    ‐前記検索テーブルに記録された化合物と、構造的特徴の差分を表す情報とを取得し、
    ‐前記検索テーブルに記録された前記化合物の構造的特徴に、前記差分を適用することにより、前記指定化合物を取得し、
    前記化合物探索器は、さらに、前記お手本テーブルに記録された各化合物について、前記特徴ベクトルを取得し、
    前記化合物探索器は、さらに、前記指定化合物の特徴ベクトルと、前記お手本テーブルに記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算し、
    前記化合物探索器は、前記類似化合物を取得する際に、前記特徴ベクトル間距離に応じて、前記お手本テーブルまたは前記検索テーブルに記録された化合物を、少なくとも1つ、前記類似化合物として取得する、
    生物活性を持つ化合物の探索システム。
  4. 複数の化合物について、構造的特徴または物理化学的特性を表す情報を記録し、さらに、生物学的応答または生物作用量を含む生物活性を表す情報を記録可能である、検索テーブルおよびお手本テーブルと、
    化合物探索器であって、
    ‐前記お手本テーブルに記録された化合物に基づき、少なくとも1つの化合物を指定化合物として取得し、
    ‐前記指定化合物と、前記検索テーブルに記録された各化合物とについて、前記構造的特徴または前記物理化学的特性を表す特徴ベクトルを取得し、
    ‐前記指定化合物の特徴ベクトルと、前記検索テーブルに記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算し、
    ‐前記特徴ベクトル間距離に応じて、前記検索テーブルに記録された化合物を類似化合物として取得する、
    化合物探索器と、
    前記類似化合物と、前記類似化合物の生物活性を表す情報とを表示する、GUIと
    を備える、生物活性を持つ化合物の探索システムであって、
    前記GUIは、さらに、グラフ画面を表示することができ、
    前記グラフ画面において、前記指定化合物と、前記類似化合物とが、それぞれ異なる色のノードとして表示され、
    前記指定化合物のノードおよび前記類似化合物のノードを結ぶ線の長さまたは太さは、それらの特徴ベクトル間距離に応じて決定される、
    生物活性を持つ化合物の探索システム。
  5. 請求項に記載の、生物活性を持つ化合物の探索システムであって、
    前記化合物探索器は、構造的特徴の差分を表す前記情報を、プラスまたはマイナスの符号を有する数値を含む列として取得する、
    生物活性を持つ化合物の探索システム。
  6. 複数の化合物について、構造的特徴または物理化学的特性を表す情報を記録し、さらに、生物学的応答または生物作用量を含む生物活性を表す情報を記録可能である、検索テーブルおよびお手本テーブルと、
    化合物探索器であって、
    ‐前記お手本テーブルに記録された化合物に基づき、少なくとも1つの化合物を指定化合物として取得し、
    ‐前記指定化合物と、前記検索テーブルに記録された各化合物とについて、前記構造的特徴または前記物理化学的特性を表す特徴ベクトルを取得し、
    ‐前記指定化合物の特徴ベクトルと、前記検索テーブルに記録された各化合物の特徴ベクトルとの間の特徴ベクトル間距離を計算し、
    ‐前記特徴ベクトル間距離に応じて、前記検索テーブルに記録された化合物を類似化合物として取得する、
    化合物探索器と、
    前記類似化合物と、前記類似化合物の生物活性を表す情報とを表示する、GUIと
    を備える、生物活性を持つ化合物の探索システムであって、
    前記化合物探索器は、さらに、
    ‐前記類似化合物のうち、生物活性を表す情報が記録されているものの比率を表す、類似化合物生物活性情報存在率と、
    ‐前記検索テーブルに記録された化合物のうち、生物活性を表す情報が記録されているものの比率を表す、全体生物活性情報存在率と、
    に基づき、存在率乖離を計算し、
    前記GUIは、前記存在率乖離を表示する、
    生物活性を持つ化合物の探索システム。
  7. 請求項1に記載の、生物活性を持つ化合物の探索システムであって、
    前記構造的特徴は、環構造に関する数、鎖構造に関する数、またはファーマコフォアに関する数を含み、
    前記物理化学的特性は、モル質量、沸点、凝固点、蒸気圧、密度、水溶解度、有機溶媒溶解度、熱安定性、酸アルカリ度、またはスペクトルを含み、
    前記GUIは、前記類似化合物を、前記特徴ベクトル間距離が小さい順に表示することができる、
    生物活性を持つ化合物の探索システム。
  8. 請求項1に記載の、生物活性を持つ化合物の探索システムであって、
    前記化合物探索器は、前記特徴ベクトル間距離を計算する際に、前記特徴ベクトルにおける各要素の重みを、0以上2以下の区間を含む範囲で変更することができる、
    生物活性を持つ化合物の探索システム。
  9. 請求項1に記載の、生物活性を持つ化合物の探索システムであって、
    前記化合物探索器は、前記特徴ベクトル間距離を、
    ‐各特徴ベクトルに含まれる特徴量の差を二乗したものを足し合わせることにより計算するか、または、
    ‐各特徴ベクトルに含まれる特徴量の差を二乗したものを足し合わせた後に平方根を取ることにより計算する、
    生物活性を持つ化合物の探索システム。
JP2020183449A 2019-12-27 2020-11-02 生物活性を持つ化合物の探索システム Active JP7030171B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/728,097 US11334629B2 (en) 2019-12-27 2019-12-27 Search system for chemical compound having biological activity
US16/728,097 2019-12-27

Publications (2)

Publication Number Publication Date
JP2021108108A JP2021108108A (ja) 2021-07-29
JP7030171B2 true JP7030171B2 (ja) 2022-03-04

Family

ID=76547577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020183449A Active JP7030171B2 (ja) 2019-12-27 2020-11-02 生物活性を持つ化合物の探索システム

Country Status (2)

Country Link
US (1) US11334629B2 (ja)
JP (1) JP7030171B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024154210A1 (ja) * 2023-01-16 2024-07-25 株式会社データグリッド 非構造化データの探索方法、探索装置およびプログラム
US20250239333A1 (en) * 2024-01-24 2025-07-24 Camelot Uk Bidco Limited Searching a chemical structure database based on centroids
WO2025182074A1 (ja) * 2024-03-01 2025-09-04 株式会社日立ハイテク 探索システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074859A1 (en) 2003-05-28 2006-04-06 Bomi Patel-Framroze Of Row2 Technologies Inc. System, apparatus, and method for user tunable and selectable searching of a database using a weighted quantized feature vector
JP2007277188A (ja) 2006-04-10 2007-10-25 Hitachi Ltd 化合物検索支援システム
JP2011086062A (ja) 2009-10-14 2011-04-28 Sony Corp コンテンツ関係可視化装置、コンテンツ関係可視化方法およびプログラム
WO2013038698A1 (ja) 2011-09-14 2013-03-21 独立行政法人産業技術総合研究所 検索システム、検索方法、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165042B2 (en) * 2005-03-31 2015-10-20 International Business Machines Corporation System and method for efficiently performing similarity searches of structural data
US11093842B2 (en) * 2018-02-13 2021-08-17 International Business Machines Corporation Combining chemical structure data with unstructured data for predictive analytics in a cognitive system
US11455440B2 (en) * 2019-02-25 2022-09-27 International Business Machines Corporation Graphic user interface assisted chemical structure generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074859A1 (en) 2003-05-28 2006-04-06 Bomi Patel-Framroze Of Row2 Technologies Inc. System, apparatus, and method for user tunable and selectable searching of a database using a weighted quantized feature vector
JP2007277188A (ja) 2006-04-10 2007-10-25 Hitachi Ltd 化合物検索支援システム
JP2011086062A (ja) 2009-10-14 2011-04-28 Sony Corp コンテンツ関係可視化装置、コンテンツ関係可視化方法およびプログラム
WO2013038698A1 (ja) 2011-09-14 2013-03-21 独立行政法人産業技術総合研究所 検索システム、検索方法、およびプログラム

Also Published As

Publication number Publication date
US20210200809A1 (en) 2021-07-01
US11334629B2 (en) 2022-05-17
JP2021108108A (ja) 2021-07-29

Similar Documents

Publication Publication Date Title
JP7030171B2 (ja) 生物活性を持つ化合物の探索システム
Schuffenhauer et al. The scaffold tree− visualization of the scaffold universe by hierarchical scaffold classification
US9165042B2 (en) System and method for efficiently performing similarity searches of structural data
CN104794221A (zh) 一种基于业务对象的多维数据分析系统
Revell et al. Placing cryptic, recently extinct, or hypothesized taxa into an ultrametric phylogeny using continuous character data: a case study with the lizard Anolis roosevelti
Rácz et al. Extended continuous similarity indices: theory and application for QSAR descriptor selection
Dobrynin The Szeged and Wiener indices of line graphs
CN110737779B (zh) 知识图谱的构建方法、装置、存储介质和电子设备
CN112131259B (zh) 一种相似恶意软件推荐方法、装置、介质和设备
Hu et al. Introducing a new category of activity cliffs combining different compound similarity criteria
Wang et al. A novel efficient algorithm for determining maximum common subgraphs
Ouvrard et al. Hypergraph modeling and visualisation of complex co-occurence networks
Bentler et al. Model search with TETRAD II and EQS
Patra et al. Motif discovery in biological network using expansion tree
Mallik et al. Scientometric analysis of research advancement in graph theory and its applications
Dover et al. AVIDA: An alternating method for visualizing and integrating data
Du et al. Similarity measurements on multi‐scale qualitative locations
Klaib et al. Application of exact string matching algorithms towards smiles representation of chemical structure
EP2140389B1 (en) Virtual screening of chemical spaces
KR20150076293A (ko) 변이 정보의 어노테이션 방법 및 장치
Adams et al. Frankenplace: An application for similarity-based place search
AU2003226520A1 (en) Methods of evaluating DNA-based links
Duardo-Sanchez et al. MI-NODES multiscale models of metabolic reactions, brain connectome, ecological, epidemic, world trade, and legal-social networks
Hu et al. Visualization of activity landscapes and chemogenomics data
Gasparovic et al. Research in computational topology 2

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220221

R150 Certificate of patent or registration of utility model

Ref document number: 7030171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350