JP2004258814A - Protein structure predicting device, protein structure predicting method, program and recording medium - Google Patents
Protein structure predicting device, protein structure predicting method, program and recording medium Download PDFInfo
- Publication number
- JP2004258814A JP2004258814A JP2003046597A JP2003046597A JP2004258814A JP 2004258814 A JP2004258814 A JP 2004258814A JP 2003046597 A JP2003046597 A JP 2003046597A JP 2003046597 A JP2003046597 A JP 2003046597A JP 2004258814 A JP2004258814 A JP 2004258814A
- Authority
- JP
- Japan
- Prior art keywords
- protein
- ligand
- dimensional structure
- amino acid
- acid sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 885
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 880
- 238000000034 method Methods 0.000 title claims abstract description 297
- 239000003446 ligand Substances 0.000 claims abstract description 534
- 238000004364 calculation method Methods 0.000 claims abstract description 86
- 230000003993 interaction Effects 0.000 claims abstract description 85
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 180
- 238000000455 protein structure prediction Methods 0.000 claims description 89
- 238000004458 analytical method Methods 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 26
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 25
- 238000005381 potential energy Methods 0.000 claims description 23
- 238000012935 Averaging Methods 0.000 claims description 19
- 238000000329 molecular dynamics simulation Methods 0.000 claims description 18
- 238000000324 molecular mechanic Methods 0.000 claims description 14
- 230000033001 locomotion Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 45
- 238000013461 design Methods 0.000 abstract description 8
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 235000018102 proteins Nutrition 0.000 description 607
- 230000006870 function Effects 0.000 description 202
- 125000004429 atom Chemical group 0.000 description 160
- 238000007796 conventional method Methods 0.000 description 42
- 235000001014 amino acid Nutrition 0.000 description 41
- 238000012545 processing Methods 0.000 description 40
- 150000001413 amino acids Chemical group 0.000 description 38
- 238000010586 diagram Methods 0.000 description 37
- 108020004414 DNA Proteins 0.000 description 33
- 238000010276 construction Methods 0.000 description 33
- 239000003814 drug Substances 0.000 description 23
- 239000000126 substance Substances 0.000 description 23
- 125000000539 amino acid group Chemical group 0.000 description 18
- 238000004891 communication Methods 0.000 description 18
- 239000012634 fragment Substances 0.000 description 18
- 238000002922 simulated annealing Methods 0.000 description 17
- 102000006467 TATA-Box Binding Protein Human genes 0.000 description 16
- 108010044281 TATA-Box Binding Protein Proteins 0.000 description 16
- 235000000346 sugar Nutrition 0.000 description 16
- 229940079593 drug Drugs 0.000 description 15
- 229910052751 metal Inorganic materials 0.000 description 15
- 239000002184 metal Substances 0.000 description 15
- 102000005962 receptors Human genes 0.000 description 14
- 108020003175 receptors Proteins 0.000 description 14
- 238000002864 sequence alignment Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 12
- 102100027998 Macrophage metalloelastase Human genes 0.000 description 12
- 101710187853 Macrophage metalloelastase Proteins 0.000 description 12
- XFILPEOLDIKJHX-QYZOEREBSA-N batimastat Chemical compound C([C@@H](C(=O)NC)NC(=O)[C@H](CC(C)C)[C@H](CSC=1SC=CC=1)C(=O)NO)C1=CC=CC=C1 XFILPEOLDIKJHX-QYZOEREBSA-N 0.000 description 12
- 229950001858 batimastat Drugs 0.000 description 12
- 150000001875 compounds Chemical class 0.000 description 12
- 238000000547 structure data Methods 0.000 description 12
- 238000006073 displacement reaction Methods 0.000 description 11
- 239000005556 hormone Substances 0.000 description 11
- 229940088597 hormone Drugs 0.000 description 11
- 150000002739 metals Chemical class 0.000 description 11
- 238000003860 storage Methods 0.000 description 10
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 9
- 101710154606 Hemagglutinin Proteins 0.000 description 9
- 125000000729 N-terminal amino-acid group Chemical group 0.000 description 9
- 101710093908 Outer capsid protein VP4 Proteins 0.000 description 9
- 101710135467 Outer capsid protein sigma-1 Proteins 0.000 description 9
- 101710176177 Protein A56 Proteins 0.000 description 9
- 150000001720 carbohydrates Chemical class 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 239000013078 crystal Substances 0.000 description 9
- 235000013922 glutamic acid Nutrition 0.000 description 9
- 239000004220 glutamic acid Substances 0.000 description 9
- 239000000185 hemagglutinin Substances 0.000 description 9
- 102000039446 nucleic acids Human genes 0.000 description 9
- 108020004707 nucleic acids Proteins 0.000 description 9
- 150000007523 nucleic acids Chemical class 0.000 description 9
- 125000001433 C-terminal amino-acid group Chemical group 0.000 description 8
- 150000002500 ions Chemical class 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 241000712461 unidentified influenza virus Species 0.000 description 8
- 229910052739 hydrogen Inorganic materials 0.000 description 7
- 239000001257 hydrogen Substances 0.000 description 7
- 241000408529 Libra Species 0.000 description 6
- 125000004432 carbon atom Chemical group C* 0.000 description 6
- 230000036961 partial effect Effects 0.000 description 6
- 102000018899 Glutamate Receptors Human genes 0.000 description 5
- 108010027915 Glutamate Receptors Proteins 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 5
- 102000016193 Metabotropic glutamate receptors Human genes 0.000 description 5
- 108010010914 Metabotropic glutamate receptors Proteins 0.000 description 5
- 239000003905 agrochemical Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 5
- 239000000539 dimer Substances 0.000 description 5
- 238000009510 drug design Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 108090000765 processed proteins & peptides Proteins 0.000 description 5
- 102000004196 processed proteins & peptides Human genes 0.000 description 5
- 238000000137 annealing Methods 0.000 description 4
- SQVRNKJHWKZAKO-UHFFFAOYSA-N beta-N-Acetyl-D-neuraminic acid Natural products CC(=O)NC1C(O)CC(O)(C(O)=O)OC1C(O)C(O)CO SQVRNKJHWKZAKO-UHFFFAOYSA-N 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010230 functional analysis Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 239000000575 pesticide Substances 0.000 description 4
- SQVRNKJHWKZAKO-OQPLDHBCSA-N sialic acid Chemical compound CC(=O)N[C@@H]1[C@@H](O)C[C@@](O)(C(O)=O)OC1[C@H](O)[C@H](O)CO SQVRNKJHWKZAKO-OQPLDHBCSA-N 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000012916 structural analysis Methods 0.000 description 4
- 102000003886 Glycoproteins Human genes 0.000 description 3
- 108090000288 Glycoproteins Proteins 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- 210000000170 cell membrane Anatomy 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 229930195712 glutamate Natural products 0.000 description 3
- 239000000710 homodimer Substances 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 3
- 241000271566 Aves Species 0.000 description 2
- KYXHKHDZJSDWEF-LHLOQNFPSA-N CCCCCCC1=C(CCCCCC)C(\C=C\CCCCCCCC(O)=O)C(CCCCCCCC(O)=O)CC1 Chemical compound CCCCCCC1=C(CCCCCC)C(\C=C\CCCCCCCC(O)=O)C(CCCCCCCC(O)=O)CC1 KYXHKHDZJSDWEF-LHLOQNFPSA-N 0.000 description 2
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 2
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 2
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 2
- 102000040945 Transcription factor Human genes 0.000 description 2
- 108091023040 Transcription factor Proteins 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 229920001222 biopolymer Polymers 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 150000002270 gangliosides Chemical class 0.000 description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 150000008163 sugars Chemical class 0.000 description 2
- 238000002424 x-ray crystallography Methods 0.000 description 2
- 238000012982 x-ray structure analysis Methods 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- 241000219194 Arabidopsis Species 0.000 description 1
- XDTMQSROBMDMFD-UHFFFAOYSA-N C1CCCCC1 Chemical compound C1CCCCC1 XDTMQSROBMDMFD-UHFFFAOYSA-N 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 1
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 description 1
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 description 1
- 101000891654 Homo sapiens TATA-box-binding protein Proteins 0.000 description 1
- 241001599018 Melanogaster Species 0.000 description 1
- 102100036834 Metabotropic glutamate receptor 1 Human genes 0.000 description 1
- 101710086716 Metabotropic glutamate receptor 1 Proteins 0.000 description 1
- 102000005741 Metalloproteases Human genes 0.000 description 1
- 108010006035 Metalloproteases Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 102000007079 Peptide Fragments Human genes 0.000 description 1
- 108010033276 Peptide Fragments Proteins 0.000 description 1
- 102000015731 Peptide Hormones Human genes 0.000 description 1
- 108010038988 Peptide Hormones Proteins 0.000 description 1
- 101710093543 Probable non-specific lipid-transfer protein Proteins 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 102000004408 Transcription factor TFIIB Human genes 0.000 description 1
- 108090000941 Transcription factor TFIIB Proteins 0.000 description 1
- 238000005076 Van der Waals potential Methods 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 125000000637 arginyl group Chemical group N[C@@H](CCCNC(N)=N)C(=O)* 0.000 description 1
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 102000045334 human TBP Human genes 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 125000004433 nitrogen atom Chemical group N* 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 125000004430 oxygen atom Chemical group O* 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 108020001775 protein parts Proteins 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920005989 resin Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体に関し、特に、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を構築するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体に関する。
【0002】
【従来の技術】
多くの生物種において、全ゲノム配列解析が進められて、その配列情報がデータベース化されている(例えば、非特許文献1参照)。ゲノム配列より、遺伝子の機能を特定、予測することがある程度可能であるが、配列情報のみでは機能を予測できない遺伝子が非常に多く存在する。また、遺伝子は、そのDNA配列からアミノ酸配列に翻訳されたタンパク質が実際に機能を担っている。
【0003】
多くのタンパク質は、種々のホルモンやペプチド、タンパク質、農薬、医薬品などの化合物等といったリガンドと相互作用することにより、生体内で機能を発揮する。多くのタンパク質とリガンドとの相互作用の共通の性質は、タンパク質とリガンドとの相補性のある立体構造であり、各タンパク質の特異的な立体構造の特徴がリガンドとの相互作用の強さ、相互作用するリガンドの機能を決定していると考えられる。
【0004】
リガンドが結合したタンパク質の立体構造を解明する試みは構造生物学において構造決定の主力とされるX線結晶構造解析、NMRを適用して行われ、多くの複合体の構造が解析されてきている。しかし、ゲノム解析から推定されるタンパク質の数は多く、加えてリガンドの種類も多いと予想されるため、すべてのタンパク質とリガンドの組み合わせについての複合体をX線結晶構造解析などの実験的手法により解明することは極めて困難である。そこで、目的とするタンパク質とアミノ酸配列の相同性の高い立体構造既知のタンパク質を探し出し、目的タンパク質の機能を予測することが行われている。
【0005】
アミノ酸配列から立体構造を作成する方法として、ホモロジーモデリング法が広く知られている。これは、任意のアミノ酸配列(目的アミノ酸配列)が与えられたとき、目的アミノ酸配列と類似の配列を有するタンパク質(参照タンパク質)をプロテイン・データ・バンクPDBのような立体構造データベースから検索し、目的アミノ酸配列と類似配列の間のアライメント(配列を並置したもの)を与えた後、アライメント情報を基に、参照タンパク質の3次元座標から目的アミノ酸配列上のアミノ酸ごとの3次元座標を作成する手法である。
【0006】
従来のホモロジーモデリング法としては、例えばFAMS等が挙げられる(例えば、非特許文献2参照)。
【0007】
ここで、このホモロジー法は次の4つのステップよりなる計算科学的手法である。
【0008】
(ステップ1)任意のアミノ酸配列(目的アミノ酸配列)が与えられたとき、目的アミノ酸配列と類似の配列を有するタンパク質(参照タンパク質)をプロテイン・データ・バンクPDBのような立体構造データベースから検索(ホモロジー検索)し、目的アミノ酸配列と類似配列の間のアライメント(配列を並置したもの)を与える。このデータベース検索とアライメントを行うためには、FASTA、PSI−BLAST、LIBRA等のコンピュータソフトがある。
【0009】
FASTAは20種類の天然アミノ酸を意味する20種のアルファベット文字配列のマッチングを行うプログラムであり、高ホモロジー(アミノ酸の一致度約30%以上、FASTAのe値では約0.01以下に相当)の参照タンパク質に対して立体構造構築をすると、信頼性の高いモデルが構築出来るとされている。
【0010】
一方、PSI−BLASTでは、同じように文字配列のマッチングを行うが、文字が一致しているか否かの情報ではなく、プロファイルと呼ばれる文字の一致の度合いを類縁タンパク質の文字配列上部位ごとの置換行列として算出し、更に繰り返し計算を行うことによりアライメントを最適化する性質を持っている。
【0011】
また、LIBRAは3D−1D法(threading法ともいう)に基づくプログラムであり、既知立体構造をプローブにして類似配列を検索するため、FASTAやPSI−BLASTとは検索アルゴリズムが明らかに異なる。そのため、FASTAやPSI−BLASTとは異なる種類の配列間類似性を指摘できる場合がある。
【0012】
(ステップ2)上述したFASTA、PSI−BLAST、LIBRAなどにより算出したアライメントを用いれば、目的アミノ酸配列と類似配列間のアミノ酸ごとの対応関係が決まるので、この関係に基づき、参照タンパク質の3次元座標から目的アミノ酸配列上のアミノ酸ごとの3次元座標を作成する。
【0013】
(ステップ3)目的アミノ酸配列側に対応するアミノ酸が存在しない場合には、参照タンパク質側のその位置のアミノ酸座標は用いず、逆に、参照タンパク質側に対応するアミノ酸が存在しない場合には、その位置の目的アミノ酸配列上のアミノ酸座標は、予め用意しておいたタンパク質断片座標データベースから適切なものを検索して作成する。
【0014】
(ステップ4)上述した(ステップ2)および(ステップ3)によるタンパク質座標の構築では、アミノ酸残基間に構造的に不適切な隙間や衝突や歪みが生じることがあるので、エネルギー極小化計算により、これらの構造的な歪みを解消する。
【0015】
従来のモデリングソフトによっては、(ステップ4)の構造的な歪みの解消をスムーズに行うため、(ステップ2)〜(ステップ4)の計算及び検索処理をタンパク質全原子に対して同時に行うのではなく、例えばシュミレーティッドアニーリング法(SA法)、分子力学計算、モンテカルロ法などを用いて段階的に行うものもある。
【0016】
「SA法」とは、或る系の状態xに対して摂動を与え、新しい状態x’を得たとき、新しい状態でのエネルギー値E(x’)が旧状態のエネルギー値E(x)より小さければ高い確率で、大きければ低い確率で新状態x’への遷移を行うことにより、局所最小点に捉えることなくエネルギーEの大或的最小点を発見しようというものである。即ち、先ずタンパク質の骨格を形成するα炭素原子について、次いでα炭素原子を含む主鎖原子について、SA法によるエネルギー極小化を行い、最後に側鎖を含むタンパク質全体についてSA法によるエネルギー極小化を行うものである。
【0017】
「分子力学計算」とは、系のポテンシャルエネルギーEを座標の関数として表し、主に最大傾斜法または共役勾配法等のエネルギー極小化計算によって、ポテンシャルエネルギーEの下がるべき座標変化を計算する方法である。
【0018】
「モンテカルロ法」とは、統計力学に基づいた確立論的エネルギー最適化計算法である。
【0019】
以上により、目的アミノ酸配列に対するアライメントが得られれば、その立体構造を予測構築することができる。ホモロジーモデリング法により立体構造が未知のタンパク質の立体構造を精度良く予測することができる。
【0020】
【非特許文献1】
Gerardo Jimenez−Sanchez, Nature 409, 853 − 855 (2001)
【非特許文献2】
K.Ogata and H.Umeyama, Journal of Molecular Graphics and Modeling 18, 258−272
【0021】
【発明が解決しようとする課題】
しかしながら、従来法では、タンパク質とリガンドとの相互作用を考慮せずに、立体構造を構築していくため、作成された立体構造において、リガンドとの結合する部分が塞がれていることが多いという問題点を有していた。特に、医薬品などタンパク質の立体構造を利用して分子設計を行うには上記の欠点は重大である。その原因としては、従来のホモロジーモデリング法のアルゴリズムの中ではタンパク質とリガンドとの相互作用を計算していないためである。
【0022】
従来この欠点を取り除く方法としては、コンピュータ上でタンパク質とリガンドとのドッキングシミュレーションを行う方法が数多く知られている。その多くは、既存タンパク質の立体構造を用いて、あるいはホモロジーモデリング等によりタンパク質の立体構造を作成後、リガンドが結合するタンパク質部分を探索し、その部分にリガンドをあてはめ、分子力学法および分子動力学法等を用いてリガンドとタンパク質との相互作用エネルギーを最適化していく方法である。
【0023】
しかしながら、この方法では、リガンドが結合するタンパク質部分の推定が困難である状況に加えて、グローバルミニマムを探索するためには膨大な計算時間と資源が必要なため、ゲノムワイドな産業利用には適さないなどの問題点を有していた。
【0024】
また、こうした方法の多くは取り扱うリガンドの各原子に電価など物理化学的なパラメータを与えなければならず、リガンドの種類に制限があるという問題点も有していた。
【0025】
また、分子力学法および分子動力学法等を用いてコンピュータ上でタンパク質とリガンドとのドッキングシミュレーションを行う方法によって、グローバルミニマムを探索し、リガンドが結合した状態でのタンパク質の立体構造の構築がなされたとしても、精度の高い予測構造を得ることができない場合も多い。その原因としては、タンパク質の立体構造は柔軟であり、リガンドと結合するとそれとよく結合するようタンパク質の立体構造が変化する物理化学的性質をシミュレーション中に充分に反映していないためである。ここで、タンパク質の立体構造が柔軟であり、立体構造が変化する動的な性質のことをタンパク質の「動的挙動」という。
【0026】
これらの原因により、リガンドが結合した状態での単数鎖を含む複数鎖の予測精度の低いタンパク質立体構造を構築した場合、この構造データを利用した農薬、医薬品等の分子設計に悪影響を与えることになる。
【0027】
本発明は上記問題点に鑑みてなされたもので、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することのできるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することを目的としている。
【0028】
【課題を解決するための手段】
このような目的を達成するため、請求項1に記載のタンパク質構造予測装置は、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得手段と、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段と、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段とを備えたことを特徴とする。
【0029】
この装置によれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法(例えばFAMSなど)を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【0030】
すなわち、本装置は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【0031】
また、本装置におけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0032】
また、請求項2に記載のタンパク質構造予測装置は、請求項1に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段を備えたことを特徴とする。
【0033】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、拡張型ホモロジーモデリングの手法において、立体構造の構築に際し、単鎖及び複数鎖タンパク質の構築の際に用いた全体のエネルギーの指標となる目的関数として、リガンドの原子種類に依存しない単純で取り扱い易い平均化された「平均化パラメータ」を使用して計算された相互作用関数を加え、さらに、タンパク質の動的な性質を反映した「動的性質パラメータ」を使用して、ホモロジーモデリング時に参照するタンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する。
【0034】
これにより、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができる。
【0035】
また、これにより、従来法では取り扱うことが極めて困難であった例えばDNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になる。
【0036】
また、これにより、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となる。
【0037】
また、これにより、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現する。
【0038】
なお、このリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。また、リガンドとして全ての物質を取り扱うことができ、原理的にはその数に制限はない。
【0039】
また、請求項3に記載のタンパク質構造予測装置は、請求項1に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索手段をさらに備えたことを特徴とする。
【0040】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばCαからなる部分構造や主鎖やCβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができる。
【0041】
なお、タンパク質の立体構造データベースとして例えばプロテイン・データ・バンク(PDB)などの既存のデータベースを用いてもよい。ここで、PDB中には、タンパク質の立体構造以外にDNAや金属、薬物といった、構成原子がアミノ酸以外のリガンド分子が当該タンパク質と複合体を形成している状態で、またはタンパク質が複数含まれていて複合体を形成している状態で、立体構造が登録されている。こうしたデータベースは例えばタンパク質がDNAや金属、薬物との複合体形成の有無、タンパク質が複合体であるか否かで区別したデータベースを作成し、目的タンパク質中のリガンド有無によりデータベースを使い分けて使用している。
【0042】
このように、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができる。
【0043】
また、請求項4に記載のタンパク質構造予測装置は、請求項3に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段をさらに備えたことを特徴とする。
【0044】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになる。
【0045】
ここで、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができる。こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができる。
【0046】
また、請求項5に記載のタンパク質構造予測装置は、請求項2から4のいずれか一つに記載のタンパク質構造予測装置において、上記動的性質パラメータは、上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および/または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであることを特徴とする。
【0047】
これは動的性質パラメータの一例を一層具体的に示すものである。この装置によれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用する。
【0048】
ここで、パラメータとして取り入れるタンパク質の動的な性質は、例えば、基準振動計算法から得られる分子が時間的にピコオーダーの振動を主とする長周期の熱ゆらぎの大きさをタンパク質を構成している各原子ごとに数値化して割り当てることで、取得することができる。
【0049】
基準振動計算法を用いてのゆらぎの大きさを算出する方法は限定しないが、一例として、Wilson,E.B.,Decius,J.C.,and Cross,P. C. 1955. Molecular Vibration. McGraw−Hill.などに記載された方法を用いてもよい。
【0050】
また、本装置においては基準振動計算方法の代用として、参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータを用いている。例えばαへリックスを構成している部分はゆらぎの大きさが大きく、その部分は大きい数値のパラメータとして、ループを構成している部分はゆらぎの大きさが小さく、その部分は小さい数値のパラメータとして各原子に割り当てることで取得することができる。
【0051】
ここで、参照タンパク質の二次構造判定を行うソフトウェアとしては、例えばDSSP、STRIDE等が挙げられるが、他の方法においても適応可能である。DSSPの詳細は、Kabsch,W. & Sander,C. (1983) Dictionary of protein secondary structure:pattern recognition of hydrogen−bonded and geometrical features. Biopolimers, 22:2577−2637などに記載されている。また、STRIDEの詳細は、Frishman, D & Argos,P.(1995) Knowledge−based secondary structure assignment. Proteins: structure, function and genetics, 23, 566−579などに記載されている。
【0052】
また、請求項6に記載のタンパク質構造予測装置は、請求項1から5のいずれか一つに記載のタンパク質構造予測装置において、上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加する配列修正手段をさらに備えたことを特徴とする。
【0053】
この装置によれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正する。
例えば、一つのタンパク質の配列の終了を意味する「U」の後に、アラビア数字又はアラビア数字の数だけのZを、以下に示すように付加する。
(あるタンパク質鎖のアミノ酸配列)Uアラビア数字(又はアラビア数字の数のZ)(別のタンパク質鎖のアミノ酸配列)
【0054】
ここで、「U」がタンパク質鎖の配列の終了を意味する終止記号であり、アラビア数字またはアラビア数字の数の「Z」はリガンド存在記号である。このように複数の特別文字をリガンドの結合したタンパク質の終止記号「U」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるようになる。
【0055】
このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができる。
【0056】
また、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができる。
【0057】
また、一つのタンパク質の配列の終了を意味するUや加えるリガンドの存在の数を示す文字(一つのタンパク質の配列の終了を意味するUの後のアラビア数字又はアラビア数字の数のZ)はアミノ酸を表す1文字コード以外は別の文字を利用することできる。
【0058】
また、請求項7に記載のタンパク質構造予測装置は、請求項2から6のいずれか一つに記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算手段、
【数3】
Uligandはリガンドとタンパク質の相互作用関数
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化パラメータ
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離
をさらに備えたことを特徴とする。
【0059】
これは平均化パラメータを使用した相互作用関数の一例を一層具体的に示すものである。この装置によれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Uligandの当該計算が行われるようになる。
【0060】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Kligand =10 、ε*=0.15、 r*=2.08
(Cα座標の最適化を行う際は、ε*=0.046、 r*=1.9X ri,j +1.9 )
【0061】
これにより、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。例えば、従来のFAMSにおいては上記関数は存在せず、この方法では、Cα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のFAMSに使用されている各目的関数に、上記の新しい相互作用関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。
【0062】
この相互作用関数は物理化学でよく知られている関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0063】
また、請求項8に記載のタンパク質構造予測装置は、請求項2から7のいずれか一つに記載のタンパク質構造予測装置において、上記目的関数調整部は、上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化手段、をさらに備えたことを特徴とする。
【0064】
これはタンパク質立体構造の最適化の一例を一層具体的に示すものである。この装置によれば、参照するタンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、モデルタンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、以下の計算式からなるタンパク質の原子位置に関する関数の比例定数(Kpos)、および参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、(4)のタンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いる。
【0065】
タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)は以下の式により求める。
【数4】
Uposはタンパク質の原子位置に関するエネルギーを指標とする関数。
Kposはタンパク質の原子位置に関する関数の比例定数。(0 < Kpos < 1)
Xiは目的タンパク質のi残基目の座標。
Xi *は参照タンパク質のi残基目の座標。
【0066】
また、タンパク質の原子位置に関する関数の比例定数(Kpos)は以下の式により求める。
【数5】
Siはi番目残基のゆらぎの値を反映したパラメータ。SiはTiの値が大きいと小さくなる揺らぎに対応した定数。
MはKposを0〜1までの値にする調整因子。
【0067】
ここで、各原子iにおいて正の値を持つSiは、タンパク質のポテンシャルエネルギーが極小であるときの各原子の周辺のポテンシャルエネルギーの勾配に対応する数字であり、勾配が緩やかな時には小さい値となる。即ちゆらぎが大きいとKposは小さい値となる。
【0068】
上式に示した値は規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
【0069】
モンテカルロ法における摂動の大きさは、以下の式により求める。
【数6】
ΔYiはモンテカルロ法において目的タンパク質のi残基目の座標に加える摂動(Å)。
Xi preは摂動を加える前の目的タンパク質のi残基目の座標。
Xi pos tは摂動を加えた後の目的タンパク質のi残基目の座標。
【0070】
ΔYiは加える摂動に関する関数で以下の式に従う。
【数7】
Tiはi番目残基のゆらぎの大きさ。
PはΔYiのノルム(ベクトルの大きさ)を0より大きく5より小さい値にするよう調整しながら発生する乱数。
【0071】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔYi のノルムは大きくてもよく、従って、Kposは小さい値となる。
【0072】
上式に記した規定値、又式は変更可能な値、関数であり、本請求項の範囲を制限するものではない。
【0073】
これにより、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。この手法では、Cα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のFAMSに使用されている各目的関数に、上記の定数や関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。こうした訂正は例えば、SA法においては、タンパク質の立体構造のポテンシャルの勾配をゆらぎを反映して状態にして極小点を探索することに相当し、グローバルミニマムを探索する関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0074】
また、請求項9に記載のタンパク質構造予測装置は、請求項1から8のいずれか一つに記載のタンパク質構造予測装置において、上記リガンド座標取得手段は、上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得することを特徴とする。
【0075】
これはリガンド座標取得手段の一例を一層具体的に示すものである。この装置によれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、DNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができる。
【0076】
また、請求項10に記載のタンパク質構造予測装置は、請求項1から9のいずれか一つに記載のタンパク質構造予測装置において、上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第1機能推定手段をさらに備えたことを特徴とする。
【0077】
この装置によれば、拡張型ホモロジーモデリングの手法において、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のPDBの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができる。
【0078】
また、請求項11に記載のタンパク質構造予測装置は、請求項1から10のいずれか一つに記載のタンパク質構造予測装置において、上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第2機能推定手段をさらに備えたことを特徴とする。
【0079】
この装置によれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができる。
【0080】
また、請求項12に記載のタンパク質構造予測装置は、請求項1から11のいずれか一つに記載のタンパク質構造予測装置において、新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第3機能推定手段をさらに備えたことを特徴とする。
【0081】
この装置によれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができる。
【0082】
また、請求項13に記載のタンパク質構造予測装置は、請求項1から12のいずれか一つに記載のタンパク質構造予測装置において、上記リガンドが上記目的タンパク質以外のタンパク質であることを特徴とする。
【0083】
これはリガンドの一例を一層具体的に示すものである。この装置によれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるようになる。
【0084】
また、本発明はプログラムに関するものであり、請求項14に記載のタンパク質構造予測方法をコンピュータに実行させることを特徴とするプログラムは、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップとを含むことを特徴とする。
【0085】
このプログラムによれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法(例えばFAMSなど)を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【0086】
また、本プログラムにおけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0087】
また、請求項15に記載のプログラムは、請求項14に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整ステップを含むことを特徴とする。
【0088】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、拡張型ホモロジーモデリングの手法において、立体構造の構築に際し、単鎖及び複数鎖タンパク質の構築の際に用いた全体のエネルギーの指標となる目的関数として、リガンドの原子種類に依存しない単純で取り扱い易い平均化された「平均化パラメータ」を使用して計算された相互作用関数を加え、さらに、タンパク質の動的な性質を反映した「動的性質パラメータ」を使用して、ホモロジーモデリング時に参照するタンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する。
【0089】
これにより、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができる。
【0090】
また、これにより、従来法では取り扱うことが極めて困難であった例えばDNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になる。
【0091】
また、これにより、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となる。
【0092】
また、これにより、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現する。
【0093】
なお、このリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。また、リガンドとして全ての物質を取り扱うことができ、原理的にはその数に制限はない。
【0094】
また、請求項16に記載のプログラムは、請求項14に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索ステップをさらに含むことを特徴とする。
【0095】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばCαからなる部分構造や主鎖やCβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができる。
【0096】
なお、タンパク質の立体構造データベースとして例えばプロテイン・データ・バンク(PDB)などの既存のデータベースを用いてもよい。ここで、PDB中には、タンパク質の立体構造以外にDNAや金属、薬物といった、構成原子がアミノ酸以外のリガンド分子が当該タンパク質と複合体を形成している状態で、またはタンパク質が複数含まれていて複合体を形成している状態で、立体構造が登録されている。こうしたデータベースは例えばタンパク質がDNAや金属、薬物との複合体形成の有無、タンパク質が複合体であるか否かで区別したデータベースを作成し、目的タンパク質中のリガンド有無によりデータベースを使い分けて使用している。
【0097】
このように、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができる。
【0098】
また、請求項17に記載のプログラムは、請求項16に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更ステップをさらに含むことを特徴とする。
【0099】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになる。
【0100】
ここで、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができる。こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができる。
【0101】
また、請求項18に記載のプログラムは、請求項15から17のいずれか一つに記載のプログラムにおいて、上記動的性質パラメータは、上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および/または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであることを特徴とする。
【0102】
これは動的性質パラメータの一例を一層具体的に示すものである。このプログラムによれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用する。
【0103】
ここで、パラメータとして取り入れるタンパク質の動的な性質は、例えば、基準振動計算法から得られる分子が時間的にピコオーダーの振動を主とする長周期の熱ゆらぎの大きさをタンパク質を構成している各原子ごとに数値化して割り当てることで、取得することができる。
【0104】
基準振動計算法を用いてのゆらぎの大きさを算出する方法は限定しないが、一例として、Wilson,E.B.,Decius,J.C.,and Cross,P. C. 1955. Molecular Vibration. McGraw−Hill.などに記載された方法を用いてもよい。
【0105】
また、本プログラムにおいては基準振動計算方法の代用として、参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータを用いている。例えばαへリックスを構成している部分はゆらぎの大きさが大きく、その部分は大きい数値のパラメータとして、ループを構成している部分はゆらぎの大きさが小さく、その部分は小さい数値のパラメータとして各原子に割り当てることで取得することができる。
【0106】
ここで、参照タンパク質の二次構造判定を行うソフトウェアとしては、例えばDSSP、STRIDE等が挙げられるが、他の方法においても適応可能である。DSSPの詳細は、Kabsch,W. & Sander,C. (1983) Dictionary of protein secondary structure:pattern recognition of hydrogen−bonded and geometrical features. Biopolimers, 22:2577−2637などに記載されている。また、STRIDEの詳細は、Frishman, D & Argos,P.(1995) Knowledge−based secondary structure assignment. Proteins: structure, function and genetics, 23, 566−579などに記載されている。
【0107】
また、請求項19に記載のプログラムは、請求項14から18のいずれか一つに記載のプログラムにおいて、上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加する配列修正ステップをさらに含むことを特徴とする。
【0108】
このプログラムによれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正する。
例えば、一つのタンパク質の配列の終了を意味する「U」の後に、アラビア数字又はアラビア数字の数だけのZを、以下に示すように付加する。
(あるタンパク質鎖のアミノ酸配列)Uアラビア数字(又はアラビア数字の数のZ)(別のタンパク質鎖のアミノ酸配列)
【0109】
ここで、「U」がタンパク質鎖の配列の終了を意味する終止記号であり、アラビア数字またはアラビア数字の数の「Z」はリガンド存在記号である。このように複数の特別文字をリガンドの結合したタンパク質の終止記号「U」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるようになる。
【0110】
このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができる。
【0111】
また、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができる。
【0112】
また、一つのタンパク質の配列の終了を意味するUや加えるリガンドの存在の数を示す文字(一つのタンパク質の配列の終了を意味するUの後のアラビア数字又はアラビア数字の数のZ)はアミノ酸を表す1文字コード以外は別の文字を利用することできる。
【0113】
また、請求項20に記載のプログラムは、請求項15から19のいずれか一つに記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算ステップ、
【数8】
Uligandはリガンドとタンパク質の相互作用関数
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化パラメータ
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離
をさらに含むことを特徴とする。
【0114】
これは平均化パラメータを使用した相互作用関数の一例を一層具体的に示すものである。このプログラムによれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Uligandの当該計算が行われるようになる。
【0115】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Kligand =10 、ε*=0.15、 r*=2.08
(Cα座標の最適化を行う際は、ε*=0.046、 r*=1.9X ri,j +1.9 )
【0116】
これにより、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。例えば、従来のFAMSにおいては上記関数は存在せず、この方法では、Cα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のFAMSに使用されている各目的関数に、上記の新しい相互作用関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。
【0117】
この相互作用関数は物理化学でよく知られている関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0118】
また、請求項21に記載のプログラムは、請求項15から20のいずれか一つに記載のプログラムにおいて、上記目的関数調整部は、上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化ステップ、をさらに含むことを特徴とする。
【0119】
これはタンパク質立体構造の最適化の一例を一層具体的に示すものである。このプログラムによれば、参照するタンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、モデルタンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、以下の計算式からなるタンパク質の原子位置に関する関数の比例定数(Kpos)、および参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、(4)のタンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いる。
【0120】
タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)は以下の式により求める。
【数9】
Uposはタンパク質の原子位置に関するエネルギーを指標とする関数。
Kposはタンパク質の原子位置に関する関数の比例定数。(0 < Kpos < 1)
Xiは目的タンパク質のi残基目の座標。
Xi *は参照タンパク質のi残基目の座標。
【0121】
また、タンパク質の原子位置に関する関数の比例定数(Kpos)は以下の式により求める。
【数10】
Siはi番目残基のゆらぎの値を反映したパラメータ。SiはTiの値が大きいと小さくなる揺らぎに対応した定数。
MはKposを0〜1までの値にする調整因子。
【0122】
ここで、各原子iにおいて正の値を持つSiは、タンパク質のポテンシャルエネルギーが極小であるときの各原子の周辺のポテンシャルエネルギーの勾配に対応する数字であり、勾配が緩やかな時には小さい値となる。即ちゆらぎが大きいとKposは小さい値となる。
【0123】
上式に示した値は規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
【0124】
モンテカルロ法における摂動の大きさは、以下の式により求める。
【数11】
ΔYiはモンテカルロ法において目的タンパク質のi残基目の座標に加える摂動(Å)。
Xi preは摂動を加える前の目的タンパク質のi残基目の座標。
Xi pos tは摂動を加えた後の目的タンパク質のi残基目の座標。
【0125】
ΔYiは加える摂動に関する関数で以下の式に従う。
【数12】
Tiはi番目残基のゆらぎの大きさ。
PはΔYiのノルム(ベクトルの大きさ)を0より大きく5より小さい値にするよう調整しながら発生する乱数。
【0126】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔYi のノルムは大きくてもよく、従って、Kposは小さい値となる。
【0127】
上式に記した規定値、又式は変更可能な値、関数であり、本請求項の範囲を制限するものではない。
【0128】
これにより、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。この手法では、Cα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のFAMSに使用されている各目的関数に、上記の定数や関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。こうした訂正は例えば、SA法においては、タンパク質の立体構造のポテンシャルの勾配をゆらぎを反映して状態にして極小点を探索することに相当し、グローバルミニマムを探索する関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0129】
また、請求項22に記載のプログラムは、請求項14から21のいずれか一つに記載のプログラムにおいて、上記リガンド座標取得ステップは、上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得することを特徴とする。
【0130】
これはリガンド座標取得ステップの一例を一層具体的に示すものである。このプログラムによれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、DNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができる。
【0131】
また、請求項23に記載のプログラムは、請求項14から22のいずれか一つに記載のプログラムにおいて、上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第1機能推定ステップをさらに含むことを特徴とする。
【0132】
このプログラムによれば、拡張型ホモロジーモデリングの手法において、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のPDBの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができる。
【0133】
また、請求項24に記載のプログラムは、請求項14から23のいずれか一つに記載のプログラムにおいて、上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第2機能推定ステップをさらに含むことを特徴とする。
【0134】
このプログラムによれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができる。
【0135】
また、請求項25に記載のプログラムは、請求項14から24のいずれか一つに記載のプログラムにおいて、新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第3機能推定ステップをさらに含むことを特徴とする。
【0136】
このプログラムによれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができる。
【0137】
また、請求項26に記載のプログラムは、請求項14から25のいずれか一つに記載のプログラムにおいて、上記リガンドが上記目的タンパク質以外のタンパク質であることを特徴とする。
【0138】
これはリガンドの一例を一層具体的に示すものである。このプログラムによれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるようになる。
【0139】
また、本発明は記録媒体に関するものであり、請求項27に記載の記録媒体は、上記請求項14から26のいずれか一つに記載されたプログラムを記録したことを特徴とする。
【0140】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項14から26のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
【0141】
また、本発明はタンパク質構造予測方法に関するものであり、請求項28に記載のタンパク質構造予測方法は、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップとを含むことを特徴とする。
【0142】
この方法によれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法(例えばFAMSなど)を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【0143】
すなわち、本本法は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【0144】
また、本方法におけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0145】
また、本発明はアミノ酸配列データベースシステムに関するものであり、請求項29に記載のアミノ酸配列データベースシステムは、アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加した修正配列を格納し、上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行うことを特徴とする
【0146】
このアミノ酸配列データベースシステムによれば、任意のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、入力ファイルにリガンドの立体構造座標を単鎖を含む複数鎖タンパク質の立体構造の構築の際に使われるタンパク質のアミノ酸の入力ファイルにさらに終端記号とリガンドを表す文字記号を加え、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算を用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンドが、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することができる。
【0147】
すなわち、本発明のアミノ酸配列データベースシステムの入力形式は、従来法の入力ファイル形式に工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に加えるリガンドの存在とその数を文字(リガンド存在記号)で表記し、プログラム起動時にリガンド座標のファイル名の指定する。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【0148】
【発明の実施の形態】
以下に、本発明にかかるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0149】
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。
【0150】
まず以下に本発明の概要について説明する。ここで、好適かつ代表的な例としてホモロジーモデリング法(特に本発明者らにより開発されたFAMS等)を中心に説明するが、代表的な例として説明するものであり、本発明はこれに限定されるものではない。
【0151】
本発明は、北里大学薬学部生物分子設計学教室(梅山秀明教授)で開発した蛋白質自動モデリングシステム(FAMS: K.Ogata and H.Umeyama, Journal of Molecular Graphics and Modeling 18, 258−272, 2000)の適用範囲を拡張するものである。以下、本発明の概要をさらに詳細に説明する。
【0152】
本発明は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【0153】
本発明においては、リガンドとして取り扱うことのできる分子は、その種類や数を限定しないため、蛋白質、ペプチド、DNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なすことができる。これにより、例えば、複数鎖もしくは単数鎖タンパク質とDNAとの複合体、薬物と複数鎖もしくは単数鎖タンパク質複合体といった立体構造構築を構築することができ、従来法より適応範囲を大幅に拡大することができる。また、リガンドを別途、分子力学法または分子動力学法といった計算手法を用いて設計し、この方法に適応することで、具体的に農薬、医薬品等の分子設計を行うことができる。
【0154】
本発明のリガンドの立体構造座標の入力形式は、従来法の入力ファイル形式に工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に加えるリガンドの存在とその数を文字で表記し、プログラム起動時にリガンド座標のファイル名の指定する。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【0155】
本発明の該当タンパク質の動的挙動を反映したパラメータと関数を用いてのタンパク質立体構造の最適化方法は、タンパク質とリガンドとの相互作用計算以外にも適応でき、リガンドを含まないタンパク質の立体構造作成においても適応可能であり、この方法よって最適化された立体構造は従来法と比べて、タンパク質の動的挙動といった物理化学的性質を取り入れている点において、より精度の高い立体構造を作成することもできる。
【0156】
さらには、本発明の最適化方法を、例えば抗体−抗体といった立体構造が既存のタンパク質に適応した場合、抗原−抗体反応におけるタンパク質表面に局在する抗原部位の機能情報として、構造変化と相互作用との関係を得ることができ、機能の理解を迅速かつ正確に行うための手助けとなる。このことは、例えばこうした構造変化座標から得られる情報を利用した医薬設計等に応用するうえで、大変重要な情報となる。
【0157】
尚、本発明のタンパク質の立体構造構築方法において、その基本骨格は、タンパク質の経験的なモデリング法、特にホモロジーモデリング法或いはスレッディング法を利用するものであり、その際X線結晶構造解析等により、タンパク質の立体構造として3次元座標が決定されたものを参照すべき鋳型に用いる。但し、モデリングの対象となる目的タンパク質と参照タンパク質との間で、アミノ酸配列のホモロジーは必ずしも高いことを必要とせず、例えばE−Valueといった規定の条件を満たす全てのタンパク質を参照タンパク質として用いることができる。また、例えば、リガンドとタンパク質との相互作用界面に関してモデリングするので良ければ、必ずしも、立体構造全体について参照し得る実験構造が存在することを必要としない。
【0158】
本明細書において幾つかの用語を使用するが、特に明記しない限り、次の意味を有する。
【0159】
「目的タンパク質」とは、X線結晶解析やNMR解析等により完全な立体構造が決定されておらず、本発明において立体構造構築の対象とするタンパク質を意味する。このタンパク質のアミノ酸配列を「目的アミノ酸配列」と称することがある。この目的タンパク質には、部分構造は解析されているが完全な立体構造が得られていないもの、また、既に機能が特定されているもの、機能が推定されているもの、アミノ酸配列は決定されているが機能は全く不明のものも含まれる。
【0160】
「参照タンパク質」とはその立体構造の詳細がX線結晶解析やNMR解析により既に決定されており、アライメントや原子座標の最適化のために参照するタンパク質を意味する。
【0161】
「アライメント」とは、2種類以上のタンパク質のアミノ酸配列があった場合、相互の対応関係をつけることを意味し、その方法は以下の各ステップの説明において詳述する。
【0162】
「原子座標」とは、三次元空間上で立体構造を記述するものである。それは空間上のある点を原点とする互いに垂直な三方向の相対的な距離であり、タンパク質中に存在する水素原子を除く原子一つあたりに3個の数字からなるベクトル量である。
【0163】
図1は、本発明による複数鎖から成るタンパク質の立体構造構築法の一例を示すフローチャートである。
【0164】
図1に示す通り、この方法においては、先ず、ステップ10において、立体構造未知のタンパク質のアミノ酸配列(以下、「目的アミノ酸配列」と呼ぶ場合がある)を用意する。
【0165】
ステップ20において、FASTAまたはPSI−BLASTまたはLIBRAを用いて立体構造データベースの中から参照するタンパク質構造を選定し、選定された構造のアミノ酸配列とのアライメント(並置)を行う。
【0166】
ステップ30において、検索結果から同一起源の複数の参照タンパク質のアミノ酸配列を選択する。
【0167】
ステップ40において、目的タンパク質に結合するリガンドの座標をリガンド立体構造データベースより選択し、取得する。
【0168】
ステップ50において、単数鎖の場合は、参照タンパク質のアミノ酸配列にリガンドの存在を示し、その種類と数を表す「Z」という文字を配列をアミノ酸配列末尾に加え、同じく目的タンパク質のアミノ配列末尾に「Z」を加える。タンパク質が複数鎖の場合は各アミノ酸配列末尾に「U」という文字を区切りに入れ、リガンドの存在を示し、種類と数を表す「Z」文字を「U」の後に加える。同じく目的アミノ酸配列の対応する位置に「U」を区切り文字として、「Z」をリガンドの存在を示す記号として入れることで配列アライメントを修正する。
【0169】
ステップ60において、ステップ30で定められた参照タンパク質の動的挙動を表すパラメータを基準振動計算結果のデータベースもしくは二次構造判定計算をおこない取得する。
【0170】
ステップ70において、アライメントの情報に基づいて、アミノ酸中の構成原子の一つであるCα原子についてステップ30において定められた参照構造から座標をリガンドの有無によって振り分けられたデータベース、参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースから取得し、ステップ60において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数(ECα)に定数としてセッティングを行い、シミュレーティッドアニーリング法によって目的関数(ECα)を最小化するようにCαの原子座標を最適化する。
【0171】
ステップ80において、ステップ70で得られたCα座標に主鎖原子座標をリガンドの有無によって振り分けられたデータベースさらには参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースより付加し、ステップ60において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数(Emain)に定数としてセッティングを行い、シミュレーティッドアニーリング法によって目的関数(Emain)を最小化するように主鎖原子座標を最適化する。
【0172】
ステップ90において、ステップ80で得られた主鎖原子座標に側鎖座標をリガンドの有無によって振り分けられたデータベースさらには参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースより付加し、ステップ60において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数(Eside)に定数としてセッティングを行い、ステップ70と同様のシミュレーティッドアニーリング法によって立体構造の構築を行う。ステップ100において、出来上がったモデルの立体構造上の妥当性を検査し、最終構造に至る。
【0173】
本発明では、従来は単数鎖もしくは複数鎖の参照構造を用いた構造最適化しかできなかったステップ70、80及び90を修正し、かつステップ60を加えることで、リガンドが結合した状態での単数鎖を含む複数鎖の立体構造にも対応できるようにしたことが従来のFAMSと異なる点である。
【0174】
[システム構成]
まず、本システムの構成について説明する。図2は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、タンパク質構造予測装置100と、アミノ酸配列情報や構造情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
【0175】
図2においてネットワーク300は、タンパク質構造予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
【0176】
図2において外部システム200は、ネットワーク300を介して、タンパク質構造予測装置100と相互に接続され、利用者に対してアミノ酸配列情報や構造情報等に関する外部データベースやホモロジー検索やモチーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。
【0177】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【0178】
図2において100は、概略的に、タンパク質構造予測装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、このタンパク質構造予測装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
【0179】
記憶部106に格納される各種のデータベースやテーブル(アミノ酸配列データファイル106a〜リガンド座標データファイル106c)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0180】
これら記憶部106の各構成要素のうち、アミノ酸配列データファイル106aは、アミノ酸配列を格納したデータベースである。アミノ酸配列データファイル106aは、インターネットを経由してアクセスする外部のアミノ酸配列データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの配列情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0181】
このアミノ酸配列データファイル106aに格納される情報は、タンパク質を一意に識別するための識別情報、タンパク質の各種の属性に関する属性情報、アミノ酸配列データ(なお、後述する配列修正部102dの処理により、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加され、および/または、リガンドの存在を示すリガンド存在記号を付加された修正配列であってもよい)等を相互に関連付けて構成されている。
【0182】
また、タンパク質構造データファイル106bは、タンパク質の立体構造に関する立体構造情報等を格納するタンパク質構造データ格納手段である。タンパク質構造データファイル106bは、インターネットを経由してアクセスする外部のタンパク質構造データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの構造情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0183】
このタンパク質構造データファイル106bに格納される情報は、タンパク質や複合体を一意に識別するための識別情報、タンパク質や複合体の各種の属性に関する属性情報、タンパク質や複合体の立体構造データ等を相互に関連付けて構成されている。
【0184】
また、リガンド座標データファイル106cは、リガンドの座標に関するリガンド座標情報等を格納するリガンド座標データ格納手段である。リガンド座標データファイル106cは、インターネットを経由してアクセスする外部のリガンド座標データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの座標情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0185】
このリガンド座標データファイル106cに格納される情報は、リガンドを一意に識別するための識別情報、リガンドの各種の属性に関する属性情報、リガンド座標データ等を相互に関連付けて構成されている。
【0186】
また、図2において、通信制御インターフェース部104は、タンパク質構造予測装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
【0187】
また、図2において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【0188】
また、図2において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、目的アミノ酸配列取得部102a、リガンド座標取得部102b、拡張型ホモロジーモデリング部102c、配列修正部102d、第1機能推定部102e、第2機能推定部102f、および、第3機能推定部102gを備えて構成されている。
【0189】
このうち、目的アミノ酸配列取得部102aは、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得手段である。
【0190】
また、リガンド座標取得部102bは、目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段である。
【0191】
ここで、リガンド座標取得部102bは、参照タンパク質のプロテイン・データ・バンク(PDB)(外部システム200の提供する外部データベースの一種)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベース(外部システム200の提供する外部データベースの一種)から検索したリガンド座標から当該リガンドの立体構造座標を取得してもよい。
【0192】
また、拡張型ホモロジーモデリング部102cは、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、目的タンパク質とリガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段である。
【0193】
ここで、図3は、拡張型ホモロジーモデリング部102cの構成の一例を示すブロック図である。拡張型ホモロジーモデリング部102cは、図3に示すように、目的関数調整部102h、参照タンパク質検索部102i、参照タンパク質構造変更部102j、相互作用関数計算部102kを含んで構成される。
【0194】
図3において、目的関数調整部102hは、目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段である。
【0195】
ここで、図4は、目的関数調整部102hの構成の一例を示すブロック図である。目的関数調整部102hは、図4に示すように、最適化部102mを含んで構成される。
【0196】
図4において、最適化部102mは、参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化手段である。
【0197】
再び図3に戻り、参照タンパク質検索部102iは、リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベース(例えば、PDBなどの外部システム200の提供する外部データベースや、内部のアミノ酸配列データファイル106aまたはタンパク質構造データファイル106b)から参照タンパク質を検索する参照タンパク質検索手段である。
【0198】
また、参照タンパク質構造変更部102jは、参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段である。また、参照タンパク質構造変更部102jは、この変化させた座標をタンパク質構造データファイル106bに格納する手段である。
【0199】
また、相互作用関数計算部102kは、平均化パラメータを使用した目的タンパク質とリガンドとの相互作用関数を以下の計算式により計算する相互作用関数計算手段である。
【数13】
Uligandはリガンドとタンパク質の相互作用関数
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化パラメータ
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離
【0200】
再び図2に戻り、配列修正部102dは、目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加する配列修正手段である。また、配列修正部102dは、修正された修正配列をアミノ酸配列データファイル106aに格納する修正配列格納手段である。
【0201】
また、第1機能推定部102eは、参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第1機能推定手段である。
【0202】
また、第2機能推定部102fは、リガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第2機能推定手段である。
【0203】
また、第3機能推定部102gは、新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第3機能推定手段である。
【0204】
なお、これら各部によって行なわれる処理の詳細については、後述する。
【0205】
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に再び図1〜図4を参照して詳細に説明する。
【0206】
以下、図1に示すフローチャートの各ステップについて、図2〜図4を参照して更に詳細に説明する。
【0207】
(ステップ10:構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得)
先ず、タンパク質構造予測装置100は、目的アミノ酸配列取得部102aの処理により、アミノ酸配列データファイル106aまたは外部システム200の外部データベースを参照して、構造未知の目的タンパク質(単数を含む複数鎖から成る、リガンドが結合した状態での立体構造予測対象タンパク質)のアミノ酸配列を取得する(ステップSA−1)。ここで、目的タンパク質のアミノ酸配列を「目的アミノ酸配列」という。
【0208】
ここで用いられる目的タンパク質のアミノ酸配列としては、データベースに登録されているもの、配列が始めて解析されたもの等如何なる由来の配列であってもよい。また部分構造のみが解析されているタンパク質の配列も完全な立体構造の情報を得るために、本発明における立体構造の構築対象とすることができる。
【0209】
また、目的タンパク質のアミノ酸配列を用意するために用いられるデータベースとしては、例えば、”An Internet review: the complete neuroscientist scours the World Wide Web.” Bloom FE, Science 1996; 274(5290):1104−9に詳細が記載されているGCRDb(The G−protein−coupled Receptor Database) : HYPERLINK ”http://www.gcrdb.uthscsa.edu/” http://www.gcrdb.uthscsa.edu/、GPCRDB: HYPERLINK ”http://www.gpcr.org/7tm/” http://www.gpcr.org/7tm/、ExPASy: HYPERLINK ”http://www.expasy.ch/cgi−bin/sm−gpcr.pl” http://www.expasy.ch/cgi−bin/sm−gpcr.pl、ORDB: HYPERLINK ”http://ycmi.med.yale.edu/senselab/ordb/” http://ycmi.med.yale.edu/senselab/ordb/、GeneBank: HYPERLINK ”ftp://ncbi.nlm.nih.gov/genbank/genomes/” ftp://ncbi.nlm.nih.gov/genbank/genomes/、PIR: http://www−nbrf.georgetown.edu/pir/(National Biomedical Research Foundation(NBRF))、Swiss Plot: http://www.expasy.ch/sprot/sprot−top.html(Swiss Institute of Bioinformatics(SIB), European Bioinfomatics Institute(EBI))、TrEMBL(URL及び管理者ともにSwiss Plotと同じ)、TrEMBLNEW(URL及び管理者ともにSwiss Plotと同じ)、DAD: ftp://ftp.ddbj.nig.ac.jp(日本DNAデータバンク)等のデータベースに登録されているヒト(H. sapiens)、ショウジョウバエ(D. melanogaster)、線虫(C. elagans)、酵母(S. cerevisiae)、シロイヌナズナ(A. thaliana)等を挙げることができる。これらのデータベースは単なる例示であり、タンパク質のアミノ酸配列が登録されているものであれば如何なるデータベースを用いることもできる。
【0210】
(ステップ20:FASTA, PSI−BLAST, LIBRA等のアライメントソフトによる参照アミノ酸配列のデータベース検索及び配列アライメント)
ついで、タンパク質構造予測装置100は、参照タンパク質検索部102iの処理により、ステップ10において取得された目的アミノ酸配列に対して、参照タンパク質のアミノ酸配列とアライメントを行う。ここで、参照タンパク質のアミノ酸配列を「参照アミノ酸配列」という。
【0211】
アライメントを行うソフトウエアとしては、例えばFASTAもしくはPSI−BLAST(Position−Specific Iterated BLAST)もしくはLIBRAを使うのが好ましい。
【0212】
FASTAは目的アミノ酸配列と一致度の高い配列を立体構造データベースから探索し、最終的な目的アミノ酸配列と参照タンパク質との一致度をe値として算出するプログラムである。FASTAの詳細は”Effective protein sequence comparison.” Pearson WR, (1996) Methods Enzymol;266:227−58に記載されている。
【0213】
PSI−BLASTはプロファイルアライメントを行うようにプログラムされている。PSI−BLASTの詳細は、”Matching a protein sequence against a collection of PSI−BLAST−constructed position−specific score matrices.” Schaffer AA, Wolf YI, Ponting CP, Koonin EV, Aravind L and Altschul SF, Bioinformatics 1999, 12, 1000−11に記載されている。
【0214】
プロファイルアライメントを実行するPSI−BLASTは配列の類似度を検出することについて、現時点で最高の性能を備えたツールである。このプログラムは、プロファイルのデータベース中の有意なアライメント関係のみから情報を引き出し、アミノ酸配列の部位特異的スコア行列を作成する。次にプログラム内部では目的タンパク質の配列の替わりに作成された部位特異的スコア行列と一致度の高い配列をデータベースから探索し、その部位特異的スコア行列はより有意なアライメントが検出されなくなるまで回数を重ねる毎に逐次更新されてゆく。そして最終的な部位特異的スコア行列と参照タンパク質との一致度をE valueとして算出する。E valueとは配列間の適合の間に存在するランダムなバックグラウンドノイズを定量的に記述したものである。それは二つの配列がどれだけマッチしているかを示すものでもありスコアに対し指数関数的に減少する性質を持ち、結果の有意な閾値を設定する方法として有用である。
【0215】
本発明においては、そのアライメントが、通常98%以上、好ましくは99%以上の信頼性を持つとき、目的タンパク質の立体構造を作成するように判断するのが適当である。PSI−BLASTにおいては、E valueが、統計的に通常0.1以下、好ましくは0.01以下の値を持つときがそれに相当する。
【0216】
これらにより立体構造データベースPDBから参照タンパク質をホモロジー検索し、検索された参照アミノ酸配列と目的アミノ酸配列との配列アライメントを行う。
【0217】
ここで参照タンパク質は、例えば、立体構造データベースから取得される配列と座標のデータベースであるプロテインデータバンク(PDB)等の公共データベースから得られるものである。
【0218】
なお、PDBのデータベースには2002年2月現在で26243個の立体構造が登録されているが、95%以上の配列の一致度があるものは同じカテゴリーと判断し、カテゴリー中からもっとも長い配列のものを、更に同じ長さの場合はX線の分解能の最も高い構造をそのカテゴリーの代表とした。本発明で用いた立体構造データベースはこの代表を集めたデータベースである。本発明時点においては、3922個の代表構造をPDBデータベースとして用いている。
【0219】
(ステップ30:検索結果から、目的タンパク質と同一起源の参照タンパク質のアミノ酸配列を選択)
ついで、タンパク質構造予測装置100は、参照タンパク質検索部102iの処理により、ホモロジー検索の結果から、目的アミノ酸配列に対して複数の同一起源である参照タンパク質のアミノ酸配列とのアライメント結果を選択する。
【0220】
(ステップ40:リガンド座標の選択と取得)
ついで、タンパク質構造予測装置100は、リガンド座標取得部102bの処理により、目的タンパク質と結合するリガンドを選択し、当該リガンドの立体構造座標を取得する。
【0221】
当該リガンドおよびその座標は、ステップ30により選択した参照タンパク質と結合した場合のデータから選択することが好ましいが、別途、分子力学法または分子動力学法を用いてリガンド座標を作成し用いてもよく、さらに既存のリガンドデータベースから取得したリガンド座標を用いてもよい。
【0222】
また、選択するリガンドの種類、数は限定しない。
【0223】
(ステップ50:配列アライメントの修正:単数鎖を含む複数鎖の各アミノ酸配列末尾に終止記号(例えば「U」)と、リガンドの存在を示すリガンド存在記号(例えば「Z」)を付加)
ついで、タンパク質構造予測装置100は、配列修正部102dの処理により、単数鎖を含む複数鎖の各アミノ酸配列末尾に終止記号(例えば「U」)と、リガンドの存在を示すリガンド存在記号(例えば「Z」)を付加する。
【0224】
すなわち、ステップ30により、目的アミノ酸配列が同一起源の単数または複数のタンパク質鎖とアライメントされた場合、従来はリガンドの存在を考慮せずモデリングを行っていたが、本発明では、単数鎖の場合は、参照タンパク質のアミノ酸配列にリガンドの存在を示し、その種類と数を表す「Z」という文字を配列をアミノ酸配列末尾に加え、同じく目的タンパク質のアミノ配列末尾に「Z」を加える。
【0225】
タンパク質が複数鎖の場合は各アミノ酸配列末尾に、一方単数鎖の場合はアミノ酸配列の末尾に「U」という文字を区切りに入れ、リガンドの存在を示し、種類と数を表す「Z」文字を「U」の後に加える。同じく目的アミノ酸配列の対応する位置に「U」を区切り文字として、「Z」をリガンドの存在を示す記号として入れることで配列アライメントを修正する。
【0226】
以下に、配列アライメントの修正の一例を以下に示す。
【0227】
(第1の例)
複数鎖(2つ)の参照タンパク質の第1タンパク鎖について、一つのリガンドが結合している場合には、「UZ」又は「U1(ここで「1」はリガンド存在記号「Z」の数を示す)」として記述する。なお、以下の例において、『A・・・A』の部分は第1タンパク鎖のアミノ酸配列を、また、『R・・・・R』の部分は第2タンパク鎖のアミノ酸配列を示している。
>目的タンパク質
AAAAAAAAAAAAAAAUZRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
>参照タンパク質
AAAAAAAAAAVVAAAUZRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
【0228】
ここで、(U)は最後のタンパク質鎖の後のUは省略も可能を意味する。
【0229】
(第2の例)
複数鎖(2つ)の参照タンパク質の第1タンパク鎖について、二つのリガンドが結合している場合には、「UZZ」又は「U2(ここで「2」はリガンド存在記号「Z」の数を示す)」として記述する。
>目的タンパク質
AAAAAAAAAAAAAAAUZZRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
>参照タンパク質
AAAAAAAAAAVVAAAUZZRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
【0230】
ここで、(U)は最後のタンパク質鎖の後のUは省略も可能を意味する。
【0231】
(第3の例)
複数鎖(2つ)の参照タンパク質の第2タンパク鎖について、リガンドが2つ結合している場合には、「UZZ」又は「U2(ここで「2」はリガンド存在記号「Z」の数を示す)」として記述する。
>目的タンパク質
AAAAAAAAAAAAAAAURRRRRRRRRRRRRRRRRRRRRRRRRRUZZ
>参照タンパク質
AAAAAAAAAAVVAAAURRRRRRRRRRRRRRRRRRRRRRRRRRUZZ
【0232】
(第4の例):なお、リガンドの無いときの複数鎖タンパク質モデリングの場合は、以下のように記述する。
>目的タンパク質
AAAAAAAAAAAAAAAURRRRRRRRRRRRRRRRRRRRRRRRRR(U)
>参照タンパク質
AAAAAAAAAAVVAAAURRRRRRRRRRRRRRRRRRRRRRRRRR(U)
【0233】
ここで、(U)は最後のタンパク質鎖の後のUは省略も可能を意味する。
【0234】
このようにリガンドが結合した状態での単数鎖を含む複数鎖の全てのタンパク質を同時にモデリングするためのアライメントを準備する。
【0235】
(ステップ60:目的タンパク質の動的挙動を表すパラメータの取得)
まず、タンパク質構造予測装置100は、目的関数調整部102hの処理により、ステップ30で定められた参照タンパク質の動的挙動を表すパラメータを基準振動解析法による計算結果のデータベースもしくは二次構造判定計算をおこない取得する。
【0236】
まず、目的関数調整部102hによる、基準振動解析法によるタンパク質の動的挙動を表すパラメータ取得方法について下記に示す。
【0237】
「基準振動解析法」とは、ポテンシャルエネルギーを変位の二次関数として近似し、運動方程式を厳密に解き、最適化構造の周りの微小な振動を解析する方法を意味する。解くべき運動方程式は下記式(1)または(2)である。
【数14】
である。
【0238】
また、ωkは固有値、Uikは固有ベクトルであり、δijはクロネッカーのデルタである。TijとVijはそれぞれ運動エネルギーEkとポテンシャルエネルギーVに関係し、下記式(3)および(4)の通りである。
【数15】
【0239】
ここで、qiは振動の自由度に対応した座標、qi 0は最適化座標、はqiの時間による微分である。Ajkは集団運動Qkと個々の原子運動qjを結ぶ係数であり、下記式(5)の通りである。
【数16】
である。
ここで、αkとδkは初期条件で定められる。
【0240】
上記した基準振動解析法の詳細はWilson,E.B.,Decius,J.C.,and Cross,P. C. 1955. Molecular Vibration. McGraw−Hill.に記載されている。
参照タンパク質に対して、上記で得られた固有値、固有ベクトルを用いて、ある温度・ある固有値での各Cα原子の位置ゆらぎを計算し、このゆらぎの値をCαが含まれるアミノ酸のゆらぎの値とする。目的タンパク質の各アミノ酸のゆらぎの値は、ステップ50におけるアライメントを利用して、目的アミノ酸配列と参照配列の比較から対応するアミノ酸残基ペアにおいて、目的タンパク質のゆらぎの値として参照タンパク質と同一のものを当てはめておく。ゆらぎの値を求められなかったものについては、予め設定しておいた値をあてはめる。こうして得た目的タンパク質の各アミノ酸のゆらぎの値を目的タンパク質の動的な挙動を表すパラメータとする。
【0241】
次に、目的関数調整部102hによる、二次構造判定計算によるタンパク質の動的挙動を表すパラメータ取得方法について下記にしめす。
【0242】
二次構造判定はタンパク質の立体構造座標から計算される。ソフトウェアとしては、例えば、「DSSP(Dictionary of protein secondary structure of protein)」、「STRIDE(Protein secondary structure assignment from atomic coordinate)」等が好ましいが、基本的にはタンパク質の主鎖のねじれ角と水素結合パターンから判別される方法を用いる。
【0243】
ここで、「DSSP」とは、PDB書式のファイルを入力ファイルとして、主鎖の水素結合パターンと、内部回転角等を解析しαへリックスとβシートとを判定するソフトウェアである。DSSPの詳細は、Kabsch,W. & Sander,C. (1983) Dictionary of protein secondary structure:pattern recognition of hydrogen−bonded and geometrical features. Biopolimers, 22:2577−2637に記載されている。
【0244】
また、「STRIDE」とは、PDB書式のファイルを入力ファイルとして、主鎖の水素結合パターンと、内部回転角等を解析しαへリックスとβシートとを判定するソフトウェアである。STRIDEの詳細は、Frishman, D & Argos,P.(1995) Knowledge−based secondary structure assignment. Proteins: structure, function and genetics, 23, 566−579に記載されている。
【0245】
参照タンパク質に対して、上記ソフトウェア等を用いて、二次構造計算を行い、各アミノ酸がとるαへリックス構造、βシート構造、ループ構造を判定する。目的タンパク質の各アミノ酸の二次構造は、ステップ50におけるアライメントを利用して、目的アミノ酸配列と参照配列の比較から対応するアミノ酸残基ペアにおいて、目的タンパク質の二次構造判定として参照タンパク質と同一のものを当てはめておく。二次構造判定を求められなかったものについては、予め設定しておいた結果をあてはめる。こうして得た目的タンパク質の各アミノ酸の二次構造判定結果を目的タンパク質の動的な挙動を表すパラメータとする。
【0246】
また、上記の目的タンパク質の動的挙動を表すパラメータとしては、参照タンパク質の基準振動解析法より取得した結果を用いることが好ましく、当該計算結果は別途データベースとして保存されているものを使用する。二次構造判定計算結果は、好ましくは、基準振動解析が行われていない参照タンパク質を用いる際に基準振動解析計算の代用として使用する。
【0247】
(ステップ70:目的タンパク質のCα原子の初期座標の構築及び最適化)
ついで、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、ステップ40による配列アライメントの結果を受けて、目的アミノ酸配列について、参照アミノ酸配列と比較して挿入および欠損のあるアミノ酸残基についての情報を得る。
【0248】
そして、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、配列アライメントにおいて連続して三残基以上のアミノ酸が対応しているギャップの無い領域を選び出し、その領域においては、これらの残基ペアにおいて、目的タンパク質のCα原子は参照タンパク質と同一のものを用いる。もしくは、タンパク質構造予測装置100は、参照タンパク質構造変更部102jの処理により、ステップ60で行った参照タンパク質の基準振動解析計算結果から得られる固有ベクトルを参照タンパク質の原子座標に加え、この変位させた原子座標からなる立体構造(構造変位立体構造)をもとめ、目的タンパク質のCα座標として当てはめておく。
【0249】
このようにしてCα原子が求められなかった場合には、PDBから予め作成した、リガンドの有無により分けた、Cα原子からなるペプチド断片のデータベース(K.Ogata and H.Umeyama, Journal of Molecular Graphics and Modeling 18,
258−272,2000参照)から座標を当てはめる。
【0250】
配列アライメントにおいてリガンドの存在を示す「Z」が記述してある場合は、リガンドを有するPDBの登録複合体構造データから作成した断片データベースを用い、「Z」が記述してない場合はリガンドを有さないPDBの構造データから作成した断片データベースを用いる。
【0251】
本明細書において「Cα原子」は、各アミノ酸の骨格の中心となる炭素原子を意味する。
【0252】
また、「Cβ原子」は、Cα原子の側鎖側に結合する炭素原子を意味する。
【0253】
また、「C原子」とは、Cα原子に結合するカルボニル基の炭素原子を意味する。
【0254】
次に、参照タンパク質構造変更部102jによる、参照タンパク質の基準振動解析計算結果から得られる参照タンパク質の構造変位立体構造座標を生成する方法を示す。その詳細は、先に出願されたPCT出願WO02/057954号の明細書に詳細に記載されている。
【0255】
上記式(1)〜(5)で得られた固有値、固有ベクトルを用いて、ある温度・ある固有値でのCα原子の「位置ゆらぎ」を計算する。ここで、固有値の数と等しい位置ゆらぎが得られる。参照タンパク質のCα原子の温度因子を位置ゆらぎに換算し、各Cα原子について基準振動解析法の位置ゆらぎとの比を計算し、平均の比を求める。この平均の比は、使用した固有値の数だけあり、この比を掛けたこの固有値に属する固有ベクトルを参照タンパク質の原子座標に加え、この変位させた原子座標からなる立体構造を変位立体構造の1つとする。さらに平均の比を2倍して同様に参照タンパク質の変位立体構造を作成する。固有ベクトルには順・逆の方向があり、固有ベクトルに−1を掛けた逆方向にも同様に変化させる。すなわち、変位構造には使用した固有値の数の4倍だけある。算出する式は下記式(6)〜(10)のとおりである。
【0256】
温度因子と位置ゆらぎの関係は下記式(6)のとおりである。
【数17】
ここで、BiはPDBファイルから得られる原子の温度因子であり、πは円周率、Diは位置ゆらぎに相当する。
【0257】
基準振動法から得られる位置ゆらぎとPDBファイルの温度因子を換算した位置ゆらぎの比は下記式(7)のとおりである。
【数18】
ここでFivは基準振動解析法から得られるv番目の固有値に対するi番目の原子の位置ゆらぎである。
【0258】
比の平均は下記式(8)のとおりである。
【数19】
ここでNは原子数であり、和は原子に対して行う。Mvはv番目の固有値に対する平均の比である。
【0259】
参照タンパク質立体構造の変位構造原子座標は下記式(9)および(10)のとおりである。
【数20】
ここで、Cik 0は参照タンパク質の原子座標、Vik vはv番目の固有値に属する固有ベクトル成分をあらわす。
【0260】
参照タンパク質変位座標はPDBに登録されている座標に対して行い、データベースを作成して使用する。
【0261】
目的タンパク質のCα原子構築には、上記で作成したデータベースを全て用いるが、ステップ40で選択したリガンドと目的タンパク質との立体的な衝突が少ない座標を用いることが好ましい。
【0262】
(ステップ70(1):Cα原子のシミュレーティッドアニーリング法による最適化)
ついで、タンパク質構造予測装置100は、目的関数調整部102hの処理により、上記ステップ70で作成されたCα原子について、シミュレーティッドアニーリングのプロセスを用いて参照タンパク質の座標から構成される関数を用いて最適化する。
【0263】
この目的関数は下記式(11)のとおりである。従来法と本発明の重要な違いの1つは、(11)式中のステップ40で取得したリガンドと、目的タンパク質との相互作用ポテンシャルであるUligandを新たに加え、Cα原子の位置に関するポテンシャルであるUposとUligandを、ステップ50で所得した参照タンパク質の動的な性質を表すパラメータによって下記のように修正した点である。
【数21】
【0264】
Elenは、配列上隣り合う残基のCα原子間の距離に関するもので下記式(12)のように設定される。
【数22】
【0265】
ここでDi,i+1は残基i と残基i+1のCα間距離である。Kl は定数であり2と設定される。但し、1番目のタンパク質鎖のC末端残基k1と2番目のタンパク質鎖のN末端残基k1 +1の間には化学結合が存在しないので、i = k1の場合はElenの計算に含めない。同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、i = kNの場合はElenの計算に含めない(以下、このような操作を相互作用の切断と呼ぶ。)。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ50で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0266】
次に、EangはCα原子の結合角の関数であり下記式(13)のとおりである。
【数23】
【0267】
ここで、 θi (rad)は i, i+1, i+2番目の残基Cα原子の角度である。θ0はPDBのX線構造から(100/180)π(rad)と設定される。Kaは定数であり
1とする。但し、結合角のポテンシャルEangについてもElenと同様の切断操作を行う。即ち、i = kN −1及びi = kNの場合は、Eangの計算に含めない。この切断操作の範囲とk1からkM−1までの残基番号の指定はElenの場合と同様に行う。
【0268】
次にEvdwはCα原子間のファンデルワールスポテンシャルで、下記式(14)のとおりである。
【数24】
【0269】
但し、1番目のタンパク質鎖のC末端残基k1と2番目のタンパク質鎖のN末端残基k1 +1の間には化学結合が存在しないので、i =U1−1ならj > i+1, i = U1ならj > iという条件でEvdwの計算を行わなければならない。同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、i = UN−1ならj > i+1, i = UUNならj > iという条件で同様にEvdwの計算を行わなければならない。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ50で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0270】
次に、Essは対となってS−S結合を構成するCys残基のCα原子間の距離に関するもので下記式(15)のように設定される。
【数25】
【0271】
ここでDi SSは、タンパク質鎖内およびタンパク質鎖間でジスルフィド結合を形成するCys残基のペア同士のCα間距離である。本発明では、残基番号iには全タンパク質鎖にわたる通し番号を用いるため、タンパク質鎖間のEssを従来法のポテンシャル関数で扱うことができる。KSS は定数であり5と設定される。
【0272】
次に、Upos,はCα原子の位置に関する関数であり、下記式(16)のとおりである。
【数26】
【0273】
ここで、Uposはタンパク質の原子位置に関するエネルギーを指標とする関数であり、Kposはタンパク質の原子位置に関する関数の比例定数である(0 < Kpos < 1)。
【0274】
また、Xiは目的タンパク質のi残基目の座標であり、Xi *は参照タンパク質のi残基目の座標である。
【0275】
タンパク質の原子位置に関する関数の比例定数(Kpos)は、下記式(17)のように設定される。
【数27】
Siはi番目残基のゆらぎの値を反映したパラメータであり、SiはTiの値が大きいと小さくなる揺らぎに対応した定数である。
MはKposを0〜1までの値にする調整因子である。
【0276】
また、モンテカルロ法における摂動の大きさは、下記式(18)のように設定される。
【数28】
ここで、ΔYiはモンテカルロ法において目的タンパク質のi残基目の座標に加える摂動(Å)である。
Xi preは摂動を加える前の目的タンパク質のi残基目の座標である。
Xi pos tは摂動を加えた後の目的タンパク質のi残基目の座標である。
【0277】
ΔYiは加える摂動に関する関数で、以下の式(19)に従う。
【数29】
Tiはi番目残基のゆらぎの大きさである。
PはΔYiのノルム(ベクトルの大きさ)を0より大きく5より小さい値にするよう調整しながら発生する乱数である。
【0278】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔYi のノルムは大きくてもよく、従って、Kposは小さい値となる。
【0279】
上記式(17)、(19)において、ステップ60で取得した参照タンパク質の動的な性質を表すパラメータをSi、Tiにセットする。
【0280】
具体例を挙げると、基準振動解析法によって動的な性質を表すゆらぎの値のパラメータを用いた場合は、まず、目的タンパク質の各アミノ酸のゆらぎの値の大きさに従い、ゆらぎの値が大きいアミノ酸残基にはKposが0に近づくように、ΔYYが5に近づくようにする。一方、ゆらぎの値が小さいアミノ酸残基にはKposが1に近づくように、ΔY が0に近づくようにSiとM、PとTに値をセットする。
【0281】
また、二次構造判定を用いた場合は、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造であると判定されたアミノ酸残基にはKposが0に近づくように、ΔYが5に近づくようにする。一方、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造以外と判定されたアミノ酸残基にはKposが1に近づくように、ΔY が0に近づくようにSiとMとPとTiに値をセットする。
【0282】
また、Uligandは、リガンドと目的タンパク質との相互作用ポテンシャルに関する関数であり、下記式(20)のとおりである。
【数30】
Uligandはリガンドとタンパク質の相互作用関数を表す。
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化されたパラメータである。
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離である。
【0283】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
ε*=0.046、 r*=1.9X ri,j +1.9
Cα原子は式(11)に従って、シミュレーティッドアニーリング法を用いて最適化される。この最適化の段階でCα原子の摂動は1.0 Å以内になるように設定する。またこのアニーリングの段階は全てのCα原子について例えば100回づつ計算される。そして、温度に相当するパラメータは、例えば25から0.5回ごとに0.01減らすようし、そのパラメータは以後一定とする。
【0284】
この大きな2つの段階、構造情報の取得とCα原子の構築は例えば10回繰り返され、最小の目的関数値をもつCα原子の座標が最適解として算出される。
【0285】
(ステップ80:主鎖原子座標の構築及び最適化)
ついで、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、ステップ70(1)のCαの原子座標に主鎖の他の原子を付加し、シミュレーティッドアニーリング法によって目的関数を最小化するようにする。
【0286】
まず、Cα原子の立体的な重ねあわせを行い、Cαの原子間距離が2.5Å以下の残基が取り上げられる。Cαを除く主鎖の原子座標はCα原子間距離が最小になるように参照タンパク質の座標から取得しモデル構造とする。
【0287】
参照タンパク質の中に相当する残基が無い場合、主鎖の原子座標はリガンドの有無によりわけたデータベースを用いて、例えば目的タンパク質中のリガンドを含まれている場合は、リガンドがある場合のデータベース中の相当する4残基のタンパク質断片から作成される。
【0288】
目的タンパク質中にリガンドがない場合は、リガンドがない4残基のタンパク質断片のデータベースを使用する。この過程の中で、残基iの主鎖原子はi−1番目からi+2番目までのCα原子間の最小のrmsd値を持つ残基から選ばれる。その際N末端の残基では、Cα原子座標の重ね合わせ範囲がi番目からi+3番目までとなり、C末端の残基およびそのひとつ前の残基では同様にi−3番目からi番目までおよびi−2番目からi+1番目までとなる。
【0289】
主鎖原子の目的関数を基にシミュレーティッドアニーリング法によって主鎖原子座標が最適化される。目的関数は下記式(21)のとおりである。従来法と本発明の重要な違いの1つは、(21)式中のステップ40で取得したリガンドと目的タンパク質との相互作用ポテンシャルであるUligandを新たに加え、Cα原子の位置に関するポテンシャルであるUposとUligandをステップ50で所得した参照タンパク質の動的な性質を表すパラメータによって下記のように修正した点である。
【数31】
【0290】
Ebondは下記式(22)のとおりである。
【数32】
i = UN(N=1,,M−1) かつbi = DCi,Ni+1ならbi − bi 0= 0 (22)
【0291】
ここでbi 0は、標準の結合長であり、それぞれの化学結合の種類によって異なる。Kbは定数であり225とする。Ebondの計算に関しても、CαにおけるElenの計算と同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、Ebondの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0292】
Eangは結合角の関数で、下記式(23)のとおりである。
【数33】
【0293】
ここでθi 0は、標準の結合角であり、それぞれの結合角の種類によって異なる。Kaは定数で45と設定される。Eangの計算に関しても、Ebondの計算と同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、Eangの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0294】
Etorは主鎖のねじれ角のものであり、下記式(24)のとおりである。
【数34】
i = UN(N=1,,M−1) なら ψI − ψi 0 = ωi − ωi 0 = φi+1 − φi+1 0= 0 (24)
【0295】
ここでφi 0とψi 0はRamachandranマップ上での最も近いねじれ角のφi およびψi とする。またωi 0は0としてcis−Pro残基の場合のみπ(rad)とする。KtおよびKωは定数であり、それぞれ10および50とする。Etorの計算に関しても、Eangの計算と同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、Etorの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0296】
Enon−bondは非結合の相互作用の関数で、下記式(25)のとおりである。
【数35】
【0297】
ここでεij と rij* は定数で原子の種類によって異なる。Knonは定数で0.25とし、カットオフ値は8Åとする。Enon−bondの計算に関しても、CαにおけるEvdWの計算と同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、 i = UN(N=1,,M−1) のときは [rNi,Ni+1; rCαi,Ni+1; rCαi,Cαi+1; rCi,Ni+1; rCi,Cαi+1; rCi,Cβi+1; rCi,Ci+1; rOi,Ni+1 ; rOi,Cαi+1] に属するrij が8Å以下であれば、新たにEnon−bondの計算に含めなければならない。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0298】
ESSはCys残基が生成するジスルフィド結合の関数で、下記式(26)のとおりである。
【数36】
ここでDi C αおよびDi C βは、タンパク質鎖内およびタンパク質鎖間でジスルフィド結合を形成するCys残基のペア同士のCα間およびCβ間距離である。本発明では、残基番号iには全タンパク質鎖にわたる通し番号を用いるため、タンパク質鎖間のEssを従来法のポテンシャル関数で扱うことができる。 KSS CαおよびKSS C βは定数であり、7.5である。
【0299】
EchiはCαのキラリティーに関するものであり、下記式(27)のとおりである。
【数37】
ここでτiはN−Cα−Cβ−Cで定められるねじれ角でありKchi は50とする。
【0300】
Ehydrはホモロガスなタンパク質中で保存された主鎖の水素結合に関するもので、下記式(28)のとおり定められる。
【数38】
【0301】
水素結合は、N原子とO原子の距離が2.9± 0.5 Åにあるときに設定される。複数の参照タンパク質中で水素結合があるか否かを判定するときは、75%以上の参照蛋白が存在すると認めた場合に水素結合ありと判定する。Khydrは定数であり0.6である。
【0302】
Uposは原子の位置に関する関数で、下記式(29)のとおりである。
【数39】
Uposはタンパク質の原子位置に関するエネルギーを指標とする関数である。
Kposはタンパク質の原子位置に関する関数の比例定数である(0 < Kpos < 1)。
Xiは目的タンパク質のi残基目の座標である。
Xi *は参照タンパク質のi残基目の座標である。
【0303】
また、タンパク質の原子位置に関する関数の比例定数(Kpos)は、下記式(30)により設定される。
【数40】
Siはi番目残基のゆらぎの値を反映したパラメータである。
SiはTiの値が大きいと小さくなる揺らぎに対応した定数である。
MはKposを0〜1までの値にする調整因子である。
【0304】
また、モンテカルロ法における摂動の大きさは、下記式(31)により設定される。
【数41】
ΔYiはモンテカルロ法において目的タンパク質のi残基目の座標に加える摂動(Å)である。
Xi preは摂動を加える前の目的タンパク質のi残基目の座標である。
Xi pos tは摂動を加えた後の目的タンパク質のi残基目の座標である。
【0305】
ΔYiは加える摂動に関する関数であり、以下式(32)に従う。
【数42】
Tiはi番目残基のゆらぎの大きさである。
PはΔYiのノルム(ベクトルの大きさ)を0より大きく5より小さい値にするよう調整しながら発生する乱数である。
【0306】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔYi のノルムは大きくてもよく、従って、Kposは小さい値となる。
【0307】
上記式(30)、(32)において、ステップ60で取得した参照タンパク質の動的な性質を表すパラメータをSi、Tiにセットする。
【0308】
具体例を挙げると、基準振動解析法によって動的な性質を表すゆらぎの値のパラメータを用いた場合は、まず、目的タンパク質の各アミノ酸のゆらぎの値の大きさに従い、ゆらぎの値が大きいアミノ酸残基にはKposが0に近づくように、ΔYが5に近づくように、ゆらぎの値が小さいアミノ酸残基にはKposが1に近づくように、ΔY が0に近づくようにSiとM、PとTに値をセットする。二次構造判定を用いた場合は、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造であると判定されたアミノ酸残基にはKposが0に近づくように、ΔYが5に近づくように、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造以外と判定されたアミノ酸残基にはKposが1に近づくように、ΔY が0に近づくようにSiとM、PとTiに値をセットする。
【0309】
Uligandは、リガンドと目的タンパク質との相互作用ポテンシャルに関する関数であり、下記式(33)のとおりである。
【数43】
Uligandはリガンドとタンパク質の相互作用関数を表す。
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化されたパラメータである。
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離である。
【0310】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Kligand =10 、ε*=0.15、 r*=2.08
【0311】
次にCβを含む主鎖原子の最適化がシミュレーテッドアニーリングによって行われる。このアニーリングの過程で主鎖とCβの原子の摂動が初期の位置に対して1.0Å以内になるようにする。このアニーリングの段階は主鎖とCβの原子に対して例えば200回行われる。温度に相当するパラメータは例えば50もしくは25から始まり一回毎に0.5倍にしてゆき0.01になるまで続け、その後一定値とする。
【0312】
主鎖の立体配置を幅広くサンプリングするために、本発明の方法では、好ましくは上記の方法を例えば6回行い、最小の目的関数値を持つ主鎖の原子座標を最適解とする。そして、温度に相当するパラメータは、例えば、はじめの2回は50からスタートして3回目から25からスタートすることとする。
【0313】
(ステップ90:側鎖原子座標の構築及び最適化)
ついで、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、側鎖原子座標の構築及び最適化を実行する。ここで、側鎖の構築は、大きく2段階に分かれており、「構造保存部位の側鎖構築」(スッテプ90(1)と「全体の側鎖構築」(スッテプ90(2))に分けられる。従来法との違いは、側鎖のデータベースとして、リガンドの有無により分けたデータベースを、目的タンパク質中でのリガンドの有無により使い分ける点である。
【0314】
(ステップ90(1):構造保存部位の側鎖構築)
算出された主鎖原子に対して、以前の研究における方法を用いてホモロガスなタンパク質から側鎖のねじれ角を得る。この方法の詳細は、”The role of played by environmental residues in side−chain torsional angles within homologous families of proteins: A new method of side chain modeling.” Ogata K and Umeyama H, Prot. Struct. Funct. Genet. 1998, 31, 255−369に記載されている。
【0315】
この方法の中でホモロガスなタンパク質の中で保存されている側鎖の割合を算出し、この情報を基にして側鎖のモデリングを行う。側鎖の保存された部位の側鎖の原子座標は固定した主鎖原子に対して置かれる。
【0316】
例えば、ホモロガスなタンパク質中でアルギニン残基のχ1角が保存されていれば、Cγ原子の座標を置くことができ、Phe残基でχ1とχ2角が保存されていれば、全ての側鎖原子を置くことができる。
【0317】
式(21)を用いたシミュレーティッドアニーリングの最適化の過程は、主鎖とCβの原子のみ行われて、原子の摂動は例えば1.0Å以内となるようにした。この主鎖とCβの原子のアニーリングの段階は例えば200回行われる。そして、温度に相当するパラメータは例えば25からスタートして一回毎に0.5倍にしてゆき0.01になるまで小さくなるようにする。式(21)の中のEnon−bondは主鎖原子と部分的に作成された側鎖原子について行われる。そのとき側鎖原子の座標は最適化の過程を通じて保存されるようにする。
【0318】
構造の情報である Miと水素結合のN−Oのペアは最適化の過程で用いられる。主鎖原子の配置を得るために、上記プロセスを3回繰り返し、目的関数の最小の主鎖原子の座標を算出構造とする。
【0319】
(ステップ90(2):全体の側鎖の構築)
側鎖の構築は固定した主鎖およびCβ原子のもとで行う。これは上記したOgata K and Umeyama H, Prot. Struct. Funct. Genet. 1998, 31, 255−369に開示されている研究成果をもって行われ、それを用いることにより短時間で正確なモデルを与えることができる。
【0320】
次に主鎖構造は低温におけるモンテカルロ法によって最適化され、温度は例えば0.001に設定され式(21)の目的関数Enon−bondを用い、全ての主鎖と側鎖の原子で計算される。
【0321】
そして、N、Cα、C、Cβ原子の最適化の過程で側鎖のねじれ角を最適化された状態を保つように側鎖の座標を再配置する。原子の摂動は例えば0.5Å以内とする。次に側鎖は削除され、上記の側鎖構築が繰り返される。このプロセスは例えば2.4Åの原子同士のぶつかり合いがなくなり、且つN−Cα−Cβ−Cのねじれ角が例えば−120±15°の範囲に収まるまで繰り返される。
【0322】
(ステップ100:最終構造の構築:立体構造予測)
ついで、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、出来上がったモデルにおいて、リガンドと目的タンパク質との間に例えば2.1Åの原子同士のぶつかり合いがあった場合、ステップ50〜90を前回とは異なる条件のもと行う。
【0323】
上記の通りステップ50において得られたアライメントを基に、ステップ60−90において新たに開発したligand FAMS等のモデリングソフトを用いて立体構造を構築し、モデルが完成する。
【0324】
上記ステップ60−90で示す方法を「ligandFAMS」と称する。一方、本発明の基本となす従来型のホモロジーモデリングソフトを「FAMS」と称し、その詳細はKoji Ogata and Hideaki Umeyama, ”An automatic homology modeling method consisting of database searches and simulated annealing” Journal of Molecular Graphics and Modeling 18, 258−272, 2000に記載されている。
【0325】
本発明によれば、リガンドが結合した状態での単鎖を含む複数鎖から成る立体構造未知のタンパク質(これをコードする遺伝子を含む)の立体構造予測に関して、従来では天然アミノ酸以外には対応できなかったホモロジーモデリング法に対して、リガンド原子をも扱えるような関数、データベースを導入して、さらにリガンドの存在を入力ファイルに加えるといった工夫をし、全立体構造を高速に構築できるシステムを作成した。
【0326】
その結果、従来法では取り扱うことが困難であった例えばDNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築するというように立体構造構築の適応範囲を大幅に拡大するとともに、信頼性の高い立体構造情報を得ることができる。
【0327】
さらに、入力ファイルにリガンド情報を付け加えることで、アミノ酸配列を利用したホモロジー(参照タンパク質と目的タンパク質とのホモロジーを含む)とこれに結合するリガンドとの関係が解析しやすくなるため、ゲノム配列解析、DNAチップを用いた発現プロファイリング解析、プロテオーム解析などで興味深い遺伝子・タンパク質が見つかった場合に、そのタンパク質の立体構造を基準とした機能予測を行うことも従来法よりも効率的になる。
【0328】
また、タンパク質の機能部位を従来法に比べて精度よく予測するので、より効率的・効果的に新規医薬品を設計するための情報を取得できる。
【0329】
[実施例]
以下に、本発明のタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を用いた具体的なタンパク質の構造予測の例について、詳細に説明する。
【0330】
[Batimastatが結合した状態のマトリックスメタロプロアーゼ−12のモデリング例]
まず、Batimastatが結合した状態のマトリックスメタロプロアーゼ−12のモデリング例の処理の詳細について図5〜図10を参照して説明する。マトリックスメタロプロテアーゼ(以下MMPと略す)には、多くのファミリーが存在し、立体構造も多く解析されている。そのうち、MMP−12はBatimastatと呼ばれる薬剤と結合し、その立体構造が知られている。ここで、Batimastatが結合した状態でのMMP−12の立体構造が未知であると仮定し、発明実施の形態で詳述した方法に従って立体構造構築した。作成された立体構造は、既存立体構造さらには従来法(FAMS)で作成した構造と比較した。
【0331】
MMP−12のアミノ酸1次配列は、Swiss−Protより取得した(エントリ名 MM12_HUMAN, アクセッション番号P39900)。
【0332】
ここで、図5は、HUMAN由来のMMP−12の全アミノ酸配列を示す図である(配列表の配列番号1参照。)。図5に示すとおり470残基で下線部分106〜263番目の158残基がBatimastatが結合した状態でのMMP−12の立体構造が解析されている(PDB ID:1JK3、Lang, R., Kocourek, A., Braun, M., Tschesche, H., Huber, R., Bode, W., Maskos, K.: Substrate Specificity Determinants of Human Macrophage Elastase (Mmp−12) Based on the 1.1 A Crystal Structure J.Mol.Biol. 312 pp. 731 (2001))。
【0333】
そこで、この158残基をクエリーとして、2001年11月時点のPIRをモチーフプロファイルとし、PDBのタンパク質アミノ酸配列データベース(2002年4月時点)の39012配列に対してPSI−BLAST検索を行った。E−value が0.001以下の条件で実施した結果、102個の相同配列とのアライメントを取得した。この中でMMPファミリーでリガンドにBrimastatが含まれている1MMB(PDB ID)を参照タンパク質として選択しているアライメントを選択し、1MMBの座標中のBatimastatをリガンド座標として採用した。ホモロジーは53%であった。
【0334】
ここで、図6は、クエリー配列と参照タンパク質(1MMB)とのアライメントの表示例を示す図である(配列表の配列番号2および配列番号3参照。)。このアライメントを入力ファイル形式でリガンドの存在を示すZを加え、図7のような入力ファイル形式にする。
【0335】
ここで、図7は、入力ファイル形式の一例を示す図である(配列表の配列番号4および配列番号5参照。)。
【0336】
また、図7の「Z」が示すところのリガンド座標(Brimastat)は以下のとおりである。
【0337】
そして、モデリングを行った結果作成したモデルをグラフィックで表示する。
ここで、図8は、Batimastat(Ball and Stick)が結合した状態でのMMP−12の立体構造モデルの一例を示す図である。
【0338】
そして、作成したモデルをX線結晶構造(PDB ID: 1JK3) と重ねあわせ、Batimastatが結合している部分付近をグラフィックで表示する。ここで、図9は、Batimastat(Ball and Stick)が結合した状態でのMMP−12の立体構造を比較の一例を示す図である。図9においてgreyで示した部分が目的タンパク質であり、darkgreyで示した部分が1JK3である。
【0339】
次に、図7のアライメントを用いて、従来法(FAMS)でモデリングを行い、図9と同様にX線結晶構造(PDB ID: 1JK3) と重ねあわせた。ここで、従来法および本発明法でのモデルとX線結晶構造(1JK3)とのBatimastatが結合している部分の根平均二乗変位(RSMD)を計算し、比較を行った。RSMD値は小さいほど、1JK3との誤差が少ないことを示している。
【0340】
ここで、図10は、MMP−12のBtimastat結合部分におけるX線構造解析立体構造(1JK3)と、従来法および拡張型法での立体構造モデルとのRSMDの比較結果(単位;Å)の一覧を示す図である。
【0341】
図10に示すように、本発明によると、従来法に比べて、リガンドを加えることにより、モデル中でリガンド結合部分が明確にわかり、かつ結合部分に関しては立体構造を精度よくモデリングすることができたことがわかる。
【0342】
[DNAが結合した状態でのTATA−Box−Binding Proteinのモデリング例]
次に、DNAが結合した状態でのTATA−Box−Binding Proteinのモデリング例の処理の詳細について図11〜図16を参照して説明する。DNAの転写にはRNAポリメラーゼの他に一群の普遍的転写因子が必要である。 これらの因子のいくつかは転写開始の前段階においてプロモーター部位のDNA上で複合体を形成し、RNAポリメラーゼを引き寄せる。この複合体はTFIIBとTATA−box結合タンパク質(TATA−box binding protein; TBP)および TATA−DNAから構成 されている。
【0343】
DNAが結合した状態でのTBPとの複合体はいくつか構造解析されているが、このうちNikolovらの報告したTBPとDNA断片との複合体(Nikolov, D. B., Chen, H., Halay, E. D., Hoffman, A., Roeder, R. G., Burley, S. K.: Crystal structure of a human TATA box−binding protein/TATA element complex. Proc Natl Acad Sci U S A 93 pp. 4862 (1996))に関して立体構造が未知であると仮定し、発明実施の形態で詳述した方法に従って立体構造を構築した。
【0344】
TBPのアミノ酸1次配列は、Swiss−Protより取得した(エントリ名TF2D_HUMAN,アクセッション番号P20226)。ここで、図11は、HUMAN由来のTBPの全アミノ酸配列を示す図である(配列表の配列番号6参照。)。図11に示すとおり339残基で下線部分155〜333番目の178残基がDNA断片が結合した状態でのTBPの立体構造が解析されている(PDB ID:1CDW)。
【0345】
そこで、この178残基をクエリーとして、2001年11月時点のPIRをモチーフプロファイルとし、PDBのタンパク質アミノ酸配列データベース(2002年4月時点)のうち転写因子関連を集めた544配列に対してPSI−BLAST検索を行った。E−value が0.001以下の条件で実施した結果、14個の相同配列とのアライメントを取得した。この中で参照タンパク質座標中にDNA断片がが含まれている1D3U(PDB ID)のアライメントを選択した。さらに1 D3Uの座標中のDNA断片をリガンド座標として採用した。ホモロジーは38%であった。
【0346】
ここで、図12は、クエリー配列と参照タンパク質(1D3U)とのアライメントの一例を示す図である(配列表の配列番号7および配列番号8参照。)。
【0347】
そして、上記アライメントを入力ファイル形式でリガンドの存在を示すZを加え、図13の様にする。ここで、図13は、入力ファイル形式の一例を示す図である(配列表の配列番号9および配列番号10参照。)。
【0348】
図13において、「Z」が示すところのリガンド座標(DNA断片)は以下のとおりである。
【0349】
そして、モデリングを行った結果作成したモデルを以下にグラフィックで表示する。ここで、図14は、DNA断片(grey arrow)が結合した状態でのTBP(dark gray)の立体構造モデルの一例を示す図である。
【0350】
そして、作成したモデルをX線結晶構造(PDB ID: 1CDW) と重ねあわせ、DNAが結合している部分付近をグラフィックで表示する。ここで、図15は、DNA断片(brack arrow )が結合した状態でのTBP の立体構造の比較の一例を示す図である。図15において、grey部分が目的タンパク質を示し、darkgrey部分が1CDWを示している。
【0351】
そして、図13のアライメントを用いて、従来法(FAMS)でモデリングを行い、図15と同様にX線結晶構造(PDB ID: 1CDW) と重ねあわせた。ここで、従来法および本発明法でのモデルとX線結晶構造(1CDW)とのDNA断片が結合している部分の根平均二乗変位(RSMD)を計算し、比較を行った。RSMD値は小さいほど、1CDWとの誤差が少ないことを示している。
【0352】
ここで、図16は、TBPのDNA断片結合部分におけるX線構造解析立体構造(1CDW)と従来法および拡張型法での立体構造モデルとのRSMDの比較結果(単位;Å)の一覧を示す図である。
【0353】
このように、本発明は、従来手法と比較して、DNAといった物質もリガンドとして加えることで複合体の立体構造を構築することができ、モデル中ではリガンド結合部分が明確にわかり、かつ結合部分に関しては立体構造を精度よくモデリングすることができることがわかる。
【0354】
[インフルエンザウィルス(ヘマグルチニン)の立体構造構築]
次に、インフルエンザウィルス(ヘマグルチニン)の立体構造構築処理の詳細について図17〜図23を参照して説明する。インフルエンザは、インフルエンザウイルスにより引き起こされる病気である。インフルエンザウイルスは極めて変異しやすいために、その連続進化過程において動物や、時としてヒトに世界的大流行を引き起こす。インフルエンザウイルスにはA、BおよびC型があり、これらはいずれもシアル酸およびその誘導体を含む糖鎖をレセプターとして認識している。
【0355】
インフルエンザウイルス膜には2種のスパイク(ウイルスの細胞膜外表面に突き出ている)糖タンパク質が存在する。うち一つはヘマグルチニン(hemagglutinin:HA)であり、ウイルスが宿主細胞膜上のガングリオシドやシアル酸含有糖タンパク質受容体へ結合する上で必須であり、ウイルス感染を進める役目をしている。現在までに報告されているインフルエンザウイルスのヘマグルチニンには15種類あり、ヒトではH1,H2,H3,H5の4種類が確認されている。また、ウマではH3,H7、アザラシでは、H4,H7、トリでは15種類すべてのヘマグルチニンが確認されている。
【0356】
ヘマグルチニンに立体構造はいくつか知られているが、このうちの一つで、D.C. Wileyらの報告したトリのH5およびブタのH9のヘマグルチニンとシアル酸およびその誘導体を含む糖鎖レセプターの類似化合物との複合体の立体構造はヘマグルチニンと糖鎖レセプターとの結合様式解明に示唆を与えた(Proc.Nat.Acad.Sci.USA 98 pp. 11181 (2001))。PDBには4種類の蛋白質立体構造(1JSH、1JSI、1JSN、1JSO)として登録されている。
【0357】
本実施例では、1JSHを用いて、タンパク質アミノ酸配列データベースから構造、機能にほぼ同一と考えられるタンパク質を選択し、糖鎖レセプターの類似化合物との複合体の立体構造を構築した。
【0358】
1JSHには、HA1、HA2の2つのポリペプチド鎖と、5つの糖類、さらに糖鎖レセプターの類似化合物が含まれている。
【0359】
1JSHのHA1のアミノ酸配列は317残基であり、図17の通りである。ここで、図17は、1JSHのHA1のアミノ酸配列を示す図である(配列表の配列番号11参照。)。
【0360】
この317残基の配列をクエリーとして、2002年5月時点のPIRをモチーフプロファイルとし、Swiss Prot, TREMBL,等のタンパク質アミノ酸配列データベース(いずれも2002年7月時点)の382361配列に対してPSI−BLAST検索を行った。E−value が0.01以下の条件で実施した結果、500個の相同配列とのアライメントを取得した。PSI−BLASTにおいては、E−Valueが統計的に通常0.1以下、好ましくは0.01以下の値をもつときは、目的タンパク質は参照タンパク質のようなある機能をもったタンパク質ファミリーであるとして立体構造を作成するように判断するのが適当である。
【0361】
1JSHのHA2のアミノ酸配列は160残基であり、図18の通りである。ここで、図18は、1JSHのHA2のアミノ酸配列を示す図である(配列表の配列番号12参照。)。
【0362】
この160残基の配列をクエリーとして、2002年5月時点のPIRをモチーフプロファイルとし、Swiss Prot, TREMBL,等のタンパク質アミノ酸配列データベース(いずれも2002年7月時点)の382361配列に対してPSI−BLAST検索を行った。E−value が0.01以下の条件で実施した結果、13個の相同配列とのアライメントを取得した。
【0363】
こうして選択した相同配列とアライメントに対して、一例としてHA1をクエリーとしたアライメントからはTREMBLデータベース中のID「Q9Q0I0」を選択し、HA2をクエリーとしたアライメントからはGenPePt Proteinデータベース中のID「CAA24291x1」を選択し、さらに1JSH中の5つの糖と糖鎖レセプターの類似化合物をリガンドとしてモデリングを行った。アライメントは図19および図20に示す通りである。ここで、図19は、クエリー配列(HA1)と目的タンパク質とのアライメントの一例を示す図であり(配列表の配列番号13および配列番号14参照。)、また、図20は、クエリー配列(HA2)と目的タンパク質とのアライメントの一例を示す図である(配列表の配列番号15および配列番号16参照。)。
【0364】
上記アライメントを入力ファイル形式でタンパク鎖の終端を示す「U」とリガンドの存在を示す「Z」を加え、図21のような入力ファイル形式にする。ここで、図21は、入力ファイル形式の一例を示す図である。図21の「q9p0」のアミノ酸配列が目的タンパク質名を表す。
【0365】
また、図21において、「Z」が示すところのリガンド座標(5つの糖および糖鎖レセプターの類似化合物)は以下のとおりである。
【0366】
そして、モデリングを行った結果作成したモデルをグラフィック表示する。ここで、図22は、「Q9Q0I0」(grey)/「CAA24291x1」(dark grey)/糖、糖レセプター類似化合物(ball and stick)複合体のモデルの一例を示す図である。
【0367】
さらに、機能解析に重要な「Q9Q0I0」と糖鎖レセプター類似化合物との結合部分の拡大図を図23に示す。ここで、図23は、「Q9Q0I0」(grey)と糖鎖レセプター類似化合物(black ) との結合部分の拡大図の一例を示す図である。
【0368】
このように、目的タンパク質が複合体を形成している場合においても、タンパク質鎖の分かれ目を表す「U」とリガンド「Z」を用いることで、ファンデルワールス衝突を考慮した立体構造を作成することができる。さらに、本実施例で用いたヘマグルチニンと糖鎖レセプターの類似化合物との複合体の立体構造モデルを用いることにより、結合部分の相互作用様式がより明解となり、インフルエンザウイルスが宿主細胞膜上のガングリオシドやシアル酸含有糖タンパク質受容体へ結合する機構の解明や医薬品設計に重要な情報を得ることができる。
【0369】
[代謝型グルタミン酸レセプターファミリーのモデリング例]
次に、代謝型グルタミン酸レセプターファミリーのモデリングの処理の詳細について図24〜図27を参照して説明する。
【0370】
従来法による複数鎖を有するタンパク質の立体構造構築方法においては、任意のアミノ酸配列を有する複数鎖の目的タンパク質を「FAMS」のようなホモロジーモデリング法による単数鎖のタンパク質の立体構造構築方法に修正を加えて、複数鎖を有するタンパク質を単数鎖のタンパク質のように扱いながら立体構造を構築していく方法が挙げられる。
【0371】
しかしながら、この手法による複数鎖のタンパク質の立体構造構築では、アルゴリズムの制限により、例えば1残基のみのアミノ酸を取り扱う場合では立体構造構築の精度が下がり難しいということが経験的に分っている。そこで、本実施例では、グルタミン酸レセプターにおいて、機能的に意味のある一残基のグルタミン酸をリガンドとして扱い、グルタミン酸レセプターのダイマーにグルタミン酸(アミノ酸一残基)が結合した複合体モデルを構築し、本発明方法により従来法よりも精度が高い立体構造モデルを構築でき、本発明法が進歩性、新規性を有するということを示す。
【0372】
ラット由来の代謝型グルタミン酸受容体タイプI蛋白質(Metabotropic glutamate receptor 1)のアミノ酸1次配列は、Swiss−Protより取得した(エントリ名 MGR1_RAT, アクセッション番号P23385)。図24は、ラット由来の代謝型グルタミン酸受容体タイプIの全アミノ酸配列を示す図である(配列表の配列番号17参照。)。
【0373】
これは図24に示すとおり、全体が1199残基で、前半の下線で示した477残基中、448〜456番目の残基同士が接触部位となり2量体(ホモダイマー)となり、グルタミン酸受容体部分を形成していることが、森川らによるX線構造解析の結果、明らかとなっている。グルタミン酸受容体部分を形成していることが、森川らによるX線構造解析の結果、明らかとなっている(Kunishima, N., Shimada, Y., Tsuji, Y., Sato, T., Yamamoto, M., Kumasaka, T., Nakanishi, S., Jingami, H., Morikawa, K.: Structural Basis of Glutamate Recognition by a Dimeric Metabotropic Glutamate Receptor Nature 407 pp. 971 (2000)) 。PDBには3種類の蛋白質立体構造(1EWK, 1EWT, 1EWV)として登録されている。
【0374】
うち、1EWKはリガンドとして機能的に意味のあるグルタミン酸(アミノ酸一残基)が含まれているが、477残基中125〜153残基部分欠損部分があり、複合体の立体構造としては不完全である。
【0375】
そこで、この1199残基をクエリーとして、2001年11月時点のPIRをモチーフプロファイルとし、PIR, Swiss Prot, TREMBL, TREMBL_NEW, GenPept等のタンパク質アミノ酸配列データベース(いずれも2001年11月時点)の774804配列に対してPSI−BLAST検索を行った。E−value が0.001以下の条件で実施した結果、14509個の相同配列とのアライメントを取得した。そのうちE−value が0となるものが70ある(ホモロジーは23〜100%)。これらは、機能的にほぼ同一と見てよい。この中で同じRAT由来のレセプターでSwiss Prot中のエントリー名「MGR5_RAT」アクセッション番号「P31424」のモデリングを行った。ホモロジーは62.2%であった。
【0376】
ここで、図25は、アライメントの一例を示す図である(配列表の配列番号18および配列番号19参照。)。図25のアライメント中でPDBの1EWKの座標が存在する部分に関して「P31424」のホモダイマーとアミノ酸一残基のグルタミン酸との複合体のモデリングを行った。アライメントを修正し、入力ファイル形式は、鎖の分かれ(終端)を示す「U」と機能的に意味のあるアミノ酸一残基のグルタミン酸をリガンドとして、その存在を表す「Z」を加えて、図26に示す入力ファイルを作成した。図26は、入力ファイル形式の一例を示す図である。
【0377】
図26において、「Z」が示すところのリガンド座標(グルタミン酸)は以下のとおりである。
【0378】
そして、モデリングを行った結果、作成したモデルを図27に示すようにグラフィックで表示した。ここで、図27は、「MGR5_RAT」(A鎖:grey、B鎖:dark grey)のダイマー/グルタミン酸(ball and stick)複合体のモデルの一例を示す図である。
【0379】
このように、本発明方法により、機能的に意味のあるアミノ酸一残基のグルタミン酸とグルタミン酸レセプターのダイマーとの複合体モデルを構築することができる。
【0380】
一方、アミノ酸一残基のグルタミン酸をタンパク質鎖として扱い、上記入力ファイル中で「Z」の代わりに「EU」と置き換えモデリングを行うことを試みたが、アルゴリズム上の制限により、立体構造の構築が出来なかった。さらに、上記入力ファイル中で「Z」を除いて、立体構造を構築した場合は、機能的に重要なアミノ酸一残基のグルタミン酸を含まない、「MGR5_RAT」のホモダイマーのみの立体構造を構築することが出来た。
【0381】
以上のことから、従来法では取り扱うことが難しいと考えられる、例えば1残基からなるのアミノ酸分子をリガンドとして取り扱うことで、本発明法は、従来法よりも精度の向上した、進歩性、新規性を有する複合体モデルを構築することができることが分った。
【0382】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【0383】
例えば、タンパク質構造予測装置100を、アミノ酸配列データベースシステムとして構成してもよい。すなわち、このアミノ酸配列データベースシステムは、アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加した修正配列を格納し(上述した実施形態のアミノ酸配列データファイル106aが該当する。)、上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行う(上述した実施形態の拡張型ホモロジーモデリング部102cの処理が該当する。)。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【0384】
また、タンパク質構造予測装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、タンパク質構造予測装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【0385】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
【0386】
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0387】
また、タンパク質構造予測装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
【0388】
例えば、タンパク質構造予測装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じてタンパク質構造予測装置100に機械的に読み取られる。
【0389】
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、タンパク質構造予測装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0390】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0391】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0392】
記憶部106に格納される各種のファイル、データベース等(アミノ酸配列データファイル106a〜リガンド座標データファイル106c)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0393】
また、タンパク質構造予測装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0394】
さらに、タンパク質構造予測装置100等の分散・統合の具体的形態は明細書および図面に示すものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる(例えば、グリッド・コンピューティングなど)。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0395】
また、ネットワーク300は、タンパク質構造予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC―P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【0396】
【発明の効果】
以上詳細に説明したように、本発明によれば、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法(例えばFAMSなど)を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0397】
また、本発明によれば、リガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能であるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0398】
また、本発明によれば、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0399】
また、本発明によれば、従来法では取り扱うことが極めて困難であった例えばDNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0400】
また、本発明によれば、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0401】
また、本発明によれば、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0402】
また、本発明によれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばCαからなる部分構造や主鎖やCβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0403】
また、本発明によれば、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0404】
また、本発明によれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0405】
また、本発明によれば、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0406】
また、本発明によれば、こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0407】
また、本発明によれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0408】
また、本発明によれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0409】
また、本発明によれば、複数の特別文字をリガンドの結合したタンパク質の終止記号「U」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0410】
また、本発明によれば、このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0411】
さらに、本発明によれば、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0412】
さらに、本発明によれば、一つのタンパク質の配列の終了を意味するUや加えるリガンドの存在の数を示す文字(一つのタンパク質の配列の終了を意味するUの後のアラビア数字又はアラビア数字の数のZ)はアミノ酸を表す1文字コード以外は別の文字を利用することできるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0413】
さらに、本発明によれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Uligandの当該計算が行われるようになるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0414】
さらに、本発明によれば、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0415】
さらに、本発明によれば、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0416】
さらに、本発明によれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、DNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0417】
さらに、本発明によれば、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のPDBの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0418】
さらに、本発明によれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0419】
さらに、本発明によれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0420】
さらに、本発明によれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0421】
さらに、本発明によれば、任意のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、入力ファイルにリガンドの立体構造座標を単鎖を含む複数鎖タンパク質の立体構造の構築の際に使われるタンパク質のアミノ酸の入力ファイルにさらに終端記号とリガンドを表す文字記号を加え、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算を用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンドが、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することができるアミノ酸配列データベースシステムを提供することができる。
【0422】
【配列表】
【図面の簡単な説明】
【図1】本発明による複数鎖から成るタンパク質の立体構造構築法の一例を示すフローチャートである。
【図2】本発明が適用される本システムの構成の一例を示すブロック図である。
【図3】拡張型ホモロジーモデリング部102cの構成の一例を示すブロック図である。
【図4】目的関数調整部102hの構成の一例を示すブロック図である。
【図5】HUMAN由来のMMP−12の全アミノ酸配列を示す図である。
【図6】クエリー配列と参照タンパク質(1MMB)とのアライメントの表示例を示す図である。
【図7】入力ファイル形式の一例を示す図である。
【図8】Batimastat(Ball and Stick)が結合した状態でのMMP−12の立体構造モデルの一例を示す図である。
【図9】Batimastat(Ball and Stick)が結合した状態でのMMP−12の立体構造を比較の一例を示す図である。
【図10】MMP−12のBtimastat結合部分におけるX線構造解析立体構造(1JK3)と、従来法および拡張型法での立体構造モデルとのRSMDの比較結果(単位;Å)の一覧を示す図である。
【図11】HUMAN由来のTBPの全アミノ酸配列を示す図である。
【図12】クエリー配列と参照タンパク質(1D3U)とのアライメントの一例を示す図である。
【図13】入力ファイル形式の一例を示す図である。
【図14】DNA断片(grey arrow)が結合した状態でのTBP(dark gray)の立体構造モデルの一例を示す図である。
【図15】DNA断片(brack arrow )が結合した状態でのTBP の立体構造の比較の一例を示す図である。
【図16】TBPのDNA断片結合部分におけるX線構造解析立体構造(1CDW)と従来法および拡張型法での立体構造モデルとのRSMDの比較結果(単位;Å)の一覧を示す図である。
【図17】1JSHのHA1のアミノ酸配列を示す図である。
【図18】1JSHのHA2のアミノ酸配列を示す図である。
【図19】クエリー配列(HA1)と目的タンパク質とのアライメントの一例を示す図である。
【図20】クエリー配列(HA2)と目的タンパク質とのアライメントの一例を示す図である。
【図21】入力ファイル形式の一例を示す図である。
【図22】「Q9Q0I0」(grey)/「CAA24291x1」(dark grey)/糖、糖レセプター類似化合物(ball and stick)複合体のモデルの一例を示す図である。
【図23】「Q9Q0I0」(grey)と糖鎖レセプター類似化合物(black ) との結合部分の拡大図の一例を示す図である。
【図24】ラット由来の代謝型グルタミン酸受容体タイプIの全アミノ酸配列を示す図である。
【図25】アライメントの一例を示す図である。
【図26】入力ファイル形式の一例を示す図である。
【図27】「MGR5_RAT」(A鎖:grey、B鎖:dark grey)のダイマー/グルタミン酸(ball and stick)複合体のモデルの一例を示す図である。
【符号の説明】
100 タンパク質構造予測装置
102 制御部
102a 目的アミノ酸配列取得部
102b リガンド座標取得部
102c 拡張型ホモロジーモデリング部
102d 配列修正部
102e 第1機能推定部
102f 第2機能推定部
102g 第3機能推定部
102h 目的関数調整部
102i 参照タンパク質検索部
102j 参照タンパク質構造変更部
102k 相互作用関数計算部
102m 最適化部
104 通信制御インターフェース部
106 記憶部
106a アミノ酸配列データファイル
106b タンパク質構造データファイル
106c リガンド座標データファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a protein structure predicting device, a protein structure predicting method, a program, and a recording medium, particularly in a state where atoms constituting a ligand molecule are bonded as a rigid body having an average atomic radius having no electric polarity. The present invention relates to a protein structure prediction device, a protein structure prediction method, a program, and a recording medium for constructing the entire three-dimensional structure of a protein.
[0002]
[Prior art]
In many biological species, whole genome sequence analysis has been advanced, and the sequence information has been compiled into a database (for example, see Non-Patent Document 1). Although it is possible to identify and predict the function of a gene to some extent from a genomic sequence, there are a very large number of genes whose function cannot be predicted from sequence information alone. In addition, a protein translated from its DNA sequence to an amino acid sequence actually functions in the gene.
[0003]
Many proteins exert their functions in vivo by interacting with ligands such as various hormones, peptides, proteins, compounds of agricultural chemicals, pharmaceuticals, and the like. A common property of the interaction between many proteins and ligands is the complementary three-dimensional structure of the protein and the ligand. The specific three-dimensional structure of each protein is characterized by the strength of the interaction with the ligand, It is believed that they determine the function of the acting ligand.
[0004]
Attempts to elucidate the three-dimensional structure of ligand-bound proteins have been made by applying X-ray crystal structure analysis and NMR, which are the mainstays of structural determination in structural biology, and the structures of many complexes have been analyzed. . However, since the number of proteins estimated from genome analysis is expected to be large, and the types of ligands are also expected to be large, complexes of all combinations of proteins and ligands can be synthesized by experimental methods such as X-ray crystal structure analysis. It is extremely difficult to elucidate. Therefore, searching for a protein having a known amino acid sequence and a high tertiary structure with high homology has been performed to predict the function of the target protein.
[0005]
As a method for creating a three-dimensional structure from an amino acid sequence, a homology modeling method is widely known. This is because, when an arbitrary amino acid sequence (target amino acid sequence) is given, a protein (reference protein) having a sequence similar to the target amino acid sequence is searched from a three-dimensional structure database such as the Protein Data Bank PDB. After giving the alignment between the amino acid sequence and the similar sequence (the alignment of the sequences), the 3D coordinates of each amino acid on the target amino acid sequence are created from the 3D coordinates of the reference protein based on the alignment information. is there.
[0006]
Conventional homology modeling methods include, for example, FAMS (see, for example, Non-Patent Document 2).
[0007]
Here, the homology method is a computational science method including the following four steps.
[0008]
(Step 1) Given an arbitrary amino acid sequence (target amino acid sequence), search for a protein (reference protein) having a sequence similar to the target amino acid sequence from a three-dimensional structure database such as the Protein Data Bank PDB (homology) Search) to give an alignment between the amino acid sequence of interest and the similar sequence (aligned sequences). Computer software such as FASTA, PSI-BLAST, and LIBRA is available for performing the database search and alignment.
[0009]
FASTA is a program for matching 20 kinds of alphabetic character sequences which means 20 kinds of natural amino acids, and has a high homology (corresponding to about 30% or more of amino acid identity and about 0.01 or less in e-value of FASTA). It is said that a highly reliable model can be constructed by constructing a three-dimensional structure for a reference protein.
[0010]
On the other hand, in PSI-BLAST, character sequence matching is performed in the same manner, but instead of information on whether characters match, the degree of character matching called a profile is replaced for each site on the character sequence of a related protein. It has the property of optimizing alignment by calculating as a matrix and then performing repeated calculations.
[0011]
LIBRA is a program based on the 3D-1D method (also called the threading method), and searches for a similar sequence using a known three-dimensional structure as a probe. Therefore, the search algorithm is clearly different from FASTA or PSI-BLAST. For this reason, there may be cases where a different type of sequence similarity can be pointed out from FASTA or PSI-BLAST.
[0012]
(Step 2) If the alignment calculated by the above-mentioned FASTA, PSI-BLAST, LIBRA, etc. is used, the correspondence between each amino acid between the target amino acid sequence and the similar sequence is determined. Based on this relationship, the three-dimensional coordinates of the reference protein are determined. To create three-dimensional coordinates for each amino acid on the target amino acid sequence.
[0013]
(Step 3) If no amino acid corresponding to the target amino acid sequence exists, the amino acid coordinates at that position on the reference protein side are not used. Conversely, if no corresponding amino acid exists on the reference protein side, The amino acid coordinates of the position on the target amino acid sequence are created by searching for an appropriate one from a protein fragment coordinate database prepared in advance.
[0014]
(Step 4) In the construction of the protein coordinates according to (Step 2) and (Step 3) described above, structurally inappropriate gaps, collisions, and distortions may occur between amino acid residues. Eliminate these structural distortions.
[0015]
According to the conventional modeling software, the calculation and search processing of (Step 2) to (Step 4) are not performed simultaneously for all the atoms of the protein in order to smoothly eliminate the structural distortion of (Step 4). For example, there is a method in which the simulation is performed stepwise using a simulated annealing method (SA method), a molecular mechanics calculation, a Monte Carlo method, or the like.
[0016]
The “SA method” means that when a state x of a certain system is perturbed and a new state x ′ is obtained, the energy value E (x ′) in the new state becomes the energy value E (x) in the old state. By making a transition to the new state x ′ with a higher probability with a smaller probability and with a lower probability with a larger value, it is intended to find a large or small point of the energy E without catching the local minimum point. That is, first, the energy minimization by the SA method is performed on the α carbon atoms forming the protein skeleton, then on the main chain atoms containing the α carbon atoms, and finally, the energy minimization is performed on the entire protein including the side chains by the SA method. Is what you do.
[0017]
“Molecular mechanics calculation” is a method in which the potential energy E of a system is expressed as a function of coordinates, and a coordinate change to decrease the potential energy E is calculated mainly by an energy minimization calculation such as a maximum gradient method or a conjugate gradient method. is there.
[0018]
The “Monte Carlo method” is a stochastic energy optimization calculation method based on statistical mechanics.
[0019]
As described above, if an alignment with the target amino acid sequence is obtained, the three-dimensional structure can be predicted and constructed. By the homology modeling method, the three-dimensional structure of a protein whose three-dimensional structure is unknown can be accurately predicted.
[0020]
[Non-patent document 1]
Gerardo Jimenez-Sanchez, Nature 409, 853-855 (2001).
[Non-patent document 2]
K. Ogata and H.S. Umeyama, Journal of Molecular Graphics and Modeling 18, 258-272
[0021]
[Problems to be solved by the invention]
However, in the conventional method, since the three-dimensional structure is constructed without considering the interaction between the protein and the ligand, a portion that binds to the ligand is often blocked in the created three-dimensional structure. There was a problem that. In particular, the above-mentioned drawbacks are significant when designing molecules using the three-dimensional structure of proteins such as pharmaceuticals. This is because the interaction between the protein and the ligand is not calculated in the algorithm of the conventional homology modeling method.
[0022]
Conventionally, as a method of removing this drawback, there are many known methods of performing a docking simulation of a protein and a ligand on a computer. Many of them use the three-dimensional structure of an existing protein or create a three-dimensional structure of the protein by homology modeling, etc., search for the protein part to which the ligand binds, apply the ligand to that part, and use molecular mechanics and molecular dynamics methods. This is a method of optimizing the interaction energy between a ligand and a protein using a method or the like.
[0023]
However, this method is not suitable for genome-wide industrial use, because in addition to the situation where it is difficult to estimate the protein portion to which the ligand binds, enormous computation time and resources are required to search for the global minimum. There were problems such as not.
[0024]
In addition, many of these methods have a problem in that physicochemical parameters such as an electric charge must be given to each atom of the ligand to be handled, and the type of ligand is limited.
[0025]
In addition, a method of performing docking simulation between a protein and a ligand on a computer using a molecular mechanics method and a molecular dynamics method to search for a global minimum and construct a three-dimensional structure of the protein in a state where the ligand is bound. Even so, it is often not possible to obtain a highly accurate prediction structure. This is because the three-dimensional structure of the protein is flexible, and the physicochemical properties of the three-dimensional structure of the protein that changes when bound to the ligand are not sufficiently reflected in the simulation. Here, the dynamic property of a protein having a flexible three-dimensional structure and changing the three-dimensional structure is called “dynamic behavior” of the protein.
[0026]
Due to these reasons, when a protein three-dimensional structure with low prediction accuracy of multiple chains including a single chain with a ligand bound is constructed, the molecular design of agricultural chemicals, pharmaceuticals, etc. using this structural data is adversely affected. Become.
[0027]
The present invention has been made in view of the above problems, and simultaneously constructs the entire three-dimensional structure of a protein in a state where atoms constituting a ligand molecule are bonded as a rigid body having an average atomic radius having no electric polarity. It is an object of the present invention to provide a protein structure predicting apparatus, a protein structure predicting method, a program, and a recording medium that can perform the method.
[0028]
[Means for Solving the Problems]
In order to achieve such an object, the protein structure predicting apparatus according to
[0029]
According to this apparatus, when the amino acid sequence of an arbitrary target protein is given, the range of application of the conventional homology modeling method is increased while calculating the interaction between the protein and the ligand in the process of constructing the three-dimensional structure. 3D structure of the protein is constructed using a database that refers to the experimental structure, and for the main chain, using the same database as the side chain and molecular dynamics calculation such as simulated annealing. Expanded by enabling the system to simultaneously construct the entire three-dimensional structure of a protein in a state where the atoms that make up the ligand molecule are fully or automatically linked as a rigid body with an average atomic radius without electrical polarity Therefore, conventional multi-chain modeling including a single chain using a conventional homology modeling method (for example, FAMS, etc.) A method that is not known or suggested yet can extend the range of application of the new homology modeling method and construct the three-dimensional structure of a single-chain protein including a single chain with a ligand bound. .
[0030]
In other words, this device treats the ligand as a rigid body that does not depend on the type of atom in the process of creating a three-dimensional structure for simplicity, including the single-chain protein with the ligand bound, in order to simplify the dynamic behavior of the protein. By optimizing using the reflected parameters and functions, a three-dimensional structure can be predicted in consideration of the calculation of the interaction between the protein and the ligand. This makes it possible to construct a three-dimensional structure of a protein that is more reliable and is more suitable for drug design and the like than a conventional method at a speed corresponding to even a large amount of genomic sequences analyzed worldwide.
[0031]
In addition, the method for constructing the three-dimensional structure of a multi-chain protein including a single chain with the ligand bound in this device can be applied to non-empirical modeling methods as well as empirical modeling methods represented by homology modeling methods. is there.
[0032]
Further, in the protein structure predicting apparatus according to
[0033]
This more specifically shows an example of the extended homology modeling means. According to this apparatus, in the method of extended homology modeling, when constructing a three-dimensional structure, the objective function as an index of the overall energy used when constructing single-chain and multi-chain proteins depends on the atom type of the ligand. Add a calculated interaction function using an averaged “averaging parameter” that is not simple and easy to handle, and further use a “dynamic property parameter” that reflects the dynamic properties of the protein, Adjust an objective function that is an index of energy constrained to the position of a protein atom to be referenced during modeling.
[0034]
In this way, the construction and optimization of the entire three-dimensional structure of the protein are performed simultaneously, and the actual structure of the ligand, which does not need to consider the types of ligand atoms that are normally handled strictly, is taken into account. And at the same time, by using the averaged parameters, the calculation process of the model structure of the protein to which various ligands are bound can be simplified and made more efficient.
[0035]
In addition, this makes it possible to form a complex of all substances including DNA, drug components, metals, ions, saccharides, nucleic acid components, hormones and multi-chain proteins including single chains, which were extremely difficult to handle with the conventional method. It becomes possible to construct a three-dimensional structure.
[0036]
In addition, this greatly expands the applicable range of the conventional method for constructing a protein three-dimensional structure, and the amino acid sequence, which is very important information for molecular design of agricultural chemicals and pharmaceuticals and for functional analysis of proteins, It is possible to construct a complete complex three-dimensional structure containing all substances involved in functioning in a living body.
[0037]
In addition, by incorporating the dynamic properties of the protein into the algorithm of the homology modeling method when creating the three-dimensional structure, it is very important especially for the functions of proteins such as pesticides and pharmaceuticals, and metals and hormones. It is possible to provide an accurate three-dimensional structure in the analysis of the interaction between a ligand and a protein.
[0038]
In addition, the method for constructing a three-dimensional structure of a protein having a plurality of chains including a single chain in a state in which the ligand is bound can be applied to an empirical modeling method other than an empirical modeling method represented by a homology modeling method. In addition, all substances can be handled as ligands, and the number is not limited in principle.
[0039]
Further, in the protein structure predicting apparatus according to the third aspect, in the protein structure predicting apparatus according to the first aspect, the extended homology modeling means outputs the three-dimensional structure data in a state of forming a complex with the ligand. Reference protein search means for searching for a reference protein from a protein three-dimensional structure database is further provided.
[0040]
This more specifically shows an example of the extended homology modeling means. According to this apparatus, when using the extended homology modeling technique, a reference protein is retrieved from a three-dimensional structure database, for example, divided by the presence or absence of a ligand. Since the partial structure consisting of a chain and Cβ is searched from a three-dimensional structure database classified according to the presence or absence of a ligand, the accuracy of the structure of a protein model, particularly the structure of a ligand binding site, created by homology modeling can be improved.
[0041]
In addition, an existing database such as a protein data bank (PDB) may be used as the protein three-dimensional structure database. Here, the PDB contains, in addition to the three-dimensional structure of the protein, a state in which a ligand molecule such as DNA, metal, or drug whose constituent atoms are other than amino acids forms a complex with the protein, or a plurality of proteins. The three-dimensional structure is registered in the state where the complex is formed. Such a database is created, for example, by creating a database that is distinguished based on the presence or absence of a complex of a protein with DNA, a metal, or a drug, and whether or not the protein is a complex. I have.
[0042]
As described above, it is not performed in the conventional method to prepare and use a plurality of reference protein three-dimensional structure databases depending on the presence or absence of a ligand. Creating a three-dimensional structure can be realized.
[0043]
Further, in the protein structure predicting apparatus according to
[0044]
This more specifically shows an example of the extended homology modeling means. According to this device, after calculating the normal vibration of the three-dimensional structure of the reference protein, the coordinates obtained by changing the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the inherent vibration direction of the protein are used as the three-dimensional structure of the new reference protein. As a result, the accuracy of the structure of the protein model created by homology modeling, particularly the structure of the ligand binding site, can be improved.
[0045]
Here, coordinates obtained by changing the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the intrinsic vibration direction of the protein after the normal vibration calculation are stored as a database, and searched based on the code number of the reference protein. Can be. Conventionally, preparing and using a plurality of three-dimensional structure databases of such reference proteins has not been performed by conventional methods. can do.
[0046]
The protein structure prediction device according to
[0047]
This shows one example of the dynamic property parameter more specifically. According to this device, the dynamic behavior of the protein is referred to as a parameter reflecting the dynamic properties of the protein when the optimization is performed using the objective function serving as an index of the energy of the position of the atom of the reference protein. The purpose is to use the data of fluctuation around normal temperature obtained from the calculation of normal frequency analysis of protein, or the data of the fluctuation of the three-dimensional structure of α helix and β sheet obtained from the secondary structure judgment result of reference protein as a substitute. The function is incorporated into the function and used to create a model of the protein bound with the ligand.
[0048]
Here, the dynamic properties of a protein taken as a parameter include, for example, a molecule obtained from a normal vibration calculation method, which constitutes a protein with the magnitude of a long-period thermal fluctuation mainly composed of temporally pico-order vibration. It can be obtained by quantifying and assigning each atom.
[0049]
The method of calculating the magnitude of the fluctuation using the normal vibration calculation method is not limited, but as an example, Wilson, E. et al. B. , Decius, J. et al. C. , And Cross, P .; C. 1955. Molecular Vibration. McGraw-Hill. For example, a method described in, for example, US Pat.
[0050]
Also, in this apparatus, as a substitute for the normal vibration calculation method, data on the difficulty of fluctuation of the three-dimensional structure of the α helix and β sheet obtained from the secondary structure determination result of the reference protein is used. For example, the portion that forms the α helix has a large fluctuation, and that portion is a parameter with a large numerical value.The portion that forms the loop has a small fluctuation, and that portion is a parameter with a small numerical value. It can be obtained by assigning to each atom.
[0051]
Here, as the software for determining the secondary structure of the reference protein, for example, DSSP, STRIDE and the like can be mentioned, but other methods can also be applied. Details of DSSP can be found in Kabsch, W .; & Sander, C.A. (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometric features. Biopolymers, 22: 2577-2637. Details of STRIDE can be found in Frenchman, D & Argos, P.S. (1995) Knowledge-based secondary structure assignment. Proteins: described in structure, function and genetics, 23, 566-579, and the like.
[0052]
According to a sixth aspect of the present invention, there is provided the protein structure predicting apparatus according to any one of the first to fifth aspects, wherein the target amino acid sequence and the reference amino acid sequence each have an amino acid sequence of each protein chain. Is further provided with a sequence correcting means for adding a terminator to the end of and / or adding a ligand presence symbol indicating the presence of a ligand.
[0053]
According to this apparatus, in the method of extended homology modeling, the input format of the three-dimensional structure coordinates of the ligand to be added is devised by designating the file name of the ligand coordinates at the time of starting the program. In the sequence alignment format, add a "terminator" such as a letter indicating the end of the sequence of one protein chain, and add a "ligand" such as a letter indicating the presence of the added ligand after the sequence of the protein to which the ligand binds. Modify the array by adding "existence symbol".
For example, after “U” indicating the end of the sequence of one protein, Arabic numerals or Z as many as Arabic numerals are added as shown below.
(Amino acid sequence of one protein chain) U Arabic numeral (or Z of Arabic numeral) (Amino acid sequence of another protein chain)
[0054]
Here, "U" is a terminator indicating the end of the sequence of the protein chain, and Arabic numerals or "Z" in the Arabic numeral is a ligand presence symbol. By writing a plurality of special characters after the terminator "U" of the protein to which the ligand is bound, it is possible to indicate a break in the sequence of the protein consisting of a plurality of protein chains and the presence of the ligand, All three-dimensional structures of all proteins including chain proteins and apparently multiple chains including protein regions that can be experimentally determined can be fully automated.
[0055]
By devising the input file in this way, it is possible to construct a three-dimensional structure of a multi-chain protein including a single chain with a ligand bound only by manipulating the input file. When constructing a three-dimensional structure of a multi-chain protein including a single chain with a ligand bound, automatic processing can be performed by separately creating a program using the input file.
[0056]
In addition, regarding the three-dimensional structure of a multi-chain protein including a single chain in a state where the created ligand is bound, an input file is used for, for example, performing directory sorting and searching according to the presence or absence of a ligand and the type of ligand. The processing can be performed by creating a program, and the three-dimensional structure processing of a large amount of protein can be automatically and efficiently performed.
[0057]
In addition, U indicating the end of the sequence of one protein or a letter indicating the number of ligands to be added (Arabic numeral after U indicating the end of the sequence of one protein or Z of the number of Arabic numeral) is an amino acid. Other characters can be used other than the one-letter code representing.
[0058]
The protein structure predicting apparatus according to
(Equation 3)
UligandIs the interaction function between the ligand and the protein
Kligand , Ε*, R*Is the averaging parameter independent of the ligand atom type
ri, jIs the distance between the i-th ligand atom and the j-th protein atom
Is further provided.
[0059]
This more specifically shows an example of the interaction function using the averaging parameter. According to this apparatus, the interaction function between the model protein and the ligand using an averaged parameter that is simple and easy to handle, independent of the type of the atom of the ligand, is represented by this calculation formula. Index U of interaction energy withligandIs calculated.
[0060]
The specified values are shown below, but are changeable values and do not limit the scope of the claims.
Kligand = 10, ε*= 0.15, r*= 2.08
(When optimizing Cα coordinates, ε*= 0.046, r*= 1.9Xri, j +1.9)
[0061]
Thus, it is possible to construct a three-dimensional structure of a multi-chain protein including a single chain in a state where the ligand is bound, by reflecting the interaction between the ligand and the target protein. For example, the above function does not exist in the conventional FAMS, and in this method, the conventional processes are used in the process of constructing and optimizing the Cα atom, the process of constructing and optimizing the main chain atom, and the process of constructing and optimizing the side chain atom. The part obtained by adding the above-mentioned new interaction function to each objective function used in the FAMS of the method is a part newly corrected in the extended homology modeling method.
[0062]
This interaction function can be similarly applied as long as it is a well-known function in physical chemistry, and can be applied to non-empirical modeling methods as well as empirical modeling methods represented by homology modeling methods. .
[0063]
The protein structure prediction device according to
[0064]
This more specifically shows an example of optimization of a protein three-dimensional structure. According to this device, the objective function (Upos), The Monte Carlo method is used to randomly move the positions of the model protein atoms toward energetically stable points when optimizing the protein three-dimensional structure. The proportionality constant (Kpos) And the magnitude of the perturbation (ΔYi) corresponding to the small movement of the atomic position of the model protein in the Monte Carlo method from the position of the reference protein, and the parameter (4), which is based on the softness corresponding to the fluctuation of the protein. A constant (Ti) is used.
[0065]
The objective function of the energy index (Upos) Is determined by the following equation.
(Equation 4)
UposIs a function that uses the energy related to the atomic position of a protein as an index.
KposIs the proportionality constant of the function related to the atomic position of the protein. (0 <Kpos <1)
XiIs the coordinate of the i-th residue of the target protein.
Xi *Is the coordinate of the i-th residue of the reference protein.
[0066]
Also, the proportionality constant (Kpos) Is determined by the following equation.
(Equation 5)
Si is a parameter reflecting the fluctuation value of the i-th residue. Si is a constant corresponding to a fluctuation that becomes smaller as the value of Ti becomes larger.
M is KposAn adjustment factor that makes 0 a value from 0 to 1.
[0067]
Here, Si having a positive value in each atom i is a number corresponding to the gradient of the potential energy around each atom when the potential energy of the protein is minimal, and has a small value when the gradient is gentle. . That is, if the fluctuation is large, KposIs a small value.
[0068]
The values shown in the above formulas are specified values, but are changeable values and do not limit the scope of the claims.
[0069]
The magnitude of the perturbation in the Monte Carlo method is obtained by the following equation.
(Equation 6)
ΔYiIs a perturbation (Å) added to the coordinates of the i-th residue of the target protein in the Monte Carlo method.
Xi preIs the coordinate of the i-th residue of the target protein before adding perturbation.
Xi pos tIs the coordinate of the i-th residue of the target protein after perturbation.
[0070]
ΔYiIs a function related to the added perturbation and follows the following equation.
(Equation 7)
Ti is the magnitude of fluctuation of the i-th residue.
P is ΔYiA random number generated while adjusting the norm (the magnitude of the vector) to a value larger than 0 and smaller than 5.
[0071]
Here, when the fluctuation is large, the gradient of the peripheral potential energy of the atom is small, and the added perturbation ΔYi May be large, and therefore KposIs a small value.
[0072]
The specified values described in the above expressions and the expressions are changeable values and functions, and do not limit the scope of the claims.
[0073]
Thereby, it is possible to construct a three-dimensional structure of a multi-chain protein including a single chain by appropriately reflecting the dynamic property of the three-dimensional structure of the protein using the dynamic property parameter. In this method, the objective functions used in the conventional FAMS in the process of constructing and optimizing the Cα atom, the process of constructing and optimizing the main chain atom, and the process of constructing and optimizing the side chain atom are described above. The part where the constants and functions are added is the part newly corrected in the extended homology modeling method. For example, in the SA method, such a correction corresponds to searching for a minimum point with the potential gradient of the three-dimensional structure of the protein reflecting the fluctuation, and if the function is to search for a global minimum, the function is similarly applied. It is possible to apply to non-empirical modeling methods as well as empirical modeling methods represented by homology modeling methods.
[0074]
According to a ninth aspect of the present invention, there is provided the protein structure prediction apparatus according to any one of the first to eighth aspects, wherein the ligand coordinate acquisition means includes a reference protein protein data bank ( (3) acquiring the three-dimensional structure coordinates of the ligand from the ligand coordinates included in the PDB), the ligand coordinates created using the molecular mechanics method or the molecular dynamics method, and / or the ligand coordinates retrieved from the existing ligand database. It is characterized by the following.
[0075]
This more specifically shows an example of the ligand coordinate acquisition means. According to this apparatus, the three-dimensional structure coordinates of the ligands in the input file are converted into the ligand coordinates contained in the protein data bank (PDB) of the reference protein, the ligands prepared using the molecular mechanics method or the molecular dynamics method. By using at least one of coordinates, and at least one of ligand coordinates retrieved from an existing ligand database, the type and number of ligands to be used are not limited, and proteins, peptides, DNA, drug components, metals, ions, saccharides, and nucleic acids are used. By considering all substances including components and hormones as the ligands, the entire three-dimensional structure of the protein with a wide range of ligands can be simultaneously constructed using an efficient calculation method in a simplified calculation process.
[0076]
The protein structure prediction device according to claim 10 is included in the protein data bank (PDB) of the reference protein in the protein structure prediction device according to any one of
[0077]
According to this device, in the extended homology modeling method, the ligand coordinates in the PDB of the reference protein whose function is known are used as they are as the three-dimensional structure coordinates of the ligand in the input file, so that the entire three-dimensional structure that is appropriate as the protein model structure When the structure is constructed, it can be determined that the target protein having the amino acid sequence of the input file as a component interacts with the ligand whose function is known.
[0078]
In the protein structure predicting apparatus according to the eleventh aspect, in the protein structure predicting apparatus according to any one of the first to tenth aspects, when selecting the ligand coordinates, the three-dimensional structure coordinates of a large number of the ligands may be selected. If the ligand is selected from the database including the above, and a proper three-dimensional structure is constructed as a model structure of the protein, a second function estimating means for determining that the protein and the ligand having a known function interact with the ligand is further provided. It is characterized by having.
[0079]
According to this apparatus, when selecting ligand coordinates to be used as an input file, ligands were selected from a database containing the three-dimensional structure coordinates of a large number of ligands, and all three-dimensional structures appropriate as protein model structures were constructed. In this case, the function of the ligand can be estimated simultaneously with the construction of the protein by determining that the protein with a known function interacts with the ligand.
[0080]
The protein structure predicting device according to claim 12 is the protein structure predicting device according to any one of
[0081]
According to this device, when a new amino acid sequence and ligand coordinates, or one of which is new is used as an input file, and a proper three-dimensional structure is constructed as a protein model structure, the protein and the It is possible to provide a method for designing a novel molecule in which a ligand interacts and it is determined that both the protein and the ligand have a common function.
[0082]
The protein structure predicting device according to claim 13 is the protein structure predicting device according to any one of
[0083]
This more specifically illustrates one example of a ligand. According to this device, the ligand is regarded as another protein, and the entire three-dimensional structure of the target protein in a state where atoms constituting the other protein are bonded as a rigid body having an average atomic radius without electric polarity. The structure can be constructed using a homology modeling technique while calculating the interaction between the target protein and another protein.
[0084]
Further, the present invention relates to a program, wherein the program for causing a computer to execute the protein structure prediction method according to claim 14 obtains a target amino acid sequence which is an amino acid sequence of a target protein having an unknown structure. A target amino acid sequence obtaining step, a ligand coordinate obtaining step of selecting a ligand to be bound to the target protein, and obtaining a three-dimensional coordinate of the ligand, an average atom in which the atoms constituting the ligand molecule have no electric polarity An extended homology modeling step of constructing the entire three-dimensional structure of the target protein in a state of being bound as a rigid body having a radius using a homology modeling method while calculating the interaction between the target protein and the ligand. It is characterized by the following.
[0085]
According to this program, given the amino acid sequence of an arbitrary protein of interest, the range of application of the conventional homology modeling method can be increased while calculating the interaction between protein and ligand in the process of constructing the three-dimensional structure. 3D structure of the protein is constructed using a database that refers to the experimental structure, and for the main chain, using the same database as the side chain and molecular dynamics calculation such as simulated annealing. Expanded by enabling the system to simultaneously construct the entire three-dimensional structure of a protein in a state where the atoms that make up the ligand molecule are fully or automatically linked as a rigid body with an average atomic radius without electrical polarity Therefore, a conventional multi-chain model including a single chain using a conventional homology modeling method (eg, FAMS) is used. To extend the range of application of new homology modeling techniques and construct the three-dimensional structure of multi-chain proteins, including single chains, with ligands bound, using techniques that are not known or suggested in the literature. Can be.
[0086]
In addition, the method for constructing the three-dimensional structure of a multi-chain protein including a single chain with a ligand bound in this program can be applied to non-empirical modeling methods in addition to empirical modeling methods represented by homology modeling methods. is there.
[0087]
The program according to claim 15 is the program according to claim 14, wherein the extended homology modeling step includes, as an objective function serving as an index of the total energy when constructing the three-dimensional structure of the objective protein, The homology model is referred to using an interaction function calculated using an averaging parameter that does not depend on the type of ligand atom and / or a dynamic property parameter that reflects the dynamic property of the target protein. The method includes an objective function adjusting step of adjusting an objective function serving as an index of energy constrained to the position of an atom of the reference protein.
[0088]
This is a more specific example of the extended homology modeling step. According to this program, in the method of extended homology modeling, when constructing a three-dimensional structure, as an objective function that is an index of the overall energy used when constructing single-chain and multi-chain proteins, it depends on the type of atom of the ligand. Add a calculated interaction function using an averaged “averaging parameter” that is not simple and easy to handle, and further use a “dynamic property parameter” that reflects the dynamic properties of the protein, Adjust an objective function that is an index of energy constrained to the position of a protein atom to be referenced during modeling.
[0089]
In this way, the construction and optimization of the entire three-dimensional structure of the protein are performed simultaneously, and the actual structure of the ligand, which does not need to consider the types of ligand atoms that are normally handled strictly, is taken into account. And at the same time, by using the averaged parameters, the calculation process of the model structure of the protein to which various ligands are bound can be simplified and made more efficient.
[0090]
In addition, this makes it possible to form a complex of all substances including DNA, drug components, metals, ions, saccharides, nucleic acid components, hormones and multi-chain proteins including single chains, which were extremely difficult to handle with the conventional method. It becomes possible to construct a three-dimensional structure.
[0091]
In addition, this greatly expands the applicable range of the conventional method for constructing a protein three-dimensional structure, and the amino acid sequence, which is very important information for molecular design of agricultural chemicals and pharmaceuticals and for functional analysis of proteins, It is possible to construct a complete complex three-dimensional structure containing all substances involved in functioning in a living body.
[0092]
In addition, by incorporating the dynamic properties of the protein into the algorithm of the homology modeling method when creating the three-dimensional structure, it is very important especially for the functions of proteins such as pesticides and pharmaceuticals, and metals and hormones. It is possible to provide an accurate three-dimensional structure in the analysis of the interaction between a ligand and a protein.
[0093]
In addition, the method for constructing a three-dimensional structure of a protein having a plurality of chains including a single chain in a state in which the ligand is bound can be applied to an empirical modeling method other than an empirical modeling method represented by a homology modeling method. In addition, all substances can be handled as ligands, and the number is not limited in principle.
[0094]
The program according to claim 16 is the program according to claim 14, wherein the extended homology modeling step is a three-dimensional database of proteins having three-dimensional data in a state of forming a complex with the ligand. The method further comprises a reference protein search step of searching for a reference protein from.
[0095]
This is a more specific example of the extended homology modeling step. According to this program, when using the extended homology modeling technique, a reference protein is searched from a three-dimensional structure database classified based on, for example, the presence or absence of a ligand. Since the partial structure consisting of the chain and Cβ is searched from the three-dimensional structure database classified according to the presence or absence of the ligand, it is possible to improve the accuracy of the structure of the protein model created by homology modeling, particularly the structure of the ligand binding site.
[0096]
In addition, an existing database such as a protein data bank (PDB) may be used as the protein three-dimensional structure database. Here, the PDB contains, in addition to the three-dimensional structure of the protein, a state in which a ligand molecule such as DNA, metal, or drug whose constituent atoms are other than amino acids forms a complex with the protein, or a plurality of proteins. The three-dimensional structure is registered in the state where the complex is formed. Such a database is created, for example, by creating a database that is distinguished based on the presence or absence of a complex of a protein with DNA, a metal, or a drug, and whether or not the protein is a complex. I have.
[0097]
As described above, it is not performed in the conventional method to prepare and use a plurality of reference protein three-dimensional structure databases depending on the presence or absence of a ligand. Creating a three-dimensional structure can be realized.
[0098]
The program according to claim 17 is the program according to claim 16, wherein the extended homology modeling step performs normal frequency calculation on the three-dimensional structure of the reference protein, and then performs the three-dimensional structure of the reference protein. The method further includes a reference protein structure changing step of using, as a three-dimensional structure of a new reference protein, coordinates obtained by changing the potential energy from the minimum state to the intrinsic vibration direction of the protein.
[0099]
This is a more specific example of the extended homology modeling step. According to this program, after calculating the normal vibration of the three-dimensional structure of the reference protein, the coordinates obtained by changing the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the inherent vibration direction of the protein are calculated as the three-dimensional structure of the new reference protein. As a result, it becomes possible to improve the accuracy of the structure of the protein model created by homology modeling, particularly the structure of the ligand binding site.
[0100]
Here, coordinates obtained by changing the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the intrinsic vibration direction of the protein after the normal vibration calculation are stored as a database, and searched based on the code number of the reference protein. Can be. Conventionally, preparing and using a plurality of three-dimensional structure databases of such reference proteins has not been performed by conventional methods. can do.
[0101]
The program according to claim 18 is the program according to any one of claims 15 to 17, wherein the dynamic property parameter is a dynamic behavior of the target protein, which is used for normal vibration analysis of the reference protein. It is characterized by data of fluctuation around normal temperature obtained from calculation and / or data of fluctuation of each secondary structure obtained from the secondary structure judgment result of the reference protein.
[0102]
This shows one example of the dynamic property parameter more specifically. According to this program, at the time of optimization using an objective function serving as an index of the energy of the position of an atom of a reference protein, the dynamic behavior of the protein is referred to as a parameter reflecting the dynamic properties of the protein. The purpose is to use the data of fluctuation around normal temperature obtained from the calculation of normal frequency analysis of protein, or the data of fluctuation of the three-dimensional structure of α helix and β sheet obtained from the secondary structure judgment result of reference protein as a substitute. The function is incorporated into the function and used to create a model of the protein bound with the ligand.
[0103]
Here, the dynamic properties of a protein taken as a parameter include, for example, a molecule obtained from a normal vibration calculation method, which constitutes a protein with the magnitude of a long-period thermal fluctuation mainly composed of temporally pico-order vibration. It can be obtained by quantifying and assigning each atom.
[0104]
The method of calculating the magnitude of the fluctuation using the normal vibration calculation method is not limited, but as an example, Wilson, E. et al. B. , Decius, J. et al. C. , And Cross, P .; C. 1955. Molecular Vibration. McGraw-Hill. For example, a method described in, for example, US Pat.
[0105]
Also, in this program, as a substitute for the normal vibration calculation method, data on the fluctuation of the three-dimensional structure of the α helix and β sheet obtained from the secondary structure determination result of the reference protein is used. For example, the portion that forms the α helix has a large fluctuation, and that portion is a parameter with a large numerical value.The portion that forms the loop has a small fluctuation, and that portion is a parameter with a small numerical value. It can be obtained by assigning to each atom.
[0106]
Here, as the software for determining the secondary structure of the reference protein, for example, DSSP, STRIDE and the like can be mentioned, but other methods can also be applied. Details of DSSP can be found in Kabsch, W .; & Sander, C.A. (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometric features. Biopolymers, 22: 2577-2637. Details of STRIDE can be found in Frenchman, D & Argos, P.S. (1995) Knowledge-based secondary structure assignment. Proteins: described in structure, function and genetics, 23, 566-579, and the like.
[0107]
The program according to claim 19 is the program according to any one of claims 14 to 18, wherein a terminator is added at the end of the amino acid sequence of each protein chain to the target amino acid sequence and the reference amino acid sequence. The method may further include a sequence correcting step of adding and / or adding a ligand presence symbol indicating the presence of the ligand.
[0108]
According to this program, in the method of extended homology modeling, the input format of the three-dimensional structure coordinates of the ligand to be added is devised by specifying the file name of the ligand coordinates when the program is started, so that the reference protein and the target protein can be compared. In the format of the sequence alignment, add a "terminator" such as a letter that indicates the end of the sequence of one protein chain, and add a "ligand" such as a letter indicating the presence of the added ligand after the sequence of the protein to which the ligand binds. Modify the array by adding "existence symbol".
For example, after “U” indicating the end of the sequence of one protein, Arabic numerals or Z as many as Arabic numerals are added as shown below.
(Amino acid sequence of one protein chain) U Arabic numeral (or Z of Arabic numeral) (Amino acid sequence of another protein chain)
[0109]
Here, "U" is a terminator indicating the end of the sequence of the protein chain, and Arabic numerals or "Z" in the Arabic numeral is a ligand presence symbol. By writing a plurality of special characters after the terminator "U" of the protein to which the ligand is bound, it is possible to indicate a break in the sequence of the protein consisting of a plurality of protein chains and the presence of the ligand, All three-dimensional structures of all proteins including chain proteins and apparently multiple chains including protein regions that can be experimentally determined can be fully automated.
[0110]
By devising the input file in this way, it is possible to construct a three-dimensional structure of a multi-chain protein including a single chain with a ligand bound only by manipulating the input file. When constructing a three-dimensional structure of a multi-chain protein including a single chain with a ligand bound, automatic processing can be performed by separately creating a program using the input file.
[0111]
In addition, regarding the three-dimensional structure of a multi-chain protein including a single chain in a state where the created ligand is bound, an input file is used for, for example, performing directory sorting and searching according to the presence or absence of a ligand and the type of ligand. The processing can be performed by creating a program, and the three-dimensional structure processing of a large amount of protein can be automatically and efficiently performed.
[0112]
In addition, U indicating the end of the sequence of one protein or a letter indicating the number of ligands to be added (Arabic numeral after U indicating the end of the sequence of one protein or Z of the number of Arabic numeral) is an amino acid. Other characters can be used other than the one-letter code representing.
[0113]
The program according to claim 20 is the program according to any one of claims 15 to 19, wherein the extended homology modeling step includes the step of combining the target protein and the ligand using the averaging parameter. An interaction function calculating step of calculating the interaction function by the following formula;
(Equation 8)
UligandIs the interaction function between the ligand and the protein
Kligand , Ε*, R*Is the averaging parameter independent of the ligand atom type
ri, jIs the distance between the i-th ligand atom and the j-th protein atom
Is further included.
[0114]
This more specifically shows an example of the interaction function using the averaging parameter. According to this program, the interaction function between the model protein and the ligand using simple and easy-to-handle averaged parameters independent of the atom type of the ligand is represented by this calculation formula. Index U of interaction energy withligandIs calculated.
[0115]
The specified values are shown below, but are changeable values and do not limit the scope of the claims.
Kligand = 10, ε*= 0.15, r*= 2.08
(When optimizing Cα coordinates, ε*= 0.046, r*= 1.9Xri, j +1.9)
[0116]
Thus, it is possible to construct a three-dimensional structure of a multi-chain protein including a single chain in a state where the ligand is bound, by reflecting the interaction between the ligand and the target protein. For example, the above function does not exist in the conventional FAMS, and in this method, the conventional processes are used in the process of constructing and optimizing the Cα atom, the process of constructing and optimizing the main chain atom, and the process of constructing and optimizing the side chain atom. The part obtained by adding the above-mentioned new interaction function to each objective function used in the FAMS of the method is a part newly corrected in the extended homology modeling method.
[0117]
This interaction function can be similarly applied as long as it is a well-known function in physical chemistry, and can be applied to non-empirical modeling methods as well as empirical modeling methods represented by homology modeling methods. .
[0118]
A program according to a twenty-first aspect is the program according to any one of the fifteenth to twentieth aspects, wherein the objective function adjustment unit includes an objective function of an energy index constrained to a position of an atom of the reference protein. UposIn contrast, when optimizing the three-dimensional structure of the protein, the Monte Carlo method is used to randomly move the positions of the atoms of the target protein in order to achieve energetically stable points. Function proportional constant (Kpos) And the magnitude of the perturbation (ΔYi) corresponding to the minute movement of the atomic position of the model protein in the Monte Carlo method from the position of the reference protein, and a constant dependent on a parameter using softness corresponding to the fluctuation of the protein as an index ( And an optimization step performed using Ti).
[0119]
This more specifically shows an example of optimization of a protein three-dimensional structure. According to this program, the objective function of the energy index (Upos), The Monte Carlo method is used to randomly move the positions of the model protein atoms toward energetically stable points when optimizing the protein three-dimensional structure. The proportionality constant (Kpos) And the magnitude of the perturbation (ΔYi) corresponding to the small movement of the atomic position of the model protein in the Monte Carlo method from the position of the reference protein, and the parameter (4), which is based on the softness corresponding to the fluctuation of the protein. A constant (Ti) is used.
[0120]
The objective function of the energy index (Upos) Is determined by the following equation.
(Equation 9)
UposIs a function that uses the energy related to the atomic position of a protein as an index.
KposIs the proportionality constant of the function related to the atomic position of the protein. (0 <Kpos <1)
XiIs the coordinate of the i-th residue of the target protein.
Xi *Is the coordinate of the i-th residue of the reference protein.
[0121]
Also, the proportionality constant (Kpos) Is determined by the following equation.
(Equation 10)
Si is a parameter reflecting the fluctuation value of the i-th residue. Si is a constant corresponding to a fluctuation that becomes smaller as the value of Ti becomes larger.
M is KposAn adjustment factor that makes 0 a value from 0 to 1.
[0122]
Here, Si having a positive value in each atom i is a number corresponding to the gradient of the potential energy around each atom when the potential energy of the protein is minimal, and has a small value when the gradient is gentle. . That is, if the fluctuation is large, KposIs a small value.
[0123]
The values shown in the above formulas are specified values, but are changeable values and do not limit the scope of the claims.
[0124]
The magnitude of the perturbation in the Monte Carlo method is obtained by the following equation.
(Equation 11)
ΔYiIs a perturbation (Å) added to the coordinates of the i-th residue of the target protein in the Monte Carlo method.
Xi preIs the coordinate of the i-th residue of the target protein before adding perturbation.
Xi pos tIs the coordinate of the i-th residue of the target protein after perturbation.
[0125]
ΔYiIs a function related to the added perturbation and follows the following equation.
(Equation 12)
Ti is the magnitude of fluctuation of the i-th residue.
P is ΔYiA random number generated while adjusting the norm (the magnitude of the vector) to a value larger than 0 and smaller than 5.
[0126]
Here, when the fluctuation is large, the gradient of the peripheral potential energy of the atom is small, and the added perturbation ΔYi May be large, and therefore KposIs a small value.
[0127]
The specified values described in the above expressions and the expressions are changeable values and functions, and do not limit the scope of the claims.
[0128]
Thereby, it is possible to construct a three-dimensional structure of a multi-chain protein including a single chain by appropriately reflecting the dynamic property of the three-dimensional structure of the protein using the dynamic property parameter. In this method, the objective functions used in the conventional FAMS in the process of constructing and optimizing the Cα atom, the process of constructing and optimizing the main chain atom, and the process of constructing and optimizing the side chain atom are described above. The part where the constants and functions are added is the part newly corrected in the extended homology modeling method. For example, in the SA method, such a correction corresponds to searching for a minimum point with the potential gradient of the three-dimensional structure of the protein reflecting the fluctuation, and if the function is to search for a global minimum, the function is similarly applied. It is possible to apply to non-empirical modeling methods as well as empirical modeling methods represented by homology modeling methods.
[0129]
The program according to claim 22 is the program according to any one of claims 14 to 21, wherein the step of obtaining the ligand coordinates is included in a protein data bank (PDB) of the reference protein. The present invention is characterized in that the three-dimensional structure coordinates of the ligand are obtained from the ligand coordinates, the ligand coordinates created using the molecular mechanics method or the molecular dynamics method, and / or the ligand coordinates searched from the existing ligand database.
[0130]
This shows one example of the ligand coordinate acquisition step more specifically. According to this program, the three-dimensional structure coordinates of the ligands in the input file are calculated using the ligand coordinates contained in the protein data bank (PDB) of the reference protein, the ligands prepared using the molecular mechanics method or the molecular dynamics method. By using at least one of coordinates, and at least one of ligand coordinates retrieved from an existing ligand database, the type and number of ligands to be used are not limited, and proteins, peptides, DNA, drug components, metals, ions, saccharides, and nucleic acids are used. By considering all substances including components and hormones as the ligands, the entire three-dimensional structure of the protein with a wide range of ligands can be simultaneously constructed using an efficient calculation method in a simplified calculation process.
[0131]
The program according to claim 23 is the program according to any one of claims 14 to 22, wherein the ligand of the reference protein is determined from the ligand coordinates contained in the protein data bank (PDB) of the reference protein. When the three-dimensional structure coordinates are obtained, if the entire three-dimensional structure that is appropriate as the target protein model structure is constructed, the target protein having the amino acid sequence of the input file as a component may interact with the ligand whose function is known. The method further includes a first function estimating step of determining.
[0132]
According to this program, in the extended homology modeling method, the ligand coordinates in the PDB of the reference protein whose function is known are used as they are as the three-dimensional structure coordinates of the ligands in the input file, so that all three-dimensional structures that are appropriate as the protein model structure are obtained. When the structure is constructed, it can be determined that the target protein having the amino acid sequence of the input file as a component interacts with the ligand whose function is known.
[0133]
Further, the program according to claim 24 is the program according to any one of claims 14 to 23, wherein, when the ligand coordinates are selected, a database containing a large number of the three-dimensional structure coordinates of the ligand is used. The method further comprises a second function estimating step of judging that the ligand is selected, and if the entire three-dimensional structure appropriate as a model structure of the protein is constructed, it is determined that the protein having a known function interacts with the ligand. .
[0134]
According to this program, when selecting ligand coordinates to be used as an input file, ligands were selected from a database containing three-dimensional coordinates of a large number of ligands, and all three-dimensional structures appropriate as protein model structures were constructed. In this case, the function of the ligand can be estimated simultaneously with the construction of the protein by determining that the protein with a known function interacts with the ligand.
[0135]
The program according to claim 25 uses the program according to any one of claims 14 to 24, wherein the novel amino acid sequence and the ligand coordinate or one of the two is novel. A third function estimating step of determining that the protein and the ligand interact with each other and that the protein and the ligand have a common function when an appropriate three-dimensional structure is constructed as a model structure of the protein; It is characterized by the following.
[0136]
According to this program, when a new amino acid sequence and / or ligand coordinates are used as an input file, and a proper three-dimensional structure is constructed as a model structure of a protein, the protein and the It is possible to provide a method for designing a novel molecule in which a ligand interacts and it is determined that both the protein and the ligand have a common function.
[0137]
The program according to claim 26 is the program according to any one of claims 14 to 25, wherein the ligand is a protein other than the target protein.
[0138]
This more specifically illustrates one example of a ligand. According to this program, by considering the ligand as another protein, the entire three-dimensional structure of the target protein in a state where the atoms constituting the other protein are bonded as a rigid body having an average atomic radius without electrical polarity The structure can be constructed using a homology modeling technique while calculating the interaction between the target protein and another protein.
[0139]
The present invention also relates to a recording medium, wherein a recording medium according to claim 27 records the program according to any one of claims 14 to 26.
[0140]
According to this recording medium, the program described in any one of claims 14 to 26 is realized by using a computer by causing a computer to read and execute the program recorded on the recording medium. And the same effect as each of these methods can be obtained.
[0141]
Further, the present invention relates to a method for predicting protein structure, wherein the method for predicting protein structure according to claim 28 comprises a step of obtaining a target amino acid sequence which is an amino acid sequence of a target protein having an unknown structure; A step of selecting a ligand to be bound to a target protein and obtaining a three-dimensional structure coordinate of the ligand; a state in which atoms constituting the ligand molecule are bound as a rigid body having an average atomic radius having no electric polarity. And an extended homology modeling step of constructing the entire three-dimensional structure of the target protein by using a homology modeling method while calculating the interaction between the target protein and the ligand.
[0142]
According to this method, when the amino acid sequence of an arbitrary target protein is given, the range of application of the conventional homology modeling method is increased while calculating the interaction between the protein and the ligand in the process of constructing the three-dimensional structure. 3D structure of the protein is constructed using a database that refers to the experimental structure, and for the main chain, using the same database as the side chain and molecular dynamics calculation such as simulated annealing. Expanded by enabling the system to simultaneously construct the entire three-dimensional structure of a protein in a state where the atoms that make up the ligand molecule are fully or automatically linked as a rigid body with an average atomic radius without electrical polarity Therefore, conventional multi-chain modeling including a single chain using a conventional homology modeling method (for example, FAMS, etc.) A method that is not known or suggested yet can extend the range of application of the new homology modeling method and construct the three-dimensional structure of a single-chain protein including a single chain with a ligand bound. .
[0143]
In other words, the present method treats the ligand as a rigid body that does not depend on the type of atom in the process of creating a three-dimensional structure for simplicity, in order to simplify multi-chain proteins including single chains with the ligand bound, and the dynamic behavior of the protein By optimizing using parameters and functions reflecting the above, a three-dimensional structure can be predicted in consideration of the calculation of the interaction between the protein and the ligand. This makes it possible to construct a three-dimensional structure of a protein that is more reliable and is more suitable for drug design and the like than a conventional method at a speed corresponding to even a large amount of genomic sequences analyzed worldwide.
[0144]
In addition, the method of constructing a three-dimensional structure of a multi-chain protein including a single chain in a state in which a ligand is bound in the present method can be applied to an empirical modeling method as well as an empirical modeling method represented by a homology modeling method. is there.
[0145]
The present invention also relates to an amino acid sequence database system. The amino acid sequence database system according to claim 29, wherein the amino acid sequence has a terminator added to the end of the amino acid sequence of each protein chain, and / or a ligand. The modified sequence to which the ligand existence symbol indicating the existence of is added is stored, and the atoms constituting the ligand molecule are combined as a rigid body having an average atomic radius without electric polarity using the modified sequence. The extended homology modeling that constructs the entire three-dimensional structure of the target protein using the homology modeling method while performing the interaction calculation between the target protein and the ligand is performed.
[0146]
According to this amino acid sequence database system, when an arbitrary amino acid sequence is given, the range of application of the conventional homology modeling method is changed to the three-dimensional structure coordinates of the ligand in the input file. In addition to the input file of the amino acids of the protein used in the construction, a terminal symbol and a character symbol representing the ligand are added, and the interaction between the protein and the ligand is calculated during the construction of the three-dimensional structure, and experiments are performed on the side chains. Expanded by using a database that refers to the structure, and by using a database similar to the side chain and a molecular dynamics calculation such as simulated annealing for the main chain so that the three-dimensional structure of the protein can be constructed. Automatically or manually, and the atoms constituting the ligand molecule have electrical polarity. All protein conformation in a state bound as a rigid body having an average atomic radius There can be built simultaneously.
[0147]
That is, in the input format of the amino acid sequence database system of the present invention, the existence and the number of the ligand to be added in the format of the sequence alignment between the reference protein and the target protein are written in letters (ligand) by modifying the input file format of the conventional method. (Existence symbol), and specify the file name of ligand coordinates when the program starts. This makes it possible to automatically construct a three-dimensional structure, and to comprehensively construct a three-dimensional structure. Furthermore, when viewing the created three-dimensional structure, the properties of the ligand can be known only from the input file.When saving the created three-dimensional structure to a file, for example, create a directory for each ligand and create By delivering a three-dimensional structure, it will be possible to organize the work, such as selecting and moving a three-dimensional structure, thereby improving work efficiency.
[0148]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of a protein structure prediction device, a protein structure prediction method, a program, and a recording medium according to the present invention will be described in detail with reference to the drawings. It should be noted that the present invention is not limited by the embodiment.
[0149]
[Summary of the present invention]
Hereinafter, the outline of the present invention will be described, and then the configuration, processing, and the like of the present invention will be described in detail.
[0150]
First, an outline of the present invention will be described below. Here, the homology modeling method (particularly, FAMS and the like developed by the present inventors) will be mainly described as a preferred and representative example, but the description is given as a representative example, and the present invention is not limited thereto. It is not done.
[0151]
The present invention relates to a protein automatic modeling system (FAMS: K. Ogata and H. Umeyama, Journal of Molecular Graphics and Modeling 18, 258-272, 2000) developed at the Department of Biomolecular Design, Faculty of Pharmacy, Kitasato University (Prof. Hideaki Umeyama). It extends the scope of application. Hereinafter, the outline of the present invention will be described in more detail.
[0152]
The present invention treats a ligand as a rigid body that does not depend on the type of atom in the process of creating a three-dimensional structure for simplification of a multi-chain protein including a single chain in a state where a ligand is bound, and reflects the dynamic behavior of the protein. By optimizing using parameters and functions, three-dimensional structure prediction can be performed in consideration of the calculation of the interaction between the protein and the ligand. This makes it possible to construct a three-dimensional structure of a protein that is more reliable and is more suitable for drug design and the like than a conventional method at a speed corresponding to even a large amount of genomic sequences analyzed worldwide.
[0153]
In the present invention, molecules that can be handled as ligands are not limited in type and number, and all substances including proteins, peptides, DNA, drug components, metals, ions, saccharides, nucleic acid components, and hormones are used as ligands. Can be considered. Thereby, for example, it is possible to construct a three-dimensional structure such as a complex of a multi-chain or single-chain protein and DNA, or a complex of a drug and a multi-chain or single-chain protein, thereby greatly expanding the applicable range compared to the conventional method. Can be. Further, the ligand is separately designed by using a calculation method such as a molecular mechanics method or a molecular dynamics method, and by applying this method, the molecular design of a pesticide, a pharmaceutical, or the like can be specifically performed.
[0154]
The input format of the three-dimensional structural coordinates of the ligand of the present invention is obtained by modifying the input file format of the conventional method and writing the presence and the number of the ligand to be added in the format of the sequence alignment between the reference protein and the target protein in characters. When starting the program, specify the file name of the ligand coordinates. This makes it possible to automatically construct a three-dimensional structure, and to comprehensively construct a three-dimensional structure. Furthermore, when viewing the created three-dimensional structure, the properties of the ligand can be known only from the input file.When saving the created three-dimensional structure to a file, for example, create a directory for each ligand and create By delivering a three-dimensional structure, it will be possible to organize the work, such as selecting and moving a three-dimensional structure, thereby improving work efficiency.
[0155]
The method for optimizing a protein three-dimensional structure using parameters and functions reflecting the dynamic behavior of the protein of interest according to the present invention can be applied to other than the calculation of the interaction between a protein and a ligand, and the three-dimensional structure of a protein containing no ligand It can be applied to the preparation, and the three-dimensional structure optimized by this method creates a more accurate three-dimensional structure in that it incorporates physicochemical properties such as the dynamic behavior of proteins compared to the conventional method You can also.
[0156]
Furthermore, when the optimization method of the present invention is applied to an existing protein having a three-dimensional structure such as an antibody-antibody, structural change and interaction are determined as functional information of an antigen site located on the protein surface in the antigen-antibody reaction. To help you understand the function quickly and accurately. This is very important information when applied to, for example, drug design using information obtained from such structural change coordinates.
[0157]
In the method for constructing a three-dimensional structure of a protein according to the present invention, the basic skeleton uses an empirical modeling method for a protein, in particular, a homology modeling method or a threading method. The three-dimensional coordinate determined as the three-dimensional structure of the protein is used as a template to be referred to. However, the homology of the amino acid sequence between the target protein to be modeled and the reference protein does not necessarily need to be high. For example, any protein that satisfies prescribed conditions such as E-Value may be used as the reference protein. it can. Also, for example, if modeling is performed on the interaction interface between a ligand and a protein, it is not always necessary that an experimental structure that can be referred to for the entire three-dimensional structure exists.
[0158]
Several terms are used herein and, unless otherwise indicated, have the following meanings.
[0159]
The “target protein” means a protein whose complete three-dimensional structure has not been determined by X-ray crystallography, NMR analysis, or the like, and for which a three-dimensional structure is to be constructed in the present invention. The amino acid sequence of this protein may be referred to as “target amino acid sequence”. For the target protein, the partial structure has been analyzed but the complete three-dimensional structure has not been obtained.The protein whose function has already been specified, the function whose function is predicted, and the amino acid sequence has been determined. There are some functions whose functions are unknown.
[0160]
The “reference protein” refers to a protein whose details of its three-dimensional structure have already been determined by X-ray crystallography or NMR analysis, and are referred to for alignment or optimization of atomic coordinates.
[0161]
"Alignment" means that when there is an amino acid sequence of two or more types of proteins, a mutual correspondence is established, and the method will be described in detail in the following description of each step.
[0162]
“Atomic coordinates” describes a three-dimensional structure in a three-dimensional space. It is the relative distance in three directions perpendicular to each other with a point in space as the origin, and is a vector quantity consisting of three numbers per atom excluding hydrogen atoms existing in the protein.
[0163]
FIG. 1 is a flowchart showing an example of a method for constructing a three-dimensional structure of a protein comprising a plurality of chains according to the present invention.
[0164]
As shown in FIG. 1, in this method, first, in step 10, an amino acid sequence of a protein having an unknown tertiary structure (hereinafter, may be referred to as “target amino acid sequence”) is prepared.
[0165]
In step 20, a protein structure to be referred to is selected from the three-dimensional structure database using FASTA, PSI-BLAST, or LIBRA, and alignment (alignment) with the amino acid sequence of the selected structure is performed.
[0166]
In step 30, amino acid sequences of a plurality of reference proteins of the same origin are selected from the search results.
[0167]
In step 40, the coordinates of the ligand that binds to the target protein are selected and obtained from the ligand three-dimensional structure database.
[0168]
In step 50, in the case of a single chain, the presence of the ligand is shown in the amino acid sequence of the reference protein, and the letter “Z” indicating the type and number of the ligand is added to the end of the amino acid sequence. Add "Z". If the protein has multiple chains, a letter “U” is put at the end of each amino acid sequence to indicate the presence of the ligand, and a “Z” letter indicating the type and number is added after “U”. Similarly, the sequence alignment is corrected by inserting "U" as a delimiter and "Z" as a symbol indicating the presence of a ligand at the corresponding position in the target amino acid sequence.
[0169]
In
[0170]
In step 70, based on the alignment information, a database in which the coordinates of the Cα atom, which is one of the constituent atoms in the amino acid, are sorted from the reference structure determined in step 30 by the presence or absence of a ligand, The parameter is obtained from a database in which the structural displacement of the reference protein is performed reflecting the properties, and the parameter obtained in
[0171]
In step 80, the main chain atom coordinates are added to the Cα coordinates obtained in step 70 according to the presence or absence of the ligand, and further added from the database in which the structural change of the reference protein is performed by reflecting the dynamic properties of the reference protein. Then, the parameters obtained in
[0172]
In step 90, a database in which the side chain coordinates are assigned to the main chain atom coordinates obtained in step 80 according to the presence or absence of the ligand, and further a database in which the structural displacement of the reference protein is performed by reflecting the dynamic properties of the reference protein In addition, the parameters obtained in
[0173]
In the present invention, steps 70, 80, and 90, which were conventionally limited to structural optimization using a single-chain or multi-chain reference structure, are modified, and step 60 is added to allow the single-chain or multi-chain reference structure to be used. This is different from the conventional FAMS in that it can handle a three-dimensional structure including a plurality of chains.
[0174]
[System configuration]
First, the configuration of the present system will be described. FIG. 2 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and conceptually shows only those parts of the configuration related to the present invention. This system enables communication between the protein
[0175]
In FIG. 2, a
[0176]
In FIG. 2, an
[0177]
Here, the
[0178]
In FIG. 2,
[0179]
Various databases and tables (amino acid sequence data file 106a to ligand coordinate
[0180]
Among these constituent elements of the
[0181]
The information stored in the amino acid
[0182]
The protein structure data file 106b is a protein structure data storage unit that stores three-dimensional structure information and the like regarding the three-dimensional structure of a protein. The protein structure data file 106b may be an external protein structure database accessed via the Internet, or may copy these databases, store original structure information, and further provide unique annotation information. May be added to the in-house database.
[0183]
The information stored in the protein structure data file 106b includes identification information for uniquely identifying a protein or complex, attribute information on various attributes of the protein or complex, and three-dimensional structure data of the protein or complex. It is configured in association with.
[0184]
The ligand coordinate
[0185]
The information stored in the ligand coordinate
[0186]
2, the communication
[0187]
2, the input / output
[0188]
2, the
[0189]
Among these, the target amino acid sequence obtaining unit 102a is a target amino acid sequence obtaining unit that obtains a target amino acid sequence that is an amino acid sequence of a target protein whose structure is unknown.
[0190]
The ligand coordinate acquisition unit 102b is a ligand coordinate acquisition unit that selects a ligand to be bound to the target protein and acquires the three-dimensional structure coordinates of the ligand.
[0191]
Here, the ligand coordinate acquisition unit 102b determines the ligand coordinates, the molecular mechanics method, or the molecular dynamics method included in the reference protein Protein Data Bank (PDB) (a type of external database provided by the external system 200). The three-dimensional structure coordinates of the ligand may be obtained from the ligand coordinates created using the ligand coordinates and / or the ligand coordinates retrieved from an existing ligand database (a type of external database provided by the external system 200).
[0192]
Further, the extended
[0193]
Here, FIG. 3 is a block diagram illustrating an example of the configuration of the extended
[0194]
In FIG. 3, the objective
[0195]
Here, FIG. 4 is a block diagram illustrating an example of the configuration of the objective
[0196]
In FIG. 4, the optimizing
[0197]
Returning to FIG. 3 again, the reference protein search unit 102i includes a three-dimensional structure database of a protein having three-dimensional structure data in a state of forming a complex with the ligand (for example, an external database provided by the
[0198]
Further, the reference protein structure changing unit 102j calculates the normal vibration of the three-dimensional structure of the reference protein, and then changes the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the inherent vibration direction of the protein. Is a means for changing the structure of a reference protein, which uses as a three-dimensional structure of a new reference protein. The reference protein structure changing unit 102j is a means for storing the changed coordinates in the protein structure data file 106b.
[0199]
The interaction
(Equation 13)
UligandIs the interaction function between the ligand and the protein
Kligand , Ε*, R*Is the averaging parameter independent of the ligand atom type
ri, jIs the distance between the i-th ligand atom and the j-th protein atom
[0200]
Returning to FIG. 2 again, the
[0201]
In addition, when the first
[0202]
When selecting the ligand coordinates, the second
[0203]
Further, the third
[0204]
The details of the processing performed by these units will be described later.
[0205]
[System processing]
Next, an example of the processing of the present system thus configured in the present embodiment will be described in detail again with reference to FIGS.
[0206]
Hereinafter, each step of the flowchart shown in FIG. 1 will be described in more detail with reference to FIGS.
[0207]
(Step 10: Obtain the target amino acid sequence which is the amino acid sequence of the target protein of unknown structure)
First, the protein
[0208]
The amino acid sequence of the target protein used here may be a sequence registered in a database or a sequence derived from any sequence such as a sequence analyzed for the first time. In addition, the sequence of a protein in which only a partial structure is analyzed can be a target of the three-dimensional structure construction in the present invention in order to obtain complete three-dimensional structure information.
[0209]
In addition, as a database used for preparing an amino acid sequence of a target protein, for example, “An Internet review: the complete neuroscientist scores the World Wide Web.” Bloom FE, Science 1996 (1990); GCRDb (The G-protein-coupled Receptor Database) in which details are described: HYPERLINK "http://www.gcrdb.uthscsa.edu/" http: // www. gcrdb. uhscsa. edu /, GPCRDB: HYPERLINK "http://www.gpcr.org/7tm/" http: // www. gpcr. org / 7tm /, ExPASy: HYPERLINK "http://www.expasy.ch/cgi-bin/sm-gpcr.pl" http: // www. expasy. ch / cgi-bin / sm-gpcr. pl, ORDB: HYPERLINK "http://ycmi.med.yale.edu/senselab/ordb/" http: // ycmi. med. yale. edu / senselab / ordb /, GeneBank: HYPERLINK "ftp://ncbi.nlm.nih.gov/genbank/genomes/" ftp: // ncbi. nlm. nih. gov / genbank / genomes /, PIR: http: // www-nbrf. geogeown. edu / pir / (National Biomedical Research Foundation (NBRF)), Swiss Plot: http: // www. expasy. ch / sprot / sprot-top. html (Swiss Institute of Bioinformatics (SIB), European Bioinformatics Institute (EBI)), TrEMBL (both URL and administrator are the same as Swiss Plot), TrEMBLNEW: both the same as SWlPt and ADWltPW ftp. ddbj. nig. ac. jp (Japan DNA Data Bank) and other human (H. sapiens), Drosophila (D. melanogaster), nematodes (C. elagans), yeast (S. cerevisiae), and Arabidopsis (A. thaliana) And the like. These databases are merely examples, and any database in which amino acid sequences of proteins are registered can be used.
[0210]
(Step 20: Database search and sequence alignment of reference amino acid sequence using alignment software such as FASTA, PSI-BLAST, LIBRA)
Next, the protein
[0211]
As software for performing the alignment, for example, FASTA, PSI-BLAST (Position-Specific Iterated BLAST), or LIBRA is preferably used.
[0212]
FASTA is a program that searches a three-dimensional structure database for a sequence having a high degree of coincidence with the target amino acid sequence, and calculates the final degree of coincidence between the target amino acid sequence and the reference protein as an e-value. Details of FASTA are described in "Effective protein sequence comparison." Pearson WR, (1996) Methods Enzymol; 266: 227-58.
[0213]
PSI-BLAST is programmed to perform profile alignment. For more information on PSI-BLAST, "Matching a protein sequence against a collection of PSI-BLAST-constructed position-specific score matrices." Schaffer AA, Wolf YI, Ponting CP, Koonin EV, Aravind L and Altschul SF, Bioinformatics 1999, 12 , 1000-11.
[0214]
PSI-BLAST, which performs profile alignment, is currently the best performing tool for detecting sequence similarity. This program draws information only from significant alignment relationships in the profile database and creates a site-specific score matrix of amino acid sequences. Next, the program searches the database for a site-specific score matrix created in place of the target protein sequence and a sequence with a high degree of matching from the database. The site-specific score matrix determines the number of times until no more significant alignment is detected. Each time they are updated, they are updated. Then, the final degree of coincidence between the site-specific score matrix and the reference protein is calculated as E value. E value quantitatively describes the random background noise that exists between matches between sequences. It also indicates how much the two sequences match, has the property of decreasing exponentially with respect to the score, and is useful as a method for setting a significant threshold for the result.
[0215]
In the present invention, when the alignment has a reliability of usually 98% or more, preferably 99% or more, it is appropriate to judge to create a three-dimensional structure of the target protein. In PSI-BLAST, the case where E value has a statistical value of usually 0.1 or less, preferably 0.01 or less corresponds to that.
[0216]
A homology search for the reference protein is performed from the three-dimensional structure database PDB using these, and a sequence alignment between the searched reference amino acid sequence and the target amino acid sequence is performed.
[0217]
Here, the reference protein is obtained from a public database such as a protein data bank (PDB), which is a database of sequences and coordinates obtained from a three-dimensional structure database.
[0218]
As of February 2002, 26243 three-dimensional structures have been registered in the PDB database, but those with a sequence identity of 95% or more are judged to be in the same category, and the longest sequence in the category is determined. In the case of the same length, the structure having the highest X-ray resolution was used as the representative of the category. The three-dimensional structure database used in the present invention is a database that collects these representatives. At the time of the present invention, 3922 representative structures are used as a PDB database.
[0219]
(Step 30: Select amino acid sequence of reference protein of the same origin as target protein from search results)
Then, the protein
[0220]
(Step 40: Selection and acquisition of ligand coordinates)
Next, the protein
[0221]
The ligand and its coordinates are preferably selected from data obtained when the ligand binds to the reference protein selected in step 30. Alternatively, ligand coordinates may be created and used by using a molecular mechanics method or a molecular dynamics method. Alternatively, ligand coordinates obtained from an existing ligand database may be used.
[0222]
The type and number of ligands to be selected are not limited.
[0223]
(Step 50: Correction of sequence alignment: a terminator (eg, “U”) and a ligand presence symbol (eg, “Z”) indicating the presence of a ligand are added to the end of each amino acid sequence of a plurality of chains including a single chain)
Next, the protein
[0224]
That is, when the target amino acid sequence is aligned with one or more protein chains of the same origin in step 30, modeling has conventionally been performed without considering the presence of a ligand. In addition, a letter "Z" indicating the presence of a ligand in the amino acid sequence of the reference protein and indicating the type and number of the ligand is added to the end of the amino acid sequence, and "Z" is similarly added to the end of the amino acid sequence of the target protein.
[0225]
If the protein has multiple chains, put the letter "U" at the end of each amino acid sequence, whereas if it is a single chain, put the letter "U" at the end of the amino acid sequence to indicate the presence of the ligand, and put a "Z" letter indicating the type and number. Add after "U". Similarly, the sequence alignment is corrected by inserting "U" as a delimiter and "Z" as a symbol indicating the presence of a ligand at the corresponding position in the target amino acid sequence.
[0226]
Hereinafter, an example of correction of the sequence alignment will be described below.
[0227]
(First example)
When one ligand is bound to the first protein chain of the multiple-chain (two) reference protein, “UZ” or “U1 (where“ 1 ”represents the number of the ligand presence symbol“ Z ”) Indicate). In the following examples, "A... A" indicates the amino acid sequence of the first protein chain, and "R... R" indicates the amino acid sequence of the second protein chain. .
> Target protein
AAAAAAAAAAAAAAAAAUZRRRRRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
> Reference protein
AAAAAAAAAAVVAAAUZRRRRRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
[0228]
Here, (U) means that U after the last protein chain can be omitted.
[0229]
(Second example)
When two ligands are bound to the first protein chain of a multi-chain (two) reference protein, “UZZ” or “U2 (where“ 2 ”indicates the number of the ligand presence symbol“ Z ”) Indicate).
> Target protein
AAAAAAAAAAAAAAAAAUZZRRRRRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
> Reference protein
AAAAAAAAAAVVAAAUZZRRRRRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
[0230]
Here, (U) means that U after the last protein chain can be omitted.
[0231]
(Third example)
When two ligands are bound to the second protein chain of the multi-chain (two) reference protein, “UZZ” or “U2 (where“ 2 ”indicates the number of the ligand presence symbol“ Z ”) Indicate).
> Target protein
AAAAAAAAAAAAAAAAAURRRRRRRRRRRRRRRRRRRRRRRRRRRRRRUZZ
> Reference protein
AAAAAAAAAAVVAAAURRRRRRRRRRRRRRRRRRRRRRRRRRRRRRUZZ
[0232]
(Fourth example): In the case of multi-chain protein modeling without a ligand, the description is as follows.
> Target protein
AAAAAAAAAAAAAAAAAURRRRRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
> Reference protein
AAAAAAAAAAVVAAAURRRRRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
[0233]
Here, (U) means that U after the last protein chain can be omitted.
[0234]
In this way, an alignment is prepared for simultaneously modeling all proteins of a plurality of chains including a single chain with the ligand bound.
[0235]
(Step 60: Acquisition of parameters representing dynamic behavior of target protein)
First, the protein
[0236]
First, a method of acquiring a parameter representing a dynamic behavior of a protein by the normal vibration analysis method by the objective
[0237]
The “normal vibration analysis method” means a method of approximating potential energy as a quadratic function of displacement, rigorously solving an equation of motion, and analyzing a minute vibration around the optimized structure. The equation of motion to be solved is the following equation (1) or (2).
[Equation 14]
It is.
[0238]
Also, ωkIs the eigenvalue, UikIs the eigenvector and δijIs Kronecker's Delta. Tij and VijIs the kinetic energy EkAnd the potential energy V, as shown in the following equations (3) and (4).
[Equation 15]
[0239]
Where qiIs the coordinate corresponding to the degree of freedom of vibration, qi 0Is the optimized coordinates, is qiIs the derivative with respect to time. AjkIs the group exercise QkAnd the individual atomic motion qjAnd is expressed by the following equation (5).
(Equation 16)
It is.
Where αkAnd δkIs determined by the initial conditions.
[0240]
Details of the above-described normal vibration analysis method are described in Wilson, E .; B. , Decius, J. et al. C. , And Cross, P .; C. 1955. Molecular Vibration. McGraw-Hill. It is described in.
Using the eigenvalues and eigenvectors obtained above with respect to the reference protein, the position fluctuation of each Cα atom at a certain temperature and a certain eigenvalue is calculated, and this fluctuation value is calculated as the fluctuation value of the amino acid containing Cα. I do. Using the alignment in step 50, the fluctuation value of each amino acid of the target protein is determined by comparing the target amino acid sequence with the reference sequence, and the corresponding amino acid residue pair is the same as the fluctuation value of the target protein as the reference protein. Is applied. If the value of the fluctuation cannot be obtained, a preset value is applied. The fluctuation value of each amino acid of the target protein thus obtained is used as a parameter representing the dynamic behavior of the target protein.
[0241]
Next, a method for acquiring a parameter representing a dynamic behavior of a protein by the secondary structure determination calculation by the objective
[0242]
Secondary structure determination is calculated from the three-dimensional structure coordinates of the protein. Examples of the software include, for example, “DSSP (Dictionary of protein secondary structure of protein)”, “STRIDE (Protein secondary structure associative atomic atomic thread of protein secondary atomic structure, and preferably a basic protein with a basic bond). A method determined from the pattern is used.
[0243]
Here, “DSSP” is software that analyzes a hydrogen bond pattern of a main chain, an internal rotation angle, and the like and determines an α helix and a β sheet using a file in a PDB format as an input file. Details of DSSP can be found in Kabsch, W .; & Sander, C.A. (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometric features. Biopolimers, 22: 2577-2637.
[0244]
“STRIDE” is software that uses a PDB format file as an input file, analyzes the hydrogen bonding pattern of the main chain, the internal rotation angle, and the like, and determines an α helix and a β sheet. Details of STRIDE can be found in Frenchman, D & Argos, P.S. (1995) Knowledge-based secondary structure assignment. Proteins: Structure, function and genetics, 23, 566-579.
[0245]
The secondary structure calculation is performed on the reference protein using the above software or the like, and the α-helix structure, β-sheet structure, and loop structure of each amino acid are determined. The secondary structure of each amino acid of the target protein is determined using the alignment in step 50 by comparing the target amino acid sequence with the reference sequence, and determining the secondary structure of the target protein in the corresponding amino acid residue pair. Put things on. If the secondary structure determination is not required, the result set in advance is applied. The secondary structure determination result of each amino acid of the target protein thus obtained is used as a parameter representing the dynamic behavior of the target protein.
[0246]
In addition, it is preferable to use a result obtained by a normal vibration analysis method of a reference protein as a parameter indicating the dynamic behavior of the target protein, and use the calculation result separately stored as a database. The secondary structure determination calculation result is preferably used as a substitute for the normal vibration analysis calculation when a reference protein on which the normal vibration analysis has not been performed is used.
[0247]
(Step 70: Construction and optimization of initial coordinates of Cα atom of target protein)
Next, the protein
[0248]
Then, the protein
[0249]
When the Cα atom was not determined in this way, a database of peptide fragments consisting of Cα atoms, which was previously prepared from PDB and divided according to the presence or absence of a ligand (K. Ogata and H. Umeyama, Journal of Molecular Graphics and Modeling 18,
258-272, 2000).
[0250]
When "Z" indicating the presence of a ligand is described in the sequence alignment, a fragment database created from the registered complex structure data of the PDB having the ligand is used. When "Z" is not described, the ligand is present. A fragment database created from the PDB structure data is used.
[0251]
As used herein, “Cα atom” means a carbon atom at the center of the skeleton of each amino acid.
[0252]
“Cβ atom” means a carbon atom bonded to the side chain side of the Cα atom.
[0253]
“C atom” means a carbon atom of a carbonyl group bonded to a Cα atom.
[0254]
Next, a method of generating the structural displacement three-dimensional structure coordinates of the reference protein obtained from the normal vibration analysis calculation result of the reference protein by the reference protein structure changing unit 102j will be described. The details are described in detail in the specification of the previously filed PCT application WO 02/057954.
[0255]
Using the eigenvalues and eigenvectors obtained by the above equations (1) to (5), the “position fluctuation” of the Cα atom at a certain temperature and a certain eigenvalue is calculated. Here, position fluctuation equal to the number of eigenvalues is obtained. The temperature factor of the Cα atom of the reference protein is converted into position fluctuation, the ratio of each Cα atom to the position fluctuation of the normal vibration analysis method is calculated, and the average ratio is determined. The average ratio is equal to the number of eigenvalues used, and the eigenvector belonging to this eigenvalue multiplied by the ratio is added to the atomic coordinates of the reference protein, and the three-dimensional structure consisting of the displaced atomic coordinates is regarded as one of the displaced three-dimensional structures. I do. Further, the average ratio is doubled to similarly create a displacement three-dimensional structure of the reference protein. The eigenvector has forward and reverse directions, and the eigenvector is similarly changed in the reverse direction by multiplying by -1. That is, the displacement structure has only four times the number of eigenvalues used. The equations to be calculated are as shown in the following equations (6) to (10).
[0256]
The relationship between the temperature factor and the position fluctuation is as shown in the following equation (6).
[Equation 17]
Here, Bi is a temperature factor of an atom obtained from the PDB file, π is a circular constant, and Di is equivalent to position fluctuation.
[0257]
The ratio between the position fluctuation obtained from the reference vibration method and the position fluctuation obtained by converting the temperature factor of the PDB file is as shown in the following equation (7).
(Equation 18)
Where FivIs the position fluctuation of the i-th atom with respect to the v-th eigenvalue obtained from the normal vibration analysis method.
[0258]
The average of the ratio is as shown in the following equation (8).
[Equation 19]
Here, N is the number of atoms, and the sum is performed on the atoms. MvIs the ratio of the mean to the vth eigenvalue.
[0259]
The displacement structure atomic coordinates of the three-dimensional structure of the reference protein are as shown in the following formulas (9) and (10).
(Equation 20)
Where Cik 0Is the atomic coordinates of the reference protein, Vik vRepresents an eigenvector component belonging to the v-th eigenvalue.
[0260]
Reference protein displacement coordinates are performed on coordinates registered in the PDB, and a database is created and used.
[0261]
All the databases created above are used for constructing the Cα atom of the target protein, but it is preferable to use coordinates that cause less steric collision between the ligand selected in step 40 and the target protein.
[0262]
(Step 70 (1): Optimization by Simulated Annealing Method of Cα Atom)
Then, the protein
[0263]
The objective function is as shown in the following equation (11). One of the important differences between the conventional method and the present invention is the interaction potential between the ligand obtained in step 40 in formula (11) and the target protein, UligandIs added, and the potential for the position of the Cα atom, UposAnd UligandIs modified as follows by using parameters representing the dynamic properties of the reference protein obtained in step 50.
(Equation 21)
[0264]
ElenIs related to the distance between Cα atoms of adjacent residues on the sequence, and is set as in the following formula (12).
(Equation 22)
[0265]
Where Di, i + 1Is the distance between Cα of residue i and residue i + 1. Kl Is a constant and is set to 2. However, the C-terminal residue k of the first protein chain1And the N-terminal residue k of the second protein chain1 +1Since no chemical bond exists between i = k1E forlenNot included in the calculation. Similarly, the C-terminal residue k of the Nth protein chainNAnd the N-terminal residue k of the (N + 1) th protein chainN Since there is no chemical bond between +1, i = kNE forlen(Hereinafter, such an operation is referred to as disconnection of the interaction.) If the total number of protein chains is M, this operation is performed from N = 1 to M−1, and k1To kM-1Are the delimiters U in the alignment created in step 50.1To UM-1Can be specified by the position of U up to.
[0266]
Next, EangIs a function of the bond angle of the Cα atom and is as shown in the following equation (13).
(Equation 23)
[0267]
Where θi (Rad) is the angle of the Cα atom at the i, i + 1, i + 2nd residue. θ0Is set to (100/180) π (rad) from the X-ray structure of the PDB. KaIs a constant
Let it be 1. However, the potential E of the bond angleangAbout ElenThe same cutting operation as described above is performed. That is, i = kN -1 and i = kNIf EangNot included in the calculation. The range of this cutting operation and k1To kM-1Specify the residue number up to ElenPerform in the same manner as
[0268]
Then EvdwIs a van der Waals potential between Cα atoms, as shown in the following equation (14).
[Equation 24]
[0269]
However, the C-terminal residue k of the first protein chain1And the N-terminal residue k of the second protein chain1Since there is no chemical bond between +1, i = U1If -1, j> i + 1, i = U1If j> i, EvdwMust be calculated. Similarly, the C-terminal residue k of the Nth protein chainNAnd the N-terminal residue k of the (N + 1) th protein chainN Since there is no chemical bond between +1, i = UNIf -1, j> i + 1, i = UUNThen, if j> i, EvdwMust be calculated. If the total number of protein chains is M, this operation is performed from N = 1 to M−1, and k1To kM-1Are the delimiters U in the alignment created in step 50.1To UM-1Can be specified by the position of U up to.
[0270]
Next, EssIs related to the distance between the Cα atoms of the Cys residues constituting an SS bond as a pair, and is set as in the following formula (15).
(Equation 25)
[0271]
Where Di SSIs the distance between Cα between pairs of Cys residues that form disulfide bonds within and between protein chains. In the present invention, since the serial number for the entire protein chain is used for residue number i, EssCan be handled by the potential function of the conventional method. KSS Is a constant and is set to 5.
[0272]
Next, Upos,Is a function related to the position of the Cα atom, and is as shown in the following equation (16).
(Equation 26)
[0273]
Where UposIs a function using the energy related to the atomic position of the protein as an index, and KposIs the proportionality constant of the function related to the atomic position of the protein (0 <Kpos <1).
[0274]
Also, XiIs the coordinate of the i-th residue of the target protein, and Xi *Is the coordinate of the i-th residue of the reference protein.
[0275]
The proportionality constant (Kpos) Is set as in the following equation (17).
[Equation 27]
Si is a parameter reflecting the fluctuation value of the i-th residue, and Si is a constant corresponding to the fluctuation that decreases as the value of Ti increases.
M is KposIs an adjustment factor for setting the value to 0 to 1.
[0276]
The magnitude of the perturbation in the Monte Carlo method is set as in the following equation (18).
[Equation 28]
Where ΔYiIs a perturbation (Å) added to the coordinates of the i-th residue of the target protein in the Monte Carlo method.
Xi preIs the coordinate of the i-th residue of the target protein before adding perturbation.
Xi pos tIs the i-th coordinate of the target protein after perturbation.
[0277]
ΔYiIs a function related to the added perturbation, and follows the following equation (19).
(Equation 29)
Ti is the magnitude of the fluctuation of the i-th residue.
P is ΔYiIs a random number generated while adjusting the norm (the magnitude of the vector) to a value larger than 0 and smaller than 5.
[0278]
Here, when the fluctuation is large, the gradient of the peripheral potential energy of the atom is small, and the added perturbation ΔYi May be large, and therefore KposIs a small value.
[0279]
In the above equations (17) and (19), the parameter representing the dynamic property of the reference protein obtained in
[0280]
As a specific example, when the parameter of the fluctuation value representing the dynamic property is used by the normal vibration analysis method, first, the amino acid having a large fluctuation value according to the magnitude of the fluctuation value of each amino acid of the target protein For residues, Kpos approaches 0 and ΔYY approaches 5. On the other hand, for amino acid residues having small fluctuation values, values are set to Si and M, P and T so that Kpos approaches 1 and ΔY approaches 0.
[0281]
When secondary structure determination is used, ΔY is set to 5 so that amino acid residues of the target protein are determined to have an α helix or β sheet structure, and Kpos approaches 0. Try to get closer. On the other hand, the amino acid residues of the protein of interest are determined to have an α-helix or a non-β-sheet structure in Si, M, P, and Ti such that Kpos approaches 1 and ΔY approaches 0. Set the value.
[0282]
Also, UligandIs a function related to the interaction potential between the ligand and the target protein, and is represented by the following equation (20).
[Equation 30]
UligandRepresents the interaction function between the ligand and the protein.
Kligand , Ε*, R*Is an averaged parameter that does not depend on the ligand atom type.
ri, jIs the distance between the i-th ligand atom and the j-th protein atom.
[0283]
The specified values are shown below, but are changeable values and do not limit the scope of the claims.
ε*= 0.046, r*= 1.9Xri, j +1.9
The Cα atom is optimized using a simulated annealing method according to equation (11). At the stage of this optimization, the perturbation of Cα atoms is set to be within 1.0 °. This annealing step is calculated, for example, 100 times for all Cα atoms. Then, the parameter corresponding to the temperature is reduced by, for example, 0.01 from 25 every 0.5 times, and the parameter is kept constant thereafter.
[0284]
The two major steps, acquisition of structural information and construction of Cα atoms, are repeated, for example, ten times, and the coordinates of the Cα atom having the minimum objective function value are calculated as the optimal solution.
[0285]
(Step 80: Construction and optimization of main chain atomic coordinates)
Next, the protein
[0286]
First, three-dimensional superposition of Cα atoms is performed, and residues having a Cα interatomic distance of 2.5 ° or less are picked up. The atomic coordinates of the main chain excluding Cα are obtained from the coordinates of the reference protein so that the distance between Cα atoms is minimized, and used as a model structure.
[0287]
If there is no corresponding residue in the reference protein, use a database in which the atomic coordinates of the main chain are separated according to the presence or absence of the ligand. For example, if the target protein contains a ligand, the database with the ligand Made from the corresponding 4-residue protein fragment in.
[0288]
When there is no ligand in the target protein, a database of four-fragment protein fragments having no ligand is used. In this process, the main chain atom of residue i is selected from the residue having the smallest rmsd value between the (i-1) th and (i + 2) th Cα atoms. At this time, in the N-terminal residue, the overlapping range of the Cα atomic coordinates is from the i-th to the (i + 3) -th. From -2 to i + 1.
[0289]
The coordinates of the main chain atom are optimized by a simulated annealing method based on the objective function of the main chain atom. The objective function is as shown in the following equation (21). One of the important differences between the conventional method and the present invention is the interaction potential between the ligand and the target protein obtained in step 40 in the equation (21).ligandIs added, and the potential for the position of the Cα atom, UposAnd UligandIs modified as follows by a parameter representing the dynamic property of the reference protein obtained in step 50.
[Equation 31]
[0290]
EbondIs as shown in the following equation (22).
(Equation 32)
i = UN (N = 1, M-1) And bi= DCi, Ni + 1Then bi −bi 0= 0 (22)
[0291]
Where bi 0Is a standard bond length, which differs depending on the type of each chemical bond. KbIs a constant and is 225. EbondAlso for the calculation oflenSimilarly, the C-terminal residue k of the Nth protein chainNAnd the N-terminal residue k of the (N + 1) th protein chainN Since there is no chemical bond between +1bondBreak the interaction without including it in the calculation of. If the total number of protein chains is M, this operation is performed from N = 1 to M−1, and k1To kM-1Are the delimiters U in the alignment created in step 40.1To UM-1Can be specified by the position of U up to.
[0292]
EangIs a function of the bond angle, as shown in the following equation (23).
[Equation 33]
[0293]
Where θi 0Is a standard bond angle, which differs depending on the type of each bond angle. KaIs set to 45 as a constant. EangThe calculation ofbondSimilarly, the C-terminal residue k of the Nth protein chainNAnd the N-terminal residue k of the (N + 1) th protein chainN Since there is no chemical bond between +1angBreak the interaction without including it in the calculation of. If the total number of protein chains is M, this operation is performed from N = 1 to M−1, and k1To kM-1Are the delimiters U in the alignment created in step 40.1To UM-1Can be specified by the position of U up to.
[0294]
EtorIs the torsion angle of the main chain, and is as shown in the following formula (24).
[Equation 34]
i = UN (N = 1, M-1)Nara ψI− Ψi 0= Ωi − ωi 0 = Φi + 1− Φi + 1 0= 0 (24)
[0295]
Where φi 0And ψi 0Is the φ of the closest torsion angle on the Ramachandran map.i And ψi And Also ωi 0Is set to 0 and π (rad) only in the case of a cis-Pro residue. KtAnd Kω are constants, and are 10 and 50, respectively. EtorThe calculation ofangSimilarly, the C-terminal residue k of the Nth protein chainNAnd the N-terminal residue k of the (N + 1) th protein chainN Since there is no chemical bond between +1torBreak the interaction without including it in the calculation of. If the total number of protein chains is M, this operation is performed from N = 1 to M−1, and k1To kM-1Are the delimiters U in the alignment created in step 40.1To UM-1Can be specified by the position of U up to.
[0296]
Enon-bondIs a function of non-bonding interaction, as shown in the following equation (25).
(Equation 35)
[0297]
Where εij And rij* Is a constant and depends on the type of atom. KnonIs a constant of 0.25, and the cutoff value is 8 °. Enon-bondAlso for the calculation ofvdWSimilarly, the C-terminal residue k of the Nth protein chainNAnd the N-terminal residue k of the (N + 1) th protein chainNSince there is no chemical bond between +1, i = UN (N = 1, M-1) In the case of [rNi, Ni + 1RCαi, Ni + 1RCαi, Cαi + 1RCi, Ni + 1RCi, Cαi + 1RCi, Cβi + 1RCi, Ci + 1ROi, Ni + 1 ROi, Cαi + 1R belonging toij Is less than 8Å, a new Enon-bondMust be included in the calculation of If the total number of protein chains is M, this operation is performed from N = 1 to M−1, and k1To kM-1Are the delimiters U in the alignment created in step 40.1To UM-1Can be specified by the position of U up to.
[0298]
ESSIs a function of a disulfide bond generated by a Cys residue, and is represented by the following formula (26).
[Equation 36]
Where Di C αAnd Di C βIs the distance between Cα and Cβ between pairs of Cys residues that form disulfide bonds within and between protein chains. In the present invention, since the serial number for the entire protein chain is used for residue number i, EssCan be handled by the potential function of the conventional method. KSS Cα and KSS C βIs a constant and is 7.5.
[0299]
EchiIs related to the chirality of Cα, and is as shown in the following equation (27).
(37)
Where τiIs the torsion angle defined by N-Cα-Cβ-C and Kchi Is 50.
[0300]
EhydrIs related to the backbone hydrogen bond conserved in homologous proteins, and is defined as in the following formula (28).
[Equation 38]
[0301]
Hydrogen bonds are set when the distance between N atoms and O atoms is 2.9 ± 0.5 °. When determining whether or not there is a hydrogen bond in a plurality of reference proteins, it is determined that there is a hydrogen bond when it is recognized that 75% or more of the reference proteins are present. KhydrIs a constant and is 0.6.
[0302]
UposIs a function relating to the position of an atom, as shown in the following equation (29).
[Equation 39]
UposIs a function using the energy related to the atomic position of the protein as an index.
KposIs the proportionality constant of the function related to the atomic position of the protein (0 <Kpos <1).
XiIs the coordinate of the i-th residue of the target protein.
Xi *Is the coordinate of the i-th residue of the reference protein.
[0303]
Also, the proportionality constant (Kpos) Is set by the following equation (30).
(Equation 40)
Si is a parameter reflecting the fluctuation value of the i-th residue.
Si is a constant corresponding to the fluctuation that becomes smaller as the value of Ti becomes larger.
M is KposIs an adjustment factor for setting the value to 0 to 1.
[0304]
The magnitude of the perturbation in the Monte Carlo method is set by the following equation (31).
(Equation 41)
ΔYiIs a perturbation (Å) added to the coordinates of the i-th residue of the target protein in the Monte Carlo method.
Xi preIs the coordinate of the i-th residue of the target protein before adding perturbation.
Xi pos tIs the i-th coordinate of the target protein after perturbation.
[0305]
ΔYiIs a function related to the added perturbation, and follows the following equation (32).
(Equation 42)
Ti is the magnitude of the fluctuation of the i-th residue.
P is ΔYiIs a random number generated while adjusting the norm (the magnitude of the vector) to a value larger than 0 and smaller than 5.
[0306]
Here, when the fluctuation is large, the gradient of the peripheral potential energy of the atom is small, and the added perturbation ΔYi May be large, and therefore KposIs a small value.
[0307]
In the above equations (30) and (32), the parameter representing the dynamic property of the reference protein obtained in
[0308]
As a specific example, when the parameter of the fluctuation value representing the dynamic property is used by the normal vibration analysis method, first, the amino acid having a large fluctuation value according to the magnitude of the fluctuation value of each amino acid of the target protein Residues such as Kpos approaching 0, ΔY approaching 5, and amino acid residues having small fluctuation values such that Kpos approaching 1 and ΔY approaching 0 so that Si and M, P And set a value to T. When the secondary structure determination is used, the amino acid residue of the target protein is determined to have an α helix or β sheet structure, so that Kpos approaches 0 and ΔY approaches 5 for amino acid residues determined to have an α helix or β sheet structure. In addition, the amino acid residues of the target protein are determined to have an α-helix or a non-β-sheet structure in Si and M, P and Ti such that Kpos approaches 1 and ΔY approaches 0, such that Kpos approaches 1. Set the value.
[0309]
UligandIs a function related to the interaction potential between the ligand and the target protein, and is represented by the following equation (33).
[Equation 43]
UligandRepresents the interaction function between the ligand and the protein.
Kligand , Ε*, R*Is an averaged parameter that does not depend on the ligand atom type.
ri, jIs the distance between the i-th ligand atom and the j-th protein atom.
[0310]
The specified values are shown below, but are changeable values and do not limit the scope of the claims.
Kligand = 10, ε*= 0.15, r*= 2.08
[0311]
Next, optimization of main chain atoms including Cβ is performed by simulated annealing. In the course of this annealing, the perturbation of the main chain and Cβ atoms is made within 1.0 ° with respect to the initial position. This annealing step is performed, for example, 200 times on the main chain and Cβ atoms. The parameter corresponding to the temperature starts from, for example, 50 or 25, is multiplied by 0.5 each time, continues until it reaches 0.01, and then has a constant value.
[0312]
In order to widely sample the configuration of the main chain, in the method of the present invention, the above method is preferably performed, for example, six times, and the atomic coordinates of the main chain having the minimum objective function value are determined as the optimal solution. The parameters corresponding to the temperature are, for example, starting from 50 for the first two times and starting from 25 for the third time.
[0313]
(Step 90: Construction and optimization of side chain atomic coordinates)
Next, the protein
[0314]
(Step 90 (1): Construction of Side Chain of Structure Conservation Site)
For the calculated backbone atoms, we obtain the side-chain torsion angles from homologous proteins using the methods in previous studies. Details of this method can be found in "The role of played by environmental resines in side-chain torsion angles angels with homologous families of odes in a part of a new technology. Struct. Funct. Genet. 1998, 31, 255-369.
[0315]
In this method, the proportion of the conserved side chains in the homologous protein is calculated, and the side chains are modeled based on this information. The atomic coordinates of the side chain at the conserved side chain positions are relative to the fixed main chain atom.
[0316]
For example, if the χ1 angle of the arginine residue is conserved in a homologous protein, the coordinates of the Cγ atom can be placed, and the χ1And χ2If the corners are preserved, all side chain atoms can be placed.
[0317]
In the optimization process of the simulated annealing using the equation (21), only the main chain and Cβ atoms are performed, and the perturbation of the atoms is set to, for example, 1.0 ° or less. The step of annealing the main chain and Cβ atoms is performed, for example, 200 times. Then, the parameter corresponding to the temperature is, for example, started from 25 and is multiplied by 0.5 each time so as to decrease to 0.01. E in equation (21)non-bondIs performed on the main chain atoms and partially created side chain atoms. At that time, the coordinates of the side chain atoms are preserved throughout the optimization process.
[0318]
M which is the information of the structureiAnd a pair of hydrogen bonded N—O are used in the process of optimization. In order to obtain the arrangement of the main chain atoms, the above process is repeated three times, and the coordinates of the minimum main chain atom of the objective function are set as a calculation structure.
[0319]
(Step 90 (2): Construction of Whole Side Chain)
The construction of the side chains is performed under a fixed main chain and Cβ atoms. This is described in Ogata K and Umeyama H, Prot. Struct. Funct. Genet. 1998, 31, 255-369, and can be used to provide an accurate model in a short time.
[0320]
Next, the main chain structure is optimized by the Monte Carlo method at a low temperature, the temperature is set to, for example, 0.001, and the objective function E of the equation (21) is set.non-bondAnd is calculated for all main and side chain atoms.
[0321]
Then, the coordinates of the side chains are rearranged so that the twist angle of the side chains is maintained in an optimized state in the process of optimizing the N, Cα, C, and Cβ atoms. The perturbation of atoms is, for example, within 0.5 °. The side chains are then deleted and the above side chain construction is repeated. This process is repeated until the 2.4 ° atoms no longer collide with each other and the twist angle of N-Cα-Cβ-C falls within the range of, for example, -120 ± 15 °.
[0322]
(Step 100: Construction of final structure: three-dimensional structure prediction)
Next, the protein
[0323]
Based on the alignment obtained in step 50 as described above, a three-dimensional structure is constructed using modeling software such as ligand FAMS newly developed in
[0324]
The method shown in steps 60-90 is referred to as "ligandFAMS". On the other hand, the conventional homology modeling software that forms the basis of the present invention is referred to as “FAMS”, and details thereof are described in Koji Ogata and Hideaki Umeyama, “An automatic homeomorphic modulating method of various approaches from the following guidelines. 18, 258-272, 2000.
[0325]
According to the present invention, the prediction of the three-dimensional structure of a protein having an unknown three-dimensional structure (including a gene encoding the same) composed of a plurality of chains including a single chain in a state in which a ligand is bound can be dealt with conventionally except for natural amino acids. In addition to the homology modeling method, we introduced a function that can handle ligand atoms and a database, and added a ligand existence to the input file, and created a system that can build all three-dimensional structures at high speed. .
[0326]
As a result, the three-dimensional structure of a complex of all substances including DNA, drug components, metals, ions, saccharides, nucleic acid components, hormones and multi-chain proteins including single chains, which were difficult to handle with conventional methods, was As a result, the applicable range of the three-dimensional structure construction can be greatly expanded, and highly reliable three-dimensional structure information can be obtained.
[0327]
Furthermore, by adding ligand information to the input file, it becomes easier to analyze the relationship between homology using the amino acid sequence (including the homology between the reference protein and the target protein) and the ligand that binds to it. When an interesting gene or protein is found by expression profiling analysis, proteome analysis, or the like using a DNA chip, the function prediction based on the three-dimensional structure of the protein becomes more efficient than the conventional method.
[0328]
Further, since the functional site of the protein is predicted with higher accuracy than the conventional method, information for designing a new drug more efficiently and effectively can be obtained.
[0329]
[Example]
Hereinafter, an example of a protein structure prediction apparatus, a protein structure prediction method, a program, and a specific example of protein structure prediction using a recording medium of the present invention will be described in detail.
[0330]
[Modeling Example of Matrix Metalloproase-12 with Batimastat Bound]
First, the details of the processing of the modeling example of the matrix metalloproase-12 in a state in which Batimastat is bound will be described with reference to FIGS. There are many families of matrix metalloproteases (hereinafter abbreviated as MMPs), and their tertiary structures have been analyzed in many cases. Among them, MMP-12 binds to a drug called Batimastat, and its three-dimensional structure is known. Here, it was assumed that the three-dimensional structure of MMP-12 in the state where Batimastat was bound was unknown, and a three-dimensional structure was constructed according to the method described in detail in the embodiment of the invention. The created three-dimensional structure was compared with the existing three-dimensional structure and the structure created by the conventional method (FAMS).
[0331]
The primary amino acid sequence of MMP-12 was obtained from Swiss-Prot (entry name MM12_HUMAN, accession number P39900).
[0332]
Here, FIG. 5 is a view showing the entire amino acid sequence of MMP-12 derived from HUMAN (see SEQ ID NO: 1 in the sequence listing). As shown in FIG. 5, the three-dimensional structure of MMP-12 with 470 residues and 158 residues at the 106th to 263rd underlines bound to Batimastat has been analyzed (PDB ID: 1JK3, Lang, R., Kocourek). A., A., Braun, M., Tscheche, H., Huber, R., Bode, W., Maskos, K .: Substrate Specialty Determinants of Modern Macroepartment. J. Mol. Biol. 312 pp. 731 (2001)).
[0333]
Thus, using the 158 residues as a query, the PIR as of November 2001 was used as a motif profile, and a PSI-BLAST search was performed on the 39012 sequence of the PDB protein amino acid sequence database (as of April 2002). As a result of performing under the condition that the E-value was 0.001 or less, an alignment with 102 homologous sequences was obtained. Among these, an alignment was selected in which 1 MMB (PDB ID) in which the ligand contained Brimasstat in the MMP family was selected as a reference protein, and Batimastat in the coordinates of 1 MMB was adopted as the ligand coordinates. Homology was 53%.
[0334]
Here, FIG. 6 is a diagram showing a display example of the alignment between the query sequence and the reference protein (1 MMB) (see SEQ ID NO: 2 and SEQ ID NO: 3 in the sequence listing). This alignment is added to the input file format with Z indicating the presence of the ligand, and the input file format is as shown in FIG.
[0335]
Here, FIG. 7 is a diagram showing an example of the input file format (see SEQ ID NO: 4 and SEQ ID NO: 5 in the sequence listing).
[0336]
The ligand coordinates (Brimstat) indicated by “Z” in FIG. 7 are as follows.
[0337]
Then, the model created as a result of the modeling is displayed graphically.
Here, FIG. 8 is a diagram illustrating an example of a three-dimensional structure model of MMP-12 in a state where Batimastat (Ball and Stick) is coupled.
[0338]
Then, the created model is superimposed on the X-ray crystal structure (PDB ID: 1JK3), and the vicinity of the portion where Batimastat is bonded is displayed in a graphic form. Here, FIG. 9 is a diagram illustrating an example of a comparison of the three-dimensional structure of MMP-12 in a state where Batimastat (Ball and Stick) is bound. In FIG. 9, the part indicated by grey is the target protein, and the part indicated by darkgrey is 1JK3.
[0339]
Next, modeling was performed by the conventional method (FAMS) using the alignment shown in FIG. 7, and superimposed on the X-ray crystal structure (PDB ID: 1JK3) as in FIG. Here, the root mean square displacement (RSMD) of a portion where Batimastat is connected between the model according to the conventional method and the method according to the present invention and the X-ray crystal structure (1JK3) was calculated and compared. The smaller the RSMD value, the smaller the error from 1JK3.
[0340]
Here, FIG. 10 is a list of the comparison results (unit: Å) of the X-ray structural analysis three-dimensional structure (1JK3) in the Btimastat-binding part of MMP-12 and the three-dimensional structure models obtained by the conventional method and the extended method. FIG.
[0341]
As shown in FIG. 10, according to the present invention, by adding a ligand, the ligand binding portion can be clearly understood in the model, and the three-dimensional structure of the binding portion can be modeled more accurately than in the conventional method. You can see that
[0342]
[Modeling example of TATA-Box-Binding Protein with DNA bound]
Next, details of the processing of the modeling example of the TATA-Box-Binding Protein in a state where the DNA is bound will be described with reference to FIGS. Transcription of DNA requires a group of universal transcription factors in addition to RNA polymerase. Some of these factors form a complex on the DNA at the promoter site before transcription initiation and attract RNA polymerase. This complex is composed of TFIIB, TATA-box binding protein (TBP) and TATA-DNA.
[0343]
Several structures of the complex with TBP in a state where DNA is bound have been structurally analyzed. Among them, a complex of TBP and a DNA fragment reported by Nikolov et al. (Nikolov, DB, Chen, H., et al. Halay, ED, Hoffman, A., Roeder, RG, Burley, S.K .: Crystal structure of a human TATA box-binding Adaptation Contracting Company / TATA electronics Co., Ltd. , 4862 (1996)), and the three-dimensional structure was constructed according to the method detailed in the embodiments of the invention.
[0344]
The primary amino acid sequence of TBP was obtained from Swiss-Prot (entry name TF2D_HUMAN, accession number P20226). Here, FIG. 11 is a view showing the entire amino acid sequence of HBP-derived TBP (see SEQ ID NO: 6 in the sequence listing). As shown in FIG. 11, the three-dimensional structure of TBP in the state where the DNA fragment is bound to the 178th residue at 339 residues and the 178th residue in the underlined portions 155 to 333 has been analyzed (PDB ID: 1CDW).
[0345]
Thus, using these 178 residues as a query, the PIR as of November 2001 was used as a motif profile, and the PSI-protein sequence amino acid sequence database of PDB (as of April 2002) was compared with 544 sequences that collected transcription factor associations. A BLAST search was performed. As a result of performing under the condition that the E-value is 0.001 or less, an alignment with 14 homologous sequences was obtained. Among them, the alignment of 1D3U (PDB ID) in which the DNA fragment was included in the reference protein coordinates was selected. Further, the DNA fragment in the coordinates of 1D3U was adopted as the ligand coordinates. Homology was 38%.
[0346]
Here, FIG. 12 is a diagram showing an example of alignment between the query sequence and the reference protein (1D3U) (see SEQ ID NO: 7 and SEQ ID NO: 8 in the sequence listing).
[0347]
Then, the above-mentioned alignment is added in the input file format with Z indicating the presence of the ligand, as shown in FIG. Here, FIG. 13 is a diagram showing an example of the input file format (see SEQ ID NO: 9 and SEQ ID NO: 10 in the sequence listing).
[0348]
In FIG. 13, the ligand coordinates (DNA fragments) indicated by “Z” are as follows.
[0349]
The model created as a result of the modeling is graphically displayed below. Here, FIG. 14 is a diagram illustrating an example of a three-dimensional structure model of TBP (dark gray) in a state where DNA fragments (grey arrows) are bound.
[0350]
Then, the created model is superimposed on the X-ray crystal structure (PDB ID: 1CDW), and the vicinity of the portion where the DNA is bound is graphically displayed. Here, FIG. 15 is a diagram showing an example of a comparison of the three-dimensional structure of TBP in a state where DNA fragments (black arrows) are bound. In FIG. 15, the gray part indicates the target protein, and the darkrey part indicates 1 CDW.
[0351]
Then, modeling was performed by the conventional method (FAMS) using the alignment shown in FIG. 13, and superimposed on the X-ray crystal structure (PDB ID: 1CDW) as in FIG. Here, the root mean square displacement (RSMD) of the portion where the DNA fragment of the model according to the conventional method and the method according to the present invention and the X-ray crystal structure (1CDW) were bonded was calculated and compared. The smaller the RSMD value, the smaller the error from 1 CDW.
[0352]
Here, FIG. 16 shows a list of the comparison results (unit: Å) of the X-ray structural analysis three-dimensional structure (1CDW) of the DNA fragment binding part of TBP with the three-dimensional structure models obtained by the conventional method and the extended method. FIG.
[0353]
As described above, according to the present invention, the three-dimensional structure of the complex can be constructed by adding a substance such as DNA as a ligand as compared with the conventional method. As for, it can be seen that the three-dimensional structure can be modeled with high accuracy.
[0354]
[Construction of three-dimensional structure of influenza virus (hemagglutinin)]
Next, details of the three-dimensional structure construction process of influenza virus (hemagglutinin) will be described with reference to FIGS. Influenza is a disease caused by the influenza virus. Influenza virus is highly mutable, causing a pandemic in animals and sometimes humans during its continuous evolution. Influenza viruses include types A, B and C, all of which recognize sugar chains containing sialic acid and its derivatives as receptors.
[0355]
Influenza virus membranes have two types of spike (protruding on the outer cell membrane surface of the virus) glycoproteins. One of them is hemagglutinin (HA), which is essential for the binding of the virus to gangliosides and sialic acid-containing glycoprotein receptors on the host cell membrane, and plays a role in promoting virus infection. There are 15 types of influenza virus hemagglutinin that have been reported to date, and four types of H1, H2, H3, and H5 have been confirmed in humans. In horses, H3, H7, in seals, H4, H7, and in birds, all 15 types of hemagglutinin were confirmed.
[0356]
Several three-dimensional structures are known for hemagglutinin. C. The three-dimensional structure of the complex of hemagglutinin of avian H5 and porcine H9 and a similar compound of a sugar chain receptor containing sialic acid and its derivative reported by Wiley et al. (Proc. Nat. Acad. Sci. USA 98 pp. 11181 (2001)). Four types of protein three-dimensional structures (1JSH, 1JSI, 1JSN, 1JSO) are registered in the PDB.
[0357]
In this example, a protein whose structure and function are considered to be almost the same was selected from a protein amino acid sequence database using 1JSH, and a steric structure of a complex with a similar compound of a sugar chain receptor was constructed.
[0358]
1JSH contains two polypeptide chains, HA1 and HA2, five saccharides, and a similar compound of a sugar chain receptor.
[0359]
The amino acid sequence of HA1 of 1JSH is 317 residues, as shown in FIG. Here, FIG. 17 is a diagram showing the amino acid sequence of HA1 of 1JSH (see SEQ ID NO: 11 in the sequence listing).
[0360]
Using this 317 residue sequence as a query, the PIR as of May 2002 was used as a motif profile, and the PSI-382 sequence of a protein amino acid sequence database such as Swiss Prot, TREMBL, etc. A BLAST search was performed. As a result of the E-value being 0.01 or less, an alignment with 500 homologous sequences was obtained. In PSI-BLAST, when E-Value has a statistical value of usually 0.1 or less, preferably 0.01 or less, it is considered that the target protein is a protein family having a certain function such as a reference protein. It is appropriate to make a decision to create a three-dimensional structure.
[0361]
The amino acid sequence of HA2 of 1JSH is 160 residues, as shown in FIG. Here, FIG. 18 is a view showing the amino acid sequence of HA2 of 1JSH (see SEQ ID NO: 12 in the sequence listing).
[0362]
Using this 160 residue sequence as a query, the PIR as of May 2002 was used as a motif profile, and PSI- against 382361 sequences of a protein amino acid sequence database such as Swiss Prot, TREMBL, etc. (all as of July 2002). A BLAST search was performed. As a result of performing the test under the condition that the E-value was 0.01 or less, an alignment with 13 homologous sequences was obtained.
[0363]
For the homologous sequence and the alignment thus selected, for example, the ID “Q9Q0I0” in the TREMBL database is selected from the alignment using HA1 as a query, and the ID “CAA24291x1” in the GenPePt Protein database is selected from the alignment using HA2 as a query. , And modeling was performed using five sugars in 1JSH and analogous compounds of sugar chain receptors as ligands. The alignment is as shown in FIGS. Here, FIG. 19 is a diagram showing an example of alignment between the query sequence (HA1) and the target protein (see SEQ ID NO: 13 and SEQ ID NO: 14 in the sequence listing), and FIG. 20 shows the query sequence (HA2). ) And an example of alignment of the target protein (see SEQ ID NO: 15 and SEQ ID NO: 16 in the sequence listing).
[0364]
In the input file format, "U" indicating the end of the protein chain and "Z" indicating the presence of the ligand are added to the input file format to make the input file format as shown in FIG. Here, FIG. 21 is a diagram illustrating an example of the input file format. The amino acid sequence of “q9p0” in FIG. 21 represents the name of the target protein.
[0365]
In FIG. 21, the ligand coordinates indicated by “Z” (five sugars and sugar chain receptor-like compounds) are as follows.
[0366]
Then, the model created as a result of the modeling is graphically displayed. Here, FIG. 22 is a diagram showing an example of a model of “Q9Q0I0” (grey) / “CAA24291 × 1” (dark gray) / sugar / sugar receptor analogous compound (ball and stick) complex.
[0367]
Further, FIG. 23 shows an enlarged view of a binding portion between “Q9Q0I0” and a compound similar to a sugar chain receptor, which is important for functional analysis. Here, FIG. 23 is a diagram showing an example of an enlarged view of a binding portion between “Q9Q0I0” (grey) and a sugar chain receptor analogous compound (black).
[0368]
As described above, even when the target protein forms a complex, a three-dimensional structure can be created in consideration of Van der Waals collision by using “U” representing a protein chain break and ligand “Z”. Can be. Furthermore, by using the three-dimensional structural model of the complex of hemagglutinin and a similar compound of a sugar chain receptor used in the present example, the interaction mode of the binding portion becomes clearer, and the influenza virus is able to ganglioside or sialic acid on the host cell membrane. Important information for elucidation of the mechanism of binding to acid-containing glycoprotein receptors and drug design can be obtained.
[0369]
[Modeling example of metabotropic glutamate receptor family]
Next, the details of the processing for modeling the metabotropic glutamate receptor family will be described with reference to FIGS.
[0370]
In the conventional method for constructing a three-dimensional structure of a protein having a plurality of chains, a method of constructing a three-dimensional structure of a single-chain protein using a homology modeling method such as “FAMS” is applied to a plurality of target proteins having an arbitrary amino acid sequence. In addition, there is a method of constructing a three-dimensional structure while treating a protein having a plurality of chains as a single-chain protein.
[0371]
However, it has been empirically found that in the three-dimensional structure construction of a multi-chain protein by this method, the accuracy of the three-dimensional structure construction is difficult to reduce when, for example, only one amino acid is handled due to the limitation of the algorithm. Therefore, in this example, in the glutamate receptor, one functionally significant residue of glutamic acid is treated as a ligand, and a complex model in which glutamate (one amino acid residue) is bound to a glutamate receptor dimer is constructed. The three-dimensional structure model with higher accuracy than the conventional method can be constructed by the method of the present invention, indicating that the method of the present invention has an inventive step and novelty.
[0372]
The primary amino acid sequence of the rat-derived metabotropic glutamate receptor type I protein (Metabotropic glutamate receptor 1) was obtained from Swiss-Prot (entry name MGR1_RAT, accession number P23385). FIG. 24 shows the entire amino acid sequence of rat-derived metabotropic glutamate receptor type I (see SEQ ID NO: 17 in the sequence listing).
[0373]
As shown in FIG. 24, the whole is 1199 residues, and among the 477 residues underlined in the first half, residues 448 to 456 serve as contact sites to form a dimer (homodimer), and the glutamate receptor portion It is clear from the result of X-ray structure analysis by Morikawa et al. X-ray structure analysis by Morikawa et al. Has revealed that a glutamate receptor moiety is formed (Kunishima, N., Shimada, Y., Tsuji, Y., Sato, T., Yamamoto, K. M., Kumasaka, T., Nakanishi, S., Jingami, H., Morikawa, K .: Structural Basis of Glutamate Recognition of the Digital Certificate. Three types of protein three-dimensional structures (1EWK, 1EWT, 1EWV) are registered in the PDB.
[0374]
Among them, 1EWK contains glutamic acid (one amino acid residue) functionally significant as a ligand, but has a partial deletion of 125 to 153 residues out of 477 residues, resulting in an incomplete three-dimensional structure of the complex. It is.
[0375]
Thus, using this 1199 residue as a query, the PIR as of November 2001 was used as a motif profile, and the 774804 sequence of a protein amino acid sequence database such as PIR, Swiss Prot, TREMBL, TREMBL_NEW, GenPept (all as of November 2001) was used. Was subjected to a PSI-BLAST search. As a result of carrying out under the condition that the E-value was 0.001 or less, an alignment with 14,509 homologous sequences was obtained. Of those, 70 have E-value of 0 (homology is 23 to 100%). These may be considered functionally nearly identical. In this, the same RAT-derived receptor was used to model entry name “MGR5_RAT” in Swiss Prot, accession number “P31424”. The homology was 62.2%.
[0376]
Here, FIG. 25 is a diagram showing an example of the alignment (see SEQ ID NO: 18 and SEQ ID NO: 19 in the sequence listing). With respect to the portion of the PDB where 1EWK coordinates exist in the alignment of FIG. 25, modeling of a complex of the homodimer of “P31424” and glutamic acid of one amino acid residue was performed. The alignment was corrected, and the input file format was changed by adding “U” to indicate the chain separation (end) and “Z” to indicate the presence of glutamic acid, a functionally significant amino acid residue, as a ligand. An input file shown in FIG. 26 was created. FIG. 26 is a diagram illustrating an example of the input file format.
[0377]
In FIG. 26, the ligand coordinates (glutamic acid) indicated by “Z” are as follows.
[0378]
Then, as a result of the modeling, the created model was graphically displayed as shown in FIG. Here, FIG. 27 is a diagram illustrating an example of a model of a dimer / glutamic acid (ball and stick) complex of “MGR5_RAT” (A chain: gray, B chain: dark gray).
[0379]
As described above, according to the method of the present invention, it is possible to construct a complex model of a functionally significant amino acid residue of glutamate and a glutamate receptor dimer.
[0380]
On the other hand, glutamic acid of one amino acid residue was treated as a protein chain, and an attempt was made to perform modeling by substituting “EU” for “Z” in the above input file. I could not do it. Furthermore, when a three-dimensional structure is constructed by excluding “Z” in the input file, a three-dimensional structure of only a homodimer of “MGR5_RAT” that does not contain glutamic acid of one functionally important amino acid residue is constructed. Was completed.
[0381]
From the above, it is considered that it is difficult to handle by the conventional method. For example, by treating an amino acid molecule consisting of one residue as a ligand, the method of the present invention is improved in the accuracy, the inventive step, and the novelty. It has been found that a complex model having properties can be constructed.
[0382]
[Other embodiments]
Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, but may be applied to various different embodiments within the scope of the technical idea described in the claims. It may be implemented.
[0383]
For example, the protein
[0384]
Also, the case where the protein
[0385]
Further, among the processes described in the embodiment, all or a part of the processes described as being performed automatically may be manually performed, or all of the processes described as being performed manually may be performed. Alternatively, it can be performed partly automatically by a known method.
[0386]
In addition, the processing procedures, control procedures, specific names, information including parameters such as various registration data and search conditions, screen examples, and database configurations shown in the above-described documents and drawings, except where otherwise noted, It can be changed arbitrarily.
[0387]
Also, regarding the protein
[0388]
For example, with respect to the processing functions included in each unit or each device of the protein
[0389]
That is, a computer program for giving instructions to the CPU in cooperation with an OS (Operating System) and performing various processes is recorded in the
[0390]
Further, the program according to the present invention can be stored in a computer-readable recording medium. Here, the “recording medium” refers to an arbitrary “portable physical medium” such as a flexible disk, a magneto-optical disk, a ROM, an EPROM, an EEPROM, a CD-ROM, an MO, a DVD, and the like, and a built-in various computer systems. A short-term program such as a communication line or a carrier wave when transmitting the program via an arbitrary "fixed physical medium" such as ROM, RAM, HD, or a network represented by LAN, WAN, or the Internet. "Communications medium" that holds.
[0391]
The “program” is a data processing method described in an arbitrary language or description method, and may be in any format such as a source code or a binary code. The “program” is not necessarily limited to a single program, but may be distributed in the form of a plurality of modules or libraries, or may operate in cooperation with a separate program represented by an OS (Operating System). Includes those that achieve functions. Note that a known configuration and procedure can be used for a specific configuration, a reading procedure, an installation procedure after reading, and the like in each apparatus described in the embodiments.
[0392]
Various files, databases and the like (amino acid sequence data file 106a to ligand coordinate
[0393]
In addition, the protein
[0394]
Furthermore, the specific form of the dispersion / integration of the protein
[0395]
Further, the
[0396]
【The invention's effect】
As described above in detail, according to the present invention, the application range of the conventional homology modeling method is set to the experimental structure for the side chain while calculating the interaction between the protein and the ligand in the process of constructing the three-dimensional structure. By using databases that refer to the above, and by using the same database as the side chains and molecular dynamics calculations such as simulated annealing for the main chain, the three-dimensional structure of the protein can be constructed. The conventional homology is achieved by expanding and simultaneously constructing the entire three-dimensional structure of the protein in a state in which the atoms constituting the ligand molecule are combined as a rigid body with an average atomic radius without electrical polarity, automatically or manually. It is not known or suggested in conventional multi-chain modeling including single chain using modeling methods (eg, FAMS). Structure predicting device, protein structure predicting method, and program that can newly expand the applicable range of homology modeling method and construct the three-dimensional structure of multi-chain protein including single chain with ligand bound , And a recording medium can be provided.
[0397]
Further, according to the present invention, a method for constructing a three-dimensional structure of a multi-chain protein including a single chain in a state where a ligand is bound can be used not only for empirical modeling represented by homology modeling but also for non-empirical modeling. An adaptive protein structure prediction apparatus, protein structure prediction method, program, and recording medium can be provided.
[0398]
Further, according to the present invention, the construction and optimization of the entire three-dimensional structure of a protein are performed simultaneously, and the ligand is bound by taking into account the existence of the ligand, which does not need to consider the types of ligand atoms that are normally handled strictly. A protein structure that can improve the validity of the model structure of a protein that has been made, and at the same time, use the averaged parameters to simplify and improve the calculation process of the model structure of a protein to which various ligands are bound. A prediction device, a protein structure prediction method, a program, and a recording medium can be provided.
[0399]
Further, according to the present invention, all substances including, for example, DNA, drug components, metals, ions, saccharides, nucleic acid components, hormones and multi-chain proteins including a single chain, which were extremely difficult to handle in the conventional method, were used. It is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that enable a three-dimensional structure of a complex to be constructed.
[0400]
Further, according to the present invention, the range of application of the method for constructing a protein three-dimensional structure by the conventional method is greatly expanded, and at the same time, it is very important information for molecular design of agricultural chemicals, pharmaceuticals, and functional analysis of proteins. Provided is a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that enable a complete complex three-dimensional structure to be constructed in a state where an amino acid sequence contains all substances involved in functioning in a living body. can do.
[0401]
Further, according to the present invention, by incorporating the dynamic properties of the protein into the algorithm of the homology modeling method at the time of creating the entire three-dimensional structure, particularly, for example, pesticides, drugs, and the like, and further, the functions of proteins such as metals and hormones It is possible to provide a protein structure predicting apparatus, a protein structure predicting method, a program, and a recording medium that can provide a highly accurate total three-dimensional structure in the analysis of a very important interaction between a ligand and a protein.
[0402]
Further, according to the present invention, when using the extended homology modeling technique, a reference protein is retrieved from a three-dimensional structure database divided based on, for example, the presence or absence of a ligand. Since the partial structure consisting of the main chain and Cβ is searched from the three-dimensional structure database classified according to the presence or absence of the ligand, it is possible to improve the accuracy of the structure of the protein binding model, particularly the ligand binding site, created by homology modeling. It is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that can be used.
[0403]
In addition, according to the present invention, it has not been performed by a conventional method to prepare and use a plurality of reference protein three-dimensional structure databases depending on the presence or absence of a ligand, for example, a change in the three-dimensional structure of a protein due to the presence or absence of a ligand is well reflected. In addition, it is possible to provide a protein structure predicting apparatus, a protein structure predicting method, a program, and a recording medium that can accurately create a three-dimensional structure.
[0404]
Further, according to the present invention, after calculating the normal vibration of the three-dimensional structure of the reference protein, the coordinates obtained by changing the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the inherent vibration direction of the protein are calculated as the new reference protein. A protein structure predicting apparatus, a protein structure predicting method, a program, and a record that can improve the accuracy of the structure of a protein model created by homology modeling, particularly the structure of a ligand binding site by using as a three-dimensional structure. A medium can be provided.
[0405]
Further, according to the present invention, coordinates obtained by changing the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the intrinsic vibration direction of the protein after the reference vibration calculation are stored as a database, and the code number of the reference protein is changed. It is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that can be searched based on the information.
[0406]
Further, according to the present invention, preparing and using a plurality of three-dimensional structure databases of such reference proteins is not performed by a conventional method, and for example, reflects a change in the three-dimensional structure of a protein due to the presence or absence of a ligand, and accurately reflects the change. It is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium capable of realizing a three-dimensional structure and the like.
[0407]
Further, according to the present invention, upon optimization using an objective function that is an index of the energy of the position of an atom in a reference protein, the dynamic behavior of the protein is used as a parameter reflecting the dynamic properties of the protein. Data of fluctuation around normal temperature obtained from the calculation of the normal vibration analysis of the reference protein, or data of fluctuation of the three-dimensional structure of α-helix and β-sheet obtained from the secondary structure determination result of the reference protein as a substitute for the data It is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that are incorporated into the objective function and used to create a model of a protein bound with a ligand.
[0408]
Further, according to the present invention, in the method of extended homology modeling, the input format of the three-dimensional structure coordinates of the ligand to be added is devised by designating the file name of the ligand coordinates at the time of starting the program, and the reference protein and the target protein are added. In the sequence alignment format, add a "stop symbol" such as a character that indicates the end of the sequence of one protein chain, and add a character that indicates the presence of the added ligand after the sequence of the protein to which the ligand binds. It is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium for correcting a sequence by adding a “ligand presence symbol”.
[0409]
Further, according to the present invention, by writing a plurality of special characters after the terminator "U" of a protein to which a ligand is bound, a break in the sequence of a protein consisting of a plurality of protein chains and the presence of the ligand are indicated. Protein structure prediction device and protein structure prediction system that can automatically and fully perform the full three-dimensional structure construction of all proteins including multiple chains and apparently multiple proteins including protein regions that can be determined experimentally A method, a program, and a recording medium can be provided.
[0410]
Further, according to the present invention, by adding a device to the input file in this way, it is possible to construct a three-dimensional structure of a multi-chain protein including a single chain with a ligand bound only by manipulating the input file. When constructing a three-dimensional structure of a multi-chain protein including a single chain with a ligand bound to a large amount of amino acid sequences, automatic processing can be performed by separately creating a program using the input file. A protein structure prediction device, a protein structure prediction method, a program, and a recording medium can be provided.
[0411]
Further, according to the present invention, regarding the three-dimensional structure of a multi-chain protein including a single chain in a state in which the prepared ligand is bound, for example, when sorting and organizing directories according to the presence or absence of a ligand and the type of ligand, and performing a search, etc. , A protein structure prediction device, a protein structure prediction method, a program, which can be processed by creating a program using an input file, and which can automatically and efficiently perform a three-dimensional structure processing of a large amount of protein, and , A recording medium can be provided.
[0412]
Further, according to the present invention, a letter indicating the end of one protein sequence or a letter indicating the number of ligands to be added (U or Arabic numeral after U indicating the end of one protein sequence) The number Z) can provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that can use a different character other than the one-letter code representing an amino acid.
[0413]
Further, according to the present invention, the interaction function between the model protein and the ligand using a simple and easy-to-handle averaged parameter independent of the atom type of the ligand is represented by this calculation formula, and all processes in the three-dimensional structure construction are performed. Index of the interaction energy with the ligand UligandCan be provided, a protein structure prediction method, a protein structure prediction method, a program, and a recording medium on which the above calculation is performed.
[0414]
Further, according to the present invention, a protein structure predicting apparatus and a protein structure predicting device capable of constructing a three-dimensional structure of a multi-chain protein including a single chain in a state where the ligand is bound, reflecting the interaction between the ligand and the target protein A prediction method, a program, and a recording medium can be provided.
[0415]
Further, according to the present invention, a protein structure prediction which can perform a three-dimensional structure construction of a multi-chain protein including a single chain by appropriately reflecting the dynamic property of the three-dimensional structure of the protein using a dynamic property parameter An apparatus, a protein structure prediction method, a program, and a recording medium can be provided.
[0416]
Further, according to the present invention, the conformational coordinates of the ligands in the input file are created using ligand coordinates, molecular mechanics or molecular dynamics methods contained in a reference protein protein data bank (PDB). By using at least one of the ligand coordinates obtained from the existing ligand database and the ligand coordinates searched from the existing ligand database, the type and number of ligands to be used are not limited, and proteins, peptides, DNA, drug components, metals, ions, and saccharides can be used. A protein that can be constructed by considering all substances including nucleic acids, nucleic acids and hormones as the ligands, and simultaneously utilizing the efficient calculation method of a simplified calculation process for all three-dimensional structures of proteins with a wide range of ligands. It is possible to provide a structure prediction device, a protein structure prediction method, a program, and a recording medium. That.
[0417]
Further, according to the present invention, when the entire three-dimensional structure appropriate as a protein model structure is constructed by directly using the ligand coordinates in the PDB of the reference protein whose function is known as the three-dimensional structure coordinates of the ligand in the input file, A protein structure predicting apparatus, a protein structure predicting method, a program, and a recording medium capable of determining that a target protein having an amino acid sequence of an input file as a component interacts with the ligand whose function is known. it can.
[0418]
Furthermore, according to the present invention, when selecting ligand coordinates to be used as an input file, a ligand is selected from a database containing the three-dimensional structure coordinates of a large number of ligands, and all three-dimensional structures appropriate as protein model structures are constructed. In such a case, a protein structure predicting apparatus, a protein structure predicting method, a program, and a recording, which can perform the function estimation of a ligand simultaneously with the construction of a protein by judging that the protein having a known function and the ligand interact with each other, are determined. A medium can be provided.
[0419]
Furthermore, according to the present invention, when a new amino acid sequence and / or ligand coordinates are used as an input file and a proper three-dimensional structure is constructed as a model structure of a protein, And the ligand interact with each other, and it is determined that both the protein and the ligand have a common function. A protein structure prediction device, a protein structure prediction method, a program, and a protein structure prediction method capable of providing a novel molecule design method. , A recording medium can be provided.
[0420]
Furthermore, according to the present invention, by regarding the ligand as another protein, the target protein in a state in which atoms constituting the other protein are bound as a rigid body having an average atomic radius having no electric polarity. Provided are a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that can construct a whole three-dimensional structure by using a homology modeling technique while performing an interaction calculation between a target protein and another protein. be able to.
[0421]
Furthermore, according to the present invention, when an arbitrary amino acid sequence is given, the application range of the conventional homology modeling method is changed to the three-dimensional structure construction of a multi-chain protein including a single chain in the input file. In the input file of the amino acids of the protein used in the step, the terminal symbol and the character symbol representing the ligand are further added, and the interaction between the protein and the ligand is calculated during the construction of the three-dimensional structure, while the experimental structure is used for the side chain. The main chain is expanded by using a database similar to the side chain and a molecular dynamics calculation such as simulated annealing so that the three-dimensional structure of the protein can be constructed. Automatically or manually determine the average atomic radius where the atoms that make up the ligand molecule do not have electrical polarity. One total protein conformation in a state bound as a rigid body capable of providing an amino acid sequence database system can be constructed at the same time.
[0422]
[Sequence list]
[Brief description of the drawings]
FIG. 1 is a flowchart showing an example of a method for constructing a three-dimensional structure of a protein comprising a plurality of chains according to the present invention.
FIG. 2 is a block diagram illustrating an example of a configuration of the present system to which the present invention is applied.
FIG. 3 is a block diagram illustrating an example of a configuration of an extended
FIG. 4 is a block diagram illustrating an example of a configuration of an objective
FIG. 5 is a view showing the entire amino acid sequence of MMP-12 derived from HUMAN.
FIG. 6 is a diagram showing a display example of alignment between a query sequence and a reference protein (1 MMB).
FIG. 7 is a diagram illustrating an example of an input file format.
FIG. 8 is a diagram showing an example of a three-dimensional structure model of MMP-12 in a state where Batimastat (Ball and Stick) is bonded.
FIG. 9 is a diagram showing an example of comparing the three-dimensional structure of MMP-12 in a state where Batimastat (Ball and Stick) is bound.
FIG. 10 is a diagram showing a list of the results (units: Δ) of the X-ray structural analysis three-dimensional structure (1JK3) of the Btimastat-binding portion of MMP-12 and the three-dimensional structure models obtained by the conventional method and the extended method, in RSMD. It is.
FIG. 11 shows the entire amino acid sequence of HUMAN-derived TBP.
FIG. 12 is a diagram showing an example of alignment between a query sequence and a reference protein (1D3U).
FIG. 13 is a diagram illustrating an example of an input file format.
FIG. 14 is a diagram showing an example of a three-dimensional structure model of TBP (dark gray) in a state where DNA fragments (grey arrows) are bound.
FIG. 15 is a diagram showing an example of a comparison of the three-dimensional structure of TBP in a state where DNA fragments (black arrows) are bound.
FIG. 16 is a view showing a list of the results (unit: Å) of the RSMD between the X-ray structural analysis three-dimensional structure (1CDW) of the DNA fragment binding portion of TBP and the three-dimensional structure models obtained by the conventional method and the extended method. .
FIG. 17 shows the amino acid sequence of HA1 of 1JSH.
FIG. 18 shows the amino acid sequence of HA2 of 1JSH.
FIG. 19 is a diagram showing an example of alignment between a query sequence (HA1) and a target protein.
FIG. 20 is a diagram showing an example of alignment between a query sequence (HA2) and a target protein.
FIG. 21 is a diagram illustrating an example of an input file format.
FIG. 22 is a diagram showing an example of a model of a complex of “Q9Q0I0” (grey) / “CAA24291 × 1” (dark gray) / sugar / sugar receptor analogous compound (ball and stick).
FIG. 23 shows an example of an enlarged view of a binding portion between “Q9Q0I0” (grey) and a sugar chain receptor analogous compound (black).
FIG. 24 shows the entire amino acid sequence of rat-derived metabotropic glutamate receptor type I.
FIG. 25 is a diagram illustrating an example of alignment.
FIG. 26 is a diagram illustrating an example of an input file format.
FIG. 27 is a view showing an example of a model of a dimer / glutamic acid (ball and stick) complex of “MGR5_RAT” (A chain: gray, B chain: dark gray).
[Explanation of symbols]
100 Protein structure prediction device
102 control unit
102a Target amino acid sequence acquisition unit
102b Ligand coordinate acquisition unit
102c Extended homology modeling unit
102d Array correction unit
102e first function estimating unit
102f second function estimating unit
102g third function estimating unit
102h Objective function adjustment unit
102i Reference protein search unit
102j Reference protein structure change unit
102k interaction function calculator
102m optimization unit
104 Communication control interface unit
106 storage unit
106a amino acid sequence data file
106b Protein structure data file
106c ligand coordinate data file
108 I / O control interface
112 input device
114 Output device
200 External system
300 Network
Claims (29)
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段と、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段と、
を備えたことを特徴とするタンパク質構造予測装置。A target amino acid sequence obtaining means for obtaining a target amino acid sequence that is an amino acid sequence of a target protein of unknown structure,
Ligand coordinate acquisition means for selecting a ligand to be bound to the target protein and acquiring the three-dimensional coordinates of the ligand,
The entire three-dimensional structure of the target protein in a state where the atoms constituting the ligand molecule are bonded as a rigid body having an average atomic radius having no electric polarity, while performing the interaction calculation between the target protein and the ligand , An extended homology modeling means constructed using a homology modeling method,
A protein structure prediction device comprising:
上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段、
を備えたことを特徴とする請求項1に記載のタンパク質構造予測装置。The extended homology modeling means includes:
An interaction function calculated using an averaging parameter independent of the atom type of the ligand as an objective function serving as an index of the total energy when constructing the three-dimensional structure of the objective protein, and / or the objective protein Objective function adjusting means for adjusting an objective function serving as an index of energy constrained to the position of the atom of the reference protein to be referred at the time of homology modeling, using a dynamic property parameter reflecting the dynamic property of,
The protein structure prediction apparatus according to claim 1, further comprising:
上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索手段、
をさらに備えたことを特徴とする請求項1に記載のタンパク質構造予測装置。The extended homology modeling means includes:
A reference protein search means for searching for a reference protein from a three-dimensional database of a protein having three-dimensional data in a state of forming a complex with the above-described ligand,
The protein structure prediction apparatus according to claim 1, further comprising:
上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段、
をさらに備えたことを特徴とする請求項3に記載のタンパク質構造予測装置。The extended homology modeling means includes:
After the normal vibration calculation is performed on the three-dimensional structure of the reference protein, coordinates obtained by changing the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the inherent vibration direction of the protein are used as the three-dimensional structure of the new reference protein. Reference protein structure changing means to be
The protein structure prediction apparatus according to claim 3, further comprising:
上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および/または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであること、
を特徴とする請求項2から4のいずれか一つに記載のタンパク質構造予測装置。The dynamic property parameter is
The dynamic behavior of the protein of interest is converted into the fluctuation data around room temperature obtained from the calculation of the normal vibration analysis of the reference protein and / or the fluctuation of each secondary structure obtained from the secondary structure judgment result of the reference protein. Data
The protein structure prediction device according to any one of claims 2 to 4, wherein:
をさらに備えたことを特徴とする請求項1から5のいずれか一つに記載のタンパク質構造予測装置。A sequence correcting means for adding a terminator to the end of the amino acid sequence of each protein chain and / or adding a ligand presence symbol indicating the presence of a ligand, for the target amino acid sequence and the reference amino acid sequence;
The protein structure prediction apparatus according to any one of claims 1 to 5, further comprising:
上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算手段、
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化パラメータ
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離
をさらに備えたことを特徴とする請求項2から6のいずれか一つに記載のタンパク質構造予測装置。The extended homology modeling means includes:
Interaction function calculating means for calculating the interaction function between the target protein and the ligand using the averaging parameter by the following formula,
上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化手段、
をさらに備えたことを特徴とする請求項2から7のいずれか一つに記載のタンパク質構造予測装置。The objective function adjustment unit is:
When optimizing the three-dimensional structure of the protein with respect to the objective function (U pos ) of the energy index constrained to the position of the atom of the reference protein, the position of the atom of the target protein is aimed at an energetically stable point. The Monte Carlo method is used to move the protein at random, and the proportionality constant (K pos ) of the function related to the atomic position of the protein, and the small movement of the atomic position of the model protein in the Monte Carlo method from the position of the reference protein. Optimizing means for performing, using a constant (Ti) depending on a parameter indicating softness corresponding to protein fluctuation as an index to the magnitude of perturbation (ΔYi),
The protein structure prediction device according to claim 2, further comprising:
上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得すること、
を特徴とする請求項1から8のいずれか一つに記載のタンパク質構造予測装置。The ligand coordinate acquisition means,
Ligand coordinates contained in the reference protein protein data bank (PDB), ligand coordinates created using molecular mechanics or molecular dynamics methods, and / or ligand coordinates retrieved from existing ligand databases Obtaining the three-dimensional coordinates of the ligand from
The protein structure predicting apparatus according to any one of claims 1 to 8, wherein:
をさらに備えたことを特徴とする請求項1から9のいずれか一つに記載のタンパク質構造予測装置。If the three-dimensional structure coordinates of the ligand are obtained from the ligand coordinates contained in the protein data bank (PDB) of the reference protein, and if all the appropriate three-dimensional structures are constructed as the target protein model structure, First function estimating means for judging that the target protein having the amino acid sequence of the file as a component interacts with the ligand whose function is known,
The protein structure prediction apparatus according to any one of claims 1 to 9, further comprising:
をさらに備えたことを特徴とする請求項1から10のいずれか一つに記載のタンパク質構造予測装置。When selecting the ligand coordinates, the ligand is selected from a database containing a large number of the three-dimensional structure coordinates of the ligand, and if a proper three-dimensional structure is constructed as a model structure of the protein, the function of the protein is known. And a second function estimating means for determining that the ligand and the ligand interact with each other;
The protein structure prediction apparatus according to any one of claims 1 to 10, further comprising:
をさらに備えたことを特徴とする請求項1から11のいずれか一つに記載のタンパク質構造予測装置。When a new three-dimensional structure is constructed as a model structure of a protein using a new amino acid sequence and one of the above ligand coordinates, or one in which either one is new, the protein interacts with the ligand, Third function estimating means for judging that both the protein and the ligand have a common function,
The protein structure prediction apparatus according to any one of claims 1 to 11, further comprising:
を特徴とする請求項1から12のいずれか一つに記載のタンパク質構造予測装置。The ligand is a protein other than the target protein,
The protein structure predicting apparatus according to any one of claims 1 to 12, characterized in that:
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップと、
を含むタンパク質構造予測方法をコンピュータに実行させることを特徴とするプログラム。A target amino acid sequence obtaining step of obtaining a target amino acid sequence that is an amino acid sequence of a target protein of unknown structure,
Selecting a ligand to bind to the target protein, a ligand coordinate obtaining step of obtaining a three-dimensional structural coordinate of the ligand,
The entire three-dimensional structure of the target protein in a state where the atoms constituting the ligand molecule are bonded as a rigid body having an average atomic radius having no electric polarity, while performing the interaction calculation between the target protein and the ligand An extended homology modeling step constructed using a homology modeling method,
A program for causing a computer to execute a protein structure prediction method including:
上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整ステップ、
を含むことを特徴とする請求項14に記載のプログラム。The extended homology modeling step includes:
An interaction function calculated using an averaging parameter independent of the atom type of the ligand as an objective function serving as an index of the total energy when constructing the three-dimensional structure of the objective protein, and / or the objective protein An objective function adjusting step of adjusting an objective function that is an index of energy constrained to the position of the atom of the reference protein to be referred at the time of homology modeling, using a dynamic property parameter reflecting the dynamic property of
The program according to claim 14, further comprising:
上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索ステップ、
をさらに含むことを特徴とする請求項14に記載のプログラム。The extended homology modeling step includes:
A reference protein search step of searching for a reference protein from a three-dimensional database of a protein having three-dimensional data in a state of forming a complex with the ligand
The program according to claim 14, further comprising:
上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更ステップ、
をさらに含むことを特徴とする請求項16に記載のプログラム。The extended homology modeling step includes:
After the normal vibration calculation is performed on the three-dimensional structure of the reference protein, coordinates obtained by changing the three-dimensional structure of the reference protein from the state where the potential energy is minimal to the inherent vibration direction of the protein are used as the three-dimensional structure of the new reference protein. Reference protein structure changing step to be performed,
17. The program according to claim 16, further comprising:
上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および/または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであること、
を特徴とする請求項15から17のいずれか一つに記載のプログラム。The dynamic property parameter is
The dynamic behavior of the protein of interest is converted into the fluctuation data around room temperature obtained from the calculation of the normal vibration analysis of the reference protein and / or the fluctuation of each secondary structure obtained from the secondary structure judgment result of the reference protein. Data
The program according to any one of claims 15 to 17, characterized in that:
をさらに含むことを特徴とする請求項14から18のいずれか一つに記載のプログラム。A sequence correction step of adding a terminator to the end of the amino acid sequence of each protein chain and / or adding a ligand presence symbol indicating the presence of a ligand, for the target amino acid sequence and the reference amino acid sequence;
The program according to any one of claims 14 to 18, further comprising:
上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算ステップ、
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化パラメータ
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離
をさらに備えたことを特徴とする請求項15から19のいずれか一つに記載のプログラム。The extended homology modeling step includes:
An interaction function calculation step of calculating the interaction function between the target protein and the ligand using the averaging parameter according to the following formula:
上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化ステップ、
をさらに含むことを特徴とする請求項15から20のいずれか一つに記載のプログラム。The objective function adjustment unit is:
When optimizing the three-dimensional structure of the protein with respect to the objective function (U pos ) of the energy index constrained to the position of the atom of the reference protein, the position of the atom of the target protein is aimed at an energetically stable point. The Monte Carlo method is used to move the protein at random, and the proportionality constant (K pos ) of the function related to the atomic position of the protein, and the small movement of the atomic position of the model protein in the Monte Carlo method from the position of the reference protein. An optimization step performed by using a constant (Ti) depending on a parameter indicating softness corresponding to protein fluctuation as an index to the magnitude of perturbation (ΔYi);
21. The program according to claim 15, further comprising:
上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得すること、
を特徴とする請求項14から21のいずれか一つに記載のプログラム。The ligand coordinate obtaining step includes:
Ligand coordinates contained in the reference protein protein data bank (PDB), ligand coordinates created using molecular mechanics or molecular dynamics methods, and / or ligand coordinates retrieved from existing ligand databases Obtaining the three-dimensional coordinates of the ligand from
The program according to any one of claims 14 to 21, characterized in that:
をさらに含むことを特徴とする請求項14から22のいずれか一つに記載のプログラム。If the three-dimensional structure coordinates of the ligand are obtained from the ligand coordinates contained in the protein data bank (PDB) of the reference protein, and if all the appropriate three-dimensional structures are constructed as the target protein model structure, A first function estimating step of determining that the target protein having the amino acid sequence of the file as a component interacts with the ligand whose function is known;
23. The program according to claim 14, further comprising:
をさらに含むことを特徴とする請求項14から23のいずれか一つに記載のプログラム。When selecting the ligand coordinates, the ligand is selected from a database containing a large number of the three-dimensional structure coordinates of the ligand, and if a proper three-dimensional structure is constructed as a model structure of the protein, the function of the protein is known. A second function estimating step of determining that the and the ligand interact with each other;
The program according to any one of claims 14 to 23, further comprising:
をさらに含むことを特徴とする請求項14から24のいずれか一つに記載のプログラム。When a new three-dimensional structure is constructed as a model structure of a protein using a new amino acid sequence and one of the above ligand coordinates, or one in which either one is new, the protein interacts with the ligand, A third function estimating step of determining that both the protein and the ligand have a common function,
The program according to any one of claims 14 to 24, further comprising:
を特徴とする請求項14から25のいずれか一つに記載のプログラム。The ligand is a protein other than the target protein,
The program according to any one of claims 14 to 25, characterized in that:
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップと、
を含むことを特徴とするタンパク質構造予測方法。A target amino acid sequence obtaining step of obtaining a target amino acid sequence that is an amino acid sequence of a target protein of unknown structure,
Selecting a ligand to bind to the target protein, a ligand coordinate obtaining step of obtaining a three-dimensional structural coordinate of the ligand,
The entire three-dimensional structure of the target protein in a state where the atoms constituting the ligand molecule are bonded as a rigid body having an average atomic radius having no electric polarity, while performing the interaction calculation between the target protein and the ligand An extended homology modeling step constructed using a homology modeling method,
A protein structure prediction method comprising:
上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行うこと、
を特徴とするアミノ酸配列データベースシステム。Regarding the amino acid sequence, a terminating symbol is added to the end of the amino acid sequence of each protein chain, and / or a corrected sequence to which a ligand presence symbol indicating the presence of a ligand is added is stored.
Using the modified sequence, the entire three-dimensional structure of the target protein in a state in which the atoms constituting the ligand molecule are bonded as a rigid body having an average atomic radius having no electric polarity, by combining the target protein and the ligand Performing extended homology modeling constructed using homology modeling techniques while performing interaction calculations,
An amino acid sequence database system characterized by the following.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003046597A JP4368594B2 (en) | 2003-02-24 | 2003-02-24 | Protein structure prediction apparatus, protein structure prediction method, program, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003046597A JP4368594B2 (en) | 2003-02-24 | 2003-02-24 | Protein structure prediction apparatus, protein structure prediction method, program, and recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004258814A true JP2004258814A (en) | 2004-09-16 |
| JP4368594B2 JP4368594B2 (en) | 2009-11-18 |
Family
ID=33113060
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003046597A Expired - Fee Related JP4368594B2 (en) | 2003-02-24 | 2003-02-24 | Protein structure prediction apparatus, protein structure prediction method, program, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4368594B2 (en) |
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007219760A (en) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | Docking simulation program, recording medium recording the program, docking simulation apparatus, and docking simulation method |
| JP2009151406A (en) * | 2007-12-19 | 2009-07-09 | National Institute Of Advanced Industrial & Technology | Protein function identification device |
| US7682619B2 (en) | 2006-04-06 | 2010-03-23 | Cornell Research Foundation, Inc. | Canine influenza virus |
| EP2536425A4 (en) * | 2010-02-18 | 2014-11-05 | Sinai School Medicine | VACCINES FOR USE IN THE PROPHYLAXIS AND TREATMENT OF INFLUENZA VIRUS DISEASE |
| JP2017037377A (en) * | 2015-08-07 | 2017-02-16 | 富士通株式会社 | Information processor, simulation method, and simulation program |
| US9708373B2 (en) | 2010-03-30 | 2017-07-18 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccine and uses thereof |
| US9849172B2 (en) | 2009-03-30 | 2017-12-26 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| US9908930B2 (en) | 2013-03-14 | 2018-03-06 | Icahn School Of Medicine At Mount Sinai | Antibodies against influenza virus hemagglutinin and uses thereof |
| US9968670B2 (en) | 2012-12-18 | 2018-05-15 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| US10131695B2 (en) | 2011-09-20 | 2018-11-20 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| JP2020030796A (en) * | 2018-08-23 | 2020-02-27 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | Systems and methods for predicting structure and properties of atoms and atomic alloy materials |
| US10736956B2 (en) | 2015-01-23 | 2020-08-11 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccination regimens |
| CN112585684A (en) * | 2018-09-21 | 2021-03-30 | 渊慧科技有限公司 | Machine learning to determine protein structure |
| WO2021117510A1 (en) * | 2019-12-13 | 2021-06-17 | 国立大学法人お茶の水女子大学 | Structure prediction method and structure prediction device |
| US11254733B2 (en) | 2017-04-07 | 2022-02-22 | Icahn School Of Medicine At Mount Sinai | Anti-influenza B virus neuraminidase antibodies and uses thereof |
| US11266734B2 (en) | 2016-06-15 | 2022-03-08 | Icahn School Of Medicine At Mount Sinai | Influenza virus hemagglutinin proteins and uses thereof |
| CN114207619A (en) * | 2019-09-05 | 2022-03-18 | 株式会社日立制作所 | Material property prediction system and information processing method |
| CN114913915A (en) * | 2021-02-08 | 2022-08-16 | 腾讯科技(深圳)有限公司 | Protein structure model construction method and device, storage medium and electronic equipment |
| US12362036B2 (en) | 2018-11-30 | 2025-07-15 | Deepmind Technologies Limited | Protein structure prediction using geometric attention neural networks |
| US12364746B2 (en) | 2018-06-21 | 2025-07-22 | Icahn School Of Medicine At Mount Sinai | Mosaic influenza virus hemagglutinin polypeptides and uses thereof |
-
2003
- 2003-02-24 JP JP2003046597A patent/JP4368594B2/en not_active Expired - Fee Related
Cited By (35)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007219760A (en) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | Docking simulation program, recording medium recording the program, docking simulation apparatus, and docking simulation method |
| US7682619B2 (en) | 2006-04-06 | 2010-03-23 | Cornell Research Foundation, Inc. | Canine influenza virus |
| JP2009151406A (en) * | 2007-12-19 | 2009-07-09 | National Institute Of Advanced Industrial & Technology | Protein function identification device |
| US9849172B2 (en) | 2009-03-30 | 2017-12-26 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| EP2536425A4 (en) * | 2010-02-18 | 2014-11-05 | Sinai School Medicine | VACCINES FOR USE IN THE PROPHYLAXIS AND TREATMENT OF INFLUENZA VIRUS DISEASE |
| AU2011217903B2 (en) * | 2010-02-18 | 2017-03-02 | Mount Sinai School Of Medicine | Vaccines for use in the prophylaxis and treatment of influenza virus disease |
| US9701723B2 (en) | 2010-02-18 | 2017-07-11 | Icahn School Of Medicine At Mount Sinai | Vaccines for use in the prophylaxis and treatment of influenza virus disease |
| US9708373B2 (en) | 2010-03-30 | 2017-07-18 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccine and uses thereof |
| US10179806B2 (en) | 2010-03-30 | 2019-01-15 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| US10131695B2 (en) | 2011-09-20 | 2018-11-20 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| US9968670B2 (en) | 2012-12-18 | 2018-05-15 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| US10137189B2 (en) | 2012-12-18 | 2018-11-27 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| US10583188B2 (en) | 2012-12-18 | 2020-03-10 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
| US9908930B2 (en) | 2013-03-14 | 2018-03-06 | Icahn School Of Medicine At Mount Sinai | Antibodies against influenza virus hemagglutinin and uses thereof |
| US10544207B2 (en) | 2013-03-14 | 2020-01-28 | Icahn School Of Medicine At Mount Sinai | Antibodies against influenza virus hemagglutinin and uses thereof |
| US10736956B2 (en) | 2015-01-23 | 2020-08-11 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccination regimens |
| JP2017037377A (en) * | 2015-08-07 | 2017-02-16 | 富士通株式会社 | Information processor, simulation method, and simulation program |
| US11266734B2 (en) | 2016-06-15 | 2022-03-08 | Icahn School Of Medicine At Mount Sinai | Influenza virus hemagglutinin proteins and uses thereof |
| US12233123B2 (en) | 2016-06-15 | 2025-02-25 | Icahn School Of Medicine At Mount Sinai | Influenza virus hemagglutinin proteins and uses thereof |
| US11865173B2 (en) | 2016-06-15 | 2024-01-09 | Icahn School Of Medicine At Mount Sinai | Influenza virus hemagglutinin proteins and uses thereof |
| US12030928B2 (en) | 2017-04-07 | 2024-07-09 | Icahn School Of Medicine At Mount Sinai | Anti-influenza B virus neuraminidase antibodies and uses thereof |
| US11254733B2 (en) | 2017-04-07 | 2022-02-22 | Icahn School Of Medicine At Mount Sinai | Anti-influenza B virus neuraminidase antibodies and uses thereof |
| US12364746B2 (en) | 2018-06-21 | 2025-07-22 | Icahn School Of Medicine At Mount Sinai | Mosaic influenza virus hemagglutinin polypeptides and uses thereof |
| CN110858505A (en) * | 2018-08-23 | 2020-03-03 | 塔塔咨询服务有限公司 | System and method for predicting structure and properties of atomic elements and alloy materials thereof |
| CN110858505B (en) * | 2018-08-23 | 2023-06-20 | 塔塔咨询服务有限公司 | System and method for predicting structure and properties of atomic elements and their alloy materials |
| JP2020030796A (en) * | 2018-08-23 | 2020-02-27 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | Systems and methods for predicting structure and properties of atoms and atomic alloy materials |
| CN112585684A (en) * | 2018-09-21 | 2021-03-30 | 渊慧科技有限公司 | Machine learning to determine protein structure |
| US12374428B2 (en) | 2018-09-21 | 2025-07-29 | Deepmind Technologies Limited | Determining protein distance maps by combining distance maps crops |
| US12437843B2 (en) | 2018-09-21 | 2025-10-07 | Gdm Holding Llc | Predicting protein structures using geometry neural networks that estimate similarity between predicted protein structures and actual protein structures |
| US12362036B2 (en) | 2018-11-30 | 2025-07-15 | Deepmind Technologies Limited | Protein structure prediction using geometric attention neural networks |
| CN114207619A (en) * | 2019-09-05 | 2022-03-18 | 株式会社日立制作所 | Material property prediction system and information processing method |
| JPWO2021117510A1 (en) * | 2019-12-13 | 2021-06-17 | ||
| JP7470437B2 (en) | 2019-12-13 | 2024-04-18 | 国立大学法人お茶の水女子大学 | Structure prediction method and structure prediction device |
| WO2021117510A1 (en) * | 2019-12-13 | 2021-06-17 | 国立大学法人お茶の水女子大学 | Structure prediction method and structure prediction device |
| CN114913915A (en) * | 2021-02-08 | 2022-08-16 | 腾讯科技(深圳)有限公司 | Protein structure model construction method and device, storage medium and electronic equipment |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4368594B2 (en) | 2009-11-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4368594B2 (en) | Protein structure prediction apparatus, protein structure prediction method, program, and recording medium | |
| Bender et al. | Protocols for molecular modeling with Rosetta3 and RosettaScripts | |
| Kong et al. | A structural-informatics approach for mining β-sheets: locating sheets in intermediate-resolution density maps | |
| Xu et al. | Computational tools for protein modeling | |
| Zhang et al. | Tertiary structure predictions on a comprehensive benchmark of medium to large size proteins | |
| Keegan et al. | Recent developments in MrBUMP: better search-model preparation, graphical interaction with search models, and solution improvement and assessment | |
| Leelananda et al. | Iterative molecular dynamics–Rosetta membrane protein structure refinement guided by Cryo-EM densities | |
| Zaborowski et al. | A maximum-likelihood approach to force-field calibration | |
| Goodswen et al. | A guide to in silico vaccine discovery for eukaryotic pathogens | |
| Fu et al. | An overview of bioinformatics tools and resources in allergy | |
| Kim et al. | Accurately predicting disordered regions of proteins using Rosetta residuedisorder application | |
| Jin et al. | Protein structure prediction in CASP13 using AWSEM-suite | |
| Nedumpully-Govindan et al. | CSAR benchmark of flexible MedusaDock in affinity prediction and nativelike binding pose selection | |
| Liu et al. | Structure‐based prediction of transcription factor binding sites using a protein‐DNA docking approach | |
| Pandit et al. | TASSER-Lite: an automated tool for protein comparative modeling | |
| Chen et al. | Template-guided protein structure prediction and refinement using optimized folding landscape force fields | |
| Robin et al. | The SWISS‐model repository of 3D protein structures and models | |
| Zimmermann et al. | LOCUSTRA: accurate prediction of local protein structure using a two-layer support vector machine approach | |
| Ramachandran et al. | Homology modeling: generating structural models to understand protein function and mechanism | |
| JP5211458B2 (en) | Method and apparatus for virtual screening of compounds | |
| Jarmolinska et al. | DCA-MOL: a PyMOL plugin to analyze direct evolutionary couplings | |
| Ishitani et al. | Refinement of comparative models of protein structure by using multicanonical molecular dynamics simulations | |
| US20070244651A1 (en) | Structure-Based Analysis For Identification Of Protein Signatures: CUSCORE | |
| Gao et al. | Survey of predictors of propensity for protein production and crystallization with application to predict resolution of crystal structures | |
| Simoncini et al. | A structural homology approach for computational protein design with flexible backbone |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060221 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090210 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090410 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090623 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090721 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090818 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090826 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120904 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130904 Year of fee payment: 4 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |