JP3998171B2 - シグナルペプチドの判別方法、及びそのためのコンピュータプログラム - Google Patents
シグナルペプチドの判別方法、及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP3998171B2 JP3998171B2 JP2001181248A JP2001181248A JP3998171B2 JP 3998171 B2 JP3998171 B2 JP 3998171B2 JP 2001181248 A JP2001181248 A JP 2001181248A JP 2001181248 A JP2001181248 A JP 2001181248A JP 3998171 B2 JP3998171 B2 JP 3998171B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- discrimination
- amino acid
- region
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、アミノ酸配列が決定されたタンパク質について、シグナルペプチドの有無を判別する方法に関し、コンピュータを用いて大量のアミノ酸配列に対して迅速且つ高い精度で対象の配列がシグナルペプチドを含有するか否かを判別する方法、及びシグナルペプチドが存在すると判別される場合には、シグナルペプチド領域についての情報を出力する方法、及びそれを実施する為のコンピュータソフトウェアに関する。
【0002】
【従来技術】
シグナルペプチドは、分泌型水溶性タンパク質および一部の膜タンパク質のアミノ酸配列のN末端付近に存在する10〜30残基長の機能性セグメントであり、細胞質内で生合成されたポリペプチド鎖の生体膜透過、及び膜への組み込みにおいて重要な役割を果たしている。
シグナルペプチドの判別および領域予測は、これまで、シグナルペプチドが膜透過後に切除を受ける位置である、Cleavage Site付近のアミノ酸配列のパターンを認識することによって行われてきた。このようなアプローチによるシグナルペプチドの判別、及び領域予測には幾つかの方法が提唱されている。ひとつにはシグナルペプチドの配列パターンからウエイトマトリックスを作製し、これを用いてシグナルペプチドの判別・領域予測を行う統計的手法があり、またニューラルネットワークや隠れマルコフモデルのような機械学習的アルゴリズムを用いたパターン認識的手法、並びにこれらの手法を組み合わせた複合的手法などがある。
【0003】
典型的なシグナルペプチドは、疎水的な性質の側鎖を持つアミノ酸残基が比較的高頻度で現れる疎水性コア領域を有することが知られている。従って、シグナルペプチドを判別する初段階として、与えられた任意のアミノ酸配列からシグナルペプチドの候補領域を捕捉することを目的とする時、この疎水性コア領域をシグナルペプチドの候補とする手法が従来のシグナルペプチド判別技術でも用いられてきた。
【0004】
しかしながら、シグナルペプチドの疎水性コア領域を捉える際、ある疎水性インデックス値の閾値をもって決定するという単純な方法では、シグナルペプチドの疎水性コア領域だけでなく、膜タンパク質の膜貫通領域や、本来単なる水溶性タンパク質の一領域に過ぎないような配列までがシグナルペプチドの候補領域として誤って予測されることがあるという欠点があった。
【0005】
一方、典型的なシグナルペプチドを特徴付けるとされるものとして別の要素も知られている。その一つは、疎水性コア領域のN末端側に正電荷を有するアミノ酸残基が高頻度で現れるということである。またシグナルペプチドが、膜透過後に切除されるアミノ酸配列上の位置であるCleavage Siteには、明確な配列パターンは存在しないが、Cleavage SiteからN末端側へ1つ目と3つ目のアミノ酸残基に相当する位置(即ち(-1,-3)位)に、側鎖の体積が小さなアミノ酸残基が頻出することが知られている((−1、−3)ルール;詳細はVon Heigne,Eur.J.Biochem.133:17-21(1981)に記載されている)。しかしながら、これら既存の典型的なシグナルペプチドを特徴付けるとされる要素だけでは、シグナルペプチドの判別に充分な精度を得ることはできなかった。
【0006】
一般に、アミノ酸配列上における機能予測には、ある機能に特徴的なアミノ酸残基の出現パターンを検索するモチーフ検索という手法が取られるが、このような方法ではシグナルペプチドの判別は不可能である。例えば、既存の技術では、シグナルペプチドに関する膨大な凡例を機械学習的アルゴリズムによって判別プログラムに学習させ、これによってシグナルペプチドを判別させることにより一定以上の精度でシグナルペプチドの判別を可能としてきた。しかしながら、隠れマルコフモデルやニューラルネットワークに代表される機械学習的アルゴリズムによる判別では、判別が可能なシグナルペプチドは学習に使用したデータセットに依存することになるという宿命的な問題が存在する。このことは、学習したパターンとは異なる判別対象を判別できないという欠陥につながる。また、精度を上げるために学習するデータを増やしていくと、本来シグナルペプチドではないものをシグナルペプチドと誤って判別する確率が増加していくという欠点も併せ持つ。
【0007】
【課題を解決するための手段】
(a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てておき、(b)5〜9個の何れかの数の一連の窓を有するウィンドウWを用いて生物に由来する被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5〜25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart、Xend、並びに候補領域Cの長さXlength)を求め、(f)前記候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)前記候補領域Cがある場合にはその平均疎水性値及び該候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)該判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)前記判別対象領域RにおけるSP Index及びSS Indexの平均値を算出し、(m)計算された各パラメータ、 Xstart 、 Xend 、 Xlength 、Pp及びPrを元に、下記3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから前記候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とする、コンピュータを用いたシグナルペプチドの判別方法、及び、その方法を実施するコンピュータプログラムによって達成された。
【0008】
一方、細胞質内において合成されたタンパク質が輸送されるプロセスを考えてみると、シグナルペプチドを形作るアミノ酸配列の持つべき性質が分かる。即ち、細胞質以外の場所で働くタンパク質は全て、最低一回は生体膜を透過するプロセスを経る必要がある。この場合の、生体内における膜透過を実現するシステムは複数存在することが知られている。最もよく用いられるのがシグナルペプチドが関与するタンパク質膜透過機構であり、多くの分泌タンパク質がこの経路を辿って生体膜を透過する。例えば、細胞質内で遊離リボソームにおけるタンパク質のポリペプチド鎖を合成する際には、このタンパク質がシグナルペプチドを持つ場合には、シグナルペプチドがシグナル認識粒子(SRP)によって認識を受ける。そして、SRPによる認識はシグナルペプチドの疎水性領域を認識すると言われている。
【0009】
上記SRPによる認識を受けるとポリペプチド鎖の伸張が停止する。一方、SRPの方は膜上のSRP受容体に認識されるとポリペプチド鎖の伸張が再開される。SRP受容体の傍にはタンパク質を膜透過させる機構であるトランスロコンと呼ばれるタンパク質の複合体があり、運ばれてきたポリペプチド鎖を膜透過させる。この時、シグナルペプチドはN末端側が細胞質側に向くトポロジーを形成しており、トランスロコンの中で丁度膜を貫通するような形になっている。ポリペプチド鎖の伸張が100〜150残基まで進んだところで、膜表在性の酵素であるシグナルペプチダーゼによって、シグナルペプチドはCleavage Siteにおいて切除されるのである。
【0010】
もしCleavage Siteを持たず、それ以外はシグナルペプチドと同様の配列がタンパク質のN末端に存在する場合には、シグナルペプチドの場合と同様にSRPによる認識とトランスロコン通過というプロセスを踏むものの、Cleavage Siteが無いためにシグナルペプチダーゼによる切除を受けない。その結果としてこのセグメントは膜に組み込まれ、N末端が膜の内側を向いた膜貫通領域を形成する。このような膜貫通領域を形成するセグメントを本明細書ではシグナルアンカー(SA)と呼び、特にシグナルペプチドと同様の経路で膜を透過するシグナルアンカーをTypeII型シグナルアンカー(SA-II)と呼ぶ。また、本明細書では、SRPにより認識を受けてトランスロコンを通過して膜を透過した後最終的に切除されるセグメントをシグナルペプチド(SP)、シグナルペプチドと同様の経路を通って膜を透過するが切除を受けないセグメントをTypeII型シグナルアンカー(SA‐II)、そしてシグナルペプチドとシグナルアンカーを含む機能性セグメント全体を総称してシグナル配列と定義する。
【0011】
シグナルペプチドを保有する水溶性タンパク質の場合には、シグナルペプチドが切除された後、タンパク質本体が膜を透過し、生体膜を挟んで反対側の空間へと分泌される。一方、シグナルペプチドを有する膜タンパク質の場合には、シグナルペプチド領域が切除された後、下流の膜貫通領域のN末端が外側向きで生体膜に挿入されるために、N末端が膜外を向いたトポロジーを有する膜タンパク質となる。
【0012】
このように、シグナルペプチドの役割には次の三つの別々の段階が存在する。1)細胞質側においてSRPによる認識を受ける
2)トランスロコンによって認識を受ける
3)生体膜透過後、シグナルペプチダーゼによる認識を受け切除される
これらのうちの1)と2)は、シグナルペプチド及びTypeII型シグナルアンカー両者に共通する特徴的機能と考えられ、3)が特にシグナルペプチドに特有の特徴的機能である。SRPが認識するシグナルペプチドの部位は、シグナルペプチドの持つ疎水性の高いアミノ酸配列の領域であると考えられる。
【0013】
SRPによるシグナルペプチドの認識と同様に、トランスロコンによる認識やシグナルペプチダーゼによるシグナルペプチドの認識の場合にも、配列特異性というよりもむしろこの領域を構成するアミノ酸の側鎖の疎水性、極性といった物理化学的性質によって認識されると考えられる。既存の方法ではシグナルペプチドを特徴付けるはっきりとしたアミノ酸配列パターンが見出せないのも、このような要因に起因すると考えられる。
【0014】
そこで本発明者等は、シグナルペプチドをより高い精度で予測することについて鋭意検討した結果、Kyte-Doolittleの疎水性指標(以下、疎水性指標とする)と、新しく定義した負電荷残基指標によってシグナルペプチド候補領域を抽出し、列挙された候補領域に新しく定義したシグナルペプチド判別指標およびシグナルアンカー判別指標を適用し、併せて候補領域の位置や長さを用いてシグナルペプチドを予測した場合には、従来技術に比して格段に高精度の予測が可能となることを見出し、本発明に到達した。
【0015】
【発明が解決しようとする課題】
従って本発明の第一の目的は、アミノ酸配列が決定されたタンパク質に、シグナルペプチド又はシグナルアンカーの何れかが含まれるか否かを、高い精度で判別するための方法を提供することである。
更に本発明の第二の目的は、与えられた任意のアミノ酸配列がシグナルペプチドを含むかどうか、含む場合にはその領域およびシグナルペプチドの切除部位であるCleavage Siteを高い精度で判別するための、コンピュータプログラムを提供することにある。
【0016】
【課題を解決するための手段】
本発明の上記の諸目的は、アミノ酸配列の決定されたタンパク質の判別方法であって、該方法が、
a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当て、(b)5〜9個の何れかの数の一連の窓を有するウィンドウWを用いて被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5〜25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域S(i)が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域S(i)を最終的な候補領域Cとして選択し、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数Xstart、及び、Xend並びに候補領域Cを構成するアミノ酸の数Xlengthを求め、(f)候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)候補領域Cがある場合にはその平均疎水性値及び該候補領域中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index、シグナル配列判別指標SS Indexを割り振り、(l)判別対象領域RにおけるSP IndexおよびSS Indexの平均値を算出し、(m)計算された各パラメータを元に、3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから該候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とするシグナルペプチドの判別方法、及びそのためのコンピュータプログラムによって達成された。
【0017】
【発明の実施の形態】
一般的に、シグナルペプチドは典型的な膜貫通領域と同様の特徴をもっており、特に疎水性が高いアミノ酸残基が頻出するという点で両者は類似している。このため、疎水性だけではシグナルペプチドとシグナルアンカー等の膜貫通セグメントを区別することは困難であるといえる。一方、その疎水性領域の長さが膜貫通セグメントのそれと比較して短い場合や、極性のアミノ酸残基を多く含み全体として比較的親水的なセグメントであるものも多い。このような特徴をもつシグナルペプチドの場合には、水溶性タンパク質の配列中に散在して見られる比較的短めの疎水性セグメントと区別することが困難である。
【0018】
しかしながら、シグナルペプチドが細胞質側で生合成されてから膜を透過して切除されるまでの一連の流れを考慮したとき、その第一段階となるSRP(Signal Recognition Particle:シグナル認識粒子)によるシグナル配列認識に伴うシグナル配列とSRPとの相互作用は疎水性相互作用に基づいており、この段階では、シグナルペプチドと膜貫通セグメントであるシグナルアンカーは区別されていない。従って、配列の疎水性を基に、シグナルペプチドとシグナルアンカーを含む候補領域を列挙することは妥当であると考えられる。しかしながら、SRPはシグナル配列認識の段階で水溶性タンパク質の配列を捕捉しないことから明らかなように、シグナル配列(シグナルペプチド+シグナルアンカー)と水溶性タンパク質上の疎水性セグメントを分ける要素が存在する。
【0019】
上記の要素は、本発明者等の解析の結果、シグナル配列のもつ疎水性領域には、極性の、特に負電荷を有するアミノ酸残基が現れない連続した領域があるのに対して、シグナル配列を有さない水溶性タンパク質の場合には、たとえN末端近傍に疎水性領域があったとしても、そこには負電荷残基が無秩序に分布するという相違点のあることが明らかとなった。言い換えれば、負電荷残基が存在しないことがSRPの認識を受けるひとつの条件であると言える。そこでこの負電荷残基の効果を、候補領域を列挙する際に取り入れるために、新たに負電荷残基指標NCを作成した。表1にこのパラメータを示す。尚、三文字のアルファベット表記は20種類のアミノ酸の3文字表記、カッコ内のアルファベットは三文字表記のアミノ酸を一文字表記する場合の記号である。
【表1】
【0020】
上記のアルゴリズムによって候補領域を列挙した次の段階は、シグナルペプチドと膜貫通セグメント(シグナルアンカー)の区別である。今、仮に任意のアミノ酸配列が与えられたと仮定すると、列挙された候補領域には、シグナルペプチド、膜貫通セグメント、シグナル配列をもたない水溶性タンパク質の疎水性セグメントが含まれると考えられるが、これらをどのように判別するかの問題である。シグナルペプチドとシグナルアンカーの最大の違いは膜透過後の切除プロセスの有無である。
【0021】
シグナルペプチドの切除部位であるCleavage Siteには、それを特徴付ける配列モチーフのような明確なパターンは存在せず、Cleavage SiteのN末端側にシグナルペプチド及びシグナルアンカーに共通的に見られる疎水性セグメントが存在することから、シグナルペプチドとシグナルアンカーを特徴付ける要素は、疎水性セグメントのC末端からCleavage Siteを跨いで全アミノ酸配列のC末端側に至る領域に存在すると考えることができる。そこで[1]シグナルペプチドのCleavage Siteを挟んだ前後10残基ずつ計20残基の領域、[2]シグナルアンカーの膜貫通領域のC末端側境界を挟んだ前後10残基ずつ計20残基の領域、[3]シグナル配列をもたない水溶性タンパク質の疎水性領域であるC末端側境界を挟む前後10残基ずつ計20残基;という3つの領域について、それぞれアミノ酸残基の出現傾向を解析し、どのようなアミノ酸残基が頻出するのかを調べ、これをもとにシグナルペプチド判別指標SP Index、およびシグナル配列判別指標SS-Indexを作成した。元となったアミノ酸残基の出現傾向には、タンパク質の由来生物種について真核生物(Eukaryote)と原核生物(Prokaryote)という大きな区分で差異が認められたため、SP-Index及びSS-Indexについて、真核生物由来のアミノ酸配列に適用するための指標と、原核生物由来のアミノ酸配列に適用するための指標とを別々に作成した。それぞれの指標の値については表2に示した。SP-Index、SS-Index両者を総称して以後SSインデックスと呼称する。
【表2】
【0022】
以下、本発明の判別方法を具体的手順に従って説明する。
本発明においては、先ずシグナルペプチドを有するか否か判別しようとするタンパク質について、アミノ酸配列と、そのタンパク質が真核生物由来のものか、原核生物由来のものであるかの情報を与える。尚、被判別タンパク質が真核生物由来のものか原核生物由来のものかの情報は、後述する如く、SP Index及びSS Indexを割り振る前に与えれば良く、必ず初めに与えなくてはならないというものではない。そこで、先ず与えられたアミノ酸配列を構成する各アミノ酸に対し、表1によって予め設定されている疎水性指標Hを割り当てる。次に、例えば7残基の、連続するアミノ酸残基に当てはめることのできるウィンドウWを用いて、下記(1)式によって一回平均疎水性値[H]を計算する。
但し、iはウィンドウの中心アミノ酸の位置を示す。上記の計算は、タンパク質を構成するアミノ酸鎖のN末端側から例えば7残基ウィンドウを1残基毎にずらしながら全ての単位について計算する。一通りC末端側まで適用し終えた後、下記(2)式によって二回平均疎水性値[[H]]を計算する。
【0023】
得られた[[H]]を用いて疎水性プロファイルを作成し、該プロファイルにおいて、[[H]]が連続して閾値kを超えるアミノ酸残基の数がLよりも大である部分を、シグナル配列の候補領域セグメントS(i)とする。但しLは5〜25から選択される何れかのアミノ酸残基の数、即ち長さであり、好ましくは8〜10から選択される整数である。尚、Lを9とした場合には、前記kとして0を設定することが好ましい。
【0024】
上記の如くして抽出された候補領域セグメントS(i)の各セグメントについて、領域を構成する各アミノ酸に負電荷残基指標NCを割り振る。NCが連続して0であるアミノ酸残基を候補領域として残し、NCが1の残基によって分割されたS(i)の各分割領域の長さがLを超えない場合には、その領域を候補から排除する。
【0025】
以上の操作をしても1つも候補領域が列挙されなかった場合には、被判別タンパク質はシグナル配列を持たない水溶性タンパク質と判定され、判定操作(プログラム)は終了する。また、列挙された候補領域がアミノ酸配列のN末端から100残基目よりも後にのみ現れる場合には、シグナル配列無しとして判定操作は終了する。従ってこれらのタンパク質については以降の演算はされず、別の被判別タンパク質について、初めから本判定操作(プログラム)が実行される。一方、複数の候補領域S(i)が列挙された場合には、最もN末端側に現れたS(i)を候補領域Cとして採用する。
【0026】
次に、シグナルペプチドの判別に必要なパラメータを、次のようにして候補領域より抽出する。下記式(3)によって、Cの平均疎水性値を求めると共に、候補領域Cの始点(Xstart)および終点(Xend)を求める。
また候補領域Cの長さ即ち候補領域Cを構成するアミノ酸の数をXlengthとする。また候補領域C中で、二回平均疎水性値[[H]]が最も大きい位置を疎水性ピーク位置Ppとする。次いで、Ppから被判別アミノ酸配列のN末端側に遡って最初に現れた正電荷残基の位置を基準位置Prとする。もし正電荷残基が見つからなかった場合には、被判別アミノ酸配列のN末端を基準位置Prとする。
【0027】
求められた基準位置Prからアミノ酸配列のC末端側へ、下流10番目から27番目までの18残基の領域を判別対象領域Rとし、判別対象領域Rを構成する18残基のアミノ酸残基それぞれに、シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS-Indexを割り振り、下記式(4)及び(5)によって判別対象領域におけるSP IndexおよびSS Indexの平均値を算出する。
【0028】
次いで、下記判別式(6)によってシグナルペプチド(SP)-シグナルアンカー(SA)間の二群の判別を行い、同様にして下記判別式(7)によってシグナルペプチド(SP)-非シグナル配列(NS)の二群の判別を、下記判別式(8)によってシグナルアンカー(SA)-非シグナル配列(NS)の二群の判別を行う。下記式中の係数等は下記表3に示した。
【表3】
【0029】
上記判別式(6)〜(8)を用いた三回の2群の判別の結果の組み合わせにより、最終的な判別結果は下記の通りとなる。
[1]SP∩SP∩SA→SP
[2]SP∩SP∩NS→SP
[3]SP∩NS∩SA→NS
[4]SP∩NS∩NS→NS
[5]SA∩SP∩SA→保留
[6]SA∩SP∩NS→保留
[7]SA∩NS∩NS→NS
[8]SA∩NS∩SA→SA
【0030】
上記[5]および[6]では三群の判別で矛盾が生じるため例外処理を行う。当てはまらない場合も多いが、シグナルペプチド切除部位であるCleavage Siteを特徴づけるルールとして広く認知されている、前述した(-1,-3)ルールに即したパターン検索を行い、もし当てはまれば、これを手がかりにしてSPであると最終判断を下し、ない場合にはNSとする。
【0031】
本発明のコンピュータプログラムは、被判別タンパク質のアミノ酸配列について以上のデータ入力と演算を行わせ、必要に応じて、得られた結果をモニター及び/又はプリンターによって出力する。上記の判別を実施する為のコンピュータプログラムのフローチャートは、図1および図2に示される通りである。本発明のコンピュータプログラムは、C言語等を用いて記載することができる。以下に更に詳述する。
【0032】
プログラムを起動し、被判別タンパク質を形成するアミノ酸配列を入力し(STP101)、被判別タンパク質の由来生物種が真核生物(Eukaryote)と原核生物(Prokaryote)のどちらに属するのかを選択して入力する(STP102)。一方、前記表1〜3のデータ及び(1)〜(8)の数式等を予め記憶部に格納しておく。次に、入力された全てのアミノ酸残基に、予め記憶部に格納されている前記表1のデータのうち、該当する疎水性指標Hの値を割り当てる(STP103)。尚、被判別タンパク質の由来生物種についての情報入力は、STP102に限定されるものではなく、後述するSTP112の前であればどの段階であっても良い。
【0033】
所定のウィンドウを、アミノ酸配列の端から1残基ごとにずらしながら、各ウィンドウに対応するアミノ酸列を抽出し、抽出された全てのアミノ酸配列に対して前記(1)式に従って一回平均疎水性値[H]を求め、ついで前記(2)式に従って二回平均疎水性値[[H]]を求めて疎水性プロファイルを作成する(STP104)。
【0034】
[[H]]が連続して閾値kを超えるアミノ酸残基の数がLよりも大であるものを、シグナル配列の候補領域セグメントS(i)とする。但しLは5〜25から選択された何れかのアミノ酸残基の数、即ち長さであり、好ましくは8〜10から選択される整数である。尚、Lを9とした場合には、前記kとして0を設定することが好ましい。抽出された候補S(i)の各セグメントについて、領域を構成する各アミノ酸に負電荷残基指標NCを割り振る。NCが連続して0である領域の長さがL以上であれば、候補領域Cとして残し、NCが1の残基によって分割されたS(i)の各分割領域の長さがLを超えない場合にはその領域を候補から排除する(STP105)。
【0035】
ここで、1つも候補領域Cが列挙されなかった場合には被判別タンパク質はシグナル配列を持たない水溶性タンパク質と判定され、判定操作(プログラム)は終了する。次に、列挙された候補領域Cが100残基目よりも後に現れたか否かを判定し、100残基よりも後にのみ現れる場合にはシグナル配列無しとして、判定操作は終了する(STP106)。
【0036】
一方、S(i)が一つに絞られた場合はそれを候補領域Cとして、また複数の候補領域が列挙された場合には最もN末端側に現れたS(i)を候補領域Cとして採用する(STP107)。従って候補領域Cは、最終的に1個に絞られる。得られた候補領域Cにおける領域の平均疎水性値を前記(3)式によって求めると共に、候補領域C中における疎水性値の最大ピーク位置Pp、候補領域始点Xstart、候補領域終点Xend及び候補領域長さXlengthの各パラメータを求める(STP108)。
【0037】
候補領域Cの最大ピーク位置からN末端側へ遡って正電荷残基を検索し(STP109)、もっともPpに近いところで見つかった正電荷残基の位置をPrとし、正電荷残基が見つからなかった場合にはN末端をPrとする(STP110)。次に、PrからC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rと決定する(STP111)。判別対象領域Rを構成する18残基のアミノ酸残基それぞれに、予め記憶部に格納してある表2のシグナルペプチド判別指標SP-Index及びシグナル配列判別指標SS-Indexを割り振って、前記式(4)及び(5)によって判別対象領域におけるSP IndexおよびSS Indexの平均値を算出する(STP112)。次に、上記候補領域に(-1,-3)ルールに即したパターンが見出されるかどうかを検索する。もし見つかった場合にはフラグMotifを立てる。ここでの結果は、シグナルペプチド判別における、後の例外処理でのみ使われる(STP113)
【0038】
前記判別式(6)によってSP-SA間の二群の判別を行い、同様にして、前記判別式(7)によってSP-NS間の二群の判別を行う。更に、前記判別式(8)によってSA-NS間の二群の判別を行う(STP114)。これらの式中における係数等は予め記憶部に記録されている前記表3から読み出して使用される。上記判別結果は、シグナルペプチド(SP)、シグナルアンカー(SA)、又はシグナル配列なし(NS)として得られる。具体的には、前式(6)の計算結果FSP−SAがシグナルペプチド−シグナルアンカー(SP−SA)を判別する閾値TSP−SA以上である場合には、SP−SA判別の結果をSPとし、TSP−SA未満である場合にはSP−SA判別の結果をSAとする。この場合のTSP−SAには、真核生物の場合には−0.382を、原核生物の場合には−9.98を設定することが好ましい。前式(7)の計算結果FSP−NSが、シグナルペプチド−シグナル配列なし(SP−NS)を判別する閾値TSP−NS以上である場合には、SP−NS判別の結果をSPとし、TSP−NS未満である場合にはSP−NS判別の結果をNS(シグナル配列なし)とする。この場合のTSP−NSには、真核生物の場合には3.00を、原核生物の場合には2.74を設定する。前式(8)の計算結果FSA−NSがシグナルアンカー−シグナル配列なし(SA−NS)を判別する閾値TSA−NS以上である場合には、SA−NS判別の結果をSAとし、TSA−NS未満である場合にはSA−NS判別の結果をNS(シグナル配列なし)とする。この場合のTSA−NSには、真核生物の場合には2.00を、原核生物の場合には2.30を設定することが好ましい。
【0039】
上記の判別結果を用い、[1]SP-SAの判別がSPでSP-NSの判別がSP、かつSA-NSの判別がSAの場合には、判別結果をSPとし(STP115)、[2]SP-SAの判別がSPでSP-NSの判別がSP、かつSA-NSの判別がNSの場合には、判別結果をSPとする(STP116)。また、[3]SP-SAの判別がSPでSP-NSの判別がNS、かつSA-NSの判別がSAの場合には判別結果をNSとし(STP117)、[4]SP-SAの判別がSPでSP-NSの判別がNS、かつSA-NSの判別がNSの場合ににおける判別結果をNSとする(STP118)。[5]SP-SAの判別がSAでSP-NSの判別がSP、かつSA-NSの判別がSAの場合には、既に記憶部に格納されているMotifフラグをチェックする例外処理を行い(STP119)、その結果がtrueであればSPとし、falseの場合にはSAとする(STP120)。同様に、[6]SP-SAの判別がSAでSP-NSの判別がSP、かつSA-NSの判別がNSである場合にも、Motifフラグをチェックする例外処理を行い(STP121)、その結果がtrueであればSPとし、falseの場合にはNSとする(STP122)。[7]SP-SAの判別がSAで、SP-NSの判別がNS、且つSA-NSの判別がNSの場合には判別結果はNSとし(STP123)、[8]SP-SAの判別がSAで、SP-NSの判別がNS且つSA-NSの判別がSAの場合には判別結果はSAとする(STP124)。
これら全ての演算が完了すると、判別結果と候補領域の終点を出力して(STP125)、プログラムは終了する。
【0040】
【発明の効果】
本発明によれば、一次配列が解明されたタンパク質について、94%以上の正答率で、迅速に、被判別タンパク質がシグナルペプチドを持つか否かを判定することができる。
【図面の簡単な説明】
【図1】本発明のコンピュータプログラムのフローチャートSTP101からSTP112までの一例である。
【図2】図1に続くSTP113以降のフローチャートである。
Claims (3)
- (a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てておき、(b)5〜9個の何れかの数の一連の窓を有するウィンドウWを用いて、生物に由来する被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5〜25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart、Xend、並びに候補領域Cの長さXlength)を求め、(f)前記候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)前記候補領域Cがある場合にはその平均疎水性値及び該候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)該判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)前記判別対象領域RにおけるSP Index及びSS Indexの平均値を算出し、(m)計算された各パラメータ、 Xstart 、 Xend 、 Xlength 、Pp及びPrを元に、下記3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから前記候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とする、コンピュータを用いたシグナルペプチドの判別方法;
- シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを、真核生物由来のタンパク質を構成する場合と、原核生物由来のタンパク質を構成する場合とで別々に設定し、被判別タンパク質が何れの生物に由来するタンパク質であるかに従って、(1)の工程で割り振るシグナルペプチド判別指標SP Indexとシグナル配列判別指標SS Indexを選択する、請求項1に記載されたコンピュータを用いたシグナルペプチドの判別方法。
- (a)真核生物由来のタンパク質と原核生物由来のタンパク質の各タンパク質別に、タンパク質の構成要素である20種類のアミノ酸それぞれについて、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てたデータ、及び、各種判別式を記憶部にあらかじめ格納させておき、(b)5〜9個の何れかの数の一連の窓を有するウィンドウWを用いて被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、下式(1)及び(2)に前記疎水性指標をあてはめて二回平均疎水性値[[H]]を算出し、
(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5〜25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e−1)複数の候補領域S(i)が得られた場合には被判別アミノ酸配列のN末端に最も近い候補領域S(i)を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart及びXend、並びに候補領域Cの長さXlength)を求める。但し、(e−2)候補領域Cが100残基目より後にのみ現れるか否かを判別し、100残基目より後にのみ現れる場合には、シグナル配列はないものとしてプログラムは終了する。(f)候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)候補領域Cの平均疎水性値を下記式(3)によって求め、
次いで前記候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置から被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)前記判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)判別対象領域を構成する18個のアミノ酸残基それぞれに、被判別タンパク質が真核生物由来か原核生物由来かに応じて、対応する前記シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)下式(4)及び(5)に基づいて判別対象領域におけるSP Index及びSS Indexの平均値を算出し、
計算された各パラメータを元に下記3つの判別式(6)、(7)、(8)によって、(m)該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、
(p)得られた各々の結果を下記[1]〜[8]にあてはめて、候補領域を判定する(但し、各判別式中の定数は夫々±10%の間で変動することがあるものとする。);
[1]SP∩SP∩SA→SP
[2]SP∩SP∩NS→SP
[3]SP∩NS∩SA→NS
[4]SP∩NS∩NS→NS
[5]SA∩SP∩SA→保留
[6]SA∩SP∩NS→保留
[7]SA∩NS∩NS→NS
[8]SA∩NS∩SA→SA
(q)また、上記判別結果が[5]又は[6]となって保留とした場合には、シグナルペプチド切除部位であるCleavage Siteを特徴付ける(−1、−3)ルールに即したパターン検索を行い、もし当てはまればSP、当てはまらない場合はNSとすることを特徴とするコンピュータプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001181248A JP3998171B2 (ja) | 2001-06-15 | 2001-06-15 | シグナルペプチドの判別方法、及びそのためのコンピュータプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001181248A JP3998171B2 (ja) | 2001-06-15 | 2001-06-15 | シグナルペプチドの判別方法、及びそのためのコンピュータプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003014734A JP2003014734A (ja) | 2003-01-15 |
| JP3998171B2 true JP3998171B2 (ja) | 2007-10-24 |
Family
ID=19021547
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001181248A Expired - Fee Related JP3998171B2 (ja) | 2001-06-15 | 2001-06-15 | シグナルペプチドの判別方法、及びそのためのコンピュータプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3998171B2 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4608698B1 (ja) * | 2009-09-10 | 2011-01-12 | 学校法人明治大学 | Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム |
| JP5773406B2 (ja) * | 2010-07-28 | 2015-09-02 | 学校法人明治大学 | Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム |
| JP2014045730A (ja) * | 2012-08-31 | 2014-03-17 | Meiji Univ | ポリペプチド、遺伝子、発現ベクター、及びタンパク質を小胞体に輸送する方法、並びに、シグナルペプチドの設計方法 |
| JP6131074B2 (ja) * | 2013-03-18 | 2017-05-17 | 東ソー株式会社 | 分泌シグナル配列 |
| SG11201705915VA (en) | 2015-01-19 | 2017-08-30 | Univ Shinshu | Therapeutic agent for ischemic diseases |
| CN106951735B (zh) * | 2017-03-10 | 2019-06-04 | 上海交通大学 | 一种基于分层混合模型的信号肽及其切割位点的预测方法 |
-
2001
- 2001-06-15 JP JP2001181248A patent/JP3998171B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2003014734A (ja) | 2003-01-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101198987B (zh) | 对象检测装置及其学习装置 | |
| CN112289323B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
| CN108664931B (zh) | 一种多阶段视频动作检测方法 | |
| JP2000508805A (ja) | オブジェクトを特徴付ける特性を抽出する方法及び装置並びにそれらの使用法 | |
| CN110415705A (zh) | 一种热词识别方法、系统、装置及存储介质 | |
| JP3998171B2 (ja) | シグナルペプチドの判別方法、及びそのためのコンピュータプログラム | |
| CN113808612B (zh) | 语音处理方法、设备及存储介质 | |
| KR102360246B1 (ko) | 멀티모달학습장치 및 멀티모달 학습 방법 | |
| CN113822377B (zh) | 基于对比自学习的伪造人脸检测方法 | |
| CN110852364A (zh) | 矿井突水水源识别方法、装置与电子设备 | |
| CN112927721A (zh) | 人车互动方法、系统以及车辆和计算机可读存储介质 | |
| JP4213034B2 (ja) | タンパク質のドメインリンカー領域の予測方法 | |
| CN113785304A (zh) | 人脸识别方法和装置 | |
| CN109712171B (zh) | 一种基于相关滤波器的目标跟踪系统及目标跟踪方法 | |
| JP2005115569A (ja) | 信号識別装置および信号識別方法 | |
| JP2003256839A (ja) | パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置 | |
| CN113838524B (zh) | S-亚硝基化位点预测方法、模型训练方法及存储介质 | |
| JP2011128916A (ja) | オブジェクト検出装置および方法並びにプログラム | |
| CN117153151B (zh) | 基于用户语调的情绪识别方法 | |
| CN115861804B (zh) | 基于最优特征归因选择的sar图像对抗样本检测系统与方法 | |
| CN108664853B (zh) | 人脸检测方法及装置 | |
| CN111815651B (zh) | 一种人脸与身体肤色区域的分割方法、系统及设备 | |
| CN114373219B (zh) | 行为识别方法、电子设备及可读存储介质 | |
| JP4021153B2 (ja) | ダンベル型水溶性蛋白質の判別方法、及びその為のコンピュータプログラム | |
| JPH11202886A (ja) | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040422 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20040616 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040615 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070223 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070424 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070803 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070803 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 3998171 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120817 Year of fee payment: 5 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130817 Year of fee payment: 6 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |