[go: up one dir, main page]

JP3998171B2 - Method for discriminating signal peptide and computer program therefor - Google Patents

Method for discriminating signal peptide and computer program therefor Download PDF

Info

Publication number
JP3998171B2
JP3998171B2 JP2001181248A JP2001181248A JP3998171B2 JP 3998171 B2 JP3998171 B2 JP 3998171B2 JP 2001181248 A JP2001181248 A JP 2001181248A JP 2001181248 A JP2001181248 A JP 2001181248A JP 3998171 B2 JP3998171 B2 JP 3998171B2
Authority
JP
Japan
Prior art keywords
index
discrimination
amino acid
region
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001181248A
Other languages
Japanese (ja)
Other versions
JP2003014734A (en
Inventor
成樹 美宅
雅裕 五味
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2001181248A priority Critical patent/JP3998171B2/en
Publication of JP2003014734A publication Critical patent/JP2003014734A/en
Application granted granted Critical
Publication of JP3998171B2 publication Critical patent/JP3998171B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、アミノ酸配列が決定されたタンパク質について、シグナルペプチドの有無を判別する方法に関し、コンピュータを用いて大量のアミノ酸配列に対して迅速且つ高い精度で対象の配列がシグナルペプチドを含有するか否かを判別する方法、及びシグナルペプチドが存在すると判別される場合には、シグナルペプチド領域についての情報を出力する方法、及びそれを実施する為のコンピュータソフトウェアに関する。
【0002】
【従来技術】
シグナルペプチドは、分泌型水溶性タンパク質および一部の膜タンパク質のアミノ酸配列のN末端付近に存在する10〜30残基長の機能性セグメントであり、細胞質内で生合成されたポリペプチド鎖の生体膜透過、及び膜への組み込みにおいて重要な役割を果たしている。
シグナルペプチドの判別および領域予測は、これまで、シグナルペプチドが膜透過後に切除を受ける位置である、Cleavage Site付近のアミノ酸配列のパターンを認識することによって行われてきた。このようなアプローチによるシグナルペプチドの判別、及び領域予測には幾つかの方法が提唱されている。ひとつにはシグナルペプチドの配列パターンからウエイトマトリックスを作製し、これを用いてシグナルペプチドの判別・領域予測を行う統計的手法があり、またニューラルネットワークや隠れマルコフモデルのような機械学習的アルゴリズムを用いたパターン認識的手法、並びにこれらの手法を組み合わせた複合的手法などがある。
【0003】
典型的なシグナルペプチドは、疎水的な性質の側鎖を持つアミノ酸残基が比較的高頻度で現れる疎水性コア領域を有することが知られている。従って、シグナルペプチドを判別する初段階として、与えられた任意のアミノ酸配列からシグナルペプチドの候補領域を捕捉することを目的とする時、この疎水性コア領域をシグナルペプチドの候補とする手法が従来のシグナルペプチド判別技術でも用いられてきた。
【0004】
しかしながら、シグナルペプチドの疎水性コア領域を捉える際、ある疎水性インデックス値の閾値をもって決定するという単純な方法では、シグナルペプチドの疎水性コア領域だけでなく、膜タンパク質の膜貫通領域や、本来単なる水溶性タンパク質の一領域に過ぎないような配列までがシグナルペプチドの候補領域として誤って予測されることがあるという欠点があった。
【0005】
一方、典型的なシグナルペプチドを特徴付けるとされるものとして別の要素も知られている。その一つは、疎水性コア領域のN末端側に正電荷を有するアミノ酸残基が高頻度で現れるということである。またシグナルペプチドが、膜透過後に切除されるアミノ酸配列上の位置であるCleavage Siteには、明確な配列パターンは存在しないが、Cleavage SiteからN末端側へ1つ目と3つ目のアミノ酸残基に相当する位置(即ち(-1,-3)位)に、側鎖の体積が小さなアミノ酸残基が頻出することが知られている((−1、−3)ルール;詳細はVon Heigne,Eur.J.Biochem.133:17-21(1981)に記載されている)。しかしながら、これら既存の典型的なシグナルペプチドを特徴付けるとされる要素だけでは、シグナルペプチドの判別に充分な精度を得ることはできなかった。
【0006】
一般に、アミノ酸配列上における機能予測には、ある機能に特徴的なアミノ酸残基の出現パターンを検索するモチーフ検索という手法が取られるが、このような方法ではシグナルペプチドの判別は不可能である。例えば、既存の技術では、シグナルペプチドに関する膨大な凡例を機械学習的アルゴリズムによって判別プログラムに学習させ、これによってシグナルペプチドを判別させることにより一定以上の精度でシグナルペプチドの判別を可能としてきた。しかしながら、隠れマルコフモデルやニューラルネットワークに代表される機械学習的アルゴリズムによる判別では、判別が可能なシグナルペプチドは学習に使用したデータセットに依存することになるという宿命的な問題が存在する。このことは、学習したパターンとは異なる判別対象を判別できないという欠陥につながる。また、精度を上げるために学習するデータを増やしていくと、本来シグナルペプチドではないものをシグナルペプチドと誤って判別する確率が増加していくという欠点も併せ持つ。
【0007】
【課題を解決するための手段】
(a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てておき、(b)5〜9個の何れかの数の一連の窓を有するウィンドウWを用いて生物に由来する被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5〜25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart、Xend、並びに候補領域Cの長さXlength)を求め、(f)前記候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)前記候補領域Cがある場合にはその平均疎水性値及び該候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)該判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)前記判別対象領域RにおけるSP Index及びSS Indexの平均値を算出し、(m)計算された各パラメータ Xstart Xend Xlength 、Pp及びPrを元に、下記3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから前記候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とする、コンピュータを用いたシグナルペプチドの判別方法、及び、その方法を実施するコンピュータプログラムによって達成された。
【0008】
一方、細胞質内において合成されたタンパク質が輸送されるプロセスを考えてみると、シグナルペプチドを形作るアミノ酸配列の持つべき性質が分かる。即ち、細胞質以外の場所で働くタンパク質は全て、最低一回は生体膜を透過するプロセスを経る必要がある。この場合の、生体内における膜透過を実現するシステムは複数存在することが知られている。最もよく用いられるのがシグナルペプチドが関与するタンパク質膜透過機構であり、多くの分泌タンパク質がこの経路を辿って生体膜を透過する。例えば、細胞質内で遊離リボソームにおけるタンパク質のポリペプチド鎖を合成する際には、このタンパク質がシグナルペプチドを持つ場合には、シグナルペプチドがシグナル認識粒子(SRP)によって認識を受ける。そして、SRPによる認識はシグナルペプチドの疎水性領域を認識すると言われている。
【0009】
上記SRPによる認識を受けるとポリペプチド鎖の伸張が停止する。一方、SRPの方は膜上のSRP受容体に認識されるとポリペプチド鎖の伸張が再開される。SRP受容体の傍にはタンパク質を膜透過させる機構であるトランスロコンと呼ばれるタンパク質の複合体があり、運ばれてきたポリペプチド鎖を膜透過させる。この時、シグナルペプチドはN末端側が細胞質側に向くトポロジーを形成しており、トランスロコンの中で丁度膜を貫通するような形になっている。ポリペプチド鎖の伸張が100〜150残基まで進んだところで、膜表在性の酵素であるシグナルペプチダーゼによって、シグナルペプチドはCleavage Siteにおいて切除されるのである。
【0010】
もしCleavage Siteを持たず、それ以外はシグナルペプチドと同様の配列がタンパク質のN末端に存在する場合には、シグナルペプチドの場合と同様にSRPによる認識とトランスロコン通過というプロセスを踏むものの、Cleavage Siteが無いためにシグナルペプチダーゼによる切除を受けない。その結果としてこのセグメントは膜に組み込まれ、N末端が膜の内側を向いた膜貫通領域を形成する。このような膜貫通領域を形成するセグメントを本明細書ではシグナルアンカー(SA)と呼び、特にシグナルペプチドと同様の経路で膜を透過するシグナルアンカーをTypeII型シグナルアンカー(SA-II)と呼ぶ。また、本明細書では、SRPにより認識を受けてトランスロコンを通過して膜を透過した後最終的に切除されるセグメントをシグナルペプチド(SP)、シグナルペプチドと同様の経路を通って膜を透過するが切除を受けないセグメントをTypeII型シグナルアンカー(SA‐II)、そしてシグナルペプチドとシグナルアンカーを含む機能性セグメント全体を総称してシグナル配列と定義する。
【0011】
シグナルペプチドを保有する水溶性タンパク質の場合には、シグナルペプチドが切除された後、タンパク質本体が膜を透過し、生体膜を挟んで反対側の空間へと分泌される。一方、シグナルペプチドを有する膜タンパク質の場合には、シグナルペプチド領域が切除された後、下流の膜貫通領域のN末端が外側向きで生体膜に挿入されるために、N末端が膜外を向いたトポロジーを有する膜タンパク質となる。
【0012】
このように、シグナルペプチドの役割には次の三つの別々の段階が存在する。1)細胞質側においてSRPによる認識を受ける
2)トランスロコンによって認識を受ける
3)生体膜透過後、シグナルペプチダーゼによる認識を受け切除される
これらのうちの1)と2)は、シグナルペプチド及びTypeII型シグナルアンカー両者に共通する特徴的機能と考えられ、3)が特にシグナルペプチドに特有の特徴的機能である。SRPが認識するシグナルペプチドの部位は、シグナルペプチドの持つ疎水性の高いアミノ酸配列の領域であると考えられる。
【0013】
SRPによるシグナルペプチドの認識と同様に、トランスロコンによる認識やシグナルペプチダーゼによるシグナルペプチドの認識の場合にも、配列特異性というよりもむしろこの領域を構成するアミノ酸の側鎖の疎水性、極性といった物理化学的性質によって認識されると考えられる。既存の方法ではシグナルペプチドを特徴付けるはっきりとしたアミノ酸配列パターンが見出せないのも、このような要因に起因すると考えられる。
【0014】
そこで本発明者等は、シグナルペプチドをより高い精度で予測することについて鋭意検討した結果、Kyte-Doolittleの疎水性指標(以下、疎水性指標とする)と、新しく定義した負電荷残基指標によってシグナルペプチド候補領域を抽出し、列挙された候補領域に新しく定義したシグナルペプチド判別指標およびシグナルアンカー判別指標を適用し、併せて候補領域の位置や長さを用いてシグナルペプチドを予測した場合には、従来技術に比して格段に高精度の予測が可能となることを見出し、本発明に到達した。
【0015】
【発明が解決しようとする課題】
従って本発明の第一の目的は、アミノ酸配列が決定されたタンパク質に、シグナルペプチド又はシグナルアンカーの何れかが含まれるか否かを、高い精度で判別するための方法を提供することである。
更に本発明の第二の目的は、与えられた任意のアミノ酸配列がシグナルペプチドを含むかどうか、含む場合にはその領域およびシグナルペプチドの切除部位であるCleavage Siteを高い精度で判別するための、コンピュータプログラムを提供することにある。
【0016】
【課題を解決するための手段】
本発明の上記の諸目的は、アミノ酸配列の決定されたタンパク質の判別方法であって、該方法が、
a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当て、(b)5〜9個の何れかの数の一連の窓を有するウィンドウWを用いて被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5〜25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域S(i)が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域S(i)を最終的な候補領域Cとして選択し、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数Xstart、及び、Xend並びに候補領域Cを構成するアミノ酸の数Xlengthを求め、(f)候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)候補領域Cがある場合にはその平均疎水性値及び該候補領域中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index、シグナル配列判別指標SS Indexを割り振り、(l)判別対象領域RにおけるSP IndexおよびSS Indexの平均値を算出し、(m)計算された各パラメータを元に、3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから該候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とするシグナルペプチドの判別方法、及びそのためのコンピュータプログラムによって達成された。
【0017】
【発明の実施の形態】
一般的に、シグナルペプチドは典型的な膜貫通領域と同様の特徴をもっており、特に疎水性が高いアミノ酸残基が頻出するという点で両者は類似している。このため、疎水性だけではシグナルペプチドとシグナルアンカー等の膜貫通セグメントを区別することは困難であるといえる。一方、その疎水性領域の長さが膜貫通セグメントのそれと比較して短い場合や、極性のアミノ酸残基を多く含み全体として比較的親水的なセグメントであるものも多い。このような特徴をもつシグナルペプチドの場合には、水溶性タンパク質の配列中に散在して見られる比較的短めの疎水性セグメントと区別することが困難である。
【0018】
しかしながら、シグナルペプチドが細胞質側で生合成されてから膜を透過して切除されるまでの一連の流れを考慮したとき、その第一段階となるSRP(Signal Recognition Particle:シグナル認識粒子)によるシグナル配列認識に伴うシグナル配列とSRPとの相互作用は疎水性相互作用に基づいており、この段階では、シグナルペプチドと膜貫通セグメントであるシグナルアンカーは区別されていない。従って、配列の疎水性を基に、シグナルペプチドとシグナルアンカーを含む候補領域を列挙することは妥当であると考えられる。しかしながら、SRPはシグナル配列認識の段階で水溶性タンパク質の配列を捕捉しないことから明らかなように、シグナル配列(シグナルペプチド+シグナルアンカー)と水溶性タンパク質上の疎水性セグメントを分ける要素が存在する。
【0019】
上記の要素は、本発明者等の解析の結果、シグナル配列のもつ疎水性領域には、極性の、特に負電荷を有するアミノ酸残基が現れない連続した領域があるのに対して、シグナル配列を有さない水溶性タンパク質の場合には、たとえN末端近傍に疎水性領域があったとしても、そこには負電荷残基が無秩序に分布するという相違点のあることが明らかとなった。言い換えれば、負電荷残基が存在しないことがSRPの認識を受けるひとつの条件であると言える。そこでこの負電荷残基の効果を、候補領域を列挙する際に取り入れるために、新たに負電荷残基指標NCを作成した。表1にこのパラメータを示す。尚、三文字のアルファベット表記は20種類のアミノ酸の3文字表記、カッコ内のアルファベットは三文字表記のアミノ酸を一文字表記する場合の記号である。
【表1】
【0020】
上記のアルゴリズムによって候補領域を列挙した次の段階は、シグナルペプチドと膜貫通セグメント(シグナルアンカー)の区別である。今、仮に任意のアミノ酸配列が与えられたと仮定すると、列挙された候補領域には、シグナルペプチド、膜貫通セグメント、シグナル配列をもたない水溶性タンパク質の疎水性セグメントが含まれると考えられるが、これらをどのように判別するかの問題である。シグナルペプチドとシグナルアンカーの最大の違いは膜透過後の切除プロセスの有無である。
【0021】
シグナルペプチドの切除部位であるCleavage Siteには、それを特徴付ける配列モチーフのような明確なパターンは存在せず、Cleavage SiteのN末端側にシグナルペプチド及びシグナルアンカーに共通的に見られる疎水性セグメントが存在することから、シグナルペプチドとシグナルアンカーを特徴付ける要素は、疎水性セグメントのC末端からCleavage Siteを跨いで全アミノ酸配列のC末端側に至る領域に存在すると考えることができる。そこで[1]シグナルペプチドのCleavage Siteを挟んだ前後10残基ずつ計20残基の領域、[2]シグナルアンカーの膜貫通領域のC末端側境界を挟んだ前後10残基ずつ計20残基の領域、[3]シグナル配列をもたない水溶性タンパク質の疎水性領域であるC末端側境界を挟む前後10残基ずつ計20残基;という3つの領域について、それぞれアミノ酸残基の出現傾向を解析し、どのようなアミノ酸残基が頻出するのかを調べ、これをもとにシグナルペプチド判別指標SP Index、およびシグナル配列判別指標SS-Indexを作成した。元となったアミノ酸残基の出現傾向には、タンパク質の由来生物種について真核生物(Eukaryote)と原核生物(Prokaryote)という大きな区分で差異が認められたため、SP-Index及びSS-Indexについて、真核生物由来のアミノ酸配列に適用するための指標と、原核生物由来のアミノ酸配列に適用するための指標とを別々に作成した。それぞれの指標の値については表2に示した。SP-Index、SS-Index両者を総称して以後SSインデックスと呼称する。
【表2】
【0022】
以下、本発明の判別方法を具体的手順に従って説明する。
本発明においては、先ずシグナルペプチドを有するか否か判別しようとするタンパク質について、アミノ酸配列と、そのタンパク質が真核生物由来のものか、原核生物由来のものであるかの情報を与える。尚、被判別タンパク質が真核生物由来のものか原核生物由来のものかの情報は、後述する如く、SP Index及びSS Indexを割り振る前に与えれば良く、必ず初めに与えなくてはならないというものではない。そこで、先ず与えられたアミノ酸配列を構成する各アミノ酸に対し、表1によって予め設定されている疎水性指標Hを割り当てる。次に、例えば7残基の、連続するアミノ酸残基に当てはめることのできるウィンドウWを用いて、下記(1)式によって一回平均疎水性値[H]を計算する。
但し、iはウィンドウの中心アミノ酸の位置を示す。上記の計算は、タンパク質を構成するアミノ酸鎖のN末端側から例えば7残基ウィンドウを1残基毎にずらしながら全ての単位について計算する。一通りC末端側まで適用し終えた後、下記(2)式によって二回平均疎水性値[[H]]を計算する。
【0023】
得られた[[H]]を用いて疎水性プロファイルを作成し、該プロファイルにおいて、[[H]]が連続して閾値kを超えるアミノ酸残基の数がLよりも大である部分を、シグナル配列の候補領域セグメントS(i)とする。但しLは5〜25から選択される何れかのアミノ酸残基の数、即ち長さであり、好ましくは8〜10から選択される整数である。尚、Lを9とした場合には、前記kとして0を設定することが好ましい。
【0024】
上記の如くして抽出された候補領域セグメントS(i)の各セグメントについて、領域を構成する各アミノ酸に負電荷残基指標NCを割り振る。NCが連続して0であるアミノ酸残基を候補領域として残し、NCが1の残基によって分割されたS(i)の各分割領域の長さがLを超えない場合には、その領域を候補から排除する。
【0025】
以上の操作をしても1つも候補領域が列挙されなかった場合には、被判別タンパク質はシグナル配列を持たない水溶性タンパク質と判定され、判定操作(プログラム)は終了する。また、列挙された候補領域がアミノ酸配列のN末端から100残基目よりも後にのみ現れる場合には、シグナル配列無しとして判定操作は終了する。従ってこれらのタンパク質については以降の演算はされず、別の被判別タンパク質について、初めから本判定操作(プログラム)が実行される。一方、複数の候補領域S(i)が列挙された場合には、最もN末端側に現れたS(i)を候補領域Cとして採用する。
【0026】
次に、シグナルペプチドの判別に必要なパラメータを、次のようにして候補領域より抽出する。下記式(3)によって、Cの平均疎水性値を求めると共に、候補領域Cの始点(Xstart)および終点(Xend)を求める。
また候補領域Cの長さ即ち候補領域Cを構成するアミノ酸の数をXlengthとする。また候補領域C中で、二回平均疎水性値[[H]]が最も大きい位置を疎水性ピーク位置Ppとする。次いで、Ppから被判別アミノ酸配列のN末端側に遡って最初に現れた正電荷残基の位置を基準位置Prとする。もし正電荷残基が見つからなかった場合には、被判別アミノ酸配列のN末端を基準位置Prとする。
【0027】
求められた基準位置Prからアミノ酸配列のC末端側へ、下流10番目から27番目までの18残基の領域を判別対象領域Rとし、判別対象領域Rを構成する18残基のアミノ酸残基それぞれに、シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS-Indexを割り振り、下記式(4)及び(5)によって判別対象領域におけるSP IndexおよびSS Indexの平均値を算出する。
【0028】
次いで、下記判別式(6)によってシグナルペプチド(SP)-シグナルアンカー(SA)間の二群の判別を行い、同様にして下記判別式(7)によってシグナルペプチド(SP)-非シグナル配列(NS)の二群の判別を、下記判別式(8)によってシグナルアンカー(SA)-非シグナル配列(NS)の二群の判別を行う。下記式中の係数等は下記表3に示した。
【表3】
【0029】
上記判別式(6)〜(8)を用いた三回の2群の判別の結果の組み合わせにより、最終的な判別結果は下記の通りとなる。
[1]SP∩SP∩SA→SP
[2]SP∩SP∩NS→SP
[3]SP∩NS∩SA→NS
[4]SP∩NS∩NS→NS
[5]SA∩SP∩SA→保留
[6]SA∩SP∩NS→保留
[7]SA∩NS∩NS→NS
[8]SA∩NS∩SA→SA
【0030】
上記[5]および[6]では三群の判別で矛盾が生じるため例外処理を行う。当てはまらない場合も多いが、シグナルペプチド切除部位であるCleavage Siteを特徴づけるルールとして広く認知されている、前述した(-1,-3)ルールに即したパターン検索を行い、もし当てはまれば、これを手がかりにしてSPであると最終判断を下し、ない場合にはNSとする。
【0031】
本発明のコンピュータプログラムは、被判別タンパク質のアミノ酸配列について以上のデータ入力と演算を行わせ、必要に応じて、得られた結果をモニター及び/又はプリンターによって出力する。上記の判別を実施する為のコンピュータプログラムのフローチャートは、図1および図2に示される通りである。本発明のコンピュータプログラムは、C言語等を用いて記載することができる。以下に更に詳述する。
【0032】
プログラムを起動し、被判別タンパク質を形成するアミノ酸配列を入力し(STP101)、被判別タンパク質の由来生物種が真核生物(Eukaryote)と原核生物(Prokaryote)のどちらに属するのかを選択して入力する(STP102)。一方、前記表1〜3のデータ及び(1)〜(8)の数式等を予め記憶部に格納しておく。次に、入力された全てのアミノ酸残基に、予め記憶部に格納されている前記表1のデータのうち、該当する疎水性指標Hの値を割り当てる(STP103)。尚、被判別タンパク質の由来生物種についての情報入力は、STP102に限定されるものではなく、後述するSTP112の前であればどの段階であっても良い。
【0033】
所定のウィンドウを、アミノ酸配列の端から1残基ごとにずらしながら、各ウィンドウに対応するアミノ酸列を抽出し、抽出された全てのアミノ酸配列に対して前記(1)式に従って一回平均疎水性値[H]を求め、ついで前記(2)式に従って二回平均疎水性値[[H]]を求めて疎水性プロファイルを作成する(STP104)。
【0034】
[[H]]が連続して閾値kを超えるアミノ酸残基の数がLよりも大であるものを、シグナル配列の候補領域セグメントS(i)とする。但しLは5〜25から選択された何れかのアミノ酸残基の数、即ち長さであり、好ましくは8〜10から選択される整数である。尚、Lを9とした場合には、前記kとして0を設定することが好ましい。抽出された候補S(i)の各セグメントについて、領域を構成する各アミノ酸に負電荷残基指標NCを割り振る。NCが連続して0である領域の長さがL以上であれば、候補領域Cとして残し、NCが1の残基によって分割されたS(i)の各分割領域の長さがLを超えない場合にはその領域を候補から排除する(STP105)。
【0035】
ここで、1つも候補領域Cが列挙されなかった場合には被判別タンパク質はシグナル配列を持たない水溶性タンパク質と判定され、判定操作(プログラム)は終了する。次に、列挙された候補領域Cが100残基目よりも後に現れたか否かを判定し、100残基よりも後にのみ現れる場合にはシグナル配列無しとして、判定操作は終了する(STP106)。
【0036】
一方、S(i)が一つに絞られた場合はそれを候補領域Cとして、また複数の候補領域が列挙された場合には最もN末端側に現れたS(i)を候補領域Cとして採用する(STP107)。従って候補領域Cは、最終的に1個に絞られる。得られた候補領域Cにおける領域の平均疎水性値を前記(3)式によって求めると共に、候補領域C中における疎水性値の最大ピーク位置Pp、候補領域始点Xstart、候補領域終点Xend及び候補領域長さXlengthの各パラメータを求める(STP108)。
【0037】
候補領域Cの最大ピーク位置からN末端側へ遡って正電荷残基を検索し(STP109)、もっともPpに近いところで見つかった正電荷残基の位置をPrとし、正電荷残基が見つからなかった場合にはN末端をPrとする(STP110)。次に、PrからC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rと決定する(STP111)。判別対象領域Rを構成する18残基のアミノ酸残基それぞれに、予め記憶部に格納してある表2のシグナルペプチド判別指標SP-Index及びシグナル配列判別指標SS-Indexを割り振って、前記式(4)及び(5)によって判別対象領域におけるSP IndexおよびSS Indexの平均値を算出する(STP112)。次に、上記候補領域に(-1,-3)ルールに即したパターンが見出されるかどうかを検索する。もし見つかった場合にはフラグMotifを立てる。ここでの結果は、シグナルペプチド判別における、後の例外処理でのみ使われる(STP113)
【0038】
前記判別式(6)によってSP-SA間の二群の判別を行い、同様にして、前記判別式(7)によってSP-NS間の二群の判別を行う。更に、前記判別式(8)によってSA-NS間の二群の判別を行う(STP114)。これらの式中における係数等は予め記憶部に記録されている前記表3から読み出して使用される。上記判別結果は、シグナルペプチド(SP)、シグナルアンカー(SA)、又はシグナル配列なし(NS)として得られる。具体的には、前式(6)の計算結果FSP−SAがシグナルペプチド−シグナルアンカー(SP−SA)を判別する閾値TSP−SA以上である場合には、SP−SA判別の結果をSPとし、TSP−SA未満である場合にはSP−SA判別の結果をSAとする。この場合のTSP−SAには、真核生物の場合には−0.382を、原核生物の場合には−9.98を設定することが好ましい。前式(7)の計算結果FSP−NSが、シグナルペプチド−シグナル配列なし(SP−NS)を判別する閾値TSP−NS以上である場合には、SP−NS判別の結果をSPとし、TSP−NS未満である場合にはSP−NS判別の結果をNS(シグナル配列なし)とする。この場合のTSP−NSには、真核生物の場合には3.00を、原核生物の場合には2.74を設定する。前式(8)の計算結果FSA−NSがシグナルアンカー−シグナル配列なし(SA−NS)を判別する閾値TSA−NS以上である場合には、SA−NS判別の結果をSAとし、TSA−NS未満である場合にはSA−NS判別の結果をNS(シグナル配列なし)とする。この場合のTSA−NSには、真核生物の場合には2.00を、原核生物の場合には2.30を設定することが好ましい。
【0039】
上記の判別結果を用い、[1]SP-SAの判別がSPでSP-NSの判別がSP、かつSA-NSの判別がSAの場合には、判別結果をSPとし(STP115)、[2]SP-SAの判別がSPでSP-NSの判別がSP、かつSA-NSの判別がNSの場合には、判別結果をSPとする(STP116)。また、[3]SP-SAの判別がSPでSP-NSの判別がNS、かつSA-NSの判別がSAの場合には判別結果をNSとし(STP117)、[4]SP-SAの判別がSPでSP-NSの判別がNS、かつSA-NSの判別がNSの場合ににおける判別結果をNSとする(STP118)。[5]SP-SAの判別がSAでSP-NSの判別がSP、かつSA-NSの判別がSAの場合には、既に記憶部に格納されているMotifフラグをチェックする例外処理を行い(STP119)、その結果がtrueであればSPとし、falseの場合にはSAとする(STP120)。同様に、[6]SP-SAの判別がSAでSP-NSの判別がSP、かつSA-NSの判別がNSである場合にも、Motifフラグをチェックする例外処理を行い(STP121)、その結果がtrueであればSPとし、falseの場合にはNSとする(STP122)。[7]SP-SAの判別がSAで、SP-NSの判別がNS、且つSA-NSの判別がNSの場合には判別結果はNSとし(STP123)、[8]SP-SAの判別がSAで、SP-NSの判別がNS且つSA-NSの判別がSAの場合には判別結果はSAとする(STP124)。
これら全ての演算が完了すると、判別結果と候補領域の終点を出力して(STP125)、プログラムは終了する。
【0040】
【発明の効果】
本発明によれば、一次配列が解明されたタンパク質について、94%以上の正答率で、迅速に、被判別タンパク質がシグナルペプチドを持つか否かを判定することができる。
【図面の簡単な説明】
【図1】本発明のコンピュータプログラムのフローチャートSTP101からSTP112までの一例である。
【図2】図1に続くSTP113以降のフローチャートである。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a method for determining the presence or absence of a signal peptide for a protein whose amino acid sequence has been determined, and whether or not the target sequence contains a signal peptide quickly and with high accuracy for a large amount of amino acid sequences using a computer. The present invention relates to a method for determining whether or not a signal peptide is present, a method for outputting information about a signal peptide region, and computer software for performing the method.
[0002]
[Prior art]
A signal peptide is a functional segment with a length of 10 to 30 residues existing near the N-terminus of the amino acid sequences of secreted water-soluble proteins and some membrane proteins. It plays an important role in membrane permeation and incorporation into the membrane.
Until now, discrimination and region prediction of a signal peptide have been performed by recognizing an amino acid sequence pattern near the cleavage site, which is a position where the signal peptide undergoes excision after passing through the membrane. Several methods have been proposed for signal peptide discrimination and region prediction by such an approach. One is a statistical method of creating a weight matrix from the sequence pattern of a signal peptide and using it to discriminate the signal peptide and predict the region, and use machine learning algorithms such as neural networks and hidden Markov models. Pattern recognition methods, and composite methods combining these methods.
[0003]
A typical signal peptide is known to have a hydrophobic core region in which amino acid residues having a hydrophobic side chain appear relatively frequently. Therefore, as a first step for discriminating a signal peptide, when the purpose is to capture a candidate region of a signal peptide from a given arbitrary amino acid sequence, a method using this hydrophobic core region as a candidate for a signal peptide is a conventional method. It has also been used in signal peptide discrimination technology.
[0004]
However, when capturing the hydrophobic core region of the signal peptide, the simple method of determining with a certain threshold value of the hydrophobic index value is not only the hydrophobic core region of the signal peptide, but also the transmembrane region of the membrane protein, There is a drawback that even a sequence that is only one region of a water-soluble protein may be erroneously predicted as a candidate region of a signal peptide.
[0005]
On the other hand, another element is also known to characterize a typical signal peptide. One of them is that amino acid residues having a positive charge appear frequently on the N-terminal side of the hydrophobic core region. In addition, there is no clear sequence pattern at the Cleavage Site, which is the position on the amino acid sequence where the signal peptide is excised after passing through the membrane, but the first and third amino acid residues from the Cleavage Site to the N-terminal side It is known that amino acid residues having a small side chain volume frequently appear at positions corresponding to (ie, (-1, -3) position) ((-1, -3) rule; details are Von Heigne, Eur. J. Biochem. 133: 17-21 (1981)). However, only the elements that characterize these existing typical signal peptides could not provide sufficient accuracy for discrimination of signal peptides.
[0006]
In general, for function prediction on an amino acid sequence, a technique called motif search is used to search for an appearance pattern of amino acid residues characteristic of a certain function. However, it is impossible to discriminate a signal peptide by such a method. For example, in the existing technology, it has been possible to discriminate a signal peptide with a certain degree of accuracy by allowing a discrimination program to learn a vast legend about a signal peptide by a machine learning algorithm and thereby discriminating the signal peptide. However, in the discrimination by a machine learning algorithm typified by a hidden Markov model or a neural network, there is a fatal problem that a signal peptide that can be discriminated depends on a data set used for learning. This leads to a defect that a discrimination target different from the learned pattern cannot be discriminated. In addition, if the amount of data to be learned is increased in order to improve accuracy, there is a disadvantage that the probability of erroneously discriminating a signal peptide that is not originally a signal peptide increases.
[0007]
[Means for Solving the Problems]
  (A) A hydrophobicity index H, a negatively charged residue index NC, a signal peptide discrimination index SP Index, and a signal sequence discrimination index SS Index are assigned in advance to each of the 20 amino acids that are protein components. (B) using a window W having a series of windows of any number from 5 to 9Derived from living thingsA series of amino acid sequences are extracted from the amino acid sequence of the protein to be discriminated, and (c) a double average hydrophobicity value calculated using the hydrophobicity index for all amino acid sequences corresponding to the extracted window W [[ H]], and (d) the number of a series of amino acid residues in the region where the value of [[H]] obtained exceeds a certain threshold value k is 5 to 25 residues, and negative in that region. When an amino acid residue having a charge residue index NC of 1 is not included, a segment composed of amino acid residues constituting the region is defined as a signal sequence candidate region C, and (e) a plurality of candidate regions are obtained. Selects the candidate region closest to the N-terminus of the amino acid sequence to be discriminated as the final candidate region C, and the numbers indicating the positions of the amino acid residues at the start and end of the candidate region C (Xstart, Xend, and candidate The length X length of the region C is obtained and (f When the candidate region C is not obtained, it is determined that the protein to be discriminated is a water-soluble protein not containing a signal peptide. (G) When there is the candidate region C, the average hydrophobicity value and the candidate region The maximum peak position Pp of the double average hydrophobicity value [[H]] in C is obtained, (h) a positively charged residue is searched from the peak position Pp toward the N-terminal of the amino acid sequence to be discriminated, and the highest peak The position of the positively charged residue close to the position is used as the discrimination reference position Pr. (I) If no positively charged residue is found, the N-terminus of the amino acid sequence to be discriminated is defined as Pr. A region of 18 residues from the position Pr to the C-terminal side of the amino acid sequence from the 10th to the 27th downstream is set as the discrimination target region R, and (k) each of the 18 amino acid residues constituting the discrimination target region R And signal peptide discrimination as described above Allocate target SP Index and signal sequence discrimination index SS Index, (l) the calculated average value of the SP Index and SS Index in the determination target area R, the parameter calculated (m), Xstart , Xend , Xlength , Pp and PrBased on the,followingAccording to three discriminants, discrimination of two groups of signal peptide-signal anchor for the region, (n) discrimination of two groups without signal peptide-signal sequence, (o) discrimination of two groups without signal anchor-signal sequence, And the two groups are discriminated three times to obtain discrimination results, respectively. (P) From the combinations of the obtained discrimination results, the candidate region C corresponds to any of a signal peptide, a signal anchor, and no signal sequence. It is characterized by determining whetherUsing a computerIt has been achieved by a method for discriminating a signal peptide and a computer program for carrying out the method.
[0008]
On the other hand, considering the process by which proteins synthesized in the cytoplasm are transported, the nature of the amino acid sequence that forms the signal peptide can be understood. That is, all proteins that work in places other than the cytoplasm must go through a process that permeates the biological membrane at least once. In this case, it is known that there are a plurality of systems that realize membrane permeation in a living body. The most commonly used is a protein membrane permeation mechanism involving a signal peptide, and many secreted proteins permeate the biological membrane through this pathway. For example, when synthesizing a polypeptide chain of a protein in a free ribosome in the cytoplasm, if the protein has a signal peptide, the signal peptide is recognized by a signal recognition particle (SRP). And recognition by SRP is said to recognize the hydrophobic region of the signal peptide.
[0009]
Upon recognition by the SRP, the elongation of the polypeptide chain stops. On the other hand, when the SRP is recognized by the SRP receptor on the membrane, the elongation of the polypeptide chain is resumed. Next to the SRP receptor is a protein complex called translocon, which is a mechanism that allows proteins to permeate through the membrane, and permeates the polypeptide chain that has been transported. At this time, the signal peptide forms a topology in which the N-terminal side is directed to the cytoplasm side, and is shaped so as to penetrate the membrane in the translocon. When the elongation of the polypeptide chain proceeds to 100 to 150 residues, the signal peptide is excised at the cleavage site by signal peptidase, which is a membrane superficial enzyme.
[0010]
If there is no Cleavage Site and a sequence other than that of the signal peptide is present at the N-terminus of the protein, the SRP recognition and passage through the translocon are performed as in the case of the signal peptide, but the Cleavage Site Because of the absence of signal peptidase excision. As a result, this segment is incorporated into the membrane, forming a transmembrane region with the N-terminus facing the inside of the membrane. A segment that forms such a transmembrane region is referred to herein as a signal anchor (SA), and in particular, a signal anchor that permeates the membrane through a pathway similar to that of a signal peptide is referred to as a Type II type signal anchor (SA-II). In addition, in this specification, the segment that is recognized by SRP, passes through the translocon and permeates the membrane and is finally excised is signal peptide (SP), and permeates the membrane through the same pathway as the signal peptide. A segment that does not undergo excision is generally defined as a type II signal anchor (SA-II), and the entire functional segment including the signal peptide and signal anchor is generically defined as a signal sequence.
[0011]
In the case of a water-soluble protein having a signal peptide, after the signal peptide is excised, the protein body permeates the membrane and is secreted into the opposite space across the biological membrane. On the other hand, in the case of a membrane protein having a signal peptide, after the signal peptide region is excised, the N-terminus of the downstream transmembrane region is inserted outwardly into the biological membrane, so that the N-terminus faces out of the membrane. It becomes a membrane protein having the same topology.
[0012]
Thus, there are three distinct steps in the role of the signal peptide: 1) Recognized by SRP on the cytoplasm side
2) Recognized by translocon
3) After permeation through biological membrane, it is recognized and excised by signal peptidase
Of these, 1) and 2) are considered to be characteristic functions common to both signal peptides and Type II signal anchors, and 3) is a characteristic function specific to signal peptides. The signal peptide site recognized by SRP is considered to be a highly hydrophobic amino acid sequence region of the signal peptide.
[0013]
Similar to signal peptide recognition by SRP, translocon recognition and signal peptide recognition by signal peptidase also have physical properties such as hydrophobicity and polarity of the side chains of the amino acids that make up this region rather than sequence specificity. It is thought to be recognized by the chemical nature. It is thought that this is because the existing method cannot find a clear amino acid sequence pattern that characterizes the signal peptide.
[0014]
Therefore, as a result of intensive studies on the prediction of signal peptides with higher accuracy, the present inventors have found that the Kyte-Doolittle hydrophobicity index (hereinafter referred to as the hydrophobicity index) and the newly defined negative charge residue index. When signal peptide candidate regions are extracted, the newly defined signal peptide discrimination index and signal anchor discrimination index are applied to the listed candidate regions, and the signal peptide is predicted using the position and length of the candidate region As a result, the inventors have found that the prediction can be performed with higher accuracy than the conventional technique, and the present invention has been achieved.
[0015]
[Problems to be solved by the invention]
Accordingly, a first object of the present invention is to provide a method for determining with high accuracy whether or not a signal peptide or a signal anchor is contained in a protein whose amino acid sequence has been determined.
Furthermore, the second object of the present invention is to discriminate whether or not any given amino acid sequence contains a signal peptide, and if so, the region and the cleavage site of the signal peptide excision site with high accuracy. To provide a computer program.
[0016]
[Means for Solving the Problems]
The above-mentioned objects of the present invention are a method for discriminating a protein whose amino acid sequence has been determined,
a) A hydrophobicity index H, a negative charge residue index NC, a signal peptide discrimination index SP Index, and a signal sequence discrimination index SS Index are assigned in advance to each of the 20 types of amino acids that are constituents of the protein, (b A) extracting a series of amino acid sequences from the amino acid sequence of the protein to be discriminated using a window W having a series of windows of any number from 5 to 9, and (c) all corresponding to the extracted window W For the amino acid sequence, the twice average hydrophobicity value [[H]] calculated using the hydrophobicity index is calculated, and (d) the obtained value of [[H]] exceeds a certain threshold value k. When the number of a series of amino acid residues is 5 to 25 residues and the region does not include an amino acid residue having a negative charge residue index NC of 1, a segment composed of amino acid residues constituting the region A candidate region C of the signal sequence, e) When a plurality of candidate regions S (i) are obtained, the candidate region S (i) closest to the N-terminal of the amino acid sequence to be discriminated is selected as the final candidate region C. The number Xstart indicating the position of the amino acid residue at the start point and the end point, and Xend and the number Xlength of amino acids constituting the candidate region C are obtained. (F) If the candidate region C is not obtained, the protein to be discriminated is a signal peptide (G) If there is a candidate region C, the average hydrophobicity value of the candidate region C and the maximum peak position Pp of the twice average hydrophobicity value [[H]] in the candidate region (H) search for positively charged residues from the peak position Pp toward the N-terminal of the amino acid sequence to be discriminated, and set the position of the positively charged residue closest to the peak position as the discrimination reference position Pr; (i) If no positively charged residue is found, the amino acid to be distinguished The N-terminal of the sequence is defined as Pr, and (j) an 18-residue region from the 10th to the 27th downstream from the discrimination reference position Pr to the C-terminal side of the amino acid sequence is set as a discrimination target region R, (k ) The above-mentioned signal peptide discrimination index SP Index and signal sequence discrimination index SS Index are allocated to each of the 18 amino acid residues constituting the discrimination target region R, and (l) the average of the SP Index and SS Index in the discrimination target region R (M) Based on each calculated parameter, (m) Discrimination between two groups of signal peptide-signal anchors for the region, (n) Two groups without signal peptide-signal sequence Discrimination, (o) Discrimination of two groups without signal anchor-signal sequence, and discrimination of two groups were performed three times to obtain discrimination results, respectively (p) From the combinations of the obtained discrimination results Candidate region C is achieved by a signal peptide, the signal anchor, determination method of signal peptide, characterized in that to determine that fall under any without signal sequence, and a computer program therefor.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
In general, signal peptides have the same characteristics as typical transmembrane regions, and they are similar in that amino acid residues with high hydrophobicity frequently appear. For this reason, it can be said that it is difficult to distinguish a transmembrane segment such as a signal peptide and a signal anchor from hydrophobicity alone. On the other hand, there are many cases where the length of the hydrophobic region is shorter than that of the transmembrane segment, or a relatively hydrophilic segment containing many polar amino acid residues as a whole. In the case of a signal peptide having such characteristics, it is difficult to distinguish it from relatively short hydrophobic segments that are scattered in the sequence of the water-soluble protein.
[0018]
However, when considering a series of flow from the biosynthesis of the signal peptide on the cytoplasm side to the excision through the membrane, the signal sequence by SRP (Signal Recognition Particle), which is the first step The signal sequence and SRP interaction associated with recognition is based on hydrophobic interactions, and at this stage, the signal peptide and signal anchor, which is a transmembrane segment, are not distinguished. Therefore, it is considered appropriate to enumerate candidate regions including a signal peptide and a signal anchor based on the hydrophobicity of the sequence. However, as is clear from the fact that SRP does not capture the sequence of the water-soluble protein at the stage of signal sequence recognition, there is an element that separates the signal sequence (signal peptide + signal anchor) and the hydrophobic segment on the water-soluble protein.
[0019]
As a result of the analysis by the present inventors, the above element has a signal region in which the hydrophobic region of the signal sequence has a continuous region where polar, particularly negatively charged amino acid residues do not appear. In the case of a water-soluble protein that does not have, even if there was a hydrophobic region near the N-terminus, it was revealed that there was a difference in that negatively charged residues were distributed randomly. In other words, the absence of negatively charged residues is one condition for receiving SRP recognition. Therefore, in order to incorporate this negative charge residue effect when enumerating candidate regions, a new negative charge residue index NC was created. Table 1 shows this parameter. The three-letter alphabet notation is a three-letter notation for 20 types of amino acids, and the alphabet in parentheses is a symbol for notation of a three-letter amino acid.
[Table 1]
[0020]
The next step in listing candidate regions by the above algorithm is the distinction between signal peptides and transmembrane segments (signal anchors). Assuming that an arbitrary amino acid sequence is given, the listed candidate regions are considered to include a signal peptide, a transmembrane segment, and a hydrophobic segment of a water-soluble protein having no signal sequence. It is a problem of how to determine these. The biggest difference between a signal peptide and a signal anchor is the presence or absence of the excision process after membrane permeation.
[0021]
  Cleavage Site, which is the excision site of the signal peptide, does not have a clear pattern like the sequence motif that characterizes it, and there is a hydrophobic segment commonly found in the signal peptide and signal anchor on the N-terminal side of the Cleavage Site. Since it exists, it can be considered that the elements characterizing the signal peptide and the signal anchor are present in a region extending from the C terminus of the hydrophobic segment to the C terminus of the entire amino acid sequence across the cleavage site. Therefore[1]A total of 20 residues, 10 residues before and after the signal peptide cleavage site,[2]A total of 20 residues, 10 residues before and after the C-terminal boundary of the transmembrane region of the signal anchor,[3]Analyzing the appearance tendency of amino acid residues in each of the three regions, 10 residues before and after the C-terminal boundary, which is a hydrophobic region of water-soluble protein without signal sequence; Based on this, a signal peptide discrimination index SP Index and a signal sequence discrimination index SS-Index were created. In the appearance tendency of the original amino acid residues, differences were observed in the major categories of eukaryotes (Prokaryote) and prokaryotes (Prokaryote) for the species of protein origin, so for SP-Index and SS-Index, An index for applying to an eukaryotic amino acid sequence and an index for applying to a prokaryotic amino acid sequence were prepared separately. The values of each index are shown in Table 2. Both SP-Index and SS-Index are generically called SS index.
[Table 2]
[0022]
Hereinafter, the determination method of the present invention will be described in accordance with specific procedures.
In the present invention, first, regarding a protein to be discriminated whether or not it has a signal peptide, the amino acid sequence and information on whether the protein is derived from a eukaryote or a prokaryote are given. In addition, information on whether the protein to be discriminated is derived from eukaryotes or prokaryotes may be given before assigning the SP Index and SS Index, as described later, and must be given first. is not. Therefore, first, a hydrophobicity index H set in advance according to Table 1 is assigned to each amino acid constituting a given amino acid sequence. Next, using the window W that can be applied to, for example, seven consecutive amino acid residues, the average hydrophobicity value [H] is calculated once by the following equation (1).
Here, i represents the position of the central amino acid in the window. The above calculation is performed for all units while shifting, for example, a 7-residue window from the N-terminal side of the amino acid chain constituting the protein for each residue. After the application to the C-terminal side is completed, the average hydrophobicity value [[H]] is calculated twice by the following equation (2).
[0023]
A hydrophobic profile is created using the obtained [[H]], and in the profile, [[H]] is a portion where the number of amino acid residues continuously exceeding the threshold k is greater than L. Let it be a candidate region segment S (i) of the signal sequence. However, L is the number of amino acid residues selected from 5 to 25, that is, the length, preferably an integer selected from 8 to 10. When L is 9, it is preferable to set 0 as k.
[0024]
For each candidate region segment S (i) extracted as described above, a negative charge residue index NC is assigned to each amino acid constituting the region. If the length of each segmented region of S (i) divided by the residue of NC is left as a candidate region with amino acid residues having NC of 0 continuously, Exclude from the candidate.
[0025]
If no candidate region is listed even after the above operation, the protein to be determined is determined to be a water-soluble protein having no signal sequence, and the determination operation (program) ends. Further, when the listed candidate regions appear only after the 100th residue from the N-terminal of the amino acid sequence, the determination operation is terminated as no signal sequence. Therefore, the subsequent calculation is not performed for these proteins, and this determination operation (program) is executed from the beginning for another protein to be discriminated. On the other hand, when a plurality of candidate regions S (i) are listed, S (i) that appears on the N-terminal side is adopted as the candidate region C.
[0026]
Next, parameters necessary for discrimination of the signal peptide are extracted from the candidate region as follows. The average hydrophobicity value of C is obtained by the following equation (3), and the start point (Xstart) and end point (Xend) of the candidate region C are obtained.
Further, the length of the candidate region C, that is, the number of amino acids constituting the candidate region C is assumed to be Xlength. In the candidate region C, the position where the twice average hydrophobicity value [[H]] is the largest is set as the hydrophobic peak position Pp. Next, the position of the positively charged residue that appears first from Pp to the N-terminal side of the amino acid sequence to be discriminated is set as the reference position Pr. If no positively charged residue is found, the N-terminus of the amino acid sequence to be discriminated is set as the reference position Pr.
[0027]
The 18-residue region from the 10th to the 27th downstream from the determined reference position Pr to the C-terminal side of the amino acid sequence is set as a discrimination target region R, and each of the 18 amino acid residues constituting the discrimination target region R The signal peptide discrimination index SP Index and the signal sequence discrimination index SS-Index are allotted, and the average values of the SP Index and SS Index in the discrimination target region are calculated by the following formulas (4) and (5).
[0028]
Next, two groups between signal peptide (SP) and signal anchor (SA) are discriminated by the following discriminant (6). Similarly, signal peptide (SP) -non-signal sequence (NS) is discriminated by the following discriminant (7). The two groups of signal anchor (SA) -non-signal sequence (NS) are discriminated by the following discriminant (8). The coefficients in the following formula are shown in Table 3 below.
[Table 3]
[0029]
  The final discrimination result is as follows by combining the discrimination results of the two groups of three times using the discriminants (6) to (8).
[1]SP∩SP∩SA → SP
[2]SP∩SP∩NS → SP
[3]SP∩NS∩SA → NS
[4]SP∩NS∩NS → NS
[5]SA∩SP∩SA → Hold
[6]SA∩SP∩NS → hold
[7]SA∩NS∩NS → NS
[8]SA∩NS∩SA → SA
[0030]
  the above[5]and[6]Then, since the contradiction occurs in the discrimination of the three groups, exception handling is performed. In many cases, this does not apply, but a pattern search is performed according to the (-1, -3) rule, which is widely recognized as a rule that characterizes the Cleavage Site, which is the signal peptide excision site. Use SP as the clue to make a final decision, and NS if not.
[0031]
The computer program of the present invention causes the above data input and calculation to be performed on the amino acid sequence of the protein to be discriminated, and outputs the obtained result by a monitor and / or a printer as necessary. The flowchart of the computer program for carrying out the above determination is as shown in FIG. 1 and FIG. The computer program of the present invention can be described using C language or the like. Further details will be described below.
[0032]
Start the program, enter the amino acid sequence that forms the protein to be discriminated (STP101), and select whether the organism from which the protein to be discriminated belongs belongs to eukaryote or prokaryote (STP102). On the other hand, the data in Tables 1 to 3 and the equations (1) to (8) are stored in advance in the storage unit. Next, the value of the corresponding hydrophobicity index H among the data of Table 1 previously stored in the storage unit is assigned to all input amino acid residues (STP103). It should be noted that the information input about the species of origin of the protein to be discriminated is not limited to the STP 102, and may be at any stage before the STP 112 described later.
[0033]
The amino acid sequence corresponding to each window is extracted while shifting the predetermined window from the end of the amino acid sequence by one residue, and the average hydrophobicity once for all extracted amino acid sequences according to the above formula (1) The value [H] is obtained, and then the average hydrophobicity value [[H]] is obtained twice according to the equation (2) to create a hydrophobic profile (STP104).
[0034]
A signal sequence candidate region segment S (i) in which the number of amino acid residues in which [[H]] continuously exceeds the threshold k is greater than L is defined as a signal sequence candidate region segment S (i). However, L is the number of amino acid residues selected from 5 to 25, that is, the length, and is preferably an integer selected from 8 to 10. When L is 9, it is preferable to set 0 as k. For each segment of the extracted candidate S (i), a negative charge residue index NC is assigned to each amino acid constituting the region. If the length of the region where NC is continuously 0 is L or more, it is left as a candidate region C, and the length of each divided region of S (i) divided by the residue where NC is 1 exceeds L If not, the area is excluded from candidates (STP105).
[0035]
Here, when no candidate region C is listed, the protein to be determined is determined to be a water-soluble protein having no signal sequence, and the determination operation (program) ends. Next, it is determined whether or not the listed candidate region C appears after the 100th residue. If it appears only after the 100th residue, it is determined that there is no signal sequence, and the determination operation ends (STP106).
[0036]
On the other hand, when S (i) is narrowed down to one, it is set as a candidate area C, and when a plurality of candidate areas are listed, S (i) that appears on the N-terminal side is set as a candidate area C Adopt (STP107). Therefore, the candidate area C is finally limited to one. The average hydrophobicity value of the region in the obtained candidate region C is obtained by the above equation (3), and the maximum peak position Pp, the candidate region start point Xstart, the candidate region end point Xend, and the candidate region length in the candidate region C Each parameter of length Xlength is obtained (STP108).
[0037]
Search for positively charged residues from the maximum peak position of candidate region C to the N-terminal side (STP109), and the position of the positively charged residue found closest to Pp is Pr, and no positively charged residue was found In this case, the N-terminus is Pr (STP110). Next, the region of 18 residues from the 10th to the 27th downstream from Pr to the C-terminal side is determined as the discrimination target region R (STP111). The signal peptide discrimination index SP-Index and the signal sequence discrimination index SS-Index in Table 2 stored in the storage unit in advance are allocated to each of the 18 amino acid residues constituting the discrimination target region R, and the above formula ( The average values of SP Index and SS Index in the discrimination target area are calculated by 4) and (5) (STP112). Next, it is searched whether a pattern conforming to the (-1, -3) rule is found in the candidate area. If found, set flag Motif. The result here is used only for later exception handling in signal peptide discrimination (STP113)
[0038]
Two groups between SP and SA are discriminated by the discriminant (6), and similarly two groups between SP and NS are discriminated by the discriminant (7). Further, two groups between SA and NS are discriminated by the discriminant (8) (STP114). Coefficients and the like in these formulas are read out from Table 3 previously recorded in the storage unit and used. The discrimination result is obtained as a signal peptide (SP), a signal anchor (SA), or no signal sequence (NS). Specifically, the calculation result F of the previous equation (6)SP-SAThreshold T for discriminating signal peptide-signal anchor (SP-SA)SP-SAIn the case above, the SP-SA discrimination result is SP, and TSP-SAIf it is less than SP, the SP-SA discrimination result is SA. T in this caseSP-SAIn the case of eukaryotes, −0.382 is preferable, and in the case of prokaryotes, −9.98 is preferably set. Calculation result F of formula (7)SP-NSIs a threshold T for discriminating whether there is no signal peptide-signal sequence (SP-NS)SP-NSIn the case above, the SP-NS discrimination result is SP, and TSP-NSIf it is less than NS, the result of SP-NS discrimination is NS (no signal sequence). T in this caseSP-NSIs set to 3.00 for eukaryotes and 2.74 for prokaryotes. Calculation result F of equation (8)SA-NSThreshold T for discriminating that signal anchor-no signal sequence (SA-NS)SA-NSIn the case above, the SA-NS discrimination result is SA and TSA-NSIf it is less than NS, the result of SA-NS discrimination is NS (no signal sequence). T in this caseSA-NSIs preferably set to 2.00 for eukaryotes and 2.30 for prokaryotes.
[0039]
  Using the above discrimination results,[1]If the SP-SA discrimination is SP, the SP-NS discrimination is SP, and the SA-NS discrimination is SA, the discrimination result is SP (STP115),[2]If the SP-SA discrimination is SP, the SP-NS discrimination is SP, and the SA-NS discrimination is NS, the discrimination result is SP (STP116). Also,[3]If the SP-SA discrimination is SP, the SP-NS discrimination is NS, and the SA-NS discrimination is SA, the discrimination result is NS (STP117)[4]The determination result when the SP-SA determination is SP, the SP-NS determination is NS, and the SA-NS determination is NS is NS (STP118).[5]If the SP-SA discrimination is SA, the SP-NS discrimination is SP, and the SA-NS discrimination is SA, exception handling is performed to check the Motif flag already stored in the storage unit (STP119) If the result is true, it is SP, and if it is false, it is SA (STP120). Similarly,[6]Even if the SP-SA discrimination is SA, the SP-NS discrimination is SP, and the SA-NS discrimination is NS, exception handling that checks the Motif flag is performed (STP121), and if the result is true Set to SP. If false, set to NS (STP122).[7]If the SP-SA discrimination is SA, the SP-NS discrimination is NS, and the SA-NS discrimination is NS, the discrimination result is NS (STP123)[8]If the SP-SA discrimination is SA, the SP-NS discrimination is NS, and the SA-NS discrimination is SA, the discrimination result is SA (STP124).
When all these operations are completed, the discrimination result and the end point of the candidate area are output (STP125), and the program ends.
[0040]
【The invention's effect】
According to the present invention, it is possible to quickly determine whether a protein to be discriminated has a signal peptide with a correct answer rate of 94% or more for a protein whose primary sequence has been elucidated.
[Brief description of the drawings]
FIG. 1 is an example of flowcharts STP101 to STP112 of a computer program of the present invention.
FIG. 2 is a flowchart after STP 113 following FIG.

Claims (3)

(a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てておき、(b)5〜9個の何れかの数の一連の窓を有するウィンドウWを用いて、生物に由来する被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5〜25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart、Xend、並びに候補領域Cの長さXlength)を求め、(f)前記候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)前記候補領域Cがある場合にはその平均疎水性値及び該候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)該判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)前記判別対象領域RにおけるSP Index及びSS Indexの平均値を算出し、(m)計算された各パラメータ Xstart Xend Xlength 、Pp及びPrを元に、下記3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから前記候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とする、コンピュータを用いたシグナルペプチドの判別方法;
(A) A hydrophobicity index H, a negatively charged residue index NC, a signal peptide discrimination index SP Index, and a signal sequence discrimination index SS Index are assigned in advance to each of the 20 amino acids that are protein components. (B) A series of amino acid sequences were extracted from the amino acid sequence of the protein to be discriminated from an organism using a window W having a series of windows of any number from 5 to 9, and (c) extracted For all amino acid sequences corresponding to the window W, the average hydrophobicity value [[H]] calculated twice using the hydrophobicity index was calculated, and (d) the value of [[H]] obtained was When the number of a series of amino acid residues in a region exceeding a certain threshold value k is 5 to 25 residues, and the region does not include an amino acid residue having a negative charge residue index NC of 1, that region is constituted. A segment consisting of amino acid residues (E) When a plurality of candidate regions are obtained, the candidate region closest to the N-terminus of the amino acid sequence to be discriminated is selected as the final candidate region C, and the candidate region C The number (Xstart, Xend, and the length Xlength of the candidate region C) indicating the positions of the amino acid residues at the start point and the end point is obtained. (F) If the candidate region C is not obtained, the protein to be discriminated is a signal peptide. (G) if there is the candidate region C, the maximum hydrophobicity value [[H]] of the average hydrophobicity value and the twice average hydrophobicity value in the candidate region C The position Pp is obtained, (h) a positively charged residue is searched from the peak position Pp toward the N-terminal of the amino acid sequence to be discriminated, and the position of the positively charged residue closest to the peak position is set as the discrimination reference position Pr. i) If no positively charged residue is found Is defined as Pr, and (j) a region of 18 residues from the 10th to 27th downstream from the discrimination reference position Pr to the C-terminal side of the amino acid sequence is defined as a discrimination target region R. And (k) assigning the aforementioned signal peptide discrimination index SP Index and signal sequence discrimination index SS Index to each of the 18 amino acid residues constituting the discrimination target region R, and (l) in the discrimination target region R calculates an average value of the SP Index and SS Index, (m) each calculated parameter were, Xstart, Xend, xlength, based on Pp and Pr, the three discriminants below, the region signal peptide - a signal anchor Discrimination between two groups, (n) Discrimination between two groups without signal peptide-signal sequence, (o) Discrimination between two groups without signal anchor-signal sequence, and discrimination between two groups Give the discrimination result in Les, characterized in that to determine (p) which the combination of the determination results of each obtained candidate region C corresponds to any signal peptide, signal anchor, without the signal sequence, A method for discriminating signal peptides using a computer ;
シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを、真生物由来のタンパク質を構成する場合と、原核生物由来のタンパク質を構成する場合とで別々に設定し、被判別タンパク質が何れの生物に由来するタンパク質であるかに従って、(1)の工程で割り振るシグナルペプチド判別指標SP Indexとシグナル配列判別指標SS Indexを選択する、請求項1に記載されたコンピュータを用いたシグナルペプチドの判別方法。The signal peptide discrimination index SP Index and signal sequence discrimination index SS Index, in the case of constituting the protein from eukaryotic, set separately in the case of constituting the protein from prokaryotic, the discrimination protein of any organism The signal peptide discrimination method using a computer according to claim 1, wherein the signal peptide discrimination index SP Index and the signal sequence discrimination index SS Index allocated in the step (1) are selected according to whether the protein is derived from the above. (a)真核生物由来のタンパク質と原核生物由来のタンパク質の各タンパク質別に、タンパク質の構成要素である20種類のアミノ酸それぞれについて、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てたデータ、及び、各種判別式を記憶部にあらかじめ格納させておき、(b)5〜9個の何れかの数の一連の窓を有するウィンドウWを用いて被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、下式(1)及び(2)に前記疎水性指標をあてはめて二回平均疎水性値[[H]]を算出し、
(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5〜25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e−1)複数の候補領域S(i)が得られた場合には被判別アミノ酸配列のN末端に最も近い候補領域S(i)を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart及びXend、並びに候補領域Cの長さXlength)を求める。但し、(e−2)候補領域Cが100残基目より後にのみ現れるか否かを判別し、100残基目より後にのみ現れる場合には、シグナル配列はないものとしてプログラムは終了する。(f)候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)候補領域Cの平均疎水性値を下記式(3)によって求め、
次いで前記候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置から被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)前記判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)判別対象領域を構成する18個のアミノ酸残基それぞれに、被判別タンパク質が真核生物由来か原核生物由来かに応じて、対応する前記シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)下式(4)及び(5)に基づいて判別対象領域におけるSP Index及びSS Indexの平均値を算出し、
計算された各パラメータを元に下記3つの判別式(6)、(7)、(8)によって、(m)該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、
(p)得られた各々の結果を下記[1][8]にあてはめて、候補領域を判定する(但し、各判別式中の定数は夫々±10%の間で変動することがあるものとする。);
[1]SP∩SP∩SA→SP
[2]SP∩SP∩NS→SP
[3]SP∩NS∩SA→NS
[4]SP∩NS∩NS→NS
[5]SA∩SP∩SA→保留
[6]SA∩SP∩NS→保留
[7]SA∩NS∩NS→NS
[8]SA∩NS∩SA→SA
(q)また、上記判別結果が[5]又は[6]となって保留とした場合には、シグナルペプチド切除部位であるCleavage Siteを特徴付ける(−1、−3)ルールに即したパターン検索を行い、もし当てはまればSP、当てはまらない場合はNSとすることを特徴とするコンピュータプログラム。
(A) Hydrophobic index H, negatively charged residue index NC, signal peptide discrimination index SP for each of the 20 types of amino acids constituting the protein, for each protein of eukaryotic protein and prokaryotic protein Index and the data to which the signal sequence discriminating index SS Index is assigned, and various discriminants are stored in advance in the storage unit, and (b) a window W having any number of windows from 5 to 9 A series of amino acid sequences are extracted from the amino acid sequence of the protein to be discriminated, and (c) the hydrophobicity index is expressed in the following formulas (1) and (2) for all the amino acid sequences corresponding to the extracted window W. Fit the average hydrophobicity value [[H]] twice,
(D) The number of a series of amino acid residues in the region where the obtained [[H]] value exceeds a certain threshold k is 5 to 25 residues, and the negatively charged residue index NC is 1 in the region. When the segment consisting of amino acid residues constituting the region is not a signal sequence candidate region C and (e-1) a plurality of candidate regions S (i) are obtained The candidate region S (i) closest to the N-terminus of the amino acid sequence to be discriminated is selected as the final candidate region C, and numbers indicating the positions of the amino acid residues at the start and end points of the candidate region C (Xstart and Xend, In addition, the length Xlength) of the candidate area C is obtained. However, (e-2) it is determined whether or not the candidate region C appears only after the 100th residue, and if it appears only after the 100th residue, the program ends with no signal sequence. (F) When the candidate region C is not obtained, it is determined that the protein to be discriminated is a water-soluble protein not containing a signal peptide, and (g) the average hydrophobicity value of the candidate region C is obtained by the following equation (3). ,
Next, the maximum peak position Pp of the twice average hydrophobicity value [[H]] in the candidate region C is obtained, and (h) a positively charged residue is searched from the peak position toward the N-terminal of the amino acid sequence to be discriminated. The position of the positively charged residue closest to the peak position is used as the discrimination reference position Pr. (I) If no positively charged residue is found, the N-terminal of the discriminated amino acid sequence is defined as Pr. (J) An 18-residue region from the 10th to the 27th downstream from the discrimination reference position Pr to the C-terminal side of the amino acid sequence is set as a discrimination target region R, and (k) 18 amino acid residues constituting the discrimination target region Depending on whether the protein to be discriminated is derived from a eukaryote or a prokaryote, the corresponding signal peptide discrimination index SP Index and signal sequence discrimination index SS Index are allotted, and (1) the following equations (4) and (5) ) Based on the discrimination target area Calculates the average value of kicking SP Index and SS Index,
Based on the calculated parameters, according to the following three discriminants (6), (7), (8), (m) discrimination of two groups of signal peptide-signal anchor for the region, (n) signal peptide-signal Discrimination of two groups without sequence, (o) Discrimination of two groups without signal anchor-signal sequence, and discrimination of two groups were performed three times to obtain discrimination results,
(P) Apply the obtained results to the following [1] to [8] to determine candidate areas (however, the constants in each discriminant may vary between ± 10%, respectively) );
[1] SP∩SP∩SA → SP
[2] SP∩SP∩NS → SP
[3] SP∩NS∩SA → NS
[4] SP∩NS∩NS → NS
[5] SA ∩ SP ∩ SA → Hold
[6] SA ∩ SP → NS → Hold
[7] SA∩NS∩NS → NS
[8] SA∩NS∩SA → SA
(Q) When the determination result is [5] or [6] and the suspension is made, the pattern search conforming to the rule that characterizes the cleavage site that is the signal peptide excision site (-1, -3) is performed. A computer program characterized by SP, if applicable, and NS if not applicable.
JP2001181248A 2001-06-15 2001-06-15 Method for discriminating signal peptide and computer program therefor Expired - Fee Related JP3998171B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001181248A JP3998171B2 (en) 2001-06-15 2001-06-15 Method for discriminating signal peptide and computer program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001181248A JP3998171B2 (en) 2001-06-15 2001-06-15 Method for discriminating signal peptide and computer program therefor

Publications (2)

Publication Number Publication Date
JP2003014734A JP2003014734A (en) 2003-01-15
JP3998171B2 true JP3998171B2 (en) 2007-10-24

Family

ID=19021547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001181248A Expired - Fee Related JP3998171B2 (en) 2001-06-15 2001-06-15 Method for discriminating signal peptide and computer program therefor

Country Status (1)

Country Link
JP (1) JP3998171B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4608698B1 (en) * 2009-09-10 2011-01-12 学校法人明治大学 GPI-anchored protein determination device, determination method, and determination program
JP5773406B2 (en) * 2010-07-28 2015-09-02 学校法人明治大学 GPI-anchored protein determination device, determination method, and determination program
JP2014045730A (en) * 2012-08-31 2014-03-17 Meiji Univ Polypeptide, gene, expression vector, method for transporting protein to endoplasmic reticulum, and method for designing signal peptide
JP6131074B2 (en) * 2013-03-18 2017-05-17 東ソー株式会社 Secretory signal sequence
SG11201705915VA (en) 2015-01-19 2017-08-30 Univ Shinshu Therapeutic agent for ischemic diseases
CN106951735B (en) * 2017-03-10 2019-06-04 上海交通大学 A Hierarchical Mixed Model-Based Prediction Method for Signal Peptides and Their Cleavage Sites

Also Published As

Publication number Publication date
JP2003014734A (en) 2003-01-15

Similar Documents

Publication Publication Date Title
CN101198987B (en) Object detection device and its learning device
CN112289323B (en) Voice data processing method and device, computer equipment and storage medium
CN108664931B (en) Multi-stage video motion detection method
JP2000508805A (en) Method and apparatus for extracting characteristics characterizing objects and their use
CN110415705A (en) A kind of hot word recognition methods, system, device and storage medium
JP3998171B2 (en) Method for discriminating signal peptide and computer program therefor
CN113808612B (en) Voice processing method, device and storage medium
KR102360246B1 (en) Multi-modal learning device and multi-modal learning method
CN113822377B (en) A counterfeit face detection method based on contrastive self-learning
CN110852364A (en) Method and device for identifying water source of water burst in mine and electronic equipment
CN112927721A (en) Human-vehicle interaction method, system, vehicle and computer readable storage medium
JP4213034B2 (en) Method for predicting domain linker region of protein
CN113785304A (en) Face recognition method and device
CN109712171B (en) Target tracking system and target tracking method based on correlation filter
JP2005115569A (en) Signal identification device and method
JP2003256839A (en) Pattern feature selection method, classification method, determination method, program, and device
CN113838524B (en) S-nitrosylation site prediction method, model training method and storage medium
JP2011128916A (en) Object detection apparatus and method, and program
CN117153151B (en) Emotion recognition method based on user intonation
CN115861804B (en) SAR Image Adversarial Example Detection System and Method Based on Optimal Feature Attribution Selection
CN108664853B (en) Face detection method and device
CN111815651B (en) Method, system and equipment for segmenting human face and body skin color region
CN114373219B (en) Behavior recognition method, electronic device and readable storage medium
JP4021153B2 (en) Dumbbell-type water-soluble protein discrimination method and computer program therefor
JPH11202886A (en) Speech recognition device, word recognition device, word recognition method, and storage medium storing word recognition program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040422

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070803

R150 Certificate of patent or registration of utility model

Ref document number: 3998171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130817

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees