[go: up one dir, main page]

JP2008152731A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2008152731A
JP2008152731A JP2006342874A JP2006342874A JP2008152731A JP 2008152731 A JP2008152731 A JP 2008152731A JP 2006342874 A JP2006342874 A JP 2006342874A JP 2006342874 A JP2006342874 A JP 2006342874A JP 2008152731 A JP2008152731 A JP 2008152731A
Authority
JP
Japan
Prior art keywords
node
nodes
motif
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006342874A
Other languages
English (en)
Inventor
Shinako Matsuyama
科子 松山
Takeshi Hamada
雄 浜田
Tetsuya Shiraishi
哲也 白石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006342874A priority Critical patent/JP2008152731A/ja
Priority to US11/948,905 priority patent/US7730108B2/en
Publication of JP2008152731A publication Critical patent/JP2008152731A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/956Hierarchical

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】短時間かつ容易な作業でネットワークの解析をできるようにする。
【解決手段】情報処理装置は、所定のネットワークにおけるリンク情報を読み出し(S1)、3ノード間でリンクがある組をモチーフとして抽出する(S2)。情報処理装置は、抽出されたモチーフのIDとして、そのモチーフに含まれる3ノードのそれぞれについての各エッジ属性を数値化したものを用いて、MotifIDを計算する(S3)。ここに、エッジ属性としては、第1のノードが第2のノードの機能をPositiveにする場合の「P」と、第1のノードが第2のノードの機能をNegativeにする場合の「N」とが採用される。本発明は、タンパク質ネットワークの解析装置に適用可能である。
【選択図】図3

Description

本発明は、情報処理装置および方法並びにプログラムに関し、特に、短時間かつ容易な作業で、ネットワークの解析ができるようになった情報処理装置および方法並びにプログラムに関する。
近年、タンパク質の分子的な接続関係のネットワーク(以下、タンパク質ネットワークと称する)を解析する技術が研究/開発されている。例えば非特許文献1には、タンパク質ネットワークにおいて、タンパク質をノードとして、3つのノード間の接続関係のパターン(以下、モチーフと称する。なお、モチーフはMotifとも記述する)の出現頻度を計測する技術が開示されている。
R Milo, S Itzkovitz, N Kashtan, R Levitt, S Shen-Orr, I Ayzenshtat, M Sheffer & U Alon, "Superfamilies of designed and evolved networks", Science, 303:1538-42 (2004).
しかしながら、非特許文献1を含む従来の技術では、タンパク質ネットワークの解析を行うためには、ノードとすべきタンパク質の種類が多数存在することから、多大な時間と労力とが必要であった。
例えば、タンパク質ネットワークから、重要な部分構造を抽出することは、タンパク質の機能の因果関係を知るために重要なことであり、ひいては、癌研究における発癌過程の推測や治療ポイントの発見に寄与できるものとして重要なことである。さらに、抽出された重要な部分構造から、ノードの役割(他のノードに対する働きかけ)等を調査したり、かかる役割を果たすノードとして如何なるタンパク質の種類が存在するのかを調査することは重要なことである。
ところが、非特許文献1を含む従来の技術を利用して解析した場合には、モチーフの出現頻度を検出するだけでも多大な時間と労力とが必要であり、さらにその後、出現頻度が高いモチーフを重要構造であるとして抽出し、そのモチーフ内の各ノードの役割(他のノードに対する働きかけ)等を調査したり、かかる役割を果たすノードとして如何なるタンパク質の種類が存在するのかを調査するためには、莫大な時間と労力とが必要となる。
以上、タンパク質ネットワークの解析の問題として説明してきたが、タンパク質ネットワークに限らず、多数種類のノードが存在するネットワークの解析についても同様の問題が発生する。
本発明は、このような状況に鑑みてなされたものであり、短時間かつ容易な作業で、ネットワークの解析をできるようにするものである。
本発明の一側面の情報処理装置は、複数のノードを含むネットワークに関する情報処理を実行する情報処理装置であって、前記複数のノードのそれぞれには、接続され得る他のノードとの関係についての属性として、m種類(mは2以上の整数値)の属性のうちの所定の1つが付されており、前記ネットワークから抽出された、n個(nは3以上の整数値)のノードの接続関係の所定のパターンとしてのモチーフにおいて、前記n個のノードのそれぞれについて、接続される他のノードとの関係毎に付された各属性を数値化し、それらの各数値を用いて、前記モチーフを特定する識別子を作成する識別子作成手段を備える。
前記識別子作成手段により作成された前記識別子に基づいて、前記ネットワークに含まれる1以上の前記モチーフのうちの少なくとも1つを解析対象として決定し、その解析対象についての所定の解析処理を実行する解析手段をさらに備える。
前記解析手段は、前記所定の解析処理として、前記識別子作成手段により作成された複数の前記識別子毎に、対応するモチーフの前記ネットワークにおける出現件数を計算する。
前記識別子作成手段により作成された複数の前記識別子毎に、前記出現件数と、対応するモチーフに関する情報とを提示する提示手段をさらに備える。
前記提示手段は、さらに、前記識別子作成手段により作成された所定の前記識別子に対応するモチーフに含まれる前記n個のノードのうちの、所定のノードに関する情報をさらに提示する。
前記解析手段は、さらに、前記識別子作成手段により作成された複数の前記識別子のうちから、所定のノードを含む1以上のモチーフのそれぞれに対応する1以上の識別子をそれぞれ検索し、前記提示手段は、前記解析手段により検索された前記1以上の識別子のそれぞれに対応する前記1以上のモチーフのそれぞれに関する情報をさらに提示する。
本発明の一側面の情報処理方法およびプログラムは、上述した本発明の一側面の情報処理装置に対応する方法およびプログラムである。
本発明の一側面の情報処理装置および方法並びにプログラムにおいては、複数のノードを含むネットワークに関する情報処理として次のような処理が実行される。即ち、前記複数のノードのそれぞれに付され得る属性として、接続され得る他のノードとの関係に応じてm種類(mは2以上の整数値)の属性が定義されており、前記ネットワークから抽出された、n個(nは3以上の整数値)のノードの接続関係の所定のパターンとしてのモチーフにおいて、前記n個のノードのそれぞれについて、接続される他のノードとの関係毎に付された各属性が数値化され、それらの各数値を用いて、前記モチーフを特定する識別子が作成される。
以上のごとく、本発明によれば、ネットワークの解析ができる。特に、短時間かつ容易な作業で、そのネットワークの解析ができる。
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、明細書または図面における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
さらに、この記載は、明細書または図面に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、明細書または図面に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。
本発明の一側面の情報処理装置は、
複数のノードを含むネットワーク(例えばタンパク質をノードとするタンパク質ネットワーク)に関する情報処理を実行する情報処理装置(例えば図1の情報処理装置11)において、
前記複数のノードのそれぞれに付され得る属性として、接続され得る他のノードとの関係に応じてm種類(mは2以上の整数値)の属性(例えば後述するPとN)が定義されており、
前記ネットワークから抽出された、n個(nは3以上の整数値)のノードの接続関係の所定のパターンとしてのモチーフ(例えば図8の3つの黒丸印をノードとして形成されるモチーフ等)において、前記n個のノードのそれぞれについて、接続される他のノードとの関係毎に付された各属性を数値化し、それらの各数値(例えば後述するノードリンク数値v1_node_num,v2_node_num,v3_node_num。具体的には例えば図8の例では、各ノードの近傍に表示されている数値、即ち、16(=v1_node_num),36(=v2_node_num),22(=v3_node_num)等)を用いて、前記モチーフを特定する識別子(例えば図5等のMotifID(unique)であって、具体的には例えば図8の例では、MotifID(unique)=「162236」)を作成する識別子作成手段(例えば図1の加工部31)
を備える。
前記識別子作成手段により作成された前記識別子に基づいて、前記ネットワークに含まれる1以上の前記モチーフのうちの少なくとも1つを解析対象として決定し、その解析対象についての所定の解析処理を実行する解析手段(例えば図1のデータ解析部22)
をさらに備える。
前記解析手段は、前記所定の解析処理として、前記識別子作成手段により作成された複数の前記識別子毎に、対応するモチーフの前記ネットワークにおける出現件数を計算する(例えば図3のステップS5参照)。
前記識別子作成手段により作成された複数の前記識別子毎に、前記出現件数と、対応するモチーフに関する情報とを提示する提示手段(例えば、図8のように、出現件数を示す「該当Motif数:5405」や、対応するモチーフに関する情報の一例であるグラフパターンを含む画像を表示する図1の表示部42)
をさらに備える。
前記提示手段は、さらに、前記識別子作成手段により作成された所定の識別子に対応するモチーフに含まれる前記n個のノードのうちの、所定のノードに関する情報(例えば図9のステップS43や図11のステップS52でいう「該当ノードの位置にあるノード群」)をさらに提示する。
前記解析手段は、さらに、前記識別子作成手段により作成された複数の識別子のうちから、所定のノードを含む1以上のモチーフのそれぞれに対応する1以上の識別子をそれぞれ検索し、
前記提示手段は、前記解析手段により検索された前記1以上の識別子のそれぞれに対応する前記1以上のモチーフのそれぞれに関する情報をさらに提示する(例えば図12、図13参照)。
本発明の一側面の情報処理方法は、
複数のノードを含むネットワークに関する情報処理を実行する情報処理装置(例えば図1の情報処理装置11)の情報処理方法であって、
前記複数のノードのそれぞれに付され得る属性として、接続され得る他のノードとの関係に応じてm種類(mは2以上の整数値)の属性が定義されており、
前記ネットワークから抽出された、n個(nは3以上の整数値)のノードの接続関係の所定のパターンとしてのモチーフにおいて、前記n個のノードのそれぞれについて、接続される他のノードとの関係毎に付された各属性を数値化し、それらの各数値を用いて、前記モチーフを特定する識別子を作成する
ステップ(例えば図3のステップS3)を含む。
本発明の一側面のプログラムは、上述した本発明の一側面の情報処理方法に対応するプログラムであって、例えば図14の構成のコンピュータにより実行される。
以下、図面を参照して、本発明の実施の形態について説明する。
図1は、本発明が適用される情報処理システムの機能的構成例を示している。
図1の例では、情報処理システムは、情報処理装置11とデータベース12とから構成されている。
情報処理装置11は、複数のノードから構成されるタンパク質ネットワークから、1以上のモチーフを検出し、その検出結果をユーザに提示することができる。
ここに、タンパク質ネットワークのノードとは、タンパク質を意味する。ただし、後述するように(図10の主要な仲介ノード参照)、同一モチーフにおける同一位置に存在するノードであっても、必ずしも一種類のタンパク質が唯一対応するわけではなく、複数種類のタンパク質が対応する場合がある。そこで、以下、特にタンパク質の種類に言及する場合を除き、タンパク質を、単にノードと称する。
データベース12は、例えば図2のデータ構造に従って、各種データを保持することができる。即ち、図2は、図1の情報処理装置11が利用するデータの主要データ構造の一例を示している。ここに、「情報処理装置11が利用する」と記載した理由は、図2のデータ構造は、データベース12のみならず、後述する情報処理装置11内の保持部32も併せたデータ構造となっているからである。即ち、図2のデータ構造の全構造が、データベース12内に構築される必要は無く、適宜保持部32内に構築されてもよい。
なお、図2における下線が引かれた文字列(グラフ、ノード、属性リスト等)を含む四角で示されるデータを、以下、その文字列を利用して「文字列データ」と称する。即ち、以下、「グラフデータ」、「ノードデータ」、「属性リストデータ」、「エッジ属性データ」、「属性値リストデータ」、および「モチーフデータ」と称して説明していく。
「ノードデータ」とは、所定のノードを特定するためのデータであり、「ノード名」、「属性名」、および、「属性値」を含んでいる。即ち、所定のノードは、その「ノードデータ」に含まれる、「ノード名」、「属性名」、および、「属性値」といったデータから特定可能である。「ノード名」とは、その所定のノードの名称を示すデータであって、例えばタンパク質の名称等を示すデータをいう。「属性名」とは、その所定のノードの属性の名称を示すデータ、例えばタンパク質の所定の特徴に基づく複数の属性(例えば大分子、中分子、小分子等)のうちの、そのノードが分類される属性の名称を示すデータをいう。「属性値」とは、「属性名」に対応する値を示すデータをいう。
「エッジ属性データ」とは、所定のノードに対して付与されたエッジ属性を示すデータをいう。
ここに、エッジ属性とは、次のような属性をいう。即ち、所定の第1のノードと所定の第2のノードとが接続するとき、第1のノードが第2のノードに対して何等かの働きかけをする場合があり、その働きかけの種類に応じて分類される属性を、本明細書では、エッジ属性と称している。具体的には、エッジ属性としては、次の第1の属性と第2の属性とが存在する。
第1の属性とは、第1のノードが、第2のノードの機能をPositiveにする(促進する/強める/増やす)働きかけをする場合の属性をいう。以下、かかる第1の属性の名称(属性名)を、Pと称する。
第2のエッジ属性とは、Pとは逆に、第1のノードが、第2のノードの機能をNegativeにする(抑制する/弱める/減らす)働きかけをする場合の属性をいう。以下、かかる第2の属性の名称(属性名)を、Nと称する。
また、これらのPとNには一意の値(属性値)が与えられる。例えば本実施の形態では、Pの属性値としては2が与えられ、Nの属性値としては1が与えられる。
以上まとめると、第1のノードと第2のノードとが接続する場合に、第1のノードから第2のノードに対して働きかけをするときに、その働きかけの種別(エッジ属性)を示すデータが、第1のノードについての「エッジ属性データ」である。この「エッジ属性データ」は、「属性名」と「属性値」とのデータから構成されている。
なお、同様に、第2のノードから第1のノードに対して働きかけをするときには、第2のノードについての「エッジ属性データ」が別途作られることになる。
さらに、タンパク質ネットワークにおけるタンパク質の種類は多数存在することから、複数種類のそれぞれのノード(タンパク質)について、対応する「ノードデータ」がそれぞれ存在する。また、所定種類のノード(1つの「ノードデータ」で特定されるノード)について、接続可能な別のノード(別の「ノードデータ」で特定されるノード)が複数存在する場合には、複数の別のノードのそれぞれに対して働きかけの種類(エッジ属性)が異なることから、複数の別のノードのそれぞれに対しての「エッジ属性データ」が存在することになる。
そこで、第1のノードと第2のノードとの接続の関係について、第1のノードに対してPまたはNのエッジ属性が付される場合には、即ち、第1のノードが第2のノードの機能をPositive/Negativeにする働きかけをする場合には、第1のノードから第2のノードにリンクが張られるとして、どのタンパク質からどのタンパク質にリンクが張られているのかを示すデータが、本実施の形態では図2の「グラフデータ」に格納されている。なお、無向/有効種別とは、後述する図8等に示されるように、2つのノード間のリンクも画面に表示されるが、そのリンクについては、有向のある矢印線で示してもよいし、無向の線で示してもよいが、何れの線を採用するのかについては予め定義しておかなければならず、かかる定義もデータとして格納されているという意味である。
また、上述したように、「ノードデータ」や「エッジ属性」は多数存在することから、リスト情報として、各「ノードデータ」の「属性名」と各「エッジ属性」の「属性値」との関係をリスト化した「属性リストデータ」や、各「ノードデータ」の「属性値」と各「エッジ属性データ」の「属性名」との関係をリスト化した「属性値リストデータ」も存在する。
なお、「モチーフデータ」については後述する。
このような図2のデータ構造に従って、各種データが、図1のデータベース12に格納されたり、保持部32に保持されることになる。各種データの具体例については、図3以降の図面を参照して後述する。
図1に戻り、情報処理装置11は、次の第1の機能乃至第3の機能を有している。
第1の機能とは、所定のタンパク質ネットワークについて、1以上のモチーフを検出し、それらの1以上のモチーフに関する情報を生成する機能である。1以上のモチーフに関する情報は、特に限定されないが、例えば本実施の形態では、モチーフ毎の出現件数が採用されるとする。以下、第1の機能を、モチーフ計算機能と称する。また、モチーフ計算機能の発揮により実現される処理を、モチーフ計算処理と称する。なお、モチーフ計算機能の詳細については、図3乃至図6を参照して説明する。
第2の機能とは、モチーフ計算処理の結果をユーザに呈示する機能、例えば本実施の形態では、検出された各種モチーフやそれらの出現件数を画面表示の形態でユーザに提示する機能である。以下、第2の機能を、モチーフ表示機能と称する。また、モチーフ表示機能の発揮により実現される処理を、モチーフ表示処理と称する。なお、モチーフ表示機能の詳細については、図7と図8を参照して説明する。
第3の機能とは、ユーザの操作に応じて、各種モチーフについてのさらに詳細な情報をユーザに提示する機能、例えば本実施の形態では、画面表示の形態で提示する機能である。以下、第3の機能を、モチーフ詳細表示機能と称する。また、モチーフ詳細表示機能の発揮により実現される処理を、モチーフ詳細表示処理と称する。なお、モチーフ詳細表示機能の詳細については、図9乃至図13を参照して説明する。
このようなモチーフ計算機能、モチーフ表示機能、および、モチーフ詳細表示機能を実現すべく、情報処理装置11は、データ処理部21乃至UI(User Interface)部25を含むように構成されている。
順不同に説明すると、データ読み出し部23は、データ処理部21の制御に基づいて、データベース12から各種データを読み出して、データ処理部21の加工部31に提供する。データ書き込み部24は、データ制御部21の制御に基づいて、加工部31から提供された各種データをデータベース12に書き込む。なお、データベース12に対して読み出されたり書き込みされる各種データの具体例については、図3以降の図面を参照して後述する。
データ解析部22は、データ処理部21の制御に基づいて、各種データを解析し、その解析結果をデータ処理部21に提供する。なお、解析対象の各種データの具体例については、図3以降の図面を参照して後述する。
データ処理部21は、モチーフ計算機能、モチーフ表示機能、および、モチーフ詳細表示機能を実現すべく、上述したように、データ解析部22乃至データ書き込み部24を適宜制御して、各種データの処理を実行する。具体的には、各種データの加工等の処理は、加工部31により実行され、加工部31により加工等の処理が施されたデータや、加工部31の各種処理に利用されるデータは、保持部32に適宜保持される。なお、処理対象の各種データの具体例については、図3以降の図面を参照して後述する。
UI部25は、その名称の如く、ユーザに対してユーザインタフェースを提供する。即ち、UI部25は、ユーザとデータ処理部21の加工部31とのインタフェースとして機能する。具体的には、指令等の各種情報をユーザが入力するための入力部41と、各種情報をユーザに画面表示の形態で提示する表示部42とが、UI部25に含まれる。なお、入力部41により入力される情報や、表示部42から表示される情報の具体例については、図3以降の図面を参照して説明する。
次に、モチーフ計算機能、モチーフ表示機能、および、モチーフ詳細表示機能の各詳細について、その順番で順次説明していく。
なお、モチーフ計算機能、モチーフ表示機能、または、モチーフ詳細表示機能を実現するために行われる処理のうちの、加工部31がデータ解析部22等を制御して実行する処理については、加工部31自身が実行してもよいことは言うまでもない。逆に、加工部31自身が実行する処理については、加工部31がデータ解析部22等を制御して実行してもよいことは言うまでもない。
はじめに、図3乃至図6を参照して、モチーフ計算機能の詳細について説明する。
図3は、モチーフ計算処理例を説明するフローチャートである。
ステップS1において、加工部31は、データ読み出し部23を制御して、データベース12からリンク情報を読み出して、保持部32に保持させる。
ここに、リンク情報とは、第1のノードと第2のノードのリンクの内容を示す情報であって、具体的には例えば、「第1のノード」,「第1のノードについての、第2のノードに関するエッジ属性」,「第2のノード」から構成される情報をいう。
「第1のノード」としては、図2の例でいえば、第1のノードについての「ノードデータ」の「ノード名」を採用できる。
「第1のノードについての、第2のノードに関するエッジ属性」としては、図2の例でいえば、第1のノードについての、第2のノードに関する「エッジ属性データ」のうちの「属性名」または「属性値」を採用できる。例えば本実施の形態では、後述するMotifIDの計算を容易なものとするために、「属性値」が採用されているとする。
「第2のノード」としては、図2の例でいえば、第2のノードについての「ノードデータ」の「ノード名」を採用できる。
即ち、加工部31は、データベース12に格納されている複数の「ノードデータ」のうちの所定の1つの「ノードデータ」を、第1のノードについての「ノードデータ」として、その「ノード名」を「第1のノード」として読み出すことができる。
この第1のノードからリンクが張られる第2のノードについては、図2の「グラフデータ」から特定可能である。そこで、加工部31は、「グラフデータ」に基づいて、第2のノードを特定し、第2のノードについての「ノードデータ」の「ノード名」を「第2のノード」として読み出すことができる。また、加工部31は、第1のノードについての、第2のノードに関する「エッジ属性データ」の「属性値」を、「第1のノードについての、第2のノードに関するエッジ属性」として読み出すことができる。
このようにして、1つのリンク情報が読み出されることになる。
ただし、第1のノードからリンクが張られている第2のノードは、上述したように、1種類のノードであるとは限らず、多数種類のノードとなる場合が多い。従って、第1のノードについてのリンク情報の個数は、リンクが張られている種類分の個数となる。
また、複数種類の各タンパク質のそれぞれが第1のノードとなり得るので、即ち、データベース12に格納されている複数の「ノードデータ」のそれぞれが第1のノードとなり得るので、結局、複数の「ノードデータ」毎に、リンクが張られている別の種類のノードのそれぞれについてのリンク情報がそれぞれ読み出されることになる。
なお、各リンク情報の読み出しについては、「ノードデータ」や「エッジ属性データ」そのものを利用するのではなく、「属性リストデータ」や「属性値リストデータ」を利用するようにしてもよい。
また、各リンク情報自体を予め製作しておき、データベース12に予め保持しておいてもよい。
いずれにしても各リンク情報が保持部32に保持されると、処理は、ステップS1からS2に進む。
ステップS2において、加工部31は、各リンク情報に基づいて、3ノード間でリンクがある組を抽出する。
ここに、3ノード間でリンクがある組とは、次のような組をいう。即ち、3つのノードを各頂点とする三角形を形成できる組であって、その三角形の三辺のそれぞれにおいて、2つの頂点(2ノード)のうちの少なくとも一方から他方にリンクが張られている組、即ち、2ノードのうちの少なくとも一方のノードが他方のノードの機能をPositive/Negativeにする働きかけをしている組をいう。
即ち、ステップS2で抽出された各組が、タンパク質ネットワークにおける3ノード間の各モチーフをそれぞれ示すことになる。
そこで、ステップS3において、加工部31は、各モチーフのそれぞれについてのID(以下、MotifIDと称する)を計算する。
ここで、MotifIDの計算の具体例について説明する。ステップS3のMotifIDの計算の処理は、次のステップS3a乃至S3dの処理に大別される。
即ち、ステップS3aにおいて、加工部31は、そのモチーフを構成する3つのノードのそれぞれについて、接続される別の2つのノード毎に、in,outのそれぞれに付されたエッジ属性を数値化する。なお、in,outについては後述する。具体的には、加工部31は、所定の1つのノートについて、接続される別の1つのノードとの関係において、in,out毎に、エッジ属性としてNを有する場合には1とし、エッジ属性としてPを有する場合には2とし、エッジ属性を有しない場合には0とするように、それぞれ3進数表現する。そして、加工部31は、in,outの3進数表現をそれぞれin_num,out_numとして、(in_num*3+out_num)により演算される数値を作る。以下、かかる数値を、リンク数値と称する。
ここに、in,outとは、次のことをいう。即ち、モチーフを構成する3つのノードのうちの所定の2つのノードを、第1のノードと第2のノードとして、その間の接続に着目すると、第1のノードから第2のノードにリンクが張られるとともに、第2のノードから第1のノードにリンクが張られることもある。即ち、第1のノードが、第2のノードの機能をPositive/Negativeにする働きかけをするとともに、第2のノードが、第1のノードの機能をPositive/Negativeにする働きかけをすることもある。このことを、第1のノードの観点から説明すると、接続された第2のノードとの関係で、第2のノードに対して働きかけるとともに、第2のノードからの働きかけを受けることもある。このうちの、前者の働きかけることをoutといい、働きかけを受けることをinという。
なお、第1のノードと第2のノードとの間では、上述したように、必ずしも両方向にリンクが張られているわけではなく、何れか一方向にリンクが張られている場合もある。
してみると、第1のノードの観点からすると、接続された第2のノードとの関係で、inに対してP若しくはNのエッジ属性が付与されるか、またはエッジ属性が付与されず、また、outに対してP若しくはNのエッジ属性が付与されるか、またはエッジ属性が付与されない、と把握することができる。
以下、このように把握した場合の呼称として、「inに対して付与されたエッジ属性(P若しくはN)」,「in」,「outに対して付与されたエッジ属性(P若しくはN)」,「out」を連続して並べた文字列を採用する。
具体的には例えば、「P in N out」等と称する。即ち、「P in N out」とは、第1のノードから見て、自身の機能をPositiveにする働きかけを第2のノードから受け(自身の機能がPositiveとなり)、第2のノードの機能をNegativeにする働きかけをすることを意味する。
また、単に「P in」と称した場合には、第1のノードから見て、自身の機能をPositiveにする働きかけを第2のノードから受けるが(自身の機能がPositiveとなるが)、第2のノードに対しては何の働きもしない(第2のノードの機能をPositiveにもNegativeにもしない)ことを意味する。一方、単に「N out」と称した場合には、第1のノードから見て、第2のノードから何の働きかけも受けないが(自身の機能がPositiveにもNegativeにもならないが)、第2のノードの機能をNegativeにする働きをすることを意味する。
なお、第1のノードと第2のノードが接続されている場合に、第1のノードから見て「P in N out」であるときには、第2のノードから見ると「N in P out」となる。また、第1のノードから見て「P in」であるときには、第2のノードから見ると「P out」となり、第1のノードから見て「N out」であるときには、第2のノードから見ると「N in」となる。
このような「P in N out」、「P in」、「N out」等を数値化したものが、リンク数値である。
具体的には例えば、「P in N out」の場合のリンク数値は、in_num = 2(=P)であり、out_num = 1(=N)であるので、2*3+1=7となる。また、「P in」の場合のリンク数値は、out_num=0として、2*3+0=6となる。一方、「N out」の場合のリンク数値は、in_num =0として、0*3+1=1となる。
なお、保持部32等に図4に示されるようなテーブルを予め保持させておいて、「リンク数値」の項目の中から該当値を読み出す処理を、ステップS3aの処理として採用してもよい。
ここで、モチーフを構成する3つのノードを頂点とする三角形を形成させた場合に、所定の1頂点(例えば後述する図8の例では、16という数値が付された右上方の黒丸印)の位置をv1と称し、そのv1の頂点に対して例えば左周りの順に、残りの2つの頂点のそれぞれの位置(例えば後述する図8の例では、36という数値が付された左上方の黒丸印の頂点と、22という数値が付された中央下方の黒丸印の頂点のそれぞれの位置)を、v2,v3のそれぞれと称するとする。
この場合、v1の位置に着目すると、v1のノードについてのリンク数値としては、v2のノードに対するリンク数値と、v3のノードに対するリンク数値との2つが存在する。
そこで、ステップS3bにおいて、加工部31は、v1のノードについて、v2のノードに対するリンク数値と、v3のノードに対するリンク数値とのうちの、小さい方を10の位とし、大きい方を1の位とした2桁の数値(以下、ノードリンク数値と称する)を作る。
具体的には例えば、v1のノードが、v2のノードとの関係で「P in N out」であり、v3のノードとの関係で「N out」であった場合には、上述したように、v1のノードについて、v2のノードに対するリンク数値は7となり、v3のノードに対するリンク数値は1となる。そこで、このような場合、ステップS3bの処理で、17という2桁の数値が、v1のノードについてのノードリンク数値として作られるのである。
同様に、ステップS3bにおいて、加工部31は、v2,v3の各ノードのそれぞれについて、各ノードリンク数値を作る。
次に、ステップS3cにおいて、加工部31は、所定の順番、例えば本実施の形態ではv1,v2,v3の順番で、各ノードリンク数値を並べた数列をつくり、この数列をMotifID(original)とする。即ち、v1,v2,v3の各ノードリンク数値のそれぞれを、v1_node_num,v2_node_num,v3_node_numとそれぞれ記述するとした場合、(v1_node_num v2_node_num v3_node_num)からなる数列がMotifID(original)となる。
具体的には例えば、v1_node_num,v2_node_num,v3_node_numの各ノードリンク数値が、48,47,58のそれぞれであったとすると、「484758」がMotifID(original)となる。
また、ステップS3dにおいて、加工部31は、v1,v2,v3のノードの各ノードリンク数値を、値の小さい順に並べ変えた数列をつくり、この数列をMotifID(unique)とする。
具体的には例えば、上述した例では、v1_node_num,v2_node_num,v3_node_numの各ノードリンク数値が、48,47,58のそれぞれであったので、「474858」がMotifID(unique)となる。
ここで、MotifID(original)は、3つのノードの位置関係を特定可能なIDであるのに対して、MotifID(unique)は3つのノードの位置関係とは無関係なIDとなっている。そこで、MotifID(unique)から、3つのノードの位置関係が把握できる情報、即ち、MotifID(unique)とMotifID(original)との対応関係を示す情報(以下、ノード位置関係情報と称する)があると便利である。そこで、本実施の形態では、加工部31は、ステップS3dにおいてさらに、作成したMotifID(unique)について、ノード位置関係情報もあわせて作成するとする。
ノード位置関係情報の形態は、特に限定されないが、本実施の形態では例えば、MotifID(unique)を構成する6桁の数列のうち、上位2桁、中位2桁、および、下位2桁の数値はそれぞれ、v1_node_num,v2_node_num,v3_node_numのうちの何れに該当するのかを示す情報が、ノード位置関係情報として採用されている。
具体的には例えば、MotifID(unique)を構成する6桁の数列のうち、上位2桁、中位2桁、および、下位2桁のそれぞれを、1,2,3のそれぞれで示し、これらの(1,2,3)と(v1_node_num,v2_node_num,v3_node_num)との関係を示す情報が、ノード位置関係情報として採用されている。
より具体的には例えば、上述した例では、v1_node_num,v2_node_num,v3_node_numの各ノードリンク数値が、48,47,58のそれぞれであり、それ故、「474858」がMotifID(unique)となった。この場合には、上位2桁(=1)は、v2_node_num(=47)であり、中位2桁(=2)は、v1_node_num(=48)であり、下位2桁(=3)は、v3_node_num(=47)である。そこで、(v1_node_num,v2_node_num,v3_node_num)=(2,1,3)という情報が、ノード位置関係情報として作成されることになる。
なお、以下、単にMotifIDと称している場合には、MotifID(unique)とMotifID(original)とを区別していない、または、両者を含んでいることを意味する。
以上のステップS3a乃至S3d、即ち、図3のステップS3の処理により、MotifIDが計算されると、処理はステップS4に進む。
ステップS4において、加工部31は、各モチーフ毎に、3ノード名、MotifID(unique)、およびノード位置関係情報を、所定のファイル(以下、Motifファイルと称する)に出力する。
ここで、Motifファイルの格納場所は、データベース12であってもよいし、保持部32であってもよい。ただし、Motifファイルの格納場所がデータベース12である場合には、加工部31は、データ書き込み部24を制御して、3ノード名、MotifID(unique)、およびノード位置関係情報を、Motifファイルに格納する。
具体的には例えば、図5に示されるようなMotifファイルが、データベース12または保持部32に格納されることになる。
図5のMotifファイルにおいて、所定の1行が、所定のモチーフに対応する。
また、「3ノード名」の項目のうちの、「v1」の項目には、上述したv1の位置に存在するノードの名称が、「v2」の項目には、上述したv2の位置に存在するノードの名称が、「v3」の項目には、上述したv3の位置に存在するノードの名称が、それぞれ格納される。具体的には例えば、上述したステップS1の処理で読み出されたリンク情報のうちの、v1,v2,v3の各位置に存在する各ノードについての図2の「ノードデータ」の「ノード名」が格納されることになる。
なお「MotifID(original)」の項目は、図5の例では理解を容易なものとするために設けられているが、上述したように、MotifID(unique)とノード位置関係情報とからMotifID(original)は再現可能であるので、Motifファイルにとって必須な項目ではない。
また、「MotifID(unique)」,「ノード位置関係情報」のそれぞれの項目は、上述したステップS3dの処理で作成されたMotifID(unique),ノード位置関係情報のそれぞれが格納される。例えば2行目のモチーフの項目には、上述した具体例のMotifID(unique),ノード位置関係情報のそれぞれが格納されていることがわかる。
図3に戻り、ステップS5において、加工部31は、データ解析部22を制御することでMotifID(unique)ごとの出現件数を計算し、その計算結果を所定のファイル(以下、MotifIDファイルと称する)に格納する。
ここで、MotifIDファイルの格納場所は、データベース12であってもよいし、保持部32であってもよい。ただし、MotifIDファイルの格納場所がデータベース12である場合には、加工部31は、データ書き込み部24を制御して、MotifID(unique)ごとの出現件数を、MotifIDファイルに格納する。
具体的には例えば、図6に示されるようなMotifIDファイルが、データベース12または保持部32に格納されることになる。
これにより、モチーフ計算処理が終了する。
なお、このようにして生成されるMotifファイルやMotifIDファイルに格納される情報が、図2でいう「モチーフデータ」に該当することになる。
以上、図3乃至図6を参照して、モチーフ計算機能の詳細について説明した。
次に、図7と図8を参照して、モチーフ表示機能の詳細について説明する。
図7は、モチーフ表示処理例を説明するフローチャートである。
ステップS21において、図1の加工部31は、MotifIDファイル(図6参照)が存在するか否かを判定する。
MotifIDファイルが存在する場合、ステップS21の処理でYESであると判定されて、処理はステップS22に進む。
ステップS22において、加工部31は、MotifID(unique)ごとの出現件数をMotifIDファイルから読み出す。なお、MotifIDファイルがデータベース12に格納されていた場合には、加工部31は、データ読み出し部23を制御して、MotifID(unique)ごとの出現件数をMotifIDファイルから読み出す。
ステップS23において、加工部31は、MotifID(unique)ごとに、出現件数とグラフパターンを表示部42に表示させる。
なお、出現件数とグラフパターンの表示形態は、特に限定されないが、例えば本実施の形態では、図8に示される表示形態が採用されているとする。即ち、図8は、タンパク質ネットワークにおける3ノード間の各モチーフのうちの、MotifID(unique)が「162236」であるモチーフについての、出現件数とグラフパターンの表示例が示されている。
図8の例では、「MotifID:162236」の右方の表示、即ち、「該当Motif数:5405」という表示が、出現件数の表示である。かかる表示から、MotifID(unique)が「162236」であるモチーフの出現件数は5405であることがわかる。
また、図8の例では、出現件数の表示の下方に、MotifID(unique)が「162236」であるモチーフのグラフパターンが表示されている。
このグラフパターンは、3つのノードが黒丸印で示され、2ノード間におけるリンクが実線または点線で示されている。
ここで、実線の2端のうちの、矢印が付された端を先端と称し、他方の端(何も付されていない端)を元端と称するとすると、実線は、元端の第1のノードが、先端の第2のノードの機能をPositiveにする働きかけをする場合に張られるリンク(以下、Pリンクと称する)を示している。一方、点線の2端のうちの、垂直線が付された端を先端と称し、他方の端(何も付されていない端)を元端と称するとすると、点線は、元端の第1のノードが、先端の第2のノードの機能をNegativeにする働きかけをする場合に張られるリンク(以下、Nリンクと称する)を示している。
また、3つのノード(黒丸印)のうちの、右上方のノードが上述したv1のノードを示しており、左上方のノードが上述したv2のノードを示しており、中央下方のノードが上述したv3のノードを示している。そして、3つのノードのそれぞれの近傍には、上述したステップS3bの処理で作られるノードリンク数値がそれぞれ表示されている。
このようにグラフパターンを表示することで、そのモチーフを構成する3つのノードにおける各リンクの状況を容易に認識すること、即ち、3ノード(タンパク質)間の機能のPositive/Negativeの関係を容易に認識することができるようになる。
図7に戻り、ステップS21の処理でNOであると判定された場合、即ち、MotifIDファイルが存在しない場合、処理はステップS24に進む。
ステップS24において加工部31は、Motifファイル(図5参照)が存在するか否かを判定する。
MotifIDファイルは存在しないが、Motifファイルは存在する場合、ステップS24の処理でYESであると判定されて、処理はステップS25に進む。
ステップS25において、加工部31は、Motif情報をMotifファイルから読み出す。なお、Motifファイルがデータベース12に格納されていた場合には、加工部31は、データ読み出し部23を制御して、Motif情報をMotifファイルから読み出す。ここに、Motif情報とは、モチーフ毎の、3ノード名、MotifID(unique)、およびノード位置関係情報をいう。即ち、図5の例では、モチーフ毎に、対応する行の情報がMotif情報として読み出されることになる。
ステップS26において、加工部31は、データ解析部22を制御することでMotifID(unique)ごとの出現件数を計算し、その計算結果をMotifIDファイルに格納する。即ち、ステップS26の処理とは、図3のモチーフ計算処理のステップS5に対応する処理である。
ステップS26の処理が実行されると、即ち、MotifIDファイルとMotifファイルとが存在するようになると、処理はステップS22に進み、それ以降の処理が実行される。
また、MotifIDファイルもMotifファイルも存在しない場合、ステップS24の処理でNOであると判定されて、処理はステップS27に進む。
ステップS27において、加工部31は、図3のモチーフ計算処理を実行する。かかるモチーフ計算処理が実行されると、即ち、MotifIDファイルとMotifファイルとが存在するようになると、処理はステップS22に進み、それ以降の処理が実行される。
以上、図7と図8を参照して、モチーフ表示機能の詳細について説明した。
次に、図9乃至図13を参照して、モチーフ詳細表示機能の詳細について説明する。
図9は、モチーフ詳細表示処理例を説明するフローチャートである。
ステップS41において、図1の加工部31は、上述した図7のモチーフ表示処理を実行する。
これにより、MotifID(unique)ごとに、出現件数とグラフパターンが、例えば本実施の形態では図8に示されるような表示形態で表示部42に表示される。
この場合、上述したように、所定のMotifID(unique)を有するモチーフのグラフパターンにおいては、そのモチーフを構成する3つのノードとして、それぞれ黒丸印が表示される。
即ち、この段階では、各ノードは、単なる黒丸印であり、いかなる種類のタンパク質で構成されているのかはわからない。そこで、図9の例のモチーフ詳細表示処理では、ユーザが指定した位置のノードとなり得るタンパク質の集合体を表示すべく、次のステップS42とS43の処理が実行される。なお、以下、所定のノードとなり得るタンパク質の集合体を、単に、ノード群と称する。即ち、ノード群を表示するとは、所定のノードとなり得る各タンパク質をそれぞれ特定可能な情報、例えば、それぞれの名称等を表示することを意味する。
ステップS42において、加工部31は、ノードが指定されたか否かを判定する。
ここで、ユーザのノードの指定手法は、特に限定されない。例えば本実施の形態では、入力部41の少なくとも一部がマウスで構成されており、表示部42に表示されたグラフパターンに含まれる3つのノード(黒丸印)のうちの、指定したいノードをマウスによりクリックすることで、当該ノードを指定する、という手法が採用されているとする。
従って、所定のノードがマウスでクリックされるまでの間、ステップS42の処理でNOであると判定されて、処理はステップS42に再び戻され、ノードが指定されたか否かが再度判定される。
そして、所定のノードがマウスでクリックされると、ステップS42の処理でYESであると判定されて、処理はステップS43に進む。
ステップS43において、加工部31は、モチーフ中で該当ノードの位置にあるノード群を表示部42に表示させる。即ち、ステップS42の処理で指定されたノードとなり得る各タンパク質のそれぞれの名称等が、表示部42に表示される。
具体的には例えば、図3のモチーフ計算処理が実行されたところ、図10に示される8つのMotifID(unique)が計算され、上述したステップS41の処理で、これらの8つのMotifID(unique)のそれぞれについて、図10に示されるグラフパターンおよび出現件数が、それぞれ1つのウィンドウ(図8参照)として、表示部42に表示されたとする。
なお、3つのノード(黒丸印)は、図10の例では省略されているが、実際には表示部42に表示される。また、3つのノードを示す位置は、図10の例では、一番上(右上)がv1とされ、中央(左中央)がv2とされ、一番下(右下)がv3とされているが、v1乃至v3が左周りの順であれば、v1の位置自体は図10の例に特に限定されない。さらにいえば、Motifファイルの定義等を適宜変更することで、3つの位置の表現形態として、左周りのv1乃至v3の形態を採用する必要も特に無い。さらにまた、出現件数は、図10の例では、出現率(%)で表示されるとしているが、図8の例のように絶対個数で表示されてもよい。
ここで、例えば、ユーザが、最も出現件数が多い(出現率が高い)モチーフ、即ち、MotifID(unique)が「222666」であるモチーフに着目し、v2の位置(図10中丸印内の位置)にあるノード群を認識すべく、v2の位置のノード(図10には図示せず。図8の黒丸印参照)をマウスでクリックしたとする。
すると、ステップS42においてYESであると判定され、ステップS43の処理で、MotifID(unique)が「222666」であるモチーフ中で該当ノードの位置(図10中丸印内の位置)にあるノード群として、図10の「主要な仲介ノード」の項目にある情報、即ち、「JUN SP1 TP53 SP3 Transcription Factor」が表示部42に表示されるのである。
このように、ユーザは、簡単な操作を行うだけで、タンパク質ネットワークにおける出現頻度が高い重要構造の中で、仲介の働きを有しているタンパク質(ノード)としては、「JUN SP1 TP53 SP3 Transcription Factor」が存在する、ということを素早く認識できるようになる。
即ち、従来より、出現頻度が高い重要構造の中で仲介の働きを有しているノード(タンパク質)は、重要な役割を果たすノードであるという理論自体はあった。しかしながら、従来、所定のタンパク質ネットワークの中から、かかる理論に適合する実際のタンパク質を発見するためには、多大な時間と労力とが必要であった。
具体的には例えば、上述した非特許文献1の技術による解析を行っても、そもそも2ノード間のリンクとして、Positive/Negativeの概念すら導入されていないことから、図10の左上のグラフパターンを有するモチーフを検出することすらできない。そこで、仮に、上述した非特許文献1の技術に対して、Positive/Negativeの概念を導入した技術を採用したとする。しかしながら、この場合であっても、図10の8つのモチーフをそれぞれ検出し、そのうちの図10中最左端のグラフパターンを有するモチーフ(本発明を利用するとMotifID(unique)として「222666」が付与されるモチーフ)が、出現頻度が高い重要構造であることを特定するまでには、多大な時間と労力とがかかる。してみると、そのモチーフの中から、仲介の働きを有しているノード群、即ち、v2の位置(図10中丸印内の位置)にあるノード群を特定するためには、さらに莫大な時間と労力とがかかることになる。
これに対して、本発明が適用されるモチーフ計算処理(図3)、モチーフ表示処理(図7)、およびモチーフ詳細表示処理(図9)を実行できる情報処理装置11(図1)を利用することで、短時間かつ簡便な操作のみで、出現頻度が高い重要構造の中で、仲介の働きを有しているタンパク質(ノード)としては、「JUN SP1 TP53 SP3 Transcription Factor」が存在することを認識できるようになる。
ところで、ノード群を表示させる対象位置は、図10の例では、マウスのクリックにより指定されたが、その指定手法は、特に図10の例に限定されず、基本的にMotifID(unique)と、モチーフ内でのノードの位置(例えば本実施の形態では、v1,v2,v3のうちの何れかの位置)とを指定できる手法であれば足りる。
従って、例えば、ユーザは、キーボード等で構成される入力部41(図1)を用いて、MotifID(unique)と、モチーフ内でのノードの位置とを直接入力することで、ノード群を表示させる対象位置を指定することもできる。このような指定が行われる場合のモチーフ詳細表示処理の一例が図11のフローチャートに示されている。即ち、図11は、モチーフ詳細表示処理例であって、図9の例とは別の例を説明するフローチャートである。
図11のステップS51において、図1の加工部31は、MotifID(unique)とモチーフ内でのノードの位置の入力を受け付けたか否かを判定する。
加工部31は、かかる入力を受け付けるまでの間、ステップS51の処理でNOであると判定して、処理をステップS51に再び戻す、といったループ処理を繰り返し実行する。
そして、かかる入力を受け付けると、加工部31は、ステップS51の処理でYESであると判定して、ステップS52において、モチーフ中で該当ノードの位置にあるノード群を表示部42に表示させる。
さらに、タンパク質ネットワークにおいて、特定タンパク質(ノード)の特徴として、モチーフにおける役割/位置の中で一番多い役割/位置とは何であるのかを解析できるようになれば、ユーザにとって便宜である。そこで、かかる解析を高速かつ簡便にユーザができるように、図1の情報処理装置11は、さらに、図12に示されるようなモチーフ詳細表示処理を実行することも可能である。即ち、図12は、モチーフ詳細表示処理例であって、図9や図11の例とは別の例を説明するフローチャートである。
ステップS61において、図1の加工部31は、ノード名の入力を受け付けたか否かを判定する。
ここに、ノード名とは、ユーザが解析対象とする特定タンパク質(ノード)の名称、即ち、「SP1」や「TP53」等をいう。即ち、ユーザは、キーボード等で構成される入力部41(図1)を用いて、解析対象の特定タンパク質(ノード)の名称を直接入力することができる。
加工部31は、かかる入力を受け付けるまでの間、ステップS61の処理でNOであると判定して、処理をステップS61に再び戻す、といったループ処理を繰り返し実行する。
そして、かかる入力を受け付けると、加工部31は、ステップS61の処理でYESであると判定して、ステップS62において、全モチーフ中で該当ノード(ステップS61の処理で受け付けられたノード名で特定されるノード)を含むモチーフを表示部42に表示させる。
即ち、ステップS62において、加工部31は、データ解析部22を制御することで、Motifファイル等から、該当ノードを含む1以上のモチーフに対応する1以上のMotifID(unique)を検索し、それらの1以上のMotifID(unique)でそれぞれ特定される各モチーフを表示部42に表示させる。
なお、モチーフの表示形態は、特に限定されないが、例えば本実施の形態では、図13に示される表示形態が採用されているとする。即ち、図13は、タンパク質ネットワークにおける3ノード間の各モチーフのうちの、ユーザが指定した特定ノード(タンパク質)を含むモチーフの表示例が示されている。
図13の例では、ユーザが指定した特定ノード(タンパク質)を含むモチーフの総数(件数)を表示するウィンドウ101と、そのうちの1つのモチーフについてのMotifID(unique)とグラフパターンとを表示するウィンドウ102とが、表示部42に表示される。
ユーザは、ウィンドウ101を見ることで、自身が指定した特定ノード(タンパク質)を含むモチーフは、7件あることを容易に視認できる。そして、ユーザは、例えばこのウィンドウ101内の「表示」と記述されたソフトウエアボタンを押下することで、7つのモチーフのうちの所定の1つのモチーフについてのMotifID(unique)やグラフパターンをウィンドウ102に表示させることができる。さらに、ユーザは、例えばこのウィンドウ101内の「表示」と記述されたソフトウエアボタンを再度押下することで、7つのモチーフのうちの別の1つのモチーフについてのMotifID(unique)やグラフパターンをウィンドウ102に表示させることができる。また、表示の終了を指示したい場合には、ユーザは、例えばこのウィンドウ101内の「終了」と記述されたソフトウエアボタンを押下すればよい。
ここで、図13のウィンドウ102中の3つのノード(黒丸印)のうちの中央下方のノード(v3のノード)は、他のノードよりも大きな黒丸印であって、点滅するように表示されている。ユーザが指定した特定ノードを、他のノードと区別するためである。換言すると、ユーザが指定した特定ノードの表現形態は、他のノードと区別可能な表現形態であれば足り、図13の例に特に限定されない。具体的には例えば、その他、ユーザが指定した特定ノードを、他のノードとは別の色で表示するようにしてもよい。
以上説明したように、図1の情報処理装置11は、モチーフ計算機能、モチーフ表示機能、および、モチーフ詳細表示機能を有している。従って、上述したように、かかる機能を、タンパク質ネットワークについて適用して実現することで、次のような効果を奏することが可能になる。
タンパク質間の、機能のPositive/Negativeを考慮した因果関係を表現する部分構造(各種モチーフ)を簡単に抽出できる、という効果を奏することが可能になる。
各タンパク質の機能をより詳細に知ることができる、という効果を奏することが可能になる。
さらに、両者の効果から、例えば癌の原因となる機能(増殖/停滞)や治療のために必要な分子の働きを検出することができる、という効果を奏することも可能になる。
さらにまた、以上の各種効果を得るために必要なユーザの作業は簡便であり、かつ、以上の各種効果を短時間で得ることができる、という効果を奏することが可能になる。
以上、本発明を、タンパク質ネットワークにおける3ノード間のモチーフの検出/解析について適用する例について言及した。しかしながら、本発明の適用先は、上述した例に特に限定されない。例えば、本発明は、タンパク質ネットワーク以外の様々な種類のネットワークに対しても適用可能であるし、また、タンパク質ネットワークを含む様々な種類のネットワークにおけるn(nは、3以上の整数値)ノード間のモチーフの検出/解析に対しても適用可能である。
例えば、ノードの属性としては、タンパク質ネットワークではPとNといった2つのエッジ属性が付与されていたが、ネットワークの種類によっては3以上の属性がノードに付与される場合がある。かかるネットワークにおける3ノード間の接続関係を示すモチーフのMotifIDとしては、例えば次のようなものを採用できる。換言すると、図3のステップS3のMotifIDの計算の処理として、例えば次のステップS3a−M乃至S3d−Mの処理を採用することも可能である。
即ち、例えば所定ノードにおいて、他のノードとの接続形態に応じて、m種類(mは2以上の整数値)の性質が存在するネットワークにおいては、かかるm種類の性質を、ノードの属性として採用できる。
この場合、ステップS3a−Mにおいて、加工部31は、モチーフを構成する3つのノードのそれぞれについて、接続された1つの別のノードとの関係において、in,out毎に、m種類の属性のうちの付された属性を、0,…,mとする(m+1)進数で数値化する。そして、加工部31は、in,outの(m+1)進数表現をそれぞれin_num,out_numとして、{in_num*(m+1)+out_num}により演算される数値を、リンク数値として作る。
その後のステップS3b-M乃至S3d―Mの処理としては、タンパク質ネットワークについての上述したステップS3b乃至S3dと同様の処理を採用すればよい。
また例えば、タンパク質ネットワークであっても、nノード間の接続関係のモチーフの検出/解析を行う場合には、MotifIDとして、例えば次のようなものを採用できる。換言すると、図3のステップS3のMotifIDの計算の処理として、例えば次のステップS3a−N乃至S3d−Nの処理を採用することも可能である。
即ち、この場合には、各ノードの位置としては、v1,v2, …,vnが存在することになるので、ステップS3a−NとS3b―Nとにおいて、加工部31は、v1,v2, …,vnの各ノードのそれぞれについて、各ノードリンク数値を作る。
次に、ステップS3c―Nにおいて、加工部31は、所定の順番、例えば本実施の形態ではv1,v2,…,vnの順番で、各ノードリンク数値を並べた数列をつくり、この数列をMotifID(original)とする。即ち、v1,v2, …,vnの各ノードリンク数値のそれぞれを、v1_node_num,v2_node_num,…,vn_node_numとそれぞれ記述すると、(v1_node_num v2_node_num … vn_node_num)からなる数列がMotifID(original)となる。
また、ステップS3d―Nにおいて、加工部31は、v1,v2, …,vnのノードの各ノードリンク数値を、値の小さい順に並べ変えた数列をつくり、この数列をMotifID(unique)とする。
さらにまた、m種類の属性を有するノードからなるネットワークについて、nノード間の接続関係のモチーフの検出/解析を行う場合には、MotifIDとして、例えば次のようなものを採用できる。換言すると、図3のステップS3のMotifIDの計算の処理として、次のステップS3a−NM乃至S3d−NMの処理を採用できる。
この場合には、ステップS3a−NM,S3b−NMの処理として、上述したステップS3a−M,S3b−Mの処理と、ステップS3a−N,S3b−Nの処理とを組み合わせた処理を採用すればよい。即ち、ステップS3a−NM,S3b−NMの処理により、v1,v2, …,vnの各ノードのそれぞれについて、in,outの属性が(m+1)進数表現されて、{in*(m+1)+out}により数値化されたものが、各々のリンク数値として作られる。
その後は、ステップS3c−NM,S3d−NMの処理として、上述したステップS3c−N,S3d−Nの処理と同様の処理が実行されて、MotifID(original)とMotifID(unique)とがそれぞれ生成される。
このようにして生成されたMotifID(original)とMotifID(unique)とを採用することで、図3のステップS4,S5も同様に実行でき、また、図7のモチーフ表示処理、図9,図11,図12のモチーフ詳細表示処理等も同様に実行できるようになる。ただし、nノード間のモチーフについては、3ノードではなくnノードについての処理となる。
ところで、上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることができる。
この場合、上述した図1の情報処理装置11の少なくとも一部として、例えば、図14に示されるパーソナルコンピュータを採用することができる。
図14において、CPU(Central Processing Unit)201は、ROM(Read Only Memory)202に記録されているプログラム、または記憶部208からRAM(Random Access Memory)203にロードされたプログラムに従って各種の処理を実行する。RAM203にはまた、CPU201が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU201、ROM202、およびRAM203は、バス204を介して相互に接続されている。このバス204にはまた、入出力インタフェース205も接続されている。
入出力インタフェース205には、キーボード、マウスなどよりなる入力部206、ディスプレイなどよりなる出力部207、ハードディスクなどより構成される記憶部208、および、モデム、ターミナルアダプタなどより構成される通信部209が接続されている。通信部209は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。
入出力インタフェース205にはまた、必要に応じてドライブ210が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア211が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部208にインストールされる。
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
このようなプログラムを含む記録媒体は、図14に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フロッピディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア(パッケージメディア)211により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM202や、記憶部208に含まれるハードディスクなどで構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。換言すると、例えば、図1の例の情報処理装置11とデータベース12とを併せて1つの装置であると捉えてもよい。
本発明が適用される情報処理装置の機能的構成例を示す機能ブロック図である。 図1の情報処理装置が利用するデータの主要データ構造の一例を示す図である。 図1の情報処理装置が実行する処理のうちの、モチーフ計算処理の一例を説明するフローチャートである。 MotifIDの計算手法の一部を説明する図である。 Motifファイルの構造例を示す図である。 MotifIDファイルの構造例を示す図である。 図1の情報処理装置が実行する処理のうちの、モチーフ表示処理の一例を説明するフローチャートである。 図7のモチーフ表示処理の実行結果の一例を示す図である。 図1の情報処理装置が実行する処理のうちの、モチーフ詳細表示処理の一例を説明するフローチャートである。 図9のモチーフ詳細表示処理の実行結果の一例を示す図である。 図1の情報処理装置が実行する処理のうちの、モチーフ詳細表示処理の一例であって、図9とは別の例を説明するフローチャートである。 図1の情報処理装置が実行する処理のうちの、モチーフ詳細表示処理の一例であって、図9や図11とは別の例を説明するフローチャートである。 図12のモチーフ詳細表示処理の実行結果の一例を示す図である。 本発明が適用される情報処理をソフトウエアで実行するコンピュータの構成例を示すブロック図である。
符号の説明
11 情報処理装置, 12 データベース, 21 データ処理部, 22 データ解析部, 23 データ読み出し部, 24 データ書き込み部, 25 UI部, 31 加工部, 32 保持部, 41 入力部, 42 表示部, 201 CPU, 202 ROM, 203 RAM, 208 記憶部, 211 リムーバブルメディア

Claims (8)

  1. 複数のノードを含むネットワークに関する情報処理を実行する情報処理装置において、
    前記複数のノードのそれぞれに付され得る属性として、接続され得る他のノードとの関係に応じてm種類(mは2以上の整数値)の属性が定義されており、
    前記ネットワークから抽出された、n個(nは3以上の整数値)のノードの接続関係の所定のパターンとしてのモチーフにおいて、前記n個のノードのそれぞれについて、接続される他のノードとの関係毎に付された各属性を数値化し、それらの各数値を用いて、前記モチーフを特定する識別子を作成する識別子作成手段
    を備える情報処理装置。
  2. 前記識別子作成手段により作成された前記識別子に基づいて、前記ネットワークに含まれる1以上の前記モチーフのうちの少なくとも1つを解析対象として決定し、その解析対象についての所定の解析処理を実行する解析手段
    をさらに備える請求項1に記載の情報処理装置。
  3. 前記解析手段は、前記所定の解析処理として、前記識別子作成手段により作成された複数の前記識別子毎に、対応するモチーフの前記ネットワークにおける出現件数を計算する
    請求項2に記載の情報処理装置。
  4. 前記識別子作成手段により作成された複数の前記識別子毎に、前記出現件数と、対応するモチーフに関する情報とを提示する提示手段
    をさらに備える請求項3に記載の情報処理装置。
  5. 前記提示手段は、さらに、前記識別子作成手段により作成された所定の前記識別子に対応するモチーフに含まれる前記n個のノードのうちの、所定のノードに関する情報をさらに提示する
    請求項4に記載の情報処理装置。
  6. 前記解析手段は、さらに、前記識別子作成手段により作成された複数の前記識別子のうちから、所定のノードを含む1以上のモチーフのそれぞれに対応する1以上の識別子をそれぞれ検索し、
    前記提示手段は、前記解析手段により検索された前記1以上の識別子のそれぞれに対応する前記1以上のモチーフのそれぞれに関する情報をさらに提示する
    請求項4に記載の情報処理装置。
  7. 複数のノードを含むネットワークに関する情報処理を実行する情報処理装置の情報処理方法において、
    前記複数のノードのそれぞれに付され得る属性として、接続され得る他のノードとの関係に応じてm種類(mは2以上の整数値)の属性が定義されており、
    前記ネットワークから抽出された、n個(nは3以上の整数値)のノードの接続関係の所定のパターンとしてのモチーフにおいて、前記n個のノードのそれぞれについて、接続される他のノードとの関係毎に付された各属性を数値化し、それらの各数値を用いて、前記モチーフを特定する識別子を作成する
    ステップを含む情報処理方法。
  8. 複数のノードを含むネットワークに関する情報処理を制御するコンピュータに実行させるプログラムであって、
    前記複数のノードのそれぞれに付され得る属性として、接続され得る他のノードとの関係に応じてm種類(mは2以上の整数値)の属性が定義されており、
    前記ネットワークから抽出された、n個(nは3以上の整数値)のノードの接続関係の所定のパターンとしてのモチーフにおいて、前記n個のノードのそれぞれについて、接続される他のノードとの関係毎に付された各属性を数値化し、それらの各数値を用いて、前記モチーフを特定する識別子を作成する
    ステップを含むプログラム。
JP2006342874A 2006-12-20 2006-12-20 情報処理装置および方法、並びにプログラム Pending JP2008152731A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006342874A JP2008152731A (ja) 2006-12-20 2006-12-20 情報処理装置および方法、並びにプログラム
US11/948,905 US7730108B2 (en) 2006-12-20 2007-11-30 Information processing apparatus and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006342874A JP2008152731A (ja) 2006-12-20 2006-12-20 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2008152731A true JP2008152731A (ja) 2008-07-03

Family

ID=39544425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006342874A Pending JP2008152731A (ja) 2006-12-20 2006-12-20 情報処理装置および方法、並びにプログラム

Country Status (2)

Country Link
US (1) US7730108B2 (ja)
JP (1) JP2008152731A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325203A1 (en) * 2012-06-05 2013-12-05 GM Global Technology Operations LLC Methods and systems for monitoring a vehicle for faults
US9483463B2 (en) * 2012-09-10 2016-11-01 Xerox Corporation Method and system for motif extraction in electronic documents
GB2609912A (en) * 2021-08-11 2023-02-22 Vocalink Ltd Method apparatus and computer program product for constructing a set of motifs for use in detecting messages of interest

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2283840B (en) * 1993-11-12 1998-07-22 Fujitsu Ltd Genetic motif extracting method and apparatus
JP2002091991A (ja) 2000-09-20 2002-03-29 Intec Web & Genome Informatics Corp 遺伝子ネットワーク研究支援システム及び方法
IL162413A0 (en) * 2002-01-22 2005-11-20 Yeda Res & Dev Method for analyzing data to identify network motifs

Also Published As

Publication number Publication date
US7730108B2 (en) 2010-06-01
US20080154964A1 (en) 2008-06-26

Similar Documents

Publication Publication Date Title
Guarracino et al. ODGI: understanding pangenome graphs
Degroeve et al. SpliceMachine: predicting splice sites from high-dimensional local context representations
JP4171757B2 (ja) オントロジー統合支援装置、オントロジー統合支援方法及びオントロジー統合支援プログラム
Ross et al. MODE-TASK: large-scale protein motion tools
US10216696B2 (en) Data processing system for adaptive visualization of faceted search results
JPWO2008146341A1 (ja) 業務フロー図生成プログラム、業務フロー図生成装置および業務フロー図生成方法
Hanson et al. DSSR-enhanced visualization of nucleic acid structures in Jmol
WO2000028091A1 (en) Systems for the analysis of gene expression data
JP2005078111A (ja) データ分類処理装置、データ分類方法、プログラム及び可搬記憶媒体
Saripella et al. Benchmarking the next generation of homology inference tools
JP2009116638A (ja) 業務仕様理解支援システム及び方法
Younesy et al. An interactive analysis and exploration tool for epigenomic data
Sacan et al. LFM-Pro: a tool for detecting significant local structural sites in proteins
JP2008152731A (ja) 情報処理装置および方法、並びにプログラム
Baek et al. Quantitative analysis of genome-wide chromatin remodeling
WO2022269815A1 (ja) 可視化表示装置、可視化表示方法および可視化表示プログラム
Wolf et al. PTGL: extension to graph-based topologies of cryo-EM data for large protein structures
CN107291951A (zh) 数据处理方法、装置、存储介质和处理器
JP2001125925A (ja) 構造表示方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Wallach et al. Prediction of sub-cavity binding preferences using an adaptive physicochemical structure representation
CN105229618A (zh) 数据协调支援装置和数据协调支援方法
Kynast et al. ATLIGATOR: editing protein interactions with an atlas-based approach
Balouz et al. GCanner, a Genome-Wide GC Composition Tool for the Unbiased Assessment of Trypanosoma cruzi Genomic Compartments
Seo et al. A knowledge integration framework for information visualization
JP2008226230A (ja) 特許データベースシステム用課題/機能定義インターフェースに基づく調査方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080731

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081125