[go: up one dir, main page]

JP2005352771A - 発現プロファイルによるパターン認識システム - Google Patents

発現プロファイルによるパターン認識システム Download PDF

Info

Publication number
JP2005352771A
JP2005352771A JP2004172898A JP2004172898A JP2005352771A JP 2005352771 A JP2005352771 A JP 2005352771A JP 2004172898 A JP2004172898 A JP 2004172898A JP 2004172898 A JP2004172898 A JP 2004172898A JP 2005352771 A JP2005352771 A JP 2005352771A
Authority
JP
Japan
Prior art keywords
data
group
dimensions
scatter diagram
displaying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004172898A
Other languages
English (en)
Inventor
Atsushi Mori
敦 森
Daisuke Sakurai
大輔 桜井
Ayako Fujisaki
綾子 藤崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2004172898A priority Critical patent/JP2005352771A/ja
Priority to US11/130,149 priority patent/US20050276485A1/en
Publication of JP2005352771A publication Critical patent/JP2005352771A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 DNAマイクロアレイから得られる遺伝子発現プロファイルなどを用いて臨床診断を行う際に、多次元データを散布図上に可視化して、外れ値の認識や分類の状態の確認を行えるようにする。
【解決手段】 トレーニングセットにパターン認識アルゴリズムを適用して分離超平面を算出するステップ、2つ又は3つの次元で散布図の軸のラベルを表示するステップ、属するグループが未知であるデータをテストセットとしてパターン認識アルゴリズムに適用してその属するグループを判別するステップ、2次元又は3次元の散布図上にトレーニングセットのデータを表すプロットとテストセットのデータを表すプロットを、グループごとに表示状態を変えて表示するステップ、散布図上に分離超平面を写像して表示するステップを実行する。
【選択図】 図4

Description

本発明は、パターン認識の判別結果表示方法に関わり、特にDNAマイクロアレイなどの遺伝子発現プロファイルやプロテインチップなどのタンパク発現プロファイルの多次元データや、パターン認識アルゴリズムから得られた分離超平面、およびパターン認識アルゴリズムの判別結果を可視化する手法に関する。
ベクトルと属するグループのIDをセットとして1つのトレーニングデータとし、2つ以上のグループと各グループに属する複数のトレーニングデータをトレーニングセットとして分離超平面を決定するパターン認識アルゴリズムが古くから研究されていて、手書き文字データや人の顔などの画像パターン認識や音声を文字に変換する音声パターン認識などに適用されてきた。近年、DNAマイクロアレイなどから得られる遺伝子発現プロファイルにもパターン認識アルゴリズムを適用し、細胞形態学的に判別の難しい急性骨髄性白血病と急性リンパ性白血病などの疾患を予測することや、薬理効果の個体差の大きい抗癌剤の薬剤応答を予測したりすることなどに適用する試みが行われている。また、下記特許文献1には、マイクロアレイなどを用いた遺伝子発現プロファイルから、がんの種類などのグループを分けるのに寄与している遺伝子群を検定手法などによって特定するという方法が述べられている。
特開2003−304884号公報
従来行われてきた手書き文字データや人の顔などの画像パターン認識や音声を文字に変換する音声パターン認識においては、データの次元は相互の関連性が強いため多次元データをあえて2次元平面状に表示する意義は低く、よって、既存の一般向けデータマイニングソフトや一部の遺伝子発現統計解析ソフトでは、トレーニングセットや分離超平面および判別結果を散布図としては表示せずに、判別結果をP値などでリスト表示するだけというのが大半であり、散布図として表示するには主成分分析などを用いる必要がある。しかしながら、DNAマイクロアレイなどから得られる遺伝子発現プロファイルの場合、実験(チップ)方向でパターン認識を行う際はデータの各次元は遺伝子となり、主成分分析の場合各軸が単独の遺伝子ではなくなるため、マイニングとして新知見を得るためには適当ではない。
そこで、多因子疾患といえども関連遺伝子の数は数十までと予想されることから、ある1個から数個の特に関連の強い遺伝子に注目してトレーニングセットや分離超平面および判別結果を散布図として視覚的に認識することによって新知見を得る手助けとなることが期待できる。
上記の課題を解決するために、本発明は、ベクトルと属するグループのIDをセットとして1つのトレーニングデータとし、2つ以上のグループと各グループに属する複数のトレーニングデータをトレーニングセットとして、パターン認識アルゴリズムとしては、最適解が求まるSVM(Support Vector Machine)(C.Cortes, V.Vapnik : “Support-Vector Networks, Machine Learning” 20(3):273-297, September 1995)や、代表的なニューラルネットであるMLP(Multi-Layer Perceptron)(Rumelhart, etal : "Learning internal representations by error propagation" The M.I.T. Press, pp. 318-362, 1986)や、テストデータの最近傍k個のトレーニングデータを用いるk-NN(k-Nearest Neighbors)などによって分離超平面を決定し、多次元データを二次元平面または三次元空間上に表示するための次元を選択するにあたり、二群の場合はT検定やマン・ホイットニー検定、多群の場合はANOVA(分散分析)やクラスカル・ウォリス検定などを用いて、“グループは有意に分かれていない”という帰無仮説においてグループを分けるのに寄与している次元(実験方向の分類の場合は遺伝子)のランク付けをP値の小さい順に行い、次元を選択する際に既にランク付けされた遺伝子から散布図の軸を選択できるようにする。その際に、各グループを自動的に色分けして区別を行い、グラデーション表示と分離超平面の写像によって各グループの領域の認識を助ける。
更に、ランク付けされた遺伝子の上位から順に自動的に軸の組み合わせを選択して散布図の表示を更新していき、使用者がデータの外れ値の認識や分類の状態の確認および遺伝子の組み合わせからの新知見を得る可能性を補佐するビジュアルマイニング機能を提供する。
本発明によれば、トレーニングセットとパターン認識アルゴリズムから得られる分離超平面の可視化によって使用者がデータの外れ値の認識や分類の状態の確認を行うことを容易にして、特にDNAマイクロアレイなどから得られる遺伝子発現プロファイルやプロテインチップなどから得られるタンパク発現プロファイルを用いたパターン認識においては、検定手法などを用いてグループを分けるのに寄与している遺伝子やタンパク質をランキングしたのち、使用者が軸を選択することやランキング上位の軸を自動的に組み合わせて、特定の遺伝子やタンパク質による分類状態や外れ値の発生を確認することによって、新知見を得る可能性も補佐する。
また、判別結果を表示するリスト内において判別結果の値の強弱をトレーニングセットのグループに事前に自動的に割り当てた色で表示することにより、複数グループへの判別結果の度合いを一目で理解することができる。
以下、本発明を実施する場合の一形態を、図面を参照して具体的に説明する。
図1は、本発明の実施の一形態のシステム構成を示している。本システムは、図1に示すように、トレーニングデータやテストデータの入出力およびパターン認識等を行う中央処理装置104、キャラクタ及びグラフィック画面を有するディスプレイ装置101、キーボード102、マウス103、トレーニングデータやテストデータを格納するために用いる外部記憶装置109を備える。中央処理装置104は、パターン認識部105、散布図表示部106、トレーニングセットリスト表示部107、判別結果リスト表示部108を有している。
パターン認識部105は、トレーニングデータ110から2つ以上の分類からなる集合をトレーニングセットとして使用し、SVMやMLPやk-NNおよび決定木(Decision Tree)などの各種パターン認識アルゴリズムを用いて分類器を作成する。また、作成した分類器にテストデータを入力して、判別結果を出力する。散布図表示部106は、トレーニングセットと分類器の持つ分類を分ける境界である分離超平面とテストデータを散布図として表示する。トレーニングセットリスト表示部107は、トレーニングセットをリストとして表示し、例えばDNAマイクロアレイであればサンプルの情報や実験情報などを表示する。判別結果リスト表示部108は、テストデータを分類器に入力した結果である、各分類への近さを表す数値とその数値のトップスコアであり1つのテストデータが属すると予測された分類名を表示する。パターン認識部105、散布図表示部106、トレーニングセットリスト表示部107、判別結果リスト表示部108は、プログラムによって実現することができる。
外部記憶装置109は、トレーニングデータとテストデータのデータベースから構成されており、トレーニングデータ110は生物学的知見から分類が既知であるデータであり、テストデータ111は分類が未知のデータである。臨床診断においては実験(DNAマイククロアレイで言えばチップ)の分類を予測するのであるが、本発明は逆方向すなわち遺伝子やタンパク質の分類を予測することも可能である。
図2は、本実施例でトレーニングデータおよびテストデータとするデータを格納するテーブルの構造を示している。201は個々のデータを区別するためのデータIDを格納するエリアであり、臨床診断のように分類方向が実験の場合は実験やチップのID、機能が未知の遺伝子の機能を予測するときは遺伝子のIDとなる。202はデータが所属する分類のIDを格納するエリアであり、トレーニングデータはただ一つの分類に属するものとする。テストデータの場合は、判別を行う前は空欄であり、判別を行った後は判別された分類のIDが格納される。203は行方向に示されているデータに含まれる各数値を格納するエリアであり、遺伝子発現プロファイルの場合は2チャンネルの蛍光強度の比率のLog比などが用いられる。
図3は、検定手法によって遺伝子をランキングする模式図であり、301と303がGroup1、302と304がGroup2として、(a)のようにGene Aの発現値のみで見た場合は二つのGroupが分かれていて、(b)のようにGene Bの発現値のみで見た場合は二つのGroupはあまり分かれていないことから、(c)に示すP値のような結果となり、P値の小さい順にグループを分けるのに寄与している遺伝子となる。
図4は、二次元平面上の散布図の模式図であり、実験方向の分類の場合は図のように遺伝子やタンパク質が軸となる。図4において、401は散布図全体を指しており、軸を選択したあと各軸の最小値と最大値を求めて描画範囲を定める。トレーニングデータのプロット402は、各分類を表す色で自動的に塗りつぶされる。プロット403はパターン認識アルゴリズムの1つであるSVMを用いたときに、分類の境界面を定めるトレーニングデータであることを判別でき、特にそのデータはサポートベクターと呼ばれるのでその旨が視覚的に分かるように表示する。テストデータ404は、トレーニングデータとは異なる表示をして、判別結果が分かるように色分けして表示する。405は分離超平面を散布図に写像した線であり、k-NNなど明示的に分離超平面が定まらないアルゴリズムの場合も含めて、グラフ内の各座標を十分細かく取った各点で判別値を求めて、一般的な等高線描画アルゴリズムを用いて描けば分離超平面も求まる。
図5は軸を選択する画面の例を示す図であり、軸は、この後のフローチャートで述べるように検定手法などでランキングした要素から選択する。図では選択画面501をダイアログとして表示しているがこれは軸を設定するための一例であり、GUI的にはウィンドウ内でコントロールできるようにすることも可能である。コントロール502,503は事前にランキングされた軸をドロップダウン式などでリスト表示するコントロールである。遺伝子の場合は数万ものリストとなる可能性があり、初期表示されるのはランキング上位の十個程度でありスクロール可能なリストである。ダイアログとして設定する場合はOKボタン504で軸の変更が反映され、キャンセルボタン505で変更が破棄される。
図6は、三次元空間上の散布図の模式図であり、実験方向の分類の場合は図のように遺伝子やタンパク質が軸となる。散布図601は、3つの軸を選択したあと各軸の最小値と最大値を求めて描画範囲を定める。各データの点の表示方法は二次元平面の場合と同じである。602は分離超平面を散布図に写像した曲面であり、k-NNなど明示的に分離超平面が定まらないアルゴリズムの場合も含めて、グラフ内の各座標を十分細かく取った各点で判別値を求めて、一般的な等高線描画アルゴリズムを用いて描けば分離超平面も求まる。
図7は軸を選択する画面の例を示す図であり、各軸はこの後のフローチャートで述べるように検定手法などでランキングした要素から選択する。図では選択画面701をダイアログとして表示しているがこれは軸を設定するための一例であり、GUI的にはウィンドウ内でコントロールできるようにしてもよい。コントロール702,703,704は事前にランキングされた軸をドロップダウン式などでリスト表示するコントロールである。遺伝子の場合は数万ものリストとなる可能性があり、初期表示されるのはランキング上位の十個程度でありスクロール可能なリストである。ダイアログとして設定する場合はOKボタン705で軸の変更が反映され、キャンセルボタン706で変更が破棄される。
図8は、本発明による処理のメインフローチャートである。以下、フローチャートに従い、本実施例の詳細を説明する。フローチャートを始める前に、本発明では分類が既知であるトレーニングセットとパターン認識アルゴリズムおよびアルゴリズムのパラメータを定めるのが必須であるが、テストデータは必ずしも必須ではない。実際の操作ではトレーニングセットの遺伝子群の絞込み方法やパターン認識アルゴリズムおよびそのパラメータなどの試行錯誤を行う可能性も有り、本フローチャートだけでデータマイニングが完結しているわけではない。
最初に、ステップ801で分類器を作成する。この処理は図1のパターン認識部105で実行されるが、その詳細は後述する。802はトレーニングセットのリスト表示のステップであり、分類器の作成ステップにおいて指定したトレーニングセットを散布図の前に表示しておく。この処理はトレーニングセットリスト表示部107で実行される。803は図1の散布図表示部106で実行される軸の指定ステップであり、これも詳細は後述する。804は散布図表示部106で実行される散布図の表示ステップであり、詳細は次以降で記述する。
ステップ805において、本システムの使用者が軸の自動変更を実行する場合はステップ806に進み、実行しない場合はステップ807に進む。実行するか否かの操作はウィンドウのメニューなどのGUI操作による。ステップ806は軸の自動変更の条件を設定するステップであり、使用者がT検定やマン・ホイットニー検定およびANOVAやクラスカル・ウォリス検定などの検定方法と、P値の上位何個の要素を用いるかの設定を行うと、散布図表示部106によって、要素の個数の次元の組み合わせの数だけ散布図の表示が繰り返される。
ステップ807において、使用者が軸の変更を行う場合はステップ803に戻り、行わない場合はステップ808に進む。ステップ808において、使用者がテストセットの分類器への入力を行う場合はステップ809に進み、行わない場合はステップ810に進む。
809は判別結果の表示ステップであり、この詳細は後述する。ステップ809の実行後、ステップ810に進む。ステップ810において、使用者がデータの選択を行う場合はステップ811に進み、行わない場合はステップ812に進む。811はデータ選択処理のステップであり、これも詳細は次以降で記述する。ステップ811の実行後、ステップ812に進む。ステップ812において、使用者が終了処理を行った場合は本フローチャートを終了し、行わなかった場合はステップ805に戻る。
図9は、ステップ801における分類器の作成処理の詳細を示したフローチャートである。
ステップ901において、二群以上の空ではない集合からなる分類既知のトレーニングセットを選択して、ステップ902に進む。ステップ902においては、フィルタリングの指定を行う。DNAマイクロアレイなどから得られた遺伝子発現プロファイルで臨床診断を行う際は関連のある遺伝子群を絞り込むのが一般的である。そのアルゴリズムは散布図の軸を選ぶ際に遺伝子をランキングするのと同様のアルゴリズムであり、現段階では決定的な手法があるわけではない。指定した後、ステップ903に進む。
ステップ903において、パターン認識アルゴリズムの指定を行う。一般的なパターン認識率ではSVMが理論的にも実際の計算に応用する際も優れているが、機械学習のブラックボックスを避けるのであればk-NNや決定木を用いても構わない。アルゴリズムを指定した後、ステップ904に進む。ステップ904において、ステップ903で指定したアルゴリズムのパラメータを定める。パラメータを定めた後、ステップ905に進む。
ステップ905において、パターン認識アルゴリズムが学習アルゴリズムの場合は学習を行い、非学習アルゴリズムの場合はそのアルゴリズムとパラメータを散布図内の各座標に適用して等高線を描いて、分離超平面を算出する。ここまでが分類器の作成のフローである。
図10は、ステップ803における軸の指定処理の詳細を示したフローチャートである。
ステップ1001のランキング手法選択において、使用者がランキング手法を選択する場合はステップ1002に進む。選択しない場合はステップ1004に進み、既存のランキングのままとなる。(ランキングを行っていない場合は、初期状態の並び順となる。)
ステップ1002において、検定手法などからランキング手法を選択する。その後、ステップ1003に進む。ステップ1003において、ステップ1002で指定したランキング手法を用いて遺伝子をランキングする。その後、ステップ1004に進む。
ステップ1004において、散布図を二次元表示するか三次元表示するかの設定を行う。その後、ステップ1005に進む。ステップ1005において、軸選択ダイアログを表示する。その後、ステップ1006に進む。ステップ1006において、軸の指定を行う。ここまでが軸の指定のフローである。
図11は、ステップ804における散布図の表示処理の詳細を示したフローチャートである。
ステップ1101において、既に選択されている軸で軸のラベルを表示する。その後、ステップ1102に進み、選択されている軸でトレーニングセットを分類ごとに色分けしてプロットする。次に、ステップ1103に進み、分離超平面を選択されている2つの軸の平面(3D散布図の場合は空間)に写像して表示する。次に、ステップ1104において、分類アルゴリズムがSVMの場合はステップ1105に進み、サポートベクターを特別に分かるように表示した後、ステップ1106に進む。ステップ1104においてSVMでない場合はステップ1106に進む。
ステップ1106において、テストセットを入力している場合はステップ1107に進む。入力していない場合は本フローチャートを終了する。ステップ1107では、テストセットを散布図にプロットし、判別結果表示リストに判別結果の色で表示する。その後、本フローチャートを終了する。ここまでが散布図の表示のフローである。
図12は、ステップ809における判別結果の表示処理の詳細を示したフローチャートである。
ステップ1201において、判別結果を判別結果表示リストに判別結果の色で表示する。その後、ステップ1202に進む。ステップ1202において、散布図に判別結果を追加する。その後、本フローチャートを終了する。ここまでが判別結果の表示のフローである。
図13は、ステップ811におけるデータ選択処理の詳細を示したフローチャートである。
ステップ1301において、使用者がトレーニングセットのリストでデータを選択した場合はステップ1303に進む。選択しない場合はステップ1302に進む。ステップ1302において、使用者がテストセットのリストでデータを選択した場合はステップ1303に進み、選択しない場合はステップ1304に進む。ステップ1303では、リストで選択されたデータと対応したプロットを散布図で選択状態にし、その後、本フローチャートを終了する。
ステップ1304では、使用者が散布図でデータを選択した場合はステップ1305に進み、選択しない場合は、本フローチャートを終了する。ステップ1305では、散布図で選択されたデータと対応したデータをリストで選択状態にし、その後、本フローチャートを終了する。ここまでがデータ選択処理のフローである。
本発明のシステム構成例を示す図。 トレーニングセットおよびテストセットのテーブル構造を示す図。 次元をランキングする概念図。 二次元平面の散布図。 二次元平面の軸を選択する画面の例を示す図。 三次元空間の散布図。 三次元空間の軸を選択する画面の例を示す図。 メインフローチャート。 分類器の作成のフローチャート。 軸の指定のフローチャート。 散布図の表示のフローチャート。 判別結果の表示のフローチャート。 データ選択処理のフローチャート。
符号の説明
101…ディスプレイ装置、102…キーボード、103…マウス、104…中央処理装置、105…パターン認識プログラム、106…散布図表示プログラム、107…トレーニングセットリスト表示プログラム、108…判別結果リスト表示プログラム、109…外部記憶装置、110…トレーニングデータ、111…テストデータ。

Claims (8)

  1. 複数の次元の数値から構成されるデータを複数個保持する2つ以上のグループをトレーニングセットとしてパターン認識アルゴリズムに適用して各グループを分ける境界である分離超平面を算出する手段と、それぞれのデータを表すプロットと分離超平面の写像を2次元の散布図に表示する手段とを備える処理装置を用いる散布図表示方法であって、
    前記処理装置が、
    入力されたトレーニングセットにパターン認識アルゴリズムを適用して分離超平面を算出するステップ、
    2つの次元で散布図の2つの軸のラベルを表示するステップ、
    属するグループが未知であるデータをテストセットとして前記パターン認識アルゴリズムに適用してその属するグループを判別するステップ、
    前記2つの次元を軸とする2次元の散布図上に前記トレーニングセットのデータを表すプロットと前記テストセットのデータを表すプロットを、グループごとに表示状態を変えて表示するステップ、
    前記2次元の散布図上に前記分離超平面を写像して表示するステップ、
    を実行することを特徴とする散布図表示方法。
  2. 複数の次元の数値から構成されるデータを複数個保持する2つ以上のグループをトレーニングセットとしてパターン認識アルゴリズムに適用して各グループを分ける境界である分離超平面を算出する手段と、それぞれのデータを表すプロットと分離超平面の写像を3次元の散布図に表示する手段とを備える処理装置を用いる散布図表示方法であって、
    前記処理装置が、
    入力されたトレーニングセットにパターン認識アルゴリズムを適用して分離超平面を算出するステップ、
    3つの次元で散布図の3つの軸のラベルを表示するステップ、
    属するグループが未知であるデータをテストセットとして前記パターン認識アルゴリズムに適用してその属するグループを判別するステップ、
    前記3つの次元を軸とする3次元の散布図上に前記トレーニングセットのデータを表すプロットと前記テストセットのデータを表すプロットを、グループごとに表示状態を変えて表示するステップ、
    前記3次元の散布図上に前記分離超平面を写像して表示するステップ、
    を実行することを特徴とする散布図表示方法。
  3. 請求項1又は2に記載の散布図表示方法において、前記処理装置が、前記散布図の軸の候補となる複数個の次元をランキング付けして表示し入力を促すステップを実行することを特徴とする散布図表示方法。
  4. 請求項1又は2に記載の散布図表示方法において、前記処理装置が、
    順位付けした次元のリストから上位N個の指定を受け付けるステップ、
    前記指定されたN個の次元の組み合わせから自動的に次元を選択して順次散布図の表示を更新するステップ、
    を実行することを特徴とする散布図表示方法。
  5. 複数の次元の数値から構成されるデータを複数個保持する2つ以上のグループをトレーニングセットとしてパターン認識アルゴリズムに適用して各グループを分ける境界である分離超平面を算出するステップ、
    表示手段に2つの次元で散布図の2つの軸のラベルを表示するステップ、
    属するグループが未知であるデータをテストセットとして前記パターン認識アルゴリズムに適用してその属するグループを判別するステップ、
    前記2つの次元を軸とする2次元の散布図上に前記トレーニングセットのデータを表すプロットと前記テストセットのデータを表すプロットを、グループごとに表示状態を変えて表示するステップ、
    前記2次元の散布図上に前記分離超平面を写像して表示するステップ、
    をコンピュータに実行させるプログラム。
  6. 複数の次元の数値から構成されるデータを複数個保持する2つ以上のグループをトレーニングセットとしてパターン認識アルゴリズムに適用して各グループを分ける境界である分離超平面を算出するステップ、
    表示手段に3つの次元で散布図の3つの軸のラベルを表示するステップ、
    属するグループが未知であるデータをテストセットとして前記パターン認識アルゴリズムに適用してその属するグループを判別するステップ、
    前記3つの次元を軸とする3次元の散布図上に前記トレーニングセットのデータを表すプロットと前記テストセットのデータを表すプロットを、グループごとに表示状態を変えて表示するステップ、
    前記3次元の散布図上に前記分離超平面を写像して表示するステップ、
    をコンピュータに実行させるプログラム。
  7. 請求項5又は6に記載のプログラムにおいて、前記表示手段に前記散布図の軸の候補となる複数個の次元をランキング付けして表示し入力を促すステップをコンピュータに実行させるプログラム。
  8. 請求項5又は6に記載のプログラムにおいて、
    順位付けした次元のリストから上位N個の指定を受け付けるステップ、
    前記指定されたN個の次元の組み合わせから自動的に次元を選択して順次散布図の表示を更新するステップ、
    をコンピュータに実行させるプログラム。
JP2004172898A 2004-06-10 2004-06-10 発現プロファイルによるパターン認識システム Pending JP2005352771A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004172898A JP2005352771A (ja) 2004-06-10 2004-06-10 発現プロファイルによるパターン認識システム
US11/130,149 US20050276485A1 (en) 2004-06-10 2005-05-17 Pattern recognition system utilizing an expression profile

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004172898A JP2005352771A (ja) 2004-06-10 2004-06-10 発現プロファイルによるパターン認識システム

Publications (1)

Publication Number Publication Date
JP2005352771A true JP2005352771A (ja) 2005-12-22

Family

ID=35460587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004172898A Pending JP2005352771A (ja) 2004-06-10 2004-06-10 発現プロファイルによるパターン認識システム

Country Status (2)

Country Link
US (1) US20050276485A1 (ja)
JP (1) JP2005352771A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010512777A (ja) * 2006-12-19 2010-04-30 ガルデルマ・リサーチ・アンド・デヴェロップメント 差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法
CN109937358A (zh) * 2016-12-14 2019-06-25 佛罗乔有限责任公司 应用计算机技术管理、合成、可视化和探索大型多参数数据集的参数
US11573182B2 (en) 2017-05-25 2023-02-07 FlowJo, LLC Visualization, comparative analysis, and automated difference detection for large multi-parameter data sets

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9810040D0 (en) 1998-05-11 1998-07-08 Univ Nottingham Blood borne tumour markers
GB9827228D0 (en) * 1998-12-10 1999-02-03 Univ Nottingham Cancer detection method and reagents
US20030232399A1 (en) * 2000-06-14 2003-12-18 Robertson John Forsyth Russell Cancer detection methods and reagents
US7190823B2 (en) * 2002-03-17 2007-03-13 United Microelectronics Corp. Overlay vernier pattern for measuring multi-layer overlay alignment accuracy and method for measuring the same
GB2424273B (en) * 2002-11-14 2007-06-27 Univ Nottingham Method for preparing tumour marker protein
GB2426581A (en) * 2005-05-27 2006-11-29 Univ Nottingham Immunoassay methods
BRPI0610267B8 (pt) 2005-05-27 2021-07-27 Oncimmune Ltd métodos de detecção de um estado doentio ou de uma suscetibilidade à doença em um indivíduo mamífero, e, uso do método
US8574848B2 (en) * 2006-09-13 2013-11-05 Oncimmune Ltd. Immunoassay methods
US7860862B2 (en) * 2006-10-27 2010-12-28 Yahoo! Inc. Recommendation diversity
GB0725239D0 (en) * 2007-12-24 2008-02-06 Oncimmune Ltd Calibrator for autoantibody assay
US9886669B2 (en) * 2014-02-26 2018-02-06 Microsoft Technology Licensing, Llc Interactive visualization of machine-learning performance

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7318051B2 (en) * 2001-05-18 2008-01-08 Health Discovery Corporation Methods for feature selection in a learning machine
US6804391B1 (en) * 2000-11-22 2004-10-12 Microsoft Corporation Pattern detection methods and systems, and face detection methods and systems

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010512777A (ja) * 2006-12-19 2010-04-30 ガルデルマ・リサーチ・アンド・デヴェロップメント 差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法
CN109937358A (zh) * 2016-12-14 2019-06-25 佛罗乔有限责任公司 应用计算机技术管理、合成、可视化和探索大型多参数数据集的参数
JP2020513630A (ja) * 2016-12-14 2020-05-14 フロージョー エルエルシーFlowJo, LLC 大きいマルチパラメータ・データセットにおけるパラメータの管理、合成、可視化、及び探索のための応用コンピュータ技術
JP7336384B2 (ja) 2016-12-14 2023-08-31 フロージョー エルエルシー 大きいマルチパラメータ・データセットにおけるパラメータの管理、合成、可視化、及び探索のための応用コンピュータ技術
CN109937358B (zh) * 2016-12-14 2024-03-12 佛罗乔有限责任公司 应用计算机技术管理、合成、可视化和探索大型多参数数据集的参数
US12300357B2 (en) 2016-12-14 2025-05-13 FlowJo, LLC Applied computer technology for management, synthesis, visualization, and exploration of parameters in large multi-parameter data sets
US11573182B2 (en) 2017-05-25 2023-02-07 FlowJo, LLC Visualization, comparative analysis, and automated difference detection for large multi-parameter data sets

Also Published As

Publication number Publication date
US20050276485A1 (en) 2005-12-15

Similar Documents

Publication Publication Date Title
JP7261846B2 (ja) 類似するプロファイルを持つ患者を共に分類する分類モデルの性能を改善するための適合性フィードバック
JP2005352771A (ja) 発現プロファイルによるパターン認識システム
JP5464503B2 (ja) 医療分析システム
US6868342B2 (en) Method and display for multivariate classification
JP2022548160A (ja) 機械学習アルゴリズムを使用したトレーニングデータセットの準備
JP2022528273A (ja) 機械学習基盤のユーザーカスタマイズ型の特許文献自動分類方法、装置及びシステム
JP7336384B2 (ja) 大きいマルチパラメータ・データセットにおけるパラメータの管理、合成、可視化、及び探索のための応用コンピュータ技術
US11954859B2 (en) Methods of assessing diseases using image classifiers
Choi et al. DXplorer: a unified visualization framework for interactive dendritic spine analysis using 3D morphological features
Amin et al. Multimodal non-small cell lung cancer classification using convolutional neural networks
Nayak et al. Deep learning approaches for high dimension cancer microarray data feature prediction: A review
Dougherty et al. Genomic signal processing: diagnosis and therapy
Avramidou et al. Chemometrical and molecular methods in olive oil analysis: A review
US20040024532A1 (en) Method of identifying trends, correlations, and similarities among diverse biological data sets and systems for facilitating identification
JP2006163894A (ja) クラスタリングシステム
CN102349075B (zh) 发现曲线分析系统及其程序
Azzawi et al. SBC: a new strategy for multiclass lung cancer classification based on tumour structural information and microarray data
CN102640099A (zh) 对象处理装置和对象选择方法
JP2007011996A (ja) 発現情報の解析方法及びそのシステム
WO2006036008A1 (en) Method of displaying molecule function network
US12249134B2 (en) Visualization method, program for the same, visualization device, and discrimination device having the same
JP2001340079A (ja) 遺伝子実験データ表示方法
EP1709565B1 (en) Computer software to assist in identifying snps with microarrays
JP3636682B2 (ja) データ分析装置およびその方法
Dhaka et al. Applications of machine learning in cancer diagnosis and prognosis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100309