明 細 書
個体識別方法および装置
技術分野
[0001] 本発明は、 DNA (デォキシリボ核酸)に対して電気泳動法を用いた個体識別方法 に関し、特に、低い読み取り性能しか有しない電気泳動解析装置を用いて精度よく 個体識別を行う方法および装置に関する。
背景技術
[0002] 犯罪搜查などを目的として、 DNAを用いた個体識別、すなわち 、わゆる DNA鑑 定を行う場合には、ゲノムのうち個体ごと異なっている DNA領域に対して解析を行つ ている。 DNAを解析する方法の 1つとして電気泳動法があり、広く用いられている。 電気泳動法は、電場を印加した場合に、 DNAの性質の違いによってその流動速度 が異なることを利用するものである。
[0003] ヒトの DNAを用いた個体識別としては、マイクロサテライトと呼ばれる、 4〜5塩基程 度の配列が繰り返し起こる領域を解析することによって行う方法が、 FBI (米国連邦搜 查局)や日本の警察機関等で使用されて 、る。マイクロサテライト領域の繰り返し回 数を計測する一つの方法として、 DNAの塩基長を電気泳動法で計測する方法があ る。個体識別のために DNAの電気泳動計測を行う場合、その機材として、 DNA解 読プロジェクト(あるいはゲノム解読プロジェクト)でも多く使われてきた DNAシークェ ンサを利用することが多い。
[0004] DNAシークェンサでは、長さ 40cm程度のキヤビラリ一(毛細管)にゲルを充填した ものを電気泳動のための媒体をして用いる。このキヤビラリ一の一端から、 DNAのマ イク口サテライトとそれに隣接する領域のみを PCR (ポリメラーゼ連鎖反応: Polymer ase Chain Reaction)で増幅させた DNA断片を含んだ溶液試料を導入し、電界 に起因する力によって生じる電気泳動によって、キヤビラリ一のもう一方の端部に向 けてこの DNA断片を移動させる。 PCRで増幅させたこの DNA断片のことをアンプリ コンと呼ぶ。このとき、アンプリコンのサイズすなわち DNAの塩基数によって移動速 度が異なるから、アンプリコンごとにキヤビラリ一のもう一方の端部に到達するまでの
時間に差が出てくる。ここで、キヤビラリ一のもう一方の端部にどのようなタイミングで アンプリコンが到達したかを計測することによって、そのアンプリコンに係る DNAのサ ィズを推定でき、ひ 、てはマイクロサテライト領域での繰り返し回数を計測できる。
[0005] この方法は、ヒトのみならず、個体によって異なる DNA領域を有する生物種に対し て適用できる。 DNAを用いたヒトの個体識別の方式として FBIが提唱して!/、る DNA 鑑定システムである複合 DNAインデックスシステム(CODIS ; Combined DNA I ndex System)などでは、上述したマイクロサテライトを解析する方法を用いている が、ここで使用されて 、る遺伝子座(ローカス; locus)でのマイクロサテライトの繰り返 しの塩基数は、 4塩基もしくは 5塩基単位である。
[0006] マイクロサテライトの解析以外に、 DNAを制限酵素で断片化し、長さの異なる断片 を解析することによって個体識別する方法もある。制限酵素とは、 DNAでの特異な 配列を認識して切断する酵素のことである。この方法でも、解析に電気泳動法を用い ることがでさる。
[0007] ところで、 PCR増幅によって得られるアンプリコンは、ターゲットとするマイクロサテラ イトの繰り返し配列部分と、 PCRのプライマとハイプリタイズするまでの部分とから構 成されている。したがって、マイクロサテライトにおける各繰り返しごとの塩基数力 で あるとして、あるアンプリコンのマイクロサテライトでの繰り返し回数力 であったとき、 マイクロサテライト部分は 4 X 4= 16塩基であり、 PCRのプライマとハイブリタイズする までの塩基数が例えば 10塩基であったとすると、アンプリコンの塩基長は、 10+ 16 = 26塩基となる。同様に、マイクロサテライトの繰り返し回数が 5であるとすると、 30塩 基となる。以下、マイクロサテライトの繰り返し回数を STR (短タンデム繰り返し: Short
Tandem Repeat)回数と表現することにする。例えば、計測したアンプリコンのサ ィズが 30塩基であれば、 STR回数が 5であると判定できる。 STR回数は、アンプリコ ンの塩基長に対応して 、るから、アンプリコンにつ!/、ての塩基長情報であると!/、える。
[0008] 上記の例では、アンプリコンの長さは、 30塩基、 34塩基など、 STR回数が 1つ増え ると、 4塩基 (もしくは 5塩基)単位で増える。ところが、ヒトの DNA鑑定で使われる遺 伝子領域には、繰り返し力 塩基 (もしくは 5塩基)刻みでないものがある。例えば、あ る場合では、通常の STRにカ卩えて 2塩基余計に付けカ卩わったタイプがある。 STRの 5
回の繰り返しに 2塩基余計に付け加わったタイプの場合は、 "5. 2"といった表記がな される。 STR回数が 5の時、アンプリコンが 30塩基だったとすると、 "5. 2"では、 32塩 基となる。 XX. 2以外に、 XX. 1、 XX. 3などが存在する。このように繰り返しに対して端 数となる塩基は、すべての STR回数に対して存在するのではなぐ種類が限られて V、る、すなわち特定の STR回数に対して起こることが知られて 、る。
[0009] 例えば、 FGAと呼ばれるローカスには、以下の様なバラエティ(多様性)が存在する 。表 1は、ローカスのバラエティの出現確率を示した例を示したものであって、アメリカ 合衆国におけるアフリカ系のヒト 200名程度に対して FGAの多様性を調べたデータ を示している。ここでは、 FGAの種類は 18種類であり、すなわち FGAには 18通りの STR回数が存在し、そのうち 4種類のみ力xx. 2のタイプのものである。表 1に示すデ ータにおいて、合計が 200よりも大きいのは、以下に述べるように STR回数において 父親由来か母親由来の 2種類があるためであり、 400よりも少ないのは、解析できな 力つたものがあるからである。また、出現確率の総和が 1. 0を上回るのは、 STR回数 の出現頻度が 5以下の場合は、出現確率として一律に 0. 014としている力もである。 表 1に すァ ~~タは、 Bruce Budowle, Genotype Profiles for Six Popu lation Groups at the 13 CuDIS Short Tandem Repeat Core Loci and Other PCRBBased Loci , Forensic Science, Volume 1, Num ber 2, (July 1999) (非特許文献 1)において、" dnaloci. txt"として公表されて いる生データに基づくものである。
[0010] [表 1]
表 1 口一カスのバラエティの出現頻度の例
[0011] ヒトのゲノムは 2セットあるので、各ローカスに関して父親由来の STR回数と母親由 来の STR回数が存在することとなり、これは、個人を特定する情報となる。例えば、あ るローカスでの STR回数の種類が 10種類であるとすると、全ての組み合わせは、 10 0種類( = 10 X 10)存在することになる。このうち 10種類のものは、父親由来のロー カスにおける STR回数と母親由来のローカスにおける STR回数が一致している。し たがって、そのようなヒトに対して DNA解析を行い、 STR回数を求めたとしても、 1通 りの STR回数しか得られないことになる。このような場合をホモ接合と呼ぶ。
[0012] ホモ接合を除いた残りの 90通りでは、父親由来の STR回数と母親由来の STR回 数とが異なり、このようなヒトに対して DNA解析を行えば、精度が十分であれば、 2通 りの STR回数が得られることになる。このような場合をへテロ接合と呼ぶ。もっとも、 D NAを解析した場合に、どちらの STR回数が父親由来であって、どちらの STR回数 が母親由来であるかの区別がつかないので、実際には、ヘテロ接合は、 90種類の半
分である 45種類となる。
[0013] すなわち、各ゲノムの各セットごとにローカスの STR回数の種類が 10種類あるとき、 DNA解析で存在し得る結果は、ホモ接合の 10種類とヘテロ接合の 45種類とをあわ せた全部で 55種類であり、これは個人を特定する情報となる。マイクロサテライトを用 いた DNAの解析と照会では、この 55種類のうちどのタイプかを解析し、その解析結 果と完全一致するエントリをデータベース中力 検索することになる。
[0014] DNAを用いた個体識別の現場では、認識精度の向上のために、複数のローカス について解析を行い、データベース検索を行っている。ヒトにおいて STR回数は各口 一カスごとに独立に決まっているので、複数のローカスの解析をすることによって、認 識精度を高めることができる。 FBIなどで行われている DNA解析では、 13個のロー カスを用いている。このような DNA解析の詳細については、例えば、 "Forensic D NA Typing, Second Edition : Biology, Ί echnology, and genetics of STR Markers", John M. Butler. (2005) . pp. 85— 117, 345 - 370, and 373— 386 ( 特許文献 2)【こ詳しく述べられて!/ヽる。
[0015] なお、特開 2002— 253203号公報 (特許文献 1)は、個人を特定する DNAの塩基 配列情報をデジタル化して、バーコードあるいは IC (integrated circuit)カードな どに固定することを開示している。特開 2003— 245098号公報 (特許文献 2)は、 PC R産物を電気泳動で検出し、塩基長配列のサイズ情報を得ることを開示している。特 開 2004— 073188号公報(特許文献 3)は、同定されるべき物体中へマーカーを組 み込む方法であって、 DNA断片をマーカーとして用いる方法を開示している。特開 2005— 013226号公報(特許文献 4)は、ダイズを DNAより同定する方法であって、 PCRの結果を電気泳動等を用いて同定するとともに、ダイズの既知遺伝子配列の検 索を行う際に、データベースにアクセスしてサテライト DNAの検索を行うことを開示し ている。特開 2005— 160302号公報 (特許文献 5)は、マイクロサテライト遺伝多型マ 一力を用いる遺伝子のマッピング方法を開示して 、る。特開 2005 - 237334号公報 (特許文献 6)は、テロメァ反復配列とこれに相補的な標識プローブとをハイブリダィズ させ、その DNA—分子の動きの速度を検出することにより、迅速かつ高感度に DNA 反復配列を測定する方法を開示している。特開 2005— 307216号公報 (特許文献 7
)は、本人認証に利用することのできる合成 DNAインクを開示している。特開平 11— 118760 (特許文献 8)は、 DNA断片の電気泳動パターンの解析法であって、デー タベース化に適した解析法を開示して 、る。
[0016] WO97Zl5690 (特許文献 9)は、 DNA配列の定量、同定または判定に関する発 明を開示している。 WO98/35060 (特許文献 10)は、多型核酸フラグメントを分析 または型分類するためのポリメラーゼを開示している。 WO0lZl4590 (特許文献 1 1)は、既知量の、シリカ磁性粒子のような、 DNA標的物質を可逆的に結合するため の定義できる能力を有するシリカ含有固形支持体と、その粒子の結合能力より多い D NA標的物質とを使用して、媒体中の他の物質から、定義された量の DNA標的物質 を単離する方法を開示している。 WO02Z08469 (特許文献 12)は、対立遺伝子コ ール(allele call)を行うためのコンピュータにより実行される方法を開示している。 W O02Z66650 (特許文献 13)は、ストレプトコッカス(streptococcus)抗原のフラグメ ントの解析について開示している。 WO03Z06692 (特許文献 14)は、電気泳動分 祈のための内部較正標準に関する発明を開示している。 WO02Z86794 (特許文 献 15)は、質量分析に基づいて DNAを解析する方法を開示している。
[0017] 以下、本明細書中で引用した文献を列挙する。
特許文献 1 特開 2003- — 253203号公報
特許文献 2 特開 2003- — 245098号公報
特許文献 3 特開 2004- — 073188号公報
特許文献 4特開 2005- — 013226号公報
特許文献 5 特開 2005- — 160302号公報
特許文献 6 特開 2005- — 237334号公報
特許文献 7 特開 2005- — 307216号公報
特許文献 8 特開平 11 - - 118760号公報
特許文献 9 WO97Z15690 (特表 2000
特許文献 10: WO98Z35060 (特表 2001— 511018)
特許文献 ll :WO0lZl4590 (特表 2003— 507049)
特許文献 12 :WO02Z〇8469 (特表 2004— 516455)
特許文献 13 :WO02Z66650 (特表 2004— 531235)
特許文献 14:WO03Z〇6692 (特表 2004— 535198)
特許文献 15: WO02Z86794 (特表 2005 - 509844)
非特干文献 1: Bruce Budowle, 'Genotype Profiles lor Six Population
Groups at the 13 CODIS Short Tandem Repeat Core Loci and Other PCRBBased Loci , Forensic Science, Volume 1, Number 2, (July 1999) . (インターネット上でも、次の URLから入手可能く URL:http : / / www. foi. gov/ hq/ lab/ f sc/ backissu/ july 1999/ budowle . htm> 非特許文献 2 : "Forensic DNA Typing, Second Edition : Biology, Te chnology, and Genetics of STR Markers", John M. Butler. (200 5) . pp. 85- 117, 345- 370, and 373— 386
発明の開示
発明が解決しょうとする課題
[0018] 個体識別のための上述した従来の DNA解析では、大型の電気泳動装置を使用す る必要があり、そのため、電気泳動に要する時間が長くなつて解析時間が長くなる、 という問題点がある。この原因は、 DNAの解析と DNAデータベースとの照合におい て、アンプリコンの長さの計測を lbp (塩基対)の精度で行っている力 である。このよ うに lbpと 、つた高 、精度で解析して!/、るのは、例えばヒトの DNAを用いた個体識別 の方式として FBIが提唱している CODISなどでは、そこで使用されているローカスの アンプリコンの DNAサイズの最小の変化幅が 2bp程度であるので、 lbp程度の精度 で塩基長を認識しな 、と、データベースとの照合ができなくなるからである。
[0019] アンプリコンの長さの計測精度を確保するためには、電気泳動装置において現在 使用されているキヤビラリ一よりも短いキヤピラリーを用いたり、電気泳動の路長をより 短くしたりすることができない。そのため、電気泳動装置などの構成を簡素化したり、 あるいは短時間で電気泳動の解析を行うことができな!/、。
[0020] 本発明の目的は、読み取り精度の低い電気泳動装置を用いても必要な精度を確 保でき、かつ、短時間での解析を可能とする個体識別方法を提供することにある。
[0021] 本発明の別の目的は、読み取り精度の低い電気泳動装置を用いても必要な精度を
確保でき、かつ、短時間での解析を可能とする個体識別装置を提供することにある。 課題を解決するための手段
[0022] 個体識別のための DNA解析の運用を考えると、あら力じめデータベースを構築し た上で、新たに入手した検体の DNAを解析し、その解析結果がデータベースに格 納されたものと一致するかどうかを照合することになる。ここで、短時間での処理、ある いは簡素化された装置での処理が要求されるのは、新たに入手した検体の DNAの 解析であり、データベースにあらかじめ格納しておくデータのための DNA解析には、 簡素化された装置での処理や短時間での処理に対する要求はあまりな 、。そこで本 発明では、新たに入手した検体の DNA解析を、今までは個体識別のための DNA 解析には使用できな力つたような精度の低 、電気泳動装置を用いて行えるようにす る。以下、新たに入手した検体のことを新サンプルと呼ぶ。
[0023] なお、データベース登録のための試料 (サンプル)は、その出所、すなわち誰の、あ るいはいつどこで採取されたもの力 が明確なものであり、出所を特定するための識 別子が付与されている。そこで、以下の説明において、データベース登録のための 試料 (サンプル)を識別子付きサンプルと呼ぶことにする。識別子付きサンプルをデ ータベース (すなわち識別子付きサンプル解析データ蓄積部)に蓄積するときの DN A解析には、従来用いられて!/ヽような相対的に精度の高 ヽ電気泳動装置を用いても ょ 、し、従来は使用できな力つたような相対的に精度の低 、電気泳動装置を用いて よい。後述するように、本発明では、識別子付きサンプルの解析及び新サンプルの解 祈の両方に低精度の電気泳動装置と用 、たとしても、データベースでの照合を精度 よく行えるようにしている。
[0024] 本発明の目的は、 DNAサンプルを電気泳動によって解析することによって個体を 識別する個体識別方法であって、個体に対する識別子が付与された識別子付き DN Aサンプルを解析する第 1の解析段階と、識別子付き DNAサンプルを解析して得ら れた結果を対応する識別子とともに識別子付きサンプル解析データ蓄積部に蓄積す る段階と、個体識別対象となる DNAサンプルである新サンプルを、識別子付き DM Aサンプルを解析したときの精度よりも低 、精度で解析し、結果を新サンプル解析結 果とする第 2の解析段階と、新サンプル解析結果に基づいて、識別子付きサンプル
解析データ蓄積部を検索する段階と、を有する固体識別方法によって達成される。
[0025] この個体識別方法にぉ ヽては、例えば、識別子付き DNAサンプル及び新サンプ ルを解析する際に、電気泳動法によってそのサンプルの塩基長に関する情報が求め られ、特に、そのサンプルにおけるマイクロサテライトの繰り返し回数に関する情報が 取得される。
[0026] この個体識別方法において、典型的には、第 1の解析段階における解析精度は、 新サンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの DNAを 識別できる精度であり、第 2の解析段階における解析精度は、最小の変化量だけ塩 基長が異なる 2つの DNAを識別できない精度である。
[0027] また第 2の解析段階は、例えば、それぞれ 1種のアンプリコンを含んだサンプルの 集合から複数のサンプルを任意の組み合わせで選択し、選択されたサンプルを混合 して多種アンプリコン'サンプルを生成する段階と、多種アンプリコン'サンプルを電気 泳動によって解析する第 3の解析段階と、第 3の解析段階で得られた結果と、当該多 種アンプリコン.サンプルにおける塩基長情報とを組にして多種アンプリコン.データ 蓄積部に蓄積する段階と、電気泳動によって新サンプルを解析し、新サンプル電気 泳動結果データを得る第 4の解析段階と、新サンプル電気泳動結果データに基づ!/、 て多種アンプリコン 'データ蓄積部を検索し、結果を新サンプル解析結果とする検索 段階と、を有する。
[0028] あるいは本発明の目的は、 DNAサンプルを電気泳動によって解析することによつ て個体を識別する個体識別方法であって、個体に対する識別子が付与された識別 子付き DNAサンプルを解析して識別子付き DNAサンプルの塩基長に関する情報 を得る第 1の解析段階と、識別子付き DNAサンプルを解析して得られた結果を対応 する識別子とともに識別子付きサンプル解析データ蓄積部に蓄積する段階と、個体 識別対象となる DNAサンプルである新サンプルを解析し、新サンプルの塩基長に関 する情報を含む結果を新サンプル解析結果とする第 2の解析段階と、新サンプル解 析結果に基づいて、識別子付きサンプル解析データ蓄積部を検索する段階と、を有 し、第 1の解析段階および第 2の解析段階における解析の精度は、個体識別対象と なる DNAサンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの
DNAを識別できない精度である固体識別方法によっても達成される。
[0029] 本発明の第 2の目的は、 DNAサンプルを電気泳動によって解析することによって 個体を識別する個体識別装置であって、個体に対する識別子が付与された識別子 付き DNAサンプルを解析する第 1の解析手段と、第 1の解析手段で識別子付き DN Aサンプルを解析して得られた結果を対応する識別子とともに蓄積する識別子付き サンプル解析データ蓄積部と、第 1の解析手段より低い解析精度を有し、個体識別 対象となる DNAサンプルである新サンプルを解析して結果を新サンプル解析結果と する第 2の解析手段と、新サンプル解析結果に基づいて、識別子付きサンプル解析 データ蓄積部を検索し、個体識別結果を得る識別手段と、を有する個体識別装置に よって達成される。
[0030] あるいは本発明の第 2の目的は、 DNAサンプルを電気泳動によって解析すること によって個体を識別する個体識別装置であって、個体に対する識別子が付与された 識別子付き DNAサンプルを解析して識別子付き DNAサンプルの塩基長に関する 情報を得る第 1の解析手段と、識別子付き DNAサンプルを解析して得られた結果を 対応する識別子とともに蓄積する識別子付きサンプル解析データ蓄積部と、個体識 別対象となる DNAサンプルである新サンプルを解析し、新サンプルの塩基長に関す る情報を含む結果を新サンプル解析結果とする第 2の解析手段と、新サンプル解析 結果に基づいて、識別子付きサンプル解析データ蓄積部を検索する識別手段と、を 有し、第 1の解析手段および第 2の解析手段における解析の精度は、個体識別対象 となる DNAサンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つ の DNAを識別できない精度である個体識別装置によっても達成される。
[0031] 上述した本発明の個体識別方法及び装置は、 DNAサンプルを解析することによつ て個体識別を行うものであるが、さらに、指紋情報、掌紋情報、虹彩情報、顔情報な どの他のノ ィオメトリック情報と組み合わせることによって、個体識別の精度をさらに 向上させることができる。
[0032] 本発明によれば、特に、個体識別の対象となるサンプルすなわち新サンプルの電 気泳動による解析の際に、現在使用されているキヤビラリ一よりも短いキヤピラリーや 、短い電気泳動の路長を用いることができるから、解析に必要な時間が短縮され、そ
の結果、 DNAを用いた個体識別を短時間で行うことが可能となる。
[0033] また、このように短いキヤピラリーや短い電気泳動の路長を用いるため、以下のよう な有利な点を享受することができる:
(1)従来の個体識別装置に比べてサイズを小さくして装置構成を簡略ィ匕することが でき、その結果、屋内屋外を問わず必要な場所で DNAを用いた個体識別が可能と なる;
(2)装置の全体を覆ったりして外部力もの雑物の混入を防ぐことが容易になるととも に、装置構成が簡易であるので、温度や湿度などの電気泳動に影響を与える外部要 因を制御するのが容易になり、その結果、外部からの雑物の混入や解析装置の環境 の不安定性に起因する誤解析を防ぐことが可能となる;
(3)装置全体を覆うことなどよつて、温度や湿度などの装置に影響を与える外部要 因を制御するのが容易になり、保守性の向上ゃ耐故障性の向上が可能となる。
[0034] 上述したように、本発明によれば、短時間での DNAを用いた個体識別が可能とな り、屋内屋外を問わず必要な場所で DNAを用いた個体識別が可能となり、誤解析を 防ぐことが可能となる。これにより、他のバイオメトリック情報によって個体識別を行う 機器との組み合わせが容易に行えるようになり、他のノ ィオメトリック情報を用いた個 体認識との組み合わせよって認識精度の向上を図ることができる。
図面の簡単な説明
[0035] [図 1]本発明の第 1の実施形態の個体識別装置の構成を示す図である。
[図 2]図 1に示す個体識別装置における低精度電気泳動解析部の構成を示す図で ある。
[図 3]2種類のアンプリコンを含んだ DNAサンプルを混合したものを解析したシミュレ ーシヨン結果を示すグラフである。
[図 4]本発明の第 2の実施形態の個体識別装置における低精度電気泳動解析部の 構成を示す図である。
[図 5]本発明の第 3の実施形態の個体識別装置における低精度電気泳動解析部の 構成を示す図である。
[図 6]本発明の第 4の実施形態の個体識別装置における低精度電気泳動解析部の
構成を示す図である。
圆 7]本発明の第 5の実施形態の個体識別装置の構成を示す図である。 圆 8]本発明の第 6の実施形態の個体識別装置の構成を示す図である。 圆 9]本発明の第 7の実施形態の個体識別装置の構成を示す図である。 圆 10]本発明の第 8の実施形態の個体識別装置の構成を示す図である。 符号の説明
101 1種アンプリコン.サンプル保管部
102 選択サンプル
103 多種アンプリコン'サンプル
104 電気泳動解析部
105 多種アンプリコン電気泳動結果データ
106 多種アンプリコン.データ蓄積部
107 新サンプル
108 新サンプル電気泳動解析部
109 新サンプル電気泳動結果データ
110 新サンプル結果データ解析部
111 新サンプル解析結果
201 補間データ作成部
202 補間データ蓄積部
301 パラメータ推定機能付き新サンプル結果データ解析部
401 1種アンプリコン電気泳動結果データ
402 1種アンプリコン.データ蓄積部
403 補間多種アンプリコン 'データ作成部
404 補間多種アンプリコン 'データ蓄積部
501 識別子付きサンプル
502 高精度電気泳動解析装置
503 サンプル解析結果
504 識別子付きサンプル解析データ蓄積部
505 低精度電気泳動解析部
506 個体識別部
507 個体識別結果
601 低精度識別子付きサンプル解析結果
602 低精度識別子付きサンプル解析デー:
603 低精度個体識別部
604 低精度個体識別結果
701 高精度個体識別部
702 高精度個体識別結果
901 新サンプル取得対象
902 DNAサンプル
903 DNA解析に基づく個体識別部
904 識別子付き DNA解析データ蓄積部
905 DNA解析に基づく個体識別結果
906 指紋サンプル
907 指紋解析に基づく個体識別部
908 識別子付き指紋解析データ蓄積部
909 指紋解析に基づく個体識別結果
910 複数情報による個体識別部
911 複数情報による個体識別結果
1001 (5, 5)混合サンプル
1002 (5, 5. 2)混合サンプル
1003 (5, 6)混合サンプル
1004 (5, 6. 2)混合サンプル
1005 (5, 7)混合サンプル
1006 (5, 7. 2)混合サンプル
1007 (5, 8)混合サンプル
発明を実施するための最良の形態
[0037] 《第 1の実施形態》
図 1は、本発明の第 1の実施形態の個体識別装置の構成を示している。この個体 識別装置は、識別子付きサンプル 501を電気泳動により解析する高精度電気泳動 解析装置 502と、高精度電気泳動解析装置 502から出力されるサンプル解析結果 5 03を蓄積する識別子付きサンプル解析データ蓄積部 504と、新サンプル 107を電気 泳動により解析する低精度電気泳動解析部 505と、低精度電気泳動解析部 505か ら出力される新サンプル解析結果 111に基づ ヽて識別子付きサンプル解析データ 蓄積部 504内のデータを検索して新サンプル 107の個体識別を行い、個体識別結 果 507を出力する個体識別部 506と、を備えている。新サンプル 107は、個体識別を 行おうとする DNAのサンプルであり、第 1の実施形態の個体識別装置は、新サンプ ル 107での DNAの STR回数を計測し、その計測結果に応じてデータベースすなわ ち識別子付きサンプル解析データ蓄積部 504を検索して個体識別を行うものである
[0038] 識別子付きサンプル 501は、個体の識別子がつ!、たサンプルの集合であり、高精 度電気泳動解析装置 502は、このような識別子付きサンプル 501の各サンプルを、 従来使用されているような充分な読み取り精度で解析する装置である。サンプル解 析結果 503は、識別子付きサンプル 501を高精度電気泳動解析装置 502を用いて 解析した結果であり、識別子付きサンプル 501に含まれて 、る DNA中の複数の ST R回数のセットを示すデータ力 なって 、る。識別子付きサンプル解析データ蓄積部 504は、識別子付きサンプル 501の個体ごとに、従来使用されているような充分な読 み取り精度で解析されたサンプル解析結果 503である複数の STR回数のセットと識 別子付きサンプル 501の個体の識別子とを組にして蓄積する。
[0039] 新サンプル 107を解析する低精度電気泳動解析部 505の構成の詳細については 後述するが、低精度電気泳動解析部 505自体も、電気泳動解析装置を備えて構成 されており、第 1の実施形態では、この低精度電気泳動解析部 505は、高精度電気 泳動解析装置 502に比べて、読み取り精度が、同程度カゝ低いことを想定している。新 サンプル解析結果 111は、新サンプル 107の解析結果であり、複数の STR回数のセ ットを示すデータ力もなつている。個体識別部 506では、新サンプル解析結果 111の
複数の STR回数のセットと識別子付きサンプル解析データ蓄積部 504の各エントリ の STR回数のセットとに重なりがある識別子を識別子付きサンプル解析データ蓄積 部 504内で検索し、個体識別結果 507とする。個体識別結果 507には、個体識別子 力 つ含まれている場合または複数含まれている場合があり、さら〖こ、個体識別子が 全く含まれない場合もある。
[0040] 次に、低精度電気泳動解析部 505の構成について、図 2を用いて説明する。
[0041] 第 1の実施形態では、低精度電気泳動解析部 505は、 1種アンプリコン 'サンプル 保管部 101と、 1種アンプリコン ·サンプル保管部 101から選択された DNAサンプル すなわち選択サンプル 102を混合して得られる多種アンプリコン'サンプル 103を電 気泳動によって解析する電気泳動解析部 104と、電気泳動解析部 104から出力され る多種アンプリコン電気泳動結果データ 105を蓄積する多種アンプリコン 'データ蓄 積部 106と、新サンプル 107を電気泳動によって解析する新サンプル電気泳動解析 部 108と、新サンプル電気泳動解析部 108が出力する新サンプル電気泳動結果デ ータ 109に基づいて多種アンプリコン 'データ蓄積部 106内を検索し、検索結果を新 サンプル解析結果 111として出力する新サンプル結果データ解析部 110と、を備え ている。
[0042] ここで、 1種アンプリコン'サンプル保管部 101は、それぞれが 1種類ずつのアンプリ コンを含んだ DNAのサンプルである 1種アンプリコン'サンプルを複数個保管するも のであり、アンプリコン*サンプルごとにそれらのサンプルにおける STR回数も保持し ている。選択サンプル 102は、 1種アンプリコン 'サンプル保管部 101の中力も複数の サンプルを任意の組み合わせで選択したもの (集合)である。このように選択された複 数種類の選択サンプル 102を混合することによって、多種アンプリコン'サンプル 103 が得られる。したがって、多種アンプリコン 'サンプル 103は、単一のサンプル中に複 数種類の、すなわち STR回数が異なる複数のアンプリコンが含まれていることになる
[0043] 低精度電気泳動解析部 505では、電気泳動解析部 104によって、多種アンプリコ ン 'サンプル 103が解析され、その結果として多種アンプリコン電気泳動結果データ 1 05が得られることになる。多種アンプリコン 'データ蓄積部 106は、多種アンプリコン
電気泳動結果データ 105と、その多種アンプリコン電気泳動データ 105に対応する 多種アンプリコン'サンプル 103を構成する各アンプリコンの STR回数とを組にして蓄 積する。また、新サンプル 107を新サンプル電気泳動解析部 108によって解析した 結果が新サンプル電気泳動結果データ 109であり、新サンプル結果データ解析部 1 10は、新サンプル電気泳動結果データ 109に基づ 、て多種アンプリコン ·データ蓄 積部 106のデータを検索することにより、新サンプル 107の STR回数を解析し、その STR回数解析の結果を新サンプル解析結果 111として出力する。
[0044] 次に、この個体識別装置の動作について説明する。
[0045] まず、データベース (すなわち識別子付きサンプル解析データ蓄積部 504)にデー タを蓄積するために、高精度電気泳動解析装置 502によって、識別子付きサンプル 501の各サンプルを充分な読み取り精度で解析し、これらのサンプルにおける STR 回数の情報を読み取る。その結果、識別子付きサンプル 501に含まれている DNA 中の複数の STR回数がサンプル解析結果 503として得られるので、識別子付きサン プル解析データ蓄積部 504は、サンプル解析結果 503である情報と、識別子付きサ ンプル 501に対応する個体の識別子とを組にして蓄積する。
[0046] 次に、個体識別の対象である新サンプル 107を低精度電気泳動解析部 505で解 祈し、その解析結果として、複数の STR回数のセットである新サンプル解析結果 111 を得る。以下、低精度電気泳動解析部 505での処理について、図 2を参照して説明 する。
[0047] 上述したように、複数の DNAサンプルとそれらの STR回数とが 1種アンプリコン'サ ンプル保管部 101に保管されているから、 1種アンプリコン'サンプル保管部 101より 2種またはそれ以上のサンプルを任意の組み合わせで選択し選択サンプル 102とし 、これらの選択サンプル 102の DNAサンプルを混合して多種アンプリコン'サンプル 103を作成する。そしてこの多種アンプリコン'サンプル 103を電気泳動解析部 104 において電気泳動によって解析し、結果として多種アンプリコン電気泳動結果データ 105を得る。電気泳動解析部 103での電気泳動の結果としては、山型波形のピーク 位置および山型波形の形状特徴、または、そのいずれかを用いる。山型波形の形状 特徴としては、(a)ピーク高さ、(b)ピーク幅、(c)山形波形の面積、(d)波形の変曲
点、のうちの 1つ以上が含まれる。電気泳動結果の解析手法は、当業者にとってよく 知られており、また本発明とは直接関係しないので、その詳細な説明は省略する。
[0048] 多種アンプリコン電気泳動結果データ 105が得られたら、多種アンプリコン'データ 蓄積部 106に、その多種アンプリコン電気泳動結果データ 105と選択サンプル 102 での STR回数とを組にして蓄積する。上述したように STR回数はアンプリコンの塩基 長情報であるから、多種アンプリコン.データ蓄積部 106には、多種アンプリコンの塩 基長情報が蓄積されることになる。これらの処理により、複数種類のアンプリコンの D NAのサンプルの組み合わせによって電気泳動の解析結果がどのようなバリエーショ ンになるかが測定され、統計データとして得られたことになる。なお、多種アンプリコン 電気泳動結果データは、 STR回数とは関連付けられるものである力 複数の STR回 数を有する対照用のサンプルとしてのみ用いられるものであって、実在の個体とは直 接的には関連付けられるものではない。
[0049] 個体識別対象である新サンプル 107は、新サンプル電気泳動解析部 108によって 、電気泳動法を用いて解析される。ここで新サンプル電気泳動解析部 108は、上述 した電気泳動解析部 104とは、同一またはほぼ同等の解析性能を有するものである 。単一の電気泳動解析装置を電気泳動解析部 104及び新サンプル電気泳動解析 部 108として共用するようにしてもよい。新サンプル 107を新サンプル電気泳動解析 部 108によって解析することにより結果として新サンプル電気泳動結果データ 109が 得られるから、新サンプル結果データ解析部 110は、多種アンプリコン 'データ蓄積 部 106に蓄積されている多種アンプリコン電気泳動結果データ 105のうち、新サンプ ル電気泳動結果データ 109と類似するものを検索することによって、新サンプル 107 の STR回数を解析すし、その解析結果を新サンプル解析結果 111として出力する。
[0050] 第 1の実施形態では、上述したように、低精度電気泳動解析部 505の読み取り精度 は、高精度電気泳動解析装置 502に比べて同程度力低いことを想定している。その 後、個体識別部 506 (図 1参照)は、新サンプル解析結果 111の複数の STR回数の セットと識別子付きサンプル解析データ蓄積部 504の各エントリの STR回数のセット とに重なりがある識別子を検索し、個体識別結果 507とする。個体識別結果 507には 、個体識別子が、 1つ含まれている場合または複数含まれている場合があり、さらに、
個体識別子が全く含まれな ヽ場合もある。
[0051] 以下、読み取り精度が十分でない低精度電気泳動解析部 505を用いて新サンプ ル 107を解析しても、十分な精度で個体識別結果が得られることについて説明する。
[0052] 第 1の実施形態では、低精度電気泳動解析部 505の新サンプル電気泳動解析部 108もしくは電気泳動解析部 104として、従来から個体識別に用いられて 、る電気泳 動解析装置と比較して簡便なものを用いることを想定している。この状況では、 PCR によって 1種類のマイクロサテライト領域を増幅しょうとしても、 DNAの不完全な複製 によって多少違うアンプリコンが生成される場合があることや、同じサイズのアンプリコ ンであってもキヤビラリ一中での移動の際に拡散の影響を受けることなどから、 1種類 のマイクロサテライト領域からのサンプルを電気泳動させた場合であっても、キヤビラ リー他端に到達する際にはその到達時間が前後することになる。その結果、電気泳 動結果において、到達時間に対して、アンプリコンが幅をもって分布するようになり、 その濃度を観察すると山型の波形になる。この現象は、電気泳動の媒体してキヤビラ リーなどを用いる場合にもゲル板を用いる場合でも発生し、アンプリコンのサイズ解析 の精度を低下させる。
[0053] ヘテロ接合のヒトの DNAマイクロサテライト領域にお!、て同程度のサイズのアンプリ コンが 2種類ある場合、電気泳動の結果として、それぞれが別個のアンプリコンに対 応する 2つの山型波形が重なり合ってしまい、見かけ上、 1つの山型波形として観察 されることがある。し力しながら、 2種類のアンプリコンのサイズが、山型波形の幅に比 ベて、大きく異なる場合には、 2つの山型波形は別の部位に発生するため、重なるこ とは起こらず、各々の山型波形の位置や濃度は各アンプリコンのサイズに起因するも のとして、正しく解析される。
[0054] 近接している波形が分離されなくなるのは、電気泳動時の拡散等に起因する解像 度の問題であり、このような現象の発生を抑えた解像度の高い装置、すなわち読み 取り精度の高 、電気泳動解析装置では、解析結果における山型波形の幅が狭くな るため、 2種類のアンプリコンのサイズがほぼ同じでも、波形を分離して観測すること ができる。
[0055] 2種類のアンプリコンの濃度がほとんど同じである場合、 2種類のアンプリコンによつ
て合成によって発生する山型波形のピーク位置は、それぞれのアンプリコンの電気 泳動によって生成されるであろうと考えられる 2つの山型波形のそれぞれのピークの 中間に位置する。例えば、 2種類のアンプリコンカ 5の STR回数すなわち 30塩基と 、 5. 2の STR回数すなわち 32塩基とであった場合は、 31塩基にピークを有する山 型波形として観察される。 2bpの読み取り誤差があるとすると、このサンプルは、 30〜 32塩基として認識される。したがって、 STR回数が 5のものカゝ、 STR回数が 5. 2のも のか、どちらかのものであるかの判定がつかない。
[0056] この状況を説明するために、山型波形の形状をガウス分布で近似し、 STR回数が 5 のものと、 STR回数が 5〜8の 2種類のアンプリコンを含んだ DNAサンプルを混合し たものを解析した時の結果をシミュレーションした結果を図 3に示す。図 3において、 X 軸は DNAのサイズである。ここで STR繰り返しの単位が 4bp (塩基対)であることを仮 定すると、 (5, 5)混合サンプル 1001は(5, 5)の混合サンプルの山型波形の形状を 示している。ここで(x、 y)混合サンプルとは、 STR回数力 のサンプルと STR回数が yのサンプルとを混合していることを意味する。 x=yであればホモ接合であり、 x≠y であればヘテロ接合である。図 3のシミュレーション力も分力るように、拡散等の影響 によりアンプリコンを電気泳動させたときの到達時間にばらつきが生じるため、山型波 形の幅が広くなつており、 STR回数が 1違うところにも影響が出ている。以下、 STR回 数が 1異なることを、「 1STRの違 、」のように表記する。
[0057] このように 1STR違うところに影響が出る程度、山形波形の幅が広くなるような解像 度では、例えば、 (5, 7)混合サンプル 1005、 (5, 7. 2)混合サンプル 1006、 (5, 8) 混合サンプル 1007では、ヘテロ結合の DNAサンプルであるとはっきり認識できる。 このため、ここで示したような解像度では、 2STR以上の違いがある混合サンプルで は、ヘテロ接合であると正しく認識できると思われる。なお、 1. 2STR (すなわち 6bp) 違いの(5, 6. 2)混合サンプル 1004でも、解像が 2bp以下であれば、正しくへテロ 接合が認識できると思われる。 1STR (すなわち 4bp)違いの(5, 6)混合サンプル 10 03は、他に類似の山型波形の波形がなぐピーク位置もずれていないことから、ピー ク位置を手力 Sかりにすれば、正しく認識できると思われる。
[0058] しかしながら、このような解像度において、 2つのアンプリコンの違いが 2bpである(5
, 5. 2)混合サンプル 1002では、単峰性の山形波形しか得られていない。この山形 波形は、ホモ接合((5, 5)混合サンプル 1001)の山形波形と形状が似ているために 、山形波形の形状からは、ヘテロ接合なの力 ホモ接合なのかを特定することができ ない。ホモ接合である(5, 5)混合サンプル 1001のピークと、ヘテロ接合である(5, 5 . 2)混合サンプル 1002のピークとは、位置が約 lbp程度ずれているので、 DNAの 長さに対して精度の高 、解析ができる場合には両者の違 、を認識することは可能で あるが、 DNAの長さに対する精度が低い場合には、正しい認識を行うことは難しい。
[0059] 結論として、上記のシミュレーション条件では、山形波形の形状の特異性と電気泳 動の正確性を考え合わせると、 1STR以上の違いは区別できる力 1STR未満の違 いでは、ホモ接合かへテロ接合かの区別ができない、ということになる。第 1の実施形 態では、低精度電気泳動解析部 505内の新サンプル電気泳動解析部 108もしくは 電気泳動解析部 104は、従来の電気泳動装置と比較して読み取り精度が低いとして いる。したがって、高い精度での解析に基づく結果を蓄積した識別子付きサンプル 解析データ蓄積部 504を、このような低精度電気泳動解析部 505によって得られた データに基づいて直接検索し、照合を行ったとしても、完全一致するデータを検索す ることができないことがあり得る。これは、 2bp程度やそれよりも悪い精度を有する読 み取り装置で解析を行うと、ヒトにおいて STR回数として出現し得る XXと XX. 2などと を区另 Uできな 、ためである。
[0060] し力しながら、上記の例のように解像度が 2dp程度であるとして、測定された塩基長 が 30塩基程度であれば、 STR回数は 5もしくは 5. 2であると判断することはできる。 そこで、このような場合、 5または 5. 2の STR回数として取り扱ってデータベースを照 合することにより、正しい STR回数を含むエントリの検索が可能となる。もっともこの場 合、真の STR回数が 5であるとすると、 STR回数が 5. 2のものも余分に検索されてし まうことが問題となる。すなわち、解像度の悪い機器で測定された新サンプル電気泳 動結果データ 109が得られた場合に、 STR回数として可能性があるものを考慮して、 高 、解像度のデータ力 生成されたデータベースを検索した場合、新サンプル 107 に含まれている STR回数のエントリを含んで検索できる力 間違ったエントリも余分に 検索されてしまう。このように余分な結果も得られてしまう、という問題は、後述する他
の手法、例えば多種のローカス情報を用いる方法などと組み合わせることによって、 実際の使用の場面においては、実はほとんど問題にならない。
[0061] 以下、余分な結果が得られることが個体識別のための障害とはなりえないことにつ いて説明する。
[0062] ここでは、説明のため、状況として起こりえる STR回数の種類力 4, 5, 5. 2, 6, 7 の 5通りであり、それぞれの塩基長は、 26, 30, 32, 34, 38塩基であるとする。
[0063] 例題として、 DNAサンプル (新サンプル 107)のアンプリコンの真の STR回数が(5 , 5. 2)であるとする。低い解像度(2bp程度)で新サンプル電気泳動結果データが 得られて!/ヽるのであれば、 lbpなどのような高 ヽ精度で読み取りを行って作成された データベース中の { (5, 5) , (5, 5. 2) , (5. 2, 5. 2) , (5. 2, 6) }の 4種類の STR回 数のうちのどれと一致するのか区別できない場合がある。すなわち、 lbpの解像度を 有する機器を用いた場合に比較して、 STR回数を特定する能力が低下する。しかし ながら、解析した DNAサンプル (新サンプル 107)は、上述の 4種類以外のものでは ないことは、認識できる。
[0064] 同様に、新サンプルのアンプリコンの真の STR回数が(5. 2, 5. 2)であるとする。こ のときは、データベースとの照合の結果、 { (5, 5) , (5, 5. 2) , (5. 2, 5. 2) , (5. 2 , 6) , (6, 6) }のいずれかであるとの認識がなされることになる。真の STR回数(ここ では、(5. 2. 5. 2) )は含まれてはいるものの、真のもの以外を含めて多めに検索さ れる。ここで、山型波形のピークの読み取り誤差、つまり正確性は、およそ 1塩基とし て考える。言い換えれば、 34塩基と読み取られたとしても、実際の DNAサイズとして は、 33, 34, 35塩基の可能性があるということである。解像度は 2bp程度であるとす る。つまり、 2bpだけ異なるアンプリコンを有するヘテロ接合の場合、 2つの山型波形 が重なり合ってしまい、 1つの山型波形として読み取られる、として考える。例えば、図 3に示した例のように、塩基長が 30bpと 32bpのアンプリコンカもなるヘテロ接合の場 合には、 31bp辺りにピークがある単峰型の山型波形として読み取られる。ヘテロ接 合の場合、それぞれ独立して塩基長に関して読み取り誤差が発生するとしているが、 アンプリコンサイズの差力 bp以下の場合は、電気泳動結果のグラフにおいて隣接 するアンプリコンなので、これらの 2つのアンプリコンの相対的な読み取り誤差は、な
いとして考える。
[0065] 表 2は、 2種類のアンプリコンの混合物の電気泳動結果の例を示すものであって、 上記の状況において 2種類のアンプリコンの混合物力 電気泳動によってどのように 解析されるかを示したものである。行頭の番号が * *であるのは、観測される DNA サイズの対が同じであるものが存在することを示す。例えば、真の STR回数が(4, 5) の場合と (4, 5. 2)の場合では、電気泳動解析装置によって、両方とも(25bp, 31bp )の組み合わせと解析される可能性があることを示して 、る。
[0066] [表 2]
2種類のアンプリコンの混合物の電気泳動結果の例
1 (25bp 25bp) < - (26bp 26bp〕 = (4 4) 42 (30bp 33bp) < - (30bp 34bp)= (5 6)
2 (25bp 29bp) (26bp 30bp (4 5) 43 (30bp 34bp) < - (30bp 34bp)= (5 6)
3 (25bp 30bp) (26bp 30bp〕 = (4 5) 44 (30bp 35bp) (30bp 34bp)= (5 6)
4 (25bp 31bp) (26bp 30bp〕 = (4 5) 45 (30bp 37bp) (30bp 38bp)= (5 7)
** (25bp 31bp) (26bp 32bp) = (4 5.2) 46 (30bp 38bp) - (30bp 38bp)= (5 7)
5 (25bp 32bp) (26bp 32bp〕 = (4 5.2) 47 (30bp 39bp) < - (30bp 38bp)= (5 7)
6 (25bp 33bp) (26bp 32bp〕 = (4 5.2) 48 (31bp 31bp) (30bp 30bp)= (5 5)
* + (25bp 33bp) (26bp 34bp〕 = (4 6) ** (31bp 31bp) (30bp 32bp)= (5 5.2)
7 (25bp 34bp) (26bp 34bp〕 = (4 6) Olbp 31bp) (32bp 32bp)= (5 2 , 5 .2)
8 (25bp 35bp) (26bp 34bp〕 = (4 6) 49 (31bp 33bp) (30bp 34bp)= (5 6)
9 (25bp 37bp) (26bp 38bp〕 = (4 7) 50 Olbp 34bp) (30bp 34bp)= (5 6)
10 (25bp 38bp) (26bp 38bp〕 = (4 7) 51 (31bp 35bp) (30bp 34bp)= (5 6)
11 (25bp 39bp) (26bp 38bp〕 = (4 7) 52 Olbp 37bp) (30bp 38bp)= (5 7)
12 (26bp 26bp) (26bp 26bp〕 = (4 4) Olbp 37bp) (32bp 38bp)= (5 2 ,7)
13 (26bp 29bp) < - (26bp 30bp) = (4 5) 53 Olbp 38bp) C30bp 38bp)= C5 7)
14 (26bp 30bp) (26bp 30bp) = (4 5) ** Olbp 38bp) (32bp 38bp)= C5 2 ,7)
15 (26bp 31bp) (26bp 30bp) = (4 5) 54 Olbp 39bp) (30bp 38bp)= C5 7)
+* (26bp 31bp) (26bp 32bp〕 = (4 5.2) (31bp 39bp) (32bp 38bp)= (5 2 ,7)
16 (26bp 32bp) (26bp 32bp〕 = (4 5.2) 55 (32bp 32bp) - (30bp 32bp)= (5 5.2)
17 (26bp 33bp) (26bp 32bp〕 = (4 5.2) ** (32bp 32bp) < - (32bp 32bp)= (5 2 , 5.2)
** (26bp 33bp) (26bp 34bpJ = (4 6) ** (32bp 32bp) (32bp 34bp)= (5 2 ,6)
18 (26bp 34bp) (26bp 34bp〕 = (4 6) 56 (32bp 37bp) (32bp 38bp)= (5 2 ,7)
19 (26bp 35bp) < - (26bp 34bp) = (4 6) 57 (32bp 38bp) C32bp 38bp)= C5 2 ,7)
20 (26bp 37bp) < - (26bp 38bp) = (4 7) 58 (32bp 39bp) (32bp 38bp)= C5 2 ,7)
21 (26bp 38bp) (26bp 38bp) = (4 7) 59 (33bp 33bp) (32bp 32bp)= (5 2 , 5 .2)
22 (26bp 39bp) < - (26bp 38bp) = (4 7) ** (33bp 33bp) (32bp 34bp) C5 2 ,6)
23 (27bp 27bp) < - (26bp 26bp) = (4 4) ** (33bp 33bp) (34bp 34bp)= C6 6)
24 (27bp 2 bp) < - (26bp 30bp) = (4 5) 60 (33bp 37bp) (32bp 38bp)= C5 2 ,7)
25 (27bp 30bp) (26bp 30bp) = (4 5) ** (33bp 37bp) (34bp 38bp)= C6 7)
26 (27bp 31bp) (26bp 30bp) = (4 5) 61 (33bp 38bp) (32bp 38bp)= C5 2 ,7)
** (27bp 31bp) (26bp 32bp) = (4 5.2) ** (33bp 38bp) (34bp 38bp)= C6 7)
27 (27bp 32bp) (26bp 32bp) = (4 5.2) 62 (33bp 39bp) (32bp 38bp)= (5 2 ,7)
28 (27bp 33bp) (26bp 32bp) = (4 5. 2) ** (33bp 39bp) (34bp 38bp)= C6 7)
** (27bp 33bp) (26bp 34bp) = (4 6) 63 (34bp 34bp) (32bp 34bp)= C5 2 ,6)
29 (27bp 34bp) < - (26bp 34bp) = (4 6) ** (34bp 34bp) C34bp 34bp)= C6 6)
30 (27bp 35bp) (26bp 34bp) = (4 6) 64 (34bp 37bp) (34bp 38bp) C6 7)
31 (27bp 37bp) (26bp 38bp) = (4 7) 65 (34bp 38bp) (34bp 38bp)= C6 7)
32 (27bp 38bp) (26bp 38bp) = (4 7) 66 (34bp 39bp) (34bp 38bp)= C6 7)
33 (27bp 39bp) (26bp 38bp) = (4 7) 67 (35bp 35bp) < - (34bp 34bp)= C6 6)
34 (29bp 29bp) (30bp 30bp) = (5 5) 68 (35bp 37bp) (34bp 38bp)= C6 7)
35 (29bp 33bp) (30bp 34bp) = (5 6) 69 (35bp 38bp) (34bp 38bp)= C6 7)
36 (29bp 34bp) < - (30bp 34bp) = (5 6) 70 (35bp 39bp) C34bp 38bp)= C6 7)
37 (29bp 35bp) (30bp 34bp) = (5 6) 71 (37bp 37bp) (38bp 38bp) C7 7)
38 (29bp 37bp) (30bp 38bp) = (5 7) 72 (38bp 38bp) (38bp 38bp)= C7 7)
39 (29bp 38bp) (30bp 38bp) = (5 7) 73 (39bp 39bp) (38bp 38bp)= C7 7)
40 (29bp 39bp) (30bp 38bp) = (5 7)
41 (30bp 30bp) 30bp)一 (5 5)
** (30bp 30bp) 32bp) (5 5.2)
(観測される DNAサイズの対) (真のサイズの対) = (真の STR回数)のフォーマット 行頭の番号が **であるのは、 同じ(観測される DNAサイズの対)が存在する。 BIによる複合 DN Aインデックスシステム(CODIS)等で使用されて!、るローカス
の DNAデータを調べてみると、 XX. 1、 XX. 2または XX. 3と記載される、 STR回数が 非整数であるものの発現回数が少ない。以下の説明において、 XX. l、xx. 2および XX. 3のいずれ力のことを、 XX. { 1, 2, 3}と表記する。例えば、上述した表 1に示した 口一カス FGAの多様性を示すデータでは、 STR回数には 18通りの STR回数が存在 し、そのうち 4種類のみが非整数の回数のもの、ここでは XX. 2のタイプのものである。
[0068] 上述した Budowleらの論文(非特許文献 1)中で公表されている" dnaloci. txt"に は、アフリカ系アメリカ人におけるローカス FGAの多様性を示すデータだけでなぐ他 のローカス、他の人口グループ(population group)における同様の多様性に関す るデータを含んでいる。以下、 Budowleらの論文に付属する生データ" dnaloci. txt "を用いて、第 1の実施形態の個体識別装置が個体を正確に識別できることを説明 する。表 3は、以下の説明において用いるデータの概要を示したものであって、ロー カスごとの STR回数と出現頻度との関係を示している。ここでは、 4bp程度の精度で 解析することが難 ヽと思われる STR回数のものに限って示して ヽる。
[0069] [表 3]
表 3 口一カスごとの S T R回数と出現頻度
4 b P程度の精度で解析することが難しいと思われる S T R 回数のものに限る
こで用いるデータには、アメリカ合衆国における 6つの人口グループ(アフリカ系ァ
メリ力人(AFRICAN AMERICAN)、米国カフカス人(U. S. CAUCASIAN)、 南部ヒスパニック(SOUTHWESTERN HISPANIC)、バハマ人(BAHAMIAN) ,ジャマイカ人 (JAMAICAN) ,トリ-ダード人(TRINIDADIAN) )につ!/ヽてのデー タを含んでいる。以下、平均的な能力を知るために、アメリカ合衆国における人ログ ループの構成比として、アフリカ系アメリカ人が 25%、米国カフカス人が 45%、南部 ヒスパニックが 20%、残り 10%がバハマ人、ジャマイカ人、トリ-ダード人であるとする 。仮に、バハマ人、ジャマイカ人、トリ-ダード人の割合をそれぞれ 4, 4, 2%と仮定し
、データを作成して、統計的な解析を進める。また、上記生データ中で "く XX" , " > x
X"などの表記は、 XXよりも STR回数が小さ!/、ものや大き!/、ものの確率を示すもので あるが、処理が煩雑になり、また、出現回数が少ないために、省略した。
[0071] XX. { 1, 2, 3}のタイプの STR回数は、 7つのローカス(CSF1PO, D18S51, D2 1S11, D3S1358, D7S820, FGA, THOl)に含まれ、合計 32種類である。 STR 回数の種類を全ローカスにわたって総計を求めると 163種類であるので、種類の比 率としては、 XX. { 1, 2, 3}型のデータは、 19%となる。 XX. { 1, 2, 3}の出現比率は 、 3. 85%である。
[0072] CODIS自体は 13種類のローカスを用いるものであって、これらのローカスにおい て XX. { 1, 2, 3}の出現頻度は、合計すると 50. 65%となる。なお全 13ローカスなの で、頻度の総計は 1300%となる。頻度データに注目すると、ローカス D21S11では X X. { 1, 2, 3}の頻度が多いが、それ以外のローカスでは、 XX. { 1, 2, 3}頻度が非常 に少なく、 XX. { 1, 2, 3}型の STR回数にあまり遭遇しな!、と!/、える。つまり、 XX. { 1, 2, 3}と XXの区別ができない装置を用いて、 STR回数がおよそ 18と判定された場合 、真の STR回数は 18もしくは 18. 2であるが、 18. 2の発現回数が 0. 014と少ないの で、 18と 18. 2を 1つにまとめて判断しても、判別能力がほとんど変わらない、と予想 される。なお、正確な見積もりについては後述する。
[0073] 認識能力を正確に見積もるために、各人の各 STR回数が独立して出現するものと する。その時に偶然に 2人の STR回数が一致する確率について考える。これは、識 別力(Discrimation Power)と呼ばれる値であり、ある解析手法がどのくら 、の認 識能力を有するかを示す量である。偶然に 2人の STR回数が一致する確率が低 、
程、認識能力が高いとされる。
[0074] 表 3に示したアメリカ合衆国での 6つの人口グループのデータの混合の例で考える と、 FGAの 1つの STR回数が 25である確率は 0. 100、 24である確率が 0. 186とな る。したがって、ランダムに選んだ 1人の FGAが(24, 25)である確率は、 0. 100 X 0 . 186 X 2となる。ここで、ランダムに選んだ 2人の FGA力 偶然にともに FGAが(24 , 25)である確率は、(0. 100 X 0. 186 X 2) 2となる。 FGAを用いた場合の識別力は 、全ての FGAに関する STR回数の組み合わせについてランダムに選んだ 2人がとも に同じ STR回数である確率であるので、以下の総和で求めることができる。ただし、 注意しないといけないのは、上記のへテロ接合の例とは違うホモ接合の場合であり、 ホモ接合の場合には、出現確率は、例えば、(24, 24)の場合は、 0. 186 X 0. 186 のように、ヘテロ接合の場合と異なって、 2倍にするための項が出てこない。
[0075] ヘテロ接合とホモ接合のそれぞれについての出現確率は以下のようになる。
[0076] ヘテロ接合の場合:
[0077] [数 1]
y S T R回数が iの出現確率) X (S T R回数が j の出現確率) X 2)2 i,ゾ, i≠ゾ
[0078] ホモ接合の場合:
[0079] [数 2]
Z(S T R回数が iの出現確率)4
I
[0080] 正確な見積もりとしては、上述したように、 STR回数の組み合わせが 5人以下の場 合は 5人いたとして確率を計算する力 このデータでは、 6通りの人口グループのデ ータをミックスして仮想しているために、そこまでの正確性は必要ないものとして、その ような計算を行うことは省略した。
[0081] ローカス FGAの場合には、識別力、すなわち 2人の STR回数が偶然にマッチする 確率は、 0. 30391となる。 CODISで用いられている他のローカスについて、識別力 は表 4に示すようになる。表 4は、ローカスごとの識別力と、 13種類のローカスすベて を用いたときにランダムに選んだ 2人の STR回数のすべてが一致する確率とを示して
いる。
[表 4]
表 4 口一カスごとの識別力と、 1 3種類の口一カスのすべてを 用いたときにランダムに選んだ 2人の S T R回数の全てが一致する確率
[0083] 表 4の左から 3カラム目のカツコ内の数字は、「識別力(すなわち、偶然にマッチする 確率)」の—log 表記である。したがって、カツコ内の数字が 1. 0の場合、 10人に 1
10
人の割合で偶然に STR回数が合致することを意味する。最後のカラムの数字は、口 一カスごとの STR回数の種類数である。 STR回数の種類数が多いと、偶然にマッチ する確率は低くなる。もっとも、 STR回数の種類数が同じであったとしても、 STR回数 の分布に偏りがあるあるため、「偶然にマッチする確率」が同じになるわけではない。
[0084] 上記の 13通りのローカスにおける全 163種類の STR回数を用いた時、ランダムに 選んだ 2人が偶然に一致する確率は、ローカスごとの識別力の積であるから、 6. 444 986 Χ 10_16 ( = 10_15· 190778)となり、 1. 551594 X 10+15人( = 1Ζ6. 444986 X 1 0"16)に 1人の確率で合致することになる。
[0085] 第 1の実施形態では、上述したような条件で、低精度電気泳動解析部 505内の新 サンプル電気泳動解析部 108もしくは電気泳動解析部 104を用いて、 DNAサンプ ルすなわち新サンプル 107の解析結果を新サンプル解析結果 111として得て、この
解析結果に基づいてデータベースを検索することにより、 DNAサンプルに含まれて いる STR回数のエントリを検索できる。この場合、上述したように、間違ったエントリも 余分に検索されてしまう。そこで、間違ったエントリも余分に検索されてしまうような状 況において「ランダムに選んだ 2人が偶然に一致する確率」を考える。
[0086] 低精度電気泳動解析部 505を用いたことによる低 、精度読み取り精度のために、 X Xと XX. 2と xx+ 1の区別がつかないとする。つまり、これらが「1種類の STR回数とし て認識される」といった状況を考える。表 5は、このような状況における識別力を、電 気泳動における解析精度が lbp程度である場合の識別力と対比して示したものであ り、低精度電気泳動解析装置を用いた場合における、ローカスごとの識別力と、 13種 類のローカスすベてを用いたときにランダムに選んだ 2人の STR回数のすべてが一 致する確率とを示している。
[0087] [表 5] 表 5 低精度電気泳動解析装置を用いた場合における、 口一カス
ごとの識別力と、 1 3種類の口一カスのすべてを用いたときに
ランダムに選んだ 2人の S T R回数がすべて一致する確率
表 5の 1番左のカラムはローカス名を示し、左から 2番目と 3番目のカラムは、解析精 度が lbp程度である高精度電気泳動解析装置を用いたときの識別力とその—log
表記を示している。なお、左から 2番目と 3番目のカラムにおける数値は、表 4に示し たものと同じである。低精度電気泳動解析装置と記載されている表 5の左から 4番目 のカラムは、上述したような解像度が 4bpである低精度電気泳動解析部 505を用い たことによる識別力を示し、 5番目のカラムは、 4番目のカラムの識別力を log 表記
10 したものである。表 5の右端のカラムは、 3番目のカラムと 5番目のカラムとの間の差を 示している。右端のカラムの数値を cとして、その 10のべき乗、すなわち 10eを考える と、低精度電気泳動解析部 505を用いたことにより、識別力が 10eだけ低下すること になる。
[0089] ローカス D12S317, D16S539, D5S818, D8S1179, TPOX, vWAでは、 ST R回数において XX. { 1, 2, 3}のタイプのものが存在しないことにより、電気泳動にお ける精度が上述したように低下したとしても、異なる STR回数を正確に識別すること ができ、したがって、識別力の低下は起こらない。このことは、表 5において、右端の カラムの値力 SOであることによって示されている。これに対し、ローカス D21S11, TH Olでは、右端のカラムに示された値が、—log 表記での差として、 0. 2程度である
10
ことから、 0. 63 ( = 10_ · 2)倍に、識別力が低下することが分かる。
[0090] 表 5の最下行に示すように、ここで示した 13ローカスの全部の STR回数を用い、上 述したような低精度電気泳動解析部 505を使用したとすると、ランダムに選んだ 2人 が偶然に一致する確率は、 1. 972332 Χ 10_15 ( = 10_14· 7()5()2())となり、 5. 07014 X 10+14人に 1人の確率で合致することになる。ここで用いている 13ローカスは、 CO DISで用いられている 13ローカスと同じである。
[0091] これに対し、従来用いられているように、解析精度が ldpである電気泳動解析装置 を用い、 13ローカスの全部の STR回数を用いた時、ランダムに選んだ 2人が偶然に 一致する確率は、 6. 444986 Χ 10_16 ( = 10_15· 190778)となり、 1. 551594 X 10+15 人( = 1Ζ6. 444986 X 10"16)に 1人の確率で合致することになる。つまり、低精度 電気泳動解析部 505を用いたことによって、 CODISなどで使用されている 13ロー力 スでは、識別力が 1/ (1. 551594 X 10+15)力ら 1/ (5. 07014 X 10+14)に悪ィ匕す ることが分かる。すなわち、 0. 3267699倍に識別力が悪ィ匕することが分かる。
[0092] 平均的に、検索条件として STR回数を 1回使用するごとに対象を 1Z10程度の絞り
込めることを考えると、 CODISの 13ローカスを用いて個体認識を行う場合、分解能 力 Slbpである電気泳動解析装置を用いるときと分解能が 4bpである電気泳動解析装 置を用いるときとの認識能力差 (0. 32677699倍)は、「ある 1つのローカスの情報を 使わな力つた」のと同程度か、それ以下の認識能力の低下とみなすことができる。
[0093] 識別力を用いて、「目の前にあるサンプルの STR回数がデータベースのうちのある エントリと一致したとき、それはどのくらい起こりえるか?」の指標を計算することができ る。この数字は、鑑定の証明力などを立証するために法廷などで使用される数字で ある。識別力は「ランダムに選んだ 2人がともに同じ個体の遺伝子型である確率」であ るのに対し、この指標は、「目の前にあるサンプルの STR回数がデータベースのうち のエントリと一致して、他の n人のサンプルの STR回数はデータベースと一致しな!、」 確率を示している。ここで、「ランダムに選んだ 2人がともに同じ個体の遺伝子型であ る確率」を Pとすると、「データベースと一致しない」確率は、 1 pとなる。それが n人な ので、 n人の全てがデータベースと一致しない確立は、(l—p)nとなる。このようなこと それ自体が滅多に起こらないよう、 1%以下の危険率で計算すると、(1 p)n≥l— 0 . 01が得られる。
[0094] この状況をアメリカ合衆国規模の人口に当てはめると、 nは 3億人となり、 (l -p)n^
1 npと近似でさることに注意すると、 p≤3. 33 X 10—11となる。
[0095] この数字と、 lbpの解像度で読み取った時のランダムに選んだ 2人の STR回数が 偶然に一致する確率の 6. 444986 X 10"16 ( = 10_15' 190778)と、 4bpの解像度で読 み取った時のランダムに選んだ 2人の STR回数が偶然に一致する確率の 1. 97233 2 Χ 10"15 ( = 10"14· 705020)とを比較する必要がある。
[0096] (1 ρ)η ≥ 1 危険率
1 -ηρ ≥ 1—危険率
危険率 ≥ ηρ
に注意すると、 lbpの解像度で読み取った時の危険率と、上記の条件に示すような 低い解像度(4bp)での危険率は、それぞれ、 1. 933496 X 10"7 ( = 6. 444986 X 10_16 X 3 X 108)、 5. 916996 X 10"7 ( = 1. 972332 X 10_15 X 3 X 108)となる。 低 ヽ解像度の場合の危険率は、 lbpの場合の危険率に比べて約 3倍大き 、。
[0097] 以上まとめると、従来の高い解像度で解析した時には、「目の前にあるサンプルの S TR回数がデータベースのうちのエントリと一致して、他の n人のサンプルの STR回数 はデータベースと一致しな ヽ」と言うことに対して、 99. 99998% ( = 1. 0- 1. 9334 96 X 10_7)の確からしさで表明できる。これに対し、低精度電気泳動解析部 505の 低い読み取り精度のために、 XXと XX. 2と xx+ 1の区別がつかない状況では、「目の 前にあるサンプルの STR回数がデータベースのうちのエントリと一致して、他の n人 のサンプルの STR回数はデータベースと一致しない」と言うことに対して、 99. 9999 4% (= 1. 0- 5. 916996 X 10—7)の確からしさで表明するかの違いになる。つまり、 「ランダムに選んだ 2人がともに同じ個体の遺伝子型である確率」が、小数点第 5位の 値が多少変化するだけなので、実用上ほとんど問題にならないことがわ力る。
[0098] 《第 2の実施形態》
次に、本発明の第 2の実施形態の個体識別装置を説明する。この個体識別装置は 、図 1に示した第 1の実施形態の個体識別装置と同様のものであるが、低精度電気 泳動解析部 505の構成において異なっている。図 4は、第 2の実施形態の個体識別 装置における低精度電気泳動解析部 505の構成を示している。
[0099] 上述した第 1の実施形態では、多種アンプリコン 'データ蓄積部 106に蓄積される べきデータの作成において、全ての組み合わせの多種アンプリコン'サンプル 103を 用意したが、この第 2の実施形態では、すべての組み合わせの多種アンプリコン 'サ ンプル 103を用意するのではなぐ適当な組み合わせで STR回数の DNAサンプル( 選択サンプル 102)を用意してこれらを混合して多種アンプリコン'サンプル 103を生 成し、電気泳動解析部 104によって解析し、解析により得られた多種アンプリコン電 気泳動結果データ 105を多種アンプリコン ·データ蓄積部 106に保存する。この場合 、アンプリコンの考えられる組み合わせのうち、実際に多種アンプリコン.サンプル 10 3が生成されていない STR回数の組み合わせが存在する力 このような STR回数の 組み合わせに関しては、測定済みの多種アンプリコン 'データ蓄積部 106のデータか ら、シミュレーション方法などを用いた補間などにより、データを生成する。このため、 第 2の実施形態では、低精度電気泳動解析部 505は、測定されて多種アンプリコン' データ蓄積部 106に蓄積されたデータから、補間によってデータを生成する補間デ
ータ作成部 201と、補間データ生成部 201で生成されたデータを補間する補間デー タ蓄積部 202と、を備えている。新サンプル結果データ解析部 110は、新サンプル 1 07を電気泳動で解析した結果である新サンプル電気泳動結果データ 109と多種ァ ンプリコン'データ蓄積部 106に蓄積されたデータと補間データ蓄積部 202に蓄積さ れたデータとを比較解析することによって、新サンプル 107の STR回数を推定し、新 サンプル解析結果 111として出力する。
[0100] 《第 3の実施形態》
次に、本発明の第 3の実施形態の個体識別装置を説明する。この個体識別装置は 、図 1に示した第 1の実施形態の個体識別装置と同様のものであるが、低精度電気 泳動解析部 505の構成において異なっている。図 5は、第 3の実施形態の個体識別 装置における低精度電気泳動解析部 505の構成を示している。
[0101] 上述した第 1の実施形態では、多種アンプリコン 'データ蓄積部 106に蓄積される べきデータの作成において、全ての組み合わせの多種アンプリコン'サンプル 103を 用意したが、この第 3の実施形態では、すべての組み合わせの多種アンプリコン 'サ ンプル 103を用意するのではなぐ適当な組み合わせで STR回数の DNAサンプル( 選択サンプル 102)を用意してこれらを混合して多種アンプリコン'サンプル 103を生 成し、電気泳動解析部 104によって解析し、解析により得られた多種アンプリコン電 気泳動結果データ 105を多種アンプリコン ·データ蓄積部 106に保存する。この場合 、アンプリコンの考えられる組み合わせのうち、実際に多種アンプリコン.サンプル 10 3が生成されていない STR回数の組み合わせが存在する力 第 3の実施形態では、 新サンプル結果データ解析部として、パラメータ推定機能を有するパラメータ推定機 能付き新サンプル結果データ解析部 301を使用する。
[0102] ノ メータ推定機能付き新サンプル結果データ解析部 301は、新サンプル 107を 新サンプル電気泳動解析部 108で解析した結果である新サンプル電気泳動結果デ ータ 109に基づいて多種アンプリコン 'データ蓄積部 106内のデータを検索し、新サ ンプル電気泳動結果データ 109を解析する際に、多種アンプリコン 'データ蓄積部 1 06に既に蓄積されているデータを用いて、 STR回数の変化に基づく新サンプル電 気泳動結果データ 109の変化の様子をパラメータ化し、解析に用いる。パラメータ推
定機能付き新サンプル結果データ解析部 301は、新サンプル電気泳動結果データ 1 09の STR回数を解析して新サンプル解析結果 111を出力する。
[0103] 《第 4の実施形態》
次に、本発明の第 4の実施形態の個体識別装置を説明する。この個体識別装置は 、図 1に示した第 1の実施形態の個体識別装置と同様のものであるが、低精度電気 泳動解析部 505の構成において異なっている。図 6は、第 4の実施形態の個体識別 装置における低精度電気泳動解析部 505の構成をしている。
[0104] 第 1の実施形態では、多種アンプリコン 'サンプル 103を生成して電気泳動によって 解析し、解析結果を多種アンプリコン 'データ蓄積部 106に格納するようにしていた 力 第 4の実施形態では、多種アンプリコン 'サンプルを生成することなく 1種アンプリ コン 'サンプルのままで電気泳動解析を行い、その電気泳動解析から、複数のアンプ リコンを含むサンプルの解析結果を補間によって求めて蓄積し、蓄積された結果に 基づ ヽて新サンプル電気泳動結果データ 109を解析することによって、新サンプル 1 07に対する解析結果を新サンプル解析結果 111として得るようにして ヽる。
[0105] すなわち、第 4の実施形態において、低精度電気泳動解析部 505は、低精度電気 泳動解析部 505は、 1種アンプリコン 'サンプル保管部 101と、 1種アンプリコン 'サン プル保管部 101から選択された DNAサンプル(選択サンプル 102)を電気泳動によ つて解析する電気泳動解析部 104と、電気泳動解析部 104から出力される 1種アン プリコン電気泳動結果データ 401を蓄積する 1種アンプリコン 'データ蓄積部 402と、 1種アンプリコン 'データ蓄積部 402に蓄積されたデータに基づいて補間多種アンプ リコン ·データを作成する補間多種アンプリコン'データ作成部 403と、作成された補 間多種アンプリコン 'データを蓄積する補間多種アンプリコン 'データ蓄積部 404と、 新サンプル 107を電気泳動によって解析する新サンプル電気泳動解析部 108と、新 サンプル電気泳動解析部 108が出力する新サンプル電気泳動結果データ 109に基 づいて 1種アンプリコン ·データ蓄積部 402及び Zまたは補間多種アンプリコン ·デ一 タ蓄積部 404内を検索し、検索結果を新サンプル解析結果 111として出力する新サ ンプル結果データ解析部 110と、を備えている。
[0106] ここで、 1種アンプリコン'サンプル保管部 101は、それぞれが 1種類ずつのアンプリ
コンを含んだ DNAのサンプルである 1種アンプリコン'サンプルを複数個保管するも のであり、アンプリコン*サンプルごとにそれらのサンプルにおける STR回数も保持し ている。選択サンプル 102は、 1種アンプリコン 'サンプル保管部 101の中から 1種の サンプルを選択したものである。選択サンプル 102を電気泳動解析部 104によって 電気泳動によって解析した結果が 1種アンプリコン電気泳動結果データ 401があり、 1種アンプリコン'データ蓄積部 402には、 1種アンプリコン電気泳動結果データ 401 と、その 1種アンプリコン電気泳動結果データ 401に対応するアンプリコンの STR回 数を組にして蓄積する。第 4の実施形態では、 1種アンプリコン 'サンプル保管部 101 より全てのサンプルを選択してそれぞれ選択サンプル 102とし、電気泳動の結果がど のようなノ リエーシヨンになるかを測定し、統計データとする。
[0107] 第 4の実施形態では、複数のアンプリコンを含むサンプルが示すであろう電気泳動 結果を補間法で求める。そのため、補間多種アンプリコン 'データ作成部 403は、 1 種アンプリコン.データ蓄積部 402に蓄積されているデータから、シミュレーション方 法などを用いてそのようなデータ、すなわち補間多種アンプリコン'データを作成し、 その作成された補間多種アンプリコン 'データを補間多種アンプリコン 'データ蓄積部 404に保管する。
[0108] 新サンプル結果データ解析部 110は、新サンプル 107を電気泳動で解析した結果 である新サンプル電気泳動結果データ 109と補間多種アンプリコン 'データ蓄積部 4 04に蓄積されたデータとを比較解析することによって、新サンプル 107の STR回数 を推定し、新サンプル解析結果 111として出力する。
[0109] 第 4の実施形態の別の例では、 1種アンプリコン 'サンプル保管部 101に格納され ている全ての 1種アンプリコン'サンプルをそれぞれ選択サンプル 102とするのではな く、 1種アンプリコン 'サンプル保管部 101から一部のサンプルを選択し選択サンプル 102としてもよ!/ヽ。
[0110] なお第 4の実施形態では、新サンプル結果データ解析部 110は、新サンプル電気 泳動結果データ 109を解析する際に、補間多種アンプリコン 'データ蓄積部 404に 蓄積されたデータにカ卩え、 1種アンプリコン 'データ蓄積部 402に蓄積されている 1種 アンプリコン電気泳動結果データ 401を使用するようにしてもよい。
[0111] 《第 5の実施形態》
図 7は、本発明の第 5の実施形態の個体識別装置の構成を示している。この個体 識別装置は、第 1の実施形態のものと類似しているが、識別子付きサンプル 501の解 祈に高精度電気泳動解析装置ではなぐ低精度電気泳動解析部 505を用いる点で 、第 1の実施形態のものと大きく異なっている。低精度電気泳動解析部 505は、識別 子付きサンプル 501の各サンプルを、低い精度で解析し、その結果を低精度識別子 付きサンプル解析結果 601として出力する。低精度識別子付きサンプル解析結果 6 01は、識別子付きサンプル 501の個体ごとに、識別子とともに低精度識別子付きサ ンプル解析データ蓄積部 602に蓄積される。
[0112] 個体認識の対象である新サンプル 107は、第 1の実施形態と同様に低精度電気泳 動解析部 505で解析され、その結果、新サンプル解析結果 111が得られる。低精度 個体識別部 603は、低精度識別子付きサンプル解析データ蓄積部 602を参照して、 新サンプル解析結果 111と共通の STR回数を有するエントリを検索し、見つかった エントリを低精度個体識別結果 604として出力する。
[0113] 電気泳動における解析精度が低下すれば、その分、識別力も低下するが、第 1の 実施形態において説明したように、識別力がどれだけ低下するかを評価することがで きる。識別子付きサンプル 501に対する電気泳動解析の解像度の低下は、実効的に 、識別子付きサンプル 501に対する解析精度は低下しなカゝつたものの新サンプル解 析結果 111における解析精度がさらに低下したものとして扱うことができる。そのよう に新サンプル解析結果 111における解析精度がさらに低下したとして識別力を算出 し、それが許容できるものであれば、識別子付きサンプル 501を低精度電気泳動解 析部 505で解析したとしても、問題は生じない。
[0114] 《第 6の実施形態》
図 8は、本発明の第 6の実施形態の個体識別装置の構成を示している。この個体 識別装置は、第 1の実施形態のものと類似しているが、新サンプル 107を低精度電 気泳動解析部 505で解析して識別子付きサンプル解析データ蓄積部 504内のデー タと照合し、個体識別結果 507を得た際に、その個体識別結果 507によれば新サン プル 107が複数の個体の STR回数と一致する可能性がある場合、新サンプル 107
を改めて高精度電気泳動解析装置 502で解析する点で、第 1の実施形態とは異なつ て ヽる。新サンプル 107を高精度電気泳動解析装置 502で解析するとサンプル結果 503が得られる。この個体識別装置は、高精度個体識別部 701を備えており、高精 度個体識別部 701は、新サンプル 107から得られたサンプル解析結果 503に基づき 、識別子付きサンプル解析データ蓄積部 504内のエントリのうち、サンプル解析結果 503と共通の STR回数を有するエントリを検索し、検索結果を高精度個体識別結果 702として出力する。
[0115] 《第 7の実施形態》
図 9は、本発明の第 7の実施形態の個体識別装置の構成を示している。この個体 識別装置は、第 5の実施形態(図 7参照)の場合と同様の手順によって低精度識別子 付きサンプル解析結果 601が蓄積される低精度識別子付きサンプル解析データ蓄 積部 602と、第 6の実施形態(図 8参照)の場合と同様の手順によって識別子付きサ ンプル 501のサンプル解析結果 503が蓄積される識別子付きサンプル解析データ 蓄積部 504と、を備えている。そしてこの個体識別装置では、第 5の実施形態の場合 と同様にして、新サンプル 107をまず低精度電気泳動解析部 505で解析して新サン プル解析結果 111を取得し、低精度個体識別部 603は、新サンプル解析結果 111 に基づ!/ヽて低精度識別子付きサンプル解析データ蓄積部 602を検索して、低精度 個体識別結果 604を出力する。この低精度個体識別結果 604において、個体識別さ れたエントリが 1つまたは複数ある場合には、今度は、第 1の実施形態などの場合と 同様に、先に求めた新サンプル解析結果 111に基づき、個体識別部 506によって識 別子付きサンプル解析データ蓄積部 504内を参照し、新サンプル解析結果 111の S TR回数のセットと識別子付きサンプル解析データ蓄積部 504の各エントリの STR回 数のセットとに重なりがある識別子を検索し、その検索結果を個体識別結果 507とす る。
[0116] この個体識別結果 507において検索されたエントリが 1または複数存在する場合に は、識別子付きサンプル解析データ蓄積部 504に完全一致するエントリが存在する 可能性がある。これを調査するために、次に、第 6の実施形態の場合と同様にして新 サンプル 107を高精度電気泳動解析装置 502で解析し、サンプル解析結果 503を
得る。高精度個体識別部 701は、新サンプル 107から得たサンプル解析結果 503に 基づいて、識別子付きサンプル解析データ蓄積部 504中のエントリのうちサンプル解 析結果 503と共通の STR回数を有するエントリを検索し、検索結果を高精度個体識 別結果 702として出力する。
[0117] 《第 8の実施形態》
図 10は、本発明の第 6の実施形態の個体識別装置の構成を示している。この個体 識別装置は、 DNA解析を行うとともに、指紋などの他の個体識別情報 (バイオメトリツ ク情報)を用いて個体識別を行うものである。ここでは、 DNAサンプル 902と指紋サ ンプル 906などを採取できる対象を新サンプル取得対象 901として、新サンプル取 得対象 901の個体識別を行う場合を説明する。
[0118] この個体識別装置は、 DNA解析に基づく個体識別部 903と、識別子付き DNA解 析データ蓄積部 904と、指紋解析に基づく個体識別部 907と、識別子付き指紋解析 データ蓄積部 908と、複数情報に基づく個体識別部 910と、を備えている。ここで、 D NA解析に基づく個体識別部 903は、上述の各実施形態のいずれかにおける個体 識別装置と同様のものであり、 DNAサンプル 902 (上述の各実施形態における新サ ンプル 107)を解析し、その解析結果に基づ!、て識別子付き DNA解析データ蓄積 部 904を検索し、検索結果を DNA解析に基づく個体識別結果 905として出力する。 識別子付き DNA解析データ蓄積部 904は、上述の実施形態における識別子付きサ ンプル解析データ蓄積部 504 (あるいは低精度識別子付きサンプル解析データ蓄積 部 602)に該当するものであり、識別子付き、すなわち起源が明確である、 DNAサン プルにおける解析結果を蓄積したものである。
[0119] 同様に、識別子付き指紋解析データ蓄積部 908は、識別子付き、すなわち起源が 明確である、指紋データを解析した結果を蓄積するものである。指紋解析に基づく個 体識別部 907は、新サンプル取得対象 901から採取した指紋サンプル 906について 、指紋解析を行い、識別子付き指紋解析データ蓄積部 908を参照して、指紋サンプ ル 906がどの個体に識別されたかを示す情報を指紋解析に基づく個体識別結果 90 9として出力する。なお、指紋解析の技法に関しては、当業者にとってよく知られてお り、また本発明とは直接関係しないので、その詳細な説明は省略する。
[0120] このように、 DNA解析に基づく個体識別結果 905と指紋解析に基づく個体識別結 果 909が得られると、複数情報による個体識別部 910は、これらの個体識別結果 90 5、 906を組み合わせることにより、複数情報による個体識別結果 911を出力する。第 8の実施形態の個体識別装置では、 DNA解析による結果と指紋解析などによる結 果とを組み合わせて個体識別を行うので、個体識別能力を向上させることができる。
[0121] 第 8の実施形態では、 DNA解析の結果と組み合わされる他の個体識別情報として は、上述した指紋解析情報のほか、虹彩、掌紋あるいは顔などを利用した個体識別 技術によって得られる情報を用いることが可能である。また、これらの技術の複数の 組み合わせも、可能である。これらの個々の解析技術に関しては、当業者にとってよ く知られており、また本発明とは直接関係しないので、その詳細な説明は省略する。