WO2007119779A1

WO2007119779A1 - 個体識別方法および装置

Info

Publication number: WO2007119779A1
Application number: PCT/JP2007/058055
Authority: WO
Inventors: Minoru Asogawa; Masatoshi Sugisawa; Shinji Okui
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-04-14
Filing date: 2007-04-12
Publication date: 2007-10-25
Anticipated expiration: 2008-10-14
Also published as: KR20080111537A; CN101467032A; EP2012116A1; JP5051126B2; CN101467032B; KR101163425B1; EP2012116A4; TWI452291B; US20090277790A1; TW200801506A; JPWO2007119779A1

Description

明細書

個体識別方法および装置

技術分野

[0001] 本発明は、 DNA (デォキシリボ核酸）に対して電気泳動法を用いた個体識別方法に関し、特に、低い読み取り性能しか有しない電気泳動解析装置を用いて精度よく個体識別を行う方法および装置に関する。

背景技術

[0002] 犯罪搜查などを目的として、 DNAを用いた個体識別、すなわち、わゆる DNA鑑定を行う場合には、ゲノムのうち個体ごと異なっている DNA領域に対して解析を行つている。 DNAを解析する方法の 1つとして電気泳動法があり、広く用いられている。電気泳動法は、電場を印加した場合に、 DNAの性質の違いによってその流動速度が異なることを利用するものである。

[0003] ヒトの DNAを用いた個体識別としては、マイクロサテライトと呼ばれる、 4〜5塩基程度の配列が繰り返し起こる領域を解析することによって行う方法が、 FBI (米国連邦搜查局)や日本の警察機関等で使用されて、る。マイクロサテライト領域の繰り返し回数を計測する一つの方法として、 DNAの塩基長を電気泳動法で計測する方法がある。個体識別のために DNAの電気泳動計測を行う場合、その機材として、 DNA解読プロジェクト（あるいはゲノム解読プロジェクト）でも多く使われてきた DNAシークェンサを利用することが多い。

[0004] DNAシークェンサでは、長さ 40cm程度のキヤビラリ一（毛細管）にゲルを充填したものを電気泳動のための媒体をして用いる。このキヤビラリ一の一端から、 DNAのマイク口サテライトとそれに隣接する領域のみを PCR (ポリメラーゼ連鎖反応： Polymer ase Chain Reaction)で増幅させた DNA断片を含んだ溶液試料を導入し、電界に起因する力によって生じる電気泳動によって、キヤビラリ一のもう一方の端部に向けてこの DNA断片を移動させる。 PCRで増幅させたこの DNA断片のことをアンプリコンと呼ぶ。このとき、アンプリコンのサイズすなわち DNAの塩基数によって移動速度が異なるから、アンプリコンごとにキヤビラリ一のもう一方の端部に到達するまでの時間に差が出てくる。ここで、キヤビラリ一のもう一方の端部にどのようなタイミングでアンプリコンが到達したかを計測することによって、そのアンプリコンに係る DNAのサィズを推定でき、ひ、てはマイクロサテライト領域での繰り返し回数を計測できる。

[0005] この方法は、ヒトのみならず、個体によって異なる DNA領域を有する生物種に対して適用できる。 DNAを用いたヒトの個体識別の方式として FBIが提唱して!/、る DNA 鑑定システムである複合 DNAインデックスシステム（CODIS ; Combined DNA I ndex System)などでは、上述したマイクロサテライトを解析する方法を用いているが、ここで使用されて、る遺伝子座（ローカス； locus)でのマイクロサテライトの繰り返しの塩基数は、 4塩基もしくは 5塩基単位である。

[0006] マイクロサテライトの解析以外に、 DNAを制限酵素で断片化し、長さの異なる断片を解析することによって個体識別する方法もある。制限酵素とは、 DNAでの特異な配列を認識して切断する酵素のことである。この方法でも、解析に電気泳動法を用いることがでさる。

[0007] ところで、 PCR増幅によって得られるアンプリコンは、ターゲットとするマイクロサテライトの繰り返し配列部分と、 PCRのプライマとハイプリタイズするまでの部分とから構成されている。したがって、マイクロサテライトにおける各繰り返しごとの塩基数力であるとして、あるアンプリコンのマイクロサテライトでの繰り返し回数力であったとき、マイクロサテライト部分は 4 X 4= 16塩基であり、 PCRのプライマとハイブリタイズするまでの塩基数が例えば 10塩基であったとすると、アンプリコンの塩基長は、 10+ 16 = 26塩基となる。同様に、マイクロサテライトの繰り返し回数が 5であるとすると、 30塩基となる。以下、マイクロサテライトの繰り返し回数を STR (短タンデム繰り返し: Short

Tandem Repeat)回数と表現することにする。例えば、計測したアンプリコンのサィズが 30塩基であれば、 STR回数が 5であると判定できる。 STR回数は、アンプリコンの塩基長に対応して、るから、アンプリコンにつ!/、ての塩基長情報であると!/、える。

[0008] 上記の例では、アンプリコンの長さは、 30塩基、 34塩基など、 STR回数が 1つ増えると、 4塩基 (もしくは 5塩基)単位で増える。ところが、ヒトの DNA鑑定で使われる遺伝子領域には、繰り返し力塩基 (もしくは 5塩基)刻みでないものがある。例えば、ある場合では、通常の STRにカ卩えて 2塩基余計に付けカ卩わったタイプがある。 STRの 5 回の繰り返しに 2塩基余計に付け加わったタイプの場合は、 "5. 2"といった表記がなされる。 STR回数が 5の時、アンプリコンが 30塩基だったとすると、 "5. 2"では、 32塩基となる。 XX. 2以外に、 XX. 1、 XX. 3などが存在する。このように繰り返しに対して端数となる塩基は、すべての STR回数に対して存在するのではなぐ種類が限られて V、る、すなわち特定の STR回数に対して起こることが知られて、る。

[0009] 例えば、 FGAと呼ばれるローカスには、以下の様なバラエティ（多様性）が存在する。表 1は、ローカスのバラエティの出現確率を示した例を示したものであって、アメリカ合衆国におけるアフリカ系のヒト 200名程度に対して FGAの多様性を調べたデータを示している。ここでは、 FGAの種類は 18種類であり、すなわち FGAには 18通りの STR回数が存在し、そのうち 4種類のみ力xx. 2のタイプのものである。表 1に示すデータにおいて、合計が 200よりも大きいのは、以下に述べるように STR回数において父親由来か母親由来の 2種類があるためであり、 400よりも少ないのは、解析できな力つたものがあるからである。また、出現確率の総和が 1. 0を上回るのは、 STR回数の出現頻度が 5以下の場合は、出現確率として一律に 0. 014としている力もである。表 1にすァ ~~タは、 Bruce Budowle, Genotype Profiles for Six Popu lation Groups at the 13 CuDIS Short Tandem Repeat Core Loci and Other PCRBBased Loci , Forensic Science, Volume 1, Num ber 2, (July 1999) (非特許文献 1)において、" dnaloci. txt"として公表されている生データに基づくものである。

[0010] [表 1]

表 1 口一カスのバラエティの出現頻度の例

[0011] ヒトのゲノムは 2セットあるので、各ローカスに関して父親由来の STR回数と母親由来の STR回数が存在することとなり、これは、個人を特定する情報となる。例えば、あるローカスでの STR回数の種類が 10種類であるとすると、全ての組み合わせは、 10 0種類（ = 10 X 10)存在することになる。このうち 10種類のものは、父親由来のローカスにおける STR回数と母親由来のローカスにおける STR回数が一致している。したがって、そのようなヒトに対して DNA解析を行い、 STR回数を求めたとしても、 1通りの STR回数しか得られないことになる。このような場合をホモ接合と呼ぶ。

[0012] ホモ接合を除いた残りの 90通りでは、父親由来の STR回数と母親由来の STR回数とが異なり、このようなヒトに対して DNA解析を行えば、精度が十分であれば、 2通りの STR回数が得られることになる。このような場合をへテロ接合と呼ぶ。もっとも、 D NAを解析した場合に、どちらの STR回数が父親由来であって、どちらの STR回数が母親由来であるかの区別がつかないので、実際には、ヘテロ接合は、 90種類の半分である 45種類となる。

[0013] すなわち、各ゲノムの各セットごとにローカスの STR回数の種類が 10種類あるとき、 DNA解析で存在し得る結果は、ホモ接合の 10種類とヘテロ接合の 45種類とをあわせた全部で 55種類であり、これは個人を特定する情報となる。マイクロサテライトを用いた DNAの解析と照会では、この 55種類のうちどのタイプかを解析し、その解析結果と完全一致するエントリをデータベース中力検索することになる。

[0014] DNAを用いた個体識別の現場では、認識精度の向上のために、複数のローカスについて解析を行い、データベース検索を行っている。ヒトにおいて STR回数は各口一カスごとに独立に決まっているので、複数のローカスの解析をすることによって、認識精度を高めることができる。 FBIなどで行われている DNA解析では、 13個のローカスを用いている。このような DNA解析の詳細については、例えば、 "Forensic D NA Typing, Second Edition ： Biology, Ί echnology, and genetics of STR Markers", John M. Butler. (2005) . pp. 85— 117, 345 - 370, and 373— 386 ( 特許文献 2)【こ詳しく述べられて!/ヽる。

[0015] なお、特開 2002— 253203号公報 (特許文献 1)は、個人を特定する DNAの塩基配列情報をデジタル化して、バーコードあるいは IC (integrated circuit)カードなどに固定することを開示している。特開 2003— 245098号公報 (特許文献 2)は、 PC R産物を電気泳動で検出し、塩基長配列のサイズ情報を得ることを開示している。特開 2004— 073188号公報（特許文献 3)は、同定されるべき物体中へマーカーを組み込む方法であって、 DNA断片をマーカーとして用いる方法を開示している。特開 2005— 013226号公報（特許文献 4)は、ダイズを DNAより同定する方法であって、 PCRの結果を電気泳動等を用いて同定するとともに、ダイズの既知遺伝子配列の検索を行う際に、データベースにアクセスしてサテライト DNAの検索を行うことを開示している。特開 2005— 160302号公報 (特許文献 5)は、マイクロサテライト遺伝多型マ一力を用いる遺伝子のマッピング方法を開示して、る。特開 2005 - 237334号公報 (特許文献 6)は、テロメァ反復配列とこれに相補的な標識プローブとをハイブリダィズさせ、その DNA—分子の動きの速度を検出することにより、迅速かつ高感度に DNA 反復配列を測定する方法を開示している。特開 2005— 307216号公報 (特許文献 7 )は、本人認証に利用することのできる合成 DNAインクを開示している。特開平 11— 118760 (特許文献 8)は、 DNA断片の電気泳動パターンの解析法であって、データベース化に適した解析法を開示して、る。

[0016] WO97Zl5690 (特許文献 9)は、 DNA配列の定量、同定または判定に関する発明を開示している。 WO98/35060 (特許文献 10)は、多型核酸フラグメントを分析または型分類するためのポリメラーゼを開示している。 WO0lZl4590 (特許文献 1 1)は、既知量の、シリカ磁性粒子のような、 DNA標的物質を可逆的に結合するための定義できる能力を有するシリカ含有固形支持体と、その粒子の結合能力より多い D NA標的物質とを使用して、媒体中の他の物質から、定義された量の DNA標的物質を単離する方法を開示している。 WO02Z08469 (特許文献 12)は、対立遺伝子コール（allele call)を行うためのコンピュータにより実行される方法を開示している。 W O02Z66650 (特許文献 13)は、ストレプトコッカス（streptococcus)抗原のフラグメントの解析について開示している。 WO03Z06692 (特許文献 14)は、電気泳動分祈のための内部較正標準に関する発明を開示している。 WO02Z86794 (特許文献 15)は、質量分析に基づいて DNAを解析する方法を開示している。

[0017] 以下、本明細書中で引用した文献を列挙する。

特許文献 1 特開 2003- — 253203号公報

特許文献 2 特開 2003- — 245098号公報

特許文献 3 特開 2004- — 073188号公報

特許文献 4特開 2005- — 013226号公報

特許文献 5 特開 2005- — 160302号公報

特許文献 6 特開 2005- — 237334号公報

特許文献 7 特開 2005- — 307216号公報

特許文献 8 特開平 11 - - 118760号公報

特許文献 9 WO97Z15690 (特表 2000

特許文献 10： WO98Z35060 (特表 2001— 511018)

特許文献 ll :WO0lZl4590 (特表 2003— 507049)

特許文献 12 :WO02Z〇8469 (特表 2004— 516455) 特許文献 13 :WO02Z66650 (特表 2004— 531235)

特許文献 14:WO03Z〇6692 (特表 2004— 535198)

特許文献 15： WO02Z86794 (特表 2005 - 509844)

非特干文献 1： Bruce Budowle, 'Genotype Profiles lor Six Population

Groups at the 13 CODIS Short Tandem Repeat Core Loci and Other PCRBBased Loci , Forensic Science, Volume 1, Number 2, (July 1999) . (インターネット上でも、次の URLから入手可能く URL:http : / / www. foi. gov/ hq/ lab/ f sc/ backissu/ july 1999/ budowle . htm> 非特許文献 2 : "Forensic DNA Typing, Second Edition ： Biology, Te chnology, and Genetics of STR Markers", John M. Butler. (200 5) . pp. 85- 117, 345- 370, and 373— 386

発明の開示

発明が解決しょうとする課題

[0018] 個体識別のための上述した従来の DNA解析では、大型の電気泳動装置を使用する必要があり、そのため、電気泳動に要する時間が長くなつて解析時間が長くなる、という問題点がある。この原因は、 DNAの解析と DNAデータベースとの照合において、アンプリコンの長さの計測を lbp (塩基対）の精度で行っている力である。このように lbpと、つた高、精度で解析して!/、るのは、例えばヒトの DNAを用いた個体識別の方式として FBIが提唱している CODISなどでは、そこで使用されているローカスのアンプリコンの DNAサイズの最小の変化幅が 2bp程度であるので、 lbp程度の精度で塩基長を認識しな、と、データベースとの照合ができなくなるからである。

[0019] アンプリコンの長さの計測精度を確保するためには、電気泳動装置において現在使用されているキヤビラリ一よりも短いキヤピラリーを用いたり、電気泳動の路長をより短くしたりすることができない。そのため、電気泳動装置などの構成を簡素化したり、あるいは短時間で電気泳動の解析を行うことができな!/、。

[0020] 本発明の目的は、読み取り精度の低い電気泳動装置を用いても必要な精度を確保でき、かつ、短時間での解析を可能とする個体識別方法を提供することにある。

[0021] 本発明の別の目的は、読み取り精度の低い電気泳動装置を用いても必要な精度を確保でき、かつ、短時間での解析を可能とする個体識別装置を提供することにある。課題を解決するための手段

[0022] 個体識別のための DNA解析の運用を考えると、あら力じめデータベースを構築した上で、新たに入手した検体の DNAを解析し、その解析結果がデータベースに格納されたものと一致するかどうかを照合することになる。ここで、短時間での処理、あるいは簡素化された装置での処理が要求されるのは、新たに入手した検体の DNAの解析であり、データベースにあらかじめ格納しておくデータのための DNA解析には、簡素化された装置での処理や短時間での処理に対する要求はあまりな、。そこで本発明では、新たに入手した検体の DNA解析を、今までは個体識別のための DNA 解析には使用できな力つたような精度の低、電気泳動装置を用いて行えるようにする。以下、新たに入手した検体のことを新サンプルと呼ぶ。

[0023] なお、データベース登録のための試料 (サンプル）は、その出所、すなわち誰の、あるいはいつどこで採取されたもの力が明確なものであり、出所を特定するための識別子が付与されている。そこで、以下の説明において、データベース登録のための試料 (サンプル)を識別子付きサンプルと呼ぶことにする。識別子付きサンプルをデータベース (すなわち識別子付きサンプル解析データ蓄積部）に蓄積するときの DN A解析には、従来用いられて!/ヽような相対的に精度の高ヽ電気泳動装置を用いてもょ、し、従来は使用できな力つたような相対的に精度の低、電気泳動装置を用いてよい。後述するように、本発明では、識別子付きサンプルの解析及び新サンプルの解祈の両方に低精度の電気泳動装置と用、たとしても、データベースでの照合を精度よく行えるようにしている。

[0024] 本発明の目的は、 DNAサンプルを電気泳動によって解析することによって個体を識別する個体識別方法であって、個体に対する識別子が付与された識別子付き DN Aサンプルを解析する第 1の解析段階と、識別子付き DNAサンプルを解析して得られた結果を対応する識別子とともに識別子付きサンプル解析データ蓄積部に蓄積する段階と、個体識別対象となる DNAサンプルである新サンプルを、識別子付き DM Aサンプルを解析したときの精度よりも低、精度で解析し、結果を新サンプル解析結果とする第 2の解析段階と、新サンプル解析結果に基づいて、識別子付きサンプル解析データ蓄積部を検索する段階と、を有する固体識別方法によって達成される。

[0025] この個体識別方法にぉヽては、例えば、識別子付き DNAサンプル及び新サンプルを解析する際に、電気泳動法によってそのサンプルの塩基長に関する情報が求められ、特に、そのサンプルにおけるマイクロサテライトの繰り返し回数に関する情報が取得される。

[0026] この個体識別方法において、典型的には、第 1の解析段階における解析精度は、新サンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの DNAを識別できる精度であり、第 2の解析段階における解析精度は、最小の変化量だけ塩基長が異なる 2つの DNAを識別できない精度である。

[0027] また第 2の解析段階は、例えば、それぞれ 1種のアンプリコンを含んだサンプルの集合から複数のサンプルを任意の組み合わせで選択し、選択されたサンプルを混合して多種アンプリコン'サンプルを生成する段階と、多種アンプリコン'サンプルを電気泳動によって解析する第 3の解析段階と、第 3の解析段階で得られた結果と、当該多種アンプリコン.サンプルにおける塩基長情報とを組にして多種アンプリコン.データ蓄積部に蓄積する段階と、電気泳動によって新サンプルを解析し、新サンプル電気泳動結果データを得る第 4の解析段階と、新サンプル電気泳動結果データに基づ!/、て多種アンプリコン 'データ蓄積部を検索し、結果を新サンプル解析結果とする検索段階と、を有する。

[0028] あるいは本発明の目的は、 DNAサンプルを電気泳動によって解析することによつて個体を識別する個体識別方法であって、個体に対する識別子が付与された識別子付き DNAサンプルを解析して識別子付き DNAサンプルの塩基長に関する情報を得る第 1の解析段階と、識別子付き DNAサンプルを解析して得られた結果を対応する識別子とともに識別子付きサンプル解析データ蓄積部に蓄積する段階と、個体識別対象となる DNAサンプルである新サンプルを解析し、新サンプルの塩基長に関する情報を含む結果を新サンプル解析結果とする第 2の解析段階と、新サンプル解析結果に基づいて、識別子付きサンプル解析データ蓄積部を検索する段階と、を有し、第 1の解析段階および第 2の解析段階における解析の精度は、個体識別対象となる DNAサンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの DNAを識別できない精度である固体識別方法によっても達成される。

[0029] 本発明の第 2の目的は、 DNAサンプルを電気泳動によって解析することによって個体を識別する個体識別装置であって、個体に対する識別子が付与された識別子付き DNAサンプルを解析する第 1の解析手段と、第 1の解析手段で識別子付き DN Aサンプルを解析して得られた結果を対応する識別子とともに蓄積する識別子付きサンプル解析データ蓄積部と、第 1の解析手段より低い解析精度を有し、個体識別対象となる DNAサンプルである新サンプルを解析して結果を新サンプル解析結果とする第 2の解析手段と、新サンプル解析結果に基づいて、識別子付きサンプル解析データ蓄積部を検索し、個体識別結果を得る識別手段と、を有する個体識別装置によって達成される。

[0030] あるいは本発明の第 2の目的は、 DNAサンプルを電気泳動によって解析することによって個体を識別する個体識別装置であって、個体に対する識別子が付与された識別子付き DNAサンプルを解析して識別子付き DNAサンプルの塩基長に関する情報を得る第 1の解析手段と、識別子付き DNAサンプルを解析して得られた結果を対応する識別子とともに蓄積する識別子付きサンプル解析データ蓄積部と、個体識別対象となる DNAサンプルである新サンプルを解析し、新サンプルの塩基長に関する情報を含む結果を新サンプル解析結果とする第 2の解析手段と、新サンプル解析結果に基づいて、識別子付きサンプル解析データ蓄積部を検索する識別手段と、を有し、第 1の解析手段および第 2の解析手段における解析の精度は、個体識別対象となる DNAサンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの DNAを識別できない精度である個体識別装置によっても達成される。

[0031] 上述した本発明の個体識別方法及び装置は、 DNAサンプルを解析することによつて個体識別を行うものであるが、さらに、指紋情報、掌紋情報、虹彩情報、顔情報などの他のノィオメトリック情報と組み合わせることによって、個体識別の精度をさらに向上させることができる。

[0032] 本発明によれば、特に、個体識別の対象となるサンプルすなわち新サンプルの電気泳動による解析の際に、現在使用されているキヤビラリ一よりも短いキヤピラリーや、短い電気泳動の路長を用いることができるから、解析に必要な時間が短縮され、その結果、 DNAを用いた個体識別を短時間で行うことが可能となる。

[0033] また、このように短いキヤピラリーや短い電気泳動の路長を用いるため、以下のような有利な点を享受することができる：

(1)従来の個体識別装置に比べてサイズを小さくして装置構成を簡略ィ匕することができ、その結果、屋内屋外を問わず必要な場所で DNAを用いた個体識別が可能となる；

(2)装置の全体を覆ったりして外部力もの雑物の混入を防ぐことが容易になるとともに、装置構成が簡易であるので、温度や湿度などの電気泳動に影響を与える外部要因を制御するのが容易になり、その結果、外部からの雑物の混入や解析装置の環境の不安定性に起因する誤解析を防ぐことが可能となる；

(3)装置全体を覆うことなどよつて、温度や湿度などの装置に影響を与える外部要因を制御するのが容易になり、保守性の向上ゃ耐故障性の向上が可能となる。

[0034] 上述したように、本発明によれば、短時間での DNAを用いた個体識別が可能となり、屋内屋外を問わず必要な場所で DNAを用いた個体識別が可能となり、誤解析を防ぐことが可能となる。これにより、他のバイオメトリック情報によって個体識別を行う機器との組み合わせが容易に行えるようになり、他のノィオメトリック情報を用いた個体認識との組み合わせよって認識精度の向上を図ることができる。

図面の簡単な説明

[0035] [図 1]本発明の第 1の実施形態の個体識別装置の構成を示す図である。

[図 2]図 1に示す個体識別装置における低精度電気泳動解析部の構成を示す図である。

[図 3]2種類のアンプリコンを含んだ DNAサンプルを混合したものを解析したシミュレーシヨン結果を示すグラフである。

[図 4]本発明の第 2の実施形態の個体識別装置における低精度電気泳動解析部の構成を示す図である。

[図 5]本発明の第 3の実施形態の個体識別装置における低精度電気泳動解析部の構成を示す図である。

[図 6]本発明の第 4の実施形態の個体識別装置における低精度電気泳動解析部の構成を示す図である。

圆 7]本発明の第 5の実施形態の個体識別装置の構成を示す図である。圆 8]本発明の第 6の実施形態の個体識別装置の構成を示す図である。圆 9]本発明の第 7の実施形態の個体識別装置の構成を示す図である。圆 10]本発明の第 8の実施形態の個体識別装置の構成を示す図である。符号の説明

101 1種アンプリコン.サンプル保管部

102 選択サンプル

103 多種アンプリコン'サンプル

104 電気泳動解析部

105 多種アンプリコン電気泳動結果データ

106 多種アンプリコン.データ蓄積部

107 新サンプル

108 新サンプル電気泳動解析部

109 新サンプル電気泳動結果データ

110 新サンプル結果データ解析部

111 新サンプル解析結果

201 補間データ作成部

202 補間データ蓄積部

301 パラメータ推定機能付き新サンプル結果データ解析部

401 1種アンプリコン電気泳動結果データ

402 1種アンプリコン.データ蓄積部

403 補間多種アンプリコン 'データ作成部

404 補間多種アンプリコン 'データ蓄積部

501 識別子付きサンプル

502 高精度電気泳動解析装置

503 サンプル解析結果

504 識別子付きサンプル解析データ蓄積部 505 低精度電気泳動解析部

506 個体識別部

507 個体識別結果

601 低精度識別子付きサンプル解析結果

602 低精度識別子付きサンプル解析デー:

603 低精度個体識別部

604 低精度個体識別結果

701 高精度個体識別部

702 高精度個体識別結果

901 新サンプル取得対象

902 DNAサンプル

903 DNA解析に基づく個体識別部

904 識別子付き DNA解析データ蓄積部

905 DNA解析に基づく個体識別結果

906 指紋サンプル

907 指紋解析に基づく個体識別部

908 識別子付き指紋解析データ蓄積部

909 指紋解析に基づく個体識別結果

910 複数情報による個体識別部

911 複数情報による個体識別結果

1001 (5, 5)混合サンプル

1002 (5, 5. 2)混合サンプル

1003 (5, 6)混合サンプル

1004 (5, 6. 2)混合サンプル

1005 (5, 7)混合サンプル

1006 (5, 7. 2)混合サンプル

1007 (5, 8)混合サンプル

発明を実施するための最良の形態 [0037] 《第 1の実施形態》

図 1は、本発明の第 1の実施形態の個体識別装置の構成を示している。この個体識別装置は、識別子付きサンプル 501を電気泳動により解析する高精度電気泳動解析装置 502と、高精度電気泳動解析装置 502から出力されるサンプル解析結果 5 03を蓄積する識別子付きサンプル解析データ蓄積部 504と、新サンプル 107を電気泳動により解析する低精度電気泳動解析部 505と、低精度電気泳動解析部 505から出力される新サンプル解析結果 111に基づヽて識別子付きサンプル解析データ蓄積部 504内のデータを検索して新サンプル 107の個体識別を行い、個体識別結果 507を出力する個体識別部 506と、を備えている。新サンプル 107は、個体識別を行おうとする DNAのサンプルであり、第 1の実施形態の個体識別装置は、新サンプル 107での DNAの STR回数を計測し、その計測結果に応じてデータベースすなわち識別子付きサンプル解析データ蓄積部 504を検索して個体識別を行うものである

[0038] 識別子付きサンプル 501は、個体の識別子がつ!、たサンプルの集合であり、高精度電気泳動解析装置 502は、このような識別子付きサンプル 501の各サンプルを、従来使用されているような充分な読み取り精度で解析する装置である。サンプル解析結果 503は、識別子付きサンプル 501を高精度電気泳動解析装置 502を用いて解析した結果であり、識別子付きサンプル 501に含まれて、る DNA中の複数の ST R回数のセットを示すデータ力なって、る。識別子付きサンプル解析データ蓄積部 504は、識別子付きサンプル 501の個体ごとに、従来使用されているような充分な読み取り精度で解析されたサンプル解析結果 503である複数の STR回数のセットと識別子付きサンプル 501の個体の識別子とを組にして蓄積する。

[0039] 新サンプル 107を解析する低精度電気泳動解析部 505の構成の詳細については後述するが、低精度電気泳動解析部 505自体も、電気泳動解析装置を備えて構成されており、第 1の実施形態では、この低精度電気泳動解析部 505は、高精度電気泳動解析装置 502に比べて、読み取り精度が、同程度カゝ低いことを想定している。新サンプル解析結果 111は、新サンプル 107の解析結果であり、複数の STR回数のセットを示すデータ力もなつている。個体識別部 506では、新サンプル解析結果 111の複数の STR回数のセットと識別子付きサンプル解析データ蓄積部 504の各エントリの STR回数のセットとに重なりがある識別子を識別子付きサンプル解析データ蓄積部 504内で検索し、個体識別結果 507とする。個体識別結果 507には、個体識別子力つ含まれている場合または複数含まれている場合があり、さら〖こ、個体識別子が全く含まれない場合もある。

[0040] 次に、低精度電気泳動解析部 505の構成について、図 2を用いて説明する。

[0041] 第 1の実施形態では、低精度電気泳動解析部 505は、 1種アンプリコン 'サンプル保管部 101と、 1種アンプリコン ·サンプル保管部 101から選択された DNAサンプルすなわち選択サンプル 102を混合して得られる多種アンプリコン'サンプル 103を電気泳動によって解析する電気泳動解析部 104と、電気泳動解析部 104から出力される多種アンプリコン電気泳動結果データ 105を蓄積する多種アンプリコン 'データ蓄積部 106と、新サンプル 107を電気泳動によって解析する新サンプル電気泳動解析部 108と、新サンプル電気泳動解析部 108が出力する新サンプル電気泳動結果データ 109に基づいて多種アンプリコン 'データ蓄積部 106内を検索し、検索結果を新サンプル解析結果 111として出力する新サンプル結果データ解析部 110と、を備えている。

[0042] ここで、 1種アンプリコン'サンプル保管部 101は、それぞれが 1種類ずつのアンプリコンを含んだ DNAのサンプルである 1種アンプリコン'サンプルを複数個保管するものであり、アンプリコン*サンプルごとにそれらのサンプルにおける STR回数も保持している。選択サンプル 102は、 1種アンプリコン 'サンプル保管部 101の中力も複数のサンプルを任意の組み合わせで選択したもの (集合)である。このように選択された複数種類の選択サンプル 102を混合することによって、多種アンプリコン'サンプル 103 が得られる。したがって、多種アンプリコン 'サンプル 103は、単一のサンプル中に複数種類の、すなわち STR回数が異なる複数のアンプリコンが含まれていることになる

[0043] 低精度電気泳動解析部 505では、電気泳動解析部 104によって、多種アンプリコン 'サンプル 103が解析され、その結果として多種アンプリコン電気泳動結果データ 1 05が得られることになる。多種アンプリコン 'データ蓄積部 106は、多種アンプリコン電気泳動結果データ 105と、その多種アンプリコン電気泳動データ 105に対応する多種アンプリコン'サンプル 103を構成する各アンプリコンの STR回数とを組にして蓄積する。また、新サンプル 107を新サンプル電気泳動解析部 108によって解析した結果が新サンプル電気泳動結果データ 109であり、新サンプル結果データ解析部 1 10は、新サンプル電気泳動結果データ 109に基づ、て多種アンプリコン ·データ蓄積部 106のデータを検索することにより、新サンプル 107の STR回数を解析し、その STR回数解析の結果を新サンプル解析結果 111として出力する。

[0044] 次に、この個体識別装置の動作について説明する。

[0045] まず、データベース (すなわち識別子付きサンプル解析データ蓄積部 504)にデータを蓄積するために、高精度電気泳動解析装置 502によって、識別子付きサンプル 501の各サンプルを充分な読み取り精度で解析し、これらのサンプルにおける STR 回数の情報を読み取る。その結果、識別子付きサンプル 501に含まれている DNA 中の複数の STR回数がサンプル解析結果 503として得られるので、識別子付きサンプル解析データ蓄積部 504は、サンプル解析結果 503である情報と、識別子付きサンプル 501に対応する個体の識別子とを組にして蓄積する。

[0046] 次に、個体識別の対象である新サンプル 107を低精度電気泳動解析部 505で解祈し、その解析結果として、複数の STR回数のセットである新サンプル解析結果 111 を得る。以下、低精度電気泳動解析部 505での処理について、図 2を参照して説明する。

[0047] 上述したように、複数の DNAサンプルとそれらの STR回数とが 1種アンプリコン'サンプル保管部 101に保管されているから、 1種アンプリコン'サンプル保管部 101より 2種またはそれ以上のサンプルを任意の組み合わせで選択し選択サンプル 102とし、これらの選択サンプル 102の DNAサンプルを混合して多種アンプリコン'サンプル 103を作成する。そしてこの多種アンプリコン'サンプル 103を電気泳動解析部 104 において電気泳動によって解析し、結果として多種アンプリコン電気泳動結果データ 105を得る。電気泳動解析部 103での電気泳動の結果としては、山型波形のピーク位置および山型波形の形状特徴、または、そのいずれかを用いる。山型波形の形状特徴としては、（a)ピーク高さ、（b)ピーク幅、（c)山形波形の面積、（d)波形の変曲点、のうちの 1つ以上が含まれる。電気泳動結果の解析手法は、当業者にとってよく知られており、また本発明とは直接関係しないので、その詳細な説明は省略する。

[0048] 多種アンプリコン電気泳動結果データ 105が得られたら、多種アンプリコン'データ蓄積部 106に、その多種アンプリコン電気泳動結果データ 105と選択サンプル 102 での STR回数とを組にして蓄積する。上述したように STR回数はアンプリコンの塩基長情報であるから、多種アンプリコン.データ蓄積部 106には、多種アンプリコンの塩基長情報が蓄積されることになる。これらの処理により、複数種類のアンプリコンの D NAのサンプルの組み合わせによって電気泳動の解析結果がどのようなバリエーションになるかが測定され、統計データとして得られたことになる。なお、多種アンプリコン電気泳動結果データは、 STR回数とは関連付けられるものである力複数の STR回数を有する対照用のサンプルとしてのみ用いられるものであって、実在の個体とは直接的には関連付けられるものではない。

[0049] 個体識別対象である新サンプル 107は、新サンプル電気泳動解析部 108によって、電気泳動法を用いて解析される。ここで新サンプル電気泳動解析部 108は、上述した電気泳動解析部 104とは、同一またはほぼ同等の解析性能を有するものである。単一の電気泳動解析装置を電気泳動解析部 104及び新サンプル電気泳動解析部 108として共用するようにしてもよい。新サンプル 107を新サンプル電気泳動解析部 108によって解析することにより結果として新サンプル電気泳動結果データ 109が得られるから、新サンプル結果データ解析部 110は、多種アンプリコン 'データ蓄積部 106に蓄積されている多種アンプリコン電気泳動結果データ 105のうち、新サンプル電気泳動結果データ 109と類似するものを検索することによって、新サンプル 107 の STR回数を解析すし、その解析結果を新サンプル解析結果 111として出力する。

[0050] 第 1の実施形態では、上述したように、低精度電気泳動解析部 505の読み取り精度は、高精度電気泳動解析装置 502に比べて同程度力低いことを想定している。その後、個体識別部 506 (図 1参照）は、新サンプル解析結果 111の複数の STR回数のセットと識別子付きサンプル解析データ蓄積部 504の各エントリの STR回数のセットとに重なりがある識別子を検索し、個体識別結果 507とする。個体識別結果 507には、個体識別子が、 1つ含まれている場合または複数含まれている場合があり、さらに、個体識別子が全く含まれなヽ場合もある。

[0051] 以下、読み取り精度が十分でない低精度電気泳動解析部 505を用いて新サンプル 107を解析しても、十分な精度で個体識別結果が得られることについて説明する。

[0052] 第 1の実施形態では、低精度電気泳動解析部 505の新サンプル電気泳動解析部 108もしくは電気泳動解析部 104として、従来から個体識別に用いられて、る電気泳動解析装置と比較して簡便なものを用いることを想定している。この状況では、 PCR によって 1種類のマイクロサテライト領域を増幅しょうとしても、 DNAの不完全な複製によって多少違うアンプリコンが生成される場合があることや、同じサイズのアンプリコンであってもキヤビラリ一中での移動の際に拡散の影響を受けることなどから、 1種類のマイクロサテライト領域からのサンプルを電気泳動させた場合であっても、キヤビラリー他端に到達する際にはその到達時間が前後することになる。その結果、電気泳動結果において、到達時間に対して、アンプリコンが幅をもって分布するようになり、その濃度を観察すると山型の波形になる。この現象は、電気泳動の媒体してキヤビラリーなどを用いる場合にもゲル板を用いる場合でも発生し、アンプリコンのサイズ解析の精度を低下させる。

[0053] ヘテロ接合のヒトの DNAマイクロサテライト領域にお!、て同程度のサイズのアンプリコンが 2種類ある場合、電気泳動の結果として、それぞれが別個のアンプリコンに対応する 2つの山型波形が重なり合ってしまい、見かけ上、 1つの山型波形として観察されることがある。し力しながら、 2種類のアンプリコンのサイズが、山型波形の幅に比ベて、大きく異なる場合には、 2つの山型波形は別の部位に発生するため、重なることは起こらず、各々の山型波形の位置や濃度は各アンプリコンのサイズに起因するものとして、正しく解析される。

[0054] 近接している波形が分離されなくなるのは、電気泳動時の拡散等に起因する解像度の問題であり、このような現象の発生を抑えた解像度の高い装置、すなわち読み取り精度の高、電気泳動解析装置では、解析結果における山型波形の幅が狭くなるため、 2種類のアンプリコンのサイズがほぼ同じでも、波形を分離して観測することができる。

[0055] 2種類のアンプリコンの濃度がほとんど同じである場合、 2種類のアンプリコンによつて合成によって発生する山型波形のピーク位置は、それぞれのアンプリコンの電気泳動によって生成されるであろうと考えられる 2つの山型波形のそれぞれのピークの中間に位置する。例えば、 2種類のアンプリコンカ 5の STR回数すなわち 30塩基と、 5. 2の STR回数すなわち 32塩基とであった場合は、 31塩基にピークを有する山型波形として観察される。 2bpの読み取り誤差があるとすると、このサンプルは、 30〜 32塩基として認識される。したがって、 STR回数が 5のものカゝ、 STR回数が 5. 2のものか、どちらかのものであるかの判定がつかない。

[0056] この状況を説明するために、山型波形の形状をガウス分布で近似し、 STR回数が 5 のものと、 STR回数が 5〜8の 2種類のアンプリコンを含んだ DNAサンプルを混合したものを解析した時の結果をシミュレーションした結果を図 3に示す。図 3において、 X 軸は DNAのサイズである。ここで STR繰り返しの単位が 4bp (塩基対）であることを仮定すると、 (5, 5)混合サンプル 1001は（5, 5)の混合サンプルの山型波形の形状を示している。ここで（x、 y)混合サンプルとは、 STR回数力のサンプルと STR回数が yのサンプルとを混合していることを意味する。 x=yであればホモ接合であり、 x≠y であればヘテロ接合である。図 3のシミュレーション力も分力るように、拡散等の影響によりアンプリコンを電気泳動させたときの到達時間にばらつきが生じるため、山型波形の幅が広くなつており、 STR回数が 1違うところにも影響が出ている。以下、 STR回数が 1異なることを、「 1STRの違、」のように表記する。

[0057] このように 1STR違うところに影響が出る程度、山形波形の幅が広くなるような解像度では、例えば、 (5, 7)混合サンプル 1005、 (5, 7. 2)混合サンプル 1006、 (5, 8) 混合サンプル 1007では、ヘテロ結合の DNAサンプルであるとはっきり認識できる。このため、ここで示したような解像度では、 2STR以上の違いがある混合サンプルでは、ヘテロ接合であると正しく認識できると思われる。なお、 1. 2STR (すなわち 6bp) 違いの（5, 6. 2)混合サンプル 1004でも、解像が 2bp以下であれば、正しくへテロ接合が認識できると思われる。 1STR (すなわち 4bp)違いの（5, 6)混合サンプル 10 03は、他に類似の山型波形の波形がなぐピーク位置もずれていないことから、ピーク位置を手力 Sかりにすれば、正しく認識できると思われる。

[0058] しかしながら、このような解像度において、 2つのアンプリコンの違いが 2bpである（5 , 5. 2)混合サンプル 1002では、単峰性の山形波形しか得られていない。この山形波形は、ホモ接合（（5, 5)混合サンプル 1001)の山形波形と形状が似ているために、山形波形の形状からは、ヘテロ接合なの力ホモ接合なのかを特定することができない。ホモ接合である（5, 5)混合サンプル 1001のピークと、ヘテロ接合である（5, 5 . 2)混合サンプル 1002のピークとは、位置が約 lbp程度ずれているので、 DNAの長さに対して精度の高、解析ができる場合には両者の違、を認識することは可能であるが、 DNAの長さに対する精度が低い場合には、正しい認識を行うことは難しい。

[0059] 結論として、上記のシミュレーション条件では、山形波形の形状の特異性と電気泳動の正確性を考え合わせると、 1STR以上の違いは区別できる力 1STR未満の違いでは、ホモ接合かへテロ接合かの区別ができない、ということになる。第 1の実施形態では、低精度電気泳動解析部 505内の新サンプル電気泳動解析部 108もしくは電気泳動解析部 104は、従来の電気泳動装置と比較して読み取り精度が低いとしている。したがって、高い精度での解析に基づく結果を蓄積した識別子付きサンプル解析データ蓄積部 504を、このような低精度電気泳動解析部 505によって得られたデータに基づいて直接検索し、照合を行ったとしても、完全一致するデータを検索することができないことがあり得る。これは、 2bp程度やそれよりも悪い精度を有する読み取り装置で解析を行うと、ヒトにおいて STR回数として出現し得る XXと XX. 2などとを区另 Uできな、ためである。

[0060] し力しながら、上記の例のように解像度が 2dp程度であるとして、測定された塩基長が 30塩基程度であれば、 STR回数は 5もしくは 5. 2であると判断することはできる。そこで、このような場合、 5または 5. 2の STR回数として取り扱ってデータベースを照合することにより、正しい STR回数を含むエントリの検索が可能となる。もっともこの場合、真の STR回数が 5であるとすると、 STR回数が 5. 2のものも余分に検索されてしまうことが問題となる。すなわち、解像度の悪い機器で測定された新サンプル電気泳動結果データ 109が得られた場合に、 STR回数として可能性があるものを考慮して、高、解像度のデータ力生成されたデータベースを検索した場合、新サンプル 107 に含まれている STR回数のエントリを含んで検索できる力間違ったエントリも余分に検索されてしまう。このように余分な結果も得られてしまう、という問題は、後述する他の手法、例えば多種のローカス情報を用いる方法などと組み合わせることによって、実際の使用の場面においては、実はほとんど問題にならない。

[0061] 以下、余分な結果が得られることが個体識別のための障害とはなりえないことについて説明する。

[0062] ここでは、説明のため、状況として起こりえる STR回数の種類力 4, 5, 5. 2, 6, 7 の 5通りであり、それぞれの塩基長は、 26, 30, 32, 34, 38塩基であるとする。

[0063] 例題として、 DNAサンプル (新サンプル 107)のアンプリコンの真の STR回数が（5 , 5. 2)であるとする。低い解像度（2bp程度)で新サンプル電気泳動結果データが得られて!/ヽるのであれば、 lbpなどのような高ヽ精度で読み取りを行って作成されたデータベース中の { (5, 5) , (5, 5. 2) , (5. 2, 5. 2) , (5. 2, 6) }の 4種類の STR回数のうちのどれと一致するのか区別できない場合がある。すなわち、 lbpの解像度を有する機器を用いた場合に比較して、 STR回数を特定する能力が低下する。しかしながら、解析した DNAサンプル (新サンプル 107)は、上述の 4種類以外のものではないことは、認識できる。

[0064] 同様に、新サンプルのアンプリコンの真の STR回数が（5. 2, 5. 2)であるとする。このときは、データベースとの照合の結果、 { (5, 5) , (5, 5. 2) , (5. 2, 5. 2) , (5. 2 , 6) , (6, 6) }のいずれかであるとの認識がなされることになる。真の STR回数（ここでは、（5. 2. 5. 2) )は含まれてはいるものの、真のもの以外を含めて多めに検索される。ここで、山型波形のピークの読み取り誤差、つまり正確性は、およそ 1塩基として考える。言い換えれば、 34塩基と読み取られたとしても、実際の DNAサイズとしては、 33, 34, 35塩基の可能性があるということである。解像度は 2bp程度であるとする。つまり、 2bpだけ異なるアンプリコンを有するヘテロ接合の場合、 2つの山型波形が重なり合ってしまい、 1つの山型波形として読み取られる、として考える。例えば、図 3に示した例のように、塩基長が 30bpと 32bpのアンプリコンカもなるヘテロ接合の場合には、 31bp辺りにピークがある単峰型の山型波形として読み取られる。ヘテロ接合の場合、それぞれ独立して塩基長に関して読み取り誤差が発生するとしているが、アンプリコンサイズの差力 bp以下の場合は、電気泳動結果のグラフにおいて隣接するアンプリコンなので、これらの 2つのアンプリコンの相対的な読み取り誤差は、ないとして考える。

[0065] 表 2は、 2種類のアンプリコンの混合物の電気泳動結果の例を示すものであって、上記の状況において 2種類のアンプリコンの混合物力電気泳動によってどのように解析されるかを示したものである。行頭の番号が * *であるのは、観測される DNA サイズの対が同じであるものが存在することを示す。例えば、真の STR回数が（4, 5) の場合と (4, 5. 2)の場合では、電気泳動解析装置によって、両方とも（25bp, 31bp )の組み合わせと解析される可能性があることを示して、る。

[0066] [表 2]

2種類のアンプリコンの混合物の電気泳動結果の例

1 (25bp 25bp) < - (26bp 26bp〕 = (4 4) 42 (30bp 33bp) < - (30bp 34bp)= (5 6)

2 (25bp 29bp) (26bp 30bp (4 5) 43 (30bp 34bp) < - (30bp 34bp)= (5 6)

3 (25bp 30bp) (26bp 30bp〕 = (4 5) 44 (30bp 35bp) (30bp 34bp)= (5 6)

4 (25bp 31bp) (26bp 30bp〕 = (4 5) 45 (30bp 37bp) (30bp 38bp)= (5 7)

** (25bp 31bp) (26bp 32bp) = (4 5.2) 46 (30bp 38bp) - (30bp 38bp)= (5 7)

5 (25bp 32bp) (26bp 32bp〕 = (4 5.2) 47 (30bp 39bp) < - (30bp 38bp)= (5 7)

6 (25bp 33bp) (26bp 32bp〕 = (4 5.2) 48 (31bp 31bp) (30bp 30bp)= (5 5)

* + (25bp 33bp) (26bp 34bp〕 = (4 6) ** (31bp 31bp) (30bp 32bp)= (5 5.2)

7 (25bp 34bp) (26bp 34bp〕 = (4 6) Olbp 31bp) (32bp 32bp)= (5 2 , 5 .2)

8 (25bp 35bp) (26bp 34bp〕 = (4 6) 49 (31bp 33bp) (30bp 34bp)= (5 6)

9 (25bp 37bp) (26bp 38bp〕 = (4 7) 50 Olbp 34bp) (30bp 34bp)= (5 6)

10 (25bp 38bp) (26bp 38bp〕 = (4 7) 51 (31bp 35bp) (30bp 34bp)= (5 6)

11 (25bp 39bp) (26bp 38bp〕 = (4 7) 52 Olbp 37bp) (30bp 38bp)= (5 7)

12 (26bp 26bp) (26bp 26bp〕 = (4 4) Olbp 37bp) (32bp 38bp)= (5 2 ,7)

13 (26bp 29bp) < - (26bp 30bp) = (4 5) 53 Olbp 38bp) C30bp 38bp)= C5 7)

14 (26bp 30bp) (26bp 30bp) = (4 5) ** Olbp 38bp) (32bp 38bp)= C5 2 ,7)

15 (26bp 31bp) (26bp 30bp) = (4 5) 54 Olbp 39bp) (30bp 38bp)= C5 7)

+* (26bp 31bp) (26bp 32bp〕 = (4 5.2) (31bp 39bp) (32bp 38bp)= (5 2 ,7)

16 (26bp 32bp) (26bp 32bp〕 = (4 5.2) 55 (32bp 32bp) - (30bp 32bp)= (5 5.2)

17 (26bp 33bp) (26bp 32bp〕 = (4 5.2) ** (32bp 32bp) < - (32bp 32bp)= (5 2 , 5.2)

** (26bp 33bp) (26bp 34bpJ = (4 6) ** (32bp 32bp) (32bp 34bp)= (5 2 ,6)

18 (26bp 34bp) (26bp 34bp〕 = (4 6) 56 (32bp 37bp) (32bp 38bp)= (5 2 ,7)

19 (26bp 35bp) < - (26bp 34bp) = (4 6) 57 (32bp 38bp) C32bp 38bp)= C5 2 ,7)

20 (26bp 37bp) < - (26bp 38bp) = (4 7) 58 (32bp 39bp) (32bp 38bp)= C5 2 ,7)

21 (26bp 38bp) (26bp 38bp) = (4 7) 59 (33bp 33bp) (32bp 32bp)= (5 2 , 5 .2)

22 (26bp 39bp) < - (26bp 38bp) = (4 7) ** (33bp 33bp) (32bp 34bp) C5 2 ,6)

23 (27bp 27bp) < - (26bp 26bp) = (4 4) ** (33bp 33bp) (34bp 34bp)= C6 6)

24 (27bp 2 bp) < - (26bp 30bp) = (4 5) 60 (33bp 37bp) (32bp 38bp)= C5 2 ,7)

25 (27bp 30bp) (26bp 30bp) = (4 5) ** (33bp 37bp) (34bp 38bp)= C6 7)

26 (27bp 31bp) (26bp 30bp) = (4 5) 61 (33bp 38bp) (32bp 38bp)= C5 2 ,7)

** (27bp 31bp) (26bp 32bp) = (4 5.2) ** (33bp 38bp) (34bp 38bp)= C6 7)

27 (27bp 32bp) (26bp 32bp) = (4 5.2) 62 (33bp 39bp) (32bp 38bp)= (5 2 ,7)

28 (27bp 33bp) (26bp 32bp) = (4 5. 2) ** (33bp 39bp) (34bp 38bp)= C6 7)

** (27bp 33bp) (26bp 34bp) = (4 6) 63 (34bp 34bp) (32bp 34bp)= C5 2 ,6)

29 (27bp 34bp) < - (26bp 34bp) = (4 6) ** (34bp 34bp) C34bp 34bp)= C6 6)

30 (27bp 35bp) (26bp 34bp) = (4 6) 64 (34bp 37bp) (34bp 38bp) C6 7)

31 (27bp 37bp) (26bp 38bp) = (4 7) 65 (34bp 38bp) (34bp 38bp)= C6 7)

32 (27bp 38bp) (26bp 38bp) = (4 7) 66 (34bp 39bp) (34bp 38bp)= C6 7)

33 (27bp 39bp) (26bp 38bp) = (4 7) 67 (35bp 35bp) < - (34bp 34bp)= C6 6)

34 (29bp 29bp) (30bp 30bp) = (5 5) 68 (35bp 37bp) (34bp 38bp)= C6 7)

35 (29bp 33bp) (30bp 34bp) = (5 6) 69 (35bp 38bp) (34bp 38bp)= C6 7)

36 (29bp 34bp) < - (30bp 34bp) = (5 6) 70 (35bp 39bp) C34bp 38bp)= C6 7)

37 (29bp 35bp) (30bp 34bp) = (5 6) 71 (37bp 37bp) (38bp 38bp) C7 7)

38 (29bp 37bp) (30bp 38bp) = (5 7) 72 (38bp 38bp) (38bp 38bp)= C7 7)

39 (29bp 38bp) (30bp 38bp) = (5 7) 73 (39bp 39bp) (38bp 38bp)= C7 7)

40 (29bp 39bp) (30bp 38bp) = (5 7)

41 (30bp 30bp) 30bp)一 (5 5)

** (30bp 30bp) 32bp) (5 5.2)

(観測される DNAサイズの対）（真のサイズの対） = (真の STR回数）のフォーマット行頭の番号が **であるのは、同じ（観測される DNAサイズの対）が存在する。 BIによる複合 DN Aインデックスシステム（CODIS)等で使用されて!、るローカスの DNAデータを調べてみると、 XX. 1、 XX. 2または XX. 3と記載される、 STR回数が非整数であるものの発現回数が少ない。以下の説明において、 XX. l、xx. 2および XX. 3のいずれ力のことを、 XX. { 1, 2, 3}と表記する。例えば、上述した表 1に示した口一カス FGAの多様性を示すデータでは、 STR回数には 18通りの STR回数が存在し、そのうち 4種類のみが非整数の回数のもの、ここでは XX. 2のタイプのものである。

[0068] 上述した Budowleらの論文（非特許文献 1)中で公表されている" dnaloci. txt"には、アフリカ系アメリカ人におけるローカス FGAの多様性を示すデータだけでなぐ他のローカス、他の人口グループ（population group)における同様の多様性に関するデータを含んでいる。以下、 Budowleらの論文に付属する生データ" dnaloci. txt "を用いて、第 1の実施形態の個体識別装置が個体を正確に識別できることを説明する。表 3は、以下の説明において用いるデータの概要を示したものであって、ローカスごとの STR回数と出現頻度との関係を示している。ここでは、 4bp程度の精度で解析することが難ヽと思われる STR回数のものに限って示してヽる。

[0069] [表 3]

表 3 口一カスごとの S T R回数と出現頻度

4 b P程度の精度で解析することが難しいと思われる S T R 回数のものに限る

こで用いるデータには、アメリカ合衆国における 6つの人口グループ（アフリカ系ァメリ力人（AFRICAN AMERICAN)、米国カフカス人（U. S. CAUCASIAN)、南部ヒスパニック（SOUTHWESTERN HISPANIC)、バハマ人（BAHAMIAN) ,ジャマイカ人 (JAMAICAN) ,トリ-ダード人（TRINIDADIAN) )につ!/ヽてのデータを含んでいる。以下、平均的な能力を知るために、アメリカ合衆国における人ログループの構成比として、アフリカ系アメリカ人が 25%、米国カフカス人が 45%、南部ヒスパニックが 20%、残り 10%がバハマ人、ジャマイカ人、トリ-ダード人であるとする。仮に、バハマ人、ジャマイカ人、トリ-ダード人の割合をそれぞれ 4, 4, 2%と仮定し

、データを作成して、統計的な解析を進める。また、上記生データ中で "く XX" , " > x

X"などの表記は、 XXよりも STR回数が小さ!/、ものや大き!/、ものの確率を示すものであるが、処理が煩雑になり、また、出現回数が少ないために、省略した。

[0071] XX. { 1, 2, 3}のタイプの STR回数は、 7つのローカス（CSF1PO, D18S51, D2 1S11, D3S1358, D7S820, FGA, THOl)に含まれ、合計 32種類である。 STR 回数の種類を全ローカスにわたって総計を求めると 163種類であるので、種類の比率としては、 XX. { 1, 2, 3}型のデータは、 19%となる。 XX. { 1, 2, 3}の出現比率は、 3. 85%である。

[0072] CODIS自体は 13種類のローカスを用いるものであって、これらのローカスにおいて XX. { 1, 2, 3}の出現頻度は、合計すると 50. 65%となる。なお全 13ローカスなので、頻度の総計は 1300%となる。頻度データに注目すると、ローカス D21S11では X X. { 1, 2, 3}の頻度が多いが、それ以外のローカスでは、 XX. { 1, 2, 3}頻度が非常に少なく、 XX. { 1, 2, 3}型の STR回数にあまり遭遇しな!、と!/、える。つまり、 XX. { 1, 2, 3}と XXの区別ができない装置を用いて、 STR回数がおよそ 18と判定された場合、真の STR回数は 18もしくは 18. 2であるが、 18. 2の発現回数が 0. 014と少ないので、 18と 18. 2を 1つにまとめて判断しても、判別能力がほとんど変わらない、と予想される。なお、正確な見積もりについては後述する。

[0073] 認識能力を正確に見積もるために、各人の各 STR回数が独立して出現するものとする。その時に偶然に 2人の STR回数が一致する確率について考える。これは、識別力（Discrimation Power)と呼ばれる値であり、ある解析手法がどのくら、の認識能力を有するかを示す量である。偶然に 2人の STR回数が一致する確率が低、程、認識能力が高いとされる。

[0074] 表 3に示したアメリカ合衆国での 6つの人口グループのデータの混合の例で考えると、 FGAの 1つの STR回数が 25である確率は 0. 100、 24である確率が 0. 186となる。したがって、ランダムに選んだ 1人の FGAが（24, 25)である確率は、 0. 100 X 0 . 186 X 2となる。ここで、ランダムに選んだ 2人の FGA力偶然にともに FGAが（24 , 25)である確率は、（0. 100 X 0. 186 X 2) ²となる。 FGAを用いた場合の識別力は、全ての FGAに関する STR回数の組み合わせについてランダムに選んだ 2人がともに同じ STR回数である確率であるので、以下の総和で求めることができる。ただし、注意しないといけないのは、上記のへテロ接合の例とは違うホモ接合の場合であり、ホモ接合の場合には、出現確率は、例えば、（24, 24)の場合は、 0. 186 X 0. 186 のように、ヘテロ接合の場合と異なって、 2倍にするための項が出てこない。

[0075] ヘテロ接合とホモ接合のそれぞれについての出現確率は以下のようになる。

[0076] ヘテロ接合の場合：

[0077] [数 1]

y S T R回数が iの出現確率) X (S T R回数が j の出現確率) X 2)² i,ゾ， i≠ゾ

[0078] ホモ接合の場合：

[0079] [数 2]

Z(S T R回数が iの出現確率)⁴

I

[0080] 正確な見積もりとしては、上述したように、 STR回数の組み合わせが 5人以下の場合は 5人いたとして確率を計算する力このデータでは、 6通りの人口グループのデータをミックスして仮想しているために、そこまでの正確性は必要ないものとして、そのような計算を行うことは省略した。

[0081] ローカス FGAの場合には、識別力、すなわち 2人の STR回数が偶然にマッチする確率は、 0. 30391となる。 CODISで用いられている他のローカスについて、識別力は表 4に示すようになる。表 4は、ローカスごとの識別力と、 13種類のローカスすベてを用いたときにランダムに選んだ 2人の STR回数のすべてが一致する確率とを示している。

[表 4]

表 4 口一カスごとの識別力と、 1 3種類の口一カスのすべてを用いたときにランダムに選んだ 2人の S T R回数の全てが一致する確率

[0083] 表 4の左から 3カラム目のカツコ内の数字は、「識別力（すなわち、偶然にマッチする確率）」の—log 表記である。したがって、カツコ内の数字が 1. 0の場合、 10人に 1

10

人の割合で偶然に STR回数が合致することを意味する。最後のカラムの数字は、口一カスごとの STR回数の種類数である。 STR回数の種類数が多いと、偶然にマッチする確率は低くなる。もっとも、 STR回数の種類数が同じであったとしても、 STR回数の分布に偏りがあるあるため、「偶然にマッチする確率」が同じになるわけではない。

[0084] 上記の 13通りのローカスにおける全 163種類の STR回数を用いた時、ランダムに選んだ 2人が偶然に一致する確率は、ローカスごとの識別力の積であるから、 6. 444 986 Χ 10^_16 ( = 10_¹⁵· ¹⁹⁰⁷⁷⁸)となり、 1. 551594 X 10+¹⁵人（ = 1Ζ6. 444986 X 1 0"¹⁶)に 1人の確率で合致することになる。

[0085] 第 1の実施形態では、上述したような条件で、低精度電気泳動解析部 505内の新サンプル電気泳動解析部 108もしくは電気泳動解析部 104を用いて、 DNAサンプルすなわち新サンプル 107の解析結果を新サンプル解析結果 111として得て、この解析結果に基づいてデータベースを検索することにより、 DNAサンプルに含まれている STR回数のエントリを検索できる。この場合、上述したように、間違ったエントリも余分に検索されてしまう。そこで、間違ったエントリも余分に検索されてしまうような状況において「ランダムに選んだ 2人が偶然に一致する確率」を考える。

[0086] 低精度電気泳動解析部 505を用いたことによる低、精度読み取り精度のために、 X Xと XX. 2と xx+ 1の区別がつかないとする。つまり、これらが「1種類の STR回数として認識される」といった状況を考える。表 5は、このような状況における識別力を、電気泳動における解析精度が lbp程度である場合の識別力と対比して示したものであり、低精度電気泳動解析装置を用いた場合における、ローカスごとの識別力と、 13種類のローカスすベてを用いたときにランダムに選んだ 2人の STR回数のすべてが一致する確率とを示している。

[0087] [表 5] 表 5 低精度電気泳動解析装置を用いた場合における、口一カス

ごとの識別力と、 1 3種類の口一カスのすべてを用いたときに

ランダムに選んだ 2人の S T R回数がすべて一致する確率

表 5の 1番左のカラムはローカス名を示し、左から 2番目と 3番目のカラムは、解析精度が lbp程度である高精度電気泳動解析装置を用いたときの識別力とその—log 表記を示している。なお、左から 2番目と 3番目のカラムにおける数値は、表 4に示したものと同じである。低精度電気泳動解析装置と記載されている表 5の左から 4番目のカラムは、上述したような解像度が 4bpである低精度電気泳動解析部 505を用いたことによる識別力を示し、 5番目のカラムは、 4番目のカラムの識別力を log 表記

10 したものである。表 5の右端のカラムは、 3番目のカラムと 5番目のカラムとの間の差を示している。右端のカラムの数値を cとして、その 10のべき乗、すなわち 10^eを考えると、低精度電気泳動解析部 505を用いたことにより、識別力が 10^eだけ低下することになる。

[0089] ローカス D12S317, D16S539, D5S818, D8S1179, TPOX, vWAでは、 ST R回数において XX. { 1, 2, 3}のタイプのものが存在しないことにより、電気泳動における精度が上述したように低下したとしても、異なる STR回数を正確に識別することができ、したがって、識別力の低下は起こらない。このことは、表 5において、右端のカラムの値力 SOであることによって示されている。これに対し、ローカス D21S11, TH Olでは、右端のカラムに示された値が、—log 表記での差として、 0. 2程度である

10

ことから、 0. 63 ( = 10_ · ²)倍に、識別力が低下することが分かる。

[0090] 表 5の最下行に示すように、ここで示した 13ローカスの全部の STR回数を用い、上述したような低精度電気泳動解析部 505を使用したとすると、ランダムに選んだ 2人が偶然に一致する確率は、 1. 972332 Χ 10^_15 ( = 10^_14· ^7()5()2())となり、 5. 07014 X 10+¹⁴人に 1人の確率で合致することになる。ここで用いている 13ローカスは、 CO DISで用いられている 13ローカスと同じである。

[0091] これに対し、従来用いられているように、解析精度が ldpである電気泳動解析装置を用い、 13ローカスの全部の STR回数を用いた時、ランダムに選んだ 2人が偶然に一致する確率は、 6. 444986 Χ 10^_16 ( = 10_¹⁵· ¹⁹⁰⁷⁷⁸)となり、 1. 551594 X 10+¹⁵ 人（ = 1Ζ6. 444986 X 10"¹⁶)に 1人の確率で合致することになる。つまり、低精度電気泳動解析部 505を用いたことによって、 CODISなどで使用されている 13ロー力スでは、識別力が 1/ (1. 551594 X 10+¹⁵)力ら 1/ (5. 07014 X 10⁺¹⁴)に悪ィ匕することが分かる。すなわち、 0. 3267699倍に識別力が悪ィ匕することが分かる。

[0092] 平均的に、検索条件として STR回数を 1回使用するごとに対象を 1Z10程度の絞り込めることを考えると、 CODISの 13ローカスを用いて個体認識を行う場合、分解能力 Slbpである電気泳動解析装置を用いるときと分解能が 4bpである電気泳動解析装置を用いるときとの認識能力差 (0. 32677699倍）は、「ある 1つのローカスの情報を使わな力つた」のと同程度か、それ以下の認識能力の低下とみなすことができる。

[0093] 識別力を用いて、「目の前にあるサンプルの STR回数がデータベースのうちのあるエントリと一致したとき、それはどのくらい起こりえるか？」の指標を計算することができる。この数字は、鑑定の証明力などを立証するために法廷などで使用される数字である。識別力は「ランダムに選んだ 2人がともに同じ個体の遺伝子型である確率」であるのに対し、この指標は、「目の前にあるサンプルの STR回数がデータベースのうちのエントリと一致して、他の n人のサンプルの STR回数はデータベースと一致しな!、」確率を示している。ここで、「ランダムに選んだ 2人がともに同じ個体の遺伝子型である確率」を Pとすると、「データベースと一致しない」確率は、 1 pとなる。それが n人なので、 n人の全てがデータベースと一致しない確立は、（l—p)ⁿとなる。このようなことそれ自体が滅多に起こらないよう、 1%以下の危険率で計算すると、（1 p)ⁿ≥l— 0 . 01が得られる。

[0094] この状況をアメリカ合衆国規模の人口に当てはめると、 nは 3億人となり、 (l -p)ⁿ^

1 npと近似でさることに注意すると、 p≤3. 33 X 10—¹¹となる。

[0095] この数字と、 lbpの解像度で読み取った時のランダムに選んだ 2人の STR回数が偶然に一致する確率の 6. 444986 X 10"¹⁶ ( = 10^_15' ¹⁹⁰⁷⁷⁸)と、 4bpの解像度で読み取った時のランダムに選んだ 2人の STR回数が偶然に一致する確率の 1. 97233 2 Χ 10"¹⁵ ( = 10"¹⁴· ⁷⁰⁵⁰²⁰)とを比較する必要がある。

[0096] (1 ρ)^η ≥ 1 危険率

1 -ηρ ≥ 1—危険率

危険率 ≥ ηρ

に注意すると、 lbpの解像度で読み取った時の危険率と、上記の条件に示すような低い解像度（4bp)での危険率は、それぞれ、 1. 933496 X 10"⁷ ( = 6. 444986 X 10^_16 X 3 X 10⁸)、 5. 916996 X 10"⁷ ( = 1. 972332 X 10^_15 X 3 X 10⁸)となる。低ヽ解像度の場合の危険率は、 lbpの場合の危険率に比べて約 3倍大き、。 [0097] 以上まとめると、従来の高い解像度で解析した時には、「目の前にあるサンプルの S TR回数がデータベースのうちのエントリと一致して、他の n人のサンプルの STR回数はデータベースと一致しなヽ」と言うことに対して、 99. 99998% ( = 1. 0- 1. 9334 96 X 10^_7)の確からしさで表明できる。これに対し、低精度電気泳動解析部 505の低い読み取り精度のために、 XXと XX. 2と xx+ 1の区別がつかない状況では、「目の前にあるサンプルの STR回数がデータベースのうちのエントリと一致して、他の n人のサンプルの STR回数はデータベースと一致しない」と言うことに対して、 99. 9999 4% (= 1. 0- 5. 916996 X 10—⁷)の確からしさで表明するかの違いになる。つまり、「ランダムに選んだ 2人がともに同じ個体の遺伝子型である確率」が、小数点第 5位の値が多少変化するだけなので、実用上ほとんど問題にならないことがわ力る。

[0098] 《第 2の実施形態》

次に、本発明の第 2の実施形態の個体識別装置を説明する。この個体識別装置は、図 1に示した第 1の実施形態の個体識別装置と同様のものであるが、低精度電気泳動解析部 505の構成において異なっている。図 4は、第 2の実施形態の個体識別装置における低精度電気泳動解析部 505の構成を示している。

[0099] 上述した第 1の実施形態では、多種アンプリコン 'データ蓄積部 106に蓄積されるべきデータの作成において、全ての組み合わせの多種アンプリコン'サンプル 103を用意したが、この第 2の実施形態では、すべての組み合わせの多種アンプリコン 'サンプル 103を用意するのではなぐ適当な組み合わせで STR回数の DNAサンプル（選択サンプル 102)を用意してこれらを混合して多種アンプリコン'サンプル 103を生成し、電気泳動解析部 104によって解析し、解析により得られた多種アンプリコン電気泳動結果データ 105を多種アンプリコン ·データ蓄積部 106に保存する。この場合、アンプリコンの考えられる組み合わせのうち、実際に多種アンプリコン.サンプル 10 3が生成されていない STR回数の組み合わせが存在する力このような STR回数の組み合わせに関しては、測定済みの多種アンプリコン 'データ蓄積部 106のデータから、シミュレーション方法などを用いた補間などにより、データを生成する。このため、第 2の実施形態では、低精度電気泳動解析部 505は、測定されて多種アンプリコン' データ蓄積部 106に蓄積されたデータから、補間によってデータを生成する補間データ作成部 201と、補間データ生成部 201で生成されたデータを補間する補間データ蓄積部 202と、を備えている。新サンプル結果データ解析部 110は、新サンプル 1 07を電気泳動で解析した結果である新サンプル電気泳動結果データ 109と多種ァンプリコン'データ蓄積部 ₁₀6に蓄積されたデータと補間データ蓄積部 202に蓄積されたデータとを比較解析することによって、新サンプル 107の STR回数を推定し、新サンプル解析結果 111として出力する。

[0100] 《第 3の実施形態》

次に、本発明の第 3の実施形態の個体識別装置を説明する。この個体識別装置は、図 1に示した第 1の実施形態の個体識別装置と同様のものであるが、低精度電気泳動解析部 505の構成において異なっている。図 5は、第 3の実施形態の個体識別装置における低精度電気泳動解析部 505の構成を示している。

[0101] 上述した第 1の実施形態では、多種アンプリコン 'データ蓄積部 106に蓄積されるべきデータの作成において、全ての組み合わせの多種アンプリコン'サンプル 103を用意したが、この第 3の実施形態では、すべての組み合わせの多種アンプリコン 'サンプル 103を用意するのではなぐ適当な組み合わせで STR回数の DNAサンプル（選択サンプル 102)を用意してこれらを混合して多種アンプリコン'サンプル 103を生成し、電気泳動解析部 104によって解析し、解析により得られた多種アンプリコン電気泳動結果データ 105を多種アンプリコン ·データ蓄積部 106に保存する。この場合、アンプリコンの考えられる組み合わせのうち、実際に多種アンプリコン.サンプル 10 3が生成されていない STR回数の組み合わせが存在する力第 3の実施形態では、新サンプル結果データ解析部として、パラメータ推定機能を有するパラメータ推定機能付き新サンプル結果データ解析部 301を使用する。

[0102] ノメータ推定機能付き新サンプル結果データ解析部 301は、新サンプル 107を新サンプル電気泳動解析部 108で解析した結果である新サンプル電気泳動結果データ 109に基づいて多種アンプリコン 'データ蓄積部 106内のデータを検索し、新サンプル電気泳動結果データ 109を解析する際に、多種アンプリコン 'データ蓄積部 1 06に既に蓄積されているデータを用いて、 STR回数の変化に基づく新サンプル電気泳動結果データ 109の変化の様子をパラメータ化し、解析に用いる。パラメータ推定機能付き新サンプル結果データ解析部 301は、新サンプル電気泳動結果データ 1 09の STR回数を解析して新サンプル解析結果 111を出力する。

[0103] 《第 4の実施形態》

次に、本発明の第 4の実施形態の個体識別装置を説明する。この個体識別装置は、図 1に示した第 1の実施形態の個体識別装置と同様のものであるが、低精度電気泳動解析部 505の構成において異なっている。図 6は、第 4の実施形態の個体識別装置における低精度電気泳動解析部 505の構成をしている。

[0104] 第 1の実施形態では、多種アンプリコン 'サンプル 103を生成して電気泳動によって解析し、解析結果を多種アンプリコン 'データ蓄積部 106に格納するようにしていた力第 4の実施形態では、多種アンプリコン 'サンプルを生成することなく 1種アンプリコン 'サンプルのままで電気泳動解析を行い、その電気泳動解析から、複数のアンプリコンを含むサンプルの解析結果を補間によって求めて蓄積し、蓄積された結果に基づヽて新サンプル電気泳動結果データ 109を解析することによって、新サンプル 1 07に対する解析結果を新サンプル解析結果 111として得るようにしてヽる。

[0105] すなわち、第 4の実施形態において、低精度電気泳動解析部 505は、低精度電気泳動解析部 505は、 1種アンプリコン 'サンプル保管部 101と、 1種アンプリコン 'サンプル保管部 101から選択された DNAサンプル（選択サンプル 102)を電気泳動によつて解析する電気泳動解析部 104と、電気泳動解析部 104から出力される 1種アンプリコン電気泳動結果データ 401を蓄積する 1種アンプリコン 'データ蓄積部 402と、 1種アンプリコン 'データ蓄積部 402に蓄積されたデータに基づいて補間多種アンプリコン ·データを作成する補間多種アンプリコン'データ作成部 403と、作成された補間多種アンプリコン 'データを蓄積する補間多種アンプリコン 'データ蓄積部 404と、新サンプル 107を電気泳動によって解析する新サンプル電気泳動解析部 108と、新サンプル電気泳動解析部 108が出力する新サンプル電気泳動結果データ 109に基づいて 1種アンプリコン ·データ蓄積部 402及び Zまたは補間多種アンプリコン ·デ一タ蓄積部 404内を検索し、検索結果を新サンプル解析結果 111として出力する新サンプル結果データ解析部 110と、を備えている。

[0106] ここで、 1種アンプリコン'サンプル保管部 101は、それぞれが 1種類ずつのアンプリコンを含んだ DNAのサンプルである 1種アンプリコン'サンプルを複数個保管するものであり、アンプリコン*サンプルごとにそれらのサンプルにおける STR回数も保持している。選択サンプル 102は、 1種アンプリコン 'サンプル保管部 101の中から 1種のサンプルを選択したものである。選択サンプル 102を電気泳動解析部 104によって電気泳動によって解析した結果が 1種アンプリコン電気泳動結果データ 401があり、 1種アンプリコン'データ蓄積部 402には、 1種アンプリコン電気泳動結果データ 401 と、その 1種アンプリコン電気泳動結果データ 401に対応するアンプリコンの STR回数を組にして蓄積する。第 4の実施形態では、 1種アンプリコン 'サンプル保管部 101 より全てのサンプルを選択してそれぞれ選択サンプル 102とし、電気泳動の結果がどのようなノリエーシヨンになるかを測定し、統計データとする。

[0107] 第 4の実施形態では、複数のアンプリコンを含むサンプルが示すであろう電気泳動結果を補間法で求める。そのため、補間多種アンプリコン 'データ作成部 403は、 1 種アンプリコン.データ蓄積部 402に蓄積されているデータから、シミュレーション方法などを用いてそのようなデータ、すなわち補間多種アンプリコン'データを作成し、その作成された補間多種アンプリコン 'データを補間多種アンプリコン 'データ蓄積部 404に保管する。

[0108] 新サンプル結果データ解析部 110は、新サンプル 107を電気泳動で解析した結果である新サンプル電気泳動結果データ 109と補間多種アンプリコン 'データ蓄積部 4 04に蓄積されたデータとを比較解析することによって、新サンプル 107の STR回数を推定し、新サンプル解析結果 111として出力する。

[0109] 第 4の実施形態の別の例では、 1種アンプリコン 'サンプル保管部 101に格納されている全ての 1種アンプリコン'サンプルをそれぞれ選択サンプル 102とするのではなく、 1種アンプリコン 'サンプル保管部 101から一部のサンプルを選択し選択サンプル 102としてもよ!/ヽ。

[0110] なお第 4の実施形態では、新サンプル結果データ解析部 110は、新サンプル電気泳動結果データ 109を解析する際に、補間多種アンプリコン 'データ蓄積部 404に蓄積されたデータにカ卩え、 1種アンプリコン 'データ蓄積部 402に蓄積されている 1種アンプリコン電気泳動結果データ 401を使用するようにしてもよい。 [0111] 《第 5の実施形態》

図 7は、本発明の第 5の実施形態の個体識別装置の構成を示している。この個体識別装置は、第 1の実施形態のものと類似しているが、識別子付きサンプル 501の解祈に高精度電気泳動解析装置ではなぐ低精度電気泳動解析部 505を用いる点で、第 1の実施形態のものと大きく異なっている。低精度電気泳動解析部 505は、識別子付きサンプル 501の各サンプルを、低い精度で解析し、その結果を低精度識別子付きサンプル解析結果 601として出力する。低精度識別子付きサンプル解析結果 6 01は、識別子付きサンプル 501の個体ごとに、識別子とともに低精度識別子付きサンプル解析データ蓄積部 602に蓄積される。

[0112] 個体認識の対象である新サンプル 107は、第 1の実施形態と同様に低精度電気泳動解析部 505で解析され、その結果、新サンプル解析結果 111が得られる。低精度個体識別部 603は、低精度識別子付きサンプル解析データ蓄積部 602を参照して、新サンプル解析結果 111と共通の STR回数を有するエントリを検索し、見つかったエントリを低精度個体識別結果 604として出力する。

[0113] 電気泳動における解析精度が低下すれば、その分、識別力も低下するが、第 1の実施形態において説明したように、識別力がどれだけ低下するかを評価することができる。識別子付きサンプル 501に対する電気泳動解析の解像度の低下は、実効的に、識別子付きサンプル 501に対する解析精度は低下しなカゝつたものの新サンプル解析結果 111における解析精度がさらに低下したものとして扱うことができる。そのように新サンプル解析結果 111における解析精度がさらに低下したとして識別力を算出し、それが許容できるものであれば、識別子付きサンプル 501を低精度電気泳動解析部 505で解析したとしても、問題は生じない。

[0114] 《第 6の実施形態》

図 8は、本発明の第 6の実施形態の個体識別装置の構成を示している。この個体識別装置は、第 1の実施形態のものと類似しているが、新サンプル 107を低精度電気泳動解析部 505で解析して識別子付きサンプル解析データ蓄積部 504内のデータと照合し、個体識別結果 507を得た際に、その個体識別結果 507によれば新サンプル 107が複数の個体の STR回数と一致する可能性がある場合、新サンプル 107 を改めて高精度電気泳動解析装置 502で解析する点で、第 1の実施形態とは異なつてヽる。新サンプル 107を高精度電気泳動解析装置 502で解析するとサンプル結果 503が得られる。この個体識別装置は、高精度個体識別部 701を備えており、高精度個体識別部 701は、新サンプル 107から得られたサンプル解析結果 503に基づき、識別子付きサンプル解析データ蓄積部 504内のエントリのうち、サンプル解析結果 503と共通の STR回数を有するエントリを検索し、検索結果を高精度個体識別結果 702として出力する。

[0115] 《第 7の実施形態》

図 9は、本発明の第 7の実施形態の個体識別装置の構成を示している。この個体識別装置は、第 5の実施形態（図 7参照)の場合と同様の手順によって低精度識別子付きサンプル解析結果 601が蓄積される低精度識別子付きサンプル解析データ蓄積部 602と、第 6の実施形態（図 8参照)の場合と同様の手順によって識別子付きサンプル 501のサンプル解析結果 503が蓄積される識別子付きサンプル解析データ蓄積部 504と、を備えている。そしてこの個体識別装置では、第 5の実施形態の場合と同様にして、新サンプル 107をまず低精度電気泳動解析部 505で解析して新サンプル解析結果 111を取得し、低精度個体識別部 603は、新サンプル解析結果 111 に基づ!/ヽて低精度識別子付きサンプル解析データ蓄積部 602を検索して、低精度個体識別結果 604を出力する。この低精度個体識別結果 604において、個体識別されたエントリが 1つまたは複数ある場合には、今度は、第 1の実施形態などの場合と同様に、先に求めた新サンプル解析結果 111に基づき、個体識別部 506によって識別子付きサンプル解析データ蓄積部 504内を参照し、新サンプル解析結果 111の S TR回数のセットと識別子付きサンプル解析データ蓄積部 504の各エントリの STR回数のセットとに重なりがある識別子を検索し、その検索結果を個体識別結果 507とする。

[0116] この個体識別結果 507において検索されたエントリが 1または複数存在する場合には、識別子付きサンプル解析データ蓄積部 504に完全一致するエントリが存在する可能性がある。これを調査するために、次に、第 6の実施形態の場合と同様にして新サンプル 107を高精度電気泳動解析装置 502で解析し、サンプル解析結果 503を得る。高精度個体識別部 701は、新サンプル 107から得たサンプル解析結果 503に基づいて、識別子付きサンプル解析データ蓄積部 504中のエントリのうちサンプル解析結果 503と共通の STR回数を有するエントリを検索し、検索結果を高精度個体識別結果 702として出力する。

[0117] 《第 8の実施形態》

図 10は、本発明の第 6の実施形態の個体識別装置の構成を示している。この個体識別装置は、 DNA解析を行うとともに、指紋などの他の個体識別情報 (バイオメトリツク情報）を用いて個体識別を行うものである。ここでは、 DNAサンプル 902と指紋サンプル 906などを採取できる対象を新サンプル取得対象 901として、新サンプル取得対象 901の個体識別を行う場合を説明する。

[0118] この個体識別装置は、 DNA解析に基づく個体識別部 903と、識別子付き DNA解析データ蓄積部 904と、指紋解析に基づく個体識別部 907と、識別子付き指紋解析データ蓄積部 908と、複数情報に基づく個体識別部 910と、を備えている。ここで、 D NA解析に基づく個体識別部 903は、上述の各実施形態のいずれかにおける個体識別装置と同様のものであり、 DNAサンプル 902 (上述の各実施形態における新サンプル 107)を解析し、その解析結果に基づ!、て識別子付き DNA解析データ蓄積部 904を検索し、検索結果を DNA解析に基づく個体識別結果 905として出力する。識別子付き DNA解析データ蓄積部 904は、上述の実施形態における識別子付きサンプル解析データ蓄積部 504 (あるいは低精度識別子付きサンプル解析データ蓄積部 602)に該当するものであり、識別子付き、すなわち起源が明確である、 DNAサンプルにおける解析結果を蓄積したものである。

[0119] 同様に、識別子付き指紋解析データ蓄積部 908は、識別子付き、すなわち起源が明確である、指紋データを解析した結果を蓄積するものである。指紋解析に基づく個体識別部 907は、新サンプル取得対象 901から採取した指紋サンプル 906について、指紋解析を行い、識別子付き指紋解析データ蓄積部 908を参照して、指紋サンプル 906がどの個体に識別されたかを示す情報を指紋解析に基づく個体識別結果 90 9として出力する。なお、指紋解析の技法に関しては、当業者にとってよく知られており、また本発明とは直接関係しないので、その詳細な説明は省略する。 [0120] このように、 DNA解析に基づく個体識別結果 905と指紋解析に基づく個体識別結果 909が得られると、複数情報による個体識別部 910は、これらの個体識別結果 90 5、 906を組み合わせることにより、複数情報による個体識別結果 911を出力する。第 8の実施形態の個体識別装置では、 DNA解析による結果と指紋解析などによる結果とを組み合わせて個体識別を行うので、個体識別能力を向上させることができる。

[0121] 第 8の実施形態では、 DNA解析の結果と組み合わされる他の個体識別情報としては、上述した指紋解析情報のほか、虹彩、掌紋あるいは顔などを利用した個体識別技術によって得られる情報を用いることが可能である。また、これらの技術の複数の組み合わせも、可能である。これらの個々の解析技術に関しては、当業者にとってよく知られており、また本発明とは直接関係しないので、その詳細な説明は省略する。

Claims

PGT/JP2007/ G58055WO 2007/119779 曰本国特 pCT/jp200細 055 Ό07 40 請求の範囲

[1] DNAサンプルを電気泳動によって解析することによって個体を識別する個体識別

方法であって、

個体に対する識別子が付与きれた識別子付き DNAサンプルを解析する第 1の解析段階と、

前記識別子付き DNAサンプルを解析して得られた結果を対応する識別子とともに識別子付きサンプル解析データ蓄積部に蓄積する段階と、

偶体識別対象となる DNAサンプルである新サンプルを、前記識別子付き DNAサンプルを解析したときの精度よりも低レヽ精度で解析し、結果を新サンプル解析結果とする第 2の解析段階と、

前記新サンプル解析結果に基づレヽて、前記識別子付きサンプル解析データ蓄積部を検索する段階と、

を有する方法。

[2] 前記識別子付き DNAサンプル及び前記新サンプルを解析する際に、電気泳動法によって当該サンプルの塩基長に関する情報を求める、請求項 1に記載の方法。

[3] 前記識別子付き DNAサンプル及び前記新サンプルを解析する際に、当該サンプ

ルにおけるマイクロサテライトの繰り返し回数に関する情報を取得する、請求項 2に記載の方法。

[4] 前記第 1の解析段階における解析精度は、前記新サンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの DNAを識別できる精度であり、前記第 2の解析段階における解析精度は、前記最小の変化量だけ塩基長が異なる前記 2つの DNAを識別できなレ、精度である、請求項 2または 3に記載の方法。

[5] ' 前記第 2の解析段階は、

それぞれ 1種のアンプリコンを含んだサンプルの集合力複数のサンプルを任意の組み合わせで選択し、選択されたサンプルを混合して多種アンプリコン 'サンプノレを生成する段階と、

前記多種アンプリコン 'サンプルを電気泳動によって解析する第 3の解析段階と、前記第 3の解析段階で得られた結果と、当該多種アンプリコン 'サンプルにおける

II正された氏 (繊 1). 塩基長情報とを組にして多種アンプリコン 'データ蓄積部に蓄積する段階と、電気泳動によって前記新サンプルを解析し、新サンプル電気泳動結果データを得る第 4の解析段階と、

前記新サンプル電気泳動結果データに基づいて前記多種アンプリコン 'データ蓄積部を検索し、結果を前記新サンプル解析結果とする検索段階と、

を有する、請求項 1乃至 4のいずれ力 1項に記載の方法。

[6] アンプリコンの組み合わせのうち、前記多種アンプリコン 'データ蓄積部に解析結果が蓄積されて、な、組み合わせに関して補間により塩基長情報を生成して補間データ蓄積部に蓄積する段階をさらに有し、

前記検索段階にぉ、て、前記新サンプル電気泳動結果データに基づ、て前記多種アンプリコン'データ蓄積部及び前記補間データ蓄積部を検索し、結果を前記新サンプル解析結果とする、請求項 5に記載の方法。

[7] 前記第 2の解析段階は、

それぞれ 1種のアンプリコンを含んだサンプルの集合力得られる組み合わせのうちの一部の組み合わせに基づいてサンプルを選択して混合し多種アンプリコン 'サンプルを生成する段階と、

前記多種アンプリコン 'サンプルを電気泳動によって解析する第 3の解析段階と、前記第 3の解析段階で得られた結果と、当該多種アンプリコン 'サンプルにおける塩基長情報とを組にして多種アンプリコン 'データ蓄積部に蓄積する段階と、電気泳動によって前記新サンプルを解析し、新サンプル電気泳動結果データを得る第 4の解析段階と、

前記多種アンプリコン 'データ蓄積部を参照しながら、前記新サンプルにおける塩基長の変化に対する前記新サンプル電気泳動結果データをパラメータ化し、そのパラメータ化の結果と前記新サンプル電気泳動結果データとに基づいて前記多種アンプリコン 'データ蓄積部を検索し、検索の結果を前記新サンプル解析結果とする段階と、

を有する、請求項 1乃至 4のいずれ力 1項に記載の方法。

[8] 前記新サンプル解析結果に基づいて前記識別子付きサンプル解析データ蓄積部を検索した結果、前記識別子付きサンプル解析データ蓄積部力該当するエントリが見つ力つた場合に、前記第 1の解析段階で用いたものと同程度の精度で前記新サンプルを解析し、当該解析による結果を用いて前記識別子付きサンプル解析データ蓄積部を検索して個体識別結果を得る段階をさらに有する、請求項 1乃至 4のいずれか 1項に記載の方法。

[9] DNAサンプルを電気泳動によって解析することによって個体を識別する個体識別方法であって、

個体に対する識別子が付与された識別子付き DNAサンプルを解析して前記識別子付き DNAサンプルの塩基長に関する情報を得る第 1の解析段階と、

個体識別対象となる DNAサンプルである新サンプルを解析し、前記新サンプルの塩基長に関する情報を含む結果を新サンプル解析結果とする第 2の解析段階と、前記新サンプル解析結果に基づ、て、前記識別子付きサンプル解析データ蓄積部を検索する段階と、

を有し、

前記第 1の解析段階および前記第 2の解析段階における解析の精度は、個体識別対象となる DNAサンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの DNAを識別できない精度である、方法。

[10] 前記識別子付き DNAサンプル及び前記新サンプルを解析する際に、当該サンプルにおけるマイクロサテライトの繰り返し回数に関する情報を取得する、請求項 9に記載の方法。

[11] 新サンプル取得対象カゝら得た DNAを前記個体識別対象となる DNAサンプルとして、請求項 1乃至 10のいずれか 1項に記載の方法を実施する第 1の個体識別段階と前記新サンプル取得対象力得た DNA以外のバイオメトリック情報を用いて個体を識別する第 2の個体識別段階と、

前記第 1の個体識別段階で得られた結果と前記第 2の個体識別段階で得られた結果とに基づいて個体識別を行う第 3の個体識別段階と、

を有する、複数情報による個体識別方法。

[12] 前記バイオメトリック情報が指紋情報である、請求項 11に記載の複数情報による個体識別方法。

[13] DNAサンプルを電気泳動によって解析することによって個体を識別する個体識別装置であって、

個体に対する識別子が付与された識別子付き DNAサンプルを解析する第 1の解析手段と、

前記第 1の解析手段で識別子付き DNAサンプルを解析して得られた結果を対応する識別子とともに蓄積する識別子付きサンプル解析データ蓄積部と、

前記第 1の解析手段より低!、解析精度を有し、個体識別対象となる DNAサンプルである新サンプルを解析して結果を新サンプル解析結果とする第 2の解析手段と、前記新サンプル解析結果に基づ、て、前記識別子付きサンプル解析データ蓄積部を検索し、個体識別結果を得る識別手段と、

を有する装置。

[14] 前記第 1及び第 2の解析手段は、いずれも、電気泳動法によってサンプルの塩基長に関する情報を求めるものである、請求項 13に記載の装置。

[15] 前記第 1及び前記第 2の解析手段は、それぞれ、前記識別子付き DNAサンプル及び前記新サンプルを解析する際に、当該サンプルにおけるマイクロサテライトの繰り返し回数に関する情報を取得する、請求項 14に記載の装置。

[16] 前記第 1の解析手段における解析精度は、前記新サンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの DNAを識別できる精度であり、前記第 2の解析手段における解析精度は、前記最小の変化量だけ塩基長が異なる前記 2つの DNAを識別できない精度である、請求項 14または 15に記載の装置。

[17] 前記第 2の解析手段は、

それぞれ 1種のアンプリコンを含んだサンプルの集合を備える 1種アンプリコン'サンプル保管部と、

前記 1種アンプリコン 'サンプル保管部力複数のサンプルを任意の組み合わせで選択し、選択したサンプルを混合して得られる多種アンプリコン 'サンプルを電気泳動によって解析する第 1の電気泳動解析部と、

前記第 1の電気泳動解析部で得られた結果と、当該多種アンプリコン 'サンプルにおける塩基長情報とを蓄積する多種アンプリコン 'データ蓄積部と、

電気泳動によって前記新サンプルを解析し、新サンプル電気泳動結果データを得る第 2の電気泳動解析部と、

前記新サンプル電気泳動結果データに基づいて前記多種アンプリコン 'データ蓄積部を検索し、結果を前記新サンプル解析結果とするデータ解析部と、

を有する、請求項 13乃至 16のいずれか 1項に記載の装置。

[18] アンプリコンの組み合わせのうち、前記多種アンプリコン 'データ蓄積部に解析結果が蓄積されて、な、組み合わせに関して補間により塩基長情報を生成する補間データ作成部と、

前記補間データ作成部によって作成された塩基長情報を蓄積する補間データ蓄積部と、

をさらに備え、

前記データ解析部は、前記新サンプル電気泳動結果データに基づ、て前記多種アンプリコン'データ蓄積部及び前記補間データ蓄積部を検索し、結果を前記新サンプル解析結果とする、請求項 17に記載の装置。

[19] 前記第 2の解析手段は、

それぞれ 1種のアンプリコンを含んだサンプルの集合力得られる組み合わせのうちの一部の組み合わせに基づいてサンプルを選択して混合して生成された多種アンプリコン'サンプルを電気泳動によって解析する第 1の電気泳動解析部と、

前記第 1の電気泳動解析部で得られた結果と、当該多種アンプリコン 'サンプルにおける塩基長情報とを組にして蓄積する多種アンプリコン 'データ蓄積部と、電気泳動によって前記新サンプルを解析し、新サンプル電気泳動結果データを得る第 2の電気泳動解析部と、

前記多種アンプリコン 'データ蓄積部を参照しながら、前記新サンプルにおける塩基長の変化に対する前記新サンプル電気泳動結果データをパラメータ化し、そのパラメータ化の結果と前記新サンプル電気泳動結果データとに基づいて前記多種アンプリコン 'データ蓄積部を検索し、検索の結果を前記新サンプル解析結果とするデータ解析部と、

を有する、請求項 13乃至 16のいずれか 1項に記載の装置。

[20] 前記第 1の解析手段と同程度の解析精度を有する第 3の解析手段と、

前記第 3の解析手段による結果を用いて前記識別子付きサンプル解析データ蓄積部を検索して個体識別結果を得る高精度識別手段と、

をさらに備え、前記新サンプル解析結果に基づヽて前記識別手段が前記識別子付きサンプル解析データ蓄積部を検索した結果、前記識別子付きサンプル解析データ蓄積部力も該当するエントリが見つ力つた場合に、前記第 3の解析手段が前記新サンプルを解析する、請求項 13乃至 16のいずれか 1項に記載の装置。

[21] DNAサンプルを電気泳動によって解析することによって個体を識別する個体識別装置であって、

個体に対する識別子が付与された識別子付き DNAサンプルを解析して前記識別子付き DNAサンプルの塩基長に関する情報を得る第 1の解析手段と、

前記識別子付き DNAサンプルを解析して得られた結果を対応する識別子とともに蓄積する識別子付きサンプル解析データ蓄積部と、

個体識別対象となる DNAサンプルである新サンプルを解析し、前記新サンプルの塩基長に関する情報を含む結果を新サンプル解析結果とする第 2の解析手段と、前記新サンプル解析結果に基づ、て、前記識別子付きサンプル解析データ蓄積部を検索する識別手段と、

を有し、

前記第 1の解析手段および前記第 2の解析手段における解析の精度は、個体識別対象となる DNAサンプルでの塩基長の考え得る最小の変化量だけ塩基長が異なる 2つの DNAを識別できない精度である、装置。

[22] 前記第 1及び第 2の解析手段は、それぞれ、前記識別子付き DNAサンプル及び前記新サンプルを解析する際に、当該サンプルにおけるマイクロサテライトの繰り返し回数に関する情報を取得する、請求項 21に記載の装置。

[23] 請求項 13乃至 22のいずれか 1項に記載の装置力もなり、新サンプル取得対象から得た DNAを前記個体識別対象となる DNAサンプルとする第 1の個体識別手段と、前記新サンプル取得対象力得た DNA以外のバイオメトリック情報を用いて個体を識別する第 2の個体識別手段と、

前記第 1の個体識別手段で得られた結果と前記第 2の個体識別手段で得られた結果とに基づいて個体識別を行う第 3の個体識別手段と、

を有する、複数情報による個体識別装置。

[24] 前記バイオメトリック情報が指紋情報である、請求項 23に記載の複数情報による個体識別装置。