JP2015096080A

JP2015096080A - 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法

Info

Publication number: JP2015096080A
Application number: JP2015027583A
Authority: JP
Inventors: ラビノビッツマシュー; Matthew Rabinowitz; バンジェビックミレナ; Milena Banjevic; ポールデムコザカリー; Zachary Paul Demko; スコットジョンソンデイビッド; David Scott Johnson
Original assignee: Natera Inc
Current assignee: Natera Inc
Priority date: 2005-11-26
Filing date: 2015-02-16
Publication date: 2015-05-21
Also published as: CA2632230A1; WO2007062164A3; JP6430998B2; EP2437191A3; CN101346724B; JP6121642B2; JP2016184429A; EP1960929A2; CN101346724A; EP1960929A4; JP2013150622A; HK1224053A1; CA2632230C; EP3373175A1; EP2437191A2; AU2006318425A2; EP3012760A1; WO2007062164A2; AU2006318425B2; AU2006318425A1

Abstract

【課題】予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法の提供。
【解決手段】限定された量の遺伝子データが入手可能な、１つのまたは小さな組の細胞についての、または断片ＤＮＡからの、および数学的モデルを用いてありそうな表現型結果を予測するための遺伝子データ、および個体の所与の遺伝子、表現型および／または臨床的データ、および密接に関連する患者亜集団からの遺伝子型、表現型および／または臨床的データよりなる関連集合医療的データを判断するためのシステムおよび方法。標的個体についての遺伝子データを公知の方法を用いて獲得し、増幅し、貧弱に測定された塩基対、失われた対立遺伝子、および失われた領域を、標的ゲノムおよび遺伝的に関連する対象のゲノムの間の予測された同様性を用いて復元する。
【選択図】図１

Description

（関連出願への相互参照）
本願は、米国特許法の下で、以下の米国仮特許出願の利益を主張する：２００５年１１月２６日出願の第６０／７３９，８８２号；２００５年１２月６日出願の第６０／７４２，３０５号；２００５年１２月９日出願の第６０／７５４，３９６号；２００６年２月２１日出願の第６０／７７４，９７６号；２００６年４月４日出願の第６０／７８９，５０６号；２００６年６月３０日出願の第６０／８１７，７４１号；２００６年７月３１日出願の第１１／４９６，９８２号；および２００６年９月２２日出願の第６０／８４６，６１０号；これらの開示は、その全体が本明細書中に参考として援用される。

（技術分野）
本発明は、一般には、医療的に予測される目的のための遺伝子データを獲得し、操作し、および用いる分野、具体的には、不完全に測定された遺伝子データを遺伝的に関連する個体の公知の遺伝子データを用いることによってより正確とし、それにより、種々の表現型結果をもたらす遺伝子不規則性のより効果的な同定を可能とするシステムに関する。また、本発明は、一般に、遺伝子、表現型および臨床的情報を分析し、管理し、それに作用させ、およびその情報を用いて、医療的決定の表現型結果を予測する分野に関する。さらに詳しくは、本発明は、対象の群からの一体化され、確証された遺伝子および表現型データを用いて、特定の対象に関して良好な決定を行う方法およびシステムに関する。

（関連技術の背景）
出生前および着床前遺伝子診断
出生前診断の現行の方法は医師および親に対して成長する胎児における異常を警告することができる。出生前診断がなければ、５０人の赤ん坊の内１人は深刻な身体または精神的ハンディキャップを備えたまま誕生し、３０人の内１人のように多くの者は先天的奇形のいくつかの形態を有するであろう。あいにくと、標準的な方法は侵襲性テストを必要とし、流産の大まか１％の危険性を有している。これらの方法は羊水穿刺、絨毛膜絨毛バイオプシーおよび胎児血液サンプリングを含む。これらの内、羊水穿刺は最も普通の手法であり；２００３年において、それは全ての妊娠のほぼ３％で行われていたが、その使用頻度は過去１５年にわたって減少してきた。出生前診断の主な欠点は、限定された活動のコースを仮定すれば、一旦異常が検出されれば、それは非常に深刻な欠陥についてテストするには価値がありかつ倫理的であるに過ぎない。結果として、出生前診断は、典型的には、高い危険性の妊娠の場合に試みられるに過ぎず、そこでは、潜在的異常の深刻性と組合わされた上昇した欠陥の確率が危険性を凌ぐ。これらの危険性を緩和する出生前診断の方法に対する要望が存在する。

最近、無細胞胎児ＤＮＡおよび無傷胎児細胞が母体血液循環に入ることができるのが発見された。結果として、これらの細胞の分析は、早期の非侵襲性出生前遺伝子診断（ＮＩＰＧＤ）を可能とすることができる。ＮＩＰＧＤを用いることにおける鍵となる挑戦は、母体血液から胎児の細胞または核酸を同定し、それを抽出する仕事である。母体血液における胎児細胞の濃度は胎児の妊娠の段階および状態に依存するが、見積もりは母体血液１ミリリットル毎に１ないし４０の胎児細胞、または１００，０００母体有核細胞当たり１未満の胎児細胞の範囲である。現在の技術は母親の血液から少量の胎児細胞を単離することができるが、胎児細胞をいずれかの量の純度まで豊富化するのは非常に困難である。この関係での最も効果的な技術はモノクローナル抗体の使用を含むが、胎児細胞を単離するのに用いられる他の技術は密度遠心、成人赤血球の選択的溶解、およびＦＡＣＳを含む。胎児ＤＮＡ単離は、胎児−特異的ＤＮＡ配列と共にプライマーを用いるＰＣＲ増幅を用いて示されてきた。各胚ＳＮＰの分子の１０がこれらの技術を通じて利用可能なのに過ぎないので、高い忠実度での胎児組織の下のタイピングは現在可能ではない。

正常なヒトはジプロイド細胞毎に２３染色体の２つの組を有し、１つのコピーは各親に由来する。異数性、余分なまたは失われた染色体を持つ細胞、および片親ニ染色体、一方の親に由来する２つの所与の染色体を持つ細胞は、着床の失敗、流産および遺伝病の大きなパーセンテージの原因であると考えられる。個体におけるある種の細胞のみが異数性である場合、該個体はモザイク現象を呈するといわれる。染色体異常の検出は成功した妊娠の確率の増大に加えて、とりわけ、ダウン症候群、クラインフェルター症候群およびターナー症候群のような疾患を持つ個体または胚を同定することができる。染色体異常についてのテストは母親の年齢のように特に重要であり；３５歳および４０歳の間では胚の４０％および５０％の間が異常であり、４０歳を超えると、胚の半分を超えて異常であると見積もられる。

異数性およびモザイク現象の予測で用いられる伝統的な方法である核型分析は、他のより高いスループットのよりコスト的に有利な方法に対する途を開く。最近多大な注目を集めてきた１つの方法はフローサイトメトリー（ＦＣ）および蛍光イン・サイチュハイブリダイゼーション（ＦＩＳＨ）であり、これを用いて、いずれかの相の細胞周期において異数性を検出できる。この方法の１つの利点は、それが核型分析よりも安価であるが、コストは、一般に、少し選択された染色体をテストするのでかなり十分である点である（通常、染色体１３、１８、２１、Ｘ、Ｙ；時々は８、９、１５、１６、１７、２２）；加えて、ＦＩＳＨは低いレベルの特異性を有する。１５細胞を分析するのにＦＩＳＨを用い、９５％信頼性を持って１９％のモザイク現象を検出することができる。テストの信頼性はモザイク現象のレベルが低くなるにつれ、および分析する細胞の数が減少するにつれかなり低くなる。テストが、対立の細胞を分析する場合、１５％と高い擬陽性率を有すると見積もられている。より高いスループット、より低いコスト、およびより大きな精度を有する方法に対する多大な要望が存在する。

遺伝病の古典的な出生前診断に対する代替法としての着床前遺伝子診断（ＰＧＤ）の使用に向けて多くの研究がなされてきた。ほとんどのＰＧＤは、今日、異数性のような高レベルの染色体異常、および成功した着床およびテイク−ホームベイビーである主な結果を伴うバランスしたトランスロケーションに焦点を当てている。着床前段階における胚のより広範なゲノタイピングのための方法に対する要望が存在する。既知の病気に関連する対立遺伝子の数は、現在、ＯＭＩＭによると３８９であり、常に上昇している。その結果、病気表現型に関連する多数の胚ＳＮＰを分析するのは益々重要となりつつある。出生前診断よりも優れた着床前遺伝子診断の明瞭な進歩は、それが、一旦望ましくない表現型が検出されたならば、作用の可能な選択に関して倫理的論争のいくつかを回避する点にある。

ゲノタイピング
単一の細胞を単離するための多くの技術が存在する。ＦＡＣＳマシーンは種々の適用を有し；１つの重要な適用は、サイズ、形状および総じてのＤＮＡ含有量に基づいて細胞間を区別することである。ＦＡＣＳマシーンは、単一細胞をいずれかの所望の容器に分類するように設定することができる。多くの異なるグループが、出生前遺伝子診断、組換え実験、および染色体不均衡の分析を含めた、多数の適用のために単一細胞ＤＮＡ分析を用いてきた。単一−精子ゲノタイピングは、従前、精子試料の法医学分析で用いて（混合試料から生起する問題を減少させ）、および単一−細胞組換え実験のために用いられてきた。

ヒト胚からの単一細胞の単離は、高度に技術的であるが、今日、体外受精クリニックにおいてルーチン的である。今日まで、出生前診断のほとんど大部分は、蛍光イン・サイチュハイブリダイゼーション（ＦＩＳＨ）を用いており、これは、（ダウン症候群、またはトリソミー２１のような）大きな染色体異常を決定することができ、およびＰＣＲ／電気泳動を用いてきており、これは少量のＳＮＰまたは他の対立遺伝子の要求を決定することができる。極体および胚盤胞は共に成功して単離されてきた。胚の一体性を危うくすることなく単一の胚盤胞を単離するのは非常に重要である。最も普通の技術は、３日胚（６または８細胞段階）から単一の胚盤胞を取り出すことである。胚を特殊な細胞培養基（カルシウムおよびマグネシウムを欠如する標準培養基）に移し、酸性溶液、レーザー、または機械的なドリリングを用いて穴を透明帯に導入する。技術者は、次いで、バイオプシーピペットを用いて、単一の目に見える核を取り出す。臨床的実験は、この目的は着床の成功を減少させないことを示している。というのは、この段階において、胚細胞は未分化だからである。

全ゲノム増幅（ＷＧＡ）に対して利用できる３つの主な方法がある：連結−媒介ＰＣＲ（ＬＭ−ＰＣＲ）、縮重オリゴヌクレオチドプライマーＰＣＲ（ＤＯＰ−ＰＣＲ）、および多数置換増幅（ＭＤＡ）。ＬＭ−ＰＣＲにおいては、アダプターと呼ばれる短いＤＮＡ配列をＤＮＡの平滑末端に連結する。これらのアダプターは普遍的増幅配列を含有し、これはＰＣＲによってＤＮＡを増幅するのに用いられる。ＤＯＰ−ＰＣＲにおいては、普遍的増幅配列をやはり含有するランダムプライマーを第一ラウンドのアニーリングおよびＰＣＲで用いる。次いで、第二ラウンドのＰＣＲを用いて、普遍的プライマー配列をさらに持つ配列を増幅する。最後に、ＭＤＡはｐｈｉ−２９ポリメラーゼを用い、これは、ＤＮＡを複製する高度にプロセッシング可能な非特異的酵素であり、単一−細胞分析で用いられてきた。これらの方法のうち、ＤＯＰ−ＰＣＲは、単一コピーの染色体を含めた、少量のＤＮＡから多量のＤＮＡを信頼性よく生産する。他方、ＭＤＡは最も速い方法であり、数時間以内にＤＮＡの１００折り畳み増幅を生産する。単一細胞からの増幅材料に対する主な制限は（１）極端に薄いＤＮＡ濃度または極端に小さな容量の反応混合物を用いる必要性、および（２）全ゲノムを横切って蛋白質からＤＮＡを信頼性よく解離させる困難性である。それにもかかわらず、単一−細胞全ゲノム増幅は、何年もの間種々の適用に対して成功して用いられてきた。

これらの関連でＤＮＡ増幅を用いるのに多数の困難がある。ＰＣＲによる単一−細胞ＤＮＡ（または少数の細胞からの、またはより少量のＤＮＡからのＤＮＡ）の増幅は、該ケースの５ないし１０％において報告されているように完全に失敗しかねない。これは、しばしば、ＤＮＡの汚染、細胞の喪失、そのＤＮＡ、またはＰＣＲ反応の間におけるＤＮＡの接近性である。増幅およびマイクロアレイ分析による胚ＤＮＡの測定で生じ得る誤差の他の源は、特定のヌクレオチドがＰＣＲの間に誤ってコピーされるＤＮＡポリメラーゼによって導入される転写誤差、およびアレイ上での不完全なハイブリダイゼーションによるマイクロアレイのリーディング誤差を含む。しかしながら、最大の問題は、ヘテロ接合性細胞における２つの対立遺伝子のうちの一方を増幅できないことと定義される対立遺伝子ドロップ−アウト（ＡＤＯ）のままである。ＡＤＯは増幅の４０％を超えるまで影響しかねず、既に引き起こされたＰＧＤ誤診断を引き起こしてきた。ＡＤＯは特に優性病の症例において健康の論争となり、ここで、増幅できないことは侵された胚の着床に導きかねない。（ヘテロ接合体における）各マーカー当たり１を超えるプライマーの組に対する必要性はＰＣＲプロセスを複雑とする。従って、より信頼性があるＰＣＲアッセイがＡＤＯ起源の理解に基づいて開発されつつある。単一−細胞増幅のための反応容器は実験中である。アンプリコンのサイズ、ＤＮＡ分解の量、凍結および解凍およびＰＣＲプログラムおよび条件は、各々、ＡＤＯの速度に影響する。

しかしながら、全てのそれらの技術は、単一細胞における増幅で利用可能なＤＮＡの微量に依存する。このプロセスにはしばしば汚染が伴う。適当な滅菌条件およびマイクロサテライトサイジングは、汚染ＤＮＡの確率を排除することができる。というのは、出生前対立遺伝子においてのみ検出されるマイクロサテライト分析は汚染を排除するからである。対立−細胞レベルまで分子診断プロトコルを信頼性よく導入する研究は、最近、マイクロサテライトマーカーの第一ラウンド多重ＰＣＲ、続いての、リアル−タイムＰＣＲおよびマイクロサテライトサイジングを用いて追求されて、汚染の機会を排除してきた。多重ＰＣＲは単一−細胞ＤＮＡ分析における非常に重要な用件である単一反応における多数断片の増幅を可能とする。慣用的なＰＣＲはＰＧＤで用いられた最初の方法であるが、蛍光イン・サイチュハイブリダイゼーション（ＦＩＳＨ）は今日普通である。乱れていない細胞および組織構築物内での拡散の検出を可能とするのはデリケートなビジュアルアッセイである。それは、先ず、分析すべき細胞の固定に依拠する。その結果、試料の固定および貯蔵条件の最適化が、特に、単一−細胞懸濁液で求められる。

単一−細胞レベルでの多数の病気の診断を可能とする最新の技術は相間染色体変換、比較ゲノムハイブリダイゼーション（ＣＧＨ）、蛍光ＰＣＲ、および全ゲノム増幅を含む。これらの技術の全てによって得られたデータの信頼性は、ＤＮＡ調製の質に依拠する。ＰＧＤは高価でもあり、その結果、ミニ−配列決定のような安価なアプローチに対する要望が存在する。ほとんどの突然変異−検出技術とは異なり、ミニ−配列決定は低いＡＤＯ率での非常に小さなＤＮＡ断片の分析を可能とする。増幅およびＰＧＤについての単一−細胞ＤＮＡを調製する良好な方法が従って求められており、研究されている。より新規なマイクロアレイおよび比較ゲノムハイブリダイゼーション技術は、依然として結局は、分析されるＤＮＡの質に依拠する。

いくつかの技術が、少数の細胞、単一細胞（例えば、胚盤胞）、少数の染色体のＤＮＡについての、またはＤＮＡの断片からの多数ＳＮＰを測定するために開発されている。ポリメラーゼ鎖反応（ＰＣＲ）、続いてのマイクロアレイゲノタイピング分析を用いる技術がある。いくつかのＰＣＲ−ベースの技術は、多数置換増幅（ＭＤＡ）、および単一対のプライマーでのＰＣＲを用いて増幅することができる多数のタグドオリゴヌクレオチドを用いてゲノタイピングを行う分子逆転プローブ（ＭＩＰＳ）のような全ゲノム増幅（ＷＧＡ）技術を含む。非ＰＣＲベースの技術の例は蛍光イン・サイチュハイブリダイゼーション（ＦＩＳＨ）である。該技術は、対立遺伝子ドロップアウト、不完全なハイブリダイゼーション、および汚染のような効果のインパクトを亢進するであろう限定された量の遺伝物質によりひどく誤差の傾向があることが明らかである。

ゲノタイピングデータを供する多くの技術が存在する。ＴａｑｍａｎはＡｐｂｌｉｅｄ
Ｂｉｏｓｙｓｔｅｍｓによって生産され、分配されるユニークなゲノタイピング技術である。Ｔａｑｍａｎはポリメラーゼ鎖反応（ＰＣＲ）を用いて、注目する配列を増幅する。ＰＣＲサイクリングの間に、対立遺伝子特異的な従たる溝バインダー（ＭＧＢ）は増幅された配列にハイブリダイズする。ポリメラーゼ酵素によるストランド合成はＭＧＢプローブに連結されたレポーター色素を放出し、次いで、Ｔａｑｍａｎ光学リーダーは色素を検出する。このように、Ｔａｑｍａｎは定量的対立遺伝子区別を達成する。アレイベースのゲノタイピング技術と比較して、Ｔａｑｍａｎは反応当たりかなり高価であり、（〜＄０．４０／反応）、およびスループットは比較的低い（実行当たり３８４遺伝子型）。反応当たり１ｎｇのＤＮＡが必要とされるに過ぎないが、Ｔａｑｍａｎによる数千の遺伝子型はマイクログラム量のＤＮＡを必要とし、従って、Ｔａｑｍａｎは必ずしもマイクロアレイよりも少ないＤＮＡを用いない。しかしながら、ＩＶＦ遺伝子型ワークフローに関しては、Ｔａｑｍａｎは最も容易に適用できる技術である。これはアッセイの高い信頼性および、最も重要なことには、アッセイのスピードおよび容易性のためである（実行当たりほぼ３時間、および最小の分子生物学工程）。また、（５００ｋＡｆｆｙｍｅｔｒｉｘアレイのような）多くのアレイ技術とは異なり、Ｔａｑｍａｎは高度に慣用化でき、これは、ＩＶＦ市場で重要である。さらに、Ｔａｑｍａｎは高度に定量的であり、従って、異数性はこの技術単独で検出できよう。

Ｉｌｌｕｍｉｎａは、最近、高−スループットゲノタイピングにおけるリーダーとして出現した。Ａｆｆｙｍｅｔｒｉｘとは異なり、Ｉｌｌｕｍｉｎａゲノタイピングアレイはハイブリダイゼーションに専ら依拠しない。その代わり、Ｉｌｌｕｍｉｎａ技術が対立遺伝子−特異的ＤＮＡ延長工程を用い、これは、元の配列の決定について、ハイブリダイゼーション単独よりもかなり感受性であって、特異的である。従って、これらの対立遺伝子の全てはＰＣＲによって多重的に増幅され、次いで、これらの産物はビーズアレイにハイブリダイズされる。これらのアレイでのビーズはユニークな「アドレス」タグを含有し、天然配列を含有せず、従って、このハイブリダイゼーションは高度に特異的であって、感受性である。次いで、対立遺伝子がヘッドアレイの定量的スキャンニングによって呼ばれる。ＩｌｌｌｕｍｉｎａＧｏｌｄｅｎＧａｔｅアッセイシステムは１５３６までの遺伝子座を同時に遺伝子型分けし、従って、スループットはＡａｑｍａｎよりも良好であるが、Ａｆｆｙｍｅｔｒｉｘ５００ｋアレイほどは高くない。Ｉｌｌｕｍｉｎａ遺伝子型のコストはＴａｑｍａｎよりも低いが、Ａｆｆｙｍｅｔｒｉｘアレイよりも高い。また、Ｉｌｌｕｍｉｎａプラットフォームは５００ｋＡｆｆｙｍｅｔｒｉｘアレイと同程度完全となるまでには長くを必要とし（７２時間まで）、これはＩＶＦゲノタイピングでは問題である。従って、Ｉｌｌｕｍｉｎａはかなり良好なコールレートを有し、アッセイが定量的であり、従って、異数性がこの技術で検出可能である。Ｉｌｌｕｍｉｎａ技術が５００ｋＡｆｆｙｍｅｔｒｉｘアレイよりもＳＮＰの選択においてかなりフレキシブルである。

一定時間において２５０，０００ＳＮＰまでの測定を可能とする最高スループット技術の内の１つはＡｆｆｙｍｅｔｒｉｘＧｅｎｅＣｈｉｐ５００Ｋゲノタイピングアレイである。この技術はＰＣＲをやはり用い、続いて、ハイブリダイゼーションによる分析、および水晶表面における異なる位置で化学的に合成されたＤＮＡプローブに対する増幅されたＤＮＡ配列の検出を用いる。これらのアレイの不利は低いフレキシビリティおよびより低い感度である。「完全なマッチ」および「ミスマッチプローブ」のような選択性を増加させることができる修飾されたアプローチがあるか、これらはアレイ当たりのＳＮＰコールの数を犠牲にしてそれを行う。

パイロ配列決定、または合成による配列決定もまたゲノタイピングおよびＳＮＰ分析で用いることもできる。パイロ配列決定に対する主な利点は、極端に速いターンアラウンドおよび曖昧でないＳＮＰコールを含むが、アッセイは、現在、高−スループット平行分析に導かれている。ＰＣＲ、続いての、ゲル電気泳動は、着床前診断においてほとんどの成功に適合したかなり単純な技術である。この技術において、研究者はネステッドＰＣＲを用いて、注目する短い配列を増幅する。次いで、彼らは特殊なゲル上でこれらのＤＮＡ試料を実行して、ＰＣＲ産物を可視化する。異なる塩基は異なる分子量を有し、従って、どれぐらい速く産物がゲル中を泳動するかに基づいて塩基含有量を決定することができる。この技術は低−スループットであり、現行技術を用いる科学者による主題の分析を必要とするが、スピードの利点を有する（１ないし２時間のＰＣＲ、１時間のゲル電気泳動）。この理由で、それは、セラセミア、神経線維腫症２型、白血球接着欠乏症Ｉ型、アロポー−シーメンス病、鎌状細胞貧血、網膜芽細胞腫、ペリツェーウス−メルツバッヒャー病、ドゥシェーヌ筋ジストロフィー、およびクラリノ症候群を含めた、膨大な病気についての出生前ゲノタイピングで従前用いられてきた。

非常に高い忠実度でもって少量の遺伝物質を遺伝子型分けするために開発されたもう１つの有望な技術は、Ａｆｆｙｍｅｔｒｉｘ’ｓＧｅｎｆｌｅｘアレイのような分子逆転プローブ（ＭＩＰ）である。この技術は、平行して多数のＳＮＰを測定する能力を有し；平行して測定された１０，０００を超えるＳＮＰＳが証明されている。少量の遺伝物質については、この技術についてのコールレートは概略９５％において確立されており、なされたコールの精度は９９％を超えることが確立されている。これまで、該技術は所与のＳＮＰについて１５０分子と小さなゲノムデータの量について実行されてきた。しかしながら、該技術は、着床前遺伝子診断について要求されるように、単一細胞、またはＤＮＡの単一ストランドからのゲノムデータで証明されてきた。

ＭＩＰ技術は、その２つの端部が、それらがＤＮＡの直ちに隣接する標的配列にハイブリダイズする場合に連結によって接合できる線状オリゴヌクレオチドであるパドロックプローブを用いる。プローブがゲノムＤＮＡにハイブリダイズされた後に、ギャップを満たす酵素をアッセイに加え、これは４つのヌクレオチドの内１つをギャップに加えることができる。もし加えられたヌクレオチド（Ａ，Ｃ，Ｔ，Ｇ）が測定下でＳＮＰに対して相補的であるならば、それはＤＮＡにハイブリダイズし、連結によってパドロックプローブの端部を接合するであろう。次いで、管状産物、または閉じたパドロックプローブをエキソヌクレオリシスによって線状プローブから区別される。エキソヌクレアーゼは、線状プローブを分解し、環状プローブを残すことによって、千倍以上だけ、閉じた−ｖｓ−閉じていないプローブの相対的濃度を変化させるであろう。次いで、残ったプローブをもう１つの酵素によって切断部位において開き、ＤＮＡから取り出し、ＰＣＲによって増幅する。各プローブは２０塩基タグよりなる異なるタグ配列が付され（１６，０００が作り出されている）、例えば、ＡｆｆｙｎｅｔｒｉｘＧｅｎＦｌｅｘタグアレイによって検出することができる。特定のギャップを満たす酵素が加えられた反応からのタグドプローブからの存在は、関連ＳＮＰ上での相補的アミノ酸の存在を示す。

ＭＩＰＳの分子生物学利点は：（１）単一反応における多重ゲノタイピング、（２）遺伝子型「コール」はギャップを満たし連結することによって起こるが、ハイブリダイゼーションによっては起こらない、および（３）ユニバーサルタグのアレイへのハイブリダイゼーションは、ほとんどのアレイハイブリダイゼーションに固有な偽陽性を減少させることを含む。伝統的な５００ｋ、ＴａｑＭａｎおよび他のゲノタイピングアレイにおいて、全ゲノタイプ試料はアレイにハイブリダイズされ、これは種々の完全なマッチおよびミスマッチプローブを含有し、アルゴリズムはミスマッチおよび完全なマッチプローブの強度に基づく遺伝子型を要求するようである。しかしながら、ＤＮＡ試料の複雑性、およびアレイ上での膨大な数のプローブのため、ハイブリダイゼーションは固有にノイズがある。他方、ＭＩＰは、より長く、従って、より特異的であり、従って、プローブを環状化するのに頑強な連結工程を用いる多重プローブを用いる（すなわち、アレイ上にはない）。対立遺伝子ドロップアウトは（貧弱な実行プローブのため）高いであろうが、バックグラウンドは（特異性のため）このアッセイにおいてはかなり低い。

この技術を単一細胞（または少数の細胞）からのゲノムデータで用いる場合、それは、ＰＣＲベースのアプローチのように、一体性の争いに悩んでいる。例えば、パドロックプローブがゲノムＤＮＡにハイブリダイズできないことは、対立遺伝子ドロップアウトを引き起こすであろう。これは体外受精の関係で悪くなるであろう。というのは、ハイブリダイゼーション反応の効率は低く、かつそれは相対的に速く進行して、限定された時間内に胚を遺伝子型分けする必要があるからである。ハイブリダイゼーション反応は販売業者が推奨するレベルよりも十分低く減少でき、ミクロ−流動技術を用いて、ハイブリダイゼーション反応を加速することもできる。ハイブリダイゼーション反応のための時間を減少させることに対するこのアプローチは減少したデータの質を引き起こすであろう。

予測ゲノミックス
一旦遺伝子データが測定されれば、次の工程が予測目的でデータを用いることである。多くの研究が予測ゲノミックスにおいてなされ、これは、表現型予測を遺伝子型に基づいてなすことができるように、蛋白質、ＲＮＡおよびＤＮＡの正確な機能を理解することを試みる。カノニカル技術は単一−ヌクレオチド多形（ＳＮＰ）の機能に焦点を当てるが、より進歩した方法は多因子表現型特徴を担うようにされつつある。これらの方法は、遺伝子および表現型予測の組、および測定された結果の組の間の数学的関係を決定するように試みる、直線回帰および非直線神経ネットワークのような技術を含む。また、遺伝子データに典型的なように、結果の数に対して多くの潜在的プレディクターが存在し、データが過少決定される場合でさえパラメーターの重要な組を解決することができるように、さらなる制限を回帰パラメーターに適応するまばらなデータ組を収容するように設計されたＲｉｄｇｅ回帰、ｌｏｇ回帰および段階的選択のような回帰分析技術の組もある。他の技術は、未決定データ組から情報を抽出するために主な成分分析を適用する。決定ツリーおよび偶発性の表のような他の技術は、それらの独立した変数に基づいて主題を細分化して、主題を、表現型結果が同様であるカテゴリーまたはビンに入れるための戦略を用いる。論理的回帰といわれる最近の技術は、カテゴリー的に独立した変数の間の異なる論理的相互関係についてサーチして、遺伝子データに関連する多数の独立変数の間の相互作用に依存する変数をモデル化する方法を記載している。用いる方法に拘わらず、予測の質は、予測をなすのに用いる遺伝子データの質に自然に高度に依存する。

ＤＮＡ配列決定のコストは迅速に低下しており、近い将来において、個人の利益のための個々のゲノム配列決定はより普通になるであろう。個人的遺伝子データの知識は、広範な表現型予測が個人に対してなされるのを可能とするであろう。正確な表現型予測をなすためには、関係を問わず、高い質の遺伝子データが非常に重要である。出生前または着床前遺伝子診断の場合には、複雑化因子は入手可能な遺伝物質の相対的少量である。限定された遺伝物質をゲノタイピングで用いる場合に、測定された遺伝子データの性質に固有にノイズがあると仮定すれば、一次データの忠実度を増大させ、それをクリーンとできる方法に対する多大な要望が存在する。

臨床的決定がなされる現行の方法は、存在する情報の最良な可能な使用を行わない。医療的、生化学的および情報技術の進歩としては、増大した量のデータが作り出され、アカデミックおよび臨床的実験の関係においての個々の患者について双方を貯蔵する。分析で利用可能な遺伝子、表現型および臨床的情報の量における最近の急増に従い、臨床的に関連する相関関係を見出して、人々がより長く、より健康でかつよりエンジョイできる人生を送るのを助けるのに多大の努力が払われてきた。従前には臨床家および研究者は彼らの分析を少量の明らかな潜在的因子に焦点を当て、データの局所的貯蔵を用いるが、他の剤のスコアによって測定されたデータを活用することができ、および所与の遺伝子型または表現型に相関する従前に疑われていない因子を同定することができるより複雑なモデルを用いる潜在的利点がより明瞭になりつつある。この状況は、一旦個人的な遺伝子データが病気の原因および治療、および対象の他の素因を理解するにおいてより抽象的な役割を占めれば、かなりより複雑になるであろう。次の１０年内に、臨床試験のために、または個人化された治療およびまたは薬物割当ての目的のために、患者の全ゲノムをスキャンし、ならびに膨大な表現型データ点を収集するのが可能であろう。

利用可能なデータの量が膨大となり、それが依然として迅速に増大するにつれ、問題の最も重要な点は、最も適当な関係が発見し、かつそれを用いて人々に役に立つのを可能とする設計および実行する良好な方法となった。分析するのに利用可能な変数の数が増大するにつれ、天文学的数の潜在的関係を会得でき、先見的にそれらのいずれかを除外しない方法を開発するのがより重要となった。同時に、それらの研究を同一プロトコルで実行しなかった場合でさえ、多数の研究の知見を総合し、それを利用することができる方法を開発するのが重要である。また、所与の分析において用いるために最適な方法を正しく同定することができるシステムを開発するために、研究されてきた非常に多数の予測モデルを仮定すれば、それは益々重要になりつつある。

ＨＩＶの関係におけるバイオインフォマティックス
ＨＩＶは三千万を超える人々が現在ＨＩＶに罹って生きているヒトにおいてＨＩＶは広域病と考えられ、毎年二百万を超える死亡がＨＩＶに帰せられている。ＨＩＶの主な特徴の１つはその速い複製サイクル、および逆転写酵素の高い誤差率および組換え原性の結果としてのその高い遺伝子可変性である。その結果、ＨＩＶウイルスの種々の株は異なるレベルの異なる薬物に対する耐性を示し、最適な治療養生法は感染性株の同一性およびその特別な罹患性を考慮することができる。

今日まで認可されたＡＲＴ薬物は１１のＲＴＩ：７のヌクレオシド、１つのヌクレオチド、および３つの非ヌクレオシド；７つのＰＩ；および１つの融合／エントリー阻害剤のリストよりなる。世界中でのＡＲＴ薬物が現在広く行きわたっていることを仮定すれば、ウイルスの耐性株の出現は、耐性に対する低い遺伝子バリア、および貧弱な薬物固執双方のため不可避的である。その結果、どのようにして突然変異したウイルスが抗−レトロウイルス療法に応答するかを予測する技術は益々重要となっている。というのは、それらはサルベージ療法についての結果に影響するだろうからである。ウイルス遺伝子配列決定の迅速に現象しているコスト−予備的に調製された配列については５ドルと低い容量価格−は、よりコストがかかりかつ関連するイン−ビトロ表現型測定よりはむしろ、ウイルス遺伝子配列データに基づく薬物の選択を魅力的なオプションとする。しかしながら、配列データの使用はウイルス遺伝子突然変異の出現に基づく、ウイルス薬物応答の正確な予測を必要とする。ウイルス突然変異の多くの異なる組合せは、全ての遺伝子補因子およびそれらの相互作用を含むモデルを設計し、限定されたデータでもってモデルを訓練するのを困難とする。後者の問題は、薬物養生法の多くの異なる組合せが、変数、すなわち、ベースライン臨床状態、処置履歴、臨床的結果および遺伝子配列を含有するいずれかの特定の養生法について十分に大きなデータ組を収集するのを困難とする場合に、イン−ビボ薬物応答をモデル化する関係が悪化した。

抗ウイルス薬物に対する耐性は、ＲＴまたはプロテアーゼ配列内の１つの突然変異、または複数の突然変異の組合せの結果であり得る。ＲＴ酵素は５６０コドンの鍵となる組によってコードされ；プロテアーゼ酵素は９９のコドンによってコードされる。アミノ酸を改変する突然変異のみをコードすることによって各アミノ酸遺伝子座は１９の可能な突然変異を有し；従って、ＲＴ酵素について野生型とは異なる合計１０，６４０の可能な突然変異、およびプロテアーゼ酵素についての１，９８１の可能な突然変異がある。単純な直線モデルを用い、データで総合した各突然変異（全ての突然変異が起こるのではない）が特定の重み付け、または直線回帰パラメーターと関連させる場合、数千のパラメーターが存在し得る。もし数百人の患者の試料のみが各薬物で利用できるならば、問題は過剰決定的であるか、またはＨａｄａｍａｒｄの意味において不適切である。というのは、独立した方程式よりも評価するより多くのパラメーターがあるからである。不適切な問題のためにモデル構築する問題に適用することができる多くの技術が存在する。これらが先見的専門知識を観察と組み合わせて、専門家のルールに基づくシステム、ならびにｉ）リッジ回帰、ｉｉ）主要成分分析、ｉｉｉ）決定ツリー、ｉｖ）段系的選択技術、ｖ）神経ネットワーク、ｖｉ）最小絶対収縮および選択オペレーター（ＬＡＳＳＯ）およびｖｉｉ）ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ（ＳＶＭ）を含めた統計的方法を作り出すことを含む。

３つの主な産業−標準専門家システムを典型的に用いて、ＡＲＴ薬物へのＨＩＶウイルスの罹患性：ＡＮＲＳ−ＡＣ１１システム、Ｒｅｇａシステム、およびＳｔａｎｆｏｒｄ
ＨＩＶｄｂシステムを予測する。新しいアルゴリズムがこれらの専門家システムに対して評価されるのは文献において通常である。しかしながら、これらの専門家システムのいずれも、表現型応答の直接的予測を行うように設計されていないが、むしろ、異なる薬物をそれにより比較することができる数値スコアを供し、または感受性、中程度および耐性のような区別されるグループに薬物を分類するように設計されている。加えて、段階的選択でもって訓練された直線回帰モデルのような統計学的アルゴリズムは、表現型結果の予測において専門家システムを実質的に凌ぐことが明瞭に確立されている。結果として、統計学的技術の組のみが、文献に最近開示された方法を最良に実行することを含む詳細な記載中の新規な方法と比較される。

サルベージＡＲＴの臨床的結果の予測に対する現在のアプローチは、薬物養生法および遺伝子突然変異の多くの異なる順列と組み合せた、ほとんどは、統計学的に有意な結果のデータの欠如のため、良好な予測パワーを示さない。この分野は多数の不均一なデータ組の一体化、および薬物応答予測の増強の双方のための緊急の要望を有する。

癌の関係でのバイオインフォマティックス
見積って８０，０００の年次臨床試験のうち、２，１００は癌薬物のためである。癌療法のための危険性および利点をバランスさせることは、表現型および遺伝子型情報の組合せ使用についての臨床的先駆者を表す。過去数十年において化学療法で大きな進歩があったにもかかわらず、腫瘍学者は彼らの癌患者を、癌細胞について正常な細胞に対してしばしば毒性である原始的全身薬物で依然として治療している。かくして、化学の最大毒性用量および治療用量の間に微妙な線がある。さらに、用量−制限毒性は、他の患者ではなくある患者においてよりひどく、治療運動をより高くまたはより低くシフトさせ得る。例えば、乳癌治療で用いられるアントラサイクリンは有害な心血管事象を引き起こしかねない。現在、もし患者が心臓病に対して低い危険性であると決定できても、治療ウィンドウをより大きな用量のアントラサイクリン療法を可能とするようにシフトできたとしても、全ての患者はあたかも心血管毒性の危険性があるように治療される。

各患者についての化学療法の利点および危険性をバランスさせるために、副作用のプロフィール、および医薬介入の治療的有効性を予測することができる。癌療法は、しばしば、ユニークな宿主および腫瘍遺伝子型についての不適切な調整のため失敗する。単一の多形は、稀には、薬物応答において有意な変動を引き起こし；むしろ、マニフォールド多形の結果ユニークな生体分子組成物をもたらし、臨床的結果の予測を困難とする。「ファルマコゲネティックス」は、広く、遺伝子変異が薬物に対する患者の応答に影響する方法と定義される。例えば、肝臓酵素における天然の変異は薬物代謝に影響する。癌化学療法の将来は標的化医薬であり、これは、癌を、多数の遺伝子的、分子的、細胞的、および生化学的異常を含む病気プロセスとして理解する必要がある。酵素−特異的薬物の出現に伴い、腫瘍が特異的にまたは正常な組織よりも高いレベルで分子標的を発現することを確実とするために注意することができる。腫瘍細胞および健康な細胞の間の相互作用を考慮することができる。というのは、患者の正常な細胞および酵素は腫瘍薬物の曝露を制限でき、または有害な事象をよりありそうにしかねないからである。

バイオインフォマティックスは癌治療に大変革を起こさせ、仕立てられた治療が利点を最大化し、有害な事象を最小化するのを可能とする。応答を予測するのに用いられる機能的マーカーはコンピュータアルゴリズムによって分析することができる。乳癌、結腸癌、肺癌および前立腺癌は４つの最も普通の癌である。これらの癌に対する２つの治療の例は乳癌を治療するのに用いられるタモキシフェン、および結腸癌患者において用いられるイリノテカンである。タモキシフェンまたはイリノテカンも、各々、乳癌または結腸癌を治療するのに必要でなく、または十分でない。癌および癌の治療は、患者の副作用のプロフィールおよび腫瘍応答に従って、療法の改正および、しばしば、組合せ療法を必要とする動的なプロセスである。もし癌治療を決定的なツリーとイメージして、他の療法の前、後またはそれと共にいずれかの１つの治療を与え、またはそれを差し控えるならば、このツリーは決定決断点のサブセットを含み、そこではツリーの多く（すなわち、他の治療）はブラックボックスと考えることができる。それにも拘わらず、医師を最も効果的な治療に部分的にガイドするためのデータを有することは有益であり、より多くのデータを集めるに従い、このデータに基づいて治療の決定を行うための効果的な方法は数千人の癌患者において平均余命および生活の質を有意に改善することができよう。

結腸または大腸は胃腸（ＧＩ）管の最後の６−フットのセクションである。合衆国癌協会は、結直腸癌の１４５，０００の症例が２００５年において診断され、５６，０００人が結果として死亡するであろうと見積もっている。結直腸癌はグレード、または細胞の異常、および段階について評価され、これは腫瘍のサイズ、リンパ節の関与、および遠い転移の存在または不存在に細分化される。結直腸癌の９５％は、結腸のルーメンをライニングする遺伝子的突然変異体上皮細胞から発生する腺癌である。症例の８０ないし９０％において、外科的処置単独が看護の標準であるが、転移の存在は化学療法を必要とする。転移性結直腸癌に対する多くの一次療法の１つは５−フルオロウラシル、ロイコボリン、およびイリノテカンの養生法である。

イリノテカンは、スーパーコイルドＤＮＡの絡みを解いて、ＤＮＡ複製が分裂細胞において進行するようにし、細胞をアポトーシスに対して感受性とするトポイソメラーゼを阻害するカンプトテシンアナログである。イリノテカンは生物学的経路において明確な役割を有さず、従って、臨床的結果は予測するのが困難である。用量−限定的毒性はひどい（グレードＩＩＩないしＩＶ）下痢および骨髄抑制を含む、その双方は直ちに医療的注意を必要とする。イリノテカンはウリジン二リン酸グルコロノシルトランスフェラーゼイソ形態１ａ１（ＵＧＴ１Ａ１）によって活性な代謝産物であるＳＮ−３８に代謝される。ＵＧＴ１Ａ１における多形はＧＩのひどさ、および骨髄副作用と相関する。

先行技術
本明細書中において、本発明の分野に関連する先行技術の組をリストする。この先行技術はいずれも、本発明の新規なエレメントを含まず、または断じてそれに言及しない。特許文献１において、Ｈａｒｔｌｅｙらは、作製された組換え部位および組換え蛋白質を用いてＤＮＡ分子のセグメントを移動させ、または交換する組換えクローニング方法を記載する。特許文献２において、Ｐａｒｒｏｔｔらは、生体活性脂質のレベルについて体外受精培養の培地検体を分析して、当該特徴を決定することによって、総じての胚の健康、着床性、および出産予定日まで成功して発生する増大した尤度を含めた体外受精胚の種々の生物学的特徴を決定する方法を提供する。特許文献３において、Ｔｈｒｅａｄｇｉｌｌらは、複数の単離された親細胞における部位−特異的有糸分裂組換えに関連するイン・ビトロフェノタイピングおよび遺伝子マッピングで言うようなホモ接合性細胞ライブラリーを調製する方法を記載する。特許文献４において、Ｓｔｅｗａｒｔらは、血清において直接的に、またはＩＶＦ／ＥＴ手法の一部として患者から抽出された顆粒膜黄体細胞を培養することによって間接的にレラキシンを測定することによって成功する体外受精（ＩＶＦ）の確率を決定する方法を記載する。特許文献５において、Ｃｏｏｋｅらは、女性患者からの生物学的試料中の１１□−ヒドロキシステロイドデヒドロゲナーゼのレベルを測定することによってＩＶＦの結果を予測する方法を提供する。特許文献６において、Ｌａｒｄｅｒらは、神経ネットワークを用いて、療法剤に対する病気の抵抗性を予測する方法を記載する。特許文献７において、Ｖｉｎｇｅｒｈｏｅｔｓらは、所与のＨＩＶ株のインテグラーゼ遺伝子型を、関連表現型と共にＨＩＶインテグラーゼ遺伝子型の公知のデータベースと単純に比較して、マッチング遺伝子型を見出す方法を記載する。特許文献８において、Ｄｅｎｔｏｎらは、個人のハプロタイプを一般的集団におけるハプロタイプの公知のデータベースと比較して、治療に対する臨床的応答を予測する方法を記載する。特許文献９において、Ｓｃｈａｄｔらは、遺伝子マーカーのマップを構築し、個人の遺伝子および特性を分析して遺伝子−特性遺伝子座データを与え、次いで、これを遺伝子的に相互作用する経路を同定するための方法としてクラスター化し、これを多変数分析を用いて確証する方法を記載する。特許文献１０において、Ｖｅｌｔｒｉらは、パラメーターとしてバイオマーカーのコレクションを利用して、前立腺癌の再発の危険性を評価する神経ネットワークの使用を含む方法を記載する。特許文献１１において、Ｍａｓｃａｒｅｎｈａｓは、患者についての生化学的プロフィールを確立し、テストコフォルトのメンバーにおいて応答性を測定し、次いで、患者の生化学的プロフィールのパラメーターを個々にテストして、薬物応答性の尺度との相関性を見出すことによって薬物応答性を予測する方法を記載する。

米国特許第６，７２０，１４０号明細書米国特許第６，４８９，１３５号明細書米国特許出願公開第２００４／００３３５９６号明細書米国特許第５，９９４，１４８号明細書米国特許第５，６３５，３６６号明細書米国特許第７，０５８，６１６号明細書米国特許第６，９５８，２１１号明細書米国特許第７，０５８，５１７号明細書米国特許第７，０３５，７３９号明細書米国特許第６，０２５，１２８号明細書米国特許第５，８２４，４６７号明細書

（発明の要旨）
開示するシステムは、情報の源として二次的遺伝子データを用い、またその遺伝子データを用いて、表現型および臨床的予測をする、不完全またはノイズがある遺伝子データの清浄化を可能とする。開示はヒト対象からの遺伝子データに焦点を当てているが、開示する方法は関連する範囲において生物の範囲の遺伝子データに適用されることは注意すべきである。遺伝子データを清浄化するために記載する技術は、体外受精の間の着床前診断、羊水穿刺と組み合わせた出生前診断、絨毛膜バイオプシー、および胎児血液サンプリング、および非侵襲性出生前診断との関係で最も関連し、ここで、少量の胎児遺伝物質は母体血液から単離される。診断は遺伝病、欠点または異常の増大した尤度、ならびに臨床的およびライフスタイルの決定を促進するための個体についての表現型予測を行うことに焦点をあてることができる。本発明は、先に議論された先行技術の欠点に取り組む。表現型および臨床的予測を行うための本明細書中に記載された技術は、着床前診断、出生前診断との関係、または医療的疾患、または罹患性を持つ個人の関係を含めた、多数の関係で関連する。本明細書中に開示される技術のある実施形態は、個体についての遺伝子、表現型および／または臨床的情報の組を仮定し、個体についての表現型結果または表現型罹患性の性格な予測を行うためのシステムを記載する。１つの態様において、遺伝子データに典型的なように、測定された結果の数と比較して多くの潜在的予測が存在する場合に表現型を正確に予測することができる線形および非線形回帰モデルを形成するための技術が開示され；本発明のもう１つの態様において、該モデルは分割表に基づき、パブリックドメインで入手可能な情報から形成される。なおもう１つの発明において、システムが記載され、ここで、多数のモデルが関連データセットで訓練され、関連予測を行うのに最も正確なそのモデルを用いる。

本発明の１つの態様において、方法は、減数分裂のメカニズムの知識、および胚ＤＮＡの不完全な測定と共に、母親および父親の遺伝子データの不完全な知識を用いて、高度な信頼性でもって鍵となるＳＮＰの位置において胚ＤＮＡをイン・シリコにて再構築する。親データは、貧弱に測定されたＳＮＰのみならず、挿入、欠失、およびＳＮＰ、または全く測定されなかったＤＮＡの全領域の再構築を可能とすることに注意するのは重要である。

開示された方法は体外受精との関係で適応でき、ここで、着床についてコードされる各胚からのゲノタイピングで利用できる。開示された方法は、少数の胎児細胞、または胎児ＤＮＡの断片のみが母親の血液から単離されている非侵襲性出生前診断（ＮＩＰＤ）の関係に等しく適応できる。開示された方法は、羊水穿刺の場合、および胎児の血液が直接的にサンプリングされる他の方法において等しく適応可能である。開示された方法は、限定された量の遺伝子データが標的個人から入手でき、およびさらなる遺伝子データが標的に遺伝的に関連する個体から入手できるいずれの場合においてもより一般的に適用可能である。

本発明の１つの態様において、再構築された胎児または胚ゲノムデータを用いて、細胞が異数性であるか、すなわち、少数の、または２を超える特定の染色体か細胞に存在するかを検出することができる。この疾患の普通の例はトリソリン−２１であり、これはダウン症候群を生起させる。再構築されたデータを用いて、所与の染色体の２つが存在し、その双方が１つの親に由来する疾患である片親二染色体についても検出することができる。これは、ＤＮＡの潜在的状態についての仮説の組を創製し、いずれの１つが測定されたデータを仮定して真実である最高の確率を有するかを見るためにテストすることによってなされる。異数性をスクリーニングするための高スループットゲノタイピングデータの使用は、各胚からの単一の胚盤胞が多数病気−関連遺伝子座を測定し、ならびに染色体異常についてスクリーニングする双方で用いられるのを可能とするのに注意されたし。

本発明のもう１つの態様において、複数の遺伝子座に存在する増幅されたまたは増幅されていない遺伝物質の量の直接的測定を用いて、異数性、または片親二染色体について検出することができる。この方法の背後にある考えは、単に、増幅の間に存在する遺伝物質の量は初期試料における遺伝子情報の量に比例し、多数の遺伝子座においてこれらのレベルを測定することは統計学的に有意な結果を与えることである。染色体異常についてスクリーニングするこの方法は、遺伝子データを清浄化するための本明細書中に記載された関連方法と組合せて用いることができる。

本発明のもう１つの態様において、開示された方法は、外来性遺伝物質によって生じたデータを同定することにより外来性ＤＮＡまたはＲＮＡに汚染されている個体の遺伝物質を清浄化できる。汚染ＤＮＡによって生じた偽シグナルは、異数性によって生じた染色体−幅特異的シグナルを検出できる方法と同様に認識することができる。

本発明のもう１つの態様において、標的細胞が単離され、これらの細胞に含有される遺伝子データが増幅され、以下の技術：ＰＣＲ−ベースの増幅技術、ＰＣＲ−ベースの測定技術、または分子逆転プローブに基づく検出技術、またはＧｅｎｅＣｈｉｐまたはＴａｑＭａｎシステムのようなマイクロアレイのうちの１以上の組合せを用いて多数ＳＮＰの測定を行う。次いで、この遺伝子データを本明細書中に記載されたシステムで用いる。

本発明のもう１つの態様において、双方の親からのジプロイドおよびハプロイドデータを用いて、個体の遺伝子データを清浄化できる。別法として、親からのハプロイドデータは、もし親のジプロイドおよびハプロイドデータを測定することができれば、シミュレートすることができる。もう１つの態様において、個体に対する公知の遺伝子関連のいずれかの個人からの遺伝子データを用いて、親、兄弟姉妹、祖父母、子孫、従兄弟、叔父、叔母などを含めた、個体のデータを清浄化することができる。

本発明のもう１つの態様において、標的および／または関連個体の遺伝子データはイン・シリコにて部分的にまたは全体的に知ることができ、いくつかの直接的測定の必要性を軽減する。遺伝子データの部分は、隠れたＭａｒｋｏｖモデルを利用するインフォーマティックスアプローチによってイン・シリコにて作り出すことができる。

本発明の１つの態様において、ＳＮＰの決定における信頼性を見積もることが可能である。

本明細書中に記載された技術は、１つの、または少数の細胞における遺伝物質の測定、ならびに非侵襲性出生前診断（ＮＩＰＤ）との関係で母親の血液から単離することができるもののようなより少量のＤＮＡについての測定の双方に関連することに注意されたし。また、この方法はイン・シリコでの、すなわち、遺伝物質から直接的に測定されないゲノムデータに等しく適応することができる。

本発明の１つの態様において、ＯＭＩＭ（男性におけるオンラインメンデル遺伝）データを介するように刊行物を介して、およびＨａｐＭａｐプロジェクトおよびヒトゲノムプロジェクトの他の態様から入手可能なデータを用いて入手可能なデータから構築することができる分割表に基づいてモデルを作り出すための技術が提供される。この技術のある実施形態は、モデルの予測的精度を改良するために、遺伝子の間の関連についての、および遺伝子および病気の間の関連についての出現する公のデータを用いる。

なおもう１つの態様において、最良のモデルを、特定の患者で利用できるデータで見出すことができる技術を開示する。この態様において、多くの異なるモデリング技術と共に、変数の多くの異なる組合せを調べることができ、他の対象からのテストデータと共に交差−確証に基づいて個々の対象についての最良の予測を生じるであろうその組合せを選択することができる。

いくつかの場合において、個体についての表現型の結果または表現型の感受性の正確な予測を行うにおいて最良のものを生じさせることができるモデルを、凸最適化技術を用いて訓練して、データの特定の組についての全体的に最適なパラメーターを見出すのが保証されるように、プレディクターの連続的サブセット選択を行う。この特徴は、モデルが複雑であり得、遺伝子突然変異または遺伝子発現レベルのような多くの潜在的プレディクターを含有することができる場合に特に有利である。さらに、いくつかの例においては、それらが単純な方法でデータを説明するように、凸最適化技術を用いて、モデルを希薄とすることができる。この特徴は、モデルにおける潜在的プレディクターの数が、訓練データにおける測定された結果の数と比較して大きい場合でさえ、訓練されたモデルが正確に一般化されるのを可能とする。同様な技術は学問的雑誌に公表されている（Ｒａｂｉｎｏｗｉｔｚ，Ｍ．ら，２００６，“ＡｃｃｕｒａｔｅＰｒｅｄｉｃｔｉｏｎｏｆＨＩＶ−１ｄｒｕｇｒｅｓｐｏｎｓｅｆｒｏｍｔｈｅｒｅｖｅｒｓｅｔｒａｎｓｃｒｉｐｔａｓｅａｎｄｐｒｏｔｅａｓｅａｍｉｎｏａｃｉｄｓｅｑｕｅｎｃｅｓｕｓｉｎｇｓｐａｒｓｅｍｏｄｅｌｓｃｒｅａｔｅｄｂｙｃｏｎｖｅｘｏｐｔｉｍｉｚａｔｉｏｎ．”Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２２（５）：５４１−９）。この論文からの情報は背景および文脈のために本書類に含めてあることに注意されたし。

本明細書中に開示されたある説明的実施形態はヒト対象からの遺伝子データに焦点を当て、癌またはＨＩＶにかかった人々についての、またはアルツハイマー病または心筋梗塞のような病気に対する彼らの罹患性を理解したい人々についての特別な実施形態を提供するが、開示された方法は多数の異なる関係の範囲において生物の範囲の遺伝子データに適用されるのに注意すべきである。表現型予測および薬物応答予測について本明細書中に記載された技術は、種々の癌、遺伝子病、細菌、真菌またはウイルス感染の治療との関係で、並びに臨床的およびライフスタイルの決定を促進するために個体について表現型予測を行うにおいて関連し得る。さらに、該システムを用いて、遺伝子データ、具体的にはＩＶＦとの関係で胚（着床前）の、または羊水穿刺を含めた非侵襲性または侵襲性出生前診断との関係で胎児のＳＮＰ（単一ヌクレオチド多形）データを仮定し、特定の表現型結果の尤度を決定することができる。

１つの実施形態において、予測的モデルを、標準化された計算可能なフォーマットで貯蔵されている特定の個人についての遺伝子データに適用することができる。個人は、彼らに関連する特定の論点を記載することができ、あるいはシステムは、いずれの表現型罹患性がその個体が関連するかを自動的に決定することができる。新しい研究データが病気−遺伝子関連、治療、またはライフスタイルの嗜好性について入手できるようになるので、個体には、集合されたゲノムおよび臨床データから開発された予測的モデルに基づいて、彼らの決定および嗜好性についてのこの情報のインパクトを知らせることができる。別法として、該システムは新しい研究データを用いて、個体についての疑われていない危険性をここに検出することができ、その個体にはこの情報のインパクトを知らせることができる。

もう１つの実施形態において、遺伝子データ、表現型データおよび関連診断テストを含めた臨床記録のデータベースから一体化されたデータについて訓練された結果予測モデルを用いて臨床家のために増強された報告を作成することができる。このシステムは、限定されるものではないが、ＨＩＶ、癌、アルツハイマー病および心臓病を含めた、病気および／または病気素因を持つ個体についての増強された報告の創生を提供できる。この増強された報告は治療する医師に、いずれの病気−管理または予防的処置が与えられた個体についてより適当であるか、またはあまり適当でないであろうことを示すであろう。報告は、集合された対象データについて訓練されたモデルを用いるその個体についての鍵となる結果についての予測および信頼性限界を含むであろう。

もう１つの実施形態によると、特定の個体についてのデータを用いて、分割表に基づき、パブリックドメインで入手可能な情報から形成されたモデルを用いて該個体についての予測を行い、該データは該固体の遺伝子データ、該個体の表現型データ、および個体の臨床データ、およびその組合せよりなる群から取られ、ここで、該予測は該個体の表現型、表現型罹患性および可能な臨床的結果を含む群から取られたトピックスに関し、およびここで、該情報は、遺伝子型−表現型関連についての情報、ある遺伝子対立遺伝子の頻度についての情報、遺伝子対立遺伝子内のある関連の頻度についての情報、遺伝子対立遺伝子のある実施形態を仮定したある表現型の１以上の状態の確率についての情報、ある表現型の状態を仮定した遺伝子対立遺伝子のある組合せの確率についての情報、およびその組合せを含む群から取られるシステムおよび方法が開示される。

なおもう１つの実施形態によると、それにより、特定の個体についてのデータを用いて、最良の精度を示すモデルを利用できるように集合データについて訓練された種々の数学的モデルを用い該個体についての予測を行うことができ、ここで、該個体のデータは該個体の遺伝子データ、該個体の表現型データ、および該個体の臨床的データよりなる群から取られ、およびここで、該予測は該個体の表現型、表現型罹患性、可能な臨床的結果、およびその組合せから取られるトピックスに関連するシステムおよび方法が提供される。ある実施形態において、該方法は、多数のモデルおよび多数のチューニングパラメーターを用いて、データの所与の組において異なる独立した変数および従属した変数の組合せの多くまたはすべてを調べることができ、次いで、最良の表現型予測を行う目的でテストデータにて最高の相関係数を達成した独立した変数および従属した変数およびその組合せ、そのモデルおよびそれらのチューニングパラメーターを選択する。

もう１つの実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、該個体に関連する１以上のトピックスに関連する特定の個体についての報告を作成することができ、ここで、該トピックスはライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体に対する可能な治療養生法、薬物介入、およびその組合せを含む群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴およびその組合せに関連するデータに基づく。

他の実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、医師または臨床家のような特定の個人の代理人のための報告を作成することができ、ここで、該予測は該個体に関連する情報を供することによって該代理人を助けることができ、およびここで、該情報の主題はライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体についての可能な治療養生法、薬物介入、他の治療的介入、およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴およびその組合せに関するデータに基づく。

もう１つの実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、癌にかかった特定の個体に利益を与えることができ、およびここに該予測は、その個体および該個体の特定の癌に関連する情報を供することによって臨床家を助けることができ、およびここで、該情報の主題は治療養生法、ライフスタイルの決定、およびダイエットの嗜好性、薬物介入、他の治療的介入およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。

１つの実施形態によると、本明細書中に開示された方法のいずれも、病原体に罹った特定の個体に利益を与えるために用いることができ、およびここで、該予測は、その個体、および該個体を感染する特定の病原体に関連する情報を供することによって臨床家を助けることができ、ここで、該病原体は細菌、ウイルス、微生物、アメーバー、真菌および他の寄生虫よりなる群から選択されるクラスのものであり、およびここで、該情報の主題は治療養生法、ライフスタイルの決定、およびダイエットの嗜好性、薬物介入、他の治療的介入、およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。

もう１つの実施形態によると、本明細書中に開示された方法のいずれも、具体的な個体についての予測、新しい知識、およびデータを用いることができる。というのは、その知識およびデータは入手可能となるからであり、これを用いて、該個体に関連するトピックスについての、情報報告を自動的にまたは要求に応じて作成することができ、ここで、トピックスはライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体についての可能な治療養生法、薬物の介入、他の治療的介入、およびその組合せを含む群から取られ、およびここで、新しい知識およびデータは性質において医療的であり、およびここで、該予測は、該個体の遺伝子のベーキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。

もう１つの実施形態によると、本明細書中に開示された方法のいずれも、特定の胚からの遺伝子データを用いる予測を用いることができ、該予測を用いて、該胚のある表現型に対する予測された感受性に基づくＩＶＦの関係で胚の選択を助けることができる。

１つの実施形態によると、本明細書中に開示された方法のいずれも、特定の胎児からの遺伝子データを用いる予測を用いることができ、該予測を用いて、余命、乾癬の確率、または数学的能力の特定のレベルの確立のような、潜在的子孫についての特別な表現型の結果を見積もることができる。

この開示の利点を仮定すれば、他の態様、特徴および実施形態は本明細書中に開示された方法およびシステムの１以上を実施することができるのは当業者によって認識されるであろう。
例えば、本願発明は以下の項目を提供する。
（項目１）
（ｉ）関連個体からのいずれの染色体のいずれのセグメントが標的個体ゲノムで見出されるセグメントに対応するかに関する１以上の仮説のセットを創製し、
（ｉｉ）該標的個体遺伝子データの測定、および該関連個体遺伝子データの測定を仮定して該仮説の各々の確率を決定し、次いで、
（ｉｉｉ）各仮説に関連する確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する：
ことを含む、該標的個体の遺伝子データの不完全な知識、および該標的に遺伝的に関連する１以上の個体の遺伝子データの知識に基づいて該標的個体の遺伝子データを決定する方法。
（項目２）
前記方法が、前記標的の遺伝子データの測定、および親の遺伝子データを仮定した特定の測定の尤度の決定に基づいて、親染色体のいずれの領域が、標的個体に寄与した配偶子の形成に寄与した最大尤度を有するかを、決定することを含む、項目１記載の方法。
（項目３）
親の少なくとも１つのハプロタイプが、親のジプロイド試料から測定された遺伝子データ、およびジプロイド試料から測定されたいずれの対立遺伝子がいずれのハプロタイプに属するかを決定するのに用いられる親からのハプロイド試料から測定された遺伝子データを用いることによって決定されている、項目１記載の方法。
（項目４）
前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性試料、ハプロイド母性試料、ジプロイド父性試料およびハプロイド父性試料からの遺伝子データを含む群から選択される、項目１記載の方法。
（項目５）
清浄化された胚遺伝子データにおける個々のＳＮＰ要求の各々について信頼性が計算される、項目１記載の方法。
（項目６）
前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性細胞、ジプロイド父性細胞、ハプロイド父性細胞、母性祖父からのジプロイド細胞、および母性祖父からのハプロイド細胞からの遺伝子データを含む群から選択される、項目１記載の方法。
（項目７）
前記前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性細胞、ジプロイド父性細胞、および問題となる表現型のキャリアーであることが知られた関連個体からのジプロイド細胞からの遺伝子データを含む群から選択される、項目１記載の方法。
（項目８）
遺伝的に関連する個体が、父親、母親、息子、娘、兄弟、姉妹、祖父、祖母、叔父、叔母、甥、姪、孫息子、孫娘、従兄弟、クローン、前記標的に対する公知の遺伝的関係を持つ他の個体、およびその組合せよりなる群から選択される、項目１記載の方法。
（項目９）
前記標的個体が、成人ヒト、若年ヒト、ヒト胎児、ヒト胚、非ヒト成体、非ヒト若年体、非ヒト胎児、および非ヒト胚よりなる群から選択される、項目１記載の方法。
（項目１０）
前記個体の遺伝子データの１以上が、ポリメラーゼ鎖反応（ＰＣＲ）、リガンド媒介ＰＣＲ、縮重オリゴヌクレオチドプライマーＰＣＲ、多重置換増幅、対立遺伝子−特異的増幅技術、およびその組合せよりなる群から選択されるツールおよび／または技術を用いて増幅される、項目１記載の方法。
（項目１１）
前記個体の遺伝子データの１以上が、分子逆転プローブ（ＭＩＰ）、ゲノタイピングマイクロアレイ、ＴａｑｍａｎＳＮＰゲノタイピングアッセイ、Ｉｌｌｕｍｉｎａゲノタイピングシステム、他のゲノタイピングアッセイ、蛍光イン−サイチュハイブリダイゼーション（ＦＩＳＨ）、およびその組合せを含む群から選択されるツールおよび／または技術を用いて測定される、項目１記載の方法。
（項目１２）
前記個体の遺伝子データの１以上が、該個体のバルクジプロイド組織、該個体から取られた１以上のジプロイド細胞、該個体から取られた１以上の胚盤胞、該個体の精液、該個体の卵、該個体で見出される細胞外遺伝物質、母性血液で見出される該個体からの細胞外遺伝物質、母性血漿で見出される該個体からの細胞外遺伝物質、母性血液で見出される該個体からの細胞、該個体に由来することが知られている遺伝物質、およびその組合せを含む群から選択される物質を分析することによって測定される、項目１記載の方法。
（項目１３）
前記関連個体遺伝子データの１以上が、イン・シリコにて部分的にまたは全体的に知られているか、あるいは前記標的個体の遺伝子データを決定する以外の個人によって提供される、項目１記載の方法。
（項目１４）
前記個体の１以上のハプロイド遺伝子データが、ジプロイドデータからハプロイドデータをシミュレートするコンピュータアルゴリズムによってイン・シリコにて部分的にまたは全体的に創製される、項目１記載の方法。
（項目１５）
前記コンピュータアルゴリズムが隠れＭａｒｋｏｖモデルを含む項目１４記載の方法。
（項目１６）
前記標的遺伝子データの決定が、体外受精の関係で胚選択を目的として用いられる、項目１記載の方法。
（項目１７）
前記標的遺伝子データの決定が、出生前遺伝子診断の目的で用いられる、項目１記載の方法。
（項目１８）
前記標的遺伝子データの決定が、統計学的モデルおよび／または専門家則を用いて表現型罹患性の予測を行う目的で用いられる、項目１記載の方法。
（項目１９）
前記標的遺伝子データの決定が表現型予測を行う目的で用いられ、ここで、該表現型のいくつかまたは全てを提示する尤度は、他の従前に知られた表現型情報によって影響される、項目１記載の方法。
（項目２０）
前記標的遺伝子データの決定が表現型予測を行う目的で用いられ、ここで、該予測は、該標的遺伝子データを、パブリックドメインで見出される公知の遺伝子マーカーと比較することによってなされる、項目１記載の方法。
（項目２１）
標的遺伝子データの決定が、臨床的決定を行う目的で用いられる、項目１記載の方法。
（項目２２）
標的遺伝子データの決定が、臨床的決定を行う目的で表現型マーカーと組合せて用いられる、項目１記載の方法。
（項目２３）
前記標的遺伝子データの決定が、１以上の病気に対する罹患性についてスクリーニングする目的で用いられ、ここで、家族の病歴が存在しない、項目１記載の方法。
（項目２４）
前記標的遺伝子データの決定が、１以上の表現型に対する罹患性についてスクリーニングする目的で用いられ、ここで、該表現型のいくつかまたは全てが多重遺伝子的である、項目１記載の方法。
（項目２５）
前記標的遺伝子データの知識が、汚染ＤＮＡまたはＲＮＡからの偽データを含有することが知られた、または含有することが疑われる、項目１記載の方法。
（項目２６）
前記個体の１以上の遺伝子データが、複数のＳＮＰについての対立遺伝子要求、および各ＳＮＰが知られている信頼性を含む、項目１記載の方法。
（項目２７）
前記標的個体のＳＮＰ要求における信頼性が、該ＳＮＰが正しくｖｓ正しくなく要求される確率のオッズ比を計算することによって決定される、項目１記載の方法。
（項目２８）
項目１記載の方法を達成するように構成されたシステム。
（項目２９）
項目１記載の方法を達成するように構成されたコンピュータ実施システム。
（項目３０）
（ｉ）標的個体のゲノムに存在する所与のセグメントの存在の数についての１以上の仮説のセットを創製し、
（ｉｉ）該所与のセグメント上の複数の遺伝子座における可能な対立遺伝子のいくつかまたは全てについての遺伝子データの量を測定し、
（ｉｉｉ）該標的個体の遺伝子データおよび、恐らくはまた、関連個体の遺伝子データの測定を仮定して該仮説の各々の相対的確率を決定し、次いで、
（ｉｖ）各仮説に関連する相対的確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する；
ことを含む、該標的個体の所与の染色体の所与のセグメント上の多数遺伝子座の測定を用いて、該標的個体のゲノム中の所与のセグメントの存在の数を決定する方法。
（項目３１）
該標的ゲノムに存在する染色体のセグメントの存在の数の決定が、染色体異常についてスクリーニングする関係で行われ、この異常は、モノソミー、片親ジソミー、トリソミー、他の異数性、アンバランスなトランスロケーション、およびその組合せを含むリストから選択される、項目３０記載の方法。
（項目３２）
各仮説の相対的確率の決定が、マッチドフィルタリングの概念を用いて行われる、項目３０記載の方法。
（項目３３）
各仮説の相対的確率の測定が、対立遺伝子要求を行わない定量的技術を用いてなされ、ここで、各遺伝子座の測定についての平均および標準偏差が既知、未知、または均一のいずれかである、項目３０記載の方法。
（項目３４）
各仮説の相対的確率の決定が、対立遺伝子要求を用いる定性的技術を用いてなされる、項目３０記載の方法。
（項目３５）
各仮説の相対的確率の決定が、参照配列の公知の対立遺伝子、および定量的対立遺伝子測定を用いることによってなされる、項目３０記載の方法。
（項目３６）
前記標的個体が、成人ヒト、若年ヒト、ヒト胎児、ヒト胚、非ヒト成体、非ヒト若年体、非ヒト胎児、および非ヒト胚よりなる群から選択される、項目３０記載の方法。
（項目３７）
前記標的個体の遺伝子データが、ポリメラーゼ鎖反応（ＰＣＲ）、リガーゼ媒介ＰＣＲ、縮重オリゴヌクレオチドプライマーＰＣＲ、多重置換増幅、対立遺伝子−特異的増幅およびその組合せを含む群から取られるツールおよび／または技術を用いて増幅される、項目３０記載の方法。
（項目３８）
前記標的個体の遺伝子データが、分子逆転プローブ（ＭＩＰ）、ゲノタイピングマイクロアレイ、ＴａｑｍａｎＳＮＰゲノタイピングアッセイ、Ｉｌｌｕｍｉｎａゲノタイピングシステム、他のゲノタイピングアッセイ、蛍光イン−サイチュハイブリダイゼーション（ＦＩＳＨ）、およびその組合せを含む群から選択されるツールおよび／または技術を用いて測定される、項目３０記載の方法。
（項目３９）
前記標的個体の遺伝子データが、該標的個体のバルクジプロイド組織、該標的個体から取られる１以上のジプロイド細胞、該標的個体から取られる１以上の胚盤胞、該標的個体上で見出された細胞外遺伝物質、母性血液で見出された該標的個体からの細胞外遺伝物質、母性血液で見出される該標的個体からの細胞、該標的個体に由来することが知られた遺伝物質、およびその組合せを含む群から取られる物質を分析することによって測定される、項目３０記載の方法。
（項目４０）
前記標的における染色体または染色体セグメントの数の決定が、体外受精の関係で胚選択を目的として用いられる、項目３０記載の方法。
（項目４１）
前記標的の染色体または染色体セグメントの数の決定が、出生前遺伝子診断の目的で用いられる、項目３０記載の方法。
（項目４２）
項目３０記載の方法を達成するように構成されたシステム。
（項目４３）
項目３０記載の方法を達成するように構成されたコンピュータ実施システム。
（項目４４）
（ｉ）関連個体からのいずれの染色体のいずれのセグメントが標的個体のゲノムで見出されるセグメントに対応するかについての１以上の仮説のセットを創製し、
（ｉｉ）該標的のゲノムに存在する所与の染色体セグメントの数についての１以上の仮説のセットを創製し、
（ｉｉｉ）該所与のセグメント上の複数の遺伝子座における可能な対立遺伝子の各々についてゲノムデータの量を測定し、
（ｉｖ）該標的個体の遺伝子データの測定、および該関連個体の遺伝子データの測定を仮定して仮説の各々の相対的確率を決定し、次いで、
（ｖ）各仮説に関連する相対的確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する；
ことを含む、該標的個体の遺伝子データの不完全な知識、および該標的に遺伝的に関連する１以上の個体の遺伝子データの知識に基づいて、該標的個体の遺伝子データ、および該標的ゲノムに存在する染色体、または染色体のセグメントの存在の数を決定する方法。
（項目４５）
（ｉ）遺伝子−病気関連についての公に入手可能な情報から形成された偶発事象表に基づいてモデルを構築し；次いで、
（ｉｉ）該モデルを適用して、個体に関連するデータに対して操作することによって予測を行う；
ことを含む、該個体に関連する予測を行う方法。
（項目４６）
多数の独立変数を使用する前記偶発事象表の精度が、結果データを用いて洗練することができ、ここで、独立変数のサブセットのみが測定される、項目４５記載の方法。
（項目４７）
多数の独立変数を使用する前記偶発事象表の精度が、前記独立変数の関連についてのデータを用いて洗練することができる、項目４５記載の方法。
（項目４８）
多数の独立変数を使用する前記偶発事象表の制度が、前記独立変数のある値の出現の頻度についてのデータを用いて洗練することができる、項目４５記載の方法。
（項目４９）
（ｉ）予測すべき結果が知られている個体の第二のセットからの集合データを用いて複数のモデルを創製し、それをテストし；
（ｉｉ）第一の個体で利用可能なデータを仮定した予測を行うための種々のモデルの相対的精度を計算し；次いで、
（ｉｉｉ）最も正確なものとして同定されるモデルを用いて、該第一の個体について予測を行う；
ことを含む、第一の個体に関する予測を行う方法。
（項目５０）
前記個体に関連するデータのタイプは、該個体の遺伝子型データ、該個体の表現型データ、該個体の臨床データ、および該個体の実験室データよりなる群から選択されるデータを含む、項目４５記載の方法。
（項目５１）
前記個体に関連するデータのタイプが、該個体の遺伝子型データ、該個体の表現型データ、および該個体の臨床データ、ならびに該個体の実験室データよりなる群から選択されるデータを含む、項目４９記載の方法。
（項目５２）
前記データのタイプが、また、前記個体を感染させる病原体のデータよりなる、項目４５記載の方法。
（項目５３）
前記データのタイプが、また、前記個体を感染させる病原体のデータよりなる、項目４９記載の方法。
（項目５４）
前記予測が、前記個体の表現型、表現型罹患性、可能な臨床的結果、ライフスタイルの決定、身体の運動、ダイエットの嗜好性、ホルモンサプリメント、栄養サプリメント、病気のための治療、病原体のための処理、望まない疾患についての治療、医薬での治療、およびその組合せよりなる群から選択されるトピックに関する、項目４５記載の方法。
（項目５５）
前記予測が、前記個体の表現型、表現型罹患性、可能な臨床的結果、ライフスタイルの決定、身体の運動、精神的運動、ダイエット嗜好性、ホルモンサプリメント、栄養サプリメント、病気についての治療、病原体についての処理、望ましくない疾患についての治療、医薬での治療、およびその組合せよりなる群から選択されるトピックスに関する、項目４９記載の方法。
（項目５６）
前記予測を用いて、前記個体のための、または該個体の代理人のための報告を作成する、項目４５記載の方法。
（項目５７）
前記予測を用いて、前記個体のための、または該個体の代理人のための報告を作成する、項目４９記載の方法。
（項目５８）
前記操作の行為が、新しいデータについて操作して、前記個体の予測を更新することを含み、ここで、該データは新しい研究データ、または他の対象についての新しい集合データを含む群から選択される、項目４５記載の方法。
（項目５９）
前記操作の行為が、新しいデータについて操作して、前記個体の予測を更新することを含み、ここで、該データは新しい研究データまたは他の対象についての新しい集合データを含む群から選択される、項目４９記載の方法。
（項目６０）
項目４５記載の方法を達成するように構成されたシステム。
（項目６１）
項目４９記載の方法を達成するように構成されたシステム。
表１：ＯＭＩＭ／ＮＣＢＩに見出される病気遺伝子のまとめ。
表２：異なる異数性検出技術のまとめ。
表３：低度な共分離を持つＳＮＰを用いて記載された方法についての入力データの例。
表４：高度な共分離を持つＳＮＰを用いて記載された方法についての入力データの例。
表５：表２に示された入力データに代えての出力データの例。
表６：表４に示された入力データに代えての出力データの例。
表７：予備的シミュレーションの結果。
表８：方法の全シミュレーションの結果。
表９：アルツハイマー病の開始への影響におけるＡＰＯＥおよびＡＣＥにおける突然変異の役割を理解するためのＦａｒｒｅｒ（２００５）、Ｌａｂｅｒｔ（１９９８）、およびＡｌｖａｒｅｚ（１９９９）の結果を表す３つの分割表。
表１０：表７の実験のメタ−分析から生じた結果。
表１１：訓練およびテストデータの１０の異なる９：１スプリットにわたって平均した、種々の方法についてのプロテアーゼ阻害剤（ＰＩ）薬物に対する測定されたおよび予測された応答の相関係数（％で表したＲ）の表。結果の標準偏差（Ｓｔｄ．ｔｅｖ．）は灰色で示す；測定された薬物応答の数は最後の列に示す。
法１２：訓練およびテストデータ１０の異なる９：１スプリットにわたって平均された、種々の方法についての逆転写酵素阻害剤（ＲＴＩ）薬物に対する測定されたおよび予測された応答の相関係数（％で表したＲ）の表。結果の標準偏差（Ｓｔｄ．ｄｅｖ．）は灰色で示す；測定された薬物応答の数は最後の列に示す。
表１３：プロテアーゼ阻害剤（ＰＩ）薬物応答についてのプレディクターとしての最小絶対選択および収縮オペレーター（ＬＡＳＳＯ）によって選択された非ゼロ重みを持つ突然変異の数と共に、種々の回帰方法についての訓練で用いられる試料の数、および突然変異の合計数。
表１４：逆転写酵素阻害剤（ＲＴＩ）応答についてのプレディクターとしてのＬＡＳＳＯによって選択された非ゼロ重みを持つ突然変異の数と共に、種々の方法での訓練で用いられる試料の数、および突然変異の合計数。
表１５：イリノテカン実験についての表現型データ。

配偶子形成についての減数分裂における組換えの概念の説明図。ヒト染色体１の１つの領域に沿っての組換えの可変速度の説明図。異なる仮定に対する偽陰性および偽陽性の確率の決定。混合された女性試料、全てのヘテロ遺伝子座からの結果。混合された男性試料、全てのヘテロ遺伝子座からの結果。女性試料についてのＣｔ測定とは異なる男性試料についてのＣｔ測定。混合された女性試料からの結果；Ｔａｑｍａｎ単一色素。混合された男性試料からの結果；Ｔａｑｍａｎ単一色素。混合された男性試料についての反復測定の分布。混合された女性試料からの結果；ｑＰＣＲ尺度。混合された男性試料からの結果；ｑＰＣＲ尺度。女性試料についてのＣｔ測定とは異なる男性試料についてのＣｔ測定。第三の似ていない染色体での異数性の検出。定常対立遺伝子ドロップアウト速度での２つの増幅分布の説明図。アルファのガウス確率密度関数のグラフ。入力データ、データベースデータ、アルゴリズムおよび出力の一般的な関係のダイヤグラム。Ｐ（Ｈ｜Ｍ）をどのように駆動するかの視覚的概観。シミュレートされたデータについての清浄化アルゴリズムの有効性を示すのに用いられるアルゴリズムを記載するフローチャートの視覚的表示。ＩＶＦの間における胚の表現型予測の関係での、本明細書中に開示された方法を達成するように構成されたシステムの説明図。疎な解を生じるＬＡＳＳＯ傾向の説明図。Ｒｉｄｇｅ回帰解は２つの円の接合に存在し、ＬＡＳＳＯ解は円および四角形の接合に存在する。訓練およびテストデータの１０の異なる９：１スプリットにわたって平均し、次いで、各々、７つのＰＩまたは１０のＲＴＩにわたって平均した、測定したおよび予測した応答の相関係数（％で表したＲ）の表。ＰＩ応答を予測するためのプロテアーゼ酵素における突然変異に関連するＬＡＳＳＯモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ４０のパラメーターのみを示す。ＮＲＴＩ薬物応答を予測するためのＲＴ酵素における突然変異に関連するＬＡＳＳＯモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ４０のパラメーターのみを示す。ＮＮＲＴＩ薬物応答を予測するためのＲＴ酵素における突然変異に関連するＬＡＳＳＯモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ４０のパラメーターのみを示す。記載なし。記載なし。記載なし。記載なし。

（好ましい実施形態の詳細な説明）
システムの概念的概観
開示されたシステムの１つの目標は、遺伝子診断の目的の高度に正確なゲノムデータを提供することである。個体の遺伝子データが有意な量のノイズ、またはエラーを含有する場合、開示されたシステムは、関連個体の遺伝子データ、およびその第二の遺伝子データに含まれる情報の間の同様性を用いて、標的ゲノムにおけるノイズを清浄化する。これは、染色体のいずれのセグメントが配偶子形成に関与し、およびどこで減数分裂の間に交差が起こったか、従って、第二のゲノムのいずれのセグメントが標的ゲノムのセクションに対してほとんど同一であると予測されるかを決定することによってなされる。ある状況においては、この方法を用いてノイジーな塩基対測定を清浄化することができるが、それを用いて、測定されなかったＤＮＡの個々の塩基対または全領域の同一性を推定することもできる。加えて、なされた各再構成要求について信頼性を計算することができる。高度に単純化された説明を最初に示し、非現実的な仮定をなして、本発明の概念を説明する。今日の技術に適用することができる詳細な統計学的アプローチを以後示す。

システムのもう１つの目標は、染色体の異常な数、染色体のセクション、および染色体の起源を検出することにある。異数性であり、アンバランスなトランスロケーション、片親二染色体、または他の正味の染色体異常を有する一般的試料において、複数の遺伝子座に存在する遺伝物質の量を用いて、試料の染色体状態を決定することができる。この方法に対して多数のアプローチが存在し、それらのうちいくつかをここに記載する。いくつかのアプローチにおいて、試料に存在する遺伝物質の量は、異数性を直接的に検出するのに十分である。他のアプローチにおいて、遺伝物質を清浄化する方法を用いて、染色体不均衡の検出の効率を増強させることができる。なされた各染色体要求に対して信頼性を計算することができる。

該システムのもう１つの目標は、遺伝子データに関連する変数の効果をモデル化するように設計された項目の広いアレイを開発することによって、遺伝子データから最も単純かつ触知可能な統計学的モデルを抽出する有効かつ効果的手段を提供することにある。より具体的には、遺伝子データに基づいて表現型または表現型感受性をモデル化するための現在利用可能な方法のほとんどまたは全ては以下の欠点を有する：（ｉ）それらは凸最適化技術を用いず、かくして、所与の訓練データセットに対するモデルパラメーターについての局所的最小解を見出すことは保証されない；（ｉｉ）それらはモデルの複雑性を最小化する技術を用いず、かくして、それらは、独立した変数の数に対して少数の結果が存在する場合に十分に一般化されるモデルを形成しない；（ｉｉｉ）それらは、正規分布したデータの単純化仮定をなすことなく、論理的回帰の関係でデータからの最も単純な触知のルールの抽出を可能とせず；（ｉｖ）それらは遺伝子−遺伝子関連、遺伝子−表現型関連および遺伝子−病気関連についての先見的情報を活用して、表現型または表現型感受性の最良の可能な予測をしない；（ｖ）それらは１を超えるモデルを提供せず、かくして、訓練データに対する種々のモデルの交差−確証に基づいて最良の可能なデータを選択するための一般的アプローチを提供しない。これらの欠点は、遺伝子および表現型情報に関連する多量のデータクラスの分析に基づいて結果を予測する関係で臨界的である。まとめると、現在利用可能な方法は個体が遺伝子型が所与の特定の表現型特徴の尤度についての、または親の遺伝子型特徴を仮定した子孫における特定の表現型特徴の尤度についての質問に答えるのに効果的に力を与えない。

以下に掲げる説明のいくつかは、本書類の著者によって従前に公表された仕事を含むことに注意されたし。それは背景情報として提供されて、本明細書中に開示された材料の理解を容易とし、および該材料に対するより大きな関係を与える。

３つのカテゴリーにおいて遺伝子型−表現型予測モデルを考慮することができる：ｉ）遺伝子欠陥または対立遺伝子は１００％の確実性でもって病気表現型を引き起こすことが知られている；ｉｉ）病気表現型の確率を増加させる遺伝子欠陥および対立遺伝子、ここで、プレディクターの数は表現型確率を分割表でモデル化できるのに十分に小さい；およびｉｉｉ）多次元線形または非線形回帰モデルを用いて表現型を予測するのに用いることができる遺伝子マーカーの複雑な組合せ。オンラインメンデル遺伝データベース（ＯｎｌｉｎｅＭｅｎｄｅｌｉａｎＩｎｈｅｒｉｔａｎｃｅＤａｔａｂａｓｅ（ＯＭＩＭ））における現在知られている配列および病気表現型を持つ３５９の遺伝子（表１、列２参照）のうち、大部分はカテゴリー（ｉ）に入り；残りは圧倒的にカテゴリー（ｉｉ）に入る。しかしながら、経時的に、多数の遺伝子型−表現型モデルがカテゴリー（ｉｉｉ）において生起していると予測され、ここで、多数の対立遺伝子または突然変異の相互作用は、特定の表現型の確率を見積もるためにモデル化される必要があろう。例えば、シナリオ（ｉｉｉ）は、確実に、今日、ＨＩＶウイルスの遺伝子データに基づいて抗−レトロウイルス療法に対するＨＩＶウイルスの応答を予測する関係で当てはまる。

シナリオ（ｉ）については、経験則に基づいて表現型の発生を予測するのは通常直接的である。１つの態様において、シナリオ（ｉｉ）について表現型の正確な予測をなすのに用いることができる統計的技術が記載されている。もう１つの態様において、シナリオ（ｉｉｉ）について正確な予測を行うのに用いることができる統計学的技術が記載されている。もう１つの態様において、特定の表現型、集合データの特定の組、および特定の個々のデータについて最良のモデルを選択することができる方法が記載されている。

本明細書中に開示された方法のある実施形態は、分割表を実行して、シナリオ（ｉｉ）において正確に予測を行う。これらの技術は遺伝子−遺伝子関連および遺伝子−病気関連についての先見的情報を活用して、表現型または表現型感受性の予測を改良する。これらの技術は、関連した独立変数の全てがサンプリングされるのではない従前の実験からのデータを活用するのを可能とする。それらが失われたデータを有するという理由でこれらの従前の結果を捨てる代わりに、概技術はＨａｐＭａｐプロジェクトおよびその他からのデータを活用して、関連する独立変数のサブセットのみが測定された従前の実験を用いる。このように、全ての関連する独立した変数が測定された対象からのデータを単純に集合させるよりはむしろ、予測モデルを全ての集合データに基づいて訓練することができる。

本明細書中に記載されたある方法は凸最適化を用いて、シナリオ（ｉｉｉ）において正確な予測をなすのに用いることができる疎なモデルを創製する。遺伝子型−表現型モデリングの問題はしばしば過剰決定系であるか、または不適切である。というのは、潜在的プレディクター−遺伝子、蛋白質、突然変異およびそれらの相互作用−の数は、測定された結果の数に対して大きいからである。そのようなデータのセットは、依然として、Ｏｃｃａｍ’ｓＲａｚｏｒと同様な原理を発見することによって正確に一般化される疎なパラメーターモデルを訓練するのに用いることができる。多くの可能な理論が観察を説明することができる場合、最も単純なのは最も正しいらしいものである。この哲学は、先に議論したシナリオ（ｉｉｉ）において遺伝子型−表現型モデルの形成に関連する１つの態様において具体化される。遺伝子データへの適用について本明細書中に記載された技術は、過少判断されたまたは誤って条件付けされた遺伝子型−表現型データセットについて疎なパラメーターモデルを創製することを含む。疎なパラメーターセットの選択はＯｃｃａｍ’ｓＲａｚｏｒと同様な原理を発揮し、結果として、潜在的プレディクターの数が測定された結果の数に対して大きい場合でさえ、正確なモデルが開発されるのを可能とする。加えて、シナリオ（ｉｉｉ）において遺伝子型−表現型モデルを形成するための本明細書中に記載された技術のある実施形態は、所与の訓練データセットについてのモデルパラメーターに対する全体的最小解を見出すことが保証された凸最適化技術を用いる。

集合データのセット、および個体についての入手可能なデータのセットを仮定すれば、その個体についての最良な表現型予測を行うために、いずれの予測アプローチが最も適当であるかは稀にしか明瞭でない。正確な表現型予測を行う傾向があるモデルのセットを記載することに加えて、本明細書中に開示された実施形態は、多数の方法をテストし、所与の表現型予測についての最適方法、集合データの所与のセット、および予測がなされるべき個体についての入手可能なデータの所与の組を選択するシステムを代表する。開示された方法およびシステムは、多重モデルおよび多重訓練パラメーターを用いるデータの所与のセットにおける全ての異なる独立した変数および従属する変数の組合せを調べ、次いで、独立した変数、従属した変数、およびテストデータで測定された最良のモデリング精度を達成するチューニングパラメーターの組を選択する。シナリオ（ｉ）に対応する場合には、専門家則を立案することができ；カテゴリー（ｉｉ）におけるような少数の独立した変数での他の場合には、分割表は最良の表現型予測を提供し；およびシナリオ（ｉｉｉ）のような他の場合には、線形または非線形回帰技術を用いて、予測の最適な方法を提供することができる。本開示を読んだ後には、個体について予測をなすための最良のモデルを選択するアプローチをどのようにして用いて、本明細書中に開示されたものを超えて多くのモデリング技術から選択することができるかは当業者に明瞭であろうことを注記する。

技術のある実施形態はいくつかの関係で示されている。まず、それは、分割表、および遺伝子マーカーに基づいて、アルツハイマー病の予測に焦点を当てる多くの臨床的実験から一体化されたデータの不完全な組を用いてアルツハイマー病を発生する尤度を予測する関係で示されている。次に、該システムは、回帰分析、およびウイルスゲノムにおける遺伝子マーカーの知識を用いて１型ヒト免疫不全ウイルス（ＨＩＶ−１）の薬物応答をモデル化する関係で示されている。最後に、該システムは、各々、回帰分析、および個体についての双方の遺伝子マーカーの不完全なデータ、および癌に関連する実験質的および臨床的対象情報を用いる、乳癌および結腸癌の種々の症例の治療におけるタモキシフェンおよびイリノテカンの用法によって引き起こされる副作用の予測の点で示されている。

遺伝子型テストの減少する費用のため、信頼性よくウイルス薬物応答、癌薬物応答、および他の表現型応答または遺伝子データからの結果を予測する統計学的モデルは、それらが病気治療、ライフスタイルまたは嗜好性決定、または他の活動であるか否かを問わず適当な作用のコースの選択において重要なツールである。記載された最適化技術は、臨床的決定を増強させる目的で多くの遺伝子型−表現型モデリングの問題に応用を有するであろう。

システムの技術的記載
データの清浄化：単純化された例
図１は、親における配偶子の形成について減数分裂の間に起こる組換えのプロセスを説明する。個体の母親からの染色体１０１はオレンジ色（または灰色）で示す。個体の父親からの染色体１０２は白色で示す。減数分裂の前相Ｉの間の複糸期として知られたこの間隔の間に、４つの染色分体１０３のテトラドが目に見える。相同対の非姉妹染色分体の間の交差は組換え小節１０４として知られた地点で起こる。説明の目的で該例は単一の染色体、および３つの遺伝子の対立遺伝子を特徴付けると推定される３つの単一ヌクレオチド多形（ＳＮＰ）に焦点を当てる。この議論では、ＳＮＰは母性および父性染色体上で別々に測定することができると仮定する。この概念は多くのＳＮＰ、多数のＳＮＰによって特徴付けられる多くの対立遺伝子、多くの染色体、および母性および父性染色体をゲノタイピング前には個々に単離することができない現行のゲノタイピング技術に適用することができる。

注目するＳＮＰの間における潜在的交差の地点に注意を払わなければならない。３つの母性遺伝子の対立遺伝子のセットは、ＳＮＰ（ＳＮＰ_１，ＳＮＰ_２，ＳＮＰ_３）に対応する（ａ_ｍ１，ａ_ｍ２，ａ_ｍ３）として記載することができる。３つの父性遺伝子の対立遺伝子のセットは（ａ_ｐ１，ａ_ｐ２，ａ_ｐ３）として記載することができる。図１において形成された組換え小節をコードし、組換え染色分体の各対についてちょうど１つの組換えがあると仮定する。このプロセスで形成された配偶子のセットは遺伝子対立遺伝子：（ａ_ｍ１，ａ_ｍ２，ａ_ｐ３）、（ａ_ｍ１，ａ_ｐ２，ａ_ｐ３）、（ａ_ｐ１，ａ_ｍ２，ａ_ｐ３）、（ａ_ｐ１，ａ_ｐ２，ａ_ｍ３）を有するであろう。染色分体の交差がない場合において、配偶子は対立遺伝子（ａ_ｍ１，ａ_ｍ２，ａ_ｍ３）、（ａ_ｐ１，ａ_ｐ２，ａ_ｐ３）を有するであろう。関連領域において交差の２つの地点がある場合において、配偶子は対立遺伝子（ａ_ｍ１，ａ_ｐ２，ａ_ｍ３）、（ａ_ｐ１，ａ_ｍ２，ａ_ｐ３）を有するであろう。対立遺伝子のこれらの８つの異なる組合せを、その特定の親について、対立遺伝子の仮説セットという。

胚ＤＮＡからの対立遺伝子の測定はノイジーであろう。この議論の目的では、胚ＤＮＡからの単一染色体を取り、それが、その減数分裂を図１で説明する親に由来すると仮定する。この染色体上の対立遺伝子の測定は、もし胚染色体における測定された対立遺伝子がａ_ｍ１であればＡ_１＝１であり、もし胚染色体における測定された対立遺伝子がａ_ｐ１であればＡ_１＝−１であって、もし測定された対立遺伝子ａ_ｍ１またはａ_ｐ１でなければＡ_１＝０であるインジケーター変数のベクトルの項：Ａ＝［Ａ_１Ａ_２Ａ_３］^Ｔで記載することができる。推定親についての対立遺伝子の仮説セットに基づき、前記したすべての可能な配偶子に対応する８つのベクトルのセットを作り出すことができる。前記した対立遺伝子については、これらのベクトルはａ_１＝［１１１］^Ｔ、ａ_２＝［１１ −１］^Ｔ、ａ_３＝［１ −１１］^Ｔ、ａ_４＝［１ −１ −１］^Ｔ、ａ_５＝［−１１１］^Ｔ、ａ_６＝［−１１ −１］^Ｔ、ａ_７＝［−１ −１１］^Ｔ、ａ_８＝［−１ −１ −１］^Ｔとなろう。システムのこの高度に単純化された適用において、胚のありそうな対立遺伝子は、仮説セットおよび測定されたベクトルの間の単純な相関分析を行うことによって決定することができる：
ｉ^＊＝ａｒｇｍａｘ_ｉＡ^Ｔａ_ｉ，ｉ＝１．．．８（１）
一旦ｉ^＊が見出されれば、仮説

が胚ＤＮＡにおける対立遺伝子の最もありそうなセットとして選択される。次いで、２つの異なる仮定、すなわち、胚染色体は母親または父親に由来するという仮定を立て、このプロセスを２回反復する。最大の相関

を生じるその過程は正しいと仮定されるであろう。各場合において、母親または父親の各ＤＮＡの測定に基づき、対立遺伝子の仮説セットを用いる。開示された方法の典型的な実施形態においては、特定の病気表現型とのその関連のため重要であるＳＮＰの間の多数のＳＮＰを測定し−これらは表現型−関連ＳＮＰまたはＰＳＮＰといわれるであろうことに注意されたし。ＰＳＮＰの間の非表現型−関連ＳＮＰ（ＮＳＮＰ）は、個体の間で実質的に異なる傾向があるＲｅｆＳＮＰをＮＣＢＩｄｂＳＮＰデータベースから選択することによって、（例えば、特殊化されたゲノタイピングアレイを開発するための）先見的に選択することができる。別法として、ＰＳＮＰの間のＮＳＮＰは親の特定の対について選択することができる。なぜならばそれらは親の間で異なるからである。ＰＳＮＰの間のさらなるＳＮＰの使用は、交差がＰＳＮＰの間で起こるか否かをより高いレベルの信頼性でもって決定することを可能とする。異なる「対立遺伝子」をこの注記において言及するが、これは単に便宜的なものであり；ＳＮＰは蛋白質をコードする遺伝子には関連しないであろうことに注意するのは重要である。

現行の技術との関連でのシステム
もう１つのより複雑な実施形態において、特定の交差の確率を考慮して、対立遺伝子の事後確率を特定の測定を仮定して計算する。加えて、マイクロアレイに典型的なシナリオおよび他のゲノタイピング技術をアドレスし、ここで、ある時点で単一の染色体についてよりはむしろ染色体の対についてＳＮＰを測定する。胚、父性および母性染色体についての遺伝子座ｉにおける遺伝子型の測定は、各々、ＳＮＰ測定の対を表すランダム変数（ｅ_１，ｉ，ｅ_２，ｉ）、（ｐ_１，ｉ，ｐ_２，ｉ）および（ｍ_１，ｉ，ｍ_２，ｉ）によって特徴付けることができる。もしすべての測定が対としてなされるならば、母性および父性染色体における交差の存在を決定することができないので、該方法は修飾される：受精胚および父性および母性ジプロイド組織を遺伝子型分けするに加えて、各親からの１つのハプロイド細胞、すなわち、精子細胞および卵細胞も遺伝子型分けする。精子細胞の測定された対立遺伝子はｐ_１，ｉ，ｉ＝１．．．Ｎによって表され、父性ジプロイド組織から測定された相補的対立遺伝子はｐ_２，ｉによって表される。動揺に、卵細胞の測定された対立遺伝子はｍ_１，ｉによって表され、母親のジプロイド細胞におけるそれらの相補体はｍ_２，ｉによって表される。これらの測定は、どこで親染色体が測定された精子および卵細胞を生じるかにおいて交差したかについての情報を提供しない。しかしながら、卵または精子上のＮ個の対立遺伝子の配列は少数の交差によって、または交差なしによって、親染色体から作り出されたと仮定することができる。これは開示されたアルゴリズムを適用するための十分な情報である。あるエラーの確率は、父性および母性ＳＮＰの要求に関連する。このエラーの確率の見積もりは、なされた測定（ｐ_１，ｉ，ｐ_２，ｉ）および（ｍ_１，ｉ，ｍ_２，ｉ）、および用いる技術についてのシグナル−対−ノイズ比率に基づいて変化するであろう。これらのエラーの確率は、開示された方法に影響することなく各遺伝子座についてユニークに計算することができるが、父性および母性ＳＮＰを正しく要求する確立は、各々、ｐ_ｐおよびｐ_ｍにおいて一定であると仮定することによってここでは代数は単純化される。

測定は、測定Ｍという胚ＤＮＡで行われると仮定する。加えて、Ａが今やセットであって、ベクトルではないように、表記法をわずかに修飾する：Ａとは、各親に由来する対立遺伝子の組合せ（またはセット）についての特定の仮説をいう。双方の親からの対立遺伝子Ａのすべての可能な実施形態のセットをＳ_Ａとして示す。目標は、測定Ｍを与えて、最大の事後確率でもって、対立遺伝子の組合せ（またはその仮説）Ａ∈Ｓ_Ａを決定することである：
Ａ^＊＝ａｒｇｍａｘ_ＡＰ（Ａ｜Ｍ），∀Ａ∈Ｓ_Ａ（２）
条件付き確率の法則を用い、Ｐ（Ａ｜Ｍ）＝Ｐ（Ｍ｜Ａ）Ｐ（Ａ）／Ｐ（Ｍ）である。Ｐ（Ｍ）はすべての異なるＡについて共通するので、最適化サーチを：
Ａ^＊＝ａｒｇｍａｘ_ＡＰ（Ｍ｜Ａ）Ｐ（Ａ），∀Ａ∈Ｓ_Ａ（３）
として書き換えることができる。

今や、Ｐ（Ｍ／Ａ）の計算を考える。単一の遺伝子座ｉで開始し、胚上のこの遺伝子座は親ＳＮＰｐ_{ｔ，１，ｉ}およびｍ_{ｔ，１，ｉ}に由来すると仮定し、ここで、下付文字_ｔは、正しくても正しくなくてもよい行われた測定ｐ_１，ｉおよびｍ_１，ｉとは反対に、これらの親ＳＮＰの真の値を示すのに用いられる。胚ＳＮＰの真の値は（ｅ_{ｔ，１，ｉ}，ｅ_{ｔ，２，ｉ}）として示される。もし仮説Ａが真であれば、（ｅ_{ｔ，１，ｉ}，ｅ_{ｔ，２，ｉ}）＝（ｐ_{ｔ，１，ｉ}，ｍ_{ｔ，１，ｉ}）または（ｍ_{ｔ，１，ｉ}，ｐ_{ｔ，１，ｉ}）である。測定（ｅ_１，ｉ，ｅ_２，ｉ）のいずれが、いずれの親に由来するかを区別できないので、双方の順番を考慮しなければならず、従って、仮説セットＡ＝［（ｐ_{ｔ，１，ｉ}，ｍ_{ｔ，１，ｉ}），（ｍ_{ｔ，１，ｉ}，ｐ_{ｔ，１，ｉ}）］となる。特定の測定Ｍの確率は、親ＳＮＰの真の値または基礎となる状態、すなわち、（ｐ_{ｔ，１，ｉ}，ｐ_{ｔ，２，ｉ}）および（ｍ_{ｔ，１，ｉ}，ｍ_{ｔ，２，ｉ}）に依存する。４つのＳＮＰ、ｐ_{ｔ，１，ｉ}、ｐ_{ｔ，２，ｉ}、ｍ_{ｔ，１，ｉ}、ｍ_{ｔ，２，ｉ}が存在し、かつこれらの各々は４つのヌクレオチド塩基Ａ、Ｃ、Ｔ、Ｇの値を取ることができるので、４^４または２５６の可能な状態が存在する。ｐ_{ｔ，１，ｉ}≠ｐ_{ｔ，２，ｉ}≠ｍ_{ｔ，１，ｉ}≠ｍ_{ｔ，２，ｉ}であると仮定される１つの状態ｓ_１についてアルゴリズムを説明する。この説明から、すべての２５６の可能な状態、ｓ_ｋ、ｋ＝１．．．２５６にどのようにして該方法を適用するかは明瞭であろう。胚ＳＮＰ（ｅ_１，ｉ，ｅ_２，ｉ）の測定Ｍを行い、結果ｅ_１，ｉ＝ｐ_１，ｉ、ｅ_２，ｉ＝ｍ_１，Ｉが得られると仮定する。その仮説Ａおよび状態ｓ_１が真実であるとしたこの測定についての事前確率を計算する：

第一項および第二項における最初の表現：Ｐ（ｅ_１，ｉ＝ｐ_１，ｉ，ｅ_２，ｉ＝ｍ_１，ｉ｜Ａ，ｓ_１）＝Ｐ（ｅ_１，ｉ＝ｍ_１，ｉ，ｅ_２，ｉ＝ｐ_１，ｉ｜Ａ，ｓ_１）＝０．５を考える。というのは、仮説Ａ＝［（ｐ_{ｔ，１，ｉ}，ｍ_{ｔ，１，ｉ}），（ｍ_{ｔ，１，ｉ}，ｐ_{ｔ，１，ｉ}）］は胚ＳＮＰについての２つの順序付けを等しくありそうとするからである。さて、第一項の第二の表現Ｐ（ｅ_１，ｉ＝ｐ_１，ｉ｜ｅ_{ｔ，１，ｉ}＝ｐ_{ｔ，１，ｉ}）を考え、これは、胚ＳＮＰｅ_{ｔ，１，ｉ}は現実には父性ＳＮＰｐ_{ｔ，１，ｉ．}に由来すると仮定してｅ_１，ｉ＝ｐ_１，ｉを測定する確率である。父性ＳＮＰ、母性ＳＮＰおよび胚ＳＮＰを正しく測定する確率はｐ_ｐ，ｐ_ｍ，およびｐ_ｅである。仮定（ｅ_{ｔ，１，ｉ}＝ｐ_{ｔ，１，ｉ}）を与えれば、測定（ｅ_１，ｉ＝ｐ_１，ｉ）は、胚および父性ＳＮＰの双方が正しく測定されるか、あるいは双方は正しくなく測定され、それらは偶然に同一ヌクレオチド（Ａ，Ｃ，Ｔ，またはＧ）として正しくなく測定される、のいずれかを要求する。従って、Ｐ（ｅ_１，ｉ＝ｐ_１，ｉ｜ｅ_{ｔ，１，ｉ}＝ｐ_{ｔ，１，ｉ}）＝ｐ_ｅｐ_ｐ＋（１−ｐ_ｅ）（１−ｐ_ｐ）／３であり、ここで、単純性のために、４つのヌクレオチドのすべてを正しくなく要求する確立は同等にありそうであると仮定される−該アルゴリズムは、もう１つの特定のヌクレオチドについての測定を与えて特定のヌクレオチド（Ａ，Ｃ，Ｔ，Ｇ）を要求する異なる確率を適合させるように容易に修飾することができる。同一アプローチを第一項中の３番目の表現に適用して、Ｐ（ｅ_２，ｉ＝ｍ_１，ｉ｜ｅ_{ｔ，２，ｉ}＝ｍ_{ｔ，１，ｉ}）＝ｐ_ｅｐ_ｍ＋（１−ｐ_ｅ）（１−ｐ_ｍ）／３を得ることができる。さて、第二項の２番目の表現を考える。Ｐ（ｅ_１，ｉ＝ｐ_１，ｉ｜ｅ_{ｔ，１，ｉ}＝ｍ_{ｔ，１，ｉ}，ｍ_{ｔ，１，ｉ}≠ｐ_{ｔ，１，ｉ}）は、ｅ_１，ｉまたはｐ_１，ｉが正しくない測定であるか、または双方が正しくない測定であるかのいずれかを要求し、従って、測定された値は偶然に等しい：Ｐ（ｅ_１，ｉ＝ｐ_１，ｉ｜ｅ_{ｔ，１，ｉ}＝ｍ_{ｔ，１，Ｉ}，ｍ_{ｔ，１，ｉ}≠ｐ_{ｔ，１，ｉ}）＝ｐ_ｅ（１−ｐ_ｐ）／３＋（１−ｐ_ｅ）ｐ_ｐ／３＋（１−ｐ_ｅ）（１−ｐ_ｐ）２／９。同一の議論を第二項の最後の表現に適用して、Ｐ（ｅ_２，ｉ＝ｍ_１，ｉ｜ｅ_{ｔ，２，ｉ}＝ｐ_{ｔ，２，ｉ}，ｍ_{ｔ，１，ｉ}≠ｐ_{ｔ，２，ｉ}）＝ｐ_ｅ（１−ｐ_ｍ）／３＋（１−ｐ_ｅ）ｐ_ｍ／３＋（１−ｐ_ｅ）（１−ｐ_ｍ）２／９を得ることができる。さて、これらの項のすべてを組合せ、単に代数を単純化するために、ｐ_ｅ＝ｐ_ｐ＝ｐ_ｍ＝ｐと仮定して、

を計算することができる。計算は変化するが、本明細書中に記載されたものに対して同様な概念的アプローチをすべての２５６の可能な状態、ｓ_ｋ、ｋ＝１．．．２５６で用いる。すべての２５６の状態ｓ_ｉについてＰ（ｅ_１，ｉ＝ｐ_１，Ｉ，ｅ_２，ｉ＝ｍ_１，Ｉ｜Ａ，ｓ_ｉ）を計算し、各ｓ_ｉの確率を合計し、Ｐ（ｅ_１，ｉ＝ｐ_１，Ｉ，ｅ_２，ｉ＝ｍ_１，ｉ｜Ａ）を得る。言い換えれば：

である。各状態ｓ_ｉの確率Ｐ（ｓ_ｉ）を計算するために、別々の事象としての状態をなすすべての別々の対立遺伝子を処理しなければならない。というのは、それらは別々の染色体上にあるからである、言い換えれば：Ｐ（ｓ_ｉ）＝Ｐ（ｐ_{ｔ，１，ｉ}，ｐ_{ｔ，２，ｉ}，ｍ_{ｔ，１，ｉ}，ｍ_{ｔ，２，ｉ}）＝Ｐ（ｐ_{ｔ，１，ｉ}）Ｐ（ｐ_{ｔ，２，ｉ}）Ｐ（ｍ_{ｔ，１，ｉ}）Ｐ（ｍ_{ｔ，２，ｉ}）である。ベイズ技術を適用して、個々の測定についての確率分布を見積もることができる。遺伝子座ｉにおける母性または父性染色体上の対立遺伝子の各測定をコイン投げ実験として処理して、特定の値（Ａ，Ｃ，Ｔ，またはＧ）であるこの対立遺伝子の確率を測定することができる。これらの測定を成人組織試料でなし、全く信頼性があるとして処理することができるが、対立遺伝子の対は各ＳＮＰについて測定し、いずれの対立遺伝子がいずれの染色体に由来かを決定するのは可能でない。ｗ_{ｐ，１，ｉ}＝Ｐ（ｐ_{ｔ，１，ｉ}）とし、これは、父親の染色体上のＳＮＰｉの確率が値ｐ_{ｔ，１，ｉ}であることに対応する。以下の説明において、ｗ_{ｐ，１，ｉ}の代わりにｗを用いる。父親の染色体のＳＮＰｉで行った測定は収集データとして特徴付けられるものとする。ｗについての確率分布ｐ（ｗ）を作り出し、データがベイズ理論：ｐ（ｗ｜Ｄ）＝ｐ（ｗ）ｐ（Ｄ｜ｗ）／ｐ（Ｄ）に従って測定した後これを更新することができる。ＳＮＰｉのｎ個の対立遺伝子が観察され、ｗに対応する特定の対立遺伝子がｈ回出現する、言い換えれば、ヘッドはｈ回観察されると仮定する。この観察の確率は二項分布によって特徴づけることができる。

データを収集する前に、０および１の間では均一である事前分布ｐ（ｗ）があると仮定する。ベイズ理論を適用することによって、直接的に、ｐ（ｗ｜Ｄ）についての得られた分布は形式：

のデータ分布であることを示し、ｃは正規化定数である。しかしながら、次いで、ベイズ理論および新しい測定を適用することによって、ｐ（ｗ｜Ｄ）を何回も更新し、それを、前記したデータ分布を有するように継続する。ｐ（ｗ）の見積もりは、新しい測定が収集されるごとに更新される。特定のＳＮＰにおける異なる対立遺伝子の確立は人種および性別のグループ分けに依存するので、Ｈａｐｍａｐプロジェクトで用いたのと同一のグループ分けを用いて、異なる人種および異なる性別について異なる関数ｐ（ｗ）があることに注意されたし。Ｐ（ｓ_ｉ）の計算では、各染色体上の各対立遺伝子は見積もられた確率分布、すなわち、ｐ_{ｐ，１，ｉ}（ｗ_{ｐ，１，ｉ}）、ｐ_{ｐ，２，ｉ}（ｗ_{ｐ，２，ｉ}）、ｐ_{ｍ，１，ｉ}（ｗ_{ｍ，１，ｉ}）およびｐ_{ｍ，２，ｉ}（ｗ_{ｍ，２，ｉ}）と関連するであろう。次いで、個々の分布の各々についてのＭＡＰ見積もりに従ってＰ（ｓ_ｉ）についての最大事後（ＭＡＰ）見積もりを計算することができる。例えば、ｗ_{ｐ，１，ｉ} ^＊は、ｐ_{ｐ，１，ｉ}（ｗ_{ｐ，１，ｉ}）を最大化する議論であるとする。Ｐ（ｓ_ｉ）のＭＡＰ見積もりは：
Ｐ（ｓ_ｉ）_ＭＡＰ＝ｗ_{ｐ，１，ｉ} ^＊ｗ_{ｐ，２，ｉ} ^＊ｗ_{ｍ，１，ｉ} ^＊ｗ_{ｍ，２，ｉ} ^＊（９）
に従って見出すことができる。各ｗについて確率分布が存在するので、ＭＡＰ見積もりを単に用いるよりはむしろ、確率分布に渡って積分することによって、いずれかの特定の信頼性レベルまで値Ｐ（ｓ_ｉ）の保存的見積もりを計算することもできる。例えば、これを行って、ある信頼性レベル内まで保存的にＰ（Ｍ｜Ａ）を見積もることが可能である。保存的見積もりまたはＭＡＰ見積もりを用いるかに拘わらず、Ｐ（ｓ_ｉ）の見積もりはＰ（Ｍ｜Ａ）の計算のために継続的に洗練される。以下において、仮定された状態への言及をなくして、表記法を単純化し、状態ｓ_１は詳細な計算のすべての説明のために仮定される。現実には、これらの計算は２５６の状態の各々について行われ、各々の確率に渡って合計することを銘記されたし。

Ｐ（Ｍ｜Ａ）を計算する方法は、今や、Ｍが胚上のＳＮＰのＮ個の対の測定のセット、Ｍ＝［Ｍ_１，．．．，Ｍ_Ｎ］を表すと仮定し、多数のＳＮＰ遺伝子座まで拡大される。また、Ａは、いずれの親染色体がそのＳＮＰに貢献したかについての各ＳＮＰに対する仮説のセットを表すと仮定する、Ａ＝［Ａ_１，．．．，Ａ_Ｎ］。ＳＡ’が、Ａとは異なる、またはセットＡ’に存在するというすべての他の可能な仮説のセットを表すものとする。Ｐ（Ｍ｜Ａ）およびＰ（Ｍ｜Ａ’）を計算することができる：

Ｐ（Ａ）の計算を考える。本質的には、これは、胚を形成する配偶子の形成において起こる特定の交差の尤度に基づく。特定の対立遺伝子セットの確率は２つの因子、すなわち、胚染色体が母親または父親に由来する確率、および交差の特定の組合せの確率に依存する。異数性をこうむらない胚染色体の清浄なセットについては、胚染色体が母親または父親に由来する事前確率は〜５０％であり、その結果、すべてのＡについて共通する。さて、組換え節の特定のセットの確率を考える。関連組換え部位Ｒの数は測定されたＳＮＰＳ：Ｒ＝Ｎ−１の数に依存する。注目するＰＳＮＰの回りのＮ個のＮＳＮＰを構成するＤＮＡセグメントは比較的短いので、交差干渉は、同一染色体上の２つの交差が１つの領域で起こり得ることをかなりありそうもなくする。計算の効率の理由で、この方法は、唯一の交差が各関連染色体についての各領域で起こると仮定し、これはＲ個の可能な部位で起こり得る。どのようにしてこの方法を拡大して、所与の領域に多数の交差がある確率を含めることができるかは当業者に明らかであろう。

ＳＮＰの間の各領域における交差をＰ_ｒ，ｒ＝１．．．Ｎ−１で示すものとする。一次的には、２つのＳＮＰの間の領域ｒにおける組換え節の確率は、（ｃモルガンで測定された）それらのＳＮＰの間の遺伝子距離に比例する。しかしながら、多数の最近の研究は、２つのＳＮＰ遺伝子座の間の組換えの確率の正確なモデリングを可能とした。精子の実験からの観察、および遺伝子変異のパターンは、組換えの率はキロベーススケールに渡って広く変化し、および多数の組換えは組換えホットスポットで起こり、連鎖非平衡を引き起こして、ブロック−様構造を呈することを示す。ヒトゲノム上での組換え率についてのＮＣＢＩデータは、ＵＣＳＣＧｅｎｏｍｅＡｎｎｏｔａｔｉｏｎＤａｔａｂａｓｅを通じて公に入手可能である。

種々のデータセットを単独で、または組合せて用いることができる。最も普通のデータセットの内の２つはＨａｐｍａｐプロジェクトおよびＰｅｒｌｅｇｅｎヒトハプロタイププロジェクトからのものである。後者はより高い密度であり；前者はより高い質である。ＨａｐＭａｐ相Ｉデータ、リリース１６ａに基づく、染色体１の位置１，０３８，４２３ないし４，４６７，７７５からの領域的組換え率については図２参照。これらの率は、パッケージＬＤＨａｔで入手可能な可逆的ジャンプＭａｒｋｏｖＣｈａｉｎＭｏｎｔｅ
Ｃａｒｌｏ（ＭＣＭＣ）方法を用いて見積もられた。考えられる状態−空間は、ピース様定常組換え率マップの分布である。Ｍａｒｋｏｖ鎖は、各セグメント２０１についての率に加えて、率変更点の数および位置の分布を探索する。これらの結果を用いて、ＳＮＰＳの間の各定常セグメントの長さの組換え率倍に渡って積分することによってＰ_ｒの見積りを得ることができる。ヌクレオチド２０２に渡っての累積組換え率を赤色で図２に示す。

もし領域ｒおよびそうでなければ０で交差が起こったならばｃ_ｒ＝１であるように、Ｃをインジケーター変数ｃ_ｒのセットとする。もし交差が起こらないか、そうでなければ０であれば、ｃ_０＝１である。ただ１つの交差がＮ個のＳＮＰの領域で起こり得ると仮定するので、セットＣのただ１つのエレメントは非０である。よって、セットＣによって表される交差の確率は：

であることが判明する。ＳＮＰ１．．．Ｎについての仮説Ａにおいて、関連する４つの潜在的交差がある。すなわち、ｉ）（インジケーター変数のセットＣ_ｐｅによって示される）胚を形成した父性染色体、ｉｉ）配列決定された精子を形成した父性染色体（セットＣ_ｐｓ）、ｉｉｉ）胚を形成した母性染色体（セットＣ_ｍｅ）、およびｉ）配列決定された卵を形成した母性染色体（セットＣ_ｅｅ）。２つのさらなる仮定はｖ）第一の父性胚ＳＮＰがｐ_{ｔ，１，１}またはｐ_{ｔ，２，１}に由来するか、およびｖｉ）第一の母性胚ＳＮＰがｍ_{ｔ，１，１}またはｍ_{ｔ，２，１}に由来するかである。ＳＮＰの間の交差の確率は人種および性別の間で異なることが見出されるので、異なる交差確率は父性染色体についてはｐ_ｐ，ｒとして、および母性染色体についてはｐ_ｍ，ｒとして示されるであろう。従って、セットＣ_ｐｅ、Ｃ_ｐｓ、Ｃ_ｍｅ、Ｃ_ｅｅを包含する特定の仮説Ａの確率は；

として表される。

さて、Ｐ（Ａ）およびＰ（Ｍ／Ａ）を決定するための方程式に関しては、前記方程式３についてのＡ^＊を計算するのに必要な全ての要素は定義されている。よって、交差が起こった胚ＳＮＰの高度にエラー−傾向の測定から決定し、および高度な信頼性でもって胚測定を結果的に清浄化することが可能である。最良の仮説Ａ＊における信頼性の低度を決定することが残っている。これを決定するためには、オッズ比Ｐ（Ａ^＊｜Ｍ）／Ｐ（Ａ^＊’｜Ｍ）を見出す必要がある。ツールは全てこの計算のために前記されている：

次いで、Ａ^＊における信頼性はＰ（Ａ^＊｜Ｍ）＝ＯＲ_Ａ ^＊／（^１＋ＯＲ_Ａ ^＊）として与えられる。この計算は特定の仮説Ａ^＊における信頼性を示すが、ＳＮＰの特定の決定における信頼性を示さない。胚ＰＳＮＰｎの決定における信頼性を計算するためには、このＳＮＰの値を変化させない全ての仮説Ａのセットを作り出す必要がある。このセットはＳ_Ａ＊，ｎとして示され、これは、仮説Ａ＊によって予測されるように、同一の値を有する胚にＰＳＮＰｎをもたらす全ての仮説に対応する。同様に、仮説Ａ＊によって予測される異なる値を有するＰＳＮＰをもたらす全ての仮説に対応するセットＳ_{Ａ＊”，ｎ}を作り出す。さて、ＳＮＰが正しく要求される確率−対−ＳＮＰが正しくなく要求される確率のオッズ比を計算することが可能である：

オッズ比ＯＲ_Ａ’，ｎに基づく胚ＳＮＰの特定の要求における信頼性は：

として計算することができる。

この技術を用いて、同一染色体の２つが同一の親からのものであり、他方、他の親からのその染色体のいずれも存在しない片親二染色体（ＵＰＤ）のような欠陥を検出することもできよう。親染色体における交差を推定しようと試みる際に、高い信頼性でもってデータを適切に説明する仮説はなく、もし複数のＵＰＤを含む別の仮説が許容されるならば、それらはよりありそうであることが判明するであろう。

組換えラットにおける確実性の効果、およびＳＮＰ測定の信頼性のバウンディング
開示された方法は：特定のＳＮＰの間の組換えの確立についての仮定；胚、精子、卵、父性および母性染色体についての各ＳＮＰの正しい測定の確率についての仮定；および異なる集団群内のある対立遺伝子の尤度についての仮定に依存する。これらの仮定の各々を考慮し：組換えのメカニズムは完全には理解され、モデル化されておらず、交差確率は、個人の遺伝子型に基づいて変化することが確立されている。さらに、組換え率が測定される技術は実質的可変性を示す。例えば、可逆的−ジャンプＭａｒｋｏｖＣｈａｉｎＭｏｎｔｅＣａｒｌｏ（ＭＣＭＣ）方法を実行するパッケージＬＤＡａｔは、仮定のセットを作成し、組換えのメカニズムおよび特徴付けについてのユーザーの入力のセットを必要とする。これらの仮定は、種々の実験によって得られた異なる結果によって証明されているように、ＳＮＰの間の予測された組換え率に影響し得る。

前記リストの全ての仮定のうち、組換え率についての仮定は方程式１５に対して最もインパクトを有するであろうと予測される。前記した計算は、ＳＮＰＳ、Ｐ_ｒの間の交差に対する確率の最良の見積もりに基づくべきである。その後、（正しくはＳＮＰｎと呼ばれる）信頼性尺度Ｐを低下させる方向において、例えば、組換え率についての９５％信頼性範囲における値を用いてＰｒで用いることができる。９５％信頼性範囲は、組換え率の種々の実験によって生じた信頼性データに由来することができ、これは、異なる方法を用いて異なる群からの公表されたデータの間の不一致のレベルを見ることによって確証することができる。

同様に、９５％信頼性範囲を、各ＳＮＰが正しく要求される確率の見積もりで用いることができる：ｐ_ｐ、ｐ_ｍ、ｐ_ｅ。これらの数は、測定技術の信頼性についての経験的なデータと組み合わせた、ゲノタイピングアッセイ出力ファイルに含まれた現実の測定されたアレイ強度に基づいて計算することができる。これらのパラメーターｐ_ｐ、ｐ_ｍおよびｐ_ｅが確立されないＮＳＭＰは無視することができることを注記する。例えば、ジプロイド親データは信頼性よく測定されるので、親のハクロイド細胞、および親のジプロイド組織の関連ＳＮＰについての対立遺伝子のいずれにも対応しない胚についてのＮＳＮＰ測定を無視することができる。

最後に、計算Ｐ（ｓ_ｉ）を生起する異なる集団群内のある対立遺伝子の尤度についての仮定を考える。これらの仮定もまた開示された方法に対して大きなインパクトを有しないであろう。というのは、親ジプロイドデータの測定は信頼性があり、すなわち、親試料からの状態ｓ_ｉの直接的測定は、典型的には、高い信頼性を持つデータをもたらすからである。それにも拘わらず、方程式８に記載された各ｗについての確率分布を用いて、各状態Ｐ（ｓ_ｉ）の確率についての信頼性範囲を計算することが可能である。前記したように、（正しくはＳＮＰｎと呼ばれる）信頼性尺度Ｐを低下させる保存的方向における各Ｐ（ｓ_ｉ）についての９５％信頼性範囲を計算することができる。

（正しくはＳＮＰｎと呼ばれる）Ｐの決定は、どのようにして多くのＮＳＮＰが各ＰＳＮＰについて測定される必要があるかについての決定を知らせて、所望のレベルの信頼性を達成するであろう。

開示された方法の概念を実施する、すなわち、親のＤＮＡの測定、１以上の胚のＤＮＡの測定、および減数分裂のプロセスの事前知識を組合せて、胚ＳＮＰの良好な見積もりを得る異なるアプローチがあることを注記する。事前知識の異なるサブセットが知られており、または知られておらず、または大きなまたは小さな低度の確実性でもって知られている場合に、どのようにして同様な方法を適用することができるかは当業者に明らかであろう。例えば、多数の胚の測定を用いて、特定の胚のＳＮＰを要求する確実性を改良し、または親からの失われたデータを供給することができる。注目するＰＳＮＰを測定技術によって測定する必要がないことを注記する。たとえ測定システムによってＰＳＮＰが決定されなくても、それは、依然として、開示された方法によって高度な信頼性でもって再構築できる。

一旦減数分裂の間に起こった交差の点が決定され、標的ゲノムの領域が親ＤＮＡの関連領域にマッピングされれば、注目する個体のＳＮＰの同一性のみならず、測定における対立遺伝子ドロップアウトまたは他のエラーによる測定された標的ゲノムで失われているであろうＤＮＡの全領域を推定することが可能である。または、親ＤＮＡにおける挿入および欠失を測定し、開示された方法を用いて、それらが標的ＤＮＡに存在すると推定することも可能である。

種々の技術を用いて前記して開示アルゴリズムの計算の複雑性を改善することができる。例えば、母親および父親の間で異なるＮＳＮＰを選択することができるにすぎないか、または圧倒的に選択することができる。もう１つの考慮は、ＰＳＮＰの近くに間隔が設けられたＮＳＮＰを用いて、注目するＮＳＮＰおよびＰＳＮＰの間で起こる交差のチャンスを最小化することであろう。また、多数のＰＳＮＰの適用範囲を最大化するために染色体に沿って間隔を設けたＮＳＮＰを用いることもできる。もう１つの考慮は、最初に少数のＮＳＮＰのみを用いて、大まかにどこで交差が起こったかを、限定された程度の確率のみでもって決定することであろう。次いで、さらなるＮＳＮＰを用いて、交差モデルを洗練し、正しくＰＳＮＰを要求する確率を増加させることができる。考慮する交差組合せの数は、ＮがＳＮＰの数であって、Ｃが最大数の交差であるＮ^Ｃとして概略評価する。結果として、Ｃ＝４については、Ｐｅｎｔｉｕｍ（登録商標）−ＩＶプロセッサーに対して計算可能に御しやすくしつつ、各ＰＳＮＰについて概略Ｎ＝１００を供給することが可能である。前記したアプローチ、および増大した計算効率についての他のアプローチを用い、Ｎ＞１００、Ｃ＞４を容易に供給することができる。１つのそのようなアプローチを以下に記載する。

基本となる概念を変化させることなく、胚データ、親データ、および用いるアルゴリズムの特定のセットに基づいて、ＰＳＮＰについての要求を行い、ＰＳＮＰが正しく決定された確率の見積もりを生じる多くの他のアプローチがあることを注記する。この確率は個人の決定をなすのに、およびＩＶＦまたはＮＩＰＧＤの関係で信頼性のよいサービスを実行するのに用いることができる。

遺伝子データ清浄化アルゴリズムに対する帰納的解
直線的に範囲を定めるアルゴリズムに関連する本発明のもう１つの実施形態をここに記載する。計算パワーの限定された性質を仮定すると、計算の長さは開示された方法の使用において重要な因子であり得る。計算を実行する場合、必要とされる計算の数がＳＮＰの数と共に指数関数的に上昇するある値を計算しなければならないいずれのアルゴリズムも扱いにくくなり得る。ＳＮＰの数と共に直線的に増加する多数の計算を含む解は、常に、ＳＮＰの数が大きくなるにつれて時間の観点から好ましいであろう。以下に、このアプローチを記載する。

全ての可能な仮説を考慮する単純なアプローチは、ＳＮＰの数が指数関数である実行時間と戦わなければならない。前記したように、ｋ個のＳＮＰについての測定された胚、父親および母親染色体の測定のコレクションであると仮定する。すなわち、Ｍ＝｛Ｍ_１，．．．，Ｍ_ｋ｝であり、ここで、Ｍ_ｉ＝（ｅ_１ｉ，ｅ_２ｉ，ｐ_１ｉ，ｐ_２ｉ，ｍ_１ｉ，ｍ_２ｉ，）である。前記したように、仮説空間はＳ_Ｈ＝｛Ｈ^１，．．．，Ｈ^ｑ｝＝｛全ての仮説のセット｝であり、ここで、各仮説はフォーマットＨ^Ｊ＝｛Ｈ^ｊ _１，．．．Ｈ^ｊ _ｋ｝のものであり、ここで、Ｈ^Ｊ _ＩはフォーマットＨ^ｊ _ｉ＝（ｐ_ｉ ^＊，ｍ_ｉ ^＊）のスニップｉについての「ミニ」仮説であり、ここで、ｐ_ｉ ^＊∈｛ｐ_１ｉ，ｐ_２ｉ｝およびｍ_ｉ ^＊∈｛ｍ_１ｉ，ｍ_２ｉ｝である。４つの異なる「ミニ」仮説Ｈ^ｊ _ｉ、特に：
Ｈ^ｊ _ｉ１：（ｅ_１ｉ，ｅ_２ｉ）＝｛（ｐ_１ｉ，ｍ_１ｉ）または（ｍ_１ｉ，ｐ_１ｉ）｝
Ｈ^ｊ _ｉ２：（ｅ_１ｉ，ｅ_２ｉ）＝｛（ｐ_１ｉ，ｍ_２ｉ）または（ｍ_２ｉ，ｐ_１ｉ）｝
Ｈ^ｊ _ｉ３：（ｅ_１ｉ，ｅ_２ｉ）＝｛（ｐ_２ｉ，ｍ_１ｉ）または（ｍ_１ｉ，ｐ_２ｉ）｝
Ｈ^ｊ _ｉ４：（ｅ_１ｉ，ｅ_２ｉ）＝｛（ｐ_２ｉ，ｍ_２ｉ）または（ｍ_２ｉ，ｐ_２ｉ）｝
がある。目標は、最もありそうな仮説Ｈ^＊を：

として選択することであり、ここで、関数Ｆ（Ｍ，Ｈ）＝Ｐ（Ｈ｜Ｍ）である。

空間Ｓ^Ｈにおいて４^ｋの異なる仮設がある。全空間Ｓ^Ｈを専ら調べることによって最良の仮説を見出す試みによって、必要なアルゴリズムはｋＯ（ｅｘｐ（ｋ））における指数関数オーダーのものであり、ここで、ｋは関連するＳＮＰの数である。大きなｋ、ｋ＞５さえについても、これはかなり遅く、非現実的である。従って、一定時間内にサイズ（ｋ−１）の問題の関数としてサイズｋの問題を解く帰納的解に頼るのがより現実的である。本明細書中に示された解はｋ，Ｏ（ｋ）における直線オーダーのものである。

ＳＮＰの数において直線的な帰納的解
Ｆ（Ｍ，Ｈ）＝Ｐ（Ｈ｜Ｍ）＝Ｐ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）／Ｐ（Ｍ）で始める。次いで、ａｒｇｍａｘ_ＨＦ（Ｍ，Ｈ）＝ａｒｇｍａｘ_ＨＰ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）であり、目標は直線的時間内にＰ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）を解くことである。Ｍ_{（ｓ，ｋ）}＝ＳＮＰｓないしｋでの測定、Ｈ_{（ｓ，ｋ）}＝ＳＮＰｓないしｋについての仮説とし、表現方法Ｍ_{（ｋ，ｋ）}＝Ｍ_ｋ，Ｈ_{（ｋ，ｋ）}＝Ｈ_ｋ＝ＳＮＰｋについての測定および仮説を単純化する。先に示したように：

である。また、

であり、ここで、

であり、ＰＣ（Ｈ_ｉ−１，Ｈ_ｊ）＝Ｈ_ｉ−１，Ｈ_ｉの間の交差の確率である。

最後に、ｋ個のＳＮＰについては：
Ｆ（Ｍ，Ｈ）＝Ｐ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）＝Ｐ（Ｍ_{（１，ｋ）}｜Ｈ_{（１，ｋ）}）^＊Ｐ（Ｈ_{（１，ｋ）}）
＝Ｐ（Ｍ_{（１，ｋ−１）}｜Ｈ_{（１，ｋ−１）}）^＊Ｐ（Ｈ_{（１，ｋ−１）}）^＊Ｐ（Ｍ_ｋ｜Ｈ_ｋ）^＊ＰＦ（Ｈ_ｋ−１｜Ｈ_ｋ）
であり、従って、短くすると、
Ｆ（Ｍ，Ｈ）＝Ｆ（Ｍ_{（１，ｋ）}，Ｈ_{（１，ｋ）}））＝Ｆ（Ｍ_{（１，ｋ−１）}，Ｈ_{（１，ｋ−１）}）^＊Ｐ（Ｍ_ｋ｜Ｈ_ｋ）^＊ＰＦ（Ｈ_ｋ−１，Ｈ_ｋ）
であり、すなわち、ｋ個のＳＮＰについてのＦの計算をｋ−１個のＳＮＰについてのＦの計算に変えることができる。

Ｈ＝（Ｈ_１，．．．Ｈ_ｋ）については、ｋ個のＳＮＰについての仮説：

であり、ここで、

である。

これをまとめると：

であり、ここで、Ｇが帰納的に見出すことができ：ｎ＝２，．．，ｋについては、

およびＧ（Ｍ_{（１，１）}，Ｈ_１）＝０．２５^＊Ｐ（Ｍ_１｜Ｈ_１）である。

該アルゴリズムは以下の通りである：
ｎ＝１については：４つの仮説Ｈ_１ｉを作り出し、ｉ＝１，．．．，４についてＧ（Ｍ_１｜Ｈ_１ｉ）を計算する。
ｎ＝２については：Ｈ_２ｉについて４つの仮説を作り出し、式：

を用い、一定時間内に、Ｇ（Ｍ_{（１，２）}｜Ｈ_２ｉ），ｉ＝１，．．．，４を計算する。ｎ＝ｋについては：Ｈ_ｋｉについて４つの仮説を作り出し、

によって、Ｇ（Ｍ_{（１，ｋ）}｜Ｈ_ｋｉ），ｉ＝１，．．．，４を作成する。
いずれの時点においても、覚えておくべき４つのみの仮説、および一定数の操作がある。従って、アルゴリズムは、指数関数とは反対に、ＳＮＰの数ｋにおいて線形である。

直線的時間内におけるＰ（Ｍ）の解
Ｐ（Ｍ）について解いて、最良の仮説を得る必要はない。というのは、それは全てのＨについて一定だからである。しかしながら、条件付確率Ｐ（Ｈ｜Ｍ）＝Ｐ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）／Ｐ（Ｍ）についての現実的な意味のある数を得るためには、Ｐ（Ｍ）を導く必要もある。前記したように、

と書くことができ、ここで、

である。
帰納：

によってＷ（Ｍ，Ｈ）について解くことができ、従って、簡単に述べると、サイズｋの問題は、

によってサイズ（ｋ−１）の問題に変えられる。前記したように、ｎ＝２：ｋについては、最後に、

を誘導することが可能となるまで、帰納的にＷ（２），．．．，Ｗ（Ｋ）＝Ｗ（Ｍ_{（１，ｋ−１）}｜Ｈ_ｋ）を得る。

各レベルにおいて、４つの異なる仮設Ｈ_ｋがあるに過ぎず、従って、アルゴリズムは、再度、ＳＮＰｋの数において線形である。

直線的時間内における個々のＳＮＰ信頼性
一旦、最良の仮説Ｈ^＊＝（Ｈ_１ ^＊，．．．，Ｈ_ｋ ^＊）が計算されたならば、今度は、各ＳＮＰについての最終的な解答における信頼性、すなわち、ｉ＝１，．．．，ｋについてのＰ（Ｈ_ｉ ^＊｜Ｍ）誘導することが望まれるであろう。前記したように、Ｐ（Ｈ_ｉ ^＊｜Ｍ）＝Ｐ（Ｍ｜Ｈ_ｉ ^＊）Ｐ（Ｈ_ｉ ^＊）／Ｐ（Ｍ）＝Ｗ（Ｈ_ｉ ^＊，Ｍ）／Ｐ（Ｍ）であり、ここで、Ｐ（Ｍ）は既に知られている。

であり、すなわち、仮説Ｈは最初のｉ−１のＳＮＰ、ｉ番目のＳＮＰについての仮説、およびｉ＋１ないしｋ番目のＳＮＰについての仮説まで終えている。前記したように：

および

であり、したがって、

であり、ここで、

である。これから、

を示すのは可能である。

再度、サイズｋの場合は、前記したよりも複雑なビットであるにもかかわらず、より小さなサイズの２つのピースに変えられている。ピースの各々は

として計算することができる。従って、アルゴリズムは、４つの異なるＨ_ｎ、Ｈ_ｍの各々についてｎ＝１，．．，ｋ、ｍ＝ｋ，．．１について、Ｗ（Ｍ_{（１，ｎ）}，Ｈ_ｎ）、Ｗ（Ｍ_{（ｍ，ｋ）}，Ｈ_ｍ）を計算し、次いで、必要に応じてそれらを組合せてｉ＝１，．．．，ｋについてＷ（Ｍ_{（１，ｋ）}，Ｈ_ｉ ^＊）を計算する。操作の数は依然としてｋについて直線的である。

データの小さなまたは異なるセットが利用可能である場合の、胚データへの開示された方法の適用
システムの１つの実施形態において、親のいずれかまたは双方からのハプロイドデータの有りまたは無しにて、かつそのデータがより高いまたはより低い程度の確実性まで知られている場合、１人の親（恐らくは母親）からのジプロイドデータを利用する必要があるに過ぎない。例えば、卵の供与の厳しい性質を仮定すれば、母性ハプロイドデータが容易に入手できない場合があると予測される。この明細書を読んだ後に、どのようにして、特定のＳＮＰの尤度を計算するための統計学的方法を限定されたデータセットを仮定して修飾できるかは当業者に明らかとなろう。

別のアプローチが、一方または双方の親の失われたジプロイドまたはハプロイドデータを補うためにより距離がある親族からのデータを用いる。例えば、個人の染色体の１つのセットは彼または彼女の親の各々に由来することが知られているので、母方祖父母からのジプロイドデータを用いて、失われたまたは貧弱にしか測定されていない母性ハプロイドデータを部分的に再構築できよう。

この方法の帰納的性質に注意し：適当な祖父母のジプロイドおよび／またはハプロイドデータと共に、単一細胞親ハプロイドデータの天然ではノイジーな測定を仮定し、開示された方法を用いて、親ハプロイドデータを清浄化することができ、これは、今度は、胚のより正確なゲノタイピングを供するであろう。これらの場合に用いる方法をどのようにして修飾するかは当業者に明らかなはずである。

より少ないよりはむしろより多くの情報を用いるのが好ましい。というのはこれは所与のＳＮＰにおいて正しい要求を行うチャンスを増大させることができ、かつそれらの要求において信頼性を増加させることができるからである。これは、システムの増大する複雑性とバランスしなければならない。というのは、データのさらなる技術および源を用いるからである。データを増大させるのに情報を用いるために利用できるさらなる情報、ならびに技術の多くの源がある。例えば、Ｈａｐｍａｐデータ、またはゲノムデータの他のレパートリーで見出すことができる相関関係を利用するインフォマティックスを基礎としたアプローチがある。加えて、そうでなければイン・シリコにて再度作り出す必要がある遺伝子データの直接的測定を可能とできる生物学的アプローチがある。例えば、そうでなければ利用できないハプロイドデータは、フローサイトメトリー技術を用いてジプロイド細胞から個々の染色体を抽出して、蛍光タグド染色体を単離することによって測定可能であろう。別法として、細胞融合を用いて、一対立遺伝子ハイブリッド細胞を作り出して、ジプロイドからハプロイドへの変換を行うことができる。

いずれの胚が着床するようであるかを選択することへの開示された方法の適用
１つの実施形態において、システムを用いて、母親に着床し、ベイビーまで発生する胚の尤度を決定することができる。胚着床の尤度が胚のＳＮＰ、および／または母親のＳＮＰに対するそれらの関係によって決定される程度まで、開示された方法は、いずれがクリーンなＳＮＰデータに基づいて成功して着床するかの信頼性ある予測をなすことをベースとして、胚の選択を助けるにおいて重要であろう。尤度を最良に予測するためには、胚における遺伝子発現のレベル、母親における遺伝子発現のレベル、および／または母親の決定された遺伝子型と恐らくは組合された胚の決定された遺伝子型を考慮する必要があろう。

加えて、異数性胚はあまり着床しないようであり、成功した妊娠をもたらさないようであり、健康な子供をもたらさないようであることはよく知られている。結果として、異数体についてのスクリーニングは、成功した結果を最ももたらすようである胚の選択に対して重要な面である。このアプローチについてのより詳細は以下に掲げる。

親ハプロイドデータの推定
該方法の１つの実施形態において、親のジプロイドデータの詳細な知識を仮定し、親はプロイドを推定する必要があろう。これを行うことができる多数の方法がある。最も単純な場合において、ハプロタイプは、直接的関係（母親、父親、息子または娘）の単一ハプロイド細胞の分子アレイによって既に推定されている。この場合、分子からアッセイによって測定されたジプロイド遺伝子型からの公知のハプロイドを差し引くことによって姉妹ハプロイドを推定するのは当業者にとってたやすいことである。例えば、もし特定の遺伝子座がヘテロ接合性であれば、未知の親ハプロイドは公知の親ハプロタイプからの反対の対立遺伝子である。

もう１つの場合において、親のノイジーなハプロイドデータは、精子のような個々の親ハプロイド細胞の分子生物学的ハプロタイピングから、または磁性ビーズおよびフローサートメトリーを含めた種々の方法によって単離することができる個々の染色体から知ることができる。この場合、決定されたハプロタイプが測定されたハプロタイプと同程度にノイジーであることを除いて、同一手法を前記したように用いることができる。

また、（公のＨａｐｍａｐプロジェクトで作り出されたもののような）一般的集団における公知のハプロタイプブロックを利用する統計学的方法を用い、ジプロイドデータから直接的にハプロイドデータセットを推定する方法もある。ハプロタイプブロックは、本質的には、種々の集団において反復して起こる一連の関連する対立遺伝子である。これらのハプロタイプブロックはしばしば古くかつ共通するので、それらを用いて、ジプロイド遺伝子型からハプロイドを予測することができる。次いで、親の推定されたハプロイドブロックを本明細書中に記載された方法のために入力として用いて、胚からのノイジーなデータを清浄化することができる。この仕事を達成する公に入手可能なアルゴリズムは、不完全な系統発生アプローチ、共役事前分布、および集団遺伝学からの事前分布に基づくベイズアプローチを含む。これらのアルゴリズムのいくつかは隠れたＭａｒｋｏｖモデルを用いる。１つの研究は、公のトリオおよび無関係な個々のデータを用いて、これらのアルゴリズムが１ＭＢの配列にわたって０．０５％と低い誤差率にて実行されることを示した。しかしながら、予測されるように、精度は稀なハプロタイプブロックを持つ個人についてより低い。１つの見積もりにおいて、計算方法は、２０％のわずかな対立遺伝子頻度にて５．１％の遺伝子座と多くを同調できなかった。

本発明の１つの実施形態において、ＩＶＦサイクルの間に異なる胚から取られた多数の胚盤胞からの遺伝子データを用いて、より大きな信頼性でもって親のハプロタイプブロックを推定する。

高および中程度スループットのゲノタイピングを用いて異数性をスクリーニングするための技術
システムの１つの実施形態において、測定された遺伝子データを用いて、個体において異数体および／またはモザイク現象の存在について検出することができる。本明細書中に開示するのは、これらの試料からの増幅されたまたは増幅されていないＤＮＡからの染色体の数またはＤＮＡセグメントコピー数を検出するための中程度または高−スループットゲノタイピングを用いるいくつかの方法である。目標は、Ｉｌｌｕｍｉｎａ、ＡｇｉｌｅｎｔおよびＡｆｆｙｍｅｔｒｉｘからのＡＢＩＴａｑｍａｎ、ＭＩＰＳ、またはマイクロアレイのような異なる定量的および／または定性的ゲノタイピングプラットフォームを用いて異数性のあるタイプおよびモザイク現象のレベルの検出において達成することができる信頼性を見積もることである。これらの場合の多くにおいて、遺伝物質はゲノタイピングアレイ上のプローブへのＰＣＲによって増幅して、特定の対立遺伝子の存在を検出する。これらのアッセイをゲノタイピングでどのようにして用いるかは本開示において他の箇所に記載されている。

以下に記載するのは、欠失、異数体および／またはモザイク現象から生起するかに拘らず、異常な数のＤＮＡセグメントについてスクリーニングするいくつかの方法である。該方法は以下のようにグループ分けされる：（ｉ）対立遺伝子要求を行うことのない定量的技術；（ｉｉ）対立遺伝子要求を活用する定性的技術；（ｉｉｉ）対立遺伝子要求を活用する定量的技術；（ｉｖ）各遺伝子座における遺伝子データの増幅についての確率分布関数を用いる技術。全ての方法は、標的個体のゲノムにおける所与のセグメントの存在の数を決定するための、所与の染色体の所与のセグメント上の多数の遺伝子座の測定を含む。加えて、該方法は、所与のセグメントの存在の数についての１以上の仮説のセットを作り出し；所与のセグメント上の多数の遺伝子座における遺伝子データの量を測定し；標的個体遺伝子データの測定を仮定して、仮説の各々の相対的確率を決定し；次いで、所与のセグメントの存在の数を決定するために、各仮説に関連する相対的確率を用いることを含む。さらに、該方法は、全て、多数の遺伝子座における遺伝子データの量の測定の計算された関数である組合せ測定Ｍを作り出すことを含む。全ての方法において、閾値は、測定Ｍに基づいて各仮説Ｈ_ｉの選択について決定され、測定すべき遺伝子座の数を見積もって、仮説の各々の偽検出の特定のレベルを有するようにする。

測定Ｍを仮定して各仮説の確率はＰ（Ｈ_ｉ｜Ｍ）＝Ｐ（Ｍ｜Ｈ_ｉ）Ｐ（Ｈ_ｉ）／Ｐ（Ｍ）である。Ｐ（Ｍ）はＨｉから独立しているので、Ｐ（Ｍ｜Ｈ_ｉ）Ｐ（Ｈ_ｉ）のみを考慮することによってＭを仮定した仮説の相対的確率を決定することができる。以下において、技術の分析および比較を単純化するために、我々は、我々がＰ（Ｍ｜Ｈ_ｉ）のみを考慮することによって全てのＰ（Ｈ_ｉ｜Ｍ）の相対的確率を計算できるように、Ｐ（Ｈ_ｉ）は全ての｛Ｈ_ｉ｝について同一である。その結果、閾値、および測定すべき遺伝子座の数の我々の決定は、Ｐ（Ｈ_ｉ）が全ての｛Ｈ_ｉ｝について同一であるという仮定の下で偽仮説を選択する特定の確率を有することに基づく。この開示を読んだ後に、どのようにしてアプローチを修飾して、Ｂ（Ｈ_ｉ）がセット｛Ｈ_ｉ｝において異なる仮説で変化するという事実を受け入れるであろうかは当業者に明瞭である。いくつかの実施形態において、全てのｉにわたってＰ（Ｈ_ｉ｜Ｍ）を最大化する仮説Ｈ_ｉ＊が選択されるように閾値を設定する。しかしながら、閾値はＰ（Ｈ_ｉ｜Ｍ）を最大化するように必ずしも設定される必要はないが、むしろ、セット｛Ｈ_ｉ｝における異なる仮説の間の偽検出の確率の特定の比率を達成するように設定される必要がある。

異数体を検出するための本明細書中で言及する技術は、片親二染色体、バランスしないトランスロケーションについて、および染色体の性別分け（男性または女性；ＸＹまたはＸＸ）について検出するのに等しく良く用いることができることに注意するのは重要である。概念の全ては、所与の試料に存在する染色体（または染色体のセグメント）の同一性および数を検出することに関連し、かくして、全ては、本処理に記載された方法によって取り組まれる。どのようにして、本明細書中に記載された方法のいずれかの方法を拡大して、これらの異常性のいずれかについて検出するのは当業者に明らかなはずである。

マッチドフィルタリングの概念
ここに適用される方法は、デジタルシグナルの最適検出において適用されるのに同様である。正常に分布したノイズの存在下においてシグナル−ノイズ比率（ＳＮＲ）を最大化する最適アプローチは、可能なノイズ−フリーシグナルの各々に対応する、理想化されたマッチングシグナル、またはマッチドフィルターを形成すること、およびこのマッチドシグナルを受け取られたノイジーなシグナルと相関させることは、Ｓｃｈｗａｒｔｚ不均衡を用いて示すことができる。このアプローチは、可能なシグナルのセット、ノイズの統計学的分布−平均および標準偏差（ＳＤ）が公知であることを必要とする。ここで、染色体、またはＤＮＡのセグメントが試料中に存在するかまたは存在しないことを検出する一般的アプローチを記載する。全染色体を調べること、または挿入されたまたは欠失された染色体セグメントを調べることの間に差を設けない。この記載を呼んだ後に、どのようにして、該技術を異数性および性別決定の多くのシナリオ、または胚、胎児または産まれた子供の染色体における挿入および欠失の検出まで拡大できるかは明らかなはずである。このアプローチは、Ｔａｑｍａｎ、ｑＰＣＲ、Ｉｌｌｕｍｉｎａアレイ、Ａｆｆｙｍｅｔｒｉｘアレイ、Ａｇｉｌｅｎｔアレイ、ＭＩＰＳキット等を含めた広い範囲の定量的および定性的ゲノタイピングプラットフォームに適用することができる。

一般的問題の公式化
２つの対立遺伝子変異が起こる（ｘおよびｙ）ＳＮＰにおいてプローブがあると仮定する。各遺伝子座ｉ、ｉ＝１．．．Ｎにおいて、２つの対立遺伝子からの遺伝物質の量に対応するデータを収集する。Ｔａｑｍａｎアッセイにおいて、これらの尺度は、例えば、各対立遺伝子−特異的色素のレベルが閾値を交差するサイクル時間Ｃ_ｔであろう。どのようにして、このアプローチを、各遺伝子座における、または遺伝子座における各対立遺伝子に対応する遺伝物質の量の異なる測定まで拡大できるかは明らかであろう。遺伝物質の量の定量的測定は非線形であり、その場合、注目するセグメントの存在によって引き起こされた特定の遺伝子座の測定の変化は、どのようにして、その遺伝子座の多くの他のコピーが他のＤＮＡセグメントからの試料に存在するかに依存するであろう。いくつかの場合において、技術が、注目するセグメントの存在によって引き起こされた特定遺伝子座の測定の変化が、どのようにしてその遺伝子座の多くの他のコピーが他のＤＮＡセグメントからの試料に存在するかに依存しないように、線形測定を必要とするであろう。アプローチを、どのようにしてＴａｑａｍａｎまたはｑＰＣＲアッセイからの測定を線形化することができるかについて記載するが、異なるアッセイについて適応できる非線形測定を線形化するための多くの他の技術がある。

遺伝子座１．．．Ｎにおける対立遺伝子ｘの遺伝物質の量の測定は、データｄ_ｘ＝［ｄ_ｘ１．．．ｄ_ｘＮ］によって与えられる。同様に、対立遺伝子ｙについては、データｄ_ｙ＝［ｄ_ｙ１．．．ｄ_ｙＮ］によって与えられる。各セグメントｊは、各要素ａ_ｊｉがｘまたはｙいずれかである対立遺伝子ａ_ｊ＝［ａ_ｊ１．．．．ａ_ｊＮ］を有すると仮定する。対立遺伝子ｘの遺伝物質の量の測定データを、ｓｘがシグナルであって、υ_ｘが擾乱であるｄ_ｘ＝ｓ_ｘ＋υ_ｘとして記載する。該シグナルはｓ_ｘ＝［ｆ_ｘ（ａ_１１，．．．，ａ_Ｊ１）．．．ｆ_ｘ（ａ_ＪＮ，．．．，ａ_ＪＮ）］であり、ここで、ｆｘは測定に対する対立遺伝子からのセットのマッピングであり、ＪがＤＮＡセグメントコピーの数である。擾乱ベクトルυ_ｘは測定誤差によって引き起こされ、非線形測定の場合においては、注目するＤＮＡセグメント以外の他の遺伝子物質の存在によって引き起こされる。測定誤差は通常に正規分布し、それらは、非線形によって引き起こされた擾乱に対して大きく（線形化測定についてのセクション参照）、従って、υ_ｘｉ≒ｎ_ｘｉであり、ここで、非ｎ_ｘｉが偏差σ_ｘｉ２を有し、ベクトルｎ_ｘは正規分布する〜Ｎ（０、Ｒ），Ｒ＝Ｅ（ｎ_ｘｎ_ｘ ^Ｔ）と仮定する。さて、いくつかのフィルターｈをこのデータに適応して、測定ｍ_ｘ＝ｈ^Ｔｄ_ｘ＝ｈ^Ｔｓ_ｘ＋ｈ^Ｔυ_ｘを行うと仮定する。ノイズに対するシグナルの比率（ｈ^Ｔｓ_ｘ／ｈ^Ｔｎ_ｘ）を最大化するためには、ｈはマッチドフィルターｈ＝μＲ^−１ｓ_ｘによって与えられ、ここで、μはスケーリング定数であることを示すことができる。対立遺伝子ｘについての議論は対立遺伝子ｙについて反復することができる。

方法１ａ：各遺伝子座についての平均および標準偏差が知られている場合に、対立遺伝子要求を行わない定量的技術による異数性または性別の測定
このセクションでは、データは、（例えば、ｑＰＣＲを用いる）対立遺伝子値に拘わらず遺伝子座における遺伝物質の量に関係し、またはデータは、集団において１００％浸透度を有する対立遺伝子についてのみであると仮定し、あるいはデータは、各遺伝子座における多数の対立遺伝子において組合せて（線形化測定についてのセクション参照）、その遺伝子に座における遺伝物質の量を測定すると仮定する。その結果、このセクションにおいては、データｄ_ｘに言及でき、ｄ_ｙを無視することができる。また、２つの仮説：ＤＮＡセグメントの２つのコピーがあるｈ_０（これらは、典型的には同一のコピーではない）およびただ１つのコピーがあるｈ_１、があると仮定する。各仮説については、データは、各々、ｄ_ｘｉ（ｈ_０）＝ｓ_ｘｉ（ｈ_０）＋ｎ_ｘｉおよびｄ_ｘｉ（ｈ_１）＝ｓ_ｘｉ（ｈ_１）＋ｎ_ｘｉとして記載でき、ここで、ｓ_ｘｉ（ｈ_０）は、２つのＤＮＡセグメントが存在する場合に、遺伝子座ｉにおける遺伝物質の予測される測定（予測されるシグナル）であり、ｓ_ｘｉ（ｈ_１）は１つのセグメントについて予測されるデータである。仮説ｈ_０：ｍ_ｘｉ＝ｄ_ｘｉ−ｓ_ｘｉ（ｈ_０）についての予測されるシグナルを差分することによって各遺伝子座についての測定を構築する。もしｈ_１が真であれば、測定の予測される値はＥ（ｍ_ｘｉ）＝ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０）である。先に議論したマッチドフィルターを用い、ｈ＝（１／Ｎ）Ｒ^−１（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））を設定する。測定はｍ＝ｈ^Ｔｄ_ｘ＝（１／Ｎ）Σ_{ｉ＝１．．．Ｎ}（（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））／σ_ｘｉ ^２）ｍ_ｘｉと記載される。

もしｈ_１が真であれば、Ｅ（ｍ｜ｈ_１）＝ｍ_１＝（１／Ｎ）Σ_{ｉ＝１．．．Ｎ}（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））^２／σ_ｘｉ ^２の予測される値、およびｍの標準偏差はσ_ｍ｜ｈ１ ^２＝（１／Ｎ^２）Σ_{ｉ＝１．．．Ｎ}（（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））^２／σ_ｘｉ ^４）σ_ｘｉ ^２＝（１／Ｎ^２）Σ_{ｉ＝１．．．Ｎ}（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））^２／σ_ｘｉ ^２である。

ｈ_０が真であれば、ｍの予測される値はＥ（ｍ｜ｈ_０）＝ｍ_０＝０であって、ｍの標準偏差は、再度、σ_ｍ｜ｈ０ ^２＝（１／Ｎ^２）Σ_{ｉ＝１．．．Ｎ}（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））^２／σ_ｘｉ ^２である。

図３は、どのようにして、偽陰性および偽陽性検出の確率を決定するかを説明する。閾値ｔは、偽陰性および偽陽性の確率を等しくするために、ｍ_１およびｍ_０の間に設定すると仮定する（これは、後に記載するように、当てはまる必要はない）。偽陰性の確率は、（ｍ_１−ｔ）／σ_ｍ｜ｈ１＝（ｍ_１−ｍ_０）／（２σ_ｍ｜ｈ１）の比率によって決定される。「５−シグマ」統計学は、偽陰性の確率が１−ｎｏｒｍｃｄｆ（５，０，１）＝２．８７ｅ−７であるように用いることができる。この場合、目標は（ｍ_１−ｍ_０）／（２σ_ｍ｜ｈ０）＞５または１０ｓｑｒｔ（（１／Ｎ^２）Σ_{ｉ＝１．．．Ｎ}（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））^２／σ_ｘｉ ^２）＜（１／Ｎ）Σ_{ｉ＝１．．．Ｎ}（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））^２／σ_ｘｉ ^２またはｓｑｒｔ（Σ_{ｉ＝１．．．Ｎ}（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））^２／σ_ｘｉ ^２）＞１０に対するものである。Ｎのサイズを計算するために、平均シグナル−ノイズ比率が、集合データから計算することができるＭＳＮＲ＝（１／Ｎ）Σ_{ｉ＝１．．．Ｎ}（ｓ_ｘｉ（ｈ_１）−ｓ_ｘｉ（ｈ_０））^２／σ_ｘｉ ^２。次いで、前記不均衡からＭを見出すことができる：ｓｑｒｔ（Ｎ）．ｓｑｒｔ（ＭＳＮＲ）＞１０またはＮ＞１００／ＭＳＮＲ。

このアプローチは、Ｘ染色体上の４８ＳＮＰを用いてＡｐｐｌｉｅｄＢｉｏＳｙｓｔｅｍｓからのＴａｑｍａｎアッセイで測定したデータに適用した。各遺伝子座についての測定は、この遺伝子座に対応するウェルに放出された色素が閾値を超えるのに要する時間Ｃ_ｔである。試料０は、対象が２つのＸ染色体を有した混合女性起源のウェル当たりおよそ０．３ｎｇ（５０細胞）の合計ＤＮＡよりなり；試料１は、対象が１つのＸ染色体を有した混合男性起源のウェル当たりおよそ０．３ｎｇのＤＮＡよりなるものであった。図４および図５は、試料１および０についての測定のヒストグラムを示す。これらの試料の分布は、ｍ_０＝２９．９７；ＳＤ_０＝１．３２、ｍ_１＝３１．４４、ＳＤ_１＝１．５９２によって特徴付けられる。このデータは混合男性および女性試料に由来するので、観察されたＳＤのいくつかは、混合試料中の各ＳＮＰにおける異なる対立遺伝子頻度によるものである。加えて、観察されたＳＤのいくつかは、各ＳＮＰにおける異なるアッセイの変化する効率、および各ウェルにピペットで入れられる色素の異なる量によるものであろう。図６は、男性および女性試料についての各遺伝子座における測定の差のヒストグラムを提供する。男性および女性試料の間の平均差は１．４７であって、差のＳＤは０．９９である。このＳＤは、依然として、混合男性および女性試料における異なる対立遺伝子頻度に従うが、それは、もはや、各遺伝子座における各アッセイの異なる効率に影響しないであろう。目標は、各々がおよそに同様なＳＤを持つ２つの測定を区別することであり、調整されたＳＤは、全ての遺伝子座についての各測定に対して０．９９／ｓｑｒｔ（２）＝０．７０と近似することができる。２つの実行を各遺伝子座について行って、マッチドフィルターを適用することができるように、その遺伝子座におけるアッセイについてσ_ｘｉを見積もった。σ_ｘｉの下限を０．２に設定して、σ_ｘｉを計算するためのただ２つの実行から得られる統計学的異常を回避した。双方の対立遺伝子にわたり、双方の実験実行にわたり、および男性および女性双方の試料にわたって、対立遺伝子ドロップアウトがなかった遺伝子座（ナンバリング３７）のみを、プロットおよび計算で用いた。前記したアプローチをこのデータに適用し、ＭＳＮＲ＝２．２６、よって、Ｎ＝２^２５^２／２．２６^∧２＝１７遺伝子座であることが判明した。

方法１ｂ：平均および標準偏差が知られていないか、または均一である場合に、対立遺伝子要求を行わない定量的技術による異数性または性別の測定
各遺伝子座の特徴がよく知られていない場合、各遺伝子座における全てのアッセイが同様に挙動し、すなわち、その代わり、Ｅ（ｍ_ｘ）およびσ_ｘのみに言及するのが可能であるように、Ｅ（ｍ_ｘｉ）およびσ_ｘｉは全ての遺伝子座ｅにわたって一定であるという単純化仮定をすることができる。この場合、マッチドフィルタリングアプローチｍ＝ｈ^Ｔｄ_ｘはｄ_ｘの分布の平均を見出すことに変えられる。このアプローチは平均の比較といい、それは、真実のデータを用いる異なる種類の検出で必要とされる遺伝子座の数を見積もるのに用いられるであろう。

前記したように、試料に存在する２つの染色体（仮説ｈ_０）または存在する１つの染色体（ｈ_１）がある場合のシナリオを考える。ｈ_０では、分布はＮ（μ_０，σ_０ ^２）であり、ｈ_１については、分布はＮ（μ_１，σ_１ ^２）である。各々、測定された試料平均およびＳＤ：ｍ_１、ｍ_０、ｓ_１およびｓ_０を持つＮ_０およびＮ_１試料を用いて分布の各々を測定する。平均は、Ｍ_０〜Ｎ（μ_０，σ_０ ^２／Ｎ_０）およびＭ_１〜Ｎ（μ_１，σ_１ ^２／Ｎ_１）として正規分布するランダム変数Ｍ_０、Ｍ_１としてモデル化することができる。Ｍ_１〜Ｎ（ｍ_１，ｓ_１ ^２／Ｎ_１）およびＭ_０〜Ｎ（ｍ_０，ｓ_０ ^２／Ｎ_０）と仮定することができるように、Ｎ_１およびＮ_０は十分に大きい（＞３０）と仮定する。分布が異なるか否かを検定するために、平均検定の差を用いることができ、ここで、Ｄ＝ｍ_１−ｍ_０である。ランダム変数Ｄの偏差はσ_ｄ ^２＝σ_１ ^２／Ｎ_１＋σ_０ ^２／Ｎ_０であり、これはσ_ｄ ^２＝ｓ_１ ^２／Ｎ_１＋ｓ_０ ^２／Ｎ_０と近似することができる。ｈ_０を与えると、Ｅ（ｄ）＝０となり；ｈ_１を与えると、Ｅ（ｄ）＝μ_１−μ_０となる。ｈ_１およびｈ_０の間の要求を行うための異なる技術をここに議論する。

Ｘ染色体上の４８ＳＮＰを用いるＴａｑｍａｎアッセイの異なる実行で測定されたデータを用いて、性能をキャリブレートした。試料１は、１つのＸ染色体を含有する混合男性起源のウェル当たりおよそ０．３ｎｇのＤＮＡよりなり；試料０は、２つのＸ染色体を含有する混合女性起源のウェル当たりおよそ０．３ｎｇのＤＮＡよりなるものであった。Ｎ_１＝４２およびＮ_０＝４５。図７および図８は、試料１および０についてのヒストグラムを示す。これらの試料についての分布はｍ_１＝３２．２５９、ｓ_１＝１．４６０、σ_ｍ１＝ｓ_１／ｓｑｒｔ（Ｎ_１）＝０．２２５；ｍ_０＝３０．７５；ｓ_０＝１．２０２、σ_ｍ０＝ｓ_０／ｓｑｒｔ（Ｎ_０）＝０．１７９によって特徴付けられる。これらの試料では、ｄ＝１．５０９およびδ_ｄ＝０．２８７９である。

このデータは混合男性および女性試料に由来するので、標準偏差の多くは、混合試料中の各ＳＮＰにおける異なる対立遺伝子頻度によるものである。ＳＤは、多数の実行にわたり、一定時刻における１つのＳＮＰについてのＣ_ｔにおける変動を考慮することによって見積もられる。このデータを図９に示す。ヒストグラムは０の周りに対称である。というのは、各ＳＮＰについてのＣ_ｔは２つの実行または実験で測定され、各ＳＮＰについてのＣ_ｔの平均値は差し引かれるからである。２つの実行を用いる混合男性試料中の２０のＳＮＰにわたる平均標準偏差はｓ＝０．５９７である。このＳＤは男性および女性双方の試料で保存的に用いられる。というのは、女性試料についてのＳＤは男性試料についてよりも小さいだろうからである。加えて、混合試料は全てのＳＮＰについてヘテロ接合性であると推定されるので、ただ１つの色素からの測定が用いられていることを注記する。双方の色素の使用は、遺伝子座における各対立遺伝子の測定が組み合わされることを必要とし、これはより複雑である（線形化測定についてのセクション参照）。双方の色素についての測定の組合せはシグナルの振幅を２倍とし、およそにｓｑｒｔ（２）によってノイズ振幅を増大させ、その結果、およそｓｑｒｔ（２）または３ｄＢのＳＮＲ改良がもたらされる。

モザイク現象なしおよび参照試料なしを仮定する検出
ｍ_０が多くの実験から完全に知られており、かつかく実験の実行は、ｍ_１を計算してｍ０と比較するのにただ１つの試料を実行すると仮定する。ｎ１はアッセイの数であり、各アッセイは異なるＳＮＰ遺伝子座であると仮定する。閾値ｔはｍ_０およびｍ_１の間に設定して、偽陰性の尤度を偽陰性の数と等しくすることができ、もしそれが閾値を超えれば、試料は異常であると記される。ｓ_１＝ｓ_２＝ｓ＝０．５９７であると仮定し、偽陰性または陽性の確率が１−ｎｏｒｍｃｄｆ（５，０，１）＝２．８７ｅ−７となるように５−シグマアプローチを用いる。目標は５ｓ_１／ｓｑｒｔ（Ｎ_１）＜（ｍ_１−ｍ_０）／２、従って、Ｎ_１＝１００ｓ_１ ^２／（ｍ_１−ｍ_０）^２＝１６についてのものである。さて、有害なシナリオである、偽陽性の偽陰性の確率よりも高くされるアプローチを用いることもできる。もし陽性を測定すれば、実験は再度行うことができる。その結果、偽陰性の確率は偽陽性の確率の平方と等しいはずであるということが可能である。図３を考え、ｔ＝閾値とし、シグマ０＝シグマ１＝ｓと仮定する。かくして、１−ｎｏｒｍｃｄｆ（（ｔ−ｍ_０）／ｓ，０，１））^２＝１−ｎｏｒｍｃｄｆ（（ｍ_１−ｔ）／ｓ，０，１）である。これを解き、ｔ＝ｍ_０＋０．３２（ｍ_１−ｍ_０）であることを示すことができる。よって、目標は５ｓ／ｓｑｒｔ（Ｎ_１）＜ｍ_１−ｍ_０−０．３２（ｍ_１−ｍ_０）＝（ｍ_１−ｍ_０）／１．４７、よって、Ｎ_１＝（５^２）（１．４７^２）ｓ^２／（ｍ_１−ｍ_０）^２＝９についてのものである。

参照試料を実行することのないモザイク現象での検出
目標は９７．７％の確率でモザイク現象を検出することである（すなわち、２−シグマアプローチ）以外は前記したのと同一状況を仮定する。これは、およそ２０の細胞を抽出し、それらの写真を撮る羊水穿刺に対する標準アプローチよりも良好である。もし２０細胞のうち１が異数体であって、これは１００％の信頼性でもって検出されると仮定するならば、標準アプローチを用いる異数体である群の少なくとも１つを有する確率は１−０．９５^２０＝６４％である。もし細胞の０．０５％が異数体であれば（この試料３を要求する、ｍ_３＝０．９５ｍ_０＋０．０５ｍ_１およびｖａｒ（ｍ_３）＝（０．９５ｓ_０ ^２＋０．０５ｓ_１ ^２）／Ｎ_１である。かくして、ｓｔｄ（ｍ_３）２＜（ｍ_３−ｍ_０）／２＝＞ｓｑｒｔ（０．９５ｓ_０ ^２＋０．０５ｓ_１ ^２）／ｓｑｒｔ（Ｎ_１）＜０．０５（ｍ_１−ｍ_２）／４＝＞Ｎ_１＝１６（０．９５ｓ_２ ^２＋０．０５ｓ_１ ^２）／（０．０５^２（ｍ_１−ｍ_２）^２）＝１００１である。慣用的アプローチを用いて達成することができるよりも依然として良好な（すなわち、８４．１％確率での検出）１−シグマ統計学の目標を用い、同様にしてＮ_１＝２５０であると示すことができる。

モザイク現象がなく、参照試料を用いる検出
このアプローチは必要でないかもしれないが、各実験は２つの試料を実行して、ｍ_１を真実の試料ｍ_２と比較すると仮定する。Ｎ＝Ｎ_１＝Ｎ_０と仮定する。ｄ＝ｍ_１−ｍ_０を計算し、σ_１＝σ_０と仮定し、閾値ｔ＝（ｍ_０＋ｍ_１）／２を設定し、従って偽陽性および偽陰性の確率は等しい。偽陰性の確率を２．８７ｅ−７とし、それは、（ｍ_１−ｍ_２）／２＞５ｓｑｒｔ（ｓ_１ ^２／Ｎ＋ｓ_２ ^２／Ｎ）＝＞Ｎ＝１００（ｓ_１ ^２＋ｓ_２ ^２）／（ｍ_１−ｍ_２）^２＝３２があてはまらなければならない。

モザイク現象での検出および参照試料の実行
前記したように、偽陰性の確率は２．３％であると仮定する（すなわち、２−シグマアプローチ）もし細胞の０．０５％が異数体であれば（これを試料３と呼ぶ）、ｍ_３＝０．９５ｍ_０＋０．０５ｍ_１およびｖａｒ（ｍ_３）＝（０．９５ｓ_０ ^２＋０．０５ｓ_１ ^２）／Ｎ_１である。ｄ＝ｍ_３−ｍ_２およびσ_ｄ ^２＝（１．９５ｓ_０ ^２＋０．０５ｓ_１ ^２）／Ｎである。ｓｔｄ（ｍ_３）２＜（ｍ_０−ｍ_２）／２＝＞ｓｑｒｔ（１．９５ｓ_２ ^２＋０．０５ｓ_１ ^２）／ｓｑｒｔ（Ｎ）＜０．０５（ｍ_１−ｍ_２）／４＝＞Ｎ＝１６（１．９５ｓ_２ ^２＋０．０５ｓ_１ ^２）／（０．０５^２（ｍ_１−ｍ_２）^２）＝２００２でなければならない。再度１−シグマアプローチを用い、Ｎ＝５００であることが同様にして示すことができる。

目標が、現在の技術水準におけるように、６４％の確率でもって５％モザイク現象を検出するにすぎない場合を考える。従って、偽陰性の確率は３６％となろう。換言すれば、１−ｎｏｒｍｃｄｆ（ｘ，０，１）＝３６％となるようなｘを見出す必要があろう。かくして、２−シグマアプローチについてはＮ＝４（０．３６^∧２）（１．９５ｓ_２ ^２＋０．０５ｓ_１ ^２）／（０．０５^２（ｍ_１−ｍ_２）^２）＝６５であり、または１−シグマアプローチについてはＮ＝３３である。この結果、取り組むことが必要な、非常に高いレベルの偽陽性がもたらされることに注意されたし。というのは、偽陽性のそのようなレベルは現在実行可能な代替ではないからである。

また、もしＮが３８４に限定され、（すなわち、染色体当たり３８４ウェルＴａｑｍａｎプレート）、かつ目標が９７．７２％の確率でモザイク現象を検出することにあれば、１−シグマアプローチを用いて８．１％のモザイク現象を検出することが可能であろうことを注記する。８４．１％の確率でもって（または１５．９％偽陰性率でもって）モザイク現象を検出するには、１−シグマアプローチを用いて５．８％のモザイク現象を検出するのが可能である。９７．７２％の信頼性でもって１９％のモザイク現象を検出するには、およそ７０の遺伝子座を必要とするであろう。かくして、単一プレート上で５つの染色体についてスクリーニングできよう。

これらの異なるシナリオの各々のまとめを表２に供する。また、この表２は、ｑＰＣＲから得られた結果、およびＳＹＢＲアッセイを含める。前記した方法を用い、各遺伝子座についてのｑＰＣＲアッセイの性能は同一であるという単純化した仮定を行った。図１０および図１１は、前記したような、試料１および０についてのヒストグラムを示す。Ｎ_０＝Ｎ_１＝４７。これらの試料についての測定の分布は、ｍ_１＝２７．６５、ｓ_１＝１．４０，σ_ｍ１＝ｓ_１／ｓｑｒｔ（Ｎ_１）＝０．２０４；ｍ_０＝２６．６４；ｓ_０＝１．１４６、σ_ｍ０＝ｓ_０／ｓｑｒｔ（Ｎ_０）＝０．１６７によって特徴付けられる。これらの試料について、ｄ＝１．０１およびσ_ｄ＝０．２６３６である。図１２は、０．７５の全ての遺伝子座にわたる差の標準偏差での各遺伝子座についての男性および女性試料に対するＣ_ｔの間の差を示す。ＳＤは、男性または女性試料での各遺伝子座の各測定について０．７５／ｓｑｒｔ（２）＝０．５３と近似した。

方法２：対立遺伝子要求を用いる定性的技術
このセクションにおいては、アッセイは定量的であるという仮定をしない。その代わり、仮定は、対立遺伝子要求は定性的であって、アッセイに由来する意味のある定量的データはないというものである。このアプローチは、対立遺伝子要求を行ういずれのアッセイについても適当である。図１３は、どのようにして、異なるハプロイド配偶子が減数分裂の間に形成されるか、およびそれを用いて、このセクションに関連する異なる種類の異数性を記載するのに用いる。最良のアルゴリズムは、検出されるべき異数性のタイプに依存する。

異数性が、他の２つのセグメントのいずれかのコピーであるセクションを有しない第３のセグメントによって引き起こされる状況を考える。図１３より、例えば、もしｐ_１およびｐ_４、またはｐ_２およびｐ_３の双方が、他の親からの１つのセグメントに加えて、子供の細胞中で生起するならば、該状況は起きるであろう。これは、異数性を引き起こすメカニズムを仮定すれば、非常に普通である。１つのアプローチは、細胞中に２つのセグメントがある仮説ｈ_０、およびこれらの２つのセグメントは何であるかでもって開始することである。説明の目的で、ｈ_０は図１３からのｐ_３およびｍ_４についてのものであると仮定する。好ましい実施形態において、この仮説は本書類中の他の箇所に記載されたアルゴリズムに由来する。仮説ｈ_１は、他のセグメントのコピーであるセクションを有しないさらなるセグメントがあるというものである。これは、例えば、もしこのｐ_２またはｍ_１もまた存在するならば正直であろう。ｐ_３およびｍ_４においてホモ接合性である全ての遺伝子座を同定することが可能である。異数性は、ホモ接合性であると予測される遺伝子座におけるヘテロ接合性遺伝子型要求をサーチすることによって検出することができる。

各遺伝子座は２つの可能な対立遺伝子ｘおよびｙを有すると仮定する。各々、対立遺伝子ｘおよびｙの確率は一般にｐ_ｘおよびｐ_ｙであり、およびｐ_ｘ＋ｐ_ｙ＝１であるとする。もしｈ１が真であれば、それについてｐ_３およびｍ_４がホモ接合性である各遺伝子座ｉについて、非ホモ接合性要求の確率は、遺伝子座が、各々、ｘまたはｙにおいてホモ接合であるかに依存してｐ_ｙまたはｐ_ｘである。注意：親データ、すなわち、ｐ_１、ｐ_２、ｐ_４およびｍ_１、ｍ_２、ｍ_３の知識に基づいて、各遺伝子座において非ホモ接合性対立遺伝子ｘまたはｙを有する確率をさらに改良することが可能である。これは、同一数のＳＮＰでの各仮説についてより信頼性のある測定を可能とするが、標記方法を複雑化し、従って、この延長は明示的には取り扱わない。どのようにしてこの情報を用いて、仮説の信頼性を増加させるかは当業者に明らかなはずである。

対立遺伝子ドロップアウトの確率はｐ_ｄである。遺伝子座ｉにおいてヘテロ接合性遺伝子型を見出す確率は仮説ｈ_０を仮定すれば、ｐ_０ｉであり、仮説ｈ_１を仮定すればｐ_１ｉである。

ｈ_０：ｐ_０ｉ＝０とする。

遺伝子座がｘまたはｙに対してホモ接合性であるかに依存して、ｈ_１：ｐ_１ｉ＝ｐ_ｘ（１−ｐ_ｄ）、またはｐ_１ｉ＝ｐ_ｙ（１−ｐ_ｄ）とする。

測定ｍ＝１／Ｎ_ｈΣ_{ｉ＝１．．．Ｎｈ}Ｉ_ｉを作り出し、ここで、Ｉ_ｉはインジケーター変数であり、もしヘテロ接合性要求がなされたならば、１であって、その他の場合は０である。Ｎ_ｈはホモ接合性遺伝子座の数である。ｐ_ｘ＝ｐ_ｙであって、全ての遺伝子座についてｐ_０ｉ、ｐ_１ｉが同一の２つの値ｐ_０およびｐ_１であると仮定することによって、説明を簡略化することができる。ｈ_０を与えて、Ｅ（ｍ）＝ｐ_０＝０、およびσ^２ _ｍ｜ｈ０＝ｐ_０（１−ｐ_０）／Ｎ_ｈとなる。ｈ_１を与えて、Ｅ（ｍ）＝ｐ_１およびσ^２ _ｍ｜ｈ１＝ｐ_１（１−ｐ_１）／Ｎ_ｈとなる。５シグマ−統計学を用い、偽陽性の確率を偽陰性の確率と等しくし、（ｐ_１−ｐ_０）／２＞５σ_ｍ｜ｈ１、よって、Ｎ_ｈ＝１００（ｐ_０（１−ｐ_０）＋ｐ_１（１−ｐ_１））／（ｐ_１−ｐ_０）^２と示すことができる。５−シグマ信頼性の代わりに２−シグマ信頼性では、Ｎ_ｈ＝４．２^２（ｐ_０（１−ｐ_０）＋ｐ_１（１−ｐ_１））／（ｐ_１−ｐ_０）^２と示すことができる。

信頼性が少なくとも９７．７％であるように（２−シグマ）十分な入手可能なホモ接合性遺伝子座Ｎ_{ｈ−ａｖａｉｌ}があることは、十分な遺伝子座Ｎをサンプリングするのに必要である。Ｎ_{ｈ−ａｖａｉｌ}＝Σ_{ｉ＝１．．．Ｎ}Ｊ_ｉを特徴付け、ここで、Ｊ_ｉは、もし遺伝子座がホモ接合性であれば値１のインジケーター変数であり、そうでなければ、０である。ホモ接合性である遺伝子座の確率はｐ_ｘ ^２＋ｐ_ｙ ^２である。その結果、」Ｅ（Ｎ_{ｈ−ａｖａｉｌ}）＝Ｎ（ｐ_ｘ ^２＋ｐ_ｙ ^２）、およびσ_{Ｎｈ−ａｖａｉｌ} ^２＝Ｎ（ｐ_ｘ ^２＋ｐ_ｙ ^２）（１−ｐ_ｘ ^２＋ｐ_ｙ ^２）となる。Ｎが９７．７％信頼性でもって十分に大きいことを補償するためには、Ｅ（Ｎ_{ｈ−ａｖａｉｌ}）−２σ_{Ｎｈ−ａｖａｉｌ}＝Ｎ_ｈでなければならず、ここで、Ｎ_ｈは前記から見出される。

例えば、もしｐ_ｄ＝０．３、ｐ_ｘ＝ｐ_ｙ＝０．５を仮定するならば、５−シグマ信頼性について、Ｎ_ｈ＝１８６およびＮ＝３９１を見出すことができる。同様に、２−シグマ信頼性、すなわち、偽陰性および偽陽性における９７．７％信頼性について、Ｎ_ｈ＝３０であって、Ｎ＝６８であることを示すのは可能である。

同様なアプローチを、ｈ_０が２つの公知の染色体セグメントが存在する仮説であって、ｈ_１が染色体セグメントの一方が失われている仮説である場合、セグメントの欠失を探すことに適応することができることを注記する。例えば、前記でなされたように、対立遺伝子ドロップアウトの効果をコードし、ヘテロ接合性であるが、ホモ接合性である遺伝子座を探すことが可能である。

また、アッセイが定性的であったとしても対立遺伝子ドロップアウト率を用いて、存在するＤＮＡセグメントの数についての定量的尺度のタイプを供することができることを注記する。

方法３：参照配列の公知の対立遺伝子、および定量的対立遺伝子測定の使用
ここで、セグメントの清浄なまたは予測されるセットは知られていると仮定する。これらの染色体についてチェックするためには、各染色体の２つを仮定して、第一の工程は
データを正常化することである。本発明の好ましい実施形態において、第一の工程におけるデータ正常化は、本書類の他の箇所に記載された方法を用いてなされる。次いで、予測される２つのセグメントに関連するシグナルは、測定されたデータから差し引かれる。次いで、残りのシグナル中のさらなるセグメントを探すことができる。マッチドフィルタリングアプローチを用いて、さらなるセグメントを特徴付けるシグナルは、存在すると信じられるセグメントの各々、ならびにそれらの相補的染色体に基づく。例えば、図１３をコードし、もしＰＳの結果が、セグメントｐ２およびｍ１が存在することを示すならば、本明細書中に記載された技術を用いて、さらなる染色体上でのｐ２、ｐ３、ｍ１、およびｍ４の存在をチェックすることができる。もし存在するさらなるセグメントがあれば、それは、これらのテストシグナルの少なくとも１つと共通する、５０％を超える対立遺伝子を有することが保証される。ここに詳細に記載されていないもう１つのアプローチは、染色体の異常な番号、すなわち、１、３、４、および５染色体を仮定し、書類の他の箇所に記載されたアルゴリズムを用いて、データを正常化し、次いで、本明細書中で議論した方法を適用することができる。このアプローチの詳細は、本書類を読んだ後に当業者に明瞭なはずである。

仮説ｈ_０は、対立遺伝子ベクトルａ_１、ａ_２をもつ２つの染色体があるというものである。仮説ａ_１は、対立遺伝子ベクトルａ_３を持つ第三の染色体があるというものである。遺伝子データを正常化するために本書類に記載した方法、またはもう１つの技術を用い、各要素ａ_ｊｉがｘまたはｙいずれかであるｈ_０：ａ_１＝［ａ_１１．．．ａ_１Ｎ］およびａ_２＝［ａ_２１．．．ａ_２Ｎ］によって予測される２つのセグメントの対立遺伝子を決定することが可能である。予測されるシグナルは、ｆ_ｘ、ｆ_ｙが各対立遺伝子の測定に対する対立遺伝子のセットからのマッピングを記載する仮説ｈ_０：ｓ_０ｘ＝［ｆ_０ｘ（ａ_１１，ａ_２１）．．．ｆ_ｘ０（ａ_１Ｎ，ａ_２Ｎ）］、ｓ_０ｙ＝［ｆ_ｙ（ａ_１１，ａ_２１）．．．ｆ_ｙ（ａ_１Ｎ，ａ_２Ｎ）］について作り出される。ｈ_０を仮定すれば、データはｄ_ｘｉ＝ｓ_０ｘｉ＋ｎ_ｘｉ、ｎ_ｘｉ〜Ｎ（０，σ_ｘｉ ^２）；ｄ_ｙｉ＝ｓ_０ｙｉ＋ｎ_ｙｉ、ｎ_ｙｉ〜Ｎ（０，σ_ｙｉ ^２）と記載することができる。データおよび参照シグナルを差分することによって測定を作り出す：ｍ_ｘｉ＝ｄ_ｘｉ−ｓ_ｘｉ；ｍ_ｙｉ＝_ｙｉ−ｓ_ｙｉ。十分な測定ベクトルはｍ＝［ｍ_ｘ ^Ｔｍ_ｙ ^Ｔ］^Ｔである。

さて、注目するセグメント、その存在が疑われるセグメントについてのシグナルを作り出し、それを、このセグメントの推定される対立遺伝子に基づいて求める：ａ_３＝［ａ_３１．．．ａ_３Ｎ］。残りについてのシグナルを：ｓ_ｒ＝［ｓ_ｒｘ ^Ｔｓ_ｒｙ ^Ｔ］^Ｔと記載し、ここで、ｓ_ｒｘ＝［ｆ_ｒｘ（ａ_３１）．．．ｆ_ｒｘ（ａ_３Ｎ）］、ｓ_ｒｙ＝［ｆ_ｒｙ（ａ_３１）．．．ｆ_ｒｙ（ａ_３Ｎ）］であり、ここで、もしａ_３ｉ＝ｘであれば、ｆ_ｒｘ（ａ_３ｉ）＝δ_ｘｉであって、その他の場合は０であり、もしａ_３ｉ＝ｙであればｆ_ｒｙ（ａ_３ｉ）＝δ_ｙｉであり、そうでなければ０である。この分析は、遺伝子座ｉにおける対立遺伝子ｘの１つのコピーの存在がデータδ_ｘｉ＋ｍ_ｘｉを作り出し、遺伝子座ｉにおける対立遺伝子ｘのκ_ｘコピーの存在はデータκ_ｘδ_ｘｉ＋ｎ_ｘｉを作り出すように、測定は線形化されている（後記セクション参照）と仮定する。しかしながら、この仮定は本明細書中に記載された一般的なアプローチでは必要ないことに注意されたし。ｈ１を仮定すれば、もし対立遺伝子ａ_３ｉ＝ｘであれば、ｍ_ｘｉ＝δ_ｘｉ＋ｎ_ｘｉ、ｍ_ｙｉ＝ｎ_ｙｉであり、もしａ_３ｉ＝ｙであれば、ｍ_ｘｉ＝ｎ_ｘｉ、ｍ_ｙｉ＝δ_ｙｉ＋ｎ_ｙｉである。その結果、マッチドフィルターｈ＝（１／Ｎ）Ｒ^−１ｓ_ｒを作り出すことができ、ここで、Ｒ＝ｄｉａｇ（［σ_ｘ１．．．σ_ｘＮ ^２σ_ｙ１ ^２．．．σ_ｙＮ ^２］）である。測定はｍ＝ｈ^Ｔｄである。
ｈ_０：ｍ＝（１／Ｎ）Σ_{ｉ＝１．．．Ｎ}ｓ_ｒｘｉｎ_ｘｉ／σ_ｘｉ ^２＋ｓ_ｒｙｉｎ_ｙｉ／σ_ｙｉ ^２
ｈ_１：ｍ＝（１／Ｎ）Σ_{ｉ＝１．．．Ｎ}ｓ_ｒｘｉ（δ_ｘｉ＋ｎ_ｘｉ）／σ_ｘｉ ^２＋ｓ_ｒｙｉ（δ_ｙｉ＋ｎ_ｙｉ）／σ_ｙｉ ^２
必要なＳＮＰの数を見積もるためには、全ての対立遺伝子および全ての遺伝子座についての全てのアッセイが同様な特徴を有し、すなわち、ｉ＝１．．．Ｎについてδ_ｘｉ＝δ_ｙｉ＝δおよびσ_ｘｉ＝σ_ｙｉ＝σであるという単純化仮定を行う。次いで、平均および標準編纂は以下のように見出すことができる
ｈ_０：Ｅ（ｍ）＝ｍ_０＝０；σ_ｍ｜ｈ０ ^２＝（１／Ｎ^２σ^４）（Ｎ／２）（σ^２δ^２＋σ^２δ^２）＝δ^２／（Ｎσ^２）
ｈ_１：Ｅ（ｍ）＝ｍ_１＝（１／Ｎ）（Ｎ／２σ^２）（δ^２＋δ^２）＝δ^２／σ^２；σ_ｍ｜ｈ１ ^２＝（１／Ｎ^２σ^４）（Ｎ）（σ^２δ^２）＝δ^２／（Ｎσ^２）。
さて、ｈ_１−対−ｈ_０のこのテストについてシグナル−対−ノイズ比率（ＳＮＲ）を計算する。シグナルはｍ_１−ｍ_０＝δ^２／σ^２であって、この測定のノイズの偏差はσ_ｍ｜ｈ０ ^２＋σ_ｍ｜ｈ１ ^２＝２δ^２／（Ｎσ^２）である。その結果、このテストについてのＳＮＲは（δ^４／σ^４）／（２δ^２／（Ｎσ^２））＝Ｎδ^２／（２σ^２）である。

このＳＮＲを、対立遺伝子要求に基づいてマッチドフィルタリングを行うことなく、遺伝子情報を各遺伝子座において単純に合計するシナリオと比較する。

と仮定し、ここで、

はＮのそれのベクトルであり、ｉ＝１．．．Ｎについてδ_ｘｉ＝δ_ｙｉ＝δおよびσ_ｘｉ＝σ_ｙｉ＝σであると前記したように単純化仮定をする。このシナリオについては、もしｍ＝ｈ^Ｔｄであれば：
ｈ_０：Ｅ（ｍ）＝ｍ_０＝０；σ_ｍ｜ｈ０ ^２＝Ｎσ^２／Ｎ^２＋Ｎσ^２／Ｎ^２＝２σ^２／Ｎ
ｈ_１：Ｅ（ｍ）＝ｍ_１＝（１／Ｎ）（Ｎδ／２＋Ｎδ／２）＝δ；σ_ｍ｜ｈ１ ^２＝（１／Ｎ^２）（Ｎσ^２＋Ｎσ^２）＝２σ^２／Ｎ
であることを直接的に示すことができる。その結果、このテストについてのＳＮＲはＮδ^２／（４σ^２）である。言い換えれば、セグメントａ_３について予測される対立遺伝子測定を単に合計するマッチドフィルターを用いることによって必要なＳＮＰの数は２倍だけ低下する。これは、各遺伝子座におけるアッセイの異なる効率を説明するためにマッチドフィルタリングを用いることによって達成されたＳＮＲ利得を無視する。

もし参照シグナルｓ_ｘｉおよびｓ_ｙｉを正しく特徴付けなければ、得られた測定シグナルｍ_ｘｉおよびｍ_ｙｉについてのノイズまたは擾乱のＳＤは増加するであろう。これはもしδ＜＜σであれば有意でなく、そうでなければそれは偽検出の確率を増加させるであろう。その結果、この技術は、３つのセグメントが存在し、２つのセグメントは相互の正確なコピーであると推定される仮説をテストするのによく適合している。この場合、ｓ_ｘｉおよびｓ_ｙｉは、他の箇所に記載された定性的対立遺伝子要求に基づくデータ正常化の技術を用いて信頼性よく知られるであろう。１つの実施形態において、方法３は、定性的ゲノタイピングを用い、対立遺伝子ドロップアウトからの定量的測定とは別に、セグメントの第二の正確なコピーの存在を検出することができない方法２と組合せて用いられる。

さて、対立遺伝子要求を用いるもう１つの定量的技術を記載する。該方法は、所与の対立遺伝子についての４つの登録の各々におけるシグナルの相対的量を比較することを含む。ホモ接合性増幅が起こる、（または増幅の相対的量が正規化される）、単一の正常な細胞を含む理想化された場合において、４つの可能な状況が起こり得ると想像することができる：（ｉ）ヘテロ接合性対立遺伝子の場合には４つの登録の相対的強度はほぼ１：１：０：０であり、シグナルの絶対的強度は１つの塩基対に対応し；（ｉｉ）ホモ接合性対立遺伝子の場合には、相対的強度はほぼ１：０：０：０であり、シグナルの絶対的強度は２つの塩基対に対応する；（ｉｉｉ）ＡＤＯが対立遺伝子のうち１つについて起こる対立遺伝子の場合において、相対的強度はほぼ１：０：０：０であって、シグナルの絶対強度は１つの塩基対に対応し；および（ｉｘ）ＡＤＯが対立遺伝子の双方について起こる対立遺伝子の場合において、相対強度はほぼ０：０：０：０であって、シグナルの絶対的強度は塩基対に対応しないであろう。

しかしながら、異数体の場合には、異なる状況が観察されるであろう。例えば、トリソミーの場合には、ＡＤＯはなく、３つの状況の１つが起こり：（ｉ）三重にヘテロ接合性である対立遺伝子の場合には、４つの登録の相対的強度はほぼ１：１：１：０であり、シグナルの絶対的強度は１つの塩基対に対応し；（ｉｉ）対立遺伝子の２つがホモ接合性である場合には相対的強度はほぼ２：１：０：０であり、シグナルの絶対的強度は、各々、２つおよび１つの塩基対に対応し；（ｉｉｉ）対立遺伝子がホモ接合性である場合には、相対的強度はほぼ１：０：０：０であって、シグナルの絶対的強度は３つの塩基対に対応するであろう。もし対立遺伝子ドロップアウトがトリソミーを持つ細胞における対立遺伝子の場合で起こるならば、正常な細胞で期待される状況のうちの１つが観察されるであろう。モノソミーの場合には、４つの登録の相対的強度はほぼ１：０：０：０であって、シグナルの絶対的強度は１つの塩基対に対応するであろう。この状況は、ＡＤＯにおける対立遺伝子の１つが起こった正常な細胞の場合に対応するが、正常な細胞の場合には、これは対立遺伝子のいくらかのパーセンテージで観察されるのに過ぎないであろう。２つの同一の染色体が存在する片親二染色体の場合には、４つの登録の相対的強度はほぼ１：０：０：０であって、シグナルの絶対的強度は２つの塩基対に対応するであろう。１つの親からの２つの異なる染色体が存在するＵＰＤの場合には、この方法は、本特許に記載された他の方法を用いるデータのさらなる分析はこれを明らかにするであろうが、細胞は正常であることを示す。

これらの場合の全てにおいて、正常であり、異数体またはＵＰＤを有する細胞いずれかにおいて、１つのＳＮＰからのデータは、細胞の状態について決定するのに適切ではないであろう。しかしながら、もし前記仮説の各々の確率を計算し、それらの確率を所与の染色体上の十分な数のＳＮＰと組み合わせるならば、１つの仮説が支配的であり、高い信頼性でもって染色体の状態を決定することが可能であろう。

定量的測定を線形化するための方法
多くのアプローチを採用して、異なる対立遺伝子からのデータを容易に合計し、または差分できるように、特定の遺伝子座における遺伝物質の量の測定を線形化することができる。まず、上位概念的なアプローチを議論し、次いで、特定のタイプのアッセイについて設計されるアプローチを議論する。

データｄ_ｘｉは遺伝子座_ｉにおける対立遺伝子_ｘの遺伝物質の量の非線形測定をいうと仮定する。Ｎの測定を用いてデータの訓練セットを作り出し、ここに各測定については、データｄ_ｘｉに対応する遺伝物質の量はβ_ｘｉであると見積もられ、またはそのように知られている。この訓練セットβ_ｘｉ、ｉ＝１．．．Ｎは、現実に遭遇するであろう全ての異なる量の遺伝物質にわたるように選択される。標準回帰技術を用いて、線形測定Ｅ（β_ｘｉ）を期待して、非線形測定ｄ_ｘｉからマップされる関数を訓練することができる。例えば、線形回帰を用いて、ｃが係数ｃ＝［ｃ_０ｃ_１．．．ｃ_Ｐ］^ＴのベクトルであるＥ（β_ｘｉ）＝［１ｄ_ｘｉｄ_ｘｉ ^２．．．ｄ_ｘｉ ^Ｐ］ｃであるように、次元Ｐの多項関数を訓練することができる。この線形化関数を訓練するために、Ｎの測定β_ｘ＝［β_ｘ１．．．β_ｘＮ］^Ｔについての遺伝物質の量のベクトル、およびパワーに生起された測定されたデータのマトリックス０．．．Ｐ：Ｄ＝［［１ｄ_ｘ１ｄ_ｘ１ ^２．．．ｄ_ｘ１ ^Ｐ］^Ｔ［１
ｄ_ｘ２ｄ_ｘ２ ^２．．．ｄ_ｘ２ ^Ｐ］^Ｔ．．．［１ｄ_ｘＮｄ_ｘＮ ^２．．．ｄ_ｘＮ ^Ｐ］^Ｔ］^Ｔを作り出す。次いで、最小二乗フィットｃ＝（Ｄ^ＴＤ）^−１Ｄ^Ｔβ_ｘを用いて係数を見出すことができる。

フィットした多項式のような上位概念的関数に依存するよりはむしろ、特定のアッセイの特徴について特殊化された関数を作り出すことができる。例えば、ＴａｑｍａｎアッセイまたはｑＰＣＲアッセイを考える。いくつかの閾値と交差する点までの時間の関数としての、対立遺伝子ｘおよびいくつかの遺伝子座ｉについてのダイの量を、α_ｘｉがバイアスオフセットであり、γ_ｘｉが指数関数的成長速度であって、β_ｘｉが遺伝物質の量に対応するバイアスオフセット：ｇ_ｘｉ（ｔ）＝α_ｘｉ＋β_ｘｉｅｘｐ（γ_ｘｉｔ）を持つ指数関数曲線として記載することができる。β_ｘｉの項における測定をキャストするためには、曲線の漸近限界ｇ_ｘｉ（−∞）を探すことによってパラメーターα_ｘｉを計算し、次いで、曲線のＬＯＧを取って、ｌｏｇ（ｇ_ｘｉ（ｔ）−α_ｘｉ）＝ｌｏｇ（β_ｘｉ）＋γ_ｘｉｔが得られ、標準的な線形回帰を行うことによってβ_ｘｉおよびγ_ｘｉを見出すことができる。一旦α_ｘｉおよびγ_ｘｉについての値を有すれば、もう１つのアプローチは、閾値ｇ_ｘがその時点で超過する時間ｔ_ｘからβ_ｘｉを計算することである。β_ｘｉ＝（ｇ_ｘ−α_ｘｉ）ｅｘｐ（−γ_ｘｉｔ_ｘ）。これは、特定の対立遺伝子の遺伝子データの真実の量のノイジーな測定であろう。

どのような技術を用いても、線形化測定をβ_ｘｉ＝κ_ｘδ_ｘｉ＋ｎ_ｘｉｇ_ｘｉ（−∞）としてモデル化することができ、ここにκ_ｘは対立遺伝子ｘのコピーの数であり、δ_ｘｉは対立遺伝子ｘおよび遺伝子座ｉについての定数であり、ｎ_ｘｉ〜Ｎ（０，σ_ｘ ^２）であり、ここで、σ_ｘ ^２は経験的に測定することができる。

方法４：各遺伝子座における遺伝子データの増幅のための確率分布の関数の使用
特定のＳＮＰについての物質の量は、その上にそのＳＮＰが存在する細胞中の初期セグメントの数に依存するであろう。しかしながら、増幅およびハイブリダイゼーションプロセスのランダムな性質のため、特定のＳＮＰからの遺伝物質の量は、セグメントの出発数に直接的に比例しないであろう。ｑ_ｓ，Ａ，ｑ_ｓ，Ｇ，ｑ_ｓ，Ｔ，ｑ_ｓ，Ｃが、対立遺伝子を構成する４つの核酸（Ａ，Ｃ，Ｔ，Ｇ）の各々についての特定のＳＮＰｓに対する遺伝物質の増幅された量を表すものとする。これらの量は、増幅で用いる技術に依存して、正確にゼロであり得ることを注記する。また、これらの量は、典型的には、特定のハイブリダイゼーションプローブからのシグナルの強度から測定されることも注記する。この強度測定を量の測定の代わりに用いることができるか、あるいは発明の性質を変化させることなく標準的な技術を用いて量の見積もりに変換することができる。ｑ_ｓを特定のＳＮＰの全ての対立遺伝子から生じた全ての遺伝物質の合計とする：ｑ_ｓ＝ｑ_ｓ，Ａ＋ｑ_ｓ，Ｇ＋ｑ_ｓ，Ｔ＋ｑ_ｓ，Ｃ。ＮをＳＮＰｓを含有する細胞中のセグメントの数とする。Ｎは典型的には２であるが、０、１または３以上であってよい。議論したいずれの高または中程度スループットのゲノタイピング方法についても、遺伝物質の得られた量はｑ_ｓ＝（Ａ＋Ａ_θ，ｓ）Ｎ＋θ_ｓとして表すことができ、ここで、Ａは事前に見積もられたか、または経験的に容易に測定される合計増幅であり、Ａ_θ，ｓはＳＮＰｓについてのＡの見積もりにおける誤差であって、_θ，ｓはそのＳＮＰについての増幅、ハイブリダイゼーションおよび他のプロセスで導入される相加的ノイズである。ノイズの項Ａ_θ，ｓおよび_θ，ｓは、典型的には、ｑ_ｓがＮの信頼性がある測定ではないのに十分に大きい。しかしながら、これらのノイズの項の効果は、染色体上の多数のＳＮＰを測定することによって緩和することができる。Ｓを、染色体２１のような特定の染色体上で測定されるＳＮＰの数とする。以下のように、特定の染色体上の全てのＳＮＰにわたる遺伝物質の平均量を得ることが可能である：

Ａ_θ，ｓおよびθ_ｓは正規分布したランダム変数であり、平均０、および偏差

であると仮定し、ｑ＝ＮＡ＋φをモデル化することができ、ここで、φは正規分布したランダム変数であり、平均０および偏差

である。その結果、もし十分な数のＳＮＰが、

となるように染色体上で測定されるならば、Ｎ＝ｑ／Ａは正確に見積もることができる。

もう１つの実施形態において、増幅は、１つのＳＮＰからのシグナルレベルがｓ＝ａ＋αであり、ここで、（ａ＋α）が図１４左側の図に似た分布を有するモデルに従うと仮定する。０におけるδ関数はおよそ３０％の対立遺伝子ドロップアウトの速度をモデル化し、平均はａであり、もし対立遺伝子ドロップアウトがなければ、増幅は０ないしａ_０の均一な分布を有する。この分布の平均の項において、ａ_０はａ_０＝２．８６ａであることが判明する。さて、図１４右側の図面を用いてαの確率密度関数をモデル化する。ｓ_ｃをｃ遺伝子座から生起するシグナルとし；ｎをセグメントの数とし；α_ｉを、遺伝子座ｉからのシグナルに寄与する図１４に従って分布したランダム変数とし；およびσを全ての｛α_ｉ｝についての標準偏差とする。ｓ_ｃ＝ａｎｃ＋Σ_{ｉ＝１．．ｎｃ}α_ｉ；平均（ｓ_ｃ）＝ａｎｃ；ｓｔｄ（ｓ_ｃ）＝ｓｑｒｔ（ｎｃ）σ。もしσを図１４左側における分布に従って計算すれば、それはσ＝０．９０７ａ^２であることが判明する。ｎ＝ｓ_ｃ／（ａｃ）からのセグメントの数を見出すことができ、＜５−シグマ統計学＞については、ｓｔｄ（ｎ）＜０．１、従って、ｓｔｄ（ｓ_ｃ）／（ａｃ）＝０．１＝＞０．９５ａ．ｓｑｒｔ（ｎｃ）／（ａｃ）＝０．１、従って、ｃ＝０．９５^２ｎ／０．１^２＝１８１を必要とする。

要求における信頼性を見積もるためのもう１つのモデル、およびどのようにして多くの遺伝子座またはＳＮＰを測定して、所与の程度の信頼性を確実としなければならないかは、相加的ノイズ源、すなわち、ｓ＝ａ（１＋α）の代わりに増幅のマルチプライアーとしてのランダム変数を取り込む。ｌｏｇを取り、ｌｏｇ（ｓ）＝ｌｏｇ（ａ）＋ｌｏｇ（１＋α）となる。さて、新しいランダムな変数γ＝ｌｏｇ（１＋α）を作り出し、この変数は、正規分布していると仮定することができる〜Ｎ（０，σ）。このモデルにおいて、増幅は、σに依存して非常に小さいないし非常に大きいを範囲とすることができるが、決して負ではない。従って、α＝ｅ^γ−１であり；およびｓ_ｃ＝Σ_{ｉ＝１．．．ｃｎ}ａ（１＋α_ｉ）である。表記方法については、平均（ｓ_ｃ）および予測値Ｅ（ｓ_ｃ）を相互交換的に用いる。

Ｅ（α）を見出すためには、確率密度関数（ｐｄｆ）が、可能であるαについて見出されなければならない。というのは、αは公知のガウスｐｄｆを有するγの関数だからである。ｐ_α（α）＝ｐ_γ（γ）（ｄγ／ｄα）である。従って、

である。これは、σ＝１についての図１５で示された形態を有する。さて、Ｅ（α）は、このｐｄｆにわたって、多数の異なるσについて数値的に行うことができる。

を積分することによって見出すことができる。これは、Ｅ（ｓ_ｃ）または平均（ｓ_ｃ）をσの関数として与える。さて、このｐｄｆを用いて、ｖａｒ（ｓ_ｃ）を見出すこともできる：

ここで、これは多数の異なるσについてｐ_α（α）を用いて数値的に解いて、σの関数としてｖａｒ（ｓ_ｃ）を得ることもできる。次いで、公知の数の遺伝子座ｃおよび公知の数のセグメントｎを持つ試料から一連の測定を取ることができ、このデータからｓｔｄ（ｓ_ｃ）／Ｅ（ｓ_ｃ）を見出すことができる。それにより、σについての値を計算することが可能となる。ｎを見積もるためには、Ｅ（ｓ_ｃ）＝ｎａｃ（１＋Ｅ（α））、従って、

を、

となるように測定することができる。０ないし平均の十分に多数の独立したランダムな変数を合計すると、分布はガウス形態に近づき、かくして、ｓ_ｃ（および

）は正規分布しているとして処理することができ、前記したように、５−σ統計学：

を用いて、２ｎｏｒｍｃｄｆ（５，０，１）＝２．７ｅ−７の誤差確率を有するようにすることができる。これより、遺伝子座ｃの数について解くことができる。

雌雄鑑別
システムの１つの実施形態において、遺伝子データを用いて、標的個体の性別を決定することができる。本明細書中に開示した該方法を用いて、親からのいずれの染色体のいずれのセグメントが標的の遺伝物質に貢献したかを決定した後、性染色体のいずれが父親から遺伝したかを見るためにチェックすることによって標的の性別を決定することができる：Ｘは女性を示し、およびＹは男性を示す。この方法をどのようにして用いて、標的の性別を決定するかは当業者に明らかなはずである。

仮説の確証
システムのいくつかの実施形態において、１つの決定は、最高の可能な信頼性でもって正しい遺伝子状態の予測を行うためには、各可能な状態について仮説を立てる必要があることである。しかしながら、遺伝子状態の可能な数が指数関数的に大きくなり、計算時間が制限されるにつれ、各仮説を検定するのは合理的でないであろう。これらの場合において、別のアプローチは、仮説確証の概念を用いることである。これは、ある値、値のセット、もしある仮説、または仮説のクラスが真実であるならば測定されたデータにおいて観察されることが期待される特性またはパターンに対する制限を見積もることを含む。次いで、測定された値を検定して、それらが予測された制限に入るか、および／またはある予測された特性またはパターンを検定することができるか、および予測が適合しないかを見ることができ、次いで、アルゴリズムはさらなる調査のための測定に警告を与えることができる。

例えば、染色体の１つのアームの端部が標的ＤＮＡにおいて破壊されている場合、最もありそうな仮説は（例えば、「異数体」とは反対に）「正常である」と計算することができる。これは、遺伝物質の真の状態に対応し、すなわち、染色体の１つの端部が破壊された特定の仮説は、その状態の尤度が非常に低いので検定されていないからである。もし確証の概念を用いれば、アルゴリズムは、多数の値、染色体の破壊されたセクションに存在する対立遺伝子に対応するものは、測定の期待された限界の外にあることを注記するであろう。フラグが生起され、この場合についてのさらなる調査を促し、遺伝物質の真の状態が発見される尤度を増大させる。

どのようにして、開示された方法を修飾して、確証技術を含ませるかは当業者に明らかなはずである。開示された方法を用いて検出するのは非常に困難であると予測される１つの異常は、バランスしたトランスロケーションであることを注記する。

汚染されたＤＮＡでの方法の適用
システムの１つの実施形態において、外来性ＤＮＡで明確にまたは可能性として汚染された標的ＤＮＡからの遺伝子データもまた、開示された方法を用いて正常化することができる。先に概説した概念、仮説確証のそれを用いて、予測される限界の外になる遺伝子試料を同定することができ；汚染された試料の場合には、この確証は警告を生起させ、試料を汚染したものとして同定することができると予測される。

標的ＤＮＡの大きなセグメントは親遺伝子データから知られておるので、かつ汚染の程度は十分に低く、十分なＳＮＰが測定されるものとすると、外来性遺伝物質による誤ったデータを同定しかねない。本明細書中に開示された方法は、依然として、より低い信頼性のレベルに拘わらず、標的ゲノムの再構築を可能とするはずである。汚染のレベルが十分に低いものとすれば、最もありそうであると計算される仮説は、依然として、標的ＤＮＡ試料中の遺伝物質の真の状態に対応すると予測される。

どのようにして、外来性ＤＮＡにより誤ったシグナルで汚染された遺伝子データを清浄化する目的でこれらの方法を最適かするかは当業者に明らかなはずである。

実施例
システムの１つの実施形態において、前記した方法は、関連ＳＮＰのリストにおける各ＳＮＰの最もありそうな同一性、ならびに各ＳＮＰ要求についての信頼性レベルを計算するアルゴリズムのセットを用いて実行することができる。本明細書中に記載するのは、この特許に開示した方法を実行するための１つの可能な方法である。図１６および図１７は、開示された方法のこの実施を頓挫、入力の要件、および出力のフォーマットを実質的に表す。

図１６は入力データ（１６０１）およびそのフォーマットおよび要件、ならびに出力データ（１６０５）およびそのフォーマットに焦点を当てる。アルゴリズムへの入力は、ユーザーによる入力を含めた測定されたデータ（１６０２）、および結果的には新しく収集されたデータによって更新されるデータベースに保存された現存データ（１６０３）よりなる。測定されたデータ（ＭＤ，１６０２）は胚、および父性および母性対立遺伝子についての所望のＳＮＰについて測定された遺伝子データ、ならびに対立遺伝子の各々が知られている精度または信頼性よりなる。現存データ（１６０３）は集団頻度データ（ＦＤ）、測定バイアスデータ（ＢＤ）および交差データ（ＣＤ）よりなる。

集団頻度データ（ＦＤ）は利用可能なＳＮＰの各々について（値Ａ、Ｃ、Ｔ、Ｇの各々についての）対立遺伝子頻度を含有する。これらのデータは従前に知られているか、または測定することができ、本書類中の他の箇所に記載されたように新しく収集されたデータで更新することができる。

測定バイアスデータ（ＢＤ）は、ある種の値に向けての測定プロセスのバイアスを捕獲する。例えば、対立遺伝子の真の値がＸ＝Ａであって、正しい測定の確率はｐ_ｘであると仮定し、測定された値ｘの分布は：

であり、ここで、ｐ_Ｘ＋ｐ_Ｃ＋ｐ_Ｔ＋ｐ_Ｇ＝１である。もし値のいずれかに向けての測定のバイアスがなければ、ｐ_Ｃ＝ｐ_Ｔ＝ｐ_Ｇ＝（１−ｐ_Ｘ）／３である。この情報は、測定プロセスのメカニズムおよび関連機器についての経験的および理論的知識から区別することができる。

交差データ（ＣＤ）は、ＨＡＰＭＡＰデータから収集された、スニップの対の間の遺伝子距離および交差確率のデータベースよりなる。

一緒にすると、（ＭＤ）、（ＦＤ）、（ＢＤ）、（ＣＤ）は、開示された方法（「親サポート」，１６０４という）アルゴリズムに対する必要な入力をなす。次いで、このアルゴリズム（１６０４）を入力データとして操作して、出力データ（１６０５）を生じさせ、これは測定値を仮定した標的の遺伝子データのもっともありそうな「真の」値、ならびに親対立遺伝子に関する各ＳＮＰの最もありそうな起源を記載する。

図１７は（「親サポート」という）アルゴリズムそれ自体の構造、およびどのようにしてこれらの入力データの各々がアルゴリズムによって利用されるかに焦点を当てる。逆に作業し、最もありそうな仮説を見出すためには、全ての可能な仮説Ｈについての、測定を仮定した仮説の確率Ｐ（Ｈ｜Ｍ）１７０７を計算する必要がある。
先に記載したように：

である。
Ｐ（Ｈ｜Ｍ）（１７１０）を見出すためには、全ての仮説Ｈについて、Ｐ（Ｍ｜Ｈ）（１７０７）およびＰ（Ｈ）（１７０８）を見出すことがまず必要である。これは、先に示した方程式によるＰ（Ｍ），１７０９の計算を可能とする。仮説の確率Ｐ（Ｈ）（１７０８）は、先に説明したようにどれくらい多くの交差が推定されるか、およびこれらの交差の各々の尤度（ＣＤ，１７０４）に依存する。

Ｐ（Ｍ｜Ｈ）は、先に説明したように、以下の方程式

を用いて計算することができる。

Ｐ（Ｔ），１７０６は父性および母性対立遺伝子についての特定の値ｔの頻度であり、集団頻度データ（ＦＤ，１７０３）に由来する。Ｐ（Ｍ｜Ｈ＆ｔ），１７０５は、特定の「真の」値ｔを仮定し、胚、父親および母親の対立遺伝子を正しく測定する確率である。ユーザーによってエンターされた測定データおよび精度（ＭＤ，１７０１）、および測定バイアスデータベース（ＢＤ，１７０２）は、Ｐ（Ｍ｜Ｈ＆ｔ），１７０５を計算するのに必要な出力である。

該方法のより詳細な記載を以下に掲げる。ｉｄＳ_１，・・・，Ｓ_ｋで同定される、ｋのＳＮＰについての、ＳＮＰＲ＝｛ｒ_１，．．．，ｒ_ｋ｝、（ｋのＳＮＰのセット）、および親および胚の対応する測定された同一性Ｍ＝（ｅ_１，ｅ_２，ｐ_１，ｐ_２，ｍ_１，ｍ_２）で開始し、ここに：
ｅ_１＝（ｅ_１１，ｅ_１２，．．．，ｅ_１ｋ）は、全てのＳＮＰについての、胚の染色体の１つでの測定であり（それらは、全てが、同一親染色体に由来する必要はない）、
ｅ_２＝（ｅ_２１，ｅ_２２，．．．，ｅ_２ｋ）は胚の他の染色体での測定であり、
ｐ_１＝（ｐ_１１，ｐ_１２，．．．，ｐ_１ｋ）は、（全て同一染色体に由来する）父親の第一の染色体での測定であり、
ｐ_２＝（ｐ_２１，ｐ_２２，．．．，ｐ_２ｋ）は、（全て同一染色体に由来する）父親の第二の染色体での測定であり、
ｍ_１＝（ｍ_１１，ｍ_１２，．．．，ｍ_１ｋ）は、（全て同一染色体に由来する）母親の第一の染色体での測定であり、
ｍ_２＝（ｍ_２１，ｍ_２２，．．．，ｍ_２ｋ）は、（全て同一染色体に由来する）母親の第二の染色体での測定である。

また、Ｍ＝（Ｍ_１，．．．，Ｍ_ｋ）を書くことができ、ここで、Ｍ_１＝（ｅ_１ｉ，ｅ_２ｉ，ｐ_１ｉ，ｐ_２ｉ）である。

該方法の目標は、「真の」胚値Ｔ＝（Ｅ１，Ｅ２）、すなわち、測定Ｍを仮定した最もありそうな場合を決定することであり、ここに：
Ｅ_１＝（Ｅ_１１，Ｅ_１２，．．．，Ｅ_１ｋ）は、父性染色体に対応する胚の第一の染色体での測定、Ｅ_１ｉ∈｛ｐ_１ｉ，ｐ_２ｉ｝であり、
Ｅ_２＝（Ｅ_２１，Ｅ_２２，．．．，Ｅ_２ｋ）は、母性値に対応する胚の第二の染色体での測定、Ｅ_２ｉ∈｛ｍ_１ｉ，ｍ_２ｉ｝である。

また、Ｔ＝｛Ｔ_１，．．．，Ｔ_ｋ｝を書くことができ、ここで、Ｔ_ｉ＝（Ｅ_１ｉ，Ｅ_２ｉ）である。

効果的には、親染色体値（ｐ_１，ｐ_２，ｍ_１，ｍ_２）は、（Ｅ_１，Ｅ_２）の測定された値をチェックし、確証し、および修正するためのサポートとして用いる、よって、用語「親サポートアルゴリズム」。

この目標を達成するためには、胚値の起源についての全ての可能な仮説を開発し、測定Ｍを仮定して最もありそうなものを選択する。仮説空間はＳ_Ｈ＝｛Ｈ^１，．．．，Ｈ^ｑ｝＝｛全ての仮説のセット｝であり、ここで、各仮説はフォーマットＨ^ｊ＝（Ｈ^ｊ _１，．．．，Ｈ^ｊ _ｋ）のものであり、ここで、Ｈ^ｊ _１は、ｐ_ｉ ^＊∈｛ｐ_１ｉ，ｐ_２ｉ｝およびｍ_ｉ ^＊∈｛ｍ_１ｉ，ｍ_２ｉ｝であるフォーマットＨ^ｊ _１＝（ｐ_ｉ ^＊，ｍ_１ ^＊）の、ＳＮＰｉについての「ミニ」仮説である。４つの異なる「ミニ」仮説Ｈ^ｊ _１、特に：
Ｈ^ｊ _ｉ１：（ｅ_１ｉ，ｅ_２ｉ）＝｛（ｐ_１ｉ，ｍ_１ｉ）または（ｍ_１ｉ，ｐ_１ｉ）｝
Ｈ^ｊ _ｉ２：（ｅ_１ｉ，ｅ_２ｉ）＝｛（ｐ_１ｉ，ｍ_２ｉ）または（ｍ_２ｉ，ｐ_１ｉ）｝
Ｈ^ｊ _ｉ３：（ｅ_１ｉ，ｅ_２ｉ）＝｛（ｐ_２ｉ，ｍ_１ｉ）または（ｍ_１ｉ，ｐ_２ｉ）｝
Ｈ^ｊ _ｉ４：（ｅ_１ｉ，ｅ_２ｉ）＝｛（ｐ_２ｉ，ｍ_２ｉ）または（ｍ_２ｉ，ｐ_２ｉ）｝
がある。

理論において、Ｓ^Ｈはｑ＝４^ｋの異なるメンバーを有して、ピックアップすることができるが、後に、この空間は父性および母性染色体の最大数の交差で限定されるであろう。

最もありそうな仮説Ｈ^＊は：

であると選択される。特定のＨについては：

である。
各仮説についてのそのような由来：
（１）Ｐ（Ｍ／Ｈ）は、特定の仮説Ｈを仮定した測定Ｍの確率である。
（２）Ｐ（Ｈ）は特定の仮説Ｈの確率である。
（３）Ｐ（Ｍ）は測定Ｍの確率である。
全てのＨについてＰ（Ｈ｜Ｍ）を導いた後、最大の確率を持つものを選択する。

Ｐ（Ｍ｜Ｈ）の誘導
各ＳＮＰについての測定は、全てのｋのＳＮＰでの、Ｍ＝（Ｍ_１，．．．，Ｍ_ｋ）および特定の仮説Ｈ＝（Ｈ_１，．．．，Ｈ_ｋ）について独立しているので：Ｐ（Ｍ｜Ｈ）＝Ｐ（Ｍ_１｜Ｈ_１）^＊．．．^＊Ｐ（Ｍ_ｋ｜Ｈ_ｋ）である。特定のＳＮＰｒでは、Ｐ（Ｍ_ｒ｜Ｈ_ｒ）を誘導する。Ω＝｛Ａ，Ｃ，Ｔ，Ｇ｝Ｘ｛Ａ，Ｃ，Ｔ，Ｇ｝Ｘ＝｛Ａ，Ｃ，Ｔ，Ｇ｝Ｘ｛Ａ，Ｃ，Ｔ，Ｇ｝については、ベイズ式による「真の親値（Ｐ_１ｒ，Ｐ_２ｒ，Ｍ_１ｒ，Ｍ_２ｒ）についての全ての可能な空間は：

である。

Ｐ（Ｍ_ｒ｜Ｈ_ｒ＆（Ｐ_１ｒ，Ｐ_２ｒ，Ｍ_１ｒ，Ｍ_２ｒ）＝ｔ）の誘導
Ｍ_ｒ＝（ｅ_１ｒ，ｅ_２ｒ，ｐ_１ｒ，ｐ_２ｒ，ｍ_１ｅ，ｍ_２ｒ）はこのＳＮＰでの所与の測定である。

Ｔ＝（Ｅ_１ｒ，Ｅ_２ｒ，Ｐ_１ｒ，Ｐ_２ｒ，Ｍ_１ｒ，Ｍ_２ｒ）は、仮説によるＴから固定されたｔ＝（Ｐ_１ｒ，Ｐ_２ｒ，Ｍ_１ｒ，Ｍ_２ｒ）および（Ｅ_１ｒ，Ｅ_２ｒ）での推定された「真の」値である。（Ｅ_１ｒはＰ_１ｒ、Ｐ_２ｒの一方であり、Ｅ_２ｒはＭ_１ｒ、Ｍ_２ｒの一方である）。
Ｐ（Ｍ_ｒ＝（ｅ_１ｒ，ｅ_２ｒ，ｐ_１ｒ，ｐ_２ｒ，ｍ_１ｒ，ｍ_２ｒ）／Ｔ＝（Ｅ_１ｒ，Ｅ_２ｒ，Ｐ_１ｒ，Ｐ_２ｒ，Ｍ_１ｒ，Ｍ_２ｒ））＝
Ｐ（ｅ_１ｒ／Ｅ_１ｒ）^＊Ｐ（ｅ_２ｒ／Ｅ_２ｒ）^＊Ｐ（ｐ_１ｒ／Ｐ_１ｒ）^＊Ｐ（ｐ_２ｒ／Ｐ_２ｒ）^＊Ｐ（ｍ_１ｒ／Ｍ_１ｒ）^＊Ｐ（ｍ_２ｒ／Ｍ_２ｒ）
ｐ_ｅｉｒ＝ｐ（ＳＮＰｒについての胚値ｉを正確に測定）
ｐ_ｐｒｉ＝Ｐ（ＳＮＰｒについての父親値ｉを正確に測定）
ｐ_ｍｒｉ＝Ｐ（ＳＮＰｒについての母親値ｉを正確に測定）とすれば、

であり、ここで、測定バイアスがなければ、ｐ（ｅ_１ｒ，Ｅ_１ｒ，ｒ）＝１／３であり、そうでなければ、それはＨａｐｍａｐプロジェクトからのデータのような実験データから決定することができる。

Ｐ（（Ｐ_１ｒ，Ｐ_２ｒ，Ｍ_１ｒ，Ｍ_２ｒ）＝ｔ）の誘導
ｔ＝（ｔ_１，ｔ_２，ｔ_３，ｔ_４）については：
Ｐ（（Ｐ_１ｒ，Ｐ_２ｒ，Ｍ_１ｒ，Ｍ_２ｒ）＝（ｔ_１，ｔ_２，ｔ_３，ｔ_４））＝Ｐ（Ｐ_１ｒ＝ｔ_１）^＊Ｐ（Ｐ_２ｒ＝ｔ_２）^＊Ｐ（Ｍ_１ｒ＝ｔ_３）^＊Ｐ（Ｍ_２ｒ＝ｔ_４）である。（Ｐ_１，Ｐ_２，Ｍ_１，Ｍ_２）のｎの試料があると仮定し、全ての父性および母性値は独立しており、｛Ａ，Ｃ，Ｔ，Ｇ｝におけるｔ_ｉについてはｔ＝（ｔ_１，ｔ_２，ｔ_３，ｔ_４）であると推定される。

ｔ_１＝Ａについて特定のｐ_１Ａ＝Ｐ（Ｐ_１＝ｔ_１）を得るためには、いずれものデータの不存在下において、この確率は０および１の間の何かであり得ると推定され、従って、それはＵ（０，１）の値が割り当てられる。データの獲得に関しては、これは新しい値で更新され、このパラメーターの分布はベータ分布となる。Ｐ_１のｎの観察のうち、ｈの値Ｐ１＝Ａ、およびｗ＝（事象Ｐ_１＝Ａ）およびＤ＝（所与のデータ）がある。先のセクションにおいて、ｐ（ｗ｜データ）についてα＝ｈ＋１、β＝ｎ−ｈ＋１でのβ分布Ｂ（α，β）の形式が記載されている（方程式（８）参照）。予測された値およびＸ〜Ｂ（α，β）分布の偏差は：

である。従って、パラメーターの事後平均値はｐ_１ｒＡ＝Ｐ（Ｐ_１ｒ＝Ａ｜Ｄａｔａ）＝（ｈ＋１）／（ｎ＋２）である。同様に、ｐ_１ｒＢ＝（＃（ｐ_１ｒ＝Ｂ）＋１）／（ｎ＋２），．．．ｍ_２ｒＧ＝（＃（ｍ_２ｒ＝Ｇ）＋１）／（ｎ＋２）などである。かくして、全ての値ｐ_１ｒＡ，．．．，ｍ_２ｒＧが導かれ：

である。

Ｐ（Ｈ）の誘導
Ｈ_ｉ＝（ｐ_ｉ ^＊，ｍ_１ ^＊）での仮説Ｈ＝（Ｈ_１，．．．，Ｈ_ｋ）の確率は、染色体交差の量に依存する。例えば、
Ｐ（交差）＝０であれば、もし｛（ｐ１１，ｐ２１，．．．ｐｓ１），（ｐ１２，ｐ２２，．．．，ｐｓ２）におけるｐ^＊、｛（ｍ１１，ｍ２１，．．．，ｍｓ１），（ｍ１２，ｍ２２，．．．，ｍｓ２）｝におけるｍ^＊であれば、Ｐ（Ｈ＝１／４であって、Ｈ＝（ｐ^＊，ｍ^＊）であり、そうでなければ０であり
Ｐ（交差）＞０であれば、各ＳＮＰの間の交差の確率を一体化させるのは重要である。

仮説Ｈは、各ＳＮＰについての父性および母性染色体についての仮説、独立している、ｐ_ｉ ^＊∈｛ｐ_１ｉ，ｐ_２ｉ｝およびｍ_ｉ ^＊∈｛ｍ_１ｉ，ｍ_２ｉ｝、すなわち、Ｈ＝（Ｈ_ｐ ^＊，Ｈ_ｍ）よりなり、ここで、Ｈ_ｐ＝（ｐ_１ ^＊，．．．ｐ_ｋ ^＊）およびＨ_ｍ＝（ｍ_１ ^＊，．．．ｍ_ｋ ^＊）である。
Ｐ（Ｈ＝Ｐ（Ｈ_ｐ）^＊Ｐ（Ｈ_ｍ）。ＳＮＰはロケーションを増大させることによって秩序化され、

であると仮定し、ここで、ＰＣ_ｉ＝Ｐ（交差（ｒ_ｉ−１，ｒ_ｉ））、すなわち、ＳＮＰｒ_ｉ−１，ｒ_ｉの間のどれかの交差の確率であり、もしｐ_ｉ ^＊，ｐ_ｉ−１ ^＊が共にｐ_１またはｐ_２に由来するならば、Ｉ_ｉ＝１であり、そうでなければそれは０である。

Ｐ（交差（ａ，ｂ））の誘導
（塩基で与えた）塩基ロケーション１_ａ、１_ｂにおけるＳＮＰａ，ｂを仮定すれば、交差の確率は：
Ｐ（ｌ_ａ，ｌ_ｂ）＝０．５（１−ｅｘｐ（−２Ｇ（ｌ_ａ，ｌ_ｂ）））
として近似され、ここで、Ｇ（１_ａ，１_ｂ）＝ロケーション１_ａ，１_ｂの間のモルガンで表した遺伝子距離。Ｇについての正確な閉じた形態の関数はないが、それはＧ（ｌ_ａ，ｌ_ｂ）＝｜ｌ_ａ−ｌ_ｂ｜^＊１ｅ^−８として緩く見積もられる。良好な近似は、全てのロケーションにわたってのｉスパンニングについての、塩基ロケーションｓ_ｉおよび距離Ｇ（ｓ_ｉ，ｓ_ｉ＋１）のＨａｐＭａｐデータベースを利用することによって用いることができる。特に、

であり、従って、それは交差確率で用いることができる。

Ｐ（Ｍ）の誘導
一旦Ｐ（Ｍ｜Ｈ）が知られていれば、Ｐ（Ｈ）はＳ_Ｈにおける全ての異なるＨについて見出すことができる。

。

最大確率の仮説を導くためのより便宜な方法
コンピュータ時間の制限、および前記した方法の複雑性の指数関数スケーリングを仮定すれば、ＳＮＰの数が増加するにつれ、ある場合には、より便宜な方法を用いて、最大確率の仮説を決定し、かくして、関連するＳＮＰ要求をなすのが必要であろう。これを達成するためのより迅速な方法は以下の通りであり：
以前より：
Ｐ（Ｈ｜Ｍ）＝Ｐ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）／Ｐ（Ｍ）、ａｒｇｍａｘ_ＨＰ（Ｈ｜Ｍ）＝ａｒｇｍａｘ_ＨおよびＰ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）＝ａｒｇｍａｘ_ＨＦ（Ｍ，Ｈ）であり、目的はＦ（Ｍ，Ｈ）を最大化するＨを見出すことである。

Ｍ_{（ｓ，ｋ）}＝スニップｓないしｋについての測定、Ｈ_{（ｓ，ｋ）}＝スニップｓないしｋについての仮説、および短いものについて、Ｍ_{（ｋ，ｋ）}＝Ｍ_ｋを仮定すれば、Ｈ_{（ｋ、ｋ）}＝Ｈ_ｋ＝スニップｋについての測定および仮説である。先に示したように：

であり、また、

であり、ここで、

およびＰＣ（Ｈ_ｉ−１，Ｈ_ｉ）＝Ｈ_ｉ−１，Ｈ_ｉの間の交差の確率。

従って、最後には、ｎのスニップについては：
Ｆ（Ｍ，Ｈ）＝Ｐ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）＝Ｐ（Ｍ_{（１，ｎ）}，Ｈ_{（１，ｎ）}）^＊Ｐ（Ｈ_{（１，ｎ）}）
＝Ｐ（Ｍ_{（１，ｎ−１）}，Ｈ_{（１，ｎ−１）}）^＊Ｐ（Ｈ_{（１，ｎ−１）}）^＊Ｐ（Ｍ_ｎ｜Ｈ_ｎ）^＊ＰＦ（Ｈ_ｎ−１，Ｈ_ｎ）
であり、従って：Ｆ（Ｍ，Ｈ）＝Ｆ（Ｍ_{（１，ｎ）}，Ｈ_{（１，ｎ）}））＝Ｆ（Ｍ_{（１，ｎ−１）}，Ｈ_{（１，ｎ−１）}）^＊Ｐ（Ｍ_ｎ｜Ｈ_ｎ）^＊ＰＦ（Ｈ_ｎ−１，Ｈ_ｎ）である。かくして、ｎのスニップについての計算をｎ−１スニップについての計算に代えることが可能である。
ｎについてのスニップのｎについてのＨ＝（Ｈ_１，．．．Ｈ_ｎ）仮説では：

であり、ここに

である。まとめると：

であり、ここで、Ｇは帰納的に見出すことができ：ｉ＝２，．．ｎについては、

である。

最良の仮説は以下のアルゴリズムに従って見出すことができる：
工程１：Ｉ＝１では、Ｈ_１についての４つの仮説を作り出し、これらの各々についてのＧ（Ｍ_１｜Ｈ_１）を作り、Ｇ_１、Ｇ_２、Ｇ_３、Ｇ_４を覚える。
工程２：Ｉ＝２では：Ｈ_２についての４つの仮説を作り出し、前記式を用いてＧ（Ｍ_{（１，２）}｜Ｈ_２）を作成し：

これらの新しい４つのＧ_ｎを覚える。
ｋ＝ｎまで、ｋ_ｉ＝_ｋｉ−１＋１にてＩ＝ｋにつき工程２を反復し：Ｈ_ｋについて４つの仮説を作り出し、Ｇ（Ｍ_{（１，ｋ）}｜Ｈ_ｋ）

を作成し、これらの４つのＧ_ｎを覚える。

いずれかの時点において覚えるべきただ４つの仮説、および一定数の操作があるので、アルゴリズムは線形である。

Ｐ（Ｍ）：Ｐ（Ｈ｜Ｍ）＝Ｐ（Ｍ｜Ｈ）^＊Ｐ（Ｈ）／Ｐ（Ｍ）＝Ｆ（Ｍ，Ｈ）／Ｐ（Ｍ））を見出すために、前記したように：

であり、ここで、

である。
Ｗ（Ｍ，Ｈ）は帰納を用いることによって解くことができる：

従って：

である。

アルゴリズムは前記の場合に同様であり、ここで、ｉ＝２：ｎであって、各工程において、Ｗ（ｉ）の新しいセットを、最終工程が最適化されたＷを生じるまで作り出される。

ｄ_１、ｄ_２、ｈ、ｐｄ_１、ｐｄ_２、ｐｈからのｐ_１、ｐ_２、ｐｐ_１、ｐｐ_２値の誘導
説明の目的で、このセクションは父親のジプロイドおよびハプロイドデータに焦点を合わせるが、同一アルゴリズムを母親に適用することができることに注意するのは重要である。
−ｄ_１，ｄ_２−ジプロイド測定での対立遺伝子要求
−ｈ−ハプロイド測定についての対立遺伝子要求
−ｐ_ｄ１，ｐ_ｄ２−ジプロイド測定の各々についての正しい対立遺伝子要求の確率
−ｐ_ｈ−ハプロイド測定についての正しい対立遺伝子要求の確率
これらのデータは開示されたアルゴリズムについての以下の入力パラメーターにマッピングすべきである：
−ｐ_１−ハプロイド細胞および１つのジプロイド細胞に対応する対立遺伝子
−ｐ_２−残りのジプロイド細胞に対応する対立遺伝子
−ｐ_ｐ１，ｐ_ｐ２−正しい対立遺伝子要求の確率
ｈはｄ_１に対応するので、ｐ_１の値を見出すためには、ｈおよびｄ_１を用いる必要がある。次いで、ｐ_２は自動的にｄ_２に対応する。同様に、もしｈがｄ_２に対応すれば、ｐ_１の値を見出すためには、ｈおよびｄ_２を用いる必要があり、次いで、ｐ_２はｄ_１に対応するであろう。

用語「対応する」を用いる。というのは、それは、異なる測定結果および集団頻度に依存して、「等しい」または「より高い確率で由来する」を意味することができるからである。

アルゴリズムの目標は、生の測定ｈ、ｄ_１、ｄ_２、ｐ_ｈ、ｐ_ｄ１、ｐ_ｄ２および集団頻度の結果を超えて隠された「真の」対立遺伝子値の確率を計算することである。

基本的なアルゴリズム工程は以下の通りである：
（ｉ）ｈ、ｄ_１、ｄ_２、ｐ_ｈ、ｐ_ｄ１、ｐ_ｄ２値、および集団頻度データに基づいてｈがｄ_１またはｄ_２に対応するかを決定する、
（ｉｉ）対立遺伝子要求をｐ_１およびｐ_２に帰属させ；工程（１）に基づいて確率ｐ_ｐ１およびｐ_ｐ２を計算する。

ｈのｄ_１またはｄ_２への帰属
２つの仮説：
Ｈ_１：ｈはｄ_１に対応する（ｈはｄ_１に由来する）
Ｈ_２：ｈはｄ_２に対応する（ｈはｄ_２に由来する）
を確率する。仕事は、測定Ｍ：を仮定してこれらの２つの仮説の確率を計算することである：
Ｐ（Ｈ_１／Ｍ（ｈ，ｄ_１，ｄ_２，ｐ_ｈ，ｐ_ｄ１，ｐ_ｄ２））およびＰ（Ｈ_２／Ｍ（ｈ，ｄ_１，ｄ_２，ｐ_ｈ，ｐ_ｄ１，ｐ_ｄ２））。以下、（テキストを単純化するために、これらをＰ（Ｈ_１／Ｍ）およびＰ（Ｈ_２／Ｍ））という）。

これらの確率を計算するために、ベイズ則：

を適用し、ここで、Ｐ（Ｍ）＝Ｐ（Ｍ／Ｈ_１）^＊Ｐ（Ｈ_１）＋Ｐ（Ｍ／Ｈ_２）^＊Ｐ（Ｈ_２）である。仮説Ｈ_１およびＨ_２は同等にありそうなので、Ｐ（Ｈ_１）＝Ｐ（Ｈ_２）＝０．５であり、従って：

である。

Ｐ（Ｍ／Ｈ_１）およびＰ（Ｍ／Ｈ_２）を計算するためには、ジプロイド結果ｄ_１およびｄ_２の全ての可能な値のセット、Ω＝｛ＡＡ，ＡＣ，．．．，ＧＧ｝、すなわち、Ａ、Ｃ、Ｔ、Ｇのいずれかの組合せ、いわゆる基礎となる状態を考慮しなければならない。仮説を基礎となる状態に適用する場合（すなわち、仮説Ｈ_１またはＨ_２に基づいてｈの推定値を値ｄ_１およびｄ_２に伴わせる）、ｈ、ｂ_１およびｄ_２についての「真の値」Ｈ、Ｄ_１およびＤ_２の全ての可能な組合せ（状態Ｓ＝｛ｓ_１，ｓ_２，．．．，ｓ１６｝）の以下の表を、各々、作成することができる。

。

「真の値」Ｈ、Ｄ_１およびＤ_２は知られておらず、かつ生の測定結果ｈ、ｄ_１、ｄ_２、ｐ_ｈ、ｐ_ｄ１、ｐ_ｄ２のみが知られているので、全セットΩにわたるＰ（Ｍ／Ｈ_１）およびＰ（Ｍ／Ｈ_２）の計算は以下のように行わなければならない：

もし、計算の目的で、ｄ_１およびｄ_２、ならびにｐ_ｄ１およびｐ_ｄ２が独立した変数であると仮定すれば：

を示すことができる。｛ｈ，ｄ_１，ｄ_２｝におけるｈについての、前記した最後の合計：Ｐ（Ｍ（ｘ）／Ｘ）下で３項を計算する。

（「真の対立遺伝子値」をヒットさせる）正しい対立遺伝子要求の確率の計算は、対立遺伝子Ｘの真の値を仮定した結果ｘの測定に基づく。もし測定された値ｘおよび真の値Ｘが等しいならば、確率はｐ_ｘである（正しい測定の確率）。もしｘおよびＸが異なるならば、その確率は（１−ｐ_ｘ）／３である。例えば、Ｘ＝Ｃ、および測定された値がｘ＝Ａである条件下で「真の値」Ｃが見出される確率を計算する。Ａを得る確率はｐ_ｘである。Ｃ、ＴまたＧを得る確率は（１−ｐ_ｘ）である。従って、Ｃがヒットする確率は（１−ｐ_ｘ）／３である。というのは、Ｃ、ＴおよびＧは等しくありそうと仮定することができるからである。

もしインジケーター変数Ｉ_ｘが計算に含まれ、ここで、もしｘ＝ＸであればＩ_ｘ＝１であり、もしｘ≠ＸならばＩ_ｘ＝０であれば、確率は以下の通りである：
Ｐ（Ｍ（ｘ）／Ｘ）＝Ｉ_{｛ｘ＝Ｘ｝} ^＊ｐ_ｘ＋（１−Ｉ_{｛ｘ＝Ｘ｝}）^＊（１／３）^＊（１−ｐ_ｘ）、｛ｈ，ｄ_１，ｄ_２｝におけるｘ。
さて、Ｐ（Ｍ｜Ｈ_１）における最後の２つの項を考える。Ｐ（Ｄ_１）およびＰ（ｄ_２）は、事前の知識から知ることができる、対立遺伝子Ａ、Ｃ、ＴおよびＧの集団頻度である。

特定の測定Ｍ（ｈ＝Ａ，ｄ_１＝Ｇ，ｄ_２＝Ｃ）を仮定して、特定の状態ｓ_２について先に示した表現を考慮する：

同様に、残りの１５の状態、およびセットΩにわたる合計について、特定の測定（この場合、Ｍ（ｈ＝Ａ，ｄ_１＝Ｇ，ｄ_２＝Ｃ））を仮定して（１）を計算する。

さて、Ｐ（Ｍ／Ｈ_１）およびＰ（Ｍ／Ｈ_２）は計算された。最後に、前記したようにＰ（Ｈ_１／Ｍ）およびＰ（Ｈ_１／Ｍ）を計算する：

。

対立遺伝子要求の帰属および対応する確率
さて、４つの異なる仮説：
Ｈ_ｐ２Ａ：ｐ_２の「真の値」はＡである、
Ｈ_ｐ２Ｃ：ｐ_２の「真の値」はＣである、
Ｈ_ｐ２Ｔ：ｐ_２の「真の値」はＴである、
Ｈ_ｐ２Ｇ：ｐ_２の「真の値」はＧである、
を確立し、Ｐ（Ｈ_ｐ２Ａ／Ｍ）、Ｐ（Ｈ_ｐ２Ｃ／Ｍ）、Ｐ（Ｈ_ｐ２Ｔ／Ｍ）、Ｐ（Ｈ_ｐ２Ｇ／Ｍ）を計算する。最高の値は、特定の対立遺伝子の要求および対応確率を決定する。

ｐ_２の起源は未知である（それは、Ｐ（Ｈ_２／Ｍ）の確率でもってｄ_１から、および確率Ｐ（Ｈ_１／Ｍ）をもってｄ_２から由来する）ので、ｐ_２対立遺伝子がｄ_１またはｄ_２に由来する双方の場合を考慮しなければならない。仮説Ｈ_Ａについては、ベイズ則を適用し、

が得られる。

Ｐ（Ｈ_１／Ｍ）およびＰ（Ｈ_２／Ｍ）は工程１においてすでに決定されている。ベイズ則によると、

である。Ｈ_１は、ｐ_２がｄ_２に由来することを示唆するので、前記したように、

である。
Ｐ（Ｈ_ｐ２Ａ）＝Ｐ（Ｄ_２＝Ａ）＝ｆ_ｄ２（Ａ）であり、ここで、ｆ_ｄ２（Ａ）は集団頻度データから得られる。
Ｐ（Ｈ_１，Ｍ）＝Ｐ（Ｈ_１，Ｍ／Ｈ_ｐ２Ａ）^＊Ｐ（Ｈ_ｐ２Ａ）＋Ｐ（Ｈ_１，Ｍ／Ｈ_ｐ２Ｃ）^＊Ｐ（Ｈ_ｐ２Ｃ）＋Ｐ（Ｈ_１，Ｍ／Ｈ_ｐ２Ｔ）^＊Ｐ（Ｈ_ｐ２Ｔ）＋Ｐ（Ｈ_１，Ｍ／Ｈ_ｐ２Ｇ）^＊Ｐ（Ｈ_ｐ２Ｇ）
同様に、Ｐ（Ｈ_ｐ２Ａ＆Ｈ_２／Ｍ）を計算する。
Ｐ（Ｈ_ｐ２Ａ／Ｍ）＝Ｐ（Ｈ_ｐ２Ａ＆Ｈ_１／Ｍ）＋Ｐ（Ｈ_ｐ２Ａ＆Ｈ_２／Ｍ）であり、したがって、ｐ_２がＡに等しい確率は計算された。Ｃ、ＴおよびＧについての計算を反復する。最高の値は、ｐ_２対立遺伝子要求および対応する確率の回答を与えるであろう。

対立遺伝子要求のｐ_１への帰属（ハプロイド細胞、および１つのジプロイド細胞に対応する対立遺伝子）
前記したように、４つの異なる仮説：
Ｈ_ｐ１Ａ：ｐ_１の「真の値」はＡである、
Ｈ_ｐ１Ｃ：ｐ_１の「真の値」はＣである、
Ｈ_ｐ１Ｔ：ｐ_１の「真の値」はＴである、
Ｈ_ｐ１Ｇ：ｐ_１の「真の値」はＧである、
を確立し、Ｐ（Ｈ_ｐ１Ａ／Ｍ）、Ｐ（Ｈ_ｐ１Ｃ／Ｍ）、Ｐ（Ｈ_ｐ１Ｔ／Ｍ）、Ｐ（Ｈ_ｐ１Ｇ／Ｍ）を計算する。

これは、Ｈ_ｐ１Ａの仕上げである。「真の場合」の場合においては、ハプロイドおよび対応するジプロイド細胞がＡと等しい場合にのみｐ_１はＡと等しい。したがって、ｐ_１およびｐ_ｐ１を計算するためには、ハプロイドおよび対応するジプロイド細胞が等しい状況を考慮しなければならない。したがって、仮説Ｈ_ｐ１Ａ：ｐ_１の「真の値」はＡであって、Ｈ_ｈｄＡとなる：ハプロイド細胞および対応するジプロイド細胞の「真の値」はＡである。

ｈの起源は未知である（それは、Ｐ（Ｈ_１／Ｍ）の確率でもってｄ_１から、および確率Ｐ（Ｈ_２／Ｍ）でもってｄ_２から由来する）ので、ｈ対立遺伝子がｄ_１またはｄ_２に由来する双方の場合を考慮し、ｐ_１の決定におけるそれを実行しなければならない。それは、ベイズ則を用いると：
Ｐ（Ｈ_ｈｄＡ｜Ｍ）＝Ｐ（Ｈ_ｈｄＡ｜Ｍ，Ｈ_１）^＊Ｐ（Ｈ_１｜Ｍ）＋Ｐ（Ｈ_ｈｄＡ｜Ｍ，Ｈ_２）^＊Ｐ（Ｈ_２｜Ｍ）
を意味する。

前記したように、Ｐ（Ｈ_１／Ｍ）およびＰ（Ｈ_２／Ｍ）は先の計算から知られている。

Ｐ（Ｈ_１，Ｍ／Ｈ_ｈｄＡ）＝Ｐ（Ｍ（ｈ）／Ｈ＝Ａ）^＊Ｐ（Ｍ（ｄ_１）／Ｄ_１＝Ａ）＝
＝［Ｉ_{｛ｈ＝Ｈ｝} ^＊ｐ_ｈ＋（１−Ｉ_{｛ｈ＝Ｈ｝}）^＊（１／３）^＊（１−ｐ_ｈ）］^＊［Ｉ_{｛ｄ１＝Ｄ１｝} ^＊ｐ_ｄ１＋（１−Ｉ_{｛ｄ１＝Ｄ１｝}）^＊（１／３）^＊（１−ｐ_ｄ１）］
である。というのは、Ｈ１は、ｐ_１がｄ_１に由来することを示唆するからである。Ｐ（Ｈ_ｈｄＡ）＝Ｐ（ｈ＝Ａ）^＊Ｐ（Ｄ_１＝Ａ）ｆ_ｈ（Ａ）^＊ｆ_ｄ１（Ａ）であり、ここで、ｆ_ｈ（Ａ）およびｆ_ｄ２（Ａ）は集団頻度データから得られる。Ｐ（Ｈ_１，Ｍ）＝Ｐ（Ｈ_１，Ｍ／Ｈ_ｈｄＡ）^＊Ｐ（Ｈ_ｈｄＡ）＋Ｐ（Ｈ_１，Ｍ／Ｈ_ｈｄＣ）^＊Ｐ（Ｈ_ｈｄＣ）＋Ｐ（Ｈ_１，Ｍ／Ｈ_ｈｄＴ）^＊Ｐ（Ｈ_ｈｄＴ）＋Ｐ（Ｈ_１，Ｍ／Ｈ_ｈｄＧ）^＊Ｐ（Ｈ_ｈｄＧ）。

同様に、Ｐ（Ｈ_ｈｄＡ＆Ｈ_２／Ｍ）を計算する。
Ｐ（Ｈ_ｈｄＡ／Ｍ）＝Ｐ（Ｈ_ｈｄＡ＆Ｈ_１／Ｍ）＋Ｐ（Ｈ_ｈｄＡ＆Ｈ_２／Ｍ）であり、今や、我々はｐ_１がＡと等しい確率を計算した。Ｃ、ＴおよびＧについての計算を反復する。最高の値はｐ_１対立遺伝子要求および対応する確率の回答を与えるであろう。

例としての入力
２つの入力の例を示す。最初の例は、共分離する低い傾向があるＳＮＰのセットのものであり、すなわち、ＳＮＰは染色体を通って拡大し、入力データを表３に示す。第二の例は、共分離する高い傾向があるＳＮＰのセットのものであり、すなわち、ＳＮＰは染色体上にクラスター形成し、インプットデータを表４に示す。双方のデータのセットは個体の測定されたＳＮＰデータ、個体の親のＳＮＰデータおよび対応する信頼性値を含む。このデータは現実の人々から測定された現実のデータであることを注記する。各列は、１つの特定のＳＮＰロケーションについての測定を表す。行は、行の見出しによって示されるデータを含む。行の見出し中の略語に対する鍵は以下の通りである：
ｆａｍｉｌｙ＿ｉｄ＝各人についてのユニークなｉｄ（事務的理由について含む）
ｓｎｐ＿ｉｄ＝ＳＮＰ同定番号
ｅ１，ｅ２＝胚についてのＳＮＰヌクレオチド値
ｐ１，ｐ２＝父親についてのＳＮＰヌクレオチド値
ｍ１，ｍ２＝母親についてのＳＮＰヌクレオチド値
ｐｅ１，ｐｅ２＝ｅ１，ｅ２についての測定精度
ｐｐ１，ｐｐ２＝ｐ１，ｐ２についての測定精度
ｐｍ１，ｐｍ２＝ｍ１，ｍ２についての測定精度
例としての出力
出力データの２つの例を表５および表６に示し、これは各々、表３および表４に掲げたデータからの出力データに対応する。双方の表は、個体の測定されたＳＮＰデータ、個体の親のＳＮＰデータ、個体のＳＮＰデータの最もありそうな真の値、および対応する信頼性を示す。各列は、１つの特定のＳＮＰに対応するデータを表す。行は行の見出しによって示されるデータを含まれる。行の見出し中の略語に対する鍵は以下の通りである：
ｓｎｐ＿ｉｄ＝ＳＮＰ同定番号
ｔｒｕｅ＿ｖａｌｕｅ＝ｅ１，ｅ２についての提案されたヌクレオチド値
ｔｒｕｅ＿ｈｙｐ＝ｅ１，ｅ２の起源についての仮説
ｅｅ＝ｅ１，ｅ２についての測定されたＳＮＰヌクレオチド値
ｐｐ＝ｐ１，ｐ２についての測定されたＳＮＰヌクレオチド値
ｍｍ＝ｍ１，ｍ２についての測定されたＳＮＰヌクレオチド値
ＨｙｐＰｒｏｂ＝最終仮説の確率。出力についてはただ１つの数があるが、優れた行構造のため、この数字は全ての列中に複製される。

このアルゴリズムは手動で、またはコンピュータによって実施することができることを注記する。表３および表４は、該方法のコンピュータで実施されたバージョンについての入力データの例を示す。表５は表３に示された入力データに対する出力データを示す。表６は、表４に示された入力データに対する出力データを示す。

シミュレーションアルゴリズム
以下に、システムの一体性を確実とし、およびより広く種々の状況におけるアルゴリズムの現実の効率を評価するためになされた第二のシミュレーションを示す。これを行うために、１，０００のフルシステムシミュレーションを実行した。これは、親遺伝子データをランダムに作り出し、イン・シリコにて減数分裂を模倣して、胚データが得られ、胚データの不完全な測定をシミュレートし、次いで、本明細書中に開示された方法を実行して、シミュレートされた測定胚データを清浄化し、次いで、その「清浄化された」データを「現実の」データと比較することを含む。シミュレーションのより詳細な説明を以下に掲げ、事象のフローの目に見える表示を図１８に掲げる。理論の２つの異なる実施を検定した。より十分な説明を以下に掲げる。

ＤＨおよびＰＳについてのシミュレーションアルゴリズムおよび結果
双方のアルゴリズムについて、初期入力変数は：
（ｉ）検定すべきＳＮＰのリスト、
（ｉｉ）母性（ｐｏｐｆｒｅｑｌｉｓｔＭＭ）および父性（ｐｏｐｆｒｅｑｌｉｓｔＰＰ）染色体の集団頻度、
（ｉｉｉ）ハプロイド測定（ｐｈ，ｐｅ）についての、および秩序立っていないジプロイド測定（ｐｄ）についての正しい対立遺伝子要求の確率、
である。

これらの値は、関連するＳＮＰについての経験的なデータ（集団頻度）からの、および測定機器性能（ｐｈ，ｐｄ，ｐｅ）からの結果に基づいて固定すべきである。シミュレーションは、最もありそうな（通知された）、均一な（通知されていない）および非常にありそうにない（極端な場合）のようないくつかのシナリオについて実行した。

一旦、前記した静的なパラメーターが固定されれば、特定のＳＮＰを仮定した交差確率はすべてのシミュレーションについて同一であり、スニップロケーション（ＳＮＩＰＬＯＣ＿ＮＡＭＥ＿ＭＡＴ）および遺伝子距離（ＨＡＰＬＯＣ＿ＮＡＭＥ＿ＭＡＴ）についてのデータベースを仮定して該時点に先立って誘導されるであろう。
［ｃｒｏｓｓｐｒｏｂ，ｓｎｉｐｓ］＝
ＧｅｔＣｒｏｓｓＰｒｏｂ（スニップ，ＳＮＩＰＬＯＣ＿ＮＡＭＥ＿ＭＡＴ，パラメーター，ＨＡＰＬＯＣ＿ＮＡＭＥ＿ＭＡＴ）
予備的シミュレーションループ
予備的シミュレーションループは、十分なシミュレーションで用いられるであろう遺伝子データが現実的であることを示すものである。工程１ないし５を１０，０００回反復した。このシミュレーションが、いずれかのまたは双方の親について実行することができ；該工程は同一であることを注記する。この場合、シミュレーションは説明目的のために父性ケースで実行され、図１８への言及はカッコに入れた図１８中の対応する母性エントリーも含む。

工程１：オリジナルの親ジプロイド細胞（Ｐ１，Ｐ２）の創製
［Ｐ１，Ｐ２］＝オリジナルの染色体の創製（ｓｎｉｐｓ，ｐｏｐｆｒｅｑｌｉｓｔＰＰ）；１８０１（１８０２）
父親細胞についての各ＳＮＰに対する集団頻度に依存して、オリジナルの父性細胞を創製する。

工程２：ＤＨＡｌｇｏについてのハプロイドおよび秩序立っていないジプロイドデータの創製
親染色体１８０３の交差をシミュレートして、染色体、交差の２つのセット：Ｐ１Ｃ１、Ｐ２Ｃ１およびＰ１Ｃ２、Ｐ２Ｃ２；１８０４（１８０５）を得る。ハプロイド対立遺伝子ＨＰ１８０７（１８０８）、この場合は、Ｐ１（というのは、いずれについても差はないからである）についての、（第一のセットからの）交差１８０６後に父親対立遺伝子のうちの１つをピックアップし、ジプロイド対立遺伝子中の順序を混合して、（Ｄ１Ｐ，Ｄ２Ｐ）１８０７（１８０８）を得る。
ＨＰ＝ＰｉｃｋＯｎｅ（Ｐ１Ｃ１，Ｐ２Ｃ１）；
［Ｄ１Ｐ，Ｄ２Ｐ］＝Ｊｕｍｂｌｅ（Ｐ１，Ｐ２）。

工程３：オリジナルなデータセットへエラーを導入して、測定をシミュレートする。

正しい測定（ｐｈ−ハプロイド、ｐｄ−ジプロイド測定）の所与の確率に基づき、エラーを測定に導入して、シミュレートされた測定親データ１８１１（１８１２）を得る。
ｈｐ＝ＭａｋｅＥｒｒｏｒ（ＨＰ，ｐｈ）；
ｄ１ｐ＝ＭａｋｅＥｒｒｏｒ（Ｄ１Ｐ，ｐｄ）；
ｄ２ｐ＝ＭａｋｅＥｒｒｏｒ（Ｄ２Ｐ，ｐｄ）。

工程４：ＤＨＡｌｇｏを適用して、（ｐ１，ｐ２）、（ｐｐ１，ｐｐ２）を得る。

ＤＨＡｌｇｏは、ハプロイド細胞からの対立遺伝子、およびジプロイド細胞からの秩序立っていない対立遺伝子を取り、これらを生起したもっともありそうな秩序立ったジプロイド対立遺伝子を戻す。ＤＨＡｌｇｏは（Ｐ１，Ｐ２）を再形成するよう試み、また、父親についての見積もり誤差（ｐｐ１，ｐｐ２）を戻す。比較のために、単純な対立遺伝子マッチングを行う経験的アルゴリズムを用いる。目標は、単純な経験的アルゴリズムと比較して、どれくらい開示されたアルゴリズムが良好であるかを比較することである。
［ｐ１，ｐ２，ｐｐ１，ｐｐ２］＝ＤＨＡｌｇｏ（ｈｐ，ｄ１ｐ，ｄ２ｐ，ｐｈ，ｐｄ，ｓｎｉｐｓ，ｐｏｐｆｒｅｑｌｉｓｔＰＰ，‘ＤＨ’）；
［ｐ１ｓ，ｐ２ｓ，ｐｐ１ｓ，ｐｐ２ｓ］＝ＤＨＡｌｇｏ（ｈｐ，ｄ１ｐ，ｄ２ｐ，ｐｈ，ｐｄ，ｓｎｉｐｓ，ｐｏｐｆｒｅｑｌｉｓｔＰＰ，‘ＳＴ’）；
。

工程５：実行のための統計学の収集
（Ｐ１，Ｐ２）を誘導された（ｐ１，ｐ２）と比較する。
［Ｐ１ｃｍｐ（：，ｉ），Ｐ２ｃｍｐ（：，ｉ），Ｐ１ｐｒｏｂ（：，ｉ），Ｐ２ｐｒｏｂ（：，ｉ），Ｐ１ｍｎ（ｉ），Ｐ２ｍｎ（ｉ）］＝ＤＨＳｉｍＶａｌｉｄａｔｅ（Ｐ１，Ｐ２，ｐ１，ｐ２，ｐｐ１，ｐｐ２）；
注意：（Ｐ１Ｓ_ｉ，Ｐ２Ｓ_ｉ，Ｐ１Ｐ_ｉ，Ｐ２Ｐ_ｉ，Ｐ１Ａ_ｉ，Ｐ２Ａ_ｉ）＝（Ｉ_{｛Ｐ１＝ｐ１｝}，Ｉ_{｛Ｐ２＝ｐ２｝}，ｐ_ｐ１，ｐ_ｐ２，ｐ１_ａｃｃ，ｐ２_ａｃｃ）であり、ここで、Ｉ_{｛Ｐ１＝ｐ１｝}は全てのＳＮＰについての、同様に、Ｉ_{｛Ｐ２＝ｐ２｝}についての、ＤＨアルゴリズム精度の見積もり用のバイナリインジケーターアレイである。Ｐ_ｐ１，Ｐ_ｐ２は該アルゴリズムに由来する正しい対立遺伝子要求およびｐ１_ａｃｃ＝平均（Ｉ_{｛Ｐ１＝ｐ１｝}）、すなわち、ｐ２_ａｃｃについてと同様な、ｐ１についてのこの実行に対する平均精度の確率である。

予備的シミュレーションの結果
１０，０００のシミュレーションを用いて、Ｐ１，Ｐ２からのＤＨアルゴリズムの総じての精度を示す、アルゴリズム精度ＤＨＡｃｃｕｒａｃｙ．Ｐ１＝平均（Ｐ１Ａ_ｉ）、ＤＨＡｃｃｕｒａｃｙ．Ｐ２＝平均（Ｐ２Ａ_ｉ）を見積もった。個々のＳＮＰに基づき、各ＳＮＰＳＮＰＡｃｃ．Ｐ１＝平均（Ｐ１Ｓ_ｉ）についての平均精度は、ＳＮＰ，ＳＮＰＰｒｏｂ．Ｐ１＝平均（Ｐ２Ｐ_ｉ）であると正しく測定する見積もられた確率の平均に合致すべきであり、すなわち、もしアルゴリズムが正しく作動すれば、ＳＮＰＡｃｃ．Ｐ１に対する値はＳＮＰＰｒｏ．Ｐ１に密接に対応すべきである。これらの２つの間の関係はそれらの相関によって反映される。

シミュレーションの１００００ループは異なる設定シナリオで実行した：
（１）基礎となる集団頻度は、より現実的である現存のゲノタイピングデータ、およびＡ、Ｃ、Ｔ、Ｇが各ＳＮＰについて同一の確率を有する均一な集団頻度によって与えられた。
（２）ハプロイドおよび秩序立っていないジプロイド測定（ＰＨ，ＰＤ）についての測定精度に対するいくつかの組合せ。種々の仮定を行った；測定は共に非常に精度があり（０．９５，０．９５）、精度が低く（０．７５，０．７５）、および精度なしまたはランダムであり（０．２５，０．２５）、ならびに（０．９，０．５）、（０．５，０．９）のバランスが取れていない組合せである。現実に最も近いであろうものは、ほぼ０．６ないし０．８の精度であろう。
（３）シミュレーションを、ＤＨＡｌｇｏｒｉｔｈｍおよび単純なマッチングＳＴＡｌｇｏｒｉｔｈｍ双方についてのすべてのこれらの場合に実行して、開示されたアルゴリズムの性能を評価した。
これらの全ての実行の結果を表７にまとめる。

開示されたアルゴリズムは、これらのシミュレーションにおいて、特に、不均一な集団頻度、および正しい測定のアンバランスな、または低下した確率の現実的場合について、現存の経験的アルゴリズムよりも良好に実行される。また、個々のＳＮＰについてのアルゴリズム精度の１つの見積もりはこれらの場合において非常に良好であることが確認された。というのは、正しい対立遺伝子要求の見積もられた精度、およびシミュレーション平均精度の間の相関は９９％程度であり、平均比率は１だからである。

最も現実的場合において、データ集団頻度および（ｐｈ，ｐｄ）＝（０．６，０．８）については、（Ｐ１，Ｐ２）についての正しく検索されたＳＮＰの平均パーセントは実行１において（０．８５２，０．８１６）であって、実行２において（０．６０１，０．６７３）である。

表７および表８については、「データ」使用集団頻度データで始まる列は経験的結果から取られたものであり、他方、「均一」で始まる列は均一な集団を仮定することに注意されたし。

表７および表８においては、精度は、正しいＳＮＰ要求がなされ、正しい元の染色体が同定されたＳＮＰの平均パーセントとして定義されることに注意するのは重要である。また、これらのシミュレーションはアルゴリズムの２つの可能な実行を反映するのに注意するのも重要である。良好な結果を与えることができるアルゴリズムを実行する他の方法があり得る。このシミュレーションは、該方法が実施できることを示すつもりだけである。

十分なシミュレーションループ
工程１ないし８を１００００回反復した。これは、関連する個体、この場合は、親から測定された遺伝子データを用いて標的固体についての測定された遺伝子データを清浄化する十分に開示された方法を検定するためのシミュレーションである。

工程１：オリジナルの親ジプロイド細胞（Ｐ１，Ｐ２），（Ｍ１，Ｍ２）の創製
［Ｐ１，Ｐ２］＝オリジナルな染色体の創製（ｓｎｉｐｓ，ｐｏｐｆｒｅｑｌｉｓｔＰＰ）；（１８０１）
［Ｍ１，Ｍ２］＝オリジナルな染色体の創製（ｓｎｉｐｓ，ｐｏｐｆｒｅｑｌｉｓｔＭＭ）；（１８０２）
母親および父親細胞についての各ＳＮＰに対する集団頻度に依存して、オリジナルな親細胞を創製する。

工程２：交差親細胞（Ｐ１Ｃ，Ｐ２Ｃ），（Ｍ１Ｃ，Ｍ２Ｃ）（１８０３）
交差を持つ父性細胞の２つのセットを創製して：第一に、ＤＨＡｌｇｏで用いる（Ｐ１Ｃ１，Ｐ２Ｃ１）が得られ、第二に、ＰＳＡｌｇｏで用いる（Ｐ１Ｃ２，Ｐ２Ｃ２）を得る。（１８０４）
交差を持つ母性細胞の２つのセットを創製して：第一に、ＤＨＡｌｇｏで用いる（Ｍ１Ｃ１，Ｍ２Ｃ１）、およびＰＳＡｌｇｏで用いる（Ｍ１Ｃ２，Ｍ２Ｃ２）を得る。（１８０５）
［Ｐ１Ｃ１，Ｐ２Ｃ１］＝（Ｐ１，Ｐ２，ｓｎｉｐｓ，ｆｕｌｌｐｒｏｂ）を交差させる；
［Ｐ１Ｃ２，Ｐ２Ｃ２］＝（Ｐ１，Ｐ２，ｓｎｉｐｓ，ｆｕｌｌｐｒｏｂ）を交差させる；
［Ｍ１Ｃ１，Ｍ２Ｃ１］＝（Ｍ１，Ｍ２，ｓｎｉｐｓ，ｆｕｌｌｐｒｏｂ）を交差させる；
［Ｍ１Ｃ２，Ｍ２Ｃ２］＝（Ｍ１，Ｍ２，ｓｎｉｐｓ，ｆｕｌｌｐｒｏｂ）を交差させる；
。

工程３ＤＨＡｌｇｏについてのハプロイド細胞および無秩序ジプロイド細胞を作成する（１８０６）。

ハプロイド細胞ＨＰについての父性細胞のセットのうち１つ（１８０４，第一のセット）をピックアップし、ジプロイド細胞中の順序を混合して、（Ｄ１Ｐ，Ｄ２Ｐ）（１８０７）を得る。母性細胞（１８０５，第一のセット）についても同様にして、ＭＨ，（Ｄ１Ｍ，Ｄ２Ｍ）を得る。（１８０８）
ＨＰ＝１つの（Ｐ１Ｃ１，Ｐ２Ｃ１）をピックアップする；
ＨＭ＝１つの（Ｍ１Ｃ１，Ｍ２Ｃ１）をピックアップする；
［Ｄ１Ｐ，Ｄ２Ｐ］＝（Ｐ１，Ｐ２）を乱雑とする；
［Ｄ１Ｍ，Ｄ２Ｍ］＝（Ｍ１，Ｍ２）を乱雑とする；
。

工程４：ジプロイド胚細胞の作成（１８０９）
胚細胞について父性細胞の１つ（１８０４，第二のセット）および母性細胞の１つ（１８０５，第二のセット）をピックアップする。測定目的で順序を混合する。
Ｅ１＝１つの（Ｐ１Ｃ２，Ｐ２Ｃ２）をピックアップする；
Ｅ２＝１つの（Ｍ１Ｃ２，Ｍ２Ｃ２）をピックアップする；
［Ｅ１Ｊ，Ｅ２Ｊ］＝（Ｅ１，Ｅ２）を乱雑とする；（１８１０）。

工程５：測定（１８１１，１８１２，１８１３）に誤差を導入する
所与の測定誤差（ＨＰ−ハプロイド細胞，ＰＤ−無秩序ジプロイド細胞，ｐｅ−胚細胞）に基づいて、測定に誤差を導入する。
ｈｐ＝誤差（ＨＰ，ｐｈ）を作りだす；（１８１１）
ｄ１ｐ＝誤差（Ｄ１Ｐ，ｐｄ）を作りだす；（１８１１）
ｄ２ｐ＝誤差（Ｄ２Ｐ，ｐｄ）を作りだす；（１８１１）
ｈｍ＝誤差（ＨＭ，ｐｈ）を作りだす；（１８１２）
ｄ１ｍ＝誤差（Ｄ１Ｍ，ｐｄ）を作りだす；（１８１２）
ｄ２ｍ＝誤差（Ｄ２Ｍ，ｐｄ）を作りだす；（１８１２）
ｅ１＝誤差（Ｅ１Ｊ，ｐｅ１）を作りだす；（１８１３）
ｅ２＝誤差（Ｅ２Ｊ，ｐｅ２）を作りだす；（１８１３）。

工程６：ＤＨＡｌｇｏを適用して、（ｐ１，ｐ２）、（ｍ１，ｍ２）、（ｐｐ１，ｐｐ２）、（ｐｍ１，ｐｍ２）を得る。

ＤＨＡｌｇｏはハプロイド細胞および無秩序ジプロイド細胞を取り、これらを生起させた最もありそうな秩序立ったジプロイド細胞を戻す。ＤＨＡｌｇｏは父親染色体について（Ｐ１Ｃ１，Ｐ２Ｃ１）、および母親染色体について（Ｍ１Ｃ１，Ｍ２Ｃ１）を再形成するよう試み、また父親（ｐｐ１，ｐｐ２）および母親（ｐｍ１，ｐｍ２）細胞についての見積もり誤差を戻す。
［ｐ１，ｐ２，ｐｐ１，ｐｐ２］＝ＤＨＡｌｇｏ（ｈｐ，ｄ１ｐ，ｄ２ｐ，ｓｎｉｐｓ，ｐｏｐｆｒｅｑｌｉｓｔＰＰ）；（１８１４）
［ｍ１，ｍ２，ｐｍ１，ｐｍ２］＝ＤＨＡｌｇｏ（ｈｍ，ｄ１ｍ，ｄ２ｍ，ｓｎｉｐｓ，ｐｏｐｆｒｅｑｌｉｓｔＭＭ）；（１８１５）。

工程７：ＰＳＡｌｇｏを適用して、（ＤＥ１，ＤＥ２）（１８１６）を得る。

ＰＳＡｌｏｇは再形成された親細胞（ｐ１，ｐ２，ｍ１，ｍ２）および無秩序な測定胚細胞（ｅ１，ｅ２）を取って、最もありそうな秩序立った真の胚細胞（ＤＥ１，ＤＥ２）を戻す。ＰＳＡｌｇｏは、（Ｅ１，Ｅ２）を再形成するよう試みる。
［ＤＥ１，ＤＥ２，ａｌｌｄａｔａ］＝ＰＳＡｌｇｏ（ｓｎｉｐｓ，ｅ１，ｅ２，ｐ１，ｐ２，ｍ１，ｍ２，ｐｅ，ｐｐ１，ｐｐ２，ｐｍ１，ｐｍ２，ｐａｒａｍｅｔｅｒｓ，ｃｒｏｓｓｐｒｏｂ，ｐｏｐｆｒｅｑｌｉｓｔＰＰ，ｐｏｐｆｒｅｑｌｉｓｔＭＭ）；
。

工程８：このシミュレーション実行からの望まれる統計学の収集
実行についての統計学を得る：
ｓｉｍｄａｔａ＝ＳｉｍＶａｌｉｄａｔｅ（ａｌｌｄａｔａ，ＤＥ１，ＤＥ２，Ｐ１，Ｐ２，Ｍ１，Ｍ２，Ｅ１，Ｅ２，ｐ１，ｐ２，ｍ１，ｍ２，ｅ１，ｅ２，ｐｅ，ｐｅ，ｐｐ１，ｐｐ２，ｐｍ１，ｐｍ２）；
。

シミュレーションの結果
１００００のシミュレーションを実行し、Ｅ１，Ｅ２からのＰＳアルゴリズムの全精度を我々に告げる、アルゴリズム精度についての最終見積もりＰＳＡｃｃｕｒａｃｙ．Ｅ１＝平均（Ｅ１Ａ_ｉ）、ＰＳＡｃｃｕｒａｃｙ．Ｅ２＝平均（Ｅ２Ａ_ｉ）を計算した。個々のＳＮＰに基づき、各ＳＮＰＳＮＰＡｃｃ．Ｅ１＝平均（Ｅ１Ｓ_ｉ）についての平均精度は、ＳＮＰ，ＳＮＰｒｏｂ．Ｅ１＝平均（Ｅ２Ｐ_ｉ）であると正しく測定する見積もられた確率の平均に合致するはずであり、すなわち、もしアルゴリズムが正しく書かれれば、ＳＮＰＡｃｃ．Ｅ１は、ＳＮＰｒｏｂ．Ｅ１に相関するように観察されるはずである。これらの２つの間の関係はそれらの相関によって反映される。

シミュレーションの１００００ループを異なる設定シナリオについて実行した：
（１）より現実的である現存のゲノタイピングデータ、およびＡ、Ｃ、Ｔ、Ｇが各ＳＮＰにおいて同一の確率を有する均一な集団頻度によって与えられる基礎となる集団頻度
（２）ハプロイド、無秩序ジプロイドおよび胚測定（ｐｈ，ｐｄ，ｐｅ）についての測定精度のいくつかの組合せ。種々の精度をシミュレートした：非常に精度がある（０．９５，０．９５，０．９５）、精度が低い（０．７５，０．７５，０．７５）、および精度なしまたはランダム（０．２５，０．２５，０．２５）、ならびに（０．９，０．５，０．５）、（０．５，０．９，０．９）のアンバランスな組合せ。現実に最も近いであろうものは、ほぼ（０．６，０．８，０．８）である。
（３）すべてのこれらの場合において、我々のＰＳＡｌｇｏｒｉｔｈｍおよび単純なマッチングＳＴＰＳＡｌｇｏｒｉｔｈｍ双方についてシミュレーションを行って、開示されたアルゴリズムの性能を評価した。
これらの実行の結果を表８にまとめる。

開示されたアルゴリズムは、これらのシミュレーションにおいて、特に、不均一な集団頻度および正しい測定のアンバランスな、または低下した確率の現実的場合について、現存の経験的アルゴリズムよりも良好に実行される。また、ここのＳＮＰについてのアルゴリズム精度の見積もりはこれらの場合において非常に良好であることが示された。というのは、正しい対立遺伝子要求の見積もられた精度、およびシミュレーション平均精度の間の相関は９９％程度であり、平均率は１だからである。

最も現実的な場合において、データ集団頻度および（ｐｈ，ｐｄ，ｐｅ）＝（０．６，０．８，０．８）については、（Ｅ１，Ｅ２）について正しく検索されたＳＮＰの平均パーセントは実施１において（０．７７７，０．７８８）および実施２において（０．８３５，０．８２８）である。前記したように、アルゴリズムの平均精度を示す数は正しいＳＮＰの要求のみならず、ＳＮＰの正しい親起源の同定もいう。効果的であるためには、アルゴリズムは、それが測定されるにつれデータを単純に許容するアルゴリズムよりも良好な結果を戻さなければならない。ある場合には、アルゴリズムの精度には測定のリストされた精度よりも低いのを見て驚くであろう。このシミュレーションの目的では、もしそれが共に正しく要求され、また、その親および元の染色体が正しく同定された場合のみ、ＳＮＰの要求は正確であると考えられる。偶然にこれを正しくするチャンスは測定精度よりもかなり低い。

出生前および胚遺伝物質を得るのに必要な実験室的技術
ゲノタイピングのための細胞およびＤＮＡ断片の単離を可能とする多くの利用できる技術がある。本明細書中に記載されたシステムおよび方法をこれらの技術、特に、母性血液からの胎児細胞またはＤＮＡの単離、またはＩＶＦの関係で胚からの胚盤胞の単離を含むものの中でいずれにも適応することができる。それはイン・シリコにてゲノムデータに同等に適応することができ、すなわち、遺伝物質から直接的に測定できない。

システムの１つの実施形態において、このデータは以下に記載するように獲得することができる。

細胞の単離
成人ジプロイド細胞はバルク組織または血液試料から得ることができる。成人ジプロイド単一細胞は、ＦＡＣＳ、または蛍光活性化細胞ソーティングを用い、全血液試料から得ることができる。成人はプロイド単一精子細胞もまた、ＦＡＣＳを用いて精子試料から単離することができる。成人ハプロイド単一卵細胞は、ＩＶＦ手法の間に卵収穫に関して単離することができる。

ヒト胚からの標的単一胚盤胞の単離は、体外受精クリニックにおいて普通の技術に従って行うことができる。母性血液中の標的胎児細胞の単離は、モノクローナル抗体、あるいはＦＡＣＳまたは密度勾配遠心のような他の技術を用いて達成することができる。

ＤＮＡ抽出は本出願についての標準的でない方法も含むであろう。ＤＮＡ抽出についての種々の方法を比較する文献の報告は、いくつかの場合において、Ｎ−ラウロイルサルコシンの添加の使用のような新規なプロトコルは、より効果的であることが判明し、最も少ない偽陽性を生じることを見出している。

ゲノムＤＮＡの増幅
ゲノムの増幅は、連結−媒介ＰＣＲ（ＬＭ−ＰＣＲ）、縮重オリゴヌクレオチドプライマーＰＣＲ（ＤＯＰ−ＰＣＲ）、および多重置換増幅（ＭＤＡ）を含めた多数の方法によって達成することができる。これらの方法のうち、ＤＯＰ−ＰＣＲは、染色体の単一コピーを含めた、少量のＤＮＡから多量のＤＮＡを信頼性よく生じさせ；この方法は、データ忠実度が臨界的である親ジプロイドデータをゲノタイピングするために最も適しているであろう。ＭＤＡは最速な方法であり、数時間以内にＤＮＡの１００倍増幅を生じる；この方法は、胚細胞をゲノタイピングするのに、あるいは時間が必須である他の状況において最も適切であろう。

バックグラウンド増幅はこれらの方法の各々で問題である。というのは、各方法は、潜在的に、汚染ＤＮＡを増幅するだろうからである。非常に少量の汚染はアッセイを不可逆的に毒し、偽データを与えかねない。従って、増幅前および後ワークフローが完全に物理的に分離されたクリーンな実験室条件を用いるのが非常に重要である。ＤＮＡ増幅のためのクリーンな汚染なしのワークフローは、今日、産業的分子生物学においてルーチン的であって、単に詳細に対して思慮深い注意を必要とする。

ゲノタイピングアッセイおよびハイブリダイゼーション
増幅されたＤＮＡのゲノタイピングは、Ａｆｆｙｍｅｔｒｉｘ’ｓＧｅｎｆｌｅｘＴａｇＡｒｒａｙのような分子逆転プローブ（ＭＩＰ）、Ａｆｆｙｍｅｔｒｉｘ’ｓ５００ＫアレイまたはＩｌｌｕｍｉｎａＢｅａｄＡｒｒａｙｓのようなマイクロアレイ、またはＡｐｐｌｉｅｄＢｉｏｓｃｉｅｎｃｅ‘ｓＴａｑｍａｎアッセイのようなＳＮＰゲノタイピングアッセイを含めた多くの方法によって行うことができる。Ａｆｆｙｍｅｔｒｉｘ’ｓ５００Ｋアレイ、ＭＩＰｓ／ＧｅｎＦｌｅｘ、ＴａｑＭａｎおよびＩｌｌｕｍｉｎａアッセイは、全て、マイクログラム量のＤＮＡを必要とし、従って、いずれかのワークフローでの単一細胞のゲノタイピングはいくつかの種類の増幅を必要とするであろう。これらの技術の各々は、とりわけ、コスト、データの質、定量的ｖｓ定性的データ、慣用化性、アッセイを完了するための時間、および測定可能なＳＮＰの数の点で種々の釣り合いを有する。５００ＫおよびＩｌｌｕｍｉｎａアッセイの利点は、１０，０００のＳＮＰのオーダーで検出できるＭＩＰ、およびより少数さえを検出できるＴａｑｍａｎアッセイとは反対に、それがデータを集めることができるＳＮＰの大きな数、およそ２５０，０００である。５００Ｋアレイよりも優れたＭＩＰ、ＴａｑｍａｎおよびＩｌｌｕｍｉｎａアッセイの利点は、それらが固有に慣用化可能であり、ユーザーがＳＮＰを選択するのを可能とすることであり、他方、５００Ｋアレイはそのような慣用化を可能としない。

ＩＶＦの間における着床前の診断の関係では、固有の時間の制限は重要であり；この場合、応答時間に換えてデータの質を犠牲にするのは有利であろう。それは他の明瞭な利点を有するが、標準ＭＩＰアッセイプロトコルは、典型的には、完了するのに２．５ないし３日かかる比較的時間を消費するプロセスである。ＭＩＰにおいて、ＤＮＡを標的とするためのプローブのアニーリング、および増幅後ハイブリダイゼーションは特に時間を消費し、これらの時間からのいずれの偏差もデータ質の劣化をもたらす。プローブはＤＮＡ試料に一晩アニーリングさせる（１２ないし１６時間）。増幅後ハイブリダイゼーションはアレイに一晩アニーリングさせる（１２ないし１６時間）。アニーリングおよび増幅双方の前および後の多数の他の工程は、プロトコルの合計標準タイムラインを２．５日とする。スピードについてのＭＩＰアッセイの最適化は、潜在的に、プロセスを３６時間未満に低下させることができよう。５００ＫアレイおよびＩｌｌｕｍｉｎａアッセイは共により速い応答時間：ほぼ１．５ないし２日を有して、標準的プロトコルにおいて高度に信頼性があるデータを生じる。これらの方法の双方は最適化可能であり、５００Ｋアレイについてのゲノタイピングアッセイおよび／またはＩｌｌｕｍｉｎａアッセイのための応答時間は２４時間未満まで低下させることができようと見積もられる。なおより速いのはＴａｑｍａｎアッセイであり、これは３時間以内に実行することができる。これらの方法の全てについて、アッセイ時間の低下の結果、データの質の低下をもたらすが、それは、正確には、開示された発明が何を取り組むように設計されているかである。より速いいくつかの利用可能な技術は、特に高−スループットではなく、従って、この時点において高度に平衡な出生前遺伝子診断で使用できない。

当然に、ＩＶＦの間における胚盤胞のゲノタイピングのような、時間が臨界的である状況においては、より速いアッセイはより遅いアッセイよりも明瞭な利点を有し、他方、ＩＶＦの前に出生前ＤＮＡをゲノタイピングすることが開始されている場合のような、そのような時間圧力を有しない場合には、他の因子が適当な方法を選択するのに支配的であろう。例えば、もう１つの技術に対する１つの技術から出てくるもう１つの釣り合いは、価格ｖｓデータ質のものである。より重要な測定のための高い質のデータを与えるより効果な技術および忠実度が臨界的でない測定用のより低い質のデータを与える安価な技術を用いるのは理にかなっているであろう。十分に迅速な高−スループットゲノタイピングの点まで開発されたいずれの技術を用いて、この方法で用いる遺伝物質をゲノタイピングすることもできよう。

該方法の関連数例
どのようにして、開示された方法を、ＩＶＦ手法の時間拘束内に全ての生きた胚の十分なゲノタイピングを可能とするであろう。ＩＶＦ実験室の関係で用いることができるかの例をここに記載する。卵受精から胚着床までの、ＩＶＦ実験室で必要な応答時間は３日下である。これは、関連する実験室的作業、データの清浄化および表現型予測がその時間内に完了させなければならないことを意味する。このシステムの模式的ダイヤグラムを図１９に示し、本明細書中に記載する。このシステムは、ゲノタイピングシステムを用いてＩＶＦｌａｂ１９０４で分析されるＩＶＦユーザー（母親）１９０２およびＩＶＦユーザー（父親）１９０３からの親遺伝子試料１９０１よりなることができる。それは、母親１９０２から収穫され、父親１９０３からの精子で受精させて、多数の受精した胚１９０５を作り出す多数の卵を含むことができる。それは、各胚について胚盤胞を抽出し、各胚盤胞のＤＮＡを増幅し、高スループットゲノタイピングシステム１９０６を用いてそれらを分析する実験室技術者を含むことができる。それは、親からの、および胚盤胞からの遺伝子データをデータ保護プロセッシングシステム１９０７に送ることを含む、該システムは胚遺伝子データを確証し、清浄化する。それは、フェノタイピングアルゴリズム１９０９によって操作されて、各胚の表現型感受性を予測する清浄化胚データ１９０８を含むことができる。それは、ＩＶＦユーザー１９０２および１９０３が母親１９０１における着床について胚を選択するのを助ける医師１９１０に送られる関連信頼性レベルと共にこれらの予測を含むことができる。

遺伝子データの清浄化に関連する雑多な注意
本明細書中に記載される方法は遺伝子データの清浄化に関することに注意するのは有用であり、すべての生き物は遺伝子データを含有するので、該方法は親から染色体を受け継ぐいずれのヒト、動物または植物にも等しく適用することができる。動物および植物のリストは、限定されるものではないが、ゴリラ、チンパンジー、ピグミーチンパンジー、ネコ、イヌ、パンダ、ウマ、ウシ、ヒツジ、ヤギ、ブタ、チーター、トラ、ライオン、サケ、サメ、クジラ、ラクダ、バイソンン、マナティー、ウナギ、メカジキ、イルカ、アルマジロ、カリバチ、ゴキブリ、虫、コンドル、ワシ、スズメ、チョウ、セコイア、トウモロコシ、小麦、米、ペチュニア、カウズベッチ、ヒマワリ、ブタクサ、カシノキ、栗の木およびアタマジラミを含む。

遺伝子データの測定は、特に、遺伝物質の試料が少量である場合に完全なプロセスではない。測定は、しばしば、正しくない測定、不明瞭な測定、誤った測定、および失われた測定を含む。本明細書中に記載された方法の目的は、これらの誤差のいくつかまたはすべてを検出し、修正することにある。この方法を用い、遺伝子データがかなり知られる信頼性を改良することができる。例えば、現行の技術を用い、単一細胞から増幅されたＤＮＡからの不明瞭な測定遺伝子データは、２０％および５０％の間の未測定領域、または対立遺伝子ドロップアウトを含み得る。いくつかの場合において、遺伝子データは２０％および９９％の間の未測定領域、または対立遺伝子ドロップアウトを含み得るであろう。加えて、所与の測定ＳＮＰの信頼性は同様に誤差に従う。

未清浄化データがほぼ５０％の対立遺伝子ドロップアウト率を有する場合において、本明細書中に開示された方法を適応した後に、清浄化されたデータは少なくとも９０％の場合において正しい対立遺伝子要求を有し、理想的な状況下では、これは９９％またはそれを超えるまで上昇し得ると予測される。未清浄化データがほぼ８０％の対立遺伝子ドロップアウト率を有する場合において、本明細書中に開示された方法を適用した後に、清浄化データは少なくとも９５％の場合において、正しい対立遺伝子要求を有し、理想的な状況下ではこれは９９％またはそれを超えるまで上昇し得ると予測される。未清浄化データがほぼ９０％の対立遺伝子ドロップアウト率を有する場合、本明細書中に開示された方法を適用した後に、清浄化データは少なくとも９９％の場合において正しい対立遺伝子要求を有し、理想的な状況下ではこれは９９％以上まで上昇し得ると予測される。特定のＳＮＰ測定が９０％近くの信頼性率でもってなされる場合、清浄化データは９５％を超える、および理想的な場合には、９９％を超える、またはそれを超える信頼性率でもってＳＮＰ要求を有すると予測される。特定のＳＮＰ測定が９９％近くの信頼性率でもってなされる場合において、清浄化データは、９９．９％を超えるおよび理想的な場合には９９．９９％を超える、またはそれよりも高い信頼性率でもってＳＮＰ要求を有すると予測される。

また、１つの胚盤胞からの増幅されたＤＮＡを測定することによって創製することができる胚遺伝子データは、多数の目的で使用することができるのみ注意するのも重要である。例えば、それは、異数体、片親二染色体を検出し、個体の性別を鑑定し、ならびに複数の表現型予測を行うのに用いることができる。現在、ＩＶＦ実験室においては、用いる技術のため、しばしば、それは、胚盤胞が異数性のような１つの障害、または特定の単一遺伝子病についてテストするのに十分な遺伝物質を供することができるに過ぎない場合である。本明細書中に開示された方法は、なされる予測のタイプに拘わらず、胚盤胞からＳＮＰの大きなセットを測定する通常の最初の工程を有するので、医師または親は、スクリーニングすべき限定された数の障害を選択することを強制されない。その代わり、医療的知識の状態が許容する程度に多くの遺伝子および／または表現型についてスクリーニングするオプションが存在する。開示された方法では、胚盤胞のゲノタイピングに先立ってスクリーニングするための特定の条件を同定する唯一の利点は、もしあるＰＳＮＰが特に関連すると決定されたならば、注目するＰＳＮＰとより共分離するようなＮＳＮＰのより適切なセットを選択することができ、かくして、注目する対立遺伝子の要求の信頼性を増大させることである。ＳＮＰが先立って個人化されない場合においてさえ、信頼性は、本明細書中に記載された種々の目的で適切なものを超えると予測されることを注記する。

表現型および臨床的予測
遺伝子型および臨床的情報から表現型データを予測するのに利用できる多くの方法がある。異なるモデルは、利用できるデータの量およびタイプに基づいて、異なる状況においてより適切である。表現型予測のための最も適切な方法を選択するためには、テストデータのセットについて多数の方法をテストし、テストデータの測定された結果と比較する場合に、予測の最良の精度をいずれの方法が提供するかを決定するのがしばしば最良である。本明細書中に記載されたある実施形態は、組合せて採用され、かつテストデータでの性能に基づいて選択された場合に、正確な表現型予測を行う高い尤度を供する方法のセットを含む。まず、（ｉｉ）偶発事象表を用いるシナリオでの遺伝子型−表現型モデリングのための技術を記載する。次に、（ｉｉｉ）凸最適化によって形成された回帰モデルを用いるシナリオにおける遺伝子型−表現型モデリングのための技術を記載する。次いで、予測すべき特定の表現型、特定の患者のデータ、およびモデルを訓練し、テストするためのデータの特定のセットを仮定して最良のモデルを選択するための技術を記載する。

今日のデータ：偶発事象表に基づく表現型結果のモデリング
公知の遺伝子的欠陥、および病気表現型の確率を増加させる対立遺伝子がある場合、およびプレディクターの数が十分に少数である場合、表現型確率は偶発事象表でモデル化することができる。もしただ１つの関連遺伝子対立遺伝子があれば、特定の対立遺伝子の存在／不存在はＡ＋／Ａ−として記載することができ、病気表現型の存在／不存在はＤ＋／Ｄ−として記載することができる。（ｆ_１，Ｎ_１，ｆ_２，Ｎ_２）を含有する偶発事象表は：

である。ここで、ｆ_１およびｆ_２は測定された頻度または異なる結果の確率を表し、対象の合計数はＮ＝Ｎ_１＋Ｎ_２である。この表から、独立変数（ＩＶ）Ｇ＋またはＧ−を有する２つの場合において病気状態Ｄ＋を有する確率についてのオッズ比は、９５％信頼区間を持つＯＲ＝ｆ_１（１−ｆ_２）／ｆ_２（１−ｆ_１）：Ｓが標準偏差であるＯＲ^{１±１．９６／Ｓ}として報告することができる。例えば、１０，０００の個体における乳癌の実験を用い、ここで、Ｎ＋はＢＲＣＡ１またはＢＲＣＡ２対立遺伝子の存在を表す。

このデータの結果、信頼区間［１．３１；１．６２］でのオッズ比率ＯＲ＝１．４６３がもたらされ、これを用いて、所与の突然変異を持つ乳癌の出現の増大した確立を予測することができる。２×２よりも大きな偶発事象表を用いて、より独立した変数または結果変数を収容することができることを注記する。例えば、乳癌の場合には、偶発事象Ｍ＋およびＭ−は４つの偶発事象：ＢＲＣＡ１およびＢＲＣＡ２、ＢＲＡＣＡ１およびＢＲＣＡ２ではない、およびＢＲＣＡ１ではなくおよびＢＲＣＡ２、および最後にＢＲＣＡ１でなくＢＲＣＡ２でない；で置き換えることができよう。どのようにして２×２を超える偶発事象表についての信頼区間を決定するのは当業者によってよく理解されるこの技術は、独立変数の異なる偶発事象によって定義される異なる群における患者をカウントすることによって低い標準偏差を持つモデルを形成するのに十分に少数のＩＶおよび十分なデータがある場合に用いられる。このアプローチは、回帰モデルを構築する場合に必要なように異なるＩＶをモデル化すべき結果に関連させる数学モデルを設計する困難性を回避する。

特定のＳＮＰからの遺伝子データは、特に、ＨａｐＭａｐプロジェクトで認識されるＳＮＰの異なるパターンのような独立した変数の他の空間へ投影することもできることを注記する。ＨａｐＭａｐ投影は個体をビンにクラスター化し、各ビンはＳＮＰの特定のパターンによって特徴づけられるであろう。例えば、１つのビン（Ｂ１）はＢＲＣＡ１およびＢＲＣＡ２を含有するＳＮＰパターンを有し、もう１つのビン（Ｂ２）はＢＲＣＡ１を含有するが、ＢＡＣＡ２を含有しないＳＮＰパターンを有し、および第三のビンは、突然変異のすべての他の組合せに関連するＳＮＰパターン（Ｂ３）を含有すると考える。これらのＳＮＰのすべての異なる組合せを表す偶発事象表を作成するよりはむしろ、偶発事象Ｂ１、Ｂ２およびＢ３を表す偶発事象表を作成することができる。

ＨａｐＭａｐ投影によって記載されるように、あるＳＮＰが一緒におこる傾向を用いて、プレディクターとして多数のＳＮＰを用いるモデルを作成することができ、次いで、データは患者の別々の群よりなり、ここで、各群はただ１つの測定されたＳＮＰを有することにさらに注意されたし。この問題は、ＯＭＩＭから入手可能なもののような公に入手可能な研究論文からモデルを作成する場合に普通に遭遇し、多数のＳＮＰは表現型を予測するものではあるが、各論文は唯一の測定された関連ＳＮＰを有するコホートについてのデータを含有する。今日利用可能なデータを用いて予測モデルを形成するのに有用なこの態様を説明するために、ＩＶ：アルツハイマー病の家族履歴、性別、人種、年齢、３つの遺伝子、すなわち、ＡＰＯＥ、ＮＯＳ３、およびＡＣＥの種々の対立遺伝子に基づいて予測モデルを形成することができるアルツハイマー病に特に言及する。この病気との関係では、アルツハイマー病を超える多くの病気に適用される普及した論点を議論し：多くの遺伝子は特定の表現型についての特性の決定に関与するが、履歴研究のほとんど大部分は特定の遺伝子の対立遺伝子をサンプリングしたのに過ぎなかった。アルツハイマー病の場合においては、ほとんど全ての研究コホートは唯一の遺伝子をサンプリングしたに過ぎなかった；すなわち、ＡＰＯＥ、ＮＯＳ３、またはＡＣＥ。それにも拘わらず、利用可能なデータの大部分が、唯一の遺伝子を調べる研究から由来する場合でさえ、多数の遺伝子対立遺伝子を入力するモデルを形成するのが重要である。この問題は、２つの表現型状態の単純化された場合、および各々が丁度２つの状態を持つ、２つの関連遺伝子を表す唯２つの独立した変数を考慮することによって説明される１つの態様において取り組まれる。病気表現型を記載するランダム変数Ｄ∈［Ｄ＋，Ｄ−］、および遺伝子を記載する２つのランダムな変数Ａ∈［Ａ＋，Ａ−］およびＢ∈［Ｂ＋，Ｂ］を仮定すれば、目標はＰ（Ｄ／Ａ，Ｂ）の最良の可能な見積もりを見出すことである。これは、Ｐ（Ｄ／Ａ，Ｂ）＝Ｐ（Ａ，Ｂ／Ｄ）Ｐ（Ｄ）／Ｐ（Ａ，Ｂ）を用いてベイズ則を適用することによって見出すことができる。Ｐ（Ｄ）およびＰ（Ａ，Ｂ）は公のデータから入手可能である。特に、Ｐ（Ｄ）とは、集団における病気の全罹患率をいい、これは公に入手可能な統計学から見出すことができる。加えて、Ｐ（Ａ，Ｂ）とは、個体において一緒に起こる遺伝子ＡおよびＢの特定の状態の罹患率をいい、これは、異なる人種群における多数の個体での測定された多くの異なるＳＮＰを有するＨａｐＭａｐＰｒｏｊｅｃｔのような公のデータベースから見出すことができる。好ましい実施形態においては、これらの確率の全ては、全ヒト集団についてよりはむしろ、確率バイアスがある、特定の人種群および特定の性別について計算することができることを注記する。一旦、これらの確率が決定されたならば、挑戦は正確にＰ（Ａ，Ｂ／Ｄ）を見積もることから由来する。というのは、コホートデータの大部分はＰ（Ａ／Ｄ）およびＰ（Ｂ／Ｄ）の見積もりを供するからである。関連情報は、異なる遺伝子対立遺伝子の間の統計学的関連についての、すなわち、Ｐ（Ａ／Ｂ）についての、ＨａｐＭａｐＰｒｏｊｅｃｔのような種々の公のデータベースで見出すことができる。しかしながら、Ｐ（Ａ／Ｂ）、Ｐ（Ａ／Ｄ）、Ｐ（Ｂ／Ｄ）のみを仮定し、依然として、Ｐ（Ａ，Ｂ／Ｄ）については何も言うことができない。というのは、拘束されない自由度があるからである。それにも拘わらず、もしなんらかの情報が、（Ａ−，Ｂ−）のような丁度単一偶発事象についてさえ、遺伝子ＡおよびＢ双方をそれにつきサンプリングしたコホートからのＰ（Ａ，Ｂ／Ｄ）について知られていれば、Ｐ（Ａ／Ｄ）、Ｐ（Ｂ／Ｄ）、Ｐ（Ａ／Ｂ）についての情報の価値を利用して、Ｐ（Ａ，Ｂ／Ｄ）の見積もりを改良することができる。この概念は、偶発事象の表を用いて説明されるであろう。

遺伝子状態Ａ＋およびＡ−に従う結果Ｄ＋およびＤ−の確率を表す以下の２つの偶発事象表を考える。この実験はＡと言及される。Ａについての測定された頻度はＦと言及され、見積もりを求める現実の確率はｐを伴って言及される。

ここで、ｆ_３＝１−ｆ_１、ｆ_４＝１−ｆ_２およびｐ_３＝１−ｐ_１、ｐ_４＝１−ｐ_２である。Ｋ_１が、Ａについての場合の群における対象の数、すなわち、結果Ｄ＋を有する対象の数を表すものとする。Ｋ_２が、Ａについての対照群における数、すなわち、結果Ｄ−を有する対象の数であるとする。

同様に、遺伝子状態Ｂ＋およびＢ−に従う結果Ｄ＋およびＤ−の確率を表す以下の２つの偶発事象の表を考える。この実験はＢと言及される。測定された頻度はｆを伴って言及され、見積もりを求める現実の確率はｐを伴って言及される。

ここで、ｆ_７＝１−ｆ_５、ｆ_８＝１−ｆ_６およびｐ_７＝１−ｐ_５、ｐ_８＝１−ｐ_６である。Ｋ_３がＢについての場合の群における数を表すものとし、Ｋ_４がＢについての対照群における数であるとする。前記偶発事象の表は、遺伝子状態ＡおよびＢが別々に測定される試験を表す。しかしながら、理想的に求められる偶発事象表は、組み合わされたＡおよびＢの異なる状態を含む。偶発事象表は、ＡＢという仮定実験について以下に示し、ここで、ｆは測定された確率を表し、およびｐは現実の確率を表す。

ここで、ｆ_１５＝１−ｆ_９−ｆ_１１−ｆ_１３、ｆ_１６＝１−ｆ_１０−ｆ_１２−ｆ_１４およびｐ_１５＝１−ｐ_９−ｐ_１１−ｐ_１３、ｐ_１６＝１−ｐ_１０−ｐ_１２−ｐ_１４である。Ｋ_５がＡＢについての場合の群における数とし、Ｋ_６がＡＢについての対照群における数とする。

表記方法目的では、Ｋ_７＝Ｋ_９＝Ｋ_５およびＫ_８＝Ｋ_１０＝Ｋ_６であることを注記する。従って、事実、群のサイズは：

である。

統計学の基本則を用いて、仮定偶発事象表ＡＢの細胞の間の依存性を強制することができる。この例においては、Ｄ＋に対応する細胞について、以下の関係を強制することができる：
Ｐ（Ａ＋Ｂ−／Ｄ＋）＝Ｐ（Ａ＋／Ｄ＋）−Ｐ（Ａ＋Ｂ＋／Ｄ＋）、
Ｐ（Ａ−Ｂ＋／Ｄ＋）＝Ｐ（Ｂ＋／Ｄ＋）−Ｐ（Ａ＋Ｂ＋／Ｄ＋）
Ｐ（Ａ−Ｂ−／Ｄ＋）＝１−Ｐ（Ａ＋／Ｄ＋）−Ｐ（Ｂ＋／Ｄ＋）＋Ｐ（Ａ＋Ｂ＋／Ｄ＋）
同様に、Ｄ−に対応する細胞については：
Ｐ（Ａ＋Ｂ−／Ｄ−）＝Ｐ（Ａ＋／Ｄ−）−Ｐ（Ａ＋Ｂ＋／Ｄ−）
Ｐ（Ａ−Ｂ＋／Ｄ−）＝Ｐ（Ｂ＋／Ｄ−）−Ｐ（Ａ＋Ｂ＋／Ｄ−）
Ｐ（Ａ−Ｂ−／Ｄ−）＝１−Ｐ（Ａ＋／Ｄ−）−Ｐ（Ｂ＋／Ｄ−）＋Ｐ（Ａ＋Ｂ＋／Ｄ−）
である。
前記偶発事象表中の表記方法を用い、および余分な最後の関係を残し、これらの関係は：ｐ_１１＝ｐ_１−ｐ_９
ｐ_１３＝ｐ_５−ｐ_９
ｐ_１２＝ｐ_２−ｐ_１０
ｐ_１４＝ｐ_６−ｐ_１０
に移され、あるいは同等に、
ｐ_１＝ｐ_９＋ｐ_１１
ｐ_２＝ｐ_１０＋ｐ_１２
ｐ_５＝ｐ_９＋ｐ_１３
ｐ_６＝ｐ_１０＋ｐ_１４
に移される。
全ての関係をまとめると、ｐ_９，．．．，ｐ_１６に対するｐ_１，．．．，ｐ_１６の全ての依存性の表を以下に掲げる。値の間の依存性を得るために、列内の確率は、値＝１を有する行内の確率の合計であり、例えば、第一列はｐ_１＝ｐ_９＋ｐ_１１を与える。

頻度および確率の間の関係から、ｎ＝９．．．１６についての測定方程式ｆ_ｉ＝ｐ_ｉ＋ｎ_ｉを作成でき、ここで、ｎ_ｉは、出現ｆ_ｉの頻度に基づいた確率ｐ_ｉの不完全な測定を表すノイズ項である。前記した関係にこれを適用し、かつ偶発事象ＡＢの細胞の全ては測定されていると仮定し（これは、丁度説明目的のためであり、以下に議論する）、これらの１０の観察を表すことができる。
これらの測定方程式は：
Ｆ＝ＸＰ＋Ｎ
として行列表記方法で表すことができる。ここで、Ｆ＝［Ｆ_１，．．．，Ｆ_１６］^Ｔ、Ｐ＝［ｐ_９，．．．，ｐ_１６］^ＴおよびＮ＝［ｎ_９，．．．，ｎ_１６］^Ｔであり、Ｘは前記表中に表した行列である。この行列方程式を用いて、８つの未知の係数、ｐ_９．．．ｐ_１６、を解くことができる。この特別な場合において、我々は、全てのパラメーターｐ_９．．．ｐ_１６について解く。もし我々が組み合わされたＡ，Ｂ遺伝子について全ての測定を有しないならば、我々は、Ｄ＋についての少なくとも１つの測定、およびＤ−についての１つの測定を必要とする。前記関係を仮定すれば、次いで、我々は表の残りを満たすことができる。言い換えれば、仮定実験ＡＢについての偶発事象表を埋めることができるためには、望ましくは、ＡおよびＢの特定の状態が、Ｄ＋およびＤ−の結果を有する対象について同時に測定される少なくとも１つの例がある。これは、なされた測定を表す行列Ｘについて十分なランクを達成することを可能とし、従って、値ｐ_９．．．ｐ_１６を解き、偶発事象表ＡＢに満たす。もしより多くの実験データが存在すれば、さらなる列を、前記で示したのと同様な構造を持つ行列Ｘの底部に加えることができる。

正確な回帰を行うためには、群試料のサイズによって決定される各観察ｆｉについての重みを持つ重み付け回帰が望ましく、従って、さらに多くの観察を持つ実験および細胞はより重み付けされる。測定方程式ｆ_ｉ＝ｐ_ｉ＋ｎ_ｉでは、ｎ_ｉは全て同一の偏差を有さず、回帰は等分散性でない。具体的には、ｆ_ｉ＝１／Ｋ_ｉ ^＊Ｂｉｎｏｍｉａｌ（ｐ_ｉ，Ｋ_ｉ）〜Ｎ（ｐ_ｉ，ｐ_ｉ（１−ｐ_ｉ）／Ｋ_ｉ）であり、ここで、Ｂｉｎｏｍｉａｌ（ｐ_ｉ，Ｋ_ｉ）は、各テストがケース結果ｐ_ｉの確率を有し、およびＫ_ｉテストを行う二項分布を表す。この二項分布はＮ（ｐ_ｉ，ｐ_ｉ（１−ｐ_ｉ）／Ｋ_ｉ）によって近似することができ、これは平均ｐ_ｉおよび偏差ｐ_ｉ（１−ｐ_ｉ）／Ｋ_ｉを持つ二項分布である。この結果、ノイズは、理論的偏差Ｖ_ｉ＝ｐ_ｉ ^＊（１−ｐ_ｉ）／Ｋ_ｉを有する正規変数ｎ_ｉ〜Ｎ（０，ｐ_ｉ（１−ｐ_ｉ）／Ｋ_ｉ）としてモデル化することができる。この偏差は、試料頻度ｖ_ｉ＝ｆ_ｉ ^＊（１−ｆ_ｉ）／Ｋ_ｉで近似することができる。

偏差ｖ_ｉに逆比例する各観察ｉについての重みを持つ重み付け回帰を行った。Ｖが直交要素［ｖ_９，．．．，ｖ_１６］を持つ行列であって、全ての他の要素は０である〜Ｎ（０，Ｖ）としてのノイズ行列Ｎの分布は、今や、記載することができる。これはＶ＝ｄｉａｇ（［ｖ_９，．．．，ｖ_１６］）として示される。同様に、Ｗ＝ｄｉａｇ（［１／ｖ_９，．．．，１／ｖ_１６］）とする。さて、重み付け回帰：
Ｐ＝（Ｘ’ＷＸ）^−１Ｘ’ＷＹ
を用いてＰについて解くことが可能である。
Ｐの偏差は
Ｖａｒ（Ｐ）＝（Ｘ’ＷＸ）^−１
であることは直接的に示され、これを用いて、Ｐの決定における信頼性を示すことができる。

まとめると、我々は、ＡおよびＢの組合せからのデータ（ＡＢ：ｆ_９，．．．，ｆ_１６）と共に、個々の遺伝子からのデータ（Ａ：ｆ_１，．．．，ｆ_４，Ｂ：ｆ_５，．．．，ｆ_８）を用いて、ＡおよびＢの組合せについての確率（ｐ_９，．．．，ｐ_１６）およびそれらの偏差（ｖ_９，．．．，ｖ_１６）を見積もるのを助けた。最後に、我々の研究においては、我々は、確率ではなくｌｏｇオッズ比をほとんど取り扱い、従って、我々は、これらの確率をＬＯＲに移す必要がある。一般に、事象Ｈについて確率および偏差を以下のように仮定する。

ＬＯＲについての式は（デルタ方法によって）偏差を伴って、ＬＯＲ＝［ｌｏｇ（ｐ１）−ｌｏｇ（１−ｐ１）］−［ｌｏｇ（ｐ２）−ｌｏｇ（１−ｐ２）］である。Ｖ＝［（ｐ１）^−１＋（１−ｐ１）^−１］^−２＊Ｖ（ｐ１）＋［（ｐ２）^−１＋（１−ｐ２）^−１］^２＊Ｖ（ｐ２）。以下の表は、Ａ，Ｂの組合せについての確率、対応するＬＯＲおよび偏差を示す。

これは、ｌｏｇオッズ比および各偏差の見積もりを提供する。

この方法の説明として、該技術を使用して、Ｐ（Ａ，Ｂ／Ｄ）の改良された見積もりが得られ、ここで、Ｄはアルツハイマー病を有する状態を表し、およびここで、ＡおよびＢは、各々、ＡＰＯＥおよびＡＣＥ遺伝子の２つの異なる状態を表す。表９は、唯一の遺伝子Ａがサンプリングされた１９９９年にＡｌｖａｒｅｚによって；唯一の遺伝子Ｂがサンプリングされた１９９８年にＬａｂｅｒｔによって；および遺伝子ＡおよびＢがサンプリングされた２００５年Ｆａｒｒｅｒによって行われた３つの異なる実験を表す。結果の２つのセットはこれらの実験から作成されたものであり、表１０に示す。最初のセット（表１０、行２、３、４および５参照）は、全てのコホートを分析し、本明細書中に開示された方法を用いてＰ（Ａ／Ｄ）Ｐ（Ｂ／Ｄ）を仮定してＰ（Ａ，Ｂ／Ｄ）の見積もりを改良する。第二のセット（表１０、行６、７、８および９参照）は、Ｐ（Ａ，Ｂ／Ｄ）についてのＦａｒｒｅｒ（２００５）の近代コホートから生じた結果のみを用い、そこでは、双方の遺伝子がサンプリングされた。前者の場合における予測の信頼限界は低下したと考えられる。これらの予測は、公の源からのＰ（Ａ／Ｂ）を記載するデータを用いてさらに改良することができ−これらの測定は前記したようにＸ行列に加えることができることを注記する。また、本明細書中に記載された技術を用いて、前記したｐ１＝ｐ５＋ｐ７のような関係を用い、Ｐ（Ａ＋／Ｄ＋）、Ｐ（Ａ＋／Ｄ−）、Ｐ（Ｂ＋／Ｄ＋）およびＰ（Ｂ−／Ｄ−）のような別々のＡ，Ｂ確率についての見積もりを改良することができることも注記する。

この方法はただ２つの変数ＡおよびＢについて説明してきたが、偶発事象の表は、アルツハイマー予測の関係で前記したもの：アルツハイマー病の家族履歴、性別、人種、年齢、および３つの遺伝子、すなわち、ＡＰＯＥ、ＮＯＳ３、およびＡＣＥの種々の対立遺伝子のような多くの異なるＩＶを含むことができることに注意すべきである。年齢のような連続的変数は、値のビンにカテゴリー化することによってカテゴリーを作成して、偶発事象表の処方に適当とすることができる。好ましい実施形態において、最大数を用いて、結果の確率をモデル化し、確率の標準偏差は、典型的には、いくつかの特定の閾値未満である。還元すれば、可能な最も特別な偶発事象は、その偶発事象についての十分な関連訓練データを維持して、関連する確率の見積もりを意味のあるものとしつつ、特定の患者に利用可能なＩＶを仮定して創製することができる。

また、本開示を読んだ後に、病気−遺伝子関連、遺伝子−遺伝子関連、および／または集団における遺伝子頻度についてのデータを用いるために同様な技術をどのようにして適用して、多変数線形および非線形回帰および論理回帰モデルの精度を改良することができることは当業者に明らかであろうことを注記する。さらに、本開示を読んだ後に、病気−遺伝子関連、遺伝子−遺伝子関連、および／または集団における遺伝子頻度についてのデータを用いるための同様な技術を適用して、どのように適用して、結果データの利用を可能として、モデルに関連するその全ての独立変数がその結果データにつき測定されるものではないモデルを訓練することによって、多変数線形および非線形回帰および論理回帰モデルの精度を改良することができることは当業者に明らかであろう。さらに、本開示を読んだ後には、病気−遺伝子関連、遺伝子−遺伝子関連、および／または集団における遺伝子頻度についてのデータを用いるための同様な技術をどのようにして適用して、当該分野で良く理解される期待値最大化（ＥＭ）アルゴリズムのような他の技術を用いて形成された偶発事象表モデルの精度を改良することができるかは当業者に明らかであろう。これらの技術は、ＨａｐＭａｐＰｒｏｊｅｃｔからの活用データ、およびＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（ＮＣＢＩ）ＯｎｌｉｎｅＭｅｎｄｅｌｉａｎＩｎｈｅｒｉｔａｎｃｅｉｎＭａｎ（ＯＭＩＭ）およびｄｂＳＮＰデータベースのような公のデータベースに含まれる他のデータに特に関連する。

また、当該特許を通じて、我々が個体または対象に関連するデータに言及する場合、これは、該対象に感染したかもしれないいずれの病原体または該対象に感染しつつあるいずれの癌の該データは言及できるとも仮定する。該個体または対象データは、ヒト胚、ヒト胚盤胞、ヒト胎児、いくつかの他の細胞または細胞のセットについてのデータ、あるいはいずれかの種類の動物または植物にも言及することができる。

明日のデータ：回帰モデルでの多因子表現型のモデル化
より多くのデータが多因子表現型での遺伝子型に関連して蓄積されるにつれ、支配的なシナリオは前記した（ｉｉｉ）となり、すなわち、表現型を正確に予測するためには遺伝子マーカーの複雑な組合せを考慮するのが望ましく、多次元線形または非線形回帰モデルが導かれる。典型的には、このシナリオについてのモデルを訓練するにおいて、潜在的プレディクターの数は、測定された結果の数と比較して大きいであろう。本明細書中に記載されたシステムおよび方法の例は、未決定の、または悪い条件の遺伝子型−表現型データセットについての疎なパラメーターモデルを創製する新規な技術を含む。該技術は、それについて多くのモデリング業績が比較のために利用でき、およびそれについてデータが多くの潜在的遺伝子プレディクターに関連して入手可能な抗−レトロウイルス療法（ＡＲＴ）に対するＨＩＶ／ＡＩＤＳの応答のモデル化に焦点を当てることによって説明される。現実の実験室測定で交差−確証によってテストする場合、これらのモデルは、文献中で以前に議論されたモデル、および本明細書中に記載された他のカノニカル技術よりも正確に薬物応答表現型を予測する。

２つの回帰技術を、遺伝子配列データからの抗−レトロウイルス療法に対する応答においてウイルス表現型を予測する関係で記載し、説明する。双方の技術は、モデルパラメーターの粗なセットの連続的サブセット選択のために凸最適化を使用する。最初の技術は、最小絶対収縮および選択オペレーター（ＬＡＳＳＯ）を用い、これは１^１ノルム喪失関数を適用して、疎な線形モデルを作り出し；第二の技術は径ベースの核関数と共にサポートベクトルマシーン（ＳＶＭ）を用い、これは、ε−非感受性喪失関数を適用して、疎な非線形モデルを創製する。該技術は、１０の逆転写酵素阻害剤（ＲＴＩ）および７つのプロテアーゼ阻害剤薬物（ＰＩ）に対するＨＩＶ−１ウイルスの応答の予測に適用される。遺伝子データは、逆転写酵素およびプロテアーゼ酵素についてのＨＩＶコーディング配列に由来する。この性能を可能とするこれらのモデルの鍵となる特徴は、喪失関数が、パラメーターの多くがゼロである単純モデルを創製する傾向があり、およびコスト関数の凸性が、モデルパラメーターを見出して、特定の訓練データセットについてのコスト関数を全体的に最小化することができることを確実とすることである。

ＬＡＳＳＯおよびＬ^１選択関数
プレディクターＭの数が訓練試料の数Ｎを超える場合、モデル化の問題は過剰決定系、または不適切である。というのは、Ｎのプレディクターのいずれかの任意のサブセット、Ｘ行列における関連行が直線的に独立している限り、訓練データについてのゼロ誤差を持つ線形モデルを生じるのに十分だからである。その結果、線形回帰方法によって戻されたＮ−プレディクターモデルに信頼を置く気がしない。しかしながら、Ｎよりもかなり少数の変数が低い訓練誤差を有するモデルを仮定する。モデルがより疎であれば、低い訓練誤差は偶然人工物である確率は低く；よって、プレディクターが独立した変数に因果的に関連するのがよりありそうである。これは、ＲＴＩデータの場合のように、過剰決定系の問題における疎な解の重要性の基礎となる。同様な議論を、ＰＩデータに当てはまるように、行列Ｘ^ＴＸでの大きな条件数によって特徴付けられる悪条件の問題に適用することができる。この場合、見積もられたパラメーター

はモデル誤差に対して、ならびに測定ノイズに対して高度に感受性であり、結果として、正確に一般化されないようである。過剰決定系および悪条件の問題は、可能なプレディクター−遺伝子、蛋白質、または我々の場合には、突然変異部位の数が、測定された結果の数に対して大きな遺伝子データに典型的である。

そのような場合に対する１つのカノニカルアプローチはサブセットの選択である。例えば、段階的選択にて、各工程において、その変数が予測誤差に相関する優位性のレベルを示す最高Ｆ−検定統計学を有することに基づいて、単一プレディクターをモデルに加える。各変数を加えた後、残りの変数を全てチェックして、モデルのプレディクター誤差とのそれらの関連性において統計学的有意性の閾値未満までそれらのいずれも降下しないことを確実とする。この技術は、薬物応答予測の問題に成功して適用されてきた。しかしながら、選択プロセスの区別される性質のため、データの小さな変化はプレディクターの選択されたセットをかなり改変することができる。１つの変数の存在または不存在は、もう１つの変数と関連する統計学的有意性、およびその変数がモデルに含まれ、またはそこから拒絶されるかに影響し得る。これは、特に、悪条件の問題について一般化での精度に影響する。

もう１つのアプローチは、収縮関数によって拘束されるべき見積もられたパラメーター

の値についてである。カノリカル収縮関数は該パラメーターの平方の合計であり、これは：

［式中、λは、典型的には、交差−確証によって決定されるチューニングパラメーターである］
に従ってパラメーターを見出すｒｉｂｇｅ回帰において適用される。この方法は非疎であって、パラメーターを０に設定しない。これは、一般化における精度を低める傾向があり、解を解釈するのを困難とする。

これらの問題はＬＡＳＳＯ技術によって取り組まれる。サブセット選択とは対照的に、ＬＡＳＳＯはプレディクター変数の離散的許容または拒絶を行わず；むしろ、それは連続的サブセット最適化を介して、一緒になって最も効果的なプレディクターとなる変数のセットを一斉に選択することを可能とする。それは１^１ノルム収縮関数：

［式中、λは典型的には交差−確証によって設定される］
を用いる。ＬＡＳＳＯはパラメーターの多くを０に設定する傾向がある。図２０は、選択性と言及されるＬＡＳＳＯのこの特徴に対する洞察を供する。丁度２つの突然変異に基づくモデルは訓練データＸ＝［１０；０１］^Ｔ，ｙ＝［２１］^Ｔで創製され、ｘ−軸およびｙ−軸は、各々、２つのパラメーターｂ_１およびｂ_２を表す。１^１および１^２収縮関数の使用を比較し、ここで、双方の場合において、｜｜ｙ−Ｘｂ｜｜^２＝２となるように訓練データを同等によくフィットさせる解が見出される。大きな円（２００１）、小さな円（２００２）、および（２００３）は、各々、コスト関数｜｜ｙ−Ｘｂ｜｜^２、１^２ノルム｜｜ｂ｜｜^２、および１^１ノルム｜ｂ_１｜＋｜ｂ_２｜についてのレベル曲線を表す。ｒｉｄｇｅ回帰に対する解（１^２）が見出され、ここで、２つの円が交差し（２００４）；ＬＡＳＳＯについての解（１^１）が見出され、ここで、四角および大きな円が交わる（２００５）。１^１ノルムについてのレベル曲線の「尖性」のため、軸ｂ_１上にある解が見出され、これは、従って、疎である。より高次元へ拡大されたこの議論は、疎な解を生じるＬＡＳＳＯの傾向を説明し、なぜ達成された結果が文献に報告されたものよりも測定可能に良好であるかを示唆する。

１^１ノルムは、凸でありつつ、最も選択的収縮関数として見ることができる。凸性は、所与のデータセットに対して１つの全体的解を見出すことができることを保証する。最小角回帰と言及されるかなり有効な最近のアルゴリズムは、Ｍ工程においてＬＡＳＳＯの全体的解に収束することが保証されている。

本開示を読んだ後には、１^１ノルムをどのようにして論理回帰の関係で用いて、カテゴリー変数の各状態の確率をモデル化することもできることは当業者に明らかであろうことを注記する。論理回帰において、測定のセットの事後確率の逆数に対応する凸コスト関数を形成することができる。事後確率は、各結果の尤度のモデル見積もりを仮定する観測された訓練データの確率である。１^１ノルムを凸コスト関数に加えることによって、得られた凸コスト関数を最小化して、特定の結果の確率をモデル化するための疎パラメーターモデルを見出すことができる。論理回帰についての１^１ノルムの使用は、測定された結果の数がプレディクターの数に対して小さい場合に、特に関連し得る。

サポートベクトルマシーンおよびＬ１−ノルム
ＳＶＭは、特に、モデルが独立変数の間の複雑な相互作用を含む場合に、薬物応答および他の表現型の良好なモデル化を達成するように構成することができる。ＳＶＭについての訓練アルゴリズムは、１^１ノルム選択関数の使用を黙示的とする。ＳＶＭは、現実の価値の関数近似を行うことができ、かつ見積もり問題がＨａｄａｍａｒｄの意味において不適切である場合でさえ、試料データの正確な一般化を達成することができる学習アルゴリズムである。正確に一般化されるＳＶＭの能力は、ＳＶＭモデルおよび訓練アルゴリズムにおける２つの選択可能な特徴によって典型的には影響される。第一ものはコスト関数、または訓練において最小化されるべき関数の選択である。第二のものは、ＳＶＭの核、または線形回帰パラメーターの比較的小さなセットを用いて、ＳＶＭが、独立変数の間の相互作用を含む複雑な非線形関数をマッピングするのを可能とする関数の選択である。これらの特徴は以下に議論する。

線形関数近似：

を持つ対象ｉｙ_ｉについての表現型をモデル化することを考える。まず、いくらかε＞０未満の誤差にペナルティを与えない「ε−非感受性喪失」関数と共に、パラメーターでの１^２収縮関数よりなるコスト関数を最小化することによってｂを見積もる。ＳＶ回帰を拘束：

を条件として、以下の最適化：

として公式化することができる。

コスト関数の第二項は、「非感受性」閾値εを超えてモデル化誤差の絶対値を最小化する。パラメーターＣは、誤差ｖｓ重みに対する収縮の相対的重要性を見積もることを可能とする。この拘束された最適化を、ラグランジュの鞍点を見出す標準的技術を用いて解いて、Ｋｕｈｎ−Ｔｕｃｋｅｒ拘束を満足させることができる。前記したコストおよび拘束を適合させるラグランジュは：

である。パラメーターｂ、ζ⁻、ζ^＋のベクトルに関して最小化し、ラグランジュ乗数α⁻、α^＋、λ⁻、λ^＋のベクトルに関して最小化する。ラグランジュ乗数はＫｕｈｎ−Ｔｕｃｋｅｒ拘束に従って望ましくは正であることを注記する。よって、パラメーターの最適なセットは、

を条件として、

に従って見出すことができる。最小化／最大化の順序は相互交換できるので、これらの変数に関するＬの部分的導関数を０に設定することによって、変数ｂ、ζ_ｉ ⁻、ζ_ｉ ^＋に関してまず最小化する。得られた方程式から、重みベクトルを

の項で表すことができることが判明する。また、得られた方程式から、

を条件として、二次形式：

を最大化することによって、係数α_ｉ ^＋、α_ｉ ⁻、ｉ＝１．．．Ｎを見出すことができるように、ラグランジュから変数を排除する。

これは、ベクトルｂが計算されるのを可能とし、ε−非感受性喪失関数に対するＳＶＭモデルを十分に定義する。方程式（１１）から、モデルは、

［式中、β_ｉ＝α_ｉ ^＋−α_ｉ ⁻］
として特徴付けることができることを注記する。得られたモデルは、セット｛β_ｉ，ｉ＝１．．．Ｍ｝中のパラメーターの多くが０となる点で、疎となる傾向があろう。非ゼロの値β_ｉに対応するベクトルｘ_ｉはモデルのサポートベクトルとして知られている。サポートベクトルの数は、チューナブルパラメーターＣの値、訓練データ、およびモデルの適当性に依存する。以下の説明においては、今や、どのようにしてモデルを増加させて、核関数の使用でもって複雑な非線形関数を適合させることができるかを示す。次に、ε−非感受性喪失関数は１^１ノルム収縮関数に関し、それは同じこと、すなわち、１^１ノルムによる疎なパラメーターセットの一斉選択を実質的に達成することが示されるであろう。

変数の間で結合が可能な複雑な関数をモデル化するためには、方程式（１７）の単純な内積を、ベクトルの間のより複雑な相互作用を計算する核関数で置き換える。核関数を挿入し、（１７）中の我々の関数の近似は形態：

［式中、定義によるとＫ（ｘ，ｘ_０）＝１である］
を採る。これらのパラメーターを見出すためには、前記したのと正確に同一の最適化方法を用い、全ての項ｘ^Ｔｘ_ｉをＫ（ｘ，ｘ_ｉ）で置き換える。前記したように、前記したのと同一の拘束に従い、

を最大化する独立変数を見出すことによって、β_ｉ＝α_ｉ ^＋−α_ｉ ⁻に従ってパラメーターセットを計算する。前記したＳＶＭ結果では、径基礎核関数を選択した。

さて、１^１ノルムの黙示的使用を説明するために：方程式（１７）を最適化することを試みる代わりに、最適化：

で開始し、ここで、１^１収縮を明示的に用いて、βの値を拘束させてあり、訓練データの離散的試料に対して定義される代わりに、データフィッティング誤差を、モデル化すべき仮定関数のドメインに対して定義する。さて、変数置換：β_ｉ＝α_ｉ ^＋−α_ｉ ⁻；α_ｉ ^＋，α_ｉ ⁻≧０，α_ｉ ^＋α_ｉ ⁻≧０，ｉ＝１．．．Ｎを行う。次いで、拘束

に従い、

として、最適化を書き直すことができる。異なる拘束を有するこの解は、それにも拘わらず、もしＳＶ方法についての値Ｃが、拘束０≦α_ｉ ^＋，α_ｉ ⁻≦Ｃが単純に拘束（２１）および（２２）となるのに十分に大きく選択されるならば、ε−非感受性喪失関数に一致し、また、基礎関数の１つは、我々の場合についての方程式（１７）におけるように定数である。この場合、ＳＶ方法によって用いられるさらなる拘束

を必要としない。拘束（２５）は既に方程式（１５）において黙示的であることを注記する。というのは、拘束（８）および（９）は同時に活性となることはできず、従って、ラグランジェ乗数α_ｉ ^＋またはα_ｉ ⁻のうちの１つはスラックであるか、または０であるべきであるからである。

これらの条件下で、１^１収縮関数のアプローチを黙示的に用いて、ε−非感受性喪失関数が疎な関数近似を達成することを見ることができる。

多因子表現型予測：ＨＩＶ−１薬物応答のモデリングの例
サルベージＡＲＴの表現型結果の予測に対する現在のアプローチは、主として、薬物養生法および遺伝子突然変異の多くの異なる順列と組み合わせた、主として、統計学的に有意な結果データの欠如のため、良好な予測パワーを示さない。この分野は、多数の不均一データセットの統合、および薬物応答予測の増強の双方についての逼迫した必要性を有する。

本明細書中で示されたモデルは、訓練およびテスト目的のためのＳｔａｎｆｏｒｄＨＩＶｄｂＲＴおよびプロテアーゼ薬物耐性データベースからのデータを用いた。このデータは、逆転写酵素（ＲＴ）またはプロテアーゼコーディングセグメントが配列決定されているＨＩＶ−１ウイルスの６６４４イン・ビトロ表現型テストよりなる。テストは、１０の逆転写酵素阻害剤（ＲＴＩ）および７つのプロテアーゼ阻害剤（ＰＩ）について行われた。ＲＴＩはラミブジン（３ＴＣ）、アバカビール（ＡＢＣ）、ジドブジン（ＡＺＴ）、スタビジン（Ｄ４Ｔ）、ザルシタビン（ＤＤＣ）、ジダノシン（ＤＤＩ）、デラビラジン（ＤＬＶ）、エバビレンズ（ＥＦＶ）、ネビラピン（ＮＶＰ）およびテノフォビール（ＴＤＦ）を含む。ＰＩはアムプラナビール（ＡＰＶ）、アナザナビール（ＡＴＶ）、ネルフィナビール（ＮＦＶ）、リトナビール（ＲＴＶ）、サキナビール（ＳＱＶ）、ロピナビール（ＬＰＶ）およびインジナビール（ＩＤＶ）を含む。

各薬物については、データは形式（ｘ_ｉ，ｙ_ｉ），ｉ＝１．．．Ｎの対に構造化されており、ここで、Ｎは訓練データを構成する試料の数であり、ｙ_ｉは測定された薬物の倍耐性（または表現型）であって、ｘ_ｉは突然変異のベクトル＋定数、ｘ_ｉ＝［１ｘ_ｉ１，ｘ_ｉ２．．．ｘ_ｉＭ］^Ｔであり、ここで、Ｍは関連酵素についての可能な突然変異の数である。もしｍ番目の突然変異がｉ番目の試料に存在すれば要素ｘ_ｉｍ＝１であり、その他の場合ｘ_ｉｍ＝０に設定する。各突然変異はコドン遺伝子座および置換されたアミノ酸の双方によって特徴付けられる。アミノ酸配列に影響しない突然変異は無視する。各薬物についての試料に１％を超えて存在する突然変異のみがモデルについての可能なプレディクターのセットに含まれることを注記する。というのは、耐性に関連する突然変異はあまり頻繁でなく起きるのはありそうもないからである。測定ｙ_ｉは野生型と比較した突然変異ウイルスについての薬物の倍耐性を表す。具体的には、ｙ_ｉは、野生型ウイルスのＩＣ_５０と比較した、突然変異したウイルスのＩＣ_５０（複製を５０％だけ遅らせるのに必要な薬物の濃度）の比率のｌｏｇである。目標は、ｘ_ｉからｙ_ｉを正確に予測する各薬物についてのモデルを開発することである。データに対してバッチ最適化を行うためには、Ｎ×Ｍ＋１行列、Ｘ＝［ｘ_１，ｘ_２．．．ｘ_Ｎ］^Ｔに独立変数をスタックし、ベクトルｙ＝［ｙ_１，ｙ_２．．．ｙ_Ｎ］^Ｔに全ての観察をスタックする。

各アルゴリズムの性能は交差−確証を用いて測定する。各薬物については、一次相関係数Ｒを、モデルの予測された表現型応答、およびテストデータの現実の測定されたイン・ビトロ表現型応答の間で計算する。

ベクトル

が表現型ｙの予測である場合、

はベクトルｙにおける要素の平均を示し、

は全てのもののベクトルを示す。各薬物および各方法については、各々、訓練およびテストのためにデータを比率９：１にランダムに細分化する。１つの例において、１０の異なる細分化を行って、訓練およびテストデータのいずれの重複もなくしてベクトル

およびＲを得る。次いで、この全プロセスを１０回反復して、Ｒの１０の異なる値を得ることができる。Ｒの１０の異なる値を平均して、報告されたＲを得る。また、１０の異なる実験にわたって測定されたモデルの各々についてＲの標準偏差を決定して、モデルが統計学的に有意な方法で比較されることを確実とする。

表１１はＰＩ薬物についての前記したモデルの結果を示し；表１２は１０のＲＴＩ薬物についての結果を示す。結果は、訓練およびテストデータの１０細分化にわたって平均した、修正係数Ｒの形式で示す。試料偏差から計算したＲの平均値の見積もった標準偏差も示す。各薬物についての利用可能な試料の数を最後の列に示す。平均性能を増加させるためにテストした方法は：ｉ）ＲＲ−Ｒｉｄｇｅ回帰、ｉｉ）ＤＴ−検出ツリー、ｉｉｉ）ＮＮ−神経ネットワーク、ｉｖ）ＰＣＡ−主成分分析、ｖ）ＳＳ−段階的選択、ｖｉ）直線核でのＳＶＭ＿Ｌ−サポートベクトルマシーン、ｖｉｉ）ＬＡＳＳＯ−最小絶対収縮および選択オペレーター、およびｖｉｉｉ）径基礎核でのＳＶＭ−サポートベクトルマシーンである。表１１および１２の最後の行中の情報を図２１に示す。図２１中の円は、各ＰＩについての１０の異なる実験にわたって平均し、かつ７の異なるＰＩにわたって平均した相関係数Ｒを示す。図２１中の菱形は、各ＲＴＩについての１０の異なる実験にわたって平均し、かつ１０の異なるＲＴＩにわたって平均した相関係数Ｒを呈する。１標準偏差誤差棒も示す。

モデル化技術がチューニングパラメーターを含む場合は常に、これらは、グリッドサーチアプローチを用い、交差−確証によって測定されたように技術の最適性能のために調整されている。全ての場合において、グリッド量子化は、グリッドからの最良の実行パラメーターが所与のデータについての最適パラメーターから現実的には識別可能であるのに十分良好であった。というのは、グリッド量子化による予測の差は実験ノイズを低めるからである。

データには強い傾向があるが、試料の数の差のため、基礎となる遺伝子プレディクター、および薬物の間で変化するデータ中の他の特異性、各アルゴリズムによって達成されるＲの相互作用は薬物間で変化し得ることは注意すべきである。この変動は、表１１（３ないし９行）および表１２（３ないし１２行）の個々の薬物行を調べることによって見ることができる。

全ての方法のうち、ＳＶＭは良好に実行され、ＬＡＳＳＯを僅かに凌ぐ（ＲＴＩについてＰ＜０．００１；ＰＩについてＰ＝０．１８）。ε−非感受性喪失関数で訓練したＳＶＭの性能は、サポートベクトルマシーンに基づいた従前に報告された方法のそれよりもかなり良好である。非線形核関数を用いるＳＶＭは、線形核関数を用い、およびε−非感受性喪失関数を用いても訓練されるＳＶＭＬを凌ぐ（ＲＴＩについてＰ＝０．００３；ＰＩについてＰ＜０．００１）。ＳＶＭは、神経ネットワークを用い、かつ凸コスト関数および連続的サブセット選択を創製しない他の非線形技術をかなり凌ぐ（ＲＴＩおよびＰＩ双方についてＰ＜０．００１）。凸コスト関数を用いて線形回帰モデルを訓練し、ＬＯＳＳＯ技術は、ＳＳ技術をかなり凌ぐ（ＰＩおよびＲＴＩ双方についてＰ＜０．００１）。トップの５つの方法、すなわち、ＳＳ、ＰＣＡ、ＳＶＭ＿Ｌ、ＬＡＳＳＯ、ＳＶＭ＿Ｒは、全て、疎であるモデルを創製する傾向があるか、または限定された数の非ゼロパラメーターを有する。

プレディクターとして選択された突然変異のサブセットを説明するために、本明細書中に開示されたある実施形態は第二の最良の実行モデル、すなわち、ＳＶＭとは異なり、プレディクターの間の非線形または論理的結合を模倣することを試みない線形回帰モデルを創製するＬＡＳＳＯに焦点を当てる。結果として、どのようにして多くのプレディクターを選択するかを示すのは直接的である。表１３は、各モデルを訓練するにおいて用いられる、突然変異の数（表１３、３列）、および試料の合計数（表１３、２列）と共に、各ＰＩ薬物についてのプレディクターとしてのＬＡＳＳＯによって選択された突然変異の数（表１３、４列）を示す。同一の表が、ＲＩＴについて示される（表１４、同一列は同一事項に対応する）。

選択された突然変異もまた薬物耐性の原因の理解を高めることができる。図２２、２３および２４は、各々、ＰＩ、ヌクレオチドＲＴＩ（ＮＲＴＩ）、および非ヌクレオチドＲＴＩ（ＮＮＲＴＩ）に対する応答を予測するためにＬＡＳＳＯによって選択されたパラメーターの値を示す。図面中の各列は薬物を表し；各行は突然変異を表す。関連突然変異はＰＩ薬物についてはプロテアーゼ酵素に対する、およびＲＮＴＩおよびＮＮＲＴＩ薬物についてはＲＴ酵素に対するものである。各四角の陰影は、その薬物についてのその突然変異に関連するパラメーターの値を示す。右側の色付き棒線（各々、２２０１、２３０１および２４０１）によって示されるように、陰影を付したダーカーであるプレディクターは増大した耐性に関連し；陰影を付したライターであるパラメーターは増大した感受性に関連する。突然変異は、関連パラメーターの平均の大きさを減少させる順序で左側から右側の順序とする。関連パラメーターをクラスにおいて全ての列または薬物にわたって平均する。４０の最大のパラメーターの大きさに関連する突然変異を示す。特定の突然変異、または行については、パラメーターの値は、列、または同一クラスにおける異なる薬物にわたってかなり変化する。

アルゴリズムＲＲ、ＤＴ、ＮＮ、およびＳＳについては、モデルは、全ての遺伝子突然変異についてではなく、むしろＤｅｐａｒｔｍｅｎｔｏｆＨｅａｌｔｈａｎｄＨｕｍａｎＳｅｒｖｉｃｅｓ（ＤＨＨＳ）によって耐性に影響すると考えられる部位で起こる突然変異のサブセットについて訓練した。独立変数の数の低下は、これらのアルゴリズムの性能を改良することが判明した。ＳＶＭ＿Ｌアルゴリズムの場合には、全ての突然変異についてモデルを訓練することによってＰＩに対する最良の性能を達成しつつ、ＤＨＨＳ突然変異サブセットのみを用いてＲＴＩに対する最良の性能を達成した。全ての他のアルゴリズムについては、最良の全性能は、全ての突然変異についてモデルを訓練することによって達成された。

プレディクターとしてのＬＡＳＳＯによって選択されたが、現在、耐性に影響するとＤＨＨＨＳによって判断された遺伝子座と関連付けられていない図２２、２３、および２４に示された突然変異のセットは：ＰＩについては−１９Ｐ、９１Ｓ、６７Ｆ、４Ｓ、３７Ｃ、１１Ｉ、１４Ｚ；ＮＲＴＩについては−６８Ｇ、２０３Ｄ、２４５Ｔ、２０８Ｙ、２１８Ｅ、２０８Ｈ、３５Ｉ、１１Ｋ、４０Ｆ、２８１Ｋ；およびＮＮＲＴＩについては−１３９Ｒ、３１７Ａ、３５Ｍ、１０２Ｒ、２４１Ｌ、３２２Ｔ、３７９Ｇ、２９２Ｉ、２９４Ｔ、２１１Ｔ、１４２Ｖである。ＬＡＳＳＯおよびＳＶＭのようないくつかの場合においては、ＬＰＶのような特定の薬物についての性能は、ＤＨＨＳよって耐性に影響すると認識された遺伝子座のみが含まれた場合（Ｒ＝８１．７２，Ｓｔｄ．ｄｅｖ．＝０．１８）と比較して、全ての突然変異がモデルに含まれた場合（Ｒ＝８６．７８，Ｓｔｄ．ｄｅｖ＝０．１７）、有意に改良された（Ｐ＜０．００１）ことを注記する。これは、ＤＨＨＳによって認識されたものを超えた他の突然変異が薬物耐性において役割を演じることができることを説明する。

凸最適化技術の使用は、本明細書中において、疎なパラメーターセットの連続的サブセット選択を達成して、正確に一般化される表現型予測モデルを訓練することが示された。ＬＡＳＳＯは、１^１ノルム収縮関数に適用して線形回帰パラメーターの疎なセットを生じる径基礎核関数でのかつε−非感受性喪失関数で訓練したＳＶＮは疎な非線形モデルを創製する。これらの技術の優れた性能は、それらのコスト関数の凸性、および疎なモデルを生じるそれらの傾向の点で、説明することができる。凸性は多くの潜在的プレディクターがある場合に、特定の訓練データセットについて全体的に最適なパラメーターを見出すことができるのを確実とする。疎なモデルは、遺伝子データに典型的なように、特に劣決定または悪条件データの関連でよく一般化される傾向がある。１^１ノルムは、最も選択的な凸関数として見ることができる。選択的収縮関数を用いる疎なパラメーターセットの選択は、Ｏｃｃａｍ’ｓＲａｚｏｒと同様な原理で：多くの可能な理論が観察されたデータを説明できる場合、最も単純なものは最も正しいようである：を発揮する。ε−非感受性喪失関数と共に１^２収縮関数を用いるＳＶＭは、サポートベクトルと関連するパラメーターに適用された収縮関数として１^１ノルムの明示的な使用と同様な効果を生じる傾向がある。

１^１収縮関数を用いる技術は、しばしば、ＩＶの数が大きくて、データが未決定または悪条件である場合、正確に一般化することができる。結果として、独立変数の非線形または論理的組合せをモデルに加え、良好なプレディクターである組合せを訓練で選択されると予測することが可能である。ＳＭＶは、線形核関数よりも有意に良好に実行される、径基礎関数のような非線形核関数の使用と独立変数との相互作用をモデル化することが可能である。結果的に、本明細書中に開示した基本的な概念を変えることなく、独立変数の論理的組合せをモデルに加えることによって、ＬＡＳＳＯの性能を高めることができる。論理的項は、決定ツリーによって生じたものから、専門家則によって記載された論理的相互作用から、論理的回帰の技術から、または論理的項のランダム順列のセットさえから由来することができる。ＬＡＳＳＯの利点は、パラメーターが、サポートベクトルよりはむしろ独立変数、または独立変数を含む表現を直接的に組み合わせるので得られるモデルが解釈するのが容易であることである。モデルにおける多数の独立変数に対するＬＡＳＳＯの頑強性は、１^１ノルムの選択的性質およびその凸性双方によるものである。

１^１ノルムよりも収縮関数をより選択的に使用する他の技術が存在する。例えば、ｌｏｇ−収縮回帰は、モデルパラメータセットに存在する情報の量を測定する暗号理論に由来する収縮関数を用いる。この技術は１^１−ノルムの代わりに収縮関数としてｌｏｇ関数を用い、その結果、非凸である。パラメーターの疎なセットを求めるための理論的に興味があるアプローチを供しつつ、ペナルティ関数の非凸性は、対応する回帰を解くことが、ＬＡＳＳＯよりも依然として計算の、扱いやすくなく、プレディクターの大きなセットについては所与のデータについての全体的最小よりはむしろ局所的な最小のみを生じさせることができることを意味する。

本明細書中に記載された技術は、広い範囲の表現型予測問題についての線形および非線形回帰モデルの創製に適用することができる。それらは潜在的遺伝子プレディクターの数が測定された結果の数と比較して大きい場合に特に関連する。

遺伝子独立変数を異なる空間へマッピングすることによる回帰モデルの単純化
前記したように、遺伝子マーカーの複雑な組合せを考える場合、ＳＮＰ変数をもう１つの変数空間に投影して、分析を単純化することが可能であることを注記する。この変数空間は、ＨａｐＭａｐＰｒｏｊｅｃｔによって記載されたクラスターまたはビンのような、突然変異の公知のパターンを表すことができる。言い換えれば、前記した特定のＳＮＰ突然変異を表すベクトルｘ_ｉよりはむしろ、それは、個体が特定のＨａｐＭａｐクラスターまたはビンに入るか否かを表すことができる。例えば、前記した表記方法に従い、Ｂが関連ＨａｐＭａｐビンの数であるベクトルｘ_ｉ＝［ｘ_ｉ１，ｘ_ｉ２．．．ｘ_ｉＢ］^Ｔがあると想像する。もし個体のＳＮＰＳパターンがｂ番目のビンに入るならば、要素ｘ_ｉｂ＝１を設定し、そうでなければ０を設定することができる。別法として、もし個体ＳＮＰおよび特定のビンの間の重複が不完全であって、カテゴリー「他の」において単純に個体を置き換えるのが望ましくないのであれば、各ｘ_ｉｂを、ＳＮＰのパターンおよびビンｂのそれの間の重複の割合と等しく設定することができる。本明細書中に開示された概念を変えることなく多くの他の技術は回帰問題を公式化することが可能である。

結果予測についての交差確証によるモデルの選択
この議論を進めた中で、専門家則、偶発事象表、線形および非線形回帰を含む異なる表現型予測技術を記載した。さて、訓練データの使用に基づき、特定の対象についての特定のカテゴリーまたは非カテゴリー結果をモデル化するのが最良であるモデル化技術のセットから選択する一般的アプローチを記載する。図２５は、システムについての説明的フローダイアグラムを供する。図２５に記載されたプロセスは、特定の患者、モデル化すべき表現型、およびデータをテストし訓練する所与のセットで利用できるデータを仮定して最良のモデルを選択する一般的アプローチであり、該プロセスは特定のモデル化技術から独立している。好ましい実施形態において、用いることができるモデル化技術のセットは、専門家則、偶発事象表、ＬＡＳＳＯで、またはデータが劣決定されていない場合は単純な最小二乗で訓練された線形回帰モデル、およびサポートベクトルマシーンを用いる非線形回帰モデルを含む。

該プロセスは、モデル化されるであろう、あるいはもしそれがカテゴリー変数であれば、それについて確率をモデル化することができる、特定の対象および特定の従属変数（ＤＶ）を選択で開始する２５０１。次いで、該システムは、対象の記録に関連し、かつＤＶの結果のモデル化に関連し得る独立変数（ＩＶ）のセットを決定する２５０２。システムのヒトユーザーは、ユーザーがモデルに関連して可能と考えるＩＶのそのサブセットを選択することもできる。次いで、システムはチェックして２５０３ａ、モデルが既に訓練され、独立変数の所与の組合せ、およびモデル化すべき所与の従属変数について選択されているか否かをみる。もしこれが当てはまり、かつ出来合いのモデルを訓練し、テストするのに用いるデータが旧式でなければ、システムは、そのモデルを用いる予測の創製に直接的に向かう２５１９。そうでなければ、システムは、注目する特定のＤＶを有し、かつ注目する特定の対象と同一のＩＶのセットを有しても有しなくてもよい。全ての他の記録をデータベースから抽出するであろう。そうすることにおいて、システムは、データがモデルを訓練しテストするのに利用できるか否かを決定する２５０３ｂ。もし答えが否であれば、システムは、いずれかの利用可能な専門家則があるかをみるためにチェックして２５１５、対象で利用可能なＩＶのサブセットに基づいて結果を予測する。もし専門家則が利用できなければ、システムは出て２５０４、それが有効な予測をできないと示す。もし１以上の専門家則ができれば、システムは、特定の対象のデータに最良に適する専門家則のサブセットを選択する２５０５。好ましい実施形態において、対象にいずれの専門家則を適用するかの選択は、その専門家則見積もりにおける信頼性のレベルに基づくであろう。もしそのような信頼性見積もりが利用できなければ、それらの特異性のレベルに基づいて、すなわち、注目する対象で利用できるどれくらい多くのＩＶを専門家則が予測で用いるかに基づいてランク付けすることができる。次いで、専門家則の選択されたサブセットを用いて予測を生じさせる２５０６。

もしデータが利用できると判断されたならば２５０３ｂ、システムはチェックして２５１６、テストおよび訓練データで失われたいずれかのデータがあるか否かを決定する。言い換えれば、関連ＤＶを含む全ての記録について、システムはチェックして、全ての記録が、注目する患者について利用できるのと正確に同一のＩＶのセットを有するか、およびいずれがモデルにおいて潜在的予測であり得るかをチェックする。典型的には、答えは「否」であろう。というのは、異なる情報が異なる患者で利用可能だからである。もし失われたデータがあればシステムは四方を進んで対象にとって最良の可能な予測をなすのに用いるべきＩＶのセットを見出す。この手法は時間を消費するものである。というのは、それは多数ラウンドのモデル訓練および交差−確証を含むからである。その結果、この手法における最初の工程は、考えられるＩＶのセットを、利用可能な計算時間に基づいて管理可能なサイズに低下させることである２５０７。好ましい実施形態においてＩＶのセットは、やはり利用可能なＤＶを有する対象のあるパーセンテージについてのそのＩＶに関するデータがあることに基づいて低下させる。単純な線形回帰モデルを仮定し、それらはモデル化誤差に関連する程度に基づいてＩＶを選択する段階的選択のような当該分野で知られた他の技術を用いて、ＩＶのセットをさらに低下させることができる。次いで、システムはループに入り、そこでは、残りのＩＶの各組合せが調べられる。好ましい実施形態において、各ＩＶおよびＤＶについても以下の状態を考慮する：各ＩＶはモデルに含めることができるか、または含めることができず、全ての対象について陽性であるＩＶまたはＤＶについての数値データでは、該データはその対数を取ることによって進行させても、させなくてもよい。ＩＶの包含／排除および前処理の各特定の組合せについてモデル化技術のセットを適用する２５１０。

ほとんどのモデル化技術は、テストデータでの交差−確証を用いるグリッド−サーチアプローチに基づいて最適化し、またはチューニングすることができるいくつかのチューニングパラメーターを有するであろう。例えば、先に議論したＬＡＳＳＯ技術については、多くの値が変数パラメーターλについて調べられる。λの各値について、回帰パラメーターを訓練することができ、モデルの予測をテストデータの測定された値と比較することができる。同様に、先に議論したサポートベクトルマシーンアプローチでは、グリッド−サーチアプローチを用いて最適化すべきチューニングパラメーターはＣ、ε、および、おそらくは核関数の特徴を記載するパラメーターを含む。偶発事象表に基づいた技術ではチューナブルパラメーターは、先に議論したように、偶発事象を所与の対象についてできるだけ特異的としつつ、偶発事象表モデルから許容できる最高の標準偏差と比較することができる。

多くの異なる行列を用いて、モデル予測をテストデータと比較して、チューナブルパラメーターを最適化し、モデルを選択することができる。好ましい実施形態において、誤差の標準偏差を用いる。他の実施形態において、予測されたおよび測定された結果の間の相関係数Ｒを用いることができる。論理的回帰または偶発事象表の関係で、事後確率、すなわち、各テスト結果の尤度のモデルの予測を仮定するテストデータの所与のセットの確率を用いることもできる。いずれの測定基準を用いようとも、もし予測誤差の標準偏差をテスト測定基準として用いるならば、予測誤差の標準偏差の最小化のような、測定基準の値を最適化するチューニングパラメーターのその値を選択する。モデル訓練および交差−確証はゆっくりとしたプロセスであるので、この段階２５１０において、異なるチューニングパラメーターが調べられるように規定するグリッドは、最良のモデルおよび最良のチューニングパラメーターの粗いアイデアのみを得ることができるように、利用可能な時間の量に基づいておおまかセットされる。

一旦、全ての異なるＩＶ／ＤＶ組合せがこのようにして調べられたならば２５１１、システムが、テスト測定基準の最良の値を達成した、ＩＶ／ＤＶの組合せ、モデルおよびチューニングパラメーターを選択する。もし失われたデータがなければ、システムはＩＶ／ＤＶのすべての組合せをチェックする工程をとばすことを注記する。代わりに、システムは、異なるモデル化技術およびチューニングパラメーターを調べ２５０８、テスト測定基準を最大化するモデル化方法およびチューニングパラメーターのセットを選択する。次いで、より細かく間隔を設けられたグリッドを用い、システムは最良の回帰モデルの洗練されたチューニングを行い、チューニングパラメーター値の各セットについて、テストデータとの相関を決定する。テスト測定基準の最良な値を生じるチューニングパラメーターのセットを選択する。次いで、システムは、予測誤差の標準偏差のようなテスト測定基準が、予測が有効と考えられるように、選択された閾値未満であるか否かを決定する２５１８。例えば、１つの実施形態において、Ｒ＞０．５の相関係数は予測が有効とみなされるのに望ましい。もし得られたテスト測定基準が閾値を満足しないならば、予測を行うことができない２５１７。もしテスト測定基準が必要な閾値を満足するならば、予測で用いたＩＶおよびモデルがテストデータで達成した相関係数の組合せと共に、表現型予測を生じさせることができる。

失われたデータでの癌コホートにおける交差確証によるモデル選択の説明
この態様を示すためには、ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＨｅａｌｔｈ’ｓＰｈａｒｍａｃｏｇｅｎｏｍｉｃＲｅｓｅａｒｃｈＮｅｔｗｏｒｋの一部であって、どのようにして個々の遺伝子変異が異なる薬物応答に寄与するかを発見する使命を有するＰｈａｒｍＧＫＢで見出すことができる結腸癌に関連する遺伝子および表現型データの利用に焦点を当てた。このデータベースについては、鍵となる挑戦は失われた情報であった。理想的には、前記した回帰技術を適用して、特定の患者に利用できるすべてのＩＶからのモデルについてのＩＶサブセットを自動的に選択したいであろう。しかしながら、これは、モデルを訓練し、テストするために他の患者から入手できるデータの量を制限する。その結果、あまり十分でないＩＶを含有するデータベースについては、独立変数の全ての可能なサブセットを通じてサーチすることが可能である。各々について、前記したように、必要な結果が測定され、および独立変数の関連セットが利用できる患者のセットを抽出することができる。前記したように、可能な方法の空間をサーチして、陽性数的独立変数のｌｏｇを取ることのような含まれた独立変数を前処理することもできる。含まれた独立変数の各組合せ、および独立変数前処理技術については、テストデータでの交差−確証によってモデルを訓練し、テストする。テストデータでの最良の交差−確証を有するモデルを選択する。一旦、ＩＶについての所与のセットのためにモデルを創製したならば、網羅的なモデルサーチを必要とすることなくＩＶの同一セットが供給された新しい患者データにそのモデルを適用する。

この技術は、結直腸癌薬物イリノテカンについての臨床的副作用を予測するのに用いられてきた。ひどい毒性がイリノテカンを受ける癌患者で共通して観察される。イリノテカン薬物動態学および副作用等、イリノテカン代謝酵素および推定関連性のトランスポーターをコードする遺伝子の対立遺伝子変種との間の関係を記載するデータが含まれた。患者を、ＭＤＲ１Ｐ−糖蛋白質（ＡＢＣＢ１）、多薬物耐性−関連蛋白質ＭＲＰ−１（ＡＢＣＣ１）およびＭＲＰ−２（ＡＢＣＣ２）、乳癌耐性蛋白質（ＡＢＣＧ２）、チトクロームＰ４５０イソ酵素（ＣＹＰ３Ａ４，ＣＹＰ３Ａ５）、カルボキシルエステラーゼ（ＣＥＳ１，ＣＥＳ２）、ＵＤＰグルクロノシル−トランスフェラーゼ（ＵＧＴ１Ａ１，ＵＧＴ１Ａ９）、および肝臓転写因子ＴＣＦ１をコードする遺伝子における変異について遺伝子タイプ分けした。この研究のための遺伝子配列データに関連する表現型データを表１５に記載する。

図２６は、ファルマコゲノミック移動エンジンを用いて供給された利用可能なＰｈａｒｍＧＫＢデータが所与の、イリノテカンでの結腸癌治療のための予測結果のモデルを説明する。図２６において、モデルは、関連遺伝子座（２６０１）、用いるインジケーター、この場合、０ないし２４時間からのＣＰＴ−１１の濃度曲線下面積（ＡＵＣ）のｌｏｇ（２６０２）、および１２日ないし１４日に絶対好中球カウントのＮａｄｉｒのｌｏｇ（２６０４）を予測するための０ないし２４時間のＳＮ−３８ＡＵＣのｌｏｇ（２６０３）を示す。テストデータでモデルを交差−確証し、Ｒ＝６４％の相関係数が達成された（２６０５）。モデル予測の経験的標準偏差はモデルを訓練するのに用いられた（２６０７）結果のヒストグラムに重ねて示す（２６０６）。これらの統計学を用いて、イリノテカン治療を完全に差し控えるような通知した治療決定を行い、あるいは顆粒球コロニー刺激因子のような第２の薬物を投与して低いＡＮＣおよび得られた感染を妨げることができる。

高められた診断報告
病気治療の関係では創製された遺伝子データは、データを用いて治療用療法を選択するのを助けることができる臨床家にとって最も用いられるものである。１つの態様において、表現型予測を状況に当てはめ、臨床家または患者に対する報告に組織化する。もう１つの態様において、本明細書中に開示されたシステムおよび方法は、診断ｌａｂ２７０３がｌａｂテスト２７０１および医療報告２７０２からのデータを確証し、それをデータセンター２７０４に送り、そこで、それは開示された方法を用いて分析された標準的腫瘍学に一体化されるより大きなシステム（図２７参照）の一部として用いることができ、高められた診断報告２７０５が創製され、医師２７０６に送られる。

報告を創製することができる１つの可能な状況は、イリノテカンで治療される結腸癌患者についての予測臨床結果に関するであろう。それは、治療のための禁忌の概念、投与スケジュール、副作用プロフィールをコードすることができる。そのような副作用の例は、２つとも普通である骨髄抑制および後期−開始下痢、緊急の医療的看護を必要とするイリノテカン治療の用量−律速副作用を含む。加えて、ひどい好中球減少症およびひどい下痢は、各々、患者の２８％および２１％に影響する。あるＵＧＴ１Ａ１対立遺伝子、肝臓帰納テスト、ギルバート症候群の過去の医療的履歴、および抗−痙攣薬およびいくつかの抗−催吐薬のようなチトクロームｐ４５０を誘導する患者投薬の同定は、イリノテカン用量調整を警告するインジケーターである。

図２８は、表現型予測を用いるイリノテカンでの結直腸癌治療についての高められた報告のモック−アップである。治療に先立ち、報告は患者の癌の段階、過去の医療履歴、現在の投薬および薬物用量を推奨するためのＵＧＴ１Ａ１遺伝子型を考慮する。最初の薬物投与からほぼ１日後に報告は、ＵＧＴ１Ａ１遺伝子中の突然変異、および患者の血液から測定された代謝産物（例えば、ＳＮ−３８、ＣＰＴ−１１）に基づいた、ほぼ２週間の時間における患者の絶対好中球カウントの予測されたＮａｄｉｒの予測を含む。この予測に基づき、医師は、患者にコロニー刺激因子薬物を与え、またはイリノテカン用量を変更するか否かを決定することができる。また、患者を血液カウント、下痢のグレードについてモニターする。データ源および推奨の正当性を供する。

態様の組合せ
先に述べたように、本開示の利点を仮定すれば、他の態様、特徴および実施形態は本明細書中に開示された方法およびシステムの１以上を実行することができる。以下に、開示された発明の種々の態様を複数の方法で組み合わせることができる状況を説明する例の短いリストを掲げる。このリストは包括的であることを意図せず、本発明の態様、特徴および実施形態の多くの他の組合せが可能であることに注意するのは重要である。

１つの例は、各々の値を最適化する方法での種々のゲノタイピング測定技術を利用することができる。例えば、ｌａｂは、ＡｐｐｌｉｅｄＢｉｏｓｃｉｅｎｃｅＴａｑｍａｎアッセイのような低シグナルの場合において、高価であるが、高い品質のデータを与えることができる技術を用いて、標的ＤＮＡを測定し、およびＡｆｆｙｍｅｔｒｉｘ’ｓ５００ＫＧｅｎｅｃｈｉｐ、またはＭＩＰＳのような高価であるが、多量の遺伝物質を必要とする技術を用いて、良好な質のデータを与え、親ＤＮＡを測定することができる。

もうひとつの例は、ＩＶＦ治療を受けているカップルが婦人から収穫された卵を有し、男性からの精子で受精させ、８つの生きた胚を生じる状況であろう。胚盤胞を各胚から収穫し、胚盤胞からのゲノムデータを、Ｔａｑｍａｎゲノタイピングアッセイを用いて測定する。他方、ＭｏｌｅｃｕｌａｒＩｎｖｅｒｓｉｏｎＰｒｏｂｅｓ（分子逆転プローブ）を用い、双方の親から採った組織からジプロイドデータを測定する。男性の精子の１つからの、および婦人の卵の１つからのハプロイドデータもＭＩＰを用いて測定する。親の遺伝子データを用いて８つの胚盤胞のＳＮＰデータを清澄化する。次いで、清澄化された遺伝子データを用いて胚の潜在的表現型に関して予測を行う。最も有望なプロフィールを有する２つの胚を選択し、婦人の子宮に着床させる。

もう１つの例は、その夫がテイ・サックス病の家族履歴を有する妊娠した婦人が、彼女が担う胎児が遺伝子的に罹患性であるかを知りたがっているが、羊水穿刺は流産のかなりの危険性があるのでそれを受けることを望まない状況であろう。彼女は血液を吸い取り、幾らかの胎児ＤＮＡを彼女の血液から単離し、ＭＩＰを用いてそのＤＮＡを分析する。彼女および彼女の夫は、従前に分析された彼らの十分なゲノムデータを既に有しており、それはイン・シリコで利用可能である。医師は、親ゲノムのイン・シリコ知識および本明細書中に開示した方法を用いて胎児ＤＮＡデータを清澄化し、テイ・サックス病の原因である臨界的遺伝子が胎児のゲノムに存在するかをチェックすることもできる。

もう１つの例は、４４歳の妊娠した婦人が、彼女が担う胎児がダウン症候群を有し得るかに関心がある状況であろう。彼女は、流産の個人的履歴を仮定すれば、出生前診断で用いる煩わしい技術を有することを警戒しており、従って、彼女は自分の血液を分析することを選択する。健康ケア実践者は、母体血液試料中の胎児細胞を見出すことができ、婦人自身も遺伝子データの知識とともに本明細書中に開示した方法を用い、異数性について診断することができる。

もう１つの例は、カップルがＩＶＦ治療を受けており；彼らは婦人から収穫した卵を有し、男性からの精子で受精させ、９つの生きた胚を生じる状況であろう。胚盤胞が各胚から収穫され、胚盤胞からのゲノムデータをＩｌｌｕｍｉｍａビーズアッセイを用いて測定する。他方、分子逆転プローブを用いて双方の親から採取された組織からジプロイドデータを測定する。同一方法を用い、父親の精子からのハプロイドデータを測定する。母親から入手できる過剰な卵はなく、従って、バルクジプロイド組織試料は彼女自身の父親および母親から採取され、精子試料は彼女の父親から採取される。それらはすべてＭＩＰを用い分析され、本明細書中で開示された方法を用いて、母親のゲノムについての遺伝子分析を供する。次いで、父親のジプロイドおよびハプロイドデータとともにそのデータを用いて胚盤胞の各々の遺伝子データの高度に正確な分析を行う。表現型予測に基づき、カップルは３つの胚を着床させることを選択する。

もう１つの例は、競走馬飼育者が、彼の優勝競走馬によって種付けされた子馬がそれ自体が優勝馬となる尤度を増加させることを望む状況である。彼は所望の雌馬がＩＶＦによって妊娠されるように手配し、雄馬および雌馬からの遺伝子データを用いて、生きた胚から測定された遺伝子データを清澄化する。清澄化された胚遺伝子データは、育種者が関連遺伝子型−表現型相関を見出し、望ましい競走馬を最も生産するような着床用の胚を選択することを可能とする。

もう１つの例は、妊娠した婦人が彼女が担う胎児がいずれかの深刻な病気に対する素因があるか否かを知りたい状況であろう。父親は既に亡くなっており、従って父親の兄弟および父親の父親から創製されたハプロイドおよびジプロイドデータを用いて、胎児血液サンプリングの間に集められた胎児細胞から測定された胎児の遺伝子データを清澄化することを助ける。健康ケア実践者によって契約された会社は清澄化された遺伝子データを用いて各予測の信頼性とともに、胎児が呈するような表現型のリストを提供する。

もう１つの例は、乏しい研究室技術のため、汚染された胎児遺伝子データと場合によっては闘わなければならない羊水穿刺であろう。開示された方法を用いて、母性および父性遺伝子データを用いて汚染された胎児遺伝子データを清澄化することができる。開示された方法が汚染ＤＮＡの増大した速度を補うことができることを知って、稔性手法を緩和させることによって研究室がコストを切り詰めることができる状況を想像することができる。

もう１つの例は、４０代の婦人が妊娠を得ようとしてＩＶＦを受けている状況であろう。彼女は、胚をスクリーニングして、遺伝病を最も有しないようであり、最も着床し、妊娠まで持っていけそうなものを選択することを望む。彼女が用いているＩＶＦクリニックは生きた胚の各々から胚盤胞を収穫し、標準的な手法を用いてＤＮＡを増幅し、鍵となるＳＮＰを測定する。次いで、技術者は本明細書中に開示された方法を用いて、染色体アンバランスについてスクリーニングし、また、胚の遺伝子データを見出し、それを清澄化して、各胚の表現型素因について予測を行う。

もう１つの例は、妊娠した婦人が羊水穿刺を有し、本明細書中に開示された方法とともに、血液試料中の胎児細胞における遺伝物質を用いて異数性および他の染色体異常についてスクリーニングする。

１つの例は、径基礎核関数およびノルム喪失関数とともにサポートベクトルマシーンを用いる非線形モデルがヒト成人の遺伝子型および表現型データを利用して、早期開始アルツハイマー病の尤度を予測し、該病気の開始を遅らせることができる可能なライフスタイルの変化および運動養生法を提案する。

もう１つの例は、ＬＡＳＳＯ技術を用いる線形モデルが、癌の遺伝子データとともに、肺癌に罹った成人婦人の遺伝子型および表現型データを利用して、いずれの医薬が該病気の進行を遅らせるのに最も効果的であるかを予測する婦人の医師についての医師用の報告を作成する。

もう１つの例は、複数のモデルを、クローン病患者の遺伝子、表現型および臨床データより成る集合データについてテストし、次いで、最も正確であることが判明する非線形回帰モデルが成人男性の表現型および臨床データを利用して、彼のクローン病の徴候を緩和するようであるある種の栄養サプリメントを提案する報告を作成する状況であろう。

もう１つの例は、ＨａｐｍａｐＰｒｏｊｅｃｔを通じて獲得されたデータから形成された偶発事象表を利用し、かつ胚からの胚盤胞から集めた遺伝子情報を利用するモデルを用いて、もし胚が着床すれば、結果をもたらす子供のありそうな表現型に関して予測を行う状況であろう。

もう１つの例は、新生児に感染するＨＩＶの株の遺伝子情報を利用する線形回帰モデルを用いて、いずれの抗ウイルス薬物が、もし投与されたならば、成人に達する最大のチャンスを彼女に与えるかを示唆する赤ん坊の医師用の報告を作成する状況であろう。

もう１つの例は、新しい研究が公表され、中年婦人における心筋梗塞の罹患率、およびある遺伝子および表現型マーカーの間のある相関を示唆する状況であろう。次いで、これは非線形回帰モデルの使用を促進して、中年データの集合データならびにそのデータがシステムに知られている個体の遺伝子および表現型データを再度調べ、次いで、該モデルは、心筋梗塞の危険性が最もある婦人を同定し、予測される危険性を彼らに通知する各医師に送られる報告書を作成する。

もう１つの例は、複数のモデルを試みられた種々の薬物介入を含めた、結腸癌に罹った人々の集合データについてテストされる状況であろう。最良の予測を可能とすることが判明するモデルを用いて、実験的新しい医薬から最も利益を受けるであろう患者、および該新しい医薬に対する権利を所有する会社によってそれらの結果が用いられ、臨床試験に行うにおいて彼らを助ける。

定義
ＳＮＰ（単一ヌクレオチド多形）：個体間変異を示す傾向がある染色体上の特別な遺伝子座。
ＳＮＰを要求すること：直接的および間接的証拠を考慮し、特定の塩基対の同一性を質問すること。
対立遺伝子を要求すること：ＳＮＰを要求すること遺伝子データを清澄化すること：関連する個人の遺伝子データ、および本明細書中に記載された方法を用いて不完全な遺伝子データを取り、誤差のいくつかまたは全てを修正すること。
不完全な遺伝子データ：以下の：対立遺伝子ドロップアウト、不明瞭な塩基対測定、正しくない塩基対測定、偽シグナル、または失われた測定のいずれかを持つ遺伝子データ
信頼性：要求されたＳＮＰ、対立遺伝子、または対立遺伝子のセットが個体の現実の遺伝子状態を表す統計学的尤度
多重遺伝子：複数の遺伝子または対立遺伝子によって影響される
ノイジーな遺伝子データ：不完全な遺伝子データとも呼ばれる不完全遺伝子データ；
未清浄化遺伝子データ：測定された遺伝子データ、すなわち、生の遺伝子データにおいてノイズの存在について修正するのにいずれの方法も用いられたことがない；また、粗遺伝子データとも呼ばれる
直接的関係：母親、父親、息子、または娘
染色体領域：染色体のセグメント、または全染色体
親サポート：遺伝子データを清浄化する開示された方法で時々用いられる名称
染色体のセクション：１塩基対ないし全染色体のサイズの範囲とすることができる染色体のセクション。

（表）

Claims

本願明細書に記載された発明。