[go: up one dir, main page]

JP2015096080A - 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法 - Google Patents

予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法 Download PDF

Info

Publication number
JP2015096080A
JP2015096080A JP2015027583A JP2015027583A JP2015096080A JP 2015096080 A JP2015096080 A JP 2015096080A JP 2015027583 A JP2015027583 A JP 2015027583A JP 2015027583 A JP2015027583 A JP 2015027583A JP 2015096080 A JP2015096080 A JP 2015096080A
Authority
JP
Japan
Prior art keywords
data
genetic
individual
probability
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2015027583A
Other languages
English (en)
Inventor
ラビノビッツ マシュー
Matthew Rabinowitz
ラビノビッツ マシュー
バンジェビック ミレナ
Milena Banjevic
バンジェビック ミレナ
ポール デムコ ザカリー
Zachary Paul Demko
ポール デムコ ザカリー
スコット ジョンソン デイビッド
David Scott Johnson
スコット ジョンソン デイビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Natera Inc
Original Assignee
Natera Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/496,982 external-priority patent/US20070027636A1/en
Application filed by Natera Inc filed Critical Natera Inc
Publication of JP2015096080A publication Critical patent/JP2015096080A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法の提供。
【解決手段】限定された量の遺伝子データが入手可能な、1つのまたは小さな組の細胞についての、または断片DNAからの、および数学的モデルを用いてありそうな表現型結果を予測するための遺伝子データ、および個体の所与の遺伝子、表現型および/または臨床的データ、および密接に関連する患者亜集団からの遺伝子型、表現型および/または臨床的データよりなる関連集合医療的データを判断するためのシステムおよび方法。標的個体についての遺伝子データを公知の方法を用いて獲得し、増幅し、貧弱に測定された塩基対、失われた対立遺伝子、および失われた領域を、標的ゲノムおよび遺伝的に関連する対象のゲノムの間の予測された同様性を用いて復元する。
【選択図】図1

Description

(関連出願への相互参照)
本願は、米国特許法の下で、以下の米国仮特許出願の利益を主張する:2005年11月26日出願の第60/739,882号;2005年12月6日出願の第60/742,305号;2005年12月9日出願の第60/754,396号;2006年2月21日出願の第60/774,976号;2006年4月4日出願の第60/789,506号;2006年6月30日出願の第60/817,741号;2006年7月31日出願の第11/496,982号;および2006年9月22日出願の第60/846,610号;これらの開示は、その全体が本明細書中に参考として援用される。
(技術分野)
本発明は、一般には、医療的に予測される目的のための遺伝子データを獲得し、操作し、および用いる分野、具体的には、不完全に測定された遺伝子データを遺伝的に関連する個体の公知の遺伝子データを用いることによってより正確とし、それにより、種々の表現型結果をもたらす遺伝子不規則性のより効果的な同定を可能とするシステムに関する。また、本発明は、一般に、遺伝子、表現型および臨床的情報を分析し、管理し、それに作用させ、およびその情報を用いて、医療的決定の表現型結果を予測する分野に関する。さらに詳しくは、本発明は、対象の群からの一体化され、確証された遺伝子および表現型データを用いて、特定の対象に関して良好な決定を行う方法およびシステムに関する。
(関連技術の背景)
出生前および着床前遺伝子診断
出生前診断の現行の方法は医師および親に対して成長する胎児における異常を警告することができる。出生前診断がなければ、50人の赤ん坊の内1人は深刻な身体または精神的ハンディキャップを備えたまま誕生し、30人の内1人のように多くの者は先天的奇形のいくつかの形態を有するであろう。あいにくと、標準的な方法は侵襲性テストを必要とし、流産の大まか1%の危険性を有している。これらの方法は羊水穿刺、絨毛膜絨毛バイオプシーおよび胎児血液サンプリングを含む。これらの内、羊水穿刺は最も普通の手法であり;2003年において、それは全ての妊娠のほぼ3%で行われていたが、その使用頻度は過去15年にわたって減少してきた。出生前診断の主な欠点は、限定された活動のコースを仮定すれば、一旦異常が検出されれば、それは非常に深刻な欠陥についてテストするには価値がありかつ倫理的であるに過ぎない。結果として、出生前診断は、典型的には、高い危険性の妊娠の場合に試みられるに過ぎず、そこでは、潜在的異常の深刻性と組合わされた上昇した欠陥の確率が危険性を凌ぐ。これらの危険性を緩和する出生前診断の方法に対する要望が存在する。
最近、無細胞胎児DNAおよび無傷胎児細胞が母体血液循環に入ることができるのが発見された。結果として、これらの細胞の分析は、早期の非侵襲性出生前遺伝子診断(NIPGD)を可能とすることができる。NIPGDを用いることにおける鍵となる挑戦は、母体血液から胎児の細胞または核酸を同定し、それを抽出する仕事である。母体血液における胎児細胞の濃度は胎児の妊娠の段階および状態に依存するが、見積もりは母体血液1ミリリットル毎に1ないし40の胎児細胞、または100,000母体有核細胞当たり1未満の胎児細胞の範囲である。現在の技術は母親の血液から少量の胎児細胞を単離することができるが、胎児細胞をいずれかの量の純度まで豊富化するのは非常に困難である。この関係での最も効果的な技術はモノクローナル抗体の使用を含むが、胎児細胞を単離するのに用いられる他の技術は密度遠心、成人赤血球の選択的溶解、およびFACSを含む。胎児DNA単離は、胎児−特異的DNA配列と共にプライマーを用いるPCR増幅を用いて示されてきた。各胚SNPの分子の10がこれらの技術を通じて利用可能なのに過ぎないので、高い忠実度での胎児組織の下のタイピングは現在可能ではない。
正常なヒトはジプロイド細胞毎に23染色体の2つの組を有し、1つのコピーは各親に由来する。異数性、余分なまたは失われた染色体を持つ細胞、および片親ニ染色体、一方の親に由来する2つの所与の染色体を持つ細胞は、着床の失敗、流産および遺伝病の大きなパーセンテージの原因であると考えられる。個体におけるある種の細胞のみが異数性である場合、該個体はモザイク現象を呈するといわれる。染色体異常の検出は成功した妊娠の確率の増大に加えて、とりわけ、ダウン症候群、クラインフェルター症候群およびターナー症候群のような疾患を持つ個体または胚を同定することができる。染色体異常についてのテストは母親の年齢のように特に重要であり;35歳および40歳の間では胚の40%および50%の間が異常であり、40歳を超えると、胚の半分を超えて異常であると見積もられる。
異数性およびモザイク現象の予測で用いられる伝統的な方法である核型分析は、他のより高いスループットのよりコスト的に有利な方法に対する途を開く。最近多大な注目を集めてきた1つの方法はフローサイトメトリー(FC)および蛍光イン・サイチュハイブリダイゼーション(FISH)であり、これを用いて、いずれかの相の細胞周期において異数性を検出できる。この方法の1つの利点は、それが核型分析よりも安価であるが、コストは、一般に、少し選択された染色体をテストするのでかなり十分である点である(通常、染色体13、18、21、X、Y;時々は8、9、15、16、17、22);加えて、FISHは低いレベルの特異性を有する。15細胞を分析するのにFISHを用い、95%信頼性を持って19%のモザイク現象を検出することができる。テストの信頼性はモザイク現象のレベルが低くなるにつれ、および分析する細胞の数が減少するにつれかなり低くなる。テストが、対立の細胞を分析する場合、15%と高い擬陽性率を有すると見積もられている。より高いスループット、より低いコスト、およびより大きな精度を有する方法に対する多大な要望が存在する。
遺伝病の古典的な出生前診断に対する代替法としての着床前遺伝子診断(PGD)の使用に向けて多くの研究がなされてきた。ほとんどのPGDは、今日、異数性のような高レベルの染色体異常、および成功した着床およびテイク−ホームベイビーである主な結果を伴うバランスしたトランスロケーションに焦点を当てている。着床前段階における胚のより広範なゲノタイピングのための方法に対する要望が存在する。既知の病気に関連する対立遺伝子の数は、現在、OMIMによると389であり、常に上昇している。その結果、病気表現型に関連する多数の胚SNPを分析するのは益々重要となりつつある。出生前診断よりも優れた着床前遺伝子診断の明瞭な進歩は、それが、一旦望ましくない表現型が検出されたならば、作用の可能な選択に関して倫理的論争のいくつかを回避する点にある。
ゲノタイピング
単一の細胞を単離するための多くの技術が存在する。FACSマシーンは種々の適用を有し;1つの重要な適用は、サイズ、形状および総じてのDNA含有量に基づいて細胞間を区別することである。FACSマシーンは、単一細胞をいずれかの所望の容器に分類するように設定することができる。多くの異なるグループが、出生前遺伝子診断、組換え実験、および染色体不均衡の分析を含めた、多数の適用のために単一細胞DNA分析を用いてきた。単一−精子ゲノタイピングは、従前、精子試料の法医学分析で用いて(混合試料から生起する問題を減少させ)、および単一−細胞組換え実験のために用いられてきた。
ヒト胚からの単一細胞の単離は、高度に技術的であるが、今日、体外受精クリニックにおいてルーチン的である。今日まで、出生前診断のほとんど大部分は、蛍光イン・サイチュハイブリダイゼーション(FISH)を用いており、これは、(ダウン症候群、またはトリソミー21のような)大きな染色体異常を決定することができ、およびPCR/電気泳動を用いてきており、これは少量のSNPまたは他の対立遺伝子の要求を決定することができる。極体および胚盤胞は共に成功して単離されてきた。胚の一体性を危うくすることなく単一の胚盤胞を単離するのは非常に重要である。最も普通の技術は、3日胚(6または8細胞段階)から単一の胚盤胞を取り出すことである。胚を特殊な細胞培養基(カルシウムおよびマグネシウムを欠如する標準培養基)に移し、酸性溶液、レーザー、または機械的なドリリングを用いて穴を透明帯に導入する。技術者は、次いで、バイオプシーピペットを用いて、単一の目に見える核を取り出す。臨床的実験は、この目的は着床の成功を減少させないことを示している。というのは、この段階において、胚細胞は未分化だからである。
全ゲノム増幅(WGA)に対して利用できる3つの主な方法がある:連結−媒介PCR(LM−PCR)、縮重オリゴヌクレオチドプライマーPCR(DOP−PCR)、および多数置換増幅(MDA)。LM−PCRにおいては、アダプターと呼ばれる短いDNA配列をDNAの平滑末端に連結する。これらのアダプターは普遍的増幅配列を含有し、これはPCRによってDNAを増幅するのに用いられる。DOP−PCRにおいては、普遍的増幅配列をやはり含有するランダムプライマーを第一ラウンドのアニーリングおよびPCRで用いる。次いで、第二ラウンドのPCRを用いて、普遍的プライマー配列をさらに持つ配列を増幅する。最後に、MDAはphi−29ポリメラーゼを用い、これは、DNAを複製する高度にプロセッシング可能な非特異的酵素であり、単一−細胞分析で用いられてきた。これらの方法のうち、DOP−PCRは、単一コピーの染色体を含めた、少量のDNAから多量のDNAを信頼性よく生産する。他方、MDAは最も速い方法であり、数時間以内にDNAの100折り畳み増幅を生産する。単一細胞からの増幅材料に対する主な制限は(1)極端に薄いDNA濃度または極端に小さな容量の反応混合物を用いる必要性、および(2)全ゲノムを横切って蛋白質からDNAを信頼性よく解離させる困難性である。それにもかかわらず、単一−細胞全ゲノム増幅は、何年もの間種々の適用に対して成功して用いられてきた。
これらの関連でDNA増幅を用いるのに多数の困難がある。PCRによる単一−細胞DNA(または少数の細胞からの、またはより少量のDNAからのDNA)の増幅は、該ケースの5ないし10%において報告されているように完全に失敗しかねない。これは、しばしば、DNAの汚染、細胞の喪失、そのDNA、またはPCR反応の間におけるDNAの接近性である。増幅およびマイクロアレイ分析による胚DNAの測定で生じ得る誤差の他の源は、特定のヌクレオチドがPCRの間に誤ってコピーされるDNAポリメラーゼによって導入される転写誤差、およびアレイ上での不完全なハイブリダイゼーションによるマイクロアレイのリーディング誤差を含む。しかしながら、最大の問題は、ヘテロ接合性細胞における2つの対立遺伝子のうちの一方を増幅できないことと定義される対立遺伝子ドロップ−アウト(ADO)のままである。ADOは増幅の40%を超えるまで影響しかねず、既に引き起こされたPGD誤診断を引き起こしてきた。ADOは特に優性病の症例において健康の論争となり、ここで、増幅できないことは侵された胚の着床に導きかねない。(ヘテロ接合体における)各マーカー当たり1を超えるプライマーの組に対する必要性はPCRプロセスを複雑とする。従って、より信頼性があるPCRアッセイがADO起源の理解に基づいて開発されつつある。単一−細胞増幅のための反応容器は実験中である。アンプリコンのサイズ、DNA分解の量、凍結および解凍およびPCRプログラムおよび条件は、各々、ADOの速度に影響する。
しかしながら、全てのそれらの技術は、単一細胞における増幅で利用可能なDNAの微量に依存する。このプロセスにはしばしば汚染が伴う。適当な滅菌条件およびマイクロサテライトサイジングは、汚染DNAの確率を排除することができる。というのは、出生前対立遺伝子においてのみ検出されるマイクロサテライト分析は汚染を排除するからである。対立−細胞レベルまで分子診断プロトコルを信頼性よく導入する研究は、最近、マイクロサテライトマーカーの第一ラウンド多重PCR、続いての、リアル−タイムPCRおよびマイクロサテライトサイジングを用いて追求されて、汚染の機会を排除してきた。多重PCRは単一−細胞DNA分析における非常に重要な用件である単一反応における多数断片の増幅を可能とする。慣用的なPCRはPGDで用いられた最初の方法であるが、蛍光イン・サイチュハイブリダイゼーション(FISH)は今日普通である。乱れていない細胞および組織構築物内での拡散の検出を可能とするのはデリケートなビジュアルアッセイである。それは、先ず、分析すべき細胞の固定に依拠する。その結果、試料の固定および貯蔵条件の最適化が、特に、単一−細胞懸濁液で求められる。
単一−細胞レベルでの多数の病気の診断を可能とする最新の技術は相間染色体変換、比較ゲノムハイブリダイゼーション(CGH)、蛍光PCR、および全ゲノム増幅を含む。これらの技術の全てによって得られたデータの信頼性は、DNA調製の質に依拠する。PGDは高価でもあり、その結果、ミニ−配列決定のような安価なアプローチに対する要望が存在する。ほとんどの突然変異−検出技術とは異なり、ミニ−配列決定は低いADO率での非常に小さなDNA断片の分析を可能とする。増幅およびPGDについての単一−細胞DNAを調製する良好な方法が従って求められており、研究されている。より新規なマイクロアレイおよび比較ゲノムハイブリダイゼーション技術は、依然として結局は、分析されるDNAの質に依拠する。
いくつかの技術が、少数の細胞、単一細胞(例えば、胚盤胞)、少数の染色体のDNAについての、またはDNAの断片からの多数SNPを測定するために開発されている。ポリメラーゼ鎖反応(PCR)、続いてのマイクロアレイゲノタイピング分析を用いる技術がある。いくつかのPCR−ベースの技術は、多数置換増幅(MDA)、および単一対のプライマーでのPCRを用いて増幅することができる多数のタグドオリゴヌクレオチドを用いてゲノタイピングを行う分子逆転プローブ(MIPS)のような全ゲノム増幅(WGA)技術を含む。非PCRベースの技術の例は蛍光イン・サイチュハイブリダイゼーション(FISH)である。該技術は、対立遺伝子ドロップアウト、不完全なハイブリダイゼーション、および汚染のような効果のインパクトを亢進するであろう限定された量の遺伝物質によりひどく誤差の傾向があることが明らかである。
ゲノタイピングデータを供する多くの技術が存在する。TaqmanはApblied
Biosystemsによって生産され、分配されるユニークなゲノタイピング技術である。Taqmanはポリメラーゼ鎖反応(PCR)を用いて、注目する配列を増幅する。PCRサイクリングの間に、対立遺伝子特異的な従たる溝バインダー(MGB)は増幅された配列にハイブリダイズする。ポリメラーゼ酵素によるストランド合成はMGBプローブに連結されたレポーター色素を放出し、次いで、Taqman光学リーダーは色素を検出する。このように、Taqmanは定量的対立遺伝子区別を達成する。アレイベースのゲノタイピング技術と比較して、Taqmanは反応当たりかなり高価であり、(〜$0.40/反応)、およびスループットは比較的低い(実行当たり384遺伝子型)。反応当たり1ngのDNAが必要とされるに過ぎないが、Taqmanによる数千の遺伝子型はマイクログラム量のDNAを必要とし、従って、Taqmanは必ずしもマイクロアレイよりも少ないDNAを用いない。しかしながら、IVF遺伝子型ワークフローに関しては、Taqmanは最も容易に適用できる技術である。これはアッセイの高い信頼性および、最も重要なことには、アッセイのスピードおよび容易性のためである(実行当たりほぼ3時間、および最小の分子生物学工程)。また、(500k Affymetrixアレイのような)多くのアレイ技術とは異なり、Taqmanは高度に慣用化でき、これは、IVF市場で重要である。さらに、Taqmanは高度に定量的であり、従って、異数性はこの技術単独で検出できよう。
Illuminaは、最近、高−スループットゲノタイピングにおけるリーダーとして出現した。Affymetrixとは異なり、Illuminaゲノタイピングアレイはハイブリダイゼーションに専ら依拠しない。その代わり、Illumina技術が対立遺伝子−特異的DNA延長工程を用い、これは、元の配列の決定について、ハイブリダイゼーション単独よりもかなり感受性であって、特異的である。従って、これらの対立遺伝子の全てはPCRによって多重的に増幅され、次いで、これらの産物はビーズアレイにハイブリダイズされる。これらのアレイでのビーズはユニークな「アドレス」タグを含有し、天然配列を含有せず、従って、このハイブリダイゼーションは高度に特異的であって、感受性である。次いで、対立遺伝子がヘッドアレイの定量的スキャンニングによって呼ばれる。Illlumina Golden Gateアッセイシステムは1536までの遺伝子座を同時に遺伝子型分けし、従って、スループットはAaqmanよりも良好であるが、Affymetrix 500kアレイほどは高くない。Illumina遺伝子型のコストはTaqmanよりも低いが、Affymetrixアレイよりも高い。また、Illuminaプラットフォームは500k Affymetrixアレイと同程度完全となるまでには長くを必要とし(72時間まで)、これはIVFゲノタイピングでは問題である。従って、Illuminaはかなり良好なコールレートを有し、アッセイが定量的であり、従って、異数性がこの技術で検出可能である。Illumina技術が500k AffymetrixアレイよりもSNPの選択においてかなりフレキシブルである。
一定時間において250,000SNPまでの測定を可能とする最高スループット技術の内の1つはAffymetrix GeneChip 500Kゲノタイピングアレイである。この技術はPCRをやはり用い、続いて、ハイブリダイゼーションによる分析、および水晶表面における異なる位置で化学的に合成されたDNAプローブに対する増幅されたDNA配列の検出を用いる。これらのアレイの不利は低いフレキシビリティおよびより低い感度である。「完全なマッチ」および「ミスマッチプローブ」のような選択性を増加させることができる修飾されたアプローチがあるか、これらはアレイ当たりのSNPコールの数を犠牲にしてそれを行う。
パイロ配列決定、または合成による配列決定もまたゲノタイピングおよびSNP分析で用いることもできる。パイロ配列決定に対する主な利点は、極端に速いターンアラウンドおよび曖昧でないSNPコールを含むが、アッセイは、現在、高−スループット平行分析に導かれている。PCR、続いての、ゲル電気泳動は、着床前診断においてほとんどの成功に適合したかなり単純な技術である。この技術において、研究者はネステッドPCRを用いて、注目する短い配列を増幅する。次いで、彼らは特殊なゲル上でこれらのDNA試料を実行して、PCR産物を可視化する。異なる塩基は異なる分子量を有し、従って、どれぐらい速く産物がゲル中を泳動するかに基づいて塩基含有量を決定することができる。この技術は低−スループットであり、現行技術を用いる科学者による主題の分析を必要とするが、スピードの利点を有する(1ないし2時間のPCR、1時間のゲル電気泳動)。この理由で、それは、セラセミア、神経線維腫症2型、白血球接着欠乏症I型、アロポー−シーメンス病、鎌状細胞貧血、網膜芽細胞腫、ペリツェーウス−メルツバッヒャー病、ドゥシェーヌ筋ジストロフィー、およびクラリノ症候群を含めた、膨大な病気についての出生前ゲノタイピングで従前用いられてきた。
非常に高い忠実度でもって少量の遺伝物質を遺伝子型分けするために開発されたもう1つの有望な技術は、Affymetrix’s Genflexアレイのような分子逆転プローブ(MIP)である。この技術は、平行して多数のSNPを測定する能力を有し;平行して測定された10,000を超えるSNPSが証明されている。少量の遺伝物質については、この技術についてのコールレートは概略95%において確立されており、なされたコールの精度は99%を超えることが確立されている。これまで、該技術は所与のSNPについて150分子と小さなゲノムデータの量について実行されてきた。しかしながら、該技術は、着床前遺伝子診断について要求されるように、単一細胞、またはDNAの単一ストランドからのゲノムデータで証明されてきた。
MIP技術は、その2つの端部が、それらがDNAの直ちに隣接する標的配列にハイブリダイズする場合に連結によって接合できる線状オリゴヌクレオチドであるパドロックプローブを用いる。プローブがゲノムDNAにハイブリダイズされた後に、ギャップを満たす酵素をアッセイに加え、これは4つのヌクレオチドの内1つをギャップに加えることができる。もし加えられたヌクレオチド(A,C,T,G)が測定下でSNPに対して相補的であるならば、それはDNAにハイブリダイズし、連結によってパドロックプローブの端部を接合するであろう。次いで、管状産物、または閉じたパドロックプローブをエキソヌクレオリシスによって線状プローブから区別される。エキソヌクレアーゼは、線状プローブを分解し、環状プローブを残すことによって、千倍以上だけ、閉じた−vs−閉じていないプローブの相対的濃度を変化させるであろう。次いで、残ったプローブをもう1つの酵素によって切断部位において開き、DNAから取り出し、PCRによって増幅する。各プローブは20塩基タグよりなる異なるタグ配列が付され(16,000が作り出されている)、例えば、Affynetrix GenFlexタグアレイによって検出することができる。特定のギャップを満たす酵素が加えられた反応からのタグドプローブからの存在は、関連SNP上での相補的アミノ酸の存在を示す。
MIPSの分子生物学利点は:(1)単一反応における多重ゲノタイピング、(2)遺伝子型「コール」はギャップを満たし連結することによって起こるが、ハイブリダイゼーションによっては起こらない、および(3)ユニバーサルタグのアレイへのハイブリダイゼーションは、ほとんどのアレイハイブリダイゼーションに固有な偽陽性を減少させることを含む。伝統的な500k、TaqManおよび他のゲノタイピングアレイにおいて、全ゲノタイプ試料はアレイにハイブリダイズされ、これは種々の完全なマッチおよびミスマッチプローブを含有し、アルゴリズムはミスマッチおよび完全なマッチプローブの強度に基づく遺伝子型を要求するようである。しかしながら、DNA試料の複雑性、およびアレイ上での膨大な数のプローブのため、ハイブリダイゼーションは固有にノイズがある。他方、MIPは、より長く、従って、より特異的であり、従って、プローブを環状化するのに頑強な連結工程を用いる多重プローブを用いる(すなわち、アレイ上にはない)。対立遺伝子ドロップアウトは(貧弱な実行プローブのため)高いであろうが、バックグラウンドは(特異性のため)このアッセイにおいてはかなり低い。
この技術を単一細胞(または少数の細胞)からのゲノムデータで用いる場合、それは、PCRベースのアプローチのように、一体性の争いに悩んでいる。例えば、パドロックプローブがゲノムDNAにハイブリダイズできないことは、対立遺伝子ドロップアウトを引き起こすであろう。これは体外受精の関係で悪くなるであろう。というのは、ハイブリダイゼーション反応の効率は低く、かつそれは相対的に速く進行して、限定された時間内に胚を遺伝子型分けする必要があるからである。ハイブリダイゼーション反応は販売業者が推奨するレベルよりも十分低く減少でき、ミクロ−流動技術を用いて、ハイブリダイゼーション反応を加速することもできる。ハイブリダイゼーション反応のための時間を減少させることに対するこのアプローチは減少したデータの質を引き起こすであろう。
予測ゲノミックス
一旦遺伝子データが測定されれば、次の工程が予測目的でデータを用いることである。多くの研究が予測ゲノミックスにおいてなされ、これは、表現型予測を遺伝子型に基づいてなすことができるように、蛋白質、RNAおよびDNAの正確な機能を理解することを試みる。カノニカル技術は単一−ヌクレオチド多形(SNP)の機能に焦点を当てるが、より進歩した方法は多因子表現型特徴を担うようにされつつある。これらの方法は、遺伝子および表現型予測の組、および測定された結果の組の間の数学的関係を決定するように試みる、直線回帰および非直線神経ネットワークのような技術を含む。また、遺伝子データに典型的なように、結果の数に対して多くの潜在的プレディクターが存在し、データが過少決定される場合でさえパラメーターの重要な組を解決することができるように、さらなる制限を回帰パラメーターに適応するまばらなデータ組を収容するように設計されたRidge回帰、log回帰および段階的選択のような回帰分析技術の組もある。他の技術は、未決定データ組から情報を抽出するために主な成分分析を適用する。決定ツリーおよび偶発性の表のような他の技術は、それらの独立した変数に基づいて主題を細分化して、主題を、表現型結果が同様であるカテゴリーまたはビンに入れるための戦略を用いる。論理的回帰といわれる最近の技術は、カテゴリー的に独立した変数の間の異なる論理的相互関係についてサーチして、遺伝子データに関連する多数の独立変数の間の相互作用に依存する変数をモデル化する方法を記載している。用いる方法に拘わらず、予測の質は、予測をなすのに用いる遺伝子データの質に自然に高度に依存する。
DNA配列決定のコストは迅速に低下しており、近い将来において、個人の利益のための個々のゲノム配列決定はより普通になるであろう。個人的遺伝子データの知識は、広範な表現型予測が個人に対してなされるのを可能とするであろう。正確な表現型予測をなすためには、関係を問わず、高い質の遺伝子データが非常に重要である。出生前または着床前遺伝子診断の場合には、複雑化因子は入手可能な遺伝物質の相対的少量である。限定された遺伝物質をゲノタイピングで用いる場合に、測定された遺伝子データの性質に固有にノイズがあると仮定すれば、一次データの忠実度を増大させ、それをクリーンとできる方法に対する多大な要望が存在する。
臨床的決定がなされる現行の方法は、存在する情報の最良な可能な使用を行わない。医療的、生化学的および情報技術の進歩としては、増大した量のデータが作り出され、アカデミックおよび臨床的実験の関係においての個々の患者について双方を貯蔵する。分析で利用可能な遺伝子、表現型および臨床的情報の量における最近の急増に従い、臨床的に関連する相関関係を見出して、人々がより長く、より健康でかつよりエンジョイできる人生を送るのを助けるのに多大の努力が払われてきた。従前には臨床家および研究者は彼らの分析を少量の明らかな潜在的因子に焦点を当て、データの局所的貯蔵を用いるが、他の剤のスコアによって測定されたデータを活用することができ、および所与の遺伝子型または表現型に相関する従前に疑われていない因子を同定することができるより複雑なモデルを用いる潜在的利点がより明瞭になりつつある。この状況は、一旦個人的な遺伝子データが病気の原因および治療、および対象の他の素因を理解するにおいてより抽象的な役割を占めれば、かなりより複雑になるであろう。次の10年内に、臨床試験のために、または個人化された治療およびまたは薬物割当ての目的のために、患者の全ゲノムをスキャンし、ならびに膨大な表現型データ点を収集するのが可能であろう。
利用可能なデータの量が膨大となり、それが依然として迅速に増大するにつれ、問題の最も重要な点は、最も適当な関係が発見し、かつそれを用いて人々に役に立つのを可能とする設計および実行する良好な方法となった。分析するのに利用可能な変数の数が増大するにつれ、天文学的数の潜在的関係を会得でき、先見的にそれらのいずれかを除外しない方法を開発するのがより重要となった。同時に、それらの研究を同一プロトコルで実行しなかった場合でさえ、多数の研究の知見を総合し、それを利用することができる方法を開発するのが重要である。また、所与の分析において用いるために最適な方法を正しく同定することができるシステムを開発するために、研究されてきた非常に多数の予測モデルを仮定すれば、それは益々重要になりつつある。
HIVの関係におけるバイオインフォマティックス
HIVは三千万を超える人々が現在HIVに罹って生きているヒトにおいてHIVは広域病と考えられ、毎年二百万を超える死亡がHIVに帰せられている。HIVの主な特徴の1つはその速い複製サイクル、および逆転写酵素の高い誤差率および組換え原性の結果としてのその高い遺伝子可変性である。その結果、HIVウイルスの種々の株は異なるレベルの異なる薬物に対する耐性を示し、最適な治療養生法は感染性株の同一性およびその特別な罹患性を考慮することができる。
今日まで認可されたART薬物は11のRTI:7のヌクレオシド、1つのヌクレオチド、および3つの非ヌクレオシド;7つのPI;および1つの融合/エントリー阻害剤のリストよりなる。世界中でのART薬物が現在広く行きわたっていることを仮定すれば、ウイルスの耐性株の出現は、耐性に対する低い遺伝子バリア、および貧弱な薬物固執双方のため不可避的である。その結果、どのようにして突然変異したウイルスが抗−レトロウイルス療法に応答するかを予測する技術は益々重要となっている。というのは、それらはサルベージ療法についての結果に影響するだろうからである。ウイルス遺伝子配列決定の迅速に現象しているコスト−予備的に調製された配列については5ドルと低い容量価格−は、よりコストがかかりかつ関連するイン−ビトロ表現型測定よりはむしろ、ウイルス遺伝子配列データに基づく薬物の選択を魅力的なオプションとする。しかしながら、配列データの使用はウイルス遺伝子突然変異の出現に基づく、ウイルス薬物応答の正確な予測を必要とする。ウイルス突然変異の多くの異なる組合せは、全ての遺伝子補因子およびそれらの相互作用を含むモデルを設計し、限定されたデータでもってモデルを訓練するのを困難とする。後者の問題は、薬物養生法の多くの異なる組合せが、変数、すなわち、ベースライン臨床状態、処置履歴、臨床的結果および遺伝子配列を含有するいずれかの特定の養生法について十分に大きなデータ組を収集するのを困難とする場合に、イン−ビボ薬物応答をモデル化する関係が悪化した。
抗ウイルス薬物に対する耐性は、RTまたはプロテアーゼ配列内の1つの突然変異、または複数の突然変異の組合せの結果であり得る。RT酵素は560コドンの鍵となる組によってコードされ;プロテアーゼ酵素は99のコドンによってコードされる。アミノ酸を改変する突然変異のみをコードすることによって各アミノ酸遺伝子座は19の可能な突然変異を有し;従って、RT酵素について野生型とは異なる合計10,640の可能な突然変異、およびプロテアーゼ酵素についての1,981の可能な突然変異がある。単純な直線モデルを用い、データで総合した各突然変異(全ての突然変異が起こるのではない)が特定の重み付け、または直線回帰パラメーターと関連させる場合、数千のパラメーターが存在し得る。もし数百人の患者の試料のみが各薬物で利用できるならば、問題は過剰決定的であるか、またはHadamardの意味において不適切である。というのは、独立した方程式よりも評価するより多くのパラメーターがあるからである。不適切な問題のためにモデル構築する問題に適用することができる多くの技術が存在する。これらが先見的専門知識を観察と組み合わせて、専門家のルールに基づくシステム、ならびにi)リッジ回帰、ii)主要成分分析、iii)決定ツリー、iv)段系的選択技術、v)神経ネットワーク、vi)最小絶対収縮および選択オペレーター(LASSO)およびvii)Support Vector Machines(SVM)を含めた統計的方法を作り出すことを含む。
3つの主な産業−標準専門家システムを典型的に用いて、ART薬物へのHIVウイルスの罹患性:ANRS−AC11システム、Regaシステム、およびStanford
HIVdbシステムを予測する。新しいアルゴリズムがこれらの専門家システムに対して評価されるのは文献において通常である。しかしながら、これらの専門家システムのいずれも、表現型応答の直接的予測を行うように設計されていないが、むしろ、異なる薬物をそれにより比較することができる数値スコアを供し、または感受性、中程度および耐性のような区別されるグループに薬物を分類するように設計されている。加えて、段階的選択でもって訓練された直線回帰モデルのような統計学的アルゴリズムは、表現型結果の予測において専門家システムを実質的に凌ぐことが明瞭に確立されている。結果として、統計学的技術の組のみが、文献に最近開示された方法を最良に実行することを含む詳細な記載中の新規な方法と比較される。
サルベージARTの臨床的結果の予測に対する現在のアプローチは、薬物養生法および遺伝子突然変異の多くの異なる順列と組み合せた、ほとんどは、統計学的に有意な結果のデータの欠如のため、良好な予測パワーを示さない。この分野は多数の不均一なデータ組の一体化、および薬物応答予測の増強の双方のための緊急の要望を有する。
癌の関係でのバイオインフォマティックス
見積って80,000の年次臨床試験のうち、2,100は癌薬物のためである。癌療法のための危険性および利点をバランスさせることは、表現型および遺伝子型情報の組合せ使用についての臨床的先駆者を表す。過去数十年において化学療法で大きな進歩があったにもかかわらず、腫瘍学者は彼らの癌患者を、癌細胞について正常な細胞に対してしばしば毒性である原始的全身薬物で依然として治療している。かくして、化学の最大毒性用量および治療用量の間に微妙な線がある。さらに、用量−制限毒性は、他の患者ではなくある患者においてよりひどく、治療運動をより高くまたはより低くシフトさせ得る。例えば、乳癌治療で用いられるアントラサイクリンは有害な心血管事象を引き起こしかねない。現在、もし患者が心臓病に対して低い危険性であると決定できても、治療ウィンドウをより大きな用量のアントラサイクリン療法を可能とするようにシフトできたとしても、全ての患者はあたかも心血管毒性の危険性があるように治療される。
各患者についての化学療法の利点および危険性をバランスさせるために、副作用のプロフィール、および医薬介入の治療的有効性を予測することができる。癌療法は、しばしば、ユニークな宿主および腫瘍遺伝子型についての不適切な調整のため失敗する。単一の多形は、稀には、薬物応答において有意な変動を引き起こし;むしろ、マニフォールド多形の結果ユニークな生体分子組成物をもたらし、臨床的結果の予測を困難とする。「ファルマコゲネティックス」は、広く、遺伝子変異が薬物に対する患者の応答に影響する方法と定義される。例えば、肝臓酵素における天然の変異は薬物代謝に影響する。癌化学療法の将来は標的化医薬であり、これは、癌を、多数の遺伝子的、分子的、細胞的、および生化学的異常を含む病気プロセスとして理解する必要がある。酵素−特異的薬物の出現に伴い、腫瘍が特異的にまたは正常な組織よりも高いレベルで分子標的を発現することを確実とするために注意することができる。腫瘍細胞および健康な細胞の間の相互作用を考慮することができる。というのは、患者の正常な細胞および酵素は腫瘍薬物の曝露を制限でき、または有害な事象をよりありそうにしかねないからである。
バイオインフォマティックスは癌治療に大変革を起こさせ、仕立てられた治療が利点を最大化し、有害な事象を最小化するのを可能とする。応答を予測するのに用いられる機能的マーカーはコンピュータアルゴリズムによって分析することができる。乳癌、結腸癌、肺癌および前立腺癌は4つの最も普通の癌である。これらの癌に対する2つの治療の例は乳癌を治療するのに用いられるタモキシフェン、および結腸癌患者において用いられるイリノテカンである。タモキシフェンまたはイリノテカンも、各々、乳癌または結腸癌を治療するのに必要でなく、または十分でない。癌および癌の治療は、患者の副作用のプロフィールおよび腫瘍応答に従って、療法の改正および、しばしば、組合せ療法を必要とする動的なプロセスである。もし癌治療を決定的なツリーとイメージして、他の療法の前、後またはそれと共にいずれかの1つの治療を与え、またはそれを差し控えるならば、このツリーは決定決断点のサブセットを含み、そこではツリーの多く(すなわち、他の治療)はブラックボックスと考えることができる。それにも拘わらず、医師を最も効果的な治療に部分的にガイドするためのデータを有することは有益であり、より多くのデータを集めるに従い、このデータに基づいて治療の決定を行うための効果的な方法は数千人の癌患者において平均余命および生活の質を有意に改善することができよう。
結腸または大腸は胃腸(GI)管の最後の6−フットのセクションである。合衆国癌協会は、結直腸癌の145,000の症例が2005年において診断され、56,000人が結果として死亡するであろうと見積もっている。結直腸癌はグレード、または細胞の異常、および段階について評価され、これは腫瘍のサイズ、リンパ節の関与、および遠い転移の存在または不存在に細分化される。結直腸癌の95%は、結腸のルーメンをライニングする遺伝子的突然変異体上皮細胞から発生する腺癌である。症例の80ないし90%において、外科的処置単独が看護の標準であるが、転移の存在は化学療法を必要とする。転移性結直腸癌に対する多くの一次療法の1つは5−フルオロウラシル、ロイコボリン、およびイリノテカンの養生法である。
イリノテカンは、スーパーコイルドDNAの絡みを解いて、DNA複製が分裂細胞において進行するようにし、細胞をアポトーシスに対して感受性とするトポイソメラーゼを阻害するカンプトテシンアナログである。イリノテカンは生物学的経路において明確な役割を有さず、従って、臨床的結果は予測するのが困難である。用量−限定的毒性はひどい(グレードIIIないしIV)下痢および骨髄抑制を含む、その双方は直ちに医療的注意を必要とする。イリノテカンはウリジン二リン酸グルコロノシルトランスフェラーゼイソ形態1a1(UGT1A1)によって活性な代謝産物であるSN−38に代謝される。UGT1A1における多形はGIのひどさ、および骨髄副作用と相関する。
先行技術
本明細書中において、本発明の分野に関連する先行技術の組をリストする。この先行技術はいずれも、本発明の新規なエレメントを含まず、または断じてそれに言及しない。特許文献1において、Hartleyらは、作製された組換え部位および組換え蛋白質を用いてDNA分子のセグメントを移動させ、または交換する組換えクローニング方法を記載する。特許文献2において、Parrottらは、生体活性脂質のレベルについて体外受精培養の培地検体を分析して、当該特徴を決定することによって、総じての胚の健康、着床性、および出産予定日まで成功して発生する増大した尤度を含めた体外受精胚の種々の生物学的特徴を決定する方法を提供する。特許文献3において、Threadgillらは、複数の単離された親細胞における部位−特異的有糸分裂組換えに関連するイン・ビトロフェノタイピングおよび遺伝子マッピングで言うようなホモ接合性細胞ライブラリーを調製する方法を記載する。特許文献4において、Stewartらは、血清において直接的に、またはIVF/ET手法の一部として患者から抽出された顆粒膜黄体細胞を培養することによって間接的にレラキシンを測定することによって成功する体外受精(IVF)の確率を決定する方法を記載する。特許文献5において、Cookeらは、女性患者からの生物学的試料中の11□−ヒドロキシステロイドデヒドロゲナーゼのレベルを測定することによってIVFの結果を予測する方法を提供する。特許文献6において、Larderらは、神経ネットワークを用いて、療法剤に対する病気の抵抗性を予測する方法を記載する。特許文献7において、Vingerhoetsらは、所与のHIV株のインテグラーゼ遺伝子型を、関連表現型と共にHIVインテグラーゼ遺伝子型の公知のデータベースと単純に比較して、マッチング遺伝子型を見出す方法を記載する。特許文献8において、Dentonらは、個人のハプロタイプを一般的集団におけるハプロタイプの公知のデータベースと比較して、治療に対する臨床的応答を予測する方法を記載する。特許文献9において、Schadtらは、遺伝子マーカーのマップを構築し、個人の遺伝子および特性を分析して遺伝子−特性遺伝子座データを与え、次いで、これを遺伝子的に相互作用する経路を同定するための方法としてクラスター化し、これを多変数分析を用いて確証する方法を記載する。特許文献10において、Veltriらは、パラメーターとしてバイオマーカーのコレクションを利用して、前立腺癌の再発の危険性を評価する神経ネットワークの使用を含む方法を記載する。特許文献11において、Mascarenhasは、患者についての生化学的プロフィールを確立し、テストコフォルトのメンバーにおいて応答性を測定し、次いで、患者の生化学的プロフィールのパラメーターを個々にテストして、薬物応答性の尺度との相関性を見出すことによって薬物応答性を予測する方法を記載する。
米国特許第6,720,140号明細書 米国特許第6,489,135号明細書 米国特許出願公開第2004/0033596号明細書 米国特許第5,994,148号明細書 米国特許第5,635,366号明細書 米国特許第7,058,616号明細書 米国特許第6,958,211号明細書 米国特許第7,058,517号明細書 米国特許第7,035,739号明細書 米国特許第6,025,128号明細書 米国特許第5,824,467号明細書
(発明の要旨)
開示するシステムは、情報の源として二次的遺伝子データを用い、またその遺伝子データを用いて、表現型および臨床的予測をする、不完全またはノイズがある遺伝子データの清浄化を可能とする。開示はヒト対象からの遺伝子データに焦点を当てているが、開示する方法は関連する範囲において生物の範囲の遺伝子データに適用されることは注意すべきである。遺伝子データを清浄化するために記載する技術は、体外受精の間の着床前診断、羊水穿刺と組み合わせた出生前診断、絨毛膜バイオプシー、および胎児血液サンプリング、および非侵襲性出生前診断との関係で最も関連し、ここで、少量の胎児遺伝物質は母体血液から単離される。診断は遺伝病、欠点または異常の増大した尤度、ならびに臨床的およびライフスタイルの決定を促進するための個体についての表現型予測を行うことに焦点をあてることができる。本発明は、先に議論された先行技術の欠点に取り組む。表現型および臨床的予測を行うための本明細書中に記載された技術は、着床前診断、出生前診断との関係、または医療的疾患、または罹患性を持つ個人の関係を含めた、多数の関係で関連する。本明細書中に開示される技術のある実施形態は、個体についての遺伝子、表現型および/または臨床的情報の組を仮定し、個体についての表現型結果または表現型罹患性の性格な予測を行うためのシステムを記載する。1つの態様において、遺伝子データに典型的なように、測定された結果の数と比較して多くの潜在的予測が存在する場合に表現型を正確に予測することができる線形および非線形回帰モデルを形成するための技術が開示され;本発明のもう1つの態様において、該モデルは分割表に基づき、パブリックドメインで入手可能な情報から形成される。なおもう1つの発明において、システムが記載され、ここで、多数のモデルが関連データセットで訓練され、関連予測を行うのに最も正確なそのモデルを用いる。
本発明の1つの態様において、方法は、減数分裂のメカニズムの知識、および胚DNAの不完全な測定と共に、母親および父親の遺伝子データの不完全な知識を用いて、高度な信頼性でもって鍵となるSNPの位置において胚DNAをイン・シリコにて再構築する。親データは、貧弱に測定されたSNPのみならず、挿入、欠失、およびSNP、または全く測定されなかったDNAの全領域の再構築を可能とすることに注意するのは重要である。
開示された方法は体外受精との関係で適応でき、ここで、着床についてコードされる各胚からのゲノタイピングで利用できる。開示された方法は、少数の胎児細胞、または胎児DNAの断片のみが母親の血液から単離されている非侵襲性出生前診断(NIPD)の関係に等しく適応できる。開示された方法は、羊水穿刺の場合、および胎児の血液が直接的にサンプリングされる他の方法において等しく適応可能である。開示された方法は、限定された量の遺伝子データが標的個人から入手でき、およびさらなる遺伝子データが標的に遺伝的に関連する個体から入手できるいずれの場合においてもより一般的に適用可能である。
本発明の1つの態様において、再構築された胎児または胚ゲノムデータを用いて、細胞が異数性であるか、すなわち、少数の、または2を超える特定の染色体か細胞に存在するかを検出することができる。この疾患の普通の例はトリソリン−21であり、これはダウン症候群を生起させる。再構築されたデータを用いて、所与の染色体の2つが存在し、その双方が1つの親に由来する疾患である片親二染色体についても検出することができる。これは、DNAの潜在的状態についての仮説の組を創製し、いずれの1つが測定されたデータを仮定して真実である最高の確率を有するかを見るためにテストすることによってなされる。異数性をスクリーニングするための高スループットゲノタイピングデータの使用は、各胚からの単一の胚盤胞が多数病気−関連遺伝子座を測定し、ならびに染色体異常についてスクリーニングする双方で用いられるのを可能とするのに注意されたし。
本発明のもう1つの態様において、複数の遺伝子座に存在する増幅されたまたは増幅されていない遺伝物質の量の直接的測定を用いて、異数性、または片親二染色体について検出することができる。この方法の背後にある考えは、単に、増幅の間に存在する遺伝物質の量は初期試料における遺伝子情報の量に比例し、多数の遺伝子座においてこれらのレベルを測定することは統計学的に有意な結果を与えることである。染色体異常についてスクリーニングするこの方法は、遺伝子データを清浄化するための本明細書中に記載された関連方法と組合せて用いることができる。
本発明のもう1つの態様において、開示された方法は、外来性遺伝物質によって生じたデータを同定することにより外来性DNAまたはRNAに汚染されている個体の遺伝物質を清浄化できる。汚染DNAによって生じた偽シグナルは、異数性によって生じた染色体−幅特異的シグナルを検出できる方法と同様に認識することができる。
本発明のもう1つの態様において、標的細胞が単離され、これらの細胞に含有される遺伝子データが増幅され、以下の技術:PCR−ベースの増幅技術、PCR−ベースの測定技術、または分子逆転プローブに基づく検出技術、またはGeneChipまたはTaqManシステムのようなマイクロアレイのうちの1以上の組合せを用いて多数SNPの測定を行う。次いで、この遺伝子データを本明細書中に記載されたシステムで用いる。
本発明のもう1つの態様において、双方の親からのジプロイドおよびハプロイドデータを用いて、個体の遺伝子データを清浄化できる。別法として、親からのハプロイドデータは、もし親のジプロイドおよびハプロイドデータを測定することができれば、シミュレートすることができる。もう1つの態様において、個体に対する公知の遺伝子関連のいずれかの個人からの遺伝子データを用いて、親、兄弟姉妹、祖父母、子孫、従兄弟、叔父、叔母などを含めた、個体のデータを清浄化することができる。
本発明のもう1つの態様において、標的および/または関連個体の遺伝子データはイン・シリコにて部分的にまたは全体的に知ることができ、いくつかの直接的測定の必要性を軽減する。遺伝子データの部分は、隠れたMarkovモデルを利用するインフォーマティックスアプローチによってイン・シリコにて作り出すことができる。
本発明の1つの態様において、SNPの決定における信頼性を見積もることが可能である。
本明細書中に記載された技術は、1つの、または少数の細胞における遺伝物質の測定、ならびに非侵襲性出生前診断(NIPD)との関係で母親の血液から単離することができるもののようなより少量のDNAについての測定の双方に関連することに注意されたし。また、この方法はイン・シリコでの、すなわち、遺伝物質から直接的に測定されないゲノムデータに等しく適応することができる。
本発明の1つの態様において、OMIM(男性におけるオンラインメンデル遺伝)データを介するように刊行物を介して、およびHapMapプロジェクトおよびヒトゲノムプロジェクトの他の態様から入手可能なデータを用いて入手可能なデータから構築することができる分割表に基づいてモデルを作り出すための技術が提供される。この技術のある実施形態は、モデルの予測的精度を改良するために、遺伝子の間の関連についての、および遺伝子および病気の間の関連についての出現する公のデータを用いる。
なおもう1つの態様において、最良のモデルを、特定の患者で利用できるデータで見出すことができる技術を開示する。この態様において、多くの異なるモデリング技術と共に、変数の多くの異なる組合せを調べることができ、他の対象からのテストデータと共に交差−確証に基づいて個々の対象についての最良の予測を生じるであろうその組合せを選択することができる。
いくつかの場合において、個体についての表現型の結果または表現型の感受性の正確な予測を行うにおいて最良のものを生じさせることができるモデルを、凸最適化技術を用いて訓練して、データの特定の組についての全体的に最適なパラメーターを見出すのが保証されるように、プレディクターの連続的サブセット選択を行う。この特徴は、モデルが複雑であり得、遺伝子突然変異または遺伝子発現レベルのような多くの潜在的プレディクターを含有することができる場合に特に有利である。さらに、いくつかの例においては、それらが単純な方法でデータを説明するように、凸最適化技術を用いて、モデルを希薄とすることができる。この特徴は、モデルにおける潜在的プレディクターの数が、訓練データにおける測定された結果の数と比較して大きい場合でさえ、訓練されたモデルが正確に一般化されるのを可能とする。同様な技術は学問的雑誌に公表されている(Rabinowitz,M.ら,2006,“Accurate Prediction of HIV−1 drug response from the reverse transcriptase and protease amino acid sequences using sparse models created by convex optimization.”Bioinformatics 22(5):541−9)。この論文からの情報は背景および文脈のために本書類に含めてあることに注意されたし。
本明細書中に開示されたある説明的実施形態はヒト対象からの遺伝子データに焦点を当て、癌またはHIVにかかった人々についての、またはアルツハイマー病または心筋梗塞のような病気に対する彼らの罹患性を理解したい人々についての特別な実施形態を提供するが、開示された方法は多数の異なる関係の範囲において生物の範囲の遺伝子データに適用されるのに注意すべきである。表現型予測および薬物応答予測について本明細書中に記載された技術は、種々の癌、遺伝子病、細菌、真菌またはウイルス感染の治療との関係で、並びに臨床的およびライフスタイルの決定を促進するために個体について表現型予測を行うにおいて関連し得る。さらに、該システムを用いて、遺伝子データ、具体的にはIVFとの関係で胚(着床前)の、または羊水穿刺を含めた非侵襲性または侵襲性出生前診断との関係で胎児のSNP(単一ヌクレオチド多形)データを仮定し、特定の表現型結果の尤度を決定することができる。
1つの実施形態において、予測的モデルを、標準化された計算可能なフォーマットで貯蔵されている特定の個人についての遺伝子データに適用することができる。個人は、彼らに関連する特定の論点を記載することができ、あるいはシステムは、いずれの表現型罹患性がその個体が関連するかを自動的に決定することができる。新しい研究データが病気−遺伝子関連、治療、またはライフスタイルの嗜好性について入手できるようになるので、個体には、集合されたゲノムおよび臨床データから開発された予測的モデルに基づいて、彼らの決定および嗜好性についてのこの情報のインパクトを知らせることができる。別法として、該システムは新しい研究データを用いて、個体についての疑われていない危険性をここに検出することができ、その個体にはこの情報のインパクトを知らせることができる。
もう1つの実施形態において、遺伝子データ、表現型データおよび関連診断テストを含めた臨床記録のデータベースから一体化されたデータについて訓練された結果予測モデルを用いて臨床家のために増強された報告を作成することができる。このシステムは、限定されるものではないが、HIV、癌、アルツハイマー病および心臓病を含めた、病気および/または病気素因を持つ個体についての増強された報告の創生を提供できる。この増強された報告は治療する医師に、いずれの病気−管理または予防的処置が与えられた個体についてより適当であるか、またはあまり適当でないであろうことを示すであろう。報告は、集合された対象データについて訓練されたモデルを用いるその個体についての鍵となる結果についての予測および信頼性限界を含むであろう。
もう1つの実施形態によると、特定の個体についてのデータを用いて、分割表に基づき、パブリックドメインで入手可能な情報から形成されたモデルを用いて該個体についての予測を行い、該データは該固体の遺伝子データ、該個体の表現型データ、および個体の臨床データ、およびその組合せよりなる群から取られ、ここで、該予測は該個体の表現型、表現型罹患性および可能な臨床的結果を含む群から取られたトピックスに関し、およびここで、該情報は、遺伝子型−表現型関連についての情報、ある遺伝子対立遺伝子の頻度についての情報、遺伝子対立遺伝子内のある関連の頻度についての情報、遺伝子対立遺伝子のある実施形態を仮定したある表現型の1以上の状態の確率についての情報、ある表現型の状態を仮定した遺伝子対立遺伝子のある組合せの確率についての情報、およびその組合せを含む群から取られるシステムおよび方法が開示される。
なおもう1つの実施形態によると、それにより、特定の個体についてのデータを用いて、最良の精度を示すモデルを利用できるように集合データについて訓練された種々の数学的モデルを用い該個体についての予測を行うことができ、ここで、該個体のデータは該個体の遺伝子データ、該個体の表現型データ、および該個体の臨床的データよりなる群から取られ、およびここで、該予測は該個体の表現型、表現型罹患性、可能な臨床的結果、およびその組合せから取られるトピックスに関連するシステムおよび方法が提供される。ある実施形態において、該方法は、多数のモデルおよび多数のチューニングパラメーターを用いて、データの所与の組において異なる独立した変数および従属した変数の組合せの多くまたはすべてを調べることができ、次いで、最良の表現型予測を行う目的でテストデータにて最高の相関係数を達成した独立した変数および従属した変数およびその組合せ、そのモデルおよびそれらのチューニングパラメーターを選択する。
もう1つの実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、該個体に関連する1以上のトピックスに関連する特定の個体についての報告を作成することができ、ここで、該トピックスはライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体に対する可能な治療養生法、薬物介入、およびその組合せを含む群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴およびその組合せに関連するデータに基づく。
他の実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、医師または臨床家のような特定の個人の代理人のための報告を作成することができ、ここで、該予測は該個体に関連する情報を供することによって該代理人を助けることができ、およびここで、該情報の主題はライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体についての可能な治療養生法、薬物介入、他の治療的介入、およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴およびその組合せに関するデータに基づく。
もう1つの実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、癌にかかった特定の個体に利益を与えることができ、およびここに該予測は、その個体および該個体の特定の癌に関連する情報を供することによって臨床家を助けることができ、およびここで、該情報の主題は治療養生法、ライフスタイルの決定、およびダイエットの嗜好性、薬物介入、他の治療的介入およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。
1つの実施形態によると、本明細書中に開示された方法のいずれも、病原体に罹った特定の個体に利益を与えるために用いることができ、およびここで、該予測は、その個体、および該個体を感染する特定の病原体に関連する情報を供することによって臨床家を助けることができ、ここで、該病原体は細菌、ウイルス、微生物、アメーバー、真菌および他の寄生虫よりなる群から選択されるクラスのものであり、およびここで、該情報の主題は治療養生法、ライフスタイルの決定、およびダイエットの嗜好性、薬物介入、他の治療的介入、およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。
もう1つの実施形態によると、本明細書中に開示された方法のいずれも、具体的な個体についての予測、新しい知識、およびデータを用いることができる。というのは、その知識およびデータは入手可能となるからであり、これを用いて、該個体に関連するトピックスについての、情報報告を自動的にまたは要求に応じて作成することができ、ここで、トピックスはライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体についての可能な治療養生法、薬物の介入、他の治療的介入、およびその組合せを含む群から取られ、およびここで、新しい知識およびデータは性質において医療的であり、およびここで、該予測は、該個体の遺伝子のベーキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。
もう1つの実施形態によると、本明細書中に開示された方法のいずれも、特定の胚からの遺伝子データを用いる予測を用いることができ、該予測を用いて、該胚のある表現型に対する予測された感受性に基づくIVFの関係で胚の選択を助けることができる。
1つの実施形態によると、本明細書中に開示された方法のいずれも、特定の胎児からの遺伝子データを用いる予測を用いることができ、該予測を用いて、余命、乾癬の確率、または数学的能力の特定のレベルの確立のような、潜在的子孫についての特別な表現型の結果を見積もることができる。
この開示の利点を仮定すれば、他の態様、特徴および実施形態は本明細書中に開示された方法およびシステムの1以上を実施することができるのは当業者によって認識されるであろう。
例えば、本願発明は以下の項目を提供する。
(項目1)
(i)関連個体からのいずれの染色体のいずれのセグメントが標的個体ゲノムで見出されるセグメントに対応するかに関する1以上の仮説のセットを創製し、
(ii)該標的個体遺伝子データの測定、および該関連個体遺伝子データの測定を仮定して該仮説の各々の確率を決定し、次いで、
(iii)各仮説に関連する確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する:
ことを含む、該標的個体の遺伝子データの不完全な知識、および該標的に遺伝的に関連する1以上の個体の遺伝子データの知識に基づいて該標的個体の遺伝子データを決定する方法。
(項目2)
前記方法が、前記標的の遺伝子データの測定、および親の遺伝子データを仮定した特定の測定の尤度の決定に基づいて、親染色体のいずれの領域が、標的個体に寄与した配偶子の形成に寄与した最大尤度を有するかを、決定することを含む、項目1記載の方法。
(項目3)
親の少なくとも1つのハプロタイプが、親のジプロイド試料から測定された遺伝子データ、およびジプロイド試料から測定されたいずれの対立遺伝子がいずれのハプロタイプに属するかを決定するのに用いられる親からのハプロイド試料から測定された遺伝子データを用いることによって決定されている、項目1記載の方法。
(項目4)
前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性試料、ハプロイド母性試料、ジプロイド父性試料およびハプロイド父性試料からの遺伝子データを含む群から選択される、項目1記載の方法。
(項目5)
清浄化された胚遺伝子データにおける個々のSNP要求の各々について信頼性が計算される、項目1記載の方法。
(項目6)
前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性細胞、ジプロイド父性細胞、ハプロイド父性細胞、母性祖父からのジプロイド細胞、および母性祖父からのハプロイド細胞からの遺伝子データを含む群から選択される、項目1記載の方法。
(項目7)
前記前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性細胞、ジプロイド父性細胞、および問題となる表現型のキャリアーであることが知られた関連個体からのジプロイド細胞からの遺伝子データを含む群から選択される、項目1記載の方法。
(項目8)
遺伝的に関連する個体が、父親、母親、息子、娘、兄弟、姉妹、祖父、祖母、叔父、叔母、甥、姪、孫息子、孫娘、従兄弟、クローン、前記標的に対する公知の遺伝的関係を持つ他の個体、およびその組合せよりなる群から選択される、項目1記載の方法。
(項目9)
前記標的個体が、成人ヒト、若年ヒト、ヒト胎児、ヒト胚、非ヒト成体、非ヒト若年体、非ヒト胎児、および非ヒト胚よりなる群から選択される、項目1記載の方法。
(項目10)
前記個体の遺伝子データの1以上が、ポリメラーゼ鎖反応(PCR)、リガンド媒介PCR、縮重オリゴヌクレオチドプライマーPCR、多重置換増幅、対立遺伝子−特異的増幅技術、およびその組合せよりなる群から選択されるツールおよび/または技術を用いて増幅される、項目1記載の方法。
(項目11)
前記個体の遺伝子データの1以上が、分子逆転プローブ(MIP)、ゲノタイピングマイクロアレイ、Taqman SNPゲノタイピングアッセイ、Illuminaゲノタイピングシステム、他のゲノタイピングアッセイ、蛍光イン−サイチュハイブリダイゼーション(FISH)、およびその組合せを含む群から選択されるツールおよび/または技術を用いて測定される、項目1記載の方法。
(項目12)
前記個体の遺伝子データの1以上が、該個体のバルクジプロイド組織、該個体から取られた1以上のジプロイド細胞、該個体から取られた1以上の胚盤胞、該個体の精液、該個体の卵、該個体で見出される細胞外遺伝物質、母性血液で見出される該個体からの細胞外遺伝物質、母性血漿で見出される該個体からの細胞外遺伝物質、母性血液で見出される該個体からの細胞、該個体に由来することが知られている遺伝物質、およびその組合せを含む群から選択される物質を分析することによって測定される、項目1記載の方法。
(項目13)
前記関連個体遺伝子データの1以上が、イン・シリコにて部分的にまたは全体的に知られているか、あるいは前記標的個体の遺伝子データを決定する以外の個人によって提供される、項目1記載の方法。
(項目14)
前記個体の1以上のハプロイド遺伝子データが、ジプロイドデータからハプロイドデータをシミュレートするコンピュータアルゴリズムによってイン・シリコにて部分的にまたは全体的に創製される、項目1記載の方法。
(項目15)
前記コンピュータアルゴリズムが隠れMarkovモデルを含む項目14記載の方法。
(項目16)
前記標的遺伝子データの決定が、体外受精の関係で胚選択を目的として用いられる、項目1記載の方法。
(項目17)
前記標的遺伝子データの決定が、出生前遺伝子診断の目的で用いられる、項目1記載の方法。
(項目18)
前記標的遺伝子データの決定が、統計学的モデルおよび/または専門家則を用いて表現型罹患性の予測を行う目的で用いられる、項目1記載の方法。
(項目19)
前記標的遺伝子データの決定が表現型予測を行う目的で用いられ、ここで、該表現型のいくつかまたは全てを提示する尤度は、他の従前に知られた表現型情報によって影響される、項目1記載の方法。
(項目20)
前記標的遺伝子データの決定が表現型予測を行う目的で用いられ、ここで、該予測は、該標的遺伝子データを、パブリックドメインで見出される公知の遺伝子マーカーと比較することによってなされる、項目1記載の方法。
(項目21)
標的遺伝子データの決定が、臨床的決定を行う目的で用いられる、項目1記載の方法。
(項目22)
標的遺伝子データの決定が、臨床的決定を行う目的で表現型マーカーと組合せて用いられる、項目1記載の方法。
(項目23)
前記標的遺伝子データの決定が、1以上の病気に対する罹患性についてスクリーニングする目的で用いられ、ここで、家族の病歴が存在しない、項目1記載の方法。
(項目24)
前記標的遺伝子データの決定が、1以上の表現型に対する罹患性についてスクリーニングする目的で用いられ、ここで、該表現型のいくつかまたは全てが多重遺伝子的である、項目1記載の方法。
(項目25)
前記標的遺伝子データの知識が、汚染DNAまたはRNAからの偽データを含有することが知られた、または含有することが疑われる、項目1記載の方法。
(項目26)
前記個体の1以上の遺伝子データが、複数のSNPについての対立遺伝子要求、および各SNPが知られている信頼性を含む、項目1記載の方法。
(項目27)
前記標的個体のSNP要求における信頼性が、該SNPが正しくvs正しくなく要求される確率のオッズ比を計算することによって決定される、項目1記載の方法。
(項目28)
項目1記載の方法を達成するように構成されたシステム。
(項目29)
項目1記載の方法を達成するように構成されたコンピュータ実施システム。
(項目30)
(i)標的個体のゲノムに存在する所与のセグメントの存在の数についての1以上の仮説のセットを創製し、
(ii)該所与のセグメント上の複数の遺伝子座における可能な対立遺伝子のいくつかまたは全てについての遺伝子データの量を測定し、
(iii)該標的個体の遺伝子データおよび、恐らくはまた、関連個体の遺伝子データの測定を仮定して該仮説の各々の相対的確率を決定し、次いで、
(iv)各仮説に関連する相対的確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する;
ことを含む、該標的個体の所与の染色体の所与のセグメント上の多数遺伝子座の測定を用いて、該標的個体のゲノム中の所与のセグメントの存在の数を決定する方法。
(項目31)
該標的ゲノムに存在する染色体のセグメントの存在の数の決定が、染色体異常についてスクリーニングする関係で行われ、この異常は、モノソミー、片親ジソミー、トリソミー、他の異数性、アンバランスなトランスロケーション、およびその組合せを含むリストから選択される、項目30記載の方法。
(項目32)
各仮説の相対的確率の決定が、マッチドフィルタリングの概念を用いて行われる、項目30記載の方法。
(項目33)
各仮説の相対的確率の測定が、対立遺伝子要求を行わない定量的技術を用いてなされ、ここで、各遺伝子座の測定についての平均および標準偏差が既知、未知、または均一のいずれかである、項目30記載の方法。
(項目34)
各仮説の相対的確率の決定が、対立遺伝子要求を用いる定性的技術を用いてなされる、項目30記載の方法。
(項目35)
各仮説の相対的確率の決定が、参照配列の公知の対立遺伝子、および定量的対立遺伝子測定を用いることによってなされる、項目30記載の方法。
(項目36)
前記標的個体が、成人ヒト、若年ヒト、ヒト胎児、ヒト胚、非ヒト成体、非ヒト若年体、非ヒト胎児、および非ヒト胚よりなる群から選択される、項目30記載の方法。
(項目37)
前記標的個体の遺伝子データが、ポリメラーゼ鎖反応(PCR)、リガーゼ媒介PCR、縮重オリゴヌクレオチドプライマーPCR、多重置換増幅、対立遺伝子−特異的増幅およびその組合せを含む群から取られるツールおよび/または技術を用いて増幅される、項目30記載の方法。
(項目38)
前記標的個体の遺伝子データが、分子逆転プローブ(MIP)、ゲノタイピングマイクロアレイ、Taqman SNPゲノタイピングアッセイ、Illuminaゲノタイピングシステム、他のゲノタイピングアッセイ、蛍光イン−サイチュハイブリダイゼーション(FISH)、およびその組合せを含む群から選択されるツールおよび/または技術を用いて測定される、項目30記載の方法。
(項目39)
前記標的個体の遺伝子データが、該標的個体のバルクジプロイド組織、該標的個体から取られる1以上のジプロイド細胞、該標的個体から取られる1以上の胚盤胞、該標的個体上で見出された細胞外遺伝物質、母性血液で見出された該標的個体からの細胞外遺伝物質、母性血液で見出される該標的個体からの細胞、該標的個体に由来することが知られた遺伝物質、およびその組合せを含む群から取られる物質を分析することによって測定される、項目30記載の方法。
(項目40)
前記標的における染色体または染色体セグメントの数の決定が、体外受精の関係で胚選択を目的として用いられる、項目30記載の方法。
(項目41)
前記標的の染色体または染色体セグメントの数の決定が、出生前遺伝子診断の目的で用いられる、項目30記載の方法。
(項目42)
項目30記載の方法を達成するように構成されたシステム。
(項目43)
項目30記載の方法を達成するように構成されたコンピュータ実施システム。
(項目44)
(i)関連個体からのいずれの染色体のいずれのセグメントが標的個体のゲノムで見出されるセグメントに対応するかについての1以上の仮説のセットを創製し、
(ii)該標的のゲノムに存在する所与の染色体セグメントの数についての1以上の仮説のセットを創製し、
(iii)該所与のセグメント上の複数の遺伝子座における可能な対立遺伝子の各々についてゲノムデータの量を測定し、
(iv)該標的個体の遺伝子データの測定、および該関連個体の遺伝子データの測定を仮定して仮説の各々の相対的確率を決定し、次いで、
(v)各仮説に関連する相対的確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する;
ことを含む、該標的個体の遺伝子データの不完全な知識、および該標的に遺伝的に関連する1以上の個体の遺伝子データの知識に基づいて、該標的個体の遺伝子データ、および該標的ゲノムに存在する染色体、または染色体のセグメントの存在の数を決定する方法。
(項目45)
(i)遺伝子−病気関連についての公に入手可能な情報から形成された偶発事象表に基づいてモデルを構築し;次いで、
(ii)該モデルを適用して、個体に関連するデータに対して操作することによって予測を行う;
ことを含む、該個体に関連する予測を行う方法。
(項目46)
多数の独立変数を使用する前記偶発事象表の精度が、結果データを用いて洗練することができ、ここで、独立変数のサブセットのみが測定される、項目45記載の方法。
(項目47)
多数の独立変数を使用する前記偶発事象表の精度が、前記独立変数の関連についてのデータを用いて洗練することができる、項目45記載の方法。
(項目48)
多数の独立変数を使用する前記偶発事象表の制度が、前記独立変数のある値の出現の頻度についてのデータを用いて洗練することができる、項目45記載の方法。
(項目49)
(i)予測すべき結果が知られている個体の第二のセットからの集合データを用いて複数のモデルを創製し、それをテストし;
(ii)第一の個体で利用可能なデータを仮定した予測を行うための種々のモデルの相対的精度を計算し;次いで、
(iii)最も正確なものとして同定されるモデルを用いて、該第一の個体について予測を行う;
ことを含む、第一の個体に関する予測を行う方法。
(項目50)
前記個体に関連するデータのタイプは、該個体の遺伝子型データ、該個体の表現型データ、該個体の臨床データ、および該個体の実験室データよりなる群から選択されるデータを含む、項目45記載の方法。
(項目51)
前記個体に関連するデータのタイプが、該個体の遺伝子型データ、該個体の表現型データ、および該個体の臨床データ、ならびに該個体の実験室データよりなる群から選択されるデータを含む、項目49記載の方法。
(項目52)
前記データのタイプが、また、前記個体を感染させる病原体のデータよりなる、項目45記載の方法。
(項目53)
前記データのタイプが、また、前記個体を感染させる病原体のデータよりなる、項目49記載の方法。
(項目54)
前記予測が、前記個体の表現型、表現型罹患性、可能な臨床的結果、ライフスタイルの決定、身体の運動、ダイエットの嗜好性、ホルモンサプリメント、栄養サプリメント、病気のための治療、病原体のための処理、望まない疾患についての治療、医薬での治療、およびその組合せよりなる群から選択されるトピックに関する、項目45記載の方法。
(項目55)
前記予測が、前記個体の表現型、表現型罹患性、可能な臨床的結果、ライフスタイルの決定、身体の運動、精神的運動、ダイエット嗜好性、ホルモンサプリメント、栄養サプリメント、病気についての治療、病原体についての処理、望ましくない疾患についての治療、医薬での治療、およびその組合せよりなる群から選択されるトピックスに関する、項目49記載の方法。
(項目56)
前記予測を用いて、前記個体のための、または該個体の代理人のための報告を作成する、項目45記載の方法。
(項目57)
前記予測を用いて、前記個体のための、または該個体の代理人のための報告を作成する、項目49記載の方法。
(項目58)
前記操作の行為が、新しいデータについて操作して、前記個体の予測を更新することを含み、ここで、該データは新しい研究データ、または他の対象についての新しい集合データを含む群から選択される、項目45記載の方法。
(項目59)
前記操作の行為が、新しいデータについて操作して、前記個体の予測を更新することを含み、ここで、該データは新しい研究データまたは他の対象についての新しい集合データを含む群から選択される、項目49記載の方法。
(項目60)
項目45記載の方法を達成するように構成されたシステム。
(項目61)
項目49記載の方法を達成するように構成されたシステム。
表1:OMIM/NCBIに見出される病気遺伝子のまとめ。
表2:異なる異数性検出技術のまとめ。
表3:低度な共分離を持つSNPを用いて記載された方法についての入力データの例。
表4:高度な共分離を持つSNPを用いて記載された方法についての入力データの例。
表5:表2に示された入力データに代えての出力データの例。
表6:表4に示された入力データに代えての出力データの例。
表7:予備的シミュレーションの結果。
表8:方法の全シミュレーションの結果。
表9:アルツハイマー病の開始への影響におけるAPOEおよびACEにおける突然変異の役割を理解するためのFarrer(2005)、Labert(1998)、およびAlvarez(1999)の結果を表す3つの分割表。
表10:表7の実験のメタ−分析から生じた結果。
表11:訓練およびテストデータの10の異なる9:1スプリットにわたって平均した、種々の方法についてのプロテアーゼ阻害剤(PI)薬物に対する測定されたおよび予測された応答の相関係数(%で表したR)の表。結果の標準偏差(Std.tev.)は灰色で示す;測定された薬物応答の数は最後の列に示す。
法12:訓練およびテストデータ10の異なる9:1スプリットにわたって平均された、種々の方法についての逆転写酵素阻害剤(RTI)薬物に対する測定されたおよび予測された応答の相関係数(%で表したR)の表。結果の標準偏差(Std.dev.)は灰色で示す;測定された薬物応答の数は最後の列に示す。
表13:プロテアーゼ阻害剤(PI)薬物応答についてのプレディクターとしての最小絶対選択および収縮オペレーター(LASSO)によって選択された非ゼロ重みを持つ突然変異の数と共に、種々の回帰方法についての訓練で用いられる試料の数、および突然変異の合計数。
表14:逆転写酵素阻害剤(RTI)応答についてのプレディクターとしてのLASSOによって選択された非ゼロ重みを持つ突然変異の数と共に、種々の方法での訓練で用いられる試料の数、および突然変異の合計数。
表15:イリノテカン実験についての表現型データ。
配偶子形成についての減数分裂における組換えの概念の説明図。 ヒト染色体1の1つの領域に沿っての組換えの可変速度の説明図。 異なる仮定に対する偽陰性および偽陽性の確率の決定。 混合された女性試料、全てのヘテロ遺伝子座からの結果。 混合された男性試料、全てのヘテロ遺伝子座からの結果。 女性試料についてのCt測定とは異なる男性試料についてのCt測定。 混合された女性試料からの結果;Taqman単一色素。 混合された男性試料からの結果;Taqman単一色素。 混合された男性試料についての反復測定の分布。 混合された女性試料からの結果;qPCR尺度。 混合された男性試料からの結果;qPCR尺度。 女性試料についてのCt測定とは異なる男性試料についてのCt測定。 第三の似ていない染色体での異数性の検出。 定常対立遺伝子ドロップアウト速度での2つの増幅分布の説明図。 アルファのガウス確率密度関数のグラフ。 入力データ、データベースデータ、アルゴリズムおよび出力の一般的な関係のダイヤグラム。 P(H|M)をどのように駆動するかの視覚的概観。 シミュレートされたデータについての清浄化アルゴリズムの有効性を示すのに用いられるアルゴリズムを記載するフローチャートの視覚的表示。 IVFの間における胚の表現型予測の関係での、本明細書中に開示された方法を達成するように構成されたシステムの説明図。 疎な解を生じるLASSO傾向の説明図。Ridge回帰解は2つの円の接合に存在し、LASSO解は円および四角形の接合に存在する。 訓練およびテストデータの10の異なる9:1スプリットにわたって平均し、次いで、各々、7つのPIまたは10のRTIにわたって平均した、測定したおよび予測した応答の相関係数(%で表したR)の表。 PI応答を予測するためのプロテアーゼ酵素における突然変異に関連するLASSOモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ40のパラメーターのみを示す。 NRTI薬物応答を予測するためのRT酵素における突然変異に関連するLASSOモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ40のパラメーターのみを示す。 NNRTI薬物応答を予測するためのRT酵素における突然変異に関連するLASSOモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ40のパラメーターのみを示す。 記載なし。 記載なし。 記載なし。 記載なし。
(好ましい実施形態の詳細な説明)
システムの概念的概観
開示されたシステムの1つの目標は、遺伝子診断の目的の高度に正確なゲノムデータを提供することである。個体の遺伝子データが有意な量のノイズ、またはエラーを含有する場合、開示されたシステムは、関連個体の遺伝子データ、およびその第二の遺伝子データに含まれる情報の間の同様性を用いて、標的ゲノムにおけるノイズを清浄化する。これは、染色体のいずれのセグメントが配偶子形成に関与し、およびどこで減数分裂の間に交差が起こったか、従って、第二のゲノムのいずれのセグメントが標的ゲノムのセクションに対してほとんど同一であると予測されるかを決定することによってなされる。ある状況においては、この方法を用いてノイジーな塩基対測定を清浄化することができるが、それを用いて、測定されなかったDNAの個々の塩基対または全領域の同一性を推定することもできる。加えて、なされた各再構成要求について信頼性を計算することができる。高度に単純化された説明を最初に示し、非現実的な仮定をなして、本発明の概念を説明する。今日の技術に適用することができる詳細な統計学的アプローチを以後示す。
システムのもう1つの目標は、染色体の異常な数、染色体のセクション、および染色体の起源を検出することにある。異数性であり、アンバランスなトランスロケーション、片親二染色体、または他の正味の染色体異常を有する一般的試料において、複数の遺伝子座に存在する遺伝物質の量を用いて、試料の染色体状態を決定することができる。この方法に対して多数のアプローチが存在し、それらのうちいくつかをここに記載する。いくつかのアプローチにおいて、試料に存在する遺伝物質の量は、異数性を直接的に検出するのに十分である。他のアプローチにおいて、遺伝物質を清浄化する方法を用いて、染色体不均衡の検出の効率を増強させることができる。なされた各染色体要求に対して信頼性を計算することができる。
該システムのもう1つの目標は、遺伝子データに関連する変数の効果をモデル化するように設計された項目の広いアレイを開発することによって、遺伝子データから最も単純かつ触知可能な統計学的モデルを抽出する有効かつ効果的手段を提供することにある。より具体的には、遺伝子データに基づいて表現型または表現型感受性をモデル化するための現在利用可能な方法のほとんどまたは全ては以下の欠点を有する:(i)それらは凸最適化技術を用いず、かくして、所与の訓練データセットに対するモデルパラメーターについての局所的最小解を見出すことは保証されない;(ii)それらはモデルの複雑性を最小化する技術を用いず、かくして、それらは、独立した変数の数に対して少数の結果が存在する場合に十分に一般化されるモデルを形成しない;(iii)それらは、正規分布したデータの単純化仮定をなすことなく、論理的回帰の関係でデータからの最も単純な触知のルールの抽出を可能とせず;(iv)それらは遺伝子−遺伝子関連、遺伝子−表現型関連および遺伝子−病気関連についての先見的情報を活用して、表現型または表現型感受性の最良の可能な予測をしない;(v)それらは1を超えるモデルを提供せず、かくして、訓練データに対する種々のモデルの交差−確証に基づいて最良の可能なデータを選択するための一般的アプローチを提供しない。これらの欠点は、遺伝子および表現型情報に関連する多量のデータクラスの分析に基づいて結果を予測する関係で臨界的である。まとめると、現在利用可能な方法は個体が遺伝子型が所与の特定の表現型特徴の尤度についての、または親の遺伝子型特徴を仮定した子孫における特定の表現型特徴の尤度についての質問に答えるのに効果的に力を与えない。
以下に掲げる説明のいくつかは、本書類の著者によって従前に公表された仕事を含むことに注意されたし。それは背景情報として提供されて、本明細書中に開示された材料の理解を容易とし、および該材料に対するより大きな関係を与える。
3つのカテゴリーにおいて遺伝子型−表現型予測モデルを考慮することができる:i)遺伝子欠陥または対立遺伝子は100%の確実性でもって病気表現型を引き起こすことが知られている;ii)病気表現型の確率を増加させる遺伝子欠陥および対立遺伝子、ここで、プレディクターの数は表現型確率を分割表でモデル化できるのに十分に小さい;およびiii)多次元線形または非線形回帰モデルを用いて表現型を予測するのに用いることができる遺伝子マーカーの複雑な組合せ。オンラインメンデル遺伝データベース(Online Mendelian Inheritance Database(OMIM))における現在知られている配列および病気表現型を持つ359の遺伝子(表1、列2参照)のうち、大部分はカテゴリー(i)に入り;残りは圧倒的にカテゴリー(ii)に入る。しかしながら、経時的に、多数の遺伝子型−表現型モデルがカテゴリー(iii)において生起していると予測され、ここで、多数の対立遺伝子または突然変異の相互作用は、特定の表現型の確率を見積もるためにモデル化される必要があろう。例えば、シナリオ(iii)は、確実に、今日、HIVウイルスの遺伝子データに基づいて抗−レトロウイルス療法に対するHIVウイルスの応答を予測する関係で当てはまる。
シナリオ(i)については、経験則に基づいて表現型の発生を予測するのは通常直接的である。1つの態様において、シナリオ(ii)について表現型の正確な予測をなすのに用いることができる統計的技術が記載されている。もう1つの態様において、シナリオ(iii)について正確な予測を行うのに用いることができる統計学的技術が記載されている。もう1つの態様において、特定の表現型、集合データの特定の組、および特定の個々のデータについて最良のモデルを選択することができる方法が記載されている。
本明細書中に開示された方法のある実施形態は、分割表を実行して、シナリオ(ii)において正確に予測を行う。これらの技術は遺伝子−遺伝子関連および遺伝子−病気関連についての先見的情報を活用して、表現型または表現型感受性の予測を改良する。これらの技術は、関連した独立変数の全てがサンプリングされるのではない従前の実験からのデータを活用するのを可能とする。それらが失われたデータを有するという理由でこれらの従前の結果を捨てる代わりに、概技術はHapMapプロジェクトおよびその他からのデータを活用して、関連する独立変数のサブセットのみが測定された従前の実験を用いる。このように、全ての関連する独立した変数が測定された対象からのデータを単純に集合させるよりはむしろ、予測モデルを全ての集合データに基づいて訓練することができる。
本明細書中に記載されたある方法は凸最適化を用いて、シナリオ(iii)において正確な予測をなすのに用いることができる疎なモデルを創製する。遺伝子型−表現型モデリングの問題はしばしば過剰決定系であるか、または不適切である。というのは、潜在的プレディクター−遺伝子、蛋白質、突然変異およびそれらの相互作用−の数は、測定された結果の数に対して大きいからである。そのようなデータのセットは、依然として、Occam’s Razorと同様な原理を発見することによって正確に一般化される疎なパラメーターモデルを訓練するのに用いることができる。多くの可能な理論が観察を説明することができる場合、最も単純なのは最も正しいらしいものである。この哲学は、先に議論したシナリオ(iii)において遺伝子型−表現型モデルの形成に関連する1つの態様において具体化される。遺伝子データへの適用について本明細書中に記載された技術は、過少判断されたまたは誤って条件付けされた遺伝子型−表現型データセットについて疎なパラメーターモデルを創製することを含む。疎なパラメーターセットの選択はOccam’s Razorと同様な原理を発揮し、結果として、潜在的プレディクターの数が測定された結果の数に対して大きい場合でさえ、正確なモデルが開発されるのを可能とする。加えて、シナリオ(iii)において遺伝子型−表現型モデルを形成するための本明細書中に記載された技術のある実施形態は、所与の訓練データセットについてのモデルパラメーターに対する全体的最小解を見出すことが保証された凸最適化技術を用いる。
集合データのセット、および個体についての入手可能なデータのセットを仮定すれば、その個体についての最良な表現型予測を行うために、いずれの予測アプローチが最も適当であるかは稀にしか明瞭でない。正確な表現型予測を行う傾向があるモデルのセットを記載することに加えて、本明細書中に開示された実施形態は、多数の方法をテストし、所与の表現型予測についての最適方法、集合データの所与のセット、および予測がなされるべき個体についての入手可能なデータの所与の組を選択するシステムを代表する。開示された方法およびシステムは、多重モデルおよび多重訓練パラメーターを用いるデータの所与のセットにおける全ての異なる独立した変数および従属する変数の組合せを調べ、次いで、独立した変数、従属した変数、およびテストデータで測定された最良のモデリング精度を達成するチューニングパラメーターの組を選択する。シナリオ(i)に対応する場合には、専門家則を立案することができ;カテゴリー(ii)におけるような少数の独立した変数での他の場合には、分割表は最良の表現型予測を提供し;およびシナリオ(iii)のような他の場合には、線形または非線形回帰技術を用いて、予測の最適な方法を提供することができる。本開示を読んだ後には、個体について予測をなすための最良のモデルを選択するアプローチをどのようにして用いて、本明細書中に開示されたものを超えて多くのモデリング技術から選択することができるかは当業者に明瞭であろうことを注記する。
技術のある実施形態はいくつかの関係で示されている。まず、それは、分割表、および遺伝子マーカーに基づいて、アルツハイマー病の予測に焦点を当てる多くの臨床的実験から一体化されたデータの不完全な組を用いてアルツハイマー病を発生する尤度を予測する関係で示されている。次に、該システムは、回帰分析、およびウイルスゲノムにおける遺伝子マーカーの知識を用いて1型ヒト免疫不全ウイルス(HIV−1)の薬物応答をモデル化する関係で示されている。最後に、該システムは、各々、回帰分析、および個体についての双方の遺伝子マーカーの不完全なデータ、および癌に関連する実験質的および臨床的対象情報を用いる、乳癌および結腸癌の種々の症例の治療におけるタモキシフェンおよびイリノテカンの用法によって引き起こされる副作用の予測の点で示されている。
遺伝子型テストの減少する費用のため、信頼性よくウイルス薬物応答、癌薬物応答、および他の表現型応答または遺伝子データからの結果を予測する統計学的モデルは、それらが病気治療、ライフスタイルまたは嗜好性決定、または他の活動であるか否かを問わず適当な作用のコースの選択において重要なツールである。記載された最適化技術は、臨床的決定を増強させる目的で多くの遺伝子型−表現型モデリングの問題に応用を有するであろう。
システムの技術的記載
データの清浄化:単純化された例
図1は、親における配偶子の形成について減数分裂の間に起こる組換えのプロセスを説明する。個体の母親からの染色体101はオレンジ色(または灰色)で示す。個体の父親からの染色体102は白色で示す。減数分裂の前相Iの間の複糸期として知られたこの間隔の間に、4つの染色分体103のテトラドが目に見える。相同対の非姉妹染色分体の間の交差は組換え小節104として知られた地点で起こる。説明の目的で該例は単一の染色体、および3つの遺伝子の対立遺伝子を特徴付けると推定される3つの単一ヌクレオチド多形(SNP)に焦点を当てる。この議論では、SNPは母性および父性染色体上で別々に測定することができると仮定する。この概念は多くのSNP、多数のSNPによって特徴付けられる多くの対立遺伝子、多くの染色体、および母性および父性染色体をゲノタイピング前には個々に単離することができない現行のゲノタイピング技術に適用することができる。
注目するSNPの間における潜在的交差の地点に注意を払わなければならない。3つの母性遺伝子の対立遺伝子のセットは、SNP(SNP,SNP,SNP)に対応する(am1,am2,am3)として記載することができる。3つの父性遺伝子の対立遺伝子のセットは(ap1,ap2,ap3)として記載することができる。図1において形成された組換え小節をコードし、組換え染色分体の各対についてちょうど1つの組換えがあると仮定する。このプロセスで形成された配偶子のセットは遺伝子対立遺伝子:(am1,am2,ap3)、(am1,ap2,ap3)、(ap1,am2,ap3)、(ap1,ap2,am3)を有するであろう。染色分体の交差がない場合において、配偶子は対立遺伝子(am1,am2,am3)、(ap1,ap2,ap3)を有するであろう。関連領域において交差の2つの地点がある場合において、配偶子は対立遺伝子(am1,ap2,am3)、(ap1,am2,ap3)を有するであろう。対立遺伝子のこれらの8つの異なる組合せを、その特定の親について、対立遺伝子の仮説セットという。
胚DNAからの対立遺伝子の測定はノイジーであろう。この議論の目的では、胚DNAからの単一染色体を取り、それが、その減数分裂を図1で説明する親に由来すると仮定する。この染色体上の対立遺伝子の測定は、もし胚染色体における測定された対立遺伝子がam1であればA=1であり、もし胚染色体における測定された対立遺伝子がap1であればA=−1であって、もし測定された対立遺伝子am1またはap1でなければA=0であるインジケーター変数のベクトルの項:A=[Aで記載することができる。推定親についての対立遺伝子の仮説セットに基づき、前記したすべての可能な配偶子に対応する8つのベクトルのセットを作り出すことができる。前記した対立遺伝子については、これらのベクトルはa=[1 1 1]、a=[1 1 −1]、a=[1 −1 1]、a=[1 −1 −1]、a=[−1 1 1]、a=[−1 1 −1]、a=[−1 −1 1]、a=[−1 −1 −1]となろう。システムのこの高度に単純化された適用において、胚のありそうな対立遺伝子は、仮説セットおよび測定されたベクトルの間の単純な相関分析を行うことによって決定することができる:
=arg max, i=1...8 (1)
一旦iが見出されれば、仮説
が胚DNAにおける対立遺伝子の最もありそうなセットとして選択される。次いで、2つの異なる仮定、すなわち、胚染色体は母親または父親に由来するという仮定を立て、このプロセスを2回反復する。最大の相関
を生じるその過程は正しいと仮定されるであろう。各場合において、母親または父親の各DNAの測定に基づき、対立遺伝子の仮説セットを用いる。開示された方法の典型的な実施形態においては、特定の病気表現型とのその関連のため重要であるSNPの間の多数のSNPを測定し−これらは表現型−関連SNPまたはPSNPといわれるであろうことに注意されたし。PSNPの間の非表現型−関連SNP(NSNP)は、個体の間で実質的に異なる傾向があるRefSNPをNCBI dbSNPデータベースから選択することによって、(例えば、特殊化されたゲノタイピングアレイを開発するための)先見的に選択することができる。別法として、PSNPの間のNSNPは親の特定の対について選択することができる。なぜならばそれらは親の間で異なるからである。PSNPの間のさらなるSNPの使用は、交差がPSNPの間で起こるか否かをより高いレベルの信頼性でもって決定することを可能とする。異なる「対立遺伝子」をこの注記において言及するが、これは単に便宜的なものであり;SNPは蛋白質をコードする遺伝子には関連しないであろうことに注意するのは重要である。
現行の技術との関連でのシステム
もう1つのより複雑な実施形態において、特定の交差の確率を考慮して、対立遺伝子の事後確率を特定の測定を仮定して計算する。加えて、マイクロアレイに典型的なシナリオおよび他のゲノタイピング技術をアドレスし、ここで、ある時点で単一の染色体についてよりはむしろ染色体の対についてSNPを測定する。胚、父性および母性染色体についての遺伝子座iにおける遺伝子型の測定は、各々、SNP測定の対を表すランダム変数(e1,i,e2,i)、(p1,i,p2,i)および(m1,i,m2,i)によって特徴付けることができる。もしすべての測定が対としてなされるならば、母性および父性染色体における交差の存在を決定することができないので、該方法は修飾される:受精胚および父性および母性ジプロイド組織を遺伝子型分けするに加えて、各親からの1つのハプロイド細胞、すなわち、精子細胞および卵細胞も遺伝子型分けする。精子細胞の測定された対立遺伝子はp1,i,i=1...Nによって表され、父性ジプロイド組織から測定された相補的対立遺伝子はp2,iによって表される。動揺に、卵細胞の測定された対立遺伝子はm1,iによって表され、母親のジプロイド細胞におけるそれらの相補体はm2,iによって表される。これらの測定は、どこで親染色体が測定された精子および卵細胞を生じるかにおいて交差したかについての情報を提供しない。しかしながら、卵または精子上のN個の対立遺伝子の配列は少数の交差によって、または交差なしによって、親染色体から作り出されたと仮定することができる。これは開示されたアルゴリズムを適用するための十分な情報である。あるエラーの確率は、父性および母性SNPの要求に関連する。このエラーの確率の見積もりは、なされた測定(p1,i,p2,i)および(m1,i,m2,i)、および用いる技術についてのシグナル−対−ノイズ比率に基づいて変化するであろう。これらのエラーの確率は、開示された方法に影響することなく各遺伝子座についてユニークに計算することができるが、父性および母性SNPを正しく要求する確立は、各々、pおよびpにおいて一定であると仮定することによってここでは代数は単純化される。
測定は、測定Mという胚DNAで行われると仮定する。加えて、Aが今やセットであって、ベクトルではないように、表記法をわずかに修飾する:Aとは、各親に由来する対立遺伝子の組合せ(またはセット)についての特定の仮説をいう。双方の親からの対立遺伝子Aのすべての可能な実施形態のセットをSとして示す。目標は、測定Mを与えて、最大の事後確率でもって、対立遺伝子の組合せ(またはその仮説)A∈Sを決定することである:
=arg maxP(A|M),∀A∈S (2)
条件付き確率の法則を用い、P(A|M)=P(M|A)P(A)/P(M)である。P(M)はすべての異なるAについて共通するので、最適化サーチを:
=arg maxP(M|A)P(A),∀A∈S (3)
として書き換えることができる。
今や、P(M/A)の計算を考える。単一の遺伝子座iで開始し、胚上のこの遺伝子座は親SNP pt,1,iおよびmt,1,iに由来すると仮定し、ここで、下付文字は、正しくても正しくなくてもよい行われた測定p1,iおよびm1,iとは反対に、これらの親SNPの真の値を示すのに用いられる。胚SNPの真の値は(et,1,i,et,2,i)として示される。もし仮説Aが真であれば、(et,1,i,et,2,i)=(pt,1,i,mt,1,i)または(mt,1,i,pt,1,i)である。測定(e1,i,e2,i)のいずれが、いずれの親に由来するかを区別できないので、双方の順番を考慮しなければならず、従って、仮説セットA=[(pt,1,i,mt,1,i),(mt,1,i,pt,1,i)]となる。特定の測定Mの確率は、親SNPの真の値または基礎となる状態、すなわち、(pt,1,i,pt,2,i)および(mt,1,i,mt,2,i)に依存する。4つのSNP、pt,1,i、pt,2,i、mt,1,i、mt,2,iが存在し、かつこれらの各々は4つのヌクレオチド塩基A、C、T、Gの値を取ることができるので、4または256の可能な状態が存在する。pt,1,i≠pt,2,i≠mt,1,i≠mt,2,iであると仮定される1つの状態sについてアルゴリズムを説明する。この説明から、すべての256の可能な状態、s、k=1...256にどのようにして該方法を適用するかは明瞭であろう。胚SNP(e1,i,e2,i)の測定Mを行い、結果e1,i=p1,i、e2,i=m1,Iが得られると仮定する。その仮説Aおよび状態sが真実であるとしたこの測定についての事前確率を計算する:
第一項および第二項における最初の表現:P(e1,i=p1,i,e2,i=m1,i|A,s)=P(e1,i=m1,i,e2,i=p1,i|A,s)=0.5を考える。というのは、仮説A=[(pt,1,i,mt,1,i),(mt,1,i,pt,1,i)]は胚SNPについての2つの順序付けを等しくありそうとするからである。さて、第一項の第二の表現P(e1,i=p1,i|et,1,i=pt,1,i)を考え、これは、胚SNP et,1,iは現実には父性SNP pt,1,i.に由来すると仮定してe1,i=p1,iを測定する確率である。父性SNP、母性SNPおよび胚SNPを正しく測定する確率はpp,m,およびpである。仮定(et,1,i=pt,1,i)を与えれば、測定(e1,i=p1,i)は、胚および父性SNPの双方が正しく測定されるか、あるいは双方は正しくなく測定され、それらは偶然に同一ヌクレオチド(A,C,T,またはG)として正しくなく測定される、のいずれかを要求する。従って、P(e1,i=p1,i|et,1,i=pt,1,i)=p+(1−p)(1−p)/3であり、ここで、単純性のために、4つのヌクレオチドのすべてを正しくなく要求する確立は同等にありそうであると仮定される−該アルゴリズムは、もう1つの特定のヌクレオチドについての測定を与えて特定のヌクレオチド(A,C,T,G)を要求する異なる確率を適合させるように容易に修飾することができる。同一アプローチを第一項中の3番目の表現に適用して、P(e2,i=m1,i|et,2,i=mt,1,i)=p+(1−p)(1−p)/3を得ることができる。さて、第二項の2番目の表現を考える。P(e1,i=p1,i|et,1,i=mt,1,i,mt,1,i≠pt,1,i)は、e1,iまたはp1,iが正しくない測定であるか、または双方が正しくない測定であるかのいずれかを要求し、従って、測定された値は偶然に等しい:P(e1,i=p1,i|et,1,i=mt,1,I,mt,1,i≠pt,1,i)=p(1−p)/3+(1−p)p/3+(1−p)(1−p)2/9。同一の議論を第二項の最後の表現に適用して、P(e2,i=m1,i|et,2,i=pt,2,i,mt,1,i≠pt,2,i)=p(1−p)/3+(1−p)p/3+(1−p)(1−p)2/9を得ることができる。さて、これらの項のすべてを組合せ、単に代数を単純化するために、p=p=p=pと仮定して、
を計算することができる。計算は変化するが、本明細書中に記載されたものに対して同様な概念的アプローチをすべての256の可能な状態、s、k=1...256で用いる。すべての256の状態sについてP(e1,i=p1,I,e2,i=m1,I|A,s)を計算し、各sの確率を合計し、P(e1,i=p1,I,e2,i=m1,i|A)を得る。言い換えれば:
である。各状態sの確率P(s)を計算するために、別々の事象としての状態をなすすべての別々の対立遺伝子を処理しなければならない。というのは、それらは別々の染色体上にあるからである、言い換えれば:P(s)=P(pt,1,i,pt,2,i,mt,1,i,mt,2,i)=P(pt,1,i)P(pt,2,i)P(mt,1,i)P(mt,2,i)である。ベイズ技術を適用して、個々の測定についての確率分布を見積もることができる。遺伝子座iにおける母性または父性染色体上の対立遺伝子の各測定をコイン投げ実験として処理して、特定の値(A,C,T,またはG)であるこの対立遺伝子の確率を測定することができる。これらの測定を成人組織試料でなし、全く信頼性があるとして処理することができるが、対立遺伝子の対は各SNPについて測定し、いずれの対立遺伝子がいずれの染色体に由来かを決定するのは可能でない。wp,1,i=P(pt,1,i)とし、これは、父親の染色体上のSNP iの確率が値pt,1,iであることに対応する。以下の説明において、wp,1,iの代わりにwを用いる。父親の染色体のSNP iで行った測定は収集データとして特徴付けられるものとする。wについての確率分布p(w)を作り出し、データがベイズ理論:p(w|D)=p(w)p(D|w)/p(D)に従って測定した後これを更新することができる。SNP iのn個の対立遺伝子が観察され、wに対応する特定の対立遺伝子がh回出現する、言い換えれば、ヘッドはh回観察されると仮定する。この観察の確率は二項分布によって特徴づけることができる。
データを収集する前に、0および1の間では均一である事前分布p(w)があると仮定する。ベイズ理論を適用することによって、直接的に、p(w|D)についての得られた分布は形式:
のデータ分布であることを示し、cは正規化定数である。しかしながら、次いで、ベイズ理論および新しい測定を適用することによって、p(w|D)を何回も更新し、それを、前記したデータ分布を有するように継続する。p(w)の見積もりは、新しい測定が収集されるごとに更新される。特定のSNPにおける異なる対立遺伝子の確立は人種および性別のグループ分けに依存するので、Hapmapプロジェクトで用いたのと同一のグループ分けを用いて、異なる人種および異なる性別について異なる関数p(w)があることに注意されたし。P(s)の計算では、各染色体上の各対立遺伝子は見積もられた確率分布、すなわち、pp,1,i(wp,1,i)、pp,2,i(wp,2,i)、pm,1,i(wm,1,i)およびpm,2,i(wm,2,i)と関連するであろう。次いで、個々の分布の各々についてのMAP見積もりに従ってP(s)についての最大事後(MAP)見積もりを計算することができる。例えば、wp,1,i は、pp,1,i(wp,1,i)を最大化する議論であるとする。P(s)のMAP見積もりは:
P(sMAP=wp,1,i p,2,i m,1,i m,2,i (9)
に従って見出すことができる。各wについて確率分布が存在するので、MAP見積もりを単に用いるよりはむしろ、確率分布に渡って積分することによって、いずれかの特定の信頼性レベルまで値P(s)の保存的見積もりを計算することもできる。例えば、これを行って、ある信頼性レベル内まで保存的にP(M|A)を見積もることが可能である。保存的見積もりまたはMAP見積もりを用いるかに拘わらず、P(s)の見積もりはP(M|A)の計算のために継続的に洗練される。以下において、仮定された状態への言及をなくして、表記法を単純化し、状態sは詳細な計算のすべての説明のために仮定される。現実には、これらの計算は256の状態の各々について行われ、各々の確率に渡って合計することを銘記されたし。
P(M|A)を計算する方法は、今や、Mが胚上のSNPのN個の対の測定のセット、M=[M,...,M]を表すと仮定し、多数のSNP遺伝子座まで拡大される。また、Aは、いずれの親染色体がそのSNPに貢献したかについての各SNPに対する仮説のセットを表すと仮定する、A=[A,...,A]。SA’が、Aとは異なる、またはセットA’に存在するというすべての他の可能な仮説のセットを表すものとする。P(M|A)およびP(M|A’)を計算することができる:
P(A)の計算を考える。本質的には、これは、胚を形成する配偶子の形成において起こる特定の交差の尤度に基づく。特定の対立遺伝子セットの確率は2つの因子、すなわち、胚染色体が母親または父親に由来する確率、および交差の特定の組合せの確率に依存する。異数性をこうむらない胚染色体の清浄なセットについては、胚染色体が母親または父親に由来する事前確率は〜50%であり、その結果、すべてのAについて共通する。さて、組換え節の特定のセットの確率を考える。関連組換え部位Rの数は測定されたSNPS:R=N−1の数に依存する。注目するPSNPの回りのN個のNSNPを構成するDNAセグメントは比較的短いので、交差干渉は、同一染色体上の2つの交差が1つの領域で起こり得ることをかなりありそうもなくする。計算の効率の理由で、この方法は、唯一の交差が各関連染色体についての各領域で起こると仮定し、これはR個の可能な部位で起こり得る。どのようにしてこの方法を拡大して、所与の領域に多数の交差がある確率を含めることができるかは当業者に明らかであろう。
SNPの間の各領域における交差をPr,r=1...N−1で示すものとする。一次的には、2つのSNPの間の領域rにおける組換え節の確率は、(cモルガンで測定された)それらのSNPの間の遺伝子距離に比例する。しかしながら、多数の最近の研究は、2つのSNP遺伝子座の間の組換えの確率の正確なモデリングを可能とした。精子の実験からの観察、および遺伝子変異のパターンは、組換えの率はキロベーススケールに渡って広く変化し、および多数の組換えは組換えホットスポットで起こり、連鎖非平衡を引き起こして、ブロック−様構造を呈することを示す。ヒトゲノム上での組換え率についてのNCBIデータは、UCSC Genome Annotation Databaseを通じて公に入手可能である。
種々のデータセットを単独で、または組合せて用いることができる。最も普通のデータセットの内の2つはHapmapプロジェクトおよびPerlegenヒトハプロタイププロジェクトからのものである。後者はより高い密度であり;前者はより高い質である。HapMap相Iデータ、リリース16aに基づく、染色体1の位置1,038,423ないし4,467,775からの領域的組換え率については図2参照。これらの率は、パッケージLDHatで入手可能な可逆的ジャンプMarkov Chain Monte
Carlo(MCMC)方法を用いて見積もられた。考えられる状態−空間は、ピース様定常組換え率マップの分布である。Markov鎖は、各セグメント201についての率に加えて、率変更点の数および位置の分布を探索する。これらの結果を用いて、SNPSの間の各定常セグメントの長さの組換え率倍に渡って積分することによってPの見積りを得ることができる。ヌクレオチド202に渡っての累積組換え率を赤色で図2に示す。
もし領域rおよびそうでなければ0で交差が起こったならばc=1であるように、Cをインジケーター変数cのセットとする。もし交差が起こらないか、そうでなければ0であれば、c=1である。ただ1つの交差がN個のSNPの領域で起こり得ると仮定するので、セットCのただ1つのエレメントは非0である。よって、セットCによって表される交差の確率は:
であることが判明する。SNP 1...Nについての仮説Aにおいて、関連する4つの潜在的交差がある。すなわち、i)(インジケーター変数のセットCpeによって示される)胚を形成した父性染色体、ii)配列決定された精子を形成した父性染色体(セットCps)、iii)胚を形成した母性染色体(セットCme)、およびi)配列決定された卵を形成した母性染色体(セットCee)。2つのさらなる仮定はv)第一の父性胚SNPがpt,1,1またはpt,2,1に由来するか、およびvi)第一の母性胚SNPがmt,1,1またはmt,2,1に由来するかである。SNPの間の交差の確率は人種および性別の間で異なることが見出されるので、異なる交差確率は父性染色体についてはpp,rとして、および母性染色体についてはpm,rとして示されるであろう。従って、セットCpe、Cps、Cme、Ceeを包含する特定の仮説Aの確率は;
として表される。
さて、P(A)およびP(M/A)を決定するための方程式に関しては、前記方程式3についてのAを計算するのに必要な全ての要素は定義されている。よって、交差が起こった胚SNPの高度にエラー−傾向の測定から決定し、および高度な信頼性でもって胚測定を結果的に清浄化することが可能である。最良の仮説A*における信頼性の低度を決定することが残っている。これを決定するためには、オッズ比P(A|M)/P(A*’|M)を見出す必要がある。ツールは全てこの計算のために前記されている:
次いで、Aにおける信頼性はP(A|M)=OR /(+OR )として与えられる。この計算は特定の仮説Aにおける信頼性を示すが、SNPの特定の決定における信頼性を示さない。胚PSNP nの決定における信頼性を計算するためには、このSNPの値を変化させない全ての仮説Aのセットを作り出す必要がある。このセットはSA*,nとして示され、これは、仮説A*によって予測されるように、同一の値を有する胚にPSNP nをもたらす全ての仮説に対応する。同様に、仮説A*によって予測される異なる値を有するPSNPをもたらす全ての仮説に対応するセットSA*”,nを作り出す。さて、SNPが正しく要求される確率−対−SNPが正しくなく要求される確率のオッズ比を計算することが可能である:
オッズ比ORA’,nに基づく胚SNPの特定の要求における信頼性は:
として計算することができる。
この技術を用いて、同一染色体の2つが同一の親からのものであり、他方、他の親からのその染色体のいずれも存在しない片親二染色体(UPD)のような欠陥を検出することもできよう。親染色体における交差を推定しようと試みる際に、高い信頼性でもってデータを適切に説明する仮説はなく、もし複数のUPDを含む別の仮説が許容されるならば、それらはよりありそうであることが判明するであろう。
組換えラットにおける確実性の効果、およびSNP測定の信頼性のバウンディング
開示された方法は:特定のSNPの間の組換えの確立についての仮定;胚、精子、卵、父性および母性染色体についての各SNPの正しい測定の確率についての仮定;および異なる集団群内のある対立遺伝子の尤度についての仮定に依存する。これらの仮定の各々を考慮し:組換えのメカニズムは完全には理解され、モデル化されておらず、交差確率は、個人の遺伝子型に基づいて変化することが確立されている。さらに、組換え率が測定される技術は実質的可変性を示す。例えば、可逆的−ジャンプMarkov Chain Monte Carlo(MCMC)方法を実行するパッケージLDAatは、仮定のセットを作成し、組換えのメカニズムおよび特徴付けについてのユーザーの入力のセットを必要とする。これらの仮定は、種々の実験によって得られた異なる結果によって証明されているように、SNPの間の予測された組換え率に影響し得る。
前記リストの全ての仮定のうち、組換え率についての仮定は方程式15に対して最もインパクトを有するであろうと予測される。前記した計算は、SNPS、Pの間の交差に対する確率の最良の見積もりに基づくべきである。その後、(正しくはSNP nと呼ばれる)信頼性尺度Pを低下させる方向において、例えば、組換え率についての95%信頼性範囲における値を用いてPrで用いることができる。95%信頼性範囲は、組換え率の種々の実験によって生じた信頼性データに由来することができ、これは、異なる方法を用いて異なる群からの公表されたデータの間の不一致のレベルを見ることによって確証することができる。
同様に、95%信頼性範囲を、各SNPが正しく要求される確率の見積もりで用いることができる:p、p、p。これらの数は、測定技術の信頼性についての経験的なデータと組み合わせた、ゲノタイピングアッセイ出力ファイルに含まれた現実の測定されたアレイ強度に基づいて計算することができる。これらのパラメーターp、pおよびpが確立されないNSMPは無視することができることを注記する。例えば、ジプロイド親データは信頼性よく測定されるので、親のハクロイド細胞、および親のジプロイド組織の関連SNPについての対立遺伝子のいずれにも対応しない胚についてのNSNP測定を無視することができる。
最後に、計算P(s)を生起する異なる集団群内のある対立遺伝子の尤度についての仮定を考える。これらの仮定もまた開示された方法に対して大きなインパクトを有しないであろう。というのは、親ジプロイドデータの測定は信頼性があり、すなわち、親試料からの状態sの直接的測定は、典型的には、高い信頼性を持つデータをもたらすからである。それにも拘わらず、方程式8に記載された各wについての確率分布を用いて、各状態P(s)の確率についての信頼性範囲を計算することが可能である。前記したように、(正しくはSNP nと呼ばれる)信頼性尺度Pを低下させる保存的方向における各P(s)についての95%信頼性範囲を計算することができる。
(正しくはSNP nと呼ばれる)Pの決定は、どのようにして多くのNSNPが各PSNPについて測定される必要があるかについての決定を知らせて、所望のレベルの信頼性を達成するであろう。
開示された方法の概念を実施する、すなわち、親のDNAの測定、1以上の胚のDNAの測定、および減数分裂のプロセスの事前知識を組合せて、胚SNPの良好な見積もりを得る異なるアプローチがあることを注記する。事前知識の異なるサブセットが知られており、または知られておらず、または大きなまたは小さな低度の確実性でもって知られている場合に、どのようにして同様な方法を適用することができるかは当業者に明らかであろう。例えば、多数の胚の測定を用いて、特定の胚のSNPを要求する確実性を改良し、または親からの失われたデータを供給することができる。注目するPSNPを測定技術によって測定する必要がないことを注記する。たとえ測定システムによってPSNPが決定されなくても、それは、依然として、開示された方法によって高度な信頼性でもって再構築できる。
一旦減数分裂の間に起こった交差の点が決定され、標的ゲノムの領域が親DNAの関連領域にマッピングされれば、注目する個体のSNPの同一性のみならず、測定における対立遺伝子ドロップアウトまたは他のエラーによる測定された標的ゲノムで失われているであろうDNAの全領域を推定することが可能である。または、親DNAにおける挿入および欠失を測定し、開示された方法を用いて、それらが標的DNAに存在すると推定することも可能である。
種々の技術を用いて前記して開示アルゴリズムの計算の複雑性を改善することができる。例えば、母親および父親の間で異なるNSNPを選択することができるにすぎないか、または圧倒的に選択することができる。もう1つの考慮は、PSNPの近くに間隔が設けられたNSNPを用いて、注目するNSNPおよびPSNPの間で起こる交差のチャンスを最小化することであろう。また、多数のPSNPの適用範囲を最大化するために染色体に沿って間隔を設けたNSNPを用いることもできる。もう1つの考慮は、最初に少数のNSNPのみを用いて、大まかにどこで交差が起こったかを、限定された程度の確率のみでもって決定することであろう。次いで、さらなるNSNPを用いて、交差モデルを洗練し、正しくPSNPを要求する確率を増加させることができる。考慮する交差組合せの数は、NがSNPの数であって、Cが最大数の交差であるNとして概略評価する。結果として、C=4については、Pentium(登録商標)−IVプロセッサーに対して計算可能に御しやすくしつつ、各PSNPについて概略N=100を供給することが可能である。前記したアプローチ、および増大した計算効率についての他のアプローチを用い、N>100、C>4を容易に供給することができる。1つのそのようなアプローチを以下に記載する。
基本となる概念を変化させることなく、胚データ、親データ、および用いるアルゴリズムの特定のセットに基づいて、PSNPについての要求を行い、PSNPが正しく決定された確率の見積もりを生じる多くの他のアプローチがあることを注記する。この確率は個人の決定をなすのに、およびIVFまたはNIPGDの関係で信頼性のよいサービスを実行するのに用いることができる。
遺伝子データ清浄化アルゴリズムに対する帰納的解
直線的に範囲を定めるアルゴリズムに関連する本発明のもう1つの実施形態をここに記載する。計算パワーの限定された性質を仮定すると、計算の長さは開示された方法の使用において重要な因子であり得る。計算を実行する場合、必要とされる計算の数がSNPの数と共に指数関数的に上昇するある値を計算しなければならないいずれのアルゴリズムも扱いにくくなり得る。SNPの数と共に直線的に増加する多数の計算を含む解は、常に、SNPの数が大きくなるにつれて時間の観点から好ましいであろう。以下に、このアプローチを記載する。
全ての可能な仮説を考慮する単純なアプローチは、SNPの数が指数関数である実行時間と戦わなければならない。前記したように、k個のSNPについての測定された胚、父親および母親染色体の測定のコレクションであると仮定する。すなわち、M={M,...,M}であり、ここで、M=(e1i,2i,1i,2i,1i,2i,)である。前記したように、仮説空間はS={H,...,H}={全ての仮説のセット}であり、ここで、各仮説はフォーマットH={H ,...H }のものであり、ここで、H はフォーマットH =(p ,m )のスニップiについての「ミニ」仮説であり、ここで、p ∈{p1i,p2i}およびm ∈{m1i,m2i}である。4つの異なる「ミニ」仮説H 、特に:
1:(e1i,e2i)={(p1i,m1i)または(m1i,p1i)}
2:(e1i,e2i)={(p1i,m2i)または(m2i,p1i)}
3:(e1i,e2i)={(p2i,m1i)または(m1i,p2i)}
4:(e1i,e2i)={(p2i,m2i)または(m2i,p2i)}
がある。目標は、最もありそうな仮説Hを:
として選択することであり、ここで、関数F(M,H)=P(H|M)である。
空間Sにおいて4の異なる仮設がある。全空間Sを専ら調べることによって最良の仮説を見出す試みによって、必要なアルゴリズムはk O(exp(k))における指数関数オーダーのものであり、ここで、kは関連するSNPの数である。大きなk、k>5さえについても、これはかなり遅く、非現実的である。従って、一定時間内にサイズ(k−1)の問題の関数としてサイズkの問題を解く帰納的解に頼るのがより現実的である。本明細書中に示された解はk,O(k)における直線オーダーのものである。
SNPの数において直線的な帰納的解
F(M,H)=P(H|M)=P(M|H)P(H)/P(M)で始める。次いで、argmaxF(M,H)=argmaxP(M|H)P(H)であり、目標は直線的時間内にP(M|H)P(H)を解くことである。M(s,k)=SNP sないしkでの測定、H(s,k)=SNP sないしkについての仮説とし、表現方法M(k,k)=M,H(k,k)=H=SNP kについての測定および仮説を単純化する。先に示したように:
である。また、
であり、ここで、
であり、PC(Hi−1,H)=Hi−1,Hの間の交差の確率である。
最後に、k個のSNPについては:
F(M,H)=P(M|H)P(H)=P(M(1,k)|H(1,k)P(H(1,k)
=P(M(1,k−1)|H(1,k−1)P(H(1,k−1)P(M|HPF(Hk−1|H
であり、従って、短くすると、
F(M,H)=F(M(1,k),H(1,k)))=F(M(1,k−1),H(1,k−1)P(M|HPF(Hk−1,H
であり、すなわち、k個のSNPについてのFの計算をk−1個のSNPについてのFの計算に変えることができる。
H=(H,...H)については、k個のSNPについての仮説:
であり、ここで、
である。
これをまとめると:
であり、ここで、Gが帰納的に見出すことができ:n=2,..,kについては、
およびG(M(1,1),H)=0.25P(M|H)である。
該アルゴリズムは以下の通りである:
n=1については:4つの仮説Hiを作り出し、i=1,...,4についてG(M|Hi)を計算する。
n=2については:Hiについて4つの仮説を作り出し、式:
を用い、一定時間内に、G(M(1,2)|Hi),i=1,...,4を計算する。n=kについては:Hiについて4つの仮説を作り出し、
によって、G(M(1,k)|Hi),i=1,...,4を作成する。
いずれの時点においても、覚えておくべき4つのみの仮説、および一定数の操作がある。従って、アルゴリズムは、指数関数とは反対に、SNPの数kにおいて線形である。
直線的時間内におけるP(M)の解
P(M)について解いて、最良の仮説を得る必要はない。というのは、それは全てのHについて一定だからである。しかしながら、条件付確率P(H|M)=P(M|H)P(H)/P(M)についての現実的な意味のある数を得るためには、P(M)を導く必要もある。前記したように、
と書くことができ、ここで、
である。
帰納:
によってW(M,H)について解くことができ、従って、簡単に述べると、サイズkの問題は、
によってサイズ(k−1)の問題に変えられる。前記したように、n=2:kについては、最後に、
を誘導することが可能となるまで、帰納的にW(2),...,W(K)=W(M(1,k−1)|H)を得る。
各レベルにおいて、4つの異なる仮設Hがあるに過ぎず、従って、アルゴリズムは、再度、SNP kの数において線形である。
直線的時間内における個々のSNP信頼性
一旦、最良の仮説H=(H ,...,H )が計算されたならば、今度は、各SNPについての最終的な解答における信頼性、すなわち、i=1,...,kについてのP(H |M)誘導することが望まれるであろう。前記したように、P(H |M)=P(M|H )P(H )/P(M)=W(H ,M)/P(M)であり、ここで、P(M)は既に知られている。
であり、すなわち、仮説Hは最初のi−1のSNP、i番目のSNPについての仮説、およびi+1ないしk番目のSNPについての仮説まで終えている。前記したように:
および
であり、したがって、
であり、ここで、
である。これから、
を示すのは可能である。
再度、サイズkの場合は、前記したよりも複雑なビットであるにもかかわらず、より小さなサイズの2つのピースに変えられている。ピースの各々は
として計算することができる。従って、アルゴリズムは、4つの異なるH、Hの各々についてn=1,..,k、m=k,..1について、W(M(1,n),H)、W(M(m,k),H)を計算し、次いで、必要に応じてそれらを組合せてi=1,...,kについてW(M(1,k),H )を計算する。操作の数は依然としてkについて直線的である。
データの小さなまたは異なるセットが利用可能である場合の、胚データへの開示された方法の適用
システムの1つの実施形態において、親のいずれかまたは双方からのハプロイドデータの有りまたは無しにて、かつそのデータがより高いまたはより低い程度の確実性まで知られている場合、1人の親(恐らくは母親)からのジプロイドデータを利用する必要があるに過ぎない。例えば、卵の供与の厳しい性質を仮定すれば、母性ハプロイドデータが容易に入手できない場合があると予測される。この明細書を読んだ後に、どのようにして、特定のSNPの尤度を計算するための統計学的方法を限定されたデータセットを仮定して修飾できるかは当業者に明らかとなろう。
別のアプローチが、一方または双方の親の失われたジプロイドまたはハプロイドデータを補うためにより距離がある親族からのデータを用いる。例えば、個人の染色体の1つのセットは彼または彼女の親の各々に由来することが知られているので、母方祖父母からのジプロイドデータを用いて、失われたまたは貧弱にしか測定されていない母性ハプロイドデータを部分的に再構築できよう。
この方法の帰納的性質に注意し:適当な祖父母のジプロイドおよび/またはハプロイドデータと共に、単一細胞親ハプロイドデータの天然ではノイジーな測定を仮定し、開示された方法を用いて、親ハプロイドデータを清浄化することができ、これは、今度は、胚のより正確なゲノタイピングを供するであろう。これらの場合に用いる方法をどのようにして修飾するかは当業者に明らかなはずである。
より少ないよりはむしろより多くの情報を用いるのが好ましい。というのはこれは所与のSNPにおいて正しい要求を行うチャンスを増大させることができ、かつそれらの要求において信頼性を増加させることができるからである。これは、システムの増大する複雑性とバランスしなければならない。というのは、データのさらなる技術および源を用いるからである。データを増大させるのに情報を用いるために利用できるさらなる情報、ならびに技術の多くの源がある。例えば、Hapmapデータ、またはゲノムデータの他のレパートリーで見出すことができる相関関係を利用するインフォマティックスを基礎としたアプローチがある。加えて、そうでなければイン・シリコにて再度作り出す必要がある遺伝子データの直接的測定を可能とできる生物学的アプローチがある。例えば、そうでなければ利用できないハプロイドデータは、フローサイトメトリー技術を用いてジプロイド細胞から個々の染色体を抽出して、蛍光タグド染色体を単離することによって測定可能であろう。別法として、細胞融合を用いて、一対立遺伝子ハイブリッド細胞を作り出して、ジプロイドからハプロイドへの変換を行うことができる。
いずれの胚が着床するようであるかを選択することへの開示された方法の適用
1つの実施形態において、システムを用いて、母親に着床し、ベイビーまで発生する胚の尤度を決定することができる。胚着床の尤度が胚のSNP、および/または母親のSNPに対するそれらの関係によって決定される程度まで、開示された方法は、いずれがクリーンなSNPデータに基づいて成功して着床するかの信頼性ある予測をなすことをベースとして、胚の選択を助けるにおいて重要であろう。尤度を最良に予測するためには、胚における遺伝子発現のレベル、母親における遺伝子発現のレベル、および/または母親の決定された遺伝子型と恐らくは組合された胚の決定された遺伝子型を考慮する必要があろう。
加えて、異数性胚はあまり着床しないようであり、成功した妊娠をもたらさないようであり、健康な子供をもたらさないようであることはよく知られている。結果として、異数体についてのスクリーニングは、成功した結果を最ももたらすようである胚の選択に対して重要な面である。このアプローチについてのより詳細は以下に掲げる。
親ハプロイドデータの推定
該方法の1つの実施形態において、親のジプロイドデータの詳細な知識を仮定し、親はプロイドを推定する必要があろう。これを行うことができる多数の方法がある。最も単純な場合において、ハプロタイプは、直接的関係(母親、父親、息子または娘)の単一ハプロイド細胞の分子アレイによって既に推定されている。この場合、分子からアッセイによって測定されたジプロイド遺伝子型からの公知のハプロイドを差し引くことによって姉妹ハプロイドを推定するのは当業者にとってたやすいことである。例えば、もし特定の遺伝子座がヘテロ接合性であれば、未知の親ハプロイドは公知の親ハプロタイプからの反対の対立遺伝子である。
もう1つの場合において、親のノイジーなハプロイドデータは、精子のような個々の親ハプロイド細胞の分子生物学的ハプロタイピングから、または磁性ビーズおよびフローサートメトリーを含めた種々の方法によって単離することができる個々の染色体から知ることができる。この場合、決定されたハプロタイプが測定されたハプロタイプと同程度にノイジーであることを除いて、同一手法を前記したように用いることができる。
また、(公のHapmapプロジェクトで作り出されたもののような)一般的集団における公知のハプロタイプブロックを利用する統計学的方法を用い、ジプロイドデータから直接的にハプロイドデータセットを推定する方法もある。ハプロタイプブロックは、本質的には、種々の集団において反復して起こる一連の関連する対立遺伝子である。これらのハプロタイプブロックはしばしば古くかつ共通するので、それらを用いて、ジプロイド遺伝子型からハプロイドを予測することができる。次いで、親の推定されたハプロイドブロックを本明細書中に記載された方法のために入力として用いて、胚からのノイジーなデータを清浄化することができる。この仕事を達成する公に入手可能なアルゴリズムは、不完全な系統発生アプローチ、共役事前分布、および集団遺伝学からの事前分布に基づくベイズアプローチを含む。これらのアルゴリズムのいくつかは隠れたMarkovモデルを用いる。1つの研究は、公のトリオおよび無関係な個々のデータを用いて、これらのアルゴリズムが1MBの配列にわたって0.05%と低い誤差率にて実行されることを示した。しかしながら、予測されるように、精度は稀なハプロタイプブロックを持つ個人についてより低い。1つの見積もりにおいて、計算方法は、20%のわずかな対立遺伝子頻度にて5.1%の遺伝子座と多くを同調できなかった。
本発明の1つの実施形態において、IVFサイクルの間に異なる胚から取られた多数の胚盤胞からの遺伝子データを用いて、より大きな信頼性でもって親のハプロタイプブロックを推定する。
高および中程度スループットのゲノタイピングを用いて異数性をスクリーニングするための技術
システムの1つの実施形態において、測定された遺伝子データを用いて、個体において異数体および/またはモザイク現象の存在について検出することができる。本明細書中に開示するのは、これらの試料からの増幅されたまたは増幅されていないDNAからの染色体の数またはDNAセグメントコピー数を検出するための中程度または高−スループットゲノタイピングを用いるいくつかの方法である。目標は、Illumina、AgilentおよびAffymetrixからのABI Taqman、MIPS、またはマイクロアレイのような異なる定量的および/または定性的ゲノタイピングプラットフォームを用いて異数性のあるタイプおよびモザイク現象のレベルの検出において達成することができる信頼性を見積もることである。これらの場合の多くにおいて、遺伝物質はゲノタイピングアレイ上のプローブへのPCRによって増幅して、特定の対立遺伝子の存在を検出する。これらのアッセイをゲノタイピングでどのようにして用いるかは本開示において他の箇所に記載されている。
以下に記載するのは、欠失、異数体および/またはモザイク現象から生起するかに拘らず、異常な数のDNAセグメントについてスクリーニングするいくつかの方法である。該方法は以下のようにグループ分けされる:(i)対立遺伝子要求を行うことのない定量的技術;(ii)対立遺伝子要求を活用する定性的技術;(iii)対立遺伝子要求を活用する定量的技術;(iv)各遺伝子座における遺伝子データの増幅についての確率分布関数を用いる技術。全ての方法は、標的個体のゲノムにおける所与のセグメントの存在の数を決定するための、所与の染色体の所与のセグメント上の多数の遺伝子座の測定を含む。加えて、該方法は、所与のセグメントの存在の数についての1以上の仮説のセットを作り出し;所与のセグメント上の多数の遺伝子座における遺伝子データの量を測定し;標的個体遺伝子データの測定を仮定して、仮説の各々の相対的確率を決定し;次いで、所与のセグメントの存在の数を決定するために、各仮説に関連する相対的確率を用いることを含む。さらに、該方法は、全て、多数の遺伝子座における遺伝子データの量の測定の計算された関数である組合せ測定Mを作り出すことを含む。全ての方法において、閾値は、測定Mに基づいて各仮説Hの選択について決定され、測定すべき遺伝子座の数を見積もって、仮説の各々の偽検出の特定のレベルを有するようにする。
測定Mを仮定して各仮説の確率はP(H|M)=P(M|H)P(H)/P(M)である。P(M)はHiから独立しているので、P(M|H)P(H)のみを考慮することによってMを仮定した仮説の相対的確率を決定することができる。以下において、技術の分析および比較を単純化するために、我々は、我々がP(M|H)のみを考慮することによって全てのP(H|M)の相対的確率を計算できるように、P(H)は全ての{H}について同一である。その結果、閾値、および測定すべき遺伝子座の数の我々の決定は、P(H)が全ての{H}について同一であるという仮定の下で偽仮説を選択する特定の確率を有することに基づく。この開示を読んだ後に、どのようにしてアプローチを修飾して、B(H)がセット{H}において異なる仮説で変化するという事実を受け入れるであろうかは当業者に明瞭である。いくつかの実施形態において、全てのiにわたってP(H|M)を最大化する仮説Hi*が選択されるように閾値を設定する。しかしながら、閾値はP(H|M)を最大化するように必ずしも設定される必要はないが、むしろ、セット{H}における異なる仮説の間の偽検出の確率の特定の比率を達成するように設定される必要がある。
異数体を検出するための本明細書中で言及する技術は、片親二染色体、バランスしないトランスロケーションについて、および染色体の性別分け(男性または女性;XYまたはXX)について検出するのに等しく良く用いることができることに注意するのは重要である。概念の全ては、所与の試料に存在する染色体(または染色体のセグメント)の同一性および数を検出することに関連し、かくして、全ては、本処理に記載された方法によって取り組まれる。どのようにして、本明細書中に記載された方法のいずれかの方法を拡大して、これらの異常性のいずれかについて検出するのは当業者に明らかなはずである。
マッチドフィルタリングの概念
ここに適用される方法は、デジタルシグナルの最適検出において適用されるのに同様である。正常に分布したノイズの存在下においてシグナル−ノイズ比率(SNR)を最大化する最適アプローチは、可能なノイズ−フリーシグナルの各々に対応する、理想化されたマッチングシグナル、またはマッチドフィルターを形成すること、およびこのマッチドシグナルを受け取られたノイジーなシグナルと相関させることは、Schwartz不均衡を用いて示すことができる。このアプローチは、可能なシグナルのセット、ノイズの統計学的分布−平均および標準偏差(SD)が公知であることを必要とする。ここで、染色体、またはDNAのセグメントが試料中に存在するかまたは存在しないことを検出する一般的アプローチを記載する。全染色体を調べること、または挿入されたまたは欠失された染色体セグメントを調べることの間に差を設けない。この記載を呼んだ後に、どのようにして、該技術を異数性および性別決定の多くのシナリオ、または胚、胎児または産まれた子供の染色体における挿入および欠失の検出まで拡大できるかは明らかなはずである。このアプローチは、Taqman、qPCR、Illuminaアレイ、Affymetrixアレイ、Agilentアレイ、MIPSキット等を含めた広い範囲の定量的および定性的ゲノタイピングプラットフォームに適用することができる。
一般的問題の公式化
2つの対立遺伝子変異が起こる(xおよびy)SNPにおいてプローブがあると仮定する。各遺伝子座i、i=1...Nにおいて、2つの対立遺伝子からの遺伝物質の量に対応するデータを収集する。Taqmanアッセイにおいて、これらの尺度は、例えば、各対立遺伝子−特異的色素のレベルが閾値を交差するサイクル時間Cであろう。どのようにして、このアプローチを、各遺伝子座における、または遺伝子座における各対立遺伝子に対応する遺伝物質の量の異なる測定まで拡大できるかは明らかであろう。遺伝物質の量の定量的測定は非線形であり、その場合、注目するセグメントの存在によって引き起こされた特定の遺伝子座の測定の変化は、どのようにして、その遺伝子座の多くの他のコピーが他のDNAセグメントからの試料に存在するかに依存するであろう。いくつかの場合において、技術が、注目するセグメントの存在によって引き起こされた特定遺伝子座の測定の変化が、どのようにしてその遺伝子座の多くの他のコピーが他のDNAセグメントからの試料に存在するかに依存しないように、線形測定を必要とするであろう。アプローチを、どのようにしてTaqamanまたはqPCRアッセイからの測定を線形化することができるかについて記載するが、異なるアッセイについて適応できる非線形測定を線形化するための多くの他の技術がある。
遺伝子座1...Nにおける対立遺伝子xの遺伝物質の量の測定は、データd=[dx1...dxN]によって与えられる。同様に、対立遺伝子yについては、データd=[dy1...dyN]によって与えられる。各セグメントjは、各要素ajiがxまたはyいずれかである対立遺伝子a=[aj1....ajN]を有すると仮定する。対立遺伝子xの遺伝物質の量の測定データを、sxがシグナルであって、υが擾乱であるd=s+υとして記載する。該シグナルはs=[f(a11,...,aJ1)...f(aJN,...,aJN)]であり、ここで、fxは測定に対する対立遺伝子からのセットのマッピングであり、JがDNAセグメントコピーの数である。擾乱ベクトルυは測定誤差によって引き起こされ、非線形測定の場合においては、注目するDNAセグメント以外の他の遺伝子物質の存在によって引き起こされる。測定誤差は通常に正規分布し、それらは、非線形によって引き起こされた擾乱に対して大きく(線形化測定についてのセクション参照)、従って、υxi≒nxiであり、ここで、非nxiが偏差σxi2を有し、ベクトルnは正規分布する〜N(0、R),R=E(n )と仮定する。さて、いくつかのフィルターhをこのデータに適応して、測定m=h=h+hυを行うと仮定する。ノイズに対するシグナルの比率(h/h)を最大化するためには、hはマッチドフィルターh=μR−1によって与えられ、ここで、μはスケーリング定数であることを示すことができる。対立遺伝子xについての議論は対立遺伝子yについて反復することができる。
方法1a:各遺伝子座についての平均および標準偏差が知られている場合に、対立遺伝子要求を行わない定量的技術による異数性または性別の測定
このセクションでは、データは、(例えば、qPCRを用いる)対立遺伝子値に拘わらず遺伝子座における遺伝物質の量に関係し、またはデータは、集団において100%浸透度を有する対立遺伝子についてのみであると仮定し、あるいはデータは、各遺伝子座における多数の対立遺伝子において組合せて(線形化測定についてのセクション参照)、その遺伝子に座における遺伝物質の量を測定すると仮定する。その結果、このセクションにおいては、データdに言及でき、dを無視することができる。また、2つの仮説:DNAセグメントの2つのコピーがあるh(これらは、典型的には同一のコピーではない)およびただ1つのコピーがあるh、があると仮定する。各仮説については、データは、各々、dxi(h)=sxi(h)+nxiおよびdxi(h)=sxi(h)+nxiとして記載でき、ここで、sxi(h)は、2つのDNAセグメントが存在する場合に、遺伝子座iにおける遺伝物質の予測される測定(予測されるシグナル)であり、sxi(h)は1つのセグメントについて予測されるデータである。仮説h:mxi=dxi−sxi(h)についての予測されるシグナルを差分することによって各遺伝子座についての測定を構築する。もしhが真であれば、測定の予測される値はE(mxi)=sxi(h)−sxi(h)である。先に議論したマッチドフィルターを用い、h=(1/N)R−1(sxi(h)−sxi(h))を設定する。測定はm=h=(1/N)Σi=1...N((sxi(h)−sxi(h))/σxi )mxiと記載される。
もしhが真であれば、E(m|h)=m=(1/N)Σi=1...N(sxi(h)−sxi(h))/σxi の予測される値、およびmの標準偏差はσm|h1 =(1/N)Σi=1...N((sxi(h)−sxi(h))/σxi )σxi =(1/N)Σi=1...N(sxi(h)−sxi(h))/σxi である。
が真であれば、mの予測される値はE(m|h)=m=0であって、mの標準偏差は、再度、σm|h0 =(1/N)Σi=1...N(sxi(h)−sxi(h))/σxi である。
図3は、どのようにして、偽陰性および偽陽性検出の確率を決定するかを説明する。閾値tは、偽陰性および偽陽性の確率を等しくするために、mおよびmの間に設定すると仮定する(これは、後に記載するように、当てはまる必要はない)。偽陰性の確率は、(m−t)/σm|h1=(m−m)/(2σm|h1)の比率によって決定される。「5−シグマ」統計学は、偽陰性の確率が1−normcdf(5,0,1)=2.87e−7であるように用いることができる。この場合、目標は(m−m)/(2σm|h0)>5または10sqrt((1/N)Σi=1...N(sxi(h)−sxi(h))/σxi )<(1/N)Σi=1...N(sxi(h)−sxi(h))/σxi またはsqrt(Σi=1...N(sxi(h)−sxi(h))/σxi )>10に対するものである。Nのサイズを計算するために、平均シグナル−ノイズ比率が、集合データから計算することができるMSNR=(1/N)Σi=1...N(sxi(h)−sxi(h))/σxi 。次いで、前記不均衡からMを見出すことができる:sqrt(N).sqrt(MSNR)>10またはN>100/MSNR。
このアプローチは、X染色体上の48SNPを用いてApplied BioSystemsからのTaqmanアッセイで測定したデータに適用した。各遺伝子座についての測定は、この遺伝子座に対応するウェルに放出された色素が閾値を超えるのに要する時間Cである。試料0は、対象が2つのX染色体を有した混合女性起源のウェル当たりおよそ0.3ng(50細胞)の合計DNAよりなり;試料1は、対象が1つのX染色体を有した混合男性起源のウェル当たりおよそ0.3ngのDNAよりなるものであった。図4および図5は、試料1および0についての測定のヒストグラムを示す。これらの試料の分布は、m=29.97;SD=1.32、m=31.44、SD=1.592によって特徴付けられる。このデータは混合男性および女性試料に由来するので、観察されたSDのいくつかは、混合試料中の各SNPにおける異なる対立遺伝子頻度によるものである。加えて、観察されたSDのいくつかは、各SNPにおける異なるアッセイの変化する効率、および各ウェルにピペットで入れられる色素の異なる量によるものであろう。図6は、男性および女性試料についての各遺伝子座における測定の差のヒストグラムを提供する。男性および女性試料の間の平均差は1.47であって、差のSDは0.99である。このSDは、依然として、混合男性および女性試料における異なる対立遺伝子頻度に従うが、それは、もはや、各遺伝子座における各アッセイの異なる効率に影響しないであろう。目標は、各々がおよそに同様なSDを持つ2つの測定を区別することであり、調整されたSDは、全ての遺伝子座についての各測定に対して0.99/sqrt(2)=0.70と近似することができる。2つの実行を各遺伝子座について行って、マッチドフィルターを適用することができるように、その遺伝子座におけるアッセイについてσxiを見積もった。σxiの下限を0.2に設定して、σxiを計算するためのただ2つの実行から得られる統計学的異常を回避した。双方の対立遺伝子にわたり、双方の実験実行にわたり、および男性および女性双方の試料にわたって、対立遺伝子ドロップアウトがなかった遺伝子座(ナンバリング37)のみを、プロットおよび計算で用いた。前記したアプローチをこのデータに適用し、MSNR=2.26、よって、N=2/2.262=17遺伝子座であることが判明した。
方法1b:平均および標準偏差が知られていないか、または均一である場合に、対立遺伝子要求を行わない定量的技術による異数性または性別の測定
各遺伝子座の特徴がよく知られていない場合、各遺伝子座における全てのアッセイが同様に挙動し、すなわち、その代わり、E(m)およびσのみに言及するのが可能であるように、E(mxi)およびσxiは全ての遺伝子座eにわたって一定であるという単純化仮定をすることができる。この場合、マッチドフィルタリングアプローチm=hはdの分布の平均を見出すことに変えられる。このアプローチは平均の比較といい、それは、真実のデータを用いる異なる種類の検出で必要とされる遺伝子座の数を見積もるのに用いられるであろう。
前記したように、試料に存在する2つの染色体(仮説h)または存在する1つの染色体(h)がある場合のシナリオを考える。hでは、分布はN(μ,σ )であり、hについては、分布はN(μ,σ )である。各々、測定された試料平均およびSD:m、m、sおよびsを持つNおよびN試料を用いて分布の各々を測定する。平均は、M〜N(μ,σ /N)およびM〜N(μ,σ /N)として正規分布するランダム変数M、Mとしてモデル化することができる。M〜N(m,s /N)およびM〜N(m,s /N)と仮定することができるように、NおよびNは十分に大きい(>30)と仮定する。分布が異なるか否かを検定するために、平均検定の差を用いることができ、ここで、D=m−mである。ランダム変数Dの偏差はσ =σ /N+σ /Nであり、これはσ =s /N+s /Nと近似することができる。hを与えると、E(d)=0となり;hを与えると、E(d)=μ−μとなる。hおよびhの間の要求を行うための異なる技術をここに議論する。
X染色体上の48SNPを用いるTaqmanアッセイの異なる実行で測定されたデータを用いて、性能をキャリブレートした。試料1は、1つのX染色体を含有する混合男性起源のウェル当たりおよそ0.3ngのDNAよりなり;試料0は、2つのX染色体を含有する混合女性起源のウェル当たりおよそ0.3ngのDNAよりなるものであった。N=42およびN=45。図7および図8は、試料1および0についてのヒストグラムを示す。これらの試料についての分布はm=32.259、s=1.460、σm1=s/sqrt(N)=0.225;m=30.75;s=1.202、σm0=s/sqrt(N)=0.179によって特徴付けられる。これらの試料では、d=1.509およびδ=0.2879である。
このデータは混合男性および女性試料に由来するので、標準偏差の多くは、混合試料中の各SNPにおける異なる対立遺伝子頻度によるものである。SDは、多数の実行にわたり、一定時刻における1つのSNPについてのCにおける変動を考慮することによって見積もられる。このデータを図9に示す。ヒストグラムは0の周りに対称である。というのは、各SNPについてのCは2つの実行または実験で測定され、各SNPについてのCの平均値は差し引かれるからである。2つの実行を用いる混合男性試料中の20のSNPにわたる平均標準偏差はs=0.597である。このSDは男性および女性双方の試料で保存的に用いられる。というのは、女性試料についてのSDは男性試料についてよりも小さいだろうからである。加えて、混合試料は全てのSNPについてヘテロ接合性であると推定されるので、ただ1つの色素からの測定が用いられていることを注記する。双方の色素の使用は、遺伝子座における各対立遺伝子の測定が組み合わされることを必要とし、これはより複雑である(線形化測定についてのセクション参照)。双方の色素についての測定の組合せはシグナルの振幅を2倍とし、およそにsqrt(2)によってノイズ振幅を増大させ、その結果、およそsqrt(2)または3dBのSNR改良がもたらされる。
モザイク現象なしおよび参照試料なしを仮定する検出
が多くの実験から完全に知られており、かつかく実験の実行は、mを計算してm0と比較するのにただ1つの試料を実行すると仮定する。n1はアッセイの数であり、各アッセイは異なるSNP遺伝子座であると仮定する。閾値tはmおよびmの間に設定して、偽陰性の尤度を偽陰性の数と等しくすることができ、もしそれが閾値を超えれば、試料は異常であると記される。s=s=s=0.597であると仮定し、偽陰性または陽性の確率が1−normcdf(5,0,1)=2.87e−7となるように5−シグマアプローチを用いる。目標は5s/sqrt(N)<(m−m)/2、従って、N=100s /(m−m=16についてのものである。さて、有害なシナリオである、偽陽性の偽陰性の確率よりも高くされるアプローチを用いることもできる。もし陽性を測定すれば、実験は再度行うことができる。その結果、偽陰性の確率は偽陽性の確率の平方と等しいはずであるということが可能である。図3を考え、t=閾値とし、シグマ0=シグマ1=sと仮定する。かくして、1−normcdf((t−m)/s,0,1))=1−normcdf((m−t)/s,0,1)である。これを解き、t=m+0.32(m−m)であることを示すことができる。よって、目標は5s/sqrt(N)<m−m−0.32(m−m)=(m−m)/1.47、よって、N=(5)(1.47)s/(m−m=9についてのものである。
参照試料を実行することのないモザイク現象での検出
目標は97.7%の確率でモザイク現象を検出することである(すなわち、2−シグマアプローチ)以外は前記したのと同一状況を仮定する。これは、およそ20の細胞を抽出し、それらの写真を撮る羊水穿刺に対する標準アプローチよりも良好である。もし20細胞のうち1が異数体であって、これは100%の信頼性でもって検出されると仮定するならば、標準アプローチを用いる異数体である群の少なくとも1つを有する確率は1−0.9520=64%である。もし細胞の0.05%が異数体であれば(この試料3を要求する、m=0.95m+0.05mおよびvar(m)=(0.95s +0.05s )/Nである。かくして、std(m)2<(m−m)/2=>sqrt(0.95s +0.05s )/sqrt(N)<0.05(m−m)/4=>N=16(0.95s +0.05s )/(0.05(m−m)=1001である。慣用的アプローチを用いて達成することができるよりも依然として良好な(すなわち、84.1%確率での検出)1−シグマ統計学の目標を用い、同様にしてN=250であると示すことができる。
モザイク現象がなく、参照試料を用いる検出
このアプローチは必要でないかもしれないが、各実験は2つの試料を実行して、mを真実の試料mと比較すると仮定する。N=N=Nと仮定する。d=m−mを計算し、σ=σと仮定し、閾値t=(m+m)/2を設定し、従って偽陽性および偽陰性の確率は等しい。偽陰性の確率を2.87e−7とし、それは、(m−m)/2>5sqrt(s /N+s /N)=>N=100(s +s )/(m−m=32があてはまらなければならない。
モザイク現象での検出および参照試料の実行
前記したように、偽陰性の確率は2.3%であると仮定する(すなわち、2−シグマアプローチ)もし細胞の0.05%が異数体であれば(これを試料3と呼ぶ)、m=0.95m+0.05mおよびvar(m)=(0.95s +0.05s )/Nである。d=m−mおよびσ =(1.95s +0.05s )/Nである。std(m)2<(m−m)/2=>sqrt(1.95s +0.05s )/sqrt(N)<0.05(m−m)/4=>N=16(1.95s +0.05s )/(0.05(m−m)=2002でなければならない。再度1−シグマアプローチを用い、N=500であることが同様にして示すことができる。
目標が、現在の技術水準におけるように、64%の確率でもって5%モザイク現象を検出するにすぎない場合を考える。従って、偽陰性の確率は36%となろう。換言すれば、1−normcdf(x,0,1)=36%となるようなxを見出す必要があろう。かくして、2−シグマアプローチについてはN=4(0.362)(1.95s +0.05s )/(0.05(m−m)=65であり、または1−シグマアプローチについてはN=33である。この結果、取り組むことが必要な、非常に高いレベルの偽陽性がもたらされることに注意されたし。というのは、偽陽性のそのようなレベルは現在実行可能な代替ではないからである。
また、もしNが384に限定され、(すなわち、染色体当たり384ウェルTaqmanプレート)、かつ目標が97.72%の確率でモザイク現象を検出することにあれば、1−シグマアプローチを用いて8.1%のモザイク現象を検出することが可能であろうことを注記する。84.1%の確率でもって(または15.9%偽陰性率でもって)モザイク現象を検出するには、1−シグマアプローチを用いて5.8%のモザイク現象を検出するのが可能である。97.72%の信頼性でもって19%のモザイク現象を検出するには、およそ70の遺伝子座を必要とするであろう。かくして、単一プレート上で5つの染色体についてスクリーニングできよう。
これらの異なるシナリオの各々のまとめを表2に供する。また、この表2は、qPCRから得られた結果、およびSYBRアッセイを含める。前記した方法を用い、各遺伝子座についてのqPCRアッセイの性能は同一であるという単純化した仮定を行った。図10および図11は、前記したような、試料1および0についてのヒストグラムを示す。N=N=47。これらの試料についての測定の分布は、m=27.65、s=1.40,σm1=s/sqrt(N)=0.204;m=26.64;s=1.146、σm0=s/sqrt(N)=0.167によって特徴付けられる。これらの試料について、d=1.01およびσ=0.2636である。図12は、0.75の全ての遺伝子座にわたる差の標準偏差での各遺伝子座についての男性および女性試料に対するCの間の差を示す。SDは、男性または女性試料での各遺伝子座の各測定について0.75/sqrt(2)=0.53と近似した。
方法2:対立遺伝子要求を用いる定性的技術
このセクションにおいては、アッセイは定量的であるという仮定をしない。その代わり、仮定は、対立遺伝子要求は定性的であって、アッセイに由来する意味のある定量的データはないというものである。このアプローチは、対立遺伝子要求を行ういずれのアッセイについても適当である。図13は、どのようにして、異なるハプロイド配偶子が減数分裂の間に形成されるか、およびそれを用いて、このセクションに関連する異なる種類の異数性を記載するのに用いる。最良のアルゴリズムは、検出されるべき異数性のタイプに依存する。
異数性が、他の2つのセグメントのいずれかのコピーであるセクションを有しない第3のセグメントによって引き起こされる状況を考える。図13より、例えば、もしpおよびp、またはpおよびpの双方が、他の親からの1つのセグメントに加えて、子供の細胞中で生起するならば、該状況は起きるであろう。これは、異数性を引き起こすメカニズムを仮定すれば、非常に普通である。1つのアプローチは、細胞中に2つのセグメントがある仮説h、およびこれらの2つのセグメントは何であるかでもって開始することである。説明の目的で、hは図13からのpおよびmについてのものであると仮定する。好ましい実施形態において、この仮説は本書類中の他の箇所に記載されたアルゴリズムに由来する。仮説hは、他のセグメントのコピーであるセクションを有しないさらなるセグメントがあるというものである。これは、例えば、もしこのpまたはmもまた存在するならば正直であろう。pおよびmにおいてホモ接合性である全ての遺伝子座を同定することが可能である。異数性は、ホモ接合性であると予測される遺伝子座におけるヘテロ接合性遺伝子型要求をサーチすることによって検出することができる。
各遺伝子座は2つの可能な対立遺伝子xおよびyを有すると仮定する。各々、対立遺伝子xおよびyの確率は一般にpおよびpであり、およびp+p=1であるとする。もしh1が真であれば、それについてpおよびmがホモ接合性である各遺伝子座iについて、非ホモ接合性要求の確率は、遺伝子座が、各々、xまたはyにおいてホモ接合であるかに依存してpまたはpである。注意:親データ、すなわち、p、p、pおよびm、m、mの知識に基づいて、各遺伝子座において非ホモ接合性対立遺伝子xまたはyを有する確率をさらに改良することが可能である。これは、同一数のSNPでの各仮説についてより信頼性のある測定を可能とするが、標記方法を複雑化し、従って、この延長は明示的には取り扱わない。どのようにしてこの情報を用いて、仮説の信頼性を増加させるかは当業者に明らかなはずである。
対立遺伝子ドロップアウトの確率はpである。遺伝子座iにおいてヘテロ接合性遺伝子型を見出す確率は仮説hを仮定すれば、p0iであり、仮説hを仮定すればp1iである。
:p0i=0とする。
遺伝子座がxまたはyに対してホモ接合性であるかに依存して、h:p1i=p(1−p)、またはp1i=p(1−p)とする。
測定m=1/NΣi=1...Nhを作り出し、ここで、Iはインジケーター変数であり、もしヘテロ接合性要求がなされたならば、1であって、その他の場合は0である。Nはホモ接合性遺伝子座の数である。p=pであって、全ての遺伝子座についてp0i、p1iが同一の2つの値pおよびpであると仮定することによって、説明を簡略化することができる。hを与えて、E(m)=p=0、およびσ m|h0=p(1−p)/Nとなる。hを与えて、E(m)=pおよびσ m|h1=p(1−p)/Nとなる。5シグマ−統計学を用い、偽陽性の確率を偽陰性の確率と等しくし、(p−p)/2>5σm|h1、よって、N=100(p(1−p)+p(1−p))/(p−pと示すことができる。5−シグマ信頼性の代わりに2−シグマ信頼性では、N=4.2(p(1−p)+p(1−p))/(p−pと示すことができる。
信頼性が少なくとも97.7%であるように(2−シグマ)十分な入手可能なホモ接合性遺伝子座Nh−availがあることは、十分な遺伝子座Nをサンプリングするのに必要である。Nh−avail=Σi=1...Nを特徴付け、ここで、Jは、もし遺伝子座がホモ接合性であれば値1のインジケーター変数であり、そうでなければ、0である。ホモ接合性である遺伝子座の確率はp +p である。その結果、」E(Nh−avail)=N(p +p )、およびσNh−avail =N(p +p )(1−p +p )となる。Nが97.7%信頼性でもって十分に大きいことを補償するためには、E(Nh−avail)−2σNh−avail=Nでなければならず、ここで、Nは前記から見出される。
例えば、もしp=0.3、p=p=0.5を仮定するならば、5−シグマ信頼性について、N=186およびN=391を見出すことができる。同様に、2−シグマ信頼性、すなわち、偽陰性および偽陽性における97.7%信頼性について、N=30であって、N=68であることを示すのは可能である。
同様なアプローチを、hが2つの公知の染色体セグメントが存在する仮説であって、hが染色体セグメントの一方が失われている仮説である場合、セグメントの欠失を探すことに適応することができることを注記する。例えば、前記でなされたように、対立遺伝子ドロップアウトの効果をコードし、ヘテロ接合性であるが、ホモ接合性である遺伝子座を探すことが可能である。
また、アッセイが定性的であったとしても対立遺伝子ドロップアウト率を用いて、存在するDNAセグメントの数についての定量的尺度のタイプを供することができることを注記する。
方法3:参照配列の公知の対立遺伝子、および定量的対立遺伝子測定の使用
ここで、セグメントの清浄なまたは予測されるセットは知られていると仮定する。これらの染色体についてチェックするためには、各染色体の2つを仮定して、第一の工程は
データを正常化することである。本発明の好ましい実施形態において、第一の工程におけるデータ正常化は、本書類の他の箇所に記載された方法を用いてなされる。次いで、予測される2つのセグメントに関連するシグナルは、測定されたデータから差し引かれる。次いで、残りのシグナル中のさらなるセグメントを探すことができる。マッチドフィルタリングアプローチを用いて、さらなるセグメントを特徴付けるシグナルは、存在すると信じられるセグメントの各々、ならびにそれらの相補的染色体に基づく。例えば、図13をコードし、もしPSの結果が、セグメントp2およびm1が存在することを示すならば、本明細書中に記載された技術を用いて、さらなる染色体上でのp2、p3、m1、およびm4の存在をチェックすることができる。もし存在するさらなるセグメントがあれば、それは、これらのテストシグナルの少なくとも1つと共通する、50%を超える対立遺伝子を有することが保証される。ここに詳細に記載されていないもう1つのアプローチは、染色体の異常な番号、すなわち、1、3、4、および5染色体を仮定し、書類の他の箇所に記載されたアルゴリズムを用いて、データを正常化し、次いで、本明細書中で議論した方法を適用することができる。このアプローチの詳細は、本書類を読んだ後に当業者に明瞭なはずである。
仮説hは、対立遺伝子ベクトルa、aをもつ2つの染色体があるというものである。仮説aは、対立遺伝子ベクトルaを持つ第三の染色体があるというものである。遺伝子データを正常化するために本書類に記載した方法、またはもう1つの技術を用い、各要素ajiがxまたはyいずれかであるh:a=[a11...a1N]およびa=[a21...a2N]によって予測される2つのセグメントの対立遺伝子を決定することが可能である。予測されるシグナルは、f、fが各対立遺伝子の測定に対する対立遺伝子のセットからのマッピングを記載する仮説h:s0x=[f0x(a11,a21)...fx0(a1N,a2N)]、s0y=[f(a11,a21)...f(a1N,a2N)]について作り出される。hを仮定すれば、データはdxi=s0xi+nxi、nxi〜N(0,σxi );dyi=s0yi+nyi、nyi〜N(0,σyi )と記載することができる。データおよび参照シグナルを差分することによって測定を作り出す:mxi=dxi−sxi;myiyi−syi。十分な測定ベクトルはm=[m である。
さて、注目するセグメント、その存在が疑われるセグメントについてのシグナルを作り出し、それを、このセグメントの推定される対立遺伝子に基づいて求める:a=[a31...a3N]。残りについてのシグナルを:s=[srx ry と記載し、ここで、srx=[frx(a31)...frx(a3N)]、sry=[fry(a31)...fry(a3N)]であり、ここで、もしa3i=xであれば、frx(a3i)=δxiであって、その他の場合は0であり、もしa3i=yであればfry(a3i)=δyiであり、そうでなければ0である。この分析は、遺伝子座iにおける対立遺伝子xの1つのコピーの存在がデータδxi+mxiを作り出し、遺伝子座iにおける対立遺伝子xのκコピーの存在はデータκδxi+nxiを作り出すように、測定は線形化されている(後記セクション参照)と仮定する。しかしながら、この仮定は本明細書中に記載された一般的なアプローチでは必要ないことに注意されたし。h1を仮定すれば、もし対立遺伝子a3i=xであれば、mxi=δxi+nxi、yi=yiであり、もしa3i=yであれば、mxi=nxi、myi=δyi+nyiである。その結果、マッチドフィルターh=(1/N)R−1を作り出すことができ、ここで、R=diag([σx1...σxN σy1 ...σyN ])である。測定はm=hdである。
:m=(1/N)Σi=1...Nrxixi/σxi +sryiyi/σyi
:m=(1/N)Σi=1...Nrxi(δxi+nxi)/σxi +sryi(δyi+nyi)/σyi
必要なSNPの数を見積もるためには、全ての対立遺伝子および全ての遺伝子座についての全てのアッセイが同様な特徴を有し、すなわち、i=1...Nについてδxi=δyi=δおよびσxi=σyi=σであるという単純化仮定を行う。次いで、平均および標準編纂は以下のように見出すことができる
:E(m)=m=0;σm|h0 =(1/Nσ)(N/2)(σδ+σδ)=δ/(Nσ
:E(m)=m=(1/N)(N/2σ)(δ+δ)=δ/σ;σm|h1 =(1/Nσ)(N)(σδ)=δ/(Nσ)。
さて、h−対−hのこのテストについてシグナル−対−ノイズ比率(SNR)を計算する。シグナルはm−m=δ/σであって、この測定のノイズの偏差はσm|h0 +σm|h1 =2δ/(Nσ)である。その結果、このテストについてのSNRは(δ/σ)/(2δ/(Nσ))=Nδ/(2σ)である。
このSNRを、対立遺伝子要求に基づいてマッチドフィルタリングを行うことなく、遺伝子情報を各遺伝子座において単純に合計するシナリオと比較する。
と仮定し、ここで、
はNのそれのベクトルであり、i=1...Nについてδxi=δyi=δおよびσxi=σyi=σであると前記したように単純化仮定をする。このシナリオについては、もしm=hdであれば:
:E(m)=m=0;σm|h0 =Nσ/N+Nσ/N=2σ/N
:E(m)=m=(1/N)(Nδ/2+Nδ/2)=δ;σm|h1 =(1/N)(Nσ+Nσ)=2σ/N
であることを直接的に示すことができる。その結果、このテストについてのSNRはNδ/(4σ)である。言い換えれば、セグメントaについて予測される対立遺伝子測定を単に合計するマッチドフィルターを用いることによって必要なSNPの数は2倍だけ低下する。これは、各遺伝子座におけるアッセイの異なる効率を説明するためにマッチドフィルタリングを用いることによって達成されたSNR利得を無視する。
もし参照シグナルsxiおよびsyiを正しく特徴付けなければ、得られた測定シグナルmxiおよびmyiについてのノイズまたは擾乱のSDは増加するであろう。これはもしδ<<σであれば有意でなく、そうでなければそれは偽検出の確率を増加させるであろう。その結果、この技術は、3つのセグメントが存在し、2つのセグメントは相互の正確なコピーであると推定される仮説をテストするのによく適合している。この場合、sxiおよびsyiは、他の箇所に記載された定性的対立遺伝子要求に基づくデータ正常化の技術を用いて信頼性よく知られるであろう。1つの実施形態において、方法3は、定性的ゲノタイピングを用い、対立遺伝子ドロップアウトからの定量的測定とは別に、セグメントの第二の正確なコピーの存在を検出することができない方法2と組合せて用いられる。
さて、対立遺伝子要求を用いるもう1つの定量的技術を記載する。該方法は、所与の対立遺伝子についての4つの登録の各々におけるシグナルの相対的量を比較することを含む。ホモ接合性増幅が起こる、(または増幅の相対的量が正規化される)、単一の正常な細胞を含む理想化された場合において、4つの可能な状況が起こり得ると想像することができる:(i)ヘテロ接合性対立遺伝子の場合には4つの登録の相対的強度はほぼ1:1:0:0であり、シグナルの絶対的強度は1つの塩基対に対応し;(ii)ホモ接合性対立遺伝子の場合には、相対的強度はほぼ1:0:0:0であり、シグナルの絶対的強度は2つの塩基対に対応する;(iii)ADOが対立遺伝子のうち1つについて起こる対立遺伝子の場合において、相対的強度はほぼ1:0:0:0であって、シグナルの絶対強度は1つの塩基対に対応し;および(ix)ADOが対立遺伝子の双方について起こる対立遺伝子の場合において、相対強度はほぼ0:0:0:0であって、シグナルの絶対的強度は塩基対に対応しないであろう。
しかしながら、異数体の場合には、異なる状況が観察されるであろう。例えば、トリソミーの場合には、ADOはなく、3つの状況の1つが起こり:(i)三重にヘテロ接合性である対立遺伝子の場合には、4つの登録の相対的強度はほぼ1:1:1:0であり、シグナルの絶対的強度は1つの塩基対に対応し;(ii)対立遺伝子の2つがホモ接合性である場合には相対的強度はほぼ2:1:0:0であり、シグナルの絶対的強度は、各々、2つおよび1つの塩基対に対応し;(iii)対立遺伝子がホモ接合性である場合には、相対的強度はほぼ1:0:0:0であって、シグナルの絶対的強度は3つの塩基対に対応するであろう。もし対立遺伝子ドロップアウトがトリソミーを持つ細胞における対立遺伝子の場合で起こるならば、正常な細胞で期待される状況のうちの1つが観察されるであろう。モノソミーの場合には、4つの登録の相対的強度はほぼ1:0:0:0であって、シグナルの絶対的強度は1つの塩基対に対応するであろう。この状況は、ADOにおける対立遺伝子の1つが起こった正常な細胞の場合に対応するが、正常な細胞の場合には、これは対立遺伝子のいくらかのパーセンテージで観察されるのに過ぎないであろう。2つの同一の染色体が存在する片親二染色体の場合には、4つの登録の相対的強度はほぼ1:0:0:0であって、シグナルの絶対的強度は2つの塩基対に対応するであろう。1つの親からの2つの異なる染色体が存在するUPDの場合には、この方法は、本特許に記載された他の方法を用いるデータのさらなる分析はこれを明らかにするであろうが、細胞は正常であることを示す。
これらの場合の全てにおいて、正常であり、異数体またはUPDを有する細胞いずれかにおいて、1つのSNPからのデータは、細胞の状態について決定するのに適切ではないであろう。しかしながら、もし前記仮説の各々の確率を計算し、それらの確率を所与の染色体上の十分な数のSNPと組み合わせるならば、1つの仮説が支配的であり、高い信頼性でもって染色体の状態を決定することが可能であろう。
定量的測定を線形化するための方法
多くのアプローチを採用して、異なる対立遺伝子からのデータを容易に合計し、または差分できるように、特定の遺伝子座における遺伝物質の量の測定を線形化することができる。まず、上位概念的なアプローチを議論し、次いで、特定のタイプのアッセイについて設計されるアプローチを議論する。
データdxiは遺伝子座における対立遺伝子の遺伝物質の量の非線形測定をいうと仮定する。Nの測定を用いてデータの訓練セットを作り出し、ここに各測定については、データdxiに対応する遺伝物質の量はβxiであると見積もられ、またはそのように知られている。この訓練セットβxi、i=1...Nは、現実に遭遇するであろう全ての異なる量の遺伝物質にわたるように選択される。標準回帰技術を用いて、線形測定E(βxi)を期待して、非線形測定dxiからマップされる関数を訓練することができる。例えば、線形回帰を用いて、cが係数c=[c...cのベクトルであるE(βxi)=[1 dxixi ...dxi ]cであるように、次元Pの多項関数を訓練することができる。この線形化関数を訓練するために、Nの測定β=[βx1...βxNについての遺伝物質の量のベクトル、およびパワーに生起された測定されたデータのマトリックス0...P:D=[[1 dx1x1 ...dx1 [1
x2x2 ...dx2 ...[1 dxNxN ...dxN を作り出す。次いで、最小二乗フィットc=(DD)−1βを用いて係数を見出すことができる。
フィットした多項式のような上位概念的関数に依存するよりはむしろ、特定のアッセイの特徴について特殊化された関数を作り出すことができる。例えば、TaqmanアッセイまたはqPCRアッセイを考える。いくつかの閾値と交差する点までの時間の関数としての、対立遺伝子xおよびいくつかの遺伝子座iについてのダイの量を、αxiがバイアスオフセットであり、γxiが指数関数的成長速度であって、βxiが遺伝物質の量に対応するバイアスオフセット:gxi(t)=αxi+βxiexp(γxit)を持つ指数関数曲線として記載することができる。βxiの項における測定をキャストするためには、曲線の漸近限界gxi(−∞)を探すことによってパラメーターαxiを計算し、次いで、曲線のLOGを取って、log(gxi(t)−αxi)=log(βxi)+γxitが得られ、標準的な線形回帰を行うことによってβxiおよびγxiを見出すことができる。一旦αxiおよびγxiについての値を有すれば、もう1つのアプローチは、閾値gがその時点で超過する時間tからβxiを計算することである。βxi=(g−αxi)exp(−γxi)。これは、特定の対立遺伝子の遺伝子データの真実の量のノイジーな測定であろう。
どのような技術を用いても、線形化測定をβxi=κδxi+nxixi(−∞)としてモデル化することができ、ここにκは対立遺伝子xのコピーの数であり、δxiは対立遺伝子xおよび遺伝子座iについての定数であり、nxi〜N(0,σ )であり、ここで、σ は経験的に測定することができる。
方法4:各遺伝子座における遺伝子データの増幅のための確率分布の関数の使用
特定のSNPについての物質の量は、その上にそのSNPが存在する細胞中の初期セグメントの数に依存するであろう。しかしながら、増幅およびハイブリダイゼーションプロセスのランダムな性質のため、特定のSNPからの遺伝物質の量は、セグメントの出発数に直接的に比例しないであろう。qs,A,qs,G,qs,T,qs,Cが、対立遺伝子を構成する4つの核酸(A,C,T,G)の各々についての特定のSNP sに対する遺伝物質の増幅された量を表すものとする。これらの量は、増幅で用いる技術に依存して、正確にゼロであり得ることを注記する。また、これらの量は、典型的には、特定のハイブリダイゼーションプローブからのシグナルの強度から測定されることも注記する。この強度測定を量の測定の代わりに用いることができるか、あるいは発明の性質を変化させることなく標準的な技術を用いて量の見積もりに変換することができる。qを特定のSNPの全ての対立遺伝子から生じた全ての遺伝物質の合計とする:q=qs,A+qs,G+qs,T+qs,C。NをSNP sを含有する細胞中のセグメントの数とする。Nは典型的には2であるが、0、1または3以上であってよい。議論したいずれの高または中程度スループットのゲノタイピング方法についても、遺伝物質の得られた量はq=(A+Aθ,s)N+θとして表すことができ、ここで、Aは事前に見積もられたか、または経験的に容易に測定される合計増幅であり、Aθ,sはSNP sについてのAの見積もりにおける誤差であって、θ,sはそのSNPについての増幅、ハイブリダイゼーションおよび他のプロセスで導入される相加的ノイズである。ノイズの項Aθ,sおよびθ,sは、典型的には、qがNの信頼性がある測定ではないのに十分に大きい。しかしながら、これらのノイズの項の効果は、染色体上の多数のSNPを測定することによって緩和することができる。Sを、染色体21のような特定の染色体上で測定されるSNPの数とする。以下のように、特定の染色体上の全てのSNPにわたる遺伝物質の平均量を得ることが可能である:
θ,sおよびθは正規分布したランダム変数であり、平均0、および偏差
であると仮定し、q=NA+φをモデル化することができ、ここで、φは正規分布したランダム変数であり、平均0および偏差
である。その結果、もし十分な数のSNPが、
となるように染色体上で測定されるならば、N=q/Aは正確に見積もることができる。
もう1つの実施形態において、増幅は、1つのSNPからのシグナルレベルがs=a+αであり、ここで、(a+α)が図14左側の図に似た分布を有するモデルに従うと仮定する。0におけるδ関数はおよそ30%の対立遺伝子ドロップアウトの速度をモデル化し、平均はaであり、もし対立遺伝子ドロップアウトがなければ、増幅は0ないしaの均一な分布を有する。この分布の平均の項において、aはa=2.86aであることが判明する。さて、図14右側の図面を用いてαの確率密度関数をモデル化する。sをc遺伝子座から生起するシグナルとし;nをセグメントの数とし;αを、遺伝子座iからのシグナルに寄与する図14に従って分布したランダム変数とし;およびσを全ての{α}についての標準偏差とする。s=anc+Σi=1..ncα;平均(s)=anc;std(s)=sqrt(nc)σ。もしσを図14左側における分布に従って計算すれば、それはσ=0.907aであることが判明する。n=s/(ac)からのセグメントの数を見出すことができ、<5−シグマ統計学>については、std(n)<0.1、従って、std(s)/(ac)=0.1=>0.95a.sqrt(nc)/(ac)=0.1、従って、c=0.95n/0.1=181を必要とする。
要求における信頼性を見積もるためのもう1つのモデル、およびどのようにして多くの遺伝子座またはSNPを測定して、所与の程度の信頼性を確実としなければならないかは、相加的ノイズ源、すなわち、s=a(1+α)の代わりに増幅のマルチプライアーとしてのランダム変数を取り込む。logを取り、log(s)=log(a)+log(1+α)となる。さて、新しいランダムな変数γ=log(1+α)を作り出し、この変数は、正規分布していると仮定することができる〜N(0,σ)。このモデルにおいて、増幅は、σに依存して非常に小さいないし非常に大きいを範囲とすることができるが、決して負ではない。従って、α=eγ−1であり;およびs=Σi=1...cna(1+α)である。表記方法については、平均(s)および予測値E(s)を相互交換的に用いる。
E(α)を見出すためには、確率密度関数(pdf)が、可能であるαについて見出されなければならない。というのは、αは公知のガウスpdfを有するγの関数だからである。pα(α)=pγ(γ)(dγ/dα)である。従って、
である。これは、σ=1についての図15で示された形態を有する。さて、E(α)は、このpdfにわたって、多数の異なるσについて数値的に行うことができる。
を積分することによって見出すことができる。これは、E(s)または平均(s)をσの関数として与える。さて、このpdfを用いて、var(s)を見出すこともできる:
ここで、これは多数の異なるσについてpα(α)を用いて数値的に解いて、σの関数としてvar(s)を得ることもできる。次いで、公知の数の遺伝子座cおよび公知の数のセグメントnを持つ試料から一連の測定を取ることができ、このデータからstd(s)/E(s)を見出すことができる。それにより、σについての値を計算することが可能となる。nを見積もるためには、E(s)=nac(1+E(α))、従って、
を、
となるように測定することができる。0ないし平均の十分に多数の独立したランダムな変数を合計すると、分布はガウス形態に近づき、かくして、s(および
)は正規分布しているとして処理することができ、前記したように、5−σ統計学:
を用いて、2normcdf(5,0,1)=2.7e−7の誤差確率を有するようにすることができる。これより、遺伝子座cの数について解くことができる。
雌雄鑑別
システムの1つの実施形態において、遺伝子データを用いて、標的個体の性別を決定することができる。本明細書中に開示した該方法を用いて、親からのいずれの染色体のいずれのセグメントが標的の遺伝物質に貢献したかを決定した後、性染色体のいずれが父親から遺伝したかを見るためにチェックすることによって標的の性別を決定することができる:Xは女性を示し、およびYは男性を示す。この方法をどのようにして用いて、標的の性別を決定するかは当業者に明らかなはずである。
仮説の確証
システムのいくつかの実施形態において、1つの決定は、最高の可能な信頼性でもって正しい遺伝子状態の予測を行うためには、各可能な状態について仮説を立てる必要があることである。しかしながら、遺伝子状態の可能な数が指数関数的に大きくなり、計算時間が制限されるにつれ、各仮説を検定するのは合理的でないであろう。これらの場合において、別のアプローチは、仮説確証の概念を用いることである。これは、ある値、値のセット、もしある仮説、または仮説のクラスが真実であるならば測定されたデータにおいて観察されることが期待される特性またはパターンに対する制限を見積もることを含む。次いで、測定された値を検定して、それらが予測された制限に入るか、および/またはある予測された特性またはパターンを検定することができるか、および予測が適合しないかを見ることができ、次いで、アルゴリズムはさらなる調査のための測定に警告を与えることができる。
例えば、染色体の1つのアームの端部が標的DNAにおいて破壊されている場合、最もありそうな仮説は(例えば、「異数体」とは反対に)「正常である」と計算することができる。これは、遺伝物質の真の状態に対応し、すなわち、染色体の1つの端部が破壊された特定の仮説は、その状態の尤度が非常に低いので検定されていないからである。もし確証の概念を用いれば、アルゴリズムは、多数の値、染色体の破壊されたセクションに存在する対立遺伝子に対応するものは、測定の期待された限界の外にあることを注記するであろう。フラグが生起され、この場合についてのさらなる調査を促し、遺伝物質の真の状態が発見される尤度を増大させる。
どのようにして、開示された方法を修飾して、確証技術を含ませるかは当業者に明らかなはずである。開示された方法を用いて検出するのは非常に困難であると予測される1つの異常は、バランスしたトランスロケーションであることを注記する。
汚染されたDNAでの方法の適用
システムの1つの実施形態において、外来性DNAで明確にまたは可能性として汚染された標的DNAからの遺伝子データもまた、開示された方法を用いて正常化することができる。先に概説した概念、仮説確証のそれを用いて、予測される限界の外になる遺伝子試料を同定することができ;汚染された試料の場合には、この確証は警告を生起させ、試料を汚染したものとして同定することができると予測される。
標的DNAの大きなセグメントは親遺伝子データから知られておるので、かつ汚染の程度は十分に低く、十分なSNPが測定されるものとすると、外来性遺伝物質による誤ったデータを同定しかねない。本明細書中に開示された方法は、依然として、より低い信頼性のレベルに拘わらず、標的ゲノムの再構築を可能とするはずである。汚染のレベルが十分に低いものとすれば、最もありそうであると計算される仮説は、依然として、標的DNA試料中の遺伝物質の真の状態に対応すると予測される。
どのようにして、外来性DNAにより誤ったシグナルで汚染された遺伝子データを清浄化する目的でこれらの方法を最適かするかは当業者に明らかなはずである。
実施例
システムの1つの実施形態において、前記した方法は、関連SNPのリストにおける各SNPの最もありそうな同一性、ならびに各SNP要求についての信頼性レベルを計算するアルゴリズムのセットを用いて実行することができる。本明細書中に記載するのは、この特許に開示した方法を実行するための1つの可能な方法である。図16および図17は、開示された方法のこの実施を頓挫、入力の要件、および出力のフォーマットを実質的に表す。
図16は入力データ(1601)およびそのフォーマットおよび要件、ならびに出力データ(1605)およびそのフォーマットに焦点を当てる。アルゴリズムへの入力は、ユーザーによる入力を含めた測定されたデータ(1602)、および結果的には新しく収集されたデータによって更新されるデータベースに保存された現存データ(1603)よりなる。測定されたデータ(MD,1602)は胚、および父性および母性対立遺伝子についての所望のSNPについて測定された遺伝子データ、ならびに対立遺伝子の各々が知られている精度または信頼性よりなる。現存データ(1603)は集団頻度データ(FD)、測定バイアスデータ(BD)および交差データ(CD)よりなる。
集団頻度データ(FD)は利用可能なSNPの各々について(値A、C、T、Gの各々についての)対立遺伝子頻度を含有する。これらのデータは従前に知られているか、または測定することができ、本書類中の他の箇所に記載されたように新しく収集されたデータで更新することができる。
測定バイアスデータ(BD)は、ある種の値に向けての測定プロセスのバイアスを捕獲する。例えば、対立遺伝子の真の値がX=Aであって、正しい測定の確率はpであると仮定し、測定された値xの分布は:
であり、ここで、p+p+p+p=1である。もし値のいずれかに向けての測定のバイアスがなければ、p=p=p=(1−p)/3である。この情報は、測定プロセスのメカニズムおよび関連機器についての経験的および理論的知識から区別することができる。
交差データ(CD)は、HAPMAPデータから収集された、スニップの対の間の遺伝子距離および交差確率のデータベースよりなる。
一緒にすると、(MD)、(FD)、(BD)、(CD)は、開示された方法(「親サポート」,1604という)アルゴリズムに対する必要な入力をなす。次いで、このアルゴリズム(1604)を入力データとして操作して、出力データ(1605)を生じさせ、これは測定値を仮定した標的の遺伝子データのもっともありそうな「真の」値、ならびに親対立遺伝子に関する各SNPの最もありそうな起源を記載する。
図17は(「親サポート」という)アルゴリズムそれ自体の構造、およびどのようにしてこれらの入力データの各々がアルゴリズムによって利用されるかに焦点を当てる。逆に作業し、最もありそうな仮説を見出すためには、全ての可能な仮説Hについての、測定を仮定した仮説の確率P(H|M)1707を計算する必要がある。
先に記載したように:
である。
P(H|M)(1710)を見出すためには、全ての仮説Hについて、P(M|H)(1707)およびP(H)(1708)を見出すことがまず必要である。これは、先に示した方程式によるP(M),1709の計算を可能とする。仮説の確率P(H)(1708)は、先に説明したようにどれくらい多くの交差が推定されるか、およびこれらの交差の各々の尤度(CD,1704)に依存する。
P(M|H)は、先に説明したように、以下の方程式
を用いて計算することができる。
P(T),1706は父性および母性対立遺伝子についての特定の値tの頻度であり、集団頻度データ(FD,1703)に由来する。P(M|H&t),1705は、特定の「真の」値tを仮定し、胚、父親および母親の対立遺伝子を正しく測定する確率である。ユーザーによってエンターされた測定データおよび精度(MD,1701)、および測定バイアスデータベース(BD,1702)は、P(M|H&t),1705を計算するのに必要な出力である。
該方法のより詳細な記載を以下に掲げる。id S,・・・,Sで同定される、kのSNPについての、SNP R={r,...,r}、(kのSNPのセット)、および親および胚の対応する測定された同一性M=(e,e,p,p,m,m)で開始し、ここに:
=(e11,e12,...,e1k)は、全てのSNPについての、胚の染色体の1つでの測定であり(それらは、全てが、同一親染色体に由来する必要はない)、
=(e21,e22,...,e2k)は胚の他の染色体での測定であり、
=(p11,p12,...,p1k)は、(全て同一染色体に由来する)父親の第一の染色体での測定であり、
=(p21,p22,...,p2k)は、(全て同一染色体に由来する)父親の第二の染色体での測定であり、
=(m11,m12,...,m1k)は、(全て同一染色体に由来する)母親の第一の染色体での測定であり、
=(m21,m22,...,m2k)は、(全て同一染色体に由来する)母親の第二の染色体での測定である。
また、M=(M,...,M)を書くことができ、ここで、M=(e1i,e2i,p1i,p2i)である。
該方法の目標は、「真の」胚値T=(E1,E2)、すなわち、測定Mを仮定した最もありそうな場合を決定することであり、ここに:
=(E11,E12,...,E1k)は、父性染色体に対応する胚の第一の染色体での測定、E1i∈{p1i,p2i}であり、
=(E21,E22,...,E2k)は、母性値に対応する胚の第二の染色体での測定、E2i∈{m1i,m2i}である。
また、T={T,...,T}を書くことができ、ここで、T=(E1i,E2i)である。
効果的には、親染色体値(p,p,m,m)は、(E,E)の測定された値をチェックし、確証し、および修正するためのサポートとして用いる、よって、用語「親サポートアルゴリズム」。
この目標を達成するためには、胚値の起源についての全ての可能な仮説を開発し、測定Mを仮定して最もありそうなものを選択する。仮説空間はS={H,...,H}={全ての仮説のセット}であり、ここで、各仮説はフォーマットH=(H ,...,H )のものであり、ここで、H は、p ∈{p1i,p2i}およびm ∈{m1i,m2i}であるフォーマットH =(p ,m )の、SNP iについての「ミニ」仮説である。4つの異なる「ミニ」仮説H 1、特に:
1:(e1i,e2i)={(p1i,m1i)または(m1i,p1i)}
2:(e1i,e2i)={(p1i,m2i)または(m2i,p1i)}
3:(e1i,e2i)={(p2i,m1i)または(m1i,p2i)}
4:(e1i,e2i)={(p2i,m2i)または(m2i,p2i)}
がある。
理論において、Sはq=4の異なるメンバーを有して、ピックアップすることができるが、後に、この空間は父性および母性染色体の最大数の交差で限定されるであろう。
最もありそうな仮説Hは:
であると選択される。特定のHについては:
である。
各仮説についてのそのような由来:
(1)P(M/H)は、特定の仮説Hを仮定した測定Mの確率である。
(2)P(H)は特定の仮説Hの確率である。
(3)P(M)は測定Mの確率である。
全てのHについてP(H|M)を導いた後、最大の確率を持つものを選択する。
P(M|H)の誘導
各SNPについての測定は、全てのkのSNPでの、M=(M,...,M)および特定の仮説H=(H,...,H)について独立しているので:P(M|H)=P(M|H...P(M|H)である。特定のSNP rでは、P(M|H)を誘導する。Ω={A,C,T,G}X{A,C,T,G}X={A,C,T,G}X{A,C,T,G}については、ベイズ式による「真の親値(P1r,P2r,M1r,M2r)についての全ての可能な空間は:
である。
P(M|H&(P1r,P2r,M1r,M2r)=t)の誘導
=(e1r,e2r,p1r,p2r,m1e,m2r)はこのSNPでの所与の測定である。
T=(E1r,E2r,P1r,P2r,M1r,M2r)は、仮説によるTから固定されたt=(P1r,P2r,M1r,M2r)および(E1r,E2r)での推定された「真の」値である。(E1rはP1r、P2rの一方であり、E2rはM1r、M2rの一方である)。
P(M=(e1r,e2r,p1r,p2r,m1r,m2r)/T=(E1r,E2r,P1r,P2r,M1r,M2r))=
P(e1r/1rP(e2r/2rP(p1r/1rP(p2r/2rP(m1r/1rP(m2r/2r
eir=p(SNP rについての胚値iを正確に測定)
pri=P(SNP rについての父親値iを正確に測定)
mri=P(SNP rについての母親値iを正確に測定)とすれば、
であり、ここで、測定バイアスがなければ、p(e1r,E1r,r)=1/3であり、そうでなければ、それはHapmapプロジェクトからのデータのような実験データから決定することができる。
P((P1r,P2r,M1r,M2r)=t)の誘導
t=(t,t,t,t)については:
P((P1r,P2r,M1r,M2r)=(t,t,t,t))=P(P1r=tP(P2r=tP(M1r=tP(M2r=t)である。(P,P,M,M)のnの試料があると仮定し、全ての父性および母性値は独立しており、{A,C,T,G}におけるtについてはt=(t,t,t,t)であると推定される。
=Aについて特定のp1A=P(P=t)を得るためには、いずれものデータの不存在下において、この確率は0および1の間の何かであり得ると推定され、従って、それはU(0,1)の値が割り当てられる。データの獲得に関しては、これは新しい値で更新され、このパラメーターの分布はベータ分布となる。Pのnの観察のうち、hの値P1=A、およびw=(事象P=A)およびD=(所与のデータ)がある。先のセクションにおいて、p(w|データ)についてα=h+1、β=n−h+1でのβ分布B(α,β)の形式が記載されている(方程式(8)参照)。予測された値およびX〜B(α,β)分布の偏差は:
である。従って、パラメーターの事後平均値はp1rA=P(P1r=A|Data)=(h+1)/(n+2)である。同様に、p1rB=(#(p1r=B)+1)/(n+2),...m2rG=(#(m2r=G)+1)/(n+2)などである。かくして、全ての値p1rA,...,m2rGが導かれ:
である。
P(H)の誘導
=(p ,m )での仮説H=(H,...,H)の確率は、染色体交差の量に依存する。例えば、
P(交差)=0であれば、もし{(p11,p21,...ps1),(p12,p22,...,ps2)におけるp、{(m11,m21,...,ms1),(m12,m22,...,ms2)}におけるmであれば、P(H=1/4であって、H=(p,m)であり、そうでなければ0であり
P(交差)>0であれば、各SNPの間の交差の確率を一体化させるのは重要である。
仮説Hは、各SNPについての父性および母性染色体についての仮説、独立している、p ∈{p1i,p2i}およびm ∈{m1i,m2i}、すなわち、H=(H ,H)よりなり、ここで、H=(p ,...p )およびH=(m ,...m )である。
P(H=P(HP(H)。SNPはロケーションを増大させることによって秩序化され、
であると仮定し、ここで、PC=P(交差(ri−1,r))、すなわち、SNP ri−1,rの間のどれかの交差の確率であり、もしp ,pi−1 が共にpまたはpに由来するならば、I=1であり、そうでなければそれは0である。
P(交差(a,b))の誘導
(塩基で与えた)塩基ロケーション1、1におけるSNP a,bを仮定すれば、交差の確率は:
P(l,l)=0.5(1−exp(−2G(l,l)))
として近似され、ここで、G(1,1)=ロケーション1,1の間のモルガンで表した遺伝子距離。Gについての正確な閉じた形態の関数はないが、それはG(l,l)=|l−l1e−8として緩く見積もられる。良好な近似は、全てのロケーションにわたってのiスパンニングについての、塩基ロケーションsおよび距離G(s,si+1)のHapMapデータベースを利用することによって用いることができる。特に、
であり、従って、それは交差確率で用いることができる。
P(M)の誘導
一旦P(M|H)が知られていれば、P(H)はSにおける全ての異なるHについて見出すことができる。
最大確率の仮説を導くためのより便宜な方法
コンピュータ時間の制限、および前記した方法の複雑性の指数関数スケーリングを仮定すれば、SNPの数が増加するにつれ、ある場合には、より便宜な方法を用いて、最大確率の仮説を決定し、かくして、関連するSNP要求をなすのが必要であろう。これを達成するためのより迅速な方法は以下の通りであり:
以前より:
P(H|M)=P(M|H)P(H)/P(M)、argmaxP(H|M)=argmaxおよびP(M|H)P(H)=argmaxF(M,H)であり、目的はF(M,H)を最大化するHを見出すことである。
(s,k)=スニップsないしkについての測定、H(s,k)=スニップsないしkについての仮説、および短いものについて、M(k,k)=Mを仮定すれば、H(k、k)=H=スニップkについての測定および仮説である。先に示したように:
であり、また、
であり、ここで、
およびPC(Hi−1,H)=Hi−1,Hの間の交差の確率。
従って、最後には、nのスニップについては:
F(M,H)=P(M|H)P(H)=P(M(1,n),H(1,n)P(H(1,n)
=P(M(1,n−1),H(1,n−1)P(H(1,n−1)P(M|HPF(Hn−1,H
であり、従って:F(M,H)=F(M(1,n),H(1,n)))=F(M(1,n−1),H(1,n−1)P(M|HPF(Hn−1,H)である。かくして、nのスニップについての計算をn−1スニップについての計算に代えることが可能である。
nについてのスニップのnについてのH=(H,...H)仮説では:
であり、ここに
である。まとめると:
であり、ここで、Gは帰納的に見出すことができ:i=2,..nについては、
である。
最良の仮説は以下のアルゴリズムに従って見出すことができる:
工程1:I=1では、Hについての4つの仮説を作り出し、これらの各々についてのG(M|H)を作り、G、G、G、Gを覚える。
工程2:I=2では:Hについての4つの仮説を作り出し、前記式を用いてG(M(1,2)|H)を作成し:
これらの新しい4つのGを覚える。
k=nまで、kki−1+1にてI=kにつき工程2を反復し:Hについて4つの仮説を作り出し、G(M(1,k)|H
を作成し、これらの4つのGを覚える。
いずれかの時点において覚えるべきただ4つの仮説、および一定数の操作があるので、アルゴリズムは線形である。
P(M):P(H|M)=P(M|H)P(H)/P(M)=F(M,H)/P(M))を見出すために、前記したように:
であり、ここで、
である。
W(M,H)は帰納を用いることによって解くことができる:
従って:
である。
アルゴリズムは前記の場合に同様であり、ここで、i=2:nであって、各工程において、W(i)の新しいセットを、最終工程が最適化されたWを生じるまで作り出される。
、d、h、pd、pd、phからのp、p、pp、pp値の誘導
説明の目的で、このセクションは父親のジプロイドおよびハプロイドデータに焦点を合わせるが、同一アルゴリズムを母親に適用することができることに注意するのは重要である。
−d,d−ジプロイド測定での対立遺伝子要求
−h−ハプロイド測定についての対立遺伝子要求
−pd1,pd2−ジプロイド測定の各々についての正しい対立遺伝子要求の確率
−p−ハプロイド測定についての正しい対立遺伝子要求の確率
これらのデータは開示されたアルゴリズムについての以下の入力パラメーターにマッピングすべきである:
−p−ハプロイド細胞および1つのジプロイド細胞に対応する対立遺伝子
−p−残りのジプロイド細胞に対応する対立遺伝子
−pp1,pp2−正しい対立遺伝子要求の確率
hはdに対応するので、pの値を見出すためには、hおよびdを用いる必要がある。次いで、pは自動的にdに対応する。同様に、もしhがdに対応すれば、pの値を見出すためには、hおよびdを用いる必要があり、次いで、pはdに対応するであろう。
用語「対応する」を用いる。というのは、それは、異なる測定結果および集団頻度に依存して、「等しい」または「より高い確率で由来する」を意味することができるからである。
アルゴリズムの目標は、生の測定h、d、d、p、pd1、pd2および集団頻度の結果を超えて隠された「真の」対立遺伝子値の確率を計算することである。
基本的なアルゴリズム工程は以下の通りである:
(i)h、d、d、p、pd1、pd2値、および集団頻度データに基づいてhがdまたはdに対応するかを決定する、
(ii)対立遺伝子要求をpおよびpに帰属させ;工程(1)に基づいて確率pp1およびpp2を計算する。
hのdまたはdへの帰属
2つの仮説:
:hはdに対応する(hはdに由来する)
:hはdに対応する(hはdに由来する)
を確率する。仕事は、測定M:を仮定してこれらの2つの仮説の確率を計算することである:
P(H/M(h,d,d,p,pd1,pd2))およびP(H/M(h,d,d,p,pd1,pd2))。以下、(テキストを単純化するために、これらをP(H/M)およびP(H/M))という)。
これらの確率を計算するために、ベイズ則:
を適用し、ここで、P(M)=P(M/HP(H)+P(M/HP(H)である。仮説HおよびHは同等にありそうなので、P(H)=P(H)=0.5であり、従って:
である。
P(M/H)およびP(M/H)を計算するためには、ジプロイド結果dおよびdの全ての可能な値のセット、Ω={AA,AC,...,GG}、すなわち、A、C、T、Gのいずれかの組合せ、いわゆる基礎となる状態を考慮しなければならない。仮説を基礎となる状態に適用する場合(すなわち、仮説HまたはHに基づいてhの推定値を値dおよびdに伴わせる)、h、bおよびdについての「真の値」H、DおよびDの全ての可能な組合せ(状態S={s,s,...,s16})の以下の表を、各々、作成することができる。
「真の値」H、DおよびDは知られておらず、かつ生の測定結果h、d、d、p、pd1、pd2のみが知られているので、全セットΩにわたるP(M/H)およびP(M/H)の計算は以下のように行わなければならない:
もし、計算の目的で、dおよびd、ならびにpd1およびpd2が独立した変数であると仮定すれば:
を示すことができる。{h,d,d}におけるhについての、前記した最後の合計:P(M(x)/X)下で3項を計算する。
(「真の対立遺伝子値」をヒットさせる)正しい対立遺伝子要求の確率の計算は、対立遺伝子Xの真の値を仮定した結果xの測定に基づく。もし測定された値xおよび真の値Xが等しいならば、確率はpである(正しい測定の確率)。もしxおよびXが異なるならば、その確率は(1−p)/3である。例えば、X=C、および測定された値がx=Aである条件下で「真の値」Cが見出される確率を計算する。Aを得る確率はpである。C、TまたGを得る確率は(1−p)である。従って、Cがヒットする確率は(1−p)/3である。というのは、C、TおよびGは等しくありそうと仮定することができるからである。
もしインジケーター変数Iが計算に含まれ、ここで、もしx=XであればI=1であり、もしx≠XならばI=0であれば、確率は以下の通りである:
P(M(x)/X)=I{x=X} +(1−I{x=X}(1/3)(1−p)、{h,d,d}におけるx。
さて、P(M|H)における最後の2つの項を考える。P(D)およびP(d)は、事前の知識から知ることができる、対立遺伝子A、C、TおよびGの集団頻度である。
特定の測定M(h=A,d=G,d=C)を仮定して、特定の状態sについて先に示した表現を考慮する:
同様に、残りの15の状態、およびセットΩにわたる合計について、特定の測定(この場合、M(h=A,d=G,d=C))を仮定して(1)を計算する。
さて、P(M/H)およびP(M/H)は計算された。最後に、前記したようにP(H/M)およびP(H/M)を計算する:
対立遺伝子要求の帰属および対応する確率
さて、4つの異なる仮説:
p2A:pの「真の値」はAである、
p2C:pの「真の値」はCである、
p2T:pの「真の値」はTである、
p2G:pの「真の値」はGである、
を確立し、P(Hp2A/M)、P(Hp2C/M)、P(Hp2T/M)、P(Hp2G/M)を計算する。最高の値は、特定の対立遺伝子の要求および対応確率を決定する。
の起源は未知である(それは、P(H/M)の確率でもってdから、および確率P(H/M)をもってdから由来する)ので、p対立遺伝子がdまたはdに由来する双方の場合を考慮しなければならない。仮説Hについては、ベイズ則を適用し、
が得られる。
P(H/M)およびP(H/M)は工程1においてすでに決定されている。ベイズ則によると、
である。Hは、pがdに由来することを示唆するので、前記したように、
である。
P(Hp2A)=P(D=A)=fd2(A)であり、ここで、fd2(A)は集団頻度データから得られる。
P(H,M)=P(H,M/Hp2AP(Hp2A)+P(H,M/Hp2CP(Hp2C)+P(H,M/Hp2TP(Hp2T)+P(H,M/Hp2GP(Hp2G
同様に、P(Hp2A&H/M)を計算する。
P(Hp2A/M)=P(Hp2A&H/M)+P(Hp2A&H/M)であり、したがって、pがAに等しい確率は計算された。C、TおよびGについての計算を反復する。最高の値は、p対立遺伝子要求および対応する確率の回答を与えるであろう。
対立遺伝子要求のpへの帰属(ハプロイド細胞、および1つのジプロイド細胞に対応する対立遺伝子)
前記したように、4つの異なる仮説:
p1A:pの「真の値」はAである、
p1C:pの「真の値」はCである、
p1T:pの「真の値」はTである、
p1G:pの「真の値」はGである、
を確立し、P(Hp1A/M)、P(Hp1C/M)、P(Hp1T/M)、P(Hp1G/M)を計算する。
これは、Hp1Aの仕上げである。「真の場合」の場合においては、ハプロイドおよび対応するジプロイド細胞がAと等しい場合にのみpはAと等しい。したがって、pおよびpp1を計算するためには、ハプロイドおよび対応するジプロイド細胞が等しい状況を考慮しなければならない。したがって、仮説Hp1A:pの「真の値」はAであって、HhdAとなる:ハプロイド細胞および対応するジプロイド細胞の「真の値」はAである。
hの起源は未知である(それは、P(H/M)の確率でもってdから、および確率P(H/M)でもってdから由来する)ので、h対立遺伝子がdまたはdに由来する双方の場合を考慮し、pの決定におけるそれを実行しなければならない。それは、ベイズ則を用いると:
P(HhdA|M)=P(HhdA|M,HP(H|M)+P(HhdA|M,HP(H|M)
を意味する。
前記したように、P(H/M)およびP(H/M)は先の計算から知られている。
P(H,M/HhdA)=P(M(h)/H=A)P(M(d)/D=A)=
=[I{h=H} +(1−I{h=H}(1/3)(1−p)][I{d1=D1} d1+(1−I{d1=D1}(1/3)(1−pd1)]
である。というのは、H1は、pがdに由来することを示唆するからである。P(HhdA)=P(h=A)P(D=A)f(A)d1(A)であり、ここで、f(A)およびfd2(A)は集団頻度データから得られる。P(H,M)=P(H,M/HhdAP(HhdA)+P(H,M/HhdCP(HhdC)+P(H,M/HhdTP(HhdT)+P(H,M/HhdGP(HhdG)。
同様に、P(HhdA&H/M)を計算する。
P(HhdA/M)=P(HhdA&H/M)+P(HhdA&H/M)であり、今や、我々はpがAと等しい確率を計算した。C、TおよびGについての計算を反復する。最高の値はp対立遺伝子要求および対応する確率の回答を与えるであろう。
例としての入力
2つの入力の例を示す。最初の例は、共分離する低い傾向があるSNPのセットのものであり、すなわち、SNPは染色体を通って拡大し、入力データを表3に示す。第二の例は、共分離する高い傾向があるSNPのセットのものであり、すなわち、SNPは染色体上にクラスター形成し、インプットデータを表4に示す。双方のデータのセットは個体の測定されたSNPデータ、個体の親のSNPデータおよび対応する信頼性値を含む。このデータは現実の人々から測定された現実のデータであることを注記する。各列は、1つの特定のSNPロケーションについての測定を表す。行は、行の見出しによって示されるデータを含む。行の見出し中の略語に対する鍵は以下の通りである:
family_id=各人についてのユニークなid(事務的理由について含む)
snp_id=SNP同定番号
e1,e2=胚についてのSNPヌクレオチド値
p1,p2=父親についてのSNPヌクレオチド値
m1,m2=母親についてのSNPヌクレオチド値
pe1,pe2=e1,e2についての測定精度
pp1,pp2=p1,p2についての測定精度
pm1,pm2=m1,m2についての測定精度
例としての出力
出力データの2つの例を表5および表6に示し、これは各々、表3および表4に掲げたデータからの出力データに対応する。双方の表は、個体の測定されたSNPデータ、個体の親のSNPデータ、個体のSNPデータの最もありそうな真の値、および対応する信頼性を示す。各列は、1つの特定のSNPに対応するデータを表す。行は行の見出しによって示されるデータを含まれる。行の見出し中の略語に対する鍵は以下の通りである:
snp_id=SNP同定番号
true_value=e1,e2についての提案されたヌクレオチド値
true_hyp=e1,e2の起源についての仮説
ee=e1,e2についての測定されたSNPヌクレオチド値
pp=p1,p2についての測定されたSNPヌクレオチド値
mm=m1,m2についての測定されたSNPヌクレオチド値
HypProb=最終仮説の確率。出力についてはただ1つの数があるが、優れた行構造のため、この数字は全ての列中に複製される。
このアルゴリズムは手動で、またはコンピュータによって実施することができることを注記する。表3および表4は、該方法のコンピュータで実施されたバージョンについての入力データの例を示す。表5は表3に示された入力データに対する出力データを示す。表6は、表4に示された入力データに対する出力データを示す。
シミュレーションアルゴリズム
以下に、システムの一体性を確実とし、およびより広く種々の状況におけるアルゴリズムの現実の効率を評価するためになされた第二のシミュレーションを示す。これを行うために、1,000のフルシステムシミュレーションを実行した。これは、親遺伝子データをランダムに作り出し、イン・シリコにて減数分裂を模倣して、胚データが得られ、胚データの不完全な測定をシミュレートし、次いで、本明細書中に開示された方法を実行して、シミュレートされた測定胚データを清浄化し、次いで、その「清浄化された」データを「現実の」データと比較することを含む。シミュレーションのより詳細な説明を以下に掲げ、事象のフローの目に見える表示を図18に掲げる。理論の2つの異なる実施を検定した。より十分な説明を以下に掲げる。
DHおよびPSについてのシミュレーションアルゴリズムおよび結果
双方のアルゴリズムについて、初期入力変数は:
(i)検定すべきSNPのリスト、
(ii)母性(popfreqlistMM)および父性(popfreqlistPP)染色体の集団頻度、
(iii)ハプロイド測定(ph,pe)についての、および秩序立っていないジプロイド測定(pd)についての正しい対立遺伝子要求の確率、
である。
これらの値は、関連するSNPについての経験的なデータ(集団頻度)からの、および測定機器性能(ph,pd,pe)からの結果に基づいて固定すべきである。シミュレーションは、最もありそうな(通知された)、均一な(通知されていない)および非常にありそうにない(極端な場合)のようないくつかのシナリオについて実行した。
一旦、前記した静的なパラメーターが固定されれば、特定のSNPを仮定した交差確率はすべてのシミュレーションについて同一であり、スニップロケーション(SNIPLOC_NAME_MAT)および遺伝子距離(HAPLOC_NAME_MAT)についてのデータベースを仮定して該時点に先立って誘導されるであろう。
[crossprob,snips]=
GetCrossProb(スニップ,SNIPLOC_NAME_MAT,パラメーター,HAPLOC_NAME_MAT)
予備的シミュレーションループ
予備的シミュレーションループは、十分なシミュレーションで用いられるであろう遺伝子データが現実的であることを示すものである。工程1ないし5を10,000回反復した。このシミュレーションが、いずれかのまたは双方の親について実行することができ;該工程は同一であることを注記する。この場合、シミュレーションは説明目的のために父性ケースで実行され、図18への言及はカッコに入れた図18中の対応する母性エントリーも含む。
工程1:オリジナルの親ジプロイド細胞(P1,P2)の創製
[P1,P2]=オリジナルの染色体の創製(snips,popfreqlistPP);1801(1802)
父親細胞についての各SNPに対する集団頻度に依存して、オリジナルの父性細胞を創製する。
工程2:DHAlgoについてのハプロイドおよび秩序立っていないジプロイドデータの創製
親染色体1803の交差をシミュレートして、染色体、交差の2つのセット:P1C1、P2C1およびP1C2、P2C2;1804(1805)を得る。ハプロイド対立遺伝子HP 1807(1808)、この場合は、P1(というのは、いずれについても差はないからである)についての、(第一のセットからの)交差1806後に父親対立遺伝子のうちの1つをピックアップし、ジプロイド対立遺伝子中の順序を混合して、(D1P,D2P)1807(1808)を得る。
HP=PickOne(P1C1,P2C1);
[D1P,D2P]=Jumble(P1,P2)。
工程3:オリジナルなデータセットへエラーを導入して、測定をシミュレートする。
正しい測定(ph−ハプロイド、pd−ジプロイド測定)の所与の確率に基づき、エラーを測定に導入して、シミュレートされた測定親データ1811(1812)を得る。
hp=MakeError(HP,ph);
d1p=MakeError(D1P,pd);
d2p=MakeError(D2P,pd)。
工程4:DHAlgoを適用して、(p1,p2)、(pp1,pp2)を得る。
DHAlgoは、ハプロイド細胞からの対立遺伝子、およびジプロイド細胞からの秩序立っていない対立遺伝子を取り、これらを生起したもっともありそうな秩序立ったジプロイド対立遺伝子を戻す。DHAlgoは(P1,P2)を再形成するよう試み、また、父親についての見積もり誤差(pp1,pp2)を戻す。比較のために、単純な対立遺伝子マッチングを行う経験的アルゴリズムを用いる。目標は、単純な経験的アルゴリズムと比較して、どれくらい開示されたアルゴリズムが良好であるかを比較することである。
[p1,p2,pp1,pp2]=DHAlgo(hp,d1p,d2p,ph,pd,snips,popfreqlistPP,‘DH’);
[p1s,p2s,pp1s,pp2s]=DHAlgo(hp,d1p,d2p,ph,pd,snips,popfreqlistPP,‘ST’);
工程5:実行のための統計学の収集
(P1,P2)を誘導された(p1,p2)と比較する。
[P1cmp( :,i), P2cmp( :,i),P1prob( :,i), P2prob( :,i),P1mn(i),P2mn(i)]=DHSimValidate(P1,P2,p1,p2,pp1,pp2);
注意:(P1S,P2S,P1P,P2P,P1A,P2A)=(I{P1=p1},I{P2=p2},pp1,pp2,p1acc,p2acc)であり、ここで、I{P1=p1}は全てのSNPについての、同様に、I{P2=p2}についての、DHアルゴリズム精度の見積もり用のバイナリインジケーターアレイである。Pp1,Pp2は該アルゴリズムに由来する正しい対立遺伝子要求およびp1acc=平均(I{P1=p1})、すなわち、p2accについてと同様な、p1についてのこの実行に対する平均精度の確率である。
予備的シミュレーションの結果
10,000のシミュレーションを用いて、P1,P2からのDHアルゴリズムの総じての精度を示す、アルゴリズム精度DHAccuracy.P1=平均(P1A)、DHAccuracy.P2=平均(P2A)を見積もった。個々のSNPに基づき、各SNP SNPAcc.P1=平均(P1S)についての平均精度は、SNP,SNPProb.P1=平均(P2P)であると正しく測定する見積もられた確率の平均に合致すべきであり、すなわち、もしアルゴリズムが正しく作動すれば、SNPAcc.P1に対する値はSNPPro.P1に密接に対応すべきである。これらの2つの間の関係はそれらの相関によって反映される。
シミュレーションの10000ループは異なる設定シナリオで実行した:
(1)基礎となる集団頻度は、より現実的である現存のゲノタイピングデータ、およびA、C、T、Gが各SNPについて同一の確率を有する均一な集団頻度によって与えられた。
(2)ハプロイドおよび秩序立っていないジプロイド測定(PH,PD)についての測定精度に対するいくつかの組合せ。種々の仮定を行った;測定は共に非常に精度があり(0.95,0.95)、精度が低く(0.75,0.75)、および精度なしまたはランダムであり(0.25,0.25)、ならびに(0.9,0.5)、(0.5,0.9)のバランスが取れていない組合せである。現実に最も近いであろうものは、ほぼ0.6ないし0.8の精度であろう。
(3)シミュレーションを、DHAlgorithmおよび単純なマッチングSTAlgorithm双方についてのすべてのこれらの場合に実行して、開示されたアルゴリズムの性能を評価した。
これらの全ての実行の結果を表7にまとめる。
開示されたアルゴリズムは、これらのシミュレーションにおいて、特に、不均一な集団頻度、および正しい測定のアンバランスな、または低下した確率の現実的場合について、現存の経験的アルゴリズムよりも良好に実行される。また、個々のSNPについてのアルゴリズム精度の1つの見積もりはこれらの場合において非常に良好であることが確認された。というのは、正しい対立遺伝子要求の見積もられた精度、およびシミュレーション平均精度の間の相関は99%程度であり、平均比率は1だからである。
最も現実的場合において、データ集団頻度および(ph,pd)=(0.6,0.8)については、(P1,P2)についての正しく検索されたSNPの平均パーセントは実行1において(0.852,0.816)であって、実行2において(0.601,0.673)である。
表7および表8については、「データ」使用集団頻度データで始まる列は経験的結果から取られたものであり、他方、「均一」で始まる列は均一な集団を仮定することに注意されたし。
表7および表8においては、精度は、正しいSNP要求がなされ、正しい元の染色体が同定されたSNPの平均パーセントとして定義されることに注意するのは重要である。また、これらのシミュレーションはアルゴリズムの2つの可能な実行を反映するのに注意するのも重要である。良好な結果を与えることができるアルゴリズムを実行する他の方法があり得る。このシミュレーションは、該方法が実施できることを示すつもりだけである。
十分なシミュレーションループ
工程1ないし8を10000回反復した。これは、関連する個体、この場合は、親から測定された遺伝子データを用いて標的固体についての測定された遺伝子データを清浄化する十分に開示された方法を検定するためのシミュレーションである。
工程1:オリジナルの親ジプロイド細胞(P1,P2),(M1,M2)の創製
[P1,P2]=オリジナルな染色体の創製(snips,popfreqlistPP);(1801)
[M1,M2]=オリジナルな染色体の創製(snips,popfreqlistMM);(1802)
母親および父親細胞についての各SNPに対する集団頻度に依存して、オリジナルな親細胞を創製する。
工程2:交差親細胞(P1C,P2C),(M1C,M2C)(1803)
交差を持つ父性細胞の2つのセットを創製して:第一に、DHAlgoで用いる(P1C1,P2C1)が得られ、第二に、PSAlgoで用いる(P1C2,P2C2)を得る。(1804)
交差を持つ母性細胞の2つのセットを創製して:第一に、DHAlgoで用いる(M1C1,M2C1)、およびPSAlgoで用いる(M1C2,M2C2)を得る。(1805)
[P1C1,P2C1]=(P1,P2,snips,fullprob)を交差させる;
[P1C2,P2C2]=(P1,P2,snips,fullprob)を交差させる;
[M1C1,M2C1]=(M1,M2,snips,fullprob)を交差させる;
[M1C2,M2C2]=(M1,M2,snips,fullprob)を交差させる;
工程3 DHAlgoについてのハプロイド細胞および無秩序ジプロイド細胞を作成する(1806)。
ハプロイド細胞HPについての父性細胞のセットのうち1つ(1804,第一のセット)をピックアップし、ジプロイド細胞中の順序を混合して、(D1P,D2P)(1807)を得る。母性細胞(1805,第一のセット)についても同様にして、MH,(D1M,D2M)を得る。(1808)
HP=1つの(P1C1,P2C1)をピックアップする;
HM=1つの(M1C1,M2C1)をピックアップする;
[D1P,D2P]=(P1,P2)を乱雑とする;
[D1M,D2M]=(M1,M2)を乱雑とする;
工程4:ジプロイド胚細胞の作成(1809)
胚細胞について父性細胞の1つ(1804,第二のセット)および母性細胞の1つ(1805,第二のセット)をピックアップする。測定目的で順序を混合する。
E1=1つの(P1C2,P2C2)をピックアップする;
E2=1つの(M1C2,M2C2)をピックアップする;
[E1J,E2J]=(E1,E2)を乱雑とする;(1810)。
工程5:測定(1811,1812,1813)に誤差を導入する
所与の測定誤差(HP−ハプロイド細胞,PD−無秩序ジプロイド細胞,pe−胚細胞)に基づいて、測定に誤差を導入する。
hp=誤差(HP,ph)を作りだす;(1811)
d1p=誤差(D1P,pd)を作りだす;(1811)
d2p=誤差(D2P,pd)を作りだす;(1811)
hm=誤差(HM,ph)を作りだす;(1812)
d1m=誤差(D1M,pd)を作りだす;(1812)
d2m=誤差(D2M,pd)を作りだす;(1812)
e1=誤差(E1J,pe1)を作りだす;(1813)
e2=誤差(E2J,pe2)を作りだす;(1813)。
工程6:DHAlgoを適用して、(p1,p2)、(m1,m2)、(pp1,pp2)、(pm1,pm2)を得る。
DHAlgoはハプロイド細胞および無秩序ジプロイド細胞を取り、これらを生起させた最もありそうな秩序立ったジプロイド細胞を戻す。DHAlgoは父親染色体について(P1C1,P2C1)、および母親染色体について(M1C1,M2C1)を再形成するよう試み、また父親(pp1,pp2)および母親(pm1,pm2)細胞についての見積もり誤差を戻す。
[p1,p2,pp1,pp2]=DHAlgo(hp,d1p,d2p,snips,popfreqlistPP);(1814)
[m1,m2,pm1,pm2]=DHAlgo(hm,d1m,d2m,snips,popfreqlistMM);(1815)。
工程7:PSAlgoを適用して、(DE1,DE2)(1816)を得る。
PSAlogは再形成された親細胞(p1,p2,m1,m2)および無秩序な測定胚細胞(e1,e2)を取って、最もありそうな秩序立った真の胚細胞(DE1,DE2)を戻す。PSAlgoは、(E1,E2)を再形成するよう試みる。
[DE1,DE2,alldata]=PSAlgo(snips,e1,e2,p1,p2,m1,m2,pe,pp1,pp2,pm1,pm2,parameters,crossprob,popfreqlistPP,popfreqlistMM);
工程8:このシミュレーション実行からの望まれる統計学の収集
実行についての統計学を得る:
simdata=SimValidate(alldata,DE1,DE2,P1,P2,M1,M2,E1,E2,p1,p2,m1,m2,e1,e2,pe,pe,pp1,pp2,pm1,pm2);
シミュレーションの結果
10000のシミュレーションを実行し、E1,E2からのPSアルゴリズムの全精度を我々に告げる、アルゴリズム精度についての最終見積もりPSAccuracy.E1=平均(E1A)、PSAccuracy.E2=平均(E2A)を計算した。個々のSNPに基づき、各SNP SNPAcc.E1=平均(E1S)についての平均精度は、SNP,SNProb.E1=平均(E2P)であると正しく測定する見積もられた確率の平均に合致するはずであり、すなわち、もしアルゴリズムが正しく書かれれば、SNPAcc.E1は、SNProb.E1に相関するように観察されるはずである。これらの2つの間の関係はそれらの相関によって反映される。
シミュレーションの10000ループを異なる設定シナリオについて実行した:
(1)より現実的である現存のゲノタイピングデータ、およびA、C、T、Gが各SNPにおいて同一の確率を有する均一な集団頻度によって与えられる基礎となる集団頻度
(2)ハプロイド、無秩序ジプロイドおよび胚測定(ph,pd,pe)についての測定精度のいくつかの組合せ。種々の精度をシミュレートした:非常に精度がある(0.95,0.95,0.95)、精度が低い(0.75,0.75,0.75)、および精度なしまたはランダム(0.25,0.25,0.25)、ならびに(0.9,0.5,0.5)、(0.5,0.9,0.9)のアンバランスな組合せ。現実に最も近いであろうものは、ほぼ(0.6,0.8,0.8)である。
(3)すべてのこれらの場合において、我々のPSAlgorithmおよび単純なマッチングSTPSAlgorithm双方についてシミュレーションを行って、開示されたアルゴリズムの性能を評価した。
これらの実行の結果を表8にまとめる。
開示されたアルゴリズムは、これらのシミュレーションにおいて、特に、不均一な集団頻度および正しい測定のアンバランスな、または低下した確率の現実的場合について、現存の経験的アルゴリズムよりも良好に実行される。また、ここのSNPについてのアルゴリズム精度の見積もりはこれらの場合において非常に良好であることが示された。というのは、正しい対立遺伝子要求の見積もられた精度、およびシミュレーション平均精度の間の相関は99%程度であり、平均率は1だからである。
最も現実的な場合において、データ集団頻度および(ph,pd,pe)=(0.6,0.8,0.8)については、(E1,E2)について正しく検索されたSNPの平均パーセントは実施1において(0.777,0.788)および実施2において(0.835,0.828)である。前記したように、アルゴリズムの平均精度を示す数は正しいSNPの要求のみならず、SNPの正しい親起源の同定もいう。効果的であるためには、アルゴリズムは、それが測定されるにつれデータを単純に許容するアルゴリズムよりも良好な結果を戻さなければならない。ある場合には、アルゴリズムの精度には測定のリストされた精度よりも低いのを見て驚くであろう。このシミュレーションの目的では、もしそれが共に正しく要求され、また、その親および元の染色体が正しく同定された場合のみ、SNPの要求は正確であると考えられる。偶然にこれを正しくするチャンスは測定精度よりもかなり低い。
出生前および胚遺伝物質を得るのに必要な実験室的技術
ゲノタイピングのための細胞およびDNA断片の単離を可能とする多くの利用できる技術がある。本明細書中に記載されたシステムおよび方法をこれらの技術、特に、母性血液からの胎児細胞またはDNAの単離、またはIVFの関係で胚からの胚盤胞の単離を含むものの中でいずれにも適応することができる。それはイン・シリコにてゲノムデータに同等に適応することができ、すなわち、遺伝物質から直接的に測定できない。
システムの1つの実施形態において、このデータは以下に記載するように獲得することができる。
細胞の単離
成人ジプロイド細胞はバルク組織または血液試料から得ることができる。成人ジプロイド単一細胞は、FACS、または蛍光活性化細胞ソーティングを用い、全血液試料から得ることができる。成人はプロイド単一精子細胞もまた、FACSを用いて精子試料から単離することができる。成人ハプロイド単一卵細胞は、IVF手法の間に卵収穫に関して単離することができる。
ヒト胚からの標的単一胚盤胞の単離は、体外受精クリニックにおいて普通の技術に従って行うことができる。母性血液中の標的胎児細胞の単離は、モノクローナル抗体、あるいはFACSまたは密度勾配遠心のような他の技術を用いて達成することができる。
DNA抽出は本出願についての標準的でない方法も含むであろう。DNA抽出についての種々の方法を比較する文献の報告は、いくつかの場合において、N−ラウロイルサルコシンの添加の使用のような新規なプロトコルは、より効果的であることが判明し、最も少ない偽陽性を生じることを見出している。
ゲノムDNAの増幅
ゲノムの増幅は、連結−媒介PCR(LM−PCR)、縮重オリゴヌクレオチドプライマーPCR(DOP−PCR)、および多重置換増幅(MDA)を含めた多数の方法によって達成することができる。これらの方法のうち、DOP−PCRは、染色体の単一コピーを含めた、少量のDNAから多量のDNAを信頼性よく生じさせ;この方法は、データ忠実度が臨界的である親ジプロイドデータをゲノタイピングするために最も適しているであろう。MDAは最速な方法であり、数時間以内にDNAの100倍増幅を生じる;この方法は、胚細胞をゲノタイピングするのに、あるいは時間が必須である他の状況において最も適切であろう。
バックグラウンド増幅はこれらの方法の各々で問題である。というのは、各方法は、潜在的に、汚染DNAを増幅するだろうからである。非常に少量の汚染はアッセイを不可逆的に毒し、偽データを与えかねない。従って、増幅前および後ワークフローが完全に物理的に分離されたクリーンな実験室条件を用いるのが非常に重要である。DNA増幅のためのクリーンな汚染なしのワークフローは、今日、産業的分子生物学においてルーチン的であって、単に詳細に対して思慮深い注意を必要とする。
ゲノタイピングアッセイおよびハイブリダイゼーション
増幅されたDNAのゲノタイピングは、Affymetrix’s Genflex Tag Arrayのような分子逆転プローブ(MIP)、Affymetrix’s 500KアレイまたはIllumina Bead Arraysのようなマイクロアレイ、またはAppliedBioscience‘s TaqmanアッセイのようなSNPゲノタイピングアッセイを含めた多くの方法によって行うことができる。Affymetrix’s 500Kアレイ、MIPs/GenFlex、TaqManおよびIlluminaアッセイは、全て、マイクログラム量のDNAを必要とし、従って、いずれかのワークフローでの単一細胞のゲノタイピングはいくつかの種類の増幅を必要とするであろう。これらの技術の各々は、とりわけ、コスト、データの質、定量的vs定性的データ、慣用化性、アッセイを完了するための時間、および測定可能なSNPの数の点で種々の釣り合いを有する。500KおよびIlluminaアッセイの利点は、10,000のSNPのオーダーで検出できるMIP、およびより少数さえを検出できるTaqmanアッセイとは反対に、それがデータを集めることができるSNPの大きな数、およそ250,000である。500Kアレイよりも優れたMIP、TaqmanおよびIlluminaアッセイの利点は、それらが固有に慣用化可能であり、ユーザーがSNPを選択するのを可能とすることであり、他方、500Kアレイはそのような慣用化を可能としない。
IVFの間における着床前の診断の関係では、固有の時間の制限は重要であり;この場合、応答時間に換えてデータの質を犠牲にするのは有利であろう。それは他の明瞭な利点を有するが、標準MIPアッセイプロトコルは、典型的には、完了するのに2.5ないし3日かかる比較的時間を消費するプロセスである。MIPにおいて、DNAを標的とするためのプローブのアニーリング、および増幅後ハイブリダイゼーションは特に時間を消費し、これらの時間からのいずれの偏差もデータ質の劣化をもたらす。プローブはDNA試料に一晩アニーリングさせる(12ないし16時間)。増幅後ハイブリダイゼーションはアレイに一晩アニーリングさせる(12ないし16時間)。アニーリングおよび増幅双方の前および後の多数の他の工程は、プロトコルの合計標準タイムラインを2.5日とする。スピードについてのMIPアッセイの最適化は、潜在的に、プロセスを36時間未満に低下させることができよう。500KアレイおよびIlluminaアッセイは共により速い応答時間:ほぼ1.5ないし2日を有して、標準的プロトコルにおいて高度に信頼性があるデータを生じる。これらの方法の双方は最適化可能であり、500Kアレイについてのゲノタイピングアッセイおよび/またはIlluminaアッセイのための応答時間は24時間未満まで低下させることができようと見積もられる。なおより速いのはTaqmanアッセイであり、これは3時間以内に実行することができる。これらの方法の全てについて、アッセイ時間の低下の結果、データの質の低下をもたらすが、それは、正確には、開示された発明が何を取り組むように設計されているかである。より速いいくつかの利用可能な技術は、特に高−スループットではなく、従って、この時点において高度に平衡な出生前遺伝子診断で使用できない。
当然に、IVFの間における胚盤胞のゲノタイピングのような、時間が臨界的である状況においては、より速いアッセイはより遅いアッセイよりも明瞭な利点を有し、他方、IVFの前に出生前DNAをゲノタイピングすることが開始されている場合のような、そのような時間圧力を有しない場合には、他の因子が適当な方法を選択するのに支配的であろう。例えば、もう1つの技術に対する1つの技術から出てくるもう1つの釣り合いは、価格vsデータ質のものである。より重要な測定のための高い質のデータを与えるより効果な技術および忠実度が臨界的でない測定用のより低い質のデータを与える安価な技術を用いるのは理にかなっているであろう。十分に迅速な高−スループットゲノタイピングの点まで開発されたいずれの技術を用いて、この方法で用いる遺伝物質をゲノタイピングすることもできよう。
該方法の関連数例
どのようにして、開示された方法を、IVF手法の時間拘束内に全ての生きた胚の十分なゲノタイピングを可能とするであろう。IVF実験室の関係で用いることができるかの例をここに記載する。卵受精から胚着床までの、IVF実験室で必要な応答時間は3日下である。これは、関連する実験室的作業、データの清浄化および表現型予測がその時間内に完了させなければならないことを意味する。このシステムの模式的ダイヤグラムを図19に示し、本明細書中に記載する。このシステムは、ゲノタイピングシステムを用いてIVF lab1904で分析されるIVFユーザー(母親)1902およびIVFユーザー(父親)1903からの親遺伝子試料1901よりなることができる。それは、母親1902から収穫され、父親1903からの精子で受精させて、多数の受精した胚1905を作り出す多数の卵を含むことができる。それは、各胚について胚盤胞を抽出し、各胚盤胞のDNAを増幅し、高スループットゲノタイピングシステム1906を用いてそれらを分析する実験室技術者を含むことができる。それは、親からの、および胚盤胞からの遺伝子データをデータ保護プロセッシングシステム1907に送ることを含む、該システムは胚遺伝子データを確証し、清浄化する。それは、フェノタイピングアルゴリズム1909によって操作されて、各胚の表現型感受性を予測する清浄化胚データ1908を含むことができる。それは、IVFユーザー1902および1903が母親1901における着床について胚を選択するのを助ける医師1910に送られる関連信頼性レベルと共にこれらの予測を含むことができる。
遺伝子データの清浄化に関連する雑多な注意
本明細書中に記載される方法は遺伝子データの清浄化に関することに注意するのは有用であり、すべての生き物は遺伝子データを含有するので、該方法は親から染色体を受け継ぐいずれのヒト、動物または植物にも等しく適用することができる。動物および植物のリストは、限定されるものではないが、ゴリラ、チンパンジー、ピグミーチンパンジー、ネコ、イヌ、パンダ、ウマ、ウシ、ヒツジ、ヤギ、ブタ、チーター、トラ、ライオン、サケ、サメ、クジラ、ラクダ、バイソンン、マナティー、ウナギ、メカジキ、イルカ、アルマジロ、カリバチ、ゴキブリ、虫、コンドル、ワシ、スズメ、チョウ、セコイア、トウモロコシ、小麦、米、ペチュニア、カウズベッチ、ヒマワリ、ブタクサ、カシノキ、栗の木およびアタマジラミを含む。
遺伝子データの測定は、特に、遺伝物質の試料が少量である場合に完全なプロセスではない。測定は、しばしば、正しくない測定、不明瞭な測定、誤った測定、および失われた測定を含む。本明細書中に記載された方法の目的は、これらの誤差のいくつかまたはすべてを検出し、修正することにある。この方法を用い、遺伝子データがかなり知られる信頼性を改良することができる。例えば、現行の技術を用い、単一細胞から増幅されたDNAからの不明瞭な測定遺伝子データは、20%および50%の間の未測定領域、または対立遺伝子ドロップアウトを含み得る。いくつかの場合において、遺伝子データは20%および99%の間の未測定領域、または対立遺伝子ドロップアウトを含み得るであろう。加えて、所与の測定SNPの信頼性は同様に誤差に従う。
未清浄化データがほぼ50%の対立遺伝子ドロップアウト率を有する場合において、本明細書中に開示された方法を適応した後に、清浄化されたデータは少なくとも90%の場合において正しい対立遺伝子要求を有し、理想的な状況下では、これは99%またはそれを超えるまで上昇し得ると予測される。未清浄化データがほぼ80%の対立遺伝子ドロップアウト率を有する場合において、本明細書中に開示された方法を適用した後に、清浄化データは少なくとも95%の場合において、正しい対立遺伝子要求を有し、理想的な状況下ではこれは99%またはそれを超えるまで上昇し得ると予測される。未清浄化データがほぼ90%の対立遺伝子ドロップアウト率を有する場合、本明細書中に開示された方法を適用した後に、清浄化データは少なくとも99%の場合において正しい対立遺伝子要求を有し、理想的な状況下ではこれは99%以上まで上昇し得ると予測される。特定のSNP測定が90%近くの信頼性率でもってなされる場合、清浄化データは95%を超える、および理想的な場合には、99%を超える、またはそれを超える信頼性率でもってSNP要求を有すると予測される。特定のSNP測定が99%近くの信頼性率でもってなされる場合において、清浄化データは、99.9%を超えるおよび理想的な場合には99.99%を超える、またはそれよりも高い信頼性率でもってSNP要求を有すると予測される。
また、1つの胚盤胞からの増幅されたDNAを測定することによって創製することができる胚遺伝子データは、多数の目的で使用することができるのみ注意するのも重要である。例えば、それは、異数体、片親二染色体を検出し、個体の性別を鑑定し、ならびに複数の表現型予測を行うのに用いることができる。現在、IVF実験室においては、用いる技術のため、しばしば、それは、胚盤胞が異数性のような1つの障害、または特定の単一遺伝子病についてテストするのに十分な遺伝物質を供することができるに過ぎない場合である。本明細書中に開示された方法は、なされる予測のタイプに拘わらず、胚盤胞からSNPの大きなセットを測定する通常の最初の工程を有するので、医師または親は、スクリーニングすべき限定された数の障害を選択することを強制されない。その代わり、医療的知識の状態が許容する程度に多くの遺伝子および/または表現型についてスクリーニングするオプションが存在する。開示された方法では、胚盤胞のゲノタイピングに先立ってスクリーニングするための特定の条件を同定する唯一の利点は、もしあるPSNPが特に関連すると決定されたならば、注目するPSNPとより共分離するようなNSNPのより適切なセットを選択することができ、かくして、注目する対立遺伝子の要求の信頼性を増大させることである。SNPが先立って個人化されない場合においてさえ、信頼性は、本明細書中に記載された種々の目的で適切なものを超えると予測されることを注記する。
表現型および臨床的予測
遺伝子型および臨床的情報から表現型データを予測するのに利用できる多くの方法がある。異なるモデルは、利用できるデータの量およびタイプに基づいて、異なる状況においてより適切である。表現型予測のための最も適切な方法を選択するためには、テストデータのセットについて多数の方法をテストし、テストデータの測定された結果と比較する場合に、予測の最良の精度をいずれの方法が提供するかを決定するのがしばしば最良である。本明細書中に記載されたある実施形態は、組合せて採用され、かつテストデータでの性能に基づいて選択された場合に、正確な表現型予測を行う高い尤度を供する方法のセットを含む。まず、(ii)偶発事象表を用いるシナリオでの遺伝子型−表現型モデリングのための技術を記載する。次に、(iii)凸最適化によって形成された回帰モデルを用いるシナリオにおける遺伝子型−表現型モデリングのための技術を記載する。次いで、予測すべき特定の表現型、特定の患者のデータ、およびモデルを訓練し、テストするためのデータの特定のセットを仮定して最良のモデルを選択するための技術を記載する。
今日のデータ:偶発事象表に基づく表現型結果のモデリング
公知の遺伝子的欠陥、および病気表現型の確率を増加させる対立遺伝子がある場合、およびプレディクターの数が十分に少数である場合、表現型確率は偶発事象表でモデル化することができる。もしただ1つの関連遺伝子対立遺伝子があれば、特定の対立遺伝子の存在/不存在はA+/A−として記載することができ、病気表現型の存在/不存在はD+/D−として記載することができる。(f,N,f,N)を含有する偶発事象表は:
である。ここで、fおよびfは測定された頻度または異なる結果の確率を表し、対象の合計数はN=N+Nである。この表から、独立変数(IV)G+またはG−を有する2つの場合において病気状態D+を有する確率についてのオッズ比は、95%信頼区間を持つOR=f(1−f)/f(1−f):Sが標準偏差であるOR1±1.96/Sとして報告することができる。例えば、10,000の個体における乳癌の実験を用い、ここで、N+はBRCA1またはBRCA2対立遺伝子の存在を表す。
このデータの結果、信頼区間[1.31;1.62]でのオッズ比率OR=1.463がもたらされ、これを用いて、所与の突然変異を持つ乳癌の出現の増大した確立を予測することができる。2×2よりも大きな偶発事象表を用いて、より独立した変数または結果変数を収容することができることを注記する。例えば、乳癌の場合には、偶発事象M+およびM−は4つの偶発事象:BRCA1およびBRCA2、BRACA1およびBRCA2ではない、およびBRCA1ではなくおよびBRCA2、および最後にBRCA1でなくBRCA2でない;で置き換えることができよう。どのようにして2×2を超える偶発事象表についての信頼区間を決定するのは当業者によってよく理解されるこの技術は、独立変数の異なる偶発事象によって定義される異なる群における患者をカウントすることによって低い標準偏差を持つモデルを形成するのに十分に少数のIVおよび十分なデータがある場合に用いられる。このアプローチは、回帰モデルを構築する場合に必要なように異なるIVをモデル化すべき結果に関連させる数学モデルを設計する困難性を回避する。
特定のSNPからの遺伝子データは、特に、HapMapプロジェクトで認識されるSNPの異なるパターンのような独立した変数の他の空間へ投影することもできることを注記する。HapMap投影は個体をビンにクラスター化し、各ビンはSNPの特定のパターンによって特徴づけられるであろう。例えば、1つのビン(B1)はBRCA1およびBRCA2を含有するSNPパターンを有し、もう1つのビン(B2)はBRCA1を含有するが、BACA2を含有しないSNPパターンを有し、および第三のビンは、突然変異のすべての他の組合せに関連するSNPパターン(B3)を含有すると考える。これらのSNPのすべての異なる組合せを表す偶発事象表を作成するよりはむしろ、偶発事象B1、B2およびB3を表す偶発事象表を作成することができる。
HapMap投影によって記載されるように、あるSNPが一緒におこる傾向を用いて、プレディクターとして多数のSNPを用いるモデルを作成することができ、次いで、データは患者の別々の群よりなり、ここで、各群はただ1つの測定されたSNPを有することにさらに注意されたし。この問題は、OMIMから入手可能なもののような公に入手可能な研究論文からモデルを作成する場合に普通に遭遇し、多数のSNPは表現型を予測するものではあるが、各論文は唯一の測定された関連SNPを有するコホートについてのデータを含有する。今日利用可能なデータを用いて予測モデルを形成するのに有用なこの態様を説明するために、IV:アルツハイマー病の家族履歴、性別、人種、年齢、3つの遺伝子、すなわち、APOE、NOS3、およびACEの種々の対立遺伝子に基づいて予測モデルを形成することができるアルツハイマー病に特に言及する。この病気との関係では、アルツハイマー病を超える多くの病気に適用される普及した論点を議論し:多くの遺伝子は特定の表現型についての特性の決定に関与するが、履歴研究のほとんど大部分は特定の遺伝子の対立遺伝子をサンプリングしたのに過ぎなかった。アルツハイマー病の場合においては、ほとんど全ての研究コホートは唯一の遺伝子をサンプリングしたに過ぎなかった;すなわち、APOE、NOS3、またはACE。それにも拘わらず、利用可能なデータの大部分が、唯一の遺伝子を調べる研究から由来する場合でさえ、多数の遺伝子対立遺伝子を入力するモデルを形成するのが重要である。この問題は、2つの表現型状態の単純化された場合、および各々が丁度2つの状態を持つ、2つの関連遺伝子を表す唯2つの独立した変数を考慮することによって説明される1つの態様において取り組まれる。病気表現型を記載するランダム変数D∈[D+,D−]、および遺伝子を記載する2つのランダムな変数A∈[A+,A−]およびB∈[B+,B]を仮定すれば、目標はP(D/A,B)の最良の可能な見積もりを見出すことである。これは、P(D/A,B)=P(A,B/D)P(D)/P(A,B)を用いてベイズ則を適用することによって見出すことができる。P(D)およびP(A,B)は公のデータから入手可能である。特に、P(D)とは、集団における病気の全罹患率をいい、これは公に入手可能な統計学から見出すことができる。加えて、P(A,B)とは、個体において一緒に起こる遺伝子AおよびBの特定の状態の罹患率をいい、これは、異なる人種群における多数の個体での測定された多くの異なるSNPを有するHapMap Projectのような公のデータベースから見出すことができる。好ましい実施形態においては、これらの確率の全ては、全ヒト集団についてよりはむしろ、確率バイアスがある、特定の人種群および特定の性別について計算することができることを注記する。一旦、これらの確率が決定されたならば、挑戦は正確にP(A,B/D)を見積もることから由来する。というのは、コホートデータの大部分はP(A/D)およびP(B/D)の見積もりを供するからである。関連情報は、異なる遺伝子対立遺伝子の間の統計学的関連についての、すなわち、P(A/B)についての、HapMap Projectのような種々の公のデータベースで見出すことができる。しかしながら、P(A/B)、P(A/D)、P(B/D)のみを仮定し、依然として、P(A,B/D)については何も言うことができない。というのは、拘束されない自由度があるからである。それにも拘わらず、もしなんらかの情報が、(A−,B−)のような丁度単一偶発事象についてさえ、遺伝子AおよびB双方をそれにつきサンプリングしたコホートからのP(A,B/D)について知られていれば、P(A/D)、P(B/D)、P(A/B)についての情報の価値を利用して、P(A,B/D)の見積もりを改良することができる。この概念は、偶発事象の表を用いて説明されるであろう。
遺伝子状態A+およびA−に従う結果D+およびD−の確率を表す以下の2つの偶発事象表を考える。この実験はAと言及される。Aについての測定された頻度はFと言及され、見積もりを求める現実の確率はpを伴って言及される。
ここで、f=1−f1、=1−fおよびp=1−p1、=1−pである。Kが、Aについての場合の群における対象の数、すなわち、結果D+を有する対象の数を表すものとする。Kが、Aについての対照群における数、すなわち、結果D−を有する対象の数であるとする。
同様に、遺伝子状態B+およびB−に従う結果D+およびD−の確率を表す以下の2つの偶発事象の表を考える。この実験はBと言及される。測定された頻度はfを伴って言及され、見積もりを求める現実の確率はpを伴って言及される。
ここで、f=1−f、f=1−fおよびp=1−p5、=1−pである。KがBについての場合の群における数を表すものとし、KがBについての対照群における数であるとする。前記偶発事象の表は、遺伝子状態AおよびBが別々に測定される試験を表す。しかしながら、理想的に求められる偶発事象表は、組み合わされたAおよびBの異なる状態を含む。偶発事象表は、ABという仮定実験について以下に示し、ここで、fは測定された確率を表し、およびpは現実の確率を表す。
ここで、f15=1−f−f11−f13、f16=1−f10−f12−f14およびp15=1−p−p11−p13、p16=1−p10−p12−p14である。KがABについての場合の群における数とし、KがABについての対照群における数とする。
表記方法目的では、K=K=KおよびK=K10=Kであることを注記する。従って、事実、群のサイズは:
である。
統計学の基本則を用いて、仮定偶発事象表ABの細胞の間の依存性を強制することができる。この例においては、D+に対応する細胞について、以下の関係を強制することができる:
P(A+B−/D+)=P(A+/D+)−P(A+B+/D+)、
P(A−B+/D+)=P(B+/D+)−P(A+B+/D+)
P(A−B−/D+)=1−P(A+/D+)−P(B+/D+)+P(A+B+/D+)
同様に、D−に対応する細胞については:
P(A+B−/D−)=P(A+/D−)−P(A+B+/D−)
P(A−B+/D−)=P(B+/D−)−P(A+B+/D−)
P(A−B−/D−)=1−P(A+/D−)−P(B+/D−)+P(A+B+/D−)
である。
前記偶発事象表中の表記方法を用い、および余分な最後の関係を残し、これらの関係は:p11=p−p
13=p−p
12=p−p10
14=p−p10
に移され、あるいは同等に、
=p+p11
=p10+p12
=p+p13
=p10+p14
に移される。
全ての関係をまとめると、p,...,p16に対するp,...,p16の全ての依存性の表を以下に掲げる。値の間の依存性を得るために、列内の確率は、値=1を有する行内の確率の合計であり、例えば、第一列はp=p+p11を与える。
頻度および確率の間の関係から、n=9...16についての測定方程式f=p+nを作成でき、ここで、nは、出現fの頻度に基づいた確率pの不完全な測定を表すノイズ項である。前記した関係にこれを適用し、かつ偶発事象ABの細胞の全ては測定されていると仮定し(これは、丁度説明目的のためであり、以下に議論する)、これらの10の観察を表すことができる。
これらの測定方程式は:
F=XP+N
として行列表記方法で表すことができる。ここで、F=[F,...,F16、P=[p,...,p16およびN=[n,...,n16であり、Xは前記表中に表した行列である。この行列方程式を用いて、8つの未知の係数、p...p16、を解くことができる。この特別な場合において、我々は、全てのパラメーターp...p16について解く。もし我々が組み合わされたA,B遺伝子について全ての測定を有しないならば、我々は、D+についての少なくとも1つの測定、およびD−についての1つの測定を必要とする。前記関係を仮定すれば、次いで、我々は表の残りを満たすことができる。言い換えれば、仮定実験ABについての偶発事象表を埋めることができるためには、望ましくは、AおよびBの特定の状態が、D+およびD−の結果を有する対象について同時に測定される少なくとも1つの例がある。これは、なされた測定を表す行列Xについて十分なランクを達成することを可能とし、従って、値p...p16を解き、偶発事象表ABに満たす。もしより多くの実験データが存在すれば、さらなる列を、前記で示したのと同様な構造を持つ行列Xの底部に加えることができる。
正確な回帰を行うためには、群試料のサイズによって決定される各観察fiについての重みを持つ重み付け回帰が望ましく、従って、さらに多くの観察を持つ実験および細胞はより重み付けされる。測定方程式f=p+nでは、nは全て同一の偏差を有さず、回帰は等分散性でない。具体的には、f=1/K Binomial(p,K)〜N(p,p(1−p)/K)であり、ここで、Binomial(p,K)は、各テストがケース結果pの確率を有し、およびKテストを行う二項分布を表す。この二項分布はN(p,p(1−p)/K)によって近似することができ、これは平均pおよび偏差p(1−p)/Kを持つ二項分布である。この結果、ノイズは、理論的偏差V=p (1−p)/Kを有する正規変数n〜N(0,p(1−p)/K)としてモデル化することができる。この偏差は、試料頻度v=f (1−f)/Kで近似することができる。
偏差vに逆比例する各観察iについての重みを持つ重み付け回帰を行った。Vが直交要素[v,...,v16]を持つ行列であって、全ての他の要素は0である〜N(0,V)としてのノイズ行列Nの分布は、今や、記載することができる。これはV=diag([v,...,v16])として示される。同様に、W=diag([1/v,...,1/v16])とする。さて、重み付け回帰:
P=(X’WX)−1X’WY
を用いてPについて解くことが可能である。
Pの偏差は
Var(P)=(X’WX)−1
であることは直接的に示され、これを用いて、Pの決定における信頼性を示すことができる。
まとめると、我々は、AおよびBの組合せからのデータ(AB:f,...,f16)と共に、個々の遺伝子からのデータ(A:f,...,f,B:f,...,f)を用いて、AおよびBの組合せについての確率(p,...,p16)およびそれらの偏差(v,...,v16)を見積もるのを助けた。最後に、我々の研究においては、我々は、確率ではなくlogオッズ比をほとんど取り扱い、従って、我々は、これらの確率をLORに移す必要がある。一般に、事象Hについて確率および偏差を以下のように仮定する。
LORについての式は(デルタ方法によって)偏差を伴って、LOR=[log(p1)−log(1−p1)]−[log(p2)−log(1−p2)]である。V=[(p1)−1+(1−p1)−1−2*V(p1)+[(p2)−1+(1−p2)−12*V(p2)。以下の表は、A,Bの組合せについての確率、対応するLORおよび偏差を示す。
これは、logオッズ比および各偏差の見積もりを提供する。
この方法の説明として、該技術を使用して、P(A,B/D)の改良された見積もりが得られ、ここで、Dはアルツハイマー病を有する状態を表し、およびここで、AおよびBは、各々、APOEおよびACE遺伝子の2つの異なる状態を表す。表9は、唯一の遺伝子Aがサンプリングされた1999年にAlvarezによって;唯一の遺伝子Bがサンプリングされた1998年にLabertによって;および遺伝子AおよびBがサンプリングされた2005年Farrerによって行われた3つの異なる実験を表す。結果の2つのセットはこれらの実験から作成されたものであり、表10に示す。最初のセット(表10、行2、3、4および5参照)は、全てのコホートを分析し、本明細書中に開示された方法を用いてP(A/D)P(B/D)を仮定してP(A,B/D)の見積もりを改良する。第二のセット(表10、行6、7、8および9参照)は、P(A,B/D)についてのFarrer(2005)の近代コホートから生じた結果のみを用い、そこでは、双方の遺伝子がサンプリングされた。前者の場合における予測の信頼限界は低下したと考えられる。これらの予測は、公の源からのP(A/B)を記載するデータを用いてさらに改良することができ−これらの測定は前記したようにX行列に加えることができることを注記する。また、本明細書中に記載された技術を用いて、前記したp1=p5+p7のような関係を用い、P(A+/D+)、P(A+/D−)、P(B+/D+)およびP(B−/D−)のような別々のA,B確率についての見積もりを改良することができることも注記する。
この方法はただ2つの変数AおよびBについて説明してきたが、偶発事象の表は、アルツハイマー予測の関係で前記したもの:アルツハイマー病の家族履歴、性別、人種、年齢、および3つの遺伝子、すなわち、APOE、NOS3、およびACEの種々の対立遺伝子のような多くの異なるIVを含むことができることに注意すべきである。年齢のような連続的変数は、値のビンにカテゴリー化することによってカテゴリーを作成して、偶発事象表の処方に適当とすることができる。好ましい実施形態において、最大数を用いて、結果の確率をモデル化し、確率の標準偏差は、典型的には、いくつかの特定の閾値未満である。還元すれば、可能な最も特別な偶発事象は、その偶発事象についての十分な関連訓練データを維持して、関連する確率の見積もりを意味のあるものとしつつ、特定の患者に利用可能なIVを仮定して創製することができる。
また、本開示を読んだ後に、病気−遺伝子関連、遺伝子−遺伝子関連、および/または集団における遺伝子頻度についてのデータを用いるために同様な技術をどのようにして適用して、多変数線形および非線形回帰および論理回帰モデルの精度を改良することができることは当業者に明らかであろうことを注記する。さらに、本開示を読んだ後に、病気−遺伝子関連、遺伝子−遺伝子関連、および/または集団における遺伝子頻度についてのデータを用いるための同様な技術を適用して、どのように適用して、結果データの利用を可能として、モデルに関連するその全ての独立変数がその結果データにつき測定されるものではないモデルを訓練することによって、多変数線形および非線形回帰および論理回帰モデルの精度を改良することができることは当業者に明らかであろう。さらに、本開示を読んだ後には、病気−遺伝子関連、遺伝子−遺伝子関連、および/または集団における遺伝子頻度についてのデータを用いるための同様な技術をどのようにして適用して、当該分野で良く理解される期待値最大化(EM)アルゴリズムのような他の技術を用いて形成された偶発事象表モデルの精度を改良することができるかは当業者に明らかであろう。これらの技術は、HapMap Projectからの活用データ、およびNational Center for Biotechnology Information(NCBI)Online Mendelian Inheritance in Man(OMIM)およびdbSNPデータベースのような公のデータベースに含まれる他のデータに特に関連する。
また、当該特許を通じて、我々が個体または対象に関連するデータに言及する場合、これは、該対象に感染したかもしれないいずれの病原体または該対象に感染しつつあるいずれの癌の該データは言及できるとも仮定する。該個体または対象データは、ヒト胚、ヒト胚盤胞、ヒト胎児、いくつかの他の細胞または細胞のセットについてのデータ、あるいはいずれかの種類の動物または植物にも言及することができる。
明日のデータ:回帰モデルでの多因子表現型のモデル化
より多くのデータが多因子表現型での遺伝子型に関連して蓄積されるにつれ、支配的なシナリオは前記した(iii)となり、すなわち、表現型を正確に予測するためには遺伝子マーカーの複雑な組合せを考慮するのが望ましく、多次元線形または非線形回帰モデルが導かれる。典型的には、このシナリオについてのモデルを訓練するにおいて、潜在的プレディクターの数は、測定された結果の数と比較して大きいであろう。本明細書中に記載されたシステムおよび方法の例は、未決定の、または悪い条件の遺伝子型−表現型データセットについての疎なパラメーターモデルを創製する新規な技術を含む。該技術は、それについて多くのモデリング業績が比較のために利用でき、およびそれについてデータが多くの潜在的遺伝子プレディクターに関連して入手可能な抗−レトロウイルス療法(ART)に対するHIV/AIDSの応答のモデル化に焦点を当てることによって説明される。現実の実験室測定で交差−確証によってテストする場合、これらのモデルは、文献中で以前に議論されたモデル、および本明細書中に記載された他のカノニカル技術よりも正確に薬物応答表現型を予測する。
2つの回帰技術を、遺伝子配列データからの抗−レトロウイルス療法に対する応答においてウイルス表現型を予測する関係で記載し、説明する。双方の技術は、モデルパラメーターの粗なセットの連続的サブセット選択のために凸最適化を使用する。最初の技術は、最小絶対収縮および選択オペレーター(LASSO)を用い、これは1ノルム喪失関数を適用して、疎な線形モデルを作り出し;第二の技術は径ベースの核関数と共にサポートベクトルマシーン(SVM)を用い、これは、ε−非感受性喪失関数を適用して、疎な非線形モデルを創製する。該技術は、10の逆転写酵素阻害剤(RTI)および7つのプロテアーゼ阻害剤薬物(PI)に対するHIV−1ウイルスの応答の予測に適用される。遺伝子データは、逆転写酵素およびプロテアーゼ酵素についてのHIVコーディング配列に由来する。この性能を可能とするこれらのモデルの鍵となる特徴は、喪失関数が、パラメーターの多くがゼロである単純モデルを創製する傾向があり、およびコスト関数の凸性が、モデルパラメーターを見出して、特定の訓練データセットについてのコスト関数を全体的に最小化することができることを確実とすることである。
LASSOおよびL選択関数
プレディクターMの数が訓練試料の数Nを超える場合、モデル化の問題は過剰決定系、または不適切である。というのは、Nのプレディクターのいずれかの任意のサブセット、X行列における関連行が直線的に独立している限り、訓練データについてのゼロ誤差を持つ線形モデルを生じるのに十分だからである。その結果、線形回帰方法によって戻されたN−プレディクターモデルに信頼を置く気がしない。しかしながら、Nよりもかなり少数の変数が低い訓練誤差を有するモデルを仮定する。モデルがより疎であれば、低い訓練誤差は偶然人工物である確率は低く;よって、プレディクターが独立した変数に因果的に関連するのがよりありそうである。これは、RTIデータの場合のように、過剰決定系の問題における疎な解の重要性の基礎となる。同様な議論を、PIデータに当てはまるように、行列XXでの大きな条件数によって特徴付けられる悪条件の問題に適用することができる。この場合、見積もられたパラメーター
はモデル誤差に対して、ならびに測定ノイズに対して高度に感受性であり、結果として、正確に一般化されないようである。過剰決定系および悪条件の問題は、可能なプレディクター−遺伝子、蛋白質、または我々の場合には、突然変異部位の数が、測定された結果の数に対して大きな遺伝子データに典型的である。
そのような場合に対する1つのカノニカルアプローチはサブセットの選択である。例えば、段階的選択にて、各工程において、その変数が予測誤差に相関する優位性のレベルを示す最高F−検定統計学を有することに基づいて、単一プレディクターをモデルに加える。各変数を加えた後、残りの変数を全てチェックして、モデルのプレディクター誤差とのそれらの関連性において統計学的有意性の閾値未満までそれらのいずれも降下しないことを確実とする。この技術は、薬物応答予測の問題に成功して適用されてきた。しかしながら、選択プロセスの区別される性質のため、データの小さな変化はプレディクターの選択されたセットをかなり改変することができる。1つの変数の存在または不存在は、もう1つの変数と関連する統計学的有意性、およびその変数がモデルに含まれ、またはそこから拒絶されるかに影響し得る。これは、特に、悪条件の問題について一般化での精度に影響する。
もう1つのアプローチは、収縮関数によって拘束されるべき見積もられたパラメーター
の値についてである。カノリカル収縮関数は該パラメーターの平方の合計であり、これは:
[式中、λは、典型的には、交差−確証によって決定されるチューニングパラメーターである]
に従ってパラメーターを見出すribge回帰において適用される。この方法は非疎であって、パラメーターを0に設定しない。これは、一般化における精度を低める傾向があり、解を解釈するのを困難とする。
これらの問題はLASSO技術によって取り組まれる。サブセット選択とは対照的に、LASSOはプレディクター変数の離散的許容または拒絶を行わず;むしろ、それは連続的サブセット最適化を介して、一緒になって最も効果的なプレディクターとなる変数のセットを一斉に選択することを可能とする。それは1ノルム収縮関数:
[式中、λは典型的には交差−確証によって設定される]
を用いる。LASSOはパラメーターの多くを0に設定する傾向がある。図20は、選択性と言及されるLASSOのこの特徴に対する洞察を供する。丁度2つの突然変異に基づくモデルは訓練データX=[1 0;01],y=[2 1]で創製され、x−軸およびy−軸は、各々、2つのパラメーターbおよびbを表す。1および1収縮関数の使用を比較し、ここで、双方の場合において、||y−Xb||=2となるように訓練データを同等によくフィットさせる解が見出される。大きな円(2001)、小さな円(2002)、および(2003)は、各々、コスト関数||y−Xb||、1ノルム||b||、および1ノルム|b|+|b|についてのレベル曲線を表す。ridge回帰に対する解(1)が見出され、ここで、2つの円が交差し(2004);LASSOについての解(1)が見出され、ここで、四角および大きな円が交わる(2005)。1ノルムについてのレベル曲線の「尖性」のため、軸b上にある解が見出され、これは、従って、疎である。より高次元へ拡大されたこの議論は、疎な解を生じるLASSOの傾向を説明し、なぜ達成された結果が文献に報告されたものよりも測定可能に良好であるかを示唆する。
ノルムは、凸でありつつ、最も選択的収縮関数として見ることができる。凸性は、所与のデータセットに対して1つの全体的解を見出すことができることを保証する。最小角回帰と言及されるかなり有効な最近のアルゴリズムは、M工程においてLASSOの全体的解に収束することが保証されている。
本開示を読んだ後には、1ノルムをどのようにして論理回帰の関係で用いて、カテゴリー変数の各状態の確率をモデル化することもできることは当業者に明らかであろうことを注記する。論理回帰において、測定のセットの事後確率の逆数に対応する凸コスト関数を形成することができる。事後確率は、各結果の尤度のモデル見積もりを仮定する観測された訓練データの確率である。1ノルムを凸コスト関数に加えることによって、得られた凸コスト関数を最小化して、特定の結果の確率をモデル化するための疎パラメーターモデルを見出すことができる。論理回帰についての1ノルムの使用は、測定された結果の数がプレディクターの数に対して小さい場合に、特に関連し得る。
サポートベクトルマシーンおよびL1−ノルム
SVMは、特に、モデルが独立変数の間の複雑な相互作用を含む場合に、薬物応答および他の表現型の良好なモデル化を達成するように構成することができる。SVMについての訓練アルゴリズムは、1ノルム選択関数の使用を黙示的とする。SVMは、現実の価値の関数近似を行うことができ、かつ見積もり問題がHadamardの意味において不適切である場合でさえ、試料データの正確な一般化を達成することができる学習アルゴリズムである。正確に一般化されるSVMの能力は、SVMモデルおよび訓練アルゴリズムにおける2つの選択可能な特徴によって典型的には影響される。第一ものはコスト関数、または訓練において最小化されるべき関数の選択である。第二のものは、SVMの核、または線形回帰パラメーターの比較的小さなセットを用いて、SVMが、独立変数の間の相互作用を含む複雑な非線形関数をマッピングするのを可能とする関数の選択である。これらの特徴は以下に議論する。
線形関数近似:
を持つ対象i yについての表現型をモデル化することを考える。まず、いくらかε>0未満の誤差にペナルティを与えない「ε−非感受性喪失」関数と共に、パラメーターでの1収縮関数よりなるコスト関数を最小化することによってbを見積もる。SV回帰を拘束:
を条件として、以下の最適化:
として公式化することができる。
コスト関数の第二項は、「非感受性」閾値εを超えてモデル化誤差の絶対値を最小化する。パラメーターCは、誤差vs重みに対する収縮の相対的重要性を見積もることを可能とする。この拘束された最適化を、ラグランジュの鞍点を見出す標準的技術を用いて解いて、Kuhn−Tucker拘束を満足させることができる。前記したコストおよび拘束を適合させるラグランジュは:
である。パラメーターb、ζ、ζのベクトルに関して最小化し、ラグランジュ乗数α、α、λ、λのベクトルに関して最小化する。ラグランジュ乗数はKuhn−Tucker拘束に従って望ましくは正であることを注記する。よって、パラメーターの最適なセットは、
を条件として、
に従って見出すことができる。最小化/最大化の順序は相互交換できるので、これらの変数に関するLの部分的導関数を0に設定することによって、変数b、ζ 、ζ に関してまず最小化する。得られた方程式から、重みベクトルを
の項で表すことができることが判明する。また、得られた方程式から、
を条件として、二次形式:
を最大化することによって、係数α 、α 、i=1...Nを見出すことができるように、ラグランジュから変数を排除する。
これは、ベクトルbが計算されるのを可能とし、ε−非感受性喪失関数に対するSVMモデルを十分に定義する。方程式(11)から、モデルは、
[式中、β=α −α
として特徴付けることができることを注記する。得られたモデルは、セット{β,i=1...M}中のパラメーターの多くが0となる点で、疎となる傾向があろう。非ゼロの値βに対応するベクトルxはモデルのサポートベクトルとして知られている。サポートベクトルの数は、チューナブルパラメーターCの値、訓練データ、およびモデルの適当性に依存する。以下の説明においては、今や、どのようにしてモデルを増加させて、核関数の使用でもって複雑な非線形関数を適合させることができるかを示す。次に、ε−非感受性喪失関数は1ノルム収縮関数に関し、それは同じこと、すなわち、1ノルムによる疎なパラメーターセットの一斉選択を実質的に達成することが示されるであろう。
変数の間で結合が可能な複雑な関数をモデル化するためには、方程式(17)の単純な内積を、ベクトルの間のより複雑な相互作用を計算する核関数で置き換える。核関数を挿入し、(17)中の我々の関数の近似は形態:
[式中、定義によるとK(x,x)=1である]
を採る。これらのパラメーターを見出すためには、前記したのと正確に同一の最適化方法を用い、全ての項xをK(x,x)で置き換える。前記したように、前記したのと同一の拘束に従い、
を最大化する独立変数を見出すことによって、β=α −α に従ってパラメーターセットを計算する。前記したSVM結果では、径基礎核関数を選択した。
さて、1ノルムの黙示的使用を説明するために:方程式(17)を最適化することを試みる代わりに、最適化:
で開始し、ここで、1収縮を明示的に用いて、βの値を拘束させてあり、訓練データの離散的試料に対して定義される代わりに、データフィッティング誤差を、モデル化すべき仮定関数のドメインに対して定義する。さて、変数置換:β=α −α ;α ,α ≧0,α α ≧0,i=1...Nを行う。次いで、拘束
に従い、
として、最適化を書き直すことができる。異なる拘束を有するこの解は、それにも拘わらず、もしSV方法についての値Cが、拘束0≦α ,α ≦Cが単純に拘束(21)および(22)となるのに十分に大きく選択されるならば、ε−非感受性喪失関数に一致し、また、基礎関数の1つは、我々の場合についての方程式(17)におけるように定数である。この場合、SV方法によって用いられるさらなる拘束
を必要としない。拘束(25)は既に方程式(15)において黙示的であることを注記する。というのは、拘束(8)および(9)は同時に活性となることはできず、従って、ラグランジェ乗数α またはα のうちの1つはスラックであるか、または0であるべきであるからである。
これらの条件下で、1収縮関数のアプローチを黙示的に用いて、ε−非感受性喪失関数が疎な関数近似を達成することを見ることができる。
多因子表現型予測:HIV−1薬物応答のモデリングの例
サルベージARTの表現型結果の予測に対する現在のアプローチは、主として、薬物養生法および遺伝子突然変異の多くの異なる順列と組み合わせた、主として、統計学的に有意な結果データの欠如のため、良好な予測パワーを示さない。この分野は、多数の不均一データセットの統合、および薬物応答予測の増強の双方についての逼迫した必要性を有する。
本明細書中で示されたモデルは、訓練およびテスト目的のためのStanford HIVdb RTおよびプロテアーゼ薬物耐性データベースからのデータを用いた。このデータは、逆転写酵素(RT)またはプロテアーゼコーディングセグメントが配列決定されているHIV−1ウイルスの6644イン・ビトロ表現型テストよりなる。テストは、10の逆転写酵素阻害剤(RTI)および7つのプロテアーゼ阻害剤(PI)について行われた。RTIはラミブジン(3TC)、アバカビール(ABC)、ジドブジン(AZT)、スタビジン(D4T)、ザルシタビン(DDC)、ジダノシン(DDI)、デラビラジン(DLV)、エバビレンズ(EFV)、ネビラピン(NVP)およびテノフォビール(TDF)を含む。PIはアムプラナビール(APV)、アナザナビール(ATV)、ネルフィナビール(NFV)、リトナビール(RTV)、サキナビール(SQV)、ロピナビール(LPV)およびインジナビール(IDV)を含む。
各薬物については、データは形式(x,y),i=1...Nの対に構造化されており、ここで、Nは訓練データを構成する試料の数であり、yは測定された薬物の倍耐性(または表現型)であって、xは突然変異のベクトル+定数、x=[1xi1,xi2...xiMであり、ここで、Mは関連酵素についての可能な突然変異の数である。もしm番目の突然変異がi番目の試料に存在すれば要素xim=1であり、その他の場合xim=0に設定する。各突然変異はコドン遺伝子座および置換されたアミノ酸の双方によって特徴付けられる。アミノ酸配列に影響しない突然変異は無視する。各薬物についての試料に1%を超えて存在する突然変異のみがモデルについての可能なプレディクターのセットに含まれることを注記する。というのは、耐性に関連する突然変異はあまり頻繁でなく起きるのはありそうもないからである。測定yは野生型と比較した突然変異ウイルスについての薬物の倍耐性を表す。具体的には、yは、野生型ウイルスのIC50と比較した、突然変異したウイルスのIC50(複製を50%だけ遅らせるのに必要な薬物の濃度)の比率のlogである。目標は、xからyを正確に予測する各薬物についてのモデルを開発することである。データに対してバッチ最適化を行うためには、N×M+1行列、X=[x,x...xに独立変数をスタックし、ベクトルy=[y,y...yに全ての観察をスタックする。
各アルゴリズムの性能は交差−確証を用いて測定する。各薬物については、一次相関係数Rを、モデルの予測された表現型応答、およびテストデータの現実の測定されたイン・ビトロ表現型応答の間で計算する。
ベクトル
が表現型yの予測である場合、
はベクトルyにおける要素の平均を示し、
は全てのもののベクトルを示す。各薬物および各方法については、各々、訓練およびテストのためにデータを比率9:1にランダムに細分化する。1つの例において、10の異なる細分化を行って、訓練およびテストデータのいずれの重複もなくしてベクトル
およびRを得る。次いで、この全プロセスを10回反復して、Rの10の異なる値を得ることができる。Rの10の異なる値を平均して、報告されたRを得る。また、10の異なる実験にわたって測定されたモデルの各々についてRの標準偏差を決定して、モデルが統計学的に有意な方法で比較されることを確実とする。
表11はPI薬物についての前記したモデルの結果を示し;表12は10のRTI薬物についての結果を示す。結果は、訓練およびテストデータの10細分化にわたって平均した、修正係数Rの形式で示す。試料偏差から計算したRの平均値の見積もった標準偏差も示す。各薬物についての利用可能な試料の数を最後の列に示す。平均性能を増加させるためにテストした方法は:i)RR−Ridge回帰、ii)DT−検出ツリー、iii)NN−神経ネットワーク、iv)PCA−主成分分析、v)SS−段階的選択、vi)直線核でのSVM_L−サポートベクトルマシーン、vii)LASSO−最小絶対収縮および選択オペレーター、およびviii)径基礎核でのSVM−サポートベクトルマシーンである。表11および12の最後の行中の情報を図21に示す。図21中の円は、各PIについての10の異なる実験にわたって平均し、かつ7の異なるPIにわたって平均した相関係数Rを示す。図21中の菱形は、各RTIについての10の異なる実験にわたって平均し、かつ10の異なるRTIにわたって平均した相関係数Rを呈する。1標準偏差誤差棒も示す。
モデル化技術がチューニングパラメーターを含む場合は常に、これらは、グリッドサーチアプローチを用い、交差−確証によって測定されたように技術の最適性能のために調整されている。全ての場合において、グリッド量子化は、グリッドからの最良の実行パラメーターが所与のデータについての最適パラメーターから現実的には識別可能であるのに十分良好であった。というのは、グリッド量子化による予測の差は実験ノイズを低めるからである。
データには強い傾向があるが、試料の数の差のため、基礎となる遺伝子プレディクター、および薬物の間で変化するデータ中の他の特異性、各アルゴリズムによって達成されるRの相互作用は薬物間で変化し得ることは注意すべきである。この変動は、表11(3ないし9行)および表12(3ないし12行)の個々の薬物行を調べることによって見ることができる。
全ての方法のうち、SVMは良好に実行され、LASSOを僅かに凌ぐ(RTIについてP<0.001;PIについてP=0.18)。ε−非感受性喪失関数で訓練したSVMの性能は、サポートベクトルマシーンに基づいた従前に報告された方法のそれよりもかなり良好である。非線形核関数を用いるSVMは、線形核関数を用い、およびε−非感受性喪失関数を用いても訓練されるSVM Lを凌ぐ(RTIについてP=0.003;PIについてP<0.001)。SVMは、神経ネットワークを用い、かつ凸コスト関数および連続的サブセット選択を創製しない他の非線形技術をかなり凌ぐ(RTIおよびPI双方についてP<0.001)。凸コスト関数を用いて線形回帰モデルを訓練し、LOSSO技術は、SS技術をかなり凌ぐ(PIおよびRTI双方についてP<0.001)。トップの5つの方法、すなわち、SS、PCA、SVM_L、LASSO、SVM_Rは、全て、疎であるモデルを創製する傾向があるか、または限定された数の非ゼロパラメーターを有する。
プレディクターとして選択された突然変異のサブセットを説明するために、本明細書中に開示されたある実施形態は第二の最良の実行モデル、すなわち、SVMとは異なり、プレディクターの間の非線形または論理的結合を模倣することを試みない線形回帰モデルを創製するLASSOに焦点を当てる。結果として、どのようにして多くのプレディクターを選択するかを示すのは直接的である。表13は、各モデルを訓練するにおいて用いられる、突然変異の数(表13、3列)、および試料の合計数(表13、2列)と共に、各PI薬物についてのプレディクターとしてのLASSOによって選択された突然変異の数(表13、4列)を示す。同一の表が、RITについて示される(表14、同一列は同一事項に対応する)。
選択された突然変異もまた薬物耐性の原因の理解を高めることができる。図22、23および24は、各々、PI、ヌクレオチドRTI(NRTI)、および非ヌクレオチドRTI(NNRTI)に対する応答を予測するためにLASSOによって選択されたパラメーターの値を示す。図面中の各列は薬物を表し;各行は突然変異を表す。関連突然変異はPI薬物についてはプロテアーゼ酵素に対する、およびRNTIおよびNNRTI薬物についてはRT酵素に対するものである。各四角の陰影は、その薬物についてのその突然変異に関連するパラメーターの値を示す。右側の色付き棒線(各々、2201、2301および2401)によって示されるように、陰影を付したダーカーであるプレディクターは増大した耐性に関連し;陰影を付したライターであるパラメーターは増大した感受性に関連する。突然変異は、関連パラメーターの平均の大きさを減少させる順序で左側から右側の順序とする。関連パラメーターをクラスにおいて全ての列または薬物にわたって平均する。40の最大のパラメーターの大きさに関連する突然変異を示す。特定の突然変異、または行については、パラメーターの値は、列、または同一クラスにおける異なる薬物にわたってかなり変化する。
アルゴリズムRR、DT、NN、およびSSについては、モデルは、全ての遺伝子突然変異についてではなく、むしろDepartment of Health and Human Services(DHHS)によって耐性に影響すると考えられる部位で起こる突然変異のサブセットについて訓練した。独立変数の数の低下は、これらのアルゴリズムの性能を改良することが判明した。SVM_Lアルゴリズムの場合には、全ての突然変異についてモデルを訓練することによってPIに対する最良の性能を達成しつつ、DHHS突然変異サブセットのみを用いてRTIに対する最良の性能を達成した。全ての他のアルゴリズムについては、最良の全性能は、全ての突然変異についてモデルを訓練することによって達成された。
プレディクターとしてのLASSOによって選択されたが、現在、耐性に影響するとDHHHSによって判断された遺伝子座と関連付けられていない図22、23、および24に示された突然変異のセットは:PIについては−19P、91S、67F、4S、37C、11I、14Z;NRTIについては−68G、203D、245T、208Y、218E、208H、35I、11K、40F、281K;およびNNRTIについては−139R、317A、35M、102R、241L、322T、379G、292I、294T、211T、142Vである。LASSOおよびSVMのようないくつかの場合においては、LPVのような特定の薬物についての性能は、DHHSよって耐性に影響すると認識された遺伝子座のみが含まれた場合(R=81.72,Std.dev.=0.18)と比較して、全ての突然変異がモデルに含まれた場合(R=86.78,Std.dev=0.17)、有意に改良された(P<0.001)ことを注記する。これは、DHHSによって認識されたものを超えた他の突然変異が薬物耐性において役割を演じることができることを説明する。
凸最適化技術の使用は、本明細書中において、疎なパラメーターセットの連続的サブセット選択を達成して、正確に一般化される表現型予測モデルを訓練することが示された。LASSOは、1ノルム収縮関数に適用して線形回帰パラメーターの疎なセットを生じる径基礎核関数でのかつε−非感受性喪失関数で訓練したSVNは疎な非線形モデルを創製する。これらの技術の優れた性能は、それらのコスト関数の凸性、および疎なモデルを生じるそれらの傾向の点で、説明することができる。凸性は多くの潜在的プレディクターがある場合に、特定の訓練データセットについて全体的に最適なパラメーターを見出すことができるのを確実とする。疎なモデルは、遺伝子データに典型的なように、特に劣決定または悪条件データの関連でよく一般化される傾向がある。1ノルムは、最も選択的な凸関数として見ることができる。選択的収縮関数を用いる疎なパラメーターセットの選択は、Occam’s Razorと同様な原理で:多くの可能な理論が観察されたデータを説明できる場合、最も単純なものは最も正しいようである:を発揮する。ε−非感受性喪失関数と共に1収縮関数を用いるSVMは、サポートベクトルと関連するパラメーターに適用された収縮関数として1ノルムの明示的な使用と同様な効果を生じる傾向がある。
収縮関数を用いる技術は、しばしば、IVの数が大きくて、データが未決定または悪条件である場合、正確に一般化することができる。結果として、独立変数の非線形または論理的組合せをモデルに加え、良好なプレディクターである組合せを訓練で選択されると予測することが可能である。SMVは、線形核関数よりも有意に良好に実行される、径基礎関数のような非線形核関数の使用と独立変数との相互作用をモデル化することが可能である。結果的に、本明細書中に開示した基本的な概念を変えることなく、独立変数の論理的組合せをモデルに加えることによって、LASSOの性能を高めることができる。論理的項は、決定ツリーによって生じたものから、専門家則によって記載された論理的相互作用から、論理的回帰の技術から、または論理的項のランダム順列のセットさえから由来することができる。LASSOの利点は、パラメーターが、サポートベクトルよりはむしろ独立変数、または独立変数を含む表現を直接的に組み合わせるので得られるモデルが解釈するのが容易であることである。モデルにおける多数の独立変数に対するLASSOの頑強性は、1ノルムの選択的性質およびその凸性双方によるものである。
ノルムよりも収縮関数をより選択的に使用する他の技術が存在する。例えば、log−収縮回帰は、モデルパラメータセットに存在する情報の量を測定する暗号理論に由来する収縮関数を用いる。この技術は1−ノルムの代わりに収縮関数としてlog関数を用い、その結果、非凸である。パラメーターの疎なセットを求めるための理論的に興味があるアプローチを供しつつ、ペナルティ関数の非凸性は、対応する回帰を解くことが、LASSOよりも依然として計算の、扱いやすくなく、プレディクターの大きなセットについては所与のデータについての全体的最小よりはむしろ局所的な最小のみを生じさせることができることを意味する。
本明細書中に記載された技術は、広い範囲の表現型予測問題についての線形および非線形回帰モデルの創製に適用することができる。それらは潜在的遺伝子プレディクターの数が測定された結果の数と比較して大きい場合に特に関連する。
遺伝子独立変数を異なる空間へマッピングすることによる回帰モデルの単純化
前記したように、遺伝子マーカーの複雑な組合せを考える場合、SNP変数をもう1つの変数空間に投影して、分析を単純化することが可能であることを注記する。この変数空間は、HapMap Projectによって記載されたクラスターまたはビンのような、突然変異の公知のパターンを表すことができる。言い換えれば、前記した特定のSNP突然変異を表すベクトルxよりはむしろ、それは、個体が特定のHapMapクラスターまたはビンに入るか否かを表すことができる。例えば、前記した表記方法に従い、Bが関連HapMapビンの数であるベクトルx=[xi1,xi2...xiBがあると想像する。もし個体のSNPSパターンがb番目のビンに入るならば、要素xib=1を設定し、そうでなければ0を設定することができる。別法として、もし個体SNPおよび特定のビンの間の重複が不完全であって、カテゴリー「他の」において単純に個体を置き換えるのが望ましくないのであれば、各xibを、SNPのパターンおよびビンbのそれの間の重複の割合と等しく設定することができる。本明細書中に開示された概念を変えることなく多くの他の技術は回帰問題を公式化することが可能である。
結果予測についての交差確証によるモデルの選択
この議論を進めた中で、専門家則、偶発事象表、線形および非線形回帰を含む異なる表現型予測技術を記載した。さて、訓練データの使用に基づき、特定の対象についての特定のカテゴリーまたは非カテゴリー結果をモデル化するのが最良であるモデル化技術のセットから選択する一般的アプローチを記載する。図25は、システムについての説明的フローダイアグラムを供する。図25に記載されたプロセスは、特定の患者、モデル化すべき表現型、およびデータをテストし訓練する所与のセットで利用できるデータを仮定して最良のモデルを選択する一般的アプローチであり、該プロセスは特定のモデル化技術から独立している。好ましい実施形態において、用いることができるモデル化技術のセットは、専門家則、偶発事象表、LASSOで、またはデータが劣決定されていない場合は単純な最小二乗で訓練された線形回帰モデル、およびサポートベクトルマシーンを用いる非線形回帰モデルを含む。
該プロセスは、モデル化されるであろう、あるいはもしそれがカテゴリー変数であれば、それについて確率をモデル化することができる、特定の対象および特定の従属変数(DV)を選択で開始する2501。次いで、該システムは、対象の記録に関連し、かつDVの結果のモデル化に関連し得る独立変数(IV)のセットを決定する2502。システムのヒトユーザーは、ユーザーがモデルに関連して可能と考えるIVのそのサブセットを選択することもできる。次いで、システムはチェックして2503a、モデルが既に訓練され、独立変数の所与の組合せ、およびモデル化すべき所与の従属変数について選択されているか否かをみる。もしこれが当てはまり、かつ出来合いのモデルを訓練し、テストするのに用いるデータが旧式でなければ、システムは、そのモデルを用いる予測の創製に直接的に向かう2519。そうでなければ、システムは、注目する特定のDVを有し、かつ注目する特定の対象と同一のIVのセットを有しても有しなくてもよい。全ての他の記録をデータベースから抽出するであろう。そうすることにおいて、システムは、データがモデルを訓練しテストするのに利用できるか否かを決定する2503b。もし答えが否であれば、システムは、いずれかの利用可能な専門家則があるかをみるためにチェックして2515、対象で利用可能なIVのサブセットに基づいて結果を予測する。もし専門家則が利用できなければ、システムは出て2504、それが有効な予測をできないと示す。もし1以上の専門家則ができれば、システムは、特定の対象のデータに最良に適する専門家則のサブセットを選択する2505。好ましい実施形態において、対象にいずれの専門家則を適用するかの選択は、その専門家則見積もりにおける信頼性のレベルに基づくであろう。もしそのような信頼性見積もりが利用できなければ、それらの特異性のレベルに基づいて、すなわち、注目する対象で利用できるどれくらい多くのIVを専門家則が予測で用いるかに基づいてランク付けすることができる。次いで、専門家則の選択されたサブセットを用いて予測を生じさせる2506。
もしデータが利用できると判断されたならば2503b、システムはチェックして2516、テストおよび訓練データで失われたいずれかのデータがあるか否かを決定する。言い換えれば、関連DVを含む全ての記録について、システムはチェックして、全ての記録が、注目する患者について利用できるのと正確に同一のIVのセットを有するか、およびいずれがモデルにおいて潜在的予測であり得るかをチェックする。典型的には、答えは「否」であろう。というのは、異なる情報が異なる患者で利用可能だからである。もし失われたデータがあればシステムは四方を進んで対象にとって最良の可能な予測をなすのに用いるべきIVのセットを見出す。この手法は時間を消費するものである。というのは、それは多数ラウンドのモデル訓練および交差−確証を含むからである。その結果、この手法における最初の工程は、考えられるIVのセットを、利用可能な計算時間に基づいて管理可能なサイズに低下させることである2507。好ましい実施形態においてIVのセットは、やはり利用可能なDVを有する対象のあるパーセンテージについてのそのIVに関するデータがあることに基づいて低下させる。単純な線形回帰モデルを仮定し、それらはモデル化誤差に関連する程度に基づいてIVを選択する段階的選択のような当該分野で知られた他の技術を用いて、IVのセットをさらに低下させることができる。次いで、システムはループに入り、そこでは、残りのIVの各組合せが調べられる。好ましい実施形態において、各IVおよびDVについても以下の状態を考慮する:各IVはモデルに含めることができるか、または含めることができず、全ての対象について陽性であるIVまたはDVについての数値データでは、該データはその対数を取ることによって進行させても、させなくてもよい。IVの包含/排除および前処理の各特定の組合せについてモデル化技術のセットを適用する2510。
ほとんどのモデル化技術は、テストデータでの交差−確証を用いるグリッド−サーチアプローチに基づいて最適化し、またはチューニングすることができるいくつかのチューニングパラメーターを有するであろう。例えば、先に議論したLASSO技術については、多くの値が変数パラメーターλについて調べられる。λの各値について、回帰パラメーターを訓練することができ、モデルの予測をテストデータの測定された値と比較することができる。同様に、先に議論したサポートベクトルマシーンアプローチでは、グリッド−サーチアプローチを用いて最適化すべきチューニングパラメーターはC、ε、および、おそらくは核関数の特徴を記載するパラメーターを含む。偶発事象表に基づいた技術ではチューナブルパラメーターは、先に議論したように、偶発事象を所与の対象についてできるだけ特異的としつつ、偶発事象表モデルから許容できる最高の標準偏差と比較することができる。
多くの異なる行列を用いて、モデル予測をテストデータと比較して、チューナブルパラメーターを最適化し、モデルを選択することができる。好ましい実施形態において、誤差の標準偏差を用いる。他の実施形態において、予測されたおよび測定された結果の間の相関係数Rを用いることができる。論理的回帰または偶発事象表の関係で、事後確率、すなわち、各テスト結果の尤度のモデルの予測を仮定するテストデータの所与のセットの確率を用いることもできる。いずれの測定基準を用いようとも、もし予測誤差の標準偏差をテスト測定基準として用いるならば、予測誤差の標準偏差の最小化のような、測定基準の値を最適化するチューニングパラメーターのその値を選択する。モデル訓練および交差−確証はゆっくりとしたプロセスであるので、この段階2510において、異なるチューニングパラメーターが調べられるように規定するグリッドは、最良のモデルおよび最良のチューニングパラメーターの粗いアイデアのみを得ることができるように、利用可能な時間の量に基づいておおまかセットされる。
一旦、全ての異なるIV/DV組合せがこのようにして調べられたならば2511、システムが、テスト測定基準の最良の値を達成した、IV/DVの組合せ、モデルおよびチューニングパラメーターを選択する。もし失われたデータがなければ、システムはIV/DVのすべての組合せをチェックする工程をとばすことを注記する。代わりに、システムは、異なるモデル化技術およびチューニングパラメーターを調べ2508、テスト測定基準を最大化するモデル化方法およびチューニングパラメーターのセットを選択する。次いで、より細かく間隔を設けられたグリッドを用い、システムは最良の回帰モデルの洗練されたチューニングを行い、チューニングパラメーター値の各セットについて、テストデータとの相関を決定する。テスト測定基準の最良な値を生じるチューニングパラメーターのセットを選択する。次いで、システムは、予測誤差の標準偏差のようなテスト測定基準が、予測が有効と考えられるように、選択された閾値未満であるか否かを決定する2518。例えば、1つの実施形態において、R>0.5の相関係数は予測が有効とみなされるのに望ましい。もし得られたテスト測定基準が閾値を満足しないならば、予測を行うことができない2517。もしテスト測定基準が必要な閾値を満足するならば、予測で用いたIVおよびモデルがテストデータで達成した相関係数の組合せと共に、表現型予測を生じさせることができる。
失われたデータでの癌コホートにおける交差確証によるモデル選択の説明
この態様を示すためには、National Institute of Health’s Pharmacogenomic Research Networkの一部であって、どのようにして個々の遺伝子変異が異なる薬物応答に寄与するかを発見する使命を有するPharmGKBで見出すことができる結腸癌に関連する遺伝子および表現型データの利用に焦点を当てた。このデータベースについては、鍵となる挑戦は失われた情報であった。理想的には、前記した回帰技術を適用して、特定の患者に利用できるすべてのIVからのモデルについてのIVサブセットを自動的に選択したいであろう。しかしながら、これは、モデルを訓練し、テストするために他の患者から入手できるデータの量を制限する。その結果、あまり十分でないIVを含有するデータベースについては、独立変数の全ての可能なサブセットを通じてサーチすることが可能である。各々について、前記したように、必要な結果が測定され、および独立変数の関連セットが利用できる患者のセットを抽出することができる。前記したように、可能な方法の空間をサーチして、陽性数的独立変数のlogを取ることのような含まれた独立変数を前処理することもできる。含まれた独立変数の各組合せ、および独立変数前処理技術については、テストデータでの交差−確証によってモデルを訓練し、テストする。テストデータでの最良の交差−確証を有するモデルを選択する。一旦、IVについての所与のセットのためにモデルを創製したならば、網羅的なモデルサーチを必要とすることなくIVの同一セットが供給された新しい患者データにそのモデルを適用する。
この技術は、結直腸癌薬物イリノテカンについての臨床的副作用を予測するのに用いられてきた。ひどい毒性がイリノテカンを受ける癌患者で共通して観察される。イリノテカン薬物動態学および副作用等、イリノテカン代謝酵素および推定関連性のトランスポーターをコードする遺伝子の対立遺伝子変種との間の関係を記載するデータが含まれた。患者を、MDR1 P−糖蛋白質(ABCB1)、多薬物耐性−関連蛋白質MRP−1(ABCC1)およびMRP−2(ABCC2)、乳癌耐性蛋白質(ABCG2)、チトクロームP450イソ酵素(CYP3A4,CYP3A5)、カルボキシルエステラーゼ(CES1,CES2)、UDPグルクロノシル−トランスフェラーゼ(UGT1A1,UGT1A9)、および肝臓転写因子TCF1をコードする遺伝子における変異について遺伝子タイプ分けした。この研究のための遺伝子配列データに関連する表現型データを表15に記載する。
図26は、ファルマコゲノミック移動エンジンを用いて供給された利用可能なPharmGKBデータが所与の、イリノテカンでの結腸癌治療のための予測結果のモデルを説明する。図26において、モデルは、関連遺伝子座(2601)、用いるインジケーター、この場合、0ないし24時間からのCPT−11の濃度曲線下面積(AUC)のlog(2602)、および12日ないし14日に絶対好中球カウントのNadirのlog(2604)を予測するための0ないし24時間のSN−38 AUCのlog(2603)を示す。テストデータでモデルを交差−確証し、R=64%の相関係数が達成された(2605)。モデル予測の経験的標準偏差はモデルを訓練するのに用いられた(2607)結果のヒストグラムに重ねて示す(2606)。これらの統計学を用いて、イリノテカン治療を完全に差し控えるような通知した治療決定を行い、あるいは顆粒球コロニー刺激因子のような第2の薬物を投与して低いANCおよび得られた感染を妨げることができる。
高められた診断報告
病気治療の関係では創製された遺伝子データは、データを用いて治療用療法を選択するのを助けることができる臨床家にとって最も用いられるものである。1つの態様において、表現型予測を状況に当てはめ、臨床家または患者に対する報告に組織化する。もう1つの態様において、本明細書中に開示されたシステムおよび方法は、診断lab2703がlabテスト2701および医療報告2702からのデータを確証し、それをデータセンター2704に送り、そこで、それは開示された方法を用いて分析された標準的腫瘍学に一体化されるより大きなシステム(図27参照)の一部として用いることができ、高められた診断報告2705が創製され、医師2706に送られる。
報告を創製することができる1つの可能な状況は、イリノテカンで治療される結腸癌患者についての予測臨床結果に関するであろう。それは、治療のための禁忌の概念、投与スケジュール、副作用プロフィールをコードすることができる。そのような副作用の例は、2つとも普通である骨髄抑制および後期−開始下痢、緊急の医療的看護を必要とするイリノテカン治療の用量−律速副作用を含む。加えて、ひどい好中球減少症およびひどい下痢は、各々、患者の28%および21%に影響する。あるUGT1A1対立遺伝子、肝臓帰納テスト、ギルバート症候群の過去の医療的履歴、および抗−痙攣薬およびいくつかの抗−催吐薬のようなチトクロームp450を誘導する患者投薬の同定は、イリノテカン用量調整を警告するインジケーターである。
図28は、表現型予測を用いるイリノテカンでの結直腸癌治療についての高められた報告のモック−アップである。治療に先立ち、報告は患者の癌の段階、過去の医療履歴、現在の投薬および薬物用量を推奨するためのUGT1A1遺伝子型を考慮する。最初の薬物投与からほぼ1日後に報告は、UGT1A1遺伝子中の突然変異、および患者の血液から測定された代謝産物(例えば、SN−38、CPT−11)に基づいた、ほぼ2週間の時間における患者の絶対好中球カウントの予測されたNadirの予測を含む。この予測に基づき、医師は、患者にコロニー刺激因子薬物を与え、またはイリノテカン用量を変更するか否かを決定することができる。また、患者を血液カウント、下痢のグレードについてモニターする。データ源および推奨の正当性を供する。
態様の組合せ
先に述べたように、本開示の利点を仮定すれば、他の態様、特徴および実施形態は本明細書中に開示された方法およびシステムの1以上を実行することができる。以下に、開示された発明の種々の態様を複数の方法で組み合わせることができる状況を説明する例の短いリストを掲げる。このリストは包括的であることを意図せず、本発明の態様、特徴および実施形態の多くの他の組合せが可能であることに注意するのは重要である。
1つの例は、各々の値を最適化する方法での種々のゲノタイピング測定技術を利用することができる。例えば、labは、Applied Bioscience Taqmanアッセイのような低シグナルの場合において、高価であるが、高い品質のデータを与えることができる技術を用いて、標的DNAを測定し、およびAffymetrix’s 500K Genechip、またはMIPSのような高価であるが、多量の遺伝物質を必要とする技術を用いて、良好な質のデータを与え、親DNAを測定することができる。
もうひとつの例は、IVF治療を受けているカップルが婦人から収穫された卵を有し、男性からの精子で受精させ、8つの生きた胚を生じる状況であろう。胚盤胞を各胚から収穫し、胚盤胞からのゲノムデータを、Taqmanゲノタイピングアッセイを用いて測定する。他方、Molecular Inversion Probes(分子逆転プローブ)を用い、双方の親から採った組織からジプロイドデータを測定する。男性の精子の1つからの、および婦人の卵の1つからのハプロイドデータもMIPを用いて測定する。親の遺伝子データを用いて8つの胚盤胞のSNPデータを清澄化する。次いで、清澄化された遺伝子データを用いて胚の潜在的表現型に関して予測を行う。最も有望なプロフィールを有する2つの胚を選択し、婦人の子宮に着床させる。
もう1つの例は、その夫がテイ・サックス病の家族履歴を有する妊娠した婦人が、彼女が担う胎児が遺伝子的に罹患性であるかを知りたがっているが、羊水穿刺は流産のかなりの危険性があるのでそれを受けることを望まない状況であろう。彼女は血液を吸い取り、幾らかの胎児DNAを彼女の血液から単離し、MIPを用いてそのDNAを分析する。彼女および彼女の夫は、従前に分析された彼らの十分なゲノムデータを既に有しており、それはイン・シリコで利用可能である。医師は、親ゲノムのイン・シリコ知識および本明細書中に開示した方法を用いて胎児DNAデータを清澄化し、テイ・サックス病の原因である臨界的遺伝子が胎児のゲノムに存在するかをチェックすることもできる。
もう1つの例は、44歳の妊娠した婦人が、彼女が担う胎児がダウン症候群を有し得るかに関心がある状況であろう。彼女は、流産の個人的履歴を仮定すれば、出生前診断で用いる煩わしい技術を有することを警戒しており、従って、彼女は自分の血液を分析することを選択する。健康ケア実践者は、母体血液試料中の胎児細胞を見出すことができ、婦人自身も遺伝子データの知識とともに本明細書中に開示した方法を用い、異数性について診断することができる。
もう1つの例は、カップルがIVF治療を受けており;彼らは婦人から収穫した卵を有し、男性からの精子で受精させ、9つの生きた胚を生じる状況であろう。胚盤胞が各胚から収穫され、胚盤胞からのゲノムデータをIllumimaビーズアッセイを用いて測定する。他方、分子逆転プローブを用いて双方の親から採取された組織からジプロイドデータを測定する。同一方法を用い、父親の精子からのハプロイドデータを測定する。母親から入手できる過剰な卵はなく、従って、バルクジプロイド組織試料は彼女自身の父親および母親から採取され、精子試料は彼女の父親から採取される。それらはすべてMIPを用い分析され、本明細書中で開示された方法を用いて、母親のゲノムについての遺伝子分析を供する。次いで、父親のジプロイドおよびハプロイドデータとともにそのデータを用いて胚盤胞の各々の遺伝子データの高度に正確な分析を行う。表現型予測に基づき、カップルは3つの胚を着床させることを選択する。
もう1つの例は、競走馬飼育者が、彼の優勝競走馬によって種付けされた子馬がそれ自体が優勝馬となる尤度を増加させることを望む状況である。彼は所望の雌馬がIVFによって妊娠されるように手配し、雄馬および雌馬からの遺伝子データを用いて、生きた胚から測定された遺伝子データを清澄化する。清澄化された胚遺伝子データは、育種者が関連遺伝子型−表現型相関を見出し、望ましい競走馬を最も生産するような着床用の胚を選択することを可能とする。
もう1つの例は、妊娠した婦人が彼女が担う胎児がいずれかの深刻な病気に対する素因があるか否かを知りたい状況であろう。父親は既に亡くなっており、従って父親の兄弟および父親の父親から創製されたハプロイドおよびジプロイドデータを用いて、胎児血液サンプリングの間に集められた胎児細胞から測定された胎児の遺伝子データを清澄化することを助ける。健康ケア実践者によって契約された会社は清澄化された遺伝子データを用いて各予測の信頼性とともに、胎児が呈するような表現型のリストを提供する。
もう1つの例は、乏しい研究室技術のため、汚染された胎児遺伝子データと場合によっては闘わなければならない羊水穿刺であろう。開示された方法を用いて、母性および父性遺伝子データを用いて汚染された胎児遺伝子データを清澄化することができる。開示された方法が汚染DNAの増大した速度を補うことができることを知って、稔性手法を緩和させることによって研究室がコストを切り詰めることができる状況を想像することができる。
もう1つの例は、40代の婦人が妊娠を得ようとしてIVFを受けている状況であろう。彼女は、胚をスクリーニングして、遺伝病を最も有しないようであり、最も着床し、妊娠まで持っていけそうなものを選択することを望む。彼女が用いているIVFクリニックは生きた胚の各々から胚盤胞を収穫し、標準的な手法を用いてDNAを増幅し、鍵となるSNPを測定する。次いで、技術者は本明細書中に開示された方法を用いて、染色体アンバランスについてスクリーニングし、また、胚の遺伝子データを見出し、それを清澄化して、各胚の表現型素因について予測を行う。
もう1つの例は、妊娠した婦人が羊水穿刺を有し、本明細書中に開示された方法とともに、血液試料中の胎児細胞における遺伝物質を用いて異数性および他の染色体異常についてスクリーニングする。
1つの例は、径基礎核関数およびノルム喪失関数とともにサポートベクトルマシーンを用いる非線形モデルがヒト成人の遺伝子型および表現型データを利用して、早期開始アルツハイマー病の尤度を予測し、該病気の開始を遅らせることができる可能なライフスタイルの変化および運動養生法を提案する。
もう1つの例は、LASSO技術を用いる線形モデルが、癌の遺伝子データとともに、肺癌に罹った成人婦人の遺伝子型および表現型データを利用して、いずれの医薬が該病気の進行を遅らせるのに最も効果的であるかを予測する婦人の医師についての医師用の報告を作成する。
もう1つの例は、複数のモデルを、クローン病患者の遺伝子、表現型および臨床データより成る集合データについてテストし、次いで、最も正確であることが判明する非線形回帰モデルが成人男性の表現型および臨床データを利用して、彼のクローン病の徴候を緩和するようであるある種の栄養サプリメントを提案する報告を作成する状況であろう。
もう1つの例は、Hapmap Projectを通じて獲得されたデータから形成された偶発事象表を利用し、かつ胚からの胚盤胞から集めた遺伝子情報を利用するモデルを用いて、もし胚が着床すれば、結果をもたらす子供のありそうな表現型に関して予測を行う状況であろう。
もう1つの例は、新生児に感染するHIVの株の遺伝子情報を利用する線形回帰モデルを用いて、いずれの抗ウイルス薬物が、もし投与されたならば、成人に達する最大のチャンスを彼女に与えるかを示唆する赤ん坊の医師用の報告を作成する状況であろう。
もう1つの例は、新しい研究が公表され、中年婦人における心筋梗塞の罹患率、およびある遺伝子および表現型マーカーの間のある相関を示唆する状況であろう。次いで、これは非線形回帰モデルの使用を促進して、中年データの集合データならびにそのデータがシステムに知られている個体の遺伝子および表現型データを再度調べ、次いで、該モデルは、心筋梗塞の危険性が最もある婦人を同定し、予測される危険性を彼らに通知する各医師に送られる報告書を作成する。
もう1つの例は、複数のモデルを試みられた種々の薬物介入を含めた、結腸癌に罹った人々の集合データについてテストされる状況であろう。最良の予測を可能とすることが判明するモデルを用いて、実験的新しい医薬から最も利益を受けるであろう患者、および該新しい医薬に対する権利を所有する会社によってそれらの結果が用いられ、臨床試験に行うにおいて彼らを助ける。
定義
SNP(単一ヌクレオチド多形):個体間変異を示す傾向がある染色体上の特別な遺伝子座。
SNPを要求すること:直接的および間接的証拠を考慮し、特定の塩基対の同一性を質問すること。
対立遺伝子を要求すること:SNPを要求すること遺伝子データを清澄化すること:関連する個人の遺伝子データ、および本明細書中に記載された方法を用いて不完全な遺伝子データを取り、誤差のいくつかまたは全てを修正すること。
不完全な遺伝子データ:以下の:対立遺伝子ドロップアウト、不明瞭な塩基対測定、正しくない塩基対測定、偽シグナル、または失われた測定のいずれかを持つ遺伝子データ
信頼性:要求されたSNP、対立遺伝子、または対立遺伝子のセットが個体の現実の遺伝子状態を表す統計学的尤度
多重遺伝子:複数の遺伝子または対立遺伝子によって影響される
ノイジーな遺伝子データ:不完全な遺伝子データとも呼ばれる不完全遺伝子データ;
未清浄化遺伝子データ:測定された遺伝子データ、すなわち、生の遺伝子データにおいてノイズの存在について修正するのにいずれの方法も用いられたことがない;また、粗遺伝子データとも呼ばれる
直接的関係:母親、父親、息子、または娘
染色体領域:染色体のセグメント、または全染色体
親サポート:遺伝子データを清浄化する開示された方法で時々用いられる名称
染色体のセクション:1塩基対ないし全染色体のサイズの範囲とすることができる染色体のセクション。
(表)

Claims (1)

  1. 本願明細書に記載された発明。
JP2015027583A 2005-11-26 2015-02-16 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法 Withdrawn JP2015096080A (ja)

Applications Claiming Priority (16)

Application Number Priority Date Filing Date Title
US73988205P 2005-11-26 2005-11-26
US60/739,882 2005-11-26
US74230505P 2005-12-06 2005-12-06
US60/742,305 2005-12-06
US75439605P 2005-12-29 2005-12-29
US60/754,396 2005-12-29
US77497606P 2006-02-21 2006-02-21
US60/774,976 2006-02-21
US78950606P 2006-04-04 2006-04-04
US60/789,506 2006-04-04
US81774106P 2006-06-30 2006-06-30
US60/817,741 2006-06-30
US11/496,982 US20070027636A1 (en) 2005-07-29 2006-07-31 System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions
US11/496,982 2006-07-31
US84661006P 2006-09-22 2006-09-22
US60/846,610 2006-09-22

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013063669A Division JP2013150622A (ja) 2005-11-26 2013-03-26 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法

Publications (1)

Publication Number Publication Date
JP2015096080A true JP2015096080A (ja) 2015-05-21

Family

ID=38067926

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2008542450A Active JP6121642B2 (ja) 2005-11-26 2006-11-22 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法
JP2013063669A Withdrawn JP2013150622A (ja) 2005-11-26 2013-03-26 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法
JP2015027583A Withdrawn JP2015096080A (ja) 2005-11-26 2015-02-16 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法
JP2016117074A Active JP6430998B2 (ja) 2005-11-26 2016-06-13 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2008542450A Active JP6121642B2 (ja) 2005-11-26 2006-11-22 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法
JP2013063669A Withdrawn JP2013150622A (ja) 2005-11-26 2013-03-26 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016117074A Active JP6430998B2 (ja) 2005-11-26 2016-06-13 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法

Country Status (8)

Country Link
EP (5) EP2437191B1 (ja)
JP (4) JP6121642B2 (ja)
CN (1) CN101346724B (ja)
AU (1) AU2006318425B2 (ja)
CA (1) CA2632230C (ja)
ES (1) ES2634665T3 (ja)
HK (1) HK1224053A1 (ja)
WO (1) WO2007062164A2 (ja)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024128B2 (en) 2004-09-07 2011-09-20 Gene Security Network, Inc. System and method for improving clinical decisions by aggregating, validating and analysing genetic and phenotypic data
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US8532930B2 (en) 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
GB0523276D0 (en) 2005-11-15 2005-12-21 London Bridge Fertility Chromosomal analysis by molecular karyotyping
CN101790731B (zh) * 2007-03-16 2013-11-06 纳特拉公司 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法
CA2692844C (en) * 2007-06-07 2019-02-12 Simons Haplomics Limited In situ methods for gene mapping and haplotyping
HRP20140009T4 (hr) 2007-07-23 2019-03-08 The Chinese University Of Hong Kong Dijagnosticiranje fetalne kromosomske aneuploidije uporabom genomskog sekvencijskog postupka
US9864835B2 (en) * 2007-10-15 2018-01-09 23Andme, Inc. Genetic comparisons between grandparents and grandchildren
EP2321642B1 (en) 2008-08-04 2017-01-11 Natera, Inc. Methods for allele calling and ploidy calling
US12129514B2 (en) 2009-04-30 2024-10-29 Molecular Loop Biosolutions, Llc Methods and compositions for evaluating genetic markers
AU2010242073C1 (en) 2009-04-30 2015-12-24 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
ES2640776T3 (es) 2009-09-30 2017-11-06 Natera, Inc. Métodos para denominar de forma no invasiva ploidía prenatal
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US12152275B2 (en) 2010-05-18 2024-11-26 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
CA3207599A1 (en) 2010-05-18 2011-11-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US12221653B2 (en) 2010-05-18 2025-02-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
CN101894216B (zh) * 2010-07-16 2012-09-05 西安电子科技大学 从snp数据中发现与复杂疾病相关snp组的方法
US20120034603A1 (en) * 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
EP2656263B1 (en) 2010-12-22 2019-11-06 Natera, Inc. Methods for non-invasive prenatal paternity testing
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
CA2824387C (en) 2011-02-09 2019-09-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US8812943B2 (en) * 2011-09-23 2014-08-19 Fujitsu Limited Detecting data corruption in medical binary decision diagrams using hashing techniques
CA2852665A1 (en) 2011-10-17 2013-04-25 Good Start Genetics, Inc. Analysis methods
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US8812422B2 (en) 2012-04-09 2014-08-19 Good Start Genetics, Inc. Variant database
US10227635B2 (en) 2012-04-16 2019-03-12 Molecular Loop Biosolutions, Llc Capture reactions
WO2014014497A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
US20140100126A1 (en) 2012-08-17 2014-04-10 Natera, Inc. Method for Non-Invasive Prenatal Testing Using Parental Mosaicism Data
RU2015111515A (ru) * 2012-08-31 2016-10-20 Конинклейке Филипс Н.В. Мониторинг лейкоцитов во время циклов лечения
CN104838384B (zh) * 2012-11-26 2018-01-26 皇家飞利浦有限公司 使用具有患者特异性的相关性评价的变体‑疾病关联性的诊断基因分析
EP2971159B1 (en) 2013-03-14 2019-05-08 Molecular Loop Biosolutions, LLC Methods for analyzing nucleic acids
CA3189752A1 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3005200A2 (en) 2013-06-03 2016-04-13 Good Start Genetics, Inc. Methods and systems for storing sequence read data
US9499870B2 (en) 2013-09-27 2016-11-22 Natera, Inc. Cell free DNA diagnostic testing standards
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
US10851414B2 (en) 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
US11041203B2 (en) 2013-10-18 2021-06-22 Molecular Loop Biosolutions, Inc. Methods for assessing a genomic region of a subject
EP3134541B1 (en) 2014-04-21 2020-08-19 Natera, Inc. Detecting copy number variations (cnv) of chromosomal segments in cancer
US12492429B2 (en) 2014-04-21 2025-12-09 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
US11053548B2 (en) 2014-05-12 2021-07-06 Good Start Genetics, Inc. Methods for detecting aneuploidy
US20180173846A1 (en) 2014-06-05 2018-06-21 Natera, Inc. Systems and Methods for Detection of Aneuploidy
US20160048608A1 (en) 2014-08-15 2016-02-18 Good Start Genetics, Inc. Systems and methods for genetic analysis
US11408024B2 (en) 2014-09-10 2022-08-09 Molecular Loop Biosciences, Inc. Methods for selectively suppressing non-target sequences
US10429399B2 (en) 2014-09-24 2019-10-01 Good Start Genetics, Inc. Process control for increased robustness of genetic assays
EP4095261B1 (en) 2015-01-06 2025-05-28 Molecular Loop Biosciences, Inc. Screening for structural variants
US9864823B2 (en) 2015-03-30 2018-01-09 Uop Llc Cleansing system for a feed composition based on environmental factors
US20160292188A1 (en) * 2015-03-30 2016-10-06 Uop Llc Data cleansing system and method for inferring a feed composition
DK3294906T3 (en) 2015-05-11 2024-08-05 Natera Inc Methods for determining ploidy
EP3303579B1 (en) * 2015-05-28 2021-04-07 Stichting Het Nederlands Kanker Instituut- Antoni van Leeuwenhoek Ziekenhuis Assays to identify genetic elements affecting phenotype
JP6570929B2 (ja) * 2015-09-08 2019-09-04 国立研究開発法人農業・食品産業技術総合研究機構 特性推定モデル生成装置および方法、解析対象の特性推定装置および方法
WO2017082034A1 (ja) * 2015-11-10 2017-05-18 富士フイルム株式会社 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法
US12146195B2 (en) 2016-04-15 2024-11-19 Natera, Inc. Methods for lung cancer detection
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
GB201618485D0 (en) 2016-11-02 2016-12-14 Ucl Business Plc Method of detecting tumour recurrence
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
US20180218434A1 (en) * 2017-01-27 2018-08-02 Orig3N, Inc. Systems and methods for determining and presenting purchase recommendations based on personal genetic profiles
WO2018156418A1 (en) 2017-02-21 2018-08-30 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
CN107145712B (zh) * 2017-04-06 2021-01-01 广州慧扬健康科技有限公司 合并症与并发症的病历统计分析系统
KR102487135B1 (ko) * 2017-06-20 2023-01-10 일루미나, 인코포레이티드 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
SG11201911530RA (en) 2017-06-20 2020-01-30 Illumina Inc Methods for accurate computational decomposition of dna mixtures from contributors of unknown genotypes
JP2021508488A (ja) * 2017-10-03 2021-03-11 アトラス バイオムド グループ リミティッド データの解釈、ならびにユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するシステム及び方法
US10426424B2 (en) 2017-11-21 2019-10-01 General Electric Company System and method for generating and performing imaging protocol simulations
WO2019118926A1 (en) 2017-12-14 2019-06-20 Tai Diagnostics, Inc. Assessing graft suitability for transplantation
US12398389B2 (en) 2018-02-15 2025-08-26 Natera, Inc. Methods for isolating nucleic acids with size selection
RU2699517C2 (ru) * 2018-02-15 2019-09-05 Атлас Биомед Груп Лимитед Способ оценки риска заболевания у пользователя на основании генетических данных и данных о составе микробиоты кишечника
US20190287644A1 (en) * 2018-02-15 2019-09-19 Northeastern University Correlation Method To Identify Relevant Genes For Personalized Treatment Of Complex Disease
EP3543940A1 (de) * 2018-03-23 2019-09-25 Siemens Aktiengesellschaft Computerimplementiertes verfahren zum bereitstellen von daten, insbesondere für eine konformitätsverfolgung
JP7573443B2 (ja) 2018-04-14 2024-10-25 ナテラ, インコーポレイテッド 循環腫瘍dnaの個別化された検出を用いる癌検出およびモニタリングの方法
CN110400597A (zh) * 2018-04-23 2019-11-01 成都二十三魔方生物科技有限公司 一种基于深度学习的基因型预测方法
CN108595911A (zh) * 2018-05-03 2018-09-28 中国人民解放军军事科学院军事医学研究院 早期胚胎稳定H3K4me3区域的识别方法与应用
US12234509B2 (en) 2018-07-03 2025-02-25 Natera, Inc. Methods for detection of donor-derived cell-free DNA
CN108920893B (zh) * 2018-09-06 2019-04-16 南京医科大学 一种基于人工智能的颅颌面骨骼和软组织形态预测方法
US10468141B1 (en) * 2018-11-28 2019-11-05 Asia Genomics Pte. Ltd. Ancestry-specific genetic risk scores
US12305235B2 (en) 2019-06-06 2025-05-20 Natera, Inc. Methods for detecting immune cell DNA and monitoring immune system
CN110444251B (zh) * 2019-07-23 2023-09-22 中国石油大学(华东) 基于分支定界的单体型格局生成方法
CN111192633A (zh) * 2020-01-07 2020-05-22 深圳市早知道科技有限公司 一种预测地中海贫血病表型的方法及终端设备
CN111584011B (zh) * 2020-04-10 2023-08-29 中国科学院计算技术研究所 面向基因比对的细粒度并行负载特征抽取分析方法及系统
CN111476497B (zh) * 2020-04-15 2023-06-16 浙江天泓波控电子科技有限公司 一种用于小型化平台的分配馈电网络方法
CN113095538B (zh) * 2020-06-08 2024-03-19 华北电力大学 面向灵活性运行的热电联产机组宽负荷运行动态特性建模方法
CN113284618B (zh) * 2021-04-14 2022-07-22 北京育学园健康管理中心有限公司 婴幼儿健康评估方法
WO2022260740A1 (en) 2021-06-10 2022-12-15 Alife Health Inc. Machine learning for optimizing ovarian stimulation
WO2023225951A1 (zh) * 2022-05-26 2023-11-30 深圳华大生命科学研究院 基于单体型的胎儿基因型检测方法
CN115064210B (zh) * 2022-07-27 2022-11-18 北京大学第三医院(北京大学第三临床医学院) 一种鉴定二倍体胚胎细胞中染色体交叉互换位置的方法及应用
CN115268269B (zh) * 2022-07-29 2023-06-02 无锡市低碳研究院有限公司 一种基于新能源低碳的家居耗能优化系统及方法
CN115929285A (zh) * 2022-11-11 2023-04-07 西南石油大学 一种基于拉格朗日支持向量机算法的地温梯度预测方法
WO2025093197A1 (en) * 2023-10-31 2025-05-08 Københavns Universitet Electronic device for pregnancy loss classification and related methods

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9305984D0 (en) 1993-03-23 1993-05-12 Royal Free Hosp School Med Predictive assay
US6025128A (en) 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
US6720140B1 (en) 1995-06-07 2004-04-13 Invitrogen Corporation Recombinational cloning using engineered recombination sites
US5824467A (en) 1997-02-25 1998-10-20 Celtrix Pharmaceuticals Methods for predicting drug response
US5994148A (en) 1997-06-23 1999-11-30 The Regents Of University Of California Method of predicting and enhancing success of IVF/ET pregnancy
US7058517B1 (en) 1999-06-25 2006-06-06 Genaissance Pharmaceuticals, Inc. Methods for obtaining and using haplotype data
US7058616B1 (en) 2000-06-08 2006-06-06 Virco Bvba Method and system for predicting resistance of a disease to a therapeutic agent using a neural network
GB0016742D0 (en) * 2000-07-10 2000-08-30 Simeg Limited Diagnostic method
US6489135B1 (en) 2001-04-17 2002-12-03 Atairgintechnologies, Inc. Determination of biological characteristics of embryos fertilized in vitro by assaying for bioactive lipids in culture media
FR2824144B1 (fr) * 2001-04-30 2004-09-17 Metagenex S A R L Methode de diagnostic prenatal sur cellule foetale isolee du sang maternel
US6958211B2 (en) 2001-08-08 2005-10-25 Tibotech Bvba Methods of assessing HIV integrase inhibitor therapy
US6807491B2 (en) * 2001-08-30 2004-10-19 Hewlett-Packard Development Company, L.P. Method and apparatus for combining gene predictions using bayesian networks
WO2003031646A1 (en) * 2001-10-12 2003-04-17 The University Of Queensland Multiple genetic marker selection and amplification
JP2005514956A (ja) * 2002-01-18 2005-05-26 ジェンザイム・コーポレーション 胎児dnaの検出および対立遺伝子の定量化のための方法
JP2005516310A (ja) 2002-02-01 2005-06-02 ロゼッタ インファーマティクス エルエルシー 遺伝子を特定し、形質に関連する経路を明らかにするコンピュータ・システムおよび方法
BR0308161A (pt) * 2002-03-01 2006-06-06 Ravgen Inc métodos para a detecção de distúrbios genéticos
US6977162B2 (en) * 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
AU2003231244A1 (en) 2002-05-02 2003-11-17 University Of North Carolina At Chapel Hill In vitro mutagenesis, phenotyping, and gene mapping
US20040122708A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Medical data analysis method and apparatus incorporating in vitro test data
EP1689884A4 (en) * 2003-10-08 2007-04-04 Univ Boston PROCESS FOR THE PRENATAL DIAGNOSIS OF CHROMOSOMAL ABNORMALITIES
ATE435301T1 (de) * 2003-10-16 2009-07-15 Sequenom Inc Nicht invasiver nachweis fötaler genetischer merkmale
WO2005039389A2 (en) * 2003-10-22 2005-05-06 454 Corporation Sequence-based karyotyping
JP4437050B2 (ja) * 2004-03-26 2010-03-24 株式会社日立製作所 診断支援システム、診断支援方法および診断支援サービスの提供方法

Also Published As

Publication number Publication date
CA2632230A1 (en) 2007-05-31
WO2007062164A3 (en) 2007-11-29
JP6430998B2 (ja) 2018-11-28
EP2437191A3 (en) 2015-02-18
CN101346724B (zh) 2018-05-08
JP6121642B2 (ja) 2017-04-26
JP2016184429A (ja) 2016-10-20
EP1960929A2 (en) 2008-08-27
CN101346724A (zh) 2009-01-14
EP1960929A4 (en) 2009-01-28
JP2013150622A (ja) 2013-08-08
HK1224053A1 (en) 2017-08-11
CA2632230C (en) 2019-05-07
EP3373175A1 (en) 2018-09-12
EP2437191A2 (en) 2012-04-04
AU2006318425A2 (en) 2008-08-21
EP3012760A1 (en) 2016-04-27
WO2007062164A2 (en) 2007-05-31
AU2006318425B2 (en) 2013-05-02
AU2006318425A1 (en) 2007-05-31
JP2009517050A (ja) 2009-04-30
ES2634665T3 (es) 2017-09-28
EP3599609A1 (en) 2020-01-29
EP2437191B1 (en) 2017-04-26
EP3373175B1 (en) 2025-05-28

Similar Documents

Publication Publication Date Title
JP6430998B2 (ja) 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法
US10597724B2 (en) System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US8682592B2 (en) System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
AU2016201386B2 (en) System and Method for Cleaning Noisy Genetic Data and Using Data to Make Predictions
AU2013202555A1 (en) System and Method for Cleaning Noisy Genetic Data and Using Data to Make Predictions
HK1259804A1 (en) System and method for cleaning noisy genetic data and using data to make predictions
HK40022609A (en) System and method for cleaning noisy genetic data and using data to make predictions
HK1259804B (en) System and method for cleaning noisy genetic data and using data to make predictions
HK1125195A (en) System and method for cleaning noisy genetic data and using data to make predictions
HK1125195B (en) System and method for cleaning noisy genetic data and using data to make predictions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151102

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160126

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20160428