定義
「メチローム」は、ゲノム内の複数の部位または遺伝子座におけるDNAメチル化量の尺度を与える。メチロームは、ゲノム全体、ゲノムの相当な部分、またはゲノムの比較的小さな部分に該当し得る。「胎児メチローム」は、妊娠女性の胎児のメチロームに該当する。胎児メチロームは、種々の胎児組織または胎児DNAの供給源、例えば、胎盤組織および母体血漿中の無細胞胎児DNAを用いて、決定することができる。「腫瘍メチローム」は、生物(例えば、ヒト)の腫瘍のメチロームに該当する。腫瘍メチロームは、腫瘍組織または母体血漿中の無細胞腫瘍DNAを用いて決定することができる。胎児メチロームおよび腫瘍メチロームは、目的のメチロームの例である。目的のメチロームの他の例は、体液(例えば、血漿、血清、汗、唾液、尿、生殖器分泌物、精液、便液(stools fluid)、下痢液(diarrheal fluid)、脳脊髄液、胃腸管分泌物、膵臓分泌物、腸分泌物、痰、涙、乳房からの吸引液および甲状腺等)にDNAを与え得る臓器のメチローム(例えば、脳細胞、骨、肺、心臓、筋肉および腎臓等のメチローム)である。臓器は移植された臓器であってもよい。
「血漿メチローム」は、動物(例えば、ヒト)の血漿または血清から決定されるメチロームである。血漿メチロームは、血漿および血清は無細胞DNAを含むことから、無細胞メチロームの一例である。血漿メチロームは、胎児/母体メチロームまたは腫瘍/患者メチロームの混合物であることから、混合メチロームの一例でもある。「胎盤メチローム」は、絨毛膜絨毛検体(chorionic villus sample:CVS)または胎盤組織検体(例えば、出産後に得られる)から決定することができる。「細胞メチローム」は、患者の細胞(例えば、血液細胞)から決定されるメチロームに該当する。血液細胞のメチロームは、血液細胞メチローム(または血液メチローム)と称される。
「部位」は、一塩基位置であっても一群の関連塩基位置(例えば、CpG部位)であってもよい、単一部位に該当する。「座位」は、複数の部位を含む領域に該当する。座位は、該座位をその配列内のある部位と等しくする、ただ一つの部位を含み得る。
各ゲノム部位(例えば、CpG部位)の「メチル化指数」は、その部位を被覆するリードの総数に対する、部位においてメチル化を示す配列リードの比率を指す。領域の「メチル化密度」は、該領域内の部位を被覆するリードの総数で除算した、メチル化を示す該領域内の部位におけるリードの数である。部位は特定の特徴を有していてもよく、例えば、CpG部位であってもよい。従って、領域の「CpGメチル化密度」は、該領域内のCpG部位(例えば、特定のCpG部位、CG島内のCpG部位、またはより大きな領域)を被覆するリードの総数で除算した、CpGメチル化を示すリードの数である。例えば、ヒトゲノム内の各100kbのビン(bin)のメチル化密度は、該100kb領域に位置付けられる配列リードによって被覆される全CpG部位の比率として、CpG部位における亜硫酸水素塩処理後に変換されていないシトシンの総数(メチル化シトシンに相当)から決定することができる。この解析は、他のビン部位(例えば、50kbまたは1Mb等)に対しても行うこともできる。領域は、ゲノム全体または染色体または染色体の部分(例えば、染色体腕)であり得る。CpG部位のメチル化指数は、領域がそのCpG部位を含むのみである場合の、領域のメチル化密度と同じである。「メチル化シトシンの比率」は、解析されたシトシン残基(すなわち、該領域内のCpG配列の外側にあるシトシンを含む)の総数に対する、メチル化されていることが示される(例えば、亜硫酸水素塩変換の後に変換されていない)、シトシン部位(「C」)の数を指す。メチル化指数、メチル化密度およびメチル化シトシンの比率は、「メチル化レベル」の例である。
「メチル化特性」(メチル化状態とも称される)は、領域のDNAメチル化に関連する情報を含む。DNAメチル化に関連する情報としては、限定はされないが、CpG部位のメチル化指数、領域内のCpG部位のメチル化密度、隣接領域にわたるCpG部位の分布、2つ以上のCpG部位を含有する領域内の個々のCpG部位のメチル化のパターンまたはレベル、および非CpGメチル化が含まれ得る。ゲノムの相当な部分のメチル化特性は、メチロームと等価であるとみなすことができる。哺乳類ゲノムにおける「DNAメチル化」は、典型的には、CpGジヌクレオチド間の、シトシン残基の5’炭素へのメチル基の付加(すなわち、5-メチルシトシン)を指す。DNAメチル化は、他の配列内のシトシン、例えば、CHGおよびCHH(Hはアデニン、シトシンまたはチミンである)において生じ得る。シトシンメチル化は、5-ヒロドキシメチルシトシンの形態であってもよい。N6-メチルアデニン等の非シトシンメチル化も報告されている。
「組織」はあらゆる細胞に該当する。異なる種類の組織は、異なる種類の細胞(例えば、肝臓、肺、または血液)に該当し得るが、異なる生物(母対胎児)から得られた組織または正常細胞対腫瘍細胞にも該当し得る。「生物試料」は、対象(例えば、ヒト、例えば、妊娠女性、担がん患者、または担がんが疑われる人、臓器移植受容者、または臓器(例えば、心筋梗塞における心臓、または脳卒中における脳)に関する疾患仮定を有することが疑われる対象)から得られ、一つまたは複数の目的の核酸分子を含有する、あらゆる試料を指す。生物試料は、体液血液、血漿、血清、尿、膣液、子宮または膣洗い流し液(flushing fluid)、複数の体液、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液等の体液であり得る。便試料を用いることもできる。
用語「がんのレベル」は、がんが存在するかどうか、がんの段階、腫瘍のサイズ、転移の有無、身体の総腫瘍量、および/またはがんの重症度の他の尺度を指し得る。がんのレベルは、数または他の特性であり得る。レベルはゼロであってもよい。がんのレベルは、変異またはいくつかの変異と関連する前悪性状態または前がん状態も含む。がんのレベルは様々な方法で用いることができる。例えば、スクリーニングは、がんを有することが以前に知られていない者にがんが存在するかどうかを調べることができる。評価により、がんを有すると診断された者を調査することで、がんの進行を経時的にモニターすること、治療の有効性を研究すること、または予後を決定することができる。一実施形態では、予後は、患者ががんで死亡する確率、またはがんが特定の期間もしくは時間の後に進行する確率、またはがんが転移する確率を表し得る。検出は、「スクリーニング」を意味し得る、あるいは、がんを示唆する特徴(例えば、症状または他の陽性検査)を有する者ががんを有するかどうかをチェックすることを意味し得る。
詳細な説明
エピジェネティック機構は、胚発生および胎児発生において重要な役割を担う。しかし、ヒトの胚および胎児組織(胎盤組織を含む)は容易に利用できるものではない(米国特許第6,927,028号)。ある特定の実施形態は、母体循環系に存在する無細胞胎児DNA分子を含有する試料を分析することにより、この問題に取り組んだ。胎児メチロームは様々な方法で推定することができる。例えば、母体血漿メチロームは細胞メチローム(母親の血液細胞からの)と比較することができ、その差異は胎児メチロームと相関することが示されている。別の例として、胎児特異的対立遺伝子を用いることで、特定の遺伝子座での胎児メチロームのメチル化決定することができる。さらに、サイズおよびメチル化率間の相関が示されているため、断片のサイズはメチル化率の指標として用いることができる。
一実施形態では、ゲノムワイド亜硫酸水素塩配列決定は、単一ヌクレオチド分析(single nucleotide resolution)において母体血漿DNAのメチル化特性(メチロームの一部または全て)を分析するために用いられる。母親および胎児間の多形性差異を利用することで、胎児メチロームを母体血試料から構築することができる。別の実施においては、多形性差異を用いたが、血漿メチロームおよび血液細胞メチローム間の差異を用いることができる。
別の実施形態では、腫瘍ゲノムおよび非腫瘍ゲノム間の単一ヌクレオチド変異および/またはコピー数異常、並びに血漿(または他の試料)から得た配列決定データを利用することにより、がんを有することが疑われるまたはがんを有すると診断された患者の試料において、腫瘍のメチル化プロファイリングを行うことができる。健常対照または健常対照群の血漿メチル化レベルと比較した場合の試験個体の血漿試料中のメチル化レベルの差異は、試験個体ががんを有することの特定を可能にし得る。さらに、メチル化特性は、例えば、患者がどの臓器から発達させたか、および転移がどの臓器から生じたか等の、がんの種類を明らかにするサインとして機能し得る。
このアプローチは非侵襲性であるため、第一期、第三期および出産後に採取した母体血試料から胎児および母体の血漿メチロームを連続的に評価することができた。妊娠に関連する変化を観察した。前記アプローチは、第二期中に得られた試料に適応することもできる。妊娠中の母体血漿から推定された胎児メチロームは胎盤メチロームに似ていた。インプリンティング遺伝子および示差的にメチル化された領域を母体血漿データから特定した。
胎児メチロームを非侵襲的、連続的且つ包括的に研究することにより、生物マーカーを同定する、または妊娠に関連した病態を直接検査する可能性を提供するアプローチを開発した。また、実施例を用いることで、対象がかんを有しているかどうかをスクリーニングまたは検出するため、がん患者における悪性疾患をモニターするため、および予後判定のために、腫瘍メチロームを非侵襲的に、連続的に、且つ包括的に研究することができる。実施例は、あらゆるがん型、例えば、限定はされないが、肺がん、乳がん、結腸直腸がん、前立腺がん、鼻咽腔がん、胃がん、精巣がん、皮膚がん(例えばメラノーマ)、神経系に発症するがん、骨がん、卵巣がん、肝臓がん(例えば肝細胞癌)、造血器腫瘍、膵がん、子宮内膜癌(endometriocarcinoma)、腎がん、子宮頸がん、膀胱がん等に、適用することができる。
メチロームまたはメチル化特性を決定する方法の記述を最初に考察し、次に、種々のメチローム(例えば、胎児メチローム、腫瘍メチローム、母親または患者のメチローム、および混合メチローム(例えば、血漿から得られた))を記述する。次に、胎児特異的マーカーを用いる、または混合メチル化特性を細胞メチル化特性と比較することによる、胎児メチル化特性の決定を記述する。胎児メチル化マーカーはメチル化特性を比較することにより決定される。サイズおよびメチル化間の関連性を考察する。がんを検出するためのメチル化特性の使用も提供する。
I. メチロームの決定
胎盤メチロームを調べるために無数のアプローチが用いられているが、それぞれのアプローチには限界がある。例えば、亜硫酸水素ナトリウムは、非メチル化シトシン残基をウラシルに変化させ、メチル化シトシンを変化させない化学薬品であるが、これは、シトシンメチル化における差異を、さらなる照合のための遺伝子配列差異へと変換する。シトシンメチル化を研究するゴールドスタンダードな方法は、組織DNAを亜硫酸水素ナトリウムで処理し、その後、亜硫酸水素塩によって変換されたDNA分子の個々のクローンを直接配列決定することに基づいている。DNA分子の複数のクローンを解析した後、CpG部位あたりのシトシンメチル化のパターンおよび量的特性を得ることができる。しかし、クローニング化亜硫酸水素塩配列決定は、ゲノムワイドな規模に容易に応用することができない、ロースループットで非常に手間のかかる手順である。
非メチル化DNAを典型的に消化するメチル化感受性制限酵素は、DNAメチル化を研究するための安価なアプローチを提供する。しかし、そのような研究から得られたデータは、酵素認識モチーフを有する遺伝子座に限定されており、結果は非定量的である。抗メチル化シトシン抗体が結合したDNAの免疫沈降は、ゲノムの巨大なセグメントを調べるのに用いることができるが、抗体が高密度なメチル化を有する遺伝子座により強く結合することから、そのような領域に偏る傾向がある。マイクロアレイに基づくアプローチは、照合プローブの演繹的設計、並びに該プローブおよび標的DNA間のハイブリダイゼーション効率に依存している。
メチロームを包括的に調べるために、いくつかの実施形態では、大規模並列配列決定(massively parallel sequencing:MPS)を用いることで、1ヌクレオチドあたりおよび1対立遺伝子あたりのメチル化レベルのゲノムワイドな情報および定量的評価が与えられる。近年、亜硫酸水素塩変換後のゲノムワイドMPSが実行可能になった(R Lister et al 2008 Cell; 133: 523-536)。
ゲノムワイド亜硫酸水素塩配列決定をヒトメチロームの調査に応用した、小数の公表された研究(R Lister et al. 2009 Nature; 462: 315-322; L Laurent et al. 2010 Genome Res; 20: 320-331; Y Li et al. 2010 PLoS Biol; 8: e1000533;およびM Kulis et al. 2012 Nat Genet; 44: 1236-1242)のうち、2つの研究が、胚性幹細胞および胎児線維芽細胞に焦点を当てた(R Lister et al. 2009 Nature; 462: 315-322; L Laurent et al. 2010 Genome Res; 20: 320-331)。これらの研究は共に細胞系由来DNA分析した。
A. ゲノムワイド亜硫酸水素塩配列決定
ある特定の実施形態は、上記の問題を克服することが可能であり、胎児メチロームの照合を包括的、非侵襲、且つ連続的に可能にする。一実施形態では、妊娠女性の血行中に存在する無細胞胎児DNA分子を分析するために、ゲノムワイド亜硫酸水素塩配列決定が用いられた。血漿DNA分子が少量で断片化されていることから、母体血漿から高分解能胎児メチロームを構築することで、妊娠の進行に伴う変化を連続的に観察することができた。非侵襲的出生前検査(noninvasive prenatal testing:NIPT)への強い関心を考慮して、実施形態は、胎児生物マーカーを発見するための強力な新規の手段を提供する、または、胎児関連疾患もしくは妊娠関連疾患のNIPTを達成するための直接的なプラットフォームとして役立つことができる。胎児メチロームを得ることができる、種々の試料のゲノムワイド亜硫酸水素塩配列決定から得られたデータが、以下に提供される。一実施形態では、この科学技術は、子癇前症、または子宮内胎児発育遅延、または早産と合併した妊娠におけるメチル化プロファイリングに応用され得る。そのような合併妊娠において、この科学技術は、モニタリングおよび/または予後判定および/または治療に対する応答を可能にするために、その非浸潤的な性質から、連続的に用いることができる。
図1Aは、本発明の実施形態による、母体血、胎盤、および母体血漿の配列決定の、表100の結果を示している。一実施形態では、全ゲノム配列決定が、第一期に採取された血液試料の血液細胞、CVS、期間の終了時に採取された胎盤組織、第一期および第三期並びに産褥期に採取された母体血漿試料の、メチル化DNAライブラリーアダプター(イルミナ社)(R Lister et al. 2008 Cell; 133: 523-536)を用いて調製された、亜硫酸水素塩によって変換されたDNAライブラリーに対して、行われた。1人の成人男性および1人の成人非妊娠女性から得られた血液細胞および血漿DNA試料も分析した。合計95億対の生配列リードを本研究において作製した。各試料の配列決定被覆率は表100に示される。
ヒト参照ゲノムに唯一マッピング可能であった配列リードは、第一期、第三期および出産後の母体血漿試料において、それぞれ50倍、34倍および28倍の平均1倍体ゲノム被覆率に達した。ゲノム内のCpG部位の被覆率は、前記妊娠期間から得られた試料において、81%〜92%の範囲であった。CpG部位に広がる配列リードは、第一期、第三期および出産後の母体血漿試料において、それぞれ33倍/鎖、23倍/鎖および19倍/鎖の平均1倍体被覆率に達した。全ての試料の亜硫酸水素塩変換効率は99.9%超であった(表100)。
表100において、あいまいな割合(「a」と標識)は、参照ヒトゲノムのワトソン鎖およびクリック鎖の両方にマッピングされたリードの割合を指す。λ変換率は、亜硫酸水素塩修飾によって「チミン」残基に変換されている、内部λDNA対照における非メチル化シトシンの割合を指す。Hは一般的にA、C、またはTに等しい。「a」は、特定のゲノム遺伝子座にマッピングすることができるが、ワトソン鎖またはクリック鎖に割り当てることができない、リードを指す。「b」は、同一の開始および終止の位置情報(coordinate)を有するリード対を指す。「c」について、λDNAを亜硫酸水素塩変換の前に各試料にスパイクした。λ変換率は、亜硫酸水素塩変換後にシトシンとして残っているシトシンヌクレオチドの割合を指し、成功した亜硫酸水素塩変換の割合の指標として用いられる。「d」は、参照ヒトゲノム内に存在し、亜硫酸水素塩変換後にシトシン配列として残っている、シトシンヌクレオチドの数を指す。
亜硫酸水素塩修飾の間に、非メチル化シトシンはウラシルに変換され、その後PCR増幅後にチミンに変換されるが、一方、メチル化シトシンは未変化のまま残る(M Frommer et al. 1992 Proc Natl Acad Sci USA;89:1827-31)。従って、配列決定およびアライメントの後に、個々のCpG部位のメチル化状態は、CpG配列内のシトシン残基における、メチル化配列リード「M」(メチル化)の数および非メチル化配列リード「U」(非メチル化)の数から推測することができる。亜硫酸水素塩配列決定データを用いて、母体血、胎盤および母体血漿の全体のメチロームが構築された。母体血漿における特定の遺伝子座の平均メチル化CpG密度(メチル化密度MDとも称される)は、下記式を用いて算出することができ、
式中、Mは遺伝子座内のCpG部位におけるメチル化リードの数であり、Uは遺伝子座内のCpG部位における非メチル化リードの数である。座位内に2つ以上のCpG部位が存在する場合、およびUはそれらの部位の全体における数に一致する。
B. 様々な手法
上記のように、メチル化プロファイリングは、亜硫酸水素塩によって変換された血漿DNAの大規模並列配列決定(MPS)を用いて実行することができる。亜硫酸水素塩によって変換された血漿DNAのMPSは、ランダムまたはショットガン様式で実行することができる。配列決定の深度は、目的の領域のサイズに応じて変動し得る。
別の実施形態では、亜硫酸水素塩によって変換された血漿DNA内の目的の領域は、液相または固相ハイブリダイゼーションに基づくプロセス、その後のMPSを用いて、最初に捕捉され得る。大規模並列配列決定は、合成による配列決定(sequencing-by-synthesis)プラットフォーム(例えば、Illumina)、ライゲーションによる配列決定(sequencing-by-ligation)プラットフォーム(例えば、ライフテクノロジーズ社製のSOLiDプラットフォーム)、半導体ベースの配列決定システム(例えば、ライフテクノロジーズ社製のIon TorrentまたはIon Protonプラットフォーム)、または単一分子配列決定システム(例えば、HelicosシステムまたはPacific Biosciencesシステムまたはナノポアベース配列決定システム)を用いて実行することができる。ナノポアベース配列決定には、例えば、脂質二重層およびタンパク質ナノポアを用いて構築されたナノポア、並びに固体ナノポア(例えば、グラフェンベースのナノポア)が含まれる。選択された単一分子配列決定プラットフォームは、DNA分子のメチル化状態(例えば、N6−メチルアデニン、5−メチルシトシンおよび5−ヒロドキシメチルシトシン)を亜硫酸水素塩変換無しに直接的に解明できるようにするため(BA Flusberg et al. 2010 Nat Methods; 7: 461-465; J Shim et al. 2013 Sci Rep; 3:1389. doi: 10.1038/srep01389)、そのようなプラットフォームの使用は、亜硫酸水素塩によって変換されていない試料DNA(例えば血漿DNA)のメチル化状態の解析を可能にする。
配列決定に加えて、他の手法を用いることができる。一実施形態では、メチル化プロファイリングを、メチル化特異的PCRまたはメチル化感受性制限酵素消化、その後のPCRまたはリガーゼ連鎖反応、その後のPCRによって、行うことができる。さらに別の実施形態では、PCRは、単一分子またはデジタルPCRの形態である(B Vogelstein et al. 1999 Proc Natl Acad Sci USA; 96: 9236-9241)。さらに別の実施形態では、PCRは、リアルタイムPCRであり得る。他の実施形態では、PCRはマルチプレックスPCRであり得る。
II. メチロームの解析
いくつかの実施形態は、全ゲノム亜硫酸水素塩 配列決定を用いて、血漿DNAのメチル化特性を決定することができる。胎児のメチル化特性は、以下に記載される通りに母体血漿DNA試料を配列決定することによって決定することができる。従って、胎児DNA分子(および胎児メチローム)は、妊娠期間中に非侵襲的にアクセス可能であり、妊娠が進行するにつれて、変化が連続的にモニタリングされた。配列決定データの包括性のために、単一ヌクレオチド分解能において、ゲノムワイドな規模で母体血漿メチロームを研究することができた。
配列決定されたリードのゲノム位置情報は公知であったため、これらのデータによって、ゲノム内のメチロームまたはあらゆる目的領域の全体メチル化レベルの研究を可能にし、異なる遺伝因子間の比較を可能となった。さらに、複数の配列リードはそれぞれのCpG部位または座位を被覆した。メチロームを測定するのに用いられた測定基準のいくつかの説明を以下に記載する。
A. 血漿DNA分子のメチル化
DNA分子は、低濃度で、断片化された形態で、典型的には、モノヌクレオソーム単位に類似した長さで、ヒト血漿中に存在する(YMD Lo et al. 2010 Sci Transl Med; 2: 61ra91; and YW Zheng at al. 2012 Clin Chem; 58: 549-558)。これらの制限にもかかわらず、ゲノムワイド亜硫酸水素塩配列決定パイプラインは、血漿DNA分子のメチル化を解析することが可能であった。さらに別の実施形態では、選択された単一分子配列決定プラットフォームは、DNA分子のメチル化状態を亜硫酸水素塩変換無しに直接的に解明できるようにすることから(BA Flusberg et al. 2010 Nat Methods; 7: 461-465; J Shim et al. 2013 Sci Rep; 3:1389. doi: 10.1038/srep01389)、そのようなプラットフォームの使用は、亜硫酸水素塩によって変換されていない血漿DNAを、血漿DNAのメチル化レベルを測定するため、または血漿メチロームを測定するために用いることを可能にする。そのようなプラットフォームは、異なる形態のメチル化の異なる生物学的機能に関連した、結果の改善(例えば、感度または特異度の改善)をもたらし得る、N6−メチルアデニン、5−メチルシトシン、および5−ヒロドキシメチルシトシンを検出することができる。そのような結果の改善は、実施形態を特定の障害(例えば子癇前症)または特定のがん型の検出またはモニタリングに適用する場合に有用であり得る。
亜硫酸水素塩配列決定は、異なる形態のメチル化を識別することもできる。一実施形態では、亜硫酸水素塩配列決定は、5−メチルシトシンを5−ヒロドキシメチルシトシンと区別することが可能な追加のステップを含み得る。1つのそのようなアプローチは、酸化的亜硫酸水素塩配列決定(oxidative bisulfite sequencing:oxBS−seq)であり、これは、一塩基分解能で、5−メチルシトシンおよび5−ヒロドキシメチルシトシンの位置を明らかにすることができる(MJ Booth et al. 2012 Science; 336: 934-937; MJ Booth et al. 2013 Nature Protocols; 8: 1841-1851)。亜硫酸水素塩配列決定では、5−メチルシトシンおよび5−ヒロドキシメチルシトシンは共に、シトシンとして読まれるため、区別することができない。一方、oxBS−seqでは、過ルテニウム酸カリウム(KRuO4)による処理、続く亜硫酸水素塩変換を用いた新たに形成された5−ホルミルシトシンのウラシルへの変換による、5−ヒロドキシメチルシトシンの5−ホルミルシトシンへの特定の酸化は、5−ヒロドキシメチルシトシンを5−メチルシトシンから区別することを可能にする。従って、5−メチルシトシンの読み取りは1回のoxBS−seq実行から得ることができ、5−ヒロドキシメチルシトシンレベルは、亜硫酸水素塩配列決定の結果を比較することによって推定される。別の実施形態では、5−メチルシトシンは、Tet補助亜硫酸水素塩配列決定(Tet-assisted bisulfite sequencing:TAB−seq)を用いることで、5−ヒロドキシメチルシトシンと区別することができる(M Yu et al. 2012 Nat Protoc; 7: 2159-2170)。TAB−seqは、5−ヒロドキシメチルシトシンを一塩基分解能で特定することができ、それぞれの修飾部位におけるその存在量を決定することができる。この方法には、5−ヒロドキシメチルシトシンのβ−グルコシルトランスフェラーゼを介した保護(グルコシル化)、および5−メチルシトシンの5−カルボキシルシトシンへの組換えマウスTet1(mTet1)を介した酸化が含まれる。続く亜硫酸水素塩処理およびPCR増幅の後、シトシンおよび5−カルボキシルシトシン(5−メチルシトシン由来)は共に、チミン(T)に変換され、一方、5−ヒロドキシメチルシトシンはCとして読まれる。
図1Bは、本発明の実施形態に従って配列決定された試料の1Mbウィンドウ内のメチル化密度を示す。プロット150は、母体血漿およびゲノム全域の1Mbウィンドウ内のゲノムDNAにおけるメチル化密度を示すCircosプロットである。外側から内側に向かって:染色体模式図は、時計回りの方向でpter−qter配向であり得る:(セントロメアは赤色で示される)、母体血(赤色)、胎盤(黄色)、母体血漿(緑色)、母体血漿内の共有リード(青色)、および母体血漿内の胎児特異的リード(紫色)。母体血細胞、胎盤および母体血漿の全体のCpGメチル化レベル(すなわち、密度レベル)は、表100に見出すことができる。母体血細胞のメチル化レベルは、通常、全ゲノムにわたって、胎盤のメチル化レベルよりも高い。
B. 亜硫酸水素塩配列決定と他の手法の比較
大規模並列亜硫酸水素塩配列決定を用いて胎盤メチロームを研究した。さらに、ヒトゲノムにおける約480,000のCpG部位を網羅したオリゴヌクレオチドアレイプラットフォーム(イルミナ社)を用いて、胎盤メチロームを研究した(M Kulis et al. 2012 Nat Genet; 44: 1236-1242;およびC Clark et al. 2012 PLoS One; 7: e50233)。ビーズチップベースの遺伝子型同定およびメチル化解析を用いる一実施形態では、イルミナ社製HumanOmni2.5−8遺伝子型同定アレイを用い、製造業者のプロトコルに従って、遺伝子型同定を行った。遺伝子型は、Genome Studio Software(イルミナ社)のGenCallアルゴリズムを用いてコール(call)した。コールレイト(call rate)は99%超であった。マイクロアレイに基づくメチル化解析において、ゲノムDNA(500〜800ng)を、イルミナ社製Infinium Methylationアッセイ用に、製造業者の推奨に従って、Zymo EZ DNAメチル化キット(ジモ・リサーチ社(Zymo Research)、米国カリフォルニア州オレンジ)を用いて、亜硫酸水素ナトリウムで処理した。
Infinium HDメチル化アッセイプロトコルに従って、4μlの、亜硫酸水素塩によって変換されたゲノムDNA(50ng/μl)に対して、メチル化アッセイを行った。ハイブリダイズされたビーズチップをイルミナ社製iScan装置上でスキャンした。DNAメチル化データをGenomeStudio(v2011.1)Methylation Module(v1.9.0)ソフトウェアによって解析し、内部標準に対する正規化およびバックグラウンド除去も行った。個々のCpG部位のメチル化指数はβ値(β)によって表され、これは、メチル化対立遺伝子および非メチル化対立遺伝子の間の蛍光強度の比を用いて算出される:
アレイ上に表され、少なくとも10倍の被覆率に配列決定されたCpG部位について、アレイによって得られたβ値を、同一部位の配列決定によって決定されるメチル化指数と比較した。β値は、メチル化されたプローブの強度を、同一のCpG部位を被覆するメチル化プローブおよび非メチル化プローブの混合強度の比率として表した。各CpG部位のメチル化指数は、そのCpGを被覆するリードの総数に対するメチル化リードの比率を指す。
図2A〜図2Cは、両方のプラットフォームによって調べられた対応するCpG部位のゲノムワイド亜硫酸水素塩配列決定によって決定されたメチル化指数に対する、イルミナ社製Infinium HumanMethylation 450Kビーズチップアレイによって決定されたβ値のプロットを示している:(A)母体血細胞、(B)絨毛膜絨毛検体、(C)妊娠末期胎盤組織。両方のプラットフォームから得られたデータは高度に一致しており、母体血細胞、CVSおよび妊娠末期胎盤組織のそれぞれについて、ピアソン相関係数は0.972、0.939および0.954であり、R2値は0.945、0.882および0.910であった。
さらに、配列決定データを、約27,000のCpG部位を網羅するオリゴヌクレオチドアレイを用いて12対のCVSおよび母体血細胞DNA試料のメチル化特性を調べた、Chu et alによって報告された配列決定データと比較した(T Chu et al. 2011 PLoS One; 6: e14723)。CVSおよび母体血細胞DNA、並びに先の研究における12対の各試料の配列決定の結果の間の相関データによって、母体血において平均ピアソン係数(0.967)およびR2(0.935)が得られ、CVSにおいて平均ピアソン計数(0.943)およびR2(0.888)が得られた。両方のアレイ上に表されたCpG部位の中で、我々のデータは発表データと高度に相関していた。母体血細胞、CVSおよび胎盤組織において非CpGメチル化の割合は1%未満であった(表100)。これらの結果は、相当量の非CpGメチル化が主に多能性細胞に限定されたという現在の知見と一致した(R Lister et al. 2009 Nature; 462: 315-322; L Laurent et al. 2010 Genome Res; 20: 320-331)。
C. 非妊娠対象の血漿メチロームおよび血液メチロームの比較
図3Aおよび図3Bは、成人男性および非妊娠成人女性から採取された血漿および血液細胞における、メチル化されたCpG部位の割合の棒グラフを示している:(A)常染色体、(B)X染色体。図表は、男性および非妊娠女性の血漿メチロームおよび血液メチローム間の類似性を示している。男性および非妊娠女性の血漿試料におけるメチル化されたCpG部位の全体的な割合は、対応する血液細胞DNAとほぼ同じであった(表100並びに図2Aおよび図2B)。
次に、血漿試料および血液細胞試料のメチル化特性の座位特異的な相関を研究した。ヒトゲノムにおける各100kbのビンのメチル化密度を、100kb領域にマッピングされた配列リードによって被覆された全CpG部位の割合として、CpG部位における未変換シトシンの総数を決定することにより、決定した。メチル化密度は、男性および女性試料の血漿試料および対応する血液細胞DNAの間で高度に一致した。
図4Aおよび図4Bは、血液細胞DNAおよび血漿DNAにおける対応する遺伝子座のメチル化密度のプロットを示している:(A)非妊娠成人女性、(B)成人男性。非妊娠女性試料のピアソン相関係数およびR2値はそれぞれ0.963および0.927であり、男性試料のピアソン相関係数およびR2値はそれぞれ0.953および0.908であった。これらのデータは、造血細胞がヒト血漿におけるDNAの主な供給源であることを示した、同種間造血幹細胞移植の受容者の血漿DNA分子の遺伝子型評価に基づく先の知見(YW Zheng at al. 2012 Clin Chem; 58: 549-558)と一致している。
D. メチローム全般のメチル化レベル
次に、メチル化レベルを決定するために、母体血漿DNA、母体血細胞、および胎盤組織のDNAメチル化レベルを調べた。反復領域、非反復領域、および全域におけるレベルを決定した。
図5Aおよび図5Bは、妊娠女性から採取した試料間の、メチル化されたCpG部位の割合の棒グラフを示している:(A)常染色体、(B)X染色体。メチル化されたCpGsの全割合は、第一期および第三期の母体血漿試料において、それぞれ67.0%および68.2%であった。非妊娠個体から得られた結果とは異なり、これらの割合は第一期母体血細胞試料のそれよりも低かったが、CVSおよび妊娠末期胎盤組織検体のそれよりも高かった(表100)。注目すべきことに、出産後母体血漿試料におけるメチル化されたCpGの割合は73.1%であり、これは血液細胞データに類似していた(表100)。これらの傾向は、全ての常染色体およびX染色体にわたって分布するCpGにおいて観察され、ヒトゲノムの非反復領域および複数のクラスの反復領域の両方に及んだ。
胎盤における反復領域および非反復領域の両方は、母体血細胞と比較して低メチル化であることが分かった。これらの結果は、胎盤が他の組織(例えば、末梢血細胞)と比較して低メチル化であるという、文献中の知見と一致した。
妊娠女性、非妊娠女性および成人男性から得られた血液細胞DNAにおいて、配列決定されたCpG部位のうち71%〜72%がメチル化されていた(図1の表100)。これらのデータは、Y Li et al. 2010 PLoS Biol; 8: e1000533によって報告された、血中単核細胞のCpG部位の68.4%という報告と同程度である。胎盤組織の低メチル化性質に関する先の報告と一致して、CpG部位の55%および59%が、それぞれCVSおよび妊娠末期胎盤組織においてメチル化されていた(表100)。
図6は、母体血、胎盤および母体血漿における、ヒトゲノムの異なる反復クラスのメチル化レベルの棒グラフを示している。反復クラスはUCSCゲノムブラウザによって定義される。示されるデータは第一期試料から得られたものである。胎盤組織の低メチル化性質がゲノム内のある特定の反復クラスにおいて主に観察されたことを示す初期のデータ(B Novakovic et al. 2012 Placenta; 33: 959-970)と異なり、ここでは、胎盤が、血液細胞を基準にして、ゲノムエレメントの大部分のクラスにおいて実際は低メチル化状態であったことを示す。
E. メチロームの類似性
実施形態によって、同一のプラットフォームを用いて胎盤組織、血液細胞および血漿のメチロームを決定することができる。従って、それらの生物試料型のメチロームの直接比較が可能であった。男性および非妊娠女性における血液細胞および血漿のメチローム間、並びに母体血細胞および出産後母体血漿試料間の高レベルの類似によって、造血細胞がヒト血漿におけるDNAの主な供給源であることがさらに確認された(YW Zheng at al. 2012 Clin Chem; 58: 549-558)。
ゲノム内のメチル化CpGの全割合の点から、並びに血液細胞DNAおよび血漿DNAにおける対応する遺伝子座間のメチル化密度の高い相関から、類似は明らかである。しかし、第一期および第三期の母体血漿試料におけるメチル化CpGの全割合は、母体血細胞データまたは出産後母体血漿試料と比較した場合、減少していた。妊娠中のメチル化レベルの減少は、母体血漿内に存在する胎児DNA分子の低メチル化性質のためであった。
出産後母体血漿試料におけるメチル化特性が逆転して母体血細胞のメチル化特性により類似するようになったことは、胎児DNA分子が母体循環系から排除されたことを示唆している。胎児のSNPマーカーに基づいて胎児DNA濃度の算出したところ、確かに、濃度が出産前の33.9%から、出産後試料においてはほんの4.5%に変化したことが示された。
F. 他の応用
実施形態は、血漿DNAのMPS解析を通じて、DNAメチロームを構築することに成功している。母体血漿から胎盤メチロームまたは胎児メチロームを決定する能力は、子癇前症、子宮内胎児発育遅延、早産等の妊娠関連状態と関連する異常なメチル化特性を決定、検出およびモニタリングするための非浸潤的方法を提供する。例えば、疾患特異的な異常なメチル化サインの検出は、そのような妊娠関連状態の検診、診断およびモニタリングを可能にする。母体血漿メチル化レベルの測定は、そのような妊娠関連状態の検診、診断およびモニタリングを可能にする。妊娠関連状態の研究への直接適用に加えて、前期アプローチは、血漿DNA解析を目的とした他の医学領域に応用することができる。例えば、がんのメチロームは、がん患者の血漿DNAから決定することができる。本明細書に記載される、血漿からのがんメチローム解析は、血漿からのがんゲノム解析に対して相乗的な科学技術になり得る(KCA Chan at al. 2013 Clin Chem; 59: 211-224およびRJ Leary et al. 2012 Sci Transl Med; 4:162ra154)。
例えば、血漿試料のメチル化レベルの決定は、がんの検診に用いることができる。血漿試料のメチル化レベルが健常対照群と比較して異常なレベルを示す場合、がんが疑われ得る。その後、異なるゲノム遺伝子座におけるメチル化の血漿特性を決定することにより、または腫瘍関連性のコピー数異常、染色体転座および単一ヌクレオチド変異を検出するための血漿ゲノム解析により、がん型またはがんの組織起源のさらなる確認および評価を行ってもよい。実際に、本発明の一実施形態では、血漿におけるがんのメチロームおよびゲノムのプロファイリングは、同時に行うことができる。あるいは、放射線検査および画像診断検査(例えば、コンピュータ断層撮影、磁気共鳴画像法、陽電子断層撮影法)または内視鏡検査(例えば、上部消化管内視鏡検査または大腸内視鏡検査)を用いることで、血漿メチル化レベル解析に基づいてがんを有することが疑われた個体をさらに検査することができる。
がんの検診または検出において、血漿試料(または他の生物試料)のメチル化レベルの決定は、がんの検診または検出用の他の様式と併せて用いることができ、例えば、前立腺特異抗原測定(例えば、前立腺がん用)、癌胎児抗原(例えば、結腸直腸癌、胃癌、膵癌、肺癌、乳癌、甲状腺髄様癌用)、αフェトプロテイン(例えば、肝臓がんまたは胚細胞性腫瘍用)、CA125(例えば、卵巣がんおよび乳がん用)およびCA19−9(例えば、膵癌用)である。
さらに、他の組織を配列決定して細胞メチロームを得ることができる。例えば、肝組織を解析することで、肝臓に特異的なメチル化パターンを決定することができ、これを、肝臓病変を特定するのに用いてもよい。分析が可能である他の組織には、脳細胞、骨、肺、心臓、筋肉および腎臓等が含まれる。種々の組織のメチル化特性は、例えば、発生、加齢、疾患仮定(例えば、炎症または肝硬変または自己免疫過程(例えば、全身性エリテマトーデス))として、または処置(例えば、5−アザシチジンおよび5−アザデオキシシチジン等の脱メチル化剤での処置)の結果として、時に応じて変化し得る。DNAメチル化の動的性質は、生理学的プロセスおよび病理学的プロセスをモニタリングする上で、そのような解析を潜在的に非常に価値のあるものにしている。例えば、個体が健康であった時に得られたベースライン値と比較して個体の血漿メチロームにおける変化を検出する場合、血漿DNAを与える臓器における疾患仮定を検出することができる。
また、移植臓器のメチロームは、臓器移植受容者の血漿DNAから決定することができる。本発明に記載される、血漿からの移植片メチローム解析は、血漿からの移植片ゲノム解析に対する相乗的な科学技術となり得る(YW Zheng at al, 2012; YMD Lo at al. 1998 Lancet; 351: 1329-1330;およびTM Snyder et al. 2011 Proc Natl Acad Sci USA; 108: 6229-6234)。血漿DNAは一般的には細胞死のマーカーと見なされていることから、移植臓器から放出されたDNAの血漿内レベルの増加は、その臓器からの細胞死の増加、例えば、拒絶エピソードまたはその臓器に関わる他の病理過程(例えば、感染または膿瘍)に対するマーカーとして用いることができる。抗拒絶反応療法が上手く開始されたイベントにおいて、移植臓器によって放出されたDNAの血漿内レベルは、減少することが予測される。
III. SNPを用いた胎児メチロームまたは腫瘍メチロームの決定
上記のように、非妊娠健常人において、血漿メチロームは血液メチロームに一致する。しかし、妊娠女性においては、これらのメチロームは異なる。胎児DNA分子が、大部分の母体DNAバックグラウンドの中、母体血漿内を循環している(YMD Lo et al. 1998 Am J Hum Genet; 62: 768-775)。それ故、妊娠女性において、血漿メチロームは、大部分は胎盤メチロームおよび血液メチロームの混成である。従って、血漿から胎盤メチロームを抽出することができる。
一実施形態では、母親および胎児間の一塩基多型(SNP)の差異は、母体血漿中の胎児DNA分子を特定するために用いられる。母親がホモ接合性であるが胎児がヘテロ接合性であるSNP遺伝子座を特定することを目的としており;胎児特異的対立遺伝子を用いることで、どのDNA断片が胎児由来であるかを決定することができる。母体血細胞由来のゲノムDNAを、SNP遺伝子型同定アレイ、イルミナ社製HumanOmni2.5−8を用いて解析した。一方、母親がヘテロ接合性であり胎児がホモ接合性であるSNP遺伝子座については、母親に特異的なSNP対立遺伝子を用いることで、どの血漿DNA断片が母親由来であるかを決定することができる。そのようなDNA断片のメチル化レベルは、母親における関連ゲノム領域のメチル化レベルを反映する。
A. 胎児特異的リードのメチル化および胎盤メチロームの相関
一方の対立遺伝子(B)の量がもう一方の対立遺伝子(A)の量よりも有意に少ない、2つの異なる対立遺伝子を有する遺伝子座を、生物試料の配列決定の結果から特定した。B対立遺伝子を被覆するリードは胎児特異的(胎児特異的リード)と見なした。母親はAについてホモ接合性であり、胎児はA/Bについてヘテロ接合性であることが決定されたことから、A対立遺伝子を被覆するリードは母親および胎児によって共有されていた(共有リード)。
本発明における概要のいくつかを説明するために用いられた、解析された1つの妊娠症例において、妊娠中の母親は、常染色体上の1,945,516の遺伝子座においてホモ接合性であることが分かった。これらのSNPを被覆する母体血漿DNA塩基配列決定法のリードを検査した。非母体対立遺伝子を保有するリードが107,750の遺伝子座において検出され、これらは有益な遺伝子座であると見なされた。それぞれの有益なSNPにおいて、母親由来でなかった対立遺伝子は胎児特異的対立遺伝子と称され、その他の対立遺伝子は共有対立遺伝子と称された。
母体血漿中の胎児/腫瘍DNA濃度分率(胎児DNA割合とも称される)を決定することができる。一実施形態では、母体血漿中の胎児DNA濃度分率(f)は下記式によって決定され、
式中、pは胎児特異的対立遺伝子を有する配列決定されたリードの数であり、qは母親および胎児間で共有される対立遺伝子を有する配列決定されたリードの数である(YMD Lo et al. 2010 Sci Transl Med; 2: 61ra91)。第一期、第三期および出産後母体血漿試料における胎児DNA割合は、それぞれ14.4%、33.9%および4.5%であることが分かった。また、Y染色体に並んだリードの数を用いて、胎児DNA割合を算出した。Y染色体データに基づくと、結果は、第一期、第三期および出産後母体血漿試料中で、それぞれ14.2%、34.9%および3.7%であった。
胎児特異的配列リードまたは共有配列リードを別々に解析することにより、実施形態は、循環中の胎児DNA分子がバックグラウンドDNA分子よりもさらにより低メチル化状態であったことを示している。第一期および第三期の両方の胎児特異的母体血漿リードおよび胎盤組織データにおける対応する遺伝子座のメチル化密度の比較によって、高レベルの相関が明らかになった。これらのデータは、胎盤が母体血漿中の胎児由来DNA分子の主な供給源であるというゲノムレベルでの証拠を与え、選択された遺伝子座から得られる情報に基づく先の証拠と比較して、大きな進歩を示すものである。
ゲノム内の各1Mb領域のメチル化密度を、有益なSNPに隣接するCpG部位を被覆する胎児特異的リードまたは共有リードを用いて決定した。母体血漿配列リードから構築された胎児特異的メチロームおよび非胎児特異的メチロームは、例えばCircosプロットに、表示することができる(M Krzywinski et al. 2009 Genome Res; 19: 1639-1645)。母体血細胞および胎盤組織検体における1Mbのビンあたりのメチル化密度も決定した。
図7Aは、第一期試料のCircosプロット700を示している。図7Bは、第三期試料のCircosプロット750を示している。プロット700およびプロット750は1Mbのビンあたりのメチル化密度を示している。染色体模式図(最外側の環)は、時計回りの方向でpter−qter配向である(セントロメアは赤色で示される)。最外側から2番目のトラックは、対応する1Mb領域におけるCpG部位の数を示している。示される赤色バーのスケールは1Mbのビンあたり最大20,000部位である。対応する1Mb領域のメチル化密度は、中央に示される配色に基づいてその他のトラックに示される。
第一期試料(図7A)において、内側から外側に向かって、トラックは、絨毛膜絨毛検体、母体血漿中の胎児特異的リード、母体血漿中の母体特異的リード、母体血漿中の胎児リードおよび非胎児リードの組み合わせ、並びに母体血細胞である。第三期 試料(図7B)において、トラックは、妊娠末期胎盤組織、母体血漿中の胎児特異的リード、母体血漿中の母体特異的リード、母体血漿中の胎児リードおよび非胎児リードの組み合わせ、出産後母体血漿並びに母体血細胞(第一期血液試料から得られる)である。第一期および第三期の血漿試料の両方において、胎児メチロームは、非胎児特異的メチロームのメチル化状態よりも、より低メチル化状態であったことが理解できる。
胎児メチロームの全体的なメチル化特性は、CVSまたは胎盤組織検体のメチル化特性とよく似ていた。反対に、主に母体DNAであった血漿中の共有リードのDNAメチル化特性は、母体血細胞のメチル化特性とよく似ていた。次に、母体血漿DNAリードおよび母体組織または胎児組織のメチル化密度の系統的な座位ごとの比較を行った。同一の配列リード上に有益なSNPとして存在し、少なくとも5つの母体血漿DNA配列リードによって被覆された、CpG部位のメチル化密度を決定した。
図8A〜図8Dは、有益な一塩基多型を囲んでいるCpG部位についての、母体血漿DNAに対するゲノム組織DNAのメチル化密度の比較のプロットを示している。図8Aは、CVS試料中のリードのメチル化密度と比較した、第一期母体血漿試料中の胎児特異的リードのメチル化密度を示している。図に示すように、胎児特異的リードの値は、CVSリードの値とよく一致している。
図8Bは、妊娠末期胎盤組織のリードのメチル化密度と比較した、第三期母体血漿試料中の胎児特異的リードのメチル化密度を示している。再度、これら一組の密度はよく一致しているが、このことは、胎児メチル化特性が、胎児特異的対立遺伝子を有するリードを解析することによって得ることが可能であることを示している。
図8Cは、母体血細胞内のリードのメチル化密度と比較した、第一期母体血漿試料中の共有リードのメチル化密度を示している。共有リードの大部分が母親由来であることを考慮すると、これら2組の値はよく一致している。図8Dは、母体血細胞内のリードのメチル化密度と比較した、第三期母体血漿試料中の共有リードのメチル化密度を示している。
母体血漿中の胎児特異的リードにおいて、第一期母体血漿およびCVS間のスピアマン相関係数は0.705(P<2.2*e−16)であり;第三期母体血漿および妊娠末期胎盤組織間のスピアマン相関係数は0.796(P<2.2*e−16)であった(図8Aおよび図8B)。母体血漿中の共有リードと母体血細胞データについて、同様の比較を行った。第一期血漿試料においてピアソン相関係数は0.653(P<2.2*e−16)であり、第三期血漿試料においてピアソン相関係数は0.638(P<2.2*e−16)であった(図8Cおよび図8D)。
B. 胎児メチローム
一実施形態において、母体血漿から胎児メチロームを構築するため、少なくとも1つの有益な胎児SNP部位を被覆し、同一リード内に少なくとも1つのCpG部位を含有する配列リードを選別した。胎児特異的対立遺伝子を示したリードは、胎児メチロームの構築に含まれた。共有対立遺伝子(すなわち非胎児特異的対立遺伝子)を示したリードは、母体由来DNA分子から主に成る非胎児特異的メチロームの構築に含まれた。
第一期母体血漿試料の胎児特異的リードは、常染色体上の218,010のCpG部位を被覆した。第三期および出産後の母体血漿試料の対応する数字は、それぞれ、263,611および74,020であった。平均して、共有リードはそれらのCpG部位をそれぞれ、平均して33.3倍、21.7倍および26.3倍被覆した。第一期、第三期および出産後の母体血漿試料の胎児特異的リードは、それらのCpG部位をそれぞれ3.0倍、4.4倍および1.8倍被覆した。
胎児DNAは母体血漿中では小数の集団であるため、胎児特異的リードによるそれらのCpG部位の被覆率は、該試料の胎児DNA割合に比例した。第一期母体血漿試料において、胎児リード間のメチル化CpGの全体割合は47.0%であり、一方、共有リードのメチル化CpGの全体割合は68.1%であった。第三期母体血漿試料において、胎児リードのメチル化CpGの割合は53.3%であり、一方、共有リードのメチル化CpGの割合は68.8%であった。これらのデータにより、母体血漿中の胎児特異的リードが、母体血漿中の共有リードよりも、より低いメチル化状態であったことが示された。
C. 方法
上記の手法を用いることで、腫瘍メチル化特性を決定することもできる。胎児および腫瘍のメチル化特性を決定する方法を以下に記載する。
図9は、本発明の実施形態に従って、生物の生物試料から第一のメチル化特性を決定するための方法900を示している、フローチャートである。方法900は、母体血漿のメチル化特性から胎児のエピジェネティックマップを構築することができる。生物試料には、第一組織由来および第二組織由来の無細胞DNAの混合物を含む無細胞DNAが含まれる。例として、第一組織は胎児、腫瘍、または移植臓器から得ることができる。
ブロック910において、複数のDNA分子が生物試料から解析される。DNA分子の解析には、生物のゲノム内のDNA分子の位置を決定すること、DNA分子の遺伝子型を決定すること、およびDNA分子が一つまたは複数の部位においてメチル化されているかどうかを決定すること、が含まれ得る。
一実施形態では、DNA分子は、DNA分子の配列リードを用いて解析され、そこでの配列決定ではメチル化が認識される。従って、配列リードは、生物試料由来のDNA分子メチル化状態を含む。メチル化状態は、特定のシトシン残基が5−メチルシトシンまたは5−ヒロドキシメチルシトシンであるかどうか、を含み得る。配列リードは、種々の配列決定法、PCR法、アレイ、および断片の配列を特定するための他の適切な手法から得ることができる。配列リードの部位のメチル化状態は、本明細書に記載の通りに得ることができる。
ブロック920において、第一組織の第一ゲノムがそれぞれの第一対立遺伝子およびそれぞれの第二対立遺伝子についてヘテロ接合性であり、第二組織の第二ゲノムがそれぞれの第一対立遺伝子についてホモ接合性である、複数の第一遺伝子座が特定される。例えば、胎児特異的リードは、複数の第一遺伝子座において特定され得る。あるいは、腫瘍特異的リードは、複数の第一遺伝子座において特定され得る。組織特異的リードは、第二対立遺伝子の配列リードの割合が特定の範囲、例えば、約3%〜25%の範囲に入り、それにより、その座位におけるヘテロ接合性ゲノム由来のDNA断片が小数の集団であり、その座位におけるホモ接合性ゲノム由来のDNA断片が大多数の集団であることが示される、配列決定リードから特定することができる。
ブロック930において、各第一座位の一つまたは複数の部位に位置するDNA分子が解析される。部位においてメチル化されており、その座位の各第二対立遺伝子に対応するいくつかのDNA分子が決定される。座位あたりに2つ以上の部位が存在し得る。例えば、SNPは、断片が胎児特異的であること、および断片がメチル化状態が決定されている複数の部位を有し得ることを示し得る。メチル化された各部位におけるリードの数を決定することができ、その座位のメチル化リードの総数を決定することができる。
座位は、特定の数の部位、特定の一連の部位、または組織特異的対立遺伝子を含む変異の周囲の領域の具体的なのサイズによって定義され得る。座位はただ1つの部位を有し得る。部位は特定の性質を有し得、例えば、CpG部位であり得る。非メチル化されたリードの数の決定は同じであり、メチル化状態の決定に包含される。
ブロック940において、第一遺伝子座のそれぞれについて、その座位の一つまたは複数の部位においてメチル化され、その座位のそれぞれの第二対立遺伝子に対応するDNA分子の数に基づいて、メチル化密度が算出される。例えば、座位に対応するCpG部位のメチル化密度を決定することができる。
ブロック950において、第一組織の第一メチル化特性は、第一遺伝子座のメチル化密度から作成される。第一メチル化特性は、特定の部位、例えば、CpG部位に対応し得る。メチル化特性は、胎児特異的対立遺伝子を有する全ての遺伝子座、またはそれらの遺伝子座のほんのいくつかのものであり得る。
IV. 血漿メチロームおよび血液メチロームの差異の使用
上記において、血漿由来の胎児特異的リードが胎盤メチロームと相関することが示された。母体血漿メチロームの母体成分は主に血液細胞によって与えられるため、血漿メチロームおよび血液メチローム間の差異を用いることで、胎児特異的対立遺伝子の位置だけでなく、全ての遺伝子座の胎盤メチロームを決定することができる。血漿メチロームおよび血液メチローム間の差異を用いることで、腫瘍のメチロームを決定することもできる。
A. 方法
図10は、本発明の実施形態に従って、生物の生物試料から第一メチル化特性を決定する方法1000を示す、フローチャートである。生物試料(例えば、血漿)には、第一組織由来および第二組織由来の無細胞DNAの混合物を含む無細胞DNAが含まれる。第一メチル化特性は、第一組織(例えば、胎児組織または腫瘍組織)のメチル化特性に対応する。方法1200は、母体血漿由来の示差的にメチル化された領域の推論を可能にし得る。
ブロック1010において、生物試料が受け取られる。生物試料は、装置(例えば、配列決定装置)において単純に受け取られ得る。生物試料は、生物から入手された形態であってもよいし、あるいは加工された形態であってもよく、例えば、試料は血液試料から抽出された血漿であってもよい。
ブロック1020において、第二組織のDNAに対応する第二メチル化特性が得られる。第二メチル化特性は、以前に決定されているため、メモリーから読まれ得る。第二メチル化特性は、第二組織(例えば、第二組織の細胞を唯一または主に含有する異なる試料)から決定することができる。第二メチル化特性は、細胞メチル化特性に対応し得、細胞DNAから得ることができる。別の例として、第二特性は、妊娠前に、あるいは、がんを有さない非妊娠者の血漿メチロームは血液細胞のメチロームと非常に似ていることから、がんの発達の前に、採取された血漿試料から決定することができる。
第二メチル化特性は、生物のゲノム内の複数の遺伝子座のそれぞれにおけるメチル化密度を与え得る。特定の座位におけるメチル化密度は、メチル化された第二組織のDNAの割合に対応する。一実施形態では、メチル化密度はCpGメチル化密度であり、そこでは、座位と関連するCpG部位はメチル化密度を決定するために用いられる。座位に1つの部位が存在する場合、メチル化密度はメチル化指数と同じであり得る。メチル化密度および非メチル化密度の値は相補的であることから、メチル化密度は非メチル化密度にも対応する。
一実施形態では、生物の試料由来の細胞DNAのメチル化認識配列決定を行うことにより、第二メチル化特性が得られる。メチル化認識配列決定の一例は、DNAを亜硫酸水素ナトリウムで処理し、次にDNA塩基配列決定法を行うことを含む。別の例では、メチル化認識配列決定は、亜硫酸水素ナトリウムを用いずに、DNA分子のメチル化状態(例えば、N6−メチルアデニン、5−メチルシトシンおよび5−ヒロドキシメチルシトシン)を亜硫酸水素塩変換無しに直接的に解明することを可能にする単一分子配列決定プラットフォームを用いて(AB Flusberg et al. 2010 Nat Methods; 7: 461-465; J Shim et al. 2013 Sci Rep; 3:1389. doi: 10.1038/srep01389);または、メチル化シトシンの免疫沈降(例えば、メチルシトシンに対する抗体を用いることによる、またはメチル化されたDNA結合タンパク質もしくはペプチドを用いることによる)(LG Acevedo et al. 2011 Epigenomics; 3: 93-101)、その後の配列決定によって;または、メチル化感受性制限酵素の使用、その後の配列決定によって、行うことができる。別の実施形態では、アレイ、デジタルPCRおよび質量分析等の、非配列決定法が用いられる。
別の実施形態では、第二組織の第二メチル化密度は、対象の対照試料から、または他の対象から、予め得ることができる。別の対象からのメチル化密度は、参照メチル化密度を有する参照メチル化特性として役立ち得る。参照メチル化密度は、複数の試料から決定することができ、そこでは、座位における異なるメチル化密度の平均レベル(または他の統計値)がその座位における参照メチル化密度として用いられ得る。
ブロック1030において、混合物の無細胞DNAから無細胞メチル化特性が決定される。無細胞メチル化特性は、複数個の遺伝子座のそれぞれにおけるメチル化密度を与える。無細胞メチル化特性は、無細胞DNAの配列決定から配列リードを得て、該配列リードを用いてメチル化情報を得ることにより、決定することができる。無細胞メチル化特性は、細胞メチロームと同様に決定することができる。
ブロック1040において、生物試料内の第一組織由来の無細胞DNAの割合が決定される。一実施形態では、第一組織は胎児組織であり、対応するDNAは胎児DNAである。別の実施形態では、第一組織は腫瘍組織であり、対応するDNAは腫瘍DNAである。割合は、様々な方法で、例えば、胎児特異的対立遺伝子または腫瘍特異的対立遺伝子を用いて、決定することができる。コピー数を用いることで、例えば、3013年3月13日に出願された、「Mutational Analysis Of Plasma DNA For Cancer Detection」という題名の米国特許出願公開第13/801,748号(参照によって組み込まれる)に記載されるように、割合を決定することもできる。
ブロック1050において、第一メチロームを決定するための複数の遺伝子座が特定される。これらの遺伝子座は、無細胞メチル化特性および第二メチル化特性を決定するために用いられる各遺伝子座に対応し得る。従って、複数個の遺伝子座は一致し得る。無細胞メチル化特性および第二メチル化特性を決定するためにより多くの遺伝子座を用いることができる可能性がある。
いくつかの実施形態において、第二メチル化特性において高度メチル化または低メチル化された遺伝子座は、例えば、母体血細胞を用いて特定することができる。母体血細胞において高度メチル化された遺伝子座を特定するために、X%以上(例えば、80%)のメチル化指数を有するCpG部位が染色体の片端から走査され得る。次に、下流領域内(例えば、200bpの下流内)の次のCpG部位が探索され得る。すぐ下流のCpG部位がX%以上(または他の特定の量)のメチル化指数を有していた場合、第一CpG部位および第二CpG部位はグループ化され得る。次の下流領域内に他のCpG部位が存在しなくなるまで;またはすぐ下流のCpG部位がX%未満のメチル化指数を有するまで、グループ化は継続され得る。グループ化されたCpG部位の領域は、領域が少なくとも5つの直接隣接した高度メチル化CpG部位を含有している場合に、母体血細胞において高度メチル化されていると報告され得る。同様の解析を行うことで、20%以下のメチル化指数を有すするCpG部位について、母体血細胞において低メチル化状態の遺伝子座を探索することができる。第二メチル化特性のメチル化密度は、短く収載された(short-listed)遺伝子座について算出することができ、対応する遺伝子座の第一メチル化特性(例えば、胎盤組織メチル化密度)を、例えば、母体血漿亜硫酸水素塩配列決定データから、推定するのに用いることができる。
ブロック1060において、第一組織の第一メチル化特性は、複数個の遺伝子座のそれぞれについて第二メチル化特性のメチル化密度および無細胞メチル化特性のメチル化密度間の差異を含む示差パラメーターを算出することによって、決定される。差異は割合に応じて決定される。
一実施形態では、第一(例えば、胎盤)組織における座位の第一メチル化密度(D)は、下記式を用いて推定され、
式中、mbcは、座位(例えば、母体血細胞の亜硫酸水素塩配列決定データにおいて決定される短く収載された座位)における第二メチル化特性のメチル化密度を示し;mpは、母体血漿の亜硫酸水素塩配列決定データにおける対応する座位のメチル化密度を示し;fは、第一組織由来の無細胞DNAの割合(例えば、胎児DNA濃度分率)を示し、CNは、座位におけるコピー数(例えば、正常と比較した場合の、より高い増幅値またはより少ない欠失数)を示す。第一組織に増幅も欠失も存在しない場合、CNは1つであり得る。トリソミー(すなわち、腫瘍または胎児における領域の重複)において、CNは1.5であり(増加は2コピーから3コピーであるため)、モノソミーは0.5を有する。より高度な増幅は、0.5の値ずつ増加し得る。この例において、Dは示差パラメーターに対応し得る。
ブロック1070において、第一組織の補正第一メチル化密度を得るために、第一メチル化密度が変換される。変換は、示差パラメーターおよび第一組織の実際のメチル化特性間の固定された差異を与え得る。例えば、前記値は、固定された定数ずつ、または勾配ずつ、異なり得る。変換は線形または非線形であり得る。
一実施形態では、推定値Dの分布は、胎盤組織の実際のメチル化レベルよりも低いことが分かった。例えば、推定値は、CpG部位が過剰出現したゲノム分節であるCG島から得られたデータを用いて線形に変換され得る。本研究で用いられるCG島のゲノム位置は、UCSC Genome Browserデータベース(NCBI build 36/hg18)から得られた(PA Fujita et al. 2011 Nucleic Acids Res; 39: D876-882)。例えば、CG島は、50%以上のGC含量、200bp超のゲノム長および0.6超の測定/予測CpG数比を有するゲノム分節として定義され得る(M Gardiner-Garden et al 1987 J Mol Biol; 196: 261-282)。
ある実施において、線形変換式を得るために、少なくとも4つのCpG部位および配列決定された試料内のCpG部位あたり5以上の平均読み深度を有するCG島が含まれ得る。CVSまたは妊娠末期胎盤におけるCG島のメチル化密度および推定値Dの間の直線関係を決定した後、下記式を用いて予測値を決定した:
第一期予測値=D×1.6+0.2
第三期予測値=D×1.2+0.05
B. 胎児の例
上記のように、方法1000を用いることで、母体血漿から胎盤のメチル化状況を推定することができる。血漿中の循環DNAは、主に造血細胞に由来する。なお、未知の他の内部臓器から与えられる無細胞DNAの割合は未知である。さらに、胎盤由来無細胞DNAは、母体血漿中の全DNAのおよそ5〜40%を占め、平均値はおよそ15%である。従って、母体血漿中のメチル化レベルは、上記のように、既存のバックグラウンドのメチル化+妊娠中の胎盤の寄与に等しいと仮定することができる。
母体血漿メチル化レベルMPは、下記式を用いて決定することができ、
式中、BKGは血液細胞および内部臓器から得られる血漿中のバックグラウンドのDNAメチル化レベルであり、PLNは胎盤のメチル化レベルであり、fは母体血漿中の胎児DNA濃度分率である。
一実施形態では、胎盤のメチル化レベルは下記式によって理論上は推定することができる。
式(1)および式(2)は、CNが1に等しく、DがPLNに等しく、BKGがmbcに等しい場合に、等しい。別の実施形態では、胎児DNA濃度分率は、特定の値に仮定または設定することができる(例えば、最小値fが存在するという仮定の一環として)。
母体血のメチル化レベルは、母体血漿のバックグラウンドメチル化を表すものと見なした。母体血細胞において高度メチル化または低メチル化された遺伝子座に加えて、臨床的関連性を有する定義された領域、例えば、ヒトゲノム内のCG島に焦点を当てることにより、推定アプローチをさらに求めた。
常染色体およびX染色体上の合計27,458のCG島(NCBI Build36/hg18)の平均メチル化密度を、母体血漿および胎盤の配列決定データから得た。胎盤、母体血および母体血漿を含む全ての分析試料における、10以上の被覆CpG部位および被覆CpG部位あたり5以上の平均読み深度を有するCG島のみを選別した。結果として、26,698のCG島(97.2%)が妥当なものとして残り、それらのメチル化レベルを、上記式に従って、血漿メチル化データおよび胎児DNA濃度分率を用いて推定した。
推定PLN値の分布が胎盤組織におけるCG島の実際のメチル化レベルよりも低かったことが注目された。従って、一実施形態では、推定PLN値、または単に推定値(D)は、胎盤におけるCG島のメチル化レベルを推定するための、任意の単位として用いられた。変換後、線形的に推定された値およびそれらの分布は、実際のデータセットにより類似したものとなった。変換した推定値はメチル化予測値(methylation predictive value:MPV)と命名され、その後、胎盤における遺伝子座のメチル化レベルを予測するために用いられた。
この例において、CG島は、胎盤におけるそれらのメチル化密度に基づいて3つのカテゴリーに分類された:低(0.4以下)、中(0.4超〜0.8未満)および高(0.8以上)。推定式を用いて、同じ一連のCG島のMPVを算出し、次に、その値を用いて、CG島を同一のカットオフで3つのカテゴリーに分類した。実際のデータセットおよび推定データセットを比較することにより、短く収載されたCG島の75.1%が、それらのMPVによる組織データにおける同一のカテゴリーに正確に一致し得ることが分かった。CG島の約22%が1レベルの差異(高対中、または中対低)を有するグループに割り当てられ、3%未満が完全に誤って分類された(高対低)図12A)。また、全体的な分類性能が決定された:胎盤において0.4以上、0.4超〜0.8未満および0.8以上のメチル化密度を有する86.1%、31.4%および68.8%のCG島は、「低」、「中」および「高」と正確に推定された(図12B)。
図11Aおよび図11Bは、本発明の実施形態による、母体血漿データおよび胎児DNA濃度分率を用いた予測アルゴリズムの実行のグラフを示している。図11Aは、MPV補正分類(推定カテゴリーは実際のデータセットと正確に一致);1レベルの差異(推定カテゴリーは実際のデータセットから1レベル異なる);誤分類(推定カテゴリーは実際のデータセットと反対)を用いた、CG島分類の正確さを示すグラフ1100である。図11Bは、各推定カテゴリーに分類されたCG島の割合を示すグラフ1150である。
母体バックグラウンドメチル化がそれぞれのゲノム領域において低度であるならば、循環血液中の高度メチル化胎盤由来DNAの存在は、全体的な血漿メチル化レベルを胎児DNA濃度分率に応じた程度まで増加させる。放出される胎児DNAが十分にメチル化されている場合、顕著な変化が観察され得る。反対に、母体バックグラウンドメチル化が高度である場合、血漿メチル化レベルにおける変化の程度は、低メチル化胎児DNAが放出された場合により有意になる。従って、推定スキームは、メチル化レベルが母体バックグラウンドおよび胎盤間で異なることが知られている遺伝子座について、特に、高度メチル化された遺伝子座および胎盤における低メチル化マーカーについて推定される場合に、より実際的になり得る。
図12Aは、本発明の実施形態に従った、メチル化予測のための、15の選択されたゲノム遺伝子座の詳細を示す、表1200である。手法を確認するために、先に研究されている、15の示差的にメチル化されたゲノム遺伝子座を選択した。選択された領域のメチル化レベルを推定し、先に研究された15の示差的にメチル化された遺伝子座と比較した(RWK Chiu et al. 2007 Am J Pathol; 170: 941-950; S.S.C. Chim et al. 2008 Clin Chem; 54: 500-511; SSC Chim et al. 2005 Proc Natl Acad Sci U S A; 102: 14753-14758; DWY Tsui et al. 2010 PLoS One; 5: e15069)。
図12Bは、15の選択されたゲノム遺伝子座および胎盤におけるそれらの対応するメチル化レベルの推定カテゴリーを示すグラフ1250である。推定されたメチル化カテゴリーは、低、0.4以下;中、0.4超〜0.8未満;高、0.8以上である。表1200およびグラフ1300は、胎盤におけるそれらのメチル化レベルが、いくつかの例外(RASSF1A、CGI009、CGI137およびVAPA)を有して、正確に推定され得ることを示している。これらの4つのマーカーのうち、CGI009のみが、実際のデータセットとの顕著な矛盾を示した。その他はわずかに誤分類されたのみである。
表1200において、「1」は、下記式によって算出される推定値(D)を指し、
式中、fは胎児DNA濃度分率である。標識「2」は、式:MPV=D×1.6+0.25を用いる、線形変換された推定値を指している、メチル化予測値(MPV)を指す。標識「3」は、推定値に対する分類カットオフ(classification cutoff)を指す:低、0.4以下;中、0.4超〜0.8未満;高、0.8以上。標識「4」は、実際の胎盤データセットに対する分類カットオフを指す:低、0.4以下;中、0.4超〜0.8未満;高、0.8以上。標識「5」は、胎盤状態が母体血細胞のメチル化状態と比較した胎盤のメチル化状態を指すことを表している。
C. 胎児DNAの濃度分率の算出
一実施形態では、第一組織由来の胎児DNAの割合は、男児胎児のY染色体を用いることができる。母体血漿試料中のY染色体配列の割合(Y染色体率)は、男児胎児由来のY染色体リードおよびY染色体に誤整列した母体(女性)リードの数の混成であった(RWK Chiu et al. 2011 BMJ; 342: c7401)。従って、試料中のY染色体率および胎児DNA濃度分率(f)間の関連性は、以下で与えられ得、
式中、%chrYmale(Y染色体率(男性))は、100%の男性DNAを含有する血漿試料中のY染色体に整列したリードの割合を指し;%chrYfemale(Y染色体率(女性))は、100%の女性DNAを含有する血漿試料中のY染色体に整列したリードの割合を指す。
Y染色体率は、男児胎児を妊娠した女性から得られた試料のミスマッチを有さずにY染色体に整列したリードから決定することができ、例えば、該リードは亜硫酸水素塩によって変換された試料から得られるものである。%chrYmale値は、2つの成人男性血漿試料の亜硫酸水素塩配列決定から得ることができる。%chrYfemale値は、2つの非妊娠成人女性血漿試料の亜硫酸水素塩配列決定から得ることができる。
他の実施形態では、胎児DNA率は、常染色体上の胎児特異的対立遺伝子から決定することができる。別の例として、エピジェネティックマーカーを用いて、胎児DNA率を決定してもよい。胎児DNA率を決定する他の方法を用いてもよい。
D. メチル化を用いてコピー数を決定する方法
胎盤ゲノムは母体ゲノムよりもより低メチル化状態である。前述の通り、妊娠女性の血漿のメチル化は、母体血漿中の胎盤由来胎児DNAの濃度分率に依存する。従って、染色体領域のメチル化密度の解析を通じて、胎児組織の母体血漿への寄与における差異を検出することが可能である。例えば、トリソミー胎児(例えば、トリソミー21またはトリソミー18またはトリソミー13を抱える胎児)を身籠っている妊娠女性において、胎児は、二染色体性染色体と比較した場合に、三染色体性染色体から母体血漿にさらなる量のDNAを与える。この状況において、三染色体性染色体(または増幅を有するあらゆる染色体領域)の血漿メチル化密度は、二染色体性染色体のそれよりもより低くなる。差異の程度は、血漿試料中の胎児DNA濃度分率を考慮することにより、数学的計算によって予測することができる。血漿試料中の胎児DNA濃度分率が高くなるほどに三染色体性染色体および二染色体性染色体間のメチル化密度における差異はより大きなものになる。欠失を有する領域については、メチル化密度はより高くなる。
欠失の1例は、女性胎児が1コピーのX染色体しか有さない場合のターナー症候群である。この状況では、ターナー症候群を抱える胎児を身籠る妊娠女性においては、血漿DNA中のX染色体のメチル化密度は、正常な数のX染色体を有する女性胎児を身籠る同じ妊娠女性の状況よりも高くなる。この戦略の一実施形態では、Y染色体配列の存在または不在について、母体血漿が最初に解析され得る(例えば、MPSまたはPCRに基づく手法を用いて)。Y染色体配列が存在する場合、胎児は男性に分類され得、その後の解析は必要ではない。一方、Y染色体配列が母体血漿中に存在しない場合、胎児は女性に分類され得る。この状況では、母体血漿中のX染色体のメチル化密度が次に解析され得る。正常よりも高いX染色体メチル化密度は、胎児がターナー症候群を有するリスクが高いことを示す。このアプローチは、その他の性染色体異数性にも応用することができる。例えば、XYYを有する胎児において、母体血漿中のY染色体のメチル化密度は、母体血漿中に同様のレベルの胎児DNAを有する正常なXY胎児のそれよりも低くなる。別の例として、クラインフェルター症候群(XXY)を抱える胎児においては、Y染色体配列は母体血漿中に存在するが、母体血漿中のX染色体のメチル化密度は、母体血漿中に同様のレベルの胎児DNAを有する正常なXY胎児のそれよりも低くなる。
先の考察から、二染色体性染色体の血漿メチル化密度(MPNon-aneu(非異数))は、
として算出することができ、式中、BKGは血液細胞および内部臓器由来の血漿中のバックグラウンドDNAメチル化レベルであり、PLNは胎盤のメチル化レベルであり、fは母体血漿中の胎児DNA濃度分率である。
三染色体性染色体の血漿メチル化密度(MPAneu(異数))は、
として算出することができ、式中、1.5はコピー数CNに対応し、もう1つの染色体の追加は50%の増加となる。三染色体性染色体および二染色体性染色体間の差異(MPDiff)は、以下となる。
一実施形態では、潜在的に異数体の染色体(または染色体領域)のメチル化密度の、一つまたは複数の他の推定非異数体染色体またはゲノムの全体のメチル化密度に対する比較は、血漿試料中の胎児DNA濃度を効率的に正規化するために使用することができる。前記比較は、正規化されたメチル化密度を得るための、それら2つの領域のメチル化密度の間のパラメーター(例えば、比または差異を含む)の算出によるものであり得る。前記比較は、得られるメチル化レベルの依存(例えば、それら2つのメチル化密度からパラメーターとして決定される)を排除することができる。
潜在的に異数体の染色体のメチル化密度が一つもしくは複数の他の染色体のメチル化密度、または胎児DNAの濃度分率を反映する他のパラメーターに対して正規化されていない場合、濃度分率は血漿中のメチル化密度に影響を与える主な要因となる。例えば、10%の胎児DNA濃度分率を有するトリソミー21胎児を身籠る妊娠女性の21番染色体の血漿メチル化密度は、正倍数体胎児を身籠る妊娠女性のそれと同じであり、胎児DNA濃度分率は15%であるが、正規化されたメチル化密度は差異を示す。
別の実施形態では、潜在的に異数体の染色体のメチル化密度は、胎児DNA濃度分率に対して正規化され得る。
例えば、下記式は、メチル化密度を正規化するために適用することができ、
式中、MPNormalized(正規化)は血漿中の胎児DNA濃度分率を用いて正規化されたメチル化密度であり、MPnon-normalized(非正規化)は測定メチル化密度であり、BKGは母体血細胞または組織から得られるバックグラウンドメチル化密度であり、PLNは胎盤組織におけるメチル化密度であり、fは胎児DNA濃度分率である。BKGおよびPLNのメチル化密度は、正常妊娠女性から得られた母体血細胞および胎盤組織から先に確立された基準値に基づき得る。様々な遺伝学およびエピジェネティクスの手法を用いることで、例えば、非亜硫酸水素塩変換DNAに対する大規模並列配列決定またはPCRを用いた、Y染色体からの配列リードの割合の測定によって、血漿試料中の胎児DNA濃度分率を決定することができる。
ある実施では、潜在的に異数体の染色体の正規化されたメチル化密度は、正倍数体胎児を身籠る妊娠女性から成る参照群と比較され得る。参照群の正規化されたメチル化密度の平均値およびSDが決定され得る。次に、検査症例の正規化されたメチル化密度が、下記式による参照群の平均値からのSDの数字を示すZ値として表され得、
式中、MPNormalizedは検査症例の正規化されたメチル化密度であり、Mean(平均値)は参照症例の正規化されたメチル化密度の平均値であり、SDは参照症例の正規化されたメチル化密度の標準偏差である。カットオフ(例えば、−3未満のZ値)を用いることで、染色体有意に低メチル化されているかどうかを分類することができ、それにより、試料の異数体状態を決定することができる。
別の実施形態では、MPDiffは、正規化されたメチル化密度として用いられ得る。そのような実施形態では、PLNは、例えば方法1000を用いて、推定され得る。いくつかの実施において、参照メチル化密度(fを用いて正規化することができる)は、非異数体領域のメチル化レベルから決定され得る。例えば、Mean(平均値)は、同一試料の一つまたは複数の染色体領域から決定され得る。カットオフは、fに応じて決定されるか、または単に、最低濃度が存在するに足る充分なレベルに設定される。
従って、カットオフに対する領域のメチル化レベルの比較は、様々な方法で達成することができる。比較は正規化(例えば、上記のような)を含み得、正規化は、メチル化レベルまたはカットオフ値に対して、それらの値が定義された方法に応じて、等しく行われ得る。従って、領域の決定されたメチル化レベルが基準レベル(同一試料または他の試料から決定)と統計学的に異なるかどうかは、様々な方法で決定することができる。
上記解析は、染色体全体または染色体の部分(例えば、染色体の近接したまたはばらばらの小領域)を含み得る、染色体領域の解析に応用することができる。一実施形態では、潜在的に異数体の染色体は、いくつかのビンに分割され得る。ビンは同じまたは異なるサイズのものであり得る。各ビンのメチル化密度は、試料の濃度分率に対して、または一つもしくは複数の推定非異数体染色体のメチル化密度もしくはゲノムの全体的なメチル化密度に対して、正規化され得る。各ビンの正規化されたメチル化密度は次に、有意に低メチル化されているかどうかを決定するために参照群と比較され得る。次に、有意に低メチル化されているビンの割合が決定され得る。カットオフ(例えば、ビンの5%、10%、15%、20%または30%超が有意に低メチル化されている)は、症例の異数体状態を分類するために用いられ得る。
増幅または欠失について検査する場合、メチル化密度は参照メチル化密度と比較され得、これは、検査される特定の領域に特異的であり得る。メチル化は領域によって、特に、領域のサイズに応じて(例えば、より小さな領域ほどより大きな変動を示す)異なり得るため、各領域は異なる参照メチル化密度を有し得る。
上記のように、正倍数体胎児をそれぞれ身籠る一人または複数人の妊娠女性を用いることで、目的領域のメチル化密度の正常範囲、または2つの染色体領域間のメチル化密度におけるまたは差異を定義することができる。PLNの正常範囲を決定することもできる(例えば、直接測定によって、または方法1000による推定値として)。他の実施形態では、2つのメチル化密度の間の比が用いられ得、例えば、潜在的に異数体の染色体および非異数体染色体のメチル化密度が、それらの差異の代わりに解析に用いられ得る。このメチル化解析アプローチを、配列リード計数アプローチ(RWK Chiu et al. 2008 Proc Natl Acad Sci USA;105:20458-20463)および血漿DNAのサイズ解析を含むアプローチ(米国特許出願公開第2011/0276277号)と組み合わせることで、異数体を決定または確認することができる。メチル化解析との組み合わせで用いられる配列リード計数アプローチは、ランダムシークエンス(RWK Chiu et al. 2008 Proc Natl Acad Sci USA;105:20458-20463; DW Bianchi DW et al. 2012 Obstet Gynecol 119:890-901)またはターゲットシークエンス(AB Sparks et al. 2012 Am J Obstet Gynecol 206:319.e1-9; B Zimmermann et al. 2012 Prenat Diagn 32:1233-1241; GJ Liao et al. 2012 PLoS One; 7:e38154)を用いて行うことができる。
BKGの使用は、試料間のバックグラウンドにおける差異を説明し得る。例えば、ある女性は別の女性と異なるBKGメチル化レベルを有し得るが、BKGおよびPLNの間の差異はそのような状況において試料をまたがって使用され得る。異なる染色体領域のカットオフは、例えば、ゲノムのある領域のメチル化密度がゲノムの別の領域と異なる場合、異なり得る。
このアプローチは、胎児ゲノムにおける欠失および増幅を含むあらゆる染色体異常を検出するために一般化され得る。さらに、この解析の分解能は所望のレベルに調整することができ、例えば、ゲノムは10Mb、5Mb、2Mb、1Mb、500kb、100kbのビンに分割することができる。従って、本科学技術は、染色体内(subchromosomal)重複または染色体内欠失を検出するのにも用いることができる。従って、本科学技術は、出生前胎児の分子的核型を非侵襲的に得ることを可能にする。このように用いられる場合、本科学技術は、分子の計数に基づく非侵襲的出生前検査法(A Srinivasan et al. 2013 Am J Hum Genet;92:167-176; SCY Yu et al. 2013 PLoS One 8: e60968)と組み合わせて用いられ得る。他の実施形態では、ビンのサイズは同一でなくてもよい。例えば、ビンのサイズは、各ビンが同数のCpGジヌクレオチドを含有するように調整され得る。この場合、ビンの物理的サイズは異なるであろう。
前記式は、様々なタイプの染色体異常に適用するために以下のように書き換えることができる。
式中、CNは障害領域におけるコピー数変化の数を表す。CNは、1コピーの染色体の増加において1に等しく、2コピーの染色体の増加において2に等しく、2つの相同染色体のうち1つの減少において−1に等しい(例えば、XO核型をもたらす、女性胎児がX染色体の1つを失っている胎児ターナー症候群の検出)。ビンのサイズを変更する際、この式を変更する必要は無い。しかし、CpGジヌクレオチド(または胎児DNAおよび母体DNAの間で示差的なメチル化を示す他のヌクレオチドの組み合わせ)の数が少ないほど、より小さなビン内に存在することとなり、これによりメチル化密度の測定における確率的変動が増加するため、より小さなビンのサイズが用いられる場合、感度および特異度は減少し得る。一実施形態では、必要なリードの数は、メチル化密度の変動係数および所望の感度レベルを解析することによって決定され得る。
このアプローチが実行可能であることを示すために、9人の妊娠女性から得た血漿試料を解析した。5人の妊娠女性において、それぞれは正倍数体胎児を身籠っており、その他の4人はそれぞれトリソミー21(T21)胎児を身籠っていた。それら5人の正倍数体妊娠女性から3人を無作為に選び、参照群を形成させた。残りの2人の正倍数体妊娠例(Eu1およびEu2)および4人のT21例(T21−1、T21−2、T21−3およびT21−4)を、潜在的なT21状態を検査するために本アプローチを用いて解析した。血漿DNAを亜硫酸水素塩によって変換し、イルミナ社製HiSeq2000プラットフォームを用いて配列決定した。一実施形態では、個々の染色体のメチル化密度が算出された。次に、21番染色体およびその他の21個の常染色体の平均値の間のメチル化密度における差異を決定して、正規化されたメチル化密度を得た(表1)。参照群の平均値およびSDは、6つの検査例のZ値の算出に用いた。
別の実施形態において、ゲノムを1Mbのビンに分割し、1Mbのビンそれぞれのメチル化密度を決定した。潜在的に異数体の染色体上の全てのビンのメチル化密度は、推定非異数体染色体上に位置する全てのビンのメチル化密度中央値を用いて正規化することができる。ある実施において、各ビンについて、非異数体ビンの中央値とのメチル化密度における差異を算出することができる。これらの値のZ値は、参照群の平均値および標準偏差値を用いて算出することができる。低メチル化(表2)を示すビンの割合を決定し、カットオフ率と比較することができる。
胎児の染色体または染色体内の異常を検出するためのこのDNAメチル化に基づくアプローチは、配列決定(RWK Chiu et al. 2008 Proc Natl Acad Sci USA; 105: 20458-20463)もしくはデジタルPCR(YMD Lo et al. 2007 Proc Natl Acad Sci USA; 104: 13116-13121)等による分子の計数、またはDNA分子のサイズ測定(米国特許出願公開第2011/0276277号)に基づくアプローチと組み合わせて用いることができる。そのような組み合わせ(例えば、DNAメチル化+分子計数、またはDNAメチル化+サイズ測定、またはDNAメチル化+分子計数+サイズ測定)は、臨床背景、例えば感度および/または特異度の向上において有利となる相乗効果を有するであろう。例えば、例えば配列決定により解析が必要となるDNA分子の数を、診断精度に不利な影響を与えずに減らすことができる。この特徴は、そのような検査をより経済的に行うことを可能にする。別の例として、分析される所与の数のDNA分子について、組み合わされたアプローチは、胎児の染色体または染色体内の異常をより低い濃度分率の胎児DNAにおいて検出することを可能にする。
図13は、生物の生物試料から染色体異常を検出するための方法1300のフローチャートである。生物試料には、第一組織由来および第二組織由来の無細胞DNAの混合物を含む無細胞DNAが含まれる。第一組織は胎児または腫瘍から得られたものであり得、第二組織は妊娠女性または患者から得られたものであり得る。
ブロック1310において、生物試料由来の複数のDNA分子が解析される。DNA分子の解析には、生物のゲノムにおけるDNA分子の位置を決定し、DNA分子が一つまたは複数の部位においてメチル化されているかどうかを決定すること、が含まれ得る。前記解析はメチル化認識配列決定から配列リードを得ることで行うことができるため、前記解析はそのDNAから以前に得られたデータに対してのみ行われ得る。他の実施形態では、前記解析は、実際の配列決定またはデータを得るための他の有効な段階を含み得る。
位置の決定は、ヒトゲノムの各部分への、例えば、特定領域へのDNA分子のマッピング(例えば、配列リードを介した)を含み得る。ある実施において、あるリード目的領域に位置しない場合、そのリードは無視することができる。
ブロック1320において、複数の部位のそれぞれについて、部位においてメチル化されているDNA分子のそれぞれの数が決定される。一実施形態では、部位はCpG部位であり、本明細書に記載の一つまたは複数の判定基準を用いて選択されるある特定のCpG部位のみであり得る。メチル化されているDNAの数は、正規化が特定部位における分析されたDNA分子の総数(例えば、配列リードの総数)を用いて行われたならば、非メチル化状態である数の決定に等しい。
ブロック1330において、第一染色体領域の第一メチル化レベルは、第一染色体領域内の部位においてメチル化されているDNA分子のそれぞれの数に基づいて算出される。第一染色体領域はいかなるサイズ(例えば、上記サイズ)のものであってもよい。メチル化レベルは、例えば、正規化手順の一部として、第一染色体領域に整列したDNA分子の総数を説明することができる。
第一染色体領域は、いかなるサイズ(例えば、染色体全体)であってもよく、ばらばらの小領域から成っていてもよい(すなわち、小領域が互いに分離している)。各小領域のメチル化レベルを決定し、それを組み合わせることで(例えば、平均値または中央値として)、第一染色体領域のメチル化レベルを決定することができる。
ブロック1340において、第一メチル化レベルはカットオフ値と比較される。カットオフ値は参照メチル化レベルであってもよいし、あるいは参照メチル化レベルと関連していてもよい(例えば、正常レベルからの特定の距離)。カットオフ値は、第一染色体領域の染色体異常を有さない胎児を身籠る他の妊娠女性対象から、がんを有さない個人の試料から、または異数体と関連していないことが知られている生物の遺伝子座(すなわち、二染色体性の領域)から、決定され得る。
一実施形態では、カットオフ値は、下記式の参照メチル化レベルとの差異を有すると定義され得、
式中、BKGは女性のバックグラウンド(または他の対象からの平均値または中央値)であり、fは第一組織由来の無細胞DNAの濃度分率であり、CNは検査されるコピー数である。CNは、異常の種類(欠失または重複)に対応するスケーリング因子の一例である。CN=1のカットオフが最初に全ての増幅を検査するために用いられ得、その後、さらなるカットオフが増幅の程度を決定するために用いられ得る。カットオフ値を、第一組織由来の無細胞DNAの濃度分率に基づかせることで、座位のメチル化の予測レベルを決定することができる(例えば、コピー数異常が存在しない場合)。
ブロック1350において、第一染色体領域の異常の分類が、比較に基づいて決定される。レベルにおける統計的に有意な差異は、染色体異常を有する胎児のリスクの増加を示し得る。種々の実施形態において、染色体異常は、21トリソミー、18トリソミー、13トリソミー、ターナー症候群、またはクラインフェルター症候群であり得る。他の例は、染色体内欠失、染色体内重複、またはディジョージ症候群である。
V. マーカーの決定
上記で言及したように、胎児ゲノムのある特定の部分は、母体ゲノムと異なるようにメチル化されている。これらの差異は妊娠全体にわたって一般的であり得る。異なるメチル化の領域は、胎児由来のDNA断片を特定するために用いることができる。
A. 胎盤組織および母体組織からDMRを決定する方法
胎盤は組織特異的なメチル化サインを有する。胎児特異的DNAメチル化マーカーは、胎盤組織および母体血細胞間で示差的にメチル化された遺伝子座に基づいて、母体血漿検出のために、および非浸潤的出生前診断適用のために、開発された(SSC Chim et al. 2008 Clin Chem; 54: 500-511; EA Papageorgiou et al 2009 Am J Pathol; 174: 1609-1618;およびT Chu et al. 2011 PLoS One; 6: e14723)。そのような示差的にメチル化された領域(DMR)をゲノムワイドに探索する実施形態が提供される。
図14は、本発明の実施形態に従って、胎盤メチル化特性を母体メチル化特性(例えば、血液細胞から決定された)と比較することによる、メチル化マーカーを同定するための方法1400のフローチャートである。方法1400は、腫瘍メチル化特性を健常組織に対応するメチル化特性と比較することにより腫瘍マーカーを決定するために、用いてもよい。
ブロック1410において、胎盤メチロームおよび血液メチロームが得られる。胎盤メチロームは胎盤試料(例えば、CVSまたは妊娠末期胎盤)から決定することができる。メチロームはゲノムの一部のみのメチル化密度を含み得ることを理解されたい。
ブロック1420において、特定の数の部位(例えば、5つのCpG部位)を含む領域が特定され、そのために充分な数のリードが入手された。一実施形態では、各染色体の一端から特定を開始して、少なくとも5つの適切なCpG部位を含有する最初の500bp領域を突き止めた。CpG部位は、該部位が少なくとも5つの配列リードによって被覆された場合に、適切と見なされ得る。
ブロック1430において、胎盤メチル化指数および血中メチル化指数が各部位について算出される。例えば、メチル化指数は各500bp領域内の全ての適切なCpG部位について個別に算出された。
ブロック1440において、メチル化指数を母体血細胞および胎盤試料間で比較することで、一連の指数が互いに異なるかどうかを決定した。例えば、メチル化指数を、例えば、マン・ホイットニー検定を用いて、母体血細胞およびCVSまたは妊娠末期胎盤間で比較した。例えば、0.01以下のP値を統計的に有意に異なると見なしたが、より低い数字が偽陽性領域を減少させる場合は他の値を用いてもよい。
一実施形態では、適切なCpG部位の数が5未満である場合、またはマン・ホイットニー検定が有意でない場合、500bp領域は100bp下流に移動された。領域は、マン・ホイットニー検定が500bp領域について有意になるまで、下流への移動を継続された。次に、次の500bp領域が考慮された。次の領域がマン・ホイットニー検定による統計的有意性を示すことが分かった場合、結合された隣接領域が1,000bp以下でない限り、目下の領域に追加された。
ブロック1450において、統計的に有意に異なっていた(例えば、マン・ホイットニー検定により)隣接領域が統合され得る。2つの試料のメチル化指数の間に差異が存在することに注意されたい。一実施形態では、隣接領域が互いの特定の距離(例えば、1,000bp)内に存在し、それらが同様のメチル化特性を示す場合、それらは統合される。ある実施において、隣接領域間のメチル化特性の類似性は、以下のいずれかを用いて定義され得る:(1)母体血細胞に関して、胎盤組織において同じ傾向を示す(例えば、両領域が血液細胞においてよりも胎盤組織においてよりメチル化されている);(2)胎盤組織における隣接領域において10%未満のメチル化密度における差異を有する;および(3)母体血細胞における隣接領域において10%未満のメチル化密度における差異を有する。
ブロック1460において、領域における、母体血細胞DNAおよび胎盤試料(例えば、CVSまたは妊娠末期胎盤組織)からの血液メチロームのメチル化密度が算出される。メチル化密度は本明細書に記載の通りに決定することができる。
ブロック1470において、全胎盤メチル化密度および全血液メチル化密度が領域内の全ての部位について統計的に有意に異なる推定上のDMRが決定される。一実施形態では、統合された領域内の全ての適切なCpG部位がχ2検査を受ける。χ2検査により、統合された領域内の全ての適切なCpG部位間のメチル化シトシンおよび非メチル化シトシンの割合としてのメチル化シトシンの数が、母体血細胞および胎盤組織間で統計的に有意に異なるかどうかを評価された。ある実施では、χ2検査において、0.01以下のP値が統計的に有意に異なると見なされ得る。χ2検査によって有意性を示された統合されたセグメントが、推定上のDMRと見なされた。
ブロック1480において、母体血細胞DNAのメチル化密度が高カットオフ超または低カットオフ未満であった遺伝子座が特定された。一実施形態では、母体血細胞DNAのメチル化密度が20%以下または80%以上であった遺伝子座が特定された。他の実施形態では、母体血以外の体液、例えば、限定はされないが、唾液、女性生殖器からの子宮または子宮頸部の洗浄液、涙、汗、唾液、および尿が用いられ得る。
母体血漿における胎児特異的なDNAメチル化マーカーの開発を成功させるために重要なことは、母体血細胞のメチル化状態が、可能な限り高度にメチル化されているか、または可能な限りメチル化されていないことであり得る。これは、反対のメチル化特性を示す胎盤由来胎児DNA分子の解析に干渉する母体DNA分子を有する可能性を減少(例えば、最小化)させ得る。従って、一実施形態では、候補DMRがさらなる選別によって選択された。候補低メチル化遺伝子座は、母体血細胞において20%以下のメチル化密度を示し、胎盤組織において少なくとも20%より高いメチル化密度を有するものであった。候補高度メチル化遺伝子座は、母体血細胞において80%以上のメチル化密度を示し、胎盤組織において少なくとも20%より低いメチル化密度を有するものであった。他のパーセンテージを用いてもよい。
ブロック1490において、次に、DMRが、差異を閾値と比較することにより、胎盤メチル化密度が血液メチル化密度と有意に異なる一部の遺伝子座の間で特定された。一実施形態では、閾値は20%であり、そのため、メチル化密度は母体血細胞のメチル化密度と少なくとも20%異なっていた。従って、それぞれの特定された遺伝子座における胎盤メチル化密度および血液メチル化密度間の差異が算出され得る。差異は単純な減算であり得る。他の実施形態では、スケーリング因子および他の関数が差異を決定するための用いられ得る(例えば、差異は単純な減算に適用された関数の結果であり得る)。
ある実施では、この方法を用いて、11,729の高度メチル化遺伝子座および239,747の低メチル化遺伝子座が第一期胎盤試料から特定された。上から100の高度メチル化遺伝子座を付録の表S2Aに列挙する。上から100の低メチル化遺伝子座を付録の表S2Bに列挙する。表S2Aおよび表S2Bは、染色体、開始位置および終止位置、領域のサイズ、母体血におけるメチル化密度、胎盤試料におけるメチル化密度、P値(全て非常に小さい)、並びにメチル化の差異を列挙している。位置は参照ゲノムhg18に対応しており、これは、hgdownload.soe.ucsc.edu/goldenPath/hg18/chromosomesで見つけることができる。
11,920の高度メチル化遺伝子座および204,768の低メチル化遺伝子座を第三期胎盤試料から特定した。第三期の上から100の高度メチル化遺伝子座を表S2Cに列挙し、上から100の低メチル化遺伝子座を表S2Dに列挙する。母体血細胞および第一期胎盤組織間で示差的にメチル化されていることが以前に報告された33の遺伝子座を用いて、第一期候補の列挙の妥当性を確認した。33の遺伝子座の79%が、本アルゴリズムを用いることにより、DMRであると特定された。
図15Aは、33の以前に報告された第一期マーカーを参照して第一期データを用いる、DMR特定アルゴリズムの性能を示す、表1500である。表中で、「a」は、遺伝子座1〜15が(RWK Chiu et al. 2007 Am J Pathol; 170:941-950 and SSC Chim et al. 2008 Clin Chem; 54:500-511)で以前に報告されたこと;遺伝子座16〜23が(KC Yuen, thesis 2007, The Chinese University of Hong Kong, Hong Kong)で以前に報告されたこと;および遺伝子座24〜33が(EA Papageorgiou et al. 2009 Am J Pathol; 174:1609-1618)で以前に報告されたことを示している。「b」は、これらのデータが上記刊行物から得られたことを示している。「c」は、母体血細胞のメチル化密度および絨毛膜絨毛検体のメチル化密度並びにそれらの差異が、本研究で作製されたが元の研究によって提供されたゲノム座標に基づく配列決定データから観察されたことを示している。「d」は、遺伝子座に関するデータが、Chiu et al (2007), Chim et al (2008), Yuen (2007)およびPapageorgiou et al (2009)による上記刊行物を参照せずに、亜硫酸水素塩配列決定データに対する方法1400の実施形態を用いて特定されたことを示している。遺伝子座の全長は以前に報告されたゲノム領域を含んだが、概して、より大きな領域にまたがった。「e」は、候補DMRが、母体血細胞および絨毛膜絨毛検体におけるDMRの対応するゲノム座標のメチル化密度の間で、0.20超の差異を観察する必要に基づいて、真陽性(TP)または偽陽性(FN)に分類されたことを示している。
図15Bは、第三期データを用いる、分娩時に得られた胎盤試料と比較された、DMR特定アルゴリズムの性能を示す、表1550である。「a」は、図17A中の記載と同一の33の遺伝子座の列挙が用いられたことを示している。「b」は、33の遺伝子座は妊娠初期試料から以前に特定されたため、それらは第三期データに適用可能でない場合があることを示している。従って、元の研究によって提供されたゲノム座標に基づいて妊娠末期胎盤組織に関する本研究において作成された亜硫酸水素塩配列決定データが概説された。母体血細胞および妊娠末期胎盤組織間のメチル化密度における0.20超の差異は、遺伝子座が確かに第三期における真のDMRであるかどうかを決定するために用いられた。「c」は、遺伝子座に関するデータが、Chiu et al (2007), Chim et al (2008), Yuen (2007)およびPapageorgiou et al (2009)による刊行物を参照せずに、亜硫酸水素塩配列決定データに対する方法1400を用いて特定されたことを示している。遺伝子座の全長は以前に報告されたゲノム領域を含んだが、概して、より大きな領域にまたがった。「d」は、第三期における示差的なメチル化に適した遺伝子座を含有する候補DMRが、母体血細胞および妊娠末期胎盤組織におけるDMRの対応するゲノム座標のメチル化密度の間で、0.20超の差異を観察する必要に基づいて、真陽性(TP)または偽陽性(FN)に分類されたことを示している。第三期における示差的なメチル化に適していなかった遺伝子座については、DMRの列挙中のそれらの不在または該遺伝子座を含有するが0.20未満のメチル化差異を示すDMRの存在が、真の陰性(TN)DMRと見なされた。
B. 母体血漿配列決定データから得られるDMR
試料の胎児DNA濃度分率も既存であるならば、胎盤組織DMRを母体血漿DNAの亜硫酸水素塩配列決定データから直接的に特定できるはずである。胎盤は母体血漿中の胎児DNAの主な供給源であり得るため(SSC Chim et al. 2005 Proc Natl Acad Sci USA 102, 14753-14758)、本研究において、母体血漿中の胎児特異的DNAのメチル化状態が胎盤メチロームと相関することが示された。
従って、胎盤試料を用いる代わりに、血漿メチロームを用いて方法1400の態様を実行して、推定胎盤メチロームを決定してもよい。従って、方法1000および方法1400を組み合わせてDMRを決定することができる。方法1000を用いることで、胎盤メチル化特性の予測値を決定し、それらを方法1400で用いることができる。この解析において、実施例は、母体血細胞において20%以下または80%以上メチル化されていた遺伝子座にも焦点を当てている。
ある実施において、母体血細胞と比較して胎盤組織において高度メチル化された遺伝子座を推定するために、母体血細胞において20%以下のメチル化、並びに血液細胞メチル化密度および予測値の間に少なくとも50%の差異を有する、予測値による60%以上のメチル化を示した遺伝子座を選び出した。母体血細胞と比較して胎盤組織において低メチル化状態の遺伝子座を推定するために、母体血細胞において80%以上のメチル化、並びに血液細胞メチル化密度および予測値の間に少なくとも50%の差異を有する、予測値による40%以下のメチル化を示した遺伝子座を選び出した。
図16は、母体血漿亜硫酸水素塩配列決定データの直接解析に基づいて高度メチル化または低メチル化状態であると予測された遺伝子座の数を示す、表1600である。「N/A」は適用不可を意味する。「a」は、高度メチル化遺伝子座の探索が、母体血細胞において20%未満のメチル化密度を示す遺伝子座リストから開始されたことを示している。「b」は、低メチル化遺伝子座の探索が、母体血細胞において80%超のメチル化密度を示す遺伝子座リストから開始されたことを示している。「c」は、絨毛膜絨毛検体から得られた亜硫酸水素塩配列決定データが第一期母体血漿データの妥当性を検証するために用いられ、妊娠末期胎盤組織が第三期母体血漿データを検証するために用いられたことを示している。
表1600に示すように、非侵襲的に推定された遺伝子座の大部分は、組織において予測されたメチル化パターンを示し、組織データから掘り出され先のセクションに示されたたDMRと重複した。付録は血漿から特定されたDMRを収載している。表S3Aは、第一期母体血漿の亜硫酸水素塩配列決定データから高度メチル化状態であると推定された、上から100の遺伝子座を収載している。表S3Bは、第一期母体血漿の亜硫酸水素塩配列決定データから低メチル化状態であると推定された、上から100の遺伝子座を収載している。表S3Cは、第三期母体血漿の亜硫酸水素塩配列決定データから高度メチル化状態であると推定された、上から100の遺伝子座を収載している。第三期母体血漿の亜硫酸水素塩配列決定データから低メチル化状態であると推定された、上から100の遺伝子座を収載している。
C. 胎盤メチロームおよび胎児メチロームの妊娠性変動
CVSにおけるメチル化CpGの全割合は55%であり、一方、妊娠末期胎盤におけるメチル化CpGの全割合は59%であった(図1の表100)。より低メチル化状態のDMRは妊娠末期胎盤よりもCVSから特定され得たが、高度メチル化DMRの数はそれら2つの組織において同様であった。従って、CVSが妊娠末期胎盤よりもより低メチル化状態であることは明らかであった。この妊娠性傾向は母体血漿データにおいても明白であった。胎児特異的リード間のメチル化CpGの割合は、第一期母体血漿においては47.0%であったが、第三期母体血漿においては53.3%であった。確認された高度メチル化遺伝子座の数は、第一(1,457遺伝子座)および第三期(1,279遺伝子座)母体血漿試料において同様であったが、第三期試料(12,677遺伝子座)よりも第一試料(21,812遺伝子座)において実質的により多くの低メチル化遺伝子座が存在した(図16の表1600)。
D. マーカーの使用
示差的にメチル化されたマーカー、またはDMRは、いくつかの態様において有用である。母体血漿中のそのようなマーカーの存在により、胎児DNAまたは胎盤DNAの存在が示され、確認される。この確認は、非侵襲的出生前検査の精度管理として用いることができる。DMRは、母体血漿中の一般的な胎児DNAマーカーとして役立ち、遺伝子多型に基づくマーカーまたはY染色体に基づくマーカー等の母親および胎児の間の遺伝子型の差異に依存するマーカーに優る利点を有し得る。DMRは、あらゆる妊娠に有用な一般的な胎児マーカーである。遺伝子多型に基づくマーカーは、胎児がその父親から該マーカーを受け継いでおり、その母親がそのゲノム内に該マーカーを保有していない、一部の妊娠にのみ適用可能である。さらに、それらのDMRに由来するDNA分子を定量化することによって、母体血漿試料中の胎児DNA濃度を測定することができる。正常妊娠に期待されるDMRの特性を知ることで、母体血漿DMR特性またはメチル化特性の、正常妊娠に期待される該特性からの逸脱を観察することによって、妊娠関連合併症、特に胎盤組織変化を伴う妊娠関連合併症を、検出することができる。胎盤組織変化を伴う妊娠関連合併症としては、限定はされないが、胎児染色体異数性が挙げられる。例として、21トリソミー、子癇前症、子宮内胎児発育遅延および早産が挙げられる。
E. マーカーを用いるキット
実施形態は、本明細書に記載の方法および他の適用可能な方法を実行するための組成物およびキットを提供し得る。キットは、胎児DNA(例えば、母体血漿中の無細胞胎児DNA)を分析するアッセイを実行するために用いることができる。一実施形態では、キットは、本明細書で同定される一つまたは複数の遺伝子座との特異的なハイブリダイゼーションに有用な少なくとも1つのオリゴヌクレオチドを含み得る。キットは、一つまたは複数の参照遺伝子座との特異的なハイブリダイゼーションに有用な少なくとも1つのオリゴヌクレオチドも含み得る。一実施形態では、胎盤高度メチル化マーカーが測定される。検査座位は母体血漿中のメチル化DNAであり得、参照座位は母体血漿中のメチル化DNAであり得る。血漿中の腫瘍DNAを分析するために類似のキットを構成することができる。
いくつかの例において、前記キットは、標的座位(例えば、付録中の座位)および参照座位の少なくとも1区間の増幅に用いることができる少なくとも2つのオリゴヌクレオチドプライマーを含み得る。プライマーの代わりに、またはそれに追加して、キットは、標的座位および参照座位に対応するDNA断片を検出するための標識プローブを含み得る。種々の実施形態において、前記キットの一つまたは複数のオリゴヌクレオチドは、付録の表中の座位に対応している。典型的に、キットは、試験試料を分析し検査対象における生理機能または病態の状態を評価する際に使用者を手引きする取扱説明書も提供する。
種々の実施形態において、胎児DNAおよび胎児を妊娠している女性対象由来のDNAの混合物を含有する生物試料中の胎児DNAを分析するキットが提供される。前記キットは、表S2A、S2B、S2C、S2D、S3A、S3B、S3C、およびS3Dに収載されるゲノム領域の少なくとも一区画に特異的にハイブリダイズする一つまたは複数のオリゴヌクレオチドを含み得る。従って、これらの表全てからの、または(are)1つの表のみからのいかなる数のオリゴヌクレオチドも、用いることができる。オリゴヌクレオチドはプライマーとして機能し得、表中の特定の領域に対応するプライマー対として構築され得る。
VI. サイズおよびメチル化密度の関連性
血漿DNA分子は、短い分子の形態で循環血液中に存在することが知られており、大部分の分子は約160bpの長さを有している(YMD Lo et al. 2010 Sci Transl Med; 2: 61ra91, YW Zheng at al. 2012 Clin Chem; 58: 549-558)。興味深いことに、我々のデータは、血漿DNA分子のメチル化状態およびサイズの間の関連性を明らかにした。このように、血漿DNA断片長はDNAメチル化レベルと関連している。血漿DNA分子の特徴的なサイズ特性は、大部分が、アポトーシス中の酵素的分解から生じ得るモノヌクレオソームと関連があることを示唆している。
循環DNAは天然では断片化されている。具体的には、循環胎児DNAは、母体血漿試料中の母体由来DNAよりも短い(KCA Chan et al. 2004 Clin Chem; 50: 88-92)。ペアエンド(paired-end)アライメントは亜硫酸水素塩によって処理されたDNAのサイズ解析を可能にするため、血漿DNA分子のサイズおよびそれらの各メチル化レベルの間に相関が存在するかどうかを、直接的に評価することができる。母体血漿および非妊娠成人女性の対照血漿試料においてこれを調べた。
本研究において各試料を解析するために、各DNA分子の両端に対するペアエンド配列決定(分子全体の配列決定を含む)を用いた。各DNA分子の末端配列の対を参照ヒトゲノムに整列させ、配列されたリードの最末端のゲノム座標を記録することで、配列決定されたDNA分子の長さを決定することができる。血漿DNA分子は天然において小分子に断片化されており、血漿DNAの配列決定ライブラリーは典型的にはいかなる断片化ステップも用いずに作成される。それ故、配列決定により推定された長さは、元の血漿DNA分子のサイズを表すものであった。
以前の研究において、母体血漿中の胎児DNA分子および母体DNA分子のサイズ特性を決定した(YMD Lo et al. 2010 Sci Transl Med; 2: 61ra91)。血漿DNA分子がモノヌクレオソームに似たサイズを有し、胎児DNA分子が母体DNA分子よりも短かったことが示された。この研究において、血漿DNA分子のメチル化状態のそれらのサイズに対する関連性が決定された。
A. 結果
図17Aは、母体血漿DNA、非妊娠女性対照血漿DNA、胎盤DNAおよび末梢血DNAのサイズ分布を示す、プロット1700である。母体試料および非妊娠女性対照血漿において、これら2つの亜硫酸水素塩処理血漿試料は、最も豊富な166〜167bp長の全体配列および143bpよりも短いDNA分子の10bpの周期性(periodicity)を有する、先に報告された(YMD Lo et al. 2010 Sci Transl Med; 2: 61ra91)ものと同じ特徴的なサイズ分布を示した。
図17Bは、母体血漿、成人女性対照血漿、胎盤組織および成人女性対照血液のサイズ分布およびメチル化特性の、プロット1750である。同一サイズを有し、少なくとも1つのCpG部位を含有するDNA分子について、それらの平均メチル化密度を算出した。次に、DNA分子のサイズおよびそれらのメチル化密度の間の関連性をプロットした。具体的には、少なくとも1つのCpG部位を被覆する配列決定されたリードについて、50bpから最大180bpまでの範囲の各断片長の平均メチル化密度を決定した。興味深いことに、メチル化密度は血漿DNAサイズに伴って増加し、約166〜167bpで最大となった。しかし、このパターンは、超音波処理システムを用いて断片化された胎盤DNA試料および対照血液DNA試料においては観察されなかった。
図18は、血漿DNA分子のメチル化密度およびサイズのプロットを示している。図18Aは、第一期母体血漿についてのプロット1800である。図18Bは、第三期母体血漿についてのプロット1850である。少なくとも1つのCpG部位を被覆する全ての配列決定されたリードのデータは、青色の曲線1805で表される。胎児特異的SNP対立遺伝子も含有したリードのデータは、赤色の曲線1810で表される。母体特異的SNP対立遺伝子も含有したリードのデータは緑色の曲線1815で表される。
胎児特異的SNP対立遺伝子を含有していたリードは、胎児DNA分子由来と見なした。母体特異的SNP対立遺伝子を含有していたリードは、母体DNA分子由来と見なした。概して、高いメチル化密度を有するDNA分子はサイズがより長かった。この傾向は、第一期および第三期の両方における胎児DNA分子および母体DNA分子の両方に現れた。胎児DNA分子の全体サイズは、先に報告された母体DNA分子の全体サイズよりも短かった。
図19Aは、成人非妊娠女性の配列決定されたリードのメチル化密度およびサイズの、プロット1900を示している。成人非妊娠女性から得られた血漿DNA試料も、DNA分子のサイズおよびメチル化状態の間に同じ関連性を示した。一方、ゲノムDNA試料は、MPS解析に先立ち、超音波処理ステップによって断片化された。プロット1900に示されるように、血液細胞および胎盤組織検体から得られたデータは、同じ傾向を示さなかった。細胞の断片化は人工的であるため、サイズおよび密度の関連性は無いと予想される。血漿中の天然に断片化されたDNA分子はサイズに対する依存性を示すため、メチル化密度が低いほど、分子がより小さな断片に切断される可能性が高いと仮定することができる。
図19Bは、母体血漿中の胎児特異的DNA分子および母体特異的DNA分子のサイズ分布およびメチル化特性を示す、プロット1950である。胎児特異的血漿DNA分子および母体特異的血漿DNA分子も、断片化サイズおよびメチル化レベルの間に同じ相関を示した。胎盤由来循環無細胞DNAおよび母体循環無細胞DNAの断片長は共に、メチル化レベルに伴って増加した。さらに、それらのメチル化状態の分布は互いに重複せず、このことは、前記現象が循環DNA分子の供給源の元の断片長にかかわりなく起こることを示唆している。
B. 方法
従って、サイズ分布を用いることで、血漿試料の全体メチル化率を推定することができる。このメチル化測定値は次に、妊娠中、がんのモニタリング中、または図18Aおよび図18Bに示される関連性による、血漿DNAのサイズ分布の連続測定による処理中に、追跡することができる。メチル化測定値は、目的の臓器または組織からのDNA放出の増加または減少を探すことにも用いることができる。例えば、特定の臓器(例えば肝臓)に特有のDNAメチル化サインを具体的に探して、血漿中のこれらのサインの濃度を測定することができる。DNAは細胞が死ぬ際に血漿中に放出されるため、レベルの増加は、その特定の臓器または組織における細胞死または細胞傷害の増加を意味し得る。特定の臓器からのレベルの減少は、その臓器における傷害または病理過程に対抗する処置が制御下にあることを意味し得る。
図20は、本発明の実施形態に従って、生物の生物試料中のDNAのメチル化レベルを推定するための方法2000のフローチャートである。ゲノムの特定領域またはゲノム全体のメチル化レベルを推定することができる。特定領域が望ましい場合、その特定領域のみに由来するDNA断片が用いられ得る。
ブロック2010において、様々なサイズに対応するDNA断片の量が測定される。複数のサイズの各サイズについて、サイズに対応する生物試料由来の複数のDNA断片の量が測定され得る。例えば、140塩基長を有するDNA断片の数が測定され得る。前記量はヒストグラムとして記録され得る。一実施形態では、生物試料由来の複数個の核酸のそれぞれのサイズが測定され、その測定は、個別に(例えば、分子全体または分子の末端のみの単一分子配列決定によって)、またはまとめて(例えば、電気泳動によって)行われ得る。サイズは範囲に対応し得る。従って、量は、特定の範囲内のサイズを有するDNA断片の量であり得る。ペアエンド配列決定が行われる場合、特定の領域に位置(整列)するDNA断片(ペア配列リードによって決定される)は、該領域のメチル化レベルを決定するために用いられ得る。
ブロック2020において、第一パラメーターの第一の値が、複数のサイズにおけるDNA断片の量に基づいて算出される。一態様において、第一パラメーターは、生物試料中のDNA断片のサイズ特性(例えば、ヒストグラム)の統計的尺度を与える。前記パラメーターは、複数個のDNA断片のサイズから決定されることから、サイズパラメーターと称され得る。
第一パラメーターは様々な形態のパラメーターであり得る。あるパラメーターは、全DNA断片に対する、または別のサイズまたは範囲のDNA断片に対する、特定のサイズまたはサイズ範囲のDNA断片の割合である。そのようなパラメーターは、ヒストグラム(特定のサイズの断片の絶対計数または相対計数を与えるあらゆるデータ構造)から得られ得る、断片の総数で除算された特定のサイズのDNA断片の数である。別の例として、パラメーターは、別のサイズまたは範囲の断片の数で除算された、特定のサイズの、または特定の範囲内の断片の数であり得る。除算は、異なる試料について解析されている異なる数のDNA断片を説明するための、正規化の機能を果たし得る。正規化は、各試料について同一数のDNA断片を解析することにより達成され得、これは、解析された断片の総数での除算と同じ結果を効率的に与える。パラメーターの、およびサイズ解析についてのさらなる例は、米国特許出願公開第13/789,553号に見出すことができる(あらゆる目的で参照によって組み込まれる)。
ブロック2030において、第一のサイズ値が参照サイズ値と比較される。参照サイズ値は、参照試料のDNA断片から算出することができる。参照サイズ値を決定するために、参照試料のメチル化特性が算出および定量化され、同様に、第一サイズパラメーターの値が算出および定量化され得る。このように、第一のサイズ値が参照サイズ値と比較されると、メチル化レベルが決定され得る。
ブロック2040において、メチル化レベルが前記比較に基づいて推定される。一実施形態では、第一パラメーターの第一の値が参照サイズ値を超えるまたは下回るかどうかが決定され、それにより、目下の試料のメチル化レベルが参照サイズ値に対するメチル化レベルを上回るかまたは下回るかどうかが決定され得る。別の実施形態では、前記比較は、第一の値を較正関数に入力することにより達成される。較正関数は、第一の値に対応する曲線上の点を特定することにより、第一の値を較正値(一連の参照サイズ値)と効率的に比較することができる。次いで、推定メチル化レベルが較正関数の出力値として与えられる。
従って、サイズパラメーターはメチル化レベルに合わせて較正することができる。例えば、メチル化レベルは、測定され、その試料の特定のサイズパラメーターと関連付けられ得る。次に、種々の試料からのデータポイントが較正関数に当てはめられ得る。ある実施において、異なる較正関数が、異なるDNAサブセットに用いられ得る。従って、特定のDNAサブセットのメチル化およびサイズの間の関連性に関する予備知識に基づく、いくつかの較正の形態が存在し得る。例えば、胎児DNAおよび母体DNAの較正は異なり得る。
上記に示したように、胎盤は母体血と比較してより低メチル化状態であるため、胎児DNAは、そのより低度のメチル化のために、より小さい。従って、試料の断片の平均サイズ(または他の統計値)を用いることで、メチル化密度を推定することができる。断片サイズは、技術的により複雑であり得るメチル化認識配列決定ではなく、ペアエンド配列決定を用いて測定することができるため、このアプローチは、臨床に用いた場合に対費用効果が高い可能性がある。このアプローチは、妊娠の進行に伴う、または子癇前症、早産および胎児障害(例えば、染色体もしくは遺伝子異常または子宮内胎児発育遅延によって引き起こされる障害)等の妊娠関連疾患と関連する、メチル化変化をモニタリングするために用いることができる。
別の実施形態では、このアプローチは、がんの検出およびモニタリングに用いることができる。例えば、がんの治療が成功することで、このサイズに基づくアプローチを用いて測定される血漿または別の体液におけるメチル化特性は、がんを有さない健常人のそれに向かって変化するだろう。逆に、がんが進行中である場合では、血漿または別の体液におけるメチル化特性は、がんを有さない健常人のそれから逸脱するだろう。
要約すると、低メチル化分子は、血漿中で高度メチル化分子よりも短かった。胎児DNA分子および母体DNA分子の両方において同じ傾向が観察された。DNAメチル化ヌクレオソームの詰め込みに影響を与えることが知られていることから、我々のデータは、恐らく低メチル化DNA分子にはより低密度にヒストンが詰め込まれており、そのために、酵素的分解の影響をより受け易いことを示唆している。一方、図18Aおよび図18Bに示されるデータにより、胎児DNAが母体リードよりもはるかに低メチル化状態であるにもかかわらず、胎児DNAおよび母体DNAのサイズ分布は互いから完全には分離しないことも示された。図19Bにおいて、同じサイズ分類であっても、胎児特異的リードおよび母体特異的リードのメチル化レベルは互いに異なることを理解することができる。この観察は、胎児DNAの低メチル化状態が、母体DNAに対するその相対的な短さを説明する唯一の因子ではないことを示唆している。
VII. 遺伝子座の刷り込み状態
母体血漿中の母親と同じ遺伝子型を共有するが異なるエピジェネティックサインを有する胎児由来DNA分子は、検出が可能である(LLM Poon et al. 2002 Clin Chem; 48: 35-41)。配列決定アプローチが母体血漿中の胎児由来DNA分子の捕捉において感度が高いことを示すために、同じ戦略を、母体血漿試料中の刷り込み胎児対立遺伝子の検出に適用した。2つのゲノム刷り込み領域が特定された:H19(11番染色体:1,977,419〜1,977,821、NCBI Build36/hg18)およびMEST(7番染色体:129,917,976〜129,920,347、NCBI Build36/hg18)。それらは共に、母体配列および胎児配列を区別するための有益なSNPを含有している。母体で発現される遺伝子であるH19に関して、領域内のSNP rs2071094(11番染色体:1,977,740)について、母親はホモ接合性(A/A)であり、胎児はヘテロ接合性(A/C)であった。A母体対立遺伝子の一方は充分にメチル化されており、他方は非メチル化状態であった。しかし、胎盤においては、対立遺伝子Aは非メチル化状態であったが、一方、父親から遺伝したC対立遺伝子は充分にメチル化されていた。胎盤由来の刷り込まれた父性対立遺伝子に対応するC遺伝子型を有する2つのメチル化リードを母体血漿中で検出した。
MESTは、PEG1としても知られており、これは父親性発現遺伝子である。母親および胎児の両方が、刷り込み遺伝子座内のSNP rs2301335(7番染色体:129,920,062)についてヘテロ接合性(A/G)であった。母体血において、G対立遺伝子はメチル化されいたが、A対立遺伝子は非メチル化状態であった。胎盤におけるメチル化パターンは逆転しており、母性A対立遺伝子はメチル化されいて、父性G対立遺伝子は非メチル化状態であった。父親由来の3つの非メチル化状態のG対立遺伝子は、母体血漿中で検出可能であった。対照的に、19番染色体上の非刷り込み遺伝子座(19番染色体:6,723,621−6,724,121)であるVAV1は、組織および血漿DNA試料においていかなる対立遺伝子メチル化パターンも示さなかった。
従って、メチル化状態は、どのDNA断片が胎児由来であるかを決定するのに用いることができる。例えば、母体血漿中のA対立遺伝子の検出だけでは、母親がGAヘテロ接合性である場合に、胎児マーカーとして用いることができない。しかし、血漿中のA分子のメチル化状態を識別する場合、メチル化されたA分子は胎児特異的であり、一方非メチル化状態のA分子は母体特異的であり、あるいは逆も同じである。
次に、胎盤組織においてゲノム刷り込みを示すことが報告されている遺伝子座に焦点を当てた。Woodfine et al.(2011 Epigenetics Chromatin; 4: 1)によって報告された遺伝子座のリストに基づいて、刷り込み制御領域内でSNPを含有していた遺伝子座をさらに選別した。4つの遺伝子座が判定基準を満たし、これらは、H19、KCNQ10T1、MESTおよびNESPであった。
H19およびKCNQ10T1の母体血細胞試料のリードに関して、これらの母体リードは、SNPについてホモ接合性であり、メチル化リードおよび非メチル化リードはおよそ等しい割合であった。CVSおよび妊娠末期胎盤組織検体によって、胎児が両方の遺伝子座についてヘテロ接合性であり、各対立遺伝子が排他的にメチル化または非メチル化状態である、すなわち単一対立遺伝子性メチル化を示すことが明らかになった。母体血漿試料において、父親から遺伝された胎児DNA分子が両方の遺伝子座において検出された。H19において、父親から遺伝された分子は、胎児特異的対立遺伝子を含有していた配列決定されたリードによって表され、メチル化されていた。KCNQ10T1において、父親から遺伝された分子は、胎児特異的対立遺伝子を含有していた配列決定されたリードによって表され、非メチル化状態であった。
一方、母親はMESTおよびNESPの両方についてヘテロ接合性であった。MESTに関して、母親および胎児の両方がSNPについてGAヘテロ接合体であった。しかし、母体血細胞および胎盤組織のワトソン鎖のデータから明らかなように、SNPに隣接したCpGのメチル化状態は母親および胎児において反対であった。A対立遺伝子は母親のDNAにおいて非メチル化状態であったが、胎児のDNAにおいてはメチル化されていた。MESTに関して、母性対立遺伝子はメチル化されていた。従って、胎児はその母親から遺伝されたA対立遺伝子(CVSにおいてメチル化状態)を有しており、その母親は彼女の父親から遺伝されたA対立遺伝子(母体血細胞において非メチル化状態)を有していたことを特定することができる。興味深いことに、母体血漿試料において、4つ全ての分子群は容易に区別することができた(例えば、母親の2つの対立遺伝子のそれぞれおよび胎児の2つの対立遺伝子のそれぞれ)。従って、遺伝子型情報を刷り込み遺伝子座におけるメチル化状態と組み合わせることにより、母親から遺伝された胎児DNA分子をバックグラウンド母体DNA分子から容易に区別することができた(LLM Poon et al. 2002 Clin Chem; 48: 35-41)。
このアプローチは片親性ダイソミーを検出するのに用いることができる。例えば、この胎児の父親がG対立遺伝子についてホモ接合性であることが分かっている場合、非メチル化状態のG対立遺伝子が母体血漿中に検出できないことは、父性対立遺伝子の寄与の欠如を示している。さらに、そのような状況下で、メチル化されたG対立遺伝子およびメチル化されたA対立遺伝子の両方がこの妊娠女性の血漿中に検出された場合、胎児が母親由来のヘテロダイソミー(heterodisomy)を有していること、すなわち、父親から遺伝はされずに母親から2つの異なる対立遺伝子を受け継いでいることが示唆される。あるいは、メチル化状態のA対立遺伝子(母親から受け継いだ胎児性対立遺伝子)および非メチル化状態のA対立遺伝子(母方の祖父から受け継いだ母性対立遺伝子)の両方が、非メチル化状態のG対立遺伝子(胎児に遺伝されているはずの父性対立遺伝子)無しで、母体血漿中に検出された場合、胎児が母親由来のイソダイソミー(isodisomy)を有すること、すなわち、母親から2つの同一の対立遺伝子を受け継ぎ、父親からは何も受け継いでいないことが示唆される。
NESPに関して、母親はSNPにおいてGAヘテロ接合体であり、一方、胎児はG対立遺伝子についてホモ接合性であった。NESPにおいて、父性対立遺伝子はメチル化されていた。母体血漿試料において、メチル化状態の、父親から遺伝された胎児性G対立遺伝子は、非メチル化状態のバックグラウンド母性G対立遺伝子から容易に区別することができた。
VIII. がん/供与者
いくつかの実施形態は、循環血漿/血清DNAのメチル化解析を用いたがんの検出、検診、モニタリング(例えば、再発、軽快、または治療に対する応答(例えば、存在または不在)の)、病期分類、分類(例えば、最も適切な治療法の選択を助けるための)および予後判定に、用いることができる。
がんDNAは異常なDNAメチル化を示すことが知られている(JG Herman et al. 2003 N Engl J Med; 349: 2042-2054)。例えば、非がん細胞と比較して、遺伝子(例えば、腫瘍抑制遺伝子)のCG島プロモーターは高度メチル化されているが、その遺伝子本体のCpG部位は低メチル化状態である。がん細胞のメチル化特性が、本明細書に記載の方法を用いて、腫瘍由来血漿DNA分子のメチル化特性に反映され得る場合、血漿における全体的なメチル化特性は、がんを有さない健常人と比較した場合に、またはがんが治癒されている者と比較した場合に、がんを有する個体間で異なるであろうことが予想される。メチル化特性における差異の種類は、ゲノムのメチル化密度および/またはのゲノムの区画のメチル化密度における定量的差異に関してであり得る。例えば、がん組織由来のDNAの普遍的な低メチル化性質(Gama-Sosa MA et al. 1983 Nucleic Acids Res; 11: 6883-6894)から、血漿メチロームまたはゲノムの区画におけるメチル化密度の減少が、がん患者の血漿において観察されるだろう。
メチル化特性における定量的変化は、血漿メチロームデータ間でも反映されるはずである。例えば、がん細胞においてのみ高度メチル化されている遺伝子に由来する血漿DNA分子は、同一遺伝子に由来するが健常対照の試料中の血漿DNA分子と比較した場合に、がん患者の血漿において高度メチル化を示すであろう。異常なメチル化は大部分のがんにおいて生じているため、本明細書に記載の方法は、異常なメチル化を有するあらゆる形態の悪性腫瘍、例えば、限定はされないが、肺、乳房、結腸直腸、前立腺、鼻咽頭、胃、精巣、皮膚、神経系、骨、卵巣、肝臓、血液系組織、膵臓、子宮、腎臓、膀胱、リンパ組織等における悪性腫瘍の検出に適用することができる。悪性腫瘍は、例えば、癌腫、腺癌、肉腫、線維腺癌、神経内分泌、および未分化癌等の、種々の組織学的亜型の悪性腫瘍であってもよい。
一方、腫瘍由来DNA分子はバックグラウンド非腫瘍由来DNA分子から区別することができることが予想されるが、それは、腫瘍由来DNAの全体的に短いサイズ特性が、DNA分子のサイズに対してさらなる影響を及ぼすであろう、腫瘍関連性の異常な低メチル化を有する遺伝子座由来のDNA分子において強調されるためである。また、腫瘍由来血漿DNA分子は、腫瘍DNAに関連する複数の特性、例えば、限定はされないが、単一ヌクレオチド変異、コピー数の増加および減少、転座、逆位、異常な高度または低度メチル化並びにサイズ特性を用いて、バックグラウンド非腫瘍由来血漿DNA分子から区別することができる。これらの変化は全て独立して起こり得るため、これらの特徴の併用は、血漿中のがんDNAの高感度且つ特異的な検出のための、さらなる利点を与え得る。
A. サイズおよびがん
血漿中の腫瘍由来DNA分子のサイズはまた、モノヌクレオソーム単位のサイズに似ており、がん患者の血漿中に同時に存在しているバックグラウンド非腫瘍由来DNA分子よりも短い。サイズパラメーターは、米国特許出願公開第13/789,553号(あらゆる目的で参照によって組み込まれる)に記載されているように、がんと関連があることが示されている。
血漿中の胎児由来DNAおよび母体由来DNAの両方が分子のサイズおよびメチル化状態の間に関連性を示したことから、腫瘍由来DNA分子は同じ傾向を示すことが予想される。例えば、低メチル化分子は、がん患者の血漿またはがん検査を受ける対象において、高度メチル化分子よりも短いだろう。
B. がん患者における様々な組織のメチル化密度
この例において、肝細胞癌(HCC)患者の血漿および組織試料を解析した。腫瘍の外科的切除の前、およびその1週間後にHCC患者から血液試料を採取した。血液試料の遠心分離後に血漿および軟膜を収集した。切除腫瘍および隣接非腫瘍性肝組織を採取した。血漿および組織試料から抽出したDNA試料を、事前の亜硫酸水素塩処理有りおよび無しの大規模並列配列決定を用いて解析した。がんを有さない4人の健常人から得られた血漿DNAも、対照として解析した。DNA試料の亜硫酸水素塩処理により、非メチル化シトシン残基はウラシルに変換される。下流のポリメラーゼ連鎖反応および配列決定において、これらのウラシル残基はチミジンとして振る舞う。一方、亜硫酸水素塩処理によってメチル化シトシン残基がウラシルに変換されない。大規模並列配列決定の後、配列決定リードをMethy−Pipeを用いて解析して(P Jiang, et al. Methy-Pipe: An integrated bioinformatics data analysis pipeline for whole genome methylome analysis, paper presented at the IEEE International Conference on Bioinformatics and Biomedicine Workshops, Hong Kong, 18 to 21 December 2010)、全てのCGジヌクレオチド位置(すなわち、CpG部位)におけるシトシン残基のメチル化状態を決定した。
図21Aは、HCC患者の手術前血漿および組織試料のメチル化密度を示す表2100である。目的領域(例えば、CpG部位、プロモーター、または反復領域等)のCpGメチル化密度は、ゲノムのCpGジヌクレオチドを被覆するリードの総数に対するCpGメチル化を示すリードの割合を指す。軟膜および非腫瘍性肝組織のメチル化密度は同様であった。全ての常染色体から得られるデータに基づく腫瘍組織の全体メチル化密度は、軟膜および非腫瘍性肝組織のそれよりも25%より低かった。低メチル化は個々の染色体全てにおいて一貫していた。血漿のメチル化密度は非悪性組織およびがん組織の値の間であった。この観察は、がん組織および非がん組織の両方ががん患者の循環DNAに寄与しているという事実と一致している。造血系が、活性な悪性状態を有さない個体における循環DNAの主な供給源であることも示されている(YYN Lui, et al. 2002 Clin Chem; 48: 421-7)。従って、4人の健常対照群から得られた血漿試料も解析した。試料ごとに達成された配列リードの数および配列決定深度を図21Bの表2150に示す。
図22は、常染色体におけるメチル化密度が健常対照群の血漿試料において71.2%〜72.5%の範囲であったことを示す、表220である。これらのデータにより、腫瘍DNAの供給源を有さない個体から得られた血漿試料中のDNAメチル化の予測レベルが示された。がん患者においては、腫瘍組織も血行中にDNAを放出する(KCA Chan et al. 2013 Clin Chem; 59: 211-224); RJ Leary et al. 2012 Sci Transl Med; 4: 162ra154)。HCC腫瘍の低メチル化性質のために、患者の手術前血漿中の腫瘍由来DNAおよび非腫瘍由来DNAの両方の存在は、健常対照群の血漿内レベルと比較した場合のメチル化密度の減少をもたらす。実際に、手術前血漿試料のメチル化密度は、腫瘍組織のメチル化密度および健常対照群の血漿のメチル化密度の間であった。その理由は、がん患者の血漿DNAのメチル化レベルが、腫瘍組織の異常なメチル化の程度(この場合は低メチル化)および循環血液中の腫瘍由来DNAの濃度分率によって影響を受けるためである。腫瘍組織のより低いメチル化密度および循環血液中の腫瘍由来DNAのより高い濃度分率は、がん患者における血漿DNAのより低いメチル化密度をもたらす。大部分の腫瘍は、全体的な低メチル化を示すことが報告されている(JG Herman et al. 2003 N Engl J Med; 349: 2042-2054; MA Gama-Sosa et al. 1983 Nucleic Acids Res; 11: 6883-6894)。従って、HCC試料において見られる現在の知見は、他の型の腫瘍にも適用可能なはずである。
一実施形態では、血漿DNAのメチル化密度を用いることで、腫瘍組織のメチル化レベルが既知である場合に血漿/血清試料中の腫瘍由来DNAの濃度分率を決定することができる。腫瘍組織のメチル化レベル(例えば、メチル化密度)は、腫瘍試料が入手可能である、または腫瘍の生検が入手可能である場合に得ることができる。別の実施形態では、腫瘍組織のメチル化レベルに関する情報は、類似の型の腫瘍群におけるメチル化レベルの調査から得ることができ、この情報(例えば、平均レベルまたはレベル中央値)は、本発明に記載の科学技術を用いて解析される患者に適用される。腫瘍組織のメチル化レベルは、患者の腫瘍組織の解析によって決定、または、同一もしくは類似のがん型を有する他の患者の腫瘍組織の解析から推測することができる。腫瘍組織のメチル化は、一連のメチル化認識プラットフォーム、例えば、限定はされないが、大規模並列配列決定、単一分子配列決定、マイクロアレイ(例えば、オリゴヌクレオチドアレイ)、または質量分析(例えば、Epityper解析、シクアノム社(Sequenom, Inc.))を用いて決定することができる。いくつかの実施形態において、そのような解析は、DNA分子のメチル化状態に敏感な手順、例えば、限定はされないが、シトシン免疫沈降およびメチル化認識制限酵素消化に先行され得る。腫瘍のメチル化レベルが既知である場合、がん患者の血漿中の腫瘍DNAの濃度分率は、血漿メチローム解析後に算出することができる。
血漿メチル化レベル(P)、腫瘍DNA濃度分率(f)、および腫瘍組織メチル化レベル(TUM)の間の関連性は、P=BKG×(1−f)+TUM×fとして記載することができ、式中、BKGは血液細胞および他の内部臓器由来の血漿中のバックグラウンドDNAメチル化レベルである。例えば、全常染色体の全体メチル化密度は、このHCC患者から得られた腫瘍生検組織において(すなわち、この場合はTUM値)、42.9%であることが示された。4人の健常対照群から得られた血漿試料の平均メチル化密度(すなわち、この場合はBKG値)は71.6%であった。手術前血漿の血漿メチル化密度は59.7%であった。これらの値を用いて、fは41.5%であると推定される。
別の実施形態では、腫瘍組織のメチル化レベルは、血漿試料中の腫瘍由来DNAの濃度分率が既知である場合、血漿メチロームデータに基づいて、非侵襲的に推定することができる。血漿試料中の腫瘍由来DNAの濃度分率は、他の遺伝子解析、例えば、前述(米国特許出願公開第13/308,473号;KCA Chan et al. 2013 Clin Chem; 59: 211-24)の、対立遺伝子欠失(GAAL)のゲノムワイド解析および単一ヌクレオチド変異の解析によって、決定することができる。計算は、本実施形態では、fの値が既知でありTUMの値が未知となる以外は同一の、上記の関連性に基づく。推定は、母体血漿データから胎盤組織メチル化レベルを決定する状況において観察されたデータと同様に、全ゲノムに対して、またはゲノムの部分に対して、行うことができる。
別の実施形態では、がんを有する対象とがんを有さない対象を区別するために、メチル化密度のビン内変動または特性を利用することができる。メチル化解析の分解能は、ゲノムを特定のサイズ(例えば、1Mb)のビンに分割することによってさらに増加することができる。そのような実施形態において、各1Mbのbinのメチル化密度は、採取された試料、例えば、軟膜、切除されたHCC組織、腫瘍に隣接する非腫瘍性肝組織および腫瘍切除の前および後に採取された血漿について算出された。別の実施形態では、ビンのサイズは一定でなくてもよい。ある実施において、ビンそれ自体はサイズにおいて異なり得るが、CpG部位の数は各ビン内で一定である。
図23Aおよび図23Bは、HCC患者の軟膜、腫瘍組織、非腫瘍性肝組織、手術前血漿および手術後血漿のメチル化密度を示している。図23Aは、1番染色体における結果のプロット2300である。図23Bは、2番染色体における結果のプロット2350である。
1Mbウィンドウの大部分において、軟膜および腫瘍に隣接する非腫瘍性肝組織のメチル化密度は同様であったが、一方、腫瘍組織のメチル化密度はより低かった。手術前血漿のメチル化密度は、腫瘍組織および非悪性組織のメチル化密度の間である。腫瘍組織内の照合ゲノム領域のメチル化密度は、手術前血漿のメチル化データおよび腫瘍DNA濃度分率を用いて推定することができる。前記方法は、全ての常染色体のメチル化密度値を用いる上記と同じである。記載された腫瘍メチル化の推定は、このより高い分解能の血漿DNAメチル化データを用いて行うこともできる。300kb、500kb、2Mb、3Mb、5Mbまたは5Mb超等の他のビンのサイズを用いることもできる。一実施形態では、ビンのサイズは一定でなくてもよい。ある実施において、ビンそれ自体はサイズにおいて異なり得るが、CpG部位の数は各ビン内で一定である。
C. がん患者および健常人の間の血漿メチル化密度の比較
2100に示されるように、手術前血漿DNAのメチル化密度は、がん患者における非悪性組織のメチル化密度よりも低かった。これは、低メチル化状態であった腫瘍組織由来DNAの存在が原因であり得る。このより低い血漿DNAメチル化密度は、潜在的に、がんの検出用およびモニタリング用の生物マーカーとして用いることができる。がんのモニタリングにおいて、がんが進行中である場合、血漿中のがん由来DNAの量の経時的な増加が起こる。この例において、血漿中の循環がん由来DNAの量の増加は、ゲノムワイドなレベルでの血漿DNAメチル化密度におけるさらなる減少に繋がる。
逆に、がんが治療に応答している場合、血漿中のがん由来DNAの量は経時的に減少する。この例において、血漿中のがん由来DNAの量の減少は、血漿DNAメチル化密度の増加に繋がる。例えば、上皮増殖因子受容体変異を有する肺がん患者が標的療法(例えば、チロシンキナーゼ阻害)によって処置されている場合、血漿DNAメチル化密度の増加は応答を示すものである。その後に、チロシンキナーゼ阻害耐性の腫瘍クローンの発生は、再発を示す血漿DNAメチル化密度の減少と関連している。
血漿メチル化密度測定は連続的に行うことができ、そのような測定値の変化率は、算出して、臨床上の進行または軽快または予後を予測または関連付けに用いることができる。がん組織においては高度メチル化状態であるが正常組織においては低メチル化状態である選択されたゲノム遺伝子座(例えば、いくつかの腫瘍抑制遺伝子のプロモーター領域)において、がんの進行および処置への好ましい応答の間の関連性は、上記のパターンと反対である。
このアプローチが実行可能であることを示すため、腫瘍の外科的切除の前および後にがん患者から採取した血漿試料のDNAメチル化密度を、4人の健常な対照患者から得た血漿DNAと比較した。
表2200は、がん患者の手術前および手術後の血漿試料の全ての、並びに4人の健常健常対照患者の、各常染色体のDNAメチル化密度および常染色体の値の組み合わせ示している。全ての染色体において、手術前血漿DNA試料のメチル化密度は、手術後試料および4人の健常対象から得た血漿試料のメチル化密度よりも低かった。手術前試料および手術後試料の間の血漿DNAメチル化密度における差異により、手術前血漿試料におけるより低いメチル化密度がHCC腫瘍由来のDNAの存在が原因であったという、裏付けになる証拠が得られる。
手術後血漿試料におけるDNAメチル化密度の、健常対照群の血漿試料と同様のレベルへの回復によって、腫瘍由来DNAの大部分が供給源(すなわち、腫瘍)の外科的切除により消失したことが示唆された。これらのデータは、巨大なゲノム領域(例えば、全常染色体または個々の染色体)から入手できるデータを用いて決定される手術前血漿のメチル化密度が、健常対照群のメチル化レベルよりも低いメチル化レベルであり、これにより、がんを有する検査症例の同定(すなわち、診断または検診)が可能であることを示唆している。
手術後血漿のメチル化レベルよりもさらにより低いメチル化レベルが、血漿メチル化レベルが腫瘍量をモニターし、それにより患者におけるがんの進行を予後判定およびモニターするのにも利用することができることも、手術前血漿のデータによって示された。参照値は、健常対照群またはがんのリスクがあるが現在はがんを有していない者の血漿から決定することができる。HCCのリスクがある者には、慢性B型またはC型肝炎感染を有する者、ヘモクロマトーシスを有する者、および肝硬変を有する者が含まれる。
基準値に基づく既定のカットオフを超える(例えば、より低い)血漿メチル化密度値は、非妊娠女性の血漿が腫瘍DNAを有しているかどうかを評価するのに用いることができる。低メチル化状態の循環腫瘍DNAの存在を検出するため、カットオフは、対照集団の値の5もしくは1パーセンタイルよりも低く、または対照の平均メチル化密度値より低い標準偏差の数、例えば、2もしくは3の標準偏差(SD)に基づいて、または中央値倍数(MoM)の決定に基づいて、定義され得る。高度メチル化状態の腫瘍DNAについては、カットオフは、対照集団の値の95もしくは99パーセンタイルよりも高く、または対照の平均メチル化密度値を超える標準偏差の数、例えば、2もしくは3のSDに基づいて、または中央値倍数(MoM)の決定に基づいて、定義され得る。一実施形態では、対照集団は、検査対象と年齢が一致している。年齢の一致は厳密でなくてもよく、年齢帯(例えば、35歳の検査対象に対して、30〜40歳)において行われ得る。
次に、がん患者および4人の対照患者の血漿試料間で、1Mbのビンのメチル化密度を比較した。図示するために、1番染色体の結果を示す。
図24Aは、HCC患者から得た手術前血漿のメチル化密度を示すプロット2400である。図24Bは、HCC患者から得た手術後血漿のメチル化密度を示すプロット2450である。青色のドットは対照患者の結果を表し、赤色のドットはHCC患者の血漿試料の結果を表す。
図24Aに示すように、HCC患者から得た手術前血漿のメチル化密度は、大部分のビンにおいて、対照患者のそれよりも低かった。類似のパターンが他の染色体において観察された。図24Bに示すように、HCC患者から得た手術後血漿のメチル化密度は、大部分のビンにおいて、対照患者のそれと同様であった。類似のパターンが他の染色体において観察された。
検査対象ががんを有しているかどうかを評価するために、検査対象の結果を参照群の値と比較した。一実施形態では、参照群はいくつかの健常対象から成る。別の実施形態では、参照群は、非悪性状態(例えば、慢性B型肝炎感染または肝硬変)を有する対象から成り得る。検査対象および参照群間のメチル化密度における差異が次に定量化され得る。
一実施形態では、参照範囲は対照群の値から得ることができる。次に、参照群の上限または下限からの検査対象の結果における逸脱が、該対象が腫瘍を有するかどうかを決定するために用いられ得る。この量は、血漿中の腫瘍由来DNAの濃度分率並びに悪性組織および非悪性組織間のメチル化レベルにおける差異によって影響を受ける。血漿中の腫瘍由来DNAの濃度分率がより高いほど、検査血漿試料および対照の間により大きなメチル化密度の差異をもたらす。悪性組織および非悪性組織のメチル化レベルにおける差異のより大きいな程度は、検査血漿試料および対照間のより大きなメチル化密度の差異にも関連する。さらに別の実施形態では、様々な参照群が様々な年齢範囲の検査対象に対して選ばれた。
別の実施形態では、4人の対照患者のメチル化密度の平均値およびSDが、各1Mbビンについて算出された。次に、対応するビンについて、HCC患者およびのメチル化密度および対照患者の平均値の間の差異が算出された。一実施形態では、次に、この差異が対応するビンのSDで除算されて、Z値が決定された。言い換えれば、Z値は、対照患者の平均値からのSDの数として表される、検査血漿試料および対照血漿試料の間のメチル化密度の差異を表す。ビンの3より大きいZ値は、HCC患者の血漿DNAが、そのビンにおいて3より大きなSDだけ対照患者よりもより高度なメチル化状態であることを示しており、一方、ビンの−3未満のZ値は、HCC患者の血漿DNAがそのビンにおいて3より大きなSDだけ対照患者よりもより低メチル化状態であることを示している。
図25Aおよび図25Bは、1番染色体の参照として4人の健常対照患者の血漿メチロームデータを用いた、HCC患者の手術前(プロット2500)および手術後(プロット2550)の血漿試料の血漿DNAメチル化密度のZ値を示している。各ドットは、1つの1Mbビンの結果を表している。黒色ドットは、−3〜3のZ値を有するビンを表している。赤色ドットは−3未満のZ値を有するビンを表している。
図26Aは、手術前血漿および手術後血漿のZ値のデータを示す、表2600である。手術前血漿試料における1番染色体上のビンの大部分(80.9%)は−3未満のZ値を有していたが、これは、HCC患者の手術前血漿DNAが対照患者の手術前血漿DNAよりも有意により低いメチル化状態であったことを示している。その反対に、赤色ドットの数は手術後血漿試料において実質的に減少した(1番染色体上のビンの8.3%)が、これは、腫瘍DNAの大部分が循環腫瘍DNAの供給源が外科的切除されたために血行から除去されたことを示唆している。
図26Bは、全常染色体から解析された1Mbビンの参照として4人の健常対照患者を用いた、HCC患者の手術前血漿試料および手術後血漿試料の血漿DNAメチル化密度のZ値を示すCircosプロット2620である。最外側の環は、ヒト常染色体の記号を示している。中央の環は、手術前血漿試料のデータを示している。最内側の環は、手術後血漿試料のデータを示している。各ドットは、1つの1Mbビンの結果を表している。黒色ドットは、−3〜3のZ値を有するビンを表している。赤色ドットは、−3未満のZ値を有するビンを表している。緑色ドットは、3超のZ値を有するビンを表している。
図26Cは、HCC患者の手術前血漿試料および手術後血漿試料の両方における全ゲノムの1MbビンのZ値の分布を示す、表2640である。結果は、HCC患者の手術前血漿DNAが、全ゲノムにおける領域の大部分(1Mbビンの85.2%)において、対照の手術前血漿DNAよりもより低いメチル化状態であったことを示している。それとは反対に、手術後血漿試料における領域の大部分(1Mbビンの93.5%)は、対照と比較して、有意な高度メチル化または低メチル化を示さなかった。これらのデータは、このHCCの天然において主に低メチル化状態である腫瘍DNAの大部分が、手術後血漿試料中に存在していなかったことを示している。
一実施形態では、−3未満のZ値を有するビンの数、割合または比率は、がんが存在するかどうかを示すために用いることができる。例えば、表2640に示されるように、解析された2734のbinのうち2330(85.2%)が手術前血漿において−3未満のZ値を示したが、解析された2734のビンのうち171のみ(6.3%)が手術後血漿において−3未満のZ値を示した。前記データは、手術前血漿中の腫瘍DNA量が手術後血漿中の腫瘍DNA量よりもかなり大きかったことを示している。
びんの数のカットオフ値は、統計手法を用いて決定され得る。例えば、ビンのおよそ0.15%は、正常分布に基づいて−3未満のZ値を有することが予測される。従って、ビンのカットオフ数は解析されているビンの総数の0.15%であり得る。言い換えれば、非妊娠個体から得られれた血漿試料が0.15%よりも多い、−3未満のZ値を有するビンを示す場合、血漿中の低メチル化DNAの供給源、すなわち、がんが存在する。例えば、この例において解析された2734の1Mbビンのうちの0.15%は、約4のビンである。この値をカットオフとして用いると、手術前血漿試料および手術後血漿試料の両方が低メチル化腫瘍由来DNAを含有していたが、その量は、手術後血漿試料よりも、手術前血漿試料においてかなり多かった。4人の健常対照患者において、いずれのビンも、有意な高度メチル化または低メチル化を示さなかった。他のカットオフ値(例えば、1.1%)を用いることもでき、用いられるアッセイの要求に応じて異なり得る。他の例として、カットオフ率は、統計分布、並びに所望の感度および許容できる特異度に応じて異なり得る。
別の実施形態では、カットオフ値は、幾人かのがん患者およびがんを有さない個体を解析することによる受信者動作特性(ROC)曲線解析によって、決定され得る。このアプローチの特異度をさらに確認するために、非悪性状態(C06)の診察を求める患者から得られた血漿試料を解析した。ビンの1.1%が−3未満のZ値を有していた。一実施形態では、様々なレベルの疾病状態を分類するために、様々な閾値が用いられ得る。より低い閾値率を用いることで良性症状から健常状態を区別することができ、より高い閾値率を用いることで悪性腫瘍から良性症状を区別することができる。
大規模並列配列決定を用いる血漿低メチル化解析の診断能は、特定クラスの反復領域(例えば、長鎖散在反復配列−1(LINE−1))のポリメラーゼ連鎖反応(PCR)に基づく増幅を用いて得られるそれよりも優れていると思われる(P Tangkijvanich et al. 2007 Clin Chim Acta; 379:127-133)。この所見の1つの可能な説明は、低メチル化は腫瘍ゲノムの広範にわたるが、ゲノム領域毎にある程度の不均一性を有するということである。
実際に、参照対象の平均血漿メチル化密度がゲノム全域で異なることが観察された(図56)。図56中の赤色ドットのそれぞれは、32人の健常対象間の、1つの1Mbビンの平均メチル化密度を示している。プロットは、ゲノム全域で解析された全ての1Mbビンを示している。各ボックス内の数字は染色体数を表している。平均メチル化密度がビン毎に異なることが観察された。
単純なPCRに基づくアッセイは、そのような領域毎の不均一性をその診断アルゴリズムの考慮に入れることができないだろう。そのような不均一性は、健常人の間に観察されるメチル化密度の範囲を広げる。メチル化密度のより大規模な減少は、低メチル化を示すと見なされる試料に必要とされる。これは、検査感度の減少をもたらす。
対照的に、大規模並列配列決定に基づくアプローチでは、ゲノムが1Mbビン(または他のサイズのビン)に分割され、そのようなビンのメチル化密度が個々に測定される。このアプローチは、異なるゲノム領域にわたるベースラインメチル化密度における変動の影響を減少させるが、これはそのような領域が試験試料および対照間で比較されるためである。実際に、同じビン内で、32人の健常対照群間の個人間変動は比較的小さかった。ビンの95%は、32人の健常対照群間で1.8%以下の変動係数(CV)を有していた。なお、がんに関連する低メチル化の検出感度をさらに増強するため、比較を複数のゲノム領域にわたって行うことができる。ただ1つの領域が検査された時にがん試料が特定領域における低メチル化を偶然示さない場合の生物学的変動の影響から保護されることから、感度は複数のゲノム領域を検査することにより増強されであろう。
対照および試験試料間の対応するゲノム領域のメチル化密度を比較し(例えば、各ゲノム領域を別々に検査し、次にかかる結果を組み合わせる)、複数のゲノム領域に対してこの比較を行うアプローチは、がんに関連する低メチル化の検出においてより高い信号雑音比を有する。この大規模並列配列決定アプローチを例として示す。複数のゲノム領域のメチル化密度を決定し、対照および試験試料間の対応する領域のメチル化密度の比較を可能にし得る他の方法論は、同様の効果を達成すると予想される。例えば、特定のゲノム領域に由来する血漿DNA分子を標的とし、該領域のメチル化レベルを決定することができるハイブリダイゼーションプローブまたは分子反転(molecular inversion)プローブは、所望の効果を達成するように設計することができる。
さらに別の実施形態では、がんが存在するかどうかを決定するために、または血漿DNAメチル化のレベルの連続的変化をモニタリングするために、全てのビンのZ値の和が用いられ得る。腫瘍DNAの全体的な低メチル化性質のため、Z値の和は、健常対照群よりも、がんを有する個体から採取された血漿においてより低くなるだろう。HCC患者の手術前および手術後の血漿試料のZ値の和は、それぞれ、−49843.8および−3132.13であった。
他の実施形態では、血漿DNAのメチル化レベルを調べるために、他の方法が用いられ得る。例えば、シトシン残基の総量に対するメチル化シトシン残基の割合は、質量分析(ML Chen et al. 2013 Clin Chem; 59: 824-832)または大規模並列配列決定を用いることで決定することができる。しかし、シトシン残基の大部分はCpGジヌクレオチド配列に存在しないため、全シトシン残基におけるメチル化シトシンの割合は、CpGジヌクレオチドの配列において推定されるメチル化レベルと比較した場合、比較的小さくなるだろう。HCC患者から得られた組織および血漿試料並びに健常対照群から得ら得られた4つの血漿試料のメチル化レベルを決定した。ゲノムワイドな大規模並列配列決定データを用いて、CpG配列、あらゆるシトシン、CHG配列およびCHH配列におけるメチル化レベルを測定した。Hはアデニン、チミンまたはシトシン残基を指す。
図26Dは、CHH配列およびCHG配列を用いた場合の対照血漿試料のいくつかと重複する、腫瘍組織および手術前血漿試料のメチル化レベルを示す、表2660である。腫瘍組織および手術前血漿試料のメチル化レベルは、CpGおよび不特定シトシンの両方において、軟膜、非腫瘍性肝組織、手術後血漿試料および健常対照血漿試料と比較して一貫してより低かった。しかし、メチル化CpGに基づくデータ、すなわち、メチル化密度は、メチル化シトシンに基づくデータよりも広いダイナミックレンジを示した。
他の実施形態では、血漿DNAのメチル化状態は、メチル化シトシンに対する抗体を用いる方法(例えば、メチル化DNA免疫沈降(MeDIP))によって決定され得る。しかし、これらの方法の精度は、抗体結合における変動性のために、配列決定に基づく方法よりも劣ることが予想される。さらに別の実施形態では、血漿DNA中の5−ヒロドキシメチルシトシンのレベルが決定され得る。これに関して、5−ヒロドキシメチルシトシンのレベルの減少は、ある特定のがん(例えば、メラノーマ)の後成的特徴であることが分かっている(CG Lian, et al. 2012 Cell; 150: 1135-1146)。
HCCに加えて、このアプローチが他のがん型に適応可能かどうかも調べた。肺腺癌(CL1およびCL2)を有する2人の患者、上咽頭癌(NPC1およびNPC2)を有する2人の患者、結腸直腸がん(CRC1およびCRC2)を有する2人の患者、転移性神経内分泌腫瘍(NE1)を有する1人の患者および転移性平滑筋肉腫(SMS1)を有する1人の患者から得られた血漿試料を解析した。これらの対象の血漿DNAを亜硫酸水素塩によって変換し、一端の50bpについて、イルミナ社製HiSeq2000プラットフォームを用いて配列決定した。上記の4人の健常対照患者を、これら8人の患者の解析のための参照群として用いた。一端の配列リードの50bpを用いた。ゲノム全体を1Mbビンに分割した。参照群から得られたデータを用いて、各ビンのメチル化密度の平均値およびSDを算出した。次に、8人のがん患者の結果を、参照群の平均値からのSDの数値を示すZ値として表した。正の値は検査例のメチル化密度が参照群の平均値よりも低いことを示しており、逆に、負の値は検査例のメチル化密度が参照群の平均値よりも高いことを示す。配列リードの数および試料毎に達成された配列決定深度を、図27Iの表2780に示す。
図27A−Hは、本発明の実施形態による、8人のがん患者のメチル化密度のCircosプロットである。各ドットは1Mbビンの結果を表す。黒色ドットは−3〜3のZ値を有するビンを表す。赤色ドットは−3未満のZ値を有するビンを表す。緑色ドットは3より大きいZ値を有するビンを表す。2本の連続線間の間隔はZ値の差異が20であることを表す。
肺がん、上咽頭癌、結腸直腸がんおよび転移性神経内分泌腫瘍を含む大部分のがん型を有する患者のゲノム全域の複数の領域において、有意な低メチル化が観察された。興味深いことに、低メチル化に加えて、転移性平滑筋肉腫を有する症例において、有意な高度メチル化がゲノム全域の複数の領域において観察された。平滑筋肉腫の胚起源は中胚葉であるが、一方、残り7人の患者における他のがん型の胚起源は外胚葉である。従って、肉腫のDNAメチル化パターンは癌腫のDNAメチル化パターンと異なる場合があり得る。
この例から理解できるように、血漿DNAのメチル化パターンは、異なる型のがんを識別するのに有用であり得、この例では癌腫および肉腫の識別である。これらのデータは、前記アプローチを、悪性腫瘍に関連する異常な高度メチル化を検出するのに用いることができることも示唆している。これら8つ全ての例では、血漿試料のみが利用可能であり、腫瘍組織は解析されなかった。これにより、腫瘍組織の事前のメチル化特性またはメチル化レベルが無くとも、記載された方法を用いることで血漿中で腫瘍由来DNAを容易に検出できることが示された。
図27Jは、異なる悪性腫瘍を有する患者の血漿中のゲノム全体における1MbビンのZ値分布を示す、表2790である。−3未満、−3〜3および3を超えるZ値を有するビンの割合が各例について示される。全ての例において、ビンの5%超が−3未満のZ値を有していた。従って、試料をがん陽性であると分類するために、5%のビンが有意に低メチル化されているというカットオフを用いる場合、これらの例は全て、がん陽性に分類されるだろう。結果は、低メチル化が様々ながん型における一般的な現象であり得、血漿メチローム解析が様々ながん型を検出するのに有用であろうことを示している。
D. 方法
図28は、本発明の実施形態に従って、生物の生物試料を解析してがんのレベルの分類を決定する、方法2800のフローチャートである。生物試料は、正常細胞由来のDNA含み、がんと関連する細胞由来のDNAを潜在的に含み得る。DNAの少なくとも一部は、生物試料中で無細胞DNAであり得る。
ブロック2810において、生物試料由来の複数のDNA分子が解析される。DNA分子の解析には、生物のゲノム内でのDNA分子の位置を決定し、該DNA分子が一つまたは複数の部位においてメチル化されているかどうかを決定することが含まれ得る。前記解析はメチル化認識配列決定から配列リードを得ることによって行うことができるため、前記解析は、前記DNAから先に得られたデータに対してのみ行われ得る。他の実施形態では、前記解析は、実際の配列決定または他のデータを得るための能動的ステップを含み得る。
ブロック2820において、複数の部位のそれぞれについて、部位においてメチル化されているDNA分子のそれぞれの数が決定される。一実施形態では、部位はCpG部位であり、本明細書に記載の一つまたは複数の判定基準を用いて選択されるある特定のCpG部位のみであり得る。メチル化されているDNA分子の数は、正規化が特定部位における分析されたDNA分子の総数(例えば、配列リードの総数)を用いて行われたならば、非メチル化状態である数の決定に等しい。例えば、領域のCpGメチル化密度の増加は、同一領域の非メチル化CpGの密度の減少に等しい。
ブロック2830において、複数個の部位においてメチル化されているDNA分子のそれぞれの数に基づいて、第一メチル化レベルが算出される。第一メチル化レベルは、複数個の部位に対応するDNA分子の数に基づいて決定されるメチル化密度に対応し得る。部位は複数の遺伝子座またはただ1つの座位に対応し得る。
ブロック2840において、第一メチル化レベルが第一カットオフ値と比較される。第一カットオフ値は参照メチル化レベルであってもよいし、あるいは参照メチル化レベルと関連していてもよい(例えば、正常レベルからの特定の距離)。参照メチル化レベルは、がんを有さない個人の試料から、または生物のがんと関連していないことが知られている生物の遺伝子座から、決定され得る。第一カットオフ値は、生物試料の検査に先立って得られた、事前の該生物の生物試料から得られた参照メチル化レベルから確立されてもよい。
一実施形態では、第一カットオフ値は、健常生物から得られた生物試料から確立された参照メチル化レベルからの、特定の距離(例えば、標準偏差の特定の値)である。比較は、第一メチル化レベルおよび参照メチル化レベル間の差異を決定し、次にその差異を第一カットオフ値に対応する閾値と比較することによって行うことができる(例えば、メチル化レベルが参照メチル化レベルと統計学的に異なるかどうかを決定するために)。
ブロック2850において、がんのレベルの分類は、前記比較に基づいて決定される。がんのレベルの例は、対象ががんまたは前癌状態を有するかどか、または対象ががんを発症させる可能性が増加しているかが含まれる。一実施形態では、第一カットオフ値は、対象から事前に得られた試料から決定され得る(例えば、参照メチル化レベルは事前の試料から決定され得る)。
いくつかの実施形態において、第一メチル化レベルは、メチル化レベルが閾値を超えている領域の数に対応し得る。例えば、生物のゲノムの複数の領域が特定され得る。本明細書に記載の判定基準(例えば、ある特定の長さまたはある特定の数の部位を有する)を用いて、領域は特定され得る。一つまたは複数の部位(例えば、CpG部位)は、各領域内で特定され得る。領域メチル化レベルは各領域について算出され得る。第一メチル化レベルは第一領域についてである。各領域メチル化レベルは、領域間で同じであっても異なっていてもよいそれぞれの領域カットオフ値と比較される。第一領域の領域カットオフ値は第一カットオフ値である。それぞれの領域カットオフ値は、参照メチル化レベルからの特定の量(例えば、0.5)であるため、非がん対象から決定され得る参照からの有意差を有する領域のみが計数され得る。
領域メチル化レベルがそれぞれの領域カットオフ値を超えている領域の第一の数は、決定され、閾値と比較されて、分類が決定され得る。ある実施において、閾値は割合である。閾値の第一の数の比較は、第一の領域数を第二の領域数(例えば、全ての領域)で除算し、その後、例えば、正規化過程の一部として、閾値と比較することを含み得る。
上記のように、生物試料中の腫瘍DNAの濃度分率は、第一カットオフ値を算出するのに用いられ得る。濃度分率は最小値より大きいことが単純に推定され得るが、一方、最小値より低い濃度分率を有する試料は、例えば解析に適していないものとして、警告され得る。最小値は、参照メチル化レベルと比較した腫瘍のメチル化レベルにおける期待される差異に基づいて決定され得る。例えば、差異が0.5(例えば、カットオフ値として用いられる)である場合、ある特定の腫瘍の濃度は、この差異を見るために充分高いことが必要とされる。
方法1300からの特定の手法は、方法2800に応用され得る。方法1300において、コピー数変動が腫瘍において決定され得る(例えば、腫瘍の第一染色体領域が、その腫瘍の第二染色体領域と比較してコピー数変化を有しているかどうかが検査され得る)。従って、方法1300により、腫瘍が存在することが推定され得る。方法2800において、試料は、いかなるコピー数の特徴にもかかわらず、いずれの腫瘍が存在する徴候があるかどうかが検査され得る。前記2つの方法のいくつかの手法は同様であり得る。しかし、方法2800のカットオフ値およびメチル化パラメーター(例えば、正規化されたメチル化レベル)では、がんDNAおよびコピー数変化を有し得るいくつかの領域を有する非がん性DNAの混合物の参照メチル化レベルからの差異とは対照的に、非がん性DNAの参照メチル化レベルからの統計的有意差が検出され得る。従って、方法2800の基準値は、がんを含まない試料から、例えば、がんを有さない生物から、または同一患者の非がん性組織から(例えば、事前に採取された血漿、または細胞DNAから決定され得る、がんを有さないことが知られている同時期に得られた試料から)、決定され得る。
E. 血漿DNAメチル化解析を用いる検出される腫瘍DNA最小濃度分率の予測
血漿DNAのメチル化レベルを用いてがんを検出するアプローチの感度を測定する1つの方法は、対照の血漿DNAメチル化レベルと比較した場合の血漿DNAメチル化レベルにおける変化を明らかにするのに必要な、最小の腫瘍由来DNA濃度分率と関連している。検査感度は、健常対照群または血液細胞DNAにおける腫瘍組織およびベースライン血漿DNAメチル化レベル間のDNAメチル化における差異の程度にも依存している。血液細胞は、健常人の血漿中のDNAの主な供給源である。差異が大きいほど、がん患者は非がん性個体からより容易に区別され得、血漿中の腫瘍由来物のより低い検出限界およびがん患者を検出する際のより高い臨床的感度として反映されるだろう。さらに、健常対象または異なる年齢の対象における血漿DNAメチル化の変動(G Hannum et al. 2013 Mol Cell; 49: 359-367)も、がんの存在と関連するメチル化変化を検出する感度に影響するだろう。健常対象における血漿DNAメチル化の変動が小さいほど、少量のがん由来DNAの存在によって引き起こされる変化の検出はより容易になるだろう。
図29Aは、分布が正規分布に従うことを仮定する、参照対象におけるメチル化密度の分布を示すプロット2900であり、この解析は、1つのメチル化密度値(例えば、全常染色体または特定の染色体のメチル化密度)のみを与える、各血漿試料に基づいている。それにより、解析の特異度がどのように影響を受けるかが説明される。一実施形態では、参照対象の平均DNAメチル化密度を3SD下回るカットオフが、検査試料が参照対象から得られた試料よりも有意により低いメチル化状態であるかどうかを決定するために用いられる。このカットオフが用いられる場合、非がん性対象のおよそ0.15%が、がんを有すると分類される偽陽性の結果を有することとなり、99.85%の特異度に帰着することが予想される。
図29Bは、参照対象およびがん患者におけるメチル化密度の分布を示す、プロット2950である。カットオフ値は、参照対象のメチル化密度の平均値を3SD下回る。がん患者のメチル化密度の平均値がカットオフ値を2SD下回る(すなわち、参照対象の平均値を5SD下回る)場合、がん対象の97.5%は、カットオフ値を下回るメチル化密度を有すると予想される。言い換えれば、1つのメチル化密度値が各対象に与えられる場合、例えば、ゲノム全体、全常染色体または特定の染色体の全体メチル化密度が解析される場合、予想感度は97.5%となるだろう。前記2つの集団の平均メチル化密度間の差異は、2つの因子、すなわち、がん性組織および非がん性組織間のメチル化レベルにおける差異の程度、並びに血漿試料中の腫瘍由来DNAの濃度分率に影響を受ける。これら2つのパラメーターの値が高いほど、これら2つの集団のメチル化密度値の差異はより大きくなるだろう。さらに、2つの集団のメチル化密度分布のSDが低いほど、それら2つの集団のメチル化密度分布の重複はより少なくなる。
以下で、仮説例を用いてこの概念を説明する。腫瘍組織のメチル化密度がおよそ0.45であり、健常対象の血漿DNAのメチル化密度がおよそ0.7であると仮定する。これらの仮定値は、常染色体の全体メチル化密度が42.9%であり、健常対照群から得られた血漿試料の常染色体の平均メチル化密度が71.6%であった、HCC患者から得られた値に類似している。ゲノム全体の血漿DNAメチル化密度を測定するCVが1%であると仮定すると、カットオフ値は、0.7×(100%−3×1%)=0.679、になる。97.5%の感度を達成するために、がん患者の血漿DNAの平均メチル化密度は、およそ、0.679−0.7×(2×1%)=0.665である必要がある。fにより血漿試料中の腫瘍由来DNAの濃度分率を表す。fは、(0.7−0.45)×f=0.7−0.665、として算出され得る。これから、fはおよそ14%である。この計算から、血漿中で検出が可能な最小濃度分率は14%であり、その結果、ゲノム全体の全体メチル化密度が診断パラメーターとして使用される場合に、97.5%の診断鋭敏度が達成されることが推定される。
次に、HCC患者から得られたデータに対してこの解析を行った。これを説明するために、全ての常染色体から推定された値に基づく1回のみのメチル化密度測定を各試料に行った。健常対象から得られた血漿試料間の平均メチル化密度は71.6%であった。これら4つの試料のメチル化密度のSDは0.631%であった。従って、血漿メチル化密度のカットオフ値は、−3未満のZ値および99.85%の特異度を達成するために、71.6%−3×0.631%=69.7%である必要がある。97.5%の感度を達成するために、がん患者の平均血漿メチル化密度は、カットオフを2SD下回っている(すなわち、68.4%である)必要がある。腫瘍組織のメチル化密度は42.9%であったため、式:P=BKG×(1−f)+TUM×fを用いると、fは少なくとも11.1%である必要がある。
別の実施形態では、異なるゲノム領域のメチル化密度は、例えば、図25Aまたは図26Bに示されるように、別々に解析され得る。言い換えれば、複数のメチル化レベル測定が各試料に対して行われる。以下に示すように、有意な低メチル化は血漿中のさらにより低い腫瘍DNA濃度分率において検出され得るため、がん検出における血漿DNAメチル化解析の診断能は増強される。参照集団からのメチル化密度の有意な逸脱を示すゲノム領域の数が計数され得る。次に、ゲノム領域の数がカットオフ値と比較されて、検査されたゲノム領域の集団(例えば、ゲノム全体のの1Mbビン)にわたる血漿DNAの全体的な有意な低メチル化が存在するかどうかが決定され得る。カットオフ値は、がんを有さない参照対象の1群の解析によって確立されるか、または数学的に、例えば、正規分布関数に従って得られる。
図30は、健常対象およびがん患者の血漿DNAのメチル化密度の分布を示す、プロット3000である。各1Mbビンのメチル化密度が参照群の対応する値と比較される。有意な低メチル化(参照群の平均値を3SD下回る)を示すビンの割合が決定された。腫瘍由来DNAが血漿試料中に存在しているかどうかを決定するために、有意な低メチル化状態である10%のカットオフが用いられた。検査の所望の感度および特異度に応じて、5%、15%、20%、25%、30%、35%、40%、45%、50%、60%、70%、80%または90%等の他のカットオフ値も用いることができる。
例えば、腫瘍由来DNAを含有しているとして試料を分類するために、10%の、有意な低メチル化(−3未満のZ値)を示す1Mbビンがカットオフとして用いられ得る。参照群よりも有意により低メチル化状態であるビンが10%を超えて存在する場合、その試料はがん検査において陽性に分類される。各1Mbビンにおいて、参照群の平均メチル化密度を3SD下回るカットオフが、有意により低メチル化状態であると試料を定義するために用いられる。1Mbビンのそれぞれについて、がん患者の平均血漿DNAメチル化密度が参照対象の平均血漿DNAメチル化密度よりも1.72SD低い場合、がん患者のいずれか特定のビンのメチル化密度値がカットオフよりも低く(すなわち、−3未満のZ値)、陽性の結果を与える、10%の確率が存在する。次に、ゲノム全体の全ての1Mbビンを調べる場合、ビンのおよそ10%が、有意により低いメチル化密度を有する(すなわち、−3未満のZ値)という陽性の結果を示すことが予想される。健常対象の血漿DNAの全体メチル化密度はおよそ0.7であり、各1Mbビンの血漿DNAメチル化密度測定の変動係数(CV)が1%であると仮定すると、がん患者の血漿DNAの平均メチル化密度は、0.7×(100%−1.72×1%)=0.68796になる必要があるだろう。fを血漿中の腫瘍由来DNAの濃度分率とすると、この平均血漿DNAメチル化密度が得られる。腫瘍組織のメチル化密度が0.45であると仮定すると、fは下記式を用いて算出され得、
式中、
は、参照個体中の血漿DNAの平均メチル化密度を表し;
は、がん患者の腫瘍組織のメチル化密度を表し;
は、がん患者の血漿DNAの平均メチル化密度を表す。
この式を用いると、(0.7−0.45)×f=0.7−0.68796となる。従って、最少濃度分率はこのアプローチを用いて検出され得、4.8%と推定される。感度は、有意により低メチル化状態であるビンのカットオフ率を、例えば、10%から5%まで減少させることにより、さらに増強され得る。
上記の例で示されたように、この方法の感度は、がん性組織および非がん性組織(例えば、血液細胞)間のメチル化レベルにおける差異の程度によって決定される。一実施形態では、非がん対象の血漿DNAおよび腫瘍組織間のメチル化密度において大きな差異を示す染色体領域のみが選択される。一実施形態では、0.5より大きなメチル化密度における差異を有する領域のみが選択される。他の実施形態では、0.4、0.6、0.7、0.8または0.9の差異が、適切な領域を選択するために用いられ得る。さらに別の実施形態では、ゲノム領域の物理的サイズは固定されない。代わりに、ゲノム領域は、例えば、固定の読み深度または固定のCpG部位数に基づいて定義される。これらのゲノム領域の複数におけるメチル化レベルが各試料において評価される。
図31は、健常対象の血漿DNAおよびHCC患者の腫瘍組織の平均値の間のメチル化密度における差異の分布を示す、グラフ3100である。正の値はメチル化密度が健常対象の血漿DNAにおいてより高いことを示し、負の値はメチル化密度が腫瘍組織においてより高いことを示す。
一実施形態では、がん組織および非がん性組織のメチル化密度間で最も大きな差異を有するビン(例えば、0.5超の差異を有するビン)が、腫瘍がこれらのビンにおいて低メチル化状態であるか高度メチル化状態であるかにかかわらず、選択され得る。血漿中の腫瘍由来DNAの濃度分率の検出限界は、がん対象および非がん対象間の血漿DNAメチル化レベルの分布間の差異がより大きいために、これらのビンに焦点を当てることにより低下し得、血漿中の腫瘍由来DNAが同じ濃度分率が与えられ得る。例えば、0.5超の差異を有するビンのみが用いられ、ビンの10%が有意により低メチル化状態であるというカットオフが採用されて検査個体ががんを有するかどうかが決定される場合、検出される腫瘍由来DNAの最小濃度分率(f)は、下記式を用いて算出され得、
式中、
は、参照個体における血漿DNAの平均メチル化密度を表し;
は、がん患者における腫瘍組織のメチル化密度を表し;
は、がん患者における血漿DNAの平均メチル化密度を表す。
一方、参照対象の血漿および腫瘍組織間のメチル化密度における差異は少なくとも0.5である。そのとき、0.5×f=0.7−0.68796となり、f=2.4%である。従って、がん組織および非がん性組織間のメチル化密度においてより大きな差異を有するビンに焦点を当てることにより、腫瘍由来DNA分率の下限は4.8%から2.4%に低下され得る。どのビンががん組織および非がん性組織(例えば、血液細胞)間でより大きな程度のメチル化差異を示すかに関する情報は、他の個体から得られる同じ臓器または同じ組織型の腫瘍組織から決定され得る。
別の実施形態では、パラメーターは全てのビンの血漿DNAのメチル化密度から得られ、がん組織および非がん性組織間のメチル化密度における差異が考慮され得る。より大きな差異を有するビンはより重い重量が与えられ得る。一実施形態では、各ビンのがん組織および非がん性組織間のメチル化密度における差異は、最終パラメーターを算出する際の特定のビンならば、重量として直接的に用いられ得る。
さらに別の実施形態では、異なるがん型は、異なるパターンの腫瘍組織におけるメチル化を有し得る。がん特異的な重量特性は特定のがん型のメチル化の程度から得られ得る。
さらに別の実施形態では、メチル化密度のビンの間の関連性が、がんを有する対象およびがんを有さない対象において決定され得る。図8において、小数のビンにおいて、腫瘍組織が参照対象の血漿DNAよりもよりメチル化状態であったことが観察できる。従って、最も極端な差異の値(例えば0.5超の差異および0未満の差異)を有するビンが選択され得る。次に、検査個体ががんを有するかどうかを示すために、これらのビンのメチル化密度の比が用いられ得る。他の実施形態では、異なるビンのメチル化密度の差異および商が、ビンの間の関連性を示すためのパラメーターとして用いられ得る。
HCC患者から得られたデータにより示される、複数のゲノム領域のメチル化密度を用いて腫瘍を検出または評価するためのアプローチの検出感度をさらに評価した。まず、手術前血漿由来のリードを健常対照群の血漿試料由来のリードと混合して、20%〜0.5%の範囲の腫瘍DNA濃度分率を含有する血漿試料を模倣した。次に、−3未満のZ値と等しいメチル化密度を有する(ゲノム全体における2,734のビン中の)1Mbビンの割合を計数した。血漿中の腫瘍DNA濃度分率が20%であった場合に、ビンの80.0%が有意な低メチル化を示した。10%、5%、2%、1%および0.5%の血漿中の腫瘍DNA濃度分率に対応するデータは、それぞれ、67.6%、49.7%、18.9%、3.8%および0.77%の低メチル化を示すビンであった。対照試料において−3未満のZ値を示すビンの数の理論限界は0.15%であるため、我々のデータは、腫瘍濃度分率がたった0.5%であった場合でも、理論上のカットオフ限界を超えるさらに多くのビン(0.77%)が存在したことを示している。
図32Aは、血漿試料が5%または2%の腫瘍DNAを含有した場合の、配列決定深度の減少の影響を示す、表3200である。有意な低メチル化を示す高い割合のビン(0.15%超)は、平均配列決定深度が1倍体ゲノムあたりたった0.022回であった場合でも検出され得る。
図32Bは、4人の健常対照患者の血漿、HCC患者の軟膜、正常肝組織、腫瘍組織、手術前血漿試料および手術後血漿試料における反復領域および非反復領域のメチル化密度を示す、グラフ3250である。がん組織および非がん性組織の両方において、反復領域が非反復領域よりもよりメチル化されていた(より高いメチル化密度)ことが観察され得る。しかし、反復領域および非反復領域間のメチル化における差異は、腫瘍組織と比較した場合、非がん性組織および健常対象の血漿DNAにおいて、より大きかった。
結果として、がん患者の血漿DNAは、非反復領域よりも、反復領域におけるメチル化密度においてより大きな減少を示した。4人の健常対照群の平均値およびHCC患者間の血漿DNAメチル化密度における差異は、反復領域および非反復領域において、それぞれ0.163および0.088であった。また、手術前血漿試料および手術後血漿試料に関するデータは、メチル化密度における変化のダイナミックレンジが非反復領域においてよりも反復領域においてより大きかったことを示した。一実施形態では、反復領域の血漿DNAメチル化密度は、患者がんに冒されているかどうかの決定または疾患増悪のモニタリングのために用いられ得る。
前述の通り、参照対象の血漿におけるメチル化密度の変動は、がん患者を非がん個体と区別する正確さにも影響を与える。メチル化密度の分布がより密接であるほど(すなわち、標準偏差がより小さいほど)、がん対象および非がん対象の区別がより正確になる。別の実施形態では、1Mbビンのメチル化密度の変動係数(CV)が、参照群における血漿DNAメチル化密度の変動性が小さいビンを選択するための判定基準として用いられ得る。例えば、1%未満のCVを有するビンのみが選択される。他の値、例えば0.5%、0.75%、1.25%および1.5%も、メチル化密度の変動性が小さいビンを選択するための判定基準として用いることができる。さらに別の実施形態では、選択判定基準は、ビンのCV並びにがん組織および非がん性組織間のメチル化密度における差異の両方を含み得る。
メチル化密度は、腫瘍組織のメチル化密度が既知である場合の血漿試料中の腫瘍由来DNAの濃度分率を推定するのにも用いることができる。この情報は、患者の腫瘍の解析によって、または同じがん型を有する幾人かの患者から得られた腫瘍の調査から、得ることができる。前述の通り、血漿メチル化密度(P)は下記式を用いて表現することができ、
式中、BKGは血液細胞および他の臓器から得られたバックグラウンドメチル化密度、TUMは腫瘍組織におけるメチル化密度であり、fは血漿試料中の腫瘍由来DNAの濃度分率である。これは以下のように書き換えることができる。
BKGの値は、がんが存在していない時点の患者の血漿試料を解析することによって、またはがんを有さない個体から成る参照群の調査から、決定することができる。従って、血漿メチル化密度を測定した後、fを決定することができる。
F. 他の方法との併用
本明細書に記載のメチル化解析アプローチは、血漿中の腫瘍由来DNAの遺伝子変化に基づく他の方法と併用して用いることができる。そのような方法の例には、がん関連染色体異常(KCA Chan et al. 2013 Clin Chem; 59:211-224; RJ Leary et al. 2012 Sci Transl Med; 4:162ra154)および血漿におけるがん関連単一ヌクレオチド変異(KCA Chan et al. 2013 Clin Chem; 59:211-224)の解析が含まれる。メチル化解析アプローチにはそれらの遺伝学的アプローチに優る利点が存在する。
図21Aに示すように、腫瘍DNAの低メチル化は、ゲノムのほぼ全体にわたって分布する領域を含む全体的な現象である。従って、全ての染色体領域からのDNA断片は、患者における血漿/血清DNAへの腫瘍由来低メチル化DNAの潜在的寄与に関して、有益である。対照的に、染色体異常(染色体領域の増幅または欠失)はいくつかの染色体領域に存在するのみであり、腫瘍組織における染色体異常を有さない領域からのDNA断片は解析において有益ではない(KCA Chan et al. 2013 Clin Chem; 59: 211-224)。同様に、ほんの数千の単一ヌクレオチド変化各がんゲノムにおいて観察される(KCA Chan et al. 2013 Clin Chem; 59: 211-224)。これらの単一ヌクレオチド変化と重複しないDNA断片は、腫瘍由来DNAが血漿中に存在しているかどうかを決定する際に有益ではない。従って、本メチル化解析アプローチは、循環血液中でがんに関連する変化を検出するそれらの遺伝学的アプローチよりも潜在的により対費用効果が高い。
一実施形態では、血漿DNAメチル化解析の対費用効果の高さは、最も有益な領域からのDNA断片、例えば、がん組織および非がん性組織間で最も高度に示差的なメチル化差異を有する領域を富化することによって、さらに増強され得る。これらの領域を富化する方法の例には、ハイブリダイゼーションプローブ(例えば、ニンブルジェン社製SeqCapシステムおよびアジレント社製SureSelect Target Enrichmentシステム)、PCR増幅および固相ハイブリダイゼーションの使用が含まれる。
G. 組織特異的解析/提供者
腫瘍由来細胞は隣接臓器または遠隔臓器に浸潤および転移する。浸潤された組織または転移巣は、細胞死の結果としてDNAを血漿中に供給する。がん患者の血漿中のDNAのメチル化特性を解析し、組織特異的メチル化サインの存在を検出することにより、疾患経過に関与する組織型を検出することができる。このアプローチは、がん過程に関与する組織の非浸潤性解剖学的走査を提供することで、原発部位および転移部位として関わる臓器の特定に役立つ。また、血漿中の病変臓器のメチル化サインの相対濃度をモニタリングすることにより、それらの臓器の腫瘍量を評価し、その臓器におけるがん過程が増悪中であるまたは改善中であるまたは治癒が完了しているかどうかを決定することが可能となる。例えば、遺伝子Xが肝臓において特異的にメチル化されているとする。その場合、がん(例えば、結腸直腸がん)によるその肝臓の転移性関与は、血漿中の遺伝子X由来のメチル化配列の濃度を増加させると予想される。遺伝子Xと似たメチル化特徴を有する別の配列または配列群も存在するだろう。その場合、そのような配列から得られた結果を組み合わせることができる。同様の考察が、他の組織、例えば、脳、骨、肺および腎臓等に適用可能である。
一方、異なる臓器由来のDNAは組織特異的メチル化サインを示すことが知られている(BW Futscher et al. 2002 Nat Genet; 31:175-179; SSC Chim et al. 2008 Clin Chem; 54: 500-511)。従って、血漿中のメチル化プロファイリングは、種々の臓器に由来する組織の血漿中への寄与を解明するために用いることができる。血漿DNAは細胞が死ぬ時に放出されると考えられているため、そのような寄与の解明は臓器傷害を評価するのに用いることができる。例えば、肝炎(例えば、ウイルス、自己免疫過程等による)または肝毒性(hepatoxicity)(例えば、薬剤過剰摂取(パラセタモール等による)または薬剤によって生じる毒素(アルコール等)等の肝臓病変は、肝細胞傷害と関連しており、血漿中の肝臓由来DNAのレベルの増加と関連していることが予想される。例えば、遺伝子Xが肝臓において特異的にメチル化されているとする。その場合、肝臓病変は、血漿中の遺伝子X由来メチル化配列の濃度を増加させると予想される。逆に、肝臓において遺伝子Yが特異的に低メチル化されているとする。その場合、肝臓病変は、血漿中の遺伝子Y由来メチル化配列の濃度を減少させると予想される。さらに他の実施形態では、遺伝子Xまたは遺伝子Yは、遺伝子でなくてもよい、身体内の異なる組織において示差的なメチル化を示すいかなるゲノム配列によっても置換され得る。
本明細書に記載の手法は、臓器移植受容者の血漿中の提供者由来DNAの評価にも適用することができる(YMD Lo et al. 1998 Lancet; 351:1329-1330)。提供者および受容者間の多形性差異が、血漿中で提供者由来DNAを受容者由来DNAと区別するのに用いられた(YW Zheng et al. 2012 Clin Chem; 58: 549-558)。移植臓器の組織特異的メチル化サインが受容者の血漿中の提供者DNAを検出する方法としても用いられ得ることを報告する。
提供者DNAの濃度をモニタリングすることにより、移植臓器の状態を非侵襲的に評価することができる。例えば、移植拒絶反応は、より高い細胞死率、およびそれによる、移植臓器のメチル化サインによって反映される受容者血漿(または血清)中の提供者DNAのより高い濃度と関連しており、患者が安定状態にある時と比較した場合、または他の安定な移植受容者もしくは移植されていない健常対照群と比較した場合に、増加しているだろう。がんについて報告されていることと同様に、提供者由来DNAは、多形性差異、移植された実質臓器のより短いサイズのDNA(YW Zheng et al. 2012 Clin Chem; 58: 549-558)および組織特異的メチル化特性を含む特性の全てまたはいくつかを検出することにより、移植受容者の血漿中で特定され得る。
H. サイズに基づくメチル化の正規化
上記およびLun et al(FMF Lun et al. Clin. Chem. 2013; doi:10.1373/clinchem.2013.212274)に記載されているように、メチル化密度(例えば、血漿DNAのメチル化密度)はDNA断片のサイズと相関している。より短い血漿DNA断片のメチル化密度の分布は、より長い断片のメチル化密度よりも有意により低かった。血漿DNAの異常な断片化パターンを有するいくつかの非がん性状態(例えば、全身性エリテマトーデス(SLE))が、より低メチル化状態であるより大量の短い血漿DNA断片の存在により、見かけの血漿DNA低メチル化を示し得ることを提唱する。言い換えれば、血漿DNAのサイズ分布は、血漿DNAのメチル化密度の交絡因子であり得る。
図34Aは、SLE患者SLE04における血漿DNAのサイズ分布を示している。9人の健常対照患者のサイズ分布は灰色点線として示され、SLE04のサイズ分布は黒色実線として示される。短い血漿DNA断片は、9人の健常対照患者においてよりも、SLE04においてより豊富であった。より短いDNA断片は概してより低メチル化状態であるため、このサイズ分布パターンは、血漿DNAのメチル化解析を混乱させ、さらなる見かけの低メチル化をもたらし得る。
いくつかの実施形態において、血漿DNAメチル化解析に対するサイズ分布の交絡効果を低減させるために、測定されたメチル化レベルは正規化され得る。例えば、複数個の部位におけるDNA分子のサイズが測定され得る。種々の実施において、測定によって、DNA分子の特定のサイズ(例えば、長さ)が得られるか、またはサイズにも対応し得る、サイズが特定の範囲内にあることが単に決定され得る。次に、正規化されたメチル化レベルはカットオフ値と比較され得る。サイズ分布の血漿DNAメチル化解析に対する交絡効果を低減させるための正規化を行うための、いくつかの方法がある。
一実施形態では、DNA(例えば、血漿DNA)のサイズ分画が行われ得る。サイズ分画は、類似のサイズを有するDNA断片が、カットオフ値と整合的な様式でメチル化レベルを決定するのに用いられることを確実にし得る。サイズ分画の一部として、第一のサイズ(例えば、第一の長さ範囲)を有するDNA断片が選択され得、ここで、第一のカットオフ値は第一のサイズに対応している。正規化は、それらの選択されたDNA断片のみを用いてメチル化レベルを算出することにより達成され得る。
サイズ分画は、種々の方法で、例えば、異なるサイズのDNA分子の物理的分離によって(例えば電気泳動もしくはマイクロフルイディクスに基づく科学技術、または遠心分離に基づく科学技術によって)、またはインシリコ解析によって、達成され得る。インシリコ解析において、一実施形態では、血漿DNA分子のペアエンド大規模並列配列決定が行われ得る。次に、配列決定された分子のサイズが、血漿DNA分子の2つの末端のそれぞれの位置を参照ヒトゲノムと比較することにより、推定され得る。次に、一つまたは複数のサイズ選択判定基準(例えば、特定の範囲内であるサイズの判定基準)に適合する配列決定されたDNA分子を選択することにより、その後の解析が行われ得る。従って、一実施形態では、より小さなサイズ(例えば、特定の範囲内)を有する断片のメチル化密度が解析され得る。カットオフ値(例えば、方法2800のブロック2840における)は、同じサイズ範囲内の断片に基づいて決定され得る。例えば、メチル化レベルはがんを有するまたはがんを有さないことが知られている試料から決定され得、カットオフ値はこれらのメチル化レベルから決定され得る。
別の実施形態では、循環DNAのメチル化密度およびサイズ間の関数関係が決定され得る。関数関係は、関数のデータポイントまたは係数によって定義され得る。関数関係はそれぞれのサイズに対応するスケーリング値を与え得る(例えば、より短いサイズはメチル化に対する対応する増加を有し得る)。種々の実施において、スケーリング値は、0〜1または1超であり得る。
正規化は平均サイズに基づいて行われ得る。例えば、第一メチル化レベルを算出するのに用いられるDNA分子に対応する平均サイズがコンピュータで算出され得、その第一メチル化レベルが対応するスケーリング値(すなわち、平均サイズに対応している)で乗算され得る。別の例として、各DNA分子のメチル化密度は、DNA分子のサイズ並びにDNAサイズおよびメチル化間の関連性に従って正規化され得る。
別の実施において、正規化は分子毎に行われ得る。例えば、特定部位におけるDNA分子のそれぞれのサイズが(例えば、上記のように)得られ、それぞれのサイズに対応するスケーリング値が関数関係から特定され得る。正規化されない算出において、各分子は部位におけるメチル化指数の決定において同等に計数される。正規化された算出において、メチル化指数に対する分子の寄与は、分子のサイズに対応するスケーリング因子によって加重値が与えられ得る。
図34Bおよび図34Cは、SLE患者SLE04(図34B)およびHCC患者TBR36(図34C)から得られた血漿DNAのメチル化解析を示している。外側の環は、インシリコサイズ分画無しの血漿DNAのZmeth結果を示している。内側の環は、130bp以上の血漿DNAのZmeth結果を示している。SLE患者SLE04において、ビンの84%がインシリコサイズ分画無しで低メチル化を示した。低メチル化を示すビンの割合は、130bp以上の断片のみが解析された場合に、15%にまで減少した。HCC患者TBR36において、ビンの98.5%および98.6%が、それぞれインシリコサイズ分画有りまたは無しで、血漿DNAの低メチル化を示した。これらの結果は、インシリコサイズ分画が、血漿DNAの断片化の増加(例えば、SLEまたは他の炎症性疾患を有する患者における)に関連する、偽陽性の低メチル化結果を効果的に減少させ得ることを示唆している。
一実施形態では、サイズ分画有りおよび無しの解析の結果が比較されて、メチル化結果に対するサイズの交絡効果が存在するかが示され得る。従って、正規化に加えて、または正規化の代わりに、特定のサイズにおけるメチル化レベルの算出が、カットオフ値を超えるビンの割合がサイズ分画有りおよび無しで異なる場合の偽陽性の可能性が存在するかどうか、または特定のメチル化レベルのみが異なるのかどうかを決定するために、用いられ得る。例えば、サイズ分画有りおよび無しでの試料の結果間の有意差の存在が、異常な断片化パターンによる偽陽性結果の可能性を示すために用いられ得る。差異が有意であるかどうかを決定するための閾値は、がん患者のコホートおよび非がん対照患者のコホートの解析によって確立され得る。
I. 血漿中のゲノムワイドなCG島高度メチル化の解析
全体的な低メチル化に加えて、CG島の高度メチル化が、がんにおいて共通して観察される(SSB Baylin et al. 2011 Nat Rev Cancer; 11: 726-734; PA Jones et al. 2007, Cell; 128: 683-692; M Esteller et al. 2007 Nat Rev Genet 2007; 8: 286-298; M Ehrlich et al. 2002 Oncogene 2002; 21: 5400-5413)。このセクションでは、がんを検出およびモニタリングするためのCG島高度メチル化のゲノムワイド解析の使用について記載する。
図35は、本発明の実施形態に従って、CG島の高度メチル化に基づいてがんのレベルの分類を決定する、方法3500のフローチャートである。方法2800の複数の部位にはCpG部位が含まれ得、ここで、CpG部位は複数のCG島に構築され、各CG島は一つまたは複数のCpG部位を含んでいる。各CG島のメチル化レベルは、がんのレベルの分類を決定するために用いられ得る。
ブロック3510において、解析されるCG島が特定される。この解析において、一例として、健常参照対象の血漿における比較的低いメチル化密度を特徴とする、解析される一連のCG島が定義された。一態様において、がん関連高度メチル化の検出をより容易に可能とするために、参照群におけるメチル化密度の変化は比較的小さなものであり得る。一実施形態では、CG島は参照群における第一の割合に満たない平均メチル化密度を有し、参照群におけるメチル化密度の変動係数は第二の割合に満たない。
一例として、説明を目的として、以下の判定基準が有用なCG島を特定するために用いられる:
i. 参照群(例えば健常対象)におけるCG島の平均メチル化密度が5%未満
ii. 参照群(例えば健常対象)の血漿におけるメチル化密度の解析の変動係数が30%未満。これらのパラメーターは特定の適用のために調整され得る。我々のデータセットから、ゲノム内の454のCG島がこれらの判定基準を満たした。
ブロック3520において、各CG島のメチル化密度が算出される。メチル化密度は本明細書に記載の通りに算出され得る。
ブロック3530において、各CG島が高度メチル化されているかどうかが決定される。例えば、検査症例のCG島高度メチル化の解析において、各CG島のメチル化密度は、参照群の対応するデータと比較された。メチル化密度(メチル化レベルの一例)が一つまたは複数のカットオフ値と比較されて、特定の島が高度メチル化されているかどうかが決定され得る。
一実施形態では、第一カットオフ値は、参照群のメチル化密度の平均値+特定の割合に一致し得る。別のカットオフ値は、参照群のメチル化密度の平均値+特定の標準偏差値に一致し得る。ある実施では、Z値(Zmeth)が算出され、カットオフ値と比較された。一例として、検査対象(例えば、がんを検診されている対象)におけるCG島は、以下の判定基準を満たした場合に有意に高度メチル化されていると見なされた:
i. そのメチル化密度が参照群の平均値よりも2%より高く、
ii. Zmethが3より大きい。
また、これらのパラメーターは特定の適用のために調整され得る。
ブロック3540において、高度メチル化CG島のメチル化密度(例えば、Z値)は、累積スコアを決定するために用いられる。例えば、有意に高度メチル化されたCG島を全て特定した後、Z値の和または高度メチル化されたCG島全てのZ値の関数を含むスコアが算出され得る。スコアの一例は、別のセクションに記載される累積確率(CP)スコアである。累積確率スコアは、確率分布(例えば、自由度3を有するスチューデントt確率分布)に従って、そのような観察を偶然に有する確率を決定するためにZmethを用いる。
ブロック3550において、累積スコアは、がんのレベルの分類を決定するために、累積閾値と比較される。例えば、特定されたCG島における全高度メチル化が充分に大きい場合、その生物はがんを有していると特定され得る。一実施形態では、累積閾値は参照群から得られる最も高い累積スコアに一致する。
IX. メチル化およびCNA
上記のように、本明細書に記載のメチル化解析アプローチは、血漿中の腫瘍由来DNAの遺伝子変化に基づく他の方法と併用して用いられ得る。そのような方法の例には、がん関連染色体異常の解析が含まれる(KCA Chan et al. 2013 Clin Chem; 59: 211-224; RJ Leary et al. 2012 Sci Transl Med; 4: 162ra154)。コピー数異常(CNA)の側面は、米国特許出願公開第13/308,473号に記載されている。
A. CNA
コピー数異常は、ゲノムの特定部分に整列するDNA断片を計数し、その計数を正規化し、その計数ををカットオフ値と比較することにより検出され得る。種々の実施形態において、正規化は、ゲノムの同一部分の別のハプロタイプに整列したDNA断片の計数によって(相対ハプロタイプ適用量(relative haplotype dosage:RHDO))またはゲノムの別の部分に整列したDNA断片の計数によって、行われ得る。
RHDO法はヘテロ接合性遺伝子座の使用に依存している。本セクションに記載される実施形態は、2つの領域および同一領域の2つでないハプロタイプを比較することにより、ホモ接合性の遺伝子座に対しても用いることができ、故に、非ハプロタイプ特異的である。相対染色体領域適用量法(relative chromosomal region dosage method)において、1つの染色体領域由来の断片の数(例えば、その領域に整列した配列リードを計数することにより決定される)は、期待値(参照染色体領域から、または健常であることが知られている別の試料の同一領域から得られ得る)と比較される。このように、染色体領域の断片は、配列決定されたタグがどのハプロタイプ由来であるかにかかわらず、計数される。従って、非ヘテロ接合性遺伝子座を含有する配列リードも用いることができる。比較を行うために、ある実施形態では、比較の前にタグ数が正規化され得る。各領域は少なくとも2つの遺伝子座(互いに分離される)によって定義され、これらの遺伝子座における断片は、その領域に関する集合的値を得るために用いられ得る。
特定領域の配列決定されたリード(タグ)の正規化数は、その領域に整列している配列決定されたリードの数を、ゲノム全体に整列可能な配列決定されたリードの総数で除算することによって、算出され得る。この正規化されたタグ数は、ある試料から得られた結果を、別の試料の結果と比較することを可能にする。例えば、正規化数は、上記のように、特定領域由来であることが期待される配列決定されたリードの比(例えば、割合または分率)であり得る。他の実施形態では、正規化のための他の方法が可能である。例えば、1つの領域の計数の数を、参照領域(上記例において、該参照領域は単なるゲノム全体である)の計数の数で除算することにより、正規化することができる。この正規化されたタグ数は、次に、がんを示さない一つまたは複数の参照試料から決定され得る閾値と比較され得る。
検査症例の正規化されたタグ数は、次に、一つまたは複数の参照対象(例えばがんを有さない一つまたは複数の参照対象)の正規化されたタグ数と比較される。一実施形態では、前記比較は、特定の染色体領域における前記症例のZ値を算出することにより、行われる。Z値は、下記式を用いて算出され得:Z値=(症例の正規化されたタグ数−平均値)/SD、式中、「平均値」は、参照試料の特定の染色体領域に整列している正規化されたタグ数の平均値であり;SDは、参照試料の特定の領域に整列している正規化されたタグ数の数の標準偏差である。従って、Z値は、検査症例の染色体領域の正規化されたタグ数が、一つまたは複数の参照対象の同一染色体領域の正規化された平均タグ数から逸脱している、標準偏差の数である。
検査生物ががんを有する状況において、腫瘍組織において増幅された染色体領域は、血漿DNA中で大きな比率を占める。これは、正の値のZ値をもたらす。一方、腫瘍組織において欠失している染色体領域は、血漿DNA中で小さな比率を占める。これは、負の値のZ値をもたらす。Z値の大きさはいくつかの因子によって決定される。
1つの因子は、生物試料(例えば血漿)中の腫瘍由来DNAの濃度分率である。試料(例えば血漿)中の腫瘍由来DNAの濃度分率が高いほど、検査症例および参照症例の正規化されたタグ数の間の差異はより大きくなる。従って、より大きな規模のZ値がもたらされる。
別の因子は、一つまたは複数の参照症例における正規化されたタグ数の変動である。検査症例の生物試料(例えば血漿)における染色体領域の過剰提示が同じ程度である場合、参照群における正規化されたタグ数のより小さな変動(すなわち、より小さな標準偏差)は、より大きなZ値をもたらす。同様に、検査症例の生物試料(例えば血漿)における染色体領域の過小提示が同じ程度である場合、参照群における正規化されたタグ数のより小さな標準偏差は、さらに負のZ値をもたらす。
別の因子は、腫瘍組織における染色体異常の規模である。染色体異常の規模は、特定の染色体領域のコピー数変化(増加または減少)を指す。腫瘍組織におけるコピー数変化がより高いほど、血漿DNA中の特定の染色体領域の過剰または過小提示の程度はより高くなる。例えば、染色体の両方のコピーの損失は、染色体の2つのコピーのうちの一方の損失よりも、血漿DNA中の染色体領域のより大きな過小提示をもたらし、故に、さらに負のZ値をもたらす。典型的に、がんには複数の染色体異常が存在する。それぞれのがんにおける染色体異常は、その性質(すなわち、増幅または欠失)、その程度(単一または複数のコピーの増加または減少)およびその範囲(染色体の長さに関する異常のサイズ)によってさらに異なり得る。
正規化されたタグ数を測定する精度は、解析される分子の数によって影響を受ける。1つのコピー変化(増加または減少)を有する染色体異常を検出するために、濃度分率がそれぞれおよそ12.5%、6.3%および3.2%である場合、15,000、60,000および240,000個の分子が解析される必要があると予想される。異なる染色体領域におけるがんの検出におけるタグ計数のさらなる詳細は、Lo et al.による「Diagnosing Fetal Chromosomal Aneuploidy Using Massively Parallel Genomic Sequencing」という題名の米国特許出願公開第2009/0029377号に記載されており、該米国特許出願公開の全ての内容はあらゆる目的で参照によって本明細書組み込まれる。
実施形態では、タグ計数法の代わりに、サイズ解析も用いられ得る。サイズ解析はまた、正規化されたタグ数の代わりに用いられ得る。サイズ解析では、本明細書および米国特許出願公開第12/940,992号に記載の種々のパラメーターが用いられ得る。例えば、上記からのQ値またはF値が用いられ得る。そのようなサイズ値は、これらの値がリードの数に対応していないため、他の領域からの計数による正規化を必要としない。上記の、および米国特許出願公開第13/308,473号により詳細に記載されるRHDO法等の、ハプロタイプ特異的な方法の手法は、非特異的な方法にも用いられ得る。例えば、領域の深度および細分化(refinement)を含む手法が用いられ得る。いくつかの実施形態において、特定領域のGC傾向が2つの領域を比較する際に考慮され得る。RHDO法は同一領域を用いるため、そのような補正は不要である。
ある種のがんは典型的に特定の染色体領域内に異常を有して存在し得るが、そのようながんは、常に排他的に、そのような領域内に異常を有して存在しているわけではない。例えば、追加の染色体領域が異常を示す場合があり、そのような追加の領域の位置は未知である場合がある。さらに、がんの初期段階を特定するために患者を検診する際、ゲノム全体わたって存在する異常を示し得る、広範ながんの特定が望まれる場合がある。これらの状況に対応するため、実施形態では、複数の領域が系統的に解析されて、どの領域が異常を示しているかが決定され得る。異常の数およびそれらの位置(例えば、それらが近接しているかどうか)が、例えば、異常を確認し、がんのステージを決定し、がんの診断を下し(例えば、前記数が閾値よりも大きい場合)、異常を示している種々の領域の数および位置に基づいて予後を下すために、用いられ得る。
従って、実施形態では、異常を示す領域の数に基づいて、生物ががんを有しているかどうかが特定され得る。従って、異常を示す領域の数を特定するために、複数の領域(例えば、3,000)が検査され得る。前記領域は、ゲノム全体にわたっていてもよいし、あるいはゲノムの部分のみ(例えば、非反復領域)にわたっていてもよい。
図36は、本発明の実施形態に従って複数の染色体領域を用いて生物の生物試料を解析する、方法3600のフローチャートである。生物試料には核酸分子(断片とも称される)が含まれる。
ブロック3610において、生物のゲノムの複数の領域(例えば、非オーバーラップ領域)が特定される。各染色体領域には複数の遺伝子座が含まれる。領域は、1Mbのサイズ、またはいくつかの他の同等のサイズであり得る。領域が1Mbサイズである場合、ゲノム全体には、それぞれ所定のサイズおよび位置を有する約3,000個の領域が含まれ得る。そのような所定の領域は、特定の染色体の長さまたは用いられる領域の特定の数、および本明細書に記載のあらゆる他の判定基準に適応するために、変動し得る。領域が異なる長さを有する場合、そのような長さは、例えば、本明細書に記載のように、結果を正規化するために用いられ得る。領域は、特定の生物のある特定の判定基準に基づいて、および/または検査されているがんの知見に基づいて、具体的に選択され得る。領域は任意に選択もされ得る。
ブロック3620において、生物の参照ゲノム内の核酸分子の位置が、複数の核酸分子のそれぞれについて特定される。前記位置は、本明細書に記載の方法のいずれかで、例えば、配列決定されたタグを得るために断片を配列決定し、配列決定されたタグを参照ゲノムに整列させることにより、決定され得る。分子の特定のハプロタイプも、ハプロタイプ特異的な方法のために決定され得る。
染色体領域のそれぞれについて、ブロック3630〜3650が行われる。ブロック3630において、それぞれの核酸分子群が、特定された位置に基づいて、該染色体領域に由来することが特定される。各群には、前記染色体領域の複数個の遺伝子座のそれぞれに位置する、少なくとも1つの核酸分子が含まれ得る。一実施形態では、前記群は、前記染色体領域の特定のハプロタイプに(例えば、上記のRHDOに)整列する断片であり得る。別の実施形態では、前記群は、前記染色体領域に整列するあらゆる断片であり得る。
ブロック3640において、コンピューターシステムによって、各核酸分子群の各値が算出される。各値は、各群の核酸分子の特定を定義する。各値は本明細書に記載される値のいずれかであり得る。例えば、前記値は、群における断片の数または群における断片のサイズ分布の統計値であり得る。各値はまた、正規化数、例えば、試料におけるタグ数の総数または参照領域におけるタグ数の数で除算された領域のタグ数であり得る。各値は、別の値(例えば、RHDOにおける)からの差異または比であり得、それによって領域における差異の特性が得られ得る。
ブロック3650において、各値が基準値と比較されて、第一の染色体領域が欠失または増幅を示すかどうかの分類が決定される。この基準値は、本明細書に記載のいかなる閾値または基準値であってもよい。例えば、基準値は正常試料において決定された閾値であり得る。RHDOにおいて、各値は2つのハプロタイプにおけるタグ数の差異または比であり得、基準値は統計的に有意な逸脱が存在することを決定するための閾値であり得る。別の例として、基準値は別のハプロタイプまたは領域のタグ数またはサイズ値であり得、比較には、差異または比(またはそのような比の関数)を得た後、その差異または比が閾値よりも大きいかどうかを決定することが含まれ得る。
基準値は他の領域の結果に基づいて変動し得る。例えば、隣接する領域も逸脱を示す場合(ある閾値(例えば、3のZ値)と比較して小さいが)、より小さなが用いられ得る。例えば、3つの連続した領域全てが第一の閾値を上回る場合、がんである可能性が高い。従って、この第一の閾値は、非連続領域からがんを特定するのに必要な別の閾値よりも低くてもよい。小さくとも逸脱を有する3つの領域(または3つより多い)を有することは、感度および特異度が保存され得る偶然の影響の可能性が、充分に低くなり得る。
ブロック3660において、欠失または増幅を示すと分類されるゲノム領域の量が決定される。計数される染色体領域には制限があり得る。例えば、少なくとも1つの他の領域と隣接している領域のみが計数され得る(または、隣接領域はある特定のサイズ(例えば、4以上の領域)であることが必要とされ得る)。領域が等しくない実施形態において、前記数は、それぞれの長さも説明し得る(例えば、前記数は異常な領域の全長であり得る)。
ブロック3670において、前記量が量閾値と比較されて、試料の分類が決定される。例として、分類は、生物ががんを有しているかどうか、がんのステージ、およびがんの予後であり得る。一実施形態では、全ての異常な領域が計数され、それらの領域がどこに出現するかにかかわらず、単一の閾値が用いられる。別の実施形態では、閾値は、計数された領域の位置およびサイズに基づいて変動し得る。例えば、特定の染色体または染色体腕上の領域の量は、その特定の染色体(または腕)の閾値と比較され得る。複数の閾値を用いてもよい。例えば、特定の染色体(または腕)上の異常な領域の量は、第一の閾値よりも大きくなくてはならず、ゲノム内の異常な領域の総量は第二の閾値よりも大きくなくてはならない。閾値は、欠失または増幅を示すことが決定された領域の割合であり得る。
領域の量に対するこの閾値は、計数された領域において不均衡がどれだけ強いかにも依存し得る。例えば、がんの分類を決定するための閾値として用いられる領域の量は、各領域における異常を検出するために用いられる特異度および感度(異常な閾値)に依存し得る。例えば、異常な閾値が低い場合(例えば2のZ値)、量閾値は、高く(例えば、150)あることが選択され得る。しかし、異常な閾値が高い場合(例えば、3のZ値)、量閾値は低くなり得る(例えば、50)。また、異常を示す領域の量は加重値であり得、例えば、高度な不均衡を示す1つの領域は、小さな不均衡を示すだけの領域よりも高く加重され得る(すなわち、異常について単なる陽性および陰性よりも多くの分類が存在する)。一例として、Z値の和が用いられ得、それにより加重値が用いられる。
従って、正規化されたタグ数(または群の特性における他の各値)の有意な過剰または過小提示を示す染色体領域の量(数および/またはサイズを含み得る)は、疾患の重症度を反映するために用いられ得る。異常な正規化されたタグ数を有する染色体領域の量は、2つの因子、すなわち、腫瘍組織内の染色体異常の数(またはサイズ)および生物試料(例えば血漿)中の腫瘍由来DNAの濃度分率によって決定され得る。より進行したがんは、より多くの(且つより大きな)染色体異常を示す傾向がある。従って、より多くのがん関連染色体異常が、試料(例えば血漿)中で検出可能であり得る。より進行したがんを有する患者において、より高い腫瘍量は、血漿中の腫瘍由来DNAのより高い濃度分率をもたらすだろう。結果として、腫瘍関連染色体異常は、血漿試料中でより容易に検出されるであろう。
特異度を犠牲にせずに感度を向上させるための1つの可能なアプローチは、隣接する染色体セグメントの結果を考慮することである。一実施形態では、Z値のカットオフは、2超および−2未満のままである。しかし、染色体領域は、2つの連続したセグメントが同じタイプの異常を示す(例えば、両方のセグメントが2超のZ値を有する)場合にのみ、潜在的に異常であると分類される。他の実施形態では、隣接セグメントのZ値は、より高いカットオフ値を用いて、合計され得る。例えば、3つの連続したセグメントのZ値が合計され得、5のカットオフ値が用いられ得る。この概念は、3つを超える連続したセグメントに拡張され得る。
量および異常な閾値の組み合わせは、解析の目的、および生物のあらゆる予備知識(またはその欠如)にも依存し得る。例えば、健常集団をがんについて検診する場合、典型的には、領域の量(すなわち、領域の数に対する高い閾値)および領域が異常を有すると特定された場合の異常な閾値のおそらく両方において、高い特異度が用いられる。しかし、より高いリスクを有する患者(例えば、腫瘍(lump)または家族歴を訴える患者、喫煙者、慢性的なヒトパピローマウイルス(HPV)保因者、肝炎ウイルス保因者、または他のウイルス保因者)では、より高い感度(より少ない偽陰性)を持たせるために、閾値はより低くなり得る。
一実施形態では、染色体異常を検出するために1Mb分解能および6.3%の腫瘍由来DNAというより低い検出限界が用いられる場合、各1Mbセグメントにおける分子の数は、60,000であることが必要となる。これは、ゲノム全体においておよそ1.8億(60,000リード/Mb×3,000Mb)の整列可能なリードに置き換えられる。
より小さなセグメントサイズは、より小さな染色体異常を検出するためのより高い分解能を与える。しかし、これは、全体で解析される分子の数の要求を増加させる。より大きなセグメントサイズは、分解能を犠牲にして、解析に必要な分子の数を減少させる。従って、より大きな異常のみが検出され得る。ある実施では、より大きな領域が用いられ得、異常を示すセグメントが細分割され得、これらの小領域が解析されてより良好な分解能が得られ得る(例えば、上記の通り)。検出される欠失または増幅のサイズ(または検出するための最低濃度)についの推定を有する場合、解析される分子の数は減少し得る。
B. 亜硫酸水素塩処理血漿DNAの配列決定に基づくCNA
ゲノムワイドな低メチル化およびCNAは、腫瘍組織において頻繁に観察され得る。ここで、CNAおよびがん関連メチル化変化の情報が血漿DNAの亜硫酸水素塩配列決定から同時に得られ得ることを示す。それら2つのタイプの解析は同じデータセットに対して実行することができるため、CNA解析のための追加のコストは実質的に存在しない。他の実施形態では、メチル化情報および遺伝情報を得るために異なる手順が用いられ得る。他の実施形態では、CNA解析と組み合わせて、がん関連高度メチル化に対する同様の解析が行われ得る。
図37Aは、患者TBR36の腫瘍組織、非亜硫酸水素塩(BS)処理血漿DNAおよび亜硫酸水素塩処理血漿DNAのCNA解析(内側から外側に)を示している。図37Aは、患者TBR36の腫瘍組織、非亜硫酸水素塩(BS)処理血漿DNAおよび亜硫酸水素塩処理血漿DNAのCNA解析(内側から外側に)を示している。最外側の環は染色体模式図を示している。各ドットは1Mb領域の結果を表している。緑色、赤色および灰色のドットは、それぞれ、コピー数増加を有する領域、コピー数減少を有する領域およびコピー数変化が無い領域を表している。血漿解析において、Z値が示される。2本の同心性の線の間には5の差異が存在する。腫瘍組織解析において、コピー数が示される。2本の同心性の線の間には1つのコピー差異が存在する。図38Aは、患者TBR34の腫瘍組織、非亜硫酸水素塩(BS)処理血漿DNAおよび亜硫酸水素塩処理血漿DNA(内側から外側に)のCNA解析を示している。亜硫酸水素塩処理血漿試料および非亜硫酸水素塩処理血漿試料において検出されたCNAのパターンは一致した。
腫瘍組織、非亜硫酸水素塩処理血漿および亜硫酸水素塩処理血漿において検出されたCNAのパターンは一致した。亜硫酸水素塩処理血漿および非亜硫酸水素塩処理血漿の結果の間の一致をさらに評価するために、散布図が作成される。図37Bは、患者TBR36の1Mbビンの亜硫酸水素塩処理血漿および非亜硫酸水素塩処理血漿を用いるCNAの検出におけるZ値間の関連性を示す、散布図である。それら2つの解析のZ値の間に正相関が観察された(r=0.89、p<0.001、ピアソン相関)。図38Bは、患者TBR34の1Mbビンの亜硫酸水素塩処理血漿および非亜硫酸水素塩処理血漿を用いるCNAの検出におけるZ値間の関連性を示す、散布図である。それら2つの解析のZ値の間に正相関が観察された(r=0.81、p<0.001、ピアソン相関)。
C. がん関連CNAおよびメチル化変化の相乗的解析
上記のように、CNAの解析は各1Mb領域内の配列リードの数の計数を含み得るが、一方、メチル化密度の解析は、メチル化されているCpGジヌクレオチドにおけるシトシン残基の割合の検出が含まれ得る。これら2つの解析の組み合わせは、がんの検出において相乗的な情報を与え得る。例えば、メチル化分類およびCNA分類が用いられることで、がんのレベルの第三の分類が決定され得る。
一実施形態では、がん関連CNAまたはメチル化変化のいずれかの存在が用いられて、がんの潜在的な存在が示され得る。そのような実施形態において、がんを検出する感度は、CNAまたはメチル化変化が検査対象の血漿に存在する場合に増加し得る。別の実施形態では、両方の変化の存在が用いられて、がんの存在が示され得る。そのような実施形態において、これら2つのタイプの変化のいずれかが幾人かの非がん対象において潜在的に検出され得るため、検査の特異度は向上され得る。従って、第三の分類は、第一の分類および第二の分類の両方ががんを示す場合にのみ、がん陽性であり得る。
26人のHCC患者および22人の健常対象が募集した。血液試料を各対象から採取し、血漿DNAを亜硫酸水素塩処理後に配列決定した。HCC患者において、血液試料は診断時に採取された。有意な量のCNAの存在は、例えば、−3未満または3超のZ値を示す5%超のビンを有するものとして定義した。有意な量のがん関連低メチル化の存在は、−3未満のZ値を示す3%超のビンを有するものとして定義した。例として、領域(ビン)の量は、ビンの生の数、割合、およびビンの長さとして表され得る。
表3は、亜硫酸水素塩処理血漿DNAに対する大規模並列配列決定を用いた、26人のHCC患者の血漿における有意な量のCNAおよびメチル化変化の検出を示している。
がん関連メチル化変化およびCNAの検出率は、それぞれ、69%および50%であった。がんの潜在的な存在を示すためにいずれかの判定基準の存在が用いられた場合、検出率(すなわち、診断鋭敏度)は73%に向上した。
CNA(図39A)またはメチル化変化(図39B)の存在を示す2人の患者の結果が示される。図39Aは、HCC患者TBR240の亜硫酸水素塩処理血漿のCNA(内側の環)およびメチル化解析(外側の環)を示す、Circosプロットである。CNA解析において、緑色、赤色および灰色のドットは、それぞれ、染色体の増加を有する、染色体の減少を有する、およびコピー数に変化が無い領域を表す。メチル化解析において、緑意図、赤色および灰色のドットは、それぞれ、高度メチル化、低メチル化および正常なメチル化を有する領域を表す。この患者において、がん関連CNAが血漿において検出されたが、メチル化解析は有意な量のがん関連低メチル化を示さなかった。図39Bは、HCC患者TBR164の亜硫酸水素塩処理血漿の、CNA(内側の環)およびメチル化解析(外側の環)を示す、Circosプロットである。この患者において、がん関連低メチル化が血漿において検出された。しかし、有意な量のCNAを観察することができなかった。CNAおよびメチル化変化の両方の存在を示す2人の患者の結果は図48A(TBR36)および図49A(TBR34)に示される。
表4は、亜硫酸水素塩処理血漿DNAに対する大規模並列配列決定を用いた、22人の対照患者の血漿における有意な量のCNAおよびメチル化変化の検出を示している。ブートストラッピング(すなわち、一個抜き)法を各対照患者の評価に用いた。従って、特定の対象が評価された場合、その他の21人の対象は対照群の平均値およびSDの算出に用いられた。
有意な量のメチル化変化およびCNAの検出の特異度は、それぞれ、86%および91%であった。両方の判定基準の存在ががんの潜在的な存在を示すために必要であった場合に、特異度は95%まで向上した。
一実施形態では、CNAおよび/または低メチル化陽性の試料はがん陽性と見なされ、試料は、その両方が検出できない場合、陰性と見なされる。「または」の論法を用いることで、より高い感度が与えられる。別の実施形態では、CNAおよび低メチル化の両方について陽性である試料のみが、がん陽性と見なされ、それにより、より高い特異度が与えられる。さらに別の実施形態では、3階層の分類が用いられ得る。対象は、i.共に正常;ii.一方が異常;iii.共に異常に分類される。
これら3つの分類に異なる追跡戦略が用いられ得る。例えば、(iii)の対象は、最も集中的な追跡プロトコル(例えば、全身イメージングを含む)を施され得;(ii)の対象は、それほど集中的でない追跡プロトコル(例えば、数週間という比較的短い時間間隔の後の反復血漿DNA塩基配列決定法)を施され得;(i)の対象は、最も集中的でない追跡プロトコル(例えば、幾年後かの再検査)を施され得る。他の実施形態では、メチル化およびCNAの測定値が、分類をさらに細分化するための他の臨床的パラメーター(例えば、イメージングの結果または血清生化学)と組み合わせて用いられ得る。
D. 治療を目的とした処置後の血漿DNA解析の予後値
血漿におけるがん関連CNAおよび/またはメチル化変化の存在は、がん患者の循環血液中の腫瘍由来DNAの存在を示す。これらのがん関連変化の減少または排除が、処置(例えば、外科手術)後に期待される。一方、処置後における血漿中のこれらの変化の持続は、身体からの全腫瘍細胞の不完全な除去を示し得、疾患再発の有用な予後判定因子となり得る。
血液試料を、腫瘍の治療を目的とした外科的切除の1週間後に、2人のHCC患者、TBR34およびTBR36から採取した。CNAおよびメチル化解析を、亜硫酸水素塩処理した処置後血漿試料に対して行った。
図40Aは、HCC患者TBR36の腫瘍の外科的切除の前(内側の環)および後(外側の環)に採取された、亜硫酸水素塩処理血漿DNAに対するCNA解析を示している。各ドットは1Mb領域の結果を表している。緑色、赤色および灰色のドットは、それぞれ、コピー数増加を有する領域、コピー数減少を有する領域およびコピー数に変化が無い領域を表している。処置前に観察されたCNAの大部分は腫瘍切除後に消失した。−3未満または3超のZ値を示すビンの割合は、25%から6.6%に減少した。
図40Bは、HCC患者TBR36の腫瘍の外科的切除の前(内側の環)および後(外側の環)に採取された、亜硫酸水素塩処理血漿DNAに対するメチル化解析を示している。緑色、赤色および灰色のドットは、それぞれ、高度メチル化、低メチル化および正常なメチル化を有する領域を表している。有意な低メチル化を示すビンの割合に90%から7.9%への顕著な減少が見られ、低メチル化の程度も顕著な減少を示した。この患者は、腫瘍切除の22ヶ月後に完全な臨床的寛解を得た。
図41Aは、HCC患者TBR34の腫瘍の外科的切除の前(内側の環)および後(外側の環)に採取された、亜硫酸水素塩処理血漿DNAに対するCNA解析を示している。腫瘍の外科的切除後にCNAを示すビンの数および影響を受けたビンにおけるCNAの規模は共に減少するが、残留CNAが手術後血漿試料中に観察され得る。赤色の環は、残留CNAが最も明白であった領域を強調している。−3未満または3超のZ値を示すビンの割合は57%から12%に減少した。
図41Bは、HCC患者TBR34の腫瘍の外科的切除の前(内側の環)および後(外側の環)に採取された、亜硫酸水素塩処理血漿DNAに対するメチル化解析を示している。低メチル化の規模は腫瘍切除後に減少し、低メチル化ビンの平均Z値は−7.9から−4.0に減少した。しかし、−3未満のZ値を有するビンの割合は逆の変化を示し、41%から85%に増加した。この観察は、処置後における残留がん細胞の存在を潜在的に示している。臨床的に、腫瘍切除の3ヵ月後に残りの非切除肝臓において、腫瘍小結節の複数の病巣が検出された。肺転移が外科手術後4カ月目から観察された。患者は、手術から8ヵ月後に局所再発および転移性疾患によって死亡した。
これら2人の患者(TBR34およびTBR36)における観察は、CNAおよび低メチル化の、残留したがん関連変化の存在を、治療を目的とした処置後のがん患者のモニタリングおよび予後判定に用いることができることを示唆している。またデータは、検出された血漿CNAの量における変化の程度が、治療有効性の予後判定およびモニタリングのための、血漿DNA低メチル化の範囲における変化の程度の評価と共に、相乗的に用いられ得ることを示した。
従って、いくつかの実施形態において、1つの生物試料が処置前に得られ、第二の生物試料が処置(例えば、外科手術)後に得られる。第一の値が第一の試料において得られ、例えば、領域のZ値(例えば、領域メチル化レベルおよびCNAの正規化された数)および低メチル化およびCNA(例えば、増幅または欠失)を示す領域の数等である。第二の値は第二の試料において得られ得る。別の実施形態では、第三、またはさらに追加された試料が、処置後に得られ得る。低メチル化およびCNA(例えば、増幅または欠失)を示す領域の数が、第三またはさらに追加された試料から得られ得る。
図40Aおよび図41Aについての上記のように、第一の試料における低メチル化を示す領域の第一の数は、第二の試料における低メチル化を示す領域の第二の量と比較され得る。図40Bおよび図41Bについての上記のように、第一の試料における低メチル化を示す領域の第一の量は、第二の試料における低メチル化を示す領域の第二の量と比較され得る。第一の量と第二の量との比較および第一の数と第二の数との比較が用いられて、処置の予後が決定され得る。種々の実施形態において、それらの比較の一方のみが予後の決定要因になり得、あるいは両方の比較が用いられ得る。第三またはさらに追加された試料が得られる実施形態において、これらの試料のうちの一つまたは複数が用いられて、それ自体により、または第二の試料との組み合わせにおいて、処置の予後が決定され得る。
ある実施において、予後は、第一の量および第二の量間の第一の差異が第一の差異閾値を下回る場合に、悪化することが予想される。別の実施において、予後は、第一の数および第二の数の間の第二の差異が第二の差異閾値を下回る場合に、悪化することが予想される。前記閾値は同じであっても異なっていてもよい。一実施形態では、第一の差異閾値および第二の差異閾値はゼロである。従って、上記の例において、メチル化の値の間の差異は、患者TBR34のさらに悪い予後を示す。
予後は、第一の差異および/または第二の差異が同じ閾値またはそれぞれの閾値を上回る場合により良くなり得る。予後の分類は、差異がどれだけ大きく閾値を上回るまたは下回っているかに依存し得る。複数の閾値が種々の分類を与えるために用いられ得る。より大きな差異であるほど、より良い予後が予想され得、より小さな差異であるほど(およびさらには負の値)、より悪い予後が予想され得る。
いくつかの実施形態において、種々の試料が採取される時点も記録される。そのような時間パラメーターを用いることで、前記量の変化の動態または速度が決定され得る。一実施形態では、血漿における腫瘍関連低メチル化の急速な減少および/または血漿における腫瘍関連CNAの急速な減少は、良好な予後を予測するものである。逆に、血漿における腫瘍関連低メチル化の静的(static)増加または急速な増加および/または腫瘍関連CNAの静的増加または急速な増加は、不良な予後を予測するものである。メチル化およびCNAの測定は、臨床成績の予測のために、他の臨床的パラメーター(例えば、イメージング結果または血清生化学またはタンパク質マーカー)と組み合わせて用いることができる。
実施形態では血漿以外に他の試料が用いられ得る。例えば、腫瘍関連性のメチル化異常(例えば、低メチル化)および/または腫瘍関連CNAが、がん患者の血液中で循環している腫瘍細胞から、尿、便、唾液、痰、胆汁液、膵液、子宮頸部スワブ、生殖器系(例えば、膣)からの分泌物、腹水、胸膜液、精液、汗および涙中の無細胞DNAまたは腫瘍細胞から、測定され得る。
種々の実施形態において、腫瘍関連メチル化異常(例えば、低メチル化)および/または腫瘍関連CNAは、乳がん、肺がん、結腸直腸がん、膵がん、卵巣がん、上咽頭癌、子宮頸がん、メラノーマ、脳腫瘍等を有する患者の血液または血漿から検出され得る。実際に、メチル化およびCNA等の遺伝子変化はがんにおいて普遍的な現象であるため、前記アプローチは全てのがん型に用いられ得る。メチル化およびCNAの測定値は、臨床成績の予測のために、他の臨床的パラメーター(例えば、イメージング結果)と組み合わせて用いられ得る。実施形態は、前癌病変部(例えば、腺腫)を有する患者の検診およびモニタリングにも用いられ得る。
従って、一実施形態では、生物試料は処置前に採取され、CNAおよびメチル化の測定は処置後に繰り返される。前記測定から、欠失または増幅を示すことが決定された領域の後の第一の量が得られ得、各領域カットオフ値を超える領域メチル化レベルを有することが決定された領域の後の第二の量が得られ得る。第一の量が後の第一の量と比較され、第二の量が後の第二の量と比較されることで、生物の予後が決定され得る。
生物の予後を決定するための比較には、第一の量および後の第一の量の間の第一の差異を決定することが含まれ得、第一の差異が一つまたは複数の第一の差異閾値と比較されることで、予後が決定され得る。生物の予後を決定するための比較には、第二の量および後の第二の量の間の第二の差異を決定することが含まれ得、第二の差異は一つまたは複数の第二の差異閾値と比較され得る。閾値は、ゼロまたは別の数であり得る。
予後は、第一の差異が第一の差異閾値を上回る場合よりも、第一の差異が第一の差異閾値を下回る場合に、悪化することが予測され得る。予後は、第二の差異が第二の差異閾値を上回る場合よりも、第二の差異が第二の差異閾値を下回る場合に、悪化することが予測され得る。処置の例としては、免疫療法、外科手術、放射線療法、化学療法、抗体に基づく療法、遺伝子療法、エピジェネティック療法または標的療法が挙げられる。
E. 性能
CNAおよびメチル化解析における異なる数の配列リードおよび異なる数のビンサイズの診断能が以下に記載される。
1. 配列リードの数
一実施形態に従って、32人の健常対照患者、26人の肝細胞癌を有する患者および他のがん型(例えば、上咽頭癌、乳がん、肺がん、神経内分泌がんおよび平滑筋肉腫)を有する20人の患者の、血漿DNAが解析された。32人中22人の健常対象が参照群として無作為に選択された。これら22人の参照個体の平均値および標準偏差(SD)が、メチル化密度およびゲノム表現(genomic representation)の正常範囲を決定するために用いられた。各個体の血漿試料から抽出されたDNAが、イルミナ社製ペアエンド配列決定キットを用いる配列決定ライブラリー(sequencing library)構築のために用いられた。配列決定ライブラリーは次に、非メチル化シトシン残基をウラシルに変換する亜硫酸水素塩処理を受けた。各血漿試料の亜硫酸水素塩処理された配列決定ライブラリーは、イルミナ社製HiSeq2000配列決定装置の1レーンを用いて配列決定された。
ベースコールの後、断片末端のアダプター配列および低クオリティ塩基(low quality base)(すなわち、クオリティスコアが5未満)が除去された。FASTQ形式のトリミングされたリードは次に、Methy−Pipeと称されるメチル化データ解析パイプラインによって処理された(P Jiang et al. 2010, IEEE International Conference on Bioinformatics and Biomedicine, doi:10.1109/BIBMW.2010.5703866)。亜硫酸水素塩変換した配列決定リードを整列させるために、最初に、参照ヒトゲノム(NCBI build 36/hg19)を用いて、ワトソン鎖およびクリック鎖上で別々に、全シトシン残基のチミンへのインシリコ変換が行われた。次に、処理された全てのリードにおいて各シトシンのチミンへのインシリコ変換が行われ、それぞれの変換された残基の位置情報が保持された。SOAP2が、変換されたリードを2つの事前変換された参照ヒトゲノムに整列させるために用いられ(R Li et al. 2009 Bioinformatics 25:1966-1967)、最高2つのミスマッチが整列されたリードのそれぞれに許された。ユニークなゲノム位置にマッピング可能なリードのみが、下流の解析に用いられた。ワトソン鎖およびクリック鎖の両方にマッピングされるあいまいなリードおよび重複(クローン)リードは排除された。CpGジヌクレオチド配列内のシトシン残基が下流のメチル化解析に用いられた。アライメントの後、配列決定されたリード上に元々存在したシトシンは、インシリコ変換中に保持された位置情報に基づいて、回復された。CpGジヌクレオチド中の回復されたシトシンは、メチル化状態としてスコアリングされた。CpGジヌクレオチド中のチミンは、非メチル化状態としてスコアリングされた。
メチル化解析において、ゲノムは等しいサイズのビンに分割された。検査されたビンのサイズには、50kb、100kb、200kbおよび1Mbが含まれる。各ビンのメチル化密度は、CpG位置におけるシトシンの総数で除算された、CpGジヌクレオチドの配列中のメチル化シトシンの数として算出された。他の実施形態では、ビンサイズはゲノム全域で不等であり得る。一実施形態では、不等なサイズのそのようなビンの中の各ビンが、複数の対象にわたって比較される。
検査症例の血漿メチル化密度が正常であるかどうかを決定するために、メチル化密度が参照群の結果と比較された。32人中22人の健常対象が、メチル化Z値(Zmeth)の算出のために、参照群として無作為に選択された。
式中、
は、検査症例の特定の1Mbビンのメチル化密度であり;
は、参照群の対応するビンの平均メチル化密度であり;
は、参照群の対応するビンのメチル化密度のSDである。
CNA解析において、各1Mbビンにマッピングされる配列決定されたリードの数が決定された(KCA Chan el al. 2013 Clin Chem 59:211-24)。先に報告された(EZ Chen et al. 2011 PLoS One 6: e21791)局所加重散布図平滑化回帰(Locally Weighted Scatter Plot Smoothing regression)を用いるGCの偏りに対する補正の後、各ビンにおける配列決定されたリード密度が決定された。血漿解析において、検査症例の配列決定されたリード密度が参照群と比較されて、CNAのZ値、
が算出された。
式中、
は、検査症例の特定の1Mbビンの配列決定されたリード密度であり;
は、参照群の対応するビンの配列決定されたリード密度の平均値であり;
は、参照群の対応するビンの配列決定されたリード密度のSDであった。ビンは、ビンのZCNAが−3未満または3超である場合に、CNAを示すと定義された。
9300万の整列されたリード(範囲:3900万〜1億4200万)の平均値が症例毎に得られた。診断能に対する配列決定されたリードの数の減少の影響を評価するために、各症例から1000万の整列されたリードが無作為に選択された。配列決定されたリードが減少したデータセットにおける、各1Mbビンの参照範囲を確立するために、同じ参照個体群が用いられた。有意な低メチル化(すなわち、Zmethが−3未満)を示すビンの割合およびCNA(すなわち、ZCNAが−3未満または3超)を有するビンの割合が、各症例において決定された。1レーンからの全ての配列決定されたリードおよび症例毎の1000万のリードを用いたデータセットに対するゲノムワイドな低メチル化およびCNA解析の診断能を図示するために、受信者操作特性(ROC)曲線が用いられた。ROC解析において、32人全ての健常対象が解析に用いられた。
図42は、異なる数の配列決定されたリードを用いたゲノムワイドな低メチル化解析の診断能の図を示している。低メチル化解析において、ROC曲線の曲線下面積は、1レーンからの全ての配列決定されたリードおよび症例毎の1000万のリードを解析した2つのデータセット間で、有意差があるとは言えなかった(P=0.761)。CNA解析において、診断能は、配列決定されたリードの数が、1レーンのデータの使用から、1000万に、減少した場合に、曲線下面積の有意な減少を伴って劣化した(P<0.001)。
2. 異なるビンサイズの使用の影響
ゲノムの1Mbビンへの分割の他に、より小さなビンサイズが使用可能であるかどうかも調べられた。理論上は、より小さなビンの使用は、ビン内のメチル化密度における変動性を減少させ得る。これは、メチル化密度が異なるゲノム領域間で大きく異なり得るためである。ビンがより大きい場合、異なるメチル化密度を有する領域を含む確率は増加するため、ビンのメチル化密度における変動性の全体的な増加に繋がる。
より小さなビンサイズの使用は領域間差異に関連するメチル化密度における変動性を減少させ得るが、これは、一方で、特定のビンにマッピングされる配列決定されたリードの数を減少させる。個々のビンにマッピングされるリードの減少は、抽出変動により、変動性を増加させる。メチル化密度において最も小さな全体的な変動性を生じ得る最適なビンサイズは、特定の診断的適用の要求に応じて、実験的に決定され得る(例えば、試料毎の配列決定されたリードの総数および使用されるDNA配列決定装置の型)。
図43は、異なるビンサイズ(50kb、100kb、200kbおよび1Mb)を用いた、ゲノムワイドな低メチル化解析に基づくがんの検出における、ROC曲線を示す図である。示されるP値は、1Mbのビンサイズを用いた曲線下面積比較のP値である。ビンサイズが1Mbから200kbに減少した場合に、向上の傾向が見ることができる。
F. 累積確率スコア
メチル化およびCNAの領域の量は、様々な値であり得る。上記例により、試料ががんと関連しているかどうかを分類するためのパラメーターとしての、カットオフ値を超過する領域の数、または有意な低メチル化もしくはCNAを示した領域の割合が説明された。そのようなアプローチは、個々のビンにおける異常の規模を考慮していない。例えば、−3.5のZmethを有するビンと、−30のZmethを有するビンは、共に有意な低メチル化を有すると分類されるため、同一である。しかし、血漿中の低メチル化変化の程度(すなわち、Zmeth値の規模)は、試料中のがん関連DNAの量によって影響され、そのため、異常を示すビンの割合の情報を補足して、腫瘍量を反映し得る。血漿試料中の腫瘍DNAのより高い濃度分率は、より低いメチル化密度をもたらし、これはより低いZmeth値に換算される。
1. 診断パラメーターとしての累積確率スコア
異常の規模から得られる情報を利用するため、累積確立(CP)スコアと称されるアプローチが開発される。正規分布確率関数に基づいて、各Zmeth値が、そのような観察が偶然に得られる確率に換算された。
CPスコアは、−3未満のZmethを有するビン(i)について、
として算出され、式中、Probiは、自由度3を有するスチューデントt分布に従うビン(i)のZmethの確率であり、logは自然対数関数である。別の実施形態では、10(または他の数字)を低とする対数が用いられ得る。他の実施形態では、他の分布(例えば、限定はされないが、正規分布およびγ分布)が、Z値をCPに変換するために適用され得る。
より大きなCPスコアは、正規母集団にそのような逸脱したメチル化密度を偶然に有する、確率がより低いことを示している。従って、高いCPスコアは、試料中に異常な低メチル化DNAを有する(例えば、がん関連DNAの存在)可能性がより高いことを示している。
異常を示すビンの割合と比較すると、CPスコア測定はより高いダイナミックレンジを有している。異なる患者間の腫瘍量は大きく異なり得るが、より大きな範囲のCP値は、比較的高い、および比較的低い腫瘍量を有する患者の腫瘍量を反映するのに有用である。さらに、CPスコアの使用は、潜在的に、血漿中の腫瘍関連DNAの濃度における変化を検出するためのより高い感度となり得る。これは、治療応答および予後判定のモニタリングに有利である。従って、治療中のCPスコアの減少は、良好な治療応答を示すものである。治療中のCPスコアの減少の欠如またはさらには増加は、応答が乏しいことまたは応答の欠如を示している。予後判定において、高いCPスコアは、高い腫瘍量を示しており、不良な予後(例えば、死亡または腫瘍進行の確率がより高い)を示唆するものである。
図44Aは、累積確立(CP)および異常を有するビンの割合の診断能を示している。それら2つのタイプの診断アルゴリズムの曲線下面積の間に有意差はなかった(P=0.791)。
図44Bは、全体的な低メチル化、CG島高度メチル化およびCNAの血漿解析の診断能を示している。試料あたり1レーンの配列決定(低メチル化解析については200kbビンサイズ、CNAについては1Mbビンサイズ、そしてCG島は、カリフォルニア大学サンタクルズ校(UCSC)が主催したデータベースに従って定義された)を行ったところ、3種の解析全ての曲線下面積は0.90を上回った。
その後の解析において、対照患者における最も高いCPスコアが、前記3種の解析のそれぞれに対するカットオフとして用いられた。これらのカットオフの選択は、100%の診断特異度を与えた。全体的な低メチル化、CG島高度メチル化およびCNA解析の診断感度は、それぞれ、78%、89%および52%であった。46人中43人のがん患者において、これら3種の異常のうちの少なくとも1つが検出され、これにより、93.4%の感度および100%の特異度が得られた。これらの結果は、これら3種の解析ががんの検出に相乗的に用いられ得ることを示している。
図45は、肝細胞癌患者における全体的な低メチル化、CG島高度メチル化およびCNAの結果を含む、表を示している。これら3種の解析におけるCPスコアのカットオフ値は、それぞれ、960、2.9および211であった。陽性のCPスコア結果は、太字にされ、且つ下線が引かれた。
図46は、肝細胞癌以外のがんを有する患者における全体的な低メチル化、CG島高度メチル化およびCNAの結果を含む、表を示している。これら3種の解析におけるCPスコアのカットオフ値は、それぞれ、960、2.9および211であった。陽性のCPスコア結果は、太字にされ、且つ下線を引かれた。
2. がんモニタリングへのCPスコアの適用
連続試料が、処置の前および後にHCC患者TBR34から採取された。これらの試料は、全体的な低メチル化について解析された。
図47は、症例TBR34の血漿メチル化の連続解析を示している。最内側の環は、軟膜(黒色)および腫瘍組織(紫色)のメチル化密度を示している。これらの血漿試料において、各1MbビンのZmethが示されている。2本の線の間の差異は、5のZmeth差異を表している。赤色および灰色のドットは、参照群と比較して、低メチル化を有するビンおよびメチル化密度における変化を有さないビンを表している。2番目に内側の環から外側に向かって、それぞれ、処置前、腫瘍切除の3日後および腫瘍切除の2ヵ月後に採取された血漿試料である。処置前では、高度な低メチル化が血漿中に観察され得、18.5%超のビンが−10未満のZmethを有していた。腫瘍切除の3日後では、血漿中の低メチル化の程度が減少したことが観察され得、いずれのビンも−10未満のZmethを有さなかった。
表5は、低メチル化変化の規模は腫瘍の外科的切除の3日後に減少したが、異常を示すビンの割合は逆に増加を示したことを示している。一方、CPスコアは、血漿中の低メチル化の程度における減少をより正確に示し、腫瘍量における変化をより反映するものであり得る。
手術(OT)の2ヵ月後でも、低メチル化変化を示すビンが有意な割合で存在した。CPスコアも、およそ15,000において静止したままであった。この患者は後に、3ヵ月目の残りの非切除肝臓において、多巣性の腫瘍堆積(外科手術の時点において事前に未知であった)を有すると診断され、手術の4ヶ月後には複数の肺転移を有すると報告された。前記患者は、手術の8ヶ月後に転移性疾患により死亡した。これらの結果により、CPスコアが、腫瘍量の反映において、異常を有するビンの割合よりも、より強力であり得ることが示唆された。
全体として、CPは、血漿中の腫瘍DNAの量の測定を必要とする適用に有用であり得る。そのような適用の例としては、がん患者の予後判定およびモニタリング(例えば、治療に対する応答を観察するための、または腫瘍進行を観察するための)が挙げられる。
累積Z値はZ値の直和である(すなわち、確率への変換が無い)。この例において、累積Z値は、CPスコアと同じ挙動を示す。他の例において、CPは、CPスコアのダイナミックレンジがより大きいことから、残存疾患のモニタリングにおいて、累積Z値よりも高感度であり得る。
X. メチル化に対するCNAの影響
がんのレベルの各分類を決定するためのCNAおよびメチル化の使用(ここで、これらの分類は組み合わされることで第三の分類を与える)が、上に記載された。そのような組み合わせに加え、CNAは、メチル化解析におけるカットオフ値を変化させるために、および異なるCNA特徴を有する領域群のメチル化レベルを比較することにより偽陽性を特定するために、用いられ得る。例えば、過剰なメチル化レベル(例えば、3超のZCNA)は、正常な存在量のメチル化レベル(例えば、−3<ZCNA<3)と比較され得る。まず、メチル化レベルに対するCNAの影響が記載される。
A. 染色体の増加および減少を有する領域におけるメチル化密度の変化
腫瘍組織は概して全体的な低メチル化を示すため、がん患者の血漿中の腫瘍由来DNAの存在は、非がん対象と比較した場合、メチル化密度の減少をもたらす。がん患者の血漿中の低メチル化の程度は、理論上は、血漿試料中の腫瘍由来DNAの濃度分率に比例する。
腫瘍組織における染色体増加を示す領域において、さらなる量の腫瘍DNAが、増幅したDNAセグメントから血漿中に放出される。この、血漿への腫瘍DNAの寄与の増加は、理論上は、罹患領域の血漿DNA中のより高度な低メチル化をもたらす。さらなる因子は、増幅を示すゲノム領域が、腫瘍細胞に増殖有意性を与えていることが予想され、従って発現されていることが予想されるということである。そのような領域は概して低メチル化状態である。
対照的に、腫瘍組織において染色体減少を示す領域では、血漿への腫瘍DNAの寄与の減少は、コピー数変化が無い領域と比較して、より低度の低メチル化をもたらす。さらなる因子は、腫瘍細胞において欠失しているゲノム領域が腫瘍抑制遺伝子を含有し得ること、およびそのような発現停止した領域を有することが腫瘍細胞に有利であり得ることである。従って、そのような領域は、高度メチル化されている可能性がより高いことが予想される。
ここで、この影響を説明するために、2人のHCC患者(TBR34およびTBR36)の結果が用いられる。図48A(TBR36)および図49A(TBR34)は、染色体の増加または減少を有する領域を強調している環、および対応するメチル化解析を有する。図48Bおよび図49Bは、それぞれ、TBR36患者およびTBR34患者における減少、正常、および増加についての、メチル化z値のプロットを示している。
図48Aは、HCC患者TBR36の亜硫酸水素塩処理血漿DNAにおけるCNA(内側の環)およびメチル化変化(外側の環)を示す、Circosプロットを示している。赤色の環は染色体の増加または減少を有する領域を強調している。染色体増加を示す領域は、コピー数変化が無い領域よりも、より低メチル化状態であった。染色体減少を示す領域は、コピー数変化が無い領域よりも、低メチル化の程度が低かった。図48Bは、HCC患者TBR36の、染色体の増加および減少を有する領域、並びにコピー数に変化が無い領域の、メチル化Z値のプロットである。コピー変化を有さない領域と比較して、染色体増加を有する領域はより負のZ値(より低メチル化)を有し、染色体減少を有する領域はそれほど負ではないZ値(それほど低メチル化でない)を有していた。
図49Aは、HCC患者TBR34の亜硫酸水素塩処理血漿DNAにおけるCNA(内側の環)およびメチル化変化(外側の環)を示す、Circosプロットを示している。図49Bは、HCC患者TBR34の、染色体の増加および減少を有する領域、およびコピー数に変化が無い領域の、メチル化Z値のプロットである。染色体の増加および減少を有する領域間のメチル化密度における差異は、患者TBR34においてよりも患者TBR36においてより大きかったが、これは、患者TBR36における腫瘍由来DNAの濃度分率がより高かったためである。
この例において、CNAを決定するために用いられた領域は、メチル化を決定するために用いられた領域と同一である。一実施形態では、それぞれの領域カットオフ値は、それぞれの領域が欠失または増幅を示すかどうかに依存している。ある実施において、それぞれの領域カットオフ値(例えば、低メチル化を決定するために用いられたZ値カットオフ)は、増幅が示されない場合よりもそれぞれの領域が増幅を示す場合に、より大きな規模を有する(例えば、規模は3より大きくなり得、−3未満のカットオフが用いられ得る)。従って、低メチル化の検査において、それぞれの領域カットオフ値は、増幅が示されない場合よりもそれぞれの領域が増幅を示す場合に、より大きな負の値を有し得る。そのような実施は、がんを検出するための検査の特異度を向上させることが期待される。
別の実施において、それぞれの領域カットオフ値は、欠失が示されない場合よりもそれぞれの領域が欠失を示す場合に、より小さな規模(例えば、3未満)を有する。従って、低メチル化の検査において、それぞれの領域カットオフ値は、欠失が示されない場合よりもそれぞれの領域が欠失を示す場合に、それほど負でない値を有し得る。そのような実施は、がんを検出するための検査の感度を向上させることが期待される。上記実施におけるカットオフ値の調整は、特定の診断シナリオの所望の感度および特異度に依存して変化し得る。他の実施形態では、メチル化およびCNAの測定は、他の臨床的パラメーター(例えば、イメージングの結果または血清生化学)と組み合わせて、がんの予測に用いられ得る。
B. 領域を選択するためのCNAの使用
上記のように、腫瘍組織におけるコピー数異常を有する領域において血漿メチル化密度が変化することが示された。腫瘍組織におけるコピー数増加を有する領域において、血漿への低メチル化腫瘍DNAの寄与の増加は、コピー数異常を有さない領域と比較して、血漿DNAのより大きな程度の低メチル化をもたらす。逆に、腫瘍組織におけるコピー数減少を有する領域において、血漿への低メチル化がん由来DNAの寄与の減少は、血漿DNAのより低度の低メチル化をもたらす。血漿DNAのメチル化密度および相対的な提示の間のこの関連性は、潜在的に、がん関連DNAの存在に伴う低メチル化の結果と、血漿DNA中の低メチル化の他の非癌性の原因(例えば、SLE)とを区別するために、用いられ得る。
このアプローチを説明するために、2人の肝細胞癌(HCC)患者およびがんを有さないがSLEを有する2人の患者の血漿試料が解析された。これらの2人のSLE患者(SLE04およびSLE10)は、血漿における低メチル化およびCNAの見かけの存在を示した。患者SLE04において、84%のビンが低メチル化を示し、11.2%のビンがCNAを示した。患者SLE10において、10.3%のビンが低メチル化を示し、5.7%のビンがCNAを示した。
図50Aおよび図50Bは、SLE患者SLE04およびSLE10に対する血漿低メチル化およびCNA解析の結果を示している。外側の環は、1Mb分解能においての、メチル化Z値(Zmeth)を示している。−3未満のメチル化Zmethを有するビンは赤色であり、−3超のZmethを有するビンは灰色であった。内側の環はCNAのZ値(ZCNA)を示している。緑色、赤色および灰色のドットは、それぞれ、3超、3未満および−3〜3のZCNAを有するビンを表している。これら2人のSLE患者において、低メチル化およびCNAの変化が血漿中で観察された。
メチル化およびCNAにおける変化が血漿中のがん由来DNAの存在と一貫しているかどうかを決定するために、3超、3未満および−3〜3のZCNAを有する領域のZmethが比較された。血漿中のがん由来DNAによって寄与されるメチル化変化およびCNAにおいて、−3未満のZCNAを有する領域は、より低度の低メチル化状態であることが予測され、それほど負でないZmethを有した。対照的に、3超のZCNAを有する領域は、より低メチル化状態であることが予想され、より負なZmethを有した。説明のために、片側順位和検定が適用されて、CNAを有する領域(すなわち、−3未満または3超のZCNAを有する領域)のZmethが、CNAを有さない領域(すなわち、−3〜3のZCNAを有する領域)のZmethと比較された。他の実施形態では、他の統計検定、例えば、限定はされないが、スチューデントt検定、分散分析(ANOVA)検定およびクラスカル・ワリス検定が、用いられ得る。
図51Aおよび図51Bは、2人のHCC患者(TBR34およびTBR36)の血漿における、CNAを有する領域およびCNAを有さない領域に対する、Zmeth解析を示している。−3未満のZCNAを有する領域および3超のZCNAを有する領域は、それぞれ、血漿中の、過小提示を有する領域および過剰提示を有する領域を表す。TBR34およびTBR36の両方において、血漿中で過小提示された領域(すなわち、−3未満のZCNAを有する領域)は、血漿中に正常な提示を有する領域(すなわち、−3〜3のZCNAを有する領域)よりも、有意に高いZmeth(P値<10-5、片側順位和検定)を有した。正常な提示は、正倍数体ゲノムに期待されるものと一致する。血漿において過剰提示を有する領域(すなわち、3超のZCNAを有する領域)において、それらは、血漿において正常な提示を有する領域よりも、有意により低いZmethを有した(P値<10-5、片側順位和検定)。これらの変化は全て、血漿試料中の低メチル化腫瘍DNAの存在と一貫した。
図51Cおよび図51Dは、2人のSLE患者(SLE04およびSLE10)の血漿における、CNAを有する領域およびCNAを有さない領域に対する、Zmeth解析を示している。−3未満のZCNAを有する領域および3超のZCNAを有する領域は、それぞれ、血漿中の、過小提示を有する領域および過剰提示を有する領域を表す。SLE04において、血漿中で過小提示された領域(すなわち、−3未満のZCNAを有する領域)は、血漿中に正常な提示を有する領域(すなわち、−3〜3のZCNAを有する領域)よりも、有意により高いZmethを有さず(P値=0.99、片側順位和検定)、血漿において過剰提示を有する領域(すなわち、3超のZCNAを有する領域)は、血漿において正常な提示を有する領域よりも、有意により低いZmethを有さなかった(P値=0.68、片側順位和検定)。これらの結果は、血漿中の腫瘍由来低メチル化DNAの存在を原因とする、期待された変化とは異なった。同様に、SLE10において、−3未満のZCNAを有する領域は、−3〜3のZCNAを有する領域よりも、有意により高いZmethを有さなかった(P値=0.99、片側順位和検定)。
SLE患者におけるZmethおよびZCNAの間に典型的ながん関連パターンが無い理由は、SLE患者において、低メチル化も示す特定の細胞型にCNAが存在しないことである。実際に、観察された、CNAおよび低メチル化の見かけの存在は、SLE患者における循環DNAのサイズ分布の変化が原因である。参照が健常対象から得られるために、サイズ分布の変化は、潜在的に、異なるゲノム領域における配列決定されたリード密度を変化させて、見かけのCNAをもたらし得る。先のセクションに記載されたように、循環DNA断片のサイズおよびそのメチル化密度の間には相関が存在する。従って、サイズ分布の変化は、異常なメチル化ももたらし得る。
3超のZCNAを有する領域は−3〜3のZCNAを有する領域よりもわずかにより低いメチル化レベルを有したが、比較におけるp値は、2人のがん患者において観察されたものよりもはるかに高かった。一実施形態では、p値は、検査症例ががんを有する可能性を決定するためのパラメーターとして用いられ得る。別の実施形態では、正常な提示を有する領域および異常な提示を有する領域の間のZmethにおける差異は、がんが存在する可能性を示すためのパラメーターとして用いられ得る。一実施形態では、がん患者の一群が、ZmethおよびZCNA間の相関を確立するために、並びに異なるパラメーターの閾値を決定するために用いられて、変化が検査血漿試料中のがん由来低メチル化DNAの存在と一貫していることが示され得る。
従って、一実施形態では、CNA解析が行わて、全てが欠失、増幅、または正常な提示のうちの1つを示す、第一の一連の領域が決定され得る。例えば、第一の一連の領域は、全て欠失を示し得るか、または全て増幅を示し得るか、または全て正常な提示を示し得る(例えば、正常な第一の量の領域を有する(例えば、正常なZmeth))。メチル化レベルは、この第一の一連の領域について決定され得る(例えば、方法2800の第一メチル化レベルは第一の一連の領域に対応し得る)。
CNA解析によって、全てが第二の欠失、増幅、または正常な提示を示す、第二の一連の領域が決定され得る。第二の一連の領域は、第一の一連の領域とは異なるように、示す。例えば、第一の一連の領域が正常であった場合、第二の一連の領域は欠失または増幅を示し得る。第二のメチル化レベルは、第二の一連の領域内の部位におけるメチル化されたDNA分子の数のそれぞれに基づいて、算出され得る。
次に、パラメーターが第一メチル化レベルおよび第二メチル化間で算出され得る。例えば、差異または比が算出され、カットオフ値と比較され得る。また、前記差異または比は、確率分布(例えば、統計検定の一部として)にかけられて、その値が得られる確率が決定され得、この確率はカットオフ値と比較されて、メチル化レベルに基づいてがんのレベルが決定され得る。そのようなカットオフは、がんを有する試料とがんを有さない試料(例えば、SLE)を区別するように選択され得る。
一実施形態では、第一の一連の領域または領域の混合(すなわち、増幅、欠失、および正常を示す領域の混合)のメチル化レベルが決定され得る。このメチル化レベルは次に、解析の第一段階の一部として、第一のカットオフと比較され得る。カットオフを上回った場合、これによりがんの可能性が示されるが、その現れが偽陽性であるかどうを決定するために、上記の解析が行われ得る。このように、がんのレベルの最終的な分類には、2つのメチル化レベルのパラメーターの第二のカットオフとの比較が含まれ得る。
第一メチル化レベルは、第一の一連の領域の各領域について算出された領域メチル化レベルの、統計値(例えば、平均値または中央値)であり得る。第二のメチル化レベルも、第二の一連の領域の各領域について算出された領域メチル化レベルの、統計値であり得る。例として、統計値は、片側順位和検定、スチューデントt検定、分散分析(ANOVA)検定、またはクラスカル・ワリス検定を用いて決定され得る。
XI. がん型分類
生物ががんを有するかどうかを決定することに加えて、実施形態では、試料と関連するがん型が特定され得る。このがん型の特定では、全体的な低メチル化、CG島高度メチル化、および/またはCNAのパターンが用いられ得る。前記パターンには、測定された領域メチル化レベル、領域の各CNA値、およびCG島のメチル化レベルを用いた既知の診断を有する患者のクラスタリングが含まれ得る。下記の結果は、類似のがん型を有する生物が、領域およびCG島において類似の値を有すること、並びに非がん患者が類似の値を有することを示している。クラスタリングにおいて、領域または島におけるこれらの値のそれぞれは、クラスタリング過程において、別々の次元であり得る。
同じがん型は類似の遺伝子変化および後成的変化を共有していることが知られている(E Gebhart et al. 2004 Cytogenet Genome Res; 104: 352-358; PA Jones et al. 2007 Cell; 128: 683-692)。下記に、血漿中で検出検出されるCNAおよびメチル化変化のパターンが、がんの起源または型を推測するのにどのように有用であるかが記載される。HCC患者、非HCC患者および健常対照患者からえられた血漿DNA試料が、例えば階層クラスタリング解析を用いて、分類された。解析は、例えば、R scriptパッケージのheatmap.2機能(cran.r-project.org/web/packages/gplots/gplots.pdf)を用いて、行われた。
このアプローチの可能性を説明するために、血漿試料を分類するのに有用な特徴を特定するための例として、2組の判定基準(A群およびB群)が用いられた(表6を参照)。他の実施形態では、これらの特徴を特定するために他の判定基準が用いられ得る。用いられた特徴には、1Mb分解能における全体CNA、1Mb分解能における全体メチル化密度およびCG島メチル化が含まれた。
第一の2つの例において、CNA、1Mb分解能における全体メチル化およびCG島メチル化特徴の全てが分類に用いられた。他の実施形態では、他の判定基準、例えば、限定はされないが、参照群の血漿における特徴を測定する精度が用いられ得る。
図52Aは、355のCNA、584の1Mb分解能における全体メチル化特徴および110のCG島のメチル化状態を含む1,130のA群特徴の全てを用いる、HCC患者、非HCCがん患者および健常対照患者から得られた血漿試料に対する、階層クラスタリング解析を示している。上側のカラーバーは試料群を表しており:緑色、青色および赤色は、それぞれ、健常対象、HCCがん患者および非HCCがん患者を表している。概して、前記3つの対象群は共にクラスター化する傾向があった。縦軸は分類特徴を表している。異なる対象間で類似のパターンを有する特徴は一緒にクラスター化された。これらの結果は、血漿におけるCG島メチル化変化、1Mb分解能におけるゲノムワイドなメチル化変化およびCNAのパターンが、潜在的に、原発不明である患者におけるがんの起源を特定するのに用いられ得ることを示唆している。
図52Bは、759のCNA、1,911の1Mb分解能における全体メチル化および191のCG島のメチル化状態を含む2,780のB群特徴の全てを用いる、HCC患者、非HCCがん患者および健常対照患者から得られた血漿試料に対する、階層クラスタリング解析を示している。上側のカラーバーは試料群を表しており:緑色、青色および赤色は、それぞれ、健常対象、HCCがん患者および非HCCがん患者を表している。概して、前記3つの対象群は一緒にクラスター化する傾向があった。縦軸は分類特徴を表している。異なる対象間で類似のパターンを有する特徴は一緒にクラスター化された。これらの結果は、血漿におけるCG島メチル化変化、1Mb分解能におけるゲノムワイドなメチル化変化およびCNAの様々な集合のパターンが、原発不明である患者におけるがんの起源を特定するのに用いられ得ることを示唆している。分類特徴の選択は特定の適用のために調整され得る。さらに、様々ながん型についての対象の事前確率に応じて、がん型予測には加重が加えられ得る。例えば、ウイルス性慢性肝炎を有する患者は、肝細胞癌を発達させる傾向があり、常習的喫煙者は肺がんを発達させる傾向がある。従って、がん型の加重された確率は、例えば、限定はされないが、ロジスティック回帰、重回帰、またはクラスタリング回帰を用いて、算出され得る。
他の実施形態では、1種類の特徴が分類解析に用いられ得る。例えば、以下の例では、1Mb分解能における全体メチル化のみ、CG島高度メチル化のみまたは1Mb分解能におけるCNAのみが、階層クラスタリング解析に用いられる。区別能力は、異なる特徴が用いられた場合、異なり得る。分類特徴の特徴細分化によて、潜在的に、分類精度が向上され得る。
図53Aは、A群CG島メチル化特徴を用いた、HCC患者、非HCCがん患者および健常対照患者から得られた血漿試料に対する、階層クラスタリング解析を示している。概して、がん患者は一緒にクラスター化し、非がん対象別のクラスターに含まれた。しかし、HCC患者および非HCC患者は、3種全ての特徴を用いた場合と比較して、それほど分離されなかった。
図53Bは、1Mb分解能におけるA群全体メチル化密度を分類特徴として用いた、HCC患者、非HCCがん患者および健常対照患者から得られた血漿試料に対する、階層クラスタリング解析を示している。HCC患者および非HCC患者の優先的なクラスタリングが観察された。
図54Aは、1Mb分解能におけるA群全体CNAを分類特徴として用いた、HCC患者、非HCCがん患者および健常対照患者から得られた血漿試料に対する、階層クラスタリング解析を示している。HCC患者および非HCC患者の優先的なクラスタリングが観察された。
図54Bは、B群CG島メチル化密度を分類特徴として用いた、HCC患者、非HCCがん患者および健常対照患者から得られた血漿試料に対する、階層クラスタリング解析を示している。HCC患者および非HCCがん患者の優先的なクラスタリングが観察され得た。
図55Aは、B群1Mb分解能における全体メチル化密度を分類特徴として用いた、HCC患者、非HCCがん患者および健常対照患者から得られた血漿試料に対する、階層クラスタリング解析を示している。HCC患者および非HCCがん患者の優先的なクラスタリングが観察され得た。
図55Bは、B群1Mb分解能における全体CNAを分類特徴として用いた、HCC患者、非HCCがん患者および健常対照患者から得られた血漿試料に対する、階層クラスタリング解析を示している。HCC患者および非HCCがん患者の優先的なクラスタリングが観察され得た。
血漿試料に対するこれらの階層クラスタリングの結果は、異なる特徴の組み合わせが潜在的に原発性癌型の特定に用いられ得ることを示唆している。選択判定基準のさらなる細分化により、分類の精度がさらに向上され得る。
従って、一実施形態では、メチル化分類が生物にがんが存在することを示す場合、生物に関連するがん型は、メチル化レベル(例えば、方法2800からの第一のメチル化またはあらゆる領域メチル化レベル)を、他の生物(すなわち、ヒト等の同種の他の生物)から決定された対応する値と比較することによって、特定され得る。対応する値は、メチル化レベルが算出された、同一領域または一連の部位の値であり得る。少なくとも2つの他の生物が異なるがん型を有すると特定される。例えば、対応する値はクラスターへと組織化され得、ここで、2つのクラスターは異なるがんと関連している。
さらに、がんのレベルの第三の分類を得るためにCNAおよびメチル化が共に用いられる場合、CNAおよびメチル化の特徴は、他の生物から得られた対応する値と比較され得る。例えば、欠失または増幅を示す領域の第一の量(例えば、図36からの)が、他の生物から決定された対応する値と比較されて、該生物と関連するがん型が特定され得る。
いくつかの実施形態において、メチル化特徴は、ゲノムの複数の領域の領域メチル化レベルである。それぞれの領域カットオフ値を超過する領域メチル化レベルを有することが決定された領域が、用いられ得、例えば、生物の領域メチル化レベルは、ゲノムの同一領域において、他の生物の領域メチル化レベルと比較され得る。比較によって、がん型の区別が可能となり得、あるいは、がんを確認するための(例えば、偽陽性を特定するための)追加のフィルターが与えられ得る。従って、生物が、第一のがん型、がんの非存在、または第二のがん型を有しているかどうかが、比較に基づいて決定され得る。
他の生物は(検査を受けている生物と一緒に)、領域メチル化レベルを用いて、クラスタリングされ得る。従って、領域メチル化レベルの比較は、どのクラスターに生物が属するかを決定するために用いられ得る。クラスタリングでは、上記の通り、欠失または増幅を示すことが決定された領域のCNA正規化数も用いられ得る。そして、クラスタリングでは、高度メチル化されたCG島のそれぞれのメチル化密度が用いられ得る。
この方法の原理を説明するために、2つの未知の試料の分類に対しロジスティック回帰を用いる例が示される。この分類の目的は、これら2つの試料がHCCであるかまたは非HCCがんであるかを決定することであった。HCC患者から採取された23の血漿試料およびHCC以外のがんを有する患者から採取された18の試料を含んだ、訓練試料セットが収集された。従って、訓練セットには合計41の症例が存在した。この例において、CG島のメチル化に関する5つの特徴(X1〜X5)、1Mb領域のメチル化に関する6つの特徴(X6〜X11)および1Mb領域のCNAに関する2つの特徴(X12〜X13)を含む、13の特徴が選択された。CpGメチル化特徴が、3超または−3未満のZ値を有する訓練セット中の少なくとも15の症例の判定基準に基づいて、選択された。1Mbメチル化特徴が、3超または−3未満のZ値を有する訓練セット中の少なくとも39の症例の判定基準に基づいて、選択された。CNA特徴が、3超または−3未満のZ値を有する少なくとも20の症例の判定基準に基づいて、選択された。この訓練セットの試料に対してロジスティック回帰が行われ、各特徴(X1〜X13)の回帰係数が決定された。より大きな規模の回帰係数を有する特徴(肯定的な意味または否定的な意味であるかにかかわらず)によって、HCC試料および非HCC試料間のより良好な区別が得られる。各特徴における各症例のZ値が、独立変数の入力値として用いられた。次に、一方はHCC患者(TBR36)由来、他方は肺がんを有する患者(TBR177)由来の2つの血漿試料が、13の特徴について解析された。
このがん型分類解析において、これら2つの試料は、原発不明のがんを有する患者から採取されたと仮定された。各試料において、各特徴のZ値がロジスティック回帰式に入力されて、オッズ比の自然対数(ln(オッズ比))が決定され、ここで、オッズ比は、HCCを有する確率およびHCCを有さない確率の比(HCC/非HCC)を表す。
表7は、ロジスティック回帰式の13の特徴における回帰係数を示している。2つの検査症例(TBR36およびTBR177)の各特徴のZ値も示される。TBR36およびTBR177のHCCのln(オッズ比)は、それぞれ、37.03および−4.37であった。これらのオッズ比から、血漿試料がHCC患者から採取された可能性は、それぞれ、99.9%超および1%と算出された。要約すれば、TBR36はHCC患者から採取された試料である可能性が高く、一方、TBR177はHCC患者から採取された試料である可能性が低かったということである。
他の実施形態では、階層クラスタリング回帰、分類木解析および他の回帰モデルが、がんの可能性のある原発部位を決定するために、用いられ得る。
XII. 材料および方法
A. 亜硫酸水素塩処理DNAライブラリーの作製および配列決定
0.5%(w/w)非メチル化λDNA(プロメガ社)を加えられたゲノムDNA(5μg)を、Covaris S220 System(コバリス社(Covaris))でおよそ200bp長に断片化した。メチル化されたアダプター(イルミナ社)をDNA断片にライゲーションした以外は製造業者の取扱説明書に従い、Paired−End Sequencing Sample Preparation Kit(イルミナ社)を用いて、DNAライブラリーを作製した。AMPure XP磁気ビーズ(ベックマン・コールター社)を用いた2回の精製の後、ライゲーション産物を2つの部分に分割し、その一方を、EpiTect Bisulfite Kit(キアゲン社)を用いる2回の亜硫酸水素塩修飾にかけた。インサート内のCpG部位における非メチル化シトシンをウラシルに変換し、メチル化シトシンはそのままにした。亜硫酸水素ナトリウムで処理された、または処理されていないアダプター連結DNA分子を、以下のレシピを用いて10サイクルのPCRで富化した:50μlの反応液中の2.5UのPfuTurboCxホットスタートDNAポリメラーゼ(アジレント・テクノロジー社)、1×PfuTurboCx反応緩衝液、25μMのdNTP、1μlのPCR Primer PE 1.0および1μlのPCR Primer PE 2.0(イルミナ社)。熱サイクルプロファイルは、95℃を2分間、98℃を30秒間 、次に98℃を15秒間、60℃を30秒間および72℃を4分間の10サイクル、そして最終ステップである72℃を10分間であった(R Lister, et al. 2009 Nature; 462: 315-322)。AMPure XP磁気ビーズを用いてPCR産物を精製した。
3.2〜4mlの母体血漿試料から抽出された血漿DNAを、断片化λDNA(血漿1mlあたり25pg)でスパイクし、上記のようなライブラリー構築にかけた(RWK Chiu et al. 2011 BMJ; 342: c7401)。メチル化されたアダプターにライゲーションした後、ライゲーション産物を2等分に分割し、一方の部分を2回の亜硫酸水素塩修飾にかけた。亜硫酸水素塩処理されたまたは未処理のライゲーション産物を次に、10サイクルのPCRで上記のように富化した。
亜硫酸水素塩処理されたまたは未処理のDNAライブラリーを、HiSeq2000装置(イルミナ社)上で、ペアエンド形式で、75bpについて配列決定した。cBot装置(イルミナ社)上でPaired−End Cluster Generation Kit v3を用いて、DNAクラスターを作製した。HiSeq Control Software(HCS)v1.4およびReal Time Analysis(RTA)Software v1.13(イルミナ社)を用いてリアルタイム画像解析およびベースコールを行い、これにより、自動マトリックスおよび位相計算は、DNAライブラリーを用いて配列決定された、中にスパイクされたPhiX control v3に基づかれた。
B. 配列アラインメントおよびメチル化シトシンの特定
ベースコールの後、断片末端のアダプター配列および低クオリティ塩基(low quality base)(すなわち、クオリティスコアが20未満)が除去された。FASTQ形式のトリミングされたリードは次に、Methy−Pipeと称されるメチル化データ解析パイプラインによって処理された(IEEE International Conference on Bioinformatics and Biomedicine Workshops(香港、2010年12月18〜21日)で発表された論文である、P Jiang, et al. Methy-Pipe: An integrated bioinformatics data analysis pipeline for whole genome methylome analysis)。亜硫酸水素塩変換した配列決定リードを整列させるために、最初に、参照ヒトゲノム(NCBI build 36/hg18)を用いて、ワトソン鎖およびクリック鎖上で別々に、全シトシン残基のチミンへのインシリコ変換が行われた。次に、処理された全てのリードにおいて各シトシンのチミンへのインシリコ変換が行われ、それぞれの変換された残基の位置情報が保持された。SOAP2R Li, et al. 2009 Bioinformatics; 25: 1966-1967)が、変換されたリードを2つの事前変換された参照ヒトゲノムに整列させるために用いられ、最高2つのミスマッチが整列されたリードのそれぞれに許された。ユニークなゲノム位置にマッピング可能なリードのみが、選択された。ワトソン鎖およびクリック鎖の両方にマッピングされるあいまいなリード、並びに同一の開始および終止ゲノム位置を有する重複(クローン)リードは排除された。600bp以下のインサートサイズを有する配列決定されたリードが、メチル化解析およびサイズ解析のために保持された。
CpGジヌクレオチド配列内のシトシン残基は、下流DNAメチル化研究の主な標的であった。アライメントの後、配列決定されたリード上に元々存在したシトシンは、インシリコ変換中に保持された位置情報に基づいて、回復された。CpGジヌクレオチド中の回復されたシトシンは、メチル化状態としてスコアリングされた。CpGジヌクレオチド中のチミンは、非メチル化状態としてスコアリングされた。ライブラリー作製中に含まれる非メチル化λDNAは、亜硫酸水素ナトリウム修飾の効率を推定するための内部標準として機能した。亜硫酸水素塩変換効率が100%であるならば、λDNA上のシトシンは全て、チミンに変換されているはずである。
XIII. 概要
本明細書に記載の実施形態の使用により、例えば対象の血漿を用いた、がんの非侵襲的な検診、検出、モニタリングまたは予後判定が可能となる。母体血漿から得られる胎児DNAのメチル化特性を推定することにより、胎児の出生前の検診、診断、調査またはモニタリングの実行も可能となる。本アプローチの能力を説明するために、胎盤組織の研究を通じ従来法で得られた情報が、母体血漿から直接的に評価され得ることが示された。例えば、遺伝子座の刷り込み状態、胎児DNAおよび母体DNA間で示差的なメチル化を有する遺伝子座の特定、並びに遺伝子座のメチル化特性における妊娠性変動が、母体血漿DNAの直接的な解析を通じて達成される。本アプローチの主な利点は、胎児メチロームを、妊娠に対する混乱または胎児組織の浸潤的試料採取の必要無しに、妊娠中に、包括的に評価できることである。DNAメチル化状態の変化および多くの妊娠関連状態の間の既知の関連性を考慮すると、本研究において記載されるアプローチは、それらの状態における生物マーカーの病態生理の調査およびそれらの生物マーカーの特定のための、重要な手段として機能し得る。刷り込み遺伝子座に焦点を当てることにより、父系伝達性の胎児メチル化特性および母系伝達性の胎児メチル化特性の両方が、母体血漿から評価可能であることが示された。このアプローチは、刷り込み疾患の研究に潜在的に有用であり得る。実施形態は、胎児疾患または妊娠関連疾患の出生前評価に直接適用することもできる。
ゲノムワイド亜硫酸水素塩配列決定が、胎盤組織のDNAメチル化特性の研究に適用できることが示された。ヒトゲノム内にはおよそ28MのCpG部位が存在する(C Clark et al. 2012 PLoS One; 7: e50233)。CVSおよび妊娠末期胎盤組織検体の亜硫酸水素塩配列決定データは、CpGの80%超を被覆した。これは、他のハイスループットなプラットフォームを用いて達成できるものよりも、実質的により広い被覆率を表す。例えば、胎盤組織に関する先の研究(T Chu et al. 2011 PLoS One; 6: e14723)において用いられたイルミナ社製Infinium HumanMethylation 27Kビーズチップアレイは、ゲノム内のCpGのうちの0.1%を被覆したのみであった。より最近になって利用可能になったイルミナ社製Infinium HumanMethylation 450Kビーズチップアレイは、CpGの1.7%を被覆したのみであった(C Clark et al. 2012 PLoS One; 7: e50233)。MPSアプローチはプローブ設計、ハイブリダイゼーション効率または抗体捕捉の強度に関する制限が無いため、CG島内外の、および大部分の配列構成内のCpGを評価することができた。
XIV. コンピューターシステム
本明細書において言及されたコンピューターシステムのいずれも、あらゆる適切な数のサブシステムを利用し得る。そのようなサブシステムの例は、コンピューターデバイス3300において、図33に示される。いくつかの実施形態において、コンピューターシステムには、サブシステムが構成要素であり得る単一のコンピューターデバイスが含まれ得る。他の実施形態では、コンピューターシステムには、それぞれが内部構成要素を有するサブシステムである、複数のコンピューターデバイスが含まれ得る。
図33に示されるサブシステムは、システムバス3375を介して相互接続される。プリンター3374、キーボード3378、記憶デバイス3379、ディスプレイアダプター3382と連結されたモニター3376等の追加のサブシステムが示されている。I/O制御デバイス3371に連結された周辺デバイスおよび入出力(I/O)デバイスは、シリアルポート3377等の当該技術分野において既知のいかなる数の手段によっても、コンピューターシステムに連結され得る。例えば、シリアルポート3377または外部インターフェース3381(例えば、イーサネット、Wi−Fi等)が用いられて、コンピューターシステム3300はインターネット等の広域ネットワーク、マウス入力デバイス、またはスキャナーに連結され得る。システムバス3375を介した相互接続は、中央処理デバイス3373が各サブシステムと通信し、システムメモリ3372または記憶デバイス3379(例えば、固定ディスク)からの指示の実行、およびサブシステム間の情報の交換を制御することを可能にする。システムメモリ3372および/または記憶デバイス3379は、コンピューター可読媒体を包含していてもよい。本明細書に記載される値のいずれも、ある構成要素から別の構成要素に出力可能であり、使用者に出力可能である。
コンピューターシステムは、例えば、外部インターフェース3381によって、または内部インターフェースによって相互接続された、複数の同一の構成要素またはサブシステムを含み得る。いくつかの実施形態において、コンピューターシステム、サブシステム、または装置は、ネットワーク上で通信し得る。そのような装置において、あるコンピューターはクライアントと見なされ得、別のコンピューターはサーバーと見なされ得、ここで、それぞれは同一のコンピューターシステムの一部であり得る。クライアントおよびサーバーは、それぞれ複数のシステム、サブシステム、または構成要素を含み得る。
本発明の実施形態のいずれも、ハードウェア(例えば、特定用途向け集積回路またはフィールド・プログラマブル・ゲート・アレイ)、および/または一般的にプログラム可能なプロセッサを有するコンピュータソフトウェアをモジュール様式または集積様式で用いて、制御論理の形態で実行され得ることが理解されよう。本明細書における使用者として(as user herein)、プロセッサには、マルチコア・プロセッサもしくは同一の集積チップ、または単一の回路基盤もしくはネットワーク接続基盤上の複数の処理装置が含まれる。本明細書に記載される開示および教示に基づいて、当業者は、ハードウェア並びにハードウェアおよびソフトウェアの組み合わせを用いて本発明の実施形態を実行するための他のやり方および/または方法を知り、理解するであろう。
本願に記載されるソフトウェアコンポーネントまたは機能のいずれも、例えば、従来のまたはオブジェクト指向の技術を用いて、例えば、Java、C++またはPerl等のあらゆる適切なコンピューター言語を用いて、プロセッサによって実行されるようコードされたソフトウェアとして、実行され得る。コードされたソフトウェアは、保存および/または伝達のためにコンピューター可読媒体上に一連の指示または命令として保存され得、適切な媒体には、読み書き可能メモリ(RAM)、読出し専用メモリ(ROM)、ハードドライブもしくはフロッピーディスク等の磁気媒体、またはコンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)等の光媒体、フラッシュメモリー等が含まれる。コンピューター可読媒体は、そのような保存または伝達デバイスのいかなる組み合わせであってもよい。
そのようなプログラムはまた、インターネットを含む、種々のプロトコルに適合する有線、光、および/または無線ネットワークを介した伝達に適したキャリア信号を用いて、コード化および伝達され得る。従って、本発明の一実施形態に係るコンピューター可読媒体は、そのようなプログラムによってコード化されたデータ信号を用いて作製され得る。コードされたプログラムによってコード化されたコンピューター可読媒体は、互換デバイスとひとまとめにされ得るか、または他のデバイスとは別々に提供され得る(例えば、インターネットダウンロードを介して)。いかなるそのようなコンピューター可読媒体も、単一のコンピュータプログラム製品(例えば、ハードドライブ、CD、またはコンピューターシステム全体)上、またはその内部に存在し得、システムまたはネットワーク内の異なるコンピュータプログラム製品上またはその内部に存在し得る。コンピューターシステムには、モニター、プリンター、または本明細書に記載される結果のいずれかを使用者に提供するための他の適切なディスプレイが含まれ得る。
本明細書に記載の方法のいずれも、それらのステップを実行するように構成され得る一つまたは複数のプロセッサを含むコンピューターシステムを用いて、完全にまたは部分的に実行され得る。従って、実施形態は、各ステップまたは各ステップ群を実行する異なる構成要素を含み得る、本明細書に記載の方法のいずれかのステップを実行するように構成されたコンピューターシステムに関し得る。番号を付けたステップとして提供されているが、本明細書における方法のステップは、同時にまたは異なる順序で実行され得る。さらに、これらのステップの一部は、他の方法からの他のステップの一部と共に用いられ得る。また、ステップの全てまたは一部は任意であり得る。さらに、いずれの方法のいずれのステップも、これらのステップを実行するためのモジュール、回路、または他の手段を用いて、実行され得る。
特定の実施形態の具体的な詳細は、本発明の実施形態の精神および範囲から逸脱することなく、あらゆる適切な様式で、組み合わせられ得る。しかし、本発明の他の実施形態は、個々の態様、またはこれらの個々の態様の特定の組み合わせに関連する特定の実施形態に関し得る。
例示的な本発明の実施形態の上述の説明は、説明および解説を目的として提示されている。網羅的であること、または記載された正確な形態に本発明を限定することは意図されておらず、多くの変更形態および変形形態が上記の教示に照らし合わせて可能である。実施形態は、本発明の原理およびその実際の応用を最良に説明し、それにより他の当業者が、種々の実施形態で、および企図される特定の用途に適した種々の変更を加えて、本発明を最良に利用できるようにするために、選択および記述されている。
「a」、「an」または「the」の記述は、特に記載がない限り、「一つまたは複数」を意味することが意図される。
全ての特許、特許出願、刊行物、および本明細書で言及された記述は、あらゆる目的でそれら全体が参照によって組み込まれる。いずれも、先行技術であることを認めるものではない。