WO2017051996A1

WO2017051996A1 - 비침습적 태아 염색체 이수성 판별 방법

Info

Publication number: WO2017051996A1
Application number: PCT/KR2016/000099
Authority: WO
Inventors: 윤태균; 이병철; 박정선; 박동윤; 이정호
Original assignee: SK Telecom Co Ltd
Current assignee: SK Telecom Co Ltd
Priority date: 2015-09-24
Filing date: 2016-01-06
Publication date: 2017-03-30
Anticipated expiration: 2018-03-24

Abstract

산모에서 분리된 생물학적 시료로부터 얻어진 염색체 염기 서열 분석 정보를 이용하는 태아 염색체 이수성 판단을 위한 비침습적 태아 염색체 분석 방법이 제공된다.

Description

【명세서】

【발명의 명칭】

비침습적 태아 염색체 이수성 판별 방법 【기술분야】

산모에서 분리된 생물학적 시료로부터 얻어진 염색체 염기 서열 분석 정보를 이용하는 태아 염색체 이수성 판단을 위한 비침습적 태아 염색체 분석 방법이 제공된다ᅳ 【배경기술】

최근, 출산 연령의 증가와 여러 산전 진단 장비들의 개발로 인하여 산전 진단에 대한 관심은 날로 증가하고 있다.

산전 진단 방법은 크게 침습적 진단 방법과 비침습적 진단 방법으로 나누어 볼 수 있다. 침습적 진단 방법에는 양수검사, 제대혈 채취 (Percutaneous umblical blood sampling), 융모막 채취, 태아조직 채취 등이 있으며, 검사 과정에서 태아에게 충격을 가하여 유산이나, 질병 또는 기형 등을 유발할 수 있디-. 이러한 침습적 진단 방법의 문제점들을 극복하기 위하여 비침습적 진단 방법들이 개발되고 있다.

산모 혈청 내의 무세포 DNA(cell-free DNA; cfDNA)에서의 무세포 태아

DNA(cell-free fetal DNA; cffDNA)의 발견은 비침습적 산전 유전적 진단법을 개발하기 위한 강력한 도구를 제공하였다. 이러한 cffDNA의 산전 진단에의 웅용은 차세대 서열분석 (Next Generation Sequencing: NGS)과 같은 대규모 병렬형 서열분석 (massively parallel sequencing) 기술의 도입에 의해 더 가속화되었다.

또한, 몇 가지 연구들은 전체 게놈 서열분석 (WGS) 및 cffDNA의 표적 농축 (target enrichment) 후 서열분석에 의해 전체 게놈에 걸쳐 태아와 산모 DNA가 균일하게 분포되어 있음을 입증하였다 (Lo YM et al., Science translational medicine

2010;2:61ra91 ; Liao GJ et al., Clinical chemistry 2011 ;57:92-101; Kitzman JO et al., Science translational medicine 2012;4:137ra76).

이러한 연구에 기초하여, 산모의 혈액 (e.g., 혈장, 혈청 등) 내에 흔재하는 산모와 태아의 cfDNA 로부터 태아의 염색체 이상을 검사할 수 있는 방법이 제안되고 있다. 그러나, 산모 혈액 내 존재하는 태아의 cfDNA 량이 상대적으로 매우 적기 때문에， 많은 수의 NGS 리드를 생성하여 판별하는 방식이 일반적으로 사용되고 있다. 많은 수의 NGS 리드 생성은 실험 비용의 증가를 초래하기 때문에, 낮은 리드 수 (Extremely Low Reads)에서도 민감하게 태아 염색체 이상 판별이 가능한 판별 수단이 개발되어야 한다. 또한 Sequencer, library prep, GC contents 등으로 인해 차세대 서열분석과 같은 대규모 병렬 서열 분석 데이터에 편차 (bias)가 발생하므로， 보다 정확한 판별을 위해서는 이러한 bias를 제거하는 것도 필요하다. 따라서 , 정확한 산전 태아 염색체 이상 진단을 위하여， 낮은 리드 수에서도 민감한 판별이 가능하고， 데이터의 편차를 제거하여 ^다 정확한 결과를 도출할 수 있는 염색체 분석 기술의 개발이 요구된다.

【선행기술문헌】

【특허문헌】

대한민국 등록특허 제 10-1516976호 【발명의 상세한 설명】

【기술적 과제】

일 예는 산모에서 분리된 생물학적 시료로부터 얻어진 염색체 염기 서열 정보를 이용하는 태아 염색체 이수성 판단을 위한 비침습적 태아 염색체 분석 방법올 제공한다.

본 명세서에 있어서， 상기 비침습적 태아 염색체 분석 방법은 태아의 염색체 이수성을 결정 (판별, 확인， 또는 진단)하기 위한 서열 정보 분석 방법, 또는 태아의 염색체 이수성 결정 (판별, 확인, 또는 진단)에 정보를 제공하기 위한 방법으로 표현될 수 있으며, 이들은 모두 동일한 의미를 갖는다ᅳ

상기 비침습적 태아 염색체 분석 방법은 산모로부터 분리된 생물학적 시료로부터 얻어진 DNA 서열 정보로부터 태아의 염색체 이수성 여부를 정확하게 판별하기 위하여, 이수성 여부를 판별하고자 하는 특정 염색체 (예컨대, 13번, 18 번 또는 21번 염색체)의 평균 리드수와 상기 염색체를 제외한 다른 염색체로부터 생성한 통합 빈 (merged bin)에 존재하는 평균 리드수를 비교하여 실험간 편차를 제거하고, CV (Coefficient of Variation) 값으로 가중 평균된 염색체간 리드 수의 비율을 이용하여 결과의 신뢰도 및 특이도를 향상시켜 위양성 확률을 즐이는 것을 특징으로 한다.

상기 산모로부터 분리된 생물학적 시료로부터 얻어진 DNA 서열 정보는 차세대 염기서열분석법 (NGS) 등과 같은 대규모 병렬형 서열분석의 전체 게놈 서열분석 (Whole Genome Sequencing; WGS) 방법으로 생성된 자료일 수 있다.

일 구체예에서, 상기 비침습적 태아 염색체 분석 방법은 다음의 단계를 포함할 수 있다:

^' 1-1) 산모로부타분리된 시험 시료로부터 전체 게놈을 커버 (cover)하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계;

1-2) 참조 시료의 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 준비하는 단계;

2-1) 상기 단계 1-1)에서 얻어진 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표준 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여, 각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험

폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계，

2- 2) 상기 단계 1-2)에서 준비된 참조 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 이용하여 미리 설정된 bin 개수를 갖도록 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계;

3- 1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체로부터 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 merged bin의 개수 개 만큼 얻어짐);

3-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서， 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의， 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin의 개수 개 만큼 얻어짐); 4) 평균 참조 폴리뉴클레오타이드 단편 수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계;

5-1) 상기 단계 3-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 중에서 CV값이 적은 상위 N_cv개에 해당하는 수치들을 선정하여， 가중 평균 시험

폴리뉴클레오타이드 단편 수 비율을 얻는 단계;

5-2) 상기 단계 3-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율을 대상으로 상기 단계 5-1)에서 선정된 CV값이 적은 상위 N_cv개에 해당하는 수치들을 이용하여， 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계; 6) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계.

일 예에서, 상기 단계 6)의 비교하는 단계는 가중 평균 시험

폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 사용하여, 목적 염색체의 Z-score를 얻는 단계에 의하여 수행될 수 있다. 일 예에서， 상기 비침습적 태아 염색체 분석 방법은, 상기 단계 6) 이후에，

7) 상기 단계 6)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 비교 결과 (예컨대 , Ζ- score)를 이용하여 태아의 목적 염색체의 이수성 여부를 확인하는 단계

를 추가로 포함할 수 있다.

상기 비침습적 태아 염색체 분석 방법에서, 단계 1-1) 및 1-2)는 동시 또는 순서에 상관 없이 연속적으로 수행될 수 있으며, 단계 2-1) 및 2-2)는 동시 또는 순서에 상관 없이 연속적으로 수행될 수 있고, 단계 3-1 및 3-2)는 동시 또는 순서에 상관 없이 연속적으로 수행될 수 있다. ,

일 예에서, 상기 비침습적 태아 염색체 분석 방법은 보다 정확한 결과 도출을 위하여, 상기 단계 2-1) 및 2-2) 이후에 (및 상기 단계 3-1 및 3-2) 이전에)， a) 얻어진 시험 폴리뉴클레오타이드 단편 수 및 참조 폴리뉴클레오타이드 단편 수의 바이어스 (bias)를 제거하는 단계를 추가로 포함할 수 있다. 상기 바이어스 제거 단계는 SVD (Singular Value Decomposition) 등을 적용하여 수행될 수 있다.

상기 염색체는 상염색체일 수 있으며, 인간의 경우, 1 내지 22번까지의 염색체로 이루어진 군에서 선택될 수 있다. 상기 '목적 염색체 '는 태아의 염색체 이수성 여부를 확인하고자 하는 염색체로서, 예컨대, 인간의 13번, 18번 또는 21번 염색체일 수 있으나, 이에 제한되는 것은 아니며， 염색체 이수성 여부를 확인하고자 하는 모든 상염색체 중에서 선택될 수 있다. 상기 '목적 염색체를 제외한 다른 염색체 중에서 선택된 _n개의 염색체 '는 상기 염색체 이수성 여부를 확인하고자 하는 목적 염색체 이외의 나머지 상염색체들 중에서 선택된 염색체이다 (η은 1 내지 21 중에서 선택되는 정수임).

상기 산모로부터 분리된 시험 시료는 산모로부터 분리된 혈액, 혈장, 또는 혈청일 수 있다. 본 명세서에 제안된 비침습적 태아 염색체 분석 방법의 적용 가능한 산모는 목적 염색체가 정상인, 즉 목적 염색체의 이수성을 갖지 않는 산모일 수 있다.

다른 예는 아래의 단계를 포함하는 태아의 염색체 이수성 판단을 위한 컴퓨터 판독 방법을 제공한다:

A-1) 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표준 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여, 각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계，

A-2) 참조 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 이용하여 미리 설정된 bin 개수를 갖도록 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계;

B-1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체로부터 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계;

B-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서， 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의， 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin의 개수 개 만큼 얻어짐); C) 평균 참조 폴리뉴클레오타이드 단판수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계;

D-1) 상기 단계 B-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 증에서 CV값이 적은 상위 N_cv개에 해당하는 수치들을 선정하여 , 가중 평균 시험

폴리뉴클레오타이드 단편 수 비율을 얻는 단계;

D-2) 상기 단계 B-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율을 대상으로 상기 단계 D-1)에서 선정된 CV값이 적은 상위 N_cv개에 해당하는 수치들을 이용하여， 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계;

E) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계; 및

F) 상기 단계 E)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴뫼^클레오타이드 단편 수 비율 비교 결과 (예컨대 , Ζ- score)를 이용하여 태아의 목적 염색체의 이수성 여부를 확인하는 단계.

상기 컴퓨터 판독 방법은 보다 정확한 결과 도출을 위하여, 상기 단계 A-1) 및 A-²) 이후에 (및 상기 단계 B-1 및 B-2) 이전에), a) 얻어진 시험

폴리뉴클레오타이드 단편 수 및 참조 폴리뉴클레오타이드 단편 수의

바이어스 (bias)를 제거하는 단계를 추가로 포함할 수 있다. 상기 바이어스 제거 단계는 SVD (Singular Value Decomposition) 등을 적용하여 수행될 수 있다.

다른 예는 상기 컴퓽터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다.

다른 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 가록 매체)를 제공한다. 【기술적 해결방법】

용어의 정의

달리 정의되지 않는 경우, 본 명세서에서 사용된 모든 기술 및 과학 용어들은 본 발명이 속하는 기술 분야의 당업자에 의해 일반적으로 이해되는 것과 등일한 의미를 갖는다. "염색체 이수성 (_aneuploidy)' '은 목적 염색체의 수가 정상 염색체의 수 (2개)와 상이한 것， 즉, 목적 염색체가 0개， 1개, 또는 3개 이상 (예컨대, 3개) 존재하는 것을 의미한다ᅳ 이와 같은 염색체 이수성은 회귀성 유전 질환과 관련 있기 때문에 태아 진단에 있어서 매우 중요하다. 예컨대, 인간 염색체 기준으로, 13번 염색체가 3개 존재하는 경우 (trisomy 13)， 파타우 증후군 (Patau syndrome), 18번 염색체가 3개 존재하는 경우 (trisomy I⁸), 에드워드 증후군 (Edward syndrome), ²1번 염색체가 3개 존재하는 경우 (trisomy 21), 다운 증후군 (Down syndrome)이 야기된다.

"표준 게놈 염기 서열 (reference genome sequence)"은 한 종을 대표하는 게놈 염기 서열 데이터베이스를 지칭한다. 현재 인간의 reference genome은 빌드 37(build 37: GRCh37), hgl8, hgl9, hg38과 같은 간행된 (예컨대, UCSC, NCBI등) 기준 게놈 서열에 근거하여 구축된 것일 수 있다.

"대규모 병렬 염기서열분석 (massively parallel sequencing)"은 :하나의

유전체 (genome)을 무수히 많은 조각 (폴리뉴클레오타이드 단편)으로 랜덤하게

분해하여 각 조각의 서열을 동시에 읽어낸 뒤, 이렇게 얻은 서열 데이터를 생물 정보학적 기법 (bioinformatics)을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하는 염기서열 분석 방법을 총칭한다. 대규모 병렬 염기서열분석의 추가적인 설명은 Rogers and Ventner, Nature (2005) 437:326~327에서 찾을 수 있다.

본 명세서에서 수치 앞에 기재된 "약"은, 다른 정의가 없는 한, 기재된 수치의 10%, 5%, 또는 3%의 변동폭 (증감분)을 포함하기 위하여 사용된 것일 수 있다. 이하， 본 발명을 보다 상세히 설명한다^,

.； 단계 1): 전체 게놈을 커버 (coverᅵ하는 폴리뉴클레오타이드 단편들의 서열 정보 수득 단계

상기 폴리뉴클레오타이드 단편들의 서열 정보는 시료로부터 선택된 주형 DNA의 서열분석에 의해 얻어질 수 있다.

상기 폴리뉴클레오타이드 단편들은 표준 게놈 염기서열과의 맵핑을 통하여 각 염색체의 특정 위치에 지정되며, 전체 게놈을 커버한디-.

상기 폴리뉴클레오타이드 단편들의 염기 서열은 대규모 병렬형 염기 서열 분석 방법, 예컨대, 차세대 서열 분석법에 의하여 얻어진 것일 수 있다. 이 경우， 상기 폴리뉴클레오타이드 단편은 차세대 염기서열 분석에 사용되는 리드 (read)이며, 상기 폴리뉴클레오타이드 단편 수는 리드 수 (read count)이며, 상기 평균

폴리뉴클레오타이.드 단편 수는 평균 리드 수일 수 있다.

일 구체예에서, 상기 폴리뉴클레오타이드 단편들은 또는 리드들은 약 10 내지 약 2000 bp, 약 10 내지 약 lOOObp， 약 10 내지 약 500bp, 약 10 내지 약 300bp, 약 10 내지 약 200 bp, 약 25 내지 약 2000 bp, 약 25 내지 약 1000 bp, 약 25 내지 약 500bp, 약 25 내지 약 300bp, 약 25 내지 약 200bp, 약 25 내지 약 100bp, 약 50 내지 약 2000 bp, 약 50 내지 약 1000 bp, 약 50 내지 약 500bp, 약 50 내지 약 300bp_: 약 50 내지 약 200bp, 약 50 내지 약 100bp, 약 100 내지 약 2000 bp, 약 100 내지 약 1000 bp, 약 100 내지 약 500bp, 약 100 내지 약 300bp, 약 100 내지 약 200bp, 약 150 내지 약 2000 bp, 약 150 내지 약 1000 bp, 약 150 내지 약 500bp, 또는 약 150 내지 약 300bp 길이를 갖는 것일 수 있으며, 그 길이가 각각 동일하거나 상이할 수 있다. 예컨대, 상기 폴리뉴클레오타이드 단편들 또는 리드들은 각각 독립적으로 약 100 bp, 약 200 bp, 약 300 bp, 약 400 bp, 약 500 bp, 또는 약 1000 bp 의 길이를 갖는 것일 수 있다.

이 때， 하나 이상의 염색체에 지정되는 폴리뉴클레오타이드 단편돌 및 /또는 어떠한 염색체에도 지정되지 않는 폴리뉴클레오타이드 단편들은 이후 단계에서 고려되지 않고 무시될 수 있다.

상기 대규모 병렬 염기서열분석은, 예컨대 454 플랫품 (platform) (Margulies, 등, Nature (2005) 437:376-380), lllumina Genome Analyzer (또는 Solexa™ platform), lllumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, 또는 SOLiD (Applied Biosystems) 또는 Helicos True Single Molecule DNA 서열분석 기술 (Harris, 등, Science (2008) 320: 106~109), Pacific Biosciences의 단일 분자, 및 /또는 실시간 (SMRTTM) 기술 등에 의하여 수행될 수 있다. 또한 나노포어 서열 분석 (Soni and Meller, Clin Chem (2007) 53:1996-2001) 상에서 가능한 대규모 병렬 염기서열분석은 표본으로부터 분리된 많은 핵산 분자 *의 서열분석을 병렬 방식의 높은 차수의 멀티플렉싱 (multiplexing)으로 가능하게 한다 (Dear, Brief Funct Genomic Proteomic (2003) 1 :397-416). 이들 플랫품들 각각은 핵산 단편들의 클론적으로 확장된 또는 증폭되지 않은 단일 분자들을 서열화한다. 상¾적으로 입수 가능한 서열분석 기기를 사용하여 폴리뉴클레오타이드 단편들의 서열정보를 수득할 수 있다

이 외에도상기 서열 분석이 다른 다양한 공지된 서열분석 방법들 및 또는 이들의 변형 방법들에 의하여 수행될 수 있음은 당업자에게는 명백할 것이다.

1 -1) 시험 시료로부터 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계

상기 산모로부터 분리된 시험 시료는 산모로부터 분리된 혈액, 혈장, 또는 혈청일 수 있다. 상기 산모는 인간 여성일 수 있으며, 염색체 이수성 확인 대상인 목적 염색체가 정상인， 즉 목적 염색체의 이수성을 갖지 않는 산모일 수 있다. 상기 혈액， 혈장, 또는 혈청은 통상적인 방법으로 분리 가능하며， 임신 8~12, 12~16, 16-20, 20-24, 24-28, 28-32, 32-36, 36-40, 또는 40~44주에, 예컨대 임신 8~28주 사이에 산모로부터 분리된 것을 수 있다.

상기 시험 시료의 전체 게놈을 커버 (cover)하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계는，

i) 시험 시료에 대하여 차세대 염기서열 분석과 같은 대규모 병렬 염기 서열 분석을 수행하는 단계， 또는

ii) 상기 i)에서 얻어진 서열 정보를 데이터 저장 매체에 저장된 형태로 준비하거나 또는 네트워크 데이터 송수신 장치를 통하여 얻는 단계

에 의하여 수행될 수 있다.

1-2) 참조 시료의 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계

상기 참조 시료는 이미 '게놈의 염기 서열 정보 및 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보' (이하 , '게놈 서열 정보'로 표현)를 알고 있는 게놈 pool로서, 목적 염색체의 이수성을 갖지 않는 태아를 임신한 정상

산모들로부터 얻은 (예컨대 혈장 또는 혈청으로부터 얻음) 게놈 서열 정보 집합일 수 있다. 상기 목적 염색체의 이수성을 갖지 않는 태아를 임신한 정상 산모들로부터 얻은 게놈 서열 정보는 산모들로부터 얻은 게놈 서열 정보들 중에서 출산 후 태아가 염색체 이수성을 갖지 않는 것으로 확인된 산모들로부터 얻은 게놈 서열 정보들 중에서 ^'선택된 것일 수 있다. 참조 시료의 개수 (산모 수 또는 게놈 수에 해당)는 특별한 제한은 없지만 데이터 처리의 편의성과 결과의 정확성을 고려하여, 상기 약 50개 내지 약 200,000개 범위에서 선택될 수 있으며， 예컨대, 상기 범위에서 (즉, 상한값을 200,000개로 하여), 약 50개 이상, 약 100개 이상, 또는 약 200개 이상에서 선택될 수 있다. 참조 시료는， 한국인, 동양인, 서양인 등 인종 별로 세분화된 게놈 서열 정보 군에서 각각 선택되거나 2 이상의 인종이

조합되도록 선택된 것일 수 있다.

상기 참조 시료의 전체 게놈을 커버 (cover)하는 폴리뉴클레오타이드 단편들의 서열 정보를 준비하는 단계는 목적 염색체의 이수성을 갖지 않는 태아를 임신한 정상 산모들로부터 게놈 서열 정보들을 얻고 이 중에서 선택하거나, 이미 확보된 게놈 pool의 게놈 서열 정보들 중에서 선택하는 단계에 의하여 수행될 수 있다. 단계 2) 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계

상기 단계 2)는 시험 시료 및 참조 시료 각각의 폴리뉴클레오타이드 단편들의 서열 정보를 ^'표준 게놈 염기 서열 (Reference genome sequence)과

비교 (mapping)하여, 각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계이다.

2-1) 시험 폴리뉴클레오타이드 단편 수를 결정하는 단계

상기 단계 2-1)은 시험 시료로부터 얻어진, 표준 게놈 염기서열에 맵핑된 전체 게놈 서열올 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 대상으로, 임의의 개수 (B개)의 bin 개수 (bin number)를 갖도록 시험 폴리뉴클레오타이드 단편 수 (polynucleotide fragmeni count또는 리드 수 (read count))를 계산하여

폴리뉴클레오타이드 단편 수 백터 (polynucleotide fragment count vector또는 리드 수 백터 (read count vector))를 생성하는 단계에 의하여 수행될 수 있다.

예컨대, 시험 시료의 폴리뉴클레오타이드 단편 수 또는 리드 수 백터 (S)는 아래의 수식 1으로 표현될 수 있다:

5 = ( , AC₂ , AC₃ , . . . , A C_B__} C_B ) (수식 l) (_{rc: rea}d count; B: bin 개수) 상기 식에서 _rc는 _read count를 의미하며 , 실험적으로 얻어지는 값이다ᅳ 일 예에서, 상기 bin 개수는 각 bin이 약 10,000개 내지 약 20,000,000개， 약 20,000개 내지 약 15,000,000개， 약 30,000개 내지 약 10,000,000개， 또는 약

50,000개 내지 약 1 ,000,000개의 뉴클레오타이드를 포함하도톡 하는 값으로 선택될 수 있다. 예컨대, bin 개수는 약 1 내지 약 30,000, 약 1 내지 약 10,000 , 약 1 내지 약 5,000, 약 1 내지 약 1 ,000, 약 1 내지 약 500， 약 2 내지 약 30,000， 약 2 내지 약 10,000, 약 2 내지 약 5,000, 약 2 내지 약 1,000, 약 2 내지 약 500, 약 5 내지 약 30,000， 약 5 내지 약 10,000， 약 5 내지 약 5,000, 약 5 내지 약 1 ,000， 약 5 내지 약 500, 약 10 내지 약 30,000, 약 10 내지 약 10,000, 약 1.0 내지 약 5,000, 약 10 내지 약 1 ,000 , 약 10 내지 약 5030, 약 20 내지 약 30,000， 약 20 내지 약 10,000, 약 20 내지 약 5 000, 약 20 내지 약 1,000， 약 20 내지 약 500 , 약 50 내지 약 30,000, 약 50 내지 약 10,000， 약 50 내지 약 5 000， 약 50 내지 약 1 ,000, 약 50 내지 약 500, 약 f 1 ι0υ0υ 내지 약 f 3 ^0υ,,0υ0υ0' , 약 100 내지 약 10,000, 약 100 내지 약 5,000, 약 100 내지 약 1 ,000, 또는 약 100 내지 약 500 범위에서 선정될 수 있다. 2-2) 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계

상기 단계 2-2)는 확보된 참조 시료 ρο이에서 선택된 Ν개의 참조 시료군의 폴리뉴클레오타이드 단편들의 서열 정보를 대상으로 Β개의 bin 개수 (bin number)를 갖도록 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count또는 리드 수 (read count))를 계산하여 참조 폴리뉴클레오타이드 단편 수 행렬 (또는 참조 리드 수 행렬 (Reference read count matrix))을 생성하는 단계에 의하여 수행될 수 있다.

예컨대, 참조 시료의 폴리뉴클레오타이 단편 수 또는 리드 수 행렬 (R)은 아래의 수식 2 및 수식 3으로 표현될 수 있다:

(수식 3)

(B: bin 개수; N: 참조시료 개수) 단계 a) 바이어스 제거 단계

단계 a)는 얻어진 폴리뉴클레오타이드 단편 수 값에서 바이어스를 제거하여 보다 정확한 결과를 도출하기 위한 것으로, 단계 2)와 단계 3) 사이에 추가로 수행되는 것일 수 있다ᅳ

상기 단계 a)는 시험 폴리뉴클레오타이드 단편 수 및 참조

폴리뉴클레오타이드 단편 수에 대하여 SVD (Singular Value Decomposition) 를 적용하여 바이어스를 제거하는 단계에 의하여 수행될 수 있다.

일 예에서, 상기 단계 a)는 SVD 를 적용하여 수행될 수 있으며, 이 경우, 다음의 수식 4-7과 같이, i) 참조 폴리뉴클레오타이드 단편 수 행렬과 시험

폴리뉴클레오타이드 단편 수 백터를 결합하여 행렬 X를 생성하는 단계, ii) 결합된 행렬을 대상으로 SVD 수행하는 단계, iii) 분해된 Diagonal 행렬 D에 대해서 Singular value의 합의 50% 이내 , 45% 이내 , 40% 이내 , 35% 이내 , 30% 이내 , 25% 이내 , 20% 이내, 15% 이내， 또는 10% 이내, 예컨대 , 1 내지 50%, 1 내지 45%, 1 내지 40%, 1 내지 35%, 1 내지 30%, 1 내지 25%, 1 내지 20%, 1 내지 15%, 1 내지 10%, 5 내지 50%, 5 내지 45%, 5 내지 40%, 5 내지 35%, 5 내지 30%, 5 내지 25%, 5 내지 20%, 5 내지 15%, 또는 5 내지 10%가 되는 singular value 상위 s개를 선정하는 단계, iv) 행렬 D에서 해당 singular value의 값올 0으로 치환하여 바이어스가 제거된 diagonal 행렬 1)⁸¹를 생성하는 단계, 및 V) 행렬 P^BR를 이용하여 바이어스가 제거된 행렬

_XBR를 생성하는 단계를 포함할 수 있다.

X = \R S Ci C* ^' c N-\ C_N s (수식 4-1)

(수식 4-2)

UDV (수식 ₄ᅵ₃₎ (수식 5)

(수식 6)

(수식 7)

(상기 식에서 UDV 바이어스 제거 전 SVD로 분해된 행렬， UD^BRV^T는 바이어스 제거 후 분해된 행렬을 의미한다)

본원 명세서 도 2에서 확인되는 바와 같이， SVD를 적용함으로써 GC 함량과 무관하게 폴리뉴클레오타이드 단편 수 (read count)가 일정한 수준을 유지함을 알 수 있으며, 이러한 결과는 SVD 적용에 의하 GC 바이어스가 제거됨을 보여주는 것이다. 단계 3ᅵ 평균 폴리뉴클레오타이드 단편 수 비율을 얻는 단계

상기 단계 3)은 목적 염색체의 평균 폴리뉴클레오타이드 단편 수를 상기 목적 염색체를 제외한 다른 염색체의 평균 폴리뉴클레오타이드 단편 수와 비교하여 그 비율을 구함으로써, 실험 간 편차를 제거하고 미량의 태아 염색체에 대한 이수성 확인 결과의 민감성을 보다 개선시키는데 기여한다.

인간의 경우, 1 내지 22번까지의 염색체로 이루어진 군에서 선택될 수 있다. 상기 '목적 염색체 '는 태아의 염색체 이수성 여부를 확인하고자 하는 염색체로서, 예컨대, 인간의 13번, 18번 또는 21번 염색체일 수 있으나, 이에 제한되는 것은 아니며, 염색체 이수성 여부를 확인하고자 하는 모든 상염색체 중에서 선택될 수 있다. 상기 '목적 염색체를 제외한 다른 염색체 중에서 선택된 n개의 염색체 '는 상기 염색체 이수성 여부를 확인하고자 하는 목적 염색체 이꾀의 나머지

상염색체들 중에서 선택된 염색체이다. n은 1 내지 21 중에서 선택되는 정수이다. 일 예에서 , η은 21， 즉 인간의 22개 상염색체 중에서 목적 염색체를 제외한 21개의 염색체 각각의 평균 폴리뉴클레오타이드 단편 수를 평균 폴리뉴클레오타이드 단편 수 비율을 구하는데 사용 할 수 있다.

상기 "평균 폴리뉴클레오타이드 단편 수''는 목적 염색체 또는 merged bin 등의 boundary 내애 존재하는 모든 폴리뉴클레오타이드 단편 수 또는 리드 수를 평균하여 얻을 수 있다.

상기 "목적 염색체를 제외한 다른 염색체의 평균 폴리뉴클레오타이드 단편 수''는 각 염색체 대상 임의로 정한 일정한 길이를 갖도록 각 bin을 통합한 영역 (merged bin)에 해당하는 폴리뉴클레오타이드 단편 수의 평균값이다.

일 구체예에서, 평균 시험 폴리뉴클레오타이드 단편 수 비율 또는 평균 참조 폴리뉴클레오타이드 단편 수 비율은 다음 단계에 의하여 계산될 수 있다:

i) Merged Bin의 평균 size인 mb_size를 전체 Bin 개수를 전체 상염색체 개수인 22와 사전에 설정된 k개를 곱한 값으로 나누어 정하고， 각 염색체 별로 0 1^₆의 길이를 갖도록 bin을 통합하는 단계 h ― B

m^Dsize 2 x k ⁽수식 ^8); 및 ii) 목적 염색체 i 및 목적 염색체를 제외한 염색체의 각 merged binj에 대해서 평균 값을 구하여 , 이들 간 비율 (Read count ratio)을 얻는 단계 .

(수식 9).

는 목적 염색체 i의 평균 리드 수이고 , μ_ιη 는 merged binj와평균 리드 수 이다. 상기 k값은 사용자에 의해 선정되는 값으로, 일례로 1 내지 20, 1 내지 15, 1 내지 10,또는 1 내지 5의 값을 사용할 수 있다. . 3-1) 평균 시험 폴리뉴클레오타이드 단편 수 비율을 앋는 단계 상기 단계 3- 1)은 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 _n개 _(n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 merged bin각각의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율올 얻는 단계 (상기 비율은 merged bin의 개수 개 만큼 얻어짐)일 수 있다.

' 구체적으로， 상기 단계 3- 1)은 시험 폴리뉴클레오타이드 단편 수 (또는 시험 리드 수)를 대상으로, 목적 염색체의 평균 폴리뉴클레오타이드 단편 수 (또는 시험 리드 수) 및 상기 목적 염색체를 제외한 n개의 염색체를 대상으로 생성된 merged bin 각각의 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수)를 취하여 이들 간 비율 [목적 염색체의 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수) / merged bin 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수)] (Read count ratio)를 계산하여 (상기 비율은 merged bin의 개수 만큼 얻어짐), 평균 시험

폴리뉴클레오타이드 단편 수 비율 백터 (또는 평균 시험 리드 수 비율 백터) (Case read count ratio vector)를 생성하는 단계에 의하여 수행될 수 있다. i번째 염색체 (chromosome i; 목적 염색체)의 다른 염색체에 대한 평균 시험 풀리뉴클레오타이드 단편 수 비율 백터 (RCR_chri)는 아래의 수식 10으로 표현될 수 있다 (mbm: merged bin number): ^^chr, = ^^mb,， ^^C^mb₂， ^^mb₃ .， ^^C^mb_m^， mb_m )

(수식 10)

. 3-2) 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계

상기 단계 3-1 )은 상기 참조 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의， 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 _n개 (_n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 (참조 시료 수) X merged bin의 개수 (mbm) 개 만큼 얻어짐)일 수 있다.

구체적으로, 상기 단계 3-2)는 N개의 참조 시료로부터 얻어진 참조

폴리뉴클레오타이드 단편 수 (또는 참조 리드 수)를 대상으로, 목적 염색체의 평균 폴리뉴클레오타이드 단편 수 (또는 참조 리드 수) 및 상기 목적 염색체를 제외한 mbm 개의 merged bin 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수)를 취하여 이들 간 비율 [목적 염색체의 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수) / merged bin 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수)] (Read count ratio)을 계산하여 (상기 비율은 참조 시료 수 (N) * mbm 개 만큼 얻어짐), 평균 참조 폴리뉴클레오타이드 단편 수 비율 행렬 (또는 참조 리드 수 비율 행렬)

(Reference read count ratio matrix)를 생성하는 단계에 의하여 수행될 수 있다 . i번째 염색체 (chromosome i)의 다른 염색체에 대한 평균 참조 폴리뉴클레오타이드 단편 수 비율 행렬 (RCRM_ch„)는 아래의 수식 11로 표현될 수 있디-：

RCR J RCR, RCR,

RCR m, b_Z

RCR. b_z,N- RCR m, b_z,N

/?에 ,

N一、 RCR,

RCR, RCA m, br. ,2 ACR _mbm -、_{, 3}

RCR쪠 RCR RCR, , 3 RCR m, b_miN-\ RCR,

(수식 i i) 단계 4) CV (Coefficient of Variation) 값을 얻는 단계

■ 상기 단계 4)는 상기_.얻어진 평균 참조 폴리뉴클레오타이드 단편 수 비율 행렬로부터 각 평균 폴리뉴클레오타이드 단편 수 비율 별 CV (Coefficient of Variation) 값을 얻는 단계이다.

구체적으로, 상기 단계는 각 염색체 별 평균 폴리뉴클레오타이드 단편 수 비율 (평균 리드 수 비율) 및 merged bin 평균 폴리뉴클레오타이드 단편 수 비율 (평균 리드 수 비) (RCRi )에 대해 참조 시료군을 대상으로 CV를 계산하여 수행돨 수 있다. i번째 염색체 (chromosome i)에 대한 CV (CV_ch„)는 다음의 수식 1 1로 얻어질 수 있다: ■

cv_chri

(수식 12)

상기 식에서 , oRCR_n,_mbm은 참조 시료군을 대상으로 계산된 각 염색체별, merged bin별 리드수 비의 표준편차를 나타내고 , RCR_n,mbm 은 참조 시료군을 대상으로 계산된 각 염색체별, merged bin 별 리드수 비의 평균을 나타낸다. 단계 5) 가중 평균 폴리뉴클레오타이드 단편 수 비율을 얻는 단계

단계 5는 단계 3과 더불어 결과의 신뢰도와 정확성을 보다 높이기 위한 것으로, 상기 얻어진 목적 염색체 별 평균 폴리뉴클레오타이드 단편 수 비율 (mbn 개) 중에서 CV가 낮은 순서로 임의의 개수를 선택하고, 여기에 상기 4단계에서 구한 각 단편 수 비율에 해당하는 CV의 역수를 곱하여 얻어진 수치의 평균값 (가중 평균 폴리뉴클레오타이드 단편 수 비율)올 사용하는 것을 특징으로 한다. 구체적으로， 단계 5-1)은 상기 단계 4)에서 각 염색체 chri별로 참조 시료군을 대상으로 계산된 CV 값을 기준으로, CV 값이 적은 상위 N_cv개의 평균

폴리뉴클레오타이드 단편 수 비율을 선택한 후, 평균 시험 폴리뉴클레오타이드 단편 수 비율들을 대상으로 각 폴리뉴클레오타이드 단편 수 비율에 해당하는 CV 값으로 가증 평균 (CV의 역수를 곱하여 평균을 구함)된 가중 평균 폴리뉴클레오타이드 단편 수 비율 값을 계산하여 수행될 수 있다. 일례로, 상기 N_cv는 Cv_chn의 최소값 대비 약 1.1배 이상， 약 1.3배 이상, 약 1.5배 이상, 약 1.7배 이상, 약 2배 이상, 또는 약 3 배 이상 큰 값을 가진 평균 폴리뉴클레오타이드 단편 수 비율 값 (RCR), 예컨대， Cv_chr^ 최소값 대비 약 1.1배 내지 약 5 배, 약 1.1배 내지 약 3배, 약 1.1배 내지 약 2배， 약 1.3배 내지 약 5배， 약 1.3 내지 약 3 배, 약 1.3배 내지 약 2배, 약 1.5배 내지 약 5배, 약 1.5배 내지 약 3배, 약 1.5 내지 약 2배, 약 1.7배 내지 약 5배, 약 1.7배 내지 약 3배, 약 1.7배 내지 약 2배, 약 2배 내지 약 5배, 또는 약 2배 내지 약 3배 큰 값을 가진 평균 폴리뉴클레오타이드 단편 수 비율 값 (RCR)들을 선택할 수 있으나, 이에 제한되는 것은 아니고, 실험적 및 /또는 경험적으로 적절한 값을 선택할 수 있다.

일 예에서, i번째 염색체 (chromosome i)의 가중 평균 폴리뉴클레오타이드 단편 수 비율 _(WRCRchn)은 다음의 수식 ₁₃으로 얻을 수 있다:

oy H U一-

b

(수식 13) 5-2) 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계

참조 시료군에 대해서도 각 참조 시료 별 (총 N개) 및 염색체 별 상위 N_cv개의 평균 폴리뉴클레오타이드 단편 수 비율 값을 대상으로, 각

폴리뉴클레오타이드 단편 수 비율에 해당하는 CV 값으로 가중 평균 (CV의 역수를 곱하여 평균을 구함)된 가중 평균 폴리뉴클레오타이드 단편 수 비율 값을 계산하여, 참조 가중 평균 폴리뉴클레오타이드 단편 수 비율 백터를 생성할 수 있다.

일 예에서, i번째 염색체 (chromosome i)의 가중 평균 참조

폴리뉴클레오타이드 단편 수 비율 백터 (R_WRCRchri)를 아래의 수식 14로 구할 수 있다:

R _chri = WRCR,_chri WRCR₂,_hn , WRCR^_chri WRCR^ WRCR_N,_hn ]

(수식 14) 단계 6ᅵ 가중 평균 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계.

상기 단계 6)의 비교하는 단계는 가중 평균 시험 .폴리뉴클레오타이드 단편 수.비율과 가중 .평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계로서, 상기 비교는 목적 염색체의 Z-score를 얻는 단계에 의하여 수행될 수 있다.

예컨대， 목적 염색체 (염색체 i)의 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율 값과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 백터를 비교하여 아래의 수식 15로 Z-score (Z_cv -ratio. chri )를 계산할 수 있다:

C -ratio, chn

(수식 ¹⁵) 상기 수식 15 에서, 레오타이」 단편 수 비율 백터의 평균

참조

폴리뉴클레오타이드 단편 수 비율 백터의 표준편차를 의미한다. 단계 7) 태아 염색체 이수성을 확인하는 단계 상기 단계 6)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율 비교 결과를 기초로 태아 염색체 이수성 여부를 판별할 수 있다. 즉, 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 비교 결과, 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율이 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 보다 유의하게 높거나 낮게 나타날수록 목적 염색체의 이수성 가능성이 높다고 판단할 수 있다.

예컨대, 상기 폴리뉴클레오타이드 단편 수 비율 비교가 Z-score에 의하여 수행되는 경우， Z-score 값이 클수록 태아의 목적 염색체의 이수성 가능성이 높다고 판단할 수 있다.

일 예에서, 목적 염색체 (염색체 i)에 대한 Z-score (Z_cv-rat,₀._chn)의 절대값이 특정 수치 이상, 예컨대, 약 3 이상인 경우, 시험 시료의 태아 염색체 중 염색체 i에 염색체 이수성이 존재하는 것으로 판별할 수 있다:

^CV -ratio, chf_j ³

(수식 16) 상기 제시된 비침습적 태아 염색체 분석 방법의 각 단계는. 컴퓨터와 같은 정보 처리 및 판독 장치를 통하여 수행될 수 있다.

본 발명의 다른 예는 비침습적 태아 염색체 분석을 위한 정보 처리 시스템 (컴.퓨터)을 제공한다. 상기 시스템은앞서 설명한 비침습적 태아 염색체 분석 법에 사용하기 위해 적용되는 수단들을 포함하는 시스템일 수 있다. 상기 시스템은

1) 서열분석기 (sequencer) 또는 서열 정보를 포함하는 computer-readable 정보 저장 매체;.및,

2) 상기 서열 분석기로부터 정보 수신이 가능하거나 상기 정보 저장 매체 내의 정보의 판독이 가능한 정보 처리 및 판독 매체 (컴퓨터)

을 포함하는 것일 수 있다.

상기 시스템은 산모로부터 분리된 생물학적 시료 및 /또는 다수의

폴리뉴클레오타이드 단편들 (예컨대, 앞서 설명한 바와 같은 시험 시료

폴리뉴클레오타이드 단편들 및 /또는 참조 시료 폴리뉴클레오타이드 단편들)을 추가로 포함할 수 있다. 한편， 본 명세서에 기재된 방법 및 정보는 상기 기재된 단계를 실행시킬 수 있는 프로그램을 통하여 공지된 컴퓨터 판독 가능한 매체 상에서 구현될 수 있다. 보다 구체적으로, 상기 제시된 비침습적 태아 염색체 분석 방법 및 /또는 각

단계에서 얻어잔정보들은, 컴퓨터에 의해 실행 가능한 프로그램 (computer executable instruction)으로서, 공지된 컴퓨터 판독 가능한 매체 상에서 전체적 또는 부분적으로 구현 및 /또는 처리될 수 있다. 예컨대, 본 명세서에 기재된 방법은 하드웨어에 결합되어 구현될 수 있다. 상기 하드웨어는 컴퓨터, 표준 다목적 (multi-purpose) CPU, ASIC(application-specific integrated circuit) 또는 다론 하드-와이어드 장치 (hard-wired device)와 같은 특수하게 설계된 하드웨어 또는 펌웨어를 의미하는 것일 수 있으며, 이하사용되는 용어 '컴퓨터'는 이들을 총칭하기 위한 것일 수 있다.

본 발명의 또 다른 예는, 다음의 단계를 포함하는 태아의 염색체 이수성 판단을 위한 컴퓨터 판독 방법을 제공한다:

A-1) 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표준 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여, 각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계 (앞서 설명한 단계 2-1)에 해당),

A-2) 참조 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 이용하여 미리 설정된 bin 개수를 갖도록 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계 (앞서 설명한 단계 2-2)에 해당);

B-1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (_n은 1 내지 21 중에서 선택되는 정수)의 염색체로부터 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 merged bin의 개수 개 만큼 얻어짐) (앞서 설명한 단계 3-1)에 해당);

B-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서， 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin의 개수 개 만큼 얻어짐) (앞서 설명한 단계 3-2)에 해당;

C) 평균 참조 폴리뉴클레오타이드 단편 수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계 (앞서 설명한 단계 4)에 해당)；_.

D-1) 상기 단계 B-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 중에서

CV값이 적은 상위 N_cv개에 해당하는 수치들을 선정하여， 가증 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (앞서 설명한 단계 5-1)에 해당);

D-2) 상기 단계 B-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율을 대상으로 상기 단계 D-1)에서 선정된 CV값이 적은 상위 N_cv개에 해당하는 수치들을 이용하여, 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (앞서 설명한 단계 ⁵-2)에 해당);

E) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계 (앞서 설명한 단계 6)에 해당); 및

F) 상기 단계 E)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 비교 결과 (예컨대, Z- score)를 아용하여 태아와 목적 염색체의 이수성 여부를 확인하는 단계 (앞서 설명한 단계 7)에 해당).

상기 컴퓨터 판독 방법은 보다 정확한 결과 도출을 위하여， 상기 단계 A-1) 및 A-2) 이후에 (및 상기 단계 B-1 및 B-2) 이전에), a) 얻어진 시험

상기한 각 단계의 상세 사항은 앞서 설명한 바와 같다.

상기 컴퓨터 판독 방법은 컴퓨터 판독 가능한 매체 상에서 컴퓨터에서 실행 가능한 프로그램으로서 구현될 수 있다.

다른 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 하드웨어와 결합된 것일 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 상기한 바와 같은 컴퓨터 판독 방법의 각 단계를 컴퓨터에서 실행시키기 위한 프로그램이며, 이 때 상기한 모든 단계가 하나의 프로그램에 의하여 실행되거나， 하나 이상의 ^'단계를 실행하는 두 개 이상의 프로그램에 의하여 실행될 수 있다.

다른 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)아 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다.

상기 컴퓨터에서 실행 가능한 프로그램은 컴퓨터 판독 가능한 저장 매체 (예컨대， 메모리 등)에 저장되고, 하나 이상의 프로세서 상에 구현된 소프트웨어로 구현될 수 있다. 일반적으로 알려진 바와 같이, 프로세서는 하나 이상의

컨트를러 (controller), 연산 유닛 (calculation unit) 및 /또는 컴퓨터 시스템의 다른 유닛과 결합되거나, 적절한 펌웨어 (firmware)에 이식될 수 있다. 상기 프로그램이

소프트웨어에 이식되는 경우, RAM (Random Access Memory), ROM (Read Only Memory)_: EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래쉬 메모리 (e.g., USB(Universal Serial Bus) 메모리 , SD(Secure Digital) 메모리 , SSD(Soli State Drive), CF (Compact Flash) 메모리, xD 메모리 등), 자기 디스크, 레이저 디스크, 또는 기타 저장 매체와 같은 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 프로그램 또는 소프트웨어는, 예컨대， 전화선， 인터넷, 무선 접속 등과 같은 통신 채널 상에서, 또는 컴퓨터 판독가능한 디스크, 플래쉬 드라이브 등과 같은, 휴대용 매체 (transportable medium)를 통한 것을 포함하는 모든 공지된 전달 방법올 통하여 컴퓨터 장치에 전달될 수 있다.

상기한 바와 같은 다양한 단계들이 통상적으로 알려진 다양한 블록, 작업 (operation), 를, 모들, 및 하드웨어, 펌웨어, 소프트웨어, 또는 하드웨어, 펌웨어 및 /또는 소프트웨어의 조합에서 구현될 수 있는 기법으로서 구현될 수 있다.

하드웨어에서 구현되는 경우, 블록, 작업, 기법 등의 일부 또는 전부가， 예컨대, 맞춤화 집적 회로 (custom IC), ASIC(application specific integrated circuit), FPGA(field programmable logic array), PLA(programmable logic array) 등에서 구현될 수 있다, 소프트웨어에서 구현되는 경우， 소프트웨어는 자기 디스크， 광 디스크， 또는 다른 저장 매체와 같은 공지된 컴퓨터 판독가능한 매체, 컴퓨터의 RAM, 또는 ROM 또는 플래쉬 메모리, 프로세서, 하드 디스크 드라이브, 광 디스크 드라이브, 테이프 드라이브 등에 저장될 수 있다. 또한, 소프트웨어는, 예컨대, 컴퓨터 판독가능한 디스크 또는 다른 휴대용 컴퓨터 저장 메카니즘을 포함한 공지돤 전달 방법을 통해 사용자 또는 컴퓨터 시스템에 전달될 수 있다.

상기 컴퓨터 판독 방법, 프로그램, 및 저장매체는 다수의 다른 범용 (general purpose) 또는툭수 목적 컴퓨팅 시스템 환경 또는 구조에서 운영될 수 있다. 상기 컴퓨터 판독 방법, 프로그램, 및 저장매체를 실행하기에 적합한 컴퓨팅 시스템, 환경, 및 /또는 구조는 예컨대, 퍼스널 컴퓨터 (PC), 서버 컴퓨터, 휴대용 또는 랩탑 (laptop) 장치, 멀티프로세서 시스템, 마이크로프로세서 -기반 시스템, 셋탑 박스，

프로그램가능한 (programmable) 가전 (consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 및 /또는 상기한 시스템 또는 장치를 포함하고 통신 네트워크를 통해 연결된 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 (distributed computing) 환경 등을 포함할 수 있으나, 이에 제한되지 않는다. 통합 컴퓨팅 환경 및 분산 컴퓨팅 환경 모두에서, 프로그램 모들은 메모리 저장 ^치를 포함한, 로컬 및 원격 컴퓨터 저장 매체에 위치될 수 있다.

컴퓨터는 통상적으로 다양한 컴퓨터 판독가능한 매체를 포함할 수 있다.

컴퓨터 판독가능한 매체는 컴퓨터에 의해 접근 가능하고 이용 가능한 매체일 수 있고 휘발성 매체 및 비휘발성 매체, 이동성 (removable) 매체 및 비이동성 매체를 포함할 수 있다. 예컨대， 컴퓨터 판독가능한 매체는 컴퓨터 저장 매체 및 /또는 통신 매체 (communication media)를 포함할 수 있다.

상기 컴퓨터 저장 매체는 컴퓨터 판독가능한 명령어, 데이터 구조, 프로그램 모들 및 /또는 기타 데이터와 같은 정보의 저장을 위한 방법 또는 기술에서 구현된, 휘발성 또는 비휘발성, 및 /또는 이동성 또는 비이동성 매체를 포함할 수 있다.

컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 (e.g., USB 메모리， SD 메모리, SSD, CF 메모리, xD 메모리 등), 자기 디스크， 레이저디스크, 또는 기타 메모리, CD-ROM, DVD(digital versatile disk) 또는 기타 광학적 디스크, 자기

카세트 (magnetic cassette), 자기테이프, 자기 디스크 저장 또는 기타 자기 저장 장치， 또는 원하는 정보를 저장하기 위해 이용될 수 있고 컴퓨터에 의해 접근 가능한 모든 매체들 중에서 하나 이상 선택될 수 있으나, 이에 제한되지 않는다.

상기 통신 매체는 통상적으로 컴퓨터 판독가능한 명령어, 데이터 구조, 프로그램 모들, 또는 반송파 (carrier wave)와 같은 모들화 데이터 신호 (modulated data signal) 중 데이터 전송 또는 기타 전송 (transport) 메카니즘을 구현하는 정보 전달 매체 (information delivery media)를 포함할 수 있다. 용어 "모들화 데이터 신호 (modulated data signal)"는 신호에 정보를 코딩하는 방식으로 설정되거나 변경된 하나 이상의 특징을 갖는 신호를 의미한다. 예컨대， 상기 통신 매체는 유선 네트워크 또는 직접 -유선 연결 (direct- wired connection)과 같은 유선 매체, 및

음향 (acoustic) 매체, RF, 적외선 및 기타 무선 매체와 같은 무선 매체를 포함한다. 상기한 매체들 중 하나 이상의 조합도 컴퓨터 판독 가능한 매체의 범위 내에 포함될 수 있다.

【발명의 효과】

전술한 기술적 해결 방법에서 제공된 수단 중 어느 하나에 의하면, 산모로부터 태아 비침습적으로 분리된 생물학적 시료로부터 얻어진 DNA 서열 정보로부터 태아의 염색체 이수성 여부를 판별하는데 있어서, 이수성 여부를 판별하고자 하는 특정 염색체의 평균 리드 수와 상기 염색체를 제외한 다른 염색체의 평균 리드 수를 비교하여 실험간 편차를 제거하고, CV (Coefficient of Variation) 값으로 가중 평균된 염색체간 리드 수의 비율을 이용함으로써, 결과의 신뢰도 및 특이도 향상시켜 위양성 확률을 줄일 수 있어서, 태아에 위해 없이 비침습적으로 안전하고 정확하게 태아의 염색체 이수성 여부를 판단할 수 있다.

【도면의 간단한 설명】

도 1은 일 예에 따른 비침습적 태아 염색체 이수성 판별 방법의 각 단계를 예시적으로 보여주는 모식도이다.

도 2는 SVD 적용 전 후의 GC 바이어스 제거 양상을 보여주는 그래프로서， Y축은 리드수 비율 (read count fraction), X축은 GC 함량 (GC content)를 의미한다. 도 3은 태아 염색체 이수성 판별 결과 얻어진 Z-score를 나타낸 그래프로서, A는 본 명세서에서 제안된 방법에 따른 결과이고 , Β 내지 D는 가중 평균 리드 수 비율 계산 단계를 수행하지 않는 기존의 방법에 따른 결과이다.

【발명의 실시를 위한 최선의 형태】

이하에서는 실시예를 들어 본 발명을 더욱 구체적으로 설명하고자 하나， 이는 예시적인 것에 불과할 뿐 본 발명의 범위를 제한하고자 함이 아니다. 아래 기재된 실시예들은 발명의 본질적인 요지를 벗어나자않는 범위에서 변형될 수 있음은 당 업자들에게 있어 자명하다. 실시예 1 : 시험 시료 준비 및 염기 서열 분석

시험 대상 임신 8~28 주 산모의 전혈 10ml을 채취하여, 5ml의 혈장을 분리하였다. 상기 분리된 혈장으로부터 Qiagen사의 QIAamp Circulating Nucleic Acid Kit를 사용하여 cfDNA(cell-free DAN)를 추출한 뒤, 추출된 cfDNA를 이용하여 NGS library를 생성하고, Illumina사의 MiSeq NGS 기기에 sequencing하여 FASTQ data를 생성하였다. 이 때, 사용된 리드는 200bp 길이를 갖도록 하여 시험을 수행하였다. 실시예 2: 참조 시료의 염기 서열 준비

산모 (시험 대상 산모를 제외)들로부터 전혈 10ml을 채취하여, 5ml의 혈장올 분리하였다. 실시예 1의 방법을 참조하여， 상기 분리된 혈장으로부터 cfDNA를 추¾한 뒤, 추출된 cfDNA를 이용하여 NGS library를 생성하고, NGS 기기에 sequencing하여 FASTQ data를 생성하였다. 이들 중에서 태아가 염색체 이수성을 갖지 않은 것으로 확인된 산모의 데이터들을 선택하여 이하 시험에서 참조 시료로 사용하였다 (참조 시료 수 = 100). 실시예 3: 리드 카운트 결정

상기 준비된 시험 시료로부터 ¾어진 리드의 염기서열을 표준 게놈

― 염기서열 (hgl8, hgl9, 또는 hg38; NCBI 제공)에 맵핑하고, bin별 30,000 개〜 10,000,000 개의 뉴클레오타이드가 포함되도록 약 100개 ~ 30,000개의 bin 개수 (bin number)를 갖도록 시험 리드 수를 계산하여， 아래와 같이 시험 리드 수 백터 (read count vector; S)를 생성하였다.

5 = (/^"C /Ϊ ₂ , Λ ^" ₃ , . . .，厂 ^—!， ) (수샥 l) (_rc: read count; B(bin 개수) =100 30,000)

또한, 상기 준비된 참조 시료 염기 서열 정보를 이용하여 참조 리드 수 행렬 (R)을 아래와 같이 생성하였다:

B 二 [C C₂, C₃, ... , C_N_ , C_N ] (수식 ₂)

(수식 3)

(B (bin 개수) : 100 30,000; N (참조시료 개수)： 100) 실시예 4: 바이어스 제거

상기 얻어진 시험 시료의 리드 수 백터 (S)와 참조 시료의 리드 수 행렬 (R)에 대하여 , 아래의 방법으로 바이어스를 제거하였다.

우선， 참조 리드 수 행렬과 시험 리드 수 백터를 결합하여 행렬 X를 생성하고 결합된 행렬을 대상으로 아래의 과정으로 SVD 수행하였다:

(수식 4-l)(N: 100)

(수식 4-2)

- UDV^T (수식 ₄_₃₎

(B: 100-30,000; N: 100) 분해된 Diagonal 행렬 D에 대해서 Singular value의 합의 5-50 % 이내가 I 상위 s개를 선정하고,

(수식 5)

행렬 D에서 해당 singular value의 값을 0으로 치환하여 바이어스가 제거된

BR Ξ

diagonal 행렬 D 생성한 후,

(수식 6)

이용하여 바이어스가 제거된 행렬 를 생성하였다:

UD^BRV^T (수식 ₇,

상기와 같이 SVD를 적용하여 바이어스가 제거된 경우의 GC 함량을 염색체별 구아닌 (G), 사이토신 (C)의 염기 수의 합 I 염색체별 전체 염기 수의 합으로 측정하여, 바이어스가 제거되지 않은 경우와 비교하여, 도 2에 나타내었다. 도 2에서 확인되는 바와 같이, SVD를 적용함으로써 GC 함량과 무관하게 폴리뉴클레오타이드 단편 수 (read count)가 일정한 수준을 유지함을 알 수 있으며, 이러한 결과는 SVD 적용에 의하여 GC 바이어스가 제거됨을 보여주는 것이다. 실시예 5: 평균 폴리뉴클레오타이드 단편 수 비율을 계산 Merged Bin의 평균 size인 mb_size - 전체 Bin 개수를 전체 상염색체 ^'개수인 22와 사전에 설정된 k개를 곱한 값으로 나누어 정하고, 각 염색체 별로 mb_size의 길이를 갖도록 bin을 통합하였다:

, B

mb _i7P =

22 X k ⁽수식 ⁸

(B=100~30,000, k=l~10)

이수성을 확인하고자 하는 13, 18, 또는 21번째 염색체 및 상기 염색체를 제외한 염색체의 각 merged binj에 대해서 평균 값을 구하여, 이들 간 비율 (Read count ratio)을 구하였다:

(수식 9).

(μ 목적 염색체 i의 평균 리드 수， ^ 는 merged binj의 평균 리드 수; i: 13, 18, 또는 21).

실험 시료를 대상으로 각 염색체 (chri) 별, merged bin 별 리드 수 비 (Read count ratio) 를 계산하여, 평균 시험 리드 수 비 백터 (Case read count ratio vector;

RCR_ch„)를 다음과 같이 생성하였다:

BCR_chri 二 {RCR_mb , RCR_mb2， RCR_mbz ... , RCR_{mbm ]} , RCR_mbm )

(수식 10) (mbm: merged bin number)

참조 시료를 대상으로 각 염색체 chri에 대해서 Read count ratio를 계산하여 염색체 별 참조 리드 수 비 행렬 (Reference read count ratio matrix)을 다음과 같이 생성하였다: RGR_mbZ RCR_mbz

RCR_mb ^RCRm_b,₂ RCR_mbi,

RCR_m. RCR_mb32 RCR, RCR m, b_z,N~ RCR,

_'띠 ,

RCI키、、 RCR_mb^_i2 RCR_mbm_^ RCR

RCR氣, 1 ACR_{mb z} RCR_{mb 3} RCR m,t>ᅳ M-\ RCR m,b_'

(수식 11) 실시예 6: CV (Ooefficient of Variation) 값 계산

참조 시료에 대하여 각 염색체 별, merged bin별 리

다음과 같이 CV를 계산하였다: σ RCR n,mb\ n,mb\

σ RCR n ,mb

cv_chri = n ,mb σ RCR n,mb -

(수식 12)

RCR n,mb_m -、

σ RCR n,mb_n n,mb_m (aRCR_n,_mbm： 참조 샘플 군을 대상으로 계산된 각 염색체별， merged bin별 리드수 비의 표준편차 ^RCR_n,mbm: 참조 샘플 군을 대상으로 계산된 각 염색체별, merged bin별 리드수 비의 평균) 실시예 7: 가증 평균 리드 수 비율 계산

상기 실시예 6에서 각 염색체 chri별로 참조 시료를 대상으로 계산된 CV 값을 기준으로， CV 값이 적은 상위 N_cv개의 리드 수 비를 선택한 뒤, 실험 시료의 평균 리드 수 비율 값들을 대상으로 리드.수 비에 해당하는 CV 값으로 가중 평균된 가중 평균 리드 수 비 값을 아래의 수식 13으로 계산하였다.

(수식 13) 본 실시예에서 N_cv는 Cv_chri의 최소값 대비 1.1 내지 5배 큰 값을 가진 리드 수 비 지의 값들올 선택하였다. ,

참조 시료의 평균 리드 수 비율 값들에 대해서도 염색체 별 상위 N_cv개 값의 리드 수 비 값을 대상으로 상기와 같은 과정을 수행하여, 참조 가중 평균 리드 수 비 백터를 아래와 같이 생성하였다:

R画 _chri = WRCR _chn， WRCR _chri， WRCR,^ WRCR_N_ _chri ' WRCR_N,_hn ]

(수식 14) 실시예 8: 태아 염색체 이수성의 판단

' 상기 실시예 7에서 얻어진 염색체 별 실험 시료의 가중 평균 리드 수 비와 참조 시료의 가중 평균 리드 수 비 백터를 비교하여 다음과 같이 Z-score를 계산하였다:

WRCR_chn - (R _cffi

ᅳ {R_WRCRch ) (수식

{ ^WRCR_chr : 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 백터의 평균; ^WRCR_chn )： 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 백터의 표준 편차)

Z-score의 절대값이 3 이상이면, 해당 샘플의 태아 염색체에 이수성이 있는 것으로 판별하였다.

7 CV -ra o,chf_i >ᅳ 3 (수식 ) 태아 이수성이 확인된 총 20개의 시료를 시험시료로 하여 상기한 방법으로 Z-score를 계산하여 그 결과를 아래와 표 1의 A 및 도 3의 A에 나타내었다.

비교를 위하여, 리드수 기반 방법, 목적 염색체와 생물학적 특징이 유사한 염색체 간 리드 수 비율을 이용한 방법， 및 목적 염색체의 리드 수와 전체 리드 수 간의 비율을 이용한 방법에 의하여 각각 Z-score를 측정하여 태아 염색체 아수성을 판별하였다. 구체적으로, 상기 리드수 기반 방법에 의한 태아 염색체 이수성 판별은 실시예 4의 SVD를 적용하여 바이어스를 제거하는 단계 [단계 a) 해당]， 실시예 5의 폴리뉴클레오타이드 단편 수 비율을 계산하는 단계 [단계 3-1) 및 3-2)에 해당], 및 실시예 6 및 7의 가중 평균 리드수 비율을 계산하는 단계 [단계 4)， 5-1), 및 5-2)에 해당]를 수행하지 않고, 실시예 3 (단계 2-1) 및 2-2)에 해당)에서 얻어진 시험 리드 수 백터와 참조 리드 수 행렬을 사용하여 중간 단계 없이 상기 수식 15 및 16올 참조하여 [단계 6)에 해당]을 참조하여 Z-score를 계산하여 수행하였으며, 그 결과를 아래의 표 1의 B 및 도 3의 B에 나타내었다.

상기 목적 염색체와 생물학적 특징이 유사한 염색체 간 리드 수 비율을 이용한 방법에 의한 태아 염색체 이수성 판별은 실시예 4의 SVD를 적용하여 바이어스를 제거하는 단계 [단계 a) 해당] 및 실시예 6 및 7의 가중 평균 리드수 비율을 계산하는 단계 [단계 4), 5-1), 및 5-2)에 해당]를 수행하지 않고, 실시예 3 (단계 2-1) 및 2-2)에 해당)에서 얻어진 시험 리드 수 백터와 참조 리드 수 행렬을 대상으로， 목적 염색체의 평균 리드 수와, 목적 염색체와 GC 함량과 같은 생물학적 특징이 유사한 염색체 (목적 염색체가 21번 염색체인 경우, 9번 염색체 사용)의 평균 리드 수 간 비율을 사용하여 상기 수식 15 및 16을 참조하여 Z-score를 계산하여 수행하였으며, 그 결과를 아래의 표 1의 C 및 도 3의 C에 나타내었다. 상기 목적 염색체의 리드 수와 전체 리드 수 간의 비율을 이용한 방법에 의한 태아 염색체 이수성 판별은 실시예 4의 SVD를 적용하여 바이어스를 제거하는 단계 [단계 a) 해당] 및 실시예 6 및 7의 가중 평균 리드수 비율을 계산하는 단계 [단계 4), 5-1), 및 5-2)에 해당]를 수행하지 않고， 실시예 3 (단계 2-1) 및 2-2)에 해당)에서 얻어진 시험 리드 수 백터와 참조 리드 수 행렬을 대상으로， 목적 염색체의 평균 리드 수와 전체 염색체의 평균 리드 수 간 비율을 사용하여 상기 수식 15 및 16을 참조하여 Z-score를 계산하여 수행하였으며, 얻어진 Z- score절대값을 아래의 표 1의 D 및 도 3의 D에 나타내었다.

[표 1]

A B C D

시효 1 5.406 4.251 4.003 5.222

시료 2 6.626 4.757 4.955 5.708

시료 3 6.795 5.169 5.881 6.16 시료 4 5.983 5.235 5.988 6.307

시료 5 4.936 3.796 4.402 4.571

시료 6 5.569 4.897 5.665 5.853

시료 7 4.847 3.648 4.64 - 4.478

시료 8 6.243 4.687 5.193 5.739

시료 9 6.624 4.982 5.604 6.057

시료 10 5.781 4.689 5.916 5.617

시료 11 6.002 3.54 4.192 4.609

시료 12 5.953 4.174 5.193 5.394

시료 13 3.794 2.426 2.924

시료 14 5.806 3.9 5.452 5.021

시료 15 3.209 1.927 2.989 2.926

시료 16 4.237 2.907 3.518 3.936

시료 17 3.2 2.354 3.523 3.415

시료 18 3.305 2.227 3.26 3.143

시료. 19 5.837 3.81 5.373 4.954^'

시료 20 3.962 2.702 4.026 3.783 표 1 및 도 3에서 :보여지는 바와 같이, 본 발명의 방밥 (질시예 1 내지 7을 모두 수 ¾)에 의하여 산모 혈액으로부터 태아 염색체 이수성을 판별한 결과, 태아 염색체 이수성이 확인된 총 20개의 시험 시료가 모두 Z-score 3 이상으로 나타나, 100% 정확성을 나타내었다 (표 1의 A 및 도 3의 A). 반면， 리드수 기반 방법에 의한 태아 염색체 이수성 판별시에는 총 20개 시험 시료 중에 6개의 시험 시료는 태아 염색체 이수성이 없는 것으로 판별되었고 (표 1의 B 및 도 3의 B)， 목적 염색체와 생물학적 특징이 유사한 염색체 간 리드 수 비율일 이용한 방법에 의한 태아 염색체 아수성 판별시에는 총 20개 시험 시료 중 2개의 시험 시료는 태아 염색체 이수성이 없는 것으로 판별되었고 (표 1의 C 및 도 3의 C), 목적 염색체의 리드 수와 전체 리드 수 간의 비율을 이용한 방법에 의한 태아 염색체 이수성 관별시쎄는총 20개의 시험 시료 중에 1개의 시험 사료는 태아 염색체 이수성이 없는 것으로 판별되었다 (표 1의 D 및 도 3의 D). 이러한 결과는 본 발명에 따른 방법에 의하여 종래의 리드 수 기반 방법과 리드 수 비율 방법이 적용된 경우에 비하여 태아 염색체 이수성 판별의 정확도가 개선된 것을 보여주는 것이다.

Claims

【청구의 범위】

【청구항 1】

다음의 단계를 포함하는, 태아의 염색체 이수성 확인올 위한 서열 정보 분석 방법:

1-1) 산모로부터 분리된 혈액, 혈장, 또는 혈청으로부터 전체 게놈을 커버 (cover)하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계;

1- 2) 참조 시료의 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 준비하는 단계;

2- 1) 상기 단계 1-1)에서 얻어진 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표준 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여 , 각 염색처 1 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험

폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계,

3- 1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 .목적ᅵ 염색체의 평균 폴라뉴클레오타이드 단편 수의, 상기 .목ᅵ적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 풀리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 merged bin의 개수 만큼 얻어짐);

3-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서， 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin 의 개수 개 만큼 얻어짐);

4) 평균 참조 폴리뉴클레오타이드 단편 수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계; 5-1) 상기 단계 3-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 중에서 상기 단계 4)에서 계산된 CV 값을 대상으로, CV값이 적은 상위 N_cv개에 해당하는 수칙들을 선정하여, 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계;

5-2) 상기 단계 3-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율 중에서 상기 단계 4)에서 계산된 CV 값을 대상으로 CV값이 적은 상위 N_cv개에 해당하는 수치들을 선정하여, 가증 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계;

6) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계.

【청구항 2】

제 1항에 있어서, 상기 단계 2-1) 및 2-2) 이후에,

a) 시험 폴리뉴클레오타이드 단편 수 및 참조 폴리뉴클레오타이드 단편 수의 바이어스 (bias)를 제거하는 단계

를 추가로 포함하는, 서열 정보 분석 방법.

【청구항 3】

제 2항에 있어서, 상기 바이어스 제거는 SVD (Singular Value Decomposition)를 적용하여 수행되는 것인, 서열 정보 분석 방법.

【청구항 4】

제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 염색체는 상염색체인, 서열 정보 분석 방법.

【청구항 5】

제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 목적 염색체는 인간의 13번, 18번 또는 21번 염색체인, 서열 정보 분석 방법.

【청구항 6】

제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 산모는 목적 염색체의 이수성을 갖지 않는 것을 특징으로 하는, 서열 정보 분석 방법.

【청구항 7】

제 1항 내지 제 3항 중 어느 한 항의 서열정보 분석 방법을 수행 하기 위하여 적용되는 수단들을 포함하는, 정보 처리 시스템.

【청구항 8】 다음의 단계를 포함하는 태아의 염색체 이수성 판단을 위한 컴퓨터 판독 방법:

A-1) 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표춘 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여,각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계,

B-1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체로부터 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 merged bin의 개수 개 만큼 얻어짐);

B-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin의 개수 개 만큼 얻어짐);

C) 평균 참조 폴리뉴클레오타이드 단편 수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계;

D-1) 상기 단계 B-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 중에서 CV값이 적은 상위 N_cv개에 해당하는 수치들을 선정하여, 가중_.평균 시험

폴리뉴클레오타이드 단편 수 비율을 얻는 단계;

D-2) 상기 ^'단계 B-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율을 대상으로 상기 단계 D-1)에서 선정된 CV값이 적은 상위 N_cv개에 해당하는 수치들을 이용하여， 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계;

E) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계; 및 F) 상기 단계 E)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 비교 결과를 이용하여 태아의 목적 염색체의 이수성 여부를 확인하는 단계.

【청구항 9】

제 8항에 있어서， 단계 A-1) 및 A-2) 이후에,

a) SVD (Singular Value Decomposition)를 적용하여 시험 폴리뉴클레오타이드 단편 수 및 참조 플리뉴클레오타이드 단편 수의 바이어스 (bias)를 제거하는 단계를 추가로 포함하는，

컴퓨터 판독 방법.

【청구항 10】

하드웨어와 결합되어 게 8항 또는 게 9항의 컴퓨터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.