[go: up one dir, main page]

KR20240110613A - 면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법 - Google Patents

면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20240110613A
KR20240110613A KR1020247019528A KR20247019528A KR20240110613A KR 20240110613 A KR20240110613 A KR 20240110613A KR 1020247019528 A KR1020247019528 A KR 1020247019528A KR 20247019528 A KR20247019528 A KR 20247019528A KR 20240110613 A KR20240110613 A KR 20240110613A
Authority
KR
South Korea
Prior art keywords
receptor
sequences
sequence
classifier
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
KR1020247019528A
Other languages
English (en)
Inventor
막심 자슬라브스키
스콧 디. 보이드
안술 바라트 쿤제
로버트 팁시라니
Original Assignee
더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티, 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 filed Critical 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Publication of KR20240110613A publication Critical patent/KR20240110613A/ko
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P37/00Drugs for immunological or allergic disorders
    • A61P37/02Immunomodulators
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/705Receptors; Cell surface antigens; Cell surface determinants
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Primary Health Care (AREA)
  • Organic Chemistry (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioethics (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Chemical Kinetics & Catalysis (AREA)

Abstract

펩타이드 서열을 평가하기 위한 시스템 및 방법은 언어 모델을 통합하여 잠재 표현을 생성할 수 있다. 생물학적 특성은 펩타이드 서열의 잠재 표현에 기초하여 예측될 수 있다. 면역력 상태를 평가하기 위한 시스템과 방법은 1개 이상의 모델과 분류자를 통합하여 건강 상태를 예측할 수 있다. 다양한 시스템과 방법은 개체가 능동 면역 반응을 갖는지 여부를 예측할 수 있다. 다양한 시스템과 방법은 개체가 병원성 감염, 백신 접종 또는 면역 장애와 같은 특정 유형의 면역 반응을 갖거나 가졌었는지 여부를 예측할 수 있다.

Description

면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법
본 출원은 2021년 11월 11일자로 출원된 "면역력을 평가하기 위한 시스템 및 방법"이라는 명칭의 미국 가출원 번호 제63/263,912호 및 2022년 4월 1일자로 출원된 "면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법"이라는 명칭의 미국 가출원 번호 제63/362,380호에 대한 우선권을 주장하며, 이들 가출원 각각은 그 전체가 본 출원에 참고로 포함된다.
연방 정부 지원 연구 또는 개발에 관한 진술
본 발명은 미국 국립 과학 재단에 의해 허가된 DGE1656518 하에 정부 지원으로 이루어졌다. 정부는 본 발명의 특정 권리들을 갖는다.
기술분야
본 개시 내용은 일반적으로 면역력 상태를 평가하고 질환 상태 또는 백신 접종 상태를 분류하는 것을 비롯하여 면역학적 펩타이드 서열을 평가, 최적화 및/또는 생성하기 위한 시스템 및 방법에 관한 것이다.
B 세포와 T 세포는 병원체와 백신에 적응성 면역 반응을 제공하는 면역 세포이다. B 세포는 체액성 면역을 제공하는 데, 이는 B 세포가 성숙될 때 제거할 병원체 및 기타 이물질을 감지하는 항체를 생산함을 의미한다. T 세포는 세포성 면역을 제공하는 데, 이는 T 세포가 성숙될 때 신체의 세포가 감염되거나 비정상적 세포 성장을 나타내는 때를 감지하고 감염 또는 성장을 제거하기 위해 세포를 치료할 수 있음을 의미한다. 이러한 반응을 강화하기 위해, B 세포와 T 세포는 병원체를 감지할 수 있도록 병원체와 상보적일 수 있는 수용체를 활용한다.
몇몇 실시 형태는 면역학적 펩타이드 서열 및/또는 면역력 상태를 평가하기 위한 시스템 및 방법에 관한 것이다. 다수의 실시 형태에서, 예측 분류자 또는 회귀자는 B 세포 수용체 및 T 세포 수용체의 서열을 활용하여 개체의 면역력 상태를 예측한다. 몇몇 실시 형태에서, 예측 분류자 또는 회귀자는 B 세포 수용체 및 T 세포 수용체의 서열을 활용하여 개체의 이전 면역학적 노출을 예측한다. 다수의 실시 형태에서, 예측 모델은 면역학적 펩타이드 서열 또는 면역학적 펩타이드를 인코딩하는 뉴클레오타이드 서열의 잠재 임베딩(latent embedding)을 추출하기 위한 언어 모델을 통합한다. 몇몇 실시 형태에서, 훈련된 분류자 또는 회귀자는 개체의 B 세포 수용체 및 T 세포 수용체 서열의 레퍼토리를 활용하여 개체의 면역학적 또는 병원성 질환 상태, 백신 접종 상태 또는 이전 병원체 노출을 예측하기 위해 활용된다. 일부 실시 형태에서, 전산 시스템은 능동 면역 활성, 활성 병원성 감염, 최근 백신 접종, 능동 자가 면역 반응, 면역 결핍, 특정 유형의 이전 또는 능동 면역 활성, 특정 병원체의 이전 또는 활성 병원성 감염, 특정 백신의 이전 또는 최근 백신 접종, 특정 장애의 이전 또는 능동 자가 면역 반응, 특정 장애의 이전 또는 능동 면역 결핍, 이들의 서브타입 및/또는 이들의 임의의 조합을 포함할 수 있는 건강 상태와 B 세포 수용체 및 T 세포 수용체 서열을 연결시키기 위해 활용된다. 일부 실시 형태에서, 전산 시스템은 유사한 B 세포 수용체 및 T 세포 수용체 서열을 식별하기 위한 언어 모델을 통합한다. 일부 실시 형태에서, 전산 시스템은 특정 항원과의 상보성, 결합 특이성, 결합 친화성, pH 결합 민감성, 제조 가능성, 발달 가능성, 면역원성 또는 임의의 다른 서열 관련 특성과 같은 수용체 서열 특성을 평가하기 위한 언어 모델을 포함한다.
상세한 설명 및 청구범위는 다음의 도면 및 데이터 그래프를 참조하여 보다 완전히 이해될 것이며, 이러한 도면 및 데이터 그래프는 본 개시 내용의 예시적인 실시 형태로서 제시되고, 본 개시 내용의 범위의 완전한 인용으로서 해석되어서는 안된다.
도 1은 다양한 실시 형태에 따른 언어 모델을 사용하여 펩타이드 서열의 임베딩된 표현을 추출하는 방법의 흐름도를 제공한 것이다.
도 2는 다양한 실시 형태에 따른 언어 모델을 사용하여 B 세포 수용체 및 T 세포 수용체 펩타이드 서열의 잠재 임베딩을 추출하는 방법의 흐름도를 제공한 것이다.
도 3은 다양한 실시 형태에 따른 능동 면역 반응을 감지하기 위해 분류자를 생성하는 방법의 흐름도를 제공한 것이다.
도 4는 다양한 실시 형태에 따른 언어 모델을 사용하여 B 세포 수용체 및 T 세포 수용체 펩타이드 서열을 클러스터링하는 방법의 흐름도를 제공한 것이다.
도 5는 다양한 실시 형태에 따른 면역학적 펩타이드 서열에 기초하여 개체의 건강 상태를 평가하는 방법의 흐름도를 제공한 것이다.
도 6은 다양한 실시 형태에 따른 전산 처리 시스템의 개념적 예시를 제공한 것이다.
도 7 및 8은 실시 형태에 따른 면역학적 진단을 위한 기계 학습의 프레임워크의 개략도를 제공한 것이다.
도 9는 다양한 실시 형태에 따른 언어 모델의 미세 조정 결과를 묘사하는 데이터 그래프를 제공한 것이다.
도 10은 한 실시 형태에 따른 면역 상태를 예측하기 위한 앙상블 분류 파이프라인의 개략도를 제공한 것이다.
도 11은 다양한 실시 형태에 따라 생성된, B 및 T 세포 레퍼토리의 3개의 기계 학습 모델의 앙상블에 의한 홀드아웃(held-out) 테스트 데이터에 대한 질환 분류 성능을 제공한 것이다.
도 12는 다양한 실시 형태에 따라 생성된, 특징이 BCR 정보 또는 TCR 정보로부터 추출되었는지 여부에 의해 요약된, 각각의 클래스를 예측하기 위한 앙상블 모델 특징 기여 결과를 제공한 것이다.
도 13a 내지 13c는 다양한 실시 형태에 따라 생성된, 라쏘(LASSO) 모델(도 13a), 서포트 벡터 기계 모델(도 13b) 및 랜덤 포레스트 모델(도 13c) 내의 특징의 중요성에 대한 개략도를 제공한 것이다.
도 14는 다양한 실시 형태에 따라 생성된, 상위 2개의 예측 클래스 확률 사이의 차이에 의해 측정된 정확한 예측 대 부정확한 예측에 대한 모델 예측 신뢰도의 데이터 그래프를 제공한 것이다. 보다 높은 차이는 모델이 위닝(winning) 질환 라벨을 예측하기로 한 결정에서 보다 확실함을 의미하는 반면, 낮은 차이는 상위 2개의 가능한 예측이 반반의 가능성이었음을 시사한다.
도 15a 및 15b는 다양한 실시 형태에 따라 생성된, BCR 모델(도 15a) 및 TCR 모델(도 15b)의 인구 통계학적 데이터에 기초한 분류 예측 성능을 제공한 것이다.
도 16은 다양한 실시 형태에 따라 생성된, 인구 통계학적 특징 단독(상단 패널), 서열 특징과 함께 인구 통계학적 특징(중간 패널) 및 회귀된 인구 통계적 특징만을 갖는 서열 특징(하단 패널)에 기초한 분류 성능을 제공한 것이다.
도 17 내지 19는 다양한 실시 형태에 따라 생성된, 질환 관련된 것으로 알려진 IGHV 유전자와 코로나바이러스 감염증-19(Covid19)(도 17), 루푸스(도 18) 및 HIV(도 19)에 대한 선택을 반영하는 CDR-H3 길이 패턴에 대해 높은 순위를 나타내는, 예측 질환 클래스 확률에 의해 순위화된 질환 환자 유래 BCR 서열을 제공한 것이다.
도 20a 및 20b는 다양한 실시 형태에 따라 생성된, BCR(도 20a) 및 TCR(도 20b)에 대한 혈통에 의해 계층화된 건강한 대조군 샘플에서의 IGHV 유전자 사용 비율을 제공한 것이다. 평균과 95% 신뢰 구간이 표시되어 있다.
도 21a 내지 21c는 다양한 실시 형태에 따라 생성된, 질환 관련된 것으로 알려진 TRBV 유전자와 코로나바이러스 감염증-19(도 21a), 루푸스(도 21b) 및 HIV(도 21c)에 대한 선택을 반영하는 CDRβ 길이 패턴에 대해 높은 순위를 나타내는, 예측 질환 클래스 확률에 의해 순위화된 질환 환자 유래 TCR 서열을 제공한 것이다.
도 22는 다양한 실시 형태에 따라 생성된, 코로나바이러스 감염증-19, HIV 및 루푸스 환자와 건강한 개체의 이소타입 비율을 묘사하는 데이터 그래프를 제공한 것이다.
도 23은 다양한 실시 형태에 따라 생성된, 예측 질환 클래스 확률에 의해 순위화되고 이소타입에 의해 그룹화된 질환 환자 유래 서열을 묘사하는 데이터 그래프를 제공한 것이다. 유의성은 각각의 패널의 각각의 이소타입 쌍에 대해 테스트되었다. ****는 모든 패널의 모든 테스트에 걸쳐 본페로니 다중 가설 테스트(Bonferroni multiple hypothesis testing) 수정을 갖는 양측 윌콕슨 순위합 검정(two-sided Wilcoxon rank-sum test)에 의한 p <= 1e-4를 의미한다.
도 24는 다양한 실시 형태에 따라 생성된, 알려진 SARS-CoV-2 결합 항체 서열의 전체 외부 데이터베이스에서의 IGHV 유전자 사용량 대 여기에 기재된 질환 분류 모델을 훈련시키는 데 사용된 독립 코호트에서도 또한 발견된 서브세트에서의 IGHV 유전자 사용량(상단 패널), 및 알려진 SARS-CoV-2 결합 항체 서열의 전체 외부 데이터베이스의 에피토프 특이성 대 여기에 기재된 질환 분류 모델을 훈련시키는 데 사용된 독립 코호트에서도 또한 발견된 서브세트에 대한 에피토프 특이성(하단 패널)을 묘사하는 데이터 그래프를 제공한 것이다.
도 25는 다양한 실시 형태에 따라 생성된, 모델에 의해 기타 서열보다 훨씬 더 높게 순위화된, 알려진 SARS-CoV-2 바인더(binder)에 수렴되는 데이터 중 BCR 서열의 데이터 그래프를 제공한 것이다(일측 윌콕슨 순위합 검정, U 통계 자료 = 5.2e8, p 값 ~ 0). 비중첩 서열은 아직 문헌에서 확인되지 않은 추가의 SARS-CoV-2 바인더를 포함할 수 있다.
도 26은 다양한 실시 형태에 따라 활용되는 교차 검증 전략의 개략도를 제공한 것이다.
도 27은 다양한 실시 형태에 따라 생성된 kBET 배치 효과(batch effect) 측정의 데이터 표를 제공한 것이다. 서열의 지역 이웃 배치 분포가 전역 배치 분포와 동일하다는 귀무 가설의 평균 기각률(3개의 폴드(fold)에 걸친 평균 +/- 표준 편차 보고). 0에 가까울수록 귀무 가설이 거의 기각되지 않으며 배치가 잘 혼합되어 있음을 나타낸다.
도 28a 및 28b는 다양한 실시 형태에 따라 생성된, 각각의 코호트에서의 IGHV(도 28a) 및 TRBV(도 28b) 유전자 비율을 제공한 것이다. 각각의 V 유전자가 임의의 질환 코호트를 나타내는 가장 높은 비율이 계산되고, 이러한 비율의 중앙값이 플롯되었다(중첩 점선). 그 다음, 적어도 하나의 질환에서 보라색 점선을 초과하지 않는 희귀 V 유전자가 필터링되었다.
도 29a 및 29b는 다양한 실시 형태에 따라 생성된, 희귀 V 유전자를 필터링한 후, 각각의 IGHV(도 29a) 및 TRBV(도 29b) 유전자가 질환별로 얼마나 널리 퍼져 있는지를 나타내는 적층 막대 그래프를 제공한 것이다.
지금부터 도면과 데이터를 참조하여, 면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법의 다양한 실시 형태가 기재된다. 몇몇 실시 형태에서, 언어 모델은 각각의 서열로부터 잠재 특성을 추출함으로써 면역학적 펩타이드 서열 의미를 해석하기 위해 활용된다. 다수의 실시 형태에서, 언어 모델은 면역학적 펩타이드 서열을 벡터로 변환시키며, 여기서, 벡터는 펩타이드 서열의 추출된 잠재 임베딩을 갖는다. 다양한 실시 형태는 추출된 임베딩을 통해 펩타이드 서열을 분석한다. 일부 실시 형태에서, 추출된 임베딩은 유사성에 의해 클러스터링되어 유사한 특성을 갖는 펩타이드 클러스터를 드러낸다. 일부 실시 형태에서, 분류자는 추출된 임베딩에 기초하여 면역학적 특성을 예측하기 위해 생성된다. 일부 실시 형태에서, 분류자는 특정 펩타이드의 기능을 예측하기 위해 활용된다. 예를 들어, 특정 펩타이드의 항원 상보성은 예측될 수 있다. 일부 실시 형태에서, 분류자는 펩타이드 집합에 대한 전역 예측을 수행하기 위해 활용된다. 예를 들어, 개체의 면역 상태는 자신의 B 세포 수용체 및/또는 T 세포 수용체 펩타이드 집합을 샘플링하여 예측될 수 있다. 일부 실시 형태에서, 특정한 생물학적 특성을 갖는 새로운(de novo) 면역학적 펩타이드 서열이 합성된다.
몇몇 실시 형태에 따르면, 언어 모델은 B 세포 수용체 및/또는 T 세포 수용체의 상보성 결정 영역(complementary determining region: CDR) 펩타이드 서열을 통해 면역력 상태를 해석하기 위해 활용된다. 다수의 실시 형태에서, 언어 모델은 B 세포 수용체 및/또는 T 세포 수용체 서열의 잠재 임베딩을 추출한다. 몇몇 실시 형태에서, B 세포 수용체 및/또는 T 세포 수용체 펩타이드 서열은 개체의 코호트로부터 유래되고, 각각의 코호트는 특정 건강 상태를 가지며, 분류자는 코호트 서열의 추출된 임베딩을 활용하여 건강 상태를 예측하도록 훈련된다. 다수의 실시 형태에서, 새로운 B 세포 및/또는 T 세포 CDR 펩타이드 서열은 특정 건강 상태와 연관된 항원과 상보적일 수 있는 능력을 갖는 잠재 임베딩에 기초하여 생성된다. 예를 들어, 코로나바이러스, 인플루엔자 또는 기타 병원체에 상보적인 새로운 B 세포 및 T 세포 CDR 펩타이드 서열이 생성될 수 있다.
몇몇 실시 형태는 또한 개체의 능동 면역 활성(예를 들어, 활성 병원성 감염 또는 최근 백신 접종 또는 급성 자가 면역 장애)을 감지하기 위한 분류자를 생성하고 훈련시키는 것에 관한 것이다. 따라서, 다수의 실시 형태에서, 하나의 기준 코호트 및 적어도 하나의 면역 활성 코호트에 대한 B 세포 수용체 및/또는 T 세포 수용체의 펩타이드 서열이 분류자를 훈련시키기 위해 획득된다. 일부 실시 형태에서, 분류자는 개체 내에서 면역 활성 반응을 감지하기 위한 특징으로서 돌연변이된 V 유전자 서열 비율, V 유전자 수 및/또는 J 유전자 수를 활용한다. 이러한 전체 레퍼토리 조성 기반 분류자는 다양한 분류자 출력을 가질 수 있다. 일부 실시 형태에서, 예측 작업은 개체가 면역학적으로 활성인지 건강한지 여부를 감지하는 것이다. 일부 실시 형태에서, 예측 작업은 개체의 특정 질환 또는 면역 장애 유형을 감지하는 것이다. 일부 실시 형태에서, 예측 작업은 연령, 성별 또는 혈통과 같은 특정 속성을 예측하는 것이다.
다수의 실시 형태는 건강 상태에 기초한 B 세포 수용체 및/또는 T 세포 수용체의 클러스터링에 기초하여 건강 상태를 예측하기 위한 분류자를 생성하는 것에 관한 것이다. 따라서, 몇몇 실시 형태에서, 각각의 코호트가 특정 건강 상태를 갖는 개체의 적어도 2개의 코호트에 대한 B 세포 및/또는 T 세포 수용체의 펩타이드 서열이 획득되고 서열에 기초하여 클러스터링된다. 다수의 실시 형태에서, 특정 건강 상태와 연관된 클러스터 내의 B 세포 수용체 및/또는 T 세포 수용체의 펩타이드 서열의 멤버십은 분류자를 훈련시키도록 활용된다.
몇몇 실시 형태는 개체의 면역학적 상태를 평가하기 위해 1개 이상의 훈련된 전산 모델을 활용하는 것에 관한 것이다. 다수의 실시 형태에서, B 세포 또는 T 세포 펩타이드 서열은 다음 면역력 상태 중 1개 이상을 예측하기 위해 1개 이상의 훈련된 모델 내에서 활용된다: 능동 면역 활성, 활성 병원성 감염, 최근 백신 접종, 능동 자가 면역 반응, 면역 결핍, 특정 유형의 이전 또는 능동 면역 활성, 특정 병원체의 이전 또는 활성 병원성 감염, 특정 백신의 이전 또는 최근 백신 접종, 특정 장애의 이전 또는 능동 자가 면역 반응, 특정 장애의 이전 또는 능동 면역 결핍, 이들의 서브타입 및/또는 이들의 임의의 조합. 서브타입은 (예를 들어) 병원체 서브타입, 자가 면역 장애 서브타입, 면역 결핍 서브타입, 백신 서브 타입 등일 수 있는 보다 구체적인 임의의 의학적 병태를 지칭할 수 있다. 다수의 실시 형태에서, 개체의 면역력 상태는 자신의 B 세포 수용체 및/또는 T 세포 수용체 펩타이드 서열에 기초하여 평가된다. 몇몇 실시 형태에서, 임상 조치는 자신의 면역력 상태에 기초하여 개체에 대해 수행된다. 임상 조치는 추가의 임상 평가, 의학적 치료, 항바이러스 치료, 항생제 치료, 자가 면역 장애 치료, 백신 접종, 면역력 활성화 치료, 면역력 억제 치료, 식단 변경 및 기타 생활 방식 변경을 포함한다(그러나, 이들에 한정되는 것은 아님). 몇몇 실시 형태에서는 개체가 자신의 면역력 상태에 기초하여 주기적으로 모니터링되며, 일부 실시 형태에서는 면역력 상태의 결정이 모니터링 동안 일상적으로 업데이트된다. 일부 실시 형태에서, 훈련된 언어 모델에 의해 제공되는 추출된 임베딩은 좌표 상에 시각적으로 투영되는 데, 이는 면역 활성을 모니터링하기 위한 시각적 지원을 제공한다. 일부 실시 형태에서, 언어 모델로부터의 추출된 임베딩은 좌표 상에 시각적으로 투영되는 분류된 임베딩을 산출하기 위해 훈련된 분류자에서 활용되는 데, 이는 클래스 사이의 보다 나은 분리를 산출할 수 있다. 일부 실시 형태에서, 언어 모델 및/또는 분류자는 임베딩의 시각화를 개선시키기 위해 시간 경과에 따라 업데이트된다. 일부 실시 형태에서, 면역 활성의 시각화는 임상 조치를 수행하는데 활용된다.
다수의 실시 형태는 B 세포 또는 T 세포 펩타이드 서열 평가에 기초한 항원 상보적 펩타이드, 단백질 및/또는 세포의 개발에 관한 것이다. 몇몇 실시 형태에서, B 세포 또는 T 세포 펩타이드 서열(특히, CDR 서열)은 특정 면역 반응을 제공하는 자신의 능력, 특정 항원과의 상보성, 결합 특이성, 결합 친화성, pH 결합 민감성, 제조 가능성, 개발 가능성, 면역원성 및/또는 수용체 서열과 관련된 기타 특성에 대해 평가된다. 일부 실시 형태에서, 평가된 B 세포 또는 T 세포 펩타이드 서열은 개체, 특히, 능동 및/또는 최근 면역 반응을 겪고 있는 개체로부터 유래된다. 일부 실시 형태에서, 평가된 B 세포 또는 T 세포 펩타이드 서열은 언어 모델을 활용하여 생성된 새로운 서열이다. 평가될 때, 다양한 실시 형태에 따르면, B 세포 또는 T 세포 펩타이드 서열은 항원 상보적 펩타이드, 단백질 및/또는 세포 내에서 활용된다. 항원 상보적 펩타이드 및 단백질은 면역글로빈(Ig), 단클론 항체, 나노바디, B 세포 수용체, T 세포 수용체, 키메라 항원 수용체(chimeric antigen receptor: CAR), CDR 펩타이드, 및 항원 상보성을 갖는 이들의 임의의 부분 펩타이드를 포함한다(그러나, 이들에 한정되는 것은 아님). 항원 상보적 세포는 B 세포, T 세포, CAR T 세포 및 하이브리도마 세포를 포함한다(그러나, 이들에 한정되는 것은 아님).
출력을 예측하거나 추론하기 위한 전산 모델에 대한 기재 내용은 개시 내용 전체에 걸쳐 있다. 다양한 전산 모델은 분류자 또는 회귀자로서의 기능을 할 수 있음을 이해해야 한다. 분류자라는 용어가 다양한 전산 모델을 기재하기 위해 활용될 때, 출력이 범주형일 수만 없다면, 분류자에 대한 임의의 기재 내용은 또한 회귀자를 지칭할 수 있음을 이해해야 한다. 마찬가지로, 회귀자라는 용어가 다양한 전산 모델을 기재하기 위해 활용될 때, 출력이 수치적일 수만 없다면, 회귀자에 대한 임의의 기재 내용은 또한 분류자를 지칭할 수 있음을 이해해야 한다. 이와 같이, 분류자라는 용어 또는 회귀자라는 용어는 특정 출력이 기재되거나 대체 출력이 달리 불가능하지 않다면 특정 전산 기능에 한정되지 않아야 한다.
수용체 서열이라는 용어는 면역학적 수용체, 특히, B 세포 수용체 및 T 세포 수용체의 서열을 지칭한다. 수용체 서열은 전체 또는 부분 서열일 수 있음을 이해해야 한다. 따라서, 수용체 서열은 중쇄 서열, 경쇄 서열, 중쇄 및 경쇄 서열, 단일 CDR 서열, CDR 서열 세트, 가변 영역 서열, 불변 영역 서열, α 쇄 서열, β 쇄 서열, γ 쇄 서열, δ 쇄 서열 또는 이들의 임의의 부분 서열 중 임의의 것을 지칭할 수 있다. 수용체 서열은 또한 CDR1, CDR2 및 CDR3 영역의 연결과 같은 전체 수용체 서열의 연결 영역을 지칭할 수 있다.
면역학적 펩타이드 서열 평가
몇몇 실시 형태는 언어 모델을 사용하는 면역학적 펩타이드 서열의 평가에 관한 것이다. 다수의 실시 형태에서, 언어 모델은 펩타이드 서열의 잠재 특성을 추출하는 데 활용된다. 추출된 잠재 임베딩은 평가를 위해 펩타이드 서열을 벡터로 변환시키는 데 활용될 수 있다. 일부 실시 형태에서, 벡터는 유사한 특성 및/또는 기능을 갖는 펩타이드를 식별하기 위해 클러스터링될 수 있다. 일부 실시 형태에서, 특정 특성 및/또는 기능을 갖는 특정 펩타이드 서열의 확률이 결정된다. 일부 실시 형태에서, 예측된 특성 및/또는 기능을 갖는 새로운 펩타이드 서열이 생성된다. 일부 실시 형태에서, 잠재 언어 모델은 그 자체를 개선시키는 데 활용된다. 그 자체를 개선시키기 위해, 언어 모델은 추출된 내부 특징을 변경하여 서열 재구성 오류를 감소시킬 수 있다. 일부 실시 형태에서, 언어 모델은 먼저 전역 규칙을 학습하기 위해 일반 클래스의 단백질에 대해 훈련된 다음, 면역학 특이적 서열 패턴에 대한 재구성 오류를 감소시키기 위해 추가로 정제될 수 있다. 일부 실시 형태에서, 추출된 임베딩은 벡터로부터 생성되며, 서열을 특정 특성 및/또는 기능을 갖는 것으로 분류하기 위한 분류자를 구축하는 데 활용된다. 일부 실시 형태에서, 추출된 임베딩은 서열 집합(예를 들어, 개체의 B 세포 수용체 또는 T 세포 수용체의 레퍼토리)을 시각화하기 위해 좌표 상에 투영된다. 일부 실시 형태에서, 서열 집합의 시각화는 면역학적 펩타이드 분류의 신속한 해석을 가능하게 하여 (예를 들어) 특정 면역 활성, 특정 병원성 감염, 특정 자가 면역 장애, 특정 백신 접종 상태 또는 특정 면역 결핍 장애와 같은 복수의 면역학적 병태에 대한 전반적인 면역력 상태를 신속하게 결정한다.
언어 모델을 사용하여 면역학적 펩타이드 서열의 잠재 임베딩을 추출하는 전산 방법이 도 1에 제공된다. 방법(100)은 면역학적 펩타이드 집합의 서열 분석 데이터를 획득하는 것(101)으로 시작된다. 펩타이드 서열 분석 데이터는 임의의 적절한 방법에 의해 획득될 수 있다. 일반적으로, 핵산 분자 및/또는 단백질성 종은 생물학적 샘플로부터 추출되어 서열 분석을 위해 준비된다. 임의의 서열 분석 방법이 활용될 수 있다. 핵산을 활용하는 다양한 실시 형태에서, 고처리량의 서열 분석은 Illumina(San Diego, CA)에 의해 제조된 것과 같은 서열 분석기를 활용하여 수행된다. 단백질성 종을 활용하는 다양한 실시 형태에서, 고처리량의 서열 분석은 질량 분광법을 활용하여 수행된다. 또한, 생물학적 샘플은 분석하고자 하는 면역학적 펩타이드를 포함하는 임의의 샘플일 수 있다. 생물학적 샘플은 생체내 샘플, 시험관내 샘플, 추출된 단백질성 종, 단리된 단백질성 종, 합성된 단백질성 종, 동물 조직, 동물 생검, 체액(예를 들어, 혈액), 세포 배양물, 단일 세포, 건강한 샘플 및 의학적 장애의 샘플 생검을 포함한다(그러나, 이들에 한정되는 것은 아님). 다양한 실시 형태에서, 서열 분석 데이터는 적어도 10,000개의 펩타이드 서열, 적어도 100,000개의 펩타이드 서열, 적어도 1,000,000개의 펩타이드 서열, 적어도 10,000,000개의 펩타이드 서열, 적어도 100,000,000개의 펩타이드 서열, 적어도 1,000, 000,000개의 펩타이드 서열, 적어도 10,000,000,000개의 펩타이드 서열, 적어도 100,000,000,000개의 펩타이드 서열 또는 적어도 1,000,000,000,000개의 펩타이드 서열을 포함한다.
방법(100)은 언어 모델을 활용하여 서열 분석 데이터의 각각의 펩타이드 서열의 잠재 임베딩을 추출한다(103). 잠재 임베딩을 추출할 수 있는 임의의 언어 모델이 활용될 수 있다. (예를 들어) 신경 네트워크, k-mer 임베딩, 유니그램 모델, n-그램 모델 및 지수 모델과 같은 다양한 유형의 언어 모델이 활용될 수 있다. 일부 실시 형태에서, 언어 모델은 마스크되거나 손상된 단백질 서열을 재구성하도록 훈련된 신경 네트워크이다. (예를 들어) 장단기 메모리(Long short-term memory: LSTM), 트랜스포머 및 변이형 오토인코더와 같은 다양한 신경 네트워크 아키텍처가 활용될 수 있다. 다수의 실시 형태에서, 언어 모델은 아미노산 길이에 관계없이 각각의 펩타이드 서열의 잠재 임베딩을 추출할 수 있다.
몇몇 실시 형태에서, 잠재 언어 모델은 특징을 추출하고 특징을 벡터로 변환시킨다. 이러한 작업을 달성하기 위해, 몇몇 실시 형태에서, 언어 모델은 각각의 펩타이드 서열을, 최적화를 통해 선택되는 중요한 특성을 포착하는 내부 저차원 임베딩으로 압축시킨다. 모델 훈련의 반복 각각은 먼저 마스크된 서열을 압축시킨 다음 이의 저차원 버전으로부터 마스크되지 않은 서열을 복원하는 데 사용되는 변환 세트를 정제한다. 다수의 실시 형태에서, 보다 나은 재구성 정확도를 제공하는 변환 가중치가 허용된다. 최종 모델이 단백질 서열을 성공적으로 마스크되지 않도록 할 수 있는 경우, 내부 압축 및 압축 해제는 입력 서열을 요약하는 추출된 기본 특징을 갖는다. 따라서, 몇몇 실시 형태에서, 언어 모델은 훈련 및/또는 평가를 위해 활용되는 각각의 서열로 개선된다.
임의의 펩타이드 서열은 언어 모델을 훈련시키도록 활용될 수 있다. 일부 실시 형태에서, 다양한 생물학적 분야 전체로부터의 다양한 단백질 세트가 활용된다. 일부 실시 형태에서, 특정 종(예를 들어, 호모 사피엔스)의 단백질이 활용된다. 일부 실시 형태에서, 특정 클래스의 단백질이 활용된다. 예를 들어, 일부 실시 형태에서, B 세포 수용체 및/또는 T 세포 수용체 서열은 면역학적 언어 모델을 제공하기 위해 활용된다. 일부 실시 형태에서, 사람 B 세포 수용체 및/또는 T 세포 수용체 서열이 활용된다. 일부 실시 형태에서, 언어 모델은 항체 구조 정보로 미세 조정되며; 예를 들어, 사전 훈련된 언어 모델은 아미노산 접촉 맵을 예측하기 위해 오류를 감소시키도록 추가로 미세 조정될 수 있다. 일부 실시 형태에서, 언어 모델은 초기에 일반 단백질 및 펩타이드에 대해 훈련된 다음, 모델이 일반적인 규칙을 먼저 학습한 다음 특정 클래스의 보다 구체적인 규칙을 학습하도록 특정 클래스의 서열에 대해 추가로 훈련된다. 일부 실시 형태에서, 훈련은 지도(supervision) 하에 수행되는 데, 이는 재구성 오류 및/또는 서열의 클래스 라벨에 대한 지식을 포함할 수 있다. 예를 들어, 알려진 항원 상보성을 갖는 B 세포 수용체 및 T 세포 수용체 서열은 특정 항원 및/또는 질환 라벨(예를 들어, 코로나바이러스 및/또는 코로나바이러스 감염증-19 및/또는 스파이크 단백질; 또는 인플루엔자 바이러스 및/또는 독감 및/또는 또는 헤마글루티닌)로 라벨링될 수 있다. 일부 실시 형태에서, 모델은 비지도(unsupervised) 학습과 지도(supervised) 학습의 혼합으로 훈련된다. 예를 들어, 언어 모델은 다양한 공급원으로부터의 라벨링되지 않은 단백질 서열에 대해 비지도 방식으로 훈련될 수 있고, 이어서, 라벨링된 면역 단백질 서열에 대해 지도 방식으로 미세 조정된다.
방법(100)은 임의로 유사성에 의해 잠재 임베딩을 클러스터링할 수 있다(105). 펩타이드 서열을 벡터로 변환시킴으로써, 벡터의 수치 값은 유사한 펩타이드 서열을 발견하기 위해 활용될 수 있는 데, 그 이유는 벡터가 유사한 특성 및/또는 기능을 나타내는 잠재 임베딩을 기반으로 하기 때문이다. 또한, 펩타이드 서열은 클러스터 멤버십을 결정하기 위해 평가될 수 있는 데, 이는 이의 특성 및/또는 기능의 예측을 제공한다. 특성 및/또는 기능은 동일한 의학적 장애 또는 생물학적 특성을 갖는 개체로부터 유래된 서열을 포함하는 클러스터에 의해 결정될 수 있다.
방법(100)은 또한 추출된 잠재 임베딩에 기초하여 생물학적 특성 및/또는 기능을 예측하기 위해 분류자 또는 회귀자를 임의로 생성한다(107). (예를 들어) 로지스틱 회귀, 라쏘, 그래디언트 부스티드 트리(gradient boosted tree), 신경 네트워크, 최근접 이웃(nearest neighbor), 의사 결정 분지도(decision trees) 또는 서포트 벡터 기계와 같은 임의의 유형의 분류자 또는 회귀자가 활용될 수 있다. 다양한 실시 형태에서, 알려지거나 의심되는 특성 및/또는 기능을 갖는 펩타이드 서열은 자신의 잠재 임베딩을 추출하기 위해 언어 모델에서 활용될 수 있다. 이러한 잠재 임베딩은 펩타이드 서열의 알려진 특성 및/또는 기능과 연관될 수 있다. 따라서, 분류자는 잠재 임베딩과 알려진 특성 및/또는 기능에 기초하여 생성될 수 있다.
일부 실시 형태에서, 분류자는 별개의 모델이며 추출된 언어 모델 임베딩을 사용한다. 이들 실시 형태에서, 추출된 잠재 임베딩은 라벨링되어 지도 훈련에 사용된다. 대안으로, 일부 실시 형태에서, 분류자는 언어 모델 내에 통합되고, 언어 모델은 펩타이드 서열에 대한 지도 및 라벨로 훈련된다. 분류자를 통합할지 아니면 별개로 유지할지 여부는 특정 분류 목적을 위해 언어 모델을 훈련시키는 것이 바람직한지, 아니면 면역학적 펩타이드를 일반적으로 해석하여 여러 분류자 모델에서 잠재 임베딩을 활용할 수 있도록 언어 모델을 훈련시키는 것이 바람직한지에 따라 부분적으로 달라질 것이다. 일부 실시 형태에서, 분류자가 평가되고, 평가에 기초하여, 추가의 데이터가 분류 능력을 개선시키기 위해 수집될 수 있다.
또한, 면역학적 펩타이드 서열은 해당 서열의 특성 및/또는 기능을 예측하기 위해 언어 모델 및 분류자에서 활용될 수 있다. 일부 실시 형태에서, 미지의 특성 및/또는 기능을 갖는 펩타이드 서열이 평가되고 분류된다.
일부 실시 형태에서, 서열 분류는 서열 특성과 관련될 수 있다. 예를 들어, 서열은 특정 예측 작업에 대한 분류 모델로부터 자신의 예측 확률에 의해 순위화될 수 있다. 그 다음, V 유전자 사용량, CDR3 길이, 이소타입 사용량, 서열 모티프, 펩타이드 특성, 아미노산 구성 성분(constituency) 또는 조성, 또는 아미노산 특성의 분포는 서열 순위에 대해 평가될 수 있다.
방법(100)은 또한 추출된 임베딩을 좌표 상에 시각화할 수 있는 데(109), 이는 분석된 다양한 서열 집합을 시각화하는 능력을 가능하게 할 수 있다. 예를 들어, 임베딩의 시각화는 서열 집합 내에서 면역 활성의 식별을 용이하게 할 수 있는 전반적인 면역력 상태의 신속한 결정을 가능하게 할 수 있다. 임베딩을 시각화하기 위해, 일부 실시 형태에서, UMAP 플롯 또는 PCA 플롯이 생성된다. 일부 실시 형태에서, 임베딩 차원 쌍의 플롯이 생성되며, 여기서, 각각의 차원은 예측 클래스에 대응할 수 있다. 일부 실시 형태에서, 예측 클래스 로짓 점수는 클래스 쌍에 대해 플롯팅된다.
일부 실시 형태에서, 분석하고자 하는 서열 집합은 개체의 B 세포 수용체 및/또는 T 세포 수용체 서열의 레퍼토리이며, 추출된 임베딩의 시각화는 특정 병원체 노출, 임의의 특정 자가 면역 장애, 임의의 특정 면역 결핍 장애 및/또는 특정 백신의 백신 접종 상태의 용이한 식별을 가능하게 한다. 일부 실시 형태에서, 개체의 B 세포 수용체 및/또는 T 세포 수용체 서열의 레퍼토리는 시간 경과에 따라 평가되며, 추출된 임베딩의 시각화는 특정 병원체 노출, 임의의 특정 자가 면역 장애, 임의의 특정 면역 결핍 장애 및/또는 특정 백신의 백신 접종 상태에 관련된 변화의 감지를 가능하게 한다. 평가될 수 있는 변화는 새로운 면역 활성 획득, 면역 활성 약화, 및 면역 활성의 전반적인 존재 또는 부재를 포함하며(그러나, 이들에 한정되는 것은 아님), 이들 각각은 전체적으로 또는 1개 이상의 의학적 장애의 특정 세트에 대해 평가될 수 있다. 따라서, 특정 병원체의 감염 획득, 특정 병원체에 대한 면역력 약화, 자가 면역 장애의 중증도, 자가 면역 장애의 치료, 면역 결핍 장애의 중증도, 면역 결핍 장애의 치료, 신생물 성장(예를 들어, 암)의 획득, 신생물 성장의 중증도 및/또는 신생물 성장의 치료를 포함하는(그러나, 이들에 한정되는 것은 아님) 다양한 의학적 장애가 모니터링될 수 있다.
몇몇 실시 형태는 좌표 상의 추출된 임베딩의 시각화에 기초하여 임상 조치를 수행하는 것에 관한 것이다. 추출된 임베딩의 시각화에 의해 이루어진 평가에 따라, 임상 조치는 면역 활성 및/또는 면역 활성의 변화가 감지될 때 수행될 수 있다. 임상 조치는 추가의 임상 평가, 의학적 치료, 항바이러스 치료, 항생제 치료, 자가 면역 장애 치료, 백신 접종, 면역력 활성화 치료, 면역력 억제 치료, 식단 변경 및 기타 생활 방식 변경을 포함한다(그러나, 이들에 한정되는 것은 아님). 예를 들어, 의학적 장애(예를 들어, 병원성 감염, 자가 면역 장애, 면역 결핍 장애, 신생물 성장 등)가 감지될 때, 개체는 의학적 장애의 상태를 확인하고/하거나 의학적 장애에 대한 치료를 받기 위해 추가로 평가를 받을 수 있다. 일부 경우에서, 의학적 장애의 중증도 및/또는 치료의 성공은 시간 경과에 따라 모니터링되고, 중증도 및/또는 성공의 변화에 기초하여, 치료 요법의 변형이 수행된다. 일부 경우에는 특정 항원에 대한 면역력의 유지가 모니터링되고, 일부 경우에는 면역력이 약화될 때, 특정 병원체에 대한 백신 재접종이 수행되거나, 내성이 약해지는 경우, 알러지 면역 요법의 반복, 또는 잔존 질환, 암 재발 또는 치료에 대한 반응 불충분의 경우에서의 암 면역 요법의 반복이 수행되거나, 일부 경우에는 면역력이 약해질 때, 자가 면역 장애에 대한 치료가 변형 및/또는 종료된다.
방법(100)은 또한 임의로 새로운 면역학적 펩타이드 서열을 생성할 수 있다(111). 새로운 펩타이드 서열은 언어 모델 및 임베딩에 기초하여 계산기 내에서(in silico) 생성된 서열이다. 일부 실시 형태에서, 새로운 펩타이드 서열은 클러스터링 방법, 분류 방법 및/또는 시각화 방법에 의해 결정될 수 있는 바와 같이 예측된 특성 및/또는 기능을 갖도록 생성된다. 일부 실시 형태에서, 생성된 새로운 펩타이드 서열은 펩타이드, 단백질, 수용체, 의학적 생물제제 또는 기타 단백질성 종을 합성하는 데 활용된다. 펩타이드, 단백질 또는 기타 단백질성 종은 화학적으로 합성(예를 들어, 고체상 펩타이드 합성)되거나 생물학적으로 합성(예를 들어, 재조합 발현 시스템)될 수 있다.
새로운 서열을 생성하는 하나의 예시적인 방법에서, 일부 특정 항원 상보성을 갖는 것으로 예측되거나 특정 질환과 연관되는 V 및 J 분절이 개발되고 선택된다. CDR3 서열은 V 및 J 분절을 동일하게 유지하면서 돌연변이된다. 새로운 BCR 서열을 생성할 때, CDR1 및 CDR2도 또한 돌연변이될 수 있다. 돌연변이된 서열은 예측 모델을 통해 계산기 내에서 점수화된다. 또한, 점수화된 서열에 대한 추가의 돌연변이 분석은 증진된 결합 능력을 갖는 서열을 발견하도록 반복적인 방식으로 수행될 수 있다. 더욱이, 예측 모델은 또한 다양한 서열 특성을 통합할 수 있으며, 서열은 이러한 특성에 기초하여 추가로 점수화되고 선택될 수 있다. 유용할 수 있는 서열 특성은 특정 항원과의 상보성, 결합 특이성, 결합 친화성, pH 결합 민감성, 제조 가능성, 발달 가능성 또는 면역원성을 포함한다(그러나, 이들에 한정되는 것은 아님). 점수 및/또는 목적하는 특성에 기초하여, 서열은 단백질성 종의 합성(예를 들어, 펩타이드, 수용체, 의학적 생물제제 등의 합성)을 위해 선택될 수 있다.
언어 모델을 활용하여 펩타이드 서열의 잠재 임베딩을 추출하는 방법의 구체적인 예가 상기에 기재되어 있지만, 당해 분야의 통상의 기술자는 방법의 다양한 단계가 상이한 순서로 수행될 수 있고 특정 단계가 본 발명의 일부 실시 형태에 따라 임의적일 수 있음을 인식할 수 있다. 이와 같이, 방법의 다양한 단계가 특정 적용의 요건에 따라 적절하게 사용될 수 있음은 분명해야 한다. 또한, 주어진 적용의 요건에 적합한 언어 모델을 활용하여 펩타이드 서열의 잠재 임베딩을 추출하는 다양한 방법 중 임의의 방법은 본 발명의 다양한 실시 형태에 따라 활용될 수 있다.
면역력 평가
몇몇 실시 형태는 1개 이상의 모델을 사용하여 B 세포 수용체 및/또는 T 세포 수용체 서열을 평가하여 면역력을 평가하는 것에 관한 것이다. 다수의 실시 형태에서, B 세포 수용체 및/또는 T 세포 수용체의 서열은 면역력을 평가하는데 활용된다. 일부 실시 형태에서, B 세포 수용체 및/또는 T 세포 수용체의 CDR1 서열, CDR2 서열, CDR3 서열, V 유전자 분절 선택 또는 이들의 임의의 조합은 면역력을 평가하는 데 활용된다. 또한, 개체의 HLA 유형은 T 세포 수용체 평가에 사용될 수 있다. 단백질 서열 언어 모델, 언어 모델에 의해 추출되는 추출된 잠재 임베딩에 기초하여 면역력 상태를 예측하기 위한 분류자, 능동 면역 반응을 예측하기 위한 분류자, 서열 유사성에 기초하여 펩타이드를 클러스터링하기 위한 클러스터링 모델, 및 면역력 상태 기반 펩타이드 서열 클러스터 멤버십을 평가하기 위한 분류자를 포함하는(그러나, 이들에 한정되는 것은 아님) 다양한 전산 모델은 면역력을 평가하기 위해 B 세포 수용체 및/또는 T 세포 수용체 서열을 분석하는 데 활용될 수 있다.
몇몇 실시 형태는 언어 모델 및 분류자를 활용하여 B 세포 수용체 및/또는 T 세포 수용체 서열을 평가하여 면역력 상태의 일부로서 특정 면역 반응을 결정하는 것에 관한 것이다. B 세포 수용체 및/또는 T 세포 수용체 서열의 잠재 임베딩을 추출하고 분류자를 활용하여 건강 상태를 예측하는 전산 방법이 도 2에 제공된다. 방법(200)은 각각의 코호트가 건강 상태를 갖는 개체의 적어도 2개의 코호트로부터 유래된 B 세포 수용체 및/또는 T 세포 수용체의 서열 분석 데이터를 획득한다(201). 다양한 실시 형태에서, 서열 분석 데이터는 개체 당 적어도 100,000개의 특유의 수용체 서열, 개체 당 적어도 1,000,000개의 특유의 수용체 서열, 개체 당 적어도 10,000,000개의 특유의 수용체 서열, 개체 당 적어도 100,000,000개의 특유의 수용체 서열, 개체 당 적어도 1,000,000,000개의 특유의 수용체 서열, 개체 당 적어도 10,000,000,000개의 특유의 수용체 서열, 개체 당 적어도 100,000,000,000개의 특유의 수용체 서열 또는 개체 당 적어도 1,000,000,000,000개의 특유의 수용체 서열을 포함한다. 다양한 실시 형태에서, 서열 분석 데이터는 코호트 당 적어도 10명, 코호트 당 적어도 100명, 코호트 당 적어도 1000명 또는 코호트 당 적어도 10,000명을 포함한다.
건강 상태는 건강한 능동 면역 반응 및 이전 면역 반응을 포함하는(그러나, 이들에 한정되는 것은 아님) B 세포 또는 T 세포 면역력과 관련된 임의의 상태일 수 있다. 건강한 상태는 기준 비교로서 활용될 수 있는 개체를 지칭하는 데, 이는 개체가 특정 능동 또는 이전 면역 반응에 의해 영향을 받지 않았음을 의미한다. 능동 면역 반응은 활성 B 세포 또는 T 세포 생성을 초래하는 특정 면역 반응을 갖는 개체를 지칭한다. 능동 면역 반응은 활성 병원성 감염, 자가 면역 장애, 능동 급성 자가 면역 반응, 최근 백신 접종, 이들의 복합(예를 들어, 2개의 활성 병원성 감염) 및 이들의 임의의 조합(예를 들어, 활성 병원성 감염 및 능동 백신 접종)을 포함한다(그러나, 이에 한정되는 것은 아님). 이전 면역 반응은 B 세포 또는 T 세포 생성을 초래하는 면역 반응을 갖지만 정지 기억 B 세포 또는 T 세포가 순환성일 수 있음에도 더 이상 B 세포 또는 T 세포를 능동적으로 생성하거나 자극하지 않는 개체를 지칭한다. 이전 면역 반응은 이전 병원성 감염, 이전 백신 접종, 이들의 복합(예를 들어, 2개의 이전 병원성 감염) 및 이들의 임의의 조합(예를 들어, 이전 병원성 감염 및 이전 백신 접종)을 포함한다(그러나, 이에 한정되는 것은 아님). 일부 실시 형태에서, 코호트는 (예를 들어) 활성 SARS-COV2 감염, 이전 SARS-COV2 감염, 최근 코로나바이러스 감염증-19 백신 접종, 이전 코로나바이러스 감염증-19 백신 접종, 활성 전신 홍반성 루푸스(systemic lupus erythematosus: SLE) 장애 및 급성 SLE 발적과 같은 특정 면역 반응을 갖는 것으로 정의된다. 몇개의 특정 면역 반응만이 예로서 제공되지만, 코호트는 임의의 특정 면역 반응 또는 2개 이상의 면역 반응의 조합으로 정의될 수 있음을 이해해야 한다.
서열 분석 데이터는 B 세포 수용체 및/또는 T 세포 수용체, 특히, CDR 영역의 펩타이드 서열을 포함해야 한다. 펩타이드 서열을 생성하기 위해, 일부 실시 형태에 따르면, 유전 물질(예를 들어, DNA 또는 RNA)는 B 세포 및/또는 T 세포로부터 추출되고 핵산 서열 분석기를 활용하여 서열 분석되고, 펩타이드 서열은 핵산 서열 분석 결과로부터 추론된다.
방법(200)은 언어 모델을 활용하여 서열 분석 데이터의 각각의 수용체 서열의 잠재 임베딩을 추출한다(203). 잠재 임베딩을 추출할 수 있는 임의의 언어 모델이 활용될 수 있다. (예를 들어) 신경 네트워크, k-mer 임베딩, 유니그램 모델, n-그램 모델 및 지수 모델과 같은 다양한 유형의 언어 모델이 활용될 수 있다. 일부 실시 형태에서, 언어 모델은 마스크되거나 손상된 단백질 서열을 재구성하도록 훈련된 신경 네트워크이다. (예를 들어) 장단기 메모리(LSTM), 트랜스포머 및 변이형 오토인코더와 같은 다양한 신경 네트워크 아키텍처가 활용될 수 있다. 다수의 실시 형태에서, 언어 모델은 아미노산 길이에 관계없이 각각의 펩타이드 서열의 잠재 임베딩을 추출할 수 있다.
B 세포 수용체 및 T 세포 수용체 서열은 언어 모델을 훈련시키는 데 활용될 수 있는 데, 이는 면역학적 언어 모델을 제공한다. 일부 실시 형태에서, 사람 B 세포 수용체 및/또는 T 세포 수용체 서열이 활용된다.
몇몇 실시 형태에서, 잠재 언어 모델은 특징을 추출하고 특징을 벡터로 변환시킨다. 이러한 작업을 달성하기 위해, 몇몇 실시 형태에서, 언어 모델은 각각의 펩타이드 서열을, 최적화를 통해 선택되는 중요한 특성을 포착하는 내부 저차원 임베딩으로 압축시킨다. 모델 훈련의 반복 각각은 먼저 마스크된 서열을 압축시킨 다음 이의 저차원 버전으로부터 마스크되지 않은 서열을 복원하는 데 사용되는 변환 세트를 정제한다. 다수의 실시 형태에서, 보다 나은 재구성 정확도를 제공하는 변환 가중치가 허용된다. 최종 모델이 단백질 서열을 성공적으로 마스크되지 않도록 할 수 있는 경우, 내부 압축 및 압축 해제는 입력 서열을 요약하는 추출된 기본 특징을 갖는다. 따라서, 몇몇 실시 형태에서, 언어 모델은 훈련 및/또는 평가를 위해 활용되는 각각의 서열로 개선된다.
다수의 실시 형태에서, 각각의 서열의 추출된 잠재 임베딩은 유사한 항원 상보성을 갖는 서열 벡터를 식별하기 위해 클러스터링될 수 있는 수치 벡터로 변환된다. 적어도 2개 코호트의 클러스터를 비교함으로써, 이러한 코호트 내의 특정 클러스터 및 펩타이드 서열 구성원은 코호트와 연관된 특정 건강 상태를 초래하는 항원 상보성을 갖는 것으로 식별될 수 있다.
방법(200)은 특정 건강 상태와 연관된 추출된 잠재 임베딩을 활용하여 건강 상태를 예측하도록 분류자 또는 회귀 모델을 훈련시킬 수 있다(205). (예를 들어) 로지스틱 회귀, 라쏘, 그래디언트 부스티드 트리, 신경 네트워크, 최근접 이웃, 의사 결정 분지도 또는 SVM과 같은 임의의 유형의 분류자 또는 회귀자가 활용될 수 있다. 분류자는 언어 모델에 통합될 수 있거나 언어 모델과는 별개일 수 있다. 언어 모델에 통합될 때, 분류자는 입력 서열을 라벨링하여 지도 하에 훈련될 수 있으며, 분류는 임베딩 추출과 동시에 수행될 수 있다. 분류자가 언어 모델과 별개일 때, 분류자는 추출된 임베딩을 라벨링하고 임베딩을 입력으로서 활용하여 지도 하에 훈련될 수 있다. 분류자 모델은 각각의 세트가 특정 건강 상태와 연관되어 있는 복수의 추출된 잠재 임베딩 세트로 훈련될 수 있음을 이해해야 한다. 추출된 잠재 임베딩 세트의 수는 무제한적이므로, 분류자는 무한한 수의 건강 상태에 대한 건강 상태를 예측할 수 있다. 따라서, 다양한 실시 형태에서, 적어도 2개의 추출된 잠재 임베딩 세트, 적어도 3개의 추출된 잠재 임베딩 세트, 적어도 4개의 추출된 잠재 임베딩 세트, 적어도 5개의 추출된 잠재 임베딩 세트, 적어도 6개의 추출된 잠재 임베딩 세트, 적어도 7개의 추출된 잠재 임베딩 세트, 적어도 8개의 추출된 잠재 임베딩 세트, 적어도 9개의 추출된 잠재 임베딩 세트, 적어도 10개의 추출된 잠재 임베딩 세트 또는 10개 초과의 추출된 잠재 임베딩 세트는 분류자를 훈련시키는 데 활용되며, 여기서, 각각의 세트는 특유의 질환 상태와 연관된 개체의 코호트로부터 유래된다.
훈련된 분류자의 파라미터는 최적화 및/또는 미세 조정될 수 있다. 일부 실시 형태에서, 분류자의 면역 결핍 및/또는 특이성은 수행하고자 하는 분류의 필요성에 적합하도록 변형될 수 있다. 예를 들어, 면역 결핍 및/또는 특이성 임계값(threshold)은 면역학적 계절(예를 들어, 인플루엔자 계절), 바이러스 서브타입의 변화(예를 들어, 코로나바이러스 변이체 변화) 또는 기준 감염 수준에 기초하여 변형될 수 있다. 일부 실시 형태에서, 분류자는 기권을 활용하여 B 세포 수용체 서열 또는 T 세포 수용체 서열을 분류하거나 개체를 특정 면역력 상태를 갖는 것으로 분류하는 것을 삼가한다.
일부 실시 형태에서, 훈련 또는 평가 서열은 질환 클래스에 대응할 가능성이 있는 서열로 필터링될 수 있다. 예를 들어, 비지도 최근접 이웃 그래프(unsupervised nearest neighbors graph)는 서열 임베딩 벡터로부터 작성될 수 있으며, 여기서, 각각의 서열은 여러 인근 서열에 연결된 하나의 노드(node)이다. 특정 서열, 예를 들어, 이들의 그래프 주변이 다수의 면역 상태의 개체의 서열을 포함하는 경우(이러한 서열이 흔한 배경 서열이며 실제로 특정 면역 상태와 관련되지 않음을 나타낼 수 있음), 또는 이들의 그래프 주변만이 동일한 코호트의 소수의 개체의 서열을 갖는 경우(희귀 서열이 개체 간에 공유되지 않음을 나타낼 수 있음)는 훈련 세트로부터 제외될 수 있다. 분류 성능은 분류자를 의미 있는 서열 또는 모든 서열에 대해 훈련시키지만 보다 높은 샘플 가중치가 할당된 특정 서열로 훈련시킴으로써 개선될 수 있다. 평가 세트 서열의 경우, 훈련 세트 중의 최근접 이웃도 또한 유사한 경험적 규칙에 의해 평가될 수 있으며; 일부 평가 세트 서열은 전체 레퍼토리 분류에 포함되는 데 무의미할 수 있다.
훈련된 분류자는 B 세포 수용체 서열 또는 T 세포 수용체 서열을 평가하여 서열과 일부 분류의 연관성(예를 들어, 특정 의학적 장애 또는 질환과의 연관성)을 결정하는 데 활용될 수 있다. 또한, 분류자는 개체의 B 세포 수용체 및/또는 T 세포 수용체의 레퍼토리를 평가하여 개체가 특정 건강 상태를 갖는지 여부를 결정하는 데 활용될 수 있다. 일부 실시 형태에서, 전체 환자 샘플 레퍼토리 또는 다른 서열 집합에 대한 분류 예측은 개별 서열 예측을 종합함으로써 생성된다. 일부 실시 형태에서, 개별 서열 예측은 레퍼토리 또는 다른 서열 집합 중의 배경 또는 잡음 서열에 강력한 서열 분류의 중앙 추정치를 생성하기 위해 절사 평균 연산으로 종합될 수 있다. 일부 실시 형태에서, 서열 예측은 서열 신뢰도 가중치에 의해 종합된다. 일부 실시 형태에서, 서열 예측은 최근접 이웃 그래프 연결성 또는 다른 방법으로부터 유도된 서열 신뢰도 가중치를 통합하는 절사 가중 평균 또는 가중 및/또는 절사 중앙값과 같은 접근법의 조합에 의해 종합된다. 일부 실시 형태에서, 분류자가 평가되고, 평가에 기초하여, 추가의 데이터가 분류 능력을 개선시키기 위해 수집될 수 있다.
사람 수준 또는 샘플 수준 상태를 분류할 때, 상이한 면역 수용체 집합이 예측 작업에 따라 사용될 수 있다. 일부 실시 형태에서, 클래스 스위칭되지 않거나(IgD/IgM) 클래스 스위칭된(IgA/IgG/IgE) B 세포 수용체 중의 체세포 과돌연변이 빈도는 질환, 건강 상태, 연령, 성별, 혈통, 약물 이력 또는 환경 노출의 예측에 사용된다.
일부 실시 형태에서, 분류와 연관되는 것으로 식별되는 코호트의 서열은 합성되도록 선택된다. 다양한 실시 형태에서, 분류자 또는 회귀자에 의해 생성된 점수는 특정 장애와의 연관성 또는 항원과의 상보성과 같은 목적하는 연관성을 갖는 서열을 선택하는 데 활용된다. 일부 실시 형태에서, 분류자는 특정 항원과의 상보성, 결합 특이성, 결합 친화성, pH 결합 민감성, 제조 가능성, 발달 가능성, 면역원성 또는 임의의 다른 서열 관련 특성과 같은 알려진 특성을 갖는 서열로 추가로 훈련된다. 따라서, 일부 실시 형태에서, 서열은 1개 이상의 서열 특성에 기초하여 선택된다. 일부 실시 형태에서, 선택된 펩타이드 서열은 화학적으로 합성(예를 들어, 고상 펩타이드 합성)되거나 생물학적으로 합성(예를 들어, 재조합 발현 시스템)될 수 있는 항원 상보적 단백질성 종을 합성하는 데 활용된다. 펩타이드, 단백질, 수용체, 의학적 생물제제 또는 기타 단백질성 종이 합성될 수 있다.
방법(200)은 또한 임의로 새로운 B 세포 수용체 또는 T 세포 수용체 펩타이드 서열을 생성할 수 있다(207). 새로운 펩타이드 서열은 언어 모델 및 잠재 임베딩에 기초하여 계산기 내에서 생성된 서열이다. 일부 실시 형태에서, 새로운 펩타이드 서열은 클러스터링 방법 및/또는 분류 방법에 의해 결정될 수 있는 바와 같이 예측된 항원 상보성을 갖도록 생성된다. 일부 실시 형태에서, 새로운 펩타이드 서열은 화학적으로 합성(예를 들어, 고상 펩타이드 합성)되거나 생물학적으로 합성(예를 들어, 재조합 발현 시스템)될 수 있는 항원 상보적 단백질성 종을 합성하는 데 활용된다. 펩타이드, 단백질, 수용체, 의학적 생물제제 또는 기타 단백질성 종이 합성될 수 있다.
추출된 잠재 임베딩에 기초하여 건강 상태를 예측하는 방법의 구체적인 예가 상기에 기재되어 있지만, 당해 분야의 통상의 기술자는 방법의 다양한 단계가 상이한 순서로 수행될 수 있고 특정 단계가 본 발명의 일부 실시 형태에 따라 임의적일 수 있음을 인식할 수 있다. 이와 같이, 방법의 다양한 단계가 특정 적용의 요건에 따라 적절하게 사용될 수 있음은 분명해야 한다. 또한, 주어진 적용의 요건에 적합한 추출된 잠재 임베딩에 기초하여 건강 상태를 예측하는 다양한 방법 중 임의의 방법은 본 발명의 다양한 실시 형태에 따라 활용될 수 있다.
몇몇 실시 형태는 전산 모델을 활용하여 개체가 전체 면역력 상태를 결정하는 것의 일부로서 능동 면역 반응을 갖는지 여부를 결정하는 것에 관한 것이다. 능동 면역 반응의 존재 여부, 면역 반응과 관련된 장애, 감염 또는 백신 접종 및/또는 평가되는 개체의 특성(예를 들어, 연령 그룹)을 포함하는 면역 반응의 특징을 감지하기 위한 분류자를 생성하는 방법이 도 3에 제공된다. 방법(300)은 적어도 하나의 기준 코호트 및 적어도 하나의 면역학적 활성 코호트로부터 유래된 B 세포 수용체의 서열 분석 데이터를 획득한다(301). 다양한 실시 형태에서, 서열 분석 데이터는 개체 당 적어도 100,000개의 특유의 수용체 서열, 개체 당 적어도 1,000,000개의 특유의 수용체 서열, 개체 당 적어도 10,000,000개의 특유의 수용체 서열, 개체 당 적어도 100,000,000개의 특유의 수용체 서열, 개체 당 적어도 1,000,000,000개의 특유의 수용체 서열, 개체 당 적어도 10,000,000,000개의 특유의 수용체 서열, 개체 당 적어도 100,000,000,000개의 특유의 수용체 서열 또는 개체 당 적어도 1,000,000,000,000개의 특유의 수용체 서열을 포함한다. 다양한 실시 형태에서, 서열 분석 데이터는 코호트 당 적어도 10명, 코호트 당 적어도 100명, 코호트 당 적어도 1000명 또는 코호트 당 적어도 10,000명을 포함한다.
적어도 하나의 면역학적 활성 코호트는 능동 면역 반응, 특히, 성숙될 때 B 세포 자극을 초래하는 급성 면역 반응을 갖는 개체의 집합일 수 있다. 능동 면역 반응은 활성 병원성 감염, 자가 면역 장애, 능동 급성 자가 면역 반응, 면역 기능 장애, 최근 백신 접종, 이들의 복합(예를 들어, 2개의 활성 병원성 감염) 및 이들의 임의의 조합(예를 들어, 활성 병원성 감염 및 능동 백신 접종)을 포함한다(그러나, 이에 한정되는 것은 아님). 일부 실시 형태에서, 코호트는 (예를 들어) 활성 SARS-COV2 감염, 최근 코로나바이러스 감염증-19 백신 접종, 이전 코로나바이러스 감염증-19 백신 접종 및 급성 SLE 발적과 같은 특정 면역 반응을 갖는 것으로 정의된다. 기준 코호트는 현재 능동 면역 반응을 겪고 있지 않는 개체의 집합이므로, 기준 면역 반응이 확립될 수 있다.
서열 분석을 통해 감지 가능한 능동 면역 반응의 임의의 특징은 활성 반응과 기준 반응을 구별하기 위해 평가될 수 있다. 예를 들어, 나이브(naive) B 세포가 활성화될 때, B 세포는 IgG 및 IgA 이소타입으로 스위칭된다. 일부 실시 형태에서, IgG 또는 IgA 이소타입의 비율은 활성 반응을 감지하기 위해 총 IgG와 비교된다. 일부 실시 형태에서, IgG 또는 IgA 이소타입의 비율은 IgM 및/또는 IgD 이소타입과 비교된다. 일부 실시 형태에서, 체세포 과돌연변이의 비율은 능동 면역 반응을 평가하는 데 활용된다. 일부 실시 형태에서, 과돌연변이되는 서열의 비율은 능동 면역 반응을 평가하는 데 활용된다. 일부 실시 형태에서, V 유전자의 수 및/또는 J 유전자의 수는 능동 면역 반응을 평가하는 데 활용된다.
방법(300)은 또한 능동 면역 반응과 기준 면역 반응을 구별하도록 분류자 또는 회귀자를 훈련시킨다(303). (예를 들어) 로지스틱 회귀, 라쏘, 그래디언트 부스티드 트리, 신경 네트워크, 최근접 이웃, 의사 결정 분지도 또는 SVM과 같은 임의의 유형의 분류자 또는 회귀자가 활용될 수 있다. 일부 실시 형태에서, 분류자는 엘라스틱 넷 정규화(elastic net regularization)를 갖춘 이진 선형 모델이다. 몇몇 실시 형태에서, 분류자는 능동 면역 반응을 갖는 코호트와 기준 코호트 사이에서 구별되는 능동 면역 반응의 1개 이상의 특징을 연관시킴으로써 훈련된다. 일부 실시 형태에서, 분류자는 특정 유형(예를 들어, 코로나바이러스 감염)의 능동 면역 반응을 감지하도록 훈련된다. 일부 실시 형태에서, 분류자가 평가되고, 평가에 기초하여, 추가의 데이터가 분류 능력을 개선시키기 위해 수집될 수 있다. 일부 실시 형태에서, 분류자에 의한 개별 서열 예측은 레퍼토리 또는 다른 서열 집합 중의 배경 또는 잡음 서열에 강력한 서열 분류의 중앙 추정치를 생성하기 위해 절사 평균 연산으로 종합될 수 있고; 따라서, 서열 수준 분류자는 환자 수준 또는 샘플 수준 분류자가 될 수 있다.
훈련된 분류자의 파라미터는 최적화 및/또는 미세 조정될 수 있다. 일부 실시 형태에서, 분류자의 민감성 및/또는 특이성은 수행하고자 하는 분류의 필요성에 적합하도록 변형될 수 있다. 예를 들어, 민감성 및/또는 특이성 임계값은 면역학적 계절(예를 들어, 인플루엔자 계절), 바이러스 서브타입의 변화(예를 들어, 코로나바이러스 변이체 변화) 또는 기준 감염 수준에 기초하여 변형될 수 있다. 일부 실시 형태에서, 분류자는 기권을 활용하여 개체를 능동 면역 반응 또는 기준 반응을 갖는 것으로 분류하는 것을 삼가한다.
또한, 몇몇 실시 형태는 분류자를 활용하여 개체가 능동 면역 반응을 갖는지 여부를 결정하는 것에 관한 것이다. 따라서, 개체는 자신의 B 세포 수용체 및/또는 T 세포 수용체가 서열 분석되고 서열 분석 데이터가 훈련된 분류자 내에 입력되도록 하여 능동 면역 반응과 연관된 1개 이상의 특징을 감지할 수 있다. 다양한 실시 형태에서, 개체의 서열 분석 데이터는 적어도 100,000개의 특유의 수용체 서열, 적어도 1,000,000개의 특유의 수용체 서열, 적어도 10,000,000개의 특유의 수용체 서열, 적어도 100,000,000개의 특유의 수용체 서열, 적어도 1,000,000,000개의 특유의 수용체 서열, 적어도 10,000,000,000개의 특유의 수용체 서열, 적어도 100,000,000,000개의 특유의 수용체 서열 또는 적어도 1,000,000,000,000개의 특유의 수용체 서열을 포함한다.
능동 면역 반응을 감지하도록 분류자를 훈련시키는 방법의 구체적인 예가 상기에 기재되어 있지만, 당해 분야의 통상의 기술자는 방법의 다양한 단계가 상이한 순서로 수행될 수 있고 특정 단계가 본 발명의 일부 실시 형태에 따라 임의적일 수 있음을 인식할 수 있다. 이와 같이, 방법의 다양한 단계가 특정 적용의 요건에 따라 적절하게 사용될 수 있음은 분명해야 한다. 또한, 주어진 적용의 요건에 적합한 능동 면역 반응을 감지하도록 분류자를 훈련시키는 다양한 방법 중 임의의 방법은 본 발명의 다양한 실시 형태에 따라 활용될 수 있다.
몇몇 실시 형태는 유사성에 기초하여 B 세포 수용체 및/또는 T 세포 수용체 서열을 클러스터링하여 특정 수용체 서열이 면역력 상태를 평가하는 것의 일부로서 특정 면역 반응과 연관되어 있는지 여부를 결정하는 것에 관한 것이다. B 세포 수용체 및/또는 T 세포 수용체 서열을 클러스터링하고 분류자를 활용하여 건강 상태를 예측하는 방법이 도 4에 제공된다. 방법(400)은 각각의 코호트가 건강 상태를 갖는 개체의 적어도 2개의 코호트로부터 유래된 B 세포 수용체 또는 T 세포 수용체의 서열 분석 데이터를 획득한다(401). 다양한 실시 형태에서, 서열 분석 데이터는 개체 당 적어도 100,000개의 특유의 수용체 서열, 개체 당 적어도 1,000,000개의 특유의 수용체 서열, 개체 당 적어도 10,000,000개의 특유의 수용체 서열, 개체 당 적어도 100,000,000개의 특유의 수용체 서열, 개체 당 적어도 1,000,000,000개의 특유의 수용체 서열, 개체 당 적어도 10,000,000,000개의 특유의 수용체 서열, 개체 당 적어도 100,000,000,000개의 특유의 수용체 서열 또는 개체 당 적어도 1,000,000,000,000개의 특유의 수용체 서열을 포함한다. 다양한 실시 형태에서, 서열 분석 데이터는 코호트 당 적어도 10명, 코호트 당 적어도 100명, 코호트 당 적어도 1000명 또는 코호트 당 적어도 10,000명을 포함한다.
건강 상태는 건강한 능동 면역 반응 및 이전 면역 반응을 포함하는(그러나, 이들에 한정되는 것은 아님) B 세포 또는 T 세포 면역력과 관련된 임의의 상태일 수 있다. 건강한 상태는 기준 비교로서 활용될 수 있는 개체를 지칭하는 데, 이는 개체가 특정 능동 또는 이전 면역 반응과 연관된 질환 상태에 의해 영향을 받지 않았음을 의미한다. 능동 면역 반응은 활성 B 세포 또는 T 세포 생성 또는 자극을 초래하는 면역 반응을 갖는 개체를 지칭한다. 능동 면역 반응은 활성 병원성 감염, 자가 면역 장애, 능동 급성 자가 면역 반응, 최근 백신 접종, 이들의 복합(예를 들어, 2개의 활성 병원성 감염) 및 이들의 임의의 조합(예를 들어, 활성 병원성 감염 및 능동 백신 접종)을 포함한다(그러나, 이에 한정되는 것은 아님). 이전 면역 반응은 B 세포 또는 T 세포 생성을 초래하는 이전 면역 반응과 연관된 질환 상태를 갖지만 더 이상 B 세포 또는 T 세포를 능동적으로 생성하거나 자극하지 않는 개체를 지칭한다. 이전 면역 반응은 이전 병원성 감염, 이전 백신 접종, 이들의 복합(예를 들어, 2개의 이전 병원성 감염) 및 이들의 임의의 조합(예를 들어, 이전 병원성 감염 및 이전 백신 접종)을 포함한다(그러나, 이에 한정되는 것은 아님). 일부 실시 형태에서, 코호트는 (예를 들어) 활성 SARS-COV2 감염, 이전 SARS-COV2 감염, 최근 코로나바이러스 감염증-19 백신 접종, 이전 코로나바이러스 감염증-19 백신 접종, 활성 전신 홍반성 루푸스(SLE) 장애 및 급성 SLE 발적과 같은 특정 면역 반응을 갖는 것으로 정의된다.
서열 분석 데이터는 B 세포 수용체 및/또는 T 세포 수용체의 펩타이드 서열, 또는 BCR 및 TCR을 포함하는 펩타이드 쇄 유형 중 적어도 하나를 포함해야 한다. 일부 실시 형태에서, CDR3의 서열은 클러스터링에 활용된다. 펩타이드 서열을 생성하기 위해, 일부 실시 형태에 따르면, 유전 물질(예를 들어, DNA 또는 RNA)는 B 세포 및/또는 T 세포로부터 추출되고 핵산 서열 분석기를 활용하여 서열 분석되며, 펩타이드 서열은 핵산 서열 분석 결과로부터 결정된다.
방법(400)은 클러스터링 방법을 활용하여 서열 유사성에 기초하여 수용체 서열을 클러스터링한다(403). 유사성에 기초하여 서열을 클러스터링할 수 있는 임의의 클러스터링 방법이 활용될 수 있다. 클러스터링 방법의 예는 k-평균 클러스터링, 계층적 클러스터링, 단일 연결 클러스터링 및 루벵(Louvain) 군집 감지를 포함한다(그러나, 이들에 한정되는 것은 아님). 몇몇 실시 형태에서, 서열은 편집 거리에 의해 클러스터링된다. 일부 실시 형태에서, 클러스터 중의 모든 서열은 (예를 들어) 동일한 V 유전자, 동일한 J 유전자, 동일한 서열 길이 및 특정 백분율의 동일성(예를 들어, 클러스터 중심과의 85% 서열 동일성) 공유와 같은 공통 특징을 공유한다. 일부 실시 형태에서, 클러스터는 질환을 앓거나 앓았던 여러 개체로부터 유래할 때 특정 질환과 연관된다. 일부 실시 형태에서, (예를 들어) 서열이 소수(예를 들어, 3명 미만)의 개체로부터 유래되는 경우 또는 클러스터의 서열을 제공하는 개체의 백분율이 임계값 미만(예를 들어, 서열을 제공하는 개체 중 80% 미만이 질환을 앓았음)인 경우와 같은 질환 연관성의 파라미터를 충족하지 않는 경우, 클러스터는 폐기된다.
방법(400)은 특정 건강 상태와 연관된 클러스터 멤버십을 활용하여 건강 상태를 예측하도록 분류자 또는 회귀 모델을 훈련시킬 수 있다(405). (예를 들어) 로지스틱 회귀, 라쏘, 그래디언트 부스티드 트리, 신경 네트워크, 최근접 이웃, 의사 결정 분지도 또는 SVM과 같은 임의의 유형의 분류자 또는 회귀자가 활용될 수 있다. 훈련된 분류자는 개체의 B 세포 수용체 및 T 세포 수용체 서열을 평가하여 개체가 특정 건강 상태를 갖는지 여부를 결정하는 데 활용될 수 있다. 일부 실시 형태에서, 분류자가 평가되고, 평가에 기초하여, 추가의 데이터가 분류 능력을 개선시키기 위해 수집될 수 있다.
훈련된 분류자의 파라미터는 최적화 및/또는 미세 조정될 수 있다. 일부 실시 형태에서, 분류자의 민감성 및/또는 특이성은 수행하고자 하는 분류의 필요성에 적합하도록 변형될 수 있다. 예를 들어, 민감성 및/또는 특이성 임계값은 면역학적 계절(예를 들어, 인플루엔자 계절) 또는 기준 감염 수준에 기초하여 변형될 수 있다. 일부 실시 형태에서, 분류자는 기권을 활용하여 B 세포 수용체 서열 또는 T 세포 수용체 서열을 분류하거나 개체를 특정 면역력 상태를 갖는 것으로 분류하는 것을 삼가한다.
또한, 몇몇 실시 형태는 분류자를 활용하여 개체의 건강 상태를 예측하는 것에 관한 것이다. 따라서, 다수의 실시 형태에서, 개체의 B 세포 수용체 및 T 세포 수용체 서열의 서열 분석 데이터로부터 유래된 클러스터 멤버십은 개체의 건강 상태를 예측하도록 분류자에 입력된다. 다양한 실시 형태에서, 개체의 서열 분석 데이터는 적어도 100,000개의 특유의 수용체 서열, 적어도 1,000,000개의 특유의 수용체 서열, 적어도 10,000,000개의 특유의 수용체 서열, 적어도 100,000,000개의 특유의 수용체 서열, 적어도 1,000,000,000개의 특유의 수용체 서열, 적어도 10,000,000,000개의 특유의 수용체 서열, 적어도 100,000,000,000개의 특유의 수용체 서열 또는 적어도 1,000,000,000,000개의 특유의 수용체 서열을 포함한다.
분류자를 훈련시켜 클러스터 멤버십에 기초하여 건강 상태를 예측하는 방법의 구체적인 예가 상기에 기재되어 있지만, 당해 분야의 통상의 기술자는 방법의 다양한 단계가 상이한 순서로 수행될 수 있고 특정 단계가 본 발명의 일부 실시 형태에 따라 임의적일 수 있음을 인식할 수 있다. 이와 같이, 방법의 다양한 단계가 특정 적용의 요건에 따라 적절하게 사용될 수 있음은 분명해야 한다. 또한, 주어진 적용의 요건에 적합한 분류자를 훈련시켜 클러스터 멤버십에 기초하여 건강 상태를 예측하는 다양한 방법 중 임의의 방법은 본 발명의 다양한 실시 형태에 따라 활용될 수 있다.
몇몇 실시 형태는 1개 이상의 모델과 분류자를 결합하여 앙상블 모델을 생성하거나 모든 특징 표현의 조합에 대해 훈련된 단일 모델을 생성하여 건강 상태의 보다 포괄적인 평가를 제공하는 것에 관한 것이다. 다양한 실시 형태에서, 방법(200), 방법(300) 및 방법(400) 중 1개 이상의 방법은 앙상블 모델을 산출하도록 결합될 수 있다. 각각의 가능한 클래스에 대한 각각의 모델의 예측 확률을 활용하여 개체의 전반적인 건강 상태를 평가하는 방법이 도 5에 제공된다. 방법(500)은 건강 상태를 산출하는 2개 초과의 분류자의 확률을 획득(501)함으로써 시작될 수 있다. 다수의 실시 형태에서, 2개 이상의 분류자는 도 2, 3 및 4와 관련하여 기재된 분류자 중 적어도 하나를 포함할 수 있다. 일부 실시 형태에서, 성별, 연령 또는 혈통과 같은 잠재적 교란 효과를 갖는 인구 통계학적 또는 생물학적 변수는 입력 데이터에서 앙상블 모델로 회귀될 수 있다.
획득된 확률을 사용하여, 방법(500)은 개체의 건강 상태를 평가한다(503). 획득된 확률은 결합된 예측 확률 벡터를 제공하기 위해 분류자 또는 회귀자에서 벡터로서 활용될 수 있는 데, 이는 전반적인 건강 상태를 산출한다. 로지스틱 회귀, 라쏘, 그래디언트 부스티드 트리, 신경 네트워크, 최근접 이웃, 의사 결정 분지도 또는 SVM을 포함하는(그러나, 이들에 한정되는 것은 아님) 임의의 유형의 분류자 또는 회귀자가 활용될 수 있다. 일부 실시 형태에서, 다중 클래스 선형 SVM은 결합된 예측 확률 벡터를 매핑하기 위해 활용된다.
조합 분류자의 파라미터는 최적화 및/또는 미세 조정될 수 있다. 일부 실시 형태에서, 분류자의 민감성 및/또는 특이성은 분류 조합의 필요성에 적합하도록 변형될 수 있다. 예를 들어, 민감성 및/또는 특이성 임계값은 면역학적 계절(예를 들어, 인플루엔자 계절), 바이러스 서브타입의 변화(예를 들어, 코로나바이러스 변이체 변화) 또는 기준 감염 수준에 기초하여 변형될 수 있다. 일부 실시 형태에서, 조합 분류자는 입력 확률을 제공하는 데 활용되는 분류자로부터의 기권을 유지한다.
2개 이상의 분류자의 확률을 결합하는 것에 기초하여 전반적인 건강 상태를 평가하는 방법의 구체적인 예가 상기에 기재되어 있지만, 당해 분야의 통상의 기술자는 방법의 다양한 단계가 상이한 순서로 수행될 수 있고 특정 단계가 본 발명의 일부 실시 형태에 따라 임의적일 수 있음을 인식할 수 있다. 이와 같이, 방법의 다양한 단계가 특정 적용의 요건에 따라 적절하게 사용될 수 있음은 분명해야 한다. 또한, 주어진 적용의 요건에 적합한 2개 이상의 분류자의 확률을 결합하는 것에 기초하여 전반적인 건강 상태를 평가하는 다양한 방법 중 임의의 방법은 본 발명의 다양한 실시 형태에 따라 활용될 수 있다.
전산 처리 시스템
본 개시 내용의 다양한 실시 형태에 따른 면역력을 평가하기 위한 전산 처리 시스템은 전형적으로 CPU, GPU 및/또는 기타 처리 엔진 중 1개 이상을 포함하는 처리 시스템을 활용한다. 일부 실시 형태에서, 전산 처리 시스템은 컴퓨팅 디바이스 내에 수용된다. 특정 실시 형태에서, 전산 처리 시스템은 휴대 전화, 태블릿 컴퓨터 및/또는 휴대용 컴퓨터와 같은(그러나, 이들에 한정되는 것은 아님) 컴퓨팅 디바이스에서 소프트웨어 애플리케이션으로 구현된다.
본 개시 내용의 다양한 실시 형태에 따른 전산 처리 시스템이 도 6에 예시되어 있다. 전산 처리 시스템(600)은 프로세서 시스템(602), I/O 인터페이스(604) 및 메모리 시스템(606)을 포함한다. 용이하게 인식될 수 있는 바와 같이, 프로세서 시스템(602), I/O 인터페이스(604) 및 메모리 시스템(606)은 CPU, GPU, ISP, DSP, 무선 모뎀(예를 들어, WiFi, 블루투스 모뎀), 직렬 인터페이스, 깊이 센서, IMU, 압력 센서, 초음파 센서, 휘발성 메모리(예를 들어, DRAM) 및/또는 비휘발성 메모리(예를 들어, SRAM 및/또는 낸드 플래시)를 포함하는(그러나, 이들에 한정되는 것은 아님), 특정 애플리케이션의 요건에 적합한 다양한 구성 요소 중 임의의 구성 요소를 사용하여 구현될 수 있다. 예시된 실시 형태에서, 메모리 시스템은 언어 모델(610), 클러스터링 모델(614) 및 분류자 모델(616)을 저장할 수 있다. 다양한 모델 애플리케이션은 다운로드되고/되거나 비휘발성 메모리에 저장될 수 있다. 실행될 때, 다양한 모델 애플리케이션은 각각 상기에 기재된 전산 방법 및/또는 상기에 기재된 전산 방법의 조합 및/또는 변형 버전을 포함하는 전산 방법을 구현하도록 처리 시스템을 구성할 수 있다. 몇몇 실시 형태에서, 언어 모델(610), 클러스터링 모델(614) 및 분류자 모델(616)은 메모리 시스템에 임의로 저장될 수 있는 펩타이드 서열 데이터(608)를 활용하여 모델의 다양한 작업을 수행할 수 있다. 특정 실시 형태에서, 언어 모델 애플리케이션(610)은 임의로 메모리에 저장되거나 저장 없이 활용될 수 있는 추출된 잠재 임베딩(612)을 생성할 수 있다. 추출된 잠재 임베딩(612)은 면역력을 평가하기 위해 클러스터링 모델(614) 및/또는 분류자 모델(616) 내에서 활용될 수 있다.
구체적인 전산 처리 시스템이 도 6을 참조하여 상기에 기재되어 있지만, 본 개시 내용의 다양한 실시 형태에 따른 면역력 평가의 제공에 활용되는 전산 방법 및/또는 기타 방법은 처리 디바이스의 조합을 포함하는 다양한 처리 디바이스 중 임의의 디바이스에서 구현될 수 있음을 용이하게 인식해야 한다. 따라서, 본 개시 내용의 실시 형태에 따른 전산 디바이스는 특정 전산 처리 시스템에 한정되지 않는 것으로 이해되어야 한다. 컴퓨팅 디바이스는 본 출원에 기재된 방법, 방법의 조합 및/또는 방법의 변형 버전을 수행하기 위해 본 출원에 기재된 시스템의 조합 및/또는 본 출원에 기재된 시스템의 변형 버전 중 임의의 것을 사용하여 구현될 수 있다.
예시적인 실시 형태
본 개시 내용의 실시 형태는 본 출원에 제공된 다양한 예로 보다 잘 이해될 것이다. 기재된 바와 같은 다양한 실시 형태를 수행하는 예를 제공하기 위한 사본과 보충 자료가 본 출원에 제공된다.
면역 수용체의 기계 학습을 사용하는 질환 진단
현대 의학 진단은 환자 검체의 세포 또는 분자 이상, 또는 병원성 미생물의 존재에 대한 실험실 테스트에 크게 의존한다. 루푸스 또는 다발성 경화증과 같은 자가 면역 장애의 경우, 임상 또는 영상 관찰, 자가 항체 감지 및 기타 병태 제외의 조합을 통한 진단은 치료를 지연시킬 수 있는 장시간의 과정이다. 진화는 다양한 무작위 생성된 항원 수용체를 발현하는 B 세포와 T 세포를 사용하여 비정상적인 노출에 대한 분자 감시를 수행하는 면역 시스템을 척추 동물에게 제공하였다. 바이러스, 백신 및 기타 노출에 대응하여, B 및 T 세포 수용체의 레퍼토리는 자극된 세포의 클론 확장, 추가의 체세포 돌연변이의 B 세포 수용체 유전자로의 도입, 및 면역 세포 집단을 추가로 재형성하는 선택 과정으로 인해 조성이 변경된다. 면역력 조절 불능에서, 자가 반응성 림프구는 또한 클론으로 증식하여 면역학적 병리를 일으킬 수 있다.
환자의 적응성 면역 시스템에 인코딩된 특이성을 해석할 수 있으면, 다수의 감염성 질환에 대한 평가가 한 번에 가능할 뿐만 아니라, 자가 면역 반응에 대한 통찰력이 획득될 수 있다. 면역 수용체 레퍼토리의 추적은 림프구 악성 종양을 진단하고 암 치료 반응을 모니터링하는 데 이미 유용한 것으로 입증되었다. 그러나, 면역 레퍼토리 서열 분석은 감염성 질환과 자가 면역 질환을 진단, 예측 또는 모니터링하기 위해 임상적으로 거의 사용되지 않았다. 체세포 재배열로 인한 면역 수용체 유전자의 높은 가변성은 문제가 되고 있다. 이러한 과제를 극복하기 위해, 클론 분석 및 언어 모델링을 비롯한 B 및 T 세포 서열 분석 데이터에 대한 기계 학습 기술의 조합이 사람 간에 특유하고 체계적인 질환 패턴을 식별할 수 있다는 가설이 세워졌다.
말초 혈액으로부터의 B 세포 수용체(B cell receptor: BCR) 중쇄(IgH) 및 T 세포 수용체(T cell receptor: TCR) 베타 쇄(TRB) 서열의 체계적으로 수집된 데이터 세트를 사용하여, 감염성 질환과 면역학적 질환의 존재는 면역 레퍼토리의 3개의 기계 학습 표현을 개발하고 결합함으로써 식별되었다(도 7). 질환이 면역 레퍼토리를 어떻게 재형성하는지에 대한 많은 조사는 동일한 질환을 앓고 있는 사람 간에 거의 동일한 "수렴되는" 수용체 서열의 식별에 의존해 왔다. 또한, 개체는 자신의 면역 수용체의 보다 광범위한 기능적 유사성을 추론함으로써 그룹화되었다. 다음과 같은 면역 반응의 다른 공유 특성도 또한 감지되었다: 항체 불변 영역의 클래스 스위칭 정도, BCR 레퍼토리의 체세포 돌연변이 다양화 정도, 및 IgH 또는 TRB 상보성 결정 영역 3(CDR3) 길이와 같은 정량적 특징을 왜곡하는 선택 효과. B 및 T 세포 신호는 BCR 또는 TCR 레퍼토리에만 한정된 이전의 많은 분석보다 면역력에 대한 더 완전한 견해를 위해 결합되었다.
기계 학습 과정은 병인에 대한 사전 지식 없이 건강한 개체와 병에 걸린 개체, 바이러스 감염과 자가 면역 또는 면역 결핍 병태, 및 서로 상이한 병원체 감염을 구별한다. 이러한 접근법은 또한 질환 특이적 서열에 대해 해석 가능한 순위를 생성하는 데, 이는 분류자가 SARS-CoV-2 특이적 항체와 T 세포를 식별하는 것을 비롯하여 독립적으로 발견된 생물학적 사실을 요약함을 나타낸다.
질환 상태의 통합 레퍼토리 모델
활성 감염성 질환 환자에서도, 면역 수용체의 일부만이 원인 병원체에 할애될 수 있다. BCR 또는 TCR 서열 분석으로부터 개체의 면역 상태를 결정하기 위해, 진단 알고리즘은 희귀한 특정 서열을 식별하기 위해 수십만 개의 특유의 서열을 면밀히 조사해야 한다. 후보 질환 특이적 수용체 서열은 개체 간에 매우 다양할 수 있다. T 세포 수용체 서열은 개체의 HLA 대립유전자에 의해 제한되며, B 세포 수용체는 B 세포 자극 동안 체세포 과돌연변이로 인한 추가의 서열 다양성을 나타낸다.
여기서, 특유의 종류의 질환 상태에 대한 인식을 개선시키고 질환 관련 항원에 대한 결합을 위해 선택된 유사한 수용체 서열을 식별하기 위해 유전자좌 당 3개의 모델의 조합이 사용되었다. 각각의 분류자 모델은 상이한 양태의 면역 레퍼토리를 추출한다(도 8). 제1 모델은 사람의 IgH 레퍼토리에 걸쳐 IGHV 또는 TRBV 유전자 분절 빈도와 돌연변이 비율을 사용한다. 제2 예측자는 개체 간에 매우 유사한 서열 그룹을 식별한다. 제3 분류자는 공통 항원 표적과 보다 느슨하게 관련된 면역 수용체를 발견하기 위해 직접적 서열 동일성보다는 기능적 유사성에 대한 보다 광범위한 프록시를 평가한다. 질환 예측자는 각각의 표현으로 훈련되었다. 그 다음, 3개의 BCR과 3개의 TCR 모델은 면역 상태의 최종 예측에 블렌딩된다. 최종 훈련된 프로그램은 개체의 말초 혈액 B 및 T 세포의 서열 집합을 입력으로서 수용하고, 해당 사람이 기록 상의 각각의 질환에 걸릴 확률에 대한 예측을 돌려준다(도 8).
이러한 접근법은 코로나바이러스 감염증-19, HIV 및 전신 홍반성 루푸스의 진단을 받은 환자 코호트와 건강한 대조군에 적용되었다. 새로운 데이터 세트는 이전에 보고된 데이터 세트와 결합되었으며, 모두 최소 배치 효과와 함께 표준화된 서열 분석 프로토콜로 수집되었다. 제안된 전략이 새로운 면역 레퍼토리에 일반화될 수 있는지 여부를 평가하기 위해, 환자는 3개의 훈련, 검증 및 테스트 세트로 엄격하게 분리되었으며, 각각의 사람은 하나의 테스트 세트에 속하였다. 일부 환자는 여러 검체를 가졌으며; 모두는 교차 검증 분할을 위해 함께 그룹화되었다. 별개의 모델을 각각의 교차 검증 그룹에 대해 훈련시키고 평균 분류 성능을 보고하였다. 하기에 기재되는 바와 같이, 코호트 사이의 인구 통계학적 차이가 진단 정확도를 설명할 수 있는 가능성을 테스트하고 제외하였다. 3개의 모델의 세부 사항은 다음과 같다:
전체 레퍼토리 조성: 제1 기계 학습 모델은 개체의 IgH 및 TRB 레퍼토리 조성을 사용하여 질환 상태를 예측한다. 다른 그룹은 건강한 기준선으로부터 V(D)J 재조합 유전자 분절 사용량의 편차를 사용하여 면역 상태 분류를 시범적으로 수행하였다. 특정 V 유전자 분절은 일반 면역 수용체 집단보다 항원 반응성 V(D)J 재배열에서 더 널리 퍼질 수 있다. 항원 특이적 세포는 클론으로 확장됨에 따라, 레퍼토리에 걸친 V 유전자 사용량의 분포는 변할 수 있다. 또한, 낮은 체세포 돌연변이(SHM) 빈도를 갖는 클래스 스위칭된 IgH 서열은 이전에 급성 에볼라 또는 코로나바이러스 감염증-19 사례에서 확인되었으며, 최근에 감염에 대한 반응 동안 클래스 스위칭된 나이브 B 세포와 일치한다. 이러한 특징은 또한 만성 병태에 축적된 레퍼토리 변화를 나타낼 수 있다. 라쏘 선형 모델은 특징으로서 V/J 유전자 수와 체세포 과돌연변이 비율로 훈련되었다.
편집 거리에 의한 항원 특이적 서열의 수렴되는 클러스터링: 제2 분류자는 동일한 진단을 받은 개체 사이에 공유되는 매우 유사한 CDR3 아미노산 서열을 감지한다. CDR3은 종종 항원 결합 특이성을 결정하는 IgH 및 TRB의 고도 가변 영역이다. 각각의 유전자좌의 경우, CDR3 서열은 동일한 V 유전자, J 유전자 및 CDR3 길이와 높은 서열 동일성으로 클러스터링되었지만, B 세포 수용체 중의 체세포 과돌연변이에 의해 생성된 일부 가변성을 허용한다. 그 다음, 새로운 샘플의 서열은 동일한 제약으로 인근 클러스터에 할당될 수 있다. 특정 질환을 앓고 있는 대상체의 서열이 풍부한 클러스터를 선택하였다. 이러한 클러스터는 개체 간에 특정 질환을 예측할 수 있는 수렴되는 서열을 나타낸다. 각각의 샘플의 서열은 이러한 예측 클러스터에 할당되었다. 각각의 샘플의 경우, 각각의 질환과 연관된 클러스터를 일치시키고, 계수하고, 이러한 수를 라쏘 선형 모델에서 특징으로 사용하여 면역 상태를 예측하였다.
B 및 T 세포 수용체 서열로부터의 언어 모델 특징 추출: 아미노산 편집 거리는 수용체 유사성에 대한 최적의 척도가 아닐 수 있다. 면역 수용체 서열은 복잡한 3차원 구조를 인코딩하며, 작은 서열 변화는 중요한 구조적 변화를 일으킬 수 있는 반면, 다양한 1차 아미노산 서열을 갖는 상이한 구조는 동일한 표적 항원에 결합할 수 있다. 질환 관련 수용체는 사전적으로는 상이한 서열을 가질 수 있지만, 여전히 동일한 표적에 결합하는 기능을 공유할 수 있다. 제3 분류자는 BCR 및 TCR 서열에 대해 미세 조정된 언어 모델을 사용하여 1차 아미노산 서열을 편집 거리에 의해 표시되는 어휘 근접성뿐만 아니라 기능적 유사성을 보다 잘 포착하는 저차원 공간으로 매핑하는 것을 목표로 한다. 수용체 그룹을 발견하기 위해 편집 거리 단독보다는 전하 및 극성과 같은 아미노산 생화학적 특성을 사용하는 종래 연구를 넘어서, BCR 및 TCR의 추정 기능적 표현이 추출되었다. 그렇게 하기 위해, 자체 지도 단백질 언어 모델인 UniRep은 자연어 처리로부터 적합화된 접근법으로 예측 작업을 위한 기능적 특성을 학습하는 데 사용되었다. 단어가 의미를 전달하기 위해 문법 규칙에 의해 배열된 빌딩 블록인 것과 마찬가지로, 단백질 서열은 폴리펩타이드 쇄 폴딩과 호환되는 순서로 구성된 아미노산으로부터 구성되며, 또 다른 분자에 결합하거나 화학 반응을 촉매하는 것과 같은 기능을 수행할 수 있는 구조를 가정한다. UniRep은 각각의 단백질의 나머지 서열 콘텍스트에서 마스크되지 않은 아미노산을 사용하여 무작위로 마스크된 아미노산을 예측하도록 훈련되었다. 이는 문장에서 다음 단어를 예상하기 위해 자연어 문구 및 문법 규칙을 학습하는 것과 유사하게 서열의 상이한 영역 사이의 단기 및 장기 관계를 학습하는 것을 필요로 한다. 이러한 작업을 달성하기 위해, UniRep 순환성 신경 네트워크는 각각의 서열을 내부 저차원 임베딩으로 압축하는 데, 이는 정확한 재구성을 가능하게 하는 특성을 포착한다. 최종 모델이 단백질 서열을 성공적으로 마스크되지 않도록 할 수 있는 경우, 압축 및 압축 해제는 입력 서열을 요약하는 추출된 기본 특징을 갖는다. UniRep의 내부 표현은 구조 클래스와 같은 기본 특성을 인코딩하는 것으로 나타났다.
UniRep은 원래 다수의 유기체의 2천만 개 이상의 단백질에 대해 훈련되었다. 면역 수용체 단백질에 특화된 버전을 생성함으로써 면역 레퍼토리 분류에 대한 개선된 표현을 획득할 수 있다는 가설이 세워졌다. UniRep의 훈련 절차는 마스크된 B 또는 T 세포 수용체 서열을 보다 잘 재구성하기 위해 계속되었다. 종래 오토인코더 모델은 유사한 서열의 클러스터 분류를 가능하게 하였지만, 미세 조정된 언어 모델 접근법은 다양한 생명체 영역의 단백질의 전역 패턴에 대한 지식과 BCR 및 TCR 변이의 특정 복잡도를 결합하며; 실제로, 미세 조정된 언어 모델은 UniRep의 원래 학습 데이터에서 높은 성능을 유지하는 것으로 확인되었다(도 9). 질환 분류 작업을 위해, BCR 또는 TCR 미세 조정된 언어 모델에 의해 학습된 저차원 임베딩은 서열 길이에 관계없이 각각의 서열을 1900차원 수치 특징 벡터로 변환시키는 데 사용되었다. 그 다음, 수용체 서열 벡터를 질환 라벨에 매핑하는 라쏘 선형 모델이 훈련되었다. 절사 평균 계산을 사용하여 각각의 서열의 예측 클래스 확률을 종합함으로써, 모델은 특정 질환 노출에 대한 환자 수준 예측을 산출하였다. 절사 평균은 매우 높거나 낮은 확률을 갖는 희귀 서열에 의한 잡음 오염에 강력한 중앙 추정치이기 때문에 선택되었으며; 테스트는 모델 안정성을 위한 이러한 결정이 성능에 해를 끼치지 않음을 확인해 주었다. 이러한 분류자는 개별 수용체에 대한 예측자로 시작한 다음 서열 호출을 환자 수준 예측으로 종합하기 때문에, 이는 어떠한 서열이 각각의 질환의 예측에 가장 중요한지에 대한 해석을 가능하게 한다. 하기에서, 예측자에 의해 우선순위화된 서열은 질환 특이적 B 및 T 세포에 대해 풍부한 것으로 확인되었는 데, 이는 언어 모델이 이들의 엄청난 다양성에도 불구하고 면역 수용체 서열의 구문을 학습함을 입증한다.
앙상블: 마지막으로, 3개의 모든 분류자, 즉, 전역 레퍼토리 조성, CDR3 서열 클러스터링 및 언어 모델 임베딩 전략은 질환의 앙상블 예측자에 결합되었다(도 10). 이러한 적응성 면역 수용체 분석 프레임워크는 라벨링된 면역학적 진단을 위한 기계 학습(MAchine Learning for Immunological Diagnosis: Mal-ID)이었다. 메타모델은 상이한 전략으로 훈련된 여러 분류자의 확률적 출력을 블렌딩함으로써 각각의 예측자의 장점을 이용하고 실수를 해결할 수 있다. (다른 모델과 마찬가지로, 별개의 메타모델이 각각의 교차 검증 그룹에 대해 훈련되었다.)
이러한 앙상블 접근법은 0.99의 수신자 작동 특성(Receiver Operating Characteristic) 곡선 하의 면적(area under the curve: AUC) 점수를 갖는 개체의 샘플에서 5개의 특정 질환 상태를 구별하였다(도 11). AUC는 모델이 부정적 예에 비해 무작위로 선택된 긍정적 예를 순위화할 가능성이며, 즉, 분류자가 정확한 클래스에 높은 확률을 할당하고 부정확한 클래스에 낮은 확률을 할당하는 경향이 있는지 여부를 나타낸다.
이에 비해, 이전에 보고된 CDR3 클러스터링 모델은 문헌의 다수의 수렴되는 서열 발견 접근법과 유사하며, BCR에 대해 0.92 AUC, TCR에 대해 0.80 AUC를 달성한다. 앙상블 접근법에서 훨씬 더 높은 0.99 AUC를 달성하기 위해, 모든 모델링 전략은 유전자좌 및 질환에 따라 다양한 정도로 기여하였는 데, 이는 면역 신호가 각각의 질환에 대한 BCR 및 TCR 레퍼토리에 걸쳐 분포되는 방식의 변이를 시사한다(도 12, 13a 내지 13c). 결합된 BCR+TCR 메타모델은 BCR 전용 또는 TCR 전용 버전보다 더 나은 성능을 발휘한다. 앙상블 모델은 모든 홀드아웃 테스트 세트에 걸쳐 92%의 정확도를 달성하였다.
8%의 잘못 분류된 레퍼토리 중 1.3%는 CDR3 클러스터를 정의하는 클론 파라미터 및 편집 거리 기준에 속하는 어떠한 서열도 갖지 않은 샘플이었다. 메타모델의 CDR3 클러스터링 구성 요소는 이러한 까다로운 샘플에 대한 임의의 예측을 삼가하였다. 나머지 약 7%의 분류 오류에서, 앙상블 모델은 이의 예측에서 낮은 신뢰도를 갖는 경향이 있었다(도 14). 전략이 결정적이지 않은 예측을 삼가하도록 하는 것은 까다로운 실제 사례에 대해 강력한 진단을 하는 데 중요하다. 실제로, 각각의 질환 상태의 예측 확률에 대한 정확한 임계값인 진단 민감도는 질환 유병률, 및 정밀도와 재현율 사이의 목적하는 트레이드오프(tradeoff)에 따라 조정될 수 있다.
교차 검증 평가 전략이 과적합 위험을 경감시키지만, 모델이 다른 공급원의 새로운 데이터로 일반화되는지 여부를 확인하고자 하였다. 유사한 서열 분석 프로토콜을 갖는 다른 BCR 또는 TCR 연구의 코로나바이러스 감염증-19 환자 및 건강한 공여체 레퍼토리가 평가되었다. 앙상블 모델은 BCR 코호트에서 100%의 정확도, TCR 코호트에서 약 95%의 정확도로 질환 유형을 예측하였다. 이러한 일반화 능력은 모델이 실제 생물학적 신호를 학습하였음을 강화한다.
분류에 대한 연령, 성별, 인종의 제한된 영향
질환 이외에도, 환자 인구 통계도 또한 면역 레퍼토리를 형성한다. 예를 들어, 종래 연구는 면역 노화를 유전자 발현, 사이토카인 수준 및 면역 세포 유형 빈도로 추적하였다. 외부 공변량이 질환 분류 결과를 혼란스럽게 하는지 여부를 연구하기 위해, 모델이 건강한 면역 수용체 레퍼토리의 연령, 성별 또는 혈통을 구별할 수 있는지 여부를 조사하였다. 이러한 변수를 예측하도록 새로운 분류자를 훈련함으로써, 건강한 개체의 성별은 IgH 또는 TRB 서열로부터 정확하게 결정될 수 없는 것으로 밝혀졌다. 그러나, 서열은 0.73 AUC 예측력으로 약한 혈통 신호를 전달하였다. 이러한 신호는 코호트 중의 아프리카 혈통을 갖는 다수의 개체가 아프리카에 살고 잠재적으로 상이한 환경 노출을 가지고 있기 때문에 증가하였을 수 있다. 유사한 패턴이 전체 질환 분류 환경에서 관찰되었으며, 여기서, T 세포 모델은 HIV 환자 및 건강한 대조군을 이러한 아프리카 코호트와 불충분하게 구별하였지만, 대응하는 IgH 레퍼토리는 특유하였다(도 15a 및 15b). 이는 상이한 집단에서 특유의 유전 패턴을 갖는 HLA 대립유전자에 의한 TCR 결합 제한에 해당한다. 따라서, 메타모델은 HIV 예측을 위해 TCR보다 BCR 신호에 더 많이 의존한다(도 12).
건강한 IgH 및 TRB 서열 레퍼토리는 또한 보통 정도의 연령 신호를 전달하였다. 연령이 이러한 연속 변수를 분류 문제로 삼기 위해 50세 미만 또는 이상으로 이분화되었을 때, 예측 모델은 0.70 AUC를 달성하였다. 그러나, 분류자에 의해 감지된 연령의 특징은 50세 이상의 사람 대 젊은 개체의 상이한 배경 또는 환경 노출에 대응할 수 있다. 예를 들어, 순환성 인플루엔자 바이러스 유형은 연속적인 범유행병 후에 변경되었다. 누군가에게 노출된 최초 인플루엔자 변종은 이후 인플루엔자 반응에 편향을 생성하는데, 이는 아마도 초기 바이러스 노출과 관련된 특이성을 갖는 기억 B 및 T 세포 풀을 형성함으로써 가능하다. 연령이 10년 단위로 그룹으로 세분화되었을 때, 모델은 단지 0.62 AUC만을 달성하였으며 12.5%의 샘플에 대한 예측을 삼가하였다. 이러한 보다 열악한 성능은 보다 세분화된 노화 차이가 본 연구의 참가자 수, 연령 범위, 세포 샘플링 및 서열 분석 깊이로 서열 수준에서 구분되기 어려움을 시사한다. 또한, 본 연구는 체세포적으로 과돌연변이된 IgD/IgM 및 클래스 스위칭된 IgG/IgA 이소타입으로 제한되었는 데, 이는 항원성 자극 및 선택에 의해 형성되는 B 세포 집단을 반영한다. 나이브 B 세포의 연구는 추가의 연령, 성별 또는 혈통 영향을 드러낼 수 있다.
질환 코호트 사이의 미묘한 인구 통계학적 차이가 분류 결과를 주도하는지 여부도 또한 조사되었다. 예를 들어, 코호트의 연령 중앙값과 범위는 다음과 같았다: HIV(중앙값 31세, 범위 19~64세); SLE(중앙값 15세, 범위 7~71세); 건강한 대조군(중앙값 44세, 범위 17~81세); 코로나바이러스 감염증-19(평균 48세, 범위 21~88세). TCR 서열은 SLE 코호트 중의 소아 환자에게만 이용 가능하였지만, 이는 소아 및 성인 SLE 샘플 모두에 대해 모든 BCR 모델을 훈련시킴으로써 경감되었다(도 15a 및 15b). 각각의 코호트 중 여성의 비율은 51%(건강한 대조군), 52%(코로나바이러스 감염증-19), 64%(HIV) 및 81%(SLE)이었다. SLE 코호트 중 여성의 유병률은 일반 전염병학과 일치한다. 참가자의 혈통 및 지리학적 위치도 또한 코호트 사이에 달랐다. 가장 특히, HIV 개체 중 적어도 89%는 아프리카 출신이었다. 히스패닉/라틴계 혈통을 갖는 것으로 알려진 개체 중 63%는 코로나바이러스 감염증-19 코호트에 속하였으며, 백인 중 69%는 건강한 대조군이었다.
인구 통계학적 메타데이터가 데이터 세트 내의 질환을 예측하는 데 불충분함을 보여주기 위해, 서열 패턴을 전혀 사용하지 않고 연령, 성별 및 혈통으로만 질환 상태를 예측하려고 시도하였다. 인구 통계 전용 분류자는 서열 예측 앙상블 모델이 특징으로서 포함된 인구 통계학적 공변량으로 재훈련되었을 때의 0.99의 AUC보다 훨씬 더 낮은 0.91의 AUC를 달성하였는 데, 이는 얼마나 많은 질환 신호가 BCR 및 TCR 서열로부터 추출되었는지를 분명히 보여준다(도 16). 본 테스트의 추가 버전으로서, 질환 분류 메타모델도 또한 앙상블 특징 행렬(feature matrix)로부터 회귀된 연령, 성별 및 혈통 효과로 재훈련되었다. 이러한 수정 후, 이용 가능한 전체 인구 통계 정보에 의한 개체에 대한 분류 성능은 0.99 AUC에서 0.96 AUC로 약간 하락하였다(도 16). 인구 통계학적 공변량으로부터 서열 특징을 역상관시킨 후의 성능의 약간 감소는 연령, 성별 및 혈통 효과가 질환 분류에 기껏해야 미미한 영향을 미침을 시사한다.
언어 모델은 면역학적 지식을 요약한다.
기계 학습 프레임워크는 단순히 블랙박스 분류자를 제공하는 것이 아니라 면역학적 병태의 생물학적으로 해석 가능한 특징을 식별하도록 디자인되었다. 정확한 기계 학습 분류와 알려진 생물학 사이의 유대 관계를 평가하기 위해, 각각의 질환의 예측에 가장 많이 기여한 서열이 조사되었다. 예를 들어, 코로나바이러스 감염증-19 환자의 모든 서열은 언어 모델 임베딩에 기초한 분류자를 사용하여 SARS-CoV-2 면역 반응과의 관계의 예측 확률에 의해 순위화되었다. 다양한 질환을 구별하는 데 있어서, 코로나바이러스 감염증-19 예측에 대해 높게 우선순위화된 서열은 강력한 SARS-CoV-2 결합을 갖는 독립적으로 단리된 항체에서 보이는 IGHV 유전자 분절을 포함하였다. IGHV3-9 및 IGHV2-70은 스파이크 단백질 수용체 결합 도메인 결합에 연루되어 있으며 높게 순위화되었다(도 17). N-말단 도메인 지시된 항체에서 발견된 IGHV1-24도 마찬가지이었다. 유사하게, SLE 예측을 위한 모델의 IGHV4-34, IGHV4-39 및 IGHV4-59의 우선순위화(도 18)는 이러한 유전자 분절이 SLE 환자에서 보다 높은 빈도로 발현된다는 종래 보고와 일치한다.
유사한 패턴은 HIV 순위에 대해 관찰되었다. 이전에 HIV 특이적 B 세포 반응에서 기재된 IGHV 유전자인 IGHV4-34(광범위 중화 항체를 생산하는 개체에서 비정상적으로 높은 체세포 과돌연변이 빈도를 가짐)는 모델에 의해 높게 순위화되었다(도 19). IGHV4-38-2는 또한 HIV 예측에 대해 높게 순위화되며, HIV 특이적 B 세포에서 널리 퍼져 있었다. 그러나, IGHV4-38-2 유전자 사용량은 종래 문헌과 유사하게, 생성된 데이터(도 20a) 내의 아프리카 집단에서 훨씬 더 일반적이다. 본 발명자들의 HIV 코호트가 주로 아프리카 혈통을 갖기 때문에, 본 모델은 특히 IGHV4-38-2 유전자를 우선순위화하였을 수 있다. 모델에 의해 표시된 다른 IGHV 유전자는 혈통에 의해 계층화되지 않는다(도 20a). TCR 결합을 제한하는 HLA 대립유전자 유전 패턴으로부터 예상된 바와 같이, 일부 TRBV 유전자도 또한 혈통에 의해 계층화되었다(도 20b). 아프리카의 건강한 대조군에서 풍부한 모든 유전자 분절인 TRBV10-2, TRBV24-1 및 TRBV25-1은 본 발명자들의 아프리카 HIV 코호트를 주로 분류하기 위한 상위 3개의 높게 순위화된 TRBV 유전자 그룹이었다(도 21b).
서열 모델의 순위는 또한 선택에 의해 영향을 받는 면역글로불린 및 TCR 유전자 재배열의 주요 특징 중 하나인 특정 CDR3 길이를 선호하였다. 이는 원시 CDR3 서열 또는 이의 길이의 모델에 대한 직접적 입력이 없기 때문에 주목할 만하며; 모델에 대한 입력으로서 제공되는 모든 UniRep 임베딩 벡터는 원래 서열 길이에 관계없이 동일한 크기를 갖는다. 보다 짧은 IgH CDR3 길이는 만성 질환 SLE 및 HIV에 대한 모델에 의해 선호되었는 데(도 18 및 19), 이는 HIV에서 보다 짧은 CDR3 분절을 갖는 B 세포 수용체에 대한 선택과 일치한다. 다른 한편으로, 보다 긴 CDR3 길이를 갖는 IgH 서열은 코로나바이러스 감염증-19 클래스 예측을 위한 서열 모델에서 선호되었다(도 17). 이러한 우선순위화된 서열은 기억 B 세포에서 보다 짧은 CDR3 길이를 선호하는 선택을 아직 거치지 않은 나이브 B 세포로부터 최근 유래된 B 세포 클론을 반영할 수 있었다. TCR 순위는 보다 긴 CDR3 서열이 선호되는 SLE를 제외하고 동일한 패턴을 따른다(도 21a 내지 21c).
B 세포 이소타입 사용량은 사람에 따라 그리고 질환 코호트 간에 다양하였다(도 22). 이소타입 샘플링 인공 산물이 질환 예측을 주도하는 것을 방지하기 위해, 서열 모델은 모든 이소타입에 균형 잡힌 가중치를 적용하도록 디자인되었다. 결과적으로, 모든 이소타입은 각각의 질환의 예측을 위한 모델 우선순위화된 서열에 포함되었다(도 23). 코로나바이러스 감염증-19 예측의 경우, IgG 서열은 이러한 감염성 질환에서 예상될 수 있는 바와 같이 다른 이소타입보다 약간 더 큰 역할을 하였다. 앙상블에 사용된 다른 모델도 또한 이소타입 샘플링 양에 의해 영향을 받지 않도록 디자인되었다. 레퍼토리 조성 모델은 각각의 이소타입 그룹을 별개로 정량화하며, 수렴되는 클러스터링 접근법은 이소타입 정보를 인식하지 못한다. 환자 코호트 사이의 이소타입 비율의 차이가 질환을 예측하기에 충분하지 않은지를 확인하기 위해, 별개의 모델은 샘플의 이소타입 균형 단독(서열 정보는 제공되지 않음)으로부터 질환을 예측하도록 훈련되었다. 이소타입 비율 모델은 1차 모델 앙상블의 0.99 AUC 질환 분류 성능보다 훨씬 더 낮은 0.70 AUC만을 달성하였다. 따라서, 분류 접근법은 이소타입 비율과 같은 데이터 인공 산물에 강력하다.
언어 모델은 SARS-CoV-2 바인더를 식별한다.
코로나바이러스 감염증-19 환자의 말초 혈액 B 및 T 세포 수용체 서열 중 소수만이 SARS-CoV-2에 대한 항원 특이적 면역 반응과 직접적으로 관련되어 있다. 다른 나이브 세포와 기억 세포는 급성 질환 동안에도 계속 순환한다. 0.99 AUC 성능은 앙상블 모델이 이러한 "건초 더미 중의 바늘" 문제를 해결함을 시사한다. 언어 모델 분류자에 의해 선택된 서열은 얼마나 중요한 서열이 우선순위화되는지를 평가하기 위해 검사되었다.
코로나바이러스 감염증-19 환자 서열은 SARS-CoV-2 수용체 결합 도메인(receptor binding domain: RBD)에 결합하는 B 세포의 직접 분리 후 BCR 서열 분석과 같은 직교 실험 방법에 의해 수집된 SARS-CoV-2 특이적 항체 및 T 세포의 데이터베이스 내의 최근접 이웃과 일치할 수 있다. 제한된 수의 환자에 대한 전역 레퍼토리 스캔과 달리, 외부 데이터베이스는 보다 큰 공급원 코호트를 포함하는 데, 이는 이들이 이러한 데이터 세트보다 더 많은 코로나바이러스 감염증-19 반응 유형을 포함할 수 있음을 의미한다. BCR 데이터베이스는 또한 스파이크 항원 특이적 B 세포를 단리함으로써 식별된 잠재적인 치료학적 항체 쪽으로 편향되어 있다. 이러한 차이에도 불구하고, 코로나바이러스 감염증-19 코호트의 서열은 모든 주요 에피토프와 IGHV 유전자를 포괄하는 CoV-AbDab 데이터베이스 내의 알려진 결합 항체 중 9% 이상과 높은 서열 동일성 일치를 나타냈다(도 24). 데이터 세트 내의 일치하는 BCR 서열 중 63%는 IgG 서열이었고, IgD/M(20%) 및 IgA(7%)가 그 뒤를 이었고, 마지막 10%는 여러 이소타입에서 보였다. 이러한 IgG 우세 패턴은 IgG로 스위칭된 클래스의 서열이 항원에 의해 어떻게 자극되었는지를 반영하며, 상기에서 검사된 이소타입 관계와 일치한다. 음성 대조군으로서, 이러한 과정은 건강한 대상체의 서열로 반복되었다. 건강한 공여체 유래 서열은 전체 CoV-AbDab 클러스터 중 5.4%와 일치하였는 데, 이는 CoV-AbDab 일치의 예상 감소를 나타낸다. 일치하는 건강한 대조군 서열 중 93% 이상은 SARS-CoV-2가 신체에 도입될 때 반응을 시작할 수 있는 나이브 B 세포를 나타낼 가능성이 가장 높은 IgD/M 이소타입에서 나왔다. 일치는 다음과 같이 드물었다: 특유의 건강한 대상체 서열 중 0.01%와 함께, 데이터 세트의 특유의 코로나바이러스 감염증-19 환자 서열 중 0.14%는 임의의 CoV-AbDab 클러스터와 일치하였다. 이러한 10배 차이는 코로나바이러스 감염증-19 환자의 IgG 집단의 항원성 자극이 체세포 과돌연변이를 통해 클론 확장 및 다양화를 초래하기 때문에 예상된다.
모델의 최상위 서열의 생물학적 관련성을 뒷받침하기 위해, 다수는 SARS-CoV-2 상보성에 대해 독립적으로 검증되었다. 이러한 알려진 바인더 데이터베이스와 중첩되는 코로나바이러스 감염증-19 환자 유래 서열은 예측 모델에 의해 훨씬 더 높은 순위를 할당받았다(도 25). 모델이 알려진 바인더 BCR을 얼마나 잘 발견하였는지로서 모델 순위로 관찰될 때, 0.775의 AUC가 달성되었으며, 순위화된 BCR 서열의 상위 절반에서 87%의 일치가 발생하였다. 이러한 결합 관계는 훈련 시간에 분류자에게 알려지지 않았으며, CoV-AbDab 서열은 모델을 훈련시키는 데 사용되지 않았다. 자동으로 우선순위화된 서열과 실험적으로 검증된 별개의 코호트의 질환 특이적 서열 사이의 일치는 언어 모델 분류자가 코로나바이러스 감염증-19 범유행병에 대응하여 특별한 국제 연구 노력 동안 획득된 생물학적 지식을 요약하는 의미 있는 규칙을 학습하였음을 시사한다.
이러한 알려진 바인더 발견 결과는 수렴되는 질환 특이적 BCR 또는 TCR 패턴을 발견하기 위한 일반적인 접근법을 나타내는 대체 전략과 비교되었다. 알려진 바인더는 CDR3 클러스터링 모델에 의해 식별되는 코로나바이러스 감염증-19 BCR 클러스터에 속하는 임의의 코로나바이러스 감염증-19 환자 서열 중에서 검색되었다. 전체적으로, 이러한 서열은 BCR 알려진 바인더 중 단지 0.65%와 일치하였는 데, 이는 환자 코호트에서 발견될 수 있었던 알려진 바인더의 총 세트 중 일부이다. 이러한 결과는 질환 분류에 대한 언어 모델 접근법이 현장에서 주류 방법보다 훨씬 더 많은 항원 특이적 서열을 발견하는 데 적용될 수 있음을 입증한다.
질환 상태 사이의 레퍼토리 진행
모델로부터 추가적인 질환 특이적 통찰력을 평가하기 위해, 신규한 면역 레퍼토리 시각화가 질환 상태를 한눈에 전달하기 위해 개발되었다. 훈련 세트로부터, 참조 2차원 UMAP 레이아웃(layout)은 언어 모델 분류자가 면역 상태에 의해 특유의 그룹으로 신뢰할 만하게 분리되도록 학습된 수용체를 사용하여 생성되었다. 이러한 지도 UMAP는 서열에 할당된 질환 라벨에 따라 조건화되므로, 2차원으로의 감소로 인해 생성된 임의의 시각적 왜곡은 질환 클래스에 대한 편향 가능성이 적다.
훈련 세트로부터 홀드아웃된 서열은 참조 UMAP 시각화에 중첩되었다. 예를 들어, 단클론 항체는 언어 모델의 해석을 사용하여 평가될 수 있다. SARS-CoV-2에 대한 치료학적 단클론 항체는 언어 모델의 표현에 속하는 위치를 기반으로 시각화될 수 있다.
동일한 시각화 기술을 사용하면, 홀드아웃 테스트 세트 환자의 반복 샘플은 참조 맵에 투영될 수 있는 데, 이는 시간 경과에 따라 면역 레퍼토리 조성 모니터링을 가능하게 한다. 환자 레퍼토리는 질환 예측을 위한 다수의 높은 신뢰도 및 낮은 신뢰도 서열을 포함한다. 모델에 의한 낮은 확률 예측 서열은 질환 특이적일 가능성이 있는 BCR에 대한 시각화에 집중하기 위해 제외될 수 있다. 한 예로서, 코로나바이러스 감염증-19 환자의 감염 및 면역 반응이 진행됨에 따라, 시각화는 증상의 발병 직후 건강/배경 영역으로부터 나중에 코로나바이러스 감염증-19 영역으로 이동하는 면역 수용체 집합을 나타낼 수 있다.
데이터를 지원하는 방법
B 및 T 세포 레퍼토리 서열 분석
면역 수용체는 168명의 건강한 대조군과 함께 69명의 코로나바이러스 감염증-19, 95명의 만성 HIV-1 및 66명의 전신 홍반성 루푸스(SLE) 환자로부터의 조립된 레퍼토리이었다. 경증 코로나바이러스 감염증-19 사례와 혈청 전환 전 샘플은 제외되었다. 이러한 필터는 모델 훈련 데이터를 최고 질환 샘플로 제한하여 질환 특이적 소수의 수용체 서열에 대한 패턴을 학습할 가능성을 개선시켰다. 그러나, 필터링부터 사소하게 분리 가능한 면역 상태까지 인위적으로 단순한 분류 문제를 생성하지 않는 것이 바람직하였다. 이를 위해, HIV 코호트는 HIV에 대한 광범위 중화 항체를 생성하였는지 여부에 관계없이 환자를 포함하였다. 분석이 광범위 중화 항체를 생성하는 HIV 감염 개체로 제한된 경우, 보다 용이하게 분리 가능한 HIV 클래스가 이러한 항체의 특이한 특성으로 인해 생성되었을 수 있다.
이러한 다양한 면역 상태 전반에 걸쳐, 수백만 개의 B 및 T 세포 수용체가 샘플링되고, 면역글로불린 및 T 세포 수용체 유전자 프라이머로 PCR 증폭되고, 서열 분석되었다. 간단히 말하면, T 세포 수용체 베타 쇄 및 각각의 면역글로불린 중쇄 이소타입이 무작위 6량체 프라임된 cDNA 주형을 사용하여 별개의 PCR 반응에서 증폭되었고, 쌍 말단 Illumina MiSeq 서열 분석이 수행되었다. 배치 효과의 가능성을 감소시키기 위해, 데이터 수집은 일관된 프로토콜을 따랐다. V, D 및 J 유전자 분절은 IgBLAST v1.3.0으로 주석이 달리고 생산적인 재배열만 유지되었다. 돌연변이된 뉴클레오타이드의 IgBLAST 식별을 사용하여, 임의의 특정 서열에서 돌연변이된 IGHV 유전자 분절의 비율이 계산되었으며; 이는 B 세포 수용체 중쇄의 체세포 과돌연변이 비율(SHM)이다. 데이터 세트는 8개 이상의 아미노산을 갖는 CDR-H3 및 CDR3β 분절로 제한되었으며; 그렇지 않으면, 하기 CDR3 클러스터링 방법은 짧지만 관련이 없는 서열을 그룹화할 수 있다.
그 다음, 거의 동일한 서열이 동일한 사람 내에서 클론으로 그룹화되었다. 각각의 개체의 경우, 모든 이소타입에 걸쳐 모든 샘플(상이한 시점의 샘플 포함)의 모든 뉴클레오타이드 서열을 그룹화하고, 단일 연결 클러스터링을 실행하여, 클러스터링된 서열이 일치하는 IGHV/TRBV 유전자, IGHJ/TRBJ 유전자 및 CDR-H3/CDR3β 길이, 및 문자열(string) 치환 거리에 따른 적어도 90%의 CDR-H3 적합한 CDR3β 서열 동일성을 갖도록 요구하였다. BCR 서열 중에서, 단지 클래스 스위칭된 IgG 또는 IgA 이소타입 서열과 클래스 스위칭되지 않았지만 여전히 항원 경험이 있는 IgD 또는 IgM 서열은 적어도 1% SHM로 유지되었다. IgD 및 IgM 이소타입을 체세포적으로 과돌연변이된 BCR로만 제한함으로써, 항원에 의해 자극되지 않았고 질환 분류와 관련이 없는 임의의 돌연변이되지 않은 세포는 무시되었다. 선택된 비-나이브 IgD 및 IgM 수용체 서열은 IgM/D 그룹에 결합되었다. 마지막으로, 데이터 세트는 중복 제거되었다. 환자의 샘플 각각의 경우, 이소타입 당 각각의 클론의 카피 하나가 유지되었으며, 가장 많은 수의 RNA 판독값을 갖는 서열을 선택하였다. 유사하게, 각각의 TCRβ 클론의 카피 하나가 유지되었다. 평균적으로, 임의의 2명의 환자는 0.0005%의 IgH 및 0.167%의 TRB 서열 중첩을 나타냈는 데, 이는 T 세포 수용체, 특히, B 세포 수용체 서열의 엄청난 다양성을 분명히 보여준다.
교차 검증
개체는 3개의 계층화된 교차 검증 폴드로 세분화되었으며, 각각은 훈련 세트와 테스트 세트로 분할되었다(도 26). 분할은 전체 파이프라인의 훈련 전반에 걸쳐 준수되었다. 계층화된 교차 검증은 각각의 폴드에서 전역 불균형 질환 클래스 분포를 보존하였다. 검증 세트는 언어 모델 미세 조정, 분류자 하이퍼파라미터 최적화 및 앙상블 메타모델 훈련과 같은 하기에 기재된 여러 작업에 사용하기 위해 각각의 훈련 세트로부터 획득되었다. 모든 폴드에서, 훈련, 검증 및 테스트 세트의 임의의 쌍 사이에 공유되는 서열 중 0.1% 미만이 관찰되었다. 임의의 단일 레퍼토리는 다수의 클론 관련 서열을 포함하지만 다른 사람의 면역 수용체와는 매우 다르기 때문에, 환자의 서열을 3개의 그룹으로 나누기보다는, 개체의 모든 서열은 훈련, 검증 또는 테스트 세트에만 배치되었다. 그렇지 않으면, 여기서 평가된 예측 전략은 완전히 새로운 환자에 대해 실제보다 더 나은 성능을 발휘하는 것처럼 보일 수 있다. 훈련 절차에서 누군가의 레퍼토리의 일부를 볼 수 있는 기회를 고려해 볼 때, 예측 전략은 홀드아웃 세트에서 동일한 사람의 다른 서열을 점수화하는 시간에서 보다 용이할 것이다. 이는 훈련 환자의 특성에 대한 모델의 과적합을 방지하였다.
평가 지표
모델은 균형 잡힌 클래스 가중치와 디폴트 하이퍼파라미터를 사용하여 라쏘 정규화 및 다항 손실을 갖춘 랜덤 포레스트, 서포트 벡터 기계 및 로지스틱 회귀의 사이킷-학습(scikit-learn) 구현으로 훈련되었다. 모든 테스트 세트의 예측 라벨은 전역 정확도 평가를 위해 연결되었다. 다른 한편으로, ROC AUC 및 auPRC를 비롯하여 예측된 클래스 확률을 입력으로서 사용하는 성능 지표는 각각의 폴드에 대해 별개로 계산되었는 데, 그 이유는 확률이 각각의 폴드에서 상이한 규모일 수 있고 전역 AUC 또는 auPRC 점수에 결합되어서는 안 되기 때문이다. 본 발명자들은 일대일 방식으로 계산된 멀티클래스 AUC 및 auPRC를 보고하는 데, 이는 각각의 클래스 쌍에 대해 계산된 이진 AUC/auPRC의 클래스 크기 가중 평균을 취하고, 각각의 클래스가 쌍에서 양성 클래스가 되도록 차례대로 허용한다. 모든 분석은 파이썬(python) v3.9.13, 넘파이(numpy) v1.22.0, 팬더스(pandas) v1.4.3, 사이파이(scipy) v1.8.1, 사이킷-학습 v1.1.1, jax v0.3.14, umap-학습 v0.5.3, matplotlib v3.5.2 및 및 seaborn v0.11.2로 수행되고 플롯되었다.
전체 레퍼토리 조성 특징을 사용하는 질환 분류자
각각의 샘플의 경우, IgG, IgA, IgM/D 및 TRB 요약 특징 벡터는 IGHV/TRBV 유전자와 IGHJ/TRBJ 유전자 사용량을 집계하고 각각의 클론을 1회 계산함으로써 생성되었다. 샘플 전반에 걸쳐 상이한 총 클론 수를 설명하기 위해, 총 수는 샘플 당 하나로 합계되도록 정규화되었다. 그 다음, 로그 변환 및 Z 점수화(즉, 평균을 공제하고 표준 편차로 나누어 제로 평균과 단위 분산을 획득함)는 얼마나 많은 수가 VJ 유전자 쌍에 걸쳐 분포되는지를 나타내는 지수에 대해 수행되었다. 마지막으로, PCA가 빈도 행렬(count matrix)을 15차원으로 감소시키기 위해 수행되었다. 모든 변환은 각각의 훈련 세트에 대해 계산되고 대응하는 테스트 세트에 적용되었다. 또한, 각각의 이소타입에 속하는 BCR 서열의 각각의 샘플 서브세트의 경우, 중앙 서열 체세포 과돌연변이 비율과 체세포 과돌연변이된 서열의 비율(적어도 1%의 SHM 포함)이 계산되었다. BCR만이 체세포 과돌연변이를 나타내므로, TCR의 돌연변이 비율 특징은 포함되지 않았다. 전체적으로, IgH 모델은 IgG, IgA 및 IgM/D에 걸쳐 51개의 특징(15개 수의 PC 및 이소타입 당 2개의 돌연변이 비율 특징)에 도달하였으며, TRB 모델은 15개의 특징에 도달하였다.
L1 정규화를 갖춘 별개의 라쏘 로지스틱 회귀 선형 모델은 질환을 예측하기 위해 각각의 샘플의 51차원(17 x 3 이소타입) BCR 및 15차원 TCR 특징 벡터에 대해 적합되었다. 특징은 제로 평균 및 단위 분산으로 표준화되었다. 이러한 특징 추출(feature engineering) 및 모델 훈련 절차가 각각의 교차 검증 폴드에서 별개로 반복된 다음, 모든 테스트 폴드의 결과가 결합되었다.
편집 거리로 CDR-H3 서열을 클러스터링하여 생성된 질환 분류자
단일 연결 클러스터링은 동일한 TRBV 유전자, TRBJ 유전자 및 CDR3β 길이를 갖는 T 세포의 CDR3β 서열에 대해 수행되고, 동일한 IGHV 유전자, IGHJ 유전자 및 CDR-H3 길이를 갖는 B 세포의 CDR-H3 서열에 대해 별개로 수행되었다. 문자열 치환 거리로 측정될 때, 모든 교차 클러스터 쌍이 높은 서열 동일성을 갖는 경우, 최근접 이웃 클러스터는 반복적으로 병합되었다.
BCR 및 TCR 질환 특이적 클러스터로 필터링한다: 3명 이상의 개체의 서열을 갖는 클러스터는 이러한 개체 중 적어도 80%가 일부 질환에 대해 양성인 한 유지되었다. 각각의 나머지 예측 클러스터의 경우, 단일 공통 서열인 클러스터 중심이 생성되었다. 각각의 클러스터 구성원은 가장 풍부한 서열만이 샘플링된 클론이라는 점을 상기한다. 각각의 클러스터 구성원이 공통 중심 서열에 동일하게 기여하기 보다는, 각각의 위치의 기여는 클론 크기, 즉, 원래 각각의 클론의 일부인 특유의 BCR 또는 TCR 서열의 수에 따라 가중치를 부여받았다.
각각의 샘플에 대한 BCR 및 TCR 특징 벡터를 계산한다: 그 다음, 샘플의 서열은 이러한 예측 클러스터 중심과 일치되었다. 할당되기 위해서, 서열은 후보 클러스터와 동일한 IGHV/TRBV 유전자, IGHJ/TRBJ 유전자 및 CDR-H3/CDR3β 길이를 가져야 하며, 클러스터의 중심을 나타내는 공통 서열과 적어도 85%(BCR) 또는 90%(TCR)의 서열 동일성을 가져야 한다. 서열을 클러스터에 할당한 후, 클러스터 멤버십은 각각의 샘플의 모든 서열에 걸쳐 계산되었다. 이러한 클러스터 멤버십은 훈련 세트 샘플에 대해 발견된 다음, 각각의 샘플에 대한 특징 벡터를 계산하였다. 특정 질환에 대한 샘플 점수는 샘플의 일부 서열이 일치하는 질환 예측 클러스터의 수로서 정의되었다. 이러한 특징화는 수렴되는 T 세포 수용체 또는 면역글로불린 서열(유전자좌로 구분되지만, BCR 이소타입에 대해 고려되지 않음)의 존재 또는 부재를 포착한다.
각각의 유전자좌에 대한 모델을 적합화하고 평가한다: 특징은 표준화된 다음, L1 정규화 및 균형 잡힌 클래스 가중치(입력 클래스 빈도에 반비례함)를 갖춘 별개의 BCR 및 TCR 선형 로지스틱 회귀 모델을 적합화하는 데 사용되었다. 특징화 및 모델은 각각의 훈련 세트에 대해 적합화되고, 대응하는 테스트 세트에 적용되었다.
샘플이 예측 클러스터에 속하는 서열을 갖지 않은 경우, 예측은 이루어지지 않았다. 이러한 기권은 정확도 점수를 손상시키지만, 예측된 클래스 확률이 기권 샘플에 대해 이용 가능하지 않기 때문에 AUC 계산에 포함되지 않았다. 샘플 중 1.5% 미만이 기권을 초래하였다.
면역 서열에 대한 언어 모델 표현
각각의 수용체 서열의 CDR-H1/CDR1β, CDR-H2/CDR2β 및 CDR-H3/CDR3β 분절이 결합된 다음, 연결된 아미노산 문자열이 jax-unirep v2.1.0 구현을 사용하여 UniRep 신경 네트워크에 임베딩되었다. 최종 1900차원 벡터 표현은 원래 단백질의 길이 차원에 대한 UniRep의 숨겨진 상태를 평균함으로써 계산되었다.
서열을 임베딩시키기 위해, 각각의 교차 검증 폴드의 훈련 세트의 서브세트에 대해 미세 조정된 가중치가 사용되었는 데, 이는 총 6개의 미세 조정된 모델(폴드 및 유전자좌 당 하나)을 산출하였다. 홀드아웃 BCR 또는 TCR 검증 세트의 서브세트에 대해 교차 엔트로피 손실을 최소화하는 가중치가 선택되었다. 예를 들어, UniRep은 폴드 1의 BCR 검증 세트에 대한 최소 교차 엔트로피 손실에 도달할 때까지 폴드 1의 BCR 훈련 세트에 대해 미세 조정되었다.
미세 조정 절차는 비지도되었다. 원시 CDR1+2+3 서열 이외에, 질환 또는 기타 클래스 라벨은 미세 조정 동안 제공되지 않았다. 결과적으로, 미세 조정된 언어 모델은 B 또는 T 세포 수용체 패턴에 특화되지만, 질환 분류 문제에 과다 특화되지 않는다. 이들은 다른 면역 서열 예측 작업에 적용될 수 있다. 미세 조정 과정 동안, B 또는 T 세포 검증 세트에 대한 교차 엔트로피 손실은 예상된 바와 같이 하락하며, 중요하게도, 교차 엔트로피 손실은 UniRep의 원래 Uniref50 데이터 세트에 대해 증가하지 않는다. 이러한 결과는 미세 조정이 UniRep의 자체 훈련 데이터에 대한 파국적 망각을 유발하지 않음을 확인시켜 주는 데, 이는 최종 언어 모델이 B 또는 T 세포 수용체 특이적 정보에 추가하여 일반 단백질 패턴에 대한 지식을 보유함을 의미한다.
언어 모델 임베딩을 사용하는 질환 분류자
서열의 언어 모델 임베딩으로 질환을 분류하기 위한 분석 파이프라인은 복잡하지만, 개별 서열 데이터를 종합하여 환자 수준 예측을 생성하기 때문에 반드시 복잡하다.
서열 수준 질환 분류자: 첫째로, 라쏘 분류 모델은 서열을 질환 라벨에 매핑하도록 훈련되었다(폴드 당 및 유전자좌 당 하나의 모델). 입력 데이터로서, 각각의 BCR 서열의 IGHV 유전자 및 이소타입, 또는 각각의 TCR 서열의 TRBV 유전자를 나타내는 범주형 가변수와 함께, 미세 조정된 UniRep 임베딩(제로 평균 및 단위 분산으로 표준화됨)이 사용되었다.
환자 수준 예측으로 종합하기 전의 개별 서열에 대한 예측의 수행은 해석 이점을 갖지만, 2단계 접근법은 새로운 과제를 발생시킨다. 이용 가능한 실제 데이터는 서열이 아닌 환자를 질환 상태와 연관시킨다. 이들 서열 중 어느 서열이 실제로 질환과 관련되어 있는지는 알려져 있지 않다. 개별 서열 수준 모델을 훈련시키기 위해, 환자 전역 면역 상태로부터 유래된 잡음 서열 라벨이 제공되었다. 그러나, 이러한 전달은 심한 잡음 라벨을 생성한다: 데이터 세트의 질환 최고 시점에서도, 질환 특이적 면역 수용체 패턴은 환자의 방대한 면역 수용체 레퍼토리 중 작은 서브세트에 불과하다. 신뢰할 수 없는 서열 라벨이 고려되고, 올바른 서열 서브세트가 환자 수준 결정을 내리기 위해 선택된다.
환자 라벨을 서열 수준 예측 작업으로 전달하여 생성된 잡음 훈련 라벨을 견딜 수 있도록 갖추어진 고도로 정규화된 통계 모델이 사용되었다. 라쏘의 L1 페널티는 약 2000개의 입력 특징 사이에 희소성을 권장하였다. 이소타입 사용은 사람마다 다르기 때문에, 서열 수준 BCR 모델은 이러한 불균형을 설명하기 위해 이소타입 가중치로 훈련되었다.
샘플 예측에 대한 서열 예측을 종합한다: 실제 서열 라벨이 없으므로, 분류 성능은 서열 수준 분류자에 대해 평가될 수 없다. 대신에, BCR 또는 TCR 서열 예측은 환자 샘플 수준 예측에 종합되었다. 샘플에 속하는 각각의 서열에 대한 예측된 질환 클래스 확률을 사용하여, 절사 평균이 서열 전반에 걸친 각각의 클래스에 대해 계산되었다. 즉, 외딴 점수(outlying score) 중 상위 및 하위 10%가 제거된 다음, 나머지의 평균이 계산되었는 데, 이는 샘플에서 이소타입의 전체 사용량에 반비례하여 서열에 가중치를 부여한다. (이런 방식으로, 소수의 이소타입 신호는 사라지지 않는다.) 그 다음, 질환 클래스 확률은 각각의 샘플에 대해 1로 합계되도록 다시 정규화되었다.
클래스 결정 임계값을 조정한다: 서열 예측을 종합하는 것에 기초하여 이러한 BCR 및 TCR 샘플 수준 분류자를 완성하기 위해, 클래스 결정 임계값이 홀드아웃 검증 세트에 대해 조정되었다. 특히, 클래스 불균형 하에서도 의미 있는 분류 성능 지표인 매튜(Matthews) 상관 계수를 최적화하기 위해 클래스 확률에 가중치를 다시 부여하였다. 클래스 가중치를 적용하기 전에, 각각의 샘플의 위닝 라벨이 최고 예측 확률을 갖는 클래스에 기초하여 선택되었다. 예를 들어, 클래스의 확률에 1/5까지 다시 가중치를 부여하는 경우, 모델은 해당 클래스 라벨을 선택하는 데 5배 더 신뢰할 만해야 한다. 중요하게도, 이러한 가중치는 각각의 샘플에 대한 최종 예측 라벨의 선택에만 적용되었다. 이러한 절차는 예측 라벨에 기초하여 혼동 행렬, 정확도 및 기타 지표에 영향을 주었지만, AUC는 변하지 않았다. 이러한 조정은 언어 모델 분류자 전략의 공정한 평가를 위해 필요한 것으로 판단되었는 데, 그 이유는 각각의 클래스 평균 서열 예측 종합 전략에 뒤이어 합계 1로의 재정규화가 반드시 보정된 확률을 생성하는 것은 아니기 때문이다. 조정된 결정 임계값 모델 버전은 BCR 및 TCR 언어 모델 구성 요소를 자체적으로 평가하는 데에만 사용되었다. 다른 한편으로, 원래의 클래스 확률은 앙상블 메타모델 특징 행렬에 도입되기 전에 다시 가중치를 부여받지 않았다.
분류자를 평가한다: 마지막으로, 서열 예측 종합 예측자는 테스트 세트에 대해 평가되었다. 각각의 테스트 샘플의 서열이 점수화된 다음, 상기와 같이 절사 평균과 결합되었다. 각각의 샘플에 대한 생성된 질환 클래스 확률은 상기에서 발견된 전역 클래스 가중치로 다시 가중치를 부여받아 최종 예측 샘플 라벨에 도달하였다. 실제 샘플의 질환 상태가 알려져 있으므로, 분류 성능은 서열 수준 예측 단계와 달리 평가될 수 있었다.
항상블 메타모델
각각의 폴드의 훈련 세트에 대해 레퍼토리 조성, CDR3 클러스터링, 및 언어 모델 임베딩 및 종합 모델을 훈련시킨 후, 분류자는 앙상블 전략과 결합되었다. 각각의 폴드의 경우, 훈련된 모든 기본 분류자가 검증 세트에 대해 실행되었고, 각각의 기본 모델로부터의 생성된 예측 클래스 확률 벡터가 연결되었다. CDR3 클러스터링 모델의 임의의 샘플 기권이 이어졌다(다른 모델은 기권하지 않음). 마지막으로, 새로운 라쏘 로지스틱 회귀 분류 모델은 결합된 예측 확률 벡터를 검증 세트 샘플 질환 라벨에 매핑하도록 훈련되었다. 모델은 "일대다(one-vs-rest)" 방식으로 훈련되었다. 이러한 메타모델은 홀드아웃 테스트 세트에 대해 평가되었다.
본 연구에서 다수의 데이터 세트를 통합한 결과, 질환 분류 성능은 배치 사이의 기술적 차이에 의해 주도되지 않음을 확인할 수 있었다. 상이한 빈도로 상이한 집단에 나타나는 질환으로 고통받는 환자로부터 동일한 방식, 동일한 중증도 및 시점에서 동일한 샘플을 수집하는 것이 어렵다는 점을 고려해 볼 때, 사람 코호트에 대한 임의의 연구에서 어느 정도의 배치 효과를 식별할 것으로 예상된다.
배치 차이는, 예를 들어, 코로나바이러스 감염증-19 환자, SLE 환자 및 건강한 공여체에 대해, 여러 배치에서 발견된 질환 유형의 BCR 및 TCR 레퍼토리의 언어 모델 임베딩을 사용하여 평가될 수 있다. 단일 세포 서열 분석 문헌의 kBET 배치 효과 지표가 적용될 수 있다. kBET는 다수의 배치의 세포가 각각의 세포의 이웃 사이의 배치 라벨 분포를 전역 분포와 비교함으로써 잘 혼합되어 있는지 여부를 측정한다. 유전자 발현 벡터에 의해 기술된 세포 대신에, 언어 모델 임베딩 특징에 의해 기술된 서열이 평가되었다. kBET는 모든 테스트 세트 폴드와 BCR 및 TCR 데이터 모두에서 모든 질환에 대해 측정되었다. 예를 들어, k-최근접 이웃 그래프(k = 50)는 테스트 폴드 1 중의 코로나바이러스 감염증-19 환자의 모든 BCR 서열로 작성되었다. 카이 제곱 테스가 각각의 서열의 50개 최근접 이웃 간의 배치 라벨 분포와 전체 그래프에서 각각의 배치에 속하는 서열의 총 수의 예상 분포 사이의 차이에 대해 수행되었다. p=0.05의 유의성 임계값에 의한 다중 가설 수정 후, 지역 이웃 배치 분포가 전역 배치 분포와 동일하다는 귀무 가설을 기각할 수 있는 서열의 수가 측정되었다. 이러한 결과를 유전자좌와 폴드에 걸쳐 질환에 따라 종합하면, 귀무 가설이 평균적으로 15.9%의 서열에 대해 기각되는 것으로 나타났는 데, 이는 데이터가 잘 혼합되어 있음을 시사한다(도 27). 평균 거부율은 코로나바이러스 감염증-19 BCR 서열에 대해 31.9%로 보다 높은 데, 이는 코호트 사이의 질환 중증도 차이에 의해 영향을 받을 수 있다. 배치 사이의 시점 차이는 코로나바이러스 감염증-19와 같은 급성 질환에 대한 kBET 지표에도 또한 영향을 미칠 수 있다. 초기 시점에서, 코로나바이러스 감염증-19 환자 레퍼토리는 보다 건강한 배경 서열을 포함할 수 있는 데, 이는 코로나바이러스 감염증-19 반응 서열의 클론 확장 후 배치를 비교하는 방법과 비교하여 상이한 배치 중첩 그래프를 생성한다. 전반적으로, 이러한 예시적인 데이터의 결과는 대부분의 서열이 최근접 이웃 사이에 잘 혼합된 배치 비율을 나타냄을 시사한다.
외부 코호트에 대한 검증
모델이 배치 효과와는 대조적으로 실제 생물학적 신호를 학습하였는지를 추가로 확인하기 위해, 다른 코호트의 보이지 않는 데이터로 일반화하는 모델의 능력이 테스트되었다. 이를 위해, 데이터 세트의 교차 검증 분할 중 하나에 대해 훈련된 모델을 사용하기 보다는, 모든 데이터(테스트 세트를 홀드아웃하지 않음)를 통합하는 새로운 전역 모델이 훈련되었다(도 26). 검증 세트는 교차 검증 체제에서와 마찬가지로 훈련 세트 대 검증 세트 크기의 동일한 비율로 앙상블 메타모델을 훈련할 목적으로 여전히 홀드아웃되었다. cDNA 서열 분석에 의한 다른 IgH 및 TRB 레퍼토리 연구의 데이터가 다운로드되고, 일관된 유전자 명명법을 보장하기 위해 IgBLAST를 통해 재처리된 다음, 전체 모델 아키텍처를 통해 처리되었다.
건강한 대상체 레퍼토리로부터의 인구 통계학적 정보 예측
상기 과정은 질환 대신에 연령, 성별 또는 혈통을 예측하기 위해 반복되었다. 입력 데이터는 임의의 질환 특이적 패턴을 학습하지 않도록 하기 위해 건강한 대조군으로 제한되었다. 이를 분류 문제로 삼기 위해, 연령은 십분위수로 또는 이진 "50세 미만" / "50세 이상" 변수로서 구분되었다. 특히, 단 1명의 건강한 대조군 개체는 80세 이상이었다. 그러므로, 데이터는 보다 극단적인 노년층의 레퍼토리 변화를 평가하지 않는다. 80세 이상의 건강한 개체는 분석에서 제외되었다.
3개의 작업 각각의 경우, 전체 BCR 및 TCR 모델과 메타모델 아키텍처가 모든 교차 검증 폴드에 대해 훈련되었다. 생식 세포 V, D 또는 J 유전자 분절 또는 HLA 유전자의 대립유전자 변이체 분류의 데이터는 모델 내로 명백하게 도입되지 않았지만, 이러한 데이터는 이러한 데이터 세트에서 혈통의 감지를 증가시킬 것으로 예상될 수 있다.
잠재적인 인구 통계학적 교란 변수의 예측력에 대한 평가
전체 질환 예측 모델 세트는 알려진 연령, 성별 및 혈통을 갖는 개체의 서브세트에 대해 재훈련되었다. (상기와 같이, 80세 이상의 임의의 개체는 제외되었다.) 또한, 앙상블 단계에 대한 입력으로서 사용된 특징 행렬의 이러한 인구 통계학적 변수는 회귀되었다. 선형 회귀는 특히 연령, 성별 및 혈통으로부터 열(column)의 값을 예측하기 위해 특징 행렬의 각각의 열에 대해 적합화되었다. 그 다음, 특징 행렬 열은 적합화된 모델의 잔차로 대체되었다. 이러한 절차는 연령, 성별 및 혈통 효과로부터 메타모델의 특징 행렬을 직교화하거나 역상관시킨다. 메타모델의 공변량은 단계적으로 회귀되었는 데, 그 이유는 서열 수준 모델이 아닌 샘플 수준 모델이고, 연령/성별/혈통 인구 통계학적 정보가 서열보다는 샘플과 관련이 있기 때문이다.
별개로, 모델은 또한 범주형 가변수로서 인코딩된 연령, 성별 또는 혈통 정보로부터 질환을 예측하도록 훈련되었다. 여기서, 서열 정보는 입력으로서 제공되지 않았다. 각각의 사례의 최고 성능 모델은 선형 SVM에서부터 엘라스틱 넷 정규화를 갖춘 선형 로지스틱 회귀 모델, 랜덤 포레스트 모델까지 다양하였다. 별개로, 모델은 또한 연령, 성별 및 혈통 정보와 함께 그리고 각각의 BCR 또는 TCR 서열 특징을 각각의 인구 통계학적 특징과 곱하는 상호 작용 항과 함께, 서열 특징으로부터 질환을 예측하도록 훈련되었다. 이러한 모델의 성능과 인구 통계 전용 모델의 비교는 서열 정보를 추가하는 부가 가치를 나타낸다.
질환 특이적 서열의 모델 순위
각각의 테스트 세트에서, 코로나바이러스 감염증-19 환자 유래 서열은 언어 모델 임베딩에 기초한 서열 수준 분류자로 점수화되었다. 예측된 코로나바이러스 감염증-19 클래스 확률은 폴드 전체에 걸친 모든 서열에 대해 결합되었다. 일부 서열이 여러 사람에서 나타났는 데, 이는 1개 초과의 테스트 폴드에 나타나므로 각각의 폴드의 모델로부터 상이한 예측 확률을 제공받는다. 이러한 서열은, 서열이 얼마나 질환 관련될 수 있는지를 포착하기 위해, 가장 높은 예측 질환 클래스 확률을 갖는 카피를 선택함으로써 중복 제거되었다. 그 다음, 서열은 자신의 예측 확률에 따라 순위화되고, 순위는 0에서 1(가장 높은 원래 확률)로 재조정되었다. 이러한 과정은 다른 질환에 대해 반복되었다.
이러한 순위화된 서열 목록을 사용하여, 순위와 CDR-H3/CDR3β 길이, 이소타입 및 IGHV/TRBV 유전자 분절과 같은 서열 특성 사이의 관계가 검사되었다. V 유전자 사용량 비교의 경우, 매우 낮은 유병률을 갖는 V 유전자가 제거되었다. 유병률 임계값을 설정하기 위해, 임의의 코호트의 각각의 V 유전자가 구성되는 가장 큰 비율이 발견되었으며, 이러한 비율의 중앙값이 활용되었다(도 28a 및 28b). 다음과 같은 희귀한 IGHV 및 TRBV 유전자가 필터링되었다(전체의 절반): IGHV1-45, IGHV1-58, IGHV1-68, IGHV1-f, IGHV1/OR15-1, IGHV1/OR15-2, IGHV1/OR15-3, IGHV1/OR15-4, IGHV2-10, IGHV2-26, IGHV2-70D, IGHV3-16, IGHV3-19, IGHV3-22, IGHV3-35, IGHV3-38, IGHV3-43D, IGHV3-47, IGHV3-52, IGHV3-64D, IGHV3-71, IGHV3-72, IGHV3-73, IGHV3-NL1, IGHV3-d, IGHV3-h, IGHV3/OR16-10, IGHV3/OR16-13, IGHV3/OR16-8, IGHV3/OR16-9, IGHV4-28, IGHV4-55, IGHV4/OR15-8, IGHV5-78, IGHV7-81, VH1-17P, VH1-67P, VH3-41P, VH3-60P, VH3-65P, VH7-27P; TRBV10-1, TRBV11-1, TRBV11-3, TRBV12-2, TRBV12-5, TRBV13, TRBV14, TRBV15, TRBV16, TRBV17, TRBV20/OR9-2, TRBV26, TRBV27, TRBV29/OR9-2, TRBV3-1, TRBV3-2, TRBV4-2, TRBV4-3, TRBV5-3, TRBV5-7, TRBV5-8, TRBV6-4, TRBV6-7, TRBV6-8, TRBV6-9, TRBV7-1, TRBV7-4, TRBV7-7. 이러한 필터 후에 잔존하는 대부분의 IGHV 유전자는 코호트 전체에 걸쳐 일관되고 균형 잡힌 유병률을 나타냈다(도 29a 및 29b).
알려진 SARS-CoV-2 바인더의 데이터베이스와의 중첩
CoV-AbDab의 2022년 7월 26일 버전이 다운로드되었는 데, 이는 SARS-CoV-2(약한 바인더 포함)에 결합하는 것으로 알려진 항체 서열로 필터링된다. 또한, 사람 환자 또는 사람 항체 라이브러리의 서열이 선택되었고, 데이터 세트에 전혀 존재하지 않은 임의의 IGHV 유전자가 제거되었는 데, 그 이유는 이러한 서열이 결코 일치하지 않기 때문이다. 동일한 IGHV 유전자, IGHJ 유전자 및 CDR-H3 길이와 적어도 95%의 서열 동일성을 갖는 CoV-AbDab의 나머지 SARS-CoV-2 바인더가 클러스터링되었다. 몇몇 관련 서열이 결합되고 공통 서열로 대체되었다.
그 다음, 데이터 세트와 CoV-AbDab 사이에 중첩되는 서열이 발견되었다. 첫째로, 상이한 이소타입으로부터 유래하지만 동일한 IGHV 유전자, IGHJ 유전자 및 CDR-H3 서열을 공유하는 데이터 세트의 서열의 경우, 최고의 예측 코로나바이러스 감염증-19 확률을 갖는 카피가 질환과 서열의 관계 강도를 평가하기 위해 유지되었다. 그 다음, 데이터 세트의 코로나바이러스 감염증-19 환자(임의의 이소타입)로부터 유래된 각각의 서열은 동일한 IGHV 유전자, IGHJ 유전자 및 CDR-H3 길이와 적어도 85%의 서열 동일성을 갖는 한 최근접 CoV-AbDab 클러스터 중심에 할당되었다. 모델 순위화된 순서로 서열을 반복하면, 누적 일치 수는 가장 높은 신뢰도 서열부터 시작하여 알려진 바인더 데이터베이스의 클러스터까지 계수되었다. AUC 점수는 또한 CoV-AbDab 데이터베이스와 일치하는 BCR 서열에 대한 모델 순위를 사용하여 계산되었다. 마지막으로, 서열이 무작위로 정렬된 경우, 예상 히트에 대한 관찰 수의 농축이 계산되었다. 서열 풀로부터 교체 없이 특정 수의 알려진 바인더를 샘플링하기 위한 추첨 수(number of draw)는 음의 초기하(hypergeometric) 분포를 따른다. n<N의 알려진 바인더를 포함하는 N의 총 서열을 사용하면, 새로운 알려진 바인더는 모든 서열 추첨으로 발견될 것으로 예상된다.
레퍼토리 시각화
각각의 수용체의 경우, 라쏘 서열 모델은 임베딩된 서열 벡터와 모델 계수의 내적(dot product)에 비례하는 예측 클래스 로짓을 제공한다. 환언하면, 이러한 선형 변환은 입력 특징에 대한 가중치로서 계수를 적용하는 데, 이는 서열별 클래스 행렬(sequences-by-classes matrix)을 생성한다. 2D 시각화를 생성하기 위해, UMAP는 각각의 서열에 대한 질환별 상태 로짓에서 실행되었다. 서열 라벨은 UMAP에 대한 지도로서 제공되므로, 레이아웃에서 왜곡될 가능성이 적다.
참조 UMAP는 각각의 질환 상태(또는 건강한 상태)와 관련될 가능성이 있는 훈련 세트 서열의 서브세트를 사용하여 각각의 폴드에 대해 생성되었다. 이러한 서열 서브세트는 다음 필터로 선택되었다:
첫째로, 특정 질환 분류에 대한 서열의 서브세트를 형성하기 위해, 해당 질환을 앓고 있는 환자로부터 유래된 서열만이 고려되었다. 그렇지 않으면, 서열은 해당 질환과 그럴듯하게 관련될 수 없다. 예를 들어, 코로나바이러스 감염증-19의 대표적인 서열이 HIV 환자로부터 나온다는 것은 말이 되지 않는다.
둘째로, 이러한 서열에 대한 라쏘 서열 모델의 예측은 질환 클래스와도 또한 일치해야 한다. 결국, 참조 레이아웃은 질환 특이적 서열로 작성되었으므로, 모델이 질환 클래스로 분류한 서열만을 포함해야 한다. 유사하게, 건강한 대상체로부터 유래하고 해당 클래스에 속할 것으로 예측되는 건강한 클래스의 서열만이 고려되었다.
셋째로, 예측이 아슬아슬하게 살아난 서열은 제외되었다. 이러한 경계선 서열은 특히 높은 라벨 잡음(앞서 기재됨) 때문에 참조 맵의 작성에서 회피되는 것이 바람직하였다. 그러므로, 잠재적인 서열은 임의의 다른 클래스에 대해 예측된 확률보다 적어도 0.2 더 큰 예측 질환 클래스 확률을 갖는 것들로 필터링되었다.
마지막으로, 각각의 질환에 대한 나머지 후보 서열은 해당 질환 상태에 속할 예측 확률에 따라 분류되고, 각각의 클래스에 대한 간결한 참조 서열 풀을 생성하기 위해 상위 20%로 유지되었다. 이러한 서열에 대한 클래스별 로짓만이 UMAP을 작성하기 위해 사용되었다.
일단 UMAP가 작성되면, 홀드아웃 서열이 레이아웃에 투영되었다. 첫째로, 치료학적 단클론 항체가 2D 맵에 중첩되었다. 이들의 서열은 Thera-SabDab을 통해 발견되었으며, IgBLAST로 주석이 달렸다. 지도 임베딩(클래스별 로짓)이 서열 수준 라쏘 모델을 사용하여 각각의 서열에 대해 계산되고, 훈련된 UMAP 변환에 적용되었는 데, 이는 각각의 항체에 대한 2D 좌표를 생성한다.
둘째로, 홀드아웃 테스트 환자의 서열이 UMAP에 대해 중첩되었으므로, 동일한 과정이 질환 특이적인 것으로 예측되는 환자 레퍼토리 서열의 서브세트에 적용되었다. 환자가 홀드아웃 테스트 세트에 있던 폴드에 속하는 모델과 UMAP 변환을 사용하였다. 환자의 레퍼토리는 예측 라벨이 앙상블 메타모델에 의한 전체 샘플 예측과 일치하는 서열, 또는 건강/배경인 것으로 예측되는 서열로 필터링되었다. 결과적으로, 시각화는 이러한 환자의 B 세포 레퍼토리 중 건강한 구성 요소와 질환 관련 구성 요소 둘 다를 포함하였다. 신뢰할 만한 모델 예측을 갖는 것들에 대한 서열이 추가로 필터링되었다: 다음 최고 클래스 확률보다 적어도 0.1 더 높은 상위 예측 클래스 확률을 갖는 서열이 선택되었다. 이러한 필터링 단계 후에 잔존하는 모든 서열을 예측된 클래스 확률에 의해 정렬하였다. 건강/배경에 걸친 정렬된 목록의 상위 20%와 전체 샘플 예측 라벨 클래스는 유지되었다.

Claims (54)

  1. B 세포 또는 T 세포 수용체 서열의 서열 분석 결과를 사용하여 질환 상태와 관련된 면역 반응의 예측을 위한 예측 분류자 또는 회귀자를 개발하는 방법으로서,
    상기 방법은 하기 단계를 포함하는 것인, 방법:
    수용체 서열의 제1 복수 서열 분석 결과를 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체, T 세포 수용체 또는 이들의 일부, 또는 B 세포 및 T 세포 수용체 모두이고, 상기 제1 복수 서열 분석 결과 각각은 제1 코호트의 건강한 개체의 생물학적 샘플로부터 유래되고, 상기 제1 코호트의 개체 각각은 알려진 감염 또는 면역학적 장애가 없는 시점에 추출된 자신의 생물학적 샘플을 갖는 것인, 단계;
    수용체 서열의 제2 복수 서열 분석 결과를 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체, T 세포 수용체 또는 이들의 일부, 또는 B 세포 및 T 세포 수용체 모두이고, 상기 제2 복수 서열 분석 결과 각각은 제2 코호트의 개체의 생물학적 샘플로부터 유래되고, 상기 제2 코호트의 개체 각각은 능동 면역 반응의 시간 동안 자신의 추출된 생물학적 샘플을 갖고, 상기 능동 면역 반응은 질환 상태와 관련되고, 상기 제2 코호트의 개체 각각은 동일한 질환 상태를 갖는 것인, 단계;
    언어 모델을 사용하여 상기 제1 복수 및 제2 복수 서열 분석 결과의 수용체 서열 각각의 잠재 임베딩(latent embedding)을 추출하는 단계;
    상기 언어 모델 및 상기 제1 복수 및 제2 복수 서열 분석 결과의 수용체 서열 각각의 추출된 잠재 임베딩을 사용하여, 상기 제1 코호트와 상이한 제2 코호트 내의 유사한 수용체 서열을 식별하는 단계; 및
    상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 잠재 임베딩을 상기 제2 코호트와 연관된 질환 상태에 연결시키는 단계.
  2. 제1항에 있어서,
    상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 연결된 잠재 임베딩을 활용하여 상기 제2 코호트와 연관된 질환 상태를 예측하도록 분류자 또는 회귀자를 훈련시키는 단계를 추가로 포함하는 것인, 방법.
  3. 제2항에 있어서,
    상기 분류자 또는 회귀자를 훈련시키기 전에, 상기 질환 상태에 더 잘 대응할 가능성이 있는 서열의 서브세트를 산출하기 위해 상기 유사한 수용체 서열을 필터링하는 단계를 추가로 포함하고;
    여기서, 상기 필터링 단계는,
    상기 제1 복수 및 제2 복수 서열 분석 결과 내의 수용체 서열의 잠재 임베딩으로부터 비지도 최근접 이웃 그래프(unsupervised nearest neighbors graph)를 작성하고; 그리고
    1개 이상의 수용체 서열이 상기 제1 복수 서열 분석 결과를 갖는 수용체 서열을 포함하는 그래프 이웃 내에 있을 때, 상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열로부터 상기 1개 이상의 수용체 서열을 제외하는 것을 포함하고,
    여기서, 상기 분류자 또는 회귀자는 상기 필터링 단계에 의해 제외되지 않은 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 연결된 잠재 임베딩을 활용하여 훈련되는 것인, 방법.
  4. 제2항에 있어서,
    상기 분류자 또는 회귀자를 훈련시키기 전에, 상기 질환 상태에 더 잘 대응할 가능성이 있는 서열의 서브세트를 산출하기 위해 상기 유사한 수용체 서열을 필터링하는 단계를 추가로 포함하고;
    여기서, 상기 필터링 단계는,
    상기 제2 복수 서열 분석 결과 내의 수용체 서열의 잠재 임베딩으로부터 비지도 최근접 이웃 그래프를 작성하고; 그리고
    1개 이상의 수용체 서열이 상기 제2 코호트의 소수의 개체로부터만 유래되는 수용체 서열을 포함하는 그래프 이웃 내에 있을 때, 상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열로부터 상기 1개 이상의 수용체 서열을 제외하는 것을 포함하고,
    여기서, 상기 분류자 또는 회귀자는 상기 필터링 단계에 의해 제외되지 않은 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 연결된 잠재 임베딩을 활용하여 훈련되는 것인, 방법.
  5. 제2항에 있어서,
    이의 예측된 질환 연관성에 기초하여 상기 제2 복수 서열 분석 결과로부터 유래된 1개 이상의 수용체 서열을 선택하는 단계; 및
    상기 선택된 수용체 서열을 포함하는 단백질성 종을 합성하는 단계를 추가로 포함하는 것인, 방법.
  6. 제5항에 있어서,
    상기 단백질성 종은 펩타이드, 단백질, 수용체 또는 의학적 생물제제 중 하나인, 방법.
  7. 제2항에 있어서,
    상기 분류자 또는 회귀자는 항원에 대한 공지된 상보성으로 라벨링된 1개 이상의 수용체 서열로 훈련되고, 여기서, 상기 항원은 상기 제2 코호트의 질환 상태와 연관되는 것인, 방법.
  8. 제2항에 있어서,
    상기 분류자 또는 회귀자는 서열 특성으로 라벨링된 1개 이상의 수용체 서열로 훈련되고, 여기서, 상기 서열 특성은 결합 특이성, 결합 친화성, pH 결합 민감성, 제조 가능성, 발달 가능성 또는 면역원성 중 하나인, 방법.
  9. 제8항에 있어서,
    이의 예측된 서열 특성에 기초하여 상기 제2 복수 서열 분석 결과로부터 유래된 1개 이상의 수용체 서열을 선택하는 단계; 및
    상기 선택된 수용체 서열을 포함하는 단백질성 종을 합성하는 단계를 추가로 포함하는 것인, 방법.
  10. 제9항에 있어서,
    상기 단백질성 종은 펩타이드, 단백질, 수용체 또는 의학적 생물제제 중 하나인, 방법.
  11. 제1항에 있어서,
    상기 언어 모델 및 상기 제2 코호트의 질환 상태와 연결된 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 잠재 임베딩을 활용하여 새로운(de novo) 수용체 서열을 생성하는 단계를 추가로 포함하는 것인, 방법.
  12. 제11항에 있어서,
    상기 생성된 새로운 수용체 서열은 상기 제2 코호트의 질환 상태와 연관된 항원과 상보적일 것으로 예측되고, 여기서, 항원 상보성은 클러스터링 방법, 분류 방법 또는 회귀 방법에 의해 예측되는 것인, 방법.
  13. 제11항 또는 제12항에 있어서,
    상기 생성된 새로운 수용체 서열을 포함하는 단백질성 종을 합성하는 단계를 추가로 포함하는 것인, 방법.
  14. 제13항에 있어서,
    상기 단백질성 종은 펩타이드, 단백질, 수용체 또는 의학적 생물제제 중 하나인, 방법.
  15. B 세포 수용체 서열 또는 T 세포 수용체 서열이 질환 상태와 연관되는지 여부를 예측하는 전산 방법으로서,
    수용체 서열을 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체 또는 T 세포 수용체인, 단계;
    언어 모델을 사용하여 상기 수용체 서열의 잠재 임베딩을 추출하는 단계; 및
    훈련된 분류자 또는 회귀자와 상기 수용체 서열의 잠재 임베딩을 활용하여 상기 수용체 서열과 연관된 질환 상태를 예측하는 단계를 포함하는, 전산 방법.
  16. 제15항에 있어서,
    상기 훈련된 분류자 또는 회귀자는 제1 질환 상태와 연관된 수용체 서열의 추출된 잠재 임베딩을 활용하여 훈련된 것인, 전산 방법.
  17. 제16항에 있어서,
    상기 제1 질환 상태와 연관된 수용체 서열 각각은 수용체 서열의 복수 서열 분석 결과 내의 수용체 서열의 유사한 추출된 잠재 임베딩을 식별하는 것에 기초하여 해당 질환 상태와 연관되었고, 상기 복수 서열 분석 결과의 서열 분석 결과 각각은 상기 제1 질환 상태를 갖는 개체의 코호트 내의 개체로부터 유래되는 것인, 전산 방법.
  18. 제17항에 있어서,
    상기 수용체 서열의 유사한 추출된 잠재 임베딩은 클러스터링 방법, 분류 방법 또는 회귀 방법을 통해 식별되는 것인, 전산 방법.
  19. 제17항에 있어서,
    상기 수용체 서열의 유사한 추출된 잠재 임베딩은,
    복수 서열 분석 결과로부터 유래된 수용체 서열의 잠재 임베딩으로부터 비지도 최근접 이웃 그래프를 작성하고, 여기서, 서열 분석 결과 각각은 개체로부터 유래되고, 상기 복수 서열 분석 결과는 적어도 2개의 코호트의 개체로부터의 결과를 포함하고, 상기 적어도 2개의 코호트의 코호트 각각은 상기 제1 질환 상태를 갖는 제1 코호트 및 제2 질환 상태를 갖는 제2 코호트를 포함하고; 그리고
    1개 이상의 수용체 서열이 상기 제2 질환 상태와 연관된 수용체 서열을 포함하는 그래프 이웃 내에 있을 때, 상기 제1 질환 상태와 연관된 1개 이상의 수용체 서열을 제외함으로써, 필터링되는 것인, 전산 방법.
  20. 제17항에 있어서,
    상기 수용체 서열의 유사한 추출된 잠재 임베딩은,
    복수 서열 분석 결과로부터 유래된 수용체 서열의 잠재 임베딩으로부터 비지도 최근접 이웃 그래프를 작성하고, 여기서, 서열 분석 결과 각각은 개체로부터 유래되고, 상기 복수 서열 분석 결과는 제1 코호트의 개체로부터의 결과를 포함하고, 상기 제1 코호트는 상기 제1 질환 상태와 연관되고; 그리고
    1개 이상의 수용체 서열이 상기 제1 코호트의 소수의 개체로부터만 유래되는 수용체 서열을 포함하는 그래프 이웃 내에 있을 때, 상기 제1 질환 상태와 연관된 1개 이상의 수용체 서열을 제외함으로써, 필터링되는 것인, 전산 방법.
  21. 제15항에 있어서,
    상기 훈련된 분류자 또는 회귀자는 수용체 서열의 추출된 잠재 임베딩의 복수 세트를 활용하여 훈련되었고, 여기서, 수용체 서열의 추출된 잠재 임베딩 세트 각각은 특유의 질환 상태와 연관되는 것인, 전산 방법.
  22. 제21항에 있어서,
    상기 수용체 서열의 추출된 잠재 임베딩의 복수 세트는 적어도 3개의 세트를 포함하는 것인, 전산 방법.
  23. 제21항에 있어서,
    상기 수용체 서열의 추출된 잠재 임베딩의 복수 세트는 적어도 5개의 세트를 포함하는 것인, 전산 방법.
  24. 제15항에 있어서,
    상기 질환 상태는 능동 면역 반응 또는 이전 면역 반응인, 전산 방법.
  25. 제24항에 있어서,
    상기 능동 면역 반응은 병원체의 활성 감염, 자가 면역 장애, 알러지 반응, 장기 또는 세포 이식과 관련된 면역 반응, 공생 미생물에 대한 면역 반응, 치료제 또는 기타 제제에 대한 면역 반응, 암을 표적화하는 면역 반응, 능동 자가 면역 반응, 최근 백신 접종, 이들의 복합 또는 이들의 조합인, 전산 방법.
  26. 제24항에 있어서,
    병원체의 이전 감염, 이전 백신 접종, 이들의 복합 또는 이들의 임의의 조합인, 전산 방법.
  27. 제15항에 있어서,
    상기 분류자 또는 회귀자는 상기 언어 모델 내에 통합되는 것인, 전산 방법.
  28. 제15항에 있어서,
    상기 언어 모델 및 분류자는 별개인, 전산 방법.
  29. 제15항에 있어서,
    상기 수용체 서열은 샘플로부터 유래되고, 상기 방법은 하기 단계를 추가로 포함하는, 전산 방법:
    상기 샘플로부터 유래된 복수의 수용체 서열을 획득하는 단계로서, 여기서, 각각의 수용체는 B 세포 수용체 또는 T 세포 수용체인 것인, 단계;
    상기 언어 모델을 사용하여 수용체 서열 각각의 잠재 임베딩을 추출하는 단계;
    훈련된 분류자 또는 회귀자와 상기 수용체 서열의 잠재 임베딩을 활용하여 각각의 수용체 서열과 연관된 질환 상태를 예측하는 단계; 및
    상기 복수 서열 예측을 종합하여 상기 샘플의 예측된 질환 상태를 산출하는 단계.
  30. 제29항에 있어서,
    상기 샘플은 개체의 생물학적 샘플이고, 상기 샘플의 예측된 질환 상태는 상기 개체의 예측된 질환 상태를 산출하는 것인, 전산 방법.
  31. B 세포 또는 T 세포 수용체 서열의 서열 분석 결과를 사용하여 이전 면역 반응 상태와 관련된 면역 반응의 예측을 위한 예측 분류자 또는 회귀자를 개발하는 방법으로서,
    상기 방법은 하기 단계를 포함하는 것인, 방법:
    수용체 서열의 제1 복수 서열 분석 결과를 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체, T 세포 수용체, 또는 B 세포 및 T 세포 수용체 모두이고, 상기 제1 복수 서열 분석 결과 각각은 제1 코호트의 개체의 생물학적 샘플로부터 유래되고, 상기 제1 코호트의 개체 각각은 이전 면역 반응을 갖지 않았던 것인, 단계;
    수용체 서열의 제2 복수 서열 분석 결과를 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체, T 세포 수용체, 또는 B 세포 및 T 세포 수용체 모두이고, 상기 제2 복수 서열 분석 결과 각각은 제2 코호트의 개체의 생물학적 샘플로부터 유래되고, 상기 제2 코호트의 개체 각각은 상기 이전 면역 반응을 가졌었던 것인, 단계;
    언어 모델을 사용하여 상기 제1 복수 및 제2 복수 서열 분석 결과의 수용체 서열 각각의 잠재 임베딩을 추출하는 단계;
    상기 언어 모델 및 상기 제1 복수 및 제2 복수 서열 분석 결과의 수용체 서열 각각의 추출된 잠재 임베딩을 사용하여, 상기 제1 코호트와 상이한 제2 코호트 내의 유사한 수용체 서열을 식별하는 단계; 및
    상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 잠재 임베딩을 상기 제2 코호트와 연관된 이전 면역 반응에 연결시키는 단계.
  32. 제31항에 있어서,
    상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 연결된 잠재 임베딩을 활용하여 상기 제2 코호트와 연관된 이전 면역 반응을 예측하도록 분류자 또는 회귀자를 훈련시키는 단계를 추가로 포함하는 것인, 방법.
  33. 제32항에 있어서,
    상기 분류자 또는 회귀자를 훈련시키기 전에, 상기 이전 면역 반응에 더 잘 대응할 가능성이 있는 서열의 서브세트를 산출하기 위해 상기 유사한 수용체 서열을 필터링하는 단계를 추가로 포함하고,
    여기서, 상기 필터링 단계는,
    상기 제1 복수 및 제2 복수 서열 분석 결과 내의 수용체 서열의 잠재 임베딩으로부터 비지도 최근접 이웃 그래프를 작성하고; 그리고
    1개 이상의 수용체 서열이 상기 제1 복수 서열 분석 결과를 갖는 수용체 서열을 포함하는 그래프 이웃 내에 있을 때, 상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열로부터 상기 1개 이상의 수용체 서열을 제외하는 것을 포함하고,
    여기서, 상기 분류자 또는 회귀자는 상기 필터링 단계에 의해 제외되지 않은 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 연결된 잠재 임베딩을 활용하여 훈련되는 것인, 방법.
  34. 제32항에 있어서,
    상기 분류자 또는 회귀자를 훈련시키기 전에, 상기 이전 면역 반응에 더 잘 대응할 가능성이 있는 서열의 서브세트를 산출하기 위해 상기 유사한 수용체 서열을 필터링하는 단계를 추가로 포함하고,
    여기서, 상기 필터링 단계는,
    상기 제2 복수 서열 분석 결과 내의 수용체 서열의 잠재 임베딩으로부터 비지도 최근접 이웃 그래프를 작성하고; 그리고
    1개 이상의 수용체 서열이 상기 제2 코호트의 소수의 개체로부터만 유래되는 수용체 서열을 포함하는 그래프 이웃 내에 있을 때, 상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열로부터 상기 1개 이상의 수용체 서열을 제외하는 것을 포함하고,
    여기서, 상기 분류자 또는 회귀자는 상기 필터링 단계에 의해 제외되지 않은 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 연결된 잠재 임베딩을 활용하여 훈련되는 것인, 방법.
  35. 청구항 32 에 있어서,
    이의 예측된 질환 연관성에 기초하여 상기 제2 복수 서열 분석 결과로부터 유래된 1개 이상의 수용체 서열을 선택하는 단계; 및
    상기 선택된 수용체 서열을 포함하는 단백질성 종을 합성하는 단계를 추가로 포함하는 것인, 방법.
  36. 제35항에 있어서,
    상기 단백질성 종은 펩타이드, 단백질, 수용체 또는 의학적 생물제제 중 하나인, 방법.
  37. 제32항에 있어서,
    상기 분류자 또는 회귀자는 항원에 대한 공지된 상보성으로 라벨링된 1개 이상의 수용체 서열로 훈련되고, 여기서, 상기 항원은 상기 제2 코호트의 질환 상태와 연관되는 것인, 방법.
  38. 제32항에 있어서,
    상기 분류자 또는 회귀자는 서열 특성으로 라벨링된 1개 이상의 수용체 서열로 훈련되고, 여기서, 상기 서열 특성은 결합 특이성, 결합 친화성, pH 결합 민감성, 제조 가능성, 발달 가능성 또는 면역원성 중 하나인, 방법.
  39. 제38항에 있어서,
    이의 예측된 서열 특성에 기초하여 상기 제2 복수 서열 분석 결과로부터 유래된 1개 이상의 수용체 서열을 선택하는 단계; 및
    상기 선택된 수용체 서열을 포함하는 단백질성 종을 합성하는 단계를 추가로 포함하는 것인, 방법.
  40. 제39항에 있어서,
    상기 단백질성 종은 펩타이드, 단백질, 수용체 또는 의학적 생물제제 중 하나인, 방법.
  41. 제31항에 있어서,
    상기 언어 모델 및 상기 제2 코호트의 이전 면역 반응과 연결된 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 잠재 임베딩을 활용하여 새로운 수용체 서열을 생성하는 단계를 추가로 포함하는 것인, 방법.
  42. 제41항에 있어서,
    상기 생성된 새로운 수용체 서열은 상기 제2 코호트의 이전 면역 반응과 연관된 항원과 상보적일 것으로 예측되고, 여기서, 항원 상보성은 클러스터링 방법, 분류 방법 또는 회귀 방법에 의해 예측되는 것인, 방법.
  43. 제41항 또는 제42항에 있어서,
    상기 생성된 새로운 수용체 서열을 포함하는 단백질성 종을 합성하는 단계를 추가로 포함하는 것인, 방법.
  44. 제43항에 있어서,
    상기 단백질성 종은 펩타이드, 단백질, 수용체 또는 의학적 생물제제 중 하나인, 방법.
  45. 면역학적 예측 모델의 앙상블을 활용하여 개체의 건강 상태를 예측하는 전산 방법으로서,
    수용체 서열의 서열 분석 결과를 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체, T 세포 수용체, 또는 B 세포 및 T 세포 수용체 모두이고, 상기 서열 분석 결과는 개체의 생물학적 샘플로부터 유래되는 것인, 단계;
    상기 획득된 수용체 서열의 서열 분석 결과를 사용하여 건강 상태를 산출하는 2개 이상의 훈련된 분류자 또는 회귀자의 분류자 또는 회귀자 각각으로부터 건강 상태의 확률을 계산하는 단계로서, 여기서, 상기 2개 이상의 훈련된 분류자 또는 회귀자는 추출된 잠재 임베딩에 기초하여 건강 상태를 예측하도록 훈련된 분류자 또는 회귀자, 능동 면역 반응을 감지하도록 훈련된 분류자 또는 회귀자, 종합 레퍼토리 조성에 기초하여 건강 상태를 예측하도록 훈련된 분류자 또는 회귀자, 및 클러스터 멤버십에 기초하여 건강 상태를 예측하도록 훈련된 분류자로부터 선택되는 것인, 단계; 및
    2개 이상의 훈련된 분류자의 분류자 각각으로부터의 건강 상태의 확률을 확률 벡터로 변환시키는 단계; 및
    훈련된 분류자와 상기 확률 벡터를 활용하여 전반적인 건강 상태를 예측하는 단계.
  46. 제45항에 있어서,
    건강 상태의 확률은 추출된 잠재 임베딩에 기초하여 건강 상태를 예측하도록 훈련된 분류자 또는 회귀자, 능동 면역 반응을 감지하도록 훈련된 분류자 또는 회귀자, 종합 레퍼토리 조성에 기초하여 건강 상태를 예측하도록 훈련된 분류자 또는 회귀자, 및 클러스터 멤버십에 기초하여 건강 상태를 예측하도록 훈련된 분류자인 3개의 훈련된 분류자 또는 회귀자 중 일부 또는 전부로부터 계산되고, 상기 3개의 훈련된 분류자의 분류자 각각으로부터의 건강 상태의 확률은 확률 벡터로 변환시키는 것인, 전산 방법.
  47. 제45항 또는 제46항에 있어서,
    상기 건강 상태는 능동 면역 활성, 활성 병원성 감염, 최근 백신 접종, 능동 자가 면역 반응, 면역 결핍, 특정 유형의 이전 또는 능동 면역 활성, 특정 병원체의 이전 또는 활성 병원성 감염, 특정 백신의 이전 또는 최근 백신 접종, 특정 장애의 이전 또는 능동 자가 면역 반응, 특정 장애의 이전 또는 능동 면역 결핍, 이들의 서브타입 또는 이들의 임의의 조합인, 전산 방법.
  48. 제47항에 있어서,
    상기 계산된 건강 상태의 확률은 상기 계산에 인구 통계학적 데이터를 통합함으로써 추가로 맥락화되는(contextualized) 것인, 전산 방법.
  49. 제47항에 있어서,
    상기 계산된 건강 상태의 확률은 인구 통계학적 데이터를 회귀시켜 계산되는 것인, 전산 방법.
  50. 면역학적 예측 모델의 앙상블을 활용하여 개체의 인구 통계학적 속성을 예측하는 전산 방법으로서,
    상기 방법은 하기 단계를 포함하는, 전산 방법:
    수용체 서열의 서열 분석 결과를 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체, T 세포 수용체, 또는 B 세포 및 T 세포 수용체 모두이고, 상기 서열 분석 결과는 개체의 생물학적 샘플로부터 유래되는 것인, 단계;
    상기 획득된 수용체 서열의 서열 분석 결과를 사용하여 건강 상태를 산출하는 2개 이상의 훈련된 분류자 또는 회귀자의 분류자 또는 회귀자 각각으로부터 인구 통계학적 속성의 확률을 계산하는 단계로서, 여기서, 상기 2개 이상의 훈련된 분류자 또는 회귀자는 추출된 잠재 임베딩에 기초하여 건강 상태를 예측하도록 훈련된 분류자 또는 회귀자, 능동 면역 반응을 감지하도록 훈련된 분류자 또는 회귀자, 종합 레퍼토리 조성에 기초하여 건강 상태를 예측하도록 훈련된 분류자 또는 회귀자, 및 클러스터 멤버십에 기초하여 건강 상태를 예측하도록 훈련된 분류자로부터 선택되는 것인, 단계; 및
    2개 이상의 훈련된 분류자의 분류자 각각으로부터의 인구 통계학적 속성의 확률을 확률 벡터로 변환시키는 단계; 및
    훈련된 분류자와 상기 확률 벡터를 활용하여 전반적인 인구 통계학적 속성을 예측하는 단계.
  51. 제50항에 있어서,
    상기 인구 통계학적 속성의 확률은 추출된 잠재 임베딩에 기초하여 건강 상태를 예측하도록 훈련된 분류자 또는 회귀자, 능동 면역 반응을 감지하도록 훈련된 분류자 또는 회귀자, 종합 레퍼토리 조성에 기초하여 건강 상태를 예측하도록 훈련된 분류자 또는 회귀자, 및 클러스터 멤버십에 기초하여 건강 상태를 예측하도록 훈련된 분류자인 3개의 훈련된 분류자 또는 회귀자 중 일부 또는 전부로부터 계산되고, 상기 3개의 훈련된 분류자의 분류자 각각으로부터의 건강 상태의 확률은 확률 벡터로 변환되는 것인, 전산 방법.
  52. 제50항 또는 제51항에 있어서,
    상기 인구 통계학적 속성은 연령, 성별, 인종, 지역성 또는 환경 노출인, 전산 방법.
  53. 언어 모델을 활용하여 면역학적 펩타이드 서열을 분석하는 전산 방법으로서,
    상기 방법은 하기 단계를 포함하는 것인, 전산 방법:
    언어 모델을 획득하는 단계;
    복수의 면역학적 펩타이드 서열을 획득하는 단계;
    상기 언어 모델을 활용하여 상기 복수의 펩타이드 서열의 면역학적 펩타이드 서열 각각을 벡터로 변환시키는 단계; 및
    상기 언어 모델을 사용하여,
    상기 벡터에 기초하여 상기 복수의 면역학적 펩타이드 서열 중 유사한 면역학적 펩타이드 서열을 식별하는 것;
    서열의 정의된 유형 또는 그룹에 속하는 개별 면역학적 펩타이드 서열의 확률을 식별하는 것;
    건강 관련 측정값을 갖거나, 이에 속하거나, 이를 예측하는 개별 면역학적 펩타이드 서열의 확률을 식별하는 것;
    펩타이드 특성을 갖거나, 이에 속하거나, 이를 예측하는 개별 면역학적 펩타이드 서열의 확률을 식별하는 것;
    서열의 정의된 유형 또는 그룹에 속하는 이전에 관찰되지 않은 새로운 면역학적 펩타이드 서열을 생성하는 것;
    상기 언어 모델과 면역학적 서열 또는 개체를 분류하는 이의 능력을 개선시키는 것; 또는
    분류자를 사용하여 벡터로부터 유도된 표현을 생성하는 것 중 적어도 하나를 수행하는 단계로서, 여기서, 상기 표현은 상기 면역학적 서열을 상이한 유형의 그룹으로 분류하는 데 사용되는 것인 단계.
  54. B 세포 또는 T 세포 수용체 서열의 서열 분석 결과를 사용하여 자가 면역 질환과 관련된 자가 면역 반응의 예측을 위한 예측 분류자 또는 회귀자를 개발하는 방법으로서,
    상기 방법은 하기 단계를 포함하는 것인, 방법:
    수용체 서열의 제1 복수 서열 분석 결과를 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체, T 세포 수용체 또는 이들의 일부, 또는 B 세포 및 T 세포 수용체 모두이고, 상기 제1 복수 서열 분석 결과 각각은 제1 코호트의 건강한 개체의 생물학적 샘플로부터 유래되고, 상기 제1 코호트의 개체 각각은 알려진 자가 면역 장애를 갖지 않는 것인, 단계;
    수용체 서열의 제2 복수 서열 분석 결과를 획득하는 단계로서, 여기서, 상기 수용체는 B 세포 수용체, T 세포 수용체 또는 이들의 일부, 또는 B 세포 및 T 세포 수용체 모두이고, 상기 제2 복수 서열 분석 결과 각각은 제2 코호트의 개체의 생물학적 샘플로부터 유래되고, 상기 제2 코호트의 개체 각각은 자가 면역 장애를 갖고, 상기 제2 코호트의 개체 각각은 동일한 자가 면역 질환 장애를 갖는 것인, 단계;
    언어 모델을 사용하여 상기 제1 복수 및 제2 복수 서열 분석 결과의 수용체 서열 각각의 잠재 임베딩을 추출하는 단계;
    상기 언어 모델 및 상기 제1 복수 및 제2 복수 서열 분석 결과의 수용체 서열 각각의 추출된 잠재 임베딩을 사용하여, 상기 제1 코호트와 상이한 제2 코호트 내의 유사한 수용체 서열을 식별하는 단계;
    상기 제2 복수 서열 분석 결과 내의 유사한 수용체 서열의 잠재 임베딩을 상기 제2 코호트와 연관된 자가 면역 장애에 연결시키는 단계; 및
    상기 연결된 잠재 임베딩에 기초하여 동일한 자가 항원에 결합할 가능성이 있는 유사한 서열 세트를 식별하는 단계; 및
    계산기내(in silico) 또는 생화학적 실험을 통해 상기 자가 항원을 식별하는 단계.
KR1020247019528A 2021-11-11 2022-11-14 면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법 Pending KR20240110613A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163263912P 2021-11-11 2021-11-11
US63/263,912 2021-11-11
US202263362380P 2022-04-01 2022-04-01
US63/362,380 2022-04-01
PCT/US2022/079828 WO2023086999A1 (en) 2021-11-11 2022-11-14 Systems and methods for evaluating immunological peptide sequences

Publications (1)

Publication Number Publication Date
KR20240110613A true KR20240110613A (ko) 2024-07-15

Family

ID=86336735

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247019528A Pending KR20240110613A (ko) 2021-11-11 2022-11-14 면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법

Country Status (7)

Country Link
US (1) US20250329410A1 (ko)
EP (1) EP4429774A1 (ko)
JP (1) JP2025500075A (ko)
KR (1) KR20240110613A (ko)
AU (1) AU2022387692A1 (ko)
CA (1) CA3237870A1 (ko)
WO (1) WO2023086999A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095825B (zh) * 2023-10-20 2024-01-05 鲁东大学 一种基于多实例学习的人体免疫状态预测方法
WO2025129197A1 (en) * 2023-12-15 2025-06-19 Tevogen Bio Inc. Systems and methods for predicting immunologically active peptides with machine learning models
WO2025175065A1 (en) * 2024-02-13 2025-08-21 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for assessment of immune response and applications thereof

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11202104882WA (en) * 2018-11-15 2021-06-29 Ampel Biosolutions Llc Machine learning disease prediction and treatment prioritization
GB201904887D0 (en) * 2019-04-05 2019-05-22 Lifebit Biotech Ltd Lifebit al

Also Published As

Publication number Publication date
WO2023086999A1 (en) 2023-05-19
JP2025500075A (ja) 2025-01-08
CA3237870A1 (en) 2023-05-19
US20250329410A1 (en) 2025-10-23
AU2022387692A1 (en) 2024-05-30
EP4429774A1 (en) 2024-09-18

Similar Documents

Publication Publication Date Title
Fortino et al. Machine-learning–driven biomarker discovery for the discrimination between allergic and irritant contact dermatitis
Tipton et al. Diversity, cellular origin and autoreactivity of antibody-secreting cell population expansions in acute systemic lupus erythematosus
US20250329410A1 (en) Systems and Methods for Evaluating Immunological Peptide Sequences
Arsenio et al. Early specification of CD8+ T lymphocyte fates during adaptive immunity revealed by single-cell gene-expression analyses
US20140087963A1 (en) Immunosignaturing: a path to early diagnosis and health monitoring
US20200357487A1 (en) Computer-implemented method and system for determining a disease status of a subject from immune-receptor sequencing data
Zaslavsky et al. Disease diagnostics using machine learning of B cell and T cell receptor sequences
Katayama et al. Machine learning approaches to TCR repertoire analysis
Zaslavsky et al. Disease diagnostics using machine learning of immune receptors
Ronel et al. The clonal structure and dynamics of the human T cell response to an organic chemical hapten
Chen et al. A deep learning model for accurate diagnosis of infection using antibody repertoires
US20210327580A1 (en) Method for Stratifying IBS Patients
Drost et al. Benchmarking of t-cell receptor-epitope predictors with epytope-tcr
Yohannes et al. Clustering based approach for population level identification of condition-associated T-cell receptor β-chain CDR3 sequences
WO2025175065A1 (en) Systems and methods for assessment of immune response and applications thereof
Pezoulas et al. A computational workflow for the detection of candidate diagnostic biomarkers of Kawasaki disease using time-series gene expression data
US20240371463A1 (en) Methods for predicting epitope specificity of t cell receptors
KR20250088734A (ko) 항원-결합 단백질의 조작
CN115482878A (zh) 基于几何体模型的蛋白分子指纹计算方法及其应用
Winchester et al. Identification of a novel proteomic Biomarker in Parkinson’s Disease: Discovery and Replication in Blood, brain and CSF
Bai et al. Deep Learning Driven Cell-Type-Specific Embedding for Inference of Single-Cell Co-expression Networks
Zhang et al. Structure-based Predictions of Conformational B Cell Epitopes by Protein Language Model and Deep Learning
WO2022205775A1 (zh) 确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质
Paco et al. Fine-tuned protein language model identifies antigen-specific B cell receptors from immune repertoires
Carter Interpretations of Machine Learning and Their Application to Therapeutic Design

Legal Events

Date Code Title Description
PA0105 International application

St.27 status event code: A-0-1-A10-A15-nap-PA0105

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000