[go: up one dir, main page]

WO2014098479A1 - Computer implemented method for analyzing genomic mutation or epigenetic mutation - Google Patents

Computer implemented method for analyzing genomic mutation or epigenetic mutation Download PDF

Info

Publication number
WO2014098479A1
WO2014098479A1 PCT/KR2013/011823 KR2013011823W WO2014098479A1 WO 2014098479 A1 WO2014098479 A1 WO 2014098479A1 KR 2013011823 W KR2013011823 W KR 2013011823W WO 2014098479 A1 WO2014098479 A1 WO 2014098479A1
Authority
WO
WIPO (PCT)
Prior art keywords
variation
snp
cancer
snps
organism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2013/011823
Other languages
French (fr)
Korean (ko)
Inventor
김성호
김민승
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industry Academic Cooperation Foundation of Yonsei University
Original Assignee
Industry Academic Cooperation Foundation of Yonsei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020130115261A external-priority patent/KR101538692B1/en
Application filed by Industry Academic Cooperation Foundation of Yonsei University filed Critical Industry Academic Cooperation Foundation of Yonsei University
Publication of WO2014098479A1 publication Critical patent/WO2014098479A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to a computer im lemented method for analyzing genome variation or epigenetic variation of an organism, a computer-readable storage medium and a system therefor. [Background technology]
  • GAS genome-wide association study
  • the present inventors have tried to solve the above-mentioned problems of the prior art. As a result, the inventors have developed a novel variation analysis protocol that can more accurately analyze various variations (eg, genetic variations) found in an organism to obtain clinically meaningful predictive results.
  • the present invention is an approach similar to "word” and "word frequency profile" in natural language analysis, in which two distinct concepts, variation syntax (VAR-S; SNP), are applied.
  • VAR-S variation syntax
  • SNP VAR-S feature frequency profile
  • an object of the present invention is to provide a computer im lemented method for analyzing genomic variat ion or epigenomic variation of an organism.
  • VAR-S variation syntax
  • the invention provides a computer implemented method for analyzing genomic variation or epigenomic variation of an organism comprising the following steps: (a) constructing a linked string of the variants;
  • the present inventors have tried to solve the above-mentioned problems of the prior art. As a result, the inventors have developed a novel variation analysis protocol that allows for more accurate analysis of various variations (eg, genetic variations) found in an organism to yield clinically meaningful predictive results.
  • the present invention is similar in approach to "words" and "word frequency profiles" in natural language analysis, with two distinct concepts: variation syntax (VAR-S; SNP syntax: SNP-S) when applied to SNPs. And a method of expressing and analyzing organizational characteristics of an individual using a feature frequency profile (FFP) 'of VAR-S.
  • VAR-S variation syntax
  • SNP-S SNP syntax
  • FFP feature frequency profile
  • the inventors of the present invention describe "words” and “word frequency profiles” (CD Manning & H. Schuetze (1999). Foundations of Statistical Natural Language In a similar manner to The MIT Press, 1 edn), two inventive ideas, “SNP syntax (SNP syntax: SNP-S)” and “Feature Frequency Profile (SFP-S)”
  • SNP syntax SNP syntax: SNP-S
  • SFP-S Feature Frequency Profile
  • each genetic susceptibility allele to the cancer itself can have minor detrimental phenotypic consequences, pose minor hereditary risks, have variable penetrance, and in small portions of population Appear, and generally cause little "fatal” results.
  • each genetic susceptible allele can occur at minor frequencies in populations (ET Cirulli & DB Goldstein (2010) .Uncovering the roles of rare variants in common disease through whole-genome sequencing.Nat Rev Genet 11 ( 6): 415-425);
  • One particular cancer type has many subtypes, and in a single individual, each subtype is caused by many genes, with varying degrees of effectiveness (M. Ger linger, et. (2012) .Intratumor Heterogeneity and Branched Evolution Revealed by Mult i region Sequencing.N Engl J Med 366 (10): 883-892), multiple inheritances (genetic code sequences and nongenic ciphers) caused by various genetic variations Sequence) alleles make one individual sensitive to cancer, most of which can be represented as minor alleles in the genome of one individual;
  • Each set of genetic susceptibility alleles can trigger cancer development followed by driver mutations.
  • driver mutations e.g., events caused by pathogens, radiation, compounds, environmental factors, etc.
  • cancer driver alleles can trigger cancer development followed by driver mutations.
  • one or more consecutive waves of clonal expansion that depend on one or more consecutive acquisition of pj Stephens, et al. (2012) .
  • the correlation between cancer driver alleles and cancer sensitive alleles may appear, may be direct or potent, or not.
  • Genome mutations to be analyzed in the present invention include various variations found in an organism, preferably SNPCsingle nucleotide polymorphisms in nucleotide sequences), deletions, insertions or repeat variations; Or epigenomic variation. Examples of epigenetic variations include DNA methylation or histone modifications. Most preferably, the mutation to be analyzed in the present invention is SNP.
  • the mutation to be analyzed is a mutation present in a nucleotide sequence
  • the nucleotide sequence is a sequence on one chromosome, a sequence on a plurality of chromosomes, or a whole genome sequence, more preferably a whole genome (WG). )
  • the mutations to be analyzed in the present invention are SNPs in the entire genome sequence.
  • step (a) is carried out by assigning a code to each of the variants to build an associative string of the codes.
  • step (a) is performed by assigning a code to each genotype or haplotype of the SNP to construct a linked string of the codes.
  • a code For example, when analyzing the SNP of the human genome, There may be ten possible SNP genotypes, and each SNP genotype may be assigned an alphabetic code to construct a linking string for the SNP (see Table 3).
  • the variants to be analyzed in the present invention are SNPs
  • the SNPs are (i) 5% or less (more preferably, 4% or less, more preferably 3% or less, even more preferred Preferably from the group consisting of (ii) Hardy Weinberg Equilibrium test and ( ⁇ ) folate-effect test.
  • the method further comprises the step of determining the optimal length of the variant syntax before step (b). Determination of the optimal length of variant syntax (eg, SNP-S) can be made in a variety of ways.
  • determination of the optimal length of variant syntax is carried out empirically determined to a length that exhibits the highest accuracy for the phenotype of the organism.
  • the phenotype is preferably a disease (eg cancer).
  • the determination of the optimal length of the variance syntax may be performed by selecting the optimal length in the convergence section in the tree topology fabricated using the Robinson-Foulds distance (see reference).
  • step (b) is carried out using a sliding window having the determined optimal length.
  • the variation to be analyzed in the present invention is SNP and the optimum length of the SNP density (density) of 1 million SNPs / genome 6-14 (more preferably 8-12 , Most preferably 10). If the density of the SNP increases, the optimum length also increases.
  • the FFPs whose length is determined in step (d) are for rare VAR-S (eg SNP-S) of a certain length and are filtered-in.
  • the regression VAR-S of a particular length is 20% or less (more preferably, 5% or less, even more preferably 3% or less, most likely in a population including a mutation of the analyte).
  • a rare VAR 'S eg, SNP-S
  • the distance between the FFPs in step (d) can be obtained by applying various distance functions, for example, Jensen-Shannon (JS) divergence, Euclidean distance function , Cosine distance function , Minkowski distance function and Pearson linear correlation ⁇ can be obtained, and most preferably, the distance between FFPs with JS (Jensen-Shannon) divergence Get
  • JS Jensen-Shannon
  • M / is the average FFP of P and Q /
  • RE is the relative entropy
  • the present invention will be described with reference to the following examples, in which one individual has the SNP-Ss FFP and the smallest JS (Jensen-Shannon) divergence. If the other subject is a breast cancer patient, the subject may be determined to have high susceivability to breast cancer.
  • the pairwise all-against-all distances thus obtained are stored in the distance matrix.
  • identical objects have a distance of zero and different dissimilar objects have a large distance.
  • the distance relationship between FFPs can be visualized in various ways (eg, nearest-neighbor connection map or systematic tree) (see FIG. 3).
  • the method of classifying FFPs may be performed using a class prediction algorithm, for example, as a support vector machine (SVM).
  • SVM support vector machine
  • the organism to be analyzed in the present invention is an animal, a plant, a fungus, a yeast, a bacterium or a protist.
  • Animals that can be analyzed by the present invention include, but are not limited to, mammals, strata, reptiles, and birds.
  • the animals analyzed by the present invention include humans, mice, rats, cattle, pigs, horses, sheep, rabbits, goats, birds, fish, and stratum.
  • Plants that can be analyzed by the present invention include, but are not limited to, monocotyledonous plants, dicotyledonous plants and algae.
  • the plants analyzed by the present invention are food crops, including rice, wheat, barley, corn, soybean potatoes, wheat, palm, oats and sorghum;
  • Vegetable crops including arabidopsis, cabbage, radish, peppers, strawberries, tomatoes, watermelons, cucumbers, cabbages, melons, pumpkins, green onions, onions, and carrots;
  • Special crops including ginseng, tobacco, cotton, sesame, sugar cane, sugar beet, perilla, peanuts and rapeseed;
  • Fruit trees including apples, pears, jujube peaches, lambs, grapes, chisels, persimmons, plums, apricots and bananas;
  • Flowers including roses, gladiolus, gerberas, carnations, chrysanthemums, lilies, and yul
  • milk bacteria examples include, but are not limited to, Escherichia coli, Thermus thermophi 1 ics, Bacillus subti lis, Bacillus st earo thermoph ilus, Salmonella typhimuriu, Pseudo onas, Streptomyces, Staphylococcus, Lactobacillus, Lactococcus and Streptococcus ⁇ It doesn't work.
  • Examples of achibacteria that can be analyzed by the present invention include Methanococcus jannaschi i (Mj), Methanosarcina azei (Mm), Methanobacterium thermoautotroph icu (Mt), Methanococcus maripaludis, Methanopyrus kandleri, Halobacterium, Archaeoglobus fulgidus (rocfh, ArocPus, ArocPh, ), Pyrobaculimi aerophi lum, Pyrococcus abyss /, Sulfolobus solfataricus (Ss), Sulfolobus tokodaii, Aeuropyrum pernix (Ap), Thermoplasina acidophi lum and Thermoplasma volcanium.
  • Mj Methanococcus jannaschi i
  • Mm Methanosarcina azei
  • Mt Methanobacterium thermoautotroph icu
  • Protists that can be analyzed by the present invention include, but are not limited to, algae, Plasmodium, Phytophthora, slime molds, protozoans It is not.
  • the mutation of the analyte is a mutation associated with the traits of the organism and the method of the invention is used to predict sensitivity to the traits of the organism.
  • the traits to be analyzed in the present invention are bad traits (adverse traits), diseases, disorders, conditions or symptoms.
  • the disease, disease, condition or symptoms may include cancer, tumor, chronic disease, infectious disease, neurological disease, metabolic disease, immune disease, inflammatory disease, cardiovascular disease, respiratory disease, bone disease, thyroid disease, otolaryngology Ophthalmic diseases, dermatological diseases, dental diseases, endocrine diseases, gastrointestinal diseases, hereditary diseases, musculoskeletal disorders, arthritis, obesity and hyperlipidemia.
  • the trait to be analyzed in the present invention is a cancer disease.
  • susce ptibility to a cancer disease of one subject can be quantitatively predicted by the present invention.
  • the trait to be analyzed in the present invention is an advantegeous trait, which is growth rate, yield or quality.
  • the mutation to be analyzed in the present invention is a mutation associated with the therapeutic responsiveness of the organism and the method is used to predict the therapeutic responsiveness of the organism.
  • a representative example of treatment response is drug responsiveness. Respondents, non-respondents, and reverse respondents with respect to a particular drug can be determined by the present invention.
  • the mutations analyzed by the present invention can be used for multi iclass cancer classification.
  • the most important thing in the treatment of cancer is the accurate diagnosis or information about the cancer of the patient.
  • Multiclass cancer classification is required for such accurate diagnosis (Ramaswamy S, et al. (2001). Multi class cancer diagnosis using tumor gene expression signatures. PNAS USA 98 (26): 15149-54).
  • the present invention can be used for this multiclass cancer classification.
  • the invention provides a computer-readable storage medium embodied with instructions instructing a computer processor to perform the following steps: (a Constructing a linked string of the variants; (b) constructing a variation syntax (VAR-S) of a specific length by applying a sliding window of a specific length along the entire length of the linking string; (c) counting all possible features in the particular length variation syntax and assembling them into feature frequency profiles (FFPs) step; And (d) determining the distance between the FFPs or classifying the FFPs.
  • VAR-S variation syntax
  • FFPs feature frequency profiles
  • the invention provides a system for analyzing genomic variation or epigenomic variation of an organism comprising:
  • the storage medium and system of the present invention are for carrying out the method of the present invention as described above, and the contents in common between the two are omitted in order to avoid excessive complexity of the present specification.
  • the storage medium of the present invention is not particularly limited, and various storage media known in the art, for example, CD-R, CD-ROM, DVD, data signals contained in carrier waves, flash memory, floppy disks, hard drives, Magnetic tapes, MINIDISC, nonvolatile memory cards, EEPR0M, optical disks, optical storage media, RAM, ROM, system memory, and web servers.
  • the system of the present invention can be built in a variety of ways.
  • the system of the present invention may be built with a multiprocessor computer array, a web server and a multi-user / interactive system.
  • the system of the present invention may include various elements, for example, to construct a variant (e.g. SNP) information storage database, a processor to create an associative string of variants, to construct a variant syntax (e.g. SNP-S).
  • a processor to create an associative string of variants
  • a variant syntax e.g. SNP-S
  • processor to determine optimal length of variant syntax (e.g. SNP-S / )
  • FFP generator processor to perform distance determination between FFPs
  • processor to create distance matrix and processor to visualize distance matrix Can be built to include
  • the detailed description of the integrated approach of the second inventor of the invention is as follows:
  • the invention provides a computer implemented method for analyzing genomic variation or epigenomic ' variation of an organism comprising the following steps:
  • step (c) finally predicting the trait of the organism by applying at least four kinds of prediction results obtained in step (b) to an inference algorithm.
  • the basic strategy of the present invention is to apply a variation of a particular entity by applying at least two kinds of descriptors for the variation to each of at least two kinds of class prediction algorithms, and applying the results from these applications to the appropriate ⁇ inference algorithm.
  • Assay eg, susceptibility to specific traits.
  • Genome mutations to be analyzed in the present invention include various variations found in organisms, preferably SNPCsingle nucleotide polymorphisms in nucleotide sequences), deletions, insertions or repeat variations; Or epigenomic variation.
  • the mutation to be analyzed is a mutation present in a nucleotide sequence
  • the nucleotide sequence is a sequence on one chromosome, a sequence on a plurality of chromosomes, or a whole genome sequence, more preferably a whole genome (WG). )to be.
  • the mutations to be analyzed in the present invention are SNPs in the entire genome sequence.
  • the at least two kinds of descriptors for the mutation are constructed.
  • the at least two kinds of descriptors for the variation are: (i) the profile of the variations (eg, the profile of ordered SNPs) assuming that each variation is independent of the neighbor's variation and (ii) a particular length Profiles of the above-described variant syntax (VAR-S) (eg SNP syntax) that are associated variants.
  • VAR-S eg SNP syntax
  • the use of syntax (VAR-S) (eg SNP syntax) as one of two descriptors is due to the fact that each variation (eg SNP) location is not independent and is connected to neighbors to varying degrees.
  • step (a) is carried out by constructing a string of codes by assigning a code to each of the variants.
  • step (a) is performed by assigning a code to each genotype of the SNP to construct a string of the codes.
  • the analytes are SNPs, wherein the SNPs are (i) 5% or less (more preferably 4% or less, even more preferably 3% or less, even more preferably Is a minimum selected from the group consisting of removal of SNPs exhibiting an allele frequency of 2% or less, most preferably 13 ⁇ 4 or less), (ii) Hardy Weinberg Equilibrium test and (ii) Plate-effect test SNPs QCX Quality controlled by one method. As such, sample QC allows the analytical results of the present invention to be more accurate.
  • the class prediction algorithm applied in step (b) of the present invention includes various algorithms known in the art, for example, the ⁇ r-nearest neighbor O-nearest neighbor (N) algorithm (Bremner et al. al., (2005). “Output—sensit ive algorithms for computing nearest—neighbor decision boundaries.” Discrete and Computational Geometry 33 (4): 593-604), support vector machine (SVM) algorithms (Theodor idis).
  • N ⁇ r-nearest neighbor O-nearest neighbor
  • SVM support vector machine
  • the class prediction algorithm applied in step (b) is an r-nearest neighbor (ANN) algorithm .
  • SVM support vector machine
  • the nearest neighbor analysis algorithm searches the k nearest neighbors of the test subject. In the analysis algorithm, all pairwise "distances" are calculated between the descriptor of one entity and the descriptor of each entity. ANNs are then selected for the test subject and predicted whether the subject is sensitive to the most common traits among the A Ns.
  • the support vector machine (SVM) algorithm is a fractional classification method that identifies the most likely class to which the test subject belongs.
  • SVM support vector machine
  • the SVM is trained to correct the correct trait of one individual in each of all binary traits. Be aware.
  • having the maximum selection of all pair classifications by SVM predicts the susceptibility of the test subject to the most likely trait.
  • the descriptor for the variation is a VAR-S and a profile
  • the class prediction algorithm is the nearest neighbor algorithm
  • step (b) is less than 20% in (b-1) population A small step of selecting rare VAR-S found at low frequency of; (b-2) sub-steps to normalize to the total number of regression VAR-S; (b-3) constructing a Jensen-Shannon (JS) divergence matrix using the profile of the rare VAR-S; And (b-4) selecting a k-nearest neighbor for the organism using the JS divergence matrix.
  • This embodiment is abbreviated as KNN / VAR-S (KNN / SNP-S, when applied to SNP).
  • the KNN / SNP-S is described in more detail as follows: A vector of SNP-Ss for all members of the training set is obtained, followed by a feature selection step. At this stage, the syntax shared by any percentage of population is removed (filtered out) and the remainder (filtered in) is used for analysis. It is then normalized to the total number of rare SNP syntax of the subject. Finally, we use the rare SNP syntax to build the JS divergence matrix between all members. The reason why JS divergence was chosen to measure the distance of the descriptor is that it is more predictable than other conventional methods such as allele sharing. Measure the paired JS distance for every entity, each entity, then select or vote classes among the top nearest entities and select the one with the highest count.
  • the descriptor for the variation is a profile of the variation
  • the class prediction algorithm is a support vector machine (SVM) algorithm
  • step (b) is (b-1) 10 '2 to 1 Substep selecting mutations with a low P-value of 6 ; (b-2) substeps of performing SVM on each of all binary traits; And (iii) substeps classified according to a max-win voting scheme.
  • SVM / VAR SVM / SNP, if applied to SNP.
  • SVM can be implemented in a variety of ways, for example in the One-Versus—One (OVO) method.
  • the 0V0 method produces an n (n ⁇ l) / 2 classifier for each pair of two classes and takes the class with the highest election from n (nl) / 2 predictions for the test sample.
  • LIBSVM from Chang et al is used (Chang CC & Lin CJ (2011)
  • LIBSVM A Library for Support Vector Machines. Acm T Intel Syst Tec 2 (3)).
  • the SNPs are filtered out for a given P-value threshold (p) to select the associated SNPs between the two classes. It is recommended that cutoffs less than 1 ( ⁇ 6) should not be applied, since some classifiers do not leave SNPs after filtering by the association test. Encoding each genotype is done in the case of ambiguous predictions (ie multiple best elections). Repeat the poles in the set of highest elected classes until the tie breaks, and train the SVM to recognize the correct trait of one individual in each of the two binary traits. The most likely trait of the test subject is predicted to have the maximum election of all pair classifications by SVM.
  • step (b) is 20% of the (b-1) papul illustration. Found at a lower frequency of Small steps of screening for rare mutations; (b-2) substep normalizing to the total number of rare mutations; (b_3) constructing a JS divergence matrix using the profile of the rare variant; And (b-4) selecting a k-nearest neighbor NN) for the organism using the JS divergence matrix.
  • KNN / VAR N / SNP, if applied to SNP.
  • the class prediction algorithm is a support vector machine (SVM) algorithm, wherein step (b) is a (bl) 10- 2 to 10 — Small step of selecting VAR-S with low P-value of 6 ; (b-2) substeps of performing SVM on each of all binary traits; And (iii) substeps classified according to a max-win voting scheme.
  • SVM / VAR— S SVM / SNP-S, if applied to SNP.
  • SVM / SNP is performed using SNP-S and SVM / VAR-S is performed.
  • additional parameters for the optimal length of SNP-S are used.
  • step (b) at least four kinds of prediction results obtained in step (b) are applied to an inference algorithm to finally predict traits of an organism or an individual whose trait is not determined.
  • the inference algorithm used in step (c) comprises a Bayesian inference algorithm and a voting scheme, most preferably a Bayesian inference algorithm. to be.
  • each phenotype is represented by the total initials of each trait. Label it with the first character.
  • Bayesian inference of the prediction results of the four methods is used. These methods have the following shorthand: KNN / SNP-S, KNN / SNP, SVM / SNP-S, SVM / SNP.
  • the methods are mathematically represented by nP and m 4 , respectively.
  • the highest post-probability trait conditioned on the predictions obtained from the training method is selected, which can be formulated as PCsi ⁇ ii fiJ ⁇ ) ⁇ .
  • Bayesian theorem Bayes theorem can be expressed as: Denominator sil ⁇ ⁇ fi ⁇ ) ⁇ Since this is a normalization constant, the denominator is omitted. Since the prediction decisions of each method are inherently independent of each other, we apply the chain rule (Zhang H (2005) Exploring conditions for the optimality of Naive bayes. Int J Pattern Recogn 19 (2): 183-198):
  • P ( ⁇ C / s ⁇ B) can be estimated by identifying some of the true BRAC individuals estimated to be C0AD by the ⁇ N / SNP-S method.
  • transfection of the organism is a disease (diseases), disease (disorders), conditions (conditions), symptoms (symptoms) or the value "fee (therapy) reactivity (responsiveness).
  • the trait to be analyzed in the present invention is a cancer disease.
  • susceptibility to cancer disease in one subject can be quantitatively predicted by the present invention.
  • the trait to be analyzed in the present invention is an advantegeous trait, which is growth rate, yield or quality.
  • the variant to be analyzed in the present invention is a variation associated with the therapeutic responsiveness of the organism and the method is used to predict the therapeutic response of the organism.
  • a representative example of therapeutic responsiveness is drug responsiveness. Respondents, non-respondents, and reverse respondents for a particular drug can be determined by the present invention.
  • the invention provides a computer-readable storage medium embodied with instructions instructing a computer processor to perform the following steps: (a Constructing at least two kinds of descriptors for the mutations; (b) applying at least two kinds of class prediction algorithms to each of the at least two kinds of descriptors to analyze the genome variation or epigenetic variation of the organism to obtain at least four kinds of prediction results; And (c) obtaining in step (b) the final prediction of the trait of the organism by applying at least four kinds of prediction results to an inference algorithm.
  • the invention provides a system for analyzing genomic variation or epigenomic variation of an organism comprising: (a) a computer processor; And (b) the computer-readable storage medium coupled with the processor.
  • the present invention is similar to comparing two texts with words of natural language, and through this method provides a systematic feature frequency profile (FFP) for various variations (eg SNPs) found in an individual.
  • FFP feature frequency profile
  • the present invention also determines the distance between FFPs to accurately predict susceptibility to certain traits of an individual.
  • cancer sensitivity of an individual can be predicted with an accuracy of 47 to 76% even when the sample size is small.
  • this accuracy can be increased by increasing the size of the SNP genotype data, and can be further increased by classifying in advance.
  • the prediction accuracy of the second invention represents several times increased accuracy compared to the random prediction, and the degree of such prediction is highly improved prediction accuracy as it is possible to determine the health state of the individual or the population.
  • FIG. 1 is a diagram of the process of a method for assessing the sensitivity of eight cancer types.
  • This method includes preprocessing of SNP data, such as sample conditioning screening and genotyping coding, filtering of common SNP syntax and profiling of SNP syntax frequencies (FFPs of SNP-Ss), and the nearest neighbors of the smallest branches ("distances"). There are several processes, such as calculating the distance between paired FFPs to identify the sister.
  • FIG. 2 is a graph showing the accuracy assessment of cancer sensitivity to length (/) and percentage filtering—phosphorus of SNP-S. Increase the performance of risk assessment for multiclass cancers while increasing length (/) and reducing percentage filtering-in Measured.
  • 2% filtering means maintaining SNP-S / s generated at less than 2% of population. This process retains only "regressive" SNP-S / s present in populations below 2%.
  • the gray line represents the baseline accuracy and "No syntax" means the accuracy assessment by comparison of the entire SNPs as a non-associated feature, ie not using the FFP of the SNP-Ss.
  • 3 is a nearest-neighbor connection map.
  • the nearest neighbors of 594 individuals (66 in each of the eight cancers and 66 controls) were identified. Each individual is represented by a rare SNP-S 10 s FFP (2% filtered-in), and the nearest neighbor of one individual is defined as another individual with FFP with the smallest Jensen-Sha ⁇ on divergence (distance) from the first. do.
  • Types of arms are listed on the outside of the outer circle, indicated by different colors in the inner circle, and the interior of each curve of the circle connects two entities with nearest-neighbor ("sister") correlations. The color of the curve is the same as the cancer type of the nearest-neighbor pound by the search member (also the color of the small sal in the outer circle).
  • the nearest neighbor pound may or may not be the same cancer type ("true” sister) or not ("error” sister). If the search and found objects are interchangeable, the curve is represented by a thick line. Of these, the curves for all error sister correlations are shown in dark gray.
  • the color scheme is as follows: CEU, red; BRCA, orange; C0AD, bright orange; HNSC, yellow; KIRC, green; LGG, light blue; 0 V, blue; READ, dark blue; UCEC, purple. This map was created using circos. 4 is a genome mapping of a sensitive marker allele on chromosome 3.
  • the density of the sensitive marker allele is indicated by heat-maps on colored circle tracks for each cancer type (from inside to outside, CEU, red; BRCA, orange; C0AD, light orange; HNSC, yellow; KIRC , Green; LGG, light blue; 0V, blue; READ, dark blue; UCEC, purple), high density areas are indicated in dark colors.
  • the outermost track shows the cytoband of chromosome 3, and the labeled light blue tick marker indicates the location of the known cancer gene.
  • Cytoband tracks The blue short arches represent individual cytobands with one or more GS hits of known arms in Caucasus population.
  • the green short bar on the next inner track shows the genetic code site and the next inner circle shows the density of the published SNPs. This map was created using circos.
  • Figure 5 maps the sensitive marker alleles near the locus of two known cancer genes (BRCA2 and TP53). Each marker allele is represented by a cluster of circles (SNPs making up a specific SNP-S 10 allele) in the color of the cancer type.
  • the X-axis represents the physical location of chromosome 17 or 13 where TP53 and BRCA2 are found, respectively, and the Y-axis divides different marker alleles for different cancer types: CEU, red; BRCA, orange; C0AD, bright orange; HNSC, yellow; KIRC, green; LGG, light blue; 0 V, blue; READ, dark blue; UCEC, purple.
  • Sensitive marker alleles do not overlap with TP53 or BRCA2 (each represented by a dashed vertical line). Recombination ratio is indicated by blue spikes and the other genes around the two genes are indicated in the lower box of each figure. This picture was produced using Lo isZoom i / J.
  • FIG. 6 shows QC (Quality Control) results.
  • the graph shows the overall accuracy of different datasets from different QC criteria as a function of filtering threshold (left: dataset with HapMap control, right: dataset without HapMap control).
  • Two filters namely HWE and plate effect ⁇ 1 (dataset used in this study), HapMap data with TCGA and MAF>0.05; THM5, same as THM1 except MAF>0.05; THMO, same as THM1 except without MAF filtering; Same as THM0 except without THMOR, HE and plate effect tests; TCGA data of TM5, two filters, MAF> 0.05 with HWE and plate effect; Same as TM5 except TMl, MAF>0.01; Same as TM1 except without TMO, MAF filter; Same as TM0 except TM0R, two filters ie E and no plate effect.
  • BRCA, 0V, and UCEC were selected for analysis and excluded other characteristics because of the limited sample size.
  • the number of (right) characteristics is 3, 6, and 9 (BRCA, C0AD, and CEU have three characteristics; BRCA, COAD, HNSC, KIRC, 0V, and CEU have six characteristics; and BRCA, C0AD, HNSC, HNSC, KIRC, Increasing 0V, REDA, UCEC, and CEU to 9 characteristics decreases accuracy.
  • Each feature dataset size was fixed at 66 individuals.
  • the method of the present invention comprises SNP data preprocessing, including sample control screening and genotype encoding, selection of low ⁇ value SNPs and low frequency SNP syntax, application of two different analysis algorithms and the results of the four methods. It includes the final prediction step of integrating.
  • 10A shows the optimization of the parameters used in the process of applying the k—nearest neighbor algorithm to the profile of the SNP-syntax.
  • 10B shows the optimization of parameters used in applying the k-nearest neighbor algorithm to the profile of SNPs.
  • Figure 10c shows the optimization of the parameters used in the process of applying the SVM algorithm to the profile of the SNPs.
  • Figure 10d shows the optimization of the parameters used in the process of applying the SVM algorithm to the profile of the SNP-Ss.
  • 11A-11C show the 9-class prediction results of the test set for each of three cancer classes, BRCA (FIG. 11A), 0V (FIG. Lib) and UCEC (FIG. 11C). Prediction results of four methods and Bayesian inference on 50 test subjects for each of the three cancer classes are shown. The dotted horizontal line represents the random prediction, and the tick marks on each bar represent the standard error for the prediction result measured by resampling 50 test subjects 10 times.
  • the C165's 165 SNP array results (typed as Affymetrix 6.0 SNP) were downloaded from the HapMap ftp website. The data was genotyped using Affymetrix Power Tools with default parameter settings and discarded samples reported to have low sample quality from the website (see Table 1).
  • the Cancer Genome Atlas project initiated by the National Institute of Health (NIH); Breast Invasive Carcinoma (BRCA); Colon Adenocarcinoma (COAD); Head and Neck Squamous Cell Carcinoma (HNSC); Idney Renal Clear Cell Carcinoma (KIRC); Brain Lower grade glioma; Ovarian Serous Cystadenocarcinoma (OV); Rectum adenocarcinoma (EAD); Uterine Corpus Endometrioid Carcinoma (UCEC); Haptype Map Project (HapMap); Caucasians from Utah, USA; European-American (EA); PI_HAT, P NK parameter determined when two entities are related; Sample quality control + genetic association test (PIJHAT ⁇ 0.2) + removal of self-released wheat for EA individuals. Sample quality control
  • SNP Single Nucleotide Polymorphism
  • QC Quality Control
  • MAF Minor Allele Frequency
  • TCGAf The Cancer Genome Atlas project initiated by the National Institute of Health (NIH)); Haptype Map project of worldwide human populations (HapMap); Caucasians from Utah, USA; THMl (dataset used in this study), TCGA and HapMap data of MAF> 0.01 with two filters of HWE and plate effect; THM5, same as THMl except MAF>0.05; THM0, same as THM1 except without MAF filtering; Same as THM0 except no THM0R, HWE and plate effect tests; TCGA data with two filters, TM5, HWE and Plate effect, with MAF>0.05; Same as TM5 except TM1, MAF>0.01; TM0, same as TM1 except without MAF filtering; Same as TM0 except there are no two filters, TM0R, HWE and plate effect; X indicates that the dataset did not have an associated QC, and 0 is the opposite.
  • SNP code conversion SNP code conversion
  • SNP-S SNP syntax
  • the vector, feature frequency profile (FFP) for an individual represents the systematic characteristics of the individual's WG SNPs, which slide a fixed length window along the entire length of the individual genome's SNP strings and all possible features (SNP-Ss in this case) are constructed (see GE Sims, et al. (2009). Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106 (8): 2677-2682).
  • the optimal feature length for profiling is determined to be the length that shows the highest accuracy in calculating cancer sensitivity.
  • the optimal length was 10 (FIG. 2). Since each SNP has genotype information without its exact chromosomal allele (Haplotype) order, in the SNP syntax. The number of heterozygotes determines the possibility of the presence of haplotype information in the polymorphic context. Thus, each haplotype occurs in the same syntax Under the premise of having a likelihood, the "count" of the occurrence of SNP-S is inversely proportional to the number of possible haplotypes represented by SNP-S.
  • the study dataset does not include a missing genotype, when this case exists, it includes all features arising from the combination of possible genotypes in the untyped marker and their counts are extended by the missing. By dividing by the total number of SNP-Ss, it can be processed easily. The following equation represents the count in all cases:
  • x is the count of SNP-S (count in fraction)
  • i is the number of heterozygotes in SNP-S
  • j is the number of missing markers in the SNP-S sequence (see Table 4 ).
  • Percent Filtering-In, Normalization, and Jensen-Shannon Dispersion Matrix Obtain FFPs of SNP-S 10 counts for all members, then remove (filter out) the syntax shared by a few percent of this population and analyze the remainder. keep it. Then, it is normalized by the total number of rare SNP syntax for counting each residual rare syntax. Finally, a rare SNP syntax generated by percentage filtering-in was used to construct a Jensen-Shannon (JS) divergence matrix between all members. Nearest. Accuracy of identification and sensitivity of neighbors (“sisters”)
  • Section I presents two ideas of invention: SNP-S and FFP, and the overall systematic features of one individual's genome WG SNPs are assigned to FFP of SNP—Ss. How it can be represented; Section II shows the process of empirically identifying the optimal length of SNP-Ss and the optimal filtering level to reveal "rare" SNP-Ss to best practice the method of the present invention; Section III details the sensitivity predictions; Section IV summarizes the verification results for the approach of the present invention; And section V shows the genetic location of susceptible SNP—S alleles for known cancer genes, recently identified cancer-related SNPs and other genetic characteristics from G Ss.
  • the method of the present invention for comparing the systematic features of any two individuals' WG SNPs comprises four steps:
  • Linked WG SNP Strings The present invention starts with the most general description of the systematic features of an individual's WG SNPs, which is similar to the description in the natural language booklet (CD Manning & H. Schuetze (1999). Language Processing.The MIT Press, I edn), a very important difference is that the associated WG SNPs are treated as natural language text without spaces between words.
  • an individual's WG SNPs are represented by a single linked string of SNPs arranged in the genome of each individual, with each SNP genotype being one of ten alphabetic codes representing the ten possible genotypes of the SNP under the assumption of genotype two alleles. (See Table 3).
  • SNP syntax SNP syntax (SNP-S) is defined as a short ordered string of SNPs of a given specific length, which plays a role similar to a "word" of a certain length in natural language text. All possible SNP-S of a given body length (/) for one genome is obtained by sliding a window of length 1 along the total length of the SNP string of the genome. Thus, SNP-S identifies not only the systematic features of SNPs caused by various genetic mutations, but also those known to exist in WG SNPs such as associative imbalances.
  • FFP of SNP-Ss is suitable for showing the overall systematic characteristics of WG SNPs.
  • FFP of "rare" SNP-Ss is more suitable for disease-specific systematic features. Therefore, the following two assumptions were used as a useful criterion in empirical search for optimal length regression SNP-Ss for cancer sensitivity studies:
  • the number of sets of genome-sensitive alleles for one particular cancer type may be large, but we treat this as limiting.
  • the FFP of a rare SNP-Ss of one cancer individual it is very similar to the population of the same cancer type than that of the other cancer type or the control group. sister" ) There will be one or more other individuals with FFP (s) (this assumption is proven correct in the study described below).
  • Table 5 summarizes the prediction accuracy for the genetic sensitivity determined by the method of the present invention.
  • a dataset of 66 samples each of eight cancer types and controls was used to optimize two parameters, the length and percent filtering of SNP-Ss— (2%). Because of the small SNP data available in public databases, we chose three cancers (BRCA, 0V and UCEC), which are slightly more data. In each of the three cancers, 66 new samples were randomly selected that were not included in the dataset used in the optimization process, and two parameters were used to calculate sensitivity accuracy for the cancer type. This process was repeated 10 times for each of the three cancers and the average of the accuracy was calculated.
  • SNP-S 10 susceptibility allele To localize the genome region covered by the SNP-S 10 susceptibility allele for one cancer type, it appears only in membership of that cancer type and is common among one or more truth-sister pairs but in other cancer types An undetected SNP-S 10 (referred to as “sensitive SNP-S marker allele” or hereinafter “sensitive marker allele”) was identified. These were then analyzed at three levels: (1) overall observation of all marker alleles in the entire genome, (2) intermediate level observation of the position of the marker allele on one chromosome, and (3) several known cancer genes. Close-up observation of the position of the marker allele for. Table 6 shows the quartiles for the entire genome Show the contents.
  • Gene annotation data was downloaded from the Gene Track of the UCSC Table Browser on the Human Genome Build 19, and disease genes were downloaded from the GAD (Genetic Association Studies of Complex Diseases and Disorders) track of the UCSC Table Browser, and the cancer gene was cancer of the Wellcome Trust Sangerlnstitute. Annotated from Gene Census.
  • 1,600. 4 shows various features known on the chromosome 3 of 8 cancer sensitivity marker alleles on chromosome 3 (many cancer genes have been identified) (eg, location of known cancer genes, SNP density, genetic code site and cancer sensitivity). Shows the result of mapping relative to the cytoband) where the GWAS hit is found. The following general observations were made:
  • Figure 5 shows two regions of the genetic code region where the marker allele is mapped near the genes (a) TP53 and (b), which are well known cancer genes. An example is shown. All marker alleles of both cancers (BRCA and C0AD), whose most cancer genes are recorded in the 0MIM database, were examined. The following experimental results were obtained:
  • Sensitivity marker alleles for the two cancer types do not overlap with the two gene positions. Sensitivity markers. Alleles overlap with other nearby genes;
  • the present inventors introduce the concept of SNP syntax (SNP-S) and the feature frequency profile of this syntax to provide a method for analyzing the systematic characteristics of WG SNPs of an individual. Subsequently, multiclass cancer susceptibility was evaluated by comparing the FFP of the rare SNP-Ss of each individual with the FFP of the control individual and those with eight main cancers. Although the amount of SNP data currently available in the TCGA database is small, the present invention predicts genetic susceptibility to eight major cancers with an accuracy in the range of about 47-76%, depending on the type of cancer. This accuracy will increase as the size of the sample for each cancer type increases, and the increase in sample size will be readily obtainable by current sequencing techniques.
  • the findings of the present invention support the "multiple assortment model" for cancer susceptibility:
  • the individual's susceptibility to cancer is associated with a set of many regressive SNP syntaxes (sister specific marker alleles) present in the non-genetic code region of the genome (Table 6);
  • each set of alleles can be expected from a cancer-specific marker allele "classified", which all unusual unique Sister for one type of cancer ever It is a collection of marker alleles. Discussion
  • the present invention predicts genetic susceptibility to eight major cancers with an accuracy in the range of about 47-76%, depending on the type of cancer. Although increasing the sample size for one cancer type increases accuracy ( Figure 7), it does not reach 100%. Not all genetic susceptibility to one cancer type triggers cancer, and in most cases, the occurrence of cancer requires one or more triggering events that are non-genetic.
  • the present invention can provide substantial information: quantitatively predicting the size of the population with high genetic susceptibility to cancer is essential in establishing cancer prevention policies and cost control strategies. This is very useful information. Similarly, predicting the genetic susceptibility of an individual provides motivation for prevention and for early early diagnosis. Other applications in which the present invention may be applied include the study of genetic susceptibility to other diseases such as chronic diseases, infectious diseases and neurological diseases. In addition, if there is genome data for a stratified sample, the present invention may also be useful in determining the sensitivity and therapeutic benefit of a patient to a particular treatment. It may be applied to assess the patient's sensitivity to clinical trials that may increase the likelihood of efficacy and reduce the risk of adverse events.
  • each SNP genotype was converted to a number of 0, 1 or 2 depending on the number of minor alleles in that genotype;
  • each SNP of the SNP-S descriptor was converted to one of 10 alphabets (see Table 3).
  • kNN / SNPS method k-nearest neighbor (kNN) algorithm for SNP syntax (SNPSs) ,
  • Vectors of SNP-Ss for all members of the training set were obtained and then the feature screening step proceeded.
  • the syntax shared by some percentage of the population is removed (filtered out) and the residue (filtered in) is used for analysis. It was then normalized to the total number of rare SNP syntax of the subject.
  • a rare SNP syntax was used to construct a Jensen-Shannon (JS) divergence matrix among all members. The reason why JS divergence was chosen to measure the distance of the descriptor is that it is more predictable than other conventional methods such as allele sharing.
  • the paired JS distances were measured for all individuals, each individual, then voted 9 classes from the top k nearest individuals and selected the one with the highest count.
  • the class having the shortest average distance from the target entity among the class entities in the upper k was selected. Accuracy was measured using the correct guess assignments for all members. For the best accuracy of cancer sensitivity estimation for the training dataset, the optimal length, 1, f parameter for low frequency selection, and parameter k for SNP-S were optimized. Optimal parameter values were 8, 1, and 40 for!, F, and k, respectively (FIG. 10A, Table 8A). In the testing phase, the same / and / optimal parameters were used. The JS distance vector between the subject and the training sample was then measured. The test subjects were predicted through the same selection process in the training phase with the optimal k parameter.
  • SNP-S descriptors were replaced with SNPs and KNN was remodeled in the same manner as in 1) above. Different from SNP-S, each SNP was converted to the numeric form of 0, 1 and 2, depending on the count of minor alleles in the genotype. In the SNP, the / and ⁇ : parameters (see Figure 10b, Table 8b) were trained. Optimal values for / and the parameters were 15% and 200, respectively.
  • SVM is a supervised classification method, originally designed for building binary classifiers, and later used to build multiple classifiers in various ways.
  • OVO One-Versus-One
  • the 0V0 method generates a ⁇ ⁇ classifier for each pair of n classes and takes the class with the highest election from / predictions for the test sample.
  • LIBSVM In order to implement the 0V0 SVM method, LIBSVM by Chang et al. (Chang CC & Lin CJ (2011) LIBSVM: A Library for Support Vector Machines.
  • SW / SNPS Method Support Vector Machine (SVM) of SNPSs
  • Another predictive model was constructed using SVM using SNP-S instead of SNP (see FIG. 10D, Table 8 (1). Additional parameters for optimal length of SNP-S (explored and optimized during training) Except is included, the overall pipeline of the method is the same as 3) above. ⁇ value greater optimal length for optimal values, and SNP-S on-off value is a 10- 5 and 2, respectively. Bayes i an inference of multipole prediction algorithm
  • each phenotype was labeled with the first letter of the full initial of each trait.
  • Bayesian inference of the prediction results of the four methods was used. These methods have the following abbreviations: KNN / SNPS, KNN / SNP, SVM / SNPS, SVM / SNP. The methods are mathematically represented by nf, ⁇ ?, m 4 respectively.
  • the traits with the highest postconditioning were selected for the predicted results from the training method, which can be formulated PCsjlHfiJ ⁇ fi ⁇ —.
  • s / is the predicted trait of the subject i
  • i is the trait of the subject / predicted by the method.
  • Denominator Ps j ⁇ fi ⁇ J ⁇ is the normalization constant. Since the prediction decisions of each method are inherently independent of each other, we apply the chain rule (Zhang H (2005) Ex loring conditions for the optimality of Naive bayes. Int J Pattern Recogn 19 (2): 183-198):
  • the methods of the invention classify individuals into multiple cancer types, including three female-specific cancers and three common cancers.
  • male subjects were classified into five general cancers excluding breast cancer, ovarian cancer and endometrial cancer. Results
  • SNP-S as one of two descriptors reflects the observation that each SNP location is not independent and is connected to neighbors to varying degrees.
  • the use of experimentally obtained genotypes instead of computer inferred haplotypes is due to the fact that haplotypes are unreliable, in particular unreliable for the regression frequency SNPs of unrelated individuals on which the methods of the present invention are constructed ( Fan HC, Wang J, Potanina A, & Quake SR (2011) Who 1 e-genome molecular ha lotyping of single cells.Nature biotechnology 29 (1): 51—57).
  • the individual genome SNP-Ss is created by sliding a window of a certain length along the entire length of the total genome SNPs.
  • Descriptor elements SNP or For SNP-S
  • factors that increase the sensitivity of different cancer types are selected: SNPs or SNP-Ss with "very low Kal” or "rare frequency” depending on the analysis algorithm used.
  • all pairwise “distances” are calculated between the descriptor of one entity and the descriptor of each entity.
  • the NNs for the test subject are then selected and the subject is predicted whether it is sensitive to the most common traits among the A Ns (if there is more than one of the most likely traits, see the method above).
  • SVM is trained to recognize the correct trait of one individual in each of all binary traits.
  • having the maximum selection of all pair classifications by SVM predicts the susceptibility of the test subject to the most likely trait.
  • the final prediction of the sensitivity of the test subject is estimated based on Bayesian inference from the four prediction results. For female subjects, multiclass susceptibility was estimated for nine classes (eight joint cancer classes and one health trait), and for male subjects, predictions were made for six classes except three female-specific cancer classes. Was carried out.
  • TCGA Cancer Genome Atlas
  • HapMap The Cancer Genome Atlas
  • Details of data selection, sampling methods, sample control procedures and other details are described in the above experimental methods, and the numbers before and after sample control are listed in Table 7.
  • the dataset was divided into two groups: a training set for optimization of the parameters for each method and a test set for independent verification of the methods.
  • the maximum size of the sample for each trait in the training set was limited to the minimum sample size (66) of one trait of TCGA. To prevent artificially skewed predictions resulting from inappropriate sample sizes for each trait, 66 individuals were randomly equally extracted from each trait group. Lack of TCGA Due to the sample, a test set for all nine phenotypes could not be constructed.
  • Table 8a is the result of ANN / SNP-S and the remaining three methods and results are described in Tables 8b-8d. Table 8a
  • Training performs nce of SVM algorithm applied to profiles of SNPs ..
  • test set can be summarized as follows; (i) For each cancer class, three of the four methods predicted the test set with significantly better accuracy than random prediction; (ii) Individual genome variants of BRCA and 0V (strictly depicted in terms of SNPs or SNP-Ss) are more interrelated than the rest of the cancer types and are slightly less than the descriptors in 0V and UCEC. There was a similar connection between them.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Artificial Intelligence (AREA)
  • Ecology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a novel mutation analysis protocol which can obtain a clinically meaningful prediction result by more accurately analyzing diverse variations (for example, genetic variations) found in an organic body. The present invention can accurately predict susceptibility to certain traits of one individual. The prediction accuracy of the present invention indicates accuracy which is increased several times when compared to random prediction, and this prediction degree can determine a state of health of an individual or population, thereby exhibiting a much improved prediction accuracy.

Description

【명세서】  【Specification】

[발명의 명칭】 [Name of invention]

지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법 【기술분야】  Computer-implemented method for analyzing genome or epigenetic variation

본 발명은 유기체의 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 (computer im lemented) 방법, 이를 위한 컴퓨터- 독해가능한 (computer-readable) 저장 매체 및 시스템에 관한 것이다. 【배경 기술】  The present invention relates to a computer im lemented method for analyzing genome variation or epigenetic variation of an organism, a computer-readable storage medium and a system therefor. [Background technology]

개인의 전체지놈 (WG) 서열 정보는 인간 지놈에서의 체계적 특징화 지놈 변이에 대한 이해를 혁신적으로 개선하고 있다 (E. S. Lander (2011). Initial impact of the sequencing of the human genome . Nature 470(7333) :187-197). 인간 지놈들의 대부분 부위는 동일한 서열을 가지고 있는 것으로 알려져 있으며 , 작은 부위만이 단일염기다형성 (SNP), 다양한 길이의 삽입-결실, 카피수 변이, 다양한 길이의 반복 또는 역전 등과 같은 지놈 변이를 가지고 있다 (M. Snyder , et al. (2010). Personal genome sequencing'- current approaches and challenges. Genes Dev 24(5) :423ᅳ 431). 이들 중에서, 대부분의 변이는 SNP 이고, 이 SNP는 5% 이상의 마이너 대립유전자 빈도로 3M 지놈 위치들에서 동정되어 있다 (International HapMap Consortium (2005) . Ha lotype map of the human genome . Nature 437(7063) :1299-1320; The International HapMap Consortium (2007). A second generation human haplotype map of over 3.1 million SNPs. Nature 449(7164) :851-861). Individual whole genome (WG) sequence information has revolutionized the understanding of systematic characterization genome variation in the human genome (ES Lander (2011) .Initial impact of the sequencing of the human genome.Nature 470 (7333). : 187-197). Most parts of human genomes are known to have identical sequences, and only small parts have genome variations such as monobasic polymorphism (SNP), variable length indels, copy number variations, and variable length repeats or inversions. (M. Snyder, et al. (2010) .Personal genome sequencing ' -current approaches and challenges.Genes Dev 24 (5): 423-431). Of these, most of the mutations are SNPs, which have been identified at 3M genome locations with minor allele frequencies of more than 5% (International HapMap Consortium (2005) .Ha lotype map of the human genome. Nature 437 (7063). 1299-1320; The International HapMap Consortium (2007) .A second generation human haplotype map of over 3.1 million SNPs.Nature 449 (7164): 851-861).

비 -지놈 요인과 함께 이러한 지놈 변이는 표현형 변이에 연결된다고 판단되고 있다. G AS(genome-wide association study)에서의 연구목적 중 하나는, 암, 만성 질환, 신경성 질환 및 감염성 질환 등과 같은 질환에 대한 개체의 질환 민감성 (disease suscept ibi lity)에 대한 지놈 요인을 평가하는 것이다. SNP 유전형 및 암 표현형 사이의 연관성을 규명하기 위한 집중적인 연구에 의해, 16 개 암에 대한 약 100 개의 지놈 민감성 좌위가 밝혀졌고, 몇 몇의 암은 많은 좌위와 연관되었으며, 다른 암들은 단지 몇 개의 좌위와 연관되었으나 (0. Fletcher & R. S. Houlston (2010). Architecture of inherited susceptibility to common cancer . Nat Rev Cancer 10(5) :353-361) , 특이적인 인과좌위 (causal loci)는 거의 밝히지 못하였다 (G. Gibson (2011) . Rare and common variants: twenty argument s . Nat Rev Genet 13(2): 135-145) . 더욱이 , 몇 명의 연구자들은 GWAS-규명된 좌위가 대부분의 암의 높은 가족성 위험을 설명하지 않았다고 비판하고 있다 (T. A. Manolio, et al . (2009). Finding the missing heritabi lity of complex diseases. Nature 461(7265) :747-753) . 따라서, 현재의 분석방법에 의해 얻은 결과와 질환민감성 예측을 위한 이들에 대한 해석은 너무 모호하여 개체 또는 파풀레이션에 대한 임상적 유용성을 가지고 있지 않다. 본 명세서 전체에 걸쳐 다수의 논문 및 특허문헌이 참조되고 그 인용이 표시되어 있다. 인용된 논문 및 특허 문헌의 개시 내용은 그 전체로서 본 명세서에 참조로 삽입되어 본 발명이 속하는 기술 분야의 수준 및 본 발명의 내용이 보다 명확하게 설명된다. These non-genome factors are thought to be linked to phenotypic variations. One of the objectives of research in the genome-wide association study (GAS) is to treat diseases such as cancer, chronic diseases, neurological and infectious diseases. To assess the genome factor for the disease suscept ibi lity of an individual. Intensive studies to determine the association between the SNP genotype and cancer phenotype revealed about 100 genome-sensitive loci for 16 cancers, some of which were associated with many loci, and others of only a few. Fletcher & RS Houlston (2010) .Architecture of inherited susceptibility to common cancer.Nat Rev Cancer 10 (5): 353-361), but few specific causal loci were identified ( G. Gibson (2011) .Rare and common variants: twenty argument s. Nat Rev Genet 13 (2): 135-145). Furthermore, some researchers have criticized that GWAS-defined loci did not explain the high familial risk of most cancers (TA Manolio, et al. (2009) .Finding the missing heritabi lity of complex diseases.Nature 461 ( 7265): 747-753). Thus, the results obtained by current analytical methods and their interpretations for predicting disease sensitivity are so vague that they do not have clinical utility for individuals or populations. Throughout this specification, many papers and patent documents are referenced and their citations are indicated. The disclosures of cited papers and patent documents are incorporated herein by reference in their entirety, so that the level of the technical field to which the present invention belongs and the contents of the present invention are more clearly explained.

【발명의 내용】 [Content of invention]

[해결하고자 하는 과제】  Problem to be solved

본 발명자들은 상술한 종래 기술의 문제점을 해결하고자 노력하였다. 그 결과, 본 발명자들은 유기체에서 발견되는 다양한 변이 (예컨대, 유전적 변이)를 보다 정확하게 분석하여 임상적으로 의미 있는 예측 결과를 얻을 수 있는 신규한 변이 분석 프로토콜을 개발하였다. 본 발명은 자연어 분석에서 "단어" 및 "단어 빈도 프로파일" 과 유사한 접근 방식으로서, 두 개의 독특한 개념, 즉 변이 신택스 (variation syntax: VAR-S; SNP 에 적용하는 경우에는 SNP 신택스: SNP-S) 및 VAR-S 의 특징 빈도 프로파일 (Feature Frequency Profile: FFP)"를 이용하여 한 개체의 체계적 (organizational) 특징들을 표현하고 분석하는 방법을 제시한다. The present inventors have tried to solve the above-mentioned problems of the prior art. As a result, the inventors have developed a novel variation analysis protocol that can more accurately analyze various variations (eg, genetic variations) found in an organism to obtain clinically meaningful predictive results. The present invention is an approach similar to "word" and "word frequency profile" in natural language analysis, in which two distinct concepts, variation syntax (VAR-S; SNP), are applied. In case of application, we propose a method of expressing and analyzing the organizational characteristics of an individual using SNP syntax: SNP-S) and VAR-S feature frequency profile (FFP).

또한, ' 본 발명자들은 변이 분석 즉 개체의 형질 결정에 대한 정확도를 개선하기 위하여, 변이에 대한 최소 두 종류의 묘사자를 최소 두 종류의 클래스 예측 알고리즘 각각에 적용하고, 이러한 적용으로부터 나온 결과들을 적합한 추론 알고리즘에 적용하는, 또 다른 프로토콜을 개발하였다. In addition, "the inventors mutation analysis that is to improve the accuracy of the transformation decision of the objects and characters at least two kinds of descriptions for variations applied to each of at least two types of class prediction algorithm, reasoning appropriate the results from this application Another protocol has been developed for the algorithm.

따라서, 본 발명의 목적은 유기체의 지놈 변이 (genomic variat ion) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 컴퓨터 실행 (computer im lemented) 방법을 제공하는 데 있다.  Accordingly, an object of the present invention is to provide a computer im lemented method for analyzing genomic variat ion or epigenomic variation of an organism.

본 발명의 다른 목적은 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항 (instructions)이 포함된 (embodied) 컴퓨터 -독해가능한 (computer— readable) 저장 매체를 제공하는 데 있다.  It is another object of the present invention to provide computer-readable instructions embodying instructions instructing a computer processor to perform steps for analyzing genomic variation or epigenomic variation of an organism. (computer—readable) storage media.

본 발명의 또 다른 목적은 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 시스템을 제공하는 데 있다.  It is still another object of the present invention to provide a system for analyzing genomic variation or epigenomic variation of an organism.

본 발명의 다른 목적 및 이점은 하기의 발명의 상세한 설명, 청구범위 및 도면에 의해 보다 명확하게 된다.  Other objects and advantages of the present invention will become apparent from the following detailed description, claims and drawings.

【과제 해결 수단】 [Task solution]

본 발명의 제 1 발명인 변이 신택스 (variation syntax: VAR-S)를 이용한 분석 방법은 다음과 같다:  The analysis method using the variation syntax (VAR-S) which is the 1st invention of this invention is as follows:

본 발명의 일 양태 (aspect)에 따르면, 본 발명은 다음 단계를 포함하는 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 컴퓨터 실행 (computer implemented) 방법을 제공한다: (a) 상기 변이들의 연계 스트링 (linked string)을 구축하는 단계 ;According to an aspect of the invention, the invention provides a computer implemented method for analyzing genomic variation or epigenomic variation of an organism comprising the following steps: (a) constructing a linked string of the variants;

(b) 상기 연계 스트링의 전체 길이를 따라 특정 길이의 슬라이딩 원도우를 적용하여 특정 길이의 변이 신택스 (variation syntax: VAR-S)를 구축하는 단계 ; . (b) constructing a variation syntax (VAR-S) of a specific length by applying a sliding window of a specific length along the entire length of the linking string; .

(C) 상기 특정 길이의 변이 신택스에서 모든 가능한 특징들 (features)을 카운트하고 특징 빈도 프로파일 (feature frequency profiles: FFPs)로 어셈블링 하는 단계; 및  (C) counting all possible features in the particular length variation syntax and assembling them into feature frequency profiles (FFPs); And

(d) 상기 FFPs 사이의 거리를 결정하거나 또는 FFPs 를 분류 (classify)하는 단계.  (d) determining the distance between the FFPs or classifying the FFPs.

본 발명자들은 상술한 종래 기술의 문제점을 해결하고자 노력하였다. 그 결과, 본 발명자들은 유기체에서 발견되는 다양한 변이 (예컨대, 유전적 변이)를 보다 정확하게 분석하여 임상적으로 의미 있는 예측 결과를 얻을 수 있는 신규한 변이 분석 프로토콜을 개발하였다. 본 발명은 자연어 분석에서 "단어" 및 "단어 빈도 프로파일" 과 유사한 접근 방식으로서, 두 개의 독특한 개념, 즉 변이 신택스 (variation syntax: VAR-S; SNP 에 적용하는 경우에는 SNP 신택스: SNP-S) 및 VAR-S 의 특징 빈도 프로파일 (Feature Frequency Profile: FFP)' '를 이용하여 한 개체의 체계적 (organizational) 특징들을 표현하고 분석하는 방법을 제시한다.  The present inventors have tried to solve the above-mentioned problems of the prior art. As a result, the inventors have developed a novel variation analysis protocol that allows for more accurate analysis of various variations (eg, genetic variations) found in an organism to yield clinically meaningful predictive results. The present invention is similar in approach to "words" and "word frequency profiles" in natural language analysis, with two distinct concepts: variation syntax (VAR-S; SNP syntax: SNP-S) when applied to SNPs. And a method of expressing and analyzing organizational characteristics of an individual using a feature frequency profile (FFP) 'of VAR-S.

보다 구체적으로, 본 발명의 SNP 및 암 민감성 예측에 대한 구현예에 따르면, 본 발명자들은 자연어 분석에서 "단어" 및 "단어 빈도 프로파일" (C. D. Manning & H. Schuetze (1999). Foundations of Statistical Natural Language Processing. The MIT Press, 1 edn)과 유사한 방법으로, 두 개의 발명적 사상, "SNP 신택스 (SNP syntax: SNP-S)" 및 " SNP-S 의 특징 빈도 프로파일 (Feature Frequency Profile: FFP)"를 이용하여 한 개체의 WG SNPs 의 체계적 특징들을 표현하는 신규한 방법을 최초로 제시하며 , 이러한 사상에 대한 증명 (proof of concept)으로서, TCGACThe Cancer Genome Altas) 데이터베이스로부터 얻을 수 있는 암 환자의 혈액 샘플의 WG SNP 유전자형으로부터 분석된 SNP-Ss 의 FFPs 를 비교하여, 8 종류의 암에 대한 정량적 유전 민감성을 예측한다. More specifically, according to embodiments of the SNP and cancer susceptibility prediction of the present invention, the inventors of the present invention describe "words" and "word frequency profiles" (CD Manning & H. Schuetze (1999). Foundations of Statistical Natural Language In a similar manner to The MIT Press, 1 edn), two inventive ideas, "SNP syntax (SNP syntax: SNP-S)" and "Feature Frequency Profile (SFP-S)" We present for the first time a novel method of expressing the systematic features of an individual's WG SNPs, and as a proof of concept, cancer from the TCGACThe Cancer Genome Altas database. The FFPs of SNP-Ss analyzed from the WG SNP genotype of the patient's blood samples are compared to predict quantitative genetic sensitivity for eight types of cancer.

개체 지놈 서열의 빠른 축적에 의해 새로운 유전적 특성의 발견이 예견되며, 이는 본 발명자들의 암 및 다른 질환들에 대한 모델을 계속적으로 개정하고, 확대하고, 다양화시킬 것이다. 질환에 대한 상기 계속적인 발전 모델에 대한 인식 하에서, 본 발명자들은 암 민감성에 대한 일반적이고 포괄적인 모델을 제시한다. 특히, 본 발명자들의 연구는 가능한 많은 대안에 대하여 개방적이며 이에 본 연구의 결과가 다음의 가정 또는 가설을 지지하는 증거를 규명할 것이다:  The rapid accumulation of individual genome sequences predicts the discovery of new genetic properties, which will continue to revise, expand and diversify our models of cancer and other diseases. In recognition of this continuous development model for disease, we present a general and comprehensive model for cancer susceptibility. In particular, our study is open to as many alternatives as possible, and the results of this study will identify evidence supporting the following assumptions or hypotheses:

1. 암 그 자체에 대한 각각의 유전적 민감성 대립유전자는 마이너 해로운 표현형 결과를 가질 수 있으며, 마이너 유전성 위험을 부여할 수 있고, 다양한 표현율 (variable penetrance)를 가지며, 그리고 파풀레이션의 작은 부분에서 나타나고, 이에 일반적으로 "치명적인" 결과를 거의 초래하지 않는다. 따라서, 각각의 유전적 민감성 대립유전자는 파풀레이션에서 마이너 빈도로 발생될 수 있고 (E. T. Cirulli & D. B. Goldstein (2010) . Uncovering the roles of rare variants in common disease through whole-genome sequencing. Nat Rev Genet 11(6) :415—425) ;  1. Each genetic susceptibility allele to the cancer itself can have minor detrimental phenotypic consequences, pose minor hereditary risks, have variable penetrance, and in small portions of population Appear, and generally cause little "fatal" results. Thus, each genetic susceptible allele can occur at minor frequencies in populations (ET Cirulli & DB Goldstein (2010) .Uncovering the roles of rare variants in common disease through whole-genome sequencing.Nat Rev Genet 11 ( 6): 415-425);

2. 하나의 특정 암 종류는 많은 서브타입을 가지고 한 개체에서 각각의 서브타입은 많은 유전자들에 의해 유발된다는 사실과 유사하게, 매우 복잡하고 다양한 방식으로 매우 다양한 효과 정도로 (M. Ger linger, et al . (2012) . Intratumor Heterogeneity and Branched Evolution Revealed by Mult i region Sequencing. N Engl J Med 366(10) :883-892), 다양한 유전적 변이에 의해 유발되는 멀티플 유전 (유전암호 서열 및 비유전자암호 서열) 대립유전자의 세트는 한 개체를 암에 대하여 민감하도록 하며, 이들의 대부분은 한 개체의 지놈에서 마이너 대립유전자로 나타낼 수 있고;  2. One particular cancer type has many subtypes, and in a single individual, each subtype is caused by many genes, with varying degrees of effectiveness (M. Ger linger, et. (2012) .Intratumor Heterogeneity and Branched Evolution Revealed by Mult i region Sequencing.N Engl J Med 366 (10): 883-892), multiple inheritances (genetic code sequences and nongenic ciphers) caused by various genetic variations Sequence) alleles make one individual sensitive to cancer, most of which can be represented as minor alleles in the genome of one individual;

3. 하나의 특정 암에서 상이한 암 서브타입들 및 심지어 단일 종양에서 상이한 암 서브타입들 중에서, 상이한 체세포 변이들을 갖는 암 세포의 비균질성이 있고 (M. Ger linger, et al . (2012). Intratumor Heterogeneity and Branched Evolution Revealed by Multi region Sequenc ing. N Engl J Med 366 (10): 883—892 ); 그리고, 3. Among the different cancer subtypes in one particular cancer and even among different cancer subtypes in a single tumor, there is a heterogeneity of cancer cells with different somatic mutations (M. Ger linger, et al. (2012). Intratumor Heterogeneity and Branched Evolution Revealed by Multi region Sequenc ing. N Engl J Med 366 (10): 883—892); And,

4. 유전적 민감성 대립유전자의 각각의 세트 자체 및 /또는 비-유전적 이벤트 (예컨대, 병원체, 방사선, 화합물, 환경적 요인 등에 의해 유발되는 이벤트)와 함께 암 발생을 촉발시킬 수 있으며 이어 드라이버 변이의 하나 또는 그 이상의 연속적 획득에 의존하는 클론 팽창의 하나 또는 그 이상의 연속적 웨이브가 후속된다 (p. j. Stephens, et al . (2012). The landscape of cancer genes and mutational processes in breast cancer . Nature. 486(7403) :400-404). 따라서, 암 드라이버 대립유전자와 암 민감성 대립유전자의 상관성은 나타날 수 있거나, 직접적이거나 또는 강력하며, 또는 그렇지 않을 수도 있다.  4. Each set of genetic susceptibility alleles, together with its own and / or non-genetic events (e.g., events caused by pathogens, radiation, compounds, environmental factors, etc.), can trigger cancer development followed by driver mutations. Followed by one or more consecutive waves of clonal expansion that depend on one or more consecutive acquisition of pj Stephens, et al. (2012) .The landscape of cancer genes and mutational processes in breast cancer.Nature.486 (7403) ): 400-404). Thus, the correlation between cancer driver alleles and cancer sensitive alleles may appear, may be direct or potent, or not.

본 발명에서의 분석 대상이 되는 지놈 변이는 유기체에서 발견되는 다양한 변이를 포함하며 바람직하게는 뉴클레오타이드 서열에서의 SNPCsingle nucleotide polymorphism), 결손, 삽입 또는 반복 변이; 또는 후생학적 변이 (epigenomic variation)이다. 후생학적 변이의 예는 DNA 메틸화 또는 히스톤 변형을 포함한다. 가장 바람직하게는, 본 발명에서 분석 대상이 되는 변이는 SNP이다.  Genome mutations to be analyzed in the present invention include various variations found in an organism, preferably SNPCsingle nucleotide polymorphisms in nucleotide sequences), deletions, insertions or repeat variations; Or epigenomic variation. Examples of epigenetic variations include DNA methylation or histone modifications. Most preferably, the mutation to be analyzed in the present invention is SNP.

본 발명에서 분석 대상이 되는 변이는 뉴클레오타이드 서열에 존재하는 변이이며, 상기 뉴클레오타이드 서열은 하나의 염색체 상의 서열, 복수의 염색체 상의 서열 또는 전체 지놈 서열이고, 보다 바람직하게는 전체 지놈 서열 (whole genome: WG)이다ᅳ  In the present invention, the mutation to be analyzed is a mutation present in a nucleotide sequence, and the nucleotide sequence is a sequence on one chromosome, a sequence on a plurality of chromosomes, or a whole genome sequence, more preferably a whole genome (WG). )

가장 바람직하게는 본 발명에서 분석 대상이 되는 변이는 전체 지놈 서열에 있는 SNPs이다.  Most preferably, the mutations to be analyzed in the present invention are SNPs in the entire genome sequence.

본 발명의 바람직한 구현예에 따르면, 단계 (a)는 변이들 각각에 코드를 부여하여 상기 코드의 연계 스트링을 구축하여 실시한다 .  According to a preferred embodiment of the present invention, step (a) is carried out by assigning a code to each of the variants to build an associative string of the codes.

보다 바람직하게는, 단계 (a)는 SNP의 유전자형 (genotype) (genotype) 또는 하플로타입 (haplotype) 각각에 코드를 부여하여 상기 코드의 연계 스트링을 구축하여 실시한다. 예를 들어, 인간 지놈의 SNP를 분석하는 경우, 10 개 가능한 SNP 유전자형이 있을 수 있으며, 각각의 SNP 유전자형에 알파벳으로 된 코드를 부여하여 SNP 에 대한 연계 스트링을 구축할 수 있다 (참조: 표 3). More preferably, step (a) is performed by assigning a code to each genotype or haplotype of the SNP to construct a linked string of the codes. For example, when analyzing the SNP of the human genome, There may be ten possible SNP genotypes, and each SNP genotype may be assigned an alphabetic code to construct a linking string for the SNP (see Table 3).

본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상 변이들은 SNPs 이고, 상기 SNPs 는 (i) 5% 이하 (보다 바람직하게는, 4% 이하 보다 더 바람직하게는 3% 이하, 보다 더욱 더 바람직하게는 2% 이하, 가장 바람직하게는 1% 이하)의 대립유전자 빈도를 나타내는 SNPs 의 제거, (ii) 하디 와인버그 평형 시험 (Hardy Weinberg Equilibrium test) 및 (Π) 폴레이트 -효과 시험으로 구성된 군으로부터 선택되는 최소 1 개의 방법에 의해 QC(Quality control)된 SNPs 이다. 이러한 샘플 QC 는 본 발명의 분석 결과가 보다 정확하게 되도록 한다.  According to a preferred embodiment of the invention, the variants to be analyzed in the present invention are SNPs, the SNPs are (i) 5% or less (more preferably, 4% or less, more preferably 3% or less, even more preferred Preferably from the group consisting of (ii) Hardy Weinberg Equilibrium test and (Π) folate-effect test. SNPs that are QC (Quality Control) by at least one method selected. This sample QC allows the analysis results of the present invention to be more accurate.

본 발명의 바람직한 구현예에 따르면, 본 발명의 방법은 단계 (b) 이전에 변이 신택스의 최적 길이를 결정하는 단계를 추가적으로 포함한다. 변이 신택스 (예컨대, SNP-S)의 최적 길이의 결정은 다양한 방식으로 할 수 있다.  According to a preferred embodiment of the invention, the method further comprises the step of determining the optimal length of the variant syntax before step (b). Determination of the optimal length of variant syntax (eg, SNP-S) can be made in a variety of ways.

본 발명의 구현예에 따르면, 변이 신택스 (예컨대, SNP-S)의 최적 길이의 결정은 유기체의 표현형 (phenotype)에 대하여 가장 높은 정확도를 나타내는 길이로 경험적으로 (empirically) 결정하여 실시한다. 이 경우, 상기 표현형은 바람직하게는 질환 (예컨대, 암)이다.  According to an embodiment of the invention, determination of the optimal length of variant syntax (eg, SNP-S) is carried out empirically determined to a length that exhibits the highest accuracy for the phenotype of the organism. In this case, the phenotype is preferably a disease (eg cancer).

택일적으로, 변이 신택스의 최적 길이의 결정은 RF(Robinson-Foulds) 거리를 이용하여 제작된 트리 토폴로지 (tree topology)에서 수렴 (convergence) 구간 내의 길이를 최적 길이로 선택하여 실시할 수 있다 (참조: Gregory E. Sims, et al . (2009) . Whole—genome phylogeny of mammals: Evolutionlay information in gene i c and nongenic regions . PNAS USA 106(40) :17077-17082).  Alternatively, the determination of the optimal length of the variance syntax may be performed by selecting the optimal length in the convergence section in the tree topology fabricated using the Robinson-Foulds distance (see reference). Gregory E. Sims, et al. (2009) .Whole-genome phylogeny of mammals: Evolutionlay information in gene ic and nongenic regions.PNAS USA 106 (40): 17077-17082).

변이 신택스 (예컨대, SNP-S)의 최적 길이를 이미 알고 있거나 또는 최적 길이를 결정한 경우, 단계 (b)는 상기 결정된 최적 길이를 갖는 슬라이딩 휜도우를 이용하여 실시한다. 본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석 대상이 되는 변이는 SNP 이고 최적 길이는 상기 SNP 의 조밀도 (density)는 1 백만 SNPs/지놈인 경우 6-14(보다 바람직하게는 8-12, 가장 바람직하게는 10)이다. 만일, SNP의 조밀도가 증가하면, 상기 최적 길이도 증가하게 된다. 본 발명의 바람직한 구현예에 따르면, 단계 (d)에서 길이가 결정되는 FFPs 는 특정 길이의 희귀 (rare) VAR-S (예컨대, SNP-S)에 대한 것으로 필터링-인 (filtering-in)된 것으로서, 상기 특정 길이의 회귀 VAR-S (예컨대, SNP-S)는 분석 대상의 변이를 포함하는 파풀레이션에서 20% 이하 (보다 바람직하게는, 5% 이하, 보다 더 바람직하게는 3% 이하, 가장 바람직하게는 2% 이하)의 낮은 빈도로 필터링 -인된 희귀 VARᅳ S (예컨대, SNP-S)이다. If the optimal length of the variant syntax (eg SNP-S) is already known or the optimal length has been determined, step (b) is carried out using a sliding window having the determined optimal length. According to a preferred embodiment of the present invention, the variation to be analyzed in the present invention is SNP and the optimum length of the SNP density (density) of 1 million SNPs / genome 6-14 (more preferably 8-12 , Most preferably 10). If the density of the SNP increases, the optimum length also increases. According to a preferred embodiment of the present invention, the FFPs whose length is determined in step (d) are for rare VAR-S (eg SNP-S) of a certain length and are filtered-in. The regression VAR-S of a particular length (eg, SNP-S) is 20% or less (more preferably, 5% or less, even more preferably 3% or less, most likely in a population including a mutation of the analyte). Preferably a rare VAR 'S (eg, SNP-S) filtered-in with a low frequency of 2% or less).

본 발명의 바람직한 구현예에 따르면, 단계 (d)에서 FFPs 사이의 거리는 다양한 거리 함수 (distance function)를 적용하여 얻을 수 있으며, 예컨대 JS (Jensen-Shannon) 발산, 유클리디안 거리 (Euclidean distance) 함수, 코사인 거리 (Cosine distance) 함수, 민코우스키 거리 (Minkowski distance) 함수 및 피어슨 선형 연관 (Pearson linear correlation^ 적용하여 얻을 수 있으며, 가장 바람직하게는 JS (Jensen-Shannon) 발산으로 FFPs 사이의 거리를 얻는다.  According to a preferred embodiment of the present invention, the distance between the FFPs in step (d) can be obtained by applying various distance functions, for example, Jensen-Shannon (JS) divergence, Euclidean distance function , Cosine distance function , Minkowski distance function and Pearson linear correlation ^ can be obtained, and most preferably, the distance between FFPs with JS (Jensen-Shannon) divergence Get

예를 들어, JS (Jensen-Shannon) 발산을 이용하여 두 FFPs(P/, Q;) 사이의 거리는 다음의 수학식에 따라 계산된다: For example, using JS (Jensen-Shannon) divergence, the distance between two FFPs (P / , Q ; ) is calculated according to the following equation:

【수학식 1】  [Equation 1]

Ί 땋  Braided pigtails

JSt(Pi, Qi) = 2 1, + - REiQt , Mt) ^難 ι =^M ¾酵 JSt (Pi, Qi) = 2 1, +-REiQ t , M t ) ^ 難 ι = ^ M ¾ 酵

상기 수학식에서 , M/은 P 및 Q/의 평균 FFP 이고, RE 는 상대적 엔트로피이다. In the above equation, M / is the average FFP of P and Q / , and RE is the relative entropy.

하기 실시예를 참조하여 본 발명의 구체적인 실시예를 설명하면, 어떤 한 개체의 SNP-Ss FFP 와 가장 작은 JS (Jensen-Shannon) 발산을 갖는 다른 개체가 유방암 환자인 경우, 상기 개체는 유방암에 대한 민감성 (susc印 tibility)이 높은 것으로 판정될 수 있다. Specific embodiments of the present invention will be described with reference to the following examples, in which one individual has the SNP-Ss FFP and the smallest JS (Jensen-Shannon) divergence. If the other subject is a breast cancer patient, the subject may be determined to have high susceivability to breast cancer.

이렇게 하여 얻은 페어와이즈 올-어겐스트 을 (pair-wise all- against-all) 거리들을 거리 매트릭스에 저장한다. 거리 매트릭스에서 동일한 대상들 (identical objects)은 0 의 거리를 가지며, 상이한 대상 (dissimilar objects)은 큰 거리를 갖는다.  The pairwise all-against-all distances thus obtained are stored in the distance matrix. In the distance matrix, identical objects have a distance of zero and different dissimilar objects have a large distance.

FFPs 사이의 거리 관계는 다양한 방식 (예컨대, 최근접 -이웃 연결 맵 또는 계통적 트리)으로 가시화 할 수 있다 (참조: 도 3).  The distance relationship between FFPs can be visualized in various ways (eg, nearest-neighbor connection map or systematic tree) (see FIG. 3).

FFPs 를 분류하는 방법은 클래스 예측 알고리즘 (class prediction algorithm)을 이용하여 실시할 수 있으며, 예를 들어 SVM(support vector machine)으로 할 수 있다.  The method of classifying FFPs may be performed using a class prediction algorithm, for example, as a support vector machine (SVM).

본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석 대상이 되는 유기체는 동물, 식물, 진균, 효모, 박테리아 또는 프로티스트 (protist)이다. 본 발명에 의해 분석 가능한 동물은 포유동물, 곤층, 파충류 및 조류를 포함하나 이에 한정되는 것은 아니다. 바람직하게는, 본 발명에 의해 분석되는 동물은 인간, 마우스, 래트, 소, 돼지, 말, 양, 토끼, 염소, 조류, 어류 및 곤층을 포함한다.  According to a preferred embodiment of the present invention, the organism to be analyzed in the present invention is an animal, a plant, a fungus, a yeast, a bacterium or a protist. Animals that can be analyzed by the present invention include, but are not limited to, mammals, strata, reptiles, and birds. Preferably, the animals analyzed by the present invention include humans, mice, rats, cattle, pigs, horses, sheep, rabbits, goats, birds, fish, and stratum.

본 발명에 의해 분석 가능한 식물은 단자엽 식물, 쌍자엽 식물 및 앨지 (algae)를 포함하나, 이에 한정되는 것은 아니다. 바람직하게는, 본 발명에 의해 분석되는 식물은 벼, 밀, 보리, 옥수수, 콩 감자, 밀, 팔, 귀리 및 수수를 포함하는 식량 작물류; 아라비돕시스, 배추, 무, 고추, 딸기, 토마토, 수박, 오이, 양배추, 참외, 호박, 파, 양파 및 당근을 포함하는 채소 작물류; 인삼, 담배, 목화, 참깨, 사탕수수, 사탕무우, 들깨, 땅콩 및 유채를 포함하는 특용작물류; 사과나무, 배나무, 대추나무 복숭아, 양다래, 포도, 감글, 감, 자두, 살구 및 바나나를 포함하는 과수류; 장미, 글라디을러스, 거베라, 카네이션, 국화, 백합 및 률립을 포함하는 화훼류; 및 라이그라스, 레드클로버, 오차드그라스, 알파알파, 를페스큐 및 페레니얼라이그라스를 포함하는 사료작물류를 포함한다. 상기 박테리아의 예는 유박테리아 및 아키박테리아를 포함한다. 본 발명에 의해 분석 가능한 유박테리아의 예는 Escherichia coli, Thermus thermophi 1 ics, Bacillus subti lis, Bacillus s t earo thermoph ilus, Salmonella typhimuriu , Pseudo onas , Streptomyces , Staphylococcus, Lactobacillus, Lactococcus 및 Streptococcus 를 포함하나, 이에 한정되는 것은 아니다. 본 발명에 의해 분석 가능한 아키박테리아의 예는 Methanococcus jannaschi i (Mj ), Methanosarcina azei (Mm) , Methanobacterium thermoautotroph icu (Mt) , Methanococcus maripaludis, Methanopyrus kandleri , Halobacterium, Archaeoglobus fulgidus (Af), Pyrococcus horikoshi i (Ph), Pyrobaculimi aerophi lum, Pyrococcus abyss/, Sulfolobus solfataricus (Ss), Sulfolobus tokodaii , Aeuropyrum pernix (Ap), Thermoplasina acidophi lum 및 Thermoplasma volcanium 를 포함하나, 이에 한정되는 것은 아니다. Plants that can be analyzed by the present invention include, but are not limited to, monocotyledonous plants, dicotyledonous plants and algae. Preferably, the plants analyzed by the present invention are food crops, including rice, wheat, barley, corn, soybean potatoes, wheat, palm, oats and sorghum; Vegetable crops including arabidopsis, cabbage, radish, peppers, strawberries, tomatoes, watermelons, cucumbers, cabbages, melons, pumpkins, green onions, onions, and carrots; Special crops including ginseng, tobacco, cotton, sesame, sugar cane, sugar beet, perilla, peanuts and rapeseed; Fruit trees including apples, pears, jujube peaches, lambs, grapes, chisels, persimmons, plums, apricots and bananas; Flowers, including roses, gladiolus, gerberas, carnations, chrysanthemums, lilies, and yulips; And fodder crops, including lygras, red clover, orchardgrass, alphaalpha, pescue and perennial lygragrass. Examples of such bacteria include eubacteria and akibacteria. Examples of milk bacteria that can be analyzed by the present invention include, but are not limited to, Escherichia coli, Thermus thermophi 1 ics, Bacillus subti lis, Bacillus st earo thermoph ilus, Salmonella typhimuriu, Pseudo onas, Streptomyces, Staphylococcus, Lactobacillus, Lactococcus and Streptococcus It doesn't work. Examples of achibacteria that can be analyzed by the present invention include Methanococcus jannaschi i (Mj), Methanosarcina azei (Mm), Methanobacterium thermoautotroph icu (Mt), Methanococcus maripaludis, Methanopyrus kandleri, Halobacterium, Archaeoglobus fulgidus (rocfh, ArocPus, ArocPh, ), Pyrobaculimi aerophi lum, Pyrococcus abyss /, Sulfolobus solfataricus (Ss), Sulfolobus tokodaii, Aeuropyrum pernix (Ap), Thermoplasina acidophi lum and Thermoplasma volcanium.

본 발명에 의해 분석 가능한 프로티스트 (protist)는 조류 (algae), 플라스모듐 (Plasmodium), 파이토프토라 (Phytophthora), 슬라임 몰드 (slime molds), 원층류 (protozoans)를 포함하나, 이에 한정되는 것은 아니다.  Protists that can be analyzed by the present invention include, but are not limited to, algae, Plasmodium, Phytophthora, slime molds, protozoans It is not.

본 발명의 바람직한 구현예에 따르면, 분석대상의 변이는 유기체의 형질 (traits)과 연관된 변이이고 본 발명의 방법은 유기체의 형질 (traits)에 대한 민감성을 예측하는데 이용된다.  According to a preferred embodiment of the invention, the mutation of the analyte is a mutation associated with the traits of the organism and the method of the invention is used to predict sensitivity to the traits of the organism.

본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 형질은 나쁜 형질 (adverse traits)로서 , 질환 (diseases), 질병 (disorders), 상태 (conditions) 또는 증상 (symptoms)이다. 예를 들어, 상기 질환, 질병, 상태 또는 증상은 암, 종양, 만성질환, 감염성 질환, 신경 질환, 대사성 질환, 면역질환, 염증성 질환, 심혈관 질환, 호흡기 질환, 골 질환, 갑상선 질환, 이비인후과 질환ᅳ 안과 질환, 피부과 질환, 치과 질환, 내분비 질환, 위장과 질환, 유전성 질환, 근골격계 질환, 관절염, 비만 및 고지혈증을 포함하나, 이에 한정되는 것은 아니다. 보다 바람직하게는, 본 발명에서 분석대상이 되는 형질은 암 질환이다ᅳ 예를 들어, 한 객체의 암 질환에 민감성 (susceptibility)을 본 발명에 의해 정량적으로 예측할 수 있다. According to a preferred embodiment of the present invention, the traits to be analyzed in the present invention are bad traits (adverse traits), diseases, disorders, conditions or symptoms. For example, the disease, disease, condition or symptoms may include cancer, tumor, chronic disease, infectious disease, neurological disease, metabolic disease, immune disease, inflammatory disease, cardiovascular disease, respiratory disease, bone disease, thyroid disease, otolaryngology Ophthalmic diseases, dermatological diseases, dental diseases, endocrine diseases, gastrointestinal diseases, hereditary diseases, musculoskeletal disorders, arthritis, obesity and hyperlipidemia. More preferably, the trait to be analyzed in the present invention is a cancer disease. For example, susce ptibility to a cancer disease of one subject can be quantitatively predicted by the present invention.

본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 형질은 이점이 되는 (advantegeous) 형질로서, 성장속도, 수율 또는 질 (quality)이다.  According to a preferred embodiment of the present invention, the trait to be analyzed in the present invention is an advantegeous trait, which is growth rate, yield or quality.

본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 변이는 유기체의 치료 (therapy) 반웅성 (responsiveness)과 연관된 변이이고 상기 방법은 유기체의 치료 반응성을 예측하는데 이용된다. 치료 반웅성의 대표적인 예는 약물 반웅성 (drug responsiveness)이다. 특정 약물에 대하여 반응성이 있는 사람 (respondent), 반웅성이 없는 사람 (non-respondent) 및 역반응성이 있는 사람 (adverse respondent)를 본 발명에 의해 판정할 수 있다.  According to a preferred embodiment of the present invention, the mutation to be analyzed in the present invention is a mutation associated with the therapeutic responsiveness of the organism and the method is used to predict the therapeutic responsiveness of the organism. A representative example of treatment response is drug responsiveness. Respondents, non-respondents, and reverse respondents with respect to a particular drug can be determined by the present invention.

본 발명의 일 구현예에 따르면, 본 발명에 의해 분석된 변이는 멀티클래스 암 분류 (mult iclass cancer classification)에 이용될 수 있다. 암 치료에 있어서 가장 중요한 것은, 환자의 암에 대한 정확한 진단 또는 정보이다. 이러한 정확한 진단을 위하여 멀티클래스 암 분류가 필요하다 (참조: Ramaswamy S, et al . (2001) . Multi class cancer diagnosis using tumor gene expression signatures. PNAS USA 98(26) : 15149— 54) . 본 발명은 이러한 멀티클래스 암 분류에 이용될 수 있다.  According to one embodiment of the present invention, the mutations analyzed by the present invention can be used for multi iclass cancer classification. The most important thing in the treatment of cancer is the accurate diagnosis or information about the cancer of the patient. Multiclass cancer classification is required for such accurate diagnosis (Ramaswamy S, et al. (2001). Multi class cancer diagnosis using tumor gene expression signatures. PNAS USA 98 (26): 15149-54). The present invention can be used for this multiclass cancer classification.

본 발명의 다른 양태에 따르면, 본 발명은 하기의 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항 (instructions)이 포함된 (embodied) 컴퓨터 -독해가능한 (computer-readable) 저장 매체를 제공한다: (a) 상기 변이들의 연계 스트링 (linked string)을 구축하는 단계 ; (b) 상기 연계 스트링의 전체 길이를 따라 특정 길이의 슬라이딩 원도우를 적용하여 특정 길이의 변이 신택스 (variation syntax: VAR-S)를 구축하는 단계; (c) 상기 특정 길이의 변이 신택스에서 모든 가능한 특징들 (features)을 카운트하고 특징 빈도 프로파일 (feature frequency profiles: FFPs)로 어셈블링 하는 단계; 및 (d) 상기 FFPs 사이의 거리를 결정하거나 또는 FFPs 를 분류 (classify)하는 단계. According to another aspect of the invention, the invention provides a computer-readable storage medium embodied with instructions instructing a computer processor to perform the following steps: (a Constructing a linked string of the variants; (b) constructing a variation syntax (VAR-S) of a specific length by applying a sliding window of a specific length along the entire length of the linking string; (c) counting all possible features in the particular length variation syntax and assembling them into feature frequency profiles (FFPs) step; And (d) determining the distance between the FFPs or classifying the FFPs.

본 발명의 또 다른 양태에 따르면, 본 발명은 다음을 포함하는 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 시스템을 제공한다:  According to another aspect of the invention, the invention provides a system for analyzing genomic variation or epigenomic variation of an organism comprising:

(a) 컴퓨터 프로세서 ; 및  (a) a computer processor; And

(b) 상기 프로세서와 커플링된 상기 본 발명의 컴퓨터- 독해가능한 (computer-readable) 저장 매체.  (b) the computer-readable storage medium of the present invention coupled with the processor.

본 발명의 저장메체 및 시스템은 상술한 본 발명의 방법을 실시하기 위한 것으로서, 이 둘 사이에 공통된 내용은 본 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.  The storage medium and system of the present invention are for carrying out the method of the present invention as described above, and the contents in common between the two are omitted in order to avoid excessive complexity of the present specification.

본 발명의 저장 매체는 특별하게 제한되지 않으며, 당멉계에 공지된 다양한 저장 매체, 예컨대, CD-R, CD-ROM, DVD, 케리어 웨이브에 내포된 데이터 시그널, 플래쉬 메모리, 플로피 디스크, 하드 드라이브, 마그네틱 테이프, MINIDISC, 비휘발성 메모리 카드, EEPR0M, 광학 디스크, 광학 저장매체, RAM, ROM, 시스템 메모리 및 웹 서버를 포함하나, 이에 한정되는 것은 아니다.  The storage medium of the present invention is not particularly limited, and various storage media known in the art, for example, CD-R, CD-ROM, DVD, data signals contained in carrier waves, flash memory, floppy disks, hard drives, Magnetic tapes, MINIDISC, nonvolatile memory cards, EEPR0M, optical disks, optical storage media, RAM, ROM, system memory, and web servers.

본 발명의 시스템은 다양한 방식으로 구축될 수 있다. 예컨대, 본 발명의 시스템은 멀티ᅳ프로세서 컴퓨터 어레이, 웹 서버 및 멀티- 유저 /인터액티브 시스템 등으로 구축될 수 있다.  The system of the present invention can be built in a variety of ways. For example, the system of the present invention may be built with a multiprocessor computer array, a web server and a multi-user / interactive system.

본 발명의 시스템은 다양한 요소 (element)를 포함할 수 있으며, 예를 들어, 변이 (예컨대, SNP) 정보 저장 데이터베이스, 변이들의 연계 스트링을 만드는 프로세서, 변이 신택스 (예컨대ᅳ SNP— S)를 구축하는 프로세서, 변이 신택스 (예컨대, SNP-S/)의 최적 길이를 결정하는 프로세서, FFP 생성기 (generator), FFPs 사이의 거리 결정을 실행하는 프로세서 , 거리 매트릭스를 작성하는 프로세서 및 거리 매트릭스를 가시화 하는 프로세서를 포함하도록 구축할 수 있다. 발명의 제 2 발명인 통합적 접근 방법에 대한 상세한 설명은 다음과 같다: The system of the present invention may include various elements, for example, to construct a variant (e.g. SNP) information storage database, a processor to create an associative string of variants, to construct a variant syntax (e.g. SNP-S). Processor, processor to determine optimal length of variant syntax (e.g. SNP-S / ), FFP generator, processor to perform distance determination between FFPs, processor to create distance matrix and processor to visualize distance matrix Can be built to include The detailed description of the integrated approach of the second inventor of the invention is as follows:

본 발명의 다른 양태에 따르면, 본 발명은 다음 단계를 포함하는 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변아 (epigenomic ' variation)를 분석하기 위한 컴퓨터 실행 (computer implemented) 방법을 제공한다: According to another aspect of the invention, the invention provides a computer implemented method for analyzing genomic variation or epigenomic ' variation of an organism comprising the following steps:

(a) 상기 변이에 대한 최소 두 종류의 묘사자 (descriptor)를 구축하는 단계;  (a) constructing at least two kinds of descriptors for said mutations;

(b) 최소 두 종류의 클래스 예측 알고리즘 (class prediction algorithm)을 상기 최소 두 종류의 묘사자 각각에 적용시켜 상기 유기체의 지놈 변이 또는 후생학적 변이를 분석하여 최소 4 종류의 예측 결과를 얻는 단계; 및  (b) applying at least two kinds of class prediction algorithms to each of the at least two kinds of descriptors to analyze the genome variation or epigenetic variation of the organism to obtain at least four kinds of prediction results; And

(c) 상기 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘 (inference algorithm)에 적용하여 상기 유기체의 형질 (trait)을 최종적으로 예측하는 단계 .  (c) finally predicting the trait of the organism by applying at least four kinds of prediction results obtained in step (b) to an inference algorithm.

본 발명의 기본적인 전략은 변이에 대한 최소 두 종류의 묘사자를 최소 두 종류의 클래스 예측 알고리즘 (class prediction algorithm) 각각에 적용하고, 이러한 적용으로부터 나온 결과들을 적합 ^ 추론 알고리즘에 적용함으로써, 특정 개체의 변이 분석 (예컨대, 특정 형질에 대한 민감성)을 분석하는 것이다.  The basic strategy of the present invention is to apply a variation of a particular entity by applying at least two kinds of descriptors for the variation to each of at least two kinds of class prediction algorithms, and applying the results from these applications to the appropriate ^ inference algorithm. Assay (eg, susceptibility to specific traits).

본 발명에서의 분석 대상이 되는 지놈 변이는 유기체에서 발견되는 다양한 변이를 포함하며, 바람직하게는 뉴클레오타이드 서열에서의 SNPCsingle nucleotide polymorphism), 결손, 삽입 또는 반복 변이; 또는 후생학적 변이 (epigenomic variation)이다.  Genome mutations to be analyzed in the present invention include various variations found in organisms, preferably SNPCsingle nucleotide polymorphisms in nucleotide sequences), deletions, insertions or repeat variations; Or epigenomic variation.

본 발명에서 분석 대상이 되는 변이는 뉴클레오타이드 서열에 존재하는 변이이며, 상기 뉴클레오타이드 서열은 하나의 염색체 상의 서열, 복수의 염색체 상의 서열 또는 전체 지놈 서열이고, 보다 바람직하게는 전체 지놈 서열 (whole genome: WG)이다. 가장 바람직하게는 본 발명에서 분석 대상이 되는 변이는 전체 지놈 서열에 있는 SNPs이다. In the present invention, the mutation to be analyzed is a mutation present in a nucleotide sequence, and the nucleotide sequence is a sequence on one chromosome, a sequence on a plurality of chromosomes, or a whole genome sequence, more preferably a whole genome (WG). )to be. Most preferably, the mutations to be analyzed in the present invention are SNPs in the entire genome sequence.

본 발명에 따르면, 우선 변이에 대한 최소 두 종류의 묘사자 (descriptor)를 구축한다. 바람직하게는, 상기 변이에 대한 최소 두 종류의 묘사자는 (i) 각각의 변이가 이웃의 변이에 대하여 독립적이라는 것이 가정된 변이들의 프로파일 (예컨대, 정돈된 SNPs 의 프로파일) 및 (ii) 특정 길이의 연계된 변이인 상술한 변이 신택스 (VAR— S) (예컨대ᅳ SNP 신택스)의 프로파일을 포함한다. 두 가지 묘사자 중 하나로서 신택스 (VAR- S) (예컨대, SNP 신택스)를 이용하는 것은, 각각의 변이 (예컨대, SNP) 위치가 독립적이지 않고, 다양한 정도로 이웃과 연결되어 있다는 사실 때문이다.  According to the invention, at least two kinds of descriptors for the mutation are constructed. Preferably, the at least two kinds of descriptors for the variation are: (i) the profile of the variations (eg, the profile of ordered SNPs) assuming that each variation is independent of the neighbor's variation and (ii) a particular length Profiles of the above-described variant syntax (VAR-S) (eg SNP syntax) that are associated variants. The use of syntax (VAR-S) (eg SNP syntax) as one of two descriptors is due to the fact that each variation (eg SNP) location is not independent and is connected to neighbors to varying degrees.

본 발명의 바람직한 구현예에 따르면, 단계 (a)는 변이들 각각에 코드를 부여하여 상기 코드의 스트링을 구축하여 실시한다.  According to a preferred embodiment of the invention, step (a) is carried out by constructing a string of codes by assigning a code to each of the variants.

보다 바람직하게는, 단계 (a)는 SNP 의 유전자형 (genotype) 각각에 코드를 부여하여 상기 코드의 스트링을 구축하여 실시한다.  More preferably, step (a) is performed by assigning a code to each genotype of the SNP to construct a string of the codes.

본 발명의 바람직한 구현예에 따르면, 분석대상의 변이들은 SNPs 이고, 상기 SNPs 는 (i) 5% 이하 (보다 바람직하게는, 4% 이하, 보다 더 바람직하게는 3% 이하, 보다 더욱 더 바람직하게는 2% 이하, 가장 바람직하게는 1¾ 이하)의 대립유전자 빈도를 나타내는 SNPs 의 제거, (ii) 하디 와인버그 평형 시험 (Hardy Weinberg Equilibrium test) 및 (ii) 플레이트 -효과 시험으로 구성된 군으로부터 선택되는 최소 1 개의 방법에 의해 QCXQuality control)된 SNPs 이다. 이러한, 샘플 QC는 본 발명의 분석 결과가 보다 정확하게 되도록 한다.  According to a preferred embodiment of the invention, the analytes are SNPs, wherein the SNPs are (i) 5% or less (more preferably 4% or less, even more preferably 3% or less, even more preferably Is a minimum selected from the group consisting of removal of SNPs exhibiting an allele frequency of 2% or less, most preferably 1¾ or less), (ii) Hardy Weinberg Equilibrium test and (ii) Plate-effect test SNPs QCX Quality controlled by one method. As such, sample QC allows the analytical results of the present invention to be more accurate.

변이 신택스를 이용한 구체적인 분석 방법은 상술한 내용과 동일하기 때문에, 본 발명의 저장매체 및 시스템은 상술한 본 발명의 방법을 실시하기 위한 것으로서, 이 둘 사이에 공통된 내용은 본 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다. 본 발명의 단계 (b)에서 적용되는 클래스 예측 알고리즘 (class prediction algorithm)은 당업계에서 공지된 다양한 알고리즘을 포함하며, 예컨대, ^r-최인접 이웃 O-nearest neighbor: N) 알고리즘 (Bremner 으 et al . , (2005) . "Output— sensit ive algorithms for computing nearest— neighbor decision boundaries" . Discrete and Computational Geometry 33 (4) :593-604), 서포트 백터 머쉰 (support vector machine: SVM) 알고리즘 (Theodor idis S & Koutroumbas K (2009) Pattern recognition) , 컴파운드 공변량 예즉자 (compound covar iate predictor)(Emura T, et al . , (2012) Survival Predict ion Based on Compound Covar iate under Cox Proportional Hazard Models. PLoS ONE 7(10) :e47627) , 선형 판별 분석 (Linear Discriminant Analysis, LDA)(McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience) 및 대각선 선형 판별 분석 (Diagonal Linear Discriminant Ana lysis) (McLach 1 an , G. J. (2004) . Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience)을 포함한다. Since the specific analysis method using the variance syntax is the same as described above, the storage medium and the system of the present invention are for carrying out the method of the present invention described above, and the common content between the two is to avoid excessive complexity of the present specification. For that reason, the description is omitted. The class prediction algorithm applied in step (b) of the present invention includes various algorithms known in the art, for example, the ^ r-nearest neighbor O-nearest neighbor (N) algorithm (Bremner et al. al., (2005). “Output—sensit ive algorithms for computing nearest—neighbor decision boundaries.” Discrete and Computational Geometry 33 (4): 593-604), support vector machine (SVM) algorithms (Theodor idis). S & Koutroumbas K (2009) Pattern recognition, compound covar iate predictor (Emura T, et al., (2012) Survival Predict ion Based on Compound Covar iate under Cox Proportional Hazard Models. PLoS ONE 7 ( 10): e47627), Linear Discriminant Analysis (LDA) (McLachlan, GJ (2004) .Discriminant Analysis and Statistical Pattern Recognition.Wieley Interscience) , GJ (2004) Discriminant Analysis and Statistical Pattern Recognition.Wieley Interscience.

본 발명의 바람직한 구현예에 따르면, 단계 (b)에서 적용되는 클래스 예측 알고리즘은 최인접 이웃 r-nearest neighbor: ANN) 알고리즘. 및 서포트 백터 머쉰 (support vector machine: SVM) 알고리즘을 포함한다. According to a preferred embodiment of the present invention, the class prediction algorithm applied in step (b) is an r-nearest neighbor (ANN) algorithm . And support vector machine (SVM) algorithms.

최인접 이웃 분석 알고리즘은 시험 개체의 k 최인접 이웃을 서치한다. 분석 알고리즘에 있어서, 한 개체의 묘사자와 모든 개체들 각각의 묘사자 사이에 모든 짝 (pairwise) "거리들 "을 계산한다. 이어, 시험 개체에 대한 ANNs 를 선택하고, 개체가 A Ns 중에서 최공통 형질에 민감한지 여부를 예측한다.  The nearest neighbor analysis algorithm searches the k nearest neighbors of the test subject. In the analysis algorithm, all pairwise "distances" are calculated between the descriptor of one entity and the descriptor of each entity. ANNs are then selected for the test subject and predicted whether the subject is sensitive to the most common traits among the A Ns.

서포트 백터 머쉰 (SVM) 알고리즘은 시험 개체가 속하는 것으로 판단되는 최가능성 클래스 (most likely class)를 동정하는 분별 분류 방법이다. SVM 분석 알고리즘에 있어서, SVM 을 훈련시켜 모든 이원적 형질들의 각각에서 하나의 개체의 타당한 형질 (correct trait)을 인식하도록 한다. 최종적으로, SVM 에 의한 모든 쌍 분류들의 최대 선출을 갖는 것을 최가능성 형질에 대한 시험 개체의 민감성을 예측한다. The support vector machine (SVM) algorithm is a fractional classification method that identifies the most likely class to which the test subject belongs. In the SVM analysis algorithm, the SVM is trained to correct the correct trait of one individual in each of all binary traits. Be aware. Finally, having the maximum selection of all pair classifications by SVM predicts the susceptibility of the test subject to the most likely trait.

본 발명의 일 구현예에 따르면, 상기 변이에 대한 묘사자는 VAR-S 와 프로파일이고, 상기 클래스 예측 알고리즘은 최인접 이웃 알고리즘이며, 상기 단계 (b)는 (b-1) 파풀레이션에서 20% 이하의 낮은 빈도로 발견되는 희귀 VAR-S 를 선별하는 소단계; (b-2) 회귀 VAR-S 의 총수로 정규화 (normalization) 하는 소단계; (b-3) 희귀 VAR-S 의 프로파일을 이용하여 JS(Jensen-Shannon) 발산 매트릭스를 구축하는 소단계; 및 (b-4) 상기 JS 발산 매트릭스를 이용하여 상기 유기체에 대한 k-최인접 이웃 (扁)을 선별하는 소단계를 포함한다. 이 구현예는 KNN/VAR-S(SNP 에 적용되는 경우, KNN/SNP-S)로 약칭된다.  According to one embodiment of the invention, the descriptor for the variation is a VAR-S and a profile, the class prediction algorithm is the nearest neighbor algorithm, and step (b) is less than 20% in (b-1) population A small step of selecting rare VAR-S found at low frequency of; (b-2) sub-steps to normalize to the total number of regression VAR-S; (b-3) constructing a Jensen-Shannon (JS) divergence matrix using the profile of the rare VAR-S; And (b-4) selecting a k-nearest neighbor for the organism using the JS divergence matrix. This embodiment is abbreviated as KNN / VAR-S (KNN / SNP-S, when applied to SNP).

KNN/SNP-S 를 보다 상세하게 설명하면 다음과 같다: 훈련 세트의 모든 멤버에 대한 SNP-Ss 의 백터를 얻은 다음, 특징 선별 단계를 진행한다. 이 단계에서, 파풀레이션의 어떤 퍼센티지에 의해 공유되는 신택스를 제거 (필터-아웃) 하고, 잔여분 (필터—인)을 분석에 이용한다. 그런 다음, 개체의 희귀 SNP 신택스의 총 수로 정규화 한다. 최종적으로, 희귀 SNP 신택스를 이용하여 모든 멤버들 사이의 JS 발산 매트릭스를 구축한다. 묘사자의 거리를 측정하기 위하여 JS 발산을 선택한 이유는, 대립유전자 공유 (allele sharing)와 같은 다른 통상적인 방법들보다 예측능이 우수하기 때문이다. 모든 개체, 각각의 개체에 대하여 짝 JS 거리를 측정한 다음, 상위 최근접 개체들 중에서 클래스들을 선출 또는 투표하고 가장 높은 카운트를 갖는 것을 선택한다. 훈련 데이터세트에 대한 형질 (예컨대, 암 민감성) 추정의 최고 정확도를 위하여, SNP-S 의 최적 길이, 1, 저빈도 선택에 대한 f 파라미터, 파라미터 k 를 최적화 한다. 시험 단계에서, 동일한 / 과 / 의 최적 파라미터를 이용한다. 이어, 개체 및 훈련 샘플 사이의 JS 거리 백터를 측정하고, 최적 파라미터로 훈련 단계에서 동일한 선출 과정을 통해, 시험 개체들을 예측한다. 본 발명의 일 구현예에 따르면, 상기 변이에 대한 묘사자는 변이의 프로파일이고, 상기 클래스 예측 알고리즘은 서포트 백터 머쉰 (SVM) 알고리즘이며, 상기 단계 (b)는 (b-1) 10'2 내지 1우6의 낮은 P-값을 갖는 변이를 선별하는 소단계; (b-2) 모든 이원적 형질 (binary traits) 각각에 대하여 SVM 을 실시하는 소단계; 및 (iii) 최대-원 선출 (max-win voting) 방식에 따라 분류하는 소단계를 포함한다. 이 구현예는 SVM/VAR(SNP 에 적용되는 경우, SVM/SNP)로 약칭된다. The KNN / SNP-S is described in more detail as follows: A vector of SNP-Ss for all members of the training set is obtained, followed by a feature selection step. At this stage, the syntax shared by any percentage of population is removed (filtered out) and the remainder (filtered in) is used for analysis. It is then normalized to the total number of rare SNP syntax of the subject. Finally, we use the rare SNP syntax to build the JS divergence matrix between all members. The reason why JS divergence was chosen to measure the distance of the descriptor is that it is more predictable than other conventional methods such as allele sharing. Measure the paired JS distance for every entity, each entity, then select or vote classes among the top nearest entities and select the one with the highest count. For the best accuracy of trait (eg cancer susceptibility) estimation for training datasets, optimize SNP-S for optimal length, 1, f parameter for low frequency selection, and parameter k. In the testing phase, the same / and / optimal parameters are used. The JS distance vector between the subject and the training sample is then measured and the test subjects are predicted through the same selection process in the training phase with the optimal parameters. According to one embodiment of the invention, the descriptor for the variation is a profile of the variation, the class prediction algorithm is a support vector machine (SVM) algorithm, and step (b) is (b-1) 10 '2 to 1 Substep selecting mutations with a low P-value of 6 ; (b-2) substeps of performing SVM on each of all binary traits; And (iii) substeps classified according to a max-win voting scheme. This embodiment is abbreviated SVM / VAR (SVM / SNP, if applied to SNP).

SVM/SNP 를 보다 상세하게 설명하면 다음과 같다: SVM 은 다양한 방식으로 실시할 수 있으며, 예를 들어 One-Versus— One(OVO) 방식으로 실시한다. 0V0 방법은 2 클래스들의 각각의 쌍에 대한 n(n—l)/2 분류자를 생성하고, 시험 샘플에 대한 n(n-l)/2예측들로부터 가장 높은 선출을 갖는 클래스를 취한다. 0V0 SVM 방법을 실시하기 위하여, Chang et al 의 LIBSVM 을 이용한다 (Chang CC & Lin CJ (2011) LIBSVM: A Library for Support Vector Machines. Acm T Intel Syst Tec 2(3)). 커널함수에 대하여 RBF( adial Basis Function)을 선택한다. SNP 묘사자의 바이너리 분류자를 구축하기 위하여, 소정의 P-값 역치 (p)에 대하여 SNPs 를 필터링-아웃하여 두 개의 클래스 사이에 연관된 SNPs 를 선별한다. 1(Γ6보다 작은 컷오프는 적용하지 않는 것이 바람직하며, 연관 시험에 의한 필터링 후 어떤 분류자는 SNPs 를 남기지 않기 때문이다. 각각의 유전자형의 인코딩을 실시한다. 애매한 예측의 경우 (즉, 멀티플 최고 선출인 경우), 동점이 깨질 때까지 최고 선출의 클래스들의 세트에서 폴을 반복한다. SVM 을 훈련시켜 모든 이원적 형질들꾀 각각에서 하나의 개체의 타당한 형질 (correct trait)을 인식하도록 한다. 최종적으로, SVM에 의한 모든 쌍 분류들의 최대 선출을 갖는 것을 시험 개체의 최가능성 형질 (most likely trait)로 예측한다. A more detailed description of SVM / SNP is as follows: SVM can be implemented in a variety of ways, for example in the One-Versus—One (OVO) method. The 0V0 method produces an n (n−l) / 2 classifier for each pair of two classes and takes the class with the highest election from n (nl) / 2 predictions for the test sample. To implement the 0V0 SVM method, LIBSVM from Chang et al is used (Chang CC & Lin CJ (2011) LIBSVM: A Library for Support Vector Machines. Acm T Intel Syst Tec 2 (3)). Choose the adial basis function (RBF) for the kernel function. To build a binary classifier of SNP descriptors, the SNPs are filtered out for a given P-value threshold (p) to select the associated SNPs between the two classes. It is recommended that cutoffs less than 1 (Γ 6) should not be applied, since some classifiers do not leave SNPs after filtering by the association test. Encoding each genotype is done in the case of ambiguous predictions (ie multiple best elections). Repeat the poles in the set of highest elected classes until the tie breaks, and train the SVM to recognize the correct trait of one individual in each of the two binary traits. The most likely trait of the test subject is predicted to have the maximum election of all pair classifications by SVM.

본 발명의 일 구현예에 따르면, 상기 변이에 대한 묘사자는 변이의 프로파일이고, 상기 클래스 예측 알고리즘은 ^최인접 이웃 알고리즘이'며, 상기 단계 (b)는 (b-1) 파풀레이션에서 20% 이하의 낮은 빈도로 발견되는 희귀 변이를 선별하는 소단계; (b-2) 희귀 변이의 총수로 정규화 (normalization) 하는 소단계; (b_3) 상기 희귀 변이의 프로파일올 이용하여 JS 발산 매트릭스를 구축하는 소단계 ; 및 (b-4) .상기 JS 발산 매트릭스를 이용하여 상기 유기체에 대한 k-최인접 이웃 NN)을 선별하는 소단계를 포함한다. 이 구현예는 KNN/VAR(SNP에 적용되는 경우, N/SNP)로 약칭된다. SNP-S 묘사자를 SNP 로 대체하고 KNN/SNP-S 와 동일한 과정을 실시하여 , KNN/SNP를 실시한다 . According to one embodiment of the present invention, The description of the variation and the profile of the variation, the class prediction algorithm ^ closest neighbor algorithm, said, step (b) is 20% of the (b-1) papul illustration. Found at a lower frequency of Small steps of screening for rare mutations; (b-2) substep normalizing to the total number of rare mutations; (b_3) constructing a JS divergence matrix using the profile of the rare variant; And (b-4) selecting a k-nearest neighbor NN) for the organism using the JS divergence matrix. This embodiment is abbreviated as KNN / VAR (N / SNP, if applied to SNP). Implement KNN / SNP by replacing the SNP-S descriptor with SNP and following the same procedure as KNN / SNP-S.

본 발명의 일 구현예에 따르면, 상기 변이에 대한 묘사자는 VAR-S 의 프로파일이고, 상기 클래스 예측 알고리즘은 서포트 백터 머쉰 (SVM) 알고리즘이며, 상기 단계 (b)는 (b-l) 10— 2 내지 10— 6 의 낮은 P-값을 갖는 VAR-S 를 선별하는 소단계; (b-2) 모든 이원적 형질 (binary traits) 각각에 대하여 SVM 을 실시하는 소단계; 및 (iii) 최대-원 선출 (max-win voting) 방식에 따라 분류하는 소단계를 포함한다. 이 구현예는 SVM/VAR— S(SNP 에 적용되는 경우, SVM/SNP-S)로 약칭된다. SNP 대신에 SNP-S 를 이용하여 SVM/SNP 와 동일한 과정을 실시하여, SVM/VAR-S 를 실시한다. SVM/VAR-S 의 경우, SNP-S의 최적 길이에 대한 추가적인 파라미터가 이용된다. According to one embodiment of the present invention, The description of the variation and the VAR-S profile, the class prediction algorithm is a support vector machine (SVM) algorithm, wherein step (b) is a (bl) 10- 2 to 10 — Small step of selecting VAR-S with low P-value of 6 ; (b-2) substeps of performing SVM on each of all binary traits; And (iii) substeps classified according to a max-win voting scheme. This embodiment is abbreviated as SVM / VAR— S (SVM / SNP-S, if applied to SNP). Instead of SNP, SVM / SNP is performed using SNP-S and SVM / VAR-S is performed. For SVM / VAR-S, additional parameters for the optimal length of SNP-S are used.

본 발명에 따르면, 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘 (inference algorithm)에 적용하여 형질이 결정되지 않은 분석 대상의 유기체 또는 개체의 형질 (trait)을 최종적으로 예측한다.  According to the present invention, at least four kinds of prediction results obtained in step (b) are applied to an inference algorithm to finally predict traits of an organism or an individual whose trait is not determined.

본 발명의 일 구현예에 따르면, 단계 (c)에서 이용되는 추론 알고리즘은 베이지언 추론 (Bayesian inference) 알고리즘 및 보팅 스킴 (voting scheme)을 포함하고, 가장 바람직하게는 베이지언 추론 (Bayesian inference) 알고리즘이다.  According to one embodiment of the invention, the inference algorithm used in step (c) comprises a Bayesian inference algorithm and a voting scheme, most preferably a Bayesian inference algorithm. to be.

베이지언 추론 알고리즘에 적용하는 단계에 대한 구체적인 예를 설명하면 다음과 같다: 9 개 표현형 (8 종의 암 클래스 및 건강 형질) 중 하나로 개체들을 분류하기 위하여, 각각의 표현형을 각 형질의 전체 이니셜의 첫 번째 문자로 레이블링 한다. 상기 4 가지 방법의 예측 결과의 베이지언 추론을 이용한다. 이러한 방법들은 다음의 약칭을 갖는다: KNN/SNP-S, KNN/SNP, SVM/SNP-S, SVM/SNP. 상기 방법들은 수학적으로 각각 , nP, m4 으로 표시된다. 각각의 시험 개체 i 에 대하여, 훈련방법으로부터 얻은 예측 결과에 대하여 조건화된 가장 높은 사후확률의 형질을 선택하며, 이는 PCsi^i i fiJ^)^ 공식화 할 수 있다. 상기 식에서, s /는 개체 /의 예측 형질 , 는 방법 ? 에 의해 예측된 개체 /와 형질을 나타낸다. 베이지언의 정리 (Bayes theorem)에 의해, 다음과 같이 나타낼 수 있다:

Figure imgf000020_0001
분모 sil^ ^ fi ^)^ 정규화 상수이기 때문에, 분모는 빠지게 된다. 각 방법의 예측 결정은 서로 내재적으로 독립적이기 때문에, 체인규칙을 적용한다 (Zhang H (2005) Exploring conditions for the optimality of Naive bayes . Int J Pattern Recogn 19(2): 183-198): Specific examples of the steps applied to the Bayesian inference algorithm are as follows: In order to classify individuals into one of nine phenotypes (eight cancer classes and health traits), each phenotype is represented by the total initials of each trait. Label it with the first character. Bayesian inference of the prediction results of the four methods is used. These methods have the following shorthand: KNN / SNP-S, KNN / SNP, SVM / SNP-S, SVM / SNP. The methods are mathematically represented by nP and m 4 , respectively. For each test subject i, the highest post-probability trait conditioned on the predictions obtained from the training method is selected, which can be formulated as PCsi ^ ii fiJ ^) ^. Where s / is the predicted trait of the individual / and how? Represent the individual / and traits predicted by. By Bayesian theorem, Bayes theorem can be expressed as:
Figure imgf000020_0001
Denominator sil ^ ^ fi ^) ^ Since this is a normalization constant, the denominator is omitted. Since the prediction decisions of each method are inherently independent of each other, we apply the chain rule (Zhang H (2005) Exploring conditions for the optimality of Naive bayes. Int J Pattern Recogn 19 (2): 183-198):

t瞧 = argmaxteT J^ i P(M^f /s/ =t)^ Pfs, = i) 상기 식에서, P 'ilsft) 및 P(Si=t)는 4 가지 방법 각각의 훈련기 동안 관찰된 사항으로부터 최대우도 추정에 의해 경험적으로 추론될 수 있다. 예를 들어, 훈련 세트에서 전체 BRCA 샘플들 중에서, ^N/SNP-S 방법에 의해 C0AD 로 추측된 진실된 BRAC 개체의 일부를 동정함으로써 P (싀 C/s尸 B)를 추정할 수 있다. P(Si=t)는 모든 훈련 개체들의 형질 의 샘플의 일부에 해당하는 것이며, 이는 9 개 형질 각각에 대하여 동일하다 (각각의 형질에 대하여 동일한 샘플 크기를 이용하기 때문이다). 이러한 추론 과정을 통하여, 형질이 결정되지 않은 개체가 어떠한 형질을 갖는 지를 결정 (분류)한다. t 瞧 = argmaxteT J ^ i P (M ^ f / s / = t) ^ Pfs, = i) where P ' ilsft) and P ( Si = t) are obtained from the observations during each of the four methods. It can be inferred empirically by maximal likelihood estimation. For example, among the total BRCA samples in the training set, P (정 C / s 尸 B) can be estimated by identifying some of the true BRAC individuals estimated to be C0AD by the ^ N / SNP-S method. P ( Si = t) corresponds to a portion of a sample of the traits of all trained individuals, which is the same for each of the 9 traits (since they use the same sample size for each trait). Through this inference process, it is determined (classified) what kind of trait the individual has not been determined.

본 발명의 일 구현예에 따르면, 상기 유기체의 형질은 질환 (diseases), 질병 (disorders) , 상태 (conditions), 증상 (symptoms) 또는 치'료 (therapy) 반응성 (responsiveness)이다. 보다 바람직하게는, 본 발명에서 분석대상이 되는 형질은 암 질환이다. 예를 들어, 한 객체의 암 질환에 민감성 (susceptibility)을 본 발명에 의해 정량적으로 예측할 수 있다. According to one embodiment of the present invention, transfection of the organism is a disease (diseases), disease (disorders), conditions (conditions), symptoms (symptoms) or the value "fee (therapy) reactivity (responsiveness). More preferably, the trait to be analyzed in the present invention is a cancer disease. For example, susceptibility to cancer disease in one subject can be quantitatively predicted by the present invention.

본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 형질은 이점이 되는 (advantegeous) 형질로서, 성장속도, 수율 또는 질 (quality)이다.  According to a preferred embodiment of the present invention, the trait to be analyzed in the present invention is an advantegeous trait, which is growth rate, yield or quality.

본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 변이는 유기체의 치료 (therapy) 반웅성 (responsiveness)과 연관된 변이이고 상기 방법은 유기체의 치료 반웅성을 예측하는데 이용된다. 치료 반응성의 대표적인 예는 약물 반웅성 (drug responsiveness)이다. 특정 약물에 대하여 반응성이 있는 사람 (respondent), 반응성이 없는 사람 (non-respondent) 및 역반웅성이 있는 사람 (adverse respondent)를 본 발명에 의해 판정할 수 있다. 본 발명의 다른 양태에 따르면, 본 발명은 하기의 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항 (instructions)이 포함된 (embodied) 컴퓨터 -독해가능한 (computer-readable) 저장 매체를 제공한다: (a) 상기 변이에 대한 최소 두 종류의 묘사자 (descriptor)를 구축하는 단계; (b) 최소 두 종류의 클래스 예측 알고리즘 (class prediction algorithm)을 상기 최소 두 종류의 묘사자 각각에 적용시켜 상기 유기체의 지놈 변이 또는 후생학적 변이를 분석하여 최소 4 종류의 예측 결과를 얻는 단계; 및 (c) 상기 단계 (b)에서 얻;은 최소 4 종류의 예측 결과를 추론 알고리즘 (inference algorithm)에 적용하여 상기 유기체의 형질 (trait)올 최종적으로 예측하는 단계 .  According to a preferred embodiment of the present invention, the variant to be analyzed in the present invention is a variation associated with the therapeutic responsiveness of the organism and the method is used to predict the therapeutic response of the organism. A representative example of therapeutic responsiveness is drug responsiveness. Respondents, non-respondents, and reverse respondents for a particular drug can be determined by the present invention. According to another aspect of the invention, the invention provides a computer-readable storage medium embodied with instructions instructing a computer processor to perform the following steps: (a Constructing at least two kinds of descriptors for the mutations; (b) applying at least two kinds of class prediction algorithms to each of the at least two kinds of descriptors to analyze the genome variation or epigenetic variation of the organism to obtain at least four kinds of prediction results; And (c) obtaining in step (b) the final prediction of the trait of the organism by applying at least four kinds of prediction results to an inference algorithm.

본 발명의 다른 양태에 따르면, 본 발명은 다음을 포함하는 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 시스템을 제공한다: (a) 컴퓨터 프로세서; 및 (b) 상기 프로세서와 커플링된 상기 컴퓨터—독해가능한 (computer-readable) 저장 매체. According to another aspect of the invention, the invention provides a system for analyzing genomic variation or epigenomic variation of an organism comprising: (a) a computer processor; And (b) the computer-readable storage medium coupled with the processor.

【효과] 【effect]

본 발명의 특징 및 이점을 요약하면 다음과 같다:  The features and advantages of the present invention are summarized as follows:

(a) 본 발명은 자연어의 단어를 갖는 두 텍스트를 비교하는 것과 유사하며, 이러한 방법을 통하여 한 개체에서 발견되는 다양한 변이 (예컨대 SNP)에 대한 체계적 특징 빈도 프로파일 (FFP)을 제공한다.  (a) The present invention is similar to comparing two texts with words of natural language, and through this method provides a systematic feature frequency profile (FFP) for various variations (eg SNPs) found in an individual.

(b) 또한, 본 발명은 FFPs 사이의 거리를 결정하여, 한 개체의 어떤 형질 (traits)에 대한 민감성 (susceptibility)을 정확하게 예측한다.  (b) The present invention also determines the distance between FFPs to accurately predict susceptibility to certain traits of an individual.

(c) 본 발명에 따르면, 시료 크기가 작은 경우에도 47— 76%의 정확도로 한 개체의 암 민감성을 예측할 수 있다. 그러나, 이 정확도는 SNP 유전자형 데이터의 규모가 커지면 증가될 수 있으며, 미리 classify 하면 더 증가될 수 있다.  (c) According to the present invention, cancer sensitivity of an individual can be predicted with an accuracy of 47 to 76% even when the sample size is small. However, this accuracy can be increased by increasing the size of the SNP genotype data, and can be further increased by classifying in advance.

(d) 제 2발명의 예측 정확도는 무작위 예측과 비교하여 몇 배 증가된 정확도를 나타내며, 이러한 예측의 정도는 개체 또는 파풀레이션의 건강 상태를 결정할 수 있을 정도로서 매우 개선된 예측 정확도를 나타낸다.  (d) The prediction accuracy of the second invention represents several times increased accuracy compared to the random prediction, and the degree of such prediction is highly improved prediction accuracy as it is possible to determine the health state of the individual or the population.

【도면의 간단한 설명】 [Brief Description of Drawings]

도 1 은 8 개 암 종류의 민감성을 평가하는 방법의 과정에 대한 다이아그램이다. 이 방법은 시료질 조절 스크리닝 및 유전자형 코딩과 같은 SNP 데이터 전처리, 공통 SNP 신택스의 필터링 및 SNP 신택스 빈도 (SNP- Ss 의 FFPs)의 프로파일링, 그리고 가장 작은 분기 ( "거리" )의 최근접 이웃 (시스터)을 규명하기 위한 쌍 FFPs 사이의 거리 계산과 같은 여러 과정으로 나뉜다.  1 is a diagram of the process of a method for assessing the sensitivity of eight cancer types. This method includes preprocessing of SNP data, such as sample conditioning screening and genotyping coding, filtering of common SNP syntax and profiling of SNP syntax frequencies (FFPs of SNP-Ss), and the nearest neighbors of the smallest branches ("distances"). There are several processes, such as calculating the distance between paired FFPs to identify the sister.

도 2 는 SNP-S 의 길이 (/) 및 백분율 필터링—인에 대한 암 민감성의 정확도 평가를 보여주는 그래프이다. 멀티클래스 암에 대한 위험도 평가의 퍼포먼스를 길이 (/)를 증가시키고 백분율 필터링 -인을 감소시키면서 측정하였다. 예를 들어, 2% 필터링은 2% 이하의 파풀레이션에서 발생되는 SNP-S/s 를 유지하는 것을 의미한다. 이 과정은 2% 이하의 파퓰레이션에서 존재하는 오직 "회귀" SNP-S/s 만을 유지한다. 회색선은 베이스라인 정확도를 나타내고 "No syntax' '는 SNP-Ss 의 FFP를 이용하지 않은, 즉 비- 연관된 특성으로서 전체 SNPs 의 비교에 의한 정확도 평가를 의미한다. 다른 1 값에 대한 부드러운 곡선들은 다른 색상의 선으로 나타나 있다. SNP-S 방법의 퍼포먼스와 비교할 대조군 곡선 (암적색)에 대하여, 개별 마커들의 프로파일을 작성하였고, 이 경우 각각은 코딩 SNPs 의 10 개 특징을 가지고 동형접합인 경우 카운트 1, 이형접합인 경우 카운트 0.5, 다른 경우에는 카운트 0 으로 하였다. 프로파일링 된 데이터를 가지고, 공통 특징 필터링으로부터 SNP 신택스 방법의 동일한 과정들을 적용하여 Jensen- Shannon 거리에서 최근접 이웃을 규명하였다. 2 is a graph showing the accuracy assessment of cancer sensitivity to length (/) and percentage filtering—phosphorus of SNP-S. Increase the performance of risk assessment for multiclass cancers while increasing length (/) and reducing percentage filtering-in Measured. For example, 2% filtering means maintaining SNP-S / s generated at less than 2% of population. This process retains only "regressive" SNP-S / s present in populations below 2%. The gray line represents the baseline accuracy and "No syntax" means the accuracy assessment by comparison of the entire SNPs as a non-associated feature, ie not using the FFP of the SNP-Ss. For the control curve (dark red) to compare with the performance of the SNP-S method, individual markers were profiled, in which case each had 10 characteristics of coding SNPs and counted 1 for homozygosity. The count is 0.5 for heterojunctions and 0 for other cases.With the profiled data, the nearest neighbors are identified at Jensen-Shanan distance by applying the same procedures of SNP syntax method from common feature filtering.

도 3은 최근접 -이웃 연결 맵이다. 594 개체 (8종류의 암 각각에서 66 개체 및 대조군 66 개체)의 최근접 이웃을 동정하였다. 각 개체는 희귀 SNP-S10s의 FFP로 나타내며 (2% 필터링-인), 한 개체의 최근접 이웃은 FFP가 첫 번째로부터 가장 작은 Jensen-Sha皿 on 발산 (거리)을 갖는 다른 개체로 규정된다. 암 종류는 외측 원의 외측에 기재되어 있고, 내측원에서 서로 다른 색상으로 표시되어 있으며, 원의 각 커브의 내부는 최근접- 이웃 ( "시스터" ) 상관성이 있는 두 개체를 연결한다. 곡선의 색상은 검색 멤버에 의한 최근접 -이웃 파운드의 암 종류와 동일하다 (또한 외측원에서 작은 샐의 색상과 동일함). 최근접 이웃 파운드는 동일 암 종류일 수 있거가 ( "진실한" 시스터) 또는 아닐 수 있다 ( "오류" 시스터). 검색 및 파운트 개체가 상호 교환가능한 경우, 곡선은 두꺼운 선으로 표시된다. 이들 중에서, 모든 오류 시스터 상관성에 대한 곡선은 암회색으로 표시된다. 색상 스킴은 다음과 같다: CEU, 적색; BRCA, 오렌지색; C0AD, 밝은 오렌지색; HNSC, 노란색; KIRC, 녹색; LGG, 밝은 청색; 0V, 청색; READ, 암청색; UCEC, 보라색. 이 맵은 circos 을 이용하여 제작되었다. 도 4 는 3 번 염색체에서 민감성 마커 대립유전자의 지놈 맵핑이다. 민감성 마커 대립유전자의 밀도는 각각의 암 종류에 대하여 색상이 있는 원 트랙 상에 히트-맵으로 표시되며 (내측에서부터 외측으로, CEU, 적색 ; BRCA, 오렌지색; C0AD, 밝은 오렌지색; HNSC, 노란색; KIRC, 녹색; LGG, 밝은 청색; 0V, 청색; READ, 암청색; UCEC, 보라색), 고밀도 부위는 어두운 색상으로 표시되어 있다. 가장 바깥쪽의 트랙은 3번 염색체의 사이토밴드를 보여주며, 레이블이 있는 밝은 청색 틱 마커는 공지의 암 유전자의 위치를 나타낸다. 사이토밴드 트랙 청색의 짧은 아치는 코카시안 파풀레이션에서 공지 암의 하나 이상의 G S 히트를 갖는 개별 사이토밴드를 나타낸다. 그 다음의 안쪽 트랙 상의 녹색의 짧은 막대는 유전암호 부위를 나타내고 그 다음의 안쪽 원은 발표된 SNPs 의 밀도를 보여준다. 이 맵은 circos 이용하여 제작되었다. 3 is a nearest-neighbor connection map. The nearest neighbors of 594 individuals (66 in each of the eight cancers and 66 controls) were identified. Each individual is represented by a rare SNP-S 10 s FFP (2% filtered-in), and the nearest neighbor of one individual is defined as another individual with FFP with the smallest Jensen-Sha 皿 on divergence (distance) from the first. do. Types of arms are listed on the outside of the outer circle, indicated by different colors in the inner circle, and the interior of each curve of the circle connects two entities with nearest-neighbor ("sister") correlations. The color of the curve is the same as the cancer type of the nearest-neighbor pound by the search member (also the color of the small sal in the outer circle). The nearest neighbor pound may or may not be the same cancer type ("true" sister) or not ("error" sister). If the search and found objects are interchangeable, the curve is represented by a thick line. Of these, the curves for all error sister correlations are shown in dark gray. The color scheme is as follows: CEU, red; BRCA, orange; C0AD, bright orange; HNSC, yellow; KIRC, green; LGG, light blue; 0 V, blue; READ, dark blue; UCEC, purple. This map was created using circos. 4 is a genome mapping of a sensitive marker allele on chromosome 3. The density of the sensitive marker allele is indicated by heat-maps on colored circle tracks for each cancer type (from inside to outside, CEU, red; BRCA, orange; C0AD, light orange; HNSC, yellow; KIRC , Green; LGG, light blue; 0V, blue; READ, dark blue; UCEC, purple), high density areas are indicated in dark colors. The outermost track shows the cytoband of chromosome 3, and the labeled light blue tick marker indicates the location of the known cancer gene. Cytoband tracks The blue short arches represent individual cytobands with one or more GS hits of known arms in Caucasus population. The green short bar on the next inner track shows the genetic code site and the next inner circle shows the density of the published SNPs. This map was created using circos.

도 5 는 공지의 두 암 유전자 (BRCA2 및 TP53)의 유전좌위 근처에 있는 민감성 마커 대립유전자를 맵핑한 것이다. 각각의 마커 대립유전자는 암 종류의 색상으로 원의 클러스터 (특정 SNP-S10 대립유전자를 구성하는 SNPs)로 표시되어 있다. X-축은 TP53 및 BRCA2 가 각각 발견되는 17 번 또는 13 번 염색체의 물리적 위치를 나타내며, Y-축은 서로 다른 암 종류들에 대한 다른 마커 대립유전자들을 나눈다: CEU, 적색; BRCA, 오렌지색; C0AD, 밝은 오렌지색; HNSC, 노란색; KIRC, 녹색; LGG, 밝은 청색; 0V, 청색; READ, 암청색; UCEC, 보라색. 민감성 마커 대립유전차들은 TP53 또는 BRCA2(각각은 점선의 수직선으로 표시됨)와 오버랩핑 되지 않는다. 재조합 비율은 청색의 스파이크로 표시되어 있고 상기 두 유전자 주변의 다른 유전자들은 각 그림의 하부 상자에 표시되어 있다. 이 그림은 Lo isZoom i/ J.을 이용하여 제작되었다. Figure 5 maps the sensitive marker alleles near the locus of two known cancer genes (BRCA2 and TP53). Each marker allele is represented by a cluster of circles (SNPs making up a specific SNP-S 10 allele) in the color of the cancer type. The X-axis represents the physical location of chromosome 17 or 13 where TP53 and BRCA2 are found, respectively, and the Y-axis divides different marker alleles for different cancer types: CEU, red; BRCA, orange; C0AD, bright orange; HNSC, yellow; KIRC, green; LGG, light blue; 0 V, blue; READ, dark blue; UCEC, purple. Sensitive marker alleles do not overlap with TP53 or BRCA2 (each represented by a dashed vertical line). Recombination ratio is indicated by blue spikes and the other genes around the two genes are indicated in the lower box of each figure. This picture was produced using Lo isZoom i / J.

도 6 은 QC(Quality Control) 결과를 보여준다. 그래프는 필터링 역치의 함수로서 서로 다른 QC 기준으로부터 서로 다른 데이터세트의 전체적인 정확도를 보여준다 (좌측: HapMap 대조군이 있는 데이터세트, 우측: HapMap 대조군이 없는 데이터세트). 두 필터 즉 HWE 및 플레이트 효과가 있는 ΊΉΜ1 (본 연구에서 이용된 데이터세트), TCGA 및 MAF > 0.05 의 HapMap 데이터; THM5, MAF > 0.05 인 것을 제외하고 THM1 과 동일; THMO, MAF 필터링이 없는 것을 제외하고 THM1 과 동일; THMOR, H E 및 플레이트 효과 시험이 없는 것을 제외하고 THM0과 동일; TM5, 두 필터 즉 HWE 및 플레이트 효과가 있는 MAF > 0.05 의 TCGA 데이터 ; TMl, MAF > 0.01 인 것을 제외하고 TM5 와 동일; TMO, MAF 필터가 없는 것을 제외하고 TM1 과 동일; TM0R, 두 필터 즉冊 E 및 플레이트 효과가 없는 것을 제외하고 TM0과 동일 . 6 shows QC (Quality Control) results. The graph shows the overall accuracy of different datasets from different QC criteria as a function of filtering threshold (left: dataset with HapMap control, right: dataset without HapMap control). Two filters namely HWE and plate effect ΊΉΜ1 (dataset used in this study), HapMap data with TCGA and MAF>0.05; THM5, same as THM1 except MAF>0.05; THMO, same as THM1 except without MAF filtering; Same as THM0 except without THMOR, HE and plate effect tests; TCGA data of TM5, two filters, MAF> 0.05 with HWE and plate effect; Same as TM5 except TMl, MAF>0.01; Same as TM1 except without TMO, MAF filter; Same as TM0 except TM0R, two filters ie E and no plate effect.

도 7 은 정확도 vs. 샘플 크기와 특성 수를 보여준다. (좌측) 민감성 평가의 정확도는 특성 샘플 크기가 증가할수록 증가한다. BRCA, 0V, 및 UCEC 가 분석을 위해 선택되었고 제한된 샘플 크기 때문에 다른 특성들을 제외하였다. (우측) 특성의 개수를 3, 6 및 9(BRCA, C0AD 및 CEU 는 3 개 특성 ; BRCA, COAD, HNSC, KIRC, 0V 및 CEU는 6 개 특성, 그리고 BRCA, C0AD, HNSC, HNSC, KIRC, 0V, REDA, UCEC 및 CEU 는 9 개 특성)로 증가시키면 정확도는 감소한다. 각 특성 데이터세트 크기는 66개체로 고정시켰다.  7 shows accuracy vs. Show sample size and number of features. The accuracy of the (left) sensitivity assessment increases as the characteristic sample size increases. BRCA, 0V, and UCEC were selected for analysis and excluded other characteristics because of the limited sample size. The number of (right) characteristics is 3, 6, and 9 (BRCA, C0AD, and CEU have three characteristics; BRCA, COAD, HNSC, KIRC, 0V, and CEU have six characteristics; and BRCA, C0AD, HNSC, HNSC, KIRC, Increasing 0V, REDA, UCEC, and CEU to 9 characteristics decreases accuracy. Each feature dataset size was fixed at 66 individuals.

도 8 은 시스터-특이적 특징으로 커버되는 자놈 부위를 특정한다. 암 유전자와 SNP-S10s 사이의 거리 역치를 증가시키면서 각 암에 대한 민감성 마커 SNP-S10s에 근접한 공지의 암 유전자들의 개수를 카운팅 한다. BRCA 및 C0AD각 암에 대하여 , 0MIM으로부터 공지의 암 유전자들을 다운로딩 하였다. 각 암에 대하여 0MIM 에 있는 공지 암 유전자의 총 개수는 브라운색 (BRCA) 및 녹색 (C0AD)의 점선으로 표시되어 있다. OMIM, Online Mendelian Inheritance in Man. 8 specifies a region of the genome covered by sister-specific features. The number of known cancer genes near the sensitivity marker SNP-S 10 s for each cancer is counted while increasing the distance threshold between the cancer gene and SNP-S 10 s. For each cancer of BRCA and C0AD, known cancer genes were downloaded from 0MIM. The total number of known cancer genes at 0MIM for each cancer is indicated by dotted lines of brown (BRCA) and green (C0AD). OMIM, Online Mendelian Inheritance in Man.

도 9는 8종의 주요 암 및 건강 형질에 대한 지놈 민감성을 평가하는 본 발명의 방법에 대한 개략도이다. 본 발명의 방법은, 시료질 조절 스크리닝 및 유전자형 인코딩을 포함하는 SNP 데이터 전처리과정, 낮은 ^ 값의 SNPs와 저빈도의 SNP 신택스의 선택, 두 개의 상이한 분석 알고리즘의 적용 및 상기 4가지 방법으로 결과를 통합하는 최종 예측 단계를 포함한다. 도 10a 는 SNP-신택스의 프로파일에 k—최인접 이웃 알고리즘을 적용하는 과정에서 이용되는 파라미터의 최적화를 보여준다. 도 10b 는 SNPs 의 프로파일에 k-최인접 이웃 알고리즘을 적용하는 과정에서 이용되는 파라미터의 최적화를 보여준다. 9 is a schematic diagram of the method of the present invention for assessing genome sensitivity to eight major cancer and health traits. The method of the present invention comprises SNP data preprocessing, including sample control screening and genotype encoding, selection of low ^ value SNPs and low frequency SNP syntax, application of two different analysis algorithms and the results of the four methods. It includes the final prediction step of integrating. 10A shows the optimization of the parameters used in the process of applying the k—nearest neighbor algorithm to the profile of the SNP-syntax. 10B shows the optimization of parameters used in applying the k-nearest neighbor algorithm to the profile of SNPs.

도 10c 는 SNPs 의 프로파일에 SVM 알고리즘을 적용하는 과정에서 이용되는 파라미터의 최적화를 보여준다.  Figure 10c shows the optimization of the parameters used in the process of applying the SVM algorithm to the profile of the SNPs.

도 10d 는 SNP-Ss 의 프로파일에 SVM 알고리즘을 적용하는 과정에서 이용되는 파라미터의 최적화를 보여준다.  Figure 10d shows the optimization of the parameters used in the process of applying the SVM algorithm to the profile of the SNP-Ss.

도 11aᅳ 11c 는 3 종의 암 클래스, BRCA (도 11a), 0V (도 lib) 및 UCEC (도 11c) 각각에 대한 시험 세트의 9-클래스 예측 결과를 보여준다. 3 종의 암 클래스 각각에 대한 50 시험 개체에 대한 4 개의 방법 및 베이지언 추론의 예측 결과들이 나타나 있다. 점선의 수평선은 무작위 예측을 나타내고, 각각의 막대 위의 틱 마크는 50 시험 개체를 10 회 리샘플링 하여 측정된 예측 결과에 대한 표준오차를 나타낸다.  11A-11C show the 9-class prediction results of the test set for each of three cancer classes, BRCA (FIG. 11A), 0V (FIG. Lib) and UCEC (FIG. 11C). Prediction results of four methods and Bayesian inference on 50 test subjects for each of the three cancer classes are shown. The dotted horizontal line represents the random prediction, and the tick marks on each bar represent the standard error for the prediction result measured by resampling 50 test subjects 10 times.

도 12 는 개체의 예측에 대한 확실성 (confidence)을 나타낸다. 평균 정확도 vs. 사후확률 역치.  12 shows the confidence in the prediction of an individual. Average accuracy vs. Posterior probability threshold.

【발명을 실시하기 위한 구체적인 내용】 [Specific contents to carry out invention]

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다. 실시예 Hereinafter, the present invention will be described in more detail with reference to Examples. These examples are only for illustrating the present invention more specifically, it will be apparent to those skilled in the art that the scope of the present invention is not limited by these examples in accordance with the gist of the present invention. . Example

I. 제 1발명: SNP-신택스를 이용한 방법 연구 재료 및 방법 I. First Invention: Method Research Materials and Methods Using SNP-Syntax

데이터베이스 및 샘플링 Database and sampling

총 2192 개의 SNP어레이 결과 및 관련 임상정보를 NCBI dbGap의 일반 연구 사용 승인을 얻고 2012년 4월 2일부터 2012년 4월 4일까지 NIH(National Institute of Health)의 TCGA 로부터 다운로드 받았다. Broad Institute 에서 테스트한 이들 환자의 혈액에 대한 SNP 유전자형 데이터를 다운로드 하였다. 환자들은 대부분 백인이었다 (다른 조상으로부터 유래된 몇 몇의 아웃라이어는 시료질조정 단계에서 제거함). 모든 마커를 Affymetrix 6.0 SNP 칩 상에서. 타이핑 하였다. 이들의 암에 대한 대조군으로서, HapMap 프로젝트의 CEl Caucasians from Utah, 미국) 파풀레이션 데이터를 사용하였는데, 이는 상기 데이터가 현재까지 전체 백인 개체들의 가장 대표적인 데이터로 여겨지고 있기 때문이다. 서로 다른 마커 세트를 갖는 두 개의 데이터세트를 통합하는 과정에서 SNP 정보의 소실을 감소시키기 위하여, HapMap ftp 웹사이트로부터 CEU 의 165 개 SNP 어레이 결과 (Affymetrix 6.0 SNP 로 타이핑된 것)를 다운로드 하였다. 디폴트 파라미터 세팅이 있는 Affymetrix Power Tools 를 이용하여 상기 데이터를 지노타이핑 하고, 웹사이트로부터 낮은 시료질을 갖는 것으로 보고된 샘플을 버렸다 (참조: 표 1). A total of 2192 SNP array results and relevant clinical information were approved by the NCBI dbGap for general study use, and from April 2, 2012 to April 4, 2012, NIH (National Downloaded from the Institute of Health's TCGA. The SNP genotype data for these patients' blood tested by the Broad Institute were downloaded. The patients were mostly white (some outliers from other ancestors were removed during the sample conditioning phase). All markers were run on Affymetrix 6.0 SNP chips . Typed. As a control for their cancer, the HapMap Project's CEl Caucasians from Utah, USA) population data was used because it is considered to be the most representative data of all white individuals to date. To reduce the loss of SNP information in the process of integrating two datasets with different marker sets, the C165's 165 SNP array results (typed as Affymetrix 6.0 SNP) were downloaded from the HapMap ftp website. The data was genotyped using Affymetrix Power Tools with default parameter settings and discarded samples reported to have low sample quality from the website (see Table 1).

[표 1】  TABLE 1

Affymetrix 6.0 SNP 유전자형 데이터의 시료질 조절 (QC)(2012년 4월 4일 현재)  Sample Quality Control of Affymetrix 6.0 SNP Genotype Data (as of April 4, 2012)

시료 QC  Sample QC

QC 전 QC후  Before QC After QC

연구 특성 /코호 E  Study characteristics / Koho E

남성 /여성 "Srᄇ 남성 /여성 총합 Male / female "Sr ᄇ male / female total

B CA 6/694 700 5/511 516B CA 6/694 700 5/511 516

COAD 179/159 338 101/86 187COAD 179/159 338 101/86 187

HNSC 106/38 144 95/34 129HNSC 106/38 144 95/34 129

KI C 47/30 77 43/25 68KI C 47/30 77 43/25 68

TCGA LGG 38/36 74 34/32 66TCGA LGG 38/36 74 34/32 66

OV 0/427 427 .22/379 401OV 0/427 427 .22 / 379 401

READ 72/59 131 54/41 95READ 72/59 131 54/41 95

UCEC 0/301 301 0/237 237UCEC 0/301 301 0/237 237

HapMap CEU 80/85 165 31/38 69 총합 528/1829 2357 385/1383 1768 TCGA(The Cancer Genome Atlas project initiated by the National Institute of Health (NIH)); BRCA(Breast Invasive Carcinoma); COAD(Colon Adenocarcinoma); HNSC(Head and Neck Squamous Cell Carcinoma); KIRC( idney Renal Clear Cell Carcinoma); LGG(Brain Lower grade glioma); OV( Ovarian Serous Cystadenocarcinoma); EAD(Rectum Adenocarcinoma); UCEC(Uterine Corpus Endometrioid Carcinoma); HapMap(Haplotype Map Project); CEU(Caucasians from Utah, USA); EA( European-American); PI_HAT, 두 개체가 관련된 경우 결정되는 P니 NK 파라미터; EA 개체에 대한 시료질 조절 + 유전적 연관성 시험 (PIJHAT < 0.2) + 자기-발표된 패밀의 제거. 시료질조절 HapMap CEU 80/85 165 31/38 69 Total 528/1829 2357 385/1383 1768 The Cancer Genome Atlas project initiated by the National Institute of Health (NIH); Breast Invasive Carcinoma (BRCA); Colon Adenocarcinoma (COAD); Head and Neck Squamous Cell Carcinoma (HNSC); Idney Renal Clear Cell Carcinoma (KIRC); Brain Lower grade glioma; Ovarian Serous Cystadenocarcinoma (OV); Rectum adenocarcinoma (EAD); Uterine Corpus Endometrioid Carcinoma (UCEC); Haptype Map Project (HapMap); Caucasians from Utah, USA; European-American (EA); PI_HAT, P NK parameter determined when two entities are related; Sample quality control + genetic association test (PIJHAT <0.2) + removal of self-released wheat for EA individuals. Sample quality control

시료질 (Quality control: QC))이 전체 시험에 어떠한 영향올 미치는지를 연구하기 위하예 관대성 (lenient)으로부터 엄격성 (stringent)까지의 서로 다른 QC 를 적용하고 시험하였다 (표 1 및 2, 도 1). PLINK (참조: S. Purcell, et al . (2007). PLINK: A Tool Set for Whole-Genome Association and Population-Based Linkage Analyses . Aw J Hum Genet 81(3) :559-575)를 이용하여, 다음의 조건으로 데이터세트로부터 초기 결과를 얻었으며; 1% 이하의 마이너 대립유전자 빈도를 갖는 SNPs 는 제거하고 Hardy Weinberg Equilibrium 시험을 CEU 개체에서 각각의 마커에 적용하였다 > 1 X 10一 6). 암 특성 내에서 모든 플레이트에 대한 하나의 플레이트 및 다른 플레이트들 (30 개 이상의 시료를 가짐) 사이의 연관성 시험 ? > 1 X 10—8)을 실시하여 , 플레이트 -효과 시험을 적용하였다 (참조: D. G. Clayton, et al . (2005) . Population structure, differential bias and genomic control in a large-scale, case-control association study. Nat Genet 37(11): 1243-1246) . QC 를 통과한 SNPs 에 대하여, TCGA 데이터에서 미국내 자기 -발표 백인 개체를 추출하고 유전 관련성 시험 (S. Ripke, et al . (2011) . Genome-wide association study identifies five new schizophrenia loci. Nat Genet 43(10) :969-976)을 실시하였다 (PI— HAT < 0.2). 또한, 페디그리 정보를 이용하여 CEU 에서 모든 관련 개체들을 제거하였다. 예를 들어, 트리오에서 두 개체를 듀오에서 한 개체를 제거하였다. 최종적으로, 샘플을 통합하고 post-QC 특성 데이터세트에 대하여 SNPs 를 조인트하여, 1768 개체에 대한 상염 색체의 비 반복성 714649 개 SNPs 에 대한 유전자형을 얻었다 (참조: 표 1 및 2) . To study how quality control (QC) affects the overall test, different QCs from lenient to stringent were applied and tested (Tables 1 and 2, FIG. 1). ). PLINK (S. Purcell, et al. (2007). PLINK: A Tool Set for Whole-Genome Association and Population-Based Linkage Analyses. Aw J Hum Genet 81 (3): 559-575) Initial results were obtained from the dataset under conditions of; SNPs with a minor allele frequency of less than 1% were removed and the Hardy Weinberg Equilibrium test was applied to each marker in CEU individuals> 1 × 10 1 6 ). Association test between one plate and other plates (with more than 30 samples) for all plates within cancer characteristics .> To the 1 X 10- 8) embodiment, the plate-effective test was applied (See: DG Clayton, et al (2005) Population structure, differential bias and genomic control in a large-scale, case-control association study Nat Genet 37 (11): 1243-1246). For SNPs that passed QC, S. Ripke, et al. (2011) Genome-wide association study identifies five new schizophrenia loci. Nat Genet 43 (10): 969-976) (PI—HAT <0.2). In addition, Pedigree information was used to remove all relevant entities from the CEU. For example, you removed two objects from the trio and one from the duo. Finally, we integrate the sample and add it to the post-QC characteristic dataset. SNPs were jointed to obtain genotypes for 714649 non-repetitive autologous SNPs for 1768 individuals (see Tables 1 and 2).

【표 2】  Table 2

SNP QCSNP QC

QC 기 준 QC 후 데 이 터 세트 QC Standard QC Post Data Set

연구 HWE 플레 c이트 효과  Study HWE Platen Effect

명 칭 MAF 공통 SNPs  Name MAF Common SNPs

(> 1E-07) (> 1E-08)  (> 1E-07) (> 1E-08)

TM0R TCGA X X X 867266 TM0R TCGA X X X 867266

TM0 TCGA X X 0 845025TM0 TCGA X X 0 845 025

TM1 TCGA 0.01 X 0 732705TM1 TCGA 0.01 X 0 732 705

TM5 TCGA 0.05 X 0 625702 TM5 TCGA 0.05 X 0 625 702

TCGA X X X TCGA X X X

THM0 867087 THM0 867087

HapMap X 0 X  HapMap X 0 X

TCGA X X 0  TCGA X X 0

THM0 844889  THM0 844889

HapMap X 0 X  HapMap X 0 X

TCGA 0.01 X 0  TCGA 0.01 X 0

THM1 714649  THM1 714649

HapMap 0.01 0 X  HapMap 0.01 0 X

TCGA 0.05 X 0  TCGA 0.05 X 0

THM5 616722  THM5 616722

HapMap 0.05 0 X  HapMap 0.05 0 X

SNP(Single Nucleotide Polymorphism; QC(Quality Control); MAF(Minor Allele Frequency); HWE( Hardy-Weinberg Single Nucleotide Polymorphism (SNP); Quality Control (QC); Minor Allele Frequency (MAF); Hardy-Weinberg

Equilibrium); TCGAfThe Cancer Genome Atlas project initiated by the National Institute of Health (NIH)); HapMap(Haplotype Map project of worldwide human populations); CEU(Caucasians from Utah, USA); THMl (본 연구에 이용된 데이 터세트), TCGA 및 HapMap data of MAF > 0.01 with two filters of HWE and plate effect; THM5, MAF > 0.05 인 것을 제외하고 THMl 과 동일함; THM0, MAF 필터 링 이 없는 것을 제외하고 THM1 과 동일함; THM0R, HWE 및 플레이 트 효과 시험을 하지 않는 것을 제외 하고 THM0 과 동일함; TM5, HWE 및 플레 이트 효과의 두 필터 가 있고 MAF > 0.05 의 TCGA 데이 터 ; TM1, MAF > 0.01 인 것을 제외하고 TM5 와 동일함; TM0, MAF 필터 링 이 없는 것을 제외하고 TM1 과 동일함; TM0R, HWE 및 플레이트 효과의 두 필터가 없는 것을 제외하고 TM0 와 동일함; X 는 테이 터세트가 관련 QC 를 하지 않았음을 나타내고, 0 는 그 반대이다. SNP코드 전환 Equilibrium); TCGAf The Cancer Genome Atlas project initiated by the National Institute of Health (NIH)); Haptype Map project of worldwide human populations (HapMap); Caucasians from Utah, USA; THMl (dataset used in this study), TCGA and HapMap data of MAF> 0.01 with two filters of HWE and plate effect; THM5, same as THMl except MAF>0.05; THM0, same as THM1 except without MAF filtering; Same as THM0 except no THM0R, HWE and plate effect tests; TCGA data with two filters, TM5, HWE and Plate effect, with MAF>0.05; Same as TM5 except TM1, MAF>0.01; TM0, same as TM1 except without MAF filtering; Same as TM0 except there are no two filters, TM0R, HWE and plate effect; X indicates that the dataset did not have an associated QC, and 0 is the opposite. SNP code conversion

작은 샘플 크기를 이용하여 컴퓨터 페이징 방법으로부터 발생될 수 있는 인위적 오류를 피하기 위하여 , 컴퓨터로 얻은 하플로타입 (haplotype) 정보가 아닌, 실험적으로 얻은 유전형 정보만을 이용하였다. 10 개 가능한 SNP 유전자형 각각을 표 3에 기재된 10개 알파벳 중 하나로 전환시켰다. [표 3】  In order to avoid artificial errors that could arise from computer paging methods using a small sample size, only experimentally obtained genotype information was used, not computer-generated haplotype information. Each of the ten possible SNP genotypes was converted to one of the ten alphabets listed in Table 3. TABLE 3

Figure imgf000030_0001
Figure imgf000030_0001

SNP신택스 (SNP-S)의 특징 빈도프로파일링 Characteristic frequency profiling of SNP syntax (SNP-S)

전환된 지놈-와이드 SNP 유전자형 데이터로부터, 특징 카운트의 백터를 구축하였으며 상기 특징은 연구 대상의 개체에서 고정된 길이의 모든 가능한 연속적 (연계된) SNPs, SNP 신택스 (SNP-Ss)이다. 한 개체에 대한 백터, 특징 빈도 프로파일 (feature frequency profile: FFP)는 그 개체의 WG SNPs 의 체계적 특징을 나타내며, 이는 개체 지놈의 SNP 스트링의 전체 길이를 따라 고정된 길이의 윈도우를 슬라이딩하고 모든 가능한 특징들 (이 경우에는 SNP-Ss)의 발생을 카운팅하여 구축된다 (이 방법의 상세한 설명은, G. E. Sims, et al . (2009). Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106(8) :2677-2682에 개시되어 있다). 프로파일링을 위한 최적의 특징 길이는, 암 민감성을 계산하는데 가장 높은 정확도를 나타내는 길이로 결정된다. 한 개체의 SNP-Ss 에서, 최적 길이는 10 이었다 (도 2). 각각의 SNP는 그의 정확한 염색체 대립유전자 (하플로타입) 오더 (order)가 없는 유전자형 정보를 가지고 있기 때문에, SNP 신택스에서. 이형접합체의 수는 다형성 컨텍스트에서 하플로타입 정보의 존재의 가능성을 결정한다. 따라서, 각각의 하플로타입은 신택스에서 동일한 발생 가능성을 갖는다는 전^ 하에서, SNP-S 의 발생의 "카운트" 는 SNP-S 로 표현되는 가능한 하플로타입의 개수에 반비례한다. 비록 연구 데이터세트는 결측 (missing) 유전자형을 포함하고 있지 않지만, 이러한 경우가 존재하는 경우, 타이핑되지 않은 마커에서의 가능한 유전자형의 조합으로부터 발생되는 모든 특징들을 포함시키고 이들의 카운트를 결측에 의해 확장되는 SNP-Ss 의 총 개수로 나눔으로써, 용이하게 처리할 수 있다. 다음의 수학식은 모든 경우에서의 카ᅳ운트를 -나타낸다: From the converted genome-wide SNP genotype data, a vector of feature counts was constructed and the features were all possible continuous (associated) SNPs, SNP syntax (SNP-Ss) of fixed length in the subject of study. The vector, feature frequency profile (FFP) for an individual represents the systematic characteristics of the individual's WG SNPs, which slide a fixed length window along the entire length of the individual genome's SNP strings and all possible features (SNP-Ss in this case) are constructed (see GE Sims, et al. (2009). Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106 (8): 2677-2682). The optimal feature length for profiling is determined to be the length that shows the highest accuracy in calculating cancer sensitivity. In SNP-Ss of one individual, the optimal length was 10 (FIG. 2). Since each SNP has genotype information without its exact chromosomal allele (Haplotype) order, in the SNP syntax. The number of heterozygotes determines the possibility of the presence of haplotype information in the polymorphic context. Thus, each haplotype occurs in the same syntax Under the premise of having a likelihood, the "count" of the occurrence of SNP-S is inversely proportional to the number of possible haplotypes represented by SNP-S. Although the study dataset does not include a missing genotype, when this case exists, it includes all features arising from the combination of possible genotypes in the untyped marker and their counts are extended by the missing. By dividing by the total number of SNP-Ss, it can be processed easily. The following equation represents the count in all cases:

수학식 1 Equation 1

¾ - r¾*¾¾零' m i ¾-r ¾ * ¾¾ 零' mi

상기 수학식에서, x 는 SNP-S 의 카운트 (분획에서의 카운트), i 는 SNP-S 에서 이형접합체의 개수, 및 j 는 SNP-S 쎄서 결측 마커의 개수이다 (참조: 표 4) . In the above equation, x is the count of SNP-S (count in fraction), i is the number of heterozygotes in SNP-S, and j is the number of missing markers in the SNP-S sequence (see Table 4 ).

【표 4】  Table 4

Figure imgf000031_0001
백분율 필터링 -인, 정규화 및 Jensen-Shannon 발산 매트릭스 모든 멤버들의 SNP-S10 카운트의 FFPs를 얻은 다음, 이 파풀레이션의 몇 퍼센트에 의해 공유되는 신택스를 제거 (필터-아웃) 하고 나머지를 분석을 위하여 보관한다. 이어, 각각의 잔여 희귀 (rare) 신택스의 카운트를 위하여 희귀 SNP 신택스의 총 개수에 의해 정규화 한다. 최종적으로, 백분율 필터링 -인에 의해 생성된 희귀 SNP 신택스를 이용하여 모든 멤버들 사이의 Jensen-Shannon(JS) 발산 매트릭스를 구축하였다. 최근접. 이웃 ( "시스터" )의 동정 및 민감성의 정확도
Figure imgf000031_0001
Percent Filtering-In, Normalization, and Jensen-Shannon Dispersion Matrix Obtain FFPs of SNP-S 10 counts for all members, then remove (filter out) the syntax shared by a few percent of this population and analyze the remainder. keep it. Then, it is normalized by the total number of rare SNP syntax for counting each residual rare syntax. Finally, a rare SNP syntax generated by percentage filtering-in was used to construct a Jensen-Shannon (JS) divergence matrix between all members. Nearest. Accuracy of identification and sensitivity of neighbors ("sisters")

모든 개체에 대하여 짝 (pairwise) JS 거리를 측정한 후, 가장 짧은 JS 거리를 갖는 각각의 멤버의 "시스터" 를 동정하고, 시스터 페어가 동일한 암 종류에 해당되는 지 여부를 체크한다. 정확한 할당 (동일 암 종류)의 개수를 카운팅 하고 이를 모든 멤버의 개수로 나누어, 전체 정확도를 측정하였으며, 이와 유사하게 암 종류-특이적 정확도를, 특정 하나의 암 종류로 정확하게 할당된 개수를 이 암 종류에 있는 멤버들의 총 개수로 나누어 측정하였다. 시스터-특이적 마커 대립유전자 및 암-특이적 마커 대립유전자  After pairwise JS distances are measured for all individuals, the "sister" of each member with the shortest JS distance is identified, and it is checked whether the sister pairs correspond to the same arm type. Count the number of correct assignments (same cancer type) and divide it by the number of all members, measure the overall accuracy, and similarly calculate the cancer type-specific accuracy, and the number exactly assigned to one specific cancer type Measured by dividing by the total number of members in the category. Sister-specific marker alleles and cancer-specific marker alleles

하나의 특정 암 그룹에 있는 진정한 시스터 페어에 대하여, 다른 암 종류의 멤버들에서는 발견되지 않으면서 상기 시스터 페어의 두 시스터 멤버 사이의 공통된 모든 희귀 SNP-SlOs 를 선별하였다. 이렇게 선별된 대립유전자를 시스터 페어에 대한 시스터-특이적 마커 대립유전자로 명명하였다. 이와 유사하게, 상기 암ᅳ특이적 마커 대립유전자를 상기 암 종류에서 모든 진실한 시스터들의 비반복적 시스터-특이적 마커 대립유전자들의 합으로 명명하였다. 따라서, 각각의 시스터-특이적 마커 대립유전자는 암-특이적 마커 대립유전자로부터 "분류된" 것으로 여겨질 수 있다 (멀티플 분류 모델) 연구 결과 For true sister pairs in one particular cancer group, all common rare SNP-SlOs were selected between the two sister members of the sister pair without being found in other cancer type members. The alleles thus selected were named as sister-specific marker alleles for the sister pairs. Similarly, the cancer-specific marker allele was named the sum of the non-repeating sister-specific marker alleles of all true sisters in the cancer type. Thus, each sister-specific marker Alleles can be considered "classified" from cancer-specific marker alleles (multiple classification models)

본 연구의 결과는 크게 5 개의 섹션으로 나눌 수 있다: 섹션 I 은 두 개의 발명 사상 즉, SNP-S 및 FFP 를 제시하며, 한 개체의 지놈의 WG SNPs 의 전체 체계적 특징들이 SNP— Ss 의 FFP 에 의해 어떻게 나타내어질 수 있는지를 설명하고; 섹션 II 는 본 발명의 방법을 최고로 실시하기 위한 SNP-Ss 의 최적 길이와 "희귀" SNP-Ss 를 밝히는 최적의 필터링 레밸을 경험적으로 규명하는 과정올 보여주며; 섹션 III 은 민감성 예측에 대하여 상세히 설명하며; 섹션 IV 는 본 발명의 접근 방식에 대한 검증 결과를 요약하며 ; 그리고 섹션 V 는 공지의 암 유전자, 최근 G Ss 로부터 동정된 암 관련 SNPs 및 다른 유전적 특성에 대한 민감성 SNP— S 대립유전자의 유전적 위치를 보여준다.  The results of this study can be divided into five sections: Section I presents two ideas of invention: SNP-S and FFP, and the overall systematic features of one individual's genome WG SNPs are assigned to FFP of SNP—Ss. How it can be represented; Section II shows the process of empirically identifying the optimal length of SNP-Ss and the optimal filtering level to reveal "rare" SNP-Ss to best practice the method of the present invention; Section III details the sensitivity predictions; Section IV summarizes the verification results for the approach of the present invention; And section V shows the genetic location of susceptible SNP—S alleles for known cancer genes, recently identified cancer-related SNPs and other genetic characteristics from G Ss.

I. WG SNPs의 체계적 특징의 대표로서 SNP신택스의 빈도 프로파일 I. Frequency profile of SNP syntax as representative of systematic features of WG SNPs

어떤 두 개체의 WG SNPs 의 체계적 특징을 비교하는 본 발명의 방법은 4개의 단계를 포함한다:  The method of the present invention for comparing the systematic features of any two individuals' WG SNPs comprises four steps:

(1) 연계 WG SNP 스트링: 본 발명은 한 개체의 WG SNPs 의 체계적 특징의 가장 일반적인 서술로부터 출발하며, 이는 자연어 책자의 서술과 유사하지만 (C. D. Manning & H. Schuetze (1999). Foundations of Statistical Natural Language Processing. The MIT Press, I edn), 매우 중요한 차이점이 있으며 이는 연계 WG SNPs 가 단어 사이의 스페이스 없이 자연어 텍스트로 취급된다는 것이다. 따라서, 한 개체의 WG SNPs 는 이 개체의 지놈에서 정돈된 SNPs 의 단일 연계 스트링으로 나타내며, 각각의 SNP 유전자형은 유전자형의 양대립유전자성의 가정 하에서 SNP 의 10 개의 가능한 유전자형을 나타내는 10 개의 알파벳 코드 중 하나로 나타낸다 (참조: 표 3). (2) SNP 신택스: SNP 신택스 (SNP-S)는 주어진 특정 길이의 SNPs 의 짧은 정돈된 스트링으로 정의 내려지며, 이는 자연어 텍스트에서 특정 길이의 "단어" 와 유사한 역할을 한다. 하나의 지놈에 대한 주어진 특장 길이 (/)의 모든 가능한 SNP-S 는, 지놈의 SNP 스트링의 총 길이를 따라 1 길이의 원도우를 슬라이딩 하여 얻는다. 따라서, SNP-S 는 다양한 유전 변이에 의해 유발되는 SNPs 의 체계적 특징뿐만 아니라, 연관불평형과 같은 WG SNPs 에 존재하는 것으로 알려진 특징을 파악한다: SNPs 의 연관불평형 연구는 각각의 SNP 위치에 있는 변이가 그의 이웃들의 변이와 다양한 정도로 연관되어 있음을 보여준다 (International HapMap Consortium (2005) . Ha lotype map of the human genome . Nature 437(7063): 1299-1320; The International HapMap Consortium (2007). A second generation human haplotype map of over 3.1 million SNPs. Nature 449(7164) :851-861) . 따라서, WG SNPs 를 기재하는 방식에 있어서, 각각의 SNP-S 는 유전적 대립유전자로 나타낼 수 있다. (1) Linked WG SNP Strings: The present invention starts with the most general description of the systematic features of an individual's WG SNPs, which is similar to the description in the natural language booklet (CD Manning & H. Schuetze (1999). Language Processing.The MIT Press, I edn), a very important difference is that the associated WG SNPs are treated as natural language text without spaces between words. Thus, an individual's WG SNPs are represented by a single linked string of SNPs arranged in the genome of each individual, with each SNP genotype being one of ten alphabetic codes representing the ten possible genotypes of the SNP under the assumption of genotype two alleles. (See Table 3). (2) SNP syntax: SNP syntax (SNP-S) is defined as a short ordered string of SNPs of a given specific length, which plays a role similar to a "word" of a certain length in natural language text. All possible SNP-S of a given body length (/) for one genome is obtained by sliding a window of length 1 along the total length of the SNP string of the genome. Thus, SNP-S identifies not only the systematic features of SNPs caused by various genetic mutations, but also those known to exist in WG SNPs such as associative imbalances. Halotype map of the human genome.Nature 437 (7063): 1299-1320; The International HapMap Consortium (2007) .A second generation human haplotype map of over 3.1 million SNPs.Nature 449 (7164): 851-861). Thus, in the manner of describing WG SNPs, each SNP-S can be represented by a genetic allele.

모든 가능한 길이의 SNP-S 의 개수는 매우 거대하고 (106 위치의 길이의 하나의 SNP 스트링에 대하여 약 1012 개), 이러한 크기의 비교에 필요한 수학적 계산이 힘들기 때문에, 본 발명자는 "최적" 길이의 SNP- S 만을 이용하였다. 컴퓨터 부담을 크게 덜어주기 위하여 최적 길이를 이용하는 것은 본 발명자들의 종전 논문에 기재되어 있다 (G. E. Sims, et al . (2009) . Al ignmentᅳ free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106(8) :2677-2682). 6 개 이상의 길이를 갖는 대부분의 SNP-Ss 는 하나의 지놈에서 독특하며, 지놈들의 파풀레이션에서 드문 빈도로 발생된다. Because the number of SNP-Ss of all possible lengths is very large (about 10 12 for one SNP string of length 10 6 ) and the mathematical calculations required for comparison of these sizes are difficult, Only SNP-S of length was used. The use of optimal lengths to greatly reduce the computer burden has been described in our previous paper (GE Sims, et al. (2009) .Al ignment® free genome comparison with feature frequency profiles (FFP) and optimal resolutions.Proc Natl Acad Sci USA 106 (8): 2677-2682). Most SNP-Ss with a length of six or more are unique in one genome and occur rarely in the population of genomes.

(3) SNP-Ss 의 특징 빈도 프로파일 (FFP, G. E. Sims, et al . (2009). Al ignment— free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106(8) :2677-2682): 한 개체의 하나의 지놈에서 SNPs 의 체계적 특징의 모든 측면들올 모든 가능한 특징들의 빈도로 구성된 FFP 백터로 나타내며, 여기에서 상기 특징은 SNP- S이다. "알파벳" 의 스트링의 체계적 측면을 나타내는 이러한 방식은, FFP 방법에 의해 서로 다른 유기체의 WG (또는 전체 프로테움) 서열의 얼라인먼트—결여 비교에서 실시하는 유기체의 WG 서열의 그 것과 유사하다 (G. E. Sims, et al . (2009) . Alignment—free genome comparison with feature frequency profiles (FFP) and optimal' resolutions. Proc Natl Acad Sci USA 106(8) :2677-2682; SR. Jun, et al.(2010). Whole- proteome phylogeny of prokaryotes by feature frequency profiles: An alignment-free method with optimal feature resolution. Proc Natl Acad Sci USA 107(1) :133-138). (3) SFP-Ss (FFP, GE Sims, et al. (2009) .Al ignment—free genome comparison with feature frequency profiles (FFP) and optimal resolutions.Proc Natl Acad Sci USA 106 (8): 2677-2682): represented by an FFP vector consisting of the frequency of all possible features of all aspects of the systematic features of SNPs in one genome of an individual, wherein the features are SNP- S. This approach, which represents the systematic aspect of the string of "alphabet", is similar to that of the WG sequence of organisms performed in the alignment-depletion comparison of the WG (or entire proteum) sequences of different organisms by the FFP method (GE Sims , et al. (2009) Alignment—free genome comparison with feature frequency profiles (FFP) and optimal ' resolutions.Proc Natl Acad Sci USA 106 (8): 2677-2682; SR. Jun, et al. (2010). Whole-proteome phylogeny of prokaryotes by feature frequency profiles: An alignment-free method with optimal feature resolution.Proc Natl Acad Sci USA 107 (1): 133-138).

(4) Jensen-Shannon 발산: 얼라인먼트—결여 비교에서와 같이, 어떤 두 개의 FFPs 사이의 "거리" 는 Jensen-Shannon 발산으로 나타내며 (J. Lin (1991) . Divergence measures based on the Shannon entropy. IEEE Trans Inf Theory 37(1): 145-151) , 0와 1 사이의 한계값으로 경계를 만든다. II. 암 민감성 예측에 대한 "회귀" SNP-Ss의 최적 파라미터  (4) Jensen-Shannon Emissions: Alignment—As in the lack comparison, the “distance” between any two FFPs is represented by Jensen-Shannon Emissions (J. Lin (1991). Divergence measures based on the Shannon entropy.IEEE Trans Inf Theory 37 (1): 145-151) creates a boundary with a threshold between 0 and 1. II. Optimal Parameters of "Regression" SNP-Ss for Predicting Cancer Susceptibility

WG SNPs 의 전체 체계적 특징을 나타내는 데에는, SNP-Ss 의 FFP 가 적합하다. 그러나, 앞에서 언급한 바와 같이, 질환-특이적 체계적 특징에 대해서는 "희귀" SNP-Ss 의 FFP 가 보다 더 적합하다. 따라서, 암 민감성 연구를 위한 최적 길이의 회귀 SNP-Ss 에 대한 경험적 서치에 있어서 유용한 기준으로서 다음과 같은 두 가지 가정을 이용하였다:  FFP of SNP-Ss is suitable for showing the overall systematic characteristics of WG SNPs. However, as mentioned above, FFP of "rare" SNP-Ss is more suitable for disease-specific systematic features. Therefore, the following two assumptions were used as a useful criterion in empirical search for optimal length regression SNP-Ss for cancer sensitivity studies:

1. 암 민감성과 연관된 각각의 SNP-S (민감성 대립유전자)은 그러한 암 종류의 파풀레이션에서 회귀하에 나타나고; 그리고  1. Each SNP-S (sensitive allele) associated with cancer sensitivity appears under regression in the population of such cancer types; And

2. 하나의 특정 암 종류에 대한 지놈 민감성 대립유전자의 세트의 개수는 다수일수 있지만, 본 발명자들은 이를 제한적인 것으로 취급한다. 따라서, 각각의 암 종류에 대한 층분한 샘플 크기가 주어진다면, 하나의 암 개체의 희귀 SNP-Ss 의 FFP 에 대하여, 다른 암 종류 또는 대조군의 파풀레이션보다 동일한 암 종류의 파풀레이션에서 매우 유사한 ( "시스터" ) FFP(s)를 갖는 하나 또는 그 이상의 다른 개체가 있을 것이다 (이 가정은 후술하는 연구에서 정확함이 입증됨). 2. The number of sets of genome-sensitive alleles for one particular cancer type may be large, but we treat this as limiting. Thus, given the definite sample size for each cancer type, for the FFP of a rare SNP-Ss of one cancer individual, it is very similar to the population of the same cancer type than that of the other cancer type or the control group. sister" ) There will be one or more other individuals with FFP (s) (this assumption is proven correct in the study described below).

간단하게는, 최적 길이의 "희귀" SNP— Ss 를 발견하는 본 발명자들의 경험적 접근방식은 다음의 단계로 구성되어 있다 (참조: 도 1):  For simplicity, our empirical approach to finding the "rare" SNP—Ss of optimal length consists of the following steps (see Figure 1):

1. TCGA 데이터베이스 및 HpaMap 데이터베이스로부터 8 종류의 암 각각 및 비ᅳ암 개체 (대조군)의 WG SNPs (개체의 혈액시료로부터 유래됨)의 동일 개수 (66)로부터 어셈블링된 데이터세트를 구축하고 (참조: 표 1); 각각의 데이터베이스에 있을 수 있는 인위적 오류 그리고 서로 다른 데이터 세트를 통합하면서 발생되는 인위적 오류를 최소화 하기 위하여, 샘플질 조절을 실시한다 (J. T. Leek, et al . (2010). Tackling the widespread and critical impact of batch effects in high-throughput data; Nat Rev Genet 11(10) :733— 739) .  1. Build an assembled dataset from the same number of WG SNPs (derived from the blood sample of the individual) of each of the eight types of cancer and non-cancer individuals (control) from the TCGA database and the HpaMap database (see reference). Table 1); Sample quality control is performed to minimize the human error that may occur in each database and the human error that occurs when integrating different data sets (JT Leek, et al. (2010). Tackling the widespread and critical impact of batch effects in high-throughput data; Nat Rev Genet 11 (10): 733—739).

2. SNP-S 신택스의 특정 길이에 대하여 각각의 개체에 대한 모든 가능한 SNP-Ss 의 빈도로 구성된 FFP 백터를 구축하고, 여러 길이의 신택스에 대하여 이러한 과정을 반복한다.  2. Construct an FFP vector consisting of the frequencies of all possible SNP-Ss for each individual for a particular length of SNP-S syntax, and repeat this process for different lengths of syntax.

3. 파풀레이션의 특정 ¾>와 동일하거나 큰 모든 공통 SNP-Ss (및 이의 빈도)를 제거 (필터ᅳ아웃)하고, % 필터—인 레벨 범위에 대하여 이러한 과정을 반복한다.  3. Remove (filter out) all common SNP-Ss (and their frequencies) that are equal to or greater than a certain number of populations and repeat this process for the% filter-in level range.

4. 모든 "시스터" 를 발견한다 (멤버의 시스터는 이들 사이에 가장 작은 Jensen-Shannon 발산을 갖는 다른 멤버로 정의됨). 만일 시스터 페어의 두 멤버가 동일한 암 종류에 해당되면, 이들은 "진실한" 시스터 페어를 형성하며, 다른 암 종류에 해당되면, 이들은 "거짓" 시스터 페어를 형성한다.  4. Find all "sisters" (member's sister is defined as another member with the smallest Jensen-Shannon divergence between them). If two members of a sister pair are of the same arm type, they form a "true" sister pair, and if they are of a different arm type, they form a "false" sister pair.

5. 모든 시스터 페어 중에서 모든 암 종류에서의 모든 진실한 시스터 페어의 ¾로 정확도를 계산한다.  5. Calculate accuracy as ¾ of all true sister pairs for all arm types of all sister pairs.

6. 정확도 (%) 대. SNP-S 길이 및 % 필터링 -인에 대한 그래프를 작성하여 최적의 "희귀: SNP-Ss 를 위하여 경험적으로 최적 길이를 발견하고 % 필터링ᅳ인 레벨을 결정한다. 8 종의 암의 민감성 평가에서 최적으로 실시될 수 있는, 희귀 SNP-Ss 필터-인 레벨을 2% 레벨로 결정하고 신택스 길이 10 SNP-S10을 경험적으로 결정하였다 (도 2). 이러한 희귀 SNP- S10s는 모든 샘플의 2% 이하이었다. 그러나, 상기 필터링은, 각각 66 멤버의 9 개 그룹에 대한 FFP 프로파일링에 대하여 SNP-Sios 의 14% 이하만을 제거하였고 약 44 밀리언 SNP-S10s 대립유전자를 남겼다. 6. Accuracy (%) vs. Graph the SNP-S length and% filtering-in to find the optimal "rare: empirically find the optimal length for SNP-Ss and determine the% filtering-in level. In assessing the sensitivity of 8 cancers The rare SNP-Ss filter-in level, which can be optimally performed, was determined at the 2% level and the syntax length 10 SNP-S 10 was determined empirically (FIG. 2). This rare SNP-S 10 s was 2% or less of all samples. However, the filtering removed only 14% or less of SNP-Sios for FFP profiling for nine groups of 66 members each, leaving about 44 million SNP-S 10 s alleles.

7. 10 의 최적 특징 길이 및 2% 필터링 -인을 발견하는데 사용되는 데이터세트에서 선택되지 않은 개체들의 SNPs 를 이용하여 "검증" 시험을 실시한다.  7. Perform a “validation” test using SNPs of individuals not selected from the dataset used to find the optimal feature length of 10 and 2% filtering-in.

III. 최적 희귀 SNP-Ss를 이용한 분석 III. Analysis using optimal rare SNP-Ss

표 5 는 본 발명의 방법에 의해 결정된 유전적 민감성에 대한 예측 정확도를 정리한 것이다.  Table 5 summarizes the prediction accuracy for the genetic sensitivity determined by the method of the present invention.

【표 5】  Table 5

예측 특성  Prediction characteristics

^¾ᅳ정확도 ^ ¾ ᅳ accuracy

BRCA COAD HNSC IRC LGG OV READ UCEC CEU BRCA COAD HNSC IRC LGG OV READ UCEC CEU

크기 (%) size (%)

53.0%53.0%

B CA 35 4 8 2 4 2 2 7 2 66 B CA 35 4 8 2 4 2 2 7 2 66

(55.6%) (55.6%)

COAD 3 38 4 11 2 2 2 4 0 66 57.6% COAD 3 38 4 11 2 2 2 4 0 66 57.6%

HNSC 7 2 47 3 2 0 3 2 0 66 71.2% HNSC 7 2 47 3 2 0 3 2 0 66 71.2%

KI C 1 7 3 38 1 3 5 6 2 66 57.6% 실제 LGG 4 4 4 3 40 4 1 6 0 66 60.6% 특성 KI C 1 7 3 38 1 3 5 6 2 66 57.6% Actual LGG 4 4 4 3 40 4 1 6 0 66 60.6% Characteristics

47.0% 47.0%

OV 6 5 3 3 4 31 3 6 5 66 OV 6 5 3 3 4 31 3 6 5 66

(43%) (43%)

READ 6 1 2 3 3 0 50 1 0 66 75.8% READ 6 1 2 3 3 0 50 1 0 66 75.8%

53.0% 53.0%

UCEC 3 3 3 4 7 4 6 35 1 66 UCEC 3 3 3 4 7 4 6 35 1 66

(66.5%) (66.5%)

CEU 0 0 0 0 0 0 0 0 66 66 100% CEU 0 0 0 0 0 0 0 0 66 66 100%

Figure imgf000038_0001
Figure imgf000038_0001

필터링-인 및 / = 10에서 회귀 SNP-S/를 이용하는 경우 매우 우수한 결과가 나왔다. Very good results were obtained with the regression SNP-S / at filtering-in and / = 10.

IV. 본 발명 방법의 검증 IV. Validation of the Method of the Invention

본 발명의 방법에서, 8 종의 암 종류 및 대조군 각각 66 개 샘플의 데이터세트를 이용하여, 두 개의 파라미터 즉 SNP-Ss 의 길이 및 퍼센트 필터링—인 (2%)를 최적화 하였다. 공공의 데이터베이스에서 얻을 수 있는 SNP 데이터가 작기 때문에, 본 발명자들은 3 종의 암 (BRCA, 0V 및 UCEC)을 선택하였고, 이들은 데이터가 조금 더 많은 것이다. 3 종의 암 각각에서, 최적화 과정에서 사용된 데이터세트에 포함되지 않은 66개의 새로운 샘폴을 무작위적으로 선택하고, 두 개의 파라미터를 이용하여 암 종류에 대한 민감성 정확도를 계산하였다. 이러한 과정을 3 종의 암 각각에 대하여 10 희 반복하고 정확도의 평균을 계산하였다. 본 검증 시험에서 평균 정확도는 BRCA, 0V 및 UCEC 각각에 대하여 55.6%(43.93-71.21%) , 43.0% (34.84-48.48%) 및 66.5%(57.5그78.78%)이었다. 이 값들은 최초 샘플에서의 값과 꽤 유사한 것이다. ' In the method of the present invention, a dataset of 66 samples each of eight cancer types and controls was used to optimize two parameters, the length and percent filtering of SNP-Ss— (2%). Because of the small SNP data available in public databases, we chose three cancers (BRCA, 0V and UCEC), which are slightly more data. In each of the three cancers, 66 new samples were randomly selected that were not included in the dataset used in the optimization process, and two parameters were used to calculate sensitivity accuracy for the cancer type. This process was repeated 10 times for each of the three cancers and the average of the accuracy was calculated. The average accuracy for this verification test was 55.6% (43.93-71.21%), 43.0% (34.84-48.48%) and 66.5% (57.5 78.78%) for BRCA, 0V and UCEC, respectively. These values are quite similar to the values in the first sample. '

V. 민감성 대립유전자의 지놈 위치의 동정 V. Identification of the Genome Location of Susceptible Alleles

하나의 암 종류에 대한 SNP-S10 의 민감성 대립유전자에 의해 커버되는 지놈 부위를 위치화 시키기 위하여, 그 암 종류의 멤버 증에서만 나타나고 하나 또는 그 이상의 진실-시스터 페어 사이에 공통되지만 다른 암 종류에서 발견되지 않는 SNP-S10( "민감성 SNP-S 마커 대립유전자" 또는 이하 "민감성 마커 대립유전자" 이라 함)을 동정하였다. 이어, 3 레벨에서 이들을 분석하였다: (1) 전체 지놈에서 모든 마커 대립유전자의 총체적 관찰, (2) 하나의 염색체에서 마커 대립유전자의 위치의 중간적 레벨 관찰, 및 (3) 몇 개의 공지 암 유전자에 대한 마커 대립유전자의 위치의 근접 관찰. 표 6 은 전체 지놈에 대한 4 분위수로 나타낸

Figure imgf000040_0001
내용을 보여준다. To localize the genome region covered by the SNP-S 10 susceptibility allele for one cancer type, it appears only in membership of that cancer type and is common among one or more truth-sister pairs but in other cancer types An undetected SNP-S 10 (referred to as "sensitive SNP-S marker allele" or hereinafter "sensitive marker allele") was identified. These were then analyzed at three levels: (1) overall observation of all marker alleles in the entire genome, (2) intermediate level observation of the position of the marker allele on one chromosome, and (3) several known cancer genes. Close-up observation of the position of the marker allele for. Table 6 shows the quartiles for the entire genome
Figure imgf000040_0001
Show the contents.

【표 6】  Table 6

4분위수 (Quartile) Quartile

타입 :  type :

Q0 Q1 Q2 Q3 Q4 시스터-특이적 마커  Q0 Q1 Q2 Q3 Q4 Sister-specific Markers

1136 1394 1603 2152 11160 대립유전자  1136 1394 1603 2152 11160 Allele

액손 내 26 55 69 96 476 인트론 내 23 59 76 102 503 비 -P버랩핑  In axon 26 55 69 96 476 intron 23 59 76 102 503 b

기타 다른  Other

SNPs 4321 6793 7967 10693.5 56458 부위 내  SNPs 4321 6793 7967 10693.5 56458 In Sites

총합 4374 6911.5 8098 10898 57437 비-암 질환 19 39 48 65.5 278 커버되는 암 0 4 5 7 27 유전자 기타 275 501.5 597 825.5 3719  Total 4374 6911.5 8098 10898 57437 Non-cancer disease 19 39 48 65.5 278 Covered cancer 0 4 5 7 27 Gene Other 275 501.5 597 825.5 3719

Total 298 546.5 650 895 4018 첫 번째 열에서, 각각의 시스터에 대한 시스터 5^-^0의 개수에 대한 사분위수를 분석하였다. 각각의 시스터의 SNP-S10의 세트에 대하여, 비-오버랩핑 SNPs 의 개수를 측정하였고, 이들을 액손, 인트론 및 전사체가 없는 다른 부위 3 개의 카테고리로 분류하였다. 각각의 시스터에 대한 시스터 。의 한 세트에 의해 커버되는 유전자의 개수는 마지막 열에 기재되어 있고, 유전자들은 전사체 개시 /종결의 업스트림 /다운스트림 5 kb 에 걸친 부위로 정하였다. 인간 지놈 빌드 19 상의 UCSC 테이블 브라우저의 Gene Track 으로부터 유전자주석 데이터를 다운로드 하였고, 질환 유전자는 UCSC 테이블 브라우저의 GAD(Genetic Association Studies of Complex Diseases and Disorders) 트랙으로부터 다운로드 하였으며, 암 유전자는 Wellcome Trust Sangerlnstitute의 Cancer Gene Census으로부터 주석을 달았다. Total 298 546.5 650 895 4018 In the first column, the quartiles for the number of sisters 5 ^-^ 0 for each sister were analyzed. For each set of SNP-S 10s in each of the sisters, the number of non-overlapping SNPs was measured and classified into three categories of axons, introns and other sites without transcripts. The number of genes covered by a set of sisters for each sister is listed in the last column and the genes were defined as sites spanning 5 kb upstream / downstream of transcript initiation / termination. Gene annotation data was downloaded from the Gene Track of the UCSC Table Browser on the Human Genome Build 19, and disease genes were downloaded from the GAD (Genetic Association Studies of Complex Diseases and Disorders) track of the UCSC Table Browser, and the cancer gene was cancer of the Wellcome Trust Sangerlnstitute. Annotated from Gene Census.

표 6은 다음을 나타낸다:  Table 6 shows the following:

(1) 민감성 마커 대립유전자의 대부분은 유전암호 부위와 오버랩 되어 있지 않다. 오버랩 된 경우에도, 이러한 경우의 모든 대립유전자가 공지의 암 유전자와 오버랩 되어 있지는 않다.  (1) Most of the sensitive marker alleles do not overlap with the genetic code region. Even when overlapped, not all alleles in this case overlap with known cancer genes.

(2) 시스터 -페어 당 많은 마커 대립유전자가 있으며, 평균 약 (2) There are many marker alleles per sister-pair, averaged approximately

1,600이다. 도 4 는 3 번 염색체 (많은 암 유전자가 동정됨) 상에서 8 종 암의 민감성 마커 대립유전자를 3 번 염색체에서 공지된 다양한 특징 (예컨대 , 공지 암 유전자의 위치, SNP 밀도, 유전암호 부위 및 암 민감성에 대한 GWAS 히트가 발견되는 사이토밴드)에 상대적으로 맵핑한 결과를 보여준다. 다음과 같은 일반적 관찰이 이루어졌다: 1,600. 4 shows various features known on the chromosome 3 of 8 cancer sensitivity marker alleles on chromosome 3 (many cancer genes have been identified) (eg, location of known cancer genes, SNP density, genetic code site and cancer sensitivity). Shows the result of mapping relative to the cytoband) where the GWAS hit is found. The following general observations were made:

(3) 각각의 암 종류에 대한 많은 민감성 마커 대립유전자들이 있지만 이들은 매우 오버래핑 되고 구별된 클러스터를 형성하며, 이와 같은 사실은 민감성 마커 대립유전자들이 무작위 "노이즈" 가 아님을 보여주는 것이고;  (3) There are many sensitive marker alleles for each cancer type, but they form very overlapping and distinct clusters, indicating that the sensitive marker alleles are not random "noise";

(4) 상기 (1)번의 관찰 결과와 일치되게, 암 유전자와 마커 대립유전자사이의 유의적인 상관성이 없으며;  (4) consistent with the observation of (1) above, there is no significant correlation between the cancer gene and the marker allele;

(5) 마커 대립유전자의 위치 및 G Ss 에서 얻은 암 민감성 SNP 히트와 관련된 사이토밴드 사이에 강한 상관성이 관찰되지 않는다.  (5) No strong correlation was observed between the position of the marker allele and the cytobands associated with cancer sensitive SNP hits obtained at G Ss.

민감성 마커 대립유전자의 대부분은 지놈의 비-유전암호 부위에서 발견되지만, 도 5 는 암 유전자로 잘 알려진 (a) TP53및 (b) 유전자 근처에 마커 대립유전자가 맵핑되어 있는 유전암호 부위의 두 구역에 대한 예를 보여준다. 대부분의 암 유전자들이 0MIM 데이터베이스에 기록되어 있는 두 암 (BRCA 및 C0AD)의 모든 마커 대립유전자를 조사하였다. 다음과 같은 실험 결과를 얻었다:  Most of the sensitive marker alleles are found in the non-genetic code region of the genome, but Figure 5 shows two regions of the genetic code region where the marker allele is mapped near the genes (a) TP53 and (b), which are well known cancer genes. An example is shown. All marker alleles of both cancers (BRCA and C0AD), whose most cancer genes are recorded in the 0MIM database, were examined. The following experimental results were obtained:

(6) 상기 두 암 종류에 대한 민감성 마커 대립유전자들은 상기 두 유전자 위치와 오버랩핑 되지 않는다. 민감성 마커. 대립유전자들은 다른 근처 유전자들과 오버랩핑 되고;  (6) Sensitivity marker alleles for the two cancer types do not overlap with the two gene positions. Sensitivity markers. Alleles overlap with other nearby genes;

(7) 그러나, 상기 두 암 종류에 대하여 알려진 모든 암 유전자의 약 50%는 BRCA 및 C0AD 각각의 마커 대립유전자의 SNP 위치와 오버래핑 되거나 또는 BRCA 및 C0AD 각각의 마커 대립유전자의 SNP 위치의 20 kb 및 50 kb 범위에서 발견되고 (참조: 도 8);  (7) However, about 50% of all known cancer genes for the two cancer types overlap with the SNP positions of the marker alleles of BRCA and C0AD, respectively, or 20 kb of the SNP positions of the marker alleles of BRCA and C0AD, respectively; Found in the 50 kb range (see FIG. 8);

(8) 상기 두 암 종류 (BRCA 및 C0AD)에 대한 GWASs 에 의해 규명된 공지의 연관 SNPs 에 상대적인 마커 대립유전자의 위치를 분석하였다. 분석 결과에 따르면, 13 개의 BRCA-연관 SNPs 중에서 8 개는 각각의 마커 대립유전자로부터 5 kb 의 거리 내에 있고, 6 개의 C0AD-연관 SNPs 중에서 3 개는 각각의 마커 대립유전자로부터 20 kb 의 거리 내에 있다. 상기 두 암 종류 모두에서, 모든 연관 SNPs는 500 kb 내에서 발견된다. 요약 및 논의 사항 (8) The location of marker alleles relative to known associated SNPs identified by GWASs for the two cancer types (BRCA and C0AD) were analyzed. According to the analysis results, 8 out of 13 BRCA-associated SNPs are labeled with their respective markers. Within 5 kb of the allele and three of the six C0AD-associated SNPs are within 20 kb of each marker allele. In both cancer types, all associated SNPs are found within 500 kb. Summary and Discussion

요약 summary

본 발명자들은 SNP 신택스 (SNP-S) 및 이 신택스의 특징 빈도 프로파일 개념을 도입하여 한 개체의 WG SNPs 의 체계적 특징을 분석하는 방법을 제공한다. 이어, 각 개체의 희귀 SNP-Ss 의 FFP를 대조군 개체 및 8 종류의 주 암을 갖는 개체들의 FFP 와 비교하여 멀티클래스 암 민감성을 평가하였다. 현재 TCGA 데이터베이스에서 이용가능한 SNP 데이터의 양이 비록 적지만, 본 발명은 암 종류에 따라 약 47-76%의 범위의 정확도로 8 종의 주요 암에 대한 유전적 민감성을 예측한다. 이 정확도는 각각의 암 종류에 대한 샘플의 크기가 증가함에 따라 증가할 것이며, 샘플 크기의 증가는 현재의 시퀀싱 기술에 의해 쉽게 얻을 수 있을 것이다.  The present inventors introduce the concept of SNP syntax (SNP-S) and the feature frequency profile of this syntax to provide a method for analyzing the systematic characteristics of WG SNPs of an individual. Subsequently, multiclass cancer susceptibility was evaluated by comparing the FFP of the rare SNP-Ss of each individual with the FFP of the control individual and those with eight main cancers. Although the amount of SNP data currently available in the TCGA database is small, the present invention predicts genetic susceptibility to eight major cancers with an accuracy in the range of about 47-76%, depending on the type of cancer. This accuracy will increase as the size of the sample for each cancer type increases, and the increase in sample size will be readily obtainable by current sequencing techniques.

본 발명의 연구 결과는 암 민감성에 대한 "멀티플 분류 모델" (Multiple assortment model)을 뒷받침한다: The findings of the present invention support the "multiple assortment model" for cancer susceptibility:

1. 암에 대한 개체의 민감성은 지놈의 비-유전암호 부위에 존재하는 많은 회귀 SNP 신택스 (시스터 특이적 마커 대립유전자)의 세트와 연관성이 있고 (표 6);  1. The individual's susceptibility to cancer is associated with a set of many regressive SNP syntaxes (sister specific marker alleles) present in the non-genetic code region of the genome (Table 6);

2. 하나의 파풀레이션에서 암 민감성에 대한 이러한 많은 세트가 있으며 (평균 약 34 개의 시스터 페어), 하나의 시스터 페어의 마커 대립유전자들의 대부분은 동일 암 종류에서 다른 시스터 페어의 마커 대립유전자와 다르며 ;  2. There are many such sets of cancer susceptibility in one population (average about 34 sister pairs), and most of the marker alleles of one sister pair are different from the marker alleles of the other sister pair in the same cancer type;

3. 하나의 암 종류에 있어서, 시스터 특이적 마커' 대립유전자의 각각의 세트는 암 특이적 마커 대립유전자로부터 "분류" 된 것으로 판단될 수 있고, 이는 하나의 암 종류에 대하여 독특한 모든 시스터 특이적 마커 대립유전자들의 집합이다. 논의 사항 3. In one type of cancer, Sister specific markers, each set of alleles can be expected from a cancer-specific marker allele "classified", which all unusual unique Sister for one type of cancer ever It is a collection of marker alleles. Discussion

샘플 크기 VS. 정확도 Sample size VS. accuracy

암 종류의 개수가 증가하면 본 발명의 퍼포먼스가 저하되지만, 각각의 암 종류에 대한 데이터세트의 크기가 증가하면 본 발명의 퍼포먼스는 개선된다 (도 7). 샘플 크기의 실질적인 증가는, 암 종류 개수의 증가에 따른 퍼포먼스 저하를 보상한다. 또한, 각각의 암 서브타입의 샘플 크기가 상당히 크면, 본 발명은 하나의 암 종류의 개별적 서브타입에 대한 민감성을 예측하는 데 이용될 수 있다. 민감성 예측의 정확도 한계  Increasing the number of cancer types degrades the performance of the present invention, while increasing the size of the dataset for each cancer type improves the performance of the present invention (Fig. 7). Substantial increase in sample size compensates for performance degradation as the number of cancer types increases. In addition, if the sample size of each cancer subtype is quite large, the present invention can be used to predict sensitivity to individual subtypes of one cancer type. Accuracy Limits for Sensitivity Prediction

본 발명은 암 종류에 따라 약 47— 76%의 범위의 정확도로 8 종의 주요 암에 대한 유전적 민감성을 예측한다. 비록 하나의 암 종류에 대한 샘플 크기가 증가하면 정확도는 증가하지만 (도 7), 100%에 도달하지는 않는다. 하나의 암 종류에 대한 모든 유전적 민감성이 암을 촉발하지는 않으며, 대부분의 경우, 암의 발생은 비-유전암호적인 하나 또는 그 이상의 촉발 이벤트를 필요로 한다.  The present invention predicts genetic susceptibility to eight major cancers with an accuracy in the range of about 47-76%, depending on the type of cancer. Although increasing the sample size for one cancer type increases accuracy (Figure 7), it does not reach 100%. Not all genetic susceptibility to one cancer type triggers cancer, and in most cases, the occurrence of cancer requires one or more triggering events that are non-genetic.

"오류" 시스터 "Error" sister

오류 시스터는 다음과 같은 여러 요인에 의해 잘못 분류될 수 있다: Error sisters can be misclassified by a number of factors:

1) 작은 샘플 크기 때문에, 진실한 시스터가 데이터세트에서 발견되지 않을 수 있으며 이는 장차 샘플 크기가 증가하면 발견될 것이고, 2) 유전적인 민감도는 유사하나 비유전적인 요인에 의해 다른 암 유형과 시스터를 구성하게 했을 수도 있고, 3) 오류 시스터는 동일하지 않지만 유사한 암 표현형에 대한 유전자형 시스터일 수 있고, 4) 부정확한 유전자형 콜 (실험적 또는 컴퓨터적인 편향에 의해 초래된)에 의한 시스템적인 오류 5) 파풀레이션 층화 (stratification)은 고려되지 않았고, 6) 제한된 샘플을 이용한 "최적" 필터링 역치의 선택에 의해 초래된 어떤 마커 대립유전자의 손실. 샘플 크기가 실질적으로 증가하면 어떤 오류 시스터는 진실한 시스터로 밝혀질 수도 있다 . 또는, 시스터를 찾는 대신에 다른 방법으로 VAR-synthax 를 분류하는 방법도 있다. 예를 들면, SVM 을 적용할 수 있다. 전체 지놈 서열 vs. SNP vs. 태깅 공통 SNPs 1) Because of the small sample size, true sisters may not be found in the dataset, which will be found as the sample size increases in the future. 2) Genetic sensitivity is similar but non-genetic factors can be used to compose different cancer types and sisters. 3) the error sister may be a genotype sister for a similar but similar cancer phenotype, and 4) a systematic error due to an incorrect genotype call (caused by experimental or computer bias) 5) population stratification (stratification) was not taken into account, and 6) any markers caused by the selection of the "optimal" filtering threshold with limited samples. Loss of allele. If the sample size increases substantially, some error sisters may turn out to be true sisters. Or, instead of looking for a sister, there is another way to classify VAR-synthax. For example, SVM can be applied. Full genome sequence vs. SNP vs. Tagging Common SNPs

이용가능한 SNP 밀도는 본 발명의 정확도를 제한할 수 있기 때문에, 본 연구에 이용된 고속 플랫폼의 태깅 공통 SNPs 보다 서열에서 불러온 모든 SNPs 를 이용하여 SNPs 의 수를 증가시키는 것이 본 발명의 민감도 예측을 실질적으로 개선할 수 있다. SNPs 또는 태깅 공통 SNPs 가 아닌 WG 서열을 이용하면, 본 발명의 퍼포먼스를 더욱 개선할 것이다. 민감성 마커 대립유전자의 수  Since the available SNP densities may limit the accuracy of the present invention, increasing the number of SNPs using all SNPs loaded in sequence rather than the tagging common SNPs of the high-speed platform used in this study may improve the sensitivity prediction of the present invention. Substantially improve. Using WG sequences other than SNPs or tagging consensus SNPs will further improve the performance of the present invention. Number of susceptible marker alleles

민감성 마커 대립유전자의 매우 많은 수 (암 종류에 따라 약 40,000- 118,000)가 암 종류 당 평균 약 34 개 시스터 페어로 분류되었고, 각각의 시스터 페어는 약 1,600 개 민감성 마커 대립유전자를 가지며, 이는 본 연구에서 한 개체의 모든 SNP-S10s 의 약 0.05%에 해당되는 것이다. 대립유전자들의 대부분은 매우 오버랩핑 되어 있고 클러스터링 되어 있으며, 이는 대립유전자들이 "노이즈" 가 아님을 나타내는 것이다. 예컨대, 도 4 는 3 번 염색체에서 암 종류 당 약 21 개 (5-33 개의 범위)의 클러스터가 있음을 보여준다. 파풀레이션 층화 및 다른 요인 A very large number of sensitive marker alleles (approximately 40,000-118,000, depending on the type of cancer) were classified into an average of about 34 sister pairs per cancer type, with each sister pair having about 1,600 sensitive marker alleles. This is equivalent to about 0.05% of all SNP-S 10 s in one individual. Most of the alleles are very overlapping and clustered, indicating that the alleles are not "noise". For example, FIG. 4 shows that there are about 21 clusters (range 5-33) per cancer type on chromosome 3. Population Stratification and Other Factors

본 발명자들은 종족 정보를 갖는 미국 내 유럽 조상을 갖는 개체로 연구 대상을 한정하였지만, 본 연구의 샘플에서 잠재적인 파풀레이션 서브구조가 있을 수 있으며 (A. L. Price, et al. (2008). Discerning the Ancestry of European Americans in Genetic Association Studies. PL'oSGenet D -e236), 이는 동일한 스브 -파퓰레이션에서의 편향된 시스터를 W 201 We have limited our study to individuals with European ancestors in the United States with racial information, but there may be potential population substructures in the samples of this study (AL Price, et al. (2008). of European Americans in Genetic Association Studies.PL ' oSGenet D-e236), which indicates a biased sister in the same sub-population. W 201

제공할 가능성이 있다. 이와 유사하게, 시스템적으로 본 발명의 결과에 영향을 줄 수 있는 다른 숨어있는 변수들이 있을 수 있다. There is a possibility to provide. Similarly, there may be other hiding variables that may systematically affect the results of the present invention.

지놈-와이드 데이터의 "강제된 콜" , 후성유전학적 정보의 부재, 인간 레퍼런스 자놈 서열에서의 오류 (International Human Genome Sequencing Consortium (2004) . Finishing the euchromatic sequence of the human genome. Nature 431(7011) :931-945) 및 유전자형 콜 오류 (N. Rabbee & T. P. Speed (2006) . A genotype calling algorithm for Affymetrix SNP arrays. Β/οϊη format ics 22(1) :7-12)와 같이 예측 정확도에 영향을 미치는 다수의 다른 요인들이 있을 수 있다. 이들 요인들 모두에서의 개선은 본 발명의 예측 정확도를 향상시킬 것이다. 다른 암 표현형, 실험 배치 및 다른 시스템적 편향 (S. Turner , et al . (2011). Quality control procedures for genome-wide association studies. Curr Protoc Hum Genet Chapterl; D. G. Clayton, et al . (2005) . Population structure, differential bias and genomic control in a large-scale, case-control association study. Nat Genet 37(11) : 1243-1246)에 대하여 얻는 SNP 유전자형에 대하여 요구되는 추가적인 질 조절은 예측 정확도를 향상시킬 수 있을 것이다. 다른 가능한 웅용  "Forced calls" of genome-wide data, absence of epigenetic information, errors in the human reference genome sequence (2004) .Finishing the euchromatic sequence of the human genome.Nature 431 (7011): 931-945) and genotype call errors (N. Rabbee & TP Speed (2006) .A genotype calling algorithm for Affymetrix SNP arrays. Β / οϊη format ics 22 (1): 7-12). There may be a number of other factors. Improvements in both of these factors will improve the prediction accuracy of the present invention. Other cancer phenotypes, experimental placement and other systemic biases (S. Turner, et al. (2011) .Quality control procedures for genome-wide association studies.Curr Protoc Hum Genet Chapterl; DG Clayton, et al. (2005). structure, differential bias and genomic control in a large-scale, case-control association study.Additional quality control required for SNP genotypes obtained for Nat Genet 37 (11): 1243-1246) may improve prediction accuracy. will be. Other possible gender

파풀레이션 수준 또는 개인적 수준에서, 본 발명은 실질적인 정보를 제공할 수 있다: 암에 대한 높은 유전적 민감성을 갖는 파풀레이션의 크기를 정량적으로 예측하는 것은 암 예방 정책 및 비용 관리 전략을 수립하는 데 있어서 매우 유용한 정보이다. 이와 유사하게, 한 개체의 유전적 민감성을 예측하는 것은 예방에 대한 동기 및 사전적 초기 진단에 대한 동기를 제공한다. 본 발명이 적용될 수 있는 다른 응용분야는 만성 질환, 감염성 질환 및 신경 질환 등과 같은 다른 질환류에 대한 유전적 민감성의 연구를 포함한다. 또한, 층분한 샘플에 대한 지놈 데이터가 있으면, 본 발명은 특정 치료에 대한 환자의 민감성과 치료학적 이득 또는 효능의 가능성을 증가시키고 부작용 위험을 감소시킬 수 있는 임상 시험에 대한 환자의 민감성을 평가하는 데 적용될 수 있다. At the Population level or at the individual level, the present invention can provide substantial information: quantitatively predicting the size of the population with high genetic susceptibility to cancer is essential in establishing cancer prevention policies and cost control strategies. This is very useful information. Similarly, predicting the genetic susceptibility of an individual provides motivation for prevention and for early early diagnosis. Other applications in which the present invention may be applied include the study of genetic susceptibility to other diseases such as chronic diseases, infectious diseases and neurological diseases. In addition, if there is genome data for a stratified sample, the present invention may also be useful in determining the sensitivity and therapeutic benefit of a patient to a particular treatment. It may be applied to assess the patient's sensitivity to clinical trials that may increase the likelihood of efficacy and reduce the risk of adverse events.

II. 제 2발명 : 통합적 접근 방법 II. Second invention: integrated approach

연구 방법 Research method

시료 및 지노타이핑 Sample and Zino Typing

상술한 제 1 발명에 기재된 "데이터베이스 및 샘플링" 과 동일하게 샘플링 및 지노타이큉을 실시하였다. 시료질조절  Sampling and genotyping were performed in the same manner as "database and sampling" described in the first invention described above. Sample quality control

비ᅳ유럽 조상의 몇 몇 개체들은 TCGA 로부터 제거하여 층화 (stratification) 오류가 발생되지 않도록 하였다. 모든 마커들을 Affymetrix 6.0 SNP 칩으로 타이핑 하였다. 본 연구에서 사용된 데이터세트를 다음과 같은 조건으로 PUNK 를 이용하여 얻었다: 본 발명자들이 사용한 플랫폼이 타입 하이 다형질성 위치에 적합하도록 디자인된 것을 고려하여, 1% 이하의 마이너 대립유전자 빈도를 갖는 SNPs 는 노이즈로 간주하여 제거하였고, Hardy Weinberg Equilibrium 시험을 CEU 개체에서 각각의 마커에 적용하였다 Go > 10~6) . 또한, 암 특성 내에서 모든 플레이트에 대한 하나의 플레이트 및 다른 플레이트들 (30 개 이상의 시료를 가짐) 사이의 연관성 시험 ? > 1 X 10_8)을 실시하여, 플레이트 -효과 시험을 적용하였다. QC 를 통과한 SNPs 에 대하여, TCGA 데이터에서 미국내 자기- 발표 코카시안 개체를 추출하고 유전 관련성 시험을 실시하였다 (PI_HAT < 0.2). 또한, 페디그리 정보를 이용하여 CEU 에서 모든 관련 개체들을 제거하였다. 최종적으로, 샘플을 통합하고 post— QC 특성 데이터세트에 대하여 SNPs 를 조인트하여, 1741 개체에 대한 상염색체의 비반복성 714649개 SNPs에 대한 유전자형을 얻었다 (표 7). Several instances of non-European ancestors were removed from the TCGA to ensure that no stratification errors occurred. All markers were typed with Affymetrix 6.0 SNP chips. The dataset used in this study was obtained using PUNK under the following conditions: Given that the platform used by the inventors was designed to be suitable for the type high polymorphic position, it had a minor allele frequency of less than 1%. SNPs were removed regarded as noise, and apply the Hardy Weinberg Equilibrium test for each of the marker object in the CEU Go> 10 ~ 6). In addition, the association test between one plate and other plates (having more than 30 samples) for all plates within the cancer characteristics? > 1 X 10 _ 8 ), the plate-effect test was applied. For SNPs that passed QC, self-published Caucasian individuals in the US were extracted from TCGA data and subjected to genetic relevance testing (PI_HAT <0.2). In addition, the Pedigree information was used to remove all relevant entities from the CEU. Finally, samples were integrated and SNPs were jointed against post—QC characteristic datasets to obtain genotypes for non-repeating 714649 SNPs of autosomal to 1741 individuals (Table 7).

【표 7]

Figure imgf000047_0001
[Table 7]
Figure imgf000047_0001

묘사자요소들의 인코딩 Encoding of Descriptor Elements

두 가지 인코딩을 이용하였다: (i) 분류 퍼포먼스를 증가시키기 위하여, 각각의 SNP 유전자형을, 그 유전자형에서의 마이너 대립유전자의 수에 따라 0, 1 또는 2 의 수로 전환하였고; (ii) SNP-Ss 의 효과적인 프로파일링을 위하여, SNP-S 묘사자의 각각의 SNP 를 10 개의 알파벳 중 하나로 전환하였다 (참조: 표 3).  Two encodings were used: (i) to increase classification performance, each SNP genotype was converted to a number of 0, 1 or 2 depending on the number of minor alleles in that genotype; (ii) For effective profiling of SNP-Ss, each SNP of the SNP-S descriptor was converted to one of 10 alphabets (see Table 3).

SNP-Ss의 최적 길이 Optimum Length of SNP-Ss

모든 가능한 길이의 SNP-Ss 의 개수는 너무 많기 때문에 (106 위치의 길이의 하나의 SNP 스트링에 대하여 약 1012개), 이러한 크기의 FSPs 비교에 필요한 수학적 계산이 힘들기 때문에, 본 발명자는 "최적" 길이의 SNP- S 만을 이용하였다. 컴퓨터 부담을 크게 덜어주기 위하여 최적 길이를 이용하는 것은 본 발명자들의 종전 논문에 기재되어 있다. 4가지 방법 Since the number of SNP-Ss of all possible lengths is too large (about 10 12 for one SNP string of length 10 6 ), the mathematical calculations required to compare FSPs of this size are difficult, and the Only SNP-S of optimal "length was used. Using the optimal length i to give greatly ease the burden computer is described in the previous study of the present inventors. 4 ways

본 발명자들에 의해 제시된 4가지 방법은 도 9에 요약되어 있다. 그 상세는 다음과 같다:  The four methods presented by the inventors are summarized in FIG. 9. The details are as follows:

1) kNN/SNPS 방법: SNP 신택스 (SNPSs)에 대한 k-최인접 이웃 (kNN) 알고리즘 , 1) kNN / SNPS method: k-nearest neighbor (kNN) algorithm for SNP syntax (SNPSs) ,

훈련 세트의 모든 멤버에 대한 SNP-Ss 의 백터를 얻은 다음 특징 선별 단계를 진행하였다. 이 단계에서, 파풀레이션의 어떤 퍼센티지에 의해 공유되는 신택스를 제거 (필터-아웃) 하고, 잔여분 (필터 -인)을 분석에 이용하였다. 그런 다음, 개체의 희귀 SNP 신택스의 총 수로 정규화 하였다. 최종적으로, 희귀 SNP 신택스를 이용하여 모든 멤버들 사이의 Jensen- Shannon(JS) 발산 매트릭스를 구축하였다. 묘사자 (descriptor)의 거리를 측정하기 위하여 JS 발산을 선택한 이유는, 대립유전자 공유 (allele sharing)과 같은 다른 통상적인 방법들보다 예측능이 우수하기 때문이다. 모든 개체, 각각의 개체에 대하여 짝 JS 거리를 측정한 다음, 상위 최근접 k개체들 중에서 9 클래스를 선출 (vote)하고 가장 높은 카운트를 갖는 것을 선택하였다. 동등한 경우, 상위 k에서 클래스 개체들 중에서 타겟 개체에 가장 짧은 평균거리를 갖는 클래스를 선택하였다. 모든 멤버에 대한 을바른 추측 할당을 이용하여, 정확도를 측정하였다. 훈련 데이터세트에 대한 암 민감성 추정의 최고 정확도를 위하여, SNP-S 의 최적 길이, 1, 저빈도 선택에 대한 f 파라미터, 파라미터 k 를 최적화 하였다. 최적 파라미터 값은 !, f, 및 k에 대하여 각각 8, 1 및 40 이었다 (도 10a, 표 8a). 시험 단계에서, 동일한 / 과 / 의 최적 파라미터를 이용하였다. 이어, 개체 및 훈련 셈플 사이의 JS 거리 백터를 측정하였다. 최적 k 파라미터로 훈련 단계에서 동일한 선출 과정올 통해, 시험 개체들을 예측하였다. Vectors of SNP-Ss for all members of the training set were obtained and then the feature screening step proceeded. In this step, the syntax shared by some percentage of the population is removed (filtered out) and the residue (filtered in) is used for analysis. It was then normalized to the total number of rare SNP syntax of the subject. Finally, a rare SNP syntax was used to construct a Jensen-Shannon (JS) divergence matrix among all members. The reason why JS divergence was chosen to measure the distance of the descriptor is that it is more predictable than other conventional methods such as allele sharing. The paired JS distances were measured for all individuals, each individual, then voted 9 classes from the top k nearest individuals and selected the one with the highest count. In the case of equivalence, the class having the shortest average distance from the target entity among the class entities in the upper k was selected. Accuracy was measured using the correct guess assignments for all members. For the best accuracy of cancer sensitivity estimation for the training dataset, the optimal length, 1, f parameter for low frequency selection, and parameter k for SNP-S were optimized. Optimal parameter values were 8, 1, and 40 for!, F, and k, respectively (FIG. 10A, Table 8A). In the testing phase, the same / and / optimal parameters were used. The JS distance vector between the subject and the training sample was then measured. The test subjects were predicted through the same selection process in the training phase with the optimal k parameter.

2) kNN/SNP 방법: SNPs에 대한 k-최인접 이웃 (kNN) 알고리즘 2) kNN / SNP Method: k-Nearest Neighbor (kNN) Algorithm for SNPs

SNP-S 묘사자를 SNP 로 대체하고 상기 1)과 동일하게, KNN 을 리모델링 하였다. SNP-S 와는 상이하게, 각각의 SNP 를 0, 1 및 2 의 숫자 형태로 전환하였으며, 이는 유전자형에서의 마이너 대립유전자의 카운트에 따라 결정된다. SNP 의 에서, /및 ^:파라미터 (참조: 도 10b, 표 8b)를 훈련시켰다. /및 파라미터에 대한 최적 값은 각각 15% 및 200이었다.  SNP-S descriptors were replaced with SNPs and KNN was remodeled in the same manner as in 1) above. Different from SNP-S, each SNP was converted to the numeric form of 0, 1 and 2, depending on the count of minor alleles in the genotype. In the SNP, the / and ^: parameters (see Figure 10b, Table 8b) were trained. Optimal values for / and the parameters were 15% and 200, respectively.

3) SVM/SNP 방법: SNPs에 대한서포트 백터 머쉰 (SVM)  3) SVM / SNP Method: Support Vector Machine (SVM) for SNPs

SVM 은 감독 분류 방법이며, 최초에 빌딩 이진수 분류자를 위하여 고안된 것이고, 후에 다양한 방식으로 멀티플 분류자를 구축하는데 이용되고 있다. 본 발명자들은 One-Versus-One(OVO) 스킴을 이용하였으며, 이는 경험적으로 다른 방식들보다 우수한 것으로 알려져 있기 때문이다 (Duan KB & Keerthi SS (2005) Which is the best multiclass SVM method? An empirical study. Lect Notes Comput Sc 3541:278-285). 0V0 방법은 n 클래스들의 각각의 쌍에 대한 Γ· 분류자를 생성하고, 시험 샘플에 대한 / 예측들로부터 가장 높은 선출을 갖는 클래스를 취한다. 0V0 SVM 방법을 실시하기 위하여, Chang et al 의 LIBSVM 을 이용하였다 (Chang CC & Lin CJ (2011) LIBSVM: A Library for Support Vector Machines. Acm T Intel Syst Tec 2(3)). 커널함수에 대하여 RBF (Radial Basis Function)을 선택하였으며, 이는 다른 함수들보다 우수한 것으로 알려져 있기 때문이다. SNP 묘사자의 바이너리 분류자를 구축하기 위하여, 소정의 P-값 역치 ?)에 대하여 SNPs 를 필터링-아웃하여 두 개의 클래스 사이에 연관된 SNPs 를 선별하였다 (참조: 도 10c). 최적 컷오프를 규명하기 위하여, 범위를 10_3 으로부터 10— 6 으로 하였다 (Wei Z, et al . (2009) From Disease Association to Risk Assessment: An Optimistic View from Genome-Wide Association Studies on Type 1 Diabetes. Plos Genet 5(10)). 1(Γ6 보다 작은 컷오프는 적용하지 않았으며, 연관 시험에 의한 필터링 후 어떤 분류자는 SNPs 를 남기지 않기 때문이다. 훈련기 동안, 각각의 암에 대한 66 개 시료의 데이터세트 (총 594 개체)에서 리브ᅳ원- 아웃 (leave-one-out) 교차 검증을 통하여 0V0 SVM 예측의 퍼포먼스를 평가하였다. 이를 위하여, 리브-원 -아웃 교차-검증에 의한 데이터세트의 나머지로부터 훈련된 파라미터에 기초하여, 본 방법의 예측. 퍼포먼스를 '무작위 시료에 대하여 평가하였다. 상기 과정을 모든 케이스에 대하여 반복하고, 클래스 (암 종류) 할당의 결과를 수집한 다음 불확실성 매트릭스 (contingency matrix)에 표로 만들었다 (참조: 표 8c). 애매한 예측의 경우 (즉, 멀티플 최고 선출인 경우), 동점이 깨질 때까지 최고 선출의 클래스들의 세트에서 폴을 반복하였다. 0V0 SVM에 의한 예측 결과는 ^값 커오프 값이 1 X 10— 5인 경우에 가장 우수하였다 (참조: 도 10c). SVM is a supervised classification method, originally designed for building binary classifiers, and later used to build multiple classifiers in various ways. We used the One-Versus-One (OVO) scheme because it is empirically known to be superior to other methods (Duan KB & Keerthi SS (2005) Which is the best multiclass SVM method? An empirical study. Lect Notes Comput Sc 3541: 278-285. The 0V0 method generates a Γ · classifier for each pair of n classes and takes the class with the highest election from / predictions for the test sample. In order to implement the 0V0 SVM method, LIBSVM by Chang et al. (Chang CC & Lin CJ (2011) LIBSVM: A Library for Support Vector Machines. Acm T Intel Syst Tec 2 (3)). We chose RBF (Radial Basis Function) for the kernel function, because it is known to be superior to other functions. To build a binary classifier of SNP descriptors, SNPs were filtered out for a given P-value threshold?) To select the associated SNPs between the two classes (see FIG. 10C). In order to examine the optimal cut-off, the range was from 6 to 10- 10_ 3 (Wei Z, et al (2009) From Disease Association to Risk Assessment:.. An Optimistic View from Genome-Wide Association Studies on Type 1 Diabetes Plos Genet 5 (10)). No cutoff less than 1 (Γ 6) was applied and no classifier leaves SNPs after filtering by the associated test. During training, ribs from the dataset of 66 samples (594 individuals in total) for each cancer. We evaluated the performance of the 0V0 SVM prediction through leave-one-out cross-validation, based on the parameters trained from the rest of the dataset by rib-one-out cross-validation. the prediction of how the performance was evaluated for "random sample is repeated for the process in all cases, collecting the results of the class (type of cancer) assigned then made marks on the uncertainty matrix (contingency matrix) (see: Table 8c In the case of ambiguous predictions (ie, multiple best elections), the poll is repeated in the set of best elected classes until the tie is broken. One prediction result was best when the ^ value cutoff value was 1 × 10 − 5 (see FIG. 10C).

4) SW/SNPS 방법: SNPSs의 서포트 백터 머쉰 (SVM) 4) SW / SNPS Method: Support Vector Machine (SVM) of SNPSs

SNP 대신에 SNP-S 를 이용하여 SVM 을 이용하여 또 다른 예측 모델을 구축하였다 (참조: 도 10d, 표 8(1). SNP-S 의 최적 길이에 대한 추가적인 파라미터 (훈련기 동안 탐구되고 최적화 됨)가 포함되는 것을 제외하고는, 본 방법의 전체적인 파이프라인은 상기 3)번과 동일하다. ^ ^값 커오프 값에 대한 최적 값 및 SNP-S에 대한 최적 길이는 각각 10—5 및 2이다. 멀티폴 예측 알고리즘의 Bayes i an 추론 Another predictive model was constructed using SVM using SNP-S instead of SNP (see FIG. 10D, Table 8 (1). Additional parameters for optimal length of SNP-S (explored and optimized during training) Except is included, the overall pipeline of the method is the same as 3) above. ^^ value greater optimal length for optimal values, and SNP-S on-off value is a 10- 5 and 2, respectively. Bayes i an inference of multipole prediction algorithm

T={B,C,H,K,0,L,R,U,N 의해 표시되는 9 개 표현형 중 하나로 개체들을 분류하기 위하여, 각각의 표현형올 각 형질의 전체 이니셜의 첫 번째 문자로 레이블링 하였다. 상기 4 가지 방법의 예측 결과의 베이지언 (Bayes i an) 추론을 이용하였다. 이러한 방법들은 다음의 약칭을 갖는다: KNN/SNPS, KNN/SNP, SVM/SNPS, SVM/SNP. 상기 방법들은 수학적으로 각각 , nf, π?, m4으로 표시된다. 각각의 시험 개체 i 에 대하여, 훈련방법으로부터 얻은 예측 결과에 대하여 조건화된 가장 높은 사후확를의 형질을 선택하였으며, 이는 PCsjlHfiJ^ fi ^ — 공식화 할 수 있다. 상기 식에서, s /는 개체 i 의 예측 형질, i는 방법 에 의해 예측된 개체 /의 형질을 나타낸다. 베이지언의 정리 (Bayes theorem)에 의해 다음과 같이 나타낼 수 있다: In order to classify individuals into one of the nine phenotypes represented by T = {B, C, H, K, 0, L, R, U, N, each phenotype was labeled with the first letter of the full initial of each trait. . Bayesian inference of the prediction results of the four methods was used. These methods have the following abbreviations: KNN / SNPS, KNN / SNP, SVM / SNPS, SVM / SNP. The methods are mathematically represented by nf, π ?, m 4 respectively. For each test subject i, the traits with the highest postconditioning were selected for the predicted results from the training method, which can be formulated PCsjlHfiJ ^ fi ^ —. In the above formula, s / is the predicted trait of the subject i, i is the trait of the subject / predicted by the method. By Bayesian theorem we can write:

Figure imgf000051_0001
분모 Ps j^ fi ^J^)는 정규화 상수이다. 각 방법의 예측 결정은 서로 내재적으로 독립적이기 때문에, 체인규칙을 적용한다 (Zhang H (2005) Ex loring conditions for the optimality of Naive bayes . Int J Pattern Recogn 19(2): 183-198):
Figure imgf000051_0001
Denominator Ps j ^ fi ^ J ^) is the normalization constant. Since the prediction decisions of each method are inherently independent of each other, we apply the chain rule (Zhang H (2005) Ex loring conditions for the optimality of Naive bayes. Int J Pattern Recogn 19 (2): 183-198):

t蒙 = argmaxteT IT P(!W} /s,- = t)x P(s} = t) t 蒙 = argmax teT IT P (! W } / s,-= t) x P (s } = t)

상기 식에서, PCMils^t) 및 P(Si=t)는 4 가지 방법 각각의 훈련기 동안 관찰된 사항으로부터 최대우도 추정에 의해 경험적으로 추론될 수 있다. 예를 들어, 훈련 세트에서 전체 BRCA 샘플들 중에서, 扁 /SNP-S 방법에 의해 C0AD 로 추측된 진실된 BRAC 개체의 일부를 동정함으로써 P0 =Cls产 B)를 추정할 수 있다. Ys尸^는 모든 훈련 개체들의 형질 t 의 W 201 In the above equation, PCMils ^ t) and P ( Si = t) can be empirically inferred by maximum likelihood estimation from what was observed during each of the four methods. For example, among the total BRCA samples in the training set, P0 = Cls # B) can be estimated by identifying a portion of the true BRAC individuals assumed to be C0AD by the / SNP-S method. Ys 尸 ^ is the trait t of all trained individuals. W 201

샘플의 일부에 해당하는 것이며, 이는 9 개 형질 각각에 대하여 동일하다 (각각의 형질에 대하여 동일한 샘플 크기를 이용하기 때문이다). 남성의 멀티ᅳ클래스 암 예측 This corresponds to a portion of the sample, which is the same for each of the nine traits (because they use the same sample size for each trait). Multi-class Cancer Prediction in Men

본 발명의 방법들은 개체들을 3 종의 여성-특이적 암 및 3 종의 일반적 암을 포함하는 멀티플 암 종류로 분류한다. 남성이 여성 암 중 하나로 예측되는 것을 방지하기 위하여, 남성 개체에 대해서는 유방암, 난소암 및 자궁 내막암이 제외된 5종의 일반적 암으로 분류하였다. 연구 결과  The methods of the invention classify individuals into multiple cancer types, including three female-specific cancers and three common cancers. In order to prevent men from being predicted to be one of the female cancers, male subjects were classified into five general cancers excluding breast cancer, ovarian cancer and endometrial cancer. Results

지놈과 같은 복잡 시스템과 관련하여 이 시스템의 특정 양태 (예컨대, 암 민감성)를 규명함에 있어서는, 두 가지 결정을 요구한다: 다수의 방법들 중에서, 어떠한 방법이 이 시스템의 적합한 묘사 방법인가, 그리고 어떤 분석 방법이 묘사자에 적용되어 상기 양태에 대한 유용한 정보를 제공할 수 있는가. 본 발명자들은 개체 지놈의 두 가지 상이한 묘사자에 적용되는 두 가지 분석 알고리즘, 즉 4 가지 방법을 이용하였다. 개체 지놈의 두 가지 묘사자는 다음과 같다: (i) 정돈된 SNPs 의 프로파일 (각각의 SNP 는 이웃과 독립적으로 가정됨), 그리고 (ii) SNP 신택스의 프로파일 (SNP-S 는 특정 길이의 연결, 정돈된 SNPs 로 정의된다). 두 가지 묘사자 중 하나로서 SNP- S 를 이용하는 것은, 각각의 SNP 위치가 독립적이지 않고, 다양한 정도로 이웃과 연결되어 있다는 관찰결과를 반영한 것이다. 컴퓨터 추론된 하플로타입 대신에 실험적으로 얻은 유전자형을 이용한 것은, 하플로타입이 신뢰도가 없다는 사실, 특히 본 발명의 방법들이 구축되는 비연관의 개체들의 회귀 빈도 SNPs 에 대하여 신뢰도가 없다는 사실 때문이다 (Fan HC, Wang J, Potanina A, & Quake SR (2011) Who 1 e-genome molecular ha lotyping of single cells. Nature biotechnology 29(1) :51— 57) . 개체 지놈의 SNP-Ss 는 총 지놈 SNPs 의 전체 길이를 따라 특정 길이의 윈도위를 슬라이딩 하여 생성한다. 또한, 묘사자 요소들 (본 연구에서는 SNP 또는 SNP-S)에 대하여, 서로 다른 암 종류의 민감도를 증가시키는 요소들을 선별한다: 사용된 분석 알고리즘에 따라 "매우 낮은 广값" 또는 "희귀 빈도" 를 갖는 SNPs 또는 SNP-Ss. In identifying specific aspects of this system (eg cancer susceptibility) in connection with complex systems such as genomes, two decisions are required: of the many methods, which method is the appropriate description of the system, and which Can analytical methods be applied to the descriptors to provide useful information about this aspect. We used two analysis algorithms, four methods, applied to two different descriptors of the individual genome. The two descriptors of the individual genome are: (i) the profile of ordered SNPs (each SNP is assumed to be independent of its neighbors), and (ii) the profile of the SNP syntax (SNP-S is a specific length of linkage, Defined as ordered SNPs). Using SNP-S as one of two descriptors reflects the observation that each SNP location is not independent and is connected to neighbors to varying degrees. The use of experimentally obtained genotypes instead of computer inferred haplotypes is due to the fact that haplotypes are unreliable, in particular unreliable for the regression frequency SNPs of unrelated individuals on which the methods of the present invention are constructed ( Fan HC, Wang J, Potanina A, & Quake SR (2011) Who 1 e-genome molecular ha lotyping of single cells.Nature biotechnology 29 (1): 51—57). The individual genome SNP-Ss is created by sliding a window of a certain length along the entire length of the total genome SNPs. Descriptor elements (SNP or For SNP-S), factors that increase the sensitivity of different cancer types are selected: SNPs or SNP-Ss with "very low Kal" or "rare frequency" depending on the analysis algorithm used.

사용된 두 개의 공통 분석 알고리즘은 다음과 같다: (i) 최인접 이웃 NN) 분석 알고리즘 및 (ii) 서포트 백터 머쉰 (SVM) 분석 (Theodoridis S & Koutroumbas K (2009) Pattern recognition). 전자는 시험 개체의 k 최인접 이웃을 서치하고, 후자는 시험 개체가 속하는 것으로 판단되는 최가능성 클래스 (most likely class)를 동정하는 분별 분류 방법이다.  Two common analysis algorithms used were: (i) the nearest neighbor NN) analysis algorithm and (ii) the support vector machine (SVM) analysis (Theodoridis S & Koutroumbas K (2009) Pattern recognition). The former searches for the k nearest neighbors of the test subject and the latter identifies the most likely class to which the test subject belongs.

분석 알고리즘에 있어서, 한 개체의 묘사자와 모든 개체들 각각의 묘사자 사이에 모든 짝 (pairwise) "거리들 "을 계산한다. 이어, 시험 개체에 대한 NNs 를 선택하고, 개체가 A Ns 중에서 최공통 형질에 민감한지 여부를 예측한다 (최가능성 형질이 둘 이상인 경우에는, 상술한 방법 참조). SVM 분석 알고리즘에 있어서, SVM 을 훈련시켜 모든 이원적 형질들의 각각에서 하나의 개체의 타당한 형질 (correct trait)을 인식하도록 한다. 최종적으로, SVM에 의한 모든 쌍 분류들의 최대 선출을 갖는 것을 최가능성 형질에 대한 시험 개체의 민감성을 예측한다. 시험 개체의 민감성에 대한 최종 예측은, 상기 4 가지 예측 결과로부터 베이지언 추론을 기초하여 추정한다. 여성 개체의 경우, 멀티클래스 민감성은 9 개 클래스 (8 개 공동 암 클래스 및 하나의 건강 형질)에 대하여 추측하였고, 남성 개체의 경우 예측은 3 개의 여성-특이적 암 클래스를 제외한 6개 클래스에 대하여 실시하였다. In the analysis algorithm, all pairwise "distances" are calculated between the descriptor of one entity and the descriptor of each entity. The NNs for the test subject are then selected and the subject is predicted whether it is sensitive to the most common traits among the A Ns (if there is more than one of the most likely traits, see the method above). In the SVM analysis algorithm, SVM is trained to recognize the correct trait of one individual in each of all binary traits. Finally, having the maximum selection of all pair classifications by SVM predicts the susceptibility of the test subject to the most likely trait. The final prediction of the sensitivity of the test subject is estimated based on Bayesian inference from the four prediction results. For female subjects, multiclass susceptibility was estimated for nine classes (eight joint cancer classes and one health trait), and for male subjects, predictions were made for six classes except three female-specific cancer classes. Was carried out.

본 연구에 사용된 모든 데이터는 공공 데이터베이스 (The Cancer Genome Atlas(TCGA) 및 HapMap)로부터 얻은 것이다. 데이터 선택의 상세한 내용, 샘플링 방법, 시료질 조절 과정 및 다른 상세한 내용들은 위의 실험 방법에 기재되어 있으며, 시료질 조절 전 및 후의 숫자는 표 7 에 기재되어 있다. 데이터세트를 두 개의 그룹으로 분할하였다: 각각의 방법에 대한 파라미터들의 최적화를 위한 훈련 세트 및 본 방법들에 대한 독립적 검증을 위한 시험 세트. 훈련 세트에서 각 형질에 대한 샘플의 최대 크기는 TCGA의 한 형질의 최소 샘플 크기 (66)로 제한하였다. 각 형질에 대한 부적합한 샘플 크기로부터 발생되는 인위적 편향된 예측 (skewed prediction)을 방지하기 위하여, 각 형질 그룹으로부터 무작위적으로 66 개체를 동등하게 추출하였다. TCGA 의 부족 .샘플 때문에, 모든 9 개 표현형질에 대한 시험 세트의 구축은 할 수 없었다. 대신에, 3 개의 형질 (BRCA, 0V 및 UCEC) 각각에 대하여는 50 개체 (훈련 세트에서 이용되지 않은 개체)를 시험하고, 상기 과정을 10 회 반복하였다. 도 9 는 상기 4가지 방법의 워크플로우이다. 각각의 방법에 대한 최적화 파라미터를 가지고, 훈련 세트 (표 8a 내지 8d)에 대한 퍼포먼스 및 시험 세트 (도 11a- 11c)에 대한 퍼포먼스를 실시하였다. All data used in this study was obtained from public databases (The Cancer Genome Atlas (TCGA) and HapMap). Details of data selection, sampling methods, sample control procedures and other details are described in the above experimental methods, and the numbers before and after sample control are listed in Table 7. The dataset was divided into two groups: a training set for optimization of the parameters for each method and a test set for independent verification of the methods. The maximum size of the sample for each trait in the training set was limited to the minimum sample size (66) of one trait of TCGA. To prevent artificially skewed predictions resulting from inappropriate sample sizes for each trait, 66 individuals were randomly equally extracted from each trait group. Lack of TCGA Due to the sample, a test set for all nine phenotypes could not be constructed. Instead, 50 individuals (individuals not used in the training set) were tested for each of the three traits (BRCA, 0V and UCEC) and the procedure was repeated 10 times. 9 is a workflow of the four methods. With the optimization parameters for each method, the performance for the training set (Tables 8A-8D) and the performance for the test set (FIGS. 11A-11C) were conducted.

각각의 형질에 대한 민감성 예측의 통계적 정확성을 평가하기 위하여 각각의 시험 개체를 594 연습 파풀레이션으로부터 취하였다. 표 8a 는 ANN/SNP-S 의 결과이고, 나머지 3 가지 방법와 결과는 표 8b-8d 에 기재되어 있다. 【표 8a] Each test subject was taken from 594 practice populations to assess the statistical accuracy of sensitivity predictions for each trait. Table 8a is the result of ANN / SNP-S and the remaining three methods and results are described in Tables 8b-8d. Table 8a

Trainingperformanceof/cNNalgorithm applied to profiles of SNP-Ss|-Trainingperformanceof / cNNalgorithm applied to profiles of SNP-Ss |-

Predicted traits Predicted traits

B CA^ 3¾ 10 fi 11 5^ Of 66*- 485% ^ 纖 ffi m :細 爾 a 5¾ 66¾ Ι5,ΰβ B CA ^ 3¾ 10 fi 11 5 ^ Of 66 * -485% ^ 纖 ffi m : 細 爾 a 5¾ 66¾ Ι5, ΰβ

% % n¾ :2A 2. 藤' 83.3%' %% n¾: 2A 2. 藤 '83.3%'

, '3m m 騰 - m 2i. 職 鶴纖 , '3m m 騰-m 2i.職 鶴 纖

. ¾ if- 52^ ¾: 3^ 66* 78.8%^ 嫌 ft :51 m as m 2¾ mm m : 扁 霸麵 纏 ¾ 誇 : ¾¾: . ¾ i f -52 ^ ¾ : 3 ^ 66 * 78.8% ^ 嫌 ft: 51 m as m 2¾ mm m :扁 霸 麵 ¾ 誇: ¾¾:

w m .11-' 7, 纖 鹏; 縮醫w m .11- '7, 纖 鹏;縮 醫

6疆¾ 66^ 66 ¾ιδ¾ 6 疆 ¾ 66 ^ 66 ¾ιδ¾

Sum 594, Overall 66.0%,

Figure imgf000055_0001
Sum 594, Overall 66.0%,
Figure imgf000055_0001

Figure imgf000056_0001
Figure imgf000056_0001

ζ画 ¾¾« ¾¾? 1¾ 觀 M4 |6a  ζ 画 ¾¾ «¾¾? 1¾ 觀 M4 6a

m a¾ :飾 囊 幽 fe m a¾ : 飾 囊 幽 fe

!INS 56* Ik! INS 56 * Ik

Figure imgf000056_0002
Figure imgf000056_0002

滅 聽 r龜議 滅 聽 r 龜 議

Fort e 6bbreviations.refer.to Tab 1 iegend. Fort e 6bbreviations.refer.to Tab 1 iegend.

Training performs nce of SVM algorithm applied to profiles of SNPs.. Training performs nce of SVM algorithm applied to profiles of SNPs ..

Predicted tra t- Predicted tra t-

Figure imgf000057_0001
Figure imgf000057_0001

Sura 594?· Overall 64.1%^  Sura 594? Overall 64.1% ^

Fcr :he abbra-iations, re¾r to T.ble I'legeridg Fcr: he abbra-iations, re¾r to T.ble I ' legeridg

】 E。 8

Figure imgf000058_0001
Predictedjrai ; E。 8
Figure imgf000058_0001
Predictedjrai

; i 13^ li ; S 47.0%;v.; I 13 ^ li ; S 47.0%; v .;

25- 疆 顧 赚 &  25- 疆 顧 赚 &

iii a¾ 膽 涵  iii a¾ 涵 涵

if* i fo i¾ si? 66·· if * i fo i¾ si? 66 ...

LGG^ ¾ 37·> 1 66»· 띠LGG ^ ¾ 37 ·> 1 66 »·

.'::¾ w ;¾ 66Kr ; g7.0¾ . ' :: ¾ w; ¾ 66Kr; g7.0¾

'ᅳ >% 2¾. I 6¾ ' ᅳ>% 2¾. I 6¾

W(Mg: 簾 (k '麵 fe 66ί W (Mg: 簾 (k '麵 fe 66ί

CEU ft OS- fife 66e 66* 翻  CEU ft OS- fife 66e 66 * 翻

Sum594" Oveall 51.0%, Sum594 "Oveall 51.0%,

¾iHei6greviatiors, refer to Table 1 legend,? ¾iHei6greviatiors, refer to Table 1 legend ,?

a- a-

Figure imgf000059_0001
Figure imgf000059_0001

예측은 무작위 예측보다 상당히 높은 정확도로 이루어졌고 (예컨대, 표 8a의 扁 /SNP-S 방법에서, 양성율 (true positive rate)은 66%이고, 위양성율은 33%이다); (iii) 4가지 방법 중에서 단독의 방법은 모든 형질들의 민감성을 예측하는 데 최고의 퍼포먼스는 나타내지 않으며; (iv) 건강한 형질에 대해서는 위양성 결과가 없었고, 건강한 군에 속하는 것으로 분류된 몇 몇의 암 개체가 있었으나, 건강한 군의 개체는 어떠한 암 군에서도 발견되지 않았다. Predictions were made with significantly higher accuracy than random predictions (eg, in the 扁 / SNP-S method of Table 8a, the true positive rate was 66% and the false positive rate was 33%); (iii) the single of the four methods does not show the best performance in predicting the sensitivity of all traits; (iv) There were no false positive results for healthy traits and there were some cancer individuals classified as belonging to the healthy group, but no healthy group was found in any cancer group.

TCGA 로부터의 얻을 수 있는 데이터세트에서 어떤 암의 작은 시료 크기 때문에, 모든 9 개 형질에 대한 시험 세트의 구축은 할 수 없었다. 따라서, 본 발명자들은 BRCA(Breast Invasive Carcinoma), 0V(0varian Serous Cy s t adenoc ar c i noma ) 및 UCEC(Uter ine Corpus Endometrioid Carcinoma), 3 개의 군으로부터 100 개의 새로운 시료를 무작위적으로 선택하였다. 각각의 방법에서 훈련 세트에서 최적화된 파라미터를 이용하여 시험 개체에 대한 멀티클래스 정확도를 계산하였다. 상기 3 종의 암 클래스 각각에 대하여 50 개체 (100 시험 시료에서 무작위적으로 선택된)의 재샘플랑을 10 회 반복하였다. 도 11a—도 11c 는 멀티플 샘플링으로부터 통계적 스프래딩을 갖는 상기 4 가지 방법의 결과를 보여준다. 시험 세트의 결과는, 다음과 같이 요약될 수 있다; (i) 각각의 암 클래스에 대하여, 4가지 방법 중에서 3가지는 무작위 예측보다 상당히 우수한 정확도로 시험 세트에 대한 예측을 하였고; (ii) BRCA 및 0V의 개체 지놈 변이들 (엄격하게 표현하면, SNPs 또는 SNP-Ss 의 묘사자)은 다른 나머지 암 종류들보다 서로 연관되어 있으며, (ΠΠ 조금 덜 하지만, 0V 및 UCEC 의 묘사자들 사이의 유사한 관련성이 있었다.  Due to the small sample size of any cancer in the dataset obtained from TCGA, no test set for all nine traits could be constructed. Therefore, we randomly selected 100 new samples from three groups: Breath Invasive Carcinoma (BRCA), 0varian Serous Cytadenoc arci noma (0V) and Uter ine Corpus Endometrioid Carcinoma (UCEC). In each method, multiclass accuracy for the test subjects was calculated using parameters optimized in the training set. Resamples of 50 individuals (randomly selected from 100 test samples) were repeated 10 times for each of the three cancer classes. 11A-C show the results of the four methods above with statistical spreading from multiple sampling. The results of the test set can be summarized as follows; (i) For each cancer class, three of the four methods predicted the test set with significantly better accuracy than random prediction; (ii) Individual genome variants of BRCA and 0V (strictly depicted in terms of SNPs or SNP-Ss) are more interrelated than the rest of the cancer types and are slightly less than the descriptors in 0V and UCEC. There was a similar connection between them.

각각의 시험 개체 대하여, 상기 예측의 확실성을 베이지언 추론의 사후확률로 추정하였다 (도 12). 상기 3 가지 클래스에 대한 결과는 0.3 이하의 최대 사후확률에 의한 예측은 없음을 보여 준다. BRCA의 경우, 시험 개체들의 30%가 0.9 이상의 최대 사후확률을 갖는 시험개체로 정의되는 고확실성 콜을 나타내었고, 이는 83.3%의 정확도를 나타내었으며, 전체적인 정확도에서는 25.3%의 증가를 나타내었다. 종합하면, (i) 4 가지 방법의 조합에 기초한 암 민감성에 대한 예측의 멀티클래스 정확도는 무작위 예측의 정확도인 11%보다 몇 배 높았고; (ii) 개체 또는 파퓰레이션에 대한 건강-결정을 할 수 있을 정도의 예측의 질을 나타내었으며, 이는 향후 보다 많은 데이터가 확보되면 개선될 수 있으며; (iii) 두 가지 암, BRCA 및 0V 의 묘사자들은 다른 형질들보다 서로 유사하였다. 0V 및 UCEC 도 유사성을 나타내었으나, BRCA 및 0V보다는 덜 하였다. For each test subject, the certainty of the prediction was estimated by the posterior probability of Bayesian inference (FIG. 12). The results for the three classes show no prediction by the maximum posterior probability below 0.3. In the case of BRCA, 30% of the test subjects had a high uncertainty call defined as a test subject with a maximum posterior probability of 0.9 or higher, which was 83.3% accurate, Accuracy increased by 25.3%. Taken together, (i) the multiclass accuracy of predictions for cancer sensitivity based on a combination of four methods was several times higher than the 11% accuracy of random predictions; (ii) the quality of predictions made to make health-determinations for individuals or populations, which may be improved if more data is available in the future; (iii) Descriptors of the two cancers, BRCA and 0V, were more similar to each other than the other traits. 0V and UCEC also showed similarities, but less than BRCA and 0V.

이상으로 본 발명의 특정한 부분올 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적인 기술은 단지 바람직한 구현 예일 뿐이며, 이에 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항과 그의 등가물에 의하여 정의된다고 할 것이다.  As described above, a specific part of the present invention has been described in detail. For those skilled in the art, the specific technology is merely a preferred embodiment, and it is obvious that the scope of the present invention is not limited thereto. Therefore, the substantial scope of the present invention will be defined by the appended claims and equivalents thereof.

Claims

[특허청구범위] [Patent Claims] 【청구항 1】  [Claim 1] 다음 단계를 포함하는 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 컴퓨터 실행 (computer implemented) 방법:  Computer implemented method for analyzing genomic variation or epigenomic variation of an organism comprising the following steps: (a) 상기 변이들의 연계 스트링 (linked string)을 구축하는 단계 ; (a) constructing a linked string of the variants; (b) 상기 연계 스트링의 전체 길이를 따라 특정 길이의 슬라이딩 윈도우를 적용하여 특정 길이의 변이 신택스 (variation syntax: VAR-S)를 구축하는 단계; (b) constructing a variation syntax (VAR-S) of a particular length by applying a sliding window of a particular length along the entire length of the linking string; (c) 상기 특정 길이의 변이 신택스에서 모든 가능한 특징들 (features)을 카운트하고 특징 빈도 프로파일 (feature frequency profiles: FFPs)로 어셈블링 하는 단계; 및  (c) counting all possible features in the particular length variation syntax and assembling them into feature frequency profiles (FFPs); And (d) 상기 FFPs 사이의 거리 (distance)를 결정하거나 또는 FFPs 를 분류 (classify)하는 단계.  (d) determining the distance between the FFPs or classifying the FFPs. 【청구항 2] [Claim 2] 제 1 항에 있어서, 상기 지놈 변이는 뉴클레오타이드 서열에서의 SNP(single nucleotide polymorphism), 결손, 삽입 또는 반복 변이인 것을 특징으로 하는 방법 .  The method of claim 1, wherein the genome mutation is a single nucleotide polymorphism (SNP), deletion, insertion or repeat mutation in a nucleotide sequence. 【청구항 3] [Claim 3] 제 2 항에 있어서, 상기 변이는 SNP인 것을 특징으로 하는 방법 .  3. The method of claim 2, wherein said mutation is SNP. 【청구항 4】 [Claim 4] 제 2 할에 있어서, 상기 뉴클레오타이드 서열은 하나의 염색체 상의 서열, 복수의 염색체 상의 서열 또는 전체 지놈 서열인 것을 특징으로 하는 방법. The method according to claim 2, wherein the nucleotide sequence is a sequence on one chromosome, a sequence on a plurality of chromosomes or the entire genome sequence. 【청구항 5】 [Claim 5] 제 4 항에 있어서, 상기 뉴클레오타이드 서열은 전체 지놈 서열인 것을 특징으로 하는 방법 .  The method of claim 4, wherein the nucleotide sequence is an entire genome sequence. [청구항 6】 [Claim 6] 제 1 항에 있어서, 상기 단계 (a)는 변이들 각각에 코드를 부여하여 상기 코드의 연계 스트링을 구축하여 실시하는 것을 특징으로 하는 방법.  2. The method of claim 1, wherein step (a) is performed by assigning a code to each of the variants to construct a linking string of the code. 【청구항 7】 [Claim 7] 제 3 항에 있어서, 상기 단계 (a)는 상기 SNP 의 유전자형 (genotype) 또는 하플로타입 (haplotype) 각각에 코드를 부여하여 상기 코드의 연계 스트링을 구축하여 실시하는 것을 특징으로 하는 방법.  The method of claim 3, wherein the step (a) is performed by assigning a code to each genotype or haplotype of the SNP to construct a linked string of the codes. 【청구항 8】 [Claim 8] 제 1 항에 있어서, 상기 변이들은 SNPs 이고, 상기 SNPs 는 (i) 5% 이하의 대립유전자 빈도를 나타내는 SNPs 의 제거, (Π) 하디 와인버그 평형 시험 (Hardy Weinberg Equilibrium test) 및 (ii) 플레이트ᅳ효과 시험으로 구성된 군으로부터 선택되는 최소 1 개의 방법에 의해 QC(Quality control)된 SNPs인 것을 특징으로 하는 방법 .  The method of claim 1, wherein the mutations are SNPs, wherein the SNPs are (i) removal of SNPs exhibiting an allele frequency of 5% or less, (Π) Hardy Weinberg Equilibrium test and (ii) plated. A method characterized in that the SNPs are QC (Quality Control) by at least one method selected from the group consisting of effect tests. 【청구항 9] [Claim 9] 제 1 항에 있어서, 상기 방법은 상기 단계 (b) 이전에 상기 변이 신택스의 최적 길이를 결정하는 단계를 추가적으로 포함하는 것을 특징으로 하는 방법 .  2. The method of claim 1, further comprising determining an optimal length of the variant syntax prior to step (b). 【청구항 10】 제 9 항에 있어서, 상기 최적 길이의 결정은 상기 유기체의 표현형 (phenotype)에 대하여 가장 높은 정확도를 나타내는 길이로 경험적으로 결정하는 것을 특징으로 하는 방법. [Claim 10] 10. The method of claim 9, wherein the determination of the optimal length is empirically determined with a length that exhibits the highest accuracy with respect to the phenotype of the organism. 【청구항 11】 [Claim 11] 제 10 항에 있어서, 상기 유기체의 표현형은 질환인 것을 특징으로 하는 방법 .  The method of claim 10, wherein the phenotype of the organism is a disease. 【청구항 12】 [Claim 12] 제 9 항에 있어서, 상기 단계 (b)는 상기 결정된 최적 길이를 갖는 슬라이딩 원도우를 이용하여 실시하는 것을 특징으로 하는 방법.  10. The method of claim 9, wherein step (b) is performed using a sliding window having the determined optimal length. 【청구항 13] [Claim 13] 제 9 항에 있어서, 상기 변이는 SNP 이고 상기 SNP 의 조밀도 (density)는 1 백만 SNPs/지놈이며 상기 최적 길이는 6-14 인 것을 특징으로 하는 방법 .  10. The method of claim 9, wherein the mutation is SNP, the density of the SNP is 1 million SNPs / genome, and the optimal length is 6-14. 【청구항 14】 [Claim 14] 제 13 항에 있어서, 상기 최적 길이는 8—12 인 것을 특징으로 하는 방법 .  14. The method of claim 13, wherein the optimum length is 8-12. 【청구항 15] [Claim 15] 제 14 항에 있어서, 상기 최적 길이는 10 인 것을 특징으로 하는 방법 .  15. The method of claim 14, wherein the optimum length is ten. 【청구항 16] [Claim 16] 제 1 항에 있어서, 상기 단계 (d)에서 길이가 결정되는 FFPs 는 특정 길이의 희귀 (rare) VAR-S 에 대한 것으로 필터링-인 (f iltering-in)된 것으로서, 상기 특정 길이의 희귀 VAR-S 는 분석 대상의 변이를 포함하는 파풀레이션에서 20% 이하의 낮은 빈도로 필터링 -인된 희귀 VAR— S 인 것을 특징으로 하는 방법 . 2. The method of claim 1, wherein the FFPs whose length is determined in step (d) are filtered-in for a rare VAR-S of a particular length, wherein the rare VAR- of that particular length is filtered. S contains the variation of the subject of analysis A method characterized in that it is a rare VAR— S filtered-in frequency less than 20% in population. 【청구항 17】 [Claim 17] 제 16 항에 있어서, 상기 필터링 -인은 5% 이하 수준인 것을 특징으로 하는 방법 .  17. The method of claim 16, wherein said filtering-in is at or below 5%. 【청구항 18] [Claim 18] 제 17 항에 있어서, 상기 필터링 -인은 3% 이하 수준인 것을 특징으로 하는 방법 .  18. The method of claim 17, wherein said filtering-in is at or below 3%. 【청구항 19] [Claim 19] 제 1 항에 있어서, 상기 단계 (d)에서의 거리는 거리 함수 (distance function)를 적용하여 얻는 것올 특징으로 하는 방법.  The method of claim 1, wherein the distance in step (d) is obtained by applying a distance function. 【청구항 20] [Claim 20] 제 1 항에 있어서, 상기 단계 (d)의 분류는 클래스 예측 알고리즘 (class prediction algorithm)을 이용하여 실시하는 것을 특징으로 하는 방법 .  The method of claim 1, wherein the classification of step (d) is performed using a class prediction algorithm. 【청구항 21] [Claim 21] 제 1 항에 있어서, 상기 유기체는 동물, 식물, 진균, 효모, 박테리아 또는 프로티스트 (protist)인 것을 특징으로 하는 방법.  The method of claim 1, wherein the organism is an animal, plant, fungus, yeast, bacteria or protist. 【청구항 22】 [Claim 22] 제 1 항에 있어서, 상기 변이는 유기체의 형질 (traits)과 연관된 변이이고 상기 방법은 유기체의 형질 (traits)에 대한 민감성을 예측하는데 이용되는 것을 특징으로 하는 방법. The method of claim 1, wherein the mutation is a variation associated with traits of the organism and the method is used to predict sensitivity to traits of the organism. 【청구항 23】 [Claim 23] 제 22 항에 있어서, 상기 형질은 질환 (diseases), 질병 (disorders), 상태 (conditions) 또는 증상 (symptoms)인 것을 특징으로 하는 방법.  23. The method of claim 22, wherein said trait is diseases, disorders, conditions or symptoms. 【청구항 24】 [Claim 24] 제 23 항에 있어서, 상기 형질은 암 질환인 것을 특징으로 하는 방법.  The method of claim 23, wherein the trait is a cancer disease. 【청구항 25】 [Claim 25] 제 22 항에 있어서, 상기 형질은 성장속도, 수율 또는 질 (quality)인 것을 특징으로 하는 방법 .  23. The method of claim 22, wherein said trait is growth rate, yield, or quality. 【청구항 26】 [Claim 26] 제 1 항에 있어서, 상기 변이는 유기체의 치료 (therapy) 반웅성 (responsiveness )과 연관된 변이이고 상기 방법은 유기체의 치료 반응성을 예측하는데 이용되는 것을 특징으로 하는 방법.  The method of claim 1, wherein the variation is a variation associated with therapeutic responsiveness of the organism and the method is used to predict the therapeutic responsiveness of the organism. 【청구항 27】 [Claim 27] 하기의 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항 (instructions)이 포함된 (embodied) 컴퓨터 -독해가능한 (computer- readable) 저장 매체 : (a) 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)들의 연계 스트링 (linked string)을 구축하는 단계; (b) 상기 연계 스트링의 전체 길이를 따라 특정 길이의 슬라이딩 원도우를 적용하여 특정 길이의 변이 신택스 (variation syntax: VAR-S)를 구축하는 단계; (c) 상기 특정 길이의 변이 신택스에서 모든 가능한 특징들 (features)을 카운트하고 특징 빈도 프로파일 (feature frequency profiles: FFPs)로 어셈블링 하는 단계; 및 (d) 상기 FFPs 사이의 거리를 결정하거나 또는 FFPs를 분류 (classify)하는 단계 . Computer-readable storage media containing instructions instructing the computer processor to perform the following steps: (a) Genomic variation or epigenomic variation Constructing a linked string of); (b) constructing a variation syntax (VAR-S) of a specific length by applying a sliding window of a specific length along the entire length of the linking string; (c) counting all possible features in the particular length variation syntax and assembling them into feature frequency profiles (FFPs); And (d) determining the distance between the FFPs or classifying the FFPs. 【청구항 28】 [Claim 28] 다음을 포함하는 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 시스템 :  Systems for analyzing genomic variation or epigenomic variation in organisms, including: (a) 컴퓨터 프로세서 ; 및  (a) a computer processor; And (b) 상기 프로세서와 커플링된 상기 제 27 항의 컴퓨터- 독해가능한 (computer-readable) 저장 매체,  (b) the computer-readable storage medium of claim 27 coupled with the processor, 【청구항 29] [Claim 29] 다음 단계를 포함하는 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 컴퓨터 실행 (computer implemented) 방법 :  Computer implemented method for analyzing genomic variation or epigenomic variation of an organism comprising the following steps: (a) 상기 변이에 대한 최소 두 종류의 묘사자 (descriptor)를 구축하는 단계;  (a) constructing at least two kinds of descriptors for said mutations; (b) 최소 두 종류의 클래스 예측 알고리즘 (class prediction algorithm)을 상기 최소 두 종류의 묘사자 각각에 적용시켜 상기 유기체의 지놈 변이 또는 후생학적 변이를 분석하여 최소 4 종류의 예측 결과를 얻는 단계; 및  (b) applying at least two kinds of class prediction algorithms to each of the at least two kinds of descriptors to analyze the genome variation or epigenetic variation of the organism to obtain at least four kinds of prediction results; And (c) 상기 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘 (inference algorithm)에 적용하여 상기 유기체의 형질 (trait)을 최종적으로 예측하는 단계 .  (c) finally predicting the trait of the organism by applying at least four kinds of prediction results obtained in step (b) to an inference algorithm. [청구항 30】 [Claim 30] 거] 29 항에 있어서, 상기 지놈 변이는 뉴클레오타이드 서열에서의 SNP( single nucleotide polymorphism), 결손, 삽입 또는 반복 변이인 것을 특징으로 하는 방법 .  30. The method of claim 29, wherein said genome variant is a single nucleotide polymorphism (SNP), deletion, insertion, or repeat variant in a nucleotide sequence. 【청구항 31】 [Claim 31] 제 30 항에 있어서, 상기 변이는 SNP인 것을 특징으로 하는 방법 . 31. The method of claim 30, wherein said mutation is an SNP. 【청구항 32】 [Claim 32] 제 29 항에 있어서, 상기 변이에 대한 최소 두 종류의 묘사자는 (0 각각의 변이가 이웃의 변이에 대하여 독립적이라는 것이 가정된 변이들의 프로파일 및 (ii) 특정 길이의 연계된 변이인 상기 청구항 게 1 항의 변이 신택스 (VAR-S)의 프로파일을 포함하는 것을 특징으로 하는 방법.  30. The method according to claim 29, wherein at least two kinds of descriptors for the variation are (0) a profile of variations that each variation is assumed to be independent of neighboring variation and (ii) associated variation of a particular length. Wherein the variation of the term comprises a profile of the syntax (VAR-S). [청구항 33】 [Claim 33] 제 29 항에 있어서, 상기 변이들은 SNPs 이고, 상기 SNPs 는 (i) 5% 이하의 대립유전자 빈도를 나타내는 SNPs의 제거, (ii) 하디 와인버그 평형 시험 (Hardy Weinberg Equilibrium test) 및 (ii) 플레이트 -효과 시험으로 구성된 군으로부터 선택되는 최소 1 개의 방법에 의해 QC(Quality control)된 SNPs인 것을 특징으로 하는 방법 .  30. The method of claim 29, wherein the variants are SNPs, wherein the SNPs are (i) removal of SNPs exhibiting an allele frequency of 5% or less, (ii) Hardy Weinberg Equilibrium test and (ii) plate- A method characterized in that the SNPs are QC (Quality Control) by at least one method selected from the group consisting of effect tests. 【청구항 34】 [Claim 34] 제 30 항에 있어서, 상기 최소 두 종류의 클래스 예측 알고리즘은 k- 최인접 이웃 -nearest neighbor: 扁) 알고리즘 및 서포트 백터 머쉰 (support vector machine: SVM) 알고리즘을 포함하는 것을 특징으로 하는 방법 . ' 31. The method of claim 30, wherein the at least two kinds of class prediction algorithms include a k-nearest neighbor algorithm and a support vector machine (SVM) algorithm. ' 【청구항 35】 [Claim 35] 제 32 항에 있어서, 상기 변이에 대한 묘사자는 VAR-S 의 프로파일이고ᅳ 상기 클래스 예측 알고리즘은 -최인접 이웃 알고리즘이며, 상기 단계 (b)는 (b— 1) 파풀레이션에서 20% 이하의 낮은 빈도로 발견되는 회귀 VAR-S 를 선별하는 소단계; (b-2) 회귀 VAR— S 의 총수로 정규화 (normalization) 하는 소단계; (b-3) 회귀 VAR-S 의 프로파일을 이용하여 JS(Jensen-Shannon) 발산 매트릭스를 구축하는 소단계; 및 (b_4) 상기 JS 발산 매트릭스를 이용하여 상기 유기체에 대한 k-최인접 이웃 NN)을 선별하는 소단계를 포함하는 것을 특징으로 하는 방법. 33. The method of claim 32, wherein the descriptor for the variation is a profile of VAR-S and the class prediction algorithm is a nearest neighbor algorithm, and step (b) is less than 20% lower in (b-1) population. A small step of selecting regression VAR-S found at a frequency; (b-2) substep normalizing to the total number of regression VAR—S; (b-3) constructing a Jensen-Shannon (JS) divergence matrix using the profile of the regression VAR-S; And (b_4) selecting a k-nearest neighbor NN) for the organism using the JS divergence matrix. [청구항 36】 [Claim 36] 제 32 항에 있어서, 상기 변이에 대한 묘사자는 VAR-S 의 프로파일이고,, 상기 클래스 예측 알고리즘은 서포트 백터 머쉰 (SVM) 알고리즘이며, 상기 단계 (b)는 (b-1) 10_2 내지 10—6 의 낮은 P-값을 갖는 VAR-S 를 선별하는 소단계; (b-2) 모든 이원적 형질 (binary traits) 각각에 대하여 SVM 을 실시하는 소단계; 및 (iii) 최대-원 선출 (max-win voting) 방식에 따라 분류하는 소단계를 포함하는 것을 특징으로 하는 방법. 33. The method of claim 32, wherein the descriptor for the variation is a profile of a VAR-S, the class prediction algorithm is a support vector machine (SVM) algorithm, and step (b) comprises (b-1) 10_ 2 to 10— Selecting a VAR-S having a low P-value of 6 ; (b-2) substeps of performing SVM on each of all binary traits; And (iii) a substep of sorting according to a max-win voting scheme. 【청구항 37】 [Claim 37] 제 32 항에 있어서, 상기 변이에 대한 묘사자는 변이의 프로파일이고, 상기 클래스 예측 알고리즘은 최인접 이웃 알고리즘이며, 상기 단계 (b)는 (b-1) 파풀레이션에서 20% 이하의 낮은 빈도로 발견되는 회귀 변이를 선별하는 소단계; (b-2) 희귀 변이의 총수로 정규화 (normalization) 하는 소단계; (b-3) 상기 희귀 변이의 프로파일을 이용하여 JS 발산 매트릭스를 구축하는 소단계; 및 (b-4) 상기 JS 발산 매트릭스를 이용하여 상기 유기체에 대한 k-최인접 이웃 NN)을 선별하는 소단계를 포함하는 것을 특징으로 하는 방법 .  33. The method of claim 32, wherein the descriptor for the variation is a profile of the variation, the class prediction algorithm is the nearest neighbor algorithm, and step (b) is found with a frequency of less than 20% in (b-1) populations. Selecting a regression variation to be generated; (b-2) substep normalizing to the total number of rare mutations; (b-3) constructing a JS divergence matrix using the profile of the rare variant; And (b-4) selecting a k-nearest neighbor NN) for the organism using the JS divergence matrix. 【청구항 38】 [Claim 38] 제 32 항에 있어서, 상기 변이에 대한 묘사자는 변이의 프로파일이고, 상기 클래스 예측 알고리즘은 서포트 백터 머쉰 (SVM) 알고리즘이며, 상기 단계 (b)는 (b— 1) 1요 2 내지 1(Γ6 의 낮은 P-값을 갖는 변이를 선별하는 소단계; (b-2) 모든 이원적 형질 (binary traits) 각각에 대하여 SVM 을 실시하는 소단계; 및 (iii) 최대—원 선출 (max— win voting) 방식에 따라 분류하는 소단계를 포함하는 것을 특징으로 하는 방법. 33. The method of claim 32, wherein the descriptor for the variation is a profile of the variation, the class prediction algorithm is a support vector machine (SVM) algorithm, and step (b) comprises (b-1) 1 to 2 to 1 (Γ 6). A substep of screening for variants with low P-values of (b-2) a substep of performing SVM for each of all binary traits; and (iii) max—win voting The method comprises the step of classifying according to the) method. 【청구항 39] 제 29 항에 있어서, 상기 추론 알고리즘은 베이지언 추론 (Bayesian inference) 알고리즘인 것올 특징으로 하는 방법. [Claim 39] 30. The method of claim 29, wherein the inference algorithm is a Bayesian inference algorithm. [청구항 40】 [Claim 40] 제 29 항에 있어서, 상기 유기체의 형질은 질환 (diseases), 질병 (disorders), 상태 (conditions), 증상 (symptoms) 또는 치료 (therapy) 반웅성 (responsiveness)인 것을 특징으로 하는 방법 .  30. The method of claim 29, wherein the trait of said organism is diseases, disorders, conditions, symptoms, or treatment responsiveness. 【청구항 41】 [Claim 41] 제 40 항에 있어서, 상기 형질은 암 질환인 것을 특징으로 하는 방법.  41. The method of claim 40, wherein said trait is a cancer disease. 【청구항 42】 [Claim 42] 제 29 항에 있어서, 상기 형질은 성장속도, 수율 또는 질 (quality)인 것을 특징으로 하는 방법 .  30. The method of claim 29, wherein said trait is growth rate, yield, or quality. 【청구항 43】 [Claim 43] 하기의 단계를 실시하도톡 컴퓨터 프로세서를 지시하는 지시사항 (instructions)이 포함된 (embodied) 컴퓨터 -독해가능한 (computer- readable) 저장 매체: (a) 상기 변이에 대한 최소 두 종류의 묘사자 (descriptor)를 구축하는 단계; (b) 최소 두 종류의 클래스 예측 알고리즘 (class prediction algorithm)을 상기 최소 두 종류의 묘사자 각각에 적용시켜 상기 유기체의 지놈 변이 또는 후생학적 변이를 분석하여 최소 4 종류의 예측 결과를 얻는 단계; 및 (c) 상기 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘 (inference algorithm)에 적용하여 상기 유기체의 형질 (trait)을 최종적으로 예측하는 단계.  A computer-readable storage medium containing instructions instructing a computer processor to perform the following steps: (a) at least two types of descriptors for the mutation; Constructing; (b) applying at least two kinds of class prediction algorithms to each of the at least two kinds of descriptors to analyze the genome variation or epigenetic variation of the organism to obtain at least four kinds of prediction results; And (c) finally predicting traits of the organism by applying at least four kinds of prediction results obtained in step (b) to an inference algorithm. 【청구항 44】 [Claim 44] 다음을 포함하는 유기체의 지놈 변이 (genomic variation) 또는 후생학적 변이 (epigenomic variation)를 분석하기 위한 시스템 : (a) 컴퓨터 프로세서 ; 및 Systems for analyzing genomic variation or epigenomic variation in organisms, including: (a) a computer processor; And (b) 상기 프로세서와 커플링된 상기 제 43 항의 컴퓨터- 독해가능한 (computer-readable) 저장 매체.  (b) The computer-readable storage medium of claim 43 coupled with the processor.
PCT/KR2013/011823 2012-12-18 2013-12-18 Computer implemented method for analyzing genomic mutation or epigenetic mutation Ceased WO2014098479A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2012-0148533 2012-12-18
KR20120148533 2012-12-18
KR1020130115261A KR101538692B1 (en) 2012-12-18 2013-09-27 Computer Implemented Methods for Analyzing Genomic or Epigenomic Variations
KR10-2013-0115261 2013-09-27

Publications (1)

Publication Number Publication Date
WO2014098479A1 true WO2014098479A1 (en) 2014-06-26

Family

ID=50978718

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/011823 Ceased WO2014098479A1 (en) 2012-12-18 2013-12-18 Computer implemented method for analyzing genomic mutation or epigenetic mutation

Country Status (1)

Country Link
WO (1) WO2014098479A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019165279A1 (en) * 2018-02-23 2019-08-29 EMULATE, Inc. Organs-on-chips as a platform for epigenetics discovery
CN113035274A (en) * 2021-04-22 2021-06-25 广东技术师范大学 NMF-based tumor gene point mutation characteristic map extraction algorithm

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110020815A1 (en) * 2001-03-30 2011-01-27 Nila Patil Methods for genomic analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110020815A1 (en) * 2001-03-30 2011-01-27 Nila Patil Methods for genomic analysis

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FAY J. HOSKING ET AL.: "Genome-wide association studies for detecting cancer susceptibility", 18 January 2011 (2011-01-18), pages 27 - 46, Retrieved from the Internet <URL:http://bmb.oxfordjournals.org/content/97/1/27.full.pdf> *
GREGORY E.SIMS ET AL.: "Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions", 24 February 2009 (2009-02-24), pages 2677 - 2682, Retrieved from the Internet <URL:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2634796/pdf/zpq2677.pdf> *
H CHRISTINA FAN ET AL.: "Whole-genome molecular haplotyping of single cells", 19 December 2010 (2010-12-19), pages 1 - 9, Retrieved from the Internet <URL:http://thebigone.stanford.edu/papers/Fan%20Natbiotech%202010.pdf> *
SHAUN PURCELL ET AL.: "PLINK: A Tool Set for Whole-Genome Association and Population-Based Linkage Analyses", September 2007 (2007-09-01), pages 559 - 575, Retrieved from the Internet <URL:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1950838/pdf/AJHGv81p559.pdf> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019165279A1 (en) * 2018-02-23 2019-08-29 EMULATE, Inc. Organs-on-chips as a platform for epigenetics discovery
GB2585302A (en) * 2018-02-23 2021-01-06 Emulate Inc Organs-on-chips as a platform for epigenetics discovery
GB2585302B (en) * 2018-02-23 2023-03-22 Emulate Inc Organs-on-chips as a platform for epigenetics discovery
CN113035274A (en) * 2021-04-22 2021-06-25 广东技术师范大学 NMF-based tumor gene point mutation characteristic map extraction algorithm

Similar Documents

Publication Publication Date Title
US20230326547A1 (en) Variant annotation, analysis and selection tool
Enoma et al. Machine learning approaches to genome-wide association studies
Kruppa et al. Risk estimation and risk prediction using machine-learning methods
CN113597645B (en) Method and system for reestablishing drug response and disease network and uses thereof
Hamid et al. Data integration in genetics and genomics: methods and challenges
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
JP2023535962A (en) Methods to identify spatial chromosomal instabilities such as homologous repair defects in low-coverage next-generation sequencing data
Zhang et al. A Bayesian partition method for detecting pleiotropic and epistatic eQTL modules
WO2021119311A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
Amaratunga et al. Exploration and analysis of DNA microarray and other high-dimensional data
Munquad et al. A deep learning–based framework for supporting clinical diagnosis of glioblastoma subtypes
AU2020285475A1 (en) A method of treatment or prophylaxis
Pachganov et al. TransPrise: a novel machine learning approach for eukaryotic promoter prediction
WO2014098479A1 (en) Computer implemented method for analyzing genomic mutation or epigenetic mutation
Liu et al. Leveraging genomic large language models to enhance causal genotype-brain-clinical pathways in Alzheimer’s disease
US20230207132A1 (en) Covariate correction including drug use from temporal data
KR101585190B1 (en) Computer Implemented Methods for Analyzing Genomic or Epigenomic Variations
KR20250154498A (en) Detection of leukocyte contamination
Banerjee et al. Reverse regression increases power for detecting trans-eQTLs
Zheng et al. Deep learning predicts the impact of regulatory variants on cell-type-specific enhancers in the brain
Lakhani et al. Integration of Deep Learning Annotations with Functional Genomics Improves Identification of Causal Alzheimer’s Disease Variants
Priya et al. Autoencoder with salp optimisation technique for exploring SNP-SNP interactions in Alzheimer's disease
EP4457829B1 (en) Covariate correction for temporal data from phenotype measurements for different drug usage patterns
Sudha Unlocking Biomarker Identification-Harnessing AI and ML for Precision Medicine: AI and ML for Precision Medicine

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13866114

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13866114

Country of ref document: EP

Kind code of ref document: A1