HK1240284B

HK1240284B - 用於结直肠癌相关疾病的生物标志物

Info

Publication number: HK1240284B
Application number: HK17113795.1A
Authority: HK
Inventors: 冯强; 张东亚; 王俊
Original assignee: 深圳华大基因科技有限公司; 深圳华大生命科学研究院
Filing date: 2015-01-13
Publication date: 2021-04-16

Description

用于结直肠癌相关疾病的生物标志物

相关申请的交叉引用

无。

技术领域

本发明涉及用于预测与微生物群有关疾病(特别是结直肠癌(CRC)相关疾病)的风险的生物标志物及方法。

背景技术

在西方国家，结直肠癌(CRC)是第三大常见癌症，也是第二大致死的癌症(Schetter AJ,Harris CRC(2011)Alterations of microRNAs contribute to coloncarcinogenesis.Semin Oncol 38:734–742,通过引用并入此处)。在全世界范围内，每年都有很多人被诊断出患有CRC，也有很多患者死于此病。尽管现有的治疗手段(包括手术、放射疗法、化学疗法)对CRC具有显著的临床治疗价值，然而，手术后癌症的复发和转移使得这些治疗手段不能成功治愈结直肠癌。因此，对CRC早期的诊断不仅可以降低死亡率，还可以减少手术治疗的费用。

现在诊断CRC的手段，如可屈性乙状结肠镜检查和结肠镜检查是侵入式检查，被检查的患者在受检过程中可能会感觉不舒服甚至厌恶。

CRC的发展是受遗传、生理和环境因素影响的多因素过程。对于环境因素，生活方式特别是饮食摄入可能会影响到CRC发生的风险。西方饮食含有丰富的动物脂肪但是缺乏纤维，其通常与CRC的风险增加有关。因此，据推测饮食和CRC之间的关联可能是饮食对结肠微生物群和细菌代谢的影响，从而使得这两者均是疾病病因学中的相关因素(McGarr SE,Ridlon JM,Hylemon PB(2005).Diet,anaerobic bacterial metabolism,and coloncancer.J Clin Gastroenterol.39:98–109；Hatakka K,Holma R,El-Nezami H,Suomalainen T,Kuisma M,Saxelin M,Poussa T,H,Korpela R(2008).Theinfluence of Lactobacillus rhamnosus LC705together with Propionibacteriumfreudenreichii ssp.shermanii JS on potentially carcinogenic bacterialactivity in human colon.Int J Food Microbiol.128:406–410,通过引用并入此处)。

概述

本公开内容的实施方案旨在至少在一定程度上解决现有技术中存在的至少一个问题。

本发明基于发明人的以下发现：

粪便DNA的肠道微生物群分析具有作为非侵入式检测方法的潜力，用来寻找特异性生物标志物，而这些标志物可以作为CRC患者早期诊断的筛选工具，从而延长寿命，提高生活质量。为了分析CRC患者的肠道微生物群，本发明人基于对128个中国人(群体I)的肠道微生物DNA的深度鸟枪法测序，执行了宏基因组关联研究(MGWAS)(Qin,J.et al.Ametagenome-wide association study of gut microbiota in type 2diabetes.Nature490,55–60(2012)，通过引用并入此处)的方案。发明人鉴定并验证了140,455个与CRC关联的基因标志物。为了开发利用肠道微生物群进行CRC分类的潜在能力，发明人基于通过最小冗余-最大关联(mRMR)特征选择方法定义为最优基因集的20个基因标志物，开发了一种疾病分类系统。为了基于这些20个肠道微生物群基因标志物直观地评估CRC疾病的风险，发明人计算了健康指数(CRC指数)。发明人的数据为表征与CRC风险有关的肠道宏基因组提供了具有洞察力的见解，也为以后研究肠道宏基因组在其他相关疾病的病理生理学中的作用提供了一个范例，同时还揭示了基于肠道微生物群的方法在评估处于这样的疾病风险的个体中的潜在用途。

据信肠道微生物群的基因标志物对于增加癌症的早期检测具有重要的价值，原因如下：首先，本发明的标志物相对于传统癌症标志物更特异、更灵敏。其次，采用粪便进行分析的结果准确、安全、便宜并且患者较易服从。粪便样品是方便运输的。与需要肠道准备的结肠镜检查相比，基于聚合酶链式反应(PCR)的分析方法是舒适的和无创的，所以人们将更容易参与指定的筛选程序。第三，本发明的标志物还可作为癌症患者中监测治疗的工具，以检测对治疗的反应。

附图说明

下面结合附图说明，本发明公开的各个方面及其优势将变得显而易见，从而更容易被理解。

图1示出了本研究中所有微生物基因关联分析的P值分布。CRCP值分布的关联分析鉴定了在较低P值下强关联标志物不成比例地过度代表，其中在零假设下，大部分基因符合预期的P值分布。这表明，显著的标志物可能代表真实而不是虚假的关联。

图2示出了在结直肠癌中与肠道微生态失调有关的物种。使用三种不同方法(MLG、mOTU和IMG数据库)一致地鉴定两种CRC关联的微生物物种和一个对照关联的微生物物种的差别相对丰度。

图3示出了莫氏细小杆菌(Solobacterium moorei)和胃消化链球菌(Peptostreptococcus stomatis)在CRC患者微生物群组中的富集情况。

图4示出了利用随机森林方法和三种不同物种注释方法进行CRC特异性物种标志物筛选接受者工作特征曲线(ROC)。A，利用IMG 400版本对清洁读长进行注释得到的IMG物种。B，利用已发表的方法(E.M.E.M.M.C.C.Gomes-Marcondes,Leucine modulates the effect of Walker factor,a proteolysis-inducing factor-like protein from Walker tumours,on gene expression and cellular activity inC2C12myotubes.Cytokine 64,343(10//,2013),通过引用并入本文)得到的mOTU物种；C，利用MLG方法(M.R.Rubinstein等人,Fusobacterium nucleatum promotes colorectalcarcinogenesis by modulating E-cadherin/beta-catenin signaling viaits FadAadhesin.Cell Host Microbe 14,195(Aug 14,2013)聚类的所有显著基因和利用IMG 400版本注释得到的物种。

图5示出了利用三种物种注释方法(MLG、IMG和mOTU)得到的在疾病第二阶段及以后的阶段富集的三种物种的阶段特异性丰度。

图6示出了在结直肠癌中与肠道微生态失调有关的物种。在CRC的不同阶段中，三种在CRC关联的微生物群组中富集的细菌物种的相对丰度(利用三种不同的物种注释方法)。

图7示出了最小冗余-最大关联(mRMR)方法来识别区分结直肠癌病例与对照的20个基因标志物。使用生成连续数量子集的mRMR方法进行增量搜索。对于每个子集，错误率通过线性判别分类器的留一交叉验证方法(LOOCV)来估计。具有最低错误率的最佳子集包含20个基因标志物。

图8示出了基于20个基因标志物的特征谱区分CRC病例和对照个体的主成分分析(PCA)。第一和第二主要成分与CRC状态关联(PC1和PC2分别解释了31.9％和13.3％的变异)。将其与基于210万个基因的分析(其中不能观察到所述分别)进行比较。

图9示出了发现与CRC关联的肠道微生物基因标志物。来自本研究的CRC患者(黑色)和对照个体(灰色)计算的CRC指数，与来自早期对2型糖尿病和炎症性肠病研究中的患者和对照个体(灰色)一起显示。该框描绘了第一和第三的四分位数之间的四分位数范围，内部的线表示中位数。CRC患者微生物群组的CRC指数与其余患者有显著差异。

图10示出了从中国人群体I中20个基因标志物中得到的CRC指数的ROC分析，其显示出优异的分类潜力，其曲线下面积为0.99。

图11示出了128个样品中使用20个基因标志物得到的CRC指数。

图12示出了CRC指数，其以0.97的接受者工作特性(ROC)曲线下面积进行分类。

图13示出了宏基因组方法定量与四种基因标志物的定量聚合酶链反应(qPCR)之间的相关性。

图14-1示出，ROC分析显示使用CRC指数进行分类的中等潜力，曲线下面积为0.71。

图14-2示出了CRC指数，其分类以0.85的接受者工作特征(ROC)曲线下面积进行分类。

图15示出了与CRC关联的强壮基因标志物的验证。在第二群体(由47个病例和109个健康对照组成)中测量两个基因标志物(m1704941:来自具核梭杆菌的丁酰辅酶A脱氢酶；m1696299:来自微小小单胞菌的RNA聚合酶β亚基，rpoB)的定量PCR丰度(log10比例，丰度为0的以-8进行作图)。(a)基于这两个基因的CRC指数可以清楚地分别CRC微生物群组和对照。(b)CRC指数以0.84的接受者工作特征(ROC)曲线下面积进行分类；(c,d)相对于对照和第一阶段微生物群组，这两个标志物基因从CRC第二阶段和第三阶段开始显示相对较高的出现率和丰度。

图16示出了CRC指数(仅使用1696299)，其以0.80的接受者工作特性(ROC)曲线下面积进行分类。

图17示出了CRC指数(仅使用1704941)，其以0.69的接受者工作特性(ROC)曲线下面积进行分类。

发明详述

本文所用的术语具有本发明相关领域的普通技术人员所通常理解的含义。术语如“一个”、“一种”和“所述”不旨在仅指单数的实体，而是包括可用于说明特定实施方案的一般类别。本文的术语用于描述本发明的具体实施方案，但它们的使用并不限定本发明，除非在权利要求中指出。

一方面，本发明涉及用于预测受试者中结直肠癌(CRC)风险的基因标志物集，其包含SEQ ID NO：1至20所示的一种或多种基因。

在另一方面，本发明涉及本发明的基因标志物集用于预测受试者中结直肠癌(CRC)风险的用途，其包括步骤：

1)从受试者收集样品j并从样品中提取DNA；

2)确定基因标志物集中每个基因标志物的丰度信息；和

3)通过以下公式计算样品j的指数：

A_ij是样品j中标志物i的相对丰度，其中i指所述基因标志物集中的每个基因标志物；

N是基因标志物集中所有CRC富集标志物的子集；

M是基因标志物集中所有对照富集标志物的子集；

和|N|和|M|分别是这两个子集中生物标志物的大小(数量)

其中大于临界值的指数表明受试者患有结直肠癌(CRC)或处于发生结直肠癌(CRC)的风险中。

在另一方面，本发明涉及本发明的基因标志物集用于制备用于预测受试者中结直肠癌(CRC)风险的试剂盒的用途，所述预测通过以下步骤：

1)从受试者收集样品j并从样品中提取DNA；

2)确定基因标志物集中每个基因标志物的丰度信息；和

3)通过以下公式计算样品j的指数：

N是基因标志物集中所有CRC富集标志物的子集；

M是基因标志物集中所有对照富集标志物的子集；

和|N|和|M|分别是这两个子集中生物标志物的大小(数量)

另一方面，本发明涉及用于诊断受试者是否患有结直肠癌或处于发生结直肠癌风险中的方法，其包括：

1)从受试者收集样品j并从样品中提取DNA；

2)确定基因标志物集中每个基因标志物的丰度信息，所述基因标志物集包含SEQID NO:1至20所示的一个或多个基因；和

3)通过以下公式计算样品j的指数：

N是基因标志物集中所有CRC富集标志物的子集；

M是基因标志物集中所有对照富集标志物的子集；

和|N|和|M|分别是这两个子集中生物标志物的大小(数量)

在一个具体实施方案中，丰度信息是通过测序方法测定的基因标志物集中的每个基因标志物的基因相对丰度。

在另一个具体实施方案中，丰度信息是通过qPCR方法测定的基因标志物集中每个基因标志物的基因相对丰度。

在另一个具体实施方案中，通过接受者操作特征(ROC)方法获得临界值，其中临界值对应于AUC(曲线下面积)达到其最大值。

在优选的实施方案中，本发明的基因标志物集由SEQ ID NO：1至20组成，更优选本发明的基因标志物集由SEQ ID NO：1、9、13和16组成，最优选本发明的基因标志物集由SEQID NO：13和16组成。在另一优选实施方案中，基因标志物集由SEQ ID NO：13组成。

另一方面，本发明涉及如SEQ ID NO：13所示的标志物或编码RNA聚合酶亚单位β的rpoB基因作为预测受试者中结直肠癌(CRC)风险的基因标志物的用途，其中相对于对照样品，所述受试者样品中所述基因标志物的富集指示受试者中结直肠癌的风险。

下面将结合非限制性实施方案对本发明进行进一步说明。除非另有说明，份数和百分比以重量计,温度以摄氏度表示。本领域技术人员将理解，下列实施方案虽然指出了本发明的优选实施方案，但仅以举例说明的方式给出，所用试剂均可以通过商业途径得到。

实施例1.鉴定20个生物标志物并使用肠健康指数来评估其结直肠癌风险

1.1样品采集

1.1.1中国样品采集

群体I(表1，实施例1中使用，由74个结直肠癌患者和54个对照受试者组成)和群体II(表13，实施例3中使用，由47个结直肠癌患者和109个对照受试者组成)：在香港威尔斯亲王医院采集2002年至2012年间的粪便样品。所有样品的纳入标准是：1)不服用抗生素或其他药物，没有特定饮食(糖尿病患者，素食者等)，至少3个月生活方式正常(无额外压力)；2)医疗干预后至少3个月；3)没有结肠直肠手术史、任何种类的癌症或肠道的炎性或传染性疾病。要求受试者在家中收集粪便样品至标准容器中，并立即存放在家用冰箱中。然后在绝缘聚苯乙烯泡沫容器中将冷冻的样品送到医院，立即储存在-80℃直到进一步分析。

1.1.2丹麦样品采集

群体III(表15，实施例3中使用，由16个结直肠癌患者和24个对照受试者组成)：从由于与结直肠癌相关的症状而被推荐结肠镜检查或从被诊断患有结直肠癌的患者而被推荐针对其原发性癌症的大肠切除术的个体采集粪便样品。所有个体均是在其访问门诊诊疗所时(在结肠镜检查前或在手术前，且总是在肠排空前)被纳入的。个体收到一个粪便采集套件，其中包括没有稳定缓冲液的试管，并被指示在大肠排空开始前一或两天在家里采集粪便样品。每个被纳入的个体将样品冷藏在-18℃，并与采集样品的研究护士联系。在实验室，粪便样品立即在液氮中快速冷冻，随后在-80℃下以24/7电子监控方式储存，直到分析。

所有被纳入的个体因此经过完全结肠镜检查，或作为初始的检查或在后来的手术之后。排除标准是先前的腺瘤、先前的结直肠癌和先前或目前的其他恶性疾病。

根据Helsinki II宣言采集粪便样品和记录所包括的个体的资料。该协议经丹麦首都区伦理委员会(H-3-2009-110)和丹麦数据保护局(2008-41-2252)批准。

表1：群体I中结直肠癌(CRC)病例和对照的基线特征。FBG：空腹血糖；ALT/GPT：丙氨酸转氨酶/谷氨酸丙酮酸转氨酶；BMI：体重指数；DM：2型糖尿病；HDL：高密度脂蛋白；TG：甘油三酸酯；eGFR：表皮生长因子受体；TCHO：总胆固醇；Cr：肌酐；LDL：低密度脂蛋白；TNM：肿瘤淋巴结转移分期系统。

1.2 DNA提取

中国样品：将粪便样品在冰上解冻，并根据制造商的说明书使用Qiagen QIAampDNA Stool Mini Kit(Qiagen)进行DNA提取。提取物用无DNA酶的RNA酶处理以消除RNA污染。使用NanoDrop分光光度计，Qubit荧光计(使用Quant-iTTMdsDNA BR测定试剂盒)和凝胶电泳测定DNA量。

丹麦样品：将每个粪便样品的冷冻等分试样(200mg)悬浮于250μl的4M硫氰酸胍-0.1M Tris(pH7.5)和40μl的10％N-月桂酰肌氨酸中。然后，如前所述使用珠研磨法进行DNA提取(J.J.Godon,E.Zumstein,P.Dabert,F.Habouzit,R.Moletta,Molecular microbialdiversity of an anaerobic digestor as determined by small-subunit rDNAsequence analysis.Applied and environmental microbiology 63,2802(Jul,1997)，其通过引用并入本文)。通过nanodrop(Thermo Scientific)和琼脂糖凝胶电泳估计DNA浓度及其分子大小。

1.3 DNA文库构建和测序

按照制造商的说明(Illumina HiSeq 2000平台)进行DNA文库构建。本发明人使用与前述相同的工作流程来进行簇生成，模板杂交，等温扩增，线性化，阻断和变性，以及测序引物的杂交(Qin,J.等人A metagenome-wide association study of gut microbiota intype 2diabetes.Nature 490,55–60(2012)，通过引用并入本文)。

本发明人为每个样品构建了具有350bp的插入片段的一个配对末端(PE)文库，然后进行高通量测序以获得长度为2x100bp的约3000万个PE读长。通过从来自Illumina原始读长过滤具有模糊“N”碱基的低质量读长、接头污染和人类DNA污染以及通过同时修剪读长的低质量末端碱基来获得高质量的读长。产生了7.51亿个宏基因组读长(高质量读长)(平均每个体586万个读长)

1.4 IMG基因组的物种注释

对于每个IMG基因组，通过使用由IMG提供的NCBI分类标识符，发明人使用NCBI分类转储文件在种和属水平上鉴定了相应的NCBI分类学分类。没有相应的NCBI物种名称的基因组使用其原始的IMG名称，其中大部分是未分类的。

1.5数据谱构建

1.5.1基因、KEGG Ortholog(KO)和属特征谱

发明人将基因集的高质量读长映射到由欧洲和中国成年人(同一性>＝90％)建立的公开的参考肠道基因集((Qin等人，2012，同上)，基于此，发明人使用与已发表的T2D论文(Qin等，2012，同上)相同的方法得出基因、KO和属特征谱。

1.5.2 mOTU特征谱

清洁读长与默认参数的mOTU参考序列(总共79268序列)(S.Sunagawa等人,Metagenomic species profiling using universal phylogenetic markergenes.Nature methods 10,1196(Dec,2013)，通过引用并入本文)比对。鉴定了549个物种水平的mOTU，包括307个注释物种和242个无代表性基因组的mOTU连锁群，这些群体被推定为厚壁菌或类杆菌属。

1.5.3 IMG物种和IMG属特征谱。

从由http://ftp.jgi-psf.org下载的IMG v400参考数据库(V.M.Markowitz等人,IMG:the Integrated Microbial Genomes database and comparative analysissystem.Nucleic acids research 40,D115(Jan,2012)，通过引用并入本文)提取细菌、古细菌和真菌序列。总共获得了522,093个序列，并且基于原始特征谱的7个相等大小的块构建了SOAP参考索引。使用SOAP对齐器2.22版本(R.Li等人,SOAP2:an improved ultrafasttool for short read alignment.Bioinformatics 25,1966(Aug 1,2009)，通过引用并入本文)将清洁读长比对至参考序列，参数“-m 4-s 32-r 2-n 100-x 600-v 8-c 0.9-p 3”。然后，使用SOAP覆盖软件计算每个基因组的读长覆盖率，用基因组长度标准化，并进一步标准化至每个个体样品的相对丰度。该特征谱仅基于唯一映射的读长生成。

1.6影响肠道微生物群基因谱的因素分析

根据参考基因集(Qin等人，2012，同上)，本发明人得出了在128个香港样品中至少6个样品中出现的2.1M(2,110,489)基因子集，并使用这210万个基因生成了128个基因丰度谱。本发明人使用置换多元方差分析(PERMANOVA)检验来评估不同特征，包括年龄，BMI，eGFR，TCHO，LDL，HDL，TG，性别，DM，CRC状态和位置，对2.1M基因的基因谱的影响。发明人利用R中的“vegan”工具包进行分析，经过10000次置换，得到置换P值。发明人还利用R中的“p.adjust”工具包对多重检验进行校正，利用Benjamini-Hochberg方法得到每个基因的q值。

当发明人在19个不同协变量上进行置换多元方差分析(PERMANOVA)时，只有CRC状态和CRC阶段与这些基因谱显著相关(q<0.05，表2)。因此，数据表明CRC患者微生物群中改变的基因组成不能被其他记录的因素所解释。

表2群体I中微生物基因谱的PERMANOVA分析。进行分析，以检验临床参数和CRC状态对肠道微生物群是否有显著影响，q<0.05。BMI：体重指数；DM：2型糖尿病；FBG：空腹血糖；HDL：高密度脂蛋白；TG：甘油三酸酯；eGFR：表皮生长因子受体；TNM：肿瘤淋巴结转移分期系统；TCHO：总胆固醇；Cr：肌酐；LDL；低密度脂蛋白；ALT/GPT：丙氨酸转氨酶/谷氨酸丙酮酸转氨酶。

1.7 MGWAS鉴定的CRC关联基因

1.7.1结直肠癌相关基因的鉴定

发明人利用宏基因组广泛关联研究(MGWAS)来鉴定促成CRC中基因组成发生改变的基因。为了鉴定宏基因组特征谱与CRC的关联性，发明人利用双侧Wilcoxon秩和检验方法对2.1M个基因谱进行分析。利用这种方法，发明人共得到140455个基因标志物，其在病例或在对照中富集(p<0.01)(图1)。

1.7.2估计错误发现率(FDR)

为了评估错误发现率(FDR)，发明人没有使用连续P值拒绝方法，而是使用了“q值”方法，该方法在以前的一个研究中提出(J.D.Storey,R.Tibshirani,Statisticalsignificance for genomewide studies.Proceedings of the National Academy ofSciences of the United States of America 100,9440(Aug 5,2003)，通过引用并入此处)。在此分析中，统计假设检验是在140,455个基因的大量的特征数据上进行的。错误发现率(FDR)为11.03％。

1.8 CRC微生物群的分类学改变

发明人检查了对照和CRC关联微生物群之间的分类学差异，以鉴定促成生态失调的微生物分类群。为此，本发明人使用从三种不同方法得到的分类特征谱，因为来自多种方法的支持证据将加强关联性。首先，发明人将宏基因组读长映射到IMG数据库中的4650个微生物基因组(V.M.Markowitz等人，IMG:the Integrated Microbial Genomes databaseand comparative analysis system.Nucleic acids research 40,D115(Jan,2012)，其通过引用并入本文)(版本400)，并估计该数据库中的微生物物种(表示为IMG物种)的丰度。第二，本发明人使用通用系统发育标志物基因(S.Sunagawa等人，Metagenomic speciesprofiling using universal phylogenetic marker genes.Nature methods 10,1196(Dec,2013)，其通过引用并入本文)估计了物种水平的分子操作分类单位(mOTU)的丰度。第三，本发明人将由MGWAS鉴定的140,455个基因组织成代表源自相同基因组的基因簇的宏基因组连锁群(MLG)(Qin等人，2012，同上)，在可能的情况下，使用IMG数据库注释物种水平的MLG，基于这些物种注释分组MLG，然后估计这些物种(表示为MLG物种)的丰度。

1.8.1鉴定结直肠癌相关MLG物种

基于鉴定出的与结直肠癌关联的140455个标志物基因谱，发明人利用之前II型糖尿病研究(Qin等人，2012，同上)里描述的方法构建结直肠癌关联的MLG。将所有的基因对比到IMG数据库v400中的参考基因组以获取基因组水平的注释。如果大于50％的组成性基因被注释到一个基因组，则将MLG归属于该基因组，否则将其称为未分类。总共87个基因数目超过100个的MLG被选择为与结直肠癌相关联的MLG。基于这些基因组的物种注释将这些MLG分组，从而构建出MLG物种。

为了评估MLG物种的相对丰度，发明人首先去除丰度最高的5％基因和丰度最低的5％基因，然后评估MLG物种的基因的平均丰度。通过计算属于该物种的IMG基因组的丰度之和，从而评估IMG物种的相对丰度。通过类似地计算物种丰度之和来估计属丰度。

1.8.2 CRC关联物种

以上分析鉴定了28个IMG物种、21个mOTU和85个MLG物种与通过结肠镜检查分层为混杂因素的CRC状态显著相关(Wilcoxon秩和检验，q<0.05；见表3)。凸腹真杆菌(Eubacterium ventriosum)在所有三种方法中均在对照微生物群组中富集(Wilcoxon秩和检验-IMG：q＝0.002；mOTU：q＝0.0049；MLG：q＝3.33x10^-4)。另一方面，微小小单胞菌(Parvimonas micra)(q<7.73x10^-6),莫氏细小杆菌(Solobacterium moorei)(q<0.011)和具核梭杆菌(Fusobacterium nucleatum)(q<0.00279)在所有三种方法中均在CRC患者微生物群组中富集(图2，图3)，而根据三种方法中的两种，胃消化链球菌(Peptostreptococcusstomatis)(q<7.73x10^-6)富集。PERMANOVA分析显示，只有CRC状态(所有三种方法P≤0.013)和结肠镜检查(两种方法的P＝0.079)解释了三种CRC富集物种的定量变异。所有其他非CRC特异性因子无法解释具有统计学意义的变异(P>0.18；表4)。胃消化链球菌最近已显示与CRC显著相关，而莫氏细小杆菌先前已显示与菌血症相关。结果证实了在具有不同遗传和文化起源的新群组中的关联性。然而，在CRC关联微生物群中，高度显著富集的微小小单胞菌(类似具核梭杆菌的一种可以引起口腔感染的专一性厌氧细菌)是一个新的发现。微小小单胞菌参与了牙周病的病因，并且产生广泛的蛋白水解酶，并使用蛋白胨和氨基酸作为能源。已知其产生硫化氢，其促进结肠癌细胞的肿瘤生长和增殖。微小小单胞菌可能代表CRC的非侵入性诊断生物标志物的机会。

1.9物种水平分析

为了评估这些分类学关联分析的预测功效，发明人利用随机森林系统学习法(D.Knights,E.K.Costello,R.Knight,Supervised classification of humanmicrobiota.FEMS microbiology reviews 35,343(Mar,2011)，通过引用并入此处)鉴定三种不同方法得到的物种谱中的关键物种标志物。该分析显示，17个IMG物种、7个物种水平mOTU和27个MLG物种高度预测CRC状态(表5)，ROC分析中的预测能力分别为0.86、0.89和0.96(图4)。从所有三种方法中鉴定出微小小单胞菌为关键物种，从三种方法中的两种鉴定出具核酸杆菌、胃消化链球菌和莫氏细小杆菌，提供其与CRC状态的关联性的进一步统计支持。

1.9.1 MLG物种标志物鉴定

基于构建的基因数目超过100个的87个MLG，发明人采用Benjamini-Hochberg调整法对每一个MLG进行Wilcoxon秩和检验，85个MLG被筛选出作为与CRC相关的MLG(q<0.05)。基于这85个结直肠癌相关的MLG物种，发明人采用R(2.10版)中的“randomForest 4.5-36”工具包来鉴定MLG物种标志物。首先，发明人根据“randomForest”方法得出的重要性对所有85个MLG物种进行排序。通过创建排名高的MLG物种的递增子集，从包含1个MLG物种开始至包含所有85个MLG物种结束，从而构建MLG标志物集。对于每个MLG标志物集，发明人计算出其在128个中国人群体(第一群体)中的错误预测率。最后，选取错误预测率最低的MLG物种集作为MLG物种标志物。此外，发明人利用基于筛选出来的MLG物种标志物得到的疾病发生概率绘制ROC曲线。

1.9.2 IMG物种标志物和mOTU物种标志物鉴定

基于IMG物种谱和mOTU物种谱，发明人同样采用Benjamini-Hochberg调整法进行Wilcoxon秩和检验，从而筛选出与CRC显著相关(q<0.05)的IMG物种和mOTU物种。接着，利用与筛选MLG物种标志物相同的方法，即采用随机森林法筛选IMG物种标志物和mOTU物种标志物。

1.9.3 MLG、IMG和mOTU物种的阶段富集分析

由于三种方法预测的与CRC状态关联的物种相一致，而且发明人记录了CRC患者的疾病阶段(表1)，因此，发明人对物种谱进行了探索，以寻求鉴定早期CRC的特异性标记。发明人推测，这种努力可能揭示很难在全局分析中进行鉴定的阶段特异性关联。为了确定在CRC的四个阶段或健康对照中有哪些物种富集，发明人对基因数目超过100的MLG物种和q<0.05(采用Benjamini-Hochberg调整法的Wilcoxon秩和检验)的所有IMG物种和mOTU物种进行Kruskal检验，利用在CRC四个阶段和健康对照中最高的秩平均获得物种富集信息。发明人还利用成对Wilcoxon轶和检验对各组两两之间的显著性进行比较。

在中国人群体I中，有几个物种在不同的阶段显示显著不同的丰度。其中，相较于所有其它阶段和对照样品，发明人没有鉴定出在第一阶段富集的任何物种。相较于对照样品，胃消化链球菌(Peptostreptococcus stomatis)，变黑普雷沃氏菌(Prevotellanigrescens)和共生梭菌(Clostridium symbiosum)在第二阶段或更晚以后富集，表明它们在CRC形成之后开始在结肠/直肠定殖(图5)。然而，相较于对照，具核梭杆菌动物亚种(Fusobacterium nucleatum),微小小单胞菌(Parvimonas micra),和莫氏细小杆菌(Solobacterium moorei)在所有四个阶段均有富集，在第二阶段丰度最高(图6)，表明它们可能在CRC病因学和发病机制中发挥作用，也意味着它们可以作为早期CRC的潜在生物标志物。

1.10 CRC生物标志物发现

发明人从使用最小冗余-最大关联(mRMR)特征选择方法(H.Peng,F.Long,C.Ding,Feature selection based on mutual information:criteria of max-dependency,max-relevance,and min-redundancy.IEEE transactions on pattern analysis andmachine intelligence 27,1226(Aug,2005)，其通过引用并入本文)的MGWAS方法鉴定的140,455个基因中鉴定出CRC的潜在生物标志物。为了消除结肠镜检查的混杂效应，本发明人选择了即使在分层结肠镜检查之后也是显著的基因，其产生了102,514个基因。然而，由于mRMR方法的计算复杂度不允许我们使用所有102,514个基因，本发明人必须减少候选基因的数量。首先，本发明人选择了更严格的24,960个基因集，其具有较高的统计显著性(P<0.001；FDR≤5.23％)。然后本发明人确定了彼此高度相关的基因组(Kendallτ>0.9)，并选择每组中最长的基因，以产生11,128个显著基因的统计学上非冗余的组。最后，发明人使用mRMR方法，并确定了与CRC状态强相关的20个基因的最佳集合(图7，表6和表7)。使用这20个基因的PCA(主成分分析)显示CRC患者与对照组的良好分离(图8)。PERMANOVA分析显示，只有CRC状态、分期和空腹血糖解释了20个标志物基因丰度的统计显著的变化(P≤0.01；见表8)。虽然发明人不能排除其他混杂因素，但结果表明20个标记基因表征CRC与对照微生物群之间的差异。本发明人基于这20种标志物相对丰度的未加权对数计算了简单的CRC指数，其将CRC患者微生物群与对照微生物群以及与来自之前对中国个体的2型糖尿病(Qin等人2012，同上)和欧洲个体的炎症性肠病(J.Qin等人，A human gut microbial genecatalogue，by metagenomic sequencing.Nature 464,59(2010年3月4日)，以引用方式并入本文)的两个研究的490个粪便微生物清楚地分离开(图9，本研究中患者和对照的中值CRC指数分别为7.31和-5.56；Wilcoxon秩和检验，所有五个比较q<6x10^-11，参见表9)。使用CRC指数对74例CRC患者微生物相较于54种对照微生物群的分类显示接受者工作特征(ROC)曲线下面积为0.99(图10)，而相较于相应对照对2型糖尿病和IBD患者的分类的曲线下面积(AUC)分别为0.658和0.738，表明该指数所捕获的模式主要为CRC特异性的。在图10的0.7383临界值中，真阳性率(TPR)为0.99，假阳性率(FPR)为0.07，表明20个基因标志物可用于对CRC个体进行准确分类。

1.10.1最小冗余-最大关联(mRMR)特征选择框架

为了仅通过肠道宏基因组学标志物建立结直肠癌分类，本发明人采用mRMR方法进行特征选择。本发明人使用来自R的“sideChannelAttack”工具包进行增量搜索，并发现128个有序标志物集。对于每个有序集，发明人利用留一交叉验证方法(LOOCV)评估线性鉴别分类器的错误率。选取错误率最低的作为最优标志物集。在本研究中，发明人对一组102,514例结直肠癌相关基因标志物进行了特征选择。由于没有对所有基因进行mRMR分析的计算能力，发明人构建了统计上非冗余的基因集。首先，发明人预先分组了彼此高度相关(Kendall相关系数>0.9)的102,514个结直肠癌相关基因。然后发明人选择了最长的基因作为该组的代表性基因，因为较长的基因具有较高的功能注释机率，并且在定位程序时将抓取更多的读长。这产生了11,128个显著基因的非冗余组。随后，本发明人将mRMR特征选择方法应用于11,128个显著基因，从而确定出与结直肠癌强关联的20个基因标志物的最优集，用于结直肠癌鉴别，如表6和表7所示。基因id来自出版的参考基因集(Qin等人2012，同上)。

1.10.2 CRC指数的定义

为了利用肠道微生物群的潜在的疾病分类能力，本发明人开发了基于发明人确定的基因标志物的疾病分类系统。为了基于这些肠道微生物基因标志物对疾病风险进行直观评价，本发明人计算出肠健康指数(CRC指数)。

为了评价肠道宏基因组对结直肠癌的作用，本发明人通过mRMR方法基于所选择的20个肠宏基因组标志物定义并计算了每个个体的CRC指数。对于每个单独的样品，由以下公式计算由I_j表示的样品j的CRC指数：

N是这些所选肠道宏基因组标志物中所有CRC富集标志物的子集(即所选生物标志物中与异常状态相关的所有患者富集标志物的子集)；

M是这些所选肠道宏基因组标志物中所有对照富集标志物的子集(即所选生物标志物中所与异常状态相关的有对照富集标志物的子集)；

其中CRC富集标志物子集和对照富集标志物子集显示在表7中。

和|N|和|M|分别是这两个子集的大小(数量)，其中|N|是8和|M|是12。

CRC指数越大，患病风险越高。CRC指数越小，个人越健康。基于一个大群体，发明人能够建立最优的CRC指数临界值。如果测试样品的CRC指数大于该临界值，则该受试者患病风险较高；而如果测试样品的CRC指数小于该临界值，则该受试者较健康，患病风险较小。其中所述最优的CRC指数临界值可由ROC方法在曲线下面积(AUC)达到最大值时来确定。

1.10.3接收者操作特征(ROC)分析

本发明人应用ROC分析来评估基于宏基因组标志物的结直肠癌分类的性能。基于上述选择的20个肠道宏基因标志物，本发明人计算出每个样品的CRC指数。发明人然后使用R中的“Daim”工具包来绘制ROC曲线。

1.10.4CRC指数验证

在建立CRC指数后，本发明人计算了128名个体以及来自先前对II型糖尿病中国人(Qin等人(2012)，同上)和炎症性肠病欧洲人(J.Qin et al.,A human gut microbialgene catalogue established by metagenomic sequencing.Nature 464,59(Mar 4,2010)，通过引用并入此处)的两个研究中的490名个体的中国群体I的CRC指数(图11，表10)。使用Benjamini-Hochberg调整法的Wilcoxon秩和检验来比较CRC指数在中国CRC群体、T2D群体和IBD群体中区分CRC患者和其余患者的能力。

表9：CRC、T2D和IBD患者和健康群体中估计的CRC指数。

表10:128个样品的计算的CRC指数(CRC患者和非CRC对照)

实施例2.验证20个生物标志物

发明人使用另一个新的独立研究小组验证了CRC分类器的区分力，该组中包括在威尔斯亲王医院采集的15例CRC患者和15例非CRC对照。

对于每个样品，提取DNA，如实施例1所述构建DNA文库，然后进行高通量测序。本发明人使用与Qin等人(2012，同上)所述相同的方法计算了这些样品的基因丰度分布。然后确定如SEQ ID NO：1-20所示的每个标志物的基因相对丰度。然后通过以下公式计算每个样品的指数：

A_ij是样品j中标志物i的相对丰度，其中i指SEQ ID NO:1至20所示基因标志物集中的每个基因标志物；

N是这些20个所选肠道宏基因组标志物中所有CRC富集标志物的子集(即所选生物标志物中与异常状态相关的所有患者富集标志物的子集)；

M是这些20个所选肠道宏基因组标志物中所有对照富集标志物的子集(即所选生物标志物中所与异常状态相关的有对照富集标志物的子集)；

其中CRC富集标志物子集和对照富集标志物子集显示在表7中。

表11示出了每个样品的计算的指数，表12示出了代表性样品V1和V30的相关基因相对丰度。在该评估分析中，分类的曲线下面积(AUC)为0.9733(图12)。在临界值0.9945，真阳性率(TPR)为1，假阳性率(FPR)为0.2，从而验证了20个基因标志物可用于准确分类CRC个体。

表11.30个样品的计算CRC指数

表12：样品V1和V30的基因相对丰度

因此，发明人已经基于140,455个CRC关联标志物，通过最小冗余-最大关联(mRMR)特征选择方法来鉴定和验证了20个标志物。本发明人建立了肠道健康指标，以基于这20种肠道微生物基因标志物评估CRC疾病风险。

实施例3通过qPCR验证基因标志物

使用基于TaqMan探针的qPCR，在测序了的群体(51个病例和45个对照，群体I的一个子集)的96个粪便样品和156个样品的群体II(47个病例和109个对照)中进一步评估四个随机选择的基因标志物的丰度，包括两个对照富集的(m181682(SEQ ID NO：4)和m370640(SEQ ID NO：6))和两个患者富集的(m482585(SEQ ID NO：11)和m1704941(SEQ ID NO：16))。引物和探针使用Primer Express v3.0(Applied Biosystems，Foster City，CA，USA)进行设计。使用Universal PCR Master Mixreagent(Applied Biosystems)在ABI7500实时PCR系统上进行qPCR。通用16S rDNA作为内部对照，基因标志物的丰度表达为针对16S rDNA的相对水平。

3.1使用靶向定量PCR评估CRC生物标志物

生物标志物是使用公认昂贵的深度宏基因组测序方法得出的。将其转化为诊断性生物标志物将需要通过简单、经济和靶向的方法如定量PCR(qPCR)进行可靠的测量。为了验证这一点，本发明人随机选择两个病例富集和两个对照富集的基因标志物，并通过qPCR在选自群体I(51个病例和45个对照)的96个样品的子集中测量其丰度。通过两个平台(宏基因组测序和qPCR)对四个基因中的每一个的定量显示出强相关性(Spearman r＝0.81-0.95，图13)，这表明也可以使用qPCR可靠地测量基因标志物。接下来，为了验证先前未见的样品中的标志物，本发明人使用qPCR在来自独立的中国人群体(群体II；参见表13)的156个粪便样品(47个病例和109个对照)中测量了这四种基因标志物的丰度。两个对照富集基因没有显示显著的关联(P>0.31；表14)。另一方面，CRC富集的基因标志物(m1704941，来自具核梭杆菌的丁酰-CoA脱氢酶；m482585，来自未知微生物的RNA定向DNA聚合酶)与结肠镜检查分层后的CRC状态显著关联(分别地，P＝0.0015和P＝0.045，见表14)。然而，在针对结肠镜检查调整的Mantel-Haenszel检验后，只有来自具核梭杆菌的基因保持显著(优势比＝18.5，P＝0.0051)。基于四个基因的丰度的CRC指数仅将CRC微生物群与对照微生物群进行适度分类(AUC＝0.73)，也许表明从20个生物标志物列表中随机选择不是有效的策略。然而，来自具核梭杆菌的基因仅存在于109个对照微生物群中的4个中，表明有可能使用粪便样品进行CRC的特异性诊断测试。

3.2通过在独立的宏基因组群体中验证确定的准确的qPCR生物标志物

为了鉴定可以具有更普遍适用性的强壮生物标志物，本发明人使用来自具有不同遗传背景和生活方式的群体(来自丹麦的16名CRC患者和24名对照个体(群体III))的粪便宏基因组评估所有20个基因标志物。这些是被推荐参与结肠镜检查的有症状的个体，所有样品在DNA提取和分析前都是不知情的(见表15)。当映射至430万个肠道微生物基因时，40个丹麦微生物群在病例(Wilcoxon秩和检验，基因计数：P＝1.94x10^-5；Shannon指数：P＝5.85x10^-5)和对照(基因计数：P＝0.0017；Shannon指数：P＝9.34x10^-4；表16)中表现出显著较高的基因丰度和基因α多样性，与最近的研究一致，并表明中国和丹麦人群肠道微生物群落结构的差异(J.Li等人，An integrated catalog of reference genes in the humangut microbiome.Nature biotechnology 32,834(Aug，2014)，通过引用并入本文)。在中国群体I中与CRC状态相关的102,514个基因中，只有1,498个基因可以在丹麦微生物群中得到验证。然而，CRC富集的基因在两个群体之间比对照富集基因显著更多地共有(在35,735个CRC富集中为1,452个，而在对照富集中为66,779个中的46个；双尾卡方检验，卡方＝2576.57，P<0.0001)。1,452个CRC富集基因中超过一半(53.6％)仅来自三个物种：微小小单胞菌(389个基因)，莫氏细小杆菌(204个基因)和共生梭菌(177个基因)(见表17)。在物种水平上，微小小单胞菌在所有三种方法中均在CRC微生物中富集，而胃消化链球菌,麻疹孪生球菌,和莫氏细小杆菌在两种方法中在CRC微生物中富集(Wilcoxon秩和检验，q<0.05；表18)。值得注意的是，所有物种在至少一种方法验证中在CRC中富集。这些结果表明，CRC发展和进展期间结直肠环境的变化可能有助于两种人群中类似物种的生长，这可能导致CRC患者中观察到的微生物多样性减少，这与其他人早期的观察一致(J.Ahn等人，Human gutmicrobiome and risk for colorectal cancer.Journal of the National CancerInstitute 105,1907(Dec 18，2013)，通过引用并入本文)。使用中国群体I中发现的20个基因标志物的CRC指数将丹麦患者微生物群与对照组或多或少地区分(Wilcoxon秩和检验，P＝0.029)，并显示适度的分类潜能(ROC曲线下面积为0.71，图14-1)。在丹麦群体III中，20个基因中只有4个(2个来自厌氧消化链球菌和2个来自微小小单胞菌和具核梭杆菌)与CRC状态相关(Wilcoxon秩和检验，q≤0.06；所有是CRC富集，见表19)。在发明人记录的因素中，只有CRC状态可以解释这4个基因的变异(PERMANOVA P≤0.0001；见表20)，表明这些特征是CRC特异性的。使用这四种基因的CRC指数可以按照ROC曲线下面积(0.85)进行CRC患者准确分类(图14-2，表21)。在临界值-16.68，真阳性率(TPR)为0.75，假阳性率(FPR)为0.08333。这个较高的AUC验证了4种基因标志物可用于对CRC个体进行分类。四个基因中的两个是来自厌氧消化链球菌的转座酶。第三个基因(m1704941，来自具核梭杆菌的丁酰基-CoA脱氢酶)是在中国群体II中使用qPCR成功验证的两个基因中的一个。来自微小小单胞菌的第四个基因是编码RNA聚合酶亚基β的高度保守的rpoB基因(即m1696299(SEQ ID NO：13，同一性为99.78％))，通常用作系统发育标志物(F.D.Ciccarelli等人,Toward automaticreconstruction of a highly resolved tree of life.Science 311,1283(Mar 3,2006)，其通过引用并入本文)。

对于每个样品，提取DNA，如实施例1所述构建DNA文库，然后进行高通量测序。本发明人使用与Qin等人(2012，同上)所述相同的方法计算了这些样品的基因丰度分布。然后测定如SEQ ID NO：1，SEQ ID NO：9，SEQ ID NO：13和SEQ ID NO：16所示的每种标志物的基因相对丰度。然后通过以下公式计算每个样品的指数：

N是这些4个所选肠道宏基因组标志物中所有CRC富集(病例)标志物的子集(即所选生物标志物中与异常状态相关的所有患者富集标志物的子集)；

其中CRC富集标志物子集是如SEQ ID NO：1，SEQ ID NO：9，SEQ ID NO：13和SEQ IDNO：16所示的标志物；

|N|是子集中生物标志物的大小(数量)，其中|N|是4。

其中大于临界值的指数表明受试者患有结直肠癌或处于发生结直肠癌的风险中。

表21.40个样品的基因相对丰度和计算的CRC指数

本发明人决定使用qPCR评估独立的中国群体II中两种非转座酶基因的诊断潜力。由于这些最初是在中国群体I中发现的，并在丹麦群体III中验证，群体II作为这些基因的合适独立验证群体，特别是在不同的平台中。本发明人对来自微小小单胞菌的rpoB进行了额外的qPCR测量，其示出了在群体II中的CRC患者微生物群中的显著富集(Wilcoxon秩和检验，通过结肠镜检查分层，P＝8.97x10^-8)。针对结肠镜检查调整的Mantel-Haenszel优势比为20.17(95％置信区间为4.59-88.6，P＝3.36x10^-7)。两个基因(1696299(SEQ ID NO：13)和1704941(SEQ ID NO：16))的组合qPCR测量(表22中的引物)在中国群体II中清楚分开病例与对照样品(结肠镜检查分层的Wilcoxon秩和检验，P＝1.404x10^-8，图15a)。他们的组合丰度准确分类了中国群体II中的CRC样品，改善的ROC曲线下面积为0.84(临界值-13.38，真阳性率＝0.723，假阳性率＝0.073；图15b，表23)，验证了2个基因标志物可用于对CRC个体进行分类。精确度略高于最近的研究(AUC＝0.836，真阳性率＝0.58，假阳性率＝0.08)，尽管它们使用了使用宏基因组测序的22种物种的丰度组合(G.Zeller等人,Potential offecal microbiota for early-stage detection of colorectal cancer.Molecularsystems biology 10,766(2014)，通过引用并入本文)。在CRC患者中通过qPCR检测两种标志物中的至少一种的Mantel-Haenszel优势比(针对结肠镜检查调整的)为22.99(P＝5.79x10^-8，95％置信区间5.83-90.8)。当将群体分为早期(I-II期)和晚期(III-IV期)癌症患者时，分类潜力和优势比仍然很大(见表24)。从CRC的II期开始，这两个基因的丰度显著高于对照样品(图15c-d)，与物种丰度的结果一致，并提供粪便宏基因组可能携带用于鉴定早期CRC的非侵入性生物标志物的原则证明。

对于每个样品，如实施例1所述提取DNA。本发明人如上所述进行qPCR。然后测定如SEQ ID NO：13和SEQ ID NO：16所示的每个标记的基因相对丰度。然后通过以下公式计算每个样品的指数：

N是这些2个所选肠道宏基因组标志物中所有CRC富集(病例)标志物的子集(即所选生物标志物中与异常状态相关的所有患者富集标志物的子集)；

其中CRC富集标志物子集是如SEQ ID NO：13和SEQ ID NO：16所示的标志物；

|N|是子集中生物标志物的大小(数量)，其中|N|是2。

本发明人还使用两种基因标志物之一分别计算CRC指数(表23)。仅使用1696299的ROC曲线下面积为0.80(临界-6.762，真阳性率＝0.6383，假阳性率＝0.05505，图16)，仅使用1704941的ROC曲线下面积为0.69(图17)。结果表明，基因标志物1696299(SEQ ID NO：13)是强壮的生物标志物，也可用于对CRC个体进行唯一的分类。

本发明人首次通过用于粪便样品中的微生物生物标志物的负担得起的靶向检测方法证明了CRC诊断的潜力。最近的两项研究报告了使用粪便微生物群的宏基因组测序的潜在CRC诊断，其准确度与我们相同(在接受者操作曲线下面积方面)。虽然基于16S核糖体RNA基因的研究使用5个操作分类单位来分类群体中的CRC与健康样品，特别是没有任何交叉验证(J.P.Zackular,M.A.Rogers,M.T.t.Ruffin,P.D.Schloss,The human gutmicrobiome as a screening tool for colorectal cancer.Cancer preventionresearch 7,1112(Nov,2014)，通过引用并入本文)，但宏基因组鸟枪研究使用22个物种水平分类单位，以在独立的群体中精确地分类CRC患者(G.Zeller等人,Potential of fecalmicrobiota for early-stage detection of colorectal cancer.Molecular systemsbiology 10,766(2014)，通过引用并入本文)。本发明人已经显示，仅使用128个中国人中发现并在40个丹麦人中进行验证的两个基因标志物，本发明人可以在156名中国人的独立qPCR验证群体中准确分类CRC患者与对照个体。通过使用在丹麦群体中验证的基因(来自微小小单胞菌的rpoB基因)的分类潜力(从AUC＝0.73至AUC＝0.84)的显著改善重申了验证新发现的具有不同遗传和环境背景的独立群体的生物标志物的重要性。

表22.所选2个基因标志物的引物和探针的序列信息

表23 156个样品的qPCR基因相对丰度和计算的CRC指数

表3与CRC关联的IMG、mOTU和MLG物种，q值<0.05。对具有多于100个基因的106个MLG进行分组后，如果可以进行物种注释，形成85个MLG物种。

尽管已示出和描述了说明性实施方案，但本领域技术人员将理解，上述实施方案不应当被理解为对本公开内容进行限制，并且可在不背离本公开内容的精神、原则和范围的情况下进行变化、替换和修改。

序列表

<110> BGI SHENZHEN CO., LIMITED

BGI SHENZHEN

<120> 用于结直肠癌相关疾病的生物标志物

<130> IDC170059

<160> 20

<170> PatentIn version 3.5

<210> 1

<211> 816

<212> DNA

<213> 厌氧消化链球菌653-L

<220>

<223> 分离自肠道, 厌氧消化链球菌653-L

<400> 1

atggccaaaa cacctatcgt agataagggg tgcttcatat cgaatgatgt taaaaggtca 60

atagttttaa acctatgtga gactaagtca atggatctaa ttgcaagaga acactgtgta 120

tctcctagta gtgttgccag aatacttcgt ttaactgaag ataggagaag aaaaaattat 180

cttcctagga ttctatcaat agacgaattc aagtcagtaa atacagttga tgcgtctatg 240

agtgtaaatt taactgattt agaaggcggt catatttttg atatcctggt ggataggagg 300

caaagatacc tctttgagta ctttaattcc tatcccttga aggtcagaaa aagggtagaa 360

tatgtgacta cagacatgta taagccatat attgatcttg ccaagaaggt ctttccaaat 420

gccaatattg tggtagataa attccatata gtacagctct tgacaagaga gctaaacaag 480

ttaaggataa atgagatgaa gaagcttaat accaggtcta gagagtataa aatactgaag 540

agatactgga aaatacccct taggaagaag agagacttaa acagtatata tttttacaag 600

aataggcact ttaaaaatat gaccagttca attgatatat tagactatat gttaaaggaa 660

tttcccaact taaaagaggc ctatgatttt tatcaaaact tcctattaag tatatctaat 720

aatgatgtcg ctatgcttga agacattcta aatactagga ctgatgaaat tcccatgtgt 780

tttaggaaga gtataaaaag ccttaaaaag cttaga 816

<210> 2

<211> 594

<212> DNA

<213> 未知的

<220>

<223> 分离自肠道, 未鉴定的

<400> 2

atggcaatgc tcactgtaga aaatatcaat gtatattacg gcgtgatcca cgcccttaaa 60

gacatctcct ttcaggtaaa cgaaggcgag atcgtcgcac tgatcggcgc aaacggtgcc 120

ggcaaaacca ccaccctgca gactgtcagc ggcatgctga gcgcaaagtc cggttcgatc 180

cgatttcagg atcaggagat ttccagaatg ccggagcaca aaatcgtgaa gcagggaatt 240

tcccacgtcc ccgaaggacg ccggatgttc tccaatctga cggttttgga aaacctgaaa 300

atgggcgctt acaccagaaa agacaagcag gaaatcaaca attccctgga aatggtttat 360

gagcggtttc cccgcttaaa ggaacgtacc cgccagctgg caggaactct ttccggcggt 420

gaacagcaga tgcttgcaat gggacgtgca ctgatgtctc atccgaagat catccttctg 480

gatgaaccgt ctatgggact ttcaccgatt tttgtaaatg agattttcga aattatcaag 540

aaagtcagtg cagccggcac gaccgtactt ctggtagagc agaatgcaaa gaaa 594

<210> 3

<211> 873

<212> DNA

<213> 未知的

<220>

<223> 分离自肠道, 未鉴定的

<400> 3

atgaaacgta ttttattaac tggagcaagt ggatttatag gtaaaaacat taaagagaca 60

ttaaacagta aatatgacat atggagcccg tcaagccagg agctggattt aaaagatacc 120

gaatgcgttg aagcatattt gaagcagcat tctttcgatg taatattgca tgcagcaaat 180

tgtaatgata caaggaattc catatcagca tacgatgtac tcaatggaaa tctcagaatg 240

ttttttaacc tagagagatg ttctcactat tatggaaaaa tgatttattt tgggtctggg 300

gcagaatatg acagaagtaa taacatccct aatatgtcag aggactattt tgataccagt 360

gttccgaaag atgcttacgg actttcaaaa tatattatgg caaaagcctg tttaaatcag 420

aagaacattt atgaattgtg tttatttgga gtatacggaa aatatgagga atgggagaga 480

agatttatct ctaatgcgat atgtcgtgca ttaaagggta tggatattac gcttcataaa 540

aatgtatact ttgattattt gtgggtagat gacctcataa aaattatttc ttttttcatt 600

gagaaagata acttgaggta caagaggtac aatgtgtgta gaggcgagaa ggttgatcta 660

tattcgctgg cagtacaggt aaagaagact ttggatagcg aatgttcaat attagttggt 720

gagcctggat ggaagaggga gtatactgcg gataacaata gaatgttgaa cgaaatgaat 780

ggtttatctt ttacaaaact ggaagtgacg atagctgaat tgtgtgaata ttataaagag 840

catttatcag aaatagttac tgaaaaattg taa 873

<210> 4

<211> 1062

<212> DNA

<213> 肠道罗斯拜瑞氏菌XB6B4

<220>

<223> 分离自肠道, 肠道罗斯拜瑞氏菌XB6B4

<400> 4

atggaaaaag taaaggcatt ttgtaaacgg aaaaacattg agatatccgt caagcgctac 60

ctgattgatg cacttggtgc gatggcacag ggattatttg catcgctttt gatcggaacg 120

atcatcagta cacttggaac gcagcttaat attccgattc ttgtgacagt cgggacttac 180

gcgaaagcgg cagtcggacc ggcaatggcg atcgcaatcg gatatgcact gcaggcagcg 240

cctttagtac tgttttcact tgcggcagtc ggtgcggcgg caaatgaact tggcggggca 300

ggcggaccgc ttgcggtact tgtggttgca atttttgcag cagaatttgg aaaagcagtt 360

tccaaagaga caaaaatcga tattattgtc actccgtttg tgaccatttt tgtcggggtc 420

gcgctttcta tctggtgggc tccggcgatc ggtgcggcag cgagtgcagt cggtaatgcg 480

atcatgtggg caaccgagct gcagccgttt ttcatgggaa tcattgtatc tgtgatcgtc 540

gggattgcac tgacactgcc gatcagcagc gcagcaatct gtgcagcact tggactgacc 600

ggattagccg gtggtgcagc acttgccgga tgctgtgcgc agatggtcgg atttgcagtg 660

gcaagtttcc gtgaaaataa atggggcgga ttgtttgcac agggaatcgg tacatccatg 720

cttcagatgg gtaatatcgt gaaaaatccg cgcatctggc tgccggcgac attggcgtct 780

gcaatcaccg gaccgatcgc aatgtgtctg ttccatttac agatgaatgg tgcagcagtt 840

tcctccggta tgggaacctg tggactggtc ggacagattg gtgtctatac gggatggatc 900

gcagatattg aagcgggaag caaagctgcc attacaccga tggactggat cggactgatt 960

ttcgtaagct ttcttctgcc gggcgtttta tcatggcttt ttagtgtgtt attccgtaag 1020

atcggctgga tcaaagaagg cgatatgagg ctggacttat aa 1062

<210> 5

<211> 627

<212> DNA

<213> 哈氏梭菌DSM 13479

<220>

<223> 分离自肠道, 哈氏梭菌DSM 13479

<400> 5

atgcctatac ttcagcagct tctcacatta gtagagcagc acttcggtaa caaatgcgaa 60

atcgtgcttc atgatctgac aaaggattac aaccatacca ttgtcgatat ccgaaacgga 120

gacattaccc atcgttccat cgggggctgc ggaagcaact tagggctgga agtcctgcgc 180

ggaaccgtgc tggatgggga tcgttttaac tatgttacca ccacacagga cggaaagatt 240

ctccgttcct catcgatcta tctaaaaaat gatcagggcg aggtcatcgg atcgatctgc 300

gtgaacctgg atatcacaga gacacttcag tttgaagggt atttacgcca gtttaaccag 360

tttgacagct ttacttccaa cgacgaggag attttcgctc ccgacgtgaa taatcttctc 420

agccatctga ttcagatggg acaggaacag atcggaaagc ctgcgctgga gatgaacaag 480

aacgagaaga ttgagtttat ccgtttcctt gaccagaaag gagcattcct catcacgaag 540

tccggggaac agatctgtga acttctggga atcagcaaat ttacctttta taattacctt 600

gaaagcagcc gcagccagtc ggattcg 627

<210> 6

<211> 1161

<212> DNA

<213> 未知的

<220>

<223> 分离自肠道, 未鉴定的

<400> 6

atgaaaatca aacaattagc gaaaagcgca tcattcttgc tggtggcagg ttttatcagt 60

tttactattc cgtcgtgtag cagtgaagaa gaaatcatca tccttcagga tgtaaaagta 120

aacagtgaaa gcttcaatct ggccgaagac ggcagtacga ccatagaagt caaggtagta 180

cccgaaaata ctccaatagc caaagccgta ctcagcacat cattatttaa tgaaagcggt 240

gttttcgaag taacccgact cactcccaaa ggtaacggtg tatggcagat agcagcaaaa 300

gtaaaggact tctcacgcat tcaaaacggt caggacgtaa tactttccgt ctatcaggaa 360

gataatatgt atatccaaac cacattgaaa ataaacgacc catatagcat cgagggtaaa 420

tatacaccgg tccatccgca agcctttact ttctacagtg ccgaagacgg caaactgatg 480

gagattccgt tcatcatcac agccgacaac gcagccgacc ttgccgccat cagctacgac 540

aatataaagg tagtcaatgg caccggaagc tctacaccca gcataagtat cacacatttc 600

gcaatagctc cgatgacagg taaaacaggc ttctatctgc aagtggataa cgcccaactc 660

gaaacggtaa aaaaagccat cacaaccatc gcttttttgg actgccgggt tatgataacc 720

ggccctaacg gccgtgttgc ctatactcct gtgcgcctca ttgtttcttc tccgaagtgc 780

atcatcaagg acgaccaact cagcctgctg catacagaat tgtccgcccc ggagtttaat 840

agacaaatca ccatagatat gacccacgat ttttatcgtt tgggcaaaca gaatgataaa 900

acaacctttg aggcgtttga aaaccgaggc ttgtataact cacaaggaga aatggcagat 960

gcagaccctc agttcatttc gttgggttat accactcagg gcaaaaatac aacatgtaac 1020

gtaactttaa aacatgatgc cacaattcct gcaatcggca cttaccacat ggtagaacgc 1080

ctaaaaggat attgggaata tgacggaaag aaatatccga ccgtttgtac agacctgcaa 1140

ttccaaatca cgattaaata a 1161

<210> 7

<211> 336

<212> DNA

<213> 粪杆菌属29_1

<220>

<223> 分离自肠道, 粪杆菌属29_1

<400> 7

atggcgattg atactgaatt agcaaaaaga ttacgttcat atcgtaattt taaacattta 60

acacaaaaag atgttgctgc gcatttaaat gttcctcatt ctgcaatttc cgatatagaa 120

aatggtaaaa gagacattac tgttagcgag ttaaaagtgt tttcaaattt atatggtaga 180

agtgtagaag aaattatgag cgggaaaaaa tatgactatt ataatattgc caatatcgct 240

cgtttactta ctgaacttcc tgatgatgat ttaaaagaaa tcatgtttat tattgaatat 300

aaaagaaaaa gaaatgaaga acgtcatttg aaataa 336

<210> 8

<211> 945

<212> DNA

<213> 普氏栖粪杆菌L2-6

<220>

<223> 分离自肠道, 普氏栖粪杆菌L2-6

<400> 8

atgaacagag aaacggtgaa catggtgcgc agtccgattt ctgtggaggg gaacatccgg 60

cttgttccgt attatccggc ctacgataca gcacttgcgt ggtatcagga tgcacagctc 120

tgcaaacagg tagataacag ggacttcgtt tatgatttgc cgctgctgaa gcggatgtat 180

cattatctgg acacacacgg ggaactgttt tatattgagt atcggggtgt gctttgtggt 240

gacgtcagcc tgcggacgac cggcgagctg gccatcgtca tctgcaagga gtaccagaat 300

aaacacatcg ggcggaaggt catcgaaaaa atgctggagc tggctcggga aaggggcttg 360

gcggagtgct tcgcgcacat ctattctttc aatacccagt cgcagaaaat gtttgaatcc 420

attggctttg tcccacagga cgaagaacgc tatatctaca aattgcaaaa aggagaaccg 480

actatgacaa aactgactct ggaagaaaag caggagctca tccggatggc ccttgcggcc 540

agggagaggg cttacgtgcc ttacagcgac tttatggtgg gcgctgccct gcgcgccgag 600

gatggccgtg tctttaccgg ctgccatgtg gagaatgccg cctttacccc caccagctgc 660

gccgagcgca ccgcgctgtt caaagccgtg agcgagggcg tgaccaaatt tacggacatc 720

gccgtggtag gctcccgccg gggcgagatc aatcagcaga tcacctcgcc ctgcggcgtc 780

tgccgtcagg cactgtttga gtttggcggc ccggagctga acgtcatcat ggccaaaacg 840

ccggatgatt tcatggagcg cagcatggat gagctgctgc cctttggctt cggtccctcc 900

aatgtggcgg gcaacaaggc cgtggaagag gaagaaaaag gctga 945

<210> 9

<211> 432

<212> DNA

<213> 厌氧消化链球菌653-L

<220>

<223> 分离自肠道, 厌氧消化链球菌653-L

<400> 9

tatttttaca agaataggca ctttaaaaat atgaccagtt cagttgatat attagattat 60

atgttaaaag aatttcccaa cttaaaagat gcctatgatt tttatcaaaa cttcctatta 120

agtatatcta ataatgatgt ggctatgctt gaagatattc taaatactag gactgataaa 180

ataccaatgt gttttaggaa gagtataaaa agccttaaaa agtttagaaa gtatgtggta 240

aattcactga aatatgacta tacgaatgcc atggtggagg gtaaaaacaa caagataaag 300

gtaattaaaa gagtatccta cggatatagg agttttagga attttaaggc aaggataatg 360

ctaatggaaa ggtataaaat acaaaagggc aacatccata gttatcagtt tgctatggat 420

gctgccgcat aa 432

<210> 10

<211> 777

<212> DNA

<213> 未知的

<220>

<223> 分离自肠道, 未鉴定的

<400> 10

atgaagaata tgataaaaat atttgaaaat gacgaattcg gaaaagtgag aacagtcatt 60

aaggacggcg aaccgtggct tgtaggaaaa gatgttgcgg aaattttagg gtattccaac 120

acaagggacg ctctttcacg tcatgtggat accgaggata aaaccaccgt cgtgatttcc 180

gacagtggtt caaattacaa gagcaagacc actattatca atgaaagcgg cttttacagc 240

ttagttctct caagcaaaat gccgagagcc aaagagttca ggcgttgggt gaccgccgaa 300

gtcctcccca ccatcagacg caccggcggc tacgtttcca acgaggatat gttcatcaaa 360

aactatctcc cctttctcga cgagccatac cgtgacctgt tccgacttca aatgaccatt 420

atcaacaagc tgaatgaacg tatccgccac gatcagccgc tggtggagtt tgcgaatcag 480

gtgtcaaata ccgataatct tatcgacatg aacgcaatgg caaagcttgc gagagcggaa 540

aatatccccg tcggcagaaa caagctttac ggctggctga aaggaaaagg tgtgcttatg 600

gcaaacaatc tgccgtatca ggcttttatc gaccgcggat atttttccgt aaaggagtcg 660

gtgtttgaaa ctgcgactat gacaaagact tatcagcaga cgtttgttac gggcaggggg 720

cagcagttcg tcataaattt gctgaagaaa tattatggga aggaggtttt gcaataa 777

<210> 11

<211> 1935

<212> DNA

<213> 未知的

<220>

<223> 分离自肠道, 未鉴定的

<400> 11

aatatccgat atggcaacgg agctctggta gtagtccggg caagggaaaa ccttgtacat 60

ggcgaagcag agcagattac cttcaatact aaaatattag aaaggtgcgt gaggcatttg 120

agaaatccga ttgaagtatt gaaaactcta caagagaaag caggcaacga gaactatcaa 180

tttgaacgcc tgtaccgaaa tctgtacaac gaggagtttt tcctattggc atacggaaat 240

ctctctgcaa aagagggaaa tctgaccaag ggaacagacg gcgccacaat agacggaatg 300

ggaatggagc ggattcgcaa gctgattgaa agcctgcgga accacagtta ccagccgtcc 360

cctgcgagac gtgcctatat cccaaaatct aatggaaaac ggcgtccgtt aggcataccc 420

tctgttgacg ataagctggt gcaggaagtt gtgaggttaa ttctcgaaag tgtgtatgaa 480

agcaattttt ctgaacattc gcatggtttt agaccgaaca ggagctgtca cacggcactg 540

acccagattc aaagaaactt cacaggggtt aaatggttca ttgaggggga catcaaaggt 600

tattttgaca ccatcgacca ccatatcctt gtggatattt taagaaggcg cataaaggac 660

gaatacctaa tctcgctgat atggaaattt ctgaaagccg gatacttaga agactggaaa 720

ttcaatccta cctattccgg cactccgcaa ggctcggtca tcagtccaat acttgccaat 780

atctacctta acgaattcga tacctatgtt gaagaataca tagagaaatt caaccgtggt 840

aaaagacgtg aaagaaacag tgagtatcgc ttttatagtg atggcgcatc gaaactgagg 900

gtaaagtacc gcgggttatg ggaaataatg acagccgatg aaaaagaaaa agccaaatgt 960

gaagtaaatg agctcatgaa aaaagcaaaa cagattccag ctatgaatcc gatggacagc 1020

aattaccgcc gtctgctcta ttgcaggtat gcggatgatt ttatttgcgg agtaatcgga 1080

agcaaggaag atgcagaaac catcaaggct gattttagcc ggtacctgaa agaaaagctg 1140

ggactggata tgtcggaaga aaagacactg attacacact caaacgaaaa agcggcgttc 1200

cttggctacg aaatcgctgt ttccagaagc aatgaataca aaaagataag caacggacag 1260

aaggcaagaa cctttaatgg gcgtgttcat ctatttatgc cacataataa atgggttaag 1320

aagctgacca gttgcggagc aatggaaatc aaacagcagg acggcaaaga aatatggaaa 1380

ccgcaggcga ggaaagacct catcaacaaa gagccgattg aaatcctaag catttacaat 1440

gccgaaattc gtgggctgta caattattat tgtttggcaa gcaacgtatg caagctgcag 1500

aaatattact acatcatgga atacagcatg taccagacgt ttgcagcgaa gtaccgtgat 1560

aatttgcgga aaacgattaa caagcatacc cgaaacggcg tgtttggtgt cagctacact 1620

acaaaaaccg gcaacgagaa acgggcgaca ttcgtgaaag gaagcttcca aaaacggact 1680

gtcagcttag attacagtga tgaaatcccc tcttatcctg ccgcaaaata tagtcggaaa 1740

aacggcttaa ttgagcggtt acagggtgga aaatgtgaac tatgcggaca gcagaccgac 1800

aatgtaaaag ttcatcatgt caggaagctg aaagaattag ccggtatgaa agaatgggaa 1860

agaaaaatgg ttcagatgaa cagaaaaact ctggttgttt gtaatacatg ttatggaaac 1920

ataacaggca agtaa 1935

<210> 12

<211> 750

<212> DNA

<213> 卵瘤胃球菌 ATCC 29174

<220>

<223> 分离自肠道, 卵瘤胃球菌 ATCC 29174

<400> 12

atgaaaggaa aaagagttat tgcaggcatt ctgcttgcag gaattttagc agttaccctg 60

gcagggtgta aaaacacaga taacactaaa gaagaatcag aaaagccggt tattaccctc 120

ggcagcgata gctatccacc atacaattat ctgaatgagg atggtgtacc gacgggcata 180

gatgtggaac tagctacaga agctttcaaa agaatgggat atcaggtgaa tgtcgtccaa 240

atcaactggg aggagaaaaa agaactggta gagagtggaa agatcgattg tatcatgggt 300

tgtttttcta tggaaggacg tcttgacgat taccgctggg caggggcgta catagcaagc 360

cgtcaggttg tagcggtaaa tgaggacagt gatatttata aattgagtga ccttgaggga 420

aagaacctgg ctgtccagtc cacaactaaa ccggaagtta tatttctgaa ccggttggat 480

aagagaatcc acaaactggg aaatctgatc agtcttggac accgcgagct gatatataca 540

tttcttggga aaggatatgt agatgcagtt gccgcacatg aggaatcaat catccagtat 600

atgaaggatt atgacataga cttccgtatc ctggaagaat cgctgatgat tacggggata 660

ggtgttgctt tcgcaaaaga tgatgacaga ggaattgtga gcagatggac cagacccttg 720

aagaaatgcg taaggatggc acgtctttga 750

<210> 13

<211> 930

<212> DNA

<213> 微小小单胞菌ATCC 33270

<220>

<223> 分离自肠道, 微小小单胞菌ATCC 33270

<400> 13

aatcaattta gaattggttt atcaagaatg gagagagttg ttagagaaag aatgtcaact 60

caagatccag accttgctac gcctcaagga cttattaata taagacctct tgttgcgtct 120

ttaaaagaat tcttcggttc ttcacaatta tcacaattca tggatcaaaa caatccactt 180

gcagaactta ctcataagag aagattatca gcattaggac ctggtggtct tagtagagat 240

agagcaggat acgaagtaag agacgttcat gaaagtcact acggaagaat ttgtccgata 300

gaaactccag aaggtccaaa catcggtctt attacttctc ttacaactta tgcaagagtt 360

gatcaatatg gatttattga aacaccatat cgtgttgtaa ataatggaat tgctacaaag 420

gacattgttt atttaactgc tgatgaagaa gatgaagtta ttatcgctca agccaatgaa 480

ccacttgatg aaaatggacg ttttgtaaac gaaagagtaa gtggtcgtgg tattaatggc 540

gaaaatgata tttatccaag agatacaatt caacttatgg acgtttctcc tcaacaaatt 600

gtatcagttg gtacagcaat gattcctttc cttgaaaatg acgatgctac tcgtgcgttg 660

atgggttcaa acatgcaaag acaagcagtg cctctacttg ttactgaagc tcctattgta 720

ggaaccggta tagaacataa agcggcaaga gatagtggtg ttgttatcat tgctaaaaat 780

tcaggaattg ttacaaaagt tgatagtgat gaaattcata ttaaaagaga tttagataat 840

gtagttgata aatatagatt acttaaattt aaacgttcaa atcaaggaac aacaattaat 900

caaagaccta tagttaatga aaatgacaga 930

<210> 14

<211> 858

<212> DNA

<213> 普氏栖粪杆菌KLE1255

<220>

<223> 分离自肠道, 普氏栖粪杆菌KLE1255

<400> 14

atctccaaac tggaaaaaac gctgcgggca cggttcccga aaacgcagca gggcgaactg 60

ctggccgggg cggtgctggc cttctgcctg ccggtgggca cctttctgct cacaagcgcc 120

gtgtgccttc tggcggcaaa aatcagcccc tggctcggcc ttgccgtgca gatgttctgg 180

tgcgggcagg cgctggcggc aaagggactt gtgcaggaga gccggaacgt ttacaacaag 240

ctggtaaagc ccgacctgcc cgccgcccgc aaggccgtga gccgcatcgt ggggcgggac 300

accgagaacc tgaccgccga gggcgtgacc aaggctgccg tggagactgt ggccgagaat 360

gccagcgacg gcgtgattgc gccgctgctg tacatgctgc tgggcggcgc gccgctggcg 420

ctgacctaca aggccgtcaa caccatggac agcatggtgg gctacaaaaa cgagacctat 480

ctctacttcg gccgggcggc ggcaaagctg gacgatatgg caaactacat tcccagccgc 540

cttgccgccc tgctgtgggc ggcggctgct gccctgaccg gcaacgatgc caaaggcgcg 600

tggcgcatct ggcggcggga ccggcgcaat cacgccagcc ccaacagcgc ccagaccgaa 660

agcgcctgcg ccggtgcgct gggcgtgcag ctggccgggc cggcctacta ctttggcgaa 720

tactacccga aacccaccat cggcgatgcc ctgcgcccca ttgagccgca ggacatcctg 780

cgggccgacc gcatgatgta cgccgccagc attctggcgc tggtgctcgg gcttgtgata 840

cgggggttcg ttgtatga 858

<210> 15

<211> 1206

<212> DNA

<213> 未知的

<220>

<223> 分离自肠道, 未鉴定的

<400> 15

atgaggttat tttttgatat ggtatgtaac ggcagggcat tgcaaaatgt acaaatgtat 60

aaattgaata tggttttaga tgtacacccc tatgctatta cagcaccgtc aaaaactggt 120

ggccgttggc agacatatgt aaaggaaggt gataagcgta agattataag ggcttcttca 180

aaggaaaaac taatggacaa attatatact gcctattttg ttcaaaatgg tgtttctggt 240

atgaccatgg acaagctttt tctcgaatgg ttagcttata aggaatgtat cacaaatagt 300

atgaatacga ttcgcagaca tgaacaacac tggaaaaagt attttcagga tatttcccca 360

aataaggtat cttcctatga tcgtctggaa ttgcagaaag aatgtaatca gttaataaaa 420

gttaataacc tttcttccaa agaatggcag aatgtaaaaa caattctttt aggtatgttt 480

gactatgcct ttgaaaaagg atatattaat acaaacccca tgcccagtat taaaatcact 540

gttaaattcc gtcaggtcaa taaaaagagt ggtaggactg aaacatatca gacagacgaa 600

tacaaagcac ttatgcaata tctagatgca gaatatacag ctacagaaga ccttgcttta 660

ttggctgtta aatttgattt ttttattgga tgccgtgttg ctgagttggt agctctcaag 720

tggtgtgatg ttgaaaatct acggcattta catatttgta gggaagaggt taaagagtct 780

gtccgtgttg gtgatacctg gaaagatgtt tataccgttt cagagcatac taagacatat 840

acagaccggt ctataaattt agttcctaat gcgattgcta ttttaaatca tatccgtctt 900

aaaatggctt ataatgtatc tgacgatgat tatatcttta cccggaacgg ttcccggatc 960

acttcacgcc agattaatta tattcttgaa aaagcatgta caaaactggg aattatgatt 1020

aagaggtcgc ataaggtaag aaaaacggtt gcaagtcgtc tcaatgtcgg tgaggttccg 1080

ttagattcta ttcgtgagct gttaggtcat gcaaatttaa gcactacact aagttatatt 1140

tataatccgt tatcggaaaa agaaacctat aacctgatgt ccagagcctt ggggaaagtt 1200

caatag 1206

<210> 16

<211> 687

<212> DNA

<213> 具核梭杆菌文森亚种ATCC 49256

<220>

<223> 分离自肠道, 具核梭杆菌文森亚种ATCC 49256

<400> 16

tctgcaaaag aaaaagttgc tgcattagtt gctgcattaa aagcagatgg atatgatttt 60

actgttggta tccctcttga tacaccaata ggaaaatctg aaagagttgt aagtgctggt 120

aaagggattg gagataaaaa gaatatgaag ctaattgaaa acttagcaaa acaagctgga 180

gcttctattg gttcttctcg tccagtggca gaaacattgc aatatgtacc tcttgaccgt 240

tatgtaggaa tgtcaggaca aaaatttgtt ggaaaccttt atatagcttg tggaatttca 300

ggagctttac aacatttaaa aggaattaaa gatgcaacaa caatagttgc tataaataca 360

aactcaaatg ctccaatatt taagaatgca gactatggaa tagttggaga tttagcagaa 420

attttacctt tattaactaa ggaattagat aatggagaag ctaaaaaaga tgcaccacct 480

atgaagaaaa tgaagagagt tatacctaga gtagtgtata gtcctcatgt atatgtatgt 540

agtggttgtg gacatgaata caatcctgat ttaggagatg aagattctga cataaaacca 600

ggaactagat ttaaagattt accagaagat tggacttgtc ctgattgtgg agatccaaaa 660

tctggatata tagatgcaaa aaaataa 687

<210> 17

<211> 1401

<212> DNA

<213> 普氏栖粪杆菌M21/2

<220>

<223> 分离自肠道, 普氏栖粪杆菌M21/2

<400> 17

atgccgaacg aacgacatta ctccaatgaa ctgaatctgg aaagcgtggg catcaatctg 60

ccctacaaca tgcaggccga gcagagcgtg ctgggtgcgg tgctgctcaa gccggaaaca 120

ctgaccgacc tggttgagat catccggccg gaaatgttct acacccggca gaacgcccaa 180

atttattcgg aaatgctccg gctgttcacc agcgaccaga ccattgattt cgtcaccctg 240

ctggacgcgg tcatctcaga cggcgtgttt cccagcgcgg acgaggcgaa agtctacctg 300

accggtctgg ccgagacggt gcccagcatc tccaacgtga aagcctacgc ccagatcgtg 360

caggaaaaat atctggtccg ccagctcatg ggtgtggcga aagatatctt gcaggatgcg 420

ggcgacgagc cggacgcgga cctgctgctg gaaaacgccg agcagcgcat ttatgagatc 480

cgctccgggc gggattccag cgccctgacg cccctttctt ccagcatggt ggaaacgctg 540

accaatctgc agaagatcag cggcccggat gccgataagt acaagggcat ccctacaggc 600

ttccgcctgc tggacaccgt gctcaccggc cttggccgcg gcgaccttat tattctggct 660

gcccgccccg gtatgggcaa gaccagtttt gcgctgaaca ttgccacccg cgtggccatg 720

cagcagaaag taccggtggc catcttcagc ctcgaaatga ccaaggagca gctgaccaac 780

cggatcctct cggcggaggc cggcatcgac agccaggcgt tccgcaccgg cgccctccgg 840

gcggaggact gggagtacct ggcccttgcc accgagaagc tccatgacgc gcccatttat 900

atggatgaca cctcgggcat caccatcacc gagatgaaag ccaagatccg ccgggtgaac 960

caggacccca gccgccccaa tgtggggctc atcgtcatcg actatctgca gctgatgacc 1020

acgggccagc gcaccgagaa ccgtgtacag gagatcagct ccatcacccg aaacctcaag 1080

atcatggcca aagagatgaa tgtgcccatc attgcgctga gccagctgtc ccgtgcggtg 1140

gaaaagcagg gcaacaactc ctcccaccgc ccccagctgt ccgacctgcg tgattccggt 1200

tccatcgagc aggacgccga ctgcgtgctg ttcctctacc gtgattctta ttacgccagc 1260

cagaacccgg acggtgccga ggtggacgcc gacacggccg agtgcatcgt ggccaaaaac 1320

cgccacggtg agaccagtac cgtgccgctg ggctgggatg gtgcccacac ccgctttatg 1380

gatgtggact tcaaacgctg a 1401

<210> 18

<211> 504

<212> DNA

<213> 共生梭菌WAL-14163

<220>

<223> 分离自肠道, 共生梭菌WAL-14163

<400> 18

atggttgcac ttgtatggct actgattgaa atgaaatata aaatcagtgt cccatctcca 60

ctgttgctca gcatggttta caaacttttg cttccggcta tgcctgccta tcttctggct 120

aaaatcccct ctgggaaatt aacggccagc ttgagaagaa tgccgatttc tacccatatc 180

atgcttgtat tgatcgtcat gctccgcttt gcgccgactg tgctgcatga atttggagaa 240

gtcagggaag ccatgaaaat tcgtggcttc ttaaaatcgg tcggtaatgt tttgaggcat 300

ccaatggaca cgttggaata cgccattgtt ccgatggtgt tccgctcctt aaagatcgcg 360

gacgagttag cagcttctgc catagtcagg ggaattgaaa gcccctacaa gaaagaaagc 420

tactatgtca gccggatcgc tgcgctggat tactttttga ttgttgtcag cgtgggagct 480

gccgtgtgct gctgtctttt atag 504

<210> 19

<211> 1305

<212> DNA

<213> 未知的

<220>

<223> 分离自肠道, 未鉴定的

<400> 19

atgttagcaa tcgtaggttt attaactatc ctggtcgtaa tgtttctgat tatgacaaaa 60

aaatgttcga ctctggtcgc actgattgca gttcccatga ttgcatgtgt tattgtgggt 120

cagggcgccg atatgggagg gtacataacg gccggtatca aaagtgtggc cgccaccgga 180

gtcatgttta tttttgcagt ggcctttttc ggtgtcatgg gtgatgtggg tgcatttgaa 240

atcgtagtga ataaaatact caggattatt gggaaagatc ctttgaaaat ctgtatcggc 300

acgctgatta tcacattgat gacccacctg gacggctccg gcgcaacgac atttttgatc 360

acaataccgg cgctgctgcc gatatacgat aaattgaaga tggatcggcg tgtgctggca 420

actatagtgg cggcaggagc aggaaccatg aatctcgtcc cttggggagg gccgacgatc 480

cgagcagcga cggcactgga ggtctcactg accgagcttt acaatcctat gattgtccct 540

cagctttgcg gagtcgccgc ctgcgtgaca gtggcggtga tgtttggcct gaaggaacgg 600

aaacgtttaa aagggactct ggaatctgtt tcggtagagc ctccgaaatt tgaggactta 660

ccggaggagg agagagtgaa acgccgtccc caccttgtct ggtttaacat tctgctcatt 720

atagttacaa ttgtgtcatt ggttatggag cttttgccgc cggccggctg ttttatggcg 780

gcgctgtgca tcgcaatgct ggttaactac cgtgatttaa aggatcaggg aaaacggatg 840

gacgagcatg cggtagcggc catgatgatg gcatccaccc tgtttggcgc aggctgcttt 900

accggtatcc tgggaggctg cggcatgctg gaagcgatgg cccagggact ctgtgatatt 960

ctcccggtag ccattatggg tcacattgcg attttggtgg cagttttctc catgcctctg 1020

tcgctgatgt tcgatccgga cagcttctac tatgcagtac ttccggtaat tgcagtggcg 1080

gccgaggtgg ccggtgttcc ggcattggca gtgggccgcg cggcgatatg cggacagatt 1140

actgttggat tccccatttc accactgact ccatccacct tccttctgac aggactaacg 1200

ggcgtggatc tcggggacca tcagaagcac agtttcgtgt ggctgtggct gatttccctg 1260

acgattgtgc tggttgccgt ggtgatgggc gtaattccgg tatag 1305

<210> 20

<211> 708

<212> DNA

<213> 凸腹真杆菌ATCC 27560

<220>

<223> 分离自肠道, 凸腹真杆菌ATCC 27560

<400> 20

gcagcttcaa actacgacct ttgtacaaca atccttagaa atgaatgggg atacgatggt 60

atcgtaatga ctgactggtg ggccaagatg aacgacgttg tagaaggtgg cgaagaatca 120

aatcaggata caagagatat ggttcgctca cagaacgacg tatatatggt tgtaaacaat 180

aacggcgcag aagttaactc aaacaacgac aacacagaga aatcaattaa agagggaaga 240

cttacaatcg gagaacttca gcgagctgca atcaacatct gcaacttcat tctttcagca 300

cctgttattg aaagagaatt agttgacaca gacgttgcaa aacattacga ttcagttcca 360

aatgatcagg ccaagtatga agtatttaac attgaaaaag acaataaggt aatgttcaat 420

agcggagcag aagcaacatt ggaagttgaa gacgaagggg aatacacaat tattgttaac 480

atctcatttg acaagtccaa cttatcacag tcaacagtaa acgttaatgc caacggcaca 540

acaatggtag taatccagac taatggaaca gacggcaact ggattacaca gaagctttgc 600

aaggttaaac ttgacaaggg tgtatacaac ttaaaacttg aagaagtatt agcaggaatc 660

aaagttaaat atattcagtt taagaagatt cctaagaaaa ataaataa 708

Claims

1.用于预测受试者中结直肠癌风险的基因标志物集，其中所述基因标志物集由SEQ IDNO：1至20所示的基因组成。

2.测定权利要求1的基因标志物集中的基因标志物的相对丰度的试剂用于制备用于预测受试者中结直肠癌风险的试剂盒的用途，所述预测通过以下步骤：

1)从受试者收集样品j并从样品中提取DNA；

2)确定基因标志物集中每个基因标志物的丰度信息；和

3)通过以下公式计算样品j的指数：

N是基因标志物集中所有结直肠癌富集标志物的子集，其由SEQ ID NO:1、9、18、13、11、16、19和5所示的标志物组成；

M是基因标志物集中所有对照富集标志物的子集，其由SEQ ID NO:7、8、17、14、15、3、10、20、4、2、12和6所示的标志物组成；

|N|＝8，|M|＝12；

3.用于预测受试者中结直肠癌风险的基因标志物集，其中所述基因标志物集由SEQ IDNO：1、9、13和16所示的基因组成。

4.测定权利要求3的基因标志物集中的基因标志物的相对丰度的试剂用于制备用于预测受试者中结直肠癌风险的试剂盒的用途，所述预测通过以下步骤：

1)从受试者收集样品j并从样品中提取DNA；

2)确定基因标志物集中每个基因标志物的丰度信息；和

3)通过以下公式计算样品j的指数：

N是基因标志物集中所有结直肠癌富集标志物的子集，其由SEQ ID NO：1、9、13和16所示的基因组成；

|N|＝4；

5.用于预测受试者中结直肠癌风险的基因标志物集，其中所述基因标志物集由SEQ IDNO：13和16所示的基因组成。

6.测定权利要求5的基因标志物集中的基因标志物的相对丰度的试剂用于制备用于预测受试者中结直肠癌风险的试剂盒的用途，所述预测通过以下步骤：

1)从受试者收集样品j并从样品中提取DNA；

2)确定基因标志物集中每个基因标志物的丰度信息；和

3)通过以下公式计算样品j的指数：

N是基因标志物集中所有结直肠癌富集标志物的子集，其由SEQ ID NO：13和16所示的基因组成；

|N|＝2；

7.权利要求2、4或6中任一项的用途，其中所述丰度信息是通过测序方法测定的所述基因标志物集中的每个基因标志物的基因相对丰度。

8.权利要求2、4或6中任一项的用途，其中所述丰度信息是通过qPCR方法测定的所述基因标志物集中的每个基因标志物的基因相对丰度。

9.根据权利要求2、4或6中任一项所述的用途，其中所述临界值通过ROC方法获得，其中所述临界值对应于AUC达到其最大值。