CN101801992A

CN101801992A - 大豆多态性与基因分型方法

Info

Publication number: CN101801992A
Application number: CN200880022605A
Authority: CN
Inventors: 吴坤生; J·莱德奥克斯; D·巴特鲁伊尔; A·格普塔; R·约翰森; S·伊汀顿; J·布尔; M·爱德华兹; P·麦克莱尔德
Original assignee: Monsanto Co
Current assignee: Monsanto Co
Priority date: 2007-05-31
Filing date: 2008-05-29
Publication date: 2010-08-11
Also published as: US9271455B2; BRPI0811271A2; EP2148885A4; WO2008153804A8; WO2008153804A3; WO2008153804A2; US20100275286A1; AR066785A1; EP2148885A2

Abstract

本发明提供用于至少两个大豆品种之间基因分型的多态性大豆DNA基因座。该基因座的序列可用于为设计用于检测大豆DNA多态性的引物和探针寡核苷酸提供基础。多态性可用于大豆中的基因分型应用。多态性标记可用于建立标记/性状关联，例如，在连锁不平衡作图和关联研究、定位克隆和转基因应用、标记辅助的育种和标记辅助的选择、杂种预测和血源一致性研究中。多态性标记也可用于DNA克隆文库的作图，例如，用于与多态性连锁的大豆QTLs和基因。

Description

大豆多态性与基因分型方法

相关技术

多态性可用作分子标记，也称为遗传标记，在农业领域中，例如，在植物遗传研究和商业育种中，用于与基因分型有关的应用。多态性的这些应用在美国专利5,385,835、5,437,697、5,385,835、5,492,547、5,746,023、5,962,764、5,981,832和6,100,030中有描述。

特别地，与只是基于表型数据所获得的结果相比，在育种程序中使用分子标记加速了有价值的性状在种质中的遗传积累。本文中，“种质”包括育种种质、育种群体、优良近交系的收集、随机交配个体的群体和双亲杂交。分子标记等位基因(“等位基因”是基因座处的替代序列)用于鉴定在多个基因座处包含所需的基因型并且预期向其后代转移所需的基因型以及需要的表型的植物。分子标记等位基因可以用于鉴定在一个标记基因座、几个基因座或单元型处包含所需的基因型并且预期向其后代转移所需的基因型以及所需的表型的植物。

DNA的高度保守性，与稳定的多态性罕见的出现率相结合，提供了既是可预测性的又可以辨别不同的基因型的分子标记。在现有的分子标记的种类中有多种指示遗传变异的多态性，包括限制性片段长度多态性(RFLP)、扩增片段长度多态性(AFLP)、简单序列重复(SSR)、单特征多态性(SFP)、单核苷酸多态性(SNP)和插入/缺失多态性(Indel)。

分子标记在稳定性和基因组丰度方面不同。SNP作为分子标记是特别有用的，因为它们比其它多态性更稳定，且在植物基因组是丰富的(Bi等人Crop Sci.46：12-21(2006)，Kornberg，DNA Replication，W.H.Freeman&Co.，San Francisco(1980))。因为植物物种的分子标记的数量是有限的，发现另外的分子标志对于基因分型应用来说是至关重要的，包括标记性状关联研究、基因作图、基因发现、标记辅助选择和标记辅助育种。用作分子标记的多态性的发现和鉴定需要大量的测序和生物信息学工作，需要对两个或更多的进化分支系或群体进行大规模的测序。

不断发展的技术使得某些分子标记更适合于快速、大规模地使用。具体地，如用于SNP检测的高通量筛选的技术表明，SNP是优选的分子标记。

发明概述

正是鉴于上述问题，发展了本发明。本发明提供了一系列用于大豆的分子标记。这些分子标记包括通过对大豆基因组DNA进行直接序列分析确定多态性而发现的大豆DNA基因座。这些分子标记可用于多种基因分型应用。本发明的多态性大豆基因座包括至少12个连续核苷酸，该核苷酸包括或邻近本文中确定的多态性，例如在表1或表3中确定的多态性。如表1所示，SEQ ID NO：1至SEQ ID NO：7800的核酸序列包括一种或多种多态性，例如，单核苷酸多态性(SNP)和插入/缺失多态性(Indel)。如表3所示，本文确定的某些多态性也已定位于某些大豆染色体上。

本发明首先提供核酸分子文库，其包括至少两组不同的核酸分子，其中，所述不同组核酸分子中的每一组允许对表1或表3中确定的相应的大豆基因组DNA多态性进行分型。在本发明此方面的某些实施方案中，文库包括两组或多组不同的核酸分子，它们排列在至少一个固体载体上或至少一个微量滴定板上。不同组的核酸分子可以位于微量滴定板的单独的和不同的孔中。不同组的核酸也可以位于固体载体上的不同的探询位置。

也涉及其中核酸分子组合在单一混合物中的文库。在本发明的其它实施方案中，文库可以包含至少8、至少24、至少96或至少384组不同的核酸分子，其中，每组核酸分子允许对表1或表3中确定的相应的大豆基因组DNA多态性进行分型。也涉及包含允许对表3中确定的大豆基因组DNA多态性进行分型的几组核酸分子的文库，所述多态性选自SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和1094。

文库中的不同组核酸分子可以包括至少12个连续核苷酸的核酸分子，所述核苷酸包括或直接邻近表1中确定的相应的多态性，并且其中至少12个连续核苷酸的序列与包括或直接邻近所述多态性的大豆DNA片段任一链中的相同数目核苷酸的序列至少90％相同。在其它实施方案中，核酸分子是至少15个连续核苷酸或至少18个连续核苷酸的核酸分子。核酸分子可以进一步包含可检测的标记或提供可检测的标记的掺入。这种可检测的标记可以选自同位素、荧光团、氧化剂、还原剂、核苷酸和半抗原。可检测的标记可以通过化学反应添加到核酸上，或通过酶促反应掺入。

不同组的核酸分子还可以包括：(a)一对寡核苷酸引物，其中，所述寡核苷酸引物中的每一个包含至少15个核苷酸碱基，并且允许PCR扩增包含表1或表3中确定的所述相应多态性之一的DNA片段，和(b)至少一种检测核酸分子，其允许检测(a)的所述扩增片段中的多态性。在这些不同组的核酸中，检测核酸包含至少12个核苷酸碱基，或者包含至少12个核苷酸碱基和可检测的标记，并且其中所述检测核酸分子的序列与包含所述多态性的权利要求1之基因座中的大豆DNA片段任一链中相同数目核苷酸的序列至少95％相同。

本发明还提供计算机可读介质，在其上记录有表1或表3中确定的至少两种大豆基因组DNA多态性。在其它实施方案中，至少8种表1或表3中确定的大豆基因组DNA多态性记录在计算机可读介质上。也提供在其上记录有表1和表3中确定的至少两种大豆基因组DNA多态性和所述大豆基因组DNA多态性中每一种的相应遗传图谱位置的计算机可读介质。在其它实施方案中，至少8种大豆基因组DNA多态性和相应的遗传图谱位置记录在计算机可读介质上。

本发明还提供用于读取、分类或分析大豆基因型数据的基于计算机的系统，该系统包括以下构件：(a)数据存储装置，包括计算机可读介质，其上记录有至少2种表1或表3中确定的大豆基因组DNA多态性；(b)搜索装置，用于将来自至少一种测试大豆植物的大豆基因组DNA序列与步骤(a)的数据存储装置的所述多态性序列进行比较，以鉴定同源或非同源序列；和(c)检索装置，用于鉴定步骤(b)的所述测试大豆基因组序列的所述同源或非同源序列。在其它实施方案中，至少96种表1或表3中确定的大豆基因组DNA多态性记录在基于计算机的系统的计算机可读介质上。在另外其它实施方案中，数据存储装置可以进一步包括计算机可读介质，其上记录有来自所述测试大豆植物中的至少一个的表型性状数据。数据存储装置还可以进一步包括计算机可读介质，其上记录有等位基因状态与亲本、后代或测试大豆植物的关联数据。还涉及基于计算机的系统，其中，多种表3中确定的定位的大豆基因组DNA多态性记录在计算机可读介质上，并且其中，计算机可读介质进一步包括所述定位的多态性中的每一种的遗传图谱位置数据。

也提供了用于检测表1和表3中确定的大豆基因组DNA中的多态性的分离的核酸分子。涉及用于检测分子标记的分离的核酸分子，该分子标记代表在表1或表3中确定的大豆DNA中的多态性，所述核酸分子包含至少15个核苷酸，所述核苷酸包括或直接邻近多态性，并且与包括或直接邻近所述多态性的DNA任一链中的相同数目连续核苷酸的序列至少90％相同。本发明的分离核酸可以进一步包含可检测的标记或提供可检测的标记的掺入。可检测的标记可以选自同位素、荧光团、氧化剂、还原剂、核苷酸和半抗原。可检测的标记可以通过化学反应添加到核酸上，或者通过酶促反应掺入。分离的核酸可以检测选自下组的表3中的多态性：SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和1094。

包括一种以上的分离核酸的其它分离寡核苷酸组合物可用于对表1或表3的大豆多态性进行分型。这样的分离寡核苷酸组合物可以用于通过

试验或瓣核酸内切酶(Flap Endonuclease)介导的

试验对SNP多态性进行分型。在一个实施方案中，分离核酸组合物是一组寡核苷酸，包括：(a.)一对寡核苷酸引物，其中，所述引物中的每一个包含至少12个连续核苷酸，并且其中，所述引物对允许PCR扩增包含表1或表3中确定的大豆基因组DNA多态性基因座的DNA片段；和(b)至少一种检测寡核苷酸，其允许检测所述扩增片段中的多态性，其中，所述检测寡核苷酸的序列与包括或直接邻近步骤(a)的所述多态性的大豆DNA片段任一链中相同数目连续核苷酸的序列至少95％相同。在这组寡核苷酸中，检测核酸包含至少12个核苷酸，并且提供可检测标记的掺入或进一步包含可检测的标记。可检测的标记可以选自同位素、荧光团、氧化剂、还原剂、核苷酸和半抗原。还提供了用于用瓣核酸内切酶介导的

试验对公开的多态性进行分型的分离多核苷酸组合物。这种用于瓣核酸内切酶介导的试验的组合物包含至少两种用于检测代表大豆DNA中的多态性的分子标记的分离核酸分子，其中，该组合物的第一核酸分子包括包含多态性核苷酸残基和至少8个直接邻近所述多态性核苷酸残基3′端的核苷酸的寡核苷酸，其中，该组合物的第二核酸分子包括包含多态性核苷酸残基和至少8个直接邻近所述多态性核苷酸残基5′端的核苷酸的寡核苷酸，并且其中，所述多态性在表1或表3中确定。

也提供了对大豆植物进行基因分型以选择用于育种的亲本植物、后代植物或测试植物的各种方法。在一个实施方案中，对大豆植物进行基因分型以选择用于育种的亲本植物、后代植物或测试植物的方法包括以下步骤：a.从至少一个大豆植物的组织获得DNA或RNA样品；b.对于来自步骤(a)的所述样品，确定表1或表3中确定的至少一种大豆基因组DNA多态性的等位基因状态；和c.利用步骤(b)的所述等位基因状态确定情况，来选择用于育种的亲本植物、后代植物或测试植物。可以进行这种基因分型方法，以对表3中确定的定位的多态性进行分型。在这种基因分型方法中，通过允许鉴定单核苷酸多态性的试验可以确定多态性的等位基因状态。这种方法中使用的单核苷酸多态性试验可以选自单碱基延伸(SBE)、等位基因特异性引物延伸测序(ASPE)、DNA测序、RNA测序、基于微阵列的分析、通用PCR、等位基因特异性延伸、杂交、质谱法、连接、延伸-连接和瓣核酸内切酶介导的试验。在这种方法的某些实施方案中，确定在表1或表3中确定的至少8、至少48、至少96或至少384种不同多态性的等位基因状态。

基因分型方法还可以进一步包括在计算机可读介质上存储所述一种或多种等位状态基因状态确定情况产生的基因型数据的步骤，和/或进一步包括比较一个大豆植物与另一个大豆植物的基因型数据的步骤。在包括这些其它步骤的方法的某些实施方案中，也可以比较至少一种所述大豆植物的基因型数据与表型性状数据或表型性状指数数据。在包括这些其它步骤的方法的某些实施方案中，也可以比较至少两种所述大豆植物的基因型数据与表型性状数据或表型性状指数数据，并确定所述基因型数据与所述表型性状数据之间的一种或多种关联。在其中确定所述表型性状数据或表型性状指数数据与所述基因型性状数据之间的关联的这些方法的其它实施方案中，基因型性状数据包括确定至少10种定位的表3中确定的多态性的等位基因状态。

也涉及培育大豆植物的方法。培育大豆植物的方法包括以下步骤：(a)对于至少两个大豆植物的育种群体，确定与至少两个最多10厘摩的基因组窗口中的至少两个单元型相关的至少一种性状的性状值；(b)在所述育种群体中，培育两个大豆植物，以产生后代种子群体；(c)在所述后代种子中，确定至少一种表1或表3中确定的多态性在每个所述窗口中的等位基因状态，以确定所述单元型的存在；和(d)在所述后代种子中选择对于至少一种与确定的单元型相关的性状而言具有较高性状值的后代种子，从而培育大豆植物。在这些育种方法的某些实施方案中，对与基本上每条染色体整体上的每个相邻基因组窗口中的至少两个单元型相关的至少一种性状，确定其性状值。这种性状值可以确定选自以下的性状：除草剂耐受性、抗病性、昆虫或虫害抗性、改变的脂肪酸、蛋白质或碳水化合物代谢、增加的谷物产量、增加的油、增加的营养成分含量、提高的生长速度、提高的应激耐受性、优选的成熟度、增强的感官特性、改变的形态特征、其它农艺学性状、用于工业应用的性状、或对消费者有提高的吸引力的性状、或作为多性状指数的性状组合。在这些育种方法的其它实施方案中，对于每条染色体中最多10厘摩的基因组窗口中的单元型，选择具有较高的产量性状值的后代种子。在性状值是产量性状值并且对每个窗口中的单元型的性状值进行排序的方法中，可以选择窗口中的产量性状值高于所述窗口中的平均产量性状值的后代种子。在该方法的其它实施方案中，单元型中的多态性在包括SEQ ID NO：1至SEQ ID NO：7800的全部DNA序列的DNA序列组中。

也提供了选择用于育种的亲本、后代或测试植物的方法。这些选择用于植物育种的亲本、后代或测试植物的方法包括以下步骤：a)在至少第一和第二大豆近交系中，确定表1或表3中确定的多种多态性与多种性状之间的关联；b)确定亲本、后代或测试植物中的一种或多种多态性的等位基因状态；c)选择具有更有利的相关性状组合的亲本、后代或测试植物。在某些实施方案中，亲本、后代或测试植物是大豆近交系。在亲本、后代或测试植物中选择的相关性状的有利组合可以是提供改进的杂种优势的亲本、后代或测试植物。

也提供提高杂种优势的方法。提高杂种优势的方法包括以下步骤：(a)在两个以上的大豆近交系中，确定表1或表3中确定的多种多态性与多种性状之间的关联；(b)将选自步骤(a)的近交系的两个近交系分配至杂种优势群；(c)在来自步骤(b)的至少两个近交系之间进行至少一次杂交，其中，每个近交系来自不同的和互补的杂种优势群，并且其中对于提高杂种优势的遗传特征，优化所述互补杂种优势群；和(d)通过步骤(c)的所述杂交获得杂种后代植物，其中，相对于与未经选择的近交系杂交产生的后代，所述杂种后代植物显示提高的杂种优势。

也提供了对大豆进行基因分型以选择用于育种的亲本植物、后代植物或测试植物的方法，其中，利用多组不同的核酸对定位于多个基因组基因座上的多种不同的多态性进行分型。这些对大豆植物进行基因分型以选择用于育种的亲本植物、后代植物或测试植物的方法包括以下步骤：(a)从至少一个大豆植物的组织获得DNA或RNA样品；(b)对于所述步骤(a)的样品，确定一组包含表1或表3中确定的至少两种多态性的大豆基因组DNA多态性的等位基因状态，其中，用一组提供对所述大豆基因组DNA多态性进行分型的核酸分子确定所述等位基因状态；和c.利用步骤(b)的所述等位基因状态确定情况，来选择用于育种的亲本植物、后代植物或测试植物。但是，本方法的其它实施方案提供确定至少5、至少10或至少20种在表1或表3中确定的多态性的等位基因状态。大豆基因组DNA多态性组可以包括至少2种选自以下的多态性：SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和SEQ ID NO：1094。大豆基因组DNA多态性组也可以包括至少2种选自以下的多态性：SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142和80。或者，大豆基因组DNA多态性组也可以包括选自至少2种以下的多态性：SEQ ID NO：3122、2914、3984、3608和1448。在一个实施方案中，大豆基因组多态性组包括多态性SEQ ID NO：3122和SEQ ID NO：2914。在这种方法中，大豆基因组DNA多态性组可以与对产量、倒伏、成熟度、株高、耐旱性和冷发芽中的至少一种确定的性状值相关联。特别涉及其中大豆基因组DNA多态性组与产量性状值相关联的基因分型方法。在一个实施方案中，与性状值相关的多态性选自SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和SEQ ID NO：1094。选自SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和SEQ ID NO：1094的多态性与产量性状值相关。

也提供了对大豆植物进行基因分型以选择用于育种的亲本植物、后代植物或测试植物的方法，其中，利用多组不同的核酸对定位于大豆基因组上分布的多个基因组基因座上的多种不同的多态性进行分型。在这些方法中，一组至少20种大豆基因组DNA多态性鉴定分布于大豆基因组中的多态性。在这种方法的某些实施方案中，对其进行分型的至少20种大豆基因组DNA多态性的组鉴定分布于大豆的一条染色体或分布于大豆的至少两条染色体中的多态性。在这种方法的其它实施方案中，至少20种大豆基因组DNA多态性的组鉴定分布于大豆的全部染色体中的多态性。当20种大豆基因组DNA多态性分布于大豆的全部染色体中时，它们可以分布为使得这组中的至少1种所述多态性定位于每条染色体上，从而使得所述组中的至少1种所述多态性定位于每条染色体上。但是，该方法也可以采用更多的多态性，使得该组中的至少10种大豆基因组DNA多态性定位于每条染色体上。在其它实施方案中，该组中至少20种或至少50种大豆基因组DNA多态性定位于每条染色体上。在该方法的某些实施方案中，至少一种多态性定位于染色体1上，且可以选自SEQ ID NO：4093、3168、1993、4808、5176、3705、2968、6401、7154、7741、177、4251、584、4672、4078、3248、2471、1728、4140、4169、4258、1466、5899、4203、3624、6068、6303、6309、3363、6057、2579、6431、2744、3018、6670、3133、4591、4656、3127、4306、2161、6021、3623、6504、1612、516、4296、2702、4124、1076、967、3885、800、2153、5915、7766、6672、5391、2645、382、1550、5564、1763、566、1722、3327、3724、6359、1499、6680、1147、345、1832、608、7548、4553、5482、7055、2157、3270、6896、7347、1502、1765、4173、6150、5085、2607、6686、448、2355、2639、4850和1897。

在该方法的其它实施方案中，定位于染色体2上的至少一种多态性选自SEQ ID NO：2484、3849、6346、6230、336、2253、4062、5763、6118、1450、4299、4268、7480、7774、3664、261、4018、2265、5833、933、7547、1519、3271、4754、7691、1349、5587、6852、6500、7429、4261、3359、6845、1560、4977、1626、4440、2019、2164、690、2491、3242、5314、7053、3747、6728、389、3986、1485、1988、5472、6494、4023、221、5566、4602、6519、2042、1181、2514、3199、1462、904、7515、329、1377、6130和2194。

在该方法的其它实施方案中，定位于染色体3上的至少一种多态性选自SEQ ID NO：2222、1105、4825、1773、5419、3275、3562、4148、6154、3488、3349、7710、3721、4423、1313、3801、3103、4222、2910、2504、3730、3834、6625、355、5025、4164、2260、6368、2022、3567、2957、3362、359、6180、2070、5380、917、6320、5213、1186、1616、6539、7191、5055、7378、1269、7380、1986、2274、5838、6098、3758、1280、6022、6977、6783、3060、6560、5330、1630、2966、2166、5858、7297、2650、6467、1075和6910。

在该方法的其它实施方案中，定位于染色体4上的至少一种多态性选自SEQ ID NO：5919、631、6047、6592、283、6474、4015、1740、3995、3756、5255、2341、2933、292、3984、5538、3157、6439、368、1082、7360、2108、2629、362、4489、4980、5522、463、163、5923、6020、1995、6388、1151、3463、5658、443、5236、2637、3238、1950、2824、3674、5762、3210、7511、2842、2319、4531、2883、2225、4816、892、7386、4509、5846、823、3797、3024、3746、7637、4171、4257、2622、6249、950、4156、3339、3717、976、1161、5885、1099、1533、1827、4787、360和4221。

在该方法的其它实施方案中，定位于染色体5上的至少一种多态性选自SEQ ID NO：5225、5448、6261、1464、753、5766、6067、4519、4809、6745、6451、3594、7734、2884、4032、88、5977、1880、4394、517、1611、2963、1582、7292、7181、4255、2659、3217、2736、2638、2437、2912、1197、6684、2810、5175、7009、1623、6510、4346、6239、2320、3905、5458、4072、4318、6367、4001、2079、1319、3691、6632、3315、3391、4117、6191、5002、1223、1261、4146、2417、3963、1090、6295、6793、2878、5198、3512、2407、3533、1448、7152、69、3539、5172、5468、5602、3273、3692、6691、6121、2743、4289、4044、1837、486、1465、2050、4125、5105、3481、4281、1257、2307、739、5372、1513、4652、7200、1589、2188、1951、2292、6241、6516、4185、202、1748、4580、1183、5642、6955、4986、6848、98、2099、7112、3402、3530、5384、3827、1420、311、817和5169。

在该方法的其它实施方案中，定位于染色体6上的至少一种多态性选自SEQ ID NO：1920、2270、2334、811、3328、5137、1590、1286、1918、5009、5108、4798、2032、2186、2803、5141、2954、805、750、1037、7529、1310、5854、771、244、2733、5634、6488、4812、5101、7767、7206、7539、6432、4861、3470、3454、3653、6314、1427、4232、4100、4757、278、1969、4604、1813、4436、5239、7454、4998、2325、6203、4077、1829、4069、6655、2657、3593、7455、6、10、199、6264、4050、6189、7383、2123、5288、5305、89、149、6194、4849、1963、3839、5573、1493、824、3645、704、1404、980、7371、3709、5459、6413、3784、1309、5882、1379、3547、3903、1646、973、2176、2515、2762、900、1027、3872、5916、6311、3180、7535、4696、7492、514、4360、860、1917、3392和3433。

在该方法的其它实施方案中，定位于染色体7上的至少一种多态性选自SEQ ID NO：7333、7600、481、4994、2982、1106、7136、4949、1998、5755、2429、3471、2155、4852、5661、7516、5406、5539、5266、5320、4418、3619、172、4614、780、5951、1410、4348、5572、5708、6304、4215、912、6548、1883、469、4202、1996、602、5656、144、2221、79、7271、6351、3879、504、2731、1191、2377、2333、3040、3023、255、1258、2858、5021、4500、2761、5737、7012、2445、873、6300、332、2241、1509、592、1571、4076、6360、6398、2569、154、5723、3389、161、153、398、1558、3056、3714、3775、6023、1542、2741、6746、7785、5509、1312、3941、7247、6148、1625、4210、7192、3929、2886和4944。

在该方法的其它实施方案中，定位于染色体8上的至少一种多态性选自SEQ ID NO：3125、4896、5102、2536、1028、1642、5457、2386、5357、4147、6035、2644、3013、6491、4142、5787、1819、7259、4128、612、215、6681、2786、6766、6483、5795、2734、4727、115、654、1551、1038、1414、2353、2330、47、1816、1231、2915、2143、972、2698、4029、4597、1575、5161、2466、3358、2173、5192、832、2354、2008、6639、6110、3410、5729、6995、2214、585、7509、1878、4822、1237、3813、3829、5555、3962、840、6215、4705、1884、218、809、7033、2282、5929、168、6006、429、2509、424、7408、3817、3002、3259、7134、1069、6428、2990、7180、3497、5792、1706、6032、3432、3431和4823。

在该方法的其它实施方案中，定位于染色体9上的至少一种多态性选自SEQ ID NO：6190、174、2779、5185、5698、6454、2531、50、5080、4964、2739、4668、2588、849、7087、3975、3977、6717、7375、2804、4448、2525、1546、1834、6863、4971、1129、6095、6287、5961、6931、6935、3461、2424、2409、1972、2974、1906、553、661、792、4842、5817、150、4492、2231、2956、4231、2851、4160、1598、3767、6721、6370、7316、3787、3156、1033、2821、6980、3656、3269、4797、6269、4275、7185、6034、4538、7096、3377、3409、1620、487、6615、4941、7419、6685、7504、6281、6734、4847、7127、4663、1520、1905、3129、1296、4014、2312、4935、1239、3151、5149、6908、5431、3161和6589。

在该方法的其它实施方案中，定位于染色体10上的至少一种多态性选自SEQ ID NO：2434、2678、920、6861、6464、6950、1786、1567、2899、5920、3251、3049、1112、6008、7346、611、3203、1992、6335、587、3093、459、909、4437、2506、4920、4786、6518、6927、4751、1138、3263、3311、4226、3719、3865、4948、2894、6174、6659、3371、3089、5513、4646、4381、2055、2217、2939、2717、5744、3262、7681、7411、5215、7761、2713、2061、4298、6244、1149、4046、4701、5243、4784、3140、7173、407、4081、6478、509、1389、3590、2508、835、7224、1785、1757、3464、6202、6700、4857、3167、5146、7615、7790和5439。

在该方法的其它实施方案中，定位于染色体11上的至少一种多态性选自SEQ ID NO：1531、4150、4186、5997、6107、5692、1032、6449、1432、12、600、1067、353、5549、3757、2136、7341、5727、3491、55、449、6936、5191、538、3372、3694、5665、5754、3755、7295、3572、2237、7794、1624、2800、3876、337、7203、4953、300、1326、5480、4024、3898、507、3939、6045、5364、4039、3820、53、7315、7340、1172、2530、6395、4821、6009、2843、3037、5297、4562、4096、3828、2533、6658和7084。

在该方法的其它实施方案中，定位于染色体12上的至少一种多态性选自SEQ ID NO：4218、4178、4434、5076、1436、216、7176、4295、7085、5299、3663、2121、1329、5659、3420、2057、4011、1085、3255、3062、6668、2559、852、3809、135、5694、182、4127、2944、6902、206、4287、4569、2610、2699、2685、3738、7293、5709、2697、7155、1351、5531、3733、5663、6001、7470、7486、1196、4405、755、5608、7092、2281、2608、6358、6787、6005、70、2680、14、5154、5639、4600、7195、6688、3780、3892、4428、6120、5415、322、1820和326。

在该方法的其它实施方案中，定位于染色体13上的至少一种多态性选自SEQ ID NO：2647、7207、1605、2888、6147、1956、3979、4715、7262、5461、3524、948、6557、5346、6342、5847、73、1268、4278、4385、4259、4968、1898、7731、3710、5434、5508、1944、7448、5031、7614、6568、583、7246、762、3390、6069、5142、269、1203、1591、1946、1442、126、1925、3696、4198、370、1169、1780、5336、1142、2489、5443、5626、7153、1363、1476、3183、893、7526、5826、3920、3114、7321、7339、493、1059、4745、5515、6339、3011、4796、6622、4175、4240、2801、267、2565、3522、6169、1079、4802、885、910、2970、5745、2980、7472、5491、598、2494、5561、6750、6198、7184、86、2695、721、773、508、7487、879、3030、3408、348、7559、1463、991、7253、184、2877、72、4315、5033、2327、7304、107、3659、2413、6073、3110、7072、4552、5976、4441、6475、2519、3174、4576、6716、3333、5619、6458、123、1396和4130。

在该方法的其它实施方案中，定位于染色体14上的至少一种多态性选自SEQ ID NO：2240、2749、1847、2950、5924、6509、1246、4790、5893、5855、4608、2485、5127、1599、4990、2790、4615、6767、7714、7659、543、1267、2560、6858、350、3187、3330、6588、1684、395、6081、6809、726、297、1071、1749、6730、1811、2724、3435、4993、5074、3436、6792、2297、489、4535、3897、3608、908、1835、4249、4685、5895、1855、4、8、5059、7105、4269、7556、3101、1525、3367、6143、6084和5147。

在该方法的其它实施方案中，定位于染色体15上的至少一种多态性选自SEQ ID NO：868、7416、3126、3298、5695、3227、1182、4568、1697、2703、6786、80、7387、4742、3597、6593、6197、6666、1093、2708、3844、7066、3574、944、4560、1730、5743、2020、601、3646、5610、795、1566、3919、5666、7049、7690、6421、7349、3355、1431、51、2021、3303、3144、1094、5277、3800、120、139、2864、6899、4659、6983、7056、2920、201、1087、5056、446、6077、4507、4276、712、441、2718、4153、2385、3117、7723、5908、3123、3016、4262、1999、2601、2555、1324、5257、6830、3459、4293、4458、6673、4277和3184。

在该方法的其它实施方案中，定位于染色体16上的至少一种多态性选自SEQ ID NO：6550、826、1298、2636、7555、7284、7278、2051、2860、723、7324、1205、3200、1581、2403、5094、3039、5261、4426、4703、3906、25、4598、1282、5802、6687、1885、4570、3917、3185、4115、5957、6268、250、1225、3393、1644、3846、4380、1708、650、1260、3348、3606、5011、7641、5436、4392、5836、7661、452、7015、4522、1498、1473、929、4040、6294、2777、2387、1675、1361、3034、1482、3193、7330、3283、7450、1515、5254、4074、3218、622、6055、808、916、2367、6489、6591、4245、253、7572、2029、5462和5421。

在该方法的其它实施方案中，定位于染色体17上的至少一种多态性选自SEQ ID NO：1394、2246、2662、3716、2458、4814、1863、2289、5952、2905、4952、396、7078、4188、5442、4163、4871、317、5321、6094、7656、4831、3、5985、3261、273、4005、1511、6172、7394、4463、1158、1354、1769、2118、2191、3076、4880、5015、5881、6391、7400、720、1100、915、7051、118、4135、7109、2914、2975、3249、3352、1288、1405、5637、7290、5914、7631、3669、2001、3899、1761、5677、5680、992、3806、4158、3540、2675、3122、7301、7303、7797、6959、7343、1359、6165、1018、6562、2881、4303、6537、416、5424、249、3864、955、2859、1900、6653、841、7129、542、2400、5664、4965、638、7327和3368。

在该方法的其它实施方案中，定位于染色体18上的至少一种多态性选自SEQ ID NO：2595、2802、3882、1872、7029、1141、7208、6619、6803、7175、7183、3928、5774、5890、7228、6046、2523、3350、2535、7244、3519、7099、259、6981、1561、2052、3163、1226、3228、6541、4667、425、6052、5742、2623、7167、1425、3059、888、6301、365、502、4355、3991、2958、5167、2299、7131、7613、7257、6748、2856、4384、550、1658、4216、7665、3356、6389、4386、414、3149、1572、7361、7279、7296、205、3947、162、3508和734。

在该方法的其它实施方案中，定位于染色体19上的至少一种多态性选自SEQ ID NO：3545、1664、6958、3499、7622、2562、3361、191、2084、1472、1140、5208、3690、7735、6455、3830、7323、848、2890、5913、1413、2953、2017、1335、7226、3722、1887、3398、313、1136、7064、7490、4182、4133、1933、3788、1340、2025、4378、3625、2456、3650、1484、7232、4179、4236、5401、7094、7635、6850、7471、6507、6514、4710、4497、1369、4327、2846、5685、197、1146、2189、7017、1378、4792、1047、1397、5939、2291、4151、613、488、7080、5481、1017、1529、2012、5832、2132、2976、3910、2538、5416、2380、6138、4872、2065、1628、7157、6481、3299、6242和4960。

在该方法的其它实施方案中，定位于染色体20上的至少一种多态性选自SEQ ID NO：3967、845、3229、5398、2348、3671、3592、5747、5987、3742、1164、6754、1364、6380、3785、6667、4242、175、1979、116、3950、166、3026、3859、3682、1784、3869、1062、3837、499、7023、539、6232、192、4057、1922、2371、5361、1219、5786、7190、3208、1544、3321、3306、2104、4490、6026、2149、4730、4746、4105、1991、3058、2895、5331、6581、2651、4954、4273、4045、1297、231、1044、1249、1908、1128、2516、6135、3414、6709、6708、1725、7196、3266、1202、1576、6290、7201和3665。

下面参考附图，详述了本发明的进一步的特征和优点，以及本发明的各个实施方案的结构和操作。

附图简述

并入并构成说明书一部分的附图，说明了本发明的实施方案，并与说明书一起，用来解释本发明的原理。在附图中：

图1A和图1B是显示定位的本发明多态性的密度的大豆遗传图谱。

图2是说明基因分型试验结果的等位图(allelogram)。

定义：

如下定义本文使用的一些术语和短语。

“等位基因”指特定的基因座处的替代序列；等位基因的长度可以小到1个核苷酸碱基，但通常较大。等位基因序列可以是氨基酸序列或核酸序列。“基因座”是一种短序列，其通常是独特的，且通常在参照点附近在基因组中的一个特定位置处被发现；例如，作为基因或基因部分或基因间区域的短DNA序列。本发明的基因座可以是在基因组上特定位置处的独特PCR产物。本发明的基因座包含一种或多种多态性；即，在一些个体中存在的替代的等位基因。

“等位基因状态”指存在于包含基因组多态性的核酸分子中的核酸序列。例如，包含单核苷酸多态性的DNA分子的核酸序列可以在多态性位置处包括A、C、G或T残基，使得通过该多态性位置处存在哪个残基来定义等位基因状态。例如，包含单核苷酸多态性的RNA分子的核酸序列可以在多态性位置处包括A、C、G或U残基，使得通过该多态性位置处存在哪个残基来定义等位基因状态。同样地，包含Indel的核酸分子的核酸序列可以在多态性位置处包括核酸序列的插入或缺失，使得通过在该多态性位置处是否存在插入或缺失来定义等位基因状态。

“关联”，在用于多态性和表型性状或性状指数时，指在多态性基因座的给定等位基因的存在与表型性状或性状指数值之间的任何统计显著性的相关，其中，该值可以是定性的或定量的。

“不同组的核酸分子”指一个或多个与包括、直接邻近或在给定大豆基因组多态性的5′或3′端的大约1000个碱基对之内的DNA序列杂交的核酸分子。在某些实施方案中，不同组的核酸分子包括一个核酸序列，该核酸序列包括或直接邻近于给定的多态性。在其它实施方案中，不同组的核酸分子包括一个或多个包括或直接邻近于多态性的核酸序列，以及在多态性的5′或3′端的大约1000个碱基对之内的其它核酸序列。

“基因型”指在个体生物内在一个或多个基因座处的等位基因组合。在二倍体生物的情况下，在每个基因座处有两个等位基因；当等位基因相同时，二倍体基因被称为是纯合的，而当等位基因不同时，二倍体基因被称为是杂合的。

“单元型”指往往是作为单元遗传的基因组DNA的等位基因片段；这种单元型可以用一个或多个多态性分子标记来表征，且可以限定为不大于10厘摩的大小。通过用更高的多态性密度提供更高的精度，单元型可以用基因组窗口来表征，例如，在1-5厘摩的范围内。

短语“直接邻近”，当用来描述与包含多态性的DNA杂交的核酸分子时，指与直接邻接多态性核苷酸碱基位置的DNA序列杂交的核酸。例如，可用于单碱基延伸试验的核酸分子与多态性“直接邻近”。

“探询位置”是指固体载体上的物理位置，可以对其进行查询以获取一个或多个预定的基因组多态性的基因分型数据。

“共有序列”是指构建的DNA序列，其确定基因座处等位基因的SNP和Indel多态性。共有序列可以基于基因座处DNA的任一链，并且表示基因座中的每个SNP的任一个的核苷酸碱基及基因座中的所有Indel的核苷酸碱基。因此，虽然共有序列可能不是一个实际的DNA序列的拷贝，但共有序列可用于精确设计用于基因座中的实际多态性的引物和探针。

“表型”指作为基因表达的表现的细胞或生物体的可检测的特征。

“表型性状指数”指至少两个表型性状的复合值，其中可以给每个表型性状赋予权重，以反映对选择而言的相对重要性。

本文中所用的“标记”或“分子标记”，是显示同一物种的两个或多个植物之间的多态性的DNA序列(例如，基因或基因的部分)，其可以通过简单的试验鉴定或分型。有用的多态性包括单核苷酸多态性(SNP)、DNA序列中的插入或缺失(Indel)、单特征多态性(SFP)和DNA序列的简单序列重复(SSR)。

“标记试验”指使用特定方法检测特定基因座处的多态性的方法。检测多态性的方法包括但不限于：限制性片段长度多态性(RFLP)、单碱基延伸、电泳、序列比对、等位基因特异性寡核苷酸杂交(ASO)、RAPD、等位基因特异性引物延伸测序(ASPE)、DNA测序、RNA测序、基于微阵列的分析、通用PCR、等位基因特异性延伸、杂交、质谱法、连接、延伸-连接、核酸内切酶介导的染料释放试验和瓣核酸内切酶介导的试验。美国专利6,013,431公开了示例性的单碱基延伸试验。美国专利5,538,848公开了示例性的用于确定SNP的等位基因状态的核酸内切酶介导的染料释放试验，其中，核酸内切酶活性从杂交探针上释放报告染料。

“连锁”是指杂交产生配子类型的相对频率。例如，如果基因座A具有基因“A”或“a”，基因座B具有基因“B”或“b”，具有AABB的亲本I与具有aabb的亲本B之间的杂交将产生4种可能的配子，其中基因分离为AB、Ab、aB和ab。空预期是会独立相等地分离成4个可能的基因型中的每一个，即，如果没有连锁，每个基因型将会有1/4的配子。配子向基因型的分离不同于1/4是由于连锁。

“连锁不平衡”定义为在一代的许多个体的群体中配子类型的相对频率。如果等位基因A的频率是p，a是p′，B是q，b是q′，那么基因型AB的预期频率(没有连锁不平衡)是pq，Ab是pq’，aB是p’q，ab是p’q’。相对于预期频率的任何偏差被称为连锁不平衡。当两个基因座处于连锁不平衡时，它们被称为是“遗传连锁的”。

“数量性状基因座(QTL)”指在一定程度上控制通常连续分布的并且可定量表示的性状的基因座。

如本文所用，“序列同一性”指两个最佳比对的多核苷酸或肽序列在例如核苷酸或氨基酸的元件的整个比对窗口中不变的程度。测试序列和参考序列的比对区段的“同一性分数”是两个比对序列共有的相同元件数目除以参考序列区段中的元件总数，即整个参考序列或参考序列的较小的确定部分。“同一性百分比”是同一性分数乘以100。

如本文所用，“分型”(“typing”)指确定给定的大豆基因组多态性的特定等位基因形式的任何方法。例如，通过确定存在哪种核苷酸(即，A、G、T或C)，对单核苷酸多态性(SNP)进行分型。通过确定是否存在Indel来确定插入/缺失(Indel)。通过包括但不限于标记分析的多种试验可以对Indel分型。

优选实施方案详述

下面的详细说明涉及用于大豆植物基因分型的分离的核酸组合物及相关方法。一般来说，这些组合物和方法可用于对大豆属的大豆植物进行基因分型。更具体地说，使用这些组合物和方法可以对大豆(Glycine max)种和亚种Glycine max L.ssp.Max或Glycine max ssp.formosana的大豆植物进行基因分型。在另外的一方面，大豆植物来自野大豆(Glycine soja)种，也被称为野生大豆，可以使用这些组合物和方法对其进行基因分型。或者，可以使用本文提供的组合物和方法对来自大豆、Glycine max L ssp.Max、Glycine max ssp.Formosana和/或野大豆中任一种的大豆种质进行基因分型。

分离的核酸分子-基因座、引物和探针

本发明的大豆基因座包括一系列分子标记，其包括至少20个连续核苷酸，并包括或邻近于表1或表3中确定的一种或多种多态性。这些大豆基因座的核酸序列与包括或邻近多态性的大豆DNA片段任一链中相同核苷酸数的序列有至少90％的序列同一性，更优选至少95％，或甚至更优选对于某些等位基因至少为98％，在许多情况下至少为99％的序列同一性。可以在SEQ ID NO：1至SEQ ID NO：7800的序列中找到这样的大豆DNA片段的一条链的核苷酸序列。根据多态性的性质可以理解，对于至少某些等位基因，与公开的多态性本身没有同一性。因此，对于除公开的多态性序列外的序列，可以确定序列同一性。换句话说，预计对于本文公开的多态性的其它等位基因可能存在，可以容易地通过测序方法表征，且可以用于基因分型。例如，本领域的技术人员可以理解，对于其中仅仅公开了两个多态性残基(例如，“A”或“G”)的单核苷酸多态性也可以包括其它多态性残基(例如，“T”和/或“G”)。

每个基因座中的多态性更具体地在表1或表3中确定。SNP特别可以用作遗传标记，因为它们比其它种类的多态性更稳定，且在大豆基因组中是丰富的。SNP可以由插入、缺失和点突变产生。在本发明中，SNP可以代表一个可能由一个或多个碱基对组成的插入与缺失(indel)事件，或单核苷酸多态性。两个或多个个体共有的多态性可能产生于源自共同祖先的个体。这种“来源同一性”(IBD)表征由两个或多个个体携带且全部来自同一祖先的两个DNA基因座/片段。“状态同一性”(IBS)表征由两个或多个个体携带并且在那些基因座处具有可检测到的相同等位基因的两个DNA基因座/片段。当考虑一大组作物系，并且多个系在标记基因座处具有相同的等位基因时，有必要确定标记基因座处的IBS是否是标记基因座周围的染色体区域处的IBD的可靠预测。一个片段中的大量标记基因座足以表征该片段的IBD的一个指示是，它们能够预测该片段内其它标记基因座处存在的等位基因。除了它们很少独立出现这一事实外，SNP的稳定性和丰富性使它们可以用于确定IBD。

对于许多基因分型应用，采用来自一个以上的基因座的多态性作为标记是有用的。因此，本发明的一方面提供了核酸分子的集合，其允许对不同基因座的多态性进行分型。在这样的集合中的基因座的数目可以不同，但将是有限的数值，例如，少至2或5或10或25个基因座或更多，例如最多达40或75或100个或更多的基因座。

本发明的另一方面提供能够与本发明的多态性大豆基因座杂交的分离的核酸分子。在本发明的某些实施方案中，例如，提供PCR引物的实施方案中，这样的分子包括至少15个核苷酸碱基。可用作引物的分子可以在高严格条件下与本发明的多态性基因座中的DNA片段的一条链杂交。用于扩增DNA的引物成对提供，即正向引物和反向引物。一条引物与基因座中的DNA的一条链互补，而另一条引物与基因座中的DNA的另一条链互补，即引物序列与一条链中相同核苷酸数目的序列优选地至少90％相同，更优选地至少95％相同。可以理解，这样的引物可以与远离多态性(例如，距多态性至少5、10、20、50、100、200、500或最多大约1000个核苷酸碱基)的基因座中的序列杂交。本发明的引物的设计取决于本领域内熟知的因素，例如，避免或重复序列。

本发明的分离的核酸分子的另一方面是用于多态性试验的杂交探针。在本发明的一方面，这样的探针是包含至少12个核苷酸碱基和可检测的标记的寡核苷酸。这种分子的目的是，例如在高严格条件下，与包括或邻近于多态性基因座扩增部分中的目标多态性的核苷酸碱基片段中的DNA一条链杂交。这样的寡核苷酸与多态性基因座中大豆DNA一条链中相同核苷酸数目的片段的序列优选地至少90％相同，更优选地至少95％相同。该可检测的标记可以是放射性元素或染料。在本发明的优选方面，杂交探针进一步包括荧光标记和猝灭剂，例如，用于可从AB Biosystems获得的被称为

试验的类型的杂交探针试验。

本发明的分离的核酸分子在一定条件下能够与包括但不限于大豆基因组DNA、克隆的大豆基因组DNA和扩增的大豆基因组DNA的其它核酸分子杂交。如本文所用，如果两个核酸分子能够形成反平行双链核酸结构，那么这两个分子被称为能够彼此杂交。如果两个核酸分子表现出“完全的互补性”，即，一个序列中的每个核苷酸都与另一序列中的碱基配对核苷酸互补，则称一个核酸分子与另一核酸分子“互补”。如果两个分子在至少常规的“低严格”的条件下能互相杂交，并且具有足够的稳定性，从而允许它们保持彼此退火，则称这两个分子是“最低限度互补的”。类似地，如果两个分子在常规的“高严格”的条件下能互相杂交，并且具有足够的稳定性，从而允许它们保持彼此退火，则称这两个分子是“互补的”。例如至少在低严格条件下与其它核酸分子杂交的核酸分子被称为该其它核酸分子的“可杂交同族物”。Sambrook等人，Molecular Cloning，A LaboratoryManual，2nd Ed.，Cold Spring Harbor Press，Cold Spring Harbor，NewYork(1989)和Haymes等人，Nucleic Acid Hybridization，A PracticalApproach，IRL Press，Washington，DC(1985)描述了常规的严格条件，本文引入以上文献作为参考。因而偏离完全互补性是允许的，只要这种偏离没有完全消除该分子形成双链结构的能力。因此，为了使核酸分子用作引物或探针，只需要在序列上充分互补，以在所采用的特定的溶剂和盐浓度下能够形成稳定的双链结构。

促进DNA杂交的合适的严格条件，例如，大约45℃、6.0x氯化钠/柠檬酸钠(SSC)，接着50℃、2.0x SSC洗涤，是本领域的技术人员已知的，或可以在Current Protocols in Molecular Biology，JohnWiley&Sons，N.Y.，1989，6.3.1-6.3.6(本文引入作为参考)中找到。例如，洗涤步骤中的盐浓度可以选自从大约2.0x SSC、50℃的低严格条件到大约0.2x SSC、50℃的高严格条件。另外，洗涤步骤中的温度可以从低严格条件的室温大约22℃增加到高严格条件的大约65℃。温度和盐都可以变化，或者，温度或盐浓度可以保持不变，而另一个变量发生变化。

在一个优选的实施方案中，在中度严格条件下，例如，大约2.0X SSC和大约65℃，更优选地在高严格条件下，例如0.2X SSC和大约65℃，本发明的核酸分子与具有SEQ ID NO：1至SEQ ID NO：7800所示核酸序列的大豆DNA片段的一条链特异性杂交。

对于其中分子被设计为与通过如标记的双脱氧核苷酸的单碱基延伸检测的多态性邻近地杂交的试验，这些分子在序列中可以包含至少15个、更优选至少16或17个核苷酸碱基，所述序列与多态性大豆DNA片段的任一链中相同数目连续核苷酸的序列至少90％相同，优选地至少95％相同。用于单碱基延伸试验的寡核苷酸可以从Orchid Biosystems获得。

可作为杂交探针用于检测大豆DNA中的多态性的分离的核酸分子可设计用于不同的试验。对于其中探针用于杂交包括多态性的片段的试验，这些分子可以包含至少12个核苷酸碱基和可检测的标记。核苷酸碱基序列与本发明的多态性基因座中的大豆DNA片段任一链中的相同数目连续核苷酸的序列优选地至少90％相同，更优选地至少95％相同。该可检测的标记是位于分子一端的染料。在优选的方面，分离的核酸分子在其末端包括染料和染料猝灭剂。对于SNP检测试验，成对提供这样的染料和染料猝灭剂是有用的，例如，其中每个分子在5′端具有不同的荧光染料，并且具有除单核苷酸多态性之外的相同的核苷酸序列。本领域公知如何为了报告的目的设计与DNA靶片段退火的寡核苷酸PCR探针对，其中，靶标的序列是已知的，如本发明提供的多态性标记序列。

对于其中分离的核酸分子被设计为与通过单碱基延伸检测的多态性邻近地杂交的试验，这些分子在序列中可以包含至少15个、更优选至少16或17个核苷酸碱基，所述序列与多态性大豆DNA片段任一链中的相同数目连续核苷酸的序列至少90％相同，优选地至少95％相同。在这种情况下，分离的核苷酸提供可检测的标记的掺入。这种可检测的标记可以是同位素、荧光团、氧化剂、还原剂、核苷酸和半抗原。

对于涉及使用瓣核酸内切酶的试验(即，

试验)。在某些实施方案中，组合物包含至少两种用于检测代表大豆DNA多态性的分子标记的分离的核酸分子，其中，组合物的第一核酸分子包括寡核苷酸，该寡核苷酸包括多态性核苷酸残基和至少8个直接邻近所述多态性核苷酸残基的3′端的核苷酸，其中，组合物的第二核酸分子包括寡核苷酸，该寡核苷酸包括多态性核苷酸残基和至少8个直接邻近所述多态性核苷酸残基的5′端的核苷酸，并且其中，所述多态性在表1或表3中确定。在某些实施方案中，适于用瓣核酸内切酶对表1或表3的多态性进行分型的分离的核酸分子组合物包括至少一个具有“通用”5’瓣序列的第一探针、至少一个第二或

探针和至少一个包含标记的碱基和猝灭碱基的“FRET”盒(cassettes)，该盒包含与一经裂解即从第一探针上释放的“通用瓣序列”互补的序列。

鉴定多态性

SNP是序列变异的结果，新的多态性可以通过对随机基因组或cDNA分子进行测序而检测。在一方面，可以通过比较不同系的cDNA序列来确定基因组中的多态性。尽管通过比较cDNA序列检测多态性相对方便，但是cDNA序列的评估无法获得关于相应基因组DNA中的内含子位置的信息。此外，不能从cDNA确定非编码序列中的多态性。这是一个缺点，例如，当使用源自cDNA的多态性作为对基因组DNA进行基因分型的标记时。如果多态性的范围内包括那些存在于非编码独特序列中的多态性，则可以设计更有效的基因分型试验。

基因组DNA序列在鉴定和检测多态性方面比cDNA更有用。可以通过比较不同系的基因组DNA序列来确定基因组中的多态性。然而，高等真核生物的基因组DNA一般包含高比例的重复序列和转座子。如果通过减去或消除重复序列来富集编码/独特部分，则可以更有效地对基因组DNA测序。

有许多本领域熟知的可以用来富集编码/独特序列的策略。这方面的例子包括使用对胞嘧啶甲基化敏感的酶，使用McrBC核酸内切酶以切割重复序列，以及印刷基因组文库的微阵列，其然后与重复序列探针杂交。

在优选的实施方案中，通过利用甲基化模式的差别来富集编码DNA；高等真核生物的DNA往往非常高度甲基化，但它不是均一地甲基化。事实上，重复序列比编码序列更高度甲基化。关于对CG岛(CG islands)中的DNA甲基化模式进行作图和评价的方法，参见美国专利6,017,704。简单地说，一些限制性核酸内切酶在其识别位点对甲基化的胞嘧啶残基的存在敏感。如果在重叠的5’-CG-3’或重叠的5’-CNG-3’中的胞嘧啶残基被甲基化，那么这些甲基化敏感性限制性核酸内切酶不可能在其识别位点处切开。为了富集编码/独特序列，可以由用Pst I(或其它甲基化敏感性酶)消化的基因组DNA构建大豆文库，并通过琼脂糖凝胶电泳进行大小分级分离。

一种用于减少重复DNA的方法包括通过以下步骤构建简化的代表文库：分离重复序列与物种的至少两个变种的基因组DNA片段，基于核苷酸序列的大小对分离的基因组DNA片段进行分级分离，并比较级分中的片段的序列以确定多态性。更具体地，这些鉴定基因组DNA中的多态性的方法包括用甲基化敏感性核酸内切酶消化来自真核物种的至少两个变种的总基因组DNA，以提供消化的DNA片段的集合。对于特征为较低的5-甲基化胞嘧啶的DNA区域，片段的平均核苷酸长度较小。这些片段是基于核苷酸长度可分开的，例如通过凝胶电泳分开。从消化的DNA的集合中分离具有小于平均核苷酸长度的DNA级分。比较级分中的DNA序列，以鉴定多态性。与编码序列相比，重复序列更可能包含5-甲基化的胞嘧啶，例如，在-CG-和-CNG-序列片段中。在该方法的一个实施方案中，用选自Aci I、Apa I、Age I、Bsr F I、BssH II、Eag I、Eae I、Hha I、HinP1I、Hpa II、Msp I、MspM II、Nar I、Not I、Pst I、Pvu I、Sac II、SmaI、Stu I和Xho I的甲基化敏感性核酸内切酶消化来自一种作物植物的至少两个不同近交品种的基因组DNA，以提供消化的DNA的集合，该集合可以通过如凝胶电泳物理分离。从所述每个品种的消化的DNA获得大小相当的DNA级分。将来自相当的级分的DNA分子插入载体，以构建简化的基因组DNA克隆的代表性文库，对其测序并比较以鉴定多态性。

一种用于富集编码区DNA序列的替代方法使用McrBC限制性核酸内切酶，其切开含有甲基化胞嘧啶的DNA。可以使用基因组DNA片段构建简化的代表文库，该基因组DNA片段通过物理剪切或用任何限制性酶消化来切开。

另一种富集编码/独特序列的方法包括：构建简化的代表文库(使用甲基化敏感性的或非甲基化敏感性的酶)，在尼龙膜上印刷文库的微阵列，接着与由已知存在于文库中的重复元件制成的探针杂交。鉴定重复序列元件，并通过只挑选阴性克隆重新排列文库。这种方法提供了来自植物的简化代表性基因组DNA的片段，所述植物具有包括有相对较高水平的甲基化胞嘧啶的DNA区域和具有相对较低水平的甲基化胞嘧啶的DNA区域的基因组DNA。本发明的简化的代表性片段包括来自具有相对较低水平的甲基化胞嘧啶的DNA区域的基因组DNA，并且在特征为所述片段的核苷酸大小在例如500-3000bp范围内的级分中提供。

对大豆基因组DNA样品中的多态性的分型

通过本领域熟知的多种有效方法可以检测DNA序列中的多态性或对其进行分型，这些方法包括但不限于那些在美国专利5,468,613和5,217,863、5,210,015、5,876,930、6,030,787、6,004,744、6,013,431、5,595,890、5,762,876、5,945,283、5,468,613、6,090,558、5,800,944和5,616,464中公开的方法，本文完整引入这些专利作为参考。然而，本发明的组合物和方法可以与任一种多态性分型方法结合使用，以对大豆基因组DNA样品中的多态性进行分型。所用的这些大豆基因组DNA样品包括但不限于直接从大豆植物中分离出的大豆基因组DNA、克隆的大豆基因组DNA或扩增的大豆基因组DNA。

例如，如美国专利5,468,613和5,217,863所公开的，通过与等位基因特异性的寡核苷酸(ASO)探针杂交可以检测DNA序列中的多态性。美国专利5,468,613公开了等位基因特异性的寡核苷酸的杂交，其中，通过以下程序可以对核酸检测核酸序列中的一个或多个核苷酸变异，在该程序中，扩增含有核苷酸变异的序列，点样到膜上，并用标记的序列特异性寡核苷酸探针进行处理。

也可以通过美国专利5,800,944公开的探针连接方法检测靶核酸序列，其中，扩增目标序列，并将其与探针杂交，接着进行连接以检测该探针的标记的部分。

微阵列也可用于多态性检测，其中，以重叠的方式组装寡核苷酸探针组以代表一种序列，这样，靶序列在一个点的差异会导致部分探针杂交(Borevitz等人，Genome Res.13：513-523(2003)；Cui等人，Bioinformatics 21：3852-3858(2005))。在任何一个微阵列上，预计会有多个靶序列，它们可以代表基因和/或非编码区，其中每个靶序列由一系列重叠的寡核苷酸，而不是由一个探针所代表。该平台允许高通量筛选多种多态性。单特征多态性(SFP)是通过寡核苷酸阵列中的单探针检测的多态性，其中，特征是阵列中的探针。美国专利6,799,122、6,913,879和6,996,476公开了通过基于微阵列的方法对靶序列的分型。

也可以通过美国专利5,616,464公开的探针连接方法检测靶核酸序列，该方法采用至少一对探针，该探针具有与靶核酸序列的相邻部分同源的序列且具有侧链，所述侧链在所述探针与所述靶核酸序列碱基配对时非共价结合以形成茎。至少一个侧链具有光可活化的基团，该基团可以与茎的其它侧链成员形成共价交联。

检测SNP和Indel的其它方法包括单碱基延伸(SBE)方法。SBE方法的例子包括但不限于：在美国专利6,004,744、6,013,431、5,595,890、5,762,876和5,945,283中公开的方法。SBE方法基于直接邻近多态性的核苷酸引物的延伸，以在引物延伸后掺入可检测的核苷酸残基。在某些实施方案中，SBE方法使用三种合成寡核苷酸。其中两种寡核苷酸作为PCR引物，且与位于含有待测多态性的区域侧翼的大豆基因组DNA的基因座序列互补。在对含有多态性的大豆基因组区域扩增后，PCR产物与第三寡核苷酸(称为延伸引物)混合，所述第三寡核苷酸设计为在DNA聚合酶和两种差异标记的双脱氧核苷三磷酸的存在下，与直接邻近多态性的扩增的DNA杂交。如果模板上存在多态性，则可以在单碱基链延伸中将一个标记的双脱氧核苷三磷酸添加到引物中。然后通过确定两个差别标记中的哪一个被添加到延伸引物中来推断存在的等位基因。纯合的样品将导致两个标记的碱基中只有一个被掺入，因此两个标记中只有一个被检测到。杂合的样品存在两个等位基因，因此直接掺入两个标记(进入延伸引物的不同的分子中)，因此这两个标记都被检测到。

在一种优选的检测多态性的方法中，可以通过美国专利5,210,015、5,876,930和6,030,787中公开的方法检测SNP和Indel，其中，具有5′荧光报告染料和3′猝灭染料的寡核苷酸探针与探针的5′和3′端共价连接。当探针完整时，报告染料接近猝灭染料导致报告染料荧光被抑制，例如通过福斯特型能量转移(Forster-type energytransfer)。在PCR正向和反向引物与位于多态性侧翼的靶DNA的特定序列杂交过程中，杂交探针与位于扩增的PCR产物中的含有多态性的序列杂交。在随后的PCR循环中，具有5’→3’核酸外切酶活性的DNA聚合酶切割探针，并分离报告染料与猝灭染料，导致报告染料的荧光增强。

一种有用的试验是可从AB Biosystems获得的

试验，其在一个反应中采用4种合成寡核苷酸，其同时扩增大豆基因组DNA，区别存在的等位基因，并直接提供用于区别和检测的信号。4种寡核苷酸中的2种作为PCR引物，并产生包含待检测的多态性的PCR产物。另外两个是等位基因特异性的荧光共振能量转移(FRET)探针。在这种试验中，使用两种携带不同的荧光报告染料的FRET探针，其中，将独特的染料掺入可以与两个等位基因中的仅仅一个高特异性退火的寡核苷酸中。有用的报告染料包括但不限于6-羧基-4，7，2’，7’-四氯荧光素(TET)、2′-氯-7′-苯基-1，4-二氯-6-羧基荧光素(VIC)和6-羧基荧光素亚磷酰胺(FAM)。一种有用的猝灭剂是6-羧基-N，N，N’，N’-四甲基罗丹明(TAMRA)。此外，化学封闭每个FRET探针的3′末端，使得它不能作为PCR引物发挥作用。也存在用作被动参比的第三荧光团，例如罗丹明X(ROX)，以帮助有关的荧光值在随后的标准化(校正反应装配中的空间误差)。启动基因组DNA的扩增。在每一个PCR循环中，FRET探针以等位基因特异性的方式与模板DNA分子退火。当酶遇到退火探针的5′端时，退火的(不是非退火的)FRET探针被TAQ DNA聚合酶降解，从而从猝灭剂附近释放出荧光团。PCR之后，使用荧光计确定两个荧光团各自的荧光，以及被动参比的荧光。两种染料各自的荧光的标准化强度与样本中最初存在的每种等位基因的量成比例，因此，可以推断出样本的基因型。

为了设计用于该试验的引物和探针，首先掩蔽基因座序列，以防止这三个引物中的任何一个被设计到匹配已知的大豆重复元件(例如，转座子)或者具有非常低的序列复杂性(二-或三-核苷酸重复序列)的位点。引物向这些重复元件的设计，通过多个基因座的扩增或FRET探针与多个位点的退火，导致低特异性的试验。

PCR引物设计为：(a)在多态性基因座中具有15-25个碱基大小的长度和匹配序列，(b)具有57-60℃的计算解链温度，例如，对应于52-55℃的最佳PCR退火温度，(c)产生包含多态性位点并且通常具有75-250个碱基对大小的长度的产物。但是，在美国专利6,410,277中也公开了允许扩增长度高达1000个或更多碱基对的片段的PCR技术。PCR引物优选位于基因座上，使得多态性位点离开每个PCR引物的3′端至少一个碱基。但是，应当理解，PCR引物可以远离多态性多达1000个碱基对，并仍然提供1000个或更多碱基对的相应DNA片段的扩增，所述DNA片段包含多态性，并可以用于分型试验。PCR引物不能包含广泛地自身或相互互补的区域。

设计FRET探针以跨越多态性位点的序列，优选地多态性位于寡核苷酸的3′的2/3处。在优选的实施方案中，FRET探针在其3′末端掺入化学部分，当探针与模板DNA退火时，所述化学部分与DNA的小沟结合，从而提高探针-模板复合物的稳定性。探针应该具有12-17个碱基的长度，并具有3′MGB，具有比PCR引物高5-7℃的计算解链温度。美国专利5,538,848、6,084,102和6,127,121公开了探针设计。

也涉及通过使用瓣核酸内切酶介导的试验(

ThirdWave Technologies，Madison Wisconsin)对单核苷酸多态性进行分型的寡核苷酸探针。在这些试验中，瓣核酸内切酶(裂解酶)切开由两个重叠的寡核苷酸与分型的序列杂交产生的三股螺旋(Lyamichev等人，Nat.Biotechnol.，17：，292-296，1999)。该分型的序列可以是大豆基因组DNA、克隆的大豆基因组DNA或扩增的大豆基因组DNA。切割一个与待分型的序列杂交的寡核苷酸释放瓣(flap)，所述瓣又与“FRET盒”寡核苷酸形成三股螺旋，导致释放荧光共振能量转移(FRET)标记的第二切割反应。已描述了使用一种FRET标记对多态性的一个等位基因进行分型的实施方案(Mein C.A.，等人GenomeRes.，10：，330-343，2000)。在这种方法的其它实施方案中，可以通过使用不同类型的FRET标记同时对多态性的两个等位基因进行分型(Lyamichev等人，同上)。也描述了瓣核酸内切酶介导的高通量试验，其适于产生用于对多种多态性进行分型的核苷酸组(Olivier，等人，Nucleic Acids Res.30(12)：e53，2002)。

适于用裂解酶对表1或表3的多态性进行分型的分离的核酸分子可以包括至少一个具有“通用”5’瓣序列的第一探针、至少一个第二或

探针和至少一个包含标记碱基和猝灭碱基的“FRET”盒，该盒包含与一经裂解即从第一探针上释放的“通用瓣核酸序列”互补的序列。当扩增分型的大豆基因组DNA序列时，也可以使用类似于上文所述的侧翼PCR引物。这些探针的设计只需要在表1或表3中指出的多态性碱基的任一侧提供大约40-50个核苷酸。在“SingleNucleotide Polymorphisms”(Methods and Protocols)Volume 212，Chapter 16，V.Lyamichev and B.Neri pp.229-240 Humana Press.2002中描述了设计用于瓣核酸内切酶试验的探针的一般方面。

应用多态性建立标记/性状关联

本发明的基因座中的多态性可用于标记/性状关联的鉴定，这种关联是从群体成员的基因型和表型的统计分析推断出的。这些成员可以是单个生物体，例如大豆，密切相关的个体的家族、近交系、密切相关的个体的加倍的单倍体或其它群体。这样的大豆群体被称为“系”，表示起源系。群体可以起源于两个个体或两个系(例如，定位的群体)之间的单个杂交，或者，它可以由具有多个起源系的个体组成。每个个体或系的特征在于单个或平均的性状表型和在一个或多个标记基因座处的基因型。

可以利用几种类型的统计学分析从表型/基因型数据推断标记/性状的关联，但一个基本的想法是检测分子标记，即多态性，对于多态性，可替代的基因型具有显著不同的平均表型。例如，如果给定的标记基因座A具有3个可替代的基因型(AA、Aa和aa)，且如果那3类个体具有显著不同的表型，那么可以推断基因座A与该性状相关。可以通过几种类型的标准统计学检验测试表型的差异的显著性，如分子标记基因型对表型的线性回归或方差分析(ANOVA)。通常用来进行这种类型的分析的市售统计软件包包括SAS Enterprise Miner(SAS Institute Inc.，Cary，NC)和Splus(InsightfulCorporation.Cambridge，MA)。当同时测试许多分子标记时，在宣布关联所需的显著性水平上进行如Bonferonni修正的调整。

为了QTL作图，包括的标记应当是来源特征性的，以对随后的群体作出推断。基于SNP的分子标记对于作图是理想的，因为特定的SNP等位基因源自特定物种的现存群体中的独立来源的可能性极低。因此，SNP标记可用于示踪和协助QTL的渗入，特别是在单元型的情况下。

通常，关联研究的目标不只是检测标记/性状关联，而且评估直接影响性状的基因(即，QTL)相对于标记位置的位置。在实现该目标的一个简单的方法中，在标记基因座之间比较替代基因型之间的差异大小或差异显著性的水平。推断性状基因位于最接近具有最大相关的基因型差异的标记处。可以通过基因作图模型建立另外的标记分子的遗传连锁，所述基因作图模型例如，但不限于，Lander等人(Lander等人，Genetics，121：185-199(1989))报道的侧翼标记模型，和区间作图(interval mapping)，其基于其中所述的最大似然法，并用软件包MAPMAKER/QTL执行(Lincoln和Lander，MappingGenes Controlling Quantitative Traits Using MAPMAKER/QTL，Whitehead Institute for Biomedical Research，Massachusetts，(1990))。另外的软件包括Qgene，Version 2.23(1996)，Department of PlantBreeding and Biometry，266 Emerson Hall，Cornell University，Ithaca，NY。使用Qgene软件是一种特别优选的方法。

对于标记的存在，计算最大似然估计值(MLE)，以及假设没有QTL效应的MLE，以避免假阳性。然后计算优势率的log₁₀(LOD)：LOD＝log₁₀(假定没有相关的QTL，对于QTL/MLE的存在的MLE)。LOD得分基本上指示，假定存在QTL，相对于不存在QTL，获得数据的可能性增大多少。为了避免比如95％的给定置信度时的假阳性的LOD阈值取决于标记的数量和基因组的长度。Lander等人(1989)说明了显示LOD阈值的曲线图，且Arús和Moreno-González，PlantBreeding，Hayward，Bosemark，Romagosa(编)Chapman&Hall，London，第314-331页(1993)进一步对其描述。

可以使用另外的模型。已经报导了对于区间作图的许多修改和可供选择的方法，包括使用非参数法(Kruglyak等人，Genetics，139：1421-1428(1995))。也可以使用多元回归方法或模型，其中，在大量标记上对性状进行回归(Jansen，Biometrics in Plant Breed，vanOijen，Jansen(编)Proceedings of the Ninth Meeting of the EucarpiaSection Biometrics in Plant Breeding，The Netherlands，第116-124页(1994)；Weber和Wricke，Advances in Plant Breeding，Blackwell，Berlin，16(1994))。Jansen等人(Jansen等人，Genetics，136：1447-1455(1994))和Zeng(Zeng，Genetics 136：1457-1468(1994))报道了组合了区间作图与回归分析的程序，由此将表型回归到给定的标记区间的单个假定的QTL上，且同时回归到作为′辅助因素′的许多标记上。一般来说，辅助因素的使用减少了估计的QTL位置的偏差和抽样误差(Utz和Melchinger，Biometrics in Plant Breeding，van Oijen，Jansen(编)Proceedings of the Ninth Meeting of the Eucarpia SectionBiometrics in Plant Breeding，The Netherlands，第195-204页(1994))，从而提高QTL作图的精度和效率(Zeng 1994)。这些模型可以扩展到多环境实验，以分析基因型-环境的相互作用(Jansen等人，Theor.Appl.Genet.91：33-3(1995))。

传统的QTL作图的替代方法包括通过相对于各个标记对单元型作图以实现更高的分辨率(Fan等人2006 Genetics 172：663-686)，因为传统的QTL作图研究的一种局限性是推断仅限于作图群体的特定亲本和这些亲本变种的基因或基因组合的事实。这种方法跟踪被称为单元型的DNA模块，该DNA模块由多态性标记所定义，假定它们在作图群体中来源相同。长期以来一直认为，基因和基因组序列可以是状态同一的(即，独立起源相同)或来源同一的(即，通过来自共同祖先的历史遗传)，这对于连锁不平衡研究、且最终对作图研究具有巨大的意义(Nordberg等人2002 Trends Gen.)。从历史上看，遗传标记不适合区分状态同一或来源同一。然而，标记的新类型，如SNP(单核苷酸多态性)，更能说明起源。特定SNP等位基因源自特定物种的现存群体中的独立来源的可能性非常低。连锁基因中出现的多态性以缓慢但可预测的速度随机分类，由连锁不平衡的衰减或连锁平衡的方法描述。这种良好建立的科学发现的后果是由多态性的特定组合确定的一长段编码DNA是非常独特的，并且除了通过连锁不平衡以外，非常不可能重复存在，这指示来自共同祖先的最近的共祖先。由一些等位基因组合定义的特定基因组区域表示整个间插遗传序列的绝对同一性的可能性取决于该基因组区域中的连锁的多态性的数量，除非在该区间中最近发生了突变。在此，这样的基因组区域被称为单元型窗口。该窗口内的每个单元型由等位基因的特定组合定义；等位基因的数量越大，潜在的单元型的数目就越大，而且该区域中状态同一性是来源同一性的结果的确定性就越大。在新系的开发过程中，祖先单元型通过这一过程保留，并且一般被认为是作为单元通过谱系遗传的‘连锁块’。此外，如果特定的单元型具有已知的效应，或者表型，可以推断它在具有相同单元型的其它系中的效应，这可以使用对于该单元型窗口的一个或多个诊断标记来确定。

这一假设导致较大的有效样本量，提供更大的QTL分辨率。用于确定表型和基因型(在这种情况下为单元型)之间相关性的统计学显著性的方法可以通过本领域已知的并且具有任何公认的所需统计学显著性阈值的任何统计学检验来确定。特定的方法和显著性阈值的应用是本领域的普通技术人员所熟知的。

遗传图谱的构建

在本发明的另一方面，本发明的基因座中的多态性定位于大豆基因组上，例如，作为大豆基因组的遗传图谱，其包括如表1所示的、更优选地如表3所示的两种或多种多态性的图谱位置。这种遗传图谱如图1所示。遗传图谱数据也可以记录在计算机可读介质上。本发明的优选实施方案提供高密度的(例如在大豆基因组图谱上有至少150种或更多，例如至少500或1000种多态性)多态性遗传图谱。特别有用的遗传图谱包括在连锁群上的平均距离不超过10厘摩(cM)的多态性。

连锁不平衡作图和关联研究

另一种确定性状基因位置的方法是分析其中个体的性状和标记基因座都不同的群体中的标记/性状关联。在该群体中，由于群体的遗传过程，如突变的独特起源、建立者事件(founder events)、随机漂变和群体结构，某些标记等位基因可能与某些性状基因座等位基因相关联。这种关联被称为连锁不平衡。

在植物育种群体中，连锁不平衡(LD)是离开群体中两个或多个基因座之间的随机关联的水平，且LD往往存在于大的染色体片段上。虽然有可能关注该片段中每个基因的单独效应，但是对于实际的植物育种来说，一般强调当区域存在于系、杂种或变种中时对目标性状的平均影响。在连锁不平衡作图中，比较在标记基因座处具有不同基因型的个体的性状值。通常，显著的性状差别表明标记基因座与一个或多个性状基因座之间非常接近。如果标记密度适当地高，且连锁不平衡只在染色体上非常紧密连锁的位点之间发生，那么性状基因座的位置可以非常精确。

标记辅助的育种和标记辅助的选择

当数量性状基因座(QTL)已被定位于分子标记的附近时，这些标记可以用来针对提高的性状值进行选择，而无需在每个选择循环时进行表型分析。在标记辅助的育种和标记辅助的选择中，首先通过遗传作图分析建立QTL与标记之间的关联(如在A.1或A.2中)。在同样的过程中，确定哪些分子标记等位基因与有利的QTL等位基因连锁。随后，在群体中选择与有利的QTL等位基因相关联的标记等位基因。如果在标记与QTL之间有足够紧密的连锁，此过程将提高性状值。所需的连锁程度取决于选择的代数，因为在每一代，有机会通过重组打破关联。

特定标记等位基因与有利的QTL等位基因之间的关联还可以用于预测哪些类型的后代可以从给定的杂交中分离。这种预测可以允许选择适合于产生群体的亲本，从该群体中装配有利的QTL等位基因的新组合以产生新的近交系。例如，如果系A在基因座1、20和31处具有以前已知与有利的QTL等位基因相关联的标记等位基因，而系B在基因座15、27和29处具有与有利的效应相关联的标记等位基因，那么可以通过杂交AxB并选择在全部6个QTL处具有有利的等位基因的后代来开发新系。

分子标记用于加速转基因向新的遗传背景中的渗入(即，进入不同范围的种质中)。简单的基因渗入包括使转基因系与优良近交系杂交，然后使该杂种与优良(轮回)亲本反复回交，同时针对转基因的保持进行选择。经过多代回交，通过重组和分离，初始转基因系的遗传背景逐渐被优良近交系的遗传背景所取代。通过根据源自回交亲本的分子标记等位基因进行选择，可以加速这个过程。

此外，近交系的指纹是在一组两个或多个标记基因座处等位基因的组合。高密度指纹可以用来建立和追踪种质的身份，种质身份可用于建立标记-性状关联的数据库，以益于整个作物育种程序，以及种质所有权的保护。

选择用于植物育种的亲本亲本、后代或测试植物的方法

也想到本文提供的多态性可以用于为植物育种选择亲本、后代或测试植物。从表型上无法区分的植物的群体中选择这些植物的能力可以加速植物育种并减少因进行表型性状分析而导致的费用。选择用于育种的植物的方法包括以下步骤：a)确定表1或表3中确定的多种多态性与至少第一和第二大豆近交系中的多种性状之间的关联；b)确定亲本、后代或测试植物中的一种或多种多态性的等位基因状态；和c)选择具有更有利的相关性状组合的亲本、后代或测试植物。在某些应用中，通过这种方法选择的亲本、后代或测试植物是大豆近交系。在其它实施方案中，相关性状的有利组合提供了改善的杂种优势。

在一个实施方案中，确定至少两种多态性的基因型有助于选择用于育种杂交的亲本。这种确定给育种者提供了产生杂交的优势，其中针对至少两个优选的基因组区域，以产生具有至少两个优选的基因组区域的后代。在另一方面，确定至少两种多态性的基因型可以为在后代中作出选择决定提供基础，其中，那些包含优选的基因组区域的后代在育种计划中被选出。在另外一方面，可以选择用于评估近交系在杂种组合中的组合能力的测试系，纳入基于存在或不存在至少两个基因组区域的近交测试计划中，以确保在不同的种质库(即不同的杂种优势群)之间进行杂交。

杂种预测

通过在两个属于不同的“杂种优势群”的优良近交系之间进行杂交而产生商品大豆种子。这些群在遗传学上足够不同，使得它们之间的杂种显示高水平的杂种优势(即，相对于亲本系性能提高)。通过分析优良杂种的标记组成，可以鉴定在良好组合产生杂种优势的雄系和雌系中的不同基因座处的等位基因组。认识这些模式并了解不同近交系的标记组成，可以预测不同对品系之间的杂种优势的水平。这些预测可以减少应使用相反杂种优势群的哪些品系测试新近交系的性能的可能性。

本发明提供了用于提高杂交大豆的杂种优势的方法。在这些方法中，在与本发明多态性基因座连锁的多种多态性与两个以上的大豆近交系中的性状之间建立关联。选择两个这样的具有预测可提高杂种优势的互补性杂种优势群的近交系用于育种。提高杂种优势的方法包括以下步骤：(a)确定表1或表3中确定的多种多态性与两个以上的大豆近交系中的多种性状之间的关联；(b)将选自步骤(a)的近交系的两个近交系分配至杂种优势群；(c)在步骤(b)的至少两个近交系之间进行至少一次杂交，其中，每个近交系来自不同的和互补的杂种优势群，并且其中，对于提高杂种优势的遗传特征优化互补杂种优势群；和(d)通过步骤(c)的所述杂交获得杂种后代植物，其中，相对于与未经选择的近交系杂交产生的后代，所述杂种后代植物显示提高的杂种优势。这些方法还可以在步骤(c)中包括传统的单杂交(即，两个近交系之间，理想地来自不同的杂种优势群)、三元杂交(单杂交后，与第三近交系杂交)和双杂交(也称为四元杂交，即两个单杂交的后代杂交)。可以通过在选择的雄性能育亲本之间进行手工杂交或通过使用雄性不育杂交系统实现杂交。在Bernardo，Breeding for Quantitative Traits in Plants，Stemma Press，Woodbury，MN，2002中描述了优良近交系的开发和选择、这些系的杂交和选择优良杂种杂交鉴定新的优良大豆杂种。

遗传来源同一性

杂种优势的一种理论预测，在用于产生杂种的雄性和雌性系之间的遗传来源同一性(IBD)区域会降低杂种性能。可以从不同系中的标记等位基因的模式推断遗传来源同一性。如果在一系列邻近的基因座处的一串相同标记不可能偶然地独立发生，则可以认为它们是遗传来源同一的。雄性和雌性系中的标记指纹分析可以鉴定IBD区域。对这些区域的知识有助于选择杂种亲本，因为在杂种中避免IBD可能提高性能。这种知识也有助于育种计划，其中可以设计杂交以产生显示很少或没有IBD的近交系对(一雄一雌)。

用于基因分型的核酸分子文库

本发明提供的核酸文库可用于与大豆种质改良相关的活动，包括但不限于使用植物进行育种杂交，对植物的进一步的遗传或表型测试，植物通过自体受精的改进，使用植物或其部分进行转化，以及使用植物或其部分进行诱变。可以对文库中的不同组核酸采样，访问，或者对其任何组、亚组或组合单独进行查询，以对本文表1或3中提供的任何大豆基因组DNA进行分型。一般来说，文库包括至少两组不同的核酸分子，其中所述不同核酸分子组中的每一个允许对表1或表3中确定的相应的大豆基因组DNA多态性进行分型。

在一个实施方案中，允许对表1或表3中确定的相应的大豆基因组DNA多态性进行分型的不同组核酸分子分布于微量滴定板的各个孔中。在某些实施方案中，微量滴定板的每个孔中包含一种或多种允许对表1或表3中确定的仅一种大豆多态性进行分型的核酸分子。但是，也涉及其它实施方案，其中，微量滴定板的每个孔中包含一种或多种允许对表1或表3中确定的一种以上的大豆多态性进行分型的核酸分子。微量滴定板可以具有少至8个孔，或多达24、96、384、1536或3456个孔。微量滴定板可以由以下材料制造，包括但不限于，聚苯乙烯、聚丙烯或环-烯烃塑料。每个孔中的核酸分子可以在溶液中或是干燥的(即，冻干形式)。通常，核酸分配到微量滴定板的孔中，使得微量滴定板每孔中的核酸是已知的。但是，在核酸分子与独特的标识物(如独特的染料或其它独特的识别标记)相关联的其它实施方案中，核酸可以随机地分配到微量滴定板的孔中。从本说明书中可以清楚地看出，也涉及包括分配在微量滴定板孔中的、固定于固体载体(如珠子)上的核酸的文库。

在其它实施方案中，允许对表1或表3中确定的大豆基因组多态性进行分型的核酸固定(即，共价连接)于固体载体上。固体载体包括但不限于珠子、芯片、阵列或过滤器。

用作固体载体的珠子可以是磁珠，以帮助杂交复合物的纯化。或者，珠子可以包含独特的识别标记。特别地，用可以根据其分光光度或荧光性质进行区分的荧光染料染色的珠子，可以偶联到用于对多态性进行分型的核酸分子上。这些用于对多态性进行分型的基于珠子的系统已有描述(美国专利5,736,330)。染料标记的珠子、分析试剂和用于对多态性进行分型的装置也已有描述(美国专利6,649,414、6,599,331和6,592,822)，并且可从Luminex Corporation(Austin，Texas，USA)获得。如上所述，与珠子连接的文库核酸分子也可以是

芯片、阵列或过滤器还可以用于固定对表1或表3的多态性进行分型的核酸分子。在某些实施方案中，用于对给定的多态性进行分型的核酸标记将固定于阵列上规定的物理位置，使得可以产生并记录来自对应于给定多态性的位置的分型数据，用于随后的分析。制造及使用用于对多态性进行分型的阵列的方法包括但不限于在美国专利5,858,659(基于杂交的方法)和美国专利6,294,336(单碱基延伸方法)中所描述的方法。

应用多态性分析对DNA克隆文库进行作图

由本发明的分子标记代表的多态性和基因座可用于鉴定和定位与分子标记连锁的QTL和基因的DNA序列。例如，可以使用与性状连锁的分子标记查询BAC或YAC克隆库，以找到包含与性状相关的特定QTL和基因的克隆。例如，多种(如数百种或数千种)大的多基因序列中的QTL和基因可以通过与寡核苷酸探针杂交来鉴定，所述寡核苷酸探针能够与定位的和/或连锁的分子标记杂交，其中，可以检测一个或多个分子标记。通过在高密度阵列中提供克隆序列可以改进这种杂交筛选。该筛选方法更优选地通过采用汇集策略来改进，以明显减少鉴别包含分子标记的克隆所需要的杂交数。当对分子标记作图时，筛选能够有效地将克隆作图。

例如，在数千个克隆排列于规定的阵列中例如在96孔板中的情况下，这些板可以任意地排列，形成三维排列的孔的堆叠，每个孔包括独特的DNA克隆。每个堆叠中的孔可以表示为行、列和板的三维阵列中的独立要素。在发明的一方面，堆叠数目和每个堆叠中板的数目大致相等，以使试验次数减至最少。板的堆叠允许构建克隆DNA池。

对于三维排列的堆叠，可以为以下要素创建克隆DNA池：(a)每一行的所有要素，(b)每一列的所有要素，和(c)每块板的所有要素。用可与针对一个克隆独特的分子标记杂交的寡核苷酸探针杂交筛选该池将为一个列的池、一个行的池和一块板的池提供阳性指示，从而指示包含目标克隆的孔单元(要素)。

在多堆叠的情况下，每个堆叠中所有克隆DNA的其它池允许指示具有目标克隆的行-列-板坐标的堆叠。例如，4608个克隆的组可以排列于48块96孔板中。48块板可以安排在8组各6块板的堆叠中，提供6×12×8三维阵列的要素，即每个堆叠包括8行和12列的6个堆叠。对于整个克隆组，有36个池，即6个堆叠的池、8个行的池、12个列的池和8个堆叠的池。因此，需要最多36个杂交反应以找到包含与每个作图分子标记相关或连锁的QTL或基因的克隆。

一旦鉴定了克隆，从分子标记的基因座设计的寡核苷酸引物就可以用于连锁QTL和/或基因的定位克隆。

计算机可读介质和数据库

本发明的核酸分子的序列可以在多种介质中“提供”，以方便使用，例如，数据库或计算机可读介质，它们也可以以允许熟练技术人员检查或查询序列并获取有用信息的形式包含描述性注释。在本发明的一个实施方案中，可以准备包含核酸序列的计算机可读介质，这些核酸序列中至少10％或以上，如至少25％或甚至至少50％或以上的基因座和核酸分子的序列代表本发明的分子标记。例如，这样的数据库或计算机可读介质可以包括本发明的基因座组或用于检测本发明分子标记的引物和探针组。此外，这样的数据库或计算机可读介质可以包括本发明的作图或未作图的分子标记的图或表和遗传图谱。

本文所用的“数据库”是指任何可检索的所收集数据的任何表现形式，包括计算机文件，如文本文件、数据库文件、电子表格文件和图像文件、印刷表格和图形表示及数字和图像数据集合的组合。在本发明的一个优选方面，“数据库”是指可以存储计算机可搜索的信息的存储系统。目前，优选的数据库应用程序包括由DB2、Sybase和Oracle提供的数据库应用程序。

本文所用的“计算机可读介质”是指任何可以由计算机直接读取并访问的介质。这样的介质包括但不限于：磁性存储介质，如软盘、硬盘、存储介质和磁带；光存储介质，如CD-ROM；电子存储介质，如RAM、DRAM、SRAM、SDRAM和ROM；和PROM(EPROM、EEPROM、Flash EPROM)，以及这些类别的杂合体，例如磁/光存储介质。熟练技术人员可以容易地了解如何使用任何目前已知的计算机可读介质创建包括在其上记录有本发明核苷酸序列的计算机可读介质的产品。

本文所用的“记录”是指在可检索的数据库或计算机可读介质中存储信息的过程的结果。例如，熟练技术人员可以容易地采用目前已知的任何一种方法在计算机可读介质上记录信息，以产生包含本发明的作图的多态性和其它核苷酸序列信息的介质。熟练技术人员可以获得多种数据存储结构用于创建计算机可读介质，其中，数据存储结构的选择一般基于所选择的访问存储信息的手段。此外，多种数据处理程序和格式可用于在计算机可读介质上存储本发明的多态性和核苷酸序列信息。

计算机软件可以公开获得，其允许熟练技术人员获得计算机可读介质提供的序列信息。下面的例子证明了如何利用在Sybase系统上执行搜索算法如BLAST算法(Altschul等人，J.Mol.Biol.215：403-410(1990)，本文引入作为参考)和BLAZE算法(Brutlag等人，Comp.Chem.17：203-207(1993)，本文引入作为参考)的软件鉴别与具有高水平同一性的本发明基因座序列同源的DNA序列。可以对高同一性的序列进行比较，以找到对于大豆品种有用的多态性标记。

本发明还提供了包含本文所述的序列信息的系统，特别是基于计算机的系统。这些系统设计为用来鉴定商业上重要的本发明核酸分子的序列片段。本文所用的“基于计算机的系统”是指用于分析核苷酸序列信息的硬件、软件和存储器。熟练技术人员可以容易地了解，任何一种现有的基于计算机的系统适用于本发明。

如上所述，本发明的基于计算机的系统包括存储有本发明的多态性标记、遗传图谱和/或核酸分子序列的数据库和必要的支持和实现基因分型应用的硬件和软件，这样的基于计算机的系统可以用于读取、分类或分析大豆基因型数据。基于计算机的系统的关键部件包括：(a)数据存储装置，包括计算机可读介质，其上记录有至少2种表1或表3中确定的大豆基因组DNA多态性；(b)搜索装置，用于将来自至少一种测试大豆植物的大豆基因组DNA序列与步骤(a)的数据存储装置的多态性序列进行比较，以鉴定同源或非同源序列；和(c)检索装置，用于鉴定步骤(b)的测试大豆基因组序列的同源或非同源序列。用于进行DNA数据库查询的基于计算机的方法和系统(如装置)在美国专利6,691,109中描述。

在本发明一个有用的方面，来自表1或表3的多态性大豆基因座的数据集记录在计算机可读介质上。在本发明的一方面，大豆基因组多态性在一个或多个DNA序列数据集中提供，即，数据集包括多达有限数目的记录在计算机可读介质上的多态性基因座的不同序列。在记录的数据集中的有限数目的多态性基因座可少至2种或多达1000种或更多，例如5、8、10、25、40、75、96、100、384或500种表1或表3的大豆基因组多态性。这些数据集可以用于基因分型应用，其中，1)查询确定分布于大豆基因组上的多态性的多种多态性；2)查询聚类于区间内的多种多态性；和/或当在大量植物中查询多种多态性时。记录在计算机可读介质上的数据集也可包括对于记录在其上的每种大豆基因组DNA多态性的相应的图谱位置。在其它实施方案中，表型性状或表型性状指数数据记录在计算机可读介质上。在另外其它实施方案中，等位基因状态与亲本、后代或测试大豆植物相关联的数据记录在计算机可读介质上。

育种方法

也涉及培育大豆植物的方法。培育大豆植物的方法包括以下步骤：(a)对于至少两个大豆植物的育种群体，确定至少两个最多10厘摩的基因组窗口中的至少两个单元型的性状值；(b)在所述育种群体中，培育两个大豆植物，以产生后代种子群体；(c)在所述后代种子中，确定至少一种表1或表3中确定的多态性在每个所述窗口中的等位基因状态，以确定所述单元型的存在；和(d)在所述后代种子中选择对于确定的单元型而言具有较高性状值的后代种子，从而培育大豆植物。在这些育种方法的某些实施方案中，确定基本上每条染色体整体上的每个相邻基因组窗口中的至少两个单元型的性状值。可以理解，单元型区域是在多代育种中保持并且由一个或多个育种系携带的染色体片段。这些片段可以用包含在该片段中的多个连锁的标记基因座鉴定，并且两个系中这些基因座处的共同的单元型同一性给出了这些种系携带的整个相应染色体片段的遗传来源同一性的高置信度。这些育种方法需要使用分布于大豆基因组中的多种大豆基因组多态性。

在这种育种方法的各方面，确定基本上每条染色体的整体上每个相邻基因组窗口中的至少两个单元型的性状值。在本方法的另一个有用的方面，在每条染色体中高达10厘摩的基因组窗口中，针对单元型产量的较高的性状值，选择后代种子。在本发明的另一方面，培育方法涉及提高产量，其中，性状值是产量性状的值，其中，对每个窗口中的单元型的性状值进行排序；并且选择在窗口中的产量性状值高于所述窗口中的平均产量性状值的后代种子。在育种方法的某些方面，单元型使用表1中确定的多态性定义，或定义为在包括SEQ ID NO：1至SEQ ID NO：7800的所有DNA序列的分子标记组中，或定义为与那些多态性之一连锁不平衡。

为了利用这种方法促进育种，计算每种性状的值或性状组合的值(例如多性状指数)是有用的。在多性状指数中分配给各种性状的权重可以根据育种目标而变化。例如，如果产量是关键目标，则在多性状指数中，产量值可以50-80％加权，成熟、倒伏、株高或抗病性可以以较低的百分比加权。

大豆植物(Glycine max L.)可以通过自然技术或机械技术杂交。自然授粉在大豆中通过自花授粉或自然的异花授粉发生，授粉生物通常帮助这种授粉。在自然或人工杂交中，开花和开花时间是重要的考虑因素。大豆是短日照植物，但是对光周期的敏感性有显著的遗传变异。开花的临界日长是从适应热带纬度的基因型的大约13小时到生长于较高纬度的光周期不敏感性基因型的24小时不等。出苗后大豆似乎有9天对日长不敏感。需要7至26天的短于临界日长的光周期来完成开花诱导。

大豆花通常在花冠开放的当天自身授粉。如果花瓣没有脱落，柱头在开花前大约1天接受花粉，并在开花后2天继续保持接受花粉状态。9个雄蕊的花丝融合，而最接近旗瓣的一个独立。雄蕊在柱头下形成环，直到开花前大约1天，然后它们的花丝开始迅速伸长，并提升柱头周围的花粉囊。花粉囊在开花当天裂开，花粉粒落在柱头上，并在10小时内花粉管到达子房，完成受精。自花授粉在大豆中自然发生，无需对花进行处理。但是对于两个大豆植株的杂交，通常优选地采用人工杂交，尽管这不是必需的。在人工杂交中，在来自花的花粉成熟之前，对杂交中用作雌性的花进行人工交叉授粉，从而防止自体受精，或者可选择地，使用本领域已知的技术去除花的雄性部分。用于去除大豆花的雄性部分的技术包括，例如，物理除去雄性部分，使用赋予雄性不育性的遗传因素，以及对雄性部分应用化学杀配子剂。

在雌花去雄或未去雄的情况下，可以通过使用镊子从父本的花中除去雄蕊和雌蕊，并抵靠着雌花的柱头轻轻地刷花粉囊，进行人工授粉。可以通过除去前萼和龙骨瓣花瓣，或者用闭合的镊子刺破龙骨瓣，并使其打开以推开花瓣，来实现对雄蕊的接近。在柱头上刷花粉囊导致它们破裂，并且，当花粉在柱头上清晰可见时，获得最高的成功杂交百分比。可以通过在刷柱头之前轻拍花粉囊来检查花粉散播。当条件不利时，可能必须使用几个雄花来获得合适的花粉散播，或者，可以使用同一雄花对几个花授粉，而具有良好的花粉散播。

遗传雄性不育性在大豆中可以获得，并且可能有利于促进本发明中的杂交，尤其是用于回交选择程序。杂交区组(crossing block)完全分离所需的距离尚不清楚；但当雄性不育植株距离外来花粉源12米或更远时，远交小于0.5％(Boerma和Moradshahi，Crop Sci.，15：858-861，1975)。杂交区组的边界上的植物很可能保持与外来花粉最多地远交，并且可以在收获时除去以使污染减至最小。

一旦收获，豆荚一般在不超过38℃的温度下风干，直到种子含有13％或更少的水分，然后手工取出种子。如果相对湿度为50％或更低，种子可以在大约25℃令人满意地存储长达一年。在潮湿的气候中，发芽率迅速下降，除非种子被干燥至7％的含水量并在气密性容器中在室温下储存。通过将种子干燥至7％的含水量，并在10℃或更低温度下在维持50％相对湿度的空间中储存或在气密性容器中储存，可以最佳地实现在任何气候条件下的长期储存。

下文阐述用于培育本发明植物的选择的、非限制性的方法。对任何杂交后代使用标记辅助的选择(MAS)可以加强育种计划。可以理解：本发明核酸标记可以用于MAS(育种)计划。进一步可以理解：可以在育种计划中使用任何商业和非商业的栽培种。例如，如发芽活力、植物生长活力、应激抗性、抗病性、分枝、开花、结实、种子的大小、种子密度、直立性(standability)和脱粒性(threshability)等因素通常指导选择。

对于高度可遗传的性状，选择在一个位置评估的优良单株植物是有效的，而对于具有低遗传性的性状，选择应该基于从相关植物的家族的重复评估获得的平均值。流行的选择方法通常包括谱系选择、改良的谱系选择、混合选择(mass selection)和轮回选择。在一个优选的方面，采用回交或轮回育种计划。

遗传的复杂性影响育种方法的选择。回交育种可以用来将对于高度可遗传性状的一个或几个有利的基因转移到理想的栽培种中。这种方法已被广泛用于培育抗病栽培种。各种轮回选择技术用于改善受许多基因控制的数量遗传性状。

育种系可以在代表商业目标地区的环境中测试并与适当的标准比较两代或更多代。最好的株系是新的商业栽培种的候选株系；那些仍缺乏性状的株系可用作亲本，以产生新的群体用于进一步选择。

谱系育种和轮回选择育种方法可用于从育种群体中开发栽培种。育种计划将来自两个或多个栽培种或各种广泛来源的理想性状组合为育种池，由该育种池通过自交和选择所需的表型来开发栽培种。可以评价新栽培种以确定哪些具有商业潜力。

回交育种已被用来将简单遗传的、高度可遗传的性状的基因转移到作为轮回亲本的理想的纯合栽培种或近交系中。待转移的性状的来源称为供体亲本。在初始杂交后，选择具有供体亲本的表型的个体，并与轮回亲本反复杂交(回交)。产生的植物预计具有轮回亲本(例如，栽培种)的大部分属性，此外，还具有从供体亲本转移来的理想的性状。

严格意义上来说，单种子遗传程序指种植分离群体，每株植物收获一个种子的样品，并使用一个种子样品种植下一代。当群体已从F₂发展到理想的近交水平时，产生该株系的植物均回溯到不同的F₂个体。由于一些种子不能发芽或者一些植物不能产生至少一个种子，群体中的植物数量每一代都在下降。结果，当完成了世代进步时，并非全部原先在群体中取样的F₂植物都有后代代表。

加倍单倍体(DH)方法在较短的时间内获得等基因植物。DH植物为植物育种员提供了宝贵的工具，特别是对于产生近交系和数量遗传研究而言。对于育种员，DH群体特别可以用于QTL作图、细胞质转换和性状渗入。此外，在测试和评价用于植物育种计划的纯合系方面具有价值。所有的遗传变异都在育种杂交的后代中，这提高了选择增益。

大多数研究和育种应用依赖于人工DH生产方法。最初的步骤包括植物的单倍化，这导致包括单倍体种子的群体的产生。用诱导亲本与非纯合系杂交，导致单倍体种子的产生。具有单倍体胚、但具有正常三倍体胚乳的种子进展到第二阶段。即，单倍体种子和植物是任何具有单倍体胚的植物，与胚乳的倍性水平无关。

在从群体中选择单倍体种子后，选定的种子进行染色体加倍以产生加倍的单倍体种子。细胞谱系中自发的染色体加倍会导致正常配子产生或从单倍体细胞谱系产生未减少的配子。使用化学化合物，如秋水仙碱，可以用来增加二倍化率。秋水仙碱结合微管蛋白并阻止其聚合为微管，从而在中期停止有丝分裂，可以用来增加二倍化率，即加倍染色体数目。这些嵌合植物是自花授粉以产生二倍体(加倍的单倍体)种子。种植此DH种子，随后评价并用于杂种测交生产。常用于不同性状和作物的其它育种方法的描述可在以下几本参考书之一中找到(Allard，“Principles of Plant Breeding，”John Wiley&Sons，NY，U.of CA，Davis，CA，50-98，1960；Simmonds，“Principles ofcrop improvement，”Longman，Inc.，NY，369-399，1979；Sneep和Hendriksen，“Plant breeding perspectives，”Wageningen(编)，Center forAgricultural Publishing and Documentation，1979；Fehr，In：Soybeans：Improvement，Production and Uses，第2版，Monograph.，16：249，1987；Fehr，“Principles of variety development，”Theory and Technique，(卷1)与Crop Species Soybean(卷2)，Iowa State Univ.，Macmillan Pub.Co.，NY，360-376，1987)。

用单分子标记进行基因分型的方法

用单分子标记(例如，大豆基因组多态性)进行基因分型的方法也可以用于将大豆植物的表型性状与基因型相关联。检测来自至少两个具有等位基因DNA的大豆植物的组织中的DNA或mRNA，以确定是否存在本发明提供的作为分子标记的多态性。鉴定分子标记与表型性状之间的关联，其中所述标记是在表1或表3中确定的。在另一方面，在染色体的特定基因座中具有等位基因DNA的大豆植物分离群体中，将性状与基因型相关联，所述基因座对目标性状具有表型效应，并且其中分子标记定位于该基因座之中或附近。

用单分子标记(例如，大豆基因组多态性)进行基因分型的方法也可以用来选择用于育种的亲本植物、后代植物或测试植物。在这种情况下，多态性与赋予一种或多种理想的表型特状的染色体区域遗传连锁。选择包含与表型性状相关联的特定等位基因状态的亲本、后代或测试大豆植物提供了加速的和较低成本的育种。

预期本文在表1或表3中公开的某些大豆基因组多态性可以与给定的表型性状直接相关，因为它们包括某些改变赋予性状或有助于性状表达的基因的调控或编码序列的等位基因状态。这些性状包括产量、倒伏、成熟、株高、真菌病抗性，例如对以下病害的抗性：亚洲大豆锈菌(豆薯层锈菌(Phakopsora pachyrhizi)、山马蝗层锈菌(Phakopsora meibomiae))、大豆炭疽病(平头刺盘孢(Colletotrichumtruncatum)、束状刺盘孢截短变种(Colletotrichum dematium var.truncatum)、大豆刺盘孢(Glomerella glycines))、疫霉根茎腐病(疫霉属的种(Phytophthora sp.))、白霉菌(核盘菌属的种(Sclerotinia sp.))、核盘菌茎腐病(Sclerotinia sclerotiorum)、猝死综合征(腐皮镰刀菌(Fusarium solani))、镰刀菌根腐病(镰刀菌属的种(Fusarium spp.))、炭腐病(菜豆壳球孢(Macrophomina phaseolina))、褐斑病(大豆壳针孢(Septoria glycines))、腐霉种腐病(瓜果腐霉(Pythiumaphanidermatum)、德巴利腐霉(Pythium debaryanum)、畸雌腐霉(Pythiumirregulare)、终极腐霉(Pythium ultimum)、结群腐霉(Pythiummyriotylum)、簇囊腐霉(Pythium torulosum))、豆荚疫病(Pod blight)(菜豆间座壳大豆变种(Diaporthe phaseolorum var.sojae))、茎疫病(Phomopsis longicola)、拟茎点霉种腐病(拟茎点霉属的种(Phomopsisspp.))、霜霉病(东北霜霉(Peronospora manshurica))、丝核菌根茎腐病、丝核菌空气枯萎病(立枯丝核菌(Rhizoctonia solani))、褐茎腐病(Phialophora gregata)、茎溃疡病(Diaporthe phaseolorum var.caulivora)、紫斑病(菊池尾孢(Cercospora kikuchii))、靶斑病(TargetSpot)(链格孢属的种(Alternaria sp.))、灰斑病(Frogeye Leafspot)(大豆尾孢(Cercospora sojina))、白绢病(Southern blight)(齐整小核菌(Sclerotium rolfsii))、黑叶枯病(Arkoola nigra)、黑根腐病(Thielaviopsis basicola)、笄霉叶枯病(漏斗笄霉(Choanephorainfundibulifera)、三孢笄霉(Choanephora trispora))、小光壳(Leptosphaerulina)叶斑病(三叶草小光壳(Leptosphaerulina trifolii))、Mycoleptodiscus根腐病(Mycoleptodiscus terrestris)、新赤壳菌茎腐病(侵菅新赤壳菌(Neocosmospora vasinfecta))、叶点霉(Phyllosticta)叶斑病(Phyllosticta sojicola)、棘壳孢(Pyrenochaeta)叶斑病(大豆棘壳孢(Pyrenochaeta glycines))、红色冠腐病(Cylindrocladiumcrotalariae)、红色叶斑病(Dactuliochaeta glycines)、疮痂病(Scab)(Spaceloma glycines)、匍柄霉叶枯病(Stemphylium botryosum)、靶斑病(山扁豆生棒孢(Corynespora cassiicola))、Nematospora coryli(酵母斑)和多主瘤梗孢(Phymatotrichum omnivorum)(棉根腐病)和其他腐烂、枯萎、锈病、细菌性病害，如杆菌种腐病(枯草芽孢杆菌(Bacillus subtilis))、细菌疫病(萨氏假单胞菌大豆致病变种(Pseudomonas savastonoi pv.glycinea))、细菌性皱叶病(丁香假单胞菌丁香亚种(Pseudomonas syringae subsp.syringae))、细菌性脓疱(Xanthomonas axonopodis pv.glycines)、细菌性褐斑病(萎蔫棒杆菌萎蔫致病亚种(Curtobacterium flaccumfaciens pv.flaccumfaciens))、细菌性萎蔫病(萎蔫棒杆菌萎蔫致病亚种(Curtobacterium flaccumfacienspv.flaccumfaciens)、青枯雷尔氏菌(Ralstonia solanacearum))和野火病(丁香假单胞菌烟草致病变种(Pseudomonas syringae pv.tabaci))，病毒病抗性，例如，对以下病毒的抗性：苜蓿花叶病毒AMV(紫花苜蓿镶嵌病毒(Alfamovirus))、菜豆荚斑驳病毒BPMV(豇豆花叶病毒(Comovirus))、菜豆黄色花叶病毒BYMV(马铃薯Y病毒(Potyvirus))、豇豆褪绿斑驳病毒CCMV(雀麦花叶病毒(Bromovirus))、绿豆黄色花叶病毒MYMV(菜豆金黄花叶病毒(Begomovirus))、花生斑驳病毒(马铃薯Y病毒)、花生条纹病毒PStV(马铃薯Y病毒)、花生矮化病毒PSV(黄瓜花叶病毒(Cucumovirus))、大豆褪绿斑驳病毒SbCMV(花椰菜花叶病毒(Caulimovirus))、大豆皱叶病毒SCLV(菜豆金黄花叶病毒)、大豆矮花病毒SbDV(黄矮病毒(Luteovirus))、大豆花叶病毒SMV(马铃薯Y病毒)、大豆重度矮化病毒SSSV(蠕传多角体病毒(Nepovirus))和烟草环斑病毒TRSV(蠕传多角体病毒)，昆虫病害抗性，如大豆蚜虫抗性(大豆蚜(Aphis glycines))，寄生虫病抗性，例如对以下线虫的抗性：大豆胞囊线虫(Heterodera glycines)、根结线虫(南方根结线虫(Meloidogyne incognita)、花生根结线虫(Meloidogynearenaria)和爪哇根结线虫(Meloidogyne javanica))、纽带线虫(Lancenematode)(矛状线虫(Hoplolaimus Columbus)、帽状纽带线虫(Hoplolaimus galeatus)、大针纽带线虫(Hoplolaimus magnistylus))、损害线虫(短体线虫属的种(Pratylenchus spp.))、针线虫(突出针线虫(Paratylenchus projectus)、Paratylenchus tenuicaudatus、肾形线虫(Rotylenchulus reniformis)、环线虫(装饰小环线虫(Criconemellaornata))、鞘线虫(鞘线虫属的种(Hemicycliophora spp.))、螺旋线虫属的种(Heliocotylenchus spp.)、针刺线虫(细刺线虫(Belonolainusgracilis)、Belonolainus longicaudatus)、矮化线虫(Quinisulcius acutus、矮化线虫属的种(Tylenchorhynchus spp.))和粗短根线虫(Stubby rootnematode)(微小拟毛刺线虫(Paratrichodorus minor))等，非生物应激耐受性，例如，耐旱性、耐寒性、耐热性、耐风暴性、营养缺乏等，和质量性状，例如，低亚麻酸含量、提高的淀粉含量、提高的油含量、减少的饱和脂肪酸含量、提高的蛋白质含量、增加的赖氨酸含量等。当大豆基因组多态性以这种方式与性状直接关联时，它在旨在将该性状引入许多不同的大豆遗传背景内的大豆育种计划中是非常有用的。

在此特别涉及使用与产量单元型特别相关的分子标记。可以使用的与产量单元型相关的大豆基因组DNA多态性来自SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和SEQ ID NO：1094。与产量单元型更密切相关的大豆基因组DNA多态性选自SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142和80。与产量单元型具有更大关联度的大豆基因组DNA多态性选自SEQ ID NO：3122、2914、3984、3608和1448。与产量单元型最密切相关的大豆基因组多态性包括SEQ ID NO：3122的多态性。

可以通过使用多个标记以使与可能不提供农艺学优良性质的基因组区域相关的连锁阻力减至最小，来加速与此单标记相关的基因组区域的渗入。可以通过使用多个直接位于单标记侧翼的标记，以使可能与密切相关的基因组区域相关的连锁阻力减至最小，来加速与此单标记密切关联的基因组区域的渗入。因此，使用聚类的一组2、5、10或20个位于单标记近端和远端10、5、2或1cm的标记，可以提供所需要的与单标记相关的基因组区域的渗入，同时不需要的直接侧翼区域的渗入减至最少。也可以通过使用分布于基因组中的多个标记以使可能与位于同一染色体远端区域上和其它染色体上的基因组区域密切关联的任何连锁阻力减至最小，来加速与此单标记密切相关的基因组区域的渗入。这组多个标记可以包括另外20个标记，每个染色体有至少一个标记。然而，在优选的实施方案中，标记密度是每个染色体至少大约10个标记，优选地每个染色体大约20个标记，更优选地每个染色体至少大约100个标记，以有效地区分来自供体和接受体亲本的基因组区域。因而，使用与单标记直接连锁或分布于基因组上的多个侧翼标记可以提供在选择的杂交后代中最大回收接受体亲本。

用大豆基因组DNA多态性组进行基因分型的方法

本发明尤其涉及采用可以对多种不同的多态性进行分型的核酸分子组的基因分型方法。在这样的方法中，对有限数量的至少两种大豆基因组多态性进行分型。查询的这种有限数量的大豆基因组多态性可以包含至少2、5、10或20种不同的基因型，它们在表1或3中表示为2、5、10或20种不同的SEQ ID NO。这些基因分型方法必然需要使用可以对大豆基因组多态性组进行分型的核酸分子组。

在某些应用中，这些基因分型方法使用在给定染色体区间集中的多个分子标记(即大豆基因组多态性)。用于建立和追踪种质身份的高密度指纹可以通过进行基因分型方法来获得，所述方法利用在特定染色体区间和/或赋予某些性状的某些基因座周围集中或群集的多个分子标记。高密度指纹信息可以用于评估种质多样性，行使遗传质量保证功能，开发罕见的等位基因，评估外来种质库和评估遗传纯度。这些高密度指纹可以用来建立标记-性状关联数据库，有益于整个作物育种计划。高密度指纹也可以用来建立和保护种质所有权。可以从表3提供的定位的大豆多态性中选择聚集在需要的染色体区间或遗传性状周围的标记组。

这些用多个分子标记进行基因分型的方法也可用于将大豆植物的表型性状与基因型相关联。检测来自至少两个具有等位基因DNA的大豆植物的组织中的DNA或mRNA，以确定是否存在本发明提供的作为分子标记的一组有限系列的多态性。确定这组分子标记与这组表型性状之间的关联，其中，这组分子标记至少包括2种、至少5种、或至少10种与本发明的多态性基因座连锁的分子标记，例如至少10种与定位的多态性连锁的分子标记，例如，如表3中确定的那些。在一个更优选的方面，在对目标性状赋予表型效应的染色体基因座中具有等位基因DNA的大豆植物分离群体中，性状与基因型相关联，其中分子标记之间和多态性与性状之间的关联程度允许确定多态性和性状基因座的线性次序。在这样的方法中，至少5个分子标记与允许基因座不平衡作图的基因座连锁。

在其它应用中，这些基因分型方法使用分布于大豆基因组中的分子标记。在这些方法中，分子标记可以分散在一个染色体上、位于多条染色体上、位于所有染色体上或位于每条染色体的每个臂上。在一个具体的实施方案中，在使用多个标记的基因分型方法中使用的至少1种分子标记定位于所有20条大豆染色体的每条染色体上，因此必须对至少20种大豆基因组DNA多态性进行分型。但是，也涉及该方法的其它实施方案，其中至少10种大豆基因组DNA多态性定位于每条染色体上，因此必须对至少200种大豆基因组DNA多态性进行分型。同样，也涉及其它实施方案，必须对每条染色体上的至少20种大豆基因组DNA多态性进行分型(需要对至少400种多态性进行分型)，或对每条染色体上的至少50种大豆基因组DNA多态性进行分型(需要对至少1,000种多态性进行分型)。也涉及需要对每条染色体上至少100种大豆基因组DNA多态性进行分型的实施方案(需要对至少2000种多态性进行分型)。分布于大豆基因组上的标记组可以选自用于这些方法的表3提供的定位的大豆多态性。

使用分布于大豆基因组上的分子标记的基因分型方法可以用于多种应用。在一种应用中，基因分型方法用于选择用于育种的亲本植物、后代植物或测试植物。涉及这些基因分型方法在大豆育种计划中的多种应用。这些基因分型方法可用于促进一种或多种性状、基因组基因座的渗入和/或转基因从一个遗传背景向不同的遗传背景中的插入。一般来说，查询来自远交(out-crossed)群体的后代植物中选择的标记组，以鉴定并选择包含所需的性状、基因组基因座和/或转基因插入、而仍包含尽可能多的来自远交的不同遗传背景的等位基因的个体后代。这些方法可以通过几代加速所需的性状、基因组基因座的渗入和/或转基因向新遗传背景中的插入。

这些方法还通过探询大豆遗传图谱上平均密度小于大约10cM的分子标记如SNP的集合提供性状筛选。可以在一种或多种表型性状的范围内，分析与表1或表3的多态性基因座连锁的分子标记的存在与否，以鉴定在与一种或多种所述性状相关的一个或多个基因组区域处的一种或多种特定分子标记等位基因。在本发明的另一方面，利用分子标记鉴定单元型，该单元型是基因组DNA的等位基因片段，其特征在于处于连锁不平衡的至少两种多态性，并且所述多态性在不超过10厘摩长度的基因组窗口中，例如，不超过大约8厘摩或更小的窗口中，例如，在1-5厘摩的范围内。在这些方法的某些实施方案中，这样的分子标记的组在每个大豆染色体中的一系列相邻的基因组窗口中鉴定多种单元型，例如，用这些窗口提供基本上完全的基因组覆盖。使用足够大的和多样性的大豆育种群体，可以在每个窗口中鉴定大量的单元型，从而提供可与一种或多种性状相关的等位基因DNA，以允许聚焦的标记辅助的育种。因此，本发明的大豆分析的一方面进一步包括以下步骤：对所述大豆植物群体表征一种或多种性状，并将所述性状与所述等位基因SNP或Indel多态性进行关联，优选地进行组织以定义单元型。这些性状包括产量、倒伏、成熟、株高、真菌病抗性，例如对以下病害的抗性：亚洲大豆锈菌(豆薯层锈菌(Phakopsora pachyrhizi)、山马蝗层锈菌(Phakopsorameibomiae))、大豆炭疽病(平头刺盘孢(Colletotrichum truncatum)、束状刺盘孢截短变种(Colletotrichum dematium var.truncatum)、大豆刺盘孢(Glomerella glycines))、疫霉根茎腐病(疫霉属的种(Phytophthorasp.))、白霉菌(核盘菌属的种(Sclerotinia sp.))、核盘菌茎腐病(Sclerotinia sclerotiorum)、猝死综合征(腐皮镰刀菌(Fusariumsolani))、镰刀菌根腐病(镰刀菌属的种(Fusarium spp.))、炭腐病(菜豆壳球孢(Macrophomina phaseolina))、褐斑病(大豆壳针孢(Septoria glycines))、腐霉种腐病(瓜果腐霉(Pythium aphanidermatum)、德巴利腐霉(Pythium debaryanum)、畸雌腐霉(Pythium irregulare)、终极腐霉(Pythium ultimum)、结群腐霉(Pythium myriotylum)、簇囊腐霉(Pythium torulosum))、豆荚疫病(Pod blight)(菜豆间座壳大豆变种(Diaporthe phaseolorum var.sojae))、茎疫病(Phomopsislongicola)、拟茎点霉种腐病(拟茎点霉属的种(Phomopsis spp.))、霜霉病(东北霜霉(Peronospora manshurica))、丝核菌根茎腐病、丝核菌空气枯萎病(立枯丝核菌(Rhizoctonia solani))、褐茎腐病(Phialophora gregata)、茎溃疡病(Diaporthe phaseolorum var.caulivora)、紫斑病(菊池尾孢(Cercospora kikuchii))、靶斑病(TargetSpot)(链格孢属的种(Alternaria sp.))、灰斑病(Frogeye Leafspot)(大豆尾孢(Cercospora sojina))、白绢病(Southern blight)(齐整小核菌(Sclerotium rolfsii))、黑叶枯病(Arkoola nigra)、黑根腐病(Thielaviopsis basicola)、笄霉叶枯病(漏斗笄霉(Choanephorainfundibulifera)、三孢笄霉(Choanephora trispora))、小光壳(Leptosphaerulina)叶斑病(三叶草小光壳(Leptosphaerulina trifolii))、Mycoleptodiscus根腐病(Mycoleptodiscus terrestris)、新赤壳菌茎腐病(侵菅新赤壳菌(Neocosmospora vasinfecta))、叶点霉(Phyllosticta)叶斑病(Phyllosticta sojicola)、棘壳孢(Pyrenochaeta)叶斑病(大豆棘壳孢(Pyrenochaeta glycines))、红色冠腐病(Cylindrocladiumcrotalariae)、红色叶斑病(Dactuliochaeta glycines)、疮痂病(Scab)(Spaceloma glycines)、匍柄霉叶枯病(Stemphylium botryosum)、靶斑病(山扁豆生棒孢(Corynespora cassiicola))、Nematospora coryli(酵母斑)和多主瘤梗孢(Phymatotrichum omnivorum)(棉根腐病)和其他腐烂、枯萎、锈病、细菌性病害，如杆菌种腐病(枯草芽孢杆菌(Bacillus subtilis))、细菌疫病(萨氏假单胞菌大豆致病变种(Pseudomonas savastonoi pv.glycinea))、细菌性皱叶病(丁香假单胞菌丁香亚种(Pseudomonas syringae subsp.syringae))、细菌性脓疱(Xanthomonas axonopodis pv.glycines)、细菌性褐斑病(萎蔫棒杆菌萎蔫致病亚种(Curtobacterium flaccumfaciens pv.flaccumfaciens))、细菌性萎蔫病(萎蔫棒杆菌萎蔫致病亚种(Curtobacterium flaccumfacienspv.flaccumfaciens)、青枯雷尔氏菌(Ralstonia solanacearum))和野火病(丁香假单胞菌烟草致病变种(Pseudomonas syringae pv.tabaci))，病毒病抗性，例如，对以下病毒的抗性：苜蓿花叶病毒AMV(紫花苜蓿镶嵌病毒(Alfamovirus))、菜豆荚斑驳病毒BPMV(豇豆花叶病毒(Comovirus))、菜豆黄色花叶病毒BYMV(马铃薯Y病毒(Potyvirus))、豇豆褪绿斑驳病毒CCMV(雀麦花叶病毒(Bromovirus))、绿豆黄色花叶病毒MYMV(菜豆金黄花叶病毒(Begomovirus))、花生斑驳病毒(马铃薯Y病毒)、花生条纹病毒PStV(马铃薯Y病毒)、花生矮化病毒PSV(黄瓜花叶病毒(Cucumovirus))、大豆褪绿斑驳病毒SbCMV(花椰菜花叶病毒(Caulimovirus))、大豆皱叶病毒SCLV(菜豆金黄花叶病毒)、大豆矮花病毒SbDV(黄矮病毒(Luteovirus))、大豆花叶病毒SMV(马铃薯Y病毒)、大豆重度矮化病毒SSSV(蠕传多角体病毒(Nepovirus))和烟草环斑病毒TRSV(蠕传多角体病毒)，昆虫病害抗性，如大豆蚜虫抗性(大豆蚜(Aphis glycines))，寄生虫病抗性，例如对以下线虫的抗性：大豆胞囊线虫(Heterodera glycines)、根结线虫(南方根结线虫(Meloidogyne incognita)、花生根结线虫(Meloidogynearenaria)和爪哇根结线虫(Meloidogyne javanica))、纽带线虫(Lancenematode)(矛状线虫(Hoplolaimus Columbus)、帽状纽带线虫(Hoplolaimus galeatus)、大针纽带线虫(Hoplolaimus magnistylus))、损害线虫(短体线虫属的种(Pratylenchus spp.))、针线虫(突出针线虫(Paratylenchus projectus)、Paratylenchus tenuicaudatus、肾形线虫(Rotylenchulus reniformis)、环线虫(装饰小环线虫(Criconemellaornata))、鞘线虫(鞘线虫属的种(Hemicycliophora spp.))、螺旋线虫属的种(Heliocotylenchus spp.)、针刺线虫(细刺线虫(Belonolainusgracilis)、Belonolainus longicaudatus)、矮化线虫(Quinisulcius acutus、矮化线虫属的种(Tylenchorhynchus spp.))和粗短根线虫(Stubby rootnematode)(微小拟毛刺线虫(Paratrichodorus minor))等，非生物应激耐受性，例如，耐旱性、耐寒性、耐热性、耐风暴性、营养缺乏等，和质量性状，例如，低亚麻酸含量、提高的淀粉含量、提高的油含量、减少的饱和脂肪酸含量、提高的蛋白质含量、增加的赖氨酸含量等。

实施例

本文包括下面的实施例来证明本发明的优选的实施方案。本领域的技术人员应该理解，实施例中公开的技术代表了本发明人发现的在实施本发明中运用良好的技术，因此可被认为构成了实施本发明的优选方式。然而，本领域的技术人员根据本公开内容应该理解，在不背离本发明的概念、精神和范围的情况下，可以对公开的具体实施方案进行许多改变，而仍然获得相同或类似的结果。更具体地说，显然某些化学和生理学相关的试剂可以代替本文中所述的试剂，而将获得相同或相似的结果。所有这些对于本领域技术人员明显的类似的代替和修改被认为是在所附的权利要求书限定的本发明的精神、范围和概念之内。

实施例1

本实施例说明为了富集独特/编码序列基因组DNA，使用对甲基化胞嘧啶残基敏感的酶制备简化形式的文库。

基因组DNA提取方法是本领域众所周知的。一种使产量和方便性都达到最佳的优选的方法是用来自Life Technologies(Grand Island，NY)的“植物DNAzol试剂”提取DNA。简单地说，用研钵和研杵在液氮中研磨冷冻的叶组织。然后用DNAzol试剂提取磨碎的组织。这除去了细胞蛋白质、细胞壁物质和其它碎片。用该试剂提取后，DNA经沉淀，洗涤，再悬浮，并用RNA酶处理以除去RNA。再次沉淀DNA，并再悬浮于适当体积的TE中(使浓度为1μg/μl)。该基因组DNA备用于文库构建。

分别用Pst I限制性内切核酸酶消化来自为了检测多态性而比较的两个大豆系的基因组DNA，Pst I限制性内切核酸酶为DNA片段的末端提供粘性末端，该粘性末端可以连接到具有相同限制性位点的质粒中。举例来说，将100单位Pst I添加到20微克的DNA中，并在37℃温育8小时。在1％的低熔点琼脂糖凝胶上通过电泳分离消化的DNA产物，以按大小分离DNA片段。将来自两个大豆系的消化的DNA并排加样到凝胶上(之间用一个电泳泳道作为间隔)。将1-KB DNA阶梯分子量标准和100-bp DNA阶梯分子量标准加样到两个大豆DNA泳道的各一侧。这些分子量标准作为消化的大豆DNA的大小分级分离的指导。依照500-600bp、600-700bp、700-800bp、800-900bp、900-1100bp、1100-1500bp、1500-2000bp、2000-2500bp和2500-3000bp的大小部分，从凝胶上逐步切下500-3000bp范围的片段。使用β-琼脂糖酶纯化每个部分中的DNA，并连接到pUC18的Pst I克隆位点中。质粒连接产物通过电穿孔转化到DH10B大肠杆菌细菌宿主中，以产生简化形式的文库。例如，大约500ng大小选择的DNA与50ng去磷酸化的pUC18载体连接。

通过电穿孔进行转化，简化形式的Pst I文库的转化效率是1微升连接产物大约50,000-300,000个转化体，或1000-6000个转化体/ngDNA。

评价质量的基本试验包括平均插入大小、叶绿体/线粒体DNA含量以及重复序列的分数。

在文库构建过程中评估该文库的平均插入大小。通过每个连接测定10-20个克隆检测每个连接，以确定平均插入大小。使用标准的微量制备方案从重组克隆中分离DNA，用Pst I消化，以使插入片段从载体上释放出来，然后使用1％的琼脂糖凝胶电泳进行大小分离(Maule，Molecular Biotechnology 9：107-126(1998)，本文引入其全文作为参考)。

通过对克隆(400)小样本进行测序，并相对各种序列数据库交互核对获得的序列，评估叶绿体/线粒体DNA含量和重复序列在文库中的百分比。一些重复元件不存于数据库中，但通常可以通过相同序列的大量拷贝来鉴定。例如，在对一组400个克隆进行测序之后，没有通过重复元件数据库过滤但在样品中以超过10倍存在的任何序列被认为是重复元件。

通过插入从以下大豆系获得的富含编码区的DNA构建本发明的大豆简化形式文库：A2869、A3244、CX400、AG2403、AG2801、DKB31-51、AG3602、CMA5901C0C、A5427、N94-552、Hutchison、Essex、Accomac、Lee74、AG4201、AG5501、AG5605、AG4403、HS1、PIC、Minsoy、Noir和MO17Williams82。

实施例2

本实施例说明从实施例1制备的简化形式文库中的克隆确定大豆基因组DNA序列。两种基本方法可以用于DNA测序：Sanger等人，Proc.Natl.Acad.Sci.USA 74：5463-5467(1977)的链终止法，以及Maxam和Gilbert，Proc.Natl.Acad.Sci.USA 74：560-564(1977)的化学降解法。技术的自动化和进步，例如用基于荧光的测序代替放射性同位素，减少了DNA测序所需的工作(Craxton，Methods，2：20-26(1991)，Ju等人，Proc.Natl.Acad.Sci.USA 92：4347-4351(1995)及Tabor和Richardson，Proc.Natl.Acad.Sci.USA 92：6339-6343(1995))。自动化测序仪可以获自，例如，Applied Biosystems，FosterCity，California(ABI

systems)；Pharmacia Biotech，Inc.，Piscataway，New Jersey(Pharmacia ALF)，LI-COR，Inc.，Lincoln，Nebraska(LI-COR 4,000)和Millipore，Bedford，Massachusetts(Millipore BaseStation)。

通过可从CodonCode Corporation，Dedham，MA获得的PHRED分配来自跟踪文件(trace files)的序列碱基识别(base calling)和质量得分，Brent Ewing，等人“Base-calling of automated sequencer tracesusing phred”，1998，Genome Research，第8卷，第175-185和186-194页描述了该PHRED，本文引入该文献作为参考。

碱基识别完成后，通过切去质量较差的末端序列提高序列质量。如果产生的序列小于50bp，则将它删除。删除整体质量小于12.5的序列。而且，除去污染序列，例如大肠杆菌BAC和载体序列和亚克隆载体。使用可从DoubleTwist Inc.，Oakland，CA获得的PangeaClustering and Alignment Tools，通过比较序列对的重叠碱基，装配叠连群。使用下列高严格性参数确定重叠：字长＝8；窗口大小＝60；同一性为93％。使用可从CodonCode Corporation获得的PHRAP片段装配程序，使用0.5或更低的“重复严格性”参数，重新装配群簇(clusters)。最终的装配输出包含序列的集合，其中包括代表重叠聚类序列(叠连群)的共有序列的叠连群序列，和不存在于相关序列(单拷贝序列)的任何群簇中的单拷贝序列(singleton)。总起来说，由DNA装配产生的叠连群和单拷贝序列被称为岛(islands)。

实施例3

本实施例说明通过比较来自如实施例2制备的至少2个单独大豆系的叠连群和单拷贝序列的序列对比，来鉴定SNP和Indel多态性。将来自多个大豆系的序列装配成具有一种或多种多态性、即SNP和/或Indel的基因座。合格的候选多态性具有以下参数：

用于共有比对的叠连群或单拷贝序列的最小长度是200个碱基。

在候选SNP每一侧上的15个碱基的区域中，观测到的碱基的同一性百分比是75％。

在多态性位点处的每个叠连群中的最小BLAST质量是35。

在多态性位点每一侧的15个碱基的区域中，最小BLAST质量是20。

多个具有合格的多态性的基因座被确定为具有如SEQ ID NO：1至SEQ ID NO：7800报告的共有序列。表1中确定了每个基因座中的合格的SNP和Indel多态性。更具体地，表1如下确定了多态性的类型和位置：

SEQ_NUM指多态性大豆DNA基因座的SEQ ID NO.(序列ID号)。

CONSSEQ_ID指多态性大豆DNA基因座的任意确定的名称。

MUTATION_ID指每种多态性的任意确定的名称。

START_POS指在多态性大豆DNA基因座的核苷酸序列中多态性开始的位置。

END_POS指在多态性大豆DNA基因座的核苷酸序列中多态性结束的位置；对于SNP，START_POS和END_POS是共同的。

TYPE指确定多态性为SNP或IND(Indel)。

ALLELE和STRAIN指特定等位基因大豆品种中的多态性的核苷酸序列。

实施例4

本实施例说明利用引物碱基延伸检测SNP多态性。

使用正向和反向PCR引物扩增少量的大豆基因组DNA(如大约10ng)，该引物设计为具有55℃的与模板的退火温度，即，在特定分子标记的多态性的周围。将PCR产物加到新板中，其中延伸引物与GBA板中的反应孔表面共价结合。加入含有DNA聚合酶、2种差异标记的ddNTP和延伸缓冲液的延伸混合物。GBA板在42℃下温育15分钟，以允许延伸。通过用合适的缓冲液洗涤，从孔中除去反应混合物。对于每种标记，通过相继与第一和第二检测试剂温育来检测这两种标记。通过以下步骤测定特定ddNTP-FITC的掺入：与HRP-抗-FITC温育，接着洗涤孔，接着在含有HRP的发色底物的缓冲液中温育。在适于HRP反应产物的波长处，用分光光度法测量每个孔的反应程度。再次洗涤该孔，用AP-链霉抗生物素蛋白重复该程序，接着在含有AP的发色底物的缓冲液中温育，并在适于AP反应产物的波长处进行分光光度法测量。

结果分析

从对检测步骤特异性标记的反应产物测量的吸光度推断每种标记ddNTP的掺入程度，并从这些吸光度相对于已知基因型的标准和无模板对照反应的比例推断样品的基因型。在最常见的做法中，观察到的每个数据点的吸光度相对于彼此在散点图中绘图，产生“等位图”。利用该实施例的单碱基延伸试验的一个成功的基因分型试验提供了如图2所示的等位图，其中数据点分为四个群簇：纯合子1(例如，A等位基因)、纯合子2(例如，G等位基因)、杂合子(每个样品含有两个等位基因)和由无模板对照或失败的扩增或检测产生的“无信号”簇。

实施例5

本实施例说明利用标记探针降解试验检测SNP多态性。在5μl的总体积中，一定量的大豆基因组模板DNA(如大约2-20ng)与如表2所述的4种寡核苷酸(即正向引物、反向引物、具有附着在5′端的VIC报道分子的杂交探针和具有附着在5′端的FAM报道分子的杂交探针)以及含有被动参比染料ROX的PCR反应缓冲液相混合。使用60℃的退火-延伸温度，进行PCR反应35个循环。反应后，使用荧光计确定每个荧光团的荧光，以及被动参比的荧光。每个荧光团的荧光值相对于被动参比的荧光值标准化。每一个样品的标准化的值相对于彼此绘图，以产生等位图。使用本实施例的引物和杂交探针的一个成功的基因分型试验提供了如图2所示的在可清楚分开的群簇中具有数据点的等位图。

表2.使用SNP多态性的标记探针降解检测的分子标记试验的例子。每个试验提供两个用于扩增横跨多态性的区域的寡核苷酸引物，和两个附着有用于SNP等位基因检测的荧光报告分子的寡核苷酸探针。有用的报告染料包括但不限于6-羧基-4，7，2’，7’-四氯荧光素(TET)、2′-氯-7′-苯基-1，4-二氯-6-羧基荧光素(VIC)和6-羧基荧光素亚磷酰胺(FAM)。一种有用的猝灭剂是6-羧基-N，N，N’，N’-四甲基罗丹明(TAMRA)。

为证实试验产生精确的结果，对代表三种可能的基因型(即两种纯合子等位基因和一种杂合子样品)中的每一种的已知基因型身份的多个重复样品进行每个新的试验。为了成为有效的和有用的试验，它必须产生可清楚分开的数据点簇，使得可以为至少90％的数据点分配三种基因型中的一种，并且观察到这种分配对于至少98％的数据点是正确的。在此验证步骤后，对两个高度近交的个体之间的杂交后代进行试验，以获得分离数据，然后利用该分离数据计算多态性基因座的基因图谱位置。

实施例6

本实施例说明，对于大豆系A3244和AG5501杂交产生的476个F₂植物，基于超过2000个SNP的基因型，本发明基因座中的分子标记的遗传作图。作图之前，除去任何显示扭曲的分离的基因型(对于分离比为1∶1的卡方检验，P＜1e-5)。低α水平用来说明多重检验的问题。

一方面，可以使用由Stam，P.“Construction of integrated geneticlinkage maps by means of a new computer package：JoinMap，The PlantJournal，3：739-744(1993)；Stam，P.和van Ooijen，J.W.“JoinMapversion 2.0：Software for the calculation of genetic linkage maps(1995)CPRO-DLO，Wageningen.描述的JoinMap 2.0版软件构建图谱。JoinMap实现对于多点作图的加权最小二乘方法，图中加入来自所有连锁基因座对(相邻或不相邻)的信息。使用5.0的LOD阈值形成连锁群。利用SSR和RFLP公共标记将连锁群分配到染色体上。在构建图谱之前，连锁群合并入染色体内。

其它高密度标记作图方法是本领域内已知的；关于IRI在较高分辨率作图中的应用，参见，例如，Winkler等人(Genetics 164：741-745(2003))。另外参见，Jansen等人(Theor Appl Genet 102：1113-1122(2001))。在许多条件下，Jansen等人的方法导致非常近似于最大似然图。此外，由这种方法评估的图谱与使用JoinMap 2.0获得的图谱非常一致。此外，上述的和本文作为参考引入的方法的组合可以用于在一定范围的群体结构以及计算限制下最有效地调节(leverage)标记数据。

本发明的另一方面，利用Kosambi作图函数将重组部分转化为图谱距离。定位的SNP分子标记在表3中确定，其中，“LG”确定连锁群或染色体，“位置”确定对于根据“Consseq_ID”确定的SNP，以cM为单位测量的距大豆染色体5′端的距离。对于表3中所列的某些定位的多态性标记，多次列出突变ID，其表明基于多重基因分型试验进行作图。多重基因分型试验的图谱位置一般用于证实图谱位置，除了在图谱位置分歧的情况下以外，例如，由于试验设计或实践的误差。作图的分子标记的密度和分布如图1所示。

实施例7

本实施例说明使用表1中和SEQ ID NO：1-7800的DNA序列中公开的分子标记的本发明的方法。

使用基于SEQ ID NO：1-7800的序列，如实施例5中所述制备的用于表1中确定的每种分子标记的引物对和探针对，分析具有不同的遗传的大豆育种群体。密切连锁的分子标记被确定为大豆基因组中大约10厘摩的相邻基因组窗口之内的特征性单元型。代表群体的至少4％的单元型与对于大豆群体的每个成员确定的性状值相关，包括产量、成熟度、倒伏、株高、锈病抗性、耐旱性和冷发芽的性状值。每个单元型的性状值在各为10厘摩的窗口内排序。分析来自群体的随机交配成员的后代种子在每个窗口中的单元型的身份。基于在所述种子中确定的单元型的高性状值，选择后代种子进行种植。

实施例8

本实施例说明可用于获得用于育种的、具有优选性状的亲本植物、后代植物或测试植物的多态性的鉴定。在这个具体的实施例中，为了说明性的目的，已选择多态性用于鉴定具有优选产量性状的植物。但是，也预计可以以类似的方式鉴定可用于鉴定其它优选性状的其它标记(即，通过指出多态性的遗传图谱位置在单元型窗口内的定位)。进一步预期，本实施例中披露的具体标记除了作为产量性状的标记以外也可以发现其它用途。

首先，如美国专利申请60/837864所公开的那样确定与产量相关的单元型窗口。利用表3中公开的图谱位置确定本发明的标记，该标记位于包括优选的产量单元型的单元型窗口中，并且可以用作这些区域的标记。选择与25个单元型窗口一致的25种多态性，这些窗口包括在孟山都(Monsanto)的大豆种质中与产量优势相关的25种单元型。因而对于这些产量单元型窗口的大多数提供两(2)种标记。可用于鉴定具有优选产量性状的用于育种的植物的具体标记可以选自SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和SEQ ID NO：1094。

从以上描述中可以看出，可以实现并获得本发明的几个优势。

选择并描述实施方案，以便最好地解释本发明的原理及其实际应用，从而使本领域的其它技术人员能够在各种实施方案中最好地利用本发明，并且进行各种修改以适于预期的特定应用。

本文引用了多篇专利和非专利出版物，它们的公开内容均完整引入本文作为参考。

由于在不背离本发明的范围的情况下，可以在本文描述的和说明的结构和方法中进行各种修改，上述说明书包含的或附图显示的所有内容应当解释为示例性的，而非限制性的。本发明的广度和范围不应由上述任何示例性的实施方案限制，而应该只根据下面的权利要求书及其等同物加以限定。

Claims

1.一种核酸分子文库，所述文库包括至少两组不同的核酸分子，其中，所述不同组核酸分子中的每一组允许对表1或表3中确定的相应的大豆基因组DNA多态性进行分型。

2.如权利要求1所述的文库，其中，所述不同组的核酸分子排列在至少一个固体载体上或至少一个微量滴定板上。

3.如权利要求2所述的文库，其中，所述不同组核酸分子中的每一组位于所述微量滴定板的单独的和不同的孔中。

4.如权利要求2所述的文库，其中，所述不同组核酸分子中的每一组位于所述固体载体上的不同的探询位置处。

5.如权利要求1所述的文库，其中，所述核酸分子组合在单一混合物中。

6.如权利要求1所述的文库，其中，所述不同组核酸分子中的每一组包括至少12个连续核苷酸的核酸分子，该核苷酸包括或直接邻近表1中确定的相应的多态性，并且其中至少12个连续核苷酸的该序列与包括或直接邻近所述多态性的大豆DNA片段任一链中相同数目核苷酸的序列至少90％相同。

7.如权利要求6所述的文库，其中，所述核酸分子是至少15个连续核苷酸的核酸分子。

8.如权利要求7所述的文库，其中，所述核酸分子是至少18个连续核苷酸的核酸分子。

9.如权利要求1所述的文库，其中，所述核酸分子进一步包括可检测的标记或提供可检测的标记的掺入。

10.如权利要求9所述的文库，其中，所述可检测的标记选自同位素、荧光团、氧化剂、还原剂、核苷酸和半抗原。

11.如权利要求10所述的文库，其中，所述可检测的标记通过化学反应添加到核酸上，或通过酶促反应掺入。

12.如权利要求1所述的文库，其中，所述每个不同组的核酸分子包括：

a.一对寡核苷酸引物，其中，所述寡核苷酸引物中的每一个包括至少15个核苷酸碱基，并允许PCR扩增包含表1或表3中确定的所述相应多态性之一的DNA片段，和

b.至少一种检测核酸分子，其允许检测(a)中所述扩增片段中的多态性。

13.如权利要求12所述的文库，其中，所述检测核酸包含至少12个核苷酸碱基，或包含至少12个核苷酸碱基和可检测的标记，并且其中，所述检测核酸分子的序列与包括所述多态性的权利要求1的基因座中大豆DNA片段任一链中相同数目连续核苷酸的序列至少95％相同。

14.如权利要求1所述的文库，其中，所述文库包括至少8组不同的核酸分子，其中，所述每组分子允许对表1或表3中确定的相应的不同大豆基因组DNA多态性进行分型。

15.如权利要求14所述的文库，其中，所述文库包括至少24组不同的核酸分子，其中，所述每组分子允许对表1或表3中确定的相应的不同大豆基因组DNA多态性进行分型。

16.如权利要求15所述的文库，其中，所述文库包括至少96组不同的核酸分子，其中，所述每组分子允许对表1或表3中确定的相应的不同大豆基因组DNA多态性进行分型。

17.如权利要求16所述的文库，其中，所述文库包括至少384组不同的核酸分子，其中，所述每组分子允许对表1或表3中确定的相应的不同大豆基因组DNA多态性进行分型。

18.如权利要求1所述的文库，其中，表3中确定的所述相应的不同大豆基因组DNA多态性选自SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和1094。

19.如权利要求1所述的文库，其中，选择所述不同组的核酸分子，用于鉴定在待基因分型的群体中预测为多态性的相应的不同大豆基因组DNA多态性。

20.一种计算机可读介质，在其上记录有至少两种表1或表3中确定的大豆基因组DNA多态性。

21.如权利要求20所述的计算机可读介质，其中，其上记录有至少8种表1或表3中确定的大豆基因组DNA多态性。

22.一种计算机可读介质，在其上记录有至少两种表3中确定的大豆基因组DNA多态性和每种所述大豆基因组DNA多态性的相应的遗传图谱位置。

23.如权利要求22所述的计算机可读介质，其中，其上记录有至少8种大豆基因组DNA多态性和相应的遗传图谱位置。

24.一种用于读取、分类或分析大豆基因型数据的基于计算机的系统，其包括以下构件：(a)数据存储装置，包括计算机可读介质，其中，其上记录有至少2种表1或表3中确定的大豆基因组DNA多态性；(b)搜索装置，用于比较来自至少一种测试大豆植物的大豆基因组DNA序列与步骤(a)的数据存储装置的所述多态性序列，以鉴定同源或非同源序列；和(c)检索装置，用于鉴定步骤(b)的所述测试大豆基因组序列的所述同源或非同源序列。

25.如权利要求24所述的基于计算机的系统，其中，至少96种表1或表3中确定的大豆基因组DNA多态性记录在所述计算机可读介质上。

26.如权利要求24所述的基于计算机的系统，其中，所述数据存储装置进一步包括计算机可读介质，其中，其上记录有来自至少一种所述测试大豆植物的表型性状数据。

27.如权利要求24所述的基于计算机的系统，其中，所述数据存储装置进一步包括计算机可读介质，其中，其上记录有等位基因状态与亲本、后代或测试大豆植物的关联数据。

28.如权利要求24所述的基于计算机的系统，其中，所述多种定位的表3中确定的大豆基因组DNA多态性记录在所述计算机可读介质上，并且其中，所述计算机可读介质进一步包括每种所述定位的多态性的遗传图谱位置数据。

29.一种分离的核酸分子，其用于检测代表大豆DNA中的多态性的分子标记，其中，所述核酸分子包含至少15个核苷酸，所述核苷酸包括或直接邻近所述多态性，并且其中，所述核酸分子与包括或直接邻近所述多态性的DNA任一链中相同数目连续核苷酸的序列至少90％相同，并且其中，所述多态性是在表1或表3中所确定的。

30.如权利要求29所述的分离的核酸，其中，所述核酸进一步包含可检测的标记或提供可检测的标记的掺入。

31.如权利要求30所述的分离的核酸，其中，所述可检测的标记选自同位素、荧光团、氧化剂、还原剂、核苷酸和半抗原。

32.如权利要求31所述的分离的核酸，其中，所述可检测的标记通过化学反应添加到核酸上，或者通过酶促反应掺入。

33.如权利要求29所述的分离的核酸，其中，所述表3中的多态性选自SEQ ID NO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和1094。

34.一组寡核苷酸，其包含：

a.一对寡核苷酸引物，其中，所述引物中的每一个包含至少12个连续核苷酸，并且其中，所述引物对允许PCR扩增包含表1或表3中确定的大豆基因组DNA多态性的DNA片段；和

b.至少一种检测寡核苷酸，其允许检测所述扩增片段中的多态性，其中，所述检测寡核苷酸的序列与包括或直接邻近步骤(a)的所述多态性的大豆DNA片段任一链中相同数目连续核苷酸的序列至少95％相同。

35.如权利要求34所述的一组寡核苷酸，其中，所述检测核酸包含至少12个核苷酸，并且提供可检测标记的掺入或进一步包含可检测的标记。

36.如权利要求35所述的一组寡核苷酸，其中，所述可检测的标记选自同位素、荧光团、氧化剂、还原剂、核苷酸和半抗原。

37.一种对大豆植物进行基因分型以选择用于育种的亲本植物、后代植物或测试植物的方法，所述方法包括以下步骤：

a.从至少一个大豆植物的组织获得DNA或RNA样品；

b.对于来自步骤(a)的所述样品，确定表1或表3中确定的至少一种大豆基因组DNA多态性的等位基因状态；和

c.利用步骤(b)的所述等位基因状态确定情况选择用于育种的亲本植物、后代植物或测试植物。

38.如权利要求37所述的基因分型方法，其中，所述多态性是表3中确定的定位的多态性。

39.如权利要求37所述的方法，其中，通过允许鉴定单核苷酸多态性的试验确定所述多态性的所述等位基因状态。

40.如权利要求39所述的方法，其中，所述试验选自单碱基延伸(SBE)、等位基因特异性引物延伸测序(ASPE)、DNA测序、RNA测序、基于微阵列的分析、通用PCR、等位基因特异性延伸、杂交、质谱法、连接、延伸-连接和瓣核酸内切酶介导的试验。

41.如权利要求37所述的方法，其中，确定表1或表3中确定的至少8种不同的多态性的等位基因状态。

42.如权利要求41所述的方法，其中，确定表1或表3中确定的至少48种不同的多态性的等位基因状态。

43.如权利要求42所述的方法，其中，确定表1或表3中确定的至少96种不同的多态性的等位基因状态。

44.如权利要求43所述的方法，其中，确定表1或表3中确定的至少384种不同的多态性的等位基因状态。

45.如权利要求44所述的方法，进一步包括利用步骤(b)的所述等位基因状态确定情况来选择用于育种的亲本植物、后代植物或测试植物的步骤。

46.如权利要求37所述的方法，进一步包括在计算机可读介质上存储所述一种或多种等位基因状态确定情况产生的基因型数据的步骤。

47.如权利要求46所述的方法，进一步包括将一个大豆植物与另一个大豆植物的所述基因型数据进行比较的步骤。

48.如权利要求46所述的方法，进一步包括将至少一种所述大豆植物的所述基因型数据与表型性状数据或表型性状指数数据进行比较的步骤。

49.如权利要求46所述的方法，进一步包括将至少两种所述大豆植物的基因型数据与表型性状数据或表型性状指数数据进行比较，并确定所述基因型数据和所述表型性状数据之间的一种或多种关联的步骤。

50.如权利要求49所述的方法，其中，确定所述表型性状数据或表型性状指数数据与所述基因型性状数据之间的关联，并且其中，所述基因型性状数据包括至少10种定位的表3中确定的多态性的等位基因状态确定情况。

51.一种培育大豆植物的方法，包括以下步骤：

(a)对于至少两个大豆植物的育种群体，确定与至少两个最多10厘摩的基因组窗口中的至少两个单元型相关的至少一种性状的性状值；

(b)培育所述育种群体中的两个大豆植物，以产生后代种子群体；

(c)在所述后代种子中，确定至少一种表1或表3中确定的多态性在每个所述窗口中的等位基因状态，以确定所述单元型的存在；和

(d)在所述后代种子中选择对于至少一种与确定的单元型相关的性状而言具有较高性状值的后代种子，从而培育大豆植物。

52.如权利要求51所述的方法，其中，对与基本上每条染色体整体上的每个相邻基因组窗口中的至少两个单元型相关的至少一种性状，确定其性状值。

53.如权利要求52所述的方法，其中，所述性状值鉴定选自以下的性状：除草剂耐受性、抗病性、昆虫或害虫抗性、改变的脂肪酸、蛋白质或碳水化合物代谢、增加的谷物产量、增加的油、增加的营养成分含量、提高的生长速度、提高的应激耐受性、优选的成熟度、增强的感官特性、改变的形态特征、其它农艺学性状、用于工业应用的性状、或对消费者有提高的吸引力的性状、或作为多性状指数的性状组合。

54.如权利要求53所述的方法，其中，对于每条染色体中最多10厘摩的基因组窗口中的单元型，选择具有较高产量性状值的后代种子。

55.如权利要求54所述的方法，其中，所述性状值是产量性状的性状值，且对每个窗口中的单元型的性状值进行排序；并且其中，选择窗口中的产量性状值高于所述窗口中的平均产量性状值的后代种子。

56.如权利要求55所述的方法，其中，所述单元型中的所述多态性位于包括SEQ ID NO：1至SEQ ID NO：7800的全部DNA序列的DNA序列组中。

57.一种选择用于植物育种的亲本、后代或测试植物的方法，包括以下步骤：

a)在至少第一和第二大豆近交系中，确定多种表1或表3中确定的多态性与多种性状之间的关联；

b)确定亲本、后代或测试植物中的一种或多种多态性的等位基因状态；

c)选择具有更有利的相关性状组合的亲本、后代或测试植物。

58.如权利要求57所述的方法，其中，所述亲本、后代或测试植物是大豆近交系。

59.如权利要求57所述的方法，其中，所述有利的相关性状组合提供提高的杂种优势。

60.一种提高杂种大豆植物的杂种优势的方法，包括以下步骤：

(a)在两个以上的大豆近交系中，确定表1或表3中确定的多种多态性与多种性状之间的关联；

(b)将选自步骤(a)的所述近交系的两个近交系分配至杂种优势群；

(c)在步骤(b)的至少两个近交系之间进行至少一次杂交，其中，每个近交系来自不同的和互补的杂种优势群，并且其中，对于提高杂种优势的遗传特征，优化所述互补杂种优势群；和

(d)通过步骤(c)的所述杂交获得杂种后代植物，其中，相对于与未经选择的近交系杂交产生的后代，所述杂种后代植物显示提高的杂种优势，从而提高杂种大豆植物中的杂种优势。

61.一种对大豆植物进行基因分型以选择用于育种的亲本植物、后代植物或测试植物的方法，包括以下步骤：

a.从至少一个大豆植物的组织获得DNA或RNA样品；

b.对于步骤(a)的所述样品，确定一组包含表1或表3中确定的至少两种多态性的大豆基因组DNA多态性的等位基因状态，其中，用一组提供对所述大豆基因组DNA多态性进行分型的核酸分子确定所述等位基因状态；和

c.利用步骤(b)的所述等位基因状态确定情况，来选择用于育种的亲本植物、后代植物或测试植物。

62.如权利要求61所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组包括至少5种在表1或表3中确定的多态性。

63.如权利要求61所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组包括至少10种在表1或表3中确定的多态性。

64.如权利要求61所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组包括至少20种在表1或表3中确定的多态性。

65.如权利要求61所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组包括至少2种选自下组的多态性：SEQ IDNO：3122、2914、3984、3608、1448、69、1261、3436、1142、80、88、980、538、1925、3669、2270、1397、3747、888、365、2132、1972、459、762和1094。

66.如权利要求65所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组包括至少2种选自下组的多态性：SEQ IDNO：3122、2914、3984、3608、1448、69、1261、3436、1142和80。

67.如权利要求66所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组包括至少2种选自下组的多态性：SEQ IDNO：3122、2914、3984、3608和1448。

68.如权利要求67所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组包括SEQ ID NO：3122和SEQ ID NO：2914的多态性。

69.如权利要求61所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组与对于产量、倒伏、成熟度、株高、耐旱性和冷发芽中的至少一种确定的性状值相关。

70.如权利要求69所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组与产量的性状值相关。

71.如权利要求65所述的大豆植物基因分型方法，其中，所述大豆基因组DNA多态性组与产量的性状值相关。

72.如权利要求64所述的方法，其中，所述至少20种大豆基因组DNA多态性的组鉴定分布于大豆基因组中的多态性。

73.如权利要求72所述的方法，其中，所述至少20种大豆基因组DNA多态性的组鉴定分布于大豆的一条染色体上的多态性。

74.如权利要求72所述的方法，其中，所述至少20种大豆基因组DNA多态性的组鉴定分布于大豆的至少两条染色体上的多态性。

75.如权利要求72所述的方法，其中，所述至少20种大豆基因组DNA多态性的组鉴定分布于大豆的全部染色体上的多态性。

76.如权利要求75所述的方法，其中，所述至少20种大豆基因组DNA多态性的组鉴定分布于大豆的全部染色体上的多态性，使得所述组中的至少1种所述多态性定位于每条染色体上。

77.如权利要求76所述的方法，其中，所述组中的至少10种所述大豆基因组DNA多态性定位于每条染色体上。

78.如权利要求76所述的方法，其中，所述组中的至少20种所述大豆基因组DNA多态性定位于每条染色体上。

79.如权利要求76所述的方法，其中，至少50种所述大豆基因组DNA多态性定位于每条染色体上。

80.如权利要求75所述的方法，其中，定位于染色体1上的至少一种多态性选自SEQ ID NO：4093、3168、1993、4808、5176、3705、2968、6401、7154、7741、177、4251、584、4672、4078、3248、2471、1728、4140、4169、4258、1466、5899、4203、3624、6068、6303、6309、3363、6057、2579、6431、2744、3018、6670、3133、4591、4656、3127、4306、2161、6021、3623、6504、1612、516、4296、2702、4124、1076、967、3885、800、2153、5915、7766、6672、5391、2645、382、1550、5564、1763、7566、1722、3327、3724、6359、1499、6680、1147、345、1832、608、7548、4553、5482、7055、2157、3270、6896、7347、1502、1765、4173、6150、5085、2607、6686、448、2355、2639、4850和1897。

81.如权利要求75所述的方法，其中，定位于染色体2上的至少一种多态性选自SEQ ID NO：2484、3849、6346、6230、336、2253、4062、5763、6118、1450、4299、4268、7480、7774、3664、261、4018、2265、5833、933、7547、1519、3271、4754、7691、1349、5587、6852、6500、7429、4261、3359、6845、1560、4977、1626、4440、2019、2164、690、2491、3242、5314、7053、3747、6728、389、3986、1485、1988、5472、6494、4023、221、5566、4602、6519、2042、1181、2514、3199、1462、904、7515、329、1377、6130和2194。

82.如权利要求75所述的方法，其中，定位于染色体3上的至少一种多态性选自SEQ ID NO：2222、1105、4825、1773、5419、3275、3562、4148、6154、3488、3349、7710、3721、4423、1313、3801、3103、4222、2910、2504、3730、3834、6625、355、5025、4164、2260、6368、2022、3567、2957、3362、359、6180、2070、5380、917、6320、5213、1186、1616、6539、7191、5055、7378、1269、7380、1986、2274、5838、6098、3758、1280、6022、6977、6783、3060、6560、5330、1630、2966、2166、5858、7297、2650、6467、1075和6910。

83.如权利要求75所述的方法，其中，定位于染色体4上的至少一种多态性选自SEQ ID NO：5919、631、6047、6592、283、6474、4015、1740、3995、3756、5255、2341、2933、292、3984、5538、3157、6439、368、1082、7360、2108、2629、362、4489、4980、5522、463、163、5923、6020、1995、6388、1151、3463、5658、443、5236、2637、3238、1950、2824、3674、5762、3210、7511、2842、2319、4531、2883、2225、4816、892、7386、4509、5846、823、3797、3024、3746、7637、4171、4257、2622、6249、950、4156、3339、3717、976、1161、5885、1099、1533、1827、4787、360和4221。

84.如权利要求75所述的方法，其中，定位于染色体5上的至少一种多态性选自SEQ ID NO：5225、5448、6261、1464、753、5766、6067、4519、4809、6745、6451、3594、7734、2884、4032、88、5977、1880、4394、517、1611、2963、1582、7292、7181、4255、2659、3217、2736、2638、2437、2912、1197、6684、2810、5175、7009、1623、6510、4346、6239、2320、3905、5458、4072、4318、6367、4001、2079、1319、3691、6632、3315、3391、4117、6191、5002、1223、1261、4146、2417、3963、1090、6295、6793、2878、5198、3512、2407、3533、1448、7152、69、3539、5172、5468、5602、3273、3692、6691、6121、2743、4289、4044、1837、486、1465、2050、4125、5105、3481、4281、1257、2307、739、5372、1513、4652、7200、1589、2188、1951、2292、6241、6516、4185、202、1748、4580、1183、5642、6955、4986、6848、98、2099、7112、3402、3530、5384、3827、1420、311、817和5169。

85.如权利要求75所述的方法，其中，定位于染色体6上的至少一种多态性选自SEQ ID NO：1920、2270、2334、811、3328、5137、1590、1286、1918、5009、5108、4798、2032、2186、2803、5141、2954、805、750、1037、7529、1310、5854、771、244、2733、5634、6488、4812、5101、7767、7206、7539、6432、4861、3470、3454、3653、6314、1427、4232、4100、4757、278、1969、4604、1813、4436、5239、7454、4998、2325、6203、4077、1829、4069、6655、2657、3593、7455、6、10、199、6264、4050、6189、7383、2123、5288、5305、89、149、6194、4849、1963、3839、5573、1493、824、3645、704、1404、980、7371、3709、5459、6413、3784、1309、5882、1379、3547、3903、1646、973、2176、2515、2762、900、1027、3872、5916、6311、3180、7535、4696、7492、514、4360、860、1917、3392和3433。

86.如权利要求75所述的方法，其中，定位于染色体7上的至少一种多态性选自SEQ ID NO：7333、7600、481、4994、2982、1106、7136、4949、1998、5755、2429、3471、2155、4852、5661、7516、5406、5539、5266、5320、4418、3619、172、4614、780、5951、1410、4348、5572、5708、6304、4215、912、6548、1883、469、4202、1996、602、5656、144、2221、79、7271、6351、3879、504、2731、1191、2377、2333、3040、3023、255、1258、2858、5021、4500、2761、5737、7012、2445、873、6300、332、2241、1509、592、1571、4076、6360、6398、2569、154、5723、3389、161、153、398、1558、3056、3714、3775、6023、1542、2741、6746、7785、5509、1312、3941、7247、6148、1625、4210、7192、3929、2886和4944。

87.如权利要求75所述的方法，其中，定位于染色体8上的至少一种多态性选自SEQ ID NO：3125、4896、5102、2536、1028、1642、5457、2386、5357、4147、6035、2644、3013、6491、4142、5787、1819、7259、4128、612、215、6681、2786、6766、6483、5795、2734、4727、115、654、1551、1038、1414、2353、2330、47、1816、1231、2915、2143、972、2698、4029、4597、1575、5161、2466、3358、2173、5192、832、2354、2008、6639、6110、3410、5729、6995、2214、585、7509、1878、4822、1237、3813、3829、5555、3962、840、6215、4705、1884、218、809、7033、2282、5929、168、6006、429、2509、424、7408、3817、3002、3259、7134、1069、6428、2990、7180、3497、5792、1706、6032、3432、3431和4823。

88.如权利要求75所述的方法，其中，定位于染色体9上的至少一种多态性选自SEQ ID NO：6190、174、2779、5185、5698、6454、2531、50、5080、4964、2739、4668、2588、849、7087、3975、3977、6717、7375、2804、4448、2525、1546、1834、6863、4971、1129、6095、6287、5961、6931、6935、3461、2424、2409、1972、2974、1906、553、661、792、4842、5817、150、4492、2231、2956、4231、2851、4160、1598、3767、6721、6370、7316、3787、3156、1033、2821、6980、3656、3269、4797、6269、4275、7185、6034、4538、7096、3377、3409、1620、487、6615、4941、7419、6685、7504、6281、6734、4847、7127、4663、1520、1905、3129、1296、4014、2312、4935、1239、3151、5149、6908、5431、3161和6589。

89.如权利要求75所述的方法，其中，定位于染色体10上的至少一种多态性选自SEQ ID NO：2434、2678、920、6861、6464、6950、1786、1567、2899、5920、3251、3049、1112、6008、7346、611、3203、1992、6335、587、3093、459、909、4437、2506、4920、4786、6518、6927、4751、1138、3263、3311、4226、3719、3865、4948、2894、6174、6659、3371、3089、5513、4646、4381、2055、2217、2939、2717、5744、3262、7681、7411、5215、7761、2713、2061、4298、6244、1149、4046、4701、5243、4784、3140、7173、407、4081、6478、509、1389、3590、2508、835、7224、1785、1757、3464、6202、6700、4857、3167、5146、7615、7790和5439。

90.如权利要求75所述的方法，其中，定位于染色体11上的至少一种多态性选自SEQ ID NO：1531、4150、4186、5997、6107、5692、1032、6449、1432、12、600、1067、353、5549、3757、2136、7341、5727、3491、55、449、6936、5191、538、3372、3694、5665、5754、3755、7295、3572、2237、7794、1624、2800、3876、337、7203、4953、300、1326、5480、4024、3898、507、3939、6045、5364、4039、3820、53、7315、7340、1172、2530、6395、4821、6009、2843、3037、5297、4562、4096、3828、2533、6658和7084。

91.如权利要求75所述的方法，其中，定位于染色体12上的至少一种多态性选自SEQ ID NO：4218、4178、4434、5076、1436、216、7176、4295、7085、5299、3663、2121、1329、5659、3420、2057、4011、1085、3255、3062、6668、2559、852、3809、135、5694、182、4127、2944、6902、206、4287、4569、2610、2699、2685、3738、7293、5709、2697、7155、1351、5531、3733、5663、6001、7470、7486、1196、4405、755、5608、7092、2281、2608、6358、6787、6005、70、2680、14、5154、5639、4600、7195、6688、3780、3892、4428、6120、5415、322、1820和326。

92.如权利要求75所述的方法，其中，定位于染色体13上的至少一种多态性选自SEQ ID NO：2647、7207、1605、2888、6147、1956、3979、4715、7262、5461、3524、948、6557、5346、6342、5847、73、1268、4278、4385、4259、4968、1898、7731、3710、5434、5508、1944、7448、5031、7614、6568、583、7246、762、3390、6069、5142、269、1203、1591、1946、1442、126、1925、3696、4198、370、1169、1780、5336、1142、2489、5443、5626、7153、1363、1476、3183、893、7526、5826、3920、3114、7321、7339、493、1059、4745、5515、6339、3011、4796、6622、4175、4240、2801、267、2565、3522、6169、1079、4802、885、910、2970、5745、2980、7472、5491、598、2494、5561、6750、6198、7184、86、2695、721、773、508、7487、879、3030、3408、348、7559、1463、991、7253、184、2877、72、4315、5033、2327、7304、107、3659、2413、6073、3110、7072、4552、5976、4441、6475、2519、3174、4576、6716、3333、5619、6458、123、1396和4130。

93.如权利要求75所述的方法，其中，定位于染色体14上的至少一种多态性选自SEQ ID NO：2240、2749、1847、2950、5924、6509、1246、4790、5893、5855、4608、2485、5127、1599、4990、2790、4615、6767、7714、7659、543、1267、2560、6858、350、3187、3330、6588、1684、395、6081、6809、726、297、1071、1749、6730、1811、2724、3435、4993、5074、3436、6792、2297、489、4535、3897、3608、908、1835、4249、4685、5895、1855、4、8、5059、7105、4269、7556、3101、1525、3367、6143、6084和5147。

94.如权利要求75所述的方法，其中，定位于染色体15上的至少一种多态性选自SEQ ID NO：868、7416、3126、3298、5695、3227、1182、4568、1697、2703、6786、80、7387、4742、3597、6593、6197、6666、1093、2708、3844、7066、3574、944、4560、1730、5743、2020、601、3646、5610、795、1566、3919、5666、7049、7690、6421、7349、3355、1431、51、2021、3303、3144、1094、5277、3800、120、139、2864、6899、4659、6983、7056、2920、201、1087、5056、446、6077、4507、4276、712、441、2718、4153、2385、3117、7723、5908、3123、3016、4262、1999、2601、2555、1324、5257、6830、3459、4293、4458、6673、4277和3184。

95.如权利要求75所述的方法，其中，定位于染色体16上的至少一种多态性选自SEQ ID NO：6550、826、1298、2636、7555、7284、7278、2051、2860、723、7324、1205、3200、1581、2403、5094、3039、5261、4426、4703、3906、25、4598、1282、5802、6687、1885、4570、3917、3185、4115、5957、6268、250、1225、3393、1644、3846、4380、1708、650、1260、3348、3606、5011、7641、5436、4392、5836、7661、452、7015、4522、1498、1473、929、4040、6294、2777、2387、1675、1361、3034、1482、3193、7330、3283、7450、1515、5254、4074、3218、622、6055、808、916、2367、6489、6591、4245、253、7572、2029、5462和5421。

96.如权利要求75所述的方法，其中，定位于染色体17上的至少一种多态性选自SEQ ID NO：1394、2246、2662、3716、2458、4814、1863、2289、5952、2905、4952、396、7078、4188、5442、4163、4871、317、5321、6094、7656、4831、3、5985、3261、273、4005、1511、6172、7394、4463、1158、1354、1769、2118、2191、3076、4880、5015、5881、6391、7400、720、1100、915、7051、118、4135、7109、2914、2975、3249、3352、1288、1405、5637、7290、5914、7631、3669、2001、3899、1761、5677、5680、992、3806、4158、3540、2675、3122、7301、7303、7797、6959、7343、1359、6165、1018、6562、2881、4303、6537、416、5424、249、3864、955、2859、1900、6653、841、7129、542、2400、5664、4965、638、7327和3368。

97.如权利要求75所述的方法，其中，定位于染色体18上的至少一种多态性选自SEQ ID NO：2595、2802、3882、1872、7029、1141、7208、6619、6803、7175、7183、3928、5774、5890、7228、6046、2523、3350、2535、7244、3519、7099、259、6981、1561、2052、3163、1226、3228、6541、4667、425、6052、5742、2623、7167、1425、3059、888、6301、365、502、4355、3991、2958、5167、2299、7131、7613、7257、6748、2856、4384、550、1658、4216、7665、3356、6389、4386、414、3149、1572、7361、7279、7296、205、3947、162、3508和734。

98.如权利要求75所述的方法，其中，定位于染色体19上的至少一种多态性选自SEQ ID NO：3545、1664、6958、3499、7622、2562、3361、191、2084、1472、1140、5208、3690、7735、6455、3830、7323、848、2890、5913、1413、2953、2017、1335、7226、3722、1887、3398、313、1136、7064、7490、4182、4133、1933、3788、1340、2025、4378、3625、2456、3650、1484、7232、4179、4236、5401、7094、7635、6850、7471、6507、6514、4710、4497、1369、4327、2846、5685、197、1146、2189、7017、1378、4792、1047、1397、5939、2291、4151、613、488、7080、5481、1017、1529、2012、5832、2132、2976、3910、2538、5416、2380、6138、4872、2065、1628、7157、6481、3299、6242和4960。

99.如权利要求75所述的方法，其中，定位于染色体20上的至少一种多态性选自SEQ ID NO：3967、845、3229、5398、2348、3671、3592、5747、5987、3742、1164、6754、1364、6380、3785、6667、4242、175、1979、116、3950、166、3026、3859、3682、1784、3869、1062、3837、499、7023、539、6232、192、4057、1922、2371、5361、1219、5786、7190、3208、1544、3321、3306、2104、4490、6026、2149、4730、4746、4105、1991、3058、2895、5331、6581、2651、4954、4273、4045、1297、231、1044、1249、1908、1128、2516、6135、3414、6709、6708、1725、7196、3266、1202、1576、6290、7201和3665。

100.一种组合物，其包含用于检测代表大豆DNA中的多态性的分子标记的至少两种分离的核酸分子，其中，所述组合物的第一核酸分子包括包含多态性核苷酸残基和至少8个直接邻近所述多态性核苷酸残基3′端的核苷酸的寡核苷酸，其中，所述组合物的第二核酸分子包括包含多态性核苷酸残基和至少8个直接邻近所述多态性核苷酸残基5′端的核苷酸的寡核苷酸，并且其中所述多态性是在表1或表3中所确定的。