[go: up one dir, main page]

CN120877861A - 一种玉米分子标记辅助回交育种电子模拟方法及系统 - Google Patents

一种玉米分子标记辅助回交育种电子模拟方法及系统

Info

Publication number
CN120877861A
CN120877861A CN202510859588.4A CN202510859588A CN120877861A CN 120877861 A CN120877861 A CN 120877861A CN 202510859588 A CN202510859588 A CN 202510859588A CN 120877861 A CN120877861 A CN 120877861A
Authority
CN
China
Prior art keywords
group
genome
molecular marker
chromosome
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202510859588.4A
Other languages
English (en)
Other versions
CN120877861B (zh
Inventor
李晶晶
王自强
赵志杰
杜见乐
黄西林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fengjie Yijia Agricultural Technology Co ltd
Original Assignee
Beijing Fengjie Yijia Agricultural Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fengjie Yijia Agricultural Technology Co ltd filed Critical Beijing Fengjie Yijia Agricultural Technology Co ltd
Priority to CN202510859588.4A priority Critical patent/CN120877861B/zh
Publication of CN120877861A publication Critical patent/CN120877861A/zh
Application granted granted Critical
Publication of CN120877861B publication Critical patent/CN120877861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及植物育种的技术领域,提供了一种玉米分子标记辅助回交育种电子模拟方法及系统,其方法包括:针对携带已知目标基因的第一组单株,采集表现出新生性状的全基因组分子标记数据;采集已知目标基因的供体亲本的全基因组分子标记数据;采集已知目标基因的受体亲本的全基因组分子标记数据;基于全部全基因组分子标记数据,通过分析第一组单株基因组中共同继承自供体亲本的染色体片段,推断出一个或多个候选染色体区域;从候选染色体区域内选出代表性分子标记,作为代理目标;将代理目标和第一组单株的全基因组分子标记数据作为选择目标,进行后续回交育种的电子模拟,并输出电子模拟的结果。本发明具有提高育种效率和决策科学性的效果。

Description

一种玉米分子标记辅助回交育种电子模拟方法及系统
技术领域
本发明涉及植物育种的技术领域,具体涉及一种玉米分子标记辅助回交育种电子模拟方法及系统。
背景技术
在现代玉米育种实践中,分子标记辅助回交育种(Marker-AssistedBackcrossing,MABC)是一种广泛应用的技术,旨在将供体亲本携带的优良基因高效导入受体亲本的优良遗传背景中。育种机构通常借助电子模拟系统来规划和优化回交育种流程,这些系统能够基于亲本的基因型信息和育种目标,预测基因导入效率和背景基因组回复进程。
然而,在实际育种过程中,特别是在回交世代,可能在携带已知目标基因的后代中意外观察到具有潜在育种价值的新生性状。系统无法基于这少数几株表现新生性状的特异单株数据,来初步推断与这一新生性状可能关联的染色体区域。这种能力的缺失,导致育种人员在面对这种意外的有益发现时,难以快速、科学地决策是否应该以及如何将此新性状整合进当前的育种计划中,可能错失育种良机或无法及时调整育种策略。
针对上述问题,现有技术亟需改进。
发明内容
本申请的目的在于提供一种玉米分子标记辅助回交育种电子模拟方法及系统,具有能够将遗传基础未知的新生性状纳入回交育种的电子模拟中,提高了育种效率和决策科学性的优点。
本申请提供了一种玉米分子标记辅助回交育种电子模拟方法,技术方案如下:
包括:
针对携带已知目标基因的第一组单株,采集表现出新生性状的全基因组分子标记数据;
采集已知目标基因的供体亲本的全基因组分子标记数据;采集已知目标基因的受体亲本的全基因组分子标记数据;
基于全部全基因组分子标记数据,通过分析第一组单株基因组中共同继承自供体亲本的染色体片段,和/或通过比较第一组单株与预设对照组的基因型差异,推断出一个或多个候选染色体区域;
从候选染色体区域内选出代表性分子标记,作为代理目标;
将代理目标和第一组单株的全基因组分子标记数据作为选择目标,进行后续回交育种的电子模拟,并输出电子模拟的结果。
通过上述方案,能够将遗传基础未知的新生性状纳入回交育种的电子模拟中,提高了育种效率和决策科学性。
可选的,通过分析第一组单株基因组中共同继承自供体亲本的染色体片段推断出一个或多个候选染色体区域的步骤,包括:
基于第一组单株的全基因组分子标记数据,确定第一组单株中各个单株基因组中包含已知目标基因的供体片段以及与供体片段邻近的染色体区域;
在第一组单株的基因组中,排除供体片段和邻近的染色体区域后,统计其他来源于供体亲本的染色体片段对应的共现频率;
将共现频率高于预设阈值的其他来源于供体亲本的染色体片段,作为一个或多个候选染色体区域。
通过上述方案,提供了基于供体片段共现频率推断候选区域的具体方法,提高了推断的准确性。
可选的,从候选染色体区域内选出代表性分子标记,作为代理目标的步骤,包括:
获取全部候选染色体区域内的每一个候选分子标记与新生性状的关联数据;
获取候选分子标记和已知目标基因的分子标记的遗传连锁分析参数;
获取候选分子标记的育种应用便捷性评估信息;
根据关联数据、遗传连锁分析分析参数和育种应用便捷性评估信息,生成各个候选分子标记的评估结果;
从全部候选分子标记中选择评估结果满足预设条件的一个或一组分子标记,作为代理目标。
通过上述方案,提供了选择代理目标的评估标准和方法,确保选出的标记具有代表性和实用性。
可选的,在第一组单株的基因组中,排除供体片段和邻近的染色体区域后,统计其他来源于供体亲本的染色体片段对应的共现频率的步骤,包括:
针对第一组单株各个单株,基于供体片段和邻近的染色体区域,识别出供体片段和邻近的染色体区域之外且源自供体亲本的其他染色体片段;
统计其他染色体片段的第一共现频率;
获取预设对照组的第二组单株中,与其他染色体片段对应的染色体片段的第二共现频率;
基于第一共现频率与第二共现频率,评估差异显著性,生成差异显著性评估结果;
将差异显著性评估结果满足预设条件的第一共现频率,作为第一组单株的共现频率。
通过上述方案,提供了排除已知目标基因区域并利用对照组数据进行共现频率统计和显著性评估的方法,提高了推断的可靠性。
可选的,基于第一共现频率与第二共现频率,评估差异显著性,生成差异显著性评估结果的步骤,包括:
针对第一组单株和第二组单株,获取各个其他染色体片段的存在状态数据;
将两组单株的全部存在状态数据进行合并,生成合并状态数据集;
对合并状态数据集进行随机重分配处理,生成若干对模拟状态数据集;每一对模拟状态数据集包括一个模拟第一组状态数据集和一个模拟第二组状态数据集;
根据模拟状态数据集,计算出模拟第一共现频率与模拟第二共现频率之间的模拟频率差异值;
基于模拟频率差异值,构建其他染色体片段的频率差异参照分布;
计算第一共现频率与第二共现频率之间的实际频率差异值,将实际频率差异值与频率差异参照分布进行比较,确定统计显著性,作为差异显著性评估结果。
通过上述方案,提供了基于随机重分配的差异显著性评估方法,增强了统计推断的严谨性。
可选的,计算第一共现频率与第二共现频率之间的实际频率差异值,将实际频率差异值与频率差异参照分布进行比较,确定统计显著性,作为差异显著性评估结果的步骤,包括:
根据实际频率差异值与频率差异参照分布,确定初始统计显著性指示值;
基于其他染色体片段的数量以及预设的总体误判控制参数,计算校正显著性判断阈值;
比较初始统计显著性指示值与校正显著性判断阈值,判断是否具有统计显著性,将判断结果作为差异显著性评估结果。
通过上述方案,提供了基于校正显著性判断阈值的统计显著性判断方法,降低了误判率。
可选的,根据实际频率差异值与频率差异参照分布,确定初始统计显著性指示值的步骤,包括:
统计频率差异参照分布中大于等于实际频率差异值的模拟频率差异值的总数;
计算总数占频率差异参照分布中总模拟次数的比例;
将比例,作为其他染色体片段的初始统计显著性指示值。
通过上述方案,提供了计算初始统计显著性指示值的具体方法。
可选的,基于其他染色体片段的数量以及预设的总体误判控制参数,计算校正显著性判断阈值的步骤包括:
基于频率差异参照分布和模拟状态数据集,计算其他染色体片段的模拟初始统计显著性指示值并记录最小值;
汇总所有模拟中的最小值,构成最小值集合;
基于最小值集合以及预设的总体误判控制参数,根据预设规定输出判断阈值并作为校正显著性判断阈值。
通过上述方案,提供了计算校正显著性判断阈值的具体方法,提高了判断的准确性。
可选的,根据预设规定输出判断阈值的步骤,包括:
以预设的总体误判控制参数作为目标比例;
当最小值集合中小于等于预设阈值的最小值所占比例等于目标比例时,将预设阈值作为判断阈值。
通过上述方案,提供了确定判断阈值的具体标准。
一种玉米分子标记辅助回交育种电子模拟系统,用于执行玉米分子标记辅助回交育种电子模拟,包括:
第一组单株基因数据采集模块,用于针对携带已知目标基因的第一组单株,采集表现出新生性状的全基因组分子标记数据;
供体与受体基因数据采集模块,用于采集已知目标基因的供体亲本的全基因组分子标记数据;采集已知目标基因的受体亲本的全基因组分子标记数据;
候选染色体区域推断模块,用于基于全部全基因组分子标记数据,通过分析第一组单株基因组中共同继承自供体亲本的染色体片段,和/或通过比较第一组单株与预设对照组的基因型差异,推断出一个或多个候选染色体区域;
代理目标选择模块,用于从候选染色体区域内选出代表性分子标记,作为代理目标;
电子模拟输出模块,用于将代理目标和第一组单株的全基因组分子标记数据作为选择目标,进行后续回交育种的电子模拟,并输出电子模拟的结果。
由上可知,本申请提供的一种玉米分子标记辅助回交育种电子模拟方法和系统,通过采集表现新生性状的特异单株的基因组数据,推断与新生性状关联的候选染色体区域,并从中选择代理标记,将该代理标记与已知目标基因一同纳入回交育种电子模拟,从而能够将遗传基础未知的新生性状纳入回交育种的电子模拟中,提高了育种效率和决策科学性。
附图说明
图1为本发明其中一个实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图;
图2为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图之一;
图3为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图之二;
图4为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图之三;
图5为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图之四;
图6为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图之五;
图7为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图之六;
图8为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图之七;
图9为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟方法的方法流程图之八;
图10为本发明另一实施例中一种玉米分子标记辅助回交育种电子模拟系统的系统框图。
具体实施方式
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
传统现有的玉米分子标记辅助回交育种电子模拟方法在处理育种过程中意外出现的新生性状时,存在无法有效利用少数特异单株的表型和基因型信息,快速推断与新生性状相关的候选染色体区域,并在遗传基础未知的情况下,将该新生性状作为代理目标与原育种目标整合纳入回交选择的电子模拟与评估中的问题。这限制了育种者对意外有益变异的响应能力。
例如,假设在进行将已知目标基因从供体亲本导入受体亲本的玉米分子标记辅助回交育种项目时,在回交第二代群体中,用户在携带已知目标基因的第一组单株中观察到一种不同于亲本的新生性状。该新生性状的遗传基础尚不明确,但初步分析显示其具有潜在的育种价值。现有的电子模拟系统通常依赖于已知基因或已定位的数量性状位点信息进行模拟选择。面对这种遗传基础未知的新生性状,系统无法直接基于这少数表现出新生性状的第一组单株的全基因组分子标记数据,进行与该性状相关的候选染色体区域的初步推断。进一步,系统也无法将推断出的候选区域或其代表性标记作为代理目标,与原有的已知目标基因一同纳入后续的回交育种电子模拟中,以评估同时选择这两个目标对育种进程的影响。
对此,本申请提出了一种玉米分子标记辅助回交育种电子模拟方法,结合图1所示,包括:
S1,针对携带已知目标基因的第一组单株,采集表现出新生性状的全基因组分子标记数据;
S2,采集已知目标基因的供体亲本的全基因组分子标记数据;采集已知目标基因的受体亲本的全基因组分子标记数据;
S3,基于全部全基因组分子标记数据,通过分析第一组单株基因组中共同继承自供体亲本的染色体片段,和/或通过比较第一组单株与预设对照组的基因型差异,推断出一个或多个候选染色体区域;
S4,从候选染色体区域内选出代表性分子标记,作为代理目标;
S5,将代理目标和第一组单株的全基因组分子标记数据作为选择目标,进行后续回交育种的电子模拟,并输出电子模拟的结果。
其中,第一组单株是指在回交育种过程中,携带已知目标基因并表现出新生性状的特定个体集合,其目的是提供具有待分析新生性状的遗传材料;全基因组分子标记数据是指覆盖玉米整个基因组范围的分子标记的基因型信息,其可以采用SNP芯片、测序等技术获取,其目的是提供全面的遗传背景信息;已知目标基因是指育种项目最初计划导入的、遗传基础明确的基因,其目的是作为育种的原始目标;新生性状是指在回交育种过程中意外观察到的、在亲本中未稳定表现且遗传基础未知的性状,其目的是作为本方法需要分析和处理的新目标;供体亲本是指提供已知目标基因的亲本材料,其目的是提供已知目标基因的遗传信息;受体亲本是指接受已知目标基因导入的优良遗传背景材料,其目的是提供育种的背景基因组信息;候选染色体区域是指通过分析推断出的、可能与新生性状相关的基因组片段,其目的是缩小后续分析和选择的范围;代理目标是指从候选染色体区域中选出的、代表新生性状进行后续模拟的分子标记,其目的是将未知遗传基础的新生性状转化为可操作的分子标记信息;电子模拟是指利用计算机程序模拟回交育种过程中的基因传递和选择,其目的是预测不同选择策略下的育种进程和结果。
在一些优选的实施例中,可以采用以下方式实现本方法。首先,使用高密度SNP芯片对第一组单株、供体亲本和受体亲本进行全基因组基因分型,获取全基因组分子标记数据。接着,利用生物信息学软件,通过分析第一组单株基因组中与供体亲本共享的染色体片段,或者与未表现新生性状的对照组单株进行全基因组关联分析,识别出与新生性状显著关联的染色体区域作为候选区域。然后,在候选区域内,选择与新生性状关联度高、遗传距离适中且在育种中易于检测的分子标记作为代理目标。最后,将这些代理目标的基因型信息输入到回交育种电子模拟平台中,设置相应的选择参数,模拟多代回交过程,评估在同时选择已知目标基因和代理目标的情况下,目标基因和新生性状的导入效率、背景基因组回复率以及育种周期等关键指标,并输出模拟报告。
通过上述技术方案,本方法能够利用在回交育种过程中意外发现的、遗传基础未知的新生性状的表型和基因型数据,快速推断其潜在的遗传关联区域,并将其转化为可操作的分子标记代理目标。这使得育种者可以将有潜在价值的新生性状与原有的育种目标一同纳入电子模拟评估体系,从而能够科学地评估整合该新生性状对整体育种进程的影响,为育种决策提供数据支持,避免错失有益变异,提高了育种的灵活性和效率。
可选的,结合图2所示,S3中通过分析第一组单株基因组中共同继承自供体亲本的染色体片段推断出一个或多个候选染色体区域的步骤包括:
S31,基于第一组单株的全基因组分子标记数据,确定第一组单株中各个单株基因组中包含已知目标基因的供体片段以及与供体片段邻近的染色体区域;
S32,在第一组单株的基因组中,排除供体片段和邻近的染色体区域后,统计其他来源于供体亲本的染色体片段对应的共现频率;
S33,将共现频率高于预设阈值的其他来源于供体亲本的染色体片段,作为一个或多个候选染色体区域。
其中,供体片段是指从供体亲本遗传到后代单株基因组中的染色体区段,其可以采用基于分子标记基因型数据进行亲本来源判定的方法来实现,例如通过比较单株在特定标记位点上的基因型与供体亲本和受体亲本的基因型来确定该位点所属的染色体区段的亲本来源,其目的在于识别单株基因组中哪些部分源自供体亲本;邻近的染色体区域是指在基因组物理或遗传距离上与包含已知目标基因的供体片段紧密相连的区域,其可以采用基于遗传连锁图谱或物理图谱,在确定包含已知目标基因的供体片段位置后,向其两侧延伸预设的遗传距离(例如厘摩尔,cM)或物理距离(例如碱基对,bp)来界定,其目的在于将已知目标基因及其紧密连锁的区域作为一个整体进行处理;共现频率是指某个特定的染色体片段在第一组单株中出现的比例,其可以采用统计在第一组单株中拥有该特定染色体片段的单株数量,并将其除以第一组单株的总数来计算,其目的在于量化某个染色体片段与第一组单株(表现出新生性状)的关联程度。
在一些优选的实施例中,具体而言,可以基于第一组单株的全基因组SNP(单核苷酸多态性)标记数据,首先定位已知目标基因在供体亲本基因组中的位置,并根据第一组单株在该区域的SNP基因型,确定包含已知目标基因的供体片段的边界。例如,可以识别该区域两侧从供体纯合基因型转变为杂合或受体纯合基因型的标记位点,以此界定供体片段。然后,可以根据玉米的遗传连锁图谱,将该供体片段两侧各延伸一定距离(例如5cM),将此范围定义为与供体片段邻近的染色体区域。接着,在第一组单株的基因组中,扫描上述确定的供体片段及其邻近区域之外的所有染色体区域,识别其中源自供体亲本的片段。对于每一个识别出的其他供体片段,统计其在第一组单株中出现的单株数量,计算其共现频率。最后,设定一个预设阈值,例如75%,将共现频率高于75%的其他供体片段确定为候选染色体区域。
通过上述技术方案,可以更准确地从复杂的回交后代基因组中识别出与新生性状潜在关联的染色体区域,有效排除已知目标基因及其连锁区域的干扰,提高了候选区域推断的精度,为后续将新生性状纳入分子标记辅助回交育种电子模拟提供了更可靠的输入信息,从而提升了电子模拟在处理未知遗传基础性状时的有效性和指导价值。
可选的,结合图3所示,S4从候选染色体区域内选出代表性分子标记,作为代理目标的步骤包括:
S41,获取全部候选染色体区域内的每一个候选分子标记与新生性状的关联数据;
S42,获取候选分子标记和已知目标基因的分子标记的遗传连锁分析参数;
S43,获取候选分子标记的育种应用便捷性评估信息;
S44,根据关联数据、遗传连锁分析参数和育种应用便捷性评估信息,生成各个候选分子标记的评估结果;
S45,从全部候选分子标记中选择评估结果满足预设条件的一个或一组分子标记,作为代理目标。
其中,获取全部候选染色体区域内的每一个候选分子标记与新生性状的关联数据是指通过统计学方法分析分子标记基因型与新生性状表型之间是否存在显著相关性而获得的数据,具体可以是通过全基因组关联分析(GWAS)或数量性状基因座(QTL)定位等方法计算得到的P值、效应值或相关系数等指标,其目的在于量化每个候选分子标记与新生性状的关联强度;获取候选分子标记和已知目标基因的分子标记的遗传连锁分析参数是指反映两个分子标记在染色体上位置远近以及遗传重组概率的参数,具体可以是通过分析群体遗传数据计算得到的连锁距离(以厘摩尔cM为单位)或连锁不平衡(LD)系数等,其目的在于评估候选分子标记与已知目标基因的分子标记在遗传上的关联程度;获取候选分子标记的育种应用便捷性评估信息是指衡量分子标记在实际育种操作中易用程度的信息,具体可以包括分子标记的类型(例如,单核苷酸多态性SNP、插入缺失InDel)、检测方法的成熟度、检测成本、检测通量、结果稳定性以及是否易于进行高通量检测等,其目的在于选择那些在实验室检测和育种群体筛选中更具操作优势的标记;生成各个候选分子标记的评估结果是指综合考虑关联数据、遗传连锁分析参数和育种应用便捷性评估信息后,对每个候选分子标记suitability进行量化的指标,具体可以是通过加权求和、排序、机器学习模型或其他多指标综合评价方法计算得到的综合评分或排名,其目的在于为后续的标记选择提供一个统一的评价标准;预设条件是指在选择代理目标时设定的筛选标准,具体可以是一个阈值(例如,评估结果高于某个分数)、一个数量(例如,选择评估结果最好的前N个标记)或一个组合标准,其目的在于根据具体的育种需求和资源限制来确定最终的代理目标集合。
在一些优选的实施例中,假设通过分析第一组单株基因组数据,推断出一个包含100个候选SNP标记的候选染色体区域。首先,获取该区域内每一个候选SNP标记与浅黄色籽粒新生性状的关联数据,例如,通过对表现浅黄色籽粒的特异单株和对照单株进行全基因组关联分析,计算每个SNP的P值和效应值。接着,获取这些候选SNP标记与已知抗病基因R的分子标记M1、M2的遗传连锁分析参数,例如,计算它们之间的连锁距离。同时,获取每个候选SNP标记的育种应用便捷性评估信息,例如,评估其是否适合KASP检测、检测成本以及结果稳定性等。然后,根据这些关联数据、遗传连锁分析参数和育种应用便捷性评估信息,生成各个候选SNP标记的评估结果,例如,采用一个加权评分公式,将P值、连锁距离和便捷性评分进行综合计算,得到每个SNP的综合评分。最后,从这100个候选SNP标记中,选择评估结果满足预设条件的标记作为浅黄色籽粒性状的代理目标,例如,设定预设条件为选择综合评分最高的5个SNP标记。
可选的,结合图4所示,S32,在第一组单株的基因组中,排除供体片段和邻近的染色体区域后,统计其他来源于供体亲本的染色体片段对应的共现频率的步骤包括:
S321,针对第一组单株各个单株,基于供体片段和邻近的染色体区域,识别出供体片段和邻近的染色体区域之外且源自供体亲本的其他染色体片段;
S322,统计其他染色体片段的第一共现频率;
S323,获取预设对照组的第二组单株中,与其他染色体片段对应的染色体片段的第二共现频率;
S324,基于第一共现频率与第二共现频率,评估差异显著性,生成差异显著性评估结果;
S325,将差异显著性评估结果满足预设条件的第一共现频率,作为第一组单株的共现频率。
其中,识别出供体片段和邻近的染色体区域之外且源自供体亲本的其他染色体片段是指通过分析第一组单株的基因组分子标记数据,结合已知供体亲本和受体亲本的基因型信息,确定第一组单株基因组中哪些区域来源于供体亲本,并排除掉包含已知目标基因的供体片段及其紧邻的染色体区域,其可以采用基于分子标记分型的基因组片段溯源方法来实现,其目的在于确定需要进行共现频率统计的非目标基因区域的供体来源片段;统计第一共现频率是指计算特定其他染色体片段在第一组单株群体中出现的比例,其可以采用遍历第一组单株的基因型数据并计数含有该片段的单株数量来实现,其目的在于量化该片段在携带目标基因的单株群体中的普遍性;预设对照组的第二组单株是指一个预先确定的单株群体,该群体与第一组单株具有相似的遗传背景,但不携带已知目标基因或表现出新生性状,其可以采用从原始受体亲本群体或其回交后代中筛选不携带目标基因的单株来构建,其目的在于提供一个用于比较的基准群体,以区分与目标基因连锁相关的共现和群体背景相关的共现;获取第二共现频率是指计算特定其他染色体片段在预设对照组的第二组单株群体中出现的比例,其可以采用遍历第二组单株的基因型数据并计数含有该片段的单株数量来实现,其目的在于量化该片段在对照群体中的普遍性;评估差异显著性是指采用统计学方法比较第一共现频率与第二共现频率之间是否存在统计学上显著的差异,其可以采用卡方检验、Fisher精确检验或置换检验等方法来实现,其目的在于判断特定片段在第一组单株中的高频共现是否具有统计学意义,而非偶然发生;差异显著性评估结果是指评估差异显著性后得到的统计学指标,例如P值或统计量,其可以采用统计检验软件或算法输出的数值或判断标记来表示,其目的在于提供一个量化的依据来判断差异是否显著;预设条件是指用于判断差异显著性评估结果是否满足要求的标准,其可以采用设定一个显著性水平阈值(例如P值小于0.05)来实现,其目的在于筛选出那些在统计学上被认为与新生性状显著关联的片段。
在一些优选的实施例中,具体而言,假设第一组单株包含100个表现出新生性状且携带目标基因的个体,预设对照组的第二组单株包含200个不表现新生性状且不携带目标基因但遗传背景相似的个体。首先,针对第一组的每个单株,通过分析其全基因组分子标记数据,识别出除了已知供体片段和邻近区域之外,所有来源于供体亲本的其他染色体片段。例如,识别出片段X、片段Y和片段Z。接着,统计这些片段在第一组100个单株中的出现频率,例如,片段X在85个单株中出现,第一共现频率为0.85;片段Y在60个单株中出现,第一共现频率为0.60;片段Z在30个单株中出现,第一共现频率为0.30。同时,获取这些片段在对照组200个单株中的出现频率,例如,片段X在120个单株中出现,第二共现频率为0.60;片段Y在80个单株中出现,第二共现频率为0.40;片段Z在70个单株中出现,第二共现频率为0.35。然后,基于第一共现频率与第二共现频率,对每个片段进行差异显著性评估。例如,对片段X进行统计检验,比较0.85和0.60的差异,得到一个P值;对片段Y比较0.60和0.40,得到一个P值;对片段Z比较0.30和0.35,得到一个P值。最后,将差异显著性评估结果满足预设条件(例如P值小于0.05)的第一共现频率,作为第一组单株的共现频率。如果片段X和片段Y的P值均小于0.05,而片段Z的P值大于0.05,则只有片段X的第一共现频率0.85和片段Y的第一共现频率0.60被采纳,用于后续的候选染色体区域推断。
可选的,结合图5所示,S324,基于第一共现频率与第二共现频率,评估差异显著性,生成差异显著性评估结果的步骤,包括:
S3241,针对第一组单株和第二组单株,获取各个其他染色体片段的存在状态数据;
S3242,将两组单株的全部存在状态数据进行合并,生成合并状态数据集;
S3243,对合并状态数据集进行随机重分配处理,生成若干对模拟状态数据集;每一对模拟状态数据集包括一个模拟第一组状态数据集和一个模拟第二组状态数据集;
S3244,根据模拟状态数据集,计算出模拟第一共现频率与模拟第二共现频率之间的模拟频率差异值;
S3245,基于模拟频率差异值,构建其他染色体片段的频率差异参照分布;
S3246,计算第一共现频率与第二共现频率之间的实际频率差异值,将实际频率差异值与频率差异参照分布进行比较,确定统计显著性,作为差异显著性评估结果。
其中,存在状态数据是指用于指示特定染色体片段在单个单株基因组中是否存在的数据,其可以采用二进制数值来表示;合并状态数据集是指将第一组单株和第二组单株的全部存在状态数据汇集在一起形成的数据集合;随机重分配处理是指一种统计重抽样技术,通过对合并状态数据集中的数据进行随机分组或排列,以模拟不同分组下的数据分布,其可以采用置换检验或自助法等方法来实现;模拟状态数据集是指经过随机重分配处理后生成的一对虚拟数据集,分别代表模拟的第一组和模拟的第二组单株的状态数据;模拟第一共现频率与模拟第二共现频率是指根据模拟状态数据集计算得出的在模拟分组下特定染色体片段的出现频率;模拟频率差异值是指模拟第一共现频率与模拟第二共现频率之间的数值差;频率差异参照分布是指通过多次随机重分配处理并计算模拟频率差异值后,所获得的模拟频率差异值的集合或其统计分布;实际频率差异值是指根据原始的第一组单株和第二组单株的存在状态数据计算得出的第一共现频率与第二共现频率之间的数值差;统计显著性是指衡量观察到的实际频率差异值在假设两组之间没有真实差异的情况下,发生的概率大小;差异显著性评估结果是指基于统计显著性判断得出的关于两组频率差异是否具有统计学意义的结论。
在一些优选的实施例中,具体而言,针对第一组单株和第二组单株,可以以二进制形式记录各个其他染色体片段的存在状态数据,例如,对于某个特定的其他染色体片段,如果在一个单株中存在,则记录为1,如果不存在,则记录为0。将第一组单株的所有该片段的存在状态数据(例如一个向量)与第二组单株的所有该片段的存在状态数据(例如另一个向量)进行合并,形成一个更长的合并状态数据集向量。对这个合并状态数据集向量进行随机重分配处理,例如,进行一万次随机置换。每一次置换都将合并向量中的元素随机打乱顺序,然后按照原始两组单株的数量比例重新分割成两个模拟状态数据集,分别代表模拟的第一组和模拟的第二组。对于每一次置换生成的模拟状态数据集,计算该特定片段在模拟第一组中的频率和在模拟第二组中的频率,并计算两者之间的模拟频率差异值。重复一万次置换,将得到一万个模拟频率差异值,这些值构成了该片段的频率差异参照分布。同时,计算该片段在原始第一组和第二组单株中的实际频率差异值。将这个实际频率差异值与由一万个模拟频率差异值构成的参照分布进行比较,例如,计算参照分布中有多少模拟频率差异值的绝对值大于等于实际频率差异值的绝对值,这个比例可以作为初步的统计显著性指示。通过这种方式,可以判断实际观察到的频率差异是否在随机波动的合理范围内。
可选的,结合图6所示,S3246,计算第一共现频率与第二共现频率之间的实际频率差异值,将实际频率差异值与频率差异参照分布进行比较,确定统计显著性,作为差异显著性评估结果的步骤,包括:
A1,根据实际频率差异值与频率差异参照分布,确定初始统计显著性指示值;
A2,基于其他染色体片段的数量以及预设的总体误判控制参数,计算校正显著性判断阈值;
A3,比较初始统计显著性指示值与校正显著性判断阈值,判断是否具有统计显著性,将判断结果作为差异显著性评估结果。
其中,其他染色体片段的数量是指在第一组单株基因组中,排除供体片段和邻近染色体区域后,源自供体亲本的其他染色体片段的总个数。预设的总体误判控制参数是指在进行多重比较统计检验时,允许出现的假阳性结果的总体概率水平。校正显著性判断阈值是指经过多重比较校正后,用于判断染色体片段差异是否具有统计显著性的标准。
在具体实施时,为确保频率差异参照分布的统计稳定性,优选地,所述随机重分配操作应重复执行至少1000次,更优选为10000次,以构建足够精确的模拟参照分布。模拟轮次的设定可依据计算资源或统计精度需求灵活调整,并可基于分布稳定性监测是否已收敛。所述排除供体片段及邻近区域的操作,优选通过设定窗口范围实现,例如对于包含目标基因的供体片段,其上下游设定1至2Mb窗口区间为邻近区域,排除后剩余部分作为其他候选染色体区域。窗口大小可根据供体片段长度和染色体重组密度进行参数化调整。对于校正显著性判断阈值的设定,若其他片段数量N较少(如N≤20),推荐优先采用Bonferroni方法,其校正过程简洁、结果保守;若其他片段数量较多(如N>50),则优选采用模拟最小值集合法,能更准确反映极值分布对显著性判断的影响。为提升整体系统的可重复性和透明性,建议在输出显著性评估结果的同时,附带输出模拟次数、实际频率差异值、p值计算方式、校正阈值以及最终判断逻辑,供育种者进行追溯和结果解释。
在一些优选的实施例中,本申请具体实施如下。假设通过前述方法,对于某个待评估的染色体片段,计算得到其第一共现频率与第二共现频率之间的实际频率差异值,并基于随机重分配构建了该片段的频率差异参照分布。根据该实际频率差异值与频率差异参照分布,可以确定初始统计显著性指示值,例如,通过统计参照分布中大于等于实际频率差异值的模拟频率差异值的比例来获得一个p值。假设需要评估的其他染色体片段的数量为N,预设的总体误判控制参数为α。可以采用Bonferroni校正方法计算校正显著性判断阈值,该阈值可以为α/N。或者,可以采用基于模拟分布最小值的方法,即对每次随机重分配模拟,计算所有其他染色体片段的模拟初始统计显著性指示值,并记录其中的最小值,重复多次模拟后,将这些最小值的集合按升序排列,取第(模拟总次数*α)个值作为校正显著性判断阈值。然后,将该染色体片段的初始统计显著性指示值与计算出的校正显著性判断阈值进行比较。如果初始统计显著性指示值小于或等于校正显著性判断阈值,则判断该片段具有统计显著性;否则,判断不具有统计显著性。将此判断结果作为该染色体片段的差异显著性评估结果。
可选的,结合图7所示,A1,根据实际频率差异值与频率差异参照分布,确定初始统计显著性指示值的步骤包括:
A11,统计频率差异参照分布中大于等于实际频率差异值的模拟频率差异值的总数;
A12,计算总数占频率差异参照分布中总模拟次数的比例;
A13,将比例作为其他染色体片段的初始统计显著性指示值。
本申请的方案通过统计频率差异参照分布中大于等于实际频率差异值的模拟频率差异值的总数,计算该总数占频率差异参照分布中总模拟次数的比例,并将该比例作为其他染色体片段的初始统计显著性指示值。这个过程利用了频率差异参照分布,该分布是基于对合并状态数据集进行随机重分配处理生成的若干对模拟状态数据集计算模拟频率差异值构建的。实际频率差异值是根据第一共现频率与第二共现频率计算的。通过计算模拟分布中大于等于实际观测值的比例,本质上是计算了在随机情况下出现等于或大于实际差异的概率。这个概率值反映了实际差异的统计显著性:概率越小,差异越不可能由随机因素引起,从而越显著。将这个概率值作为初始统计显著性指示值,为后续基于该指示值与校正显著性判断阈值进行比较判断提供了准确的量化依据。这种方法避免了主观判断,利用了大规模模拟数据构建的参照分布,能够客观、准确地评估实际频率差异的统计显著性,从而提高了识别与新生性状相关的候选染色体区域的可靠性。
在一些优选的实施例中,具体实施如下:假设针对某个特定的其他染色体片段,计算得到的实际频率差异值为0.3。之前通过随机重分配处理和模拟计算,已经构建了该片段的频率差异参照分布,该分布包含了10000次模拟得到的模拟频率差异值。现在需要确定该实际频率差异值0.3的初始统计显著性指示值。首先,统计这10000个模拟频率差异值中,有多少个值大于等于0.3。假设统计结果显示有50个模拟频率差异值大于等于0.3。然后,计算这个总数50占总模拟次数10000的比例,即50/10000=0.005。最后,将计算得到的比例0.005作为该其他染色体片段的初始统计显著性指示值。这个指示值0.005反映了在随机情况下出现等于或大于0.3的频率差异的概率。
可选的,结合图8所示,A2,基于其他染色体片段的数量以及预设的总体误判控制参数,计算校正显著性判断阈值的步骤包括:
A21,基于频率差异参照分布和模拟状态数据集,计算其他染色体片段的模拟初始统计显著性指示值并记录最小值;
A22,汇总所有模拟中的最小值,构成最小值集合;
A23,基于最小值集合以及预设的总体误判控制参数,根据预设规定输出判断阈值并作为校正显著性判断阈值。
其中,频率差异参照分布是指通过对合并状态数据集进行随机重分配处理,生成若干对模拟状态数据集,并根据这些模拟状态数据集计算出的模拟频率差异值所构建的分布,其目的是提供一个在零假设(即两组单株在其他染色体片段的存在状态上没有差异)成立的情况下,频率差异值可能出现的分布范围和概率;模拟状态数据集是指对合并状态数据集进行随机重分配处理后得到的、用于模拟在零假设下两组单株存在状态分布的数据集,其目的是为构建频率差异参照分布提供基础数据;其他染色体片段是指在第一组单株的基因组中,排除包含已知目标基因的供体片段以及与供体片段邻近的染色体区域后,识别出的源自供体亲本的染色体片段,其目的是聚焦于分析与已知目标基因及紧邻区域无关的、可能与新生性状关联的供体片段;模拟初始统计显著性指示值是指在模拟状态数据集下,针对其他染色体片段计算出的初始统计显著性指示值,其目的是模拟在没有真实差异的情况下,通过统计检验可能获得的显著性水平;最小值是指在每一次模拟中,所有其他染色体片段的模拟初始统计显著性指示值中的最小者,其目的是捕捉在多重检验背景下,即使在零假设成立时也可能出现的最小p值(或等效指标);最小值集合是指汇总所有模拟中记录的最小值所形成的集合,其目的是提供在多重检验和零假设条件下,最小显著性指示值的经验分布;预设的总体误判控制参数是指用户或系统预先设定的、用于控制在进行多重假设检验时发生总体误判(例如,至少一次错误拒绝零假设)的概率的参数,其可以是一个数值,例如0.05,其目的是在进行多个统计检验时,控制整体的错误判断率;预设规定是指根据最小值集合和预设的总体误判控制参数来确定判断阈值的规则或算法,其可以采用不同的统计校正方法对应的规则,例如Bonferroni校正、Sidak校正或基于重抽样(如置换检验)的校正方法,其目的是提供一个确定校正显著性判断阈值的依据;判断阈值是指根据预设规定计算得出的一个数值,用于与初始统计显著性指示值进行比较,以判断统计显著性,其目的是提供一个经过多重检验校正后的判断标准;校正显著性判断阈值是指经过多重假设检验校正后的显著性判断阈值,其目的是降低多重检验带来的误判概率,提高判断的准确性。
在一些优选的实施例中,本申请具体实施如下:假设已经获得了针对多个其他染色体片段的频率差异参照分布和用于构建该分布的模拟状态数据集。对于每一个模拟状态数据集,可以针对其中包含的所有其他染色体片段,按照确定初始统计显著性指示值的方法(例如,统计大于等于模拟频率差异值的模拟频率差异值总数占总模拟次数的比例),计算出各自的模拟初始统计显著性指示值。然后,从这些模拟初始统计显著性指示值中找出最小的一个数值,并将其记录下来。重复这个过程多次(例如,进行1000次模拟),每次模拟都记录下所有片段中最小的模拟初始统计显著性指示值。将这1000个记录下来的最小值汇集起来,就构成了最小值集合。假设预设的总体误判控制参数设定为0.05,并且预设规定是采用基于分位数的方法来确定阈值。那么,可以对最小值集合进行排序,找到位于集合中第5%位置(即小于等于该值的最小值占总数的比例为0.05)的那个数值,将这个数值作为校正显著性判断阈值。最后,将实际计算得到的其他染色体片段的初始统计显著性指示值与这个校正显著性判断阈值进行比较,如果初始统计显著性指示值小于或等于校正显著性判断阈值,则认为该片段的频率差异具有统计显著性。
可选的,结合图9所示,在A23中的根据预设规定输出判断阈值的步骤包括:
A231,以预设的总体误判控制参数作为目标比例;
A232,当最小值集合中小于等于预设阈值的最小值所占比例等于目标比例时,将预设阈值作为判断阈值。
其中,预设的总体误判控制参数是指在进行多重统计检验时,为了控制整体错误率而预先设定的一个概率值,其可以采用控制家族错误率(Family-wise Error Rate,FWER)或控制错误发现率(False Discovery Rate,FDR)的参数值来实现,其目的在于限制在所有被检验的染色体片段中,至少出现一个假阳性结果的概率或预期假阳性结果所占的比例;目标比例是指在确定判断阈值时,希望最小值集合中小于等于该阈值的最小值所占的比例达到的一个特定数值,其具体数值等于预设的总体误判控制参数;最小值集合是指通过多次随机模拟获得的、在每次模拟中所有其他染色体片段的模拟初始统计显著性指示值中的最小值构成的集合,其反映了在随机分布下,最极端(最显著)的统计指示值可能出现的分布情况;预设阈值是指在确定最终判断阈值的过程中,用于与最小值集合中的元素进行比较的一个临时或待测试的数值,其可以采用在0到1之间进行迭代或搜索的方式来确定。
本申请的方案通过将预设的总体误判控制参数设定为目标比例,并基于最小值集合,寻找一个预设阈值,使得最小值集合中小于等于该预设阈值的最小值所占的比例恰好等于该目标比例,从而确定最终的判断阈值。这一过程实质上是利用了基于置换检验的最小p值法(或其变种)来确定多重检验校正后的显著性阈值。最小值集合的分布反映了在零假设(即,其他染色体片段与新生性状没有关联)成立的情况下,通过多次模拟可能观察到的最显著的统计结果的分布。通过在这个分布中找到对应于目标比例(即预设的总体误判控制参数)的分位数,可以将该分位数作为判断阈值。这意味着,如果实际计算出的某个其他染色体片段的初始统计显著性指示值小于或等于这个判断阈值,那么在零假设下,观察到如此极端或更极端结果的概率小于等于预设的总体误判控制参数,因此可以拒绝零假设,认为该片段与新生性状存在统计学上的关联。这种方法充分利用了模拟数据所构建的频率差异参照分布,能够有效地控制在同时检验多个染色体片段时出现假阳性的总体概率,从而提高了识别与新生性状真正相关的候选染色体区域的准确性和可靠性。该方案与在先步骤中构建频率差异参照分布、计算初始统计显著性指示值以及计算校正显著性判断阈值的过程紧密结合,共同构成了一个完整的、统计学上严谨的候选区域识别流程,为后续将新生性状作为代理目标纳入电子模拟提供了可靠的基础数据。
在一些优选的实施例中,具体而言,假设预设的总体误判控制参数设定为0.05,即目标比例为0.05。首先,可以设定一个初始的预设阈值,例如0.01。然后,统计最小值集合中有多少个最小值小于等于0.01,并计算这个数量占最小值集合总数的比例。如果这个比例小于0.05,说明当前的预设阈值太小,需要增大;如果比例大于0.05,说明预设阈值太大,需要减小。可以采用二分查找法或逐步调整法来迭代更新预设阈值。例如,如果比例小于0.05,可以将预设阈值增大到0.02,重新计算比例;如果比例大于0.05,可以将预设阈值减小到0.005,重新计算比例。重复这个过程,直到找到一个预设阈值,使得最小值集合中小于等于该阈值的最小值所占比例非常接近或等于目标比例0.05。一旦找到这样的阈值,就将其确定为最终的判断阈值。例如,经过多次迭代,发现当预设阈值为0.008时,最小值集合中小于等于0.008的最小值占总数的比例恰好是0.05,那么0.008就被确定为判断阈值。
一种玉米分子标记辅助回交育种电子模拟系统,用于执行玉米分子标记辅助回交育种电子模拟,结合图10所示,包括:
第一组单株基因数据采集模块,用于针对携带已知目标基因的第一组单株,采集表现出新生性状的全基因组分子标记数据;
供体与受体基因数据采集模块,用于采集已知目标基因的供体亲本的全基因组分子标记数据;采集已知目标基因的受体亲本的全基因组分子标记数据;
候选染色体区域推断模块,用于基于全部全基因组分子标记数据,通过分析第一组单株基因组中共同继承自供体亲本的染色体片段,和/或通过比较第一组单株与预设对照组的基因型差异,推断出一个或多个候选染色体区域;
代理目标选择模块,用于从候选染色体区域内选出代表性分子标记,作为代理目标;
电子模拟输出模块,用于将代理目标和第一组单株的全基因组分子标记数据作为选择目标,进行后续回交育种的电子模拟,并输出电子模拟的结果。
其中,第一组单株基因数据采集模块是指用于获取表现出新生性状的第一组单株的全基因组分子标记数据的单元,其可以采用基因分型设备、数据接口、数据存储单元来实现。供体与受体基因数据采集模块是指用于获取已知目标基因的供体亲本和受体亲本的全基因组分子标记数据的单元,其可以采用基因分型设备、数据接口、数据存储单元来实现。候选染色体区域推断模块是指用于基于全部全基因组分子标记数据,推断出一个或多个候选染色体区域的单元,其可以采用数据处理单元、分析算法、存储单元来实现。代理目标选择模块是指用于从候选染色体区域内选出代表性分子标记,作为代理目标的单元,其可以采用数据处理单元、选择算法、存储单元来实现。电子模拟输出模块是指用于将代理目标和第一组单株的全基因组分子标记数据作为选择目标,进行后续回交育种的电子模拟,并输出电子模拟结果的单元,其可以采用模拟计算单元、结果生成单元、输出接口来实现。
本申请的方案通过设置多个功能模块,实现了玉米分子标记辅助回交育种电子模拟的完整流程。首先,第一组单株基因数据采集模块和供体与受体基因数据采集模块负责获取进行模拟所需的基础基因组信息,包括表现出新生性状的特定单株以及回交亲本的分子标记数据。这些采集到的数据被汇集后,由候选染色体区域推断模块进行深入分析。该模块通过比较特定单株与亲本或对照组的基因型差异,或者分析遗传片段的共现模式,从而识别出与新生性状可能关联的一个或多个染色体区域。随后,代理目标选择模块介入,从这些推断出的候选区域中,根据一定的标准,挑选出具有代表性的分子标记,将这些标记确定为后续模拟的代理目标。最终,电子模拟输出模块接收这些代理目标以及原始的第一组单株基因数据,将其作为模拟过程中的选择依据,执行回交育种的电子模拟计算,并生成模拟结果。整个系统通过模块间的顺序执行和数据传递,将原始基因数据转化为可用于指导育种实践的模拟结果,从而解决了缺少执行方法的具体实施系统的问题。
在一些优选的实施例中,本申请的玉米分子标记辅助回交育种电子模拟系统可以具体实现为一个软件系统,运行在一台或多台计算机上。第一组单株基因数据采集模块和供体与受体基因数据采集模块可以表现为数据输入接口,允许用户导入来自基因分型平台或数据库的分子标记数据文件。候选染色体区域推断模块和代理目标选择模块可以由一系列预设的生物信息学分析算法和统计模型构成,这些算法在计算机的处理单元上执行,对导入的基因数据进行计算和分析,识别候选区域并筛选代理标记。电子模拟输出模块可以包含一个遗传模拟引擎,该引擎根据用户设定的育种方案,利用确定的代理目标和单株基因数据进行迭代计算,模拟多代回交过程中的基因型变化和性状表现,并将最终的模拟结果通过图形界面或报告文件的形式呈现给用户。
通过上述技术方案,提供了一种玉米分子标记辅助回交育种电子模拟系统,该系统通过集成数据采集、候选区域推断、代理目标选择和电子模拟输出等功能模块,提供了一个能够执行玉米分子标记辅助回交育种电子模拟的平台。这使得育种人员能够将实际育种过程中采集到的基因数据,特别是与意外观察到的新生性状相关的单株数据,输入到系统中进行处理和分析。系统能够自动推断与新生性状相关的候选染色体区域,并从中选择代表性分子标记作为代理目标,进而将这些代理目标与原始育种目标一同纳入后续的回交育种电子模拟中。这解决了仅仅通过方法难以实际执行模拟的问题,提供了一个具体的工具来完成电子模拟过程,特别是能够处理遗传基础未知的新生性状,为育种者提供了基于实际数据进行模拟和决策支持的能力,从而能够更有效地利用育种过程中出现的有益变异,优化育种策略。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,包括:
针对携带已知目标基因的第一组单株,采集表现出新生性状的全基因组分子标记数据;
采集所述已知目标基因的供体亲本的全基因组分子标记数据;采集所述已知目标基因的受体亲本的全基因组分子标记数据;
基于全部所述全基因组分子标记数据,通过分析所述第一组单株基因组中共同继承自供体亲本的染色体片段,和/或通过比较所述第一组单株与预设对照组的基因型差异,推断出一个或多个候选染色体区域;
从所述候选染色体区域内选出代表性分子标记,作为代理目标;
将所述代理目标和所述第一组单株的全基因组分子标记数据作为选择目标,进行后续回交育种的电子模拟,并输出所述电子模拟的结果。
2.如权利要求1所述的一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,所述通过分析所述第一组单株基因组中共同继承自供体亲本的染色体片段推断出一个或多个候选染色体区域的步骤,包括:
基于所述第一组单株的全基因组分子标记数据,确定所述第一组单株中各个单株基因组中包含所述已知目标基因的供体片段以及与所述供体片段邻近的染色体区域;
在所述第一组单株的基因组中,排除所述供体片段和所述邻近的染色体区域后,统计其他来源于所述供体亲本的染色体片段对应的共现频率;
将所述共现频率高于预设阈值的所述其他来源于供体亲本的染色体片段,作为一个或多个候选染色体区域。
3.如权利要求1所述的一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,所述从所述候选染色体区域内选出代表性分子标记,作为代理目标的步骤,包括:
获取全部所述候选染色体区域内的每一个候选分子标记与所述新生性状的关联数据;
获取所述候选分子标记和所述已知目标基因的分子标记的遗传连锁分析参数;
获取所述候选分子标记的育种应用便捷性评估信息;
根据所述关联数据、所述遗传连锁分析参数和所述育种应用便捷性评估信息,生成各个所述候选分子标记的评估结果;
从全部所述候选分子标记中选择所述评估结果满足预设条件的一个或一组分子标记,作为代理目标。
4.如权利要求2所述的一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,所述在所述第一组单株的基因组中,排除所述供体片段和所述邻近的染色体区域后,统计其他来源于所述供体亲本的染色体片段对应的共现频率的步骤,包括:
针对所述第一组单株各个单株,基于所述供体片段和所述邻近的染色体区域,识别出所述供体片段和所述邻近的染色体区域之外且源自所述供体亲本的其他染色体片段;
统计所述其他染色体片段的第一共现频率;
获取所述预设对照组的第二组单株中,与所述其他染色体片段对应的染色体片段的第二共现频率;
基于所述第一共现频率与所述第二共现频率,评估差异显著性,生成差异显著性评估结果;
将所述差异显著性评估结果满足预设条件的第一共现频率,作为所述第一组单株的共现频率。
5.如权利要求4所述的一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,所述基于所述第一共现频率与所述第二共现频率,评估差异显著性,生成差异显著性评估结果的步骤,包括:
针对所述第一组单株和所述第二组单株,获取各个所述其他染色体片段的存在状态数据;
将两组单株的全部所述存在状态数据进行合并,生成合并状态数据集;
对所述合并状态数据集进行随机重分配处理,生成若干对模拟状态数据集;每一对所述模拟状态数据集包括一个模拟第一组状态数据集和一个模拟第二组状态数据集;
根据所述模拟状态数据集,计算出模拟第一共现频率与模拟第二共现频率之间的模拟频率差异值;
基于所述模拟频率差异值,构建所述其他染色体片段的频率差异参照分布;
计算所述第一共现频率与所述第二共现频率之间的实际频率差异值,将所述实际频率差异值与所述频率差异参照分布进行比较,确定统计显著性,作为所述差异显著性评估结果。
6.如权利要求5所述的一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,所述计算所述第一共现频率与所述第二共现频率之间的实际频率差异值,将所述实际频率差异值与所述频率差异参照分布进行比较,确定统计显著性,作为所述差异显著性评估结果的步骤,包括:
根据所述实际频率差异值与所述频率差异参照分布,确定初始统计显著性指示值;
基于所述其他染色体片段的数量以及预设的总体误判控制参数,计算校正显著性判断阈值;
比较所述初始统计显著性指示值与所述校正显著性判断阈值,判断是否具有统计显著性,将所述判断结果作为所述差异显著性评估结果。
7.如权利要求6所述的一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,所述根据所述实际频率差异值与所述频率差异参照分布,确定初始统计显著性指示值的步骤,包括:
统计所述频率差异参照分布中大于等于所述实际频率差异值的模拟频率差异值的总数;
计算所述总数占所述频率差异参照分布中总模拟次数的比例;
将所述比例,作为所述其他染色体片段的初始统计显著性指示值。
8.如权利要求6所述的一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,所述基于所述其他染色体片段的数量以及预设的总体误判控制参数,计算校正显著性判断阈值的步骤包括:
基于所述频率差异参照分布和所述模拟状态数据集,计算所述其他染色体片段的模拟初始统计显著性指示值并记录最小值;
汇总所有模拟中的最小值,构成最小值集合;
基于所述最小值集合以及所述预设的总体误判控制参数,根据预设规定输出判断阈值并作为所述校正显著性判断阈值。
9.如权利要求8所述的一种玉米分子标记辅助回交育种电子模拟方法,其特征在于,所述根据预设规定输出判断阈值的步骤,包括:
以所述预设的总体误判控制参数作为目标比例;
当所述最小值集合中小于等于预设阈值的最小值所占比例等于目标比例时,将所述预设阈值作为判断阈值。
10.一种玉米分子标记辅助回交育种电子模拟系统,用于执行玉米分子标记辅助回交育种电子模拟,其特征在于,包括:
第一组单株基因数据采集模块,用于针对携带已知目标基因的第一组单株,采集表现出新生性状的全基因组分子标记数据;
供体与受体基因数据采集模块,用于采集所述已知目标基因的供体亲本的全基因组分子标记数据;采集所述已知目标基因的受体亲本的全基因组分子标记数据;
候选染色体区域推断模块,用于基于全部所述全基因组分子标记数据,通过分析所述第一组单株基因组中共同继承自供体亲本的染色体片段,和/或通过比较所述第一组单株与预设对照组的基因型差异,推断出一个或多个候选染色体区域;
代理目标选择模块,用于从所述候选染色体区域内选出代表性分子标记,作为代理目标;
电子模拟输出模块,用于将所述代理目标和所述第一组单株的全基因组分子标记数据作为选择目标,进行后续回交育种的电子模拟,并输出所述电子模拟的结果。
CN202510859588.4A 2025-06-25 2025-06-25 一种玉米分子标记辅助回交育种电子模拟方法及系统 Active CN120877861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202510859588.4A CN120877861B (zh) 2025-06-25 2025-06-25 一种玉米分子标记辅助回交育种电子模拟方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202510859588.4A CN120877861B (zh) 2025-06-25 2025-06-25 一种玉米分子标记辅助回交育种电子模拟方法及系统

Publications (2)

Publication Number Publication Date
CN120877861A true CN120877861A (zh) 2025-10-31
CN120877861B CN120877861B (zh) 2026-02-13

Family

ID=97471002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202510859588.4A Active CN120877861B (zh) 2025-06-25 2025-06-25 一种玉米分子标记辅助回交育种电子模拟方法及系统

Country Status (1)

Country Link
CN (1) CN120877861B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070166707A1 (en) * 2002-12-27 2007-07-19 Rosetta Inpharmatics Llc Computer systems and methods for associating genes with traits using cross species data
CN106028794A (zh) * 2013-12-27 2016-10-12 先锋国际良种公司 改良的分子育种方法
CN119391902A (zh) * 2024-12-17 2025-02-07 新疆农业科学院粮食作物研究所 一种利用分子标记辅助鲜食玉米高效育种方法
CN119433091A (zh) * 2024-12-19 2025-02-14 辽宁省水稻研究所 基于高通量测序的粳稻双亲杂交目的基因植株筛选方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070166707A1 (en) * 2002-12-27 2007-07-19 Rosetta Inpharmatics Llc Computer systems and methods for associating genes with traits using cross species data
CN106028794A (zh) * 2013-12-27 2016-10-12 先锋国际良种公司 改良的分子育种方法
US20160321396A1 (en) * 2013-12-27 2016-11-03 Pioneer Hi-Bred International, Inc. Improved molecular breeding methods
CN119391902A (zh) * 2024-12-17 2025-02-07 新疆农业科学院粮食作物研究所 一种利用分子标记辅助鲜食玉米高效育种方法
CN119433091A (zh) * 2024-12-19 2025-02-14 辽宁省水稻研究所 基于高通量测序的粳稻双亲杂交目的基因植株筛选方法

Also Published As

Publication number Publication date
CN120877861B (zh) 2026-02-13

Similar Documents

Publication Publication Date Title
Aono et al. Machine learning approaches reveal genomic regions associated with sugarcane brown rust resistance
US11430542B2 (en) Computer implemented method for predicting true agronomical value of a plant
CN105404793B (zh) 基于概率框架和重测序技术快速发现表型相关基因的方法
CN108292327A (zh) 下一代测序中检测拷贝数变异的方法
US20250104810A1 (en) Gene mining method and system based on transcriptome and dna methylome
CN117275575A (zh) 一种基于液相芯片对snp的猪品种鉴定的深度学习判别方法
CN114038502B (zh) 一种基于基因交互网络聚类和群稀疏学习的表达数量性状与cnv关联的方法
CN120877861B (zh) 一种玉米分子标记辅助回交育种电子模拟方法及系统
CN119694406B (zh) 一种优质育种群体选择方法、装置、设备及存储介质
CN118866116A (zh) 一种测序样本污染的分析方法、装置、系统及存储介质
CN115641913A (zh) 一种基于深度学习的复杂演化历史的分析方法
Shen et al. Teasing apart the sources of phylogenetic tree discordance across three genomes in the oak family (Fagaceae)
CN115938479A (zh) 一种snp位点对的基因上位性检验方法、系统及介质
Poudel Optimizing Gwas in Barley: Trade-Offs Between Statistical Power and Computational Efficiency Across Different Models
CN116508105A (zh) 基于单倍型块的基因组标记插补
CN114203257A (zh) 基于snp标记获取回交群体背景回复率的方法
CN119832979B (zh) 基于ems群体的基因水平全基因组关联分析算法
CN119719808B (zh) 一种定位Alpha地贫SEA突变链的方法及装置
Wu et al. High-throughput genotyping and its role in accelerating cotton breeding
CN120833091B (zh) 一种多代测序数据质控管理方法、系统
Romero Better understanding genomic architecture with the use of applied statistics and explainable artificial intelligence
Stewart-Brown et al. Characterizing the impact of an exotic soybean line on elite cultivar development
CN121413826A (zh) 一种基于基因组选择的油菜开花期预测方法
DAANS et al. PROJECT REPORT: HIDDEN MARKOV MODEL TO ANALYZE GENETICS IN POTATO CULTIVATION
CN120636548A (zh) 一种基于Transformer架构的桑树SNP标记挖掘与抗逆性状预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant