[go: up one dir, main page]

CN118899037A - 太空电离辐射关键分子的识别方法及系统 - Google Patents

太空电离辐射关键分子的识别方法及系统 Download PDF

Info

Publication number
CN118899037A
CN118899037A CN202411393448.4A CN202411393448A CN118899037A CN 118899037 A CN118899037 A CN 118899037A CN 202411393448 A CN202411393448 A CN 202411393448A CN 118899037 A CN118899037 A CN 118899037A
Authority
CN
China
Prior art keywords
ionizing radiation
gene
nodes
mirna
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411393448.4A
Other languages
English (en)
Inventor
刘海洲
姜伟
袁梦琴
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Fujian Medical University
Original Assignee
First Affiliated Hospital of Fujian Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Fujian Medical University filed Critical First Affiliated Hospital of Fujian Medical University
Priority to CN202411393448.4A priority Critical patent/CN118899037A/zh
Publication of CN118899037A publication Critical patent/CN118899037A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Public Health (AREA)
  • Algebra (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及太空电离辐射技术领域,提供一种太空电离辐射关键分子的识别方法及系统,包括:一、对太空电离辐射的基因和微小核糖核酸miRNA表达谱进行差异表达分析,筛选在太空电离辐射条件下显著差异表达的miRNA和基因;二、整合转录因子TF、miRNA与基因gene之间的分子互作关系,构建异质性基因调控网络;三、在构建的异质性基因调控网络中,以显著差异表达的miRNA和基因作为种子节点,进行重启随机游走;四、根据重启游走算法对网络中每个节点的打分,对网络中所有的节点进行排序,筛选出其中得分最高的前百分之一的节点,即为识别到的太空电离辐射关键分子。本发明能较佳地识别太空电离辐射关键分子。

Description

太空电离辐射关键分子的识别方法及系统
技术领域
本发明涉及太空电离辐射技术领域,具体地说,涉及一种太空电离辐射关键分子的识别方法及系统。
背景技术
太空电离辐射是航天员在执行太空飞行任务时面临的主要风险因素之一,是发展载人航天事业不得不克服的一项挑战,但是关于太空电离辐射对生物体影响背后的分子机制研究还比较缺乏。识别受某些外界刺激扰动的分子,探究这些分子具有的生物学功能和参与的通路,是研究外界刺激分子机制的有效方法。随着高通量多组学技术的发展,已经可以获得太空电离辐射条件下转录因子、miRNA和基因等生物分子的转录组信息。同时,转录因子作为一种重要的调控基因表达的生物分子,可以结合到基因的启动子区域来调控基因的转录和表达,与各种基因协同作用,在细胞中行使重要的功能。miRNA则是一种重要的转录后调控因子,在各种生物学功能中发挥关键的作用。此外,整合转录因子、miRNA与基因之间复杂的相互作用关系,构建异质性基因调控网络,可以更加全面地研究太空电离辐射对生物体影响的分子机制。但是,目前不能较佳地识别太空电离辐射关键分子。
发明内容
本发明的内容是提供一种太空电离辐射关键分子的识别方法及系统,其能够克服现有技术的某种或某些缺陷。
根据本发明的一种太空电离辐射关键分子的识别方法,其包括以下步骤:
一、对太空电离辐射的基因和微小核糖核酸(miRNA)表达谱进行差异表达分析,筛选在太空电离辐射条件下显著差异表达的miRNA和基因;
二、整合转录因子(TF)、miRNA与基因(gene)之间的分子互作关系,构建由这三种生物分子构成的异质性基因调控网络;
三、在构建的异质性基因调控网络中,以显著差异表达的miRNA和基因作为种子节点,进行重启随机游走;
四、根据重启游走算法对网络中每个节点的打分,对网络中所有的节点进行排序,筛选出其中得分最高的前百分之一的节点,这些被筛选出来的节点即为识别到的太空电离辐射关键分子。
作为优选,步骤一中,使用limma 分别对太空电离辐射的基因和miRNA表达谱进行差异表达分析。
作为优选,limma使用线性模型描述基因的表达水平,并使用贝叶斯方法对基因之间的差异进行推断;以分组因素,即是否暴露于太空电离辐射环境为自变量,以基因表达数据为因变量,使用lmFit函数对每一个基因建立带有权重的线性回归模型,获得回归模型系数,将基因表达水平与分组因素关联起来;然后使用eBayes函数对模型进行统计推断,得到每个基因的表达差异度;最后,使用topTable函数对表达谱中的每个基因进行Benjamini-Hochberg多重检验校正,根据设定的显著性水平,筛选出在太空电离辐射条件下显著差异表达的基因;
根据limma的计算结果,以差异表达倍数FC和校正之后的显著性水平adj.p为筛选差异表达基因的阈值。符合log2 FC > 1且adj.p < 0.05的基因为上调基因,符合log2 FC < -1且adj.p < 0.05的基因为下调基因,筛选出显著差异表达的基因。使用limma对太空电离辐射条件下的miRNA表达谱进行差异表达分析;以p-value为显著性阈值。符合log2 FC > 1且p-value < 0.05的miRNA为上调miRNA,符合log2 FC < -1且p-value < 0.05的miRNA为下调miRNA,筛选出显著差异表达的miRNA。
作为优选,步骤二中,通过整合从TRANSFAC、TarBase、miRTarBase、TransmiR和STRING数据库中获得的TF-gene、miRNA-gene、TF-miRNA和gene-gene互作关系,去除其中的自环和重复项,构建一个异质性基因调控网络;网络由17,939个节点和273,659条边构成,17,939个节点包括647个TF、888个miRNA和16,404个基因;使用Cytoscape软件对构建的异质性基因调控网络进行可视化。
作为优选,步骤三中,以筛选出的差异表达基因和差异表达miRNA为种子节点,在构建的异质性基因调控网络上,使用重启随机游走算法,识别太空电离辐射关键分子。
作为优选,步骤三中,使用重启随机游走算法时,首先需要定义种子集合;种子集合包括网络中的一个或者多个节点,即为随机游走过程的初始节点,也称为种子节点;从定义的种子节点开始,在每次游走过程中,节点能选择移动到它们的邻居节点,也会后一定的概率跳回到种子集合中;节点移动到哪里与节点的权重、网络中节点的度分布和重启概率有关;重复进行多次随机游走过程,当相邻的两次随机游走过程中,所有节点差异的和小于1×10-10时,认为网络达到平衡状态;每个节点获得一个平衡概率,该平衡概率代表相应的节点与种子节点之间的相关程度;重启随机游走算法的计算公式如下:
其中,是异质性基因调控网络的邻接矩阵;如果两个节点在网络中存在互作关系,则对应的值为1,如果两个节点之间不存在互作关系,则对应的值为0,并对矩阵进行列标准化;代表重启概率;是初始化向量,向量长度为网络中节点的数量;向量的每个分量代表分配给每个节点的初始分数,的分量表示分子在表达谱中是否显着差异表达;在中,将显著差异表达分子对应的分量设置为,其中n代表种子节点的数量,不差异表达的分子对应的分量设置为0。表示第t次随机游走后每个节点的得分向量;表示第次随机游走后每个节点的得分向量。
作为优选,步骤四中,将重启随机游走算法对异质性基因调控网络中每个节点的打分从高到低降序排列,选取其中得分排名在前百分之一的节点,作为太空电离辐射关键分子,并提取太空电离辐射关键分子之间的互作关系,构建太空电离辐射关键分子网络。
接下来收集并整理了与电离辐射相关的标准基因集以说明本发明识别的太空电离辐射关键分子的准确性。MsigDB数据库提供了大量高质量和高可靠性的基因集合,涵盖生物学过程、分子功能、细胞组分、癌症以及免疫等多个领域。本发明在MsigDB数据库中以“Ionizing Radiation”为关键词搜索到了一些与电离辐射相关的基因集。经过筛选之后,一共获得了34个电离辐射标准基因集。通过比较太空电离辐射关键分子和差异表达分子在电离辐射标准基因集中的富集情况,验证识别太空电离辐射关键分子的准确性。
本发明提供了一种太空电离辐射关键分子的识别系统,其采用上述的太空电离辐射关键分子的识别方法。
本发明首先进行差异表达分析,识别到了多个显著差异的基因和多个显著差异的miRNA。然后,通过整合多个分子互作数据库中TF、miRNA和基因之间的相互作用关系,构建了异质性基因调控网络。进一步,使用重启随机游走算法,筛选出得分最高的前1%的分子作为太空电离辐射的关键分子。本发明能较佳地识别太空电离辐射关键分子,从而方便对识别到的关键分子进行GO和KEGG富集分析,揭示太空电离辐射对生物体影响的潜在的分子机制。
附图说明
图1为一种太空电离辐射关键分子的识别方法的流程图。
图2为异质性基因调控网络图;注:紫色的三角形表示miRNA,橙色的菱形表示TF,绿色的圆形表示基因。
图3为异质性基因调控网络的度分布图;注:横轴表示节点的度,纵轴表示节点数量,红色虚线表示拟合线性模型。
图4为太空电离辐射关键分子网络示意图;注:节点的形状表示分子类型,颜色表示是否是种子节点,大小表示节点的度。
图5为电离辐射标准基因集富集结果图;注:红色和绿色分别表示太空电离辐射关键分子和种子节点。实心圆表示富集结果显著(p-value < 0.05),空心圆表示富集结果不显著。数字表示被显著富集的基因集的数量。
图6为GO功能富集分析结果图;注:外圈的数字表示富集到该功能的基因总数量。第二圈的数字表示富集基因中,上调基因和下调基因的数量。内圈的数字表示差异基因与总富集基因的比值。
图7为KEGG通路富集分析结果图。注:外圈的数字表示富集到该通路的基因总数量。第二圈的数字表示富集基因中,上调基因和下调基因的数量。内圈的数字表示差异基因与总富集基因的比值。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
如图1所示,本实施例提供了一种太空电离辐射关键分子的识别方法,其包括以下步骤:
一、对太空电离辐射的基因和微小核糖核酸(miRNA)表达谱进行差异表达分析,筛选在太空电离辐射条件下显著差异表达的miRNA和基因;
二、整合转录因子(TF)、miRNA与基因(gene)之间的分子互作关系,构建由这三种生物分子构成的异质性基因调控网络;
三、在构建的异质性基因调控网络中,以显著差异表达的miRNA和基因作为种子节点,进行重启随机游走;
四、根据重启游走算法对网络中每个节点的打分,对网络中所有的节点进行排序,筛选出其中得分最高的前百分之一的节点,这些被筛选出来的节点即为识别到的太空电离辐射关键分子。
在识别之前,进行数据获取和预处理,具体为:
本实施例所使用的数据主要包括与太空电离辐射相关的miRNA和基因表达谱,以及转录因子、miRNA和基因之间的分子互作关系。这些数据都是从公共数据库中下载的,然后进行一定的预处理。在后续的研究过程中,将基于miRNA和基因表达谱,识别太空电离辐射差异表达的miRNA和基因。通过整合转录因子、miRNA和基因之间的分子互作关系,构建异质性基因调控网络。
太空电离辐射的表达谱数据
本实施例从GEO数据库中下载了太空电离辐射相关的miRNA和基因转录组数据。实验样本来自于从5名健康志愿者体内获得的人类外周血淋巴细胞。实验中使用的射线类型为伽马射线,由137Cs辐射源产生,辐射剂量为2 Gy,辐射剂量率为2.8 Gy/min。在经过辐射暴露,并培养24小时之后,检测外周血淋巴细胞中的miRNA和基因的表达量。作为对照组的样本,没有接受模拟太空电离辐射的照射,培养24小时之后,检测细胞中的miRNA和基因的表达量。辐射条件下的miRNA和基因表达谱,以及对照组的miRNA和基因表达谱分别包括5个样本,具体信息如表1所示。
表1 太空电离辐射的miRNA和基因表达谱样本
接下来,对表达谱数据进行预处理。将原始微阵列数据通过分位数标准化进行阵列间标准化,然后进行log2转换。为了统一miRNA名称,使用“miRNAmeConverter”R包将表达谱中的miRNA名称统一转换为miRbase V22数据库的标准名称。对于基因,将基因探针ID转换为基因symbol名称。如果多个探针对应同一个基因,则使用平均探针表达值作为这个基因的表达值。最终所获得的表达谱中包含262个miRNA和14,675个基因。
分子之间的互作关系
为了综合分析各种生物分子之间复杂的相互作用关系,本实施例从TRANSFAC、TarBase、miRTarBase、TransmiR和STRING等5个在线数据库中收集并整理TF、miRNA与基因之间的互作关系。这些互作关系包括TF-gene、miRNA-gene、TF-miRNA以及gene-gene共4种不同的类型,详细信息如表2所示。
表2 TF-miRNA-gene的互作关系数量统计
TF与基因之间的调控关系来自于TRANSFAC V2.0数据库。该数据库收集了有关转录因子及其DNA结合位点、基因调控通路、与特定疾病之间的关联等信息,为研究基因调控网络以及信号传导通路提供了宝贵的资源,对分子生物学、系统生物学和基因组学等领域的研究有重要的价值。本实施例从TRANSFAC数据库中一共收集到了4,693对TF与基因之间的调控关系。
miRNA与基因之间的调控关系来自于TRANSFAC V2.0、TarBase V8 和miRTarBaseV9.0数据库。TarBase和miRTarBase两个数据库都致力于收集和提供miRNA与其靶基因之间的相互作用关系,以帮助研究者理解miRNA在基因表达过程中发挥的调控作用。但是,两个数据库有不同的侧重点。TarBase数据库不仅包含已知的、经过实验验证的miRNA与靶基因的调控关系,还包括通过使用计算生物学方法预测的潜在相互作用。而miRTarBase数据库更侧重于提供真实确切的、经过实验证实或者被文献报道过的miRNA与靶基因之间的调控关系。相对于高通量实验验证的互作关系,传统的低通量实验结果的可靠性更高一些。因此在TarBase和miRTarBase数据库中,本实施例只保留了经过低通量实验验证的互作关系,比如Western Blot和实时荧光定量PCR(Quantitative Real-time PCR, qPCR)。整合从TRANSFAC、TarBase和miRTarBase三个数据库中收集的信息,共获得12,052对miRNA与靶基因之间的调控关系。
TF与miRNA之间的调控关系来自于TRANSFAC V2.0和TransmiR V2.0数据库。TransmiR数据库主要涉及TF与miRNA之间的调控关系,提供了来自于实验室验证,文献报道和其他研究来源的TF-miRNA关系对,为构建基因调控网络起到了重要的辅助作用。通过整合TRANSFAC和TransmiR数据库的结果,一共获得了3,930对TF与miRNA之间的调控关系。
基因与基因之间的互作关系来自于STRING数据库。STRING数据库提供了大量的经过实验验证的和预测的蛋白质互作关系,同时还包括蛋白质的功能注释信息、蛋白质的结构信息以及基因组水平上的上下游关系。STRING数据库对提供的每一条互作关系都计算相应的置信度得分,表示该互作关系的可靠性。低可靠性、中等可靠性、高可靠性、最高可靠性的阈值分别为0.15、0.4、0.7、0.9。本研究选择置信度得分大于0.7的高可靠性互作关系。去除其中存在重复的互作关系,一共获得了252,984对基因与基因之间的相互作用关系。
步骤一中,使用R包limma V3.52.4(Linear Models for Microarray Data)分别对太空电离辐射的基因和miRNA表达谱进行差异表达分析。
limma使用线性模型描述基因的表达水平,并使用贝叶斯方法对基因之间的差异进行推断;以分组因素,即是否暴露于太空电离辐射环境为自变量,以基因表达数据为因变量,使用lmFit函数对每一个基因建立带有权重的线性回归模型,获得回归模型系数,将基因表达水平与分组因素关联起来;然后使用eBayes函数对模型进行统计推断,得到每个基因的表达差异度;最后,使用topTable函数对表达谱中的每个基因进行Benjamini-Hochberg多重检验校正,根据设定的显著性水平,筛选出在太空电离辐射条件下显著差异表达的基因;
根据limma的计算结果,以差异表达倍数(Fold Change, FC)和校正之后的显著性水平(Adjust p-value, adj.p)为筛选差异表达基因的阈值。符合log2 FC > 1且adj.p <0.05的基因为上调基因,符合log2 FC < -1且adj.p < 0.05的基因为下调基因,筛选出43个显著差异表达的基因。其中VWCE等31个基因为上调基因,EXO1等12个基因为下调基因。
使用limma对太空电离辐射条件下的miRNA表达谱进行差异表达分析;如果仍以adj.p < 0.05为显著性水平阈值,则没有一个miRNA是显著差异表达的。出现这种情况的原因可能是表达谱中miRNA的数量较少,样本之间的差异较大,在计算过程中存在批次效应或样本异质性,导致在进行多重检验校正时,更多的miRNA不能达到显著性阈值。因此,以p- value为显著性阈值。符合log2 FC > 1且p-value < 0.05的miRNA为上调miRNA,符合log2 FC< -1且p-value < 0.05的miRNA为下调miRNA,筛选出7个显著差异表达的miRNA。其中6个miRNA为上调miRNA,只有1个下调miRNA。
步骤二中,通过整合从TRANSFAC、TarBase、miRTarBase、TransmiR和STRING数据库中获得的TF-gene、miRNA-gene、TF-miRNA和gene-gene互作关系,去除其中的自环和重复项,构建了一个异质性基因调控网络;网络由17,939个节点和273,659条边构成,17,939个节点包括647个TF、888个miRNA和16,404个基因;为了能够直观地理解和分析异质性网络中的复杂关系,使用Cytoscape软件对构建的异质性基因调控网络进行可视化,如图2所示。
接下来,分析了异质网络的度分布。一个节点的度指的是与该节点直接相连的所有边的数目总和。度分布是指网络中所有节点的度的总体分布模式。度分布是研究网络拓扑结构和功能的重要指标,揭示了网络中节点的连接模式和结构特征。图3展示了本实施例所构建的异质性基因调控网络的节点度分布(图中,横轴表示节点的度,纵轴表示节点数量,虚线表示拟合线性模型),少数节点具有非常高的度,而大多数节点的度都比较低,这种度分布特征近似呈现出幂律分布。节点的度分布与斜率为负的拟合直线之间的拟合系数Rsquare为0.89,说明网络符合幂律分布。幂律分布反映了网络中存在少数“枢纽(hub)节点”的特性,这些枢纽节点在维持网络结构的稳定性以及网络中的信息传递方面发挥重要作用。节点度分布遵循幂律分布的网络也被称为无标度网络。区别于随机生成的网络,大多数生物分子网络,比如蛋白质相互作用网络、基因共表达网络或代谢网络,都表现出无标度的拓扑属性。本实施例构建的异质性基因调控网络同样符合无标度拓扑属性,是一个具有生物学意义的无标度网络。
步骤三中,以筛选出的差异表达基因和差异表达miRNA为种子节点,在构建的异质性基因调控网络上,使用重启随机游走算法,识别太空电离辐射关键分子。
使用重启随机游走算法时,首先需要定义种子集合;种子集合包括网络中的一个或者多个节点,即为随机游走过程的初始节点,也称为种子节点;从定义的种子节点开始,在每次游走过程中,节点能选择移动到它们的邻居节点,也会后一定的概率跳回到种子集合中;节点移动到哪里与节点的权重、网络中节点的度分布和重启概率有关;重复进行多次随机游走过程,当相邻的两次随机游走过程中,所有节点差异的和小于1×10-10时,认为网络达到平衡状态;每个节点获得一个平衡概率,该平衡概率代表相应的节点与种子节点之间的相关程度;重启随机游走算法的计算公式如下:
其中,是异质性基因调控网络的邻接矩阵;如果两个节点在网络中存在互作关系,则对应的值为1,如果两个节点之间不存在互作关系,则对应的值为0,并对矩阵进行列标准化;代表重启概率,根据先验知识,本实施例中将重启概率设置为0.7;是初始化向量,向量长度为网络中节点的数量;向量的每个分量代表分配给每个节点的初始分数,的分量表示分子在表达谱中是否显着差异表达;在中,将显著差异表达分子对应的分量设置为1/n,其中n代表种子节点的数量,不差异表达的分子对应的分量设置为0。表示第t次随机游走后每个节点的得分向量;表示第t-1次随机游走后每个节点的得分向量。
步骤四中,异质性基因调控网络中一共有17,939个节点,将重启随机游走算法对异质性基因调控网络中每个节点的打分从高到低降序排列,选取其中得分排名在前百分之一的节点,共计179个,作为太空电离辐射关键分子。重启随机游走算法的最终结果中,得分较高的节点,不仅与种子节点有较高的相似性,而且往往是在网络中发挥关键作用的“枢纽节点”。由于是以在太空电离辐射条件下显著差异表达的miRNA和基因为重启随机游走的种子节点,并且选择得分较高的节点作为关键分子,因此这些关键分子既与太空电离辐射相关,又是网络中的重要节点。
这179个太空电离辐射关键分子由23个TF、10个miRNA和146个基因组成,如表3所示。其中,包括50个种子节点以及129个由重启随机游走算法扩展得到的节点。从异质性基因调控网络中,提取出179个太空电离辐射关键分子,以及这些分子之间的互作关系,构建太空电离辐射关键分子网络。如图4所示,太空电离辐射关键分子网络由179个节点和1,318条边构成。
表3:太空电离辐射关键分子列表
在识别到的关键分子中,不管是FDXR和hsa-miR-34a-5p等种子节点,还是TP53CHEK1等扩展得到的分子,都被证明在电离辐射对人体的影响中发挥重要作用。比如,FDXR是一个调控细胞中氧化还原反应,参与离子传递的基因。电离辐射会引起氧化应激,导致细胞内的氧化还原平衡紊乱,FDXR可以为细胞反应提供还原等效子,维持氧化还原平衡,对抗电离辐射引起的氧化损伤。FDXR被作为电离辐射暴露可靠的生物标志物用于评估电离辐射剂量。hsa-miR-34a-5p也被证明对于不同类型和强度的电离辐射,会产生特异性表达,可以被作为预测电离辐射类型与损伤程度的候选生物标志物。
另外,转录因子TP53和基因CHEK1是由重启随机游走算法扩展得到的分子,它们都是太空电离辐射关键分子网络中的关键节点。TP53是网络中度最大的节点,CHEK1是网络中介数中心性最大的节点。度最大表示TP53与其他分子之间存在的互作关系最多,在网络的拓扑结构中处于核心位置。介数中心性是指在所有最短路径中,经过该节点的路径数目与最短路径总数目的比值。介数中心性最大意味着CHEK1在不同节点的信息传递过程中起到关键的中介和桥梁作用,确保网络的连通性。同时,它们也被证明在电离辐射对生物体的影响中发挥重要作用。当细胞受到电离辐射引起的DNA损伤时,TP53可以诱导细胞周期停滞,阻止受损的细胞进入DNA复制与合成阶段,为细胞有足够的时间修复DNA损伤提供了机会。TP53通过调节DNA修复通路中相关基因的表达,修复电离辐射造成的DNA损伤,有助于维持基因组的稳定性,减少潜在的遗传变异。而当DNA损伤过于严重以至于无法修复时,TP53可以促使受损细胞凋亡,避免受损细胞的进一步增殖,这是细胞对于电离辐射损伤的一种保护机制。基因CHEK1TP53的功能类似,是一种细胞周期检查点激酶,参与了电离辐射引起的DNA损伤后的细胞周期调控,主要在细胞周期过程中的有丝分裂阶段发挥作用,协调细胞之间的应答,保证有丝分裂过程顺利进行。
接下来收集并整理了与电离辐射相关的标准基因集以验证本实施例识别方法的有效性和识别太空电离辐射关键分子的准确性。MsigDB数据库提供了大量高质量和高可靠性的基因集合,涵盖生物学过程、分子功能、细胞组分、癌症以及免疫等多个领域。本实施例在MsigDB数据库中以“Ionizing Radiation”为关键词搜索到了一些与电离辐射相关的基因集。比如,基因集M2608(ZHOU CELL CYCLE GENES IN IR RESPONSE 24HR)包括127个暴露于电离辐射24小时之后,成纤维细胞中与细胞周期有关的差异表达基因。基因集M52(MACAEVA PBMC RESPONSE TO IR)包括106个暴露于1 Gy的电离辐射8小时之后,人类外周血单核细胞中显著上调的基因。经过筛选之后,一共获得了34个电离辐射标准基因集(表4)。
表4:34个电离辐射标准基因集
对于每一个电离辐射标准基因集,利用超几何检验,分析43个种子节点(所有的差异表达基因)和169个太空电离辐射关键分子(146个基因和23个TF)对基因集的富集结果。如果超几何检验的显著性p < 0.05,则认为该基因集被显著富集。图5展示了种子节点和太空电离辐射关键分子在每一个电离辐射标准基因集上的富集结果。从图中可以看出,种子节点在14个电离辐射标准基因集上显著富集,而太空电离辐射关键分子在25个电离辐射标准基因集上显著富集。而且对于一些基因集,虽然种子节点和太空电离辐射关键分子都是显著富集的,但是太空电离辐射关键分子的显著程度远远高于种子节点的富集程度。富集结果的对比表明了相比于差异表达基因,通过本实施例的分析方法识别到的太空电离辐射关键分子,与电离辐射的相关性更强,说明了本实施例的识别方法是有效的以及识别的太空电离辐射关键分子是准确的。
为了研究太空电离辐射对人体影响的分子机制,本实施例进一步分析了识别到的太空电离辐射关键分子富集的生物学功能和通路。使用clusterProfiler对太空电离辐射关键分子中的TF和基因进行了基因本体(Gene Ontology, GO)与京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)富集分析。clusterProfiler是一个功能强大的R包,是进行富集分析的重要工具,主要适用于分析高通量实验产生的基因集合是否在某些生物学功能或通路中显著富集。clusterProfiler不仅可以进行GO、KEGG、Reactome富集分析,还支持对富集结果进行可视化。
本实施例展示了富集程度最显著的前10个功能或通路的相关信息,包括功能或通路的描述与分类、富集基因的数目以及显著性。在GO功能富集分析中,富集到了一些与电离辐射直接相关的生物学功能,包括对辐射的反应(response to radiation)、细胞对辐射的反应(cellular response to radiation)、对电离辐射的反应(response to ionizingradiation)和对伽马射线的反应(response to gamma radiation),这再次表明了识别到的关键分子与电离辐射对人体的影响之间密切的相关性(图6)。这些关键分子还富集到了一些与DNA损伤和细胞周期相关的生物学功能,比如DNA损伤信号(DNA damage signaling)和细胞周期检查点信号(cell cycle checkpoint signaling)。对细胞周期的影响是电离辐射对人体最严重的影响之一。这种影响主要体现在两个方面,一是在分裂间期造成DNA损伤,使DNA无法正常复制,如果损伤不能修复,可能会导致细胞死亡;二是在有丝分裂期间影响染色体的形成和分裂期的移动,扰乱有丝分裂进程,使细胞无法正常增殖。此外,KEGG通路富集分析表明,太空电离辐射对人体的影响涉及细胞周期、细胞衰老和凋亡等基本细胞过程,并参与p53信号通路,该通路在受到各种外界刺激或损伤时被激活,从而启动一系列细胞应激和修复机制,最终可能引起结直肠癌、慢性粒细胞白血病等癌症的发生(图7)。
本实施例提供了一种太空电离辐射关键分子的识别系统,其采用上述的太空电离辐射关键分子的识别方法。
本实施例首先进行差异表达分析,识别到了多个显著差异的基因和多个显著差异的miRNA。然后,通过整合多个分子互作数据库中TF、miRNA和基因之间的相互作用关系,构建了异质性基因调控网络。进一步,使用重启随机游走算法,筛选出得分最高的前1%的分子作为太空电离辐射的关键分子。通过比较太空电离辐射关键分子和差异表达分子对电离辐射相关的标准基因集的富集结果说明了本实施例的识别方法的有效性以及识别太空电离辐射关键分子的准确性。本实施例能较佳地识别太空电离辐射关键分子,从而方便对识别到的关键分子进行GO和KEGG富集分析,揭示太空电离辐射对生物体影响的潜在的分子机制。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (9)

1.太空电离辐射关键分子的识别方法,其特征在于:包括以下步骤:
一、对太空电离辐射的基因和微小核糖核酸miRNA表达谱进行差异表达分析,筛选在太空电离辐射条件下显著差异表达的miRNA和基因;
二、整合转录因子TF、miRNA与基因gene之间的分子互作关系,构建由这三种生物分子构成的异质性基因调控网络;
三、在构建的异质性基因调控网络中,以显著差异表达的miRNA和基因作为种子节点,进行重启随机游走;
四、根据重启游走算法对网络中每个节点的打分,对网络中所有的节点进行排序,筛选出其中得分最高的前百分之一的节点,这些被筛选出来的节点即为识别到的太空电离辐射关键分子。
2.根据权利要求1所述的太空电离辐射关键分子的识别方法,其特征在于:步骤一中,使用limma 分别对太空电离辐射的基因和miRNA表达谱进行差异表达分析。
3.根据权利要求2所述的太空电离辐射关键分子的识别方法,其特征在于:limma使用线性模型描述基因的表达水平,并使用贝叶斯方法对基因之间的差异进行推断;以分组因素,即是否暴露于太空电离辐射环境为自变量,以基因表达数据为因变量,使用lmFit函数对每一个基因建立带有权重的线性回归模型,获得回归模型系数,将基因表达水平与分组因素关联起来;然后使用eBayes函数对模型进行统计推断,得到每个基因的表达差异度;最后,使用topTable函数对表达谱中的每个基因进行Benjamini-Hochberg多重检验校正,根据设定的显著性水平,筛选出在太空电离辐射条件下显著差异表达的基因;
根据limma的计算结果,以差异表达倍数FC和校正之后的显著性水平adj.p为筛选差异表达基因的阈值;符合log2 FC > 1且adj.p < 0.05的基因为上调基因,符合log2 FC < -1且adj.p < 0.05的基因为下调基因,筛选出显著差异表达的基因。
4.根据权利要求3所述的太空电离辐射关键分子的识别方法,其特征在于:使用limma对太空电离辐射条件下的miRNA表达谱进行差异表达分析;以p-value为显著性阈值;符合log2 FC > 1且p-value < 0.05的miRNA为上调miRNA,符合log2 FC < -1且p-value < 0.05的miRNA为下调miRNA,筛选出显著差异表达的miRNA。
5.根据权利要求4所述的太空电离辐射关键分子的识别方法,其特征在于:步骤二中,通过整合从TRANSFAC、TarBase、miRTarBase、TransmiR和STRING数据库中获得的TF-gene、miRNA-gene、TF-miRNA和gene-gene互作关系,去除其中的自环和重复项,构建一个异质性基因调控网络;网络由17,939个节点和273,659条边构成,17,939个节点包括647个TF、888个miRNA和16,404个基因;使用Cytoscape软件对构建的异质性基因调控网络进行可视化。
6.根据权利要求5所述的太空电离辐射关键分子的识别方法,其特征在于:步骤三中,以筛选出的差异表达基因和差异表达miRNA为种子节点,在构建的异质性基因调控网络上,使用重启随机游走算法,识别太空电离辐射关键分子。
7.根据权利要求6所述的太空电离辐射关键分子的识别方法,其特征在于:步骤三中,使用重启随机游走算法时,首先需要定义种子集合;种子集合包括网络中的一个或者多个节点,即为随机游走过程的初始节点,也称为种子节点;从定义的种子节点开始,在每次游走过程中,节点能选择移动到它们的邻居节点,也会后一定的概率跳回到种子集合中;节点移动到哪里与节点的权重、网络中节点的度分布和重启概率有关;重复进行多次随机游走过程,当相邻的两次随机游走过程中,所有节点差异的和小于1×10-10时,认为网络达到平衡状态;每个节点获得一个平衡概率,该平衡概率代表相应的节点与种子节点之间的相关程度;重启随机游走算法的计算公式如下:
其中,是异质性基因调控网络的邻接矩阵;如果两个节点在网络中存在互作关系,则对应的值为1,如果两个节点之间不存在互作关系,则对应的值为0,并对矩阵进行列标准化;代表重启概率;是初始化向量,向量长度为网络中节点的数量;向量的每个分量代表分配给每个节点的初始分数,的分量表示分子在表达谱中是否显着差异表达;在中,将显著差异表达分子对应的分量设置为其中n代表种子节点的数量,不差异表达的分子对应的分量设置为0;表示第t次随机游走后每个节点的得分向量;表示第次随机游走后每个节点的得分向量。
8.根据权利要求7所述的太空电离辐射关键分子的识别方法,其特征在于:步骤四中,将重启随机游走算法对异质性基因调控网络中每个节点的打分从高到低降序排列,选取其中得分排名在前百分之一的节点,作为太空电离辐射关键分子,并提取太空电离辐射关键分子之间的互作关系,构建太空电离辐射关键分子网络。
9.太空电离辐射关键分子的识别系统,其特征在于:其采用如权利要求1-8中任一所述的太空电离辐射关键分子的识别方法。
CN202411393448.4A 2024-10-08 2024-10-08 太空电离辐射关键分子的识别方法及系统 Pending CN118899037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411393448.4A CN118899037A (zh) 2024-10-08 2024-10-08 太空电离辐射关键分子的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411393448.4A CN118899037A (zh) 2024-10-08 2024-10-08 太空电离辐射关键分子的识别方法及系统

Publications (1)

Publication Number Publication Date
CN118899037A true CN118899037A (zh) 2024-11-05

Family

ID=93268238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411393448.4A Pending CN118899037A (zh) 2024-10-08 2024-10-08 太空电离辐射关键分子的识别方法及系统

Country Status (1)

Country Link
CN (1) CN118899037A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103782301A (zh) * 2011-09-09 2014-05-07 菲利普莫里斯生产公司 用于基于网络的生物活性评估的系统与方法
CN116344055A (zh) * 2023-04-10 2023-06-27 重庆医科大学 一种心衰风险预测和神经网络模型的构建方法
US20230253070A1 (en) * 2019-08-16 2023-08-10 Tempus Labs, Inc. Systems and Methods for Detecting Cellular Pathway Dysregulation in Cancer Specimens

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103782301A (zh) * 2011-09-09 2014-05-07 菲利普莫里斯生产公司 用于基于网络的生物活性评估的系统与方法
US20230253070A1 (en) * 2019-08-16 2023-08-10 Tempus Labs, Inc. Systems and Methods for Detecting Cellular Pathway Dysregulation in Cancer Specimens
CN116344055A (zh) * 2023-04-10 2023-06-27 重庆医科大学 一种心衰风险预测和神经网络模型的构建方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LISHENSUO: "重启随机游走算法与RandomWalkRestartMH包", Retrieved from the Internet <URL:https://lishensuo.github.io/posts/bioinfo/201重启随机游走算法与RandomWalkRestartMH包/> *
LIU WEI ET AL.: "RWRNET: A Gene Regulatory Network Inference Algorithm Using Random Walk With Rest", 《FRONTIERS IN GENETICS》, 1 January 2020 (2020-01-01) *
尔云: "这样傻瓜式的microRNA互做调控网络分析都可以发到3+,动次打次", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/336813332> *
李军;杨波;: "人心力衰竭心肌microRNA表达谱分析及基因调控网络的初步研究", 临床心血管病杂志, no. 10, 25 October 2013 (2013-10-25) *
杨璐琼: "基于基因调控网络的食管癌和胃癌分子机制比较分析研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, 15 March 2020 (2020-03-15) *
陈永恒 等: "《医学结构蛋白质组学》", 31 January 2022, 湖南科学技术出版社, pages: 219 *

Similar Documents

Publication Publication Date Title
Kakati et al. Comparison of methods for differential co-expression analysis for disease biomarker prediction
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
Tian et al. MGCNSS: miRNA–disease association prediction with multi-layer graph convolution and distance-based negative sample selection strategy
Dabydeen et al. Unbiased Boolean analysis of public gene expression data for cell cycle gene identification
CN116631496B (zh) 一种基于多层异构图的miRNA靶标预测方法及系统和应用
Li et al. GCAEMDA: Predicting miRNA-disease associations via graph convolutional autoencoder
Chen et al. PMiSLocMF: predicting miRNA subcellular localizations by incorporating multi-source features of miRNAs
Tan et al. Recent advances in machine learning methods for predicting LncRNA and disease associations
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
Feng et al. scTIM: seeking cell-type-indicative marker from single cell RNA-seq data by consensus optimization
Zhiyanov et al. Differential co-expression network analysis with DCoNA reveals isomiR targeting aberrations in prostate cancer
CN117594118A (zh) 卷积神经网络结合网络医学方法预测肿瘤基因组生物标志物的方法
CN113380326B (zh) 一种基于pam聚类算法的基因表达数据分析方法
Zhao et al. Computational methods to predict long noncoding RNA functions based on co-expression network
Nambiar et al. FUN-PROSE: A deep learning approach to predict condition-specific gene expression in fungi
Zhang et al. Leveraging Multi-Modal Attention Mechanisms for Interpretable Biomarker Discovery and Early Disease Prediction
CN118899037A (zh) 太空电离辐射关键分子的识别方法及系统
Yan et al. Identification of cell-type marker genes from plant single-cell RNA-seq data using machine learning
KR101816646B1 (ko) 암과 연관성이 높은 유전자-마이크로 rna 모듈을 확인하기 위한 컴퓨터의 데이터 처리 방법, 및 암과의 연관성이 높은 유전자 및 마이크로 rna의 선정방법.
Li et al. miR2Pathway: A novel analytical method to discover MicroRNA-mediated dysregulated pathways involved in hepatocellular carcinoma
Le et al. FKMU: K-Means Under-Sampling for Data Imbalance in Predicting TF-Target Genes Interactions.
Tran et al. Network representation of large-scale heterogeneous RNA sequences with integration of diverse multi-omics, interactions, and annotations data
Akhavan-Safar et al. Colorectal cancer driver gene detection in human gene regulatory network using an independent cascade diffusion model
Hu et al. STARNet enables spatially resolved inference of gene regulatory networks from spatial multi-omics data
Liu et al. ScnML models single-cell transcriptome to predict spinal cord neuronal cell status

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20241105

RJ01 Rejection of invention patent application after publication