[go: up one dir, main page]

CN109903810A - 一种宏基因组整合子和移动元件的分析方法 - Google Patents

一种宏基因组整合子和移动元件的分析方法 Download PDF

Info

Publication number
CN109903810A
CN109903810A CN201811505402.1A CN201811505402A CN109903810A CN 109903810 A CN109903810 A CN 109903810A CN 201811505402 A CN201811505402 A CN 201811505402A CN 109903810 A CN109903810 A CN 109903810A
Authority
CN
China
Prior art keywords
annotation
information
integrall
bio
moving element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811505402.1A
Other languages
English (en)
Inventor
杨洋
薛正晟
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Original Assignee
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd filed Critical SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority to CN201811505402.1A priority Critical patent/CN109903810A/zh
Publication of CN109903810A publication Critical patent/CN109903810A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种宏基因组整合子和移动元件的分析方法,其特征在于,包括如下步骤:下机数据整理步骤;构建本地数据库步骤;BLAST比对步骤;注释构建步骤。本发明的有益效果在于:注释的序列量大且速度快:本分析流程将使用线下的数据库,对于非常大的数据集,也能方便的做注释,且注释的速度比在线提交会快许多。注释结果信息完整:本分析流程会自动将注释结果进行分类,汇总,方便用户使用。

Description

一种宏基因组整合子和移动元件的分析方法
技术领域
本发明涉及生物信息学领域,具体涉及一种宏基因组整合子和移动元件的分析方法。
背景技术
整合子是遗传机制,通过储存和表达新基因,使细菌迅速适应和进化。这些基因嵌入称为基因盒(一个最近改变为整合子盒的术语)的特定遗传结构中,通常携带一个无启动子的ORF和重组位点(attC)。通过整合酶介导的位点特异性重组反应将整合子盒结合到整合子平台的attI位点。
移动遗传元件(MGE)是一种遗传物质,可以在基因组内移动,也可以从一个物种转移到另一个物种。MGE存在于所有生物体中。在人类中,大约50%的基因组被认为是MGE。MGE在进化中发挥着独特的作用。基因复制事件也可以通过MGE的机制发生。MGE还可以引起蛋白质编码区的突变,这会改变蛋白质功能。此外,它们还可以重排宿主基因组中的基因。进化环境中MGE的一个例子是毒力因子和抗生素抗性可以运输MGE的基因以与邻近的细菌共享它们。通过这种机制获得的新基因可以通过获得新的或额外的功能来增加适应性。另一方面,MGE还可以通过引入引起疾病的等位基因或突变来降低适应性。
而现有的针对宏基因组的整合子和移动遗传原件的分析方法所存在的缺陷是:
1)注释方法单一:现有的注释方法只能是提交序列到对应网站。
2)注释的序列量太小:由于只能在线注释,所以上传的序列量受到了控制,无法做大批量的注释。
3)注释结果信息不完整:注释结果中所包含的信息不完整,需要其网站的信息表手动对应,无疑带来了大量手动操作,增加了时间,降低了效率。
发明内容
为了克服现有技术所存在的上述缺陷,本发明的目的在于提供一种宏基因组整合子和移动元件的分析方法。
为了实现本发明的目的之一,所采用的技术方案是:
一种宏基因组整合子和移动元件的分析方法,包括如下步骤:
第一步:从分析整合子和移动原件的网站上下载所对应的数据(http://integrall.bio.ua.pt/?getFastaAll);
第二步:将下载好的数据使用序列比对软件blast软件中makeblastdb建立对应blast的数据库;
第三步:将输入的基因序列与上一步建立好的数据库使用序列比对软件blast中的blastn进行比对;使用的比对的方法为blastn,evalue必须小于1e-5,比对的相似度要大于60%;
第四步:使用linux的中网络工具curl,对网站http://integrall.bio.ua.pt进行注释信息的采集工作,这一步花费的时间较大,需要耐心等待;
第五步:将第三步注释到结果与第四步的信息,使用awk软件进行整合,最后得到整合子和移动原件的注释结果。
在本发明的一个优选实施例中,所述步骤四的注释信息采集具体为:
使用linux的网络工具curl,首先对整合子网址http://integrall.bio.ua.pt/?list进行访问,并使用命令:
seq 50 50 10000|xargs-i-P 10curl-L
http://integrall.bio.ua.pt/?list&s={}&ob=org,采用并发式访问提取信息。
本发明的主要创新点在于:
注释的序列量大且速度快:本分析流程将使用线下的数据库,对于非常大的数据集,也能方便的做注释,且注释的速度比在线提交会快许多。
注释结果信息完整:本分析流程会自动将注释结果进行分类,汇总,方便用户使用。
附图说明
图1为本发明的流程示意图。
图2为现有技术blast的示意图。
图3为步骤4的示意图1。
图4为步骤4的示意图2。
图5为步骤4的示意图3。
图6为步骤4的示意图4。
图7为步骤4的示意图5。
图8为步骤5的示意图1。
图9a、b为步骤5的示意图2。
图10为步骤5的示意图3。
具体实施方式
以下通过实施例对本发明作进一步的说明,但这些实施例不得用于解释对本发明的限制。
1.从分析整合子和移动原件的网站上下载所对应的数据(http://integrall.bio.ua.pt/?getFastaAll)
2.将下载好的数据使用序列比对软件blast软件中makeblastdb建立对应blast的数据库;
3.将输入的基因序列与上一步建立好的数据库使用序列比对软件blast中的blastn进行比对;使用的比对的方法为blastn,evalue必须小于1e-5,比对的相似度要大于60%;
4.使用linux的中网络工具curl,对网站http://integrall.bio.ua.pt进行注释信息的采集工作,这一步花费的时间较大,需要耐心等待;
5.将第三步注释到结果与第四步的信息,使用awk软件进行整合,最后得到整合子和移动原件的注释结果
以往的注释手段只能在线blast,如图2所示:
其中,现有技术的在线blast的缺陷在于:单次注释上传的序列量不能大于2MB,等待的时间较长,无法适用于大型的数据量的注释。因此本分析方法应运而生。
因此,本发明的步骤4是通过:使用linux的网络工具curl,首先对整合子网址http://integrall.bio.ua.pt/?list进行访问,花费1.729s,得到目前为止的整合子数据库的第一页的信息,关注对应的数据的注释信息:如图3:
接着需要从返回的网页中提取Accession Nr,Organism,Integrase gene,Cassette array,并且得到目前有多少页的结果。如图4所示,目前为止,整合子网站目前收录了201页,共10032条记录,了解到总的页数时,可以采取并发式的访问提取信息,以加快信息提取的速度,使用命令:
seq 50 50 10000|xargs -i -P 10curl -L
http://integrall.bio.ua.pt/?list&s={}&ob=org
能在2s内访问10次对应的网页,并且提取其中的信息,在总共201页的目标网页中,提取完全,且不发生网络中断的情况下,预计是花费50~60s。由此可见效率极高。
在获取完收录的记录外,还需要获取每条记录所包含的基因信息,需要在这10032条记录中,每次访问其主页获取:
curl-L http://integrall.bio.ua.pt/?acc={Accession Nr}
如图5所示,提取对应的Gene,Product,Sequences的信息,将10032记录逐条以并发10次的形式访问,每次花费大约1.88s,提取完全,使用的命令是:cat Accession_num_file|xargs -P 10 curl -L“http://integrall.bio.ua.pt/?acc={}”,
且不发生网络中断的情况下,预计花费2000s。
这个过程中总共花费2060s。速度极快。
提取的信息表如图6所示:
如图7所示,每一列分别为Accession Nr,Organism,Integrase gene,Cassettearray;
每一列分别为Accession Nr,Gene,Product,Sequences
本发明的步骤5,是将注释的结果,与信息进行一一对应;
如:注释结果如图8所示,且与第四步获取到的两个信息的第一列进行一一对应对应:接着获得注释结果,如图9a,9b,10所示。
其中,如图10所示,这每一列分别为输入的基因序列,Accession Nr,Organism,Gene,Product,Integrase gene,Cassette array。
因为使用了上述的技术方案,因此本发明的技术方案相较于现有技术的在线注释的优点在于:
注释的序列量大且速度快:本分析流程将使用线下的数据库,对于非常大的数据集,也能方便的做注释,且注释的速度比在线提交会快许多。
注释结果信息完整:本分析流程会自动将注释结果进行分类,汇总,方便用户使用。

Claims (2)

1.一种宏基因组整合子和移动元件的分析方法,其特征在于,包括如下步骤:
第一步:从分析整合子和移动原件的网站上下载所对应的数据;
第二步:将下载好的数据使用序列比对软件blast软件中makeblastdb建立对应blast的数据库;
第三步:将输入的基因序列与上一步建立好的数据库使用序列比对软件blast中的blastn进行比对;使用的比对的方法为blastn,evalue必须小于1e-5,比对的相似度要大于60%;
第四步:使用linux的中网络工具curl,对网站http://integrall.bio.ua.pt进行注释信息的采集工作,这一步花费的时间较大,需要耐心等待;
第五步:将第三步注释到结果与第四步的信息,使用awk软件进行整合,最后得到整合子和移动原件的注释结果。
2.如权利要求1所述的一种宏基因组整合子和移动元件的分析方法,其特征在于,所述步骤四的注释信息采集具体为:
使用linux的网络工具curl,首先对整合子网址http://integrall.bio.ua.pt/?list进行访问,并使用命令:
seq 50 50 10000|xargs-i-P 10curl-L
http://integrall.bio.ua.pt/?list&s={}&ob=org,采用并发式访问提取信息。
CN201811505402.1A 2018-12-10 2018-12-10 一种宏基因组整合子和移动元件的分析方法 Withdrawn CN109903810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811505402.1A CN109903810A (zh) 2018-12-10 2018-12-10 一种宏基因组整合子和移动元件的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811505402.1A CN109903810A (zh) 2018-12-10 2018-12-10 一种宏基因组整合子和移动元件的分析方法

Publications (1)

Publication Number Publication Date
CN109903810A true CN109903810A (zh) 2019-06-18

Family

ID=66943417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811505402.1A Withdrawn CN109903810A (zh) 2018-12-10 2018-12-10 一种宏基因组整合子和移动元件的分析方法

Country Status (1)

Country Link
CN (1) CN109903810A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119626328A (zh) * 2024-11-18 2025-03-14 中国人民解放军军事科学院军事医学研究院 一种高效识别细菌质粒胞内移动遗传元件的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280327A1 (en) * 2013-03-15 2014-09-18 Cypher Genomics Systems and methods for genomic variant annotation
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN108334750A (zh) * 2018-04-19 2018-07-27 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280327A1 (en) * 2013-03-15 2014-09-18 Cypher Genomics Systems and methods for genomic variant annotation
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN108334750A (zh) * 2018-04-19 2018-07-27 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
企鹅号-美吉生物: "《Blast:大神教你轻松搞定序列比对》", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/NEWS/155849》 *
欧易生物: "《如何提取gff文件中的基因注释信息》", 《HTTPS://WWW.SOHU.COM/A/124625014_464200?_TRANS_=000019_WZWZA》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119626328A (zh) * 2024-11-18 2025-03-14 中国人民解放军军事科学院军事医学研究院 一种高效识别细菌质粒胞内移动遗传元件的方法
CN119626328B (zh) * 2024-11-18 2025-05-23 中国人民解放军军事科学院军事医学研究院 一种高效识别细菌质粒胞内移动遗传元件的方法

Similar Documents

Publication Publication Date Title
Devoto et al. Megaphages infect Prevotella and variants are widespread in gut microbiomes
Imelfort et al. GroopM: an automated tool for the recovery of population genomes from related metagenomes
Siddharthan et al. PhyloGibbs: a Gibbs sampling motif finder that incorporates phylogeny
Orengo et al. Bioinformatics: genes, proteins and computers
WO2014066635A1 (en) Genome explorer system to process and present nucleotide variations in genome sequence data
Juretic et al. Transposable element annotation of the rice genome
Jariani et al. SANTA-SIM: simulating viral sequence evolution dynamics under selection and recombination
Sanders et al. FusoPortal: an interactive repository of hybrid MinION-sequenced Fusobacterium genomes improves gene identification and characterization
CN105426700B (zh) 一种批量计算基因组直系同源基因进化速率的方法
Wei et al. scPreGAN, a deep generative model for predicting the response of single-cell expression to perturbation
Yap et al. High performance computational methods for biological sequence analysis
CN109903810A (zh) 一种宏基因组整合子和移动元件的分析方法
CN116417066B (zh) 一种基于深度学习预测长非编码rna的亚细胞定位的方法
Schulz et al. Fishing for a reelGene: evaluating gene models with evolution and machine learning
JP2010204753A (ja) 生物種同定方法及びシステム
CN110534157A (zh) 一种批量提取基因组基因信息并翻译比对分析序列的方法
Majidian et al. Quest for orthologs in the era of data deluge and AI: challenges and innovations in orthology prediction and data integration
CN119068987B (zh) 测序数据的自动判读分析方法及装置、设备、存储介质
Singhal et al. Using supervised machine-learning approaches to understand abiotic stress tolerance and design resilient crops
CN109308935A (zh) 一种基于支持向量机预测非编码dna的方法及应用平台
Zhang et al. Phylotranscriptomic analysis based on coalescence was less influenced by the evolving rates and the number of genes: a case study in Ericales
CN114003815B (zh) 一种网络舆情主题及其关注用户群体的发现方法
Carrion et al. ECuADOR—Easy Curation of Angiosperm Duplicated Organellar Regions, a tool for cleaning and curating plastomes assembled from next generation sequencing pipelines
Batut et al. Pathogen detection from (direct Nanopore) sequencing data using Galaxy-Foodborne Edition
Roncoroni et al. Preparing genomic data for phylogeny reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190618