CN109903810A - 一种宏基因组整合子和移动元件的分析方法 - Google Patents
一种宏基因组整合子和移动元件的分析方法 Download PDFInfo
- Publication number
- CN109903810A CN109903810A CN201811505402.1A CN201811505402A CN109903810A CN 109903810 A CN109903810 A CN 109903810A CN 201811505402 A CN201811505402 A CN 201811505402A CN 109903810 A CN109903810 A CN 109903810A
- Authority
- CN
- China
- Prior art keywords
- annotation
- information
- integrall
- bio
- moving element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 13
- 108090000623 proteins and genes Proteins 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000010276 construction Methods 0.000 abstract 1
- 238000002360 preparation method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 108020005210 Integrons Proteins 0.000 description 7
- 108010061833 Integrases Proteins 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 102100034343 Integrase Human genes 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004545 gene duplication Effects 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000007923 virulence factor Effects 0.000 description 1
- 239000000304 virulence factor Substances 0.000 description 1
- 210000004885 white matter Anatomy 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种宏基因组整合子和移动元件的分析方法,其特征在于,包括如下步骤:下机数据整理步骤;构建本地数据库步骤;BLAST比对步骤;注释构建步骤。本发明的有益效果在于:注释的序列量大且速度快:本分析流程将使用线下的数据库,对于非常大的数据集,也能方便的做注释,且注释的速度比在线提交会快许多。注释结果信息完整:本分析流程会自动将注释结果进行分类,汇总,方便用户使用。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种宏基因组整合子和移动元件的分析方法。
背景技术
整合子是遗传机制,通过储存和表达新基因,使细菌迅速适应和进化。这些基因嵌入称为基因盒(一个最近改变为整合子盒的术语)的特定遗传结构中,通常携带一个无启动子的ORF和重组位点(attC)。通过整合酶介导的位点特异性重组反应将整合子盒结合到整合子平台的attI位点。
移动遗传元件(MGE)是一种遗传物质,可以在基因组内移动,也可以从一个物种转移到另一个物种。MGE存在于所有生物体中。在人类中,大约50%的基因组被认为是MGE。MGE在进化中发挥着独特的作用。基因复制事件也可以通过MGE的机制发生。MGE还可以引起蛋白质编码区的突变,这会改变蛋白质功能。此外,它们还可以重排宿主基因组中的基因。进化环境中MGE的一个例子是毒力因子和抗生素抗性可以运输MGE的基因以与邻近的细菌共享它们。通过这种机制获得的新基因可以通过获得新的或额外的功能来增加适应性。另一方面,MGE还可以通过引入引起疾病的等位基因或突变来降低适应性。
而现有的针对宏基因组的整合子和移动遗传原件的分析方法所存在的缺陷是:
1)注释方法单一:现有的注释方法只能是提交序列到对应网站。
2)注释的序列量太小:由于只能在线注释,所以上传的序列量受到了控制,无法做大批量的注释。
3)注释结果信息不完整:注释结果中所包含的信息不完整,需要其网站的信息表手动对应,无疑带来了大量手动操作,增加了时间,降低了效率。
发明内容
为了克服现有技术所存在的上述缺陷,本发明的目的在于提供一种宏基因组整合子和移动元件的分析方法。
为了实现本发明的目的之一,所采用的技术方案是:
一种宏基因组整合子和移动元件的分析方法,包括如下步骤:
第一步:从分析整合子和移动原件的网站上下载所对应的数据(http://integrall.bio.ua.pt/?getFastaAll);
第二步:将下载好的数据使用序列比对软件blast软件中makeblastdb建立对应blast的数据库;
第三步:将输入的基因序列与上一步建立好的数据库使用序列比对软件blast中的blastn进行比对;使用的比对的方法为blastn,evalue必须小于1e-5,比对的相似度要大于60%;
第四步:使用linux的中网络工具curl,对网站http://integrall.bio.ua.pt进行注释信息的采集工作,这一步花费的时间较大,需要耐心等待;
第五步:将第三步注释到结果与第四步的信息,使用awk软件进行整合,最后得到整合子和移动原件的注释结果。
在本发明的一个优选实施例中,所述步骤四的注释信息采集具体为:
使用linux的网络工具curl,首先对整合子网址http://integrall.bio.ua.pt/?list进行访问,并使用命令:
seq 50 50 10000|xargs-i-P 10curl-L
http://integrall.bio.ua.pt/?list&s={}&ob=org,采用并发式访问提取信息。
本发明的主要创新点在于:
注释的序列量大且速度快:本分析流程将使用线下的数据库,对于非常大的数据集,也能方便的做注释,且注释的速度比在线提交会快许多。
注释结果信息完整:本分析流程会自动将注释结果进行分类,汇总,方便用户使用。
附图说明
图1为本发明的流程示意图。
图2为现有技术blast的示意图。
图3为步骤4的示意图1。
图4为步骤4的示意图2。
图5为步骤4的示意图3。
图6为步骤4的示意图4。
图7为步骤4的示意图5。
图8为步骤5的示意图1。
图9a、b为步骤5的示意图2。
图10为步骤5的示意图3。
具体实施方式
以下通过实施例对本发明作进一步的说明,但这些实施例不得用于解释对本发明的限制。
1.从分析整合子和移动原件的网站上下载所对应的数据(http://integrall.bio.ua.pt/?getFastaAll)
2.将下载好的数据使用序列比对软件blast软件中makeblastdb建立对应blast的数据库;
3.将输入的基因序列与上一步建立好的数据库使用序列比对软件blast中的blastn进行比对;使用的比对的方法为blastn,evalue必须小于1e-5,比对的相似度要大于60%;
4.使用linux的中网络工具curl,对网站http://integrall.bio.ua.pt进行注释信息的采集工作,这一步花费的时间较大,需要耐心等待;
5.将第三步注释到结果与第四步的信息,使用awk软件进行整合,最后得到整合子和移动原件的注释结果
以往的注释手段只能在线blast,如图2所示:
其中,现有技术的在线blast的缺陷在于:单次注释上传的序列量不能大于2MB,等待的时间较长,无法适用于大型的数据量的注释。因此本分析方法应运而生。
因此,本发明的步骤4是通过:使用linux的网络工具curl,首先对整合子网址http://integrall.bio.ua.pt/?list进行访问,花费1.729s,得到目前为止的整合子数据库的第一页的信息,关注对应的数据的注释信息:如图3:
接着需要从返回的网页中提取Accession Nr,Organism,Integrase gene,Cassette array,并且得到目前有多少页的结果。如图4所示,目前为止,整合子网站目前收录了201页,共10032条记录,了解到总的页数时,可以采取并发式的访问提取信息,以加快信息提取的速度,使用命令:
seq 50 50 10000|xargs -i -P 10curl -L
http://integrall.bio.ua.pt/?list&s={}&ob=org
能在2s内访问10次对应的网页,并且提取其中的信息,在总共201页的目标网页中,提取完全,且不发生网络中断的情况下,预计是花费50~60s。由此可见效率极高。
在获取完收录的记录外,还需要获取每条记录所包含的基因信息,需要在这10032条记录中,每次访问其主页获取:
curl-L http://integrall.bio.ua.pt/?acc={Accession Nr}
如图5所示,提取对应的Gene,Product,Sequences的信息,将10032记录逐条以并发10次的形式访问,每次花费大约1.88s,提取完全,使用的命令是:cat Accession_num_file|xargs -P 10 curl -L“http://integrall.bio.ua.pt/?acc={}”,
且不发生网络中断的情况下,预计花费2000s。
这个过程中总共花费2060s。速度极快。
提取的信息表如图6所示:
如图7所示,每一列分别为Accession Nr,Organism,Integrase gene,Cassettearray;
每一列分别为Accession Nr,Gene,Product,Sequences
本发明的步骤5,是将注释的结果,与信息进行一一对应;
如:注释结果如图8所示,且与第四步获取到的两个信息的第一列进行一一对应对应:接着获得注释结果,如图9a,9b,10所示。
其中,如图10所示,这每一列分别为输入的基因序列,Accession Nr,Organism,Gene,Product,Integrase gene,Cassette array。
因为使用了上述的技术方案,因此本发明的技术方案相较于现有技术的在线注释的优点在于:
注释的序列量大且速度快:本分析流程将使用线下的数据库,对于非常大的数据集,也能方便的做注释,且注释的速度比在线提交会快许多。
注释结果信息完整:本分析流程会自动将注释结果进行分类,汇总,方便用户使用。
Claims (2)
1.一种宏基因组整合子和移动元件的分析方法,其特征在于,包括如下步骤:
第一步:从分析整合子和移动原件的网站上下载所对应的数据;
第二步:将下载好的数据使用序列比对软件blast软件中makeblastdb建立对应blast的数据库;
第三步:将输入的基因序列与上一步建立好的数据库使用序列比对软件blast中的blastn进行比对;使用的比对的方法为blastn,evalue必须小于1e-5,比对的相似度要大于60%;
第四步:使用linux的中网络工具curl,对网站http://integrall.bio.ua.pt进行注释信息的采集工作,这一步花费的时间较大,需要耐心等待;
第五步:将第三步注释到结果与第四步的信息,使用awk软件进行整合,最后得到整合子和移动原件的注释结果。
2.如权利要求1所述的一种宏基因组整合子和移动元件的分析方法,其特征在于,所述步骤四的注释信息采集具体为:
使用linux的网络工具curl,首先对整合子网址http://integrall.bio.ua.pt/?list进行访问,并使用命令:
seq 50 50 10000|xargs-i-P 10curl-L
http://integrall.bio.ua.pt/?list&s={}&ob=org,采用并发式访问提取信息。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811505402.1A CN109903810A (zh) | 2018-12-10 | 2018-12-10 | 一种宏基因组整合子和移动元件的分析方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811505402.1A CN109903810A (zh) | 2018-12-10 | 2018-12-10 | 一种宏基因组整合子和移动元件的分析方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN109903810A true CN109903810A (zh) | 2019-06-18 |
Family
ID=66943417
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201811505402.1A Withdrawn CN109903810A (zh) | 2018-12-10 | 2018-12-10 | 一种宏基因组整合子和移动元件的分析方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN109903810A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119626328A (zh) * | 2024-11-18 | 2025-03-14 | 中国人民解放军军事科学院军事医学研究院 | 一种高效识别细菌质粒胞内移动遗传元件的方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20140280327A1 (en) * | 2013-03-15 | 2014-09-18 | Cypher Genomics | Systems and methods for genomic variant annotation |
| CN107194208A (zh) * | 2017-04-25 | 2017-09-22 | 北京荣之联科技股份有限公司 | 一种基因分析注释方法和装置 |
| CN108334750A (zh) * | 2018-04-19 | 2018-07-27 | 江苏先声医学诊断有限公司 | 一种宏基因组数据分析方法及系统 |
-
2018
- 2018-12-10 CN CN201811505402.1A patent/CN109903810A/zh not_active Withdrawn
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20140280327A1 (en) * | 2013-03-15 | 2014-09-18 | Cypher Genomics | Systems and methods for genomic variant annotation |
| CN107194208A (zh) * | 2017-04-25 | 2017-09-22 | 北京荣之联科技股份有限公司 | 一种基因分析注释方法和装置 |
| CN108334750A (zh) * | 2018-04-19 | 2018-07-27 | 江苏先声医学诊断有限公司 | 一种宏基因组数据分析方法及系统 |
Non-Patent Citations (2)
| Title |
|---|
| 企鹅号-美吉生物: "《Blast:大神教你轻松搞定序列比对》", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/NEWS/155849》 * |
| 欧易生物: "《如何提取gff文件中的基因注释信息》", 《HTTPS://WWW.SOHU.COM/A/124625014_464200?_TRANS_=000019_WZWZA》 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119626328A (zh) * | 2024-11-18 | 2025-03-14 | 中国人民解放军军事科学院军事医学研究院 | 一种高效识别细菌质粒胞内移动遗传元件的方法 |
| CN119626328B (zh) * | 2024-11-18 | 2025-05-23 | 中国人民解放军军事科学院军事医学研究院 | 一种高效识别细菌质粒胞内移动遗传元件的方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Devoto et al. | Megaphages infect Prevotella and variants are widespread in gut microbiomes | |
| Imelfort et al. | GroopM: an automated tool for the recovery of population genomes from related metagenomes | |
| Siddharthan et al. | PhyloGibbs: a Gibbs sampling motif finder that incorporates phylogeny | |
| Orengo et al. | Bioinformatics: genes, proteins and computers | |
| WO2014066635A1 (en) | Genome explorer system to process and present nucleotide variations in genome sequence data | |
| Juretic et al. | Transposable element annotation of the rice genome | |
| Jariani et al. | SANTA-SIM: simulating viral sequence evolution dynamics under selection and recombination | |
| Sanders et al. | FusoPortal: an interactive repository of hybrid MinION-sequenced Fusobacterium genomes improves gene identification and characterization | |
| CN105426700B (zh) | 一种批量计算基因组直系同源基因进化速率的方法 | |
| Wei et al. | scPreGAN, a deep generative model for predicting the response of single-cell expression to perturbation | |
| Yap et al. | High performance computational methods for biological sequence analysis | |
| CN109903810A (zh) | 一种宏基因组整合子和移动元件的分析方法 | |
| CN116417066B (zh) | 一种基于深度学习预测长非编码rna的亚细胞定位的方法 | |
| Schulz et al. | Fishing for a reelGene: evaluating gene models with evolution and machine learning | |
| JP2010204753A (ja) | 生物種同定方法及びシステム | |
| CN110534157A (zh) | 一种批量提取基因组基因信息并翻译比对分析序列的方法 | |
| Majidian et al. | Quest for orthologs in the era of data deluge and AI: challenges and innovations in orthology prediction and data integration | |
| CN119068987B (zh) | 测序数据的自动判读分析方法及装置、设备、存储介质 | |
| Singhal et al. | Using supervised machine-learning approaches to understand abiotic stress tolerance and design resilient crops | |
| CN109308935A (zh) | 一种基于支持向量机预测非编码dna的方法及应用平台 | |
| Zhang et al. | Phylotranscriptomic analysis based on coalescence was less influenced by the evolving rates and the number of genes: a case study in Ericales | |
| CN114003815B (zh) | 一种网络舆情主题及其关注用户群体的发现方法 | |
| Carrion et al. | ECuADOR—Easy Curation of Angiosperm Duplicated Organellar Regions, a tool for cleaning and curating plastomes assembled from next generation sequencing pipelines | |
| Batut et al. | Pathogen detection from (direct Nanopore) sequencing data using Galaxy-Foodborne Edition | |
| Roncoroni et al. | Preparing genomic data for phylogeny reconstruction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WW01 | Invention patent application withdrawn after publication | ||
| WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190618 |