CN109308935A - 一种基于支持向量机预测非编码dna的方法及应用平台 - Google Patents
一种基于支持向量机预测非编码dna的方法及应用平台 Download PDFInfo
- Publication number
- CN109308935A CN109308935A CN201811052055.1A CN201811052055A CN109308935A CN 109308935 A CN109308935 A CN 109308935A CN 201811052055 A CN201811052055 A CN 201811052055A CN 109308935 A CN109308935 A CN 109308935A
- Authority
- CN
- China
- Prior art keywords
- dna
- frequency
- coding
- sequence
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108091092724 Noncoding DNA Proteins 0.000 title claims abstract description 30
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000013480 data collection Methods 0.000 claims abstract description 3
- 238000011161 development Methods 0.000 claims abstract description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 15
- 108020004414 DNA Proteins 0.000 claims description 9
- 241000235342 Saccharomycetes Species 0.000 claims description 7
- 108020004705 Codon Proteins 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 241000894007 species Species 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 239000002585 base Substances 0.000 claims 6
- 239000003513 alkali Substances 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 3
- 239000002299 complementary DNA Substances 0.000 abstract 1
- 238000012545 processing Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 1
- 241000385540 bacterium 10 Species 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000003053 immunization Effects 0.000 description 1
- 238000002649 immunization Methods 0.000 description 1
- 230000002969 morbid Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于支持向量机预测非编码DNA的方法及应用平台,方法主要包括:数据收集;数据处理;特征提取;基于支持向量机的模型训练与评估。这种方法能够缓解实验方法费事费力的压力。利用上述方法开发应用平台,可以快速识别出cDNA和ncDNA,省时省力,提高识别的准确率,使得ncDNA的预测更好的推广应用。
Description
技术领域
本发明涉及基于高通量测序技术发展的背景,为挖掘编码DNA(cDNA)和非编码DNA(ncDNA)的信息与知识建立的理论分析和预测的新算法,具体涉及一种基于支持向量机预测非编码DNA的方法及应用平台。
背景技术
基因是生物体携带和传递遗传信息的基本单位。它的遗传表现不仅体现在编码区序列中,还隐藏在非编码区序列中。基因组研究表明,细菌中非编码区占到整个基因组序列的10%-20%,高等生物基因组中非编码区占到绝大部分。以往的研究大多数放在编码区的功能研究上,对非编码区的研究主要是对调控元件的研究。随着测序技术的发展,大量研究表明,生物的复杂性与非编码区域的长度相关,这些ncDNA在生理与疾病状态下特异性转录。大部份ncDNA的功能尚不可知,但一些研究表明,绝大多数癌症相关基因突变位于非编码区,但是它们具体如何影响肿瘤的生成还是一个亟待解决的问题。除此之外,基因组中的非编码序列在DNA修复、免疫作用和基因组的进化过程起着重要的作用。所以,ncDNA从之前被人们忽视的“垃圾”DNA逐渐成为功能组学的研究热点。
cDNA和ncDNA的识别主要依靠实验方法,然而传统的实验方法费事费力,并且基因组数据量庞大,序列类型复杂。在这种背景下,迫切需要建立准确和高效的预测方法,挖掘cDNA和ncDNA的信息和知识。
发明内容
本发明的目的是针对现有预测方法不足,提供了一种基于支持向量机预测非编码DNA的方法及应用平台。
为实现本发明的目的,本发明的技术方案是:
一种基于支持向量机预测非编码DNA的方法,包括如下步骤:
步骤1:数据的收集和数据集的建立
从Ensembl project
收集的酵母菌的注释数据,根据注释信息提取正样本集(ncDNA)和负样本集(cDNA),分别去除序列相似性高的DNA序列,得到非冗余数据集;
步骤2:特征提取
提取正负样本集的序列信息构造多维特征编码;
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10-折交叉验证,并对预测模型进行评估,选择最优预测模型。
所述步骤1中的注释数据来源于Ensembl project,物种是酵母菌,数据是酵母菌的编码DNA和非编码DNA序列。负样本是从此数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。步骤1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75%的数据集。
所述步骤2中的特征编码为:4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对;DNA序列共有A,C,G,T四种碱基,所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码;任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码。对于每一个不同的k值,都可以获得16维的特征编码。
所述步骤3中的以SVM作为机器学习算法进行10-折交叉训练。10折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型。并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标。
相应地,本发明是一种基于支持向量机预测非编码DNA的应用平台,基于最优模型开发方便用户使用的识别ncDNA的web-server。此web-server是基于支持向量机构建的最优模型采用MATLAB软件和JavaScript编程语言开发的预测平台ncDNAPred。
所述web-server平台ncDNAPred在用户提交至少一条FASTA格式的DNA序列,就可以快速的预测此序列的编码类型。
本发明从DNA的序列信息出发,提取正负样本集的编码特征,结合支持向量机构建ncDNA的预测模型。本发明开发的web-server实现了naDNA的快速、高效的预测,为cDNA和ncDNA的研究提供方便、快捷的重要参考工具。
附图说明
图1为本发明的方法流程图;
图2是为用户提供的例子展示。
图3是图2对应的预测结果。
具体实施方式
为了更好的理解本方案,下面结合实施例和附图对本发明作进一步描述。
实施例1
ncDNA是不能编码蛋白质的DNA序列。图1是一种基于支持向量机预测ncDNA的算法流程图,具体步骤如下:
步骤1:数据的收集和数据集的建立
从Ensembl project搜索的酵母菌的注释数据,负样本是数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。采用CD-HIT分别去除两个样本集中相似性大于75%的高相似性序列,得到非冗余的正负样本集。
步骤2:特征提取
DNA序列共有A,C,G,T四种碱基,提取正负样本集的序列信息构造多维特征编码;
4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对的频率;所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码得到4维特征向量;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码得到16维特征向量;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码得到64维特征向量。
任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码。对于每一个不同的k值,都可以获得16维的特征向量。以k=1为例,任意一个长为L的样本,其特征向量可表示为:
其中,分子中的N表示被k个任意碱基所隔开的此种碱基对的数量,分母L-k-1表示被k个任意碱基所隔开的所有碱基对的总数。
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10折交叉验证,并对预测模型进行评估,选择最优预测模型。
以SVM作为机器学习算法进行10-折交叉训练。10折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型。并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标:
其中,N+表示正样本的数量;N-表示负样本的数量;表示正样本被预测为负样本的数量;表示负样本被预测为正样本的数量。
实施例2
本实施例提供了是一种基于支持向量机预测非编码DNA的方法开发的应用平台ncDNAPred,平台是基于支持向量机构建的最优模型采用MATLAB软件和JavaScript编程语言开发的预测平台。用户提交至少一条FASTA格式的DNA序列,就可以快速的预测此序列的编码类型。
用户预测DNA序列是否为ncDNA序列,只需在平台ncDNAPred的预测界面中输入相应样本的FASTA格式序列:
通过点击“Submit”键,即可预测出该DNA序列的类型。用户预测的序列提交后,后台会自动进行特征编码以及SVM学习,最后输出预测的编码类型。平台界面为用户提供了样例,点击“example”后,可进行样例的预测。
图2是为用户提供的例子展示。
图3是对应的预测结果。
除此之外,平台也为用户提供了更多相关信息及先关数据集的下载链接。
Claims (7)
1.一种基于支持向量机预测非编码DNA的方法,其特征在于,所述方法依次含有以下步骤:
步骤1:数据的收集和数据集的建立
收集酵母菌的注释数据,根据注释信息提取正样本集(ncDNA)和负样本集(cDNA),分别去除序列相似性高的DNA序列,得到非冗余数据集;
步骤2:特征提取
提取正负样本集的序列信息构造多维特征编码;
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10-折交叉验证,并对预测模型进行评估,选择最优预测模型。
2.根据权利要求1所述的基于支持向量机非预测编码DNA的方法,其特征在于,所述步骤1中的数据来源于Ensembl project,物种是酵母菌,数据是酵母菌的编码DNA和非编码DNA序列;负样本是从此数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。
3.根据权利要求1所述的基于支持向量机非预测编码DNA的方法,其特征在于,所述步骤1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75%的数据集。
4.根据权利要求1所述的基于支持向量机预测非编码DNA的方法,其特征在于,所述步骤2中的特征编码为:4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对;DNA序列共有A,C,G,T四种碱基,所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码;任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码,对于每一个不同的k值,都可以获得16维的特征编码。
5.根据权利要求1所述的基于支持向量机预测非编码DNA的方法,其特征在于,所述步骤3中的以SVM作为机器学习算法进行10-折交叉训练,10-折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型,并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标。
6.一种基于支持向量机预测非编码DNA的应用平台,其特征在于,所述应用平台基于如权利要求1所述的最优预测模型开发,方便用户使用的识别ncDNA。
7.根据权利要求6所述的一种基于支持向量机预测非编码DNA的应用平台,其特征在于,所述应用平台采用MATLAB软件和JavaScript编程语言开发的预测平台ncDNAPred,在使用时,通过用户在ncDNAPred提交的至少一条FASTA格式的DNA序列,能够快速预测此序列的编码类型。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811052055.1A CN109308935A (zh) | 2018-09-10 | 2018-09-10 | 一种基于支持向量机预测非编码dna的方法及应用平台 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811052055.1A CN109308935A (zh) | 2018-09-10 | 2018-09-10 | 一种基于支持向量机预测非编码dna的方法及应用平台 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN109308935A true CN109308935A (zh) | 2019-02-05 |
Family
ID=65224459
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201811052055.1A Pending CN109308935A (zh) | 2018-09-10 | 2018-09-10 | 一种基于支持向量机预测非编码dna的方法及应用平台 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN109308935A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110070912A (zh) * | 2019-04-15 | 2019-07-30 | 桂林电子科技大学 | 一种CRISPR/Cas9脱靶效应的预测方法 |
| CN113345593A (zh) * | 2021-03-17 | 2021-09-03 | 天津大学 | 一种在生物关联网络中进行疾病关联关系预测的方法 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103902853A (zh) * | 2012-12-25 | 2014-07-02 | 中国科学院深圳先进技术研究院 | 基于支持向量机的剪接位点识别方法 |
| CN104462870A (zh) * | 2015-01-09 | 2015-03-25 | 苏州大学 | 一种人类基因启动子识别方法及装置 |
| CN105893787A (zh) * | 2016-06-21 | 2016-08-24 | 南昌大学 | 一种蛋白质翻译后修饰甲基化位点的预测方法 |
| CN107463802A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种原核蛋白质乙酰化位点的预测方法 |
| CN107463795A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种识别酪氨酸翻译后修饰位点的预测算法 |
| CN107480474A (zh) * | 2017-08-01 | 2017-12-15 | 山东师范大学 | 基于肠道菌群丰度的分类器建模评价校验方法及系统 |
-
2018
- 2018-09-10 CN CN201811052055.1A patent/CN109308935A/zh active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103902853A (zh) * | 2012-12-25 | 2014-07-02 | 中国科学院深圳先进技术研究院 | 基于支持向量机的剪接位点识别方法 |
| CN104462870A (zh) * | 2015-01-09 | 2015-03-25 | 苏州大学 | 一种人类基因启动子识别方法及装置 |
| CN105893787A (zh) * | 2016-06-21 | 2016-08-24 | 南昌大学 | 一种蛋白质翻译后修饰甲基化位点的预测方法 |
| CN107480474A (zh) * | 2017-08-01 | 2017-12-15 | 山东师范大学 | 基于肠道菌群丰度的分类器建模评价校验方法及系统 |
| CN107463802A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种原核蛋白质乙酰化位点的预测方法 |
| CN107463795A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种识别酪氨酸翻译后修饰位点的预测算法 |
Non-Patent Citations (5)
| Title |
|---|
| LEI SUN 等: "lncRScan-SVM: A Tool for Predicting Long Non-Coding RNAs Using Support Vector Machine", 《PLOS ONE》 * |
| 于彬 等: "基于支持向量机的人类ncRNA基因预测", 《青岛科技大学学报(自然科学版)》 * |
| 孙磊 等: "一种基于随机森林的长非编码RNA预测方法", 《扬州大学学报(自然科学版)》 * |
| 胡敏菁 等: "面向蛋白质功能位点识别的机器学习平台构建", 《生物信息学》 * |
| 赵英杰 等: "基于支持向量数据描述的非编码RNA基因识别", 《生物医学工程学杂志》 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110070912A (zh) * | 2019-04-15 | 2019-07-30 | 桂林电子科技大学 | 一种CRISPR/Cas9脱靶效应的预测方法 |
| CN113345593A (zh) * | 2021-03-17 | 2021-09-03 | 天津大学 | 一种在生物关联网络中进行疾病关联关系预测的方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Steinegger et al. | Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold | |
| Saheb Kashaf et al. | Recovering prokaryotic genomes from host-associated, short-read shotgun metagenomic sequencing data | |
| Graham et al. | BinSanity: unsupervised clustering of environmental microbial assemblies using coverage and affinity propagation | |
| Dylus et al. | Inference of phylogenetic trees directly from raw sequencing reads using Read2Tree | |
| He et al. | ReSeqTools: an integrated toolkit for large-scale next-generation sequencing based resequencing analysis | |
| Arendsee et al. | Phylostratr: a framework for phylostratigraphy | |
| Portik et al. | SuperCRUNCH: A bioinformatics toolkit for creating and manipulating supermatrices and other large phylogenetic datasets | |
| CN113593639A (zh) | 一种用于病毒基因组变异分析、监测方法和系统 | |
| CN116403639B (zh) | 基于深度学习的新抗原序列生成方法及系统 | |
| Emms et al. | Benchmarking orthogroup inference accuracy: revisiting orthobench | |
| Liu | Bioinformatics in aquaculture: principles and methods | |
| Reeder et al. | Locomotif: from graphical motif description to RNA motif search | |
| CN109308935A (zh) | 一种基于支持向量机预测非编码dna的方法及应用平台 | |
| Wu et al. | DeepRetention: a deep learning approach for intron retention detection | |
| Khan | MEGA-core of phylogenetic analysis in molecular evolutionary genetics | |
| CN119446264B (zh) | 一种恶性实体肿瘤的新抗原预测方法及系统 | |
| Pavesi et al. | Using Weeder for the discovery of conserved transcription factor binding sites | |
| Pietryga et al. | ConsensuSV-ONT–A modern method for accurate structural variant calling | |
| He et al. | EnsembleSE: identification of super-enhancers based on ensemble learning | |
| Yuan et al. | DTDHM: detection of tandem duplications based on hybrid methods using next-generation sequencing data | |
| CN113889188A (zh) | 一种疾病预测方法、系统、计算机设备及介质 | |
| Aguilar et al. | MicroAgroBiome: a toolkit for exploring specialized metabolism and ecological interactions in rhizosphere microbiomes of cultivated crops | |
| Malik et al. | Structome-AlignViewer: On Confidence Assessment in Structure-Aware Alignments | |
| Dahlberg et al. | Hidden network preserved in Slide-tags data allows reference-free spatial reconstruction | |
| CN120319304B (zh) | 用于基因多态性快速分型诊断的智能识别方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190205 |