JP2024041040A - ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 - Google Patents
ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 Download PDFInfo
- Publication number
- JP2024041040A JP2024041040A JP2023118768A JP2023118768A JP2024041040A JP 2024041040 A JP2024041040 A JP 2024041040A JP 2023118768 A JP2023118768 A JP 2023118768A JP 2023118768 A JP2023118768 A JP 2023118768A JP 2024041040 A JP2024041040 A JP 2024041040A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- phage
- database
- nanopore
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/70—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Virology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
【解決手段】元のナノポア配列決定データとハイスループット配列決定データを組み合わせることにより、品質管理フィルタリングラインを設計して2通りの配列決定データに対してそれぞれ品質管理及びフィルタリングを行い、ハイブリッドアセンブリ後の配列においてファージ遺伝子の特徴モデルに基づいて潜在的なファージ配列を同定し、続いてデータベース中の既存の細菌ゲノムの備える特殊なスペーサー配列を抽出し、最後にデータベースから抽出される特殊なスペーサー配列と照合することにより、対応関係をマイニングし、ファージに対応する宿主関係を予測する。本発明は、ナノポア及びハイスループット配列決定データ中のファージ配列に対する効果的なマイニング及びファージ宿主の効果的な予測を実現しているため、普及と使用上は非常に重要な価値を有する。
【選択図】図1
Description
S1:第1品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第1品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得るステップと、
S2:フィルタリング後のナノポア配列に対して長さ分析を行い、第1配列長パラメータを設定し、配列長が前記第1配列長パラメータより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得るステップと、
S3:元のハイスループット配列決定データのうちリンカーを含有する配列を除去して、フィルタリング後のハイスループット配列決定データを得るステップと、
S4:フィルタリング後のハイスループット配列決定データのうちN含有量が10%を超える配列を除去し、第2品質値フィルタリングパラメータを設定し、除去後のハイスループット配列のうち50%を超える塩基品質値が前記第2品質値フィルタリングパラメータより低い配列をさらに除去して、品質管理フィルタリング後のハイスループット短配列を得るステップと、
S5:品質管理フィルタリング後のナノポア長配列と品質管理フィルタリング後のハイスループット短配列をハイブリッドアセンブリし、スプライシングして被同定ファージ配列情報を得て、第2配列長パラメータを設定し、スプライシング後の配列長が前記第2配列長パラメータより小さい短配列を除去して、ハイブリッドアセンブリ後のファージ配列を得るステップと、
S6:ハイブリッドアセンブリ後のファージ配列に対して遺伝子予測を行って、被予測配列の遺伝子特徴情報を得るステップと、
S7:被予測配列の遺伝子特徴情報をファージ遺伝子特徴情報を含む第1タイプのデータベース、及び細菌遺伝子特徴情報を含む第2タイプのデータベースと照合して、対応する照合状況データをそれぞれ取得するステップと、
S8:前記照合状況データに対して集計及び判定を行うステップであって、
被予測配列の遺伝子特徴情報のうち、第1タイプのデータベースにマッチングする遺伝子数の占める割合が配列の遺伝子総量の60%より大きく又は等しい場合、又は第1タイプのデータベースにマッチングする遺伝子数が、第2タイプのデータベースにマッチングする遺伝子数より大きく又は等しい場合、又は第1タイプのデータベースにマッチングする遺伝子数の占める割合が10%より大きく又は等しく、且つ第2タイプのデータベースにマッチングする遺伝子数の占める割合が40%より小さく又は等しい場合、前記被予測配列をファージ配列として同定するステップと、
S9:全ての細菌ゲノム配列情報を含有するデータベースをダウンロードし、その中から既存の細菌ゲノム配列中の特殊なスペーサー配列を抽出するステップと、
S10:ステップS8で同定されたファージ配列をステップS9で抽出された特殊なスペーサー配列と照合して、予測されるファージ宿主情報を取得するステップとを含む。
(1)本発明は、ナノポア配列決定データ及びハイスループット配列決定データの両方に対するファージ同定及び宿主予測方法であり、ナノポア配列決定データはゲノム長がより長く、より完全なファージを同定するために役立ち、ハイスループット配列決定データはゲノムの正確度がより高いファージを同定するために役立ち、両方のデータを利用するために同定されたファージはこの2つの利点を兼ね備える。
S1:第1品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第1品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得る。
5つの汚水サンプルから通常の前処理及びDNA抽出配列決定ステップにより50Gbのナノポア配列決定データ及び100Gbのハイスループット配列決定データを取得する。
ステップ101:NanoFiltソフトウェアを用いて、50Gbのナノポア配列決定データから平均品質値がQ7より低い配列を除去する。
diamondを用いて、ステップ106で取得した遺伝子特徴情報をKEGGデータベースと照合し、KEGGデータベースはもう1つの、主に細菌遺伝子特徴情報を含むデータベースであり、KEGGデータベースと照合することで当該配列は潜在的な細菌配列である可能性を一層判断することができ、
hmmsearchを用いて、ステップ106で取得した遺伝子特徴情報をVPFデータベースと照合し、VPFデータベースは主にファージ遺伝子特徴情報を含むデータベースであり、VPFデータベースと照合することで当該配列は潜在的なファージ配列である可能性を一層判断することができる。
VPFにマッチングする遺伝子数がPfamにマッチングする遺伝子数より大きく又は等しい場合、当該配列はファージ配列と同定され、本実施例では当該条件に適合するファージが合計で30781件同定され、
KEGGにマッチングする遺伝子数が配列の遺伝子総量の20%より小さく又は等しく、且つPfamにマッチングする遺伝子数が配列の遺伝子総量の40%より小さく又は等しく、且つVPFにマッチングする遺伝子数が配列の遺伝子総量の10%より大きく又は等しい場合、当該配列はファージ配列と同定される。本実施例では当該条件に適合するファージが合計で17690件同定される。
Claims (2)
- ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法であって、被検DNAサンプルの中から元のナノポア配列決定データ及び元のハイスループット配列決定データを取得し、続いてファージ同定及び宿主予測を行い、前記被検DNAサンプルは環境媒体サンプルであり、前記環境媒体サンプルは汚水、汚泥サンプルを含み、
S1:第1品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第1品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得るステップであって、品質値フィルタリングパラメータは塩基品質値Qであり、第1品質値フィルタリングパラメータはQ7であるステップと、
S2:フィルタリング後のナノポア配列に対して長さ分析を行い、第1配列長パラメータを設定し、配列長が前記第1配列長パラメータより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得るステップであって、第1配列長パラメータは1000bpであるステップと、
S3:元のハイスループット配列決定データのうちリンカーを含有する配列を除去して、フィルタリング後のハイスループット配列決定データを得るステップと、
S4:フィルタリング後のハイスループット配列決定データのうちN含有量が10%を超える配列を除去し、第2品質値フィルタリングパラメータを設定し、除去後のハイスループット配列のうち50%を超える塩基品質値が前記第2品質値フィルタリングパラメータより低い配列をさらに除去して、品質管理フィルタリング後のハイスループット短配列を得るステップであって、第2品質値フィルタリングパラメータはQ5であるステップと、
S5:品質管理フィルタリング後のナノポア長配列と品質管理フィルタリング後のハイスループット短配列をハイブリッドアセンブリし、スプライシングして被同定ファージ配列情報を得て、第2配列長パラメータを設定し、スプライシング後の配列長が前記第2配列長パラメータより小さい短配列を除去して、ハイブリッドアセンブリ後のファージ配列を得るステップであって、第2配列長パラメータは5000bpであるステップと、
S6:ハイブリッドアセンブリ後のファージ配列に対して遺伝子予測を行って、被予測配列の遺伝子特徴情報を得るステップと、
S7:被予測配列の遺伝子特徴情報をファージ遺伝子特徴情報を含む第1タイプのデータベース、及び細菌遺伝子特徴情報を含む第2タイプのデータベースと照合して、対応する照合状況データをそれぞれ取得するステップであって、前記第1タイプのデータベースはVPFデータベースであり、前記第2タイプのデータベースはPfamデータベース、KEGGデータベースのうちのいずれか一方又は両方であるステップと、
S8:前記照合状況データに対して集計及び判定を行うステップであって、具体的には、
被予測配列の遺伝子特徴情報のうち、VPFデータベースにマッチングする遺伝子数が配列の遺伝子総量の60%より大きく又は等しい場合、当該配列をファージ配列として同定し、
又は、VPFデータベースにマッチングする遺伝子数がPfamデータベースにマッチングする遺伝子数より大きく又は等しい場合、当該配列をファージ配列として同定し、
又は、VPFデータベースにマッチングする遺伝子数が配列の遺伝子総量の10%より大きく又は等しく、且つPfamデータベースにマッチングする遺伝子数が配列の遺伝子総量の40%より小さく又は等しく、且つKEGGデータベースにマッチングする遺伝子数が配列の遺伝子総量の20%より小さく又は等しい場合、当該配列をファージ配列として同定するステップと、
S9:全ての細菌ゲノム配列情報を含有するデータベースをダウンロードし、その中から既存の細菌ゲノム配列中の特殊なスペーサー配列を抽出するステップであって、前記全ての細菌ゲノム配列情報を含有するデータベースはNCBIデータベースであるステップと、
S10:Blastソフトウェアを利用してステップS8で同定されたファージ配列をステップS9で抽出された特殊なスペーサー配列と照合し、照合で用いるパラメータは、カバレッジ90%、一致度97%、エラー数1を含み、予測されるファージ宿主情報を取得するステップとを含むことを特徴とするファージ同定及び宿主予測方法。 - 環境媒体サンプルの微生物分析における請求項1に記載のファージ同定及び宿主予測方法の使用。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211107292.X | 2022-09-13 | ||
| CN202211107292.XA CN115198036B (zh) | 2022-09-13 | 2022-09-13 | 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024041040A true JP2024041040A (ja) | 2024-03-26 |
| JP7649822B2 JP7649822B2 (ja) | 2025-03-21 |
Family
ID=83572926
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023118768A Active JP7649822B2 (ja) | 2022-09-13 | 2023-07-21 | ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7649822B2 (ja) |
| CN (1) | CN115198036B (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119541642A (zh) * | 2024-07-18 | 2025-02-28 | 华南理工大学 | 一种基于高通量测序技术的宿主外源核酸鉴定方法 |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117352059A (zh) * | 2023-11-15 | 2024-01-05 | 浙江天科高新技术发展有限公司 | 一种基于混合测序的细菌质粒基因组组装方法 |
| CN118366541B (zh) * | 2024-04-29 | 2025-01-10 | 中山大学·深圳 | 一种基于宏转录组测序分析分节段rna病毒的方法及其应用 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110211628A (zh) * | 2019-06-12 | 2019-09-06 | 湖南大学 | 一种基于高通量测序数据的溶源性噬菌体预测方法 |
| CN110366596A (zh) * | 2016-12-28 | 2019-10-22 | 埃斯库斯生物科技股份公司 | 用于对复杂异质群落中的完整微生物株系进行分析、确定其功能关系及相互作用以及基于此来识别和合成生物活性改性剂的方法、设备和系统 |
| CN111429969A (zh) * | 2020-03-31 | 2020-07-17 | 中国人民解放军军事科学院军事医学研究院 | 一种细菌中功能性前噬菌体及其位置与序列的检测方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020077559A1 (zh) * | 2018-10-17 | 2020-04-23 | 深圳华大生命科学研究院 | 从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质 |
| CN114121160B (zh) * | 2021-11-25 | 2022-06-21 | 广东美格基因科技有限公司 | 一种检测样本中宏病毒组的方法和系统 |
-
2022
- 2022-09-13 CN CN202211107292.XA patent/CN115198036B/zh active Active
-
2023
- 2023-07-21 JP JP2023118768A patent/JP7649822B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110366596A (zh) * | 2016-12-28 | 2019-10-22 | 埃斯库斯生物科技股份公司 | 用于对复杂异质群落中的完整微生物株系进行分析、确定其功能关系及相互作用以及基于此来识别和合成生物活性改性剂的方法、设备和系统 |
| JP2020504620A (ja) * | 2016-12-28 | 2020-02-13 | アスカス バイオサイエンシーズ, インコーポレイテッド | 複雑な不均一コミュニティの完全微生物株の解析、その機能的関連性及び相互作用の決定、ならびにそれに基づく生物反応性の改変剤の同定及び合成、のための方法、装置、及びシステム |
| CN110211628A (zh) * | 2019-06-12 | 2019-09-06 | 湖南大学 | 一种基于高通量测序数据的溶源性噬菌体预测方法 |
| CN111429969A (zh) * | 2020-03-31 | 2020-07-17 | 中国人民解放军军事科学院军事医学研究院 | 一种细菌中功能性前噬菌体及其位置与序列的检测方法 |
Non-Patent Citations (1)
| Title |
|---|
| VIRUSES, vol. 13, 959, JPN6025005263, 21 May 2021 (2021-05-21), pages 1 - 21, ISSN: 0005525801 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119541642A (zh) * | 2024-07-18 | 2025-02-28 | 华南理工大学 | 一种基于高通量测序技术的宿主外源核酸鉴定方法 |
| CN119541642B (zh) * | 2024-07-18 | 2025-09-26 | 华南理工大学 | 一种基于高通量测序技术的宿主外源核酸鉴定方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7649822B2 (ja) | 2025-03-21 |
| CN115198036B (zh) | 2022-12-30 |
| CN115198036A (zh) | 2022-10-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113744807B (zh) | 一种基于宏基因组学的病原微生物检测方法及装置 | |
| JP7649822B2 (ja) | ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 | |
| CN114121160B (zh) | 一种检测样本中宏病毒组的方法和系统 | |
| US20250182850A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
| CN113470743A (zh) | 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法 | |
| CN115662516B (zh) | 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法 | |
| CN114420212B (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
| CN105420375A (zh) | 一种环境微生物基因组草图的构建方法 | |
| CN105986013A (zh) | 确定微生物种类的方法和装置 | |
| CN115691679A (zh) | 一种基于二代和三代测序技术的宏病毒组分析方法 | |
| CN119091964B (zh) | 一种基于ont测序的单细胞转录组的测序分析方法 | |
| CN118782149B (zh) | 一种基于Hi-C的微生物宏基因组测序分析方法和系统 | |
| CN116682492A (zh) | 一种宏病毒组数据的分析方法 | |
| CN114420213B (zh) | 一种生物信息分析方法及装置、电子设备及存储介质 | |
| CN115938491A (zh) | 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统 | |
| TW201719468A (zh) | 用以分析細菌菌種之定序資料的系統及其方法 | |
| WO2012096015A1 (ja) | 核酸情報処理装置およびその処理方法 | |
| CN117051130B (zh) | 一种与卵形鲳鲹鱼抗无乳链球菌性状关联的snp分子标记及其应用 | |
| WO2012096016A1 (ja) | 核酸情報処理装置およびその処理方法 | |
| CN110684830A (zh) | 一种石蜡切片组织rna分析方法 | |
| CN114496089B (zh) | 一种病原微生物鉴定方法 | |
| CN110970093A (zh) | 一种筛选引物设计模板的方法、装置及应用 | |
| Marić et al. | Approaches to metagenomic classification and assembly | |
| Lei et al. | Global biogeography of airborne viruses in public transit systems and their host interactions | |
| CN116153411B (zh) | 多病原体探针库组合的设计方法及应用 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230721 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240910 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241127 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250212 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250310 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7649822 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |