JP6961726B2 - バリアントの分類のための深層畳み込みニューラルネットワーク - Google Patents
バリアントの分類のための深層畳み込みニューラルネットワーク Download PDFInfo
- Publication number
- JP6961726B2 JP6961726B2 JP2019567721A JP2019567721A JP6961726B2 JP 6961726 B2 JP6961726 B2 JP 6961726B2 JP 2019567721 A JP2019567721 A JP 2019567721A JP 2019567721 A JP2019567721 A JP 2019567721A JP 6961726 B2 JP6961726 B2 JP 6961726B2
- Authority
- JP
- Japan
- Prior art keywords
- amino acid
- variant
- variants
- pfm
- acid sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/002—Biomolecular computers, i.e. using biomolecules, proteins, cells
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/123—DNA computing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Multimedia (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Neurology (AREA)
Description
付録には、発明者らが著述した論文に列挙される潜在的な関連する参考文献の目録が含まれる。その論文の主題は、本出願がその優先権を主張する/その利益を主張する米国仮出願において扱われる。これらの参考文献は、要求に応じて訴訟代理人に対して利用可能にされることが可能であり、またはGlobal Dossierを介して入手可能であることがある。その論文は最初の列挙される参考文献である。
本出願は、2017年10月16日に出願された、Hong Gao、Kai-How Farh、Laksshman Sundaram、およびJeremy Francis McRaeによる「Training a Deep Pathogenicity Classifier Using Large-Scale Benign Training Data」という表題の米国仮特許出願第62/573,144号(代理人整理番号第ILLM 1000-1/IP-1611-PRV)、2017年10月16日に出願された、Kai-How Farh、Laksshman Sundaram、Samskruthi Reddy Padigepati、およびJeremy Francis McRaeによる「Pathogenicity Classifier Based On Deep Convolutional Neural Networks (CNNS)」という表題の米国仮特許出願第62/573,149号(代理人整理番号第ILLM 1000-2/IP-1612-PRV)、2017年10月16日に出願された、Hong Gao、Kai-How Farh、Laksshman Sundaram、およびJeremy Francis McRaeによる「Deep Semi-Supervised Learning that Generates Large-Scale Pathogenic Training Data」という表題の米国仮特許出願第62/573,153号(代理人整理番号第ILLM 1000-3 /IP-1613-PRV)、および、2017年11月7日に出願された、Hong Gao、Kai-How Farh、およびLaksshman Sundaramによる「Pathogenicity Classification of Genomic Data Using Deep Convolutional Neural Networks (CNNs)」という表題の米国仮特許出願第62/582,898号(代理人整理番号第ILLM 1000-4/IP-1618-PRV)の優先権または利益を主張する。これらの仮出願は、すべての目的のために本明細書において参照により引用される。
以下は、本明細書に完全に記載されるかのようにすべての目的のために参照により引用される。
ASCIIテキストフォーマットの以下のテーブルファイルが、本明細書とともに提出され、参照によって引用される。ファイルの名称、作成日、およびサイズは次の通りである。
開示される技術は、人工知能タイプコンピュータならびにデジタルデータ処理システムならびに知性のエミュレーションのための対応するデータ処理方法および製品(すなわち、知識ベースシステム、推論システム、知識取得システム)に関し、不確実性を伴う推論のためのシステム(たとえば、ファジー論理システム)、適応システム、機械学習システム、および人工ニューラルネットワークを含む。具体的には、開示される技術は、深層畳み込みニューラルネットワークを訓練するために深層学習ベースの技法を使用することに関する。
機械学習では、出力変数を予測するために入力変数が使用される。入力変数はしばしば特徴量と呼ばれ、X=(X1,X2,...,Xk)と表記され、i∈1,...,kである各Xiが特徴量である。出力変数はしばしば応答または依存変数と呼ばれ、変数Yiにより表記される。Yと対応するXとの関係は、次の一般的な形式で書くことができる。
Y=f(x)+∈
図1Aは、複数の層を伴う全結合ニューラルネットワークの一実装形態を示す。ニューラルネットワークは、互いとの間でメッセージを交換する相互接続された人工ニューロン(たとえば、a1、a2、a3)のシステムである。示されるニューラルネットワークは3つの入力を有し、2つのニューロンが隠れ層にあり、2つのニューロンが出力層にある。隠れ層は活性化関数f(・)を有し、出力層は活性化関数g(・)を有する。これらの接続は、適切に訓練されたネットワークが認識すべき画像を与えられると正しく応答するように、訓練プロセスの間に調整された数値的な重み(たとえば、w11、w21、w12、w31、w22、w32、v11、v22)を有する。入力層は生の入力を処理し、隠れ層は入力層と隠れ層との間の接続の重みに基づいて入力層から出力を処理する。出力層は、隠れ層から出力を取り込み、隠れ層と出力層との間の接続の重みに基づいてそれを処理する。ネットワークは、特徴検出ニューロンの複数の層を含む。各層は、前の層からの入力の異なる組合せに対応する多数のニューロンを有する。これらの層は、第1の層が入力画像データにおける基本的なパターンのセットを検出し、第2の層がパターンのパターンを検出し、第3の層がそれらのパターンのパターンを検出するように、構築される。
・ T.Ching他、Opportunities And Obstacles For Deep Learning In Biology And Medicine、www.biorxiv.org:142760、2017
・ Angermueller C、Parnamaa T、Parts L、Stegle O、Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878
・ Park Y、Kellis M、2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33、825-826、(doi:10.1038/nbt.3313)
・ Min S、Lee B、およびYoon S、Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016)
・ Leung MK、Delong A、Alipanahi B他、Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets、2016
・ Libbrecht MW、Noble WS、Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32
[畳み込みニューラルネットワーク]
畳み込みニューラルネットワークは特別なタイプのニューラルネットワークである。密結合層と畳み込み層との間の基本的な違いは、密層が入力特徴空間におけるグローバルパターンを学習するのに対して、畳み込み層がローカルパターンを学習するということである。画像の場合、入力の小さい2Dウィンドウにおいてパターンが見出される。この重要な特徴は、(1)畳み込みニューラルネットワークの学習するパターンが移動不変である、および(2)畳み込みニューラルネットワークがパターンの空間的階層を学習できるという、2つの興味深い特性を畳み込みニューラルネットワークに与える。
図1Cは、開示される技術の一実装形態による畳み込みニューラルネットワークを訓練することのブロック図を示す。畳み込みニューラルネットワークは、入力データが特定の出力推定につながるように、調整または訓練される。畳み込みニューラルネットワークは、出力推定とグラウンドトゥルースの比較に基づいて、出力推定がグラウンドトゥルースに漸近的に一致または接近するまで、逆伝播を使用して調整される。
wnm←wnm+α(tm-φm)αn
δok=(tk-φk)φk(1-φk)
vmk←vmk+αδokφm
vnm←wnm+αδhman
vt+1=μv-α∇wQ(zt,wt)
wt+1=wt+vt+1
畳み込みニューラルネットワークの畳み込み層は、特徴抽出器として機能する。畳み込み層は、入力データを学習して階層的特徴へと分解することが可能な、適応特徴抽出器として活動する。一実装形態では、畳み込み層は、入力として2つの画像を取り込み、出力として第3の画像を生成する。そのような実装形態では、畳み込みは2次元(2D)において2つの画像に対して動作し、一方の画像が入力画像であり、「カーネル」と呼ばれる他方の画像が入力画像に対してフィルタとして適用され、出力画像を生成する。したがって、長さnの入力ベクトルfおよび長さmのカーネルgに対して、fとgの畳み込みf*gは次のように定義される。
図1Dは、開示される技術の一実装形態によるサブサンプリング層の一実装形態である。サブサンプリング層は、抽出された特徴または特徴マップをノイズおよび歪みに対してロバストにするために、畳み込み層によって抽出される特徴の分解能を下げる。一実装形態では、サブサンプリング層は、2つのタイプのプーリング動作、すなわち平均プーリングおよび最大プーリングを利用する。プーリング動作は、入力を重複しない2次元空間へと分割する。平均プーリングでは、領域の中の4つの値の平均が計算される。最大プーリングでは、4つの値の最大値が選択される。
φ0=max(φ1,φ2,...,φN)
により記述されるような、入力の中に存在する最大値である。
図1Eは、開示される技術の一実装形態による、非線形層の一実装形態を示す。非線形層は、各隠れ層上の可能性の高い特徴の明確な識別情報をシグナリングするために、異なる非線形トリガ関数を使用する。非線形層は、正規化線形ユニット(ReLU)、双曲線正接、双曲線正接の絶対値、シグモイドおよび連続トリガ(非線形)関数を含む、非線形トリガリングを実施するために様々な固有の関数を使用する。一実装形態では、ReLU活性化は、関数y=max(x,0)を実装し、層の入力サイズおよび出力サイズを同じに保つ。ReLUを使用することの利点は、畳み込みニューラルネットワークがより高速に多くの回数訓練されることである。ReLUは、入力が0以上の場合には、入力に関して線形であり、それ以外の場合には0である、非連続で非飽和の活性化関数である。数学的には、ReLU活性化関数は次のように記述される。
φ(h)=max(h,0)
φ(h)=(a+bh)c
によって記述される連続的な非飽和の関数である、冪ユニット活性化関数を使用する。
図1Fは、畳み込み層の2層の畳み込みの一実装形態を示す。図1Fにおいて、2048次元のサイズの入力が畳み込まれる。畳み込み1において、入力はサイズ3×3の16個のカーネルの2つのチャネルからなる畳み込み層によって畳み込まれる。得られる16個の特徴マップが次いで、ReLU1におけるReLU活性化関数によって正規化され、次いでサイズ3×3のカーネルを伴う16個のチャネルプーリング層を使用して平均プーリングによってプール1においてプールされる。畳み込み2において、プール1の出力が次いで、3×3のサイズを伴う30個のカーネルの16個のチャネルからなる別の畳み込み層によって畳み込まれる。さらに別のReLU2および2×2のカーネルサイズを伴うプール2における平均プーリングが、それに続く。畳み込み層は、可変の数、たとえば0個、1個、2個、および3個の、ストライドおよびパディングを使用する。得られる特徴ベクトルは、一実装形態によれば、512次元である。
特徴マップの中のf個の畳み込みコアに対するl番目の畳み込み層およびk番目の特徴マップにおける行x、列yのニューロンの出力は、次の式によって決定される。
出力層の中のk番目のニューロンの出力偏差は、次の式によって決定される。
図1Gは、特徴マップ追加を介して以前の情報ダウンストリームを再注入する残差接続を図示する。残差接続は、過去の出力テンソルをより後の出力テンソルに追加することによって、以前の表現をデータのダウンストリームフローへと再注入することを備え、このことは、データ処理フローに沿った情報の喪失を防ぐのを助ける。残差接続は、あらゆる大規模な深層学習モデルを悩ませる2つの一般的な問題、すなわち、勾配消失および表現上のボトルネック(representational bottleneck)に対処する。一般に、10層を超える層を有するあらゆるモデルに残差接続を追加することが有益である可能性が高い。上で論じられたように、残差接続は、より前の層の出力をより後の層への入力として利用可能にして、逐次ネットワークにおけるショートカットを実質的に作成することを備える。より前の出力は、より後の活性化に連結されるのではなく、より後の活性化と加算され、このことは両方の活性化が同じサイズであると想定している。それらが異なるサイズである場合、より前の活性化を目標の形状へと再成形するための線形変換が使用され得る。残差接続についての追加の情報は、本明細書に完全に記載されるかのようにすべての目的で参照によって本明細書において引用される、K.He、X.Zhang、S.Ren、およびJ.Sun、「DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION」、arXiv:1512.03385、2015において見出され得る。
図1Hは、残差ブロックおよびスキップ接続の一実装形態を示す。残差学習の主な考え方は、残差マッピングが元のマッピングよりはるかに簡単に学習されるということである。残差ネットワークは、訓練の正確さの劣化を軽減するために、いくつかの残差ユニットを積層する。残差ブロックは、深層ニューラルネットワークにおける勾配消失をなくすために、特別な追加のスキップ接続を利用する。残差ブロックの初めにおいて、データフローは2つのストリームへと分離され、第1のストリームがブロックの変更されない入力を搬送し、一方で第2のストリームが重みおよび非線形性を適用する。ブロックの終わりにおいて、2つのストリームは要素ごとの和を使用して統合される。そのような構築の主な利点は、勾配がより簡単にネットワークを通って流れることが可能になることである。残差ブロックおよびスキップ接続についての追加の情報は、A.V.D.Oord、S.Dieleman、H.Zen、K.Simonyan、O.Vinyals、A.Graves、N.Kalchbrenner、A.Senior、およびK.Kavukcuoglu、「WAVENET: A GENERATIVE MODEL FOR RAW AUDIO」、arXiv:1609.03499、2016において見出され得る。
図1Oは拡張畳み込みを示す。膨張畳み込みとも呼ばれることのある拡張畳み込みは、字面上は「穴を伴う」を意味する。フランス語のalgorithme a trousが名称の由来であり、これは高速二項ウェーブレット変換を計算する。これらのタイプの畳み込み層では、フィルタの受容野に対応する入力は隣り合う点ではない。これが図1Oに示されている。入力間の距離は拡張係数に依存する。
WaveNetは、生のオーディオ波形を生成するための深層ニューラルネットワークである。WaveNetは他の畳み込みネットワークから区別され、それは、WaveNetは低コストで比較的大きい「視覚野」を取り込むことが可能であるからである。その上、信号の条件をローカルおよびグローバルに追加することが可能であり、これにより、WaveNetが複数の声を伴うテキストツースピーチ(TTS)エンジンとして使用されることが可能になり、TTSはローカル条件および特定の声およびグローバル条件を与える。
バッチ正規化は、データ標準化をネットワークアーキテクチャの必須の部分にすることによって、深層ネットワーク訓練を加速するための方法である。バッチ正規化は、訓練の間に時間とともに平均および分散が変化しても、データを適応的に正規化することができる。バッチ正規化は、訓練の間に見られるデータのバッチごとの平均と分散の指数移動平均を内部的に維持することによって機能する。バッチ正規化の主な影響は、残差接続とよく似て、勾配伝播を助けるので、深層ネットワークを可能にするということである。一部の超深層ネットワークは、複数のバッチ正規化層を含む場合にのみ訓練することができる。バッチ正規化についての追加の情報は、本明細書に完全に記載されるかのようにすべての目的で参照によって本明細書において引用される、S.IoffeおよびC.Szegedy、「BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT」、arXiv:1502.03167、2015において見出され得る。
フォワードパスの間、ミニバッチの平均および分散が計算される。これらのミニバッチの統計により、データは、平均を差し引き、標準偏差で除算することによって正規化される。最後に、データは、学習されたスケールおよびシフトパラメータを用いて、スケーリングおよびシフトされる。バッチ正規化フォワードパスfBNが図1Iに図示されている。
正規化は微分可能な演算であるので、バックワードパスは図1Kに図示されるように計算され得る。
1D畳み込みは、図1Mに示されるように、ローカルの1Dパッチまたはサブ配列を配列から抽出する。1D畳み込みは、入力配列の中の時間的パッチから各出力タイムステップを取得する。1D畳み込み層は、配列の中のローカルパターンを認識する。同じ入力変換がパッチごとに実行されるので、入力配列の中のある場所において学習されるパターンは、異なる場所においてより後に認識されることが可能であり、このことは、1D畳み込み層変換を時間的変換に対して不変にする。たとえば、サイズ5の畳み込みウィンドウを使用して塩基の配列を処理する1D畳み込み層は、長さ5以下の塩基配列を学習することが可能であるべきであり、入力配列の中の任意の文脈において塩基のモチーフを認識することが可能であるべきである。したがって、塩基レベルの1D畳み込みは、塩基の形態について学習することが可能である。
図1Nは、グローバル平均プーリング(GAP)がどのように機能するかを示す。グローバル平均プーリングは、スコアリングのために最後の層の中の特徴量の空間的な平均をとることによって、分類のための全結合(FC)層を置換するために使用され得る。これは、訓練負荷を低減し、過剰適合の問題をバイパスする。グローバル平均プーリングは、モデルの前に構造的を適用し、これはあらかじめ定められた重みを伴う線形変換と等価である。グローバル平均プーリングは、パラメータの数を減らし、全結合層をなくす。全結合層は通常、最もパラメータと接続の多い層であり、グローバル平均プーリングは、同様の結果を達成するのにはるかに低コストの手法を提供する。グローバル平均プーリングの主な考え方は、スコアリングのために各々の最後の層の特徴マップからの平均値を信頼性係数として生成し、直接ソフトマックス層に供給することである。
遺伝的変異は、多くの疾患の説明を助け得る。ヒトはそれぞれが固有の遺伝コードを持ち、個人のグループ内には多くの遺伝的バリアントがある。有害な遺伝的バリアントの大半は、自然選択によってゲノムから枯渇している。どの遺伝的変異が病原性または有害である可能性が高いかを特定することが重要である。このことは、研究者が、病原性である可能性が高い遺伝的バリアントに注目し、多くの疾患の診断および治療を加速させることを助けるであろう。
限定はされないが、特許、特許出願、論説、書籍、論文、およびウェブページを含む、本出願において引用されるすべての文献および同様の資料は、そのような文献および同様の資料のフォーマットとは無関係に、全体が参照によって明確に引用される。限定はされないが、定義される用語、用語の使用法、説明される技法などを含めて、引用される文献および同様の資料のうちの1つまたは複数が、本出願とは異なる場合、または本出願と矛盾する場合、本出願が優先する。
本明細書に記載される実装形態は、配列の変異を特定するために核酸配列を分析することに適用可能であり得る。実装形態は、遺伝子の場所/座の潜在的なバリアント/アレルを分析し、遺伝子座の遺伝子型を決定するために、言い換えると、座に対する遺伝子型コールを提供するために使用され得る。例として、核酸配列は、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号において説明される方法およびシステムに従って分析されることがあり、これらの出願公開の完全な主題の全体が、本明細書において参照によって明確に引用される。
個の操作とを含むことがあり、この場合、ヌクレオチドのうちの2つ以上が同じラベルを有することが可能であり、それらを導入の既知の順序に基づいて区別することができる。
本明細書で開示される実装形態は、潜在的なバリアントコールを特定するためにシーケンシングデータを分析することを含む。バリアントコールは、以前に実行されたシーケンシング操作について記憶されたデータに対して実行され得る。加えて、または代わりに、バリアントコーリングは、シーケンシング操作が実行されている間にリアルタイムで実行され得る。サンプルリードの各々が、対応する遺伝子座を割り当てられる。サンプルリードは、サンプルリードのヌクレオチドの配列、または言い換えると、サンプルリード内のヌクレオチドの順序(たとえば、A、C、G、T)に基づいて、対応する遺伝子座に割り当てられ得る。この分析に基づいて、サンプルリードは、特定の遺伝子座の潜在的なバリアント/アレルを含むものとして指定され得る。サンプルリードは、遺伝子座の潜在的なバリアント/アレルを含むものとして指定された他のサンプルリードとともに収集(または集約または貯蔵)され得る。割当て操作はコーリング操作とも呼ばれることがあり、コーリング操作において、サンプルリードは特定の遺伝子場所/座と関連付けられる可能性があるものとして特定される。サンプルリードは、サンプルリードを他のサンプルリードから区別するヌクレオチドの1つまたは複数の識別配列(たとえば、プライマー配列)を位置特定するために分析され得る。より具体的には、識別配列は、特定の遺伝子座と関連付けられるものとしてサンプルリードを他のサンプルリードから特定し得る。
数百万個のヒトゲノムおよびエクソンがシーケンシングされているが、それらの臨床上の応用は、疾患を引き起こす変異を良性の遺伝的変異から区別することの難しさにより限られたままである。ここで我々は、他の霊長類の種における一般的なミスセンスバリアントが、ヒトにおいて大部分が臨床的に良性であることを実証し、病原性の変異が除去のプロセスによって系統的に特定されることを可能にする。6種のヒト以外の霊長類の種の集団シーケンシングからの数十万個の一般的なバリアントを使用して、88%の正確さで稀な疾患の患者における病原性の変異を特定し、ゲノムワイド有意性(genome-wide significance)で知的障害における14個の新たな遺伝子候補の発見を可能にする、深層ニューラルネットワークを訓練した。追加の霊長類の種からの一般的な変異の目録を作ることで、数百万個の有意性が不確かなバリアントに対する解釈が改善し、ヒトゲノムシーケンシングの臨床上の利用がさらに進む。
Exome Aggregation Consortium(ExAC)およびGenome Aggregation Database(gnomAD)において収集された123136人のヒトを含む、集約されたエクソンデータが最近利用可能になったことで、アレル頻度スペクトラムにわたるミスセンス変異と同義変異に対する自然選択の影響を測ることが可能になった。コホートにおいて1回しか観察されない稀なシングルトンバリアントは、変異率に対するトリヌクレオチドコンテクストの影響を調整した後の、de novo変異によって予測される、予想される2.2/1のミスセンス/同義比とよく一致する(図49A、図51、ならびに図52A、図52B、図52C、および図52D)が、より高いアレル頻度では、観察されるミスセンスバリアントの数は、自然選択による有害な変異の一掃により減少する。アレル頻度の増大に伴うミスセンス/同義比の段階的な低下は、集団頻度が<0.1%であるミスセンスバリアントのかなりの部分が、健康な個人において観察されるにもかかわらず軽度に有害な結果を有することと一致する。これらの発見は、0.1%〜約1%より高いアレル頻度を伴うバリアントを、平衡選択および創始者効果により引き起こされるよく記録されている少数の例外を除いて、浸透性の遺伝性疾患に対しては良性である可能性が高いものとして除去するという、診療室において広く行われている経験的な実践を支持するものである。
開示される技術は、バリアントの病原性分類のための深層学習ネットワークを提供する。臨床上の応用に対するバリアント分類の重要性は、教師あり機械学習を問題の対処のために使用する多くの試みを引き起こしてきたが、これらの努力は、訓練のために確信をもってラベリングされた良性のバリアントおよび病原性のバリアントを含む適切なサイズの真実データセット(truth dataset)がないことにより、妨げられている。
我々は、所与の変異が集団において一般的なバリアントとして観察される可能性が高いかどうかということとして、予測問題を形作った。いくつかの要因が高いアレル頻度でのバリアントの観察の確率に影響し、我々はそれらのバリアントの有害性だけに関心がある。他の要因には、変異率、シーケンシングカバレッジなどの技術的なアーティファクト、および遺伝子変換などの中立的な遺伝的浮動に影響する要因がある。
病原性ミスセンス変異を階層化するために0.803以上の閾値を適用することは、DDD患者におけるde novoミスセンス変異のエンリッチメントを、1.5-foldからタンパク質切断変異(2.5-fold)に近い2.2-foldへと増大させ、一方で、予想を超えてエンリッチされるバリアントの総数の3分の1未満を捨てる。このことは、統計能力をかなり高め、元のDDD研究ではゲノムワイド有意性閾値にこれまで達していなかった知的障害における14個の追加の遺伝子候補の発見を可能にしている(テーブル1)。
ClinVarデータベースからの最近の専門家により精選されたバリアントに対する様々な分類器の性能を調査したが、ClinVarデータセットに対する分類器の性能は、保留された霊長類バリアントデータセットとも、DDD症例群vs対照群データセットとも強く相関していなかったことを発見した(それぞれP=0.12およびP=0.34)(図31Aおよび図31B)。我々は、既存の分類器には専門家の精選によるバイアスがあるという仮説を立てており、人の経験則は正しい方向にある傾向にあるものの最適ではないことがある。1つの例は、ClinVarにおける病原性バリアントと良性バリアントとの間のGranthamスコアの平均の差であり、これは、605個の疾患関連遺伝子内での、DDD症例群vs対照群におけるde novoバリアントの差の2倍である(テーブル2)。それと比べて、専門家による精選は、タンパク質構造を、特に、他の分子と相互作用することが可能になり得る表面に曝露されている残基の重要性を、十分に活用していないように見える。我々は、ClinVar病原性変異とDDD de novo変異の両方が、予測される溶媒に曝露される残基と関連付けられるが、良性のClinVarバリアントと病原性のClinVarバリアントとの間の溶媒接触性の差はDDD症例群vs対照群について見られる差の半分にすぎないことを観察した。これらの発見は、Granthamスコアおよび保存率などの、専門家にとって解釈がより簡単な要因を優先する確認バイアスを示唆するものである。人により精選されたデータベース上で訓練された機械学習分類器は、これらの傾向を強化することが予想される。
アプリケーションの中の座標は、複数の配列アラインメントを使用してhg19にマッピングされる他の種におけるバリアントに対する座標を含む、ヒトゲノムbuild UCSC hg19/GRCh37を参照する。タンパク質コーディングDNA配列に対する正規の転写産物および99種の脊椎動物ゲノムの複数の配列アラインメントおよび枝長が、UCSCゲノムブラウザからダウンロードされた。
他の種に存在するバリアントがヒトにおいて一般的なアレル頻度(>0.1%)で耐えられるかどうかを評価するために、他の種における変異と同一状態であったヒトバリアントを特定した。バリアントの各々に対して、それらをヒト集団におけるそれらのアレル頻度に基づいて、4つのカテゴリ(シングルトン、シングルトンより多い〜0.01%、0.01%〜0.1%、>0.1%)のうちの1つに割り当て、稀(<0.1%)なバリアントと一般的(>0.1%)なバリアントとの間でのミスセンス/同義比(MSR)の低下を推定した。一般的なヒトアレル頻度(>0.1%)での同一状態のミスセンスバリアントの枯渇率は、ヒトにおける一般的なアレル頻度で自然選択により除去されるのに十分に有害な他の種からのバリアントの割合を示す。
他の種と同一状態であるバリアントの臨床上の影響を調査するために、矛盾する病原性のアノテーションを持っていたバリアントまたは有意性が不確かなバリアントとしてのみラベリングされたバリアントを除いて、ClinVarデータベースをダウンロードした。補足テーブル9に示されるフィルタリングステップの後で、合計で、病原性カテゴリの中の24853個のミスセンスバリアントおよび良性カテゴリの中の17775個のミスセンスバリアントがある。
機械学習のために、ヒトおよびヒト以外の霊長類からの大部分が一般的である良性ミスセンスバリアントの良性訓練データセットを構築した。このデータセットは、一般的なヒトバリアント(>0.1%のアレル頻度、83546個のバリアント)、ならびにチンパンジー、ボノボ、ゴリラ、およびオランウータン、アカゲザル、およびマーモセットからのバリアント(301690個の固有の霊長類バリアント)を備える。各源が寄与する良性訓練バリアントの数が補足テーブル5に示されている。
各バリアントに対して、病原性予測ネットワークは、対象のバリアントを中心とする長さ51のアミノ酸配列と、二次構造および溶媒接触性ネットワーク(図2および図3)の出力とを、中心の場所において置換されるミスセンスバリアントとともに入力として取り込む。11種の霊長類のための1つの場所頻度行列と、霊長類を除く50種の哺乳類のための1つの場所頻度行列と、霊長類と哺乳類を除く38種の脊椎動物のための1つの場所頻度行列とを含む、3つの長さ51の場所頻度行列が、99種の脊椎動物の複数の配列アラインメントから生成される。
深層学習ネットワーク、ならびに、データベースdbNSFPから予測スコアを取得した他の20個のこれまでに公開されている分類器のベンチマークをとるために、検定データセットにおいて10000個の保留された霊長類バリアントを使用した。10000個の保留された霊長類バリアント検定セットに対する分類器の各々の性能も図28Aにおいて与えられる。異なる分類器は大きく変動するスコア分布を有していたので、各分類器に対する50パーセンタイル閾値を特定するために、トリヌクレオチドコンテクストによって検定セットと照合された10000個のランダムに選択されたラベリングされていないバリアントを使用した。方法間での公平な比較を確実にするために、その分類器に対して50パーセンタイルの閾値で良性であるものとして分類された、10000個の保留された霊長類バリアント検定セットの中のバリアントの割合について、各分類器のベンチマークをとった。
DDD研究からの公開されているde novoバリアントと、SSC自閉症研究における健康な兄弟の対照群からのde novoバリアントとを取得した。DDD研究はde novoバリアントの信頼性レベルを提供しており、我々は、バリアントコーリングエラーによる潜在的な偽陽性として、閾値が0.1未満であるバリアントをDDDデータセットから除外した。一実装形態では、全体で、DDDの影響を受けている個人から3512個のミスセンスde novoバリアントと、健康な対照群からの1208個のミスセンスde novoバリアントがあった。99種の脊椎動物の複数配列アラインメントのためにUCSCによって使用された正規の転写産物アノテーションは、DDDにより使用される転写産物アノテーションとわずかに異なり、ミスセンスバリアントの総数の小さな違いをもたらしている。DDDの影響を受けている個人におけるde novoミスセンスバリアントと、自閉症研究からの影響を受けていない兄弟の対照群におけるde novoミスセンスバリアントとを、この分類方法が区別する能力について評価した。各分類器に対して、2つの分布に対する予測スコア間の差のウィルコクソンの順位和検定からのP値を報告した(補足テーブル17(図34))。
観察されるde novo変異の数をヌル変異モデルのもとで予想される数と比較することによって、遺伝子におけるde novo変異のエンリッチメントを検定した。DDD研究において実行されるエンリッチメント分析を繰り返し、PrimateAIスコアが0.803を超えるde novoミスセンス変異のみをカウントするときに新たにゲノムワイド有意である遺伝子を報告した。0.803を超えるPrimateAI閾値を満たすミスセンスバリアントの割合(ゲノム全体で概ねすべての潜在的なミスセンス変異の5分の1)によって、de novoの損害を与えるミスセンス変異に対するゲノムワイド期待値を調整した。DDD研究ごとに、各遺伝子は4つの検定を必要とし、1つはタンパク質切断エンリッチメントを検定し、1つはタンパク質を変化させるde novo変異のエンリッチメントを検定し、両方が、DDDコホートだけのために、および神経発達トリオシーケンシングコホートのより大きなメタ分析のために検定される。タンパク質を変化させるdee novo変異のエンリッチメントは、コーディング配列内のミスセンスde novo変異のクラスタリングの検定と、Fisherの方法によって組み合わされた(補足テーブル20、21)。各遺伝子に対するP値が4つの検定の最小値から取られ、ゲノムワイド有意性がP<6.757×10-7として決定された(α=0.05、4つの検定を用いた18500個の遺伝子)。
既存の分類器の大半は、ClinVar上で訓練される分類器からの予測スコアを使用するなどして、ClinVarコンテンツ上で直接または間接的にのいずれかで訓練されるので、2017年以降に追加されたClinVarバリアントのみを使用するように、ClinVarデータセットの分析を限定した。最近のClinVarバリアントと他のデータベースとの間にはかなりの重複があったので、ExACにおいて一般的なアレル頻度(>0.1%)で見つかるバリアント、または、HGMD(Human Gene Mutation Database)、LOVD(Leiden Open Variation Database)、またはUniprot(Universal Protein Resource)に存在するバリアントを除去するために、さらにフィルタリングを行った。有意性が不確かであるものとしてだけアノテートされたバリアントおよび矛盾するアノテーションを伴うバリアントを取り除いた後で、良性のアノテーションを伴う177個のミスセンスバリアントおよび病原性のアノテーションを伴う969個のミスセンスバリアントが残った。これらのClinVarバリアントを、深層学習ネットワークと他の分類方法の両方を使用してスコアリングした。各分類器に対して、同じ数の良性予測と病原性予測を生み出した閾値を、これらのデータベースにおいて観察される経験的な割合として特定し、この閾値を、各分類器の正確さを推定するためのバイナリカットオフとして使用した(図31Aおよび図31B)。
深層学習ネットワークの性能に対する訓練データサイズの影響を評価するために、385236個の霊長類および一般的なヒトのバリアントの良性とラベリングされた訓練セットから、バリアントのサブセットをランダムにサンプリングし、背後の深層学習ネットワークアーキテクチャを同一に保った。各々の個別の霊長類の種からのバリアントが分類の正確さに寄与する一方で、各々の個別の哺乳類の種からのバリアントはより低い分類の正確さに寄与することを示すために、一実装形態に従って、83546個のヒトバリアントと、各種に対するランダムに選択された一定の数のバリアントとを備える訓練データセットを使用して、深層学習ネットワークを訓練し、背後のネットワークアーキテクチャを再び同じに保った。訓練セットに追加したバリアントの一定の数(23380)は、ミスセンスバリアントの数が最小である種、すなわちボノボにおいて利用可能なバリアントの総数であった。各分類器に対する性能の中央値を得るために、訓練手順を5回繰り返した。
ExACにおいて観察される一般的なヒトミスセンスバリアント(>0.1%のアレル頻度)のトリヌクレオチドコンテクストに基づいてバリアントをシミュレートすることによって、504種の現存する霊長類の種において存在する一般的なバリアントによる、すべての約7000万個の潜在的なヒトミスセンス変異の予想される飽和を調査した。各霊長類の種に対して、ヒトにおいて観察される一般的なミスセンスバリアントの数(アレル頻度が0.1%を超える約83500個のミスセンスバリアント)の4倍をシミュレートした。それは、ヒトが、他の霊長類の種と比べて個体あたりのバリアントの数が概ね半分であり、0.1%を超えるアレル頻度では、純化選択によって約50%のヒトミスセンスバリアントが取り除かれているからである(図49A)。
本明細書において使用されるすべての座標は、このセクションで説明される手順を使用して複数配列アラインメントを使用してhg19にマッピングされた他の種におけるバリアントに対する座標を含めて、ヒトゲノムbuild UCSC hg19/GRCh37を参照する。ヒトとの99種の脊椎動物ゲノムのタンパク質コーディングDNA配列および複数配列アラインメントが、hg19 buildのためのUCSCゲノムブラウザからダウンロードされた(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/alignments/knownCanonical.exonNuc.fa.gz)。複数の正規の遺伝子アノテーションを伴う遺伝子については、最長のコーディング転写産物が選択された。
純化選択の活動に加えて、高いアレル頻度でのヒトミスセンスバリアントの観察される枯渇率は、自然選択に関連しない要因によっても影響を受け得る。集団において特定のアレル頻度で現れる自然変異の確率は、変異率、遺伝子変換、および遺伝的浮動の関数であり、これらの要因は、選択圧がなくてもアレル頻度スペクトラムにわたってミスセンス:同義比にバイアスをもたらす可能性がある。
他の種からのバリアントがヒトにおいて一般的なアレル頻度(>0.1%)で耐えられるかどうかを評価するために、他の種における変異と同一状態であったヒトバリアントを特定した。バリアントの各々に対して、ヒト集団におけるアレル頻度(シングルトン、シングルトンより多い〜0.01%、0.01%〜0.1%、>0.1%)に基づいて、それらを4つのカテゴリのうちの1つに割り当て、稀なバリアント(<0.1%)と一般的なバリアント(>0.1%)との間でのミスセンス:同義比(MSR)の低下を推定した。一般的なヒトアレル頻度(>0.1%)における同一状態のミスセンスバリアントの枯渇率は、ヒトにおいて一般的なアレル頻度では自然選択により除去されるのに十分有害な、他の種からのバリアントの割合を示す。
バリアントデータについての問題、または家畜化によるアーティファクト(dbSNPから選択された種の大半は家畜化されているので)により、dbSNP変異を使用した我々の結果が影響を受けなかったことを確実にするために、種内多型の代わりに近縁の種のペアからの固定された置換を使用した分析も繰り返した。枝長で測定される進化系統距離(場所当たりのヌクレオチド置換の平均の数)とともに、UCSCゲノムブラウザから100種の脊椎動物の種の進化系統樹をダウンロードした(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/hg19.100way.commonNames.nh)。さらなる分析のために、近縁の種のペア(枝長<0.25)を選択した。近縁の種のペア間の固定された置換を特定するために、ヒトとの99種の脊椎動物ゲノムの複数配列アラインメントのための、ならびにヒトとの19種の哺乳類(16種の霊長類)ゲノムのアラインメントのための、コーディング領域をUCSCゲノムブラウザからダウンロードした。追加の19種の哺乳類の複数種アライメントは、ボノボなどの霊長類の種の一部が99種の脊椎動物アラインメントにおいて存在しなかったので必要であった(http://hgdownload.soe.ucsc.edu/goldenPath/hg38/multiz20way/alignments/knownCanonical.exo nNuc.fa.gz)。全体で、図50Dおよび補足テーブル4に列挙されるように、5つの霊長類ペアを含む、近縁の種の15個のペアを得た。
他の種と同一状態であるバリアントの臨床上の影響を調査するために、ClinVarデータベース(2017年11月2日に発表されたftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/clinvar_20171029.vcf.gz)12のリリースバリアントサマリ(release variant summary)をダウンロードした。このデータベースは、hg19ゲノムビルド上の324698個のバリアントを含み、そのうち122884個がタンパク質コーディング遺伝子の我々のリストにマッピングするミスセンス一塩基バリアントであった(補足テーブル9)。ClinVarデータベースの中のバリアントの大半はミスセンスの結果をもたらさず、除外された。次に、矛盾する病原性の解釈を持つバリアントをフィルタリングし、良性、良性である可能性が高い、病原性、および病原性である可能性が高いアノテーションを伴うバリアントのみを残した。良性のアノテーションおよび良性である可能性が高いというアノテーションを持つバリアントを単一のカテゴリへと統合し、病原性のアノテーションまたは病原性である可能性が高いというアノテーションを持つバリアントも統合した。補足テーブル9に示されるフィルタリングステップの後で、全体で病原性カテゴリの中の24853個のバリアントおよび良性カテゴリの中の17775個のバリアントがあり、残りは有意性が知られていないまたは矛盾するアノテーションを伴うバリアントであるので、除外された。
ヒト集団において一般的なバリアントは、創始者効果または平衡選択の稀な事例を除いて大部分が中立的であり、これにより、それらのバリアントは、人の解釈によるバイアスの影響を受けていない機械学習のための良性訓練データセットとして適切なものになる。フィルタを通過しなかったバリアントを除いて、ExAC/gnomADデータベース(リリースv2.0)からの123136個のエクソンからアレル頻度データを使用し、正規のタンパク質コーディング転写産物内で全体の集団アレル頻度が0.1%以上である83546個のミスセンスバリアントが残った。
すべての潜在的なミスセンスバリアントが、正規のコーディング領域の各塩基場所から、その場所におけるヌクレオチドを他の3つのヌクレオチドで置換することによって生成された。ExAC/gnomADからの123136個のエクソンにおいて観察されたバリアントと、開始コドンまたは終止コドンにおけるバリアントを除外した。全体で、68,258,623個のラベリングされていないバリアントが生成された。ラベリングされていないバリアントの各々を、96個の異なるトリヌクレオチドコンテクストカテゴリのうちの1つに割り当てた。トリヌクレオチドコンテクストによって良性データセットの中のバリアントと一致する、このラベリングされていないデータセットからバリアントをサンプリングし、良性の訓練例とラベリングされていない訓練例を区別するように分類器を訓練することによって、半教師ありの手法を使用して深層学習ネットワークを訓練した。
良性バリアントおよびラベリングされていないバリアントの例をフランキングアミノ酸配列とともに提示することによって、深層学習ネットワークは、変異に対して高度に耐性のないタンパク質の領域を学習する。しかしながら、タンパク質配列の領域に一般的なバリアントがないことは、強い純化選択によるものであることがあり、または、バリアントが領域においてコールされるのを妨げる技術的なアーティファクトによるものであることがある。後者を訂正するために、ExAC/gnomADデータセットが1より小さい平均カバレッジを有していた領域から、良性データセットとラベリングされていないデータセットの両方からのバリアントを除去した。同様に、ラベリングされていないバリアントを訓練の間に良性データセットの中の霊長類バリアントと照合するとき、霊長類が複数配列アラインメントにおいてヒトとのオーソロガスなアラインメント可能な配列を有しなかった領域から、ラベリングされていないバリアントを除外した。
深層学習ネットワークの妥当性確認および検定のために、妥当性確認および検定のために10000個の霊長類バリアントの2つのセットをランダムにサンプリングし、これらについては訓練を保留した。霊長類バリアントの残りは、一般的なヒトバリアント(>0.1%のアレル頻度)とともに、深層学習ネットワークを訓練するための良性データセットとして使用された。加えて、妥当性確認セットおよび検定セットのために、保留された霊長類バリアントと照合された10000個のラベリングされていないバリアントの2つのセットもサンプリングした。
504種の現存する霊長類の種において存在する一般的なバリアントによる、すべての7000万個の潜在的なヒトミスセンス変異の予想される飽和を調査した。各霊長類の種に対して、ヒトにおいて観察される一般的なミスセンスバリアントの数(アレル頻度が0.1%より高い約83500個のミスセンスバリアント)を4回シミュレートした。それは、他の霊長類の種と比べてヒトの個体当たりのバリアントの数が概ね半分であるように見え、ヒトミスセンスバリアントの約50%が0.1%を超えるアレル頻度において純化選択により除去されているからである(図49A)。96個のトリヌクレオチドコンテクストにおける一般的なヒトミスセンスバリアントの観察される分布に基づいて、シミュレートされたバリアントを割り当てた。たとえば、一般的なヒトミスセンスバリアントの2%が、CCC>CTGのトリヌクレオチドコンテクストからのものであった場合、シミュレートされるバリアントの2%がランダムにサンプリングされたCCG>CTG変異であったことを要求した。これは、トリヌクレオチドコンテクストを使用して、変異率、遺伝的浮動、および遺伝子変換バイアスの影響を考慮する効果を有する。
病原性予測のための深層学習ネットワークは、二次構造および溶媒接触性予測ネットワークのための19個の畳み込み層と、二次構造および溶媒接触性ネットワークの結果を入力として取り込む主病原性予測ネットワークのための17個の畳み込み層とを含む、全体で36個の畳み込み層を含む。大半のヒトタンパク質の結晶構造は知られていないので、ネットワークが一次配列からタンパク質構造を学習することを可能にするために2つのモデルを訓練した。両方のモデルが、図6に示される同じネットワークアーキテクチャおよび入力を使用した。二次構造および溶媒接触性ネットワークへの入力は、99種の他の脊椎動物とのヒトの複数配列アラインメントからの保存情報を符号化する、長さ51×20個のアミノ酸の位置特定的頻度行列である。
モデルを訓練するために、Protein Databankからの関連しない結晶構造を使用した。25%を超える配列相動性を持つアミノ酸配列が除去された。全体で、6367個のタンパク質配列が訓練のために使用され、400個が妥当性確認のために使用され、500個が検定のために使用された(補足テーブル13)。アミノ酸配列および二次構造と溶媒接触性ラベルを含む、訓練のために使用されたデータは、RaptorXウェブサイト:http://raptorx.uchicago.edu/download/から入手可能である。
% ./buildFeature-i 1u71A.fasta-c 10-o ./TGT/1u71A.tgt
% ./CNFsearch-a 30-q 1u71A
タンパク質の二次構造および相対的な溶媒接触性を予測するように、2つの別々の深層畳み込みニューラルネットワークモデルを訓練した。2つのモデルは、同一のアーキテクチャおよび入力データを有するが、予測状態については異なる。最高の性能に向けてモデルを最適化するために、詳細なハイパーパラメータ探索を行った。病原性予測のための我々の深層学習ネットワークと、二次構造および溶媒接触性を予測するための深層学習ネットワークの両方が、画像分類における成功により広く採用されている残差ブロックのアーキテクチャを採用した。残差ブロックは、より前の層からの情報が残差ブロックをスキップすることを可能にするスキップ接続が散在する、反復する畳み込みのユニットを備える。各残差ブロックにおいて、入力層がまずバッチ正規化され、正規化線形ユニット(ReLU)を使用する活性化層がそれに続く。活性化は次いで1D畳み込み層を通される。1D畳み込み層からのこの中間の出力は、再びバッチ正規化およびReLU活性化され、別の1D畳み込み層がそれに続く。第2の1D畳み込みの終わりに、その出力を元の入力と合計して残差ブロックにし、このことが、元の入力情報が残差ブロックをバイパスすることを可能にすることによってスキップ接続として活動する。著者により深層残差学習ネットワークと名付けられるそのようなアーキテクチャでは、入力は元の状態で保存され、残差接続にはモデルからの非線形の活性化がない状態に保たれ、より深いネットワークの効果的な訓練が可能になる。詳細なアーキテクチャは、図6および補足テーブル11(図7Aおよび図7B)および図12(図8Aおよび図8B)において提供される。
病原性予測ネットワークのための訓練データセットは、フィルタリングの後で、385236個の良性とラベリングされたバリアントと、68258623個のラベリングされていないバリアントとを含む。各バリアントに対して、以下の入力特徴量を生成した。各バリアントの第1の入力特徴量は、バリアントの配列コンテクストを深層学習モデルに提供するための、長さ51のフランキングアミノ酸配列、すなわち、hg19の基準配列から得られたバリアントの各側への25個のアミノ酸である。全体で、このフランキング基準配列は長さが51個のアミノ酸である。経験的な観察結果を通じて、タンパク質配列のアミノ酸表現が、ヌクレオチドを使用してタンパク質コーディング配列を表現することより効果的であったことを発見した。
半教師あり学習アルゴリズムは、訓練プロセスにおいてラベリングされたインスタンスとラベリングされていないインスタンスの両方を使用するので、訓練に利用可能な少量のラベリングされたデータしかない完全教師あり(completely supervised)学習アルゴリズムよりも高い性能を達成する分類器を生み出すことができる。半教師あり学習の背後にある原理は、ラベリングされたインスタンスだけを使用する教師ありモデルの予測能力を強化するために、ラベリングされていないデータ内の固有の知識を活用できるということであり、それにより半教師あり学習の潜在的な利益がもたらされる。少量のラベリングされたデータから教師あり分類器により学習されるモデルパラメータは、ラベリングされていないデータによって、より現実的な分布(これは検定データの分布によく似ている)に向かって導かれ得る。
良性バリアントと一致している未知のバリアントのサンプリング方式は、我々のモデル訓練のバイアスを低減するのに有用である。未知のバリアントがランダムにサンプリングされるとき、深層学習モデルはしばしば、偏った情報を抽出して自明解を提示する。たとえば、アミノ酸置換K→Mが良性バリアントより未知のバリアントにおいて頻繁に発生する場合、深層学習モデルはK→Mの置換を常に病原性として分類する傾向がある。したがって、2つの訓練セットの間でアミノ酸配列の分布のバランスをとることが重要である。
サイクル1
各トリヌクレオチドコンテクストに対する良性バリアントの厳密な数と一致するように未知のバリアントをサンプリングした。言い換えると、最初のサイクルにおいて、バリアントのトリヌクレオチドコンテクストに関して良性訓練セットおよび病原性訓練セットを鏡写しにした。そのようなサンプリング方法の背後にある直観は、良性セットと未知のセットの間で変異率が同一であるバリアントの等しい表現があるということである。このことは、モデルが変異率に基づいて自明解に収束するのを防ぐ。
サイクル2に対して、サイクル1からの訓練されたモデルを適用してサイクル1に関与していない未知のバリアントのセットをスコアリングし、上位の予測される病原性バリアントで未知のバリアントの5%を置き換えた。このセットは純粋にモデルによって生成され、このセットの中のトリヌクレオチドコンテクストに対するバランシングは適用しなかった。訓練に必要な未知のバリアントの残りの95%は、良性バリアントの中の各ヌクレオチドコンテクストのカウントの95%となるようにサンプリングされる。
最後のサイクルであるサイクル21では、病原性訓練セット全体が、純粋に深層学習モデルから予測される上位の病原性バリアントからなる。各サイクルにおいて変異率のバイアスを明確に考慮してきたので、病原性バリアントは、訓練データとして使用するのに信頼性が高く、変異率のバイアスの影響を受けていない。したがって、訓練の最後のサイクルは、病原性予測のための最後の深層学習モデルを生み出す。
ラベリングされていないバリアントのバランスサンプリングが、バリアントの有害性に関連しないバイアスを除去するのに決定的に重要である。混乱をもたらす影響の適切な制御がないと、深層学習は容易に、不注意にもたらされたバイアスを選択してクラスを区別することがある。一般的なヒトバリアントは、CpGアイランド上のバリアントなどの、変異可能性の高いクラスからのバリアントについてエンリッチされる傾向がある。同様に、霊長類多型はヒトの変異率にも従い、良性訓練セット全体における変異可能性の高いバリアントのエンリッチメントを示唆する。ラベリングされていないバリアントのサンプリング手順がよく制御されておらずバランスがとれていない場合、深層学習ネットワークは、バリアントを分類するために変異率のバイアスに頼る傾向があるので、トランスバージョンまたは非CpGトランジションなどのより出現しないクラスと比較して、CpGトランジションを良性として分類する可能性がより高い。我々は、96個のトリヌクレオチドコンテクスト(上で論じられた)の各々において、ラベリングされた良性バリアントと厳密に同じ数のラベリングされていないバリアントをサンプリングした。
ヒト集団における一般的なバリアント
最近の研究は、ヒト集団における一般的なバリアントが全般に良性であることを実証している。一実装形態によれば、gnomADは、正規のコーディング領域内でマイナーアレル頻度(MAF)が0.1%以上である90958個の非同義SNPを提供する。フィルタを通過したバリアントが保持される。インデルが除外される。開始コドンまたは終止コドンにおいて発生するバリアント、ならびにタンパク質切断バリアントが除去される。亜集団を精査すると、各亜集団内のMAFが0.1%以上であるミスセンスバリアントの総数は、一実装形態によれば245360個まで増える。これらのバリアントは、良性バリアントの訓練セットの一部を形成する。
コーディング領域は高度に保存的であることが知られているので、多型が大型類人猿の集団において高い頻度で分離しているかどうかを仮定するのは簡単であり、多型は健康に対する軽度の影響も有し得る。大型類人猿ゲノムプロジェクトおよび他の研究からの、ボノボ、チンパンジー、ゴリラ、およびオランウータンの多型データは、dbSNPからのアカゲザルおよびマーモセットのSNPと統合された。
すべての潜在的なバリアントが、正規のコーディング領域の各塩基場所から、その場所におけるヌクレオチドを他の3つのヌクレオチドに置換することによって生成される。新しいコドンが形成され、その場所におけるアミノ酸の潜在的な変更につながる。同義変化はフィルタリングされる。
ヒトゲノムの一部の領域では、リードをアラインメントするのが難しいことが知られている。それらの領域を含めると、訓練データセットおよび検定データセットに混乱をもたらす影響を引き起こす。たとえば、高い選択圧を受ける領域は、多型の数が限られる傾向がある。一方、シーケンシングが難しい領域もより少数の多型を有する。我々のモデルへのそのような混乱をもたらす入力を避けるために、gnomADによってシーケンシングされなかった遺伝子からのバリアントを除去した。
病原性モデルの妥当性確認および検定のために、一実装形態によれば、妥当性確認および検定のために、それぞれ10000個の良性バリアントの2つのセットを、良性バリアントの大きいプールからランダムにサンプリングした。良性バリアントの残りは、深層学習モデルを訓練するために使用される。これらのバリアントは特に、方法間の公平な比較を確実にするためにオーソロガスな霊長類バリアントからサンプリングされ、それは、一部の方法が一般的なヒトバリアントについて訓練されるからである。一実装形態によれば、妥当性確認および検定のために別々に、10000個の未知のバリアントの2つのセットをランダムにサンプリングした。192個のトリヌクレオチドコンテクストの各々の中の未知のバリアントの数が、妥当性確認セットおよび検定セットに対するそれぞれの良性バリアントの数と一致することを確実にする。
病原性予測ネットワークは、二次構造および溶媒接触性ネットワークを介して、5つの直接入力および2つの間接入力を受け取る。5つの直接入力は、長さ51個のアミノ酸配列×深さ20(20個の異なるアミノ酸を符号化する)であり、バリアントを伴わない基準ヒトアミノ酸配列(1a)と、バリアントで置換された代替ヒトアミノ酸配列(1b)と、霊長類の種の複数配列アラインメントからのPFM(1c)と、哺乳類の種の複数配列アラインメントからのPFM(1d)と、より遠縁の脊椎動物の種の複数配列アラインメントからのPFM(1e)とを備える。二次構造および溶媒接触性ネットワークは各々、複数配列アラインメント(1f)および(1g)からのPFMを入力として受け取り、主な病原性予測ネットワークへの入力として出力を提供する。二次構造および溶媒接触性ネットワークは、Protein DataBankのための既知のタンパク質結晶構造について事前訓練され、病原性モデル訓練の間の逆伝播を可能にする。
バリアントの病原性を予測するために、半教師あり深層畳み込みニューラルネットワーク(CNN)モデルを開発した。モデルへの入力特徴量は、フランキングバリアントのタンパク質配列および保存プロファイルと、特定の遺伝子領域におけるミスセンスバリアントの枯渇率とを含む。深層学習モデルによって二次構造および溶媒接触性へバリアントによって引き起こされる変化を予測し、それを我々の病原性予測モデルへと統合した。モデルを訓練するために、ヒト亜集団の一般的なバリアントからの良性バリアントと、霊長類からのオーソロガスバリアントとを生成した。しかしながら、病原性バリアントに対する信頼性のある源が依然として欠けている。最初に、良性バリアントおよび未知のバリアントを用いてモデルを訓練し、次いで、半教師あり反復的バランスサンプリング(IBS)アルゴリズムを使用して、高い信頼性で予測される病原性バリアントのセットで未知のバリアントを徐々に置き換えた。最終的に、ヒトにおいて発育不全障害を引き起こすde novoバリアントを良性のバリアントから区別する際に、我々のモデルが既存の方法を上回ることを実証した。
図17は残差ブロックを示す。病原性予測の我々の深層学習モデルと、二次構造および溶媒接触性を予測するための深層学習モデルの両方が、において最初に示された残差ブロックの定義を採用する。残差ブロックの構造は以下の図において示される。入力層は、まずバッチ正規化され、非線形活性化「ReLU」がそれに続く。活性化は次いで1D畳み込み層に通される。1D畳み込み層からのこの中間出力は、再びバッチ正規化およびReLU活性化され、別の1D畳み込み層が後に続く。第2の1D畳み込みの終わりにおいて、その出力を元の出力と統合する。そのようなアーキテクチャでは、入力は元の状態に保たれ、残差接続はモデルの非線形活性化がない状態に保たれる。
我々の方法は、3つの点でバリアントの病原性を予測するための既存の方法と異なる。第1に、我々の方法は、半教師あり深層畳み込みニューラルネットワークの新規のアーキテクチャを採用する。第2に、信頼性のある良性バリアントがgnomADからの一般的なヒトバリアントおよび霊長類バリアントから取得され、一方で、確実性の高い病原性訓練セットは、人により精選された同一のバリアントデータベースを使用したモデルの循環的な訓練および検定を避けるために、反復的バランスサンプリングおよび訓練を通じて生成される。第3に、二次構造および溶媒接触性のための深層学習モデルは、我々の病原性モデルのアーキテクチャへと統合される。構造および溶媒モデルから得られる情報は、特定のアミノ酸残基に対するラベル予測に限定されない。むしろ、リードアウト層が構造および溶媒モデルから除去され、事前訓練されたモデルが病原性モデルと統合される。病原性モデルを訓練する間、事前訓練された構造および溶媒層はまた、誤差を最小限にするために逆伝播する。これは、事前訓練された構造および溶媒モデルが、病原性予測問題に集中することを助ける。
データ準備
タンパク質の3状態の二次構造および3状態の溶媒接触性を予測するために、深層畳み込みニューラルネットワークを訓練した。PDBからのタンパク質アノテーションが、モデルを訓練するために使用される。一実装形態によれば、配列プロファイルと25%を超える相同性を有する配列が除去される。一実装形態によれば、全体で、6293個のタンパク質配列が訓練のために使用され、392個が妥当性確認のために使用され、499個が検定のために使用される。
タンパク質の3状態の二次構造および3状態の溶媒接触性をそれぞれ予測するために、2つのエンドツーエンドの深層畳み込みニューラルネットワークモデルを訓練した。2つのモデルは同様の構成を有し、一方はタンパク質配列に対する、他方はタンパク質保存プロファイルに対する、2つの入力チャネルを含む。各入力チャネルは次元L×20を有し、Lはタンパク質の長さを示す。
病原性予測モデルの入力特徴量
上で論じられたように、病原性予測問題に対して、病原性モデルを訓練するための良性バリアント訓練セットおよび未知のバリアント訓練セットがある。各バリアントに対して、我々のモデルに供給するために以下の入力特徴量を準備した。
図19は、深層学習モデルワークフローの概要を提供するブロック図である。病原性訓練モデルは、5つの直接入力および4つの間接入力を備える。5つの直接入力特徴量は、基準配列(1a)、代替配列(1b)、霊長類保存率(1c)、哺乳類保存率(1d)、および脊椎動物保存率(1e)を含む。間接入力は、基準配列ベース二次構造(1f)、代替配列ベース二次構造(1g)、基準配列ベース溶媒接触性(1h)、および代替配列ベース溶媒接触性(1i)を含む。
一実装形態では、我々の方法の各サイクルに対して、同じ良性データセットおよび8つの異なる未知のデータセットで訓練する8つの異なるモデルを実行し、8つのモデルにわたって評価データセットの予測を平均した。未知のバリアントの複数のランダムにサンプリングされたセットがモデルに提示されると、サンプリングバイアスを減らしてよく制御することができる。
信頼性のあるアノテートされた病原性バリアントサンプルが欠けているので、モデル訓練のための打ち切り基準を定義するのは困難である。モデル評価における病原性バリアントの使用を避けるために、一実装形態では、オーソロガスな霊長類からの10000個の良性妥当性確認バリアントと、10000個のトリヌクレオチドコンテクストが照合された未知のバリアントとを使用した。モデルの各エポックを訓練した後、良性妥当性確認バリアントおよび未知の妥当性確認バリアントを評価した。妥当性確認バリアントセットの両方の確率分布の差を評価するために、ウィルコクソン順位和検定を使用した。
1つは一般的なヒトバリアントのみを用いて訓練され、1つは一般的なヒトバリアントと霊長類バリアントの両方を含む良性とラベリングされた完全なデータセットを用いて訓練された、2つのバージョンの深層学習ネットワークの分類の正確さを、以下の分類器、すなわちSIFT、PolyPhen-2、CADD、REVEL、M-CAP、LRT、MutationTaster、MutationAssessor、FATHMM、PROVEAN、VEST3、MetaSVM、MetaLR、MutPred、DANN、FATHMM-MKL_coding、Eigen、GenoCanyon、およびGERP++13,32-48に加えて評価した。他の分類器の各々のスコアを得るために、dbNSFP 49(https://sites.google.com/site/jpopgen/dbNSFP)からすべてのミスセンスバリアントに対するスコアをダウンロードし、10000個の保留された霊長類バリアント検定セット、およびDDD症例群vs対照群におけるde novoバリアントについて方法のベンチマークをとった。本明細書に含めるものには、SIFT、PolyPhen-2、およびCADD、ならびにREVELを選択した。それは、SIFT、PolyPhen-2、およびCADDについては、それらが最も広く使用されている方法であるからであり、REVELについては、様々な評価モードにわたって、評価した20個の既存の分類器の中で最良のものの1つとして傑出していたからである。評価したすべての分類器の性能が図28Aにおいて提供される。
一実装形態では、反復的バランスサンプリング手順に続いて、深層学習モデルを21回のサイクルにわたり訓練した。我々の分類器の性能を評価するために、2つのタイプの評価を実行した。2つの尺度で我々のモデルとPolyphen2、SIFT、およびCADDの比較も行い、臨床的なアノテーションに対する我々のモデルの適用の可能性を評価した。
一実装形態では、10000個の良性バリアントおよび未知のバリアントを、8つの異なる訓練されたモデルのアンサンブルを使用してそれらの予測される確率を計算することによって、評価した。上で言及された他の既存の方法によってスコアリングされる、それらの予測される確率も取得した。
良性の正確さ=中央値を上回る(下回る*)良性バリアントの総数÷良性バリアントの総数
一実装形態では、発育不全障害(DDD)症例群-対照群データセットを含む、臨床的なデータセットに対してこれらの病原性予測方法を評価した。DDDデータセットは、影響を受けている子供からの3821個のde novoミスセンスバリアントおよび影響を受けていない兄弟からの1231個のde novoミスセンスバリアントを備える。我々の仮説は、影響を受けている子供からのde novoバリアントが影響を受けていない兄弟からのde novoバリアントより有害である傾向があるというものである。
深層学習ネットワークならびに他の20個の分類器のベンチマークをとるために、検定データセットの中の10000個の保留された霊長類バリアントを使用した。異なる分類器は大きく変動するスコア分布を有していたので、各分類器に対する50パーセンタイル閾値を特定するために、トリヌクレオチドコンテクストにより検定セットと照合された、10000個のランダムに選択されたラベリングされていないバリアントを使用した。方法間の公平な比較を確実にするために、その分類器に対して50パーセンタイルの閾値で良性であると分類された、10000個の保留された霊長類バリアント検定セットの中のバリアントの割合について、各分類器のベンチマークをとった。
DDDの影響を受けている個人におけるde novoミスセンスバリアントと、影響を受けていない兄弟の対照群におけるde novoミスセンスバリアントとを区別する能力について、分類方法のベンチマークをとった。各分類器に対して、2つの分布に対する予測スコア間の差のウィルコクソン順位和検定からのp値を報告した(図28Bおよび図28Cおよび補足テーブル17(図34))。
深層学習ネットワークが本当に同じ遺伝子内の病原性バリアントと良性バリアントとを区別していたかどうかを検定するために、de novo優性遺伝モードを伴う遺伝子における病原性を優先するのではなく、DDDコホートにおいてp値が0.05未満である(de novoタンパク質切断変異のみを使用して計算される)神経発達疾患と関連付けられた605の遺伝子のセットを特定した(補足テーブル18)。DDDデータセットおよび対照群データセットにおいて605個の遺伝子の中のバリアントの確率分布を分類器が分離する能力について、すべての分類器に対するウィルコクソン順位和のp値を報告する(図28Cおよび補足テーブル19(図35))。
既存の分類器の大半はClinVar上で訓練される。ClinVar上で直接訓練しない分類器も、ClinVar上で訓練される分類器からの予測スコアを使用することによって影響を受けることがある。加えて、一般的なヒトバリアントは良性のClinVarの結果に対して高度にエンリッチされ、それは、アレル頻度が、良性の結果をバリアントに割り当てるための基準の一部であるからである。
機械学習アルゴリズムが問題を解く手段を理解するのは難しいことが多い。バリアントの病原性を予測するために深層学習ネットワークが学習して抽出した特徴量を理解するために、深層学習ネットワークの初期層を視覚化した。事前訓練された3状態二次構造予測モデルの最初の3つの層(2つのアップサンプリング層とそれに続く第1の畳み込み層)内での異なるアミノ酸に対する相関係数を計算し、BLOSUM62行列またはGrantham距離と非常に似た特徴量を畳み込み層の重みが学習することを示した。
正規のコーディング領域を定義するために、コーディングDNA配列(CDS)領域(knownCanonical.exonNuc.fa.gz)に対するヒトとの99種の脊椎動物ゲノムの複数アラインメントがUCSCゲノムブラウザからダウンロードされた。ヒトについては、エクソンの座標はBuild hg19のもとにある。エクソンは統合されて遺伝子を形成する。常染色体上の遺伝子およびchrXが保持される。相同ではない遺伝子は除去され、相同な遺伝子のリストはNCBI ftp://ftp.ncbi.nih.gov/pub/HomoloGene/current/homologene.dataからダウンロードされた。複数の遺伝子アノテーションを伴うSNPに対しては、SNPのアノテーションを表すために最長の転写産物が選択される。
世界中の8つの亜集団からの123136人の個人の全エクソンシーケンシングデータを収集した、最近の大規模な研究であるgenome Aggregation Database(gnomAD)から、ヒトエクソン多型データをダウンロードした。そして、フィルタを通過し正規のコーディング領域に該当するバリアントを抽出した。
大型類人猿SNPの有用性を実証するために、シングルトンSNPと一般的なSNP(アレル頻度(AF)>0.1%)の数の比を測定するエンリッチメントスコアを考案した。同義バリアントは、良性でありどのような選択圧力も受けずに一般に中立的に進化することが知られている。有害なミスセンスバリアントは、自然選択によって徐々に排除されるので、そのアレル頻度分布は同義バリアントと比較して稀なバリアントが多い傾向がある。
固定された置換のエンリッチメント分析
種間の置換の稀なバリアントエンリッチメント分析も研究した。UCSCゲノムブラウザ(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/hg19.100way.commonNames.nh)から100種の脊椎動物の種の進化系統樹をダウンロードした。次いで、計算されたペア毎の進化系統的距離を計算し、近縁の種のペア(距離<0.3)を選択した。霊長類の種のペアを得るために、UCSCゲノムブラウザからCDS領域に対するヒトとの19種の哺乳類(16種の霊長類)ゲノムのアラインメント(hg38)をダウンロードした。4つの霊長類のペアが13個の脊椎動物のペアに追加された。以下の表は、一実装形態による、近縁の種の複数のペアの遺伝的距離を示す。
チンパンジー、アカゲザル、マーモセット、ヤギ、ネズミ、およびニワトリを含む6つの種が、種内多型および種間多型の比較を実行するために選択され、それは、これらの種については種内バリアントと種間バリアントの両方が利用可能であったからである。種内バリアントおよび種間バリアントのエンリッチメントスコアの比較は、2つの2×2の分割表のオッズ比の比較に類似している。通常は、分割表間のオッズ比の相同性を評価するために、Woolf検定が適用される。したがって、Woolf検定を利用して、種内多型と種間多型との間のエンリッチメントスコアの差を評価した。
図64は、遺伝子毎のエンリッチメント分析の一実装形態を示す。一実装形態では、深層畳み込みニューラルネットワークベースのバリアント病原性分類器はさらに、病原性であると決定されたバリアントの病原性を確認する遺伝子毎のエンリッチメント分析を実施するように構成される。遺伝的疾患を持つ個人のコホートからサンプリングされた特定の遺伝子に対して、遺伝子毎のエンリッチメント分析は、病原性である特定の遺伝子におけるバリアント候補を特定するために深層畳み込みニューラルネットワークベースのバリアント病原性分類器を適用することと、バリアント候補の観察されるトリヌクレオチド変異率を合計してその合計を送信カウントおよびコホートのサイズと乗じることに基づいて特定の遺伝子に対する変異の基準数を決定することと、病原性である特定の遺伝子の中のde novoミスセンスバリアントを特定するために深層畳み込みニューラルネットワークベースのバリアント病原性分類器を適用することと、変異の基準数をde novoミスセンスバリアントのカウントと比較することとを含む。比較の出力に基づいて、遺伝子毎のエンリッチメント分析は、特定の遺伝子が遺伝子障害と関連付けられることと、de novoミスセンスバリアントが病原性であることとを確認する。いくつかの実装形態では、遺伝子障害は自閉スペクトラム障害(ASDと省略される)である。他の実装形態では、遺伝的障害は発達遅延障害(DDDと省略される)である。
図65は、ゲノムワイドエンリッチメント分析の一実装形態を示す。別の実装形態では、深層畳み込みニューラルネットワークベースのバリアント病原性分類器はさらに、病原性と決定されたバリアントの病原性を確認するゲノムワイドエンリッチメント分析を実施するように構成される。ゲノムワイドエンリッチメント分析は、健康な個人のコホートからサンプリングされた複数の遺伝子において病原性であるde novoミスセンスバリアントの第1のセットを特定するために深層畳み込みニューラルネットワークベースのバリアント病原性分類器を適用することと、遺伝子障害を持つ個人のコホートからサンプリングされる複数の遺伝子において病原性であるde novoミスセンスバリアントの第2のセットを特定するために深層畳み込みニューラルネットワークベースのバリアント病原性分類器を適用することと、第1のセットおよび第2のセットのそれぞれのカウントを比較することと、比較の出力に基づいて、de novoミスセンスバリアントの第2のセットが遺伝的障害を持つ個人のコホートにおいてエンリッチされ、したがって病原性であることを確認することとを含む。いくつかの実装形態では、遺伝的疾患は自閉スペクトラム障害(ASDと省略される)である。他の実装形態では、遺伝的障害は発達遅延障害(DDDと省略される)である。
バリアント病原性分類器を構築するためのシステム、方法、および製造物品を説明する。実装形態の1つまたは複数の特徴は基本の実装形態と組み合わされ得る。相互に排他的ではない実装形態は合成可能であると教示される。実装形態の1つまたは複数の特徴は他の実装形態と合成され得る。本開示は定期的にこれらの選択肢をユーザに思い起こさせる。これらの選択肢を繰り返し述べる記載がいくつかの実装形態において省略されていることは、先行するセクションにおいて教示された合成を限定するものと解釈されるべきではなく、これらの記載は以後の実装形態の各々へと前方に参照によって組み込まれる。
図66は、開示される技術を実装するために使用され得るコンピュータシステムの簡略化されたブロック図である。コンピュータシステムは通常、バスサブシステムを介していくつかの周辺デバイスと通信する少なくとも1つのプロセッサを含む。これらの周辺デバイスは、たとえば、メモリデバイスおよびファイルストレージサブシステム、ユーザインターフェース入力デバイス、ユーザインターフェース出力デバイス、ならびにネットワークインターフェースサブシステムを含む、ストレージサブシステムを含み得る。入力デバイスおよび出力デバイスはコンピュータシステムとのユーザの対話を可能にする。ネットワークインターフェースサブシステムは、他のコンピュータシステムにおける対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
Claims (14)
- メモリに結合される多数のプロセッサを含むシステムであって、前記メモリが、深層畳み込みニューラルネットワークベースのバリアント病原性スコアラを実装するためのコンピュータ命令をロードされ、前記システムが
霊長類位置特定的頻度行列(PFMと省略される)および哺乳類PFMを生成するために、霊長類および哺乳類の配列グループに適用されるPFM生成器と、
標的バリアントアミノ酸の上流および下流の側に各方向への少なくとも25個のアミノ酸がある少なくとも51個のアミノ酸のバリアントアミノ酸配列を受け入れる入力プロセッサであって、一塩基バリアントが前記標的バリアントアミノ酸を作り出す、入力プロセッサと、
前記バリアントアミノ酸配列とアラインメントされる、標的基準アミノ酸の上流および下流の側に各方向への少なくとも25個のアミノ酸がある少なくとも51個のアミノ酸の基準アミノ酸配列を割り振り、
前記基準アミノ酸配列とアラインメントされる、前記PFM生成器によって作り出される霊長類PFMおよび哺乳類PFMを割り振る、
補足データ割振器と、
少なくとも51個のアミノ酸のバリアントアミノ酸配列、少なくとも51個のアミノ酸の基準アミノ酸配列、ならびに霊長類PFMおよび哺乳類PFMを少なくとも含む入力について、前記バリアントアミノ酸配列に対する病原性スコアを生成するために訓練され、
前記バリアントアミノ酸配列の前記51個のアミノ酸、前記割り振られた基準アミノ酸配列の前記51個のアミノ酸、および前記割り振られたPFMを少なくとも評価したことに基づいて、前記入力プロセッサによって受け入れられた前記バリアントアミノ酸配列の病原性を良性または病原性としてスコアリングする、
深層畳み込みニューラルネットワークと、
前記深層畳み込みニューラルネットワークによって生成される前記バリアントアミノ酸配列に対する前記病原性スコアを少なくとも報告する出力プロセッサと
を備える、システム。 - 前記病原性スコアに基づいて良性または病原性として前記一塩基バリアントを分類するようにさらに構成される、請求項1に記載のシステム。
- 前記深層畳み込みニューラルネットワークが、
前記バリアントアミノ酸配列、
前記割り振られた基準アミノ酸配列、
前記割り振られた霊長類PFM、および
前記割り振られた哺乳類PFM
を並列に受け入れて処理する、請求項1または2に記載のシステム。 - 霊長類および哺乳類にわたって基準アミノ酸配列において保存されている標的基準アミノ酸から標的バリアントアミノ酸を作り出す、一塩基バリアントを病原性として分類するように訓練するようにさらに構成される、請求項1から3のいずれか一項に記載のシステム。
- 保存率が、前記標的基準アミノ酸の機能的な有意性を表し、前記PFMから決定される、請求項4に記載のシステム。
- タンパク質配列内のアミノ酸位置における3状態二次構造を予測するように訓練される第1の二次構造サブネットワークであって、3つの構造状態が、ヘリックス、シート、およびコイルである二次構造を区別する、第1の二次構造サブネットワークと、
タンパク質配列内のアミノ酸位置における3状態溶媒接触性を予測するように訓練される第2の溶媒接触性サブネットワークであって、3つの接触性状態が、露出している、埋もれている、および中間である溶媒接触性を区別する、第2の溶媒接触性サブネットワークと
をさらに備え、
前記補足データ割振器がさらに、
前記基準アミノ酸配列のために前記第1のサブネットワークおよび第2のサブネットワークによって作り出される基準状態分類を割り振り、
前記バリアントアミノ酸配列のために前記第1のサブネットワークおよび第2のサブネットワークによって作り出されるバリアント状態分類を割り振り、
前記深層畳み込みニューラルネットワークが、
前記バリアントアミノ酸配列に対する前記病原性スコアを生成するために、基準状態分類およびバリアント状態分類をさらに含む入力について訓練され、
前記割り振られた基準状態分類およびバリアント状態分類を評価することにさらに基づいて、前記バリアントアミノ酸配列を良性または病原性としてスコアリングする、
請求項1に記載のシステム。 - 前記バリアントアミノ酸配列、前記割り振られた基準アミノ酸配列、前記割り振られた霊長類PFM、前記割り振られた哺乳類PFM、および割り振られた脊椎動物PFMを前処理して前処理された特性評価を生成するために、バッチ正規化層、REL非線形性層、および次元変更層を使用し、
前記前処理された特性評価を合計して、前記合計を、前記割り振られたバリアント二次構造状態分類、前記割り振られた基準二次構造状態分類、前記割り振られたバリアント溶媒接触性状態分類、および前記割り振られた基準溶媒接触性状態分類と連結して連結された入力を作り出し、
次元変更層を通じて前記連結された入力を処理し、前記処理された連結された入力を受け入れて前記深層畳み込みニューラルネットワークの残差ブロックを開始する
ようにさらに構成される、請求項6に記載のシステム。 - 前記深層畳み込みニューラルネットワークが残差ブロックのグループを備える、請求項1から3のいずれか一項に記載のシステム。
- 前記深層畳み込みニューラルネットワークが、前記残差ブロックの数、スキップ接続の数、および非線形活性化を伴わない残差接続の数によってパラメータ化される、請求項7または8に記載のシステム。
- 前記深層畳み込みニューラルネットワークが、先行する入力の空間次元および特徴量次元を形状変更する次元変更層を備える、請求項1から3および8から9のいずれか一項に記載のシステム。
- バリアントアミノ酸配列と基準バリアントアミノ酸配列との間で異なる二次構造を引き起こす、またはバリアントアミノ酸配列と基準バリアントアミノ酸配列との間で異なる溶媒接触性を引き起こす、一塩基バリアントを病原性として分類するように訓練するようにさらに構成される、請求項1から10のいずれか一項に記載のシステム。
- PFMが、他の種のアラインメントされたタンパク質配列にわたるヒトタンパク質配列におけるアミノ酸の保存率を、前記他の種の前記アラインメントされたタンパク質配列にわたる前記ヒトタンパク質配列におけるアミノ酸の発生の頻度を位置ごとに決定することによって表す、請求項1から11のいずれか一項に記載のシステム。
- バリアント病原性スコアリングの深層畳み込みニューラルネットワークベースの方法であって、
霊長類位置特定的頻度行列(PFMと省略される)、哺乳類PFM、および脊椎動物PFMを生成するために、霊長類、哺乳類、および霊長類と哺乳類を除く脊椎動物の3つの配列グループに、多数のプロセッサのうちの少なくとも1つで実行されるPFM生成器を適用するステップと、
標的バリアントアミノ酸の上流および下流の側に各方向への少なくとも25個のアミノ酸がある少なくとも51個のアミノ酸のバリアントアミノ酸配列を受け入れるステップであって、一塩基バリアントが前記標的バリアントアミノ酸を作り出す、ステップと、
前記バリアントアミノ酸配列とアラインメントされる、標的基準アミノ酸の上流および下流の側に各方向への少なくとも25個のアミノ酸がある少なくとも51個のアミノ酸の基準アミノ酸配列を割り振るステップと、
前記基準アミノ酸配列とアラインメントされる、霊長類PFM、哺乳類PFM、および脊椎動物PFMを割り振るステップと、
少なくとも51個のアミノ酸のバリアントアミノ酸配列、少なくとも51個のアミノ酸の基準アミノ酸配列、ならびに霊長類PFMおよび哺乳類PFMを少なくとも含む入力について、前記バリアントアミノ酸配列に対する病原性スコアを生成するために訓練されて、
前記バリアントアミノ酸配列の前記51個のアミノ酸、前記割り振られた基準アミノ酸配列の前記51個のアミノ酸、および前記割り振られたPFMを少なくとも評価したことに基づいて、入力プロセッサによって受け入れられた前記バリアントアミノ酸配列を良性または病原性としてスコアリングし、かつ、
前記バリアントアミノ酸配列に対する前記病原性スコアを少なくとも報告する、
深層畳み込みニューラルネットワークを適用するステップと
を含む、方法。 - プロセッサで実行されると、方法を実施するバリアント病原性スコアリングのためのコンピュータプログラム命令が焼かれた非一時的コンピュータ可読媒体であって、前記方法が、
霊長類位置特定的頻度行列(PFMと省略される)、哺乳類PFM、および脊椎動物PFMを生成するために、霊長類、哺乳類、および霊長類と哺乳類を除く脊椎動物の3つの配列グループに、多数のプロセッサのうちの少なくとも1つで実行されるPFM生成器を適用するステップと、
標的バリアントアミノ酸の上流および下流の側に各方向への少なくとも25個のアミノ酸がある少なくとも51個のアミノ酸のバリアントアミノ酸配列を受け入れるステップであって、一塩基バリアントが前記標的バリアントアミノ酸を作り出す、ステップと、
前記バリアントアミノ酸配列とアラインメントされる、標的基準アミノ酸の上流および下流の側に各方向への少なくとも25個のアミノ酸がある少なくとも51個のアミノ酸の基準アミノ酸配列を割り振るステップと、
前記基準アミノ酸配列とアラインメントされる、霊長類PFM、哺乳類PFM、および脊椎動物PFMを割り振るステップと、
少なくとも51個のアミノ酸のバリアントアミノ酸配列、少なくとも51個のアミノ酸の基準アミノ酸配列、ならびに霊長類PFMおよび哺乳類PFMを少なくとも含む入力について、前記バリアントアミノ酸配列に対する病原性スコアを生成するために訓練されて、
前記バリアントアミノ酸配列の前記51個のアミノ酸、前記割り振られた基準アミノ酸配列の前記51個のアミノ酸、および前記割り振られたPFMを少なくとも評価したことに基づいて、入力プロセッサによって受け入れられた前記バリアントアミノ酸配列を良性または病原性としてスコアリングし、かつ、
前記バリアントアミノ酸配列に対する前記病原性スコアを少なくとも報告する、
深層畳み込みニューラルネットワークを適用するステップと
を含む、非一時的コンピュータ可読記憶媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021168034A JP7275228B2 (ja) | 2017-10-16 | 2021-10-13 | バリアントの分類のための深層畳み込みニューラルネットワーク |
Applications Claiming Priority (9)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201762573149P | 2017-10-16 | 2017-10-16 | |
| US201762573153P | 2017-10-16 | 2017-10-16 | |
| US201762573144P | 2017-10-16 | 2017-10-16 | |
| US62/573,144 | 2017-10-16 | ||
| US62/573,153 | 2017-10-16 | ||
| US62/573,149 | 2017-10-16 | ||
| US201762582898P | 2017-11-07 | 2017-11-07 | |
| US62/582,898 | 2017-11-07 | ||
| PCT/US2018/055878 WO2019079180A1 (en) | 2017-10-16 | 2018-10-15 | NEURONAL NETWORKS WITH DEEP CONVOLUTION OF VARIANT CLASSIFICATION |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021168034A Division JP7275228B2 (ja) | 2017-10-16 | 2021-10-13 | バリアントの分類のための深層畳み込みニューラルネットワーク |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020530918A JP2020530918A (ja) | 2020-10-29 |
| JP6961726B2 true JP6961726B2 (ja) | 2021-11-05 |
Family
ID=64051830
Family Applications (7)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019567721A Active JP6961726B2 (ja) | 2017-10-16 | 2018-10-15 | バリアントの分類のための深層畳み込みニューラルネットワーク |
| JP2019567720A Active JP6961725B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
| JP2019567719A Active JP6834029B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 |
| JP2021015693A Active JP7089078B2 (ja) | 2017-10-16 | 2021-02-03 | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 |
| JP2021167361A Active JP7350818B2 (ja) | 2017-10-16 | 2021-10-12 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
| JP2021168034A Active JP7275228B2 (ja) | 2017-10-16 | 2021-10-13 | バリアントの分類のための深層畳み込みニューラルネットワーク |
| JP2023148337A Active JP7646769B2 (ja) | 2017-10-16 | 2023-09-13 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
Family Applications After (6)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019567720A Active JP6961725B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
| JP2019567719A Active JP6834029B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 |
| JP2021015693A Active JP7089078B2 (ja) | 2017-10-16 | 2021-02-03 | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 |
| JP2021167361A Active JP7350818B2 (ja) | 2017-10-16 | 2021-10-12 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
| JP2021168034A Active JP7275228B2 (ja) | 2017-10-16 | 2021-10-13 | バリアントの分類のための深層畳み込みニューラルネットワーク |
| JP2023148337A Active JP7646769B2 (ja) | 2017-10-16 | 2023-09-13 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
Country Status (14)
| Country | Link |
|---|---|
| US (6) | US11798650B2 (ja) |
| EP (6) | EP3622521A1 (ja) |
| JP (7) | JP6961726B2 (ja) |
| KR (7) | KR102748353B1 (ja) |
| CN (4) | CN113627458B (ja) |
| AU (6) | AU2018352203B2 (ja) |
| BR (1) | BR112019027480B1 (ja) |
| CA (1) | CA3066775A1 (ja) |
| IL (4) | IL271119B2 (ja) |
| MX (1) | MX2019014690A (ja) |
| MY (1) | MY182749A (ja) |
| NZ (3) | NZ759804A (ja) |
| SG (3) | SG10202108020VA (ja) |
| WO (3) | WO2019079180A1 (ja) |
Families Citing this family (367)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10521902B2 (en) * | 2015-10-14 | 2019-12-31 | The Regents Of The University Of California | Automated segmentation of organ chambers using deep learning methods from medical imaging |
| US10455363B2 (en) * | 2015-11-04 | 2019-10-22 | xAd, Inc. | Systems and methods for using geo-blocks and geo-fences to discover lookalike mobile devices |
| US10547971B2 (en) | 2015-11-04 | 2020-01-28 | xAd, Inc. | Systems and methods for creating and using geo-blocks for location-based information service |
| WO2017178892A2 (en) | 2016-04-14 | 2017-10-19 | M.G. Therapeutics Ltd. | Selenium disulfide compositions for use in treating meibomian gland dysfunction |
| US12072951B2 (en) * | 2017-03-02 | 2024-08-27 | Sony Corporation | Apparatus and method for training neural networks using weight tying |
| WO2018216207A1 (ja) * | 2017-05-26 | 2018-11-29 | 楽天株式会社 | 画像処理装置、画像処理方法、および画像処理プログラム |
| US10699453B2 (en) | 2017-08-17 | 2020-06-30 | Adobe Inc. | Digital media environment for style-aware patching in a digital image |
| JP6961726B2 (ja) | 2017-10-16 | 2021-11-05 | イルミナ インコーポレイテッド | バリアントの分類のための深層畳み込みニューラルネットワーク |
| SG11201912781TA (en) | 2017-10-16 | 2020-01-30 | Illumina Inc | Aberrant splicing detection using convolutional neural networks (cnns) |
| US10614557B2 (en) | 2017-10-16 | 2020-04-07 | Adobe Inc. | Digital image completion using deep learning |
| US10672164B2 (en) | 2017-10-16 | 2020-06-02 | Adobe Inc. | Predicting patch displacement maps using a neural network |
| US11861491B2 (en) | 2017-10-16 | 2024-01-02 | Illumina, Inc. | Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs) |
| US10824907B2 (en) | 2017-12-07 | 2020-11-03 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for image processing |
| US11475305B2 (en) * | 2017-12-08 | 2022-10-18 | Advanced Micro Devices, Inc. | Activation function functional block for electronic devices |
| JP6854248B2 (ja) * | 2018-01-18 | 2021-04-07 | 株式会社日立製作所 | 境界探索テスト支援装置および境界探索テスト支援方法 |
| JP7085158B2 (ja) * | 2018-04-26 | 2022-06-16 | 日本電信電話株式会社 | ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム |
| US10755391B2 (en) | 2018-05-15 | 2020-08-25 | Adobe Inc. | Digital image completion by learning generation and patch matching jointly |
| US12099912B2 (en) | 2018-06-22 | 2024-09-24 | Samsung Electronics Co., Ltd. | Neural processor |
| JP6970827B2 (ja) * | 2018-06-25 | 2021-11-24 | オリンパス株式会社 | 演算処理装置 |
| US20210027147A1 (en) * | 2018-07-05 | 2021-01-28 | D5Ai Llc | Forward propagation of secondary objective for deep learning |
| US11172324B2 (en) | 2018-08-17 | 2021-11-09 | xAd, Inc. | Systems and methods for predicting targeted location events |
| US11134359B2 (en) | 2018-08-17 | 2021-09-28 | xAd, Inc. | Systems and methods for calibrated location prediction |
| US10349208B1 (en) | 2018-08-17 | 2019-07-09 | xAd, Inc. | Systems and methods for real-time prediction of mobile device locations |
| US11146911B2 (en) | 2018-08-17 | 2021-10-12 | xAd, Inc. | Systems and methods for pacing information campaigns based on predicted and observed location events |
| US11025907B2 (en) * | 2019-02-28 | 2021-06-01 | Google Llc | Receptive-field-conforming convolution models for video coding |
| CN112912902A (zh) * | 2018-10-23 | 2021-06-04 | Hrl实验室有限责任公司 | 人工神经网络和利用表观遗传神经发生训练人工神经网络的方法 |
| US11531902B2 (en) | 2018-11-13 | 2022-12-20 | International Business Machines Corporation | Generating and managing deep tensor neural networks |
| US11170263B2 (en) * | 2018-11-15 | 2021-11-09 | Nvidia Corporation | Distributed batch normalization using estimates and rollback |
| US10657447B1 (en) | 2018-11-29 | 2020-05-19 | SparkCognition, Inc. | Automated model building search space reduction |
| TWI829807B (zh) * | 2018-11-30 | 2024-01-21 | 日商東京威力科創股份有限公司 | 製造製程之假想測定裝置、假想測定方法及假想測定程式 |
| US12045725B1 (en) * | 2018-12-05 | 2024-07-23 | Perceive Corporation | Batch normalization for replicated layers of neural network |
| US12136039B1 (en) | 2018-12-05 | 2024-11-05 | Perceive Corporation | Optimizing global sparsity for neural network |
| US11005995B2 (en) * | 2018-12-13 | 2021-05-11 | Nice Ltd. | System and method for performing agent behavioral analytics |
| US11515995B2 (en) * | 2018-12-13 | 2022-11-29 | Cryptography Research, Inc. | Efficient computation of univariate statistical moments for side channel vulnerability evaluation |
| US10387754B1 (en) * | 2019-01-23 | 2019-08-20 | StradVision, Inc. | Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same |
| US11461653B2 (en) | 2019-01-23 | 2022-10-04 | StradVision, Inc. | Learning method and learning device for CNN using 1xK or Kx1 convolution to be used for hardware optimization, and testing method and testing device using the same |
| US10402695B1 (en) * | 2019-01-23 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same |
| US20200242736A1 (en) * | 2019-01-29 | 2020-07-30 | Nvidia Corporation | Method for few-shot unsupervised image-to-image translation |
| WO2020165935A1 (ja) * | 2019-02-12 | 2020-08-20 | 日本電気株式会社 | モデル構築装置、モデル構築方法、コンピュータプログラム及び記録媒体 |
| US11651192B2 (en) * | 2019-02-12 | 2023-05-16 | Apple Inc. | Compressed convolutional neural network models |
| US20200265270A1 (en) * | 2019-02-20 | 2020-08-20 | Caseware International Inc. | Mutual neighbors |
| US11354719B2 (en) | 2019-02-27 | 2022-06-07 | Walmart Apollo, Llc | Systems and methods for determining substitutions |
| US11443832B2 (en) * | 2019-03-07 | 2022-09-13 | Nvidia Corporation | Genetic mutation detection using deep learning |
| NL2023311B9 (en) * | 2019-03-21 | 2021-03-12 | Illumina Inc | Artificial intelligence-based generation of sequencing metadata |
| NL2023310B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Training data generation for artificial intelligence-based sequencing |
| US11676685B2 (en) | 2019-03-21 | 2023-06-13 | Illumina, Inc. | Artificial intelligence-based quality scoring |
| WO2020191387A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Artificial intelligence-based base calling |
| NL2023312B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based base calling |
| US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
| WO2020210544A1 (en) * | 2019-04-09 | 2020-10-15 | University Of Washington | Systems and methods for providing similarity based retrieval of information stored in dna |
| CN110019151B (zh) * | 2019-04-11 | 2024-03-15 | 深圳市腾讯计算机系统有限公司 | 数据库性能调整方法、装置、设备、系统及存储介质 |
| US11671111B2 (en) | 2019-04-17 | 2023-06-06 | Samsung Electronics Co., Ltd. | Hardware channel-parallel data compression/decompression |
| US11211944B2 (en) | 2019-04-17 | 2021-12-28 | Samsung Electronics Co., Ltd. | Mixed-precision compression with random access |
| CN114026253B (zh) | 2019-04-22 | 2025-08-12 | 奥比特基因组学公司 | 用于微卫星分析的方法和系统 |
| US20200342958A1 (en) * | 2019-04-23 | 2020-10-29 | Cedars-Sinai Medical Center | Methods and systems for assessing inflammatory disease with deep learning |
| US11900238B1 (en) * | 2019-04-25 | 2024-02-13 | Perceive Corporation | Removing nodes from machine-trained network based on introduction of probabilistic noise during training |
| US11610154B1 (en) | 2019-04-25 | 2023-03-21 | Perceive Corporation | Preventing overfitting of hyperparameters during training of network |
| US12112254B1 (en) | 2019-04-25 | 2024-10-08 | Perceive Corporation | Optimizing loss function during training of network |
| US11531879B1 (en) | 2019-04-25 | 2022-12-20 | Perceive Corporation | Iterative transfer of machine-trained network inputs from validation set to training set |
| WO2020223434A1 (en) * | 2019-04-30 | 2020-11-05 | The Trustees Of Columbia University In The City Of New York | Classifying neurological disease status using deep learning |
| CN110134567B (zh) * | 2019-04-30 | 2023-03-14 | 西北工业大学 | 基于卷积神经网络的微处理器非均匀采样热分布重构方法 |
| US12182577B2 (en) | 2019-05-01 | 2024-12-31 | Samsung Electronics Co., Ltd. | Neural-processing unit tile for shuffling queued nibbles for multiplication with non-zero weight nibbles |
| US11880760B2 (en) | 2019-05-01 | 2024-01-23 | Samsung Electronics Co., Ltd. | Mixed-precision NPU tile with depth-wise convolution |
| US11604993B1 (en) * | 2019-05-03 | 2023-03-14 | Zoox, Inc. | Machine-learning model structural pruning |
| US11003955B1 (en) * | 2019-05-03 | 2021-05-11 | Zoox, Inc. | Machine-learning model structural merging |
| CN110097130B (zh) * | 2019-05-07 | 2022-12-13 | 深圳市腾讯计算机系统有限公司 | 分类任务模型的训练方法、装置、设备及存储介质 |
| US12387817B2 (en) * | 2019-05-13 | 2025-08-12 | Nvidia Corporation | Sequence variation detection using deep learning |
| US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
| US11423306B2 (en) | 2019-05-16 | 2022-08-23 | Illumina, Inc. | Systems and devices for characterization and performance analysis of pixel-based sequencing |
| CN110119815B (zh) * | 2019-05-21 | 2021-08-13 | 深圳市腾讯网域计算机网络有限公司 | 模型训练方法、装置、存储介质及设备 |
| US11922294B2 (en) * | 2019-05-22 | 2024-03-05 | Servicenow Canada Inc. | Neural network execution block using fully connected layers |
| ES2990062T3 (es) * | 2019-05-22 | 2024-11-28 | Grail Inc | Sistemas y métodos para determinar si un sujeto tiene una condición de cáncer utilizando aprendizaje por transferencia |
| US10956597B2 (en) | 2019-05-23 | 2021-03-23 | Advanced New Technologies Co., Ltd. | Loss function value determination method and device and electronic equipment |
| CN110263294B (zh) * | 2019-05-23 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 损失函数取值的确定方法、装置和电子设备 |
| US11521074B2 (en) * | 2019-05-31 | 2022-12-06 | Carnegie Mellon University | Flexible, lightweight quantized deep neural networks |
| CN110288081A (zh) * | 2019-06-03 | 2019-09-27 | 北京信息科技大学 | 一种基于fw机制及lstm的递归网络模型及学习方法 |
| EP3748550A1 (en) * | 2019-06-07 | 2020-12-09 | Siemens Healthcare GmbH | Method for learning from data with label noise |
| CN110148150B (zh) * | 2019-06-20 | 2021-07-02 | 深圳大学 | 稠密连接非对称层次网络训练方法及心脏运动场估计方法 |
| EP3757895B1 (en) * | 2019-06-28 | 2024-09-04 | Robert Bosch GmbH | Method for estimating a global uncertainty of a neural network |
| CN110288033B (zh) * | 2019-06-28 | 2023-04-07 | 广西民族大学 | 一种基于卷积神经网络的甘蔗蔗节特征识别与定位方法 |
| US11151412B2 (en) * | 2019-07-01 | 2021-10-19 | Everseen Limited | Systems and methods for determining actions performed by objects within images |
| CN110414670B (zh) * | 2019-07-03 | 2021-09-28 | 南京信息工程大学 | 一种基于全卷积神经网络的图像拼接篡改定位方法 |
| KR102132375B1 (ko) | 2019-07-05 | 2020-07-09 | 한국과학기술원 | 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법 |
| US11862146B2 (en) * | 2019-07-05 | 2024-01-02 | Asapp, Inc. | Multistream acoustic models with dilations |
| CN110516703A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 基于人工智能的车辆识别方法、装置及存储介质 |
| CN110322009B (zh) * | 2019-07-19 | 2023-04-07 | 南京梅花软件系统股份有限公司 | 基于多层卷积长短时记忆神经网络的图像预测方法 |
| WO2021022165A1 (en) * | 2019-07-31 | 2021-02-04 | Montefiore Medical Center | Identifying neutrophil extracellular traps in biological samples |
| CN110472542A (zh) * | 2019-08-05 | 2019-11-19 | 深圳北斗通信科技有限公司 | 一种基于深度学习的红外图像行人检测方法及检测系统 |
| US11410000B2 (en) * | 2019-08-08 | 2022-08-09 | Beijing Boe Health Technology Co., Ltd. | Computer-implemented method, computer-implemented diagnosis method, apparatus for classifying image, and computer-program product |
| US11868871B1 (en) | 2019-08-16 | 2024-01-09 | Perceive Corporation | Circuit for executing stateful neural network |
| CN110543849B (zh) * | 2019-08-30 | 2022-10-04 | 北京市商汤科技开发有限公司 | 检测器的配置方法及装置、电子设备和存储介质 |
| CN110534160B (zh) * | 2019-09-02 | 2022-09-30 | 河南师范大学 | 一种卷积神经网络预测蛋白质溶解性的方法 |
| WO2021046477A1 (en) * | 2019-09-04 | 2021-03-11 | The Brigham And Women's Hospital, Inc. | Systems and methods for assessing outcomes of the combination of predictive or descriptive data models |
| CN112446476B (zh) * | 2019-09-04 | 2025-04-15 | 华为技术有限公司 | 神经网络模型压缩的方法、装置、存储介质和芯片 |
| US20210070334A1 (en) * | 2019-09-05 | 2021-03-11 | Progress Rail Services Corporation | Machine learning based train control |
| CN110674926A (zh) * | 2019-09-06 | 2020-01-10 | 华南理工大学 | 一种用于目标重建的嵌套结构的渐进式稠密网络 |
| CN110766192B (zh) * | 2019-09-10 | 2022-09-09 | 中国石油大学(北京) | 基于深度学习的钻井井漏预测系统及方法 |
| CN111626267B (zh) * | 2019-09-17 | 2022-02-15 | 山东科技大学 | 一种利用空洞卷积的高光谱遥感图像分类方法 |
| CN112614483B (zh) * | 2019-09-18 | 2024-07-16 | 珠海格力电器股份有限公司 | 基于残差卷积网络的建模方法、语音识别方法及电子设备 |
| CN110717023B (zh) * | 2019-09-18 | 2023-11-07 | 平安科技(深圳)有限公司 | 面试回答文本的分类方法及装置、电子设备、存储介质 |
| CN110659725B (zh) * | 2019-09-20 | 2023-03-31 | 字节跳动有限公司 | 神经网络模型的压缩与加速方法、数据处理方法及装置 |
| US11640552B2 (en) * | 2019-10-01 | 2023-05-02 | International Business Machines Corporation | Two stage training to obtain a best deep learning model with efficient use of computing resources |
| JP7352904B2 (ja) * | 2019-10-08 | 2023-09-29 | 国立大学法人 東京大学 | 分析装置、分析方法及びプログラム |
| US11995036B2 (en) * | 2019-10-11 | 2024-05-28 | Ikigai Labs Inc. | Automated customized modeling of datasets with intuitive user interfaces |
| US11144790B2 (en) * | 2019-10-11 | 2021-10-12 | Baidu Usa Llc | Deep learning model embodiments and training embodiments for faster training |
| US11769180B2 (en) | 2019-10-15 | 2023-09-26 | Orchard Technologies, Inc. | Machine learning systems and methods for determining home value |
| US11176320B2 (en) | 2019-10-22 | 2021-11-16 | International Business Machines Corporation | Ascribing ground truth performance to annotation blocks |
| US12165055B1 (en) | 2019-11-11 | 2024-12-10 | Amazon Technologies, Inc. | Storing of intermediate computed values for subsequent use in a machine trained network |
| CN110929780B (zh) * | 2019-11-19 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 视频分类模型构建、视频分类的方法、装置、设备及介质 |
| CN110928848A (zh) * | 2019-11-21 | 2020-03-27 | 中国科学院深圳先进技术研究院 | 一种文件碎片分类方法及系统 |
| CN112991073B (zh) * | 2019-12-02 | 2025-01-07 | 泰康保险集团股份有限公司 | 一种核保结果数据的展示系统 |
| US12112141B2 (en) | 2019-12-12 | 2024-10-08 | Samsung Electronics Co., Ltd. | Accelerating 2D convolutional layer mapping on a dot product architecture |
| US12026219B2 (en) | 2019-12-13 | 2024-07-02 | TripleBlind, Inc. | Systems and methods for efficient computations on split data and split algorithms |
| US12088565B2 (en) | 2019-12-13 | 2024-09-10 | Triplelind Holdings, Inc. | Systems and methods for privacy preserving training and inference of decentralized recommendation systems from decentralized data |
| US12388799B1 (en) | 2019-12-13 | 2025-08-12 | Selfiie Corporation | Systems and methods for providing a split inference approach to protect data and model |
| US11431688B2 (en) | 2019-12-13 | 2022-08-30 | TripleBlind, Inc. | Systems and methods for providing a modified loss function in federated-split learning |
| US12149510B1 (en) | 2019-12-13 | 2024-11-19 | Tripleblind Holdings, Inc. | Systems and methods for providing a private multi-modal artificial intelligence platform |
| US11599671B1 (en) | 2019-12-13 | 2023-03-07 | TripleBlind, Inc. | Systems and methods for finding a value in a combined list of private values |
| CN110929697B (zh) * | 2019-12-17 | 2021-04-13 | 中国人民解放军海军航空大学 | 一种基于残差结构的神经网络目标识别方法及系统 |
| CN111144269B (zh) * | 2019-12-23 | 2023-11-24 | 威海北洋电气集团股份有限公司 | 一种基于深度学习的信号相关行为识别方法及系统 |
| CN111130698B (zh) * | 2019-12-26 | 2022-05-31 | 南京中感微电子有限公司 | 无线通信接收窗口预测方法、装置及无线通信设备 |
| US10699715B1 (en) * | 2019-12-27 | 2020-06-30 | Alphonso Inc. | Text independent speaker-verification on a media operating system using deep learning on raw waveforms |
| KR102113546B1 (ko) * | 2019-12-30 | 2020-06-02 | 한국과학기술정보연구원 | 분석알고리즘개발장치 및 그 동작 방법 |
| TWI702536B (zh) | 2019-12-31 | 2020-08-21 | 財團法人工業技術研究院 | 基於適應標註的物件偵測模型的訓練方法及系統 |
| CN111209962B (zh) * | 2020-01-06 | 2023-02-03 | 电子科技大学 | 一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法 |
| US11887298B2 (en) * | 2020-01-07 | 2024-01-30 | Rensselaer Polytechnic Institute | Fluorescence lifetime imaging using deep learning |
| US11887698B2 (en) * | 2020-01-08 | 2024-01-30 | Samsung Electronics Co., Ltd. | Method and electronic device for building comprehensive genome scale metabolic model |
| CN111275571B (zh) * | 2020-01-14 | 2020-12-11 | 河海大学 | 考虑微气象与用户模式的居民负荷概率预测深度学习方法 |
| CN111274901B (zh) * | 2020-01-15 | 2023-09-01 | 浙江大学 | 一种基于深度门控递归单元的手势深度图像连续检测方法 |
| CN111274815B (zh) * | 2020-01-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
| US11615184B2 (en) * | 2020-01-31 | 2023-03-28 | Palo Alto Networks, Inc. | Building multi-representational learning models for static analysis of source code |
| US11550911B2 (en) | 2020-01-31 | 2023-01-10 | Palo Alto Networks, Inc. | Multi-representational learning models for static analysis of source code |
| US20210248462A1 (en) * | 2020-02-07 | 2021-08-12 | Nec Laboratories America, Inc. | Interpreting convolutional sequence model by learning local and resolution-controllable prototypes |
| CA3167609A1 (en) * | 2020-02-13 | 2021-08-19 | Quest Diagnostics Investments Llc | Extraction of relevant signals from sparse data sets |
| GB2592076B (en) * | 2020-02-17 | 2022-09-07 | Huawei Tech Co Ltd | Method of training an image classification model |
| US20210265016A1 (en) | 2020-02-20 | 2021-08-26 | Illumina, Inc. | Data Compression for Artificial Intelligence-Based Base Calling |
| US12354008B2 (en) * | 2020-02-20 | 2025-07-08 | Illumina, Inc. | Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller |
| CN115136244B (zh) | 2020-02-20 | 2025-09-30 | 因美纳有限公司 | 基于人工智能的多对多碱基判读 |
| CN111276183B (zh) * | 2020-02-25 | 2023-03-21 | 云南大学 | 一种基于参数估计的张量分解处理海量基因序列的方法 |
| CN111339923A (zh) * | 2020-02-25 | 2020-06-26 | 盛视科技股份有限公司 | 一种车底检查方法和系统 |
| US11803779B2 (en) | 2020-02-25 | 2023-10-31 | International Business Machines Corporation | Constructing an ensemble model from randomly selected base learners |
| CN111312329B (zh) * | 2020-02-25 | 2023-03-24 | 成都信息工程大学 | 基于深度卷积自动编码器的转录因子结合位点预测的方法 |
| JP7445171B2 (ja) * | 2020-03-02 | 2024-03-07 | 日本電信電話株式会社 | 学習方法、学習システム、デバイス、学習装置、およびプログラム |
| CN111814983B (zh) * | 2020-03-04 | 2023-05-30 | 中昊芯英(杭州)科技有限公司 | 数据处理方法、装置、芯片以及计算机可读存储介质 |
| CN111368923B (zh) * | 2020-03-05 | 2023-12-19 | 上海商汤智能科技有限公司 | 神经网络训练方法及装置、电子设备和存储介质 |
| CN111370055B (zh) * | 2020-03-05 | 2023-05-23 | 中南大学 | 内含子保留预测模型建立方法及其预测方法 |
| CN111415333B (zh) * | 2020-03-05 | 2023-12-01 | 北京深睿博联科技有限责任公司 | 乳腺x射线影像反对称生成分析模型训练方法和装置 |
| US11443168B2 (en) | 2020-03-13 | 2022-09-13 | EMC IP Holding Company LLC | Log analysis system employing long short-term memory recurrent neural net works |
| CN111443165B (zh) * | 2020-03-27 | 2021-06-11 | 华中科技大学 | 一种基于气体传感器与深度学习的气味识别方法 |
| WO2021202424A1 (en) * | 2020-03-30 | 2021-10-07 | Grail, Inc. | Cancer classification with synthetic spiked-in training samples |
| TWI723823B (zh) * | 2020-03-30 | 2021-04-01 | 聚晶半導體股份有限公司 | 基於神經網路的物件偵測裝置和物件偵測方法 |
| CN111613287B (zh) * | 2020-03-31 | 2023-08-04 | 武汉金域医学检验所有限公司 | 基于Glow网络的报告单编码模型生成方法、系统和设备 |
| TWI750622B (zh) * | 2020-03-31 | 2021-12-21 | 群光電子股份有限公司 | 深度學習模型訓練系統、深度學習模型訓練方法及非暫態電腦可讀取儲存媒體 |
| US12217156B2 (en) * | 2020-04-01 | 2025-02-04 | Sony Group Corporation | Computing temporal convolution networks in real time |
| CN111368941B (zh) * | 2020-04-10 | 2023-09-01 | 浙江大华技术股份有限公司 | 一种图像处理方法、装置以及计算机存储介质 |
| US11468276B2 (en) * | 2020-04-16 | 2022-10-11 | Robert Bosch Gmbh | System and method of a monotone operator neural network |
| KR102472397B1 (ko) * | 2020-04-17 | 2022-11-29 | 인천대학교 산학협력단 | 합성곱 신경망 모델에 포함된 합성곱 필터의 개수 조정을 통해 합성곱 연산의 효율을 향상시키기 위한 컴퓨팅 장치 및 그 동작 방법 |
| CN111507990B (zh) * | 2020-04-20 | 2022-02-11 | 南京航空航天大学 | 一种基于深度学习的隧道表面缺陷分割方法 |
| CN111541570B (zh) * | 2020-04-22 | 2021-05-07 | 北京交通大学 | 基于多源特征学习的云服务QoS预测方法 |
| CN111613204B (zh) * | 2020-04-29 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种快速响应的神经语音合成系统及其方法 |
| CN113590275B (zh) * | 2020-04-30 | 2024-07-19 | 伊姆西Ip控股有限责任公司 | 用于处理数据的方法、电子设备和计算机程序产品 |
| CN111755080B (zh) * | 2020-05-06 | 2023-07-28 | 北京化工大学 | 一种基于深度卷积神经网络预测mof对甲烷气体吸附性能的方法 |
| CN111260040B (zh) * | 2020-05-06 | 2020-11-06 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
| US11475304B2 (en) | 2020-05-12 | 2022-10-18 | International Business Machines Corporation | Variational gradient flow |
| US12505595B2 (en) | 2020-05-15 | 2025-12-23 | Nvidia Corporation | Content-aware style encoding using neural networks |
| US11842256B2 (en) | 2020-05-15 | 2023-12-12 | International Business Machines Corporation Armonk | Ensemble training in a distributed marketplace |
| CN111612242A (zh) * | 2020-05-15 | 2020-09-01 | 北京天工智造科技有限公司 | 一种基于lstm深度学习模型的电机状态参数预测方法 |
| CN111640468B (zh) * | 2020-05-18 | 2021-08-24 | 天士力国际基因网络药物创新中心有限公司 | 一种基于复杂网络筛选疾病相关蛋白的方法 |
| CN111578970B (zh) * | 2020-05-21 | 2022-05-03 | 哈尔滨理工大学 | 基于核酸序列比对思想的多对极磁电编码器角度精分方法及装置 |
| CN111640425B (zh) * | 2020-05-22 | 2023-08-15 | 北京百度网讯科技有限公司 | 一种模型训练和意图识别方法、装置、设备及存储介质 |
| CN111667880A (zh) * | 2020-05-27 | 2020-09-15 | 浙江工业大学 | 一种基于深度残差神经网络的蛋白质残基接触图预测方法 |
| US12050997B2 (en) | 2020-05-27 | 2024-07-30 | International Business Machines Corporation | Row-by-row convolutional neural network mapping for analog artificial intelligence network training |
| GB202008030D0 (en) * | 2020-05-28 | 2020-07-15 | Samsung Electronics Co Ltd | Learning the prediction distribution for semi-supervised learning with normalising flows |
| CN111583655B (zh) * | 2020-05-29 | 2021-12-24 | 苏州大学 | 一种车流量检测方法、装置、设备及介质 |
| US11379972B2 (en) * | 2020-06-03 | 2022-07-05 | Applied Materials Israel Ltd. | Detecting defects in semiconductor specimens using weak labeling |
| US12321825B2 (en) | 2020-06-05 | 2025-06-03 | Nvidia Corporation | Training neural networks with limited data using invertible augmentation operators |
| CN113762461B (zh) * | 2020-06-05 | 2024-09-06 | 辉达公司 | 使用可逆增强算子采用有限数据训练神经网络 |
| CN111683145B (zh) * | 2020-06-08 | 2023-04-28 | 中国工商银行股份有限公司 | 客户端设备的配置方法、客户端设备、电子设备和介质 |
| CN111814309B (zh) * | 2020-06-09 | 2022-09-13 | 重庆大学 | 一种非饱和土边坡稳定鲁棒性可靠度分析方法 |
| US20220036970A1 (en) * | 2020-06-12 | 2022-02-03 | Regeneron Pharmaceuticals, Inc. | Methods and systems for determination of gene similarity |
| KR102891572B1 (ko) * | 2020-06-18 | 2025-11-26 | 삼성전자주식회사 | 텐서 처리 방법, 가속기 및 이를 포함한 전자 장치 |
| CN111723997B (zh) * | 2020-06-23 | 2024-10-08 | 上海电科智能系统股份有限公司 | 一种基于gan的城市重大交通事故数据样本自动生成方法 |
| CN111914997B (zh) * | 2020-06-30 | 2024-04-02 | 华为技术有限公司 | 训练神经网络的方法、图像处理方法及装置 |
| CN113762301B (zh) * | 2020-07-01 | 2025-02-21 | 北京沃东天骏信息技术有限公司 | 信息匹配模型的训练、信息匹配方法和装置 |
| KR102460257B1 (ko) * | 2020-07-03 | 2022-10-28 | 주식회사 뷰노 | 진단 결과를 제공하기 위한 방법 및 장치 |
| CN113971422B (zh) * | 2020-07-06 | 2026-02-06 | 华为技术有限公司 | 样本数据标注系统、方法以及相关设备 |
| US11011253B1 (en) * | 2020-07-09 | 2021-05-18 | Brian Hie | Escape profiling for therapeutic and vaccine development |
| CN111967930A (zh) * | 2020-07-10 | 2020-11-20 | 西安工程大学 | 一种基于多网络融合的服装风格识别推荐方法 |
| KR102506794B1 (ko) * | 2020-07-17 | 2023-03-06 | 고려대학교 산학협력단 | 심층 신경망 학습 가속 장치 및 그 동작 방법 |
| CN112085247B (zh) * | 2020-07-22 | 2024-06-21 | 浙江工业大学 | 一种基于深度学习的蛋白质残基接触预测方法 |
| IL299070A (en) * | 2020-07-23 | 2023-02-01 | Illumina Inc | Variant pathogenicity scoring and classification and uses thereof |
| JP2023535285A (ja) * | 2020-07-23 | 2023-08-17 | イルミナ インコーポレイテッド | 変異体病原性スコアリング及び分類、並びにそれらの使用 |
| CN111785329B (zh) * | 2020-07-24 | 2024-05-03 | 中国人民解放军国防科技大学 | 基于对抗自动编码器的单细胞rna测序聚类方法 |
| US11074412B1 (en) * | 2020-07-25 | 2021-07-27 | Sas Institute Inc. | Machine learning classification system |
| US11076824B1 (en) * | 2020-08-07 | 2021-08-03 | Shenzhen Keya Medical Technology Corporation | Method and system for diagnosis of COVID-19 using artificial intelligence |
| CN112001482B (zh) * | 2020-08-14 | 2024-05-24 | 佳都科技集团股份有限公司 | 振动预测及模型训练方法、装置、计算机设备和存储介质 |
| CN111931058B (zh) * | 2020-08-19 | 2024-01-05 | 中国科学院深圳先进技术研究院 | 一种基于自适应网络深度的序列推荐方法和系统 |
| CN111985567B (zh) * | 2020-08-21 | 2022-11-22 | 河北先河环保科技股份有限公司 | 一种基于机器学习的污染源类型自动识别方法 |
| CN112163450A (zh) * | 2020-08-24 | 2021-01-01 | 中国海洋大学 | 基于s3d学习算法的高频地波雷达船只目标检测方法 |
| CN112069399B (zh) * | 2020-08-25 | 2023-06-02 | 中国人民大学 | 一种基于交互匹配的个性化搜索系统 |
| US12249120B2 (en) | 2020-08-26 | 2025-03-11 | Aetherai Ip Holding Llc | Method, system and storage media for training a graphics processing neural network with a patch-based approach |
| KR102462403B1 (ko) * | 2020-09-04 | 2022-11-02 | 인하대학교 산학협력단 | 차량 내 can-bus 센서에 대한 희소 학습 기능을 갖춘 경량 운전자 행동 식별 모델 |
| CN112164420B (zh) * | 2020-09-07 | 2021-07-20 | 厦门艾德生物医药科技股份有限公司 | 一种基因组瘢痕模型的建立方法 |
| TWI828942B (zh) * | 2020-09-23 | 2024-01-11 | 中強光電股份有限公司 | 訓練或應用神經網路模型的電子裝置和方法 |
| CN112115267B (zh) * | 2020-09-28 | 2023-07-07 | 平安科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
| CN112199888B (zh) * | 2020-09-30 | 2021-08-27 | 太原理工大学 | 一种基于深度残差网络的旋转设备故障诊断方法、系统及可读存储介质 |
| US20230359861A1 (en) * | 2020-10-02 | 2023-11-09 | Applied Brain Research Inc. | Methods and systems for parallelizing computations in recurrently connected artificial neural networks |
| US20220114415A1 (en) * | 2020-10-04 | 2022-04-14 | Aizip, Inc. | Artificial neural network architectures for resource-constrained applications |
| US20220115871A1 (en) * | 2020-10-08 | 2022-04-14 | Zhe Yu | Power System Low-Frequency Oscillation Mechanism Identification with CNN and Transfer Learning |
| CN114422380B (zh) * | 2020-10-09 | 2023-06-09 | 维沃移动通信有限公司 | 神经网络信息传输方法、装置、通信设备和存储介质 |
| CN112215487B (zh) * | 2020-10-10 | 2023-05-23 | 吉林大学 | 一种基于神经网络模型的车辆行驶风险预测方法 |
| CN111931123B (zh) * | 2020-10-14 | 2020-12-25 | 南京风兴科技有限公司 | 边界卷积计算方法、装置、硬件加速器及计算机设备 |
| WO2022087746A1 (en) * | 2020-10-30 | 2022-05-05 | Element Ai Inc. | Adapting ai models from one domain to another |
| US12014281B2 (en) | 2020-11-19 | 2024-06-18 | Merative Us L.P. | Automatic processing of electronic files to identify genetic variants |
| WO2022109330A1 (en) * | 2020-11-19 | 2022-05-27 | Mission Bio, Inc. | Cellular clustering analysis in sequencing datasets |
| US20240020829A1 (en) * | 2020-11-19 | 2024-01-18 | Digestaid - Artificial Intelligence Development, Lda | Automatic detection of erosions and ulcers in crohn's capsule endoscopy |
| US11809454B2 (en) * | 2020-11-21 | 2023-11-07 | International Business Machines Corporation | Label-based document classification using artificial intelligence |
| CN112800756B (zh) * | 2020-11-25 | 2022-05-10 | 重庆邮电大学 | 一种基于prado的实体识别方法 |
| CN112529054B (zh) * | 2020-11-27 | 2023-04-07 | 华中师范大学 | 一种多源异构数据的多维度卷积神经网络学习者建模方法 |
| WO2022112248A1 (en) * | 2020-11-28 | 2022-06-02 | Deepmind Technologies Limited | Predicting protein structures by sharing information between multiple sequence alignments and pair embeddings |
| CN112735473B (zh) * | 2020-11-30 | 2022-07-05 | 长春理工大学 | 基于声音识别无人机的方法及系统 |
| CN112364831B (zh) * | 2020-11-30 | 2022-02-25 | 北京智慧荣升科技有限公司 | 人脸识别方法及在线教育系统 |
| CN112562784B (zh) * | 2020-12-14 | 2023-08-15 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
| CN112541469B (zh) * | 2020-12-22 | 2023-09-08 | 山东师范大学 | 基于自适应分类的人群计数方法及系统 |
| CN114677258A (zh) * | 2020-12-24 | 2022-06-28 | 英特尔公司 | 用于视觉渲染和合成的空间稀疏卷积模块的方法和设备 |
| CN112597996B (zh) * | 2020-12-28 | 2024-03-29 | 山西云时代研发创新中心有限公司 | 基于任务驱动的自然场景中交通标志显著性检测方法 |
| KR102464508B1 (ko) * | 2020-12-31 | 2022-11-09 | 주식회사 메이아이 | 인공 신경망 모델을 경량화하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
| CN112329929B (zh) * | 2021-01-04 | 2021-04-13 | 北京智源人工智能研究院 | 基于代理模型的对抗样本生成方法和装置 |
| CN112784969B (zh) * | 2021-02-01 | 2024-05-14 | 东北大学 | 用于图像特征提取的卷积神经网络加速学习方法 |
| KR102727359B1 (ko) * | 2021-02-03 | 2024-11-06 | 한양대학교 산학협력단 | 이미지 적대적 공격에 대비하기 위한 이미지 학습 장치 및 방법 |
| CN112767997B (zh) * | 2021-02-04 | 2023-04-25 | 齐鲁工业大学 | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 |
| US11132598B1 (en) * | 2021-02-23 | 2021-09-28 | Neuraville, Llc | System and method for humanoid robot control and cognitive self-improvement without programming |
| CN112784173B (zh) * | 2021-02-26 | 2022-06-10 | 电子科技大学 | 一种基于自注意力对抗神经网络的推荐系统评分预测方法 |
| CN112907095A (zh) * | 2021-03-05 | 2021-06-04 | 国家能源集团谏壁发电厂 | 基于改进bp神经网络的火电机组智能泄漏监测方法 |
| US12051237B2 (en) | 2021-03-12 | 2024-07-30 | Samsung Electronics Co., Ltd. | Multi-expert adversarial regularization for robust and data-efficient deep supervised learning |
| CN113159122B (zh) * | 2021-03-16 | 2022-03-15 | 重庆市地理信息和遥感应用中心 | 基于社交媒体图像数据的城市风貌分析方法 |
| US20220301657A1 (en) | 2021-03-16 | 2022-09-22 | Illumina, Inc. | Tile location and/or cycle based weight set selection for base calling |
| CN113052239B (zh) * | 2021-03-25 | 2022-08-02 | 山东大学 | 基于梯度方向参数优化的神经网络的图像分类方法及系统 |
| CN113160050B (zh) * | 2021-03-25 | 2023-08-25 | 哈尔滨工业大学 | 基于时空神经网络的小目标识别方法及系统 |
| US11195080B1 (en) | 2021-03-29 | 2021-12-07 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—tiling configuration |
| US11227207B1 (en) * | 2021-03-29 | 2022-01-18 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—section boundaries |
| US11263170B1 (en) | 2021-03-29 | 2022-03-01 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—padding before tiling, location-based tiling, and zeroing-out |
| US11250061B1 (en) | 2021-03-29 | 2022-02-15 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—read-modify-write in backward pass |
| US12293281B2 (en) | 2021-04-09 | 2025-05-06 | International Business Machines Corporation | Training DNN by updating an array using a chopper |
| BR112023021343A2 (pt) * | 2021-04-15 | 2023-12-19 | Illumina Cambridge Ltd | Voxelização eficiente para aprendizagem profunda |
| US20240193407A1 (en) * | 2021-04-15 | 2024-06-13 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Convolutional neural networks for pavement roughness assessment using calibration-free vehicle dynamics |
| US20220336057A1 (en) | 2021-04-15 | 2022-10-20 | Illumina, Inc. | Efficient voxelization for deep learning |
| CN117178326A (zh) * | 2021-04-15 | 2023-12-05 | 因美纳有限公司 | 使用三维(3d)蛋白质结构来预测变体致病性的深度卷积神经网络 |
| KR20230171930A (ko) * | 2021-04-15 | 2023-12-21 | 일루미나, 인코포레이티드 | 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들 |
| US12217829B2 (en) | 2021-04-15 | 2025-02-04 | Illumina, Inc. | Artificial intelligence-based analysis of protein three-dimensional (3D) structures |
| KR102320431B1 (ko) * | 2021-04-16 | 2021-11-08 | 주식회사 휴런 | 의료 영상 기반 종양 검출 및 진단 장치 |
| US12294720B2 (en) | 2021-04-16 | 2025-05-06 | Tencent America LLC | Method and apparatus for dynamic learning rates of substitution in neural image compression |
| AU2021441603A1 (en) * | 2021-04-20 | 2023-09-28 | Fujitsu Limited | Information processing program, information processing method, and information processing device |
| US12482560B2 (en) | 2021-04-23 | 2025-11-25 | Lasarrus Clinic And Research Center | Energy-efficient collection of wearable sensor data |
| CN113128685B (zh) * | 2021-04-25 | 2023-04-07 | 湖南大学 | 基于神经网络的自然选择分类和群体规模变化分析系统 |
| CN113194430B (zh) * | 2021-04-28 | 2022-11-01 | 杭州电力设备制造有限公司 | 基于周期传输模型的开关柜传感器网络数据压缩方法 |
| CN113420492B (zh) * | 2021-04-30 | 2024-11-26 | 华北电力大学 | 一种基于gan与gru神经网络的风光火耦合系统频率响应模型建模方法 |
| CN117581234A (zh) | 2021-05-07 | 2024-02-20 | Hrl实验室有限责任公司 | 神经形态存储器电路和人工神经网络的神经发生的方法 |
| US20220359075A1 (en) * | 2021-05-10 | 2022-11-10 | International Business Machines Corporation | Synthesis for risk prediction models |
| US12100486B2 (en) * | 2021-05-14 | 2024-09-24 | International Business Machines Corporation | Identification of unknown genomes and closest known genomes |
| CN113269675B (zh) * | 2021-05-18 | 2022-05-13 | 东北师范大学 | 基于深度学习模型的时变体数据时间超分辨率可视化方法 |
| CN115392448A (zh) * | 2021-05-24 | 2022-11-25 | 北京京东方技术开发有限公司 | 一种用于卷积神经网络模型的压缩方法以及压缩装置 |
| CN113936739A (zh) * | 2021-05-28 | 2022-01-14 | 四川大学 | 新型冠状病毒样本碱基突变自动评估方法 |
| US12159466B2 (en) * | 2021-06-07 | 2024-12-03 | Autobrains Technologies Ltd | Context based lane prediction |
| CN113282753B (zh) * | 2021-06-09 | 2024-07-19 | 中国银行股份有限公司 | 标题文本数据分类方法及装置 |
| CN113420811B (zh) * | 2021-06-23 | 2023-04-07 | 中国矿业大学(北京) | 一种使用深度学习的煤岩识别方法 |
| US12530882B2 (en) | 2021-07-01 | 2026-01-20 | Illumina, Inc. | Efficient artificial intelligence-based base calling of index sequences |
| US12476006B2 (en) | 2021-07-10 | 2025-11-18 | Lassarrus Clinic And Research Center Inc. | Smart multi-modal telehealth-IoT system for respiratory analysis |
| US11475211B1 (en) | 2021-07-12 | 2022-10-18 | International Business Machines Corporation | Elucidated natural language artifact recombination with contextual awareness |
| US12423507B2 (en) | 2021-07-12 | 2025-09-23 | International Business Machines Corporation | Elucidated natural language artifact recombination with contextual awareness |
| CN114330468A (zh) * | 2021-07-14 | 2022-04-12 | 广东工业大学 | 一种基于动态规划的分类器筛选方法、系统及计算机设备 |
| CN113269210B (zh) * | 2021-07-16 | 2021-09-17 | 四川泓宝润业工程技术有限公司 | 基于图像处理对液位表指针浮动频率进行检测的方法 |
| CN113420720B (zh) * | 2021-07-21 | 2024-01-09 | 中通服咨询设计研究院有限公司 | 一种高精度低延时大型室内场馆人群分布计算方法 |
| CN113642779A (zh) * | 2021-07-22 | 2021-11-12 | 西安理工大学 | 基于特征融合的ResNet50网络关键设备剩余寿命预测方法 |
| US11792646B2 (en) | 2021-07-27 | 2023-10-17 | TripleBlind, Inc. | Systems and methods for providing a multi-party computation system for neural networks |
| CN113554668B (zh) * | 2021-07-27 | 2022-02-22 | 深圳大学 | 一种皮肤镜图像黑色素瘤分割方法、装置及相关组件 |
| CN113517020A (zh) * | 2021-08-04 | 2021-10-19 | 华中农业大学 | 一种快速准确的动物基因组选配分析方法 |
| WO2023014913A1 (en) * | 2021-08-05 | 2023-02-09 | Illumina, Inc. | Deep learning-based use of protein contact maps for variant pathogenicity prediction |
| JP2024545545A (ja) * | 2021-08-24 | 2024-12-10 | アリゾナ ボード オブ リージェンツ オン ビハーフ オブ アリゾナ ステート ユニバーシティ | 深層学習非透明ブラック・ボックス・モデルを利用するコンピュータ・ビジョン及び画像認識のために透明モデルを実装するシステム、方法及び装置 |
| US12148525B2 (en) | 2021-09-04 | 2024-11-19 | Lasarrus Clinic And Research Center Inc. | Wearable multi-modal system for remote monitoring of patients with chronic obstructive pulmonary disease |
| CN113611410B (zh) * | 2021-09-08 | 2023-03-24 | 温州医科大学附属第一医院 | 一种脂肪性肝炎风险诊断设备、系统及其残差网络的训练方法 |
| CN115687988A (zh) * | 2021-09-09 | 2023-02-03 | 南京大学 | 一种基于信息相似度的门控记忆神经网络 |
| CN113762479A (zh) * | 2021-09-10 | 2021-12-07 | 深圳朴生智能科技有限公司 | 一种神经网络优化方法和装置 |
| CN113764043B (zh) * | 2021-09-10 | 2022-05-20 | 东北林业大学 | 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备 |
| CN113780450B (zh) * | 2021-09-16 | 2023-07-28 | 郑州云智信安安全技术有限公司 | 基于自编码神经网络的分布式存储方法及系统 |
| CN113837260B (zh) * | 2021-09-17 | 2024-05-28 | 北京百度网讯科技有限公司 | 模型训练方法、对象匹配方法、装置及电子设备 |
| CN113807517B (zh) * | 2021-09-18 | 2024-02-02 | 成都数联云算科技有限公司 | 剪枝参数搜索方法及剪枝方法、装置、设备、介质 |
| CN113806543B (zh) * | 2021-09-22 | 2023-05-30 | 三峡大学 | 一种基于残差跳跃连接的门控循环单元的文本分类方法 |
| CN113947780B (zh) * | 2021-09-30 | 2024-06-21 | 吉林农业大学 | 一种基于改进卷积神经网络的梅花鹿面部识别方法 |
| US20230103750A1 (en) * | 2021-10-06 | 2023-04-06 | Mediatek Inc. | Balancing workload for zero skipping on deep learning accelerator |
| WO2023063950A1 (en) * | 2021-10-14 | 2023-04-20 | Hewlett-Packard Development Company, L.P. | Training models for object detection |
| JP7734042B2 (ja) * | 2021-10-19 | 2025-09-04 | Toyo Tire株式会社 | タイヤ物理情報推定システムおよび演算モデル生成システム |
| US12462895B2 (en) * | 2021-10-21 | 2025-11-04 | Nec Corporation | T-cell receptor repertoire selection prediction with physical model augmented pseudo-labeling for personalized medicine decision making |
| CN114021630B (zh) * | 2021-10-28 | 2024-07-02 | 同济大学 | 一种面向类别不平衡数据集的序数回归问题解决方法 |
| CN114022671B (zh) * | 2021-11-11 | 2024-06-21 | 中国矿业大学 | 一种基于残差神经网络的索道缆绳绳位智能识别方法 |
| CN114398935A (zh) * | 2021-11-17 | 2022-04-26 | 重庆邮电大学 | 一种基于深度学习的医学影像报告多标签分类方法 |
| WO2023091494A1 (en) * | 2021-11-18 | 2023-05-25 | Innovaccer Inc. | Method and system for refining column mappings using byte level attention based neural model |
| WO2023096870A1 (en) | 2021-11-23 | 2023-06-01 | Innovaccer Inc. | Method and system for unifying de-identified data from multiple sources |
| EP4195131B1 (en) * | 2021-12-08 | 2024-10-16 | Tata Consultancy Services Limited | Method and system for federated learning based identification of non-malicious classification models |
| US12514419B2 (en) | 2021-12-27 | 2026-01-06 | Trifo, Inc. | Occupancy map segmentation for autonomous guided platform with deep learning |
| EP4202866A1 (en) * | 2021-12-27 | 2023-06-28 | Trifo, Inc. | Autonomous robot with deep learning environment recognition and sensor calibration |
| US20230207054A1 (en) * | 2021-12-29 | 2023-06-29 | Illumina, Inc. | Deep learning network for evolutionary conservation |
| EP4207125A1 (en) | 2021-12-29 | 2023-07-05 | Verisure Sàrl | Remotely monitored premises security monitoring systems |
| US12367661B1 (en) | 2021-12-29 | 2025-07-22 | Amazon Technologies, Inc. | Weighted selection of inputs for training machine-trained network |
| WO2023129953A2 (en) * | 2021-12-29 | 2023-07-06 | Illumina, Inc. | Variant calling without a target reference genome |
| WO2023141485A2 (en) * | 2022-01-19 | 2023-07-27 | Trustees Of Dartmouth College | Systems and methods for deterring viral transmission using neural networks |
| CN114613426B (zh) * | 2022-01-26 | 2023-10-31 | 西北大学 | 一种基于动态多目标优化的系统发育树构建方法 |
| CA3243371A1 (en) * | 2022-01-28 | 2023-08-03 | Illumina, Inc. | DETERMINATION OF INDEL PATHOGENICITY |
| WO2023150498A1 (en) * | 2022-02-01 | 2023-08-10 | TripleBlind, Inc. | Systems and methods for training predictive models on sequential data using 1-dimensional convolutional layers |
| EP4479927A1 (en) | 2022-02-17 | 2024-12-25 | Illumina, Inc. | Ai-driven signal enhancement of sequencing images |
| EP4479928A1 (en) | 2022-02-17 | 2024-12-25 | Illumina, Inc. | Ai-driven enhancement of motion blurred sequencing images |
| US11734574B1 (en) * | 2022-03-08 | 2023-08-22 | Booz Allen Hamilton Inc. | Neural Bregman divergences for distance learning |
| CN114611393B (zh) * | 2022-03-11 | 2025-05-30 | 电子科技大学 | 一种基于多目标优化的高效网络拓扑信息搜集方法 |
| US12204567B2 (en) | 2022-03-17 | 2025-01-21 | Ikigai Labs, Inc. | System and method for joining datasets |
| CN114795114B (zh) * | 2022-03-29 | 2023-05-02 | 电子科技大学 | 一种基于多模态学习的一氧化碳中毒迟发性脑病预测方法 |
| CN114662683A (zh) * | 2022-03-30 | 2022-06-24 | 智道网联科技(北京)有限公司 | 神经网络cpu加速方法、系统、设备和计算机可读存储介质 |
| CN114861870A (zh) * | 2022-04-11 | 2022-08-05 | 中国科学院自动化研究所 | 一种配置神经网络架构的方法、装置及设备 |
| CN114724629B (zh) * | 2022-04-18 | 2025-06-20 | 安徽大学 | 物种特异性蛋白质翻译后修饰位点预测方法及系统 |
| CN114998639B (zh) * | 2022-04-19 | 2024-04-26 | 安徽农业大学 | 一种基于深度学习的中药材品类识别方法 |
| WO2023215484A1 (en) | 2022-05-06 | 2023-11-09 | Innovaccer Inc. | Method and system for providing faas based feature library using dag |
| CN114841280B (zh) * | 2022-05-20 | 2023-02-14 | 北京安智因生物技术有限公司 | 一种复杂疾病的预测分类方法、系统、介质、设备及终端 |
| WO2023240183A1 (en) * | 2022-06-08 | 2023-12-14 | Biomed Protection Tx, Llc. | Method and system for assessing an impact of genetic changes on biological properties |
| CN114970637B (zh) * | 2022-06-10 | 2024-08-06 | 湖北工业大学 | 一种轻量级基于深度学习的心律失常分类方法 |
| TWI812291B (zh) * | 2022-06-17 | 2023-08-11 | 緯創資通股份有限公司 | 連續學習的機器學習方法及電子裝置 |
| CN115310664B (zh) * | 2022-07-01 | 2025-07-11 | 中国石油大学(华东) | 基于基因调控遗传算法的rbf神经网络油井产油量预测方法及预测系统 |
| US12494043B2 (en) * | 2022-07-06 | 2025-12-09 | Tata Consultancy Services Limited | Method and system for deep learning based image feature extraction |
| US20250336475A1 (en) * | 2022-08-09 | 2025-10-30 | Board Of Trustees Of Michigan State University | Predicting function from sequence using information decomposition |
| CN115032508B (zh) * | 2022-08-12 | 2022-11-01 | 国网山东省电力公司电力科学研究院 | 一种基于目标识别的分布式输电线路故障诊断方法及系统 |
| CN115131632B (zh) * | 2022-08-29 | 2022-11-04 | 北京师范大学 | 一种训练样本深度优化的低耗图像检索方法及系统 |
| CN115186769B (zh) * | 2022-09-07 | 2022-11-25 | 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) | 一种基于nlp的突变基因分类方法 |
| CN115500807B (zh) * | 2022-09-20 | 2024-10-15 | 山东大学 | 基于小型卷积神经网络的心律失常分类检测方法及系统 |
| EP4591311A1 (en) * | 2022-09-20 | 2025-07-30 | Foundation Medicine, Inc. | Methods and systems for determining variant properties using machine learning |
| US20240104730A1 (en) * | 2022-09-27 | 2024-03-28 | The University Of Hong Kong | Systems and methods of correcting batch effect in biological images |
| CN115271272B (zh) * | 2022-09-29 | 2022-12-27 | 华东交通大学 | 多阶特征优化与混合型知识蒸馏的点击率预测方法与系统 |
| EP4584789A1 (en) * | 2022-10-11 | 2025-07-16 | DeepMind Technologies Limited | Pathogenicity prediction for protein mutations using amino acid score distributions |
| WO2024097261A1 (en) * | 2022-11-01 | 2024-05-10 | Invitae Corporation | Population frequency modeling for quantitative variant pathogenicity estimation |
| JP7728313B2 (ja) | 2022-11-08 | 2025-08-22 | 宏達國際電子股▲ふん▼有限公司 | インライヤーとアウトライヤーデータを分類するためのデータ分類方法 |
| WO2024102423A1 (en) * | 2022-11-09 | 2024-05-16 | The Cleveland Clinic Foundation | Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework |
| CN115966260A (zh) * | 2022-11-28 | 2023-04-14 | 慧壹科技(上海)有限公司 | 基于机器学习和专家系统的小核酸药物筛选方法 |
| USD1089917S1 (en) | 2022-12-14 | 2025-08-19 | Trifo, Inc. | Self cleaning docking station for autonomous guided deep learning cleaning apparatus |
| WO2024157051A1 (en) * | 2023-01-26 | 2024-08-02 | Canexia Health Inc. | Method for detecting insertion-deletion mutations in genomic sequences |
| KR102567539B1 (ko) * | 2023-02-09 | 2023-08-16 | 국방과학연구소 | 클러스터링에 기초하여, 신경망 필터를 프루닝하는 방법 및 장치 |
| CN115965082B (zh) * | 2023-02-09 | 2025-10-28 | 北京脑科学与类脑研究中心 | 基于深度学习和集束搜索的系统发育树构建方法及系统 |
| CN116108893A (zh) * | 2023-02-20 | 2023-05-12 | 上海壁仞智能科技有限公司 | 卷积神经网络的自适应微调方法、装置、设备及存储介质 |
| CN116309426B (zh) * | 2023-03-13 | 2025-06-20 | 中国铁建重工集团股份有限公司 | 掘进机出渣皮带损伤检测方法及系统、设备、存储介质 |
| AU2024246843A1 (en) * | 2023-03-31 | 2025-10-16 | Plainsight Technologies Inc. | Systems and methods for image labeling utilizing multi-model large language models |
| US12514465B2 (en) | 2023-04-07 | 2026-01-06 | Lasarrus Clinic and Research Center Inc | Bilateral acoustic sensing for predicting FEV1/FVC |
| CN116258356B (zh) * | 2023-05-16 | 2023-08-25 | 深圳市万物云科技有限公司 | 基于WaveNet的工单派发方法、装置及相关介质 |
| WO2024238560A1 (en) * | 2023-05-16 | 2024-11-21 | Foundation Medicine, Inc. | Methods and systems for prediction of novel pathogenic mutations |
| CN116630697B (zh) * | 2023-05-17 | 2024-04-05 | 安徽大学 | 一种基于有偏选择池化的图像分类方法 |
| CN116738315B (zh) * | 2023-06-16 | 2025-08-29 | 华中科技大学 | 一种激光粉末床熔融增材制造不同材料气孔率监测方法 |
| CN116913379B (zh) * | 2023-07-26 | 2024-09-10 | 浙江大学 | 基于迭代优化预训练大模型采样的定向蛋白质改造方法 |
| CN120010238B (zh) * | 2023-11-15 | 2025-11-11 | 中国石油化工股份有限公司 | 裂解炉操作的优化方法、装置、存储介质及处理器 |
| US20250201341A1 (en) * | 2023-12-18 | 2025-06-19 | William Gerard KEARNS | Methods and Systems for Identifying Disease-Specific Genetic Variants |
| WO2025137642A1 (en) * | 2023-12-22 | 2025-06-26 | Illumina, Inc. | Meta machine-learning models for generating improved pathogenicity scores |
| WO2025137590A1 (en) * | 2023-12-22 | 2025-06-26 | Illumina, Inc. | Ensembling variant pathogenicity scores over artificial benign and unknown amino-acid sequences |
| CN118013122A (zh) * | 2024-02-06 | 2024-05-10 | 中山大学 | 一种感知用户活跃度的基于变分核密度估计的推荐方法及装置 |
| CN117958813B (zh) * | 2024-03-28 | 2024-06-18 | 北京科技大学 | 基于注意力深度残差网络的ecg身份识别方法、系统及设备 |
| CN118586264B (zh) * | 2024-04-16 | 2025-03-25 | 中国人民解放军海军指挥学院 | 一种基于人工智能与人员的协同对抗决策方法、装置及存储介质 |
| CN118212983B (zh) * | 2024-05-22 | 2024-09-20 | 电子科技大学长三角研究院(衢州) | 一种结合神经网络模型的核酸修饰位点识别方法 |
| CN118553407A (zh) * | 2024-05-27 | 2024-08-27 | 广东医科大学 | 一种基于多模态深度学习的肺肿瘤诊断及预测系统 |
| KR102765880B1 (ko) * | 2024-08-14 | 2025-02-11 | 주식회사 쓰리빌리언 | 대상 샘플의 변이데이터가 저장된 전자파일 적합성 검증 시스템 |
| CN118690665B (zh) * | 2024-08-26 | 2024-12-06 | 西北工业大学宁波研究院 | 一种基于全连接深度神经网络的地磁建模方法 |
| TWI886036B (zh) * | 2024-08-30 | 2025-06-01 | 高雄榮民總醫院 | 癌症風險等級評估模型的建立方法 |
| CN119626571B (zh) * | 2024-11-27 | 2025-09-23 | 广东医科大学 | 基于多模态深度学习的肝癌分析方法、系统、设备及介质 |
| CN119207558A (zh) * | 2024-12-02 | 2024-12-27 | 山东省农业科学院畜牧兽医研究所 | 用于鉴定中国地方牛品种血统的方法及系统、电子设备 |
| CN119907003B (zh) * | 2025-03-31 | 2025-06-17 | 国网浙江省电力有限公司科技创新中心 | 一种电力5g网络流量攻击预测方法、系统、设备及介质 |
Family Cites Families (93)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0450060A1 (en) | 1989-10-26 | 1991-10-09 | Sri International | Dna sequencing |
| US5641658A (en) | 1994-08-03 | 1997-06-24 | Mosaic Technologies, Inc. | Method for performing amplification of nucleic acid with two primers bound to a single solid support |
| WO1997005553A1 (en) | 1995-07-25 | 1997-02-13 | Horus Therapeutics, Inc. | Computer assisted methods for diagnosing diseases |
| DE19528437A1 (de) | 1995-08-02 | 1997-02-06 | Siemens Ag | Verfahren zum Betreiben eines Datenübertragungssystems |
| WO1998032680A1 (en) | 1997-01-23 | 1998-07-30 | Baker James D | Load-carrying connecting bar assembly for a conveyor |
| JP2001517948A (ja) | 1997-04-01 | 2001-10-09 | グラクソ、グループ、リミテッド | 核酸配列決定法 |
| SE9702008D0 (sv) | 1997-05-28 | 1997-05-28 | Pharmacia Biotech Ab | A method and a system for nucleic acid seouence analysis |
| US6060033A (en) | 1998-04-22 | 2000-05-09 | Uop Llc | Process for removing HCl from hydrocarbon streams |
| AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
| GB0006153D0 (en) | 2000-03-14 | 2000-05-03 | Inpharmatica Ltd | Database |
| US8388530B2 (en) | 2000-05-30 | 2013-03-05 | Vladimir Shusterman | Personalized monitoring and healthcare information management using physiological basis functions |
| AU8288101A (en) | 2000-07-07 | 2002-01-21 | Visigen Biotechnologies Inc | Real-time sequence determination |
| US7198895B2 (en) | 2000-11-14 | 2007-04-03 | Mohanlal Ramon W | In vitro cell-based methods for biological validation and pharmacological screening of chemical entities and biologicals |
| EP1354064A2 (en) | 2000-12-01 | 2003-10-22 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
| AR031640A1 (es) | 2000-12-08 | 2003-09-24 | Applied Research Systems | Amplificacion isotermica de acidos nucleicos en un soporte solido |
| US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
| US20040002090A1 (en) | 2002-03-05 | 2004-01-01 | Pascal Mayer | Methods for detecting genome-wide sequence variations associated with a phenotype |
| EP1530578B1 (en) | 2002-08-23 | 2013-03-13 | Illumina Cambridge Limited | Modified nucleotides for polynucleotide sequencing |
| US7302146B2 (en) | 2004-09-17 | 2007-11-27 | Pacific Biosciences Of California, Inc. | Apparatus and method for analysis of molecules |
| GB0427236D0 (en) | 2004-12-13 | 2005-01-12 | Solexa Ltd | Improved method of nucleotide detection |
| WO2006083854A2 (en) | 2005-01-31 | 2006-08-10 | Perlegen Sciences, Inc. | Genetic basis of alzheimer's disease and diagnosis and treatment thereof |
| CA2611671C (en) | 2005-06-15 | 2013-10-08 | Callida Genomics, Inc. | Single molecule arrays for genetic and chemical analysis |
| GB0514910D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Method for sequencing a polynucleotide template |
| US7405281B2 (en) | 2005-09-29 | 2008-07-29 | Pacific Biosciences Of California, Inc. | Fluorescent nucleotide analogs and uses therefor |
| GB0522310D0 (en) | 2005-11-01 | 2005-12-07 | Solexa Ltd | Methods of preparing libraries of template polynucleotides |
| EP2021503A1 (en) | 2006-03-17 | 2009-02-11 | Solexa Ltd. | Isothermal methods for creating clonal single molecule arrays |
| EP3373174A1 (en) | 2006-03-31 | 2018-09-12 | Illumina, Inc. | Systems and devices for sequence by synthesis analysis |
| RU2470998C2 (ru) | 2006-06-22 | 2012-12-27 | Ян Любински | Определение предрасположенности к раку путем идентификации генотипических комбинаций специфичных вариантов генов cyp1b1, brca2 и снек2 |
| US7754429B2 (en) | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
| WO2008051530A2 (en) | 2006-10-23 | 2008-05-02 | Pacific Biosciences Of California, Inc. | Polymerase enzymes and reagents for enhanced nucleic acid sequencing |
| JP4932539B2 (ja) | 2007-03-02 | 2012-05-16 | 日本電信電話株式会社 | 光干渉計の制御回路 |
| US8762306B2 (en) | 2008-08-14 | 2014-06-24 | The University Of Toledo | Neural network for glucose therapy recommendation |
| US8762072B2 (en) | 2008-10-02 | 2014-06-24 | Koninklijke Philips N.V. | Method of determining a reliability indicator for signatures obtained from clinical data and use of the reliability indicator for favoring one signature over the other |
| CA2763500C (en) | 2009-06-01 | 2019-09-03 | Genetic Technologies Limited | Methods for breast cancer risk assessment |
| KR102136041B1 (ko) * | 2010-04-29 | 2020-07-20 | 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 | 게놈 모델에 대한 데이터 통합을 이용하는 경로 인지 알고리즘 (paradigm) |
| MX2012014096A (es) * | 2010-06-04 | 2013-04-19 | Nestec Sa | Métodos para mejorar el diagnóstico de enfermedad intestinal inflamatoria. |
| JP5773406B2 (ja) | 2010-07-28 | 2015-09-02 | 学校法人明治大学 | Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム |
| WO2012034030A1 (en) | 2010-09-09 | 2012-03-15 | Omicia, Inc. | Variant annotation, analysis and selection tool |
| EP2663656B1 (en) | 2011-01-13 | 2016-08-24 | Decode Genetics EHF | Genetic variants as markers for use in urinary bladder cancer risk assessment |
| WO2013040583A2 (en) | 2011-09-16 | 2013-03-21 | Complete Genomics, Inc | Determining variants in a genome of a heterogeneous sample |
| AU2012335955A1 (en) | 2011-11-07 | 2014-07-03 | QIAGEN Redwood City, Inc. | Methods and systems for identification of causal genomic variants |
| KR20150034143A (ko) | 2012-07-04 | 2015-04-02 | 도쿄엘렉트론가부시키가이샤 | 기판 처리 장치 |
| US20140129152A1 (en) | 2012-08-29 | 2014-05-08 | Michael Beer | Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features |
| CN103679185B (zh) | 2012-08-31 | 2017-06-16 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
| US20160004814A1 (en) | 2012-09-05 | 2016-01-07 | University Of Washington Through Its Center For Commercialization | Methods and compositions related to regulation of nucleic acids |
| WO2014099979A2 (en) | 2012-12-17 | 2014-06-26 | Virginia Tech Intellectual Properties, Inc. | Methods and compositions for identifying global microsatellite instability and for characterizing informative microsatellite loci |
| WO2014142831A1 (en) | 2013-03-13 | 2014-09-18 | Illumina, Inc. | Methods and systems for aligning repetitive dna elements |
| WO2014151764A2 (en) | 2013-03-15 | 2014-09-25 | Veracyte, Inc. | Methods and compositions for classification of samples |
| ES2791780T3 (es) | 2013-06-19 | 2020-11-05 | Argent Energy Uk Ltd | Proceso y aparato para purificar una mezcla de residuos grasos y productos relacionados incluyendo combustibles |
| KR20160026917A (ko) * | 2013-07-02 | 2016-03-09 | 코르티스 바이오사이언시즈, 인크. | 퇴행성 신경질환의 치료 방법 |
| US20190219599A1 (en) | 2013-07-11 | 2019-07-18 | University Of North Texas Health Science Center At Fort Worth | Blood-based screen for detecting neurological diseases in primary care settings |
| ES2875892T3 (es) * | 2013-09-20 | 2021-11-11 | Spraying Systems Co | Boquilla de pulverización para craqueo catalítico fluidizado |
| GB201319779D0 (en) | 2013-11-08 | 2013-12-25 | Cartagenia N V | Genetic analysis method |
| US10424404B2 (en) | 2013-11-13 | 2019-09-24 | Dacadoo Ag | Automated health data acquisition, processing and communication system and method |
| IL289736B2 (en) * | 2013-12-12 | 2025-09-01 | Massachusetts Inst Technology | Administration, use and therapeutic applications of CRISPR–Cas gene editing systems and gene editing preparations |
| EP3095054B1 (en) * | 2014-01-14 | 2022-08-31 | Fabric Genomics, Inc. | Methods and systems for genome analysis |
| US10216895B2 (en) | 2014-05-12 | 2019-02-26 | Roche Molecular Systems, Inc. | Rare variant calls in ultra-deep sequencing |
| EP3194627B1 (en) | 2014-09-18 | 2023-08-16 | Illumina, Inc. | Methods and systems for analyzing nucleic acid sequencing data |
| WO2016061396A1 (en) | 2014-10-16 | 2016-04-21 | Counsyl, Inc. | Variant caller |
| US20160132637A1 (en) | 2014-11-12 | 2016-05-12 | Case Western Reserve University | Noise model to detect copy number alterations |
| US9896970B2 (en) | 2014-11-14 | 2018-02-20 | General Electric Company | Method and system for sealing an annulus |
| IL236598A0 (en) | 2015-01-05 | 2015-05-31 | Superfish Ltd | Image similarity as a function of image weighted image descriptors generated from neural networks |
| TWI732285B (zh) | 2015-01-23 | 2021-07-01 | 美商應用材料股份有限公司 | 半導體處理設備 |
| WO2016145516A1 (en) | 2015-03-13 | 2016-09-22 | Deep Genomics Incorporated | System and method for training neural networks |
| EP3286677A4 (en) * | 2015-04-22 | 2019-07-24 | Genepeeks, Inc. | DEVICE, SYSTEM AND METHOD FOR ASSESSING THE RISK OF VARIATION SPECIFIC GENDYS FUNCTION |
| TW202241500A (zh) | 2015-06-09 | 2022-11-01 | 美商博德研究所有限公司 | 用於贅瘤疫苗之調配物及其製備方法 |
| CA2894317C (en) * | 2015-06-15 | 2023-08-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
| US20160364545A1 (en) | 2015-06-15 | 2016-12-15 | Dascena | Expansion And Contraction Around Physiological Time-Series Trajectory For Current And Future Patient Condition Determination |
| US10185803B2 (en) | 2015-06-15 | 2019-01-22 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
| AU2016284455A1 (en) | 2015-06-22 | 2017-11-23 | Myriad Women's Health, Inc. | Methods of predicting pathogenicity of genetic sequence variants |
| KR101966080B1 (ko) | 2015-08-25 | 2019-04-05 | 난토믹스, 엘엘씨 | 전이의 유전적 분석을 위한 시스템 및 방법 |
| KR102592076B1 (ko) | 2015-12-14 | 2023-10-19 | 삼성전자주식회사 | 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치 |
| CA3008641A1 (en) * | 2015-12-16 | 2017-06-22 | Gritstone Oncology, Inc. | Neoantigen identification, manufacture, and use |
| WO2017172958A1 (en) * | 2016-03-29 | 2017-10-05 | Regeneron Pharmaceuticals, Inc. | Genetic variant-phenotype analysis system and methods of use |
| US10293565B1 (en) | 2016-04-12 | 2019-05-21 | Bao Tran | Systems and methods for mass customization |
| US20180107927A1 (en) | 2016-06-15 | 2018-04-19 | Deep Genomics Incorporated | Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes |
| WO2018073646A1 (en) | 2016-10-19 | 2018-04-26 | Peach Intellihealth Pte Ltd. | System and method for predicting sequentilal organ failure assessment (sofa) scores using artificial intelligence and machine learning |
| US10824934B2 (en) * | 2017-01-12 | 2020-11-03 | Texas Instruments Incorporated | Methods and apparatus for matrix processing in a convolutional neural network |
| CN106951730A (zh) * | 2017-03-21 | 2017-07-14 | 为朔医学数据科技(北京)有限公司 | 一种基因变异致病等级确定方法及装置 |
| US10552663B2 (en) * | 2017-05-02 | 2020-02-04 | Techcyte, Inc. | Machine learning classification and training for digital microscopy cytology images |
| CN111742370B (zh) | 2017-05-12 | 2025-06-13 | 密歇根大学董事会 | 个体和队列药理学表型预测平台 |
| US10068557B1 (en) | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
| US10540591B2 (en) | 2017-10-16 | 2020-01-21 | Illumina, Inc. | Deep learning-based techniques for pre-training deep convolutional neural networks |
| JP6961726B2 (ja) | 2017-10-16 | 2021-11-05 | イルミナ インコーポレイテッド | バリアントの分類のための深層畳み込みニューラルネットワーク |
| WO2019095017A1 (en) | 2017-11-17 | 2019-05-23 | Gmdx Co Pty Ltd | Systems and methods for predicting the efficacy of cancer therapy |
| US11328795B2 (en) | 2018-01-04 | 2022-05-10 | TRIALS.AI, Inc. | Intelligent planning, execution, and reporting of clinical trials |
| US11288576B2 (en) | 2018-01-05 | 2022-03-29 | Illumina, Inc. | Predicting quality of sequencing results using deep neural networks |
| AU2019206709B2 (en) | 2018-01-15 | 2021-09-09 | Illumina Cambridge Limited | Deep learning-based variant classifier |
| CN111902876A (zh) | 2018-01-22 | 2020-11-06 | 癌症众生公司 | 用于进行虚拟试验的平台 |
| US11200489B2 (en) | 2018-01-30 | 2021-12-14 | Imubit Israel Ltd. | Controller training based on historical data |
| US20200098465A1 (en) | 2018-09-20 | 2020-03-26 | Medtronic Minimed, Inc. | Bolus recommendation systems and methods using a cost function |
| US11302424B2 (en) | 2019-01-24 | 2022-04-12 | International Business Machines Corporation | Predicting clinical trial eligibility based on cohort trends |
| US11488702B2 (en) | 2019-07-18 | 2022-11-01 | Physiq, Inc. | System and method for improving cardiovascular health of humans |
-
2018
- 2018-10-15 JP JP2019567721A patent/JP6961726B2/ja active Active
- 2018-10-15 US US16/160,968 patent/US11798650B2/en active Active
- 2018-10-15 CA CA3066775A patent/CA3066775A1/en active Pending
- 2018-10-15 SG SG10202108020VA patent/SG10202108020VA/en unknown
- 2018-10-15 US US16/160,903 patent/US10423861B2/en active Active
- 2018-10-15 CN CN202110252738.7A patent/CN113627458B/zh active Active
- 2018-10-15 KR KR1020237018088A patent/KR102748353B1/ko active Active
- 2018-10-15 NZ NZ759804A patent/NZ759804A/en not_active IP Right Cessation
- 2018-10-15 KR KR1020197036421A patent/KR102196522B1/ko active Active
- 2018-10-15 CN CN201880043830.9A patent/CN110870019B/zh active Active
- 2018-10-15 AU AU2018352203A patent/AU2018352203B2/en not_active Ceased
- 2018-10-15 SG SG11201912740TA patent/SG11201912740TA/en unknown
- 2018-10-15 BR BR112019027480-4A patent/BR112019027480B1/pt active IP Right Grant
- 2018-10-15 JP JP2019567720A patent/JP6961725B2/ja active Active
- 2018-10-15 JP JP2019567719A patent/JP6834029B2/ja active Active
- 2018-10-15 EP EP18799923.0A patent/EP3622521A1/en not_active Withdrawn
- 2018-10-15 WO PCT/US2018/055878 patent/WO2019079180A1/en not_active Ceased
- 2018-10-15 NZ NZ759818A patent/NZ759818A/en not_active IP Right Cessation
- 2018-10-15 MY MYPI2019007296A patent/MY182749A/en unknown
- 2018-10-15 IL IL271119A patent/IL271119B2/en unknown
- 2018-10-15 US US16/160,986 patent/US11315016B2/en active Active
- 2018-10-15 SG SG11201912966UA patent/SG11201912966UA/en unknown
- 2018-10-15 CN CN201880043819.2A patent/CN110800062B/zh active Active
- 2018-10-15 KR KR1020207037022A patent/KR102539188B1/ko active Active
- 2018-10-15 EP EP25185029.3A patent/EP4597451A3/en active Pending
- 2018-10-15 WO PCT/US2018/055881 patent/WO2019079182A1/en not_active Ceased
- 2018-10-15 KR KR1020227004380A patent/KR102416048B1/ko active Active
- 2018-10-15 AU AU2018350891A patent/AU2018350891B9/en not_active Ceased
- 2018-10-15 EP EP18796330.1A patent/EP3622520A1/en not_active Withdrawn
- 2018-10-15 NZ NZ759813A patent/NZ759813A/en not_active IP Right Cessation
- 2018-10-15 KR KR1020217032755A patent/KR102433458B1/ko active Active
- 2018-10-15 EP EP18796339.2A patent/EP3622523B1/en active Active
- 2018-10-15 IL IL299565A patent/IL299565B2/en unknown
- 2018-10-15 MX MX2019014690A patent/MX2019014690A/es unknown
- 2018-10-15 KR KR1020197036422A patent/KR102362711B1/ko active Active
- 2018-10-15 CN CN201880043817.3A patent/CN110832596B/zh active Active
- 2018-10-15 WO PCT/US2018/055840 patent/WO2019079166A1/en not_active Ceased
- 2018-10-15 KR KR1020197036423A patent/KR102314219B1/ko active Active
- 2018-10-15 AU AU2018352201A patent/AU2018352201B2/en not_active Ceased
-
2019
- 2019-05-09 EP EP23209885.5A patent/EP4296899A3/en not_active Withdrawn
- 2019-05-09 EP EP19729404.4A patent/EP3659143B1/en active Active
- 2019-05-15 US US16/413,476 patent/US10558915B2/en active Active
- 2019-12-02 IL IL271121A patent/IL271121B/en active IP Right Grant
-
2020
- 2020-01-27 US US16/773,678 patent/US11386324B2/en active Active
-
2021
- 2021-02-03 JP JP2021015693A patent/JP7089078B2/ja active Active
- 2021-05-11 IL IL283107A patent/IL283107B2/en unknown
- 2021-10-12 JP JP2021167361A patent/JP7350818B2/ja active Active
- 2021-10-13 JP JP2021168034A patent/JP7275228B2/ja active Active
- 2021-12-22 AU AU2021290303A patent/AU2021290303B2/en not_active Ceased
-
2022
- 2022-03-04 AU AU2022201545A patent/AU2022201545A1/en not_active Withdrawn
- 2022-04-06 US US17/715,001 patent/US20220237457A1/en active Pending
-
2023
- 2023-09-13 JP JP2023148337A patent/JP7646769B2/ja active Active
- 2023-11-24 AU AU2023270327A patent/AU2023270327A1/en not_active Abandoned
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7089078B2 (ja) | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 | |
| NZ788045A (en) | Deep convolutional neural networks for variant classification | |
| HK40026566B (en) | Semi-supervised learning for training an ensemble of deep convolutional neural networks | |
| HK40026566A (en) | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191225 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210308 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210608 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210913 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211013 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6961726 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |