[go: up one dir, main page]

JP2022031730A - 確率分布をモデル化するためのシステムおよび方法 - Google Patents

確率分布をモデル化するためのシステムおよび方法 Download PDF

Info

Publication number
JP2022031730A
JP2022031730A JP2021185425A JP2021185425A JP2022031730A JP 2022031730 A JP2022031730 A JP 2022031730A JP 2021185425 A JP2021185425 A JP 2021185425A JP 2021185425 A JP2021185425 A JP 2021185425A JP 2022031730 A JP2022031730 A JP 2022031730A
Authority
JP
Japan
Prior art keywords
data
layer
model
rbm
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2021185425A
Other languages
English (en)
Inventor
ケネス フィッシャー チャールズ
Kenneth Fisher Charles
マイケル スミス アーロン
Michael Smith Aaron
ライアン ウォルシュ ジョナサン
Ryan Walsh Jonathan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unlearn AI Inc
Original Assignee
Unlearn AI Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unlearn AI Inc filed Critical Unlearn AI Inc
Publication of JP2022031730A publication Critical patent/JP2022031730A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Complex Calculations (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Generation (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

Figure 2022031730000001
【課題】複雑な確率分布をモデル化するためのシステム及び方法を提供する。
【解決手段】確率分布をモデル化するためのデータを収集し、確率分布を提供するシステム100において、サーバシステム110、140及び170は夫々、ネットワーク160を経由してクラウドサービスをユーザに提供するプロセスを実行する内部ネットワークを介して、相互に通信可能に接続される1つ以上のサーバのグループである。ユーザは、ネットワーク160に接続する個人用デバイス180及び120を使用し、複雑な確率分布をモデル化するシステム及び方法を使用する。
【選択図】図1

Description

(関連出願の相互参照)
本願は、2018年1月17日に出願され、「Systems and Methods for Modeling Probability Distributions」と題された、米国仮特許出願第62/618,440号、および2019年1月15日に出願され、「Simulating Biological and Health Systems with Restricted Boltzmann Machines」と題された、米国仮特許出願第62/792,648号の利益および優先権を主張する。米国仮特許出願第62/618,440号および第62/792,648号の開示は、それらの全体として参照することによって本明細書に組み込まれる。
本発明は、概して、確率分布をモデル化することに関し、より具体的には、ボルツマンマシンを訓練および実装し、複雑な確率分布を正確にモデル化することに関する。
不確実性の世界では、データの多様かつ異種のセットに基づいて、複数の次元にわたって確率分布を適切にモデル化することは困難である。例えば、医療業界では、個人健康転帰は、決して正確ではない。疾患がある1人の患者の症状が、急速に悪化し得る一方で、別の患者は、迅速に回復する。個人健康転帰の固有の偶然性は、健康情報学が、決定論的転帰ではなく健康リスクを予測することを目標としなければならないことを含意する。健康リスクを定量化および予測する能力は、集団の健康に依存するビジネスモデルに重要な影響を与える。
本発明の実施形態による、複雑な確率分布をモデル化するためのシステムおよび方法が、例証される。一実施形態は、制限ボルツマンマシン(RBM)を訓練するための方法を含み、本方法は、可視値の第1のセットから、RBMの隠れ層内の隠れ値のセットを生成するステップと、隠れ値の生成されたセットに基づいて、RBMの可視層内の可視値の第2のセットを生成するステップとを含む。本方法はまた、可視値の第1のセットおよび可視値の生成されたセットのうちの少なくとも1つに基づいて、尤度勾配のセットを算出するステップと、隠れ値のセットおよび可視値のセットのうちの少なくとも1つに基づく敵対モデルを使用して、敵対勾配のセットを算出するステップと、尤度勾配のセットおよび敵対勾配のセットに基づいて、複合勾配のセットを算出するステップとを含む。本方法は、複合勾配のセットに基づいて、RBMを更新するステップを含む。
さらなる実施形態では、RBMの可視層は、異なるデータタイプのための複数の副層から成る複合層を含む。
なおも別の実施形態では、複数の副層は、ベルヌーイ層、イジング層、ワンホット層、フォンミーゼスフィッシャー層、ガウス層、ReLU層、クリップされたReLU層、スチューデント-t層、序数層、指数関数層、および複合層のうちの少なくとも1つを含む。
なおもさらなる実施形態では、RBMは、深層ボルツマンマシン(DBM)であり、隠れ層は、複数の隠れ層のうちの1つである。
さらに別の実施形態では、RBMは、第1のRBMであり、隠れ層は、複数の隠れ層のうちの第1の隠れ層である。本方法はさらに、第1のRBMから隠れ層をサンプリングするステップと、第1のRBMからの可視層および隠れ層をベクトルにスタックするステップと、第2のRBMを訓練するステップと、第1および第2のRBMからの加重をDBMにコピーすることによって、DBMを生成するステップとを含む。ベクトルは、第2のRBMの可視層である。
その上さらなる実施形態では、本方法はさらに、患者の表現型ベクトルを受信するステップと、RBMを使用し、疾患の時間進行を生成するステップと、生成された時間進行に基づいて、患者を治療するステップとを含む。
別の付加的実施形態では、可視層および隠れ層は、第1の時間インスタンスのためのものであり、隠れ層はさらに、異なる第2の時間インスタンスからのデータを組み込む第2の隠れ層に接続される。
さらなる付加的実施形態では、可視層は、複数の異なる時間インスタンスのためのデータを含む、複合層である。
再度、別の実施形態では、尤度勾配のセットを算出するステップは、ギブスサンプリングを実施するステップを含む。
再度、さらなる実施形態では、複合勾配のセットは、尤度勾配のセットおよび敵対勾配のセットの加重平均である。
なおもさらに別の実施形態では、本方法はさらに、真正データに基づいて、データサンプルを引き出するステップと、RBMに基づいて、架空のサンプルを引き出すステップと、データサンプルと架空のサンプルとを区別する敵対モデルの能力に基づいて、敵対モデルを訓練するステップとによって、敵対モデルを訓練するステップを含む。
なおもその上さらなる実施形態では、敵対モデルを訓練するステップは、特定のサンプルが真正データまたはRBMのいずれかから引き出される確率を測定するステップを含む。
なおも別の付加的実施形態では、敵対モデルは、完全接続分類子、ロジスティック回帰モデル、最近傍分類子、およびランダムフォレストのうちの1つである。
なおもさらなる付加的実施形態では、本方法はさらに、RBMを使用し、標的集団のサンプルのセットを生成するステップを含む。
再度、なおも別の実施形態では、尤度勾配のセットを算出するステップは、モンテカルロ推定値および平均場推定値の凸結合を算出するステップを含む。
再度、なおもさらなる実施形態では、尤度勾配のセットを算出するステップは、複数のサンプルを初期化するステップと、複数のサンプルのうちのサンプル毎に逆温度を初期化するステップとを含む。複数のサンプルのうちのサンプル毎に、尤度勾配のセットを算出するステップはさらに、自己相関されたガンマ分布からサンプリングすることによって、逆温度を更新するステップと、ギブスサンプリングを使用して、サンプルを更新するステップとを含む。
付加的実施形態および特徴が、以下に続く説明に部分的に記載され、本明細書の検討に応じて、部分的に当業者に明白となるであろう、または本発明の実践によって学習され得る。本発明の性質および利点のさらなる理解が、本開示の一部を形成する、本明細書および図面の残りの部分を参照することによって認識され得る。
本発明は、例えば、以下を提供する。
(項目1)
制限ボルツマンマシン(RBM)を訓練するための方法であって、前記方法は、
可視値の第1のセットから、RBMの隠れ層内の隠れ値のセットを生成することと、
前記隠れ値の生成されたセットに基づいて、前記RBMの可視層内の可視値の第2のセットを生成することと、
前記可視値の第1のセットおよび前記可視値の生成されたセットのうちの少なくとも1つに基づいて、尤度勾配のセットを算出することと、
前記隠れ値のセットおよび前記可視値のセットのうちの少なくとも1つに基づく敵対モデルを使用して、敵対勾配のセットを算出することと、
前記尤度勾配のセットおよび前記敵対勾配のセットに基づいて、複合勾配のセットを算出することと、
前記複合勾配のセットに基づいて、前記RBMを更新することと
を含む、方法。
(項目2)
前記RBMの可視層は、異なるデータタイプのための複数の副層から成る複合層を備える、項目1に記載の方法。
(項目3)
前記複数の副層は、ベルヌーイ層、イジング層、ワンホット層、フォンミーゼスフィッシャー層、ガウス層、ReLU層、クリップされたReLU層、スチューデント-t層、序数層、指数関数層、および複合層のうちの少なくとも1つを備える、項目1に記載の方法。
(項目4)
前記RBMは、深層ボルツマンマシン(DBM)であり、前記隠れ層は、複数の隠れ層のうちの1つである、項目1に記載の方法。
(項目5)
前記RBMは、第1のRBMであり、前記隠れ層は、前記複数の隠れ層のうちの第1の隠れ層であり、前記方法はさらに、
前記第1のRBMから前記隠れ層をサンプリングすることと、
前記第1のRBMからの前記可視層および前記隠れ層をベクトルにスタックすることと、
第2のRBMを訓練することであって、前記ベクトルは、前記第2のRBMの可視層である、ことと、
前記第1および第2のRBMからの加重を前記DBMにコピーすることによって、前記DBMを生成することと
を含む、項目4に記載の方法。
(項目6)
患者の表現型ベクトルを受信することと、
前記RBMを使用し、疾患の時間進行を生成することと、
前記生成された時間進行に基づいて、前記患者を治療することと
をさらに含む、項目1に記載の方法。
(項目7)
前記可視層および前記隠れ層は、第1の時間インスタンスのためのものであり、前記隠れ層はさらに、異なる第2の時間インスタンスからのデータを組み込む第2の隠れ層に接続される、項目1に記載の方法。
(項目8)
前記可視層は、複数の異なる時間インスタンスのためのデータを備える複合層である、項目1に記載の方法。
(項目9)
前記尤度勾配のセットを算出することは、ギブスサンプリングを実施することを含む、項目1に記載の方法。
(項目10)
前記複合勾配のセットは、前記尤度勾配のセットおよび前記敵対勾配のセットの加重平均である、項目1に記載の方法。
(項目11)
前記敵対モデルを訓練することをさらに含み、前記敵対モデルを訓練することは、
真正データに基づいて、データサンプルを引き出することと、
前記RBMに基づいて、架空のサンプルを引き出すことと、
前記データサンプルと前記架空のサンプルとを区別する前記敵対モデルの能力に基づいて、前記敵対モデルを訓練することと
によって行われる、項目1に記載の方法。
(項目12)
前記敵対モデルを訓練することは、特定のサンプルが真正データまたは前記RBMのいずれかから引き出される確率を測定することを含む、項目1に記載の方法。
(項目13)
前記敵対モデルは、完全接続分類子、ロジスティック回帰モデル、最近傍分類子、およびランダムフォレストのうちの1つである、項目1に記載の方法。
(項目14)
前記RBMを使用し、標的集団のサンプルのセットを生成することをさらに含む、項目1に記載の方法。
(項目15)
尤度勾配のセットを算出することは、モンテカルロ推定値および平均場推定値の凸結合を算出することを含む、項目1に記載の方法。
(項目16)
尤度勾配のセットを算出することは、
複数のサンプルを初期化することと、
前記複数のサンプルのうちのサンプル毎に逆温度を初期化することと、
前記複数のサンプルのうちのサンプル毎に、
自己相関されたガンマ分布からサンプリングすることによって、前記逆温度を更新することと、
ギブスサンプリングを使用して、前記サンプルを更新することと
を含む、項目1に記載の方法。
(項目17)
制限ボルツマンマシン(RBM)を訓練するためのプロセッサ命令を含有する非一過性の機械可読媒体であって、プロセッサによる前記命令の実行は、前記プロセッサに、
可視値の第1のセットから、RBMの隠れ層内の隠れ値のセットを生成することと、
前記隠れ値の生成されたセットに基づいて、前記RBMの可視層内の可視値の第2のセットを生成することと、
前記可視値の第1のセットおよび前記可視値の生成されたセットのうちの少なくとも1つに基づいて、尤度勾配のセットを算出することと、
前記隠れ値のセットおよび前記可視値のセットのうちの少なくとも1つに基づく敵対モデルを使用して、敵対勾配のセットを算出することと、
前記尤度勾配のセットおよび前記敵対勾配のセットに基づいて、複合勾配のセットを算出することと、
前記複合勾配のセットに基づいて、前記RBMを更新することと
を含むプロセスを実施させる、非一過性の機械可読媒体。
(項目18)
前記RBMの可視層は、異なるデータタイプのための複数の副層から成る複合層を備える、項目17に記載の非一過性の機械可読媒体。
(項目19)
前記RBMは、深層ボルツマンマシン(DBM)であり、前記隠れ層は、複数の隠れ層のうちの1つである、項目17に記載の非一過性の機械可読媒体。
(項目20)
前記RBMは、第1のRBMであり、前記隠れ層は、前記複数の隠れ層のうちの第1の隠れ層であり、前記プロセスはさらに、
前記第1のRBMから前記隠れ層をサンプリングすることと、
前記第1のRBMからの前記可視層および前記隠れ層をベクトルにスタックすることと、
第2のRBMを訓練することであって、前記ベクトルは、前記第2のRBMの可視層である、ことと、
前記第1および第2のRBMからの加重を前記DBMにコピーすることによって、前記DBMを生成することと
を含む、項目19に記載の非一過性の機械可読媒体。
説明および請求項は、本発明の例示的実施形態として提示され、本発明の範囲の完全な記載として解釈されるべきではない、以下の図およびデータグラフを参照して、より完全に理解されるであろう。
図1は、本発明のいくつかの実施形態による、確率分布をモデル化するためのデータの収集および分布を提供するシステムを図示する。
図2は、確率論的モデルを訓練および利用するためのデータ処理要素を図示する。
図3は、確率論的モデルを訓練および利用するためのデータ処理アプリケーションを図示する。
図4は、分析のためのデータを準備するためのプロセスを概念的に図示する。
図5は、本発明のある実施形態による、一般化ボルツマンマシンを実装するためのデータ構造を図示する。
図6は、本発明のいくつかの実施形態による、双峰分布およびRBM分布によって学習される平滑化拡散分布を図示する。
図7は、本発明のいくつかの実施形態による、一般化制限ボルツマンマシンのためのアーキテクチャを図示する。
図8は、本発明のある実施形態による、一般化ボルツマンマシンを実装するためのスキーマを図示する。
図9は、本発明のある実施形態による、一般化深層ボルツマンマシンのためのアーキテクチャを図示する。
図10は、本発明の実施形態による、逆の層毎の訓練のためのプロセスを概念的に図示する。
図11は、本発明の多くの実施形態による、一般化深層時間ボルツマンマシンのためのアーキテクチャを図示する。
図12は、本発明のいくつかの実施形態による、ボルツマン符号化敵対マシンを訓練するためのプロセスを概念的に図示する。
図13は、対数尤度を最大限にするように訓練されるRBMから、およびBEAMとして訓練されるRBMから引き出される、結果として生じるサンプルを図示する。
図14は、本発明のいくつかの実施形態による、ガウス分布の2D混合についてBEAMを訓練することの結果を図示する。
図15は、本発明のいくつかの実施形態による、ボルツマン符号化敵対マシンを実装するためのアーキテクチャを図示する。
図16は、正規ギブスサンプリングを用いてボルツマンマシンから引き出されるサンプルと、温度駆動型サンプリングを使用して引き出されるものとの間の比較を図示する。 同上。
図17は、正規ギブスサンプリングを使用してMNISTデータセットについて訓練されるGRBMによって生成される架空の粒子と、TDSを使用するものとの間の比較を図示する。
機械学習は、複雑な確率分布をモデル化することへの1つの潜在的アプローチである。以下の説明では、多くの実施例が、医療用途を参照して説明されるが、当業者は、本明細書に説明される技法が、(限定ではないが)健康情報学、画像/オーディオ処理、マーケティング、社会学、および研究室での研究を含む、種々の異なる分野で容易に適用され得ることを認識するであろう。最も差し迫った問題のうちの1つは、多くの場合、特定の着目問題に直接対処する標識データが殆どまたは全くないことである。患者が臨床試験において治験治療薬に応答するであろう方法を予測するタスクを考慮されたい。教師付き学習設定では、治療薬を多くの患者に投与し、各患者が応答する方法を観察するであろう。次いで、本データを使用し、新しい患者が治療薬に応答するであろう方法を予測するモデルを構築するであろう。例えば、最近傍分類子は、以前に治療された患者のプールに目を通し、新しい患者に最も類似する患者を見出し、次いで、以前に治療された患者の応答に基づいて、新しい患者の応答を予測するであろう。しかしながら、教師付き学習は、有意量の標識データを要求し、特に、サンプルサイズが小さい、または標識データが容易に利用可能ではない場合、教師なし学習が、機械学習の成功した適用に不可欠である。
コンピュータビジョン等の多くの機械学習用途は、入力および訓練データを正規化するように前処理または別様に操作されなければならない、均一な情報(例えば、同一形状および分解能の画像)の使用を要求する。しかしながら、多くの用途では、多くのソースからの種々のタイプのデータ(例えば、画像、数字、カテゴリ、範囲、テキストサンプル等)を組み合わせることが望ましい。例えば、医療データは、(限定ではないが)人口統計情報(例えば、患者の年齢、民族性等)、診断(例えば、患者が特定の疾患を有するかどうかを説明する2進コード)、研究室値(例えば、血液検査等の研究室検査からの結果)、医師のメモ(例えば、医師によってとられる、または医療記録システムに入力される手書きのメモ)、画像(例えば、X線、CTスキャン、MRI等)、およびオミクスデータ(例えば、患者の遺伝的背景、その遺伝子の発現等を説明する、DNA配列決定研究からのデータ)を含む、種々の異なるソースからの種々の異なるタイプの情報を含むことができる。これらのデータのうちのいくつかは、2進数であり、いくつかは、連続的であり、いくつかは、カテゴリ別である。これらの異なるタイプおよびソースのデータの全てを統合することは、重要であるが、機械学習への従来的アプローチを用いて種々のデータタイプを扱うことは、極めて困難である。典型的には、データは、機械学習に使用される特徴の全てが、同一のタイプであるように、大いに前処理される必要がある。データ前処理ステップは、機械学習モデルを訓練および実装することで分析者の時間の大部分を占め得る。
多くの異なるタイプのデータを処理することに加えて、分析に使用されるデータは、多くの場合、不完全または不規則である。医療データの実施例では、医師は、多くの場合、全患者に検査の同一のセットを実行するわけではない(ただし、臨床試験は、重要な例外である)。代わりに、医師は、患者について具体的な懸念がある場合に検査を注文するであろう。したがって、医療記録は、欠落した観察を伴う多くのフィールドを含有する。しかし、これらの観察は、無作為に欠落し得ない。これらの欠落した観察を取り扱うことは、医療における機械学習の任意の適用の重要な一部である。
医療における機械学習に関して、欠落したデータの2つの含意がある。第1に、任意のアルゴリズムは、訓練セットに欠落した観察がある場合に、データから学習することができる必要がある。第2に、アルゴリズムは、入力観察のサブセットのみを提示されるときでさえも、予測を行うことができる必要がある。すなわち、同時確率分布から任意の条件関係を表現することができる必要がある。
近年、大きな注目を集めている、1つのアプローチは、敵対的生成ネットワーク(GAN)の使用である。GANは、それらの従来的公式化では、フィードフォワードニューラルネットワークを通して、ランダムガウスノイズを可視ベクトルに変換する、ジェネレータを使用する。本公式化を用いたモデルは、標準誤差逆伝搬プロセスを使用して訓練されることができる。しかしながら、GAN訓練は、ジェネレータおよびディスクリミネータ(またはクリティック)の訓練の間の慎重な平衡を要求し、不安定である傾向がある。また、GANを用いて恣意的条件付き分布からサンプルを生成することは可能ではなく、異なるデータタイプおよび欠落した観察を伴う異種データセットを伴う問題にGANを適用することは、非常に困難であり得る。
本発明の多くの実施形態は、複雑な確率分布の確率論的教師なし機械学習モデルを訓練および実装するための異種、不規則、および非標識データの使用のための新規かつ革新的システムおよび方法を提供する。
確率分布をモデル化するためのシステム
ここで図面を参照すると、本発明のいくつかの実施形態による、確率分布をモデル化するためのデータの収集および分布を提供するシステムが、図1に示される。ネットワーク100は、通信ネットワーク160を含む。通信ネットワーク160は、ネットワーク160に接続されるデバイスが、他の接続されたデバイスと通信することを可能にする、インターネット等のネットワークである。サーバシステム110、140、および170は、ネットワーク160に接続される。サーバシステム110、140、および170はそれぞれ、ネットワーク160を経由してクラウドサービスをユーザに提供するプロセスを実行する内部ネットワークを介して、相互に通信可能に接続される、1つ以上のサーバのグループである。本議論の目的のために、クラウドサービスは、ネットワークを経由してデータおよび/または実行可能アプリケーションをデバイスに提供するように、1つ以上のサーバシステムによって実行される、1つ以上のアプリケーションである。サーバシステム110、140、および170は、内部ネットワーク内に3つのサーバをそれぞれ有して示される。しかしながら、サーバシステム110、140、および170は、任意の数のサーバを含んでもよく、任意の付加的な数のサーバシステムが、クラウドサービスを提供するようにネットワーク160に接続されてもよい。本発明の種々の実施形態によると、本発明の実施形態による、複雑な確率分布をモデル化するシステムおよび方法を使用するネットワークが、ネットワーク160を経由して通信する単一のサーバシステムおよび/またはサーバシステムのグループ上で実行されているプロセス(またはプロセスのセット)によって提供されてもよい。
ユーザは、ネットワーク160に接続する個人用デバイス180および120を使用し、本発明の種々の実施形態による、複雑な確率分布をモデル化するシステムおよび方法を使用するネットワークを提供する、および/またはそれと相互作用するためのプロセスを実施してもよい。示される実施形態では、個人用デバイス180は、ネットワーク160への従来の「有線」接続を介して接続される、デスクトップコンピュータとして示される。しかしながら、個人用デバイス180は、デスクトップコンピュータ、ラップトップコンピュータ、スマートテレビ、娯楽ゲーム機、または「有線」接続を介してネットワーク160に接続する任意の他のデバイスであってもよい。モバイルデバイス120は、無線接続を使用してネットワーク160に接続する。無線接続は、無線周波数(RF)信号、赤外線信号、または任意の他の形態の無線シグナリングを使用し、ネットワーク160に接続する、接続である。図1では、モバイルデバイス120は、携帯電話である。しかしながら、モバイルデバイス120は、携帯電話、携帯情報端末(PDA)、タブレット、スマートフォン、または本発明から逸脱することなく、無線接続を介してネットワーク160に接続する任意の他のタイプのデバイスであってもよい。
いくつかの実施形態による、確率論的モデルを訓練および利用するためのデータ処理要素が、図2に図示される。種々の実施形態では、データ処理要素200は、図1を参照して説明されるシステムに類似するネットワーク化システム内のサーバシステムおよび/または個人用デバイスのうちの1つ以上のものである。データ処理要素200は、プロセッサ(またはプロセッサのセット)210と、ネットワークインターフェース225と、メモリ230とを含む。ネットワークインターフェース225は、ネットワーク接続を経由して、ネットワークを横断してデータを送信および受信することが可能である。いくつかの実施形態では、ネットワークインターフェース225は、メモリ230と通信する。いくつかの実施形態では、メモリ230は、限定ではないが、データ処理アプリケーション232、データファイル234、およびモデルパラメータ236を含む、種々のデータを記憶するように構成される任意の形態の記憶装置である。本発明のいくつかの実施形態による、データ処理アプリケーション232は、(限定ではないが)複雑な確率分布をモデル化するために、データファイル234からのデータを使用し、モデルパラメータ236を更新すること等の種々のプロセスを実施するように、プロセッサ210にダイレクトする。
本発明のいくつかの実施形態による、データ処理アプリケーションが、図3に図示される。本実施例では、データ処理要素300は、データ収集エンジン310と、データベース320と、モデルトレーナ330と、生成モデル340と、ディスクリミネータモデル350と、シミュレータエンジン345とを含む。モデルトレーナ330は、スキーマプロセッサ332と、サプリングエンジン334とを含む。本発明の多くの実施形態による、データ処理アプリケーションは、データを処理し、複雑な確率分布をモデル化するために使用され得る確率論的モデルを訓練する。
本発明の多くの実施形態による、データ収集エンジンは、種々の形式で種々のソースからデータを収集する。本発明の多くの実施形態による、収集されたデータは、異種(例えば、種々のタイプ、範囲、および制約を伴うデータ)および/または不完全であり得る、データを含む。当業者は、本発明の実施形態によると、種々のタイプおよび量のデータが、具体的用途の要件にとって適切であるように利用され得ることを認識するであろう。いくつかの実施形態では、データ収集エンジンはさらに、モデルの訓練を促進するようにデータを前処理するためのものである。しかしながら、他の方法で実施される前処理と異なり、本発明のいくつかの実施形態による、前処理は、データタイプおよび/または各データ入力と関連付けられるスキーマに基づいて、自動的に実施される。例えば、ある実施形態では、非構造化テキストの本文(例えば、タイプされた医療メモ、診断、自由形式質問票の応答等)が、(限定ではないが)ベクトル化(例えば、word2vecを使用する)、要約、感情分析、および/またはキーワード分析等の種々の方法で処理される。他の前処理ステップは、(限定ではないが)正規化、平滑化、フィルタリング、および集約を含むことができる。いくつかの実施形態では、前処理は、(限定ではないが)制限ボルツマンマシン、サポートベクトルマシン、回帰ニューラルネットワーク、および畳み込みニューラルネットワークを含む、種々の機械学習技法を使用して実施される。
本発明の種々の実施形態による、データベースは、(限定ではないが)入力データ、前処理されたデータ、モデルパラメータ、スキーマ、出力データ、およびシミュレートされたデータを含む、データ処理アプリケーションによる使用のためのデータを記憶する。いくつかの実施形態では、データベースは、データ処理アプリケーションから別個のマシン上(例えば、クラウド記憶装置、サーバファーム、ネットワーク化データベース内等)に位置する。
本発明のいくつかの実施形態による、モデルトレーナは、生成および/またはディスクリミネータモデルを訓練するために使用される。多くの実施形態では、モデルトレーナは、スキーマプロセッサを利用し、システムに利用可能な種々のデータに関して定義されるスキーマに基づいて、ジェネレータおよび/またはディスクリミネータモデルを構築する。本発明のいくつかの実施形態による、スキーマプロセッサは、異なる方法で異なるタイプのデータを取り扱うためのいくつかの異なる層で構成される、生成モデル(例えば、制限ボルツマンマシン)のための複合層を構築する。いくつかの実施形態では、モデルトレーナは、対数尤度および敵対目的に基づいて複合目的関数を最適化することによって、生成およびディスクリミネータモデルを訓練する。本発明のある実施形態による、生成モデルを訓練することは、サンプリングエンジンを利用し、モデルからサンプルを引き出し、データおよび/またはモデルの確率分布を測定する。そのようなモデルからサンプリングし、モデルから生成されたサンプルを訓練する、および/または引き出すための種々の方法が、下記により詳細に説明される。
多くの実施形態では、生成モデルは、種々の確率分布の予測/シミュレーションを生成するために使用され得る、複雑な確率分布をモデル化するように訓練される。ディスクリミネータモデルは、可視および/または隠れ状態に基づいて、データベースのサンプルとモデル生成サンプルとを判別する。
本発明のいくつかの実施形態による、シミュレータエンジンは、複雑な確率分布のシミュレーションを生成するために使用される。いくつかの実施形態では、シミュレータエンジンは、患者集団、疾患進行、および/または種々の治療への予測される応答をシミュレートするために使用される。本発明のいくつかの実施形態による、シミュレータエンジンは、データの確率分布をシミュレートする生成モデルからサンプルを引き出すためのサンプリングエンジンを使用する。
上記に説明されるように、データ収集プロセスの一部として、本発明のいくつかの実施形態による、データは、データを単純化するために前処理される。多くの場合、極めて手動であり、データに特有である、他の前処理と異なり、これは、別の個人からの付加的入力を伴わずに、データのタイプに基づいて自動的に実施されることができる。
本発明のいくつかの実施形態による、分析のためのデータを準備するためのプロセスが、図4に概念的に図示される。プロセス400は、非構造化データを処理する(405)。本発明の多くの実施形態による、非構造化データは、処理を加速するために、および/または関連性があるデータを記憶するためのメモリ要件を低減させるために、前処理され得る、種々のタイプのデータを含むことができる。そのようなデータの実施例は、(限定ではないが)テキストの本文、信号処理データ、オーディオデータ、および画像データ含むことができる。本発明の多くの実施形態による、非構造化データを処理するステップは、(限定ではないが)特徴識別、要約、キーワード検出、感情分析、および信号分析を含むことができる。
プロセス400は、スキーマに基づいてデータを並べ替える(410)。ある実施形態では、プロセスは、類似データタイプをグループ化し、データタイプの効率的な処理を可能にすることによって、スキーマで定義される異なるデータタイプに基づいて、データを並べ替える。本発明のいくつかの実施形態による、プロセス400は、データの尺度を変更し(415)、純粋に測定の尺度に基づいて、あるデータ要素の過剰提示を防止する。プロセス400は、次いで、前処理されたデータを、スキーマで識別されるデータタイプに基づいて構造化されるボルツマンマシンの副層にルーティングする(420)。ボルツマンマシン構造およびアーキテクチャの実施例は、下記により詳細に説明される。いくつかの実施形態では、データは、深層時間ボルツマンマシンへの入力のために、時間順データ構造に前処理される。深層時間ボルツマンマシンは、下記により詳細に説明される。
本発明のいくつかの実施形態による、ボルツマンマシンへの入力のための時間データ構造が、図5に図示される。図5の実施例は、3つのデータ構造510、520、および530を示す。データ構造はそれぞれ、特定の時間(すなわち、時間t0、t1、およびtn)に捕捉されるデータ値のセットを表す。本実施例では、ある特質(例えば、性別、民族性、生年月日等)が、通常、経時的に変化しない一方で、他の特性(例えば、検査結果、医療スキャン等)は、経時的に変化する。実施例はさらに、あるデータが、ある個人に関して、ある時間にわたってあるフィールドに関して欠落し得ることを示す。本実施例では、各個人は、患者機密情報を維持するために、別個の識別番号を割り当てられる。
ボルツマン符号化敵対マシン
前方KLダイバージェンス、すなわち、DKL(pdata||pθ)を最小限にするように訓練されるモデルは、データ分布のサポートを網羅するようにモデル分布を拡散する傾向がある。拡散分布の実施例が、図6に図示される。具体的には、図6は、双峰分布610およびRBM分布620によって学習される極めて良好な平滑化拡散分布を図示する。RBMは、そのような良好な近似を生成することができるが、より細かく、より複雑な分布に直面したときに苦戦し得る。
従来的ボルツマンマシンに関する問題を克服するために、本発明のいくつかの実施形態は、本明細書ではボルツマン符号化敵対マシン(BEAM)と称される、敵に対してボルツマンマシンを訓練するためのフレームワークを実装する。BEAMは、負の対数尤度および敵対損失の組み合わせである、損失関数を最小限にする。敵対成分は、BEAM訓練が、前方および逆KLダイバージェンスの両方の同時最小限化を実施し、正規RBMで観察される過剰平滑化問題を防止することを確実にする。
ボルツマンマシンアーキテクチャ
多くの従来の機械学習技法では、教師付き学習が、標識データの大規模セットについてモデルを訓練し、予測および分類を行うために使用される。しかしながら、多くの場合、標識データのそのような大規模サンプルを収集することは実行可能または可能ではない。多くの場合、データは、容易に標識されることができない、または単純に、教師付き学習モデルを有意義に訓練するためにイベントの十分なサンプルが存在しない。例えば、臨床試験は、多くの場合、そのような標識データを収集する際に困難に直面する。臨床試験は、典型的には、3つの主要相を通して進む。第I相では、治療薬が、その安全性を査定するように健康なボランティアに投与される。第II相では、治療薬が、安全性および有効性の初期推定値を取得するように、約100人の患者に投与される。最終的に、第III相では、治療薬が、薬物の有効性を厳密に調査するように、数百人から数千人の患者に投与される。第II相の前に、望ましい適応に関して治験薬の効果についての人体内データがなく、教師付き学習を不可能にする。第II相の後に、治験薬の効果についてのある程度の人体内データが存在するが、サンプルサイズは、極めて限定され、教師付き学習技法を無効にする。比較のために、第II相臨床試験が、100~200人の患者を有し得る一方で、コンピュータビジョンにおける機械学習の典型的アプリケーションは、何百万もの標識画像を使用し得る。限定されたデータを用いた多くの状況と同様に、多くの重要な問題に関する大規模標識データセットの欠如は、健康情報学が、教師なし学習のための方法に大いに依拠しなければならないことを含意する。
制限ボルツマンマシン(RBM)
教師なし学習を使用する1つの機械学習モデル(または方法)は、制限ボルツマンマシン(RBM)である。RBMは、ニューロン(単位とも呼ばれる)が、2つの層、すなわち、可視層および隠れ層に分割される、双方向ニューラルネットワークである。可視層vは、観察されたデータを説明する。隠れ層hは、可視単位の間の相互作用を捕捉する、観察されていない潜在的変数のセットから成る。モデルは、指数関数形を使用して、vおよびhの同時確率分布を説明する。
Figure 2022031730000002
ここで、E(v,h)は、エネルギー関数と呼ばれ、
Figure 2022031730000003
は、分配関数と呼ばれる。多くの実施形態では、プロセスは、積分作用素
Figure 2022031730000004
を使用し、標準積分または離散セット内の要素の全てにわたる総和の両方を表す。
従来的RBMでは、可視および隠れ単位は両方とも、2進数(binary)である。それぞれは、値0または1のみをとることができる。エネルギー関数は、以下のように記述されることができる、
Figure 2022031730000005
またはベクトル表記法では、
Figure 2022031730000006
である。可視単位は、加重Wを通して隠れ単位と相互作用することに留意されたい。しかしながら、可視・可視または隠れ・隠れ相互作用は、存在しない。
RBMの主要な特徴は、条件付き確率を算出することが容易であることである。
Figure 2022031730000007
および
Figure 2022031730000008
同様に、条件付きモーメントを算出することも、容易である。
Figure 2022031730000009
および
Figure 2022031730000010
しかしながら、同時分布から統計を算出することは、概して非常に困難である。結果として、同時分布からの統計は、マルコフ連鎖モンテカルロ(MCMC)等のランダムサンプリングプロセスを使用して、推定される必要がある。
RBMは、対数尤度
Figure 2022031730000011
を最大限にすることによって訓練されることができる。ここで、
Figure 2022031730000012
は、観察されたサンプルの全てにわたる平均を表す。モデルθのあるパラメータに関する対数尤度の導関数は、以下である。
Figure 2022031730000013
RBMの標準公式化では、3つのパラメータa、b、およびWが存在する。導関数は、以下である。
Figure 2022031730000014
同時分布から期待値を算出することは、概して、計算上面倒である。したがって、導関数は、MCMCプロセスを用いて引き出されるモデルからのサンプルを使用して、算出される必要がある。サンプルは、交互ギブスサンプリングを使用して、RBMから引き出されることができる。
Figure 2022031730000015
理論上、ギブスサンプリングは、n→∞である制限内でp(v,h)から無相関ランダムサンプルを生成する。当然ながら、無限は、長い時間である。したがって、RBMの対数尤度の導関数は、通常、2つのプロセス、すなわち、対照ダイバージェンス(CD)または持続性対照ダイバージェンス(PCD)のうちの1つを使用して、近似される。K-ステップCDは、非常に単純である。すなわち、データのバッチを取り込む。データから開始して、ギブスサンプリングのk-ステップを起動することによって、モデルからサンプルの近似バッチを算出する。対数尤度の勾配を算出し、モデルパラメータを更新する。重要なこととして、モデルからのサンプルは、勾配更新毎に観察されたデータのバッチを使用して、再初期化される。K-ステップPCDは、類似する。最初に、モデルからのサンプルが、データのバッチを使用して、初期化される。サンプルが、kステップに関して更新され、勾配が、算出され、パラメータが、更新される。CDと対照的に、モデルからのサンプルは、決して再初期化されない。本発明のいくつかの実施形態による、ボルツマンマシンの多くのアーキテクチャは、サンプリングを利用し、ボルツマンマシンを訓練するための導関数を算出する。本発明のいくつかの実施形態による、サンプリングのための種々の方法は、以下により詳細に説明される。
一般化RBM
従来的ボルツマンマシンの使用で生じる1つの課題は、多くのRBMが、2進単位を使用する一方で、処理されるべきデータの多くは、種々の異なる形態で現れ得ることである。本制限を克服するために、本発明のいくつかの実施形態は、一般化RBMを使用する。本発明のいくつかの実施形態による、一般化RBMが、図7に図示される。図7の実施例は、可視層710および隠れ層720を伴う一般化RBM700を示す。可視層710は、種々のタイプ(すなわち、連続、カテゴリ別、および2進数)のいくつかのノードから成る複合層である。可視層710のノードは、隠れ層720のノードに接続される。本発明のいくつかの実施形態による、一般化RBMの隠れ層は、複合可視層へのコンパイルされた入力に基づいて、個人(例えば、臨床試験における患者)の低次元表現として動作する。
本発明のいくつかの実施形態による、一般化RBMは、エネルギー関数を用いて訓練される。
Figure 2022031730000016
式中、a(・)およびb(・)は、恣意的関数であり、σ>0およびε>0は、それぞれ、可視および隠れ層のスケールパラメータである。異なる関数(層タイプと呼ばれる)が、異なるタイプのデータを表すために使用される。種々のタイプのデータをモデル化するために使用される層タイプの実施例が、下記に説明される。
ベルヌーイ層:ベルヌーイ層が、2進データv∈{0,1}を表すために使用される。バイアス関数は、a(v)=avであり、スケールパラメータは、σ=1に設定される。
イジング層:イジング層は、可視単位v∈{-1,+1}に関する対称化ベルヌーイ層である。バイアス関数は、a(v)=avであり、スケールパラメータは、σ=1に設定される。
ワンホット層:ワンホット層は、v∈{0,1}およびΣ=1である、データを表す。すなわち、単位のうちの1つが、オンにされ、他の単位の全てが、オフにされる。ワンホット層は、カテゴリ変数を表すために一般的に使用される。バイアス関数は、a(v)=avであり、スケールパラメータは、σ=1に設定される。
フォンミーゼスフィッシャー層:フォンミーゼスフィッシャー層は、v∈[0,1]およびΣ =1である、データを表す。すなわち、単位は、n次元球体の表面に限定される。本層は、
Figure 2022031730000017
が球体の性質を満たすため、x∈[0,1]およびΣ=1である分数データをモデル化するために特に有用である。バイアス関数は、a(v)=avであり、スケールパラメータは、σ=1に設定される。
ガウス層:ガウス層は、
Figure 2022031730000018
である、データを表す。バイアス関数は、
Figure 2022031730000019
である。場所
Figure 2022031730000020
およびスケールσ、すなわち、層のパラメータは両方とも、概して、訓練可能である。実践では、これは、対数σの観点からモデルをパラメータ化し、スケールパラメータが正に留まることを確実にすることに役立つ。
ReLU層:正規化線形単位(ReLU)層は、
Figure 2022031730000021
を伴って
Figure 2022031730000022
である、データを表す。ボルツマンマシンとの関連で、ReLU層は、本質的に、片側切断ガウス層である。バイアス関数は、ドメイン
Figure 2022031730000023
にわたって
Figure 2022031730000024
である。場所
Figure 2022031730000025
およびスケールσ、すなわち、層のパラメータが両方とも、概して、訓練可能である一方で、
Figure 2022031730000026
は、典型的には、訓練の前に規定される。実践では、これは、対数σの観点からモデルをパラメータ化し、スケールパラメータが正に留まることを確実にすることに役立つ。
クリップされたRelu層:クリップされた正規化線形単位(ReLU)層は、
Figure 2022031730000027
を伴って
Figure 2022031730000028
である、データを表す。ボルツマンマシンとの関連で、クリップされたReLU層は、本質的に、両側切断ガウス層である。バイアス関数は、ドメイン
Figure 2022031730000029
にわたって
Figure 2022031730000030
である。場所
Figure 2022031730000031
およびスケールσ、すなわち、層のパラメータが両方とも、概して、訓練可能である一方で、
Figure 2022031730000032
は、典型的には、訓練の前に規定される。実践では、これは、対数σの観点からモデルをパラメータ化し、スケールパラメータが正に留まることを確実にすることに役立つ。
スチューデント-t層:スチューデント-t分布は、ガウス分布に類似するが、より太いテールを有する。種々の実施形態では、スチューデント-t層の実装は、暗示的である。層は、3つのパラメータ、すなわち、平均を制御する場所パラメータ
Figure 2022031730000033
、分散を制御するスケールパラメータv、およびテールの厚さを制御する自由度パラメータdを有する。層は、分散
Figure 2022031730000034
を引き出し、次いで、
Figure 2022031730000035
としてエネルギーをとることによって定義される。
序数層:序数層は、整数値データv∈{0,N}を表すために使用される、ベルヌーイ層の一般化である。バイアス関数は、a(v)=avであり、スケールパラメータは、σ=1に設定される。上限値Nは、前もって規定される。
ガウス序数層:ガウス序数層は、より柔軟な分布を伴う整数値データv∈{0,N}を表すために使用される、序数層の一般化である。バイアス関数は、
Figure 2022031730000036
である。上限値Nは、前もって規定される。
指数関数層:指数関数層は、
Figure 2022031730000037
である、データを表す。バイアス関数は、a(v)=avであり、スケールパラメータは、σ=1に設定される。指数関数層は、接続された隠れ単位の全ての値に関して
Figure 2022031730000038
であるため、いくつかの制約を有することに留意されたい。典型的には、これは、指数関数層に接続され得る層のタイプを限定し、加重の全てが正であることを確実にすることを要求する。
複合層:複合層は、前述で説明された層タイプの場合のように、それ自体が数学的対象ではない。代わりに、複合層は、異なるタイプの複数の副層を組み合わせ、異種データをモデル化し得るメタ層を作成するためのソフトウェア実装である。
本発明の実施形態による、データをモデル化するための層の具体的実施例が、上記に説明されるが、しかしながら、当業者は、任意の数のプロセスが、本発明の実施形態による、具体的用途の要件にとって適切であるように利用され得ることを認識するであろう。
スキーマ
本発明のいくつかの実施形態による、スキーマが、図8に概念的に図示される。一般化RBMの異なる層の説明を伴うスキーマが、図8に図示される。スキーマは、個人による面倒な前処理を要求することなく、モデルが特定のタイプのデータを取り扱うように調整されることを可能にする。異なる層は、不完全および/または不規則であり得る、異なるタイプの異種データを可能にする。
本発明の実施形態による、モデルを構築するためのスキーマの具体的実施例が、上記に説明されるが、しかしながら、当業者は、任意の数のプロセスが、本発明の実施形態による、具体的用途の要件にとって適切であるように利用され得ることを認識するであろう。
一般化深層ボルツマンマシン(DBM)
深層学習は、モデルが一連の変換を通してデータを処理する、機械学習へのアプローチを指す。目標は、予備知識を使用して特徴を作成するように研究者に要求するのではなく、モデルが適切な特徴を構築することを学習することを可能にすることである。
一般化深層ボルツマンマシン(DBM)は、本質的に、大量のRBMである。本発明のいくつかの実施形態による、一般化DBMが、図9に図示される。一般化DBM900は、隠れ層920に接続される可視層910を示す。隠れ層920はさらに、別の隠れ層930に接続される。可視層910は、隠れ層920に符号化され、これは、次いで、次の隠れ層930のための可視層のように動作する。
l=1,…,Lである、L個の隠れ層hを用いたDBMを考慮されたい。
DBMのエネルギー関数は、以下である。
Figure 2022031730000039
DBMは、原則として、RBMと同一の方法で訓練されることができる。しかしながら、実践では、DBMは、多くの場合、貪欲な層毎のプロセスを使用して訓練される。貪欲な層毎のプロセスの実施例は、R. SalakhutdinovおよびG. HintonのArtificial Intelligence and Statistics (2009) pp.448-455(参照することによって本明細書に組み込まれる)に説明される。本質的に、DBMの前方の層毎の訓練は、エネルギー関数を用いて一連のRBMを訓練することによって進む。
Figure 2022031730000040
式中、前のRBMの出力が、次のRBMの入力として使用される。本前方の層毎の方法でDBMを訓練するときに、データ分布から情報を入手し、モデルの深層の中に伝搬することは、困難であり得る。結果として、2~3を上回る隠れ層を伴うDBMを訓練することは、概して困難である。
DBMの前方の層毎の訓練を用いて制限を克服するために、本発明の多くの実施形態による、方法は、最深隠れ層hから開始して、vに向かって後方に作用し、逆にDBMを訓練する。これは、最深隠れ層が、可視層について可能な限り多くの情報を含有しなければならないことを確実にする。逆の層毎の訓練手順は、コネクティビティv-h-hを伴う3層DBMが、コネクティビティ[v,h2]-hを伴う2層RBMと同一であり、複合層を伴うRBMが、DBMのコネクティビティグラフを後方まで伝達することを可能にするという事実を利用する。
本発明の実施形態による、逆の層毎の訓練のためのプロセスが、図10に概念的に図示される。プロセス1000は、コネクティビティv-hを伴う第1のRBMを訓練する(1005)。プロセス1000は、訓練されたRBMからh~p(h|v)をサンプリングする(1010)。プロセスは、次いで、vおよびhをベクトル[v,h]にスタック(1015)し、コネクティビティ[v,h]-hL-1を伴う第2のRBMを訓練する(1020)。プロセス1000は、次いで、[v,h]-hが到達されたかどうかを決定する(1025)。これが到達されていないとき、プロセス1000は、ステップ1005に戻る。プロセス1100が、[v,h]-hが到達されたことを決定するとき、プロセスは、これらの中間RBMのそれぞれからの加重をDBM内のそれらの個別の位置にコピーする(1030)。いくつかの実施形態では、DBMは、次いで、正規終端間訓練によって微調整されることができる。
時系列のためのボルツマンマシン
多くの問題(例えば、患者軌道をモデル化すること)は、時系列を生成する能力を要求する。すなわち、一連の状態
Figure 2022031730000041
を生成するためである。本発明の多数の実施形態による、2つのアプローチが、下記に説明される。
自己回帰ボルツマンマシン(ADBM)は、隠れ層が、隣接する時点を接続する無向縁を有する、DBMである。結果として、ADBMは、ノードをそれらの前の時点に関連付ける。本発明のいくつかの実施形態による、一般化ADBMが、図11に図示される。一般化ADBM1100は、同様に時間tにおける隠れ層1120に接続される、時間tにおける可視層1110を示す。隠れ層1120はさらに、τによって時間tからオフセットされるデータを組み込む、別の隠れ層1130に接続される。
結果として、ADBMは、同時確率分布p(v(0),…,v(τ))を説明するシーケンス全体のモデルである。具体的には、x(t)=[v(t),h(t),…,h(t)]を時間tにおける層の全ての状態を示しているものとする。また、EDBM(x(t))を以下によって求められるDBMのエネルギーとする。
Figure 2022031730000042
ADBMのエネルギー関数は、以下である。
Figure 2022031730000043
簡単にするため、これは、最後の隠れ層をその前の値と接続する、単一の自己回帰接続を用いて図示されている。しかしながら、当業者は、本モデルが複数の時間遅延または層の間の異時点間接続を含むように拡張され得ることを認識するであろう。
前の節に説明されるようなADBMは、時間を通して相関を捕捉することができるが、多くの場合、非定常分布またはドリフトを伴う分布を表すことができない。例えば、変性疾患がある殆どの患者は、経時的に悪化する傾向があり、これは、ADBMが捕捉することができない影響である。本影響を捕捉するために、本発明の多くの実施形態は、一般化条件付きボルツマンマシン(GCBM)を実装する。可視単位
Figure 2022031730000044
の時系列を考慮されたい。同時確率分布は、積
Figure 2022031730000045
に因数分解されることができる。いくつかの実施形態では、本モデルは、2つのDBMから構築されることができる。最初に、非時間依存性DBM、すなわち、pが、データの全てについて訓練されることができる。次に、時間依存性DBMは、隣接する時点[v(t),v(t-1)]の全てを継合することによって生成される複合層について訓練されることができる。本実施例では、第2のDBMは、p(v(t)|v(t-1))およびp(v(t-1)|v(t))の両方を算出することを可能にし、前方および後方予測の両方を可能にする、同時分布p(v(t),v(t-1))を説明する。
本実施例は、単一の時間差を使用して説明されるが、当業者は、本発明の多くの実施形態による、プロセスが、より長いおよび/または複数の時間差を考慮するように調節され得ることを認識するであろう。例えば、第2のDBMは、複数の時間差、例えば、[v(t),v(t-1),…,v(t-n)]を含むように容易に拡張され得る、複合層について訓練されることができる。
RBMを訓練する
RBMの性能を改良するための複数の経路が存在する。これらは、正則化、新規の最適化アルゴリズム、代替目的関数、および改良された勾配推定量への新しいアプローチを含む。本発明のいくつかの実施形態による、システムおよび方法は、代替目的関数および改良された勾配推定量を実装する。
RBMのための敵対目的
機械学習モデルは、未知の確率分布から新しいサンプルを引き出すことを学習する場合、生成的である。生成モデルは、データの有用な表現を学習するために、および/または未知または非常に複雑な機構的法則を用いてシステムのシミュレーションを可能にするために、使用されることができる。あるモデルパラメータθによって定義される生成モデルは、ある変数vを観察することの確率を表す。したがって、生成モデルを訓練することは、データp(v)の分布とモデルによって定義される分布pθ(v)との間の距離を最小限にすることを伴う。ボルツマンマシンを訓練するための従来的方法は、対数尤度を最大限にし、これは、前方カルバック・ライブラー(KL)ダイバージェンスを最小限にすることと同等である。
Figure 2022031730000046
前方KLダイバージェンスDKL(p||pθ)は、データ分布下の確率によって加重される、データおよびモデル分布の間の差を蓄積する。逆KLダイバージェンスDKL(pθ||p)は、モデル分布下の確率によって加重される、データおよびモデル分布の間の差を蓄積する。結果として、前方KLダイバージェンスが、データの確率を過小評価するモデルを著しく弱化させる一方で、逆KLダイバージェンスは、データの確率を過大評価するモデルを著しく弱化させる。
RBMの訓練に参入する、偶然性の種々のソースが存在する。偶然性は、それらの対数尤度の差が、それらを推定することの誤差よりも小さい場合に、異なるモデルが統計的に区別不可能になり得ることを含意する。これは、小さいDKL(p||pθ)およびDKL(pθ||p)の両方を伴うモデルが存在するよりも、小さいDKL(p||pθ)を伴う多くのモデルが存在するであろうため、エントロピー力を生成する。結果として、PCDを用いた標準アプローチを使用して、RBMを訓練することは、(あるべき通りに)DKL(p||pθ)を減少させるが、DKL(pθ||p)を増加させる傾向がある。これは、スプリアスモードを伴う分布および/または過剰に平滑化される分布につながる。
前方および逆KLダイバージェンスの組み合わせを最小限にすることによって、RBMの最大尤度訓練の制限を克服することが想像され得る。残念ながら、逆KLダイバージェンスを算出することは、未知であるpの知識を要求する。多くの実施形態では、逆KLダイバージェンスではなく、RBMが、ディスクリミネータダイバージェンスとして新規のタイプのf-ダイバージェンスを使用して、訓練されることができる。
Figure 2022031730000047
とpθとの間の最適なディスクリミネータが、サンプルvがデータ分布から引き出された事後確率を割り当てるであろうことに留意されたい。
Figure 2022031730000048
したがって、ディスクリミネータダイバージェンスは、以下のように記述され、
Figure 2022031730000049
最適なディスクリミネータが、モデル分布から引き出されるサンプルをデータ分布に由来するものとして不正確に分類するであろう確率を測定することを示すことができる。
ディスクリミネータダイバージェンスは、
Figure 2022031730000050
として定義されるf-ダイバージェンスのクラスに属する。ディスクリミネータダイバージェンスを定義する関数は、以下であり、
Figure 2022031730000051
要求に応じて、f(1)=0を伴って凸状である。ディスクリミネータダイバージェンスは、逆KLダイバージェンスの上限を定めることが、示され得る。
Figure 2022031730000052
多くの場合、p(v)に直接アクセスすること、または逆KLダイバージェンスを算出することは、困難である。しかしながら、本発明の多数の実施形態による、方法は、ディスクリミネータを訓練し、方程式15を近似することができ、したがって、ディスクリミネータダイバージェンスを近似することができる。
θから引き出される全てのサンプルに関して
Figure 2022031730000053
であるように、ディスクリミネータをトリックにかけることができるジェネレータは、低いディスクリミネータダイバージェンスを有するであろう。ディスクリミネータダイバージェンスは、逆KLダイバージェンスを密接に反映し、データの確率を過大評価するモデルを著しく弱化させる。
本発明の多数の実施形態による、方法は、敵に対してRBMを訓練するためのボルツマン符号化敵対マシン(BEAM)を実装する。本発明のいくつかの実施形態による、BEAMは、負の対数尤度および敵対損失の組み合わせである、損失関数を最小限にする。敵対成分は、BEAM訓練が、前方および逆KLダイバージェンスの両方の同時最小限化を実施し、正規RBMで観察される過剰平滑化問題を防止することを確実にする。
本発明の多くの実施形態による、BEAMを訓練するための方法が、下記に説明される。
Figure 2022031730000054
本発明のいくつかの実施形態による、敵対マシンを訓練するためのプロセスが、図12に概念的に図示される。プロセス1200は、(限定ではないが)上記に説明されるもの等のボルツマンマシン等のモデルからサンプルを引き出す(1205)。サンプルは、(限定ではないが)k-ステップギブスサンプリングおよびTDSを含む、種々の方法に従って、モデルから引き出されることができる。プロセス1200は、次いで、引き出されたサンプルに基づいて勾配を算出する(1210)。プロセス1200は、引き出されたサンプルに基づいて、ディスクリミネータを訓練し(1215)、モデルから引き出されるか、またはデータから引き出されるかのいずれかである、サンプルの分類に基づいて、敵対勾配を算出する。多くの実施形態では、プロセス1200は、次いで、完全複合勾配を算出し(1220)、完全勾配を使用して、モデルパラメータを更新する(1225)。
図13は、対数尤度を最大限にするように訓練されるボルツマンマシンとBEAMとして訓練されるものとの間のいくつかの比較を提示する。本図の実施例は、3つのマルチモーダルデータ分布、すなわち、1次元におけるガウス分布の双峰混合(1310)、2次元で円に配列される8つのガウス分布の混合(1320)、および2次元でグリッドに配列される25個のガウス分布の混合(1330)を図示する。ガウス分布実施例の2次元混合に類似する問題は、GANを試験するために一般的に使用される。各場合において、正規ボルツマンマシンは、データ分布のサポートにわたって確率を拡散することによって、極めて良好な尤度を伴うモデルを学習する。対照的に、BEAMを使用して訓練されるボルツマンマシンは、非常に正確にデータ分布を再現することを学習する。
ガウス分布の2D混合についてBEAMを訓練することの結果の実施例が、図14に図示される。第1のパネル1405は、訓練エポック(epoch)あたりの前方KLダイバージェンスDKL(p||pθ)および逆KLダイバージェンスDKL(pθ||p)の推定値を図示する。第1のパネル1405は、BEAMとしてRBMを訓練することが前方および逆KLダイバージェンスの両方を減少させることを図示する。第2のパネル1410は、訓練中の種々のエポックにおける架空の粒子の分布を図示する。訓練の早期段階で、BEAMの架空の粒子は、データ分布のサポートを横断して拡散され、グリッドの縁の近傍のモードを捕捉する。これらの早期エポックは、グリッドの縁の近傍のモードで密度も集中させる、GANを用いて取得される分布に類似する。訓練が進行するにつれて、BEAMは、次第に、グリッドの中心の近傍のモードを捕捉することを学習する。
本発明のいくつかの実施形態による、ボルツマン符号化敵対マシン(BEAM)のアーキテクチャが、図15に図示される。図示される実施例は、BEAMアーキテクチャの2つのステップを示す。第1の段階1510では、可視層(円)および隠れ層(菱形)を伴うジェネレータ(例えば、RBM)がある。本発明のいくつかの実施形態による、ジェネレータは、隠れ層のノードのセット内で符号化されるように可視層に入力データを通過させることによって、入力データを符号化するように訓練される。本発明のいくつかの実施形態による、ジェネレータは、複雑な分布から現実的サンプルを生成する目的で訓練される。多くの実施形態では、ジェネレータを訓練するための目的関数は、クリティック(またはディスクリミネータ)によって生成される敵対損失からの寄与を含むことができる。
第2の段階1520では、ジェネレータの隠れ層は、隠れ層を評価し、ジェネレータによって学習される結び付けられた加重を使用して、データから引き出されるサンプルとモデルから引き出されるサンプルとを区別する、ディスクリミネータ(またはクリティック)の中にフィードする。ディスクリミネータ(または敵)は、ジェネレータの層を通した単一の前方通過を使用して、可視単位を符号化し、次いで、データからのサンプルとモデルからのサンプルとを判別するように訓練される分類子(例えば、ロジスティック回帰、最近傍分類子、およびランダムフォレスト)を適用することによって、構築される。ディスクリミネータを精緻化することによって、本発明の多くの実施形態による、プロセスは、複雑な確率分布の改良されたモデルを可能にする。別個の段階で示されるが、本発明の多くの実施形態による、BEAMは、クリティックおよびジェネレータの両方を同時に訓練する複合目的で訓練される。ある実施形態では、ディスクリミネータは、訓練を殆ど要求しない単純な分類子である。
本発明のいくつかの実施形態による、目的関数は、以下であり、
Figure 2022031730000055
クリティックからの敵対項
Figure 2022031730000056
からの寄与を含む。本発明のいくつかの実施形態による、敵対項は、以下のように定義されることができ、
Figure 2022031730000057
式中、T(v,h)は、クリティック関数である。いくつかの実施形態では、敵は、RBMと同一のアーキテクチャおよび加重を使用し、可視単位を隠れ単位アクティブ化に符号化する。RBMからサンプリングされるデータおよび架空の粒子の両方に関して算出される、これらの隠れ単位アクティブ化は、データおよびモデル分布の間の距離を推定するためにクリティックによって使用される。
ジェネレータを訓練するための導関数を算出するために、本発明のいくつかの実施形態による、方法は、確率論的導関数トリックを使用し、
Figure 2022031730000058
式中、
Figure 2022031730000059
は、RBMに使用される。
原則として、クリティックは、可視および隠れ単位の任意の関数であり得る。しかしながら、ディスクリミネータダイバージェンスに基づいて、本発明のいくつかの実施形態による、方法は、p(data|v)に単調に関連するクリティックを使用する。ディスクリミネータダイバージェンスは、log p(data|v)を使用し得ることを示唆するが、本発明のある実施形態による、方法は、線形関数T(v)=2*p(data|v)-1を使用する。典型的には、最適なディスクリミネータは、隠れ単位アクティブ化
Figure 2022031730000060
の関数として近似されることができる。関数g(.)は、殆どのGANのように、ニューラルネットワークによって、またはランダムフォレストまたは最近傍分類子等のより単純なアルゴリズムを使用して、実装され得る。いくつかの実施形態では、最適なディスクリミネータへの単純な近似は、分類子が可視単位ではなくRBMジェネレータの隠れ単位アクティビティに作用し得るため、十分であり得る。したがって、最適なクリティックは、最近傍方法を使用して近似されることができる。
X={x,..,x}が、
Figure 2022031730000061
内のpdf p(x)を伴う未知の確率分布からの同様に独立して分配されたサンプルであると仮定されたい。種々の実施形態では、p(x)は、k-最近傍推定値に基づいて、恣意的な点xにおいて推定される。具体的には、本発明のいくつかの実施形態による、方法は、ある正の整数kを固定し、X内のxへのk個の最近傍を算出する。次いで、dが、xと最近傍のうちの最も遠いものとの間の距離であるように定義され、密度p(x)が、半径dの球上の一様な分布の密度であるように推定される。すなわち、以下である。
Figure 2022031730000062
ここで、pθ(v)およびp(v)によって、それぞれ、モデルおよびデータ分布の未知のpdfを表し、2つのベクトルvとv’との間の距離を、それらの隠れ単位アクティブ化の間のユークリッド距離として定義する
Figure 2022031730000063
本距離は、もはや適切なメトリックの性質の全てを満たし得ない。X={v,…,v2N}を、正確に半分がpθから、半分がpから引き出される、サンプルの集合とする。あるkを固定し、X内のk個の最近傍を算出し、dによって、最も遠いものまでの距離を表す。次いで、分母が、上記に説明されるように推定される。jを、pθと対照的にpに由来する最近傍の数とする。分子が、次いで、分母の密度のj/kのみを伴う同一サイズの球上で一様であるものとして推定されることができ、最近傍クリティックがTNN(v):=j/kであるように定義されることを可能にする。多くの実施形態では、最近傍は、訓練データセットからのサンプルのミニバッチと組み合わせられる、モデルからのサンプルのキャッシュされたミニバッチから算出されることができる。
距離加重最近傍クリティックは、逆距離加重を比率数(ratio count)に印加することによって、ある連続性を最近傍クリティックに追加する、一般化である。具体的には、{d,…,d}を、k-最近傍の距離とし、{d,...,d}を、データサンプルから生じる近傍の距離とし、{dj+1,...,d}を、モデルサンプルから生じる近傍の距離とする。多くの実施形態では、距離加重最近傍クリティックは、以下のように定義されることができる。
Figure 2022031730000064
式中、εは、逆の距離を正則化する小さいパラメータである。
ジェネレータおよびディスクリミネータの両方にフィードフォワードニューラルネットワークを使用する、GANの殆どの公式化との関連で、BEAMが、ジェネレータおよび敵のための特徴エクストラクタの両方としてRBMを使用すると言われ得る。種々の実施形態では、本二重使用法は、訓練アルゴリズムの複数のステップのための架空の粒子の単一のセットの再利用を可能にする。具体的には、M個の持続性の架空の粒子の単一のセットが、勾配評価あたりk回更新される。多くの実施形態では、架空の粒子の同一のセットは、対数尤度導関数および敵対導関数を算出するために使用される。次いで、これらの架空の粒子は、クリティック値の最近傍推定値における前の勾配評価からの架空の粒子に取って代わることができる。ステップ毎に架空の粒子を再利用することは、BEAM訓練が、PCDを用いてRBMを訓練することとほぼ同一の計算コストを有することを意味する。
改良された勾配推定値
対数尤度および敵対項の勾配は両方とも、モデル分布に関する期待値を伴う。残念ながら、これらの期待値は、正確に算出されることができない。結果として、期待値は、モンテカルロ方法または他の近似を使用して、近似されることができる。これらの近似勾配の正確度は、結果として生じるモデルの有用性に有意な影響を及ぼし得る。本発明のある実施形態による、近似勾配の正確度を改良することへの異なるアプローチが、下記に説明される。
平均場近似および縮小推定値
勾配のモンテカルロ推定値は、バイアスをかけられていないという利点を有する。すなわち、
Figure 2022031730000065
に伴って
Figure 2022031730000066
である。しかしながら、推定値は、Nが小さいときに高い分散を有し得る。他方では、Thouless-Andersen-Palmer(TAP)拡張から導出されるもの等の平均場推定値は、分析的であり、ゼロ分散を有するが、制御することが困難であり得るバイアスを有する。f(ω)=ωfMC+(1-ω)fMFを、モンテカルロ推定値fMCおよび平均場推定値fMFの凸結合から生成される推定値とする。fの平均二乗誤差が、MSE[f]=Bias[f]+Var[f]=(1-ω)Bias[fMF]+ωVar[fMC]であるように、Bias[f]=(1-ω)Bias[fMF]およびVar[f]=ωVar[fMC]であることを示すことは、容易である。したがって、概して、ωの値を選定し、結合推定量の平均二乗誤差を最小限にすることができる。
テンパリングされたサンプリング
確率分布からサンプルを引き出すことは、本発明の多くの実施形態による、モデルを訓練するための多くのプロセスの重要な構成要素である。これは、多くの場合、多くの1次元分布のための単純な関数呼び出しを用いて行われることができる。しかしながら、ボルツマンマシンからのランダムサンプリングは、はるかに複雑である。
ボルツマンマシンからのサンプリングは、通常、ギブスサンプリングを使用して実施される。ギブスサンプリングは、連続サンプルが相関することを意味する、ローカルサンプリングプロセスである。無相関サンプルを引き出すことは、連続サンプル毎に多くのギブスサンプリングステップを行うように要求する。結果として、ボルツマンマシンから無相関ランダムサンプルのバッチを引き出すことは、長い時間がかかり得る。ランダムサンプルのバッチが、勾配更新毎に要求され、各バッチを生成するために長い時間がかかる場合、ボルツマンマシンを訓練することに、そのような長い時間をかからせ得るため、非実用的になる。したがって、ボルツマンマシンからの連続サンプルの間の相関を減少させる方法が、学習プロセスを大いに加速させることができる。
ボルツマンマシンからの加速されたサンプリングのための多くの方法は、統計物理学からの温度との類推に依拠する。これを行うために、本発明のいくつかの実施形態による、方法は、以下のように確率分布を定義することによって、架空の逆温度βをボルツマンマシンの中に導入する。
Figure 2022031730000067
ボルツマンマシンの原分布は、β=1を設定することによって復元される。
架空の温度は、温度を上昇させる(すなわち、βを減少させる)ことがサンプルの間の自己相関を減少させるため、有用である。構成(v,h)から開始し、構成(v’,h’)で終了する状況を考慮されたい。初期エネルギーは、E(v,h)である。初期構成から最終構成に移行すると、中間構成は、変動するエネルギーを有するであろう。これらの中間構成からの最大エネルギーが、Emaxである場合には、(v,h)から(v’,h’)まで進行するための時間は、ほぼ以下のように増減する。
Figure 2022031730000068
したがって、βを減少させることは、遠隔構成の間で移行するために要求されるギブスサンプリングステップの数を減少させるであろう。
温度を上昇させることは、混合時間を減少させるであろうが、結果として生じた確率分布も変化させる。したがって、単純に訓練中にβ<<1を伴うモデルからサンプリングすることは、モデルが正しく学習することを可能にしないであろう。本発明のある実施形態による、プロセスは、(機械学習および統計学の文献内で)パラレルテンパリングまたは(物理学界で)レプリカ交換と呼ばれるプロセスを使用する。本発明の種々の実施形態による、パラレルテンパリングでは、複数のギブスサンプリング連鎖が、それぞれ異なる温度において並行して起動される。周期的に、2つの連鎖の構成を交換することが試行される。いくつかの実施形態では、交換は、システム全体が平衡状態に留まることを確実にするように、基準(例えば、メトロポリス基準)に基づいて容認または拒否されることができる。長時間後、β=1から開始した構成が、より低い温度(より容易にエネルギー障壁を横断し得る)を用いた連鎖に進行し、β=1で起動する連鎖に戻るであろう。これは、β=1で起動する連鎖が、より速い混合時間を有する一方で、依然として、正しい確率分布からサンプリングすることを確実にする。しかしながら、多くのギブスサンプリング連鎖が並行して起動される必要があるため、計算コストが存在する。
本発明のいくつかの実施形態では、プロセスは、有意な付加的計算コストを負担することなく、ボルツマンマシンを訓練する能力を大いに改良する、温度駆動型サンプリング(TDS)を使用する。TDSは、逐次モンテカルロサンプラの変異型である。m個のサンプルの集合が、モデルからのギブスサンプリング更新を使用して、独立して発展される。パラレルテンパリング中のβ=1連鎖からのサンプルのみとは対照的に、逐次モンテカルロサンプラ内のm個のサンプルのそれぞれが、統計を算出するために使用されるであろうため、これは、パラレルテンパリングプロセスのための複数の連鎖を起動することと同一ではないことに留意されたい。これらのサンプルはそれぞれ、平均<β>=1および分散Var[β]<1を伴う分布から引き出される逆温度を有する。いくつかの実施形態では、各サンプルの逆温度は、モデルの全ギブスサンプリング反復に関して1回、独立して更新されることができる。種々の実施形態では、更新は、逆温度がゆっくりと変動しているように、時間を横断して自己相関される。結果として、サンプルの集合は、モデル分布に近いが、より太いテールを伴う分布から引き出される。これは、はるかに速い混合を可能にする一方で、モデル平均(m個のサンプルの集合にわたって算出される)が、β=1を伴うモデルから算出される平均への密接な近似に留まることを確実にする。自己相関ガンマ分布からのサンプリングの実施例が、下記に説明される。
Figure 2022031730000069
TDSは、Var[β]→0である制限内の逐次モンテカルロサンプラに基づく、標準ギブスサンプリングを含む。TDSを用いて引き出されるサンプルは、ボルツマンマシンの平衡分布からのサンプルではない。ある実施形態では、引き出されたサンプルは、変動する温度に起因するバイアスを補正するように再加重される。
Figure 2022031730000070
温度駆動型サンプリング(TDS)は、ボルツマンマシンからのサンプリングを改良する。正規ギブスサンプリングを用いてボルツマンマシンから引き出されるサンプルとTDSを使用して引き出されるものとの間の直接比較が、図16に図示される。GMM(グレー)は、ガウス混合モデルからのサンプルを指す。GRBM(青)は、ギブスサンプリングの10個のステップを使用して引き出される、同等ボルツマンマシンからのサンプルを指す。TDS(赤)は、ギブスサンプリングの10個のステップとTDSを併用して引き出される、同等ボルツマンマシンからのサンプルを指す。本実施例は、ガウス可視層および3つの隠れ単位を伴うワンホット隠れ層を伴う同等ボルツマンマシンを生成するための、種々の標準偏差を用いて、単純な構造を使用する、(-1,0,+1)に3つのモードを伴うガウス混合モデルを示す。逆温度の自己相関係数および標準偏差は、それぞれ、0.9および0.95に設定された。全ての開始サンプルが、中間モードから初期化された。中間モードから開始して、正規ギブスサンプリングは、10個のステップ後に隣接モードからサンプリングすることができず、対照的に、モードがTDSによって良好に分離されるとき、より太いテールを有し、隣接モードのより良好なサンプリングを可能にする。
訓練時間にTDSを使用することは、結果として生じるモデルに極めて劇的な影響を及ぼし得る。図17では、2つの同じガウス-ベルヌーイRBMが、MNISTデータセットからの手書きの数字のグレースケール画像について訓練された。画像は、一方が正規ギブスサンプリングを使用した(1710)一方で、他方がTDSを使用した(1720)、または(a)がVar[β]=0を用いて訓練され、(b)がVar[β]=0.9を用いて訓練されることを除いて、同じハイパーパラメータを用いて訓練される同じアーキテクチャを伴うモデルに由来する。両方のモデルは、0.0005の学習率および100のバッチサイズを伴うADAMオプティマイザを使用して、持続対照ダイバージェンスの100のエポックに関して訓練される、256の隠れ単位を伴うガウス-ベルヌーイRBMである。温度駆動型サンプリング(TDS)は、MNISTの手書きの数字のモデル(グレースケール)のための学習を改良する。両方のモデルは、低い再構成誤差(データは示されていない)を達成するが、正規ギブスサンプラを用いて訓練されるGRBMは、現実的な架空の粒子を生成することができない。TDSを用いて訓練されるGRBMは、対照的に、現実的な手書きの数字のように見える架空の粒子を生成する。
本発明の実施形態による、確率分布からサンプルを引き出すための具体的プロセスが、上記に説明されるが、しかしながら、当業者は、任意の数のプロセスが、本発明の実施形態による、具体的用途の要件にとって適切であるように利用され得ることを認識するであろう。
用途
すなわち、個々の患者の健康転帰の確率を予測することのみが可能であり得るが、本能力は、大規模集団内のその健康転帰を伴う患者の数を精密に予測することを可能にする。例えば、健康リスクを予測することは、集団に保険を掛けるコストを正確に推定することを可能にする。同様に、患者が特定の治療薬に応答するであろう尤度を予測することは、臨床試験における肯定的転帰の確率を推定することを可能にする。
患者軌道をシミュレートする
患者の予後を正確に予測する能力を開発することは、精密医療に向けた必要なステップである。患者は、その症状、その遺伝情報、診断検査からの結果、患者が受容している任意の医療、およびその健康を特性評価するために関連性があり得る他の情報を説明する、情報の集合として表されることができる。患者についての本情報を含有するベクトルは、時として、表現型ベクトルと呼ばれる。本発明の多くの実施形態による、予後予測のための方法は、患者についての過去および現在の健康情報を使用し、将来の時間における健康転帰を予測する。
患者軌道は、種々の時点における患者の詳細な健康状態(例えば、患者の表現型ベクトル)を説明する時系列を指す。いくつかの実施形態では、予後予測は、患者の軌道(すなわち、その過去および現在の健康情報)を取り込み、具体的な将来の健康転帰(例えば、次の2年以内に心臓発作を有するであろう尤度)についての予測を行う。対照的に、患者の将来の軌道を予測することは、全ての将来の時間におけるその健康の状態を特性評価する情報の全てを予測することを伴う。
これを数学的に構成するために、v(t)を、時間tにおける患者の健康を特性評価する情報の全てを含有する表現型ベクトルとする。したがって、患者軌道は、セット
Figure 2022031730000071
である。実施例の多くは、離散時間ステップ(例えば、1ヶ月)を用いて説明されるが、当業者は、これが必要ではなく、種々の他の時間ステップも、本発明の種々の実施形態に従って採用され得ることを認識するであろう。本発明のいくつかの実施形態では、患者軌道をシミュレートするためのモデルは、離散時間ステップ(例えば、1ヶ月)を使用する。本発明のいくつかの実施形態による、時間ステップの長さは、治療の頻度にほぼ合致するように選択されるであろう。本発明の多くの実施形態による、患者軌道のためのモデルは、軌道に沿った全ての点の同時確率分布p(v,…,v)を説明する。そのようなモデルは、条件付き確率分布p(vτ,…,v|v,…,vτ-1)からサンプリングすることによって予測に使用されることができる。多くの実施形態では、モデルは、条件付き分布を表すことを容易にし、異種データセットに適合されることができるため、ボルツマンマシンであるが、当業者は、本明細書に説明されるプロセスの多くが他のアーキテクチャにも適用され得ることを認識するであろう。
臨床決定支援システム
臨床決定支援システムは、情報を患者、医師、または他の介護者に提供し、患者処置についての選択肢を誘導することに役立つ。シミュレートされた患者軌道は、処置の選択肢を知らせ得る、患者の将来の健康への洞察を提供する。例えば、軽度の認識機能障害がある患者を考慮されたい。医師または介護者は、患者の症状がアルツハイマー病に進行する、または患者が他の認知または心理学的体系を呈し始めるリスクを把握することから利益を得るであろう。ある実施形態では、シミュレートされた患者軌道に基づくシステムが、これらのリスクを予想し、処置選択肢を誘導することができる。患者の集団にわたってそのような予測を集約することはまた、集団レベルリスクを推定することに役立ち、患者の大集団への介護者として作用する高齢者介護施設等の組織による、長期的計画を可能にすることができる。
いくつかの実施形態では、患者軌道のセットが、電子医療記録(実世界データとしても公知である)、自然史データベース、または臨床試験から収集される。本発明の多くの実施形態による、患者軌道は、正規化され、時間依存性ボルツマンマシンを訓練するために使用されることができる。モデルを使用するために、患者の病歴は、tが現在の時間である、軌道
Figure 2022031730000072
の形態で入力され、ボルツマンマシンを使用し、確率分布
Figure 2022031730000073
からの軌道をシミュレートすることができる。次いで、これらのシミュレートされた軌道は、種々の将来の時間における具体的転帰(例えば、アルツハイマーの診断)と関連付けられるリスクを理解するように分析されることができる。ある場合には、治療情報を伴うデータについて訓練されるモデルは、治療選択肢を説明する変数を含有するであろう。そのようなモデルは、異なる治療が条件とされるシミュレートされた転帰リスクを比較することによって、異なる治療選択肢が患者の将来のリスクを変化させるであろう様子を査定するために、使用され得る。多くの実施形態では、介護者または医師が、治療選択肢および/またはシミュレートされた軌道に基づいて、患者を治療することができる。
臨床試験のための対照群をシミュレートする
無作為化臨床試験(RCT)は、治療有効性を査定する際の証拠の至適基準である。RCTでは、各患者が、2つの研究群のうちの1つ、すなわち、患者が実験的治療を用いて治療される治療群、および患者がダミー治療および/または現在の標準の処置を受容するプラセボ群に無作為に割り当てられる。試験の終わりに、治療群内の患者が、プラセボ群内の患者がダミー治療に応答したよりも肯定的に新しい治療に応答した可能性が高かったかどうかを決定するように、統計的分析が、実施される。
実験的治療の有効性を正確に査定するために十分な統計的検出力を有するために、RCTは、多数の患者を含む必要がある。例えば、第III相臨床試験が何千人もの患者を含むことは、珍しくない。十分な検出力を達成するために必要な多数の患者を採用することは、困難であり、多くの臨床試験は、その採用目標を決して満たさない。ほぼ定義上、実験的治療についてのデータは、皆無かそれに近いが、現在の標準の処置の有効性についての多くのデータが存在する可能性が高い。したがって、臨床試験のために必要とされる患者の数を削減するための1つの方法は、対照群を、現在の標準の処置をモデル化するように訓練されるボルツマンマシンからシミュレートされる仮想患者を含有する合成対照群と置換することである。
本発明のいくつかの実施形態による、方法は、シミュレーションを使用し、以前の臨床試験の対照群からのデータを使用してボルツマンマシンを訓練することによって、臨床試験のための合成または仮想対照群を生成する。多くの実施形態では、データセットが、選定された疾患に関する複数の臨床試験の対照群からデータを集約することによって、構築されることができる。次いで、ボルツマンマシンが、現在の標準の処置の下で、その疾患がある患者をシミュレートするように訓練されることができる。本モデルは、次いで、特定の特性(例えば、年齢、民族性、病歴)を伴う患者の集団をシミュレートし、新しい試験の対象患者基準に合致するシミュレートされた患者のコホートを生成するために使用されることができる。いくつかの実施形態では、実験群内の各患者が、ボルツマンマシンの適切な条件付き分布からシミュレートすることによって、同一の基準測定を伴うシミュレートされた患者に合致されることができる。これは、反事実のタイプ(すなわち、実験的治療ではなくプラセボを投与された場合に本患者に起こったであろうこと)を提供することができる。いずれの場合も、シミュレートされた患者からのデータが、本発明の多くの実施形態による、標準統計学的方法を使用して、並行プラセボ群からのデータを補完するために、またはその代わりに、使用されることができる。
直接比較(Head-to-Head)臨床試験をシミュレートする
従来的に、米国内の医療は、個別報酬基準で提供されてきた。しかしながら、価値に基づいた処置に向けた移行が現在進行中である。医薬品との関連で、価値に基づいた処置は、薬物の費用が、錠剤あたりの単純な費用ではなく、それが効果的である程度に基づくであろうことを意味する。結果として、政府および他の支払人は、代替治療の有効性を比較することができる必要がある。
同一の適応を伴う2つの薬物AおよびBを考慮されたい。AおよびBの有効性を比較するための2つの標準方法が存在する。第1に、電子健康記録および保険金請求データを使用し、実世界臨床実践の状況で薬物が効いている程度を観察することができる。代替として、RCTを実行し、薬物の直接比較を実施することができる。これらの方法は両方とも、AおよびBの比較有効性についての結論に到達するために、何年もの付加的観察および/または実験を要する。
本発明の多くの実施形態による、シミュレーションは、直接比較試験を実施するための代替アプローチを提供する。いくつかの実施形態では、各薬物の臨床試験からの詳細な個人レベルデータが、ボルツマンマシンのために訓練データ内に含まれることができる。いくつかの実施形態では、BEAM等のボルツマンマシンを用いて生成されるサンプルが、AとBとの間の直接比較臨床試験をシミュレートするために使用されることができる。しかしながら、個人レベルデータは、通常、臨床試験の実験群に関して公開されない。これらのデータがない場合、本発明のいくつかの実施形態による、実験群からの総合レベルデータが、対照群データについて訓練されたモデルを調節するために使用されることができる。
ゲノム特徴の教師なし学習
ヒトゲノムは、相互作用の非常に複雑なネットワークに関与する2万を上回る遺伝子をコードする。遺伝的相互作用の本ネットワークは、非常に複雑であるため、遺伝子型を表現型に結び付ける機構的モデルを開発することは面倒である。したがって、ゲノム情報から表現型を予測することを目標とする研究は、機械学習方法を使用する必要がある。
臨床設定におけるゲノム研究の一般的目標は、患者が所与の治療薬に応答するであろうかどうかを予測することである。例えば、(例えば、メッセンジャーRNA配列決定実験からの)遺伝子発現を説明するデータが、第II相臨床試験の開始時に収集されてもよい。治療薬への各患者の応答が、試験の終わりに記録され、数学的モデル(例えば、線形またはロジスティック回帰)が、その基準遺伝子発現データから各患者の応答を予測するように訓練される。患者応答の成功した予測は、臨床試験のスポンサが、ゲノム検査を使用し、研究集団を、薬物が成功する可能性が最も高い患者のサブセットに絞ることを可能にするであろう。これは、後続の第III相試験の成功の尤度を改良する一方で、精度医療を通して患者転帰も改良する。
残念ながら、第II相臨床試験は、小規模である(200人)傾向がある。また、遺伝子発現を測定するために使用される配列決定実験は、依然として、極めて高価である。結果として、非臨床遺伝子発現研究でさえも、サイズが限定される。したがって、標準タスクは、200回未満の測定を使用して、最大2万個の特徴(すなわち、遺伝子の発現)を用いた回帰モデルを訓練することを伴う。一般に、線形回帰モデルは、特徴の数が測定の数を上回る場合に、劣決定される。本問題を軽減するための技法が存在するが、殆どのオミクス研究における状況は、非常に不均衡であるため、標準アプローチが失敗する。
多くの実施形態では、未加工遺伝子発現値は、より少数の複合特徴に組み合わせられる。例えば、個々の遺伝子が、生化学経路の一部として相互作用するため、1つのアプローチは、既知の生化学情報を使用し、経路のアクティブ化を説明するスコアを導出することである。次いで、経路アクティブ化スコアが、未加工発現値の代わりに特徴として使用されることができる。しかしながら、生化学ネットワークの複雑性に起因して、第1に経路アクティブ化スコアを構築する方法は、不明確であり得る。
ある実施形態では、深層ボルツマンマシン(DBM)は、オミクス研究のために有用であり得る、教師なし特徴学習のためのツールとして実装される。vを、実験から決定される遺伝子発現値を含有するベクトルとする。DBMは、隠れ単位hの層が、高位レベル特徴への遺伝子発現値の進行性変換を説明する、確率分布
Figure 2022031730000074
を使用して、遺伝子発現ベクトルの分布を説明する。本発明の多くの実施形態による、モデルは、標識を伴わずに訓練されることができ、したがって、いくつかの実施形態では、大規模データセットが、多くの異なる研究を組み合わせることによってコンパイルされることができる。いくつかの実施形態では、事前訓練されたDBMが、
Figure 2022031730000075
を算出することによって、未加工遺伝子発現値のベクトルを特徴の低次元ベクトルに変換するために使用されることができる。本発明のある実施形態による、これらの低次元特徴は、次いで、所与の治療薬に関する薬物応答の予測因子を構築するために、より単純な教師付き学習アルゴリズムへの入力として使用されることができる。
トランスクリプトームの応答を予測する
遺伝子の活性または発現の変化が人体内に及ぼすであろう影響を予測することは、薬物設計および薬物開発の両方にとって重要である。例えば、化合物が人体内に及ぼすであろう影響を予測し得る場合には、創薬のための高スループット計算スクリーンを実施し得る。同様に、治験薬物が異なるタイプの患者に及ぼすであろう影響を予測し得る場合には、人体内の薬物の作用についての直接データがなくても、第II相臨床試験のための患者選択を最適化し得る。
教師付き学習方法を使用し、トランスクリプトームの応答の予測因子を開発するための明白な方法は存在しない。多くの実施形態では、トランスクリプトームの応答は、遺伝子発現の生成モデルを使用して予測される。vを、未加工遺伝子発現値のベクトルとし、pθ(v)を、θによってパラメータ化される遺伝子発現値の分布のモデルとする。また、モデルは、θを増加(または減少)させることが、<v>の増加(または減少)につながるように、θがvの平均値に関連するように、パラメータ化されると仮定されたい。多くの実施形態では、遺伝子の活性iを減少させる薬物の効果は、θを減少させ、<v>の変化を算出することによって、シミュレートされる。いくつかの実施形態では、変化が小さい場合には、これは、導関数
Figure 2022031730000076
を算出することを伴う。
本発明のいくつかの実施形態による、生成モデルの有用性は、遺伝子発現値の間の相互作用を暗示的に学習するモデルの能力に依拠する。すなわち、モデルは、治療薬を使用して遺伝子の活性iを減少させることが、相互作用の複雑なネットワークを介して、ある他の遺伝子jの発現の減少につながることを把握しなければならない。多数の実施形態では、本願の前の節に説明されるようなDBMは、遺伝子の間の相互作用を暗示的に(すなわち、生化学経路または直接遺伝子相互作用の他の方法の機構的理解を構築しようとすることなく)学習する生成モデルとして使用される。
多くの実施形態では、完全教師付き様式で遺伝子発現データについて訓練されるDBMは、個々の患者の概念を有していない。代わりに、観察のベクトルvは、2つの部分、すなわち、遺伝子発現値のベクトルxおよびメタデータのベクトルyに分解されることができる。本発明のいくつかの実施形態による、メタデータは、(限定ではないが)それが由来した組織、患者の健康状態、または他の情報等のサンプルの特性を説明し得る。次いで、いくつかの実施形態では、予測は、条件付き分布
Figure 2022031730000077
から行われることができる。
最後に、本発明のいくつかの実施形態による、個々の患者に関する予測は、遺伝子発現空間内の局所性の概念を使用することができる。
Figure 2022031730000078
を、yが与えられたエネルギーxを定義しているものとする。DBMでは、これはまた、隠れ層の全てにわたって積分することを伴う。ある実施形態では、遺伝子相互作用の局所測定値が、xにおいて評価される
Figure 2022031730000079
の導関数から算出されることができる。
本発明は、ある具体的側面で説明されたが、多くの付加的修正および変形例が、当業者に明白であろう。したがって、本発明は、具体的に説明される以外に実践され得ることを理解されたい。したがって、本発明の実施形態は、あらゆる点に関して、制限的ではなく例証的と見なされるべきである。

Claims (1)

  1. 本明細書に記載の発明。
JP2021185425A 2018-01-17 2021-11-15 確率分布をモデル化するためのシステムおよび方法 Withdrawn JP2022031730A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201862618440P 2018-01-17 2018-01-17
US62/618,440 2018-01-17
US201962792648P 2019-01-15 2019-01-15
US62/792,648 2019-01-15
JP2020539258A JP7305656B2 (ja) 2018-01-17 2019-01-16 確率分布をモデル化するためのシステムおよび方法
PCT/US2019/013870 WO2019143737A1 (en) 2018-01-17 2019-01-16 Systems and methods for modeling probability distributions

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020539258A Division JP7305656B2 (ja) 2018-01-17 2019-01-16 確率分布をモデル化するためのシステムおよび方法

Publications (1)

Publication Number Publication Date
JP2022031730A true JP2022031730A (ja) 2022-02-22

Family

ID=67214040

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020539258A Active JP7305656B2 (ja) 2018-01-17 2019-01-16 確率分布をモデル化するためのシステムおよび方法
JP2021185425A Withdrawn JP2022031730A (ja) 2018-01-17 2021-11-15 確率分布をモデル化するためのシステムおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020539258A Active JP7305656B2 (ja) 2018-01-17 2019-01-16 確率分布をモデル化するためのシステムおよび方法

Country Status (6)

Country Link
US (1) US11636309B2 (ja)
EP (1) EP3740908A4 (ja)
JP (2) JP7305656B2 (ja)
CN (1) CN111758108A (ja)
CA (1) CA3088204A1 (ja)
WO (1) WO2019143737A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636309B2 (en) 2018-01-17 2023-04-25 Unlearn.AI, Inc. Systems and methods for modeling probability distributions
US11868900B1 (en) 2023-02-22 2024-01-09 Unlearn.AI, Inc. Systems and methods for training predictive models that ignore missing features
US12008478B2 (en) 2019-10-18 2024-06-11 Unlearn.AI, Inc. Systems and methods for training generative models using summary statistics and other constraints
US12020789B1 (en) 2023-02-17 2024-06-25 Unlearn.AI, Inc. Systems and methods enabling baseline prediction correction
US12051487B2 (en) 2019-08-23 2024-07-30 Unlearn.Al, Inc. Systems and methods for supplementing data with generative models

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210073669A1 (en) * 2019-09-06 2021-03-11 American Express Travel Related Services Company Generating training data for machine-learning models
WO2021072221A1 (en) 2019-10-09 2021-04-15 Cornell University Quantum computing based hybrid solution strategies for large-scale discrete-continuous optimization problems
EP3809334A1 (en) * 2019-10-17 2021-04-21 Siemens Aktiengesellschaft Evaluation framework for time series data
CN110751291B (zh) * 2019-10-29 2021-02-12 支付宝(杭州)信息技术有限公司 实现安全防御的多方联合训练神经网络的方法及装置
WO2021257128A2 (en) * 2020-02-14 2021-12-23 Cornell University Quantum computing based deep learning for detection, diagnosis and other applications
EP3902314B1 (en) * 2020-04-21 2022-10-12 Rohde & Schwarz GmbH & Co. KG Method of training a test system for mobile network testing, test system as well as method of mobile testing
CN111563721B (zh) * 2020-04-21 2023-07-11 上海爱数信息技术股份有限公司 一种适用于不同标签分布场合的邮件分类方法
JP7614598B2 (ja) * 2020-04-21 2025-01-16 国立大学法人横浜国立大学 ベクトル場情報生成装置、状態判定支援システム、状態予測システム、ベクトル場情報生成方法およびプログラム
US12265909B2 (en) * 2020-06-01 2025-04-01 Salesforce, Inc. Systems and methods for a k-nearest neighbor based mechanism of natural language processing models
US11076824B1 (en) * 2020-08-07 2021-08-03 Shenzhen Keya Medical Technology Corporation Method and system for diagnosis of COVID-19 using artificial intelligence
US11847390B2 (en) * 2021-01-05 2023-12-19 Capital One Services, Llc Generation of synthetic data using agent-based simulations
US12106026B2 (en) 2021-01-05 2024-10-01 Capital One Services, Llc Extensible agents in agent-based generative models
EP4295369B1 (en) * 2021-02-22 2024-12-25 Boehringer Ingelheim International GmbH System and method for measuring the treatment effect of a drug
US11282609B1 (en) * 2021-06-13 2022-03-22 Chorus Health Inc. Modular data system for processing multimodal data and enabling parallel recommendation system processing
US20230044078A1 (en) * 2021-07-30 2023-02-09 Google Llc Unified Sample Reweighting Framework for Learning with Noisy Data and for Learning Difficult Examples or Groups
CN113449205B (zh) * 2021-08-30 2021-11-09 四川省人工智能研究院(宜宾) 一种基于元数据增强的推荐方法及系统
US20250190035A1 (en) * 2022-06-03 2025-06-12 Nec Corporation Optimization apparatus, optimization method, and storage medium
US20240169187A1 (en) * 2022-11-16 2024-05-23 Unlearn.AI, Inc. Systems and Methods for Supplementing Data With Generative Models
KR20250120256A (ko) * 2022-12-02 2025-08-08 발로 헬스, 인코포레이티드 임상 시험 결과를 예측하고 최적화하는 시스템 및 방법
CN115936008B (zh) * 2022-12-23 2023-10-31 中国电子产业工程有限公司 一种文本建模模型的训练方法、文本建模方法及装置
CN116738180A (zh) * 2023-06-29 2023-09-12 中国人民解放军军事科学院国防科技创新研究院 基于受限玻尔兹曼机的智能化水平等级评估方法及系统
JP2025176999A (ja) * 2024-05-22 2025-12-05 富士通株式会社 学習プログラム、学習方法、および情報処理装置

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342657B2 (en) 2003-03-24 2016-05-17 Nien-Chih Wei Methods for predicting an individual's clinical treatment outcome from sampling a group of patient's biological profiles
AU2006210430B2 (en) 2005-02-04 2012-06-14 Entelos Holding Corp. Method for defining virtual patient populations
EP1955190B1 (en) 2005-11-10 2018-08-29 In Silico Biosciences, Inc. Method and apparatus for computer modeling the human brain for predicting drug effects
US20080082359A1 (en) 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of State Of Delaware Computational systems for biomedical data
US20100254973A1 (en) 2007-06-21 2010-10-07 The Nemours Foundation Materials and Methods for Diagnosis of Asthma
US8224665B2 (en) 2008-06-26 2012-07-17 Archimedes, Inc. Estimating healthcare outcomes for individuals
CH699891A2 (de) 2008-11-12 2010-05-14 Prof Dr Rene Spiegel Methode zur Durchführung klinischer Studien und Methode zur Etablierung eines Prognosemodells für klinische Studien.
US8630966B2 (en) 2009-01-27 2014-01-14 Salk Institute For Biological Studies Temporally dynamic artificial neural networks
US20150010610A1 (en) 2010-02-18 2015-01-08 Osiris Therapeutics, Inc. Immunocompatible amniotic membrane products
US10172567B2 (en) 2011-06-01 2019-01-08 Drexel University System and method of detecting and predicting seizures
WO2013071285A1 (en) 2011-11-11 2013-05-16 Rutgers, The State University Of New Jersey Methods for the diagnosis and treatment of neurological disorders
US9367666B2 (en) 2012-07-13 2016-06-14 Medical Care Corporation Mapping cognitive to functional ability
US10475537B2 (en) 2013-06-12 2019-11-12 University Health Network Method and system for automated quality assurance and automated treatment planning in radiation therapy
CN105765083B (zh) 2013-09-27 2021-05-04 加利福尼亚大学董事会 基于表观遗传学标记物来估计组织和细胞类型的年龄的方法
US11295866B2 (en) 2014-12-18 2022-04-05 Fresenius Medical Care Holdings, Inc. System and method of conducting in silico clinical trials
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
GB201506824D0 (en) 2015-04-22 2015-06-03 Trailreach Ltd TrailReach Multitrial
US10726954B2 (en) 2015-04-22 2020-07-28 Reciprocal Labs Corporation Predictive modeling of respiratory disease risk and events
US10923234B2 (en) 2016-03-30 2021-02-16 Jacob Barhak Analysis and verification of models derived from clinical trials data extracted from a database
US10398389B1 (en) 2016-04-11 2019-09-03 Pricewaterhousecoopers Llp System and method for physiological health simulation
US10282588B2 (en) 2016-06-09 2019-05-07 Siemens Healthcare Gmbh Image-based tumor phenotyping with machine learning from synthetic data
US10387765B2 (en) * 2016-06-23 2019-08-20 Siemens Healthcare Gmbh Image correction using a deep generative machine-learning model
MX2019000713A (es) 2016-07-18 2019-11-28 Nant Holdings Ip Llc Sistemas, aparatos y metodos para maquina de aprendizaje distribuido.
US20180315505A1 (en) 2017-04-27 2018-11-01 Siemens Healthcare Gmbh Optimization of clinical decision making
US10650520B1 (en) 2017-06-06 2020-05-12 PathAI, Inc. Systems and methods for training a statistical model to predict tissue characteristics for a pathology image
EP3652751A1 (en) 2017-07-12 2020-05-20 Fresenius Medical Care Holdings, Inc. Techniques for conducting virtual clinical trials
US11636309B2 (en) 2018-01-17 2023-04-25 Unlearn.AI, Inc. Systems and methods for modeling probability distributions
CA3126795A1 (en) 2018-01-22 2019-07-25 Cancer Commons Platforms for conducting virtual trials
WO2019164978A1 (en) 2018-02-21 2019-08-29 Klaritos, Inc. Methods of performing clinical trials
US11010365B2 (en) 2018-03-29 2021-05-18 International Business Machines Corporation Missing value imputation using adaptive ordering and clustering analysis
US10818398B2 (en) 2018-07-27 2020-10-27 University Of Miami System and method for AI-based eye condition determinations
US20200357490A1 (en) 2019-05-07 2020-11-12 International Business Machines Corporation System for creating a virtual clinical trial from electronic medical records
US20220157413A1 (en) 2019-08-23 2022-05-19 Unlearn.AI, Inc. Systems and Methods for Designing Augmented Randomized Trials
JP2022544859A (ja) 2019-08-23 2022-10-21 アンラーン.エーアイ, インコーポレイテッド 生成モデルを用いてデータを補完するためのシステムおよび方法
US12008478B2 (en) 2019-10-18 2024-06-11 Unlearn.AI, Inc. Systems and methods for training generative models using summary statistics and other constraints
US20210353203A1 (en) 2020-05-13 2021-11-18 Rce Technologies, Inc. Diagnostics for detection of ischemic heart disease
WO2022101809A1 (en) 2020-11-10 2022-05-19 University Of Southern California Noninvasive heart failure detection
US20220172085A1 (en) 2020-12-01 2022-06-02 Unlearn.AI, Inc. Methods and Systems to Account for Uncertainties from Missing Covariates in Generative Model Predictions
WO2022187064A1 (en) 2021-03-01 2022-09-09 Evelo Biosciences, Inc. Compositions and methods of treating inflammation using prevotella histicola

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARICI, TARIK, ET AL.: "Associative Adversarial Networks", ARXIV, JPN6022055022, 18 November 2016 (2016-11-18), ISSN: 0004996040 *
HINTON, GEOFFREY, A PRACTICAL GUIDE TO TRAINING RESTRICTED BOLTZMANN MACHINES, JPN7022005985, 2010, ISSN: 0004996039 *
KIM, TAESUP, ET AL.: "Deep Directed Generative Models with Energy-Based Probability Estimation", ARXIV, JPN6022055023, 10 June 2016 (2016-06-10), ISSN: 0004996038 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636309B2 (en) 2018-01-17 2023-04-25 Unlearn.AI, Inc. Systems and methods for modeling probability distributions
US12051487B2 (en) 2019-08-23 2024-07-30 Unlearn.Al, Inc. Systems and methods for supplementing data with generative models
US12008478B2 (en) 2019-10-18 2024-06-11 Unlearn.AI, Inc. Systems and methods for training generative models using summary statistics and other constraints
US12020789B1 (en) 2023-02-17 2024-06-25 Unlearn.AI, Inc. Systems and methods enabling baseline prediction correction
US11868900B1 (en) 2023-02-22 2024-01-09 Unlearn.AI, Inc. Systems and methods for training predictive models that ignore missing features
US11966850B1 (en) 2023-02-22 2024-04-23 Unlearn.AI, Inc. Systems and methods for training predictive models that ignore missing features

Also Published As

Publication number Publication date
WO2019143737A8 (en) 2023-03-23
EP3740908A4 (en) 2021-10-20
CN111758108A (zh) 2020-10-09
WO2019143737A1 (en) 2019-07-25
JP2021511584A (ja) 2021-05-06
US11636309B2 (en) 2023-04-25
CA3088204A1 (en) 2019-07-25
JP7305656B2 (ja) 2023-07-10
US20190220733A1 (en) 2019-07-18
EP3740908A1 (en) 2020-11-25

Similar Documents

Publication Publication Date Title
JP7305656B2 (ja) 確率分布をモデル化するためのシステムおよび方法
Woodman et al. A comprehensive review of machine learning algorithms and their application in geriatric medicine: present and future
Ramchandran et al. Longitudinal variational autoencoder
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
Rairikar et al. Heart disease prediction using data mining techniques
Harper A review and comparison of classification algorithms for medical decision making
Al-shanableh et al. Advanced ensemble machine learning techniques for optimizing diabetes mellitus prognostication: A detailed examination of hospital data
KR20170061222A (ko) 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치
López-Cruz et al. Bayesian network modeling of the consensus between experts: An application to neuron classification
Huang et al. Neural network classifier with entropy based feature selection on breast cancer diagnosis
Kokala et al. Bone cancer prediction using regression algorithms and machine learning approaches
Sampath et al. Ensemble nonlinear machine learning model for chronic kidney diseases prediction
Avci An automatic diagnosis system for hepatitis diseases based on genetic wavelet kernel extreme learning machine
Dhaygude et al. Knowledge‐based deep learning system for classifying Alzheimer's disease for multi‐task learning
Makar et al. A distillation approach to data efficient individual treatment effect estimation
Abut et al. Deep neural networks and applications in medical research
Akazue et al. Machine learning survival analysis model for diabetes mellitus
Nahian et al. Common human diseases prediction using machine learning based on survey data
Priyadarshini et al. Collaboration of clustering and classification techniques for better prediction of severity of heart stroke using deep learning
Usategui et al. Machine learning, a new tool for the detection of immunodeficiency patterns in systemic lupus erythematosus
Ganjdanesh et al. Multimodal genotype and phenotype data integration to improve partial data-based longitudinal prediction
Sharma et al. On learning prediction-focused mixtures
Akter et al. Identification of Myocardial Infarction (MI) Probability from Imbalanced Medical Survey Data: An Artificial Neural Network (ANN) with Explainable AI (XAI) Insights
Islam et al. Identification of Cardiovascular Disease via Diverse Machine Learning Methods
US20240303493A1 (en) Systems and Methods for Training Conditional Generative Models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230501

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20230818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20231107