JP2018018220A - 並列情報処理装置、情報処理方法、およびプログラム - Google Patents
並列情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2018018220A JP2018018220A JP2016146731A JP2016146731A JP2018018220A JP 2018018220 A JP2018018220 A JP 2018018220A JP 2016146731 A JP2016146731 A JP 2016146731A JP 2016146731 A JP2016146731 A JP 2016146731A JP 2018018220 A JP2018018220 A JP 2018018220A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- coefficient
- change amount
- node
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/544—Buffers; Shared memory; Pipes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/60—Memory management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Neurology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multi Processors (AREA)
- Image Processing (AREA)
- Complex Calculations (AREA)
Abstract
Description
処理対象のデータに対する係数による演算処理を実行し、演算処理の結果を基に係数の変化量を算出し、算出した係数の変化量を処理部に転送するとともに、係数の変化量を並列情報処理装置内の他のノードとの間で授受する処理の実行を処理部に要求する。
そして、演算部および処理部の少なくとも一方が積算された係数の変化量を基に次回以降の演算処理で使用される係数を更新する。
<深層学習の処理例>
を認識し、識別するためのフォーワード方向の処理と、フォーワード方向の処理で使用するパラメータを決定するバックワード方向の処理(バックワードプロパゲーションともいう)を実行する。
理とを実行し、画像の特徴を抽出し、画像を識別する。すなわち、図1では、フォーワード方向の処理が例示されている。
をwtで表し、次回の演算で使用される重みをw+1で表した。また、図1で説明したように、学習処理において、重みwは1以上の成分を有する係数列(ベクトル)である。
<構成>
Signal Processor(DSP)、数値演算プロセッサ、ベクトルプロセッサ、画像処理プロセッサ等の専用プロセッサで行われても良い。また、上記各部の少なくとも一部の処理は、集積回路(IC)、その他のディジタル回路で実行されてもよい。また、上記各部の少なくとも一部にアナログ回路が含まれても良い。集積回路は、LSI,Application Specific Integrated Circuit(ASIC),プログラマブルロジックデバイス(PLD)を含む。PLDは、例えば、Field−Programmable Gate Array(FPGA)を含む。
<複数ノードによる学習処理>
クワード方向の処理が各ニューロン層に対して順次実行される。ここで、バッチ単位とは、学習処理の対象をまとめた処理の単位である。例えば、ニューラルネットワークが画像の認識を行う場合に、バッチ単位として、数十枚から数千枚分の画像のデータが学習処理に用いられ、画像の認識と、正解判定が繰り返し実行される。
roadcast(Bcast), Reduce_scatter+Allgather等の方式を用いてもよい。このようなノード間通信処理は、MPI AllReduce処理として、コンピュータプログラムが提供されている。なお、以下の実施の形態説明では、MPI AllReduce処理が実装された計算ノード10を用いて説明するが、計算ノード10間の通信処理がMPI AllReduce処理に限定される訳ではない。また、計算ノード10間の通信処理が実行されるネットワーク構成に限定がある訳ではなく、どのようなネットワーク構成が用いられてもよい。
<比較例>
<実施形態1>
が主体となって処理すると、処理手順としては、図4のフローチャートと同様であり、重み(w)の変化量(Δw)をノード間通信で授受し、集約処理、反映処理を実行する時間が無視できない。
(1)学習処理
(2)メモリ転送(GPU13からCPU11への転送)
転送する。これによって、演算部(GPU13)は、ニューロン層ごとに、ノード間通信・集約処理、反映処理を処理部(CPU11)に開始させる。ニューロン層ごとにノード間通信・集約処理、反映処理を開始することで、次のバッチ単位での学習処理の開始を早め、高速化が実現される。
11への転送)用処理スレッドは、キューを受けると転送対象のデータをGPU13から
CPU11へ転送し、最後に集約処理のキューをCPU11に発行する。図6では、ニューロン層として、ニューロン層4(LAYER4)から層1(LAYER1)のバックワード処理で、重みの変化量としてそれぞれ、Δ WL4−1、Δ WL3、Δ WL2、Δ WL1が算出されている。
(3)集約処理および(4)ノード間通信
assing Interface(MPI)リクエストを、ノンブロッキング通信を指定してMPI通信プログラムに投入する。リクエストに対応する通信が完了した時点で、MPI通信プログラムから集約処理用スレッドへ通信完了が通知され、集約処理用スレッドにしたがい集約処理が実行される。集約処理には多数回の演算が実行されるため、集約処理は複数のスレッドを並列で実行することで高速化を実現する。すなわち、計算ノード10に複数のCPU11が搭載される場合には、複数のスレッドを並列で実行することで、CPU11による並列処理が実行される。また、単一のCPU11がマルチコアを有する場合も同様である。
(5)メモリ転送(CPU11からGPU13への転送)
(6)反映処理
るとともに、集約処理を実行するCPU11のスレッドにキューを登録する(S13)。したがって、実施形態1では、各ニューロン層(L)でバックワード処理が終了するごとに、CPU11に対して、重み(w)の変化量(Δw)の集約処理の起動が要求される。S13の処理は、算出した係数の変化量を処理部に転送するとともに、係数の変化量を並列情報処理装置内の他のノードとの間で授受する処理の実行を処理部に要求することの一例である。S13の処理は、算出した係数の変化量を処理部に転送することの一例でもある。
算ノード10−1〜10−4の間でニューロン層Lの重み(w)の変化量(Δw)が集約される。ニューロン層Lの重み(w)の変化量(Δw)が集約されると、CPU11は、集約されたニューロン層Lの重み(w)の変化量(Δw)をメモリ転送し、GPU13に戻す(S26)。計算ノード10は、S21からS26の処理をキューの蓄積順にすべてのニューロン層Lについて繰り返し実行する。
のデータ(変化量Δw1とΔw2)を加算する。ここでは、加算結果は集約された重みの変化量としてΔw2に保持されるとする。ノード数が3以上の場合には、矢印A2−2からA3がノード間通信のアルゴリズムで実行される回数だけ繰り返される。
算性能が発揮されやすい。
<実施形態2>
は、未学習のバッチが残っている場合には(S16でN)、次のバッチの学習を実行する。
<実施形態3>
3は、学習の繰り返しの終了か否かを判定し、未学習のバッチがある場合に、処理をS11に戻し、次のバッチの学習を実行する。
<実施形態4>
しない場合は何もしない。一方、処理が要求されているキューが存在する場合、後続処理(キュー処理スレッド)は、要求された処理を実行し、処理が終了すると処理完了フラグ情報を更新する。処理完了フラグ情報は、例えば、完了した処理数(または未完了の処理数)のカウンタである。なお、ある前処理が、それ以前に実行される前処理(例えば、処理A−1、処理A−2)に依存する場合には、処理を行う前に、依存する前処理の完了を確認してから処理を開始する。
例3における重みのパラメータ細分化後の部分列単位で実行される。各処理スレッドは、次のスレッドへのキューの登録時、通常First In First Out(FIFO)方式でキューを登録する。一方、実施形態4では、各処理スレッドは、処理順序の変更条件(キューが優先順でない状態)が検知された場合には、優先順の位置にキューを登録する。
ューロン層の集約処理の完了を待つ。
発行対象のニューロン層のキューを登録する(S44)。
そして、キュー発行スレッドは、処理順序の変更をMPI ALLReduceのアルゴリズムで他の計算ノード10に通知する(S46)。
<実施形態5>
処理で使用される係数を更新する処理とが複数回繰り返して実行される場合の一例である。
、実施形態2のように、ニューロン層単位で行ってもよい。また、これらの処理は、実施形態3のように、ニューロン層単位よりも細かく分割したパラメータの部分列の単位で行ってもよい。
<実施形態6>
<記録媒体>
、コンピュータ等に固定された記録媒体としても利用可能である。
10 計算ノード
11 CPU
12、14 メモリ
13 GPU
14 バス
15 ノード間インターフェース
1、・・・、ΔpX)のように分割する。
Claims (10)
- 演算部と処理部とを有するノードを複数備えた並列情報処理装置において、
それぞれのノードの演算部は、処理対象のデータに対する係数による演算処理を実行し、前記演算処理の結果を基に前記係数の変化量を算出し、算出した係数の変化量を前記処理部に転送するとともに、前記係数の変化量を前記並列情報処理装置内の他のノードとの間で授受する処理の実行を前記処理部に要求し、
前記それぞれのノードの処理部は、前記演算部から転送された係数の変化量を前記並列情報処理装置の他のノードに送信するとともに前記他のノードで算出された係数の変化量を受信する通信処理と、前記演算部から転送された係数の変化量と前記他のノードで算出された係数の変化量とを積算する集約処理とを実行し、
前記演算部および前記処理部の少なくとも一方が前記積算された係数の変化量を基に次回以降の演算処理で使用される係数を更新する並列情報処理装置。 - 前記演算処理は、所定順序で実行される複数階層の層別処理を有し、それぞれの階層の層別処理はそれぞれの階層の前の階層から入力されるデータに前記係数による演算を実行して次の階層に出力する処理であり、
前記演算部は、それぞれの階層での前記層別処理の結果を基に前記それぞれの階層での前記係数の変化量を算出し、前記算出した係数の変化量を前記処理部に転送し、
前記処理部は、前記それぞれの階層での前記係数の変化量に対する前記集約処理を2以上並列に実行する請求項1に記載の並列情報処理装置。 - 前記係数は、前記複数階層のそれぞれにおいて複数使用され、係数列を形成し、
前記演算部は、前記複数階層のそれぞれの前記係数列を複数の部分列に分割して部分列ごとに前記変化量を前記処理部に転送するとともに、前記部分列ごとに前記授受する処理の実行を前記処理部に要求する請求項2に記載の並列情報処理装置。 - 前記演算部は、前記複数階層のうち、前記演算処理の実行の順序が早い階層の係数の変化量を優先して前記処理部に転送し、前記授受する処理の実行を要求する請求項2または3に記載の並列情報処理装置。
- 前記処理部は、前記複数階層のうち前記演算処理の実行の順序が早い階層の係数を優先して前記演算部に前記次回以降の演算処理で使用される係数を更新させる請求項2から4のいずれか1項に記載の並列情報処理装置。
- 前記演算部は、前記複数階層の層別処理を前記所定順に繰り返して実行し、前記複数階層のうち、実行の順序が先の階層で使用される係数に対して前記積算された変化量を基に前記次回以降の演算処理で使用される係数が更新された場合には、実行の順序が後の階層で使用される係数に対する前記積算された変化量の反映を待たないで、次の演算処理における前記実行順が先の階層の層別処理を開始する請求項2から5のいずれか1項に記載の並列情報処理装置。
- 前記演算処理と前記積算された変化量を基に前記次回以降の演算処理で使用される係数を更新する処理とが複数回繰り返して実行される場合に、前記演算部は、現在の演算処理による変化量を基に前記次回以降の演算処理で使用される係数が更新される前に次の演算処理を開始し、前記現在の演算処理による変化量を基に次々回の演算処理で使用される係数が更新される請求項2から6のいずれか1項に記載の並列情報処理装置。
- 前記係数を格納するための2組以上の記憶部を有し、
前記演算部は第1の記憶部に格納した係数を用いて前記演算処理を実行し、前記演算処
理による変化量を基に更新した係数を第2の記憶部に格納する請求項1から7のいずれか1項に記載の並列情報処理装置。 - 演算部と処理部とを有するノードを複数備えた並列情報処理装置における情報処理方法であって、
それぞれのノードの演算部は、処理対象のデータに対する係数による演算処理を実行し、前記演算処理の結果を基に前記係数の変化量を算出し、算出した係数の変化量を前記処理部に転送するとともに、前記係数の変化量を前記並列情報処理装置内の他のノードとの間で授受する処理の実行を前記処理部に要求し、
前記それぞれのノードの処理部は、前記演算部から転送された係数の変化量を前記並列情報処理装置の他のノードに送信するとともに前記他のノードで算出された係数の変化量を受信する通信処理と、前記演算部から転送された係数の変化量と前記他のノードで算出された係数の変化量とを積算する集約処理とを実行し、
前記演算部および前記処理部の少なくとも一方が前記積算された係数の変化量を基に次回以降の演算処理で使用される係数を更新する情報処理方法。 - 演算部と処理部とを有するノードを複数備えた並列情報処理装置に実行させるためのプログラムであり、
それぞれのノードの演算部に、処理対象のデータに対する係数による演算処理を実行し、前記演算処理の結果を基に前記係数の変化量を算出し、算出した係数の変化量を前記処理部に転送するとともに、前記係数の変化量を前記並列情報処理装置内の他のノードとの間で授受する処理の実行を前記処理部に要求することを実行させるプログラムと、
前記それぞれのノードの処理部に、前記演算部から転送された係数の変化量を前記並列情報処理装置の他のノードに送信するとともに前記他のノードで算出された係数の変化量を受信する通信処理と、前記演算部から転送された係数の変化量と前記他のノードで算出された係数の変化量とを積算する集約処理とを実行させるプログラムとを含み、
前記演算部および前記処理部の少なくとも一方に前記積算された係数の変化量を基に次回以降の演算処理で使用される係数を更新させるためのプログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016146731A JP6776696B2 (ja) | 2016-07-26 | 2016-07-26 | 並列情報処理装置、情報処理方法、およびプログラム |
| US15/633,861 US20180032911A1 (en) | 2016-07-26 | 2017-06-27 | Parallel information processing apparatus, information processing method and non-transitory recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016146731A JP6776696B2 (ja) | 2016-07-26 | 2016-07-26 | 並列情報処理装置、情報処理方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018018220A true JP2018018220A (ja) | 2018-02-01 |
| JP6776696B2 JP6776696B2 (ja) | 2020-10-28 |
Family
ID=61009686
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016146731A Expired - Fee Related JP6776696B2 (ja) | 2016-07-26 | 2016-07-26 | 並列情報処理装置、情報処理方法、およびプログラム |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20180032911A1 (ja) |
| JP (1) | JP6776696B2 (ja) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020095729A1 (ja) * | 2018-11-09 | 2020-05-14 | 日本電信電話株式会社 | 分散深層学習システムおよびデータ転送方法 |
| JP2020112998A (ja) * | 2019-01-10 | 2020-07-27 | キヤノン株式会社 | 情報処理装置及びメモリ制御方法 |
| JP2020140507A (ja) * | 2019-02-28 | 2020-09-03 | Necプラットフォームズ株式会社 | 畳み込み演算処理装置および畳み込み演算処理方法 |
| JP2020170358A (ja) * | 2019-04-03 | 2020-10-15 | 株式会社Preferred Networks | 集積回路、半導体装置、半導体モジュール、情報処理装置および半導体装置の制御方法 |
| EP3742354A1 (en) | 2019-05-23 | 2020-11-25 | Fujitsu Limited | Information processing apparatus, information processing method, and program |
| JPWO2020245864A1 (ja) * | 2019-06-03 | 2020-12-10 | ||
| JP2021144696A (ja) * | 2020-03-11 | 2021-09-24 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | モデルパラメータ更新方法及び装置 |
| JP2022515302A (ja) * | 2019-11-25 | 2022-02-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 深層学習モデルをトレーニングするための方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム |
| JP2023519432A (ja) * | 2020-04-02 | 2023-05-10 | グラフコアー リミテッド | 並列処理システムにおけるモデルパラメータの更新 |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10387740B2 (en) * | 2016-10-10 | 2019-08-20 | Gyrfalcon Technology Inc. | Object detection and recognition apparatus based on CNN based integrated circuits |
| US10261903B2 (en) * | 2017-04-17 | 2019-04-16 | Intel Corporation | Extend GPU/CPU coherency to multi-GPU cores |
| CN109344840B (zh) * | 2018-08-07 | 2022-04-01 | 深圳市商汤科技有限公司 | 图像处理方法和装置、电子设备、存储介质、程序产品 |
| US11645534B2 (en) * | 2018-09-11 | 2023-05-09 | Intel Corporation | Triggered operations to improve allreduce overlap |
| CN109359732B (zh) * | 2018-09-30 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 一种芯片及基于其的数据处理方法 |
| US11526759B2 (en) | 2018-11-05 | 2022-12-13 | International Business Machines Corporation | Large model support in deep learning |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07306845A (ja) * | 1994-05-12 | 1995-11-21 | Chubu Denki Kk | 神経系学習装置用の並列処理装置 |
| US20150324690A1 (en) * | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Deep Learning Training System |
-
2016
- 2016-07-26 JP JP2016146731A patent/JP6776696B2/ja not_active Expired - Fee Related
-
2017
- 2017-06-27 US US15/633,861 patent/US20180032911A1/en not_active Abandoned
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07306845A (ja) * | 1994-05-12 | 1995-11-21 | Chubu Denki Kk | 神経系学習装置用の並列処理装置 |
| US20150324690A1 (en) * | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Deep Learning Training System |
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020077300A (ja) * | 2018-11-09 | 2020-05-21 | 日本電信電話株式会社 | 分散深層学習システムおよびデータ転送方法 |
| WO2020095729A1 (ja) * | 2018-11-09 | 2020-05-14 | 日本電信電話株式会社 | 分散深層学習システムおよびデータ転送方法 |
| JP7227769B2 (ja) | 2019-01-10 | 2023-02-22 | キヤノン株式会社 | 情報処理装置及びメモリ制御方法 |
| JP2020112998A (ja) * | 2019-01-10 | 2020-07-27 | キヤノン株式会社 | 情報処理装置及びメモリ制御方法 |
| JP2020140507A (ja) * | 2019-02-28 | 2020-09-03 | Necプラットフォームズ株式会社 | 畳み込み演算処理装置および畳み込み演算処理方法 |
| JP2020170358A (ja) * | 2019-04-03 | 2020-10-15 | 株式会社Preferred Networks | 集積回路、半導体装置、半導体モジュール、情報処理装置および半導体装置の制御方法 |
| US12481445B2 (en) | 2019-04-03 | 2025-11-25 | Preferred Networks, Inc. | Processing system and processing method for neural network |
| JP2025083527A (ja) * | 2019-04-03 | 2025-05-30 | 株式会社Preferred Networks | 情報処理装置 |
| JP2023178385A (ja) * | 2019-04-03 | 2023-12-14 | 株式会社Preferred Networks | 情報処理装置および情報処理方法 |
| JP7370158B2 (ja) | 2019-04-03 | 2023-10-27 | 株式会社Preferred Networks | 情報処理装置および情報処理方法 |
| US11704041B2 (en) | 2019-04-03 | 2023-07-18 | Preferred Networks, Inc. | Integrated circuit, semiconductor device and control method for semiconductor device |
| US11475292B2 (en) | 2019-05-23 | 2022-10-18 | Fujitsu Limited | Information processing apparatus and information processing method |
| EP3742354A1 (en) | 2019-05-23 | 2020-11-25 | Fujitsu Limited | Information processing apparatus, information processing method, and program |
| WO2020245864A1 (ja) * | 2019-06-03 | 2020-12-10 | 日本電信電話株式会社 | 分散処理システムおよび分散処理方法 |
| JPWO2020245864A1 (ja) * | 2019-06-03 | 2020-12-10 | ||
| JP2022515302A (ja) * | 2019-11-25 | 2022-02-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 深層学習モデルをトレーニングするための方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム |
| US12530586B2 (en) | 2019-11-25 | 2026-01-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training deep learning model |
| JP2021144696A (ja) * | 2020-03-11 | 2021-09-24 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | モデルパラメータ更新方法及び装置 |
| JP2023519432A (ja) * | 2020-04-02 | 2023-05-10 | グラフコアー リミテッド | 並列処理システムにおけるモデルパラメータの更新 |
| JP7387026B2 (ja) | 2020-04-02 | 2023-11-27 | グラフコアー リミテッド | 並列処理システムにおけるモデルパラメータの更新 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6776696B2 (ja) | 2020-10-28 |
| US20180032911A1 (en) | 2018-02-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6776696B2 (ja) | 並列情報処理装置、情報処理方法、およびプログラム | |
| CN110262901B (zh) | 一种数据处理方法及数据处理系统 | |
| US12277440B2 (en) | Scheduler, method of operating the same, and accelerator apparatus including the same | |
| JP5461533B2 (ja) | ローカル及びグローバルのデータ共有 | |
| TWI521430B (zh) | 透過操作的動態聚合之快速且可線性化的並行優先佇列 | |
| WO2017166777A1 (zh) | 一种任务调度方法及装置 | |
| US12314851B2 (en) | Microservice-based training systems in heterogeneous graphic processor unit (GPU) cluster and operating method thereof | |
| CN118520210B (zh) | 数据处理方法、处理器、电子设备和存储介质 | |
| CN113449861B (zh) | 使用部分梯度更新的推测性训练 | |
| US11941528B2 (en) | Neural network training in a distributed system | |
| CN103914399A (zh) | 一种并行计算系统中的磁盘缓存方法及装置 | |
| TW202522384A (zh) | 幾何處理方法、電腦設備及電腦可讀儲存媒體 | |
| JP2019067084A (ja) | 情報処理システム、情報処理装置、及び、転送先決定方法 | |
| CN116719646A (zh) | 热点数据处理方法、装置、电子装置和存储介质 | |
| CN114490123A (zh) | 一种任务处理方法、装置及电子设备和存储介质 | |
| WO2016041126A1 (zh) | 基于gpu的数据流处理方法和装置 | |
| US12204757B1 (en) | Strong ordered transaction for DMA transfers | |
| CN108733585B (zh) | 缓存系统及相关方法 | |
| US20230127869A1 (en) | Method and apparatus with process scheduling | |
| US20120151145A1 (en) | Data Driven Micro-Scheduling of the Individual Processing Elements of a Wide Vector SIMD Processing Unit | |
| US20230145253A1 (en) | Reducing latency in highly scalable hpc applications via accelerator-resident runtime management | |
| CN104142802A (zh) | 存储器控制设备和方法 | |
| US20230140239A1 (en) | Method and apparatus with data loading | |
| CN116450564A (zh) | 一种多处理卡间的数据传输方法和系统 | |
| CN116360691A (zh) | 一种数据处理方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170622 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190409 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200324 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200609 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200806 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200908 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200921 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6776696 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |