JP2018142199A - 学習システムおよび学習方法 - Google Patents
学習システムおよび学習方法 Download PDFInfo
- Publication number
- JP2018142199A JP2018142199A JP2017036435A JP2017036435A JP2018142199A JP 2018142199 A JP2018142199 A JP 2018142199A JP 2017036435 A JP2017036435 A JP 2017036435A JP 2017036435 A JP2017036435 A JP 2017036435A JP 2018142199 A JP2018142199 A JP 2018142199A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- controller
- result
- target
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
図1は、サプライチェーン100での学習例を示す説明図である。(A)は、特定のサブシステム101での予備学習を示し、(B)は、サプライチェーン100の全体学習を示す。本実施例では、一例として、下流から上流へ、小売、二次卸、一次卸、工場である各サブシステム101〜104が直列につながっているサプライチェーン100の系を例に挙げて説明する。実際のサプライチェーン100において、各サブシステムは、下流の複数のサブシステムに接続されているが、説明を単純化するため、直列につながっている部分に着目して説明する。なお、顧客が小売に発注してから、当該顧客にその発注に応じた物品が配送されるまでの工程を「ターン」という単位で示す。なお、本例では、説明を単純化するため、1種類の物品について説明する。
図2は、学習システム200の構成例を示す説明図である。学習システム200において、各サブシステム101〜104は、端末201〜204を有する。各端末201〜204は、所属するサブシステム101〜104における取引データの入力を受け付けて記憶する。各端末201〜204は、それぞれサブコントローラ211〜214と通信可能に接続され、取引データを、同一サブシステムに所属するサブコントローラに送信する。各サブコントローラ211〜214は、AI111を有し、AI111により受信した取引データを用いて強化学習を実行する。なお、上述したように、図1(A)の予備学習においては、小売のサブコントローラ211のみ強化学習を実行する。また、図1(B)の全体学習においては、各サブコントローラ211〜214は、1つ下流からの学習結果を用いて、受信した取引データについて強化学習を実行する。
図3は、コンピュータのハードウェア構成例を示すブロック図である。端末、サブシステム、およびメインシステムを総称して、コンピュータとする。コンピュータ300は、プロセッサ301と、記憶デバイス302と、入力デバイス303と、出力デバイス304と、通信インタフェース(通信IF305)と、を有する。プロセッサ301、記憶デバイス302、入力デバイス303、出力デバイス304、および通信IF305は、バスにより接続される。プロセッサ301は、コンピュータ300を制御する。記憶デバイス302は、プロセッサ301の作業エリアとなる。また、記憶デバイス302は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス302としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス303は、データを入力する。入力デバイス303としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス304は、データを出力する。出力デバイス304としては、たとえば、ディスプレイ、プリンタがある。通信IF305は、ネットワークと接続し、データを送受信する。
図4は、端末201〜204における取引データテーブル400の一例を示す説明図である。取引データテーブル400は、端末201〜204に入力された取引データを保存するデータテーブルである。取引データテーブル400は、サブシステム101〜104ごとに存在し、かつ、物品ごとに存在する。なお、以降の説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、試行IDフィールド401の値を、試行ID401と表記する。
図5は、サブシステム101〜104における学習対象データテーブル500の一例を示す説明図である。学習対象データテーブル500は、サブコントローラ211〜214が、端末201〜204からの試行ID401単位の取引データ群を、状態sと行動aとに分けて集約した学習対象データを保存するデータテーブルである。学習対象データテーブル500は、サブシステム101〜104ごとに存在し、かつ、物品ごとに存在する。
図6は、学習システム200の機能的構成例を示すブロック図である。各サブシステム101〜104は、第1通信部601と、取得部602と、第1評価部603と、更新部604と、選択部605と、出力部606と、を有する。第1通信部601は、図3に示した通信IF306により実現される。また、取得部602〜出力部606は、具体的には、たとえば、図3に示した記憶デバイス302に記憶されたプログラムをプロセッサ301に実行させることにより実現される。
図7は、サブコントローラ211〜214の学習処理手順例を示すフローチャートである。図7に示す処理は、図1(A)予備学習,(B)全体学習に共通の処理である。図7では、強化学習を例に挙げて説明するが、ニューラルネットワークによる機械学習でもよい。
←Q(st,at)+α[rt+1+γmaxQ(st+1,a)−Q(st,at)]
・・・・・(5)
図8は、学習システム200における全体学習処理手順例を示すシーケンス図である。メインコントローラ150は、割当設定を実行する(ステップS801)。割当設定とは、学習結果の提供側サブコントローラと利用側サブコントローラとの組み合わせを設定する処理である。学習結果の提供側サブコントローラとは、自身の学習結果で利用側サブコントローラを学習させるサブコントローラである。利用側サブコントローラとは、提供側サブコントローラの学習結果を用いて学習するサブコントローラである。各サブコントローラ211〜214は、提供側サブコントローラと利用側サブコントローラとのいずれにもなり得る。
201〜204 端末
211〜214 サブコントローラ
100 サプライチェーン
150 メインコントローラ
200 学習システム
601 通信部
602 取得部
603 評価部
604 更新部
605 選択部
606 出力部
611 通信部
612 評価部
613 設定部
614 制御部
Claims (10)
- 状態から行動を得る複数の学習対象により構成された学習対象群について、前記各学習対象の行動を学習する学習システムであって、
前記学習対象群を管理する第1コントローラと、前記第1コントローラを管理する第2コントローラと、を有し、
前記第2コントローラは、
前記第1コントローラからの前記学習対象群の各々の学習結果を第1学習結果として取得し、
前記学習対象群のうちある学習対象の第1学習結果を他の学習対象に与えるように、前記第1コントローラに送信し、
前記第1学習結果を前記第1コントローラに送信した結果得られる前記学習対象群の各々の学習結果を第2学習結果として取得し、
前記各第1学習結果と前記各第2学習結果とに基づいて、前記学習対象群を評価し、
評価結果を出力し、
前記第1コントローラは、
前記ある学習対象の行動が寄与したデータが遅延を伴って前記他の学習対象に与えられることにより、前記他の学習対象の状態を生成し、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動を選択し、
前記他の学習対象の次の行動を前記学習結果として前記第2コントローラに送信する、
ことを特徴とする学習システム。 - 請求項1に記載の学習システムであって、
前記第1コントローラは、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動の選択に寄与する報酬を生成し、
前記報酬と、前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動を選択する、
ことを特徴とする学習システム。 - 請求項2に記載の学習システムであって、
前記第1コントローラは、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、の相関に基づいて、前記報酬を生成することを特徴とする学習システム。 - 請求項2に記載の学習システムであって、
前記第1コントローラは、
前記報酬を前記学習結果として前記第2コントローラに送信し、
前記第2コントローラは、
前記各第1学習結果である各報酬と前記各第2学習結果である各報酬とに基づいて、前記学習対象群を評価する、
ことを特徴とする学習システム。 - 請求項1に記載の学習システムであって、
前記第1コントローラは、
前記他の学習対象の前記状態に含まれる、増加するほど前記状態を悪化させる第1特徴量と、減少するほど前記状態を悪化させる第2特徴量と、に基づいて、前記状態が適正度を示すスコアを算出し、
前記スコアを前記学習結果として前記第2コントローラに送信し、
前記第2コントローラは、
前記各第1学習結果である各スコアと前記各第2学習結果である各スコアとに基づいて、前記学習対象群を評価する、
ことを特徴とする学習システム。 - 状態から行動を得る複数の学習対象により構成された学習対象群について、前記各学習対象の行動を学習する学習システムによる学習方法であって、
前記学習システムは、前記学習対象群を管理する第1コントローラと、前記第1コントローラを管理する第2コントローラと、を有し、
前記学習方法は、
前記第2コントローラが、
前記第1コントローラからの前記学習対象群の各々の学習結果を第1学習結果として取得し、
前記学習対象群のうちある学習対象の第1学習結果を他の学習対象に与えるように、前記第1コントローラに送信し、
前記第1学習結果を前記第1コントローラに送信した結果得られる前記学習対象群の各々の学習結果を第2学習結果として取得し、
前記各第1学習結果と前記各第2学習結果とに基づいて、前記学習対象群を評価し、
評価結果を出力し、
前記第1コントローラが、
前記ある学習対象の行動が寄与したデータが遅延を伴って前記他の学習対象に与えられることにより、前記他の学習対象の状態を生成し、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動を選択し、
前記他の学習対象の次の行動を前記学習結果として前記第2コントローラに送信する、
ことを特徴とする学習方法。 - 請求項6に記載の学習方法であって、
前記学習方法は、
前記第1コントローラが、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動の選択に寄与する報酬を生成し、
前記報酬と、前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動を選択する、
ことを特徴とする学習方法。 - 請求項7に記載の学習方法であって、
前記学習方法は、
前記第1コントローラが、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、の相関に基づいて、前記報酬を生成することを特徴とする学習方法。 - 請求項7に記載の学習方法であって、
前記学習方法は、
前記第1コントローラが、
前記報酬を前記学習結果として前記第2コントローラに送信し、
前記第2コントローラが、
前記各第1学習結果である各報酬と前記各第2学習結果である各報酬とに基づいて、前記学習対象群を評価する、
ことを特徴とする学習方法。 - 請求項6に記載の学習方法であって、
前記学習方法は、
前記第1コントローラが、
前記他の学習対象の前記状態に含まれる、増加するほど前記状態を悪化させる第1特徴量と、減少するほど前記状態を悪化させる第2特徴量と、に基づいて、前記状態が適正度を示すスコアを算出し、
前記スコアを前記学習結果として前記第2コントローラに送信し、
前記第2コントローラが、
前記各第1学習結果である各スコアと前記各第2学習結果である各スコアとに基づいて、前記学習対象群を評価する、
ことを特徴とする学習方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017036435A JP6718834B2 (ja) | 2017-02-28 | 2017-02-28 | 学習システムおよび学習方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017036435A JP6718834B2 (ja) | 2017-02-28 | 2017-02-28 | 学習システムおよび学習方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018142199A true JP2018142199A (ja) | 2018-09-13 |
| JP6718834B2 JP6718834B2 (ja) | 2020-07-08 |
Family
ID=63528086
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017036435A Expired - Fee Related JP6718834B2 (ja) | 2017-02-28 | 2017-02-28 | 学習システムおよび学習方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6718834B2 (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020080103A (ja) * | 2018-11-14 | 2020-05-28 | 富士通株式会社 | 強化学習方法、強化学習プログラムおよび強化学習装置 |
| JP2020123356A (ja) * | 2019-01-30 | 2020-08-13 | 株式会社日立製作所 | 深層強化学習及び転移学習を用いた製造ディスパッチングのためのシステム |
| JP2020187681A (ja) * | 2019-05-17 | 2020-11-19 | sglab株式会社 | 発注管理装置、発注管理方法及び発注管理プログラム |
| CN112462572A (zh) * | 2020-12-09 | 2021-03-09 | 清华大学 | 光刻胶、光刻胶的图案化方法及生成印刷电路板的方法 |
| WO2021064770A1 (ja) * | 2019-09-30 | 2021-04-08 | 日本電気株式会社 | システム、方法及び制御装置 |
| WO2021065290A1 (ja) * | 2019-10-03 | 2021-04-08 | パナソニックIpマネジメント株式会社 | 店舗支援システム、学習装置、店舗支援方法、学習済みモデルの生成方法及びプログラム |
| CN113366394A (zh) * | 2019-03-11 | 2021-09-07 | 株式会社日立制作所 | 实时控制器及使用该实时控制器的分散控制系统、工业机械 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005111603A (ja) * | 2003-10-07 | 2005-04-28 | Lazona Inc | ロボットおよびロボット管理装置 |
| JP2010134907A (ja) * | 2008-11-04 | 2010-06-17 | Honda Motor Co Ltd | 強化学習システム |
| JP2011204036A (ja) * | 2010-03-25 | 2011-10-13 | Institute Of National Colleges Of Technology Japan | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム |
-
2017
- 2017-02-28 JP JP2017036435A patent/JP6718834B2/ja not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005111603A (ja) * | 2003-10-07 | 2005-04-28 | Lazona Inc | ロボットおよびロボット管理装置 |
| JP2010134907A (ja) * | 2008-11-04 | 2010-06-17 | Honda Motor Co Ltd | 強化学習システム |
| JP2011204036A (ja) * | 2010-03-25 | 2011-10-13 | Institute Of National Colleges Of Technology Japan | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020080103A (ja) * | 2018-11-14 | 2020-05-28 | 富士通株式会社 | 強化学習方法、強化学習プログラムおよび強化学習装置 |
| JP7124655B2 (ja) | 2018-11-14 | 2022-08-24 | 富士通株式会社 | 強化学習方法、強化学習プログラムおよび強化学習装置 |
| JP2020123356A (ja) * | 2019-01-30 | 2020-08-13 | 株式会社日立製作所 | 深層強化学習及び転移学習を用いた製造ディスパッチングのためのシステム |
| CN113366394B (zh) * | 2019-03-11 | 2023-10-10 | 株式会社日立制作所 | 实时控制器及使用该实时控制器的分散控制系统、工业机械 |
| CN113366394A (zh) * | 2019-03-11 | 2021-09-07 | 株式会社日立制作所 | 实时控制器及使用该实时控制器的分散控制系统、工业机械 |
| JP2020187681A (ja) * | 2019-05-17 | 2020-11-19 | sglab株式会社 | 発注管理装置、発注管理方法及び発注管理プログラム |
| JPWO2021064770A1 (ja) * | 2019-09-30 | 2021-04-08 | ||
| WO2021064770A1 (ja) * | 2019-09-30 | 2021-04-08 | 日本電気株式会社 | システム、方法及び制御装置 |
| JP7188609B2 (ja) | 2019-09-30 | 2022-12-13 | 日本電気株式会社 | システム、方法及び制御装置 |
| JPWO2021065290A1 (ja) * | 2019-10-03 | 2021-04-08 | ||
| WO2021065290A1 (ja) * | 2019-10-03 | 2021-04-08 | パナソニックIpマネジメント株式会社 | 店舗支援システム、学習装置、店舗支援方法、学習済みモデルの生成方法及びプログラム |
| JP7617568B2 (ja) | 2019-10-03 | 2025-01-20 | パナソニックIpマネジメント株式会社 | 店舗支援システム、店舗支援方法、及びプログラム |
| CN112462572A (zh) * | 2020-12-09 | 2021-03-09 | 清华大学 | 光刻胶、光刻胶的图案化方法及生成印刷电路板的方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6718834B2 (ja) | 2020-07-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6718834B2 (ja) | 学習システムおよび学習方法 | |
| EP3371764A1 (en) | Systems and methods for pricing optimization with competitive influence effects | |
| JP6514342B2 (ja) | オンライン予測システムおよび方法 | |
| US20200310874A1 (en) | Job scheduler, job schedule control method, and storage medium | |
| WO2019188273A1 (ja) | 制御装置、制御方法、及び制御プログラム | |
| US12399957B2 (en) | Reinforcement learning simulation of supply chain graph | |
| WO2018205853A1 (zh) | 分布式计算系统、方法及存储介质 | |
| Anufriev et al. | Learning cycles in Bertrand competition with differentiated commodities and competing learning rules | |
| CN112884393A (zh) | 一种库存补货方法、装置和电子设备 | |
| WO2019131140A1 (ja) | 需要予測装置、需要予測方法、及びプログラム | |
| JP6689316B2 (ja) | 計算機システム及び学習制御方法 | |
| US11301763B2 (en) | Prediction model generation system, method, and program | |
| JP7047911B2 (ja) | 情報処理システム、情報処理方法及び記憶媒体 | |
| JP7262359B2 (ja) | データ分析装置およびデータ分析方法 | |
| US11188568B2 (en) | Prediction model generation system, method, and program | |
| JP7455769B2 (ja) | 情報処理装置、情報処理方法、プログラム、および情報処理システム | |
| JP7308073B2 (ja) | 物流管理システム | |
| CN119940773A (zh) | 基于机器学习的智能客服工单分配方法及相关设备 | |
| WO2021240664A1 (ja) | モデル訓練プログラム、モデル訓練方法および情報処理装置 | |
| JP6530559B2 (ja) | 最適化システムおよび最適化方法 | |
| EP4420037A1 (en) | Reinforcement learning simulation of supply chain graph | |
| CN117273796A (zh) | 服务管理系统以及服务管理方法 | |
| Zaman et al. | An efficient methodology for robust assignment problem | |
| CN118590456B (zh) | 一种数据流模式感知的流应用节点调度方法及系统 | |
| JP7612490B2 (ja) | 複数のサブシステムを含む実行システムを制御するためのシステム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190304 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200129 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200204 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200316 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200519 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200615 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6718834 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |