JP2018198012A - ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム - Google Patents
ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム Download PDFInfo
- Publication number
- JP2018198012A JP2018198012A JP2017103087A JP2017103087A JP2018198012A JP 2018198012 A JP2018198012 A JP 2018198012A JP 2017103087 A JP2017103087 A JP 2017103087A JP 2017103087 A JP2017103087 A JP 2017103087A JP 2018198012 A JP2018198012 A JP 2018198012A
- Authority
- JP
- Japan
- Prior art keywords
- action
- moving object
- unit
- behavior
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Manipulator (AREA)
Abstract
Description
は、簡単のため、「右に回転」、「左に回転」、「前進」、及び「動かない」の4種類とする。
を
と設定する。
に対して、その行動をとるべきかそうでないかを確率値(以下、「評価値」という。)によりモデル化する。一方、価値関数vは、現在の状態に対する報酬を学習したものとする。つまり、その状態に到達すべきと判断される場合は、高い値となり、そうでない場合は低い値をとる。
を用意する。実態は、πと同等であるが、πと同じものを2つ用意したことに相当する。
を探索用の行動選択の方策
用のモデルパラメタとする。
……(1)
……(2)
のモデルパラメタ
を更新する。
、θπの勾配は下記(3)乃至(5)式で求められる。なお、下記(3)乃至(5)式における価値関数vは、時刻t−iにおける価値関数である。
……(3)
……(4)
……(5)
、θπを更新する。
、θπを記憶する。
を用いた多層ニューラルネットワークの各要素を計算する。
、θπを更新し、更新したモデルパラメタをパラメタ記憶部20に記憶させる。
を用いた多層ニューラルネットワークの各要素を計算する。
12 入力部
14、14a データ取得部
16 探索評価値計算部
18 パラメタ更新部
20 パラメタ記憶部
22、22a 終了判定部
24、24a ネットワーク計算部
26、26a 行動決定部
28、28a 行動制御部
Claims (6)
- 移動物の行動を決定するためのネットワーク学習装置であって、
決定された移動物の行動を行うように前記移動物を制御する行動制御部と、
行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、
前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算する探索評価値計算部と、
前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するパラメタ更新部と、
前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、
を含むネットワーク学習装置。 - 前記探索評価値計算部は、前記行動に対する報酬と、現時点の時刻と、前記移動物の環境を表す状態データに対応する状態データの経験回数とに基づいて、前記探索評価値を計算する請求項1記載のネットワーク学習装置。
- 前記パラメタ更新部は、前記行動に対する報酬に基づいて、前記移動物の行動を決定するための行動決定用の多層ニューラルネットワークのモデルパラメタを更新し、前記計算された探索評価値に基づいて、前記移動物の行動を決定するための探索用の多層ニューラルネットワークのモデルパラメタを更新し、
前記ネットワーク計算部は、前記移動物の環境を表す入力データを入力として、前記探索用の多層ニューラルネットワークの各要素を計算し、
前記行動決定部は、前記探索用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する請求項1又は2記載のネットワーク学習装置。 - 移動物の行動を決定するための行動決定装置であって、
決定された移動物の行動を行うように前記移動物を制御する行動制御部と、
行動後の前記移動物の環境を表す状態データを取得するデータ取得部と、
前記移動物の環境を表す入力データを入力として、請求項3記載のネットワーク学習装置によって得られた前記行動決定用の多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
前記行動決定用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、
を含む行動決定装置。 - 行動制御部、データ取得部、探索評価値計算部、パラメタ更新部、ネットワーク計算部、行動決定部、及び終了判定部を含む、移動物の行動を決定するためのネットワーク学習装置であって、
前記行動制御部が、決定された移動物の行動を行うように前記移動物を制御するステップと、
データ取得部が、行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、
前記探索評価値計算部が、前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算するステップと、
前記パラメタ更新部が、前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するステップと、
前記ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するステップと、
前記行動決定部が、前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定するステップと、
前記終了判定部が、予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させるステップと、
を含むネットワーク学習方法。 - コンピュータを、請求項1〜請求項3の何れか1項に記載のネットワーク学習装置、又は請求項4に記載の行動決定装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017103087A JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017103087A JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018198012A true JP2018198012A (ja) | 2018-12-13 |
| JP6840363B2 JP6840363B2 (ja) | 2021-03-10 |
Family
ID=64663384
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017103087A Active JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6840363B2 (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109960880A (zh) * | 2019-03-26 | 2019-07-02 | 上海交通大学 | 一种基于机器学习的工业机器人避障路径规划方法 |
| JP2020125102A (ja) * | 2019-01-31 | 2020-08-20 | 株式会社ストラドビジョンStradvision,Inc. | ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置 |
| CN112633591A (zh) * | 2020-12-30 | 2021-04-09 | 成都艾特能电气科技有限责任公司 | 一种基于深度强化学习的空间搜索方法及设备 |
| WO2021095464A1 (ja) * | 2019-11-13 | 2021-05-20 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
| JP6950117B1 (ja) * | 2020-04-30 | 2021-10-13 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
| WO2021220528A1 (ja) * | 2020-04-30 | 2021-11-04 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
| WO2024260295A1 (zh) * | 2023-06-19 | 2024-12-26 | 峰飞航空科技(昆山)有限公司 | 飞行器运动状态决策方法、装置、电子设备及存储介质 |
-
2017
- 2017-05-24 JP JP2017103087A patent/JP6840363B2/ja active Active
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020125102A (ja) * | 2019-01-31 | 2020-08-20 | 株式会社ストラドビジョンStradvision,Inc. | ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置 |
| CN109960880A (zh) * | 2019-03-26 | 2019-07-02 | 上海交通大学 | 一种基于机器学习的工业机器人避障路径规划方法 |
| CN109960880B (zh) * | 2019-03-26 | 2023-01-03 | 上海交通大学 | 一种基于机器学习的工业机器人避障路径规划方法 |
| US12474704B2 (en) | 2019-11-13 | 2025-11-18 | Omron Corporation | Robot control model learning method for reducing frequency of robot intervention behavior |
| WO2021095464A1 (ja) * | 2019-11-13 | 2021-05-20 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
| JP2021077286A (ja) * | 2019-11-13 | 2021-05-20 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
| JP7400371B2 (ja) | 2019-11-13 | 2023-12-19 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
| CN114667494A (zh) * | 2019-11-13 | 2022-06-24 | 欧姆龙株式会社 | 机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人 |
| CN113892070A (zh) * | 2020-04-30 | 2022-01-04 | 乐天集团股份有限公司 | 学习装置、信息处理装置、及完成学习的控制模型 |
| WO2021220467A1 (ja) * | 2020-04-30 | 2021-11-04 | 楽天株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
| WO2021220528A1 (ja) * | 2020-04-30 | 2021-11-04 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
| JP6950117B1 (ja) * | 2020-04-30 | 2021-10-13 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
| CN113892070B (zh) * | 2020-04-30 | 2024-04-26 | 乐天集团股份有限公司 | 学习装置、信息处理装置、及完成学习的控制模型 |
| US12416925B2 (en) | 2020-04-30 | 2025-09-16 | Rakuten Group, Inc. | Learning device, information processing device, and learned control model |
| CN112633591A (zh) * | 2020-12-30 | 2021-04-09 | 成都艾特能电气科技有限责任公司 | 一种基于深度强化学习的空间搜索方法及设备 |
| WO2024260295A1 (zh) * | 2023-06-19 | 2024-12-26 | 峰飞航空科技(昆山)有限公司 | 飞行器运动状态决策方法、装置、电子设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6840363B2 (ja) | 2021-03-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6840363B2 (ja) | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム | |
| JP6550678B2 (ja) | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム | |
| JP6935550B2 (ja) | 強化学習を使用した環境ナビゲーション | |
| JP6963627B2 (ja) | 畳み込みニューラルネットワークのためのニューラルアーキテクチャ検索 | |
| JP7783351B2 (ja) | 非同期深層強化学習 | |
| JP6926203B2 (ja) | 補助タスクを伴う強化学習 | |
| CN112119406B (zh) | 利用快速更新循环神经网络和慢速更新循环神经网络的深度强化学习 | |
| CN112119404B (zh) | 样本高效的强化学习 | |
| CN116776964B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
| Kahn et al. | Uncertainty-aware reinforcement learning for collision avoidance | |
| US11263531B2 (en) | Unsupervised control using learned rewards | |
| KR102590411B1 (ko) | 로봇 에이전트용 제어 정책 | |
| JP7448683B2 (ja) | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション | |
| JP2021513128A (ja) | 方策オフ型アクタークリティック強化学習を使用する分散型の訓練 | |
| EP3899797A1 (en) | Multi-agent reinforcement learning with matchmaking policies | |
| US20220036186A1 (en) | Accelerated deep reinforcement learning of agent control policies | |
| KR102303126B1 (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
| WO2019111608A1 (ja) | 制御装置、無人システム、制御方法及びプログラム | |
| JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
| KR20220137732A (ko) | 적응형 리턴 계산 방식을 사용한 강화 학습 | |
| EP3788549A1 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
| WO2019040901A1 (en) | Batched reinforcement learning | |
| JP2024522051A (ja) | 重み付けされたポリシー投影を使用した多目的強化学習 | |
| EP3788554B1 (en) | Imitation learning using a generative predecessor neural network | |
| CN111077769A (zh) | 用于控制或调节技术系统的方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170707 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190627 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200529 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200714 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210201 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6840363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |