JP2020091615A

JP2020091615A - 強化学習支援装置、保守計画立案装置、及び強化学習支援方法

Info

Publication number: JP2020091615A
Application number: JP2018227751A
Authority: JP
Inventors: 文也工藤; Fumiya Kudo; 俊宏鯨井; Toshihiro Kujirai; やえみ寺本; Yaemi Teramoto; 正啓間瀬; Tadakei Mase
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2020-06-11
Anticipated expiration: 2038-12-05
Also published as: JP7141320B2

Abstract

【課題】強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する。【解決手段】強化学習支援装置（保守計画立案装置）は、フィールドを特定する情報とフィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶し、フィールドを複数の領域に区分し、領域を単位として資産に関する情報を集約した情報である領域集約情報を生成し、領域を特定する情報と領域集約情報とに基づき、フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成し、抽象化フィールド情報に基づきフィールドにおける資産の状態分布を示す情報である状態分布情報を生成する。【選択図】図２

Description

本発明は、強化学習支援装置、保守計画立案装置、及び強化学習支援方法に関する。

特許文献１には、コストを抑えつつ、保守対象装置のメンテナンスまたはリプレースのタイミングを適正に決定可能にすることを目的として構成された保守支援装置に関して記載されている。保守支援装置は、保守対象装置のメンテナンスあるいはリプレースの履歴、メンテナンスあるいはリプレース以外でコストが発生する事象の発生履歴、メンテナンスあるいはリプレースを行うタイミングの条件を定めたタイミング条件の成否を判断するための保守対象装置の稼働情報に関する運用データを取得し、履歴に示されるメンテナンスあるいはリプレースごとに、複数のタイミング条件候補のそれぞれに応じてメンテナンスあるいはリプレースを行った場合のコストを計算し、求めたコストに基づき、複数のタイミング条件候補からメンテナンスあるいはリプレースのタイミング条件を選択する。

特開２０１８−３２２０６号公報

昨今、企業等の組織においては、業績向上や生産性向上等を目的としてビックデータの活用が進められており、フィールドの保守（メンテナンス）業務の分野においてもビッグデータを活用した保守計画（資産（Asset)の配置計画、保守スケジュール計画等）の最適化への応用が期待されている。

フィールドの保守計画の立案に際しては、フィールドの全体を俯瞰した中長期的な方策を立案することが重要である。フィールドの保守計画を立案する技術の一つとして強化学習があるが、強化学習は利用に際して専門知識が要求され、とくにユーザの目的や意図を反映させる重要な工程である報酬設計に際しては高度な知識が要求される。

特許文献１には、保守対象装置のメンテナンスまたはリプレースのタイミングを強化学習により決定することが記載されている。しかし同文献に記載された方法は単一の装置についてのメンテナンスのタイミングを提示するものであり、フィールドの全体を俯瞰した中長期的な方策を探索することを目的とするものではない。

本発明は、このような背景に鑑みてなされたものであり、強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する、強化学習支援装置、保守計画立案装置、及び強化学習支援方法を提供することを目的とする。

上記目的を達成するための本発明の一つは、強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する情報処理装置（強化学習支援装置）であって、前記フィールドを特定する情報と前記フィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶する記憶部、前記フィールドを複数の領域に区分し、前記領域を単位として前記資産に関する情報を集約した情報である領域集約情報を生成し、前記領域を特定する情報と前記領域集約情報とに基づき、前記フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成するフィールド抽象化
部、及び、前記抽象化フィールド情報に基づき前記フィールドにおける前記資産の状態分布を示す情報である状態分布情報を生成する状態分布生成部、を備える。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、強化学習によりフィールドの保守計画を立案する際の報酬設計を支援することができる。

保守計画立案装置のハードウェア構成の例である。保守計画立案装置が備える主な機能を示す図である。報酬設計処理を説明するフローチャートである。フィールド抽象化処理を説明するフローチャートである。フィールドの抽象化を説明する図である。行動生成処理を説明するフローチャートである。報酬情報生成処理を説明するフローチャートである。資産が有するパラメータを説明する図である。報酬設計を説明する図である。

以下、実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成について同一の符号を付して重複した説明を省略することがある。

図１に一実施形態として説明する、フィールドの保守計画を立案する情報処理装置（以下、保守計画立案装置１０と称する。）のハードウェア構成の一例を、図２に保守計画立案装置１０が備える主な機能を示している。

保守計画立案装置１０は、フィールドの状態を保守計画の方策（以下、「行動ポリシー」と称する。）に従って系列的に（例えば時系列的に）変化させ、その結果に応じて得られる報酬に基づきエージェントが行動ポリシーを学習する強化学習を行うことにより、フィールドの保守計画の最適解を探索する。尚、フィールドの保守計画の例として、フィールドに存在する資産の配置計画や資産の保守計画（スケジューリング）等がある。

強化学習においては、ユーザが目指す状態を目標状態として設定し、設定した目標状態に向かって学習が進むように報酬設計を行う。尚、報酬設計は、ユーザの目的や意図を反映させる工程であり、機械学習における目的関数の設計に相当し、ブラックボックス化することのできない重要な工程である。

強化学習によりフィールドの保守計画を行う際の報酬設計の方法として、資産ごとの状態を報酬として直接用いる方法がある。しかしこの方法では組合せ爆発を防ぐ必要がある等の課題があり、多数の資産が存在するフィールドの全体を最適化するような保守計画を探索することは困難である。

保守計画立案装置１０は、こうした課題を解決するものであり、次のようにしてフィールドに存在する資産全体の状態分布に基づく報酬設計を支援することにより、フィールドの全体を最適化する保守計画の探索を可能にする。

即ち、保守計画立案装置１０は、保守計画の立案に際し、まず現場の地理的な情報、資
産の管理区分、資産に障害が発生した際の影響範囲等の情報に基づき、フィールドを同一とみなせる範囲（以下、「領域」と称する。）で区分する。

続いて、保守計画立案装置１０は、各領域を単位として資産の状態に関する情報を集約した情報である領域集約情報を生成し、生成した領域集約情報に基づき、フィールドを抽象化した仮想的なフィールドである抽象化フィールドを生成する。尚、上記の資産に関する情報は、例えば、資産の状態を表すパラメータであり、上記の領域集約情報は、例えば、上記のパラメータを統計的に処理することにより生成される統計情報である。統計情報は、例えば、上記パラメータの平均値、上記パラメータの最大値または最小値、上記パラメータの分散値、所定の閾値を超える上記パラメータの割合等である。尚、領域の数と各領域の資産が取りうる状態（行動）の数を乗算した値は、行動ポリシーがフィールド全体として選択可能な状態（行動）の数になる。

続いて、保守計画立案装置１０は、抽象化フィールドに基づきフィールドの全体的な状態を示す情報である状態分布（状態分布図等）を生成し、生成した状態分布をユーザに提示しつつ、ユーザとの間の対話処理により報酬設計を行う。

以上の機能を備えた保守計画立案装置１０を用いることで、ユーザは資産全体の状態分布に基づく報酬設計を容易に行うことが可能になり、強化学習によりフィールドの全体を最適化する保守計画の探索が可能になる。

尚、フィールドが、例えば、電力設備が配置される環境である場合、フィールドに配置される資産は、例えば、送電鉄塔、電柱、送電線、配電線、送電設備、配電設備、避雷針等の電力設備である。この場合、保守計画立案装置１０は、電力設備の保守を行ったときの電力設備の劣化状況を行動ポリシーに従って時系列的に変化させ、その結果得られる報酬が最大になるように行動ポリシーを学習することで、例えば、電力設備の保守にかかるコストを抑えつつ顧客サービスが最適化されるような電力設備の保守計画を立案することができる。

図１に示すように、保守計画立案装置１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、入力装置１４、出力装置１５、及び通信装置１６の各構成を備え、情報処理装置（コンピュータ）として機能する。上記の各構成は、図示しないバス等の通信手段を介して互いに通信可能に接続されている。尚、保守計画立案装置１０は、例えば、クラウドシステムにより提供されるクラウドサーバのような仮想的な情報処理資源を用いて実現されるものであってもよい。

プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）、ＡＩ（Artificial Intelligence）チップ等を用いて構成される。

主記憶装置１２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read
Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

補助記憶装置１３は、例えば、ハードディスクドライブ、ＳＳＤ（Solid State Drive
）、光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等）、ストレージシステム、ＩＣカード、ＳＤカードや光学式記録媒体等の記録媒体の読取／書込装置、クラウドサーバの記憶領域等である。補助記憶装置１３には、記録媒体の読取装置や通信装置１６を介してプログラムやデータを読み込むことができる。補助記憶装置１３に記憶されているプログラムやデータは主記憶装置１２に随時読み込まれる。

入力装置１４は、外部からの入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置等である。

出力装置１５は、処理経過や処理結果等の各種情報を出力するユーザインタフェースである。出力装置１５は、例えば、上記の各種情報を可視化する表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）、音声出力装置（スピーカ等）、印字装置等である。尚、例えば、情報処理装置１００が、通信装置１６を介して他の装置との間で情報の入力や出力を行う構成としてもよい。

通信装置１６は、他の装置との間の通信を実現する装置である。通信装置１６は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット等の通信手
段を介した他の装置との間の通信を実現する有線方式又は無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢ（Universal Serial Interface）モジュール、シリアル通信モジュール等である。

保守計画立案装置１０は、上記の構成に加えて、例えば、デバイスドライバ、オペレーティングシステム、ファイルシステム、ＤＢＭＳ（DataBase Management System）等をさらに備えていてもよい。保守計画立案装置１０は、各種の情報（データ）を、例えば、データベースにより管理されるテーブルやファイルシステムにより管理されるファイルとして管理（記憶）する。

図２に示すように、保守計画立案装置１０は、記憶部１０５、報酬設計部１１０、及び強化学習部１２０（エージェント）の各機能を備える。これらの機能は、プロセッサ１１が、主記憶装置１２に記憶されているプログラムを読み出して実行することにより実現される。尚、保守計画立案装置１０の全ての機能が共通の情報処理装置において実現されていなくてもよく、個々の機能を通信可能に接続された複数の情報処理装置に分散して実現するようにしてもよい。また一つの機能を通信可能に接続された複数の情報処理装置により実現するようにしてもよい。

同図に示すように、記憶部１０５は、フィールド情報１５１、抽象化フィールド情報１５２、行動情報１５３、状態分布情報１５５、報酬情報１５６、行動ポリシー１５７、及び保守計画立案結果１５８を記憶する。

フィールド情報１５１は、フィールドを特定する情報やフィールドに配置される資産に関する情報を含む。例えば、フィールド情報１５１は、フィールドの地理的な情報、資産の管理区分に関する情報、資産に障害発生した際の影響範囲に関する情報、フィールドにおける各種リスクに関する情報、フィールドに設定された座標系等の所定の座標系で表した資産の位置を示す情報、フィールドの気象に関する情報、フィールドに展開されている資産に関する情報（例えば、フィールドが電力設備が配置される環境である場合は資産である電力設備の種類、仕様、設置位置等の情報）を含む。

抽象化フィールド情報１５２は、前述した抽象化フィールドに関する情報（フィールドを区分して得られる各領域を特定する情報、前述した領域集約情報（統計情報等）等）を含む。

行動情報１５３は、強化学習において取り得る行動（資産の状態であり、例えば、フィールドが電力設備が配置される環境であれば、資産である電力設備の経年劣化等）に関する情報を含む。

状態分布情報１５５は、前述した状態分布に関する情報を含む。報酬情報１５６は、報酬情報生成部１１４により生成される報酬に関する情報を含む。

行動ポリシー１５７は、前述した行動ポリシーを特定（規定）する情報を含む。

保守計画立案結果１５８は、強化学習部１２０により立案された保守計画に関する情報を含む。

同図に示すように、報酬設計部１１０は、フィールド抽象化部１１１、行動情報生成部１１２、状態分布生成部１１３、及び報酬情報生成部１１４を含む。

フィールド抽象化部１１１は、フィールド情報１５１に基づき抽象化フィールド（抽象化フィールド情報１５２）を生成する。具体的には、フィールド抽象化部１１１は、フィールド情報１５１に基づきフィールドの区分（領域）を決定し、資産に関する情報を領域ごとに集約した情報（領域集約情報）を生成し、フィールドを区分して得られる各領域を特定する情報と領域集約情報を含む抽象化フィールド情報１５２を生成する。

行動情報生成部１１２は、フィールド情報１５１及び抽象化フィールド情報１５２に基づき、フィールドに対して適用可能な行動（行動情報１５３）を生成する。

状態分布生成部１１３は、抽象化フィールド情報１５２に基づきフィールドの状態を表す状態分布（状態分布情報１５５）を生成する。また状態分布生成部１１３は、生成した状態分布を視覚化して（例えば状態分布図として）出力装置１５に出力（表示）する。

報酬情報生成部１１４は、状態分布をユーザに提示しつつ、ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けて報酬情報１５６を生成する。

強化学習部１２０（エージェント）は、保守計画の立案のための強化学習に関する処理を統括する。強化学習部１２０は、フィールド情報１５１、行動情報１５３、行動ポリシー１５４、及び報酬情報１５６に基づき行動ポリシーを学習する強化学習を行うことによりフィールドの保守計画の最適解を探索し、最適解に基づく保守計画立案結果１５８を生成する。

続いて、保守計画立案装置１０が行う主な処理についてフローチャートとともに説明する。

図３は、報酬設計部１１０が行う処理（以下、報酬設計処理Ｓ３００と称する。）を説明するフローチャートである。以下、同図とともに報酬設計処理Ｓ３００について説明する。

まずフィールド抽象化部１１１が、フィールド情報１５１に基づき抽象化フィールド（抽象化フィールド情報１５２）を生成する（Ｓ３１０）。

続いて、行動情報生成部１１２が、フィールド情報１５１及び抽象化フィールド情報１５２に基づき、フィールドに対して適用可能な行動（行動情報１５３）を生成する（Ｓ３２０）。

続いて、状態分布生成部１１３が、抽象化フィールド情報１５２に基づきフィールドの状態を表す状態分布（状態分布情報１５５）を生成する（状態分布生成処理）（Ｓ３３０）。

続いて、報酬情報生成部１１４が、状態分布をユーザに提示しつつ、ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けて報酬情報１５６を生成する（Ｓ３４０）。

図４は、図３のフィールド抽象化処理Ｓ３１０の詳細を説明するフローチャートである。以下、同図とともにフィールド抽象化処理Ｓ３１０について説明する。

フィールド抽象化部１１１は、まずフィールド情報１５１に基づき、フィールドの区分方法を決定する（Ｓ４１１）。

続いて、フィールド抽象化部１１１は、決定した区分方法により得られる各領域に配置されている資産に関する情報（パラメータ等）を領域ごとに集約して領域集約情報を生成する（Ｓ４１２）。

続いて、フィールド抽象化部１１１は、フィールドの区分（領域）を特定する情報と領域集約情報とを含む抽象化フィールド情報１５２を生成する（Ｓ４１３）。

図５は、フィールド抽象化部１１１が抽象化フィールド情報１５２を生成する様子をイメージ的に示した図である。

符号５０１は、フィールド情報１５１に基づくフィールドをイメージ的に示した図である。尚、資産の配置位置は、例えば、フィールドの座標系等の所定の座標系で表される（例えば同図に示す（31,11）、（31，14）等）。

符号５０２は、符号５０１のフィールドに基づき生成される抽象化フィールドをイメージ的に示した図である。同図に示す領域１や領域２は、フィールド抽象化部１１１により区分された領域である。フィールド抽象化部１１１は領域ごとに資産に関する情報を集約した情報（領域集約情報）を生成する。

図６は、図３の行動生成処理Ｓ３２０の詳細を説明するフローチャートである。以下、同図とともに説明する。

行動情報生成部１１２は、まず抽象化フィールドの各領域に識別情報（領域の名称等）を付与する（Ｓ６１１）。

続いてフィールド情報１５１及び抽象化フィールド情報１５２に基づき、フィールドに対して適用可能な行動（行動情報１５３）を生成する（Ｓ６１２）。

尚、生成された行動情報１５３は、行動ポリシーが選択可能な行動として、保守計画の立案のための強化学習に際して利用される。

図７は、図３の報酬情報生成処理Ｓ３４０の詳細を説明するフローチャートである。以下、同図とともに説明する。

まず報酬情報生成部１１４は、状態分布（状態分布情報１５５）を可視化してユーザに提示（出力装置１５に出力）する（Ｓ７１１）。

続いて、報酬情報生成部１１４は、ユーザと対話処理を行いつつ、フィールドの保守計画を最適化するために目指すべき目的状態を決定し、ユーザから報酬設計のための情報の
入力を受け付けつつ、目標状態に近いほど報酬が多くなるように報酬設計を行う（Ｓ７１２）。尚、設計された報酬に関する情報は、記憶部１０５が報酬情報１５６として記憶する（Ｓ７１３）。

図８は、保守計画が電力設備の保守計画である場合における、資産に関する情報（電力設備の状態を表すパラメータ）の一例を示すイメージ図である。

同図において、符号８１１は、図５の符号５０１と同様にフィールドをイメージ的に描いたものである。また符号８１２は、各資産に与えるリスクを定義するフィールド（リスクマップ）である。リスクは、例えば、災害（塩害、洪水等）に対するリスク、資産に影響を与える因子（人口密集情報等）等である。

同図に示す健全度は、資産の状態を表すパラメータであり、例えば、資産の故障発生リスクの逆数で表される。健全度は経年劣化により低下するが保守の実施により回復する。本例における保守計画の最適化は、例えば、未来の所定期間（例えば１０年）における資産の故障数と運用コストを最小化することである。

図９に図７のＳ７１２においてユーザとの対話処理を行いつつ進められる報酬設計の例を示す。

同図における符号９１１は、抽象化フィールドをイメージ的に示したものである。状態分布生成部１１３は、符号９１１の抽象化フィールド（抽象化フィールド情報１５２）に基づき、符号９１２で示す状態分布（状態分布図）を生成する（図３のＳ３３０）。

例示する状態分布図は、領域ごとに資産の持つ健全度の値の平均値を１０段階の階級に分割して集計することにより得られるヒストグラムである。状態分布図の横軸は領域ごとの資産の健全度の平均値、縦軸は健全度の平均値の夫々に該当する領域の数である。状態分布図はフィールドにおける全ての資産の状態を集約して表現したものである。

報酬設計部１１０は、状態分布（状態分布図）を提示しつつ（図７のＳ７１１）、ユーザとの間の対話処理により報酬設計を行う（図７のＳ７１２）。報酬設計部１１０は、まずユーザとの間で前述した目標状態を設定する。本例の場合、分布が右寄りである（健全度の平均値が高い）程、フィールド全体として健全な資産が多いことになるが、多くの資産を健全度の高い状態に維持しようとすればその分だけコストも増加してしまう。そこで本例の場合は目標状態を、例えば、健全度の平均値のピークが０．６〜０．９の範囲となる状態分布に設定する。このように状態分布をユーザに提示しつつ報酬設計が進められることで、ユーザは以上のような思考をめぐらしつつ目標状態を適切に設定することができる。

報酬設計部１１０は、行動の結果得られる状態が目標状態に近い程、高い報酬が与えられるように報酬を設定する。符号９１３はそのように設定した報酬情報１５６の例である。

本例では、「０≦健全度＜０．５」の範囲は故障リスクが大（故障中もしくは故障しそうな場合等）であるため、大きなマイナス報酬「−１０００」を設定している。また「０．５≦健全度＜０．６」の範囲は故障リスクが中程度（資産が故障しそうな場合等）であるため、やや大きめのマイナス報酬「−１００」を設定している。また「０．６≦健全度＜０．９」の範囲は故障リスクが非常に小さい（資産を長期間使用を継続している等）ため、大きなプラス報酬「＋１０００」を設定している。また「０．９≦健全度＜１．０」の範囲は故障リスクが比較的小さい（資産を保守した直後で故障リスクは小さいもののコ
ストが発生している場合等）ため、小さめのマイナス報酬「−１０」を設定している。

以上のようにして設計された報酬に基づき強化学習が行われることで、多数の資産が存在するフィールドの全体を最適化するような行動ポリシーを学習することが可能になり、フィールドの保守計画の最適解を効率よく探索することが可能になる。

ところで、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換をしてもよい。

例えば、以上に説明した保守計画立案装置１０の構成のうち、強化学習部１０２の機能以外の機能、例えば、記憶部１０５及び報酬設計部１１０の機能を備えた情報処理装置（強化学習支援装置）を構成してもよい。

また本発明の適用対象となる強化学習は特定の種類のものに限定されず、Ｑ−ラーニング、Ｑ−ネットワーク、ディープＱネットワーク（ＤＱＮ）、深層強化学習等、本発明は様々な種類の強化学習に適用することができる。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（Solid State Drive）等の記憶装置、又は、ＩＣ（Integrated Circuit）カ
ード、ＳＤカード、ＤＶＤ（Digital Versatile Disc）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１０保守計画立案装置
１０５記憶部
１１０報酬設計部
１１１フィールド抽象化部
１１２行動情報生成部
１１３状態分布生成部
１１４報酬情報生成部
１２０強化学習部
１５１フィールド情報
１５２抽象化フィールド情報
１５３行動情報
１５５状態分布情報
１５６報酬情報
１５７行動ポリシー
１５８保守計画立案結果
Ｓ３００報酬設計処理
Ｓ３１０フィールド抽象化処理
Ｓ３２０行動生成処理
Ｓ３３０状態分布生成処理
Ｓ３４０報酬情報生成処理

Claims

強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する情報処理装置であって、
前記フィールドを特定する情報と前記フィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶する記憶部、
前記フィールドを複数の領域に区分し、前記領域を単位として前記資産に関する情報を集約した情報である領域集約情報を生成し、前記領域を特定する情報と前記領域集約情報とに基づき、前記フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成するフィールド抽象化部、及び、
前記抽象化フィールド情報に基づき前記フィールドにおける前記資産の状態分布を示す情報である状態分布情報を生成する状態分布生成部、
を備える、強化学習支援装置。
請求項１に記載の強化学習支援装置であって、
前記資産に関する情報は前記資産の状態を表すパラメータであり、
前記領域集約情報は前記パラメータを統計的に処理することにより生成される統計情報である、
強化学習支援装置。
請求項２に記載の強化学習支援装置であって、
前記統計情報は、前記パラメータの平均値、前記パラメータの最大値または最小値、前記パラメータの分散値、所定の閾値を超える前記パラメータの割合、のうちの少なくともいずれかである、
強化学習支援装置。
請求項１に記載の強化学習支援装置であって、
情報を提示する出力装置と通信可能に接続し、
前記状態分布生成部は、前記状態分布を視覚化して前記出力装置に出力する、
強化学習支援装置。
請求項４に記載の強化学習支援装置であって、
前記状態分布生成部は、前記状態分布を、前記領域ごとの前記資産の状態を示す情報を横軸とし、前記状態ごとに該当する前記領域の数を縦軸とするヒストグラムとして前記出力装置に出力する、
強化学習支援装置。
請求項４または５に記載の強化学習支援装置であって、
ユーザインタフェースを備え、
ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けて報酬に関する情報である報酬情報を生成する報酬情報生成部をさらに備える、
強化学習支援装置。
請求項１に記載の強化学習支援装置であって、
前記フィールド抽象化部は、前記フィールド情報に含まれている、前記フィールドの地理的な情報、前記資産の管理区分、前記資産に障害発生した際の影響範囲等の情報、のうちの少なくともいずれかに基づき、前記フィールドを複数の前記領域に区分する、
強化学習支援装置。
請求項１に記載の強化学習支援装置であって、
前記強化学習において行動ポリシーが選択する行動に関する情報である行動情報を前記フィールド情報及び前記抽象化フィールド情報に基づき生成する行動情報生成部をさらに備える、
強化学習支援装置。
強化学習によりフィールドの保守計画を立案する情報処理装置であって、
前記フィールドを特定する情報と前記フィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶する記憶部、
前記フィールドを複数の領域に区分し、前記領域を単位として前記資産に関する情報を集約した情報である領域集約情報を生成し、前記領域を特定する情報と前記領域集約情報とに基づき、前記フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成するフィールド抽象化部、及び、
前記抽象化フィールド情報に基づき前記フィールドにおける前記資産の状態分布を示す情報である状態分布情報を生成する状態分布生成部、
ユーザインタフェース、
ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けて報酬に関する情報である報酬情報を生成する報酬情報生成部、
前記強化学習において行動ポリシーが選択する行動に関する情報である行動情報を前記フィールド情報及び前記抽象化フィールド情報に基づき生成する行動情報生成部、及び、
前記報酬情報及び前記行動情報に基づき前記強化学習を行う強化学習部、
を備える、保守計画立案装置。
強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する方法であって、
情報処理装置が、
前記フィールドを特定する情報と前記フィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶するステップ、
前記フィールドを複数の領域に区分し、前記領域を単位として前記資産に関する情報を集約した情報である領域集約情報を生成し、前記領域を特定する情報と前記領域集約情報とに基づき、前記フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成するステップ、及び、
前記抽象化フィールド情報に基づき前記フィールドにおける前記資産の状態分布を示す情報である状態分布情報を生成するステップ、
を実行する、強化学習支援方法。
請求項１０に記載の強化学習支援方法であって、
前記資産に関する情報は前記資産の状態を表すパラメータであり、
前記領域集約情報は前記パラメータを統計的に処理することにより生成される統計情報である、
強化学習支援方法。
請求項１１に記載の強化学習支援方法であって、
前記統計情報は、前記パラメータの平均値、前記パラメータの最大値または最小値、前記パラメータの分散値、所定の閾値を超える前記パラメータの割合、のうちの少なくともいずれかである、
強化学習支援装置。
請求項１０に記載の強化学習支援方法であって、
前記情報処理装置は情報を提示する出力装置と通信可能に接続し、
前記情報処理装置が、前記状態分布を視覚化して前記出力装置に出力するステップ、
をさらに実行する、強化学習支援方法。
請求項１３に記載の強化学習支援方法であって、
前記情報処理装置は、前記状態分布情報を、前記領域ごとの前記資産の状態を示す情報を横軸とし、前記状態ごとに該当する前記領域の数を縦軸とするヒストグラムとして前記出力装置に出力するステップ、
をさらに実行する、強化学習支援方法。
請求項１３または１４に記載の強化学習支援方法であって、
前記情報処理装置はユーザインタフェースを備え、
前記情報処理装置が、ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けるステップ、
をさらに実行する、強化学習支援方法。