[go: up one dir, main page]

JP2020091615A - 強化学習支援装置、保守計画立案装置、及び強化学習支援方法 - Google Patents

強化学習支援装置、保守計画立案装置、及び強化学習支援方法 Download PDF

Info

Publication number
JP2020091615A
JP2020091615A JP2018227751A JP2018227751A JP2020091615A JP 2020091615 A JP2020091615 A JP 2020091615A JP 2018227751 A JP2018227751 A JP 2018227751A JP 2018227751 A JP2018227751 A JP 2018227751A JP 2020091615 A JP2020091615 A JP 2020091615A
Authority
JP
Japan
Prior art keywords
information
field
reinforcement learning
learning support
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018227751A
Other languages
English (en)
Other versions
JP7141320B2 (ja
Inventor
文也 工藤
Fumiya Kudo
文也 工藤
俊宏 鯨井
Toshihiro Kujirai
俊宏 鯨井
やえみ 寺本
Yaemi Teramoto
やえみ 寺本
正啓 間瀬
Tadakei Mase
正啓 間瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018227751A priority Critical patent/JP7141320B2/ja
Publication of JP2020091615A publication Critical patent/JP2020091615A/ja
Application granted granted Critical
Publication of JP7141320B2 publication Critical patent/JP7141320B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する。【解決手段】強化学習支援装置(保守計画立案装置)は、フィールドを特定する情報とフィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶し、フィールドを複数の領域に区分し、領域を単位として資産に関する情報を集約した情報である領域集約情報を生成し、領域を特定する情報と領域集約情報とに基づき、フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成し、抽象化フィールド情報に基づきフィールドにおける資産の状態分布を示す情報である状態分布情報を生成する。【選択図】図2

Description

本発明は、強化学習支援装置、保守計画立案装置、及び強化学習支援方法に関する。
特許文献1には、コストを抑えつつ、保守対象装置のメンテナンスまたはリプレースのタイミングを適正に決定可能にすることを目的として構成された保守支援装置に関して記載されている。保守支援装置は、保守対象装置のメンテナンスあるいはリプレースの履歴、メンテナンスあるいはリプレース以外でコストが発生する事象の発生履歴、メンテナンスあるいはリプレースを行うタイミングの条件を定めたタイミング条件の成否を判断するための保守対象装置の稼働情報に関する運用データを取得し、履歴に示されるメンテナンスあるいはリプレースごとに、複数のタイミング条件候補のそれぞれに応じてメンテナンスあるいはリプレースを行った場合のコストを計算し、求めたコストに基づき、複数のタイミング条件候補からメンテナンスあるいはリプレースのタイミング条件を選択する。
特開2018−32206号公報
昨今、企業等の組織においては、業績向上や生産性向上等を目的としてビックデータの活用が進められており、フィールドの保守(メンテナンス)業務の分野においてもビッグデータを活用した保守計画(資産(Asset)の配置計画、保守スケジュール計画等)の最適化への応用が期待されている。
フィールドの保守計画の立案に際しては、フィールドの全体を俯瞰した中長期的な方策を立案することが重要である。フィールドの保守計画を立案する技術の一つとして強化学習があるが、強化学習は利用に際して専門知識が要求され、とくにユーザの目的や意図を反映させる重要な工程である報酬設計に際しては高度な知識が要求される。
特許文献1には、保守対象装置のメンテナンスまたはリプレースのタイミングを強化学習により決定することが記載されている。しかし同文献に記載された方法は単一の装置についてのメンテナンスのタイミングを提示するものであり、フィールドの全体を俯瞰した中長期的な方策を探索することを目的とするものではない。
本発明は、このような背景に鑑みてなされたものであり、強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する、強化学習支援装置、保守計画立案装置、及び強化学習支援方法を提供することを目的とする。
上記目的を達成するための本発明の一つは、強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する情報処理装置(強化学習支援装置)であって、前記フィールドを特定する情報と前記フィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶する記憶部、前記フィールドを複数の領域に区分し、前記領域を単位として前記資産に関する情報を集約した情報である領域集約情報を生成し、前記領域を特定する情報と前記領域集約情報とに基づき、前記フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成するフィールド抽象化
部、及び、前記抽象化フィールド情報に基づき前記フィールドにおける前記資産の状態分布を示す情報である状態分布情報を生成する状態分布生成部、を備える。
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
本発明によれば、強化学習によりフィールドの保守計画を立案する際の報酬設計を支援することができる。
保守計画立案装置のハードウェア構成の例である。 保守計画立案装置が備える主な機能を示す図である。 報酬設計処理を説明するフローチャートである。 フィールド抽象化処理を説明するフローチャートである。 フィールドの抽象化を説明する図である。 行動生成処理を説明するフローチャートである。 報酬情報生成処理を説明するフローチャートである。 資産が有するパラメータを説明する図である。 報酬設計を説明する図である。
以下、実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成について同一の符号を付して重複した説明を省略することがある。
図1に一実施形態として説明する、フィールドの保守計画を立案する情報処理装置(以下、保守計画立案装置10と称する。)のハードウェア構成の一例を、図2に保守計画立案装置10が備える主な機能を示している。
保守計画立案装置10は、フィールドの状態を保守計画の方策(以下、「行動ポリシー」と称する。)に従って系列的に(例えば時系列的に)変化させ、その結果に応じて得られる報酬に基づきエージェントが行動ポリシーを学習する強化学習を行うことにより、フィールドの保守計画の最適解を探索する。尚、フィールドの保守計画の例として、フィールドに存在する資産の配置計画や資産の保守計画(スケジューリング)等がある。
強化学習においては、ユーザが目指す状態を目標状態として設定し、設定した目標状態に向かって学習が進むように報酬設計を行う。尚、報酬設計は、ユーザの目的や意図を反映させる工程であり、機械学習における目的関数の設計に相当し、ブラックボックス化することのできない重要な工程である。
強化学習によりフィールドの保守計画を行う際の報酬設計の方法として、資産ごとの状態を報酬として直接用いる方法がある。しかしこの方法では組合せ爆発を防ぐ必要がある等の課題があり、多数の資産が存在するフィールドの全体を最適化するような保守計画を探索することは困難である。
保守計画立案装置10は、こうした課題を解決するものであり、次のようにしてフィールドに存在する資産全体の状態分布に基づく報酬設計を支援することにより、フィールドの全体を最適化する保守計画の探索を可能にする。
即ち、保守計画立案装置10は、保守計画の立案に際し、まず現場の地理的な情報、資
産の管理区分、資産に障害が発生した際の影響範囲等の情報に基づき、フィールドを同一とみなせる範囲(以下、「領域」と称する。)で区分する。
続いて、保守計画立案装置10は、各領域を単位として資産の状態に関する情報を集約した情報である領域集約情報を生成し、生成した領域集約情報に基づき、フィールドを抽象化した仮想的なフィールドである抽象化フィールドを生成する。尚、上記の資産に関する情報は、例えば、資産の状態を表すパラメータであり、上記の領域集約情報は、例えば、上記のパラメータを統計的に処理することにより生成される統計情報である。統計情報は、例えば、上記パラメータの平均値、上記パラメータの最大値または最小値、上記パラメータの分散値、所定の閾値を超える上記パラメータの割合等である。尚、領域の数と各領域の資産が取りうる状態(行動)の数を乗算した値は、行動ポリシーがフィールド全体として選択可能な状態(行動)の数になる。
続いて、保守計画立案装置10は、抽象化フィールドに基づきフィールドの全体的な状態を示す情報である状態分布(状態分布図等)を生成し、生成した状態分布をユーザに提示しつつ、ユーザとの間の対話処理により報酬設計を行う。
以上の機能を備えた保守計画立案装置10を用いることで、ユーザは資産全体の状態分布に基づく報酬設計を容易に行うことが可能になり、強化学習によりフィールドの全体を最適化する保守計画の探索が可能になる。
尚、フィールドが、例えば、電力設備が配置される環境である場合、フィールドに配置される資産は、例えば、送電鉄塔、電柱、送電線、配電線、送電設備、配電設備、避雷針等の電力設備である。この場合、保守計画立案装置10は、電力設備の保守を行ったときの電力設備の劣化状況を行動ポリシーに従って時系列的に変化させ、その結果得られる報酬が最大になるように行動ポリシーを学習することで、例えば、電力設備の保守にかかるコストを抑えつつ顧客サービスが最適化されるような電力設備の保守計画を立案することができる。
図1に示すように、保守計画立案装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16の各構成を備え、情報処理装置(コンピュータ)として機能する。上記の各構成は、図示しないバス等の通信手段を介して互いに通信可能に接続されている。尚、保守計画立案装置10は、例えば、クラウドシステムにより提供されるクラウドサーバのような仮想的な情報処理資源を用いて実現されるものであってもよい。
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ等を用いて構成される。
主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
補助記憶装置13は、例えば、ハードディスクドライブ、SSD(Solid State Drive
)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み込むことができる。補助記憶装置13に記憶されているプログラムやデータは主記憶装置12に随時読み込まれる。
入力装置14は、外部からの入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置等である。
出力装置15は、処理経過や処理結果等の各種情報を出力するユーザインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、音声出力装置(スピーカ等)、印字装置等である。尚、例えば、情報処理装置100が、通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。
通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の通信手
段を介した他の装置との間の通信を実現する有線方式又は無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Interface)モジュール、シリアル通信モジュール等である。
保守計画立案装置10は、上記の構成に加えて、例えば、デバイスドライバ、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)等をさらに備えていてもよい。保守計画立案装置10は、各種の情報(データ)を、例えば、データベースにより管理されるテーブルやファイルシステムにより管理されるファイルとして管理(記憶)する。
図2に示すように、保守計画立案装置10は、記憶部105、報酬設計部110、及び強化学習部120(エージェント)の各機能を備える。これらの機能は、プロセッサ11が、主記憶装置12に記憶されているプログラムを読み出して実行することにより実現される。尚、保守計画立案装置10の全ての機能が共通の情報処理装置において実現されていなくてもよく、個々の機能を通信可能に接続された複数の情報処理装置に分散して実現するようにしてもよい。また一つの機能を通信可能に接続された複数の情報処理装置により実現するようにしてもよい。
同図に示すように、記憶部105は、フィールド情報151、抽象化フィールド情報152、行動情報153、状態分布情報155、報酬情報156、行動ポリシー157、及び保守計画立案結果158を記憶する。
フィールド情報151は、フィールドを特定する情報やフィールドに配置される資産に関する情報を含む。例えば、フィールド情報151は、フィールドの地理的な情報、資産の管理区分に関する情報、資産に障害発生した際の影響範囲に関する情報、フィールドにおける各種リスクに関する情報、フィールドに設定された座標系等の所定の座標系で表した資産の位置を示す情報、フィールドの気象に関する情報、フィールドに展開されている資産に関する情報(例えば、フィールドが電力設備が配置される環境である場合は資産である電力設備の種類、仕様、設置位置等の情報)を含む。
抽象化フィールド情報152は、前述した抽象化フィールドに関する情報(フィールドを区分して得られる各領域を特定する情報、前述した領域集約情報(統計情報等)等)を含む。
行動情報153は、強化学習において取り得る行動(資産の状態であり、例えば、フィールドが電力設備が配置される環境であれば、資産である電力設備の経年劣化等)に関する情報を含む。
状態分布情報155は、前述した状態分布に関する情報を含む。報酬情報156は、報酬情報生成部114により生成される報酬に関する情報を含む。
行動ポリシー157は、前述した行動ポリシーを特定(規定)する情報を含む。
保守計画立案結果158は、強化学習部120により立案された保守計画に関する情報を含む。
同図に示すように、報酬設計部110は、フィールド抽象化部111、行動情報生成部112、状態分布生成部113、及び報酬情報生成部114を含む。
フィールド抽象化部111は、フィールド情報151に基づき抽象化フィールド(抽象化フィールド情報152)を生成する。具体的には、フィールド抽象化部111は、フィールド情報151に基づきフィールドの区分(領域)を決定し、資産に関する情報を領域ごとに集約した情報(領域集約情報)を生成し、フィールドを区分して得られる各領域を特定する情報と領域集約情報を含む抽象化フィールド情報152を生成する。
行動情報生成部112は、フィールド情報151及び抽象化フィールド情報152に基づき、フィールドに対して適用可能な行動(行動情報153)を生成する。
状態分布生成部113は、抽象化フィールド情報152に基づきフィールドの状態を表す状態分布(状態分布情報155)を生成する。また状態分布生成部113は、生成した状態分布を視覚化して(例えば状態分布図として)出力装置15に出力(表示)する。
報酬情報生成部114は、状態分布をユーザに提示しつつ、ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けて報酬情報156を生成する。
強化学習部120(エージェント)は、保守計画の立案のための強化学習に関する処理を統括する。強化学習部120は、フィールド情報151、行動情報153、行動ポリシー154、及び報酬情報156に基づき行動ポリシーを学習する強化学習を行うことによりフィールドの保守計画の最適解を探索し、最適解に基づく保守計画立案結果158を生成する。
続いて、保守計画立案装置10が行う主な処理についてフローチャートとともに説明する。
図3は、報酬設計部110が行う処理(以下、報酬設計処理S300と称する。)を説明するフローチャートである。以下、同図とともに報酬設計処理S300について説明する。
まずフィールド抽象化部111が、フィールド情報151に基づき抽象化フィールド(抽象化フィールド情報152)を生成する(S310)。
続いて、行動情報生成部112が、フィールド情報151及び抽象化フィールド情報152に基づき、フィールドに対して適用可能な行動(行動情報153)を生成する(S320)。
続いて、状態分布生成部113が、抽象化フィールド情報152に基づきフィールドの状態を表す状態分布(状態分布情報155)を生成する(状態分布生成処理)(S330)。
続いて、報酬情報生成部114が、状態分布をユーザに提示しつつ、ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けて報酬情報156を生成する(S340)。
図4は、図3のフィールド抽象化処理S310の詳細を説明するフローチャートである。以下、同図とともにフィールド抽象化処理S310について説明する。
フィールド抽象化部111は、まずフィールド情報151に基づき、フィールドの区分方法を決定する(S411)。
続いて、フィールド抽象化部111は、決定した区分方法により得られる各領域に配置されている資産に関する情報(パラメータ等)を領域ごとに集約して領域集約情報を生成する(S412)。
続いて、フィールド抽象化部111は、フィールドの区分(領域)を特定する情報と領域集約情報とを含む抽象化フィールド情報152を生成する(S413)。
図5は、フィールド抽象化部111が抽象化フィールド情報152を生成する様子をイメージ的に示した図である。
符号501は、フィールド情報151に基づくフィールドをイメージ的に示した図である。尚、資産の配置位置は、例えば、フィールドの座標系等の所定の座標系で表される(例えば同図に示す(31,11)、(31,14)等)。
符号502は、符号501のフィールドに基づき生成される抽象化フィールドをイメージ的に示した図である。同図に示す領域1や領域2は、フィールド抽象化部111により区分された領域である。フィールド抽象化部111は領域ごとに資産に関する情報を集約した情報(領域集約情報)を生成する。
図6は、図3の行動生成処理S320の詳細を説明するフローチャートである。以下、同図とともに説明する。
行動情報生成部112は、まず抽象化フィールドの各領域に識別情報(領域の名称等)を付与する(S611)。
続いてフィールド情報151及び抽象化フィールド情報152に基づき、フィールドに対して適用可能な行動(行動情報153)を生成する(S612)。
尚、生成された行動情報153は、行動ポリシーが選択可能な行動として、保守計画の立案のための強化学習に際して利用される。
図7は、図3の報酬情報生成処理S340の詳細を説明するフローチャートである。以下、同図とともに説明する。
まず報酬情報生成部114は、状態分布(状態分布情報155)を可視化してユーザに提示(出力装置15に出力)する(S711)。
続いて、報酬情報生成部114は、ユーザと対話処理を行いつつ、フィールドの保守計画を最適化するために目指すべき目的状態を決定し、ユーザから報酬設計のための情報の
入力を受け付けつつ、目標状態に近いほど報酬が多くなるように報酬設計を行う(S712)。尚、設計された報酬に関する情報は、記憶部105が報酬情報156として記憶する(S713)。
図8は、保守計画が電力設備の保守計画である場合における、資産に関する情報(電力設備の状態を表すパラメータ)の一例を示すイメージ図である。
同図において、符号811は、図5の符号501と同様にフィールドをイメージ的に描いたものである。また符号812は、各資産に与えるリスクを定義するフィールド(リスクマップ)である。リスクは、例えば、災害(塩害、洪水等)に対するリスク、資産に影響を与える因子(人口密集情報等)等である。
同図に示す健全度は、資産の状態を表すパラメータであり、例えば、資産の故障発生リスクの逆数で表される。健全度は経年劣化により低下するが保守の実施により回復する。本例における保守計画の最適化は、例えば、未来の所定期間(例えば10年)における資産の故障数と運用コストを最小化することである。
図9に図7のS712においてユーザとの対話処理を行いつつ進められる報酬設計の例を示す。
同図における符号911は、抽象化フィールドをイメージ的に示したものである。状態分布生成部113は、符号911の抽象化フィールド(抽象化フィールド情報152)に基づき、符号912で示す状態分布(状態分布図)を生成する(図3のS330)。
例示する状態分布図は、領域ごとに資産の持つ健全度の値の平均値を10段階の階級に分割して集計することにより得られるヒストグラムである。状態分布図の横軸は領域ごとの資産の健全度の平均値、縦軸は健全度の平均値の夫々に該当する領域の数である。状態分布図はフィールドにおける全ての資産の状態を集約して表現したものである。
報酬設計部110は、状態分布(状態分布図)を提示しつつ(図7のS711)、ユーザとの間の対話処理により報酬設計を行う(図7のS712)。報酬設計部110は、まずユーザとの間で前述した目標状態を設定する。本例の場合、分布が右寄りである(健全度の平均値が高い)程、フィールド全体として健全な資産が多いことになるが、多くの資産を健全度の高い状態に維持しようとすればその分だけコストも増加してしまう。そこで本例の場合は目標状態を、例えば、健全度の平均値のピークが0.6〜0.9の範囲となる状態分布に設定する。このように状態分布をユーザに提示しつつ報酬設計が進められることで、ユーザは以上のような思考をめぐらしつつ目標状態を適切に設定することができる。
報酬設計部110は、行動の結果得られる状態が目標状態に近い程、高い報酬が与えられるように報酬を設定する。符号913はそのように設定した報酬情報156の例である。
本例では、「0≦健全度<0.5」の範囲は故障リスクが大(故障中もしくは故障しそうな場合等)であるため、大きなマイナス報酬「−1000」を設定している。また「0.5≦健全度<0.6」の範囲は故障リスクが中程度(資産が故障しそうな場合等)であるため、やや大きめのマイナス報酬「−100」を設定している。また「0.6≦健全度<0.9」の範囲は故障リスクが非常に小さい(資産を長期間使用を継続している等)ため、大きなプラス報酬「+1000」を設定している。また「0.9≦健全度<1.0」の範囲は故障リスクが比較的小さい(資産を保守した直後で故障リスクは小さいもののコ
ストが発生している場合等)ため、小さめのマイナス報酬「−10」を設定している。
以上のようにして設計された報酬に基づき強化学習が行われることで、多数の資産が存在するフィールドの全体を最適化するような行動ポリシーを学習することが可能になり、フィールドの保守計画の最適解を効率よく探索することが可能になる。
ところで、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換をしてもよい。
例えば、以上に説明した保守計画立案装置10の構成のうち、強化学習部102の機能以外の機能、例えば、記憶部105及び報酬設計部110の機能を備えた情報処理装置(強化学習支援装置)を構成してもよい。
また本発明の適用対象となる強化学習は特定の種類のものに限定されず、Q−ラーニング、Q−ネットワーク、ディープQネットワーク(DQN)、深層強化学習等、本発明は様々な種類の強化学習に適用することができる。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カ
ード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
10 保守計画立案装置
105 記憶部
110 報酬設計部
111 フィールド抽象化部
112 行動情報生成部
113 状態分布生成部
114 報酬情報生成部
120 強化学習部
151 フィールド情報
152 抽象化フィールド情報
153 行動情報
155 状態分布情報
156 報酬情報
157 行動ポリシー
158 保守計画立案結果
S300 報酬設計処理
S310 フィールド抽象化処理
S320 行動生成処理
S330 状態分布生成処理
S340 報酬情報生成処理

Claims (15)

  1. 強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する情報処理装置であって、
    前記フィールドを特定する情報と前記フィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶する記憶部、
    前記フィールドを複数の領域に区分し、前記領域を単位として前記資産に関する情報を集約した情報である領域集約情報を生成し、前記領域を特定する情報と前記領域集約情報とに基づき、前記フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成するフィールド抽象化部、及び、
    前記抽象化フィールド情報に基づき前記フィールドにおける前記資産の状態分布を示す情報である状態分布情報を生成する状態分布生成部、
    を備える、強化学習支援装置。
  2. 請求項1に記載の強化学習支援装置であって、
    前記資産に関する情報は前記資産の状態を表すパラメータであり、
    前記領域集約情報は前記パラメータを統計的に処理することにより生成される統計情報である、
    強化学習支援装置。
  3. 請求項2に記載の強化学習支援装置であって、
    前記統計情報は、前記パラメータの平均値、前記パラメータの最大値または最小値、前記パラメータの分散値、所定の閾値を超える前記パラメータの割合、のうちの少なくともいずれかである、
    強化学習支援装置。
  4. 請求項1に記載の強化学習支援装置であって、
    情報を提示する出力装置と通信可能に接続し、
    前記状態分布生成部は、前記状態分布を視覚化して前記出力装置に出力する、
    強化学習支援装置。
  5. 請求項4に記載の強化学習支援装置であって、
    前記状態分布生成部は、前記状態分布を、前記領域ごとの前記資産の状態を示す情報を横軸とし、前記状態ごとに該当する前記領域の数を縦軸とするヒストグラムとして前記出力装置に出力する、
    強化学習支援装置。
  6. 請求項4または5に記載の強化学習支援装置であって、
    ユーザインタフェースを備え、
    ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けて報酬に関する情報である報酬情報を生成する報酬情報生成部をさらに備える、
    強化学習支援装置。
  7. 請求項1に記載の強化学習支援装置であって、
    前記フィールド抽象化部は、前記フィールド情報に含まれている、前記フィールドの地理的な情報、前記資産の管理区分、前記資産に障害発生した際の影響範囲等の情報、のうちの少なくともいずれかに基づき、前記フィールドを複数の前記領域に区分する、
    強化学習支援装置。
  8. 請求項1に記載の強化学習支援装置であって、
    前記強化学習において行動ポリシーが選択する行動に関する情報である行動情報を前記フィールド情報及び前記抽象化フィールド情報に基づき生成する行動情報生成部をさらに備える、
    強化学習支援装置。
  9. 強化学習によりフィールドの保守計画を立案する情報処理装置であって、
    前記フィールドを特定する情報と前記フィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶する記憶部、
    前記フィールドを複数の領域に区分し、前記領域を単位として前記資産に関する情報を集約した情報である領域集約情報を生成し、前記領域を特定する情報と前記領域集約情報とに基づき、前記フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成するフィールド抽象化部、及び、
    前記抽象化フィールド情報に基づき前記フィールドにおける前記資産の状態分布を示す情報である状態分布情報を生成する状態分布生成部、
    ユーザインタフェース、
    ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けて報酬に関する情報である報酬情報を生成する報酬情報生成部、
    前記強化学習において行動ポリシーが選択する行動に関する情報である行動情報を前記フィールド情報及び前記抽象化フィールド情報に基づき生成する行動情報生成部、及び、
    前記報酬情報及び前記行動情報に基づき前記強化学習を行う強化学習部、
    を備える、保守計画立案装置。
  10. 強化学習によりフィールドの保守計画を立案する際の報酬設計を支援する方法であって、
    情報処理装置が、
    前記フィールドを特定する情報と前記フィールドに配置される資産に関する情報とを含んだ情報であるフィールド情報を記憶するステップ、
    前記フィールドを複数の領域に区分し、前記領域を単位として前記資産に関する情報を集約した情報である領域集約情報を生成し、前記領域を特定する情報と前記領域集約情報とに基づき、前記フィールドを抽象化して得られる抽象化フィールドについての情報である抽象化フィールド情報を生成するステップ、及び、
    前記抽象化フィールド情報に基づき前記フィールドにおける前記資産の状態分布を示す情報である状態分布情報を生成するステップ、
    を実行する、強化学習支援方法。
  11. 請求項10に記載の強化学習支援方法であって、
    前記資産に関する情報は前記資産の状態を表すパラメータであり、
    前記領域集約情報は前記パラメータを統計的に処理することにより生成される統計情報である、
    強化学習支援方法。
  12. 請求項11に記載の強化学習支援方法であって、
    前記統計情報は、前記パラメータの平均値、前記パラメータの最大値または最小値、前記パラメータの分散値、所定の閾値を超える前記パラメータの割合、のうちの少なくともいずれかである、
    強化学習支援装置。
  13. 請求項10に記載の強化学習支援方法であって、
    前記情報処理装置は情報を提示する出力装置と通信可能に接続し、
    前記情報処理装置が、前記状態分布を視覚化して前記出力装置に出力するステップ、
    をさらに実行する、強化学習支援方法。
  14. 請求項13に記載の強化学習支援方法であって、
    前記情報処理装置は、前記状態分布情報を、前記領域ごとの前記資産の状態を示す情報を横軸とし、前記状態ごとに該当する前記領域の数を縦軸とするヒストグラムとして前記出力装置に出力するステップ、
    をさらに実行する、強化学習支援方法。
  15. 請求項13または14に記載の強化学習支援方法であって、
    前記情報処理装置はユーザインタフェースを備え、
    前記情報処理装置が、ユーザとの間の対話処理により報酬設計のための情報の入力を受け付けるステップ、
    をさらに実行する、強化学習支援方法。
JP2018227751A 2018-12-05 2018-12-05 強化学習支援装置、保守計画立案装置、及び強化学習支援方法 Active JP7141320B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018227751A JP7141320B2 (ja) 2018-12-05 2018-12-05 強化学習支援装置、保守計画立案装置、及び強化学習支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018227751A JP7141320B2 (ja) 2018-12-05 2018-12-05 強化学習支援装置、保守計画立案装置、及び強化学習支援方法

Publications (2)

Publication Number Publication Date
JP2020091615A true JP2020091615A (ja) 2020-06-11
JP7141320B2 JP7141320B2 (ja) 2022-09-22

Family

ID=71012884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018227751A Active JP7141320B2 (ja) 2018-12-05 2018-12-05 強化学習支援装置、保守計画立案装置、及び強化学習支援方法

Country Status (1)

Country Link
JP (1) JP7141320B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004274844A (ja) * 2003-03-06 2004-09-30 Tokyo Electric Power Co Inc:The 保守計画立案支援方法及び装置
JP2008224120A (ja) * 2007-03-12 2008-09-25 Hitachi Ltd ボイラプラントの制御装置及び運転員訓練用装置
JP2009294731A (ja) * 2008-06-02 2009-12-17 Toshiba Corp 運用ノウハウを自動抽出するプラント制御装置
JP2011059756A (ja) * 2009-09-07 2011-03-24 Toshiba Corp 電力設備管理システム
JP2018106466A (ja) * 2016-12-27 2018-07-05 株式会社日立製作所 制御装置及び制御方法
JP2018142060A (ja) * 2017-02-27 2018-09-13 株式会社東芝 アイソレーション管理システムおよびアイソレーション管理方法
JP2018185565A (ja) * 2017-04-24 2018-11-22 株式会社東芝 対話システム、対話方法及び対話プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004274844A (ja) * 2003-03-06 2004-09-30 Tokyo Electric Power Co Inc:The 保守計画立案支援方法及び装置
JP2008224120A (ja) * 2007-03-12 2008-09-25 Hitachi Ltd ボイラプラントの制御装置及び運転員訓練用装置
JP2009294731A (ja) * 2008-06-02 2009-12-17 Toshiba Corp 運用ノウハウを自動抽出するプラント制御装置
JP2011059756A (ja) * 2009-09-07 2011-03-24 Toshiba Corp 電力設備管理システム
JP2018106466A (ja) * 2016-12-27 2018-07-05 株式会社日立製作所 制御装置及び制御方法
JP2018142060A (ja) * 2017-02-27 2018-09-13 株式会社東芝 アイソレーション管理システムおよびアイソレーション管理方法
JP2018185565A (ja) * 2017-04-24 2018-11-22 株式会社東芝 対話システム、対話方法及び対話プログラム

Also Published As

Publication number Publication date
JP7141320B2 (ja) 2022-09-22

Similar Documents

Publication Publication Date Title
US9031914B2 (en) Tier-based data management
EP4195112A1 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
US20230129123A1 (en) Monitoring and Management System for Automatically Generating an Issue Prediction for a Trouble Ticket
US11762720B2 (en) Information processing apparatus and non-transitory computer-readable storage medium for storing API use history display program
US20240070160A1 (en) Data processing method and electronic device
CN114444782A (zh) 企业资产的管理方法、装置、存储介质及计算机设备
JP2020166829A (ja) 互換性のあるコンポーネントの非同期選択のシステムおよび方法
JP7410379B2 (ja) 資源使用量予測方法および資源使用量予測プログラム
JP2018010523A (ja) 設備保全計画作成システム及び設備保全計画作成方法
CN115718806A (zh) 系统投产问题管理方法、装置、设备、介质和程序产品
US11468023B2 (en) Computer-based data collection, management, and forecasting
CN113537519B (zh) 一种识别异常设备的方法和装置
JP7141320B2 (ja) 強化学習支援装置、保守計画立案装置、及び強化学習支援方法
JP7133496B2 (ja) 影響範囲特定装置、及び影響範囲特定方法
JP2020109635A (ja) 異常があるシステムと互換性のあるシステムを検出する方法
US11513862B2 (en) System and method for state management of devices
CN115686895A (zh) 数据库异常诊断方法、装置、设备、介质和程序产品
JP7478011B2 (ja) プロジェクト管理システムにおける管理サーバ、管理方法及びプログラム
Yashchin Design and implementation of systems for monitoring lifetime data
JP2024029694A (ja) 情報処理装置及びプログラム
Ruan et al. Open-access data and toolbox for tracking covid-19 impact on power systems
US20060242125A1 (en) Method, apparatus, and computer program product for assessing a user's current information management system
JP7660530B2 (ja) プロジェクト成否予測装置、予測モデルの機械学習方法、およびプロジェクト成否予測方法
JP7742779B2 (ja) 計算機システム及び予測モデルの学習方法
JP7797302B2 (ja) 倫理性診断装置、及び倫理性診断方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220909

R150 Certificate of patent or registration of utility model

Ref document number: 7141320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150