JP2018071853A

JP2018071853A - 学習装置、制御装置、学習方法、制御方法、学習プログラムおよび制御プログラム

Info

Publication number: JP2018071853A
Application number: JP2016210319A
Authority: JP
Inventors: 司竹原; Tsukasa Takehara; 成康堀川; Nariyasu Horikawa
Original assignee: Info-Green Co Ltd; Japan Computer Technos Corp
Current assignee: Info-Green Co Ltd; Japan Computer Technos Corp
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2018-05-10

Abstract

【課題】従来の空調制御装置においては、空調システムが管理する領域内の熱的快適性を最大公約数の範囲に収めることは可能であっても、刻一刻と変化する個々のユーザの嗜好に合わせた熱的快適性に適応することが難しかった。そのため、各ユーザは熱的快適性が許容範囲を超えたとき、自ら空調機の操作を行って快適性を回復する必要があったという課題があった。【解決手段】過去のデータを用いた学習機能を用いることで、各ユーザの熱的快適性を許容範囲に収めるように、空調システムを自動的に制御することができる。【選択図】図１

Description

本発明は、複数の空調機等を有する空調システムを制御する制御装置に関するものである。

従来の学習機能を有する空調を制御する制御装置では、単独のエアコンを制御するもの制御装置が存在する（例えば、特許文献１参照）。

特開２０１６−１６９９３８号公報（第１頁、第１図等）

しかしながら、従来の空調制御装置では、ユーザの操作の情報を含む空調システムに関する過去の種々の情報を用いて、複数の空調機を統合的かつ好適に制御することはできないという課題があった。

本第一の発明の学習装置は、２以上の空調機を有する空調システムを制御するための学習情報が格納される学習情報格納部と、外気温度を含む外部環境情報と、日時に関する日時情報とを有する２以上の外部情報が格納される外部情報格納部と、空調機が空気調整する領域を識別する領域識別子と、領域の温度を含む内部環境情報と、日時に関する日時情報とを有する２以上の内部情報が格納される内部情報格納部と、空調システムを構成する空調機を識別する装置識別子と、空調機の状態に関する１以上の状態情報と、日時に関する日時情報とを有する２以上の装置状態情報が格納される装置状態情報格納部と、空調システムを構成する空調機を識別する装置識別子と、空調機の設定に関する１以上の設定情報と、日時に関する日時情報とを有する２以上の装置設定情報が格納される装置設定情報格納部と、空調システムを構成する空調機に対応する装置識別子と、ユーザによる空調機の操作を特定する操作識別子と、日時に関する日時情報とを有する１以上の操作情報が格納される操作情報格納部と、２以上の外部情報と２以上の内部情報と２以上の装置状態情報と２以上の装置設定情報と１以上の操作情報とを有する２以上の統合情報を用いて、時刻に関する時刻情報と時刻情報に対応する外部情報、または時刻に関する時刻情報と時刻情報に対応する外部情報と時刻情報に対応する内部情報と時刻情報に対応する装置状態情報と各空調機に対する装置設定情報を含む制御情報を入力とし、各空調機に対する装置設定情報を含む制御情報に関する情報を出力とする学習情報を構成する学習部と、学習情報を学習情報格納部に蓄積する蓄積部とを具備する学習装置である。

かかる構成により、過去に蓄積された環境に関する情報と装置に関する情報から、ユーザが直接空調機を操作する必要がない空調システムの制御を実現するための学習情報を取得することができる。

また、本第二の発明の学習装置は、第一の発明に対して、学習情報格納部には、１または２以上の熱源と２以上の空調機とを有する空調システムを制御するための学習情報が格納され、装置状態情報格納部には、熱源を識別する装置識別子と、熱源の状態に関する１以上の状態情報と、日時に関する日時情報とを有する１以上の装置状態情報をも格納され、装置設定情報格納部には、空調システムを構成する熱源を識別する装置識別子と、熱源の設定に関する１以上の設定情報と、日時に関する日時情報とを有する１以上の装置設定情報をも格納され、学習部は、２以上の外部情報と２以上の内部情報と３以上の装置状態情報と３以上の装置設定情報と１以上の操作情報とを有する２以上の統合情報を用いて、時刻に関する時刻情報と時刻情報に対応する外部情報、または時刻に関する時刻情報と時刻情報に対応する外部情報と時刻情報に対応する内部情報と時刻情報に対応する装置状態情報と各装置に対する装置設定情報を含む制御情報を入力とし、各装置に対する装置設定情報を含む制御情報に関する情報を出力とする学習情報を構成する学習装置である。

かかる構成により、熱源と空調機を同時に制御する空調システムの制御装置のための学習情報を取得することができる。

また、本第三の発明の学習装置は、第一または第二の発明に対して、学習部は、２以上の外部情報、２以上の内部情報、２以上の装置状態情報、２以上の装置設定情報および１以上の操作情報について、１以上の各操作情報が有する日時情報に対応する外部情報、内部情報、装置状態情報および装置設定情報である負例と、負例以外の日時情報に対応する外部情報、内部情報、装置状態情報および装置設定情報である正例のうち、少なくとも一部を用いて、学習情報を構成する学習装置である。

かかる構成により、ユーザが装置を直接操作する必要がない空調システムの制御を行う学習情報を取得することができる。

また、本第四の発明の学習装置は、第一から第三いずれか１つの発明に対して、学習部は、深層学習により学習情報を構成する学習装置である。

かかる構成により、より高精度な空調システムの制御を行う学習情報を取得することができる。

また、本第五の発明の制御装置は、第一から第四いずれか１つの発明に対して、学習装置により学習された学習情報、または２以上の統合情報である学習情報が格納される学習情報格納部と、少なくとも一の時刻に対応する外部情報および一の時刻に対応する内部情報を受け付ける受付部と、受付部が受け付けた外部情報、内部情報、装置状態情報および装置設定情報を、学習情報に適用し、２以上の各空調機に対する装置設定情報を含む制御情報を生成する制御情報生成部と、制御情報を出力する出力部とを具備する制御装置である。

かかる構成により、過去に蓄積された環境に関する情報と装置に関する情報から、ユーザが空調機を直接操作する必要がない空調システムの制御を行うことができる。

また、本第六の発明の制御装置は、第五の発明に対して、制御情報生成部は、受付部が受け付けた外部情報を、学習情報に適用し、理想的な内部情報を取得する理想状態取得手段と、受付部が受け付けた内部情報から、理想状態取得手段が取得した内部情報へ近づけるための制御情報を取得する制御情報取得手段とを具備する制御装置である。

また、本第七の発明の制御装置は、第五の発明に対して、受付部は、少なくとも一の時刻に対応する外部情報、一の時刻に対応する内部情報および一の時刻に対応する装置状態情報を受け付け、制御情報生成部は、受付部が受け付けた外部情報、内部情報および装置状態情報から１以上の制御情報候補を生成する制御情報候補生成手段と、学習情報を用いて、受付部が受け付けた外部情報、内部情報および装置状態情報と、制御情報候補生成手段が生成した制御情報とを組み合わせた情報が正例と負例のいずれに属するかを判定する制御情報判定手段と、制御情報候補生成手段が生成した制御情報候補のうち、制御情報判定手段が正例であると判定した制御情報候補から、一の制御情報候補を選択する制御情報選択手段とを具備し、出力部は、制御情報選択手段が選択した一の制御情報候補を制御情報として出力する制御装置である。

また、本第八の発明の制御装置は、第五の発明に対して、受付部は、少なくとも一の時刻に対応する外部情報、一の時刻に対応する内部情報および一の時刻に対応する装置状態情報を受け付け、制御情報生成部は、受付部が受け付けた外部情報、内部情報および装置状態情報から１以上の制御情報候補を生成する制御情報候補生成手段と、学習情報を用いて、受付部が受け付けた外部情報、内部情報および装置状態情報と、制御情報候補生成手段が生成した制御情報とを組み合わせた情報の報酬を算出する制御情報評価手段と、制御情報候補生成手段が生成した制御情報候補のうち、制御情報評価手段が算出した報酬が最大となる制御情報候補を選択する制御情報選択手段とを具備し、出力部は、制御情報選択手段が選択した一の制御情報候補を制御情報として出力する制御装置である。

かかる構成により、強化学習を用いることで、過去に蓄積された情報には存在しないような状況においても柔軟に対応する制御を行うことができることができる。

また、本第九の発明の制御装置は、第五から第八いずれか１つの発明に対して、一の時刻に対応する外部情報、一の時刻に対応する内部情報および一の時刻に対応する装置状態情報と、制御情報生成部が生成した制御情報から、一の時刻から予め決められた時間が経過した後の時刻である次時点における外部情報、内部情報および装置状態情報を推定する次時点情報推定部と、次時点情報推定部が推定した次時点における外部情報、内部情報および装置状態情報を制御情報生成部に与え、次時点の制御情報を生成させ、かつ次時点からさらに予め決められた時間が経過した後の時刻である次々時点における外部情報、内部情報および装置状態情報を生成させる生成制御部をさらに具備し、受付部は、制御情報を生成する対象の期間である制御情報生成対象期間を受け付け、出力部は、制御情報生成部が生成した制御情報生成対象期間の制御情報を出力する制御装置である。

かかる構成により、生成された制御情報を用いた場合の次の状態を推定することで、長期間にわたる空調制御のシミュレーションを行うことができる。

本発明による制御装置によれば、ユーザが空調機の操作を行う必要がないような空調システムの制御を行うことができる。

本発明の実施の形態１における学習装置のブロック図同実施の形態における学習装置の動作を示すフローチャート同実施の形態における時刻収集処理の動作を示すフローチャート同実施の形態における情報統合処理の動作を示すフローチャート同実施の形態における外部情報の一例を示す図同実施の形態における内部情報の一例を示す図同実施の形態における装置状態情報の一例を示す図同実施の形態における装置設定情報の一例を示す図同実施の形態における操作情報の一例を示す図同実施の形態における学習情報の一例を示す図同実施の形態における統合情報の一例を示す図本発明の実施の形態２における空調システムのブロック図同実施の形態における制御装置の動作を示すフローチャート同実施の形態における理想状態取得処理の動作を示すフローチャート同実施の形態における制御情報取得処理の動作を示すフローチャート同実施の形態における受付情報の一例を示す図本発明の実施の形態３における制御装置のブロック図同実施の形態における制御装置の動作を示すフローチャート同実施の形態における制御情報候補生成処理の動作を示すフローチャート同実施の形態における制御情報選択処理の動作を示すフローチャート本発明の実施の形態４における制御装置のブロック図同実施の形態における制御装置の動作を示すフローチャート同実施の形態における報酬最大制御情報選択処理の動作を示すフローチャート本発明の実施の形態５における制御装置のブロック図同実施の形態における制御装置の動作を示すフローチャート上記実施の形態におけるコンピュータシステムの外観の一例を示す図上記実施の形態におけるコンピュータシステムの内部構成の一例を示す図

以下、学習装置、制御装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、１または２以上の熱源と２以上の空調機を有する空調システムを制御する制御装置のために、過去に蓄積された環境に関する情報（外気温度や室内温度、湿度、日射等）と装置に関する情報（設定温度や送風強度、熱源の出力等）を入力とし、各熱源と各空調機に対する制御に関する情報を出力とする学習を行う学習装置１について説明する。

図１は、本実施の形態における学習装置１のブロック図である。

学習装置１は、格納部１１、学習部１２、蓄積部１３を備える。さらに、格納部１１は、学習情報格納部１１１、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５、操作情報格納部１１６を備える。

学習情報格納部１１１は、学習情報が格納される。ここで、学習情報とは、２以上の空調機を有する空調システムを制御するための情報である。学習情報格納部１１１については、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５および操作情報格納部１１６の説明の後、再度詳細を述べる。

外部情報格納部１１２は、２以上の外部情報が格納される。ここで、外部情報とは、外部環境情報と日時情報とを有する情報である。さらに、外部環境情報とは、空調システムが空調管理する領域外の環境に関する情報である。外部環境情報は外気温度を含む。また、日時情報は日時に関する情報である。日時情報は、通常、ある時点を表す情報であるが、ある時点から別のある時点までの期間を表す情報であっても良い。なお、外部環境情報は、ビル外の特定の位置の温度（例えば、ビル周辺の道路上の温度）や湿度、日射、天気を含んでも良く、また、「３時間後の外気温度」のような将来の外気温度等を含んでも良い。また、日時情報は、当該日時が休日か否かという情報をさらに含んでも良い。

内部情報格納部１１３は、２以上の内部情報が格納される。ここで、内部情報とは、領域識別子と内部環境情報と日時情報とを有する情報である。さらに、領域識別子とは、空調システムが空調管理する定められた一定の空間である領域を識別する識別子である。例えば、領域は、空調機が設置された部屋や廊下であり、領域識別子は、当該部屋や廊下を識別する識別子である。また、内部環境情報とは、空調システムが空調管理する領域内の環境に関する情報である。内部環境情報は、領域内の温度を含む。なお、内部環境情報は、領域内の湿度や領域内に存在する人間の数を含んでも良い。

装置状態情報格納部１１４は、２以上の装置状態情報が格納される。ここで、装置状態情報とは、装置識別子と状態情報と日時情報とを有する情報である。さらに、装置識別子とは、空調システムを構成する熱源または空調機を識別する識別子である。また、状態情報とは、熱源または空調機の状態を表す情報である。状態情報は、通常、熱源または空調機に関して、当該装置以外のものや人が外部から直接変更することができない、当該装置の状態に関する取得可能な情報である。例えば、状態情報は、装置の累計運転時間、消費電力、消費燃料を含む。

装置設定情報格納部１１５は、２以上の装置設定情報が格納される。ここで、装置設定情報とは、装置識別子と設定情報と日時情報とを有する情報である。さらに、設定情報とは、空調システムを構成する熱源または空調機に関して、当該装置以外のものや人が外部から直接変更することができる当該装置の設定に関する情報である。例えば、設定情報は、熱源または空調機を稼働させるか否か（熱源のＯＮ／ＯＦＦ）といった情報や、空調機の設定温度、動作モード（冷房、暖房、除湿等）、風量等を含む。

操作情報格納部１１６は、１以上の操作情報が格納される。ここで、操作情報とは、装置識別子と、操作識別子と、日時情報とを有する情報である。さらに、操作識別子とは、ユーザによる空調機の操作を識別する識別子である。なお、ユーザとは、空調システムのユーザではなく、空調システムが空調管理する領域内に存在する人間を意味する。操作識別子は、「電源のＯＮ／ＯＦＦ」、「設定温度を２度下げる」、「設定温度を２８℃にする」等、内容の形式は問わない。また、操作情報は、ユーザを識別するユーザ識別子を含んでも良い。

学習情報格納部１１１に格納される学習情報は、格納部１１の他の情報から学習した、空調システムを制御するための情報ならば、その形式は問わない。ここで、格納部１１の他の格納部とは、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５、および操作情報格納部１１６を意味する。例えば、学習情報は、一の時刻における外部情報を入力とし、ユーザが空調機を直接操作することがないような内部情報を出力する回帰モデルに関する情報でも良い。以下、ユーザが空調機を直接操作することがないような内部情報を、理想的な内部情報と呼ぶ。理想的な内部情報とは、空調システムが目標とするべき内部情報とも言える。

また、例えば、学習情報は、外部情報と内部情報と装置状態情報と制御情報とを入力とし、当該制御情報が適切か否かを出力する識別器に関する情報でも良い。ここで、入力される外部情報と内部情報と装置状態情報は、一の時刻によって対応付けられている。すなわち、入力される外部情報と内部情報と装置状態情報は、同一時刻の情報である。また、制御情報とは、通常、一の時刻における、空調システムを構成する各熱源および各空調機の装置設定情報である。さらに、制御情報が適切か否かとは、当該制御情報を実行した後に、ユーザが空調機を直接操作するか否かを意味する。ユーザが空調機を直接操作するような場合、当該制御情報は適切でなく、ユーザが空調機を直接操作しないような場合、当該制御情報は適切である。

また、例えば、学習情報は、外部情報と内部情報と装置状態情報と制御情報とを入力とし、当該制御情報の適切さに関する値を返すモデルに関する情報でも良い。ここで、入力される外部情報と内部情報と装置状態情報は、一の時刻によって対応付けられている。また、制御情報の適切さに関する値とは、例えば、当該制御情報を実行した後に、ユーザによる空調機の操作の有無を定量的に表した値である。すなわち、当該値は、当該制御情報を実行した後に、ユーザが空調機を操作するほど低く、またユーザが空調機を操作しないほど高くなる値である。また、制御情報の適切さに関する値は、ユーザによる空調機の操作の有無に加え、当該制御情報を実行するコストも考慮した値とすることは好適である。ここで、コストは、空調システムの消費電力であっても良く、空調システムを構成する各装置の部品の損耗率であっても良い。

学習部１２は、２以上の統合情報を用いて、外部情報や内部情報、装置状態情報、制御情報を入力とし、制御情報に関する情報を出力とする学習情報を構成する。ここで、統合情報とは、時刻情報によって結び付けられた、外部情報、内部情報、装置状態情報、装置設定情報、および操作情報である。さらに、時刻情報とは、日時情報と異なり、特定の時点を表す情報である。通常、時刻情報は、月、日、時、分の情報を含む。さらに、時刻情報は、日付情報と同じく、休日か否かという情報をさらに含んでも良い。また、時刻情報と結び付けられるとは、当該時刻情報が表す時点を含む日時情報を有することを意味する。すなわち、統合情報とは、通常、一の時刻における、外部環境情報、領域識別子と内部環境情報、装置識別子と状態情報、装置識別子と設定情報、および装置識別子と操作識別子を結合した情報である。なお、時刻情報によって結び付けられた外部情報、内部情報、装置状態情報、装置設定情報および操作情報は、通常、それぞれ外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５、操作情報格納部１１６に格納されている情報であるが、前記各格納部に格納されている情報を基に算出した情報を用いても良い。また、統合情報は時刻によってソートされているものとする。

また、入力とする外部情報や内部情報、装置状態情報、制御情報は、通常、統合情報と同様に一の時刻で結び付けられている。ここで、学習部１２は、外部情報、内部情報、装置状態情報および制御情報のすべてを入力として用いる必要はなく、少なくとも外部情報を含む前記情報のいずれか１以上の情報を用いれば良い。

また、出力とする制御情報に関する情報は、学習情報格納部１１１でも述べたような様々な出力がある。例えば、理想的な内部情報を出力としても良く、入力した制御情報が適切であるか否かを判定する情報を出力としても良い、また、入力した制御情報の適切さに関する値を出力としても良い。

以下、学習部１２が、理想的な内部情報を出力する場合と、入力した制御情報が適切であるか否かを判定する情報を出力する場合と、入力した制御情報の適切さに関する値を出力する場合の、３つの場合について詳細を説明する。

＜理想的な内部情報を出力とする場合＞
学習装置１が理想的な内部情報を出力する場合、学習部１２は、通常、時刻に関する時刻情報と当該時刻情報に対応する外部情報を入力とし、当該外部情報に対する理想的な内部情報を出力とする学習情報を構成する。この場合、学習装置１によって生成された学習情報を用いる制御装置は、通常、入力された外部情報から当該学習情報を用いて理想的な内部情報を取得し、その後、当該取得した内部情報へ推移する制御情報を生成する。当該制御装置については、実施の形態２にてその詳細を述べる。

学習装置１が理想的な内部情報を出力する場合、学習部１２が構築する学習情報は、時刻に関する時刻情報と当該時刻情報に対応する外部情報から、当該外部情報に対する理想的な内部情報を取得することができるならば、そのモデルや学習方法はどのようなものでも良い。

例えば、上記の場合、学習部１２が構築する学習情報は、操作情報を含まない統合情報をすべて格納し、入力情報と最も近い前記統合情報の内部情報を出力するモデルによって実現できる。ここで、操作情報を含まない統合情報とは、ユーザによる空調機の操作が行われていない時刻の統合情報を意味する。本発明では、ユーザによる空調機の操作が行われていない時刻の情報を「正例」と、ユーザによる空調機の操作が行われた時刻の情報を「負例」と呼ぶ。また、入力情報とは、入力された時刻情報と当該時刻情報に対応する外部情報を表す。また、入力された情報と統合情報が近いとは、入力された情報を表すベクトルと、統合情報の時刻情報と外部情報を表すベクトルの距離が近いことを意味する。また、「距離が近い」とは「類似度が高い」と読み替えても良い。ここで、各情報をベクトル化する際に正規化を行うことは好適である。また、ベクトル間の距離や類似度は、２つのベクトル間がどの程度一致しているかを表す数ならば、その内容は問わない。例えば、距離はユークリッド距離でもマハラノビス距離でも良く、類似度はコサイン類似度やピアソンの相関係数でも良い。なお、上記のような学習情報は、各統合情報をそれぞれ１クラスとみなしたｋ最近傍法とも考えることができる。また、なお、ベクトルの距離と類似度およびｋ最近傍法については、公知技術のため説明を省略する。さらに、上記の場合、学習部１２が行う学習とは、統合情報を記憶することと、距離や類似度を算出するために必要な情報を収集することになる。

また、例えば、学習情報は、ＳＶＲ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＲｅｇｒｅｓｓｉｏｎ）によっても実現され得る。具体的には、学習部１２は、内部情報のそれぞれ（領域識別子と内部環境情報のペア１つ）に対して、１つのＳＶＲを構築することで実現され得る。例えば、領域識別子「会議室」と内部環境情報「温度」のペアに対応するＳＶＲが１つ、さらに、領域識別子「社長室」と内部環境情報「温度」のペアに対応するＳＶＲが１つのように、内部情報のそれぞれについてＳＶＲを構築する。この場合、各ＳＶＲは、操作情報を含まない統合情報を用いて、時刻情報と外部情報から、当該ＳＶＲが対象とする内部情報への回帰を学習する。なお、ＳＶＲについては、公知技術であるので、詳細な説明を省略する。

また、例えば、学習情報は、ニューラルネットワークによっても実現され得る。具体的には、学習部１２は、操作情報を含まない統合情報を用いて、前記統合情報の時刻情報と外部情報から、前記統合情報の内部情報への回帰を学習させたニューラルネットワークを学習情報とする。ここで、ニューラルネットワークは、時刻情報と外部情報から、内部情報への回帰を学習させることが可能ならば、どのような形状のネットワークでも良い。例えば、深層学習と呼ばれる４層以上のニューラルネットワーク（入力層と出力層を除く中間層が２層以上存在するニューラルネットワーク）を用いても良い。なお、ニューラルネットワークおよび深層学習については、公知技術であるので、詳細な説明を省略する。

なお、学習装置１が理想的な内部情報を出力する場合において、学習情報は、時刻に関する時刻情報と当該時刻情報に対応する外部情報以外にも、当該時刻に対応する内部情報、当該時刻に対応する装置状態情報、当該時刻に対応する装置設定情報をさらに入力としても良い。また、前記学習情報は、その他、多変量の回帰問題を解く様々な方法で実現可能である。

＜制御情報が適切な否かを出力とする場合＞
学習装置１が理想的な内部情報を出力する場合、学習部１２は、通常、時刻情報、外部情報、内部情報、装置状態情報および制御情報を入力とし、当該制御情報が適切か否かを出力とする学習情報を構成する。ここで、当該外部情報、当該内部情報および当該装置状態情報は、当該時刻情報で対応付けられているものとする。この場合、学習装置１によって生成された学習情報を用いる制御装置は、通常、はじめに、前記入力された情報から、実行可能な制御情報を１以上生成する。その後、当該制御装置は、生成した制御情報の中から、当該学習情報を用いて適切な制御情報を選択する。当該制御装置については、実施の形態３にてその詳細を述べる。

例えば、上記の場合、学習部１２が構築する学習情報は、すべての統合情報を記憶し、入力情報と最も近い前記統合情報が操作情報を含むか否かを出力するモデルによって実現できる。ここで、入力情報とは、時刻情報と、当該時刻情報に対応する外部情報、内部情報および装置状態情報と、制御情報を表す。また、入力された制御情報は、統合情報の装置設定情報とそのまま対応するものとする。本モデルの詳細は、上記の理想的な内部情報を出力とする場合と同様である。

また、例えば、学習情報は、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）によっても実現され得る。具体的には、統合情報に含まれる、外部情報と内部情報と装置状態情報と装置設定情報とをベクトル化し、操作情報を含む統合情報に対応する前記ベクトルを正例、操作情報を含む統合情報に対応する前記ベクトルを負例として学習したＳＶＭによって実現され得る。学習情報をＳＶＭによって実現する場合、統合情報に含まれる、外部情報と内部情報と装置状態情報と装置設定情報を表すベクトルは、正規化を行うことは適切である。また、本学習情報を用いる際には、制御情報は、各装置設定情報へそのまま入力する。なお、ＳＶＭについては、公知技術であるので、詳細な説明を省略する。

また、例えば、学習情報は、ニューラルネットワークによっても実現され得る。具体的には、学習部１２は、すべての統合情報を用いて、前記統合情報の時刻情報と外部情報と内部情報と装置状態情報と装置設定情報から、前記統合情報が正例である確率と前記統合情報が負例である確率を出力するようなニューラルネットワークを学習情報とする。すなわち、統合情報が操作情報を含まない場合は、「正例である確率は１、負例である確率は０」、統合情報が操作情報を含む場合は、「正例である確率は０、負例である確率は１」として学習を行う。ここで、ニューラルネットワークは、前記統合情報が正例である確率と前記統合情報が負例である確率を取得できるならば、どのような形状のネットワークでも良い。また、先のＳＶＭと同様に、本学習情報を用いる際には、制御情報は、各装置設定情報へそのまま入力する。本例については、具体例を後述する。

学習装置１が理想的な制御情報が適切な否かを出力する場合において、学習情報は、その他、多次元ベクトルを入力とした２クラスの分類問題を解く様々な方法で実現可能である。

＜制御情報の適切さに関する値を出力とする場合＞
学習装置１が制御情報の適切さに関する値を出力する場合、学習部１２は、通常、時刻情報、外部情報、内部情報、装置状態情報および制御情報を入力とし、当該制御情報の適切さに関する値を出力とする学習情報を構成する。ここで、当該外部情報、当該内部情報および当該装置状態情報は、当該時刻情報で対応付けられているものとする。この場合、学習装置１によって生成された学習情報を用いる制御装置は、通常、入力された外部情報、内部情報、装置状態情報から、実行可能な制御情報を１以上生成する。その後、当該制御装置は、生成した制御情報の中から、当該学習情報を用いて適切さに関する値が最も高い制御情報を選択する。当該制御装置については、実施の形態４にてその詳細を述べる。

例えば、上記の場合、学習部１２が構築する学習情報は、強化学習を用いて、統合情報から学習される行動価値関数によって実現することは好適である。すなわち、前記学習情報は、時刻情報、外部情報、内部情報および装置状態情報で表される状況（以下、現在の状態と呼ぶ）において、ある制御情報に対応する制御を実行した際の、将来得られる報酬の合計の期待値を返す関数として表される。ここで、報酬とは、現在の状態において、どの程度ユーザによる空調機の操作が行われないかを表す値で、ユーザによる空調機の操作が行われないほど高い値となる。また、報酬の定義は予め与えられているものとする。なお、報酬は、ユーザによる操作の有無に加え、コストを考慮することが望ましい。すなわち、「ユーザによる操作が行われた場合に報酬は低く（もしくは無し）、かつ、コストが低いほど高くなる」ような関数が望ましい。ここで、コストとは、現在の状態に対する必要な電力量や費用を表す値である。なお、この場合、学習装置１は、図示しない報酬関数格納部を有する。報酬関数格納部は、現在の状態に対する報酬を算出する関数である報酬関数が格納されているものとする。

上記の例の場合、学習部１２は、強化学習を用いて、行動価値関数（Ｑ（ｓ，ａ）＝状況ｓで行動ａを取り、以後、同じ方策に従った場合の得る報酬の和の期待値）を学習し、当該行動価値関数を学習情報とする。例えば、行動価値関数は以下のような方法で得ることができる。はじめに、学習部１２は、時刻情報を一定間隔（１時間、１分等）にした統合情報を生成する。次に、当該統合情報について、現在の状態ｓ、行動ａ、報酬ｒ、次の状態ｓ’を取得する。ここで、現在の状態ｓは、時刻情報、外部情報、内部情報および装置状態情報である。また、行動ａは、装置設定情報である。また、次の状態ｓ’は、次の時点の統合情報における外部情報、内部情報および装置状態情報である。また、報酬ｒは、図示しない報酬関数格納部に格納されている関数から求められる値であり、例えば、「（理論的な最大消費電力−状況ｓの消費電力）×｛０，１｜ユーザによる操作が行われた場合は０，それ以外は１｝」といった値である。そして、統合情報から取得した前記「現在の状態ｓ、行動ａ、報酬ｒ、次の状態ｓ’」の組から、ＮｅｕｒａｌＦｉｔｔｅｄＱＩｔｅｒａｔｉｏｎや、ＤｅｅｐＱ−Ｎｅｔｗｏｒｋを用いて行動価値関数を学習する。

なお、強化学習、ニューラルネットワーク、ＮｅｕｒａｌＦｉｔｔｅｄＱＩｔｅｒａｔｉｏｎおよびＤｅｅｐＱ−Ｎｅｔｗｏｒｋについては、公知技術であるので、詳細な説明を省略する。

蓄積部１３は、学習部１２が学習した学習情報を学習情報格納部１１１に蓄積する。

格納部１１、学習情報格納部１１１、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５（以下、格納部１１等）は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

格納部１１等に情報が記憶される過程は問わない。例えば、通信回線等を介して送信された情報が格納部１１等で記憶されるようになってもよく、記録媒体を介して情報が格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１等で記憶されるようになってもよい。

学習部１２および蓄積部１３は、通常、ＭＰＵやメモリ等から実現され得る。学習部１２および蓄積部１３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。また、後の実施の形態で記す、制御情報生成部２３、制御情報生成部３３、制御情報生成部４３、次時点情報推定部５５、および生成制御部５６についても同様に、ＭＰＵやメモリ等から実現され得る。

次に、学習装置１の動作について図２のフローチャートを用いて説明する。以下、所定の情報におけるｉ番目の情報は、「情報［ｉ］」と記載するものとする。

また、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５および操作情報格納部１１６には予め学習に用いる情報が格納されているものとする。

（ステップＳ２０１）学習部１２は、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５および操作情報格納部１１６の情報から時刻を収集する。かかる処理を時刻収集処理という。時刻収集処理の詳細について、図３のフローチャートを用いて説明する。

（ステップＳ２０２）学習部１２は、ステップＳ２０１で収集した時刻に基づいて、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５および操作情報格納部１１６を統合し、統合情報を生成する。かかる処理を情報統合処理という。情報統合処理の詳細について、図４のフローチャートを用いて説明する。

（ステップＳ２０３）学習部１２は、ステップＳ２０２で生成した統合情報をそれぞれベクトル化する。ここで、統合情報から生成されるベクトルは、外部情報の種類、領域識別子と内部情報の種類の組、装置識別子と装置状態情報の種類の組、装置識別子と装置設定情報の種類の組のそれぞれを１以上の次元とするベクトルである。例えば、「会議室」と「社長室」という２つの領域識別子のそれぞれについて、「気温」と「湿度」という内部情報の種類が存在した場合、生成されるベクトルにおいて、これらの内部情報に対応する部分は、「会議室：気温」、「会議室：湿度」、「社長室：気温」、「社長室：湿度」の４次元となる。また、気温や湿度ではなく「天気」のように定性的な値をとる情報の場合、天気のそれぞれ（晴、雨、曇など）について１つの次元を割り当て、各次元に対応する値をとった場合に１、そうでない場合は０のように定量化を行う。

（ステップＳ２０４）学習部１２は、ステップＳ２０３でベクトル化した各統合情報を用いて制御情報に関する情報を出力するモデルを学習する。本ステップの詳細については、後に示す具体例、ならびに実施の形態で述べる。

（ステップＳ２０５）蓄積部１３は、ステップＳ２０４で学習した学習情報を学習情報格納部１１１へ保存する。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ２０１の時刻収集処理の詳細の具体例について、図３のフローチャートを用いて説明する。なお、図３および図４のフローチャートにおいて、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５および操作情報格納部１１６をＤＢと表記し、前記順番で並べてあるものとする。

（ステップＳ３０１）学習部１２は、収集時刻Ｔを空に、カウンタｉを１に初期化する。ここで、収集時刻Ｔは順序付きの集合とする。

（ステップＳ３０２）学習部１２は、ｉ番目のＤＢが存在する場合はステップＳ３０３へ、そうでない場合はステップＳ３１０へ進む。

（ステップＳ３０３）学習部１２は、カウンタｊを１に初期化する。

（ステップＳ３０４）学習部１２は、ＤＢ［ｉ］にｊ番目のデータが存在する場合、ステップＳ３０５へ、そうでない場合、ステップＳ３０９へ進む。

（ステップＳ３０５）学習部１２は、ＤＢ［ｉ］の［ｊ］番目に格納されている日付情報が期間を表す場合、ステップＳ３０６へ、そうでない場合、ステップＳ３０７へ進む。

（ステップＳ３０６）学習部１２は、ＤＢ［ｉ］のｊ番目の日付情報の開始時刻と終了時刻をそれぞれ収集時刻Ｔへ追加し、ステップＳ３０８へ進む。

（ステップＳ３０７）学習部１２は、ＤＢ［ｉ］のｊ番目の日付情報の時刻を収集時刻Ｔへ追加する。

（ステップＳ３０８）学習部１２は、カウンタｊを１だけ増加させ、ステップＳ３０４へ戻る。

（ステップＳ３０９）学習部１２は、カウンタｉを１だけ増加させ、ステップＳ３０２へ戻る。

（ステップＳ３１０）学習部１２は、収集時刻Ｔを昇順に（後の時刻ほど後ろになるように）ソートし、上位処理へリターンする。

次に、ステップＳ２０２の情報統合処理の詳細の具体例について、図４のフローチャートを用いて説明する。

（ステップＳ４０１）学習部１２は、カウンタｋを１に初期化する。

（ステップＳ４０２）学習部１２は、ステップＳ２０１の時刻収集処理で収集した収集時刻Ｔにｋ番目の時刻が存在する場合、ステップＳ４０３へ進み、そうでない場合、上位処理へリターンする。

（ステップＳ４０３）学習部１２は、カウンタｉを１に初期化する。

（ステップＳ４０４）学習部１２は、ｉ番目のＤＢが存在する場合、ステップＳ４０５へ、そうでない場合、ステップＳ４１１へ進む。

（ステップＳ４０５）学習部１２は、ＤＢ［ｉ］の各情報の中に、Ｔ［ｋ］が日付情報に含まれる情報が存在する場合、ステップＳ４０６へ、そうでない場合、ステップＳ４０７へ進む。

（ステップＳ４０６）学習部１２は、Ｔ［ｋ］を含むＤＢ［ｉ］の情報をＴ［ｋ］に対応する情報とし、ステップＳ４１０へ進む。

（ステップＳ４０７）学習部１２は、ＤＢ［ｉ］が操作情報格納部１１６の場合、ステップＳ４０９へ、そうでない場合、ステップＳ４０８へ進む。

（ステップＳ４０８）学習部１２は、ＤＢ［ｉ］の情報のうち、Ｔ［ｋ］と最も近い時刻を含む情報を、Ｔ［ｋ］に対応する情報とし、ステップＳ４１０へ進む。なお、ここで、通常、ＤＢ［ｉ］が装置設定情報格納部１１５の場合、最も近い時刻は、前の時刻のみを対象にする。

（ステップＳ４０９）学習部１２は、Ｔ［ｋ］に対応する情報を「なし」とする。

（ステップＳ４１０）学習部１２は、カウンタｉを１だけ増加させ、ステップＳ４０４へ進む。

（ステップＳ４１１）学習部１２は、ステップＳ４０６、ステップＳ４０８とステップＳ４０９で対応付けた情報を時刻Ｔ［ｋ］の統合情報とする。

（ステップＳ４１２）学習部１２は、カウンタｋを１だけ増加させ、ステップＳ４０２へ戻る。

なお、図４のフローチャートにおいて、ステップＳ４０８は、Ｔ［ｋ］の前後の情報から補間を行っても良い。

以下、本実施の形態における学習装置１の具体的な動作について説明する。

本具体例において、学習装置１は、一の時刻における外部情報、当該時刻における内部情報および当該時刻における装置状態情報と、当該時刻に対応する制御情報を入力とし、当該制御情報が適切か否かを判定する識別器に関する学習情報を取得することを目的とする。以下、制御情報が適切であることを「正例」、適切でないことを「負例」と呼ぶ。

また、本具体例において、外部情報格納部１１２は図５の外部情報を、内部情報格納部１１３は図６の内部情報を、装置状態情報格納部１１４は図７の装置状態情報を、装置設定情報格納部１１５は図８の装置設定情報を、操作情報格納部１１６は図９の操作情報を格納しているものとする。

また、本具体例において、前記識別器は図１０のような４層のニューラルネットワーク（深層学習）で実現するものとする。具体的には、第１層が入力、第２層と第３層が全結合層、そして第４層が正例の確率（Ｐ_正例）と負例の確率（Ｐ_負例）を表す２ユニットで構成される出力層となるニューラルネットワークである。各層のユニット数は、第１層が統合情報のベクトルの次元数＋１、第２層と第３層は学習時に決定、そして第４層は２である。また、第２層と第３層の活性化関数はＲｅＬＵ（ＲｅｃｔｉｆｉｅｒＬｉｎｅｒＵｎｉｔ）を、第４層の活性化関数はｓｏｆｔｍａｘ関数である。なお、ＲｅＬＵとｓｏｆｔｍａｘ関数については、公知技術であるため、説明を省略する。

また、本具体例において、気温は−１０℃から４５℃の範囲にあると仮定する。また、熱源Ａの最大電力は３５００Ｗｈ、空調機ａの最大電力は２５０Ｗｈ、空調機ｂの最大電力は１５０Ｗｈであるとする。また、熱源Ａの出力は０％から１００％の範囲をとるものとし、空調機ａと空調機ｂの温度は、ＯＦＦもしくは１６℃から３１℃の範囲をとるものとする。

はじめに、学習部１２は、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５および操作情報格納部１１６（以下、まとめて元データと呼ぶ）から、時刻情報を収集する（ステップＳ２０１）。その結果、９／２３の８：００、９：００、１０：００、１１：００、１２：００、１３：００を取得する。

次に、学習部１２は、元データから収集した時刻に対応する各情報を収集し、統合情報を生成する（ステップＳ２０２）。この結果、図１１のような統合情報が生成される。なお、図１１において、空白のセルは、データが「ない」ことを意味する。

次に、学習部１２は、図１１の各行をベクトル化する。ここで、ベクトルの各値は０から１の値に正規化を行う。時刻については、０時からの経過時間と、０時までの残り時間のうち短い時間をｔとして、「ｔ／１２時間」によって正規化する。また、外部情報の外気温、内部情報の開発部：気温および会議室：気温については、−１０℃より低い温度の場合は０、４５℃より高い温度の場合は１、それ以外の温度の場合は「（気温＋１０）／５５」と正規化する。また、装置状態情報において、熱源Ａ：電力は「電力／３５００」と、空調機ａ：電力は「電力／２５０」と、空調機ｂ：電力は「電力／１５０」と正規化する。また、装置設定情報の熱源Ａ：出力は「出力／１００」と正規化する。さらに、装置設定情報の空調機ａ：温度と空調機ｂ：温度については、何かしらの温度が設定されている場合に１，ＯＦＦの場合に０となる次元と、「温度−１６／４７」の値をとる次元の２次元に展開する。以上のようなベクトル化を行い、統合情報を１２次元のベクトルに変換する（ステップＳ２０３）。

次に、学習部１２は、前ステップで作成したベクトルから、上述したニューラルネットワークの学習を行う（ステップＳ２０４）。本学習における教師データは、入力は前ステップで作成したベクトルであり、出力は当該ベクトルに操作情報が存在する場合は「Ｐ_正例＝０、Ｐ_負例＝１」、操作情報が存在しない場合は「Ｐ_正例＝１、Ｐ_負例＝０」である。本学習では、中間層のユニット数を変動させつつ、交差エントロピーによる出力層の誤差が少なくなるように各層のユニット間の重みｗ^（１） _ｉ，ｊとｗ^（２） _ｉ，ｊを計算する。

最後に、蓄積部１３は、中間層のユニット数を含むニューラルネットワークの構造と、各層のユニット間の重みｗ^（１） _ｉ，ｊとｗ^（２） _ｉ，ｊを学習情報格納部１１１に格納する（ステップＳ２０５）。

以上、本実施の形態によれば、過去に蓄積された外部情報、内部情報、装置設定情報、装置状態情報および操作情報から、ユーザが直接空調機を操作する必要がない空調システムの制御を実現するための学習情報を取得することができる。

なお、本実施の形態によれば、学習部１２は、統合情報をベクトル化する際、最も近い時刻のデータの値によって補間を行う（図４のステップＳ４０８）のではなく、前後の時刻のデータから値を補間しても良い。例えば、補完対象時刻の直前の時刻から直後の時刻へ線形に推移していると仮定し、補完対象時刻の値を線形関数によって推定し、当該推定値で補間しても良い。
欠損値を補間しても良い。すなわち、

また、本実施の形態によれば、統合情報のすべてを学習に用いなくとも良い。例えば、非営業日の統合情報は学習に用いなくとも良い。

（実施の形態２）
本実施の形態において、１または２以上の熱源と２以上の空調機を有する空調システムを制御する制御装置であって、過去のデータから学習した、理想的な室内温度等の内部情報を用いて、適切な制御情報を生成する制御装置２について説明する。

図１２は、本実施の形態における空調システムのブロック図である。空調システムは制御装置２、１または２以上の熱源６、１または２以上の空調機７、１または２以上の外部情報源８、１または２以上の内部情報源９を有する。

制御装置２は、１または２以上の熱源６、２以上の空調機７、１または２以上の外部情報源８、１または２以上の内部情報源９と、直接もしくはネットワークを介して接続されている。当該ネットワークは、有線、または無線の通信回線であり、例えば、インターネットやイントラネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、公衆電話回線等である。

熱源６は、空調機７に熱量を供給する装置である。また、空調機７は、熱源から供給された熱量を空調システムが管理する各領域へ送る装置である。また、外部情報源８は、空調システムが空調管理する領域外の環境に関する情報である外部環境情報を与えるものである。また、内部情報源９は、空調システムが空調管理する領域内の環境に関する情報である内部環境情報を与えるものである。

空調機７、外部情報源８および内部情報源９は、制御装置２と接続可能であれば何でも良い。熱源６は、例えば、ヒートポンプ、ボイラー、蒸気圧縮冷凍機、吸着式冷凍機、または、吸収始期冷凍機であっても良い。空調機７は、例えば、中央式空気調和機、エアハンドリングユニット、ファンコイルユニット、個別式空気調和機、パッケージエアコンディショナ、ルームエアコンディショナであっても良い。外部情報源８は、例えば、サーバー、デスクトップパソコン、ノートパソコン、スマートフォン、タブレット、ＰＤＡ、または空調システムが空調管理する領域外に設置された通信機能を有する温度計等であっても良い。内部情報源９は、例えば、サーバー、デスクトップパソコン、ノートパソコン、スマートフォン、タブレット、ＰＤＡ、ウェアラブルデバイス、または空調システムが空調管理する領域内に設置された通信機能を有する温度計等であっても良い。なお、制御装置２と熱源６が１つの装置で実現されていても良い。また、制御装置２と空調機７が１つの装置で実現されていても良い。また、制御装置２と外部情報源８が１つの装置で実現されても良い。また、制御装置２と内部情報源９が１つの装置で実現されても良い。また、熱源６と空調機７が１つの装置で実現されても良い。また、空調機７と内部情報源９が１つの装置で実現されても良い。

図１２の制御装置２は、格納部１１、学習情報格納部１１１、受付部２２、制御情報生成部２３、出力部２４を備える。さらに、制御装置２の制御情報生成部２３は、理想状態取得手段２３１、制御情報取得手段２３２を備える。

制御装置２を構成する格納部１１は、学習情報が格納されている学習情報格納部１１１を有する。本実施の形態において、学習情報格納部１１１は、通常、学習装置１等から学習した、時刻に関する時刻情報と当該時刻情報に対応する外部情報を入力とし、当該外部情報に対する理想的な内部情報を出力とするモデルに関する学習情報が格納されている。

受付部２２は、時刻情報と外部情報と内部情報とを受け付ける。ここで、当該外部情報と当該内部情報は、当該時刻情報と対応付けられている。すなわち、当該外部情報と当該内部情報は、通常、当該時刻における外部環境情報と内部環境情報を意味する。

受け付けとは、通常、有線もしくは無線の通信回線を介して送信された情報の受信であるが、その他、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリ、ＵＳＢメモリなどの記録媒体から読み出された情報の受け付けなども含む概念である。入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。

制御情報生成部２３は、受付部２２が受け付けた情報を、学習情報格納部１１１に格納されている学習情報に適用し、２以上の各空調機に対する装置設定情報を含む制御情報を生成する。

本実施の形態において、制御情報生成部２３は、理想状態取得手段２３１と制御情報取得手段２３２を含む。

理想状態取得手段２３１は、受付部２２が受け付けた外部情報を、学習情報格納部１１１に格納されている学習情報に適用し、理想的な内部情報を取得する。

制御情報取得手段２３２は、受付部２２が受け付けた内部情報から、理想状態取得手段２３１が取得した内部情報へ近づけるための制御情報を取得する。制御情報取得手段２３２は、受付部２２が受け付けた内部情報（以下、受付内部情報）と理想状態取得手段２３１が取得した内部情報（以下、取得内部情報）から適切な制御情報を取得できるならば、その具体的な方法は問わない。

例えば、学習情報格納部１１１に格納される学習情報がｋ最近傍法の場合、学習情報には、図１１のような統合情報が含まれる。このような場合、制御情報取得手段２３２は、２つの連続する統合情報（統合情報は時系列順に並べられている）を走査し、当該２つの統合情報の内部情報と、受付内部情報と取得内部情報の、間の距離が最も近い統合情報の装置設定情報を制御情報として取得しても良い。ここで、制御情報とする装置設定情報は、２つの統合情報のうち前の時刻の統合情報の装置設定情報である。また、ここで、前の時刻の統合情報が操作情報を含む場合は、装置設定情報に操作情報を上書きした情報を制御情報とすることは適切である。また、２つの内部情報のペアの間の距離については、学習部１２と同様に、どのような距離または類似度を用いても良い。

また、例えば、制御情報取得手段２３２は、前記隣接する統合情報、もしくは装置設定情報が変化していない２時刻の統合情報を用いて、各統合情報の２つの内部情報から、前の時刻の装置設定情報へ回帰するような問題を解く方法でも実現可能である。

出力部２４は、制御情報生成部２３が生成した制御情報を出力する。制御装置２は、出力部２４の出力を各熱源または各空調機へ入力し直接制御を行っても良い。また、制御装置２は、各装置を直接制御するのではなく、出力部２４の出力をディスプレイ等へ表示し、空調システムの管理者へシミュレーション結果を提示しても良い。

出力とは、熱源または空調機への処理結果の引渡し、他の処理装置や他のプログラムなどへの処理結果の引渡し、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積などを含む概念である。

受付部２２、後述する受付部３２、および後述する受付部５２は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

出力部２４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。出力部２４および後述する出力部５４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。

次に、制御装置２の動作について図１３のフローチャートを用いて説明する。以下、所定の情報におけるｉ番目の情報は、「情報［ｉ］」と記載するものとする。

（ステップＳ１３０１）受付部２２は、時刻に関する時刻情報と、当該時刻情報に対応する外部情報および内部情報（以下、受付情報）が入力された場合、ステップＳ１３０２へ進む、そうでない場合、受付情報が入力されるまで待機する。

（ステップＳ１３０２）理想状態取得手段２３１は、受付情報から、ユーザにより各空調機の操作が行われないと推定される内部情報を取得する。かかる処理を理想状態取得処理という。理想状態取得処理の詳細について、図１４のフローチャートを用いて説明する。

（ステップＳ１３０３）制御情報取得手段２３２は、受付情報の内部情報と理想状態取得手段２３１が取得した内部情報から、制御情報を取得する。かかる処理を制御情報取得処理という。制御情報取得処理の詳細について、図１５のフローチャートを用いて説明する。

（ステップＳ１３０４）出力部２４は、制御情報生成部２３が生成した制御情報を出力する。

なお、図１３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ１３０２の理想状態取得処理の詳細の具体例について、図１４のフローチャートを用いて説明する。なお、本理想状態取得処理の具体例では、学習情報格納部１１１に格納されている学習情報が、ｋ最近傍法に基づくモデルである場合であり、当該学習情報としてすべての統合情報が保存されている場合を説明する。

（ステップＳ１４０１）理想状態取得手段２３１は、カウンタｉを１に、最小距離ｄを∞に、理想状態Ｓをｎｕｌｌに初期化する。

（ステップＳ１４０２）理想状態取得手段２３１は、ｉ番目の統合情報が存在する場合、ステップＳ１４０３へ進み、そうでない場合、上位処理へリターンする。

（ステップＳ１４０３）理想状態取得部２３１は、統合情報［ｉ］の操作情報が「なし」の場合、ステップＳ１４０４へ、そうでない場合、ステップＳ１４０７へ進む。

（ステップＳ１４０４）理想状態取得手段２３１は、受付情報と、統合情報の時刻情報と外部情報を、それぞれベクトル化し、ベクトル間の距離を求め、変数ｔｍｐへ代入する。

（ステップＳ１４０５）理想状態取得手段２３１は、最小距離ｄよりｔｍｐの方が小さい場合、ステップＳ１４０６へ、そうでない場合、ステップＳ１４０７へ進む。

（ステップＳ１４０６）理想状態取得手段２３１は、最小距離ｄへｔｍｐを代入し、目標状態Ｓに統合情報［ｉ］の内部情報を代入する。

（ステップＳ１４０７）理想状態取得手段２３１は、カウンタｉを１だけ増加させ、ステップＳ１４０２へ戻る。

次に、ステップＳ１３０３の制御情報取得処理の詳細の具体例について、図１５のフローチャートを用いて説明する。なお、本制御情報取得処理の具体例では、学習情報格納部１１１に格納されている学習情報が、ｋ最近傍法に基づくモデルである場合であり、当該学習情報としてすべての統合情報が保存されている場合を説明する。

（ステップＳ１５０１）制御情報取得手段２３２は、カウンタｉを２に、最小距離ｄを∞に、制御情報Ｃをｎｕｌｌに初期化する。

（ステップＳ１５０２）制御情報取得手段２３２は、ｉ番目の統合情報が存在する場合、ステップＳ１５０３へ、そうでない場合、上位処理へリターンする。

（ステップＳ１５０３）制御情報取得手段２３２は、統合情報［ｉ］の内部情報と統合情報［ｉ＋１］の内部情報のペアと、受付情報の内部情報と理想状態取得手段２３１が取得した内部情報のペアの、２つのペアをそれぞれベクトル化し、ベクトル間の距離を求め、変数ｔｍｐへ代入する。

（ステップＳ１５０４）制御情報取得手段２３２は、最小距離ｄよりｔｍｐの方が小さい場合、ステップＳ１５０５へ、そうでない場合、ステップＳ１５０６へ進む。

（ステップＳ１５０５）制御情報取得手段２３２は、最小距離ｄへｔｍｐを代入し、制御情報Ｃに統合情報［ｉ］の装置設定情報を代入する。この際、統合情報［ｉ］が操作情報を含む場合、装置設定情報に操作情報を上書きする。

（ステップＳ１５０６）制御情報取得手段２３２は、カウンタｉを１だけ増加させ、ステップＳ１５０２へ戻る。

以下、本実施の形態における制御装置２の具体的な動作について説明する。

本具体例において、学習情報格納部１１１に格納されている学習情報は、ｋ最近傍法に基づくモデルであり、図１１の統合情報が保存されているものとする。

はじめに、受付部２２は、図１６の時刻情報、外部情報および内部情報（以下、受付情報）を受け付ける（ステップＳ１３０１）。

次に、理想状態取得手段２３１は、図１６の受付情報の時刻情報および外部情報と最も近い状況を、図１１の統合情報のうち、操作情報が存在しないものから探し出す（ステップＳ１３０２）。この結果、図１１の時刻９／２３１１：００が最も近いと判定されたとする。この結果、理想状態取得手段２３１が取得する内部情報は「開発部：２８℃」、「会議室：２５℃」となる。

次に、制御情報取得手段２３２は、受付部２２が受け付けた内部情報「開発部：２８℃」、「会議室：２９℃」と、理想状態取得手段２３１が取得した内部情報「開発部：２８℃」、「会議室：２５℃」と最も近い２つの統合情報を図１１の統合情報から探し出す（ステップＳ１３０３）。この結果、図１１の９／２３１０：００〜１１：００が探し出される。そして、図１１の９／２３１０：００の装置設定情報に操作情報を上書きした情報である、「空調機ａ：温度２６℃」、「空調機ｂ：温度２４℃」が制御情報として取得される。

最後に、出力部２４は、取得された制御情報である「空調機ａ：温度２６℃」、「空調機ｂ：温度２４℃」を出力する。

以上、本実施の形態によれば、過去の様々な情報を利用した学習機能を用いることで、ユーザによる空調機の操作なしに自動的に空調システムを構成する装置を制御することができる。

また、以上、本実施の形態によれば、ユーザの操作が行われた場合を負例と考えることで、各ユーザの熱的快適性を許容範囲に収めるように、空調システムを自動的に制御することができる。

なお、本実施の形態によれば、学習情報格納部１１１に格納される学習情報は、実施の形態１の「時刻に関する時刻情報と当該時刻情報に対応する外部情報を入力とし、当該外部情報に対する理想的な内部情報を出力とする学習情報」ならば、どのような学習情報を用いても良い。

また、本実施の形態によれば、理想状態取得手段２３１において、外部情報に「３時間後の気温」等の将来・過去の情報が含まれる場合、時刻情報を用いずに理想的な内部情報を取得しても良い。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭやＵＳＢメモリなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における制御装置を実現するソフトウェアは、以下のようなプログラムである。

つまり、このプログラムは、２以上の空調機とを有する空調システムを制御する制御プログラムであって、コンピュータがアクセス可能な記憶媒体は、２以上の空調機を有する空調システムを制御するための学習情報、もしくは２以上の外部情報と２以上の内部情報と２以上の装置状態情報と２以上の装置設定情報と１以上の操作情報とを有する２以上の統合情報である学習情報が格納される学習情報格納部を具備し、コンピュータを、少なくとも一の時刻に対応する外部情報および当該一の時刻に対応する内部情報を受け付ける受付部と、前記受付部が受け付けた外部情報、内部情報、装置状態情報および装置設定情報を、前記学習情報に適用し、２以上の各空調機に対する装置設定情報を含む制御情報を生成する制御情報生成部と、前記制御情報を出力する出力部として機能させるためのプログラム。である。

（実施の形態３）
本実施の形態において、１または２以上の熱源と２以上の空調機とを有する空調システムを制御する制御装置３であって、過去のデータから制御情報が適切であるか否かを学習し、その学習結果を用いて、自動的に生成した制御情報の中から最も適切な制御情報を選択する制御装置３について説明する。

本実施の形態における、空調システムは実施の形態２の空調システム（図１２）と同様の構成である。ただし、本実施の形態における制御装置３は、図１２の制御装置２の制御情報生成部２３を図１７の制御情報生成部３３と置き換えた装置である。すなわち、制御装置３は、格納部１１、学習情報格納部１１１、受付部３２、制御情報生成部３３、出力部２４を備える。さらに、制御情報生成部３３は、制御情報候補生成手段３３１、制御情報判定手段３３２、制御情報選択手段３３３を備える。

受付部３２は、時刻情報と外部情報と内部情報と装置状態情報を受け付ける。ここで、当該外部情報と当該内部情報と当該装置状態情報は、当該時刻情報によって対応付けられている。

制御情報候補生成手段３３１は、受付情報から、１以上の制御情報候補を生成する。ここで、受付情報とは、受付部３２が受け付けた時刻情報、外部情報、内部情報、および装置状態情報である。制御情報候補生成手段３３１は、通常、受付情報で表される環境および装置の状態において、実行可能な制御情報を制御情報候補として生成する。例えば、制御情報候補生成手段３３１は、基礎とする制御情報をもとに、予め定めた一定の範囲で各装置設定を変更することで制御情報候補を生成しても良い。ここで、基礎とする制御情報は、ランダムに設定した装置設定情報を用いても良い。また、予め時刻ごとの平均的な装置設定情報を算出しておき、受付情報の時刻における平均的な装置設定情報を用いても良い。なお、この場合、制御装置３は、図示しない平均装置設定情報格納部を有し、平均的な装置設定情報を平均装置設定情報格納部に格納しているものとする。また、受付部３２が装置設定情報をも受け付けるようにし、受け付けた装置設定情報を前記基礎とする制御情報としても良い。また、基礎とする制御情報として直前に生成した制御情報を用いても良い。この場合、制御装置３は、図示しない直前制御情報格納部を具備し、最後に生成した制御情報を格納しているものとする。また、制御情報候補生成手段３３１は、受付情報の状況において実行可能なすべての制御情報を生成しても良い。

制御情報判定手段３３２は、学習情報格納部１１１に格納されている学習情報を用いて、制御情報候補生成手段３３１が生成した制御情報候補が、正例と負例のいずれに属するかを判定する。ここで、制御情報判定手段３３２は、当該制御情報候補に加え、受付部３２が受け付けた外部情報、内部情報および装置状態情報も判定に用いる。制御情報判定手段３３２は、ユーザによる空調機の操作が行われなかった時刻の統合情報を「正例」、ユーザによる空調機の操作が行われた時刻の統合情報を「負例」として学習した識別器を用いて判定を行う。

制御情報選択手段３３３は、制御情報候補生成手段３３１が生成した制御情報候補のうち、制御情報判定手段３３２が正例であると判定した制御情報候補から、一の制御情報候補を選択する。

例えば、制御情報選択手段３３３は、制御情報候補生成手段３３１が生成した制御情報候補のうち、コストが最小となる制御情報候補を選択することは好適である。ここで、コストとは、例えば、制御情報候補の制御を実行した場合の熱源の総出力や、必要な電力量、電気代および燃料代の総額等である。

次に、制御装置３動作について図１８のフローチャートを用いて説明する。

（ステップＳ１８０１）受付部３２は、時刻に関する時刻情報と、当該時刻情報に対応する外部情報、内部情報および装置状態情報が入力された場合、ステップＳ１８０２へ進む、そうでない場合、受付情報が入力されるまで待機する。

（ステップＳ１８０２）制御情報候補生成手段３３１は、受付情報から制御情報候補を生成する。かかる処理を制御情報候補生成処理という。制御情報候補生成処理の詳細について、図１９のフローチャートを用いて説明する。

（ステップＳ１８０３）制御情報判定手段３３２と制御情報選択手段３３３は、ステップＳ１８０２で生成した制御情報候補から、１の制御情報を選択する。かかる処理を制御情報選択処理という。制御情報選択処理の詳細について、図２０のフローチャートを用いて説明する。

（ステップＳ１８０４）出力部２４は、制御情報生成部３３が生成した制御情報を出力する。

なお、図１８のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ１８０２の制御情報候補生成処理の詳細の具体例について、図１９のフローチャートを用いて説明する。

（ステップＳ１９０１）制御情報候補生成手段３３１は、制御情報候補の基礎とする制御情報を取得する。

（ステップＳ１９０２）制御情報候補生成手段３３１は、基礎とする制御情報に対する変更をすべて行った場合、上位処理へリターンし、そうでない場合、ステップＳ１９０３へ進む。

（ステップＳ１９０３）制御情報候補生成手段３３１は、基礎とする制御情報から１のパラメータを選択し、当該パラメータの値を変更する。当該パラメータが連続値の場合、制御情報候補生成手段３３１は、予め定めた範囲の中で基礎とする制御情報のパラメータを変更する。

（ステップＳ１９０４）制御情報候補生成手段３３１は、ステップＳ１９０３でパラメータを変更した制御情報が実行可能な場合、ステップＳ１９０５へ進み、そうでない場合、ステップＳ１９０２へ戻る。

（ステップＳ１９０５）制御情報候補生成手段３３１は、制御情報候補にステップＳ１９０３でパラメータを変更した制御情報を制御情報候補に追加する。

次に、ステップＳ１８０３の制御情報選択処理の詳細の具体例について、図２０のフローチャートを用いて説明する。

（ステップＳ２００１）制御情報選択手段３３３は、カウンタｉを１に、コストｅを∞に、制御情報ＣをステップＳ１９０１で取得した基礎とする制御情報に初期化する。

（ステップＳ２００２）制御情報選択手段３３３は、ｉ番目の制御情報候補が存在する場合、ステップＳ２００３へ、そうでない場合、上位処理へリターンする。

（ステップＳ２００３）制御情報選択手段３３３は、受付情報と制御情報候補［ｉ］を制御情報判定手段３３２で判定し、結果が正例であった場合、ステップＳ２００４へ、そうでない場合は、ステップＳ２００７へ進む。

（ステップＳ２００４）制御情報選択手段３３３は、変数ｔｍｐに制御情報候補［ｉ］を実行した場合のコストを代入する。

（ステップＳ２００５）制御情報選択手段３３３は、コストｅよりｔｍｐの方が小さい場合、ステップＳ２００６へ、そうでない場合、ステップＳ２００７へ進む。

（ステップＳ２００６）制御情報選択手段３３３は、コストｅへｔｍｐを代入し、制御情報Ｃへ制御情報候補［ｉ］を代入する。

（ステップＳ２００７）制御情報選択手段３３３は、カウンタiを１だけ増加させる。

以下、本実施の形態における制御装置３の具体的な動作について説明する。

本具体例において、学習情報格納部１１１に格納されている学習情報は、図１０のような正例である確率と負例である確率を出力するニューラルネットワークに基づくモデルに関する情報であるとする。

はじめに、受付部３２は、図１６の時刻情報、外部情報、内部情報および装置状態情報（以下、受付情報）を受け付ける（ステップＳ１８０１）。

次に、制御情報候補生成手段３３１は、基礎とする制御情報として、過去の平均的な制御情報として、「空調機ａ：温度２６℃」、「空調機ｂ：ＯＦＦ」を取得する（ステップＳ１９０１）。

次に、制御情報候補生成手段３３１は、ステップＳ１９０１で取得した基礎とする制御情報の各値を変化させ、制御情報候補を生成する。その結果、制御情報候補生成手段３３１は、「空調機ａ：温度２６℃、空調機ｂ：ＯＦＦ」、「空調機ａ：温度ＯＦＦ、空調機ｂ：ＯＦＦ」、「空調機ａ：温度ＯＦＦ、空調機ｂ：温度２６℃」、「空調機ａ：温度２６℃、空調機ｂ：温度２６℃」の４つの制御情報候補が生成したとする。

次に、制御情報選択手段３３３は、前記の４つの制御情報候補から、先に学習した制御情報判定手段３３２が正例であると判定し、かつ、コストが最小の制御情報候補を制御情報候補として選択する。ここで、制御情報選択手段３３３は、受付情報と制御情報候補を制御情報のニューラルネットワークに適用し、正例である確率と負例である確率を取得する、そして、正例である確率の方が負例である確率より高い場合に、正例であると判定する。この結果、「空調機ａ：温度２６℃、空調機ｂ：温度２６℃」が選択される。

最後に、出力部２４は、選択された制御情報である「空調機ａ：温度２６℃、空調機ｂ：温度２６℃」を出力する。

なお、本実施の形態によれば、学習情報格納部１１１に格納される学習情報は、実施の形態１の「時刻情報、外部情報、内部情報、装置状態情報および制御情報を入力とし、当該制御情報が適切か否かを出力とする学習情報」ならば、どのような学習情報を用いても良い。

（実施の形態４）
本実施の形態において、１または２以上の熱源と２以上の空調機とを有する空調システムを制御する制御装置４であって、制御情報を実行した際の報酬を求める制御情報評価部を備えることで、未知の状況に対しても柔軟に対応できる制御装置４について説明する。

本実施の形態における、空調システムは図１の空調システムと同様の構成である。ただし、本実施の形態における制御装置４は、図１の制御情報生成部２３を図２１の制御情報生成部４３と置き換えた構成である。すなわち、制御装置４は、格納部１１、学習情報格納部１１１、受付部３２、制御情報生成部４３、出力部２４を備える。さらに、制御情報生成部４３は、制御情報候補生成手段３３１、制御情報評価手段４３１、制御情報選択手段４３２を備える。

制御情報評価手段４３１は、学習情報格納部１１１に格納されている学習情報を用いて、制御情報候補生成手段３３１が生成した制御情報候補の報酬を算出する。ここで、報酬を算出する際、受付部３２が受け付けた外部情報、内部情報および装置状態情報も制御情報候補と共に用いる。また、報酬とは、ユーザによる空調機の操作がどの程度行われないかを表す値であり、報酬が高いほど、ユーザによる空調機の操作が行われないことを表す。また、当該学習情報が実施の形態１で示した強化学習によって得られた学習情報である場合、報酬は、当該制御情報を実行した後に得られる将来の報酬まで含む報酬（将来得られる報酬の和の期待値）である。

制御情報選択手段４３２は、制御情報候補生成手段３３１が生成した制御情報候補のうち、制御情報評価手段４３１が算出した報酬が最大となる制御情報候補を選択する。

次に、制御装置４の動作について図２２のフローチャートを用いて説明する。

（ステップＳ２２０１）受付部３２は、時刻に関する時刻情報と、当該時刻情報に対応する外部情報、内部情報および装置設定情報（以下、受付情報）が入力された場合、ステップＳ２２０２へ進む、そうでない場合、受付情報が入力されるまで待機する。

（ステップＳ２２０２）制御情報候補生成手段３３１は、受付情報から制御情報候補を生成する。かかる処理は実施の形態３の制御情報候補生成処理と同様である。

（ステップＳ２２０３）制御情報選択手段４３２は、ステップＳ２２０２で生成した制御情報候補から、制御情報評価手段４３１が算出する報酬が最大となる１の制御情報を選択する。かかる処理を報酬最大制御情報選択処理という。報酬最大制御情報選択処理の詳細について、図２３のフローチャートを用いて説明する。

（ステップＳ２２０４）出力部２４は、制御情報生成部４３が生成した制御情報を出力する。

なお、図２２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ２２０３の報酬最大制御情報選択処理の詳細の具体例について、図２３のフローチャートを用いて説明する。

（ステップＳ２３０１）制御情報選択手段４３２は、カウンタｉを１に、報酬ｂを−∞に、制御情報Ｃをｎｕｌｌに設定する。

（ステップＳ２３０２）制御情報選択手段４３２は、ｉ番目の制御情報候補が存在する場合、ステップＳ２３０３へ進み、そうでない場合、上位処理へリターンする。

（ステップＳ２３０３）制御情報選択手段４３２は、制御情報評価手段４３１を用いて、受付部３２が受け付けた外部情報、内部情報および装置状態情報において、制御情報候補［ｉ］を実行した際の報酬を算出し、変数ｔｍｐへ代入する。

（ステップＳ２３０４）制御情報選択手段４３２は、報酬ｂがｔｍｐより小さい場合、ステップＳ２３０５へ、そうでない場合、ステップＳ２３０６へ進む。

（ステップＳ２３０５）制御情報選択手段４３２は、報酬ｂにｔｍｐを代入し、制御情報Ｃに制御情報候補［ｉ］を代入する。

（ステップＳ２３０６）制御情報選択手段４３２は、カウンタｉを１だけ増加させる。

以上、本実施の形態によれば、過去の様々な情報を利用した学習機能を用いることで、ユーザによる空調機の操作を少なくしつつコストを低減するような空調システムの制御を実現できる。

また、本実施の形態によれば、長期的なコストを少なくしつつ、ユーザによる操作回数を少なくするような空調システムの制御を実現できる。

また、本実施の形態によれば、過去には存在しないような状況にも柔軟に対応できる、制御を行うことができる。

なお、本実施の形態によれば、学習情報格納部１１１に格納される学習情報は、実施の形態１の「時刻情報、外部情報、内部情報、装置状態情報および制御情報を入力とし、当該制御情報の適切さに関する値を出力とする学習情報」ならば、どのような学習情報を用いても良い。

（実施の形態５）
本実施の形態において、１または２以上の熱源と２以上の空調機とを有する空調システムを制御する制御装置５であって、指定された一定期間の制御情報を出力する制御装置５について説明する。

図２４は、本実施の形態における制御装置５のブロック図である。なお、図２４の制御装置５は、図１２と同様に、１または２以上の熱源６、１または２以上の空調機７、１または２以上の外部情報源８、１または２以上の内部情報源９と接続され空調システムを構成する。

制御装置５は、格納部１１、学習情報格納部１１１、受付部５２、制御情報生成部２３、出力部５４、次時点情報推定部５５、生成制御部５６を備える。

受付部５２は、制御情報を生成する対象の期間である制御情報生成対象期間を受け付ける。ここで、制御情報を生成する対象の期間は、通常、任意の同一ではない２つの時刻からなる。さらに、時刻は通常、月、日、時と分からなる時間である。以後、制御情報生成対象期間の前の時刻を「開始時刻」と、後の時刻を「終了時刻」と呼ぶ。また、受付部５２は、制御情報生成対象期間とともに、開始時刻における外部情報、内部情報および装置状態情報を受け付けても良い。

次時点情報推定部５５は、時刻に関する時刻情報と、当該時刻情報に対応する日時情報を含む外部情報、内部情報および装置状態情報と、制御情報から、前記時刻情報から一定時間経過した後の時刻である次時点における外部情報、内部情報および装置状態情報を推定する。

次時点情報推定部５５は、例えば、外部情報格納部１１２、内部情報格納部１１３、装置状態情報格納部１１４、装置設定情報格納部１１５および操作情報格納部１１６を備え、前記格納部に格納されている各情報を予め学習することで実現され得る。具体的には、以下のような方法で次時点情報推定部５５は実現され得る。はじめに、実施の形態１で示した統合情報を生成する。この際、統合情報の時刻情報が一定間隔ではない場合、補完処理を行い、時刻情報を一定間隔に変更する。補完処理の詳細については実施の形態１を参照されたし。また、統合情報の時刻の間隔は、制御装置５が出力する制御情報の間隔と等しいものとする。次時点情報推定部５５は、統合情報の外部情報、内部情報および装置状態情報と、装置設定情報を操作情報で上書きした情報を入力、当該統合情報の次の時点の統合情報の外部情報、内部情報、装置状態情報を出力として回帰モデルを学習させることで実現できる。ここで、学習器にはニューラルネットワーク、ＳＶＲ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＲｅｇｒｅｓｓｉｏｎ）等、回帰問題を解くことができる学習器ならば何を用いても良い。すなわち、次点情報推定部５５は、実施の形態１の内部状態を出力とする場合と同様のモデルと学習方法によって実現することができる。なお、ニューラルネットワークおよびＳＶＲについては、公知技術であるので、詳細な説明を省略する。

生成制御部５６は、制御情報生成部２３を用いて、次時点情報推定部５５が推定した次時点における外部情報、内部情報および装置状態情報から、次時点の制御情報を生成する。さらに、生成制御部５６は、次時点情報推定部５５を用いて、前記外部情報、前記内部情報、前記装置状態情報および前記制御情報から、次時点からさらに一定時間経過した後の時刻である次々時点の外部情報、内部情報および装置状態情報を推定する。すなわち、生成制御部５６は、制御情報生成部２３を用いた現在の状態に対する制御情報の生成と、次時点情報推定部５５を用いた次時点の情報の推定を繰り返すことで、受付部５２が受け付けた制御計画生成対象期間の制御情報を生成する。

出力部５４は、生成制御部５６が生成した制御情報生成対象期間の制御情報を出力する。出力部５４は、生成制御部５６が生成した制御情報生成対象期間の制御情報以外に、次時点情報推定部５５が推定した外部情報、内部情報および装置状態情報を、制御情報と同時に出力しても良い。

次に、制御装置５の動作について図２５のフローチャートを用いて説明する。

（ステップＳ２５０１）受付部５２は、制御情報生成対象期間が入力された場合、ステップＳ２５０２へ進む、そうでない場合、制御情報生成対象期間が入力されるまで待機する。

（ステップＳ２５０２）生成制御部５６は、時刻ｔを開始時刻に、現在状態Ｅを初期状態に、制御情報列Ｃを?に初期化する。ここで、初期状態は、実施の形態３の制御情報候補生成手段３３１において、基礎とする制御情報を取得する手法と同様に、ステップＳ２５０１で受け付けた開始時刻ともっとも近い外部情報、内部情報および装置状態情報を取得する。また、制御情報列Ｃは配列（順序付きの多重集合）である。

（ステップＳ２５０３）生成制御部５６は、時刻ｔが終了時刻以下の場合、ステップＳ２５０４へ、そうでない場合、ステップＳ２５０７へ進む。

（ステップＳ２５０４）生成制御部５６は、制御情報生成部２３を用いて、現在状態Ｅから制御情報を生成し、当該制御情報を制御情報列Ｃの末尾へ追加する。

（ステップＳ２５０５）生成制御部５６は、時刻ｔを予め定めた推定間隔だけ進める。

（ステップＳ２５０６）生成制御部５６は、次時点情報推定部５５を用いて、現在状態ＥとステップＳ２５０４で生成した制御情報から、次の状態を推定し、当該次の状態を現在状態Ｅへ代入する。

（ステップＳ２５０７）出力部５４は、制御情報列Ｃを出力する。

なお、図２５のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以下、本実施の形態における制御装置５の具体的な動作について説明する。

本具体例では、９／２３の９：００から１２：００を制御情報の生成対象期間とし、制御情報の推定間隔を１時間とする。また、本具体例では、次時点情報推定部５５は学習器によって実現し、図１１と同様の統合情報を構築し、空調システムに関する情報を学習済みであるとする。

制御装置５の受付部５２は、はじめに、制御情報生成対象期間として、９／２３の９：００から１２：００を受け付ける（ステップＳ２５０１）。

次に、生成制御部５６は、時刻ｔを「９／２３９：００」に、現在状態Ｅを図１１と日付が一致する統合情報である「外気温２５℃、開発部：気温２８℃、会議室：気温２８℃、熱源Ａ：電力１５００Ｗｈ、空調機ａ：電力１５０Ｗｈ、空調機ｂ：電力０Ｗｈ」とし、制御情報列Ｃを?に初期化する（ステップＳ２５０２）。

次に、生成制御部５６は、制御情報生成部２３を用いて、前記現在状態Ｅから制御情報「空調機ａ：温度２６℃、空調機ｂ：ＯＦＦ」を生成し、制御情報列Ｃへ追加する（ステップＳ２５０４）。

次に、生成制御部５６は、時刻ｔを１時間だけ進め、「９／２３１０：００」とする（ステップＳ２５０５）。

次に、生成制御部５６は、次時点情報推定部５５を用いて、現在状態Ｅ「外気温２５℃、開発部：気温２８℃、会議室：気温２８℃、熱源Ａ：電力１０００Ｗｈ、空調機ａ：電力１５０Ｗｈ、空調機ｂ：電力０Ｗｈ」と制御情報「空調機ａ：温度２６℃、空調機ｂ：ＯＦＦ」から、次時点情報「外気温２６℃、開発部：気温２８℃、会議室：気温２９℃、熱源Ａ：電力２０００Ｗｈ、空調機ａ：電力１５０Ｗｈ、空調機ｂ：電力０Ｗｈ」を推定する。そして、この次時点情報を現在状態Ｅへ代入する（ステップＳ２５０６）。

次に、生成制御部５６は、制御情報生成部２３を用いて、現在状態Ｅ「外気温２６℃、開発部：気温２８℃、会議室：気温２９℃、熱源Ａ：電力２０００Ｗｈ、空調機ａ：電力１５０Ｗｈ、空調機ｂ：電力０Ｗｈ」から、制御情報「空調機ａ：温度２６℃、空調機ｂ：２４℃」を生成し、制御情報列Ｃへ追加する（ステップＳ２５０４）。

次に、生成制御部５６は、「時刻ｔを進める（ステップＳ２５０５）」、「次時点情報の推定（ステップＳ２５０６）」を行う。

以後、時刻ｔが終了時刻を超えるまで、「制御情報の生成（ステップＳ２５０４）」、「時刻ｔを進める（ステップＳ２５０５）」、「次時点情報の推定（ステップＳ２５０６）」を繰り返し実行する。

そして、時刻ｔが終了時刻を超えた場合、出力部５４は、制御情報列Ｃを出力する（ステップＳ２５０７）。

以上、本実施の形態によれば、長期間にわたる空調システムの制御計画を立案することができる。

また、本実施の形態によれば、長期間にわたる空調システムの制御に関するシミュレーションが可能となる。

なお、本実施の形態によれば、制御情報生成部２３は、実施の形態３の制御情報生成部３３や実施の形態４の制御情報生成部４３を用いても良い。

また、本実施の形態によれば、次時点情報推定部５５は、制御装置５と接続される外部情報源８の情報をそのまま用いても良い。例えば、ある時刻の外部情報の外気温について、外部の天気情報を提供するＷｅｂサービスから直接取得しても良い。

また、本実施の形態によれば、次時点情報推定部５５は、物理シミュレーションによって情報を推定しても良い。

また、本実施の形態によれば、次時点情報推定部５５は、推定する情報ごとに異なった方法を用いて推定を行っても良い。例えば、外部情報の外気温は天候予測Ｗｅｂページ（外部情報源８）から取得する一方、内部情報の各部屋の温度はニューラルネットワークによって推定しても良い。

また、図２６は、本明細書で述べたプログラムを実行して、上述した実施の形態の制御装置２等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。

図２６において、コンピュータシステム３０００は、ＣＤ−ＲＯＭドライブ３００５を含むコンピュータ３００１と、キーボード３００２と、マウス３００３と、モニタ３００４とを備える。

図２７は、コンピュータシステム３０００の内部構成を示す図である。図２６において、コンピュータ３００１は、ＣＤ−ＲＯＭドライブ３００５に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１２と、ＭＰＵ３０１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ３０１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク３０１４と、ＭＰＵ３０１１、ＲＯＭ３０１２等を相互に接続するバス３０１５とを備える。なお、コンピュータ３００１は、ＬＡＮやＷＡＮ等への接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム３０００に、上記実施の形態による制御装置２等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３０２１に記憶されて、ＣＤ−ＲＯＭドライブ３００５に挿入され、ハードディスク３０１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ３００１に送信され、ハードディスク３０１４に記憶されてもよい。プログラムは実行の際にＲＡＭ３０１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ３０２１、またはネットワークから直接、ロードされてもよい。また、ＣＤ−ＲＯＭ３０２１に代えて他の記録媒体（例えば、ＵＳＢメモリ等）を介して、プログラムがコンピュータシステム３０００に読み込まれてもよい。

プログラムは、コンピュータ３００１に、上記実施の形態による制御装置２等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム３０００がどのように動作するのかについては周知であり、詳細な説明は省略する。

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる制御装置は、過去のデータを用いた学習機能を用いることで、各ユーザの熱的快適性を許容範囲に収めるように、空調システムを自動的に制御することができるという効果を有し、制御装置等として有用である。

１学習装置
２、３、４、５制御装置
６熱源
７空調機
８外部情報源
９内部情報源
１１格納部
１１１学習情報格納部
１１２外部情報格納部
１１３内部情報格納部
１１４装置状態情報格納部
１１５装置設定情報格納部
１１６操作情報格納部
１２学習部
１３蓄積部
２２、３２、５２受付部
２３、３３、４３制御情報生成部
２３１理想状態取得手段
２３２制御情報取得手段
３３１制御情報候補生成手段
３３２制御情報判定手段
３３３制御情報選択手段
４３１制御情報評価手段
４３２制御情報選択手段
２４、５４出力部

Claims

２以上の空調機を有する空調システムを制御するための学習情報が格納される学習情報格納部と、
外気温度を含む外部環境情報と、日時に関する日時情報とを有する２以上の外部情報が格納される外部情報格納部と、
空調機が空気調整する領域を識別する領域識別子と、当該領域の温度を含む内部環境情報と、日時に関する日時情報とを有する２以上の内部情報が格納される内部情報格納部と、
空調システムを構成する空調機を識別する装置識別子と、当該空調機の状態に関する１以上の状態情報と、日時に関する日時情報とを有する２以上の装置状態情報が格納される装置状態情報格納部と、
空調システムを構成する空調機を識別する装置識別子と、当該空調機の設定に関する１以上の設定情報と、日時に関する日時情報とを有する２以上の装置設定情報が格納される装置設定情報格納部と、
空調システムを構成する空調機に対応する装置識別子と、ユーザによる空調機の操作を特定する操作識別子と、日時に関する日時情報とを有する１以上の操作情報が格納される操作情報格納部と、
前記２以上の外部情報と前記２以上の内部情報と前記２以上の装置状態情報と前記２以上の装置設定情報と前記１以上の操作情報とを有する２以上の統合情報を用いて、時刻に関する時刻情報と当該時刻情報に対応する外部情報、または時刻に関する時刻情報と当該時刻情報に対応する外部情報と当該時刻情報に対応する内部情報と当該時刻情報に対応する装置状態情報と各空調機に対する装置設定情報を含む制御情報を入力とし、各空調機に対する装置設定情報を含む制御情報に関する情報を出力とする学習情報を構成する学習部と、
前記学習情報を前記学習情報格納部に蓄積する蓄積部とを具備する学習装置。
前記学習情報格納部には、
１または２以上の熱源と２以上の空調機とを有する空調システムを制御するための学習情報が格納され、
前記装置状態情報格納部には、
熱源を識別する装置識別子と、当該熱源の状態に関する１以上の状態情報と、日時に関する日時情報とを有する１以上の装置状態情報をも格納され、
前記装置設定情報格納部には、
熱源を識別する装置識別子と、当該熱源の設定に関する１以上の設定情報と、日時に関する日時情報とを有する１以上の装置設定情報をも格納され、
前記学習部は、
前記２以上の外部情報と前記２以上の内部情報と前記３以上の装置状態情報と前記３以上の装置設定情報と前記１以上の操作情報とを有する２以上の統合情報を用いて、時刻に関する時刻情報と当該時刻情報に対応する外部情報、または時刻に関する時刻情報と当該時刻情報に対応する外部情報と当該時刻情報に対応する内部情報と当該時刻情報に対応する装置状態情報と各装置に対する装置設定情報を含む制御情報を入力とし、各装置に対する装置設定情報を含む制御情報に関する情報を出力とする学習情報を構成する請求項１記載の学習装置。
前記学習部は、
前記２以上の外部情報、前記２以上の内部情報、前記２以上の装置状態情報、前記２以上の装置設定情報、および前記１以上の操作情報について、
前記１以上の各操作情報が有する日時情報に対応する外部情報、内部情報、装置状態情報、および装置設定情報である負例と、前記負例以外の日時情報に対応する外部情報、内部情報、装置状態情報、および装置設定情報である正例のうち、少なくとも一部を用いて、学習情報を構成する請求項１または請求項２記載の学習装置。
前記学習部は、
深層学習により前記学習情報を構成する請求項１から請求項３いずれか一項に記載の学習装置。
請求項１から請求項４いずれか一項に記載の学習装置により学習された学習情報、または請求項１から請求項４いずれか一項に記載の２以上の統合情報である学習情報が格納される学習情報格納部と、
少なくとも一の時刻に対応する外部情報、および当該一の時刻に対応する内部情報を受け付ける受付部と、
前記受付部が受け付けた情報を、前記学習情報に適用し、２以上の各空調機に対する装置設定情報を含む制御情報を生成する制御情報生成部と、
前記制御情報を出力する出力部とを具備する制御装置。
前記制御情報生成部は、
前記受付部が受け付けた外部情報を、前記学習情報に適用し、内部情報を取得する理想状態取得手段と、
前記受付部が受け付けた内部情報から、前記理想状態取得手段が取得した内部情報へ近づけるための制御情報を取得する制御情報取得手段とを具備する請求項５記載の制御装置。
前記受付部は、
少なくとも一の時刻に対応する外部情報、当該一の時刻に対応する内部情報、および当該一の時刻に対応する装置状態情報を受け付け、
前記制御情報生成部は、
前記受付部が受け付けた外部情報、内部情報、および装置状態情報から１以上の制御情報候補を生成する制御情報候補生成手段と、
前記学習情報を用いて、前記受付部が受け付けた外部情報、内部情報、および装置状態情報と、前記制御情報候補生成手段が生成した制御情報とを組み合わせた情報が正例と負例のいずれに属するかを判定する制御情報判定手段と、
前記制御情報候補生成手段が生成した制御情報候補のうち、前記制御情報判定手段が正例であると判定した制御情報候補から、一の制御情報候補を選択する制御情報選択手段とを具備し、
前記出力部は、
前記制御情報選択手段が選択した一の制御情報候補を制御情報として出力する請求項５記載の制御装置。
前記受付部は、
少なくとも一の時刻に対応する外部情報、当該一の時刻に対応する内部情報、および当該一の時刻に対応する装置状態情報を受け付け、
前記制御情報生成部は、
前記受付部が受け付けた外部情報、内部情報、および装置状態情報から１以上の制御情報候補を生成する制御情報候補生成手段と、
前記学習情報を用いて、前記受付部が受け付けた外部情報、内部情報、および装置状態情報と、前記制御情報候補生成手段が生成した制御情報とを組み合わせた情報の報酬を算出する制御情報評価手段と、
前記制御情報候補生成手段が生成した制御情報候補のうち、前記制御情報評価手段が算出した報酬が最大となる制御情報候補を選択する制御情報選択手段とを具備し、
前記出力部は、
前記制御情報選択手段が選択した一の制御情報候補を制御情報として出力する請求項５記載の制御装置。
一の時刻に対応する外部情報、前記一の時刻に対応する内部情報、および前記一の時刻に対応する装置状態情報と、前記制御情報生成部が生成した制御情報から、前記一の時刻から予め決められた時間が経過した後の時刻である次時点における外部情報、内部情報、および装置状態情報を推定する次時点情報推定部と、
前記次時点情報推定部が推定した次時点における外部情報、内部情報、および装置状態情報を前記制御情報生成部に与え、次時点の制御情報を生成させ、かつ当該次時点からさらに予め決められた時間が経過した後の時刻である次々時点における外部情報、内部情報、および装置状態情報を生成させる生成制御部をさらに具備し、
前記受付部は、
制御情報を生成する対象の期間である制御情報生成対象期間を受け付け、
前記出力部は、
前記制御情報生成部が生成した制御情報生成対象期間の制御情報を出力する請求項５から請求項８いずれか一項に記載の制御装置。
記憶媒体に、
２以上の空調機を有する空調システムを制御するための学習情報と、
外気温度を含む外部環境情報と、日時に関する日時情報とを有する２以上の外部情報と、
空調機が空気調整する領域を識別する領域識別子と、当該領域の温度を含む内部環境情報と、日時に関する日時情報とを有する２以上の内部情報と、
空調システムを構成する空調機を識別する装置識別子と、当該空調機の状態に関する１以上の状態情報と、日時に関する日時情報とを有する２以上の装置状態情報と、
空調システムを構成する空調機を識別する装置識別子と、当該空調機の設定に関する１以上の設定情報と、日時に関する日時情報とを有する２以上の装置設定情報と、
空調システムを構成する空調機に対応する装置識別子と、ユーザによる空調機の操作を特定する操作識別子と、日時に関する日時情報とを有する１以上の操作情報とを格納しており、
学習部と蓄積部を用いて処理される、２以上の空調機を有する空調システムを制御する方法であって、
前記学習部が、
前記２以上の外部情報と前記２以上の内部情報と前記２以上の装置状態情報と前記２以上の装置設定情報と前記１以上の操作情報とを有する２以上の統合情報を用いて、時刻に関する時刻情報と当該時刻情報に対応する外部情報、または時刻に関する時刻情報と当該時刻情報に対応する外部情報と当該時刻情報に対応する内部情報と当該時刻情報に対応する装置状態情報と各空調機に対する装置設定情報を含む制御情報を入力とし、各空調機に対する装置設定情報を含む制御情報に関する情報を出力とする学習情報を構成する学習ステップと、
前記蓄積部が、
前記学習情報を蓄積する蓄積ステップとを備える学習方法。
記憶媒体に、
請求項１０に記載の学習方法により学習された学習情報、または請求項１０に記載の２以上の統合情報である学習情報を格納しており、
受付部、制御情報生成部、および出力部とを用いて処理される、２以上の空調機を有する空調システムを制御する方法であって、
前記受付部が、
少なくとも一の時刻に対応する外部情報、および当該一の時刻に対応する内部情報を受け付ける受付ステップと、
前記制御情報生成部が、
前記受付部が受け付けた外部情報、内部情報、装置状態情報、および装置設定情報を、前記学習情報に適用し、２以上の各空調機に対する装置設定情報を含む制御情報を生成する制御情報生成ステップと、
前記出力部が、
前記制御情報を出力する出力ステップとを備える制御方法。
２以上の空調機を有する空調システムを制御するための学習プログラムであって、
コンピュータがアクセス可能な記憶媒体は、
２以上の空調機を有する空調システムを制御するための学習情報が格納される学習情報格納部と、
外気温度を含む外部環境情報と、日時に関する日時情報とを有する２以上の外部情報が格納される外部情報格納部と、
空調機が空気調整する領域を識別する領域識別子と、当該領域の温度を含む内部環境情報と、日時に関する日時情報とを有する２以上の内部情報が格納される内部情報格納部と、
空調システムを構成する空調機を識別する装置識別子と、当該空調機の状態に関する１以上の状態情報と、日時に関する日時情報とを有する２以上の装置状態情報が格納される装置状態情報格納部と、
空調システムを構成する空調機を識別する装置識別子と、当該空調機の設定に関する１以上の設定情報と、日時に関する日時情報とを有する２以上の装置設定情報が格納される装置設定情報格納部と、
空調システムを構成する空調機に対応する装置識別子と、ユーザによる空調機の操作を特定する操作識別子と、日時に関する日時情報とを有する１以上の操作情報が格納される操作情報格納部とを具備し、
コンピュータを、前記２以上の外部情報と前記２以上の内部情報と前記２以上の装置状態情報と前記２以上の装置設定情報と前記１以上の操作情報とを有する２以上の統合情報を用いて、時刻に関する時刻情報と当該時刻情報に対応する外部情報、または時刻に関する時刻情報と当該時刻情報に対応する外部情報と当該時刻情報に対応する内部情報と当該時刻情報に対応する装置状態情報と各空調機に対する装置設定情報を含む制御情報を入力とし、各空調機に対する装置設定情報を含む制御情報に関する情報を出力とする学習情報を構成する学習部と、
前記学習情報を前記学習情報格納部に蓄積する蓄積部として機能させるためのプログラム。
２以上の空調機を有する空調システムを制御する制御プログラムであって、
コンピュータがアクセス可能な記憶媒体は、
請求項１２のプログラムにより学習された学習情報、または請求項１２に記載の２以上の統合情報である学習情報が格納される学習情報格納部を具備し、
コンピュータを、
少なくとも一の時刻に対応する外部情報、および当該一の時刻に対応する内部情報を受け付ける受付部と、
前記受付部が受け付けた外部情報、内部情報、装置状態情報、および装置設定情報を、前記学習情報に適用し、２以上の各空調機に対する装置設定情報を含む制御情報を生成する制御情報生成部と、
前記制御情報を出力する出力部として機能させるためのプログラム。