[go: up one dir, main page]

WO2021250770A1 - 空気調和装置の制御のための学習装置および推論装置 - Google Patents

空気調和装置の制御のための学習装置および推論装置 Download PDF

Info

Publication number
WO2021250770A1
WO2021250770A1 PCT/JP2020/022644 JP2020022644W WO2021250770A1 WO 2021250770 A1 WO2021250770 A1 WO 2021250770A1 JP 2020022644 W JP2020022644 W JP 2020022644W WO 2021250770 A1 WO2021250770 A1 WO 2021250770A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
indoor unit
unit
air conditioner
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2020/022644
Other languages
English (en)
French (fr)
Inventor
洋志 守安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to PCT/JP2020/022644 priority Critical patent/WO2021250770A1/ja
Priority to JP2022530391A priority patent/JP7309069B2/ja
Publication of WO2021250770A1 publication Critical patent/WO2021250770A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2120/00Control inputs relating to users or occupants
    • F24F2120/10Occupancy
    • F24F2120/12Position of occupants

Definitions

  • the present disclosure relates to a learning device and an inference device for controlling an air conditioner.
  • Patent Document 1 describes a method of operating and controlling an air conditioner by determining an energy consumption function using measurement data during operation of an air conditioning system.
  • a temperature sensor for detecting the temperature in the room is fixedly arranged at a predetermined place in the room. Therefore, it may not be possible to set the temperature of the place where the user is located to the set temperature. In particular, when the airflow is disturbed by furniture in the room, such a problem occurs.
  • an object of the present disclosure is to provide a learning device and an inference device for operation control of an air conditioner capable of setting the temperature of a place where a user is located to a set temperature.
  • the learning device for the air conditioner of the present disclosure includes the position of the user of the air conditioner and the difference between the detected temperature at the user's position and the set temperature of the indoor unit of the air conditioner, and the indoor unit in the state.
  • a data acquisition unit that acquires learning data including the set air volume and set air direction, and the user's position of the air conditioner and the detection temperature at the user's position and the indoor unit of the air conditioner using the learning data. It is provided with a model generation unit that generates a trained model for inferring the set air volume of the indoor unit and the set air direction of the indoor unit from the difference from the set temperature.
  • the inference device for the air conditioner of the present disclosure includes a data acquisition unit that acquires a state including the position of the user of the air conditioner and the difference between the temperature at the user's position and the set temperature of the indoor unit of the air conditioner.
  • the temperature of the place where the user is located can be set as the set temperature.
  • FIG. It is a figure which shows the structure of the air conditioning system of embodiment. It is a figure showing the data input or output to the learning apparatus 10 and the inference apparatus 30 of Embodiment 1.
  • FIG. It is a figure which shows the example of the position of a user. It is a figure which shows the structure of the learning apparatus 10 of Embodiment 1.
  • FIG. It is a flowchart about learning process of learning apparatus 10. It is a figure which shows the structure of the inference device 30. It is a flowchart which shows the inference procedure of the set air volume of an indoor unit and the set wind direction of an indoor unit by an inference device 30. It is a figure showing the data input or output to the learning device 10 and the inference device 30 of the second embodiment.
  • FIGS. 10 (a) to 10 (j) are diagrams showing an example of data obtained from the portable sensor 3 and the control device 2. It is a figure which shows the position of the user in FIGS. 10 (a) to 10 (j).
  • A)-(c) are diagrams for explaining the method of increasing the data.
  • A)-(c) are diagrams for explaining the method of increasing the data. It is a figure which shows the hardware composition of the learning apparatus 10, the inference apparatus 30, or the control apparatus 2.
  • FIG. 1 is a diagram showing a configuration of an air conditioning system according to an embodiment.
  • the air conditioning system includes an air conditioning device 1, a control device 2, a portable sensor 3, a learning device 10, a learned model storage unit 20, and an inference device 30.
  • the portable sensor 3 can be carried by the user.
  • the portable sensor 3 can detect the temperature.
  • the portable sensor 3 can detect the user's position and the temperature at the user's position.
  • the learning device 10 generates a learned model that infers the set air volume of the indoor unit and the wind direction setting of the indoor unit from the difference between the user's position and the detected temperature of the user's position and the set temperature of the indoor unit.
  • the trained model storage unit 20 stores the trained model generated by the learning device 10.
  • the inference device 30 appropriately determines the location of the user from the position of the user and the difference between the detected temperature of the position of the user and the set temperature of the indoor unit according to the learned model stored in the learned model storage unit. In order to reach the set temperature, the set air volume of the indoor unit of the air conditioner and the set air direction of the indoor unit are estimated.
  • the control device 2 controls the air conditioner 1 based on the inference result of the inference device 30 and the like.
  • FIG. 2 is a diagram showing data input or output to the learning device 10 and the inference device 30 of the first embodiment.
  • B1 (behavior) is the set air volume of the indoor unit and the set wind direction of the indoor unit.
  • B2 state is the position of the user and the difference between the detected temperature at the position of the user and the set temperature of the indoor unit.
  • C output is the set air volume of the indoor unit and the set wind direction of the indoor unit.
  • D (reward standard) is the amount of change in the detected temperature of the user's position per unit time.
  • FIG. 3 is a diagram showing an example of a user's position.
  • the position of the user can be detected by the portable sensor 3.
  • the portable sensor 3 By detecting the temperature at the user's location, it is possible to control the air flow at the user's location.
  • FIG. 4 is a diagram showing the configuration of the learning device 10 of the first embodiment.
  • the learning device 10 includes a data acquisition unit 12 and a model generation unit 13.
  • the data acquisition unit 12 acquires learning data including B1 (behavior) and B2 (state). That is, the data acquisition unit 12 acquires learning data including the set air volume of the indoor unit and the set wind direction of the indoor unit, the position of the user, and the difference between the detected temperature of the user's position and the set temperature of the indoor unit.
  • the model generation unit 13 generates a trained model that infers C (output) from B2 (state) using the learning data including B1 (behavior) and B2 (state) acquired by the data acquisition unit 12. That is, the model generation unit 13 uses learning data including the set air volume of the indoor unit, the set wind direction of the indoor unit, the user's position, and the difference between the detected temperature of the user's position and the set temperature of the indoor unit. , And a trained model that infers the set air volume of the indoor unit and the wind direction setting of the indoor unit from the difference between the detected temperature of the user's position and the set temperature of the indoor unit. The model generation unit 13 stores the generated trained model in the trained model storage unit 20.
  • a known algorithm such as supervised learning, unsupervised learning, or reinforcement learning can be used.
  • reinforcement learning an agent (behavior) in a certain environment observes the current state (environmental parameters) and decides the action to be taken. The environment changes dynamically depending on the behavior of the agent, and the agent is rewarded according to the change in the environment. The agent repeats this process and learns the action policy that gives the most reward through a series of actions.
  • Q-learning or TD learning Temporal Difference Learning
  • the general update formula of the action value function Q (s, a) is expressed by the formula (1).
  • st represents the state of the environment at time t, and at represents the action at time t.
  • the state changes to st + 1 depending on the action at.
  • rt + 1 represents the reward received by the change of the state
  • represents the discount rate
  • represents the learning coefficient.
  • is in the range of 0 ⁇ ⁇ 1
  • is in the range of 0 ⁇ ⁇ 1.
  • B1 (behavior) becomes action at
  • B2 (state) becomes state st. That is, the set air volume of the indoor unit and the set wind direction of the indoor unit become the action at, and the position of the user and the difference between the detected temperature of the user's position and the set temperature of the indoor unit become the state st.
  • Q-learning the best action at in the state st at time t is learned.
  • the action value Q of the action a having the highest Q value at time t + 1 is larger than the action value Q of the action a executed at time t, the action value Q is increased. However, in the opposite case, the action value Q is reduced. In other words, the action value function Q (s, a) is updated so that the action value Q of the action a at time t approaches the best action value at time t + 1. As a result, the best behavioral value in a certain environment is sequentially propagated to the behavioral value in the previous environment.
  • the model generation unit 13 includes a reward calculation unit 14 and a function update unit 15.
  • the reward calculation unit 14 calculates the reward based on B1 (behavior) and B2 (state). That is, the reward calculation unit 14 calculates the reward based on the set air volume of the indoor unit and the set wind direction of the indoor unit, the position of the user, and the difference between the detected temperature of the user's position and the set temperature of the indoor unit. ..
  • the reward calculation unit 14 calculates the reward r based on the amount of temperature change per unit time at the user's position. For example, the reward calculation unit 14 increases the reward r (for example, gives a reward of "1") when the amount of temperature change per unit time at the user's position increases, while the reward calculation unit 14 increases the unit time at the user's position. When the amount of temperature change per hit decreases, the reward r is reduced (for example, a reward of "-1" is given).
  • the function update unit 15 updates the function for determining the set air volume of the indoor unit and the wind direction setting of the indoor unit according to the reward calculated by the reward calculation unit 14, and outputs the function to the trained model storage unit 20.
  • the function update unit 15 uses the action value function Q (st, at) represented by the equation (1) as a function for calculating the set air volume of the indoor unit and the wind direction setting of the indoor unit. ..
  • the trained model storage unit 20 stores the action value function Q (st, at) updated by the function update unit 15, that is, the trained model.
  • FIG. 5 is a flowchart relating to the learning process of the learning device 10.
  • the data acquisition unit 12 determines that the data acquisition unit 12 determines the set air volume of the indoor unit and the set wind direction of the indoor unit, the user's position, and the difference between the detected temperature of the user's position and the set temperature of the indoor unit.
  • Acquire training data including.
  • step S102 the model generation unit 13 rewards based on the set air volume of the indoor unit and the set wind direction of the indoor unit, the position of the user, and the difference between the detected temperature of the user's position and the set temperature of the indoor unit. calculate. Specifically, the reward calculation unit 14 determines whether to increase or decrease the reward based on the amount of temperature change per unit time at the user's position.
  • step S103 When the reward calculation unit 14 determines that the reward is to be increased, the process proceeds to step S103.
  • the reward calculation unit 14 determines that the reward is to be reduced, the process proceeds to step S104.
  • step S103 the reward calculation unit 14 increases the reward.
  • step S104 the reward calculation unit 14 reduces the reward.
  • step S105 the function update unit 15 creates an action value function Q (st, at) represented by the equation (1) stored in the trained model storage unit 20 based on the reward calculated by the reward calculation unit 14. Update.
  • the learning device 10 repeatedly executes the above steps S101 to S105, and stores the generated action value function Q (st, at) as a learned model.
  • the learning device 10 stores the trained model in the trained model storage unit 20 provided outside the learning device 10, but the trained model storage unit 20 is stored inside the learning device 10. You may be prepared for.
  • FIG. 6 is a diagram showing the configuration of the inference device 30.
  • the inference device 30 includes a data acquisition unit 31 and an inference unit 32.
  • the data acquisition unit 31 acquires the B2 input. That is, the data acquisition unit 31 acquires the user's position and the difference between the detected temperature of the user's position and the set temperature of the indoor unit.
  • the inference unit 32 infers the set air volume of the indoor unit and the wind direction setting of the indoor unit from the trained model storage unit 20 from the user's position and the difference between the detected temperature of the user's position and the set temperature of the indoor unit. Read the trained model.
  • the inference unit 32 infers the C output by using the data acquired by the data acquisition unit 31 and the trained model. That is, the inference unit 32 inputs the user's position and the difference between the detected temperature of the user's position and the set temperature of the indoor unit acquired by the data acquisition unit 31 into the trained model, so that the location where the user is located. It is possible to infer the set air volume of the indoor unit and the set air direction of the indoor unit so that the temperature of is the set temperature.
  • the inference unit 32 reads the action value function Q (st, at) from the trained model storage unit 20 as a trained model.
  • the inference unit 32 sets the indoor unit based on the action value function Q (s, a) with respect to the position of the user and the difference (state st) between the detected temperature of the user's position and the set temperature of the indoor unit. Obtain the air volume and the set wind direction (behavior at) of the indoor unit.
  • the trained model learned in the model generation unit of the air conditioner is used to output the set air volume of the indoor unit and the wind direction setting of the indoor unit, but it has been learned from other air conditioners.
  • a model may be acquired and the set air volume of the indoor unit and the wind direction setting of the indoor unit may be output based on this trained model.
  • FIG. 7 is a flowchart showing the inference procedure of the set air volume of the indoor unit and the set wind direction of the indoor unit by the inference device 30.
  • step S201 the data acquisition unit 31 acquires the user's position and the difference between the detected temperature of the user's position and the set temperature of the indoor unit.
  • step S202 the inference unit 32 inputs the user's position and the difference between the detected temperature of the user's position and the set temperature of the indoor unit into the trained model stored in the trained model storage unit 20.
  • step S203 the inference unit 32 obtains the set air volume of the trained model or the indoor unit and the set wind direction of the indoor unit.
  • the inference unit 32 outputs the obtained set air volume of the indoor unit and the set air direction of the indoor unit to the control device 2.
  • step S204 the control device 2 uses the output set air volume of the indoor unit and the set wind direction of the indoor unit. Controls the air conditioner 1.
  • reinforcement learning is applied to the learning algorithm used by the inference unit, but the present invention is not limited to this.
  • learning algorithm in addition to reinforcement learning, supervised learning, unsupervised learning, semi-supervised learning, and the like can also be applied.
  • deep learning for learning the extraction of the feature amount itself can also be used.
  • machine learning may be performed according to other known methods such as neural networks, genetic programming, functional logic programming, or support vector machines.
  • the learning device 10 and the inference device 30 may be connected to the control device 2 via a network and may be separate devices from the control device 2, for example. Further, the learning device 10 and the inference device 30 may be built in the control device 2. Further, the learning device 10 and the inference device 30 may exist on the cloud server.
  • the model generation unit 13 may learn the set air volume of the indoor unit and the wind direction setting of the indoor unit by using the learning data acquired from a plurality of air conditioners.
  • the model generation unit 13 may acquire learning data from a plurality of air conditioners used in the same area, or may collect learning data from a plurality of air conditioners operating independently in different areas. You may learn the set air volume of the indoor unit and the wind direction setting of the indoor unit by using the data. It is also possible to add or remove an air conditioner that collects learning data from the target on the way.
  • a learning device that has learned the set air volume of the indoor unit and the wind direction setting of the indoor unit for one air conditioner is applied to another air conditioner, and the set air volume of the indoor unit and the set air volume of the indoor unit for the other air conditioner are applied.
  • the wind direction setting of the indoor unit may be relearned and updated.
  • the learning device sets the set air volume of the indoor unit and the wind direction of the indoor unit from the difference between the user's position and the detected temperature of the user's position and the set temperature of the indoor unit.
  • a trained model to be inferred is generated, and the inference device appropriately sets the location of the user from the difference between the detected temperature of the user's position and the user's position and the set temperature of the indoor unit according to the trained model. Therefore, the set air volume of the indoor unit of the air conditioner and the set air direction of the indoor unit can be estimated.
  • Embodiment 2 This embodiment relates to a reward standard different from that of the first embodiment.
  • FIG. 8 is a diagram showing data input or output to the learning device 10 and the inference device 30 of the second embodiment.
  • B1 (behavior) is the set air volume of the indoor unit and the set wind direction of the indoor unit.
  • B2 state is the position of the user and the difference between the detected temperature at the position of the user and the set temperature of the indoor unit.
  • C output is the set air volume of the indoor unit and the set wind direction of the indoor unit.
  • D (reward standard) is an operation of setting the air volume or the wind direction by the user.
  • the reward calculation unit 14 calculates the reward based on B1 (behavior) and B2 (state). That is, the reward calculation unit 14 calculates the reward based on the set air volume of the indoor unit and the set wind direction of the indoor unit, the position of the user, and the difference between the detected temperature of the user's position and the set temperature of the indoor unit. ..
  • the reward calculation unit 14 calculates the reward r based on the operation of setting the air volume or the wind direction by the user. For example, the reward calculation unit 14 increases the reward r (for example, gives a reward of "1") when the user does not execute the operation of setting the air volume or the wind direction, while the user sets the air volume or the wind direction. When the operation is executed, the reward r is reduced (for example, a reward of "-1" is given).
  • FIG. 9 is a diagram showing the configuration of the learning device of the third embodiment.
  • the difference between the learning device 10 of the third embodiment and the learning device 10 of the first embodiment is that the learning device 10 of the third embodiment includes the data expansion unit 62.
  • the data expansion unit 62 includes the unacquired position and the learning data acquired by the data acquisition unit 12 with respect to the unacquired position other than the user's position included in the learning data acquired by the data acquisition unit 12. Based on the difference from the user's position, the difference between the detected temperature at the user's position included in the training data and the set temperature of the indoor unit of the air conditioner, and the set air volume and set air direction of the indoor unit are used. , Generates extended data including the difference between the detected temperature at the unacquired position and the set temperature of the indoor unit of the air conditioner, and the set air volume and set air direction of the indoor unit.
  • 10 (a) to 10 (j) are diagrams showing examples of data obtained from the portable sensor 3 and the control device 2.
  • 11 is a diagram showing the position of the user in FIGS. 10A to 10J.
  • the user's position and the detection temperature of the user's position are obtained by the portable sensor 3.
  • the set air volume of the indoor unit and the set wind direction of the indoor unit are obtained from the control device 2.
  • the user's position is represented by polar coordinates (x, y) centered on the indoor unit.
  • the difference between the detected temperature at the user's position and the set temperature of the indoor unit is represented by the temperature difference T at the user's position (x, y).
  • the set air volume of the indoor unit is represented by the air volume W set by the control device 2 at the user's position (x, y).
  • the set wind direction of the indoor unit is represented by the wind direction D set by the control device 2 at the user's position (x, y).
  • the angle of the user's position is a constant value ya, and the distance of the user's position changes to xa, xb, xc, xd, xe.
  • the angle of the user's position is a constant value yb, and the distance of the user's position changes to xa, xb, xc, xd, and xe.
  • the data of the user's position (xf, ya) is generated from the data of the user's position (xb, ya) and the data of the user's position (xc, ya).
  • the data expansion unit 62 generates the data of the user's position (xg, ya) from the data of the user's position (xc, ya) and the data of the user's position (xd, ya).
  • the data expansion unit 62 generates the data of the user's position (xd, yc) from the data of the user's position (xd, ya) and the data of the user's position (xd, yb).
  • the data expansion unit 62 has a difference T (xb, ya) between the detected temperature at the user's position (xb, ya) and the set temperature of the indoor unit, and the user's position (xc, ya).
  • T (xc, ya) the difference between the detected temperature of ya) and the set temperature of the indoor unit
  • the difference T difference between the detected temperature of the user's position (xf, ya) and the set temperature of the indoor unit T ( xf, ya) is generated.
  • the data expansion unit 62 has an air volume W (xb, ya) set by the control device 2 at the user's position (xb, ya) and a user's position (xc, ya).
  • W (xb, ya) set by the control device 2 at the user's position (xb, ya) and a user's position (xc, ya).
  • the data expansion unit 62 has a wind direction D (xb, ya) set by the control device 2 at the user's position (xb, ya) and a user's position (xc, ya).
  • the wind direction D (xf, ya) set by the control device 2 is generated at the user's position (xf, ya).
  • the data expansion unit 62 has a difference T (xd, ya) between the detected temperature of the user's position (xd, ya) and the set temperature of the indoor unit, and the user's position (xd, ya).
  • T (xd, yf) By linearly interpolating the difference T (xd, yf) between the detected temperature of yf) and the set temperature of the indoor unit, the difference T (difference between the detected temperature of the user's position (xd, yf) and the set temperature of the indoor unit T ( xf, yf) is generated.
  • the data expansion unit 62 has an air volume W (xd, ya) set by the control device 2 at the user's position (xd, ya) and the user's position (xd, yb).
  • W (xd, ya) set by the control device 2 at the user's position (xd, ya) and the user's position (xd, yb).
  • the air volume W (xd, yf) set by the control device 2 is generated at the user's position (xd, yf).
  • the data expansion unit 62 has a wind direction D (xd, ya) set by the control device 2 at the user's position (xd, ya) and a user's position (xd, yb).
  • the wind direction D (xd, yf) set by the control device 2 is generated at the user's position (xd, yf).
  • FIG. 14 is a diagram showing a hardware configuration of the learning device 10, the inference device 30, or the control device 2.
  • the learning device 10, the inference device 30, and the control device 2 can configure the corresponding operation with the hardware or software of the digital circuit.
  • the functions of the learning device 10, the inference device 30, and the control device 2 are realized by using software, the learning device 10, the inference device 30, and the control device 2 are, for example, as shown in FIG. 15, the bus 53.
  • the processor 51 and the memory 52 connected by the above are provided, and the program stored in the memory 52 can be executed by the processor 51.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

学習装置(10)は、空気調和装置のユーザの位置、およびユーザの位置における検出温度と空気調和装置の室内機の設定温度との差を含む状態と、その状態における室内機の設定風量および設定風向とを含む学習用データを取得するデータ取得部(12)と、学習用データを用いて、空気調和装置のユーザの位置、およびユーザの位置における検出温度と空気調和装置の室内機の設定温度との差から室内機の設定風量および室内機の設定風向を推論するための学習済モデルを生成するモデル生成部(13)とを備える。

Description

空気調和装置の制御のための学習装置および推論装置
 本開示は、空気調和装置の制御のための学習装置および推論装置に関する。
 空気調和システムを最適運転制御する方法が知られている。たとえば、特許文献1には、空調システムの運転時の計測データを用いて、エネルギー消費関数を決定することによって、空気調和装置を運転制御する方法が記載されている。
特開2006-207929号公報
 しかしながら、特許文献1の空気調和装置の運転制御方法では、室内の温度を検出する温度センサが室内の決められた箇所に固定されて配置される。そのため、ユーザが所在する場所の温度を設定温度にすることができない場合がある。特に、室内の什器などによって気流が乱される場合には、このような問題が発生する。
 それゆえに、本開示の目的は、ユーザが所在する場所の温度を設定温度にすることができる空気調和装置の運転制御のための学習装置および推論装置を提供することである。
 本開示の空気調和装置のための学習装置は、空気調和装置のユーザの位置、およびユーザの位置における検出温度と空気調和装置の室内機の設定温度との差を含む状態と、状態における室内機の設定風量および設定風向とを含む学習用データを取得するデータ取得部と、学習用データを用いて、空気調和装置のユーザの位置、およびユーザの位置における検出温度と空気調和装置の室内機の設定温度との差から室内機の設定風量および室内機の設定風向を推論するための学習済モデルを生成するモデル生成部とを備える。
 本開示の空気調和装置のための推論装置は、空気調和装置のユーザの位置、およびユーザの位置における温度と空気調和装置の室内機の設定温度との差を含む状態を取得するデータ取得部と、空気調和装置のユーザの位置、およびユーザの位置における検出温度と空気調和装置の室内機の設定温度との差から室内機の設定風量および室内機の設定風向を推論するための学習済モデルを用いて、データ取得部で取得した状態から室内機の設定風量および室内機の設定風向を推論する推論部とを備える。
 本開示によれば、ユーザが所在する場所の温度を設定温度にすることができる。
実施の形態の空気調和システムの構成を表わす図である。 実施の形態1の学習装置10および推論装置30に入力または出力されるデータを表わす図である。 ユーザの位置の例を表わす図である。 実施の形態1の学習装置10の構成を表わす図である。 学習装置10の学習処理に関するフローチャートである。 推論装置30の構成を表わす図である。 推論装置30による室内機の設定風量および室内機の設定風向の推論手順を表わすフローチャートである。 実施の形態2の学習装置10および推論装置30に入力または出力されるデータを表わす図である。 実施の形態3の学習装置10の構成を表わす図である。 (a)~(j)は、可搬式センサ3および制御装置2から得られたデータの例を表す図である。 図10(a)~図10(j)におけるユーザの位置を表わす図である。 (a)~(c)は、データを増加する方法を説明するための図である。 (a)~(c)は、データを増加する方法を説明するための図である。 学習装置10、推論装置30、または制御装置2のハードウェア構成を表わす図である。
 以下、実施の形態について、図面を参照して説明する。
 実施の形態1.
 図1は、実施の形態の空気調和システムの構成を表わす図である。
 空気調和システムは、空気調和装置1と、制御装置2と、可搬式センサ3と、学習装置10と、学習済モデル記憶部20と、推論装置30とを備える。
 可搬式センサ3は、ユーザが携帯して持ち運びすることができる。可搬式センサ3は、温度を検出することができる。可搬式センサ3は、ユーザの位置および、ユーザの位置における温度を検出することができる。
 学習装置10は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から室内機の設定風量および室内機の風向設定を推論する学習済モデルを生成する。
 学習済モデル記憶部20は、学習装置10によって生成された学習済モデルを記憶する。
 推論装置30は、学習済みモデル記憶部に記憶されている学習済モデルに従って、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から、ユーザが所在する場所を適切に設定温度にするために、空気調和装置の室内機の設定風量および室内機の設定風向を推定する。
 制御装置2は、推論装置30の推論結果などに基づいて、空気調和装置1を制御する。
 図2は、実施の形態1の学習装置10および推論装置30に入力または出力されるデータを表わす図である。
 B1(行動)は、室内機の設定風量および室内機の設定風向である。B2(状態)は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差である。C(出力)は、室内機の設定風量および室内機の設定風向である。D(報酬基準)は、単位時間当りのユーザの位置の検出温度の変化量である。
 図3は、ユーザの位置の例を表わす図である。
 ユーザが可搬式センサ3を携帯することによって、可搬式センサ3によってユーザの位置を検出することができる。ユーザの所在位置の温度を検出することによって、ユーザが所在する場所の気流の制御が可能となる。
 図4は、実施の形態1の学習装置10の構成を表わす図である。学習装置10は、データ取得部12と、モデル生成部13とを備える。
 データ取得部12は、B1(行動)とB2(状態)とを含む学習データを取得する。すなわち、データ取得部12は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とを含む学習データを取得する。
 モデル生成部13は、データ取得部12で取得したB1(行動)とB2(状態)とを含む学習データを用いて、B2(状態)からC(出力)を推論する学習済モデルを生成する。すなわち、モデル生成部13は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とを含む学習用データを用いて、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から室内機の設定風量および室内機の風向設定を推論する学習済モデルを生成する。モデル生成部13は、生成した学習済モデルを学習済モデル記憶部20に記憶させる。
 モデル生成部13が用いる学習アルゴリズムとして、教師あり学習、教師なし学習、または強化学習等の公知のアルゴリズムを用いることができる。一例として、強化学習を適用した場合について説明する。強化学習では、ある環境内におけるエージェント(行動主体)が、現在の状態(環境のパラメータ)を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法であるQ学習、またはTD学習(Temporal Difference Learning)を用いることができる。例えば、Q学習(Q-learning)の場合、行動価値関数Q(s,a)の一般的な更新式は、式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、stは時刻tにおける環境の状態を表し、atは時刻tにおける行動を表す。行動atにより、状態はst+1に変わる。rt+1はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは0<γ≦1、αは0<α≦1の範囲とする。B1(行動)が行動atとなり、B2(状態)が状態stとなる。すなわち、室内機の設定風量および室内機の設定風向が行動atとなり、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差が状態stとなる。Q学習では、時刻tの状態stにおける最良の行動atを学習する。
 式(1)で表される更新式は、時刻t+1における最もQ値の高い行動aの行動価値Qが、時刻tにおいて実行された行動aの行動価値Qよりも大きければ、行動価値Qを大きくし、逆の場合は、行動価値Qを小さくする。換言すれば、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づけるように、行動価値関数Q(s,a)を更新する。それにより、或る環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。
 上記のように、強化学習によって学習済モデルを生成する場合、モデル生成部13は、報酬計算部14と、関数更新部15とを備える。
 報酬計算部14は、B1(行動)と、B2(状態)とに基づいて報酬を計算する。すなわち、報酬計算部14は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とに基づいて、報酬を計算する。報酬計算部14は、ユーザの位置における単位時間当りの温度変化量に基づいて、報酬rを計算する。例えば、報酬計算部14は、ユーザの位置における単位時間当りの温度変化量が増加した場合には報酬rを増大させ(例えば「1」の報酬を与える。)、他方、ユーザの位置における単位時間当りの温度変化量が減少した場合には報酬rを低減する(例えば「-1」の報酬を与える。)。
 関数更新部15は、報酬計算部14によって計算される報酬に従って、室内機の設定風量および室内機の風向設定を決定するための関数を更新し、学習済モデル記憶部20に出力する。例えばQ学習の場合、関数更新部15は、式(1)で表される行動価値関数Q(st,at)を、室内機の設定風量および室内機の風向設定を算出するための関数として用いる。
 以上のような学習を繰り返し実行する。学習済モデル記憶部20は、関数更新部15によって更新された行動価値関数Q(st,at)、すなわち、学習済モデルを記憶する。
 図5は、学習装置10の学習処理に関するフローチャートである。
 ステップS101において、データ取得部12は、データ取得部12は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とを含む学習データを取得する。
 ステップS102において、モデル生成部13は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とに基づいて、報酬を計算する。具体的には、報酬計算部14は、ユーザの位置における単位時間当りの温度変化量に基づいて、報酬を増大させるか、あるいは減少させるかを決定する。
 報酬計算部14が報酬を増大させると判断した場合に、処理がステップS103に進む。報酬計算部14が報酬を減少させると判断した場合に、処理がステップS104に進む。
 ステップS103において、報酬計算部14が、報酬を増大させる。
 ステップS104において、報酬計算部14は、報酬を減少させる。
 ステップS105において、関数更新部15は、報酬計算部14によって計算された報酬に基づいて、学習済モデル記憶部20が記憶する式(1)で表される行動価値関数Q(st,at)を更新する。
 学習装置10は、以上のステップS101からS105までのステップを繰り返し実行し、生成された行動価値関数Q(st,at)を学習済モデルとして記憶する。
 本実施の形態に係る学習装置10は、学習済モデルを学習装置10の外部に設けられた学習済モデル記憶部20に記憶するものとしたが、学習済モデル記憶部20を学習装置10の内部に備えていてもよい。
 図6は、推論装置30の構成を表わす図である。推論装置30は、データ取得部31、および推論部32を備える。
 データ取得部31は、B2入力を取得する。すなわち、データ取得部31は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差を取得する。
 推論部32は、学習済モデル記憶部20から、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から室内機の設定風量および室内機の風向設定を推論するための学習済モデルを読出す。
 推論部32は、データ取得部31で取得したデータと、学習済モデルを利用して、C出力を推論する。すなわち、推論部32は、学習済モデルにデータ取得部31が取得した、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差を入力することで、ユーザが所在する場所の温度が設定温度となるように室内機の設定風量および室内機の設定風向を推論することができる。
 たとえば、推論部32は、学習済モデル記憶部20から学習済みモデルとして、行動価値関数Q(st,at)を読み出す。推論部32は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差(状態st)に対して、行動価値関数Q(s,a)に基づいて、室内機の設定風量および室内機の設定風向(行動at)を得る。
 本実施の形態では、空気調和装置のモデル生成部で学習した学習済モデルを用いて室内機の設定風量および室内機の風向設定を出力するものとして説明したが、他の空気調和装置から学習済モデルを取得し、この学習済モデルに基づいて室内機の設定風量および室内機の風向設定を出力するようにしてもよい。
 図7は、推論装置30による室内機の設定風量および室内機の設定風向の推論手順を表わすフローチャートである。
 ステップS201において、データ取得部31は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差を取得する。
 ステップS202において、推論部32は、学習済モデル記憶部20に記憶された学習済モデルに、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差を入力する。
 ステップS203において、推論部32は、学習済モデルか室内機の設定風量および室内機の設定風向を得る。推論部32は得られた室内機の設定風量および室内機の設定風向を制御装置2に出力する。
 ステップS204において、制御装置2は、出力された室内機の設定風量および室内機の設定風向を用いて。空気調和装置1を制御する。
 本実施の形態では、推論部が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、または半教師あり学習等を適用することも可能である。
 モデル生成部13に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する深層学習を用いることもできる。あるいは、これに代えて他の公知の方法、例えばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、またはサポートベクターマシンなどに従って機械学習を実行してもよい。
 学習装置10及び推論装置30は、例えば、ネットワークを介して制御装置2に接続され、制御装置2とは別個の装置であってもよい。また、学習装置10及び推論装置30は、制御装置2に内蔵されていてもよい。さらに、学習装置10及び推論装置30は、クラウドサーバ上に存在していてもよい。
 モデル生成部13は、複数の空気調和装置から取得される学習用データを用いて、室内機の設定風量および室内機の風向設定を学習するようにしてもよい。なお、モデル生成部13は、同一のエリアで使用される複数の空気調和装置から学習用データを取得してもよいし、異なるエリアで独立して動作する複数の空気調和装置から収集される学習用データを利用して室内機の設定風量および室内機の風向設定を学習してもよい。また、学習用データを収集する空気調和装置を途中で対象に追加したり、対象から除去することも可能である。さらに、ある空気調和装置に関して室内機の設定風量および室内機の風向設定を学習した学習装置を、これとは別の空気調和装置に適用し、当該別の空気調和装置に関して室内機の設定風量および室内機の風向設定を再学習して更新するようにしてもよい。
 以上のように、本実施の形態によれば、学習装置が、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から室内機の設定風量および室内機の風向設定を推論する学習済モデルを生成し、推論装置が、学習済モデルに従って、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差からユーザが所在する場所を適切に設定温度にするために、空気調和装置の室内機の設定風量および室内機の設定風向を推定することができる。
 実施の形態2.
 本実施の形態は、実施の形態1と異なる報酬基準に関する。
 図8は、実施の形態2の学習装置10および推論装置30に入力または出力されるデータを表わす図である。
 B1(行動)は、室内機の設定風量および室内機の設定風向である。B2(状態)は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差である。C(出力)は、室内機の設定風量および室内機の設定風向である。D(報酬基準)は、ユーザによる風量または風向の設定操作である。
 報酬計算部14は、B1(行動)と、B2(状態)とに基づいて報酬を計算する。すなわち、報酬計算部14は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とに基づいて、報酬を計算する。報酬計算部14は、ユーザによる風量または風向の設定操作に基づいて、報酬rを計算する。例えば、報酬計算部14は、ユーザによる風量または風向の設定操作が実行されなかった場合には報酬rを増大させ(例えば「1」の報酬を与える。)、他方、ユーザによる風量または風向の設定操作が実行された場合には報酬rを低減する(例えば「-1」の報酬を与える。)。
 実施の形態3.
 図9は、実施の形態3の学習装置の構成を表わす図である。
 実施の形態3の学習装置10が実施の形態1の学習装置10と相違する点は、実施の形態3の学習装置10が、データ拡張部62を備える点である。
 データ拡張部62は、データ取得部12によって取得された学習用データに含まれるユーザの位置以外の未取得位置に対して、未取得位置と、データ取得部12によって取得された学習用データに含まれるユーザの位置との差に基づいて、学習用データに含まれるユーザの位置における検出温度と空気調和装置の室内機の設定温度との差と、室内機の設定風量および設定風向とを用いて、未取得位置における検出温度と空気調和装置の室内機の設定温度との差と、室内機の設定風量および設定風向とを含む拡張データを生成する。
 図10(a)~図10(j)は、可搬式センサ3および制御装置2から得られたデータの例を表す図である。図11は、図10(a)~図10(j)におけるユーザの位置を表わす図である。
 ユーザの位置、およびユーザの位置の検出温度は、可搬式センサ3によって得られる。室内機の設定風量、および室内機の設定風向は、制御装置2から得られる。
 ユーザの位置は、室内機を中心とした極座標(x,y)で表わされる。ユーザの位置の検出温度と室内機の設定温度との差は、ユーザの位置(x,y)における温度差Tで表される。室内機の設定風量は、ユーザの位置(x,y)において制御装置2によって設定された風量Wで表される。室内機の設定風向は、ユーザの位置(x,y)において制御装置2によって設定された風向Dで表される。
 図10(a)~(e)において、ユーザの位置の角度が一定値yaで、ユーザの位置の距離がxa、xb、xc、xd、xeと変化する。図10(f)~(j)において、ユーザの位置の角度が一定値ybで、ユーザの位置の距離がxa、xb、xc、xd、xeと変化する。
 図11に示すように、ユーザの位置(xf,ya)のデータは、ユーザの位置(xb、ya)のデータと、ユーザの位置(xc,ya)のデータとから生成される。
 データ拡張部62は、ユーザの位置(xc、ya)のデータと、ユーザの位置(xd,ya)のデータとからユーザの位置(xg,ya)のデータを生成する。データ拡張部62は、ユーザの位置(xd、ya)のデータと、ユーザの位置(xd,yb)のデータとからユーザの位置(xd,yc)のデータを生成する。
 図12(a)~(c)は、データを増加する方法を説明するための図である。
 図12(a)に示すように、データ拡張部62は、ユーザの位置(xb,ya)の検出温度と室内機の設定温度との差T(xb,ya)と、ユーザの位置(xc,ya)の検出温度と室内機の設定温度との差T(xc,ya)とを線形補完することによって、ユーザの位置(xf,ya)の検出温度と室内機の設定温度との差T(xf,ya)を生成する。
 図12(b)に示すように、データ拡張部62は、ユーザの位置(xb,ya)において制御装置2によって設定された風量W(xb,ya)と、ユーザの位置(xc,ya)において制御装置2によって設定された風量W(xc,ya)とを線形補完することによって、ユーザの位置(xf,ya)において制御装置2によって設定された風量W(xf,ya)を生成する。
 図12(c)に示すように、データ拡張部62は、ユーザの位置(xb,ya)において制御装置2によって設定された風向D(xb,ya)と、ユーザの位置(xc,ya)において制御装置2によって設定された風向D(xc,ya)とを線形補完することによって、ユーザの位置(xf,ya)において制御装置2によって設定された風向D(xf,ya)を生成する。
 図13(a)~(c)は、データを増加する方法を説明するための図である。
 図13(a)に示すように、データ拡張部62は、ユーザの位置(xd,ya)の検出温度と室内機の設定温度との差T(xd,ya)と、ユーザの位置(xd,yf)の検出温度と室内機の設定温度との差T(xd,yf)とを線形補完することによって、ユーザの位置(xd,yf)の検出温度と室内機の設定温度との差T(xf,yf)を生成する。
 図13(b)に示すように、データ拡張部62は、ユーザの位置(xd,ya)において制御装置2によって設定された風量W(xd,ya)と、ユーザの位置(xd,yb)において制御装置2によって設定された風量W(xd,yb)とを線形補完することによって、ユーザの位置(xd,yf)において制御装置2によって設定された風量W(xd,yf)を生成する。
 図13(c)に示すように、データ拡張部62は、ユーザの位置(xd,ya)において制御装置2によって設定された風向D(xd,ya)と、ユーザの位置(xd,yb)において制御装置2によって設定された風向D(xd,yb)とを線形補完することによって、ユーザの位置(xd,yf)において制御装置2によって設定された風向D(xd,yf)を生成する。
 変形例.
 本開示は、上記の実施形態に限定されるものではない。
 (1)図14は、学習装置10、推論装置30、または制御装置2のハードウェア構成を表わす図である。
 学習装置10、推論装置30、および制御装置2は、相当する動作をデジタル回路のハードウェアまたはソフトウェアで構成することができる。学習装置10、推論装置30、および制御装置2の機能をソフトウェアを用いて実現する場合には、学習装置10、推論装置30、および制御装置2は、例えば、図15に示すように、バス53によって接続されたプロセッサ51とメモリ52とを備え、メモリ52に記憶されたプログラムをプロセッサ51が実行するようにすることができる。
 (2)室内に複数の室内機が存在する場合に、これらを連動さえて最適な風向き、風速設定を探索することとしてもよい。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
 1 空気調和装置、2 制御装置、3 可搬式センサ、10 学習装置、12,31 データ取得部、13 モデル生成部、14 報酬計算部、15 関数更新部、20 学習済モデル記憶部、30 推論装置、32 推論部、51 プロセッサ、52 メモリ、53 バス。

Claims (8)

  1.  空気調和装置のユーザの位置、および前記ユーザの位置における検出温度と前記空気調和装置の室内機の設定温度との差を含む状態と、前記状態における前記室内機の設定風量および設定風向とを含む学習用データを取得するデータ取得部と、
     前記学習用データを用いて、空気調和装置のユーザの位置、および前記ユーザの位置における検出温度と前記空気調和装置の室内機の設定温度との差から前記室内機の設定風量および前記室内機の設定風向を推論するための学習済モデルを生成するモデル生成部と、
     を備える空気調和装置の制御のための学習装置。
  2.  前記データ取得部は、可搬式センサから出力されるデータから、前記状態を取得する、請求項1記載の空気調和装置の制御のための学習装置。
  3.  前記モデル生成部は、Q学習によって前記学習済モデルを生成する、請求項1または2記載の空気調和装置の制御のための学習装置。
  4.  前記モデル生成部は、前記ユーザの位置における単位時間当りの温度変化量が増加したときに、報酬を増大させ、前記ユーザの位置における単位時間当りの温度変化量が減少したときに、前記報酬を減少させる、請求項3記載の空気調和装置の制御のための学習装置。
  5.  前記モデル生成部は、前記ユーザによる風量または風向の設定操作が実行されなかった場合には、報酬を増大させ、前記ユーザによる風量または風向の設定操作が実行された場合には、前記報酬を減少させる、請求項3記載の空気調和装置の制御のための学習装置。
  6.  前記データ取得部によって取得された学習用データに含まれるユーザの位置以外の未取得位置に対して、前記未取得位置と、前記データ取得部によって取得された学習用データに含まれるユーザの位置との差に基づいて、前記学習用データに含まれる前記ユーザの位置における検出温度と前記空気調和装置の室内機の設定温度との差と、前記室内機の設定風量および設定風向とを用いて、前記未取得位置における検出温度と前記空気調和装置の室内機の設定温度との差と、前記室内機の設定風量および設定風向とを含む拡張データを生成するデータ拡張部をさらに備え、
     前記モデル生成部は、前記学習用データとして、前記データ拡張部によって生成された拡張データをさらに用いる、請求項1~5のいずれか1項に記載の空気調和装置の制御のための学習装置。
  7.  空気調和装置のユーザの位置、およびユーザの位置における温度と前記空気調和装置の室内機の設定温度との差を含む状態を取得するデータ取得部と、
     空気調和装置のユーザの位置、および前記ユーザの位置における検出温度と前記空気調和装置の室内機の設定温度との差から前記室内機の設定風量および前記室内機の設定風向を推論するための学習済モデルを用いて、前記データ取得部で取得した前記状態から前記室内機の設定風量および前記室内機の設定風向を推論する推論部と、
     を備える、空気調和装置の制御のための推論装置。
  8.  前記データ取得部は、可搬式センサから出力されるデータから、前記状態を取得する、請求項7記載の空気調和装置の制御のための推論装置。
PCT/JP2020/022644 2020-06-09 2020-06-09 空気調和装置の制御のための学習装置および推論装置 Ceased WO2021250770A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/022644 WO2021250770A1 (ja) 2020-06-09 2020-06-09 空気調和装置の制御のための学習装置および推論装置
JP2022530391A JP7309069B2 (ja) 2020-06-09 2020-06-09 空気調和装置の制御のための学習装置および推論装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/022644 WO2021250770A1 (ja) 2020-06-09 2020-06-09 空気調和装置の制御のための学習装置および推論装置

Publications (1)

Publication Number Publication Date
WO2021250770A1 true WO2021250770A1 (ja) 2021-12-16

Family

ID=78845419

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/022644 Ceased WO2021250770A1 (ja) 2020-06-09 2020-06-09 空気調和装置の制御のための学習装置および推論装置

Country Status (2)

Country Link
JP (1) JP7309069B2 (ja)
WO (1) WO2021250770A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024150357A1 (ja) * 2023-01-12 2024-07-18 三菱電機株式会社 空気調和機

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04316947A (ja) * 1991-04-15 1992-11-09 Matsushita Electric Ind Co Ltd 空気調和機の制御装置
JP2008138902A (ja) * 2006-11-30 2008-06-19 Daiwa House Ind Co Ltd 空調システム
JP2011075138A (ja) * 2009-09-29 2011-04-14 Mitsubishi Electric Corp 環境制御システム、携帯端末、環境制御方法及びプログラム
JP2013142494A (ja) * 2012-01-10 2013-07-22 Hitachi Plant Technologies Ltd 空調機器制御システムおよび空調機器の制御方法
JP2018040510A (ja) * 2016-09-05 2018-03-15 三菱重工サーマルシステムズ株式会社 制御装置、空調制御システム、制御方法及びプログラム
JP2018071853A (ja) * 2016-10-27 2018-05-10 インフォグリーン株式会社 学習装置、制御装置、学習方法、制御方法、学習プログラムおよび制御プログラム
WO2020022123A1 (ja) * 2018-07-27 2020-01-30 日本電信電話株式会社 行動最適化装置、方法およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04316947A (ja) * 1991-04-15 1992-11-09 Matsushita Electric Ind Co Ltd 空気調和機の制御装置
JP2008138902A (ja) * 2006-11-30 2008-06-19 Daiwa House Ind Co Ltd 空調システム
JP2011075138A (ja) * 2009-09-29 2011-04-14 Mitsubishi Electric Corp 環境制御システム、携帯端末、環境制御方法及びプログラム
JP2013142494A (ja) * 2012-01-10 2013-07-22 Hitachi Plant Technologies Ltd 空調機器制御システムおよび空調機器の制御方法
JP2018040510A (ja) * 2016-09-05 2018-03-15 三菱重工サーマルシステムズ株式会社 制御装置、空調制御システム、制御方法及びプログラム
JP2018071853A (ja) * 2016-10-27 2018-05-10 インフォグリーン株式会社 学習装置、制御装置、学習方法、制御方法、学習プログラムおよび制御プログラム
WO2020022123A1 (ja) * 2018-07-27 2020-01-30 日本電信電話株式会社 行動最適化装置、方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024150357A1 (ja) * 2023-01-12 2024-07-18 三菱電機株式会社 空気調和機

Also Published As

Publication number Publication date
JP7309069B2 (ja) 2023-07-14
JPWO2021250770A1 (ja) 2021-12-16

Similar Documents

Publication Publication Date Title
JP7006859B2 (ja) 空調制御装置、空調システム、空調制御方法、空調制御プログラム
WO2021156516A1 (en) Multi-objective reinforcement learning using objective-specific action-value functions
US20210018208A1 (en) Air conditioner and augmented reality apparatus for informing indoor air condition, and controlling method therefor
JP2024036643A (ja) 空調制御の学習装置および推論装置
US10107205B2 (en) Computer-aided control and/or regulation of a technical system
CN106462117B (zh) 控制目标系统
JP2020154785A (ja) 予測方法、予測プログラムおよびモデル学習方法
CN114268986A (zh) 一种无人机计算卸载与充电服务效能优化方法
GB2540804A (en) Hardware Power Management Apparatus and Methods
US20220178572A1 (en) Air conditioning control system and air conditioning control method
JP6177842B2 (ja) アース線又はシールド線の接続箇所を学習する機械学習方法及び機械学習装置並びに該機械学習装置を備えた電動機制御装置及び電動機装置
WO2021250770A1 (ja) 空気調和装置の制御のための学習装置および推論装置
KR102175280B1 (ko) 제어 파라미터 학습 기반 제어 시스템 및 방법
JPWO2020121494A1 (ja) 演算装置、アクション決定方法、及び制御プログラム
WO2021214852A1 (ja) 情報処理装置および空調システム
CN114811912B (zh) 空调器运行控制方法、装置、空调器及存储介质
EP4246050B1 (en) Air conditioning device
US20240167716A1 (en) Information processing device and air conditioning system
CN113743002A (zh) 基于对数型收敛因子与聚合势能的鲸鱼优化系统及方法
Wang et al. Adaptive IoT decision making in uncertain environments
CN114061094B (zh) 空调器的控制方法及其装置、计算机可读存储介质
CN117478538A (zh) 一种基于深度强化学习的物联网设备探测与控制方法
JP7414964B2 (ja) 空調制御の学習装置および推論装置
JP7462905B2 (ja) 制御装置、方法、プログラム及びシステム
JP7687520B2 (ja) 強化学習装置、強化学習方法、及び強化学習プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20939774

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022530391

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20939774

Country of ref document: EP

Kind code of ref document: A1