[go: up one dir, main page]

WO2021192279A1 - 空調制御の学習装置および推論装置 - Google Patents

空調制御の学習装置および推論装置 Download PDF

Info

Publication number
WO2021192279A1
WO2021192279A1 PCT/JP2020/014247 JP2020014247W WO2021192279A1 WO 2021192279 A1 WO2021192279 A1 WO 2021192279A1 JP 2020014247 W JP2020014247 W JP 2020014247W WO 2021192279 A1 WO2021192279 A1 WO 2021192279A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameter
air conditioning
learning
conditioning system
facility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2020/014247
Other languages
English (en)
French (fr)
Inventor
貴則 京屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to PCT/JP2020/014247 priority Critical patent/WO2021192279A1/ja
Priority to CN202080095729.5A priority patent/CN115280075A/zh
Priority to JP2022510378A priority patent/JPWO2021192279A1/ja
Publication of WO2021192279A1 publication Critical patent/WO2021192279A1/ja
Anticipated expiration legal-status Critical
Priority to JP2024017820A priority patent/JP2024036643A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/30Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
    • F24F11/48Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring prior to normal operation, e.g. pre-heating or pre-cooling
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data

Definitions

  • This disclosure relates to an air conditioning control learning device and an inference device.
  • Patent Document 1 discloses a configuration in which advance air conditioning is performed by inputting and learning index information indicating the amount of solar radiation in addition to temperature and controlling the air conditioning capacity. There is.
  • the present disclosure has been made to solve the above-mentioned problems, and the purpose of the present disclosure is to suppress deterioration of processing accuracy and workability in equipment where advance air conditioning is performed.
  • the learning device learns the control of the air conditioning system of a factory including at least one facility.
  • the learning device includes a first data acquisition unit and a model generation unit.
  • the first data acquisition unit acquires learning data including a first parameter representing the state of at least one facility and an air conditioning system and a second parameter relating to the intensity of air conditioning of the air conditioning system.
  • the model generation unit generates a trained model that infers the second parameter from the first parameter using the training data.
  • the first parameter includes information about the electric energy, temperature and humidity of at least one equipment, identification information of at least one equipment, the item of the product produced by at least one equipment, and the time when the first parameter was acquired. ..
  • the inference device outputs the control of the air conditioning system of the factory including at least one facility.
  • the inference device includes a data acquisition unit and an inference unit.
  • the data acquisition unit acquires a first parameter representing the state of at least one facility and the air conditioning system.
  • the inference unit outputs the second parameter from the first parameter acquired by the data acquisition unit using a learned model that infers the second parameter related to the air conditioning intensity of the air conditioning system from the first parameter.
  • the first parameter includes information about the electric energy, temperature and humidity of at least one equipment, identification information of at least one equipment, the item of the product produced by at least one equipment, and the time when the first parameter was acquired. ..
  • the first parameters are the power, temperature and humidity of at least one piece of equipment, the identification information of at least one piece of equipment, the item of product produced by at least one piece of equipment, and By including the information regarding the time when the first parameter is acquired, it is possible to suppress the deterioration of the processing accuracy and workability in the equipment in which the advance air conditioning is performed.
  • It is a block diagram which shows the structure of the learning apparatus of FIG. It is a flowchart which shows the learning process of the learning apparatus of FIG.
  • FIG. 1 is a block diagram showing an example of the configuration of a management server 10 including a learning device 100 and an inference device 200 according to an embodiment, and an air conditioning system 20 and a factory 30 controlled by the management server 10.
  • the factory 30 includes equipments Eq1, Eq2, Eq3, Eq4, Eq5.
  • the work Wrk is shipped as a product Prd via a work process in the order of equipments Eq1 to Eq4, Eq1 and Eq5.
  • Equipment Eq1 to Eq5 include, for example, a water washing device, a drying furnace, a painting device, a baking furnace, and an inspection device, respectively.
  • FIG. 2 shows the relative magnitude relationship of the heat load of each of the equipments Eq1 to Eq5 until the work Wrk becomes the product Prd. As shown in FIG. 2, the amount of heat generated by each of the equipments Eq1 to Eq5 when the product Prd is completed from the work Wrk varies greatly.
  • the management server 10 includes an information processing system 11 and a data collection / processing system 12.
  • the information processing system 11 includes a learning device 100 and an inference device 200.
  • the management server 10 wirelessly communicates the temperature and humidity of the equipment Eq1, the temperature and humidity of the equipment Eq3, the temperature and humidity of the equipment Eq4, and the temperature and humidity of the indoor unit 22 from the temperature and humidity sensors Sn1, Sn3, Sn4, and Sn11. Get each.
  • the management server 10 acquires the temperature and humidity of the equipment Eq2 from the temperature / humidity sensor Sn2 by wired communication.
  • the management server 10 acquires the temperature and humidity of the outdoor unit 21 from the temperature / humidity sensor Sn10 via the air conditioning controller 23 by wired communication.
  • the management server 10 acquires the air conditioning control estimation parameter Prm1 (first parameter) at the production site.
  • the air-conditioning control estimation parameter Prm1 includes information on the electric energy, temperature and humidity of the equipment (production equipment) included in the factory 30, the identification information of the production equipment, the item of the product Prd, and the time when the air-conditioning control estimation parameter Prm1 is acquired. ..
  • the air conditioner system 20 includes an outdoor unit 21, an indoor unit 22, and an air conditioner controller 23.
  • the outdoor unit 21 is arranged outside the factory 30.
  • the indoor unit 22 and the air conditioning controller 23 are arranged in the factory 30.
  • the outdoor unit 21 includes a fan, a compressor, and a heat exchanger.
  • the indoor unit 22 includes a fan, a heat exchanger and an expansion valve.
  • the air conditioning controller 23 includes a thermostat.
  • the air conditioning controller 23 receives the air conditioning intensity control parameter Prm2 (second parameter) from the management server 10 and controls the outdoor unit 21 and the indoor unit 22.
  • the air conditioning intensity control parameter Prm2 includes ON / OFF of the thermostat, the rotation frequency of the compressor, the wind power of the fan, the evaporation temperature of the refrigerant, and the condensation temperature of the refrigerant.
  • FIG. 3 is a block diagram showing the configuration of the learning device 100 of FIG.
  • the learning device 100 includes a data acquisition unit 110 (first data acquisition unit) and a model generation unit 120.
  • the data acquisition unit 110 acquires, and the air conditioning control estimation parameter Prm1 and the air conditioning intensity control parameter Prm2 as learning data.
  • the model generation unit 120 learns the air conditioning intensity control by using the learning data including the air conditioning control estimation parameter Prm1 and the air conditioning intensity control parameter Prm2. That is, the model generation unit 120 generates a learned model that infers the air conditioning intensity control parameter Prm2 from the air conditioning control estimation parameter Prm1.
  • known algorithms such as supervised learning, unsupervised learning, and reinforcement learning can be used. In the following, as an example, the case where reinforcement learning is applied will be described.
  • reinforcement learning an agent (behavior) in a certain environment observes the current state (environmental parameters) and decides the action to be taken. The environment changes dynamically depending on the behavior of the agent, and the agent is rewarded according to the change in the environment.
  • the agent repeats this process and learns the action policy that gives the most reward through a series of actions.
  • Q-learning or TD-learning is known as a typical method of reinforcement learning.
  • action value function Q (s t, a t) general update equations for is expressed as the following equation (1).
  • s t represents the state of the environment at time t
  • a t represents the behavior in time t.
  • the action a t the state is changed to s t + 1 from the s t.
  • rt + 1 represents the reward obtained by changing the state
  • represents the discount rate
  • represents the learning coefficient.
  • is in the range of 0 ⁇ ⁇ 1
  • is in the range of 0 ⁇ ⁇ 1.
  • Air conditioning intensity control parameters Prm2 the action a t
  • the air conditioning control estimation parameters Prm1 of the production site becomes the state s t.
  • Agent, action value function Q (s t, a t) represented by formula (1) while repeating renewal of learning the best action a t in state s t at time t.
  • the update formula represented by the equation (1) has an action value when the Q value of the action a having the highest action value Q (evaluation value) at time t + 1 is larger than the action value Q of the action a executed at time t. Increase Q.
  • the update formula reduces the action value Q.
  • the action value function Q (s, a) is updated so that the action value Q of the action a at time t approaches the best action value at time t + 1.
  • the best behavioral value in a certain environment is sequentially propagated to the behavioral value in the previous environment.
  • the model generation unit 120 includes a reward calculation unit 121 and a function update unit 122.
  • the reward calculation unit 121 calculates the reward using the air conditioning control estimation parameter Prm1 and the air conditioning intensity control parameter Prm2.
  • the reward calculation unit 121 calculates the reward r using the degree of deviation (reward standard) between the set temperature and the temperature in the factory 30. For example, when the degree of deviation between the set temperature and the temperature in the factory 30 is smaller than the previous time, the reward r is increased (for example, the reward of "1" is given), while the set temperature and the temperature in the factory 30 are given. If the degree of divergence from the previous time increases from the previous time, the reward r is reduced (for example, a reward of "-1" is given).
  • the function update unit 122 updates the function for determining the air conditioning intensity control parameter Prm2 according to the reward calculated by the reward calculation unit 121, and outputs the function to the trained model storage unit 140.
  • action value function Q (s t, a t) represented by the formula (1) is used as a function for calculating the air-conditioning power control parameter Prm2.
  • the learning device 100 repeatedly executes the above learning.
  • Learned model storage unit 140 action value is updated by the function updating unit 122 function Q (s t, a t) for storing the learned model is.
  • FIG. 4 is a flowchart showing the learning process of the learning device 100 of FIG. In the following, the step is simply referred to as S.
  • the data acquisition unit 110 acquires the air conditioning control estimation parameter Prm1 and the air conditioning intensity control parameter Prm2 as learning data. Specifically, the data acquisition unit 110 assumes that there are a plurality of facilities in the factory 30, adds equipment identification information and time information to the electric energy, and gives the temperature and humidity the temperature and humidity. Gives the measured position information and time information.
  • the model generation unit 120 calculates the reward using the air conditioning control estimation parameter Prm1 and the air conditioning intensity control parameter Prm2. Specifically, the reward calculation unit 121 acquires the air-conditioning control estimation parameter Prm1 and the air-conditioning intensity control parameter Prm2, and air-conditions based on the degree of deviation between the set temperature, which is a predetermined reward standard, and the temperature in the factory 30. It is determined whether to increase the reward corresponding to the intensity control parameter Prm2 (S103) or decrease the reward (S104). The reward calculation unit 121 increases the reward in S103 when the degree of deviation is smaller than the threshold value. On the other hand, the reward calculation unit 121 reduces the reward in S104 when the degree of deviation is larger than the threshold value.
  • the degree of deviation of the power consumption of the air conditioning system from the target power consumption may be used as a reward standard.
  • energy saving can be realized.
  • the reward standard a standard may be used in which the reward is increased when the yield of the product Prd is larger than the standard yield, and the reward is decreased when the yield is smaller than the standard yield. As a result, the quality of the product Prd can be improved.
  • the function updater 122 uses the calculated fees and wherein the compensation calculation unit 121 (1), the behavior learned model storage unit 140 stores value function Q (s t, a t) Update ..
  • Learning apparatus 100 repeatedly executes the steps of the above S101 to S105, and stores the generated action-value function Q (s t, a t) as a learned model.
  • the learned model is stored in the learned model storage unit 140 provided outside the learning device 100, but the learned model storage unit 140 is formed inside the learning device 100. You may.
  • FIG. 5 is a block diagram showing the configuration of the inference device 200 of FIG.
  • the inference device 200 includes a data acquisition unit 210 and an inference unit 220.
  • the data acquisition unit 210 acquires the air conditioning control estimation parameter Prm1.
  • the inference unit 220 infers the air conditioning intensity control parameter Prm2 by using the learned model stored in the learned model storage unit 140. That is, by inputting the air conditioning control estimation parameter Prm1 of the production site acquired by the data acquisition unit 210 into the trained model, it is possible to infer the air conditioning intensity control parameter Prm2 suitable for the air conditioning control estimation parameter Prm1 of the production site.
  • the configuration for inferring the air conditioning intensity control parameter Prm2 using the trained model learned by the model generation unit 120 in FIG. 3 has been described, but the trained model trained in another environment is used.
  • the air conditioning intensity control parameter may be output.
  • FIG. 6 is a flowchart showing the inference process of the inference device 200 of FIG.
  • the data acquisition unit 210 acquires the air conditioning control estimation parameter Prm1 at the production site.
  • the inference unit 220 inputs the air conditioning control estimation parameter Prm1 at the production site into the learned model stored in the learned model storage unit 140, obtains the air conditioning intensity control parameter Prm2, and sets the air conditioning intensity control parameter Prm2 in S203. Output to the air conditioning system 20.
  • the air conditioning system 20 uses the air conditioning intensity control parameter Prm2 output from the inference device 200 to perform air conditioning control having an intensity that alleviates the amount of change in heat load predicted in the near future.
  • the power consumption of the equipment is solved for the problem of hunting (overshoot or undershoot) or hunting (overshoot or undershoot), which is unavoidable in the air conditioning control (feedback) using the conventional temperature sensor.
  • Air-conditioning control that can deal with changes in heat load estimated from the amount and the like can be implemented in advance (feedback).
  • FIG. 8 since the deviation from the set temperature can be reduced, it is possible to realize a decrease in processing accuracy, a decrease in quality, and a reduction in the burden on the operator.
  • the learning algorithm is not limited to reinforcement learning.
  • the learning algorithm in addition to reinforcement learning, supervised learning, unsupervised learning, semi-supervised learning, and the like can also be applied.
  • model generation unit 120 As a learning algorithm used in the model generation unit 120, deep learning, which learns the extraction of the feature amount itself, can also be used, and other known methods such as neural networks, genetic programming, and functions can be used. Machine learning may be performed according to logical programming or a support vector machine.
  • the learning device 100 and the inference device 200 may be devices separate from the air conditioning system 20 that are connected to the air conditioning system 20 via a network, for example. Further, the learning device 100 and the inference device 200 may be built in the air conditioning system 20. Further, the learning device 100 and the inference device 200 may exist on the cloud server.
  • the model generation unit 120 may learn the air conditioning intensity control by using the learning data acquired from the plurality of air conditioning systems 20.
  • the model generation unit 120 may acquire learning data from a plurality of air conditioning systems 20 used in the same area, or may collect learning data from a plurality of air conditioning systems 20 operating independently in different areas.
  • the air conditioning intensity control may be learned by using the data.
  • the air conditioning system 20 that collects learning data can be added to the learning target or removed from the learning target on the way.
  • the learning device 100 that has learned the air conditioning intensity control for a certain air conditioning system 20 is applied to another air conditioning system 20, and the air conditioning intensity control is relearned and updated for the other advanced air conditioning system. You may.
  • FIG. 9 is a block diagram showing a hardware configuration of the information processing system 11 of FIG.
  • the information processing system 11 includes a processing circuit 51, a memory 52 (storage unit), and an input / output unit 53.
  • the processing circuit 51 includes a CPU (Central Processing Unit) that executes a program stored in the memory 52.
  • the processing circuit 51 may include a GPU (Graphics Processing Unit).
  • the function of the information processing system 11 is realized by software, firmware, or a combination of software and firmware.
  • the software or firmware is described as a program and stored in the memory 52.
  • the processing circuit 51 reads and executes the program stored in the memory 52.
  • the CPU is also called a central processing unit, a processing unit, an arithmetic unit, a microprocessor, a microcomputer, a processor, or a DSP (Digital Signal Processor).
  • DSP Digital Signal Processor
  • the memory 52 includes a non-volatile or volatile semiconductor memory (for example, RAM (Random Access Memory), ROM (Read Only Memory), flash memory, EPROM (Erasable Programmable Read Only Memory), or EPROM (Electrically Erasable Programmable Read Only Memory). )), And includes magnetic discs, flexible discs, optical discs, compact discs, mini discs, or DVDs (Digital Versatile Discs).
  • the memory 52 stores, for example, a trained model, an advance air conditioning program, and a machine learning program.
  • the input / output unit 53 receives an operation from the user and outputs the processing result to the user.
  • the input / output unit 53 includes, for example, a mouse, a keyboard, a touch panel, a display, and a speaker.
  • the learning device and the inference device it is possible to suppress deterioration of processing accuracy and workability in equipment where advance air conditioning is performed.
  • Management server 11 Information processing system, 12 Data collection / processing system, 20 Air conditioning system, 21 Outdoor unit, 22 Indoor unit, 23 Air conditioning controller, 30 Factory, 51 Processing circuit, 52 Memory, 53 Input / output unit, 100 Learning device , 110, 210 Data acquisition unit, 120 model generation unit, 121 reward calculation unit, 122 function update unit, 140 learned model storage unit, 200 inference device, 220 inference unit, Eq1 to Eq5 equipment Prd products, Sn1 to Sn4, Sn10 , Sn11 temperature / humidity sensor, Wrk work.

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

学習装置(100)は、少なくとも1つの設備を含む工場の空調システムの制御を学習する。学習装置(100)は、第1データ取得部(110)と、モデル生成部(120)とを備える。第1データ取得部(110)は、少なくとも1つの設備および空調システムの状態を表す第1パラメータ(Prm1)と、空調システムの空調の強度に関する第2パラメータ(Prm2)とを含む学習用データを取得する。モデル生成部(120)は、学習用データを用いて、第1パラメータ(Prm1)から、第2パラメータ(Prm2)を推論する学習済みモデルを生成する。第1パラメータ(Prm1)は、少なくとも1つの設備の電力量、温度および湿度、少なくとも1つの設備の識別情報、少なくとも1つの設備によって生産される製品の品目、および第1パラメータが取得された時刻に関する情報を含む。

Description

空調制御の学習装置および推論装置
 本開示は、空調制御の学習装置および推論装置に関する。
 従来、空調対象の空間における温度が変化する前に空調を制御する構成(先回り空調)が知られている。たとえば、国際公開第2018/190334号(特許文献1)には、温度に加え、日射量を示す指標情報を入力、学習し、空調能力を制御することで、先回り空調を行う構成が開示されている。
国際公開第2018/190334号
 特許文献1に開示されている構成においては、日射量という外部からのエネルギー流入量に着目しているが、設備の発熱という内部のエネルギー発生量は考慮されていない。工場内には、たとえば炉もしくはコンプレッサーといった発熱する設備が配置されている場合がある。空間温度の変化は、加工精度の悪化、もしくは作業者の身体的負荷増大による生産性悪化を引き起こすため、変化量の抑制が求められる。温度センサでは、検知、空調能力制御開始、および空間温度への反映の各段階が必要で、タイムラグが避けられない。生産計画もしくは生産投入実績に応じて設備の発熱量が変化する場合がある。発熱量に変化がある場合は温度のハンチング(オーバーシュート/アンダーシュート)発生への対応が困難である。さらに、単に生産設備の消費電力量を計測しても、品目に応じた変化は多様であり、前後の生産品目によっても電力量に差異があるため、外気温等の要因を含めすべての電力量と空間温度変化量のパターンを人手で網羅することは困難である。
 本開示は、上述のような課題を解決するためになされたものであり、その目的は、先回り空調が行われる設備における加工精度および作業性の劣化を抑制することである。
 本開示の一局面に係る学習装置は、少なくとも1つの設備を含む工場の空調システムの制御を学習する。学習装置は、第1データ取得部と、モデル生成部とを備える。第1データ取得部は、少なくとも1つの設備および空調システムの状態を表す第1パラメータと、空調システムの空調の強度に関する第2パラメータとを含む学習用データを取得する。モデル生成部は、学習用データを用いて、第1パラメータから、第2パラメータを推論する学習済みモデルを生成する。第1パラメータは、少なくとも1つの設備の電力量、温度および湿度、少なくとも1つの設備の識別情報、少なくとも1つの設備によって生産される製品の品目、および第1パラメータが取得された時刻に関する情報を含む。
 本開示の他の局面に係る推論装置は、少なくとも1つの設備を含む工場の空調システムの制御を出力する。推論装置は、データ取得部と、推論部とを備える。データ取得部は、少なくとも1つの設備および空調システムの状態を表す第1パラメータを取得する。推論部は、第1パラメータから空調システムの空調の強度に関する第2パラメータを推論する学習済みモデルを用いて、データ取得部によって取得された第1パラメータから第2パラメータを出力する。第1パラメータは、少なくとも1つの設備の電力量、温度および湿度、少なくとも1つの設備の識別情報、少なくとも1つの設備によって生産される製品の品目、および第1パラメータが取得された時刻に関する情報を含む。
 本開示に係る学習装置および推論装置によれば、第1パラメータが少なくとも1つの設備の電力量、温度および湿度、少なくとも1つの設備の識別情報、少なくとも1つの設備によって生産される製品の品目、および第1パラメータが取得された時刻に関する情報を含むことにより、先回り空調が行われる設備における加工精度および作業性の劣化を抑制することができる。
実施の形態に係る学習装置および推論装置を備える管理サーバ、および管理サーバによって制御される空調システムおよび工場の構成の一例を示すブロック図である。 ワークが製品となるまでの複数の設備の各々の熱負荷の相対的な大小関係を示す。 図1の学習装置の構成を示すブロック図である。 図3の学習装置の学習処理を示すフローチャートである。 図1の推論装置の構成を示すブロック図である。 図5の推論装置の推論処理を示すフローチャートである。 従来の空調制御による電力/温度のタイムチャートである。 本開示の空調制御による電力/温度のタイムチャートである。 図1の情報処理システムのハードウェア構成を示すブロック図である。
 以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は原則として繰り返さない。
 図1は、実施の形態に係る学習装置100および推論装置200を備える管理サーバ10、および管理サーバ10によって制御される空調システム20および工場30の構成の一例を示すブロック図である。図1に示されるように、工場30は、設備Eq1,Eq2,Eq3,Eq4,Eq5とを含む。ワークWrkは、設備Eq1~Eq4,Eq1,Eq5の順に作業工程を経由して製品Prdとして出荷される。設備Eq1~Eq5は、たとえば、水洗浄装置、乾燥炉、塗装装置、焼き付け炉、および検査装置をそれぞれ含む。
 図2は、ワークWrkが製品Prdとなるまでの設備Eq1~Eq5の各々の熱負荷の相対的な大小関係を示す。図2に示されるように、ワークWrkから製品Prdを完成させる場合の設備Eq1~Eq5の各々の熱発生量は、大きく変化する。
 再び図1を参照して、管理サーバ10は、情報処理システム11と、データ収集/処理システム12とを含む。情報処理システム11は、学習装置100と、推論装置200とを含む。管理サーバ10は、温湿度センサSn1,Sn3,Sn4,Sn11から、設備Eq1の温度および湿度、設備Eq3の温度および湿度、設備Eq4の温度および湿度、および室内機22の温度および湿度を無線通信によってそれぞれ取得する。管理サーバ10は、温湿度センサSn2から設備Eq2の温度および湿度を有線通信によって取得する。管理サーバ10は、温湿度センサSn10から室外機21の温度および湿度を空調コントローラ23を介して有線通信によって取得する。管理サーバ10は、生産現場の空調制御推定パラメータPrm1(第1パラメータ)を取得する。空調制御推定パラメータPrm1は、工場30に含まれる設備(生産設備)の電力量、温湿度、生産設備の識別情報、製品Prdの品目、および空調制御推定パラメータPrm1が取得された時刻に関する情報を含む。
 空調システム20は、室外機21と、室内機22と、空調コントローラ23とを含む。室外機21は、工場30の外部に配置されている。室内機22および空調コントローラ23は、工場30内に配置されている。室外機21は、ファン、圧縮機、および熱交換器を含む。室内機22は、ファン、熱交換器および膨張弁を含む。空調コントローラ23は、サーモスタットを含む。空調コントローラ23は、管理サーバ10からの空調強度制御パラメータPrm2(第2パラメータ)を受けて、室外機21および室内機22を制御する。空調強度制御パラメータPrm2は、サーモスタットのON/OFF、圧縮機の回転周波数、ファンの風力、冷媒の蒸発温度、および冷媒の凝縮温度を含む。
 図3は、図1の学習装置100の構成を示すブロック図である。図3に示されるように、学習装置100は、データ取得部110(第1データ取得部)と、モデル生成部120とを備える。データ取得部110は、および空調制御推定パラメータPrm1および空調強度制御パラメータPrm2を学習用データとして取得する。
 モデル生成部120は、空調制御推定パラメータPrm1および空調強度制御パラメータPrm2を含む学習用データを用いて、空調強度制御を学習する。すなわち、モデル生成部120は、空調制御推定パラメータPrm1から空調強度制御パラ―メータPrm2を推論する学習済みモデルを生成する。モデル生成部120が用いる学習アルゴリズムは教師あり学習、教師なし学習、あるいは強化学習等の公知のアルゴリズムを用いることができる。以下では、一例として、強化学習(Reinforcement Learning)を適用した場合について説明する。強化学習では、或る環境内におけるエージェント(行動主体)が、現在の状態(環境のパラメータ)を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法として、Q学習(Q-learning)またはTD学習(TD-learning)が知られている。たとえば、Q学習の場合、行動価値関数Q(s,a)の一般的な更新式は以下の式(1)のように表される。
Figure JPOXMLDOC01-appb-M000001
 
 式(1)において、sは時刻tにおける環境の状態を表し、aは時刻tにおける行動を表す。行動aにより、状態はsからst+1に変わる。rt+1は状態の変化によって得られる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは0<γ≦1の範囲であり、αは0<α≦1の範囲とする。空調強度制御パラメータPrm2が行動aとなり、生産現場の空調制御推定パラメータPrm1が状態sとなる。エージェントは、式(1)に示される行動価値関数Q(s,a)の更新を繰り返しながら、時刻tの状態sにおける最良の行動aを学習する。
 式(1)で表される更新式は、時刻t+1における最も行動価値Q(評価値)の高い行動aのQ値が時刻tにおいて実行された行動aの行動価値Qよりも大きい場合、行動価値Qを大きくする。逆の場合、当該更新式は、行動価値Qを小さくする。換言すれば、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づけるように、行動価値関数Q(s,a)を更新する。それにより、或る環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。
 上記のように、強化学習によって学習済みモデルを生成する場合、モデル生成部120は、報酬計算部121と、関数更新部122とを備えている。報酬計算部121は、空調制御推定パラメータPrm1および空調強度制御パラメータPrm2を用いて報酬を計算する。報酬計算部121は、設定温度と工場30内の温度との乖離度合い(報酬基準)を用いて、報酬rを計算する。たとえば、設定温度と工場30内の温度との乖離度合いが前回よりも減少する場合には報酬rを増大させ(たとえば「1」の報酬を与える。)、他方、設定温度と工場30内の温度との乖離度合いが前回よりも増加する場合には報酬rを低減する(たとえば「-1」の報酬を与える。)。
 関数更新部122は、報酬計算部121によって計算される報酬に従って、空調強度制御パラメータPrm2を決定するための関数を更新し、学習済みモデル記憶部140に出力する。たとえばQ学習の場合、式(1)で表される行動価値関数Q(s,a)が空調強度制御パラメータPrm2を算出するための関数として用いられる。
 学習装置100は、以上のような学習を繰り返し実行する。学習済みモデル記憶部140は、関数更新部122によって更新された行動価値関数Q(s,a)である学習済みモデルを記憶する。
 図4は、図3の学習装置100の学習処理を示すフローチャートである。以下ではステップを単にSと記載する。図4に示されるように、S101において、データ取得部110は、空調制御推定パラメータPrm1および空調強度制御パラメータPrm2を学習用データとして取得する。具体的には、データ取得部110は、工場30内に複数の設備があることを想定し、電力量には設備の識別情報および時間情報を付与し、温度および湿度には、当該温度および湿度が測定された位置情報および時間情報を付与する。
 S102において、モデル生成部120は、空調制御推定パラメータPrm1および空調強度制御パラメータPrm2を用いて報酬を計算する。具体的には、報酬計算部121は、空調制御推定パラメータPrm1および空調強度制御パラメータPrm2を取得し、予め定められた報酬基準である設定温度と工場30内の温度との乖離度合に基づいて空調強度制御パラメータPrm2に対応する報酬を増加させるか(S103)または報酬を減じるか(S104)を判断する。報酬計算部121は、乖離度合いが閾値よりも小さい場合、S103において報酬を増大させる。一方、報酬計算部121は、乖離度合いが当該閾値よりも大きい場合、S104において報酬を減少させる。
 なお、空調システムの消費電力量の目標消費電力量からの乖離度合を報酬基準として用いてもよい。この場合、当該乖離度合いが大きい程、報酬が減じられ、当該乖離度合いが小さい程、報酬が増加される。その結果、省エネルギーを実現することができる。また、報酬基準として、製品Prdの歩留まりが基準歩留まりより大きい場合に報酬を増加させ、小さい場合に報酬を減少させるという基準が用いられてもよい。その結果、製品Prdの品質を向上させることができる。
 S105において、関数更新部122は、報酬計算部121によって計算された報酬および式(1)を用いて、学習済みモデル記憶部140が記憶する行動価値関数Q(s,a)を更新する。
 学習装置100は、以上のS101からS105までのステップを繰り返し実行し、生成された行動価値関数Q(s,a)を学習済みモデルとして記憶する。なお、学習装置100においては、学習済みモデルを学習装置100の外部に設けられた学習済みモデル記憶部140に記憶する構成としたが、学習済みモデル記憶部140を学習装置100の内部に形成してもよい。
 図5は、図1の推論装置200の構成を示すブロック図である。推論装置200は、データ取得部210と、推論部220とを含む。データ取得部210は、空調制御推定パラメータPrm1を取得する。推論部220は、学習済みモデル記憶部140に記憶されている学習済みモデルを利用して空調強度制御パラメータPrm2を推論する。すなわち、学習済みモデルにデータ取得部210が取得した生産現場の空調制御推定パラメータPrm1を入力することで、生産現場の空調制御推定パラメータPrm1に適した空調強度制御パラメータPrm2を推論することができる。なお、実施の形態では、図3のモデル生成部120で学習された学習済みモデルを用いて空調強度制御パラメータPrm2を推論する構成を説明したが、他の環境で学習された学習済みモデルを用いて空調強度制御パラメータを出力するようにしてもよい。
 図6は、図5の推論装置200の推論処理を示すフローチャートである。図6に示されるように、S201において、データ取得部210は、生産現場の空調制御推定パラメータPrm1を取得する。S202において、推論部220は学習済みモデル記憶部140に記憶された学習済みモデルに生産現場の空調制御推定パラメータPrm1を入力し、空調強度制御パラメータPrm2を得て、S203において空調強度制御パラメータPrm2を空調システム20に出力する。S204において、空調システム20は、推論装置200から出力された空調強度制御パラメータPrm2を用いて、近い未来に予測される熱負荷変化量を緩和する強度となる空調制御を実施する。これにより、従来の温度センサを用いる空調制御(フィードバック)で避けられなかった設定温度との乖離、もしくはハンチング(オーバーシュートまたはアンダーシュート)という図7に示されるような課題に対し、設備の消費電力量等から推定される熱負荷変化に対処することができる空調制御を先回り(フィードフォワード)で実施することができる。その結果、図8に示されるように、設定温度との乖離を減少させることができるため、加工精度の低下、品質の低下、および作業者への負担軽減を実現することができる。
 なお、本実施の形態では、推論部が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、学習アルゴリズムは強化学習に限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、または半教師あり学習等を適用することも可能である。
 また、モデル生成部120に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習(Deep Learning)を用いることもでき、他の公知の方法、たとえばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、もしくはサポートベクターマシンなどに従って機械学習が実行されてもよい。
 なお、学習装置100および推論装置200は、たとえば、ネットワークを介して空調システム20に接続される、空調システム20とは別個の装置であってもよい。また、学習装置100および推論装置200は、空調システム20に内蔵されていてもよい。さらに、学習装置100および推論装置200は、クラウドサーバ上に存在していてもよい。
 また、モデル生成部120は、複数の空調システム20から取得される学習用データを用いて、空調強度制御を学習するようにしてもよい。なお、モデル生成部120は、同一のエリアで使用される複数の空調システム20から学習用データを取得してもよいし、異なるエリアで独立して動作する複数の空調システム20から収集される学習用データを利用して空調強度制御を学習してもよい。また、学習用データを収集する空調システム20を途中で学習対象に追加したり、学習対象から除去することも可能である。さらに、或る空調システム20に関して空調強度制御を学習した学習装置100を、これとは別の空調システム20に適用し、当該別の先回り空調システムに関して空調強度制御を再学習して更新するようにしてもよい。
 図9は、図1の情報処理システム11のハードウェア構成を示すブロック図である。図9に示されるように、情報処理システム11は、処理回路51と、メモリ52(記憶部)と、入出力部53とを含む。処理回路51は、メモリ52に格納されるプログラムを実行するCPU(Central Processing Unit)を含む。処理回路51は、GPU(Graphics Processing Unit)を含んでもよい。情報処理システム11の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアあるいはファームウェアはプログラムとして記述され、メモリ52に格納される。処理回路51は、メモリ52に記憶されたプログラムを読み出して実行する。なお、CPUは、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、あるいはDSP(Digital Signal Processor)とも呼ばれる。
 メモリ52には、不揮発性または揮発性の半導体メモリ(たとえばRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、あるいはEEPROM(Electrically Erasable Programmable Read Only Memory))、および磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、あるいはDVD(Digital Versatile Disc)が含まれる。メモリ52には、たとえば、学習済みモデル、先回り空調プログラム、および機械学習プログラムが保存される。
 入出力部53は、ユーザからの操作を受けるとともに、処理結果をユーザに出力する。入出力部53は、たとえば、マウス、キーボード、タッチパネル、ディスプレイ、およびスピーカを含む。
 以上、実施の形態に係る学習装置および推論装置によれば、先回り空調が行われる設備における加工精度および作業性の劣化を抑制することができる。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 10 管理サーバ、11 情報処理システム、12 データ収集/処理システム、20 空調システム、21 室外機、22 室内機、23 空調コントローラ、30 工場、51 処理回路、52 メモリ、53 入出力部、100 学習装置、110,210 データ取得部、120 モデル生成部、121 報酬計算部、122 関数更新部、140 学習済みモデル記憶部、200 推論装置、220 推論部、Eq1~Eq5 設備
Prd 製品、Sn1~Sn4,Sn10,Sn11 温湿度センサ、Wrk ワーク。

Claims (8)

  1.  少なくとも1つの設備を含む工場の空調システムの制御を学習する学習装置であって、
     前記少なくとも1つの設備および前記空調システムの状態を表す第1パラメータと、前記空調システムの空調の強度に関する第2パラメータとを含む学習用データを取得する第1データ取得部と、
     前記学習用データを用いて、前記第1パラメータから、前記第2パラメータを推論する学習済みモデルを生成するモデル生成部とを備え、
     前記第1パラメータは、前記少なくとも1つの設備の電力量、温度および湿度、前記少なくとも1つの設備の識別情報、前記少なくとも1つの設備によって生産される製品の品目、および前記第1パラメータが取得された時刻に関する情報を含む、学習装置。
  2.  前記学習済みモデルは、前記第1パラメータと、前記第2パラメータの評価値とが関連付けられた関数を含む、請求項1に記載の学習装置。
  3.  前記モデル生成部は、前記第2パラメータに従って制御された前記空調システムによる空調の下での前記工場内の温度と目標温度との乖離度合いに応じて前記第2パラメータの評価値を更新する、請求項2に記載の学習装置。
  4.  前記モデル生成部は、前記第2パラメータに従って制御された前記空調システムの消費電力量の変化に応じて前記第2パラメータの評価値を更新する、請求項2に記載の学習装置。
  5.  前記モデル生成部は、前記第2パラメータに従って制御された前記空調システムによる空調の下で生産された前記製品の歩留まりの変化に応じて前記第2パラメータの評価値を更新する、請求項2に記載の学習装置。
  6.  前記第1パラメータを取得する第2データ取得部と、
     請求項1~5のいずれか1項に記載の学習装置によって生成された前記学習済みモデルを用いて、前記第2データ取得部によって取得された前記第1パラメータから前記第2パラメータを出力する推論部とを備える、推論装置。
  7.  少なくとも1つの設備を含む工場の空調システムの制御を出力する推論装置であって、
     前記少なくとも1つの設備および前記空調システムの状態を表す第1パラメータを取得するデータ取得部と、
     前記第1パラメータから前記空調システムの空調の強度に関する第2パラメータを推論する学習済みモデルを用いて、前記データ取得部によって取得された前記第1パラメータから前記第2パラメータを出力する推論部とを備え、
     前記第1パラメータは、前記少なくとも1つの設備の電力量、温度および湿度、前記少なくとも1つの設備の識別情報、前記少なくとも1つの設備によって生産される製品の品目、および前記第1パラメータが取得された時刻に関する情報を含む、推論装置。
  8.  前記学習済みモデルは、前記第1パラメータと、前記第2パラメータの評価値とが関連付けられた関数を含む、請求項7に記載の推論装置。
PCT/JP2020/014247 2020-03-27 2020-03-27 空調制御の学習装置および推論装置 Ceased WO2021192279A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2020/014247 WO2021192279A1 (ja) 2020-03-27 2020-03-27 空調制御の学習装置および推論装置
CN202080095729.5A CN115280075A (zh) 2020-03-27 2020-03-27 空调控制的学习装置以及推理装置
JP2022510378A JPWO2021192279A1 (ja) 2020-03-27 2020-03-27
JP2024017820A JP2024036643A (ja) 2020-03-27 2024-02-08 空調制御の学習装置および推論装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/014247 WO2021192279A1 (ja) 2020-03-27 2020-03-27 空調制御の学習装置および推論装置

Publications (1)

Publication Number Publication Date
WO2021192279A1 true WO2021192279A1 (ja) 2021-09-30

Family

ID=77891028

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/014247 Ceased WO2021192279A1 (ja) 2020-03-27 2020-03-27 空調制御の学習装置および推論装置

Country Status (3)

Country Link
JP (2) JPWO2021192279A1 (ja)
CN (1) CN115280075A (ja)
WO (1) WO2021192279A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021192280A1 (ja) * 2020-03-27 2021-09-30
WO2023095582A1 (ja) * 2021-11-25 2023-06-01 国立大学法人京都大学 コントローラ、制御方法、および制御プログラム
WO2023162150A1 (ja) * 2022-02-25 2023-08-31 三菱電機株式会社 換気制御システムおよび換気制御装置
WO2025062537A1 (ja) * 2023-09-20 2025-03-27 三菱電機株式会社 送風システム、学習装置及び推論装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142595A (ja) * 2016-02-09 2017-08-17 ファナック株式会社 生産制御システムおよび統合生産制御システム
CN109695944A (zh) * 2018-11-29 2019-04-30 中国汽车工业工程有限公司 一种基于多模型深度学习的涂装新风空调的控制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0933089A (ja) * 1995-07-19 1997-02-07 Daikin Ind Ltd 空調機の運転制御装置
JPH11108415A (ja) * 1997-10-07 1999-04-23 Sharp Corp 空気調和機用制御装置
WO2017098552A1 (ja) * 2015-12-07 2017-06-15 三菱電機株式会社 制御装置、空気調和システムおよび空気調和機の制御方法
JP2019215109A (ja) * 2018-06-11 2019-12-19 ダイキン工業株式会社 空調システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142595A (ja) * 2016-02-09 2017-08-17 ファナック株式会社 生産制御システムおよび統合生産制御システム
CN109695944A (zh) * 2018-11-29 2019-04-30 中国汽车工业工程有限公司 一种基于多模型深度学习的涂装新风空调的控制方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021192280A1 (ja) * 2020-03-27 2021-09-30
JP7414964B2 (ja) 2020-03-27 2024-01-16 三菱電機株式会社 空調制御の学習装置および推論装置
WO2023095582A1 (ja) * 2021-11-25 2023-06-01 国立大学法人京都大学 コントローラ、制御方法、および制御プログラム
WO2023162150A1 (ja) * 2022-02-25 2023-08-31 三菱電機株式会社 換気制御システムおよび換気制御装置
JPWO2023162150A1 (ja) * 2022-02-25 2023-08-31
JP7630708B2 (ja) 2022-02-25 2025-02-17 三菱電機株式会社 換気制御システムおよび換気制御装置
WO2025062537A1 (ja) * 2023-09-20 2025-03-27 三菱電機株式会社 送風システム、学習装置及び推論装置

Also Published As

Publication number Publication date
JP2024036643A (ja) 2024-03-15
CN115280075A (zh) 2022-11-01
JPWO2021192279A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
JP2024036643A (ja) 空調制御の学習装置および推論装置
JP7279445B2 (ja) 予測方法、予測プログラムおよび情報処理装置
JP7006859B2 (ja) 空調制御装置、空調システム、空調制御方法、空調制御プログラム
US11514358B2 (en) Automatic control artificial intelligence device and method for updating a control function
CN114020079B (zh) 一种室内空间温度和湿度调控方法及装置
CN115950080A (zh) 一种基于强化学习的暖通空调调控方法和装置
JP2019019988A (ja) 空調運転条件作成装置、空調運転条件作成方法、プログラム、および空調システム
CN115983438A (zh) 数据中心末端空调系统运行策略确定方法及装置
CN119268071A (zh) 空调运行状态识别数据处理方法
CN118836523A (zh) 一种基于深度强化学习的中央空调净化方法及系统
JP6901037B1 (ja) 制御装置、制御方法及びプログラム
JP5213749B2 (ja) モデル関数更新処理装置および方法
CN121007369A (zh) 一种以用户为中心的暖通空调系统两阶段优化控制方法及系统
JP7309060B2 (ja) 空調機器のメンテナンスの学習装置および推論装置
CN115952737A (zh) 数据中心运行仿真的优化方法及装置
JP5717950B2 (ja) モデル関数処理装置および方法
CN118927940B (zh) 电动汽车热泵空调温度控制方法、装置、设备及介质
WO2022101989A1 (ja) 空気調和装置、および空気調和装置の学習装置
JP7414964B2 (ja) 空調制御の学習装置および推論装置
JP7309069B2 (ja) 空気調和装置の制御のための学習装置および推論装置
CN117648005B (zh) 基于空气湿度的设备控制方法及系统
CN116734411B (zh) 基于用户行为的空调控制方法、装置、空调及存储介质
Li et al. How far back shall we peer? Optimal air handling unit control leveraging extensive past observations
CN117348395A (zh) 一种空调压缩机自适应优化控制方法、装置、设备及介质
CN117167910A (zh) 用于控制空调器的方法及装置、空调器、存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20927454

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022510378

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20927454

Country of ref document: EP

Kind code of ref document: A1