[go: up one dir, main page]

KR102463146B1 - HEMS optimization method and apparatus using hierarchical deep reinforcement learning - Google Patents

HEMS optimization method and apparatus using hierarchical deep reinforcement learning Download PDF

Info

Publication number
KR102463146B1
KR102463146B1 KR1020200086815A KR20200086815A KR102463146B1 KR 102463146 B1 KR102463146 B1 KR 102463146B1 KR 1020200086815 A KR1020200086815 A KR 1020200086815A KR 20200086815 A KR20200086815 A KR 20200086815A KR 102463146 B1 KR102463146 B1 KR 102463146B1
Authority
KR
South Korea
Prior art keywords
level
ess
scheduling
actor
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020200086815A
Other languages
Korean (ko)
Other versions
KR20220008565A (en
Inventor
최대현
이상윤
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020200086815A priority Critical patent/KR102463146B1/en
Publication of KR20220008565A publication Critical patent/KR20220008565A/en
Application granted granted Critical
Publication of KR102463146B1 publication Critical patent/KR102463146B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for AC mains or AC distribution networks
    • H02J3/007Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
    • H02J3/0075Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2310/00The network for supplying or distributing electric power characterised by its spatial reach or by the load
    • H02J2310/10The network having a local or delimited stationary reach
    • H02J2310/12The local stationary network supplying a household or a building
    • H02J2310/14The load or loads being home appliances
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • Y02B70/3225Demand response systems, e.g. load shedding, peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/10Technologies relating to charging of electric vehicles
    • Y02T90/16Information or communication technologies improving the operation of electric vehicles
    • Y02T90/167Systems integrating technologies related to power network operation and communication or information technologies for supporting the interoperability of electric or hybrid vehicles, i.e. smartgrids as interface for battery charging of electric vehicles [EV] or hybrid vehicles [HEV]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/222Demand response systems, e.g. load shedding, peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/242Home appliances
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S30/00Systems supporting specific end-user applications in the sector of transportation
    • Y04S30/10Systems supporting the interoperability of electric or hybrid vehicles
    • Y04S30/12Remote or cooperative charging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Power Engineering (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

본 발명은 계층적 심화 강화학습을 이용한 HEMS 최적화 방법 및 장치를 개시한다. 본 실시예에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하되, actor-critic 네트워크 모델 기반으로 제1 레벨에서, 고정 부하를 갖는 제어할 수 없는 기기, 차단 불가능 시프트 가능 기기 및 줄일 수 있는 기기에 대한 에너지 소비 스케줄링을 수행하고, actor-critic 네트워크 기반으로 제2 레벨에서 상기 제1 레벨에서의 에너지 소비 스케줄링을 고려하여 ESS(Energy Storage System) 및 EV(Electric Vehicle)의 최적 충방전 스케줄링을 수행하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 DRL 기반 HEMS 최적화 장치가 제공된다.The present invention discloses a HEMS optimization method and apparatus using hierarchical deep reinforcement learning. According to this embodiment, a non-controllable device, a non-blockable shiftable device and a scalable device with a fixed load, at a first level based on an actor-critic network model, comprising a processor and a memory connected to the processor; Performs energy consumption scheduling for ESS (Energy Storage System) and EV (Electric Vehicle) optimal charge/discharge scheduling in consideration of the energy consumption scheduling in the first level in the second level based on the actor-critic network A DRL-based HEMS optimization apparatus for storing program instructions executable by the processor is provided.

Description

계층적 심화 강화학습을 이용한 HEMS 최적화 방법 및 장치{HEMS optimization method and apparatus using hierarchical deep reinforcement learning}HEMS optimization method and apparatus using hierarchical deep reinforcement learning

본 발명은 계층적 심화 강화학습을 이용한 HEMS 최적화 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for optimizing HEMS using hierarchical deep reinforcement learning.

주거용 가구가 총 전기 소비량의 1/3을 차지함에 따라 홈 에너지 관리 시스템(Home Energy Management System: HEMS)은 효율적으로 경제적인 관리를 에너지 관리를 위한 필수 기술이 되었다. As residential households account for one-third of total electricity consumption, Home Energy Management System (HEMS) has become an essential technology for efficient and economical energy management.

HEMS의 주목표는 스마트 가전기기(예를 들어, 에어컨 및 세탁기 등)의 최적 에너지 소비를 스케줄링하여 편안함을 보장하면서 전기 비용을 줄이는 것이다. The main goal of HEMS is to reduce electricity costs while ensuring comfort by scheduling the optimal energy consumption of smart appliances (eg air conditioners and washing machines, etc.).

최근에는 분산 에너지 자원(Distributed energy resource: DER, 예를 들어, 옥상 태양광 발전(roof solar photovoltaic: PV) 및 에너지 저장 시스템(Energy Storage System: ESS)), 스마트 계량기를 갖춘 고급 계량 인프라 및 수요 관리를 포함하는 스마트 그리드 기술로 인해 소비자는 더 많은 에너지를 절약할 수 있게 되었다. More recently, distributed energy resources (DERs, such as roof solar photovoltaic (PV) and Energy Storage Systems (ESS)), advanced metering infrastructure with smart meters and demand management Smart grid technologies that include

HEMS의 핵심 기술은 DER의 동작 스케줄링(충전/방전) 외에 스마트 가전 제품의 경제적인 부하 감소 및 부하 시프팅을 수행하기 위해 사용되는 최적화 방안이다. The core technology of HEMS is an optimization method used to perform economical load reduction and load shifting of smart home appliances in addition to DER operation scheduling (charge/discharge).

그러나, 종래의 HEMS 최적화 알고리즘은 모델 기반으로 이루어지는데, 최근 증가하고 있는 스마트 가전기기를 포함하는 환경에서는 다소 적절한 솔루션을 제공하지 못하는 문제점이 있다. However, the conventional HEMS optimization algorithm is model-based, but there is a problem in that it cannot provide a rather appropriate solution in an environment including smart home appliances, which is increasing recently.

대한민국공개특허공보 10-2015-0040894Korean Patent Publication No. 10-2015-0040894

상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 옥상 PV 시스템, ESS 및 스마트 가전을 고려하여 최적화된 솔루션을 제공할 수 있는 계층적 심화 강화학습을 이용한 HEMS 최적화 방법 및 장치를 제안하고자 한다. In order to solve the problems of the prior art, the present invention intends to propose a HEMS optimization method and apparatus using hierarchical deep reinforcement learning that can provide an optimized solution in consideration of a rooftop PV system, ESS, and smart home appliances.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, DRL(Deep Reinforce Learning) 기반 HEMS(Home Energy Management System) 최적화 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, actor-critic 네트워크 모델 기반으로 제1 레벨에서, 고정 부하를 갖는 제어할 수 없는 기기, 차단 불가능 시프트 가능 기기 및 줄일 수 있는 기기에 대한 에너지 소비 스케줄링을 수행하고, actor-critic 네트워크 기반으로 제2 레벨에서 상기 제1 레벨에서의 에너지 소비 스케줄링을 고려하여 ESS(Energy Storage System) 및 EV(Electric Vehicle)의 최적 충방전 스케줄링을 수행하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 DRL 기반 HEMS 최적화 장치가 제공된다. In order to achieve the above object, according to an embodiment of the present invention, a DRL (Deep Reinforce Learning)-based HEMS (Home Energy Management System) optimization apparatus, comprising: a processor; and a memory coupled to the processor, wherein at a first level based on an actor-critic network model, perform energy consumption scheduling for uncontrollable devices with fixed loads, non-blockable shiftable devices and reducible devices. and to perform optimal charge/discharge scheduling of ESS (Energy Storage System) and EV (Electric Vehicle) in consideration of the energy consumption scheduling in the first level in the second level based on the actor-critic network, executed by the processor A DRL-based HEMS optimizer for storing possible program instructions is provided.

상기 차단 불가능 시프트 가능 기기는 세탁기를 포함하고, 상기 줄일 수 있는 기기는 에어컨을 포함할 수 있다. The non-blockable shiftable device may include a washing machine, and the shrinkable device may include an air conditioner.

상기 프로그램 명령어들은, 상기 제1 레벨 및 제2 레벨 각각에서, 각 기기 에이전트의 현재 상태에 대응되는 행동을 선택하고 실행하고, 상기 현재 상태 및 선택된 행동에 따른 Q-값을 계산하며, actor 네트워크 및 critic 네트워크 각각의 손실 함수를 계산하고, 상기한 과정을 반복 수행하여 최대의 Q-값을 갖는 최적 정책을 결정할 수 있다. The program instructions, in each of the first level and the second level, select and execute an action corresponding to a current state of each device agent, calculate a Q-value according to the current state and the selected action, an actor network and The optimal policy having the maximum Q-value may be determined by calculating the loss function of each critic network and repeating the above process.

상기 actor-critic 네트워크 모델은, 하나의 입력 레이어, 2n개의 뉴런을 갖는 제1 히든 레이어, n개의 뉴런을 갖는 actor 네트워크에 상응하는 제2 히든 레이어 및 n개의 뉴런을 갖는 critic 네트워크에 상응하는 제3 히든 레이어 및 기기의 동작 스케줄에 관한 평균 및 분산, Q-값을 출력하는 출력 레이어를 포함할 수 있다.The actor-critic network model has one input layer, a first hidden layer with 2n neurons, a second hidden layer corresponding to an actor network with n neurons, and a third corresponding to a critic network with n neurons. It may include an output layer for outputting a hidden layer and an average, variance, and Q-value related to an operation schedule of a device.

본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 DRL(Deep Reinforce Learning) 기반으로 HEMS(Home Energy Management System)를 최적화하는 방법으로서, actor-critic 네트워크 모델 기반으로 제1 레벨에서, 고정 부하를 갖는 제어할 수 없는 기기, 차단 불가능 시프트 가능 기기 및 줄일 수 있는 기기에 대한 에너지 소비 스케줄링을 수행하는 단계; 및 actor-critic 네트워크 기반으로 제2 레벨에서 상기 제1 레벨에서의 에너지 소비 스케줄링을 고려하여 ESS(Energy Storage System) 및 EV(Electric Vehicle)의 최적 충방전 스케줄링을 수행하는 단계를 포함하는 DRL 기반 HEMS 최적화 방법이 제공된다. According to another aspect of the present invention, there is provided a method of optimizing HEMS (Home Energy Management System) based on Deep Reinforce Learning (DRL) in a device including a processor and a memory, at a first level based on an actor-critic network model, fixed performing energy consumption scheduling for uncontrollable devices with load, non-blockable shiftable devices, and reducible devices; And DRL-based HEMS comprising the step of performing optimal charge/discharge scheduling of ESS (Energy Storage System) and EV (Electric Vehicle) in consideration of the energy consumption scheduling in the first level in the second level based on the actor-critic network An optimization method is provided.

본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램. According to another aspect of the present invention, a computer readable program for performing the above method.

본 발명에 따르면, 계층적 강화학습 기반으로 2 레벨로 스마트 가전기기 및 ESS/EV의 에너지 소비 스케줄링을 수행하기 때문에 최적 정책 결정이 가능한 장점이 있다. According to the present invention, since energy consumption scheduling of smart home appliances and ESS/EV is performed at two levels based on hierarchical reinforcement learning, there is an advantage in that optimal policy determination is possible.

도 1은 본 실시예에 따른 actor-critic 방법을 이용한 DRL 기반 HEMS 최적화 시스템을 개념적으로 도시한 도면이다.
도 2는 본 실시예에 따른 actor-critic 네트워크 모델 구성을 도시한 도면이다.
도 3은 본 실시예에 따른 DRL 기반 HEMS 최적화 알고리즘을 나타낸 도면이다.
도 4는 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 최적화를 위한 장치의 구성을 도시한 도면이다.
1 is a diagram conceptually illustrating a DRL-based HEMS optimization system using the actor-critic method according to the present embodiment.
2 is a diagram illustrating an actor-critic network model configuration according to the present embodiment.
3 is a diagram illustrating a DRL-based HEMS optimization algorithm according to the present embodiment.
4 is a diagram showing the configuration of an apparatus for optimizing HEMS based on reinforcement learning according to a preferred embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.Since the present invention can have various changes and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents and substitutes included in the spirit and scope of the present invention.

본 발명에서는 actor-critic 방법이 적용된 2레벨 DRL(Deep Reinforce Learning) 프레임워크를 제안하며, 제1 레벨에서 제어가능한 (가전)기기(세탁기(WM) 및 에어컨(AC))를 소비자가 선호하는 스케줄링 및 선호 레벨로 스케줄링한다.In the present invention, a 2-level DRL (Deep Reinforce Learning) framework to which the actor-critic method is applied is proposed, and (home appliance) devices (washing machine (WM) and air conditioner (AC)) that can be controlled at the first level are scheduled by consumers. and scheduling at a preferred level.

제어 불가능 기기의 고정된 부하와 함께 첫 번째 레벨에서 계산된 WM 및 AC 부하를 수용하도록 제2 레벨에서 ESS 및 EV(Electric Vehicle)가 스케줄링된다. ESS and EV (Electric Vehicle) are scheduled in the second level to accommodate the WM and AC loads calculated in the first level along with the fixed load of uncontrollable devices.

본 실시예에 따른 2 레벨 프레임워크는 제1 레벨의 기기와 제2 레벨의 ESS/EV 간의 상호 의존적인 동작에 의해 동기가 부여된다. The two-level framework according to this embodiment is motivated by the interdependent operation between the device of the first level and the ESS/EV of the second level.

도 1은 본 실시예에 따른 actor-critic 방법을 이용한 DRL 기반 HEMS 최적화 시스템을 개념적으로 도시한 도면이다. 1 is a diagram conceptually illustrating a DRL-based HEMS optimization system using the actor-critic method according to the present embodiment.

도 1에 도시된 바와 같이, 본 실시예에 따른 DRL 기반 HEMS는 전력 공급 회사의 TOU 요금 정책, 기상청의 날씨정보(예를 들어, 외부 온도) 및 소비자의 편의 수준 및 PV 등을 고려하여 제1 레벨에서 세탁기 및 에어컨의 동작을 스케줄링하고, 이후 제2 레벨에서 ESS 및 EV의 동작을 스케줄링한다.1, the DRL-based HEMS according to the present embodiment considers the TOU rate policy of the power supply company, weather information (eg, external temperature) of the Meteorological Agency, and the convenience level and PV of consumers. The operation of the washing machine and the air conditioner is scheduled in the level, and then the operation of the ESS and the EV is scheduled in the second level.

본 발명에서는 HEMS에 의해 자동적인 에너지 관리가 이루어지는 상황을 고려하며, HEMS는 시간대 사용(time-to-use: TOU) 요금에 따라 아래의 기기를 스케줄링하고 제어하는 것으로 가정한다. In the present invention, a situation in which automatic energy management is performed by the HEMS is considered, and it is assumed that the HEMS schedules and controls the following devices according to a time-to-use (TOU) fee.

제어 불가능 기기(

Figure 112020073114912-pat00001
)는 TV, PC 또는 조명과 같이 HEMS에 의해 스케줄링되거나 동작할 수 없는 기기이다. 따라서,
Figure 112020073114912-pat00002
는 고정된 에너지 소비 스케줄링을 유지한다. uncontrollable devices (
Figure 112020073114912-pat00001
) is a device that cannot be scheduled or operated by HEMS, such as a TV, PC, or lighting. therefore,
Figure 112020073114912-pat00002
maintains a fixed energy consumption scheduling.

제어 가능 기기(

Figure 112020073114912-pat00003
)는 HEMS에 의해 동작이 스케줄링되고 제어되는 기기이다. controllable device (
Figure 112020073114912-pat00003
) is a device whose operation is scheduled and controlled by the HEMS.

제어 가능 기기의 동작 특성은 줄일 수 있는 기기(reducible appliance,

Figure 112020073114912-pat00004
)와 시프트 가능 기기(shiftable appliance,
Figure 112020073114912-pat00005
)로 분류된다. The operational characteristics of a controllable device are
Figure 112020073114912-pat00004
) and shiftable appliance;
Figure 112020073114912-pat00005
) is classified as

예를 들어, 줄일 수 있는 기기는 에어컨과 같이 전기 비용을 줄이기 위해 에너지 소비를 줄일 수 있는 기기이다. For example, devices that can be reduced are devices that can reduce energy consumption to reduce electricity costs, such as air conditioners.

그러나, TOU 요금 책정 체계에 따라 시프트 가능 기기의 에너지 소비를 다른 시간대로 변경하여 총 전기 비용을 최소화할 수 있다. However, according to the TOU pricing scheme, the energy consumption of shiftable devices can be changed to different time zones to minimize the total cost of electricity.

시프트 가능 기기는 두 가지 부하 유형으로 구분되며, 하나는 차단 불가능 부하(non-interruptible load,

Figure 112020073114912-pat00006
)이고 다른 하나는 차단 가능 부하(interruptible load,
Figure 112020073114912-pat00007
)이다. Shiftable devices are divided into two load types, one being a non-interruptible load.
Figure 112020073114912-pat00006
) and the other is an interruptible load (interruptible load,
Figure 112020073114912-pat00007
)to be.

기기의 태스크 기간 동안 차단 가능 부하를 갖는 시프트 가능 기기의 동작은 HEMS 제어에 의해 중단되어서는 안된다. The operation of a shiftable device with a breakable load during the device's task period shall not be interrupted by HEMS control.

예를 들어, 세탁기는 건조 건에 세탁을 완료해야만 한다. For example, a washing machine must finish washing on a drying gun.

차단 가능 부하를 갖는 시프트 가능 기기는 언제든지 동작이 중단될 수 있다. A shiftable device with a blockable load can be stopped at any time.

예를 들어, PV 전력 생성이 부하 요구보다 클 때, HEMS는 방전 과정을 중단하고, 즉시 ESS의 충전을 개시해야만 한다. For example, when the PV power generation is greater than the load demand, the HEMS must stop the discharging process and immediately start charging the ESS.

이하에서는 종래의 HEMS 최적화 알고리즘을 우선 설명하고, 본 실시예에 따른 DRL 기반 HEMS 최적화 알고리즘을 구체적으로 설명한다. Hereinafter, a conventional HEMS optimization algorithm will be first described, and a DRL-based HEMS optimization algorithm according to the present embodiment will be described in detail.

수학식 1과 같이, HEMS 최적화 문제를 위한 목적 함수는 2 부분으로 구성되고, 각각은 다른 결정 변수

Figure 112020073114912-pat00008
를 포함한다. As shown in Equation 1, the objective function for the HEMS optimization problem consists of two parts, each with a different decision variable.
Figure 112020073114912-pat00008
includes

Figure 112020073114912-pat00009
Figure 112020073114912-pat00009

여기서,

Figure 112020073114912-pat00010
는 TOU 가격
Figure 112020073114912-pat00011
및 시간 t에서 순 에너지 소비량에서 전체 에너지 비용이다. here,
Figure 112020073114912-pat00010
is the TOU price
Figure 112020073114912-pat00011
and total energy cost in net energy consumption at time t.

또한,

Figure 112020073114912-pat00012
은 제어 가능 기기/제어 불가능 기기의 에너지 소비 및 예측된 PV 생성 출력의 관점에서 기재된다. In addition,
Figure 112020073114912-pat00012
is described in terms of the energy consumption of the controllable/non-controllable equipment and the predicted PV generated output.

Figure 112020073114912-pat00013
는 소비자 불편 비용과 관련된 총 패널티 금액이다.
Figure 112020073114912-pat00013
is the total penalty amount associated with consumer inconvenience costs.

불편은 실내 온도

Figure 112020073114912-pat00014
로부터 원하는 소비자 온도
Figure 112020073114912-pat00015
와의 편차를 의미한다. Discomfort is room temperature
Figure 112020073114912-pat00014
desired consumer temperature from
Figure 112020073114912-pat00015
means a deviation from

Figure 112020073114912-pat00016
는 소비자 불편 비용에 대한 패널티 기간이다.
Figure 112020073114912-pat00016
is the penalty period for consumer inconvenience costs.

Figure 112020073114912-pat00017
는 소비자의 전기 요금을 희생하여 소비자의 선호 편의 수준을 만족시키기 위해 HEMS 관리자에 의해 결정될 수 있다
Figure 112020073114912-pat00017
can be determined by the HEMS manager to satisfy the consumer's preferred level of convenience at the expense of the consumer's electricity bill.

이하에서는 HEMS 최적화 문제에 대한 등식 및 불평등 제약 조건을 설명한다. Hereinafter, equality and inequality constraints for the HEMS optimization problem are described.

수학식 2는 순 에너지 소비에 대한 제약으로, 즉 모든 기기의 총 소비량

Figure 112020073114912-pat00018
와 예측된 PV 생성 출력
Figure 112020073114912-pat00019
의 차이이다. Equation 2 is the constraint on net energy consumption, i.e. the total consumption of all devices.
Figure 112020073114912-pat00018
and predicted PV generation output
Figure 112020073114912-pat00019
is the difference of

수학식 3에서, 모든 기기의 총 소비량은 줄일 수 있는 기기, 차단 불가능 부하를 갖는 시프트 가능 기기, 차단 가능 부하를 갖는 시프트 가능 기기 및 제어 불가능 기기를 포함하는 4개의 상이한 유형의 기기로 나눌 수 있다. In Equation 3, the total consumption of all devices can be divided into four different types of devices, including sensible devices, shiftable devices with non-blockable loads, shiftable devices with cutable loads, and non-controllable devices .

Figure 112020073114912-pat00020
Figure 112020073114912-pat00020

Figure 112020073114912-pat00021
Figure 112020073114912-pat00021

줄일 수 있는 기기에 대해, 수학식 4는

Figure 112020073114912-pat00022
에서의,
Figure 112020073114912-pat00023
, 예측된 외부 온도(
Figure 112020073114912-pat00024
), 기기의 에너지 소비량 및 내부 열적 조건을 나타내는 환경 파라미터
Figure 112020073114912-pat00025
표현되는 시간 t
Figure 112020073114912-pat00026
에서의 온도 역학에 대한 제약을 나타낸다. For devices that can be reduced, Equation 4 is
Figure 112020073114912-pat00022
in,
Figure 112020073114912-pat00023
, the predicted external temperature (
Figure 112020073114912-pat00024
), an environmental parameter indicating the energy consumption of the appliance and its internal thermal conditions
Figure 112020073114912-pat00025
time t expressed
Figure 112020073114912-pat00026
represents the constraint on the temperature dynamics at

수학식 5는 소비자가 원하는 실내 온도의 범위의 상한과 하한을 나타내고, 수학식 6은 줄일 수 있는 기기에 대한 에너지 소비 용량이

Figure 112020073114912-pat00027
Figure 112020073114912-pat00028
로 제한되는 것을 나타낸다. Equation 5 represents the upper and lower limits of the range of the indoor temperature desired by the consumer, and Equation 6 represents the energy consumption capacity of the device that can be reduced.
Figure 112020073114912-pat00027
and
Figure 112020073114912-pat00028
indicates that it is limited to

Figure 112020073114912-pat00029
Figure 112020073114912-pat00029

Figure 112020073114912-pat00030
Figure 112020073114912-pat00030

Figure 112020073114912-pat00031
Figure 112020073114912-pat00031

수학식 7 내지 9는 다음과 같은 이진 결정 변수

Figure 112020073114912-pat00032
를 갖는 세탁기와 같이 차단 불가능 부하를 갖는 시프트 가능 기기의 바람직한 동작을 보장한다.Equations 7 to 9 are the following binary decision variables
Figure 112020073114912-pat00032
Ensure desirable operation of shiftable appliances with non-blocking loads, such as washing machines with

(i) 수학식 7에서

Figure 112020073114912-pat00033
Figure 112020073114912-pat00034
는 소비자가 원하는 시작 시간 및 종료 시간인 정지 기간 동안, (ii) 수학식 8에서 하루 중 동작 기간
Figure 112020073114912-pat00035
시간 동안, (iii) 수학식 9에서
Figure 112020073114912-pat00036
시간의 연속 동작 기간 동안 (i) in Equation 7
Figure 112020073114912-pat00033
Wow
Figure 112020073114912-pat00034
is during the stop period, which is the start time and end time desired by the consumer, (ii) the operation period of the day in Equation (8)
Figure 112020073114912-pat00035
For time, (iii) in Equation 9
Figure 112020073114912-pat00036
for a period of continuous operation of time

수학식 10에서 차단 불가능 부하를 갖는 시프트 가능 기기의 에너지 소비 용량은

Figure 112020073114912-pat00037
이다. In Equation 10, the energy consumption capacity of a shiftable device with a non-breakable load is
Figure 112020073114912-pat00037
to be.

Figure 112020073114912-pat00038
Figure 112020073114912-pat00038

Figure 112020073114912-pat00039
Figure 112020073114912-pat00039

Figure 112020073114912-pat00040
Figure 112020073114912-pat00040

Figure 112020073114912-pat00041
Figure 112020073114912-pat00041

수학식 11은 현재 시간(t)에서 ESS 및 EV

Figure 112020073114912-pat00042
에 대한 에너지 상태(SOE)의 동역학을 이전 시간(t-1)에서의 SOE로 나타낸 것이고, 충전 및 방전 효율은
Figure 112020073114912-pat00043
,
Figure 112020073114912-pat00044
, 충방전 에너지는
Figure 112020073114912-pat00045
Figure 112020073114912-pat00046
이다. Equation 11 is ESS and EV at the current time (t)
Figure 112020073114912-pat00042
The kinetics of the energy state (SOE) for is expressed as SOE at the previous time (t-1), and the charging and discharging efficiencies are
Figure 112020073114912-pat00043
,
Figure 112020073114912-pat00044
, the charge and discharge energy is
Figure 112020073114912-pat00045
and
Figure 112020073114912-pat00046
to be.

수학식 12는

Figure 112020073114912-pat00047
Figure 112020073114912-pat00048
를 갖는 SOE 용량 제약을 나타낸다. Equation 12 is
Figure 112020073114912-pat00047
and
Figure 112020073114912-pat00048
SOE capacity constraint with .

수학식 13 및 14는 각각 ESS 및 EV의 충전 및 방전 에너지에 대한 제약을 나타내고, 여기서,

Figure 112020073114912-pat00049
는 ESS 및 EV 온/오프를 결정하는 이진 변수이다. Equations 13 and 14 represent the constraints on the charge and discharge energy of the ESS and EV, respectively, where
Figure 112020073114912-pat00049
is a binary variable that determines ESS and EV on/off.

Figure 112020073114912-pat00050
Figure 112020073114912-pat00050

Figure 112020073114912-pat00051
Figure 112020073114912-pat00051

Figure 112020073114912-pat00052
Figure 112020073114912-pat00052

Figure 112020073114912-pat00053
Figure 112020073114912-pat00053

특히, EV에 대한 제약인 수학식 11 내지 14는

Figure 112020073114912-pat00054
에서 그대로 유지되는 반면,
Figure 112020073114912-pat00055
Figure 112020073114912-pat00056
Figure 112020073114912-pat00057
에서 0이 된다. 또한,
Figure 112020073114912-pat00058
에 집을 떠날 때, EV의 SOE는 소비자 선호
Figure 112020073114912-pat00059
보다 커야 한다. In particular, Equations 11 to 14, which are constraints on EV, are
Figure 112020073114912-pat00054
While it remains the same in
Figure 112020073114912-pat00055
and
Figure 112020073114912-pat00056
Is
Figure 112020073114912-pat00057
becomes 0 in In addition,
Figure 112020073114912-pat00058
When leaving home to, EV's SOE is a consumer preference
Figure 112020073114912-pat00059
should be greater than

Figure 112020073114912-pat00060
Figure 112020073114912-pat00060

이하에서는 강화학습을 상세하게 설명한다. Hereinafter, reinforcement learning will be described in detail.

강화학습은 비결정적 환경에서 최적의 의사 결정을 위한 머신러닝 기법 중 하나이다. Reinforcement learning is one of the machine learning techniques for making optimal decisions in non-deterministic environments.

에이전트가 환경과 상호작용하는 동안 에이전트는 환경 상태(state)에 의존하는 행동(action) 유형을 학습하고 학습된 행동을 환경으로 보낸다. While the agent interacts with the environment, the agent learns an action type that depends on the state of the environment and sends the learned action to the environment.

그런 다음 환경은 새로운 환경 상태와 함께 보상을 에이전트로 반환한다. The environment then returns the reward to the agent along with the new environment state.

이러한 학습 프로세스는 에이전트가 환경으로부터 받은 총 누적 보상을 최대화할때까지 계속된다. This learning process continues until the agent maximizes the total cumulative reward received from the environment.

정책은 에이전트가 특정 상태에서 행동하는 방식으로 정의되며, 에이전트의 주요 목표는 보상을 극대화하는 최적의 정책을 결정하는 것이다. A policy is defined as how an agent behaves in a particular state, and the agent's main goal is to determine the optimal policy that maximizes the reward.

본 실시예에서는 환경이 에이전트 상태 변이가 모든 과거 상태 및 행동을 고려하지 않고 현재 상태에서 선택된 행동과 함께 현재 상태에만 의존하는 마코브 의사 결정 프로세스에 의해 설명된다고 가정한다. In this embodiment, it is assumed that the environment is described by a Markov decision-making process in which agent state transitions depend only on the current state with selected actions from the current state without considering all past states and actions.

Q-러닝은 의사 결정 문제의 최적 정책

Figure 112020073114912-pat00061
를 결정하기 위한 대표적인 강화학습 기법 중 하나이다. Q-learning is the optimal policy for decision-making problems
Figure 112020073114912-pat00061
It is one of the representative reinforcement learning techniques for determining

Q-러닝의 일반적인 프로세스는 다음과 같은 Bellman 식을 사용하여 시간 t에서 한 쌍의

Figure 112020073114912-pat00062
와 행동
Figure 112020073114912-pat00063
의 Q-값(
Figure 112020073114912-pat00064
)을 계산하고, 총 보상을 최대화하는 방향으로 Q-값을 업데이트한다. The general process of Q-learning is a pair of pairs at time t using the Bellman equation
Figure 112020073114912-pat00062
and action
Figure 112020073114912-pat00063
Q-value of (
Figure 112020073114912-pat00064
) and update the Q-value in the direction that maximizes the total reward.

Figure 112020073114912-pat00065
Figure 112020073114912-pat00065

수학식 16에서, 최적 정책

Figure 112020073114912-pat00066
에 기초하여 최적 Q-값(
Figure 112020073114912-pat00067
)은 현재 보상
Figure 112020073114912-pat00068
및 최대 디스카운트된 미래 보상
Figure 112020073114912-pat00069
의 합에 의해 얻어지며, 여기서,
Figure 112020073114912-pat00070
는 현재 및 미래 보상의 상대적 중요도를 설명하는 디스카운트 팩터를 나타낸다. In Equation 16, the optimal policy
Figure 112020073114912-pat00066
Based on the optimal Q-value (
Figure 112020073114912-pat00067
) is the current reward
Figure 112020073114912-pat00068
and maximum discounted future rewards
Figure 112020073114912-pat00069
is obtained by the sum of , where
Figure 112020073114912-pat00070
denotes a discount factor that describes the relative importance of present and future rewards.

디스카운트 팩터

Figure 112020073114912-pat00071
가 감소함에 따라 에이전트는 현재 보상에 점점 더 집중하기 때문에 근시안적으로 된다. 그러나, 더 큰
Figure 112020073114912-pat00072
를 사용하면, 에이전트를 향후 보상에 점점 더 집중할 수 있어 원시안적으로 된다. 현재와 미래의 보상의 균형을 맞추기 위해
Figure 112020073114912-pat00073
값은 Q-러닝을 이용하여 시스템 운영자에 의해 조정될 수 있다. discount factor
Figure 112020073114912-pat00071
As α decreases, the agent becomes myopic because it focuses more and more on the current reward. However, larger
Figure 112020073114912-pat00072
Using , you can focus the agent more and more on future rewards, becoming primitive. To balance present and future rewards
Figure 112020073114912-pat00073
The values can be adjusted by the system operator using Q-learning.

이하에서는 actor-critic 방법을 상세하게 설명한다. Hereinafter, the actor-critic method will be described in detail.

actor-critic 방법은 알고리즘의 최적 솔루션이 수렴할 때 안정성을 향상시키고 그라디언트(gradient) 분산을 줄일 수 있는 정책 그라디언트 방법의 확장이다. The actor-critic method is an extension of the policy gradient method that can improve stability and reduce gradient variance when the algorithm's optimal solution converges.

에이전트의 특정 상태 값을 알고 있는 경우, 이에 상응하는 Q-값이 계산될 수 있고, 정책 네트워크 파라미터들의 그라디언트를 계산하기 위해 RL 방법에 적용될 수 있으며 정책 네트워크를 갱신한다. 이에 의해, 에이전트 행동 확률을 높여 더 나은 누적 결과를 얻을 수 있다. When the specific state value of the agent is known, the corresponding Q-value can be calculated and applied to the RL method to compute the gradient of the policy network parameters and update the policy network. Thereby, it is possible to obtain a better cumulative result by increasing the agent action probability.

actor-critic 방법에서, 에이전트는 추가 네트워크를 사용하여 에이전트가 특정 상태에서 선택한 행동의 우수성을 판단할 수 있다. In the actor-critic method, the agent can use an additional network to judge the superiority of the action chosen by the agent in a particular state.

에이언트의 행동 확률을 반환하는 정책 네트워크를 actor 네트워크라 하며, 에이전트의 행동에 대한 평가 값을 반환하는 네트워크를 critic 네트워크라 한다. The policy network that returns the agent's action probability is called the actor network, and the network that returns the evaluation value of the agent's behavior is called the critic network.

정책 그라디언트 방법은 연속적인 행동 공간(continuous action space)에서 문제를 처리하는데 적합하다. The policy gradient method is suitable for dealing with problems in a continuous action space.

그러나 이러한 방법은 수렴 성능이 좋지 않을 수 있다. However, this method may have poor convergence performance.

actor-critic 방법의 추가적인 critic 네트워크는 정책 그라디언트 방식의 수렴 문제를 해결할 수 있다. An additional critic network of the actor-critic method can solve the convergence problem of the policy gradient method.

actor 네트워크는 에이전트가 특정 상태에서 선택한 행동 확률을 반환하고, critic 네트워크는 에이전트가 최종 상태에서 얻을 수 있는 수치적 미래를 반환한다. The actor network returns the probabilities of actions chosen by the agent in a particular state, and the critic network returns the numerical future that the agent can achieve in the final state.

critic 네트워크는 행동과 현재의 상태 수치적 값을 구별하는 함수를 업데이트하는 반면, 정책 네트워크는 critic 네트워크가 제안한 방향으로 파라미터들을 업데이트한다. The critic network updates the function that distinguishes the behavior and the current state numerical value, while the policy network updates the parameters in the direction suggested by the critic network.

본 실시예에서는, actor 네트워크의 파라미터는 강화학습에 의해 업데이트 되고, critic 네트워크의 파라미터는 선형 시간차(linear temporal difference(TD))에 의해 업데이트 된다. In this embodiment, parameters of the actor network are updated by reinforcement learning, and parameters of the critic network are updated by linear temporal difference (TD).

이것이 마코브 의사 결정 프로세스(Markov decision process) 문제를 해결하는데 유용한 것으로 잘 알려져 있다. It is well known that this is useful for solving Markov decision process problems.

본 실시예에서, critic 네트워크에 TD를 적용하기 위해 선형 값 함수 근사를 선택한다. In this embodiment, we choose a linear value function approximation to apply TD to the critic network.

actor-critic 방법은 actor 및 critic 네트워크의 파라미터를 업데이트하여 TD 오류를 최소화한다. The actor-critic method minimizes TD errors by updating the parameters of the actor and critic networks.

이는 현재 상태 값 함수와 목표 값 함수의 차이를 인코딩한다. It encodes the difference between the current state value function and the target value function.

아래의 알고리즘 1은 강화학습에 관한 것이고, 알고리즘 2는 TD 방법을 사용하는 actor-critic 접근 방법을 나타낸다. Algorithm 1 below is about reinforcement learning, and Algorithm 2 shows an actor-critic approach using the TD method.

이하에서는 actor-critic 방법을 사용하여 소비자가 선호하는 기기 스케줄링 및 편의 수준 내에서 스마트 가전 기기 및 DER을 사용하여 단일 가정의 일일 최적 소비를 스케줄링하는 계층적 2 단계 DRL 프레임워크를 설명한다. Below, we describe a hierarchical two-level DRL framework for scheduling optimal daily consumption of a single household using smart appliances and DERs within consumer preferred device scheduling and convenience levels using actor-critic methods.

본 실시예에 따른 프레임워크에서 에너지 스케줄링 문제는 i) 제1 레벨에서의 세탁기 및 에어컨과 ii) 제2 레벨에서의 ESS 및 EV의 에너지 소비 스케줄링으로 분리된다. In the framework according to the present embodiment, the energy scheduling problem is divided into i) a washing machine and an air conditioner in a first level, and ii) an energy consumption scheduling of an ESS and an EV in a second level.

제1 레벨에서 세탁기 및 에어컨을 위한 에너지 관리 모델을 설명한다. The first level describes the energy management model for washing machines and air conditioners.

본 실시예에 따른 DRL 기반 HEM 최적화 알고리즘은 1시간의 스케줄링 해상도로 24시간 동안 실행되는 상황을 고려한다.The DRL-based HEM optimization algorithm according to the present embodiment considers a situation where it is executed for 24 hours with a scheduling resolution of 1 hour.

Figure 112020073114912-pat00074
에서, 제1 레벨에서 세탁기 및 에어컨의 상태 공간(state space)은 각각 다음과 같이 표현된다.
Figure 112020073114912-pat00074
In the first level, the state spaces of the washing machine and the air conditioner are respectively expressed as follows.

Figure 112020073114912-pat00075
Figure 112020073114912-pat00075

여기서,

Figure 112020073114912-pat00076
Figure 112020073114912-pat00077
는 시간 t에서 세탁기 및 에어컨의 스케줄링 시간, TOU 요금 및 실외/실내 온도를 나타낸다. here,
Figure 112020073114912-pat00076
Wow
Figure 112020073114912-pat00077
denotes the scheduling time, TOU rate, and outdoor/indoor temperature of the washing machine and air conditioner at time t.

제1 레벨에서 각 기기에 대한 최적 행동은 상기한 바와 같이 현재 상태를 포함하여 에이전트의 환경에 따라 달라진다At the first level, the optimal behavior for each device depends on the agent's environment, including its current state, as described above.

제1 레벨에서 세탁기 및 에어컨의 행동 공간(action space)은 다음과 같다. In the first level, the action space of the washing machine and the air conditioner is as follows.

Figure 112020073114912-pat00078
Figure 112020073114912-pat00078

Figure 112020073114912-pat00079
Figure 112020073114912-pat00080
는 시간 t에서 세탁기 및 에어컨의 에너지 소비량이다.
Figure 112020073114912-pat00079
Wow
Figure 112020073114912-pat00080
is the energy consumption of washing machines and air conditioners at time t.

여기서,

Figure 112020073114912-pat00081
는 연속적인 값이고,
Figure 112020073114912-pat00082
는 불연속적인 값이다. here,
Figure 112020073114912-pat00081
is a continuous value,
Figure 112020073114912-pat00082
is a discrete value.

WM이 온 되며

Figure 112020073114912-pat00083
이고, 오프되면 0이다. WM is on
Figure 112020073114912-pat00083
, and 0 when off.

각 기기 에이전트에 대한 보상 함수는 소비자 선호 편의 및 기기 동작 특성과 관련된 음(negative) 전기 비용 및 음의 불만족 비용의 합으로 공식화된다. The reward function for each device agent is formulated as the sum of negative electricity costs and negative dissatisfaction costs related to consumer preference convenience and device operating characteristics.

제1 레벨에서 전체 보상은 다음과 같다. In the first level, the total rewards are as follows:

Figure 112020073114912-pat00084
Figure 112020073114912-pat00084

여기서,

Figure 112020073114912-pat00085
Figure 112020073114912-pat00086
은 세탁기 및 에어컨의 비용 함수이다. here,
Figure 112020073114912-pat00085
and
Figure 112020073114912-pat00086
is a function of the cost of washing machines and air conditioners.

각 비용 함수는 원하지 않는 동작 및 실내 열적 불편함에 대한 소비자의 불만족 비용과 함께 기기의 전기 비용을 포함한다. Each cost function includes the electrical cost of the appliance, along with the consumer's dissatisfied cost of undesired operation and indoor thermal discomfort.

먼저, 세탁기의 비용 함수는 다음과 같다. First, the cost function of the washing machine is as follows.

Figure 112020073114912-pat00087
Figure 112020073114912-pat00087

여기서,

Figure 112020073114912-pat00088
Figure 112020073114912-pat00089
는 각각 세탁기의 소비자 선호 시작 및 종료 시간이고,
Figure 112020073114912-pat00090
Figure 112020073114912-pat00091
는 선호 동작 시간 간격과 비교하여 이른 동작 및 늦은 동작에 대한 패널티이다. 세탁기 에이전트가
Figure 112020073114912-pat00092
이전 또는
Figure 112020073114912-pat00093
이후에 세탁기 에너지 소비를 스케줄링하면 불만족 비용이 비용 함수에 추가되며, 그렇지 않으면 비용 함수는 전기 비용만을 포함한다. here,
Figure 112020073114912-pat00088
and
Figure 112020073114912-pat00089
are the consumer preferred start and end times of the washing machine, respectively,
Figure 112020073114912-pat00090
and
Figure 112020073114912-pat00091
is the penalty for early and late operation compared to the preferred operation time interval. washing machine agent
Figure 112020073114912-pat00092
before or
Figure 112020073114912-pat00093
If the washing machine energy consumption is subsequently scheduled, the dissatisfaction cost is added to the cost function, otherwise the cost function includes only the electricity cost.

에어컨의 비용 함수는 다음과 같다. The cost function of the air conditioner is

Figure 112020073114912-pat00094
Figure 112020073114912-pat00094

여기서,

Figure 112020073114912-pat00095
Figure 112020073114912-pat00096
는 소비자의 열적 불편함에 대한 패널티이다. here,
Figure 112020073114912-pat00095
Wow
Figure 112020073114912-pat00096
is a penalty for thermal discomfort of consumers.

불만족 비용은 소비자 선호 온도

Figure 112020073114912-pat00097
Figure 112020073114912-pat00098
Figure 112020073114912-pat00099
의 차이로 정의된다.The cost of dissatisfaction is the consumer's preferred temperature
Figure 112020073114912-pat00097
Wow
Figure 112020073114912-pat00098
and
Figure 112020073114912-pat00099
is defined as the difference between

수학식 20 및 21의 2개의 항은 에너지 비용의 절약과 패널티

Figure 112020073114912-pat00100
Figure 112020073114912-pat00101
에 대한 소비자의 불만족 비용이 트레이드 오프 관계를 가지는 점을 나타낸다. The two terms in Equations (20) and (21) are energy cost savings and penalty
Figure 112020073114912-pat00100
and
Figure 112020073114912-pat00101
It indicates that the cost of consumer dissatisfaction with respect to

트레이드 오프 관계에 따라, 본 실시예에 따른 DRL 알고리즘을 이용하는 HEMS 시스템은 소비자가 전기 비용을 더 많이 절약하거나 소비자가 원하는 편안함과 선호도를 유지하려는 상황에 맞게 패널티를 적응적으로 조정할 수 있다. According to the trade-off relationship, the HEMS system using the DRL algorithm according to the present embodiment may adaptively adjust the penalty according to the situation where the consumer wants to save more electricity cost or the consumer wants to maintain the desired comfort and preference.

이러한 패널티 값의 선택은 소비자가 원하는 편안함 수준과 환경에 따라 달라진다. The choice of these penalty values depends on the comfort level and environment desired by the consumer.

제어할 수 없는 기기의 고정된 부하와 함께 제1 레벨에서 세탁기 및 에어컨의 에너지 소비에 대한 최적 스케줄링이 제2 레벨에서 actor-critic 모듈에 임베드된다. Optimal scheduling of the energy consumption of washing machines and air conditioners at the first level with a fixed load of uncontrollable appliances is embedded in the actor-critic module at the second level.

제2 레벨에서, ESS 및 EV 에이전트는 가정의 전기 비용을 최소화하기 위한 ESS 및 EV의 최적 충방전 스케줄링을 결정하기 위해 학습 과정을 초기화한다. In the second level, the ESS and EV agents initiate a learning process to determine the optimal charging/discharging scheduling of the ESS and EV to minimize household electricity costs.

제2 레벨에서의 학습 과정에서 PV 시스템에 의해 생성된 에너지는 먼저 ESS에 충전되는 것으로 가정한다. It is assumed that the energy generated by the PV system in the learning process at the second level is first charged to the ESS.

제2 레벨에서 ESS 및 EV의 동작을 관리하는 에이전트의 상태 공간은 다음과 같이 정의된다. In the second level, the state space of the agent managing the operation of the ESS and EV is defined as follows.

Figure 112020073114912-pat00102
Figure 112020073114912-pat00102

여기서,

Figure 112020073114912-pat00103
Figure 112020073114912-pat00104
는 각각 ESS 및 EV의 스케줄링 시간, 시간 t에서의 TOU 요금, ESS 및 EV의 SOE, 예측된 PV 생성 출력, 제1 레벨에서 계산된 전체 에너지 소비 스케줄링이다. here,
Figure 112020073114912-pat00103
and
Figure 112020073114912-pat00104
are the scheduling times of the ESS and EV, the TOU fee at time t, the SOE of the ESS and EV, the predicted PV generation output, and the total energy consumption scheduling calculated at the first level, respectively.

상기한 세탁기 및 에어컨과 유사하게, 제2 레벨에서 ESS 및 EV의 행동 공간은 다음과 같이 표현된다. Similar to the washing machine and air conditioner described above, the action spaces of the ESS and EV in the second level are expressed as follows.

Figure 112020073114912-pat00105
Figure 112020073114912-pat00105

여기서,

Figure 112020073114912-pat00106
Figure 112020073114912-pat00107
는 시간 t에서 ESS 및 EV의 연속적인 에너지 충전 및 방전을 나타낸다. here,
Figure 112020073114912-pat00106
and
Figure 112020073114912-pat00107
represents the continuous energy charging and discharging of ESS and EV at time t.

본 실시예에 따른 2 레벨 DRL 기반 HEMS 프레임워크에서, ESS 및 EV 에이전트는 수학식 22의

Figure 112020073114912-pat00108
를 이용하여 최적 충방전 행동을 선택하고,
Figure 112020073114912-pat00109
는 제1 레벨에서 고정 부하를 갖는 제어할 수 없는 기기와 함께 세탁기 및 에어컨의 에이전트의 행동을 포함한다. In the two-level DRL-based HEMS framework according to the present embodiment, the ESS and EV agents are
Figure 112020073114912-pat00108
to select the optimal charging/discharging behavior,
Figure 112020073114912-pat00109
contains the behavior of agents of washing machines and air conditioners with uncontrollable appliances with fixed loads at the first level.

만약 DRL 기반 HEMS 알고리즘이 단일 레벨 프레임워크로 모델링되면 ESS 및 EV를 위한 에이전트는 최적 정책을 찾을 수 없다. 이는 ESS 및 EV가 이들의 상태 공간에서 다른 기기의 에너지 소비량 데이터를 알 수 없기 때문이다. If the DRL-based HEMS algorithm is modeled as a single-level framework, the agent for ESS and EV cannot find an optimal policy. This is because ESS and EV cannot know the energy consumption data of other devices in their state space.

제2 레벨에서의 보상은 전기 비용 및 소비자가 선호하는 편안함과 기기의 동작 특성과 관련된 ESS 및 EV의 불만족의 합계의 음수로 정의된다.Compensation at the second level is defined as the negative of the sum of the cost of electricity and the dissatisfaction of the ESS and EV related to the consumer's preferred comfort and operating characteristics of the appliance.

Figure 112020073114912-pat00110
Figure 112020073114912-pat00110

여기서,

Figure 112020073114912-pat00111
Figure 112020073114912-pat00112
는 ESS와 EV의 비용 함수이다. here,
Figure 112020073114912-pat00111
and
Figure 112020073114912-pat00112
is the cost function of ESS and EV.

각 비용 함수는 ESS 및 EV의 과충전 및 부족충전에 대한 불만족 비용과 함게 기기의 전기 비용을 포함한다. Each cost function includes the cost of electricity for the device, along with the dissatisfaction cost for overcharging and undercharging of ESS and EV.

이들 비용 함수는 ESS 및 EV로부터의 방전 에너지를 포함하고, 이는 세탁기, 에어컨 및 제어할 수 없는 기기의 전체 부하의 커버되지 못한 에너지 소비를 지원한다. These cost functions include the discharge energy from the ESS and EV, which supports the uncovered energy consumption of the full load of washing machines, air conditioners and uncontrollable appliances.

우선, ESS의 비용 함수는 다음과 같이 표현된다. First, the cost function of ESS is expressed as follows.

Figure 112020073114912-pat00113
Figure 112020073114912-pat00113

여기서,

Figure 112020073114912-pat00114
Figure 112020073114912-pat00115
는 ESS 과충전 및 부족충전에 대한 패널티이다. 이러한 경우, ESS의 에너지 부족 이용 및 에너지 소실은 SOE가
Figure 112020073114912-pat00116
보다 낮거나(부족충전) 또는
Figure 112020073114912-pat00117
(과충전)보다 커지면 발생하고, ESS의 에너지 부족 이용 중에 에너지 비용과 함께 보상에 반영된다.here,
Figure 112020073114912-pat00114
Wow
Figure 112020073114912-pat00115
is a penalty for ESS overcharging and undercharging. In this case, the energy shortage use and energy dissipation of the ESS is
Figure 112020073114912-pat00116
lower (undercharge) or
Figure 112020073114912-pat00117
It occurs when it becomes larger than (overcharge) and is reflected in the compensation along with the energy cost during the use of energy shortage of the ESS.

다음으로 EV의 비용 함수는 다음과 같이 표현된다. Next, the cost function of EV is expressed as

Figure 112020073114912-pat00118
Figure 112020073114912-pat00118

Figure 112020073114912-pat00119
Figure 112020073114912-pat00120
는 EV의 과충전 및 부족충전에 대한 패널티이다. ESS와 유사하게, 에너지 부족 이용 및 에너지 소실은 SOE가
Figure 112020073114912-pat00121
보다 낮거나(부족충전) 또는
Figure 112020073114912-pat00122
(과충전)보다 커지면 발생한다. ESS의 보상 함수와는 달리, EV의 보상 함수는 파라미터
Figure 112020073114912-pat00123
를 포함하고, 이는 EV의 소비자의 선호도 패널티를 나타내고, 선호도 패널티는 EV가 출발할 때 소비자가 선호하는 SOE와 EV의 SOE와의 차이이다.
Figure 112020073114912-pat00119
and
Figure 112020073114912-pat00120
is a penalty for overcharging and undercharging of EVs. Similar to ESS, energy scarcity utilization and energy dissipation
Figure 112020073114912-pat00121
lower (undercharge) or
Figure 112020073114912-pat00122
Occurs when it becomes greater than (overcharge). Unlike the reward function of ESS, the reward function of EV is a parameter
Figure 112020073114912-pat00123
, which represents the consumer's preference penalty of EV, and the preference penalty is the difference between the consumer's preferred SOE and the EV's SOE when the EV starts.

만일

Figure 112020073114912-pat00124
가 출발 시간
Figure 112020073114912-pat00125
에서
Figure 112020073114912-pat00126
보다 낮으면 불만족 비용의 부족한 SOE에 따라 증가한다. if
Figure 112020073114912-pat00124
autumn departure time
Figure 112020073114912-pat00125
at
Figure 112020073114912-pat00126
If lower, the cost of dissatisfaction increases with insufficient SOE.

RL 방법과 비교할 때, 정책 그라디언트 접근은 연속적인 행동 공간을 갖는 공학 문제에 적합하다. 일반적으로 연속적인 정책 그라디언트 네트워크는 에이전트로부터 상태 정보를 얻고 정규 분포를 이용하여 적절한 행동을 리턴한다. Compared with the RL method, the policy gradient approach is suitable for engineering problems with a continuous action space. In general, continuous policy gradient networks obtain state information from agents and return appropriate actions using a normal distribution.

이러한 네트워크는 정규 분포를 달성하기 위해 평균과 분산을 산출하고 에이전트는 결과 분포에 따라 랜덤하게 행동을 샘플링한다. These networks compute the mean and variance to achieve a normal distribution, and the agent randomly samples the behavior according to the resulting distribution.

actor-critic 접근에서, 효율과 수렴에 대해 Q-값을 비평하는 부가적인 방법이 추가된다. In the actor-critic approach, an additional method of critique of Q-values for efficiency and convergence is added.

따라서 네트워크는 최적의 동작을 찾기 위해 평균, 분산 및 Q-값을 제공한다. Therefore, the network provides the mean, variance and Q-value to find the optimal behavior.

도 2에 도시된 바와 같이, 각 레벨에 대한 actor-critic 네트워크 모델은 상태 요소를 위한 하나의 입력 레이어, 512 뉴런을 갖는 공통 바디 네트워크에 대한 제1 히든 레이어, 256 뉴런을 갖는 actor 및 critic 네트워크를 위한 제2 및 제3 히든 레이어 및 기기의 동작 스케줄에 관한 평균 및 분산, Q-값을 위한 하나의 출력 레이어를 포함한다. As shown in Figure 2, the actor-critic network model for each level consists of one input layer for state elements, a first hidden layer for common body network with 512 neurons, and actor and critic networks with 256 neurons. 2nd and 3rd hidden layers for , and one output layer for average, variance, and Q-values related to the operation schedule of the device.

본 실시예에서 하이퍼볼릭 탄젠트 함수를 전달 함수로 사용한다. 또한, 적응 모멘트 추정(adaptive moment estimation) 알고리즘이 DRL 모델의 학습을 위해 사용된다. In this embodiment, a hyperbolic tangent function is used as a transfer function. In addition, an adaptive moment estimation algorithm is used for training the DRL model.

도 3의 알고리즘은 에너지 관리 정책을 학습하는 actor-critic 기반 HEMS의 과정을 나타낸 것이고, 제1 레벨 및 제2 레벨에 대한 전기 요금 및 소비자의 편의 수준을 최적화한다. The algorithm of Fig. 3 shows the process of the actor-critic based HEMS learning energy management policy, and optimizes the electricity rate for the first level and the second level and the convenience level of the consumer.

도 3을 참조하면, 제1 레벨 및 제2 레벨 각각에서, 현재 상태에 대한 일련의 행동들을 선택하고, 선택된 행동들 중 하나를 실행하고, 현재 상태 및 다음 상태에 따른 Q-값을 계산한다. Referring to FIG. 3 , in each of a first level and a second level, a series of actions for a current state is selected, one of the selected actions is executed, and a Q-value according to the current state and the next state is calculated.

이후, actor 네트워크 및 critic 네트워크 각각의 손실 함수를 계산하고, 각각의 손실을 버퍼에 저장한다. After that, each loss function of the actor network and the critic network is calculated, and each loss is stored in a buffer.

다음으로 RL 방법에 적용하여 정책 네트워크의 파라미터들을 갱신하며, 상기한 방법을 반복 수행하여 최대의 Q-값을 갖는 최적 정책을 결정한다. Next, the parameters of the policy network are updated by applying the RL method, and the above method is repeatedly performed to determine the optimal policy having the maximum Q-value.

도 4는 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 최적화를 위한 장치의 구성을 도시한 도면이다. 4 is a diagram showing the configuration of an apparatus for optimizing HEMS based on reinforcement learning according to a preferred embodiment of the present invention.

도 4에 도시된 바와 같이, 본 실시예에 따른 강화학습 기반 HEMS 최적화 장치는 프로세서(400) 및 메모리(402)를 포함할 수 있다.As shown in FIG. 4 , the apparatus for optimizing HEMS based on reinforcement learning according to the present embodiment may include a processor 400 and a memory 402 .

프로세서(400)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다. The processor 400 may include a central processing unit (CPU) capable of executing a computer program or other virtual machines.

메모리(402)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(402)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.Memory 402 may include a non-volatile storage device such as a fixed hard drive or a removable storage device. The removable storage device may include a compact flash unit, a USB memory stick, and the like. Memory 402 may also include volatile memory, such as various random access memories.

이와 같은 메모리(402)에는 프로세서(400)에 의해 실행 가능한 프로그램 명령어들이 저장된다.The memory 402 stores program instructions executable by the processor 400 .

본 실시예에 따른 프로그램 명령어들은, actor-critic 네트워크 모델 기반으로 제1 레벨에서, 고정 부하를 갖는 제어할 수 없는 기기, 차단 불가능 시프트 가능 기기 및 줄일 수 있는 기기에 대한 에너지 소비 스케줄링을 수행하고, actor-critic 네트워크 기반으로 제2 레벨에서 상기 제1 레벨에서의 에너지 소비 스케줄링을 고려하여 ESS(Energy Storage System) 및 EV(Electric Vehicle)의 최적 충방전 스케줄링을 수행한다. The program instructions according to this embodiment perform, at the first level, based on the actor-critic network model, energy consumption scheduling for uncontrollable devices with fixed loads, non-blockable shiftable devices and reducible devices, Based on the actor-critic network, the optimal charging/discharging scheduling of ESS (Energy Storage System) and EV (Electric Vehicle) is performed in consideration of the energy consumption scheduling in the first level in the second level.

여기서, 상기 차단 불가능 시프트 가능 기기는 세탁기를 포함하고, 상기 줄일 수 있는 기기는 에어컨을 포함할 수 있다. Here, the non-blockable shiftable device may include a washing machine, and the shrinkable device may include an air conditioner.

또한, 본 실시예에 따른 프로그램 명령어들은, 제1 레벨 및 제2 레벨 각각에서, 각 기기 에이전트의 현재 상태에 대응되는 행동을 선택하고 실행하고, 상기 현재 상태 및 선택된 행동에 따른 Q-값을 계산하며, actor 네트워크 및 critic 네트워크 각각의 손실 함수를 계산하고, 상기한 과정을 반복 수행하여 최대의 Q-값을 갖는 최적 정책을 결정한다.In addition, the program instructions according to this embodiment select and execute an action corresponding to the current state of each device agent at each of the first level and the second level, and calculate a Q-value according to the current state and the selected action and calculates the loss function of each of the actor network and the critic network, and repeats the above process to determine the optimal policy with the maximum Q-value.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.The above-described embodiments of the present invention have been disclosed for the purpose of illustration, and various modifications, changes, and additions will be possible within the spirit and scope of the present invention by those skilled in the art having ordinary knowledge of the present invention, and such modifications, changes and additions should be regarded as belonging to the following claims.

Claims (7)

DRL(Deep Reinforce Learning) 기반 HEMS(Home Energy Management System) 최적화 장치로서,
프로세서; 및
상기 프로세서에 연결되는 메모리를 포함하되,
actor-critic 네트워크 기반으로 제1 레벨에서, 전력 공급 회사의 TOU(time-to-use) 요금, 기상청의 날씨정보(예를 들어, 외부 온도) 및 소비자의 편의 수준 및 분산 에너지 자원을 고려하여 고정 부하를 갖는 제어할 수 없는 기기, 차단 불가능 시프트 가능 기기 및 줄일 수 있는 기기에 대한 에너지 소비 스케줄링을 수행하고,
actor-critic 네트워크 기반으로 제2 레벨에서 상기 제1 레벨에서의 에너지 소비 스케줄링을 고려하여 ESS(Energy Storage System) 및 EV(Electric Vehicle)의 최적 충방전 스케줄링을 수행하도록,
상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되,
상기 프로그램 명령어들은,
상기 제1 레벨 및 제2 레벨 각각에서, 각 기기 에이전트의 현재 상태에 대응되는 행동을 선택하고 실행하고, 상기 현재 상태 및 선택된 행동에 따른 Q-값을 계산하며, actor 네트워크 및 critic 네트워크 각각의 손실 함수를 계산하고, 상기한 과정을 반복 수행하여 최대의 Q-값을 갖는 최적 정책을 결정하며,
각 기기 에이전트에 대한 보상 함수는 소비자 선호 편의 및 기기 동작 특성과 관련된 음(negative) 전기 비용 및 음의 불만족 비용의 합으로 공식화되고,
상기 ESS 및 EV의 각 에이전트의 상태 공간은 상기 ESS 및 EV의 스케줄링 시간, 시간 t에서의 TOU 요금, 상기 ESS 및 EV의 에너지 상태, 예측된 PV 생성 출력, 상기 제1 레벨에서 계산된 전체 에너지 소비 스케줄링으로 정의되고,
상기 ESS 및 EV의 각 에이전트의 행동 공간은 시간 t에서 상기 ESS 및 EV의 연속적인 에너지 충전 및 방전으로 정의되고,
상기 제1 레벨에서 계산된 전체 에너지 소비 스케줄링은 상기 제1 레벨에서 상기 고정 부하를 갖는 제어할 수 없는 기기, 차단 불가능 시프트 가능 기기 및 줄일 수 있는 기기의 에이전트의 행동을 포함하는 DRL 기반 HEMS 최적화 장치.
As a DRL (Deep Reinforce Learning) based HEMS (Home Energy Management System) optimization device,
processor; and
a memory coupled to the processor;
At the first level based on the actor-critic network, the TOU (time-to-use) rate of the power supply company, the weather information of the Meteorological Agency (eg outside temperature), and the convenience level of consumers and the distributed energy resource are fixed in consideration of the perform energy consumption scheduling for uncontrollable devices with load, non-blockable shiftable devices, and devices that can be reduced;
To perform optimal charging/discharging scheduling of ESS (Energy Storage System) and EV (Electric Vehicle) in consideration of the energy consumption scheduling in the first level in the second level based on the actor-critic network,
Stores program instructions executable by the processor,
The program instructions are
In each of the first level and the second level, select and execute an action corresponding to the current state of each device agent, calculate a Q-value according to the current state and the selected action, and lose each of the actor network and the critic network Calculate the function, repeat the above process to determine the optimal policy with the maximum Q-value,
The reward function for each device agent is formulated as the sum of negative electricity costs and negative dissatisfaction costs related to consumer preference convenience and device operating characteristics,
The state space of each agent of the ESS and EV includes the scheduling time of the ESS and EV, the TOU fee at time t, the energy state of the ESS and EV, the predicted PV generation output, and the total energy consumption calculated at the first level. Scheduling is defined as
The action space of each agent of the ESS and EV is defined as the continuous energy charging and discharging of the ESS and EV at time t,
The total energy consumption scheduling calculated in the first level is a DRL-based HEMS optimization device including the actions of agents of uncontrollable devices, non-blockable shiftable devices and reduceable devices with the fixed load in the first level. .
제1항에 있어서,
상기 차단 불가능 시프트 가능 기기는 세탁기를 포함하고, 상기 줄일 수 있는 기기는 에어컨을 포함하는 DRL 기반 HEMS 최적화 장치.
According to claim 1,
The non-blockable shiftable device includes a washing machine, and the shrinkable device includes an air conditioner.
삭제delete 제1항에 있어서,
상기 actor-critic 네트워크 모델은, 하나의 입력 레이어, 2n개의 뉴런을 갖는 제1 히든 레이어, n개의 뉴런을 갖는 actor 네트워크에 상응하는 제2 히든 레이어 및 n개의 뉴런을 갖는 critic 네트워크에 상응하는 제3 히든 레이어 및 기기의 동작 스케줄에 관한 평균 및 분산, Q-값을 출력하는 출력 레이어를 포함하는 DRL 기반 HEMS 최적화 장치.
According to claim 1,
The actor-critic network model has one input layer, a first hidden layer with 2n neurons, a second hidden layer corresponding to an actor network with n neurons, and a third corresponding to a critic network with n neurons. A DRL-based HEMS optimization apparatus including a hidden layer and an output layer for outputting mean, variance, and Q-values related to an operation schedule of a device.
프로세서 및 메모리를 포함하는 장치에서 DRL(Deep Reinforce Learning) 기반으로 HEMS(Home Energy Management System)를 최적화하는 방법으로서,
(a) actor-critic 네트워크 모델 기반으로 제1 레벨에서, 전력 공급 회사의 TOU(time-to-use) 요금, 기상청의 날씨정보(예를 들어, 외부 온도) 및 소비자의 편의 수준 및 분산 에너지 자원을 고려하여 고정 부하를 갖는 제어할 수 없는 기기, 차단 불가능 시프트 가능 기기 및 줄일 수 있는 기기에 대한 에너지 소비 스케줄링을 수행하는 단계; 및
(b) actor-critic 네트워크 기반으로 제2 레벨에서 상기 제1 레벨에서의 에너지 소비 스케줄링을 고려하여 ESS(Energy Storage System) 및 EV(Electric Vehicle)의 최적 충방전 스케줄링을 수행하는 단계를 포함하되,
상기 (a) 단계 및 (b) 단계 각각은, 각 기기 에이전트의 현재 상태에 대응되는 행동을 선택하고 실행하고, 상기 현재 상태 및 선택된 행동에 따른 Q-값을 계산하며, actor 네트워크 및 critic 네트워크 각각의 손실 함수를 계산하고, 상기한 과정을 반복 수행하여 최대의 Q-값을 갖는 최적 정책을 결정하며,
각 기기 에이전트에 대한 보상 함수는 소비자 선호 편의 및 기기 동작 특성과 관련된 음(negative) 전기 비용 및 음의 불만족 비용의 합으로 공식화되고,
상기 ESS 및 EV의 각 에이전트의 상태 공간은 상기 ESS 및 EV의 스케줄링 시간, 시간 t에서의 TOU 요금, 상기 ESS 및 EV의 에너지 상태, 예측된 PV 생성 출력, 상기 제1 레벨에서 계산된 전체 에너지 소비 스케줄링으로 정의되고,
상기 ESS 및 EV의 각 에이전트의 행동 공간은 시간 t에서 상기 ESS 및 EV의 연속적인 에너지 충전 및 방전으로 정의되고,
상기 제1 레벨에서 계산된 전체 에너지 소비 스케줄링은 상기 제1 레벨에서 상기 고정 부하를 갖는 제어할 수 없는 기기, 차단 불가능 시프트 가능 기기 및 줄일 수 있는 기기의 에이전트의 행동을 포함하는 DRL 기반 HEMS 최적화 방법.
A method of optimizing a Home Energy Management System (HEMS) based on Deep Reinforce Learning (DRL) in a device comprising a processor and memory, the method comprising:
(a) At the first level based on the actor-critic network model, the time-to-use (TOU) rate of the power supply company, the weather information of the Meteorological Administration (eg outside temperature) and the level of convenience of consumers and distributed energy resources performing energy consumption scheduling for uncontrollable devices, non-blockable shiftable devices, and reducible devices with a fixed load taking into account; and
(b) performing optimal charge/discharge scheduling of ESS (Energy Storage System) and EV (Electric Vehicle) in consideration of the energy consumption scheduling in the first level in the second level based on the actor-critic network,
Each of the steps (a) and (b) selects and executes an action corresponding to the current state of each device agent, calculates a Q-value according to the current state and the selected action, respectively, an actor network and a critic network Calculate the loss function of , repeat the above process to determine the optimal policy with the maximum Q-value,
The reward function for each device agent is formulated as the sum of negative electricity costs and negative dissatisfaction costs related to consumer preference convenience and device operating characteristics,
The state space of each agent of the ESS and EV is the scheduling time of the ESS and EV, the TOU fee at time t, the energy state of the ESS and EV, the predicted PV generation output, and the total energy consumption calculated at the first level. Scheduling is defined as
The action space of each agent of the ESS and EV is defined as the continuous energy charging and discharging of the ESS and EV at time t,
The total energy consumption scheduling calculated in the first level is a DRL-based HEMS optimization method comprising the actions of agents of uncontrollable devices, non-blockable shiftable devices and reduceable devices with the fixed load in the first level .
제5항에 있어서,
상기 차단 불가능 시프트 가능 기기는 세탁기를 포함하고, 상기 줄일 수 있는 기기는 에어컨을 포함하는 DRL 기반 HEMS 최적화 방법.
6. The method of claim 5,
The non-blockable shiftable device includes a washing machine, and the shrinkable device includes an air conditioner.
제5항에 따른 방법을 수행하는 컴퓨터 판독 가능한 프로그램.
A computer readable program for performing the method according to claim 5 .
KR1020200086815A 2020-07-14 2020-07-14 HEMS optimization method and apparatus using hierarchical deep reinforcement learning Active KR102463146B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200086815A KR102463146B1 (en) 2020-07-14 2020-07-14 HEMS optimization method and apparatus using hierarchical deep reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200086815A KR102463146B1 (en) 2020-07-14 2020-07-14 HEMS optimization method and apparatus using hierarchical deep reinforcement learning

Publications (2)

Publication Number Publication Date
KR20220008565A KR20220008565A (en) 2022-01-21
KR102463146B1 true KR102463146B1 (en) 2022-11-03

Family

ID=80050360

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200086815A Active KR102463146B1 (en) 2020-07-14 2020-07-14 HEMS optimization method and apparatus using hierarchical deep reinforcement learning

Country Status (1)

Country Link
KR (1) KR102463146B1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102790691B1 (en) * 2022-02-08 2025-04-02 충북대학교 산학협력단 Operation Method for Power of energy storage system and Power Management Device using the same
CN114744651A (en) * 2022-03-15 2022-07-12 长园深瑞继保自动化有限公司 Energy storage system management method and device based on deep reinforcement learning
KR102476028B1 (en) 2022-04-29 2022-12-08 경북대학교 산학협력단 Method and system for solar energy management using deep reinforcement learning
CN114844083B (en) * 2022-05-27 2023-02-17 深圳先进技术研究院 A charging and discharging management method for electric vehicle clusters to improve the stability of energy storage system
KR102803358B1 (en) * 2022-09-05 2025-05-07 중앙대학교 산학협력단 Management method and apparatus for maximizing profits in multiple EVCS
CN115566669A (en) * 2022-10-08 2023-01-03 河海大学 Smart Home Energy Scheduling Method Based on Jaya Algorithm
KR102837729B1 (en) * 2022-12-16 2025-07-24 한국에너지기술연구원 Method and apparatus for heat pump control based on reinforcement learning and air conditioning system using the same
CN118367567A (en) * 2024-03-06 2024-07-19 浙江大学 Near-end strategy optimization method based on deep reinforcement learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014165998A (en) * 2013-02-22 2014-09-08 Misawa Homes Co Ltd Home energy management system
KR101870250B1 (en) * 2017-03-30 2018-06-25 한국에너지기술연구원 Nonintrusive appliance load monitoring device and method
JP2019031268A (en) 2017-05-12 2019-02-28 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド Control policy learning and vehicle control method based on reinforcement learning without active exploration
JP2019138602A (en) * 2018-02-15 2019-08-22 株式会社日立製作所 Operation plan generation device and operation plan generation method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9513648B2 (en) 2012-07-31 2016-12-06 Causam Energy, Inc. System, method, and apparatus for electric power grid and network management of grid elements

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014165998A (en) * 2013-02-22 2014-09-08 Misawa Homes Co Ltd Home energy management system
KR101870250B1 (en) * 2017-03-30 2018-06-25 한국에너지기술연구원 Nonintrusive appliance load monitoring device and method
JP2019031268A (en) 2017-05-12 2019-02-28 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド Control policy learning and vehicle control method based on reinforcement learning without active exploration
JP2019138602A (en) * 2018-02-15 2019-08-22 株式会社日立製作所 Operation plan generation device and operation plan generation method

Also Published As

Publication number Publication date
KR20220008565A (en) 2022-01-21

Similar Documents

Publication Publication Date Title
KR102463146B1 (en) HEMS optimization method and apparatus using hierarchical deep reinforcement learning
AlSkaif et al. Reputation-based joint scheduling of households appliances and storage in a microgrid with a shared battery
Ma et al. Residential load scheduling in smart grid: A cost efficiency perspective
Dusparic et al. Multi-agent residential demand response based on load forecasting
Ding et al. A safe reinforcement learning approach for multi-energy management of smart home
Özkan A new real time home power management system
US20150057820A1 (en) Building energy management optimization
CN114841409A (en) Household energy management method and medium combining LSTM and deep reinforcement learning
Roy et al. Optimization in load scheduling of a residential community using dynamic pricing
Dewangan et al. An improved decentralized scheme for incentive-based demand response from residential customers
CN117057553A (en) Deep reinforcement learning-based household energy demand response optimization method and system
Pereira et al. A fuzzy clustering approach to a demand response model
Alizadeh et al. Grid integration of distributed renewables through coordinated demand response
US11436691B2 (en) Systems and methods of managing energy cost of a building
CN117621898A (en) Intelligent parking lot charging pile charging control method and system considering power grid electricity price
Alfaverh et al. Plugged-in electric vehicle-assisted demand response strategy for residential energy management
Paterakis et al. Optimal operation of smart houses by a real-time rolling horizon algorithm
Ali et al. Optimal appliance management system with renewable energy integration for smart homes
KR102480521B1 (en) HEMS optimization method and device using reinforcement learning
Stoyanova et al. Model predictive control for cooperative energy management at city-district level
KR102715322B1 (en) Multi-smart home energy management method and system based on federated reinforcement learning
CN115759611A (en) A Smart Home Energy Management Method Based on Deep Reinforcement Learning
Chouikhi et al. Energy demand scheduling based on game theory for microgrids
Zhang et al. Structure-aware stochastic load management in smart grids
Xu et al. Research on a demand response interactive scheduling model of home load groups

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20200714

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20220408

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20221019

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20221101

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20221101

End annual number: 3

Start annual number: 1

PG1601 Publication of registration