DE102011076969B4 - Method for computer-aided learning of a control and / or control of a technical system - Google Patents
Method for computer-aided learning of a control and / or control of a technical system Download PDFInfo
- Publication number
- DE102011076969B4 DE102011076969B4 DE201110076969 DE102011076969A DE102011076969B4 DE 102011076969 B4 DE102011076969 B4 DE 102011076969B4 DE 201110076969 DE201110076969 DE 201110076969 DE 102011076969 A DE102011076969 A DE 102011076969A DE 102011076969 B4 DE102011076969 B4 DE 102011076969B4
- Authority
- DE
- Germany
- Prior art keywords
- technical system
- hidden
- state
- states
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000009471 action Effects 0.000 claims abstract description 93
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 238000005457 optimization Methods 0.000 claims abstract description 41
- 230000000306 recurrent effect Effects 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013256 coordination polymer Substances 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 17
- 210000002569 neuron Anatomy 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000001276 controlling effect Effects 0.000 claims description 6
- 238000002485 combustion reaction Methods 0.000 claims description 5
- 239000003344 environmental pollutant Substances 0.000 claims description 5
- 231100000719 pollutant Toxicity 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 238000010408 sweeping Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 2
- 230000003014 reinforcing effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000006399 behavior Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems (T), wobei das technische System für mehrere Zeitpunkte jeweils durch einen Zustand (Zt) und eine am technischen System durchgeführten Aktion (at) charakterisiert wird. Dabei werden versteckte Zustände (st) des technischen Systems mit Hilfe eines rekurrenten neuronalen Netzes (NN) basierend auf Trainingsdaten umfassend bekannte Zustände und Aktionen geschätzt, wobei im Rahmen der Zustandsschätzung ein erstes Optimierungsziel (TSE) berücksichtigt wird, welches durch die Ausgangsschicht (O) des rekurrenten neuronalen Netzes repräsentiert wird. Anschließend wird auf den versteckten Zuständen (st) eine Aktionsauswahlregel (CP) mit einem Lern- und/oder Optimierungsverfahren gelernt, wobei die gelernte Aktionsauswahlregel bei der Steuerung und/oder Regelung des technischen Systems eingesetzt wird. Erfindungsgemäß wird im Rahmen der Zustandsschätzung eine Diskretisierung der versteckten Zustände (st) durch die Optimierung eines zweiten Optimierungsziel (TVQ) durchgeführt, welches derart ausgestaltet ist, dass die Abweichung eines diskreten versteckten Zustands (sc) von einem kontinuierlich versteckten Zustand (sc) möglichst gering ist. Auf diese Weise wird eine gute Modellierung des technischen Systems durch diskrete Zustände erreicht. Dabei können im nachfolgenden Lernen der Aktionsauswahlregel robuste diskrete bestärkende Lernverfahren, wie z. B. dynamische Programmierung, eingesetzt werden. Das erfindungsgemäße Verfahren kann z. B. zum Lernen einer Regelung bzw. Steuerung einer Gasturbine oder Windturbine genutzt werden.The invention relates to a method for computer-assisted learning of a control and / or control of a technical system (T), wherein the technical system is characterized for a plurality of points in time by a state (Zt) and an action (at) performed on the technical system. Hidden states (st) of the technical system are estimated with the help of a recurrent neural network (NN) based on training data comprising known states and actions, whereby in the state estimation a first optimization target (TSE) is taken into account, which is represented by the output layer (O). the recurrent neural network is represented. Subsequently, an action selection rule (CP) is learned on the hidden states (st) with a learning and / or optimization method, the learned action selection rule being used in the control and / or regulation of the technical system. According to the invention, a discretization of the hidden states (st) is carried out as part of the state estimation by the optimization of a second optimization target (TVQ), which is designed such that the deviation of a discrete hidden state (sc) from a continuously hidden state (sc) is as small as possible is. In this way, a good modeling of the technical system is achieved by discrete states. In the subsequent learning of the action selection rule, robust discrete reinforcing learning methods, such as eg. As dynamic programming, are used. The inventive method can, for. B. be used to learn a scheme or control of a gas turbine or wind turbine.
Description
Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems sowie ein entsprechendes Computerprogrammprodukt.The invention relates to a method for computer-aided learning of a control and / or control of a technical system and a corresponding computer program product.
Heutzutage weisen technische Systeme in der Regel eine hohe Komplexität auf, d. h. sie werden durch Zustände mit einer Vielzahl von Zustandsvariablen beschrieben. Ferner können an dem technischen System viele unterschiedliche Aktionen basierend auf entsprechenden Aktionsvariablen durchgeführt werden. Die Zustandsvariablen sind hierbei insbesondere messbare Zustandsgrößen des technischen Systems, wie z. B. physikalischen Größen, wie Druck, Temperatur, Leistung und dergleichen. Die Aktionsvariablen stellen insbesondere einstellbare Größen des technischen Systems dar, wie z. B. die Zufuhr von Brennstoff zu Brennkammern in Gasturbinen.Today, technical systems tend to be highly complex, i. H. they are described by states with a variety of state variables. Furthermore, many different actions can be performed on the technical system based on corresponding action variables. The state variables are here in particular measurable state variables of the technical system, such. Physical quantities such as pressure, temperature, power and the like. The action variables represent in particular adjustable sizes of the technical system, such. B. the supply of fuel to combustion chambers in gas turbines.
Bei der Steuerung von komplexen technischen Systemen werden oftmals rechnergestützte Verfahren verwendet, welche das dynamische zeitliche Verhalten des technischen Systems unter Berücksichtigung vorbestimmter Kriterien optimieren. Im Rahmen solcher Lernverfahren wird das Verhalten des technischen Systems basierend auf Trainingsdaten durch ein rekurrentes neuronales Netz modelliert, wobei das rekurrente neuronale Netz eine rekurrente versteckte Schicht aufweist, mit der versteckte Zustände des technischen Systems geschätzt werden. Die geschätzten Zustände werden dann dazu benutzt, um eine geeignete Aktionsauswahlregel zu lernen, wobei hierzu vorzugsweise bestärkende Lernverfahren (Reinforcement Learning) eingesetzt werden. Mit der gelernten Aktionsauswahlregel wird dann im Betrieb des technischen Systems für den aktuellen Zustand und gegebenenfalls vergangene Zustände des technischen Systems die durchzuführende Aktion bestimmt. Die Aktion ist dabei in geeigneter Weise an den gewünschten Betrieb des technischen Systems angepasst. Insbesondere wird beim Lernen der Aktionsauswahlregel ein geeignetes Bewertungssignal berücksichtigt, wobei dieses Signal jede Aktion bewertet und das dynamische Verhalten des technischen Systems um so besser ist, je höher die Bewertung gemäß dem Bewertungssignal ist.In the control of complex technical systems often computer-aided methods are used, which optimize the dynamic temporal behavior of the technical system, taking into account predetermined criteria. In the context of such learning methods, the behavior of the technical system based on training data is modeled by a recurrent neural network, the recurrent neural network having a recurrent hidden layer, which estimates hidden states of the technical system. The estimated states are then used to learn an appropriate action selection rule, preferably using reinforcement learning (Reinforcement Learning). With the learned action selection rule, the action to be performed is then determined during operation of the technical system for the current state and possibly past states of the technical system. The action is suitably adapted to the desired operation of the technical system. In particular, when learning the action selection rule, a suitable evaluation signal is taken into account, which signal evaluates each action and the better the rating according to the evaluation signal, the better the dynamic behavior of the technical system.
Oftmals liegen die Zustände eines technischen Systems und gegebenenfalls auch die Aktionen als kontinuierliche Zustands- bzw. Aktionsvariablen vor, so dass im Rahmen der Zustandsschätzung mit einem rekurrenten neuronalen Netz auch kontinuierliche versteckte Zustände generiert werden. Um beim anschließenden Lernen der Aktionsauswahlregel robuste Lernverfahren einzusetzen, welche diskrete Zustände verarbeiten, ist es aus dem Stand der Technik bekannt, in einem separaten Diskretisierungs-Schritt die einzelnen Zustandsvariablen der versteckten Zustände zu diskretisieren. Hierzu werden z. B. Vektorquantisierungs-Verfahren eingesetzt, wie äquidistantes Binning, K-Means-Clustering, selbst-organisierende Karten und dergleichen. Es erweist sich hierbei als nachteilig, dass durch diese Diskretisierung die dynamischen Aspekte der Zustandsschätzung nicht mit berücksichtigt werden, was zum Auftreten von Fehlern in der Zustandsschätzung und somit auch zu Fehlern beim anschließenden Lernen der Aktionsauswahlregel führen kann. Dies verschlechtert wiederum die Regelung bzw. Steuerung des technischen Systems basierend auf der gelernten Aktionsauswahlregel.Often, the states of a technical system and possibly also the actions are available as continuous state variables or action variables, so that as part of the state estimation with a recurrent neural network, continuous hidden states are also generated. In order to use robust learning methods which process discrete states during subsequent learning of the action selection rule, it is known from the prior art to discretize the individual state variables of the hidden states in a separate discretization step. For this purpose, for. As vector quantization methods are used, such as equidistant binning, K-means clustering, self-organizing maps and the like. It proves to be disadvantageous that this discretization does not take into account the dynamic aspects of the state estimation, which can lead to the occurrence of errors in the state estimation and thus also to errors in the subsequent learning of the action selection rule. This, in turn, degrades the control of the technical system based on the learned action selection rule.
Die Druckschrift
In der Druckschrift A. Hans, S. Udluft: Uncertainty Propagation for Efficient Exploration in Reinforcement Learning. Amsterdam, The Netherlands: IOS Press, 2010 (Proc. 19th European Conf. an Artificial Intelligence 2010, Lisbon, Portugal wird die Exploration eines Zustandraums basierend auf einer Aktionsauswahregel beschrieben, welche eine Belohnung maximiert.In the publication A. Hans, S. Udluft: Uncertainty Propagation for Efficient Exploration in Reinforcement Learning. Amsterdam, The Netherlands: IOS Press, 2010 (Proc 19 th European Conf .: Artificial Intelligence 2010, Lisbon, Portugal) describes the exploration of a state space based on an action reminder that maximizes a reward.
In der Druckschrift
Aufgabe der Erfindung ist es, ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems zu schaffen, welches das technische System gut modelliert und basierend darauf eine Aktionsauswahlregel zur Steuerung bzw. Regelung des technischen Systems lernt.The object of the invention is to provide a method for computer-aided learning of a control and / or control of a technical system, which models the technical system well and learns based on an action selection rule for controlling or regulating the technical system.
Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.This object is solved by the independent claims. Further developments of the invention are defined in the dependent claims.
Das erfindungsgemäße Verfahren dient zum Lernen einer Regelung bzw. Steuerung eines technischen Systems, welches für mehrere Zeitpunkte jeweils durch einen Zustand mit einer Anzahl von kontinuierlichen Zustandsvariablen und eine am technischen System durchgeführte Aktion mit einer Anzahl von (kontinuierlichen oder ggf. auch diskreten) Aktionsvariablen charakterisiert wird.The method according to the invention is used for learning a control or regulation of a technical system which for several points in time respectively characterizes by a state with a number of continuous state variables and an action performed on the technical system with a number of (continuous or optionally also discrete) action variables becomes.
Im erfindungsgemäßen Verfahren werden versteckte Zustände des technischen Systems mit einer Anzahl von versteckten Variablen durch die Optimierung eines ersten Optimierungsziels mittels eines rekurrenten neuronalen Netzes basierend auf Trainingsdaten umfassend bekannte Zustände und Aktionen geschätzt. Das rekurrente neuronale Netz ist dabei gebildet durch wenigstens eine Eingangsschicht umfassend Zustände des technischen Systems und die am technischen System durchgeführten Aktionen, wenigstens eine versteckte rekurrente Schicht umfassend die versteckten Zustände des technischen Systems und wenigstens eine Ausgangsschicht umfassend Zustände, welche das erste Optimierungsziel repräsentieren. Das rekurrente neuronale Netz modelliert somit das zeitliche Verhalten des technischen Systems basierend auf den zeitlich aufeinander folgenden Zuständen und Aktionen. Die Zustandsschätzung liefert dabei für den aktuellen Zeitpunkt die Schätzung eines versteckten Zustands. Die Schätzung ist dabei insbesondere derart ausgestaltet, dass die sog. Markov-Eigenschaft erfüllt ist, wonach der Folgezustand eines versteckten Zustands nur von der ausgeführten Aktion und dem momentanen versteckten Zustand abhängt.In the method according to the invention hidden states of the technical system with estimating a number of hidden variables by optimizing a first optimization target by means of a recurrent neural network based on training data comprising known states and actions. The recurrent neural network is formed by at least one input layer comprising states of the technical system and the actions performed on the technical system, at least one hidden recurrent layer comprising the hidden states of the technical system and at least one output layer comprising states representing the first optimization target. The recurrent neural network thus models the temporal behavior of the technical system based on the temporally successive states and actions. The state estimation provides the estimation of a hidden state for the current time. The estimation is in particular designed in such a way that the so-called Markov property is satisfied, according to which the subsequent state of a hidden state depends only on the executed action and the current hidden state.
Das erfindungsgemäße Verfahren zeichnet sich dadurch aus, dass im Rahmen der soeben beschriebenen Schätzung der versteckten Zustände eine Diskretisierung der Werte der versteckten Variablen dieser Zustände durch die Optimierung eines weiteren zweiten Optimierungsziels durchgeführt wird, welches derart ausgestaltet ist, dass die (betragsmäßige) Abweichung eines diskreten versteckten Zustands von einem kontinuierlichen versteckten Zustand möglichst gering ist. Dieses Optimierungsziel kann im rekurrenten neuronalen Netzes durch ein entsprechendes Target-Cluster repräsentiert werden. Im Unterschied zu herkömmlichen Verfahren, bei denen die Diskretisierung unabhängig von der Zustandsschätzung in einem nachgeschalteten Schritt durchgeführt wird, berücksichtigt das erfindungsgemäße Verfahren das Problem der Diskretisierung bereits bei der Zustandsschätzung. Somit fließt die Dynamik des technischen Systems bei der Diskretisierung mit ein und kann in Bezug auf den diskreten Raum der versteckten Zustände modelliert werden. Auf diese Weise wird eine gute Modellierung des Verhaltens des technischen Systems basierend auf Trainingsdaten erreicht, wobei insbesondere eine verbesserte Zustandsschätzung erreicht wird, welche sehr gut die Markov-Eigenschaft erfüllt.The method according to the invention is characterized in that in the context of the just-described hidden state estimation, the values of the hidden variables of these states are discretized by the optimization of a further second optimization target, which is designed such that the (absolute) deviation of a discrete one hidden state of a continuous hidden state is as low as possible. This optimization target can be represented in the recurrent neural network by a corresponding target cluster. In contrast to conventional methods, in which the discretization is carried out independently of the state estimation in a subsequent step, the method according to the invention takes into account the problem of discretization already in the state estimation. Thus, the dynamics of the technical system are included in the discretization and can be modeled with respect to the discrete space of the hidden states. In this way, a good modeling of the behavior of the technical system based on training data is achieved, in particular achieving an improved state estimation which very well satisfies the Markov property.
Nach der Zustandsschätzung wird im Rahmen des erfindungsgemäßen Verfahrens auf den geschätzten versteckten (diskreten) Zuständen eine Aktionsauswahlregel mit einem Lern- und/oder Optimierungsverfahren gelernt, wobei die gelernte Aktionsauswahlregel bei der Steuerung und/oder Regelung des technischen Systems eine am technischen System durchzuführende Aktion in Abhängigkeit von einem oder mehreren Zuständen des technischen Systems angibt. Durch die verbesserte erfindungsgemäße Zustandsschätzung wird dabei gewährleistet, dass auch das nachfolgende Lernen der Aktionsauswahlregel verbessert wird. Zum Lernen der Aktionsauswahlregel können an sich bekannte Verfahren eingesetzt werden, insbesondere können maschinelle Lernverfahren, und vorzugsweise bestärkende Lernverfahren verwendet werden. Erfindungsgemäß ist es dabei von Vorteil, dass robuste und theoretisch gut verstandene diskrete Lernverfahren (d. h. Verfahren, die auf diskreten versteckten Zuständen arbeiten) zum Einsatz kommen können. Bevorzugte Varianten von verwendeten Lernverfahren sind dynamische Programmierung und/oder Prioritized Sweeping und/oder Q-Learning und/oder SARSA (SARSA = State-Action-Reward-State-Action). All diese Verfahren sind hinlänglich aus dem Stand der Technik bekannt und werden deshalb nicht weiter im Detail beschrieben.After the state estimation, an action selection rule with a learning and / or optimization method is learned in the context of the inventive method on the estimated hidden (discrete) states, wherein the learned action selection rule in the control and / or regulation of the technical system is an action to be performed on the technical system Indicates dependence on one or more states of the technical system. The improved state estimation according to the invention ensures that the subsequent learning of the action selection rule is also improved. For learning the action selection rule, methods known per se can be used, in particular, machine learning methods, and preferably strengthening learning methods can be used. It is advantageous in accordance with the invention that robust and theoretically well-understood discrete learning methods (that is, methods that work on discrete hidden states) can be used. Preferred variants of learning methods used are dynamic programming and / or prioritized sweeping and / or Q-learning and / or SARSA (State Action Reward State Action). All of these methods are well known in the art and therefore will not be described in further detail.
In einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens wird das technische System ferner durch Bewertungssignale, welche jeweils von einem Zustand des technischen Systems und der in diesem Zustand durchgeführten Aktion abhängen, charakterisiert, wobei die Trainingsdaten, mit denen die Zustandsschätzung durchgeführt wird, entsprechende bekannte Bewertungssignale für die jeweiligen bekannten Zustände und Aktionen umfassen. Diese Bewertungssignale werden insbesondere auch im Lern- bzw. Optimierungsverfahren zum Lernen der Aktionsauswahlregel verwendet, so dass die gelernte Aktionsauswahlregel derart ausgestaltet ist, dass die Aktionen im Hinblick auf ein optimales Bewertungssignal ausgeführt werden. Das Bewertungssignal beschreibt somit einen gemäß bestimmten Kriterien optimalen Betrieb des technischen Systems. Beispielsweise kann das Bewertungssignal derart ausgestaltet sein, dass hiermit ein Betrieb mit einem hohen Wirkungsgrad bzw. geringer Schadstoffemission bzw. geringer mechanischer Belastung erreicht wird.In a particularly preferred variant of the method according to the invention, the technical system is further characterized by evaluation signals, which in each case depend on a state of the technical system and the action performed in this state, wherein the training data, with which the state estimation is performed, corresponding known evaluation signals for include the respective known states and actions. In particular, these evaluation signals are also used in the learning or optimization method for learning the action selection rule, so that the learned action selection rule is configured in such a way that the actions are carried out with regard to an optimal evaluation signal. The evaluation signal thus describes an optimal operation of the technical system according to certain criteria. For example, the evaluation signal can be designed such that an operation with a high degree of efficiency or a low pollutant emission or a low mechanical load is achieved hereby.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens umfasst die Ausgangsschicht des rekurrenten neuronalen Netzes zumindest einen Teil der Zustandsvariablen der Zustände und/oder zumindest einen Teil der Aktionsvariablen der Aktionen. Das erste Optimierungsziel gemäß der Zustandsschätzung wird dabei durch eine geringe Abweichung der (zukünftigen) Zustände bzw. Aktionen gemäß Trainingsdaten von den über das Netz prognostizierten Zuständen bzw. Aktionen beschrieben. Ebenso kann das Optimierungsziel durch eine geringe Abweichung zwischen den (zukünftigen) tatsächlichen Bewerungssignalen gemäß den Trainingsdaten und den über das rekurrente neuronale Netz prognostizierten Bewertungssignalen beschrieben werden.In a further embodiment of the method according to the invention, the output layer of the recurrent neural network comprises at least a part of the state variables of the states and / or at least part of the action variables of the actions. The first optimization target according to the state estimation is described here by a slight deviation of the (future) states or actions according to training data from the states or actions predicted via the network. Likewise, the optimization goal may be described by a small deviation between the (future) actual validation signals according to the training data and the evaluation signals predicted via the recurrent neural network.
In einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens umfasst die wenigstens eine Ausgangsschicht des rekurrenten neuronalen Netzes ausschließlich Bewertungssignale oder ausschließlich solche Zustands- und/oder Aktionsvariablen, welche die Bewertungssignale beeinflussen. Auf diese Weise wird ein Markov-Entscheidungsprozess-Extraktions-Netzwerk geschaffen, das im Wesentlichen dem Netzwerk aus der
Die oben beschriebenen Bewertungssignale können in dem erfindungsgemäßen Verfahren auf verschiedene Art und Weise repräsentiert werden. Z. B. können die Bewertungssignale durch eine Bewertungsfunktion repräsentiert sein, welche von einem Teil der Zustands- und/oder Aktionsvariablen abhängen.The evaluation signals described above can be represented in the method according to the invention in various ways. For example, the evaluation signals may be represented by an evaluation function that depends on a portion of the state and / or action variables.
In einer weiteren, besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens sind das erste und das zweite Optimierungsziel in einer gemeinsamen zu optimierenden Kostenfunktion als Summanden, insbesondere als gewichtete Summanden, enthalten. Durch die Einstellung der Gewichte der Summanden kann dabei berücksichtigt werden, wie stark die Diskretisierung im Rahmen der Zustandsschätzung als Parameter einfließen soll.In a further, particularly preferred embodiment of the method according to the invention, the first and the second optimization target are contained in a common cost function to be optimized as summands, in particular as weighted summands. By adjusting the weights of the summands, it can be taken into account how strongly the discretization is to be included as a parameter in the state estimation.
In einer weiteren bevorzugten Ausführungsform ist in der Kostenfunktion das erste Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den Zuständen der Ausgangsschicht und den entsprechenden Trainingsdaten enthalten, welche diesen Zuständen entsprechen. Analog kann das zweite Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen versteckten Zustandsvariablen und den diskreten versteckten Zustandsvariablen eines versteckten Zustands repräsentiert werden. Der Begriff des betragsmäßigen Unterschieds ist dabei weit zu verstehen und kann z. B. eine lineare Abweichung oder auch eine quadratische Abweichung umfassen.In a further preferred embodiment, in the cost function, the first optimization target is included as a sum of the absolute differences between the states of the output layer and the corresponding training data corresponding to these states. Similarly, the second optimization goal may be represented as a sum of the magnitude differences between the continuous hidden state variables and the discrete hidden state variables of a hidden state. The term of the difference in value is to be understood far and z. B. include a linear deviation or a square deviation.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens nehmen die durch Neuronen repräsentierten Zustandsvariablen der versteckten Zustände kontinuierliche Werte in einem Wertebereich zwischen –1 und 1 an oder die Aktivitäten werden auf diesen Wertebereich abgebildet. In einem solchen Fall wird das zweite Optimierungsziel vorzugsweise derart festgelegt, dass die Summe der betragsmäßigen Aktivitäten der Neuronen der Anzahl an Zustandsvariablen der versteckten Zustände entspricht.In a further embodiment of the method according to the invention, the state variables of the hidden states represented by neurons assume continuous values in a value range between -1 and 1 or the activities are mapped onto this value range. In such a case, the second optimization target is preferably set so that the sum of the magnitude activities of the neurons corresponds to the number of state variables of the hidden states.
Das erfindungsgemäße Verfahren kann in beliebigen technischen Systemen zu deren Steuerung bzw. Regelung eingesetzt werden. In einer besonders bevorzugten Variante wird das erfindungsgemäße Verfahren zur Steuerung einer Turbine, insbesondere einer Gasturbine oder Windturbine, verwendet. Für eine Gasturbine ist das Bewertungssignal beispielsweise zumindest durch den Wirkungsgrad und/oder die Schadstoffemission der Turbine und/oder die mechanischen Belastungen der Brennkammern der Turbine bestimmt. Ziel der Optimierung ist dabei ein hoher Wirkungsgrad bzw. eine geringe Schadstoffemission bzw. eine geringe mechanische Belastung der Brennkammern. Bei der Verwendung des Verfahrens zur Regelung bzw. Steuerung einer Windturbine kann das Bewertungssignal beispielsweise zumindest durch die Kraftbelastung und/oder Wechselbelastung auf ein oder mehrere Rotorblätter der Windturbine und/oder die erzeugte elektrische Leistung bestimmt sein.The inventive method can be used in any technical systems for their control or regulation. In a particularly preferred variant, the method according to the invention is used to control a turbine, in particular a gas turbine or wind turbine. For a gas turbine, the evaluation signal is determined, for example, at least by the efficiency and / or pollutant emission of the turbine and / or the mechanical loads of the combustion chambers of the turbine. The aim of the optimization is a high degree of efficiency or a low pollutant emission or a low mechanical load of the combustion chambers. When using the method for controlling or controlling a wind turbine, the evaluation signal can be determined, for example, at least by the force load and / or alternating load on one or more rotor blades of the wind turbine and / or the generated electrical power.
Neben dem oben beschriebenen Lernverfahren betrifft die Erfindung ferner ein Verfahren zur Steuerung und/oder Regelung eines technischen Systems, wobei eine Aktionsauswahlregel mit dem erfindungsgemäßen Lernverfahren gelernt ist oder gelernt wird und das technische System basierend auf der gelernten Aktionsauswahlregel gesteuert und/oder geregelt wird.In addition to the learning method described above, the invention further relates to a method for controlling and / or regulating a technical system, wherein an action selection rule is learned or learned with the learning method according to the invention and the technical system is controlled and / or regulated based on the learned action selection rule.
Die Erfindung umfasst darüber hinaus ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner abläuft.The invention further comprises a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention, when the program runs on a computer.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.Embodiments of the invention are described below in detail with reference to the accompanying drawings.
Es zeigen:Show it:
Die nachfolgend beschriebenen Ausführungsformen des erfindungsgemäßen Verfahrens modellieren das dynamische Verhalten eines technischen Systems basierend auf einem rekurrenten neuronalen Netz. Das technische System wird dabei durch Zustände in der Form von zeitlich aufeinander folgenden Zustandsvektoren mit einer Anzahl von Zustandsvariablen sowie durch in den jeweiligen Zuständen durchgeführte Aktionen beschrieben, wobei die Aktionen ebenfalls Vektoren mit einer Anzahl von Aktionsvariablen darstellen.The embodiments of the inventive method described below model the dynamic behavior of a technical system based on a recurrent neural network. The technical system is described by states in the form of temporally successive state vectors with a number of state variables and by actions performed in the respective states, the actions also representing vectors with a number of action variables.
Das zur Modellierung verwendete rekurrente neuronale Netz umfasst die zeitlich aufeinander folgenden Zustände als Eingangsschicht, die mit einer versteckten neuronalen Schicht gekoppelt ist, welche versteckte Zustände in der Form von versteckten Zustandsvektoren aus versteckten Zustandsvariablen umfasst. An die versteckte neuronale Schicht schließt sich eine Ausgangsschicht an. Das erfindungsgemäße Verfahren modelliert dabei ein technisches System mit kontinuierlichen Zuständen und ggf. auch kontinuierlichen Aktionen und es ist das Ziel, mit dem rekurrenten neuronalen Netz versteckte Zustände abzuschätzen und basierend auf diesen Zuständen eine geeignete Aktionsauswahlregel zu lernen. Diese Aktionsauswahlregel liefert dann im Betrieb des technischen Systems für einen aktuellen und ggf. mehrere vergangenen Zustandsvektoren die optimale Aktion, wobei die optimale Aktion insbesondere in Abhängigkeit von den weiter unten beschriebenen Bewertungssignalen festgelegt wird.The recurrent neural network used for modeling comprises the temporally successive states as an input layer coupled to a hidden neural layer comprising hidden states in the form of hidden state vectors from hidden state variables. The hidden neuronal layer is followed by an initial layer. In this case, the method according to the invention models a technical system with continuous states and optionally also continuous actions, and the goal is to estimate hidden states with the recurrent neural network and to learn a suitable action selection rule based on these states. This action selection rule then supplies the optimum action during operation of the technical system for a current and possibly several past state vectors, the optimum action being determined in particular as a function of the evaluation signals described below.
Um im Rahmen des Lernens der Aktionsauswahlregel Verfahren verwenden zu können, welche auf diskreten versteckten Zuständen arbeiten, wird im erfindungsgemäßen Verfahren eine entsprechende Diskretisierung der an sich kontinuierlichen versteckten Zustände durchgeführt. Die Art der Diskretisierung unterscheidet sich dabei von Verfahren gemäß dem Stand der Technik.In order to be able to use methods which work on discrete hidden states in the course of learning the action selection rule, a corresponding discretization of the intrinsically continuous hidden states is carried out in the method according to the invention. The type of discretization differs from prior art methods.
In dem Netz der
Da die Lern- bzw. Optimierungsverfahren (z. B. Q-Learning oder Prioritized Sweeping), welche anschließend den geschätzten versteckten Zustand sc zum Lernen einer Aktionsauswahlregel weiterverarbeiten, meist diskrete versteckte Zustände benötigen, wird anschließend eine entsprechende Diskretisierung bzw. Vektorquantisierung VQ vorgenommen, wodurch der kontinuierliche versteckte Zustand sc auf einen diskreten Zustand sc abgebildet wird, der anschließend dem verwendeten Lern- bzw. Optimierungsverfahren als Eingangsgröße dient. Die Diskretisierung kann dabei bspw. auf äquidistantem Binning, K-Means-Clustering oder Verfahren basierend auf selbstorganisierenden Karten (auch als SOM bezeichnet, SOM = Self Organizing Maps) erfolgen. Diese bekannten Methoden optimieren Ziele wie die Datendichte im Zustandsraum, berücksichtigen jedoch nicht die dynamischen Aspekte des modellierten technischen Systems. Insbesondere kann es bei solchen Verfahren zu einer größeren Verletzung der Markov-Eigenschaft kommen, was wiederum zu einer schlechten Zustandsschätzung und einer schlechten Modellierung des technischen Systems führt. Dies hat wiederum eine schlecht gelernte Aktionsauswahlregel zur Folge.Since the learning or optimization methods (eg Q-learning or prioritized sweeping), which subsequently process the estimated hidden state s c for learning an action selection rule, usually require discrete hidden states, then a corresponding discretization or vector quantization VQ is subsequently performed whereby the continuous hidden state s c is mapped to a discrete state s c , which then serves as the input to the learning or optimization method used. The discretization can take place, for example, on equidistant binning, K-means clustering or methods based on self-organizing maps (also referred to as SOM, SOM = self-organizing maps). These known methods optimize goals such as data density in the state space, but do not take into account the dynamic aspects of the modeled engineering system. In particular, such methods may result in a greater violation of the Markov property, which in turn leads to poor state estimation and poor modeling of the technical system. This in turn results in a badly learned action selection rule.
Um die oben beschriebenen Nachteile der Zustandsschätzung gemäß
In einer bevorzugten Variante der Erfindung wird als Aktivierungsfunktion der einzelnen Neuronen für einen versteckten Zustand eine Funktion verwendet, deren Wertebereich zwischen –1 und 1 liegt, beispielsweise die tanh-Funktion. In diesem Fall kann das Optimierungsziel gemäß dem Target TVQ derart formuliert werden, dass die Summe der betragsmäßigen Aktivitäten der Neuronen des versteckten Zustandsvektors der Dimension des versteckten Zustandsvektors entspricht. Hierdurch wird erreicht, dass die Aktivitäten möglichst gut auf die diskreten Aktivitätswerte –1 und 1 abgebildet werden.In a preferred variant of the invention, a function whose range of values lies between -1 and 1, for example the tanh function, is used as the activation function of the individual neurons for a hidden state. In this case, the optimization target according to the target T VQ may be formulated such that the sum of the magnitude activities of the neurons of the hidden state vector corresponds to the dimension of the hidden state vector. This ensures that the activities are mapped as well as possible to the discrete activity values -1 and 1.
Gemäß dem Verfahren der
Neben der Eingangsschicht I ist im Netz der
Das neuronale Netz der
Im Rahmen der Ausführungsform der
Nach der Zustandsschätzung der versteckten Zustände mit dem neuronalen Netz der
Im Rahmen des erfindungsgemäßen Verfahrens erfolgt eine Modellierung des technischen Systems basierend auf den Trainingsdaten TD mit Hilfe eines rekurrenten neuronalen Netzes NN, das zum jeweiligen aktuellen Zeitpunkt einen versteckten Zustand des technischen Systems schätzt, wie im Vorangegangenen anhand von
Durch die oben beschriebenen Lernschritte wird schließlich ein diskreter Zustandsschätzer SE und eine gelernte Aktionsauswahlregel CP erhalten, welche anschließend im Rahmen der Steuerung des realen Betriebs des technischen Systems genutzt werden können. Im Realbetrieb fließen dabei die Observablen OB in der Form der entsprechenden Zustandsvektoren in den Zustandsschätzer SE ein, der den versteckten Zustand schätzt und auf diesen die gelernte Aktionsauswahlregel CP anwendet. Als Ergebnis erhält man schließlich eine im Sinne des Bewertugnssignals optimale Aktion A, die dann auf das technische System angewendet wird. Im Rahmen des Betriebs des technischen Systems kann dabei parallel auch das Lernen der Aktionsauswahlregel durch neu hinzukommende Observablen OB immer weiter fortgesetzt werden, was in
Die im Vorangegangenen beschriebenen Varianten des erfindungsgemäßen Verfahrens weisen eine Reihe von Vorteilen auf. Insbesondere wird ein neuronaler Diskretisierungs-Ansatz für eine Zustandsschätzung geschaffen, welcher die Zustandsschätzung mit dem Diskretisierungs-Schritt kombiniert. Hierdurch können relevante dynamische Aspekte im Diskretisierungs-Schritt mit einfließen, und die Dynamik des technischen Systems kann in Bezug auf den diskretisierten Zustandsraum modelliert werden. Dies ist bei bekannten Ansätzen, bei denen der Diskretisierungs-Schritt nachgeschaltet ist, nicht der Fall. Das Verfahren der Erfindung ermöglicht simultan eine Optimierung des Fehlers der Zustandsschätzung sowie eine Approximation des diskretisierten Zustandsraums. Vorzugsweise wird das Ziel der Diskretisierung der versteckten Zustände dabei als eine Komponente einer Kostenfunktion formuliert. Diese Komponente kann als neuronales Ziel implementiert werden, das während der Modellierung des technischen Systems berücksichtigt wird. Die Integration der Diskretisierung in eine Kostenfunktion hat den weiteren Vorteil, dass eine verbesserte Modellierung eines diskreten Markov-Zustands erreicht wird.The variants of the method according to the invention described above have a number of advantages. In particular, a neural discretization approach is created for a state estimation that combines the state estimation with the discretization step. As a result, relevant dynamic aspects can be included in the discretization step, and the dynamics of the technical system can be modeled with respect to the discretized state space. This is not the case with known approaches in which the discretization step is followed. The method of the invention simultaneously enables optimization of the state estimation error as well as an approximation of the discretized state space. Preferably, the goal of the discretization of the hidden states is formulated as a component of a cost function. This component can be implemented as a neural target, which is taken into account during the modeling of the technical system. The integration of the discretization into a cost function has the further advantage that an improved modeling of a discrete Markov state is achieved.
Das erfindungsgemäße Verfahren ist insbesondere dann vorteilhaft, wenn in einem bestimmten Teil des Zustandsraums eine kleine Veränderung einer Zustandsvariablen zu einer großen Veränderung des nachfolgenden Zustands führt. Dieser Effekt kann durch die Modellierung der Diskretisierung innerhalb des rekurrenten neuronalen Netzes berücksichtigt werden, was bei einer naiven äquidistanten Diskretisierung nicht gewährleistet ist.The method according to the invention is particularly advantageous when, in a certain part of the state space, a small change in a state variable leads to a large change in the subsequent state. This effect can be taken into account by modeling the discretization within the recurrent neural network, which is not guaranteed in a naive equidistant discretization.
Das erfindungsgemäße Verfahren kann zur Generierung einer Aktionsauswahlregel zur geeigneten Steuerung bzw. Regelung beliebiger technischer Systeme eingesetzt werden. Bevorzugte Anwendungsfälle sind dabei die Regelung bzw. Steuerung von Windturbinen oder Gasturbinen, deren Betrieb im Hinblick auf bestimmte Kriterien über die gelernte Aktionsauswahlregel optimiert wird.The inventive method can be used to generate an action selection rule for the appropriate control or regulation of any technical systems. Preferred applications are the regulation or control of wind turbines or gas turbines, the operation of which is optimized with regard to certain criteria via the learned action selection rule.
Claims (15)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE201110076969 DE102011076969B4 (en) | 2011-06-06 | 2011-06-06 | Method for computer-aided learning of a control and / or control of a technical system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE201110076969 DE102011076969B4 (en) | 2011-06-06 | 2011-06-06 | Method for computer-aided learning of a control and / or control of a technical system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE102011076969A1 DE102011076969A1 (en) | 2012-12-06 |
| DE102011076969B4 true DE102011076969B4 (en) | 2015-01-08 |
Family
ID=47173242
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE201110076969 Active DE102011076969B4 (en) | 2011-06-06 | 2011-06-06 | Method for computer-aided learning of a control and / or control of a technical system |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE102011076969B4 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3792483A1 (en) * | 2019-09-16 | 2021-03-17 | Siemens Gamesa Renewable Energy A/S | Wind turbine control based on reinforcement learning |
| CN111814272B (en) * | 2020-07-07 | 2024-04-19 | 中国科学院工程热物理研究所 | Turbine pneumatic-dynamic response intelligent optimization design method based on machine learning |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1997036248A1 (en) * | 1996-03-25 | 1997-10-02 | Siemens Aktiengesellschaft | Method for determination of weights, suitable for elimination, of a neural network using a computer |
| WO2005081076A2 (en) * | 2004-02-24 | 2005-09-01 | Siemens Aktiengesellschaft | Method for the prognosis of the state of a combustion chamber using a recurrent, neuronal network |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102010011221B4 (en) | 2010-03-12 | 2013-11-14 | Siemens Aktiengesellschaft | Method for computer-aided control and / or regulation of a technical system |
-
2011
- 2011-06-06 DE DE201110076969 patent/DE102011076969B4/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1997036248A1 (en) * | 1996-03-25 | 1997-10-02 | Siemens Aktiengesellschaft | Method for determination of weights, suitable for elimination, of a neural network using a computer |
| WO2005081076A2 (en) * | 2004-02-24 | 2005-09-01 | Siemens Aktiengesellschaft | Method for the prognosis of the state of a combustion chamber using a recurrent, neuronal network |
Non-Patent Citations (1)
| Title |
|---|
| A. Hans, S. Udluft: Uncertainty Propagation for Efficient Exploration in Reinforcement Learning. Amsterdam, The Netherlands : IOS Press, 2010 (Proc. 19th European Conf. on Artificial Intelligence 2010, Lisbon, Portugal). 361-366. - ISBN 978-1-60750-605-8 * |
Also Published As
| Publication number | Publication date |
|---|---|
| DE102011076969A1 (en) | 2012-12-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP3132317B1 (en) | Method for computer-aided plant control optimisation using a simulation module | |
| EP2519861B1 (en) | Method for the computer-aided control of a technical system | |
| EP2108139B1 (en) | Method for the computer-aided control and/or regulation of a technical system, particularly a gas turbine | |
| EP2697695B1 (en) | Method for the computer-supported generation of a data-driven model of a technical system, in particular of a gas turbine or wind turbine | |
| EP2649567B1 (en) | Method for the computer-based modeling of a technical system | |
| EP2112568B1 (en) | Method for computer-supported control and/or regulation of a technical system | |
| EP2135140B1 (en) | Method for computer-supported control and/or regulation of a technical system | |
| EP2106576B1 (en) | Method for the computer-assisted control and/or regulation of a technical system | |
| WO2014121863A1 (en) | Method and device for controlling an energy-generating system which can be operated with a renewable energy source | |
| EP2880499B1 (en) | Method for controlling and/or regulating a technical system in a computer-assisted manner | |
| EP2097793A1 (en) | Method for the computer-assisted control and/or regulation of a technical system | |
| WO2021259980A1 (en) | Training an artificial neural network, artificial neural network, use, computer program, storage medium, and device | |
| DE102013205356A1 (en) | Method for computer-aided control and / or regulation of a technical system | |
| EP1055180B1 (en) | Method and device for designing a technical system | |
| DE102011076969B4 (en) | Method for computer-aided learning of a control and / or control of a technical system | |
| DE102020107001A1 (en) | Method and device for determining the status of an on-board electrical system of a vehicle | |
| EP3376026B1 (en) | Method for controlling the power output of a wind farm and corresponding wind farm | |
| EP4375768A1 (en) | Method and machine controller for controlling a machine | |
| EP3489773B1 (en) | Method for the computer-based control of a technical system, in particular an energy generation plant | |
| EP3432093A1 (en) | Method for modelling a dynamic system by computer-aided learning of data-based models | |
| EP3528063B1 (en) | Method for the computer-aided creation of a forecast model for forecasting one or more target variables | |
| WO2025108619A1 (en) | Method for optimising a functional parameter in order to set an operating variable of a technical system | |
| EP3623881A1 (en) | Computer-implemented method for estimating a technical behaviour of a device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R012 | Request for examination validly filed | ||
| R016 | Response to examination communication | ||
| R016 | Response to examination communication | ||
| R018 | Grant decision by examination section/examining division | ||
| R020 | Patent grant now final | ||
| R081 | Change of applicant/patentee |
Owner name: SIEMENS ENERGY GLOBAL GMBH & CO. KG, DE Free format text: FORMER OWNER: SIEMENS AKTIENGESELLSCHAFT, 80333 MUENCHEN, DE |