DE102011076969B4

DE102011076969B4 - Method for computer-aided learning of a control and / or control of a technical system

Info

Publication number: DE102011076969B4
Application number: DE201110076969
Authority: DE
Inventors: Siegmund Düll; Steffen Udluft
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens Energy Global GmbH and Co KG
Priority date: 2011-06-06
Filing date: 2011-06-06
Publication date: 2015-01-08
Anticipated expiration: 2031-06-07
Also published as: DE102011076969A1

Abstract

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems (T), wobei das technische System für mehrere Zeitpunkte jeweils durch einen Zustand (Zt) und eine am technischen System durchgeführten Aktion (at) charakterisiert wird. Dabei werden versteckte Zustände (st) des technischen Systems mit Hilfe eines rekurrenten neuronalen Netzes (NN) basierend auf Trainingsdaten umfassend bekannte Zustände und Aktionen geschätzt, wobei im Rahmen der Zustandsschätzung ein erstes Optimierungsziel (TSE) berücksichtigt wird, welches durch die Ausgangsschicht (O) des rekurrenten neuronalen Netzes repräsentiert wird. Anschließend wird auf den versteckten Zuständen (st) eine Aktionsauswahlregel (CP) mit einem Lern- und/oder Optimierungsverfahren gelernt, wobei die gelernte Aktionsauswahlregel bei der Steuerung und/oder Regelung des technischen Systems eingesetzt wird. Erfindungsgemäß wird im Rahmen der Zustandsschätzung eine Diskretisierung der versteckten Zustände (st) durch die Optimierung eines zweiten Optimierungsziel (TVQ) durchgeführt, welches derart ausgestaltet ist, dass die Abweichung eines diskreten versteckten Zustands (sc) von einem kontinuierlich versteckten Zustand (sc) möglichst gering ist. Auf diese Weise wird eine gute Modellierung des technischen Systems durch diskrete Zustände erreicht. Dabei können im nachfolgenden Lernen der Aktionsauswahlregel robuste diskrete bestärkende Lernverfahren, wie z. B. dynamische Programmierung, eingesetzt werden. Das erfindungsgemäße Verfahren kann z. B. zum Lernen einer Regelung bzw. Steuerung einer Gasturbine oder Windturbine genutzt werden.The invention relates to a method for computer-assisted learning of a control and / or control of a technical system (T), wherein the technical system is characterized for a plurality of points in time by a state (Zt) and an action (at) performed on the technical system. Hidden states (st) of the technical system are estimated with the help of a recurrent neural network (NN) based on training data comprising known states and actions, whereby in the state estimation a first optimization target (TSE) is taken into account, which is represented by the output layer (O). the recurrent neural network is represented. Subsequently, an action selection rule (CP) is learned on the hidden states (st) with a learning and / or optimization method, the learned action selection rule being used in the control and / or regulation of the technical system. According to the invention, a discretization of the hidden states (st) is carried out as part of the state estimation by the optimization of a second optimization target (TVQ), which is designed such that the deviation of a discrete hidden state (sc) from a continuously hidden state (sc) is as small as possible is. In this way, a good modeling of the technical system is achieved by discrete states. In the subsequent learning of the action selection rule, robust discrete reinforcing learning methods, such as eg. As dynamic programming, are used. The inventive method can, for. B. be used to learn a scheme or control of a gas turbine or wind turbine.

Description

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems sowie ein entsprechendes Computerprogrammprodukt.The invention relates to a method for computer-aided learning of a control and / or control of a technical system and a corresponding computer program product.

Heutzutage weisen technische Systeme in der Regel eine hohe Komplexität auf, d. h. sie werden durch Zustände mit einer Vielzahl von Zustandsvariablen beschrieben. Ferner können an dem technischen System viele unterschiedliche Aktionen basierend auf entsprechenden Aktionsvariablen durchgeführt werden. Die Zustandsvariablen sind hierbei insbesondere messbare Zustandsgrößen des technischen Systems, wie z. B. physikalischen Größen, wie Druck, Temperatur, Leistung und dergleichen. Die Aktionsvariablen stellen insbesondere einstellbare Größen des technischen Systems dar, wie z. B. die Zufuhr von Brennstoff zu Brennkammern in Gasturbinen.Today, technical systems tend to be highly complex, i. H. they are described by states with a variety of state variables. Furthermore, many different actions can be performed on the technical system based on corresponding action variables. The state variables are here in particular measurable state variables of the technical system, such. Physical quantities such as pressure, temperature, power and the like. The action variables represent in particular adjustable sizes of the technical system, such. B. the supply of fuel to combustion chambers in gas turbines.

Bei der Steuerung von komplexen technischen Systemen werden oftmals rechnergestützte Verfahren verwendet, welche das dynamische zeitliche Verhalten des technischen Systems unter Berücksichtigung vorbestimmter Kriterien optimieren. Im Rahmen solcher Lernverfahren wird das Verhalten des technischen Systems basierend auf Trainingsdaten durch ein rekurrentes neuronales Netz modelliert, wobei das rekurrente neuronale Netz eine rekurrente versteckte Schicht aufweist, mit der versteckte Zustände des technischen Systems geschätzt werden. Die geschätzten Zustände werden dann dazu benutzt, um eine geeignete Aktionsauswahlregel zu lernen, wobei hierzu vorzugsweise bestärkende Lernverfahren (Reinforcement Learning) eingesetzt werden. Mit der gelernten Aktionsauswahlregel wird dann im Betrieb des technischen Systems für den aktuellen Zustand und gegebenenfalls vergangene Zustände des technischen Systems die durchzuführende Aktion bestimmt. Die Aktion ist dabei in geeigneter Weise an den gewünschten Betrieb des technischen Systems angepasst. Insbesondere wird beim Lernen der Aktionsauswahlregel ein geeignetes Bewertungssignal berücksichtigt, wobei dieses Signal jede Aktion bewertet und das dynamische Verhalten des technischen Systems um so besser ist, je höher die Bewertung gemäß dem Bewertungssignal ist.In the control of complex technical systems often computer-aided methods are used, which optimize the dynamic temporal behavior of the technical system, taking into account predetermined criteria. In the context of such learning methods, the behavior of the technical system based on training data is modeled by a recurrent neural network, the recurrent neural network having a recurrent hidden layer, which estimates hidden states of the technical system. The estimated states are then used to learn an appropriate action selection rule, preferably using reinforcement learning (Reinforcement Learning). With the learned action selection rule, the action to be performed is then determined during operation of the technical system for the current state and possibly past states of the technical system. The action is suitably adapted to the desired operation of the technical system. In particular, when learning the action selection rule, a suitable evaluation signal is taken into account, which signal evaluates each action and the better the rating according to the evaluation signal, the better the dynamic behavior of the technical system.

Oftmals liegen die Zustände eines technischen Systems und gegebenenfalls auch die Aktionen als kontinuierliche Zustands- bzw. Aktionsvariablen vor, so dass im Rahmen der Zustandsschätzung mit einem rekurrenten neuronalen Netz auch kontinuierliche versteckte Zustände generiert werden. Um beim anschließenden Lernen der Aktionsauswahlregel robuste Lernverfahren einzusetzen, welche diskrete Zustände verarbeiten, ist es aus dem Stand der Technik bekannt, in einem separaten Diskretisierungs-Schritt die einzelnen Zustandsvariablen der versteckten Zustände zu diskretisieren. Hierzu werden z. B. Vektorquantisierungs-Verfahren eingesetzt, wie äquidistantes Binning, K-Means-Clustering, selbst-organisierende Karten und dergleichen. Es erweist sich hierbei als nachteilig, dass durch diese Diskretisierung die dynamischen Aspekte der Zustandsschätzung nicht mit berücksichtigt werden, was zum Auftreten von Fehlern in der Zustandsschätzung und somit auch zu Fehlern beim anschließenden Lernen der Aktionsauswahlregel führen kann. Dies verschlechtert wiederum die Regelung bzw. Steuerung des technischen Systems basierend auf der gelernten Aktionsauswahlregel.Often, the states of a technical system and possibly also the actions are available as continuous state variables or action variables, so that as part of the state estimation with a recurrent neural network, continuous hidden states are also generated. In order to use robust learning methods which process discrete states during subsequent learning of the action selection rule, it is known from the prior art to discretize the individual state variables of the hidden states in a separate discretization step. For this purpose, for. As vector quantization methods are used, such as equidistant binning, K-means clustering, self-organizing maps and the like. It proves to be disadvantageous that this discretization does not take into account the dynamic aspects of the state estimation, which can lead to the occurrence of errors in the state estimation and thus also to errors in the subsequent learning of the action selection rule. This, in turn, degrades the control of the technical system based on the learned action selection rule.

Die Druckschrift WO 2005/081076 A2 offenbart ein rechnergestütztes Verfahren zur Analyse und Prognose des Zustands einer Brennkammer unter Verwendung eines rekurrenten neuronalen Netzes.The publication WO 2005/081076 A2 discloses a computerized method for analyzing and predicting the condition of a combustion chamber using a recurrent neural network.

In der Druckschrift A. Hans, S. Udluft: Uncertainty Propagation for Efficient Exploration in Reinforcement Learning. Amsterdam, The Netherlands: IOS Press, 2010 (Proc. 19^th European Conf. an Artificial Intelligence 2010, Lisbon, Portugal wird die Exploration eines Zustandraums basierend auf einer Aktionsauswahregel beschrieben, welche eine Belohnung maximiert.In the publication A. Hans, S. Udluft: Uncertainty Propagation for Efficient Exploration in Reinforcement Learning. Amsterdam, The Netherlands: IOS Press, 2010 (Proc 19 ^th European Conf .: Artificial Intelligence 2010, Lisbon, Portugal) describes the exploration of a state space based on an action reminder that maximizes a reward.

In der Druckschrift WO 97/36 248 A1 wird ein rechnergestütztes Verfahren zur Ermittlung von zur Entfernung geeigneten Gewichten eines neuronalen Netzes beschrieben, bei dem die Trainingsphase des neuronalen Netzes gestoppt wird, bevor sich eine in der Trainingsphase zu minimierende Fehlerfunktion in einem Minimum befindet.In the publication WO 97/36 248 A1 For example, there is described a computerized method of determining neural network removal weights, wherein the training phase of the neural network is stopped before any error function to be minimized in the training phase is at a minimum.

Aufgabe der Erfindung ist es, ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems zu schaffen, welches das technische System gut modelliert und basierend darauf eine Aktionsauswahlregel zur Steuerung bzw. Regelung des technischen Systems lernt.The object of the invention is to provide a method for computer-aided learning of a control and / or control of a technical system, which models the technical system well and learns based on an action selection rule for controlling or regulating the technical system.

Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.This object is solved by the independent claims. Further developments of the invention are defined in the dependent claims.

Das erfindungsgemäße Verfahren dient zum Lernen einer Regelung bzw. Steuerung eines technischen Systems, welches für mehrere Zeitpunkte jeweils durch einen Zustand mit einer Anzahl von kontinuierlichen Zustandsvariablen und eine am technischen System durchgeführte Aktion mit einer Anzahl von (kontinuierlichen oder ggf. auch diskreten) Aktionsvariablen charakterisiert wird.The method according to the invention is used for learning a control or regulation of a technical system which for several points in time respectively characterizes by a state with a number of continuous state variables and an action performed on the technical system with a number of (continuous or optionally also discrete) action variables becomes.

Im erfindungsgemäßen Verfahren werden versteckte Zustände des technischen Systems mit einer Anzahl von versteckten Variablen durch die Optimierung eines ersten Optimierungsziels mittels eines rekurrenten neuronalen Netzes basierend auf Trainingsdaten umfassend bekannte Zustände und Aktionen geschätzt. Das rekurrente neuronale Netz ist dabei gebildet durch wenigstens eine Eingangsschicht umfassend Zustände des technischen Systems und die am technischen System durchgeführten Aktionen, wenigstens eine versteckte rekurrente Schicht umfassend die versteckten Zustände des technischen Systems und wenigstens eine Ausgangsschicht umfassend Zustände, welche das erste Optimierungsziel repräsentieren. Das rekurrente neuronale Netz modelliert somit das zeitliche Verhalten des technischen Systems basierend auf den zeitlich aufeinander folgenden Zuständen und Aktionen. Die Zustandsschätzung liefert dabei für den aktuellen Zeitpunkt die Schätzung eines versteckten Zustands. Die Schätzung ist dabei insbesondere derart ausgestaltet, dass die sog. Markov-Eigenschaft erfüllt ist, wonach der Folgezustand eines versteckten Zustands nur von der ausgeführten Aktion und dem momentanen versteckten Zustand abhängt.In the method according to the invention hidden states of the technical system with estimating a number of hidden variables by optimizing a first optimization target by means of a recurrent neural network based on training data comprising known states and actions. The recurrent neural network is formed by at least one input layer comprising states of the technical system and the actions performed on the technical system, at least one hidden recurrent layer comprising the hidden states of the technical system and at least one output layer comprising states representing the first optimization target. The recurrent neural network thus models the temporal behavior of the technical system based on the temporally successive states and actions. The state estimation provides the estimation of a hidden state for the current time. The estimation is in particular designed in such a way that the so-called Markov property is satisfied, according to which the subsequent state of a hidden state depends only on the executed action and the current hidden state.

Das erfindungsgemäße Verfahren zeichnet sich dadurch aus, dass im Rahmen der soeben beschriebenen Schätzung der versteckten Zustände eine Diskretisierung der Werte der versteckten Variablen dieser Zustände durch die Optimierung eines weiteren zweiten Optimierungsziels durchgeführt wird, welches derart ausgestaltet ist, dass die (betragsmäßige) Abweichung eines diskreten versteckten Zustands von einem kontinuierlichen versteckten Zustand möglichst gering ist. Dieses Optimierungsziel kann im rekurrenten neuronalen Netzes durch ein entsprechendes Target-Cluster repräsentiert werden. Im Unterschied zu herkömmlichen Verfahren, bei denen die Diskretisierung unabhängig von der Zustandsschätzung in einem nachgeschalteten Schritt durchgeführt wird, berücksichtigt das erfindungsgemäße Verfahren das Problem der Diskretisierung bereits bei der Zustandsschätzung. Somit fließt die Dynamik des technischen Systems bei der Diskretisierung mit ein und kann in Bezug auf den diskreten Raum der versteckten Zustände modelliert werden. Auf diese Weise wird eine gute Modellierung des Verhaltens des technischen Systems basierend auf Trainingsdaten erreicht, wobei insbesondere eine verbesserte Zustandsschätzung erreicht wird, welche sehr gut die Markov-Eigenschaft erfüllt.The method according to the invention is characterized in that in the context of the just-described hidden state estimation, the values of the hidden variables of these states are discretized by the optimization of a further second optimization target, which is designed such that the (absolute) deviation of a discrete one hidden state of a continuous hidden state is as low as possible. This optimization target can be represented in the recurrent neural network by a corresponding target cluster. In contrast to conventional methods, in which the discretization is carried out independently of the state estimation in a subsequent step, the method according to the invention takes into account the problem of discretization already in the state estimation. Thus, the dynamics of the technical system are included in the discretization and can be modeled with respect to the discrete space of the hidden states. In this way, a good modeling of the behavior of the technical system based on training data is achieved, in particular achieving an improved state estimation which very well satisfies the Markov property.

Nach der Zustandsschätzung wird im Rahmen des erfindungsgemäßen Verfahrens auf den geschätzten versteckten (diskreten) Zuständen eine Aktionsauswahlregel mit einem Lern- und/oder Optimierungsverfahren gelernt, wobei die gelernte Aktionsauswahlregel bei der Steuerung und/oder Regelung des technischen Systems eine am technischen System durchzuführende Aktion in Abhängigkeit von einem oder mehreren Zuständen des technischen Systems angibt. Durch die verbesserte erfindungsgemäße Zustandsschätzung wird dabei gewährleistet, dass auch das nachfolgende Lernen der Aktionsauswahlregel verbessert wird. Zum Lernen der Aktionsauswahlregel können an sich bekannte Verfahren eingesetzt werden, insbesondere können maschinelle Lernverfahren, und vorzugsweise bestärkende Lernverfahren verwendet werden. Erfindungsgemäß ist es dabei von Vorteil, dass robuste und theoretisch gut verstandene diskrete Lernverfahren (d. h. Verfahren, die auf diskreten versteckten Zuständen arbeiten) zum Einsatz kommen können. Bevorzugte Varianten von verwendeten Lernverfahren sind dynamische Programmierung und/oder Prioritized Sweeping und/oder Q-Learning und/oder SARSA (SARSA = State-Action-Reward-State-Action). All diese Verfahren sind hinlänglich aus dem Stand der Technik bekannt und werden deshalb nicht weiter im Detail beschrieben.After the state estimation, an action selection rule with a learning and / or optimization method is learned in the context of the inventive method on the estimated hidden (discrete) states, wherein the learned action selection rule in the control and / or regulation of the technical system is an action to be performed on the technical system Indicates dependence on one or more states of the technical system. The improved state estimation according to the invention ensures that the subsequent learning of the action selection rule is also improved. For learning the action selection rule, methods known per se can be used, in particular, machine learning methods, and preferably strengthening learning methods can be used. It is advantageous in accordance with the invention that robust and theoretically well-understood discrete learning methods (that is, methods that work on discrete hidden states) can be used. Preferred variants of learning methods used are dynamic programming and / or prioritized sweeping and / or Q-learning and / or SARSA (State Action Reward State Action). All of these methods are well known in the art and therefore will not be described in further detail.

In einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens wird das technische System ferner durch Bewertungssignale, welche jeweils von einem Zustand des technischen Systems und der in diesem Zustand durchgeführten Aktion abhängen, charakterisiert, wobei die Trainingsdaten, mit denen die Zustandsschätzung durchgeführt wird, entsprechende bekannte Bewertungssignale für die jeweiligen bekannten Zustände und Aktionen umfassen. Diese Bewertungssignale werden insbesondere auch im Lern- bzw. Optimierungsverfahren zum Lernen der Aktionsauswahlregel verwendet, so dass die gelernte Aktionsauswahlregel derart ausgestaltet ist, dass die Aktionen im Hinblick auf ein optimales Bewertungssignal ausgeführt werden. Das Bewertungssignal beschreibt somit einen gemäß bestimmten Kriterien optimalen Betrieb des technischen Systems. Beispielsweise kann das Bewertungssignal derart ausgestaltet sein, dass hiermit ein Betrieb mit einem hohen Wirkungsgrad bzw. geringer Schadstoffemission bzw. geringer mechanischer Belastung erreicht wird.In a particularly preferred variant of the method according to the invention, the technical system is further characterized by evaluation signals, which in each case depend on a state of the technical system and the action performed in this state, wherein the training data, with which the state estimation is performed, corresponding known evaluation signals for include the respective known states and actions. In particular, these evaluation signals are also used in the learning or optimization method for learning the action selection rule, so that the learned action selection rule is configured in such a way that the actions are carried out with regard to an optimal evaluation signal. The evaluation signal thus describes an optimal operation of the technical system according to certain criteria. For example, the evaluation signal can be designed such that an operation with a high degree of efficiency or a low pollutant emission or a low mechanical load is achieved hereby.

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens umfasst die Ausgangsschicht des rekurrenten neuronalen Netzes zumindest einen Teil der Zustandsvariablen der Zustände und/oder zumindest einen Teil der Aktionsvariablen der Aktionen. Das erste Optimierungsziel gemäß der Zustandsschätzung wird dabei durch eine geringe Abweichung der (zukünftigen) Zustände bzw. Aktionen gemäß Trainingsdaten von den über das Netz prognostizierten Zuständen bzw. Aktionen beschrieben. Ebenso kann das Optimierungsziel durch eine geringe Abweichung zwischen den (zukünftigen) tatsächlichen Bewerungssignalen gemäß den Trainingsdaten und den über das rekurrente neuronale Netz prognostizierten Bewertungssignalen beschrieben werden.In a further embodiment of the method according to the invention, the output layer of the recurrent neural network comprises at least a part of the state variables of the states and / or at least part of the action variables of the actions. The first optimization target according to the state estimation is described here by a slight deviation of the (future) states or actions according to training data from the states or actions predicted via the network. Likewise, the optimization goal may be described by a small deviation between the (future) actual validation signals according to the training data and the evaluation signals predicted via the recurrent neural network.

In einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens umfasst die wenigstens eine Ausgangsschicht des rekurrenten neuronalen Netzes ausschließlich Bewertungssignale oder ausschließlich solche Zustands- und/oder Aktionsvariablen, welche die Bewertungssignale beeinflussen. Auf diese Weise wird ein Markov-Entscheidungsprozess-Extraktions-Netzwerk geschaffen, das im Wesentlichen dem Netzwerk aus der deutschen Patentanmeldung Nr. 10 2010 011 221.6 entspricht. Im Unterschied zu dem Netzwerk aus der früheren Anmeldung wird nunmehr jedoch die Zustandsschätzung unter Einbeziehung der Diskretisierung der versteckten Zustände basierend auf einem zweiten Optimierungsziel durchgeführt. Das Markov-Entscheidungsprozess-Extraktions-Netzwerk beruht auf der Erkenntnis, dass ein rekurrentes neuronales Netz, welches in der Ausgangsschicht lediglich Bewertungssignale bzw. davon abhängige Zustände berücksichtigt, einen Zustandsschätzer modelliert, der die Markov-Eigenschaft erfüllt. In a particularly preferred variant of the method according to the invention, the at least one output layer of the recurrent neural network comprises exclusively evaluation signals or exclusively those state and / or action variables which influence the evaluation signals. In this way, a Markov decision process extraction network is created, which is essentially the network of the German Patent Application No. 10 2010 011 221.6 equivalent. However, unlike the network of the earlier application, the state estimation is now performed involving discretization of the hidden states based on a second optimization goal. The Markov decision process extraction network is based on the recognition that a recurrent neural network, which takes into account only evaluation signals or states dependent thereon in the output layer, models a state estimator which fulfills the Markov property.

Die oben beschriebenen Bewertungssignale können in dem erfindungsgemäßen Verfahren auf verschiedene Art und Weise repräsentiert werden. Z. B. können die Bewertungssignale durch eine Bewertungsfunktion repräsentiert sein, welche von einem Teil der Zustands- und/oder Aktionsvariablen abhängen.The evaluation signals described above can be represented in the method according to the invention in various ways. For example, the evaluation signals may be represented by an evaluation function that depends on a portion of the state and / or action variables.

In einer weiteren, besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens sind das erste und das zweite Optimierungsziel in einer gemeinsamen zu optimierenden Kostenfunktion als Summanden, insbesondere als gewichtete Summanden, enthalten. Durch die Einstellung der Gewichte der Summanden kann dabei berücksichtigt werden, wie stark die Diskretisierung im Rahmen der Zustandsschätzung als Parameter einfließen soll.In a further, particularly preferred embodiment of the method according to the invention, the first and the second optimization target are contained in a common cost function to be optimized as summands, in particular as weighted summands. By adjusting the weights of the summands, it can be taken into account how strongly the discretization is to be included as a parameter in the state estimation.

In einer weiteren bevorzugten Ausführungsform ist in der Kostenfunktion das erste Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den Zuständen der Ausgangsschicht und den entsprechenden Trainingsdaten enthalten, welche diesen Zuständen entsprechen. Analog kann das zweite Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen versteckten Zustandsvariablen und den diskreten versteckten Zustandsvariablen eines versteckten Zustands repräsentiert werden. Der Begriff des betragsmäßigen Unterschieds ist dabei weit zu verstehen und kann z. B. eine lineare Abweichung oder auch eine quadratische Abweichung umfassen.In a further preferred embodiment, in the cost function, the first optimization target is included as a sum of the absolute differences between the states of the output layer and the corresponding training data corresponding to these states. Similarly, the second optimization goal may be represented as a sum of the magnitude differences between the continuous hidden state variables and the discrete hidden state variables of a hidden state. The term of the difference in value is to be understood far and z. B. include a linear deviation or a square deviation.

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens nehmen die durch Neuronen repräsentierten Zustandsvariablen der versteckten Zustände kontinuierliche Werte in einem Wertebereich zwischen –1 und 1 an oder die Aktivitäten werden auf diesen Wertebereich abgebildet. In einem solchen Fall wird das zweite Optimierungsziel vorzugsweise derart festgelegt, dass die Summe der betragsmäßigen Aktivitäten der Neuronen der Anzahl an Zustandsvariablen der versteckten Zustände entspricht.In a further embodiment of the method according to the invention, the state variables of the hidden states represented by neurons assume continuous values in a value range between -1 and 1 or the activities are mapped onto this value range. In such a case, the second optimization target is preferably set so that the sum of the magnitude activities of the neurons corresponds to the number of state variables of the hidden states.

Das erfindungsgemäße Verfahren kann in beliebigen technischen Systemen zu deren Steuerung bzw. Regelung eingesetzt werden. In einer besonders bevorzugten Variante wird das erfindungsgemäße Verfahren zur Steuerung einer Turbine, insbesondere einer Gasturbine oder Windturbine, verwendet. Für eine Gasturbine ist das Bewertungssignal beispielsweise zumindest durch den Wirkungsgrad und/oder die Schadstoffemission der Turbine und/oder die mechanischen Belastungen der Brennkammern der Turbine bestimmt. Ziel der Optimierung ist dabei ein hoher Wirkungsgrad bzw. eine geringe Schadstoffemission bzw. eine geringe mechanische Belastung der Brennkammern. Bei der Verwendung des Verfahrens zur Regelung bzw. Steuerung einer Windturbine kann das Bewertungssignal beispielsweise zumindest durch die Kraftbelastung und/oder Wechselbelastung auf ein oder mehrere Rotorblätter der Windturbine und/oder die erzeugte elektrische Leistung bestimmt sein.The inventive method can be used in any technical systems for their control or regulation. In a particularly preferred variant, the method according to the invention is used to control a turbine, in particular a gas turbine or wind turbine. For a gas turbine, the evaluation signal is determined, for example, at least by the efficiency and / or pollutant emission of the turbine and / or the mechanical loads of the combustion chambers of the turbine. The aim of the optimization is a high degree of efficiency or a low pollutant emission or a low mechanical load of the combustion chambers. When using the method for controlling or controlling a wind turbine, the evaluation signal can be determined, for example, at least by the force load and / or alternating load on one or more rotor blades of the wind turbine and / or the generated electrical power.

Neben dem oben beschriebenen Lernverfahren betrifft die Erfindung ferner ein Verfahren zur Steuerung und/oder Regelung eines technischen Systems, wobei eine Aktionsauswahlregel mit dem erfindungsgemäßen Lernverfahren gelernt ist oder gelernt wird und das technische System basierend auf der gelernten Aktionsauswahlregel gesteuert und/oder geregelt wird.In addition to the learning method described above, the invention further relates to a method for controlling and / or regulating a technical system, wherein an action selection rule is learned or learned with the learning method according to the invention and the technical system is controlled and / or regulated based on the learned action selection rule.

Die Erfindung umfasst darüber hinaus ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner abläuft.The invention further comprises a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention, when the program runs on a computer.

Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.Embodiments of the invention are described below in detail with reference to the accompanying drawings.

Es zeigen:Show it:

1 eine schematische Darstellung einer Zustandsschätzung durch ein rekurrentes neuronales Netz gemäß dem Stand der Technik; 1 a schematic representation of a state estimation by a recurrent neural network according to the prior art;

2 eine schematische Darstellung einer Ausführungsform der erfindungsgemäßen Zustandsschätzung mit einem rekurrenten neuronalen Netz; 2 a schematic representation of an embodiment of the state estimation according to the invention with a recurrent neural network;

3 ein rekurrentes neuronales Netz, in dem eine Ausführungsform des erfindungsgemäßen Verfahrens implementiert ist; und 3 a recurrent neural network in which an embodiment of the method according to the invention is implemented; and

4 eine schematische Darstellung der Regelung eines technischen Systems unter Verwendung der mit dem erfindungsgemäßen Verfahren gelernten Aktionsauswahlregel. 4 a schematic representation of the control of a technical system using the learned with the inventive method action selection rule.

Die nachfolgend beschriebenen Ausführungsformen des erfindungsgemäßen Verfahrens modellieren das dynamische Verhalten eines technischen Systems basierend auf einem rekurrenten neuronalen Netz. Das technische System wird dabei durch Zustände in der Form von zeitlich aufeinander folgenden Zustandsvektoren mit einer Anzahl von Zustandsvariablen sowie durch in den jeweiligen Zuständen durchgeführte Aktionen beschrieben, wobei die Aktionen ebenfalls Vektoren mit einer Anzahl von Aktionsvariablen darstellen.The embodiments of the inventive method described below model the dynamic behavior of a technical system based on a recurrent neural network. The technical system is described by states in the form of temporally successive state vectors with a number of state variables and by actions performed in the respective states, the actions also representing vectors with a number of action variables.

Das zur Modellierung verwendete rekurrente neuronale Netz umfasst die zeitlich aufeinander folgenden Zustände als Eingangsschicht, die mit einer versteckten neuronalen Schicht gekoppelt ist, welche versteckte Zustände in der Form von versteckten Zustandsvektoren aus versteckten Zustandsvariablen umfasst. An die versteckte neuronale Schicht schließt sich eine Ausgangsschicht an. Das erfindungsgemäße Verfahren modelliert dabei ein technisches System mit kontinuierlichen Zuständen und ggf. auch kontinuierlichen Aktionen und es ist das Ziel, mit dem rekurrenten neuronalen Netz versteckte Zustände abzuschätzen und basierend auf diesen Zuständen eine geeignete Aktionsauswahlregel zu lernen. Diese Aktionsauswahlregel liefert dann im Betrieb des technischen Systems für einen aktuellen und ggf. mehrere vergangenen Zustandsvektoren die optimale Aktion, wobei die optimale Aktion insbesondere in Abhängigkeit von den weiter unten beschriebenen Bewertungssignalen festgelegt wird.The recurrent neural network used for modeling comprises the temporally successive states as an input layer coupled to a hidden neural layer comprising hidden states in the form of hidden state vectors from hidden state variables. The hidden neuronal layer is followed by an initial layer. In this case, the method according to the invention models a technical system with continuous states and optionally also continuous actions, and the goal is to estimate hidden states with the recurrent neural network and to learn a suitable action selection rule based on these states. This action selection rule then supplies the optimum action during operation of the technical system for a current and possibly several past state vectors, the optimum action being determined in particular as a function of the evaluation signals described below.

Um im Rahmen des Lernens der Aktionsauswahlregel Verfahren verwenden zu können, welche auf diskreten versteckten Zuständen arbeiten, wird im erfindungsgemäßen Verfahren eine entsprechende Diskretisierung der an sich kontinuierlichen versteckten Zustände durchgeführt. Die Art der Diskretisierung unterscheidet sich dabei von Verfahren gemäß dem Stand der Technik.In order to be able to use methods which work on discrete hidden states in the course of learning the action selection rule, a corresponding discretization of the intrinsically continuous hidden states is carried out in the method according to the invention. The type of discretization differs from prior art methods.

1 zeigt schematisch die Schätzung eines versteckten Zustandes mit einem rekurrenten neuronalen Netz gemäß dem Stand der Technik. Die Eingangsschicht ist dabei durch das Bezugszeichen I, die verstecke Schicht durch das Bezugszeichen H und die Ausgangsschicht durch das Bezugszeichen O angedeutet. Das rekurrente neuronale Netz umfasst dabei in den einzelnen Schichten Neuronencluster aus mehreren künstlichen Neuronen, welche die Zustände in den einzelnen Schichten darstellen. Aus Übersichtlichkeitsgründen sind in 1 und auch in der nachfolgend beschriebenen 2 die Neuronencluster nicht detailliert wiedergegeben. 1 schematically shows the estimation of a hidden state with a recurrent neural network according to the prior art. The input layer is indicated by the reference symbol I, the hidden layer by the reference symbol H and the output layer by the reference symbol O. The recurrent neural network comprises in the individual layers neuron clusters of several artificial neurons, which represent the states in the individual layers. For clarity, are in 1 and also in the following 2 the neuron clusters are not reproduced in detail.

In dem Netz der 1 werden kontinuierliche Zustände und Aktionen aus der Eingangsschicht I verarbeitet, so dass im Rahmen der Schätzung der versteckten Zustände zunächst kontinuierliche versteckte Zustandsvektoren s_c in der versteckten Schicht H erhalten werden. Um eine geeignete Repräsentation des technischen Systems über solche versteckte Zustände zu erhalten, ist in der Ausgangsschicht O ein geeignetes Optimierungsziel bzw. Target T_SE (SE = State Estimation) festgelegt, welches in der Regel derart ausgestaltet ist, dass der Zustand in der versteckten Schicht möglichst gut die Markov-Eigenschaft erfüllt, wonach ein Folgezustand nur von dem aktuellen Zustand und der darauf angewendeten Aktion abhängt. Im Netz der 1 wird zunächst der kontinuierliche versteckte Zustand s_c mit an sich bekannten Verfahren basierend auf Trainingsdaten geschätzt, beispielsweise können die in den Druckschriften DE 10 2007 001 025 B1 bzw. DE 10 2007 001 026 B1 beschriebenen Verfahren zur Modellierung des dynamischen Verhaltens des technischen Systems eingesetzt werden.In the network of 1 For example, continuous states and actions are processed from the input layer I, so that, as part of the estimation of the hidden states, continuous hidden state vectors s _c in the hidden layer H are first obtained. In order to obtain a suitable representation of the technical system via such hidden states, a suitable optimization target T _SE (SE = State Estimation) is defined in the output layer O, which is generally designed in such a way that the state in the hidden layer as well as possible satisfies the Markov property, according to which a subsequent state depends only on the current state and the action applied to it. In the network of 1 First, the continuous hidden state s _{c is} estimated using methods known per se based on training data, for example, those in the publications DE 10 2007 001 025 B1 respectively. DE 10 2007 001 026 B1 described methods for modeling the dynamic behavior of the technical system are used.

Da die Lern- bzw. Optimierungsverfahren (z. B. Q-Learning oder Prioritized Sweeping), welche anschließend den geschätzten versteckten Zustand s_c zum Lernen einer Aktionsauswahlregel weiterverarbeiten, meist diskrete versteckte Zustände benötigen, wird anschließend eine entsprechende Diskretisierung bzw. Vektorquantisierung VQ vorgenommen, wodurch der kontinuierliche versteckte Zustand s_c auf einen diskreten Zustand s_c abgebildet wird, der anschließend dem verwendeten Lern- bzw. Optimierungsverfahren als Eingangsgröße dient. Die Diskretisierung kann dabei bspw. auf äquidistantem Binning, K-Means-Clustering oder Verfahren basierend auf selbstorganisierenden Karten (auch als SOM bezeichnet, SOM = Self Organizing Maps) erfolgen. Diese bekannten Methoden optimieren Ziele wie die Datendichte im Zustandsraum, berücksichtigen jedoch nicht die dynamischen Aspekte des modellierten technischen Systems. Insbesondere kann es bei solchen Verfahren zu einer größeren Verletzung der Markov-Eigenschaft kommen, was wiederum zu einer schlechten Zustandsschätzung und einer schlechten Modellierung des technischen Systems führt. Dies hat wiederum eine schlecht gelernte Aktionsauswahlregel zur Folge.Since the learning or optimization methods (eg Q-learning or prioritized sweeping), which subsequently process the estimated hidden state s _c for learning an action selection rule, usually require discrete hidden states, then a corresponding discretization or vector quantization VQ is subsequently performed whereby the continuous hidden state s _{c is} mapped to a discrete state s _c , which then serves as the input to the learning or optimization method used. The discretization can take place, for example, on equidistant binning, K-means clustering or methods based on self-organizing maps (also referred to as SOM, SOM = self-organizing maps). These known methods optimize goals such as data density in the state space, but do not take into account the dynamic aspects of the modeled engineering system. In particular, such methods may result in a greater violation of the Markov property, which in turn leads to poor state estimation and poor modeling of the technical system. This in turn results in a badly learned action selection rule.

Um die oben beschriebenen Nachteile der Zustandsschätzung gemäß 1 zu umgehen, wird erfindungsgemäß die in 2 schematisch angedeutete Zustandsschätzung verwendet. Diese Zustandsschätzung beruht wiederum auf einem rekurrenten neuronalen Netz mit einer Eingangsschicht I, einer versteckten Schicht H und einer Ausgabeschicht O. Im Unterschied zu dem Verfahren der 1 wird als Optimierungsziel nicht nur das Target T_SE betrachtet, sondern es wird ein zweites Optimierungsziel in der Form eines Targets T_VQ eingeführt. Dieses Target repräsentiert das Ziel einer geeigneten Diskretisierung der versteckten Zustände der versteckten Schicht, wobei die diskreten versteckten Zustände in 2 mit s_d bezeichnet sind. Das Target ist dabei derart definiert, dass Abweichungen zwischen dem kontinuierlichen Zustandsvektor und dem diskreten Zustandsvektor der versteckten Schicht bestraft werden. Dies kann in geeigneter Weise als Optimierungsziel derart formuliert werden, dass die Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen Zustandsvariablen und den diskreten Zustandsvariablen eines versteckten Zustandsvektors zum aktuellen Zeitpunkt t möglichst gering ist.In order to overcome the disadvantages of state estimation described above 1 to circumvent, according to the invention in 2 schematically indicated state estimation used. This state estimation is in turn based on a recurrent neural network with an input layer I, a hidden layer H and an output layer O. In contrast to the method of 1 For example, as the optimization target, not only the target T _{SE is} considered, but a second optimization target in the form of a target T _{VQ is} introduced. This target represents the goal of proper discretization of the hidden states of the hidden layer, with the discrete hidden states in 2 are denoted by s _d . The target is defined such that deviations between the continuous state vector and the discrete state vector of the hidden layer are punished. This can be suitably formulated as an optimization target such that the sum of the magnitude differences between the continuous state variables and the discrete state variables of a hidden state vector at the current time t is as small as possible.

In einer bevorzugten Variante der Erfindung wird als Aktivierungsfunktion der einzelnen Neuronen für einen versteckten Zustand eine Funktion verwendet, deren Wertebereich zwischen –1 und 1 liegt, beispielsweise die tanh-Funktion. In diesem Fall kann das Optimierungsziel gemäß dem Target T_VQ derart formuliert werden, dass die Summe der betragsmäßigen Aktivitäten der Neuronen des versteckten Zustandsvektors der Dimension des versteckten Zustandsvektors entspricht. Hierdurch wird erreicht, dass die Aktivitäten möglichst gut auf die diskreten Aktivitätswerte –1 und 1 abgebildet werden.In a preferred variant of the invention, a function whose range of values lies between -1 and 1, for example the tanh function, is used as the activation function of the individual neurons for a hidden state. In this case, the optimization target according to the target T _{VQ may be} formulated such that the sum of the magnitude activities of the neurons of the hidden state vector corresponds to the dimension of the hidden state vector. This ensures that the activities are mapped as well as possible to the discrete activity values -1 and 1.

Gemäß dem Verfahren der 2 wird erreicht, dass die Diskretisierung der versteckten Zustände nunmehr Teil der Zustandsschätzung wird. Insbesondere kann das entsprechende Optimierungsziel in einer gemeinsamen Kostenfunktion einfließen. Ein Summand der Kostenfunktion betrifft dabei das Target T_SE der Zustandsschätzung und der andere Summand der Kostenfunkton das Target T_VQ der Diskretisierung, wobei die Summanden in geeigneter Weise gewichtet werden. Nach Abschluss der Zustandsschätzung kann dann wiederum ein Verfahren zur Ermittlung einer Aktionsauswahlregel verwendet werden, welches auf diskreten versteckten Zuständen arbeitet.According to the method of 2 it is achieved that the discretization of the hidden states now becomes part of the state estimation. In particular, the corresponding optimization target can be incorporated in a common cost function. One summand of the cost function concerns the target T _{SE of} the state estimation and the other summand the cost function the target T _{VQ of} the discretization, the summands being suitably weighted. Once the state estimation has been completed, a method for determining an action selection rule which operates on discrete hidden states can then be used again.

3 zeigt nochmals eine konkrete Realisierung der Erfindung basierend auf einem Markov-Entscheidungsprozess-Extraktions-Netzwerk. Ein solches neuronales Netz ist im Detail in der deutschen Patentanmeldung Nr. 10 2010 011 221.6 beschrieben. Das rekurrente neuronale Netz der 3 umfasst eine Eingangsschicht I aus Zustandsvektoren z_t-3, z_t-2, ..., z_t sowie entsprechend ausgeführten Aktionen a_t-2, a_t-1, a_t, ..., a_t+3. Durch τ = t–3, ..., t + 3 werden dabei aufeinander folgende Zeitpunkte repräsentiert, wobei τ = t den aktuellen Zeitpunkt wiedergibt. Für die einzelnen Paare aus Zustandsvektor und Aktion existieren ferner entsprechende Bewertungssignale bzw. Belohnungen r_t, r_t+1 usw., welche die in einem entsprechenden Zustand des technischen Systems durchgeführte Aktion nach bestimmten Kriterien bewerten, wobei die Kriterien derart festgelegt sind, dass Aktionen mit höheren Bewertungen gemäß den Bewertungssignalen einen qualitativ besseren Betrieb des technischen Systems, beispielsweise im Hinblick auf einen guten Wirkungsgrad oder eine geringe Schadstoffemission, gewährleisten. 3 again shows a concrete implementation of the invention based on a Markov decision process extraction network. Such a neural network is described in detail in German Patent Application No. 10 2010 011 221.6 described. The recurrent neural network of 3 comprises an input layer I of state vectors z _t-3 , z _t-2 ,..., z _t and correspondingly executed actions a _t-2 , a _t-1 , a _t ,..., a _{t + 3} . By τ = t-3, ..., t + 3 successive times are represented, where τ = t represents the current time. For the individual pairs of state vector and action, there are further corresponding evaluation signals or rewards r _t , r _{t + 1} , etc., which evaluate the action performed in a corresponding state of the technical system according to specific criteria, wherein the criteria are determined such that actions with higher ratings in accordance with the evaluation signals, ensure a better quality operation of the technical system, for example with regard to a good efficiency or a low emission of pollutants.

Neben der Eingangsschicht I ist im Netz der 3 die versteckte Schicht H vorgesehen, welche die entsprechenden versteckten Zustände s_t-3, s_t-2, ... s_t, ... s_t+3 enthält. Diese versteckten Zustände s_t sind mit den Zustandsvektoren z_t über Matrizen B gekoppelt. Ferner sind die Aktionen a_t an weitere versteckte Zustände (nicht gezeigt) über entsprechende Kopplungsmatrizen D gekoppelt. Die einzelnen Zustände s_t-3, s_t-2 usw. in der rekurrenten versteckten Schicht H sind über Matrizen A in der Vergangenheit und über Matrizen A^f in der Zukunft gekoppelt.In addition to the input layer I is in the network of 3 the hidden layer H is provided, which contains the corresponding hidden states s _t-3 , s _t-2 , ... s _t , ... s _{t + 3} . These hidden states s _t are coupled to the state vectors z _t via matrices B. Furthermore, the actions a _{t are} coupled to further hidden states (not shown) via respective coupling matrices D. The individual states s _t-3 , s _t-2 , etc. in the recurrent hidden layer H are coupled via matrices A in the past and matrices A ^f in the future.

Das neuronale Netz der 3 umfasst ferner eine Ausgangsschicht O, welche als Zustände die oben beschriebenen Bewertungssignale r_t, r_t+1, usw. enthält, die an die versteckte Schicht H über Matrizen C gekoppelt sind. Diese Bewertungssignale stellen das oben beschriebene Target T_SE dar, welches in dem Netz der 3 derart spezifiziert ist, dass die Summe der Abweichungen zwischen den modellierten Bewertungssignalen der Ausgangsschicht O und den Bewertungssignalen gemäß den Trainingsdaten minimal wird. Dies ist ein wesentlicher Aspekt des dargestellten Markov-Entscheidungsprozess-Extraktions-Netzwerks. Im Unterschied zu anderen bekannten neuronalen Netzen wird nunmehr die Ausgangsschicht O durch die Bewertungssignale und nicht durch Zustandsvektoren beschrieben. D. h., es werden lediglich Bewertungssignale prognostiziert. Hierdurch wird eine gute Modellierung des technischen Systems basierend auf den Trainingsdaten erreicht, wobei sichergestellt wird, dass die mit dem Netz modellierten versteckten Zustände sehr gut die oben beschriebene Markov-Eigenschaft erfüllen.The neural network of 3 further comprises an output layer O which contains as states the above-described evaluation signals r _t , r _{t + 1} , etc. coupled to the hidden layer H via matrices C. These evaluation signals represent the above-described target T _SE , which in the network of the 3 is specified such that the sum of the deviations between the modeled evaluation signals of the output layer O and the evaluation signals becomes minimum according to the training data. This is an essential aspect of the illustrated Markov decision process extraction network. Unlike other known neural networks, the output layer O is now described by the evaluation signals and not by state vectors. That is, only evaluation signals are predicted. This achieves a good modeling of the technical system based on the training data, ensuring that the hidden states modeled with the network very well meet the Markov property described above.

Im Rahmen der Ausführungsform der 3 wird nunmehr neben dem Optimierungsziel, das durch die Belohnungen r_t, r_t+1 usw. der Ausgangsschicht O repräsentiert wird, als weiteres Optimierungsziel das bereits anhand von 2 erläuterte Target T_VQ verwendet, wonach eine möglichst geringe Abweichung zwischen den zu modellierenden diskreten versteckten Zuständen und den kontinuierlichen Zuständen der versteckten Schicht im jeweiligen aktuellen Zeitpunkt t auftreten soll. Dies wird durch das neuronale Target T_VQ am versteckten Zustand s_t repräsentiert.In the context of the embodiment of 3 is now next to the optimization goal, which is represented by the rewards r _t , r _{t + 1} , etc. of the output layer O, as another optimization goal that already with reference to 2 explained target T _VQ used, according to which the smallest possible deviation between the discrete hidden states to be modeled and the continuous states of the hidden layer should occur in the current time t. This is represented by the neural target T _VQ at the hidden state s _t .

Nach der Zustandsschätzung der versteckten Zustände mit dem neuronalen Netz der 3 wird wiederum eine Aktionsauswahlregel gelernt, wobei hierfür wiederum diskrete Lernverfahren, wie das oben erwähnte Prioritized Sweeping, Q-Learning oder SARSA, eingesetzt werden können. Im Gegensatz zu kontinuierlichen Lernverfahren sind diskrete Lernverfahren besser theoretisch verstanden und robuster. Im Rahmen dieser Lernverfahren wird wiederum das Bewertungssignal berücksichtigt, um eine im Sinne des Bewertungssignals optimale Aktionsauswahlregel festzulegen. Diese Aktionsauswahlregel kann anschließend zur Steuerung bzw. Regelung des technischen Systems eingesetzt werden, um für einen aktuellen und ggf. vergangenen Zustände des technischen Systems die optimale Aktion, z. B. die beste Einstellung von Stellgrößen, festzulegen.After the state estimation of the hidden states with the neural network of the 3 In turn, an action selection rule is learned, again using discrete learning techniques such as the Prioritized Sweeping, Q-Learning or SARSA mentioned above. Unlike continuous learning, discrete learning techniques are better understood theoretically and more robust. In the context of these learning methods, in turn, the evaluation signal is taken into account in order to determine an optimal action selection rule in the sense of the evaluation signal. This action selection rule can then be used to control or regulate the technical system in order for a current and possibly past states of the technical system, the optimal action, eg. As the best setting of control variables set.

4 zeigt nochmals schematisch eine konkrete Verwendung der Erfindung zur Steuerung eines technischen Systems. Das technische System ist dabei durch eine Box T angedeutet. Das technische System kann z. B. eine Windturbine sein, deren Betrieb im Rahmen der Erfindung optimiert werden soll. Die Windturbine liefert dabei zu einer Vielzahl von Zeitpunkten entsprechende Zustandsvektoren in der Form von Betriebsgrößen sowie an der Turbine durchgeführte Aktionen, z. B. in der Form von Veränderungen von Stellgrößen. Diese Observablen OB werden als Trainingsdaten TD in einer Datenbank gespeichert. 4 shows again schematically a concrete use of the invention for controlling a technical system. The technical system is indicated by a box T. The technical system can z. B. be a wind turbine whose operation is to be optimized within the scope of the invention. The wind turbine supplies at a plurality of times corresponding state vectors in the form of operating variables and performed on the turbine actions, eg. In the form of changes in manipulated variables. These observables OB are stored as training data TD in a database.

Im Rahmen des erfindungsgemäßen Verfahrens erfolgt eine Modellierung des technischen Systems basierend auf den Trainingsdaten TD mit Hilfe eines rekurrenten neuronalen Netzes NN, das zum jeweiligen aktuellen Zeitpunkt einen versteckten Zustand des technischen Systems schätzt, wie im Vorangegangenen anhand von 2 und 3 beschrieben wurde. Dabei wird gleichzeitig mit der Zustandsschätzung auch die Diskretisierung der Zustände unter Berücksichtigung eines Targets T_VQ durchgeführt. Basierend auf der Zustandsschätzung wird ferner unter Verwendung der Trainingsdaten TD in dem Modul CPG (CPG = Control Policy Generator) die Aktionsauswahlregel unter Berücksichtigung entsprechender Bewertungssignale gelernt. Da die Zustandsschätzung diskrete versteckte Zustände liefert, können robuste bestärkende Lernverfahren zum Bestimmen der geeigneten Aktionsauswahlregel herangezogen werden.In the context of the method according to the invention, the technical system is modeled based on the training data TD with the aid of a recurrent neural network NN, which estimates a hidden state of the technical system at the current time, as described above with reference to FIG 2 and 3 has been described. At the same time as the state estimation, the discretization of the states is carried out taking into account a target T _VQ . Further, based on the state estimation, using the training data TD in the CPG (CPG = Control Policy Generator) module, the action selection rule is learned taking into account respective evaluation signals. Because state estimation provides discrete hidden states, robust fortifying learning techniques can be used to determine the appropriate action selection rule.

Durch die oben beschriebenen Lernschritte wird schließlich ein diskreter Zustandsschätzer SE und eine gelernte Aktionsauswahlregel CP erhalten, welche anschließend im Rahmen der Steuerung des realen Betriebs des technischen Systems genutzt werden können. Im Realbetrieb fließen dabei die Observablen OB in der Form der entsprechenden Zustandsvektoren in den Zustandsschätzer SE ein, der den versteckten Zustand schätzt und auf diesen die gelernte Aktionsauswahlregel CP anwendet. Als Ergebnis erhält man schließlich eine im Sinne des Bewertugnssignals optimale Aktion A, die dann auf das technische System angewendet wird. Im Rahmen des Betriebs des technischen Systems kann dabei parallel auch das Lernen der Aktionsauswahlregel durch neu hinzukommende Observablen OB immer weiter fortgesetzt werden, was in 4 dadurch angedeutet wird, dass die Observablen auch immer in die Datenbank der Trainingsdaten TD einfließen.By the learning steps described above, finally, a discrete state estimator SE and a learned action selection rule CP are obtained, which can then be used in the context of the control of the real operation of the technical system. In real operation, the observables OB in the form of the corresponding state vectors flow into the state estimator SE, which estimates the hidden state and applies the learned action selection rule CP to it. As a result, finally, an optimum action A is obtained in the sense of the evaluation signal, which is then applied to the technical system. In the context of the operation of the technical system, the learning of the action selection rule by newly added observables OB can be continued at the same time, which in 4 This implies that the observables also always flow into the database of training data TD.

Die im Vorangegangenen beschriebenen Varianten des erfindungsgemäßen Verfahrens weisen eine Reihe von Vorteilen auf. Insbesondere wird ein neuronaler Diskretisierungs-Ansatz für eine Zustandsschätzung geschaffen, welcher die Zustandsschätzung mit dem Diskretisierungs-Schritt kombiniert. Hierdurch können relevante dynamische Aspekte im Diskretisierungs-Schritt mit einfließen, und die Dynamik des technischen Systems kann in Bezug auf den diskretisierten Zustandsraum modelliert werden. Dies ist bei bekannten Ansätzen, bei denen der Diskretisierungs-Schritt nachgeschaltet ist, nicht der Fall. Das Verfahren der Erfindung ermöglicht simultan eine Optimierung des Fehlers der Zustandsschätzung sowie eine Approximation des diskretisierten Zustandsraums. Vorzugsweise wird das Ziel der Diskretisierung der versteckten Zustände dabei als eine Komponente einer Kostenfunktion formuliert. Diese Komponente kann als neuronales Ziel implementiert werden, das während der Modellierung des technischen Systems berücksichtigt wird. Die Integration der Diskretisierung in eine Kostenfunktion hat den weiteren Vorteil, dass eine verbesserte Modellierung eines diskreten Markov-Zustands erreicht wird.The variants of the method according to the invention described above have a number of advantages. In particular, a neural discretization approach is created for a state estimation that combines the state estimation with the discretization step. As a result, relevant dynamic aspects can be included in the discretization step, and the dynamics of the technical system can be modeled with respect to the discretized state space. This is not the case with known approaches in which the discretization step is followed. The method of the invention simultaneously enables optimization of the state estimation error as well as an approximation of the discretized state space. Preferably, the goal of the discretization of the hidden states is formulated as a component of a cost function. This component can be implemented as a neural target, which is taken into account during the modeling of the technical system. The integration of the discretization into a cost function has the further advantage that an improved modeling of a discrete Markov state is achieved.

Das erfindungsgemäße Verfahren ist insbesondere dann vorteilhaft, wenn in einem bestimmten Teil des Zustandsraums eine kleine Veränderung einer Zustandsvariablen zu einer großen Veränderung des nachfolgenden Zustands führt. Dieser Effekt kann durch die Modellierung der Diskretisierung innerhalb des rekurrenten neuronalen Netzes berücksichtigt werden, was bei einer naiven äquidistanten Diskretisierung nicht gewährleistet ist.The method according to the invention is particularly advantageous when, in a certain part of the state space, a small change in a state variable leads to a large change in the subsequent state. This effect can be taken into account by modeling the discretization within the recurrent neural network, which is not guaranteed in a naive equidistant discretization.

Das erfindungsgemäße Verfahren kann zur Generierung einer Aktionsauswahlregel zur geeigneten Steuerung bzw. Regelung beliebiger technischer Systeme eingesetzt werden. Bevorzugte Anwendungsfälle sind dabei die Regelung bzw. Steuerung von Windturbinen oder Gasturbinen, deren Betrieb im Hinblick auf bestimmte Kriterien über die gelernte Aktionsauswahlregel optimiert wird.The inventive method can be used to generate an action selection rule for the appropriate control or regulation of any technical systems. Preferred applications are the regulation or control of wind turbines or gas turbines, the operation of which is optimized with regard to certain criteria via the learned action selection rule.

Claims

Method for computer-aided learning of a control and / or control of a technical system, in which: a) the technical system (T) is characterized for a plurality of points in time (t) by a state (z _t ) with a number of continuous state variables and an action (a _t ) performed on the technical system with a number of action variables; b) hidden states (s _t ) of the technical system (T) with a number of hidden variables by the optimization of a first optimization target (T _SE ) by means of a recurrent neural network (NN) based on training data comprising known states (z _t ) and actions (a _t ), wherein the recurrent neural network (NN) is formed by at least one input layer (I) comprising states (z _t ) of the technical system (T) and the actions performed on the technical system (T) (a _t ) at least one hidden recurrent layer (H) comprising the hidden states (s _t ) of the technical system and at least one output layer (O) comprising states (r _t ) representing the first optimization target; c) on the estimated hidden states (s _t ) an action selection rule (CP) is learned with a learning and / or optimization method, wherein the learned action selection rule (CP) in the control and / or regulation of the technical system an action to be performed on the technical system (a _t ) as a function of one or more states (z _t ) of the technical system indicates; characterized in that, as part of the estimation of the hidden states (s _t ), a discretization of the values of the hidden variables of the hidden states (s _t ) is performed by optimizing a second optimization target (T _VQ ), which is designed such that the deviation of a discrete hidden state (s _d ) from a continuous hidden state (s _c ) is as low as possible.

The method of claim 1, wherein the learning and / or optimization method in step c) is a machine learning method and in particular a fortärkendes learning method.

Method according to Claim 1 or 2, in which the learning and / or optimization method in step c) comprises dynamic programming and / or prioritized sweeping and / or Q-learning and / or SARSA.

Method according to one of the preceding claims, in which the technical system (T) further through the evaluation signals (r _t), which in each case from one state (z _t) of the technical system and in this state (z _t) executed action (a _t) depend, and the training data comprise corresponding known evaluation signals (r _t ).

Method according to one of the preceding claims in combination with claim 4, in which the at least one output layer (O) of the recurrent neural network (NN) comprises at least part of the state variables of the states (z _t ) and / or at least part of the action variables of the actions ( a _t ) and / or the evaluation signals (r _t ).

Method according to Claim 5, in which the output layer (O) of the recurrent neural network (NN) comprises exclusively evaluation signals (r _t ) or exclusively those state and / or action variables which influence the evaluation signals (r _t ).

Method according to one of claims 4 to 6, wherein the evaluation signals (r _t ) are represented by an evaluation function which depends on a part of the state and / or action variables.

Method according to one of the preceding claims, in which the first and the second optimization target (T _SE , T _VQ ) are contained in a common cost function to be optimized as summands and in particular as weighted summands.

Method according to claim 8, wherein in the cost function the first optimization target (T _SE ) is included as a sum of the absolute differences between the states (r _t ) of the output layer (O) and the corresponding training data and / or the second optimization target as a sum the difference in magnitude between the continuous hidden state variables (S _c ) and the discrete hidden state variables of a hidden state (s _d ) is included.

Method according to one of the preceding claims, in which the state variables of the hidden states (s _t ) represented by neurons assume continuous activities in a value range between -1 and 1 or are mapped onto this value range, the second optimization target (T _VQ ) being determined in such a way in that the sum of the magnitude-related activities of the neurons corresponds to the number of state variables of the hidden states (s _t ).

Method according to one of the preceding claims, in which the technical system (T) is a turbine, in particular a gas turbine or a wind turbine.

Method according to one of the preceding claims, wherein the technical system (T) is a gas turbine, wherein the evaluation signal (r _t ) at least by the efficiency and / or pollutant emission of the gas turbine and / or the alternating pressures and / or mechanical loads of the combustion chambers of Gas turbine is determined.

Method according to one of the preceding claims in combination with claim 4, wherein the technical system (T) is a wind turbine, wherein the evaluation signal (r _t ) at least by the force load and / or alternating _load on one or more blades of the wind turbine and / or generated electrical power is determined.

Method for controlling and / or regulating a technical system, wherein an action selection rule (CP) is learned with a method according to one of the preceding claims and the technical system is controlled and / or regulated on the basis of the learned action selection rule (CP).

Computer program product with a program code stored on a machine-readable carrier for carrying out the method according to one of the preceding claims, when the program runs on a computer.