DE102011076969B4

DE102011076969B4 - Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems

Info

Publication number: DE102011076969B4
Application number: DE201110076969
Authority: DE
Inventors: Siegmund Düll; Steffen Udluft
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens Energy Global GmbH and Co KG
Priority date: 2011-06-06
Filing date: 2011-06-06
Publication date: 2015-01-08
Anticipated expiration: 2031-06-07
Also published as: DE102011076969A1

Abstract

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems (T), wobei das technische System für mehrere Zeitpunkte jeweils durch einen Zustand (Zt) und eine am technischen System durchgeführten Aktion (at) charakterisiert wird. Dabei werden versteckte Zustände (st) des technischen Systems mit Hilfe eines rekurrenten neuronalen Netzes (NN) basierend auf Trainingsdaten umfassend bekannte Zustände und Aktionen geschätzt, wobei im Rahmen der Zustandsschätzung ein erstes Optimierungsziel (TSE) berücksichtigt wird, welches durch die Ausgangsschicht (O) des rekurrenten neuronalen Netzes repräsentiert wird. Anschließend wird auf den versteckten Zuständen (st) eine Aktionsauswahlregel (CP) mit einem Lern- und/oder Optimierungsverfahren gelernt, wobei die gelernte Aktionsauswahlregel bei der Steuerung und/oder Regelung des technischen Systems eingesetzt wird. Erfindungsgemäß wird im Rahmen der Zustandsschätzung eine Diskretisierung der versteckten Zustände (st) durch die Optimierung eines zweiten Optimierungsziel (TVQ) durchgeführt, welches derart ausgestaltet ist, dass die Abweichung eines diskreten versteckten Zustands (sc) von einem kontinuierlich versteckten Zustand (sc) möglichst gering ist. Auf diese Weise wird eine gute Modellierung des technischen Systems durch diskrete Zustände erreicht. Dabei können im nachfolgenden Lernen der Aktionsauswahlregel robuste diskrete bestärkende Lernverfahren, wie z. B. dynamische Programmierung, eingesetzt werden. Das erfindungsgemäße Verfahren kann z. B. zum Lernen einer Regelung bzw. Steuerung einer Gasturbine oder Windturbine genutzt werden.

Description

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems sowie ein entsprechendes Computerprogrammprodukt.
Heutzutage weisen technische Systeme in der Regel eine hohe Komplexität auf, d. h. sie werden durch Zustände mit einer Vielzahl von Zustandsvariablen beschrieben. Ferner können an dem technischen System viele unterschiedliche Aktionen basierend auf entsprechenden Aktionsvariablen durchgeführt werden. Die Zustandsvariablen sind hierbei insbesondere messbare Zustandsgrößen des technischen Systems, wie z. B. physikalischen Größen, wie Druck, Temperatur, Leistung und dergleichen. Die Aktionsvariablen stellen insbesondere einstellbare Größen des technischen Systems dar, wie z. B. die Zufuhr von Brennstoff zu Brennkammern in Gasturbinen.
Bei der Steuerung von komplexen technischen Systemen werden oftmals rechnergestützte Verfahren verwendet, welche das dynamische zeitliche Verhalten des technischen Systems unter Berücksichtigung vorbestimmter Kriterien optimieren. Im Rahmen solcher Lernverfahren wird das Verhalten des technischen Systems basierend auf Trainingsdaten durch ein rekurrentes neuronales Netz modelliert, wobei das rekurrente neuronale Netz eine rekurrente versteckte Schicht aufweist, mit der versteckte Zustände des technischen Systems geschätzt werden. Die geschätzten Zustände werden dann dazu benutzt, um eine geeignete Aktionsauswahlregel zu lernen, wobei hierzu vorzugsweise bestärkende Lernverfahren (Reinforcement Learning) eingesetzt werden. Mit der gelernten Aktionsauswahlregel wird dann im Betrieb des technischen Systems für den aktuellen Zustand und gegebenenfalls vergangene Zustände des technischen Systems die durchzuführende Aktion bestimmt. Die Aktion ist dabei in geeigneter Weise an den gewünschten Betrieb des technischen Systems angepasst. Insbesondere wird beim Lernen der Aktionsauswahlregel ein geeignetes Bewertungssignal berücksichtigt, wobei dieses Signal jede Aktion bewertet und das dynamische Verhalten des technischen Systems um so besser ist, je höher die Bewertung gemäß dem Bewertungssignal ist.
Oftmals liegen die Zustände eines technischen Systems und gegebenenfalls auch die Aktionen als kontinuierliche Zustands- bzw. Aktionsvariablen vor, so dass im Rahmen der Zustandsschätzung mit einem rekurrenten neuronalen Netz auch kontinuierliche versteckte Zustände generiert werden. Um beim anschließenden Lernen der Aktionsauswahlregel robuste Lernverfahren einzusetzen, welche diskrete Zustände verarbeiten, ist es aus dem Stand der Technik bekannt, in einem separaten Diskretisierungs-Schritt die einzelnen Zustandsvariablen der versteckten Zustände zu diskretisieren. Hierzu werden z. B. Vektorquantisierungs-Verfahren eingesetzt, wie äquidistantes Binning, K-Means-Clustering, selbst-organisierende Karten und dergleichen. Es erweist sich hierbei als nachteilig, dass durch diese Diskretisierung die dynamischen Aspekte der Zustandsschätzung nicht mit berücksichtigt werden, was zum Auftreten von Fehlern in der Zustandsschätzung und somit auch zu Fehlern beim anschließenden Lernen der Aktionsauswahlregel führen kann. Dies verschlechtert wiederum die Regelung bzw. Steuerung des technischen Systems basierend auf der gelernten Aktionsauswahlregel.
Die Druckschrift WO 2005/081076 A2 offenbart ein rechnergestütztes Verfahren zur Analyse und Prognose des Zustands einer Brennkammer unter Verwendung eines rekurrenten neuronalen Netzes.
In der Druckschrift A. Hans, S. Udluft: Uncertainty Propagation for Efficient Exploration in Reinforcement Learning. Amsterdam, The Netherlands: IOS Press, 2010 (Proc. 19^th European Conf. an Artificial Intelligence 2010, Lisbon, Portugal wird die Exploration eines Zustandraums basierend auf einer Aktionsauswahregel beschrieben, welche eine Belohnung maximiert.
In der Druckschrift WO 97/36 248 A1 wird ein rechnergestütztes Verfahren zur Ermittlung von zur Entfernung geeigneten Gewichten eines neuronalen Netzes beschrieben, bei dem die Trainingsphase des neuronalen Netzes gestoppt wird, bevor sich eine in der Trainingsphase zu minimierende Fehlerfunktion in einem Minimum befindet.
Aufgabe der Erfindung ist es, ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems zu schaffen, welches das technische System gut modelliert und basierend darauf eine Aktionsauswahlregel zur Steuerung bzw. Regelung des technischen Systems lernt.
Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
Das erfindungsgemäße Verfahren dient zum Lernen einer Regelung bzw. Steuerung eines technischen Systems, welches für mehrere Zeitpunkte jeweils durch einen Zustand mit einer Anzahl von kontinuierlichen Zustandsvariablen und eine am technischen System durchgeführte Aktion mit einer Anzahl von (kontinuierlichen oder ggf. auch diskreten) Aktionsvariablen charakterisiert wird.
Im erfindungsgemäßen Verfahren werden versteckte Zustände des technischen Systems mit einer Anzahl von versteckten Variablen durch die Optimierung eines ersten Optimierungsziels mittels eines rekurrenten neuronalen Netzes basierend auf Trainingsdaten umfassend bekannte Zustände und Aktionen geschätzt. Das rekurrente neuronale Netz ist dabei gebildet durch wenigstens eine Eingangsschicht umfassend Zustände des technischen Systems und die am technischen System durchgeführten Aktionen, wenigstens eine versteckte rekurrente Schicht umfassend die versteckten Zustände des technischen Systems und wenigstens eine Ausgangsschicht umfassend Zustände, welche das erste Optimierungsziel repräsentieren. Das rekurrente neuronale Netz modelliert somit das zeitliche Verhalten des technischen Systems basierend auf den zeitlich aufeinander folgenden Zuständen und Aktionen. Die Zustandsschätzung liefert dabei für den aktuellen Zeitpunkt die Schätzung eines versteckten Zustands. Die Schätzung ist dabei insbesondere derart ausgestaltet, dass die sog. Markov-Eigenschaft erfüllt ist, wonach der Folgezustand eines versteckten Zustands nur von der ausgeführten Aktion und dem momentanen versteckten Zustand abhängt.
Das erfindungsgemäße Verfahren zeichnet sich dadurch aus, dass im Rahmen der soeben beschriebenen Schätzung der versteckten Zustände eine Diskretisierung der Werte der versteckten Variablen dieser Zustände durch die Optimierung eines weiteren zweiten Optimierungsziels durchgeführt wird, welches derart ausgestaltet ist, dass die (betragsmäßige) Abweichung eines diskreten versteckten Zustands von einem kontinuierlichen versteckten Zustand möglichst gering ist. Dieses Optimierungsziel kann im rekurrenten neuronalen Netzes durch ein entsprechendes Target-Cluster repräsentiert werden. Im Unterschied zu herkömmlichen Verfahren, bei denen die Diskretisierung unabhängig von der Zustandsschätzung in einem nachgeschalteten Schritt durchgeführt wird, berücksichtigt das erfindungsgemäße Verfahren das Problem der Diskretisierung bereits bei der Zustandsschätzung. Somit fließt die Dynamik des technischen Systems bei der Diskretisierung mit ein und kann in Bezug auf den diskreten Raum der versteckten Zustände modelliert werden. Auf diese Weise wird eine gute Modellierung des Verhaltens des technischen Systems basierend auf Trainingsdaten erreicht, wobei insbesondere eine verbesserte Zustandsschätzung erreicht wird, welche sehr gut die Markov-Eigenschaft erfüllt.
Nach der Zustandsschätzung wird im Rahmen des erfindungsgemäßen Verfahrens auf den geschätzten versteckten (diskreten) Zuständen eine Aktionsauswahlregel mit einem Lern- und/oder Optimierungsverfahren gelernt, wobei die gelernte Aktionsauswahlregel bei der Steuerung und/oder Regelung des technischen Systems eine am technischen System durchzuführende Aktion in Abhängigkeit von einem oder mehreren Zuständen des technischen Systems angibt. Durch die verbesserte erfindungsgemäße Zustandsschätzung wird dabei gewährleistet, dass auch das nachfolgende Lernen der Aktionsauswahlregel verbessert wird. Zum Lernen der Aktionsauswahlregel können an sich bekannte Verfahren eingesetzt werden, insbesondere können maschinelle Lernverfahren, und vorzugsweise bestärkende Lernverfahren verwendet werden. Erfindungsgemäß ist es dabei von Vorteil, dass robuste und theoretisch gut verstandene diskrete Lernverfahren (d. h. Verfahren, die auf diskreten versteckten Zuständen arbeiten) zum Einsatz kommen können. Bevorzugte Varianten von verwendeten Lernverfahren sind dynamische Programmierung und/oder Prioritized Sweeping und/oder Q-Learning und/oder SARSA (SARSA = State-Action-Reward-State-Action). All diese Verfahren sind hinlänglich aus dem Stand der Technik bekannt und werden deshalb nicht weiter im Detail beschrieben.
In einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens wird das technische System ferner durch Bewertungssignale, welche jeweils von einem Zustand des technischen Systems und der in diesem Zustand durchgeführten Aktion abhängen, charakterisiert, wobei die Trainingsdaten, mit denen die Zustandsschätzung durchgeführt wird, entsprechende bekannte Bewertungssignale für die jeweiligen bekannten Zustände und Aktionen umfassen. Diese Bewertungssignale werden insbesondere auch im Lern- bzw. Optimierungsverfahren zum Lernen der Aktionsauswahlregel verwendet, so dass die gelernte Aktionsauswahlregel derart ausgestaltet ist, dass die Aktionen im Hinblick auf ein optimales Bewertungssignal ausgeführt werden. Das Bewertungssignal beschreibt somit einen gemäß bestimmten Kriterien optimalen Betrieb des technischen Systems. Beispielsweise kann das Bewertungssignal derart ausgestaltet sein, dass hiermit ein Betrieb mit einem hohen Wirkungsgrad bzw. geringer Schadstoffemission bzw. geringer mechanischer Belastung erreicht wird.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens umfasst die Ausgangsschicht des rekurrenten neuronalen Netzes zumindest einen Teil der Zustandsvariablen der Zustände und/oder zumindest einen Teil der Aktionsvariablen der Aktionen. Das erste Optimierungsziel gemäß der Zustandsschätzung wird dabei durch eine geringe Abweichung der (zukünftigen) Zustände bzw. Aktionen gemäß Trainingsdaten von den über das Netz prognostizierten Zuständen bzw. Aktionen beschrieben. Ebenso kann das Optimierungsziel durch eine geringe Abweichung zwischen den (zukünftigen) tatsächlichen Bewerungssignalen gemäß den Trainingsdaten und den über das rekurrente neuronale Netz prognostizierten Bewertungssignalen beschrieben werden.
In einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens umfasst die wenigstens eine Ausgangsschicht des rekurrenten neuronalen Netzes ausschließlich Bewertungssignale oder ausschließlich solche Zustands- und/oder Aktionsvariablen, welche die Bewertungssignale beeinflussen. Auf diese Weise wird ein Markov-Entscheidungsprozess-Extraktions-Netzwerk geschaffen, das im Wesentlichen dem Netzwerk aus der deutschen Patentanmeldung Nr. 10 2010 011 221.6 entspricht. Im Unterschied zu dem Netzwerk aus der früheren Anmeldung wird nunmehr jedoch die Zustandsschätzung unter Einbeziehung der Diskretisierung der versteckten Zustände basierend auf einem zweiten Optimierungsziel durchgeführt. Das Markov-Entscheidungsprozess-Extraktions-Netzwerk beruht auf der Erkenntnis, dass ein rekurrentes neuronales Netz, welches in der Ausgangsschicht lediglich Bewertungssignale bzw. davon abhängige Zustände berücksichtigt, einen Zustandsschätzer modelliert, der die Markov-Eigenschaft erfüllt.
Die oben beschriebenen Bewertungssignale können in dem erfindungsgemäßen Verfahren auf verschiedene Art und Weise repräsentiert werden. Z. B. können die Bewertungssignale durch eine Bewertungsfunktion repräsentiert sein, welche von einem Teil der Zustands- und/oder Aktionsvariablen abhängen.
In einer weiteren, besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens sind das erste und das zweite Optimierungsziel in einer gemeinsamen zu optimierenden Kostenfunktion als Summanden, insbesondere als gewichtete Summanden, enthalten. Durch die Einstellung der Gewichte der Summanden kann dabei berücksichtigt werden, wie stark die Diskretisierung im Rahmen der Zustandsschätzung als Parameter einfließen soll.
In einer weiteren bevorzugten Ausführungsform ist in der Kostenfunktion das erste Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den Zuständen der Ausgangsschicht und den entsprechenden Trainingsdaten enthalten, welche diesen Zuständen entsprechen. Analog kann das zweite Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen versteckten Zustandsvariablen und den diskreten versteckten Zustandsvariablen eines versteckten Zustands repräsentiert werden. Der Begriff des betragsmäßigen Unterschieds ist dabei weit zu verstehen und kann z. B. eine lineare Abweichung oder auch eine quadratische Abweichung umfassen.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens nehmen die durch Neuronen repräsentierten Zustandsvariablen der versteckten Zustände kontinuierliche Werte in einem Wertebereich zwischen –1 und 1 an oder die Aktivitäten werden auf diesen Wertebereich abgebildet. In einem solchen Fall wird das zweite Optimierungsziel vorzugsweise derart festgelegt, dass die Summe der betragsmäßigen Aktivitäten der Neuronen der Anzahl an Zustandsvariablen der versteckten Zustände entspricht.
Das erfindungsgemäße Verfahren kann in beliebigen technischen Systemen zu deren Steuerung bzw. Regelung eingesetzt werden. In einer besonders bevorzugten Variante wird das erfindungsgemäße Verfahren zur Steuerung einer Turbine, insbesondere einer Gasturbine oder Windturbine, verwendet. Für eine Gasturbine ist das Bewertungssignal beispielsweise zumindest durch den Wirkungsgrad und/oder die Schadstoffemission der Turbine und/oder die mechanischen Belastungen der Brennkammern der Turbine bestimmt. Ziel der Optimierung ist dabei ein hoher Wirkungsgrad bzw. eine geringe Schadstoffemission bzw. eine geringe mechanische Belastung der Brennkammern. Bei der Verwendung des Verfahrens zur Regelung bzw. Steuerung einer Windturbine kann das Bewertungssignal beispielsweise zumindest durch die Kraftbelastung und/oder Wechselbelastung auf ein oder mehrere Rotorblätter der Windturbine und/oder die erzeugte elektrische Leistung bestimmt sein.
Neben dem oben beschriebenen Lernverfahren betrifft die Erfindung ferner ein Verfahren zur Steuerung und/oder Regelung eines technischen Systems, wobei eine Aktionsauswahlregel mit dem erfindungsgemäßen Lernverfahren gelernt ist oder gelernt wird und das technische System basierend auf der gelernten Aktionsauswahlregel gesteuert und/oder geregelt wird.
Die Erfindung umfasst darüber hinaus ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner abläuft.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
Es zeigen:
1 eine schematische Darstellung einer Zustandsschätzung durch ein rekurrentes neuronales Netz gemäß dem Stand der Technik;
2 eine schematische Darstellung einer Ausführungsform der erfindungsgemäßen Zustandsschätzung mit einem rekurrenten neuronalen Netz;
3 ein rekurrentes neuronales Netz, in dem eine Ausführungsform des erfindungsgemäßen Verfahrens implementiert ist; und
4 eine schematische Darstellung der Regelung eines technischen Systems unter Verwendung der mit dem erfindungsgemäßen Verfahren gelernten Aktionsauswahlregel.
Die nachfolgend beschriebenen Ausführungsformen des erfindungsgemäßen Verfahrens modellieren das dynamische Verhalten eines technischen Systems basierend auf einem rekurrenten neuronalen Netz. Das technische System wird dabei durch Zustände in der Form von zeitlich aufeinander folgenden Zustandsvektoren mit einer Anzahl von Zustandsvariablen sowie durch in den jeweiligen Zuständen durchgeführte Aktionen beschrieben, wobei die Aktionen ebenfalls Vektoren mit einer Anzahl von Aktionsvariablen darstellen.
Das zur Modellierung verwendete rekurrente neuronale Netz umfasst die zeitlich aufeinander folgenden Zustände als Eingangsschicht, die mit einer versteckten neuronalen Schicht gekoppelt ist, welche versteckte Zustände in der Form von versteckten Zustandsvektoren aus versteckten Zustandsvariablen umfasst. An die versteckte neuronale Schicht schließt sich eine Ausgangsschicht an. Das erfindungsgemäße Verfahren modelliert dabei ein technisches System mit kontinuierlichen Zuständen und ggf. auch kontinuierlichen Aktionen und es ist das Ziel, mit dem rekurrenten neuronalen Netz versteckte Zustände abzuschätzen und basierend auf diesen Zuständen eine geeignete Aktionsauswahlregel zu lernen. Diese Aktionsauswahlregel liefert dann im Betrieb des technischen Systems für einen aktuellen und ggf. mehrere vergangenen Zustandsvektoren die optimale Aktion, wobei die optimale Aktion insbesondere in Abhängigkeit von den weiter unten beschriebenen Bewertungssignalen festgelegt wird.
Um im Rahmen des Lernens der Aktionsauswahlregel Verfahren verwenden zu können, welche auf diskreten versteckten Zuständen arbeiten, wird im erfindungsgemäßen Verfahren eine entsprechende Diskretisierung der an sich kontinuierlichen versteckten Zustände durchgeführt. Die Art der Diskretisierung unterscheidet sich dabei von Verfahren gemäß dem Stand der Technik.
1 zeigt schematisch die Schätzung eines versteckten Zustandes mit einem rekurrenten neuronalen Netz gemäß dem Stand der Technik. Die Eingangsschicht ist dabei durch das Bezugszeichen I, die verstecke Schicht durch das Bezugszeichen H und die Ausgangsschicht durch das Bezugszeichen O angedeutet. Das rekurrente neuronale Netz umfasst dabei in den einzelnen Schichten Neuronencluster aus mehreren künstlichen Neuronen, welche die Zustände in den einzelnen Schichten darstellen. Aus Übersichtlichkeitsgründen sind in 1 und auch in der nachfolgend beschriebenen 2 die Neuronencluster nicht detailliert wiedergegeben.
In dem Netz der 1 werden kontinuierliche Zustände und Aktionen aus der Eingangsschicht I verarbeitet, so dass im Rahmen der Schätzung der versteckten Zustände zunächst kontinuierliche versteckte Zustandsvektoren s_c in der versteckten Schicht H erhalten werden. Um eine geeignete Repräsentation des technischen Systems über solche versteckte Zustände zu erhalten, ist in der Ausgangsschicht O ein geeignetes Optimierungsziel bzw. Target T_SE (SE = State Estimation) festgelegt, welches in der Regel derart ausgestaltet ist, dass der Zustand in der versteckten Schicht möglichst gut die Markov-Eigenschaft erfüllt, wonach ein Folgezustand nur von dem aktuellen Zustand und der darauf angewendeten Aktion abhängt. Im Netz der 1 wird zunächst der kontinuierliche versteckte Zustand s_c mit an sich bekannten Verfahren basierend auf Trainingsdaten geschätzt, beispielsweise können die in den Druckschriften DE 10 2007 001 025 B1 bzw. DE 10 2007 001 026 B1 beschriebenen Verfahren zur Modellierung des dynamischen Verhaltens des technischen Systems eingesetzt werden.
Da die Lern- bzw. Optimierungsverfahren (z. B. Q-Learning oder Prioritized Sweeping), welche anschließend den geschätzten versteckten Zustand s_c zum Lernen einer Aktionsauswahlregel weiterverarbeiten, meist diskrete versteckte Zustände benötigen, wird anschließend eine entsprechende Diskretisierung bzw. Vektorquantisierung VQ vorgenommen, wodurch der kontinuierliche versteckte Zustand s_c auf einen diskreten Zustand s_c abgebildet wird, der anschließend dem verwendeten Lern- bzw. Optimierungsverfahren als Eingangsgröße dient. Die Diskretisierung kann dabei bspw. auf äquidistantem Binning, K-Means-Clustering oder Verfahren basierend auf selbstorganisierenden Karten (auch als SOM bezeichnet, SOM = Self Organizing Maps) erfolgen. Diese bekannten Methoden optimieren Ziele wie die Datendichte im Zustandsraum, berücksichtigen jedoch nicht die dynamischen Aspekte des modellierten technischen Systems. Insbesondere kann es bei solchen Verfahren zu einer größeren Verletzung der Markov-Eigenschaft kommen, was wiederum zu einer schlechten Zustandsschätzung und einer schlechten Modellierung des technischen Systems führt. Dies hat wiederum eine schlecht gelernte Aktionsauswahlregel zur Folge.
Um die oben beschriebenen Nachteile der Zustandsschätzung gemäß 1 zu umgehen, wird erfindungsgemäß die in 2 schematisch angedeutete Zustandsschätzung verwendet. Diese Zustandsschätzung beruht wiederum auf einem rekurrenten neuronalen Netz mit einer Eingangsschicht I, einer versteckten Schicht H und einer Ausgabeschicht O. Im Unterschied zu dem Verfahren der 1 wird als Optimierungsziel nicht nur das Target T_SE betrachtet, sondern es wird ein zweites Optimierungsziel in der Form eines Targets T_VQ eingeführt. Dieses Target repräsentiert das Ziel einer geeigneten Diskretisierung der versteckten Zustände der versteckten Schicht, wobei die diskreten versteckten Zustände in 2 mit s_d bezeichnet sind. Das Target ist dabei derart definiert, dass Abweichungen zwischen dem kontinuierlichen Zustandsvektor und dem diskreten Zustandsvektor der versteckten Schicht bestraft werden. Dies kann in geeigneter Weise als Optimierungsziel derart formuliert werden, dass die Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen Zustandsvariablen und den diskreten Zustandsvariablen eines versteckten Zustandsvektors zum aktuellen Zeitpunkt t möglichst gering ist.
In einer bevorzugten Variante der Erfindung wird als Aktivierungsfunktion der einzelnen Neuronen für einen versteckten Zustand eine Funktion verwendet, deren Wertebereich zwischen –1 und 1 liegt, beispielsweise die tanh-Funktion. In diesem Fall kann das Optimierungsziel gemäß dem Target T_VQ derart formuliert werden, dass die Summe der betragsmäßigen Aktivitäten der Neuronen des versteckten Zustandsvektors der Dimension des versteckten Zustandsvektors entspricht. Hierdurch wird erreicht, dass die Aktivitäten möglichst gut auf die diskreten Aktivitätswerte –1 und 1 abgebildet werden.
Gemäß dem Verfahren der 2 wird erreicht, dass die Diskretisierung der versteckten Zustände nunmehr Teil der Zustandsschätzung wird. Insbesondere kann das entsprechende Optimierungsziel in einer gemeinsamen Kostenfunktion einfließen. Ein Summand der Kostenfunktion betrifft dabei das Target T_SE der Zustandsschätzung und der andere Summand der Kostenfunkton das Target T_VQ der Diskretisierung, wobei die Summanden in geeigneter Weise gewichtet werden. Nach Abschluss der Zustandsschätzung kann dann wiederum ein Verfahren zur Ermittlung einer Aktionsauswahlregel verwendet werden, welches auf diskreten versteckten Zuständen arbeitet.
3 zeigt nochmals eine konkrete Realisierung der Erfindung basierend auf einem Markov-Entscheidungsprozess-Extraktions-Netzwerk. Ein solches neuronales Netz ist im Detail in der deutschen Patentanmeldung Nr. 10 2010 011 221.6 beschrieben. Das rekurrente neuronale Netz der 3 umfasst eine Eingangsschicht I aus Zustandsvektoren z_t-3, z_t-2, ..., z_t sowie entsprechend ausgeführten Aktionen a_t-2, a_t-1, a_t, ..., a_t+3. Durch τ = t–3, ..., t + 3 werden dabei aufeinander folgende Zeitpunkte repräsentiert, wobei τ = t den aktuellen Zeitpunkt wiedergibt. Für die einzelnen Paare aus Zustandsvektor und Aktion existieren ferner entsprechende Bewertungssignale bzw. Belohnungen r_t, r_t+1 usw., welche die in einem entsprechenden Zustand des technischen Systems durchgeführte Aktion nach bestimmten Kriterien bewerten, wobei die Kriterien derart festgelegt sind, dass Aktionen mit höheren Bewertungen gemäß den Bewertungssignalen einen qualitativ besseren Betrieb des technischen Systems, beispielsweise im Hinblick auf einen guten Wirkungsgrad oder eine geringe Schadstoffemission, gewährleisten.
Neben der Eingangsschicht I ist im Netz der 3 die versteckte Schicht H vorgesehen, welche die entsprechenden versteckten Zustände s_t-3, s_t-2, ... s_t, ... s_t+3 enthält. Diese versteckten Zustände s_t sind mit den Zustandsvektoren z_t über Matrizen B gekoppelt. Ferner sind die Aktionen a_t an weitere versteckte Zustände (nicht gezeigt) über entsprechende Kopplungsmatrizen D gekoppelt. Die einzelnen Zustände s_t-3, s_t-2 usw. in der rekurrenten versteckten Schicht H sind über Matrizen A in der Vergangenheit und über Matrizen A^f in der Zukunft gekoppelt.
Das neuronale Netz der 3 umfasst ferner eine Ausgangsschicht O, welche als Zustände die oben beschriebenen Bewertungssignale r_t, r_t+1, usw. enthält, die an die versteckte Schicht H über Matrizen C gekoppelt sind. Diese Bewertungssignale stellen das oben beschriebene Target T_SE dar, welches in dem Netz der 3 derart spezifiziert ist, dass die Summe der Abweichungen zwischen den modellierten Bewertungssignalen der Ausgangsschicht O und den Bewertungssignalen gemäß den Trainingsdaten minimal wird. Dies ist ein wesentlicher Aspekt des dargestellten Markov-Entscheidungsprozess-Extraktions-Netzwerks. Im Unterschied zu anderen bekannten neuronalen Netzen wird nunmehr die Ausgangsschicht O durch die Bewertungssignale und nicht durch Zustandsvektoren beschrieben. D. h., es werden lediglich Bewertungssignale prognostiziert. Hierdurch wird eine gute Modellierung des technischen Systems basierend auf den Trainingsdaten erreicht, wobei sichergestellt wird, dass die mit dem Netz modellierten versteckten Zustände sehr gut die oben beschriebene Markov-Eigenschaft erfüllen.
Im Rahmen der Ausführungsform der 3 wird nunmehr neben dem Optimierungsziel, das durch die Belohnungen r_t, r_t+1 usw. der Ausgangsschicht O repräsentiert wird, als weiteres Optimierungsziel das bereits anhand von 2 erläuterte Target T_VQ verwendet, wonach eine möglichst geringe Abweichung zwischen den zu modellierenden diskreten versteckten Zuständen und den kontinuierlichen Zuständen der versteckten Schicht im jeweiligen aktuellen Zeitpunkt t auftreten soll. Dies wird durch das neuronale Target T_VQ am versteckten Zustand s_t repräsentiert.
Nach der Zustandsschätzung der versteckten Zustände mit dem neuronalen Netz der 3 wird wiederum eine Aktionsauswahlregel gelernt, wobei hierfür wiederum diskrete Lernverfahren, wie das oben erwähnte Prioritized Sweeping, Q-Learning oder SARSA, eingesetzt werden können. Im Gegensatz zu kontinuierlichen Lernverfahren sind diskrete Lernverfahren besser theoretisch verstanden und robuster. Im Rahmen dieser Lernverfahren wird wiederum das Bewertungssignal berücksichtigt, um eine im Sinne des Bewertungssignals optimale Aktionsauswahlregel festzulegen. Diese Aktionsauswahlregel kann anschließend zur Steuerung bzw. Regelung des technischen Systems eingesetzt werden, um für einen aktuellen und ggf. vergangenen Zustände des technischen Systems die optimale Aktion, z. B. die beste Einstellung von Stellgrößen, festzulegen.
4 zeigt nochmals schematisch eine konkrete Verwendung der Erfindung zur Steuerung eines technischen Systems. Das technische System ist dabei durch eine Box T angedeutet. Das technische System kann z. B. eine Windturbine sein, deren Betrieb im Rahmen der Erfindung optimiert werden soll. Die Windturbine liefert dabei zu einer Vielzahl von Zeitpunkten entsprechende Zustandsvektoren in der Form von Betriebsgrößen sowie an der Turbine durchgeführte Aktionen, z. B. in der Form von Veränderungen von Stellgrößen. Diese Observablen OB werden als Trainingsdaten TD in einer Datenbank gespeichert.
Im Rahmen des erfindungsgemäßen Verfahrens erfolgt eine Modellierung des technischen Systems basierend auf den Trainingsdaten TD mit Hilfe eines rekurrenten neuronalen Netzes NN, das zum jeweiligen aktuellen Zeitpunkt einen versteckten Zustand des technischen Systems schätzt, wie im Vorangegangenen anhand von 2 und 3 beschrieben wurde. Dabei wird gleichzeitig mit der Zustandsschätzung auch die Diskretisierung der Zustände unter Berücksichtigung eines Targets T_VQ durchgeführt. Basierend auf der Zustandsschätzung wird ferner unter Verwendung der Trainingsdaten TD in dem Modul CPG (CPG = Control Policy Generator) die Aktionsauswahlregel unter Berücksichtigung entsprechender Bewertungssignale gelernt. Da die Zustandsschätzung diskrete versteckte Zustände liefert, können robuste bestärkende Lernverfahren zum Bestimmen der geeigneten Aktionsauswahlregel herangezogen werden.
Durch die oben beschriebenen Lernschritte wird schließlich ein diskreter Zustandsschätzer SE und eine gelernte Aktionsauswahlregel CP erhalten, welche anschließend im Rahmen der Steuerung des realen Betriebs des technischen Systems genutzt werden können. Im Realbetrieb fließen dabei die Observablen OB in der Form der entsprechenden Zustandsvektoren in den Zustandsschätzer SE ein, der den versteckten Zustand schätzt und auf diesen die gelernte Aktionsauswahlregel CP anwendet. Als Ergebnis erhält man schließlich eine im Sinne des Bewertugnssignals optimale Aktion A, die dann auf das technische System angewendet wird. Im Rahmen des Betriebs des technischen Systems kann dabei parallel auch das Lernen der Aktionsauswahlregel durch neu hinzukommende Observablen OB immer weiter fortgesetzt werden, was in 4 dadurch angedeutet wird, dass die Observablen auch immer in die Datenbank der Trainingsdaten TD einfließen.
Die im Vorangegangenen beschriebenen Varianten des erfindungsgemäßen Verfahrens weisen eine Reihe von Vorteilen auf. Insbesondere wird ein neuronaler Diskretisierungs-Ansatz für eine Zustandsschätzung geschaffen, welcher die Zustandsschätzung mit dem Diskretisierungs-Schritt kombiniert. Hierdurch können relevante dynamische Aspekte im Diskretisierungs-Schritt mit einfließen, und die Dynamik des technischen Systems kann in Bezug auf den diskretisierten Zustandsraum modelliert werden. Dies ist bei bekannten Ansätzen, bei denen der Diskretisierungs-Schritt nachgeschaltet ist, nicht der Fall. Das Verfahren der Erfindung ermöglicht simultan eine Optimierung des Fehlers der Zustandsschätzung sowie eine Approximation des diskretisierten Zustandsraums. Vorzugsweise wird das Ziel der Diskretisierung der versteckten Zustände dabei als eine Komponente einer Kostenfunktion formuliert. Diese Komponente kann als neuronales Ziel implementiert werden, das während der Modellierung des technischen Systems berücksichtigt wird. Die Integration der Diskretisierung in eine Kostenfunktion hat den weiteren Vorteil, dass eine verbesserte Modellierung eines diskreten Markov-Zustands erreicht wird.
Das erfindungsgemäße Verfahren ist insbesondere dann vorteilhaft, wenn in einem bestimmten Teil des Zustandsraums eine kleine Veränderung einer Zustandsvariablen zu einer großen Veränderung des nachfolgenden Zustands führt. Dieser Effekt kann durch die Modellierung der Diskretisierung innerhalb des rekurrenten neuronalen Netzes berücksichtigt werden, was bei einer naiven äquidistanten Diskretisierung nicht gewährleistet ist.
Das erfindungsgemäße Verfahren kann zur Generierung einer Aktionsauswahlregel zur geeigneten Steuerung bzw. Regelung beliebiger technischer Systeme eingesetzt werden. Bevorzugte Anwendungsfälle sind dabei die Regelung bzw. Steuerung von Windturbinen oder Gasturbinen, deren Betrieb im Hinblick auf bestimmte Kriterien über die gelernte Aktionsauswahlregel optimiert wird.

Claims

Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems, bei dem: a) das technische System (T) für mehrere Zeitpunkte (t) jeweils durch einen Zustand (z_t) mit einer Anzahl von kontinuierlichen Zustandsvariablen und eine am technischen System durchgeführte Aktion (a_t) mit einer Anzahl von Aktionsvariablen charakterisiert wird; b) versteckte Zustände (s_t) des technischen Systems (T) mit einer Anzahl von versteckten Variablen durch die Optimierung eines ersten Optimierungsziels (T_SE) mittels eines rekurrenten neuronalen Netzes (NN) basierend auf Trainingsdaten umfassend bekannte Zustände (z_t) und Aktionen (a_t) geschätzt werden, wobei das rekurrente neuronale Netz (NN) gebildet ist durch wenigstens eine Eingangsschicht (I) umfassend Zustände (z_t) des technischen Systems (T) und die am technischen System (T) durchgeführten Aktionen (a_t), wenigstens eine versteckte rekurrente Schicht (H) umfassend die versteckten Zustände (s_t) des technischen Systems und wenigstens eine Ausgangsschicht (O) umfassend Zustände (r_t), welche das erste Optimierungsziel repräsentieren; c) auf den geschätzten versteckten Zuständen (s_t) eine Aktionsauswahlregel (CP) mit einem Lern- und/oder Optimierungsverfahren gelernt wird, wobei die gelernte Aktionsauswahlregel (CP) bei der Steuerung und/oder Regelung des technischen Systems eine am technischen System durchzuführende Aktion (a_t) in Abhängigkeit von einem oder mehrere Zuständen (z_t) des technischen Systems angibt; dadurch gekennzeichnet, dass im Rahmen der Schätzung der versteckten Zustände (s_t) eine Diskretisierung der Werte der versteckten Variablen der versteckten Zustände (s_t) durch die Optimierung eines zweiten Optimierungsziels (T_VQ) durchgeführt wird, welches derart ausgestaltet ist, dass die Abweichung eines diskreten versteckten Zustands (s_d) von einem kontinuierlichen versteckten Zustand (s_c) möglichst gering ist.
Verfahren nach Anspruch 1, bei dem das Lern- und/oder Optimierungsverfahren in Schritt c) ein maschinelles Lernverfahren und insbesondere ein bestärkendes Lernverfahren ist.
Verfahren nach Anspruch 1 oder 2, bei dem das Lern- und/oder Optimierungsverfahren in Schritt c) Dynamische Programmierung und/oder Prioritized Sweeping und/oder Q-Learning und/oder SARSA umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) ferner durch Bewertungssignale (r_t), welche jeweils von einem Zustand (z_t) des technischen Systems und der in diesem Zustand (z_t) durchgeführten Aktion (a_t) abhängen, charakterisiert wird und die Trainingsdaten entsprechende bekannte Bewertungssignale (r_t) umfassen.
Verfahren nach einem der vorhergehenden Ansprüche in Kombination mit Anspruch 4, bei dem die wenigstens eine Ausgangsschicht (O) des rekurrenten neuronalen Netzes (NN) zumindest einen Teil der Zustandsvariablen der Zustände (z_t) und/oder zumindest einen Teil der Aktionsvariablen der Aktionen (a_t) und/oder die Bewertungssignale (r_t) umfasst.
Verfahren nach Anspruch 5, bei dem die Ausgangsschicht (O) des rekurrenten neuronalen Netzes (NN) ausschließlich Bewertungssignale (r_t) oder ausschließlich solche Zustands- und/oder Aktionsvariablen umfasst, welche die Bewertungssignale (r_t) beeinflussen.
Verfahren nach einem der Ansprüche 4 bis 6, bei dem die Bewertungssignale (r_t) durch eine Bewertungsfunktion repräsentiert werden, welche von einem Teil der Zustands- und/oder Aktionsvariablen abhängt.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das erste und das zweite Optimierungsziel (T_SE, T_VQ) in einer gemeinsamen zu optimierenden Kostenfunktion als Summanden und insbesondere als gewichtete Summanden enthalten sind.
Verfahren nach Anspruch 8, bei dem in der Kostenfunktion das erste Optimierungsziel (T_SE) als eine Summe der betragsmäßigen Unterschiede zwischen den Zuständen (r_t) der Ausgangsschicht (O) und den entsprechenden Trainingsdaten enthalten ist und/oder das zweite Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen versteckten Zustandsvariablen (S_c) und den diskreten versteckten Zustandsvariablen eines verstecken Zustands (s_d) enthalten ist.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die durch Neuronen repräsentierten Zustandsvariablen der versteckten Zustände (s_t) kontinuierliche Aktivitäten in einem Wertebereich zwischen –1 und 1 annehmen oder auf diesen Wertebereich abgebildet werden, wobei das zweite Optimierungsziel (T_VQ) derart festgelegt ist, dass die Summe der betragsmäßigen Aktivitäten der Neuronen der Anzahl an Zustandsvariablen der verstecken Zustände (s_t) entspricht.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) eine Turbine, insbesondere eine Gasturbine oder eine Windturbine, ist.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) eine Gasturbine ist, wobei das Bewertungssignal (r_t) zumindest durch den Wirkungsgrad und/oder die Schadstoffemission der Gasturbine und/oder die Wechseldrücke und/oder mechanischen Belastungen der Brennkammern der Gasturbine bestimmt ist.
Verfahren nach einem der vorhergehenden Ansprüche in Kombination mit Anspruch 4, bei dem das technische System (T) eine Windturbine ist, wobei das Bewertungssignal (r_t) zumindest durch die Kraftbelastung und/oder Wechselbelastung auf ein oder mehrere Rotorblätter der Windturbine und/oder die erzeugte elektrische Leistung bestimmt ist.
Verfahren zur Steuerung und/oder Regelung eines technischen Systems, wobei eine Aktionsauswahlregel (CP) mit einem Verfahren nach einem der vorhergehenden Ansprüche gelernt wird und das technische System basierend auf der gelernten Aktionsauswahlregel (CP) gesteuert und/oder geregelt wird.
Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Rechner abläuft.