[go: up one dir, main page]

DE102011076969B4 - Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems - Google Patents

Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems Download PDF

Info

Publication number
DE102011076969B4
DE102011076969B4 DE201110076969 DE102011076969A DE102011076969B4 DE 102011076969 B4 DE102011076969 B4 DE 102011076969B4 DE 201110076969 DE201110076969 DE 201110076969 DE 102011076969 A DE102011076969 A DE 102011076969A DE 102011076969 B4 DE102011076969 B4 DE 102011076969B4
Authority
DE
Germany
Prior art keywords
technical system
hidden
state
states
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE201110076969
Other languages
English (en)
Other versions
DE102011076969A1 (de
Inventor
Siegmund Düll
Steffen Udluft
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Energy Global GmbH and Co KG
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Priority to DE201110076969 priority Critical patent/DE102011076969B4/de
Publication of DE102011076969A1 publication Critical patent/DE102011076969A1/de
Application granted granted Critical
Publication of DE102011076969B4 publication Critical patent/DE102011076969B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems (T), wobei das technische System für mehrere Zeitpunkte jeweils durch einen Zustand (Zt) und eine am technischen System durchgeführten Aktion (at) charakterisiert wird. Dabei werden versteckte Zustände (st) des technischen Systems mit Hilfe eines rekurrenten neuronalen Netzes (NN) basierend auf Trainingsdaten umfassend bekannte Zustände und Aktionen geschätzt, wobei im Rahmen der Zustandsschätzung ein erstes Optimierungsziel (TSE) berücksichtigt wird, welches durch die Ausgangsschicht (O) des rekurrenten neuronalen Netzes repräsentiert wird. Anschließend wird auf den versteckten Zuständen (st) eine Aktionsauswahlregel (CP) mit einem Lern- und/oder Optimierungsverfahren gelernt, wobei die gelernte Aktionsauswahlregel bei der Steuerung und/oder Regelung des technischen Systems eingesetzt wird. Erfindungsgemäß wird im Rahmen der Zustandsschätzung eine Diskretisierung der versteckten Zustände (st) durch die Optimierung eines zweiten Optimierungsziel (TVQ) durchgeführt, welches derart ausgestaltet ist, dass die Abweichung eines diskreten versteckten Zustands (sc) von einem kontinuierlich versteckten Zustand (sc) möglichst gering ist. Auf diese Weise wird eine gute Modellierung des technischen Systems durch diskrete Zustände erreicht. Dabei können im nachfolgenden Lernen der Aktionsauswahlregel robuste diskrete bestärkende Lernverfahren, wie z. B. dynamische Programmierung, eingesetzt werden. Das erfindungsgemäße Verfahren kann z. B. zum Lernen einer Regelung bzw. Steuerung einer Gasturbine oder Windturbine genutzt werden.

Description

  • Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems sowie ein entsprechendes Computerprogrammprodukt.
  • Heutzutage weisen technische Systeme in der Regel eine hohe Komplexität auf, d. h. sie werden durch Zustände mit einer Vielzahl von Zustandsvariablen beschrieben. Ferner können an dem technischen System viele unterschiedliche Aktionen basierend auf entsprechenden Aktionsvariablen durchgeführt werden. Die Zustandsvariablen sind hierbei insbesondere messbare Zustandsgrößen des technischen Systems, wie z. B. physikalischen Größen, wie Druck, Temperatur, Leistung und dergleichen. Die Aktionsvariablen stellen insbesondere einstellbare Größen des technischen Systems dar, wie z. B. die Zufuhr von Brennstoff zu Brennkammern in Gasturbinen.
  • Bei der Steuerung von komplexen technischen Systemen werden oftmals rechnergestützte Verfahren verwendet, welche das dynamische zeitliche Verhalten des technischen Systems unter Berücksichtigung vorbestimmter Kriterien optimieren. Im Rahmen solcher Lernverfahren wird das Verhalten des technischen Systems basierend auf Trainingsdaten durch ein rekurrentes neuronales Netz modelliert, wobei das rekurrente neuronale Netz eine rekurrente versteckte Schicht aufweist, mit der versteckte Zustände des technischen Systems geschätzt werden. Die geschätzten Zustände werden dann dazu benutzt, um eine geeignete Aktionsauswahlregel zu lernen, wobei hierzu vorzugsweise bestärkende Lernverfahren (Reinforcement Learning) eingesetzt werden. Mit der gelernten Aktionsauswahlregel wird dann im Betrieb des technischen Systems für den aktuellen Zustand und gegebenenfalls vergangene Zustände des technischen Systems die durchzuführende Aktion bestimmt. Die Aktion ist dabei in geeigneter Weise an den gewünschten Betrieb des technischen Systems angepasst. Insbesondere wird beim Lernen der Aktionsauswahlregel ein geeignetes Bewertungssignal berücksichtigt, wobei dieses Signal jede Aktion bewertet und das dynamische Verhalten des technischen Systems um so besser ist, je höher die Bewertung gemäß dem Bewertungssignal ist.
  • Oftmals liegen die Zustände eines technischen Systems und gegebenenfalls auch die Aktionen als kontinuierliche Zustands- bzw. Aktionsvariablen vor, so dass im Rahmen der Zustandsschätzung mit einem rekurrenten neuronalen Netz auch kontinuierliche versteckte Zustände generiert werden. Um beim anschließenden Lernen der Aktionsauswahlregel robuste Lernverfahren einzusetzen, welche diskrete Zustände verarbeiten, ist es aus dem Stand der Technik bekannt, in einem separaten Diskretisierungs-Schritt die einzelnen Zustandsvariablen der versteckten Zustände zu diskretisieren. Hierzu werden z. B. Vektorquantisierungs-Verfahren eingesetzt, wie äquidistantes Binning, K-Means-Clustering, selbst-organisierende Karten und dergleichen. Es erweist sich hierbei als nachteilig, dass durch diese Diskretisierung die dynamischen Aspekte der Zustandsschätzung nicht mit berücksichtigt werden, was zum Auftreten von Fehlern in der Zustandsschätzung und somit auch zu Fehlern beim anschließenden Lernen der Aktionsauswahlregel führen kann. Dies verschlechtert wiederum die Regelung bzw. Steuerung des technischen Systems basierend auf der gelernten Aktionsauswahlregel.
  • Die Druckschrift WO 2005/081076 A2 offenbart ein rechnergestütztes Verfahren zur Analyse und Prognose des Zustands einer Brennkammer unter Verwendung eines rekurrenten neuronalen Netzes.
  • In der Druckschrift A. Hans, S. Udluft: Uncertainty Propagation for Efficient Exploration in Reinforcement Learning. Amsterdam, The Netherlands: IOS Press, 2010 (Proc. 19th European Conf. an Artificial Intelligence 2010, Lisbon, Portugal wird die Exploration eines Zustandraums basierend auf einer Aktionsauswahregel beschrieben, welche eine Belohnung maximiert.
  • In der Druckschrift WO 97/36 248 A1 wird ein rechnergestütztes Verfahren zur Ermittlung von zur Entfernung geeigneten Gewichten eines neuronalen Netzes beschrieben, bei dem die Trainingsphase des neuronalen Netzes gestoppt wird, bevor sich eine in der Trainingsphase zu minimierende Fehlerfunktion in einem Minimum befindet.
  • Aufgabe der Erfindung ist es, ein Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems zu schaffen, welches das technische System gut modelliert und basierend darauf eine Aktionsauswahlregel zur Steuerung bzw. Regelung des technischen Systems lernt.
  • Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
  • Das erfindungsgemäße Verfahren dient zum Lernen einer Regelung bzw. Steuerung eines technischen Systems, welches für mehrere Zeitpunkte jeweils durch einen Zustand mit einer Anzahl von kontinuierlichen Zustandsvariablen und eine am technischen System durchgeführte Aktion mit einer Anzahl von (kontinuierlichen oder ggf. auch diskreten) Aktionsvariablen charakterisiert wird.
  • Im erfindungsgemäßen Verfahren werden versteckte Zustände des technischen Systems mit einer Anzahl von versteckten Variablen durch die Optimierung eines ersten Optimierungsziels mittels eines rekurrenten neuronalen Netzes basierend auf Trainingsdaten umfassend bekannte Zustände und Aktionen geschätzt. Das rekurrente neuronale Netz ist dabei gebildet durch wenigstens eine Eingangsschicht umfassend Zustände des technischen Systems und die am technischen System durchgeführten Aktionen, wenigstens eine versteckte rekurrente Schicht umfassend die versteckten Zustände des technischen Systems und wenigstens eine Ausgangsschicht umfassend Zustände, welche das erste Optimierungsziel repräsentieren. Das rekurrente neuronale Netz modelliert somit das zeitliche Verhalten des technischen Systems basierend auf den zeitlich aufeinander folgenden Zuständen und Aktionen. Die Zustandsschätzung liefert dabei für den aktuellen Zeitpunkt die Schätzung eines versteckten Zustands. Die Schätzung ist dabei insbesondere derart ausgestaltet, dass die sog. Markov-Eigenschaft erfüllt ist, wonach der Folgezustand eines versteckten Zustands nur von der ausgeführten Aktion und dem momentanen versteckten Zustand abhängt.
  • Das erfindungsgemäße Verfahren zeichnet sich dadurch aus, dass im Rahmen der soeben beschriebenen Schätzung der versteckten Zustände eine Diskretisierung der Werte der versteckten Variablen dieser Zustände durch die Optimierung eines weiteren zweiten Optimierungsziels durchgeführt wird, welches derart ausgestaltet ist, dass die (betragsmäßige) Abweichung eines diskreten versteckten Zustands von einem kontinuierlichen versteckten Zustand möglichst gering ist. Dieses Optimierungsziel kann im rekurrenten neuronalen Netzes durch ein entsprechendes Target-Cluster repräsentiert werden. Im Unterschied zu herkömmlichen Verfahren, bei denen die Diskretisierung unabhängig von der Zustandsschätzung in einem nachgeschalteten Schritt durchgeführt wird, berücksichtigt das erfindungsgemäße Verfahren das Problem der Diskretisierung bereits bei der Zustandsschätzung. Somit fließt die Dynamik des technischen Systems bei der Diskretisierung mit ein und kann in Bezug auf den diskreten Raum der versteckten Zustände modelliert werden. Auf diese Weise wird eine gute Modellierung des Verhaltens des technischen Systems basierend auf Trainingsdaten erreicht, wobei insbesondere eine verbesserte Zustandsschätzung erreicht wird, welche sehr gut die Markov-Eigenschaft erfüllt.
  • Nach der Zustandsschätzung wird im Rahmen des erfindungsgemäßen Verfahrens auf den geschätzten versteckten (diskreten) Zuständen eine Aktionsauswahlregel mit einem Lern- und/oder Optimierungsverfahren gelernt, wobei die gelernte Aktionsauswahlregel bei der Steuerung und/oder Regelung des technischen Systems eine am technischen System durchzuführende Aktion in Abhängigkeit von einem oder mehreren Zuständen des technischen Systems angibt. Durch die verbesserte erfindungsgemäße Zustandsschätzung wird dabei gewährleistet, dass auch das nachfolgende Lernen der Aktionsauswahlregel verbessert wird. Zum Lernen der Aktionsauswahlregel können an sich bekannte Verfahren eingesetzt werden, insbesondere können maschinelle Lernverfahren, und vorzugsweise bestärkende Lernverfahren verwendet werden. Erfindungsgemäß ist es dabei von Vorteil, dass robuste und theoretisch gut verstandene diskrete Lernverfahren (d. h. Verfahren, die auf diskreten versteckten Zuständen arbeiten) zum Einsatz kommen können. Bevorzugte Varianten von verwendeten Lernverfahren sind dynamische Programmierung und/oder Prioritized Sweeping und/oder Q-Learning und/oder SARSA (SARSA = State-Action-Reward-State-Action). All diese Verfahren sind hinlänglich aus dem Stand der Technik bekannt und werden deshalb nicht weiter im Detail beschrieben.
  • In einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens wird das technische System ferner durch Bewertungssignale, welche jeweils von einem Zustand des technischen Systems und der in diesem Zustand durchgeführten Aktion abhängen, charakterisiert, wobei die Trainingsdaten, mit denen die Zustandsschätzung durchgeführt wird, entsprechende bekannte Bewertungssignale für die jeweiligen bekannten Zustände und Aktionen umfassen. Diese Bewertungssignale werden insbesondere auch im Lern- bzw. Optimierungsverfahren zum Lernen der Aktionsauswahlregel verwendet, so dass die gelernte Aktionsauswahlregel derart ausgestaltet ist, dass die Aktionen im Hinblick auf ein optimales Bewertungssignal ausgeführt werden. Das Bewertungssignal beschreibt somit einen gemäß bestimmten Kriterien optimalen Betrieb des technischen Systems. Beispielsweise kann das Bewertungssignal derart ausgestaltet sein, dass hiermit ein Betrieb mit einem hohen Wirkungsgrad bzw. geringer Schadstoffemission bzw. geringer mechanischer Belastung erreicht wird.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens umfasst die Ausgangsschicht des rekurrenten neuronalen Netzes zumindest einen Teil der Zustandsvariablen der Zustände und/oder zumindest einen Teil der Aktionsvariablen der Aktionen. Das erste Optimierungsziel gemäß der Zustandsschätzung wird dabei durch eine geringe Abweichung der (zukünftigen) Zustände bzw. Aktionen gemäß Trainingsdaten von den über das Netz prognostizierten Zuständen bzw. Aktionen beschrieben. Ebenso kann das Optimierungsziel durch eine geringe Abweichung zwischen den (zukünftigen) tatsächlichen Bewerungssignalen gemäß den Trainingsdaten und den über das rekurrente neuronale Netz prognostizierten Bewertungssignalen beschrieben werden.
  • In einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens umfasst die wenigstens eine Ausgangsschicht des rekurrenten neuronalen Netzes ausschließlich Bewertungssignale oder ausschließlich solche Zustands- und/oder Aktionsvariablen, welche die Bewertungssignale beeinflussen. Auf diese Weise wird ein Markov-Entscheidungsprozess-Extraktions-Netzwerk geschaffen, das im Wesentlichen dem Netzwerk aus der deutschen Patentanmeldung Nr. 10 2010 011 221.6 entspricht. Im Unterschied zu dem Netzwerk aus der früheren Anmeldung wird nunmehr jedoch die Zustandsschätzung unter Einbeziehung der Diskretisierung der versteckten Zustände basierend auf einem zweiten Optimierungsziel durchgeführt. Das Markov-Entscheidungsprozess-Extraktions-Netzwerk beruht auf der Erkenntnis, dass ein rekurrentes neuronales Netz, welches in der Ausgangsschicht lediglich Bewertungssignale bzw. davon abhängige Zustände berücksichtigt, einen Zustandsschätzer modelliert, der die Markov-Eigenschaft erfüllt.
  • Die oben beschriebenen Bewertungssignale können in dem erfindungsgemäßen Verfahren auf verschiedene Art und Weise repräsentiert werden. Z. B. können die Bewertungssignale durch eine Bewertungsfunktion repräsentiert sein, welche von einem Teil der Zustands- und/oder Aktionsvariablen abhängen.
  • In einer weiteren, besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens sind das erste und das zweite Optimierungsziel in einer gemeinsamen zu optimierenden Kostenfunktion als Summanden, insbesondere als gewichtete Summanden, enthalten. Durch die Einstellung der Gewichte der Summanden kann dabei berücksichtigt werden, wie stark die Diskretisierung im Rahmen der Zustandsschätzung als Parameter einfließen soll.
  • In einer weiteren bevorzugten Ausführungsform ist in der Kostenfunktion das erste Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den Zuständen der Ausgangsschicht und den entsprechenden Trainingsdaten enthalten, welche diesen Zuständen entsprechen. Analog kann das zweite Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen versteckten Zustandsvariablen und den diskreten versteckten Zustandsvariablen eines versteckten Zustands repräsentiert werden. Der Begriff des betragsmäßigen Unterschieds ist dabei weit zu verstehen und kann z. B. eine lineare Abweichung oder auch eine quadratische Abweichung umfassen.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens nehmen die durch Neuronen repräsentierten Zustandsvariablen der versteckten Zustände kontinuierliche Werte in einem Wertebereich zwischen –1 und 1 an oder die Aktivitäten werden auf diesen Wertebereich abgebildet. In einem solchen Fall wird das zweite Optimierungsziel vorzugsweise derart festgelegt, dass die Summe der betragsmäßigen Aktivitäten der Neuronen der Anzahl an Zustandsvariablen der versteckten Zustände entspricht.
  • Das erfindungsgemäße Verfahren kann in beliebigen technischen Systemen zu deren Steuerung bzw. Regelung eingesetzt werden. In einer besonders bevorzugten Variante wird das erfindungsgemäße Verfahren zur Steuerung einer Turbine, insbesondere einer Gasturbine oder Windturbine, verwendet. Für eine Gasturbine ist das Bewertungssignal beispielsweise zumindest durch den Wirkungsgrad und/oder die Schadstoffemission der Turbine und/oder die mechanischen Belastungen der Brennkammern der Turbine bestimmt. Ziel der Optimierung ist dabei ein hoher Wirkungsgrad bzw. eine geringe Schadstoffemission bzw. eine geringe mechanische Belastung der Brennkammern. Bei der Verwendung des Verfahrens zur Regelung bzw. Steuerung einer Windturbine kann das Bewertungssignal beispielsweise zumindest durch die Kraftbelastung und/oder Wechselbelastung auf ein oder mehrere Rotorblätter der Windturbine und/oder die erzeugte elektrische Leistung bestimmt sein.
  • Neben dem oben beschriebenen Lernverfahren betrifft die Erfindung ferner ein Verfahren zur Steuerung und/oder Regelung eines technischen Systems, wobei eine Aktionsauswahlregel mit dem erfindungsgemäßen Lernverfahren gelernt ist oder gelernt wird und das technische System basierend auf der gelernten Aktionsauswahlregel gesteuert und/oder geregelt wird.
  • Die Erfindung umfasst darüber hinaus ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner abläuft.
  • Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
  • Es zeigen:
  • 1 eine schematische Darstellung einer Zustandsschätzung durch ein rekurrentes neuronales Netz gemäß dem Stand der Technik;
  • 2 eine schematische Darstellung einer Ausführungsform der erfindungsgemäßen Zustandsschätzung mit einem rekurrenten neuronalen Netz;
  • 3 ein rekurrentes neuronales Netz, in dem eine Ausführungsform des erfindungsgemäßen Verfahrens implementiert ist; und
  • 4 eine schematische Darstellung der Regelung eines technischen Systems unter Verwendung der mit dem erfindungsgemäßen Verfahren gelernten Aktionsauswahlregel.
  • Die nachfolgend beschriebenen Ausführungsformen des erfindungsgemäßen Verfahrens modellieren das dynamische Verhalten eines technischen Systems basierend auf einem rekurrenten neuronalen Netz. Das technische System wird dabei durch Zustände in der Form von zeitlich aufeinander folgenden Zustandsvektoren mit einer Anzahl von Zustandsvariablen sowie durch in den jeweiligen Zuständen durchgeführte Aktionen beschrieben, wobei die Aktionen ebenfalls Vektoren mit einer Anzahl von Aktionsvariablen darstellen.
  • Das zur Modellierung verwendete rekurrente neuronale Netz umfasst die zeitlich aufeinander folgenden Zustände als Eingangsschicht, die mit einer versteckten neuronalen Schicht gekoppelt ist, welche versteckte Zustände in der Form von versteckten Zustandsvektoren aus versteckten Zustandsvariablen umfasst. An die versteckte neuronale Schicht schließt sich eine Ausgangsschicht an. Das erfindungsgemäße Verfahren modelliert dabei ein technisches System mit kontinuierlichen Zuständen und ggf. auch kontinuierlichen Aktionen und es ist das Ziel, mit dem rekurrenten neuronalen Netz versteckte Zustände abzuschätzen und basierend auf diesen Zuständen eine geeignete Aktionsauswahlregel zu lernen. Diese Aktionsauswahlregel liefert dann im Betrieb des technischen Systems für einen aktuellen und ggf. mehrere vergangenen Zustandsvektoren die optimale Aktion, wobei die optimale Aktion insbesondere in Abhängigkeit von den weiter unten beschriebenen Bewertungssignalen festgelegt wird.
  • Um im Rahmen des Lernens der Aktionsauswahlregel Verfahren verwenden zu können, welche auf diskreten versteckten Zuständen arbeiten, wird im erfindungsgemäßen Verfahren eine entsprechende Diskretisierung der an sich kontinuierlichen versteckten Zustände durchgeführt. Die Art der Diskretisierung unterscheidet sich dabei von Verfahren gemäß dem Stand der Technik.
  • 1 zeigt schematisch die Schätzung eines versteckten Zustandes mit einem rekurrenten neuronalen Netz gemäß dem Stand der Technik. Die Eingangsschicht ist dabei durch das Bezugszeichen I, die verstecke Schicht durch das Bezugszeichen H und die Ausgangsschicht durch das Bezugszeichen O angedeutet. Das rekurrente neuronale Netz umfasst dabei in den einzelnen Schichten Neuronencluster aus mehreren künstlichen Neuronen, welche die Zustände in den einzelnen Schichten darstellen. Aus Übersichtlichkeitsgründen sind in 1 und auch in der nachfolgend beschriebenen 2 die Neuronencluster nicht detailliert wiedergegeben.
  • In dem Netz der 1 werden kontinuierliche Zustände und Aktionen aus der Eingangsschicht I verarbeitet, so dass im Rahmen der Schätzung der versteckten Zustände zunächst kontinuierliche versteckte Zustandsvektoren sc in der versteckten Schicht H erhalten werden. Um eine geeignete Repräsentation des technischen Systems über solche versteckte Zustände zu erhalten, ist in der Ausgangsschicht O ein geeignetes Optimierungsziel bzw. Target TSE (SE = State Estimation) festgelegt, welches in der Regel derart ausgestaltet ist, dass der Zustand in der versteckten Schicht möglichst gut die Markov-Eigenschaft erfüllt, wonach ein Folgezustand nur von dem aktuellen Zustand und der darauf angewendeten Aktion abhängt. Im Netz der 1 wird zunächst der kontinuierliche versteckte Zustand sc mit an sich bekannten Verfahren basierend auf Trainingsdaten geschätzt, beispielsweise können die in den Druckschriften DE 10 2007 001 025 B1 bzw. DE 10 2007 001 026 B1 beschriebenen Verfahren zur Modellierung des dynamischen Verhaltens des technischen Systems eingesetzt werden.
  • Da die Lern- bzw. Optimierungsverfahren (z. B. Q-Learning oder Prioritized Sweeping), welche anschließend den geschätzten versteckten Zustand sc zum Lernen einer Aktionsauswahlregel weiterverarbeiten, meist diskrete versteckte Zustände benötigen, wird anschließend eine entsprechende Diskretisierung bzw. Vektorquantisierung VQ vorgenommen, wodurch der kontinuierliche versteckte Zustand sc auf einen diskreten Zustand sc abgebildet wird, der anschließend dem verwendeten Lern- bzw. Optimierungsverfahren als Eingangsgröße dient. Die Diskretisierung kann dabei bspw. auf äquidistantem Binning, K-Means-Clustering oder Verfahren basierend auf selbstorganisierenden Karten (auch als SOM bezeichnet, SOM = Self Organizing Maps) erfolgen. Diese bekannten Methoden optimieren Ziele wie die Datendichte im Zustandsraum, berücksichtigen jedoch nicht die dynamischen Aspekte des modellierten technischen Systems. Insbesondere kann es bei solchen Verfahren zu einer größeren Verletzung der Markov-Eigenschaft kommen, was wiederum zu einer schlechten Zustandsschätzung und einer schlechten Modellierung des technischen Systems führt. Dies hat wiederum eine schlecht gelernte Aktionsauswahlregel zur Folge.
  • Um die oben beschriebenen Nachteile der Zustandsschätzung gemäß 1 zu umgehen, wird erfindungsgemäß die in 2 schematisch angedeutete Zustandsschätzung verwendet. Diese Zustandsschätzung beruht wiederum auf einem rekurrenten neuronalen Netz mit einer Eingangsschicht I, einer versteckten Schicht H und einer Ausgabeschicht O. Im Unterschied zu dem Verfahren der 1 wird als Optimierungsziel nicht nur das Target TSE betrachtet, sondern es wird ein zweites Optimierungsziel in der Form eines Targets TVQ eingeführt. Dieses Target repräsentiert das Ziel einer geeigneten Diskretisierung der versteckten Zustände der versteckten Schicht, wobei die diskreten versteckten Zustände in 2 mit sd bezeichnet sind. Das Target ist dabei derart definiert, dass Abweichungen zwischen dem kontinuierlichen Zustandsvektor und dem diskreten Zustandsvektor der versteckten Schicht bestraft werden. Dies kann in geeigneter Weise als Optimierungsziel derart formuliert werden, dass die Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen Zustandsvariablen und den diskreten Zustandsvariablen eines versteckten Zustandsvektors zum aktuellen Zeitpunkt t möglichst gering ist.
  • In einer bevorzugten Variante der Erfindung wird als Aktivierungsfunktion der einzelnen Neuronen für einen versteckten Zustand eine Funktion verwendet, deren Wertebereich zwischen –1 und 1 liegt, beispielsweise die tanh-Funktion. In diesem Fall kann das Optimierungsziel gemäß dem Target TVQ derart formuliert werden, dass die Summe der betragsmäßigen Aktivitäten der Neuronen des versteckten Zustandsvektors der Dimension des versteckten Zustandsvektors entspricht. Hierdurch wird erreicht, dass die Aktivitäten möglichst gut auf die diskreten Aktivitätswerte –1 und 1 abgebildet werden.
  • Gemäß dem Verfahren der 2 wird erreicht, dass die Diskretisierung der versteckten Zustände nunmehr Teil der Zustandsschätzung wird. Insbesondere kann das entsprechende Optimierungsziel in einer gemeinsamen Kostenfunktion einfließen. Ein Summand der Kostenfunktion betrifft dabei das Target TSE der Zustandsschätzung und der andere Summand der Kostenfunkton das Target TVQ der Diskretisierung, wobei die Summanden in geeigneter Weise gewichtet werden. Nach Abschluss der Zustandsschätzung kann dann wiederum ein Verfahren zur Ermittlung einer Aktionsauswahlregel verwendet werden, welches auf diskreten versteckten Zuständen arbeitet.
  • 3 zeigt nochmals eine konkrete Realisierung der Erfindung basierend auf einem Markov-Entscheidungsprozess-Extraktions-Netzwerk. Ein solches neuronales Netz ist im Detail in der deutschen Patentanmeldung Nr. 10 2010 011 221.6 beschrieben. Das rekurrente neuronale Netz der 3 umfasst eine Eingangsschicht I aus Zustandsvektoren zt-3, zt-2, ..., zt sowie entsprechend ausgeführten Aktionen at-2, at-1, at, ..., at+3. Durch τ = t–3, ..., t + 3 werden dabei aufeinander folgende Zeitpunkte repräsentiert, wobei τ = t den aktuellen Zeitpunkt wiedergibt. Für die einzelnen Paare aus Zustandsvektor und Aktion existieren ferner entsprechende Bewertungssignale bzw. Belohnungen rt, rt+1 usw., welche die in einem entsprechenden Zustand des technischen Systems durchgeführte Aktion nach bestimmten Kriterien bewerten, wobei die Kriterien derart festgelegt sind, dass Aktionen mit höheren Bewertungen gemäß den Bewertungssignalen einen qualitativ besseren Betrieb des technischen Systems, beispielsweise im Hinblick auf einen guten Wirkungsgrad oder eine geringe Schadstoffemission, gewährleisten.
  • Neben der Eingangsschicht I ist im Netz der 3 die versteckte Schicht H vorgesehen, welche die entsprechenden versteckten Zustände st-3, st-2, ... st, ... st+3 enthält. Diese versteckten Zustände st sind mit den Zustandsvektoren zt über Matrizen B gekoppelt. Ferner sind die Aktionen at an weitere versteckte Zustände (nicht gezeigt) über entsprechende Kopplungsmatrizen D gekoppelt. Die einzelnen Zustände st-3, st-2 usw. in der rekurrenten versteckten Schicht H sind über Matrizen A in der Vergangenheit und über Matrizen Af in der Zukunft gekoppelt.
  • Das neuronale Netz der 3 umfasst ferner eine Ausgangsschicht O, welche als Zustände die oben beschriebenen Bewertungssignale rt, rt+1, usw. enthält, die an die versteckte Schicht H über Matrizen C gekoppelt sind. Diese Bewertungssignale stellen das oben beschriebene Target TSE dar, welches in dem Netz der 3 derart spezifiziert ist, dass die Summe der Abweichungen zwischen den modellierten Bewertungssignalen der Ausgangsschicht O und den Bewertungssignalen gemäß den Trainingsdaten minimal wird. Dies ist ein wesentlicher Aspekt des dargestellten Markov-Entscheidungsprozess-Extraktions-Netzwerks. Im Unterschied zu anderen bekannten neuronalen Netzen wird nunmehr die Ausgangsschicht O durch die Bewertungssignale und nicht durch Zustandsvektoren beschrieben. D. h., es werden lediglich Bewertungssignale prognostiziert. Hierdurch wird eine gute Modellierung des technischen Systems basierend auf den Trainingsdaten erreicht, wobei sichergestellt wird, dass die mit dem Netz modellierten versteckten Zustände sehr gut die oben beschriebene Markov-Eigenschaft erfüllen.
  • Im Rahmen der Ausführungsform der 3 wird nunmehr neben dem Optimierungsziel, das durch die Belohnungen rt, rt+1 usw. der Ausgangsschicht O repräsentiert wird, als weiteres Optimierungsziel das bereits anhand von 2 erläuterte Target TVQ verwendet, wonach eine möglichst geringe Abweichung zwischen den zu modellierenden diskreten versteckten Zuständen und den kontinuierlichen Zuständen der versteckten Schicht im jeweiligen aktuellen Zeitpunkt t auftreten soll. Dies wird durch das neuronale Target TVQ am versteckten Zustand st repräsentiert.
  • Nach der Zustandsschätzung der versteckten Zustände mit dem neuronalen Netz der 3 wird wiederum eine Aktionsauswahlregel gelernt, wobei hierfür wiederum diskrete Lernverfahren, wie das oben erwähnte Prioritized Sweeping, Q-Learning oder SARSA, eingesetzt werden können. Im Gegensatz zu kontinuierlichen Lernverfahren sind diskrete Lernverfahren besser theoretisch verstanden und robuster. Im Rahmen dieser Lernverfahren wird wiederum das Bewertungssignal berücksichtigt, um eine im Sinne des Bewertungssignals optimale Aktionsauswahlregel festzulegen. Diese Aktionsauswahlregel kann anschließend zur Steuerung bzw. Regelung des technischen Systems eingesetzt werden, um für einen aktuellen und ggf. vergangenen Zustände des technischen Systems die optimale Aktion, z. B. die beste Einstellung von Stellgrößen, festzulegen.
  • 4 zeigt nochmals schematisch eine konkrete Verwendung der Erfindung zur Steuerung eines technischen Systems. Das technische System ist dabei durch eine Box T angedeutet. Das technische System kann z. B. eine Windturbine sein, deren Betrieb im Rahmen der Erfindung optimiert werden soll. Die Windturbine liefert dabei zu einer Vielzahl von Zeitpunkten entsprechende Zustandsvektoren in der Form von Betriebsgrößen sowie an der Turbine durchgeführte Aktionen, z. B. in der Form von Veränderungen von Stellgrößen. Diese Observablen OB werden als Trainingsdaten TD in einer Datenbank gespeichert.
  • Im Rahmen des erfindungsgemäßen Verfahrens erfolgt eine Modellierung des technischen Systems basierend auf den Trainingsdaten TD mit Hilfe eines rekurrenten neuronalen Netzes NN, das zum jeweiligen aktuellen Zeitpunkt einen versteckten Zustand des technischen Systems schätzt, wie im Vorangegangenen anhand von 2 und 3 beschrieben wurde. Dabei wird gleichzeitig mit der Zustandsschätzung auch die Diskretisierung der Zustände unter Berücksichtigung eines Targets TVQ durchgeführt. Basierend auf der Zustandsschätzung wird ferner unter Verwendung der Trainingsdaten TD in dem Modul CPG (CPG = Control Policy Generator) die Aktionsauswahlregel unter Berücksichtigung entsprechender Bewertungssignale gelernt. Da die Zustandsschätzung diskrete versteckte Zustände liefert, können robuste bestärkende Lernverfahren zum Bestimmen der geeigneten Aktionsauswahlregel herangezogen werden.
  • Durch die oben beschriebenen Lernschritte wird schließlich ein diskreter Zustandsschätzer SE und eine gelernte Aktionsauswahlregel CP erhalten, welche anschließend im Rahmen der Steuerung des realen Betriebs des technischen Systems genutzt werden können. Im Realbetrieb fließen dabei die Observablen OB in der Form der entsprechenden Zustandsvektoren in den Zustandsschätzer SE ein, der den versteckten Zustand schätzt und auf diesen die gelernte Aktionsauswahlregel CP anwendet. Als Ergebnis erhält man schließlich eine im Sinne des Bewertugnssignals optimale Aktion A, die dann auf das technische System angewendet wird. Im Rahmen des Betriebs des technischen Systems kann dabei parallel auch das Lernen der Aktionsauswahlregel durch neu hinzukommende Observablen OB immer weiter fortgesetzt werden, was in 4 dadurch angedeutet wird, dass die Observablen auch immer in die Datenbank der Trainingsdaten TD einfließen.
  • Die im Vorangegangenen beschriebenen Varianten des erfindungsgemäßen Verfahrens weisen eine Reihe von Vorteilen auf. Insbesondere wird ein neuronaler Diskretisierungs-Ansatz für eine Zustandsschätzung geschaffen, welcher die Zustandsschätzung mit dem Diskretisierungs-Schritt kombiniert. Hierdurch können relevante dynamische Aspekte im Diskretisierungs-Schritt mit einfließen, und die Dynamik des technischen Systems kann in Bezug auf den diskretisierten Zustandsraum modelliert werden. Dies ist bei bekannten Ansätzen, bei denen der Diskretisierungs-Schritt nachgeschaltet ist, nicht der Fall. Das Verfahren der Erfindung ermöglicht simultan eine Optimierung des Fehlers der Zustandsschätzung sowie eine Approximation des diskretisierten Zustandsraums. Vorzugsweise wird das Ziel der Diskretisierung der versteckten Zustände dabei als eine Komponente einer Kostenfunktion formuliert. Diese Komponente kann als neuronales Ziel implementiert werden, das während der Modellierung des technischen Systems berücksichtigt wird. Die Integration der Diskretisierung in eine Kostenfunktion hat den weiteren Vorteil, dass eine verbesserte Modellierung eines diskreten Markov-Zustands erreicht wird.
  • Das erfindungsgemäße Verfahren ist insbesondere dann vorteilhaft, wenn in einem bestimmten Teil des Zustandsraums eine kleine Veränderung einer Zustandsvariablen zu einer großen Veränderung des nachfolgenden Zustands führt. Dieser Effekt kann durch die Modellierung der Diskretisierung innerhalb des rekurrenten neuronalen Netzes berücksichtigt werden, was bei einer naiven äquidistanten Diskretisierung nicht gewährleistet ist.
  • Das erfindungsgemäße Verfahren kann zur Generierung einer Aktionsauswahlregel zur geeigneten Steuerung bzw. Regelung beliebiger technischer Systeme eingesetzt werden. Bevorzugte Anwendungsfälle sind dabei die Regelung bzw. Steuerung von Windturbinen oder Gasturbinen, deren Betrieb im Hinblick auf bestimmte Kriterien über die gelernte Aktionsauswahlregel optimiert wird.

Claims (15)

  1. Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems, bei dem: a) das technische System (T) für mehrere Zeitpunkte (t) jeweils durch einen Zustand (zt) mit einer Anzahl von kontinuierlichen Zustandsvariablen und eine am technischen System durchgeführte Aktion (at) mit einer Anzahl von Aktionsvariablen charakterisiert wird; b) versteckte Zustände (st) des technischen Systems (T) mit einer Anzahl von versteckten Variablen durch die Optimierung eines ersten Optimierungsziels (TSE) mittels eines rekurrenten neuronalen Netzes (NN) basierend auf Trainingsdaten umfassend bekannte Zustände (zt) und Aktionen (at) geschätzt werden, wobei das rekurrente neuronale Netz (NN) gebildet ist durch wenigstens eine Eingangsschicht (I) umfassend Zustände (zt) des technischen Systems (T) und die am technischen System (T) durchgeführten Aktionen (at), wenigstens eine versteckte rekurrente Schicht (H) umfassend die versteckten Zustände (st) des technischen Systems und wenigstens eine Ausgangsschicht (O) umfassend Zustände (rt), welche das erste Optimierungsziel repräsentieren; c) auf den geschätzten versteckten Zuständen (st) eine Aktionsauswahlregel (CP) mit einem Lern- und/oder Optimierungsverfahren gelernt wird, wobei die gelernte Aktionsauswahlregel (CP) bei der Steuerung und/oder Regelung des technischen Systems eine am technischen System durchzuführende Aktion (at) in Abhängigkeit von einem oder mehrere Zuständen (zt) des technischen Systems angibt; dadurch gekennzeichnet, dass im Rahmen der Schätzung der versteckten Zustände (st) eine Diskretisierung der Werte der versteckten Variablen der versteckten Zustände (st) durch die Optimierung eines zweiten Optimierungsziels (TVQ) durchgeführt wird, welches derart ausgestaltet ist, dass die Abweichung eines diskreten versteckten Zustands (sd) von einem kontinuierlichen versteckten Zustand (sc) möglichst gering ist.
  2. Verfahren nach Anspruch 1, bei dem das Lern- und/oder Optimierungsverfahren in Schritt c) ein maschinelles Lernverfahren und insbesondere ein bestärkendes Lernverfahren ist.
  3. Verfahren nach Anspruch 1 oder 2, bei dem das Lern- und/oder Optimierungsverfahren in Schritt c) Dynamische Programmierung und/oder Prioritized Sweeping und/oder Q-Learning und/oder SARSA umfasst.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) ferner durch Bewertungssignale (rt), welche jeweils von einem Zustand (zt) des technischen Systems und der in diesem Zustand (zt) durchgeführten Aktion (at) abhängen, charakterisiert wird und die Trainingsdaten entsprechende bekannte Bewertungssignale (rt) umfassen.
  5. Verfahren nach einem der vorhergehenden Ansprüche in Kombination mit Anspruch 4, bei dem die wenigstens eine Ausgangsschicht (O) des rekurrenten neuronalen Netzes (NN) zumindest einen Teil der Zustandsvariablen der Zustände (zt) und/oder zumindest einen Teil der Aktionsvariablen der Aktionen (at) und/oder die Bewertungssignale (rt) umfasst.
  6. Verfahren nach Anspruch 5, bei dem die Ausgangsschicht (O) des rekurrenten neuronalen Netzes (NN) ausschließlich Bewertungssignale (rt) oder ausschließlich solche Zustands- und/oder Aktionsvariablen umfasst, welche die Bewertungssignale (rt) beeinflussen.
  7. Verfahren nach einem der Ansprüche 4 bis 6, bei dem die Bewertungssignale (rt) durch eine Bewertungsfunktion repräsentiert werden, welche von einem Teil der Zustands- und/oder Aktionsvariablen abhängt.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das erste und das zweite Optimierungsziel (TSE, TVQ) in einer gemeinsamen zu optimierenden Kostenfunktion als Summanden und insbesondere als gewichtete Summanden enthalten sind.
  9. Verfahren nach Anspruch 8, bei dem in der Kostenfunktion das erste Optimierungsziel (TSE) als eine Summe der betragsmäßigen Unterschiede zwischen den Zuständen (rt) der Ausgangsschicht (O) und den entsprechenden Trainingsdaten enthalten ist und/oder das zweite Optimierungsziel als eine Summe der betragsmäßigen Unterschiede zwischen den kontinuierlichen versteckten Zustandsvariablen (Sc) und den diskreten versteckten Zustandsvariablen eines verstecken Zustands (sd) enthalten ist.
  10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die durch Neuronen repräsentierten Zustandsvariablen der versteckten Zustände (st) kontinuierliche Aktivitäten in einem Wertebereich zwischen –1 und 1 annehmen oder auf diesen Wertebereich abgebildet werden, wobei das zweite Optimierungsziel (TVQ) derart festgelegt ist, dass die Summe der betragsmäßigen Aktivitäten der Neuronen der Anzahl an Zustandsvariablen der verstecken Zustände (st) entspricht.
  11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) eine Turbine, insbesondere eine Gasturbine oder eine Windturbine, ist.
  12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) eine Gasturbine ist, wobei das Bewertungssignal (rt) zumindest durch den Wirkungsgrad und/oder die Schadstoffemission der Gasturbine und/oder die Wechseldrücke und/oder mechanischen Belastungen der Brennkammern der Gasturbine bestimmt ist.
  13. Verfahren nach einem der vorhergehenden Ansprüche in Kombination mit Anspruch 4, bei dem das technische System (T) eine Windturbine ist, wobei das Bewertungssignal (rt) zumindest durch die Kraftbelastung und/oder Wechselbelastung auf ein oder mehrere Rotorblätter der Windturbine und/oder die erzeugte elektrische Leistung bestimmt ist.
  14. Verfahren zur Steuerung und/oder Regelung eines technischen Systems, wobei eine Aktionsauswahlregel (CP) mit einem Verfahren nach einem der vorhergehenden Ansprüche gelernt wird und das technische System basierend auf der gelernten Aktionsauswahlregel (CP) gesteuert und/oder geregelt wird.
  15. Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Rechner abläuft.
DE201110076969 2011-06-06 2011-06-06 Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems Active DE102011076969B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE201110076969 DE102011076969B4 (de) 2011-06-06 2011-06-06 Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE201110076969 DE102011076969B4 (de) 2011-06-06 2011-06-06 Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems

Publications (2)

Publication Number Publication Date
DE102011076969A1 DE102011076969A1 (de) 2012-12-06
DE102011076969B4 true DE102011076969B4 (de) 2015-01-08

Family

ID=47173242

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201110076969 Active DE102011076969B4 (de) 2011-06-06 2011-06-06 Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems

Country Status (1)

Country Link
DE (1) DE102011076969B4 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3792483A1 (de) * 2019-09-16 2021-03-17 Siemens Gamesa Renewable Energy A/S Windturbinensteuerung auf der basis von verstärkungslernen
CN111814272B (zh) * 2020-07-07 2024-04-19 中国科学院工程热物理研究所 一种基于机器学习的涡轮气动-动态响应智能优化设计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997036248A1 (de) * 1996-03-25 1997-10-02 Siemens Aktiengesellschaft Verfahren zur ermittlung von zur entfernung geeigneten gewichten eines neuronalen netzes mit hilfe eines rechners
WO2005081076A2 (de) * 2004-02-24 2005-09-01 Siemens Aktiengesellschaft Verfahren, zur prognose eines brennkammerzustandes unter verwendung eines rekurrenten, neuronalen netzes

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010011221B4 (de) 2010-03-12 2013-11-14 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997036248A1 (de) * 1996-03-25 1997-10-02 Siemens Aktiengesellschaft Verfahren zur ermittlung von zur entfernung geeigneten gewichten eines neuronalen netzes mit hilfe eines rechners
WO2005081076A2 (de) * 2004-02-24 2005-09-01 Siemens Aktiengesellschaft Verfahren, zur prognose eines brennkammerzustandes unter verwendung eines rekurrenten, neuronalen netzes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A. Hans, S. Udluft: Uncertainty Propagation for Efficient Exploration in Reinforcement Learning. Amsterdam, The Netherlands : IOS Press, 2010 (Proc. 19th European Conf. on Artificial Intelligence 2010, Lisbon, Portugal). 361-366. - ISBN 978-1-60750-605-8 *

Also Published As

Publication number Publication date
DE102011076969A1 (de) 2012-12-06

Similar Documents

Publication Publication Date Title
EP3132317B1 (de) Verfahren zur rechnergestützten anlagensteuerungsoptimierung mittels einem simulationsmodul
EP2519861B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
EP2108139B1 (de) Verfahren zur rechnergestützten regelung und/oder steuerung eines technischen systems, insbesondere einer gasturbine
EP2697695B1 (de) Verfahren zur rechnergestützten generierung eines datengetriebenen modells eines technischen systems, insbesondere einer gasturbine oder windturbine
EP2649567B1 (de) Verfahren zur rechnergestützten modellierung eines technischen systems
EP2112568B1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP2135140B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
EP2106576B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
WO2014121863A1 (de) Verfahren und vorrichtung zur steuerung einer mit einer erneuerbaren energiequelle betreibbaren energieerzeugungsanlage
EP2880499B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
EP2097793A1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
WO2021259980A1 (de) Training eines künstlichen neuronalen netzwerkes, künstliches neuronales netzwerk, verwendung, computerprogramm, speichermedium und vorrichtung
DE102013205356A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP1055180B1 (de) Verfahren und anordnung zum entwurf eines technischen systems
DE102011076969B4 (de) Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems
DE102020107001A1 (de) Verfahren und Vorrichtung zur Ermittlung des Zustands eines elektrischen Bordnetzes eines Fahrzeugs
EP3376026B1 (de) Verfahren zur regelung der wirkleistungsabgabe eines windparks sowie ein entsprechender windpark
EP4375768A1 (de) Verfahren und maschinensteuerung zum steuern einer maschine
EP3489773B1 (de) Verfahren zum rechnergestützten steuern eines technischen systems, insbesondere einer energieerzeugungsanlage
EP3432093A1 (de) Verfahren zur modellierung eines dynamischen systems durch rechnergestütztes lernen von datengetriebenen modellen
EP3528063B1 (de) Verfahren zur rechnergestützten erstellung eines prognosemodells zur prognose von einer oder mehreren zielgrössen
WO2025108619A1 (de) VERFAHREN ZUM OPTIMIEREN EINES FUNKTIONSPARAMETERS, UM EINE BETRIEBSGRÖßE EINES TECHNISCHEN SYSTEMS EINZUSTELLEN
EP3623881A1 (de) Computerimplementiertes verfahren zum abschätzen eines technischen verhaltens einer vorrichtung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R081 Change of applicant/patentee

Owner name: SIEMENS ENERGY GLOBAL GMBH & CO. KG, DE

Free format text: FORMER OWNER: SIEMENS AKTIENGESELLSCHAFT, 80333 MUENCHEN, DE