DE102024205236A1

DE102024205236A1 - Computerimplementiertes verfahren zum regeln eines dynamischen systems

Info

Publication number: DE102024205236A1
Application number: DE102024205236.1A
Authority: DE
Inventors: Kevin Schmidt; Christoph Mark
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2024-06-07
Filing date: 2024-06-07
Publication date: 2025-12-11

Abstract

Ein allgemeiner Aspekt der vorliegenden Offenbarung betriff ein computerimplementiertes Verfahren zum Regeln eines dynamischen Systems, insbesondere eines Systems zum autonomen und/oder automatisierten Fahren. Das Verfahren umfasst Bestimmen, auf Basis eines mit einer Zeitverzögerung behafteten Zustandsvektors, eines Eingangsvektors mittels eines Optimierungsproblems, das eine Kostenfunktion und mindestens eine Nebenbedingung umfasst, wobei die Zeitverzögerung der Übertragung mittels eines Markow-Prozesses modelliert wird und wobei die mindestens eine Nebenbedingung des Optimierungsproblems auf dem Markow-Prozess basiert, und Ausgeben des bestimmten Eingangsvektors an einen Aktuator.

Description

Stand der Technik
Hochautomatisierte oder autonome Systeme stehen bspw. in der Robotik und der Automobilbranche zunehmend im Fokus. Besonders Regelungssystemen kommt eine zunehmende Bedeutung im Betrieb autonomer oder hochautomatisierter Systeme zu. Probleme ergeben sich in verteilten Systemen, in denen zum Beispiel der Regelalgorithmus physisch getrennt von dem zu regelnden System ausgeführt wird, beispielsweise mittels Cloud- oder Edge-Computing und sich dadurch zeitliche Verzögerungen in der Datenübertragung einstellen.
Aufgrund unterschiedlicher physischer Gegebenheiten, die die Signalübertragung beeinflussen, oder unterschiedliche Kanalauslastung in der Vehicle-to-Vehicle-Kommunikation (V2V-Kommunikation) kann es zu Zeitverzögerungen oder schwankenden Abtastzeiten kommen, die nicht-deterministisch und damit unsicher sind. Zum Beispiel können vernetzte adaptive Geschwindigkeitsregelung, Gruppenstart oder das kooperative Zusammenführen von Fahrspuren Situationen sein, in denen die Kanalauslastung gegenüber anderen Situationen ungewöhnlich hoch ist. Beispielsweise können sich nicht-deterministische Verzögerungen im Rückführkreis, in der Bus-Kommunikation, wenn verteile E/E-Architekturen in Funktionen der Fahrzeugsteuerung beteiligt sind, und/oder bei der Signalverarbeitung und -übertragung in Sensorsystemen ergeben. In Regelungssystemen, wie beispielsweise der Längsführung eines Fahrzeugs, kann die nicht-deterministische Zeitverzögerung nachteiligen Einfluss auf den Erfolg der Regelung nehmen.
Die Steuerung dynamischer Systeme über ein Netzwerk ist aufgrund unsicherer und schwankender zeitlicher Effekte ein Problem. Insbesondere wenn aufgrund der Sicherheitskritikalität Leistungsgarantien erforderlich sind, kann der Stand der Technik keine zufriedenstellenden Ergebnisse liefern. Beispiele für Timing-Effekte sind unsichere Abtastzeiten und unsichere Verzögerungen. Diese Timing-Effekte sind von besonderer Bedeutung für verteilte Regelkreise, bei denen sich der Regelalgorithmus und der eigentliche (=physikalische) Prozess mit seinen Sensoren und Aktoren an unterschiedlichen räumlichen Orten befinden. Daraus können sich beispielsweise zufällige Übertragungsverzögerungen in den Sensorzu-Controller- und Controller-zu-Aktor-Kanälen, z.B. durch große Entfernungen zwischen zwei Knoten oder zeitlich veränderlichen Datenverkehr über das Netzwerk ergeben. Auch zufälliger Paketverlust aufgrund von z. B. Netzwerküberlastung kann ein auftretendes Problem sein. Es besteht großer Bedarf an Lösungen zur verbesserten Berücksichtigung von Timing-Effekten bei der Steuerung und/oder Regelung dynamischer Systeme.
Offenbarung der Erfindung
Ein erster allgemeiner Aspekt der vorliegenden Offenbarung betriff ein computerimplementiertes Verfahren zum Regeln eines dynamischen Systems, insbesondere eines Systems zum autonomen und/oder automatisierten Fahren. Das Verfahren umfasst Bestimmen, auf Basis eines mit einer Zeitverzögerung behafteten Zustandsvektors, eines Eingangsvektors mittels eines Optimierungsproblems, das eine Kostenfunktion und mindestens eine Nebenbedingung umfasst, wobei die Zeitverzögerung der Übertragung mittels eines Markow-Prozesses modelliert wird und wobei die mindestens eine Nebenbedingung des Optimierungsproblems auf dem Markow-Prozess basiert, und Ausgeben des bestimmten Eingangsvektors an einen Aktuator.
Ein zweiter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein Computersystem, das dafür ausgelegt ist, das computerimplementiertes Verfahren zum Regeln eines dynamischen Systems gemäß dem ersten allgemeinen Aspekt (oder einer Ausführungsform davon) auszuführen.
Ein dritter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein Computerprogramm, das dafür ausgelegt ist, das computerimplementierte Verfahren zum Regeln eines dynamischen Systems gemäß dem ersten allgemeinen Aspekt (oder einer Ausführungsform davon) auszuführen.
Ein vierter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein computerlesbares Medium oder Signal, das das Computerprogramm gemäß dem dritten allgemeinen Aspekt (oder einer Ausführungsführungsform davon) speichert und/oder enthält.
Das in dieser Offenbarung vorgeschlagene Verfahren nach dem ersten allgemeinen Aspekt (oder einer Ausführungsform davon) kann dazu dienen, ein Verfahren zum Regeln eines dynamischen Systems bereitzustellen.
Weiter kann das vorgeschlagene Verfahren, die Steuerung und/oder Regelung eines dynamischen Systems über ein nicht perfektes Netzwerk, in dem Paketverlust während der Kommunikation auftritt, ermöglichen. Beispielsweise können „conditional Value-at-Risk“-Grenzen als Nebenbedingungen bezogen auf die empfangenen Zustände definiert werden. In Beispielen können harte Grenzen bezogen auf die Regeleingaben bzw. Ausgabegrößen an den Aktuator definiert werden.
Durch die zeitdiskrete Repräsentation des zugrundeliegenden zeitkontinuierlichen Zustandsraummodells unter Berücksichtigung der auf der stochastischen Verteilung basierenden Zeitabhängigkeit kann eine bessere Abbildung der Realität, insbesondere bei verteilten Regelungssystemen, geschaffen und die Regelung und/oder Steuerung des dynamischen Systems verbessert werden. Weiter können durch die Techniken der vorliegenden Offenbarung die unsicheren Zeiteffekte in einem Datenübertragungskanal abgebildet werden und/oder die unsicheren Zeiteffekte bei der Abtastung übertragener Signale berücksichtigt werden.
Ein Vorteil kann darin bestehen, dass sich das Verfahren auf eine Vielzahl von Regelungssystemen anwenden lässt. Ein Beispiel kann hierfür die Längsführung eines Fahrzeugs sein. Die Längsführung eines Fahrzeugs bezieht sich dabei auf die Kontrolle und Stabilität seiner Bewegung entlang der Fahrtrichtung. Sie kann dabei Aspekte wie Beschleunigung, Verzögerung und Geschwindigkeitsregelung umfassen, die sicherstellen, dass das Fahrzeug auf der Straße in der gewünschten Weise vorwärts oder rückwärts fahren kann. Besonders im Hinblick auf autonomes und/oder assistiertes Fahren, in denen eine Mehrzahl von Fahrzeugen über gleiche Kommunikationspunkte kommuniziert und sich Verzögerungen in der Datenübertragung einstellen können, können die Techniken der vorliegenden Offenbarung zu einem verbesserten Regelungsverhalten führen. In diesem Kontext kann das offenbarte Verfahren auch bei der Fahrzeugquerführung zu einer verbesserten Regelung führen. Zum Beispiel kann das vorgeschlagene Verfahren bei der Steuerung und/oder Regelung bei der Beteiligung lokaler Netzwerke (z.B. lokales Edge-, 5G-Netzwerk, ...) in einem begrenzten Bereich sein, z.B. in Logistikzentren oder Produktionssystemen. Weitere Vorteile können sich beim (teilweisen) Auslagern der Regelungs- und/oder Steueralgorithmen von Roboterarmen an lokale Netzwerke, z.B. für Fertigungssysteme, ergeben. Weitere Beispiele können sich in den verschiedenen Feldern der Regelungstechnik finden, wie beispielsweise in der Robotertechnik, der Motorsteuerung/-regelung von elektrischen Maschinen, in der Gebäudeautomatisierung, usw. Das Verfahren kann weiter verkapselt bereitgestellt werden und kann so die Benutzung durch eine erweiterte Nutzergruppe ermöglichen, auch wenn diese oder einzelne Mitglieder der Nutzergruppe die zugrundeliegenden mathematischen Grundlagen nicht kennen. Zum Beispiel kann eine Integration in eine bestehende Softwarestruktur ermöglicht werden. Auch kann das Verfahren die Ausgabe von Varianz und/oder Vertrauensintervallen der Zielgrößen ermöglichen.
Einige Begriffe werden in der vorliegenden Offenbarung in folgender Weise verwendet:

Ein „Zustandsregler“ kann einen Algorithmus, d.h. eine Berechnungsvorschrift, umfassen, der eine vollständige oder teilweise Zustandsgröße (d.h. den internen Zustand der Regelstrecke) zu einer Eingangsgröße zurückführt. Ein Zustandsregler kann Parameter umfassen, die die Zustandsgröße gewichten können. In Beispielen kann ein Zustandsregler auf einem Computersystem ausgeführt werden. In Beispielen kann ein Zustandsregler in einem Steuergerät eines Fahrzeugs, einer Cloud oder einer Edge ausgeführt werden. Ein Zustandsregler kann beispielsweise ein Hardwaremodul mit Eingängen und Ausgängen umfassen oder Teil dessen sein.

Ein „Fahrzeug“ kann jegliche Vorrichtung, die Passagiere und/oder Fracht transportiert, sein. Ein Fahrzeug kann ein Kraftfahrzeug (zum Beispiel ein PKW oder ein LKW) sein, aber auch ein Schienenfahrzeug. Ein Fahrzeug kann auch ein motorisiertes Zwei- oder Dreirad sein. Allerdings können auch schwimmende und fliegende Vorrichtungen Fahrzeuge sein. Fahrzeuge können zumindest teilautonom operierend oder assistiert sein.
Kurzbeschreibung der Figuren

1 illustriert schematisch ein Verfahren zum Regeln eines dynamischen Systems.
2 illustriert schematisch einen beispielhaften Regelkreis gemäß einer oder mehrere Ausführungsformen der vorliegenden Offenbarung.
3 illustriert beispielhaft eine Szenario-Baum-Repräsentation eines Markow-Prozesses.
4-A bis 4-G illustriert beispielhaft mathematische Beschreibungen der dem vorgeschlagenen Verfahren zugrundeliegenden Prinzipien.
5 illustriert beispielhaft ein Gruppenstart-Szenario einer Mehrzahl von Fahrzeugen.
6-A illustriert beispielhaft Trajektorien des Abstandsfehlers für zwei Fahrzeuge in einem Gruppenstart, die mit einer beispielhaften Ausführung des vorgeschlagenen Verfahrens geregelt werden.
6-B und 6-C illustriert beispielhaft die Einhaltung beispielhafter Nebenbedingungen für den Abstand zu einem jeweiligen vorausfahrenden Fahrzeug von einem ersten und zweiten Fahrzeug bei Verwendung einer beispielhaften Ausführung des vorgeschlagenen Verfahrens.
7-A illustriert beispielhaft Trajektorien des Abstandsfehlers für zwei Fahrzeuge in einem Gruppenstart, die mit einem stochastischen LQR-Regler geregelt werden.
7-B und 7-C illustriert beispielhaft die Einhaltung beispielhafter Nebenbedingungen für den Abstand zu einem jeweiligen vorausfahrenden Fahrzeug von einem ersten und zweiten Fahrzeug bei Verwendung eines stochastischen LQR-Regler.

Detaillierte Beschreibung
Zunächst werden in Bezug auf die 1, 2 und 3 die Techniken der vorliegenden Offenbarung diskutiert. In Bezug auf 5 bis 7-C werden mögliche Ergebnisse und Vorteile diskutiert, die sich durch das hierin offenbarte Verfahren zum Regeln eines dynamischen Systems 12 ergeben.
1 ist ein Fluss-Diagramm, das mögliche Schritte des Verfahrens zum Regeln eines dynamischen Systems 12 zeigt. Das Verfahren 100 zum Regeln eines dynamischen Systems 12 umfasst Bestimmen 110, auf Basis eines mit einer Zeitverzögerung behafteten Zustandsvektors ξ, eines Eingangsvektors mittels eines Optimierungsproblems, das eine Kostenfunktion und mindestens eine Nebenbedingung umfasst, wobei die Zeitverzögerung der Übertragung mittels eines Markow-Prozesses modelliert wird und wobei die mindestens eine Nebenbedingung des Optimierungsproblems auf dem Markow-Prozess basiert. Das Verfahren umfasst Ausgeben 120 des bestimmten Eingangsvektors an einen Aktuator 11. In Beispielen kann die Kostenfunktion auf dem Markow-Prozess basieren. In Beispielen kann der Zustandsvektor ξ über ein Netzwerk 15 empfangen werden. In Beispielen kann das Ausgeben 120 des bestimmten Eingangsvektors an den Aktuator über das Netzwerk 15 erfolgen. In Beispielen kann die Zeitverzögerung auf einer Übertragung des Zustandsvektors ξ und/oder auf einer Übertragung des bestimmten Eingangsvektors über das Netzwerk 15 basieren. In Beispielen kann der Zustandsvektor Einträge, die den physikalischen Systemzustand repräsentieren, und/oder Einträge, die eine oder mehrere Eingabegrößen vergangener Zeitschritte repräsentieren, umfassen. In Beispielen kann der Zustandsvektor von einem Sensor 13 und/oder einem Zustandsschätzer von dem dynamischen System 12 empfangen werden. In Beispielen können die Einträge, die den physikalischen Systemzustand repräsentieren, beispielsweise mittels des Sensors 13, gemessen sein oder mittels eines Zustandsschätzers gewonnen sein. In Beispielen können die Eingabegrößen die Vektoreinträge von Eingangsvektoren vergangener Zeitschritte sein. In Beispielen kann das Netzwerk 15 ein kabelgebundenes und/oder ein kabelloses Netzwerk sein. In Beispielen kann das Netzwerk ein LAN (Local Area Network), ein WLAN (Wireless Local Area Network), CAN (Controller Area Network), ein loT-Netzwerk, ein 5G-Netzwerk, oder ein Multi-Access-Edge-Computing-Netzwerk umfassen. In Beispielen kann auf den vom Sensor 13 empfangenen Zustandsvektor ein Schätzalgorithmus, wie zum Beispiel ein Kalman-Filter und/oder ein Luenberger-Beobachter, angewandt werden, um den Zustand vor der Übertragung zu rekonstruieren. Der Schätzalgorithmus kann entweder in der Nähe des Aktuators 11 (vor dem Netzwerk) angeordnet sein oder in der Nähe des Controllers 14 (nach dem Netzwerk) angeordnet sein. In Beispielen kann der Aktuator 11 einen Smart-Aktuator 11 umfassen. In Beispielen kann der Controller 14 in einer Cloud oder Edge ausgeführt werden.
In Beispielen kann die Regelung und/oder Steuerung des dynamischen Systems auf einem zeitkontinuierlichen Zustandsraummodell basieren. In einem Beispiel kann das kontinuierliche Zustandsraummodell einen Eingangsvektor u(t) umfassen. In Beispielen kann der Eingangsvektor u(t) Sollvorgaben für Beschleunigungs- und/oder Bremsvorgänge eines Fahrzeugs und/oder Roboters umfassen. In Beispielen kann der Eingangsvektor Spannungssignale und/oder Stromsignale umfassen, die als Sollvorgaben für eine Motorregelung und/oder eine Bremsvorrichtung dienen. In Beispielen kann der Eingangsvektor Sollvorgaben für eine Lenkeinheit des Fahrzeugs und/oder des Roboters umfassen. In einem Beispiel kann der Eingangsvektor u(t) von dem Verzögerungsparameter τ abhängig sein. Der Verzögerungsparameter kann eine zeitlich unsichere Verzögerung des Eingangsvektor u(t - τ) abbilden. In einem Beispiel kann der Eingangsvektor u(t - τ) an einem anderen Ort als das zu regelnde System berechnet werden, sodass aufgrund der Datenübertragung eine zeitliche Verzögerung auftreten kann. In einem Beispiel lässt sich das zeitkontinuierliche Zustandsraummodell durch die Gleichung mit zeitlichen Unsicherheiten wie folgt darstellen: $\dot{x} = A x (t) + B u (t - τ), wobei \forall t > 0, x (0) = x_{0}$ $u (t) = u_{k}, wobei \forall t \in [t_{k}, t_{k} + h], k \in N,$
In Beispielen kann das zeitkontinuierliche Zustandsraummodell in eine Zeitdiskretisierung überführt werden. Hierbei kann die kontinuierliche Zeitverzögerung τ einen zeitdiskreten Markow-Prozess θ_k ∈ {0, ..., M} überführt werden. Dabei kann ein Markow-Modus eine ganzzahlige Zeitverzögerung θ_k = ih repräsentieren, wobei M E N die maximale Zeitverzögerung von Interesse repräsentiert. Für das Zustandsraummodell kann mit einem zeitdiskreten Zustandsvektor x_k gelten: $x_{k + 1} = A_{d} x_{k} + B_{d} u_{k - θ_{k - 1}}$
In Beispielen kann der Markow-Prozess mittels einer Übergangsmatrix beschrieben werden. In Beispielen kann ein Eintrag der Übergangsmatrix die Übergangswahrscheinlichkeit von einer ersten Zeitverzögerung zu einem ersten Zeitpunkt zu einer zweiten Zeitverzögerung zu einem zweiten Zeitpunkt umfassen. In Beispielen kann die Übergangsmatrix wie in 4-A dargestellt werden.
In Beispielen kann ein Eintrag der Übergangsmatrix wie folgt beschrieben werden: $p_{i j} = P (θ_{k + 1} = j | θ_{k} = i) .$
In Beispielen kann eine Kombination des Markow-Prozesses mit dem zeitdiskreten Zustandsraummodell zu dem erweiterten Zustandsraummodell wie in 4-B dargestellt führen.
Hierbei kann δ_(ij) den Dirac-Impuls umfassen, der mit δ_(ij) = 1, wenn i = j ist und δ_(ij) = 0, sonst, definiert ist. In Beispielen kann das erweiterte Zustandsraummodell ein sogenanntes „Markov Jump Linear System“ umfassen.
In Bespielen kann die Kostenfunktion auf einer Szenario-Baum-Repräsentation des Markow-Prozesses basieren. In Beispielen kann die Kostenfunktion wie in 4-C dargestellt werden.
In Beispielen kann zu je einem Zeitschritt ein Knoten des Szenario-Baums einen zukünftigen möglichen Eingangsvektor repräsentieren. 3 illustriert beispielhaft eine Szenario-Baum-Repräsentation eines Markow-Prozesses. Beispielsweise können im Zeitschritt t = 1 bei einem Markow-Prozess mit drei Moden drei Knoten gebildet werden, wobei je ein Knoten einen möglichen Zustandsvektor und/oder einen möglichen Eingangsvektor repräsentiert. In 3 ist beispielsweise der Vorhersage-Horizont N = 2.
In Beispielen kann die Kostenfunktion J eine mit je einer Wahrscheinlichkeit p(i) gewichtete Kostenfunktion l umfassen, die auf einem zukünftigen möglichen Eingangsvektor eines Knotens des Szenario-Baumes basiert. In Beispielen kann die Wahrscheinlichkeit p(i) mittels der Übergangswahrscheinlichkeiten entlang eines entsprechenden Pfades in dem Szenario-Baum von einem Wurzelknoten bis zu dem Knoten bestimmt werden. In Beispielen kann der Wurzelknoten mit unter den empfangenen Zustandsvektor repräsentieren. In Beispielen kann der Wurzelknoten ein Paar gebildet aus dem empfangenen Zustandsvektor sowie dem zu bestimmenden Eingangsvektor repräsentieren.
In Beispielen kann die Kostenfunktion J eine quadratische laufende Kostenfunktion l(ξ, u) = ξ^TQξ + u^TRu mit Gewichtungsmatrizen Q und R umfassen. In Beispielen kann u als Eingangsvektor mittels des Zustandsrückführungsregler-Gesetzes beschrieben werden: u = v + Kξ, wobei K eine Verstärkungsmatrix sein kann. In Beispielen kann die Verstärkungsmatrix K zeitvariant, zeitinvariant, oder konstant sein. In einem Beispiel kann die Verstärkungsmatrix K deterministisch sein. Weiter kann die Kostenfunktion eine quadratische Endwert-Kostenfunktion V_f(ξ) = ξ^TPξ umfassen, wobei P eine Endwert-Kosten-Matrix ist.
Anders ausgedrückt, kann die Kostenfunktion J auf einer Mehrzahl von Laufende-Kosten-Funktionen l basieren, die bestimmt sind durch je einen möglichen Zustandsvektor ξ_(t|k) und einen möglichen Eingangsvektor v_(t|k). In Beispielen kann die Kostenfunktion J auf der jeweiligen Wahrscheinlichkeit p(i) des Auftretens der jeweiligen Laufende-Kosten-Funktion l in dem Szenario-Baum, der den zugrundeliegenden diskreten Markow-Prozess repräsentiert, basieren.
In Beispielen kann das Optimierungsproblem eine Minimierung oder eine Nahezu-Minimierung der Kostenfunktion umfassen.
In Beispielen kann das Optimierungsproblem mathematisch wie in 4-D dargestellt werden. In Beispielen kann das Optimierungsproblem eine zu minimierende Kostenfunktion umfassen. In Beispielen wird die Kostenfunktion im Hinblick auf die mindestens eine Nebenbedingung minimiert bzw. nahezu minimiert. Ziel der Optimierung ist das Bestimmen 110 des Eingangsvektors, der an den Aktuator 11 ausgegeben wird. In Beispielen kann der Eingangsvektor $v_{0 | k}^{*}$ umfassen. In Beispielen kann $v_{0 | k}^{*}$ die Größe sein, die die Kostenfunktion (nahezu) minimiert. In Beispielen kann der Eingangsvektor, der an den Aktuator 11 ausgegeben wird, nach dem Bestimmen 110 auch über die Reglergleichung u = v + Kξ berechnet werden. In Beispielen kann der Eingangsvektor, der an den Aktuator 11 ausgeben wird, $u_{0 | k}^{*}$ umfassen, wobei $u_{0 | k}^{*}$ mit der Reglergleichung und $v_{0 | k}^{*}$ berechnet werden kann. In Beispielen kann neben dem Eingangsvektor der initiale (empfangene) Zustandsvektor ξ_k an den Aktuator 11 ausgegeben werden. In Beispielen kann der Aktuator 11 konfiguriert sein, den empfangen Eingangsvektor $v_{0 | k}^{*}$ und den initialen Zustandsvektor ξ_k mittels des Regelungsgesetzes u = v + Kξ in einer Zero-Order-Hold-Methode, d.h. optional ohne Interpolation oder „Smoothing“, an das dynamische System 12 anzulegen. In Beispielen kann der Aktuator 11 die Reglereingabe bzw. den Eingangsvektor so lange an das dynamische System 12 anlegen, bis eine neuer Eingangsvektor empfangen wird, was maximal nach M-Zeitschritten der Fall ist.
In Beispielen kann die mindestens eine Nebenbedingung auf einem auf die Zeitverzögerung bezogenen Conditional-Value-at-Risk basieren. In Beispielen kann die Conditional-Value-at-Risk wie in 4-E dargestellt werden. Conditional-Value-at-Risk-(CVaR)-Nebenbedingungen können einen entscheidenden Vorteil gegenüber stochastischen Nebenbedingungen (sog. „Chance Constraints“) haben, da sie nicht nur die Häufigkeit, sondern auch das Ausmaß von Nebenbedingungsverletzungen bestrafen. In Bezug auf Regelungssysteme kann dies die Sicherheit vor Ereignissen mit geringer Wahrscheinlichkeit und hohem Risiko, d. h. Ereignissen, die sehr selten auftreten, aber ernstzunehmende Folgen haben können, verbessern. Aus konzeptioneller Sicht ist eine stochastische Nebenbedingung (sog. „Chance Constraints“) durch den sogenannten Value-at-Risk (VaR) der Nebenbedingungsfunktion bei einem gegebenen Wahrscheinlichkeitsniveau p gekennzeichnet. Wenn die Nebenbedingungsfunktion im Durchschnitt kleiner oder gleich dem VaR ist, dann ist die stochastische Nebenbedingung des Wahrscheinlichkeitsniveaus p erfüllt. Ein Problem mit stochastischen Nebenbedingungen kann die Nichtkonvexität ihrer realisierbaren Menge sein, da der VaR von der zugrunde liegenden Wahrscheinlichkeitsverteilung abhängt. Eine Conditional-Value-at-Risk-Nebenbedingung hingegen kann die durchschnittliche Nebenbedingungsverletzung bestrafen, sobald der VaR überschritten wurde, d.h. der CVaR verwendet die bedingte Verteilung der Nebenbedingungsfunktion über dem VaR, was zu einer engen und konvexen Approximation von stochastischen Nebenbedingungen führen kann.
Wird die allgemeine Definition des Conditional-Value-at-Risk von oben verwendet, kann für die mindestens eine Nebendingung die mathematische Beschreibung wie in 4-F gelten.
In Beispielen kann das Optimierungsproblem, wie oben gezeigt, mindestens eine zweite Nebenbedingung umfassen. In Beispielen kann die mindestens zweite Nebenbedingung auf der Szenario-Baum-Repräsentation des Markow-Prozesses basieren.
Es wird im Folgenden Bezug genommen auf 3. In Beispielen kann θ ein endlicher Markow-Prozess sein. Daraus folgend kann die vorhergesagte Modussequenz θ_(t|k) für t ∈ [0, ..., N] in einem Szenario-Baum repräsentiert werden. Unterschieden werden kann die Menge der Knoten in Wurzelknoten 0, die t-Schritt-Stufen-Knoten für t ∈ [0, ...,N - 1] und die Blattknoten der Stufe N. Die Menge der Knoten in der Stufe t kann als nod(t) bezeichnet werden. Für einen Knoten i ∈ nod(t), t ∈ [0, N - 1] kann jeder Knoten i⁺ ∈ nod(t + 1), der innerhalb eines Zeitschrittes erreicht werden kann, als Kindknoten bezeichnet werden, also i⁺ ∈ ch(i). Am Beispiel von 3 sind die Kindknoten von Wurzelknoten i = 0, ch(0) = {1, 2, 3}. Der eindeutige Vorgängerknoten eines Knotens i ∈ nod(t), t ∈ [1, N], der innerhalb eines Zeitschrittes erreicht werden kann, als anc(i) ∈ nod(t - 1). Unter Verwendung dieser Notation kann unter weiterer Verwendung des erweiterten Zustandsraummodells für die mindestens zweite Nebenbedingung der mathematische Zusammenhang gem. 4-G gelten.
In diesem gezeigten Beispiel kann θ(i) den assoziierten Markow-Modus des Knoten i umfassen, wobei θ(i) ∈ Θ.
Die vorliegende Offenbarung betrifft auch Verfahren zum Steuern und/oder Regeln eines Fahrzeugs unter Verwendung des vorgeschlagenen Verfahrens.
In Beispielen kann der Controller 14 ausgelegt sein, das vorgeschlagene Verfahren 100 auszuführen. In Beispielen kann der Controller 14 Teil eines Zustandsreglers sein oder diesen umfassen.
In einem Beispiel kann das zu regelnde System bzw. das dynamische System 12 zur Anordnung in einem Fahrzeug ausgelegt sein, und/oder zur Steuerung einer Fahrzeugfunktion ausgelegt sein (insbesondere zur Steuerung einer Fahrfunktion). Zum Beispiel kann die Fahrzeugfunktion eine Funktion zum autonomen und/oder assistierten Fahren sein. In manchen Beispielen kann der Controller 14 zur Ausführung auf einem Computersystem eines Fahrzeugs (bspw. eines autonom, hochautomatisiert oder assistiert fahrenden Fahrzeugs) ausgelegt sein. Zum Beispiel kann das Computersystem lokal in dem Fahrzeug implementiert sein oder (zumindest teilweise) in einem Backend, das mit dem Fahrzeug kommunikativ verbunden ist, implementiert sein. Beispielsweise kann das Computersystem ein Steuergerät umfassen, auf dem der Controller 14 ausgeführt werden kann. In manchen Beispielen kann das Fahrzeug ein Computersystem mit einer Kommunikationsschnittstelle umfassen, die Kommunikation mit einem Backend ermöglicht. Beispielsweise kann in diesem Backend Controller 14 ausgeführt werden. In Beispielen können sich die zeitlichen Unsicherheiten durch die Datenübertragung zwischen dem zu regelnden System und dem Computersystem, das den Controller 14 ausführt, ergeben. In einem Beispiel kann das zu regelnde System ein System zur Querführung und/oder Längsführung des Fahrzeugs sein. In Beispielen kann der Zustandsvektor auf Geschwindigkeitsinformationen oder Distanzinformationen basieren. In Beispielen kann der Zustandsvektor eine relative Geschwindigkeit und/oder eine Distanz zwischen einem ersten Fahrzeug, einem zweiten Fahrzeug, einem Menschen und/oder einem ortsfesten Objekt umfassen. In einem Beispiel kann ein Zustandsvektor des Zustandsraummodells Variablen umfassen, die mindestens auf einem von einem Lenkwinkel, einem Ausrichtungswinkel, einer Gierrate, einem Schlupfwinkel, und/oder einem seitlichen Fehler basieren. In Beispielen kann der Zustandsvektor Informationen aus einem Netzwerk umfassen, wie beispielsweise Bewegungs- und/oder Richtungsinformationen von anderen Fahrzeugen. In Beispielen können diese Informationen mittels Fahrzeug-zu-Fahrzeug-Kommunikation (V2V-Kommunikation) oder mittels eines Backends (V2X-Kommunikation) bereitgestellt werden. In einem Beispiel kann ein Eingangsvektor eine Lenkgeschwindigkeit oder Sollvorgaben für Beschleunigungs- und/oder Bremsvorgänge umfassen. In Beispielen kann das zu regelnde System bzw. das dynamische System 12 zur Anordnung in einer Antriebssteuerung oder eine Antriebseinheit ausgelegt sein und/oder zur Regelung einer motorbezogenen Funktion dienen (insbesondere zur Motorregelung). In Beispielen kann das zu regelnde System bzw. das dynamische System 12 zur Anordnung in einer Antriebsregelung einer elektrischen Maschine angeordnet sein. Beispielsweise kann der Zustandsvektor des Zustandsraummodells Variablen enthalten, die mindestens auf einem von einem Steuerungssignal, einem Betriebsmodus oder einer Leistungseinstellung der elektrischen Maschine basieren.
Die vorliegende Offenbarung betrifft auch Verfahren zum Steuern und/oder Regeln eines Roboters unter Verwendung hier vorgeschlagenen Verfahrens 100. Dabei können in manchen Beispielen der Controller 14 und/oder das zu regelnde System bzw. das dynamische System 12 wie oben beschrieben ausgelegt sein.
In anderen Beispielen kann das zu regelnde System bzw. das dynamische System 12 in einem Roboter angeordnet sein, und/oder zur Steuerung einer Roboterfunktion ausgelegt sein (insbesondere zur Steuerung einer Bewegungsfunktion eines Roboters). Zum Beispiel kann das zu regelnde System ein System zur Querführung und/oder Längsführung des Roboters sein. In manchen Beispielen kann der Controller 14 auf einem Computersystem eines Roboters ausgeführt werden. Zum Beispiel kann das Computersystem lokal in dem Roboter implementiert sein oder (zumindest teilweise) in einem Backend, das mit dem Roboter kommunikativ verbunden ist, implementiert sein. In manchen Beispielen kann der Controller 14 in einem Backend ausgeführt werden. In Beispielen kann der Zustandsvektor auf Geschwindigkeitsinformationen oder Distanzinformationen basieren. In Beispielen kann der Zustandsvektor eine relative Geschwindigkeit und/oder eine Distanz zwischen einem ersten Roboter, einem Menschen, einer weiteren mobilen Vorrichtung und/oder einem ortsfesten Objekt umfassen. In einem Beispiel kann ein Zustandsvektor des Zustandsraummodells Variablen umfassen, die mindestens auf einem von einem Lenkwinkel, einem Ausrichtungswinkel, einer Gierrate, einem Schlupfwinkel, und/oder einem seitlichen Fehler basieren. In Beispielen kann der Zustandsvektor Informationen aus einem Netzwerk umfassen, wie beispielsweise Bewegungs- und/oder Richtungsinformationen von anderen Robotern, mobilen Vorrichtung und/oder Menschen. In Beispielen können diese Informationen mittels direkter Kommunikation oder mittels eines Backends bereitgestellt werden. In einem Beispiel kann ein Eingangsvektor eine Lenkgeschwindigkeit oder Sollvorgaben für Beschleunigungs- und/oder Bremsvorgänge umfassen.
Die vorliegende Offenbarung betrifft auch Verfahren zum Steuern und/oder Regeln von Funktionen in der Gebäudeautomatisierung unter Verwendung des hier vorgeschlagenen Verfahrens 100. Dabei können in manchen Beispielen der Controller 14 und/oder das zu regelnde System bzw. das dynamische System 12 wie oben beschrieben ausgelegt sein.
In einem Beispiel kann das zu regelnde System bzw. das dynamische System 12 zur Anordnung in einem Gebäude ausgelegt sein und/oder zur Steuerung und/oder Regelung von Gebäudefunktionen dienen (insbesondere zur Steuerung und/oder Regelung von Gebäudeautomatisierungsfunktionen). Zum Beispiel kann die Gebäudefunktion eine Funktion zum Regeln von Raumtemperatur, Beleuchtung und/oder Sicherheitseinrichtung sein. In manchen Beispielen kann der Controller 14 zur Ausführung auf einem Computersystem innerhalb des Gebäudes ausgelegt sein. Zum Beispiel kann das Computersystem lokal in dem Gebäude implementiert sein oder (zumindest teilweise) in einem Backend, das mit dem Gebäude kommunikativ verbunden ist, implementiert sein. Zum Beispiel kann das Computersystem ein Steuerungssystem oder ein Gebäudeautomatisierungssteuergerät umfassen, auf dem der Controller 14 ausgeführt werden kann. In Beispielen kann das Gebäude über ein Computersystem mit einer Kommunikationsschnittstelle verfügen, die die Kommunikation mit einem externen Backend ermöglicht. Beispielsweise kann in diesem Backend der Controller 14 ausgeführt werden. In Beispielen können sich die zeitlichen Unsicherheiten durch die Datenübertragung zwischen dem zu regelnden System und dem Computersystem, das den Zustandsregler ausführt, ergeben. Ein Zustandsvektor des Zustandsraummodells kann in Beispielen Variablen enthalten, die auf Informationen wie Raumtemperatur, Helligkeit oder Anwesenheit von Personen basieren. In einigen Fällen kann der Zustandsvektor eine relative Temperaturdifferenz, Beleuchtungsstärke oder Entfernung zu einem bestimmten Ort oder Objekt im Gebäude umfassen. Ein Beispiel für einen Zustandsvektor im Kontext der Gebäudeautomatisierung könnte Variablen enthalten, die auf Parametern wie beispielsweise Heizungsregelung, Beleuchtungseinstellungen, Lüftungsgeschwindigkeit oder Sicherheitsalarme basieren. Informationen können in Beispielen aus einem Netzwerk stammen, wie beispielsweise Sensordaten oder Einstellungen von anderen Gebäuden oder Gebäudekomponenten. Diese Informationen können durch Kommunikation zwischen Gebäuden oder Gebäudeteilen oder über ein externes Backend bereitgestellt werden. In einem Beispiel könnte eine Eingangsvektor beispielsweise eine Temperatur- und/oder eine Beleuchtungsvorgabe, zum Beispiel in Form eines Spannungs-und/oder Stromsignals, umfassen.
Nachfolgend soll anhand des Beispiels eines Gruppenstarts einer Mehrzahl von Fahrzeugen mit Bezug auf 5 bis 7-C die Vorteile des vorgeschlagenen Verfahrens dargestellt werden.
Zum Beispiel kann ein Gruppenstart von drei Fahrzeugen mit unzuverlässiger Kommunikation über ein Netzwerk angenommen werden, wie in 5 gezeigt. Das Führungsfahrzeug 18 ist ungesteuert und fährt mit einer konstanten Geschwindigkeit von $v_{0} = \frac{1 m}{s},$ gefolgt von zwei geregelten bzw. gesteuerten Fahrzeugen 16, 17 mit entsprechender Reglereingabe a₁ bzw a₂ (Eingangsvektor). Das Ziel ist den Abstandsfehler e₁ = d(v₂) - d und e₂ = d(v₃) - d zum Ursprung zu regulieren, d.h. die Linien 19a, 19b, die anzeigen, dass der notwendige geschwindigkeitsabhängige Sicherheitsabstand zum vorausfahrenden Fahrzeug eingehalten wird. Im gezeigten Beispiel wird ein Wahrscheinlichkeitsniveau für die Conditional-Value-at-Risk-(CVaR)-Nebenbedingung auf 0.9 (Linie 20) festgelegt: $C V a R_{0.1} (e_{i} (t) - d_{s a f e}) \leq 0, \forall i \in 1,2,$ wobei d_safe = 0.15m (Linie 21) die relative Sicherheitsschwelle oberhalb des geschwindigkeitsabhängigen Sicherheitsabstandes bezeichnet. Im vorliegenden Beispiel wird angenommen, dass die Fahrzeuge durch ihre Beschleunigungen a₁ bzw. a₂ gesteuert werden. Der Zustandsvektor sowie der Eingangsvektor können wie folgt angegeben werden: $x = [\begin{matrix} e_{1} \\ v_{1} - v_{2} \\ e_{2} \\ v_{0} - v_{1} \end{matrix}], u = [\begin{matrix} a_{1} \\ a_{2} \end{matrix}]$
In 6-A wird die entsprechende Geschlossene-Regelkreis-Trajektorie 22 der Abstandsfehler für beide Fahrzeuge, die mit dem vorgeschlagenen Verfahren gesteuert werden, gezeigt. In den 6-B und 6-C wird die Einhaltung der mindestens einen Nebendingung dargestellt. Es zeigt sich, dass beide Fahrzeuge die stochastische Nebenbedingung („Chance Constraint“) mit einer Wahrscheinlichkeit von mehr als den geforderten 90% erfüllen und beide Abstandsfehler-Trajektorien zum Ursprung konvergieren, d.h. stabil sind.
Im Gegensatz dazu ist in 7-A die Geschlossene-Regelkreis-Trajektorie unter Verwendung eines stochastischen Linear-Quadratischer-Regler-(LQR)-Ansatzes, bei dem keine Garantien für die Einhaltung der Einschränkungen gegeben werden können, gezeigt. Während beide Trajektorien zum Ursprung konvergieren, zeigen die 7-B und 7-C, dass die Sicherheitsnebenbedingungen häufiger verletzt werden als bei Verwendung des vorgeschlagenen Verfahrens, wie beispielsweise ungefähr bei t = 0.4 oder t = 0.8.
Offenbart wird weiterhin ein Computersystem, das dafür ausgelegt ist, das Verfahren 100 zum Regeln eines dynamischen Systems 12 auszuführen. Das Computersystem kann mindestens einen Prozessor und/oder mindestens einen Arbeitsspeicher umfassen. Das Computersystem kann weiterhin einen (nichtvolatilen) Speicher umfassen. In Beispielen können alle Schritte des Verfahrens 100 von dem Computersystem ausgeführt werden. In manchen Beispielen können einzelne Schritte des Verfahrens 100 durch das Computersystem ausgeführt werden. Optional können Ergebnisse einzelner Verfahrensschritte, die nicht durch das Computersystem ausgeführt werden, von dem Computersystem empfangen werden. In Beispielen kann das Computersystem den Controller 14 umfassen. In Beispielen kann das Netzwerk 15 Teil des Computersystems sein, bzw. das Computersystem das Netzwerk 15 umfassen.
Offenbart wird weiterhin ein Computerprogramm, das dafür ausgelegt ist, das Verfahren 100 zum Regeln eines dynamischen Systems 12 auszuführen. Das Computerprogramm kann z.B. in interpretierbarer oder in kompilierter Form vorliegen. Es kann (auch in Teilen) zur Ausführung z.B. als Bit- oder Byte-Folge in den RAM eines Computers geladen werden.
Offenbart wird weiterhin ein computerlesbares Medium oder Signal, das das Computerprogramm oder mindestens einen Teil davon speichert und/oder enthält. Das Medium kann z.B. eines von RAM, ROM, EPROM, HDD, SDD, ... umfassen, auf/in dem das Signal gespeichert wird.

Claims

Computerimplementiertes Verfahren (100) zum Regeln eines dynamischen Systems, insbesondere eines Systems zum autonomen und/oder automatisierten Fahren, wobei das Verfahren umfasst: - Bestimmen (110), auf Basis eines mit einer Zeitverzögerung behafteten Zustandsvektors, eines Eingangsvektors mittels eines Optimierungsproblems, das eine Kostenfunktion und mindestens eine Nebenbedingung umfasst, wobei die Zeitverzögerung der Übertragung mittels eines Markow-Prozesses modelliert wird und wobei die mindestens eine Nebenbedingung des Optimierungsproblems auf dem Markow-Prozess basiert, und - Ausgeben (120) des bestimmten Eingangsvektors an einen Aktuator 11.
Computerimplementiertes Verfahren (100) gemäß Anspruch 1, wobei die Zeitverzögerung auf einer Übertragung des Zustandsvektors und/oder auf einer Übertragung des bestimmten Eingangsvektors über ein Netzwerk basiert.
Computerimplementiertes Verfahren (100) gemäß Anspruch 1 oder 2, wobei der Zustandsvektor von einem Sensor und/oder einem Zustandsschätzer von dem dynamischen System empfangen wird.
Computerimplementiertes Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei der Markow-Prozess mittels einer Übergangsmatrix beschrieben wird, und wobei ein Eintrag der Übergangsmatrix die Übergangswahrscheinlichkeit von einer ersten Zeitverzögerung zu einem ersten Zeitpunkt zu einer zweiten Zeitverzögerung zu einem zweiten Zeitpunkt umfasst.
Computerimplementiertes Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei die Kostenfunktion auf einer Szenario-Baum-Repräsentation des Markow-Prozesses basiert.
Computerimplementiertes Verfahren (100) gemäß Anspruch 5, wobei zu je einem Zeitschritt ein Knoten des Szenario-Baums einen zukünftigen möglichen Eingangsvektor repräsentiert.
Computerimplementiertes Verfahren (100) gemäß Anspruch 5 oder 6, wobei die Kostenfunktion auf einer Mehrzahl von Laufende-Kosten-Funktionen, die bestimmt sind durch je einen möglichen Zustandsvektor und einen möglichen Eingangsvektor, und auf der jeweiligen Wahrscheinlichkeit des Auftretens der jeweiligen Laufende-Kosten-Funktion in der Szenario-Baum-Repräsentation basiert.
Computerimplementiertes Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei die mindestens eine Nebenbedingung auf einem auf die Zeitverzögerung bezogenen Conditional-Value-at-Risk basiert.
Computerimplementiertes Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei der Zustandsvektor Zustandsgrößen des dynamischen Systems und Eingabegrößen vorangegangener Zeitpunkte umfasst.
Computerimplementiertes Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei das dynamische System zur Steuerung einer Fahrzeugfunktion, einer Roboterfunktion, einer Gebäudeautomatisierungsfunktion, Elektrowerkzeugautomatisierungsfunktion, und/oder einer Haushaltsgeräteautomatisierungsfunktion.
Computersystem, dafür ausgelegt, das computerimplementierte Verfahren (100) zum Regeln eines dynamischen Systems 1 bis 10 auszuführen.
Computerprogramm, umfassend Befehle, die bei der Ausführung des Computerprogramms durch ein Computersystem dieses veranlassen, das computerimplementierte Verfahren (100) zum Regeln eines dynamischen Systems gemäß einem der vorhergehenden Ansprüche 1 bis 10 auszuführen.
Computerlesbares Medium oder Signal, das das Computerprogramm gemäß Anspruch 12 speichert und/oder enthält.