DE102020210465A1 - Method and device for supporting maneuver planning for an at least partially automated vehicle or a robot - Google Patents
Method and device for supporting maneuver planning for an at least partially automated vehicle or a robot Download PDFInfo
- Publication number
- DE102020210465A1 DE102020210465A1 DE102020210465.4A DE102020210465A DE102020210465A1 DE 102020210465 A1 DE102020210465 A1 DE 102020210465A1 DE 102020210465 A DE102020210465 A DE 102020210465A DE 102020210465 A1 DE102020210465 A1 DE 102020210465A1
- Authority
- DE
- Germany
- Prior art keywords
- mapping
- robot
- approximated
- optimal
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0217—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with energy consumption, time reduction or distance reduction criteria
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Feedback Control In General (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug (50) oder einen Roboter, wobei ein Zustandsraum (10) mittels eines Markow-Entscheidungsproblems beschrieben wird, wobei zum Unterstützen einer Manöverplanung für das Fahrzeug (50) oder den Roboter ausgehend von dem Markow-Entscheidungsproblem durch Ausführen mindestens eines Optimierungsverfahrens optimale Aktionen ausgehend von diskreten Zuständen (11) im Zustandsraum (10) bestimmt werden, wobei eine Abbildung (30) mit Zuständen (11) im Zustandsraum (10) als Eingabewerten und mit optimalen Aktionen (34) im Zustandsraum (10) als Ausgabewerten bestimmt wird, wobei die bestimmte Abbildung (30) durch eine Funktionsapproximation approximiert wird, wobei Elemente der approximierten Abbildung (31), deren Ausgabewerte gegenüber den entsprechenden Ausgabewerten der bestimmten Abbildung (30) einen Fehler aufweisen, der einen Fehlerschwellenwert (32) überschreitet, in Abhängigkeit der jeweils zugehörigen Eingangswerte in einer Nachschlagetabelle (33) abgelegt werden, wobei die approximierte Abbildung (31) und die Nachschlagetabelle (33) zur Manöverplanung bereitgestellt werden. Ferner betrifft die Erfindung eine Vorrichtung (1), ein Steuergerät (51) und ein Fahrzeug (50) oder einen Roboter. The invention relates to a method for supporting maneuver planning for an at least partially automated vehicle (50) or a robot, a state space (10) being described by means of a Markov decision problem, for supporting maneuver planning for the vehicle (50) or the robot Based on the Markov decision problem, optimal actions are determined based on discrete states (11) in the state space (10) by executing at least one optimization method, with a mapping (30) with states (11) in the state space (10) as input values and with optimal actions (34) is determined as output values in the state space (10), the specific mapping (30) being approximated by a function approximation, elements of the approximated mapping (31) whose output values have an error compared to the corresponding output values of the specific mapping (30). , which exceeds an error threshold (32), in Depending on the respectively associated input values, they are stored in a lookup table (33), with the approximated mapping (31) and the lookup table (33) being provided for maneuver planning. The invention also relates to a device (1), a control device (51) and a vehicle (50) or a robot.
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter. Ferner betrifft die Erfindung ein Steuergerät, ein Fahrzeug und einen Roboter.The invention relates to a method and a device for supporting maneuver planning for an at least partially automated vehicle or a robot. Furthermore, the invention relates to a control device, a vehicle and a robot.
In automatisiert fahrenden Fahrzeugen ist neben einer Trajektorienplanung, das heißt einem Bereitstellen einer in einer aktuellen Situation konkret abzufahrenden Trajektorie, im Rahmen einer Manöverplanung eine taktische Manöverplanung notwendig, um eine übergeordnete Strategie zu verwirklichen. Ein konkretes Beispiel hierfür ist eine Abbiegesituation mit mehreren Spuren und vielen anderen Verkehrsteilnehmern. Es muss dann entschieden werden, wann das Fahrzeug in welcher Fahrspur sein muss, um beispielsweise möglichst komfortabel für die Insassen und/oder möglichst zeitoptimal einen Abbiegevorgang durchzuführen, und welche anderen Verkehrsteilnehmer hierzu überholt werden müssen. Die vom Prinzip her gleiche Problemstellung ergibt sich auch für automatisiert handelnde Roboter.In automated vehicles, in addition to trajectory planning, ie providing a trajectory that is to be followed specifically in a current situation, tactical maneuver planning is necessary as part of maneuver planning in order to implement a higher-level strategy. A concrete example of this is a turning situation with several lanes and many other road users. A decision must then be made as to when the vehicle must be in which lane, for example in order to carry out a turning maneuver as comfortably as possible for the occupants and/or as quickly as possible, and which other road users must be overtaken for this purpose. The same problem in principle also arises for robots that act automatically.
Es sind Reinforcement-Learning-Verfahren bekannt, mit deren Hilfe ein Verhalten der anderen Verkehrsteilnehmer angelernt und basierend hierauf eine optimale Entscheidung getroffen werden kann. Hierbei wird eine Abbildung (engl. mapping) gelernt zwischen einem Zustand und einer hiermit korrespondierenden optimalen Aktion in Bezug auf eine Zielsetzung, die über eine Belohnungswert (engl. reward) ausgedrückt wird. Anders ausgedrückt versucht der Reinforcement Learning Agent die Aktion zu finden, die den Belohnungswert maximiert. Um eine optimale Lösung zu finden, muss ein Reinforcement Learning Agent ein Umfeld gründlich untersuchen, um sicherzustellen, dass eine optimale Lösung nicht übersehen wird. Andererseits kann der Agent bereits zu einem früheren Zeitpunkt erfahrene Situationen ausnutzen, in denen der Agent eine gute Lösung mit einem entsprechend hohen Belohnungswert gefunden hat.Reinforcement learning methods are known with the help of which the behavior of the other road users can be learned and based on this an optimal decision can be made. Here, a mapping is learned between a state and a corresponding optimal action in relation to a goal that is expressed as a reward. In other words, the Reinforcement Learning Agent tries to find the action that maximizes the reward value. In order to find an optimal solution, a reinforcement learning agent must examine an environment thoroughly to ensure that an optimal solution is not overlooked. On the other hand, the agent can exploit situations experienced at an earlier point in time, in which the agent has found a good solution with a correspondingly high reward value.
Ferner sind Markow-Entscheidungsprobleme und Verfahren der Dynamischen Programmierung bekannt.Furthermore, Markov decision problems and methods of dynamic programming are known.
Ein Problem bei der Beschreibung eines Zustandsraums mittels eines Markow-Entscheidungsproblems ist, dass der Zustandsraum mit jeder hinzugefügten weiteren Dimensionen exponentiell wächst („Fluch der Dimensionalität“) und dementsprechend ein Speicherbedarf ansteigt.One problem in describing a state space using a Markov decision problem is that the state space grows exponentially with each additional dimension added (“curse of dimensionality”) and memory requirements increase accordingly.
Der Erfindung liegt die Aufgabe zu Grunde, ein Verfahren und eine Vorrichtung zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter bereitzustellen, bei denen insbesondere ein geringerer Speicherbedarf erreicht werden kann.The invention is based on the object of providing a method and a device for supporting maneuver planning for an at least partially automated vehicle or a robot, in which, in particular, a lower memory requirement can be achieved.
Die Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Patentanspruchs 1, eine Vorrichtung mit den Merkmalen des Patentanspruchs 7 sowie ein Verfahren mit den Merkmalen des Patentanspruchs 5 und ein Steuergerät mit den Merkmalen des Patentanspruchs 9 gelöst. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.The object is achieved according to the invention by a method having the features of patent claim 1, a device having the features of patent claim 7 and a method having the features of patent claim 5 and a control unit having the features of
In einem ersten Aspekt der Erfindung wird ein Verfahren zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter zur Verfügung gestellt, wobei mittels einer Aktionsbestimmungseinrichtung ein Zustandsraum eines Umfelds des Fahrzeugs oder des Roboters in diskreter Form mittels eines Markow-Entscheidungsproblems beschrieben wird, wobei zum Unterstützen einer Manöverplanung für das Fahrzeug oder den Roboter ausgehend von dem Markow-Entscheidungsproblem durch Ausführen mindestens eines Optimierungsverfahrens optimale (diskretisierte) Aktionen ausgehend von diskreten Zuständen im Zustandsraum bestimmt werden, wobei eine Abbildung mit Zuständen im Zustandsraum als Eingabewerten und mit optimalen Aktionen im Zustandsraum als Ausgabewerten bestimmt wird, wobei die bestimmte Abbildung mittels einer Approximierungseinrichtung durch eine Funktionsapproximation approximiert wird, wobei Elemente der approximierten Abbildung, deren Ausgabewerte gegenüber den entsprechenden Ausgabewerten der bestimmten Abbildung einen Fehler aufweisen, der einen vorgegebenen Fehlerschwellenwert überschreitet, in Abhängigkeit der jeweils zugehörigen Eingangswerte in einer Nachschlagtabelle abgelegt werden, und wobei die approximierte Abbildung und die Nachschlagetabelle zur Verwendung bei der Manöverplanung bereitgestellt werden.In a first aspect of the invention, a method for supporting maneuver planning for an at least partially automated vehicle or a robot is made available, with an action determination device describing a state space of an environment of the vehicle or the robot in discrete form using a Markov decision problem, wherein to support a maneuver planning for the vehicle or the robot based on the Markov decision problem by executing at least one optimization method, optimal (discretized) actions are determined based on discrete states in the state space, wherein a mapping with states in the state space as input values and with optimal actions in State space is determined as output values, the specific mapping being approximated by a function approximation using an approximation device, with elements of the approximated mapping whose output values g exhibit an error with respect to the corresponding output values of the determined mapping which exceeds a predetermined error threshold, are stored in a look-up table depending on the respective associated input values, and the approximate mapping and the look-up table being provided for use in maneuver planning.
Ferner wird in einem zweiten Aspekt der Erfindung insbesondere eine Vorrichtung zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter geschaffen, umfassend eine Aktionsbestimmungseinrichtung und eine Approximierungseinrichtung, wobei die Aktionsbestimmungseinrichtung dazu eingerichtet ist, einen Zustandsraum eines Umfelds des Fahrzeugs oder des Roboters in diskreter Form mittels eines Markow-Entscheidungsproblems zu beschreiben, zum Unterstützen einer Manöverplanung für das Fahrzeug oder den Roboter ausgehend von dem Markow-Entscheidungsproblem durch Ausführen mindestens eines Optimierungsverfahrens optimale (diskretisierte) Aktionen ausgehend von diskreten Zuständen im Zustandsraum zu bestimmen, eine Abbildung mit Zuständen im Zustandsraum als Eingabewerten und mit optimalen Aktionen im Zustandsraum als Ausgabewerten zu bestimmen, und wobei die Approximierungseinrichtung dazu eingerichtet ist, die bestimmte Abbildung mittels einer Funktionsapproximation zu approximieren, wobei Elemente der approximierten Abbildung, deren Ausgabewerte gegenüber den entsprechenden Ausgabewerten der bestimmten Abbildung einen Fehler aufweisen, der einen vorgegebenen Fehlerschwellenwert überschreitet, in Abhängigkeit der jeweils zugehörigen Eingangswerte in einer Nachschlagtabelle abgelegt werden, und wobei die Vorrichtung dazu eingerichtet ist, die approximierte Abbildung und die Nachschlagetabelle zur Verwendung bei der Manöverplanung bereitzustellen.Furthermore, in a second aspect of the invention, a device for supporting maneuver planning for an at least partially automated vehicle or a robot is created, comprising an action determination device and an approximation device, wherein the action determination device is set up to convert a state space of an environment of the vehicle or the robot into discrete form by means of a Markov decision problem, to support a maneuver planning for the vehicle or the robot based on the Markov decision problem by executing at least one optimization method optimal (discretized) actions based on discrete states in the state space determine, to determine a mapping with states in the state space as input values and with optimal actions in the state space as output values, and wherein the approximation device is set up to approximate the determined mapping by means of a function approximation, with elements of the approximated mapping whose output values compared to the corresponding output values of the specific mapping have an error that exceeds a predetermined error threshold value, are stored in a lookup table depending on the respective associated input values, and wherein the device is set up to provide the approximated mapping and the lookup table for use in maneuver planning.
In einem dritten Aspekt der Erfindung wird insbesondere auch ein Verfahren zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter zur Verfügung gestellt, wobei mittels eines Steuergeräts des Fahrzeugs oder des Roboters eine gemäß einem Verfahren gemäß dem ersten Aspekt erzeugte approximierte Abbildung und eine Nachschlagetabelle erhalten und/oder bereitgestellt werden, und zur Manöverplanung optimale Aktionen in Abhängigkeit von einem erkannten diskreten Zustand eines Zustandsraums bereitgestellt werden, wobei hierbei zuerst überprüft wird, ob für den erkannten Zustand eine optimale Aktion in der Nachschlagetabelle hinterlegt ist; falls dies der Fall ist, wird die hinterlegte optimale Aktion abgerufen und für die Manöverplanung bereitgestellt, anderenfalls wird eine optimale Aktion mittels der approximierten Abbildung geschätzt und bereitgestellt.In a third aspect of the invention, a method for supporting maneuver planning for an at least partially automated vehicle or a robot is also made available, with a control unit of the vehicle or the robot generating an approximated image generated according to a method according to the first aspect and a Lookup tables are obtained and/or provided, and optimal actions are provided for maneuver planning as a function of a recognized discrete state of a state space, it being checked first whether an optimal action is stored in the lookup table for the recognized state; if this is the case, the stored optimal action is retrieved and made available for maneuver planning, otherwise an optimal action is estimated using the approximated mapping and made available.
Sodann wird in einem vierten Aspekt der Erfindung insbesondere ein Steuergerät für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter geschaffen, wobei das Steuergerät dazu eingerichtet ist, eine gemäß einem Verfahren gemäß dem ersten Aspekt erzeugte approximierte Abbildung und eine Nachschlagetabelle zu erhalten und/oder bereitzustellen, und zur Manöverplanung optimale Aktionen in Abhängigkeit von einem erkannten diskreten Zustand eines Zustandsraums bereitzustellen, und hierzu zuerst zu überprüfen, ob für den erkannten Zustand eine optimale Aktion in der Nachschlagetabelle hinterlegt ist; falls dies der Fall ist, die hinterlegte optimale Aktion abzurufen und für die Manöverplanung bereitzustellen, anderenfalls eine optimale Aktion mittels der approximierten Abbildung zu schätzen und für die Manöverplanung bereitzustellen.Then, in a fourth aspect of the invention, in particular a control unit for an at least partially automated vehicle or a robot is created, the control unit being set up to receive and/or provide an approximated image and a look-up table generated using a method according to the first aspect, and to provide optimal actions for maneuver planning as a function of a detected discrete state of a state space, and for this purpose first checking whether an optimal action is stored in the look-up table for the detected state; if this is the case, to call up the stored optimal action and make it available for the maneuver planning, otherwise to estimate an optimal action using the approximated mapping and make it available for the maneuver planning.
Die verschiedenen Aspekte ermöglichen es, auch bei wachsenden Zustandsräumen einen Speicherbedarf nicht exponentiell wachsen zu lassen. Dies wird erreicht, indem eine zur Manöverplanung bestimmte Abbildung, in der diskrete Zustände im Zustandsraum eines Markow-Entscheidungsproblems als Eingabewerte mit optimalen Aktionen im Zustandsraum als Ausgabewerten verknüpft sind, sowohl mittels einer Funktionsapproximation als auch mittels einer Nachschlagetabelle ausgedrückt wird. Hierbei ist insbesondere einer der Grundgedanken, dass ein Großteil der bestimmten Abbildung mittels einer Funktion approximiert werden kann. Diejenigen Elemente der approximierten Abbildung jedoch (d.h. diejenigen Verknüpfungen zwischen diskreten Zuständen als Eingangswerten der Abbildung und optimalen Aktionen als Ausgabewerten), für die ein Fehler zu den entsprechenden Elementen in der (nicht approximierten) bestimmten Abbildung einen Fehlerschwellenwert überschreitet, werden in der Nachschlagetabelle hinterlegt. Hierdurch kann ein Kompromiss gefunden werden zwischen einem Speicherbedarf und einer Genauigkeit der bereitgestellten optimalen Aktionen. Beim Verwenden der approximierten Abbildung und der Nachschlagetabelle zur Manöverplanung wird zuerst in der Nachschlagetabelle nachgesehen, ob für einen aktuell erfassten bzw. erkannten diskreten Zustand im Zustandsraum eine optimale Aktion hinterlegt ist. Ist eine optimale Aktion hinterlegt, das heißt gibt es zu dem erkannten diskreten Zustand einen Eintrag in der Nachschlagetabelle, wird dieser abgerufen und für die Manöverplanung bereitgestellt. Ist hingegen für den erkannten diskreten Zustand keine optimale Aktion in der Nachschlagetabelle hinterlegt, so wird eine zugehörige optimale Aktion mittels der approximierten Abbildung geschätzt.The various aspects make it possible not to let a memory requirement grow exponentially, even with growing state spaces. This is achieved by expressing a mapping intended for maneuver planning, in which discrete states in the state space of a Markov decision problem as input values are associated with optimal actions in the state space as output values, using both a function approximation and a look-up table. In particular, one of the basic ideas here is that a large part of the specific mapping can be approximated by means of a function. However, those elements of the approximated map (i.e., those links between discrete states as input values of the map and optimal actions as output values) for which an error to the corresponding elements in the (unapproximated) particular map exceeds an error threshold are stored in the lookup table. As a result, a compromise can be found between a memory requirement and an accuracy of the optimal actions provided. When using the approximated mapping and the lookup table for maneuver planning, the lookup table is first checked to see whether an optimal action is stored for a currently detected or recognized discrete state in the state space. If an optimal action is stored, ie if there is an entry in the look-up table for the detected discrete state, this is retrieved and made available for maneuver planning. On the other hand, if no optimal action is stored in the look-up table for the identified discrete state, then an associated optimal action is estimated using the approximated mapping.
Einer der Vorteile der verschiedenen Aspekte ist, dass auch bei großen und insbesondere wachsenden Zustandsräumen ein Kompromiss zwischen einem Speicherbedarf und einer Genauigkeit gefunden werden kann. Insbesondere weisen alle der bereitgestellten optimalen Aktionen einen Fehler zu den in der (nicht approximierten) Abbildung hinterlegten optimalen Aktionen auf, der nicht größer ist als ein vorgegebener Fehlerschwellenwert.One of the advantages of the various aspects is that a compromise can be found between memory requirements and accuracy even in the case of large and, in particular, growing state spaces. In particular, all of the optimal actions provided have an error in relation to the optimal actions stored in the (non-approximated) mapping, which is not greater than a predetermined error threshold value.
Durch Vorgabe eines geeigneten Fehlerschwellenwertes kann insbesondere eine Größe der Nachschlagetabelle beeinflusst werden. Je kleiner der vorgegebene Fehlerschwellenwert ist, desto genauer sind die bereitgestellten optimalen Aktionen im Hinblick auf die korrespondierenden optimalen Aktionen in der bestimmten Abbildung. Gleichzeitig steigt mit kleinerem Fehlerschwellenwert aber auch ein Speicherplatzbedarf, da die Nachschlagetabelle hierdurch größer wird und mehr Speicherplatz benötigt.In particular, a size of the look-up table can be influenced by specifying a suitable error threshold value. The smaller the predetermined error threshold, the more accurate the provided optimal actions are with respect to the corresponding optimal actions in the particular mapping. At the same time, the smaller the error threshold value, the more storage space is required, since the look-up table becomes larger as a result and requires more storage space.
Es kann insbesondere vorgesehen sein, dass der Fehlerschwellenwert derart vorgegeben ist oder vorgegeben wird, dass ein vorgegebener Speicherplatz zum Aufnehmen der approximierten Abbildung und der Nachschlagetabelle nicht überschritten wird. Ein solcher Speicherplatz ist insbesondere durch eine Verwendung der approximierten Abbildung und der Nachschlagetabelle in einem Steuergerät in einem Fahrzeug oder einem Roboter begrenzt bzw. festgelegt.In particular, it can be provided that the error threshold value is predetermined or is predetermined in such a way that a predetermined memory space for recording the approximated image tion and the lookup table is not exceeded. Such a memory space is limited or fixed in particular by using the approximated mapping and the look-up table in a control device in a vehicle or a robot.
Ein Markow-Entscheidungsproblem (engl. Markov Decision Process, MDP) ist ein Modell von Entscheidungsproblemen. Hierbei ist ein Nutzen eines Agenten von einer Abfolge von Entscheidungen abhängig, wobei die Abfolge sequentielle Zustandsübergänge zwischen diskreten Zuständen in einem Zustandsraum umfasst. Für die einzelnen Zustandsübergänge gilt hierbei die Markow-Annahme, das heißt eine Übergangswahrscheinlichkeit, einen Zustand s' von Zustand s aus zu erreichen, ist nur von s abhängig und nicht von einer in der Vergangenheit liegenden Historie, das heißt von Vorgängern von s. Der Zustandsraum bildet insbesondere diskrete Zustände in einem Umfeld des Fahrzeugs oder des Roboters ab. Prinzipiell kann das Markow-Entscheidungsproblem auch als Factored-Markow-Entscheidungsproblem (engl. Factored Markov Decision Processes, FMDP) ausgestaltet sein.A Markov Decision Process (MDP) is a model of decision problems. Here, an agent's utility depends on a sequence of decisions, the sequence comprising sequential state transitions between discrete states in a state space. The Markov assumption applies to the individual state transitions, i.e. a transition probability of reaching a state s' from state s depends only on s and not on a history lying in the past, i.e. on predecessors of s In particular, state space depicts discrete states in an environment of the vehicle or the robot. In principle, the Markov decision problem can also be configured as a factored Markov decision problem (Factored Markov Decision Processes, FMDP).
Ein Zustand im Zustandsraum kann insbesondere mehrere Größen bzw. Eigenschaften umfassen, d.h. ein Zustand ist insbesondere mehrdimensional. Ein Zustand ist hierbei insbesondere definiert als eine bestimmte Ausprägung dieser Größen bzw. Eigenschaften. Die Zustände im Zustandsraum sind insbesondere diskret gewählt. Der Zustandsraum ist insbesondere ein Zustandsraum auf einer höheren Ebene, das heißt Zustände werden nicht über Sensorrohdaten abgebildet, sondern über höherwertigere Merkmale und Eigenschaften, die aus den Sensorrohdaten, beispielsweise mittels einer Objekt- und/oder Mustererkennung, abgeleitet wurden. Zustände können beispielsweise Hindernispositionen und/oder Hindernisgeschwindigkeiten und/oder eine Art oder Klasse von Hindernissen im Umfeld umfassen. Zumindest bei einer Anwendung im Fahrzeug wird ein Zustand insbesondere aus Sensordaten, die mittels mindestens eines Sensors erfasst wurden, abgeleitet.A state in the state space can in particular include a number of variables or properties, i.e. a state is in particular multi-dimensional. In this case, a state is defined in particular as a specific manifestation of these variables or properties. In particular, the states in the state space are chosen to be discrete. The state space is in particular a state space at a higher level, ie states are not mapped using raw sensor data, but rather using higher-value features and properties that were derived from the raw sensor data, for example by means of object and/or pattern recognition. For example, states can include obstacle positions and/or obstacle speeds and/or a type or class of obstacles in the environment. At least in the case of an application in the vehicle, a state is derived in particular from sensor data that was recorded using at least one sensor.
Zum Bestimmen der optimalen Aktionen für die Abbildung wird ausgehend von dem Markow-Entscheidungsproblem mindestens ein Optimierungsverfahren ausgeführt. Hierzu kann insbesondere vorgesehen sein, dass mittels Dynamischer Programmierung optimale Aktionswerte für diskretisierte Aktionen ausgehend von diskreten Zuständen im Zustandsraum bestimmt werden, wobei eine Abbildung mit Zuständen im Zustandsraum als Eingabewerten und mit Aktionswerten für Aktionen im Zustandsraum als Ausgabewerten mittels eines Reinforcement Learning-Verfahren gelernt wird, wobei ein Reinforcement Learning Agent hierbei auf Grundlage der mittels der Dynamischen Programmierung bestimmten optimalen Aktionswerte initialisiert wird, und wobei die gelernte Abbildung für eine Manöverplanung bereitgestellt wird. Dies hat als Vorteil, dass der Reinforcement Learning Agent beim Lernen nicht von Null auf beginnen muss, sondern bereits mit einer, zumindest hinsichtlich einer Anzahl diskreter Zustände im Zustandsraum, optimalen Lösung starten kann. Dies wird dadurch ermöglicht, dass optimale Aktionswerte für einzelne Aktionen für diskrete Zustände im Zustandsraum bereits vor Anwenden des Reinforcement Learning mittels einer Dynamischen Programmierung bestimmt werden. Mit Hilfe der derart bestimmten optimalen Aktionswerte wird die Abbildung, die von dem Reinforcement Learning Agenten angelernt wird, initialisiert. Der Reinforcement Learning Agent muss hierdurch nicht bei Null beginnen, sondern kann auf die mittels der Dynamischen Programmierung bestimmten Aktionswerte aufbauen.At least one optimization procedure is performed to determine the optimal actions for the mapping based on the Markov decision problem. For this purpose, it can be provided in particular that dynamic programming is used to determine optimal action values for discretized actions based on discrete states in the state space, wherein a mapping with states in the state space as input values and with action values for actions in the state space as output values is learned using a reinforcement learning method , a reinforcement learning agent being initialized on the basis of the optimal action values determined by means of dynamic programming, and the learned mapping being provided for maneuver planning. This has the advantage that the reinforcement learning agent does not have to start from scratch when learning, but can already start with an optimal solution, at least with regard to a number of discrete states in the state space. This is made possible by the fact that optimal action values for individual actions for discrete states in the state space are determined by means of dynamic programming before application of reinforcement learning. The mapping, which is learned by the reinforcement learning agent, is initialized with the aid of the optimal action values determined in this way. As a result, the Reinforcement Learning Agent does not have to start from scratch, but can build on the action values determined by means of dynamic programming.
Grundsätzlich kann auch nur eine Verwendung eines Reinforcement Learning-Verfahrens vorgesehen sein, ohne dass das Reinforcement-Learning-Verfahren mittels einer durch Dynamische Programmierung erzeugten Abbildung initialisiert wird. Hierbei ist die Vorgehensweise analog zu der voranstehend beschriebenen. Prinzipiell können jedoch auch andere Optimierungsverfahren vorgesehen sein. Das verwendete mindestens eine Optimierungsverfahren arbeitet jedoch stets auf Grundlage des Markow-Entscheidungsproblems.In principle, only one use of a reinforcement learning method can be provided, without the reinforcement learning method being initialized by means of a mapping generated by dynamic programming. The procedure here is analogous to that described above. In principle, however, other optimization methods can also be provided. However, the at least one optimization method used always works on the basis of the Markov decision problem.
Die Dynamische Programmierung ist ein Verfahren zum Lösen eines Optimierungsproblems durch Aufteilung eines komplexen Problems in einfachere Unter- oder Teilprobleme. Eine Lösung erfolgt hierbei auf rekursive Weise. Insbesondere ist die Dynamische Programmierung ein algorithmisches Paradigma, das eine Klasse von Optimierungsverfahren beschreibt, die zur Lösung einer vorgegebenen Problemstellung ein perfektes Modell eines Umfelds als Markow-Entscheidungsproblem verwenden. Die Dynamische Programmierung wird insbesondere in dem Zustandsraum mit diskretisierten Zuständen angewendet. Insbesondere liefert die dynamische Programmierung als Ergebnis optimale Aktionswerte als Maß für eine Belohnung für diskretisierte Aktionen ausgehend von den diskreten Zuständen im Zustandsraum.Dynamic programming is a technique for solving an optimization problem by breaking down a complex problem into simpler sub-problems. A solution takes place here in a recursive manner. In particular, dynamic programming is an algorithmic paradigm that describes a class of optimization methods that use a perfect model of an environment as a Markov decision problem to solve a given problem. Dynamic programming is used in particular in the state space with discretized states. In particular, dynamic programming results in optimal action values as a measure of a reward for discretized actions based on the discrete states in the state space.
Reinforcement Learning (auch als bestärkendes oder verstärkendes Lernen bezeichnet) ist ein Verfahren des Maschinellen Lernens, bei dem ein Agent selbständig eine Strategie erlernt, um erhaltene Belohnungen zu maximieren. Eine Belohnung kann hierbei sowohl positiv als auch negativ sein. Anhand der erhaltenen Belohnungen approximiert der Agent eine Belohnungsfunktion, die beschreibt, welchen Wert ein Zustand oder eine Aktion hat. Im Zusammenhang mit Aktionen wird ein solcher Wert als Aktionswert (engl. action value) bezeichnet. Verfahren des Reinforcement Learning betrachten insbesondere eine Interaktion des Agenten mit seiner Umwelt, die in Form eines Markow-Entscheidungsproblems formuliert ist. Der Agent kann ausgehend von einem gegebenen, beispielsweise aus erfassten Sensordaten mindestens eines Sensors abgeleiteten, Zustand durch eine aus mehreren Aktionen ausgewählte Aktion in einen anderen Zustand gelangen. In Abhängigkeit der getroffenen Entscheidung, d.h. der ausgeführten Aktion, erhält der Agent eine Belohnung (engl. reward). Der Agent hat hierbei die Aufgabe, einen zukünftig erwarteten Gewinn, der sich aus diskontierten Belohnungen, also der Gesamtbelohnung zusammensetzt, zu maximieren. Am Ende des Verfahrens steht für eine vorgegebene Strategie eine approximierte Belohnungsfunktion, mit der für jede Aktion ein Belohnungswert bzw. Aktionswert bereitgestellt oder geschätzt werden kann.Reinforcement learning (also known as reinforcing or reinforcement learning) is a machine learning technique in which an agent autonomously learns a strategy to maximize the rewards received. A reward can be both positive and negative. Based on the rewards received, the agent approximates a reward function that describes what value a state or action has. In the context of actions, such a value is referred to as an action value. Methods of reinforcement learning consider in particular an interaction of the agent with its environment, which is formulated in the form of a Markov decision problem. Starting from a given state, for example derived from detected sensor data of at least one sensor, the agent can change to another state by an action selected from a plurality of actions. Depending on the decision made, ie the action taken, the agent receives a reward. The agent has the task of maximizing an expected future profit, which is made up of discounted rewards, i.e. the total reward. At the end of the method, there is an approximate reward function for a given strategy, with which a reward value or action value can be provided or estimated for each action.
Es kann vorgesehen sein, dass das mindestens eine Optimierungsverfahren auf einer hierfür optimierten Berechnungseinrichtung ausgeführt wird, beispielsweise auf einem Quantencomputer.Provision can be made for the at least one optimization method to be executed on a calculation device optimized for this purpose, for example on a quantum computer.
Eine Aktion kann für ein Fahrzeug beispielsweise die folgenden Handlungen umfassen: Geradeausfahren mit aktiviertem Abstandsregeltempomat (ACC) (d.h. auf der Fahrspur bleiben und keinen Spurwechsel durchführen), Geradeausfahren (keine Beschleunigung), Geradeausfahren und Bremsen, Fahrspurwechsel auf die linke Fahrspur oder Fahrspurwechsel auf die rechte Fahrspur etc.For example, an action for a vehicle may include: driving straight ahead with adaptive cruise control (ACC) activated (i.e. staying in lane and not changing lanes), driving straight ahead (not accelerating), driving straight ahead and braking, changing lanes to the left lane, or changing lanes to the left lane right lane etc.
Eine optimale Aktion für einen gegebenen Zustand ist insbesondere eine Aktion mit einem optimalen Aktionswert, das heißt eine Aktion, für die in dem gegebenen Zustand mittels des mindestens einen Optimierungsverfahrens ein optimaler Aktionswert bestimmt wird oder bestimmt wurde.An optimal action for a given state is in particular an action with an optimal action value, ie an action for which an optimal action value is or was determined in the given state using the at least one optimization method.
Eine Belohnung (engl. reward) bzw. ein Aktionswert für eine Aktion im Zustandsraum kann insbesondere die folgenden Einflüsse berücksichtigen: eine Kollisionsvermeidung, eine Pfadtreue (d.h. kein oder nur ein geringes Abweichen von einem von einer Navigationseinrichtung vorgegebenen Pfad), ein zeitoptimales Verhalten und/oder einen Komfort bzw. eine Zweckmäßigkeit für Fahrzeuginsassen.A reward or an action value for an action in the state space can, in particular, take into account the following influences: collision avoidance, path fidelity (ie no or only slight deviation from a path specified by a navigation device), time-optimal behavior and/or or comfort or convenience for vehicle occupants.
Es ist insbesondere vorgesehen, dass die bestimmte Abbildung für eine vorgegebene Strategie (z.B. Energieeffizienz oder Komfort etc.), die über die Belohnungen bzw. die Aktionswerte beeinflusst wird, bestimmt wird oder bestimmt wurde. Dies bedeutet insbesondere, dass die in der bestimmten Abbildung hinterlegten optimalen Aktionen im Hinblick auf die vorgegebene Strategie optimal sind.In particular, it is provided that the specific mapping is determined or was determined for a predetermined strategy (e.g. energy efficiency or comfort, etc.) that is influenced via the rewards or the action values. This means in particular that the optimal actions stored in the specific mapping are optimal with regard to the given strategy.
Es ist insbesondere vorgesehen, dass die mittels des mindestens einen Optimierungsverfahrens, insbesondere mittels der Dynamischen Programmierung und des Reinforcement-Learning-Verfahrens, bestimmte Abbildung eine tabellenartige Form aufweist.In particular, it is provided that the mapping determined by means of the at least one optimization method, in particular by means of dynamic programming and the reinforcement learning method, has a table-like form.
Es kann alternativ insbesondere vorgesehen sein, dass die bestimmte Abbildung mittels eines Neuronalen Netzes bereitgestellt wird, wobei das Neuronale Netz zum Initialisieren ausgehend von den, insbesondere mittels der Dynamischen Programmierung, bestimmten optimalen Aktionen im Wege des überwachten Lernens trainiert wird.As an alternative, provision can be made in particular for the specific mapping to be provided by means of a neural network, with the neural network being trained for initialization on the basis of the optimal actions determined, in particular by means of dynamic programming, by way of supervised learning.
Teile der Vorrichtung, insbesondere die Aktionsbestimmungseinrichtung und die Approximierungseinrichtung, sowie das Steuergerät können einzeln oder zusammengefasst als eine Kombination von Hardware und Software ausgebildet sein, beispielsweise als Programmcode, der auf einem Mikrocontroller oder Mikroprozessor ausgeführt wird.Parts of the device, in particular the action determination device and the approximation device, and the control device can be designed individually or combined as a combination of hardware and software, for example as program code that runs on a microcontroller or microprocessor.
Ein Fahrzeug ist insbesondere ein Kraftfahrzeug. Prinzipiell kann ein Fahrzeug jedoch ein anderes Land-, Wasser-, Luft-, Schienen- oder Raumfahrzeug sein. Ein Roboter kann prinzipiell beliebig ausgebildet sein, beispielsweise als Transportroboter, als Produktionsroboter oder als Pflegeroboter etc.A vehicle is in particular a motor vehicle. In principle, however, a vehicle can be another land, water, air, rail or space vehicle. In principle, a robot can be designed in any way, for example as a transport robot, as a production robot or as a care robot, etc.
In einer Ausführungsform ist vorgesehen, dass das Bereitstellen ein Einladen der approximierten Abbildung und der Nachschlagetabelle in einen Speicher eines Steuergeräts mindestens eines Fahrzeugs oder mindestens eines Roboters umfasst, sodass beim Betreiben des mindestens einen Fahrzeugs oder des mindestens einen Roboters zum Bereitstellen von optimalen Aktionswerten für erkannte diskrete Zustände eines Zustandsraum mittels des Steuergeräts zuerst überprüft werden kann, ob für den erkannten Zustand eine optimale Aktion in der Nachschlagetabelle hinterlegt ist; falls dies der Fall ist, die hinterlegte optimale Aktion abgerufen und für die Manöverplanung bereitgestellt werden kann, anderenfalls die optimale Aktion mittels der approximierten Abbildung geschätzt und für die Manöverplanung bereitgestellt werden kann.In one embodiment it is provided that the provision includes loading the approximated mapping and the look-up table into a memory of a control unit of at least one vehicle or at least one robot, so that when the at least one vehicle or the at least one robot is operated, optimal action values for the recognized discrete states of a state space can first be checked by means of the control unit whether an optimal action is stored in the look-up table for the recognized state; if this is the case, the stored optimal action can be retrieved and made available for the maneuver planning, otherwise the optimal action can be estimated using the approximated mapping and made available for the maneuver planning.
Das Bereitstellen kann insbesondere ein Übermitteln der approximierten Abbildung und der Nachschlagetabelle an mindestens ein Steuergerät umfassen. Das Übermitteln erfolgt hierbei insbesondere mittels entsprechend hierfür eingerichteter Kommunikationsschnittstellen der Vorrichtung und des mindestens einen Steuergeräts. Das mindestens eine Steuergerät erhält, insbesondere empfängt, die approximierte Abbildung und die Nachschlagetabelle und lädt diese in einen Speicher, sodass diese zur Manöverplanung bereitgestellt werden können, insbesondere indem optimale Aktionen für erkannte Zustände abgerufen und/oder bereitgestellt werden können.The provision can in particular include a transmission of the approximated mapping and the look-up table to at least one control device. In this case, the transmission takes place in particular by means of communication interfaces of the device and of the at least one control unit that are set up accordingly for this purpose. The at least one control device receives, in particular receives, the approximated mapping and the look-up table and loads them into a memory so that they can be provided for maneuver planning, in particular by being able to retrieve and/or provide optimal actions for recognized states.
In einer Ausführungsform ist vorgesehen, dass zur Funktionsapproximation der bestimmten Abbildung mindestens ein Neuronales Netz trainiert und bereitgestellt wird. Das Neuronale Netz wird insbesondere mittels der, insbesondere mittels der Dynamischen Programmierung und des Reinforcement-Learning-Verfahrens, bestimmten Abbildung im Wege des überwachten Lernens trainiert. Wurde die bestimmte Abbildung bereits durch ein trainiertes Neuronales Netz ausgebildet, so ist insbesondere vorgesehen, dass das Neuronale Netz für die Funktionsapproximation vom Umfang und einer Komplexität her, d.h. von einer Struktur und einem benötigten Speicherbedarf und einer zum Ausführen benötigten Rechenleistung, kleiner ausgebildet ist als das zum Ausbilden der bestimmten Abbildung verwendete Neuronale Netz.One embodiment provides that at least one neural network is trained and provided for functional approximation of the specific mapping. The neural network is trained in particular by means of the mapping determined, in particular by means of dynamic programming and the reinforcement learning method, by way of monitored learning. If the specific mapping has already been formed by a trained neural network, it is provided in particular that the neural network for the function approximation is smaller in scope and complexity, ie in terms of a structure and a required memory requirement and a computing power required for execution the neural network used to form the particular mapping.
In einer alternativen Ausführungsform ist vorgesehen, dass zur Funktionsapproximation der Abbildung mindestens ein Entscheidungsbaum (engl. Decision Tree) verwendet wird. Das Vorgehen ist hierbei grundsätzlich analog zu der voranstehend beschriebenen Ausführungsform.In an alternative embodiment, at least one decision tree is used for the functional approximation of the mapping. The procedure here is basically analogous to the embodiment described above.
Grundsätzlich können auch andere Verfahren zur Funktionsapproximation der bestimmten Abbildung verwendet werden. Das Vorgehen ist hierbei grundsätzlich analog zu den voranstehend beschriebenen Ausführungsformen.In principle, other methods for function approximation of the specific mapping can also be used. The procedure here is basically analogous to the embodiments described above.
In einer Ausführungsform ist vorgesehen, dass das Bereitstellen der approximierten Abbildung und der Nachschlagetabelle mittels eines Backendservers durchgeführt wird. Hierdurch kann ein leistungsstarker Rechner, beispielsweise ein Supercomputer, dazu eingesetzt werden, die Abbildung auf Grundlage des vorgegebenen Markow-Entscheidungsproblems durch Ausführen des mindestens einen Optimierungsverfahrens, insbesondere der Dynamischen Programmierung und des Reinforcement-Learning-Verfahrens, zu bestimmen, die Abbildung zu approximieren und die Nachschlagetabelle zu erzeugen und bereitzustellen. Bei einer Anwendung der approximierten Abbildung und der Nachschlagetabelle in einem Steuergerät eines Fahrzeugs oder eines Roboters wird hingegen weniger Rechenleistung benötigt, sodass Ressourcen (z.B. Rechenleistung, Speicher, Bauraum und Energie) eingespart werden können.In one embodiment it is provided that the provision of the approximated mapping and the look-up table is carried out by means of a backend server. As a result, a powerful computer, for example a supercomputer, can be used to determine the mapping based on the specified Markov decision problem by executing the at least one optimization method, in particular dynamic programming and the reinforcement learning method, to approximate the mapping and generate and provide the lookup table. On the other hand, when the approximate mapping and the look-up table are used in a control unit of a vehicle or a robot, less computing power is required, so that resources (e.g. computing power, memory, installation space and energy) can be saved.
In einer Ausführungsform der Vorrichtung ist entsprechend vorgesehen, dass die Vorrichtung als Backendserver ausgebildet ist. Ein solcher Backendserver kann beispielsweise als leistungsstarker Supercomputer ausgebildet sein.In one embodiment of the device, provision is accordingly made for the device to be in the form of a backend server. Such a backend server can be designed, for example, as a powerful supercomputer.
Es wird weiter insbesondere auch ein Verfahren zum Planen eines Manövers für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter zur Verfügung gestellt, wobei eine gemäß einem Verfahren nach dem ersten Aspekt approximierte Abbildung und eine Nachschlagetabelle bei einer Manöverplanung verwendet werden.In particular, a method for planning a maneuver for an at least partially automated vehicle or a robot is also made available, with a mapping approximated according to a method according to the first aspect and a look-up table being used in maneuver planning.
Es kann vorgesehen sein, dass das Verfahren zum Planen des Manövers auch das Ausführen des Manövers durch Erzeugen und/oder Bereitstellen von Steuersignalen und/oder Steuerdaten für eine Aktorik des Fahrzeugs oder den Roboter, insbesondere für eine Quer- und Längsführung, umfasst. Das Erzeugen und Bereitstellen der entsprechenden Steuersignale und/oder Steuerdaten dient hierbei insbesondere einer Umsetzung der jeweils abgerufenen oder geschätzten optimalen Aktion. Ein Steuergerät des Fahrzeugs oder des Roboters ist entsprechend zum Ausführen dieser Maßnahmen ausgebildet.It can be provided that the method for planning the maneuver also includes the execution of the maneuver by generating and/or providing control signals and/or control data for actuators of the vehicle or the robot, in particular for lateral and longitudinal guidance. The generation and provision of the corresponding control signals and/or control data serves in particular to implement the respectively retrieved or estimated optimal action. A control unit of the vehicle or the robot is designed to carry out these measures.
Ferner wird insbesondere auch ein Fahrzeug oder ein Roboter geschaffen, umfassend mindestens ein Steuergerät nach einer der beschriebenen Ausführungsformen.Furthermore, in particular a vehicle or a robot is also created, comprising at least one control device according to one of the described embodiments.
Weiter wird auch ein System geschaffen, umfassend mindestens eine Vorrichtung gemäß einer der beschriebenen Ausführungsformen und mindestens ein Steuergerät gemäß einer der beschriebenen Ausführungsformen.Furthermore, a system is also created, comprising at least one device according to one of the described embodiments and at least one control unit according to one of the described embodiments.
Weitere Merkmale zur Ausgestaltung der Vorrichtung ergeben sich aus der Beschreibung von Ausgestaltungen des Verfahrens. Die Vorteile der Vorrichtung sind hierbei jeweils die gleichen wie bei den Ausgestaltungen des Verfahrens.Further features for the configuration of the device result from the description of configurations of the method. The advantages of the device are in each case the same as in the embodiments of the method.
Nachfolgend wird die Erfindung anhand bevorzugter Ausführungsbeispiele unter Bezugnahme auf die Figuren näher erläutert. Hierbei zeigen:
-
1 eine schematische Darstellung einer Ausführungsform der Vorrichtung zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter; -
2 eine schematische Darstellung zur Verdeutlichung des Verfahrens zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter; -
3 eine schematische Darstellung zur Verdeutlichung des Verfahrens zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter.
-
1 a schematic representation of an embodiment of the device for supporting a maneuver planning for an at least partially automated driving vehicle or a robot; -
2 a schematic representation to clarify the method for supporting a maneuver planning for an at least partially automated driving vehicle or a robot; -
3 a schematic representation to clarify the method for supporting a maneuver planning for an at least partially tomato moving vehicle or a robot.
In
Die Vorrichtung 1 umfasst eine Aktionsbestimmungseinrichtung 2 und eine Approximierungseinrichtung 3. Die Aktionsbestimmungseinrichtung 2 und die Approximierungseinrichtung 3 können einzeln oder zusammengefasst als eine Kombination von Hardware und Software ausgebildet sein, beispielsweise als Programmcode, der auf einem Mikrocontroller oder Mikroprozessor ausgeführt wird. Die Vorrichtung 1 ist insbesondere als Backendserver 100 ausgebildet, wobei der Backendserver 100 insbesondere ein leistungsstarker Supercomputer sein kann.The device 1 comprises an
Die Aktionsbestimmungseinrichtung 2 ist dazu eingerichtet, einen Zustandsraum 10 eines Umfelds des Fahrzeugs 50 in diskreter Form mittels eines Markow-Entscheidungsproblems zu beschreiben. Die Aktionsbestimmungseinrichtung 2 führt zum Unterstützen einer Manöverplanung für das Fahrzeug 50 ausgehend von dem Markow-Entscheidungsproblem mindestens eines Optimierungsverfahrens aus. Das mindestens eine Optimierungsverfahren kann insbesondere eine Dynamische Programmierung und/oder ein Reinforcement-Learning-Verfahren umfassen.The
Im Rahmen des mindestens einen Optimierungsverfahrens bestimmt die Aktionsbestimmungseinrichtung 2 für jeden Zustand 11 im Zustandsraum 10 optimale Aktionen 34. Hierbei geht die Aktionsbestimmungseinrichtung 2 von Zuständen 11 im Zustandsraum 10 und von Aktionswerten aus, die für einzelne diskrete Aktionen im Zustandsraum 10 jeweils in Anbetracht einer vorgegebenen Strategie (z.B. Energieeffizienz oder Komfort etc.) bestimmt wurden. Die Aktionsbestimmungseinrichtung 2 bestimmt aus den bestimmten optimalen Aktionen 34 eine
Die Approximierungseinrichtung 3 ist dazu eingerichtet, die bestimmte
Über eine Kommunikationsschnittstelle 4 der Vorrichtung 1 werden die approximierte
Die approximierte
Das Bereitstellen der optimalen Aktionen 34 kann insbesondere umfassen, dass die optimalen Aktionen 34 einem weiteren Steuergerät 53 zugeführt werden, beispielsweise einem Trajektorienplaner, der zum Ausführen der optimalen Aktion 34 eine Trajektorie plant und beispielsweise einer Aktorik des Fahrzeugs zuführt.The provision of the
Es kann grundsätzlich auch vorgesehen sein, dass die Vorrichtung 1 Teil des Fahrzeugs 50 ist.In principle, it can also be provided that the device 1 is part of the
Es kann vorgesehen sein, dass zur Funktionsapproximation der
Es kann ferner vorgesehen sein, dass das Bereitstellen der approximierten
In
Die bestimmte
Im Rahmen des in dieser Offenbarung beschriebenen Verfahrens wird die bestimmte
Die bestimmte
Es werden zusätzlich auch Ausreißer 35 bestimmt, das heißt diejenigen Kombinationen aus Zustand 11 und optimaler Aktion 34, die sich mittels der approximierten
Für die Ausreißer 35 wird eine Nachschlagetabelle 33 erzeugt, in denen die Verknüpfungen zwischen den Zuständen 11 und den optimalen Aktionen 34 hinterlegt werden. Die vorhandenen Elemente dieser Nachschlagetabelle 33 entsprechen hierbei der bestimmten
Es kann alternativ auch vorgesehen sein, dass ein Aktionswert für eine mittels der approximierten
Es kann in der Alternative weiterbildend vorgesehen sein, Aktionswerte für die mittels der approximierten
Die approximierte
In
Mittels eines Steuergeräts des Fahrzeugs oder des Roboters wird eine approximierte
Für einen aktuellen, beispielsweise ausgehend von erfassten Sensordaten erkannten und diskretisierten, Zustand 11 im Zustandsraum 10 wird überprüft, ob für diesen Zustand eine optimale Aktion 34 in der Nachschlagetabelle 33 hinterlegt ist. Ist dies der Fall, so wird die hinterlegte optimale Aktion 34 abgerufen und für eine Manöverplanung bereitgestellt (z.B. wäre dies der Fall für A=0 und B=10 mit der optimalen Aktion „g“). Stellt sich beim Überprüfen heraus, dass keine optimale Aktion 34 in der Nachschlagetabelle 33 hinterlegt ist (z.B. für A=10 und B=20), so wird die optimale Aktion 34 mit Hilfe der approximierten
Anschließend wird die optimale Aktion 34 ausgeführt, beispielsweise indem mittels eines Trajektorienplaners eine Trajektorie geplant wird und mittels einer Regelung eine Aktorik des Fahrzeugs oder des Roboters angesteuert wird.The
Bezugszeichenlistereference list
- 11
- Vorrichtungcontraption
- 22
- Aktionsbestimmungseinrichtungaction determiner
- 33
- Approximierungseinrichtungapproximation facility
- 44
- Kommunikationsschnittstellecommunication interface
- 1010
- Zustandsraumstate space
- 1111
- ZustandStatus
- 3030
- bestimmte Abbildungspecific figure
- 3131
- approximierte Abbildungapproximate figure
- 3232
- Fehlerschwellenwerterror threshold
- 3333
- Nachschlagetabellelookup table
- 3434
- optimale Aktionoptimal action
- 3535
- AusreißerRunaway
- 5050
- Fahrzeugvehicle
- 5151
- Steuergerätcontrol unit
- 5252
- Kommunikationsschnittstellecommunication interface
- 5353
- weiteres Steuergerätanother control unit
- 100100
- Backendserverbackend server
Claims (10)
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102020210465.4A DE102020210465A1 (en) | 2020-08-18 | 2020-08-18 | Method and device for supporting maneuver planning for an at least partially automated vehicle or a robot |
| CN202110948200.XA CN114153199A (en) | 2020-08-18 | 2021-08-18 | Method and device for supporting the planning of maneuvers of a vehicle or robot |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102020210465.4A DE102020210465A1 (en) | 2020-08-18 | 2020-08-18 | Method and device for supporting maneuver planning for an at least partially automated vehicle or a robot |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE102020210465A1 true DE102020210465A1 (en) | 2022-02-24 |
Family
ID=80112577
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE102020210465.4A Pending DE102020210465A1 (en) | 2020-08-18 | 2020-08-18 | Method and device for supporting maneuver planning for an at least partially automated vehicle or a robot |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN114153199A (en) |
| DE (1) | DE102020210465A1 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117374975A (en) * | 2023-12-06 | 2024-01-09 | 国网湖北省电力有限公司电力科学研究院 | A real-time collaborative voltage regulation method for distribution network based on approximate dynamic programming |
| DE102024202525A1 (en) * | 2024-03-18 | 2025-09-18 | Robert Bosch Gesellschaft mit beschränkter Haftung | Method and system for solving a problem |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102016218121A1 (en) | 2016-09-21 | 2018-03-22 | Bayerische Motoren Werke Aktiengesellschaft | Control device for planning an at least partially automatic longitudinal and / or transverse guidance |
| DE102017218143A1 (en) | 2017-10-11 | 2019-04-11 | Robert Bosch Gmbh | Method and device for driving a vehicle electronic planning module |
| DE102018213971A1 (en) | 2018-08-20 | 2020-02-20 | Bayerische Motoren Werke Aktiengesellschaft | Method and device for selecting a driving maneuver |
| DE102019131385A1 (en) | 2018-11-21 | 2020-05-28 | Ford Global Technologies, Llc | SAFETY AND PERFORMANCE STABILITY OF AUTOMATION THROUGH UNSECURITY-LEARNED LEARNING AND CONTROL |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7015839B1 (en) * | 2005-01-06 | 2006-03-21 | Realtek Semiconductor Corp. | Mapping method utilizing look-up table and related apparatus |
| CN107368895A (en) * | 2016-05-13 | 2017-11-21 | 扬州大学 | An Action Knowledge Extraction Method Combining Machine Learning and Automatic Planning |
| FR3072851B1 (en) * | 2017-10-23 | 2019-11-15 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | REALIZING LEARNING TRANSMISSION RESOURCE ALLOCATION METHOD |
| US20190220737A1 (en) * | 2018-01-17 | 2019-07-18 | Hengshuai Yao | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
| US11688160B2 (en) * | 2018-01-17 | 2023-06-27 | Huawei Technologies Co., Ltd. | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
| US20200033869A1 (en) * | 2018-07-27 | 2020-01-30 | GM Global Technology Operations LLC | Systems, methods and controllers that implement autonomous driver agents and a policy server for serving policies to autonomous driver agents for controlling an autonomous vehicle |
| CN110969848B (en) * | 2019-11-26 | 2022-06-17 | 武汉理工大学 | Automatic driving overtaking decision method based on reinforcement learning under opposite double lanes |
-
2020
- 2020-08-18 DE DE102020210465.4A patent/DE102020210465A1/en active Pending
-
2021
- 2021-08-18 CN CN202110948200.XA patent/CN114153199A/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102016218121A1 (en) | 2016-09-21 | 2018-03-22 | Bayerische Motoren Werke Aktiengesellschaft | Control device for planning an at least partially automatic longitudinal and / or transverse guidance |
| DE102017218143A1 (en) | 2017-10-11 | 2019-04-11 | Robert Bosch Gmbh | Method and device for driving a vehicle electronic planning module |
| DE102018213971A1 (en) | 2018-08-20 | 2020-02-20 | Bayerische Motoren Werke Aktiengesellschaft | Method and device for selecting a driving maneuver |
| DE102019131385A1 (en) | 2018-11-21 | 2020-05-28 | Ford Global Technologies, Llc | SAFETY AND PERFORMANCE STABILITY OF AUTOMATION THROUGH UNSECURITY-LEARNED LEARNING AND CONTROL |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117374975A (en) * | 2023-12-06 | 2024-01-09 | 国网湖北省电力有限公司电力科学研究院 | A real-time collaborative voltage regulation method for distribution network based on approximate dynamic programming |
| CN117374975B (en) * | 2023-12-06 | 2024-02-27 | 国网湖北省电力有限公司电力科学研究院 | A real-time collaborative voltage regulation method for distribution network based on approximate dynamic programming |
| DE102024202525A1 (en) * | 2024-03-18 | 2025-09-18 | Robert Bosch Gesellschaft mit beschränkter Haftung | Method and system for solving a problem |
Also Published As
| Publication number | Publication date |
|---|---|
| CN114153199A (en) | 2022-03-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE102018009927B4 (en) | Control system and control method for a hybrid approach to determining a possible trajectory for a motor vehicle | |
| DE102020202350A1 (en) | Method and device for supporting maneuver planning for an automated driving vehicle or a robot | |
| EP3765927B1 (en) | Method for generating a training data record for training an artificial intelligence module for a control device of a vehicle | |
| DE112018001596T5 (en) | ELECTRONIC VEHICLE CONTROL | |
| DE102020131949A1 (en) | SYSTEM AND PROCEDURE FOR LEARNING DRIVER PREFERENCE AND ADAPTING LANE CENTERING CONTROL TO DRIVER BEHAVIOR | |
| EP4193135B1 (en) | Computer-implemented method for providing a test process for traffic scenarios to be tested | |
| DE102019208233A1 (en) | Method and device for automatically executing a control function of a vehicle | |
| DE102021114768A1 (en) | Vehicle control using a neural network controller in combination with a model-based controller | |
| DE102017200580A1 (en) | Method for optimizing a maneuver planning for autonomous vehicles | |
| DE102022104313A1 (en) | Method, system and computer program product for autonomously calibrating an electric powertrain | |
| DE102019207721A1 (en) | Steering device and associated steering control method | |
| DE102020210465A1 (en) | Method and device for supporting maneuver planning for an at least partially automated vehicle or a robot | |
| EP4208379B1 (en) | Method and apparatus for planning a future trajectory of an autonomously or semi-autonomously driving vehicle | |
| EP3771522A1 (en) | Method and manipulation system for manipulating an object by a robot with vector fields | |
| DE102020111953A1 (en) | TRAJECTORY PLANNING MODULE FOR AUTOMATED DRIVING | |
| DE102019208263A1 (en) | Method and device for determining a control strategy for a technical system | |
| EP4414142B1 (en) | Autonomous driving of a device | |
| EP4296815B1 (en) | Method for determining a trajectory for a mobile device | |
| DE102020211260A1 (en) | Teaching in trajectories in a motor vehicle | |
| EP4217811B1 (en) | Method and device for supporting maneuver planning for an at least semi-automated vehicle or a robot | |
| DE102018210368B4 (en) | Driver assistance system, vehicle, method for operating the driver assistance system, computer program and computer-readable storage medium | |
| DE102022207041A1 (en) | Method for planning motion trajectories by a machine learning model | |
| DE102021212991A1 (en) | Method of providing adaptive lateral control for an ego vehicle | |
| DE102019128115B4 (en) | Vehicle model for longitudinal dynamics | |
| DE102024114540A1 (en) | Method, computer program product for training a neural network and/or operating a system comprising a neural network, a system, and a system for training the neural network |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R163 | Identified publications notified | ||
| R012 | Request for examination validly filed |