-
Gebiet der Erfindung
-
Die Erfindung betrifft ein Verfahren, eine Auswerteeinheit, ein Computerprogrammprodukt und ein computerlesbares Medium zum Erkennen von Objekten in einer Umgebung eines Fahrzeugs. Des Weiteren betrifft die Erfindung ein Fahrzeugsystem mit einer solchen Auswerteeinheit.
-
Stand der Technik
-
Im automatisierten Fahren und in Fahrerassistenzsystemen wird üblicherweise eine Repräsentation eines Fahrzeugumfelds, etwa in Form von Objektlisten, verwendet. Die Objekte beschreiben beispielsweise andere Verkehrsteilnehmer, Fußgänger oder Fahrzeuge. Basierend auf einem (dynamischen) Zustand der Objekte entscheidet eine Funktion, wie sich das eigene Fahrzeug verhalten soll. Soll beispielsweise ein automatisiertes Fahrzeug auf einer mehrspurigen Straße einen Spurwechsel vollziehen, werden dazu eine jeweilige Geschwindigkeit und eine jeweilige Richtung anderer Verkehrsteilnehmer benötigt, um potenzielle Kollisionen erkennen und entsprechend reagieren zu können.
-
Zur Verbesserung der Objekterkennung ist ein maschinell lernendes Verfahren denkbar. Schon heute können Objektinstanzen aus Kamerabildern und Lidar-Messungen mit neuronalen Netzen extrahiert werden. Aus Lidar-Messungen kann beispielsweise eine 3D-Objektbox extrahiert werden. Hierzu müssen jedoch große Mengen an Daten entsprechend annotiert werden, auch Labeling genannt, damit beispielsweise ein neuronales Netz trainiert werden kann. Ein solches Labeling kann mit hohem Kosten- und Zeitaufwand verbunden sein. Zudem werden dabei hauptsächlich direkt messbare Zustandsgrößen wie Position, Ausdehnung oder Orientierung erlernt.
-
Die
DE 10 2016 215 314 A1 und
US 2019 /0 243 371 A1 offenbaren Systeme zur Erkennung von Objekten mit Einsatz eines maschinellen Lernens Machine Learning).
-
Offenbarung der Erfindung
-
Vor diesem Hintergrund werden mit dem hier vorgestellten Ansatz ein Verfahren, eine Auswerteeinheit, ein Computerprogrammprodukt, ein computerlesbares Medium und ein Fahrzeugsystem gemäß den unabhängigen Ansprüchen vorgestellt. Vorteilhafte Weiterbildungen und Verbesserungen des hier vorgestellten Ansatzes ergeben sich aus der Beschreibung und sind in den abhängigen Ansprüchen beschrieben.
-
Vorteile der Erfindung
-
Ausführungsformen der vorliegenden Erfindung ermöglichen es in vorteilhafter Weise, objektbezogene Größen mittels eines Machine-Learning-Algorithmus basierend auf nicht annotierten Sensordaten zu schätzen. Dabei wird neben einer Schätzung direkt messbarer Größen wie Positionen, Orientierungen oder Abmessungen von Objekten auch eine Schätzung nicht direkt messbarer Größen wie Geschwindigkeiten oder Beschleunigungen ermöglicht.
-
Ein erster Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Erkennen von Objekten in einer Umgebung eines Fahrzeugs, wobei das Fahrzeug eine Sensorik mit mindestens einer Sensoreinheit zum Erfassen der Umgebung und eine Auswerteeinheit zum Auswerten von durch die mindestens eine Sensoreinheit bereitgestellten Sensordaten aufweist. Das Verfahren umfasst die folgenden Schritte: Empfangen der Sensordaten in der Auswerteeinheit, wobei die Sensordaten eine Mehrzahl zeitlich aufeinanderfolgender Messungen umfassen; Eingeben der Sensordaten in einen Machine-Learning-Algorithmus; Ausgeben eines basierend auf den Sensordaten geschätzten Objektzustands mindestens eines Objekts durch den Machine-Learning-Algorithmus; Bestimmen einer Mehrzahl zeitlich aufeinanderfolgender zukünftiger Objektzustände basierend auf dem geschätzten Objektzustand; Ermitteln von Abweichungen zwischen den zukünftigen Objektzuständen und zeitlich mit den zukünftigen Objektzuständen korrespondierenden Messungen basierend auf den Sensordaten; und Korrigieren des Machine-Learning-Algorithmus basierend auf den Abweichungen.
-
In der Regel sind zum Erlernen nicht direkt messbarer Zustandsgrößen wie etwa Geschwindigkeit, Beschleunigung oder Gierrate durch einen Machine-Learning-Algorithmus entsprechend annotierte Daten erforderlich. Eine direkte Messung der genannten Dynamikeigenschaften wäre möglich, wenn bei allen Objekten eine entsprechende Messvorrichtung, etwa ein DGPS-Empfänger (DGPS = Differential Global Positioning System; „Differentielles globales Positionierungssystem“), installiert wäre. Grundsätzlich ist es zwar möglich, die Dynamikeigenschaften indirekt über die Objektpositionen zu aufeinanderfolgenden Zeitpunkten zu ermitteln. Hierzu eignen sich jedoch in erster Linie Lidarsensoren, da andere Sensorarten wie etwa Kameras oder Radarsensoren in der Regel nicht die erforderliche Genauigkeit gewährleisten können. Damit würde sich das Training des Machine-Learning-Algorithmus auf Informationen einer einzigen Sensorart beschränken. Hinzu kommt, dass hierfür wieder ein Daten-Labeling notwendig wäre.
-
Um dem abzuhelfen, wird ein selbstüberwachendes Lernverfahren für eine Zustandsschätzung, insbesondere eine Multi-Sensor-Zustandsschätzung, vorgeschlagen, bei dem geschätzte Zustände eines Zeitpunkts in darauffolgende Messzeitpunkte prädiziert werden, basierend auf der Prädiktion zu erwartende Messungen generiert werden und die zu erwartenden Messungen mit tatsächlichen Messungen verglichen werden. Eine Differenz zwischen den zu erwartenden Messungen und den tatsächlichen Messungen kann dann als Korrektur für den Machine-Learning-Algorithmus verwendet werden, etwa für ein künstliches neuronales Netz oder Ähnliches. Somit kann eine aufwendige Annotation der Sensordaten entfallen.
-
Der Begriff „Erkennen“ ist im Kontext des oben und im Folgenden beschriebenen Verfahrens nicht einschränkend im Sinne einer überwiegend in der Sensorik stattfindenden Erkennung von Objekten zu verstehen, sondern ebenso im Sinne einer Prädiktion, d. h. einer Objektzustandsschätzung, bei der wahrscheinliche zukünftige Zustände eines bereits erkannten Objekts bestimmt werden. Genauer gesagt geht es bei dem Verfahren primär um eine Verarbeitung von Sensordaten mit dem Ziel einer Objektzustandsschätzung, wobei die Sensordaten, d. h. die von der Sensorik ausgegebenen Daten, bereits eine Objekterkennung umfassen können. Beispielsweise kann eine Kamera Fahrzeuge erkennen und Bildkoordinaten der erkannten Fahrzeuge als Messung bereitstellen. Ein Radarsensor kann beispielsweise Positionen von Radarreflexen als Messung bereitstellen, wobei jedoch nicht zwangsweise bekannt ist, ob die Radarreflexe von einem Fahrzeug stammen oder nicht.
-
Bei der Sensoreinheit kann es sich beispielsweise um eine Kamera, einen Radar-, Lidar- oder Ultraschallsensor handeln. Die Sensorik kann eine Mehrzahl verschiedenartiger Sensoreinheiten umfassen.
-
Unter einem Fahrzeug kann ein Kraftfahrzeug wie etwa ein Pkw, Lkw, Bus oder ein Motorrad verstanden werden. Als Fahrzeug kann im weiteren Sinn auch ein Roboter aufgefasst werden, der ausgeführt sein kann, um sich automatisiert zu bewegen, insbesondere fortzubewegen.
-
Ein Machine-Learning-Algorithmus kann im Allgemeinen als ein Algorithmus aufgefasst werden, der für eine gegebene Menge von Eingaben ein statistisches Modell zur Beschreibung der Eingaben, erkannter Kategorien und Zusammenhänge sowie zur Ausgabe entsprechender Vorhersagen erzeugt. Der Machine-Learning-Algorithmus kann beispielsweise einen Bayes-Klassifikator, eine Support Vector Machine (SVM), einen k-Nearest-Neighbor-Algorithmus, einen Entscheidungsbaum, einen Random Forest, ein Multilayer-Perceptron (MLP), ein Recurrent Neural Network (RNN), ein Long Short-term Memory (LSTM) Network, ein Convolutional Neural Network (CNN) mit VGG- oder U-Net-Architektur oder eine Kombination aus mindestens zwei der genannten Beispiele umfassen.
-
Der Machine-Learning-Algorithmus kann vorab konfiguriert sein, um Objektzustände von Objekten basierend auf den Sensordaten zu schätzen. Ein geschätzter Objektzustand kann beispielsweise eine Position oder Lage eines Objekts beschreiben. Zusätzlich kann der geschätzte Objektzustand mindestens eine von der Position oder Lage abgeleitete Größe wie etwa eine Geschwindigkeit, Beschleunigung oder Gierrate des Objekts beschreiben.
-
Für den Fall, dass der Machine-Learning-Algorithmus ein künstliches neuronales Netz ist, können die Abweichungen beispielsweise dazu verwendet werden, Gewichtungen von Neuronenverbindungen des Netzes durch Backpropagation schrittweise zu korrigieren, d. h. das Netz in einem überwachten Lernverfahren zu trainieren. Dabei werden die Abweichungen, d. h. die Fehler des Netzes, von einer Ausgabeschicht des Netzes zurück zu einer Eingabeschicht des Netzes propagiert und die Gewichtungen abhängig von ihrem jeweiligen Einfluss auf die Fehler so geändert, dass eine Ausgabe des Netzes in einem nachfolgenden Zeitschritt näher an einer gewünschten Ausgabe liegt als in einem aktuellen Zeitschritt.
-
Die in den Sensordaten enthaltenen Messungen können zumindest teilweise mit den zukünftigen Objektzuständen, d. h. mit Objektzuständen, die basierend auf einer Ausgabe des Machine-Learning-Algorithmus über mehrere Zeitschritte prädiziert wurden, zeitlich korrespondieren. Anders ausgedrückt können Zeitpunkte, zu denen die Messungen durchgeführt wurden, zumindest teilweise mit Zeitpunkten, die jeweils einem zukünftigen Objektzustand zugeordnet sind, übereinstimmen.
-
Zur Schätzung eines Objektzustands können Daten von einem oder mehreren Sensoren gleicher oder unterschiedlicher Art, etwa von Radar- oder Lidarsensoren oder einer Kamera, verarbeitet werden. Bei der Schätzung des Objektzustands können Unsicherheiten oder Ungenauigkeiten bezüglich der Messungen sowie Falsch- und Fehldetektionen berücksichtigt werden. Dazu können objektbasierte oder rasterbasierte Ansätze verwendet werden.
-
Bei objektbasierten Ansätzen werden einer Objektinstanz Messungen zugeordnet und es wird mit Schätzverfahren der Objektzustand berechnet. Objektbasierte Ansätze sind modellbehaftet, d. h., einem Objekt wird ein Bewegungsmodell zugrunde gelegt, das eine Dynamik des Objekts nachbilden soll, und eignen sich vor allem für leicht modellierbare Objekte und Situationen. Dabei kann beispielsweise auf Kalman-Filter in Kombination mit einem Multihypothesen-Tracking-Verfahren wie etwa einem Labeled-Multi-Bernoulli-Filter zurückgegriffen werden.
-
Bei rasterbasierten Ansätzen wird das Umfeld durch ein Raster oder Gitter repräsentiert, wobei jede Gitterzelle Informationen über eine bestimmte Position darstellt und Messungen auf das Gitter projiziert werden. Statische Objekte können dann durch Segmentierung extrahiert werden. Für dynamische Objekte können Partikelfilter eingesetzt werden. Rasterbasierte Ansätze sind weniger modellabhängig und daher geeignet, Zustände von schwer modellierbaren Objekten zu schätzen.
-
Ein zweiter Aspekt der Erfindung betrifft eine Auswerteeinheit, die konfiguriert ist, um das Verfahren, wie es im Vorangehenden und im Folgenden beschrieben ist, auszuführen. Merkmale des Verfahrens, wie es im Vorangehenden und im Folgenden beschrieben ist, können auch Merkmale der Auswerteeinheit sein und umgekehrt.
-
Ein dritter Aspekt der Erfindung betrifft ein Fahrzeugsystem, das konfiguriert ist, um das Verfahren, wie es im Vorangehenden und im Folgenden beschrieben ist, auszuführen. Merkmale des Verfahrens, wie es im Vorangehenden und im Folgenden beschrieben ist, können auch Merkmale des Fahrzeugsystems sein und umgekehrt.
-
Das Fahrzeugsystem kann beispielsweise konfiguriert sein, um eine Umgebung des Fahrzeugs zu erkennen und das Fahrzeug entsprechend der erkannten Umgebung automatisiert zu steuern, d. h. zu lenken, zu beschleunigen, zu bremsen oder zu navigieren. Hierzu kann das Fahrzeugsystem entsprechende Aktoren wie etwa Lenk- oder Bremsaktoren oder Aktoren zur Motorsteuerung umfassen.
-
Die Auswerteeinheit kann beispielsweise Teil eines Bordcomputers des Fahrzeugs sein.
-
Weitere Aspekte der Erfindung betreffen ein Computerprogramm, das, wenn es auf einem Prozessor ausgeführt wird, das Verfahren, wie es im Vorangehenden und im Folgenden beschrieben ist, ausführt, sowie ein computerlesbares Medium, auf dem ein derartiges Computerprogramm gespeichert ist.
-
Bei dem computerlesbaren Medium kann es sich beispielsweise um eine Festplatte, ein USB-Speichergerät, einen RAM, ROM, EPROM oder Flash-Speicher handeln. Das computerlesbare Medium kann auch ein einen Download eines Programmcodes ermöglichendes Datenkommunikationsnetzwerk wie etwa das Internet sein. Das computerlesbare Medium kann transitorisch oder nicht transitorisch sein.
-
Merkmale des Verfahrens, wie es im Vorangehenden und im Folgenden beschrieben ist, können auch Merkmale des Computerprogramms und/oder des computerlesbaren Mediums sein und umgekehrt.
-
Ideen zu Ausführungsformen der vorliegenden Erfindung können unter anderem als auf den nachfolgend beschriebenen Gedanken und Erkenntnissen beruhend angesehen werden.
-
Gemäß einer Ausführungsform umfasst das Verfahren ferner einer Schritt, in dem die zukünftigen Objektzustände in ein Koordinatensystem der mindestens einen Sensoreinheit transformiert werden, um für jeden der zukünftigen Objektzustände einen transformierten zukünftigen Objektzustand zu erhalten. Dabei können die Abweichungen zwischen den transformierten zukünftigen Objektzuständen und zeitlich mit den transformierten zukünftigen Objektzuständen korrespondierenden Messungen basierend auf den Sensordaten ermittelt werden. Anders ausgedrückt können die zukünftigen Objektzustände mithilfe einer entsprechenden Koordinatentransformation jeweils in einen Messraum der mindestens einen Sensoreinheit übertragen werden. Dadurch wird ein direkter Vergleich der zukünftigen, d. h. prädizierten Objektzustände mit den Sensordaten ermöglicht.
-
Gemäß einer Ausführungsform können die Sensordaten Messungen mindestens zweier unterschiedlicher Sensoreinheiten der Sensorik umfassen. Dabei können die zukünftigen Objektzustände in Koordinatensysteme der mindestens zwei unterschiedlichen Sensoreinheiten transformiert werden. Ein transformierter zukünftiger Objektzustand und eine Messung, zwischen denen eine Abweichung ermittelt werden soll, können in ihren Koordinatensystemen übereinstimmen. Bei den mindestens zwei unterschiedlichen Sensoreinheiten kann es sich um Sensoreinheiten verschiedener Sensortypen handeln, etwa um eine Kamera und einen Radarsensor. Beispielsweise kann ein erster zukünftiger Objektzustand, der einem ersten zukünftigen Zeitpunkt zugeordnet ist, in ein Koordinatensystem einer ersten Sensoreinheit transformiert werden, während ein zweiter zukünftiger Objektzustand, der einem dem ersten zukünftigen Zeitpunkt nachfolgenden zweiten zukünftigen Zeitpunkt zugeordnet ist, in ein Koordinatensystem einer von der ersten Sensoreinheit abweichenden zweiten Sensoreinheit transformiert wird. Ein dritter zukünftiger Objektzustand, der einen dem zweiten zukünftigen Zeitpunkt nachfolgenden dritten zukünftigen Zeitpunkt zugeordnet ist, kann in ein Koordinatensystem der ersten oder zweiten Sensoreinheit oder auch in ein Koordinatensystem einer von der ersten und zweiten Sensoreinheit abweichenden dritten Sensoreinheit transformiert werden usw. Das Ermitteln der Abweichungen zwischen den transformierten zukünftigen Objektzuständen und den in den Sensordaten enthaltenen Messungen kann für jede Sensoreinheit bzw. für jeden Sensortyp separat erfolgen. Dabei werden den Messungen die mit ihrem jeweiligen Koordinatensystem übereinstimmenden transformierten zukünftigen Objektzustände zugeordnet. Durch diese Ausführungsform kann eine Robustheit des Verfahrens gegenüber Sensorausfällen und Degradationen erhöht werden.
-
Gemäß einer Ausführungsform kann jeder der zukünftigen Objektzustände in ein anderes Koordinatensystem transformiert werden.
-
Gemäß einer Ausführungsform können die Sensordaten eine erste Reihe von Messungen und eine der ersten Reihe zeitlich nachfolgende zweite Reihe von Messungen umfassen. Dabei kann der geschätzte Objektzustand einen Zustand des Objekts zu einem Schätzzeitpunkt beschreiben. Jeder der zukünftigen Objektzustände kann einen Zustand des Objekts zu einem dem Schätzzeitpunkt nachfolgenden zukünftigen Zeitpunkt beschreiben. Die Messungen der zweiten Reihe können jeweils einem der zukünftigen Zeitpunkte zugeordnet sein. Anders ausgedrückt können die Sensordaten sowohl Messungen für einen von der Vergangenheit bis in die Gegenwart reichenden Zeitraum als auch Messungen für einen zukünftigen Zeitraum, für den Objektzustände basierend auf einer Ausgabe des Machine-Learning-Algorithmus vorhergesagt werden sollen, umfassen. Damit ist es möglich, die zukünftigen Objektzustände mit tatsächlichen Messungen abzugleichen.
-
Gemäß einer Ausführungsform kann der Schätzzeitpunkt vor einem Zeitpunkt einer ersten Messung der zweiten Reihe liegen.
-
Gemäß einer Ausführungsform kann der Schätzzeitpunkt mit einem Zeitpunkt einer letzten Messung der ersten Reihe übereinstimmen.
-
Gemäß einer Ausführungsform umfasst das Verfahren ferner einen Schritt, in dem die Abweichungen basierend auf einem jeweiligen zeitlichen Abstand zwischen den zukünftigen Objektzuständen und dem geschätzten Objektzustand gewichtet werden. Dabei können die gewichteten Abweichungen in den Machine-Learning-Algorithmus eingegeben werden. Dadurch können entfernungsabhängige Messungenauigkeiten kompensiert werden.
-
Gemäß einer Ausführungsform kann eine Summe aus den gewichteten Abweichungen berechnet werden. Dabei kann die Summe in den Machine-Learning-Algorithmus eingegeben werden. Beispielsweise kann die Summe dadurch berechnet werden, dass die Abweichungen zunächst mit einem geeigneten Gewichtungsfaktor multipliziert werden und die daraus resultierenden Produkte anschließend miteinander addiert werden.
-
Figurenliste
-
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, wobei weder die Zeichnungen noch die Beschreibung als die Erfindung einschränkend auszulegen sind.
- 1 zeigt ein Fahrzeugsystem gemäß einem Ausführungsbeispiel der Erfindung.
- 2 zeigt eine Auswerteeinheit des Fahrzeugsystems aus 1.
- 3 zeigt ein Ablaufdiagramm eines Verfahrens, wie es von der Auswerteeinheit aus 2 ausgeführt werden kann.
-
Die Figuren sind lediglich schematisch und nicht maßstabsgetreu. Gleiche Bezugszeichen bezeichnen in den Figuren gleiche oder gleichwirkende Merkmale.
-
Ausführungsformen der Erfindung
-
1 zeigt ein Fahrzeug 100 mit einem Fahrzeugsystem 102, das eine Sensorik 104 zum Erfassen eines Umfelds des Fahrzeugs 100 und eine Auswerteeinheit 106 zum Auswerten von durch die Sensorik 104 bereitgestellten Sensordaten 108 aufweist. Die Auswerteeinheit 106 ist hier eine Komponente eines Bordcomputers 110 des Fahrzeugs 100. Die Auswerteeinheit 106 ist konfiguriert, um basierend auf den Sensordaten 108 mindestens ein Objekt 114 im Umfeld des Fahrzeugs 100 zu erkennen und das Fahrzeug 100 mittels einer Aktorik 116, die beispielsweise einen Lenk- oder Bremsaktor oder einen Aktor zur Motorsteuerung umfassen kann, in entsprechender Weise zu steuern.
-
Beispielhaft umfasst die Sensorik 104 einen Radarsensor 118 und eine Kamera 120 zum Bereitstellen der Sensordaten 108.
-
Die Erkennung des Umfelds erfolgt mithilfe eines Machine-Learning-Algorithmus, der in die Auswerteeinheit 106 implementiert ist, etwa mithilfe eines künstlichen neuronalen Netzes. Ein entsprechendes Verfahren wird im Folgenden näher beschrieben.
-
Alternativ ist es möglich, die Sensordaten 108 in dem Fahrzeug 100 aufzunehmen und in ein die Auswerteeinheit 106 aufweisendes Computersystem außerhalb des Fahrzeugs 100 einzugeben. Mit den Sensordaten 108 kann der Machine-Learning-Algorithmus, der von dem Machine-Learning-Modul 200 ausgeführt wird, dann von dem Computersystem in der beschriebenen Weise optimiert werden. Nach der Optimierung kann das Machine-Learning-Modul 200 in das Fahrzeugsystem 102 eingebaut werden. Damit kann der optimierte Machine-Learning-Algorithmus im Fahrzeugsystem 102 verwendet werden, ohne im Fahrzeug 100 trainiert werden zu müssen. In diesem Fall können beispielsweise die im Fahrzeugsystem 102 integrierten Komponenten 202 bis 212 entfallen, da der Machine-Learning-Algorithmus ja bereits in dem außerhalb des Fahrzeugs 100 befindlichen Computersystem trainiert wurde.
-
In 2 ist beispielhaft ein detaillierter Aufbau der Auswerteeinheit 106 gezeigt. Die im Folgenden beschriebenen Module können Software- und/oder Hardwaremodule sein. Die Auswerteeinheit 106 umfasst ein Machine-Learning-Modul 200 zum Ausführen des Machine-Learning-Algorithmus, ein Prädiktionsmodul 202 zum Verarbeiten von Ausgaben des Machine-Learning-Moduls 200 und ein Vergleichsmodul 204 zum Verarbeiten von Ausgaben des Prädiktionsmoduls 202. In das Machine-Learning-Modul 200 und das Vergleichsmodul 204 gehen jeweils die von der Sensorik 104 bereitgestellten Sensordaten 108 ein. Das Vergleichsmodul 204 ist konfiguriert, um basierend auf den Sensordaten 108 und den Ausgaben des Prädiktionsmoduls 202 Korrekturdaten 206 zum Korrigieren des Machine-Learning-Algorithmus bereitzustellen.
-
Für die nachfolgende Beschreibung gilt folgende Notation. x_k: geschätzter Objektzustand des Objekts 114 zu einem Schätzzeitpunkt t_k x_k+n_p: zukünftiger Objektzustand des Objekts 114 zu einem Zeitpunkt t_k+n z_k+n_p: transformierter zukünftiger Objektzustand oder prädizierte Messung des Objekts 114 zum Zeitpunkt t_k+n z_k+n_Sx: Messung einer bestimmten Sensoreinheit Sx zum Zeitpunkt t_k+n z_k+n_p_Sx: transformierter zukünftiger Objektzustand oder prädizierte Messung des Objekts 114 für die Sensoreinheit Sx zum Zeitpunkt t_k+n
-
Zugrunde liegt eine Trainingssequenz mit nicht annotierten Sensordaten 108. Basierend auf den Sensordaten 108 bestimmt das Machine-Learning-Modul 200 einen geschätzten Objektzustand x_k des Objekts 114 zum Schätzzeitpunkt t_k. Die Sensordaten 108 umfassen hierzu eine Mehrzahl zeitlich aufeinanderfolgender Messungen z_k-m, z_k-m+1, ..., z_k, die zu entsprechenden Messzeitpunkten t_k-m, t_k-m+1, ..., t_k mittels der Sensorik 104 durchgeführt wurden. Zur Bestimmung des geschätzten Objektzustands x_k kann das Machine-Learning-Modul 200 auf alle der in den Sensordaten 108 enthaltenen Messungen oder auch nur auf eine Teilmenge davon zugreifen. Der Schätzzeitpunkt t_k kann mit einem Messzeitpunkt der zuletzt durchgeführten Messung z_k übereinstimmen.
-
Das Prädiktionsmodul 202 umfasst Prädiktionseinheiten 208, die konfiguriert sind, um basierend auf Dynamikanteilen des geschätzten Objektzustands x_k, wie etwa Geschwindigkeit oder Beschleunigung, zukünftige Objektzustände x_k+1_p, x_k+2_p, ..., x_k+n_p des Objekts 114 für zukünftige Zeitpunkte t_k+1, t_k+2, ..., t_k+n zu prädizieren, wobei der Schätzzeitpunkt t_k vor den zukünftigen Zeitpunkten liegt.
-
Beispielsweise ergibt sich eine Position des Objekts
114 zum zukünftigen Zeitpunkt t_k+1 zu:
-
Dabei ist pos_k die Position und v_k die Geschwindigkeit des geschätzten Objektzustands x_k.
-
Die Sensordaten 108 umfassen neben den Messungen z_k-m, z_k-m+1, ..., z_k auch Messungen z_k+1, z_k+2, ..., z_k+n zu den zukünftigen Zeitpunkten t_k+1, t_k+2, ..., t_k+n.
-
Des Weiteren umfasst das Prädiktionsmodul 202 Transformationseinheiten 210, die konfiguriert sind, um die zukünftigen Objektzustände x_k+1_p, x_k+2_p, ..., x_k+n_p mithilfe entsprechender Sensormodelle in einen jeweiligen Messraum mehrerer Sensoreinheiten Sa, Sb, ..., Sx der Sensorik 104, darunter der Radarsensor 118 und die Kamera 120, zu transformieren. Daraus resultieren transformierte zukünftige Objektzustände z_k+1_p_Sx, z_k+2_p_Sx, ..., z_k+n_p_Sx, die in das Vergleichsmodul 204 eingehen und dort mit entsprechenden Messungen z_k+1_Sx, z_k+2_Sx, ..., z_k+n_Sx verglichen werden.
-
Beispielsweise wird bei einer solchen Transformation eine zweidimensionale Position des zukünftigen Objektzustands x_k+n_p in Polarkoordinaten transformiert, um eine prädizierte Messung des Radarsensors 118 zu erhalten.
-
Durch die Transformationseinheiten 210 können Messungen zu nachfolgenden Zeitpunkten t_k+n als Trainingsdaten für den Machine-Learning-Algorithmus verwendet werden. Somit kann auf annotierte Sensordaten verzichtet werden. Die Suffixe Sa, Sb, Sx bei den Messungen bedeuten, dass die Messungen von einer Sensoreinheit oder allgemein von einer Sensormodalität a, b bzw. x stammen. Für jede Sensormodalität wird ein entsprechendes Sensormodell benötigt. Im Fall der Kamera 120 wird beispielsweise eine Positionsgröße eines Objektzustands in Bildkoordinaten transformiert. Im Fall des Radarsensors 118 werden beispielsweise kartesische Positionsgrößen eines Objektzustands in Polarkoordinaten transformiert. Theoretisch lassen sich aber auch komplexere Transformationen in die Sensormodelle integrieren.
-
Sobald die Messungen z_k+1_Sa, z_k+2_Sb, ..., z_k+n_Sx vorliegen, werden im Prädiktionsmodul 202 die zu diesen Messungen passenden Sensormodelle ausgewählt. Damit kann flexibel auf einen etwaigen Ausfall bestimmter Sensoreinheiten reagiert werden. Die Sensordaten 108 müssen also nicht zwingend alle von der Sensorik 104 erfassten oder theoretisch erfassbaren Messungen enthalten.
-
Aus dem Vergleich der transformierten zukünftigen Objektzustände mit den zugehörigen Messungen resultieren Differenzen d1, d2, ..., dn, die in einer Gewichtungseinheit 212 des Vergleichsmoduls 204 jeweils mit einem Gewichtungsfaktor wi multipliziert und anschließend aufsummiert werden. Die Summe der gewichteten Differenzen wird in Form der Korrekturdaten 206 an das Machine-Learning-Modul 200 weitergereicht, um den Machine-Learning-Algorithmus und somit eine Schätzung von Zuständen von Objekten im Umfeld des Fahrzeugs 100 zu optimieren. Hierbei handelt es sich lediglich um ein Beispiel für eine mögliche Implementierung einer Gewichtung der Differenzen d1, d2, ..., dn. Diese können auch auf eine beliebige andere Weise gewichtet werden. Beispielsweise können die nicht gewichteten oder gewichteten Differenzen dem Machine-Learning-Modul 200 statt als Summe auch getrennt zugeführt werden. Statt einer Summierung können hier auch andere mathematische Operationen verwendet werden.
-
Beispielsweise können Messungen in naher Zukunft anders gewichtet werden als Messungen in ferner Zukunft. Dies ist zum Beispiel bei weit entfernten Objekten, denen sich das Fahrzeug 100 nähert, wünschenswert. So werden Messungen in naher Zukunft aus der Entfernung gemessen und können ungenauer sein als Messungen in ferner Zukunft, die aus der Nähe gemessen werden. Die Begriffe „nahe Zukunft“ und „ferne Zukunft“ beziehen sich dabei auf den Zeitpunkt t_k, zu dem der geschätzte Objektzustand x_k bestimmt wird.
-
Der beschriebene Vorgang kann für nachfolgende Zeitpunkte in analoger Weise wiederholt werden. Dabei werden beispielsweise für einen geschätzten Objektzustand x_k+1 zukünftige Objektzustände x_k+2_p, x_k+3_p, ..., x_k+n+1_p prädiziert, transformierte zukünftige Objektzustände z_k+2_p_Sx, x_k+3_p_Sx, ..., x_k+n+1_p_Sx bestimmt und mit entsprechenden Messungen z_k+2_Sx, z_k+3_Sx, ..., z_k+n+1_Sx verglichen, um die Korrekturdaten 206 bereitzustellen.
-
Zustandsgrößen beeinflussen sich über die Zeit hinweg gegenseitig. Beispielsweise kann aus einer aktuellen Position und Geschwindigkeit auf eine Position in der Zukunft geschlossen werden, während aus einer aktuellen Orientierung und Gierrate auf eine Orientierung in der Zukunft geschlossen werden kann. Das bedeutet im Umkehrschluss, dass aus Zuständen in der Zukunft gewissermaßen auf Zustände in der Gegenwart geschlossen werden kann. Mit den Zuständen aus der Zukunft könnte nun beispielsweise der Machine-Learning-Algorithmus trainiert werden. Stattdessen werden hier sozusagen in der Gegenwart vorliegende Messungen aus der Zukunft verwendet.
-
Der Machine-Learning-Algorithmus wird also wie folgt trainiert. Wenn Messungen aus der Gegenwart diese und jene Ausprägung haben, dann sollte ein Zustand des Objekts 114 so geschätzt werden, dass er möglichst gut zu den Messungen der Zukunft passt. Im Betrieb hat dann der Machine-Learning-Algorithmus bereits gelernt, wie ein Zustand bei Messungen mit bestimmter Ausprägung geschätzt werden soll.
-
Die Anzahl m oder die Anzahl n kann je nach Anforderung variieren.
-
Beispielsweise können die Messungen zeitlich sehr dicht aufeinanderfolgen. Dies kann insbesondere bei einem Multi-Sensor-Aufbau der Fall sein. Ein zu geringer zeitlicher Abstand zwischen einem aktuell geschätzten Objektzustand und einem nachfolgenden zukünftigen Objektzustand kann zu entsprechend geringen Differenzen zwischen den weiteren zukünftigen Objektzuständen führen. Da die Sensordaten 108 in der Regel mit Messrauschen behaftet sind, können diese geringen Zustandsänderungen möglicherweise nicht repräsentativ durch die Messungen wiedergegeben werden.
-
Die Auswerteeinheit 106 kann konfiguriert sein, um die Anzahl n im laufenden Betrieb auf Zeitabstände zwischen den nachfolgenden Messungen anzupassen. Dies ist vorteilhaft, da beispielsweise in einem Multi-Sensor-Aufbau die Sensoren in der Regel nicht synchron laufen. Daher können Messungen in bestimmten Abschnitten zeitlich dicht aufeinanderfolgen, während Messungen in bestimmten anderen Abschnitten wiederum zeitlich weit auseinanderliegen können. Der zeitliche Rahmen, den die nachfolgenden n Messungen einnehmen, kann je nach Anwendung im Millisekundenbereich oder auch darüber liegen.
-
Die Anzahl m kann je nach Art des eingesetzten Machine-Learning-Algorithmus und je nach Rechenkapazität der Auswerteeinheit 106 variieren.
-
3 zeigt einen möglichen Ablauf eines Verfahrens 300, wie es von der in den 1 und 2 gezeigten Auswerteeinheit 106 ausgeführt werden kann.
-
Dabei werden in einem ersten Schritt 301 die Sensordaten 108 eingelesen.
-
In einem zweiten Schritt 302 werden die Sensordaten 108 in das Machine-Learning-Modul 200 eingegeben.
-
In einem dritten Schritt 303 wird der geschätzte Objektzustand x_k durch das Machine-Learning-Modul 200 ausgegeben.
-
In einem vierten Schritt 304 werden basierend auf dem geschätzten Objektzustand x_k die zeitlich aufeinanderfolgenden zukünftigen Objektzustände x_k+n_p prädiziert.
-
In einem fünften Schritt 305 werden die Differenzen d1, d2, ..., dn aus den zukünftigen Objektzuständen x_k+n_p und den zugehörigen Messungen z_k+n basierend auf den Sensordaten 108 ermittelt.
-
In einem sechsten Schritt 306 werden die Differenzen d1, d2, ..., dn schließlich dem Machine-Learning-Modul 200 zur Optimierung der Objekterkennung bereitgestellt.
-
Abschließend wird darauf hingewiesen, dass Begriffe wie „aufweisend“, „umfassend“ etc. keine anderen Elemente oder Schritte ausschließen und Begriffe wie „eine“ oder „ein“ keine Vielzahl ausschließen. Bezugszeichen in den Ansprüchen sind nicht als Einschränkung anzusehen.