DE102021208877A1

DE102021208877A1 - Training von neuronalen Netzwerken auf Äquivarianz oder Invarianz gegen Änderungen des Eingabe-Bildes

Info

Publication number: DE102021208877A1
Application number: DE102021208877.5A
Authority: DE
Inventors: Ivan Sosnovik; Jan Hendrik Metzen; Arnold Smeulders; Sadaf Gulshad
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-02-16
Also published as: WO2023016859A1

Abstract

Verfahren (100) zum Trainieren eines neuronalen Netzwerks (1), das zur Verarbeitung von Eingabe-Bildern (2) ausgebildet ist und mehrere Faltungsschichten umfasst, wobei jede dieser Faltungsschichten dazu ausgebildet ist, die Eingabe f der jeweiligen Faltungsschicht durch Anwenden mindestens eines Filterkerns κ auf mindestens eine Merkmalskarte Φ(f,κ) abzubilden, mit den Schritten:• es wird eine Menge T von Transformationen T bereitgestellt (110), bezüglich derer das neuronale Netzwerk (1) beim Training in die Lage versetzt werden soll, bei Anwendung dieser Transformationen auf die Eingabe f mindestens einer Faltungsschicht die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(f,κ) zu erlernen;• diese Merkmalskarte Φ(f, κ) wird durch eine mit Parametern (5a) parametrisierte Aggregation (5) von Merkmalskarten Φj(f, Tj[κ]) ausgedrückt (120), die jeweils durch das Anwenden von Transformationen Tj∈ T auf den mindestens einen Filterkern κ erhalten werden;• es werden Lern-Bilder (2a) sowie Lern-Ausgaben (3a), auf die das trainierte neuronale Netzwerk (1) diese Lern-Bilder (2a) idealerweise abbilden soll, bereitgestellt (130);• die Lern-Bilder (2a) werden von dem neuronalen Netzwerk (1) auf Ausgaben (3) abgebildet (140);• Abweichungen dieser Ausgaben (3) von den Lern-Ausgaben (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (150);• Parameter (5a) der parametrisierten Aggregation (5) sowie weitere Parameter (1a), die das Verhalten des neuronalen Netzwerks (1) charakterisieren, werden optimiert (160) mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern (2a) die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert.

Description

Die vorliegende Erfindung betrifft das Training neuronaler Netzwerke, die Bilder verarbeiten und beispielsweise auf Klassifikations-Scores in Bezug auf Klassen einer vorgegebenen Klassifikation abbilden.
Stand der Technik
Viele Fahrassistenzsysteme und Systeme für das zumindest teilweise automatisierte Fahren verarbeiten die von Sensoren eines Fahrzeugs aufgenommenen Messdaten mit Klassifikatoren zu Klassifikations-Scores in Bezug auf eine oder mehrere Klassen einer vorgegebenen Klassifikation. Auf der Basis dieser Klassifikations-Scores werden dann beispielsweise Entscheidungen über Eingriffe in die Fahrdynamik des Fahrzeugs getroffen.
Das Training derartiger Klassifikatoren erfordert Trainingsdaten mit einer großen Variabilität, damit der Klassifikator gut auf im Training bislang ungesehene Messdaten generalisieren kann. Das Aufnehmen von Trainingsdaten auf Testfahrten mit dem Fahrzeug und erst recht das größtenteils manuelle Labeln dieser Trainingsdaten mit Soll-Klassifikations-Scores sind zeitaufwändig und teuer.
Daher werden die Trainingsdaten häufig mit synthetisch generierten Trainingsdaten angereichert. So offenbart etwa die DE 10 2018 204 494 B3 ein Verfahren, mit dem Radarsignale synthetisch generiert werden können, um damit physikalisch aufgenommene Radarsignale für das Training eines Klassifikators anzureichern.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines neuronalen Netzwerks entwickelt. Dieses neuronale Netzwerk ist zur Verarbeitung von Eingabe-Bildern ausgebildet und umfasst mehrere Faltungsschichten. Hierbei ist jede Faltungsschicht dazu ausgebildet, ihre jeweilige Eingabe f durch Anwenden mindestens eines Filterkerns κ auf mindestens eine Merkmalskarte Φ(f,κ) abzubilden. Typischerweise weist diese Merkmalskarte Φ(f,κ) eine im Vergleich zu der Eingabe f deutlich reduzierte Dimensionalität auf.
Beispielsweise kann ein Bildklassifikator, der Eingabe-Bilder auf Klassifikations-Scores bezüglich einer oder mehreren Klassen einer vorgegebenen Klassifikation abbildet, als neuronales Netzwerk gewählt werden. Insbesondere die von der letzten Faltungsschicht in einer Abfolge von Faltungsschichten gelieferten Merkmalskarten können im Hinblick auf die Klassifikations-Scores ausgewertet werden.
Im Rahmen des Verfahrens wird eine Menge T von Transformationen T bereitgestellt, bezüglich derer das neuronale Netzwerk beim Training in die Lage versetzt werden soll, bei Anwendung dieser Transformationen auf die Eingabe f mindestens einer Faltungsschicht die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(f,κ) zu erlernen. Dies bedeutet nicht, dass die Merkmalskarte Φ(f,κ) immer gegen alle Transformationen T aus der eine Menge T äquivariant bzw. invariant wird. Vielmehr wird angestrebt, die Merkmalskarte Φ(f,κ) in dem Umfang äquivariant bzw. invariant gegen Transformationen zu machen, in dem derartige Transformationen in den beim Training verwendeten Lern-Bildern vorkommen.
Zu diesem Zweck wird die äquivariant bzw. invariant zu machende Merkmalskarte Φ(f,κ) durch eine mit Parametern parametrisierte Aggregation von Merkmalskarten Φ_j (f,T_j [κ]) ausgedrückt, die jeweils durch das Anwenden von Transformationen T_j ∈ T auf den mindestens einen Filterkern κ erhalten werden. Diese Parameter werden beim Training des neuronalen Netzwerks als zusätzliche Freiheitsgrade verwendet.
Für das überwachte Training werden Lern-Bilder sowie Lern-Ausgaben, auf die das trainierte neuronale Netzwerk diese Lern-Bilder idealerweise abbilden soll, bereitgestellt. Die Lern-Bilder werden von dem neuronalen Netzwerk auf Ausgaben abgebildet, und Abweichungen dieser Ausgaben von den Lern-Ausgaben werden mit einer vorgegebenen Kostenfunktion bewertet.
Es werden nun Parameter der parametrisierten Aggregation sowie weitere Parameter, die das Verhalten des neuronalen Netzwerks charakterisieren, optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern die Bewertung durch die Kostenfunktion voraussichtlich verbessert. Diese weiteren Parameter können insbesondere beispielsweise Gewichte sein, mit denen Eingaben, die Neuronen oder anderen Verarbeitungseinheiten des neuronalen Netzwerks zugeführt werden, gewichtet zu einer Aktivierung dieses Neurons, bzw. dieser Verarbeitungseinheit, summiert werden.
Der Begriff „voraussichtlich“ ist in diesem Zusammenhang so zu verstehen, dass iterative numerische Optimierungsalgorithmen die neuen Werte der Parameter für die nächste Iteration auf Grund der Vorgeschichte an Iterationen auswählen in der Erwartung, dass sich hiermit die Bewertung durch die Kostenfunktion verbessert. Diese Erwartung muss sich jedoch nicht für jede Iteration erfüllen, d.h., eine Iteration kann sich auch als „Rückschritt“ erweisen. Der Optimierungsalgorithmus kann jedoch auch ein Feedback dieser Art nutzen, um so letztendlich zu Werten der Parameter zu gelangen, für die sich die Bewertung durch die Kostenfunktion verbessert.
Indem die Parameter der parametrisierten Aggregation als zusätzliche Freiheitsgrade für das Training verwendet werden, lernt das neuronale Netzwerk, Merkmalskarten genau in dem Umfang äquivariant oder invariant gegen Transformationen der Eingabe zu machen, wie dies der Leistung des neuronalen Netzwerks in Bezug auf die jeweilige konkrete Anwendung tatsächlich förderlich ist. Dies ist ein Stück weit analog zum Anpassungsprozess einer Brille bei einem Augenoptiker. Den Transformationen T entsprechen hier den verschiedenen Korrekturlinsen für Kurzsichtigkeit, Weitsichtigkeit, Astigmatismus und andere Abbildungsfehler des Auges. Es werden genau diejenigen Korrekturen angewendet, mit denen der Kunde die zum Testen vorgelegten Zahlen und Buchstaben am besten erkennen kann.
Der Nutzeffekt der trainierten Äquivarianzen und Invarianzen beim Training ist insbesondere, dass das neuronale Netzwerk Objekte und Sachverhalte in verschiedenen Eingabe-Bildern, die sich nur um eine Anwendung der besagten Transformationen unterscheiden und ansonsten inhaltlich gleich sind, als gleich erkennt. Die Erkenntnis, dass beispielsweise ein gedrehtes, skaliertes oder aus einer anderen Perspektive betrachtetes Fahrzeug immer noch ein Fahrzeug ist, muss dem neuronalen Netzwerk daher nicht mehr implizit vermittelt werden, indem ihm eine Vielzahl derartiger abgewandelter Lern-Bilder vorgelegt wird und all diese Lern-Bilder mit der gleichen Lern-Ausgabe gelabelt werden.
Dementsprechend kann sich die Variabilität der verwendeten Lern-Bilder auf diejenigen Eigenschaften konzentrieren, die mit dem neuronalen Netzwerk untersucht werden sollen. Ein bestimmtes quantitatives Maß an Leistung in Bezug auf die Aufgabe des neuronalen Netzwerks, bei einem Bildklassifikator beispielsweise gemessen an der Klassifikationsgenauigkeit auf einem Satz von Test- oder Validierungsdaten, lässt sich dann insgesamt mit einer geringeren Menge an Lern-Bildern erzielen. Gerade mit Lern-Ausgaben gelabelte Lern-Bilder von Verkehrssituationen sind besonders teuer zu beschaffen, da lange Testfahrten erforderlich sind und das Labeln manuelle Arbeit erfordert.
Dabei reicht eine nur ungefähre Kenntnis derjenigen Transformationen, bezüglich derer das Lernen einer Äquivarianz oder Invarianz vorteilhaft sein könnte, um in Bezug auf die an das neuronale Netzwerk gestellte Aufgabe hiervon profitieren zu können. Insofern trägt auch hier die Analogie zum Augenoptiker, der zunächst einmal nur weiß, von welcher Art Abbildungsfehler überhaupt sein können, und die Art und Stärke von Abbildungsfehlern eines konkreten Auges erst durch den iterativen Anpassungsprozess herausfindet.
In einer besonders vorteilhaften Ausgestaltung wird der Filterkern κ als mit Parametern w_i parametrisierte Linearkombination Σ_i w_iψ_i von Basisfunktionen ψ_i ausgedrückt. Die Wirkung der Transformationen T auf die Basisfunktionen ψ_i kann dann vorausberechnet und immer wieder verwendet werden. Während des Trainings werden nur die Parameter w_i variiert, um die Linearkombination anzupassen. Somit zieht jede Anpassung der Linearkombination im Zuge eines Trainingsschritts einen geringeren Rechenaufwand nach sich.
Die Anwendung einer Transformation T auf die Eingabe f der Faltungsschicht macht die Merkmalskarte Φ(f,κ) zu einer Merkmalskarte Φ(T[f],κ). Wenn K eine Matrixdarstellung des Filterkerns κ und f eine Matrixdarstellung der Eingabe f ist, ist Φ(f,κ) = K × f. Das Anwenden der Transformation T mit der Matrixdarstellung T bewirkt hier, dass T mit f zu multiplizieren ist, bevor der Filterkern κ angewendet wird. Nach dem Assoziativgesetz für die Multiplikation gilt: $Φ (T' [ƒ], κ) = K \times (T \times f) = (K \times T) \times f = Φ (ƒ, T [κ])$
Das Transformieren der Eingabe f ist also äquivalent zum Transformieren des Filterkerns κ. Die Bezeichnungen T'[f] einerseits und T[κ] andererseits drücken aus, dass die Multiplikation mit der Matrix T nicht kommutativ ist. Das heißt, die Multiplikation mit T von links führt nicht zum gleichen Ergebnis wie die Multiplikation mit T von rechts.
Die Merkmalskarte Φ_j(f,T_j [κ]), die sich durch Anwendung der Transformation T_j auf einen Filterkern κ ergibt, lässt sich schreiben als: $Φ_{j} (ƒ, T_{j} [κ]) = Φ_{j} (ƒ, T_{j} [\sum_{i} w_{i} ψ_{i}]) = Φ_{j} (ƒ, \sum_{i} w_{i} T_{j} [ψ_{i}]) = Φ_{j} (ƒ, w \cdot T_{j} [ψ]),$
da die Zusammensetzung κ = Σ_i w_iψ_i = w · ψ aus den Basisfunktionen sich unter der Transformation T_j nicht ändert.
Die Gewichtung der Merkmalskarten untereinander in der Aggregation kann dann insbesondere beispielsweise mit von der Eingabe f abhängigen Gewichten β_j(f) erfolgen. Eine Merkmalskarte Φ(f, T[κ]), die durch Anwenden einer oder mehrerer Transformationen T_j ∈ T entsteht, lässt sich dann schreiben als: $Φ (ƒ, T [κ]) = σ (\begin{matrix} β_{0} (ƒ) Φ (ƒ, w \cdot T_{0} [ψ]) \\ β_{1} (ƒ) Φ (ƒ, w \cdot T_{1} [ψ]) \\ \dots \\ β_{κ} (ƒ) Φ (ƒ, w \cdot T_{κ} [ψ]) \end{matrix})$
Hierin ist σ eine beliebige Aggregationsfunktion, und die T_j sind die Transformationen aus der Menge T. Diese Menge T kann insbesondere beispielsweise auch die Identität als Transformation enthalten. Das Training lässt sich dann beispielsweise so initialisieren, dass zunächst nur das Gewicht β_j(f) für die Identität gleich 1 ist und die Gewichte β_j(f) für alle anderen Transformationen T_j gleich 0 sind.
Als Basisfunktionen ψ für die Filterkerne κ können insbesondere beispielsweise Funktionen gewählt werden, die mindestens über Hermitesche Polynome H_m, H_n von Ortskoordinaten x, y in der Eingabe f abhängen: $ψ_{π} (x, y) = A \cdot \frac{1}{π^{2}} \cdot H_{n} (\frac{x}{π}) \cdot H m (\frac{y}{π}) \cdot exp (- \frac{x^{2} + y^{2}}{2 π^{2}})$
mit einer Normierungskonstanten A und dem Skalierungsfaktor π. Mit derartigen Basisfunktionen können insbesondere solche Filterkerne κ konstruiert werden, die für die Erkennung von Merkmalen in Bildern besonders geeignet sind.
In einer besonders vorteilhaften Ausgestaltung wird mindestens eine Merkmalskarte Φ(f,κ) gewählt, die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne κ₁, κ₂, ... auf die Eingabe f entsteht, beinhaltet. Auf diese Weise können die Anpassungen, die für die verschiedenen Faltungsschichten in einer Stapelung in einem so genannten „Residual Block“ gelernt werden, miteinander koordiniert werden. Eine Merkmalskarte Φ(f, T[κ₁, κ₂, ... ]), die durch Anwenden einer oder mehrerer Transformationen T_j ∈ T entsteht, lässt sich dann schreiben als: $Φ (ƒ, T [κ_{1}, κ_{2}, \dots]) = ƒ + σ (\begin{matrix} β_{0} (ƒ) Φ (ƒ, w_{1} \cdot T_{0} [ψ_{1}], w_{2} \cdot T_{0} [ψ_{2}], \dots) \\ β_{1} (ƒ) Φ (ƒ, w_{1} \cdot T_{1} [ψ_{1}], w_{2} \cdot T_{1} [ψ_{2}], \dots) \\ \dots \\ β_{κ} (ƒ) Φ (ƒ, w_{1} \cdot T_{κ} [ψ_{1}], w_{2} \cdot T_{κ} [ψ_{2}], \dots) \end{matrix}) .$
Hierin sind ψ₁, ψ₂, ... die Basisfunktionen, aus denen die Filterkerne κ₁, κ₂, ... gebildet sind.
Die Transformationen können insbesondere beispielsweise elastische Transformationen sein. Dies sind Transformationen, die zumindest näherungsweise als Feld von Auslenkungen τ in räumlichen Koordinaten x des Eingabe-Bildes f mit einer Stärke ε beschreibbar sind: $T [ƒ (x)] (ε) \approx (x + ε τ (x)) .$
Hiermit lässt sich eine große Klasse von Transformationen annähern, die sich ergeben, wenn etwa eine für eine Bildaufnahme verwendete Kamera ihre Perspektive relativ zur Szenerie ändert.
Die elastischen Transformationen können insbesondere beispielsweise lineare Streckungen und/oder Rotationsskalierungen umfassen. Dies sind Transformationen, die beispielsweise durch eine Änderung der Perspektive einer Kamera relativ zu einem Objekt bewirkt werden.
Koordinaten x', y' im Eingabe-Bild nach einer linearen Streckung können beispielsweise gemäß $\begin{matrix} x' = \sqrt{x^{2} + y^{2}} \cdot (sin (θ) sin (δ) + γ cos (θ) cos (δ)), \\ y' = \sqrt{x^{2} + y^{2}} \cdot (- cos (θ) sin (δ) + γ sin (θ) cos (δ)) \end{matrix}$
aus den ursprünglichen Koordinaten x, y hervorgehen. Hierin ist γ = 1/(e^-6 + cos(α)), δ = θ - ϕ, ϕ = arctan(y/x), θ ist eine kleine Auslegung, und α ist ein Elastizitätskoeffizient. Hierin soll die sehr kleine positive, willkürlich gewählte Konstante e^-6 eine Division durch Null verhindern, wenn cos(α) = 0.
Koordinaten x', y' im Eingabe-Bild nach einer Rotationsskalierung können beispielsweise gemäß $\begin{matrix} x' = x + α (x cos (θ) + y sin (θ)), \\ y' = y + α (- x sin (θ) + y cos (θ)) \end{matrix}$
aus den ursprünglichen Koordinaten x, y hervorgehen.
Bei diesen Transformationen wird jeweils angenommen, dass das Zentrum des Filterkerns κ im Punkt (0, 0) liegt und ein Fixpunkt der Transformation ist.
Die Aggregationsfunktion σ für die Aggregation der Merkmalskarten Φ_j(f,T_j [K]) kann insbesondere beispielsweise für jedes Element der Merkmalskarten

• ein elementweises Maximum,
• ein geglättetes elementweises Maximum oder
• ein elementweiser Mittelwert

_j

Wenn beispielsweise ein Eingabe-Bild f eine Höhe H, eine Breite W und eine Anzahl C von Farbkanälen hat, kann es als Tensor der Form C × H × W vorliegen. Die K Transformationen T aus der Menge T fügen eine weitere Dimension hinzu. Die Aggregationsfunktion σ kann nun beispielsweise aus einem Raum der Dimension K × C × H × W zurück in den Raum der Dimension C × H × W abbilden und hierbei insbesondere beispielsweise diejenige Transformation T_j auswählen, die am besten zu den verfügbaren Trainingsdaten passt. Dies kann beispielsweise daran gemessen werden, wie groß jeweils die Aktivierungen von Neuronen sind, die für bestimmte Transformationen zuständig sind.
Unter einem elementweisen Maximum, bzw. einem elementweisen Mittelwert, wird in diesem Zusammenhang insbesondere beispielsweise verstanden, dass für jeden Eintrag in den Dimensionen C × H × W separat ein Maximum, bzw. ein Mittelwert, entlang der Dimension K der Transformationen gebildet wird. Ein geglättetes Maximum kann beispielsweise mit der Logsumexp-Funktion $σ (x) = log \sum_{i} exp (x_{i})$
ermittelt werden.
In einer weiteren vorteilhaften Ausgestaltung beinhaltet das Aggregieren von Merkmalskarten Φ_j(f,T_j[κ]), eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen. Beispielsweise können l_p-Normen entlang der Dimensionen C, H × W oder C × H × W gebildet werden. Es kann dann entlang der K-Dimension ermittelt werden, für welche Transformationen sich die größten Normen ergeben. Es kann also eine Merkmalskarte und somit auch eine Transformation ausgewählt werden, die am besten zu den vorhandenen Daten passt.
Wie zuvor erläutert, wird das neuronale Netzwerk durch das Training, das Invarianzen und Äquivarianzen einbezieht, in die Lage versetzt, seine übliche Aufgabe besser zu erfüllen. Dies schlägt sich beispielsweise bei einem Bildklassifikator in einer höheren Klassifikationsgenauigkeit auf Test-Bildern oder Validierungs-Bildern nieder.
Daher werden in einer weiteren vorteilhaften Ausgestaltung dem trainierten neuronalen Netzwerk Eingabe-Bilder zugeführt, die mit mindestens einem Sensor aufgenommen wurden, so dass diese Eingabe-Bilder von dem neuronalen Netzwerk auf Ausgaben abgebildet werden. Aus den Ausgaben wird ein Ansteuersignal ermittelt. Ein Fahrzeug, und/oder ein System für die Qualitätskontrolle von Produkten, und/oder ein System für die Überwachung von Bereichen, wird mit diesem Ansteuersignal angesteuert.
Auf Grund der zutreffenden Ausgabe des neuronalen Netzwerks ist dann die Wahrscheinlichkeit, dass die von dem jeweils angesteuerten System ausgeführte Aktion der mit dem Sensor erfassten Situation angemessen ist, vorteilhaft erhöht.
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren eines neuronalen Netzwerks 1;
2 Beispielhafte Wirkung des Trainings mit dem Verfahren 100 auf die Klassifikationsgenauigkeit eines Bildklassifikators.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Trainieren eines neuronalen Netzwerks 1. Es kann insbesondere beispielsweise in Schritt 105 ein Bildklassifikator als neuronales Netzwerk 1 gewählt werden. Das neuronale Netzwerk 1 ist zur Verarbeitung von Eingabe-Bildern 2 ausgebildet und umfasst mehrere Faltungsschichten. Jede dieser Faltungsschichten ist dazu ausgebildet, die Eingabe f der jeweiligen Faltungsschicht durch Anwenden mindestens eines Filterkerns κ auf mindestens eine Merkmalskarte Φ(f,κ) abzubilden.
In Schritt 110 wird eine Menge T von Transformationen T bereitgestellt. Das neuronale Netzwerk 1 kann im Rahmen des hier beschriebenen Trainings lernen, bei Anwendung einer oder mehrerer dieser Transformationen T auf die Eingabe f mindestens einer Faltungsschicht des Netzwerks 1 die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(f,κ) zu erlernen.
Gemäß Block 111 können insbesondere beispielsweise elastische Transformationen, die als Feld von Auslenkungen in räumlichen Koordinaten des Eingabe-Bildes beschreibbar sind, als Transformationen T ∈ T gewählt werden. Diese elastischen Transformationen können insbesondere beispielsweise gemäß Block 111a lineare Streckungen und/oder Rotationsskalierungen umfassen.
In Schritt 120 wird diese Merkmalskarte Φ(f,κ) durch eine mit Parametern 5a parametrisierte Aggregation 5 von Merkmalskarten Φ_j(f,T_j[κ]) ausgedrückt 120, die jeweils durch das Anwenden von Transformationen T_j ∈ T auf den mindestens einen Filterkern κ erhalten werden. Das heißt, die Ausgabe der entsprechenden Faltungsschicht ändert sich in Abhängigkeit der Parameter 5a.
Gemäß Block 121 kann der Filterkern κ als mit Parametern w_i parametrisierte Linearkombination Σ_i w_iψ_i von Basisfunktionen ψ_i ausgedrückt werden. Hierbei können insbesondere beispielsweise gemäß Block 121a Basisfunktionen ψ_i gewählt werden, die mindestens über Hermitesche Polynome von Ortskoordinaten x, y in der Eingabe f abhängen.
Gemäß Block 122 können die Merkmalskarten Φ_j (f,T_j [κ]) in der Aggregation 5 untereinander mit von der Eingabe f abhängigen Gewichten β_j(f) gewichtet werden.
Gemäß Block 123 kann für das Parametrisieren mit den Parametern 5a mindestens eine Merkmalskarte Φ(f, κ) gewählt werden, die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne κ₁, κ₂, ... auf die Eingabe f entsteht, beinhaltet. Eine derartige Merkmalskarte ist das Arbeitsergebnis eines „Residual Blocks“.
Das Aggregieren der Merkmalskarten Φ_j(f,T_j [κ]) kann gemäß Block 124 beinhalten, für jedes Element dieser Merkmalskarten

_j

Alternativ oder auch in Kombination hierzu kann das Aggregieren der Merkmalskarten Φ_j(f,T_j [κ]) gemäß Block 125 beinhalten, eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen.
In Schritt 130 werden Lern-Bilder 2a sowie Lern-Ausgaben 3a, auf die das trainierte neuronale Netzwerk 1 diese Lern-Bilder 2a idealerweise abbilden soll, bereitgestellt.
In Schritt 140 werden die Lern-Bilder 2a von dem neuronalen Netzwerk 1 auf Ausgaben 3 abgebildet.
Abweichungen dieser Ausgaben 3 von den Lern-Ausgaben 3a werden in Schritt 150 mit einer vorgegebenen Kostenfunktion 4 bewertet.
In Schritt 160 werden Parameter 5a der parametrisierten Aggregation 5 sowie weitere Parameter 1a, die das Verhalten des neuronalen Netzwerks 1 charakterisieren, optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern 2a die Bewertung 4a durch die Kostenfunktion 4 voraussichtlich verbessert. Die fertig trainierten Zustände der Parameter 1a und 5a sind mit den Bezugszeichen 1a* bzw. 5a* bezeichnet. Das fertig trainierte neuronale Netzwerk 1, dessen Verhalten durch die Parameter 1a* und 5a* charakterisiert ist, ist mit dem Bezugszeichen 1* bezeichnet.
In Schritt 170 werden dem trainierten neuronalen Netzwerk 1* Eingabe-Bilder 2 zugeführt, die mit mindestens einem Sensor 51 aufgenommen wurden. Diese Eingabe-Bilder 2 werden von dem neuronalen Netzwerk 1 auf Ausgaben 3 abgebildet.
In Schritt 180 wird aus den Ausgaben 3 ein Ansteuersignal 180a ermittelt.
In Schritt 190 wird ein Fahrzeug 50, und/oder ein System 60 für die Qualitätskontrolle von Produkten, und/oder ein System 70 für die Überwachung von Bereichen, mit diesem Ansteuersignal 180a angesteuert.
In 2 ist für ein als Bildklassifikator ausgebildetes neuronales Netzwerk 1 der Architektur WideResnet-18 der Verlust ΔA an Klassifikationsgenauigkeit aufgetragen, der sich einstellt, wenn die Eingabe-Bilder mit einer Stärke P verrauscht werden. Die Kurven a bis e beziehen sich auf Zustände des neuronalen Netzwerks 1 nach verschiedenen Trainings. Der Versuch wurde mit dem öffentlich zugänglichen Datensatz STL-10 zugeführt, der 5000 Lern-Bilder und 8000 Test-Bilder der Größe 96x96 Pixel aus 10 verschiedenen Klassen enthält.
Kurve a bezieht sich auf das herkömmliche Training. Die Kurven b bis e beziehen sich auf verschiedene Beispiele des Trainings nach dem hier beschriebenen Verfahren 100. Der durch die verrauschten Eingabe-Bilder verursachte Verlust an Genauigkeit kann durch das verbesserte Training zumindest teilweise wieder ausgeglichen werden. Für einige Konfigurationen zeigt sich auch bei unverrauschten Eingabe-Bildern bereits ein Gewinn (Kurvenverlauf oberhalb der Kurve a).
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102018204494 B3 [0004]

Claims

Verfahren (100) zum Trainieren eines neuronalen Netzwerks (1), das zur Verarbeitung von Eingabe-Bildern (2) ausgebildet ist und mehrere Faltungsschichten umfasst, wobei jede dieser Faltungsschichten dazu ausgebildet ist, die Eingabe f der jeweiligen Faltungsschicht durch Anwenden mindestens eines Filterkerns κ auf mindestens eine Merkmalskarte Φ(f,κ) abzubilden, mit den Schritten: • es wird eine Menge T von Transformationen T bereitgestellt (110), bezüglich derer das neuronale Netzwerk (1) beim Training in die Lage versetzt werden soll, bei Anwendung dieser Transformationen auf die Eingabe f mindestens einer Faltungsschicht die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(f,κ) zu erlernen; • diese Merkmalskarte Φ(f, κ) wird durch eine mit Parametern (5a) parametrisierte Aggregation (5) von Merkmalskarten Φ_j (f, T_j [κ]) ausgedrückt (120), die jeweils durch das Anwenden von Transformationen T_j ∈ T auf den mindestens einen Filterkern κ erhalten werden; • es werden Lern-Bilder (2a) sowie Lern-Ausgaben (3a), auf die das trainierte neuronale Netzwerk (1) diese Lern-Bilder (2a) idealerweise abbilden soll, bereitgestellt (130); • die Lern-Bilder (2a) werden von dem neuronalen Netzwerk (1) auf Ausgaben (3) abgebildet (140); • Abweichungen dieser Ausgaben (3) von den Lern-Ausgaben (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (150); • Parameter (5a) der parametrisierten Aggregation (5) sowie weitere Parameter (1a), die das Verhalten des neuronalen Netzwerks (1) charakterisieren, werden optimiert (160) mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern (2a) die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert.
Verfahren (100) nach Anspruch 1, wobei der Filterkern κ als mit Parametern w_i parametrisierte Linearkombination Σ_i w_iψ_i von Basisfunktionen ψ_i ausgedrückt wird (121).
Verfahren (100) nach Anspruch 2, wobei Basisfunktionen ψ_i gewählt werden (121a), die mindestens über Hermitesche Polynome von Ortskoordinaten x, y in der Eingabe f abhängen.
Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die Merkmalskarten Φ_j(f, T_j [κ]) in der Aggregation (5) untereinander mit von der Eingabe f abhängigen Gewichten β_j(f) gewichtet werden (122).
Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei elastische Transformationen, die als Feld von Auslenkungen in räumlichen Koordinaten des Eingabe-Bildes beschreibbar sind, als Transformationen T ∈ T gewählt werden (111) .
Verfahren (100) nach Anspruch 5, wobei lineare Streckungen, und/oder Rotationsskalierungen, als Transformationen T ∈ T gewählt werden (111a).
Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei mindestens eine Merkmalskarte Φ(f, κ) gewählt wird (123), die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne κ₁, κ₂, ... auf die Eingabe f entsteht, beinhaltet.
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei die Merkmalskarten Φ_j(f,T_j [κ]) aggregiert werden, indem für jedes Element der Merkmalskarten • ein elementweises Maximum, • ein geglättetes elementweises Maximum oder • ein elementweiser Mittelwert entlang der Dimension j der Transformationen T_j ∈ T gebildet wird (124).
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei das Aggregieren von Merkmalskarten Φ_j (f,T_j [κ]) beinhaltet, eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen (125).
Verfahren (100) nach einem der Ansprüche 1 bis 9, wobei ein Bildklassifikator, der Eingabe-Bilder auf Klassifikations-Scores bezüglich einer oder mehreren Klassen einer vorgegebenen Klassifikation abbildet, als neuronales Netzwerk (1) gewählt wird (105).
Verfahren (100) nach einem der Ansprüche 1 bis 10, wobei • dem trainierten neuronalen Netzwerk (1*) Eingabe-Bilder (2) zugeführt werden (170), die mit mindestens einem Sensor (51) aufgenommen wurden, so dass diese Eingabe-Bilder (2) von dem neuronalen Netzwerk (1) auf Ausgaben (3) abgebildet werden; • aus den Ausgaben (3) ein Ansteuersignal (180a) ermittelt wird (180); und • ein Fahrzeug (50), und/oder ein System (60) für die Qualitätskontrolle von Produkten, und/oder ein System (70) für die Überwachung von Bereichen, mit diesem Ansteuersignal (180a) angesteuert wird (190).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.
Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 12.
Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 12, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 13.