[go: up one dir, main page]

DE102021208877A1 - Training von neuronalen Netzwerken auf Äquivarianz oder Invarianz gegen Änderungen des Eingabe-Bildes - Google Patents

Training von neuronalen Netzwerken auf Äquivarianz oder Invarianz gegen Änderungen des Eingabe-Bildes Download PDF

Info

Publication number
DE102021208877A1
DE102021208877A1 DE102021208877.5A DE102021208877A DE102021208877A1 DE 102021208877 A1 DE102021208877 A1 DE 102021208877A1 DE 102021208877 A DE102021208877 A DE 102021208877A DE 102021208877 A1 DE102021208877 A1 DE 102021208877A1
Authority
DE
Germany
Prior art keywords
neural network
input
transformations
images
outputs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102021208877.5A
Other languages
English (en)
Inventor
Ivan Sosnovik
Jan Hendrik Metzen
Arnold Smeulders
Sadaf Gulshad
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021208877.5A priority Critical patent/DE102021208877A1/de
Priority to PCT/EP2022/071667 priority patent/WO2023016859A1/de
Publication of DE102021208877A1 publication Critical patent/DE102021208877A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren (100) zum Trainieren eines neuronalen Netzwerks (1), das zur Verarbeitung von Eingabe-Bildern (2) ausgebildet ist und mehrere Faltungsschichten umfasst, wobei jede dieser Faltungsschichten dazu ausgebildet ist, die Eingabe f der jeweiligen Faltungsschicht durch Anwenden mindestens eines Filterkerns κ auf mindestens eine Merkmalskarte Φ(f,κ) abzubilden, mit den Schritten:• es wird eine Menge T von Transformationen T bereitgestellt (110), bezüglich derer das neuronale Netzwerk (1) beim Training in die Lage versetzt werden soll, bei Anwendung dieser Transformationen auf die Eingabe f mindestens einer Faltungsschicht die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(f,κ) zu erlernen;• diese Merkmalskarte Φ(f, κ) wird durch eine mit Parametern (5a) parametrisierte Aggregation (5) von Merkmalskarten Φj(f, Tj[κ]) ausgedrückt (120), die jeweils durch das Anwenden von Transformationen Tj∈ T auf den mindestens einen Filterkern κ erhalten werden;• es werden Lern-Bilder (2a) sowie Lern-Ausgaben (3a), auf die das trainierte neuronale Netzwerk (1) diese Lern-Bilder (2a) idealerweise abbilden soll, bereitgestellt (130);• die Lern-Bilder (2a) werden von dem neuronalen Netzwerk (1) auf Ausgaben (3) abgebildet (140);• Abweichungen dieser Ausgaben (3) von den Lern-Ausgaben (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (150);• Parameter (5a) der parametrisierten Aggregation (5) sowie weitere Parameter (1a), die das Verhalten des neuronalen Netzwerks (1) charakterisieren, werden optimiert (160) mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern (2a) die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert.

Description

  • Die vorliegende Erfindung betrifft das Training neuronaler Netzwerke, die Bilder verarbeiten und beispielsweise auf Klassifikations-Scores in Bezug auf Klassen einer vorgegebenen Klassifikation abbilden.
  • Stand der Technik
  • Viele Fahrassistenzsysteme und Systeme für das zumindest teilweise automatisierte Fahren verarbeiten die von Sensoren eines Fahrzeugs aufgenommenen Messdaten mit Klassifikatoren zu Klassifikations-Scores in Bezug auf eine oder mehrere Klassen einer vorgegebenen Klassifikation. Auf der Basis dieser Klassifikations-Scores werden dann beispielsweise Entscheidungen über Eingriffe in die Fahrdynamik des Fahrzeugs getroffen.
  • Das Training derartiger Klassifikatoren erfordert Trainingsdaten mit einer großen Variabilität, damit der Klassifikator gut auf im Training bislang ungesehene Messdaten generalisieren kann. Das Aufnehmen von Trainingsdaten auf Testfahrten mit dem Fahrzeug und erst recht das größtenteils manuelle Labeln dieser Trainingsdaten mit Soll-Klassifikations-Scores sind zeitaufwändig und teuer.
  • Daher werden die Trainingsdaten häufig mit synthetisch generierten Trainingsdaten angereichert. So offenbart etwa die DE 10 2018 204 494 B3 ein Verfahren, mit dem Radarsignale synthetisch generiert werden können, um damit physikalisch aufgenommene Radarsignale für das Training eines Klassifikators anzureichern.
  • Offenbarung der Erfindung
  • Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines neuronalen Netzwerks entwickelt. Dieses neuronale Netzwerk ist zur Verarbeitung von Eingabe-Bildern ausgebildet und umfasst mehrere Faltungsschichten. Hierbei ist jede Faltungsschicht dazu ausgebildet, ihre jeweilige Eingabe f durch Anwenden mindestens eines Filterkerns κ auf mindestens eine Merkmalskarte Φ(f,κ) abzubilden. Typischerweise weist diese Merkmalskarte Φ(f,κ) eine im Vergleich zu der Eingabe f deutlich reduzierte Dimensionalität auf.
  • Beispielsweise kann ein Bildklassifikator, der Eingabe-Bilder auf Klassifikations-Scores bezüglich einer oder mehreren Klassen einer vorgegebenen Klassifikation abbildet, als neuronales Netzwerk gewählt werden. Insbesondere die von der letzten Faltungsschicht in einer Abfolge von Faltungsschichten gelieferten Merkmalskarten können im Hinblick auf die Klassifikations-Scores ausgewertet werden.
  • Im Rahmen des Verfahrens wird eine Menge T von Transformationen T bereitgestellt, bezüglich derer das neuronale Netzwerk beim Training in die Lage versetzt werden soll, bei Anwendung dieser Transformationen auf die Eingabe f mindestens einer Faltungsschicht die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(f,κ) zu erlernen. Dies bedeutet nicht, dass die Merkmalskarte Φ(f,κ) immer gegen alle Transformationen T aus der eine Menge T äquivariant bzw. invariant wird. Vielmehr wird angestrebt, die Merkmalskarte Φ(f,κ) in dem Umfang äquivariant bzw. invariant gegen Transformationen zu machen, in dem derartige Transformationen in den beim Training verwendeten Lern-Bildern vorkommen.
  • Zu diesem Zweck wird die äquivariant bzw. invariant zu machende Merkmalskarte Φ(f,κ) durch eine mit Parametern parametrisierte Aggregation von Merkmalskarten Φj (f,Tj [κ]) ausgedrückt, die jeweils durch das Anwenden von Transformationen Tj ∈ T auf den mindestens einen Filterkern κ erhalten werden. Diese Parameter werden beim Training des neuronalen Netzwerks als zusätzliche Freiheitsgrade verwendet.
  • Für das überwachte Training werden Lern-Bilder sowie Lern-Ausgaben, auf die das trainierte neuronale Netzwerk diese Lern-Bilder idealerweise abbilden soll, bereitgestellt. Die Lern-Bilder werden von dem neuronalen Netzwerk auf Ausgaben abgebildet, und Abweichungen dieser Ausgaben von den Lern-Ausgaben werden mit einer vorgegebenen Kostenfunktion bewertet.
  • Es werden nun Parameter der parametrisierten Aggregation sowie weitere Parameter, die das Verhalten des neuronalen Netzwerks charakterisieren, optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern die Bewertung durch die Kostenfunktion voraussichtlich verbessert. Diese weiteren Parameter können insbesondere beispielsweise Gewichte sein, mit denen Eingaben, die Neuronen oder anderen Verarbeitungseinheiten des neuronalen Netzwerks zugeführt werden, gewichtet zu einer Aktivierung dieses Neurons, bzw. dieser Verarbeitungseinheit, summiert werden.
  • Der Begriff „voraussichtlich“ ist in diesem Zusammenhang so zu verstehen, dass iterative numerische Optimierungsalgorithmen die neuen Werte der Parameter für die nächste Iteration auf Grund der Vorgeschichte an Iterationen auswählen in der Erwartung, dass sich hiermit die Bewertung durch die Kostenfunktion verbessert. Diese Erwartung muss sich jedoch nicht für jede Iteration erfüllen, d.h., eine Iteration kann sich auch als „Rückschritt“ erweisen. Der Optimierungsalgorithmus kann jedoch auch ein Feedback dieser Art nutzen, um so letztendlich zu Werten der Parameter zu gelangen, für die sich die Bewertung durch die Kostenfunktion verbessert.
  • Indem die Parameter der parametrisierten Aggregation als zusätzliche Freiheitsgrade für das Training verwendet werden, lernt das neuronale Netzwerk, Merkmalskarten genau in dem Umfang äquivariant oder invariant gegen Transformationen der Eingabe zu machen, wie dies der Leistung des neuronalen Netzwerks in Bezug auf die jeweilige konkrete Anwendung tatsächlich förderlich ist. Dies ist ein Stück weit analog zum Anpassungsprozess einer Brille bei einem Augenoptiker. Den Transformationen T entsprechen hier den verschiedenen Korrekturlinsen für Kurzsichtigkeit, Weitsichtigkeit, Astigmatismus und andere Abbildungsfehler des Auges. Es werden genau diejenigen Korrekturen angewendet, mit denen der Kunde die zum Testen vorgelegten Zahlen und Buchstaben am besten erkennen kann.
  • Der Nutzeffekt der trainierten Äquivarianzen und Invarianzen beim Training ist insbesondere, dass das neuronale Netzwerk Objekte und Sachverhalte in verschiedenen Eingabe-Bildern, die sich nur um eine Anwendung der besagten Transformationen unterscheiden und ansonsten inhaltlich gleich sind, als gleich erkennt. Die Erkenntnis, dass beispielsweise ein gedrehtes, skaliertes oder aus einer anderen Perspektive betrachtetes Fahrzeug immer noch ein Fahrzeug ist, muss dem neuronalen Netzwerk daher nicht mehr implizit vermittelt werden, indem ihm eine Vielzahl derartiger abgewandelter Lern-Bilder vorgelegt wird und all diese Lern-Bilder mit der gleichen Lern-Ausgabe gelabelt werden.
  • Dementsprechend kann sich die Variabilität der verwendeten Lern-Bilder auf diejenigen Eigenschaften konzentrieren, die mit dem neuronalen Netzwerk untersucht werden sollen. Ein bestimmtes quantitatives Maß an Leistung in Bezug auf die Aufgabe des neuronalen Netzwerks, bei einem Bildklassifikator beispielsweise gemessen an der Klassifikationsgenauigkeit auf einem Satz von Test- oder Validierungsdaten, lässt sich dann insgesamt mit einer geringeren Menge an Lern-Bildern erzielen. Gerade mit Lern-Ausgaben gelabelte Lern-Bilder von Verkehrssituationen sind besonders teuer zu beschaffen, da lange Testfahrten erforderlich sind und das Labeln manuelle Arbeit erfordert.
  • Dabei reicht eine nur ungefähre Kenntnis derjenigen Transformationen, bezüglich derer das Lernen einer Äquivarianz oder Invarianz vorteilhaft sein könnte, um in Bezug auf die an das neuronale Netzwerk gestellte Aufgabe hiervon profitieren zu können. Insofern trägt auch hier die Analogie zum Augenoptiker, der zunächst einmal nur weiß, von welcher Art Abbildungsfehler überhaupt sein können, und die Art und Stärke von Abbildungsfehlern eines konkreten Auges erst durch den iterativen Anpassungsprozess herausfindet.
  • In einer besonders vorteilhaften Ausgestaltung wird der Filterkern κ als mit Parametern wi parametrisierte Linearkombination Σi wiψi von Basisfunktionen ψi ausgedrückt. Die Wirkung der Transformationen T auf die Basisfunktionen ψi kann dann vorausberechnet und immer wieder verwendet werden. Während des Trainings werden nur die Parameter wi variiert, um die Linearkombination anzupassen. Somit zieht jede Anpassung der Linearkombination im Zuge eines Trainingsschritts einen geringeren Rechenaufwand nach sich.
  • Die Anwendung einer Transformation T auf die Eingabe f der Faltungsschicht macht die Merkmalskarte Φ(f,κ) zu einer Merkmalskarte Φ(T[f],κ). Wenn K eine Matrixdarstellung des Filterkerns κ und f eine Matrixdarstellung der Eingabe f ist, ist Φ(f,κ) = K × f. Das Anwenden der Transformation T mit der Matrixdarstellung T bewirkt hier, dass T mit f zu multiplizieren ist, bevor der Filterkern κ angewendet wird. Nach dem Assoziativgesetz für die Multiplikation gilt: Φ ( T ' [ ƒ ] , κ ) = K × ( T × f ) = ( K × T ) × f = Φ ( ƒ , T [ κ ] )
    Figure DE102021208877A1_0001
  • Das Transformieren der Eingabe f ist also äquivalent zum Transformieren des Filterkerns κ. Die Bezeichnungen T'[f] einerseits und T[κ] andererseits drücken aus, dass die Multiplikation mit der Matrix T nicht kommutativ ist. Das heißt, die Multiplikation mit T von links führt nicht zum gleichen Ergebnis wie die Multiplikation mit T von rechts.
  • Die Merkmalskarte Φj(f,Tj [κ]), die sich durch Anwendung der Transformation Tj auf einen Filterkern κ ergibt, lässt sich schreiben als: Φ j ( ƒ , T j [ κ ] ) = Φ j ( ƒ , T j [ i w i ψ i ] ) = Φ j ( ƒ , i w i T j [ ψ i ] ) = Φ j ( ƒ , w T j [ ψ ] ) ,
    Figure DE102021208877A1_0002
    da die Zusammensetzung κ = Σi wiψi = w · ψ aus den Basisfunktionen sich unter der Transformation Tj nicht ändert.
  • Die Gewichtung der Merkmalskarten untereinander in der Aggregation kann dann insbesondere beispielsweise mit von der Eingabe f abhängigen Gewichten βj(f) erfolgen. Eine Merkmalskarte Φ(f, T[κ]), die durch Anwenden einer oder mehrerer Transformationen Tj ∈ T entsteht, lässt sich dann schreiben als: Φ ( ƒ , T [ κ ] ) = σ ( β 0 ( ƒ ) Φ ( ƒ , w T 0 [ ψ ] ) β 1 ( ƒ ) Φ ( ƒ , w T 1 [ ψ ] ) β κ ( ƒ ) Φ ( ƒ , w T κ [ ψ ] ) )
    Figure DE102021208877A1_0003
  • Hierin ist σ eine beliebige Aggregationsfunktion, und die Tj sind die Transformationen aus der Menge T. Diese Menge T kann insbesondere beispielsweise auch die Identität als Transformation enthalten. Das Training lässt sich dann beispielsweise so initialisieren, dass zunächst nur das Gewicht βj(f) für die Identität gleich 1 ist und die Gewichte βj(f) für alle anderen Transformationen Tj gleich 0 sind.
  • Als Basisfunktionen ψ für die Filterkerne κ können insbesondere beispielsweise Funktionen gewählt werden, die mindestens über Hermitesche Polynome Hm, Hn von Ortskoordinaten x, y in der Eingabe f abhängen: ψ π ( x , y ) = A 1 π 2 H n ( x π ) H m ( y π ) exp ( x 2 + y 2 2 π 2 )
    Figure DE102021208877A1_0004
    mit einer Normierungskonstanten A und dem Skalierungsfaktor π. Mit derartigen Basisfunktionen können insbesondere solche Filterkerne κ konstruiert werden, die für die Erkennung von Merkmalen in Bildern besonders geeignet sind.
  • In einer besonders vorteilhaften Ausgestaltung wird mindestens eine Merkmalskarte Φ(f,κ) gewählt, die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne κ1, κ2, ... auf die Eingabe f entsteht, beinhaltet. Auf diese Weise können die Anpassungen, die für die verschiedenen Faltungsschichten in einer Stapelung in einem so genannten „Residual Block“ gelernt werden, miteinander koordiniert werden. Eine Merkmalskarte Φ(f, T[κ1, κ2, ... ]), die durch Anwenden einer oder mehrerer Transformationen Tj ∈ T entsteht, lässt sich dann schreiben als: Φ ( ƒ , T [ κ 1 , κ 2 , ] ) = ƒ + σ ( β 0 ( ƒ ) Φ ( ƒ , w 1 T 0 [ ψ 1 ] , w 2 T 0 [ ψ 2 ] , ) β 1 ( ƒ ) Φ ( ƒ , w 1 T 1 [ ψ 1 ] , w 2 T 1 [ ψ 2 ] , ) β κ ( ƒ ) Φ ( ƒ , w 1 T κ [ ψ 1 ] , w 2 T κ [ ψ 2 ] , ) ) .
    Figure DE102021208877A1_0005
  • Hierin sind ψ1, ψ2, ... die Basisfunktionen, aus denen die Filterkerne κ1, κ2, ... gebildet sind.
  • Die Transformationen können insbesondere beispielsweise elastische Transformationen sein. Dies sind Transformationen, die zumindest näherungsweise als Feld von Auslenkungen τ in räumlichen Koordinaten x des Eingabe-Bildes f mit einer Stärke ε beschreibbar sind: T [ ƒ ( x ) ] ( ε ) ( x + ε τ ( x ) ) .
    Figure DE102021208877A1_0006
  • Hiermit lässt sich eine große Klasse von Transformationen annähern, die sich ergeben, wenn etwa eine für eine Bildaufnahme verwendete Kamera ihre Perspektive relativ zur Szenerie ändert.
  • Die elastischen Transformationen können insbesondere beispielsweise lineare Streckungen und/oder Rotationsskalierungen umfassen. Dies sind Transformationen, die beispielsweise durch eine Änderung der Perspektive einer Kamera relativ zu einem Objekt bewirkt werden.
  • Koordinaten x', y' im Eingabe-Bild nach einer linearen Streckung können beispielsweise gemäß x ' = x 2 + y 2 ( sin ( θ ) sin ( δ ) + γ cos ( θ ) cos ( δ ) ) , y ' = x 2 + y 2 ( cos ( θ ) sin ( δ ) + γ sin ( θ ) cos ( δ ) )
    Figure DE102021208877A1_0007
    aus den ursprünglichen Koordinaten x, y hervorgehen. Hierin ist γ = 1/(e-6 + cos(α)), δ = θ - ϕ, ϕ = arctan(y/x), θ ist eine kleine Auslegung, und α ist ein Elastizitätskoeffizient. Hierin soll die sehr kleine positive, willkürlich gewählte Konstante e-6 eine Division durch Null verhindern, wenn cos(α) = 0.
  • Koordinaten x', y' im Eingabe-Bild nach einer Rotationsskalierung können beispielsweise gemäß x ' = x + α ( x  cos ( θ ) + y  sin ( θ ) ) , y ' = y + α ( x  sin ( θ ) + y  cos ( θ ) )
    Figure DE102021208877A1_0008
    aus den ursprünglichen Koordinaten x, y hervorgehen.
  • Bei diesen Transformationen wird jeweils angenommen, dass das Zentrum des Filterkerns κ im Punkt (0, 0) liegt und ein Fixpunkt der Transformation ist.
  • Die Aggregationsfunktion σ für die Aggregation der Merkmalskarten Φj(f,Tj [K]) kann insbesondere beispielsweise für jedes Element der Merkmalskarten
    • • ein elementweises Maximum,
    • • ein geglättetes elementweises Maximum oder
    • • ein elementweiser Mittelwert
    entlang der Dimension j der Transformationen Tj ∈ T bilden.
  • Wenn beispielsweise ein Eingabe-Bild f eine Höhe H, eine Breite W und eine Anzahl C von Farbkanälen hat, kann es als Tensor der Form C × H × W vorliegen. Die K Transformationen T aus der Menge T fügen eine weitere Dimension hinzu. Die Aggregationsfunktion σ kann nun beispielsweise aus einem Raum der Dimension K × C × H × W zurück in den Raum der Dimension C × H × W abbilden und hierbei insbesondere beispielsweise diejenige Transformation Tj auswählen, die am besten zu den verfügbaren Trainingsdaten passt. Dies kann beispielsweise daran gemessen werden, wie groß jeweils die Aktivierungen von Neuronen sind, die für bestimmte Transformationen zuständig sind.
  • Unter einem elementweisen Maximum, bzw. einem elementweisen Mittelwert, wird in diesem Zusammenhang insbesondere beispielsweise verstanden, dass für jeden Eintrag in den Dimensionen C × H × W separat ein Maximum, bzw. ein Mittelwert, entlang der Dimension K der Transformationen gebildet wird. Ein geglättetes Maximum kann beispielsweise mit der Logsumexp-Funktion σ ( x ) = log i exp ( x i )
    Figure DE102021208877A1_0009
    ermittelt werden.
  • In einer weiteren vorteilhaften Ausgestaltung beinhaltet das Aggregieren von Merkmalskarten Φj(f,Tj[κ]), eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen. Beispielsweise können lp-Normen entlang der Dimensionen C, H × W oder C × H × W gebildet werden. Es kann dann entlang der K-Dimension ermittelt werden, für welche Transformationen sich die größten Normen ergeben. Es kann also eine Merkmalskarte und somit auch eine Transformation ausgewählt werden, die am besten zu den vorhandenen Daten passt.
  • Wie zuvor erläutert, wird das neuronale Netzwerk durch das Training, das Invarianzen und Äquivarianzen einbezieht, in die Lage versetzt, seine übliche Aufgabe besser zu erfüllen. Dies schlägt sich beispielsweise bei einem Bildklassifikator in einer höheren Klassifikationsgenauigkeit auf Test-Bildern oder Validierungs-Bildern nieder.
  • Daher werden in einer weiteren vorteilhaften Ausgestaltung dem trainierten neuronalen Netzwerk Eingabe-Bilder zugeführt, die mit mindestens einem Sensor aufgenommen wurden, so dass diese Eingabe-Bilder von dem neuronalen Netzwerk auf Ausgaben abgebildet werden. Aus den Ausgaben wird ein Ansteuersignal ermittelt. Ein Fahrzeug, und/oder ein System für die Qualitätskontrolle von Produkten, und/oder ein System für die Überwachung von Bereichen, wird mit diesem Ansteuersignal angesteuert.
  • Auf Grund der zutreffenden Ausgabe des neuronalen Netzwerks ist dann die Wahrscheinlichkeit, dass die von dem jeweils angesteuerten System ausgeführte Aktion der mit dem Sensor erfassten Situation angemessen ist, vorteilhaft erhöht.
  • Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
  • Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
  • Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
  • Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
  • Ausführungsbeispiele
  • Es zeigt:
    • 1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren eines neuronalen Netzwerks 1;
    • 2 Beispielhafte Wirkung des Trainings mit dem Verfahren 100 auf die Klassifikationsgenauigkeit eines Bildklassifikators.
  • 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Trainieren eines neuronalen Netzwerks 1. Es kann insbesondere beispielsweise in Schritt 105 ein Bildklassifikator als neuronales Netzwerk 1 gewählt werden. Das neuronale Netzwerk 1 ist zur Verarbeitung von Eingabe-Bildern 2 ausgebildet und umfasst mehrere Faltungsschichten. Jede dieser Faltungsschichten ist dazu ausgebildet, die Eingabe f der jeweiligen Faltungsschicht durch Anwenden mindestens eines Filterkerns κ auf mindestens eine Merkmalskarte Φ(f,κ) abzubilden.
  • In Schritt 110 wird eine Menge T von Transformationen T bereitgestellt. Das neuronale Netzwerk 1 kann im Rahmen des hier beschriebenen Trainings lernen, bei Anwendung einer oder mehrerer dieser Transformationen T auf die Eingabe f mindestens einer Faltungsschicht des Netzwerks 1 die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(f,κ) zu erlernen.
  • Gemäß Block 111 können insbesondere beispielsweise elastische Transformationen, die als Feld von Auslenkungen in räumlichen Koordinaten des Eingabe-Bildes beschreibbar sind, als Transformationen T ∈ T gewählt werden. Diese elastischen Transformationen können insbesondere beispielsweise gemäß Block 111a lineare Streckungen und/oder Rotationsskalierungen umfassen.
  • In Schritt 120 wird diese Merkmalskarte Φ(f,κ) durch eine mit Parametern 5a parametrisierte Aggregation 5 von Merkmalskarten Φj(f,Tj[κ]) ausgedrückt 120, die jeweils durch das Anwenden von Transformationen Tj ∈ T auf den mindestens einen Filterkern κ erhalten werden. Das heißt, die Ausgabe der entsprechenden Faltungsschicht ändert sich in Abhängigkeit der Parameter 5a.
  • Gemäß Block 121 kann der Filterkern κ als mit Parametern wi parametrisierte Linearkombination Σi wiψi von Basisfunktionen ψi ausgedrückt werden. Hierbei können insbesondere beispielsweise gemäß Block 121a Basisfunktionen ψi gewählt werden, die mindestens über Hermitesche Polynome von Ortskoordinaten x, y in der Eingabe f abhängen.
  • Gemäß Block 122 können die Merkmalskarten Φj (f,Tj [κ]) in der Aggregation 5 untereinander mit von der Eingabe f abhängigen Gewichten βj(f) gewichtet werden.
  • Gemäß Block 123 kann für das Parametrisieren mit den Parametern 5a mindestens eine Merkmalskarte Φ(f, κ) gewählt werden, die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne κ1, κ2, ... auf die Eingabe f entsteht, beinhaltet. Eine derartige Merkmalskarte ist das Arbeitsergebnis eines „Residual Blocks“.
  • Das Aggregieren der Merkmalskarten Φj(f,Tj [κ]) kann gemäß Block 124 beinhalten, für jedes Element dieser Merkmalskarten
    • • ein elementweises Maximum,
    • • ein geglättetes elementweises Maximum oder
    • • ein elementweiser Mittelwert
    entlang der Dimension j der Transformationen Tj ∈ T zu bilden.
  • Alternativ oder auch in Kombination hierzu kann das Aggregieren der Merkmalskarten Φj(f,Tj [κ]) gemäß Block 125 beinhalten, eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen.
  • In Schritt 130 werden Lern-Bilder 2a sowie Lern-Ausgaben 3a, auf die das trainierte neuronale Netzwerk 1 diese Lern-Bilder 2a idealerweise abbilden soll, bereitgestellt.
  • In Schritt 140 werden die Lern-Bilder 2a von dem neuronalen Netzwerk 1 auf Ausgaben 3 abgebildet.
  • Abweichungen dieser Ausgaben 3 von den Lern-Ausgaben 3a werden in Schritt 150 mit einer vorgegebenen Kostenfunktion 4 bewertet.
  • In Schritt 160 werden Parameter 5a der parametrisierten Aggregation 5 sowie weitere Parameter 1a, die das Verhalten des neuronalen Netzwerks 1 charakterisieren, optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern 2a die Bewertung 4a durch die Kostenfunktion 4 voraussichtlich verbessert. Die fertig trainierten Zustände der Parameter 1a und 5a sind mit den Bezugszeichen 1a* bzw. 5a* bezeichnet. Das fertig trainierte neuronale Netzwerk 1, dessen Verhalten durch die Parameter 1a* und 5a* charakterisiert ist, ist mit dem Bezugszeichen 1* bezeichnet.
  • In Schritt 170 werden dem trainierten neuronalen Netzwerk 1* Eingabe-Bilder 2 zugeführt, die mit mindestens einem Sensor 51 aufgenommen wurden. Diese Eingabe-Bilder 2 werden von dem neuronalen Netzwerk 1 auf Ausgaben 3 abgebildet.
  • In Schritt 180 wird aus den Ausgaben 3 ein Ansteuersignal 180a ermittelt.
  • In Schritt 190 wird ein Fahrzeug 50, und/oder ein System 60 für die Qualitätskontrolle von Produkten, und/oder ein System 70 für die Überwachung von Bereichen, mit diesem Ansteuersignal 180a angesteuert.
  • In 2 ist für ein als Bildklassifikator ausgebildetes neuronales Netzwerk 1 der Architektur WideResnet-18 der Verlust ΔA an Klassifikationsgenauigkeit aufgetragen, der sich einstellt, wenn die Eingabe-Bilder mit einer Stärke P verrauscht werden. Die Kurven a bis e beziehen sich auf Zustände des neuronalen Netzwerks 1 nach verschiedenen Trainings. Der Versuch wurde mit dem öffentlich zugänglichen Datensatz STL-10 zugeführt, der 5000 Lern-Bilder und 8000 Test-Bilder der Größe 96x96 Pixel aus 10 verschiedenen Klassen enthält.
  • Kurve a bezieht sich auf das herkömmliche Training. Die Kurven b bis e beziehen sich auf verschiedene Beispiele des Trainings nach dem hier beschriebenen Verfahren 100. Der durch die verrauschten Eingabe-Bilder verursachte Verlust an Genauigkeit kann durch das verbesserte Training zumindest teilweise wieder ausgeglichen werden. Für einige Konfigurationen zeigt sich auch bei unverrauschten Eingabe-Bildern bereits ein Gewinn (Kurvenverlauf oberhalb der Kurve a).
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102018204494 B3 [0004]

Claims (14)

  1. Verfahren (100) zum Trainieren eines neuronalen Netzwerks (1), das zur Verarbeitung von Eingabe-Bildern (2) ausgebildet ist und mehrere Faltungsschichten umfasst, wobei jede dieser Faltungsschichten dazu ausgebildet ist, die Eingabe f der jeweiligen Faltungsschicht durch Anwenden mindestens eines Filterkerns κ auf mindestens eine Merkmalskarte Φ(f,κ) abzubilden, mit den Schritten: • es wird eine Menge T von Transformationen T bereitgestellt (110), bezüglich derer das neuronale Netzwerk (1) beim Training in die Lage versetzt werden soll, bei Anwendung dieser Transformationen auf die Eingabe f mindestens einer Faltungsschicht die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(f,κ) zu erlernen; • diese Merkmalskarte Φ(f, κ) wird durch eine mit Parametern (5a) parametrisierte Aggregation (5) von Merkmalskarten Φj (f, Tj [κ]) ausgedrückt (120), die jeweils durch das Anwenden von Transformationen Tj ∈ T auf den mindestens einen Filterkern κ erhalten werden; • es werden Lern-Bilder (2a) sowie Lern-Ausgaben (3a), auf die das trainierte neuronale Netzwerk (1) diese Lern-Bilder (2a) idealerweise abbilden soll, bereitgestellt (130); • die Lern-Bilder (2a) werden von dem neuronalen Netzwerk (1) auf Ausgaben (3) abgebildet (140); • Abweichungen dieser Ausgaben (3) von den Lern-Ausgaben (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (150); • Parameter (5a) der parametrisierten Aggregation (5) sowie weitere Parameter (1a), die das Verhalten des neuronalen Netzwerks (1) charakterisieren, werden optimiert (160) mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern (2a) die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert.
  2. Verfahren (100) nach Anspruch 1, wobei der Filterkern κ als mit Parametern wi parametrisierte Linearkombination Σi wiψi von Basisfunktionen ψi ausgedrückt wird (121).
  3. Verfahren (100) nach Anspruch 2, wobei Basisfunktionen ψi gewählt werden (121a), die mindestens über Hermitesche Polynome von Ortskoordinaten x, y in der Eingabe f abhängen.
  4. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die Merkmalskarten Φj(f, Tj [κ]) in der Aggregation (5) untereinander mit von der Eingabe f abhängigen Gewichten βj(f) gewichtet werden (122).
  5. Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei elastische Transformationen, die als Feld von Auslenkungen in räumlichen Koordinaten des Eingabe-Bildes beschreibbar sind, als Transformationen T ∈ T gewählt werden (111) .
  6. Verfahren (100) nach Anspruch 5, wobei lineare Streckungen, und/oder Rotationsskalierungen, als Transformationen T ∈ T gewählt werden (111a).
  7. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei mindestens eine Merkmalskarte Φ(f, κ) gewählt wird (123), die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne κ1, κ2, ... auf die Eingabe f entsteht, beinhaltet.
  8. Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei die Merkmalskarten Φj(f,Tj [κ]) aggregiert werden, indem für jedes Element der Merkmalskarten • ein elementweises Maximum, • ein geglättetes elementweises Maximum oder • ein elementweiser Mittelwert entlang der Dimension j der Transformationen Tj ∈ T gebildet wird (124).
  9. Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei das Aggregieren von Merkmalskarten Φj (f,Tj [κ]) beinhaltet, eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen (125).
  10. Verfahren (100) nach einem der Ansprüche 1 bis 9, wobei ein Bildklassifikator, der Eingabe-Bilder auf Klassifikations-Scores bezüglich einer oder mehreren Klassen einer vorgegebenen Klassifikation abbildet, als neuronales Netzwerk (1) gewählt wird (105).
  11. Verfahren (100) nach einem der Ansprüche 1 bis 10, wobei • dem trainierten neuronalen Netzwerk (1*) Eingabe-Bilder (2) zugeführt werden (170), die mit mindestens einem Sensor (51) aufgenommen wurden, so dass diese Eingabe-Bilder (2) von dem neuronalen Netzwerk (1) auf Ausgaben (3) abgebildet werden; • aus den Ausgaben (3) ein Ansteuersignal (180a) ermittelt wird (180); und • ein Fahrzeug (50), und/oder ein System (60) für die Qualitätskontrolle von Produkten, und/oder ein System (70) für die Überwachung von Bereichen, mit diesem Ansteuersignal (180a) angesteuert wird (190).
  12. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.
  13. Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 12.
  14. Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 12, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 13.
DE102021208877.5A 2021-08-12 2021-08-12 Training von neuronalen Netzwerken auf Äquivarianz oder Invarianz gegen Änderungen des Eingabe-Bildes Withdrawn DE102021208877A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102021208877.5A DE102021208877A1 (de) 2021-08-12 2021-08-12 Training von neuronalen Netzwerken auf Äquivarianz oder Invarianz gegen Änderungen des Eingabe-Bildes
PCT/EP2022/071667 WO2023016859A1 (de) 2021-08-12 2022-08-02 Training von neuronalen netzwerken auf äquivarianz oder invarianz gegenüber änderungen des eingabe-bildes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021208877.5A DE102021208877A1 (de) 2021-08-12 2021-08-12 Training von neuronalen Netzwerken auf Äquivarianz oder Invarianz gegen Änderungen des Eingabe-Bildes

Publications (1)

Publication Number Publication Date
DE102021208877A1 true DE102021208877A1 (de) 2023-02-16

Family

ID=83115415

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021208877.5A Withdrawn DE102021208877A1 (de) 2021-08-12 2021-08-12 Training von neuronalen Netzwerken auf Äquivarianz oder Invarianz gegen Änderungen des Eingabe-Bildes

Country Status (2)

Country Link
DE (1) DE102021208877A1 (de)
WO (1) WO2023016859A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102024205923A1 (de) 2024-06-25 2026-01-08 Robert Bosch Gesellschaft mit beschränkter Haftung Bildverarbeitung mittels neuronaler Netzwerke über einen Arbeitsraum mit geometrischem Realitätsbezug

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204494B3 (de) 2018-03-23 2019-08-14 Robert Bosch Gmbh Erzeugung synthetischer Radarsignale
DE102019214402A1 (de) 2019-09-20 2021-03-25 Robert Bosch Gmbh Verfahren und vorrichtung zum verarbeiten von daten mittels eines neuronalen konvolutionsnetzwerks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204494B3 (de) 2018-03-23 2019-08-14 Robert Bosch Gmbh Erzeugung synthetischer Radarsignale
DE102019214402A1 (de) 2019-09-20 2021-03-25 Robert Bosch Gmbh Verfahren und vorrichtung zum verarbeiten von daten mittels eines neuronalen konvolutionsnetzwerks

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FOLLMANN, P.;BOTTGER, T.:A Rotationally-Invariant Convolution Module by Feature Map Back-Rotation. IEEE Winter Conference on Applications of Computer Vision (WACV), 2018, pp. 784-792
MARCOS, D.; VOLPI, M.; KOMODAKIS, N.; TUIA, D.: Rotation equivariant vector field networks. In: Proceedings of the IEEE International Conference on Computer Vision. 2017. S. 5048-5057.
MUMUNI, A.; MUMUNI, F.: CNN architectures for geometric transformation-invariant feature representation in computer vision: a review. SN Computer Science, 2021, 2. Jg., Nr. 5, S. 1-23.
SOSNOVIK, Ivan; SZMAJA, Michał; SMEULDERS, Arnold. Scale-equivariant steerable networks. arXiv preprint arXiv:1910.11093, 2019.
WERNER, Martin.: Digitale Bildverarbeitung. Grundkurs mit neuronalen Netzen und MATLAB-Praktikum. Korrigierte Publikation. Wiesbaden: Springer Vieweg, 2021. S. 409-465. - ISBN 978-3-658-22184-3

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102024205923A1 (de) 2024-06-25 2026-01-08 Robert Bosch Gesellschaft mit beschränkter Haftung Bildverarbeitung mittels neuronaler Netzwerke über einen Arbeitsraum mit geometrischem Realitätsbezug

Also Published As

Publication number Publication date
WO2023016859A1 (de) 2023-02-16

Similar Documents

Publication Publication Date Title
EP3948688A1 (de) Training für künstliche neuronale netzwerke mit besserer ausnutzung der lern-datensätze
DE112020000448T5 (de) Kameraselbstkalibrierungsnetz
DE102019214402A1 (de) Verfahren und vorrichtung zum verarbeiten von daten mittels eines neuronalen konvolutionsnetzwerks
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE102017218889A1 (de) Unscharf parametriertes KI-Modul sowie Verfahren zum Betreiben
DE102018208763A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Betreiben eines maschinellen Lernsystems
DE102017218851A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes
DE102018220941A1 (de) Auswertung von Messgrößen mit KI-Modulen unter Berücksichtigung von Messunsicherheiten
DE102018222294A1 (de) Verfahren, Computerprogramm, maschinenlesbares Speichermedium sowie Vorrichtung zur Datenvorhersage
DE102021208877A1 (de) Training von neuronalen Netzwerken auf Äquivarianz oder Invarianz gegen Änderungen des Eingabe-Bildes
DE102020214850A1 (de) Energie- und speichereffizientes Training neuronaler Netzwerke
DE102021124252A1 (de) Neuronale Netzwerksysteme für abstraktes Denken
DE102019114049A1 (de) Verfahren zur Validierung eines Fahrerassistenzsystems mithilfe von weiteren generierten Testeingangsdatensätzen
DE102023203125A1 (de) Simulationsbasierte Parametervoreinstellung für dynamische Fahrfunktionen
DE102019208265A1 (de) Adaptive Bereinigung von Messdaten um unterschiedliche Arten von Störungen
DE102021206183A1 (de) Verfahren zum Vereinfachen eines künstlichen neuronalen Netzwerks
DE102021201019A1 (de) Semantische Segmentierung von Bildern ohne kleinteilig gelabelte Trainingsbilder
DE102021207836A1 (de) Klassifizieren von Bildern mit eingebauter Invarianz gegenüber Transformationen
EP4002217A1 (de) Verfahren zur reduktion von trainingsdaten
DE102020208765A1 (de) Bildklassifikator mit variablen rezeptiven Feldern in Faltungsschichten
EP4191469A1 (de) Verfahren zum bestimmen ähnlicher szenarien,trainingsverfahren und trainingssteuergerät
DE102020006071A1 (de) Verfahren zur verbesserten Ermittlung von Material- bzw. Werkstoffmodellen
DE102019210167A1 (de) Robusteres Training für künstliche neuronale Netzwerke
EP3781996A1 (de) Verfahren, computersystem und computerprogramm zum steuern eines aktors
DE102022202999A1 (de) Erzeugung von Testdatensätzen für die Prüfung, inwieweit ein trainierter Klassifikator zur Generalisierung fähig ist

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009660000

Ipc: G06V0030194000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06V0030194000

Ipc: G06V0010820000

R163 Identified publications notified
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee