DE102017216837A1

DE102017216837A1 - Gestik- und Mimiksteuerung für ein Fahrzeug

Info

Publication number: DE102017216837A1
Application number: DE102017216837.4A
Authority: DE
Inventors: Anil Thurimella
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2019-03-28
Also published as: US20190092169A1; CN109552340B; US10710457B2; CN109552340A

Abstract

Die vorliegende Erfindung betrifft ein Fahrzeug mit einer Mehrzahl von Geräten und einer Mensch-Maschine-Schnittstelle (Human Machine Interface, HMI) zum mimischen und/oder gestischen Betätigen einer Funktion eines Geräts des Fahrzeugs, welche eine Kamera zum Erfassen eines bestimmten Insassen des Fahrzeugs und eine mit der Kamera verbundene Steuerungseinheit umfasst.

Description

Die vorliegende Erfindung betrifft ein Fahrzeug mit einer Mehrzahl von Geräten und einer Mensch-Maschine-Schnittstelle (Human Machine Interface, HMI) zum mimischen und/oder gestischen Betätigen einer Funktion eines Geräts des Fahrzeugs, welche eine Kamera zum Erfassen eines bestimmten Insassen des Fahrzeugs und eine mit der Kamera verbundene Steuerungseinheit umfasst. Ferner betrifft die vorliegende Erfindung ein Verfahren zum Betätigen einer Funktion eines Geräts eines Fahrzeugs mittels einer Mimik und einer Gestik eines bestimmten Insassen des Fahrzeugs.
Moderne Fahrzeuge weisen gewöhnlich eine Vielzahl unterschiedlicher Funktionen auf, die teilweise weit über ein bloßes Steuern des Fahrzeugs hinausgehen. Entsprechend werden Fahrzeuge mit dem Ziel entwickelt, insbesondere dem Fahrer eines Fahrzeugs ein möglichst einfaches Betätigen und Überwachen aller vorgesehenen Fahrzeugfunktionen zu ermöglichen. Dazu werden dem Fahrer die einzelnen Funktionen des Fahrzeugs im Allgemeinen über eine oder mehrere Mensch-Maschinen-Schnittstellen zugänglich gemacht.
Jede Mensch-Maschinen-Schnittstelle erlaubt also ein zumeist bidirektionales Interagieren des Fahrers oder weiterer Insassen des Fahrzeugs mit dem Fahrzeug und kann in ihrer einfachsten Form beispielsweise einen Hebel, einen Drehknopf, einen Kippschalter, einen Tastschalter oder ein Pedal sowie eine analoge oder digitale Anzeige, eine Kontroll- oder eine Warnleuchte umfassen.
Zunehmend werden Fahrzeuge mit sogenannten Fahrerassistenzsystemen ausgestattet, welche den Fahrer beim Steuern eines Fahrzeugs unterstützen und/oder entlasten und dadurch ein Unfallrisiko für das Fahrzeug verringern oder die Sicherheit der Fahrzeuginsassen erhöhen. Beispielsweise sind Einparkhilfen zum Unterstützen des Fahrers beim Parken des Fahrzeugs erhältlich, die von einfachen Abstandssensoren mit Warnfunktion über Rückraumkameras mit bequem beobachtbaren Bildschirmen bis hin zu vollautomatischen Einparkassistenten reichen, welche ein Fahrzeug ohne Eingreifen des Fahrers selbständig rückwärts einparken.
Ein weiteres Beispiel für fortgeschrittene Fahrerassistenzsysteme stellen sogenannte Bremsassistenten dar, welche den Raum vor einem fahrenden Fahrzeug überwachen und das Fahrzeug automatisch abbremsen, wenn sich der Abstand des Fahrzeugs zu einem vorausfahrenden Fahrzeug, anderen Verkehrsteilnehmern, wie Fahrradfahrern oder Fußgängern, oder einem sonstigen Hindernis unter einen bestimmten von der Geschwindigkeit des Fahrzeugs abhängigen Wert verringert.
Viele Verkehrsunfälle von Fahrzeugen gehen auf eine Unaufmerksamkeit der jeweiligen Fahrer zurück. Zu einer Unaufmerksamkeit eines Fahrers kann es infolge einer Ablenkung, einer mangelnden Konzentration, einer Müdigkeit oder eines Sekundenschlafs kommen. Ein Fahrerassistenzsystem zum Erkennen einer Unaufmerksamkeit des Fahrers erfordert entsprechend eine hochspezialisierte Mensch-Maschine-Schnittstelle.
So offenbart die DE 10 2015 011 522 A1 eine Fahrerassistenzvorrichtung für ein Fahrzeug, welche eine Bilderfassungsvorrichtung mit einer in das Lenkrad des Fahrzeugs integrierten Kamera umfasst. Die Kamera ist im Wesentlichen auf den Kopf des Fahrers ausgerichtet, um für die Unaufmerksamkeit bzw. Müdigkeit des Fahrers relevante Parameter, wie einen Augenlidschlag, einen Augenlidschluss, einen Blickwinkel, eine Kopfneigung und/oder Kopfbewegungen des Fahrers, zu erfassen. Bei Erkennen einer Unaufmerksamkeit bzw. einer Müdigkeit des Fahrers kann eine entsprechende Warnung ausgelöst werden.
Aus der US 2011/0235919 A1 ist eine ähnliche Vorrichtung bekannt, welche zum Erkennen geöffneter/geschlossener Augen eine Kamera und eine Steuerungseinheit umfasst und in einem Fahrzeug verwendet werden kann, um einen Sekundenschlaf des Fahrers festzustellen. Die Vorrichtung analysiert neben dem Öffnungsgrad der Augen auch den gesamten Gesichtsausdruck des Fahrers, um bei Gesichtsausdrücken des Fahrers, welche geschlossene oder nahezu geschlossene Augen im Wachzustand aufweisen, eine fehlerhafte Feststellung eines Sekundenschlafs zu vermeiden.
Es sind demgegenüber auch Fahrerassistenzsysteme bekannt, welche in erster Linie darauf abzielen, ein Betätigen der Funktionen eines Fahrzeugs an sich sowohl einheitlicher und intuitiver zu gestalten als auch neben dem Fahrer mindestens teilweise weiteren Fahrzeuginsassen zu gestatten. Beispielsweise könnte den weiteren Fahrzeuginsassen durch ein entsprechendes Assistenzsystem ein bequemes Bedienen eines Unterhaltungssystems, wie eines in dem Fahrzeug verbauten Radios oder einer Musikanlage, ermöglicht werden. Derartige Fahrerassistenzsysteme erfordern naturgemäß entsprechend komplex ausgebildete Mensch-Maschine-Schnittstellen.
Die DE 10 2014 218 457 A1 offenbart eine transportable Speichereinheit mit einem Prozessor zum Verbinden mit einer Datenschnittstelle eines Sensors eines Fahrerassistenzsystems eines Fahrzeugs. Die Speichereinheit ist mit verschiedenen Sensoren des Fahrerassistenzsystems verbindbar und umfasst zur Interaktion mit Fahrzeuginsassen eine Mensch-Maschine-Schnittstelle, welche eine Kamera zum optischen Überwachen eines Fahrzeugraums, eine Lichtquelle zum Beleuchten des Fahrzeugraums oder zum Abgeben von Lichtsignalen, ein Mikrofon zum akustischen Überwachen des Fahrzeugraums, einen Lautsprecher zum Abgeben akustischer Signale und/oder einen Radarsensor zum Erfassen von Fahrzeuginsassen in dem Fahrzeugraum bei Dunkelheit aufweist. Mit der Kamera kann die Gestik oder Mimik eines bestimmten Fahrzeuginsassen erfasst werden, um eine zu betätigende Funktion des Fahrzeugs zu ermitteln. Dazu muss die Gestik- oder Mimikerfassung von dem bestimmten Fahrzeuginsassen per Sprachbefehl aktiviert werden. Wenn die transportable Speichereinheit in einen Schlüssel eines Fahrzeugs integriert ist, kann zudem vorgesehen sein, ein Starten des Fahrzeugs erst nach einer erfolgreichen Authentifikation des Fahrers mittels Spracherkennung und/oder Gesichtserkennung zu erlauben.
Allerdings ist es bislang nicht möglich, dass verschiedene Fahrzeuginsassen, d. h. der Fahrer und mindestens der Beifahrer oder ein weiterer Mitfahrer, gleichzeitig oder zeitlich überlappend über eine gemeinsame Mensch-Maschine-Schnittstelle mit einem Fahrzeug interagieren.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Fahrzeug mit einer verbesserten Mensch-Maschine-Schnittstelle zur Verfügung zu stellen, welche die beschriebenen Nachteile vermeidet und ein gleichzeitiges oder zeitlich überlappendes Interagieren verschiedener Fahrzeuginsassen mit dem Fahrzeug ermöglicht. Darüber hinaus ist es eine Aufgabe der Erfindung, ein Verfahren zum gleichzeitigen oder zeitlich überlappenden Betätigen von Funktionen eines Fahrzeugs durch verschiedene Fahrzeuginsassen anzugeben.
Ein Gegenstand der Erfindung ist ein Fahrzeug mit einer Mehrzahl von funktionalen Geräten und einer Mensch-Maschine-Schnittstelle (Human Machine Interface, HMI) zum mimischen und gestischen Betätigen einer Funktion eines Geräts des Fahrzeugs. Die Mensch-Maschine-Schnittstelle umfasst eine Kamera zum Erfassen eines bestimmten Insassen des Fahrzeugs und eine mit der Kamera verbundene Steuerungseinheit.
Bei einer Ausführungsform ist die Steuerungseinheit konfiguriert, aus von der Kamera erfassten Bildsequenzen des Insassen einen Gesichtsausdruck und eine Handbewegung des Insassen zu extrahieren und den extrahierten Gesichtsausdruck und die extrahierte Handbewegung des bestimmten Insassen miteinander zu kombinieren, um eine zu betätigende Funktion des Fahrzeugs zu ermitteln. Wenn das Fahrzeug bereits eine Kamera zum Erfassen eines Fahrzeugraums und eine Steuerungseinheit aufweist, ist zum Schaffen eines erfindungsgemäßen Fahrzeugs lediglich eine Installation spezieller Software-Module in der Steuerungseinheit des Fahrzeugs erforderlich. Die Software-Module können ein Bildverarbeitungsmodul, ein Betätigungsmodul und ein Lernmodul (Machine Learning Engine) umfassen, die über jeweils korrespondierende Schnittstellen miteinander interagieren. Zudem können in der Steuerungseinheit Datenspeicher vorgesehen sein, auf die das Lernmodul lesend und/oder schreibend zugreifen kann.
Eine Kombination von Mimik und Gestik erweitert gegenüber Mimik oder Gestik jeweils für sich genommen die Ausdrucksmöglichkeiten des Insassen und erlaubt einen höheren Differenzierungsgrad sowie eine geringere Fehlerrate beim Interagieren mit Geräten des Fahrzeugs. Insbesondere kann sich die erfindungsgemäße Mensch-Maschine-Schnittstelle auch für Gehörlose eignen. Die differenzierten Ausdrucksmöglichkeiten von deren Gebärdensprache beruhen auf einer Kombination von mimischen und gestischen Äußerungen.
Zudem lassen sich mehrere Insassen eines Fahrzeugs anhand einer Kombination von Mimik und Gestik gut unterscheiden, um eine ungestörte Interaktion eines bestimmten Insassen, wie beispielsweise des Fahrers mit dem Fahrzeug, auch dann sicherzustellen, wenn gleichzeitig oder zeitlich überlappend weitere Fahrzeuginsassen gestisch mit dem Fahrzeug interagieren.
In einer Ausführungsform ist die Mensch-Maschine-Schnittstelle konfiguriert, den Insassen anhand des Gesichtsausdrucks des Insassen und eine zu betätigende Funktion eines Geräts anhand des Gesichtsausdrucks und/oder der Handbewegung des Insassen zu erkennen. Gesichtsausdrücke eignen sich besonders gut zur Authentifikation eines bestimmten Insassen, d. h. zu dessen Identifikation, während Handbewegungen ein intuitives funktionelles Interagieren mit dem Fahrzeug erlauben. Die funktionelle Interaktion mit dem Fahrzeug kann dadurch weiter differenziert und verbessert werden, dass Gesichtsausdrücke und Handbewegungen miteinander kombiniert werden.
In einer Ausführungsform umfasst die Mensch-Maschine-Schnittstelle einen Datenspeicher zum Speichern eines Interaktionsprofils des bestimmten Insassen, welches eine Mehrzahl von Zuordnungen jeweils einer Kombination eines erkannten Gesichtsausdrucks und einer erkannten Handbewegung des Insassen zu einer Funktion eines Geräts umfasst. Mittels eines Datenspeichers lässt sich eine Lernfunktion der Mensch-Maschine-Schnittstelle realisieren. Während der Interaktion des bestimmten Insassen mit dem Fahrzeug speichert die Mensch-Maschinen-Schnittstelle typische Gesichtsausdrücke und Handbewegungen des bestimmten Insassen in dem Datenspeicher ab. Aufgrund der gespeicherten Mimik- und Gestikdaten lässt sich das Risiko für Fehlsteuerungen durch den bestimmten Insassen deutlich verringern. Kombinierte Mimik- und Gestikdaten jedes Fahrzeuginsassen können zusammen mit zu betätigenden Funktionen von Geräten in einem individuellen Interaktionsprofil zusammengefasst werden. Dabei kann dem bestimmten Insassen der Gesichtsausdruck und/oder die Handbewegung freigestellt sein, mit denen er eine bestimmte Funktion eines bestimmten Geräts des Fahrzeugs betätigen möchte.
In einer bevorzugten Ausführungsform weist das Fahrzeug eine mit der Steuerungseinheit verbundene Kommunikationseinheit auf, welche zum drahtlosen Kommunizieren mit einem außerhalb des Fahrzeugs angeordneten Server (Automotive Backend) ausgebildet ist, um ein in einem Datenspeicher des Servers gespeichertes Interaktionsprofil eines Insassen des Fahrzeugs, insbesondere mit dessen Zustimmung, in die Steuerungseinheit zu laden oder ein Interaktionsprofil eines Insassen des Fahrzeugs, insbesondere mit dessen Zustimmung, in dem Datenspeicher des Servers zu speichern. Mit anderen Worten muss ein Fahrzeuginsasse, der verschiedene Fahrzeuge nutzt, nicht jede Mensch-Maschine-Schnittstelle erneut darauf trainieren, individuelle Eigenheiten seiner mimischen oder gestischen Äußerungen zu erlernen. Infolgedessen kann ein Fahrzeuginsasse auf sein durch Training der Mensch-Maschine-Schnittstelle erzeugtes Interaktionsprofil beispielsweise ohne Weiteres aus sämtlichen Fahrzeugen einer Fahrzeugflotte zugreifen. Dies kann in größeren Unternehmen, aber auch im Rahmen des Car Sharings von Nutzen sein. Ein Server im Sinne dieser Erfindung ist auch ein Computerzentrum, ein verteiltes Computerzentrum, eine Cloud oder ein Computercluster.
Bei einer Ausführungsform der Mensch-Maschine-Schnittstelle ist der bestimmte Insasse der Fahrer des Fahrzeugs und/oder ein Mitfahrer in dem Fahrzeug. Das Steuern herkömmlicher Fahrzeuge erfordert eine umfangreiche Interaktion des Fahrers mit dem Fahrzeug. In solchen Fahrzeugen profitiert daher der Fahrer am meisten von der erfindungsgemäßen Mensch-Maschine-Schnittstelle. Dennoch ermöglicht die Mensch-Maschine-Schnittstelle beispielsweise dem Beifahrer oder einem weiteren Mitfahrer des Fahrzeugs ein Betätigen von Unterhaltungsgeräten des Fahrzeugs, während der Fahrer gleichzeitig sicherheitsrelevante Geräte des Fahrzeugs betätigt. Fahrzeuge mit hochautomatischer oder vollautomatischer Selbstfahrfunktion verringern das Interaktionserfordernis für den Fahrer, so dass in solchen Fahrzeugen die Interaktion weiterer Insassen des Fahrzeugs relativ zu der Fahrerinteraktion eine größere Bedeutung erhält.
Ein weiterer Gegenstand der Erfindung ist ein Verfahren zum mimischen und gestischen Betätigen einer Funktion eines Geräts eines Fahrzeugs durch einen bestimmten Insassen des Fahrzeugs, insbesondere mittels einer erfindungsgemäßen Mensch-Maschine-Schnittstelle.
Bei dem erfindungsgemäßen Verfahren werden Bildsequenzen des bestimmten Insassen mittels einer Kamera kontinuierlich in Echtzeit aufgenommen. Dazu wird von der Kamera ein Innenraum des Fahrzeugs erfasst, in dem sich ein Fahrer und ggf. weitere Insassen des Fahrzeugs aufhalten. Die aufgenommenen Bildsequenzen werden analysiert und Gesichtsausdrücke und Handbewegungen des bestimmten Insassen aus den Echtzeitbildern mittels in dem Fahrzeug installierter Software-Module jeweils separat extrahiert. Dabei werden die in den Echtzeitbildern erfassten Gesichtsausdrücke und Handbewegungen aufgrund der relativen räumlichen Anordnung in den Echtzeitbildern dem Insassen des Fahrzeugs zugeordnet.
Erfindungsgemäß werden die extrahierten Gesichtsausdrücke und Handbewegungen des Insassen miteinander kombiniert, um die zu betätigende Funktion des Fahrzeugs zu ermitteln. Das Kombinieren mimischer und gestischer Äußerungen kann das Risiko einer Fehlbetätigung verringern. Abgesehen davon lassen sich in einer Kombination mimische und gestische Äußerungen unterschiedlicher Insassen des Fahrzeugs gut auseinanderhalten.
Dann wird die ermittelte Funktion des Fahrzeugs betätigt. Mit anderen Worten interpretiert die Mensch-Maschine-Schnittstelle eine Kombination eines erkannten Gesichtsausdrucks und einer erkannten Handbewegung eines bestimmten Insassen des Fahrzeugs als Befehl an das Fahrzeug und betätigt automatisch eine entsprechende Funktionen eines Geräts des Fahrzeugs.
Bei einer Ausführungsform des Verfahrens wird der Insasse an dem Gesichtsausdruck und die zu betätigende Funktion des Fahrzeugs anhand der Handbewegung des Insassen erkannt. Gesichtsausdrücke eignen sich besonders gut zur Authentifikation eines bestimmten Insassen, d. h. zu dessen Identifikation, während Handbewegungen dem bestimmten Insassen ein intuitives funktionelles Interagieren mit dem Fahrzeug erlauben und eher die zu betätigende Fahrzeugfunktion adressieren. Aber auch abweichende Gewichtungen von Gesichtsausdrücken und Handbewegungen verlassen nicht den Schutzbereich der vorliegenden Erfindung.
Bei einer bevorzugten Ausführungsform des Verfahrens erfolgt das separate Extrahieren der Gesichtsausdrücke und Handbewegungen aufgrund von zu einem Gesicht und einer Hand korrespondierenden sichtbaren und räumlich getrennten Hautbereichen des Insassen. Sichtbare Hautbereiche lassen sich anhand ihrer Farbe meist gut von bekleideten Körperbereichen unterscheiden. Im Allgemeinen stellen Gesicht und Hände die einzigen sichtbaren Hautbereiche eines Fahrzeuginsassen dar, während andere Körperbereiche von Kleidung bedeckt sind. Entsprechend können Farbkontraste zwischen Haut und Kleidung zum Erkennen und Extrahieren eines Gesichtsausdrucks und einer Hand herangezogen werden.
Bei einer weiteren Ausführungsform des Verfahrens werden die Gesichtsausdrücke mittels eines Mimikerkennungsalgorithmus und/oder die Handbewegungen mittels eines Gestikerkennungsalgorithmus ermittelt. Derartige Algorithmen zum Erkennen einer Mimik und/oder einer Gestik können von einem Software-Modul umfasst sein und Gesichtsproportionen bzw. -ausdrücke und/oder Handstellungen bzw. -bewegungen aus den Echtzeitbildern ermitteln und einander zuordnen.
Bei einer Ausführungsform des Verfahrens werden die Gesichtsausdrücke und Handbewegungen des Insassen mittels eines Algorithmus zum maschinellen Lernen verarbeitet, um den bestimmten Insassen anhand von Gesichtsausdrücken und/oder Handbewegungen besser zu erkennen. Ein derartiger Algorithmus kann von einem Software-Modul umfasst sein. Mittels maschinellen Lernens können die mimischen und gestischen Äußerungen eines Insassen trotz einer unvermeidlichen natürlichen Variabilität zuverlässig ermittelt und ein Insasse des Fahrzeugs anhand der erkannten mimischen und gestischen Äußerungen sicher bestimmt werden.
Bei einer Ausführungsform des Verfahrens wird eine Mehrzahl von Zuordnungen jeweils einer Kombination eines erkannten Gesichtsausdrucks und einer erkannten Handbewegung des Insassen zu einer Funktion eines Geräts des Fahrzeugs in einem Interaktionsprofil zusammengefasst. Ein derartiges Interaktionsprofil wird dem bestimmten Insassen zugeordnet und umfasst typische Gesichtsausdrücke und Handbewegungen des bestimmten Insassen sowie damit zu betätigende Gerätefunktionen.
Bei einer weiteren Ausführungsform des Verfahrens wird das Interaktionsprofil nach Zustimmung des bestimmten Insassen mittels einer in dem Fahrzeug vorgesehenen Kommunikationseinheit in einem außerhalb des Fahrzeugs angeordneten Datenspeicher gespeichert und/oder aus einem außerhalb des Fahrzeugs angeordneten Datenspeicher geladen. Wenn das Interaktionsprofil außerhalb des Fahrzeugs gespeichert wird, kann es von dem bestimmten Insassen in unterschiedlichen Fahrzeugen verwendet werden. Ein mehrfaches Trainieren der Mensch-Maschine-Schnittstelle jeweils in unterschiedlichen Fahrzeugen kann infolgedessen entfallen. In dem Interaktionsprofil können ggf. auch andere Daten des bestimmten Insassen zur Verwendung in unterschiedlichen Fahrzeugen gespeichert werden. Mit anderen Worten wird durch diese Ausführungsform ein insassenzentriertes Verfahren zum Betätigen von Fahrzeugfunktionen geschaffen, welches beispielsweise für Flotten von Fahrzeugen, die von mehreren Mitarbeitern eines Unternehmens gemeinschaftlich genutzt werden, gegenüber fahrzeugzentrierten Verfahren von Vorteil ist.
Die Erfindung ist anhand jeweils einer Ausführungsform des Fahrzeugs und des Verfahrens in den Zeichnungen schematisch dargestellt und wird unter Bezugnahme auf die Zeichnungen weiter beschrieben. Es zeigt:

1 in einer schematischen Darstellung eine Ausführungsform eines erfindungsgemäßen Fahrzeugs,
2 in einem Blockschaltbild eine Ausführungsform einer Steuerungseinheit eines erfindungsgemäßen Fahrzeugs und
3 in einem Flussdiagramm eine Ausführungsform des erfindungsgemäßen Verfahrens.

Die 1 zeigt in einer schematischen Darstellung eine Ausführungsform eines erfindungsgemäßen Fahrzeugs 10. Das Fahrzeug 10 umfasst eine Mehrzahl von Geräten 11, 12, 13, von denen zugunsten der Übersichtlichkeit lediglich drei dargestellt sind. Bei den Geräten 11, 12, 13 kann es sich um eine Fahrzeugbeleuchtung, eine Scheibenwischanlage, eine Klimaanlage, ein Navigationsgerät, ein Unterhaltungsgerät oder dergleichen handeln.
Ferner weist das Fahrzeug 10 eine Mensch-Maschine-Schnittstelle 30 (Human Machine Interface, HMI) auf. Die Mensch-Maschine-Schnittstelle 30 umfasst zwei Kameras 31, 32, welche in den Fahrzeugraum gerichtet sind, um bestimmte Insassen 20, 21 des Fahrzeugs 10 zu erfassen. Bei den dargestellten bestimmten Insassen 20, 21 handelt es sich um den Fahrer 20 des Fahrzeugs 10 und einen Mitfahrer 21, beispielsweise den Beifahrer in dem Fahrzeug 10. Die Mensch-Maschine-Schnittstelle 30 kann aber auch derart ausgebildet sein, dass sie nur den Fahrer 20, nur einen bestimmten Mitfahrer 21 oder auch zusätzlich weitere nicht dargestellte Mitfahrer erfasst. Ferner umfasst die Mensch-Maschine-Schnittstelle 30 eine Anzeigeeinheit 33, auf der den bestimmten Insassen 20, 21 beispielsweise Betriebszustände der Geräte 11, 12, 13 angezeigt werden.
Die Mensch-Maschine-Schnittstelle 30 umfasst weiterhin eine Steuerungseinheit 40. Die Steuerungseinheit 40 ist mit den Kameras 31, 32 und der Anzeigeeinheit 33 verbunden und konfiguriert, um den bestimmten Insassen 20, 21 ein auch gleichzeitiges mimisches und/oder gestisches Betätigen von Funktionen der Geräte 11, 12, 13 zu ermöglichen.
Das Fahrzeug 10 weist zudem eine mit der Steuerungseinheit 40 verbundene Kommunikationseinheit 14 auf. Die Kommunikationseinheit 14 ist zum drahtlosen Kommunizieren mit einem Server 50 (Automotive Backend) ausgebildet, um auf einem Datenspeicher 51 des Servers 50 Daten zu speichern oder von einem Datenspeicher 51 des Servers 50 Daten zu laden. Der Server 50 ist außerhalb des Fahrzeugs 10 angeordnet und kann beispielsweise zentral bei dem Hersteller des Fahrzeugs 10 oder in einer Zentrale eines Unternehmens mit einer Flotte von Fahrzeugen 10 angeordnet sein.
Die 2 zeigt in einem Blockschaltbild eine Ausführungsform einer Steuerungseinheit 40 eines erfindungsgemäßen Fahrzeugs 10. In der Steuerungseinheit 40 ist ein Bildverarbeitungsmodul 41 installiert. Das Bildverarbeitungsmodul 41 umfasst einen Mimikerkennungsalgorithmus und einen Gestikerkennungsalgorithmus und ist konfiguriert, aus von den Kameras 31, 32 erfassten Bildsequenzen basierend auf zu einem Gesicht und einer Hand korrespondierenden sichtbaren und räumlich getrennten Hautbereichen eines bestimmten Insassen 20, 21 einen Gesichtsausdruck und eine Handbewegung des Insassen 20, 21 zu extrahieren.
In der Steuerungseinheit 40 ist zudem ein Betätigungsmodul 42 installiert. Das Betätigungsmodul 42 ist konfiguriert, aus einer Kombination eines extrahierten Gesichtsausdrucks und einer extrahierten Handbewegung eine zu betätigende Funktion eines Geräts 11, 12, 13 zu ermitteln, die Funktion des Geräts 11, 12, 13 zu betätigen und den Betriebszustand des betätigten Geräts 11, 12, 13 auf der Anzeigeeinheit 33 anzuzeigen.
Ferner ist in der Steuerungseinheit 40 ein Lernmodul 43 (Machine Learning Engine) installiert. Das Lernmodul 43 umfasst einen Algorithmus zum maschinellen Lernen und ist konfiguriert, extrahierte Gesichtsausdrücke und extrahierte Handbewegungen zu erkennen, zu erlernen und einem bestimmten Insassen 20, 21 zuzuordnen. Die Kombination eines erkannten Gesichtsausdrucks mit einer erkannten Handbewegung eines bestimmten Insassen 20, 21 dient einem differenzierten und zuverlässigen Ermitteln einer von dem Insassen 20, 21 gewünschten zu betätigenden Funktion eines Geräts 11, 12, 13 des Fahrzeugs 10. Dabei erkennt das Lernmodul 43 einen bestimmten Insassen 20, 21 anhand des Gesichtsausdrucks, während sie eine zu betätigende Funktion eines Geräts 11, 12, 13 des Fahrzeugs 10 an dem Gesichtsausdruck und der Handbewegung des Insassen 20, 21 erkennt.
Ferner umfasst die Steuerungseinheit 40 einen ersten Datenspeicher 44, der zum Speichern und/oder Lesen eines Interaktionsprofils eines bestimmten Insassen 20, 21 konfiguriert ist. Ein Interaktionsprofil eines Insassen 20, 21 umfasst eine Mehrzahl von Zuordnungen jeweils einer Kombination eines erkannten Gesichtsausdrucks und einer erkannten Handbewegung des Insassen 20, 21 zu einer Funktion eines Geräts 11, 12, 13 des Fahrzeugs 10. Das Lernmodul 43 kann auf den ersten Datenspeicher 44 zugreifen, um darin gespeicherte Interaktionsprofile von Insassen 20, 21 des Fahrzeugs 10 anzulegen und aktuell zu halten. Alternativ oder zusätzlich können in dem ersten Datenspeicher 44 von dem Datenspeicher 51 des Servers 50 geladene Interaktionsprofile lokal gespeichert und aktualisiert werden.
Die Steuerungseinheit 40 umfasst weiterhin einen zweiten Datenspeicher 45, der konfiguriert ist, dem Lernmodul 43 Referenzdaten zu Gesichtsausdrücken und Handbewegungen bereitzustellen. Die Referenzdaten stammen von einer großen Vielzahl von Personen und bilden eine Datenbasis zu Vergleichszwecken. Aufgrund der Referenzdaten des zweiten Datenspeichers 45 ist das Erkennen von extrahierten Gesichtsausdrücken und Handbewegungen für das Lernmodul 43 erleichtert.
Die 3 zeigt in einem Flussdiagramm eine Ausführungsform eines erfindungsgemäßen Verfahrens 100. Während des Betriebs der Mensch-Maschine-Schnittstelle 30 werden Bildsequenzen der bestimmten Insassen 20, 21 mittels der Kameras 31, 32 kontinuierlich in Echtzeit aufgenommen. Die aufgenommenen Bildsequenzen werden von dem Bildverarbeitungsmodul 41 fortlaufend analysiert. Infolge der Analyse werden Gesichtsausdrücke und Handbewegungen des bestimmten Insassen 20, 21 aus den Echtzeitbildern jeweils separat extrahiert 110.
Das separate Extrahieren 110 eines Gesichtsausdrucks und einer Handbewegung erfolgt auf der Basis von zu einem Gesicht und einer Hand korrespondierenden sichtbaren und räumlich getrennten Hautbereichen des jeweiligen Insassen 20, 21. Dabei werden der Gesichtsausdruck mittels des von dem Bildverarbeitungsmodul 41 umfassten Mimikerkennungsalgorithmus und die Handbewegung mittels des von dem Bildverarbeitungsmodul 41 umfassten Gestikerkennungsalgorithmus extrahiert.
Anhand des extrahierten Gesichtsausdrucks wird der bestimmte Insasse 20, 21 erkannt 120. Eine zu betätigende Funktion eines Geräts 11, 12, 13 wird zunächst jeweils unabhängig anhand des extrahierten Gesichtsausdrucks erkannt 130 und anhand der extrahierten Handbewegung erkannt 140. Für ein differenzierteres und/oder zuverlässigeres Erkennen einer zu betätigenden Funktion eines Geräts 11, 12, 13 werden dann der erkannte Gesichtsausdruck und die erkannte Handbewegung miteinander kombiniert 150. Anschließend wird automatisch die von dem Insassen 20, 21 gewünschte Funktion des Geräts 11, 12, 13 betätigt 160.
Die Gesichtsausdrücke und Handbewegungen des Insassen 20, 21 werden mittels des in dem Lernmodul 43 implementierten Algorithmus zum maschinellen Lernen verarbeitet. Dadurch wird es der Mensch-Maschine-Schnittstelle 30 möglich, Gesichtsausdrücke und/oder Handbewegungen eines bestimmten Insassen 20, 21 zu erlernen, die jeweils zu betätigende Funktion eines Geräts 11, 12, 13 des Fahrzeugs 10 nach entsprechendem Training immer zuverlässiger zu erkennen und dabei eine unvermeidliche natürliche Variabilität der Mimik und der Gestik des Insassen 20, 21 zu tolerieren.
Eine Mehrzahl von Zuordnungen jeweils einer Kombination eines erkannten Gesichtsausdrucks und einer erkannten Handbewegung des bestimmten Insassen 20, 21 zu einer Funktion eines Geräts 11, 12, 13 des Fahrzeugs 10 wird zu einem Interaktionsprofil des Insassen 20, 21 zusammengefasst und in dem ersten Datenspeicher 44 der Steuerungseinheit 40 gespeichert.
Jeweils nach Zustimmung des bestimmten Insassen 20, 21 kann ein Interaktionsprofil aus dem ersten Datenspeicher 44 mittels der Kommunikationseinheit 14 in dem Datenspeicher 51 des Servers 50 gespeichert oder aus dem Datenspeicher 51 des Servers 50 in den ersten Datenspeicher 44 geladen werden.
Die erfindungsgemäße Mensch-Maschine-Schnittstelle 30 bietet den Insassen 20, 21 eines Fahrzeugs 10 ein vollkommen neues Interaktionserlebnis, indem sie ihnen aus ihrer jeweiligen Sitzposition in dem Fahrzeug 10 heraus ein besonders komfortables, intuitives und zuverlässiges Interagieren mit Geräten 11, 12, 13 des Fahrzeugs 10 erlaubt. Neben dem Fahrer 20 können Mitfahrer 21 - auch gleichzeitig oder zeitlich überlappend mit dem Fahrer 20 - bestimmte Geräte 11, 12, 13 des Fahrzeugs 10 mimisch und gestisch betätigen. Durch die Kombination einer Mimik- und einer Gestiksteuerung lassen sich Fehlzuordnungen von Insassen 20, 21 einerseits und zu betätigenden Funktionen von Geräten 11, 12, 13 andererseits deutlich reduzieren oder sogar völlig ausschließen.
Bezugszeichenliste

10: Fahrzeug
11: Gerät
12: Gerät
13: Gerät
14: Kommunikationseinheit
20: Insasse
21: Insasse
30: Mensch-Maschine-Schnittstelle
31: Kamera
32: Kamera
33: Anzeigeeinheit
40: Steuerungseinheit
41: Bildverarbeitungsmodul
42: Betätigungsmodul
43: Lernmodul
44: Datenspeicher
45: Datenspeicher
50: Server
51: Datenspeicher
100: Verfahren
110: Separates Extrahieren von Gesichtsausdrücken und Handbewegungen
120: Erkennen eines Insassen anhand eines Gesichtsausdrucks
130: Erkennen einer zu betätigenden Funktion anhand eines Gesichtsausdrucks
140: Erkennen einer zu betätigenden Funktion anhand einer Handbewegung
150: Erkennen einer zu betätigenden Funktion anhand einer Kombination aus einem Gesichtsausdruck und einer Handbewegung
160: Betätigen einer Funktion

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102015011522 A1 [0007]
US 2011/0235919 A1 [0008]
DE 102014218457 A1 [0010]

Claims

Fahrzeug (10), welches eine Mehrzahl von funktionalen Geräten (11, 12, 13) und eine Mensch-Maschine-Schnittstelle (30) zum mimischen und/oder gestischen Betätigen einer Funktion eines Geräts (11, 12, 13) aufweist, bei dem die Mensch-Maschine-Schnittstelle (30) eine Kamera (31, 32) zum Erfassen eines bestimmten Insassen (20, 21) des Fahrzeugs (10) und eine mit der Kamera (31, 32) verbundene Steuerungseinheit (40) umfasst, welche konfiguriert ist, aus von der Kamera (31, 32) erfassten Bildsequenzen des Insassen (20, 21) einen Gesichtsausdruck und eine Handbewegung des Insassen (20, 21) zu extrahieren und den extrahierten Gesichtsausdruck und die extrahierte Handbewegung des bestimmten Insassen (20, 21) miteinander zu kombinieren, um eine zu betätigende Funktion eines Geräts (11, 12, 13) zu ermitteln.
Fahrzeug nach Anspruch 1, bei dem die Mensch-Maschine-Schnittstelle (30) konfiguriert ist, den Insassen (20, 21) anhand des Gesichtsausdrucks des Insassen (20, 21) und eine zu betätigende Funktion eines Geräts (11, 12, 13) anhand des Gesichtsausdrucks und/oder der Handbewegung des Insassen (20, 21) zu erkennen.
Fahrzeug nach einem der Ansprüche 1 oder 2, bei dem die Mensch-Maschine-Schnittstelle (30) einen Datenspeicher (44) zum Speichern eines Interaktionsprofils des bestimmten Insassen (11, 12) umfasst, welches eine Mehrzahl von Zuordnungen jeweils einer Kombination eines erkannten Gesichtsausdrucks und einer erkannten Handbewegung des Insassen (20, 21) zu einer Funktion eines Geräts (11, 12, 13) umfasst.
Fahrzeug nach Anspruch 3, welches eine mit der Steuerungseinheit (40) verbundene Kommunikationseinheit (14) aufweist, welche zum drahtlosen Kommunizieren mit einem außerhalb des Fahrzeugs (10) angeordneten Server (50) ausgebildet ist, um ein in einem Datenspeicher (51) des Servers (50) gespeichertes Interaktionsprofil eines Insassen (20, 21) des Fahrzeugs (10), insbesondere mit dessen Zustimmung, in die Steuerungseinheit (40) zu laden oder ein Interaktionsprofil eines Insassen (20, 21) des Fahrzeugs (10), insbesondere mit dessen Zustimmung, in dem Datenspeicher (51) des Servers (50) zu speichern.
Fahrzeug nach einem der vorhergehenden Ansprüche, bei welchem der bestimmte Insasse (20, 21) der Fahrer (20) des Fahrzeugs (10) und/oder ein Mitfahrer (21) in dem Fahrzeug (10) ist.
Verfahren (100) zum mimischen und gestischen Betätigen einer Funktion eines Geräts (11, 12, 13) eines Fahrzeugs (10), insbesondere eines Fahrzeugs nach einem der vorhergehenden Ansprüche, durch einen bestimmten Insassen (20, 21) des Fahrzeugs (10), bei dem - Bildsequenzen des bestimmten Insassen (20, 21) mittels einer Kamera (31, 32) kontinuierlich in Echtzeit aufgenommen werden, - die aufgenommenen Bildsequenzen analysiert und aus den Echtzeitbildern mittels einer Steuerungseinheit (40) des Fahrzeugs (10) ein Gesichtsausdruck und eine Handbewegung des bestimmten Insassen (20, 21) jeweils separat extrahiert (110) werden, - die extrahierten Gesichtsausdrücke und Handbewegungen des Insassen (20, 21) miteinander kombiniert (150) werden, um eine zu betätigende Funktion eines Geräts (11, 12, 13) zu ermitteln, und - das Gerät (11, 12, 13) entsprechend der ermittelten Funktion betätigt (160) wird.
Verfahren nach Anspruch 6, bei dem der Insasse (20, 21) an dem Gesichtsausdruck erkannt (120) wird und/oder eine zu betätigende Funktion eines Geräts (11, 12, 13) anhand des Gesichtsausdrucks und/oder der Handbewegung des Insassen (20, 21) erkannt (130, 140) wird.
Verfahren nach einem der Ansprüche 6 oder 7, bei dem das separate Extrahieren eines Gesichtsausdrucks und einer Handbewegung jeweils aufgrund von zu einem Gesicht und einer Hand korrespondierenden sichtbaren und räumlich getrennten Hautbereichen des Insassen (20, 21) erfolgt und bei dem insbesondere der Gesichtsausdruck mittels eines Mimikerkennungsalgorithmus und/oder die Handbewegung mittels eines Gestikerkennungsalgorithmus erkannt werden.
Verfahren nach einem der Ansprüche 6 bis 8, bei dem die Gesichtsausdrücke und Handbewegungen des Insassen (20, 21) mittels eines Lernmoduls (43) verarbeitet werden, um Gesichtsausdrücke und/oder Handbewegungen eines bestimmten Insassen (20, 21) zu erlernen.
Verfahren nach einem der Ansprüche 6 bis 9, bei dem eine Mehrzahl von Zuordnungen jeweils einer Kombination eines erkannten Gesichtsausdrucks und einer erkannten Handbewegung des Insassen (20, 21) zu einer Funktion eines Geräts (11, 12, 13) des Fahrzeugs (10) in einem Interaktionsprofil zusammengefasst wird, welches insbesondere mit Zustimmung des bestimmten Insassen (20, 21) mittels einer in dem Fahrzeug vorgesehenen Kommunikationseinheit (14) in einem Datenspeicher (51) eines außerhalb des Fahrzeugs (10) angeordneten Servers (50) gespeichert und/oder aus dem Datenspeicher (51) eines außerhalb des Fahrzeugs (10) angeordneten Servers (50) geladen wird.
Verfahren nach Anspruch 10, bei dem das Interaktionsprofil des bestimmten Insassen (20, 21) in dem Datenspeicher (51) gespeichert und aus dem Datenspeicher (51) zum wahlweisen Verwenden in mehreren verschiedenen Fahrzeugen (10), insbesondere Fahrzeugen (10) einer Fahrzeugflotte eines Unternehmens oder eines Car-Sharing-Pools, geladen wird.