DE102016005629B4

DE102016005629B4 - Motor vehicle operating device and method for determining at least one recognition result for a speech signal

Info

Publication number: DE102016005629B4
Application number: DE102016005629.0A
Authority: DE
Inventors: Andre Eisenmann; Andreja JANEZIC; Christoph Voigt
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2020-06-25
Anticipated expiration: 2036-05-07
Also published as: DE102016005629A1

Abstract

Verfahren zum Ansteuern mehrerer Spracherkenner, um zumindest ein Erkennungsergebnis (27, 28) zu einem Sprachsignal (17) zu ermitteln, das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung enthält, wobei durch eine Bedienvorrichtung (11) das Sprachsignal (17) an die Spracherkenner (18, 19) übermittelt wird, von denen einige oder alle mit unterschiedlichen Erkennungsvokabularien (25, 27) betrieben werden, so dass sie jeweils für eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert sind, und durch die Bedienvorrichtung (11) eine Timereinrichtung (30) für eine Maximaldauer eines Wartevorgangs zum Empfangen von Erkennungsergebnissen eingestellt wird, wobei ein erstes Erkennungsergebnis aus einem ersten der Spracherkenner (18, 19) empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird, dadurch gekennzeichnet, dass überprüft wird, ob ein Spracherkenner (18, 19), dessen Erkennungsergebnis noch aussteht, für die Soll-Befehlsdomäne spezialisiert ist, und bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners (18, 19) die Timereinrichtung (30) derart eingestellt wird, dass auf das ausstehende Erkennungsergebnis (27) für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird, wobei bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners (18, 19) eine Restzeitdauer der Timereinrichtung (30) auf oder um die Mindestzeitdauer verlängert wird.Method for controlling a plurality of speech recognizers in order to determine at least one recognition result (27, 28) for a speech signal (17) which contains a speech command (14) to be recognized for a voice control, the voice signal (17) being activated by an operating device (11) the speech recognizer (18, 19) is transmitted, some or all of which are operated with different recognition vocabularies (25, 27), so that they are each specialized for a predetermined command domain of the voice control, and by the operating device (11) a timer device (30 ) is set for a maximum duration of a waiting process for receiving recognition results, a first recognition result being received from a first one of the speech recognizers (18, 19) and a target command domain being determined on the basis of the received first recognition result, characterized in that it is checked whether a speech recognizer (18, 19), whose recognition result is still pending, for the Target command domain is specialized, and if the recognition result of the specialized speech recognizer (18, 19) is still outstanding, the timer device (30) is set such that the outstanding recognition result (27) is waited for at least a predetermined minimum period of time, with the recognition result still outstanding specialized speech recognizer (18, 19) a remaining period of the timer device (30) is extended to or by the minimum period.

Description

Die Erfindung betrifft ein Verfahren zum Ansteuern zumindest eines Spracherkenners zum Minimieren einer Latenz beim Ermitteln eines Erkennungsergebnisses zu einem Sprachsignal, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält. Zum Ermitteln des Erkennungsergebnisses werden mehrere Spracherkenner betrieben. Zu der Erfindung gehört auch eine Bedienvorrichtung zum Durchführen des erfindungsgemäßen Verfahrens. Schließlich umfasst die Erfindung auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung.The invention relates to a method for controlling at least one speech recognizer to minimize latency when determining a recognition result for a speech signal which contains a speech command to be recognized for a voice control. Several speech recognizers are operated to determine the recognition result. The invention also includes an operating device for carrying out the method according to the invention. Finally, the invention also includes a motor vehicle with the operating device according to the invention.

Im Zusammenhang mit der Erfindung ist unter einem Spracherkenner eine Erkennungseinrichtung zu verstehen, die eine automatisierte Spracherkennung (ASR-Automatic Speech Recognition) durchführt. Eine solche Spracherkennung kann beispielsweise auf der Grundlage von Hidden-Markov-Modellen erzeugt werden.In connection with the invention, a speech recognizer is to be understood as a recognition device which carries out automated speech recognition (ASR-Automatic Speech Recognition). Such speech recognition can be generated, for example, on the basis of hidden Markov models.

Die Bedienung eines Kraftfahrzeugs mittels Sprachbedienung ist aus der US 2015/0269939 A1 bekannt. Hierbei ist der gleichzeitige Betrieb mehrerer Spracherkenner vorgesehen. Einer der Spracherkenner kann sich im Kraftfahrzeug, ein anderer Spracherkenner außerhalb des Kraftfahrzeugs befinden, beispielsweise als Online-Spracherkennungsdienst des Internets.The operation of a motor vehicle by voice control is from the US 2015/0269939 A1 known. The simultaneous operation of several speech recognizers is provided here. One of the speech recognizers can be in the motor vehicle, another speech recognizer can be located outside the motor vehicle, for example as an online speech recognition service on the Internet.

Beim Betrieb mehrerer Spracherkenner zum Ermitteln zumindest eines Erkennungsergebnisses ergibt sich das Problem, dass nicht alle Spracherkenner zugleich ihr jeweiliges Erkennungsergebnis bereitstellen. Die Spracherkenner benötigen unterschiedlich viel Zeit, um ein Erkennungsergebnis zu ermitteln und dieses an die Bedienvorrichtung zu übertragen. Daher stellt sich die Frage, ab welchem Zeitpunkt nach dem Eintreffen eines ersten Erkennungsergebnisses der Spracherkennungsvorgang abgebrochen werden soll, um die bis dahin empfangenen Erkennungsergebnisse für den weiteren Steuervorgang oder Bedienvorgang des Kraftfahrzeugs zu nutzen. Liegt beispielsweise schon ein richtiges Erkennungsergebnis vor, so sollte gleich mit der Umsetzung des durch das Erkennungsergebnis beschriebenen Sprachbefehls fortgefahren werden, da ansonsten aus Sicht des Bedieners eine unnötige Verzögerung entsteht.When several speech recognizers are operated to determine at least one recognition result, the problem arises that not all speech recognizers simultaneously provide their respective recognition results. The speech recognizers need different amounts of time to determine a recognition result and to transmit this to the operating device. Therefore, the question arises from what point in time after the arrival of a first recognition result the speech recognition process should be terminated in order to use the recognition results received up to that point for the further control process or operating process of the motor vehicle. If, for example, there is already a correct recognition result, the implementation of the voice command described by the recognition result should continue immediately, since otherwise the operator sees an unnecessary delay.

Eine Sprachbedienung für eine Suchfunktion einer Datenbank ist aus der DE 39 28 049 A1 bekannt.A voice control for a search function of a database is from the DE 39 28 049 A1 known.

Aus der DE 199 42 868 A1 ist bekannt, zum zuverlässigen Ermitteln eines Erkennungsergebnisses mehrere Mikrofone zu nutzen, aus denen dann dasjenige mit dem zuverlässigsten Sprachsignal ausgewählt wird, um damit einen Spracherkenner zu betreiben.From the DE 199 42 868 A1 It is known to use a plurality of microphones for reliably determining a recognition result, from which the one with the most reliable speech signal is then selected in order to operate a speech recognizer.

Aus der DE 10 2013 011 922 A1 ist bekannt, zum Überprüfen einer Qualität eines Erkennungsergebnisses einen Konfidenzwert zu überprüfen, der von einem Spracherkenner als Teil des Erkennungsergebnisses bereitgestellt werden kann.From the DE 10 2013 011 922 A1 is known for checking a quality of a recognition result to check a confidence value that can be provided by a speech recognizer as part of the recognition result.

Aus der US 2002/0133346 A1 geht hervor, dass man das Warten auf Erkennungsergebnisse nach einer vorgegebenen Zeitdauer abbricht.From the US 2002/0133346 A1 shows that the waiting for recognition results is canceled after a predetermined period of time.

Aus der US 2015/0058018 A1 ist ein Spracherkennungssystem bekannt, das vorsieht, jedes Sprachsignal durch zwei unterschiedliche Erkennungsprozesse zu verarbeiten, um einen umgangssprachlichen Sprachanteil einerseits und einen themenspezifischen Sprachanteil andererseits getrennt zu verarbeiten. Jeder Spracherkenner erkennt seinen Sprachanteil des gesamten Sprachsignals, sodass hinterher die Erkennungsergebnisse kombiniert werden können.From the US 2015/0058018 A1 a speech recognition system is known which provides for each speech signal to be processed by two different recognition processes in order to separately process a colloquial speech component on the one hand and a topic-specific speech component on the other hand. Each speech recognizer recognizes his speech portion of the entire speech signal, so that the recognition results can be combined afterwards.

Aus der US 8,364,481 B2 ist ein Erkennungssystem bekannt, das mehrere Spracherkenner nutzt. Falls ein Spracherkenner sehr früh ein Erkennungsergebnis mit einem hohen Konfidenzwert liefert, wird ein Erkennungsvorgang sofort abgebrochen und das Erkennungsergebnis weiterverarbeitet. Liegen dagegen nur Erkennungsergebnisse mit niedrigen Konfidenzwerten vor, so wird bis zu einer maximalen Wartezeit gewartet.From the US 8,364,481 B2 a recognition system is known which uses several speech recognizers. If a speech recognizer delivers a recognition result with a high confidence value very early, a recognition process is stopped immediately and the recognition result is processed further. If, on the other hand, there are only recognition results with low confidence values, the system waits until a maximum waiting time.

Der Erfindung liegt die Aufgabe zugrunde, eine Betriebsstrategie für eine Sprachbedienung bereitzustellen, die zum Erkennen eines Sprachbefehls mehrere Spracherkenner gleichzeitig oder parallel betreibt.The invention is based on the object of providing an operating strategy for voice control which operates a plurality of speech recognizers simultaneously or in parallel in order to recognize a voice command.

Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren gegeben.The object is solved by the subject matter of the independent claims. Advantageous developments of the invention are given by the features of the dependent claims, the following description and the figures.

Durch die Erfindung ist ein Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält, bereitgestellt. Durch eine Bedienvorrichtung wird das Sprachsignal an mehrere Spracherkenner übermittelt. Insbesondere ist eine Sprachbedienung eines Kraftfahrzeugs vorgesehen. Die Bedienvorrichtung kann beispielsweise als ein Steuergerät des Kraftfahrzeugs ausgestaltet sein. Das Verfahren ist aber auch in einem anderen Gerät vorsehbar, z.B. in einem portablen, mobilen Endgerät, wie z.B. einem Smartphone, einem Tablet-PC oder einer Smartwatch.The invention provides a method for determining at least one recognition result for a voice signal that contains a voice command to be recognized for voice control. The speech signal is transmitted to several speech recognizers by an operating device. In particular, voice control of a motor vehicle is provided. The operating device can be configured, for example, as a control unit of the motor vehicle. However, the method can also be provided in another device, e.g. in a portable, mobile device, e.g. a smartphone, a tablet PC or a smartwatch.

Von den Spracherkennern werden einige oder alle mit unterschiedlichen Erkennungsvokabularien betrieben. Hierdurch sind sie für jeweils eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert. Insbesondere ist vorgesehen, dass Erkennungsvokabularien für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung (zum Beispiel eines MP3-Abspielgerät), eine Bedienung einer Sucheinrichtung (zum Beispiel für eine Suche in einem digitalen Telefonbuch oder eine Suche im Internet). Mit „zumindest eine“ ist hierbei gemeint, dass eine oder einige oder alle der besagten Befehlsdomänen umfasst sein können. Some or all of the speech recognizers operate with different recognition vocabularies. As a result, they are specialized for a predetermined command domain of voice control. In particular, it is provided that recognition vocabularies are provided for at least one of the following command domains: operation of a navigation device, operation of an infotainment system, operation of a telephone device, operation of a media player (for example an MP3 player), operation of a search device (for example for a search in a digital phone book or a search on the Internet). Here, “at least one” means that one or some or all of the said command domains can be included.

Das Sprachsignal mit dem darin enthaltenen Sprachbefehl wird also an mehrere, gleichzeitig betriebene Spracherkenner ausgesendet, damit diese jeweils ein Erkennungsergebnis erzeugen und dieses zurück an die Bedienvorrichtung aussenden oder übermitteln. Durch die Bedienvorrichtung wird eine Timereinrichtung für eine Maximaldauer eines Wartevorgangs zum Empfangen von Erkennungsergebnissen eingestellt. Falls nach Ablauf der Maximaldauer kein Erkennungsergebnis empfangen wird, so wird der Erkennungsvorgang bevorzugt abgebrochen und der Benutzer beispielsweise aufgefordert, den Sprachbefehl noch einmal auszusprechen oder auf eine andere Eingabemodalität, zum Beispiel eine manuelle Bedienung, zu wechseln. Die Timereinrichtung kann in an sich bekannter Weise realisiert sein, beispielsweise als ein Programmodul, das einen sogenannten Countdown ausführt.The voice signal with the voice command contained therein is thus sent out to a plurality of voice recognizers which are operated simultaneously, so that they each produce a recognition result and send it back to the operating device or transmit it. A timer device for a maximum duration of a waiting process for receiving recognition results is set by the operating device. If no recognition result is received after the maximum duration has elapsed, the recognition process is preferably terminated and the user is asked, for example, to issue the voice command again or to switch to another input modality, for example manual operation. The timer device can be implemented in a manner known per se, for example as a program module that executes a so-called countdown.

Der Sprachbefehl kann aus einem Wort bestehen, z.B. einem Städtenamen bei der Eingabe eines Navigationsziels. Bei dem Sprachbefehl kann es sich auch um eine vollständige Phrase (mehrere Wörter) handeln. Beispielsweise kann der Sprachbefehl besagen: „Fahre mich zum Restaurant XY!“ Hierbei können allgemeine Worte wie „Fahre“ und „Restaurant“ in einem Erkennungsvokabular eines nicht-spezialisierten Spracherkenners enthalten sein. Dagegen bedarf es eines spezialisierten Erkennungsvokabulars, um auch die Namen einzelner Restaurants, wie zum Beispiel „XY“ ebenfalls fehlerfrei erkennen zu können. Ein nicht-spezialisierter Spracherkenner kann somit beispielsweise in seinen Erkennungsergebnis zwar die erkannten Worte „Fahre“ und „Restaurant“ angeben, aber anstelle des Namens des Restaurants („XY“) ein unerkanntes Wort signalisieren. Dagegen kann durch einen spezialisierten Spracherkenner, der das Erkennungsvokabular zum Beispiel für eine Navigation oder für eine Navigation zu vorbestimmten Fahrzielen (POI-Point-of-Interest) verwendet, auch der Name erkannt werden.The voice command can consist of one word, e.g. a city name when entering a navigation destination. The voice command can also be a complete phrase (several words). For example, the voice command can say: "Drive me to restaurant XY!" Here, general words such as "drive" and "restaurant" can be contained in a recognition vocabulary of a non-specialized speech recognizer. In contrast, a specialized recognition vocabulary is required in order to also be able to recognize the names of individual restaurants, such as "XY", without errors. A non-specialized speech recognizer can thus, for example, specify the recognized words "drive" and "restaurant" in their recognition result, but instead of the name of the restaurant ("XY") signal an unrecognized word. In contrast, the name can also be recognized by a specialized speech recognizer who uses the recognition vocabulary, for example, for navigation or for navigation to predetermined travel destinations (POI point of interest).

Falls nun ein frühestes oder erstes Erkennungsergebnis von einem ersten Spracherkenner empfangen wird oder eintrifft, stellt sich die Frage, ob man dieses erste Erkennungsergebnis nutzen sollte, um möglichst schnell den Sprachbefehl, wie er gemäß den Erkennungsergebnis erkannt wurde, umzusetzen, oder ob auf noch zumindest ein weiteres Erkennungsergebnis gewartet werden soll. Die letztere Entscheidung erzeugt aus Sicht des Benutzers eine Reaktionsverzögerung der Bedienvorrichtung.If an earliest or first recognition result is now received or received by a first speech recognizer, the question arises whether this first recognition result should be used to implement the voice command as quickly as possible, or whether it should at least be implemented another recognition result is to be maintained. From the user's point of view, the latter decision creates a delay in the response of the operating device.

Bei dem erfindungsgemäßen Verfahren ist vorgesehen, dass das erste Erkennungsergebnis aus dem ersten Spracherkenner empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird. Bei der Soll-Befehlsdomäne kann es sich um eine Angabe der Befehlsdomäne handeln, die von dem ersten Spracherkenner selbst als Bestandteil des Erkennungsergebnisses bereitgestellt sein kann. Erkennt der Spracherkenner beispielsweise das Wort „Restaurant“ in einem Sprachsignal, welches lautet: „Fahre mich zum Restaurant XY!“, so kann durch den Spracherkenner selbst als Soll-Befehlsdomäne beispielsweise „Navigation“ (Bedienung einer Navigationseinrichtung) angegeben werden. Alternativ dazu kann auch durch die Bedienvorrichtung selbst anhand zumindest eines erkannten Wortes, zum Beispiel „Fahre“ und „Restaurant“ anhand einer vorbestimmten Zuordnungsvorschrift ebenfalls eine soll-Befehlsdomäne ermittelt werden. Die Zuordnungsvorschrift kann beispielsweise auf der Grundlage einer Zuordnungstabelle realisiert sein. Durch die Bedienvorrichtung wird überprüft, ob ein Spracherkenner, dessen Erkennungsergebnis noch aussteht, d.h. noch nicht empfangen wurde, für die Soll-Befehlsdomäne spezialisiert ist. In dem beschriebenen Beispiel wird also überprüft, ob ein Spracherkenner für Befehlsdomäne „Navigation“ mit dem entsprechenden Erkennungsvokabular unter den Spracherkennern vorhanden ist und von diesem spezialisierten Spracherkenner noch kein Erkennungsergebnis empfangen wurde. Bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners wird die beschriebene Timereinrichtung derart eingestellt, dass auf das ausstehende Erkennungsergebnis des spezialisierten Spracherkenners für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird. Mit anderen Worten wird unabhängig von einem aktuellen Timerzustand sichergestellt, dass die Maximaldauer bis zum Abbrechen des Erkennungsvorgangs zumindest die vorbestimmte Mindestzeitdauer beträgt.The method according to the invention provides that the first recognition result is received from the first speech recognizer and that a target command domain is determined on the basis of the received first recognition result. The target command domain can be an indication of the command domain, which can be provided by the first speech recognizer itself as part of the recognition result. If, for example, the speech recognizer recognizes the word "restaurant" in a speech signal which reads: "Drive me to the restaurant XY!", The speech recognizer itself can specify, for example, "navigation" (operation of a navigation device) as the target command domain. Alternatively, a target command domain can also be determined by the operating device itself using at least one recognized word, for example “drive” and “restaurant” using a predetermined assignment rule. The assignment rule can be implemented, for example, on the basis of an assignment table. The operating device checks whether a speech recognizer whose recognition result is still outstanding, i.e. has not yet been received, for which the target command domain specializes. In the example described, it is therefore checked whether a speech recognizer for command domain “navigation” with the corresponding recognition vocabulary is present among the speech recognizers and whether a recognition result has not yet been received by this specialized speech recognizer. If the recognition result of the specialized speech recognizer is still outstanding, the described timer device is set such that the outstanding recognition result of the specialized speech recognizer is waited for at least a predetermined minimum period of time. In other words, regardless of a current timer state, it is ensured that the maximum time until the detection process is terminated is at least the predetermined minimum time period.

Durch die Erfindung ergibt sich der Vorteil, dass überprüft wird, ob ein zuverlässigeres oder besseres oder vollständigeres Erkennungsergebnis zu erwarten ist, weil noch ein spezialisierter Spracherkenner läuft und von diesem ein besseres Erkennungsergebnis zu erwarten ist. In dem beschriebenen Beispiel kann es sein, dass von dem ersten Spracherkenner in dem Erkennungsergebnis zwar die Worte „Fahre“ und „Restaurant“ erkannt werden, aber der spezifische Name des Restaurants, nämlich „XY“, nicht erkannt werden konnte, weil dem ersten Spracherkenner aufgrund seines beschränkten Erkennungsvokabulars der Name des Restaurants unbekannt ist. Dagegen ist die Wahrscheinlichkeit, dass auch der Name des Restaurants erkannt wurde, bei dem Erkennungsergebnis des spezialisierten Spracherkenners größer. Somit ist es sinnvoll, dieses Erkennungsergebnis abzuwarten, anstatt den Benutzer auf der Grundlage des unvollständigen Erkennungsergebnisses des ersten Spracherkenners noch einmal nach dem genauen Namen des Restaurants zu fragen.The advantage of the invention is that it is checked whether a more reliable or better or more complete recognition result can be expected because a specialized speech recognizer is still running and a better recognition result can be expected from it. By doing Example described it may be that the first speech recognizer recognizes the words "drive" and "restaurant" in the recognition result, but the specific name of the restaurant, namely "XY", could not be recognized because the first speech recognizer due to its limited recognition vocabulary the name of the restaurant is unknown. On the other hand, the probability that the name of the restaurant was also recognized is greater in the recognition result of the specialized speech recognizer. It makes sense to wait for this recognition result instead of asking the user again for the exact name of the restaurant based on the incomplete recognition result of the first speech recognizer.

Falls ein für die Soll-Befehlsdomäne spezialisierter Spracherkenner vorhanden ist, so wird bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners eine Restzeitdauer der Timereinrichtung auf die Mindestzeitdauer verlängert. Damit wartet die Bedienvorrichtung nicht nur für die beschriebene Maximaldauer auf das Erkennungsergebnis, sondern es wird eine längere Mindestzeitdauer eingestellt. Alternativ dazu kann auch vorgesehen sein, dass die Mindestzeitdauer eine relative Zeitangabe ist und die Restzeitdauer der Timereinrichtung nicht auf die Mindestzeitdauer, sondern um die Mindestzeitdauer verlängert wird. Hierdurch ist sichergestellt, dass selbst nach einer längeren Wartezeit auf das erste Erkennungsergebnis noch mindestens die Mindestzeitdauer abgewartet wird, um auch das Erkennungsergebnis des spezialisierten Spracherkenners zu empfangen.If there is a speech recognizer specialized for the target command domain, a remaining period of time of the timer device is extended to the minimum period of time if the recognition result of the specialized speech recognizer is still outstanding. The operating device thus not only waits for the recognition result for the maximum duration described, but a longer minimum period of time is set. Alternatively, it can also be provided that the minimum time period is a relative time specification and the remaining time period of the timer device is not extended to the minimum time period, but by the minimum time period. This ensures that even after a longer waiting period for the first recognition result, at least the minimum period of time is still waited in order to also receive the recognition result from the specialized speech recognizer.

Zu der Erfindung gehören auch vorteilhafte Weiterbildungen, durch deren Merkmale sich zusätzliche Vorteile ergeben.The invention also includes advantageous developments, the features of which result in additional advantages.

Für den Fall, dass der für die Soll-Befehlsdomäne spezialisierte Spracherkenner fehlt, d.h. kein Spracherkenner mit dem entsprechenden Erkennungsvokabular betrieben wird, wird bevorzugt aus dem empfangenen 1. Erkennungsergebnis ein Konfidenzwert entnommen und mit einem Schwellenwert verglichen. Der Konfidenzwert kann beispielsweise eine Likelihood angeben, wie sie durch ein Hidden-Markov-Modell ermittelt werden kann. Der Konfidenzwert kann auch ein sogenannter Score sein wie er auf der Grundlage von mehreren erkannten Worten und einer nachgeschalteten Grammatik in an sich bekannter Weise ermittelt werden kann falls der Konfidenzwert kleiner als der Schwellenwert ist, das heißt das Erkennungsergebnis unsicher ist, wird das Erkennungsergebnis verworfen und auf ein nächstes Erkennungsergebnis gewartet. Dies kann so lange fortgesetzt werden, bis der Restwert der Timereinrichtung abgelaufen ist. Falls auch das nächste Erkennungsergebnis einen Konfidenzwert aufweist, der kleiner als der Schwellenwert ist, so kann dieses ebenfalls verworfen werden und auf ein nächstes Erkennungsergebnis gewartet werden. Falls der Konfidenzwert des ersten Erkennungsergebnisses oder eines nächsten Erkennungsergebnisses größer als der Schwellenwert ist, so kann dieses Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt oder verwendet werden. Das verwendete Erkennungsergebnis wird dann zum Ermitteln oder erzeugen des durch den Sprachbefehl beschriebenen Steuersignals z.B. für das Kraftfahrzeug oder ein anderes Gerät verwendet.In the event that the speech recognizer specialized for the target command domain is missing, i.e. if no speech recognizer is operated with the corresponding recognition vocabulary, a confidence value is preferably taken from the received 1st recognition result and compared with a threshold value. The confidence value can, for example, indicate a likelihood as can be determined using a hidden Markov model. The confidence value can also be a so-called score as it can be determined on the basis of several recognized words and a subsequent grammar in a manner known per se, if the confidence value is less than the threshold value, i.e. the recognition result is uncertain, the recognition result is rejected and waited for a next recognition result. This can continue until the residual value of the timer device has expired. If the next detection result also has a confidence value that is smaller than the threshold value, this can also be rejected and a wait for a next detection result. If the confidence value of the first recognition result or a next recognition result is greater than the threshold value, then this recognition result can be provided or used as the final recognition result. The recognition result used is then used to determine or generate the control signal described by the voice command, e.g. used for the motor vehicle or other device.

Wie bereits ausgeführt, kann es sich bei zumindest einem der Spracherkenner um einen vorrichtungsexternen Spracherkenner handeln, der dann zum Beispiel über eine Funkverbindung mit der Bedienvorrichtung gekoppelt sein kann. Deshalb wird nach dem empfangen des ersten Erkennungsergebnisses bevorzugt zunächst überprüft, ob zumindest einer der übrigen Spracherkenner noch über eine jeweilige Kommunikationsverbindung zum empfangen eines Erkennungsergebnisses erreichbar ist. Nur für diesen Fall wird die Soll-Befehlsdomäne ermittelt. Andernfalls, wenn also keiner der übrigen Spracherkenner erreichbar ist, wird das erste Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt.As already stated, at least one of the speech recognizers can be a speech recognizer external to the device, which can then be coupled to the operating device via a radio connection, for example. Therefore, after receiving the first recognition result, it is preferably first checked whether at least one of the other speech recognizers can still be reached via a respective communication link for receiving a recognition result. The target command domain is determined only in this case. Otherwise, if none of the other speech recognizers can be reached, the first recognition result is provided as the final recognition result.

Für den Fall, dass zumindest einer der übrigen Spracherkenner über die jeweilige Kommunikationsverbindung erreichbar ist, wird solange auf zumindest ein weiteres Erkennungsergebnis gewartet, bis eine der beiden folgenden Bedingungen erfüllt ist: Es wird ein weiteres Erkennungsergebnis empfangen, das einen Konfidenzwert aufweist, der größer als ein vorbestimmter Schwellenwert ist, oder die Timereinrichtung signalisiert einen Timerablauf. Bei dem Schwellenwert kann es sich um den bereits beschriebenen Schwellenwert handeln oder um einen anderen Schwellenwert. Es kann also sein, dass selbst das Erkennungsergebnis des spezialisierten Spracherkenners anhand seines Konfidenzwert des über den Schwellenwertvergleich überprüft wird.In the event that at least one of the other speech recognizers can be reached via the respective communication connection, the system waits for at least one further recognition result until one of the two following conditions is met: A further recognition result is received that has a confidence value that is greater than is a predetermined threshold value, or the timer device signals a timer expiration. The threshold value can be the threshold value already described or another threshold value. It may therefore be the case that even the recognition result of the specialized speech recognizer is checked on the basis of its confidence value by means of the threshold value comparison.

Wie bereits ausgeführt, handelt es sich bei den Spracherkennern bevorzugt um zumindest einen vorrichtungseigenen oder vorrichtungsinternen Spracherkenner, der in der Bedienvorrichtung betrieben wird, und um zumindest einen vorrichtungsexternen Spracherkenner, an welchen das Sprachsignal ausgesendet wird. Dies kann über die beschriebene Funkverbindung erfolgen, die beispielsweise eine Mobilfunkverbindung oder eine WLAN-Funkverbindung (WLAN-Wireless local area Network) sein kann.As already stated, the speech recognizers are preferably at least one device-specific or device-internal speech recognizer, which is operated in the operating device, and at least one device-external speech recognizer, to which the speech signal is transmitted. This can be done via the radio connection described, which can be, for example, a cellular connection or a WLAN radio connection (WLAN-Wireless local area network).

Zu der Erfindung gehört auch die beschriebene Bedienvorrichtung zum Bedienen eines Kraftfahrzeugs mittels Sprachbedienung. Die Bedienvorrichtung ist dazu eingerichtet, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Hierzu kann die Bedienvorrichtung eine Prozessoreinrichtung aufweisen, die Programmcode enthält, der bei Ausführen durch die Prozessoreinrichtung eine Ausführungsform des erfindungsgemäßen Verfahrens durchführt. Die Prozessoreinrichtung kann hierzu beispielsweise einen Mikroprozessor oder einen Mikrocontroller aufweisen. Des Weiteren kann die Prozessoreinrichtung einen Speicher aufweisen, in welchem der Programmcode gespeichert ist.The described operating device for operating a motor vehicle by means of voice control also belongs to the invention. The operating device is set up to one embodiment perform the method of the invention. For this purpose, the operating device can have a processor device which contains program code which, when executed by the processor device, carries out an embodiment of the method according to the invention. For this purpose, the processor device can have, for example, a microprocessor or a microcontroller. Furthermore, the processor device can have a memory in which the program code is stored.

Schließlich gehört zu der Erfindung auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung. Das Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen, ausgestaltet.Finally, the invention also includes a motor vehicle with the operating device according to the invention. The motor vehicle is preferably designed as a motor vehicle, in particular as a passenger car.

Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt:

1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs und
2 ein Flussschaudiagramm zur Veranschaulichung einer Ausführungsform des erfindungsgemäßen Verfahrens, die durch eine Bedienvorrichtung des Kraftfahrzeugs von 1 ausgeführt werden kann.

An exemplary embodiment of the invention is described below. This shows:

1 a schematic representation of an embodiment of the motor vehicle according to the invention and
2nd a flow chart diagram for illustrating an embodiment of the method according to the invention, which is performed by an operating device of the motor vehicle from 1 can be executed.

Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiment explained below is a preferred embodiment of the invention. In the exemplary embodiment, the described components of the embodiment each represent individual features of the invention that are to be considered independently of one another, which further develop the invention independently of one another and are therefore also to be regarded individually or in a combination other than the one shown as part of the invention. Furthermore, the described embodiment can also be supplemented by further features of the invention that have already been described.

In den Figuren sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.In the figures, elements with the same function are each provided with the same reference symbols.

1 zeigt ein Kraftfahrzeug 10, bei dem es sich um einen Kraftwagen, insbesondere einen Personenkraftwagen, handeln kann. Das Kraftfahrzeug 10 kann eine Bedienvorrichtung 11 aufweisen, mittels welcher ein Benutzer 12 zumindest eine Fahrzeugkomponente 13 des Kraftfahrzeugs 10 bedienen kann. Die Fahrzeugkomponente 13 kann beispielsweise ein Infotainmentsystem (Information-Unterhaltungssystem) des Kraftfahrzeugs 10 sein. 1 shows a motor vehicle 10 , which can be a motor vehicle, in particular a passenger car. The car 10 can be an operating device 11 by means of which a user 12th at least one vehicle component 13 of the motor vehicle 10 can operate. The vehicle component 13 can, for example, an infotainment system (information entertainment system) of the motor vehicle 10 be.

Durch die Bedienvorrichtung 11 ist hierbei eine Sprachbedienung der zumindest einen Fahrzeugkomponente 13 ermöglicht. Hierzu kann der Benutzer 12 einen Sprachbefehl 14 aussprechen, welcher als Sprachschall durch eine Mikrofonanordnung 15 des Kraftfahrzeugs 10 empfangen werden kann. Die Mikrofonanordnung 15 kann in bekannter Weise zum Beispiel ein oder mehrere Mikrofone umfassen. Ein Mikrofonsignal 16 der Mikrofonanordnung 15 kann durch die Bedienvorrichtung 11 empfangen werden. Die Bedienvorrichtung 11 kann das Mikrofonsignal 16 selbst oder aus dem Mikrofonsignal 16 erzeugten Erkennungsmerkmale, beispielsweise cepstrale Koeffizienten, als ein Sprachsignal 17 an mehrere Spracherkenner 18,19 ausgeben. Zumindest einer der Spracherkenner 18,19 kann ein fahrzeugeigener Spracherkenner sein, was in 1 durch den Spracherkenner 18 symbolisiert ist. Zumindest ein weiterer Spracherkenner 19 kann ein fahrzeugexterner Spracherkenner sein, was in 1 durch den Spracherkenner 19 symbolisiert ist.Through the control device 11 is a voice control of the at least one vehicle component 13 enables. The user can do this 12th a voice command 14 pronounce which as speech sound through a microphone arrangement 15 of the motor vehicle 10 can be received. The microphone arrangement 15 can comprise, for example, one or more microphones in a known manner. A microphone signal 16 the microphone arrangement 15 can by the control device 11 be received. The control device 11 can the microphone signal 16 itself or from the microphone signal 16 generated recognition features, for example cepstral coefficients, as a speech signal 17th to several speech recognizers 18th , 19th output. At least one of the speech recognizers 18th , 19th can be an in-vehicle speech recognizer, what in 1 through the speech recognizer 18th is symbolized. At least one other speech recognizer 19th can be a vehicle-external speech recognizer, what in 1 through the speech recognizer 19th is symbolized.

Das Sprachsignal 17 kann an den fahrzeugexternen Spracherkenner 19 beispielsweise über eine Kommunikationseinrichtung 20 des Kraftfahrzeugs 10 ausgesendet werden. Die Kommunikationseinrichtung 20 kann beispielsweise ein Mobilfunkmodul und/oder ein WLAN-Funkmodul umfassen. Mittels der Kommunikationseinrichtung 20 kann eine Funkverbindung 21 beispielsweise zu einem Mobilfunknetzwerk 22 oder einen WLAN-Router aufgebaut oder bereitgestellt werden. Insgesamt kann somit eine Kommunikationsverbindung 23 zwischen der Bedienvorrichtung 11 und dem Spracherkenner 19 bereitgestellt werden, die auch über das Internet 24 führen kann. Jeder der Spracherkenner 18,19 wird mit einem vorbestimmten Erkennungsvokabular 25,26 betrieben. Hierdurch kann jeder der Spracherkenner 18,19 für eine vorbestimmte Befehlsdomäne, zum Beispiel das Bedienen einer Navigationseinrichtung oder eines Telefons, spezialisiert sein. Es kann auch ein allgemeines Erkennungsvokabular ohne Spezialisierung oder es können mehre Erkennungsvokabularien mit unterschiedlich großem Wortschatz vorgesehen sein, die dann unterschiedliche Grade der Spezialisierung ergeben.The speech signal 17th can on the vehicle-external speech recognizer 19th for example via a communication device 20 of the motor vehicle 10 be sent out. The communication device 20 can include, for example, a mobile radio module and / or a WLAN radio module. By means of the communication device 20 can have a radio link 21st for example to a cellular network 22 or a WLAN router can be set up or provided. Overall, a communication connection can thus be established 23 between the control device 11 and the speech recognizer 19th are also provided on the Internet 24th can lead. Each of the speech recognizers 18th , 19th with a predetermined recognition vocabulary 25th , 26 operated. This allows each of the speech recognizers 18th , 19th be specialized for a predetermined command domain, for example operating a navigation device or a telephone. A general recognition vocabulary without specialization can also be provided, or more recognition vocabularies with different vocabulary sizes can be provided, which then result in different degrees of specialization.

Jeder der Spracherkenner 18,19 soll auf der Grundlage seines Erkennungsvokabulars 25,26 aus dem Sprachsignal 17 den Sprachbefehl 14 ermitteln. Das hierdurch entstehende jeweilige Erkennungsergebnis 27,28 hängt dabei vom verwendeten Erkennungsvokabular 25,26 ab. Es kann sein, dass einer der Spracherkenner 18,19 den Sprachbefehl 14 gar nicht oder nur teilweise (nur einige Worte) oder vollständig erkennen kann.Each of the speech recognizers 18th , 19th is said to be based on its recognition vocabulary 25th , 26 from the speech signal 17th the voice command 14 determine. The resulting recognition result 27 , 28 depends on the recognition vocabulary used 25th , 26 from. It may be that one of the speech recognizers 18th , 19th the voice command 14 not at all or only partially (only a few words) or completely.

Um aus zumindest einem der Erkennungsergebnis 27,28 ein Steuersignal 29 zum Steuern der zumindest einen Fahrzeugkomponente 13 zu erzeugen, wird durch die Bedienvorrichtung 11 zum Beispiel das im Folgenden anhand von 2 veranschaulichte Verfahren durchgeführt.Order from at least one of the recognition result 27 , 28 a control signal 29 for controlling the at least one vehicle component 13 to generate, is by the control device 11 for example the following based on 2nd illustrated procedures performed.

In einem Schritt S1 kann das Sprachsignal 17 an die Spracherkenner 18,19 ausgesendet werden. Davor oder danach kann in einem Schritt S2 eine Timereinrichtung 30 auf eine vorbestimmte Maximaldauer eingestellt und gestartet werden. Falls die Timereinrichtung 30 abläuft, unterbricht die Bedienvorrichtung 11 das Warten auf weitere Erkennungsergebnisses 27,28.In one step S1 can the voice signal 17th to speech recognizers 18th , 19th be sent out. Before or after it can be done in one step S2 a timer device 30th be set to a predetermined maximum duration and started. If the timer setup 30th expires, the control device interrupts 11 waiting for further recognition results 27 , 28 .

Nachdem der schnellste der Spracherkenner 18,19 mit dem Erkennungsvorgang fertig ist, empfängt die Bedienvorrichtung 11 in einem Schritt S3 ein erstes Erkennungsergebnis 27,28 von diesem Spracherkenner 18,19. In dem vorliegenden Beispiel sei angenommen, dass der fahrzeugeigene Spracherkenner 18 zuerst sein Erkennungsergebnis 27 bereitstellt.After the fastest of the speech recognizers 18th , 19th the control device receives the recognition process 11 in one step S3 a first recognition result 27 , 28 from this speech recognizer 18th , 19th . In the present example it is assumed that the vehicle's speech recognizer 18th first his recognition result 27 provides.

In einem Schritt S4 kann durch die Bedienvorrichtung 11 überprüft werden, ob die Kommunikationsverbindung 23 zum weiteren Spracherkenner 19 noch bereitsteht oder zum Beispiel aufgrund eines Funkloches die Kommunikationsverbindung 23 abgebrochen oder unterbrochen ist.In one step S4 can by the control device 11 be checked whether the communication link 23 for further speech recognizer 19th is still available or, for example, due to a radio hole, the communication link 23 is broken off or interrupted.

Falls die Kommunikationsverbindung 23 noch bereitsteht (in 2 durch ein Plus-Zeichen „+“ symbolisiert), so kann in einem Schritt S5 überprüft werden, ob es sich bei dem Erkennungsergebnis 27 (das heißt dem ersten oder frühesten Erkennungsergebnis) um einen Sprachbefehl aus einer Befehlsdomäne handelt, für welche der verbleibende Spracherkenner 19 ein spezialisiertes Erkennungsvokabular 26 aufweist. Ein solcher spezialisierter Spracherkenner ist hier als TopSR (Top Speech Recognizer) bezeichnet. In dem vorliegenden Beispiel sei angenommen, dass der Spracherkenner 19 ein spezialisierter Spracherkenner TopSR ist, während der Spracherkenner 18 für die Befehlsdomäne, wie sie anhand des Erkennungsergebnisses 27 ermittelt wurde, kein spezialisierter Spracherkenner ist. Entsprechend fällt die Prüfung im Schritt S5 positiv aus (Plus-Zeichen „+“). Daraufhin wird die Timereinrichtung 30 in einem Schritt S6 auf eine verlängerte Wartezeit eingestellt. In einem Schritt S7 läuft dann ein Wartevorgangs 31 ab, in welchen die Bedienvorrichtung 11 auf weitere Erkennungsergebnisses 28 wartet.If the communication link 23 is still available (in 2nd symbolized by a plus sign "+"), so in one step S5 be checked whether the recognition result 27 (ie the first or earliest recognition result) is a voice command from a command domain for which the remaining speech recognizer 19th a specialized recognition vocabulary 26 having. Such a specialized speech recognizer is referred to here as TopSR (Top Speech Recognizer). In the present example it is assumed that the speech recognizer 19th TopSR is a specialized speech recognizer, while the speech recognizer 18th for the command domain as it is based on the recognition result 27 was determined, is not a specialized speech recognizer. Accordingly, the exam falls in step S5 positive (plus sign "+"). Thereupon the timer device 30th in one step S6 set for an extended waiting period. In one step S7 a waiting process then runs 31 in which the operating device 11 for further recognition results 28 wait.

Falls in dem Schritt S5 erkannt wird, dass kein spezialisierter Spracherkenner vorhanden ist oder falls während des Wartevorgangs 31 ein weiteres Erkennungsergebnis eintrifft, kann in einem Schritt S8 (in 2 durch ein Minus-Zeichen „-“ symbolisiert) zu dem jeweiligen Erkennungsergebnis 27,28 ein Konfidenzwert CONF mit einem Schwellenwert C0 verglichen werden. Ist der Konfidenzwert kleiner als der Schwellenwert C0 (LOW) so wird in dem Schritt S7 der Wartevorgangs 31 zum empfangen zumindest eines weiteren Erkennungsergebnisses fortgesetzt. Falls der erste Spracherkenner 18 bereits ein TopSR ist, kann im Schritt S5 ebenfalls zum Schritt S8 gewechselt werden.If in the step S5 it is recognized that there is no specialized speech recognizer or if during the waiting process 31 Another recognition result arrives in one step S8 (in 2nd symbolized by a minus sign "-") to the respective recognition result 27 , 28 a confidence level CONF with a threshold C0 be compared. If the confidence value is less than the threshold C0 (LOW) so in the step S7 the waiting process 31 continued to receive at least one further recognition result. If the first speech recognizer 18th is already a TopSR can walk S5 also to step S8 change.

Ist der Konfidenzwert CONF größer als der Schwellenwert C0, (HIGH), so wird in einem Schritt S9 dieses Erkennungsergebnis als finales Erkennungsergebnis FINAL bereitgestellt. Das Finale Erkennungsergebnis FINAL kann zum Erzeugen des Steuersignals 29 zugrunde gelegt oder verwendet werden.If the CONF confidence value is greater than the threshold C0 , (HIGH), so in one step S9 this recognition result is provided as the final recognition result FINAL. The final detection result FINAL can be used to generate the control signal 29 used or used as a basis.

Falls in dem Schritt S4 erkannt wird, dass die Kommunikationsverbindung 23 nicht mehr bereitsteht (in 2 durch ein Minus-Zeichen „-“ symbolisiert), so kann ebenfalls zu dem Schritt S8 gewechselt werden, um zu dem ersten Erkennungsergebnis 27 dessen Konfidenzwert CONF mit dem Schwellenwert C0 zu vergleichen.If in the step S4 it is recognized that the communication link 23 is no longer available (in 2nd symbolized by a minus sign "-"), you can also go to the step S8 be switched to the first recognition result 27 whose confidence value CONF with the threshold value C0 to compare.

Der Schritt S8 kann für das erste Erkennungsergebnis 27 und/oder für das Erkennungsergebnis 28 des spezialisierten Spracherkenners TopSR ausgelassen werden, wie dies in 2 durch alternative Verlaufspfade 32 angedeutet ist.The step S8 can for the first recognition result 27 and / or for the recognition result 28 of the specialized speech recognizer TopSR, as shown in 2nd through alternative paths 32 is indicated.

Der Wartevorgang 31 aus dem Schritt S7 und das Überprüfen des Konfidenzwert CONF im Schritt S8 können so lange wiederholt werden, bis der die Timereinrichtung 30 einen Timerablauf signalisiert.The waiting process 31 out of step S7 and checking the CONF confidence value in step S8 can be repeated until the timer device 30th signals a timer expiration.

Es kann vorgesehen sein, dass das Erkennungsergebnis 27,28 eine Spracherkenners 18,19 jeweils eine ganze Sprachphrase aus mehreren Worten enthält. Es kann aber auch vorgesehen sein, dass einer oder einige oder alle der Spracherkenner 18,19 als Erkennungsergebnis 27,28 jeweils mehrere erkannte Sprachphrasen umfassen. Das Finale Erkennungsergebnis FINAL aus dem Schritt S9 kann dann mehrere Sprachphrasen enthalten, von denen dann eine als Grundlage zum erzeugen des Steuerbefehls 29 verwendet werden kann. Eine solche Auswahl kann mit einer Methode aus dem Stand der Technik getroffen werden, beispielsweise auf der Grundlage einer Auswahl gemäß der N-Best-Analyse eines Erkennungsergebnisses eines Spracherkenners.It can be provided that the recognition result 27 , 28 a speech recognizer 18th , 19th contains an entire language phrase consisting of several words. However, it can also be provided that one or some or all of the speech recognizers 18th , 19th as a recognition result 27 , 28 each include several recognized speech phrases. The final recognition result FINAL from the step S9 can then contain several speech phrases, one of which is then used as the basis for generating the control command 29 can be used. Such a selection can be made with a method from the prior art, for example on the basis of a selection according to the N-best analysis of a recognition result of a speech recognizer.

Insgesamt zeigt das Beispiel, wie durch die Erfindung in einem Kraftfahrzeug eine verteilte Spracherkennung bereitgestellt werden kann.Overall, the example shows how distributed speech recognition can be provided by the invention in a motor vehicle.

Claims

Method for activating a plurality of speech recognizers in order to determine at least one recognition result (27, 28) for a speech signal (17) which contains a speech command (14) to be recognized for a voice operation, the speech signal (17) being activated by an operating device (11) the speech recognizer (18, 19) is transmitted, some or all of which have different Recognition vocabularies (25, 27) are operated so that they each specialize in a predetermined command domain for voice control, and the operating device (11) sets a timer device (30) for a maximum duration of a waiting process for receiving recognition results, a first recognition result is received from a first of the speech recognizers (18, 19) and a target command domain is determined on the basis of the received first recognition result, characterized in that it is checked whether a speech recognizer (18, 19) whose recognition result is still pending for the target Command domain is specialized, and if the recognition result of the specialized speech recognizer (18, 19) is still outstanding, the timer device (30) is set in such a way that the outstanding recognition result (27) is waited for at least a predetermined minimum period of time, with the recognition result of the specialized speech recognition still outstanding ers (18, 19) a remaining period of the timer device (30) is extended to or by the minimum period.

Procedure according to Claim 1 , in the event that the speech recognizer (18, 19) specialized for the desired command domain is missing, a confidence value is taken from the received first recognition result and compared with a threshold value, and if the confidence value is smaller than the threshold value, the first recognition result discarded and waiting for a next recognition result.

Method according to one of the preceding claims, wherein after receiving the first recognition result, it is first checked whether at least one of the other speech recognizers (18, 19) can still be reached via a respective communication link (23) for receiving a recognition result, and only in this case Target command domain is determined and otherwise the first recognition result is provided as the final recognition result.

Procedure according to Claim 3 In the event that at least one of the other speech recognizers (18, 19) can be reached via the respective communication link (23), at least one further recognition result is waited until one of the two following conditions is met: a further recognition result received, which has a confidence value that is greater than a predetermined threshold value, or the timer device (30) signals a timer expiration.

Method according to one of the preceding claims, wherein recognition vocabularies (25, 27) are provided for at least one of the following command domains: operating a navigation device, operating an infotainment system, operating a telephone device, operating a media player device, operating a search device.

Method according to one of the preceding claims, wherein the speech signal (17) is transmitted to at least one device-internal speech recognizer (18) and to at least one device-external speech recognizer (19).

Operating device (11) for operating a motor vehicle (10) by means of voice control, the operating device (11) being set up to carry out a method according to one of the preceding claims.

Motor vehicle (10) with an operating device (11) Claim 7 .