DE102016005629B4 - Motor vehicle operating device and method for determining at least one recognition result for a speech signal - Google Patents
Motor vehicle operating device and method for determining at least one recognition result for a speech signal Download PDFInfo
- Publication number
- DE102016005629B4 DE102016005629B4 DE102016005629.0A DE102016005629A DE102016005629B4 DE 102016005629 B4 DE102016005629 B4 DE 102016005629B4 DE 102016005629 A DE102016005629 A DE 102016005629A DE 102016005629 B4 DE102016005629 B4 DE 102016005629B4
- Authority
- DE
- Germany
- Prior art keywords
- recognition result
- speech
- recognition
- speech recognizer
- operating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000003213 activating effect Effects 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Abstract
Verfahren zum Ansteuern mehrerer Spracherkenner, um zumindest ein Erkennungsergebnis (27, 28) zu einem Sprachsignal (17) zu ermitteln, das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung enthält, wobei durch eine Bedienvorrichtung (11) das Sprachsignal (17) an die Spracherkenner (18, 19) übermittelt wird, von denen einige oder alle mit unterschiedlichen Erkennungsvokabularien (25, 27) betrieben werden, so dass sie jeweils für eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert sind, und durch die Bedienvorrichtung (11) eine Timereinrichtung (30) für eine Maximaldauer eines Wartevorgangs zum Empfangen von Erkennungsergebnissen eingestellt wird, wobei ein erstes Erkennungsergebnis aus einem ersten der Spracherkenner (18, 19) empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird, dadurch gekennzeichnet, dass überprüft wird, ob ein Spracherkenner (18, 19), dessen Erkennungsergebnis noch aussteht, für die Soll-Befehlsdomäne spezialisiert ist, und bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners (18, 19) die Timereinrichtung (30) derart eingestellt wird, dass auf das ausstehende Erkennungsergebnis (27) für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird, wobei bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners (18, 19) eine Restzeitdauer der Timereinrichtung (30) auf oder um die Mindestzeitdauer verlängert wird.Method for controlling a plurality of speech recognizers in order to determine at least one recognition result (27, 28) for a speech signal (17) which contains a speech command (14) to be recognized for a voice control, the voice signal (17) being activated by an operating device (11) the speech recognizer (18, 19) is transmitted, some or all of which are operated with different recognition vocabularies (25, 27), so that they are each specialized for a predetermined command domain of the voice control, and by the operating device (11) a timer device (30 ) is set for a maximum duration of a waiting process for receiving recognition results, a first recognition result being received from a first one of the speech recognizers (18, 19) and a target command domain being determined on the basis of the received first recognition result, characterized in that it is checked whether a speech recognizer (18, 19), whose recognition result is still pending, for the Target command domain is specialized, and if the recognition result of the specialized speech recognizer (18, 19) is still outstanding, the timer device (30) is set such that the outstanding recognition result (27) is waited for at least a predetermined minimum period of time, with the recognition result still outstanding specialized speech recognizer (18, 19) a remaining period of the timer device (30) is extended to or by the minimum period.
Description
Die Erfindung betrifft ein Verfahren zum Ansteuern zumindest eines Spracherkenners zum Minimieren einer Latenz beim Ermitteln eines Erkennungsergebnisses zu einem Sprachsignal, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält. Zum Ermitteln des Erkennungsergebnisses werden mehrere Spracherkenner betrieben. Zu der Erfindung gehört auch eine Bedienvorrichtung zum Durchführen des erfindungsgemäßen Verfahrens. Schließlich umfasst die Erfindung auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung.The invention relates to a method for controlling at least one speech recognizer to minimize latency when determining a recognition result for a speech signal which contains a speech command to be recognized for a voice control. Several speech recognizers are operated to determine the recognition result. The invention also includes an operating device for carrying out the method according to the invention. Finally, the invention also includes a motor vehicle with the operating device according to the invention.
Im Zusammenhang mit der Erfindung ist unter einem Spracherkenner eine Erkennungseinrichtung zu verstehen, die eine automatisierte Spracherkennung (ASR-Automatic Speech Recognition) durchführt. Eine solche Spracherkennung kann beispielsweise auf der Grundlage von Hidden-Markov-Modellen erzeugt werden.In connection with the invention, a speech recognizer is to be understood as a recognition device which carries out automated speech recognition (ASR-Automatic Speech Recognition). Such speech recognition can be generated, for example, on the basis of hidden Markov models.
Die Bedienung eines Kraftfahrzeugs mittels Sprachbedienung ist aus der
Beim Betrieb mehrerer Spracherkenner zum Ermitteln zumindest eines Erkennungsergebnisses ergibt sich das Problem, dass nicht alle Spracherkenner zugleich ihr jeweiliges Erkennungsergebnis bereitstellen. Die Spracherkenner benötigen unterschiedlich viel Zeit, um ein Erkennungsergebnis zu ermitteln und dieses an die Bedienvorrichtung zu übertragen. Daher stellt sich die Frage, ab welchem Zeitpunkt nach dem Eintreffen eines ersten Erkennungsergebnisses der Spracherkennungsvorgang abgebrochen werden soll, um die bis dahin empfangenen Erkennungsergebnisse für den weiteren Steuervorgang oder Bedienvorgang des Kraftfahrzeugs zu nutzen. Liegt beispielsweise schon ein richtiges Erkennungsergebnis vor, so sollte gleich mit der Umsetzung des durch das Erkennungsergebnis beschriebenen Sprachbefehls fortgefahren werden, da ansonsten aus Sicht des Bedieners eine unnötige Verzögerung entsteht.When several speech recognizers are operated to determine at least one recognition result, the problem arises that not all speech recognizers simultaneously provide their respective recognition results. The speech recognizers need different amounts of time to determine a recognition result and to transmit this to the operating device. Therefore, the question arises from what point in time after the arrival of a first recognition result the speech recognition process should be terminated in order to use the recognition results received up to that point for the further control process or operating process of the motor vehicle. If, for example, there is already a correct recognition result, the implementation of the voice command described by the recognition result should continue immediately, since otherwise the operator sees an unnecessary delay.
Eine Sprachbedienung für eine Suchfunktion einer Datenbank ist aus der
Aus der
Aus der
Aus der
Aus der
Aus der
Der Erfindung liegt die Aufgabe zugrunde, eine Betriebsstrategie für eine Sprachbedienung bereitzustellen, die zum Erkennen eines Sprachbefehls mehrere Spracherkenner gleichzeitig oder parallel betreibt.The invention is based on the object of providing an operating strategy for voice control which operates a plurality of speech recognizers simultaneously or in parallel in order to recognize a voice command.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren gegeben.The object is solved by the subject matter of the independent claims. Advantageous developments of the invention are given by the features of the dependent claims, the following description and the figures.
Durch die Erfindung ist ein Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält, bereitgestellt. Durch eine Bedienvorrichtung wird das Sprachsignal an mehrere Spracherkenner übermittelt. Insbesondere ist eine Sprachbedienung eines Kraftfahrzeugs vorgesehen. Die Bedienvorrichtung kann beispielsweise als ein Steuergerät des Kraftfahrzeugs ausgestaltet sein. Das Verfahren ist aber auch in einem anderen Gerät vorsehbar, z.B. in einem portablen, mobilen Endgerät, wie z.B. einem Smartphone, einem Tablet-PC oder einer Smartwatch.The invention provides a method for determining at least one recognition result for a voice signal that contains a voice command to be recognized for voice control. The speech signal is transmitted to several speech recognizers by an operating device. In particular, voice control of a motor vehicle is provided. The operating device can be configured, for example, as a control unit of the motor vehicle. However, the method can also be provided in another device, e.g. in a portable, mobile device, e.g. a smartphone, a tablet PC or a smartwatch.
Von den Spracherkennern werden einige oder alle mit unterschiedlichen Erkennungsvokabularien betrieben. Hierdurch sind sie für jeweils eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert. Insbesondere ist vorgesehen, dass Erkennungsvokabularien für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung (zum Beispiel eines MP3-Abspielgerät), eine Bedienung einer Sucheinrichtung (zum Beispiel für eine Suche in einem digitalen Telefonbuch oder eine Suche im Internet). Mit „zumindest eine“ ist hierbei gemeint, dass eine oder einige oder alle der besagten Befehlsdomänen umfasst sein können. Some or all of the speech recognizers operate with different recognition vocabularies. As a result, they are specialized for a predetermined command domain of voice control. In particular, it is provided that recognition vocabularies are provided for at least one of the following command domains: operation of a navigation device, operation of an infotainment system, operation of a telephone device, operation of a media player (for example an MP3 player), operation of a search device (for example for a search in a digital phone book or a search on the Internet). Here, “at least one” means that one or some or all of the said command domains can be included.
Das Sprachsignal mit dem darin enthaltenen Sprachbefehl wird also an mehrere, gleichzeitig betriebene Spracherkenner ausgesendet, damit diese jeweils ein Erkennungsergebnis erzeugen und dieses zurück an die Bedienvorrichtung aussenden oder übermitteln. Durch die Bedienvorrichtung wird eine Timereinrichtung für eine Maximaldauer eines Wartevorgangs zum Empfangen von Erkennungsergebnissen eingestellt. Falls nach Ablauf der Maximaldauer kein Erkennungsergebnis empfangen wird, so wird der Erkennungsvorgang bevorzugt abgebrochen und der Benutzer beispielsweise aufgefordert, den Sprachbefehl noch einmal auszusprechen oder auf eine andere Eingabemodalität, zum Beispiel eine manuelle Bedienung, zu wechseln. Die Timereinrichtung kann in an sich bekannter Weise realisiert sein, beispielsweise als ein Programmodul, das einen sogenannten Countdown ausführt.The voice signal with the voice command contained therein is thus sent out to a plurality of voice recognizers which are operated simultaneously, so that they each produce a recognition result and send it back to the operating device or transmit it. A timer device for a maximum duration of a waiting process for receiving recognition results is set by the operating device. If no recognition result is received after the maximum duration has elapsed, the recognition process is preferably terminated and the user is asked, for example, to issue the voice command again or to switch to another input modality, for example manual operation. The timer device can be implemented in a manner known per se, for example as a program module that executes a so-called countdown.
Der Sprachbefehl kann aus einem Wort bestehen, z.B. einem Städtenamen bei der Eingabe eines Navigationsziels. Bei dem Sprachbefehl kann es sich auch um eine vollständige Phrase (mehrere Wörter) handeln. Beispielsweise kann der Sprachbefehl besagen: „Fahre mich zum Restaurant XY!“ Hierbei können allgemeine Worte wie „Fahre“ und „Restaurant“ in einem Erkennungsvokabular eines nicht-spezialisierten Spracherkenners enthalten sein. Dagegen bedarf es eines spezialisierten Erkennungsvokabulars, um auch die Namen einzelner Restaurants, wie zum Beispiel „XY“ ebenfalls fehlerfrei erkennen zu können. Ein nicht-spezialisierter Spracherkenner kann somit beispielsweise in seinen Erkennungsergebnis zwar die erkannten Worte „Fahre“ und „Restaurant“ angeben, aber anstelle des Namens des Restaurants („XY“) ein unerkanntes Wort signalisieren. Dagegen kann durch einen spezialisierten Spracherkenner, der das Erkennungsvokabular zum Beispiel für eine Navigation oder für eine Navigation zu vorbestimmten Fahrzielen (POI-Point-of-Interest) verwendet, auch der Name erkannt werden.The voice command can consist of one word, e.g. a city name when entering a navigation destination. The voice command can also be a complete phrase (several words). For example, the voice command can say: "Drive me to restaurant XY!" Here, general words such as "drive" and "restaurant" can be contained in a recognition vocabulary of a non-specialized speech recognizer. In contrast, a specialized recognition vocabulary is required in order to also be able to recognize the names of individual restaurants, such as "XY", without errors. A non-specialized speech recognizer can thus, for example, specify the recognized words "drive" and "restaurant" in their recognition result, but instead of the name of the restaurant ("XY") signal an unrecognized word. In contrast, the name can also be recognized by a specialized speech recognizer who uses the recognition vocabulary, for example, for navigation or for navigation to predetermined travel destinations (POI point of interest).
Falls nun ein frühestes oder erstes Erkennungsergebnis von einem ersten Spracherkenner empfangen wird oder eintrifft, stellt sich die Frage, ob man dieses erste Erkennungsergebnis nutzen sollte, um möglichst schnell den Sprachbefehl, wie er gemäß den Erkennungsergebnis erkannt wurde, umzusetzen, oder ob auf noch zumindest ein weiteres Erkennungsergebnis gewartet werden soll. Die letztere Entscheidung erzeugt aus Sicht des Benutzers eine Reaktionsverzögerung der Bedienvorrichtung.If an earliest or first recognition result is now received or received by a first speech recognizer, the question arises whether this first recognition result should be used to implement the voice command as quickly as possible, or whether it should at least be implemented another recognition result is to be maintained. From the user's point of view, the latter decision creates a delay in the response of the operating device.
Bei dem erfindungsgemäßen Verfahren ist vorgesehen, dass das erste Erkennungsergebnis aus dem ersten Spracherkenner empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird. Bei der Soll-Befehlsdomäne kann es sich um eine Angabe der Befehlsdomäne handeln, die von dem ersten Spracherkenner selbst als Bestandteil des Erkennungsergebnisses bereitgestellt sein kann. Erkennt der Spracherkenner beispielsweise das Wort „Restaurant“ in einem Sprachsignal, welches lautet: „Fahre mich zum Restaurant XY!“, so kann durch den Spracherkenner selbst als Soll-Befehlsdomäne beispielsweise „Navigation“ (Bedienung einer Navigationseinrichtung) angegeben werden. Alternativ dazu kann auch durch die Bedienvorrichtung selbst anhand zumindest eines erkannten Wortes, zum Beispiel „Fahre“ und „Restaurant“ anhand einer vorbestimmten Zuordnungsvorschrift ebenfalls eine soll-Befehlsdomäne ermittelt werden. Die Zuordnungsvorschrift kann beispielsweise auf der Grundlage einer Zuordnungstabelle realisiert sein. Durch die Bedienvorrichtung wird überprüft, ob ein Spracherkenner, dessen Erkennungsergebnis noch aussteht, d.h. noch nicht empfangen wurde, für die Soll-Befehlsdomäne spezialisiert ist. In dem beschriebenen Beispiel wird also überprüft, ob ein Spracherkenner für Befehlsdomäne „Navigation“ mit dem entsprechenden Erkennungsvokabular unter den Spracherkennern vorhanden ist und von diesem spezialisierten Spracherkenner noch kein Erkennungsergebnis empfangen wurde. Bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners wird die beschriebene Timereinrichtung derart eingestellt, dass auf das ausstehende Erkennungsergebnis des spezialisierten Spracherkenners für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird. Mit anderen Worten wird unabhängig von einem aktuellen Timerzustand sichergestellt, dass die Maximaldauer bis zum Abbrechen des Erkennungsvorgangs zumindest die vorbestimmte Mindestzeitdauer beträgt.The method according to the invention provides that the first recognition result is received from the first speech recognizer and that a target command domain is determined on the basis of the received first recognition result. The target command domain can be an indication of the command domain, which can be provided by the first speech recognizer itself as part of the recognition result. If, for example, the speech recognizer recognizes the word "restaurant" in a speech signal which reads: "Drive me to the restaurant XY!", The speech recognizer itself can specify, for example, "navigation" (operation of a navigation device) as the target command domain. Alternatively, a target command domain can also be determined by the operating device itself using at least one recognized word, for example “drive” and “restaurant” using a predetermined assignment rule. The assignment rule can be implemented, for example, on the basis of an assignment table. The operating device checks whether a speech recognizer whose recognition result is still outstanding, i.e. has not yet been received, for which the target command domain specializes. In the example described, it is therefore checked whether a speech recognizer for command domain “navigation” with the corresponding recognition vocabulary is present among the speech recognizers and whether a recognition result has not yet been received by this specialized speech recognizer. If the recognition result of the specialized speech recognizer is still outstanding, the described timer device is set such that the outstanding recognition result of the specialized speech recognizer is waited for at least a predetermined minimum period of time. In other words, regardless of a current timer state, it is ensured that the maximum time until the detection process is terminated is at least the predetermined minimum time period.
Durch die Erfindung ergibt sich der Vorteil, dass überprüft wird, ob ein zuverlässigeres oder besseres oder vollständigeres Erkennungsergebnis zu erwarten ist, weil noch ein spezialisierter Spracherkenner läuft und von diesem ein besseres Erkennungsergebnis zu erwarten ist. In dem beschriebenen Beispiel kann es sein, dass von dem ersten Spracherkenner in dem Erkennungsergebnis zwar die Worte „Fahre“ und „Restaurant“ erkannt werden, aber der spezifische Name des Restaurants, nämlich „XY“, nicht erkannt werden konnte, weil dem ersten Spracherkenner aufgrund seines beschränkten Erkennungsvokabulars der Name des Restaurants unbekannt ist. Dagegen ist die Wahrscheinlichkeit, dass auch der Name des Restaurants erkannt wurde, bei dem Erkennungsergebnis des spezialisierten Spracherkenners größer. Somit ist es sinnvoll, dieses Erkennungsergebnis abzuwarten, anstatt den Benutzer auf der Grundlage des unvollständigen Erkennungsergebnisses des ersten Spracherkenners noch einmal nach dem genauen Namen des Restaurants zu fragen.The advantage of the invention is that it is checked whether a more reliable or better or more complete recognition result can be expected because a specialized speech recognizer is still running and a better recognition result can be expected from it. By doing Example described it may be that the first speech recognizer recognizes the words "drive" and "restaurant" in the recognition result, but the specific name of the restaurant, namely "XY", could not be recognized because the first speech recognizer due to its limited recognition vocabulary the name of the restaurant is unknown. On the other hand, the probability that the name of the restaurant was also recognized is greater in the recognition result of the specialized speech recognizer. It makes sense to wait for this recognition result instead of asking the user again for the exact name of the restaurant based on the incomplete recognition result of the first speech recognizer.
Falls ein für die Soll-Befehlsdomäne spezialisierter Spracherkenner vorhanden ist, so wird bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners eine Restzeitdauer der Timereinrichtung auf die Mindestzeitdauer verlängert. Damit wartet die Bedienvorrichtung nicht nur für die beschriebene Maximaldauer auf das Erkennungsergebnis, sondern es wird eine längere Mindestzeitdauer eingestellt. Alternativ dazu kann auch vorgesehen sein, dass die Mindestzeitdauer eine relative Zeitangabe ist und die Restzeitdauer der Timereinrichtung nicht auf die Mindestzeitdauer, sondern um die Mindestzeitdauer verlängert wird. Hierdurch ist sichergestellt, dass selbst nach einer längeren Wartezeit auf das erste Erkennungsergebnis noch mindestens die Mindestzeitdauer abgewartet wird, um auch das Erkennungsergebnis des spezialisierten Spracherkenners zu empfangen.If there is a speech recognizer specialized for the target command domain, a remaining period of time of the timer device is extended to the minimum period of time if the recognition result of the specialized speech recognizer is still outstanding. The operating device thus not only waits for the recognition result for the maximum duration described, but a longer minimum period of time is set. Alternatively, it can also be provided that the minimum time period is a relative time specification and the remaining time period of the timer device is not extended to the minimum time period, but by the minimum time period. This ensures that even after a longer waiting period for the first recognition result, at least the minimum period of time is still waited in order to also receive the recognition result from the specialized speech recognizer.
Zu der Erfindung gehören auch vorteilhafte Weiterbildungen, durch deren Merkmale sich zusätzliche Vorteile ergeben.The invention also includes advantageous developments, the features of which result in additional advantages.
Für den Fall, dass der für die Soll-Befehlsdomäne spezialisierte Spracherkenner fehlt, d.h. kein Spracherkenner mit dem entsprechenden Erkennungsvokabular betrieben wird, wird bevorzugt aus dem empfangenen 1. Erkennungsergebnis ein Konfidenzwert entnommen und mit einem Schwellenwert verglichen. Der Konfidenzwert kann beispielsweise eine Likelihood angeben, wie sie durch ein Hidden-Markov-Modell ermittelt werden kann. Der Konfidenzwert kann auch ein sogenannter Score sein wie er auf der Grundlage von mehreren erkannten Worten und einer nachgeschalteten Grammatik in an sich bekannter Weise ermittelt werden kann falls der Konfidenzwert kleiner als der Schwellenwert ist, das heißt das Erkennungsergebnis unsicher ist, wird das Erkennungsergebnis verworfen und auf ein nächstes Erkennungsergebnis gewartet. Dies kann so lange fortgesetzt werden, bis der Restwert der Timereinrichtung abgelaufen ist. Falls auch das nächste Erkennungsergebnis einen Konfidenzwert aufweist, der kleiner als der Schwellenwert ist, so kann dieses ebenfalls verworfen werden und auf ein nächstes Erkennungsergebnis gewartet werden. Falls der Konfidenzwert des ersten Erkennungsergebnisses oder eines nächsten Erkennungsergebnisses größer als der Schwellenwert ist, so kann dieses Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt oder verwendet werden. Das verwendete Erkennungsergebnis wird dann zum Ermitteln oder erzeugen des durch den Sprachbefehl beschriebenen Steuersignals z.B. für das Kraftfahrzeug oder ein anderes Gerät verwendet.In the event that the speech recognizer specialized for the target command domain is missing, i.e. if no speech recognizer is operated with the corresponding recognition vocabulary, a confidence value is preferably taken from the received 1st recognition result and compared with a threshold value. The confidence value can, for example, indicate a likelihood as can be determined using a hidden Markov model. The confidence value can also be a so-called score as it can be determined on the basis of several recognized words and a subsequent grammar in a manner known per se, if the confidence value is less than the threshold value, i.e. the recognition result is uncertain, the recognition result is rejected and waited for a next recognition result. This can continue until the residual value of the timer device has expired. If the next detection result also has a confidence value that is smaller than the threshold value, this can also be rejected and a wait for a next detection result. If the confidence value of the first recognition result or a next recognition result is greater than the threshold value, then this recognition result can be provided or used as the final recognition result. The recognition result used is then used to determine or generate the control signal described by the voice command, e.g. used for the motor vehicle or other device.
Wie bereits ausgeführt, kann es sich bei zumindest einem der Spracherkenner um einen vorrichtungsexternen Spracherkenner handeln, der dann zum Beispiel über eine Funkverbindung mit der Bedienvorrichtung gekoppelt sein kann. Deshalb wird nach dem empfangen des ersten Erkennungsergebnisses bevorzugt zunächst überprüft, ob zumindest einer der übrigen Spracherkenner noch über eine jeweilige Kommunikationsverbindung zum empfangen eines Erkennungsergebnisses erreichbar ist. Nur für diesen Fall wird die Soll-Befehlsdomäne ermittelt. Andernfalls, wenn also keiner der übrigen Spracherkenner erreichbar ist, wird das erste Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt.As already stated, at least one of the speech recognizers can be a speech recognizer external to the device, which can then be coupled to the operating device via a radio connection, for example. Therefore, after receiving the first recognition result, it is preferably first checked whether at least one of the other speech recognizers can still be reached via a respective communication link for receiving a recognition result. The target command domain is determined only in this case. Otherwise, if none of the other speech recognizers can be reached, the first recognition result is provided as the final recognition result.
Für den Fall, dass zumindest einer der übrigen Spracherkenner über die jeweilige Kommunikationsverbindung erreichbar ist, wird solange auf zumindest ein weiteres Erkennungsergebnis gewartet, bis eine der beiden folgenden Bedingungen erfüllt ist: Es wird ein weiteres Erkennungsergebnis empfangen, das einen Konfidenzwert aufweist, der größer als ein vorbestimmter Schwellenwert ist, oder die Timereinrichtung signalisiert einen Timerablauf. Bei dem Schwellenwert kann es sich um den bereits beschriebenen Schwellenwert handeln oder um einen anderen Schwellenwert. Es kann also sein, dass selbst das Erkennungsergebnis des spezialisierten Spracherkenners anhand seines Konfidenzwert des über den Schwellenwertvergleich überprüft wird.In the event that at least one of the other speech recognizers can be reached via the respective communication connection, the system waits for at least one further recognition result until one of the two following conditions is met: A further recognition result is received that has a confidence value that is greater than is a predetermined threshold value, or the timer device signals a timer expiration. The threshold value can be the threshold value already described or another threshold value. It may therefore be the case that even the recognition result of the specialized speech recognizer is checked on the basis of its confidence value by means of the threshold value comparison.
Wie bereits ausgeführt, handelt es sich bei den Spracherkennern bevorzugt um zumindest einen vorrichtungseigenen oder vorrichtungsinternen Spracherkenner, der in der Bedienvorrichtung betrieben wird, und um zumindest einen vorrichtungsexternen Spracherkenner, an welchen das Sprachsignal ausgesendet wird. Dies kann über die beschriebene Funkverbindung erfolgen, die beispielsweise eine Mobilfunkverbindung oder eine WLAN-Funkverbindung (WLAN-Wireless local area Network) sein kann.As already stated, the speech recognizers are preferably at least one device-specific or device-internal speech recognizer, which is operated in the operating device, and at least one device-external speech recognizer, to which the speech signal is transmitted. This can be done via the radio connection described, which can be, for example, a cellular connection or a WLAN radio connection (WLAN-Wireless local area network).
Zu der Erfindung gehört auch die beschriebene Bedienvorrichtung zum Bedienen eines Kraftfahrzeugs mittels Sprachbedienung. Die Bedienvorrichtung ist dazu eingerichtet, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Hierzu kann die Bedienvorrichtung eine Prozessoreinrichtung aufweisen, die Programmcode enthält, der bei Ausführen durch die Prozessoreinrichtung eine Ausführungsform des erfindungsgemäßen Verfahrens durchführt. Die Prozessoreinrichtung kann hierzu beispielsweise einen Mikroprozessor oder einen Mikrocontroller aufweisen. Des Weiteren kann die Prozessoreinrichtung einen Speicher aufweisen, in welchem der Programmcode gespeichert ist.The described operating device for operating a motor vehicle by means of voice control also belongs to the invention. The operating device is set up to one embodiment perform the method of the invention. For this purpose, the operating device can have a processor device which contains program code which, when executed by the processor device, carries out an embodiment of the method according to the invention. For this purpose, the processor device can have, for example, a microprocessor or a microcontroller. Furthermore, the processor device can have a memory in which the program code is stored.
Schließlich gehört zu der Erfindung auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung. Das Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen, ausgestaltet.Finally, the invention also includes a motor vehicle with the operating device according to the invention. The motor vehicle is preferably designed as a motor vehicle, in particular as a passenger car.
Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt:
-
1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs und -
2 ein Flussschaudiagramm zur Veranschaulichung einer Ausführungsform des erfindungsgemäßen Verfahrens, die durch eine Bedienvorrichtung desKraftfahrzeugs von 1 ausgeführt werden kann.
-
1 a schematic representation of an embodiment of the motor vehicle according to the invention and -
2nd a flow chart diagram for illustrating an embodiment of the method according to the invention, which is performed by an operating device of the motor vehicle from1 can be executed.
Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiment explained below is a preferred embodiment of the invention. In the exemplary embodiment, the described components of the embodiment each represent individual features of the invention that are to be considered independently of one another, which further develop the invention independently of one another and are therefore also to be regarded individually or in a combination other than the one shown as part of the invention. Furthermore, the described embodiment can also be supplemented by further features of the invention that have already been described.
In den Figuren sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.In the figures, elements with the same function are each provided with the same reference symbols.
Durch die Bedienvorrichtung
Das Sprachsignal
Jeder der Spracherkenner
Um aus zumindest einem der Erkennungsergebnis
In einem Schritt
Nachdem der schnellste der Spracherkenner
In einem Schritt
Falls die Kommunikationsverbindung
Falls in dem Schritt
Ist der Konfidenzwert CONF größer als der Schwellenwert
Falls in dem Schritt
Der Schritt
Der Wartevorgang
Es kann vorgesehen sein, dass das Erkennungsergebnis
Insgesamt zeigt das Beispiel, wie durch die Erfindung in einem Kraftfahrzeug eine verteilte Spracherkennung bereitgestellt werden kann.Overall, the example shows how distributed speech recognition can be provided by the invention in a motor vehicle.
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102016005629.0A DE102016005629B4 (en) | 2016-05-06 | 2016-05-06 | Motor vehicle operating device and method for determining at least one recognition result for a speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102016005629.0A DE102016005629B4 (en) | 2016-05-06 | 2016-05-06 | Motor vehicle operating device and method for determining at least one recognition result for a speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102016005629A1 DE102016005629A1 (en) | 2017-11-09 |
DE102016005629B4 true DE102016005629B4 (en) | 2020-06-25 |
Family
ID=60119143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102016005629.0A Expired - Fee Related DE102016005629B4 (en) | 2016-05-06 | 2016-05-06 | Motor vehicle operating device and method for determining at least one recognition result for a speech signal |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102016005629B4 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3928049A1 (en) | 1989-08-25 | 1991-02-28 | Grundig Emv | VOICE-CONTROLLED ARCHIVE SYSTEM |
DE19942868A1 (en) | 1999-09-08 | 2001-03-15 | Volkswagen Ag | Method for operating a multiple microphone arrangement in a motor vehicle and a multiple microphone arrangement itself |
US20020133346A1 (en) | 2001-03-16 | 2002-09-19 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
US20100312546A1 (en) * | 2009-06-04 | 2010-12-09 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
DE102013011922A1 (en) | 2013-07-17 | 2015-01-22 | Daimler Ag | Method and device for processing a voice utterance of a user in a vehicle |
US20150058018A1 (en) | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
US20150269939A1 (en) | 2012-10-16 | 2015-09-24 | Volkswagen Ag | Speech recognition in a motor vehicle |
-
2016
- 2016-05-06 DE DE102016005629.0A patent/DE102016005629B4/en not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3928049A1 (en) | 1989-08-25 | 1991-02-28 | Grundig Emv | VOICE-CONTROLLED ARCHIVE SYSTEM |
DE19942868A1 (en) | 1999-09-08 | 2001-03-15 | Volkswagen Ag | Method for operating a multiple microphone arrangement in a motor vehicle and a multiple microphone arrangement itself |
US20020133346A1 (en) | 2001-03-16 | 2002-09-19 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US20100312546A1 (en) * | 2009-06-04 | 2010-12-09 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
US20150269939A1 (en) | 2012-10-16 | 2015-09-24 | Volkswagen Ag | Speech recognition in a motor vehicle |
DE102013011922A1 (en) | 2013-07-17 | 2015-01-22 | Daimler Ag | Method and device for processing a voice utterance of a user in a vehicle |
US20150058018A1 (en) | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
Also Published As
Publication number | Publication date |
---|---|
DE102016005629A1 (en) | 2017-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3224831B1 (en) | Motor vehicle operating device with a correction strategy for voice recognition | |
DE102013222507B4 (en) | Method for adapting a speech system | |
DE102013223036B4 (en) | Adaptation methods for language systems | |
DE102014017385B4 (en) | Motor vehicle device operation with operator correction | |
DE102017220266B3 (en) | Method for checking an onboard speech recognizer of a motor vehicle and control device and motor vehicle | |
EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
EP3735688B1 (en) | Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing | |
EP2907048B1 (en) | Motor vehicle having a speech translation system | |
EP3115886B1 (en) | Method for operating a voice controlled system and voice controlled system | |
DE102017200976B4 (en) | Method for operating a motor vehicle with an operating device | |
DE102016005629B4 (en) | Motor vehicle operating device and method for determining at least one recognition result for a speech signal | |
DE102018132160A1 (en) | SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS | |
DE102017211447B4 (en) | Method for selecting a list entry from a selection list of an operating device by means of voice control and operating device | |
DE102017213946B4 (en) | Method for processing a recognition result of an automatic online speech recognizer for a mobile terminal | |
DE102016005731B4 (en) | Method for operating multiple speech recognizers | |
DE10129005A1 (en) | Speech recognition method and speech recognition system | |
DE102016009196B4 (en) | Method for operating multiple speech recognizers | |
DE102009025530A1 (en) | Method for operating a vehicle by means of an automated voice dialogue and a correspondingly designed voice dialogue system and vehicle | |
DE102016003903A1 (en) | Method for speech recognition in a motor vehicle | |
DE102016004287A1 (en) | Method for speech recognition in a motor vehicle | |
DE102023003138B4 (en) | Method for learning a new language for a vehicle user | |
DE102004029873B3 (en) | Method for intelligent input correction for automatic voice dialog system, involves subjecting user answer to confirmation dialog to recognition process | |
DE102013216427B4 (en) | Device and method for means of transport-based speech processing | |
DE102015006662B4 (en) | Method for configuring a voice control device | |
DE102017216513A1 (en) | A method of processing a voice input over which a user specifies a location on an operator terminal, and operating device and motor vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0015220000 Ipc: G10L0015320000 |
|
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |