DE102008062923B4

DE102008062923B4 - Method and device for generating a hit list in automatic speech recognition

Info

Publication number: DE102008062923B4
Application number: DE102008062923.5A
Authority: DE
Inventors: Moritz Neugebauer; Stefan Schulz
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2008-12-23
Filing date: 2008-12-23
Publication date: 2025-11-06
Anticipated expiration: 2028-12-24
Also published as: DE102008062923A1

Abstract

Verfahren zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung, wobei die Trefferliste mindestens eine Trefferlisten-Wortgruppe umfasst, welche ausgehend von einer gesprochenen Wortgruppe von der Spracherkennung als mögliche Treffer erzeugt wird,
wobei jede Wortgruppe mindestens ein Wort umfasst,
dadurch gekennzeichnet,
dass die Trefferliste ausgehend von mindestens einer Ausgangs-Wortgruppe, welche von der Spracherkennung als ein Treffer bestimmt wird, mittels des Levenshtein-Verfahrens erzeugt wird, wobei die Trefferliste die mindestens eine Ausgangs-Wortgruppe umfasst. Method for generating a hit list in automatic speech recognition, wherein the hit list comprises at least one hit list word group which is generated by the speech recognition as possible hits based on a spoken word group,
where each group of words includes at least one word,
characterized by
that the hit list is generated from at least one source word group, which is determined by the speech recognition as a hit, using the Levenshtein method, wherein the hit list includes the at least one source word group.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung, um bei einer automatischen Spracherkennung eine Trefferliste zu erzeugen.The present invention relates to a method and a device for generating a hit list in automatic speech recognition.

Die DE 10 2004 055 230 B3 beschreibt ein Verfahren zur Erkennung einer gesprochenen Eingabe. Dabei wird ein vorgebbares Vokabular in mehrere Abschnitte mit phonetisch ähnlichen Wörtern eingeteilt. In einem ersten Schritt wird die gesprochene Eingabe einem Abschnitt zugeteilt und im zweiten Schritt wird die gesprochene Eingabe aus einem Vokabular des zugeteilten Abschnitts ermittelt.The DE 10 2004 055 230 B3 This describes a method for recognizing spoken input. A predefined vocabulary is divided into several sections containing phonetically similar words. In a first step, the spoken input is assigned to a section, and in a second step, the spoken input is identified from the vocabulary of that assigned section.

Die DE 103 08 611 A1 beschäftigt sich mit der Verwechslungsgefahr von Vokabulareinträgen. Dabei wird mittels des Levenshtein-Algorithmus der Abstand zwischen zwei Phonemfolgen bestimmt.The DE 103 08 611 A1 This study deals with the risk of confusion between vocabulary entries. It uses the Levenshtein algorithm to determine the distance between two phoneme sequences.

Die US 7,386,441 B2 beschreibt eine Verarbeitung natürlicher Sprache mit Operationen, welche auf gewichteten und nicht gewichteten Multi-Tape-Automaten arbeiten.The US 7,386,441 B2 describes natural language processing with operations that operate on weighted and unweighted multi-tape automata.

Die DE 102 44 722 A1 stellt sich die Aufgabe, zwei Folgen lautsprachlicher Einheiten miteinander zu vergleichen. Dabei wird das Levenshtein-Verfahren zur Bestimmung einer Distanz zweier Artikulations-Merkmalsvektoren eingesetzt.The DE 102 44 722 A1 The task is to compare two sequences of spoken language units. The Levenshtein method is used to determine the distance between two articulatory feature vectors.

Die US 6,393,395 B1 betrifft eine Wiedererkennung einer handgeschriebenen Schrift und einer Sprache.The US 6,393,395 B1 This concerns the recognition of handwritten script and language.

Die EP 17 39 655 A2 betrifft ein Verfahren und ein Computerprogrammprodukt zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems.The EP 17 39 655 A2 This concerns a method and a computer program product for generating a list of hypotheses from the vocabulary of a speech recognition system.

Die DE 10 2007 028 235 A1 betrifft ein Verfahren und eine Datenverarbeitungsvorrichtung zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems. The DE 10 2007 028 235 A1 concerns a method and a data processing device for determining a list of hypotheses from a vocabulary of a speech recognition system.

Statistische Spracherkennungssysteme berechnen aus der von einem Nutzer gesprochenen Wortgruppe (z.B. einem Sprachbefehl) eine geordnete Trefferliste von möglichen erkannten Wortgruppen, welche im so genannten Wortschatz des Spracherkennungssystems definiert sind. Diese Trefferliste ist nach einem Konfidenzmaß geordnet, welches die laut Repräsentation der im Wortschatz enthaltenen Wortgruppen mit der tatsächlichen Nutzereingabe (mit der gesprochenen Wortgruppe) vergleicht. In die Berechnung der Ähnlichkeit fließen neben symbolischen Faktoren (z.B. ein entsprechendes im Wortschatz hinterlegtes Lautsymbol) auch signalbezogene Parameter (z.B. Sprechereigenschaften) mit ein. Dies führt dazu, dass dem besten Treffer häufig Alternativen folgen, welche nach der erkannten akustischen Ähnlichkeit geordnet sind. Diese Ordnung ist allerdings dem durchschnittlichen Nutzer nicht nachvollziehbar.Statistical speech recognition systems calculate an ordered list of possible recognized word groups from a user's spoken word group (e.g., a voice command). These word groups are defined in the system's vocabulary. This list is ordered according to a confidence level that compares the word groups represented in the vocabulary with the actual user input (the spoken word group). The similarity calculation incorporates not only symbolic factors (e.g., a corresponding sound symbol stored in the vocabulary) but also signal-related parameters (e.g., speaker characteristics). This often results in the best match being followed by alternatives ordered according to the perceived acoustic similarity. However, this order is not readily apparent to the average user.

Daher ist es die Aufgabe der vorliegenden Erfindung, die Trefferliste bei einer automatischen Spracherkennung derart zu erstellen, dass die Ordnung der Trefferliste dem Nutzer einsichtiger ist, als dies nach dem Stand der Technik der Fall ist.Therefore, the object of the present invention is to create the hit list in an automatic speech recognition system in such a way that the order of the hit list is more intuitive for the user than is the case according to the prior art.

Erfindungsgemäß wird diese Aufgabe durch ein Verfahren zur Erzeugung einer Trefferliste nach Anspruch 1, durch eine Vorrichtung zur Erzeugung einer Trefferliste nach Anspruch 5 und ein Fahrzeug nach Anspruch 7 gelöst. Die abhängigen Ansprüche definieren bevorzugte und vorteilhafte Ausführungsformen der vorliegenden Erfindung.According to the invention, this problem is solved by a method for generating a hit list according to claim 1, by a device for generating a hit list according to claim 5, and by a vehicle according to claim 7. The dependent claims define preferred and advantageous embodiments of the present invention.

Im Rahmen der vorliegenden Erfindung wird ein Verfahren zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung bereitgestellt. Dabei umfasst die Trefferliste mindestens eine Trefferlisten-Wortgruppe, d.h. die Trefferliste umfasst demnach eine oder mehrere Trefferlisten-Wortgruppen. Unter einer Wortgruppe wird dabei eine Aneinanderreihung von einem Wort oder eine Aneinanderreihung von mehreren Wörtern verstanden. Die Trefferliste wird ausgehend von einer beispielsweise von einem Benutzer gesprochenen Wortgruppe von der Spracherkennung als mögliche Treffer erzeugt. Zur Erzeugung der Trefferliste wird von mindestens einer Ausgangs-Wortgruppe (also einer oder mehreren Ausgangs-Wortgruppen) ausgegangen, wobei diese mindestens eine Ausgangs-Wortgruppe von der Spracherkennung als Treffer bestimmt wird. Abhängig oder ausgehend von dieser mindestens einen Ausgangs-Wortgruppe wird mittels des Levenshtein-Verfahrens die Trefferliste derart erstellt, dass die Trefferliste die mindestens eine Ausgangs-Wortgruppe umfasst.The present invention provides a method for generating a hit list in automatic speech recognition. The hit list comprises at least one hit list word group, i.e., it includes one or more hit list word groups. A word group is understood to be a sequence of one word or a sequence of several words. The hit list is generated by the speech recognition system based on a word group spoken, for example, by a user, as potential matches. The hit list is generated from at least one initial word group (i.e., one or more initial word groups), which is identified as a match by the speech recognition system. Based on or depending on this initial word group, the hit list is created using the Levenshtein method such that it includes the initial word group.

Anders ausgedrückt erzeugt die Spracherkennung mehrere Ausgangs-Wortgruppen, aus welchen dann mittels des Levenshtein-Verfahrens die Trefferliste erzeugt wird. Dabei können die Ausgangs-Wortgruppen beispielsweise mittels des Levenshtein-Verfahrens sortiert werden, wie es im Folgenden noch ausgeführt wird, oder es können ausgehend von den Ausgangs-Wortgruppen mittels des Levenshtein-Verfahrens weitere Treffer erzeugt werden, wobei die dann entstehende Trefferliste wiederum mittels des Levenshtein-Verfahrens sortiert werden kann.In other words, speech recognition generates several source word groups, from which the hit list is then generated using the Levenshtein algorithm. The source word groups can be sorted using the Levenshtein algorithm, as will be explained below, or further hits can be generated from the source word groups using the Levenshtein algorithm, and the resulting hit list can then be sorted using the Levenshtein algorithm.

Durch den Einsatz des Levenshtein-Verfahrens entsteht eine Trefferliste, welche aus Wortgruppen oder Zeichenketten besteht und welche mit Hilfe der symbolischen Ähnlichkeit dieser Wortgruppen aufgebaut ist. Dadurch weisen die in der Trefferliste enthaltenen Treffer oder Wortgruppen eine ähnliche Orthographie oder sind entsprechend der Orthographie geordnet, so dass die Trefferliste insgesamt ein Ergebnis der Spracherkennung liefert, welches für den Benutzer nachvollziehbarer ist, als dies nach dem Stand der Technik der Fall ist.The Levenshtein algorithm generates a hit list consisting of word groups or strings, structured based on the symbolic similarity of these groups. This ensures that the hits or word groups in the list share similar spelling or are ordered according to spelling, resulting in a speech recognition result that is more comprehensible to the user than is possible with current technology.

Gemäß einer erfindungsgemäßen Ausführungsform umfasst die Trefferliste mehrere Trefferlisten-Wortgruppen. Dabei ermittelt die Spracherkennung innerhalb der Elemente oder Wortgruppen der Trefferliste den besten Treffer und sortiert die Elemente der Trefferliste gemäß der Levenshtein-Distanz, die jedes Element der Trefferliste jeweils von dem besten Treffer besitzt, wobei der beste Treffer das erste Element der Trefferliste ist. Bei dieser Sortierung wird mit ansteigender Levenshtein-Distanz sortiert, so dass die dem besten Treffer in der Trefferliste folgenden Treffer eine geringere Levenshtein-Distanz aufweisen, als diejenigen Treffer in der Trefferliste, welche weiter hinten oder am Schluss der Trefferliste einsortiert werden. Demnach wird gemäß dieser Ausführungsform nach zunehmender Levenshtein-Distanz geordnet oder sortiert, und die Trefferliste beginnt mit dem besten Treffer bzw. einer Levenshtein-Distanz von 0.According to one embodiment of the invention, the hit list comprises several hit list word groups. The speech recognition system identifies the best match within the elements or word groups of the hit list and sorts the elements of the hit list according to the Levenshtein distance that each element of the hit list has from the best match, with the best match being the first element of the hit list. This sorting is performed with increasing Levenshtein distance, so that the hits following the best match in the hit list have a smaller Levenshtein distance than those hits that are further down or at the end of the hit list. Thus, according to this embodiment, the hit list is ordered or sorted according to increasing Levenshtein distance, and it begins with the best match or a Levenshtein distance of 0.

Die gemäß dieser Ausführungsform entstehende Trefferliste ist gemäß abnehmender symbolischer Ähnlichkeit oder abnehmender Ähnlichkeit auf Buchstabenebene geordnet, so dass diejenigen Treffer, welche eine höhere symbolische Ähnlichkeit mit dem besten Treffer aufweisen, weiter oben in der Trefferliste stehen, als diejenigen Treffer, welche eine geringere symbolische Ähnlichkeit mit dem besten Treffer aufweisen.The hit list resulting from this embodiment is ordered according to decreasing symbolic similarity or decreasing similarity at the letter level, so that those hits which have a higher symbolic similarity to the best hit are higher in the hit list than those hits which have a lower symbolic similarity to the best hit.

Gemäß einer weiteren erfindungsgemäßen Ausführungsform wird der Trefferliste zusätzlich eine oder mehrere weitere Wortgruppen hinzugefügt, welche eine möglichst geringe Levenshtein-Distanz von dem besten Treffer aufweisen. Dabei kann/können diese eine oder diese mehreren weiteren Wortgruppen in einer vorab bestimmten Wortgruppenmenge enthalten sein, welche auch den besten Treffer umfasst.According to a further embodiment of the invention, one or more additional word groups are added to the hit list, which have the smallest possible Levenshtein distance from the best hit. These one or more additional word groups can be contained within a predefined set of word groups, which also includes the best hit.

Mit anderen Worten werden bei dieser Ausführungsform weitere Elemente der Trefferliste hinzugefügt, ohne dass dazu die Spracherkennung eingesetzt wird. Ausgehend von dem besten Treffer, welcher über die Spracherkennung bestimmt wird, werden dabei weitere Wortgruppen bestimmt, welche eine möglichst kleine Levenshtein-Distanz von dem besten Treffer aufweisen. Um dabei nicht völlig unsinnige Wortgruppen zu erzeugen, kann das Verfahren derart eingeschränkt werden, dass vorab eine bestimmte Wortgruppenmenge festgelegt wird (beispielsweise alle Ortsnamen innerhalb einer bestimmten Region), aus welcher die weiteren Wortgruppen entnommen werden müssen.In other words, this embodiment adds further elements to the hit list without using speech recognition. Starting with the best match, which is determined via speech recognition, further word groups are identified that have the smallest possible Levenshtein distance from the best match. To avoid generating completely nonsensical word groups, the procedure can be restricted by predefining a specific set of word groups (for example, all place names within a particular region) from which the further word groups must be drawn.

Im Rahmen der vorliegenden Erfindung wird auch eine Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung bereitgestellt. Dabei umfasst die Vorrichtung Erfassungsmittel (beispielsweise ein Mikrofon), um eine gesprochene Wortgruppe zu erfassen, Spracherkennungsmittel, um ausgehend von der gesprochenen Wortgruppe eine Spracherkennung durchzuführen, und Ausgabemittel (z.B. einen Monitor), um die mittels der Spracherkennung erzeugte Trefferliste auszugeben oder darzustellen. Dabei erzeugen die Spracherkennungsmittel die Trefferliste, indem ausgehend von der gesprochenen Wortgruppe mindestens eine Trefferlisten-Wortgruppe als Treffer der Spracherkennung bestimmt wird. Quasi als Zwischenschritt ermitteln die Spracherkennungsmittel mindestens eine Ausgangs-Wortgruppe, indem die Spracherkennungsmittel abhängig von der gesprochenen Wortgruppe die Spracherkennung durchführen. Mittels des Levenshtein-Verfahrens wird ausgehend von dieser mindestens einen Ausgangs-Wortgruppe die Trefferliste erzeugt, welche die mindestens eine Ausgangs-Wortgruppe umfasst.Within the scope of the present invention, a device for generating a hit list in automatic speech recognition is also provided. The device comprises acquisition means (e.g., a microphone) for capturing a spoken word group, speech recognition means for performing speech recognition based on the spoken word group, and output means (e.g., a monitor) for outputting or displaying the hit list generated by the speech recognition. The speech recognition means generate the hit list by determining at least one hit list word group as a speech recognition hit, starting from the spoken word group. As an intermediate step, the speech recognition means determine at least one source word group by performing speech recognition based on the spoken word group. Using the Levenshtein method, the hit list, which includes this at least one source word group, is generated based on this at least one source word group.

Die Vorteile der erfindungsgemäßen Vorrichtung entsprechen im Wesentlichen den Vorteilen des erfindungsgemäßen Verfahrens, weshalb hier auf eine Wiederholung verzichtet wird.The advantages of the device according to the invention essentially correspond to the advantages of the method according to the invention, which is why a repetition is omitted here.

Schließlich wird im Rahmen der vorliegenden Erfindung ein Fahrzeug bereitgestellt, welches eine erfindungsgemäße Vorrichtung umfasst.Finally, within the scope of the present invention, a vehicle is provided which includes a device according to the invention.

Die vorliegende Erfindung ist insbesondere für die Erzeugung von Sprachbefehlen oder für die Vorgabe von Ortsnamen oder Adressen beispielsweise bei einem Navigationssystem geeignet. Selbstverständlich ist die vorliegende Erfindung nicht auf diesen bevorzugten Anwendungsbereich beschränkt, sondern kann beispielsweise auch bei allgemeinen Diktiersystemen eingesetzt werden.The present invention is particularly suitable for generating voice commands or for specifying place names or addresses, for example in a navigation system. Of course, the present invention is not limited to this preferred area of application, but can also be used, for example, in general dictation systems.

Im Folgenden werden das Levenshtein-Verfahren und erfindungsgemäße Ausführungsformen mit Bezug zu den beigefügten Figuren im Detail erläutert.The Levenshtein process and embodiments according to the invention are explained in detail below with reference to the accompanying figures.

In 1 ist dargestellt, wie bisher und wie mit der vorliegenden Erfindung eine Trefferliste erzeugt wird.In 1 It is shown how a hit list is generated previously and how it is generated with the present invention.

In 2 ist schematisch ein erfindungsgemäßes Fahrzeug mit einer erfindungsgemäßen Vorrichtung zur Erzeugung einer Trefferliste dargestellt.In 2 A vehicle according to the invention is schematically depicted with a device according to the invention for generating a hit list.

Die Levenshtein-Distanz, welche bisweilen auch als Edit-Distanz, Editierdistanz oder Editierabstand bezeichnet wird, gibt in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten (Wortgruppen) bezüglich der minimalen Anzahl der Operationen „Einfügen“, „Löschen“ und „Ersetzen“ an, um die eine der zwei Zeichenketten in die andere der zwei Zeichenketten zu überführen. Die Levenshtein-Distanz trägt ihren Namen nach dem russischen Wissenschaftler Wladimir Levenshtein, der die Levenshtein-Distanz 1965 einführte.The Levenshtein distance, sometimes also called edit distance, edit interval, or edit range, is a measure in information theory of the difference between two strings (word groups) with respect to the minimum number of insert, delete, and replace operations required to transform one string into the other. The Levenshtein distance is named after the Russian scientist Vladimir Levenshtein, who introduced it in 1965.

Um beispielsweise von der Zeichenkette „Tier“ zu der Zeichenkette „Tor“ zu kommen, ist eine Ersetzung und eine Löschung notwendig, so dass die Levenshtein- Distanz demnach 2 beträgt, wie man an unten dargestelltem Vorgehen sieht:

1. Tier
2. Toer (Ersetze i durch o)
3. Tor (Lösche e)

For example, to get from the string "Tier" to the string "Tor", a substitution and a deletion are necessary, so that the Levenshtein distance is therefore 2, as can be seen from the procedure shown below:

1. Animal
2. Toer (Replace i with o)
3rd Gate (Delete e)

Im Folgenden wird ein Algorithmus beschrieben, um die Levenshtein-Distanz zwischen zwei Zeichenketten oder Wortgruppen zu bestimmen.The following describes an algorithm to determine the Levenshtein distance between two strings or groups of words.

Dieser Algorithmus berechnet die Levenshtein-Distanz mittels einer Matrix der Form (n + 1) × (m + 1), wobei n und m jeweils die Länge der zu vergleichenden Zeichenketten sind. Dabei wird die eine Zeichenkette quasi in die -1-te Zeile der Matrix und die andere Zeichenkette in die -1-te Spalte der Matrix, jeweils mit einem führenden Leerzeichen „" (hier ε genannt) geschrieben, wie es unten in Tabelle 1 dargestellt ist.This algorithm calculates the Levenshtein distance using a matrix of the form (n + 1) × (m + 1), where n and m are the lengths of the strings to be compared. One string is written into the first row of the matrix and the other into the first column, each with a leading space (here called ε), as shown in Table 1 below.

Das Element D_0,0, welches in der 0-ten Spalte und in der 0-ten Zeile der Matrix liegt, weist per Definition den Wert 0 auf, d.h. D_0,0 = 0.The element D _0,0 , which lies in the 0th column and in the 0th row of the matrix, has by definition the value 0, i.e. D _0,0 = 0.

Für alle anderen Elemente der Matrix gilt folgende Vorschrift: $D = min {\begin{array}{l} D_{i - 1, i - 1} + 0 (g l e i c h e r B u c h s t a b e) \\ D_{i - 1, i - 1} + 1 (E r s e t z u n g) \\ D_{i, i - 1} + 1 (E inf \ddot{u} g u n g) \\ D_{i - 1, i} + 1 (L \ddot{o} s c h u n g) \end{array}}$ The following rule applies to all other elements of the matrix: $D = min {\begin{array}{l} D_{i - 1, i - 1} + 0 (g l e i c h e r B u c h s t a b e) \\ D_{i - 1, i - 1} + 1 (E r s e t z u n g) \\ D_{i, i - 1} + 1 (E inf \ddot{u} g u n g) \\ D_{i - 1, i} + 1 (L \ddot{o} s c h u n g) \end{array}}$

Somit ergibt sich folgende Tabelle 1: Tabelle 1 ε T o r ε 0 1 2 3 T 1 0 1 2 i 2 1 1 2 e 3 2 2 2 r 4 3 3 2 This results in the following Table 1: Table 1 ε T O r ε 0 1 2 3 T 1 0 1 2 i 2 1 1 2 e 3 2 2 2 r 4 3 3 2

In der oben dargestellten Tabelle ist die eigentliche Matrix, welche die Elemente D_i,j enthält, extra mittels der dicken Linie gekennzeichnet. Die Matrix kann beispielsweise von der oberen linken Ecke (D_0,0) zu der unteren rechten Ecke (D_4,3) gefüllt werden, wobei mit D_0,0 = 0 begonnen wird, wie es oben definiert ist. Der Wert eines Elements D_i,j wird dabei abhängig von seinem linken Nachbarelement D_i,j-1, seinem oberen Nachbarelement D_i-1,j und seinem linken oberen diagonalen Nachbarelement D_i-1,j-1 berechnet. Dabei wird der Wert des Elements mit einer Ausnahme dadurch bestimmt, dass das Minimum aus dem Wert seines linken Nachbarelements, aus dem Wert seines oberen Nachbarelements und aus dem Wert seines linken oberen diagonalen Nachbarelements bestimmt wird und dieses Minimum um 1 erhöht wird. Nur wenn der Wert des linken oberen diagonalen Nachbarelements gleich diesem Minimum ist und gleichzeitig das der Position des Elements entsprechende Zeichen in den beiden Zeichenketten gleich ist, entspricht der Wert des Elements dem Wert seines linken oberen diagonalen Nachbarelements.In the table above, the actual matrix containing the elements D _{i,j} is marked with a thick line. The matrix can be filled, for example, from the upper left corner (D _0,0 ) to the lower right corner (D_4,3 ), starting with D _{0,0} = 0, as defined above. The value of an element D_i,j is calculated based on its left neighbor D_i,j-1 , its upper neighbor D_i-1,j, and its upper left diagonal neighbor D _{i-1,j-1} . With one exception, the element's value is determined by finding the minimum of the value of its left neighbor, its upper neighbor, and its upper left diagonal neighbor, and then increasing this minimum by 1. Only if the value of the upper left diagonal neighbor equals this minimum, and simultaneously the character corresponding to the element's position in the two strings is the same, does the element's value equal the value of its upper left diagonal neighbor.

Im Folgenden ist ein Pseudocode eines Algorithmus zur Bestimmung der Levenshtein-Distanz angeben, wobei diesem Algorithmus mittels s eine erste Zeichenkette der Länge n und mittels t eine zweite Zeichenkette der Länge m vorgegeben wird und der Algorithmus die Levenshtein-Distanz dieser beiden Zeichenketten zurückgibt:

 int Levenshtein-Distanz(char s[1..n], char t[1..m])
     declare int D[0..n, 0..m]
     declare int i, j, cost
     for i : = 0 to n
            D[i,0] := i
     for j :0 1 to n
            D[0,j] := j
     for i := 1 to n
            for j := 1 to m
                   if s[i] = t[j] then cost := 0
                                else cost := 1
                   D[i,j] := minimum( D[i-1,j] + 1, // Einfügen
                                       D[i, j-1]+ 1, // Löschen
                                       D[i-1,j-1] + cost // Ersetzen
                                       return d[n,m]

The following is pseudocode for an algorithm to determine the Levenshtein distance, where this algorithm is given a first string of length n by means of s and a second string of length m by means of t, and the algorithm returns the Levenshtein distance of these two strings:

 int Levenshtein distance(char s[1..n], char t[1..m])
     declare int D[0..n, 0..m]
     declare int i, j, cost
     for i := 0 to n
            D[i,0] := i
     for j :0 1 to n
            D[0,j] := j
     for i := 1 to n
            for j := 1 to m
                   if s[i] = t[j] then cost := 0
                                else cost := 1
                   D[i,j] := minimum( D[i-1,j] + 1, // Insertion
                                       D[i, j-1]+ 1, // Delete
                                       D[i-1,j-1] + cost // Replace
                                       return d[n,m]

In 1 ist dargestellt, wie ein erfindungsgemäßes Verfahren im Vergleich zu einem Verfahren nach dem Stand der Technik arbeitet. Einer Spracherkennungssoftware 5 wird eine gesprochene Eingabe vorgegeben. Über eine Merkmalsextraktion und eine Suche erzeugt die Spracherkennungssoftware 5 eine Trefferliste, bei welcher die einzelnen Elemente lautsprachlich repräsentiert werden. Aus dieser Vorab-Trefferliste wird dann eine Trefferliste erzeugt, wobei die einzelnen Elemente dieser Trefferliste schriftsprachlich repräsentiert sind, d.h. die Elemente dieser Trefferliste sind Wortgruppen oder einzelne Wörter in Schriftform.In 1 Figure 1 illustrates how a method according to the invention works in comparison to a prior art method. A spoken input is provided to speech recognition software 5. Using feature extraction and a search, the speech recognition software 5 generates a hit list in which the individual elements are represented in spoken language. From this preliminary hit list, a hit list is then generated in which the individual elements of this hit list are represented in written language, i.e., the elements of this hit list are word groups or individual words in written form.

Mit dem Bezugszeichen 6 ist die Trefferliste gekennzeichnet, bei welcher die einzelnen Elemente der Trefferliste gemäß der Erkennerkriterien sortiert sind, wie es nach dem Stand der Technik der Fall ist. Mit dem Bezugszeichen 7 ist eine erfindungsgemäß erzeugte Trefferliste gekennzeichnet, wobei die einzelnen Elemente der Trefferliste nach absteigender Levenshtein-Distanz zum besten Treffer, welcher oben in der Trefferliste steht, sortiert sind. Zum besseren Verständnis ist dabei in der Trefferliste 7 die Levenshtein-Distanz in Klammern angegeben.Reference numeral 6 designates the hit list in which the individual elements of the hit list are sorted according to the recognition criteria, as is the case according to the prior art. Reference numeral 7 designates a hit list generated according to the invention, wherein the individual elements of the hit list are sorted in descending order of Levenshtein distance to the best hit, which is at the top of the hit list. For better understanding, the Levenshtein distance is given in parentheses in hit list 7.

Man erkennt, dass die Wortgruppe oder besser das Wort „Beatles“ eine größere symbolische Ähnlichkeit mit dem Wort „Eagles“ aufweist, als mit dem Wort „B-52s“, weshalb das Wort „Eagles“ bei der erfindungsgemäßen Trefferliste 7 an zweiter Stelle steht, während bei der Trefferliste 6 nach dem Stand der Technik das Wort „B-52s“ an zweiter Stelle steht, welches unter den Elementen der Trefferliste die geringste symbolische Ähnlichkeit mit dem besten Treffer „Beatles“ aufweist.It can be seen that the phrase or rather the word “Beatles” has a greater symbolic similarity to the word “Eagles” than to the word “B-52s”, which is why the word “Eagles” is in second place in the hit list 7 according to the invention, whereas in the hit list 6 according to the prior art the word “B-52s” is in second place, which has the least symbolic similarity among the elements of the hit list to the best hit “Beatles”.

In 2 ist schematisch ein erfindungsgemäßes Fahrzeug 10 dargestellt, welches eine erfindungsgemäße Vorrichtung 1 zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung umfasst. Die erfindungsgemäße Vorrichtung 1 umfasst ihrerseits einen Mikroprozessor 2, ein Mikrofon 3 und eine Anzeige 4 zur Darstellung der Trefferliste 7. Über das Mikrofon 3 wird beispielsweise von einem Fahrer des Fahrzeugs 10 eine gesprochene Wortgruppe (z.B. ein Sprachbefehl oder ein Ortsname) aufgenommen bzw. erfasst und an den Mikroprozessor 2 weitergeleitet, in welchem eine Spracherkennung installiert ist. Der Mikroprozessor 2 analysiert die gesprochene Wortgruppe und erzeugt eine erfindungsgemäße Trefferliste 7, welche der Mikroprozessor 2 dann über die Anzeige 4 ausgibt.In 2 Figure 1 schematically depicts a vehicle 10 according to the invention, which includes a device 1 according to the invention for generating a hit list in automatic speech recognition. The device 1 according to the invention itself comprises a microprocessor 2, a microphone 3, and a display 4 for showing the hit list 7. A spoken phrase (e.g., a voice command or a place name) is recorded or captured by the microphone 3, for example, from the driver of the vehicle 10, and forwarded to the microprocessor 2, in which speech recognition software is installed. The microprocessor 2 analyzes the spoken word group and generates a hit list 7 according to the invention, which the microprocessor 2 then outputs via the display 4.

BezugszeichenlisteReference symbol list

11: Vorrichtungdevice
22: Mikroprozessormicroprocessor
33: Mikrophonmicrophone
44: AnzeigeAdvertisement
55: SpracherkennungSpeech recognition
66: Trefferliste sortiert nach ErkennerkriterienHit list sorted by recognition criteria
77: Trefferliste sortiert nach Levenshtein-DistanzResults sorted by Levenshtein distance
1010: Fahrzeugvehicle

Claims

Method for generating a hit list in automatic speech recognition, wherein the hit list comprises at least one hit list word group, which is generated by the speech recognition as possible hits starting from a spoken word group, wherein each word group comprises at least one word, characterized in that the hit list is generated by the Levenshtein method starting from at least one initial word group, which is determined by the speech recognition as a hit, wherein the hit list comprises the at least one initial word group.

Procedure according to Claim 1 , characterized in that the hit list comprises several hit list word groups, that the best hit is determined in the hit list by the speech recognition, and that the hit list word groups are sorted according to the Levenshtein distance, which the hit list word groups each have from the best hit, with increasing Levenshtein distance.

Procedure according to Claim 1 or 2 , characterized in that the best match is determined in the hit list by the speech recognition, and that at least one further word group is added to the hit list by determining, starting from the best match, at least one further word group which has the smallest possible Levenshtein distance.

Procedure according to Claim 3 characterized in that at least one further word group is contained in a predetermined set of word groups, which also includes the best match.

Device for generating a hit list in automatic speech recognition, wherein the device comprises acquisition means for acquiring a spoken word group, speech recognition means for performing speech recognition, and output means for outputting the hit list, wherein the speech recognition means generate the hit list by determining at least one hit list word group as a hit of the speech recognition, starting from the spoken word group, wherein each word group comprises at least one word, characterized in that the speech recognition means generate the hit list starting from at least one initial word group, which the speech recognition means determine as a hit during the performance of the speech recognition, using the Levenshtein method, wherein the hit list comprises the at least one initial word group.

Device according to Claim 5 , characterized in that the device for carrying out the method according to one of the Claims 1 - 4 is designed.

Vehicle with a device according to Claim 5 or 6 .