DE102009033384A1 - Method for operating a device and device - Google Patents
Method for operating a device and device Download PDFInfo
- Publication number
- DE102009033384A1 DE102009033384A1 DE102009033384A DE102009033384A DE102009033384A1 DE 102009033384 A1 DE102009033384 A1 DE 102009033384A1 DE 102009033384 A DE102009033384 A DE 102009033384A DE 102009033384 A DE102009033384 A DE 102009033384A DE 102009033384 A1 DE102009033384 A1 DE 102009033384A1
- Authority
- DE
- Germany
- Prior art keywords
- database
- subset
- information
- text information
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Navigation (AREA)
Abstract
Description
Gebiet der ErfindungField of the invention
Die Erfindung betrifft ein Verfahren zum Bedienen einer Vorrichtung nach dem Oberbegriff von Anspruch 1.The The invention relates to a method for operating a device according to the preamble of claim 1.
Die Erfindung betrifft ferner eine Vorrichtung nach dem Oberbegriff von Anspruch 9.The The invention further relates to a device according to the preamble of claim 9.
Hintergrund der ErfindungBackground of the invention
Eine Vorrichtung im Sinne dieser Erfindung ist ein elektronisches System, das geeignet ist, zumindest teilweise über eine Spracheingabe bedient zu werden. Hierzu zählen insbesondere ein Navigationssystem oder ein Musiksystem für Kraftfahrzeuge.A Device in the sense of this invention is an electronic system, which is suitable, at least partially served via a voice input to become. Which includes in particular a navigation system or a music system for motor vehicles.
Aus dem Buch „Multislot-Eingaben bei sprachbedienten Navigationsgeräten” von Steffen Rhinow, VDM Verlag Dr. Müller, Saarbrücken, erschienen 2008, ist ein Navigationsgerät bekannt, bei dem eine Adresse aus Stadt, Straße und Hausnummer über die Sprache an das Navigationsgerät übergeben wird. Das Navigationsgerät wandelt die gesprochene Adresse mittels eines Spracherkenners in eine Textinformation um, aus der ein Zielort für eine Zielführung bestimmt wird. Ist die Textinformation nicht eindeutig, so erfolgt die Auswahl des Zielortes durch einen Dialog mit dem Benutzer.Out the book "Multislot Inputs in voice-operated navigation devices "by Steffen Rhinow, VDM Verlag Dr. Miller, Saarbrücken, published in 2008, a navigation device is known in which an address out of town, street and house number over the language is transferred to the navigation device. The navigation device converts the spoken address by means of a speech recognizer in a text information around, from which a destination for a route guidance is determined. If the text information is not unique, it is done the selection of the destination by a dialogue with the user.
In dem Buch von Steffen Rhinow wird das Prinzip der Spracherkennung in den wesentlichen Schritten wie folgt erläutert: Ein analoges Sprachsignal wird zunächst unter Berücksichtigung des Nyquist-Shannonschen Abtasttheorems digitalisiert. Daraufhin erfolgt eine Vorverarbeitung des digitalisierten Sprachsignals. Die Vorverarbeitung umfasst Spektralanalysen für kleine Zeitabschnitte, in denen sich das Sprachsignal nicht wesentlich ändert, beispielsweise für Zeitabschnitte von zehn Millisekunden Dauer. Aus den so gewonnenen Informationen werden Merkmalsvektoren extrahiert. Zudem finden oftmals eine Rauschreduzierung sowie eine Detektion von Beginn, Pausen und Ende des Sprachsignals. Daraufhin wird anhand eines Sprachmodells, eines Wörterbuches und eines akustischen Modells nach einer am wahrscheinlichsten erkannten Merkmalsvektorenfolge gesucht. Als Ergebnis wird in der Regel eine nach Erkennungswahrscheinlichkeiten geordnete Liste (sogenannte NBest-Liste oder Trefferliste) möglicher Informationen geliefert. Das Wörterbuch enthält alle zu erkennenden Wörter zusammen mit den entsprechenden Phonemschreibweisen. Das Wörterbuch kann mithilfe sogenannter G2P-Programme (G2P, Graphem To Phonem) erstellt werden. Diese Programme erstellen anhand der Grapheme von Wörtern ein Wörterbuch mit den entsprechenden Phonemen.In The book by Steffen Rhinow introduces the principle of speech recognition explained in the essential steps as follows: An analog voice signal will be first considering digitized from the Nyquist-Shannon sampling theorem. thereupon there is a preprocessing of the digitized speech signal. The preprocessing includes spectral analyzes for small periods of time, in where the speech signal does not change significantly, for example, for periods of time of ten milliseconds duration. From the information thus obtained Feature vectors extracted. In addition, often find a noise reduction and detection of the beginning, pauses and end of the speech signal. thereupon is based on a language model, a dictionary and an acoustic Model according to a most likely recognized feature vector sequence searched. As a result, usually one is after detection probabilities ordered list (so-called NBest list or hit list) possible Information supplied. The dictionary contains all to recognize words together with the corresponding phoneme notation. The dictionary can by using so-called G2P programs (G2P, Graphem To Phonem) to be created. These programs build on the grapheme of words a dictionary with the corresponding phonemes.
Zusammenfassung der ErfindungSummary of the invention
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zum Bedienen einer Vorrichtung sowie eine Vorrichtung der Eingangs genannten Art weiterzuentwickeln, insbesondere die Spracherkennung auf einfache und kostengünstige Art zu aktualisieren und die Erkennungswahrscheinlichkeiten zu verbessern.task The present invention is a method for operating a To develop a device and a device of the type mentioned in the introduction, in particular speech recognition in a simple and cost-effective manner to update and to improve the detection probabilities.
Die Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen von Anspruch 1 sowie durch eine Vorrichtung mit den Merkmalen von Anspruch 9 gelöst. Besondere Ausführungsformen sind in den Unteransprüchen, der Beschreibung und der Figur offenbart.The The object is achieved by a Method with the features of claim 1 and by a device solved with the features of claim 9. Particular embodiments are in the subclaims, the description and the figure disclosed.
Unter einer Vorrichtung im Sinne dieser Erfindung wird sowohl ein einzelnes Gerät als auch ein Multifunktionsgerät verstanden, das in einem Kontext von mehreren Kontexten betrieben wird.Under a device in the context of this invention is both a single Device as also a multifunction device understood that operated in a context of multiple contexts becomes.
Eine Sprachinformation ist ein analoges Sprachsignal, das eine Information enthält. Eine Textinformation ist ein (maschinenlesbarer) String, der die Information enthält.A Voice information is an analog voice signal containing information contains. A textual information is a (machine-readable) string that the Contains information.
Bei dem erfindungsgemäßen Verfahren wird das Wörterbuch für den Spracherkenner erst zur Laufzeit der Vorrichtung erstellt, das heißt zu einer Zeit, zu der die Vorrichtung eingeschaltet oder ein Spracheingabemodus der Vorrichtung aktiviert wird. Das Wörterbuch wird aus einer der Vorrichtung zugeordneten Datenbank erstellt, indem eine Teilmenge, die auch die gesamte Datenbank enthalten kann, aus der Datenbank extrahiert und in ein Wörterbuch des Spracherkenners umgewandelt wird. Die Umwandlung erfolgt durch ein G2P-Programm.at the method according to the invention becomes the dictionary for the Speech Recognizer created at runtime of the device, that is, at a time to which the device is turned on or a voice input mode the device is activated. The dictionary will be one of the Device associated database created by a subset, the Also, the entire database may contain extracted from the database and in a dictionary the speech recognizer is converted. The conversion is done by a G2P program.
Das Verfahren benötigt damit nicht mehr ein von der Datenbank unabhängiges Wörterbuch, denn es wird aus der Datenbank generiert. Das Wörterbuch ist somit immer auf dem Stand der Datenbank. In herkömmlichen Vorrichtungen mit Sprachbedienung ist das Wörterbuch unabhängig von der Datenbank. Da die Datenbank regelmäßig öfter aktualisiert wird als das Wörterbuch des Spracherkenners, kann es zu Inkonsistenzen kommen, wenn die Datenbank neue Wörter erhält, die noch nicht Bestandteil des Wörterbuches sind. Will der Benutzer solche Inkonsistenzen vermeiden, müsste er sowohl das Wörterbuch als auch die Datenbank auf den gleichen Stand halten. Dies ist aufgrund mangelnder Verfügbarkeit neuer Wörterbücher nicht immer möglich und wäre zudem mit zusätzlichen Kosten verbunden. Bei dem erfindungsgemäßen Verfahren und der erfindungsgemäßen Vorrichtung ist es demgegenüber nur erforderlich, die Datenbank zu aktualisieren. Das Wörterbuch hat dann automatisch den gleichen Stand wie die Datenbank. Somit sind das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung kostengünstig auf einem aktuellen Stand zu halten. Zudem werden Inkonsistenzen aufgrund eines veralteten Wörterbuches und einer im Vergleich zu dem Wörterbuch aktuelleren Datenbank vermieden.The method no longer requires a database independent of the database because it is generated from the database. The dictionary is thus always up to date. In conventional voice operated devices, the dictionary is independent of the database. Since the database is regularly updated more often than the dictionary of the speech recognizer, inconsistencies can occur if the database receives new words that are not yet part of the dictionary. If the user wants to avoid such inconsistencies, he would have to keep both the dictionary and the database on the same level. This is not always possible due to the lack of availability of new dictionaries and would be associated with additional costs. By contrast, in the method according to the invention and the device according to the invention, it is only necessary to update the database. The dictionary then automatically has the same status as the database. Thus, the invention To keep the method and the device according to the invention inexpensive current. In addition, inconsistencies due to an outdated dictionary and a more up-to-date database than the dictionary are avoided.
In einer Ausführungsform sind in der Datenbank Dateien gespeichert, die Datenelemente enthalten. Die Teilmenge wird aus Datenelementen gebildet. Die Teilmenge enthält damit nur diejenigen Datenelemente, die für die Bedienung der Vorrichtung benötigt werden. Dadurch werden Rechenleistung und Speicherbedarf bei der Umwandlung der Teilmenge in das Wörterbuch, das Speichern des Wörterbuches und der Spracherkennung reduziert.In an embodiment The database stores files that contain data elements. The subset is made up of data elements. The subset contains it only those data elements needed to operate the device. This will reduce processing power and memory requirements during conversion the subset in the dictionary, saving the dictionary and speech recognition is reduced.
In einer weiteren Ausführungsform erfolgt das Auswählen der Teilmenge aus der Datenbank mittels eines Filters. Der Filter ist zweckmäßig als Computeralgorithmus ausgeführt, der einfach angepasst werden kann. Man kann sich den Computeralgorithmus anschaulich wie folgt vorstellen: „Suche mir alle Datenelemente aus der Datenbank heraus, die eine bestimmte Voraussetzung erfüllen, und füge diese Datenelemente der Teilmenge hinzu.” In einer weiteren Ausführungsform wird das Verfahren bei einer mehrteiligen Information rekursiv durchgeführt, wobei das Filter für jede Schleife angepasst wird. Eine mehrteilige Information besteht aus mehreren Teilinformationen, die erforderlich sind, eine bestimmte Aufgabe zu erfüllen, beispielsweise die Teilinformationen „Stadt”, „Straße” und „Hausnummer” der Information „Adresse” bei einer Zielorteingabe in ein Navigationssystem.In a further embodiment the selection takes place the subset from the database using a filter. The filter is useful as a computer algorithm executed which can be easily adapted. You can get the computer algorithm vividly imagine as follows: "Search all the data elements out of the database that meet a certain requirement, and add this Add data elements to the subset. "In a further embodiment the method is performed recursively in a multi-part information, wherein the filter for every loop is adjusted. A multi-part information exists from several pieces of information that are required to a particular one To fulfill the task For example, the sub-information "city", "street" and "house number" of the information "address" at a Destination entry in a navigation system.
In einer weiteren Ausführungsform ist die Vorrichtung ein Navigationssystem und die Datenbank eine Navigationsdatenbank, die eine digitale Straßenkarte enthält. Zweckmäßig enthält die Textinformation wenigstens einen Zielort für eine Zielführung.In a further embodiment the device is a navigation system and the database is one Navigation database containing a digital road map. Conveniently contains the text information at least one destination for a route guidance.
In einer weiteren Ausführungsform ist die Vorrichtung elf Musiksystem und die Datenbank eine Musikdatenbank. Zweckmäßig enthält die Textinformation wenigstens einen Musiktitel.In a further embodiment the device is eleven music system and the database is a music database. Conveniently contains the text information at least one song.
Die erfindungsgemäße Vorrichtung weist dieselben Vorteile wie das erfindungsgemäße Verfahren auf, so dass auf die vorstehenden Ausführungen verwiesen wird.The inventive device has the same advantages as the inventive method, so that on the above statements is referenced.
Kurze Beschreibung der ZeichnungShort description of the drawing
Eine
bevorzugte Ausführungsform
der Erfindung wird anhand der einzigen
Detaillierte Beschreibung der ZeichnungDetailed description the drawing
Das
Navigationssystem weist eine als Navigationsdatenbank ausgebildete
Datenbank
Die
Datenbank
Das
Anwendungssystem
Die
Dialogsteuerung
Das
Navigationssystem
Das
Navigationssystem
Ein
Blockpfeil
Im
Folgenden wird das von der Dialogsteuerung
Nachdem
der Benutzer das Navigationssystem und die Spracheingabe aktiviert
hat, erstellt die Dialogsteuerung
Die
Teilmenge mit allen Städtenamen
wird in einen geeigneten Speicher des Spracherkenners
Daraufhin
gibt der Benutzer über
seine Sprache eine Adresse oder einen Teil einer Adresse ein, je
nachdem, ob der Spracherkenner eine mehrteilige Information (etwa
die gesamte Adresse mit Stadt, Straße und Hausnummer) verarbeiten
kann oder in einem Durchgang nur eine einteilige Information (entweder
Stadt oder Straße
oder Hausnummer). Vorliegend sei der Spracherkenner im Zusammenspiel
mit der Dialogsteuerung
Beispielsweise wird dem ersten Slot die Stadt, dem zweiten Slot die Straße und dem dritten Slot die Hausnummer zugeordnet. Die Slots werden zeitlich nacheinander ausgewertet.For example the first slot becomes the city, the second slot the street and the third slot assigned the house number. The slots are timed evaluated one after the other.
Mit
dem aus der Grundeinstellung des Filters generierten Wörterbuches
für den
Spracherkenner
Die Teilmenge wird gelöscht.The Subset is deleted.
Jetzt beginnt eine zweite Schleife der rekursiv ausgeführten Adresserkennung. Hierzu wird zunächst das Filter neu definiert und an die zweite Schleife angepasst. Die Definition lautet jetzt wie folgt: „Suche aus der Datenbank alle Straßennamen der Stadt Berlin heraus und überführe die Straßennamen in die Teilmenge.” Anschließend wird wie bereits bei den Städtenamen mithilfe des G2P-Programmes ein Wörterbuch mit den Straßennamen von Berlin für den Spracherkenner generiert. Dieses Wörterbuch steht für die Auswertung des zweiten Slots, der etwa den Straßennamen „Kurfürstendamm” als Teilinformation enthält, zur Verfügung.Now begins a second loop of recursive address recognition. For this will be first the filter is redefined and adapted to the second loop. The Definition is now as follows: "Search from the database all Street name of the City Berlin and transfer the street names into the subset. "Subsequently, it becomes as with the city names using the G2P program, a street name dictionary from Berlin for the Speech recognizer generated. This dictionary stands for the evaluation of the second slot, which contains about the street name "Kurfürstendamm" as part information to Available.
In einer dritten, nicht näher ausgeführten, Schleife wird der dritte Slot mit der Hausnummer ausgewertet.In a third, not closer executed, loop the third slot is evaluated with the house number.
Nachdem alle drei Slots ausgewertet worden sind, steht im besten Fall die Adresse genau eines Zielortes fest, die (oder deren für das Navigationssystem geeigneten geografischen Koordinaten) als Zielort für die Zielführung verwendet wird. Sollten mehrere Adressen als Zielorte in Frage kommen, wird der Benutzer aufgefordert, eine Adresse auszuwählen. Diese Auswahl erfolgt beispielsweise durch manuelle Eingabe über einen Touchscreen oder sprachgesteuert.After this all three slots have been evaluated, in the best case the Address of exactly one destination, the (or their for the navigation system suitable geographic coordinates) used as the destination for the route guidance becomes. If multiple addresses are considered destinations, is the user is prompted to select an address. This selection is made For example, by manual input via a touch screen or voice-controlled.
Die
vorstehend angesprochenen Speicher der Datenbank
Für die unterschiedlich angesprochenen Steuerungen können mehrere Steuerprozessoren oder auch nur ein Steuerprozessor eingesetzt werden. Wird nur ein Steuerprozessor eingesetzt, wird seine Leistung durch ein geeignetes Steuermanagement auf die unterschiedlichen Prozesse aufgeteilt.For the different addressed controls can several control processors or even a control processor used become. If only one control processor is used, its performance becomes through a suitable tax management on the different ones Processes split.
BezugszeichenlisteLIST OF REFERENCE NUMBERS
- 1010
- Navigationssystemnavigation system
- 2020
- DatenbankDatabase
- 3030
- Anwendungssystemapplication system
- 4040
- Dialogsteuerungdialog control
- 5050
- Sprecherkennerspokesman Kenner
- 6060
- Sprachausgabespeech
- 7070
- Blockpfeilblock arrow
- 8080
- Blockpfeilblock arrow
- 9090
- Pfeifepipe
Claims (16)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102009033384A DE102009033384A1 (en) | 2009-07-16 | 2009-07-16 | Method for operating a device and device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102009033384A DE102009033384A1 (en) | 2009-07-16 | 2009-07-16 | Method for operating a device and device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE102009033384A1 true DE102009033384A1 (en) | 2011-01-20 |
Family
ID=43382801
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE102009033384A Withdrawn DE102009033384A1 (en) | 2009-07-16 | 2009-07-16 | Method for operating a device and device |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE102009033384A1 (en) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
-
2009
- 2009-07-16 DE DE102009033384A patent/DE102009033384A1/en not_active Withdrawn
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE102007052055B4 (en) | Motor vehicle with a voice interface | |
| DE102009017177B4 (en) | Speech recognition arrangement and method for acoustically operating a function of a motor vehicle | |
| DE19709518C5 (en) | Method and device for voice input of a destination address in a real-time route guidance system | |
| EP2176858B1 (en) | Method for voice recognition | |
| EP0802522B1 (en) | Apparatus and process to ascertain an action, and use of the apparatus and the process | |
| WO2003060877A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
| DE102015213715A1 (en) | Speech recognition device and speech recognition method | |
| EP0925578A1 (en) | Speech-processing system and method | |
| EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
| DE102015109379A1 (en) | Systems and methods for a navigation system that uses a search with dictation and partial match | |
| DE10246029B4 (en) | Speech recognition system, computer program, navigation system and collation method | |
| DE102015106280B4 (en) | Systems and methods for compensating for speech artifacts in speech recognition systems | |
| DE102018200088B3 (en) | Method, device and computer-readable storage medium with instructions for processing a voice input, motor vehicle and user terminal with a voice processing | |
| DE60029456T2 (en) | Method for online adjustment of pronunciation dictionaries | |
| EP1721245A2 (en) | Method for selecting a list item and information or entertainment system, especially for motor vehicles | |
| EP1016077A1 (en) | Method for determining the probability of the occurrence of a sequence of at least two words in a speech recognition process | |
| DE102004055230B3 (en) | Method for speech recognition from a predefinable vocabulary | |
| DE102017211447B4 (en) | Method for selecting a list entry from a selection list of an operating device by means of voice control and operating device | |
| DE102009033384A1 (en) | Method for operating a device and device | |
| WO2002046956A2 (en) | Method and device for automatically issuing information using a search engine | |
| EP1321851A2 (en) | Method for running a speech dialogue system | |
| DE10129005B4 (en) | Method for speech recognition and speech recognition system | |
| DE102015014206B4 (en) | Method and device for selecting a navigation destination from one of several language regions by means of voice input | |
| DE102014010315B4 (en) | Computer-implemented method and device for processing voice input | |
| DE102010026708A1 (en) | Method for operating voice portal utilized as user interface for operating devices in motor car, involves determining hit quantity depending on comparison process, where hit quantity contains set of records stored in database |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
| R012 | Request for examination validly filed | ||
| R016 | Response to examination communication | ||
| R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017200000 Ipc: G06F0040000000 |
|
| R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |