-
Die Erfindung betrifft eine Multimedia-Datei-Abspieleinrichtung
und ein Autoradio Heutzutage werden insbesondere Musikstücke in Form
digitalisierter und komprimierter Daten in elektronischen Dateien
gespeichert, beispielsweise gemäß dem so genannten
MP3-Format auf einem Massendatenträger, beispielsweise einer CD-ROM. Üblicherweise
ist auf einem Massendatenträger
eine sehr große
Anzahl von Musikstücken
gespeichert.
-
Zusätzlich zu den Musikstücken selbst,
wobei üblicherweise
eine elektronische Datei pro Musikstück gespeichert wird, ist eine
Verzeichnisstruktur, vergleichbar mit einer Datei-Verzeichnisstruktur
in einem üblichen
Personal Computer, auf dem Massendatenträger gespeichert. In der Verzeichnisstruktur ist
angegeben, in welcher Struktur, das heißt in welcher logischen Anordnung
die Audiodateien, das heißt
die Musikstücke,
auf der CD-ROM gespeichert sind. Um ein Musikstück auszuwählen, wird von einem Benutzer
unter Verwendung der Verzeichnisstruktur das auszugebende Musikstück, das
heißt üblicherweise
die entsprechende, das Musikstück enthaltende
Datei, zur Ausgabe ausgewählt.
-
In diesem Zusammenhang ist es bekannt, dass
die Musik-Dateien einfach nacheinander auf der CD-ROM gespeichert
werden und mit einem aufsteigenden Index gekennzeichnet werden,
so dass jede elektronische Datei innerhalb der Verzeichnisstruktur eindeutig
identifizierbar ist. Die gespeicherten elektronischen Dateien können zu
Gruppen gruppiert werden, welche dann in mehrere Hierarchieebenen wiederum
in Obergruppen und Untergruppen gruppiert werden können. Somit
ergibt sich eine hierarchisch, baumartig gegliederte Verzeichnisstruktur, mittels
welcher die Auswahl auszugebender Musikstücke ermöglicht ist.
-
Bei einer bekannten MP3-Abspieleinrichtung wird
unter Verwendung von Auswahltasten der MP3-Abspieleinrichtung in
der Verzeichnisstruktur eine Auswahl getroffen, wobei die einzelnen
Hierarchieebenen der Verzeichnisstruktur manuell durchsucht werden
müssen,
um zu der eigentlich auszugebenden gewünschten Datei zu gelangen.
Der Benutzer muss jeweils den gesamten Inhalt zumindest der betrachteten
Hierarchieebene der Verzeichnisstruktur ansehen, um eine gewünschte Auswahl
treffen zu können.
-
Insbesondere in Szenarien, bei denen
der Benutzer seine Konzentration eigentlich auf andere Gegenstände zu richten
hat als auf das Durchsehen der Verzeichnisstruktur, beispielsweise
beim Führen eines
Kraftfahrzeuges, stellt eine solche Verzeichnisstruktur-basiertes
Ansehen und ein manuelles Auswählen
von auszugebenden Musikdateien ein erhebliches Sicherheitsrisiko
dar, da die Konzentration des Benutzers von dem Verkehr abgelenkt
wird, womit das Unfallrisiko erheblich erhöht wird.
-
Auch bei so genannten "Discmans", das heißt bei einer
tragbaren MP3-Abspieleinrichtung, die beispielsweise beim Fitnesstraining
getragen wird, wird das Ablesen der einzelnen gespeicherten Titeln,
das heißt
das Durchsuchen der Verzeichnisstruktur, unbequem.
-
Im Rahmen der Synthese eines Sprachsignals
sind unterschiedliche Verfahren bekannt, beispielsweise die so genannte
Formant-Synthese (vgl. [1]), die Synthese mittels artikulatorischer
Modelle (vgl. [2]), die qualitativ sehr hochwertige Synthese vom
Korpus (vgl. [3]) sowie die ebenfalls in [1] beschriebene Diphon-Synthese.
-
Ein Überblick über das Gebiet der Sprachsynthese
ist in [4] zu finden.
-
Der Erfindung liegt das Problem zugrunde, eine
Multimedia-Datei-Abspieleinrichtung
anzugeben, bei der das Durchsuchen einer Verzeichnisstruktur nach
auf einem Massendatenträger
gespeicherten Multimedia-Dateien erleichtert wird.
-
Das Problem wird durch die Multimedia-Datei-Abspieleinrichtung
und das Autoradio mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.
-
Eine Multimedia-Datei-Abspieleinrichtung weist
eine Digital-Schnittstelle
zu einem Massendatenträger
auf, wobei auf dem Massendatenträger eine
Vielzahl von Multimedia-Dateien und eine Verzeichnisstruktur, in
der die auf dem Massendatenträger
gespeicherten Multimedia-Dateien angegeben sind, gespeichert sind.
-
Ein solcher Massendatenträger, im
Weiteren auch als Massenspeicher bezeichnet, ist beispielsweise
-
- – eine
so genannte MinidiscTM von SonyTM,
- – ein
Magneto-optischer Massenspeicher,
- – ein
magnetischer Massenspeicher, beispielsweise eine Festplatte,
- – ein
Halbleiterspeicher, wie vorzugsweise ein Flash-Speicher,
- – ein
Memorystick, oder
- – eine
Zip-Diskette.
-
Ferner kann eine MP3-Speicherkarte
oder eine CD-ROM oder eine DVD, als Massendatenträger eingesetzt
werden.
-
Ferner weist die Multimedia-Datei-Abspieleinrichtung
eine Multimedia-Datei-Einleseeinrichtung auf, welche derart eingerichtet
ist, dass mittels der Digital-Schnittstelle die in dem Massendatenträger gespeicherten,
ausgewählte
Multimedia-Dateien und die Verzeichnisstruktur in die Multimedia-Datei-Abspieleinrichtung,
insbesondere in einen in der Abspieleinrichtung ebenfalls vorgesehenen
Zwischenspeicher, eingelesen werden können. In dem Zwischenspeicher
werden die eingelesenen Multimedia-Dateien und die Verzeichnisstruktur
in der Multimedia-Datei-Abspieleinrichtung
zwischengespeichert.
-
Unter einer Multimedia-Datei ist
in diesem Zusammenhang eine elektronische Datei zu verstehen, in
der multimediale Daten gespeichert sind, insbesondere
-
- – textuelle
Daten,
- – Audiodaten,
insbesondere Sprach- und/oder Musikstücke, vorzugsweise komprimiert
gemäß dem MP3-Standard,
- – digitalisierte
Bilddaten, vorzugsweise komprimiert gemäß dem JPEG-Standard oder dem JPEG2000-Standard,
und/oder
- – digitale
Videodaten, vorzugsweise komprimiert gemäß dem MPEG-Standard, beispielsweise dem
MPEG1-Standard, dem MPEG2-Standard, dem MPEG4-Standard oder dem
MPEG7-Standard.
-
Ferner ist eine Text-zu-Sprache-Wandlereinrichtung
zum Umwandeln der in der Verzeichnisstruktur enthaltenen Textdaten,
d.h. insbesondere der Namen der Verzeichnisse und/oder der Namen der
gespeicherten Multimedia-Dateien, in ein Sprachsignal, vorgesehen.
-
Mittels einer ebenfalls vorgesehenen
ersten Auswahleinrichtung zum Auswählen mindestens eines Elements
der Verzeichnisstruktur, welche mittels der Text-zu-Sprache-Wandlereinrichtung
in ein Sprachsignal umzuwandeln ist, werden ein Element der Verzeichnisstruktur
oder mehrere Elemente, beispielsweise eine ganze Hierarchieebene
der Verzeichnisstruktur ausgewählt
und die in textueller Form elektronisch zuvor eingelesenen Teile
der Verzeichnisstruktur werden der Text-zu-Sprache-Wandlereinrichtung
zugeführt,
dort in ein Sprachsignal umgewandelt und dem Benutzer über vorzugsweise
einen Lautsprecher ausgegeben.
-
Ferner ist eine zweite Auswahleinrichtung zum
Auswählen
mindestens einer auszugebenden Multimedia-Datei vorgesehen, wobei
die zweite Auswahleinrichtung und die erste Auswahleinrichtung in einer
gemeinsamen Auswahleinrichtung integriert sein können, beispielsweise in dem
Fall, wenn die Auswahleinrichtungen Tasten sind, denen zu unterschiedlichen
Zeitpunkten oder in unterschiedlichen Betriebszuständen der
Abspieleinrichtung unterschiedliche Funktionen zugeordnet sind,
oder wenn die Auswahleinrichtungen mittels eines Auswahlrades realisiert
sind, beispielsweise als ein so genanntes JogDialTM,
zum Auswählen
unterschiedlicher Elemente über
ein Display.
-
Mittels einer ebenfalls vorgesehenen
Umwandlungseinrichtung zum Umwandeln der in der auszugebenden Multi-Media-Datei enthaltenen
Daten in ein Ausgabesignal werden die Multimedia-Daten in ein Ausgabeformat dekodiert,
in welchem sie der Ausgabeschnittstelle zugeführt werden und in welchem das
Ausgabemedium, beispielsweise ein Lautsprecher, die Daten ausgeben
kann.
-
Die Multimedia-Daten werden somit über die Ausgabeschnittstelle
an einen optional angeschlossenen Lautsprecher ausgegeben, wobei über die Ausgangsschnittstelle
sowohl das Sprachsignal als auch das Ausgabesignal ausgebbar sind.
-
Einzelne oder alle Elemente der Abspieleinrichtung
können
in Hardware, das heißt
in speziellen elektronischen Schaltungen, oder in Software, das heißt als Programme,
die von einem dann vorgesehenen frei programmierbaren Prozessor,
vorzugsweise einem Mikroprozessor, ausgeführt werden, realisiert sein.
-
Anschaulich kann die Erfindung darin
gesehen werden, dass die Multimedia-Datei-Abspieleinrichtung nunmehr
einen Text-tospeech-Wandler enthält,
mittels dem die Verzeichnisstruktur, welche bisher nur in Form textueller
Daten vorlag und visuell dem Benutzer über eine Anzeigeeinheit dargestellt wurden,
nunmehr auch als Sprachsignal ausgegeben werden kann, wodurch die
Bedienbarkeit der Abspieleinrichtung durch einen Benutzer erheblich
vereinfacht wird. Ferner wird die Konzentration des Benutzers nicht
mehr unnötig
von anderen Gegenständen
abgelenkt.
-
Gerade bei einer MP3-Abspieleinrichtung, welche
vorzugsweise in ein Autoradio integriert ist, weist die Erfindung
durch Kombination des Dekoders mit einer Text-to-speech-Wandler-Einrichtung erhebliche
Vorteile auf, insbesondere da üblicherweise eine
sehr große
Anzahl von MP3-Dateien auf einem Massendatenträger gespeichert sind und der
Auswahlprozess der auszugebenden Dateien relativ aufwendig ist und
viel Aufmerksamkeit des Benutzers erfordert.
-
Bevorzugte Weiterbildungen der Erfindung ergeben
sich aus den abhängigen
Ansprüchen.
-
Die Umwandlungseinrichtung, mittels
der die in der Multimedia-Datei jeweils enthaltenen Multimedia-Daten
in das Ausgabesignal umgewandelt wird, welche Umwandlungseinrichtung
anschaulich als ein Dekoder angesehen werden kann, ist gemäß einer Ausgestaltung
der Erfindung derart eingerichtet, dass eine Audiodatei und/oder
eine Videodatei als Multimedia-Datei in das Ausgabesignal umwandelbar
ist. Für
den Fall, dass die Audiodaten und/oder die Videodaten komprimiert
in der Multimedia-Datei abgespeichert sind, ist die Umwandlungseinrichtung vorzugsweise
derart eingerichtet ist, dass eine Dekodierung gemeinsam mit einer
Dekompression der Daten durchgeführt
wird und die dekodierten und dekomprimierten Daten ausgegeben werden.
-
Gemäß einer anderen Ausgestaltung
der Erfindung ist die Umwandlungseinrichtung derart eingerichtet,
dass gemäß dem MP3-Standard
komprimierte Audiodaten dekomprimierbar und nach erfolgter Dekompression
und Decodierung ausgebbar sind.
-
Eine sehr einfache Multimedia-Datei-Abspieleinrichtung
ergibt sich gemäß einer
Weiterbildung, bei der die Verzeichnisstruktur als hierarchische
Verzeichnisstruktur eingerichtet ist, da in diesem Fall unter Verwendung
der Text-zu-Sprache-Wandlereinrichtung sehr einfach einzelne Hierarchieebenen, welche
für sich
betrachtet jeweils nur Gruppen mit erheblich weniger Multimedia-Dateien
oder Verzeichnisse – auch
bezeichnet als logische Ordner – enthalten,
durchsucht und ausgegeben werden müssen.
-
Die erste Auswahleinrichtung und/oder
die zweite Auswahleinrichtung können
als Spracherkennungseinrichtung zum Erkennen eingegebener Sprachsignale
eingerichtet sein, wodurch die Eingabe von Befehlen in die Multimedia-Datei-Abspieleinrichtung
weiter erheblich vereinfacht wird und die Konzentration des Benutzers
noch besser beispielsweise auf den Verkehr gerichtet bleiben kann.
-
Gemäß einer anderen Ausgestaltung
ist die Text-zu-Sprache-Wandlereinrichtung
derart eingerichtet, dass die Sprachsynthese im Rahmen der Umwandlung
digitaler Textdaten in ein digital-analog gewandeltes analoges Sprachsignal
erfolgt unter Verwendung der so genannten Diphon-Synthese.
-
Die Multimedia-Datei-Abspieleinrichtung kann
als tragbare Multimedia-Datei-Abspieleinrichtung, beispielsweise
als „Walkman" oder „Discman" ausgestaltet sein
oder in ein Kraftfahrzeug, vorzugsweise in diesem Fall in ein Autoradio,
integriert eingerichtet sein.
-
Ein Ausführungsbeispiel der Erfindung
ist in der Figur dargestellt und wird im Weiteren näher erläutert.
-
Die Figur zeigt eine Multimedia-Datei-Abspieleinrichtung
und einen Massendatenträger
gemäß einem
Ausführungsbeispiel
der Erfindung.
-
In der Figur ist eine Anordnung 100 gezeigt mit
einer CD-ROM 101 als Massendatenträger und einem CD-ROM-Abspielgerät 110.
-
Auf der CD-ROM 101 ist eine
Vielzahl von gemäß dem MP3-Standard kodierter
und komprimierter Musikstücke 102 in
Form von digitalen Audiodateien 102 gespeichert.
-
Welche digitale Audiodateien 102 tatsächlich auf
der CD-ROM 101 gespeichert sind und in welcher Struktur
sie gespeichert sind, das heißt
in welcher Gruppierung sie gespeichert sind, ist in einer ebenfalls
auf der CD-ROM 101 gespeicherten Verzeichnisstruktur 103 angegeben.
-
Gemäß diesem Ausführungsbeispiel
weist die Verzeichnisstruktur eine Baumstruktur auf, das heißt sie hat
eine hierarchische Gliederung mit mehreren, vorzugsweise mit einer
Vielzahl von Hierarchieebenen, in der die einzelnen Gruppierungen
der Audiodateien 102 aufgeführt sind.
-
Die CD-ROM 101 ist in einem
nicht dargestellten Aufnahmefach des CD-ROM-Abspielgeräts 110 eingelegt
und mittels eines ebenfalls nicht dargestellten Lasers und einer
entsprechenden Laser-Sensoreinrichtung werden die auf der CD-ROM 101 gespeicherten
Daten erfasst und über
eine elektrische Leitung 104 einer Digital-Schnittstelle 111 zugeführt und
darüber
einem Zwischenspeicher 113, in welchem die Verzeichnisstruktur 103 zumindest
teilweise bei Bedarf zwischengespeichert wird. Ferner wird in dem
Zwischenspeicher 113 bei Bedarf auch ein ausgewähltes, auszugebendes
Musikstück,
das heißt
anders ausgedrückt
eine auszugebende Audiodatei 102, welche von der CD-ROM 101 gelesen wird,
gespeichert.
-
Ferner weist das CD-ROM-Abspielgerät 110 eine
Steuereinrichtung 112, einen Text-zu-Sprache-Wandler 114 sowie
einen MP3-Dekoder 115 auf.
-
Es ist in diesem Zusammenhang anzumerken,
dass die Steuereinrichtung, der MP3-Decoder 115 und der
Text-zu-Sprache-Wandler 114 in
einer alternativen Ausführungsform
in Software realisiert sein können,
in welchem Fall lediglich ein Mikroprozessor in dem CD-ROM-Abspielgerät 110 vorgesehen
ist, der die entsprechenden Funktionalitäten, welche in Form von Programmen
vorgegeben sind, realisiert.
-
Ferner weist das CD-ROM-Abspielgerät 110 eine
Analog-Schnittstelle 119 auf,
welche als Ausgangsschnittstelle fungiert, und welche auszugebende
Analogsignale über
eine Kommunikationsverbindung beispielsweise eine elektrische Leitung
oder eine Funkverbindung 121 einem Lautsprecher 122 zuführt, mittelst
dem das auszugebende Signal als Audio- oder Sprachsignal ausgegeben
wird.
-
Die einzelnen Komponenten des CD-ROM-Abspielgeräts 110 sind
miteinander über einen
Computerbus 120 gekoppelt.
-
Ferner sind gemäß diesem Ausführungsbeispiel
Steuertasten 116, 117, 118 vorgesehen,
mittels derer das CD-ROM-Abspielgerät gesteuert
wird, beispielsweise ist eine erste Bedientaste 116 derart
eingerichtet, dass mittels dieser ein oder mehrere Musikstücke in Vorwärts-Richtung übersprungen
werden können,
eine zweite Bedientaste 117 ist derart eingerichtet, dass
mittels dieser ein oder mehrere Musikstücke in Rückwärts-Richtung übersprungen werden
können,
und eine Auswahltaste 118 ist derart eingerichtet, dass
es möglich,
eine auszugebende Musikstücke
oder auch nur eine Teil-Hierarchiestruktur der Verzeichnisstruktur 103 oder
die gesamte Verzeichnisstruktur 103 zur sprachlichen Ausgabe
auszuwählen.
-
Wird die CD-ROM 101 in das
CD-ROM-Abspielgerät 110 eingelegt,
so wird zunächst
die Verzeichnisstruktur 103 zumindest teilweise in den
Zwischenspeicher 113 übertragen
und von dort zumindest teilweise dem Text-zu-Sprache-Wandler 114 zugeführt.
-
Der Text-zu-Sprache-Wandler 114 wandelt die
in textueller Form, das heißt
anschaulich in Form von Textdaten, vorliegende Information der Verzeichnisstruktur 103 in
akustischer Sprache, das heißt
in ein synthetisiertes Sprachsignal um. Um dies zu erreichen ist
der Text-zu-Sprache-Wandler 114 derart eingerichtet,
dass eine Sprachsynthese durchgeführt wird, gemäß diesem
Ausführungsbeispiel
basierend auf der so genannte Diphon-Synthese.
-
Der Text-zu-Sprache-Wandler 114 kann
die Umwandlung und Synthese basierend auf unterschiedlichen Synthese-Prinzipien
vornehmen.
-
Der Text-zu-Sprache-Wandler 114 ist
gemäß diesem
Ausführungsbeispiel
der Erfindung derart eingerichtet, dass für eine in einem in Textformat,
beispielsweise in ASCII-Code vorliegende Datei vorliegende Datei
folgende Schritte durchgeführt
werden. Zunächst
wird eine Textanalyse durchgeführt,
anschließend
eine Graphem-Phonem-Umsetzung. IN einem darauf folgende Schritt
erfolgt das Erzeugen der Prosodie sowie die eigentlichen Synthese
des Sprachsignals.
-
Für
jede dieser Teilschritte sind erfindungsgemäß unterschiedliche, an sich
bekannte Verfahren vorgesehen.
-
Bei der Synthese des Sprachsignals
sind gemäß unterschiedlichen
Ausführungsformen
der Erfindung insbesondere folgende Verfahren vorgesehen:
-
- – eine
so genannte Formant-Synthese, wie in [1] beschrieben,
- – artikulatorische
Modelle, wie in [2] beschrieben,
- – eine
Synthese vom Korpus, wie in [3] beschrieben, oder
- – eine
Diphon-Synthese, wie ebenfalls in [1] beschrieben.
-
Für
die anderen Teilverfahren sind insbesondere folgende drei Möglichkeiten
vorgesehen, welche auch in Mischformen eingesetzt werden können.
-
Es können große Lexika verwendet werden, in
denen alle benötigte
Information gespeichert ist, es können so genannte regelbasierte
Verfahren eingesetzt werden und/oder es können datenbasierte Verfahren,
beispielsweise Neuronale Netze oder statistische Ansätze eingesetzt
werden.
-
Ein Überblick über erfindungsgemäß einsetzbare
Technologien zu Text-zu-Sprache-Wandlung ist in [4] gegeben.
-
Das synthetisierte Sprachsignal,
welches die Verzeichnisstruktur widerspiegelt, wird von dem Text-zu-Sprache-Wandler 114 an
die Ausgangsschnittstelle 119 übertragen und von dort dem
Lautsprecher 122 zugeführt
und dem Benutzer ausgegeben.
-
Das Sprachsignal kann in analoger
oder in digitaler Form vorliegen, je nachdem, welche Art eines Sprachsignals
das Augabemedium, das heißt beispielsweise
der Lautsprecher 122, verarbeiten kann.
-
Bei der Ausgabe des Sprachsignals
wird je nachdem welche Informationen der Verzeichnisstruktur 103 enthalten
ist, beispielsweise der Name des jeweiligen Verzeichnisses, des
Unterverzeichnisses oder auch der Name der Datei oder des Musikstücks, das
heißt
der Titel des Stücks,
ausgegeben.
-
Zusätzlich können weitere Informationen, welche
der jeweiligen Datei oder dem Verzeichnis zugeordnet sind, beispielsweise
der Name des Interpreten, vorgegebene Klassifikationsangaben über das
Musikstück,
beispielsweise das Genre des Musikstücks, das Tempo des Musikstücks oder
die Angabe, ob es sich um ein Vokalstück oder ein Instrumentalstück handelst
ausgegeben werden. Diese Informationen können jeweils einem Musikstück zugeordnet
sein, sie können
aber auch einer Gruppe von mehreren Musikstücken zugeordnet sein.
-
Gemäß diesem Ausführungsbeispiel
wird nach erfolgtem Ausgeben des Sprachsignals eine vorgegebenen
Zeitdauer, beispielsweise 3 Sekunden gewartet, während welcher der Benutzer
die Auswahltaste 108 drücken
kann, um durch das Drücken die
jeweilige Teilhierarchie oder das Musikstück, das heißt die Audiodatei auszuwählen zur
Ausgabe entweder wiederum als Sprachsignal oder als dekodiertes
Musikstück.
-
Drückt der Benutzer die Taste 118 nicht,
so wird der nächste
Titel oder das nächst
Teilverzeichnis ausgegeben.
-
Der Text-zu-Sprache-Wandler 114 ist
gemäß diesem
Ausführungsbeispiel
derart eingerichtet, dass textuelle Sonderzeichen, beispielsweise
Satzzeichen entweder auf ein Wort (beispielsweise „Komma", „Punkt") abgebildet und
als entsprechendes Wort-Sprachsignal ausgegeben wird oder ignoriert werden.
-
Ist eine Umwandlung des jeweiligen
Textdatums in ein Sprachsignal nicht möglich, so wird die entsprechende
textuelle Information auf der Grundlage der jeweiligen Buchstaben
buchstabiert, das heißt es
werden die einzelnen Buchstaben-Sprachsignale ausgegeben.
-
Ferner sind übliche Abkürzungen dem Text-zu-Sprache-Wandler 114 vorgegeben,
welche entsprechend als Sprachsignal ausgegeben werden.
-
Gemäß diesem Ausführungsbeispiel
ist es ferner vorgesehen, dass die Sprache, in der die Ausgabe erfolgt,
voreingestellt werden kann. So ist es beispielsweise möglich, Deutsch,
Englisch, Französisch,
etc. als eine Sprache auszuwählen,
in der die Ausgabe eines Sprachsignals und somit auch die Sprachsynthese
erfolgt.
-
Im Rahmen der Sprachsynthese wird
die Prosodie gemäß diesem
Ausführungsbeispiel
mittels an sich bekannter vordefinierter Prosodie-Schablonen bereitgestellt.
-
Die Verwendung der Prosodie-Schablonen ist
gemäß diesem
Ausführungsbeispiel
vorteilhaft, da es sich im betroffenen Anwendungsfall lediglich
um kurze Äußerungen
handelt, für
welche sich die Prosodie-Schablonen sehr gut eignen.
-
Ist für die umzuwandelnde textuelle
Information keine Umwandlung in ein Sprachsignal möglich, so
wird von dem Text zu-Sprache-Wandler 114 eine entsprechende
Fehlermeldung als Sprachsignal mittels der Ausgangsschnittstelle 119 an
den Lautsprecher 122 übertragen
und von diesem ausgegeben.
-
Gemäß einer Ausgestaltung der Erfindung ist
es ferner vorgesehen, dass die zu verwendende Sprache in einer Initialisierungsphase
von einer Sprachenerkennungs-Einrichtung
erkannt wird und das Sprachsignal in ein Sprachsignal der entsprechenden
ermittelten Sprache umgewandelt und dem Benutzer ausgegeben wird.
Auf diese Weise wird die Einsetzbarkeit der erfindungsgemäßen Einrichtung erheblich
flexibler gestaltet.
-
Ist eine Audiodatei 102 von
dem Benutzer ausgewählt
worden unter Verwendung der Auswahltaste 118, so wird die
ausgewählte
Audiodatei 102 in den Zwischenspeicher 113 übertragen,
mittels des MP3-Decoders 115 dekodiert und dekomprimiert
und ebenfalls über
die Ausgabeschnittstelle 119 an den Lautsprecher 122 übertragen
und von diesem ausgegeben.
-
Im Weiteren werden einige alternative
Ausführungsformen
zu dem oben dargelegten bevorzugten Ausführungsbeispiel dargestellt.
-
Alternativ oder ergänzend zu
der Auswahltaste 118 kann es vorgesehen sein, dass eine
Benutzereingabe auch mittels Sprache erfolgen kann, in welchem Fall
in dem CD-ROM-Abspielgerät 110 ein Spracherkennungssystem
vorgesehen und integriert ist, welches die mittels eines ebenfalls
vorgesehenen Mikrophons aufgenommenen analogen Sprachsignale digitalisiert
und erkennt und unter Verwendung der erkannten Sprachsignale die
gewünschte
Auswahl vornimmt, das heißt
das CD-ROM-Abspielgerät 110 steuert.
-
Auch das Spracherkennungssystem kann unter
Verwendung des „Unispeech"-Prozessors der Firma
Infineon Technologies AG realisiert sein.
-
In einer anderen alternativen Ausführungsform
ist es vorgesehen, dass die Verzeichnisstruktur 103 nicht
streng hierarchisch, sondern unter Verwendung beliebig vorgebbarer
Suchkriterien, das heißt Suchparametern
ermöglicht
ist.
-
In diesem Fall ist die Verzeichnisstruktur 103 analog
zu einer relationalen Datenbank in Form von Datensätzen auf
der CD-ROM 101 gespeichert, wobei eine Filterung und Ausgabe
der jeweiligen Datensätze
analog zu einer Datenbank-Filterung erfolgt.
-
In diesem Fall sind die jeweiligen
Daten selbstverständlich
in einer Form abzuspeichern, dass sie analog zu einer Datenbankfilterung
bearbeitbar sind.
-
Auch in einem solchen Fall ist es
jedoch vorgesehen, dass die auszugebenden Daten der Verzeichnisstruktur
dem Text-zu-Sprache-Wandler 114 zugeführt werden,
von diesem in ein Sprachsignal umgewandelt werden und an den Lautsprecher 122 zur
Ausgabe übertragen
werden.
-
- 100
- Anordnung
- 101
- CD-ROM
- 102
- Digitale
Audiodateien
- 103
- Verzeichnisstruktur
- 104
- Elektrische
Leitung
- 110
- CD-ROM-Abspielgerät
- 111
- Digital-Schnittstelle
- 112
- Steuereinrichtung
- 113
- Zwischenspeicher
- 114
- Text-zu-Sprache-Wandler
- 115
- MP3-Dekoder
- 116
- Erste
Bedientaste
- 117
- Zweite
Bedientaste
- 118
- Auswahltaste
- 119
- Analog-Schnittstelle
- 120
- Computerbus
- 121
- Elektrische
Leitung
- 122
- Lautsprecher
-
In diesem Dokument sind folgende
Veröffentlichungen
zitiert:
-
- [1] D.H. Klatt, Software for a cascade/parallel
formant synthesizer, Journal of the Acoustic Society of America,
Vol. 67, S. 971 – 995,
1980
- [2] C.H. Shadle und R.I. Damper, Prospects for articulatory
synthesis: a position paper, In Proceedings of the 4th ISCA Speech
Synthesis Workshop, Perthshire, UK, 2001
- [3] W.N. Campbell, A. Black. CHATR: a multi-lingual speech re-sequencing
synthesis system, In Proceedings of Institute of Electronic, Information and
Communication Engineers-89, Tokyo, 1996
- s[4] T. Dutoit, An Introduction to Text-to-Speech Synthesis,
Kluwer Academic Publishers, Dordrecht, ISBN 0-7923-4498-7, S. 105–127, 1997