DE10226356A1

DE10226356A1 - Multimedia-Datei-Abspieleinrichtung und Autoradio

Info

Publication number: DE10226356A1
Application number: DE2002126356
Authority: DE
Inventors: Werner Rössler; Markus Schnell; Michael Dr. Küstner
Original assignee: Infineon Technologies AG
Current assignee: Infineon Technologies AG
Priority date: 2002-06-13
Filing date: 2002-06-13
Publication date: 2004-01-08

Abstract

Die Multimedia-Datei-Abspieleinrichtung weist einen Text-zu-Sprache-Wandler zum Umwandeln der in einer Verzeichnisstruktur enthaltenen Textdaten in ein Sprachsignal auf. In der Verzeichnisstruktur ist jeweils für einen Massendatenträger angegeben, welche Dateien in welcher Struktur auf dem Massendatenträger gespeichert sind. Das Sprachsignal wird einem Benutzer über einen Lautsprecher ausgegeben.

Description

Die Erfindung betrifft eine Multimedia-Datei-Abspieleinrichtung und ein Autoradio Heutzutage werden insbesondere Musikstücke in Form digitalisierter und komprimierter Daten in elektronischen Dateien gespeichert, beispielsweise gemäß dem so genannten MP3-Format auf einem Massendatenträger, beispielsweise einer CD-ROM. Üblicherweise ist auf einem Massendatenträger eine sehr große Anzahl von Musikstücken gespeichert.
Zusätzlich zu den Musikstücken selbst, wobei üblicherweise eine elektronische Datei pro Musikstück gespeichert wird, ist eine Verzeichnisstruktur, vergleichbar mit einer Datei-Verzeichnisstruktur in einem üblichen Personal Computer, auf dem Massendatenträger gespeichert. In der Verzeichnisstruktur ist angegeben, in welcher Struktur, das heißt in welcher logischen Anordnung die Audiodateien, das heißt die Musikstücke, auf der CD-ROM gespeichert sind. Um ein Musikstück auszuwählen, wird von einem Benutzer unter Verwendung der Verzeichnisstruktur das auszugebende Musikstück, das heißt üblicherweise die entsprechende, das Musikstück enthaltende Datei, zur Ausgabe ausgewählt.
In diesem Zusammenhang ist es bekannt, dass die Musik-Dateien einfach nacheinander auf der CD-ROM gespeichert werden und mit einem aufsteigenden Index gekennzeichnet werden, so dass jede elektronische Datei innerhalb der Verzeichnisstruktur eindeutig identifizierbar ist. Die gespeicherten elektronischen Dateien können zu Gruppen gruppiert werden, welche dann in mehrere Hierarchieebenen wiederum in Obergruppen und Untergruppen gruppiert werden können. Somit ergibt sich eine hierarchisch, baumartig gegliederte Verzeichnisstruktur, mittels welcher die Auswahl auszugebender Musikstücke ermöglicht ist.
Bei einer bekannten MP3-Abspieleinrichtung wird unter Verwendung von Auswahltasten der MP3-Abspieleinrichtung in der Verzeichnisstruktur eine Auswahl getroffen, wobei die einzelnen Hierarchieebenen der Verzeichnisstruktur manuell durchsucht werden müssen, um zu der eigentlich auszugebenden gewünschten Datei zu gelangen. Der Benutzer muss jeweils den gesamten Inhalt zumindest der betrachteten Hierarchieebene der Verzeichnisstruktur ansehen, um eine gewünschte Auswahl treffen zu können.
Insbesondere in Szenarien, bei denen der Benutzer seine Konzentration eigentlich auf andere Gegenstände zu richten hat als auf das Durchsehen der Verzeichnisstruktur, beispielsweise beim Führen eines Kraftfahrzeuges, stellt eine solche Verzeichnisstruktur-basiertes Ansehen und ein manuelles Auswählen von auszugebenden Musikdateien ein erhebliches Sicherheitsrisiko dar, da die Konzentration des Benutzers von dem Verkehr abgelenkt wird, womit das Unfallrisiko erheblich erhöht wird.
Auch bei so genannten "Discmans", das heißt bei einer tragbaren MP3-Abspieleinrichtung, die beispielsweise beim Fitnesstraining getragen wird, wird das Ablesen der einzelnen gespeicherten Titeln, das heißt das Durchsuchen der Verzeichnisstruktur, unbequem.
Im Rahmen der Synthese eines Sprachsignals sind unterschiedliche Verfahren bekannt, beispielsweise die so genannte Formant-Synthese (vgl. [1]), die Synthese mittels artikulatorischer Modelle (vgl. [2]), die qualitativ sehr hochwertige Synthese vom Korpus (vgl. [3]) sowie die ebenfalls in [1] beschriebene Diphon-Synthese.
Ein Überblick über das Gebiet der Sprachsynthese ist in [4] zu finden.
Der Erfindung liegt das Problem zugrunde, eine Multimedia-Datei-Abspieleinrichtung anzugeben, bei der das Durchsuchen einer Verzeichnisstruktur nach auf einem Massendatenträger gespeicherten Multimedia-Dateien erleichtert wird.
Das Problem wird durch die Multimedia-Datei-Abspieleinrichtung und das Autoradio mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.
Eine Multimedia-Datei-Abspieleinrichtung weist eine Digital-Schnittstelle zu einem Massendatenträger auf, wobei auf dem Massendatenträger eine Vielzahl von Multimedia-Dateien und eine Verzeichnisstruktur, in der die auf dem Massendatenträger gespeicherten Multimedia-Dateien angegeben sind, gespeichert sind.
Ein solcher Massendatenträger, im Weiteren auch als Massenspeicher bezeichnet, ist beispielsweise

– eine so genannte Minidisc^TM von Sony^TM,
– ein Magneto-optischer Massenspeicher,
– ein magnetischer Massenspeicher, beispielsweise eine Festplatte,
– ein Halbleiterspeicher, wie vorzugsweise ein Flash-Speicher,
– ein Memorystick, oder
– eine Zip-Diskette.

Ferner kann eine MP3-Speicherkarte oder eine CD-ROM oder eine DVD, als Massendatenträger eingesetzt werden.
Ferner weist die Multimedia-Datei-Abspieleinrichtung eine Multimedia-Datei-Einleseeinrichtung auf, welche derart eingerichtet ist, dass mittels der Digital-Schnittstelle die in dem Massendatenträger gespeicherten, ausgewählte Multimedia-Dateien und die Verzeichnisstruktur in die Multimedia-Datei-Abspieleinrichtung, insbesondere in einen in der Abspieleinrichtung ebenfalls vorgesehenen Zwischenspeicher, eingelesen werden können. In dem Zwischenspeicher werden die eingelesenen Multimedia-Dateien und die Verzeichnisstruktur in der Multimedia-Datei-Abspieleinrichtung zwischengespeichert.
Unter einer Multimedia-Datei ist in diesem Zusammenhang eine elektronische Datei zu verstehen, in der multimediale Daten gespeichert sind, insbesondere

– textuelle Daten,
– Audiodaten, insbesondere Sprach- und/oder Musikstücke, vorzugsweise komprimiert gemäß dem MP3-Standard,
– digitalisierte Bilddaten, vorzugsweise komprimiert gemäß dem JPEG-Standard oder dem JPEG2000-Standard, und/oder
– digitale Videodaten, vorzugsweise komprimiert gemäß dem MPEG-Standard, beispielsweise dem MPEG1-Standard, dem MPEG2-Standard, dem MPEG4-Standard oder dem MPEG7-Standard.

Ferner ist eine Text-zu-Sprache-Wandlereinrichtung zum Umwandeln der in der Verzeichnisstruktur enthaltenen Textdaten, d.h. insbesondere der Namen der Verzeichnisse und/oder der Namen der gespeicherten Multimedia-Dateien, in ein Sprachsignal, vorgesehen.
Mittels einer ebenfalls vorgesehenen ersten Auswahleinrichtung zum Auswählen mindestens eines Elements der Verzeichnisstruktur, welche mittels der Text-zu-Sprache-Wandlereinrichtung in ein Sprachsignal umzuwandeln ist, werden ein Element der Verzeichnisstruktur oder mehrere Elemente, beispielsweise eine ganze Hierarchieebene der Verzeichnisstruktur ausgewählt und die in textueller Form elektronisch zuvor eingelesenen Teile der Verzeichnisstruktur werden der Text-zu-Sprache-Wandlereinrichtung zugeführt, dort in ein Sprachsignal umgewandelt und dem Benutzer über vorzugsweise einen Lautsprecher ausgegeben.
Ferner ist eine zweite Auswahleinrichtung zum Auswählen mindestens einer auszugebenden Multimedia-Datei vorgesehen, wobei die zweite Auswahleinrichtung und die erste Auswahleinrichtung in einer gemeinsamen Auswahleinrichtung integriert sein können, beispielsweise in dem Fall, wenn die Auswahleinrichtungen Tasten sind, denen zu unterschiedlichen Zeitpunkten oder in unterschiedlichen Betriebszuständen der Abspieleinrichtung unterschiedliche Funktionen zugeordnet sind, oder wenn die Auswahleinrichtungen mittels eines Auswahlrades realisiert sind, beispielsweise als ein so genanntes JogDial^TM, zum Auswählen unterschiedlicher Elemente über ein Display.
Mittels einer ebenfalls vorgesehenen Umwandlungseinrichtung zum Umwandeln der in der auszugebenden Multi-Media-Datei enthaltenen Daten in ein Ausgabesignal werden die Multimedia-Daten in ein Ausgabeformat dekodiert, in welchem sie der Ausgabeschnittstelle zugeführt werden und in welchem das Ausgabemedium, beispielsweise ein Lautsprecher, die Daten ausgeben kann.
Die Multimedia-Daten werden somit über die Ausgabeschnittstelle an einen optional angeschlossenen Lautsprecher ausgegeben, wobei über die Ausgangsschnittstelle sowohl das Sprachsignal als auch das Ausgabesignal ausgebbar sind.
Einzelne oder alle Elemente der Abspieleinrichtung können in Hardware, das heißt in speziellen elektronischen Schaltungen, oder in Software, das heißt als Programme, die von einem dann vorgesehenen frei programmierbaren Prozessor, vorzugsweise einem Mikroprozessor, ausgeführt werden, realisiert sein.
Anschaulich kann die Erfindung darin gesehen werden, dass die Multimedia-Datei-Abspieleinrichtung nunmehr einen Text-tospeech-Wandler enthält, mittels dem die Verzeichnisstruktur, welche bisher nur in Form textueller Daten vorlag und visuell dem Benutzer über eine Anzeigeeinheit dargestellt wurden, nunmehr auch als Sprachsignal ausgegeben werden kann, wodurch die Bedienbarkeit der Abspieleinrichtung durch einen Benutzer erheblich vereinfacht wird. Ferner wird die Konzentration des Benutzers nicht mehr unnötig von anderen Gegenständen abgelenkt.
Gerade bei einer MP3-Abspieleinrichtung, welche vorzugsweise in ein Autoradio integriert ist, weist die Erfindung durch Kombination des Dekoders mit einer Text-to-speech-Wandler-Einrichtung erhebliche Vorteile auf, insbesondere da üblicherweise eine sehr große Anzahl von MP3-Dateien auf einem Massendatenträger gespeichert sind und der Auswahlprozess der auszugebenden Dateien relativ aufwendig ist und viel Aufmerksamkeit des Benutzers erfordert.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Die Umwandlungseinrichtung, mittels der die in der Multimedia-Datei jeweils enthaltenen Multimedia-Daten in das Ausgabesignal umgewandelt wird, welche Umwandlungseinrichtung anschaulich als ein Dekoder angesehen werden kann, ist gemäß einer Ausgestaltung der Erfindung derart eingerichtet, dass eine Audiodatei und/oder eine Videodatei als Multimedia-Datei in das Ausgabesignal umwandelbar ist. Für den Fall, dass die Audiodaten und/oder die Videodaten komprimiert in der Multimedia-Datei abgespeichert sind, ist die Umwandlungseinrichtung vorzugsweise derart eingerichtet ist, dass eine Dekodierung gemeinsam mit einer Dekompression der Daten durchgeführt wird und die dekodierten und dekomprimierten Daten ausgegeben werden.
Gemäß einer anderen Ausgestaltung der Erfindung ist die Umwandlungseinrichtung derart eingerichtet, dass gemäß dem MP3-Standard komprimierte Audiodaten dekomprimierbar und nach erfolgter Dekompression und Decodierung ausgebbar sind.
Eine sehr einfache Multimedia-Datei-Abspieleinrichtung ergibt sich gemäß einer Weiterbildung, bei der die Verzeichnisstruktur als hierarchische Verzeichnisstruktur eingerichtet ist, da in diesem Fall unter Verwendung der Text-zu-Sprache-Wandlereinrichtung sehr einfach einzelne Hierarchieebenen, welche für sich betrachtet jeweils nur Gruppen mit erheblich weniger Multimedia-Dateien oder Verzeichnisse – auch bezeichnet als logische Ordner – enthalten, durchsucht und ausgegeben werden müssen.
Die erste Auswahleinrichtung und/oder die zweite Auswahleinrichtung können als Spracherkennungseinrichtung zum Erkennen eingegebener Sprachsignale eingerichtet sein, wodurch die Eingabe von Befehlen in die Multimedia-Datei-Abspieleinrichtung weiter erheblich vereinfacht wird und die Konzentration des Benutzers noch besser beispielsweise auf den Verkehr gerichtet bleiben kann.
Gemäß einer anderen Ausgestaltung ist die Text-zu-Sprache-Wandlereinrichtung derart eingerichtet, dass die Sprachsynthese im Rahmen der Umwandlung digitaler Textdaten in ein digital-analog gewandeltes analoges Sprachsignal erfolgt unter Verwendung der so genannten Diphon-Synthese.
Die Multimedia-Datei-Abspieleinrichtung kann als tragbare Multimedia-Datei-Abspieleinrichtung, beispielsweise als „Walkman" oder „Discman" ausgestaltet sein oder in ein Kraftfahrzeug, vorzugsweise in diesem Fall in ein Autoradio, integriert eingerichtet sein.
Ein Ausführungsbeispiel der Erfindung ist in der Figur dargestellt und wird im Weiteren näher erläutert.
Die Figur zeigt eine Multimedia-Datei-Abspieleinrichtung und einen Massendatenträger gemäß einem Ausführungsbeispiel der Erfindung.
In der Figur ist eine Anordnung 100 gezeigt mit einer CD-ROM 101 als Massendatenträger und einem CD-ROM-Abspielgerät 110.
Auf der CD-ROM 101 ist eine Vielzahl von gemäß dem MP3-Standard kodierter und komprimierter Musikstücke 102 in Form von digitalen Audiodateien 102 gespeichert.
Welche digitale Audiodateien 102 tatsächlich auf der CD-ROM 101 gespeichert sind und in welcher Struktur sie gespeichert sind, das heißt in welcher Gruppierung sie gespeichert sind, ist in einer ebenfalls auf der CD-ROM 101 gespeicherten Verzeichnisstruktur 103 angegeben.
Gemäß diesem Ausführungsbeispiel weist die Verzeichnisstruktur eine Baumstruktur auf, das heißt sie hat eine hierarchische Gliederung mit mehreren, vorzugsweise mit einer Vielzahl von Hierarchieebenen, in der die einzelnen Gruppierungen der Audiodateien 102 aufgeführt sind.
Die CD-ROM 101 ist in einem nicht dargestellten Aufnahmefach des CD-ROM-Abspielgeräts 110 eingelegt und mittels eines ebenfalls nicht dargestellten Lasers und einer entsprechenden Laser-Sensoreinrichtung werden die auf der CD-ROM 101 gespeicherten Daten erfasst und über eine elektrische Leitung 104 einer Digital-Schnittstelle 111 zugeführt und darüber einem Zwischenspeicher 113, in welchem die Verzeichnisstruktur 103 zumindest teilweise bei Bedarf zwischengespeichert wird. Ferner wird in dem Zwischenspeicher 113 bei Bedarf auch ein ausgewähltes, auszugebendes Musikstück, das heißt anders ausgedrückt eine auszugebende Audiodatei 102, welche von der CD-ROM 101 gelesen wird, gespeichert.
Ferner weist das CD-ROM-Abspielgerät 110 eine Steuereinrichtung 112, einen Text-zu-Sprache-Wandler 114 sowie einen MP3-Dekoder 115 auf.
Es ist in diesem Zusammenhang anzumerken, dass die Steuereinrichtung, der MP3-Decoder 115 und der Text-zu-Sprache-Wandler 114 in einer alternativen Ausführungsform in Software realisiert sein können, in welchem Fall lediglich ein Mikroprozessor in dem CD-ROM-Abspielgerät 110 vorgesehen ist, der die entsprechenden Funktionalitäten, welche in Form von Programmen vorgegeben sind, realisiert.
Ferner weist das CD-ROM-Abspielgerät 110 eine Analog-Schnittstelle 119 auf, welche als Ausgangsschnittstelle fungiert, und welche auszugebende Analogsignale über eine Kommunikationsverbindung beispielsweise eine elektrische Leitung oder eine Funkverbindung 121 einem Lautsprecher 122 zuführt, mittelst dem das auszugebende Signal als Audio- oder Sprachsignal ausgegeben wird.
Die einzelnen Komponenten des CD-ROM-Abspielgeräts 110 sind miteinander über einen Computerbus 120 gekoppelt.
Ferner sind gemäß diesem Ausführungsbeispiel Steuertasten 116, 117, 118 vorgesehen, mittels derer das CD-ROM-Abspielgerät gesteuert wird, beispielsweise ist eine erste Bedientaste 116 derart eingerichtet, dass mittels dieser ein oder mehrere Musikstücke in Vorwärts-Richtung übersprungen werden können, eine zweite Bedientaste 117 ist derart eingerichtet, dass mittels dieser ein oder mehrere Musikstücke in Rückwärts-Richtung übersprungen werden können, und eine Auswahltaste 118 ist derart eingerichtet, dass es möglich, eine auszugebende Musikstücke oder auch nur eine Teil-Hierarchiestruktur der Verzeichnisstruktur 103 oder die gesamte Verzeichnisstruktur 103 zur sprachlichen Ausgabe auszuwählen.
Wird die CD-ROM 101 in das CD-ROM-Abspielgerät 110 eingelegt, so wird zunächst die Verzeichnisstruktur 103 zumindest teilweise in den Zwischenspeicher 113 übertragen und von dort zumindest teilweise dem Text-zu-Sprache-Wandler 114 zugeführt.
Der Text-zu-Sprache-Wandler 114 wandelt die in textueller Form, das heißt anschaulich in Form von Textdaten, vorliegende Information der Verzeichnisstruktur 103 in akustischer Sprache, das heißt in ein synthetisiertes Sprachsignal um. Um dies zu erreichen ist der Text-zu-Sprache-Wandler 114 derart eingerichtet, dass eine Sprachsynthese durchgeführt wird, gemäß diesem Ausführungsbeispiel basierend auf der so genannte Diphon-Synthese.
Der Text-zu-Sprache-Wandler 114 kann die Umwandlung und Synthese basierend auf unterschiedlichen Synthese-Prinzipien vornehmen.
Der Text-zu-Sprache-Wandler 114 ist gemäß diesem Ausführungsbeispiel der Erfindung derart eingerichtet, dass für eine in einem in Textformat, beispielsweise in ASCII-Code vorliegende Datei vorliegende Datei folgende Schritte durchgeführt werden. Zunächst wird eine Textanalyse durchgeführt, anschließend eine Graphem-Phonem-Umsetzung. IN einem darauf folgende Schritt erfolgt das Erzeugen der Prosodie sowie die eigentlichen Synthese des Sprachsignals.
Für jede dieser Teilschritte sind erfindungsgemäß unterschiedliche, an sich bekannte Verfahren vorgesehen.
Bei der Synthese des Sprachsignals sind gemäß unterschiedlichen Ausführungsformen der Erfindung insbesondere folgende Verfahren vorgesehen:

– eine so genannte Formant-Synthese, wie in [1] beschrieben,
– artikulatorische Modelle, wie in [2] beschrieben,
– eine Synthese vom Korpus, wie in [3] beschrieben, oder
– eine Diphon-Synthese, wie ebenfalls in [1] beschrieben.

Für die anderen Teilverfahren sind insbesondere folgende drei Möglichkeiten vorgesehen, welche auch in Mischformen eingesetzt werden können.
Es können große Lexika verwendet werden, in denen alle benötigte Information gespeichert ist, es können so genannte regelbasierte Verfahren eingesetzt werden und/oder es können datenbasierte Verfahren, beispielsweise Neuronale Netze oder statistische Ansätze eingesetzt werden.
Ein Überblick über erfindungsgemäß einsetzbare Technologien zu Text-zu-Sprache-Wandlung ist in [4] gegeben.
Das synthetisierte Sprachsignal, welches die Verzeichnisstruktur widerspiegelt, wird von dem Text-zu-Sprache-Wandler 114 an die Ausgangsschnittstelle 119 übertragen und von dort dem Lautsprecher 122 zugeführt und dem Benutzer ausgegeben.
Das Sprachsignal kann in analoger oder in digitaler Form vorliegen, je nachdem, welche Art eines Sprachsignals das Augabemedium, das heißt beispielsweise der Lautsprecher 122, verarbeiten kann.
Bei der Ausgabe des Sprachsignals wird je nachdem welche Informationen der Verzeichnisstruktur 103 enthalten ist, beispielsweise der Name des jeweiligen Verzeichnisses, des Unterverzeichnisses oder auch der Name der Datei oder des Musikstücks, das heißt der Titel des Stücks, ausgegeben.
Zusätzlich können weitere Informationen, welche der jeweiligen Datei oder dem Verzeichnis zugeordnet sind, beispielsweise der Name des Interpreten, vorgegebene Klassifikationsangaben über das Musikstück, beispielsweise das Genre des Musikstücks, das Tempo des Musikstücks oder die Angabe, ob es sich um ein Vokalstück oder ein Instrumentalstück handelst ausgegeben werden. Diese Informationen können jeweils einem Musikstück zugeordnet sein, sie können aber auch einer Gruppe von mehreren Musikstücken zugeordnet sein.
Gemäß diesem Ausführungsbeispiel wird nach erfolgtem Ausgeben des Sprachsignals eine vorgegebenen Zeitdauer, beispielsweise 3 Sekunden gewartet, während welcher der Benutzer die Auswahltaste 108 drücken kann, um durch das Drücken die jeweilige Teilhierarchie oder das Musikstück, das heißt die Audiodatei auszuwählen zur Ausgabe entweder wiederum als Sprachsignal oder als dekodiertes Musikstück.
Drückt der Benutzer die Taste 118 nicht, so wird der nächste Titel oder das nächst Teilverzeichnis ausgegeben.
Der Text-zu-Sprache-Wandler 114 ist gemäß diesem Ausführungsbeispiel derart eingerichtet, dass textuelle Sonderzeichen, beispielsweise Satzzeichen entweder auf ein Wort (beispielsweise „Komma", „Punkt") abgebildet und als entsprechendes Wort-Sprachsignal ausgegeben wird oder ignoriert werden.
Ist eine Umwandlung des jeweiligen Textdatums in ein Sprachsignal nicht möglich, so wird die entsprechende textuelle Information auf der Grundlage der jeweiligen Buchstaben buchstabiert, das heißt es werden die einzelnen Buchstaben-Sprachsignale ausgegeben.
Ferner sind übliche Abkürzungen dem Text-zu-Sprache-Wandler 114 vorgegeben, welche entsprechend als Sprachsignal ausgegeben werden.
Gemäß diesem Ausführungsbeispiel ist es ferner vorgesehen, dass die Sprache, in der die Ausgabe erfolgt, voreingestellt werden kann. So ist es beispielsweise möglich, Deutsch, Englisch, Französisch, etc. als eine Sprache auszuwählen, in der die Ausgabe eines Sprachsignals und somit auch die Sprachsynthese erfolgt.
Im Rahmen der Sprachsynthese wird die Prosodie gemäß diesem Ausführungsbeispiel mittels an sich bekannter vordefinierter Prosodie-Schablonen bereitgestellt.
Die Verwendung der Prosodie-Schablonen ist gemäß diesem Ausführungsbeispiel vorteilhaft, da es sich im betroffenen Anwendungsfall lediglich um kurze Äußerungen handelt, für welche sich die Prosodie-Schablonen sehr gut eignen.
Ist für die umzuwandelnde textuelle Information keine Umwandlung in ein Sprachsignal möglich, so wird von dem Text zu-Sprache-Wandler 114 eine entsprechende Fehlermeldung als Sprachsignal mittels der Ausgangsschnittstelle 119 an den Lautsprecher 122 übertragen und von diesem ausgegeben.
Gemäß einer Ausgestaltung der Erfindung ist es ferner vorgesehen, dass die zu verwendende Sprache in einer Initialisierungsphase von einer Sprachenerkennungs-Einrichtung erkannt wird und das Sprachsignal in ein Sprachsignal der entsprechenden ermittelten Sprache umgewandelt und dem Benutzer ausgegeben wird. Auf diese Weise wird die Einsetzbarkeit der erfindungsgemäßen Einrichtung erheblich flexibler gestaltet.
Ist eine Audiodatei 102 von dem Benutzer ausgewählt worden unter Verwendung der Auswahltaste 118, so wird die ausgewählte Audiodatei 102 in den Zwischenspeicher 113 übertragen, mittels des MP3-Decoders 115 dekodiert und dekomprimiert und ebenfalls über die Ausgabeschnittstelle 119 an den Lautsprecher 122 übertragen und von diesem ausgegeben.
Im Weiteren werden einige alternative Ausführungsformen zu dem oben dargelegten bevorzugten Ausführungsbeispiel dargestellt.
Alternativ oder ergänzend zu der Auswahltaste 118 kann es vorgesehen sein, dass eine Benutzereingabe auch mittels Sprache erfolgen kann, in welchem Fall in dem CD-ROM-Abspielgerät 110 ein Spracherkennungssystem vorgesehen und integriert ist, welches die mittels eines ebenfalls vorgesehenen Mikrophons aufgenommenen analogen Sprachsignale digitalisiert und erkennt und unter Verwendung der erkannten Sprachsignale die gewünschte Auswahl vornimmt, das heißt das CD-ROM-Abspielgerät 110 steuert.
Auch das Spracherkennungssystem kann unter Verwendung des „Unispeech"-Prozessors der Firma Infineon Technologies AG realisiert sein.
In einer anderen alternativen Ausführungsform ist es vorgesehen, dass die Verzeichnisstruktur 103 nicht streng hierarchisch, sondern unter Verwendung beliebig vorgebbarer Suchkriterien, das heißt Suchparametern ermöglicht ist.
In diesem Fall ist die Verzeichnisstruktur 103 analog zu einer relationalen Datenbank in Form von Datensätzen auf der CD-ROM 101 gespeichert, wobei eine Filterung und Ausgabe der jeweiligen Datensätze analog zu einer Datenbank-Filterung erfolgt.
In diesem Fall sind die jeweiligen Daten selbstverständlich in einer Form abzuspeichern, dass sie analog zu einer Datenbankfilterung bearbeitbar sind.
Auch in einem solchen Fall ist es jedoch vorgesehen, dass die auszugebenden Daten der Verzeichnisstruktur dem Text-zu-Sprache-Wandler 114 zugeführt werden, von diesem in ein Sprachsignal umgewandelt werden und an den Lautsprecher 122 zur Ausgabe übertragen werden.

100: Anordnung
101: CD-ROM
102: Digitale Audiodateien
103: Verzeichnisstruktur
104: Elektrische Leitung
110: CD-ROM-Abspielgerät
111: Digital-Schnittstelle
112: Steuereinrichtung
113: Zwischenspeicher
114: Text-zu-Sprache-Wandler
115: MP3-Dekoder
116: Erste Bedientaste
117: Zweite Bedientaste
118: Auswahltaste
119: Analog-Schnittstelle
120: Computerbus
121: Elektrische Leitung
122: Lautsprecher

In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] D.H. Klatt, Software for a cascade/parallel formant synthesizer, Journal of the Acoustic Society of America, Vol. 67, S. 971 – 995, 1980
[2] C.H. Shadle und R.I. Damper, Prospects for articulatory synthesis: a position paper, In Proceedings of the 4th ISCA Speech Synthesis Workshop, Perthshire, UK, 2001
[3] W.N. Campbell, A. Black. CHATR: a multi-lingual speech re-sequencing synthesis system, In Proceedings of Institute of Electronic, Information and Communication Engineers-89, Tokyo, 1996
s[4] T. Dutoit, An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishers, Dordrecht, ISBN 0-7923-4498-7, S. 105–127, 1997

Claims

Multimedia-Datei-Abspieleinrichtung mit – einer Digital-Schnittstelle zu einem Massendatenträger, in dem eine Vielzahl von Multimedia-Dateien und eine Verzeichnisstruktur, in der die in dem Massendatenträger gespeicherten Multimedia-Dateien angegeben sind, gespeichert sind, – einer Multimedia-Datei-Einleseeinrichtung, welche derart eingerichtet ist, dass mittels der Digital-Schnittstelle die in dem Massendatenträger gespeicherten Multimedia-Dateien und die Verzeichnisstruktur eingelesen werden können, – mit einem Zwischenspeicher zum Speichern der eingelesenen Multimedia-Dateien und der Verzeichnisstruktur, – mit einer Text-zu-Sprache-Wandlereinrichtung zum Umwandeln der in der Verzeichnisstruktur enthaltenen Textdaten in ein Sprachsignal, – mit einer ersten Auswahleinrichtung zum Auswählen mindestens eines Elements der Verzeichnisstruktur, welche mittels der Text-zu-Sprache-Wandlereinrichtung in ein Sprachsignal umzuwandeln ist, – mit einer zweiten Auswahleinrichtung zum Auswählen mindestens einer auszugebenden Multimedia-Datei, und – mit einer Umwandlungseinrichtung zum Umwandeln der in der auszugebenden Multimedia-Datei enthaltenen Multimedia-Daten in ein Ausgabesignal umgewandelt wird, welches der Ausgabe-Schnittstelle zuführbar ist, – mit einer Ausgabe-Schnittstelle zum Ausgeben des Sprachsignals und des Ausgabesignals.
Multimedia-Datei-Rbspieleinrichtung gemäß Anspruch 1, bei der die Umwandlungseinrichtung derart eingerichtet ist, dass eine Audio-Datei und/oder eine Video-Datei als Multimedia-Datei in das Ausgabesignal umwandelbar ist.
Multimedia-Datei-Abspieleinrichtung gemäß Anspruch 2, bei der die Umwandlungseinrichtung derart eingerichtet ist, dass die Audiodaten und/oder die Videodaten dekomprimiert werden und nach erfolgter Dekompression ausgebbar sind.
Multimedia-Datei-Abspieleinrichtung gemäß Anspruch 3, bei der die Umwandlungseinrichtung derart eingerichtet ist, dass gemäß dem MP3-Format komprimierte Audiodaten dekomprimiert werden und nach erfolgter Dekompression ausgebbar sind.
Multimedia-Datei-Abspieleinrichtung gemäß einem der Ansprüche 1 bis 4, bei der die Verzeichnisstruktur als hierarchische Verzeichnisstruktur eingerichtet ist.
Multimedia-Datei-Abspieleinrichtung gemäß einem der Ansprüche 1 bis 5, bei der die erste Auswahleinrichtung und/oder die zweite Auswahleinrichtung als Spracherkennungseinrichtung zum Erkennen eingegebener Sprachsignale eingerichtet ist/sind.
Multimedia-Datei-Abspieleinrichtung gemäß Anspruch 6, bei der die erste Auswahleinrichtung und die zweite Auswahleinrichtung als eine Auswahleinrichtung ausgestaltet sind.
Multimedia-Datei-Abspieleinrichtung gemäß einem der Ansprüche 1 bis 7, bei der die Text-zu-Sprache-Wandlereinrichtung derart eingerichtet ist, dass sie eine Diphon-Synthese zum Bilden des Sprachsignals durchführt.
Multimedia-Datei-Abspieleinrichtung gemäß einem der Ansprüche 1 bis 8, eingerichtet als tragbare Multimedia-Datei-Abspieleinrichtung.
Autoradio mit einer Multimedia-Datei-Abspieleinrichtung gemäß einem der Ansprüche 1 bis 8.