[go: up one dir, main page]

DE102005000818A1 - Rauschunterdrückungssystem, Spracherkennungssystem und Fahrzeug-Navigationssystem - Google Patents

Rauschunterdrückungssystem, Spracherkennungssystem und Fahrzeug-Navigationssystem Download PDF

Info

Publication number
DE102005000818A1
DE102005000818A1 DE200510000818 DE102005000818A DE102005000818A1 DE 102005000818 A1 DE102005000818 A1 DE 102005000818A1 DE 200510000818 DE200510000818 DE 200510000818 DE 102005000818 A DE102005000818 A DE 102005000818A DE 102005000818 A1 DE102005000818 A1 DE 102005000818A1
Authority
DE
Germany
Prior art keywords
noise
signal
audio
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE200510000818
Other languages
English (en)
Inventor
Manabu Kariya Otsuka
Ichiro Kariya Akahori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Publication of DE102005000818A1 publication Critical patent/DE102005000818A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

Ein Rauschunterdrückungssystem mit verbessertem Leistungsvermögen zum Unterdrücken einer Rauschkomponente, die sich auf einen erzeugten Ton eines Audiosystems bezieht, das mehrere Kanäle eines Tons wiedergibt, aus einem Eingangssignal eines Mikrofons ist mit einer Audio-Unterdrückungsvorrichtung zum Unterdrücken von Audiosignalen von zwei Kanälen und Verarbeiten von diesen durch Filterkomponenten durch eine Faltungsverarbeitung, um Rauschunterdrückungssignale an adaptiven Filtern zu erzeugen, einem Addierer zum Addieren des Eingangssignals des Mikrofons und der Rauschunterdrückungssignale, zum Unterdrücken der Rauschkomponente aus dem Eingangssignal und zum Ausgeben des Signals nach einer Rauschunterdrückung, nicht linearen Wandlern zum nicht linearen Wandeln des Signals nach der Rauschunterdrückung und Filterlerneinheiten zum Berechnen der Filterkomponenten, die als nächstes festzulegen sind, auf der Grundlage des nicht linear gewandelten Signals versehen.

Description

  • Die vorliegende Erfindung betrifft ein Rauschunterdrückungssystem zum Unterdrücken einer Rauschkomponente für einen Ton, der aus einem Sprachsignal, das aus einem Mikrofon eingegeben wird, von einem Audiosystem wiedergegeben wird, ein Spracherkennungssystem, das das Gleiche unterbringt, und ein Fahrzeug-Navigationssystem, das mit einem derartigen Spracherkennungssystem ausgestattet ist.
  • In der Vergangenheit ist ein Spracherkennungssystem bekannt gewesen, welches die Sprache eines Benutzers durch ein Mikrofon erfasst, sie mit Mustern einer Sprache vergleicht, die im voraus als Erkennungswörter gespeichert sind, und Erkennungswörter einer hohen Übereinstimmung als Wörter erkennt, die von einem Benutzer gesprochen worden sind. Dieser Typ eines Spracherkennungssystem ist zum Beispiel in ein Fahrzeug-Navigationssystem eingebaut.
  • Es ist bekannt, dass die Spracherkennungsrate eines Spracherkennungssystems von der Höhe der Rauschkomponente beeinflusst wird, die in dem Sprachsignal enthalten ist, das von dem Mikrofon eingegeben wird. Wenn ein in ein Fahrzeug eingebautes Audiosystem in dem Fahrgastraum eines Kraftfahrzeugs usw. betrieben wird, wird die Musik, die von einem Lautsprecher des Audiosystems wiedergegeben wird, als Rauschen ausgegeben, dass von dem Mikrofon zusammen mit der Sprache des Benutzers aufgenommen wird. Deshalb ist es in der Vergangenheit die Praxis gewesen, dass Audiosystem zu dem Zeitpunkt einer Spracherkennung stumm zu schalten, um zu verhindern, dass die Musik usw. in das Mikrofon eingegeben wird (siehe zum Beispiel "Public News Release, 'Five Car AV & Navigation '99 Summer Models Released', [online], 18. Mai 1999, Fuji-ten, [Suche 16. Oktober 2003], Internet <URL: HYPERLINK "http://www.fuji-ten.co.jp/release/1999/0518.html", tttp://www.fuji-ten.co.jp/release/1999/0518.html>).
  • Jedoch wird bei einem herkömmlichen System dieses Aufbaus, da die Wiedergabe der Musik usw. dadurch beendet wird, dass sie zu der Zeit einer Spracherkennung vorübergehend unterbrochen wird, die Möglichkeit des Benutzers, dass dieser verärgert wird, hoch. Deshalb ist es in den letzten Jahren erachtet worden, in dem Spracherkennungssystem ein Rauschunterdrückungssystem vorzusehen, welches das Audiosignal erfasst, das in den Lautsprecher eingegeben wird, die Rauschkomponente schätzt, die in dem Sprachsignal enthalten ist, das aus dem Mikrofon auf der Grundlage von diesem erzielt wird, und die Rauschkomponente aus dem Sprachsignal beseitigt.
  • Als das Rauschunterdrückungssystem ist eines, das einen Algorithmus für die kleinsten Fehlerquadrate bzw. LMS-Algorithmus für das Verfahren eines Schätzens der Rauschkomponente verwendet, bekannt. Dieser Typ eines Rauschunterdrückungssystems erfasst das Audiosignal, das in einen Lautsprecher des Audiosystems eingegeben wird, filtert das Audiosignal durch ein adaptives Filter, um ein Rauschunterdrückungssignal zum Unterdrücken der Rauschkomponente aus dem Sprachsignal zu erzeugen, und beseitigt die Rauschkomponente, die in dem Sprachsignal enthalten ist, das von dem Mikrofon erfasst wird, auf der Grundlage dieses Rauschunterdrückungssignals.
  • Weiterhin ist dieses Rauschunterdrückungssystem mit einer Filterlerneinheit zum Ändern der Charakteristik des adaptiven Filters (des Filterkoeffizienten) versehen, das das normalisierte LMS-Verfahren, bzw. NLMS-Verfahren, das ebenso als das Lernidentifikaxtionsverfahren bekannt ist, auf der Grundlage des rauschfreien Sprachsignals verwendet. Aufgrund eines wiederholten Betriebs der Filterlerneinheit wird die Rauschkomponente, die in dem Sprachsignal enthalten ist, durch das Rauschunterdrückungssignal geeignet ausgelöscht.
  • Als in ein Fahrzeug eingebaute Audiosysteme sind Audiosysteme, die Stereo-Wiedergabefunktionen aufweisen (hier im weiteren Verlauf ebenso als "Stereo-Audiosysteme" bezeichnet) weit verbreitet, so dass es bei in ein Fahrzeug eingebauten Rauschunterdrückungssystemen bevorzugt ist, dass die Rauschkomponente, die aufgrund der Musik usw. erzeugt wird, die von dem Mikrofon aufgenommen wird, geeignet ausgelöscht werden kann. Jedoch hat es gerade durch ein Ändern des Aufbaus des Rauschunterdrückungssystem zu einem für ein Stereo-Audiosystem das Problem gegeben, dass die gesamte Rauschkomponente der Mehrzahl von Kanälen nicht geeignet aus dem Sprachsignal ausgelöscht werden könnte.
  • Als ein Beispiel des Aufbaus eines Rauschunterdrückungssystem für ein Stereo-Audiosystem kann zum Beispiel eines berücksichtigt werden (siehe zum Beispiel die ungeprüfte japanische Patentoffenlegungsschrift (Kokai) Nr. 2001-100784, 25), das ein adaptives Filter und eine Filterlerneinheit für jeden Kanal vorsieht. Bei diesem Aufbau aktualisieren die Filterlerneinheiten, die den Kanälen entsprechen, die Filterkoeffizienten auf der Grundlage des rauschfreien Sprachsignals mit Restrauschkomponenten von anderen Kanälen, wobei die Lernverfahren einander beeinflussen und die Filterlerneinheiten der Kanäle fehlerhaft die Filterkoeffizienten aus dem Sprachsignal lernen. Deshalb kann ein Rauschunterdrückungssystem dieses Aufbaus nicht die gesamte Rauschkomponente einer Mehrzahl von Kanälen aus einem Sprachsignal auslöschen.
  • Im Hinblick auf dieses Problem ist das Spracherkennungssystem der ungeprüften japanischen Patentoffenlegungsschrift (Kokai) Nr. 2001-100785 derart aufgebaut, dass es die Audiosignale erfasst, diese zu einem monauralen Signal wandelt, die Rauschkomponente auf der Grundlage dieses monauralen Signals schätzt und die Rauschkomponente aus dem Sprachsignal auslöscht.
  • Weiterhin beschreibt die ungeprüfte japanische Patentoffenlegungsschrift (Kokai) Nr. 10-190848 ein Rauschechobeseitigungsverfahren, welches die Audiosignale der unterschiedlichen Kanäle, die in die Lautsprecher des Audiosystems eingegeben werden, nicht linear wandelt, um die Entsprechung zwischen Kanälen für einen wiedergegebenen Ton eines Audiosystems zu verringern, der von dem Mikrofon aufgenommen wird, und um dadurch ein fehlerhaftes Lernen der Filterkoeffizienten in den Filterlerneinheiten zu verhindern, die den Kanälen entsprechen.
  • Die von der Erfindung zu lösenden Probleme zusammenfassend schätzt das Spracherkennungssystem, dass in der ungeprüften japanischen Patentoffenlegungsschrift (Kokai) Nr. 2001-100785 beschrieben ist, die Rauschkomponente, die sich auf die wiedergegebene Stereomusik usw. bezieht, auf der Grundlage eines monauralen Signals der Audiosignale, die von dem Audiosystem erzielt werden, so dass es das Problem aufweist, dass der Schätzfehler groß ist und die Rauschkomponente nicht mit einer ausreichenden Genauigkeit aus dem Eingangssignal des Mikrofons beseitigt werden kann.
  • Weiterhin wandelt das Audio-Echobeseitigungsverfahren, das in der ungeprüften japanischen Patentoffenlegungsschrift (Kokai) Nr. 10-100848 beschrieben ist, die Audiosignale der unterschiedlichen Kanäle nicht linear und verwendet die gewandelten Audiosignale, um Rauschen aus den Lautsprechern zu erzeugen, so dass es das Problem aufweist, dass sich die Qualität des Tons verschlechtert. Deshalb verschlechtert sich, wenn dieses Audio-Echobeseitigungsverfahren an dem Rauschunterdrückungssystem für ein Audiosystem angewendet wird, das hauptsächlich zum Wiedergeben von Musik usw. aufgebaut ist, die Qualität der Musik usw. und wird der Benutzer in vielen Fällen verärgert.
  • Eine Aufgabe der vorliegenden Erfindung besteht darin, ein Rauschunterdrückungsverfahren zum Erfassen von Audiosignalen von unterschiedlichen Kanälen aus einem Audiosystem, das verschiedene Kanäle eines Tons wiedergibt, und zum Beseitigen der Rauschkomponente, die sich auf den wiedergegebenen Ton des Audiosystems bezieht, aus der Sprachsignaleingabe von einem Mikrofon auf der Grundlage der Audiosignale der unterschiedlichen Kanäle zu beseitigen, deren Leistungsvermögen zum Beseitigen von Rauschen verbessert ist, zu schaffen.
  • Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein einfach zu verwendendes Spracherkennungssystem und ein Fahrzeug-Navigationssystem unter Verwendung eines derartigen Rauschbeseitigungssystems zu schaffen, das eine hervorragende Rauschunterdrückungsfähigkeit aufweist.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Rauschunterdrückungssystem zum Erfassen von Audiosignalen von unterschiedlichen Kanälen aus einem Audiosystem geschaffen, das mehrere Kanäle eines Tons wiedergibt und eine Rauschkomponente, die sich auf den wiedergegebenen Ton des Audiosystems bezieht, aus einem Sprachsignal beseitigt, das von einem Mikrofon eingegeben wird, das mit einer rauschfreien Sprachsignalausgabeeinheit, einer Wandlereinheit und einer Rauschunterdrückungssignal-Erzeugungseinheit für jeden Kanal versehen ist.
  • Jede Rauschunterdrückungssignal-Erzeugungseinheit ist mit einem Filterelement zum Filtern des Audiosignals seines eigenen Kanals, das von dem Au diosystem erfasst wird, versehen, filtert es in Übereinstimmung mit einem im voraus festgelegten Filterkoeffizienten und beseitigt die Rauschkomponente aus dem Sprachsignal.
  • Die rauschfreie Sprachsignal-Ausgabeeinheit verwendet jedes Rauschunterdrückungssignal, das von der Rauschunterdrückungssignal-Erzeugungseinheit der unterschiedlichen Kanäle erzeugt wird, um die Rauschkomponente zu unterdrücken, die in einem Sprachsignal enthalten ist, das von dem Mikrofon eingegeben wird, und gibt ein rauschfreies Sprachsignal aus.
  • Die Wandlereinheit ist derart aufgebaut, dass sie das Sprachsignal nicht linear wandelt, welches die rauschfreie Sprachsignal-Ausgabeeinheit ausgibt. Jede Rauschunterdrückungssignal-Erzeugungseinheit ist mit einem Koeffizienten-Aktualisierungselement zum Aktualisieren des Filterkoeffizienten, der in dem Filterelement festgelegt wird, auf der Grundlage des Audiosignals eines eigenen Kanals, das von dem Audiosystem erfasst wird, und des Sprachsignals versehen, das nicht linear von der Wandlereinheit gewandelt wird.
  • Daher wandelt das derart aufgebaute Rauschunterdrückungssystem des ersten Aspekts der vorliegenden Erfindung das rauschfreie Sprachsignal, das aus der rauschfreien Sprachsignal-Ausgabeeinheit ausgegeben wird, nicht linear und verwendet das nicht linear gewandelte Sprachsignal, um den Filterkoeffizienten des Filterelements, das für jeden Kanal vorgesehen ist, durch das Filteraktualisierungselement zu aktualisieren, das jedem Kanal entspricht, wobei die Filteraktualisierungselemente nicht einfach einander beeinflussen und kein fehlerhaftes Lernen der Filterkoeffizienten einfach bei den Koeffizienten-Aktualisierungselementen auftritt.
  • Das heißt, der Filterkoeffizienten-Lernvorgang in dem Koeffizienten-Aktualisierungselement von jedem Kanal ist bezüglich den Rauschkomponenten von anderen Kanälen als seinem eigenen anfällig gewesen, aber gemäß dem Rauschunterdrückungssystem der vorliegenden Erfindung kann dieser Effekt klein gehalten werden, da ein nicht linear gewandeltes Sprachsignal zum Lernen der Filterkoeffizienten verwendet wird. Deshalb ist es möglich, das fehlerhafte Lernen des Filterkoeffizienten an jedem Koeffizienten-Aktualisierungselement aufgrund der Rauschkomponenten von anderen Kanälen oder des Verhaltens der Koeffizienten-Aktualisierungselemente von anderen Kanälen zu unterdrücken.
  • Deshalb ist es gemäß dem ersten Aspekt der vorliegenden Erfindung möglich, geeigneter die Rauschkomponente eines Tons usw. aus einem Sprachsignal zu unterdrücken, auf welches eine Rauschkomponente von Musik usw., die durch ein Audiosystem in mehreren Kanälen wiedergegeben wird (Stereo-Wiedergabe), überlagert ist, und deshalb, die Rauschunterdrückungsfähigkeit des Rauschunterdrückungssystems zu verbessern.
  • Weiterhin kann die Wandlereinheit eine tanh- bzw. Tangens-Hyperbolikus-Funktion, eine Signum-Funktion oder eine andere nicht lineare Funktion für ein nicht lineare Wandlung sein. Weiterhin kann das Rauschunterdrückungssystem insbesondere wie bei einem zweiten Aspekt der vorliegenden Erfindung aufgebaut sein.
  • In dem Rauschunterdrückungssystem des zweiten Aspekts der vorliegenden Erfindung verarbeitet das Filterelement einen im voraus festgelegten Filterkoeffizienten W[k] und ein Audiosignal X(t) seines eigenen Kanals durch eine Faltungsverarbeitung in Übereinstimmung mit der folgenden Gleichung (1 ):
    Figure 00060001
    um das Audiosignal X(t) zu filtern und das Rauschunterdrückungssignal C(t) zu erzeugen.
  • Weiterhin gibt die Wandlereinheit ein Sprachsignal U(t), welches die rauschfreie Sprachsignal-Ausgabeeinheit ausgibt, als x = U(t) in eine nicht lineare Funktion f(x) ein, um ein nicht linear gewandeltes Sprachsignal f(U(t)) zu erzeugen.
  • Weiterhin berechnet das Koeffizienten-Aktualisierungselement einen Filterkoeffizienten F[k] auf der Grundlage des nicht linear gewandelten rauschfreien Sprachsignals f(U(t)), das von der Wandlereinheit erzeugt wird, des Audiosignals X(t) seines eigenen Kanals und des Filterkoeffizienten W[k], das bereits in dem Filterelement festgelegt ist, in Übereinstimmung mit den folgenden Gleichungen (2) und (3), die im voraus festgelegte Konstanten α und β beinhal ten:
    Figure 00070001
  • Dabei ist die Konstante K eine Abgriffsnummer einer ganzen Zahl von 2 oder mehr und ist die Variable t eine Variable, die die Zeit darstellt, und ein ganzer Wert ist, und diesen Filterkoeffizienten F[k] in dem Filterelement festlegt, um den Filterkoeffizienten W[k] zu aktualisieren.
  • Gemäß dem Rauschunterdrückungssystem des zweiten Aspekts der vorliegenden Erfindung, das auf diese Weise aufgebaut ist, ist es wie bei dem ersten Aspekt der vorliegenden Erfindung möglich, die Rauschkomponente von Musik usw., die von einem Audiosystem wiedergegeben wird, geeignet aus dem Sprachsignal zu unterdrücken und dadurch die Rauschunterdrückungsfähigkeit des Rauschunterdrückungssystems zu verbessern.
  • Die Wandlereinheit in den Rauschunterdrückungssystemen der ersten und zweiten Aspekte der vorliegenden Erfindung können derart aufgebaut sein, dass sie eine tanh-Funktion einer nicht linearen Funktion für die nicht lineare Wandlung verwenden. Alternativ kann die Wandlereinheit eine Signum-Funktion einer nicht linearen Funktion für die nicht lineare Wandlung verwenden. Alternativ kann die Wandlereinheit eine Funktion g(x) einer nicht linearen Funktion für die nicht lineare Wandlung verwenden:
    Figure 00070002
  • Dabei ist m eine Variable einer positiven realen Zahl, die größer als 1 ist.
  • Abhängig von dem Typ der nicht linearen Funktion wird sich das Rauschunterdrückungs-Leistungsvermögen des Systems und die Verarbeitungslast bezüglich der Wandlereinheit des Systems unterscheiden, aber gemäß dem Rauschunterdrückungssystem des dritten Aspekts der vorliegenden Erfindung, die eine tanh-Funktion verwendet, ist es möglich, die Verarbeitungslast bezüglich der Wandlereinheit zu unterdrücken und das Rauschunterdrückungs-Leistungsvermögen ausreichend zu verbessern.
  • Weiterhin ist es, wenn eine Signum-Funktion wie in dem Rauschunterdrückungssystem des vierten Aspekts der vorliegenden Erfindung verwendet wird, während das Rauschunterdrückungs-Leistungsvermögen verglichen mit dem Rauschunterdrückungssystem des dritten Aspekts der vorliegenden Erfindung abfällt, möglich, die Verarbeitungslast bezüglich der Wandlereinheit zu verringern. Weiterhin ist es, wenn die Funktion g(x) wie in dem Rauschunterdrückungssystem des fünften Aspekts der vorliegenden Erfindung verwendet wird, möglich, die Verarbeitungslast zu verringern, während ein Rauschunterdrückungs-Leistungsvermögen des gleichen Ausmaßes wie bei dem Rauschunterdrückungssystem des dritten Aspekts der vorliegenden Erfindung erzielt wird.
  • Weiterhin können die Rauschunterdrückungssysteme der ersten und zweiten Aspekte der vorliegenden Erfindung ebenso andere nicht lineare Funktionen als diejenigen verwenden, die zuvor erläutert worden sind. Die nicht linearen Funktionen können auf der Grundlage der Entdeckung einer bekannten unabhängigen Komponentenanalyse bzw. ICA ausgewählt werden. Für die unabhängige Komponentenanalyse wird auf zum Beispiel A. J. Bell, T. J. Sejnowski, "An information-maximization approach to blind separation and blind deconvolution", Neural Computation, 7(6), Seiten 1129 bis 1159, 1995, H. Mathis, S. Douglas, "On optimal and universal nonlinearities for blind signal separation", Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2001, usw. verwiesen.
  • Vorhergehend sind Rauschunterdrückungssysteme gemäß der vorliegenden Erfindung erläutert worden, aber diese können ebenso in Spracherkennungssysteme eingebaut sein. Das Spracherkennungssystem gemäß dem sechsten Aspekt der vorliegenden Erfindung ist mit einem Rauschunterdrückungssystem des ersten Aspekts der vorliegenden Erfindung und einer Spracherkennungseinheit zum Erkennen der Sprache eines Benutzers, die in ein Mikrofon eingegeben wird, auf der Grundlage des rauschfreien Sprachsignals versehen, das von dem Rauschunterdrückungssystem erzielt wird.
  • Das Spracherkennungssystem des sechsten Aspekts der vorliegenden Erfindung unterdrückt die Rauschkomponente, die in dem Sprachsignal enthalten ist, durch ein Rauschunterdrückungssystem, das eine hohe Rauschunterdrückungsfähigkeit aufweist, und verwendet das rauschfreie Sprachsignal, um die Sprache des Benutzers zu erkennen, die in das Mikrofon eingegeben wird, um beträchtlich die Spracherkennungsrate verglichen mit dem Stand der Technik zu verbessern.
  • In den Systemen des Standes der Technik ist, wenn ein Audiosignal auf ein Sprachsignal als eine Rauschkomponente überlagert worden ist, die Spracherkennungsrate abgefallen, so dass die Praxis gewesen ist, das Audiosystem vorübergehend zu der Zeit einer Spracherkennung stumm zu schalten, aber gemäß dem Spracherkennungssystem der vorliegenden Erfindung ist es möglich, Sprache ohne Stummschalten des Audiosystems genau zu erkennen. Deshalb ist es gemäß dem sechsten Aspekt der vorliegenden Erfindung möglich, eine Verärgerung des Benutzers aufgrund eines vorübergehenden Unterbrechens einer Wiedergabe von Musik usw. zu der Zeiteiner Spracherkennung zu beseitigen.
  • Wenn das Rauschunterdrückungssystem der vorliegenden Erfindung verwendet wird, wird es möglich, Sprache zu erkennen, während Musik usw. läuft, aber wenn Sprache erkannt wird, während Musik usw. läuft, können mehrere Probleme entstehen. Das heißt in dem Stand der Technik ist es zu dem Beginn der Spracherkennung die Praxis gewesen, das Audiosystem stumm zu schalten und keine Musik usw. abzuspielen oder ein akustisches Signal abzugeben, während die Musik usw. abgespielt wird, um dem Benutzer den Start einer Spracherkennung zu signalisieren, aber wenn eine Spracherkennung begonnen wird, während Musik usw. abgespielt wird, kann dies auch dann, wenn ein akustisches Signal abgegeben wird, durch die Musik usw. maskiert werden, was bewirkt, dass der Benutzer nicht unterrichtet wird. Das heißt, der Benutzer findet es manchmal schwierig, zu bestimmen, wann die Spracherkennung gestartet wird, wenn im Stand der Technik eine Spracherkennung gestartet wird, während Musik usw. abgespielt wird.
  • Deshalb ist es in einem Spracherkennungssystem zum Erkennen von Sprache, während Musik usw. abgespielt wird (das heißt während fortgesetzt wird, ein Ton durch das Audiosystem wiederzugeben), bevorzugt, die Laut stärke des Tons, der von dem Audiosystem wiedergegeben wird, zu der Zeit einer Spracherkennung zu ändern.
  • Das Spracherkennungssystem eines siebten Aspekts der vorliegenden Erfindung ist mit einer Rauschunterdrückungseinheit zum Erfassen von Audiosignalen von unterschiedlichen Kanälen von einem Audiosystem, das mehrere Kanäle eines Tons wiedergibt, und zum Unterdrücken einer Rauschkomponente, die sich auf den wiedergegebenen Ton des Audiosystems bezieht, aus einem Sprachsignal, das von einem Mikrofon eingegeben wird, auf der Grundlage der Audiosignale der Kanäle, einer Spracherkennungseinheit zum Erkennen von Sprache eines Benutzers, die in das Mikrofon eingegeben wird, auf der Grundlage eines rauschfreien Sprachsignals, das von der Rauschunterdrückungseinheit erzielt wird, und einer Steuereinheit zum Durchführen, dass die Sprachsignal-Erkennungseinheit arbeitet, versehen, wenn eine Spracherkennungs-Startanweisung von außen eingegeben wird. Die Steuereinheit ändert eine Lautstärke eines Tons, der von dem Audiosystem wiedergegeben wird, auf einen vorbestimmten Wert (ausgenommen null) und führt darin durch, dass die Spracherkennungseinheit arbeitet, wenn die Spracherkennungs-Startanweisung zu der Zeit eines Betriebs des Audiosystems eingegeben wird.
  • Die derart aufgebaute Spracherkennungseinheit des siebten Aspekts der vorliegenden Erfindung ändert die Lautstärke der Musik usw., die von dem Audiosystem wiedergegeben wird, vor und nach einer Spracherkennung, um den Benutzer über den Start der Spracherkennung zu unterrichten, so dass der Benutzer zuverlässig den Beginn einer Spracherkennung durch die Änderung der Lautstärke lernen kann. Deshalb ist es gemäß dem siebten Aspekt der vorliegenden Erfindung möglich, das Problem zu beseitigen, das aufgrund eines akustischen Signals entsteht, das durch Musik usw. maskiert ist.
  • Weiterhin ist es zu der Zeit eines Einstellens der Lautstärke möglich, den Lombard-Effekt zu verwenden, um den Benutzer laut sprechen zu lassen. Der Lombard-Effekt ist die Erscheinung, dass die Lautstärke einer Sprache eines Benutzers in einer Umgebung mit starkem Rauschen ansteigt.
  • Das Spracherkennungssystem gemäß einem achten Aspekt der vorliegenden Erfindung ist mit einer Historienvorbereitungseinheit zum Vorbereiten einer Historieninformation, die sich auf eine Lautstärke der Sprache eines Be nutzers bezieht, auf der Grundlage des rauschfreien Sprachsignals, das von der Rauschunterdrückungseinheit zu der Zeit eines Betriebs der Spracherkennungseinheit erzielt wird, und einer Lautstärke-Bestimmungseinheit zum Bestimmen einer Lautstärke, die in dem Audiosystem zu der Zeit einer nächsten Spracherkennung festzulegen ist, auf der Grundlage der Historieninformation versehen, die von der Historienvorbereitungseinheit vorbereitet wird. Die Steuereinheit in dem Spracherkennungssystem ändert die Lautstärke eines Tons, der von dem Audiosystem wiedergegeben wird, zu einer Lautstärke, die von der Lautstärke-Bestimmungseinheit bestimmt wird und führt dann durch, dass die Spracherkennungseinheit arbeitet, wenn eine Spracherkennungs-Startanweisung von außen eingegeben wird.
  • Gemäß dem Spracherkennungssystem des achten Aspekts der vorliegenden Erfindung ist es möglich, die Lautstärke auf der Grundlage der Historieninformation zu ändern, so dass der Lombard-Effekt offenbart wird, ist es möglich, die Lautstärke einer Sprache eines Benutzers mit einer schwachen Stimme zu erhöhen und ist es möglich, die Spracherkennungrate zu verbessern.
  • Genauer gesagt ist es, um den Lombard-Effekt zu verwenden, um die Spracherkennungsrate zu verbessern, ausreichend, die Lautstärke-Bestimmungseinheit derart aufzubauen, dass sie einen Pegel einer Lautstärke einer Sprache des Benutzers auf der Grundlage der Historieninformation bewertet und eine wiedergegebene Lautstärke des Audiosystems zu der Zeit einer Spracherkennung auf eine Lautstärke bestimmt, die größer als ein vorbestimmter Referenzwert ist, wenn dieser bewertete Wert kleiner als ein vorbestimmter Bewertungsstandard ist. Gemäß dem derart aufgebauten Spracherkennungssystem des neunten Aspekts der vorliegenden Erfindung wird die Spracherkennungsrate verbessert.
  • Weiterhin wird es, wenn das Spracherkennungssystem der vorliegenden Erfindung in ein Fahrzeug-Navigationssystem eingebaut wird, für einen Fahrer eines Fahrzeugs usw. möglich, das Fahrzeug-Navigationssystem ohne Verwendung einer Fernsteuerung genau zu steuern. Deshalb wird gemäß den Fahrzeug-Navigationssystemen der zehnten und elften Aspekte der vorliegenden Erfindung die Bedienbarkeit des Systems verbessert.
  • Die vorliegende Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegende Zeichnung näher erläutert.
  • Es zeigt:
  • 1 ein Blockschaltbild eines allgemeinen Aufbaus eines Fahrzeug-Navigationssystems, an welchem die vorliegende Erfindung angewendet wird;
  • 2 ein Blockschaltbild der Funktionen einer Audio-Unterdrückungsvorrichtung;
  • 3 eine Ansicht von nicht linearen Funktionen f(x), die in nicht linearen Wandlern verwendet werden;
  • 4 ein Flussdiagramm einer Rauschunterdrückungsverarbeitung, die von einer Audio-Unterdrückungseinrichtung durchgeführt wird;
  • 5A ein Flussdiagramm einer ersten Filterlernverarbeitung, die von einer Audio-Unterdrückungseinrichtung durchgeführt wird;
  • 5B ein Flussdiagramm einer zweiten Filterlernverarbeitung, die von einer Audio-Unterdrückungseinrichtung durchgeführt wird;
  • 6A und 6B Flussdiagramme einer sich auf eine Spracherkennung beziehenden Verarbeitung, die von einer Steuereinrichtung durchgeführt wird; und
  • 7 ein Zeitablaufsdiagramm einer Betriebsart eines Fahrzeug-Navigationssystems.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachstehend im Detail beschrieben, während sich auf die beiliegende Zeichnung bezogen wird.
  • 1 zeigt ein Blockschaltbild des allgemeinen Aufbaus des Fahrzeug-Navigationssystems 1, an welchem die vorliegende Erfindung angewendet wird. Das Fahrzeug-Navigationssystem 1 des vorliegenden Ausführungsbeispiels ist mit einem Spracherkennungssystem 10, das mit einem Mikrofon 3 und einem in ein Fahrzeug eingebauten Audiosystem 5 verbunden ist, einer Steuervorrichtung 40, die mit einer CPU, einem Speicher 41 usw. versehen ist, zum Steuern der Anzeige eines Monitors 7 oder zum Steuern der anderen Teile des Systems und einem Tongenerator 50 versehen, der mit Lautsprechern SR und SL des Audiosystems 5 verbunden ist, das ein Sprachsignal in Übereinstimmung mit Anweisungssignalen von der Steuervorrichtung 40 erzeugt und dieses zu den Lautsprechern SR und SL ausgibt.
  • Das Fahrzeug-Navigationssystem 1 führt verschiedene Verarbeitungen durch die Steuervorrichtung 40 in Übereinstimmung mit den Anweisungssignalen aus, die von Betätigungsschaltern (einem PTT-(Drücken-zum Sprechen)-Schalter 9 usw.) eingegeben werden. Als die Verarbeitung, welche die Steuervorrichtung 40 des Fahrzeug-Navigationssystems 1 ausführt, können ein Suchen und Leiten der Strecke zu dem Zielort, ein Leiten zu umgebenden Einrichtungen, Änderungen des Bereichs und Maßstabs der Straßenkarte, die auf dem Monitor 7 angezeigt wird, und eine andere Verarbeitung erwähnt werden, die durch bekannte Fahrzeug-Navigationssysteme ausgeführt werden. Zusätzlich führt die Steuervorrichtung 40 des Fahrzeug-Navigationssystems 1 die später erläuterte sich auf eine Spracherkennung beziehende Verarbeitung (siehe 6) aus.
  • Das Audiosystem 5 weist eine Mehrkanal-Tonwiedergabefunktion (Stereo-Wiedergabefunktion) auf und ist mit einem Audiosystemdeck 6 und Kanallautsprechern SR und SL verbunden. Das Audiosystemdeck 6 ist mit einer Lautstärke-Steuervorrichtung 6a zum Steuern der Lautstärke der Tonausgabe aus den Lautsprechern SR und SL versehen. Es steuert die Lautstärke-Steuervorrichtung 6a, um die Lautstärke der Tonausgabe aus den Lautsprechern SR und SL in Übereinstimmung mit Anweisungssignalen, die von einem Bedienfeld (nicht gezeigt) des Audiosystemdecks 6 und der Steuervorrichtung 40 des Fahrzeug-Navigationssystems 1 eingegeben werden, zu steuern. Weiterhin werden die Audiosignale der Kanäle, die aus dem Audiosystemdeck 6 ausgegeben werden, entsprechend den Kanälen und dem Spracherkennungssystem 10 in die Lautsprecher SR und SL eingegeben.
  • Das Spracherkennungssystem 10 ist mit einem A/D-Wandler 11 zum Wandeln eines Sprachsignals, das von einem Mikrofon 3 eingegeben wird, von einem analogen zu einem digitalen Format, einem A/D-Wandler 13 zum Wan deln eines L-Kanal-Audiosignals, das von dem Audiosystem 5 eingegeben wird, von einem analogen zu einem digitalen Format, einem A/D-Wandler 15 zum Wandeln eines R-Kanal-Audiosignals, das von dem Audiosystem 5 eingegeben wird, von einem analogen zu einem digitalen Format, einer Audio-Unterdrückungsvorrichtung 20 und einer Spracherkennungseinheit 30 versehen.
  • Weiterhin ist die Audio-Unterdrückungsvorrichtung 20, wie es in 2 gezeigt ist, mit einem Addierer 21 und adaptiven Filtern 23L und 23R, Filterlerneinheiten 25L und 25R und nicht linearen Wandlern 27L und 27R für jeden Kanal versehen. 2 zeigt ein Blockschaltbild der Funktionen, die den allgemeinen Aufbau der Audio-Unterdrückungsvorrichtung 20 zeigen.
  • Das adaptive Filter 23L, das an der Audio-Unterdrückungsvorrichtung 20 vorgesehen ist, führt eine Faltungsverarbeitung bezüglich dem digital gewandelten L-Kanal-Audiosignal XL(t), das über den Anschluss S1 von dem A/D-Wandler 13 eingegeben wird, und des im voraus festgelegten Filterkoeffizienten WL[k] in Übereinstimmung mit einer Gleichung (5) aus, um das Audiosignal XL(t) durch den Filterkoeffizienten WL[k] zu filtern und ein Rauschunterdrückungssignal UL(t) zum Unterdrücken der Rauschkomponente, die sich auf die Tonausgabe aus dem Lautsprecher SL bezieht, aus dem Sprachsignal zu erzeugen, das von dem Mikrofon 3 eingegeben wird. Weiterhin nimmt die Variable k, die hier verwendet wird, einen ganzen Wert an, der 1 ≤ k ≤ K erfüllt, an. Weiterhin drückt die Konstante K eine Abgriffszahl aus und nimmt einen ganzen Wert von 2 oder mehr an. Weiterhin ist die Variable t eine Zeitvariable, die die Abtastdauer T als eine Einheit aufweist, und nimmt einen ganzen Wert an.
  • Figure 00140001
  • Andererseits führt das adaptive Filter 23R eine Faltungsverarbeitung bezüglich dem digital gewandelten R-Kanal-Audiosignal XR(t), das über den Anschluss S3 von dem A/D-Wandler 15 eingegeben wird, und des im voraus festgelegten Filterkoeffizienten WR[k] in Übereinstimmung mit einer Gleichung (6) durch, um das Audiosignal XR(t) durch den Filterkoeffizienten WR[k] zu filtern und ein Rauschunterdrückungssignal UR(t) zum Unterdrücken der Rauschkomponente, die sich auf die Tonausgabe aus dem Lautsprecher SR bezieht, aus dem Sprachsignal zu erzeugen, das von dem Mikrofon 3 eingegeben wird.
  • Figure 00150001
  • Weiterhin addiert der Addierer 21 das digital gewandelte Sprachsignal XM(t), das über den Anschluss S2 von dem A/D-Wandler 11 eingegeben wird, das Rauschunterdrückungssignal UL(t), das aus dem adaptiven Filter 23L ausgegeben wird, und das Rauschunterdrückungssignal UR(t), das aus dem adaptiven Filter 23R ausgegeben wird, um die Rauschkomponente, die sich auf die Tonausgabe aus den Lautsprechern SL und SR bezieht, aus dem Sprachsignal XM(t) zu unterdrücken und das rauschfreie Sprachsignal U(t) auszugeben. U(t) = XM(t) + UL(t) + UR(t) (7)
  • Weiterhin sind in diesem Ausführungsbeispiel die Werte, die von den Signalen XM(t), XL(t), XR(t), UL(t), UR(t) und U(t) angenommen werden können; reale Zahlen von –1 bis 1.
  • Die nicht linearen Wandler 27L und 27R erfassen das rauschfreie Sprachsignal U(t), welcher der Addierer 21 ausgibt, geben dieses in die nicht linearen Funktionen f(x) ein und geben das nicht linear gewandelte Sprachsignal f(U(t)) aus. Weiterhin zeigt 3 eine Ansicht eines Beispiels der nicht linearen Funktionen f(x), die in den nicht linearen Wandlern 27L und 27R verwendet werden. 3(a) zeigt einen Graph, der y = f(x) = tanh (a·x) zeigt, während 3(b) ein Graph ist, der y = f(x) = sign(x) zeigt. Weiterhin ist sign(x) eine Funktion, welche den Wert 1 annimmt, wenn x eine positive reale Zahl ist, den Wert –1 annimmt, wenn x eine negative reale Zahl ist, und den Wert 0 annimmt, wenn x 0 ist. Weiterhin ist 3(c) ein Graph von y = f(x) = g(x) (siehe Gleichung (4)).
  • Die Filterlerneinheit 25L erfasst das nicht linear gewandelte Sprachsignal f(U(t)), das aus dem nicht linearen Wandler 27L ausgegeben wird, und berechnet den Filterkoeffizienten FL[k], der als nächstes an dem adaptiven Filter 23L in Übereinstimmung mit Gleichung (8) festzulegen ist, auf der Grundlage des Signals f(U(t)), des digital gewandelten L-Kanal-Audiosignals XL(t), das von dem A/D-Wandler 13 eingegeben wird, und des Filterkoeffizienten WL[k], der bereits in dem adaptiven Filter 23L festgelegt ist.
  • Figure 00160001
  • Danach legt die Filterlerneinheit 25L den berechneten Filterkoeffizienten FL[k] an dem adaptiven Filter 23L anstelle des bereits festgelegten WL[k] fest, um den Filterkoeffizienten WL[k] zu aktualisieren.
  • Auf eine ähnliche Weise erfasst die Filterlerneinheit 25R das nicht linear gewandelte Sprachsignal f(U(t)), das von dem nicht linearen Wandler 27R ausgegeben wird, und berechnet den Filterkoeffizienten FR[k], der als nächstes an dem adaptiven Filter festzulegen ist, in Übereinstimmung Gleichung (10) auf der Grundlage des Signals f(U(t)), des digital gewandelten R-Kanal-Audiosignals XR(t), das von dem A/D-Wandler 15 eingegeben wird, und des Filterkoeffizienten WR[k], der bereits in dem adaptiven Filter 23R festgelegt ist.
  • Figure 00160002
  • Danach legt die Filterlerneinheit 25R den berechneten Filterkoeffizienten FR[k] an dem adaptiven Filter 23R anstelle des bereits festgelegten WR[k] fest, um den Filterkoeffizienten WR[k] zu aktualisieren.
  • Vorhergehend ist der grundlegende Aufbau der Audio-Unterdrückungsvorrichtung 20 erläutert worden, aber als nächstes wird der Fluss der Verarbeitung erläutert, welche die Audio-Unterdrückungsvorrichtung 20 ausführt. 4 zeigt ein Flussdiagramm der Audio-Unterdrückungsverarbeitung, welche die Audio-Unterdrückungsvorrichtung 20 des vorhergehenden Aufbaus ausführt. Diese Rauschunterdrückungsverarbeitung wird zu der Zeit eines Starts des Fahrzeug-Navigationssystems 1 oder zu der Zeit eines Starts des Audiosystems 5 ausgeführt.
  • Die Audio-Unterdrückungsvorrichtung 20 führt zuerst die Initialisierung aus und legt die Filterkoeffizienten WL[k] und WR[k] auf die Anfangswerte fest (S110). Danach erfasst die Audio-Unterdrückungsvorrichtung 20 das Sprachsignal XM(t) aus dem A/D-Wandler 11, erfasst das L-Kanal-Audiosignal XL(5) aus dem A/D-Wandler 13 und erfasst das R-Kanal-Audiosignal XR(t) aus dem A/D-Wandler 15 (S120). Weiterhin erzeugt sie das Rauschunterdrückungssignal UL(t) in Übereinstimmung mit Gleichung (5) (S130) und erzeugt das Rauschunterdrückungssignal UR(t) in Übereinstimmung mit Gleichung (6) (S140).
  • Danach addiert die Audio-Unterdrückungsvorrichtung 20 zu dem Sprachsignal XM(t) das Rauschunterdrückungssignal UL(t) und das Rauschunterdrückungssignal UR(t), um das Sprachsignal U(t) zu erzeugen (S150). Weiterhin berechnet sie den Mittelwert normL der Amplitude des L-Kanal-Audiosignals der vergangenen K·T Periode (S160) und berechnet den Mittelwert normR der Amplitude des R-Kanal-Audiosignals der vergangenen K·T Periode (S170).
  • Figure 00170001
  • Weiterhin entscheidet sie, ob der Mittelwert normL der Amplitude des L-Kanal-Audiosignals, der berechnet wird, größer als ein vorbestimmter Schwellwert AL ist. Wenn es entschieden wird, dass normL > AL ist (JA in S180), führt sie eine erste Filterlernverarbeitung aus (siehe 5(a), Details werden später erläutert) (S190) und schreitet dann zu S200 fort. Wenn es andererseits entschieden wird, dass normL ≤ AL ist (NEIN in S180), schreitet sie ohne Ausführen der ersten Filterlernverarbeitung zu S200 fort.
  • In S200 entscheidet sie, ob der Mittelwert normR der Amplitude des R-Kanal-Audiosignals, der berechnet wird, größer als ein vorbestimmter Schwellwert AR ist. Wenn entschieden wird, dass normR > AR ist (JA in S200), führt sie eine zweite Filterlernverarbeitung aus (siehe 5(b), Details werden später erläutert) (S210) und schreitet dann zu S220 fort. Wenn es andererseits entschieden wird, dass normR ≤ AR ist (NEIN in S200) schreitet sie ohne Ausführen der zweiten Filterlernverarbeitung zu S220 fort.
  • In S220 wird es entschieden, ob ein Endanweisungssignal von der Steuervorrichtung 40 eingegeben worden ist. Wenn es entschieden wird, dass das Endanweisungsignal eingegeben worden ist, beendet sie die Rauschunterdrückungsverarbeitung, während sie, wenn entschieden wird, dass das Endanweisungssignal nicht eingegeben worden ist, zur Bearbeitung von S120 zurückkehrt, die neuen Signale XM(t), XL(t) und XR(t) erfasst und die Schritte S120 bis S220 erneut ausführt.
  • 5(a) zeigt ein Flussdiagramm der ersten Filterlernverarbeitung, die von der Audio-Unterdrückungsvorrichtung 20 ausgeführt wird. In der ersten Filterlernverarbeitung berechnet die Audio-Unterdrückungsvorrichtung 20 die Lernrate αL in Übereinstimmung mit Gleichung (9) (S191) und berechnet den Filterkoeffizienten FL[k] in Übereinstimmung mit Gleichung (8) (S193). Danach legt sie den Filterkoeffizienten FL[k] auf den Filterkoeffizienten WL[k] fest, der bei dem nächsten S130 verwendet wird (S195), und beendet die erste Filterlernverarbeitung.
  • Weiterhin zeigt 5(b) ein Flussdiagramm der zweiten Filterlernverarbeitung, die von der Audio-Unterdrückungsvorrichtung 20 ausgeführt wird. Wenn die zweite Filterlernverarbeitung ausgeführt wird, berechnet die Audio-Unterdrückungsvorrichtung 20 die Lernrate αR in Übereinstimmung mit Gleichung (11) (S211) und berechnet den ersten Filterkoeffizienten FR[k] in Übereinstimmung mit Gleichung (10) (S213). Weiterhin legt sie den Filterkoeffizienten FR[k] auf den Filterkoeffizienten WR[k] fest, der bei dem nächsten S140 verwendet wird (S215) und beendet die zweite Filterlernverarbeitung.
  • Das Sprachsignal U(t) nach der Rauschunterdrückung, das von der derart aufgebauten Audio-Unterdrückungsvorrichtung 20 erzeugt wird, wird über den Anschluss S0 in die Spracherkennungseinheit 30 eingegeben. Die Spracherkennungseinheit 30 startet einen Betrieb in Übereinstimmung mit einem Betriebsstart-Anweisungssignal, das von der Steuervorrichtung 40 eingegeben wird, erfasst einen vorbestimmten Wert einer Periode des Sprachsignals U(t) aus der Audio-Unterdrückungsvorrichtung 20, analysiert den Ton des vorbestimmten Werts der Periode des Sprachsignals U(t), der erfasst wird, und erzielt die Kenngröße des Sprachsignals U(t) (zum Beispiel das Cepstrum). Weiterhin wird die vorbestimmte Periode zum Erfassen des Sprachsignals U(t) nachstehend als das Spracherkennungsintervall bezeichnet.
  • Danach verwendet die Spracherkennungseinheit 30 ein bekanntes Verfahren, um die Kenngröße mit den Sprachmustern zu vergleichen, die in einem nicht gezeigten Sprachwörterbuch gespeichert sind, und das durch sich selbst vorgesehen ist, erkennt Wörter, die Sprachmustern mit einer hohen Übereinstimmung entsprechen, als Wörter, die von dem Benutzer in dem Spracherkennungsintervall gesprochen werden, und gibt die Ergebnisse der Erkennung in die Steuervorrichtung 40 ein.
  • Weiterhin ist die Spracherkennungseinheit 30 mit einer Potenz-Berechnungseinrichtung 31 versehen. Die Potenz-Berechnungseinrichtung 31 berechnet die Potenz der Sprache (den zeitlichen Mittelwert des Quadrats des Tondrucks), der von dem Benutzer in dem Spracherkennungsintervall abgegeben wird. Diese Potenz-Berechnungseinrichtung 31 gibt in die Steuervorrichtung 40 die Potenz P1(z) der Sprache in dem Spracherkennungsintervall ein, das auf der Grundlage des Sprachsignals U(t) bei jeder Spracherkennung berechnet wird.
  • 6 zeigt ein Flussdiagramm der sich auf eine Spracherkennung beziehenden Verarbeitung, die von der Steuervorrichtung 40 ausgeführt wird. Die Steuervorrichtung 40 führt die sich auf eine Spracherkennung beziehende Verarbeitung wiederholt durch, bis das Fahrzeug-Navigationssystem ausgeschaltet wird, wenn das Fahrzeug-Navigationssystem hochgefahren wird.
  • Wenn die sich auf eine Spracherkennung beziehende Verarbeitung ausgeführt wird, wartet die Steuervorrichtung 40, bis ein Spracherkennungs-Startanweisungssignal von dem PTT-Schalter 9 eingegeben wird. Wenn es entschieden wird, dass ein Spracherkennungs-Startanweisungssignal von dem PTT-Schalter 9 eingegeben wird (JA in S310), wird das Anweisungssignal zum Erzeugen eines akustischen Signals in den Tongenerator 50 eingegeben und wird ein akustisches Signal aus den Lautsprechern SL und SR ausgegeben (S320). Danach fordert die Steuervorrichtung 40 das Audiosystemdeck 6 auf, die Lautstärke der Wiedergabe des Tons (der Musik usw.) auf das γ-fache der derzeitigen Lautstärke zu erhöhen und führt durch, dass das Audiosystemdeck 6 die Lautstärke der Tonwiedergabe aus den Lautsprechern SR und SL auf das γ-fache des derzeitigen Werts ändert (S330).
  • Weiterhin gibt die Steuervorrichtung 40 ein Betriebsstart-Anweisungssignal in die Spracherkennungseinheit 30 ein, um durchzuführen, dass die Spracherkennungseinheit 30 arbeitet (S340). Danach wartet sie, bis die Spracherkennung durch die Spracherkennungseinheit 30 endet. Wenn entschieden wird, dass die Spracherkennung endet (JA in S350), ändert sie die Lautstärke der Wiedergabe des Audiosystems 5 zu der ursprünglichen Einstellung (S360). Das heißt die Steuervorrichtung 40 teilt die Lautstärke, die nach einer Aufforderung in S330 an dem Audiosystem auf das γ-fache erhöht worden ist, durch γ, um sie zu der ursprünglichen Lautstärke zu ändern. Danach führt die Steuervorrichtung 40 eine Verarbeitung in Übereinstimmung mit Sprache, die von dem Benutzer abgegeben und in das Mikrofon 3 eingegeben wird, auf der Grundlage der Erkennungsergebnisse aus, die von der Spracherkennungseinheit 30 erzielt werden (S370).
  • Weiterhin erfasst die Steuervorrichtung 40 den berechneten Wert P1(z), der sich auf die Potenz der Sprache des Benutzers bezieht, aus der Spracherkennungseinheit 30 in dem derzeitigen Spracherkennungsintervall (S380). Weiterhin fügt sie den Wert P1(z) zu der Historiendatei hinzu, die in dem Speicher 41 gespeichert ist (S390). Die Variable z ist eine Variable, die die Anzahl von Spracherkennungsbetrieben anzeigt.
  • Danach entscheidet die Steuervorrichtung 40, ob mindestens S-mal der Wert des berechneten Werts P1 in die Historiendatei geschrieben worden ist, die in dem Speicher 41 gespeichert ist (S400). Wenn es entschieden wird, dass der Wert des berechneten Werts P1 nicht S-mal geschrieben worden ist (NEIN in S400), beendet sie die sich auf eine Spracherkennung beziehende Verarbeitung, während sie, wenn entschieden wird, dass der Wert des berechneten Werts P1 S-mal geschrieben worden ist (JA in S400), zu S410 übergeht.
  • Weiterhin berechnet sie den Mittelwert P0(z) des vergangenen S-maligen Werts der berechneten Werte P1(z), P1(z-1), P1(z-2), ... P1(z-S + 1) (S410), die den derzeit berechneten Wert P1(z) beinhalten, und schreibt den berechneten Wert P0(z) in den Speicher 41 (S420).
  • Weiterhin berechnet die Steuervorrichtung 40 γ' auf der Grundlage des berechneten Werts P0(z), der in den Speicher 41 geschrieben ist, der im vor aus festgelegten zulässigen Obergrenze PUP des Auswertungsstandards und der im voraus festgelegten zulässigen Untergrenze PDOWN des Auswertungsstandards (S440). γ' = h(γ, P0(z), PUP, PDOWN) (14)
  • Weiterhin wird für eine Berechnung von γ' eine vorbestimmte Funktion h verwendet, die als Variablen die vorhergehenden γ, P0(z), PUP und PDOWN aufweist. Hierbei nimmt die Funktion h einen Wert an, der kleiner als γ ist, wenn der Wert P0(z) größer als der Wert PUP ist, nimmt einen Wert größer als γ an, wenn der Wert von P0(z) kleiner als der Wert PDOWN ist, und nimmt einen Wert gleich γ an, wenn der Wert P0(z) nicht kleiner als der Wert PDOWN ist und nicht größer als der Wert PUP ist. Genauer erläutert wird γ' in Übereinstimmung mit der folgenden Gleichung berechnet. Weiterhin ist ε eine positiver realer Koeffizient, der geeignet im voraus festgelegt worden ist.
  • Figure 00210001
  • Danach legt die Steuervorrichtung 40 den berechneten Wert γ' auf die Variable γ fest und aktualisiert den Wert der Variablen γ (S450). Das heißt die Steuervorrichtung 40 ändert das Einstellungsverhältnis der Lautstärke in S330 auf den Wert von γ', der aus dem vorhergehenden Wert berechnet worden ist. Wenn dieser Schritt beendet wird, beendet die Steuervorrichtung 40 die sich auf eine Spracherkennung beziehende Verarbeitung.
  • 7 zeigt ein Zeitablaufsdiagramm, das die Betriebsart des Fahrzeug-Navigationssystem 1 des vorhergehenden Aufbaus zeigt. Das Fahrzeug-Navigationssystem 1 gibt ein akustisches Signal aus den Lautsprechern SL und SR aus, wenn es eine Triggereingabe als das Spracherkennungs-Startanweisungssignal aus dem PTT-Schalter 9 gibt, und unterrichtet den Benutzer, um anzuzeigen, dass die Spracherkennung startet. Danach führt sie durch, dass die Spracherkennungseinheit 30 das Sprachsignal U(t) für die Sprache des Benutzers eine vorbestimmte Dauer (Spracherkennungsintervall) für eine Spracherkennung erfasst. Weiterhin legt sie in dem Spracherkennungsintervall die Lautstärke des Tons (der Musik usw.), das aus Lautsprechern SL und SR ausgegeben wird, auf das γ-fache fest.
  • Vorhergehend ist der Aufbau des Fahrzeug-Navigationssystems 1 erläutert worden, aber gemäß diesem Fahrzeug-Navigationssystem 1 erfassen ein Rauschunterdrückungssystem das aus A/D-Wandlern 11, 13 und 15 und einer Audio-Unterdrückungsvorrichtung 20 besteht, die Audiosignale der unterschiedlichen Kanäle (des L-Kanals und des R-Kanals) und löschen die Rauschkomponente, die sich auf den wiedergegebenen Ton des Audiosystems 5 bezieht, auf der Grundlage der Audiosignale der unterschiedlichen Kanäle aus dem Sprachsignal XM(t), das von dem Mikrofon 3 eingegeben wird.
  • Bei dieser Audio-Unterdrückungsvorrichtung 20 wandeln die nicht linearen Wandler 27L und 27R, die als Wandlereinheiten dienen, das rauschfreie Sprachsignal U(t), das aus dem Addierer 21 ausgegeben wird, der als die rauschfreie Sprachsignal-Ausgabeeinheit dient, nicht linear. Weiterhin berechnet die Filterlerneinheit 25L, die als das Koeffizienten-Aktualisierungselement dient, den Filterkoeffizienten FL[k], der bei dem adaptiven Filter 23L festzulegen ist, das als das Filterelement dient, in Übereinstimmung mit Gleichung (8) auf der Grundlage des nicht linear gewandelten Signals f(U(t)) und des sich selbst zugewiesenen L-Kanal-Audiosignals, das in dem adaptiven Filter 23L festgelegt wird, und aktualisiert den Filterkoeffizienten WL[k].
  • Auf die gleiche Weise berechnet die Filterlerneinheit 25R, die als das Koeffizienten-Aktualisierungselement dient, den Filterkoeffizienten FR[k], der bei dem adaptiven Filter 23E festzulegen ist, das als das Filterelement dient, auf der Grundlage des nicht linear gewandelten Signals f(U(t)) und des sich selbst zugewiesenen R-Kanal-Audiosignals. Sie legt diesen an dem adaptiven Filter 23R fest und aktualisiert den Filterkoeffizienten WR(k].
  • Auf diese Weise wird in der Audio-Unterdrückungsvorrichtung 20 des vorliegenden Ausführungsbeispiels die Filterlerneinheit 25L bzw. die Filterlerneinheit 25R durch die Rauschkomponente des R-Kanals bzw. des L-Kanals oder das Verhalten der Filterlerneinheit 25R bzw. der Filterlerneinheit 25L beeinträchtigt. Um ein fehlerhaftes Lernen der Filterkoeffizienten zu unterdrücken, wird das Sprachsignal U(t), das aus dem Addierer 21 ausgegeben wird, an den nicht linearen Wandlern 27L und 27R nicht linear gewandelt und werden die nicht linear gewandelten Sprachsignale f(U(t)) verwendet, um die Filterkoeffizienten an den Filterlerneinheiten 25L und 25R zu lernen und zu aktualisieren.
  • Deshalb ist es gemäß der Audio-Unterdrückungsvorrichtung 20 des vorliegenden Ausführungsbeispiels möglich, die Rauschkomponente, die sich auf den wiedergegebenen Ton des Audiosystems 5 bezieht, das in dem Sprachsignal XM(t) enthalten ist, das von deinem Mikrofon 3 erzielt wird, geeigneter als eine herkömmliche Vorrichtung zu unterdrücken.
  • Deshalb ist es bei diesem Fahrzeug-Navigationssystem 1 möglich, die Sprache, die der Benutzer durch die Spracherkennungseinheit 30 in das Mikrofon 3 eingibt, genauer zu erkennen und die entsprechende Verarbeitung auch ohne eine Unterbrechungsverarbeitung der Musik während einer Wiedergabe bei dem Audiosystem 5 durch Stummschalten des Audiosystems 5 zu der Zeit einer Spracherkennung auszuführen.
  • Das heißt gemäß dem Fahrzeug-Navigationssystem 1 wird auch dann, wenn Musik usw., von dem Audiosystem 5 abgespielt wird, die Verarbeitung, die dieser entspricht, genau ausgeführt, kann die Verarbeitung, entsprechend dieser ausgeführt werden und wird die Bedienbarkeit der Vorrichtung verbessert. Genauer gesagt ist es möglich, eine Verärgerung des Benutzers aufgrund eines Unterbrechens einer Musikwiedergabe zu der Zeit einer Spracherkennung zu beseitigen.
  • Weiterhin ist es, wenn die nicht linearen Wandler 27L und 27R die tanh-Funktion einer nicht linearen Funktion für eine nicht lineare Wandlung verwenden, möglich, das Rauschen genau durch eine einfache Berechnung zu unterdrücken, das Rauschunterdrückungs-Leistungsvermögen der Audio-Unterdrückungsvorrichtung 20 zu verbessern, kann die Verarbeitungslast der Audio-Unterdrückungsvorrichtung 20 unterdrückt werden und kann die Audio-Unterdrückungsvorrichtung 20 billig hergestellt werden.
  • Weiterhin fällt das Rauschunterdrückungs-Leistungsvermögen, wenn die nicht linearen Wandler 27L und 27R die Signum-Funktion einer nicht linearen Funktion für eine nicht lineare Wandlung verwenden, um einiges von dem Fall eines Verwendens der tanh-Funktion ab, kann aber die Verarbeitungslast der Audio-Unterdrückungsvorrichtung 20 unterdrückt werden und kann die Audio- Unterdrückungsvorrichtung 20 billig hergestellt werden.
  • Weiterhin wird, wenn die nicht linearen Wandler 27L und 27R die Funktion g(x) der nicht linearen Funktion, die in Gleichung (4) gezeigt ist, für eine nicht lineare Verwandlung verwenden, ein Rauschunterdrückungs-Leistungsvermögen eines im Wesentlichen gleichen Ausmaßes wie in dem Fall eines Verwendens der tanh-Funktion erzielt, kann die Verarbeitungslast der Audio-Unterdrückungsvorrichtung 20 unterdrückt werden und kann die Audio-Unterdrückungsvorrichtung 20 billig hergestellt werden.
  • Weiterhin legt in dem Fahrzeug-Navigationssystem 1 des vorliegenden Ausführungsbeispiels zu der Zeit eines Betriebs des Audiosystems 5, wenn ein Spracherkennungs-Startanweisungssignal von dem PTT-Schalter 9 eingegeben wird, die Steuervorrichtung 40 die Lautstärke der Tonausgabe aus den Lautsprechern SL und SR des Audiosystems 5 (die Lautstärke eines wiedergegebenen Tons des Audiosystems 5) auf das γ-fache fest (S330) und führt dann durch, dass die Spracherkennungseinheit 30 arbeitet (S340).
  • Die Spracherkennungseinheit 30 wertet die Lautstärke der Sprache des Benutzers auf der Grundlage des rauschfreien Sprachsignals U(t) aus, das aus der Audio-Unterdrückungsvorrichtung 20 erzielt wird, und gibt den Auswertungswert P1(Z) in die Steuervorrichtung 40 ein. Die Steuervorrichtung 40 schreibt den Auswertungswert P1(z) in die Historiendatei und bereitet die Historieninformation vor, die sich auf die Lautstärke der Sprache des Benutzers bezieht (S390). Weiterhin bestimmt die Steuervorrichtung 40 die Lautstärke, die für das Audiosystem 5 zu der Zeit der nächsten Spracherkennung festzulegen ist (das heißt den γ-Wert) auf der Grundlage des Werts P1(z) der vergangenen S Male, die in der Historiendatei gespeichert sind (S440, S450).
  • Auf diese Weise wird in dem Fahrzeug-Navigationssystem 1 des vorliegenden Ausführungsbeispiels die Lautstärke der Musik usw., die von dem Audiosystem 5 wiedergegeben wird, vor und nach der Spracherkennung geändert und wird der Start der Spracherkennung dem Benutzer unterrichtet, so dass der Benutzer zuverlässig den Start der Spracherkennung durch das Ändern der Lautstärke lernen kann. Deshalb kann gemäß dem Fahrzeug-Navigationssystem 1 des vorliegenden Ausführungsbeispiel das Problem des Benutzers, der es aufgrund des akustischen Signals, das zu dem Zeitpunkt eines Starts der Spracherkennung ausgegeben wird, das durch die Musik usw. maskiert ist, härter findet, ein Erfassen des Zeitpunkts des Starts der Spracherkennung zu erzielen, beseitigt werden.
  • Weiterhin wird in dem vorliegenden Ausführungsbeispiel die Höhe der Sprache des Benutzers auf der Grundlage der Historiendatei (S410) ausgewertet. Die Steuervorrichtung 40 ist derart aufgebaut, dass sie, wenn der ausgewertete Wert P0(z) größer als eine zulässige Obergrenze PUP des Auswertungsstandards ist, der γ-Wert kleiner als der vorbestimmte Standardwert (vorhergehende γ-Wert) gemacht wird, während, wenn der ausgewertete Wert PO (z) niedriger als eine zulässige Untergrenze PDOWN des Auswertungsstandards ist, der γ-Wert größer als der vorbestimmte Standardwert (vorhergehende γ-Wert) gemacht wird (S440, S450).
  • Deshalb kann gemäß dem Fahrzeug-Navigationssystem dieses Ausführungsbeispiels der Lombard-Effekt erwartet werden und ein Benutzer mit einer schwachen Sprache für eine Spracherkennung als mit einer großen Sprache sprechend gemacht werden. Demgemäß ist es gemäß dem Fahrzeug-Navigationssystem 1 des vorliegenden Ausführungsbeispiels möglich, die Spracherkennungsrate durch den Lombard-Effekt zu verbessern.
  • Weiterhin wird die Audiosignal-Erfassungseinheit der vorliegenden Erfindung durch die A/D-Wandler 13 und 15 und eine Verarbeitung von S120 realisiert, die von der Audio-Unterdrückungsvorrichtung 20 ausgeführt wird. Die Steuereinheit ist durch die Verarbeitung von S310 bis S360 realisiert, die von der Steuervorrichtung 40 ausgeführt wird. Weiterhin ist die Historieninformations-Vorbereitungseinheit durch die Potenz-Berechnungsvorrichtung 31 und die Verarbeitung von S380 und S390 realisiert, die von der Steuervorrichtung 40 ausgeführt wird. Weiterhin ist die Lautstärke-Bestimmungseinheit durch die Verarbeitung von S410 bis S450 realisiert.
  • Weiterhin sind das Rauschunterdrückungssystem, das Spracherkennungssystem und das Fahrzeug-Navigationssystem der vorliegenden Erfindung nicht auf die vorhergehenden Ausführungsbeispiele beschränkt. Verschiedene Ausführungsbeispiele können verwendet werden. Zum Beispiel sind in dem vorhergehenden Ausführungsbeispiel als der nicht lineare Koeffizient, der in der Audio-Unterdrückungsvorrichtung 20 verwendet wird, die tanh-Funktion, die Signum-Funktion und die Funktion (g), die in Gleichung (4) gezeigt ist, erwähnt worden, aber es ist ebenso möglich, eine andere nicht lineare Funktion zu verwenden.
  • Weiterhin sind in dem vorhergehenden Ausführungsbeispiel eine Audio-Unterdrückungsvorrichtung 20 für ein Audiosystem 5, das durch eine Gesamtheit von zwei Kanälen des L-Kanals und des R-Kanals einen Ton wiedergibt, erläutert worden, aber zum Beispiel ist es ebenso möglich, die Audio-Unterdrückungsvorrichtung 20 derart aufzubauen, dass sie ein sogenanntes 5.1-Kanal-Tonsystem handhabt, das Lautsprecher vorne links, vorne rechts, mittig, hinten links und hinten rechts anordnet, um einen dreidimensionalen Ton zu erzeugen und weiterhin einen Woofer bzw. Tieftonbereichlautsprecher an einer Stelle anordnet, um den Tieftoneffekt zu verstärken.
  • Ein zuvor beschriebenes erfindungsgemäßes Rauschunterdrückungssystem mit verbessertem Leistungsvermögen zum Unterdrücken einer Rauschkomponente, die sich auf einen erzeugten Ton eines Audiosystems bezieht, das mehrere Kanäle eines Tons wiedergibt, aus einem Eingangssignal eines Mikrofons ist mit einer Audio-Unterdrückungsvorrichtung zum Unterdrücken von Audiosignalen von zwei Kanälen und Verarbeiten von diesen durch Filterkomponenten durch eine Faltungsverarbeitung, um Rauschunterdrückungssignale an adaptiven Filtern zu erzeugen, einem Addierer zum Addieren des Eingangssignals des Mikrofons und der Rauschunterdrückungssignale, zum Unterdrücken der Rauschkomponente aus dem Eingangssignal und zum Ausgeben des Signals nach einer Rauschunterdrückung, nicht linearen Wandlern zum nicht linearen Wandeln des Signals nach der Rauschunterdrückung und Filterlerneinheiten zum Berechnen der Filterkomponenten, die als nächstes festzulegen sind, auf der Grundlage des nicht linear gewandelten Signals versehen.

Claims (11)

  1. Rauschunterdrückungssystem zum Unterdrücken einer Rauschkomponente, die sich auf einen wiedergegebenen Ton eines Audiosystems bezieht, aus einem Sprachsignal, das von einem Mikrofon eingegeben wird, wobei das Rauschunterdrückungssystem aufweist: eine Rauschunterdrückungssignal-Erzeugungseinheit für jeden Kanal zum Erzeugen eines Rauschunterdrückungssignals zum Entfernen der Rauschkomponente auf der Grundlage des Audiosignals von jedem Kanal, das von einem Audiosystem zum Wiedergeben von mehreren Kanälen von Ton erfasst wird, eine Ausgabeeinheit zum Verwenden jedes Rauschunterdrückungssignals zum Entfernen einer Rauschkomponente, die in einem Sprachsignal enthalten ist, das von dem Mikrofon eingegeben wird, und zum Ausgeben eines rauschfreien Sprachsignals, und eine Wandlereinheit zum nicht linearen Wandeln des rauschfreien Sprachsignals, wobei jede Rauschunterdrückungssignal-Erzeugungseinheit aufweist: ein Filterelement zum Filtern des Audiosignals, das von dem Audiosystem erfasst wird, in Übereinstimmung mit einem im voraus festgelegten Filterkoeffizienten, um ein Rauschunterdrückungssignal zu erzeugen, und ein Koeffizienten-Aktualisierungselement zum Aktualisieren des Filterkoeffizienten, der in dem Filterelement festgelegt ist, auf der Grundlage des rauschfreien Sprachsignals, das von der Wandlungseinheit linear gewandelt worden ist, und des Audiosignals.
  2. Rauschunterdrückungssystem nach Anspruch 1, wobei das Filterelement einen im voraus festgelegten Filterkoeffizienten W[k] und ein Audiosignal X(t) durch eine Faltungsverarbeitung in Übereinstimmung mit der folgenden Gleichung berechnet:
    Figure 00270001
    um das Audiosignal X(t) zu filtern und das Rauschunterdrückungssignal C(t) zu erzeugen, die Wandlereinheit ein rauschfreies Sprachsignal U(t), welches die rauschfreie Sprachsignal-Ausgabeeinheit ausgibt, in eine nicht lineare Funktion f(x) eingibt, um ein gewandeltes rauschfreies Sprachsignal f(U(t)) nach der nicht linearen Wandlung zu erzeugen, und das Koeffizienten-Aktualisierungselement einen Filterkoeffizienten F[k] auf der Grundlage des gewandelten rauschfreien Sprachsignals f(U(t)), des Audiosignals X(t) und des Filterkoeffizienten W[k] in Übereinstimmung mit der folgenden Gleichung, die im voraus festgelegte Konstanten α und β beinhaltet:
    Figure 00280001
    wobei die Konstante K eine Abgriffsanzahl einer ganzen Zahl von 2 oder mehr ist und die Variable t eine Variable ist, die die Zeit anzeigt und ein ganzer Wert ist, und dieser Filterkoeffizient F[k] in dem Filterelement derart festgelegt wird, dass er den Filterkoeffizienten W[k] aktualisiert.
  3. Rauschunterdrückungssystem nach Anspruch 1, wobei die Wandlereinheit eine tanh-Funktion einer nicht linearen Funktion für die nicht lineare Wandlung verwendet.
  4. Rauschunterdrückungssystem nach Anspruch 1, wobei die Wandlereinheit eine Signum-Funktion einer nicht linearen Funktion für die nicht lineare Wandlung verwendet.
  5. Rauschunterdrückungssystem nach Anspruch 1, wobei die Wandlereinheit eine Funktion g(x) einer nicht linearen Funktion verwendet:
    Figure 00280002
    wobei die Variable m, die für die nicht lineare Wandlung verwendet wird, eine positive reelle Zahl ist, die größer als 1 ist.
  6. Spracherkennungssystem zum Erkennen von Sprache auf der Grundlage eines rauschfreien Sprachsignals, das durch Unterdrücken einer Rauschkomponente, die sich auf einem wiedergegebenen Ton eines Audiosystems bezieht, aus einem Sprachsignal erzielt wird, das von einem Mikrofon eingegeben wird, wobei das Spracherkennungssystem aufweist: eine Rauschunterdrückungssignal-Erzeugungseinheit für jeden Kanal zum Erzeugen eines Rauschunterdrückungssignals zum Entfernen der Rauschkomponente auf der Grundlage des Audiosignals von jedem Kanal, das von einem Audiosystem zum Wiedergeben von mehreren Kanälen von Ton erfasst wird, eine Ausgabeeinheit zum Verwenden jedes Rauschunterdrückungssignals zum Entfernen einer Rauschkomponente, die in einem Sprachsignal enthalten ist, das von dem Mikrofon eingegeben wird, und zum Ausgeben eines rauschfreien Sprachsignals, eine Wandlereinheit zum nicht linearen Wandeln des rauschfreien Sprachsignals, und eine Spracherkennungseinheit zum Erkennen des Sprachsignals, das in das Mikrofon eingegeben wird, auf der Grundlage des rauschfreien Sprachsignals, wobei jede Rauschunterdrückungssignal-Erzeugungseinheit aufweist: ein erstes Filterelement zum Filtern des Audiosignals, das von dem Audiosystem erfasst wird, in Übereinstimmung mit einem im voraus festgelegten Filterkoeffizienten, um ein Rauschunterdrückungssignal zu erzeugen, und ein Koeffizienten-Aktualisierungselement zum Aktualisieren des Filterkoeffizienten, der in dem Filterelement festgelegt ist, auf der Grundlage des rauschfreien Sprachsignals, das von der Wandlereinheit nicht linear gewandelt worden ist, und des Audiosignals.
  7. Spracherkennungssystem, das aufweist: eine Rauschunterdrückungseinheit zum Erfassen von Audiosignalen von Kanälen aus einem Audiosystem, das Kanäle von Ton wiedergibt und eine Rauschkomponente, die sich auf einen wiedergegebenen Ton des Audiosystems bezieht, aus einem Sprachsignal, das von einem Mikrofon eingegeben wird, auf der Grundlage der Audiosignale der Kanäle unterdrückt, eine Spracherkennungseinheit zum Erkennen von Sprache, die von dem Mikrofon eingegeben wird, auf der Grundlage des rauschfreien Sprachsignals, das von der Rauschunterdrückungseinheit erzielt wird, und eine Steuereinheit zum Durchführen, dass die Sprachsignal-Erkennungseinheit arbeitet, wenn eine Spracherkennungs-Startanweisung von dem Ausgang eingegeben wird, wobei die Steuereinheit eine Lautstärke des Tons, der von dem Audiosystem wiedergegeben wird, auf einem vorbestimmten Wert ändert, und dann durchführt, dass die Spracherkennungseinheit arbeitet, wenn die Spracherkennungs-Startanweisung zu der Zeit eines Betriebs des Audiosystems eingegeben wird.
  8. Spracherkennungssystem nach Anspruch 7, das aufweist: eine Historienvorbereitungseinheit zum Vorbereiten einer Historieninformation, die sich auf eine Lautstärke einer Sprache von einem Benutzer bezieht, auf der Grundlage des rauschfreien Sprachsignals, das von der Rauschunterdrückungseinheit erzielt wird, zu der Zeit eines Betriebs der Spracherkennungseinheit, und eine Lautstärke-Bestimmungseinheit zum Bestimmen einer Lautstärke, die in dem Audiosystem zu der Zeit einer nächsten Spracherkennung festzulegen ist, auf der Grundlage der Historieninformation, die von der Historienvorbereitungseinheit vorbereitet worden ist, wobei die Steuereinheit die Lautstärke des Tons, der von dem Audiosystem wiedergegeben wird, zu einer Lautstärke ändert, die von der Lautstärke-Bestimmungseinheit bestimmt wird, und dann durchführt, dass die Spracherkennungseinheit arbeitet, wenn eine Spracherkennungs-Startanweisung von außen eingegeben wird.
  9. Spracherkennungssystem nach Anspruch 8, wobei die Lautstärke-Bestimmungseinheit eine Höhe einer Sprache des Benutzers auf der Grundlage der Historieninformation auswertet und eine in dem Audiosystem zu der Zeit einer nächsten Spracherkennung festzulegende Lautstärke auf eine Lautstärke bestimmt, die größer als der vorbestimmte Referenzwert ist, wenn dieser ausgewertete Wert kleiner als ein vorbestimmter Auswertungsstandard ist.
  10. Fahrzeug-Navigationssystem, das auf der Grundlage eines rauschfreien Sprachsignals arbeitet, das durch Unterdrücken einer Rauschkomponente, die sich auf einem wiedergegebenen Ton eines Audiosystems bezieht, aus einem Sprachsignal erzielt wird, das von einem Mikrofon eingegeben wird, wobei das Fahrzeug-Navigationssystem aufweist: eine Rauschunterdrückungssignal-Erzeugungseinheit für jeden Kanal zum Erzeugen eines Rauschunterdrückungssignals zum Entfernen der Rauschkomponente auf der Grundlage des Audiosignals von jedem Kanal, der von dem Audiosystem zum Wiedergeben von mehreren Kanälen von Ton erfasst wird; eine Ausgabeeinheit zum Verwenden jedes Rauschunterdrückungssignals, um eine Rauschkomponente, die in einem Sprachsignal enthalten ist, zu entfernen, das von dem Mikrofon eingegeben wird, und zum Ausgeben eines rauschfreien Sprachsignals, eine Wandlereinheit zum nicht linearen Wandeln des rauschfreien Sprachsignals, und eine Spracherkennungseinheit zum Erkennen von Sprache, die in das Mikrofon eingegeben wird, auf der Grundlage des rauschfreien Sprachsignals, wobei jede Rauschunterdrückungssignal-Erzeugungseinheit aufweist: ein Filterelement zum Filtern eines Audiosignals, das von dem Audiosystem erfasst wird, in Übereinstimmung mit einem im voraus festgelegten Filterkoeffizienten, um ein Rauschunterdrückungssignal zu erzeugen, und ein Koeffizienten-Aktualisierungselement zum Aktualisieren des Filterkoeffizienten, der in dem Filterelement festgelegt ist, auf der Grundlage des rauschfreien Sprachsignals, das von der Wandlereinheit nicht linear gewandelt worden ist, und des Audiosignals.
  11. Fahrzeug-Navigationssystem, das einen Betrieb durchführt, der von einer Spracherkennungseinheit erkannt wird, wobei das Fahrzeug-Navigationssystem aufweist: eine Rauschunterdrückungseinheit zum Erfassen von Audiosignalen von Kanälen aus einem Audiosystem, das mehrere Kanäle von Ton wiedergibt, und zum Unterdrücken einer Rauschkomponente, die sich auf den wiedergegebenen Ton des Audiosystems bezieht, aus den Audiosignalen, die von einem Mikrofon eingegeben werden, auf der Grundlage der Audiosignale der Kanäle, eine Spracherkennungseinheit zum Erkennen einer Sprache, die von dem Mikrofon eingegeben wird, auf der Grundlage des rauschfreien Sprachsignals, das von der Rauschunterdrückungseinheit erzielt wird, und eine Steuereinheit zum Betreiben der Spracherkennungseinheit, wenn eine Spracherkennungs-Startanweisung von außen eingegeben wird, wobei die Steuereinheit die Lautstärke des Tons, der von dem Audiosystem wiedergegeben wird, zu einem vorbestimmten Wert ändert und dann die Spracherkennungseinheit betreibt.
DE200510000818 2004-01-07 2005-01-05 Rauschunterdrückungssystem, Spracherkennungssystem und Fahrzeug-Navigationssystem Ceased DE102005000818A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004002387A JP4333369B2 (ja) 2004-01-07 2004-01-07 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
JP2004-002387 2004-01-07

Publications (1)

Publication Number Publication Date
DE102005000818A1 true DE102005000818A1 (de) 2005-09-22

Family

ID=34675450

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200510000818 Ceased DE102005000818A1 (de) 2004-01-07 2005-01-05 Rauschunterdrückungssystem, Spracherkennungssystem und Fahrzeug-Navigationssystem

Country Status (5)

Country Link
US (1) US8010354B2 (de)
JP (1) JP4333369B2 (de)
CN (2) CN1971709B (de)
DE (1) DE102005000818A1 (de)
FR (1) FR2864860B1 (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005039621A1 (de) * 2005-08-19 2007-03-01 Micronas Gmbh Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
KR100751921B1 (ko) 2005-11-11 2007-08-24 고려대학교 산학협력단 멀티채널 음성신호의 잡음제거 방법 및 장치
US7769593B2 (en) * 2006-09-28 2010-08-03 Sri International Method and apparatus for active noise cancellation
JP5034605B2 (ja) * 2007-03-29 2012-09-26 カシオ計算機株式会社 撮像装置、雑音除去方法及びプログラム
EP2553681A2 (de) * 2010-03-30 2013-02-06 NVOQ Incorporated Diktier-clientfeedback zur erhöhung einer audioqualität
CN103050125A (zh) * 2011-10-12 2013-04-17 苏州阔地网络科技有限公司 一种网页上实现回音消除的方法
US8731822B2 (en) * 2012-01-17 2014-05-20 Motorola Mobility Llc Systems and methods for interleaving navigational directions with additional audio in a mobile device
US9886794B2 (en) 2012-06-05 2018-02-06 Apple Inc. Problem reporting in maps
US9418672B2 (en) 2012-06-05 2016-08-16 Apple Inc. Navigation application with adaptive instruction text
US9482296B2 (en) 2012-06-05 2016-11-01 Apple Inc. Rendering road signs during navigation
US9230556B2 (en) 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
US9997069B2 (en) * 2012-06-05 2018-06-12 Apple Inc. Context-aware voice guidance
US9052197B2 (en) 2012-06-05 2015-06-09 Apple Inc. Providing navigation instructions while device is in locked mode
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US8880444B2 (en) 2012-08-22 2014-11-04 Kodak Alaris Inc. Audio based control of equipment and systems
US9111547B2 (en) 2012-08-22 2015-08-18 Kodak Alaris Inc. Audio signal semantic concept classification method
WO2014063104A2 (en) * 2012-10-19 2014-04-24 Audience, Inc. Keyword voice activation in vehicles
KR20140052661A (ko) * 2012-10-25 2014-05-07 현대모비스 주식회사 신호처리를 이용한 차량용 마이크로 폰 시스템
CN103813241B (zh) * 2012-11-09 2016-02-10 辉达公司 移动电子设备及其音频播放装置
KR101445186B1 (ko) 2013-08-27 2014-10-01 (주) 로임시스템 비선형 보정 반향 제거장치
JP2015052466A (ja) * 2013-09-05 2015-03-19 株式会社デンソー 車両用装置及び音声切換制御プログラム
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9431013B2 (en) * 2013-11-07 2016-08-30 Continental Automotive Systems, Inc. Co-talker nulling for automatic speech recognition systems
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9466310B2 (en) 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
US20150179181A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
WO2015141103A1 (ja) * 2014-03-17 2015-09-24 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
CN103928026B (zh) * 2014-05-12 2017-04-12 安徽江淮汽车集团股份有限公司 一种汽车语音指令采集处理系统及方法
US9743213B2 (en) 2014-12-12 2017-08-22 Qualcomm Incorporated Enhanced auditory experience in shared acoustic space
EP3333850A4 (de) * 2015-10-16 2018-06-27 Panasonic Intellectual Property Management Co., Ltd. Vorrichtung zur trennung von schallquellen und verfahren zur trennung von schallquellen
EP3312839B1 (de) * 2015-10-16 2020-08-05 Panasonic Intellectual Property Management Co., Ltd. Vorrichtung zur unterstützung bidirektionaler gespräche und verfahren zur unterstützung bidirektionaler gespräche
CN106098074A (zh) * 2016-05-20 2016-11-09 北京奇虎科技有限公司 一种数据处理方法和便携式多功能设备
WO2017208822A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 局所消音音場形成装置および方法、並びにプログラム
US20170371615A1 (en) * 2016-06-22 2017-12-28 Qualcomm Incorporated Alerting a user to a change in an audio stream
CN105979442B (zh) * 2016-07-22 2019-12-03 北京地平线机器人技术研发有限公司 噪声抑制方法、装置和可移动设备
CN106328137A (zh) * 2016-08-19 2017-01-11 镇江惠通电子有限公司 语音控制方法、装置及系统
CN106356068A (zh) * 2016-11-02 2017-01-25 北京中星微电子有限公司 音频播放方法和装置
US20180166073A1 (en) * 2016-12-13 2018-06-14 Ford Global Technologies, Llc Speech Recognition Without Interrupting The Playback Audio
CN106846803B (zh) * 2017-02-08 2023-06-23 广西交通科学研究院有限公司 基于音频的交通事件检测装置及方法
US10636421B2 (en) 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
US20210320684A1 (en) * 2018-07-31 2021-10-14 Sony Corporation Information processing device, information processing method, and program
KR102799706B1 (ko) * 2018-09-20 2025-04-23 현대자동차주식회사 차량용 음성 인식 장치 및 그 제어 방법
JP7153191B2 (ja) * 2018-11-26 2022-10-14 トヨタ自動車株式会社 情報提供装置及び車載装置
EP3667662B1 (de) * 2018-12-12 2022-08-10 Panasonic Intellectual Property Corporation of America Vorrichtung zur unterdrückung von akustischem echo, verfahren zur unterdrückung von akustischem echo und programm zur unterdrückung von akustischem echo
WO2020197975A1 (en) 2019-03-25 2020-10-01 Fintel Labs, Inc. Artificial intelligence-powered cloud for the financial services industry
US11017792B2 (en) * 2019-06-17 2021-05-25 Bose Corporation Modular echo cancellation unit
CN110475180A (zh) * 2019-08-23 2019-11-19 科大讯飞(苏州)科技有限公司 车载多音区音频处理系统及方法
CN112545547A (zh) * 2020-11-25 2021-03-26 北京积水潭医院 呼吸音分析方法及呼吸音分析系统
US20240233718A9 (en) * 2022-10-19 2024-07-11 Soundhound, Inc. Semantically conditioned voice activity detection

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4574389A (en) 1983-07-15 1986-03-04 Larry Schotz Stereophonic receiver having a noise reduction control circuit
US6020782A (en) * 1994-05-25 2000-02-01 The United States Of America As Represented By The Secretary Of The Navy Noise assisted signal processor with nonlinearly coupled arrays of nonlinear dynamic elements
US5828756A (en) 1994-11-22 1998-10-27 Lucent Technologies Inc. Stereophonic acoustic echo cancellation using non-linear transformations
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
DE69903012T2 (de) 1998-04-08 2003-04-30 British Telecommunications P.L.C., London Echokompensation
GB9910448D0 (en) 1999-05-07 1999-07-07 Ensigma Ltd Cancellation of non-stationary interfering signals for speech recognition
US6665645B1 (en) 1999-07-28 2003-12-16 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus for AV equipment
JP4554044B2 (ja) 1999-07-28 2010-09-29 パナソニック株式会社 Av機器用音声認識装置
JP2001100784A (ja) 1999-09-30 2001-04-13 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
ATE343915T1 (de) * 1999-12-09 2006-11-15 Azoteq Pty Ltd Sprachverteilungssystem
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US20020152255A1 (en) * 2001-02-08 2002-10-17 International Business Machines Corporation Accessibility on demand
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7142678B2 (en) * 2002-11-26 2006-11-28 Microsoft Corporation Dynamic volume control
US20050089177A1 (en) * 2003-10-23 2005-04-28 International Business Machines Corporation Method, apparatus, and program for intelligent volume control

Also Published As

Publication number Publication date
FR2864860A1 (fr) 2005-07-08
US8010354B2 (en) 2011-08-30
CN1971709A (zh) 2007-05-30
JP2005195895A (ja) 2005-07-21
JP4333369B2 (ja) 2009-09-16
CN1971709B (zh) 2012-07-04
FR2864860B1 (fr) 2007-04-13
CN1637857A (zh) 2005-07-13
US20050159945A1 (en) 2005-07-21
CN1637857B (zh) 2010-05-26

Similar Documents

Publication Publication Date Title
DE102005000818A1 (de) Rauschunterdrückungssystem, Spracherkennungssystem und Fahrzeug-Navigationssystem
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE10002321C2 (de) Sprachgesteuerte Vorrichtung und System mit einer derartigen sprachgesteuerten Vorrichtung
EP0747880B1 (de) Spracherkennungssystem
DE102008039276A1 (de) Tonverarbeitungsvorrichtung, Vorrichtung und Verfahren zum Steuern der Verstärkung und Computerprogramm
DE10018666A1 (de) Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
DE102010007842A1 (de) Geräuschunterdrückungsvorrichtung, Geräuschunterdrückungsverfahren und Aufzeichnungsmedium
DE112017007005T5 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
WO1995007597A1 (de) Mobilfunkgerät mit freisprecheinrichtung
WO2017080830A1 (de) Audiosignalverarbeitung in einem fahrzeug
DE60033826T2 (de) Verstärkungsregelung von audiosignalen in lärmender umgebung mit hilfe einer filterbank
DE60304147T2 (de) Virtuelle Mikrophonanordnung
EP1154674A3 (de) Schaltung und Verfahren zur adaptiven Geräuschunterdrückung
DE102006047986A1 (de) Verarbeitung eines Eingangssignals in einer Hörhilfe
EP1062487B1 (de) Mikrophonanordnung für die spracherkennung unter variablen räumlichen bedingungen
DE112020004700B4 (de) Audioverarbeitungssystem und Audioverarbeitungsvorrichtung
EP0695045A2 (de) Echokompensator unter Verwendung von Kurzzeitspektralanalyse
DE19832472A1 (de) Vorrichtung und Verfahren zur Beeinflussung eines Audiosignals in Abhängigkeit von Umgebungsgeräuschen
DE102017210688A1 (de) Schallerzeugungseinrichtung für ein Kraftfahrzeug sowie Verfahren zum Betreiben einer solchen und Kraftfahrzeug mit einer solchen
EP0467157A2 (de) Sprachgesteuertes Gerät der Unterhaltungselektronik, insbesondere Videorecorder
DE112020005717T5 (de) Erkennung von live-sprache
DE102018213367B4 (de) Verfahren und Telefonievorrichtung zur Geräuschunterdrückung eines systemgenerierten Audiosignals bei einem Telefonat sowie ein Fahrzeug mit der Telefonievorrichtung
DE60316136T2 (de) Akustisch und haptisch betätigte Vorrichtung und zugehöriges Verfahren

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8125 Change of the main classification

Ipc: G01L 21/02 AFI20051017BHDE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10K0011160000

Ipc: G10L0021020000

Effective date: 20110513

R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final