[go: up one dir, main page]

DE10244699B4 - Verfahren zur Bestimmung der Sprachaktivität - Google Patents

Verfahren zur Bestimmung der Sprachaktivität Download PDF

Info

Publication number
DE10244699B4
DE10244699B4 DE2002144699 DE10244699A DE10244699B4 DE 10244699 B4 DE10244699 B4 DE 10244699B4 DE 2002144699 DE2002144699 DE 2002144699 DE 10244699 A DE10244699 A DE 10244699A DE 10244699 B4 DE10244699 B4 DE 10244699B4
Authority
DE
Germany
Prior art keywords
threshold
speech
phrase
signal
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE2002144699
Other languages
English (en)
Other versions
DE10244699A1 (de
Inventor
Diane Dr.-Ing. Hirschfeld
Thomas Richter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VOICE INTER CONNECT GmbH
Original Assignee
VOICE INTER CONNECT GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VOICE INTER CONNECT GmbH filed Critical VOICE INTER CONNECT GmbH
Priority to DE2002144699 priority Critical patent/DE10244699B4/de
Publication of DE10244699A1 publication Critical patent/DE10244699A1/de
Application granted granted Critical
Publication of DE10244699B4 publication Critical patent/DE10244699B4/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals durch eine schwellenbasierende Phrasendetektion, wobei das Audio-Signal kennzeichnende Werte in einem Histogramm erfasst werden, aus dem eine Sprachschwelle, die ein Sprachsignal kennzeichnet, ermittelt wird, dadurch gekennzeichnet, dass in einem ersten Schritt Energiewerte (1) als Effektivwerte eines Signalabschnitts der Breite N des Audio-Signals in dem Histogramm (2) erfasst werden, dass in einem zweiten Schritt, anhand der ermittelten Verteilung der Energiewerte (1), die Parameter Mittelwert X und Varianz s bestimmt und anhand dieser beiden Parameter die Sprachschwelle (6) und eine Pausenschwelle (5) ermittelt werden und dass durch einen Vergleich der Schwellen (5 und 6) mit dem aktuellen Energiewert eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen wird.

Description

  • Die Erfindung betrifft ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals durch eine schwellenbasierende Phrasendetektion.
  • Die Entwicklung robuster Phrasengrenzendetektoren ist bedeutend für die automatische Erkennung von fließender Sprache. Derartige Detektoren werden beispielsweise bei der Signalverarbeitung im Mobilfunksektor eingesetzt, um eine Verbesserung der Erkennungsraten und eine Datenreduktion auf die relevanten Informationen zu erreichen. Weitere Einsatzgebiete liegen in den Bereichen der Kommandoworterkennung, der Echokompensation und der Störgeräuschunterdrückung.
  • Dabei muss die Phrasendetektion für einen ökonomischen Einsatz bestimmte Voraussetzungen erfüllen. Dazu zählen neben der Robustheit der Detektion die schnelle Adaption an sich verändernde Umgebungsbedingungen und ein relativ geringer Ressourcenbedarf sowohl beim Datenspeicher als auch beim notwendigen Rechenaufwand.
  • Sehr einfache und zeiteffizient arbeitende Phrasendetektionsalgorithmen sind bezüglich der Sicherheit der Detektion allgemein wenig leistungsfähig. Die Phrasengrenzen der zu detektierenden Phrasen werden häufig ungenau gefunden, so dass es zum einen zu Datenverlusten und zum anderen zu Fehldetektionen kommen kann. Unter Datenverlusten versteht man die fehlende Berücksichtigung von relevanten Informationen, beispielsweise von gesprochenen Lauten, die zur Äußerung gehören, die teilweise bedeutungsunterscheidend sind und durch den Phrasendetektor als nicht zur Äußerung gehörend markiert wurden. Fehldetektionen im anderen Fall sind als Phrasen markierte Signalabschnitte, die aber keine sprachliche Äußerung darstellen.
  • Für die Phrasendetektion lassen sich beim derzeitigen Entwicklungsstand drei Leistungsklassen von Phrasengrenzendetektoren identifizieren. Die erste Klasse umfasst einfache, energieschwellenbasierte und im Zeitbereich arbeitende Detektoren, wie in der DE 100 26 872 A1 dargestellt. Diese werten Zeitsignale nach einer Schwellwertenscheidung der ermittelten Energie eines bestimmten Signalausschnittes (Fensters) aus und sind deshalb in der Regel schnell und können mit geringem Modellierungsaufwand realisiert werden. Die dabei ermittelte Detektionsrate ist aber stark vom Signal und dessen Hintergrundgeräusch abhängig.
  • Die zweite Klasse umfasst leistungsfähigere, im Frequenzbereich arbeitende Detektoren wie sie in der ETSI EN 301 708 V7.1.1 (1999–12), vom Dezember 1999 beschrieben sind. Diese werten in den Frequenzbereich transformierte und in Frequenzkanäle unterteilte Signale aus, sind deshalb üblicherweise komplex und benötigen einen großen Rechenaufwand. Eine höhere Detektionssicherheit kann erreicht werden, da viele Parameter (Tonhöhe, Signal-Rausch-Abstand, Peak-to-Average-Ratio, usw.) zur Entscheidungsfindung herangezogen werden.
  • Die dritte Klasse fasst die aufwändigen und umfangreichen statistischen Verfahren zusammen. Durch die Auswertung der Wahrscheinlichkeitsdichtefunktion (PDF) oder der Erstellung von Modellen, mit Hilfe eines HMM (Hidden Markov Model), können über rechenaufwändige Verfahren hohe Detektionssicherheiten erreicht werden. Eine nähere Beschreibung hierzu ist in Sohn, Jongseo: "A Statistical Model-Based voice Activity Detection", IEEE Signal Processsing Letters, Vol. 6., No. 1, January 1999 zu finden.
  • Für die Realisierung von Phrasengrenzendetektoren in Systemen mit geringen Ressourcen kommen daher nur Detektoren der ersten Leistungsklasse in Frage. Bisher muss bei diesen einfach realisierten Detektoren aber mit einer zu geringen Detektionssicherheit und Anpassung an sich verändernde Umgebungsbedingungen gerechnet werden.
  • Ein aus der DE 689 03 872 bekanntes Verfahren beruht auf der energiebasierten Bestimmung von 4 Schwellen aus einem Sprachsignal und einem gefilterten Sprachsignal. Das Verfahren ist rechentechnisch sehr komplex, da mehrere Energieberechnungen, Filterung des Signals und weitere Rechenoperationen und umfangreiche Fallunterscheidungen zur Schwellenbestimmung benötigt werden, und ist damit nicht geeignet für eine low-cost-Implementierung auf einfachen Signalprozessoren.
  • Aus der DE 196 00 404 ist ein weiteres verfahren zur Bestimmung der Sprachaktivität bekannt, welches mittels einer stochastischen Erfassung von Amplitudenwerten eines Sprachsignals und eines Hintergrundgeräusches eine auf nur einer Schwelle basierende Phrasendetektion durchführt. Dabei wird zur Anpassung des Verfahrens auf sich ändernde Hintergrundgeräuschbedingungen das Histogramm völlig neu erstellt, was zur Folge hat, dass die Phrasendetektion für die Zeit der Neuerstellung nicht möglich ist.
  • Durch die Verwendung von Amplitudenwerten, welche starken Schwankungen unterliegen, ist die Funktionssicherheit bei einer Phrasengrenzentscheidung nach diesem, zum Stand der Technik gehörenden Verfahren, entsprechend gering, insbesondere bei über der Zeit stark variierenden Störgeräuschen.
  • Der Erfindung liegt somit die Aufgabe zugrunde, ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals anzugeben, bei dem der Gegensatz zwischen sicherer Detektion und geringem Rechenaufwand gemindert wird und das eine robuste Abgrenzung der Sprache von zeitlich variierenden Hintergrundgeräuschen realisiert.
  • Gemäß der Erfindung wird die Aufgabe dadurch gelöst, dass in einem ersten Schritt Energiewerte als Effektivwerte eines Signalabschnitts der Breite N des Audio-Signals in dem Histogramm erfasst werden, dass in einem zweiten Schritt, anhand der ermittelten Verteilung der Energiewerte, die Parameter Mittelwert X und Varianz s bestimmt und anhand dieser beiden Parameter die Sprachschwelle und eine Pausenschwelle ermittelt werden und dass durch einen Vergleich der Schwellen mit dem aktuellen Energiewert eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen wird.
  • In zeitlicher Abfolge wird zu Beginn ein Signalausschnitt (Zeitfenster) untersucht und dessen Energie bestimmt. Dieser Kurzzeitenergiewert wird in ein Histogramm eingeordnet, das die Langzeitverteilung der Signalenergie abschätzt. Für diese geschätzte Verteilung werden die Parameter Mittelwert X und Varianz s ermittelt. Anhand dieser beiden Parameter werden die Sprachschwelle ThrVoice und die Pausenschwelle ThrPause in der Schwellenadaption ermittelt. Durch Verwendung zweier Schwellen wird die Robustheit der Phrasengrenzentscheidung gegenüber kleineren Energieschwankungen erhöht, wie in 4 dargestellt.
  • In einer Ausgestaltung der Erfindung ist vorgesehen, dass die Ermittlung der Sprachschwelle und der Pausenschwelle, schritthaltend mit dem Signalverlauf, vor oder nach einer Phrasengrenzentscheidung erfolgt.
  • Durch eine, mit dem Signalverlauf schritthaltende, Ermittlung der Schwellen wird eine robuste und schnelle Adaption an sich verändernde Umgebungsbedingungen erreicht. Die Berechnung der Signalenergie erfolgt kurzzeitbasiert für die Länge eines Zeitfensters. Der Abstand zweier aufeinanderfolgender Zeitfenster (die Fortsetzrate) steuert die zeitliche Auflösung der Phrasengrenzentscheidung. Mit einer niedrigen Fortsetzrate wird eine gute Auflösung im Zeitbereich erreicht.
  • Die Realisierung einer Phrasengrenzentscheidung vor der Aktualisierung der Schwellen, anhand der vorliegenden Schwellen eines vorherigen Ablaufs, ermöglicht die Einordnung der allein in den Pausen auftretenden Energiewerte. Da allein die Fensterfortsetzrate entscheidet, wie viel Zeit zwischen dem aktuell betrachteten Zeitraum und dem Zeitraum, in dem die Schwellen adaptiert wurden, vergangen ist und diese im Normalfall relativ klein ist, wird der Fehler bei der Entscheidungsfindung klein gehalten.
  • In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, dass infolge der Phrasengrenzentscheidung ein Label „Start" für den Beginn einer Phrase und ein Label „Stop" für das Ende einer Phrase je Phrase ermittelt wird und dass die jeweiligen Label und die zugehörigen Zeitpunkte gespeichert werden.
  • Die Phrasengrenzenentscheidung vergleicht den aktuellen Energiewert mit den ermittelten Schwellen und bestimmt den Zustand des Signals. Zwei Zustände werden bei der Phrasengrenzendetektion unterschieden. Der erste Zustand charakterisiert die Pause bzw. das Hintergrundgeräusch und markiert den Beginn des Bereichs, der keine Phrase enthält, mit dem Label „Stop". Dieser Zustand wird nach dem erstmaligen Unterschreiten der Pausenschwelle durch die Signalenergie eingenommen und dauert an, bis er von einem zweiten Zustand abgelöst wird. Der zweite Zustand wird dann eingenommen, wenn eine Phrase vorliegt, dass heißt wenn die Signalenergie die Sprachschwelle erstmalig überschreitet. Der Beginn dieses Bereichs ist durch ein „Start" Label gekennzeichnet. Die Dauer dieses Bereiches wird erst bei einem erneuten Unterschreiten der Pausenschwelle, durch die Signalenergie beendet.
  • In einer Ausgestaltungsform der Erfindung ist vorgesehen, dass eine minimale und eine maximale Phrasenlänge sowie eine minimale Pausenlänge festgelegt werden und eine Plausibilitätsprüfung derart erfolgt, dass Label deren zugehörige Zeitintervalle nicht den Phrasenlängen oder der Pausenlänge entsprechen, aus der Labelspur eliminiert werden.
  • Eine robuste Phrasengrenzendetektion wird nicht allein durch die Adaption der Schwellen gewährleistet. Fehlentscheidungen bei der Phrasengrenzendetektion werden durch eine Korrektur der Entscheidung vermieden. Die Korrektur wird dann durchgeführt, wenn ein ganze Phrase vorliegt. Sie besteht aus einer Überprüfung der minimalen Pausenlänge, der minimal und der maximal zu erwartenden Phrasendauer. Die Korrektur der minimalen Pausenlänge bewirkt, dass detektierte Pausen innerhalb des Audiosignales, beispielsweise durch kürze Lücken innerhalb von Wörtern, nicht als Pausen markiert werden. Die Kontrolle der minimalen Phrasenlänge beseitigt kurze als Phrasen markierte Sektionen und die Prüfung der maximalen Phrasendauer beseitigt lange und nicht zu erwartende Segmente.
  • In einer Ausführung der Erfindung ist vorgesehen, dass die Energiewerte nach der Gleichung
    Figure 00070001
    mit Audio-Signalwerten xi eines Signalabschnitts der Breite N berechnet werden.
  • Dieser Energiewert wird in das Histogramm bzw. in die darin enthaltene Verteilung derart eingeordnet, dass die Anzahl der sich im Histogramm befindenden Werte im eingeschwungenen Zustand konstant bleibt. Der eingeschwungene Zustand ist dann erreicht, wenn ausreichend Werte im Histogramm enthalten sind, denn erst nach einer gewissen Anzahl von Werten im Histogramm wird die tatsächliche Verteilung genügend genau durch das Histogramm geschätzt. Damit nicht alle Signalenergieschwankungen die Verteilung der Energie negativ beeinflussen, werden nur Energiewerte in das Histogramm aufgenommen, die nicht allzu weit vom Maximum der aktuellen Verteilung entfernt liegen. Diese Entscheidung kann aus der Verknüpfung von Verteilungsvarianz und Verteilungsmittelwert getroffen werden.
  • In einer besonderen Ausführungsform der Erfindung ist vorgesehen, dass nach dem ersten Schritt eine Glättung der im Histogramm erfassten Energiewerte gemäß der Formel
    Figure 00070002
    erfolgt.
  • Dabei ergibt sich der geglättete Histogrammeintrag X'(N) des N-ten Histogramm-Intervalles aus der Summe der gewichteten zwei linken und der zwei rechten benachbarten Histogrammeinträge X(N – 2), X(N – 1), X(N + 1) und X(N + 2) sowie des gewichteten Eintrages X(N) selbst.
  • In einer weiteren Ausführungsform der Erfindung ist vorgesehen, dass die Pausenschwelle, mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter β zur Festlegung des Abstands der Pausenschwelle vom Mittelwert X, gemäß der Gleichung ThrPause' = (1 – α)ThrPause + α(X + βs) ermittelt wird.
  • Die Pausenschwelle ThrPause, die bei der Phrasengrenzenentscheidung für die Detektion des Phrasenendes bedeutend ist, bestimmt sich aus oben genannter Gleichung. Bei der Schwellenadaption werden anhand der Verteilungsparameter Mittelwert X und Varianz s die Schwellen bestimmt. Der Adaptionsfaktor α steuert hierbei die Anpassungsempfindlichkeit. Ist dieser Wert nahe Null, dann ist die Adaption sehr langsam, in der Nähe von Eins hingegen sehr schnell. Der Parameter β entscheidet, wie weit die Pausenschwelle vom Mittelwert X entfernt platziert wird.
  • In einer besonderen Ausgestaltung der Erfindung ist vorgesehen, dass die Sprachschwelle, mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter γ zur Festlegung des Abstands der Sprachschwelle von der Pausenschwelle, gemäß der Gleichung ThrVoice' = (1 – α)ThrVoice + α(ThrPause + γs) ermittelt wird.
  • Die Adaption der Sprachschwelle ThrVoice basiert auf der berechneten Pausenschwelle ThrPause. In obiger Gleichung ist α wiederum der Adaptionsfaktor, mit dem die Geschwindigkeit der Adaption gesteuert wird, und γ bestimmt, wie groß der Abstand der Sprachschwelle ThrVoice zur Pausenschwelle ThrPause ist. Die in der Gleichung dargestellte Verknüpfung der Sprach- und Pausenschwelle mit der Varianz s der Verteilung hat den Vorteil, dass der Abstand der beiden Schwellen von der Verteilung der Kurzzeitenergie abhängt. Diese stellt sich unterschiedlich für sich verändernde Hintergrundgeräusche dar.
  • In ruhigen Umgebungen (statischer Fall) ist die Verteilung der Kurzzeitenergie schmal, was durch eine kleine Varianz ausgedrückt wird. Das heißt, die Kurzzeitenergie schwankt relativ wenig um ihren Langzeitmittelwert. In lauten Umgebungen treten meist dynamische Veränderungen des Hintergrundgeräusches auf, die eine breite Verteilung der Kurzzeitenergie zur Folge haben. In diesem Fall ist die Varianz groß, da die Kurzzeitenergie stark um ihren Langzeitmittelwert schwankt. Durch einen kleinen Abstand der Schwellen im statischen Fall und durch einen großen Abstand der Schwellen im dynamischen Fall werden Fehldetektionen der Phrasengrenzen eingeschränkt.
  • Die Erfindung soll nachfolgend anhand zweier Ausführungsbeispiele näher erläutert werden. In den zugehörigen Zeichnungen zeigt
  • 1 eine erste Variante des Verfahrensablaufs,
  • 2 eine zweite Variante des Verfahrensablaufs,
  • 3a ein Histogramm mit Energiewerten,
  • 3b eine geglättete Verteilung und abgeleitete Parameter,
  • 4 eine Beispielphrase mit Schwellen,
  • 5 ein Beispiel für die Schwellenadaption an ein sich änderndes Hintergrundgeräusch und
  • 6 eine mögliche Energieverteilung für Sprach- und Störsignal.
  • Das erfindungsgemäße Verfahren kann in verschiedenen Bereichen zum Einsatz kommen. Bei der Sprachsignalverarbeitung kann eine Detektion von Nutzsignalen und eine verlässliche Anfangs- und Endpunktdetektion für einen Kommandoworterkenner realisiert werden. Das Verfahren ermöglicht die Realisierung einer Störgeräuschunterdrückung, bei der eine Pausendetektion für Adaptionsvorgänge notwendig ist, die Feststellung einer Sprecher-Aktivität für den Bereich der Echokompensation oder eine Bestimmung der Kanalauslastung im Bereich der Telefonie.
  • Eine erste Variante des Verfahrensablaufs ist in der 1 dargestellt. In zeitlicher Abfolge wird in einem ersten Schritt ein Signalausschnitt eines Audio-Signals (Zeitfenster) untersucht und dessen Energiewerte 1 bestimmt. Diese Energiewerte 1 werden in eine Verteilung in Form eines Histogramms 2 gemäß 3a eingeordnet und damit die Verteilung erstellt bzw. aktualisiert. Die Energiewerte 1 werden in das Histogramm 2 bzw. in die darin enthaltene Verteilung derart eingeordnet, dass die Anzahl der im Histogramm 2 befindenden Werte im eingeschwungenen Zustand konstant bleibt. Der eingeschwungene Zustand ist dann erreicht, wenn ausreichend Werte im Histogramm 2 enthalten sind, denn erst nach einer gewissen Anzahl von Werten im Histogramm 2 kann von einer Verteilung gesprochen werden. Damit nicht alle Signalenergieschwankungen die Verteilung der Energie negativ beeinflussen, werden nur Energiewerte 1 in das Histogramm 2 aufgenommen, die nicht allzu weit von der aktuellen Verteilung entfernt liegen. Diese Entscheidung kann aus der Verknüpfung von Verteilungsvarianz 3 und Verteilungsmittelwert 4 getroffen werden.
  • Nach der Glättung der Verteilung wertet das Verfahren das Histogramm 2 aus und ermittelt einen Mittelwert X 4 und die Varianz s 3, wie in 3b dargestellt. Anhand dieser Verteilungsparameter 3 und 4 wird die Pausenschwelle ThrPause 5 gemäß der angegebenen Berechnungsvorschrift ermittelt. ThrPause' = (1 – α)ThrPause + α(X + βs)
  • Dabei steuert der Adaptionsfaktor α die Anpassungsempfindlichkeit. Ist α nahe Null, wird die Adaption sehr langsam durchgeführt, ist α nahe Eins erfolgt die Adaption sehr schnell. Der Parameter β beeinflusst den Abstand der Pausenschwelle 5 vom ermittelten Mittelwert X 4.
  • Grundlage für die Ermittlung der Sprachschwelle ThrVoice 6 sind die zuvor bestimmte Pausenschwelle ThrPause 5 und die Varianz s 3.
  • Die Ermittlung erfolgt mit der Gleichung: ThrVoice' = (1 – α)ThrVoice + α(ThrPause + γs)
  • Dabei wird mit α wiederum die Geschwindigkeit der Adaption eingestellt. Der Abstand der Sprachschwelle von der Pausenschwelle wird durch γ beeinflusst.
  • Die in der Gleichung dargestellte Verknüpfung der Sprachschwelle ThrVoice 6 mit der Varianz s 3 der Verteilung hat den Vorteil, dass der Abstand der beiden Schwellen 5 und 6 von der Verteilung der Kurzzeitenergie abhängt. Diese stellt sich unterschiedlich für sich verändernde Hintergrundgeräusche dar (s. 5). In ruhigen Umgebungen (statischer Fall) ist die Verteilung der Kurzzeitenergie schmal, was durch eine kleine Varianz 3 ausgedrückt wird. Das heißt, die Kurzzeitenergie schwankt relativ wenig um ihren Langzeitmittelwert. In lauten Umgebungen treten meist dynamische Veränderungen des Hintergrundgeräusches auf, die eine breite Verteilung der Kurzzeitenergie zur Folge haben. In diesem Fall ist die Varianz 3 groß, da die Kurzzeitenergie stark um ihren Langzeitmittelwert schwankt. Durch einen kleinen Abstand der Schwellen 5 und 6 im statischen Fall und einen großen Abstand der Schwellen 5 und 6 im dynamischen Fall werden Fehldetektionen der Phrasengrenzen eingeschränkt.
  • Durch einen nachfolgenden Vergleich der ermittelten Schwellen 5 und 6 mit dem aktuellen Energiewert 1 wird eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen. Dabei wird zwischen zwei Zuständen unterschieden. Der erste Zustand charakterisiert die Pause bzw. das Hintergrundgeräusch. Der Beginn dieses Bereichs, der keine Phrase enthält, wird mit dem Label „Stop" 7 markiert. Dieser Zustand wird nach dem erstmaligen Unterschreiten der Pausenschwelle durch die Signalenergie eingenommen und dauert an, bis er von einem zweiten Zustand abgelöst wird. Der zweite Zustand wird dann eingenommen, wenn eine Phrase vorliegt, dass heißt wenn die Signalenergie die Sprachschwelle erstmalig überschreitet. Der Beginn dieses Bereichs ist durch ein „Start" Label 8 gekennzeichnet. Die Dauer dieses Bereiches wird erst bei einem erneuten Unterschreiten der Pausenschwelle, durch die Signalenergie, beendet. Im Ergebnis dieser Phrasendetektion liegt das in 4 dargestellte Ergebnis vor. In der Darstellung ist eine Beispielphrase 9 mit den aktuell ermittelten Schwellen 5 und 6 und den gesetzten Start- 8 und Stop-Label 7 dargestellt.
  • Robuste Phrasengrenzen werden nicht allein durch die Adaption der Schwellen 5 und 6 gewährleistet. Fehlentscheidungen bei der Phrasengrenzendetektion werden in einem nachfolgenden Schritt durch eine Plausibilitätsprüfung vermieden. Die Prüfung wird dann durchgeführt, wenn ein ganze Phrase vorliegt. Sie besteht aus einer Überprüfung der minimalen Pausenlänge sowie der minimal und der maximal zu erwartenden Phrasendauer. Die Überprüfung der minimalen Pausenlänge bewirkt, dass detektierte Pausen innerhalb einer Phrase 9 nicht als Pausen markiert werden. Die Überprüfung der minimalen Phrasenlänge beseitigt kurze als Phrasen markierte Sektionen. Die Kontrolle der maximalen Phrasendauer filtert lange und nicht zu erwartende Segmente heraus. Somit kann einer nachgeordneten Stufe, beispielsweise einem Kommandoworterkenner, eine nahezu fehlerfreie Folge von Labeln mit zugehörigen Zeitintervallen übergeben werden.
  • Eine zweiten Variante des Verfahrensablaufs ist in der 2 dargestellt. Der Unterschied zur ersten Variante besteht darin, dass die Phrasengrenzentscheidung nicht nach der Ermittlung der Schwellen 5 und 6 sondern vor deren Ermittlung durchgeführt wird.
  • Nach der Energieermittlung über ein betrachtetes Zeitfenster wird anhand der durch den vorherigen Ablauf vorliegenden Schwellen 5 und 6 eine Phrasengrenzenentscheidung getroffen. Da allein die Fensterfortsetzrate entscheidet, wie groß die Zeitdifferenz zwischen dem aktuell betrachteten Zeitraum und dem Zeitraum, in dem die Schwellen adaptiert wurden, ist und diese im Normalfall relativ klein gehalten wird, kann der Fehler bei der Entscheidungsfindung klein gehalten werden.
  • Der Vorteil der Phrasengrenzenentscheidung vor der Histogrammadaption besteht darin, dass mit Hilfe dieser Entscheidung eine Einordnung der allein in den Pausen aufgetretenen Energiewerte 1 möglich ist. Somit ist die erzeugte Verteilung allein eine Verteilung des Hintergrundgeräusches. Durch die ausschließliche Berücksichtigung von Energiewerten 1 aus Pausen, passt sich die Verteilung im Histogramm 2 schnell den Umgebungsbedingungen an und ist in vielen Fällen schmal, das heißt es liegt eine kleine Varianz 3 vor. Betrachtet man die Verteilung aller aufgetretenen Energien, ergibt sich in vielen Fällen ein der 6 dargestelltes Bild. Gut erkennbar sind zwei Maxima der Verteilung. Im linken Teil der 6 handelt es sich um die Verteilung des Hintergrundgeräusches und im rechten Teil der Abbildung um die Verteilung der gesprochenen Äußerungen.
  • 1
    Energiewerte
    2
    Histogramm
    3
    Verteilungsvarianz s
    4
    Verteilungsmittelwert X
    5
    Pausenschwelle ThrPause
    6
    Sprachschwelle ThrVoice
    7
    Label „Stop"
    8
    Label „Start"
    9
    Beispielphrase

Claims (6)

  1. Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals durch eine schwellenbasierende Phrasendetektion, wobei das Audio-Signal kennzeichnende Werte in einem Histogramm erfasst werden, aus dem eine Sprachschwelle, die ein Sprachsignal kennzeichnet, ermittelt wird, dadurch gekennzeichnet, dass in einem ersten Schritt Energiewerte (1) als Effektivwerte eines Signalabschnitts der Breite N des Audio-Signals in dem Histogramm (2) erfasst werden, dass in einem zweiten Schritt, anhand der ermittelten Verteilung der Energiewerte (1), die Parameter Mittelwert X und Varianz s bestimmt und anhand dieser beiden Parameter die Sprachschwelle (6) und eine Pausenschwelle (5) ermittelt werden und dass durch einen Vergleich der Schwellen (5 und 6) mit dem aktuellen Energiewert eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Ermittlung der Sprachschwelle (6) und der Pausenschwelle (5), schritthaltend mit dem Signalverlauf, vor oder nach einer Phrasengrenzentscheidung erfolgt. oder der Pausenlänge entsprechen, aus der Labelspur eliminiert werden.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Energiewerte (1) nach der Gleichung
    Figure 00160001
    mit Audio-Signalwerten xi eines Signalabschnitts der Breite N berechnet werden.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass nach dem ersten Schritt eine Glättung der im Histogramm (2) erfassten Energiewerte (1) gemäß der Formel
    Figure 00160002
    erfolgt.
  5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Pausenschwelle (5), mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter β zur Festlegung des Abstands der Pausenschwelle (5) vom Mittelwert X (4), gemäß der Gleichung ThrPause' = (1 – α)ThrPause + α(x + βs) ermittelt wird.
  6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Sprachschwelle (6), mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter γ zur Festlegung des Abstands der Sprachschwelle (6) von der Pausenschwelle (5), gemäß der Gleichung ThrVoice' = (1 – α)ThrVoice + α(ThrPause + γs) ermittelt wird.
DE2002144699 2002-09-24 2002-09-24 Verfahren zur Bestimmung der Sprachaktivität Expired - Lifetime DE10244699B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2002144699 DE10244699B4 (de) 2002-09-24 2002-09-24 Verfahren zur Bestimmung der Sprachaktivität

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2002144699 DE10244699B4 (de) 2002-09-24 2002-09-24 Verfahren zur Bestimmung der Sprachaktivität

Publications (2)

Publication Number Publication Date
DE10244699A1 DE10244699A1 (de) 2004-04-01
DE10244699B4 true DE10244699B4 (de) 2006-06-01

Family

ID=31969583

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2002144699 Expired - Lifetime DE10244699B4 (de) 2002-09-24 2002-09-24 Verfahren zur Bestimmung der Sprachaktivität

Country Status (1)

Country Link
DE (1) DE10244699B4 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005029287B4 (de) * 2005-06-22 2014-05-08 Nec Europe Ltd. Verfahren zum Unterbinden einer Vermittlung von unerwünschten Telefonanrufen
EP2619753B1 (de) 2010-12-24 2014-05-21 Huawei Technologies Co., Ltd. Verfahren und vorrichtung zur adaptiven erkennung von sprachaktivität bei einem audioeingangssignal
CN112397075B (zh) * 2020-12-10 2024-05-28 北京猿力未来科技有限公司 一种人声音频识别模型训练方法、音频分类方法和系统
CN113270118B (zh) * 2021-05-14 2024-02-13 杭州网易智企科技有限公司 语音活动侦测方法及装置、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68903872T2 (de) * 1988-05-04 1993-06-24 Thomson Csf Verfahren und anordnung zur feststellung der anwesenheit von sprachsignalen.
DE19600404C2 (de) * 1995-01-31 1998-11-19 Motorola Inc Sprachdetektor zur Feststellung des Vorhandenseins von Sprache
DE10026872A1 (de) * 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68903872T2 (de) * 1988-05-04 1993-06-24 Thomson Csf Verfahren und anordnung zur feststellung der anwesenheit von sprachsignalen.
DE19600404C2 (de) * 1995-01-31 1998-11-19 Motorola Inc Sprachdetektor zur Feststellung des Vorhandenseins von Sprache
DE10026872A1 (de) * 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ETSI EN 301708 V7.1.1 (1999-12), Dezember 1999 *
SOHN, JONGSEO: "A Statistical Model-Based Voice Activity Detection". In: IEEE Signal Processing Letters, Vol. 6, No. 1, January 1999 *

Also Published As

Publication number Publication date
DE10244699A1 (de) 2004-04-01

Similar Documents

Publication Publication Date Title
DE69913262T2 (de) Vorrichtung und verfahren zur anpassung der rauschschwelle zur sprachaktivitätsdetektion in einer nichtstationären geräuschumgebung
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
DE69420027T2 (de) Rauschverminderung
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69920047T2 (de) Detektion von reiner sprache in einem audio signal, mit hilfe einer detektionsgrösse (valley percentage)
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
DE69105154T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP0815553B1 (de) Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind
EP0319078A2 (de) Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE69803202T2 (de) Verfahren und vorrichtung zur sprachdetektion
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
EP1187095A2 (de) Graphem-Phonem-Zuordnung
EP0874352A2 (de) Sprachaktivitätserkennung
DE10244699B4 (de) Verfahren zur Bestimmung der Sprachaktivität
DE69112855T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE69026474T2 (de) System zur Spracherkennung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R071 Expiry of right