DE10244699B4

DE10244699B4 - Verfahren zur Bestimmung der Sprachaktivität

Info

Publication number: DE10244699B4
Application number: DE2002144699
Authority: DE
Inventors: Diane Dr.-Ing. Hirschfeld; Thomas Richter
Original assignee: VOICE INTER CONNECT GmbH
Current assignee: VOICE INTER CONNECT GmbH
Priority date: 2002-09-24
Filing date: 2002-09-24
Publication date: 2006-06-01
Anticipated expiration: 2022-09-25
Also published as: DE10244699A1

Abstract

Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals durch eine schwellenbasierende Phrasendetektion, wobei das Audio-Signal kennzeichnende Werte in einem Histogramm erfasst werden, aus dem eine Sprachschwelle, die ein Sprachsignal kennzeichnet, ermittelt wird, dadurch gekennzeichnet, dass in einem ersten Schritt Energiewerte (1) als Effektivwerte eines Signalabschnitts der Breite N des Audio-Signals in dem Histogramm (2) erfasst werden, dass in einem zweiten Schritt, anhand der ermittelten Verteilung der Energiewerte (1), die Parameter Mittelwert X und Varianz s bestimmt und anhand dieser beiden Parameter die Sprachschwelle (6) und eine Pausenschwelle (5) ermittelt werden und dass durch einen Vergleich der Schwellen (5 und 6) mit dem aktuellen Energiewert eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen wird.

Description

Die Erfindung betrifft ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals durch eine schwellenbasierende Phrasendetektion.
Die Entwicklung robuster Phrasengrenzendetektoren ist bedeutend für die automatische Erkennung von fließender Sprache. Derartige Detektoren werden beispielsweise bei der Signalverarbeitung im Mobilfunksektor eingesetzt, um eine Verbesserung der Erkennungsraten und eine Datenreduktion auf die relevanten Informationen zu erreichen. Weitere Einsatzgebiete liegen in den Bereichen der Kommandoworterkennung, der Echokompensation und der Störgeräuschunterdrückung.
Dabei muss die Phrasendetektion für einen ökonomischen Einsatz bestimmte Voraussetzungen erfüllen. Dazu zählen neben der Robustheit der Detektion die schnelle Adaption an sich verändernde Umgebungsbedingungen und ein relativ geringer Ressourcenbedarf sowohl beim Datenspeicher als auch beim notwendigen Rechenaufwand.
Sehr einfache und zeiteffizient arbeitende Phrasendetektionsalgorithmen sind bezüglich der Sicherheit der Detektion allgemein wenig leistungsfähig. Die Phrasengrenzen der zu detektierenden Phrasen werden häufig ungenau gefunden, so dass es zum einen zu Datenverlusten und zum anderen zu Fehldetektionen kommen kann. Unter Datenverlusten versteht man die fehlende Berücksichtigung von relevanten Informationen, beispielsweise von gesprochenen Lauten, die zur Äußerung gehören, die teilweise bedeutungsunterscheidend sind und durch den Phrasendetektor als nicht zur Äußerung gehörend markiert wurden. Fehldetektionen im anderen Fall sind als Phrasen markierte Signalabschnitte, die aber keine sprachliche Äußerung darstellen.

Für die Phrasendetektion lassen sich beim derzeitigen Entwicklungsstand drei Leistungsklassen von Phrasengrenzendetektoren identifizieren. Die erste Klasse umfasst einfache, energieschwellenbasierte und im Zeitbereich arbeitende Detektoren, wie in der DE 100 26 872 A1 dargestellt. Diese werten Zeitsignale nach einer Schwellwertenscheidung der ermittelten Energie eines bestimmten Signalausschnittes (Fensters) aus und sind deshalb in der Regel schnell und können mit geringem Modellierungsaufwand realisiert werden. Die dabei ermittelte Detektionsrate ist aber stark vom Signal und dessen Hintergrundgeräusch abhängig.

Die zweite Klasse umfasst leistungsfähigere, im Frequenzbereich arbeitende Detektoren wie sie in der ETSI EN 301 708 V7.1.1 (1999–12), vom Dezember 1999 beschrieben sind. Diese werten in den Frequenzbereich transformierte und in Frequenzkanäle unterteilte Signale aus, sind deshalb üblicherweise komplex und benötigen einen großen Rechenaufwand. Eine höhere Detektionssicherheit kann erreicht werden, da viele Parameter (Tonhöhe, Signal-Rausch-Abstand, Peak-to-Average-Ratio, usw.) zur Entscheidungsfindung herangezogen werden.

Die dritte Klasse fasst die aufwändigen und umfangreichen statistischen Verfahren zusammen. Durch die Auswertung der Wahrscheinlichkeitsdichtefunktion (PDF) oder der Erstellung von Modellen, mit Hilfe eines HMM (Hidden Markov Model), können über rechenaufwändige Verfahren hohe Detektionssicherheiten erreicht werden. Eine nähere Beschreibung hierzu ist in Sohn, Jongseo: "A Statistical Model-Based voice Activity Detection", IEEE Signal Processsing Letters, Vol. 6., No. 1, January 1999 zu finden.

Für die Realisierung von Phrasengrenzendetektoren in Systemen mit geringen Ressourcen kommen daher nur Detektoren der ersten Leistungsklasse in Frage. Bisher muss bei diesen einfach realisierten Detektoren aber mit einer zu geringen Detektionssicherheit und Anpassung an sich verändernde Umgebungsbedingungen gerechnet werden.

Ein aus der DE 689 03 872 bekanntes Verfahren beruht auf der energiebasierten Bestimmung von 4 Schwellen aus einem Sprachsignal und einem gefilterten Sprachsignal. Das Verfahren ist rechentechnisch sehr komplex, da mehrere Energieberechnungen, Filterung des Signals und weitere Rechenoperationen und umfangreiche Fallunterscheidungen zur Schwellenbestimmung benötigt werden, und ist damit nicht geeignet für eine low-cost-Implementierung auf einfachen Signalprozessoren.

Aus der DE 196 00 404 ist ein weiteres verfahren zur Bestimmung der Sprachaktivität bekannt, welches mittels einer stochastischen Erfassung von Amplitudenwerten eines Sprachsignals und eines Hintergrundgeräusches eine auf nur einer Schwelle basierende Phrasendetektion durchführt. Dabei wird zur Anpassung des Verfahrens auf sich ändernde Hintergrundgeräuschbedingungen das Histogramm völlig neu erstellt, was zur Folge hat, dass die Phrasendetektion für die Zeit der Neuerstellung nicht möglich ist.

Durch die Verwendung von Amplitudenwerten, welche starken Schwankungen unterliegen, ist die Funktionssicherheit bei einer Phrasengrenzentscheidung nach diesem, zum Stand der Technik gehörenden Verfahren, entsprechend gering, insbesondere bei über der Zeit stark variierenden Störgeräuschen.

Der Erfindung liegt somit die Aufgabe zugrunde, ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals anzugeben, bei dem der Gegensatz zwischen sicherer Detektion und geringem Rechenaufwand gemindert wird und das eine robuste Abgrenzung der Sprache von zeitlich variierenden Hintergrundgeräuschen realisiert.

Gemäß der Erfindung wird die Aufgabe dadurch gelöst, dass in einem ersten Schritt Energiewerte als Effektivwerte eines Signalabschnitts der Breite N des Audio-Signals in dem Histogramm erfasst werden, dass in einem zweiten Schritt, anhand der ermittelten Verteilung der Energiewerte, die Parameter Mittelwert X und Varianz s bestimmt und anhand dieser beiden Parameter die Sprachschwelle und eine Pausenschwelle ermittelt werden und dass durch einen Vergleich der Schwellen mit dem aktuellen Energiewert eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen wird.

In zeitlicher Abfolge wird zu Beginn ein Signalausschnitt (Zeitfenster) untersucht und dessen Energie bestimmt. Dieser Kurzzeitenergiewert wird in ein Histogramm eingeordnet, das die Langzeitverteilung der Signalenergie abschätzt. Für diese geschätzte Verteilung werden die Parameter Mittelwert X und Varianz s ermittelt. Anhand dieser beiden Parameter werden die Sprachschwelle ThrVoice und die Pausenschwelle ThrPause in der Schwellenadaption ermittelt. Durch Verwendung zweier Schwellen wird die Robustheit der Phrasengrenzentscheidung gegenüber kleineren Energieschwankungen erhöht, wie in 4 dargestellt.

In einer Ausgestaltung der Erfindung ist vorgesehen, dass die Ermittlung der Sprachschwelle und der Pausenschwelle, schritthaltend mit dem Signalverlauf, vor oder nach einer Phrasengrenzentscheidung erfolgt.

Durch eine, mit dem Signalverlauf schritthaltende, Ermittlung der Schwellen wird eine robuste und schnelle Adaption an sich verändernde Umgebungsbedingungen erreicht. Die Berechnung der Signalenergie erfolgt kurzzeitbasiert für die Länge eines Zeitfensters. Der Abstand zweier aufeinanderfolgender Zeitfenster (die Fortsetzrate) steuert die zeitliche Auflösung der Phrasengrenzentscheidung. Mit einer niedrigen Fortsetzrate wird eine gute Auflösung im Zeitbereich erreicht.

Die Realisierung einer Phrasengrenzentscheidung vor der Aktualisierung der Schwellen, anhand der vorliegenden Schwellen eines vorherigen Ablaufs, ermöglicht die Einordnung der allein in den Pausen auftretenden Energiewerte. Da allein die Fensterfortsetzrate entscheidet, wie viel Zeit zwischen dem aktuell betrachteten Zeitraum und dem Zeitraum, in dem die Schwellen adaptiert wurden, vergangen ist und diese im Normalfall relativ klein ist, wird der Fehler bei der Entscheidungsfindung klein gehalten.

In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, dass infolge der Phrasengrenzentscheidung ein Label „Start" für den Beginn einer Phrase und ein Label „Stop" für das Ende einer Phrase je Phrase ermittelt wird und dass die jeweiligen Label und die zugehörigen Zeitpunkte gespeichert werden.

Die Phrasengrenzenentscheidung vergleicht den aktuellen Energiewert mit den ermittelten Schwellen und bestimmt den Zustand des Signals. Zwei Zustände werden bei der Phrasengrenzendetektion unterschieden. Der erste Zustand charakterisiert die Pause bzw. das Hintergrundgeräusch und markiert den Beginn des Bereichs, der keine Phrase enthält, mit dem Label „Stop". Dieser Zustand wird nach dem erstmaligen Unterschreiten der Pausenschwelle durch die Signalenergie eingenommen und dauert an, bis er von einem zweiten Zustand abgelöst wird. Der zweite Zustand wird dann eingenommen, wenn eine Phrase vorliegt, dass heißt wenn die Signalenergie die Sprachschwelle erstmalig überschreitet. Der Beginn dieses Bereichs ist durch ein „Start" Label gekennzeichnet. Die Dauer dieses Bereiches wird erst bei einem erneuten Unterschreiten der Pausenschwelle, durch die Signalenergie beendet.

In einer Ausgestaltungsform der Erfindung ist vorgesehen, dass eine minimale und eine maximale Phrasenlänge sowie eine minimale Pausenlänge festgelegt werden und eine Plausibilitätsprüfung derart erfolgt, dass Label deren zugehörige Zeitintervalle nicht den Phrasenlängen oder der Pausenlänge entsprechen, aus der Labelspur eliminiert werden.

Eine robuste Phrasengrenzendetektion wird nicht allein durch die Adaption der Schwellen gewährleistet. Fehlentscheidungen bei der Phrasengrenzendetektion werden durch eine Korrektur der Entscheidung vermieden. Die Korrektur wird dann durchgeführt, wenn ein ganze Phrase vorliegt. Sie besteht aus einer Überprüfung der minimalen Pausenlänge, der minimal und der maximal zu erwartenden Phrasendauer. Die Korrektur der minimalen Pausenlänge bewirkt, dass detektierte Pausen innerhalb des Audiosignales, beispielsweise durch kürze Lücken innerhalb von Wörtern, nicht als Pausen markiert werden. Die Kontrolle der minimalen Phrasenlänge beseitigt kurze als Phrasen markierte Sektionen und die Prüfung der maximalen Phrasendauer beseitigt lange und nicht zu erwartende Segmente.

In einer Ausführung der Erfindung ist vorgesehen, dass die Energiewerte nach der Gleichung

mit Audio-Signalwerten x_i eines Signalabschnitts der Breite N berechnet werden.

Dieser Energiewert wird in das Histogramm bzw. in die darin enthaltene Verteilung derart eingeordnet, dass die Anzahl der sich im Histogramm befindenden Werte im eingeschwungenen Zustand konstant bleibt. Der eingeschwungene Zustand ist dann erreicht, wenn ausreichend Werte im Histogramm enthalten sind, denn erst nach einer gewissen Anzahl von Werten im Histogramm wird die tatsächliche Verteilung genügend genau durch das Histogramm geschätzt. Damit nicht alle Signalenergieschwankungen die Verteilung der Energie negativ beeinflussen, werden nur Energiewerte in das Histogramm aufgenommen, die nicht allzu weit vom Maximum der aktuellen Verteilung entfernt liegen. Diese Entscheidung kann aus der Verknüpfung von Verteilungsvarianz und Verteilungsmittelwert getroffen werden.

In einer besonderen Ausführungsform der Erfindung ist vorgesehen, dass nach dem ersten Schritt eine Glättung der im Histogramm erfassten Energiewerte gemäß der Formel

erfolgt.

Dabei ergibt sich der geglättete Histogrammeintrag X'(N) des N-ten Histogramm-Intervalles aus der Summe der gewichteten zwei linken und der zwei rechten benachbarten Histogrammeinträge X(N – 2), X(N – 1), X(N + 1) und X(N + 2) sowie des gewichteten Eintrages X(N) selbst.

In einer weiteren Ausführungsform der Erfindung ist vorgesehen, dass die Pausenschwelle, mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter β zur Festlegung des Abstands der Pausenschwelle vom Mittelwert X, gemäß der Gleichung ThrPause' = (1 – α)ThrPause + α(X + βs) ermittelt wird.

Die Pausenschwelle ThrPause, die bei der Phrasengrenzenentscheidung für die Detektion des Phrasenendes bedeutend ist, bestimmt sich aus oben genannter Gleichung. Bei der Schwellenadaption werden anhand der Verteilungsparameter Mittelwert X und Varianz s die Schwellen bestimmt. Der Adaptionsfaktor α steuert hierbei die Anpassungsempfindlichkeit. Ist dieser Wert nahe Null, dann ist die Adaption sehr langsam, in der Nähe von Eins hingegen sehr schnell. Der Parameter β entscheidet, wie weit die Pausenschwelle vom Mittelwert X entfernt platziert wird.

In einer besonderen Ausgestaltung der Erfindung ist vorgesehen, dass die Sprachschwelle, mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter γ zur Festlegung des Abstands der Sprachschwelle von der Pausenschwelle, gemäß der Gleichung ThrVoice' = (1 – α)ThrVoice + α(ThrPause + γs) ermittelt wird.

Die Adaption der Sprachschwelle ThrVoice basiert auf der berechneten Pausenschwelle ThrPause. In obiger Gleichung ist α wiederum der Adaptionsfaktor, mit dem die Geschwindigkeit der Adaption gesteuert wird, und γ bestimmt, wie groß der Abstand der Sprachschwelle ThrVoice zur Pausenschwelle ThrPause ist. Die in der Gleichung dargestellte Verknüpfung der Sprach- und Pausenschwelle mit der Varianz s der Verteilung hat den Vorteil, dass der Abstand der beiden Schwellen von der Verteilung der Kurzzeitenergie abhängt. Diese stellt sich unterschiedlich für sich verändernde Hintergrundgeräusche dar.

In ruhigen Umgebungen (statischer Fall) ist die Verteilung der Kurzzeitenergie schmal, was durch eine kleine Varianz ausgedrückt wird. Das heißt, die Kurzzeitenergie schwankt relativ wenig um ihren Langzeitmittelwert. In lauten Umgebungen treten meist dynamische Veränderungen des Hintergrundgeräusches auf, die eine breite Verteilung der Kurzzeitenergie zur Folge haben. In diesem Fall ist die Varianz groß, da die Kurzzeitenergie stark um ihren Langzeitmittelwert schwankt. Durch einen kleinen Abstand der Schwellen im statischen Fall und durch einen großen Abstand der Schwellen im dynamischen Fall werden Fehldetektionen der Phrasengrenzen eingeschränkt.

Die Erfindung soll nachfolgend anhand zweier Ausführungsbeispiele näher erläutert werden. In den zugehörigen Zeichnungen zeigt
1 eine erste Variante des Verfahrensablaufs,
2 eine zweite Variante des Verfahrensablaufs,
3a ein Histogramm mit Energiewerten,
3b eine geglättete Verteilung und abgeleitete Parameter,
4 eine Beispielphrase mit Schwellen,
5 ein Beispiel für die Schwellenadaption an ein sich änderndes Hintergrundgeräusch und
6 eine mögliche Energieverteilung für Sprach- und Störsignal.
Das erfindungsgemäße Verfahren kann in verschiedenen Bereichen zum Einsatz kommen. Bei der Sprachsignalverarbeitung kann eine Detektion von Nutzsignalen und eine verlässliche Anfangs- und Endpunktdetektion für einen Kommandoworterkenner realisiert werden. Das Verfahren ermöglicht die Realisierung einer Störgeräuschunterdrückung, bei der eine Pausendetektion für Adaptionsvorgänge notwendig ist, die Feststellung einer Sprecher-Aktivität für den Bereich der Echokompensation oder eine Bestimmung der Kanalauslastung im Bereich der Telefonie.
Eine erste Variante des Verfahrensablaufs ist in der 1 dargestellt. In zeitlicher Abfolge wird in einem ersten Schritt ein Signalausschnitt eines Audio-Signals (Zeitfenster) untersucht und dessen Energiewerte 1 bestimmt. Diese Energiewerte 1 werden in eine Verteilung in Form eines Histogramms 2 gemäß 3a eingeordnet und damit die Verteilung erstellt bzw. aktualisiert. Die Energiewerte 1 werden in das Histogramm 2 bzw. in die darin enthaltene Verteilung derart eingeordnet, dass die Anzahl der im Histogramm 2 befindenden Werte im eingeschwungenen Zustand konstant bleibt. Der eingeschwungene Zustand ist dann erreicht, wenn ausreichend Werte im Histogramm 2 enthalten sind, denn erst nach einer gewissen Anzahl von Werten im Histogramm 2 kann von einer Verteilung gesprochen werden. Damit nicht alle Signalenergieschwankungen die Verteilung der Energie negativ beeinflussen, werden nur Energiewerte 1 in das Histogramm 2 aufgenommen, die nicht allzu weit von der aktuellen Verteilung entfernt liegen. Diese Entscheidung kann aus der Verknüpfung von Verteilungsvarianz 3 und Verteilungsmittelwert 4 getroffen werden.
Nach der Glättung der Verteilung wertet das Verfahren das Histogramm 2 aus und ermittelt einen Mittelwert X 4 und die Varianz s 3, wie in 3b dargestellt. Anhand dieser Verteilungsparameter 3 und 4 wird die Pausenschwelle ThrPause 5 gemäß der angegebenen Berechnungsvorschrift ermittelt. ThrPause' = (1 – α)ThrPause + α(X + βs)
Dabei steuert der Adaptionsfaktor α die Anpassungsempfindlichkeit. Ist α nahe Null, wird die Adaption sehr langsam durchgeführt, ist α nahe Eins erfolgt die Adaption sehr schnell. Der Parameter β beeinflusst den Abstand der Pausenschwelle 5 vom ermittelten Mittelwert X 4.
Grundlage für die Ermittlung der Sprachschwelle ThrVoice 6 sind die zuvor bestimmte Pausenschwelle ThrPause 5 und die Varianz s 3.
Die Ermittlung erfolgt mit der Gleichung: ThrVoice' = (1 – α)ThrVoice + α(ThrPause + γs)
Dabei wird mit α wiederum die Geschwindigkeit der Adaption eingestellt. Der Abstand der Sprachschwelle von der Pausenschwelle wird durch γ beeinflusst.
Die in der Gleichung dargestellte Verknüpfung der Sprachschwelle ThrVoice 6 mit der Varianz s 3 der Verteilung hat den Vorteil, dass der Abstand der beiden Schwellen 5 und 6 von der Verteilung der Kurzzeitenergie abhängt. Diese stellt sich unterschiedlich für sich verändernde Hintergrundgeräusche dar (s. 5). In ruhigen Umgebungen (statischer Fall) ist die Verteilung der Kurzzeitenergie schmal, was durch eine kleine Varianz 3 ausgedrückt wird. Das heißt, die Kurzzeitenergie schwankt relativ wenig um ihren Langzeitmittelwert. In lauten Umgebungen treten meist dynamische Veränderungen des Hintergrundgeräusches auf, die eine breite Verteilung der Kurzzeitenergie zur Folge haben. In diesem Fall ist die Varianz 3 groß, da die Kurzzeitenergie stark um ihren Langzeitmittelwert schwankt. Durch einen kleinen Abstand der Schwellen 5 und 6 im statischen Fall und einen großen Abstand der Schwellen 5 und 6 im dynamischen Fall werden Fehldetektionen der Phrasengrenzen eingeschränkt.
Durch einen nachfolgenden Vergleich der ermittelten Schwellen 5 und 6 mit dem aktuellen Energiewert 1 wird eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen. Dabei wird zwischen zwei Zuständen unterschieden. Der erste Zustand charakterisiert die Pause bzw. das Hintergrundgeräusch. Der Beginn dieses Bereichs, der keine Phrase enthält, wird mit dem Label „Stop" 7 markiert. Dieser Zustand wird nach dem erstmaligen Unterschreiten der Pausenschwelle durch die Signalenergie eingenommen und dauert an, bis er von einem zweiten Zustand abgelöst wird. Der zweite Zustand wird dann eingenommen, wenn eine Phrase vorliegt, dass heißt wenn die Signalenergie die Sprachschwelle erstmalig überschreitet. Der Beginn dieses Bereichs ist durch ein „Start" Label 8 gekennzeichnet. Die Dauer dieses Bereiches wird erst bei einem erneuten Unterschreiten der Pausenschwelle, durch die Signalenergie, beendet. Im Ergebnis dieser Phrasendetektion liegt das in 4 dargestellte Ergebnis vor. In der Darstellung ist eine Beispielphrase 9 mit den aktuell ermittelten Schwellen 5 und 6 und den gesetzten Start- 8 und Stop-Label 7 dargestellt.
Robuste Phrasengrenzen werden nicht allein durch die Adaption der Schwellen 5 und 6 gewährleistet. Fehlentscheidungen bei der Phrasengrenzendetektion werden in einem nachfolgenden Schritt durch eine Plausibilitätsprüfung vermieden. Die Prüfung wird dann durchgeführt, wenn ein ganze Phrase vorliegt. Sie besteht aus einer Überprüfung der minimalen Pausenlänge sowie der minimal und der maximal zu erwartenden Phrasendauer. Die Überprüfung der minimalen Pausenlänge bewirkt, dass detektierte Pausen innerhalb einer Phrase 9 nicht als Pausen markiert werden. Die Überprüfung der minimalen Phrasenlänge beseitigt kurze als Phrasen markierte Sektionen. Die Kontrolle der maximalen Phrasendauer filtert lange und nicht zu erwartende Segmente heraus. Somit kann einer nachgeordneten Stufe, beispielsweise einem Kommandoworterkenner, eine nahezu fehlerfreie Folge von Labeln mit zugehörigen Zeitintervallen übergeben werden.
Eine zweiten Variante des Verfahrensablaufs ist in der 2 dargestellt. Der Unterschied zur ersten Variante besteht darin, dass die Phrasengrenzentscheidung nicht nach der Ermittlung der Schwellen 5 und 6 sondern vor deren Ermittlung durchgeführt wird.
Nach der Energieermittlung über ein betrachtetes Zeitfenster wird anhand der durch den vorherigen Ablauf vorliegenden Schwellen 5 und 6 eine Phrasengrenzenentscheidung getroffen. Da allein die Fensterfortsetzrate entscheidet, wie groß die Zeitdifferenz zwischen dem aktuell betrachteten Zeitraum und dem Zeitraum, in dem die Schwellen adaptiert wurden, ist und diese im Normalfall relativ klein gehalten wird, kann der Fehler bei der Entscheidungsfindung klein gehalten werden.
Der Vorteil der Phrasengrenzenentscheidung vor der Histogrammadaption besteht darin, dass mit Hilfe dieser Entscheidung eine Einordnung der allein in den Pausen aufgetretenen Energiewerte 1 möglich ist. Somit ist die erzeugte Verteilung allein eine Verteilung des Hintergrundgeräusches. Durch die ausschließliche Berücksichtigung von Energiewerten 1 aus Pausen, passt sich die Verteilung im Histogramm 2 schnell den Umgebungsbedingungen an und ist in vielen Fällen schmal, das heißt es liegt eine kleine Varianz 3 vor. Betrachtet man die Verteilung aller aufgetretenen Energien, ergibt sich in vielen Fällen ein der 6 dargestelltes Bild. Gut erkennbar sind zwei Maxima der Verteilung. Im linken Teil der 6 handelt es sich um die Verteilung des Hintergrundgeräusches und im rechten Teil der Abbildung um die Verteilung der gesprochenen Äußerungen.

1: Energiewerte
2: Histogramm
3: Verteilungsvarianz s
4: Verteilungsmittelwert X
5: Pausenschwelle ThrPause
6: Sprachschwelle ThrVoice
7: Label „Stop"
8: Label „Start"
9: Beispielphrase

Claims

Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals durch eine schwellenbasierende Phrasendetektion, wobei das Audio-Signal kennzeichnende Werte in einem Histogramm erfasst werden, aus dem eine Sprachschwelle, die ein Sprachsignal kennzeichnet, ermittelt wird, dadurch gekennzeichnet, dass in einem ersten Schritt Energiewerte (1) als Effektivwerte eines Signalabschnitts der Breite N des Audio-Signals in dem Histogramm (2) erfasst werden, dass in einem zweiten Schritt, anhand der ermittelten Verteilung der Energiewerte (1), die Parameter Mittelwert X und Varianz s bestimmt und anhand dieser beiden Parameter die Sprachschwelle (6) und eine Pausenschwelle (5) ermittelt werden und dass durch einen Vergleich der Schwellen (5 und 6) mit dem aktuellen Energiewert eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Ermittlung der Sprachschwelle (6) und der Pausenschwelle (5), schritthaltend mit dem Signalverlauf, vor oder nach einer Phrasengrenzentscheidung erfolgt. oder der Pausenlänge entsprechen, aus der Labelspur eliminiert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Energiewerte (1) nach der Gleichung
mit Audio-Signalwerten x_i eines Signalabschnitts der Breite N berechnet werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass nach dem ersten Schritt eine Glättung der im Histogramm (2) erfassten Energiewerte (1) gemäß der Formel
erfolgt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Pausenschwelle (5), mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter β zur Festlegung des Abstands der Pausenschwelle (5) vom Mittelwert X (4), gemäß der Gleichung ThrPause' = (1 – α)ThrPause + α(x + βs) ermittelt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Sprachschwelle (6), mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter γ zur Festlegung des Abstands der Sprachschwelle (6) von der Pausenschwelle (5), gemäß der Gleichung ThrVoice' = (1 – α)ThrVoice + α(ThrPause + γs) ermittelt wird.