DE2233872A1

DE2233872A1 - Signalanalysator

Info

Publication number: DE2233872A1
Application number: DE2233872A
Authority: DE
Inventors: Bishnu Saroop Atal
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1971-07-09
Filing date: 1972-07-10
Publication date: 1973-01-18
Also published as: JPS5524118B1; NL7209311A; JPS5774800A; US3740476A; FR2145501A1; DE2233872C2; CA967285A; FR2145501B1

Description

WESTERN ELECTRIC COMPANY Incorporated B. S. Atal - 5

New York, N.Y., 10007, USA Signalanalysator

Die Erfindung betrifft einen Signalanalysator für die Bestimmung der Grundwellenperiode eines komplexen Signals, bei dem ein im wesentlichen die Formantstruktur eines komplexen Signals darstellendes Signal erzeugt wird.

Einrichtungen für die Verringerung der Kanalkapazität, die für die Übertragung komplexer Signale erforderlich sind, wie beispielsweise Sprachsignale, wurden bereits vorgeschlagen. Die meist bekannte Einrichtung dieser Art ist der Vocoder. Ferner wurden kürzlich Techniken beschrieben, die den Signalen inhärente Redundanz durch die Verwendung einer linearen Vorhersage-Technik beseitigen. Bei allen diesen genannten Einrichtungen wird ein Sprachsignal analysiert, um seine kennzeichnenden Charakteristika zu bestimmen, woraufhin dann kodierte Information bezüglich dieser Charakteristika anstelle des Sprachsignals selbst übertragen wird.

Auf der Empfangsseite wird dann aus der kodierten Information ein künstliches Sprachsignal erzeugt.

Im allgemeinen wird bei jeder Systemart für eine Bandbreitenkompression von kodierter Signalinformation verwendet. Alle verwenden jedoch in Wahrheit ein Merkmal des Sprachsignals, nähmlich seine Grundfrequenz. Diese Charakteristik bezeichnet die Grundfrequenz, mit der die Stimmbänder während der Erzeugung verschiedener stimmhafter Sprachsignale vibrieren. Die meisten Systeme für eine Sprachbandbreitenkompression verwenden ferner kodierte Information, um ein Sprachsignal als stimmhaft oder stimmlos zu kennzeichnen. Einige dieser Systeme kombinieren zwei Informationsformen,, so daß das Sprachgrundsignal inhärent die Stimmhaftbedingung spezifiziert.

Es wurden ferner verschiedene Vorschläge für das automatische Messen und Kodieren der Grundfrequenzmerkmale eines Sprachsignals vorgeschlagen und in der Praxis verwendet. Einige basieren auf einer einfachen Filtertechnik, andere auf der Signalkorrelation, andere auf der formanten Feststellung und Beobachtung und andere auf einer Transformation des Logarithmus des Sprach-

? 0 ^fHl H Π / 0 8 7 8

signalspektrums, dem sogenannten Cepstrum des Signals, Alle genannten Anordnungen arbeiten auf bestimmte Weise mit dem Sprachsignal selbst, um Spitzenwerte im Signal oder deren Multifizierungen aufzufinden, die die Sprachgrundcharakteristik identifizieren. Unglücklicherweise sind Spitzenwerte der Formanten, insbesondere des ersten Formanten eines Sprachsignals oft stärker, als ein Spitzenwert, der zur Angabe der Sprachgrundfrequenz erzeugt wurde. Wenn die beiden Spitzenwerte sehr dicht beieinander liegen, ist es sehr schwer, festzustellen, welcher für die Sprachgrundwelle repräsentativ ist. Daher unterliegen selbst komplizierte Grundfrequenzdedektoren diesem Fehler und charakterisieren nicht immer korrekt die Grundfrequenz eines Signals.

Die Erfindung hat sich daher die Aufgabe gesetzt, die vorstehend genannten Schwierigkeiten zu vermeiden und insbesondere eine Einrichtung anzugeben, die eine weitgehend fehlerfreie Sprachgrundfrequenzmessung gestattet.

Für einen Signalanalysator für die Bestimmung der GrundweUenp^- riode eines komplexen Signals, bei dem ein im wesentlichen die Formantstruktur eines komplexen Signals darstellendes Signal

209883/QS78

erzeugt wird, besteht die Erfindung darin, das ein Subtrahiernetzwerk für die Subtraktion eines im wesentlichen die Formantstruktur darstellenden Signals von einem komplexen Signal zur Bildung eines Differenz signals vorgesehen ist und das die Grundfrequenz des Differenz Signals bestimmt und als Angabe der Grundwellenperiode des komplexen Signals verwendet wird.

Weitere Merkmale, vorteilhafte Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unter ansprächen zu entnehmen.

Die Vorteile, der Erfindung, die weitgehend fehlerfreie Bestimmung der Sprachgrundfrequenz basieren auf der Analyse eines komplexen Sprachsignals zur Bestimmung seiner Grundfrequenz. Diese Analyse beruht auf der Analyse des Fehlers zwischen einem vorhergesagten Wert des Sprachsignals, basierend auf seinen früheren Abtastwerten und seinem im Augenblick gerade vorliegenden Wert. Das Zeitintervall, das durch eine Anzahl von Abtastwerten repräsentiert und für die Gewinnung des Vorhersagewertes verwendet wird, ist in typischerweise eine Millisekunde lang. Aufgrund des Kurzzeitspeichers, der in dem Vorhersagoprozess verwendet wird,

2098R3/fl«7fl

stellen die vorher ge sagten Signalwerte in großem Maße die Formantstruktur des Sprachsignals dar. Die Grundfrequenzanalyse einrichtung der Erfindung ist besonders effektiv, da bei der Erzeugung eines Differenzsignals, d.h. des Vorhersagefehlersignals, die Formantstruktur des Signals vom Eingangssignal entfernt wurde. Da jedoch die Grundfrequenz der Sprachsignale in typischer Weise in einem Bereich von 3 msek. bis 20 msek. liegt, ist die Vorhersage der Grundfrequenzstruktur, basierend auf 1 msek. eines vergangenen Sprachabschnittes vollständig vernachlässigbar. Daher wird die Grundfrequenzinformation in dem Vorhersagefehlersignal zurückgehalten. Deshalb gibt es auch nur eine geringe oder garkeine Rückwirkung von der Formantstruktur, und die Spitzenabtrennoperation ist bei der Erzeugung eines Meßwertes der Sprachgrundfrequenzcharakteristik des Eingangs signals wirksam.

Ein weiterer Vorteil der Erfindung basiert auf der zusätzlichen Verwendung von Vorhersagefehlerabtastungen, um ein Stimmhaft /Stimmlos-Unterscheidungssignal zu erzeugen. Die Stimmhaftentscheidung wird abgeleitet aus dem Verhältnis des quadratischen Mittelwertes der Eingangssignalabtastwerte zu dem quadratischen Mittelwert der entsprechenden Vorhersagefehlerabtastwerte.

209B8370878

Im folgenden wird die Erfindung anhand der Figuren beispielsweise näher erleutert. Es zeigen:

Fig. 1 das Blockschaltbild eines Sprachsignalanalysators, daß das Prinzip der Erfindung verdeutlicht und

Fig. 2 eine Darstellung der Wellenform eines stimmhaften Sprachsignals, der Positionen festgestellter Grundfrequenzimpulse in dem stimmhaften Sprachsignal (vertikale Linien) und eines stimmlosen Sprachsegments.

Ein Signalanalysator, der das Prinzip der Erfindung beinhaltet, ist in Fig. 1 dargestellt. Die Sprachsignale, die von einer beliebigen Quelle geliefert werden, werden zu dem Analysator übertragen und durch ein Tiefpassfilter 10 geschleußt. Das Filter 10 hat eine typische Grenzfrequenz in der Gegend von 5 kHz. Das sich ergebende Signal wird dann mit einer Frequenz von etwa 10 kHz im Abtaster 11 abgetastet, wobei dieser Abtastvorgang von den Signalen des Taktgebers 12 gesteuert wird. Die Sprachabtast-

209883/0878

werte, s , die auf diese Weise abgeleitet werden, werden zu einer Speichereinheit 13 übertragen, die diese Signale geordnet speichert und zwar in typischen Blöcken von 200 Abtastungen, d.h. S₁, s , ..., S. Die Blöcke oder Rahmen von Abtastwerten *

Xu uUU * '

werden periodisch aus der Speichereinheit 13 entnommen, beispielsweise ebenfalls von einem Signal des Taktgehers 12 gesteuert und zu einer adaptiven Vorhersageschaltung 14, einem. Vorhersage-Parameterrechner und zu einem Subtrahiernetzwerk 16 übertragen.

Die adaptive Vorhers age schaltung 14 bearbeitet die angelieferten Signalabtastwerte, um den augenblicklichen Wert jedes Abtastwertes auf der Basis einer gewichteten Summation einer Anzahl von früheren Abtastwerten vorher zusagen. Die Vorhers ageoperation erfolgt auf der Basis Abtastwert zu Abtastwert, und die Vorhersageschaltung 14 wird periodisch mit einem neuen Rahmen von Abtastungen von der Speiche reinheit 13 beschickt. Eine für die Verwendung in dem System gemäß der vorliegenden Erfindung geeignete adaptive Vorhersageschaltung ist beispielsweise in der US-PS 3 631 820 ausführlich beschrieben.

Zur Anpassung des sich konstant ändernden Charakters des Eingangssprachsignals, wird die adaptive Vorhers age schaltung 14 so gesteuert, daß sie sich an den laufenden Signalzustand anpasst. Es hat sich als genügend erwiesen, die Werte der verwendeten Parameter nach zu st'ellen, um die Vorher sage schaltung in Intervallen zu steuern, die mit der Grundwellenperiode des Signals vergleichbar sind. Da das exakte Grundwellenintervall nicht zur Verfugung steht (obwohl das Grundfrequenzausgangssignal des Systems in einer Rückkoppelanordnung zur Annäherung des Intervalls einer späteren Grundwellenperiode verwendet werden kann), ist eine Nachstellung der Parameterwerte in Intervallen von etwa der Zeit von 200 Abtastungen vollständig ausreichend. Dieses entspricht einem Zeitintervall von etwa 20 msek.

Der Vorhersage-Parameterrechner 15 bearbeitet so Sprachabtastwerte der Speichereinheit 13, um eine Folge von Parametersignalen a = a , a , ... a zu erzeugen, die periodisch zur Nachstellung \ & η

der Vorhers age schaltung 14 verwendet werden. Die Parameterwerte a werden so ausgewählt, daß sie den quadratischen Mittelwert-Vorhersagefehler des Systems minimal halten. Eine ausführliche Erläuterung der Beziehung der Parametersignale a zu dem Ein-

209883/087B

gangssignal, ihrer Erzeugung und die Art in der sie zur Steuerung der Vorhersageschaltung verwendet werden,, werden ausführlich in der obengenannten US-Patentschrift erläutert. Die Parametersignale des Vorhersage-Parameterrechners 15 werden noch vor dem Zeitpunkt erzeugt, zu dem ein Signalblock in der Vorhersageschaltung 14 verarbeitet wird., und zwar wegen der der Vorhersageoperation inhärenten Verzögerung. In typischer Weise werden die Parametersteuersignale innerhalb eines Intervalls erzeugt, daß der Zeit von annähernd 60 Abtastungen entspricht.

Die Abtastwerte, die von der adaptiven Vorhersageschaltung 14 erzeugt werden, werden in dem Subtrahiernetzwerk 16 von dem. tatsächlichen Wert der entsprechenden Signalabtastungen, die von der Speichereinheit 13 zu dem Subtrahiernetzwerk 16 übertragen werden, subtrahiert. Das sich ergebende Differenz signal repräsentiert den ' Fehler bei der Vorhersage des Signalwertes. Dieses Signal wird daher "Vorhersagefehler" genannt. Offensichtlich wird eine geeignete Verzögerung vorgesehen, beispielsweise für das Auslesen der Abtastwerte aus der Speichereinheit 13 oder bei ihrer Abgabe an das Subtrahierhetzwert 16, damit für die Vervollständigung der Vorhersageoperation genügend Zeit zur Verfügung steht. Natürlich werden

209RR3/n878

alle hier beschriebenen Operationen auf konventionelle Weise synchron ausgeführt.

Es ist für die genannten Operationen von Bedeutung, das die Signalabtastwerte weitgehend auf der Basis ihrer formanten Zugehörigkeit vorhergesagt werden. Vorhergesagte Signale stellen daher im wesentlichen die Formantstruktur des Eingangs signals dar. Da die vorhergesagten Signalwerte von den tatsächlichen Signalwerten subtrahiert werden, ist das Vorhersagefehlersignal am Ausgang des Subtrahiernetzwerkes 16 im wesentlichen frei von jeglicher formanten Information. Dennoch hat sich das Vorher sage fehler signal zur Bewahrung und Bezeichnung des Grundfrequenzcharakters des übertragenen Signals als notwendig erwiesen.

Die Vorhersagefehlersignale der Subtrahierschaltung 16 werden über das Tiefpassfilter 17 geleitet. Dieses Filter 17 besitzt eine relativ niedrige Grenzfrequenz, da die Sprachgrundfrequenz des anliegenden Signals im allgemeinen im unteren Bereich des Bandes liegt. Die Beseitigung höherer Frequenzanteile hilft bei der Isolation des Grundfrequenzsignals.

Gemäß der Erfindung werden die Positionen der individuellen Grund-

20988 3/0878

frequenzimpulse in dem übertragenen Signal dadurch bestimmt, daß die Abtastwerte lokalisiert werden, für die der Vorhersagefehler groß ist. Die von dem Filter 17 übertragenen Abtastwerte besitzen daher Amplituden, die der Differenz zwischen dem üb'ertragenen Signalabtastwert und dem vorher ge sagten Signal proportional sind. Es ist daher notwendig nur die Grundfrequenz des Vorhersage (Fehler)-Signäls zu suchen. Dieses kann mit jedem beliebigen Grundfrequenzdedektor 18 durchgeführt werden. Ein geeigneter Dedektor besteht aus einem Halbwellengleichrichter 19, der zur Aufrechterhaltung hur der positiven Spitze des Signals verwendet wird, um spätere Operationen zu vereinfachen. Das gleichgerichtete Signal wird dann zu dem Spitzenabtrenner 20 übertragen, der den größten Abtastwert in jedem Signalrahmen sucht. Derartige Spitzenabtrenner sind ansich bekannt und werden häufig in Grundfrequenzdedektoren verwendet, insbesondere in solchen des Cepstrumtyps. Auf diese Weise ermittelte Spitzensignale werden zu einem Schwellenwertdedektor 21 übertragen, der auf einen Pegel eingestellt ist bei dem kleinere Spitzen am Ausgang des Analysators unterdrückt werden. Der Schwellenwert ist so eingestellt, daß er in die festgestellten Waren Grundfrequenzspitzen, beispielsweise aus den Erfahrungswerten anpasst. Die sich ergebende

1 9

Folge von Grundfrequenzimpulsen ist für die Grundfrequenz oder Periode des anliegenden Sprachsignals indikativ und sie kann auf jede gewünschte Weise weiter verwendet werden.

Alternativ hierzu kann; wie von früher schon bekannt der Grundfre-. quenzdedektor einen Autokorrelator enthalten, dem ein Spitzenabtrenner und ein Schwellenwertdedektor nachfolgen.

Fig. 2 zeigt ein typisches Intervall des Sprachsignals. In der Zeile A ist ein stimmhaftes Sprachsegment gezeigt. Die Zeile B illustriert die Impulsfolge, die von dem Grundfrequenzdedektor 18 als Ausgangs signal des Analysators erzeugt wurde. In der Zeile C ist dagegen ein typisches stimmloses Sprachsegment dargestellt.

Um sicherzustellen, daß eine klare Unterscheidung zwischen stimmhaften und stimmlosen Signalsegmenten möglich ist, wird gemäß der Erfindung ein Stimmhaft-/Stimnalos-Unterscheidungssignal erzeugt. Hiernach basiert die Stimmhaft-/Stimmlos-Entscheidung auf dem Verhältnis des quadratischen Mittelwertes der Sprachabtastwerte zu dem quadratischen Mittelwert der Vorhersagefehlerabtastwerte. Es hat sich gezeigt, daß dieses Verhältnis für stimmlose Sprachab-

9883/0*78

schnitte beträchtlich kleiner ist als für stimmhafte Sprachabschnitte und zwar in typischer Weise um einen Faktor von etwa 10.

Daher werden die Sprachabtastwerte von dem Abtastwert zu. dem quadratischen Mittelwertnetzwerk 22 und die Vorhersagefehlerabtastwerte von dem Subtrahiernetzwerk 16 zu dem quadratischen Mittelwertnetzwerk 23 übertragen. Die Netzwerke für die Erzeugung eines Signals, das den Mittelwert der Folge von Abtastwerten proportional ist, sind ansich bekannt und sie werden häufig in Einrichtungen für die akustische Signalverarbeitung verwendet. Ein typisches Netzwerk enthält eine Einrichtung zur Erzeugung eines Signals, das dem Quadrat jedes Signalabtastwertes proportional ist, ein Addiernetzwerk für die Aufsummierung einer Folge von quadratischen Signalwerten und ein Teilernetzwerk für die Erzeugung eines Signals, das einen Durchschnittswert oder Mittelwert des auf summierten quadratischen Signals proportional ist.

Zwei Signale, jeweils dem quadratischen Mittelwert von Sprachabtastwerten und dem quadratischen Mittelwert der Vorhersagefehler Abtastwerte proportional, werden zu dent Teiler 24 übertragen,

20 9 8B37 Π8 78

der an seinem Ausgang ein Signal erzeugt, das dem Quotienten der beiden Signalwerte entspricht. Dieses quotienten Signal wird dann zu dem Schwellenwertdedektor 25 übertragen, der ein erstes Signal für Quotientenwerte größer als 10, als Angabe für ein stimmhaftes Signalintervall und ein zweites Signal für Quotienten kleiner als 10 erzeugt, das als Angabe für ein stimmloses Signalintervall dient. Die Ausgangs signale des Dedektors 25 können in jeder gewünschten Weise verwendet werden, um den Stimmcharakter des Eingangssignals anzugeben.

Die Einrichtung zur Grundfrequenzbestimmung gemäß der Erfindung verbessert zusammen mit der Stimmart Entscheidungseinrichtung weitgehend die Zuverlässigkeit, mit der zwei wichtige Sprachcharakteristiken bestimmt werden können. Diese verbesserte Zuverlässigkeit stammt in erster Linie von dem tatsächlichen Fehlen der Formantenstruktur in dem Signal zu dem Zeitpunkt, zu dem die Grundfrequenzmessung durchgeführt wird. Darüberhinaus ist der Grundfrequenzdedektor gemäß der Erfindung insbesondere für eine Anwendung in einem Sprachübertragung- oder Sprachanalysesystem geeignet, indem eine lineare Vorhersageeinrichtung verwendet wird. Für diesen Fall ist es offensichtlich, daß das Vorhersagefehlersignal

209883/0 878

das zu dem Subtrahiernetzwerk 16 übertragen wird, von der Vorhersageschaltung erzeugt wird, die bei der Kodierung der Sprachsignale verwendet wird.

Ferner ist es offensichtlich, daß das Stimme ntseheidungssignal im Zusammenhang mit anderen Kriterien verwendet werden kann, wie beispielsweise der spektralen Balance der niedrigen Frequenzen zu den höheren Frequenzen., um die Stimmhaft- /Stimmlos-Entscheidung noch zuverlässiger zumachen.

209883/087

Claims

PATENTANSPRÜCHE

1. ) Signalanalysator für die Bestimmung der Grundwellenperiode eines komplexen Signals, bei dem ein im wesentlichen die Formantstruktur eines komplexen Signals darstellendes Signal erzeugt wird, dadurch gekennzeichnet, das ein Subtrahiernetzwerk (16; Fig. 1) für die Subtraktion eines im wesentlichen die Formantstruktur darstellenden Signals (am Ausgang von 14) von einem komplexen Signal (am Ausgang von 13) zur Bildung eines Differenz signals vorgesehen ist und das die Grundfrequenz des Differenzsignals (in 18) bestimmt und als Angabe der Grundwellenperiode des komplexen Signals verwendet wird.

2. Signalanalysator nach Anspruch 1, dadurch gekennzeichnet, das eine adaptive Vorher sage schaltung (14; Fig. 1) vorgesehen ist, die ein Signal erzeugt, das für die Formantstruktur eines komplexen

209883/Π878

Signals repräsentativ ist.

3. Signalanalysator nach Anspruch 2,
dadurch gekennzeichnet,

das die adaptive Vorhers age schaltung (14; Fig. 1) eine Schaltung für die Absetzung der gerade vorliegenden Amplitude eines Sprachsignals in Relation zu vorhergehenden Amplituden des Sprachsignals enthält.

4. Signalanalysator nach einem oder mehreren der Ansprüche 1-3, dadurch gekennzeichnet,

das ein Schwellenwertdedektor (21; Fig. 1) vorgesehen ist, der auf Spitzenamplituden des Differenzsignals anspricht, um die Grundperiode des Differenz signals zu bestimmen, die eine Angabe der Grundperiode des komplexen Signals darstellt.

5. Signalanalysator nach einem oder mehreren der Ansrpüche 1-4, dadurch gekennzeichnet,

das ein erstes quadratisches Mittelwertnetzwerk (22; Fig. 1) für die Eürzeugung eines ersten Signals vorgesehen ist, das proportional '/,u eiern quadratischen Mittelwert der Sprachwelle ist, das ferner ein /.Wt-iu'·. quadratisches Mittelwertnetzwerk (23) vorgesehen ist, da.; ein

20'JH 83/0878

Signal erzeugt, das dem quadratischen Mittelwert des Differenzsignals proportional ist und das eine Vergleichsschaltung (Teiler
24) vorgesehen ist, der ein Signal erzeugt, daß dem Verhältnis des
ersten quadratischen Mittelwertsignals zu dem zweiten quadratischen Mittelwertsignal proportional ist.

6. Signalanalysator nach einem oder mehreren der Ansprüche 1-5, dadurch gekennzeichnet,

das die Werte des Verhältnisses der quadratischen Mittelwertsignale, die größer sind als ein vorgegebener Schwellenwert, zur Angabe verwendet werden, daß das Sprachsignal ein stimmhaftes ist und das die Werte des Verhältnisses der quadratischen Mittelwertsignale, die kleiner sind, als der vorgegebene Schwellenwert zur Angabe dienen, daß das Sprachsignal stimmlos ist.

2 0 9 B R 3 / Π 8 7 R