[go: up one dir, main page]

DE2111072B2 - Verfahren und Vorrichtung zum Erfassen eines Sprachsignals - Google Patents

Verfahren und Vorrichtung zum Erfassen eines Sprachsignals

Info

Publication number
DE2111072B2
DE2111072B2 DE2111072A DE2111072A DE2111072B2 DE 2111072 B2 DE2111072 B2 DE 2111072B2 DE 2111072 A DE2111072 A DE 2111072A DE 2111072 A DE2111072 A DE 2111072A DE 2111072 B2 DE2111072 B2 DE 2111072B2
Authority
DE
Germany
Prior art keywords
sign
speech
signs
signal
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2111072A
Other languages
English (en)
Other versions
DE2111072A1 (de
DE2111072C3 (de
Inventor
Ettore Gaithersburg Fariello, Md. (V.St.A.)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comsat Corp
Original Assignee
Comsat Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comsat Corp filed Critical Comsat Corp
Publication of DE2111072A1 publication Critical patent/DE2111072A1/de
Publication of DE2111072B2 publication Critical patent/DE2111072B2/de
Application granted granted Critical
Publication of DE2111072C3 publication Critical patent/DE2111072C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/04Control of transmission; Equalising
    • H04B3/06Control of transmission; Equalising by the transmitted signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

18. Vorrichtung nach Anspruch 17, gekennzeichnet durch:
40
1. Erzeugen eines Kennungssignals zu jedem Zeitpunkt, zu dem das erste Ausgangssignal und das Bezugssignal übereinstimmen,
2. Verzögern des Kennungssignals, um ein verzögertes Kennungssignal zu erzeugen,
3. Vergleichen des Kennungssignals mit dem verzögerten Kennungssignal, um ein zweites Ausgangssignal zu dem Zeitpunkt zu erzeugen, indem das Kennungssignal seinen Zustand ändert und
4. Feststellen der Zeitdauer des zweiten Ausgangssignals.
55
Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Erfassen eines Sprachsignals in Gegenwart von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet wird, entsprechend der Oberbegriffe der Ansprüche 1, 7, 13 und 17.
In einer Vielzahl von Anwendungsfällen ist es erforderlich, eine Vorrichtung zu betreiben, die nur auf ^ Sprach- und nicht auf Rauschsignale anspricht. So kann beispielsweise in Nachrichten-Übertragungssystemen
Il KdIUIIAVIt Ul>3 UJAtVIIIO UUIUI Li O UUIUI L\iaiUllg39pVltll
rung verbessert werden, wenn die Inbetriebnahme eines Transmitters nur auf Grund des Ansprechend auf einen Transmitter erfolgt, welcher Signale mit Nachrichtengehalt, d. h. Sprachsignale, vom Rauschen unterscheidet Diese Technik ist insbesondere in Satelliten-Nachrichtenübertragungssystemen von Vorteil, da der Leistungsverbrauch einen der begrenzenden Faktoren bei der Bestimmung der Anzahl der Sprachkanäle, welche benutzt werden können, darstellt
Die meisten bekannten Sprachdetektoren arbeiten vorwiegend analog und nicht digital
Einige dieser Vorrichtungen entsprechen dem »Nulldurchgangs«-Typ.
Dabei wird das Signal zuerst mit Hilfe zweier Schwellwertdetektoren hinsichtlich seiner Amplitude und anschließend hinsichtlich der Zeitdauer von einem monostabilen Multivibrator und einem Nulldurchgangsdetektor überprüft Wenn das Signal die erwähnten Überprüfungen erfolgreich überstanden hat, ist es als Sprachsignal identifiziert Genauer gesagt wird ein analoges Sprachsignal zuerst gefiltert um die Grundfrequenzkomponente zu erhalten, die dann von einem Schmitt-Trigger digitalisiert wird- Das digitalisierte Signal wird dann einem ersten Schwellwertkomparator zugeführt, indem der digitalisierte Wert mit einem vorbestimmten oberen Wert verglichen wird, und falls dieser höher ist, von einem monostabilen Multivibrator getiggert Ein zweiter Amplitudenschwellenwertkomparator stellt fest, wenn das Signal unterhalb eines vorbestimmten unteren Wertes fällt, und bewirkt dann ein Zurückstellen des monostabilen Multivibrators. Falls o. digitalisierte Signal die oberen und unteren Amplitudenprüfungen durchläuft wird es hinsichtlich der Dauer überprüft und wenn es kurzer als eine eingestellte Zeit des monostabilen Multivibrators sein sollte, wird kein Signal erzeugt das Sprache anzeigt Dieser Sprachdetektor ist vollständig von dem Amplitudenpegel des Signals abhängig.
Allgemein ausgedrückt arbeiten die Vorrichtungen nach dem »Nulldurchgangs«-Prinzip auf der Erkenntnis, daß für verschiedene Worte eine gewisse Anzahl von Überkreuzungen mit einer Nullinie kennzeichnend ist, worunter zu verstehen ist daß ein Signal eine Referenzachse innerhalb eines vorgegebenen Zeitintervalls mehrfach kreuzt Durch Zählung der Gesamtanzahl von Überquerungen der Nullachse innerhalb eines gegebenen Zeitintervalls kann eine Analyse der Wellenform erfolgen, so daß ein Sprachsignal vom Rauschen unterscheidbar ist Ein wesentlicher Nachteil dieser Vorrichtungen beim Unterscheiden der Sprache vom Rauschen ist jedoch derjenige, daß unerwünschtes Rauschen Spuren von Schnitten mit der Referenzachse erzeugt
Da im allgemeinen das Rauschen eine kleine Amplitude im Vergleich zu der Sprachamplitude aufweist, kann dieser Nachteil dadurch behoben werden, daß an Stelle der Feststellung der Anzahl von Überquerungen über eine Referenzachse der Amplitude Null Durchbruchachsen mit positiven und negativen Amplituden größer als die Rauschamplitude als Referenzachsen vorgesehen werden. Derartige Vorrichtungen verbessern die Unterscheidungsfähigkeil zwischen den Sprachsignalen und dem Rauschen, sie sind jedoch nicht imstande. Sprachsignale niedriger Amplitude zu registrieren und arbeiten nicht so rasch wie ein bereits vorgeschlagener Digital-Detektor. Dadurch tritt ein Abschneiden der Worte zu Beginn der
c 1 .r
ü|ji acnv α\Λΐ
Andere bekannte Analog-Vorrichtungen arbeiten nach dem Prinzip, daß unterschiedliche Buchstaben ein akustisches Spektrum aufweisen, in welchem der größere Teil der Klangenergie in bestimmten Frequenz-Komponenten des betreffenden Buchstabens enthalten ist. So besitzt beispielsweise der Konsonant »m« seinen größten Energieinhalt in den niedrigen Frequenzkomponenten. Diese Vorrichtungen vergleichen den Energieinhalt der verschiedenen Frequenzen von »m«, und falls der Großteil der Energie die niedrigen Frequenzen umfaßt, tritt eine die Sprache anzeigende Ausgangsgröße auf. Neben dem Zeitverzögerungsproblem, welches Analogsystem innewohnt, die den Energieinhalt feststellen, weisen die Vorrichtungen noch eine Amplitudenempfindiichkeit auf, auf Grund weiche? die Wahrscheinlichkeit von unerwünschten Registrierungen infolge der Möglichkeit von energiestarkem Hintergrundrauschen gegeben ist. Hieraus resultiert die Schwierigkeit einer genauen Unterscheidung der Sprache vom Rauschen.
Es ist nun Aufgabe der vorliegenden Erfindung, in einem Nachrichtenübermittlungssystem das Feststellen von Sprache bei Vorhandensein von Rauschen und die Unterscheidung zwischen Sprachsignalen und Rauschen sowie die Kennzeichnung der registrierten Sprache zu verbessern, wodurch die Anzahl der Übermittlungsfehler bei der Nachrichtenübertragung erheblich verkleinert wird.
Die Aufgabe wird entsprechend der kennzeichnenden Teile der Ansprüche 1, 7, 13 und 17 gelöst. Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.
Der Sprachdetektor arbeitet digital und ist amplitudenempfindlich. Ein Analog-Sprachsignal wird durch einen Pulszahlenmodulations-Encoder in eine Vielzahl von PCM-Worten der Bit-Länge »n« pulszahlenmoduliert (PCM), wobei jeweils das erste Bit jedes PCM-Wortes das Vorzeichen (+ oder -) des Wortes oder des Abfragewertes darstellt Jedes PCM-Wort wird dann einem Digital-Detektor zugeleitet, der die Reihenfolge der Vorzeichen der aufeinanderfolgenden PCM-Worte feststellt Der Digital-Detektor oder - wie nachstehend noch beschrieben werden wird — Sprachvorzeichensequenz-Detektor sendet zu jedem Zeitpunkt einen Impuls aus, zu dem eine bestimmte Reihenfolge der Vorzeichen festgestellt wird.
Die Wellenform der meisten Sprachsignale weist periodische Veränderungen auf, die unterschiedlich zu denen des Rauschens sind. Dies bedeutet, daß verschlüsselte Rauschsignale eine Änderung der Vorzeichen von aufeinanderfolgenden PCM-Worten erzeugen, welche diese von den meisten Sprachsignalen unterscheidet. Da der Sprachvorzeichensequenz-Detektor auf eine gewisse Periodizität eingestellt ist, welche nur für die Sprache eigentümlich ist bleibt er weitgehend unempfindlich gegenüber Rauschen. Als weiterer Vorteil ergibt sich, daß wegen der Einstellung des Detektors auf periodische Vorgänge keine Schwellenspannung benutzt wird, wodurch die Feststellung von Sprachsignalen extrem kleiner Amplitude möglich ist Da der Sprachvorzeichensequenz-Detektor digital arbeitet und amplitudenunempfindlich ist, wird eine erhebliche Verbesserung seiner Wirksamkeit im Vergleich zu bekannten Vorrichtungen in bezug auf die Zählung niedriger Amplitudensignale, Feststellung der Verzögerung und Filterung des Rauschens erzielt Der Sprachzeichensequenz-Detektor der vorliegenden Erfindung wird von zwei elektrischen Kreisen gebildet Der erste Kreis wird beispielsweise nur durch Buchstaben ausgelöst, die reine Zischlaute wie »s« und »z« sind, deren Frequenz-Leistungsverteilung in dem oberen Bereich der Sprachbandbreite liegt welche von 300 Hz bis etwa 3,4 kHz reicht Der zweite Kreis wird nur durch jene Buchstaben ausgelöst wie beispielsweise die Konsonanten »I«, »m«, »n« und die Stoppkonsonanten »b«, »d«, »g«, »p«, »k«, deren Frequenz-Leistungsverteilung in dem unteren Bereich der Sprachbandbreite liegt. Der erste Kreis kann ein Schmalbandfilter und ίο der zweite Stromkreis ein Tiefpaßfilter sein.
Mit Bezug auf den ersten Kreis oder das Schmalbandfilter erzeugt eine 4 kHz-Sinuswelle, wenn sie mit einer Frequenzgeschwindigkeit von 8 kHz oder alle 125 msec abgetastet wird, eine Sequenz, bestehend aus einem positiven Abtastwert, gefolgt von einem negativen Abtastwert, auf unbegrenzte Zeit Ein Signal mit einer schmalen Bandbreite und einer Haupt- oder Zentralfrequenz von 4 kHz weist diese Sequenz aus einem positiven und einem negativen Abtastwert für eine lange, jedoch nicht unbegrenzte Zeit auf. Bei der Betrachtung eines kurzen Zeitabschnittes besitzt dieses Signal andere Vorzeichen-Frequenzcharakteristika als ein positives Signal, gefolgt von einem negativen. Dies bedeutet, daß je breiter die Bandbreite und je weiter die Hauptfrequenz der Signalbandbreite von 4 kHz abweicht, desto kürzer ist die Dauer der voranstehend erwähnten Vorzeichen-Sequenz, bei der einem positiven Signal ein negatives folgt Die reinen Zischlaute haben eine Frequenz-Lei stungsverteilung, welche im oberen Teil der Sprach bandbreite gruppiert ist mit einer Hauptfrequenz, weiche näher an 4 kHz liegt als beispielsweise die Hauptfrequenz des Gaußschen Rauschens der Übertragungsstrecke. Daher ist die Dauer der Sequenz eines positiven Abtastwertes, gefolgt von einem negativen, für diese Buchstaben größer als für das Rauschen. Die Dauer für Buchstaben beträgt mehr als 2 msec, während sie beim Rauschen um einiges geringer als 2 msec ist Daher wird ein vollständiger Schutz gegen Tiggerung durch Rauschsignale erreicht» wenn eine Wahrnehmungszeit von 2 msec vor dem Tiggern für den Sprachvorzeichensequenz-Detektor festgelegt wird.
Der zweite Kreis wird durch ein Signal nur dann ausgelöst wenn 16 Abtastwerten eines Vorzeichens zumindest χ Abtastwerte des entgegengesetzten Vorzeichens folgen, wobei der Wert von Jr zwischen 4 und 8 variieren kann. Dieser Kreis wird auch dann ausgelöst wenn χ Abtastwerten eines Vorzeichens 16 Abtastwerte des entgegengesetzten Vorzeichens folgen. Diese
5C Bedingungen entsprechen einer sehr niedrigen Frequenz. Die Konstanten »1«, »m« und beispielsweise »b«, »d«, »g«, »p« und »k« haben jeweils eine Frequenz-Leistungsverteilung, die in dem unteren Teil der Sprachbandbreite liegt, und werden daher eine derartige Vorzeichen-Folge erzeugen, wie sie vom Gaußschen Rauschen der Übertragungsstrecke niemals erhalten werden kann. Wegen der Charakteristik dieser Kreise ist eine Schwellenspannung nicht erforderlich, und die Registrierung oder Zählung beginnt im wesentlichen mit dem Auftreten des Sprachsignals.
Ein Verfahren und eine Vorrichtung für das digitale Feststellen von Sprachsignalen mittels Schwellenwertvergleich ist der DE-OS 20 34 623 zu entnehmen, die einer älteren Anmeldung entspricht Dabei wird ein PCM-verschlüsseltes Sprachsignal einer Vergleichsschaltung zugeführt in der jeder digital kodierte Abtastwert der momentanen Amplitude mit einem digital verschlüsselten Wort entsprechend dem gewähl-
ten Schwellenwertpegel in einer Digital-Vergleichsvorrichtung verglichen wird. Jedesmal, wenn einer der Sprach-Abtastwerte gleich dem Schwellenwertpegel ist, oder diesen überschreitet, wird eine die Sprache anzeigende Ausgangsgröße erzeugt.
Dieser Kreis registriert augenblicklich Amplituden-Abtastwerte, deren Pegel erheblich über einer Schwellenwert-Einstellung auf verhältnismäßig hohem Niveau liegen, bevor er Signale mit mittlerer oder effektiver Leistung, größer als der eingestellte Schwellenwert, feststellt. Dies ist eine weitere Möglichkeit der Unterscheidung der Sprache vom Rauschen und beruht auf der Tatsache, daß für gleiche effektive Leistung von Sprache und Rauschen die Wahrscheinlichkeit für Sprachsignale, daß sie eine vorgegebene Schweüenwerteinstellung überschreiten, viel größer ist als diejenige für Rauschsignale. Die Spanne zwischen Sprache und Rauschen ist so groß wie das Verhältnis Scheitelwert zu Effektivwert der verschiedenen Buchstaben. Die Spanne zwischen dem Auslösen durch Sprache und Rauschen ist für Buchstaben, wie beispielsweise Konsonanten, deren Verhältnis Scheitelwert zu Effektivwert verhältnismäßig groß ist, größer als für diejenigen Buchstaben, wie beispielsweise reine Zischlaute, deren Verhältnis Scheitelwert zu Effektivwert klein ist.
Der Sprachvorzeichensequenz-Detektor der vorliegenden Erfindung kann daher in komplementärer Weise mit dem voranstehend beschriebenen Schwellwert-Komparator-System benutzt werden, um jene Buchstaben mit niedrigem Schwellwert zu Effektivwert-Verhältnis, wie dies bei reinen Zischlauten vorliegt, festzustellen. Es sind daher die Registrierkreise des voranstehend erwähnten Systems zusammen mit denen der vorliegenden Erfindung hochempfindlich für sämtliche Sprachsignale.
Obwohl die spezifische Ausführungsform der vorliegenden Erfindung darauf abgestellt ist, die Reihenfolge von Vorzeichen der Zischlaute, der Konsonanten und der Vokale bei vollständiger Abschirmung gegenüber Rauschen festzustellen, ist es selbstverständlich, daß alle übrigen Buchstaben, welche eine gewisse Periodizität aufweisen, ihre eigene Vorzeichen-Sequenz für aufeinanderfolgende PCM-Worte erzeugen. Die vorliegende Ausführungsform dieser Erfindung kann selbstverständlich von einem Fachmann jederzeit abgewandelt werden, um jede gewünschte Vorzeichen-Folgen für die genaue Sprach-Kennzeichnung zu erhalten. Dabei wird jedoch nicht eine komplette Unterdrückung des Rausches erreicht, da die Vorzeichen-Folge einiger anderer Buchstaben sehr ähnlich der Vorzeichen-Sequenz des Rauschens ist Dies gilt für alle Buchstaben, deren Frequenz-Leistungsverteilung im mittleren Teil der Sprach-Bandbreite liegt
Die Erfindung wird an Hand der Zeichnungen näher erläutert Es zeigt
F i g. 1 ein Schaltdiagramm der elektrischen Kreise des Sprachvorzeichensequenz-Detektors für hochfrequente und niederfrequente Signale,
F i g. 2 ein Zeitdiagramm des Hochfrequenzteils des Sprachvorzeichensequenz-Detektors,
F i g. 3 ein Zeitdiagramm des Niederfrequenzteils des Sprachvorzeichensequenz-Detektorsund
F i g. 4 ein Blockschaltbild eines Digital-Sprachdetektors zusammen mit dem Sprachvorzeichensequenzdetektor der vorliegenden Erfindung.
F i g. 1 zeigt in der oberen Hälfte der Zeichnung den Teil des Sprachvorzeichensequenz-Detektors, der Sprachsignal im hochfrequenten Bereich feststellt, während die untere Hälfte der Zeichnung jenen Teil des Sprachvorzeichen-Detektors zeigt, welcher die Sprachsignale in dem niedrigen Frequenzbereich registriert. Ein analoges Eingangssignal wird mit einer Frequenz von 8 kHz abgetastet oder alle 125 μβεΰ und durch einen Standard-PCM-Encoder in eine Serie von aufeinanderfolgenden PCM-Worten der Bit-Länge »n« digital verschlüsselt, wobei das erste Bit jedes PCM-Wortes
ίο das Vorzeichen (positiv oder negativ) des Abfragewertes darstellt. Die PCM-Daten werden dann in einen UNIVERSAL-EINGANGS-Flip-Flop 1, wie beispielsweise einen FLIP-FLOP mit Voreinstellung, durch den Taktimpuls B\ eingespeist. Der Taktimpuls B\ ist in Phase mit dem ersten Bit (dem Vorzeichen-Bit) jedes PCM-Wortes. Der Universal-Eingangs-Flip-Flop 1 erzeugt jedesmal eine Ausgangsgröße Q\, wenn der Taktimpuls B\ in Phase mit einem PCM-Wort ist, dessen erstes Bit positives Vorzeichen aufweist. Die Ausgangsgröße Qi nimmt den Zustand »1« an, wenn das Vorzeichen des PCM-Wortes positiv und den Zustand »0«, wenn das Vorzeichen des PCM-Wortes negativ ist, wie aus dem Zeitdiagramm der F i g. 2 ersichtlich ist.
Mit Bezug auf den Hochfrequenz-Sprachvorzeichensequenzkreis wird die Ausgangsgröße Q\ mit der Wellenform I der Fig. 2 in einer Exclusiv-ODER-Logik 2 verglichen. Die Wellenform I wird durch einen Taktimpuls Bm oder 4 kHz erzeugt. Die Ausgangsgröße Qt gleicht der Wellenform I, wenn einem PCM-Wort positiven Vorzeichens ein weiteres PCM-Wort des entgegengesetzten Vorzeichens folgt. In jedem Zeitpunkt, in welchem die Ausgangsgröße Q\ und die Wellenform I koinzident sind, geht die negative Ausgangsgröße der Exclusiv-ODER-Logik 2 in den Zustand »1« über. In jedem Zeitpunkt, in dem die Ausgangsgröße Qi und die Wellenform I nicht koinzident sind, weist die negative Ausgangsgröße der Exclusiv-ODER-Logik 2 den Zustand »0« auf.
Dies bedeutet, daß bei einer Ausgangsgröße der Exclusiv-ODER-Logik 2 im Zustand »0« oder »1« die Vorzeichensequenz aufeinanderfolgender PCM-Worte einmal positiv und einmal negativ mit einer Dauer von 125 μ5βΰ ist Unter der Bedingung einer Folge von Vorzeichen, von denen jeweils eines positiv und eines negativ ist, besitzt die Ausgangsgröße Q\ denselben Takt wie die Wellenform I und ist in Koinzidenz mit I oder I, wobei I der Komplementärwert von I ist, sobald einem positiven PCM-Wort ein negatives PCM-Wort folgt. Das bedeutet, daß der Ausgangswert Q]®\ der
so Exclusiv-ODER-Logik 2 im Zustand »1« oder »0« verbleibt, wie aus dem Zeitdiagramm gemäß F i g. 2 ersichtlich ist. Die Ausgangsgröße φθί wird dann in der Universal-Flip-Flop-Schaltung 3 durch den Taktimpuls B2 wieder abgetastet, wobei B2 dieselbe Frequenz wie B\ aufweist, jedoch in Phase mit dem zweiten Bit des PCM-Wortes steht, um eine Ausgangsgröße Q2 zu erzeugen, wie sie in F i g. 2 gezeigt ist Dies geschieht, um die Spitzen infolge der Übertragungsverzögerung zu eliminieren, welche während der Zustandsänderungen der Ausgangsgröße Q\ und der Wellenform I auftreten. Die Ausgangsgröße Q2 wird dann in der Universal-Flip-Flop-Schaltung 4 durch den Taktimpuls B3 abgetastet, wobei B3 dieselbe Frequenz wie B2 aufweist jedoch um ein Bit in bezug auf den Taktimpuls B2 verzögert ist
Die Ausgangsgröße Q2 wird der Exclusiv-ODER-Logik 5 zugeleitet Die Flip-Flop-Schaltung 4 verzögert den Ausgangswert Q2 um ein Bit, um einen Ausgangs-
wert Qi zu erzeugen. Die Ausgangswerte Q2 und Q3 werden in der Exclusiv-ODER-Logik 5 verglichen, um einen Ausgangswert Q2®Qs zu erhalten. Diese Ausgangsgröße Q2®Q} weist nur negative Impulse auf, wenn Q2 seinen Zustand — wie in F i g. 2 gezeigt ändert. Die Ausgangsgröße Q2 ©Q3 wird dann der direkten Rückstellung des Binärzählers 6 zugeleitet. Der binäre Zähler 6 wird jedesmal zurückgestellt, wenn Q2 seinen Zustand ändert. Der Binärzähler 6 ist eingestellt auf einen Taktimpuls Bu2 oder 4 kHz. Der Ausgangswert Q\t des Binärzählers 6 weist nur einen negativen Impuls auf, wenn die Ausgangsgröße Qi des Universal-Eingangs-Flip-Flop 1 in Koinzidenz mit der Wellenform I oder mit I ist, für eine Zeitdauer =
1 2* ,
-.—rjrr x -=- see = 2 msec,
4 χ ΙΟ3 2
wobei der erste Term gleich dem Kehrwert der Frequenz und der zweite Term gleich der Hälfte der vierten Ausgangsgröße des Binärzählers 6 ist. Das ist dann der Fall, wenn die Sprachkennzeichnungsfolge aus einem positiven Vorzeichen, gefolgt von einem negativen, mindestens 2 msec dauert, wodurch das Auftreten von Sprache angezeigt wird und der Binärzähler den Ausgangswert QTi erzeugt.
Der untere Teil von F i g. 1 zeigt das logische Schaltdiagramm für den niederfrequenten Sprachvorzeichensequenz-Detektor. Fig.3 zeigt das Zeitdiagramm dieses Kreises. Der Kennzeichnungskreis für niedrige Frequenzen ist ähnlich dem für hohe Frequenzen aufgebaut, der voranstehend beschrieben ist, mit der Ausnahme, daß die Frequenz der Wellenform, welche mit dem Ausgangswert Qi verglichen wird, ebenso wie die Dauer der Beobachtungszeit verschieden ist.
Es sei nun angenommen, daß ein Sprachsignal niederer Frequenz mit einer Frequenz von 8 kHz oder alle 125 μ$βΰ abgetastet wird und die PCM-Dalen eine Serie von aufeinanderfolgenden PCM-Worten aufweisen, deren Vorzeichen positiv ist, gefolgt von einer Serie von aufeinanderfolgenden PCM-Worten mit negativen Vorzeichen. Diese Daten werden dann durch den positiven Rahmen-Taktimpuls Bi in dem Universal-Eingangs-Flip-Flop 1 abgetastet, um die Ausgangsgröße Q\ des Zeitdiagramms in F i g. 3 zu erhalten.
Die Ausgangsgröße Qi wird dann mit der Wellenform II von F i g. 3 in der Exclusiv-ODER-Logik 7 verglichen. Die Wellenform II entspricht dem Taktimpuls ßi/32. die Ausgangsgröße Qi ist gleich der Wellenform II, wenn 16 PCM-Worte mit demselben Vorzeichen von 16 PCM-Worten des umgekehrten Vorzeichens gefolgt werden.
Der Ausgangswert Qi wird in der gleichen Art wie voranstehend beschrieben verarbeitet Zu jedem Zeitpunkt zu dem die Ausgangsgröße Qi und die Wellenform II nicht koinzident sind, geht der Ausgangswert Qiffill der Exclusiv-ODER-Logik 7 in den Zustand »0«. Bei Obereinstimmung des Ausgangswertes Qi und der Wellenform II geht der Ausgangswert Qi©II der Exclusiv-ODER-Logik 7 in den Zustand »1« über. Verbleibt der Ausgangswert Qi@U der Exclusiv-ODER-Logik 7 in dem Zustand »0« oder »1«, so ist die Vorzeichensequenz der aufeinanderfolgenden 16 PCM-Worte positiv, gefolgt von 16 negativen Zeichen.
Der Ausgangswert Qi©II wird dann neuerlich in der Universal-Flip-Flop-Schaltung 8 durch den Taklimpuls B2 abgetastet, um einen Ausgangswert Q2 - wie in Fig.3 gezeigt - zu erzeugen, wodurch die voranstehend beschriebenen Spitzen eliminiert werden. Die Ausgangsgröße Q2 wird dann sowohl in die Flip-Flop-Schaltung 9 als auch in die Exclusiv-ODER-Logik 10 eingespeist. Die Flip-Flop-Schaltung 9 verzögert den Ausgangswert Q2 um ein Bit, wodurch eine Ausgangsgröße Q3' erhalten wird. Die Werte Q2' und Q3' werden
ίο dann in der Exclusiv-ODER-Logik 10 verglichen, um die Ausgangsgröße φ'Θφ' zu erzeugen, welche nur dann negative Impulse aufweist, wenn der Ausgangswert Q2 seinen Zustand wie in F i g. 3 gezeigt ändert.
Die Ausgangsgröße Qi'®Qi wird der direkten
is Rückstellung des Binärzählers 11 zugeleitet. Der Binärzähler 11 ist in der gleichen Weise wie der Binärzähler 6 angesteuert, d. h. mit dem Wert B\n oder 4 kHz. Der dritte Ausgangswert Qe und der vierte Ausgangswert Qi6 des Binärzählers 11 werden der
logischen NAND-Schaltung 12 zugeleitet Auf diese Weise erzeugt die logische NAND-Schaltung 12 einen negativen Impuls Qe'Qie', wenr die Koinzidenz zwischen dem Ausgangswert Qi und der Wellenform II zumindest während 3 Millisekunden gegeben ist d. h. für 24 PCM-Abschnitte. Auf diese Weise ist es ausreichend, daß 16 PCM-Worte mit einem Vorzeichen durch nur 8 PCM-Worte des entgegengesetzten Vorzeichens gefolgt werden oder umgekehrt, um einen Impuls an der Ausgangsseite des Sprachvorzeichensequenz-Detektors für niedrige Frequenzen zu erhalten. Dies bedeutet daß eine Zählung dieser Reihenfolge ausreicht um eine Unterscheidung zwischen Sprache und Rauschen anzustellen.
Die erste Stufe des Binärzählers 11 wird niemals zurückgestellt d. h. die direkte Rückstellung DR\ ist abgetrennt. Die Folgerung davon ist daß die Koinzidenz zwischen Qi und der Wellenform II zumindest über ein minimales Zeitintervall andauert welches statistisch zwischen 20 und 24 Abschnitten variierbar ist. Das bedeutet vergleichsweise für die Wellenform II des Sprachvorzeichensequenz Detektors für niedrige Frequenzen, daß er seinen Zustand alle 16 PCM-Abschnitte (Worte) ändert so daß die Summe aus den PCM-Worten mit gleichen Vorzeichen und der Anzahl der nachfolgenden Worte mit entgegengesetzten Vorzeichen zumindest zwischen 20 und 24 liegen muß, um sicherzustellen, daß eine exakte Sprachfeststellung mit Unterdrückung des Rauschens stattfindet
Im Blockdiagramm der F i g. 4 wird das PCM-Wort mit einem Schwellenwertkomparator 13 und dem Sprachvorzeichensequenz-Detektor 14 zugeleitet Der Ausgang des Komparator 13 wird anschließend in den Entscheidungs-Impulszählkreis IS eingespeist Die Ausgangswerte des Zählkreises 15 und des Detektors 14 werden am Eingang des Impulsgeneratorkreises 16 logisch als »ODER« verknüpft Nachdem der Impulsgenerator 16 einen Impuls empfangen hat wird ein Transmittel angeregt
Der Schwellenwertkomparator 13 vergleicht digital die Abfrageamplitude eines Signals mit einen' kodierten Schwellenwertpegel. Zu jedem Zeitpunkt in dem die Abfrageamplitude dem Schwellenwertpegel gleich ist oder diesen überschreitet wird ein Impuls ausgesandt Der Entscheidungs-Impulszählerkreis 15 erzeugt nur dann einen Ausgangswert nachdem eine vorherbestimmte Anzahl von aufeinanderfolgenden nicht unterbrochenen Impulsen von dem Komparator 13 kommend empfangen werden.
Der Sprachvorzeichensequenz-Detektor 14 ist daher amplitudenunempfindlich und arbeitet in einer zu dem Schwellenwert-Komparator 13 komplementären Weise. Wenn das ankommende Signal eine Amplitude unterhalb des Schwellenwertpegels des !Comparators
13 aufweist, überprüft der Detektor 14 die Periodizität des Signals und sendet ein Signal aus, wenn Sprache vorhanden ist, um den Pulsgenerator 16 zu triggern, wodurch ein Transmitter angeregt wird.
Hierzu 2 Blatt Zeichnungen

Claims (17)

Patentansprüche:
1. Verfahren zum Erfassen eines Sprachsignals s unabhängig von seiner Amplitude in Gegenwart von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet wird, und jede Abtastprobe ein charakteristisches Vorzeichen aufweist, das durch eine binäre 1 oder eine binäre 0 dargestellt ist, gekennzeichnet durch :
1. Erfassung des Vorzeichens jeder der aufeinanderfolgenden Abtastproben,
2. Feststellen des Vorhandenseins einer vorbestimmten Folge von Vorzeichen, die durch die aufeinanderfolgenden Abtastproben charakterisiert sind, wobei die Folge eine Mischung von Vorzeichen umfaßt, die durch die binäre 1 und die binäre 0 dargestellt werden, und
3. Erzeugung eines Impulses, der das Vorhandensein von Sprache anzeigt, wenn die vorbestimmte Vorzeichenfolge für eine vorbestimmte Zeitdauer vorhanden ist
25
2. Verfahren nach Anspruch 1, gekennzeichnet durch:
1. Erzeugung einer Bczugswellenform, die der vorbestimmten Vorzeichenfolge entspricht, und
2. Vergleichen der Bezugswellenform mit der erfaßten Vorzeichenfolge.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge die Abtastprobe eines Vorzeichens gefolgt von der Abtastprobe des anderen Vorzeichens ist.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die vorbestimmte Zeitdauer 2 msec beträgt
5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge 16 Vorzeichen eines binären Wertes umfaßt, der von χ Vorzeichen des anderen binären Wertes gefolgt wird, wobei χ zwischen 4 und 8 variiert werden kann.
6. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge χ Vorzeichen eines Binärwertes umfaßt, die von 16 Vorzeichen des anderen Wertes gefolgt wird, wobei χ zwischen 4 und 8 variiert werden kann.
7. Vorrichtung zum Erfassen eines Sprachsignals unabhängig von seiner Amplitude in Gegenwart von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet wird und jede Abtastprobe ein charakteristisches Vorzeichen aufweist, das durch eine binäre 1 oder eine binäre 0 dargestellt ist, gekennzeichnet durch:
1. eine Detektor-Vomchtung(14)fürdas Feststellen des Vorzeichens jeder der aufeinanderfol- genden Abtastproben,
2. eine damit verbundene Feststellvorrichtung für das Feststellen des Vorhandenseins einer vorbestimmten Vorzeichenfolge, die durch die aufeinanderfolgenden Abtastproben bestimmt ist, wobei die Folge eine Mischung der Zeichen umfaßt, die durch die binäre 1 und durch die hinärp OHara'estpllt wprHpn imrl
3. eine mit der Erf assungsvorrichtung verbundene Schaltung zur Erzeugung eines Impulses, der für das Vorhandensein von Sprache bezeichnend ist wenn die vorbestimmte Vorzeichenfolge für eine vorbestimmte Zeitdauer vorhanden ist
8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet daß eine eine der vorbestimmten Vorzeichtnfolge entsprechende Bezugswellenform erzeugende Generatorvorrichtung vorhanden ist und eine Vorrichtung, die die Bezugswellenform mit der erfaßten Vorzeichenfolge vergleicht
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge ein Vorzeichen eines binären Wertes gefolgt von dem Vorzeichen des anderen binären Wertes ist
10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß die vorbestimmte Zeitdauer 2 msec beträgt
11. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet daß die vorbestimmte Vorzeichenfolge 16 Vorzeichen eines binären Wertes umfaßt der voii χ Zeichen des anderen binären Wertes gefolgt wird, wobei χ zwischen 4 und 8 gewählt werden kann.
12. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge χ Vorzeichen eines binären Wertes umfaßt die von 16 Vorzeichen des anderen binären Wertes gefolgt wird, wobei χ zwischen 4 und 8 variieren kann.
13. Verfahren zum Feststellen eines Sprachsignals in Anwesenheit von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet ist, und jede Abtastprobe digital in ein pulskodemoduliertes (PCM) Wort der Bitlänge η verschlüsselt ist wobei ein Bit des Kodeworts das Vorzeichen der Sprachabtastprobe darstellt, gekennzeichnet durch :
1. Erzeugen einer Bezugswellenform, die eine vorherbestimmte Vorzeichenfolge umfaßt
2. Erzeugen eines Taktsignals, welches mit dem Vorzeichenbit jedes Kodewortes in Phase gesetzt ist,
3. Vergleichen jedes Taktsignals mit dem Zeichenbit jedes Kodewortes,
4. Erzeugung eines ersten Ausgangssignals, wobei jederzeit das Taktsignal mit dem Kodewort verglichen wird, das demselben Zeichen der Abtastprobe entspricht
5. Vergleichen des ersten Ausgangssignals mit der Bezugswellenform und
6. Erzeugung eines für Sprache bezeichnenden Impulses, wenn die Bezugswellenform und das erste Ausgangssignal während einer vorbestimmten minimalen Dauer übereinstimmen.
14. Verfahren nach Anspruch 13 zur Erzeugung eines Impulses, gekennzeichnet durch:
1. Erzeugung eines Kennungssignals zu jeder Zeit, indem das erste Ausgangssignal und die Bezugswellenform übereinstimmen,
2. Verzögerung des Kennungssignals, um ein verzögertes Kennungssignal zu erzeugen,
3. Vergleichen des Kennungssignals mit dem verzögerten Kennungssignal, um ein zweites Auscan^ssiTia! bis zu einem Zeitpunkt zu
erhalten, bei dem das Kennungssignal seinen Zustand ändert und
4. Feststellen der Zeitdauer des zweiten Kennungssignals.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß die vorbestimmte minimale Zeitdauer 2 msec beträgt
16. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß die vorbestimmte minimale Zeitdauer 3 msec beträgt
17. Vorrichtung zum Feststellen eines Sprachsignals in Anwesenheit von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet ist, und jede Abtastprobe digital in ein impulskodemoduliertes Wort (PCM) der Bitlänge π verschlüsselt ist, wobei ein Bit des Kodeworts dem Vorzeichen der Sprachabtastprobe entspricht, gekennzeichnet durch:
20
1. Erzeugung einer Bezugswellenform, die eine vorbestimmte Vorzeichenfolge aufweist,
2. Vorrichtung zur Erzeugung eines Taktsignals, das mit dem Vorzeichenbit eines jeden Kodewortes in Phase ist,
3. Vergleichen des Taktsignals mit dem Vorzeichenbit jedes Kodewortes,
4. Erzeugung eines ersten Ausgangssignals zu der Zeit, zu der das Taktsignal mit dem Kodewort, das demselben Zeichen der Probe entspricht, vergleichbar ist,
5. Vergleichen des ersten Ausgangssignals und der Bezugswellenform und
6. Erzeugen eines für die Sprache bezeichnenden Impulses, wenn die Bezugswellenform und das erste Ausgangssignal mit einer vorbestimmten minimalen Zeitdauer übereinstimmen.
DE2111072A 1970-03-13 1971-03-09 Verfahren und Vorrichtung zum Erfassen eines Sprachsignals Expired DE2111072C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US019188A US3878337A (en) 1970-03-13 1970-03-13 Device for speech detection independent of amplitude

Publications (3)

Publication Number Publication Date
DE2111072A1 DE2111072A1 (de) 1971-09-23
DE2111072B2 true DE2111072B2 (de) 1980-07-31
DE2111072C3 DE2111072C3 (de) 1981-06-25

Family

ID=21791888

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2111072A Expired DE2111072C3 (de) 1970-03-13 1971-03-09 Verfahren und Vorrichtung zum Erfassen eines Sprachsignals

Country Status (7)

Country Link
US (1) US3878337A (de)
JP (1) JPS5149361B1 (de)
DE (1) DE2111072C3 (de)
FR (1) FR2084567A5 (de)
GB (1) GB1342909A (de)
NL (1) NL175572C (de)
SE (1) SE388061B (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1014614B (it) * 1974-04-24 1977-04-30 Sits Soc It Telecom Siemens Circuito per rivelare la presenza di attivita in banda fonica in una giunzione telefonica
IT1044353B (it) * 1975-07-03 1980-03-20 Telettra Lab Telefon Metodo e dispositivo per il rico noscimento della presenza e.o assenza di segnale utile parola parlato su linee foniche canali fonici
US4061878A (en) * 1976-05-10 1977-12-06 Universite De Sherbrooke Method and apparatus for speech detection of PCM multiplexed voice channels
US4059730A (en) * 1976-08-17 1977-11-22 Bell Telephone Laboratories, Incorporated Apparatus for mitigating signal distortion and noise signal contrast in a communications system
US4275270A (en) * 1979-11-29 1981-06-23 The Regents Of The University Of California Speech detector for use in an adaptive hybrid circuit
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
CN113450776A (zh) * 2020-03-24 2021-09-28 合肥君正科技有限公司 一种改善婴儿哭声检测模型效果的数据增强方法及其系统
CN111653276B (zh) * 2020-06-22 2022-04-12 四川长虹电器股份有限公司 一种语音唤醒系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3358083A (en) * 1964-07-28 1967-12-12 Bell Telephone Labor Inc Time-division multiplex digital transmission arrangement employing a linear digital filter
US3369080A (en) * 1964-12-16 1968-02-13 Bell Telephone Labor Inc Conference circuit for coded signals permitting conference calls between vocoder and analogue stations
GB1102020A (en) * 1965-08-26 1968-02-07 Peter Heaton Improvements relating to digital telephone systems
US3484554A (en) * 1967-03-02 1969-12-16 Itt Pseudo-orthogonal pulse code system
US3555189A (en) * 1967-03-06 1971-01-12 Jesse T Quatse Automatic telephone answering mechanism
US3520999A (en) * 1967-03-27 1970-07-21 Bell Telephone Labor Inc Digital speech detection system

Also Published As

Publication number Publication date
FR2084567A5 (de) 1971-12-17
DE2111072A1 (de) 1971-09-23
NL175572C (nl) 1984-11-16
US3878337A (en) 1975-04-15
NL175572B (nl) 1984-06-18
SE388061B (sv) 1976-09-20
DE2111072C3 (de) 1981-06-25
JPS5149361B1 (de) 1976-12-25
GB1342909A (en) 1974-01-10
NL7103353A (de) 1971-09-15

Similar Documents

Publication Publication Date Title
DE2111072B2 (de) Verfahren und Vorrichtung zum Erfassen eines Sprachsignals
DE2537264C3 (de) Schaltungsanordnung zum Erkennen der Null-Durchgänge von Signalen
DE2341224B2 (de) Verfahren zur frequenzerkennung in selektiven zeichenempfaengern fuer fernmelde-, insbesondere fernsprechanlagen
DE2805478C2 (de) Schaltungsanordnung zur Diskriminierung von Sprachsignalen
DE3152878C2 (de) Schaltungsanordnung mit wenigstens zwei Festratenverzögerungskreisen
DE2015813A1 (de) Verfahren und Vorrichtung zur Über tragung von zweiwertigen Signalen
DE2047697B2 (de) Schaltungsanordnung zur demodulation von phasendifferenzmodulierten datensignalen
DE2836049C2 (de) Rauscheinschränkung bei kompandierter Deltamodulation
DE2723570B2 (de) Signalempfänger
DE2624173A1 (de) Signal-erkennungsschaltung
DE2534518C3 (de) Schaltungsanordnung zur Wiedergewinnung numerischer Informationen aus binär phasenmodulierten empfangenen Signalen
DE2702581C2 (de) Verfahren und Schaltungsanordnungen zur Frequenzerkennung
DE3246211C2 (de) Schaltungsanordnung zur Detektion von Folgen identischer Binärwerte
DE2601351C2 (de) Verfahren zur Unterdrückung von Signalteilen mit zu kleiner Amplitude sowie Vorrichtung zur Durchführung des Verfahrens
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
DE2053378C3 (de) Schaltungsanordnung zur Regenerierung von quasiternären pulscodemodulierten Signalen
DE2902133C3 (de) Verfahren und Vorrichtung zur Übertragung binär-codierter Datenworte
EP0193040B1 (de) Verfahren und Einrichtung zur Signalanalyse
EP0072393B1 (de) Digitaler Frequenzdiskriminator
DE1944193C2 (de) Verfahren und Anordnung zum Ermitteln des Synchronzeitpunktes von pulscodemodulierten Signalen
DE3739481C2 (de)
DE1300965B (de) Schaltungsanordnung zur Feststellung und Korrektur von durch Stoerspannungen erzeugten Fehlern in der Reihenfolge der Impulswechsel bei einer Folge von je durch zwei Impulse wechselnder Richtung wiedergegebenen Zeichen
DE2540859C2 (de) Schaltungsanordnung für einen selektiven Zeichenempfänger, insbesondere für Fernsprechanlagen
DE1264830B (de) Verfahren zur maschinellen Zeichenerkennung
DE2145886C2 (de) Sprachgeschützter frequenzselektiver Zeichenempfänger für Fernmelde-, insbesondere Fernsprechanlagen

Legal Events

Date Code Title Description
OD Request for examination
C3 Grant after two publication steps (3rd publication)