HK1240389B

HK1240389B - Speech reproduction device configured for masking reproduced speech in a masked speech zone

Info

Publication number: HK1240389B
Application number: HK17113529.4A
Authority: HK
Inventors: Andreas Walther; Martin Schneider; Emanuel Habets; Oliver Hellmuth
Original assignee: Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date: 2015-01-20
Filing date: 2016-01-13
Publication date: 2022-07-22

Claims

Sprachwiedergabevorrichtung zum Wiedergeben von Sprache (SP) auf der Basis eines empfangenen Sprachsignals (SPS), so dass die wiedergegebene Sprache (SP) in einer Klarsprachzone (CSZ) verständlich und in einer Maskiertsprachzone (MSZ) unverständlich ist, wobei die Sprachwiedergabevorrichtung (1) folgende Merkmale aufweist:
ein Audioverarbeitungsmodul (2), das zum Empfangen des Sprachsignals (SPS) ausgebildet ist;

einen Satz (3) von Sprachlautsprechern (4), die zum Wiedergeben der Sprache (SP) auf der Basis eines oder mehrerer Sprachlautsprechersignale (S.1 ... S.n) ausgebildet sind; und

einen Satz (5) von Maskierungsschalllautsprechern (6), die zum Erzeugen eines Maskierungsschalls (MN) auf der Basis eines oder mehrerer Maskierungsschalllautsprechersignale (M.1, M.2 ... M.m) ausgebildet sind, wobei der Maskierungsschall (MN) die Sprache (SP) in der Maskiertsprachzone (MSZ) maskiert;

wobei das Audioverarbeitungsmodul (2) einen Sprachlautsprechersignalerzeuger (7) aufweist, der zum Erzeugen des einen oder der mehreren Sprachlautsprechersignale (S.1 ... S.n) auf der Basis des Sprachsignals (SPS) ausgebildet ist;

wobei das Audioverarbeitungsmodul (2) ein Sprachsignalanalysemodul (8) aufweist, das zum Erzeugen eines oder mehrerer Analysesignale (AS) auf der Basis von spektralen und/oder zeitlichen Charakteristika des Sprachsignals (SPS) ausgebildet ist;

wobei das Audioverarbeitungsmodul (2) einen Maskierungsschallgenerator (9) aufweist, der zum Erzeugen eines oder mehrerer Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) auf der Basis des einen oder der mehreren Analysesignale (AS) ausgebildet ist;

wobei das Audioverarbeitungsmodul (2) einen Maskierungsschalllautsprechersignalerzeuger (10) aufweist, der zum Erzeugen des einen oder der mehreren Maskierungsschalllautsprechersignale (M.1, M.2 ... M.m) auf der Basis des einen oder mehreren Maskierungsschallsignale (MS) ausgebildet ist;

dadurch gekennzeichnet, dass

das Audioverarbeitungsmodul (2) dazu ausgebildet ist, ein Setupsignal (SI) zu empfangen, das Informationen bezüglich eines Setups des Satzes (3) von Sprachlautsprechern (4.1 ... 4.n) und/oder des Setups des Satzes (5) von Maskierungsschalllautsprechern (6.1, 6.2 ... 6.m) enthält; und

das Setupsignal (SI) seitens des Sprachlautsprechersignalerzeugers (7) zum Erzeugen des einen oder der mehreren Sprachlautsprechersignale (S.1 ... S.n), seitens des Maskierungsschallgenerators (9) zum Erzeugen eines oder mehrerer Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) und/oder seitens des Maskierungsschalllautsprechersignalerzeugers (10) zum Erzeugen des einen oder der mehreren Maskierungsschalllautsprechersignale (M.1, M.2 ... M.m) verwendet wird.
Sprachwiedergabevorrichtung gemäß dem vorhergehenden Anspruch, bei der der Sprachlautsprechersignalerzeuger (7) zum Erzeugen einer Mehrzahl von Sprachlautsprechersignalen (S.1 ... S.n) und zum Steuern von Charakteristika jedes Sprachlautsprechersignals (S.1 ... S.n) der Mehrzahl von Sprachlautsprechersignalen (S.1 ... S.n) unabhängig voneinander ausgebildet ist, um ortsbezogene Hinweisreize der Sprache (SP) zu steuern.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der der Maskierungsschalllautsprechersignalerzeuger (10) zum Erzeugen einer Mehrzahl von Maskierungsschalllautsprechersignalen (M.1, M.2 ... M.m) und zum Steuern von Charakteristika jedes Maskierungsschalllautsprechersignals (M.1, M.2 ... M.m) der Mehrzahl von Maskierungsschalllautsprechersignalen (M.1, M.2 ... M.m) unabhängig voneinander ausgebildet ist, um ortsbezogene Hinweisreize des Maskierungsschalls (MN) zu steuern.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der der Maskierungsschallgenerator (9) eine Mehrzahl von Maskierungsschallquellen (11.1, 11.2, 11.3, 11.4), die dazu ausgebildet sind, ein Rohmaskierungsschallsignal (RMS.1, RMS.2, RMS.3, RMS.4) bereitzustellen, und eine Mehrzahl von Rohmaskierungsschallsignal-Adaptationsmodulen (12.1, 12.2, 12.3, 12.4) aufweist, wobei jedes der Rohmaskierungsschallsignal-Adaptationsmodule (12.1, 12.2, 12.3, 12.4) einer der Maskierungsschallquellen (11.1, 11.2, 11.3, 11.4) zugewiesen ist, wobei das zugewiesene Maskierungsadaptationsmodul (12.1, 12.2, 12.3, 12.4) dazu ausgebildet ist, das Rohmaskierungsschallsignal (RMS.1, RMS.2, RMS.3, RMS.4) der jeweiligen Maskierungsschallquellen (11.1, 11.2, 11.3, 11.4) auf der Basis des Analysesignals (AS) zu adaptieren, um eines des einen oder der mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß dem vorhergehenden Anspruch, bei der die zumindest eine Maskierungsschallquelle (11.1, 11.2, 11.3, 11.4) eine Musikquelle (11.1) aufweist, die dazu ausgebildet ist, ein Rohmusikmaskierungsschallsignal (RMS.1) bereitzustellen, wobei das zugewiesene Maskierungsadaptationsmodul (12.1) dazu ausgebildet ist, das Rohmusikmaskierungsschallsignal (RMS.1) auf der Basis des Analysesignals (AS) zu adaptieren, um ein Maskierungsschallsignal (MS.1) des einen oder der mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß Anspruch 4 oder 5, bei der die zumindest eine Maskierungsschallquelle (11.1, 11.2, 11.3, 11.4) eine Dauerrauschen-Quelle (11.2) aufweist, die dazu ausgebildet ist, ein Roh-Dauerrauschen-Maskierungsschallsignal (RMS.2) bereitzustellen, wobei das zugewiesene Maskierungsadaptationsmodul (12.2) dazu ausgebildet ist, das Roh-Dauerrauschen-Maskierungsschallsignal (RMS.2) auf der Basis des Analysesignals (AS) zu adaptieren, um ein Maskierungsschallsignal (MS.2) des einen oder der mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der Ansprüche 4 bis 6, bei der die zumindest eine Maskierungsschallquelle (11.1, 11.2, 11.3, 11.4) eine Dynamisches-Rauschen-Quelle (11.3) aufweist, die dazu ausgebildet ist, ein Roh-Dynamisches-Rauschen-Maskierungsschallsignal (RMS.3) bereitzustellen, wobei das zugewiesene Maskierungsadaptationsmodul (12.3) dazu ausgebildet ist, das Roh-Dynamisches-Rauschen-Maskierungsschallsignal (RMS.3) auf der Basis des Analysesignals (AS) zu adaptieren, um ein Maskierungsschallsignal (MS.3) des einen oder der mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der das Audioverarbeitungsmodul (2) ein adaptives Sprachverarbeitungsmodul (13) aufweist, das dazu ausgebildet ist, ein adaptiertes Sprachsignal (ASPS) auf der Basis des Sprachsignals (SPS) bereitzustellen, wobei der Sprachlautsprechersignalerzeuger (7) dazu ausgebildet ist, das eine oder die mehreren Sprachlautsprechersignale (S.1 ... S.n) auf der Basis des adaptierten Sprachsignals (ASPS) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der der Maskierungsschallgenerator (9) dazu ausgebildet ist, ein Wettersignal (WSI) zu empfangen, das Informationen bezüglich Wetterbedingungen enthält, und auf der Basis des Wettersignals (WSI) das eine oder die mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der der Maskierungsschallgenerator (9) dazu ausgebildet ist, ein Lichtsignal (LSI) zu empfangen, das Informationen bezüglich Lichtbedingungen enthält, und auf der Basis des Lichtsignals (LSI) das eine oder die mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der der Maskierungsschallgenerator (9) dazu ausgebildet ist, ein Zeitsignal (TSI) zu empfangen, das Informationen bezüglich Datum und/oder Uhrzeit enthält, und auf der Basis des Zeitsignals (TSI) das eine oder die mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der der Maskierungsschallgenerator (9) dazu ausgebildet ist, ein Maschinensignal (ESI) zu empfangen, das Informationen bezüglich einen Betriebsparameters einer Schallerzeugungsmaschine (EG) enthält, und auf der Basis des Maschinensignals (ESI) das eine oder die mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Sprachwiedergabevorrichtung (1) eine Nachverfolgungsvorrichtung (14) aufweist, die zum Nachverfolgen einer Position und/oder Orientierung einer Person in der Klarsprachzone (CSZ) und/oder zum Nachverfolgen einer Person und/oder Orientierung einer Position in der Maskiertsprachzone (MSZ) ausgebildet ist, wobei die Nachverfolgungsvorrichtung (14) dazu ausgebildet ist, ein Nachverfolgungssignal (TRS) zu erzeugen, das die Position und/oder Orientierung der Person in der Klarsprachzone (CSZ) und/oder die Position und/oder Orientierung der Person in der Maskiertsprachzone (MSZ) aufweist, wobei das Audioverarbeitungsmodul (2) dazu ausgebildet ist, das Nachverfolgungssignal (TRS) zu empfangen und auf der Basis des Nachverfolgungssignals (TRS) das eine oder die mehreren Maskierungsschalllautsprechersignale (M.1, M.2 ... M.m) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der der Maskierungsschalllautsprechersignalerzeuger (10) dazu ausgebildet ist, die Maskierungsschalllautsprechersignale (M.1, M.2 ... M.m) derart zu erzeugen, dass der Maskierungsschall (MN) dieselben ortsbezogenen Hinweisreize aufweist wie die Sprache (SP) in der Maskiertsprachzone (MSZ).
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Sprachwiedergabevorrichtung (1) ein oder mehrere Mikrofone (15.1, 15.2) aufweist, die der Maskiertsprachzone (MSZ) zugewiesen sind, wobei jedes der Mikrofone (15.1, 15.2) ein Mikrofonsignal (MSI.1, MSI.2) erzeugt.
Sprachwiedergabevorrichtung gemäß Anspruch 14 und 15, bei der zumindest zwei Mikrofonsignale (MSI.1, MSI.2) der Mikrofonsignale (MSI.1, MSI.2) dem Maskierungsschalllautsprechersignalerzeuger (10) zugeführt werden und bei der der Maskierungsschalllautsprechersignalerzeuger (10) dazu ausgebildet ist, auf der Basis der zumindest zwei Mikrofonsignale (MSI.1, MSI.2) die ortsbezogenen Hinweisreize der Sprache (SP) in der Maskiertsprachzone (MSZ) zu bestimmen.
Sprachwiedergabevorrichtung gemäß Anspruch 15 oder 16, bei der zumindest ein Mikrofonsignal (MSI.2) der Mikrofonsignale (MSI.1, MSI.2) dem Maskierungsschallgenerator (9) zugeführt wird, wobei der Maskierungsschallgenerator (9) dazu ausgebildet ist, auf der Basis des zumindest einen Mikrofonsignals (MSI.1, MSI.2) das eine oder die mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) zu erzeugen.
Sprachwiedergabevorrichtung gemäß einem der vorhergehenden Ansprüche, bei der der Maskierungsschallgenerator (9) dazu ausgebildet ist, das eine oder die mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) auf der Basis einer oder mehrerer Raumimpulsantworten und/oder einer oder mehrerer Übertragungsfunktionen von dem Satz (3) von Sprachlautsprechern (4.1 ... 4.n) zu der Klarsprachzone (CSZ), auf der Basis einer oder mehrerer Raumimpulsantworten und/oder einer oder mehrerer Übertragungsfunktionen von dem Satz (5) von Maskierungsschalllautsprechern (6.1, 6.2 ... 6.m) zu der Klarsprachzone (CSZ), auf der Basis einer oder mehrerer Raumimpulsantworten und/oder einer oder mehrerer Übertragungsfunktionen von dem Satz (3) von Sprachlautsprechern (4.1 ... 4.n) zu der Maskiertsprachzone (MSZ) und/oder auf der Basis einer oder mehrerer Raumimpulsantworten und/oder einer oder mehrerer Übertragungsfunktionen von dem Satz (5) von Maskierungsschalllautsprechern (6.1, 6.2 ... 6.m) zu der Maskiertsprachzone (MSZ) zu erzeugen.
Verfahren zum Wiedergeben von Sprache (SP) auf der Basis eines empfangenen Sprachsignals (SPS), so dass die wiedergegebene Sprache (SP) in einer Klarsprachzone (CSZ) verständlich und in einer Maskiertsprachzone (MSZ) unverständlich ist, wobei das Verfahren folgende Schritte aufweist:
Empfangen des Sprachsignals (SPS) unter Verwendung eines Audioverarbeitungsmoduls (2);

Wiedergeben der Sprache (SP) auf der Basis eines oder mehrerer Sprachlautsprechersignale (S.1 ... S.n) unter Verwendung eines Satzes (3) von Sprachlautsprechern (4.1 ... 4.n);

Erzeugen eines Maskierungsschalls (MN) auf der Basis eines oder mehrerer Maskierungsschalllautsprechersignale (M.1, M.2 ... M.m) unter Verwendung eines Satzes (5) von Maskierungsschalllautsprechern (6.1, 6.2 ... 6.m), wobei der Maskierungsschall (MN) die Sprache (SP) in der Maskiertsprachzone (MSZ) maskiert;

Erzeugen des einen oder der mehreren Sprachlautsprechersignale (S.1 ... S.n) auf der Basis des Sprachsignals (SPS) unter Verwendung eines Sprachlautsprechersignalerzeugers (7) des Audioverarbeitungsmoduls (2);

Erzeugen eines oder mehrerer Analysesignale (AS) auf der Basis von spektralen und/oder zeitlichen Charakteristika des Sprachsignals (SPS) unter Verwendung eines Sprachsignalanalysemoduls (8) des Audioverarbeitungsmoduls (2);

Erzeugen eines oder mehrerer Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) auf der Basis des einen oder der mehreren Analysesignale (AS) unter Verwendung eines Maskierungsschallgenerators (9) des Audioverarbeitungsmoduls (2); und

Erzeugen des einen oder der mehreren Maskierungsschalllautsprechersignale (M.1, M.2 ... M.m) auf der Basis des einen oder mehreren Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) ) unter Verwendung eines Maskierungsschalllautsprechersignalerzeugers (10) des Audioverarbeitungsmoduls (2);

gekennzeichnet durch

Empfangen eines Setupsignals (SI), das Informationen bezüglich eines Setups des Satzes (3) von Sprachlautsprechern (4.1 ... 4.n) und/oder des Setups des Satzes (5) von Maskierungsschalllautsprechern (6.1, 6.2 ... 6.m) enthält, seitens des Audioverarbeitungsmoduls (2); und

Verwenden des Setupsignals (SI) seitens des Sprachlautsprechersignalerzeugers (7) zum Erzeugen des einen oder der mehreren Sprachlautsprechersignale (S.1 ... S.n), seitens des Maskierungsschallgenerators (9) zum Erzeugen eines oder mehrerer Maskierungsschallsignale (MS.1, MS.2, MS.3, MS.4) und/oder seitens des Maskierungsschalllautsprechersignalerzeugers (10) zum Erzeugen des einen oder der mehreren Maskierungsschalllautsprechersignale (M.1, M.2 ... M.m).
Ein Computerprogramm, das Anweisungen aufweist, die bei Ablauf auf einem Prozessor den Prozessor dazu veranlassen, das Verfahren gemäß dem vorhergehenden Anspruch auszuführen.