DE102021203815A1 - Sound processing apparatus, system and method - Google Patents
Sound processing apparatus, system and method Download PDFInfo
- Publication number
- DE102021203815A1 DE102021203815A1 DE102021203815.8A DE102021203815A DE102021203815A1 DE 102021203815 A1 DE102021203815 A1 DE 102021203815A1 DE 102021203815 A DE102021203815 A DE 102021203815A DE 102021203815 A1 DE102021203815 A1 DE 102021203815A1
- Authority
- DE
- Germany
- Prior art keywords
- sound
- processing
- audio
- machine learning
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Die vorliegende Erfindung stellt eine Tonverarbeitungsvorrichtung, ein System und ein Verfahren bereit. Die Tonverarbeitungsvorrichtung umfasst: ein Empfangsmodul, das konfiguriert ist, um ein Audiosignal eines oder mehrerer von einem persönlichen Tongerät erfasster Töne zu empfangen; ein Verarbeitungsmodul, das konfiguriert ist, um unter Verwendung eines Tonverarbeitungsmodells die folgenden Verarbeitungen durchzuführen: eine Klassifizierungsverarbeitung, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; eine Erkennungsverarbeitung, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird; und eine Filterverarbeitung, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird; und ein Ausgabemodul, das konfiguriert ist, um das gefilterte Audiosignal zum Liefern an den Benutzer auszugeben.The present invention provides an audio processing apparatus, system and method. The sound processing device includes: a receiving module configured to receive an audio signal of one or more sounds detected by a personal sound device; a processing module configured to perform the following processing using an audio processing model: classification processing in which the type of scene in which a user of the personal audio device is located is determined based on the audio signal; recognition processing in which a respective sound of the one or more sounds is determined as a desired sound or an undesired sound based on the determined type of the scene; and filter processing in which a filter configuration is made based on a result of the recognition processing and the audio signal is filtered based on the filter configuration; and an output module configured to output the filtered audio signal for delivery to the user.
Description
Technisches Gebiettechnical field
Die vorliegende Erfindung betrifft allgemein Tonverarbeitung auf der Grundlage von künstlicher Intelligenz. Insbesondere betrifft die vorliegende Erfindung eine Tonverarbeitungsvorrichtung für ein persönliches Tongerät, ein die Tonverarbeitungsvorrichtung aufweisendes System, und ein Tonverarbeitungsverfahren.The present invention relates generally to artificial intelligence based sound processing. More particularly, the present invention relates to a sound processing device for a personal sound device, a system including the sound processing device, and a sound processing method.
Stand der TechnikState of the art
In den letzten Jahren sind geräuschunterdrückende Kopfhörer sehr populär geworden, da sie ein angenehmes Verwendungsszenario für den Träger erzeugen können. Wenn der Träger beispielsweise den Kopfhörer aufsetzt und die Geräuschreduzierungsfunktion aktiviert, kann er seine Lieblingsmusik in einer ruhigen Umgebung genießen. Dazu kann sich der Träger auf seine Arbeit in Büro- oder Reiseszenarien konzentrieren, ohne durch Umgebungsgeräusche gestört zu werden.In recent years, noise canceling headphones have become very popular because they can create a comfortable usage scenario for the wearer. For example, when the wearer puts on the headphones and activates the noise reduction function, they can enjoy their favorite music in a quiet environment. In addition, the wearer can concentrate on his work in office or travel scenarios without being disturbed by ambient noise.
Die in den Kopfhörern angewendeten Geräuschminderungslösungen nach dem Stand der Technik sind hauptsächlich in zwei Kategorien klassifiziert, nämlich eine passive Geräuschminderungslösung und eine aktive Geräuschminderungslösung. Die passive Geräuschminderungslösung erreicht die akustische Isolation auf der Basis von einer PNR-Technik (Passive Noise Reduction) eines schallabsorbierenden und/oder -reflektierenden Materials. Die aktive Geräuschreduzierungslösung verwendet eine ANR-Technik (Active Noise Reduction), die auf einer geräuschdämmenden Tonausgabe basiert, um Geräusche zu neutralisieren und damit den Effekt der Geräuschreduzierung zu erreichen.The prior art noise reduction approaches applied in the headphones are mainly classified into two categories, namely a passive noise reduction approach and an active noise reduction approach. The passive noise reduction solution achieves acoustic isolation based on a PNR (Passive Noise Reduction) technique of a sound absorbing and/or reflecting material. The active noise reduction solution uses an ANR (Active Noise Reduction) technique based on noise-cancelling sound output to neutralize noise and thus achieve the effect of noise reduction.
Sowohl bei einer passiven Geräuschreduzierung als auch bei einer aktiven Geräuschreduzierung werden jedoch alle Geräusche abgefiltert, was zu einer Gefahr führen kann. Obwohl der schalldämpfende Kopfhörer die lauten Geräusche beispielsweise in der U-Bahn effektiv abfiltert, werden einige Töne, die gehört werden sollen, auch abgefiltert, z. B. die Haltestellenansage und das Weinen eines Babys.However, both passive noise reduction and active noise reduction filter out all noise, which can create a hazard. Although the sound-dampening headphones effectively filter out loud noises on the subway, for example, some sounds that are meant to be heard are also filtered out, e.g. B. the announcement of the bus stop and a baby crying.
Dementsprechend ist es wünschenswert, eine technische Lösung für die oben genannten Probleme im Stand der Technik vorzuschlagen.Accordingly, it is desirable to propose a technical solution to the above problems in the prior art.
Offenbarung der ErfindungDisclosure of Invention
Angesichts der oben erwähnten Probleme im Stand der Technik ist die vorliegende Erfindung auf die Bereitstellung eines intelligenten Tonverarbeitungsschemas für ein persönliches Tongerät gerichtet, das eine automatisierte Rauschunterdrückung auf der Grundlage von Anforderungen eines Benutzers ermöglicht.In view of the above-mentioned problems in the prior art, the present invention is directed to providing an intelligent sound processing scheme for a personal sound device that enables automated denoising based on a user's requirements.
Zu diesem Zweck wird gemäß einem Aspekt der vorliegenden Erfindung eine Tonverarbeitungsvorrichtung bereitgestellt, die in einem persönlichen Tongerät verwendet wird, umfassend: ein Empfangsmodul, das konfiguriert ist, um ein Audiosignal eines oder mehrerer von dem persönlichen Tongerät erfassten Tönen zu empfangen, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfasst oder umfassen; ein Verarbeitungsmodul, das konfiguriert ist, um unter Verwendung eines Tonverarbeitungsmodells die folgenden Verarbeitungen durchzuführen: eine Klassifizierungsverarbeitung, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; eine Erkennungsverarbeitung, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton erkannt wird; und eine Filterverarbeitung, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird; und ein Ausgabemodul, das konfiguriert ist, um das gefilterte Audiosignal zum Liefern an den Benutzer auszugeben.To this end, according to one aspect of the present invention, there is provided a sound processing apparatus used in a personal sound device, comprising: a receiving module configured to receive an audio signal of one or more sounds detected by the personal sound device, the one or the plurality of tones includes or includes at least ambient noise around the personal audio device; a processing module configured to perform the following processing using an audio processing model: classification processing in which the type of scene in which a user of the personal audio device is located is determined based on the audio signal; recognition processing in which a respective sound of the one or more sounds is recognized as a desired sound or an undesired sound based on the determined type of the scene; and filter processing in which a filter configuration is made based on a result of the recognition processing and the audio signal is filtered based on the filter configuration such that an unwanted sound is at least partially filtered in the one or more sounds and a desired sound in the one or is passed through the multiple tones; and an output module configured to output the filtered audio signal for delivery to the user.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Tonverarbeitungsmodell ein oder mehrere auf maschinellem Lernen beruhende Modelle umfasst.According to a possible embodiment, it is provided that the sound processing model comprises one or more models based on machine learning.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Tonverarbeitungsmodell ein erstes trainiertes Maschinenlernmodell, ein zweites trainiertes Maschinenlernmodell und ein drittes trainiertes Maschinenlernmodell umfasst; und wobei das Verarbeitungsmodul dazu konfiguriert ist: die Klassifizierungsverarbeitung des Audiosignals unter Verwendung des ersten trainierten Maschinenlernmodells durchzuführen, um den Typ der Szene auszugeben; die Erkennungsverarbeitung der auf der Grundlage des ersten trainierten Maschinenlernmodells ermittelten Ausgabe unter Verwendung des zweiten trainierten Maschinenlernmodells durchzuführen, um das Ergebnis, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist, auszugeben; und die Filterverarbeitung der auf der Grundlage des zweiten trainierten Maschinenlernmodells ermittelten Ausgabe unter Verwendung des dritten trainierten Maschinenlernmodells durchzuführen, um ein gefiltertes Audiosignal auszugeben.According to a possible embodiment it is provided that the sound processing model comprises a first trained machine learning model, a second trained machine learning model and a third trained machine learning model; and wherein the processing module is configured to: perform the classification processing of the audio signal using the first trained machine learning model to output the type of the scene; perform the recognition processing of the output determined based on the first trained machine learning model using the second trained machine learning model to output the result of whether a respective sound in the one or more sounds is a desired sound or an undesired sound; and the filter processing of the determined based on the second trained machine learning model perform output using the third trained machine learning model to output a filtered audio signal.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die erste, zweite und dritte trainierte Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert sind.According to one possible embodiment, it is provided that the first, second and third trained machine learning models are combined to form one or more hybrid machine learning models.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Verarbeitungsmodul durch mindestens eine der folgenden Verarbeitungen bestimmt, ob der jeweilige Ton ein erwünschter Ton oder ein unerwünschter Ton ist: Cepstrum-Analyse, Sprachabdruckerkennung, Schlüsselwort- und/oder Schlüsseltondetektion.According to a possible embodiment, it is provided that the processing module determines whether the respective tone is a desired tone or an undesired tone by at least one of the following processes: cepstrum analysis, voiceprint recognition, keyword and/or key tone detection.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die oben beschriebenen verschiedenen Verarbeitungen von dem Verarbeitungsmodul jeweils unter Verwendung eines zugehörigen Modells ausgeführt werden.According to a possible embodiment, it is provided that the various processing operations described above are each carried out by the processing module using an associated model.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die Tonverarbeitungsvorrichtung ferner ein Kommunikationsmodul umfasst, das für die Kommunikationsverbindung mit einem externen elektronischen Gerät, das sich außerhalb des persönlichen Tongeräts befindet, konfiguriert ist, um mit einer in dem externen elektronischen Gerät vorgesehenen Audioanwendung Informationen auszutauschen.According to a possible embodiment, it is envisaged that the audio processing device further comprises a communication module configured to communicate with an external electronic device external to the personal audio device in order to exchange information with an audio application provided in the external electronic device.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul Anweisungen von der Audioanwendung empfängt, wobei die Anweisungen eine Absicht des Benutzers umfassen, wie die Töne in dem bestimmten Typ der Szene gefiltert werden soll; und das Verarbeitungsmodul die Filterkonfiguration auf der Basis der Anweisungen verstellt.According to a possible embodiment, it is provided that the communication module receives instructions from the audio application, the instructions comprising an intention of the user how to filter the sounds in the certain type of scene; and the processing module adjusts the filter configuration based on the instructions.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul dazu konfiguriert ist: ein Audiosignal eines neuen Tons, den das persönliche Tongerät während der Verwendung erfasst, an die Audioanwendung zu übertragen; und Verarbeitungsparameter des Audiosignals auf der Grundlage des neuen Tons von der Audioanwendung zu empfangen, sodass der neue Ton erkannt werden kann.According to a possible embodiment, it is provided that the communication module is configured to: transmit an audio signal of a new sound that the personal sound device detects during use to the audio application; and receive processing parameters of the audio signal based on the new sound from the audio application so that the new sound can be recognized.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul ferner konfiguriert ist, um einen empfohlenen Audioinhalt von der Audioanwendung zu empfangen, wobei der empfohlene Audioinhalt auf dem bestimmten Typ der Szene und einem Nutzungsstatus des persönlichen Tongeräts basiert.According to one possible embodiment, it is contemplated that the communication module is further configured to receive recommended audio content from the audio application, wherein the recommended audio content is based on the determined type of scene and a usage status of the personal audio device.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass alle oder ein Teil der einzelnen Module der Tonverarbeitungsvorrichtung mittels eines oder mehrerer AI-Chips realisiert sein können.According to a possible embodiment, it is envisaged that all or some of the individual modules of the sound processing device can be implemented using one or more AI chips.
Gemäß einem weiteren Aspekt der Erfindung wird ein Rechengerät bereitgestellt, wobei das Rechengerät in einem entfernten Server angeordnet ist und ein Tonverarbeitungsmodell erstellt, das ein Audiosignal eines oder mehrerer während der Verwendung eines persönlichen Tongeräts erfasster Töne verarbeiten kann, wobei das Erstellen des Tonverarbeitungsmodells umfasst: Durchführen eines ersten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell den Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmen kann; Durchführen eines zweiten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell auf der Grundlage des Typs der Szene einen jeweiligen Ton von einem oder mehreren Tönen als einen erwünschten Ton oder einen unerwünschten Ton bestimmen kann; Durchführen eines dritten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell eine Filterkonfiguration und eine Filterung des Audiosignals basierend auf der Filterkonfiguration durchführen kann, wodurch ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird.According to another aspect of the invention, a computing device is provided, the computing device being located on a remote server and creating a sound processing model that can process an audio signal of one or more sounds detected during use of a personal sound device, wherein creating the sound processing model comprises: performing a first creation process in which the audio processing model can determine the type of scene a user of the personal audio device is in based on the audio signal; performing a second creation process in which the sound processing model can determine a respective one of one or more sounds as a desired sound or an undesired sound based on the type of the scene; Performing a third creation process in which the sound processing model can perform a filter configuration and filtering of the audio signal based on the filter configuration, whereby an unwanted sound in the one or more sounds is at least partially filtered and a desired sound in the one or more sounds is passed becomes.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Erstellen des Tonverarbeitungsmodells das Trainieren eines oder mehrerer auf maschinellem Lernen beruhender Modelle in den ersten bis dritten Erstellungsprozessen umfasst.According to a possible embodiment, it is provided that the creation of the sound processing model includes the training of one or more models based on machine learning in the first to third creation processes.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Erstellen des Tonverarbeitungsmodells umfasst: Durchführen eines ersten Trainings des auf maschinellem Lernen beruhenden Modells, um ein erstes trainiertes Maschinenlernmodell zu erhalten, wobei während des ersten Trainings unter Verwendung des als Eingabe dienenden Audiosignals eine Ausgabe erzeugt wird, die den Typ der Szene repräsentiert; Durchführen eines zweiten Trainings des auf maschinellem Lernen beruhenden Modells, um ein zweites trainiertes Maschinenlernmodell zu erhalten, wobei während des zweiten Trainings unter Verwendung der als Eingabe dienenden Ausgabe des ersten trainierten Maschinenlernmodells eine Ausgabe erzeugt wird, die angibt, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist; und Durchführen eines dritten Trainings des auf maschinellem Lernen beruhenden Modells, um ein drittes trainiertes Maschinenlernmodell zu erhalten, wobei während des dritten Trainings unter Verwendung der als Eingabe dienenden Ausgabe des zweiten trainierten Maschinenlernmodells das gefilterte Audiosignal ausgegeben wird.According to a possible embodiment, it is envisaged that creating the sound processing model comprises: performing a first training of the machine learning-based model to obtain a first trained machine learning model, wherein during the first training an output is generated using the audio signal serving as input , which represents the type of scene; performing a second training of the machine learning model to obtain a second trained machine learning model, wherein during the second training using the output of the first trained machine learning model serving as an input an output is generated indicating whether a respective tone in the one or the multiple tones is a desired tone or an undesired tone; and performing a third training of the machine learning-based model to obtain a third trained machine learning model, wherein during the third training using the out Output of the second trained machine learning model the filtered audio signal is output.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die ersten, zweiten und dritten trainierten Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert sind.According to one possible embodiment, it is provided that the first, second and third trained machine learning models are combined to form one or more hybrid machine learning models.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Rechengerät weiterhin konfiguriert ist, um einen Neulernprozess des Tonverarbeitungsmodells auf der Grundlage eines Audiosignals eines neuen Tons auszuführen, den das persönliche Tongerät während der Verwendung erfasst, so dass das Tonverarbeitungsmodell den neuen Ton als einen erwünschten Ton oder einen unerwünschten Ton erkennen kann, und um Verarbeitungsparameter zu erzeugen, mit denen das Tonverarbeitungsmodell den neuen Ton erkennen kann.According to a possible embodiment, it is envisaged that the computing device is further configured to perform a relearning process of the sound processing model based on an audio signal of a new sound that the personal sound device detects during use, so that the sound processing model recognizes the new sound as a desired sound or an undesired sound, and to generate processing parameters that allow the sound processing model to detect the new sound.
Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Rechengerät ferner konfiguriert ist, um ein Neutraining des zweiten trainierten Maschinenlernmodells durchzuführen, und wobei während des Neutrainings das Audiosignal des neuen Tons, den das persönliche Tongerät während der Verwendung erfasst, als Eingabe verwendet wird, um eine Ausgabe zu erzeugen, die angibt, ob der neue Ton ein erwünschter Ton oder ein unerwünschter Ton ist; und wobei während des Neutrainings Verarbeitungsparameter erzeugt werden, mit denen das zweite trainierte Maschinenlernmodell den neuen Ton erkennen kann.According to a possible embodiment it is envisaged that the computing device is further configured to perform a retraining of the second trained machine learning model, and wherein during the retraining the audio signal of the new sound that the personal sound device detects during use is used as input to generate an output indicating whether the new sound is a desired sound or an undesired sound; and during the retraining, generating processing parameters that enable the second trained machine learning model to recognize the new tone.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Tonverarbeitungssystem bereitgestellt, umfassend: eine oben erwähnte Tonverarbeitungsvorrichtung, die in einem persönlichen Tongerät vorgesehen ist; ein oben erwähntes Rechengerät, das in einem entfernten Server vorgesehen ist und ein Tonverarbeitungsmodell zum Verarbeiten eines Audiosignals eines oder mehrerer Töne erstellt, die an dem persönlichen Tongerät erfasst werden; und eine Tonanwendung, die in einem externen elektronischen Gerät außerhalb des persönlichen Tongeräts vorgesehen ist, wobei die Audioanwendung jeweils mit dem Rechengerät und der Tonverarbeitungsvorrichtung kommunikativ verbunden ist; wobei die Tonverarbeitungsvorrichtung eine umfangreiche Verarbeitung eines Audiosignals eines oder mehrerer Töne, die durch das persönliche Tongerät erfasst werden, unter Verwendung eines im entfernten Server erstellten Tonverarbeitungsmodells durchführt, um ein gefiltertes Audiosignal zu erzeugen, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird.According to another aspect of the present invention, there is provided a sound processing system comprising: a sound processing device as mentioned above provided in a personal sound device; a computing device mentioned above provided in a remote server and creating a sound processing model for processing an audio signal of one or more sounds detected at the personal sound device; and an audio application provided on an external electronic device external to the personal audio device, the audio application being communicatively coupled to the computing device and the audio processing device, respectively; wherein the sound processing device performs extensive processing of an audio signal of one or more sounds detected by the personal sound device using a sound processing model created in the remote server to generate a filtered audio signal such that an undesired sound in the one or more sounds is at least partially filtered and a desired tone in the one or more tones is passed.
Gemäß einem weiteren Aspekt der Erfindung wird ein Tonverarbeitungsverfahren bereitgestellt, das optional durch eine oben erwähnte Tonverarbeitungsvorrichtung und/oder durch ein oben erwähntes Tonverarbeitungssystem durchgeführt wird, wobei das Verfahren umfasst: Empfangen eines Audiosignals eines oder mehrerer von einem persönlichen Tongerät erfasster Töne, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfasst oder umfassen; Durchführen einer Klassifizierungsverarbeitung unter Verwendung eines Tonverarbeitungsmodells, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; Durchführen einer Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird; Durchführen einer Filterverarbeitung unter Verwendung des Tonverarbeitungsmodells, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird; und Ausgeben des gefilterten Audiosignals zum Liefern an den Benutzer.According to another aspect of the invention, there is provided a sound processing method, optionally performed by a sound processing device and/or a sound processing system as mentioned above, the method comprising: receiving an audio signal of one or more sounds detected by a personal sound device, the one or the plurality of tones includes or includes at least ambient noise around the personal audio device; performing classification processing using a sound processing model in which the type of scene in which a user of the personal sound device is located is determined based on the audio signal; performing recognition processing using the sound processing model, in which a respective sound of the one or more sounds is determined as a desired sound or an undesired sound based on the determined type of the scene; Performing filter processing using the sound processing model, in which a filter configuration is made based on a result of the recognition processing and the audio signal is filtered based on the filter configuration such that an undesired sound in the one or more sounds is at least partially filtered out and a desired one tone in the one or more tones is passed; and outputting the filtered audio signal for delivery to the user.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Tonverarbeitungsvorrichtung zur Verwendung in einem persönlichen Tongerät bereitgestellt, umfassend: einen oder mehrere Prozessoren; und einen Speicher, in dem computerausführbare Anweisungen gespeichert sind, wobei der eine oder die mehreren Prozessoren das oben erwähnte Verfahren durchführt oder durchführen, wenn die computerausführbaren Anweisungen ausgeführt werden.According to a further aspect of the present invention there is provided an audio processing apparatus for use in a personal audio device, comprising: one or more processors; and a memory in which computer-executable instructions are stored, wherein the one or more processors perform or perform the above-mentioned method when executing the computer-executable instructions.
Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium bereitgestellt, auf dem Anweisungen gespeichert sind, wobei mindestens ein Prozessor das oben erwähnte Verfahren durchführt, wenn die Anweisungen durch den mindestens einen Prozessor ausgeführt werden.According to a further aspect of the invention there is provided a computer-readable storage medium storing instructions, wherein at least one processor performs the above-mentioned method when the instructions are executed by the at least one processor.
Somit ist es gemäß der technischen Lösung der vorliegenden Erfindung möglich, eine Automatisierung der durch das persönliche Tongerät empfangenen Töne unter Verwendung des Maschinenlernmodells durchzuführen, so dass der Benutzer in der Lage ist, Töne zu hören, die mit dem Typ der Szene und seinen eigenen Absichten übereinstimmen. Gemäß der technischen Lösung der vorliegenden Erfindung ist es ferner vorgesehen, dass durch Kombinationslösungen über die Anpassung der Tonfilterung und des Durchlassens für verschiedene Szenentypen und verschiedene Benutzer der Grad an Intelligenz und Automatisierung der Tonverarbeitung kontinuierlich verbessert und erweitert werden kann.Thus, according to the technical solution of the present invention, it is possible to perform automation of the sounds received by the personal sound device using the machine learning model, so that the user is able to hear sounds compatible with the type of scene and his own intentions to match. According to the technical solution of the present invention, it is further envisaged that through combination solutions via the adjustment of the tone filtering and passing for different scene types and different users, the level of intelligence and automation of sound processing can be continuously improved and expanded.
Figurenlistecharacter list
-
1 zeigt eine beispielhafte Betriebsumgebung, in der einige Implementierungen der vorliegenden Erfindung implementiert werden können.1 Figure 1 shows an exemplary operating environment in which some implementations of the present invention may be implemented. -
2 ist ein schematisches Blockschaltbild eines Schallverarbeitungssystems gemäß einer möglichen Ausführungsform der Erfindung, wobei die Tonverarbeitungsvorrichtung zur Verwendung im persönlichen Tongerät gemäß der vorliegenden Erfindung enthalten ist.2 Figure 12 is a schematic block diagram of a sound processing system according to a possible embodiment of the invention, including sound processing apparatus for use in the personal sound device according to the present invention. -
3 zeigt einen beispielhaften Prozess einer Tonverarbeitung gemäß einer möglichen Ausführungsform der Erfindung.3 Figure 12 shows an exemplary process of sound processing according to a possible embodiment of the invention. -
4 zeigt einen beispielhaften Prozess eines Neulernens des Tons gemäß einer möglichen Ausführungsform der vorliegenden Erfindung.4 Figure 12 shows an exemplary process of relearning the sound according to one possible embodiment of the present invention. -
5 zeigt einen beispielhaften Prozess eines Audio-Pushens gemäß einer möglichen Ausführungsform der vorliegenden Erfindung.5 Figure 12 shows an exemplary process of audio pushing according to one possible embodiment of the present invention. -
6 ist ein Flussdiagramm eines Tonverarbeitungsverfahrens gemäß einer möglichen Ausführungsform der Erfindung.6 Figure 12 is a flowchart of a sound processing method according to one possible embodiment of the invention. -
7 zeigt ein schematisches Blockdiagramm einer weiteren Schallverarbeitungsvorrichtung gemäß der vorliegenden Erfindung.7 Fig. 12 shows a schematic block diagram of another sound processing device according to the present invention.
Konkrete AusführungsformenConcrete embodiments
Die vorliegende Erfindung bezieht sich allgemein auf eine technische Lösung zum automatischen Verarbeiten von Tonsignalen, die durch ein persönliches Tongerät erfasst sind. Spezifisch kann das Tonverarbeitungsschema gemäß der vorliegenden Erfindung basierend auf Techniken der künstlichen Intelligenz (Artificial Intelligence, AI) implementiert werden.The present invention generally relates to a technical solution for automatically processing audio signals captured by a personal audio device. Specifically, the sound processing scheme according to the present invention can be implemented based on Artificial Intelligence (AI) techniques.
Im Sinne der Erfindung bezieht sich ein „persönliches Tongerät“ auf eine Vorrichtung, die dazu ausgebildet ist, an, über oder um zumindest ein Ohr eines Benutzers positioniert zu werden, wie zum Beispiel Kopfhörer, Ohrstöpsel und Ohrhörer, oder dergleichen.For purposes of the invention, a “personal audio device” refers to a device adapted to be positioned on, over, or around at least one ear of a user, such as headphones, earbuds and earbuds, or the like.
Nachfolgend werden Ausführungsbeispiele der Erfindung unter Bezugnahme auf die begleitende Zeichnung im Detail beschrieben.Exemplary embodiments of the invention are described in detail below with reference to the accompanying drawings.
In Bezug auf
Die Tonverarbeitungsvorrichtung 10 ist in einem persönlichen Tongerät 1. Das persönliche Tongerät 1 ist beispielsweise ein Kopfhörer. Das persönliche Tongerät 1 kann mehrere Benutzer, zum Beispiel die in
Die Tonverarbeitungsvorrichtung 10 kann in einer Verarbeitungseinheit des persönlichen Tongeräts 1 vorgesehen sein, wobei die Verarbeitungseinheit einen beliebigen Typ von allgemeinen Verarbeitungseinheiten, einschließlich, jedoch nicht beschränkt auf, CPUs, GPUs und dergleichen, dedizierte Verarbeitungseinheiten, einschließlich, jedoch nicht beschränkt auf, anwendungsspezifischer integrierter Schaltungen (ASICs), programmierbare Logikbausteine (PLDs), digitale Signalprozessoren (DSPs), feldprogrammierbare Gate-Arrays (FPGAs) und dergleichen umfassen kann.The
Die Tonverarbeitungsvorrichtung 10 umfasst im Wesentlichen ein Empfangsmodul 12, ein Verarbeitungsmodul 14, ein Kommunikationsmodul 16 und ein Ausgabemodul 18. Bei einem Ausführungsbeispiel kann die Tonverarbeitungsvorrichtung 10 durch Techniken künstlicher Intelligenz implementiert sein, d. h. alle oder ein Teil der Module der Tonverarbeitungsvorrichtung 10 kann bzw. können mit Hilfe von einem oder mehreren AI-Chips implementiert sein. Beispielsweise ist ein Teil der Funktionsmodule der Tonverarbeitungsvorrichtung 10 auf einem AI-Chip angeordnet, und ein anderer Teil der Funktionsmodule ist auf einem anderen AI-Chip angeordnet.The
Es ist zu verstehen, dass die Bezeichnung jedes Moduls der Tonverarbeitungsvorrichtung 10 als eine logische Darstellung und nicht als eine Einschränkung der physischen Form oder Anordnung zu verstehen ist. Mit anderen Worten, eines oder mehrere des Empfangsmoduls 12, des Verarbeitungsmoduls 14, des Kommunikationsmoduls 16 und des Ausgabemoduls 18 können in dem gleichen Chip oder der gleichen Schaltung implementiert sein, oder sie können jeweils in verschiedenen Chips oder Schaltungen angeordnet sein, worauf die Erfindung nicht begrenzt ist. Für jedes Modul der Tonverarbeitungsvorrichtung 10 sollte verstanden werden, dass die fahrzeuginterne Vorrichtung 10 dieses Modul enthält, solange die Tonverarbeitungsvorrichtung 10 eine Funktion eines Moduls aufweist.It is to be understood that the naming of each module of
Das Verarbeitungsmodul 14 kann eine Tonverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durchführen. Das Tonverarbeitungsmodul 140 wird zuvor auf dem entfernten Server 3 (z. B. dem Rechengerät 30) vorerstellt. Das Tonverarbeitungsmodul 140 kann mehrere Untermodelle umfassen. Das Tonverarbeitungsmodul 140 kann ein oder mehrere auf maschinellem Lernen beruhende Modelle enthalten.The
In einem Ausführungsbeispiel ist das Tonverarbeitungsmodell 140 als ein auf maschinellem Lernen basierendes Modell implementiert, wobei das auf maschinellem Lernen beruhende Modell vorab auf einem entfernten Server 3 (z. B. einem Rechengerät 30) trainiert wird und außerdem in der Lage ist, wieder zu lernen (Funktion). Das trainierte Maschinenlernmodell 140 kann ein oder mehrere Hybridmaschinenlernmodelle enthalten. Beispielsweise kann das trainierte Maschinenlernmodell 140 ein Sprachabdruckerkennungsmodell 142, ein Datenanalyse-/Miningmodell 144, ein Sprachverarbeitungsmodell 146, einen Audio-Wissensgraphen 148, ein Modell 150, das sich auf die Verarbeitung von Audio-Streams bezieht (z. B. ein statistisches Sprachratenmodell, ein Schlüsselworterkennungsmodell, ein Merkmalstonerkennungsmodell usw.) oder dergleichen umfassen.In one embodiment, the
Die Tonverarbeitungsvorrichtung 10 kann aktiviert sein, wenn das persönliche Tongerät 1 eingeschaltet ist (z. B. die Power-Taste des Kopfhörers im eingeschalteten Zustand ist), d. h. seine Tonverarbeitungsfunktion wird aktiviert, wenn das persönliche Tongerät 1 eingeschaltet ist. Die Tonverarbeitungsvorrichtung 10 kann ausgeschaltet werden, wenn das persönliche Tongerät 1 ausgeschaltet wird (z. B. die Power-Taste des Kopfhörers in dem ausgeschalteten Zustand ist).The
Die Audioanwendung 20 wird auf einem externen elektronischen Gerät 2 bereitgestellt, das außerhalb des persönlichen Tongeräts 1 angeordnet ist, und das externe elektronische Gerät 2 ist beispielsweise ein Smartphone, ein Desktop-Computer, ein Tablet-Computer, ein Multimedia-Player und dergleichen. Das externe elektronische Gerät 2 kann in einer verdrahteten und/oder drahtlosen Weise kommunikativ mit dem persönlichen Tongerät 1 verbunden sein, so dass ein Austausch von Daten zwischen der Tonverarbeitungsvorrichtung 10 und der Audioanwendung 20 ermöglicht wird. Zum Beispiel können Daten unter Verwendung von USB-Drähten zwischen dem externen elektronischen Gerät 2 und dem persönlichen Tongerät 1 übertragen werden. Die Daten können auch zwischen dem externen elektronischen Gerät 2 und dem persönlichen Tongerät 1 über das Netzwerk übertragen werden, wobei das Netzwerk, ohne darauf beschränkt zu sein, drahtlose lokale Netzwerke (WLANs), Infrarot(IR)-Netzwerke, Bluetooth-Netzwerke, Nahfeldkommunikations(NFC)-Netzwerke, ZigBee-Netzwerke und dergleichen umfasst.The
Das Rechengerät 30 ist in dem entfernten Server 3 vorgesehen. Der entfernte Server 3 kann kommunikativ mit dem externen elektronischen Gerät 2 gekoppelt sein, so dass ein Austausch von Daten zwischen der Audioanwendung 20 und dem Rechengerät 30 ermöglicht wird. Der entfernte Server 3 kann über das Netzwerk mit dem externen elektronischen Gerät 2 kommunikativ verbunden sein, wobei das Netzwerk auf einer beliebigen Funkkommunikationstechnologie und/oder einem beliebigen Funkkommunikationsstandard basieren kann. Beispielsweise kann das Netzwerk ein beliebiges Standardtelekommunikationsnetz enthalten, das von einem Telekommunikationsbetreiber bereitgestellt wird. Das Netzwerk kann auch ein Internet der Dinge (loT) umfassen. Bei einer Implementierung kann der entfernte Server 3 in einer verteilten Rechenumgebung eingesetzt werden, wobei die Implementierung auch unter Verwendung von Cloud-Computing-Technologie erfolgen kann, ohne dass die Erfindung darauf beschränkt ist.The
Es ist zu verstehen, dass ein Austausch von Daten zwischen dem persönlichen Tongerät 1 und dem entfernten Server 3 durch das externe elektronische Gerät 2 durchgeführt wird. Beispielsweise, in einem Neulernprozess, der nachstehend beschrieben wird, überträgt die Tonverarbeitungsvorrichtung 10 ein Audiosignal eines neuen Tons (z. B. eines Tons, der von verschiedenen Benutzern während des Verwendens des persönlichen Tongeräts 1 aufgenommen wird, der nicht durch die Tonverarbeitungsvorrichtung 10 erkannt wird) an die Audioanwendung 20 und lädt die Audioanwendung 20 das Audiosignal des neuen Tons mit der Markierung zum entfernten Server 3 hoch.It is understood that an exchange of data between the personal audio device 1 and the remote server 3 is performed through the external electronic device 2 . For example, in a relearning process described below, the
Im Block 302 empfängt das Empfangsmodul 12 ein Audiosignal eines oder mehrerer Töne. Der eine oder die mehreren Töne können Umgebungsgeräusche umfassen, die von einem Mikrophon des persönlichen Tongeräts 1 um dieses herum aufgenommen (erfasst) werden. Der eine oder die mehreren Töne können auch Töne von dem externen elektronischen Gerät 2 umfassen, z. B. Sprachereignisse, wie beispielsweise Gespräche, Audioeingabeereignisse, wie beispielsweise das Abspielen von Musik, Video und dergleichen.At
In Block 304 analysiert das Verarbeitungsmodul 14 das empfangene Audiosignal, um den Typ der Szene, in der sich der Benutzer des persönlichen Tongeräts 1 befindet, zu bestimmen. Zum Beispiel führt das Verarbeitungsmodul 14 die Klassifizierungsverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, bei der der Typ der Szene, in der sich der Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des empfangenen Audiosignals bestimmt wird. Der Teil des Tonverarbeitungsmodells 140 zur Ausführung der Klassifikationsverarbeitung kann durch das Rechengerät 30 durch den ersten Erstellungsprozess implementiert sein. Beispielsweise wird in diesem ersten Erstellungsprozess ein Untermodell des Tonverarbeitungsmodells 140 zur Klassifizierungsverarbeitung realisiert.In
Der Typ von Szene kann Büros, Zuhause, öffentliche Verkehrsmittel oder dergleichen umfassen. In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 auch Unterkategorien (d. h. kleine Kategorien unter großen Kategorien) unter den Kategorien der Szenen ermitteln. Beispielsweise kann der Szenentyp für öffentliche Verkehrsmittel U-Bahn, Zug, Flugzeug usw. umfassen. Der Typ der Szene für Büro kann kleine Kategorien enthalten, die auf Arbeitsaufgaben und/oder Organisationsstruktur basieren, z. B. Projektteam 1, Projektteam 2, Personalabteilung, Forschungs- und Entwicklungsabteilung usw.The type of scene can include offices, homes, public transportation, or the like. In one embodiment, the
In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 ein erstes trainiertes Maschinenlernmodell verwenden, um den Typ der Szene auszugeben. Dieses erste trainierte Maschinenlernmodell ist beispielsweise ein zur Kategorie geeignetes Modell. Das erste trainierte Maschinenlernmodell wird durch Durchführen eines ersten Lernens an dem auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des ersten Trainingsprozesses werden Audiosignale von Tönen der jeweiligen Kategorien als Modelleingaben zugeführt und Szenenkategorien werden als Modellausgaben erzeugt. Während des ersten Trainings können zuerst die Klassifizierung großer Kategorien und dann die kleinen Kategorien unter jeder großen Kategorie trainiert werden. Während des Trainings für kleine Kategorien werden Audiosignale verschiedener kleiner Kategorien von Tönen als Modelle ausgegeben, und eine Modellausgabe, die die kleinen Kategorien darstellt, wird erzeugt.In one embodiment,
In Block 306 führt das Verarbeitungsmodul 14 einen Erkennungsprozess aus, um zu erkennen, welche Töne von einem oder mehreren Töne die erwünschten Töne (d. h. die Töne, die der Benutzer des persönlichen Tongeräts 1 unter dem Typ der Szene hören möchte) unter den bestimmten Szenenkategorien sind und welche Töne unerwünschte Töne sind (d. h. die Töne, die der Benutzer des persönlichen Tongeräts 1 unter dem Typ der Szene nicht hören möchte). Zum Beispiel führt das Verarbeitungsmodul 14 die Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von einem oder mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird. Der Teil des Tonverarbeitungsmodells 140, der verwendet wird, um die Erkennungsverarbeitung durchzuführen, kann durch das Rechengerät 30 durch den zweiten Erstellungsprozess implementiert sein. Beispielsweise wird in diesem zweiten Erstellungsprozess ein Untermodell des Tonverarbeitungsmodells 140 zur Erkennungsverarbeitung realisiert.At
In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 ein zweites trainiertes Maschinenlernmodell verwenden, um Erkennungsergebnisse für den jeweiligen Ton in dem einen oder den mehreren Tönen auszugeben. Dieses zweite trainierte Maschinenlernmodell ist beispielsweise ein zur Tonerkennung geeignetes Modell. Das zweite trainierte Maschinenlernmodell wird durch Durchführen eines zweiten Lernens am auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des zweiten Trainings wird unter Verwendung der als Eingabe dienenden Ausgabe des ersten trainierten Maschinenlernmodells eine Ausgabe erzeugt, die angibt, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist.In one embodiment, the
Es versteht sich, dass die Toneigenschaften bei verschiedenen Szenenkategorien unterschiedlich sind, wobei das zweite trainierte Maschinenlernmodell ein Modell verwenden kann, das für die Eigenschaften der verschiedenen Arten von Tönen geeignet ist, um den Erkennungsprozess dieser Art von Tönen durchzuführen. Dementsprechend wird das Rechengerät 30 unter Verwendung der Parameter, die Eigenschaften der verschiedenen Typen von Tönen darstellen, im Verlauf der Durchführung des zweiten Trainings das Training durchführen.It is understood that the sound properties are different in different scene categories, the second trained machine learning model can use a model suitable for the properties of the different types of sounds to perform the recognition process of these types of sounds. Accordingly, in the course of performing the second training, the
Nachstehend werden Beispiele einiger Tonerkennungsprozesse beispielhaft beschrieben.Examples of some tone recognition processes are described below by way of example.
In einem Block 3061 wird das Cepstrum des Audiosignals unter Verwendung eines Cepstrum-bezogenen Modells analysiert, um Tonquellen für jeden Ton zu bestimmen, wodurch ermittelt wird, ob der Ton ein erwünschter Ton oder ein unerwünschter Ton ist. Diese Art der Analyse ist besonders geeignet, um Tonsignale, die hinsichtlich Frequenz- oder Bandbreiten-Merkmalen in der Fahrzeugszene auffällig sind, wie etwa Autohupen, starke Anschlaggeräusche, Brummen des Motors in der Kabine oder dergleichen, zu analysieren und zu erkennen.In a
In Block 3062 wird das Audiosignal unter Verwendung eines Modells, das sich auf die Sprachabdruckerkennung bezieht, analysiert und erkannt, um die Tonquelle (z. B. den Sprecher) jedes Tons zu bestimmen, wodurch ermittelt wird, ob der Ton ein erwünschter Ton oder ein unerwünschter Ton ist. Diese Analysemethode eignet sich besonders zur Unterscheidung von Schall unterschiedlicher Personen. Beispielsweise wird bei der Bestimmung der Szenenkategorien bestimmt, ob die Stimme einer Person als Rauschen abgefiltert werden sollte, oder als Nutzinformation an eine Person mit Kopfhörern durchgelassen wird. Beispielsweise kann eine derartige Erkennungsverarbeitung eingesetzt werden, die es einer mit dem Kopfhörer versehenen Person ermöglicht, in einer Büroszene die Diskussionsstimme von ihrem eigenen Projektteam zugeordneten Kollegen zu hören, während die Diskussionsstimme von Kollegen in einem anderen Projektteam blockiert werden.In
Auf diese Weise können akustische Merkmale verschiedener Aspekte als die Modell-Verarbeitungsparameter berücksichtigt werden, die eines oder mehrere der folgenden enthalten können: (1) Lexikalische Merkmale (zum Beispiel die Art und Weise, wie der Sprecher einen bestimmten Ton ausspricht); (2) Prosodische Merkmale (zum Beispiel der Grundton und die Energiehaltung des Sprechers); (3) Dialekte und Gewohnheiten (d. h. Wörter, die vom Sprecher leicht wiederholt zu verwenden sind); (4) Andere kundenspezifische akustische Merkmale.In this way, acoustic features of various aspects can be considered as the model processing parameters, which may include one or more of the following: (1) lexical features (e.g., the way the speaker pronounces a particular sound); (2) prosodic features (for example, the speaker's fundamental tone and energy attitude); (3) dialects and habits (i.e., words easily used repeatedly by the speaker); (4) Other custom acoustic features.
In Block 3063 kann das Erkennen von Schlüsselwörtern und/oder Schlüsseltönen an dem Audiosignal unter Verwendung eines Modells durchgeführt werden, das sich auf die Spracherkennung bezieht. Die Schlüsselworte und/oder Schlüsseltöne können Wörter oder Töne sein, deren Tonquelle leicht ermittelt werden kann und somit ermittelt werden kann, ob die Töne abgefiltert oder durchgelassen werden, beispielsweise die Ansage eines Bahnhofs in einem Bahnhof, eine Notfallinformationssendung durch öffentliche Einrichtungen und der Warnton des Krankenwagens oder dergleichen.In
In Block 3064 empfängt das Kommunikationsmodul 16 Anweisungen von der Audioanwendung 20, wobei die Anweisung ein Tonverarbeitungsschema (Filtern oder Durchlassen) unter den bestimmten Szenenkategorien angibt. Das Verarbeitungsmodul 14 stellt die angegebenen Töne gemäß den Anweisungen als erwünschte Töne oder unerwünschte Töne ein.In
In einem Ausführungsbeispiel erkennt die Audioanwendung 20 den bestimmten Typ der Szene über das Kommunikationsmodul 16 und zeigt ein Optionsmenü für die jeweiligen Tonquellen unter diesem Typ der Szene auf ihrer Bedienerschnittstelle an. Der Benutzer des persönlichen Tongeräts 1 kann in dem Optionsmenü auswählen, welche Töne auszufiltern sind und welche Töne durchzulassen sind. Anweisungen, die Absicht des Benutzers für die Filterung der Töne angeben, werden über das Kommunikationsmodul 16 an das Verarbeitungsmodul 14 übertragen, wobei das Verarbeitungsmodul 14 die empfangenen Töne gemäß den Anweisungen einstellt.In one embodiment, the
Es ist zu beachten, dass, im Falle, dass eine Toneinstellung gemäß der Anweisung aus der Audioanwendung 20 mit einer Toneinstellung im Widerspruch steht, die durch das Verarbeitungsmodul gemäß einer vorbestimmten Analyseidentifikationsstrategie bestimmt wird, die Toneinstellung gemäß der Anweisung vorzugsweise ausgeführt wird, weil die Anweisung die aktuelle Absicht des Benutzers widerspiegeln kann. Zum Beispiel kann in dem Fall, in dem das Tonverarbeitungsmodell erkannt hat, welche Töne erwünschte Töne sind und welche Töne unerwünschte Töne sind, und die Filterkonfiguration basierend auf einer solchen Erkennung durchgeführt wird, die Anpassung der Filterkonfiguration basierend auf Anweisungen vorgenommen werden, die die Absicht des Benutzers für die Tonfilterung angeben.It should be noted that, in the event that a tone adjustment according to the instruction from the
In Block 308 führt das Verarbeitungsmodul 14 gemäß dem bestimmten erwünschten Ton und unerwünschten Ton eine Filterkonfiguration aus, um das Audiosignal auf der Basis der Konfiguration zu filtern, wodurch unerwünschte Töne in dem einen oder den mehreren empfangenen Tönen zumindest teilweise abgefiltert werden, und wobei erwünschte Töne in dem einen oder den mehreren empfangenen Tönen durchgelassen werden. Zum Beispiel führt das Verarbeitungsmodul 14 die Filterverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, wobei in der Filterverarbeitung eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung durchgeführt wird und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, wodurch unerwünschte Töne zumindest teilweise abgefiltert werden, und wobei erwünschte Töne durchgelassen werden. Der Teil des Tonverarbeitungsmodells 140 zur Ausführung der Filterverarbeitung kann durch das Rechengerät 30 durch den dritten Erstellungsprozess implementiert sein. Beispielsweise in diesem dritten Erstellungsprozess wird ein Untermodell des Tonverarbeitungsmodells 140 zur Filterverarbeitung realisiert.In
Es versteht sich, dass „die Filterkonfiguration und das Filtern auf der Basis der Filterkonfiguration“ durch Hardware oder Software oder eine Kombination von Software und Hardware implementiert werden kann. Zum Beispiel kann die Art und Weise, in der die Hardware implementiert ist, mittels einer oder mehrerer anwendungsspezifischer integrierter Schaltungen (ASICs) implementiert sein, die als Filter arbeiten.It is understood that "the filter configuration and the filtering based on the filter configuration" can be implemented by hardware or software or a combination of software and hardware. For example, the manner in which the hardware is implemented may be implemented using one or more application specific integrated circuits (ASICs) that operate as filters.
Bei einem Ausführungsbeispiel verwendet das Verarbeitungsmodul 14 ein drittes trainiertes Maschinenlernmodell, um die Filterkonfiguration und die Filteroperationen auszuführen. Das dritte trainierte Maschinenlernmodell wird durch Durchführen eines dritten Lernens am auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des dritten Trainings wird die Ausgabe des zweiten trainierten Maschinenlernmodells als Eingabe verwendet, um das gefilterte Audiosignal auszugeben. Dadurch werden die unerwünschten Töne in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert, und die erwünschten Töne in dem einen oder den mehreren Tönen werden durchgelassen.In one embodiment,
Es versteht sich, dass, obwohl verschiedene auf maschinellem Lernen beruhenden Modelle oben beschrieben sind, diese auf maschinellem Lernen beruhenden Modelle als ein oder mehrere Hybridmodelle implementiert werden können. Beispielsweise werden die vorstehend beschriebenen ersten, zweiten und dritten trainierten Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert. Während der Verwendung der Trainingsdaten zum Trainieren des Modells kann das Rechengerät das oben erwähnte auf maschinellem Lernen beruhende Modell in ein oder mehrere Hybridmaschinenlernmodelle trainieren.It should be understood that although various machine learning based models are described above, these machine learning based models can be implemented as one or more hybrid models. For example, the first, second, and third trained machine learning models described above are combined into one or more hybrid machine learning models. While using the training data to train the model, the computing device may train the aforementioned machine learning-based model into one or more hybrid machine learning models.
In Block 310 wird das gefilterte Audiosignal ausgegeben, so dass der Benutzer des persönlichen Tongeräts 1 die intelligent gefilterten und mit seinen eigenen Absichten konsistenten Töne hört.In
In Block 402 überträgt die Tonverarbeitungsvorrichtung 10 Tondaten (Audiosignal) neuer Töne, die durch den Benutzer während der Verwendung des persönlichen Tongeräts 1 erfasst werden, über das Kommunikationsmodul 16 an die Audioanwendung 20. Der neue Ton ist beispielsweise ein Ton, an dem der aktuelle Benutzer des persönlichen Tongeräts interessiert ist, oder der Benutzer glaubt, dass der Ton in den Erkennungsbereich aufgenommen werden muss, wobei der Ton zuvor nicht in den Tönen irgendeiner Umgebungskategorie enthalten ist, d. h. nicht in den Tönen irgendeiner großen oder kleinen Kategorie enthalten ist.In
Es ist verständlich, dass die übertragenen Tondaten von verschiedenen Benutzern während der Verwendung enthalten können, beispielsweise Tondaten DATA1 von USER1, Tondaten DATA2 von USER2, Tondaten DATA3 von USER3 und so weiter.It is understood that the transmitted sound data from different users during use may contain, for example, sound data DATA1 from USER1, sound data DATA2 from USER2, sound data DATA3 from USER3, and so on.
In Block 404 stellt der Benutzer eine Markierung mit Hilfe der Audioanwendung 20 für diese Tondaten ein, um den neuen Ton zu identifizieren. Die Markierung ist zum Beispiel eine Stimme eines Freundes A, eine Stimme der Kollegen B, eine Stimme des Kunden C, etc. Dann überträgt die Audioanwendung 20 die Daten des neuen Tons mit der Markierung an das Rechengerät 30 auf dem entfernten Server 3.In
In Block 406 führt das Rechengerät 30 an dem entfernten Server 3 ein erneutes Lernen des erstellten Tonverarbeitungsmodells auf Grundlage der Daten des neuen Tons durch, nachdem die Daten des neuen Tons empfangen werden, so dass das Tonverarbeitungsmodell den neuen Ton als den erwünschten Ton oder den unerwünschten Ton erkennen kann, und um Verarbeitungsparameter zu erzeugen, damit das Tonverarbeitungsmodell den neuen Ton erkennen kann.In
In einem Ausführungsbeispiel trainiert das Rechengerät 30 das auf maschinellem Lernen beruhende Modell neu, indem das Rechengerät die empfangenen Daten des neuen Tons als Trainingsmuster verwendet. Beispielsweise führt das Rechengerät 30 ein erneutes Training für das zweite trainierte Maschinenlernmodell durch. Während des Neutrainings werden Daten des neuen Tons als Modelleingaben verwendet, um die durch die Markierung dargestellte Kategorie als Modellausgaben zu erzeugen. Durch ein solches erneutes Training können Modellparameter (Verarbeitungsparameter) zum Aktualisieren des zweiten trainierten Maschinenlernmodells erzeugt werden, d. h., das zweite trainierte Maschinenlernmodell, das sich in dem Verarbeitungsmodul 14 befindet, kann durch Importieren der Modellparameter (Verarbeitungsparameter) in der Lage sein, zu erkennen, dass der neue Ton ein erwünschter oder ein unerwünschter Ton ist.In one embodiment, the
Es versteht sich, dass die Daten als die neu trainierten Töne von einer Vielzahl von Benutzern des persönlichen Tongerätes 1 stammen können, und daher können angepasste Kombinationen von Tonfilterung und Durchlassen, die für jeweilige Absichten geeignet sind, für verschiedene Benutzer angepasst werden.It will be appreciated that the data as the retrained tones can come from a variety of users of the personal audio device 1 and therefore customized combinations of tone filtering and passing appropriate to particular intentions can be adapted for different users.
In Block 408 überträgt das Rechengerät 30 die Modellparameter für die Aktualisierung an die Audioanwendung 20, die dann von der Audioanwendung 20 in die Tonverarbeitungsvorrichtung 10 des persönlichen Tongeräts 1 gepusht wird, sodass die Tonverarbeitungsvorrichtung 10 einen neuen Ton erkennen kann, wodurch die Tonverarbeitungsvorrichtung 10 die Funktion hat, die Fähigkeit zur Tonerkennung zu verbessern.In
In Block 502 lernt die Audioanwendung 20 die aktuelle Umgebung (Ort) des Benutzers des persönlichen Tongeräts 1 durch die Tonverarbeitungsvorrichtung 10 und/oder sein eigenes Positionierungssystem. Auch kann die Audioanwendung 20 lernen, ob der Benutzer gegenwärtig in einem Sprachereignis (Anruf) ist.In
In Block 504 kann in dem Fall, dass sich der Benutzer nicht in einem Sprachereignis befindet, die Audioanwendung 20 geeignete Audioinhalte von der Audiowolke 4 erhalten, dann wird dem Benutzer auf einer Schnittstelle der Audioanwendung 20 angezeigt, ob das Abspielen des empfohlenen Inhalts erlaubt ist.At
In Block 506, in dem Fall, in dem der Benutzer „Abspielen erlauben“ auf der Schnittstelle der Audioanwendung 20 auswählt, empfängt die Tonverarbeitungsvorrichtung 10 einen gepushten Audioinhalt, z. B. Musik, Cross-Talk und Comics oder ähnliches, die für die vorliegende Szene geeignet sind, von der Audioanwendung 20 über das Kommunikationsmodul.In
In einem Ausführungsbeispiel ist das externe elektronische Gerät 2 kommunikativ mit einer Audiowolke 4 (z. B. NetEase Cloud Music) verbunden. Die Audioanwendung 20 erlangt geeigneten Audioinhalt von der Audiowolke 4, wenn die Umgebung des Benutzers bestimmt ist und kein Sprachereignis vorliegt, dann wird dem Benutzer auf einer Schnittstelle der Audioanwendung 20 angezeigt, ob das Abspielen des empfohlenen Inhalts möglich ist, wobei der gepushte Audioinhalt dann dem Benutzer abgespielt werden kann, wenn der Benutzer „Ja“ auswählt.In one embodiment, the external electronic device 2 is communicatively connected to an audio cloud 4 (e.g., NetEase Cloud Music). The
In Schritt S610 wird ein Audiosignal eines oder mehrerer von dem persönlichen Tongerät erfasster Töne empfangen, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfassen.In step S610, an audio signal of one or more tones detected by the personal audio device is received, the one or more tones comprising at least ambient noise around the personal audio device.
In Schritt S612 wird ein Tonverarbeitungsmodell verwendet, um eine Klassifizierungsverarbeitung durchzuführen, bei der der Typ einer Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird.In step S612, a sound processing model is used to perform classification processing in which the type of a scene in which a user of the personal sound device is located is determined based on the audio signal.
In Schritt S614 wird die Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells durchgeführt, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird.In step S614, recognition processing is performed using the sound processing model, in which a respective sound of the one or more sounds is determined to be a desired sound or an undesired sound based on the determined type of scene.
In Schritt S616 wird das Tonverarbeitungsmodell verwendet, um eine Filterverarbeitung durchzuführen, wobei in der Filterverarbeitung eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung durchgeführt wird und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, wodurch unerwünschte Töne in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert werden, und wobei erwünschte Töne in dem einen oder den mehreren Tönen durchgelassen werden.In step S616, the sound processing model is used to perform filter processing, in which filter processing a filter configuration is performed based on a result of the recognition processing and the audio signal is filtered based on the filter configuration, thereby removing unwanted sounds in the one or more sounds at least partially filtered out, and passing desired tones in the one or more tones.
Im Schritt S618 wird das gefilterte Audiosignal zum Liefern an einen Benutzer ausgegeben.In step S618, the filtered audio signal is output for delivery to a user.
Die vorliegende Erfindung stellt auch ein computerlesbares Speichermedium bereit. Das computerlesbare Speichermedium kann Anweisungen umfassen. Wenn die Anweisungen ausgeführt werden, werden ein oder mehrere Prozessoren veranlasst, Operationen für eine intelligente Tonverarbeitung gemäß den obigen Ausführungsbeispielen der vorliegenden Offenbarung auszuführen, beispielsweise dem obigen Verfahren 600.The present invention also provides a computer-readable storage medium. The computer-readable storage medium may include instructions. When the instructions are executed, one or more processors are caused to perform intelligent sound processing operations in accordance with the above embodiments of the present disclosure, such as
Es ist dadurch ersichtlich, dass gemäß der technischen Lösung der vorliegenden Erfindung der von dem persönlichen Tongerät empfangene Ton mittels künstlicher Intelligenztechnologie automatisch verarbeitet werden kann, so dass der Benutzer in die Lage ist, Töne zu hören, die mit dem Typ der Szene und seinen eigenen Absichten übereinstimmen.It can be seen from this that according to the technical solution of the present invention, the sound received from the personal sound device can be automatically processed using artificial intelligence technology, so that the user is able to hear sounds that are compatible with the type of scene and his own agree on intentions.
Ferner ist es gemäß der Lösung der vorliegenden Erfindung nicht notwendig, eine lokale Datenbank, die eine große Anzahl von Muster-Tondaten enthält, in einem persönlichen Tongerät vorzusehen, da die große Anzahl von Muster-Tönen als Trainingsdaten den entsprechenden Klassifizierungs-, Erkennungs- und Übereinstimmungsprozess in dem entfernten Server abschließt.Furthermore, according to the solution of the present invention, it is not necessary to provide a local database containing a large number of sample sound data in a personal sound device, since the large number of sample sounds as training data are associated with the corresponding classification, recognition and matching process in the remote server completes.
Darüber hinaus ist es gemäß der technischen Lösung der vorliegenden Erfindung möglich, eine Kombination von Abfiltern und Durchlassen von Tönen für unterschiedliche Szenentypen und unterschiedliche Benutzer anzupassen, ohne eine Einstellung für jeden Ton während jeder Verwendung zu benötigen.Furthermore, according to the technical solution of the present invention, it is possible to adjust a combination of filtering and passing of sounds for different types of scenes and different users without requiring adjustment for each sound during each use.
Darüber hinaus wird gemäß der technischen Lösung der vorliegenden Erfindung ein Maschinenlernmodell verwendet, das sich gut zum Klassifizieren, Identifizieren und Filtern von Tondaten eignet, um eine Tondatenverarbeitung zu realisieren, wodurch unterschiedliche Eigenschaften und/oder Abhängigkeiten von verschiedenen Arten von Tondaten schnell und ausreichend herausgearbeitet werden können, wodurch die Effizienz und Genauigkeit der Tondatenverarbeitung verbessert wird.In addition, according to the technical solution of the present invention, a machine learning model, which is good for classifying, identifying and filtering sound data, is used to realize sound data processing, whereby different properties and/or dependencies of different types of sound data are quickly and sufficiently worked out can, thereby improving the efficiency and accuracy of sound data processing.
Es versteht sich, dass alle Module in der oben beschriebenen Vorrichtung auf verschiedene Arten implementiert werden können. Diese Module können als Hardware, Software oder eine Kombination davon ausgeführt sein. Darüber hinaus können beliebige der Module funktional weiter in Untermodule unterteilt oder miteinander kombiniert sein.It is understood that all modules in the device described above can be implemented in different ways. These modules can be embodied in hardware, software, or a combination thereof. In addition, any of the modules can be functionally further divided into sub-modules or combined with one another.
Der Prozessor wurde in Verbindung mit verschiedenen Vorrichtungen und Verfahren beschrieben. Diese Prozessoren können unter Verwendung von elektronischer Hardware, Computersoftware oder einer Kombination davon implementiert sein. Ob diese Prozessoren als Hardware oder Software implementiert sind, hängt von der speziellen Anwendung und den dem System auferlegten Gesamt-Gestaltungsgrenzen ab. Beispielsweise können der Prozessor, ein beliebiger Teil des Prozessors oder eine beliebige Kombination der Prozessoren, die in der vorliegenden Erfindung angegeben sind, als ein Mikroprozessor, ein Mikrocontroller, ein digitaler Signalprozessor (DSP), ein Field Programmable Gate Array (FPGA), eine programmierbare Logikvorrichtung (PLD), eine Zustandsmaschine, eine Gatelogik, diskrete Hardwareschaltungen und andere geeignete Verarbeitungskomponenten ausgeführt sein, die eingerichtet sind, um verschiedene Funktionen auszuführen, die in der vorliegenden Offenbarung beschrieben sind. Die Funktionalität eines Prozessors, eines beliebigen Teils eines Prozessors oder einer beliebigen Kombination von Prozessoren, wie sie in der vorliegenden Erfindung dargestellt sind, kann als Software umgesetzt sein, die von einem Mikroprozessor, einem Mikrocontroller, einem DSP oder einer anderen geeigneten Plattform ausgeführt wird.The processor has been described in connection with various devices and methods. These processors can be implemented using electronic hardware, computer software, or a combination thereof. Whether these processors are implemented in hardware or software depends on the specific application and the overall design constraints imposed on the system. For example, the processor, any part of the processor, or any combination of the processors specified in the present invention may be a microprocessor, a microcontroller, a digital signal processor (DSP), a Field Programmable Gate Array (FPGA), a programmable Logic device (PLD), a state machine, gate logic, discrete hardware circuits, and other suitable processing components configured to perform various functions described in the present disclosure. The functionality of a processor, any portion of a processor, or any combination of processors as illustrated in the present invention may be implemented in software executed by a microprocessor, microcontroller, DSP, or other suitable platform.
Software sollte allgemein als Darstellung von Anweisungen, Anweisungssätzen, Codes, Codesegmenten, Programmcodes, Programmen, Unterprogrammen, Softwaremodulen, Anwendungen, Softwareanwendungen, Softwarepaketen, Routinen, Subroutinen, Objekten, laufenden Threads, Prozessen, Funktionen oder dergleichen angesehen werden. Die Software kann in einem computerlesbaren Medium angesiedelt sein. Das computerlesbare Medium kann beispielsweise einen Speicher umfassen, der beispielsweise eine magnetische Speichervorrichtung (z. B. eine Festplatte, eine Diskette, ein Magnetstreifen), eine optische Platte, eine Smartcard, eine Flash-Speichervorrichtung, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein programmierbarer ROM (PROM), ein löschbarer PROM (EPROM), ein elektrisch löschbarer PROM (EEPROM), ein Register oder eine entfernbare Platte sein kann. Obwohl der Speicher in verschiedenen Aspekten dieser Offenbarung als vom Prozessor getrennt dargestellt ist, kann der Speicher auch innerhalb des Prozessors (z. B. einem Cache oder einem Register) angeordnet sein.Software should generally be viewed as a representation of instructions, sets of instructions, code, code segments, program code, programs, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, running threads, processes, functions, or the like. The software may reside on a computer-readable medium. The computer-readable medium may include, for example, memory, which may be, for example, a magnetic storage device (e.g., a hard drive, a floppy disk, a magnetic stripe), an optical disk, a smart card, a flash memory device, a random access memory (RAM), a Read only memory (ROM), programmable ROM (PROM), erasable PROM (EPROM), electrically erasable PROM (EEPROM), register or removable disk. Although memory is shown as separate from the processor in various aspects of this disclosure, memory may also be located within the processor (e.g., a cache or a register).
Obwohl vorstehend einige Ausführungsformen beschrieben sind, sind diese Ausführungsformen nur beispielhaft angegeben und sollen den Umfang der Erfindung nicht einschränken. Die beigefügten Ansprüche und deren gleichwertige Substitution zielen darauf ab, jegliche Modifikationen, Substitutionen und Abänderungen im Rahmen des Umfangs und der Grundideen der vorliegenden Erfindung miteinzubeziehen.Although some embodiments are described above, these embodiments are provided by way of example only and are not intended to limit the scope of the invention. The appended claims and their equivalent substitutions are intended to cover any modifications, substitutions and alterations within the scope and spirit of the present invention.
Claims (20)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102021203815.8A DE102021203815A1 (en) | 2021-04-16 | 2021-04-16 | Sound processing apparatus, system and method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102021203815.8A DE102021203815A1 (en) | 2021-04-16 | 2021-04-16 | Sound processing apparatus, system and method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE102021203815A1 true DE102021203815A1 (en) | 2022-10-20 |
Family
ID=83447500
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE102021203815.8A Pending DE102021203815A1 (en) | 2021-04-16 | 2021-04-16 | Sound processing apparatus, system and method |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE102021203815A1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2024139730A1 (en) * | 2022-12-30 | 2024-07-04 | 腾讯科技(深圳)有限公司 | Audio data processing method and apparatus, and device, computer-readable storage medium and computer program product |
-
2021
- 2021-04-16 DE DE102021203815.8A patent/DE102021203815A1/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2024139730A1 (en) * | 2022-12-30 | 2024-07-04 | 腾讯科技(深圳)有限公司 | Audio data processing method and apparatus, and device, computer-readable storage medium and computer program product |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE102019200954A1 (en) | Signal processing device, system and method for processing audio signals | |
| DE60023517T2 (en) | CLASSIFICATION OF SOUND SOURCES | |
| DE202017105485U1 (en) | Dynamic Speech Synthesis Provisioning | |
| EP3661797B1 (en) | Method, device, mobile user apparatus and computer program for controlling an audio system of a vehicle | |
| DE112018002857T5 (en) | Speaker identification with ultra-short speech segments for far and near field speech support applications | |
| DE60313706T2 (en) | Speech recognition and response system, speech recognition and response program and associated recording medium | |
| DE102021204829A1 (en) | AUTOMATIC CORRECTION OF INCORRECT AUDIO SETTINGS | |
| DE112015004185T5 (en) | Systems and methods for recovering speech components | |
| DE112020002858T5 (en) | SYNCHRONIZED SOUND GENERATION FROM VIDEOS | |
| DE102022202150A1 (en) | SYSTEM AND METHODS FOR CONTEXTUAL AUDIO AMPLIFICATION | |
| DE60133537T2 (en) | AUTOMATIC UMTRAINING OF A LANGUAGE RECOGNITION SYSTEM | |
| DE102017209585A1 (en) | SYSTEM AND METHOD FOR SELECTIVELY GAINING AN ACOUSTIC SIGNAL | |
| DE102017115383A1 (en) | AUDIO SLICER | |
| DE102019218808B3 (en) | Method for training a hearing situation classifier for a hearing aid | |
| DE112021000178B4 (en) | GENERATE SYNCHRONIZED SOUND FROM VIDEOS | |
| DE102021203815A1 (en) | Sound processing apparatus, system and method | |
| DE102014200570A1 (en) | Method and system for generating a control command | |
| DE10123823A1 (en) | Parallel presentation of several audio information sources involves reconfiguring at least one source selected by speech input to be acoustically distinguished from other sources | |
| DE102017213249A1 (en) | Method and system for generating an auditory message in an interior of a vehicle | |
| DE112006000322T5 (en) | Audio recognition system for generating response audio using extracted audio data | |
| DE102024132577A1 (en) | INTERFACE FOR AN ACOUSTIC REMOTE CONTROL FOR HEADPHONE SETS | |
| DE102022124486B3 (en) | Method and audio reproduction device for compensating for noise in an interior of a motor vehicle and associated motor vehicle | |
| DE102023118991B3 (en) | Method for providing a spatial experience and vehicle | |
| EP4599440A1 (en) | Vehicle and method for determining characteristic lip movement patterns | |
| DE102017213256B4 (en) | Method, device, mobile user device, computer program for controlling an audio system of a vehicle |