DE102021203815A1

DE102021203815A1 - Sound processing apparatus, system and method

Info

Publication number: DE102021203815A1
Application number: DE102021203815.8A
Authority: DE
Inventors: Wei Wang; Hui Xie
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-10-20

Abstract

Die vorliegende Erfindung stellt eine Tonverarbeitungsvorrichtung, ein System und ein Verfahren bereit. Die Tonverarbeitungsvorrichtung umfasst: ein Empfangsmodul, das konfiguriert ist, um ein Audiosignal eines oder mehrerer von einem persönlichen Tongerät erfasster Töne zu empfangen; ein Verarbeitungsmodul, das konfiguriert ist, um unter Verwendung eines Tonverarbeitungsmodells die folgenden Verarbeitungen durchzuführen: eine Klassifizierungsverarbeitung, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; eine Erkennungsverarbeitung, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird; und eine Filterverarbeitung, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird; und ein Ausgabemodul, das konfiguriert ist, um das gefilterte Audiosignal zum Liefern an den Benutzer auszugeben.The present invention provides an audio processing apparatus, system and method. The sound processing device includes: a receiving module configured to receive an audio signal of one or more sounds detected by a personal sound device; a processing module configured to perform the following processing using an audio processing model: classification processing in which the type of scene in which a user of the personal audio device is located is determined based on the audio signal; recognition processing in which a respective sound of the one or more sounds is determined as a desired sound or an undesired sound based on the determined type of the scene; and filter processing in which a filter configuration is made based on a result of the recognition processing and the audio signal is filtered based on the filter configuration; and an output module configured to output the filtered audio signal for delivery to the user.

Description

Technisches Gebiettechnical field

Die vorliegende Erfindung betrifft allgemein Tonverarbeitung auf der Grundlage von künstlicher Intelligenz. Insbesondere betrifft die vorliegende Erfindung eine Tonverarbeitungsvorrichtung für ein persönliches Tongerät, ein die Tonverarbeitungsvorrichtung aufweisendes System, und ein Tonverarbeitungsverfahren.The present invention relates generally to artificial intelligence based sound processing. More particularly, the present invention relates to a sound processing device for a personal sound device, a system including the sound processing device, and a sound processing method.

Stand der TechnikState of the art

In den letzten Jahren sind geräuschunterdrückende Kopfhörer sehr populär geworden, da sie ein angenehmes Verwendungsszenario für den Träger erzeugen können. Wenn der Träger beispielsweise den Kopfhörer aufsetzt und die Geräuschreduzierungsfunktion aktiviert, kann er seine Lieblingsmusik in einer ruhigen Umgebung genießen. Dazu kann sich der Träger auf seine Arbeit in Büro- oder Reiseszenarien konzentrieren, ohne durch Umgebungsgeräusche gestört zu werden.In recent years, noise canceling headphones have become very popular because they can create a comfortable usage scenario for the wearer. For example, when the wearer puts on the headphones and activates the noise reduction function, they can enjoy their favorite music in a quiet environment. In addition, the wearer can concentrate on his work in office or travel scenarios without being disturbed by ambient noise.

Die in den Kopfhörern angewendeten Geräuschminderungslösungen nach dem Stand der Technik sind hauptsächlich in zwei Kategorien klassifiziert, nämlich eine passive Geräuschminderungslösung und eine aktive Geräuschminderungslösung. Die passive Geräuschminderungslösung erreicht die akustische Isolation auf der Basis von einer PNR-Technik (Passive Noise Reduction) eines schallabsorbierenden und/oder -reflektierenden Materials. Die aktive Geräuschreduzierungslösung verwendet eine ANR-Technik (Active Noise Reduction), die auf einer geräuschdämmenden Tonausgabe basiert, um Geräusche zu neutralisieren und damit den Effekt der Geräuschreduzierung zu erreichen.The prior art noise reduction approaches applied in the headphones are mainly classified into two categories, namely a passive noise reduction approach and an active noise reduction approach. The passive noise reduction solution achieves acoustic isolation based on a PNR (Passive Noise Reduction) technique of a sound absorbing and/or reflecting material. The active noise reduction solution uses an ANR (Active Noise Reduction) technique based on noise-cancelling sound output to neutralize noise and thus achieve the effect of noise reduction.

Sowohl bei einer passiven Geräuschreduzierung als auch bei einer aktiven Geräuschreduzierung werden jedoch alle Geräusche abgefiltert, was zu einer Gefahr führen kann. Obwohl der schalldämpfende Kopfhörer die lauten Geräusche beispielsweise in der U-Bahn effektiv abfiltert, werden einige Töne, die gehört werden sollen, auch abgefiltert, z. B. die Haltestellenansage und das Weinen eines Babys.However, both passive noise reduction and active noise reduction filter out all noise, which can create a hazard. Although the sound-dampening headphones effectively filter out loud noises on the subway, for example, some sounds that are meant to be heard are also filtered out, e.g. B. the announcement of the bus stop and a baby crying.

Dementsprechend ist es wünschenswert, eine technische Lösung für die oben genannten Probleme im Stand der Technik vorzuschlagen.Accordingly, it is desirable to propose a technical solution to the above problems in the prior art.

Offenbarung der ErfindungDisclosure of Invention

Angesichts der oben erwähnten Probleme im Stand der Technik ist die vorliegende Erfindung auf die Bereitstellung eines intelligenten Tonverarbeitungsschemas für ein persönliches Tongerät gerichtet, das eine automatisierte Rauschunterdrückung auf der Grundlage von Anforderungen eines Benutzers ermöglicht.In view of the above-mentioned problems in the prior art, the present invention is directed to providing an intelligent sound processing scheme for a personal sound device that enables automated denoising based on a user's requirements.

Zu diesem Zweck wird gemäß einem Aspekt der vorliegenden Erfindung eine Tonverarbeitungsvorrichtung bereitgestellt, die in einem persönlichen Tongerät verwendet wird, umfassend: ein Empfangsmodul, das konfiguriert ist, um ein Audiosignal eines oder mehrerer von dem persönlichen Tongerät erfassten Tönen zu empfangen, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfasst oder umfassen; ein Verarbeitungsmodul, das konfiguriert ist, um unter Verwendung eines Tonverarbeitungsmodells die folgenden Verarbeitungen durchzuführen: eine Klassifizierungsverarbeitung, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; eine Erkennungsverarbeitung, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton erkannt wird; und eine Filterverarbeitung, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird; und ein Ausgabemodul, das konfiguriert ist, um das gefilterte Audiosignal zum Liefern an den Benutzer auszugeben.To this end, according to one aspect of the present invention, there is provided a sound processing apparatus used in a personal sound device, comprising: a receiving module configured to receive an audio signal of one or more sounds detected by the personal sound device, the one or the plurality of tones includes or includes at least ambient noise around the personal audio device; a processing module configured to perform the following processing using an audio processing model: classification processing in which the type of scene in which a user of the personal audio device is located is determined based on the audio signal; recognition processing in which a respective sound of the one or more sounds is recognized as a desired sound or an undesired sound based on the determined type of the scene; and filter processing in which a filter configuration is made based on a result of the recognition processing and the audio signal is filtered based on the filter configuration such that an unwanted sound is at least partially filtered in the one or more sounds and a desired sound in the one or is passed through the multiple tones; and an output module configured to output the filtered audio signal for delivery to the user.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Tonverarbeitungsmodell ein oder mehrere auf maschinellem Lernen beruhende Modelle umfasst.According to a possible embodiment, it is provided that the sound processing model comprises one or more models based on machine learning.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Tonverarbeitungsmodell ein erstes trainiertes Maschinenlernmodell, ein zweites trainiertes Maschinenlernmodell und ein drittes trainiertes Maschinenlernmodell umfasst; und wobei das Verarbeitungsmodul dazu konfiguriert ist: die Klassifizierungsverarbeitung des Audiosignals unter Verwendung des ersten trainierten Maschinenlernmodells durchzuführen, um den Typ der Szene auszugeben; die Erkennungsverarbeitung der auf der Grundlage des ersten trainierten Maschinenlernmodells ermittelten Ausgabe unter Verwendung des zweiten trainierten Maschinenlernmodells durchzuführen, um das Ergebnis, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist, auszugeben; und die Filterverarbeitung der auf der Grundlage des zweiten trainierten Maschinenlernmodells ermittelten Ausgabe unter Verwendung des dritten trainierten Maschinenlernmodells durchzuführen, um ein gefiltertes Audiosignal auszugeben.According to a possible embodiment it is provided that the sound processing model comprises a first trained machine learning model, a second trained machine learning model and a third trained machine learning model; and wherein the processing module is configured to: perform the classification processing of the audio signal using the first trained machine learning model to output the type of the scene; perform the recognition processing of the output determined based on the first trained machine learning model using the second trained machine learning model to output the result of whether a respective sound in the one or more sounds is a desired sound or an undesired sound; and the filter processing of the determined based on the second trained machine learning model perform output using the third trained machine learning model to output a filtered audio signal.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die erste, zweite und dritte trainierte Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert sind.According to one possible embodiment, it is provided that the first, second and third trained machine learning models are combined to form one or more hybrid machine learning models.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Verarbeitungsmodul durch mindestens eine der folgenden Verarbeitungen bestimmt, ob der jeweilige Ton ein erwünschter Ton oder ein unerwünschter Ton ist: Cepstrum-Analyse, Sprachabdruckerkennung, Schlüsselwort- und/oder Schlüsseltondetektion.According to a possible embodiment, it is provided that the processing module determines whether the respective tone is a desired tone or an undesired tone by at least one of the following processes: cepstrum analysis, voiceprint recognition, keyword and/or key tone detection.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die oben beschriebenen verschiedenen Verarbeitungen von dem Verarbeitungsmodul jeweils unter Verwendung eines zugehörigen Modells ausgeführt werden.According to a possible embodiment, it is provided that the various processing operations described above are each carried out by the processing module using an associated model.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die Tonverarbeitungsvorrichtung ferner ein Kommunikationsmodul umfasst, das für die Kommunikationsverbindung mit einem externen elektronischen Gerät, das sich außerhalb des persönlichen Tongeräts befindet, konfiguriert ist, um mit einer in dem externen elektronischen Gerät vorgesehenen Audioanwendung Informationen auszutauschen.According to a possible embodiment, it is envisaged that the audio processing device further comprises a communication module configured to communicate with an external electronic device external to the personal audio device in order to exchange information with an audio application provided in the external electronic device.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul Anweisungen von der Audioanwendung empfängt, wobei die Anweisungen eine Absicht des Benutzers umfassen, wie die Töne in dem bestimmten Typ der Szene gefiltert werden soll; und das Verarbeitungsmodul die Filterkonfiguration auf der Basis der Anweisungen verstellt.According to a possible embodiment, it is provided that the communication module receives instructions from the audio application, the instructions comprising an intention of the user how to filter the sounds in the certain type of scene; and the processing module adjusts the filter configuration based on the instructions.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul dazu konfiguriert ist: ein Audiosignal eines neuen Tons, den das persönliche Tongerät während der Verwendung erfasst, an die Audioanwendung zu übertragen; und Verarbeitungsparameter des Audiosignals auf der Grundlage des neuen Tons von der Audioanwendung zu empfangen, sodass der neue Ton erkannt werden kann.According to a possible embodiment, it is provided that the communication module is configured to: transmit an audio signal of a new sound that the personal sound device detects during use to the audio application; and receive processing parameters of the audio signal based on the new sound from the audio application so that the new sound can be recognized.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul ferner konfiguriert ist, um einen empfohlenen Audioinhalt von der Audioanwendung zu empfangen, wobei der empfohlene Audioinhalt auf dem bestimmten Typ der Szene und einem Nutzungsstatus des persönlichen Tongeräts basiert.According to one possible embodiment, it is contemplated that the communication module is further configured to receive recommended audio content from the audio application, wherein the recommended audio content is based on the determined type of scene and a usage status of the personal audio device.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass alle oder ein Teil der einzelnen Module der Tonverarbeitungsvorrichtung mittels eines oder mehrerer AI-Chips realisiert sein können.According to a possible embodiment, it is envisaged that all or some of the individual modules of the sound processing device can be implemented using one or more AI chips.

Gemäß einem weiteren Aspekt der Erfindung wird ein Rechengerät bereitgestellt, wobei das Rechengerät in einem entfernten Server angeordnet ist und ein Tonverarbeitungsmodell erstellt, das ein Audiosignal eines oder mehrerer während der Verwendung eines persönlichen Tongeräts erfasster Töne verarbeiten kann, wobei das Erstellen des Tonverarbeitungsmodells umfasst: Durchführen eines ersten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell den Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmen kann; Durchführen eines zweiten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell auf der Grundlage des Typs der Szene einen jeweiligen Ton von einem oder mehreren Tönen als einen erwünschten Ton oder einen unerwünschten Ton bestimmen kann; Durchführen eines dritten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell eine Filterkonfiguration und eine Filterung des Audiosignals basierend auf der Filterkonfiguration durchführen kann, wodurch ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird.According to another aspect of the invention, a computing device is provided, the computing device being located on a remote server and creating a sound processing model that can process an audio signal of one or more sounds detected during use of a personal sound device, wherein creating the sound processing model comprises: performing a first creation process in which the audio processing model can determine the type of scene a user of the personal audio device is in based on the audio signal; performing a second creation process in which the sound processing model can determine a respective one of one or more sounds as a desired sound or an undesired sound based on the type of the scene; Performing a third creation process in which the sound processing model can perform a filter configuration and filtering of the audio signal based on the filter configuration, whereby an unwanted sound in the one or more sounds is at least partially filtered and a desired sound in the one or more sounds is passed becomes.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Erstellen des Tonverarbeitungsmodells das Trainieren eines oder mehrerer auf maschinellem Lernen beruhender Modelle in den ersten bis dritten Erstellungsprozessen umfasst.According to a possible embodiment, it is provided that the creation of the sound processing model includes the training of one or more models based on machine learning in the first to third creation processes.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Erstellen des Tonverarbeitungsmodells umfasst: Durchführen eines ersten Trainings des auf maschinellem Lernen beruhenden Modells, um ein erstes trainiertes Maschinenlernmodell zu erhalten, wobei während des ersten Trainings unter Verwendung des als Eingabe dienenden Audiosignals eine Ausgabe erzeugt wird, die den Typ der Szene repräsentiert; Durchführen eines zweiten Trainings des auf maschinellem Lernen beruhenden Modells, um ein zweites trainiertes Maschinenlernmodell zu erhalten, wobei während des zweiten Trainings unter Verwendung der als Eingabe dienenden Ausgabe des ersten trainierten Maschinenlernmodells eine Ausgabe erzeugt wird, die angibt, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist; und Durchführen eines dritten Trainings des auf maschinellem Lernen beruhenden Modells, um ein drittes trainiertes Maschinenlernmodell zu erhalten, wobei während des dritten Trainings unter Verwendung der als Eingabe dienenden Ausgabe des zweiten trainierten Maschinenlernmodells das gefilterte Audiosignal ausgegeben wird.According to a possible embodiment, it is envisaged that creating the sound processing model comprises: performing a first training of the machine learning-based model to obtain a first trained machine learning model, wherein during the first training an output is generated using the audio signal serving as input , which represents the type of scene; performing a second training of the machine learning model to obtain a second trained machine learning model, wherein during the second training using the output of the first trained machine learning model serving as an input an output is generated indicating whether a respective tone in the one or the multiple tones is a desired tone or an undesired tone; and performing a third training of the machine learning-based model to obtain a third trained machine learning model, wherein during the third training using the out Output of the second trained machine learning model the filtered audio signal is output.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die ersten, zweiten und dritten trainierten Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert sind.According to one possible embodiment, it is provided that the first, second and third trained machine learning models are combined to form one or more hybrid machine learning models.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Rechengerät weiterhin konfiguriert ist, um einen Neulernprozess des Tonverarbeitungsmodells auf der Grundlage eines Audiosignals eines neuen Tons auszuführen, den das persönliche Tongerät während der Verwendung erfasst, so dass das Tonverarbeitungsmodell den neuen Ton als einen erwünschten Ton oder einen unerwünschten Ton erkennen kann, und um Verarbeitungsparameter zu erzeugen, mit denen das Tonverarbeitungsmodell den neuen Ton erkennen kann.According to a possible embodiment, it is envisaged that the computing device is further configured to perform a relearning process of the sound processing model based on an audio signal of a new sound that the personal sound device detects during use, so that the sound processing model recognizes the new sound as a desired sound or an undesired sound, and to generate processing parameters that allow the sound processing model to detect the new sound.

Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Rechengerät ferner konfiguriert ist, um ein Neutraining des zweiten trainierten Maschinenlernmodells durchzuführen, und wobei während des Neutrainings das Audiosignal des neuen Tons, den das persönliche Tongerät während der Verwendung erfasst, als Eingabe verwendet wird, um eine Ausgabe zu erzeugen, die angibt, ob der neue Ton ein erwünschter Ton oder ein unerwünschter Ton ist; und wobei während des Neutrainings Verarbeitungsparameter erzeugt werden, mit denen das zweite trainierte Maschinenlernmodell den neuen Ton erkennen kann.According to a possible embodiment it is envisaged that the computing device is further configured to perform a retraining of the second trained machine learning model, and wherein during the retraining the audio signal of the new sound that the personal sound device detects during use is used as input to generate an output indicating whether the new sound is a desired sound or an undesired sound; and during the retraining, generating processing parameters that enable the second trained machine learning model to recognize the new tone.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Tonverarbeitungssystem bereitgestellt, umfassend: eine oben erwähnte Tonverarbeitungsvorrichtung, die in einem persönlichen Tongerät vorgesehen ist; ein oben erwähntes Rechengerät, das in einem entfernten Server vorgesehen ist und ein Tonverarbeitungsmodell zum Verarbeiten eines Audiosignals eines oder mehrerer Töne erstellt, die an dem persönlichen Tongerät erfasst werden; und eine Tonanwendung, die in einem externen elektronischen Gerät außerhalb des persönlichen Tongeräts vorgesehen ist, wobei die Audioanwendung jeweils mit dem Rechengerät und der Tonverarbeitungsvorrichtung kommunikativ verbunden ist; wobei die Tonverarbeitungsvorrichtung eine umfangreiche Verarbeitung eines Audiosignals eines oder mehrerer Töne, die durch das persönliche Tongerät erfasst werden, unter Verwendung eines im entfernten Server erstellten Tonverarbeitungsmodells durchführt, um ein gefiltertes Audiosignal zu erzeugen, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird.According to another aspect of the present invention, there is provided a sound processing system comprising: a sound processing device as mentioned above provided in a personal sound device; a computing device mentioned above provided in a remote server and creating a sound processing model for processing an audio signal of one or more sounds detected at the personal sound device; and an audio application provided on an external electronic device external to the personal audio device, the audio application being communicatively coupled to the computing device and the audio processing device, respectively; wherein the sound processing device performs extensive processing of an audio signal of one or more sounds detected by the personal sound device using a sound processing model created in the remote server to generate a filtered audio signal such that an undesired sound in the one or more sounds is at least partially filtered and a desired tone in the one or more tones is passed.

Gemäß einem weiteren Aspekt der Erfindung wird ein Tonverarbeitungsverfahren bereitgestellt, das optional durch eine oben erwähnte Tonverarbeitungsvorrichtung und/oder durch ein oben erwähntes Tonverarbeitungssystem durchgeführt wird, wobei das Verfahren umfasst: Empfangen eines Audiosignals eines oder mehrerer von einem persönlichen Tongerät erfasster Töne, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfasst oder umfassen; Durchführen einer Klassifizierungsverarbeitung unter Verwendung eines Tonverarbeitungsmodells, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; Durchführen einer Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird; Durchführen einer Filterverarbeitung unter Verwendung des Tonverarbeitungsmodells, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird; und Ausgeben des gefilterten Audiosignals zum Liefern an den Benutzer.According to another aspect of the invention, there is provided a sound processing method, optionally performed by a sound processing device and/or a sound processing system as mentioned above, the method comprising: receiving an audio signal of one or more sounds detected by a personal sound device, the one or the plurality of tones includes or includes at least ambient noise around the personal audio device; performing classification processing using a sound processing model in which the type of scene in which a user of the personal sound device is located is determined based on the audio signal; performing recognition processing using the sound processing model, in which a respective sound of the one or more sounds is determined as a desired sound or an undesired sound based on the determined type of the scene; Performing filter processing using the sound processing model, in which a filter configuration is made based on a result of the recognition processing and the audio signal is filtered based on the filter configuration such that an undesired sound in the one or more sounds is at least partially filtered out and a desired one tone in the one or more tones is passed; and outputting the filtered audio signal for delivery to the user.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Tonverarbeitungsvorrichtung zur Verwendung in einem persönlichen Tongerät bereitgestellt, umfassend: einen oder mehrere Prozessoren; und einen Speicher, in dem computerausführbare Anweisungen gespeichert sind, wobei der eine oder die mehreren Prozessoren das oben erwähnte Verfahren durchführt oder durchführen, wenn die computerausführbaren Anweisungen ausgeführt werden.According to a further aspect of the present invention there is provided an audio processing apparatus for use in a personal audio device, comprising: one or more processors; and a memory in which computer-executable instructions are stored, wherein the one or more processors perform or perform the above-mentioned method when executing the computer-executable instructions.

Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium bereitgestellt, auf dem Anweisungen gespeichert sind, wobei mindestens ein Prozessor das oben erwähnte Verfahren durchführt, wenn die Anweisungen durch den mindestens einen Prozessor ausgeführt werden.According to a further aspect of the invention there is provided a computer-readable storage medium storing instructions, wherein at least one processor performs the above-mentioned method when the instructions are executed by the at least one processor.

Somit ist es gemäß der technischen Lösung der vorliegenden Erfindung möglich, eine Automatisierung der durch das persönliche Tongerät empfangenen Töne unter Verwendung des Maschinenlernmodells durchzuführen, so dass der Benutzer in der Lage ist, Töne zu hören, die mit dem Typ der Szene und seinen eigenen Absichten übereinstimmen. Gemäß der technischen Lösung der vorliegenden Erfindung ist es ferner vorgesehen, dass durch Kombinationslösungen über die Anpassung der Tonfilterung und des Durchlassens für verschiedene Szenentypen und verschiedene Benutzer der Grad an Intelligenz und Automatisierung der Tonverarbeitung kontinuierlich verbessert und erweitert werden kann.Thus, according to the technical solution of the present invention, it is possible to perform automation of the sounds received by the personal sound device using the machine learning model, so that the user is able to hear sounds compatible with the type of scene and his own intentions to match. According to the technical solution of the present invention, it is further envisaged that through combination solutions via the adjustment of the tone filtering and passing for different scene types and different users, the level of intelligence and automation of sound processing can be continuously improved and expanded.

Figurenlistecharacter list

1 Figure 1 shows an exemplary operating environment in which some implementations of the present invention may be implemented.
2 Figure 12 is a schematic block diagram of a sound processing system according to a possible embodiment of the invention, including sound processing apparatus for use in the personal sound device according to the present invention.
3 Figure 12 shows an exemplary process of sound processing according to a possible embodiment of the invention.
4 Figure 12 shows an exemplary process of relearning the sound according to one possible embodiment of the present invention.
5 Figure 12 shows an exemplary process of audio pushing according to one possible embodiment of the present invention.
6 Figure 12 is a flowchart of a sound processing method according to one possible embodiment of the invention.
7 Fig. 12 shows a schematic block diagram of another sound processing device according to the present invention.

Konkrete AusführungsformenConcrete embodiments

Die vorliegende Erfindung bezieht sich allgemein auf eine technische Lösung zum automatischen Verarbeiten von Tonsignalen, die durch ein persönliches Tongerät erfasst sind. Spezifisch kann das Tonverarbeitungsschema gemäß der vorliegenden Erfindung basierend auf Techniken der künstlichen Intelligenz (Artificial Intelligence, AI) implementiert werden.The present invention generally relates to a technical solution for automatically processing audio signals captured by a personal audio device. Specifically, the sound processing scheme according to the present invention can be implemented based on Artificial Intelligence (AI) techniques.

Im Sinne der Erfindung bezieht sich ein „persönliches Tongerät“ auf eine Vorrichtung, die dazu ausgebildet ist, an, über oder um zumindest ein Ohr eines Benutzers positioniert zu werden, wie zum Beispiel Kopfhörer, Ohrstöpsel und Ohrhörer, oder dergleichen.For purposes of the invention, a “personal audio device” refers to a device adapted to be positioned on, over, or around at least one ear of a user, such as headphones, earbuds and earbuds, or the like.

Nachfolgend werden Ausführungsbeispiele der Erfindung unter Bezugnahme auf die begleitende Zeichnung im Detail beschrieben.Exemplary embodiments of the invention are described in detail below with reference to the accompanying drawings.

1 zeigt eine beispielhafte Betriebsumgebung, in der einige Implementierungen der vorliegenden Erfindung implementiert werden können. 2 zeigt schematisch ein Tonverarbeitungssystem 100 gemäß einer möglichen Ausführungsform der Erfindung. Das in 2 dargestellte Tonverarbeitungssystem 100 kann in der Betriebsumgebung von 1 implementiert sein. Es ist zu beachten, dass das Tonverarbeitungssystem 100 der vorliegenden Erfindung nicht auf den in 1 gezeigten Rahmen beschränkt ist. 1 Figure 1 shows an exemplary operating environment in which some implementations of the present invention may be implemented. 2 Figure 12 shows schematically a sound processing system 100 according to a possible embodiment of the invention. This in 2 The audio processing system 100 illustrated may operate in the operating environment of 1 be implemented. It should be noted that the audio processing system 100 of the present invention is not limited to the 1 frame shown is limited.

In Bezug auf 1 und 2 umfasst das Tonverarbeitungssystem 100 im Wesentlichen die Tonverarbeitungsvorrichtung 10, die Audioanwendung 20 und ein Rechengerät 30.In relation to 1 and 2 The sound processing system 100 essentially comprises the sound processing device 10, the audio application 20 and a computing device 30.

Die Tonverarbeitungsvorrichtung 10 ist in einem persönlichen Tongerät 1. Das persönliche Tongerät 1 ist beispielsweise ein Kopfhörer. Das persönliche Tongerät 1 kann mehrere Benutzer, zum Beispiel die in 1 gezeigten USER1-USER3, aufweisen. Verschiedene Benutzer können, wenn sie das mit der Tonverarbeitungsvorrichtung 10 versehene persönliche Tongerät 1 verwenden, die jeweiligen für sie zugeschnittenen Modi aktivieren, wie es nachstehend ausführlich beschrieben wird.The sound processing device 10 is in a personal sound device 1. The personal sound device 1 is, for example, a headphone. The personal sound device 1 can support multiple users, for example the in 1 shown USER1-USER3. Different users, when using the personal audio device 1 provided with the audio processing device 10, can activate the respective modes tailored for them, as will be described in detail below.

Die Tonverarbeitungsvorrichtung 10 kann in einer Verarbeitungseinheit des persönlichen Tongeräts 1 vorgesehen sein, wobei die Verarbeitungseinheit einen beliebigen Typ von allgemeinen Verarbeitungseinheiten, einschließlich, jedoch nicht beschränkt auf, CPUs, GPUs und dergleichen, dedizierte Verarbeitungseinheiten, einschließlich, jedoch nicht beschränkt auf, anwendungsspezifischer integrierter Schaltungen (ASICs), programmierbare Logikbausteine (PLDs), digitale Signalprozessoren (DSPs), feldprogrammierbare Gate-Arrays (FPGAs) und dergleichen umfassen kann.The sound processing device 10 may be provided in a processing unit of the personal sound device 1, the processing unit being any type of general purpose processing units including but not limited to CPUs, GPUs and the like, dedicated processing units including but not limited to application specific integrated circuits (ASICs), programmable logic devices (PLDs), digital signal processors (DSPs), field programmable gate arrays (FPGAs) and the like.

Die Tonverarbeitungsvorrichtung 10 umfasst im Wesentlichen ein Empfangsmodul 12, ein Verarbeitungsmodul 14, ein Kommunikationsmodul 16 und ein Ausgabemodul 18. Bei einem Ausführungsbeispiel kann die Tonverarbeitungsvorrichtung 10 durch Techniken künstlicher Intelligenz implementiert sein, d. h. alle oder ein Teil der Module der Tonverarbeitungsvorrichtung 10 kann bzw. können mit Hilfe von einem oder mehreren AI-Chips implementiert sein. Beispielsweise ist ein Teil der Funktionsmodule der Tonverarbeitungsvorrichtung 10 auf einem AI-Chip angeordnet, und ein anderer Teil der Funktionsmodule ist auf einem anderen AI-Chip angeordnet.The audio processing device 10 basically comprises a receiving module 12, a processing module 14, a communication module 16, and an output module 18. In one embodiment, the audio processing device 10 may be implemented by artificial intelligence techniques; H. all or a portion of the modules of the sound processing device 10 may be implemented using one or more AI chips. For example, part of the functional modules of the sound processing apparatus 10 are arranged on one AI chip, and another part of the functional modules are arranged on another AI chip.

Es ist zu verstehen, dass die Bezeichnung jedes Moduls der Tonverarbeitungsvorrichtung 10 als eine logische Darstellung und nicht als eine Einschränkung der physischen Form oder Anordnung zu verstehen ist. Mit anderen Worten, eines oder mehrere des Empfangsmoduls 12, des Verarbeitungsmoduls 14, des Kommunikationsmoduls 16 und des Ausgabemoduls 18 können in dem gleichen Chip oder der gleichen Schaltung implementiert sein, oder sie können jeweils in verschiedenen Chips oder Schaltungen angeordnet sein, worauf die Erfindung nicht begrenzt ist. Für jedes Modul der Tonverarbeitungsvorrichtung 10 sollte verstanden werden, dass die fahrzeuginterne Vorrichtung 10 dieses Modul enthält, solange die Tonverarbeitungsvorrichtung 10 eine Funktion eines Moduls aufweist.It is to be understood that the naming of each module of audio processing apparatus 10 is intended as a logical representation and not as a limitation as to physical form or arrangement. In other words, one or Several of the receiving module 12, processing module 14, communication module 16, and output module 18 may be implemented in the same chip or circuit, or they may each be located in different chips or circuits, to which the invention is not limited. For each module of the sound processing device 10, it should be understood that the in-vehicle device 10 includes that module as long as the sound processing device 10 has a function of a module.

Das Verarbeitungsmodul 14 kann eine Tonverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durchführen. Das Tonverarbeitungsmodul 140 wird zuvor auf dem entfernten Server 3 (z. B. dem Rechengerät 30) vorerstellt. Das Tonverarbeitungsmodul 140 kann mehrere Untermodelle umfassen. Das Tonverarbeitungsmodul 140 kann ein oder mehrere auf maschinellem Lernen beruhende Modelle enthalten.The processing module 14 may perform audio processing using the audio processing model 140 . The sound processing module 140 is previously pre-built on the remote server 3 (e.g., the computing device 30). The sound processing module 140 may include multiple sub-models. The sound processing module 140 may include one or more machine learning based models.

In einem Ausführungsbeispiel ist das Tonverarbeitungsmodell 140 als ein auf maschinellem Lernen basierendes Modell implementiert, wobei das auf maschinellem Lernen beruhende Modell vorab auf einem entfernten Server 3 (z. B. einem Rechengerät 30) trainiert wird und außerdem in der Lage ist, wieder zu lernen (Funktion). Das trainierte Maschinenlernmodell 140 kann ein oder mehrere Hybridmaschinenlernmodelle enthalten. Beispielsweise kann das trainierte Maschinenlernmodell 140 ein Sprachabdruckerkennungsmodell 142, ein Datenanalyse-/Miningmodell 144, ein Sprachverarbeitungsmodell 146, einen Audio-Wissensgraphen 148, ein Modell 150, das sich auf die Verarbeitung von Audio-Streams bezieht (z. B. ein statistisches Sprachratenmodell, ein Schlüsselworterkennungsmodell, ein Merkmalstonerkennungsmodell usw.) oder dergleichen umfassen.In one embodiment, the sound processing model 140 is implemented as a machine learning-based model, where the machine learning-based model is pre-trained on a remote server 3 (e.g., a computing device 30) and is also capable of re-learning (Function). The trained machine learning model 140 may include one or more hybrid machine learning models. For example, the trained machine learning model 140 may include a voiceprint recognition model 142, a data analysis/mining model 144, a language processing model 146, an audio knowledge graph 148, a model 150 related to the processing of audio streams (e.g., a statistical voice rate model, a keyword recognition model, a feature sound recognition model, etc.) or the like.

Die Tonverarbeitungsvorrichtung 10 kann aktiviert sein, wenn das persönliche Tongerät 1 eingeschaltet ist (z. B. die Power-Taste des Kopfhörers im eingeschalteten Zustand ist), d. h. seine Tonverarbeitungsfunktion wird aktiviert, wenn das persönliche Tongerät 1 eingeschaltet ist. Die Tonverarbeitungsvorrichtung 10 kann ausgeschaltet werden, wenn das persönliche Tongerät 1 ausgeschaltet wird (z. B. die Power-Taste des Kopfhörers in dem ausgeschalteten Zustand ist).The sound processing device 10 may be activated when the personal sound device 1 is switched on (e.g. the headset power button is in the on state), i. H. its sound processing function is activated when the personal sound device 1 is switched on. The sound processing device 10 may be turned off when the personal audio device 1 is turned off (e.g., the headphone power button is in the off state).

Die Audioanwendung 20 wird auf einem externen elektronischen Gerät 2 bereitgestellt, das außerhalb des persönlichen Tongeräts 1 angeordnet ist, und das externe elektronische Gerät 2 ist beispielsweise ein Smartphone, ein Desktop-Computer, ein Tablet-Computer, ein Multimedia-Player und dergleichen. Das externe elektronische Gerät 2 kann in einer verdrahteten und/oder drahtlosen Weise kommunikativ mit dem persönlichen Tongerät 1 verbunden sein, so dass ein Austausch von Daten zwischen der Tonverarbeitungsvorrichtung 10 und der Audioanwendung 20 ermöglicht wird. Zum Beispiel können Daten unter Verwendung von USB-Drähten zwischen dem externen elektronischen Gerät 2 und dem persönlichen Tongerät 1 übertragen werden. Die Daten können auch zwischen dem externen elektronischen Gerät 2 und dem persönlichen Tongerät 1 über das Netzwerk übertragen werden, wobei das Netzwerk, ohne darauf beschränkt zu sein, drahtlose lokale Netzwerke (WLANs), Infrarot(IR)-Netzwerke, Bluetooth-Netzwerke, Nahfeldkommunikations(NFC)-Netzwerke, ZigBee-Netzwerke und dergleichen umfasst.The audio application 20 is provided on an external electronic device 2 arranged outside of the personal audio device 1, and the external electronic device 2 is, for example, a smartphone, a desktop computer, a tablet computer, a multimedia player, and the like. The external electronic device 2 may be communicatively connected to the personal audio device 1 in a wired and/or wireless manner such that an exchange of data between the audio processing device 10 and the audio application 20 is enabled. For example, data can be transferred between the external electronic device 2 and the personal audio device 1 using USB wires. The data can also be transferred between the external electronic device 2 and the personal audio device 1 over the network, the network including but not limited to wireless local area networks (WLANs), infrared (IR) networks, Bluetooth networks, near-field communications (NFC) networks, ZigBee networks and the like.

Das Rechengerät 30 ist in dem entfernten Server 3 vorgesehen. Der entfernte Server 3 kann kommunikativ mit dem externen elektronischen Gerät 2 gekoppelt sein, so dass ein Austausch von Daten zwischen der Audioanwendung 20 und dem Rechengerät 30 ermöglicht wird. Der entfernte Server 3 kann über das Netzwerk mit dem externen elektronischen Gerät 2 kommunikativ verbunden sein, wobei das Netzwerk auf einer beliebigen Funkkommunikationstechnologie und/oder einem beliebigen Funkkommunikationsstandard basieren kann. Beispielsweise kann das Netzwerk ein beliebiges Standardtelekommunikationsnetz enthalten, das von einem Telekommunikationsbetreiber bereitgestellt wird. Das Netzwerk kann auch ein Internet der Dinge (loT) umfassen. Bei einer Implementierung kann der entfernte Server 3 in einer verteilten Rechenumgebung eingesetzt werden, wobei die Implementierung auch unter Verwendung von Cloud-Computing-Technologie erfolgen kann, ohne dass die Erfindung darauf beschränkt ist.The computing device 30 is provided in the remote server 3 . The remote server 3 can be communicatively coupled to the external electronic device 2 such that an exchange of data between the audio application 20 and the computing device 30 is made possible. The remote server 3 can be communicatively connected to the external electronic device 2 via the network, which network can be based on any radio communication technology and/or any radio communication standard. For example, the network may include any standard telecommunications network provided by a telecommunications operator. The network may also include an Internet of Things (loT). In one implementation, the remote server 3 may be deployed in a distributed computing environment, and may also be implemented using, but not limited to, cloud computing technology.

Es ist zu verstehen, dass ein Austausch von Daten zwischen dem persönlichen Tongerät 1 und dem entfernten Server 3 durch das externe elektronische Gerät 2 durchgeführt wird. Beispielsweise, in einem Neulernprozess, der nachstehend beschrieben wird, überträgt die Tonverarbeitungsvorrichtung 10 ein Audiosignal eines neuen Tons (z. B. eines Tons, der von verschiedenen Benutzern während des Verwendens des persönlichen Tongeräts 1 aufgenommen wird, der nicht durch die Tonverarbeitungsvorrichtung 10 erkannt wird) an die Audioanwendung 20 und lädt die Audioanwendung 20 das Audiosignal des neuen Tons mit der Markierung zum entfernten Server 3 hoch.It is understood that an exchange of data between the personal audio device 1 and the remote server 3 is performed through the external electronic device 2 . For example, in a relearning process described below, the sound processing device 10 transmits an audio signal of a new sound (e.g., a sound picked up by different users while using the personal sound device 1 that is not recognized by the sound processing device 10 ) to the audio application 20 and the audio application 20 uploads the audio of the new sound to the remote server 3 with the tag.

3 zeigt einen beispielhaften Prozess 300 einer Tonverarbeitung gemäß einer möglichen Ausführungsform der Erfindung. Im Folgenden wird ein Beispiel des durch die Tonverarbeitungsvorrichtung 10 ausgeführten Prozesses 300 beschrieben. 3 FIG. 3 shows an exemplary process 300 of sound processing according to a possible embodiment of the invention. An example of the process 300 performed by the sound processing apparatus 10 is described below.

Im Block 302 empfängt das Empfangsmodul 12 ein Audiosignal eines oder mehrerer Töne. Der eine oder die mehreren Töne können Umgebungsgeräusche umfassen, die von einem Mikrophon des persönlichen Tongeräts 1 um dieses herum aufgenommen (erfasst) werden. Der eine oder die mehreren Töne können auch Töne von dem externen elektronischen Gerät 2 umfassen, z. B. Sprachereignisse, wie beispielsweise Gespräche, Audioeingabeereignisse, wie beispielsweise das Abspielen von Musik, Video und dergleichen.At block 302, the receiving module 12 receives an audio signal of one or more tones. The one or more tones may include ambient noise picked up (detected) by a microphone around the personal audio device 1 . The one or more tones may also include tones from the external electronic device 2, e.g. B. Voice events such as conversations, audio input events such as playing music, video and the like.

In Block 304 analysiert das Verarbeitungsmodul 14 das empfangene Audiosignal, um den Typ der Szene, in der sich der Benutzer des persönlichen Tongeräts 1 befindet, zu bestimmen. Zum Beispiel führt das Verarbeitungsmodul 14 die Klassifizierungsverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, bei der der Typ der Szene, in der sich der Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des empfangenen Audiosignals bestimmt wird. Der Teil des Tonverarbeitungsmodells 140 zur Ausführung der Klassifikationsverarbeitung kann durch das Rechengerät 30 durch den ersten Erstellungsprozess implementiert sein. Beispielsweise wird in diesem ersten Erstellungsprozess ein Untermodell des Tonverarbeitungsmodells 140 zur Klassifizierungsverarbeitung realisiert.In block 304, the processing module 14 analyzes the received audio signal to determine the type of scene in which the user of the personal audio device 1 is located. For example, the processing module 14 performs classification processing using the audio processing model 140, in which the type of scene in which the user of the personal audio device is located is determined based on the received audio signal. The part of the sound processing model 140 for executing the classification processing can be implemented by the computing device 30 through the first creation process. For example, in this first creation process, a sub-model of the sound processing model 140 for classification processing is realized.

Der Typ von Szene kann Büros, Zuhause, öffentliche Verkehrsmittel oder dergleichen umfassen. In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 auch Unterkategorien (d. h. kleine Kategorien unter großen Kategorien) unter den Kategorien der Szenen ermitteln. Beispielsweise kann der Szenentyp für öffentliche Verkehrsmittel U-Bahn, Zug, Flugzeug usw. umfassen. Der Typ der Szene für Büro kann kleine Kategorien enthalten, die auf Arbeitsaufgaben und/oder Organisationsstruktur basieren, z. B. Projektteam 1, Projektteam 2, Personalabteilung, Forschungs- und Entwicklungsabteilung usw.The type of scene can include offices, homes, public transportation, or the like. In one embodiment, the processing module 14 may also determine subcategories (i.e., small categories under large categories) among the scene categories. For example, the public transit scene type may include subway, train, plane, and so on. The office scene type may contain small categories based on work tasks and/or organizational structure, e.g. B. Project Team 1, Project Team 2, HR Department, R&D Department, etc.

In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 ein erstes trainiertes Maschinenlernmodell verwenden, um den Typ der Szene auszugeben. Dieses erste trainierte Maschinenlernmodell ist beispielsweise ein zur Kategorie geeignetes Modell. Das erste trainierte Maschinenlernmodell wird durch Durchführen eines ersten Lernens an dem auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des ersten Trainingsprozesses werden Audiosignale von Tönen der jeweiligen Kategorien als Modelleingaben zugeführt und Szenenkategorien werden als Modellausgaben erzeugt. Während des ersten Trainings können zuerst die Klassifizierung großer Kategorien und dann die kleinen Kategorien unter jeder großen Kategorie trainiert werden. Während des Trainings für kleine Kategorien werden Audiosignale verschiedener kleiner Kategorien von Tönen als Modelle ausgegeben, und eine Modellausgabe, die die kleinen Kategorien darstellt, wird erzeugt.In one embodiment, processing module 14 may use a first trained machine learning model to output the type of scene. For example, this first trained machine learning model is a category appropriate model. The first trained machine learning model is obtained by performing a first learning on the machine learning based model on the computing device 30 . During the first training process, audio signals of tones of the respective categories are supplied as model inputs, and scene categories are generated as model outputs. During initial training, classification of large categories can be trained first, and then small categories can be trained under each large category. During small category training, audio signals of various small categories of sounds are output as models, and a model output representing the small categories is generated.

In Block 306 führt das Verarbeitungsmodul 14 einen Erkennungsprozess aus, um zu erkennen, welche Töne von einem oder mehreren Töne die erwünschten Töne (d. h. die Töne, die der Benutzer des persönlichen Tongeräts 1 unter dem Typ der Szene hören möchte) unter den bestimmten Szenenkategorien sind und welche Töne unerwünschte Töne sind (d. h. die Töne, die der Benutzer des persönlichen Tongeräts 1 unter dem Typ der Szene nicht hören möchte). Zum Beispiel führt das Verarbeitungsmodul 14 die Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von einem oder mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird. Der Teil des Tonverarbeitungsmodells 140, der verwendet wird, um die Erkennungsverarbeitung durchzuführen, kann durch das Rechengerät 30 durch den zweiten Erstellungsprozess implementiert sein. Beispielsweise wird in diesem zweiten Erstellungsprozess ein Untermodell des Tonverarbeitungsmodells 140 zur Erkennungsverarbeitung realisiert.At block 306, the processing module 14 performs a recognition process to identify which of one or more tones are the desired tones (i.e., the tones that the user of the personal audio device 1 wants to hear under the scene type) under the determined scene categories and which sounds are unwanted sounds (i.e. the sounds that the user of the personal sound device 1 does not want to hear under the scene type). For example, the processing module 14 performs recognition processing using the tone processing model 140 in which a respective one of one or more tones is determined to be a desired tone or an undesired tone based on the determined type of scene. The portion of the sound processing model 140 used to perform the recognition processing may be implemented by the computing device 30 through the second building process. For example, in this second creation process, a sub-model of the sound processing model 140 for recognition processing is realized.

In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 ein zweites trainiertes Maschinenlernmodell verwenden, um Erkennungsergebnisse für den jeweiligen Ton in dem einen oder den mehreren Tönen auszugeben. Dieses zweite trainierte Maschinenlernmodell ist beispielsweise ein zur Tonerkennung geeignetes Modell. Das zweite trainierte Maschinenlernmodell wird durch Durchführen eines zweiten Lernens am auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des zweiten Trainings wird unter Verwendung der als Eingabe dienenden Ausgabe des ersten trainierten Maschinenlernmodells eine Ausgabe erzeugt, die angibt, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist.In one embodiment, the processing module 14 may use a second trained machine learning model to output recognition results for the respective tone in the one or more tones. This second trained machine learning model is, for example, a model suitable for tone recognition. The second trained machine learning model is obtained by performing second learning on the machine learning based model on the computing device 30 . During the second training, using the output of the first trained machine learning model as an input, an output is generated that indicates whether a respective tone in the one or more tones is a desired tone or an undesired tone.

Es versteht sich, dass die Toneigenschaften bei verschiedenen Szenenkategorien unterschiedlich sind, wobei das zweite trainierte Maschinenlernmodell ein Modell verwenden kann, das für die Eigenschaften der verschiedenen Arten von Tönen geeignet ist, um den Erkennungsprozess dieser Art von Tönen durchzuführen. Dementsprechend wird das Rechengerät 30 unter Verwendung der Parameter, die Eigenschaften der verschiedenen Typen von Tönen darstellen, im Verlauf der Durchführung des zweiten Trainings das Training durchführen.It is understood that the sound properties are different in different scene categories, the second trained machine learning model can use a model suitable for the properties of the different types of sounds to perform the recognition process of these types of sounds. Accordingly, in the course of performing the second training, the computing device 30 will perform the training using the parameters representing characteristics of the different types of sounds.

Nachstehend werden Beispiele einiger Tonerkennungsprozesse beispielhaft beschrieben.Examples of some tone recognition processes are described below by way of example.

In einem Block 3061 wird das Cepstrum des Audiosignals unter Verwendung eines Cepstrum-bezogenen Modells analysiert, um Tonquellen für jeden Ton zu bestimmen, wodurch ermittelt wird, ob der Ton ein erwünschter Ton oder ein unerwünschter Ton ist. Diese Art der Analyse ist besonders geeignet, um Tonsignale, die hinsichtlich Frequenz- oder Bandbreiten-Merkmalen in der Fahrzeugszene auffällig sind, wie etwa Autohupen, starke Anschlaggeräusche, Brummen des Motors in der Kabine oder dergleichen, zu analysieren und zu erkennen.In a block 3061, the cepstrum of the audio signal is analyzed using a cepstrum-related model to determine sound sources for each sound, thereby determining whether the sound is a desired sound or an undesired sound. This type of analysis is particularly suitable for analyzing and detecting audio signals that are conspicuous in terms of frequency or bandwidth characteristics in the vehicle scene, such as car horns, loud banging noises, hum of the engine in the cabin or the like.

In Block 3062 wird das Audiosignal unter Verwendung eines Modells, das sich auf die Sprachabdruckerkennung bezieht, analysiert und erkannt, um die Tonquelle (z. B. den Sprecher) jedes Tons zu bestimmen, wodurch ermittelt wird, ob der Ton ein erwünschter Ton oder ein unerwünschter Ton ist. Diese Analysemethode eignet sich besonders zur Unterscheidung von Schall unterschiedlicher Personen. Beispielsweise wird bei der Bestimmung der Szenenkategorien bestimmt, ob die Stimme einer Person als Rauschen abgefiltert werden sollte, oder als Nutzinformation an eine Person mit Kopfhörern durchgelassen wird. Beispielsweise kann eine derartige Erkennungsverarbeitung eingesetzt werden, die es einer mit dem Kopfhörer versehenen Person ermöglicht, in einer Büroszene die Diskussionsstimme von ihrem eigenen Projektteam zugeordneten Kollegen zu hören, während die Diskussionsstimme von Kollegen in einem anderen Projektteam blockiert werden.In block 3062, the audio signal is analyzed and recognized using a model related to voiceprint recognition to determine the sound source (e.g., the speaker) of each sound, thereby determining whether the sound is a desired sound or a unwanted sound is. This analysis method is particularly suitable for distinguishing between the sounds of different people. For example, when determining the scene categories, it is determined whether a person's voice should be filtered out as noise or let through as useful information to a person with headphones. For example, such recognition processing can be employed that allows a headphoneed person in an office scene to hear the discussion voice of colleagues assigned to their own project team while blocking the discussion voice of colleagues in another project team.

Auf diese Weise können akustische Merkmale verschiedener Aspekte als die Modell-Verarbeitungsparameter berücksichtigt werden, die eines oder mehrere der folgenden enthalten können: (1) Lexikalische Merkmale (zum Beispiel die Art und Weise, wie der Sprecher einen bestimmten Ton ausspricht); (2) Prosodische Merkmale (zum Beispiel der Grundton und die Energiehaltung des Sprechers); (3) Dialekte und Gewohnheiten (d. h. Wörter, die vom Sprecher leicht wiederholt zu verwenden sind); (4) Andere kundenspezifische akustische Merkmale.In this way, acoustic features of various aspects can be considered as the model processing parameters, which may include one or more of the following: (1) lexical features (e.g., the way the speaker pronounces a particular sound); (2) prosodic features (for example, the speaker's fundamental tone and energy attitude); (3) dialects and habits (i.e., words easily used repeatedly by the speaker); (4) Other custom acoustic features.

In Block 3063 kann das Erkennen von Schlüsselwörtern und/oder Schlüsseltönen an dem Audiosignal unter Verwendung eines Modells durchgeführt werden, das sich auf die Spracherkennung bezieht. Die Schlüsselworte und/oder Schlüsseltöne können Wörter oder Töne sein, deren Tonquelle leicht ermittelt werden kann und somit ermittelt werden kann, ob die Töne abgefiltert oder durchgelassen werden, beispielsweise die Ansage eines Bahnhofs in einem Bahnhof, eine Notfallinformationssendung durch öffentliche Einrichtungen und der Warnton des Krankenwagens oder dergleichen.In block 3063, recognizing keywords and/or key tones on the audio signal may be performed using a model related to speech recognition. The key words and/or key tones can be words or tones whose sound source can be easily determined and thus whether the tones are filtered or passed through can be determined, for example the announcement of a station in a station, an emergency information broadcast by public bodies and the warning tone of the ambulance or something.

In Block 3064 empfängt das Kommunikationsmodul 16 Anweisungen von der Audioanwendung 20, wobei die Anweisung ein Tonverarbeitungsschema (Filtern oder Durchlassen) unter den bestimmten Szenenkategorien angibt. Das Verarbeitungsmodul 14 stellt die angegebenen Töne gemäß den Anweisungen als erwünschte Töne oder unerwünschte Töne ein.In block 3064, the communication module 16 receives instructions from the audio application 20, the instruction specifying an audio processing scheme (filtering or passing) among the determined scene categories. The processing module 14 sets the specified tones as desired tones or undesired tones according to the instructions.

In einem Ausführungsbeispiel erkennt die Audioanwendung 20 den bestimmten Typ der Szene über das Kommunikationsmodul 16 und zeigt ein Optionsmenü für die jeweiligen Tonquellen unter diesem Typ der Szene auf ihrer Bedienerschnittstelle an. Der Benutzer des persönlichen Tongeräts 1 kann in dem Optionsmenü auswählen, welche Töne auszufiltern sind und welche Töne durchzulassen sind. Anweisungen, die Absicht des Benutzers für die Filterung der Töne angeben, werden über das Kommunikationsmodul 16 an das Verarbeitungsmodul 14 übertragen, wobei das Verarbeitungsmodul 14 die empfangenen Töne gemäß den Anweisungen einstellt.In one embodiment, the audio application 20 recognizes the particular type of scene via the communications module 16 and displays an options menu for the respective sound sources under that type of scene on its operator interface. The user of the personal sound device 1 can select which sounds to filter out and which sounds to pass through in the options menu. Instructions indicating the user's intent for filtering the tones are transmitted to the processing module 14 via the communications module 16, and the processing module 14 adjusts the received tones in accordance with the instructions.

Es ist zu beachten, dass, im Falle, dass eine Toneinstellung gemäß der Anweisung aus der Audioanwendung 20 mit einer Toneinstellung im Widerspruch steht, die durch das Verarbeitungsmodul gemäß einer vorbestimmten Analyseidentifikationsstrategie bestimmt wird, die Toneinstellung gemäß der Anweisung vorzugsweise ausgeführt wird, weil die Anweisung die aktuelle Absicht des Benutzers widerspiegeln kann. Zum Beispiel kann in dem Fall, in dem das Tonverarbeitungsmodell erkannt hat, welche Töne erwünschte Töne sind und welche Töne unerwünschte Töne sind, und die Filterkonfiguration basierend auf einer solchen Erkennung durchgeführt wird, die Anpassung der Filterkonfiguration basierend auf Anweisungen vorgenommen werden, die die Absicht des Benutzers für die Tonfilterung angeben.It should be noted that, in the event that a tone adjustment according to the instruction from the audio application 20 conflicts with a tone adjustment determined by the processing module according to a predetermined analysis identification strategy, the tone adjustment according to the instruction is carried out preferentially because the instruction may reflect the user's current intent. For example, in the case where the sound processing model has recognized which tones are desired tones and which tones are undesired tones, and the filter configuration is performed based on such recognition, the adjustment of the filter configuration can be made based on instructions reflecting the intent of the user for sound filtering.

In Block 308 führt das Verarbeitungsmodul 14 gemäß dem bestimmten erwünschten Ton und unerwünschten Ton eine Filterkonfiguration aus, um das Audiosignal auf der Basis der Konfiguration zu filtern, wodurch unerwünschte Töne in dem einen oder den mehreren empfangenen Tönen zumindest teilweise abgefiltert werden, und wobei erwünschte Töne in dem einen oder den mehreren empfangenen Tönen durchgelassen werden. Zum Beispiel führt das Verarbeitungsmodul 14 die Filterverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, wobei in der Filterverarbeitung eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung durchgeführt wird und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, wodurch unerwünschte Töne zumindest teilweise abgefiltert werden, und wobei erwünschte Töne durchgelassen werden. Der Teil des Tonverarbeitungsmodells 140 zur Ausführung der Filterverarbeitung kann durch das Rechengerät 30 durch den dritten Erstellungsprozess implementiert sein. Beispielsweise in diesem dritten Erstellungsprozess wird ein Untermodell des Tonverarbeitungsmodells 140 zur Filterverarbeitung realisiert.In block 308, according to the determined desired tone and undesired tone, the processing module 14 performs a filter configuration to filter the audio signal based on the configuration, thereby at least partially filtering out undesired tones in the one or more received tones and desired tones be passed in the one or more received tones. For example, the processing module 14 performs the filter processing using the sound processing model 140, in the filter processing, a filter configuration is performed based on a result of the recognition processing, and the audio signal is filtered based on the filter configuration, whereby unwanted sounds are at least partially filtered out, and desired tones are allowed to pass through. The part of the sound processing model 140 for executing the filter processing can be implemented by the computing device 30 through the third creation process. For example, in this third creation process, a sub-model of the sound processing model 140 for filter processing is realized.

Es versteht sich, dass „die Filterkonfiguration und das Filtern auf der Basis der Filterkonfiguration“ durch Hardware oder Software oder eine Kombination von Software und Hardware implementiert werden kann. Zum Beispiel kann die Art und Weise, in der die Hardware implementiert ist, mittels einer oder mehrerer anwendungsspezifischer integrierter Schaltungen (ASICs) implementiert sein, die als Filter arbeiten.It is understood that "the filter configuration and the filtering based on the filter configuration" can be implemented by hardware or software or a combination of software and hardware. For example, the manner in which the hardware is implemented may be implemented using one or more application specific integrated circuits (ASICs) that operate as filters.

Bei einem Ausführungsbeispiel verwendet das Verarbeitungsmodul 14 ein drittes trainiertes Maschinenlernmodell, um die Filterkonfiguration und die Filteroperationen auszuführen. Das dritte trainierte Maschinenlernmodell wird durch Durchführen eines dritten Lernens am auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des dritten Trainings wird die Ausgabe des zweiten trainierten Maschinenlernmodells als Eingabe verwendet, um das gefilterte Audiosignal auszugeben. Dadurch werden die unerwünschten Töne in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert, und die erwünschten Töne in dem einen oder den mehreren Tönen werden durchgelassen.In one embodiment, processing module 14 uses a third trained machine learning model to perform filter configuration and filter operations. The third trained machine learning model is obtained by performing third learning on the machine learning based model on the computing device 30 . During the third training, the output of the second trained machine learning model is used as input to output the filtered audio signal. This at least partially filters out the unwanted tones in the one or more tones and allows the desired tones in the one or more tones to pass through.

Es versteht sich, dass, obwohl verschiedene auf maschinellem Lernen beruhenden Modelle oben beschrieben sind, diese auf maschinellem Lernen beruhenden Modelle als ein oder mehrere Hybridmodelle implementiert werden können. Beispielsweise werden die vorstehend beschriebenen ersten, zweiten und dritten trainierten Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert. Während der Verwendung der Trainingsdaten zum Trainieren des Modells kann das Rechengerät das oben erwähnte auf maschinellem Lernen beruhende Modell in ein oder mehrere Hybridmaschinenlernmodelle trainieren.It should be understood that although various machine learning based models are described above, these machine learning based models can be implemented as one or more hybrid models. For example, the first, second, and third trained machine learning models described above are combined into one or more hybrid machine learning models. While using the training data to train the model, the computing device may train the aforementioned machine learning-based model into one or more hybrid machine learning models.

In Block 310 wird das gefilterte Audiosignal ausgegeben, so dass der Benutzer des persönlichen Tongeräts 1 die intelligent gefilterten und mit seinen eigenen Absichten konsistenten Töne hört.In block 310, the filtered audio signal is output so that the user of the personal sound device 1 hears the sounds intelligently filtered and consistent with their own intentions.

4 zeigt einen beispielhaften Prozess 400 eines Tonneulernens gemäß einer möglichen Ausführungsform der Erfindung. Das Folgende nimmt den Prozess 400 des Durchführens von Tonneulernen durch das Tonverarbeitungssystem 100 als ein Beispiel zur Beschreibung. 4 FIG. 4 shows an exemplary process 400 of tone relearning according to a possible embodiment of the invention. The following takes the process 400 of audio processing system 100 performing audio relearn as an example to describe.

In Block 402 überträgt die Tonverarbeitungsvorrichtung 10 Tondaten (Audiosignal) neuer Töne, die durch den Benutzer während der Verwendung des persönlichen Tongeräts 1 erfasst werden, über das Kommunikationsmodul 16 an die Audioanwendung 20. Der neue Ton ist beispielsweise ein Ton, an dem der aktuelle Benutzer des persönlichen Tongeräts interessiert ist, oder der Benutzer glaubt, dass der Ton in den Erkennungsbereich aufgenommen werden muss, wobei der Ton zuvor nicht in den Tönen irgendeiner Umgebungskategorie enthalten ist, d. h. nicht in den Tönen irgendeiner großen oder kleinen Kategorie enthalten ist.In block 402, the sound processing device 10 transmits sound data (audio signal) of new sounds detected by the user while using the personal sound device 1 to the audio application 20 via the communication module 16. The new sound is, for example, a sound on which the current user of the personal sound device, or the user believes that the sound must be included in the detection area, which sound is not previously included in the sounds of any environment category, ie. H. is not included in the tones of any major or minor category.

Es ist verständlich, dass die übertragenen Tondaten von verschiedenen Benutzern während der Verwendung enthalten können, beispielsweise Tondaten DATA1 von USER1, Tondaten DATA2 von USER2, Tondaten DATA3 von USER3 und so weiter.It is understood that the transmitted sound data from different users during use may contain, for example, sound data DATA1 from USER1, sound data DATA2 from USER2, sound data DATA3 from USER3, and so on.

In Block 404 stellt der Benutzer eine Markierung mit Hilfe der Audioanwendung 20 für diese Tondaten ein, um den neuen Ton zu identifizieren. Die Markierung ist zum Beispiel eine Stimme eines Freundes A, eine Stimme der Kollegen B, eine Stimme des Kunden C, etc. Dann überträgt die Audioanwendung 20 die Daten des neuen Tons mit der Markierung an das Rechengerät 30 auf dem entfernten Server 3.In block 404, the user sets a tag using the audio application 20 for this audio data to identify the new audio. The marker is, for example, a friend A's voice, a colleagues B's voice, a customer C's voice, etc. Then the audio application 20 transmits the data of the new sound with the marker to the computing device 30 on the remote server 3.

In Block 406 führt das Rechengerät 30 an dem entfernten Server 3 ein erneutes Lernen des erstellten Tonverarbeitungsmodells auf Grundlage der Daten des neuen Tons durch, nachdem die Daten des neuen Tons empfangen werden, so dass das Tonverarbeitungsmodell den neuen Ton als den erwünschten Ton oder den unerwünschten Ton erkennen kann, und um Verarbeitungsparameter zu erzeugen, damit das Tonverarbeitungsmodell den neuen Ton erkennen kann.In block 406, after the new sound data is received, the computing device 30 at the remote server 3 re-learns the created sound processing model based on the new sound data so that the sound processing model recognizes the new sound as the desired sound or the undesired one can recognize tone and to generate processing parameters to enable the tone processing model to recognize the new tone.

In einem Ausführungsbeispiel trainiert das Rechengerät 30 das auf maschinellem Lernen beruhende Modell neu, indem das Rechengerät die empfangenen Daten des neuen Tons als Trainingsmuster verwendet. Beispielsweise führt das Rechengerät 30 ein erneutes Training für das zweite trainierte Maschinenlernmodell durch. Während des Neutrainings werden Daten des neuen Tons als Modelleingaben verwendet, um die durch die Markierung dargestellte Kategorie als Modellausgaben zu erzeugen. Durch ein solches erneutes Training können Modellparameter (Verarbeitungsparameter) zum Aktualisieren des zweiten trainierten Maschinenlernmodells erzeugt werden, d. h., das zweite trainierte Maschinenlernmodell, das sich in dem Verarbeitungsmodul 14 befindet, kann durch Importieren der Modellparameter (Verarbeitungsparameter) in der Lage sein, zu erkennen, dass der neue Ton ein erwünschter oder ein unerwünschter Ton ist.In one embodiment, the computing device 30 retrains the machine learning model by using the received data of the new tone as a training pattern. For example, the computing device 30 performs retraining for the second trained machine learning model. During retraining, data from the new tone is used as model inputs to produce the category represented by the marker as model outputs. Such retraining can generate model parameters (processing parameters) for updating the second trained machine learning model, i. That is, the second trained machine learning model residing in the processing module 14 may be able to recognize that the new sound is a desired sound or an undesired sound by importing the model parameters (processing parameters).

Es versteht sich, dass die Daten als die neu trainierten Töne von einer Vielzahl von Benutzern des persönlichen Tongerätes 1 stammen können, und daher können angepasste Kombinationen von Tonfilterung und Durchlassen, die für jeweilige Absichten geeignet sind, für verschiedene Benutzer angepasst werden.It will be appreciated that the data as the retrained tones can come from a variety of users of the personal audio device 1 and therefore customized combinations of tone filtering and passing appropriate to particular intentions can be adapted for different users.

In Block 408 überträgt das Rechengerät 30 die Modellparameter für die Aktualisierung an die Audioanwendung 20, die dann von der Audioanwendung 20 in die Tonverarbeitungsvorrichtung 10 des persönlichen Tongeräts 1 gepusht wird, sodass die Tonverarbeitungsvorrichtung 10 einen neuen Ton erkennen kann, wodurch die Tonverarbeitungsvorrichtung 10 die Funktion hat, die Fähigkeit zur Tonerkennung zu verbessern.In block 408, the computing device 30 transmits the model parameters for the update to the audio application 20, which is then pushed from the audio application 20 into the sound processing device 10 of the personal sound device 1, so that the sound processing device 10 can recognize a new sound, whereby the sound processing device 10 can function has to improve the ability to recognize sounds.

5 zeigt einen beispielhaften Prozess 500 eines Audio-Pushens gemäß einer möglichen Ausführungsform der vorliegenden Erfindung. Im Folgenden wird ein Beispiel des Verfahrens 500 beschrieben, in dem das Tonverarbeitungssystem 100 ein Audio-Push ausführt. 5 FIG. 5 shows an example process 500 of audio pushing according to a possible embodiment of the present invention. An example of the method 500 in which the audio processing system 100 performs an audio push is described below.

In Block 502 lernt die Audioanwendung 20 die aktuelle Umgebung (Ort) des Benutzers des persönlichen Tongeräts 1 durch die Tonverarbeitungsvorrichtung 10 und/oder sein eigenes Positionierungssystem. Auch kann die Audioanwendung 20 lernen, ob der Benutzer gegenwärtig in einem Sprachereignis (Anruf) ist.In block 502, the audio application 20 learns the current environment (location) of the user of the personal audio device 1 through the audio processing device 10 and/or its own positioning system. Also, the audio application 20 can learn whether the user is currently in a voice event (call).

In Block 504 kann in dem Fall, dass sich der Benutzer nicht in einem Sprachereignis befindet, die Audioanwendung 20 geeignete Audioinhalte von der Audiowolke 4 erhalten, dann wird dem Benutzer auf einer Schnittstelle der Audioanwendung 20 angezeigt, ob das Abspielen des empfohlenen Inhalts erlaubt ist.At block 504, in the event that the user is not in a speech event, the audio application 20 may obtain appropriate audio content from the audio cloud 4, then an interface of the audio application 20 indicates to the user whether the recommended content is allowed to be played.

In Block 506, in dem Fall, in dem der Benutzer „Abspielen erlauben“ auf der Schnittstelle der Audioanwendung 20 auswählt, empfängt die Tonverarbeitungsvorrichtung 10 einen gepushten Audioinhalt, z. B. Musik, Cross-Talk und Comics oder ähnliches, die für die vorliegende Szene geeignet sind, von der Audioanwendung 20 über das Kommunikationsmodul.In block 506, in the case where the user selects "allow play" on the audio application 20 interface, the audio processing device 10 receives pushed audio content, e.g. music, cross-talk and comics or similar appropriate to the scene at hand, from the audio application 20 via the communications module.

In einem Ausführungsbeispiel ist das externe elektronische Gerät 2 kommunikativ mit einer Audiowolke 4 (z. B. NetEase Cloud Music) verbunden. Die Audioanwendung 20 erlangt geeigneten Audioinhalt von der Audiowolke 4, wenn die Umgebung des Benutzers bestimmt ist und kein Sprachereignis vorliegt, dann wird dem Benutzer auf einer Schnittstelle der Audioanwendung 20 angezeigt, ob das Abspielen des empfohlenen Inhalts möglich ist, wobei der gepushte Audioinhalt dann dem Benutzer abgespielt werden kann, wenn der Benutzer „Ja“ auswählt.In one embodiment, the external electronic device 2 is communicatively connected to an audio cloud 4 (e.g., NetEase Cloud Music). The audio application 20 obtains suitable audio content from the audio cloud 4, when the user's environment is determined and no speech event is present, then the user is indicated on an interface of the audio application 20 whether the recommended content can be played, the pushed audio content then being User can be played if the user selects "Yes".

6 zeigt ein Tonverarbeitungsverfahren 600 gemäß einer Ausführungsform der Erfindung. Das Tonverarbeitungsverfahren 600 kann durch die oben beschriebene Tonverarbeitungsvorrichtung 10 ausgeführt werden, oder es kann durch das oben beschriebene Tonverarbeitungssystem 100 ausgeführt werden, und deshalb gilt die oben beschriebene zugehörige Beschreibung in gleicher Weise. 6 Figure 6 shows a sound processing method 600 according to an embodiment of the invention. The sound processing method 600 may be performed by the sound processing apparatus 10 described above, or it may be performed by the sound processing system 100 described above, and therefore the related description above applies equally.

In Schritt S610 wird ein Audiosignal eines oder mehrerer von dem persönlichen Tongerät erfasster Töne empfangen, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfassen.In step S610, an audio signal of one or more tones detected by the personal audio device is received, the one or more tones comprising at least ambient noise around the personal audio device.

In Schritt S612 wird ein Tonverarbeitungsmodell verwendet, um eine Klassifizierungsverarbeitung durchzuführen, bei der der Typ einer Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird.In step S612, a sound processing model is used to perform classification processing in which the type of a scene in which a user of the personal sound device is located is determined based on the audio signal.

In Schritt S614 wird die Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells durchgeführt, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird.In step S614, recognition processing is performed using the sound processing model, in which a respective sound of the one or more sounds is determined to be a desired sound or an undesired sound based on the determined type of scene.

In Schritt S616 wird das Tonverarbeitungsmodell verwendet, um eine Filterverarbeitung durchzuführen, wobei in der Filterverarbeitung eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung durchgeführt wird und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, wodurch unerwünschte Töne in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert werden, und wobei erwünschte Töne in dem einen oder den mehreren Tönen durchgelassen werden.In step S616, the sound processing model is used to perform filter processing, in which filter processing a filter configuration is performed based on a result of the recognition processing and the audio signal is filtered based on the filter configuration, thereby removing unwanted sounds in the one or more sounds at least partially filtered out, and passing desired tones in the one or more tones.

Im Schritt S618 wird das gefilterte Audiosignal zum Liefern an einen Benutzer ausgegeben.In step S618, the filtered audio signal is output for delivery to a user.

7 zeigt eine weitere beispielhafte Tonverarbeitungsvorrichtung 700 zur Verwendung in einem persönlichen Tongerät 10 gemäß der vorliegenden Erfindung. Die Vorrichtung 700 kann einen oder mehrere Prozessoren 710 und einen Speicher 720 umfassen, der ausführbare Anweisungen des Computers speichert, wobei bei Ausführung der ausführbaren Anweisungen des Computers der eine oder die mehreren Prozessoren 710 das oben beschriebene Verfahren 600 ausführen können. 7 Figure 7 shows another exemplary audio processing device 700 for use in a personal audio device 10 in accordance with the present invention. Apparatus 700 may include one or more processors 710 and memory 720 storing computer executable instructions, wherein upon execution of the computer executable instructions, the one or more processors 710 may perform method 600 described above.

Die vorliegende Erfindung stellt auch ein computerlesbares Speichermedium bereit. Das computerlesbare Speichermedium kann Anweisungen umfassen. Wenn die Anweisungen ausgeführt werden, werden ein oder mehrere Prozessoren veranlasst, Operationen für eine intelligente Tonverarbeitung gemäß den obigen Ausführungsbeispielen der vorliegenden Offenbarung auszuführen, beispielsweise dem obigen Verfahren 600.The present invention also provides a computer-readable storage medium. The computer-readable storage medium may include instructions. When the instructions are executed, one or more processors are caused to perform intelligent sound processing operations in accordance with the above embodiments of the present disclosure, such as method 600 above.

Es ist dadurch ersichtlich, dass gemäß der technischen Lösung der vorliegenden Erfindung der von dem persönlichen Tongerät empfangene Ton mittels künstlicher Intelligenztechnologie automatisch verarbeitet werden kann, so dass der Benutzer in die Lage ist, Töne zu hören, die mit dem Typ der Szene und seinen eigenen Absichten übereinstimmen.It can be seen from this that according to the technical solution of the present invention, the sound received from the personal sound device can be automatically processed using artificial intelligence technology, so that the user is able to hear sounds that are compatible with the type of scene and his own agree on intentions.

Ferner ist es gemäß der Lösung der vorliegenden Erfindung nicht notwendig, eine lokale Datenbank, die eine große Anzahl von Muster-Tondaten enthält, in einem persönlichen Tongerät vorzusehen, da die große Anzahl von Muster-Tönen als Trainingsdaten den entsprechenden Klassifizierungs-, Erkennungs- und Übereinstimmungsprozess in dem entfernten Server abschließt.Furthermore, according to the solution of the present invention, it is not necessary to provide a local database containing a large number of sample sound data in a personal sound device, since the large number of sample sounds as training data are associated with the corresponding classification, recognition and matching process in the remote server completes.

Darüber hinaus ist es gemäß der technischen Lösung der vorliegenden Erfindung möglich, eine Kombination von Abfiltern und Durchlassen von Tönen für unterschiedliche Szenentypen und unterschiedliche Benutzer anzupassen, ohne eine Einstellung für jeden Ton während jeder Verwendung zu benötigen.Furthermore, according to the technical solution of the present invention, it is possible to adjust a combination of filtering and passing of sounds for different types of scenes and different users without requiring adjustment for each sound during each use.

Darüber hinaus wird gemäß der technischen Lösung der vorliegenden Erfindung ein Maschinenlernmodell verwendet, das sich gut zum Klassifizieren, Identifizieren und Filtern von Tondaten eignet, um eine Tondatenverarbeitung zu realisieren, wodurch unterschiedliche Eigenschaften und/oder Abhängigkeiten von verschiedenen Arten von Tondaten schnell und ausreichend herausgearbeitet werden können, wodurch die Effizienz und Genauigkeit der Tondatenverarbeitung verbessert wird.In addition, according to the technical solution of the present invention, a machine learning model, which is good for classifying, identifying and filtering sound data, is used to realize sound data processing, whereby different properties and/or dependencies of different types of sound data are quickly and sufficiently worked out can, thereby improving the efficiency and accuracy of sound data processing.

Es versteht sich, dass alle Module in der oben beschriebenen Vorrichtung auf verschiedene Arten implementiert werden können. Diese Module können als Hardware, Software oder eine Kombination davon ausgeführt sein. Darüber hinaus können beliebige der Module funktional weiter in Untermodule unterteilt oder miteinander kombiniert sein.It is understood that all modules in the device described above can be implemented in different ways. These modules can be embodied in hardware, software, or a combination thereof. In addition, any of the modules can be functionally further divided into sub-modules or combined with one another.

Der Prozessor wurde in Verbindung mit verschiedenen Vorrichtungen und Verfahren beschrieben. Diese Prozessoren können unter Verwendung von elektronischer Hardware, Computersoftware oder einer Kombination davon implementiert sein. Ob diese Prozessoren als Hardware oder Software implementiert sind, hängt von der speziellen Anwendung und den dem System auferlegten Gesamt-Gestaltungsgrenzen ab. Beispielsweise können der Prozessor, ein beliebiger Teil des Prozessors oder eine beliebige Kombination der Prozessoren, die in der vorliegenden Erfindung angegeben sind, als ein Mikroprozessor, ein Mikrocontroller, ein digitaler Signalprozessor (DSP), ein Field Programmable Gate Array (FPGA), eine programmierbare Logikvorrichtung (PLD), eine Zustandsmaschine, eine Gatelogik, diskrete Hardwareschaltungen und andere geeignete Verarbeitungskomponenten ausgeführt sein, die eingerichtet sind, um verschiedene Funktionen auszuführen, die in der vorliegenden Offenbarung beschrieben sind. Die Funktionalität eines Prozessors, eines beliebigen Teils eines Prozessors oder einer beliebigen Kombination von Prozessoren, wie sie in der vorliegenden Erfindung dargestellt sind, kann als Software umgesetzt sein, die von einem Mikroprozessor, einem Mikrocontroller, einem DSP oder einer anderen geeigneten Plattform ausgeführt wird.The processor has been described in connection with various devices and methods. These processors can be implemented using electronic hardware, computer software, or a combination thereof. Whether these processors are implemented in hardware or software depends on the specific application and the overall design constraints imposed on the system. For example, the processor, any part of the processor, or any combination of the processors specified in the present invention may be a microprocessor, a microcontroller, a digital signal processor (DSP), a Field Programmable Gate Array (FPGA), a programmable Logic device (PLD), a state machine, gate logic, discrete hardware circuits, and other suitable processing components configured to perform various functions described in the present disclosure. The functionality of a processor, any portion of a processor, or any combination of processors as illustrated in the present invention may be implemented in software executed by a microprocessor, microcontroller, DSP, or other suitable platform.

Software sollte allgemein als Darstellung von Anweisungen, Anweisungssätzen, Codes, Codesegmenten, Programmcodes, Programmen, Unterprogrammen, Softwaremodulen, Anwendungen, Softwareanwendungen, Softwarepaketen, Routinen, Subroutinen, Objekten, laufenden Threads, Prozessen, Funktionen oder dergleichen angesehen werden. Die Software kann in einem computerlesbaren Medium angesiedelt sein. Das computerlesbare Medium kann beispielsweise einen Speicher umfassen, der beispielsweise eine magnetische Speichervorrichtung (z. B. eine Festplatte, eine Diskette, ein Magnetstreifen), eine optische Platte, eine Smartcard, eine Flash-Speichervorrichtung, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein programmierbarer ROM (PROM), ein löschbarer PROM (EPROM), ein elektrisch löschbarer PROM (EEPROM), ein Register oder eine entfernbare Platte sein kann. Obwohl der Speicher in verschiedenen Aspekten dieser Offenbarung als vom Prozessor getrennt dargestellt ist, kann der Speicher auch innerhalb des Prozessors (z. B. einem Cache oder einem Register) angeordnet sein.Software should generally be viewed as a representation of instructions, sets of instructions, code, code segments, program code, programs, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, running threads, processes, functions, or the like. The software may reside on a computer-readable medium. The computer-readable medium may include, for example, memory, which may be, for example, a magnetic storage device (e.g., a hard drive, a floppy disk, a magnetic stripe), an optical disk, a smart card, a flash memory device, a random access memory (RAM), a Read only memory (ROM), programmable ROM (PROM), erasable PROM (EPROM), electrically erasable PROM (EEPROM), register or removable disk. Although memory is shown as separate from the processor in various aspects of this disclosure, memory may also be located within the processor (e.g., a cache or a register).

Obwohl vorstehend einige Ausführungsformen beschrieben sind, sind diese Ausführungsformen nur beispielhaft angegeben und sollen den Umfang der Erfindung nicht einschränken. Die beigefügten Ansprüche und deren gleichwertige Substitution zielen darauf ab, jegliche Modifikationen, Substitutionen und Abänderungen im Rahmen des Umfangs und der Grundideen der vorliegenden Erfindung miteinzubeziehen.Although some embodiments are described above, these embodiments are provided by way of example only and are not intended to limit the scope of the invention. The appended claims and their equivalent substitutions are intended to cover any modifications, substitutions and alterations within the scope and spirit of the present invention.

Claims

Sound processing apparatus for use in a personal sound device, comprising: a receiving module configured to receive an audio signal of one or more sounds detected by the personal audio device, the one or more sounds including at least ambient noise around the personal audio device; a processing module configured to perform the following processing using a sound processing model: classification processing in which the type of scene in which a user of the personal audio device is located is determined based on the audio signal; recognition processing in which a respective sound of the one or more sounds is recognized as a desired sound or an undesired sound based on the determined type of the scene; and filter processing in which a filter configuration is made based on a result of the recognition processing and the audio signal is filtered based on the filter configuration such that an unwanted sound in the one or more sounds is at least partially filtered out and a desired sound in the one or the multiple tones is passed; and an output module configured to output the filtered audio signal for delivery to the user.

sound processing device claim 1 , wherein the sound processing model comprises one or more machine learning based models.

sound processing device claim 1 or 2 wherein the sound processing model comprises a first trained machine learning model, a second trained machine learning model, and a third trained machine learning model; and wherein the processing module is configured to: perform the classification processing of the audio signal using the first trained machine learning model to output the type of the scene; perform the recognition processing of the output determined based on the first trained machine learning model using the second trained machine learning model to output the result of whether a respective sound in the one or more sounds is a desired sound or an undesired sound; and perform the filter processing of the output determined based on the second trained machine learning model using the third trained machine learning model to output a filtered audio signal.

sound processing device claim 3 , wherein the first, second, and third trained machine learning models are combined into one or more hybrid machine learning models.

Sound processing device according to any one of Claims 1 until 4 wherein the processing module determines whether the respective tone is a desired tone or an undesired tone by at least one of the following processing: cepstrum analysis, speech print recognition, keyword and/or key tone detection; and optionally wherein the processings are each performed by the processing module using an associated model.

Sound processing device according to any one of Claims 1 until 5 wherein the audio processing apparatus further comprises a communication module configured to communicate with an external electronic device external to the personal audio device to exchange information with an audio application provided in the external electronic device.

sound processing device claim 6 wherein the communication module receives instructions from the audio application, the instructions including an intention of the user on how to filter the sounds in the particular type of scene; and the processing module adjusts the filter configuration based on the instructions.

sound processing device claim 6 or 7 wherein the communication module is configured to: transmit an audio signal of a new sound that the personal sound device detects during use to the audio application; and receive processing parameters of the audio signal based on the new sound from the audio application so that the new sound can be recognized.

Sound processing device according to any one of Claims 6 until 8th , wherein the communication module is further configured to receive recommended audio content from the audio application, the recommended audio content based on the determined type of scene and a usage status of the personal audio device.

Sound processing device according to one of Claims 1 until 9 , wherein all or part of the individual modules of the sound processing device can be realized by means of one or more AI chips.

Computing device, wherein the computing device is located on a remote server and creates a sound processing model that can process an audio signal of one or more sounds detected during use of a personal sound device, wherein creating the sound processing model comprises: performing a first creation process in which the audio processing model can determine the type of scene a user of the personal audio device is in based on the audio signal; performing a second creation process in which the sound processing model can determine a respective one of one or more sounds as a desired sound or an undesired sound based on the type of the scene; Performing a third creation process in which the sound processing model can perform a filter configuration and filtering of the audio signal based on the filter configuration, whereby an unwanted sound in the one or more sounds is at least partially filtered and a desired sound in the one or more sounds is passed becomes.

computing device claim 11 , wherein building the sound processing model comprises training one or more machine learning based models in the first to third building processes.

Calculator according to claim 11 or 12 , wherein creating the sound processing model comprises: performing a first training of the machine learning-based model to obtain a first trained machine learning model, wherein during the first training using the audio signal serving as an input an output is generated that represents the type of the scene ; performing a second training of the machine learning model to obtain a second trained machine learning model, wherein during the second training using the output of the first trained machine learning model serving as an input an output is generated indicating whether a respective tone in the one or the multiple tones is a desired tone or an undesired tone; and performing a third training of the machine learning-based model to obtain a third trained machine learning model, wherein during the third training using the output of the second trained machine learning model as an input, the filtered audio signal is output.

computing device Claim 13 , wherein the first, second, and third trained machine learning models are combined into one or more hybrid machine learning models.

Calculator according to Claim 13 or 14 , wherein the computing device is further configured to perform a relearning process of the sound processing model based on an audio signal of a new sound that the personal sound device detects during use so that the sound processing model can recognize the new sound as a desired sound or an undesired sound, and to generate processing parameters that enable the sound processing model to recognize the new sound.

Calculator according to one of Claims 13 - 15 , wherein the computing device is further configured to perform retraining of the second trained machine learning model, and wherein during the retraining the audio signal of the new sound that the personal sound device detects during use is used as input to generate an output indicative whether the new sound is a desirable sound or an undesirable sound; and during the retraining, generating processing parameters that enable the second trained machine learning model to recognize the new tone.

A sound processing system comprising: a sound processing device according to any one of Claims 1 until 10 provided in a personal audio device; a computing device according to one of Claims 11 - 15 provided at a remote server and creating a sound processing model for processing an audio signal of one or more sounds detected at the personal sound device; and an audio application provided on an external electronic device external to the personal audio device, the audio application being communicatively coupled to the computing device and the audio processing device, respectively; wherein the sound processing device performs extensive processing of an audio signal of one or more sounds detected by the personal sound device using a sound processing model created in the remote server to generate a filtered audio signal such that an undesired sound in the one or more sounds is at least partially filtered and a desirable one tone in which one or more tones is passed.

A sound processing method, the method optionally being carried out by a sound processing device according to any one of Claims 1 - 10 and/or by an audio processing system Claim 18 is performed, the method comprising: receiving an audio signal of one or more sounds detected by a personal audio device, the one or more sounds including at least ambient noise around the personal audio device; performing classification processing using a sound processing model in which the type of scene in which a user of the personal sound device is located is determined based on the audio signal; performing recognition processing using the sound processing model, in which a respective sound of the one or more sounds is determined as a desired sound or an undesired sound based on the determined type of the scene; Performing filter processing using the sound processing model, in which a filter configuration is made based on a result of the recognition processing and the audio signal is filtered based on the filter configuration such that an undesired sound in the one or more sounds is at least partially filtered out and a desired one tone in the one or more tones is passed; and outputting the filtered audio signal for delivery to the user.

Sound processing apparatus for use in a personal sound device, comprising: one or more processors; and a memory storing computer-executable instructions, the one or more processors performing the method Claim 18 performs or performs when the computer-executable instructions are executed.

Computer-readable storage medium storing instructions, at least one processor according to the method Claim 18 performs when the instructions are executed by the at least one processor.