[go: up one dir, main page]

DE102021203815A1 - Tonverarbeitungsvorrichtung, System und Verfahren - Google Patents

Tonverarbeitungsvorrichtung, System und Verfahren Download PDF

Info

Publication number
DE102021203815A1
DE102021203815A1 DE102021203815.8A DE102021203815A DE102021203815A1 DE 102021203815 A1 DE102021203815 A1 DE 102021203815A1 DE 102021203815 A DE102021203815 A DE 102021203815A DE 102021203815 A1 DE102021203815 A1 DE 102021203815A1
Authority
DE
Germany
Prior art keywords
sound
processing
audio
machine learning
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021203815.8A
Other languages
English (en)
Inventor
Wei Wang
Hui Xie
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021203815.8A priority Critical patent/DE102021203815A1/de
Publication of DE102021203815A1 publication Critical patent/DE102021203815A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Die vorliegende Erfindung stellt eine Tonverarbeitungsvorrichtung, ein System und ein Verfahren bereit. Die Tonverarbeitungsvorrichtung umfasst: ein Empfangsmodul, das konfiguriert ist, um ein Audiosignal eines oder mehrerer von einem persönlichen Tongerät erfasster Töne zu empfangen; ein Verarbeitungsmodul, das konfiguriert ist, um unter Verwendung eines Tonverarbeitungsmodells die folgenden Verarbeitungen durchzuführen: eine Klassifizierungsverarbeitung, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; eine Erkennungsverarbeitung, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird; und eine Filterverarbeitung, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird; und ein Ausgabemodul, das konfiguriert ist, um das gefilterte Audiosignal zum Liefern an den Benutzer auszugeben.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft allgemein Tonverarbeitung auf der Grundlage von künstlicher Intelligenz. Insbesondere betrifft die vorliegende Erfindung eine Tonverarbeitungsvorrichtung für ein persönliches Tongerät, ein die Tonverarbeitungsvorrichtung aufweisendes System, und ein Tonverarbeitungsverfahren.
  • Stand der Technik
  • In den letzten Jahren sind geräuschunterdrückende Kopfhörer sehr populär geworden, da sie ein angenehmes Verwendungsszenario für den Träger erzeugen können. Wenn der Träger beispielsweise den Kopfhörer aufsetzt und die Geräuschreduzierungsfunktion aktiviert, kann er seine Lieblingsmusik in einer ruhigen Umgebung genießen. Dazu kann sich der Träger auf seine Arbeit in Büro- oder Reiseszenarien konzentrieren, ohne durch Umgebungsgeräusche gestört zu werden.
  • Die in den Kopfhörern angewendeten Geräuschminderungslösungen nach dem Stand der Technik sind hauptsächlich in zwei Kategorien klassifiziert, nämlich eine passive Geräuschminderungslösung und eine aktive Geräuschminderungslösung. Die passive Geräuschminderungslösung erreicht die akustische Isolation auf der Basis von einer PNR-Technik (Passive Noise Reduction) eines schallabsorbierenden und/oder -reflektierenden Materials. Die aktive Geräuschreduzierungslösung verwendet eine ANR-Technik (Active Noise Reduction), die auf einer geräuschdämmenden Tonausgabe basiert, um Geräusche zu neutralisieren und damit den Effekt der Geräuschreduzierung zu erreichen.
  • Sowohl bei einer passiven Geräuschreduzierung als auch bei einer aktiven Geräuschreduzierung werden jedoch alle Geräusche abgefiltert, was zu einer Gefahr führen kann. Obwohl der schalldämpfende Kopfhörer die lauten Geräusche beispielsweise in der U-Bahn effektiv abfiltert, werden einige Töne, die gehört werden sollen, auch abgefiltert, z. B. die Haltestellenansage und das Weinen eines Babys.
  • Dementsprechend ist es wünschenswert, eine technische Lösung für die oben genannten Probleme im Stand der Technik vorzuschlagen.
  • Offenbarung der Erfindung
  • Angesichts der oben erwähnten Probleme im Stand der Technik ist die vorliegende Erfindung auf die Bereitstellung eines intelligenten Tonverarbeitungsschemas für ein persönliches Tongerät gerichtet, das eine automatisierte Rauschunterdrückung auf der Grundlage von Anforderungen eines Benutzers ermöglicht.
  • Zu diesem Zweck wird gemäß einem Aspekt der vorliegenden Erfindung eine Tonverarbeitungsvorrichtung bereitgestellt, die in einem persönlichen Tongerät verwendet wird, umfassend: ein Empfangsmodul, das konfiguriert ist, um ein Audiosignal eines oder mehrerer von dem persönlichen Tongerät erfassten Tönen zu empfangen, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfasst oder umfassen; ein Verarbeitungsmodul, das konfiguriert ist, um unter Verwendung eines Tonverarbeitungsmodells die folgenden Verarbeitungen durchzuführen: eine Klassifizierungsverarbeitung, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; eine Erkennungsverarbeitung, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton erkannt wird; und eine Filterverarbeitung, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird; und ein Ausgabemodul, das konfiguriert ist, um das gefilterte Audiosignal zum Liefern an den Benutzer auszugeben.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Tonverarbeitungsmodell ein oder mehrere auf maschinellem Lernen beruhende Modelle umfasst.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Tonverarbeitungsmodell ein erstes trainiertes Maschinenlernmodell, ein zweites trainiertes Maschinenlernmodell und ein drittes trainiertes Maschinenlernmodell umfasst; und wobei das Verarbeitungsmodul dazu konfiguriert ist: die Klassifizierungsverarbeitung des Audiosignals unter Verwendung des ersten trainierten Maschinenlernmodells durchzuführen, um den Typ der Szene auszugeben; die Erkennungsverarbeitung der auf der Grundlage des ersten trainierten Maschinenlernmodells ermittelten Ausgabe unter Verwendung des zweiten trainierten Maschinenlernmodells durchzuführen, um das Ergebnis, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist, auszugeben; und die Filterverarbeitung der auf der Grundlage des zweiten trainierten Maschinenlernmodells ermittelten Ausgabe unter Verwendung des dritten trainierten Maschinenlernmodells durchzuführen, um ein gefiltertes Audiosignal auszugeben.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die erste, zweite und dritte trainierte Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert sind.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Verarbeitungsmodul durch mindestens eine der folgenden Verarbeitungen bestimmt, ob der jeweilige Ton ein erwünschter Ton oder ein unerwünschter Ton ist: Cepstrum-Analyse, Sprachabdruckerkennung, Schlüsselwort- und/oder Schlüsseltondetektion.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die oben beschriebenen verschiedenen Verarbeitungen von dem Verarbeitungsmodul jeweils unter Verwendung eines zugehörigen Modells ausgeführt werden.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die Tonverarbeitungsvorrichtung ferner ein Kommunikationsmodul umfasst, das für die Kommunikationsverbindung mit einem externen elektronischen Gerät, das sich außerhalb des persönlichen Tongeräts befindet, konfiguriert ist, um mit einer in dem externen elektronischen Gerät vorgesehenen Audioanwendung Informationen auszutauschen.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul Anweisungen von der Audioanwendung empfängt, wobei die Anweisungen eine Absicht des Benutzers umfassen, wie die Töne in dem bestimmten Typ der Szene gefiltert werden soll; und das Verarbeitungsmodul die Filterkonfiguration auf der Basis der Anweisungen verstellt.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul dazu konfiguriert ist: ein Audiosignal eines neuen Tons, den das persönliche Tongerät während der Verwendung erfasst, an die Audioanwendung zu übertragen; und Verarbeitungsparameter des Audiosignals auf der Grundlage des neuen Tons von der Audioanwendung zu empfangen, sodass der neue Ton erkannt werden kann.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Kommunikationsmodul ferner konfiguriert ist, um einen empfohlenen Audioinhalt von der Audioanwendung zu empfangen, wobei der empfohlene Audioinhalt auf dem bestimmten Typ der Szene und einem Nutzungsstatus des persönlichen Tongeräts basiert.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass alle oder ein Teil der einzelnen Module der Tonverarbeitungsvorrichtung mittels eines oder mehrerer AI-Chips realisiert sein können.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Rechengerät bereitgestellt, wobei das Rechengerät in einem entfernten Server angeordnet ist und ein Tonverarbeitungsmodell erstellt, das ein Audiosignal eines oder mehrerer während der Verwendung eines persönlichen Tongeräts erfasster Töne verarbeiten kann, wobei das Erstellen des Tonverarbeitungsmodells umfasst: Durchführen eines ersten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell den Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmen kann; Durchführen eines zweiten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell auf der Grundlage des Typs der Szene einen jeweiligen Ton von einem oder mehreren Tönen als einen erwünschten Ton oder einen unerwünschten Ton bestimmen kann; Durchführen eines dritten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell eine Filterkonfiguration und eine Filterung des Audiosignals basierend auf der Filterkonfiguration durchführen kann, wodurch ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Erstellen des Tonverarbeitungsmodells das Trainieren eines oder mehrerer auf maschinellem Lernen beruhender Modelle in den ersten bis dritten Erstellungsprozessen umfasst.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Erstellen des Tonverarbeitungsmodells umfasst: Durchführen eines ersten Trainings des auf maschinellem Lernen beruhenden Modells, um ein erstes trainiertes Maschinenlernmodell zu erhalten, wobei während des ersten Trainings unter Verwendung des als Eingabe dienenden Audiosignals eine Ausgabe erzeugt wird, die den Typ der Szene repräsentiert; Durchführen eines zweiten Trainings des auf maschinellem Lernen beruhenden Modells, um ein zweites trainiertes Maschinenlernmodell zu erhalten, wobei während des zweiten Trainings unter Verwendung der als Eingabe dienenden Ausgabe des ersten trainierten Maschinenlernmodells eine Ausgabe erzeugt wird, die angibt, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist; und Durchführen eines dritten Trainings des auf maschinellem Lernen beruhenden Modells, um ein drittes trainiertes Maschinenlernmodell zu erhalten, wobei während des dritten Trainings unter Verwendung der als Eingabe dienenden Ausgabe des zweiten trainierten Maschinenlernmodells das gefilterte Audiosignal ausgegeben wird.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass die ersten, zweiten und dritten trainierten Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert sind.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Rechengerät weiterhin konfiguriert ist, um einen Neulernprozess des Tonverarbeitungsmodells auf der Grundlage eines Audiosignals eines neuen Tons auszuführen, den das persönliche Tongerät während der Verwendung erfasst, so dass das Tonverarbeitungsmodell den neuen Ton als einen erwünschten Ton oder einen unerwünschten Ton erkennen kann, und um Verarbeitungsparameter zu erzeugen, mit denen das Tonverarbeitungsmodell den neuen Ton erkennen kann.
  • Gemäß einer möglichen Ausführungsform ist es vorgesehen, dass das Rechengerät ferner konfiguriert ist, um ein Neutraining des zweiten trainierten Maschinenlernmodells durchzuführen, und wobei während des Neutrainings das Audiosignal des neuen Tons, den das persönliche Tongerät während der Verwendung erfasst, als Eingabe verwendet wird, um eine Ausgabe zu erzeugen, die angibt, ob der neue Ton ein erwünschter Ton oder ein unerwünschter Ton ist; und wobei während des Neutrainings Verarbeitungsparameter erzeugt werden, mit denen das zweite trainierte Maschinenlernmodell den neuen Ton erkennen kann.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Tonverarbeitungssystem bereitgestellt, umfassend: eine oben erwähnte Tonverarbeitungsvorrichtung, die in einem persönlichen Tongerät vorgesehen ist; ein oben erwähntes Rechengerät, das in einem entfernten Server vorgesehen ist und ein Tonverarbeitungsmodell zum Verarbeiten eines Audiosignals eines oder mehrerer Töne erstellt, die an dem persönlichen Tongerät erfasst werden; und eine Tonanwendung, die in einem externen elektronischen Gerät außerhalb des persönlichen Tongeräts vorgesehen ist, wobei die Audioanwendung jeweils mit dem Rechengerät und der Tonverarbeitungsvorrichtung kommunikativ verbunden ist; wobei die Tonverarbeitungsvorrichtung eine umfangreiche Verarbeitung eines Audiosignals eines oder mehrerer Töne, die durch das persönliche Tongerät erfasst werden, unter Verwendung eines im entfernten Server erstellten Tonverarbeitungsmodells durchführt, um ein gefiltertes Audiosignal zu erzeugen, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Tonverarbeitungsverfahren bereitgestellt, das optional durch eine oben erwähnte Tonverarbeitungsvorrichtung und/oder durch ein oben erwähntes Tonverarbeitungssystem durchgeführt wird, wobei das Verfahren umfasst: Empfangen eines Audiosignals eines oder mehrerer von einem persönlichen Tongerät erfasster Töne, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfasst oder umfassen; Durchführen einer Klassifizierungsverarbeitung unter Verwendung eines Tonverarbeitungsmodells, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; Durchführen einer Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird; Durchführen einer Filterverarbeitung unter Verwendung des Tonverarbeitungsmodells, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird; und Ausgeben des gefilterten Audiosignals zum Liefern an den Benutzer.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Tonverarbeitungsvorrichtung zur Verwendung in einem persönlichen Tongerät bereitgestellt, umfassend: einen oder mehrere Prozessoren; und einen Speicher, in dem computerausführbare Anweisungen gespeichert sind, wobei der eine oder die mehreren Prozessoren das oben erwähnte Verfahren durchführt oder durchführen, wenn die computerausführbaren Anweisungen ausgeführt werden.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium bereitgestellt, auf dem Anweisungen gespeichert sind, wobei mindestens ein Prozessor das oben erwähnte Verfahren durchführt, wenn die Anweisungen durch den mindestens einen Prozessor ausgeführt werden.
  • Somit ist es gemäß der technischen Lösung der vorliegenden Erfindung möglich, eine Automatisierung der durch das persönliche Tongerät empfangenen Töne unter Verwendung des Maschinenlernmodells durchzuführen, so dass der Benutzer in der Lage ist, Töne zu hören, die mit dem Typ der Szene und seinen eigenen Absichten übereinstimmen. Gemäß der technischen Lösung der vorliegenden Erfindung ist es ferner vorgesehen, dass durch Kombinationslösungen über die Anpassung der Tonfilterung und des Durchlassens für verschiedene Szenentypen und verschiedene Benutzer der Grad an Intelligenz und Automatisierung der Tonverarbeitung kontinuierlich verbessert und erweitert werden kann.
  • Figurenliste
    • 1 zeigt eine beispielhafte Betriebsumgebung, in der einige Implementierungen der vorliegenden Erfindung implementiert werden können.
    • 2 ist ein schematisches Blockschaltbild eines Schallverarbeitungssystems gemäß einer möglichen Ausführungsform der Erfindung, wobei die Tonverarbeitungsvorrichtung zur Verwendung im persönlichen Tongerät gemäß der vorliegenden Erfindung enthalten ist.
    • 3 zeigt einen beispielhaften Prozess einer Tonverarbeitung gemäß einer möglichen Ausführungsform der Erfindung.
    • 4 zeigt einen beispielhaften Prozess eines Neulernens des Tons gemäß einer möglichen Ausführungsform der vorliegenden Erfindung.
    • 5 zeigt einen beispielhaften Prozess eines Audio-Pushens gemäß einer möglichen Ausführungsform der vorliegenden Erfindung.
    • 6 ist ein Flussdiagramm eines Tonverarbeitungsverfahrens gemäß einer möglichen Ausführungsform der Erfindung.
    • 7 zeigt ein schematisches Blockdiagramm einer weiteren Schallverarbeitungsvorrichtung gemäß der vorliegenden Erfindung.
  • Konkrete Ausführungsformen
  • Die vorliegende Erfindung bezieht sich allgemein auf eine technische Lösung zum automatischen Verarbeiten von Tonsignalen, die durch ein persönliches Tongerät erfasst sind. Spezifisch kann das Tonverarbeitungsschema gemäß der vorliegenden Erfindung basierend auf Techniken der künstlichen Intelligenz (Artificial Intelligence, AI) implementiert werden.
  • Im Sinne der Erfindung bezieht sich ein „persönliches Tongerät“ auf eine Vorrichtung, die dazu ausgebildet ist, an, über oder um zumindest ein Ohr eines Benutzers positioniert zu werden, wie zum Beispiel Kopfhörer, Ohrstöpsel und Ohrhörer, oder dergleichen.
  • Nachfolgend werden Ausführungsbeispiele der Erfindung unter Bezugnahme auf die begleitende Zeichnung im Detail beschrieben.
  • 1 zeigt eine beispielhafte Betriebsumgebung, in der einige Implementierungen der vorliegenden Erfindung implementiert werden können. 2 zeigt schematisch ein Tonverarbeitungssystem 100 gemäß einer möglichen Ausführungsform der Erfindung. Das in 2 dargestellte Tonverarbeitungssystem 100 kann in der Betriebsumgebung von 1 implementiert sein. Es ist zu beachten, dass das Tonverarbeitungssystem 100 der vorliegenden Erfindung nicht auf den in 1 gezeigten Rahmen beschränkt ist.
  • In Bezug auf 1 und 2 umfasst das Tonverarbeitungssystem 100 im Wesentlichen die Tonverarbeitungsvorrichtung 10, die Audioanwendung 20 und ein Rechengerät 30.
  • Die Tonverarbeitungsvorrichtung 10 ist in einem persönlichen Tongerät 1. Das persönliche Tongerät 1 ist beispielsweise ein Kopfhörer. Das persönliche Tongerät 1 kann mehrere Benutzer, zum Beispiel die in 1 gezeigten USER1-USER3, aufweisen. Verschiedene Benutzer können, wenn sie das mit der Tonverarbeitungsvorrichtung 10 versehene persönliche Tongerät 1 verwenden, die jeweiligen für sie zugeschnittenen Modi aktivieren, wie es nachstehend ausführlich beschrieben wird.
  • Die Tonverarbeitungsvorrichtung 10 kann in einer Verarbeitungseinheit des persönlichen Tongeräts 1 vorgesehen sein, wobei die Verarbeitungseinheit einen beliebigen Typ von allgemeinen Verarbeitungseinheiten, einschließlich, jedoch nicht beschränkt auf, CPUs, GPUs und dergleichen, dedizierte Verarbeitungseinheiten, einschließlich, jedoch nicht beschränkt auf, anwendungsspezifischer integrierter Schaltungen (ASICs), programmierbare Logikbausteine (PLDs), digitale Signalprozessoren (DSPs), feldprogrammierbare Gate-Arrays (FPGAs) und dergleichen umfassen kann.
  • Die Tonverarbeitungsvorrichtung 10 umfasst im Wesentlichen ein Empfangsmodul 12, ein Verarbeitungsmodul 14, ein Kommunikationsmodul 16 und ein Ausgabemodul 18. Bei einem Ausführungsbeispiel kann die Tonverarbeitungsvorrichtung 10 durch Techniken künstlicher Intelligenz implementiert sein, d. h. alle oder ein Teil der Module der Tonverarbeitungsvorrichtung 10 kann bzw. können mit Hilfe von einem oder mehreren AI-Chips implementiert sein. Beispielsweise ist ein Teil der Funktionsmodule der Tonverarbeitungsvorrichtung 10 auf einem AI-Chip angeordnet, und ein anderer Teil der Funktionsmodule ist auf einem anderen AI-Chip angeordnet.
  • Es ist zu verstehen, dass die Bezeichnung jedes Moduls der Tonverarbeitungsvorrichtung 10 als eine logische Darstellung und nicht als eine Einschränkung der physischen Form oder Anordnung zu verstehen ist. Mit anderen Worten, eines oder mehrere des Empfangsmoduls 12, des Verarbeitungsmoduls 14, des Kommunikationsmoduls 16 und des Ausgabemoduls 18 können in dem gleichen Chip oder der gleichen Schaltung implementiert sein, oder sie können jeweils in verschiedenen Chips oder Schaltungen angeordnet sein, worauf die Erfindung nicht begrenzt ist. Für jedes Modul der Tonverarbeitungsvorrichtung 10 sollte verstanden werden, dass die fahrzeuginterne Vorrichtung 10 dieses Modul enthält, solange die Tonverarbeitungsvorrichtung 10 eine Funktion eines Moduls aufweist.
  • Das Verarbeitungsmodul 14 kann eine Tonverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durchführen. Das Tonverarbeitungsmodul 140 wird zuvor auf dem entfernten Server 3 (z. B. dem Rechengerät 30) vorerstellt. Das Tonverarbeitungsmodul 140 kann mehrere Untermodelle umfassen. Das Tonverarbeitungsmodul 140 kann ein oder mehrere auf maschinellem Lernen beruhende Modelle enthalten.
  • In einem Ausführungsbeispiel ist das Tonverarbeitungsmodell 140 als ein auf maschinellem Lernen basierendes Modell implementiert, wobei das auf maschinellem Lernen beruhende Modell vorab auf einem entfernten Server 3 (z. B. einem Rechengerät 30) trainiert wird und außerdem in der Lage ist, wieder zu lernen (Funktion). Das trainierte Maschinenlernmodell 140 kann ein oder mehrere Hybridmaschinenlernmodelle enthalten. Beispielsweise kann das trainierte Maschinenlernmodell 140 ein Sprachabdruckerkennungsmodell 142, ein Datenanalyse-/Miningmodell 144, ein Sprachverarbeitungsmodell 146, einen Audio-Wissensgraphen 148, ein Modell 150, das sich auf die Verarbeitung von Audio-Streams bezieht (z. B. ein statistisches Sprachratenmodell, ein Schlüsselworterkennungsmodell, ein Merkmalstonerkennungsmodell usw.) oder dergleichen umfassen.
  • Die Tonverarbeitungsvorrichtung 10 kann aktiviert sein, wenn das persönliche Tongerät 1 eingeschaltet ist (z. B. die Power-Taste des Kopfhörers im eingeschalteten Zustand ist), d. h. seine Tonverarbeitungsfunktion wird aktiviert, wenn das persönliche Tongerät 1 eingeschaltet ist. Die Tonverarbeitungsvorrichtung 10 kann ausgeschaltet werden, wenn das persönliche Tongerät 1 ausgeschaltet wird (z. B. die Power-Taste des Kopfhörers in dem ausgeschalteten Zustand ist).
  • Die Audioanwendung 20 wird auf einem externen elektronischen Gerät 2 bereitgestellt, das außerhalb des persönlichen Tongeräts 1 angeordnet ist, und das externe elektronische Gerät 2 ist beispielsweise ein Smartphone, ein Desktop-Computer, ein Tablet-Computer, ein Multimedia-Player und dergleichen. Das externe elektronische Gerät 2 kann in einer verdrahteten und/oder drahtlosen Weise kommunikativ mit dem persönlichen Tongerät 1 verbunden sein, so dass ein Austausch von Daten zwischen der Tonverarbeitungsvorrichtung 10 und der Audioanwendung 20 ermöglicht wird. Zum Beispiel können Daten unter Verwendung von USB-Drähten zwischen dem externen elektronischen Gerät 2 und dem persönlichen Tongerät 1 übertragen werden. Die Daten können auch zwischen dem externen elektronischen Gerät 2 und dem persönlichen Tongerät 1 über das Netzwerk übertragen werden, wobei das Netzwerk, ohne darauf beschränkt zu sein, drahtlose lokale Netzwerke (WLANs), Infrarot(IR)-Netzwerke, Bluetooth-Netzwerke, Nahfeldkommunikations(NFC)-Netzwerke, ZigBee-Netzwerke und dergleichen umfasst.
  • Das Rechengerät 30 ist in dem entfernten Server 3 vorgesehen. Der entfernte Server 3 kann kommunikativ mit dem externen elektronischen Gerät 2 gekoppelt sein, so dass ein Austausch von Daten zwischen der Audioanwendung 20 und dem Rechengerät 30 ermöglicht wird. Der entfernte Server 3 kann über das Netzwerk mit dem externen elektronischen Gerät 2 kommunikativ verbunden sein, wobei das Netzwerk auf einer beliebigen Funkkommunikationstechnologie und/oder einem beliebigen Funkkommunikationsstandard basieren kann. Beispielsweise kann das Netzwerk ein beliebiges Standardtelekommunikationsnetz enthalten, das von einem Telekommunikationsbetreiber bereitgestellt wird. Das Netzwerk kann auch ein Internet der Dinge (loT) umfassen. Bei einer Implementierung kann der entfernte Server 3 in einer verteilten Rechenumgebung eingesetzt werden, wobei die Implementierung auch unter Verwendung von Cloud-Computing-Technologie erfolgen kann, ohne dass die Erfindung darauf beschränkt ist.
  • Es ist zu verstehen, dass ein Austausch von Daten zwischen dem persönlichen Tongerät 1 und dem entfernten Server 3 durch das externe elektronische Gerät 2 durchgeführt wird. Beispielsweise, in einem Neulernprozess, der nachstehend beschrieben wird, überträgt die Tonverarbeitungsvorrichtung 10 ein Audiosignal eines neuen Tons (z. B. eines Tons, der von verschiedenen Benutzern während des Verwendens des persönlichen Tongeräts 1 aufgenommen wird, der nicht durch die Tonverarbeitungsvorrichtung 10 erkannt wird) an die Audioanwendung 20 und lädt die Audioanwendung 20 das Audiosignal des neuen Tons mit der Markierung zum entfernten Server 3 hoch.
  • 3 zeigt einen beispielhaften Prozess 300 einer Tonverarbeitung gemäß einer möglichen Ausführungsform der Erfindung. Im Folgenden wird ein Beispiel des durch die Tonverarbeitungsvorrichtung 10 ausgeführten Prozesses 300 beschrieben.
  • Im Block 302 empfängt das Empfangsmodul 12 ein Audiosignal eines oder mehrerer Töne. Der eine oder die mehreren Töne können Umgebungsgeräusche umfassen, die von einem Mikrophon des persönlichen Tongeräts 1 um dieses herum aufgenommen (erfasst) werden. Der eine oder die mehreren Töne können auch Töne von dem externen elektronischen Gerät 2 umfassen, z. B. Sprachereignisse, wie beispielsweise Gespräche, Audioeingabeereignisse, wie beispielsweise das Abspielen von Musik, Video und dergleichen.
  • In Block 304 analysiert das Verarbeitungsmodul 14 das empfangene Audiosignal, um den Typ der Szene, in der sich der Benutzer des persönlichen Tongeräts 1 befindet, zu bestimmen. Zum Beispiel führt das Verarbeitungsmodul 14 die Klassifizierungsverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, bei der der Typ der Szene, in der sich der Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des empfangenen Audiosignals bestimmt wird. Der Teil des Tonverarbeitungsmodells 140 zur Ausführung der Klassifikationsverarbeitung kann durch das Rechengerät 30 durch den ersten Erstellungsprozess implementiert sein. Beispielsweise wird in diesem ersten Erstellungsprozess ein Untermodell des Tonverarbeitungsmodells 140 zur Klassifizierungsverarbeitung realisiert.
  • Der Typ von Szene kann Büros, Zuhause, öffentliche Verkehrsmittel oder dergleichen umfassen. In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 auch Unterkategorien (d. h. kleine Kategorien unter großen Kategorien) unter den Kategorien der Szenen ermitteln. Beispielsweise kann der Szenentyp für öffentliche Verkehrsmittel U-Bahn, Zug, Flugzeug usw. umfassen. Der Typ der Szene für Büro kann kleine Kategorien enthalten, die auf Arbeitsaufgaben und/oder Organisationsstruktur basieren, z. B. Projektteam 1, Projektteam 2, Personalabteilung, Forschungs- und Entwicklungsabteilung usw.
  • In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 ein erstes trainiertes Maschinenlernmodell verwenden, um den Typ der Szene auszugeben. Dieses erste trainierte Maschinenlernmodell ist beispielsweise ein zur Kategorie geeignetes Modell. Das erste trainierte Maschinenlernmodell wird durch Durchführen eines ersten Lernens an dem auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des ersten Trainingsprozesses werden Audiosignale von Tönen der jeweiligen Kategorien als Modelleingaben zugeführt und Szenenkategorien werden als Modellausgaben erzeugt. Während des ersten Trainings können zuerst die Klassifizierung großer Kategorien und dann die kleinen Kategorien unter jeder großen Kategorie trainiert werden. Während des Trainings für kleine Kategorien werden Audiosignale verschiedener kleiner Kategorien von Tönen als Modelle ausgegeben, und eine Modellausgabe, die die kleinen Kategorien darstellt, wird erzeugt.
  • In Block 306 führt das Verarbeitungsmodul 14 einen Erkennungsprozess aus, um zu erkennen, welche Töne von einem oder mehreren Töne die erwünschten Töne (d. h. die Töne, die der Benutzer des persönlichen Tongeräts 1 unter dem Typ der Szene hören möchte) unter den bestimmten Szenenkategorien sind und welche Töne unerwünschte Töne sind (d. h. die Töne, die der Benutzer des persönlichen Tongeräts 1 unter dem Typ der Szene nicht hören möchte). Zum Beispiel führt das Verarbeitungsmodul 14 die Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von einem oder mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird. Der Teil des Tonverarbeitungsmodells 140, der verwendet wird, um die Erkennungsverarbeitung durchzuführen, kann durch das Rechengerät 30 durch den zweiten Erstellungsprozess implementiert sein. Beispielsweise wird in diesem zweiten Erstellungsprozess ein Untermodell des Tonverarbeitungsmodells 140 zur Erkennungsverarbeitung realisiert.
  • In einem Ausführungsbeispiel kann das Verarbeitungsmodul 14 ein zweites trainiertes Maschinenlernmodell verwenden, um Erkennungsergebnisse für den jeweiligen Ton in dem einen oder den mehreren Tönen auszugeben. Dieses zweite trainierte Maschinenlernmodell ist beispielsweise ein zur Tonerkennung geeignetes Modell. Das zweite trainierte Maschinenlernmodell wird durch Durchführen eines zweiten Lernens am auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des zweiten Trainings wird unter Verwendung der als Eingabe dienenden Ausgabe des ersten trainierten Maschinenlernmodells eine Ausgabe erzeugt, die angibt, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist.
  • Es versteht sich, dass die Toneigenschaften bei verschiedenen Szenenkategorien unterschiedlich sind, wobei das zweite trainierte Maschinenlernmodell ein Modell verwenden kann, das für die Eigenschaften der verschiedenen Arten von Tönen geeignet ist, um den Erkennungsprozess dieser Art von Tönen durchzuführen. Dementsprechend wird das Rechengerät 30 unter Verwendung der Parameter, die Eigenschaften der verschiedenen Typen von Tönen darstellen, im Verlauf der Durchführung des zweiten Trainings das Training durchführen.
  • Nachstehend werden Beispiele einiger Tonerkennungsprozesse beispielhaft beschrieben.
  • In einem Block 3061 wird das Cepstrum des Audiosignals unter Verwendung eines Cepstrum-bezogenen Modells analysiert, um Tonquellen für jeden Ton zu bestimmen, wodurch ermittelt wird, ob der Ton ein erwünschter Ton oder ein unerwünschter Ton ist. Diese Art der Analyse ist besonders geeignet, um Tonsignale, die hinsichtlich Frequenz- oder Bandbreiten-Merkmalen in der Fahrzeugszene auffällig sind, wie etwa Autohupen, starke Anschlaggeräusche, Brummen des Motors in der Kabine oder dergleichen, zu analysieren und zu erkennen.
  • In Block 3062 wird das Audiosignal unter Verwendung eines Modells, das sich auf die Sprachabdruckerkennung bezieht, analysiert und erkannt, um die Tonquelle (z. B. den Sprecher) jedes Tons zu bestimmen, wodurch ermittelt wird, ob der Ton ein erwünschter Ton oder ein unerwünschter Ton ist. Diese Analysemethode eignet sich besonders zur Unterscheidung von Schall unterschiedlicher Personen. Beispielsweise wird bei der Bestimmung der Szenenkategorien bestimmt, ob die Stimme einer Person als Rauschen abgefiltert werden sollte, oder als Nutzinformation an eine Person mit Kopfhörern durchgelassen wird. Beispielsweise kann eine derartige Erkennungsverarbeitung eingesetzt werden, die es einer mit dem Kopfhörer versehenen Person ermöglicht, in einer Büroszene die Diskussionsstimme von ihrem eigenen Projektteam zugeordneten Kollegen zu hören, während die Diskussionsstimme von Kollegen in einem anderen Projektteam blockiert werden.
  • Auf diese Weise können akustische Merkmale verschiedener Aspekte als die Modell-Verarbeitungsparameter berücksichtigt werden, die eines oder mehrere der folgenden enthalten können: (1) Lexikalische Merkmale (zum Beispiel die Art und Weise, wie der Sprecher einen bestimmten Ton ausspricht); (2) Prosodische Merkmale (zum Beispiel der Grundton und die Energiehaltung des Sprechers); (3) Dialekte und Gewohnheiten (d. h. Wörter, die vom Sprecher leicht wiederholt zu verwenden sind); (4) Andere kundenspezifische akustische Merkmale.
  • In Block 3063 kann das Erkennen von Schlüsselwörtern und/oder Schlüsseltönen an dem Audiosignal unter Verwendung eines Modells durchgeführt werden, das sich auf die Spracherkennung bezieht. Die Schlüsselworte und/oder Schlüsseltöne können Wörter oder Töne sein, deren Tonquelle leicht ermittelt werden kann und somit ermittelt werden kann, ob die Töne abgefiltert oder durchgelassen werden, beispielsweise die Ansage eines Bahnhofs in einem Bahnhof, eine Notfallinformationssendung durch öffentliche Einrichtungen und der Warnton des Krankenwagens oder dergleichen.
  • In Block 3064 empfängt das Kommunikationsmodul 16 Anweisungen von der Audioanwendung 20, wobei die Anweisung ein Tonverarbeitungsschema (Filtern oder Durchlassen) unter den bestimmten Szenenkategorien angibt. Das Verarbeitungsmodul 14 stellt die angegebenen Töne gemäß den Anweisungen als erwünschte Töne oder unerwünschte Töne ein.
  • In einem Ausführungsbeispiel erkennt die Audioanwendung 20 den bestimmten Typ der Szene über das Kommunikationsmodul 16 und zeigt ein Optionsmenü für die jeweiligen Tonquellen unter diesem Typ der Szene auf ihrer Bedienerschnittstelle an. Der Benutzer des persönlichen Tongeräts 1 kann in dem Optionsmenü auswählen, welche Töne auszufiltern sind und welche Töne durchzulassen sind. Anweisungen, die Absicht des Benutzers für die Filterung der Töne angeben, werden über das Kommunikationsmodul 16 an das Verarbeitungsmodul 14 übertragen, wobei das Verarbeitungsmodul 14 die empfangenen Töne gemäß den Anweisungen einstellt.
  • Es ist zu beachten, dass, im Falle, dass eine Toneinstellung gemäß der Anweisung aus der Audioanwendung 20 mit einer Toneinstellung im Widerspruch steht, die durch das Verarbeitungsmodul gemäß einer vorbestimmten Analyseidentifikationsstrategie bestimmt wird, die Toneinstellung gemäß der Anweisung vorzugsweise ausgeführt wird, weil die Anweisung die aktuelle Absicht des Benutzers widerspiegeln kann. Zum Beispiel kann in dem Fall, in dem das Tonverarbeitungsmodell erkannt hat, welche Töne erwünschte Töne sind und welche Töne unerwünschte Töne sind, und die Filterkonfiguration basierend auf einer solchen Erkennung durchgeführt wird, die Anpassung der Filterkonfiguration basierend auf Anweisungen vorgenommen werden, die die Absicht des Benutzers für die Tonfilterung angeben.
  • In Block 308 führt das Verarbeitungsmodul 14 gemäß dem bestimmten erwünschten Ton und unerwünschten Ton eine Filterkonfiguration aus, um das Audiosignal auf der Basis der Konfiguration zu filtern, wodurch unerwünschte Töne in dem einen oder den mehreren empfangenen Tönen zumindest teilweise abgefiltert werden, und wobei erwünschte Töne in dem einen oder den mehreren empfangenen Tönen durchgelassen werden. Zum Beispiel führt das Verarbeitungsmodul 14 die Filterverarbeitung unter Verwendung des Tonverarbeitungsmodells 140 durch, wobei in der Filterverarbeitung eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung durchgeführt wird und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, wodurch unerwünschte Töne zumindest teilweise abgefiltert werden, und wobei erwünschte Töne durchgelassen werden. Der Teil des Tonverarbeitungsmodells 140 zur Ausführung der Filterverarbeitung kann durch das Rechengerät 30 durch den dritten Erstellungsprozess implementiert sein. Beispielsweise in diesem dritten Erstellungsprozess wird ein Untermodell des Tonverarbeitungsmodells 140 zur Filterverarbeitung realisiert.
  • Es versteht sich, dass „die Filterkonfiguration und das Filtern auf der Basis der Filterkonfiguration“ durch Hardware oder Software oder eine Kombination von Software und Hardware implementiert werden kann. Zum Beispiel kann die Art und Weise, in der die Hardware implementiert ist, mittels einer oder mehrerer anwendungsspezifischer integrierter Schaltungen (ASICs) implementiert sein, die als Filter arbeiten.
  • Bei einem Ausführungsbeispiel verwendet das Verarbeitungsmodul 14 ein drittes trainiertes Maschinenlernmodell, um die Filterkonfiguration und die Filteroperationen auszuführen. Das dritte trainierte Maschinenlernmodell wird durch Durchführen eines dritten Lernens am auf maschinellem Lernen beruhenden Modell auf dem Rechengerät 30 erhalten. Während des dritten Trainings wird die Ausgabe des zweiten trainierten Maschinenlernmodells als Eingabe verwendet, um das gefilterte Audiosignal auszugeben. Dadurch werden die unerwünschten Töne in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert, und die erwünschten Töne in dem einen oder den mehreren Tönen werden durchgelassen.
  • Es versteht sich, dass, obwohl verschiedene auf maschinellem Lernen beruhenden Modelle oben beschrieben sind, diese auf maschinellem Lernen beruhenden Modelle als ein oder mehrere Hybridmodelle implementiert werden können. Beispielsweise werden die vorstehend beschriebenen ersten, zweiten und dritten trainierten Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert. Während der Verwendung der Trainingsdaten zum Trainieren des Modells kann das Rechengerät das oben erwähnte auf maschinellem Lernen beruhende Modell in ein oder mehrere Hybridmaschinenlernmodelle trainieren.
  • In Block 310 wird das gefilterte Audiosignal ausgegeben, so dass der Benutzer des persönlichen Tongeräts 1 die intelligent gefilterten und mit seinen eigenen Absichten konsistenten Töne hört.
  • 4 zeigt einen beispielhaften Prozess 400 eines Tonneulernens gemäß einer möglichen Ausführungsform der Erfindung. Das Folgende nimmt den Prozess 400 des Durchführens von Tonneulernen durch das Tonverarbeitungssystem 100 als ein Beispiel zur Beschreibung.
  • In Block 402 überträgt die Tonverarbeitungsvorrichtung 10 Tondaten (Audiosignal) neuer Töne, die durch den Benutzer während der Verwendung des persönlichen Tongeräts 1 erfasst werden, über das Kommunikationsmodul 16 an die Audioanwendung 20. Der neue Ton ist beispielsweise ein Ton, an dem der aktuelle Benutzer des persönlichen Tongeräts interessiert ist, oder der Benutzer glaubt, dass der Ton in den Erkennungsbereich aufgenommen werden muss, wobei der Ton zuvor nicht in den Tönen irgendeiner Umgebungskategorie enthalten ist, d. h. nicht in den Tönen irgendeiner großen oder kleinen Kategorie enthalten ist.
  • Es ist verständlich, dass die übertragenen Tondaten von verschiedenen Benutzern während der Verwendung enthalten können, beispielsweise Tondaten DATA1 von USER1, Tondaten DATA2 von USER2, Tondaten DATA3 von USER3 und so weiter.
  • In Block 404 stellt der Benutzer eine Markierung mit Hilfe der Audioanwendung 20 für diese Tondaten ein, um den neuen Ton zu identifizieren. Die Markierung ist zum Beispiel eine Stimme eines Freundes A, eine Stimme der Kollegen B, eine Stimme des Kunden C, etc. Dann überträgt die Audioanwendung 20 die Daten des neuen Tons mit der Markierung an das Rechengerät 30 auf dem entfernten Server 3.
  • In Block 406 führt das Rechengerät 30 an dem entfernten Server 3 ein erneutes Lernen des erstellten Tonverarbeitungsmodells auf Grundlage der Daten des neuen Tons durch, nachdem die Daten des neuen Tons empfangen werden, so dass das Tonverarbeitungsmodell den neuen Ton als den erwünschten Ton oder den unerwünschten Ton erkennen kann, und um Verarbeitungsparameter zu erzeugen, damit das Tonverarbeitungsmodell den neuen Ton erkennen kann.
  • In einem Ausführungsbeispiel trainiert das Rechengerät 30 das auf maschinellem Lernen beruhende Modell neu, indem das Rechengerät die empfangenen Daten des neuen Tons als Trainingsmuster verwendet. Beispielsweise führt das Rechengerät 30 ein erneutes Training für das zweite trainierte Maschinenlernmodell durch. Während des Neutrainings werden Daten des neuen Tons als Modelleingaben verwendet, um die durch die Markierung dargestellte Kategorie als Modellausgaben zu erzeugen. Durch ein solches erneutes Training können Modellparameter (Verarbeitungsparameter) zum Aktualisieren des zweiten trainierten Maschinenlernmodells erzeugt werden, d. h., das zweite trainierte Maschinenlernmodell, das sich in dem Verarbeitungsmodul 14 befindet, kann durch Importieren der Modellparameter (Verarbeitungsparameter) in der Lage sein, zu erkennen, dass der neue Ton ein erwünschter oder ein unerwünschter Ton ist.
  • Es versteht sich, dass die Daten als die neu trainierten Töne von einer Vielzahl von Benutzern des persönlichen Tongerätes 1 stammen können, und daher können angepasste Kombinationen von Tonfilterung und Durchlassen, die für jeweilige Absichten geeignet sind, für verschiedene Benutzer angepasst werden.
  • In Block 408 überträgt das Rechengerät 30 die Modellparameter für die Aktualisierung an die Audioanwendung 20, die dann von der Audioanwendung 20 in die Tonverarbeitungsvorrichtung 10 des persönlichen Tongeräts 1 gepusht wird, sodass die Tonverarbeitungsvorrichtung 10 einen neuen Ton erkennen kann, wodurch die Tonverarbeitungsvorrichtung 10 die Funktion hat, die Fähigkeit zur Tonerkennung zu verbessern.
  • 5 zeigt einen beispielhaften Prozess 500 eines Audio-Pushens gemäß einer möglichen Ausführungsform der vorliegenden Erfindung. Im Folgenden wird ein Beispiel des Verfahrens 500 beschrieben, in dem das Tonverarbeitungssystem 100 ein Audio-Push ausführt.
  • In Block 502 lernt die Audioanwendung 20 die aktuelle Umgebung (Ort) des Benutzers des persönlichen Tongeräts 1 durch die Tonverarbeitungsvorrichtung 10 und/oder sein eigenes Positionierungssystem. Auch kann die Audioanwendung 20 lernen, ob der Benutzer gegenwärtig in einem Sprachereignis (Anruf) ist.
  • In Block 504 kann in dem Fall, dass sich der Benutzer nicht in einem Sprachereignis befindet, die Audioanwendung 20 geeignete Audioinhalte von der Audiowolke 4 erhalten, dann wird dem Benutzer auf einer Schnittstelle der Audioanwendung 20 angezeigt, ob das Abspielen des empfohlenen Inhalts erlaubt ist.
  • In Block 506, in dem Fall, in dem der Benutzer „Abspielen erlauben“ auf der Schnittstelle der Audioanwendung 20 auswählt, empfängt die Tonverarbeitungsvorrichtung 10 einen gepushten Audioinhalt, z. B. Musik, Cross-Talk und Comics oder ähnliches, die für die vorliegende Szene geeignet sind, von der Audioanwendung 20 über das Kommunikationsmodul.
  • In einem Ausführungsbeispiel ist das externe elektronische Gerät 2 kommunikativ mit einer Audiowolke 4 (z. B. NetEase Cloud Music) verbunden. Die Audioanwendung 20 erlangt geeigneten Audioinhalt von der Audiowolke 4, wenn die Umgebung des Benutzers bestimmt ist und kein Sprachereignis vorliegt, dann wird dem Benutzer auf einer Schnittstelle der Audioanwendung 20 angezeigt, ob das Abspielen des empfohlenen Inhalts möglich ist, wobei der gepushte Audioinhalt dann dem Benutzer abgespielt werden kann, wenn der Benutzer „Ja“ auswählt.
  • 6 zeigt ein Tonverarbeitungsverfahren 600 gemäß einer Ausführungsform der Erfindung. Das Tonverarbeitungsverfahren 600 kann durch die oben beschriebene Tonverarbeitungsvorrichtung 10 ausgeführt werden, oder es kann durch das oben beschriebene Tonverarbeitungssystem 100 ausgeführt werden, und deshalb gilt die oben beschriebene zugehörige Beschreibung in gleicher Weise.
  • In Schritt S610 wird ein Audiosignal eines oder mehrerer von dem persönlichen Tongerät erfasster Töne empfangen, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfassen.
  • In Schritt S612 wird ein Tonverarbeitungsmodell verwendet, um eine Klassifizierungsverarbeitung durchzuführen, bei der der Typ einer Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird.
  • In Schritt S614 wird die Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells durchgeführt, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird.
  • In Schritt S616 wird das Tonverarbeitungsmodell verwendet, um eine Filterverarbeitung durchzuführen, wobei in der Filterverarbeitung eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung durchgeführt wird und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, wodurch unerwünschte Töne in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert werden, und wobei erwünschte Töne in dem einen oder den mehreren Tönen durchgelassen werden.
  • Im Schritt S618 wird das gefilterte Audiosignal zum Liefern an einen Benutzer ausgegeben.
  • 7 zeigt eine weitere beispielhafte Tonverarbeitungsvorrichtung 700 zur Verwendung in einem persönlichen Tongerät 10 gemäß der vorliegenden Erfindung. Die Vorrichtung 700 kann einen oder mehrere Prozessoren 710 und einen Speicher 720 umfassen, der ausführbare Anweisungen des Computers speichert, wobei bei Ausführung der ausführbaren Anweisungen des Computers der eine oder die mehreren Prozessoren 710 das oben beschriebene Verfahren 600 ausführen können.
  • Die vorliegende Erfindung stellt auch ein computerlesbares Speichermedium bereit. Das computerlesbare Speichermedium kann Anweisungen umfassen. Wenn die Anweisungen ausgeführt werden, werden ein oder mehrere Prozessoren veranlasst, Operationen für eine intelligente Tonverarbeitung gemäß den obigen Ausführungsbeispielen der vorliegenden Offenbarung auszuführen, beispielsweise dem obigen Verfahren 600.
  • Es ist dadurch ersichtlich, dass gemäß der technischen Lösung der vorliegenden Erfindung der von dem persönlichen Tongerät empfangene Ton mittels künstlicher Intelligenztechnologie automatisch verarbeitet werden kann, so dass der Benutzer in die Lage ist, Töne zu hören, die mit dem Typ der Szene und seinen eigenen Absichten übereinstimmen.
  • Ferner ist es gemäß der Lösung der vorliegenden Erfindung nicht notwendig, eine lokale Datenbank, die eine große Anzahl von Muster-Tondaten enthält, in einem persönlichen Tongerät vorzusehen, da die große Anzahl von Muster-Tönen als Trainingsdaten den entsprechenden Klassifizierungs-, Erkennungs- und Übereinstimmungsprozess in dem entfernten Server abschließt.
  • Darüber hinaus ist es gemäß der technischen Lösung der vorliegenden Erfindung möglich, eine Kombination von Abfiltern und Durchlassen von Tönen für unterschiedliche Szenentypen und unterschiedliche Benutzer anzupassen, ohne eine Einstellung für jeden Ton während jeder Verwendung zu benötigen.
  • Darüber hinaus wird gemäß der technischen Lösung der vorliegenden Erfindung ein Maschinenlernmodell verwendet, das sich gut zum Klassifizieren, Identifizieren und Filtern von Tondaten eignet, um eine Tondatenverarbeitung zu realisieren, wodurch unterschiedliche Eigenschaften und/oder Abhängigkeiten von verschiedenen Arten von Tondaten schnell und ausreichend herausgearbeitet werden können, wodurch die Effizienz und Genauigkeit der Tondatenverarbeitung verbessert wird.
  • Es versteht sich, dass alle Module in der oben beschriebenen Vorrichtung auf verschiedene Arten implementiert werden können. Diese Module können als Hardware, Software oder eine Kombination davon ausgeführt sein. Darüber hinaus können beliebige der Module funktional weiter in Untermodule unterteilt oder miteinander kombiniert sein.
  • Der Prozessor wurde in Verbindung mit verschiedenen Vorrichtungen und Verfahren beschrieben. Diese Prozessoren können unter Verwendung von elektronischer Hardware, Computersoftware oder einer Kombination davon implementiert sein. Ob diese Prozessoren als Hardware oder Software implementiert sind, hängt von der speziellen Anwendung und den dem System auferlegten Gesamt-Gestaltungsgrenzen ab. Beispielsweise können der Prozessor, ein beliebiger Teil des Prozessors oder eine beliebige Kombination der Prozessoren, die in der vorliegenden Erfindung angegeben sind, als ein Mikroprozessor, ein Mikrocontroller, ein digitaler Signalprozessor (DSP), ein Field Programmable Gate Array (FPGA), eine programmierbare Logikvorrichtung (PLD), eine Zustandsmaschine, eine Gatelogik, diskrete Hardwareschaltungen und andere geeignete Verarbeitungskomponenten ausgeführt sein, die eingerichtet sind, um verschiedene Funktionen auszuführen, die in der vorliegenden Offenbarung beschrieben sind. Die Funktionalität eines Prozessors, eines beliebigen Teils eines Prozessors oder einer beliebigen Kombination von Prozessoren, wie sie in der vorliegenden Erfindung dargestellt sind, kann als Software umgesetzt sein, die von einem Mikroprozessor, einem Mikrocontroller, einem DSP oder einer anderen geeigneten Plattform ausgeführt wird.
  • Software sollte allgemein als Darstellung von Anweisungen, Anweisungssätzen, Codes, Codesegmenten, Programmcodes, Programmen, Unterprogrammen, Softwaremodulen, Anwendungen, Softwareanwendungen, Softwarepaketen, Routinen, Subroutinen, Objekten, laufenden Threads, Prozessen, Funktionen oder dergleichen angesehen werden. Die Software kann in einem computerlesbaren Medium angesiedelt sein. Das computerlesbare Medium kann beispielsweise einen Speicher umfassen, der beispielsweise eine magnetische Speichervorrichtung (z. B. eine Festplatte, eine Diskette, ein Magnetstreifen), eine optische Platte, eine Smartcard, eine Flash-Speichervorrichtung, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein programmierbarer ROM (PROM), ein löschbarer PROM (EPROM), ein elektrisch löschbarer PROM (EEPROM), ein Register oder eine entfernbare Platte sein kann. Obwohl der Speicher in verschiedenen Aspekten dieser Offenbarung als vom Prozessor getrennt dargestellt ist, kann der Speicher auch innerhalb des Prozessors (z. B. einem Cache oder einem Register) angeordnet sein.
  • Obwohl vorstehend einige Ausführungsformen beschrieben sind, sind diese Ausführungsformen nur beispielhaft angegeben und sollen den Umfang der Erfindung nicht einschränken. Die beigefügten Ansprüche und deren gleichwertige Substitution zielen darauf ab, jegliche Modifikationen, Substitutionen und Abänderungen im Rahmen des Umfangs und der Grundideen der vorliegenden Erfindung miteinzubeziehen.

Claims (20)

  1. Tonverarbeitungsvorrichtung zur Verwendung in einem persönlichen Tongerät, umfassend: ein Empfangsmodul, das konfiguriert ist, um ein Audiosignal eines oder mehrerer von dem persönlichen Tongerät erfasster Töne zu empfangen, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfasst oder umfassen; ein Verarbeitungsmodul, das konfiguriert ist, um unter Verwendung eines Tonverarbeitungsmodells die folgenden Verarbeitungen durchzuführen: eine Klassifizierungsverarbeitung, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; eine Erkennungsverarbeitung, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton erkannt wird; und eine Filterverarbeitung, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird; und ein Ausgabemodul, das konfiguriert ist, um das gefilterte Audiosignal zum Liefern an den Benutzer auszugeben.
  2. Tonverarbeitungsvorrichtung nach Anspruch 1, wobei das Tonverarbeitungsmodell ein oder mehrere auf maschinellem Lernen beruhende Modelle umfasst.
  3. Tonverarbeitungsvorrichtung nach Anspruch 1 oder 2, wobei das Tonverarbeitungsmodell ein erstes trainiertes Maschinenlernmodell, ein zweites trainiertes Maschinenlernmodell und ein drittes trainiertes Maschinenlernmodell umfasst; und wobei das Verarbeitungsmodul dazu konfiguriert ist: die Klassifizierungsverarbeitung des Audiosignals unter Verwendung des ersten trainierten Maschinenlernmodells durchzuführen, um den Typ der Szene auszugeben; die Erkennungsverarbeitung der auf der Grundlage des ersten trainierten Maschinenlernmodells ermittelten Ausgabe unter Verwendung des zweiten trainierten Maschinenlernmodells durchzuführen, um das Ergebnis, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist, auszugeben; und die Filterverarbeitung der auf der Grundlage des zweiten trainierten Maschinenlernmodells ermittelten Ausgabe unter Verwendung des dritten trainierten Maschinenlernmodells durchzuführen, um ein gefiltertes Audiosignal auszugeben.
  4. Tonverarbeitungsvorrichtung nach Anspruch 3, wobei die ersten, zweiten und dritten trainierten Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert sind.
  5. Tonverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 4, wobei das Verarbeitungsmodul durch mindestens eine der folgenden Verarbeitungen bestimmt, ob der jeweilige Ton ein erwünschter Ton oder ein unerwünschter Ton ist: Cepstrum-Analyse, Sprachabdruckerkennung, Schlüsselwort- und/oder Schlüsseltondetektion; und wobei optional die Verarbeitungen von dem Verarbeitungsmodul jeweils unter Verwendung eines zugehörigen Modells durchgeführt werden.
  6. Tonverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 5, wobei die Tonverarbeitungsvorrichtung ferner ein Kommunikationsmodul umfasst, das für die Kommunikationsverbindung mit einem externen elektronischen Gerät, das sich außerhalb des persönlichen Tongeräts befindet, konfiguriert ist, um mit einer in dem externen elektronischen Gerät vorgesehenen Audioanwendung Informationen auszutauschen.
  7. Tonverarbeitungsvorrichtung nach Anspruch 6, wobei das Kommunikationsmodul Anweisungen von der Audioanwendung empfängt, wobei die Anweisungen eine Absicht des Benutzers umfassen, wie die Töne in dem bestimmten Typ der Szene gefiltert werden sollen; und das Verarbeitungsmodul die Filterkonfiguration auf der Basis der Anweisungen verstellt.
  8. Tonverarbeitungsvorrichtung nach Anspruch 6 oder 7, wobei das Kommunikationsmodul dazu konfiguriert ist: ein Audiosignal eines neuen Tons, den das persönliche Tongerät während der Verwendung erfasst, an die Audioanwendung zu übertragen; und Verarbeitungsparameter des Audiosignals auf der Grundlage des neuen Tons von der Audioanwendung zu empfangen, sodass der neue Ton erkannt werden kann.
  9. Tonverarbeitungsvorrichtung nach einem der Ansprüche 6 bis 8, wobei das Kommunikationsmodul ferner konfiguriert ist, um einen empfohlenen Audioinhalt von der Audioanwendung zu empfangen, wobei der empfohlene Audioinhalt auf dem bestimmten Typ der Szene und einem Nutzungsstatus des persönlichen Tongeräts basiert.
  10. Tonverarbeitungsvorrichtung gemäß einem der Ansprüche 1 bis 9, wobei alle oder ein Teil der einzelnen Module der Tonverarbeitungsvorrichtung mittels eines oder mehrerer AI-Chips realisiert sein können.
  11. Rechengerät, wobei das Rechengerät in einem entfernten Server angeordnet ist und ein Tonverarbeitungsmodell erstellt, das ein Audiosignal eines oder mehrerer während der Verwendung eines persönlichen Tongeräts erfasster Töne verarbeiten kann, wobei das Erstellen des Tonverarbeitungsmodells umfasst: Durchführen eines ersten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell den Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmen kann; Durchführen eines zweiten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell auf der Grundlage des Typs der Szene einen jeweiligen Ton von einem oder mehreren Tönen als einen erwünschten Ton oder einen unerwünschten Ton bestimmen kann; Durchführen eines dritten Erstellungsprozesses, bei dem das Tonverarbeitungsmodell eine Filterkonfiguration und eine Filterung des Audiosignals basierend auf der Filterkonfiguration durchführen kann, wodurch ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird.
  12. Rechengerät nach Anspruch 11, wobei das Erstellen des Tonverarbeitungsmodells das Trainieren eines oder mehrerer auf maschinellem Lernen beruhenden Modelle in den ersten bis dritten Erstellungsprozessen umfasst.
  13. Rechengerät gemäß Anspruch 11 oder 12, wobei das Erstellen des Tonverarbeitungsmodells umfasst: Durchführen eines ersten Trainings des auf maschinellem Lernen beruhenden Modells, um ein erstes trainiertes Maschinenlernmodell zu erhalten, wobei während des ersten Trainings unter Verwendung des als Eingabe dienenden Audiosignals eine Ausgabe erzeugt wird, die den Typ der Szene repräsentiert; Durchführen eines zweiten Trainings des auf maschinellem Lernen beruhenden Modells, um ein zweites trainiertes Maschinenlernmodell zu erhalten, wobei während des zweiten Trainings unter Verwendung der als Eingabe dienenden Ausgabe des ersten trainierten Maschinenlernmodells eine Ausgabe erzeugt wird, die angibt, ob ein jeweiliger Ton in dem einen oder den mehreren Tönen ein erwünschter Ton oder ein unerwünschter Ton ist; und Durchführen eines dritten Trainings des auf maschinellem Lernen beruhenden Modells, um ein drittes trainiertes Maschinenlernmodell zu erhalten, wobei während des dritten Trainings unter Verwendung der als Eingabe dienenden Ausgabe des zweiten trainierten Maschinenlernmodells das gefilterte Audiosignal ausgegeben wird.
  14. Rechengerät nach Anspruch 13, wobei die ersten, zweiten und dritten trainierten Maschinenlernmodelle zu einem oder mehreren Hybridmaschinenlernmodellen kombiniert sind.
  15. Rechengerät gemäß Anspruch 13 oder 14, wobei das Rechengerät weiterhin konfiguriert ist, um einen Neulernprozess des Tonverarbeitungsmodells auf der Grundlage eines Audiosignals eines neuen Tons auszuführen, den das persönliche Tongerät während der Verwendung erfasst, so dass das Tonverarbeitungsmodell den neuen Ton als einen erwünschten Ton oder einen unerwünschten Ton erkennen kann, und um Verarbeitungsparameter zu erzeugen, mit denen das Tonverarbeitungsmodell den neuen Ton erkennen kann.
  16. Rechengerät nach einem der Ansprüche 13-15, wobei das Rechengerät ferner konfiguriert ist, um ein Neutraining des zweiten trainierten Maschinenlernmodells durchzuführen, und wobei während des Neutrainings das Audiosignal des neuen Tons, den das persönliche Tongerät während der Verwendung erfasst, als Eingabe verwendet wird, um eine Ausgabe zu erzeugen, die angibt, ob der neue Ton ein erwünschter Ton oder ein unerwünschter Ton ist; und wobei während des Neutrainings Verarbeitungsparameter erzeugt werden, mit denen das zweite trainierte Maschinenlernmodell den neuen Ton erkennen kann.
  17. Tonverarbeitungssystem, umfassend: eine Tonverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 10, die in einem persönlichen Tongerät vorgesehen ist; ein Rechengerät nach einem der Ansprüche 11-15, das in einem entfernten Server vorgesehen ist und ein Tonverarbeitungsmodell zum Verarbeiten eines Audiosignals eines oder mehrerer Töne erstellt, die an dem persönlichen Tongerät erfasst werden; und eine Tonanwendung, die in einem externen elektronischen Gerät außerhalb des persönlichen Tongeräts vorgesehen ist, wobei die Audioanwendung jeweils mit dem Rechengerät und der Tonverarbeitungsvorrichtung kommunikativ verbunden ist; wobei die Tonverarbeitungsvorrichtung eine umfangreiche Verarbeitung eines Audiosignals eines oder mehrerer Töne, die durch das persönliche Tongerät erfasst werden, unter Verwendung eines im entfernten Server erstellten Tonverarbeitungsmodells durchführt, um ein gefiltertes Audiosignal zu erzeugen, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird.
  18. Tonverarbeitungsverfahren, wobei das Verfahren optional durch eine Tonverarbeitungsvorrichtung nach einem der Ansprüche 1-10 und/oder durch ein Tonverarbeitungssystem nach Anspruch 18 durchgeführt wird, wobei das Verfahren umfasst: Empfangen eines Audiosignals eines oder mehrerer von einem persönlichen Tongerät erfasster Töne, wobei der eine oder die mehreren Töne mindestens Umgebungsgeräusche um das persönliche Tongerät herum umfasst oder umfassen; Durchführen einer Klassifizierungsverarbeitung unter Verwendung eines Tonverarbeitungsmodells, bei der der Typ der Szene, in der sich ein Benutzer des persönlichen Tongeräts befindet, auf der Grundlage des Audiosignals bestimmt wird; Durchführen einer Erkennungsverarbeitung unter Verwendung des Tonverarbeitungsmodells, bei der auf der Grundlage des bestimmten Typs der Szene ein jeweiliger Ton von dem einen oder den mehreren Tönen als ein erwünschter Ton oder ein unerwünschter Ton bestimmt wird; Durchführen einer Filterverarbeitung unter Verwendung des Tonverarbeitungsmodells, bei der eine Filterkonfiguration auf der Basis eines Ergebnisses der Erkennungsverarbeitung erfolgt und das Audiosignal auf der Basis der Filterkonfiguration gefiltert wird, so dass ein unerwünschter Ton in dem einen oder den mehreren Tönen zumindest teilweise abgefiltert wird und ein erwünschter Ton in dem einen oder den mehreren Tönen durchgelassen wird; und Ausgeben des gefilterten Audiosignals zum Liefern an den Benutzer.
  19. Tonverarbeitungsvorrichtung zur Verwendung in einem persönlichen Tongerät, umfassend: einen oder mehrere Prozessoren; und einen Speicher, in dem computerausführbare Anweisungen gespeichert sind, wobei der eine oder die mehreren Prozessoren das Verfahren nach Anspruch 18 durchführt oder durchführen, wenn die computerausführbaren Anweisungen ausgeführt werden.
  20. Computerlesbares Speichermedium, auf dem Anweisungen gespeichert sind, wobei mindestens ein Prozessor das Verfahren nach Anspruch 18 durchführt, wenn die Anweisungen durch den mindestens einen Prozessor ausgeführt werden.
DE102021203815.8A 2021-04-16 2021-04-16 Tonverarbeitungsvorrichtung, System und Verfahren Pending DE102021203815A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021203815.8A DE102021203815A1 (de) 2021-04-16 2021-04-16 Tonverarbeitungsvorrichtung, System und Verfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021203815.8A DE102021203815A1 (de) 2021-04-16 2021-04-16 Tonverarbeitungsvorrichtung, System und Verfahren

Publications (1)

Publication Number Publication Date
DE102021203815A1 true DE102021203815A1 (de) 2022-10-20

Family

ID=83447500

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021203815.8A Pending DE102021203815A1 (de) 2021-04-16 2021-04-16 Tonverarbeitungsvorrichtung, System und Verfahren

Country Status (1)

Country Link
DE (1) DE102021203815A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024139730A1 (zh) * 2022-12-30 2024-07-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024139730A1 (zh) * 2022-12-30 2024-07-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
DE102019200954A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
DE60023517T2 (de) Klassifizierung von schallquellen
DE202017105485U1 (de) Dynamische Sprachsynthese-Bereitstellung
EP3661797B1 (de) Verfahren, vorrichtung, mobiles anwendergerät, computerprogramm zur steuerung eines audiosystems eines fahrzeugs
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE102021204829A1 (de) Automatische korrektur fehlerhafter audioeinstellungen
DE112015004185T5 (de) Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
DE112020002858T5 (de) Synchronisierte tonerzeugung aus videos
DE102022202150A1 (de) System und verfahren zur kontextbewussten audioverstärkung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE102017209585A1 (de) System und verfahren zur selektiven verstärkung eines akustischen signals
DE102017115383A1 (de) Audio-slicer
DE102019218808B3 (de) Verfahren zum Trainieren eines Hörsituationen-Klassifikators für ein Hörgerät
DE112021000178B4 (de) Erzeugen von synchronisierten tönen aus videos
DE102021203815A1 (de) Tonverarbeitungsvorrichtung, System und Verfahren
DE102014200570A1 (de) Verfahren und System zur Erzeugung eines Steuerungsbefehls
DE10123823A1 (de) System und Verfahren zur parallelen Darbietung von mehreren Audioinformationsquellen
DE102017213249A1 (de) Verfahren und System zum Erzeugen einer auditiven Meldung in einem Innenraum eines Fahrzeugs
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE102024132577A1 (de) Schnittstelle für eine akustische fernsteuerung für kopfhörersätze
DE102022124486B3 (de) Verfahren und Audiowiedergabevorrichtung zum Kompensieren eines Geräuschs in einem Innenraum eines Kraftfahrzeugs sowie zugehöriges Kraftfahrzeug
DE102023118991B3 (de) Verfahren zum Bereitstellen eines Raumerlebnisses sowie Fahrzeug
EP4599440A1 (de) Fahrzeug und verfahren zur bestimmung von charakteristischen lippenbewegungsmustern
DE102017213256B4 (de) Verfahren, Vorrichtung, mobiles Anwendergerät, Computerprogramm zur Steuerung eines Audiosystems eines Fahrzeugs