[go: up one dir, main page]

RU2854360C2 - Media type-based dereverberation - Google Patents

Media type-based dereverberation

Info

Publication number
RU2854360C2
RU2854360C2 RU2023125827A RU2023125827A RU2854360C2 RU 2854360 C2 RU2854360 C2 RU 2854360C2 RU 2023125827 A RU2023125827 A RU 2023125827A RU 2023125827 A RU2023125827 A RU 2023125827A RU 2854360 C2 RU2854360 C2 RU 2854360C2
Authority
RU
Russia
Prior art keywords
audio signal
input audio
reverberation
speech
music
Prior art date
Application number
RU2023125827A
Other languages
Russian (ru)
Other versions
RU2023125827A (en
Inventor
Кай ЛИ
Шаофань ЯН
Юаньсин МА
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of RU2023125827A publication Critical patent/RU2023125827A/en
Application granted granted Critical
Publication of RU2854360C2 publication Critical patent/RU2854360C2/en

Links

Abstract

FIELD: computing.
SUBSTANCE: invention relates to the field of computing for processing audio data. The technical result is achieved by the steps of: classifying the media type of the input audio signal as one of the group comprising at least: 1) speech; 2) music or 3) speech over music; determining the degree of reverberation in the input audio signal; wherein determining the degree of reverberation comprises a step of computing a two-dimensional spectrum of acoustic modulation frequencies of the input audio signal, wherein the degree of reverberation is based on the amount of energy in the high modulation frequency part of the two-dimensional spectrum of acoustic modulation frequencies; determining whether to perform dereverberation for the input audio signal, at least based on determining that the media type of the input audio signal is classified as speech, and based on said degree of reverberation; and in response to determining that dereverberation should be performed for the input audio signal, forming an output audio signal by performing dereverberation for the input audio signal.
EFFECT: improving speech intelligibility and improving music sound quality.
14 cl, 12 dwg

Description

Перекрестные ссылки на родственные заявкиCross-references to related applications

[0001] По данной заявке испрашивается приоритет на основании следующих приоритетных заявок: международной заявки №PCT/CN2021/080314, поданной 11 марта 2021 г., предварительной заявки на патент США №63/180,710, поданной 28 апреля 2021 г., и заявки на Европейский патент №21174289.5, поданной 18 мая 2021 г.[0001] This application claims priority from the following priority applications: International Application No. PCT/CN2021/080314, filed March 11, 2021, U.S. Provisional Patent Application No. 63/180,710, filed April 28, 2021, and European Patent Application No. 21174289.5, filed May 18, 2021.

Область техники, к которой относится изобретениеField of technology to which the invention relates

[0002] Данное изобретение относится к системам, способам и носителям для дереверберации. Кроме того, данное изобретение относится к системам, способам и носителям для классификации входного аудиосигнала.[0002] This invention relates to systems, methods and media for dereverberation. Furthermore, this invention relates to systems, methods and media for classifying an input audio signal.

Уровень техникиState of the art

[0003] Широко применяются аудиоустройства, такие как наушники, динамики и т.д. Люди часто прослушивают аудиосодержимое (например, подкасты, радиопередачи, телевизионные передачи, музыкальные видеоклипы и т.д.), которое может включать в себя смешанные типы мультимедийного содержимого, такого как речь, музыка, речь поверх музыки и т.д. Такое аудиосодержимое может включать в себя реверберацию. Выполнение подавления реверберации для аудиосодержимого, в частности сформированного пользователем аудиосодержимого, которое включает в себя смешанные типы мультимедийного содержимого, может быть затруднительным.[0003] Audio devices such as headphones, speakers, etc. are widely used. People often listen to audio content (e.g., podcasts, radio broadcasts, television broadcasts, music videos, etc.), which may include mixed types of media content, such as speech, music, speech over music, etc. Such audio content may include reverberation. Performing reverberation suppression for audio content, in particular user-generated audio content, which includes mixed types of media content, can be difficult.

Обозначения и терминыDesignations and terms

[0004] На протяжении данного описания, в том числе и в формуле изобретения, термины «динамик», «громкоговоритель» и «преобразователь для воспроизведения аудиоданных» используются синонимично для указания на любой звукоизлучающий преобразователь (либо набор преобразователей), возбуждаемый одним входным сигналом в динамики. Типичный комплект наушников включает в себя два динамика. Динамик может быть реализован таким образом, что он включает в себя множество преобразователей (например, громкоговоритель низких частот и громкоговоритель высоких частот), которые могут возбуждаться одним, общим входным сигналом в динамики или множеством входных сигналов в динамики. В некоторых примерах входной сигнал в динамики может подвергаться различной обработке в различных ветвях схемы, соединенных с различными преобразователями.[0004] Throughout this description, including in the claims, the terms "driver," "loudspeaker," and "audio data transducer" are used synonymously to refer to any sound-producing transducer (or set of transducers) driven by a single input signal to the speakers. A typical set of headphones includes two speakers. A speaker may be implemented in such a way that it includes a plurality of transducers (e.g., a low-frequency speaker and a high-frequency speaker), which may be driven by a single, common input signal to the speakers or a plurality of input signals to the speakers. In some examples, the input signal to the speakers may be subject to different processing in different branches of the circuit connected to different transducers.

[0005] На протяжении данного описания, в том числе и в формуле изобретения, выражение «выполнение операции «в отношении» сигнала или данных» (например, фильтрации, масштабирования, преобразования или применения усиления к сигналу или данным) используется в широком смысле для обозначения выполнения операции непосредственно в отношении сигнала или данных или в отношении обработанной версии сигнала или данных (например, в отношении версии сигнала, которая подвергнута предварительной фильтрации или предварительной обработке до выполнения упомянутой операции).[0005] Throughout this description, including in the claims, the expression "performing an operation "on" a signal or data" (e.g., filtering, scaling, transforming, or applying gain to a signal or data) is used in a broad sense to mean performing an operation directly on the signal or data or on a processed version of the signal or data (e.g., on a version of the signal that has been pre-filtered or pre-processed prior to performing the operation).

[0006] На протяжении данного описания, в том числе и в формуле изобретения, выражение «система» используется в широком смысле для указания на устройство, систему или подсистему. Например, подсистема, которая реализует декодер, может называться «системой декодера», и система, включающая в себя такую подсистему (например, система, которая формирует X выходных сигналов в ответ на множество вводов, причем подсистема формирует M вводов, и другие X-M вводов принимаются из внешнего источника), также может называться «системой декодера».[0006] Throughout this description, including in the claims, the term "system" is used in a broad sense to refer to a device, system, or subsystem. For example, a subsystem that implements a decoder may be referred to as a "decoder system," and a system including such a subsystem (e.g., a system that generates X output signals in response to a plurality of inputs, wherein the subsystem generates M inputs, and the other X-M inputs are received from an external source) may also be referred to as a "decoder system."

[0007] На протяжении данного описания, в том числе и в формуле изобретения, термин «процессор» используется в широком смысле для указания на систему или устройство, запрограммированное либо иным образом конфигурированное (например, посредством программного обеспечения или микропрограммного обеспечения) для выполнения операций в отношении данных (например, аудио- или видео- или других данных изображений). Примеры процессоров включают в себя программируемую пользователем вентильную матрицу (либо другую конфигурируемую интегральную схему или набор микросхем), процессор цифровых сигналов, запрограммированный и/или иным способом выполненный с возможностью осуществления конвейерной обработки в отношении аудиоданных или других звуковых данных, программируемый процессор общего назначения или компьютер и программируемую микропроцессорную интегральную схему или набор микросхем.[0007] Throughout this description, including in the claims, the term "processor" is used in a broad sense to refer to a system or device programmed or otherwise configured (e.g., by software or firmware) to perform operations on data (e.g., audio or video or other image data). Examples of processors include a field-programmable gate array (or other configurable integrated circuit or chipset), a digital signal processor programmed and/or otherwise configured to perform pipeline processing on audio data or other sound data, a programmable general-purpose processor or computer, and a programmable microprocessor integrated circuit or chipset.

[0008] На протяжении данного описания, в том числе и в формуле изобретения, термин «соединен» или «соединенный» используется как означающий прямое или опосредованное соединение. Таким образом, если первое устройство соединено со вторым устройством, то соединение может осуществляться через прямое соединение или через опосредованное соединение через другие устройства и соединения.[0008] Throughout this description, including in the claims, the term "connected" or "connected" is used to mean a direct or indirect connection. Thus, if a first device is connected to a second device, the connection may be via a direct connection or via an indirect connection through other devices and connections.

[0009] На протяжении данного описания, в том числе и в формуле изобретения, термин «классификатор» используется в общем как означающий алгоритм, который прогнозирует класс ввода. Например, при использовании в данном документе, аудиосигнал может классифицироваться как связанный с конкретным типом мультимедиа, таким как речь, музыка, речь поверх музыки и т.п. Следует понимать, что для реализации технологий, описанных в данном документе, могут использоваться различные типы классификаторов, такие как деревья решений, алгоритм на основе принципа адаптивного бустинга (Ada-boost), алгоритм на основе принципа экстремального градиентного бустинга (XG-boost), случайные леса, обобщенный метод моментов (GMM), скрытые марковские модели (HMM), наивный байесовский подход и/или различные типы нейронных сетей (например, сверточная нейронная сеть (CNN), глубокая нейронная сеть (DNN), рекуррентная нейронная сеть (RNN), долгое кратковременное запоминающее устройство (LSTM), стробированная рекуррентная единица (GRU) и т.п.).[0009] Throughout this description, including in the claims, the term "classifier" is used generally to mean an algorithm that predicts the class of an input. For example, as used herein, an audio signal may be classified as being associated with a particular type of media, such as speech, music, speech over music, etc. It should be understood that various types of classifiers may be used to implement the technologies described herein, such as decision trees, an adaptive boosting algorithm (Ada-boost), an extreme gradient boosting algorithm (XG-boost), random forests, a generalized method of moments (GMM), hidden Markov models (HMM), a naive Bayes approach, and/or various types of neural networks (e.g., a convolutional neural network (CNN), a deep neural network (DNN), a recurrent neural network (RNN), a long short-term memory (LSTM), a gated recurrent unit (GRU), etc.).

Раскрытие изобретенияDisclosure of invention

[0010] По меньшей мере некоторые аспекты настоящего изобретения могут быть реализованы в виде способов. Некоторые способы могут включать в себя прием входного аудиосигнала. Некоторые такие способы могут включать в себя классификацию типа мультимедиа входного аудиосигнала как одного из группы, содержащей по меньшей мере: 1) речь; 2) музыку; или 3) речь поверх музыки. Некоторые такие способы могут включать в себя определение того, следует ли выполнять дереверберацию для входного аудиосигнала по меньшей мере на основе определения того, что тип мультимедиа входного аудиосигнала классифицирован как речь. Некоторые такие способы могут включать в себя формирование выходного аудиосигнала посредством выполнения дереверберации для входного аудиосигнала в ответ на определение того, что дереверберация должна выполняться для входного аудиосигнала.[0010] At least some aspects of the present invention may be implemented as methods. Some methods may include receiving an input audio signal. Some such methods may include classifying the media type of the input audio signal as one of a group comprising at least: 1) speech; 2) music; or 3) speech over music. Some such methods may include determining whether to perform dereverberation on the input audio signal based at least on the determination that the media type of the input audio signal is classified as speech. Some such methods may include generating an output audio signal by performing dereverberation on the input audio signal in response to the determination that dereverberation is to be performed on the input audio signal.

[0011] В некоторых примерах, способ может включать в себя определение степени реверберации во входном аудиосигнале, при этом определение того, следует ли выполнять дереверберацию для входного аудиосигнала, может быть основано на степени реверберации. В некоторых примерах, степень реверберации может быть основана по меньшей мере на одном из: 1) времени реверберации (RT60); или 2) отношения уровней громкости прямого и реверберирующего звука (DRR); или оценки рассеянности. В некоторых примерах, определение степени реверберации может включать в себя вычисление двумерного спектра акустических частот модуляции входного аудиосигнала, причем степень реверберации может быть основана на величине энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции. В некоторых примерах, определение степени реверберации может включать в себя вычисление по меньшей мере одного из: 1) отношения энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции к энергии по всем частотам модуляции в двумерном спектре акустических частот модуляции; или 2) отношения энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции к энергии в части низких частот модуляции из двумерного спектра акустических частот модуляции.[0011] In some examples, the method may include determining the degree of reverberation in the input audio signal, wherein the determination of whether to perform reverberation for the input audio signal may be based on the degree of reverberation. In some examples, the degree of reverberation may be based on at least one of: 1) the reverberation time (RT60); or 2) the ratio of the loudness levels of the direct and reverberant sound (DRR); or a diffuseness assessment. In some examples, determining the degree of reverberation may include calculating a two-dimensional spectrum of the acoustic modulation frequencies of the input audio signal, wherein the degree of reverberation may be based on the amount of energy in the high-frequency portion of the modulation from the two-dimensional spectrum of the acoustic modulation frequencies. In some examples, determining the degree of reverberation may include calculating at least one of: 1) a ratio of the energy in the high-frequency portion of the two-dimensional spectrum of acoustic modulation frequencies to the energy across all modulation frequencies in the two-dimensional spectrum of acoustic modulation frequencies; or 2) a ratio of the energy in the high-frequency portion of the two-dimensional spectrum of acoustic modulation frequencies to the energy in the low-frequency portion of the two-dimensional spectrum of acoustic modulation frequencies.

[0012] В некоторых примерах, способ может включать в себя определение того, следует ли выполнять дереверберацию для входного аудиосигнала, на основе определения того, что степень реверберации превышает пороговое значение.[0012] In some examples, the method may include determining whether to perform reverberation on the input audio signal based on a determination that the amount of reverberation exceeds a threshold.

[0013] В некоторых примерах, способ может включать в себя классификацию типа мультимедиа входного аудиосигнала посредством разделения входного аудиосигнала на два или более пространственных компонента. Согласно некоторым реализациям, два или более пространственных компонента могут содержать центральный канал и боковой канал. В некоторых примерах, способ дополнительно может включать в себя вычисление мощности бокового канала и классификацию бокового канала в ответ на определение того, что мощность бокового канала превышает пороговое значение. Согласно другим реализациям, два или более пространственных компонента содержат рассеянный компонент и прямой компонент. В некоторых примерах, классификация типа мультимедиа входного аудиосигнала может включать в себя классификацию каждого из двух или более пространственных компонентов как одного из: 1) речи; 2) музыки; или 3) речи поверх музыки, причем тип мультимедиа входного аудиосигнала может классифицироваться посредством комбинирования классификаций каждого из двух или более пространственных компонентов. В некоторых примерах, входной аудиосигнал может разделяться на два или более пространственных компонента в ответ на определение того, что входной аудиосигнал содержит стереофонический аудиосигнал.[0013] In some examples, the method may include classifying the media type of the input audio signal by dividing the input audio signal into two or more spatial components. According to some implementations, the two or more spatial components may comprise a center channel and a side channel. In some examples, the method may further include calculating the power of the side channel and classifying the side channel in response to determining that the power of the side channel exceeds a threshold. According to other implementations, the two or more spatial components comprise a diffuse component and a direct component. In some examples, classifying the media type of the input audio signal may include classifying each of the two or more spatial components as one of: 1) speech; 2) music; or 3) speech over music, wherein the media type of the input audio signal may be classified by combining the classifications of each of the two or more spatial components. In some examples, the input audio signal may be divided into two or more spatial components in response to determining that the input audio signal contains a stereophonic audio signal.

[0014] В некоторых примерах, способ может включать в себя классификацию типа мультимедиа входного аудиосигнала посредством разделения входного аудиосигнала на вокальный компонент и невокальный компонент. В некоторых примерах, входной аудиосигнал может разделяться на вокальный компонент и невокальный компонент в ответ на определение того, что входной аудиосигнал содержит один аудиоканал. В некоторых примерах, способ дополнительно может включать в себя классификацию вокального компонента как одного из: 1) речи; или 2) не речи. Способ дополнительно может включать в себя классификацию невокального компонента как одного из: 1) музыки; или 2) не музыки. В некоторых примерах, тип мультимедиа входного аудиосигнала может классифицироваться посредством комбинирования классификации вокального компонента и классификации невокального компонента.[0014] In some examples, the method may include classifying the media type of the input audio signal by separating the input audio signal into a vocal component and a non-vocal component. In some examples, the input audio signal may be separated into a vocal component and a non-vocal component in response to determining that the input audio signal contains one audio channel. In some examples, the method may further include classifying the vocal component as one of: 1) speech; or 2) non-speech. The method may further include classifying the non-vocal component as one of: 1) music; or 2) non-music. In some examples, the media type of the input audio signal may be classified by combining the classification of the vocal component and the classification of the non-vocal component.

[0015] В некоторых примерах, определение того, следует ли выполнять дереверберацию для входного аудиосигнала, может быть основано на классификации второго входного аудиосигнала, который предшествует входному аудиосигналу.[0015] In some examples, determining whether to perform dereverberation on an input audio signal may be based on the classification of a second input audio signal that precedes the input audio signal.

[0016] В некоторых примерах, способ может включать в себя прием третьего входного аудиосигнала. Способ дополнительно может включать в себя определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала. Способ дополнительно может включать в себя запрет выполнения алгоритма дереверберации для третьего входного аудиосигнала в ответ на определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала. В некоторых примерах, определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала, может быть основано по меньшей мере частично на классификации типа мультимедиа третьего входного аудиосигнала. В некоторых примерах, классификация третьего входного аудиосигнала может представлять собой одно из: 1) музыки; или 2) речи поверх музыки. В некоторых примерах, определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала, может быть основано по меньшей мере частично на определении того, что степень реверберации в третьем входном аудиосигнале ниже порогового значения.[0016] In some examples, the method may include receiving a third input audio signal. The method may further include determining that dereverberation should not be performed for the third input audio signal. The method may further include prohibiting the execution of the dereverberation algorithm for the third input audio signal in response to the determination that dereverberation should not be performed for the third input audio signal. In some examples, the determination that dereverberation should not be performed for the third input audio signal may be based at least in part on the classification of the media type of the third input audio signal. In some examples, the classification of the third input audio signal may be one of: 1) music; or 2) speech over music. In some examples, the determination that dereverberation should not be performed for the third input audio signal may be based at least in part on the determination that the degree of reverberation in the third input audio signal is below a threshold.

[0017] Согласно другому аспекту настоящего изобретения, предложен способ классификации входного аудиосигнала как одного из по меньшей мере двух типов мультимедиа, при этом способ содержит: прием входного аудиосигнала; разделение входного аудиосигнала на два или более пространственных компонента; и классификацию каждого из двух или более пространственных компонентов как одного из по меньшей мере двух типов мультимедиа, при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования классификаций каждого из двух или более пространственных компонентов.[0017] According to another aspect of the present invention, a method is provided for classifying an input audio signal as one of at least two media types, wherein the method comprises: receiving the input audio signal; dividing the input audio signal into two or more spatial components; and classifying each of the two or more spatial components as one of the at least two media types, wherein the media type of the input audio signal is classified by combining the classifications of each of the two or more spatial components.

[0018] В некоторых примерах, два или более пространственных компонента содержат центральный канал и боковой канал, и способ дополнительно содержит: вычисление мощности бокового канала; и классификацию бокового канала в ответ на определение того, что мощность бокового канала превышает пороговое значение.[0018] In some examples, the two or more spatial components comprise a center channel and a side channel, and the method further comprises: calculating the power of the side channel; and classifying the side channel in response to determining that the power of the side channel exceeds a threshold.

[0019] В некоторых примерах, два или более пространственных компонента содержат рассеянный компонент и прямой компонент.[0019] In some examples, the two or more spatial components comprise a diffuse component and a direct component.

[0020] В некоторых примерах, входной аудиосигнал разделяется на два или более пространственных компонента в ответ на определение того, что входной аудиосигнал содержит стереофонический аудиосигнал.[0020] In some examples, the input audio signal is separated into two or more spatial components in response to a determination that the input audio signal comprises a stereo audio signal.

[0021] В некоторых примерах, классификация типа мультимедиа входного аудиосигнала содержит разделение входного аудиосигнала на вокальный компонент и невокальный компонент. В некоторых примерах, входной аудиосигнал разделяется на вокальный компонент и невокальный компонент в ответ на определение того, что входной аудиосигнал содержит один аудиоканал. В некоторых примерах, классификация типа мультимедиа входного аудиосигнала содержит: классификацию вокального компонента как одного из: 1) речи; или 2) не речи; классификацию невокального компонента как одного из: 1) музыки; или 2) не музыки, при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования классификации вокального компонента и классификации невокального компонента.[0021] In some examples, classifying the media type of the input audio signal comprises dividing the input audio signal into a vocal component and a non-vocal component. In some examples, the input audio signal is divided into a vocal component and a non-vocal component in response to determining that the input audio signal contains one audio channel. In some examples, classifying the media type of the input audio signal comprises: classifying the vocal component as one of: 1) speech; or 2) non-speech; classifying the non-vocal component as one of: 1) music; or 2) non-music, wherein the media type of the input audio signal is classified by combining the classification of the vocal component and the classification of the non-vocal component.

[0022] Некоторые или все операции, функции и/или способы, описанные в данном документе, могут осуществляться посредством одного или более устройств согласно инструкциям (например, программному обеспечению), сохраненным на одном или более энергонезависимых носителей. Такие энергонезависимые носители могут включать в себя запоминающие устройства, такие как запоминающие устройства, описанные в данном документе, в том числе, но не только, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM) и т.д. Соответственно, некоторые инновационные аспекты объекта изобретения, описанного в данном описании, могут быть реализованы в виде одного или более постоянных носителей, имеющих сохраненное программное обеспечение.[0022] Some or all of the operations, functions, and/or methods described herein may be performed by one or more devices according to instructions (e.g., software) stored on one or more non-volatile media. Such non-volatile media may include memory devices, such as the memory devices described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. Accordingly, some innovative aspects of the subject matter described herein may be implemented as one or more non-volatile media having stored software.

[0023] По меньшей мере некоторые аспекты настоящего изобретения могут быть реализованы в виде устройства. Например, одно или более устройств могут быть способными по меньшей мере частично осуществлять способы, раскрытые в данном документе. В некоторых реализациях устройство представляет собой или включает в себя систему аудиообработки, имеющую интерфейсную систему и систему управления. Система управления может включать в себя один или более одно- или многомикросхемных процессоров общего назначения, процессоров цифровых сигналов (DSP), специализированных интегральных схем (ASIC), программируемых пользователем вентильных матриц (FPGA) или других программируемых логических устройств, дискретных вентилей или транзисторную логику, дискретные аппаратные компоненты или их сочетания.[0023] At least some aspects of the present invention may be implemented as a device. For example, one or more devices may be capable of at least partially implementing the methods disclosed herein. In some implementations, the device is or includes an audio processing system having an interface system and a control system. The control system may include one or more general-purpose single- or multi-chip processors, digital signal processors (DSPs), application-specific integrated circuits (ASICs), field-programmable gate arrays (FPGAs) or other programmable logic devices, discrete gates or transistor logic, discrete hardware components, or combinations thereof.

[0024] Настоящее изобретение обеспечивает различные технические преимущества. Например, посредством избирательного выполнения дереверберации для конкретных типов входных аудиосигналов (например, для входных аудиосигналов, классифицированных как речь), может быть повышена разборчивость речи. Кроме того, за счёт запрета дереверберации для других типов входных аудиосигналов (например, для входных аудиосигналов, классифицированных как музыка, речь поверх музыки и т.п.), невыгодные результаты дереверберации, такие как пониженное качество звучания, могут не допускаться для аудиосигналов, для которых повышение разборчивости речи не требуется. Технические преимущества настоящего изобретения могут быть, в частности, полезными для формируемого пользователем содержимого, такого как подкасты.[0024] The present invention provides various technical advantages. For example, by selectively performing dereverberation for specific types of input audio signals (e.g., for input audio signals classified as speech), speech intelligibility can be improved. Furthermore, by prohibiting dereverberation for other types of input audio signals (e.g., for input audio signals classified as music, speech over music, etc.), disadvantageous results of dereverberation, such as reduced sound quality, can be prevented for audio signals for which speech intelligibility enhancement is not required. The technical advantages of the present invention may be particularly useful for user-generated content, such as podcasts.

[0025] Подробности одной или более реализаций объекта изобретения, описанного в данном подробном описании, изложены на прилагаемых чертежах и в нижеприведенном описании. Другие признаки, аспекты и преимущества должны стать очевидными из описания, чертежей и формулы изобретения. Следует отметить, что относительные размеры следующих чертежей могут быть приведены не в масштабе.[0025] The details of one or more embodiments of the subject matter described in this detailed description are set forth in the accompanying drawings and the description below. Other features, aspects, and advantages will become apparent from the description, drawings, and claims. It should be noted that the relative sizes of the following drawings may not be to scale.

Краткое описание чертежейBrief description of the drawings

[0026] Фиг. 1A и 1B иллюстрируют представления примерных аудиосигналов, которые включают в себя реверберацию.[0026] Figs. 1A and 1B illustrate representations of example audio signals that include reverberation.

[0027] Фиг. 2 показывает блок-схему примерной системы для выполнения дереверберации на основе типа мультимедиа в соответствии с некоторыми реализациями.[0027] Fig. 2 shows a block diagram of an example system for performing de-riverberation based on a media type in accordance with some implementations.

[0028] Фиг. 3 показывает пример процесса для выполнения дереверберации на основе типа мультимедиа в соответствии с некоторыми реализациями.[0028] Fig. 3 shows an example of a process for performing de-embedding based on a media type in accordance with some implementations.

[0029] Фиг. 4 показывает пример процесса для пространственного разделения входных аудиосигналов в соответствии с некоторыми реализациями.[0029] Fig. 4 shows an example of a process for spatially separating input audio signals in accordance with some implementations.

[0030] Фиг. 5 показывает пример процесса для разделения источников входных аудиосигналов в соответствии с некоторыми реализациями.[0030] Fig. 5 shows an example of a process for separating audio input sources in accordance with some implementations.

[0031] Фиг. 6 показывает пример процесса для определения степени реверберации в соответствии с некоторыми реализациями.[0031] Fig. 6 shows an example of a process for determining the degree of reverberation in accordance with some implementations.

[0032] Фиг. 7A, 7B, 7C и 7D показывают примерные графики двумерных спектров акустических частот модуляции примерных аудиосигналов.[0032] Figs. 7A, 7B, 7C, and 7D show exemplary graphs of two-dimensional acoustic modulation frequency spectra of exemplary audio signals.

[0033] Фиг. 8 показывает блок-схему, которая иллюстрирует примеры компонентов устройства, способного к реализации различных аспектов данного изобретения.[0033] Fig. 8 shows a block diagram that illustrates examples of components of a device capable of implementing various aspects of the present invention.

[0034] Аналогичные ссылочные позиции и условные обозначения на различных чертежах указывают на аналогичные элементы.[0034] Like reference numerals and symbols in the various drawings indicate like elements.

Осуществление изобретенияImplementation of the invention

[0035] Реверберация возникает, когда аудиосигнал искажается посредством различных отражений от различных поверхностей (например, стен, потолков, полов, мебели и т.д.). Реверберация может оказывать существенное влияние на качество звука и разборчивость речи. Соответственно, дереверберация аудиосигнала, который включает в себя речь, может выполняться для повышения разборчивости речи.[0035] Reverberation occurs when an audio signal is distorted by various reflections from various surfaces (e.g., walls, ceilings, floors, furniture, etc.). Reverberation can have a significant impact on sound quality and speech intelligibility. Accordingly, dereverberation of an audio signal that includes speech can be performed to improve speech intelligibility.

[0036] Звук, поступающий в приемник (например, к слушателю-человеку, в микрофон и т.д.), состоит из прямого звука, который включает в себя звук непосредственно из источника вообще без отражений, и реверберирующего звука, который включает в себя звук, отражаемый от различных поверхностей в окружении. Реверберирующий звук включает в себя ранние отражения и поздние отражения. Ранние отражения могут достигать приемника несколько позднее или параллельно с прямым звуком и в силу этого частично могут интегрироваться в прямой звук. Интеграция ранних отражений с прямым звуком создает эффект спектрального окрашивания, который способствует воспринимаемому качеству звука. Поздние отражения поступают в приемник после ранних отражений (например, более чем через 50-80 миллисекунд после прямого звука). Поздние отражения могут иметь негативный эффект на разборчивость речи. Соответственно, дереверберация может выполняться для аудиосигнала для уменьшения эффекта поздних отражений, присутствующих в аудиосигнале, чтобы за счет этого повысить разборчивость речи.[0036] Sound arriving at a receiver (e.g., a human listener, a microphone, etc.) consists of direct sound, which includes sound directly from the source without any reflections, and reverberant sound, which includes sound reflected from various surfaces in the environment. Reverberant sound includes early reflections and late reflections. Early reflections may reach the receiver somewhat later than or parallel to the direct sound and, therefore, may be partially integrated into the direct sound. The integration of early reflections with the direct sound creates a spectral coloring effect that contributes to the perceived quality of the sound. Late reflections arrive at the receiver after the early reflections (e.g., more than 50-80 milliseconds after the direct sound). Late reflections may have a negative effect on speech intelligibility. Accordingly, dereverberation can be performed on an audio signal to reduce the effect of late reflections present in the audio signal in order to thereby improve speech intelligibility.

[0037] Фиг. 1A показывает пример акустических импульсных откликов в реверберирующем окружении. Как проиллюстрировано, ранние отражения 102 могут поступать в приемник параллельно или сразу после прямого звука. В отличие от этого, поздние отражения 104 могут поступать в приемник после ранних отражений 102.[0037] Fig. 1A shows an example of acoustic impulse responses in a reverberant environment. As illustrated, early reflections 102 may arrive at the receiver in parallel with or immediately after the direct sound. In contrast, late reflections 104 may arrive at the receiver after the early reflections 102.

[0038] Фиг. 1B показывает пример входного аудиосигнала 152 временной области и соответствующей спектрограммы 154. Как проиллюстрировано на спектрограмме 154, ранние отражения могут вызывать изменения на спектрограмме 154, которые показаны посредством спектральных окрашиваний 156.[0038] Fig. 1B shows an example of a time-domain input audio signal 152 and a corresponding spectrogram 154. As illustrated in the spectrogram 154, early reflections can cause changes in the spectrogram 154, which are shown by spectral colorings 156.

[0039] Дереверберация может понижать качество звучания, например, посредством уменьшения воспринимаемого уровня громкости, изменения спектральных цветовых эффектов и т.п. Пониженное качество звучания может быть, в частности, невыгодным, когда дереверберация выполняется для аудиосигналов, которые главным образом включают в себя музыку или речь поверх музыки. Например, качество звучания аудиосигнала, который главным образом включает в себя музыку или речь поверх музыки, может ухудшаться вообще без повышения разборчивости речи. В качестве более конкретного примера, дереверберация может быть подходящей для обработки низкокачественного речевого содержимого, такого как формируемое пользователем содержимое, которое захватывается в вариантах использования с дальним радиусом действия. Продолжая этот конкретный пример, формируемое пользователем содержимое, такое как подкасты, может включать в себя как низкокачественное речевое содержимое, так и профессионально сформированное музыкальное содержимое. В некоторых случаях профессионально сформированное музыкальное содержимое может включать в себя искусственную реверберацию. В таких случаях, применение дереверберации к смешанному мультимедийному содержимому (например, включающему в себя низкокачественное речевое содержимое и профессионально сформированное музыкальное содержимое с искусственной реверберацией) может вводить избыточное подавление реверберации, что может ухудшать качество звучания.[0039] Dereverberation can reduce sound quality, for example, by reducing the perceived loudness level, changing spectral color effects, and the like. Reduced sound quality can be particularly disadvantageous when dereverberation is performed on audio signals that primarily include music or speech over music. For example, the sound quality of an audio signal that primarily includes music or speech over music can be degraded without any improvement in speech intelligibility. As a more specific example, dereverberation can be suitable for processing low-quality speech content, such as user-generated content that is captured in long-range use cases. Continuing with this specific example, user-generated content, such as podcasts, can include both low-quality speech content and professionally generated musical content. In some cases, professionally generated musical content can include artificial reverberation. In such cases, applying dereverberation to mixed media content (e.g., including low-quality speech content and professionally generated music content with artificial reverberation) may introduce excessive reverberation suppression, which may degrade the audio quality.

[0040] В некоторых реализациях, дереверберация может выполняться для входного аудиосигнала на основе идентификации типа(ов) мультимедиа, ассоциированного с входным аудиосигналом. Например, входной аудиосигнал может анализироваться для определения, является ли входной аудиосигнал: 1) речью; 2) музыкой; 3) речью поверх музыки; или 4) другим. Примеры речевого содержимого поверх музыки могут включать в себя вступления или концовки подкастов, вступления или концовки телевизионных передач и т.д.[0040] In some implementations, dereverberation may be performed on an input audio signal based on the identification of the media type(s) associated with the input audio signal. For example, the input audio signal may be analyzed to determine whether the input audio signal is: 1) speech; 2) music; 3) speech over music; or 4) other. Examples of speech over music content may include podcast intros or outros, television show intros or outros, etc.

[0041] В некоторых реализациях, дереверберация может выполняться для входных аудиосигналов, которые идентифицируются как речь или как главным образом речь. С другой стороны, дереверберация может запрещаться для входных аудиосигналов, которые идентифицируются как музыка, главным образом музыка, речь поверх музыки или главным образом речь поверх музыки. Посредством запрета дереверберации для типов мультимедиа, которые не представляют собой речь или главным образом речь, дереверберация может выполняться для входных аудиосигналов, которые должны извлекать существенную выгоду из дереверберации (например, поскольку входной аудиосигнал главным образом включает в себя речь), при предотвращении понижения качества звука, возникающего в результате дереверберации, когда такая дереверберация не требуется для повышения разборчивости речи.[0041] In some implementations, dereverberation may be performed for input audio signals that are identified as speech or primarily speech. On the other hand, dereverberation may be prohibited for input audio signals that are identified as music, primarily music, speech over music, or primarily speech over music. By prohibiting dereverberation for media types that do not represent speech or primarily speech, dereverberation may be performed for input audio signals that should significantly benefit from dereverberation (e.g., because the input audio signal primarily includes speech), while preventing a reduction in audio quality resulting from dereverberation when such dereverberation is not required to improve speech intelligibility.

[0042] В некоторых реализациях, входной аудиосигнал может классифицироваться как представляющий собой одно из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого, с использованием различных технологий. При использовании в данном документе «другое» может означать шум, звуковые эффекты, речь поверх звуковых эффектов и т.п. Например, в некоторых реализациях, входной аудиосигнал может классифицироваться посредством разделения входного аудиосигнала на два или более пространственных компонента и классификации каждого пространственного компонента как одного из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого. Продолжая этот пример, в некоторых реализациях, классификация каждого пространственного компонента затем может комбинироваться для формирования агрегированной классификации для входного аудиосигнала. В качестве другого примера, в некоторых реализациях, входной аудиосигнал может классифицироваться посредством разделения входного аудиосигнала на вокальный компонент и невокальный компонент. Вокальный компонент может классифицироваться как одно из: 1) речи; или 2) не речи, и невокальный компонент может классифицироваться как одно из: 1) музыки; или 2) не музыки. Продолжая этот пример, в некоторых реализациях, классификация каждого из вокального компонента и невокального компонента затем может комбинироваться для формирования агрегированной классификации входного аудиосигнала. Хотя в настоящем описании описано несколько способов классификации в контексте способа подавления реверберации, способы классификации согласно изобретению могут использоваться в других контекстах. В частности, настоящее изобретение относится к способу классификации входного аудиосигнала как одного из по меньшей мере двух типов мультимедиа, содержащему: прием входного аудиосигнала; разделение входного аудиосигнала на два или более пространственных компонента; и классификацию каждого из двух или более пространственных компонентов как одного из по меньшей мере двух типов мультимедиа, при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования классификаций каждого из двух или более пространственных компонентов.[0042] In some implementations, an input audio signal may be classified as representing one of: 1) speech; 2) music; 3) speech over music; or 4) other, using various technologies. As used herein, "other" may mean noise, sound effects, speech over sound effects, and the like. For example, in some implementations, an input audio signal may be classified by splitting the input audio signal into two or more spatial components and classifying each spatial component as one of: 1) speech; 2) music; 3) speech over music; or 4) other. Continuing with this example, in some implementations, the classification of each spatial component may then be combined to form an aggregated classification for the input audio signal. As another example, in some implementations, an input audio signal may be classified by splitting the input audio signal into a vocal component and a non-vocal component. The vocal component may be classified as one of: 1) speech; or 2) not speech, and the non-vocal component may be classified as one of: 1) music; or 2) not music. Continuing with this example, in some implementations, the classification of each of the vocal component and the non-vocal component may then be combined to form an aggregated classification of the input audio signal. Although several classification methods have been described in the present description in the context of a reverberation suppression method, the classification methods according to the invention may be used in other contexts. In particular, the present invention relates to a method for classifying an input audio signal as one of at least two media types, comprising: receiving an input audio signal; dividing the input audio signal into two or more spatial components; and classifying each of the two or more spatial components as one of the at least two media types, wherein the media type of the input audio signal is classified by combining the classifications of each of the two or more spatial components.

[0043] В некоторых реализациях, входной аудиосигнал, который классифицирован как речь, дополнительно может анализироваться для определения величины реверберации, присутствующей во входном аудиосигнале. В некоторых таких реализациях, дереверберация может выполняться для входных аудиосигналов, которые идентифицированы как имеющие большую пороговой величины реверберации. Величина реверберации может идентифицироваться с использованием отношения уровней громкости прямого и реверберирующего звука (DRR) и/или с использованием времени реверберации (RT) к 60 дБ (например, RT60), и/или с использованием измерения рассеянности и/или других подходящих показателей реверберации. Следует отметить, что величина реверберации может представлять собой функцию DRR, в которой величина реверберации увеличивается при снижении значений DRR, и в которой величина реверберации снижается при увеличении значений DRR.[0043] In some implementations, an input audio signal that is classified as speech may be further analyzed to determine the amount of reverberation present in the input audio signal. In some such implementations, reverberation may be performed on input audio signals that are identified as having a greater than threshold amount of reverberation. The amount of reverberation may be identified using the ratio of the loudness levels of direct and reverberant sound (DRR) and/or using the reverberation time (RT) to 60 dB (e.g., RT60), and/or using a diffuseness measurement and/or other suitable reverberation metrics. It should be noted that the amount of reverberation may be a function of DRR, in which the amount of reverberation increases as DRR values decrease, and in which the amount of reverberation decreases as DRR values increase.

[0044] В качестве дополнения или альтернативы, в некоторых реализациях, дереверберация может выполняться для входного аудиосигнала на основе классификации типа мультимедиа предшествующего аудиосигнала. В некоторых реализациях, предшествующий аудиосигнал может представлять собой предшествующий кадр или часть аудиосодержимого, которая предшествует входному аудиосигналу. В некоторых реализациях, классификация входного аудиосигнала может регулироваться на основе классификации предшествующего аудиосигнала таким образом, что классификации смежных аудиосигналов эффективно сглаживаются. Регулирование может выполняться на основе доверительных уровней каждой классификации. Определение того, следует ли выполнять дереверберацию для входного аудиосигнала по меньшей мере частично на основе классификации предшествующего аудиосигнала, позволяет предотвращать применение дереверберации прерывистым способом, за счет этого повышая общее качество звучания.[0044] Additionally or alternatively, in some implementations, dereverberation may be performed on the input audio signal based on the media type classification of the preceding audio signal. In some implementations, the preceding audio signal may be a preceding frame or portion of audio content that precedes the input audio signal. In some implementations, the classification of the input audio signal may be adjusted based on the classification of the preceding audio signal such that the classifications of adjacent audio signals are effectively smoothed. The adjustment may be performed based on the confidence levels of each classification. Determining whether to perform dereverberation on the input audio signal at least in part based on the classification of the preceding audio signal makes it possible to prevent dereverberation from being applied in an intermittent manner, thereby improving the overall audio quality.

[0045] В некоторых реализациях, дереверберация может выполняться для входного аудиосигнала с использованием различных технологий. Например, в некоторых реализациях, дереверберация может выполняться на основе амплитудной модуляции входного аудиосигнала в различных полосах частот. В качестве более конкретного примера, в некоторых вариантах осуществления, аудиосигнал временной области может преобразовываться в сигнал частотной области. Продолжая этот более конкретный пример, сигнал частотной области может разделяться на несколько подполос частот, например, посредством применения гребенки фильтров к сигналу частотной области. Далее продолжая этот более конкретный пример, значения амплитудной модуляции могут определяться для каждой подполосы частот, и полосовые фильтры могут применяться к значениям амплитудной модуляции. В некоторых реализациях, значения полосового фильтра могут выбираться на основе такта человеческой речи, например, так что центральная частота полосового фильтра превышает такт человеческой речи (например, в диапазоне 10-20 Гц, приблизительно 15 Гц и т.п.). Далее продолжая этот конкретный пример, усиления могут определяться для каждой подполосы частот на основе функции значений амплитудных модулирующих сигналов и подвергнутых полосовой фильтрации значений амплитудной модуляции. Усиления затем могут применяться в каждой подполосе частот. В некоторых реализациях, дереверберация может выполняться с использованием технологий, описанных в патенте США №9,520,140, который настоящим полностью включён в данный документ путём ссылки.[0045] In some implementations, dereverberation may be performed on an input audio signal using various technologies. For example, in some implementations, dereverberation may be performed based on amplitude modulation of the input audio signal in various frequency bands. As a more specific example, in some embodiments, a time domain audio signal may be converted into a frequency domain signal. Continuing with this more specific example, the frequency domain signal may be divided into several frequency subbands, for example, by applying a filter bank to the frequency domain signal. Further continuing with this more specific example, amplitude modulation values may be determined for each frequency subband, and bandpass filters may be applied to the amplitude modulation values. In some implementations, the bandpass filter values may be selected based on the beat of human speech, for example, so that the center frequency of the bandpass filter exceeds the beat of human speech (e.g., in the range of 10-20 Hz, approximately 15 Hz, etc.). Continuing with this specific example, gains can be determined for each frequency subband based on a function of the amplitude modulation signal values and the bandpass-filtered amplitude modulation values. Gains can then be applied to each frequency subband. In some implementations, dereverberation can be accomplished using techniques described in U.S. Patent No. 9,520,140, which is hereby incorporated by reference in its entirety.

[0046] В качестве другого примера, в некоторых реализациях, дереверберация может выполняться посредством оценки дереверберированного сигнала с использованием глубокой нейронной сети, способа на основе ошибок прогнозирования со взвешиванием, способа задержанного линейного прогнозирования с нормализованной дисперсией, одноканального линейного фильтра, многоканального линейного фильтра и т.п. В качестве еще одного другого примера, в некоторых реализациях, дереверберация может выполняться посредством оценки отклика в помещении и выполнения операции обращенной свертки для входного аудиосигнала на основе отклика в помещении.[0046] As another example, in some implementations, dereverberation may be performed by estimating the dereverberated signal using a deep neural network, a weighted prediction error method, a normalized variance delayed linear prediction method, a single-channel linear filter, a multi-channel linear filter, and the like. As yet another example, in some implementations, dereverberation may be performed by estimating a room response and performing a deconvolution operation on the input audio signal based on the room response.

[0047] Следует отметить, что технологии, описанные в данном документе для дереверберации на основе типа мультимедиа, могут выполняться для различных типов или форм аудиосодержимого, в том числе, не ограничиваясь, для: подкастов, радиопередач, аудиосодержимого, ассоциированного с видеоконференциями, аудиосодержимого, ассоциированного с телевизионными передачами или фильмами, и т.п. Аудиосодержимое может быть представленным в реальном времени или предварительно записанным.[0047] It should be noted that the technologies described in this document for de-embedding based on the media type can be performed for various types or forms of audio content, including, but not limited to: podcasts, radio broadcasts, audio content associated with video conferences, audio content associated with television broadcasts or movies, etc. The audio content can be presented in real time or pre-recorded.

[0048] Фиг. 2 показывает блок-схему примерной системы 200, которая может использоваться для выполнения дереверберации на основе идентифицированного типа мультимедиа, ассоциированного с входным аудиосигналом в соответствии с некоторыми реализациями.[0048] Fig. 2 shows a block diagram of an example system 200 that may be used to perform dereverberation based on an identified media type associated with an input audio signal in accordance with some implementations.

[0049] Как проиллюстрировано, система 200 может включать в себя классификатор 202 типов мультимедиа. Классификатор 202 типов мультимедиа может принимать входной аудиосигнал. В некоторых реализациях, классификатор 202 типов мультимедиа может классифицировать входной аудиосигнал как: 1) речь; 2) музыку; 3) речь поверх музыки; или 4) другое.[0049] As illustrated, system 200 may include a media type classifier 202. Media type classifier 202 may receive an input audio signal. In some implementations, media type classifier 202 may classify the input audio signal as: 1) speech; 2) music; 3) speech over music; or 4) other.

[0050] В некоторых реализациях, в ответ на определение того, что входной аудиосигнал не представляет собой речь или не представляет собой главным образом речь (например, на определение того, что входной аудиосигнал представляет собой музыку, речь поверх музыки или другое), классификатор 202 типов мультимедиа может передавать входной аудиосигнал без направления входного аудиосигнала в анализатор 204 реверберации. С другой стороны, в ответ на определение того, что входной аудиосигнал представляет собой речь или представляет собой главным образом речь, классификатор 202 типов мультимедиа может передавать входной аудиосигнал в анализатор 204 реверберации.[0050] In some implementations, in response to determining that the input audio signal does not represent speech or does not represent primarily speech (e.g., in response to determining that the input audio signal represents music, speech over music, or other), the media type classifier 202 may transmit the input audio signal without directing the input audio signal to the reverberation analyzer 204. On the other hand, in response to determining that the input audio signal represents speech or represents primarily speech, the media type classifier 202 may transmit the input audio signal to the reverberation analyzer 204.

[0051] В некоторых реализациях, анализатор 204 реверберации может определять степень реверберации, присутствующей во входном аудиосигнале. В некоторых реализациях, анализатор 204 реверберации может определять то, что дереверберация должна выполняться для входного аудиосигнала, в ответ на определение того, что степень реверберации превышает пороговое значение. Таким образом, в некоторых реализациях, анализатор 204 реверберации дополнительно может направлять входной аудиосигнал в компонент 206 дереверберации в ответ на определение того, что входной аудиосигнал является в достаточной степени реверберирующим. В отличие от этого, в ответ на определение того, что входной аудиосигнал не является в достаточной степени реверберирующим (например, того, что входной аудиосигнал включает в себя относительно «сухую» речь), анализатор 204 реверберации может передавать входной аудиосигнал без направления входного аудиосигнала в компонент 206 дереверберации, фактически запрещая выполнение дереверберации для входного аудиосигнала.[0051] In some implementations, the reverberation analyzer 204 may determine the degree of reverberation present in the input audio signal. In some implementations, the reverberation analyzer 204 may determine that dereverberation should be performed for the input audio signal in response to determining that the degree of reverberation exceeds a threshold. Thus, in some implementations, the reverberation analyzer 204 may further direct the input audio signal to the dereverberation component 206 in response to determining that the input audio signal is sufficiently reverberant. In contrast, in response to determining that the input audio signal is not sufficiently reverberant (for example, that the input audio signal includes relatively "dry" speech), the reverberation analyzer 204 may pass the input audio signal without directing the input audio signal to the dereverberation component 206, effectively prohibiting the performance of dereverberation for the input audio signal.

[0052] Компонент 206 дереверберации может принимать, в качестве ввода, входной аудиосигнал, который, как определено, имеет реверберацию, которая превышает пороговое значение, и может формировать дереверберированный аудиосигнал. Следует понимать, что компонент 206 дереверберации может выполнять любую подходящую технологию(и) подавления реверберации.[0052] The dereverberation component 206 may receive, as input, an input audio signal that is determined to have reverberation that exceeds a threshold value and may generate a dereverberated audio signal. It should be understood that the dereverberation component 206 may perform any suitable reverberation suppression technology(s).

[0053] В некоторых реализациях, классификатор 202 типов мультимедиа классифицирует тип мультимедиа входного аудиосигнала на основе одного или обоих из пространственного разделения компонентов входного аудиосигнала или разделения источников музыки компонентов входного аудиосигнала.[0053] In some implementations, the media type classifier 202 classifies the media type of the input audio signal based on one or both of the spatial separation of the components of the input audio signal or the separation of the music sources of the components of the input audio signal.

[0054] Например, в некоторых реализациях, классификатор 202 типов мультимедиа может включать в себя разделитель 208 пространственной информации. Разделитель 208 пространственной информации может разделять входной аудиосигнал на два или более пространственных компонента. Примеры двух или более пространственных компонентов могут включать в себя прямой компонент и рассеянный компонент, боковой канал и центральный канал и т.п. В некоторых реализациях, разделитель 208 пространственной информации может классифицировать тип мультимедиа входного аудиосигнала посредством отдельной классификации каждого из двух или более пространственных компонентов. В некоторых реализациях, разделитель 208 пространственной информации затем может формировать классификацию для входного аудиосигнала посредством комбинирования классификаций для каждого из двух или более компонентов, например, посредством использования алгоритма на основе слияния решений. Примеры алгоритмов на основе слияния решений, которые могут использоваться для комбинирования классификаций для каждого из двух или более компонентов, включают в себя байесовский анализ, алгоритм Демпстера-Шафера, нечетко-логические алгоритмы и т.п. Следует отметить, что технологии для классификации типа мультимедиа на основе разделения пространственных источников показаны на и описаны ниже с обращением к фиг. 4.[0054] For example, in some implementations, the media type classifier 202 may include a spatial information separator 208. The spatial information separator 208 may separate the input audio signal into two or more spatial components. Examples of the two or more spatial components may include a direct component and a diffuse component, a side channel and a center channel, and the like. In some implementations, the spatial information separator 208 may classify the media type of the input audio signal by separately classifying each of the two or more spatial components. In some implementations, the spatial information separator 208 may then form a classification for the input audio signal by combining the classifications for each of the two or more components, for example, by using a decision fusion algorithm. Examples of decision fusion algorithms that may be used to combine the classifications for each of the two or more components include Bayesian analysis, the Dempster-Shafer algorithm, fuzzy logic algorithms, and the like. It should be noted that technologies for classifying the media type based on the separation of spatial sources are shown in and described below with reference to Fig. 4.

[0055] В качестве другого примера, в некоторых реализациях, классификатор 202 типов мультимедиа может включать в себя разделитель 210 источников музыки. Разделитель 210 источников музыки может разделять входной аудиосигнал на вокальный компонент и невокальный компонент. В некоторых реализациях, разделитель 210 источников музыки затем может классифицировать вокальный компонент как одно из: 1) речи; или 2) не речи. В некоторых реализациях, разделитель 210 источников музыки может классифицировать невокальный компонент как одно из: 1) музыки; или 2) не музыки. В некоторых реализациях, разделитель 210 источников музыки может формировать классификацию входного аудиосигнала как одного из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого, на основе классификаций вокального компонента и невокального компонента. Например, в некоторых реализациях, разделитель 210 источников музыки может комбинировать классификации вокального компонента и невокального компонента (например, посредством использования алгоритма на основе слияния решений). Примеры алгоритмов на основе слияния решений, которые могут использоваться для комбинирования классификаций для каждого из двух или более компонентов, включают в себя байесовский анализ, алгоритм Демпстера-Шафера, нечетко-логические алгоритмы и т.п.[0055] As another example, in some implementations, the media type classifier 202 may include a music source separator 210. The music source separator 210 may separate the input audio signal into a vocal component and a non-vocal component. In some implementations, the music source separator 210 may then classify the vocal component as one of: 1) speech; or 2) not speech. In some implementations, the music source separator 210 may classify the non-vocal component as one of: 1) music; or 2) not music. In some implementations, the music source separator 210 may generate a classification of the input audio signal as one of: 1) speech; 2) music; 3) speech over music; or 4) other, based on the classifications of the vocal component and the non-vocal component. For example, in some implementations, the music source separator 210 may combine the classifications of the vocal component and the non-vocal component (e.g., by using a decision fusion-based algorithm). Examples of decision fusion algorithms that can be used to combine classifications for each of two or more components include Bayesian analysis, the Dempster-Shafer algorithm, fuzzy logic algorithms, etc.

[0056] В некоторых реализациях, классификатор 202 типов мультимедиа может определять то, следует классифицировать тип мультимедиа входного аудиосигнала с использованием разделителя 208 пространственной информации или посредством использования разделителя 210 источников музыки. Например, классификатор 202 типов мультимедиа может определять то, что тип мультимедиа должен классифицироваться с использованием разделителя 208 пространственной информации, в ответ на определение того, что входной аудиосигнал представляет собой стереоаудиосигнал. В качестве другого примера, классификатор 202 типов мультимедиа может определять то, что тип мультимедиа должен классифицироваться с использованием разделителя 210 источников музыки, в ответ на определение того, что входной аудиосигнал представляет собой моноканальный аудиосигнал.[0056] In some implementations, the media type classifier 202 may determine whether the media type of the input audio signal should be classified using the spatial information separator 208 or by using the music source separator 210. For example, the media type classifier 202 may determine that the media type should be classified using the spatial information separator 208 in response to determining that the input audio signal is a stereo audio signal. As another example, the media type classifier 202 may determine that the media type should be classified using the music source separator 210 in response to determining that the input audio signal is a monochannel audio signal.

[0057] В примере по фиг. 2, классификатор 202 типов мультимедиа используется в контексте системы 200 для выполнения дереверберации. Следует подчеркнуть, что классификатор 202 типов мультимедиа может использоваться в качестве автономной системы или может использоваться в других системах аудиообработки.[0057] In the example of Fig. 2, the media type classifier 202 is used in the context of the system 200 for performing dereverberation. It should be emphasized that the media type classifier 202 can be used as a stand-alone system or can be used in other audio processing systems.

[0058] Фиг. 3 показывает пример процесса 300 для выполнения дереверберации для входных аудиосигналов на основе классификации типов мультимедиа в соответствии с некоторыми реализациями. В некоторых реализациях, этапы процесса 300 могут выполняться посредством устройства (например, устройства 200 по фиг. 2). Следует отметить, что в некоторых реализациях, этапы процесса 300 могут выполняться в порядках, не показанных на фиг. 3, и/или один или более этапов процесса 300 могут выполняться практически параллельно. Кроме того, следует отметить, что в некоторых реализациях один или более этапов процесса 300 могут быть пропущены.[0058] Fig. 3 shows an example of a process 300 for performing dereverberation for input audio signals based on a classification of media types in accordance with some implementations. In some implementations, the steps of the process 300 may be performed by a device (e.g., device 200 of Fig. 2). It should be noted that in some implementations, the steps of the process 300 may be performed in orders not shown in Fig. 3, and/or one or more steps of the process 300 may be performed substantially in parallel. Furthermore, it should be noted that in some implementations, one or more steps of the process 300 may be omitted.

[0059] На 302, процесс 300 может принимать входной аудиосигнал. Входной аудиосигнал может записываться или может представлять собой передаваемое в реальном времени содержимое. Входной аудиосигнал может включать в себя различные типы аудиосодержимого, такие как речь, музыка, речь поверх музыки и т.п. Примерные типы аудиосодержимого могут включать в себя подкасты, радиопередачи, аудиосодержимое, ассоциированное с телевизионными передачами или фильмами, и т.п.[0059] At 302, process 300 may receive an input audio signal. The input audio signal may be recorded or may be real-time content. The input audio signal may include various types of audio content, such as speech, music, speech over music, and the like. Exemplary types of audio content may include podcasts, radio broadcasts, audio content associated with television broadcasts or movies, and the like.

[0060] На 304, процесс 300 может классифицировать тип мультимедиа входного аудиосигнала. Например, в некоторых реализациях, процесс 300 может классифицировать входной аудиосигнал как представляющий собой одно из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого.[0060] At 304, process 300 may classify the media type of the input audio signal. For example, in some implementations, process 300 may classify the input audio signal as representing one of: 1) speech; 2) music; 3) speech over music; or 4) other.

[0061] В некоторых реализациях, процесс 300 может классифицировать тип мультимедиа входного аудиосигнала на основе разделения пространственных компонентов входного аудиосигнала. Например, в некоторых реализациях, процесс 300 может разделять входной аудиосигнал на два или более пространственных компонента, к примеру, на прямой компонент и рассеянный компонент, боковой канал и центральный канал и т.д. В некоторых реализациях, процесс 300 затем может классифицировать тип мультимедиа для аудиосодержимого в каждом пространственном компоненте. В некоторых реализациях, процесс 300 затем может классифицировать входной аудиосигнал посредством комбинирования классификаций каждого пространственного компонента. Следует отметить, что более подробные технологии для классификации типа мультимедиа входного аудиосигнала на основе пространственного разделения показаны на фиг. 4 и описаны ниже с обращением к ней.[0061] In some implementations, process 300 may classify the media type of the input audio signal based on the separation of spatial components of the input audio signal. For example, in some implementations, process 300 may separate the input audio signal into two or more spatial components, such as a direct component and a diffuse component, a side channel and a center channel, etc. In some implementations, process 300 may then classify the media type of the audio content in each spatial component. In some implementations, process 300 may then classify the input audio signal by combining the classifications of each spatial component. It should be noted that more detailed techniques for classifying the media type of the input audio signal based on spatial separation are shown in Fig. 4 and are described below with reference thereto.

[0062] В качестве дополнения или альтернативы, в некоторых реализациях, процесс 300 может классифицировать тип мультимедиа входного аудиосигнала на основе разделения источников музыки входного аудиосигнала. Например, в некоторых реализациях, процесс 300 может разделять входной аудиосигнал на вокальный компонент и невокальный компонент. В некоторых реализациях, процесс 300 затем может классифицировать тип мультимедиа для аудиосодержимого в каждом из вокального компонента и невокального компонента. В некоторых реализациях, процесс 300 затем может классифицировать входной аудиосигнал посредством комбинирования классификаций каждого из вокального компонента и невокального компонента. Следует отметить, что более подробные технологии для классификации типа мультимедиа входного аудиосигнала на основе разделения источников музыки показаны на фиг. 5 и описаны ниже с обращением к ней.[0062] Additionally or alternatively, in some implementations, process 300 may classify the media type of the input audio signal based on the separation of music sources of the input audio signal. For example, in some implementations, process 300 may separate the input audio signal into a vocal component and a non-vocal component. In some implementations, process 300 may then classify the media type of the audio content in each of the vocal component and the non-vocal component. In some implementations, process 300 may then classify the input audio signal by combining the classifications of each of the vocal component and the non-vocal component. It should be noted that more detailed techniques for classifying the media type of the input audio signal based on the separation of music sources are shown in Fig. 5 and are described below with reference thereto.

[0063] На 306, процесс 300 может определять, следует ли анализировать характеристики реверберации входного аудиосигнала. В некоторых реализациях, процесс 300 может определять, следует ли анализировать характеристики реверберации, на основе классификации типов мультимедиа входного аудиосигнала, определенной на этапе 304. Например, в некоторых реализациях, процесс 300 может определять то, что характеристики реверберации должны анализироваться («Да» на 306), в ответ на определение того, что классификация типов мультимедиа входного аудиосигнала представляет собой речь. С другой стороны, в некоторых реализациях, процесс 300 может определять то, что характеристики реверберации не должны анализироваться («Нет» на 306), в ответ на определение того, что классификация типов мультимедиа не представляет собой речь (например, того, что классификация типов мультимедиа представляет собой музыку, речь поверх музыки или другое).[0063] At 306, the process 300 may determine whether to analyze the reverberation characteristics of the input audio signal. In some implementations, the process 300 may determine whether to analyze the reverberation characteristics based on the media type classification of the input audio signal determined at step 304. For example, in some implementations, the process 300 may determine that the reverberation characteristics should be analyzed ("Yes" at 306) in response to a determination that the media type classification of the input audio signal represents speech. On the other hand, in some implementations, the process 300 may determine that the reverberation characteristics should not be analyzed ("No" at 306) in response to a determination that the media type classification does not represent speech (e.g., that the media type classification represents music, speech over music, or other).

[0064] Если, на 306, процесс 300 определяет то, что характеристики реверберации не должны анализироваться («Нет» на 306), процесс 300 может завершаться на 314.[0064] If, at 306, process 300 determines that the reverberation characteristics are not to be analyzed (“No” at 306), process 300 may terminate at 314.

[0065] С другой стороны, если, на 306, процесс 300 определяет, что характеристики реверберации должны анализироваться («Да» на 306), процесс 300 может определять степень реверберации во входном аудиосигнале на 308.[0065] On the other hand, if, at 306, the process 300 determines that the reverberation characteristics are to be analyzed (“Yes” at 306), the process 300 may determine the amount of reverberation in the input audio signal at 308.

[0066] В некоторых реализациях, степень реверберации может вычисляться с использованием показателя RT60 и/или показателя DRR, ассоциированного с входным аудиосигналом.[0066] In some implementations, the amount of reverberation may be calculated using an RT60 metric and/or a DRR metric associated with the input audio signal.

[0067] В качестве дополнения или альтернативы, в некоторых реализациях, процесс 300 может определять степень реверберации во входном аудиосигнале на основе информации спектрограммы. Например, в некоторых реализациях, процесс 300 может определять степень реверберации на основе энергии на различных частотах модуляции входного аудиосигнала. В частности, поскольку нереверберирующая речь может иметь тенденцию иметь пик по частоте модуляции на относительно низкой частоте модуляции (например, 3 Гц, 4 Гц и т.д.), и поскольку реверберирующая речь может иметь тенденцию иметь существенную энергию на более высоких частотах модуляции (например, 10 Гц, 20 Гц, 50 Гц и т.д.), процесс 300 может определять степень реверберации во входном аудиосигнале на основе энергии входного аудиосигнала на относительно высоких частотах модуляции (например, выше 10 Гц выше 20 Гц и т.д.).[0067] Additionally or alternatively, in some implementations, the process 300 may determine the degree of reverberation in the input audio signal based on the spectrogram information. For example, in some implementations, the process 300 may determine the degree of reverberation based on the energy at various modulation frequencies of the input audio signal. In particular, since non-reverberant speech may tend to have a peak in modulation frequency at a relatively low modulation frequency (e.g., 3 Hz, 4 Hz, etc.), and since reverberant speech may tend to have significant energy at higher modulation frequencies (e.g., 10 Hz, 20 Hz, 50 Hz, etc.), the process 300 may determine the degree of reverberation in the input audio signal based on the energy of the input audio signal at relatively high modulation frequencies (e.g., above 10 Hz, above 20 Hz, etc.).

[0068] Следует отметить, что более подробные технологии для определения степени реверберации на основе информации спектрограммы показаны на фиг. 7 и описаны ниже с обращением к ней.[0068] It should be noted that more detailed techniques for determining the degree of reverberation based on spectrogram information are shown in Fig. 7 and described below with reference thereto.

[0069] На 310, процесс 300 может определять, следует ли выполнять дереверберацию для входного аудиосигнала. В некоторых реализациях процесс 300 может определять, следует ли выполнять дереверберацию, на основе степени реверберации, определенной на этапе 308. Например, в некоторых реализациях, процесс 300 может определять, что дереверберация должна выполняться («Да» на 310), в ответ на определение того, что степень реверберации превышает пороговое значение. В качестве другого примера, в некоторых реализациях, процесс 300 может определять то, что дереверберация не должна выполняться («Нет» на 310), в ответ на определение того, что степень реверберации ниже порогового значения.[0069] At 310, the process 300 may determine whether to perform dereverberation on the input audio signal. In some implementations, the process 300 may determine whether to perform dereverberation based on the degree of reverberation determined at step 308. For example, in some implementations, the process 300 may determine that dereverberation should be performed ("Yes" at 310) in response to determining that the degree of reverberation exceeds a threshold. As another example, in some implementations, the process 300 may determine that dereverberation should not be performed ("No" at 310) in response to determining that the degree of reverberation is below a threshold.

[0070] В некоторых реализациях, в качестве дополнения или альтернативы процесс 300 может определять, следует ли выполнять дереверберацию для входного аудиосигнала, на основе классификации типов мультимедиа предшествующего аудиосигнала. Предшествующий аудиосигнал может соответствовать кадру или части аудиосодержимого, которая предшествует входному аудиосигналу. Следует отметить, что кадр или часть аудиосодержимого может иметь любую подходящую длительность, к примеру, 10 миллисекунд, 20 миллисекунд и т.д.[0070] In some implementations, as an addition or alternative, the process 300 may determine whether to perform dereverberation for the input audio signal based on the classification of the media types of the preceding audio signal. The preceding audio signal may correspond to a frame or portion of the audio content that precedes the input audio signal. It should be noted that the frame or portion of the audio content may have any suitable duration, for example, 10 milliseconds, 20 milliseconds, etc.

[0071] В некоторых реализациях, процесс 300 может определять, следует ли выполнять дереверберацию для входного аудиосигнала, на основе классификации типов мультимедиа предшествующего аудиосигнала посредством регулирования классификации типов мультимедиа (например, как определено на этапе 304) на основе классификации предшествующего аудиосигнала. Например, в некоторых реализациях, классификация типов мультимедиа входного аудиосигнала может регулироваться на основе доверительного уровня классификации типов мультимедиа входного аудиосигнала и/или на основе доверительного уровня классификации типов мультимедиа предшествующего аудиосигнала. В качестве более конкретного примера, в случае, в котором классификация типов мультимедиа предшествующего аудиосигнала ассоциирована с относительно высоким доверительным уровнем (например, более 70%, более 80% и т.д.), и в котором классификация типов мультимедиа входного аудиосигнала ассоциирована с относительно низким доверительным уровнем (например, ниже 30%, ниже 20% и т.д.), классификация типов мультимедиа входного аудиосигнала может регулироваться или модифицироваться таким образом, что она представляет собой классификацию типов мультимедиа предшествующего аудиосигнала. Следует отметить, что регулирование классификации типов мультимедиа входного аудиосигнала может выполняться один или несколько раз. Например, классификация типов мультимедиа может регулироваться до анализа характеристик реверберации на этапе 306. В качестве другого примера, классификация типов мультимедиа может регулироваться после определения степени реверберации на этапе 308.[0071] In some implementations, process 300 may determine whether to perform dereverberation on an input audio signal based on the media type classification of a preceding audio signal by adjusting the media type classification (e.g., as determined in step 304) based on the classification of the preceding audio signal. For example, in some implementations, the media type classification of the input audio signal may be adjusted based on the confidence level of the media type classification of the input audio signal and/or based on the confidence level of the media type classification of the preceding audio signal. As a more specific example, in the case in which the classification of the media types of the preceding audio signal is associated with a relatively high confidence level (e.g., more than 70%, more than 80%, etc.), and in which the classification of the media types of the input audio signal is associated with a relatively low confidence level (e.g., less than 30%, less than 20%, etc.), the classification of the media types of the input audio signal can be adjusted or modified such that it represents the classification of the media types of the preceding audio signal. It should be noted that the adjustment of the classification of the media types of the input audio signal can be performed one or more times. For example, the classification of the media types can be adjusted before the analysis of the reverberation characteristics in step 306. As another example, the classification of the media types can be adjusted after the degree of reverberation is determined in step 308.

[0072] Если, на 310, процесс 300 определяет, что дереверберация не должна выполняться («Нет» на 310), процесс 300 может завершаться на 314.[0072] If, at 310, process 300 determines that derivation should not be performed (“No” at 310), process 300 may terminate at 314.

[0073] С другой стороны, если, на 310, процесс 300 определяет, что дереверберация должна выполняться («Да» на 310), процесс 300 может формировать выходной аудиосигнал посредством выполнения дереверберации для входного аудиосигнала. Например, в некоторых реализациях, дереверберация может выполняться на основе амплитудной модуляции входного аудиосигнала в различных полосах частот. В качестве более конкретного примера, дереверберация может выполняться с использованием технологий, описанных в патенте США №9,520,140, который настоящим полностью включён в данный документ путём ссылки. В качестве другого примера, в некоторых реализациях, дереверберация может выполняться посредством оценки дереверберированного сигнала с использованием глубокой нейронной сети, многоканального линейного фильтра и т.п. В качестве еще одного другого примера, в некоторых реализациях, дереверберация может выполняться посредством оценки отклика в помещении и выполнения операции обращенной свертки для входного аудиосигнала на основе отклика в помещении.[0073] On the other hand, if, at 310, the process 300 determines that dereverberation should be performed ("Yes" at 310), the process 300 can generate an output audio signal by performing dereverberation on the input audio signal. For example, in some implementations, dereverberation can be performed based on amplitude modulation of the input audio signal in different frequency bands. As a more specific example, dereverberation can be performed using the technologies described in U.S. Patent No. 9,520,140, which is hereby incorporated herein by reference in its entirety. As another example, in some implementations, dereverberation can be performed by estimating the dereverberated signal using a deep neural network, a multi-channel linear filter, and the like. As yet another example, in some implementations, dereverberation can be performed by estimating the room response and performing a deconvolution operation on the input audio signal based on the room response.

[0074] Процесс 300 затем может завершаться на 314.[0074] Process 300 may then terminate at 314.

[0075] Следует отметить, что после завершения на 314, выходной аудиосигнал может представляться, например, через динамики, наушники и т.д. В некоторых реализациях, в случаях, в которых дереверберация этапа 312 не выполнена (например, поскольку входной аудиосигнал классифицирован как музыка, речь поверх музыки или другое неречевое содержимое), выходной аудиосигнал может представлять собой исходный входной аудиосигнал. В качестве альтернативы, в некоторых реализациях, в случаях, в которых дереверберация этапа 312 не выполнена (например, поскольку входной аудиосигнал классифицирован как речь, речь поверх музыки или другое неречевое содержимое), к исходному входному аудиосигналу может применяться другая технология дереверберации, отличная от технологии, которая применяется на 312.[0075] It should be noted that after completion at 314, the output audio signal may be presented, for example, through speakers, headphones, etc. In some implementations, in cases in which the dereverberation of step 312 is not performed (for example, because the input audio signal is classified as music, speech over music, or other non-speech content), the output audio signal may be the original input audio signal. Alternatively, in some implementations, in cases in which the dereverberation of step 312 is not performed (for example, because the input audio signal is classified as speech, speech over music, or other non-speech content), a different dereverberation technology may be applied to the original input audio signal than the technology that is applied at 312.

[0076] В некоторых реализациях, в случаях, в которых дереверберация выполняется на этапе 312, выходной аудиосигнал может соответствовать дереверберированному входному аудиосигналу.[0076] In some implementations, in cases in which dereverberation is performed at step 312, the output audio signal may correspond to the dereverberated input audio signal.

[0077] В некоторых реализациях, тип мультимедиа входного аудиосигнала может классифицироваться на основе пространственного разделения компонентов входного аудиосигнала. Примерные компоненты включают в себя прямой компонент и рассеянный компонент, центральный канал и боковой канал и т.п. В некоторых реализациях, каждый пространственный компонент может классифицироваться как одно из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого. В некоторых реализациях, входной аудиосигнал может классифицироваться на основе комбинации классификации каждого из пространственных компонентов. В некоторых реализациях, два или более пространственных компонента могут идентифицироваться на основе повышающего микширования входного аудиосигнала. В некоторых реализациях, классификация типов мультимедиа входного аудиосигнала на основе пространственного разделения компонентов входного аудиосигнала может выполняться в ответ на определение того, что входной аудиосигнал представляет собой многоканальный аудиосигнал (например, стереоаудиосигнал, 5.1-аудиосигнал, 7.1-аудиосигнал и т.п.).[0077] In some implementations, the media type of the input audio signal may be classified based on the spatial separation of the components of the input audio signal. Exemplary components include a direct component and a diffuse component, a center channel and a side channel, and the like. In some implementations, each spatial component may be classified as one of: 1) speech; 2) music; 3) speech over music; or 4) other. In some implementations, the input audio signal may be classified based on a combination of the classification of each of the spatial components. In some implementations, two or more spatial components may be identified based on an upmix of the input audio signal. In some implementations, the classification of media types of the input audio signal based on the spatial separation of the components of the input audio signal may be performed in response to a determination that the input audio signal is a multi-channel audio signal (e.g., a stereo audio signal, a 5.1 audio signal, a 7.1 audio signal, and the like).

[0078] Фиг. 4 показывает пример процесса 400 для классификации типа мультимедиа входного аудиосигнала на основе пространственного разделения компонентов входного аудиосигнала в соответствии с некоторыми реализациями. Следует отметить, что этапы процесса 400 могут выполняться в различных порядках, не показанных на фиг. 4, и/или в некоторых реализациях, два или более этапов процесса 400 могут выполняться практически параллельно. В качестве дополнения или альтернативы, следует отметить, что в некоторых реализациях, один или более этапов процесса 400 могут быть пропущены.[0078] Fig. 4 shows an example of a process 400 for classifying the media type of an input audio signal based on the spatial separation of the components of the input audio signal in accordance with some implementations. It should be noted that the steps of the process 400 may be performed in various orders not shown in Fig. 4, and/or in some implementations, two or more steps of the process 400 may be performed substantially in parallel. In addition or alternatively, it should be noted that in some implementations, one or more steps of the process 400 may be omitted.

[0079] Процесс 400 может начинаться на 402 посредством приема входного аудиосигнала. В некоторых реализациях, входной аудиосигнал может включать в себя два или более аудиоканала.[0079] Process 400 may begin at 402 by receiving an input audio signal. In some implementations, the input audio signal may include two or more audio channels.

[0080] На 404, процесс 400 может выполнять повышающее микширование входного аудиосигнала для увеличения числа аудиоканалов, ассоциированных с входным аудиосигналом. Процесс 400 может использовать различные типы повышающего микширования . Например, в некоторых реализациях, процесс 400 может выполнять технологию повышающего микширования , такую как перемешивание левого/правого со средним/боковым каналами. В качестве другого примера, в некоторых реализациях процесс 400 может выполнять технологию повышающего микширования, которая преобразует стереоаудиоввод в многоканальное содержимое, такое как 5.1, 7.1 и т.п.[0080] At 404, process 400 may perform an upmix of the input audio signal to increase the number of audio channels associated with the input audio signal. Process 400 may use various types of upmixing. For example, in some implementations, process 400 may perform an upmixing technique such as mixing left/right with middle/side channels. As another example, in some implementations, process 400 may perform an upmixing technique that converts stereo audio input into multi-channel content, such as 5.1, 7.1, and the like.

[0081] В некоторых реализациях, входной аудиосигнал может разбиваться на прямой компонент и рассеянный компонент. Например, в некоторых реализациях, прямой компонент и рассеянный компонент могут идентифицироваться на основе межканальной когерентности. В качестве более конкретного примера, в некоторых реализациях, прямой компонент и рассеянный компонент могут идентифицироваться на основе матричного анализа когерентности.[0081] In some implementations, the input audio signal may be decomposed into a direct component and a diffuse component. For example, in some implementations, the direct component and the diffuse component may be identified based on inter-channel coherence. As a more specific example, in some implementations, the direct component and the diffuse component may be identified based on a coherence matrix analysis.

[0082] На 406, процесс 400 может получать боковой и центральный каналы из микшированных с повышением входных аудиосигналов. Например, в случае, в котором микшированный с повышением входной аудиосигнал соответствует перемешанным средним/боковым каналам, боковой канал может соответствовать перемешанному боковому каналу, и центральный канал может соответствовать перемешанному среднему каналу. В качестве другого примера, в случае, в котором микшированный с повышением входной аудиосигнал соответствует многоканальному повышающему микшированию (например, 5.1, 7.1 и т.д.), центральный канал может приниматься непосредственно из микшированного с повышением аудиосигнала, и боковой канал может получаться посредством понижающего микширования пары левого/правого каналов (например, левый/правый, левый объемного звучания/правый объемного звучания и т.д.).[0082] At 406, process 400 may obtain side and center channels from upmixed input audio signals. For example, in a case in which the upmixed input audio signal corresponds to mixed middle/side channels, the side channel may correspond to the mixed side channel, and the center channel may correspond to the mixed middle channel. As another example, in a case in which the upmixed input audio signal corresponds to a multi-channel upmix (e.g., 5.1, 7.1, etc.), the center channel may be received directly from the upmixed audio signal, and the side channel may be obtained by downmixing a left/right channel pair (e.g., left/right, left surround/right surround, etc.).

[0083] В случае, в котором входной аудиосигнал разбит на прямой компонент и рассеянный компонент, центральный канал может соответствовать прямому компоненту, и боковой канал может соответствовать рассеянному компоненту.[0083] In a case in which the input audio signal is split into a direct component and a diffuse component, the center channel may correspond to the direct component, and the side channel may correspond to the diffuse component.

[0084] На 408, процесс 400 может определять, превышает ли входная мощность бокового канала пороговое значение. Примеры пороговых значений могут составлять -65 дБ относительно полной шкалы (дБпш), -68 дБпш, -70 дБпш, -72 дБпш и т.п.[0084] At 408, process 400 may determine whether the side channel input power exceeds a threshold value. Examples of threshold values may be -65 dB relative to full scale (dBFS), -68 dBFS, -70 dBFS, -72 dBFS, etc.

[0085] Если на 408 определено, что входная мощность бокового канала не превышает пороговое значение («Нет» на 408), процесс 400 может переходить к этапу 412.[0085] If it is determined at 408 that the side channel input power does not exceed the threshold value (“No” at 408), the process 400 may proceed to step 412.

[0086] С другой стороны, если на 408 определено, что входная мощность бокового канала превышает пороговое значение («Да» на 408), процесс 400 может классифицировать боковой канал на 410 как одно из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого. В некоторых реализациях, классификация бокового канала может быть ассоциирована с доверительным уровнем. Примеры классификаторов, которые могут использоваться для классификации бокового канала, включают в себя метод k ближайших соседних узлов, суждения по аналогии, деревья решений, наивный байесовский подход и/или различные типы нейронных сетей (например, сверточную нейронную сеть (CNN) и т.п.).[0086] On the other hand, if at 408 it is determined that the input power of the side channel exceeds the threshold value (“Yes” at 408), the process 400 may classify the side channel at 410 as one of: 1) speech; 2) music; 3) speech over music; or 4) other. In some implementations, the classification of the side channel may be associated with a confidence level. Examples of classifiers that may be used to classify the side channel include the k-nearest neighbor method, analogical reasoning, decision trees, naive Bayes and/or various types of neural networks (e.g., a convolutional neural network (CNN), etc.).

[0087] На 412, процесс 400 может классифицировать центральный канал как одно из: 1) речи, 2) музыки; 3) речи поверх музыки; или 4) другого. В некоторых реализациях, классификация центрального канала может быть ассоциирована с доверительным уровнем. Примеры классификаторов, которые могут использоваться для классификации центрального канала, включают в себя метод k ближайших соседних узлов, суждения по аналогии, деревья решений, наивный байесовский подход и/или различные типы нейронных сетей (например, сверточную нейронную сеть (CNN) и т.п.).[0087] At 412, process 400 may classify the center channel as one of: 1) speech, 2) music; 3) speech over music; or 4) other. In some implementations, the classification of the center channel may be associated with a confidence level. Examples of classifiers that may be used to classify the center channel include the k-nearest neighbor method, analogical reasoning, decision trees, naive Bayes, and/or various types of neural networks (e.g., a convolutional neural network (CNN), etc.).

[0088] На 414, процесс 400 может классифицировать входной аудиосигнал как одно из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого, посредством комбинирования классификации бокового канала (если она существует) с классификацией центрального канала.[0088] At 414, process 400 may classify the input audio signal as one of: 1) speech; 2) music; 3) speech over music; or 4) other, by combining the side channel classification (if any) with the center channel classification.

[0089] Например, в некоторых реализациях, классификация бокового канала и классификация центрального канала могут комбинироваться с использованием алгоритма на основе слияния решений. Примеры алгоритмов на основе слияния решений, которые могут использоваться для комбинирования классификаций для каждого из двух или более компонентов, включают в себя байесовский анализ, алгоритм Демпстера-Шафера, нечетко-логические алгоритмы и т.п.[0089] For example, in some implementations, the side channel classification and the center channel classification may be combined using a decision fusion algorithm. Examples of decision fusion algorithms that may be used to combine classifications for each of two or more components include Bayesian analysis, the Dempster-Shafer algorithm, fuzzy logic algorithms, and the like.

[0090] В качестве другого примера, в некоторых реализациях, в ответ на классификацию бокового канала как музыки, речи поверх музыки или другого, входной аудиосигнал может классифицироваться как «не речь», независимо от классификации центрального канала. В качестве более конкретного примера, в случае, в котором центральный канал классифицируется как «речь», и в котором этом боковой канал классифицируется как «музыка», входной аудиосигнал может классифицироваться как речь поверх музыки.[0090] As another example, in some implementations, in response to the classification of the side channel as music, speech over music, or other, the input audio signal may be classified as "not speech," regardless of the classification of the center channel. As a more specific example, in a case in which the center channel is classified as "speech," and in which the side channel is classified as "music," the input audio signal may be classified as speech over music.

[0091] В качестве еще одного другого примера, в некоторых реализациях, классификация бокового канала и классификация центрального канала могут комбинироваться на основе доверительных уровней, ассоциированных с классификацией бокового канала и классификацией центрального канала, соответственно. В качестве более конкретного примера, в некоторых реализациях, классификация бокового канала и классификация центрального канала могут комбинироваться таким образом, что классификация пространственного компонента, ассоциированного с более высоким доверительным уровнем, взвешивается больше в комбинации. В качестве конкретного примера, в случае, в котором центральный канал классифицируется как «речь» с относительно высоким доверительным уровнем (например, более 70%, более 80% и т.д.), и в котором боковой канал классифицируется как «музыка», «речь поверх музыки» или «другое» с относительно низким доверительным уровнем (например, менее 30%, менее 20% и т.д.), входной аудиосигнал может классифицироваться как речь. В качестве другого конкретного примера, в случае, в котором центральный канал классифицируется как «речь» с относительно низким доверительным уровнем (например, менее 30%, менее 20% и т.д.), и в котором боковой канал классифицируется как «музыка», «речь поверх музыки» или «другое» с относительно высоким доверительным уровнем (например, более 70%, более 80% и т.д.), входной аудиосигнал может классифицироваться как «речь поверх музыки» или «другое».[0091] As yet another example, in some implementations, the side channel classification and the center channel classification may be combined based on confidence levels associated with the side channel classification and the center channel classification, respectively. As a more specific example, in some implementations, the side channel classification and the center channel classification may be combined in such a way that the classification of the spatial component associated with a higher confidence level is weighted more in the combination. As a specific example, in a case in which the center channel is classified as "speech" with a relatively high confidence level (e.g., more than 70%, more than 80%, etc.), and in which the side channel is classified as "music", "speech over music", or "other" with a relatively low confidence level (e.g., less than 30%, less than 20%, etc.), the input audio signal may be classified as speech. As another specific example, in a case in which the center channel is classified as "speech" with a relatively low confidence level (e.g., less than 30%, less than 20%, etc.), and in which the side channel is classified as "music", "speech over music", or "other" with a relatively high confidence level (e.g., greater than 70%, greater than 80%, etc.), the input audio signal may be classified as "speech over music" or "other".

[0092] Следует отметить, что в случае, в котором боковой канал не классифицирован (например, поскольку входная мощность бокового канала ниже порогового значения, как определено на этапе 408), классификация входного аудиосигнала может соответствовать классификации центрального канала.[0092] It should be noted that in the case in which the side channel is not classified (e.g., because the input power of the side channel is below the threshold, as determined in step 408), the classification of the input audio signal may correspond to the classification of the center channel.

[0093] В некоторых реализациях, входной аудиосигнал может классифицироваться на основе разделения источников музыки входного аудиосигнала на вокальный компонент и невокальный компонент. Вокальный компонент затем может классифицироваться как речь или не речь, и невокальный компонент может классифицироваться как музыка или не музыка. В некоторых реализациях, входной аудиосигнал затем может классифицироваться как одно из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого, на основе комбинации классификаций вокального компонента и невокального компонента. В некоторых реализациях, входной аудиосигнал может классифицироваться с использованием разделения источников музыки входного аудиосигнала в ответ на определение того, что входной аудиосигнал представляет собой моноканальный аудиосигнал. В качестве альтернативы, в некоторых реализациях, входной аудиосигнал может классифицироваться с использованием разделения источников музыки в дополнение к классификации входного аудиосигнала на основе пространственного разделения компонентов.[0093] In some implementations, the input audio signal may be classified based on the separation of music sources of the input audio signal into a vocal component and a non-vocal component. The vocal component may then be classified as speech or non-speech, and the non-vocal component may be classified as music or non-music. In some implementations, the input audio signal may then be classified as one of: 1) speech; 2) music; 3) speech over music; or 4) another, based on a combination of the classifications of the vocal component and the non-vocal component. In some implementations, the input audio signal may be classified using the separation of music sources of the input audio signal in response to a determination that the input audio signal is a monochannel audio signal. Alternatively, in some implementations, the input audio signal may be classified using the separation of music sources in addition to the classification of the input audio signal based on the spatial separation of the components.

[0094] Фиг. 5 показывает пример процесса 500 для классификации входного аудиосигнала на основе разделения источников музыки в соответствии с некоторыми реализациями. Следует отметить, что этапы процесса 500 могут выполняться в различных порядках, не показанных на фиг. 5, и/или в некоторых реализациях, два или более этапов процесса 500 могут выполняться практически параллельно. В качестве дополнения или альтернативы, следует отметить, что в некоторых реализациях, один или более этапов процесса 500 могут быть пропущены.[0094] Fig. 5 shows an example of a process 500 for classifying an input audio signal based on separation of music sources in accordance with some implementations. It should be noted that the steps of the process 500 may be performed in various orders not shown in Fig. 5, and/or in some implementations, two or more steps of the process 500 may be performed substantially in parallel. Additionally or alternatively, it should be noted that in some implementations, one or more steps of the process 500 may be omitted.

[0095] Процесс 500 может начинаться на 502 посредством приема входного аудиосигнала. В некоторых реализациях, входной аудиосигнал может представлять собой одноканальный аудиосигнал.[0095] Process 500 may begin at 502 by receiving an input audio signal. In some implementations, the input audio signal may be a single-channel audio signal.

[0096] На 504, процесс 500 может разделять входной аудиосигнал на вокальный компонент и невокальный компонент. В некоторых реализациях, вокальный компонент и невокальный компонент могут идентифицироваться с использованием одной или более обученных моделей машинного обучения. Примерные типы моделей машинного обучения, которые могут использоваться для разделения входного аудиосигнала на вокальный компонент и невокальный компонент, могут включать в себя глубокую нейронную сеть (DNN), сверточную нейронную сеть (CNN), сеть на основе долгого кратковременного запоминающего устройства (LSTM), сверточную рекуррентную нейронную сеть (CRNN), стробированную рекуррентную единицу (GRU), сверточную стробированную рекуррентную единицу (CGRU) и т.п.[0096] At 504, the process 500 may separate the input audio signal into a vocal component and a non-vocal component. In some implementations, the vocal component and the non-vocal component may be identified using one or more trained machine learning models. Exemplary types of machine learning models that may be used to separate the input audio signal into a vocal component and a non-vocal component may include a deep neural network (DNN), a convolutional neural network (CNN), a long short-term memory (LSTM)-based network, a convolutional recurrent neural network (CRNN), a gated recurrent unit (GRU), a convolutional gated recurrent unit (CGRU), and the like.

[0097] На 506, процесс 500 может классифицировать вокальный компонент как одно из: 1) речи; или 2) не речи. В некоторых реализациях, классификация вокального компонента может быть ассоциирована с доверительным уровнем. Примеры классификаторов, которые могут использоваться для классификации вокального компонента, включают в себя метод k ближайших соседних узлов, суждения по аналогии, деревья решений, наивный байесовский подход и/или различные типы нейронных сетей (например, сверточную нейронную сеть (CNN) и т.п.).[0097] At 506, process 500 may classify the vocal component as one of: 1) speech; or 2) not speech. In some implementations, the classification of the vocal component may be associated with a confidence level. Examples of classifiers that may be used to classify the vocal component include the k-nearest neighbor method, analogical reasoning, decision trees, naive Bayes, and/or various types of neural networks (e.g., a convolutional neural network (CNN), etc.).

[0098] На 508, процесс 500 может классифицировать невокальный компонент как одно из: 1) музыки; и 2) не музыки. В некоторых реализациях, классификация невокального компонента может быть ассоциирована с доверительным уровнем. Примеры классификаторов, которые могут использоваться для классификации невокального компонента, включают в себя метод k ближайших соседних узлов, суждения по аналогии, деревья решений, наивный байесовский подход и/или различные типы нейронных сетей (например, сверточную нейронную сеть (CNN) и т.п.).[0098] At 508, process 500 may classify the non-vocal component as one of: 1) music; and 2) not music. In some implementations, the classification of the non-vocal component may be associated with a confidence level. Examples of classifiers that may be used to classify the non-vocal component include the k-nearest neighbor method, analogical reasoning, decision trees, naive Bayes, and/or various types of neural networks (e.g., a convolutional neural network (CNN), etc.).

[0099] На 510, процесс 500 может классифицировать входной аудиосигнал как одно из: 1) речи; 2) музыки; 3) речи поверх музыки; или 4) другого, посредством комбинирования классификации вокального компонента и классификации невокального компонента. Например, в некоторых реализациях, классификация вокального компонента может комбинироваться с классификацией невокального компонента с использованием любого подходящего алгоритма(ов) на основе слияния решений, которые комбинируют классификации из двух классификаторов, чтобы формировать агрегированную классификацию входного аудиосигнала. Примеры алгоритмов на основе слияния решений, которые могут использоваться для комбинирования классификаций для каждого из двух или более компонентов, включают в себя байесовский подход, подход Демпстера-Шафера, нечетко-логические алгоритмы и т.п.[0099] At 510, the process 500 may classify the input audio signal as one of: 1) speech; 2) music; 3) speech over music; or 4) another, by combining the classification of the vocal component and the classification of the non-vocal component. For example, in some implementations, the classification of the vocal component may be combined with the classification of the non-vocal component using any suitable decision fusion algorithm(s) that combine classifications from two classifiers to form an aggregated classification of the input audio signal. Examples of decision fusion algorithms that may be used to combine classifications for each of two or more components include a Bayesian approach, a Dempster-Shafer approach, fuzzy logic algorithms, and the like.

[0100] В качестве другого примера, в некоторых реализациях, классификация вокального компонента может комбинироваться с классификацией невокального компонента на основе доверительных уровней классификации вокального компонента и классификации невокального компонента, соответственно. В качестве более конкретного примера, в некоторых реализациях, классификация вокального компонента и классификация невокального компонента могут комбинироваться таким образом, что компонент, ассоциированный с более высоким доверительным уровнем, взвешивается больше в комбинации.[0100] As another example, in some implementations, the classification of the vocal component may be combined with the classification of the non-vocal component based on the confidence levels of the classification of the vocal component and the classification of the non-vocal component, respectively. As a more specific example, in some implementations, the classification of the vocal component and the classification of the non-vocal component may be combined such that the component associated with a higher confidence level is weighted more in the combination.

[0101] В некоторых реализациях, величина реверберации, присутствующей во входном аудиосигнале, может определяться. В некоторых реализациях, величина реверберации может вычисляться с использованием DRR. Например, в некоторых реализациях, величина реверберации может быть обратно связана с DRR таким образом, что величина реверберации увеличивается при снижении значений DRR, и таким образом, что величина реверберации снижается при увеличении значений DRR. В некоторых реализациях, величина реверберации может вычисляться с использованием временной длительности, требуемой для снижения уровня звукового давления на фиксированную величину (например, 60 дБ). Например, величина реверберации может вычисляться с использованием RT60, который указывает время для снижения уровня звукового давления на 60 дБ. В некоторых реализациях, DRR или RT60, ассоциированный с входным аудиосигналом, может оцениваться с использованием различных алгоритмов или технологий, которые могут быть основаны на обработке сигналов и/или основаны на модели машинного обучения.[0101] In some implementations, the amount of reverberation present in the input audio signal may be determined. In some implementations, the amount of reverberation may be calculated using the DRR. For example, in some implementations, the amount of reverberation may be inversely related to the DRR such that the amount of reverberation increases as the DRR values decrease, and such that the amount of reverberation decreases as the DRR values increase. In some implementations, the amount of reverberation may be calculated using the time duration required to reduce the sound pressure level by a fixed amount (e.g., 60 dB). For example, the amount of reverberation may be calculated using RT60, which indicates the time for reducing the sound pressure level by 60 dB. In some implementations, the DRR or RT60 associated with the input audio signal may be estimated using various algorithms or technologies, which may be based on signal processing and/or based on a machine learning model.

[0102] В некоторых реализациях, величина реверберации во входном аудиосигнале может вычисляться посредством оценки рассеянности входного аудиосигнала. Фиг. 6 показывает пример процесса 600 для оценки рассеянности входного аудиосигнала в соответствии с некоторыми реализациями. Следует отметить, что этапы процесса 600 могут выполняться в различных порядках, не показанных на фиг. 6, и/или в некоторых реализациях, два или более этапов процесса 600 могут выполняться практически параллельно. В качестве дополнения или альтернативы, следует отметить, что в некоторых реализациях, один или более этапов процесса 600 могут быть пропущены.[0102] In some implementations, the amount of reverberation in the input audio signal may be calculated by estimating the diffuseness of the input audio signal. Fig. 6 shows an example of a process 600 for estimating the diffuseness of the input audio signal in accordance with some implementations. It should be noted that the steps of the process 600 may be performed in different orders not shown in Fig. 6, and/or in some implementations, two or more steps of the process 600 may be performed substantially in parallel. Additionally or alternatively, it should be noted that in some implementations, one or more steps of the process 600 may be omitted.

[0103] Следует отметить, что в некоторых реализациях величина реверберации может определяться на основе комбинации множества показателей. Множество показателей может включать в себя, например, DRR, RT60, оценку рассеянности и т.п. В некоторых реализациях, множество показателей может комбинироваться с использованием различных технологий, таких как среднее взвешенное. В некоторых реализациях, один или более показателей могут масштабироваться или нормализоваться.[0103] It should be noted that in some implementations, the amount of reverberation may be determined based on a combination of multiple metrics. The multiple metrics may include, for example, DRR, RT60, diffuseness rating, etc. In some implementations, the multiple metrics may be combined using various techniques, such as weighted averaging. In some implementations, one or more metrics may be scaled or normalized.

[0104] Процесс 600 может начинаться на 602 посредством приема входного аудиосигнала.[0104] Process 600 may begin at 602 by receiving an input audio signal.

[0105] На 604, процесс 600 может вычислять двумерный спектр акустических частот модуляции входного аудиосигнала. Двумерный спектр акустических частот модуляции может указывать энергию, присутствующую во входном аудиосигнале, в качестве функции от акустической частоты и частоты модуляции.[0105] At 604, process 600 may calculate a two-dimensional spectrum of acoustic modulation frequencies of the input audio signal. The two-dimensional spectrum of acoustic modulation frequencies may indicate the energy present in the input audio signal as a function of the acoustic frequency and the modulation frequency.

[0106] На 606, процесс 600 может определять степень рассеянности входного аудиосигнала на основе энергии в части высоких частот модуляции (например, для частот модуляции больше 6 Гц, больше 10 Гц и т.д.) из двумерного спектра акустических частот модуляции. Например, в некоторых реализациях, процесс 600 может вычислять отношение энергии в части высоких частот модуляции к энергии по всем частотам модуляции. В качестве другого примера, в некоторых реализациях, процесс 600 может вычислять отношение энергии в части высоких частот модуляции к энергии в части низких частот модуляции (например, для частот модуляции ниже 10 Гц, ниже 20 Гц и т.д.)[0106] At 606, the process 600 may determine the degree of dispersion of the input audio signal based on the energy in the high modulation frequency portion (e.g., for modulation frequencies greater than 6 Hz, greater than 10 Hz, etc.) of the two-dimensional spectrum of acoustic modulation frequencies. For example, in some implementations, the process 600 may calculate the ratio of the energy in the high modulation frequency portion to the energy across all modulation frequencies. As another example, in some implementations, the process 600 may calculate the ratio of the energy in the high modulation frequency portion to the energy in the low modulation frequency portion (e.g., for modulation frequencies below 10 Hz, below 20 Hz, etc.)

[0107] Фиг. 7A, 7B, 7C и 7D показывают примеры двумерных спектров акустических частот модуляции для различных типов входных речевых сигналов. Как проиллюстрировано, каждая двумерная акустическая частота модуляции показывает энергию, присутствующую во входном сигнале, в качестве функции от акустической частоты (как указано на оси Y каждого спектра, показанного на фиг. 7A, 7B, 7C и 7D) и от частоты модуляции (как указано на оси X каждого спектра, показанного на фиг. 7A, 7B, 7C и 7D).[0107] Figs. 7A, 7B, 7C and 7D show examples of two-dimensional acoustic modulation frequency spectra for different types of input speech signals. As illustrated, each two-dimensional acoustic modulation frequency shows the energy present in the input signal as a function of the acoustic frequency (as indicated on the Y-axis of each spectrum shown in Figs. 7A, 7B, 7C and 7D) and the modulation frequency (as indicated on the X-axis of each spectrum shown in Figs. 7A, 7B, 7C and 7D).

[0108] Как показано на фиг. 7A, «чистая» речь, которая имеет небольшую или нулевую реверберацию, может иметь двумерный спектр акустических частот модуляции, в котором большая часть энергии концентрируется на относительно низких частотах модуляции (например, меньше 5 Гц, меньше 10 Гц и т.д.).[0108] As shown in Fig. 7A, “clean” speech, which has little or no reverberation, may have a two-dimensional spectrum of acoustic modulation frequencies in which most of the energy is concentrated at relatively low modulation frequencies (e.g., less than 5 Hz, less than 10 Hz, etc.).

[0109] Как показано на фиг. 7B, входной сигнал, который включает в себя как чистую речь, так и ранние и поздние отражения с реверберацией, может иметь двумерный спектр акустических частот модуляции, в котором энергия разбрасывается по всем частотам модуляции.[0109] As shown in Fig. 7B, an input signal that includes both clean speech and early and late reflections with reverberation may have a two-dimensional spectrum of acoustic modulation frequencies in which the energy is spread across all modulation frequencies.

[0110] Как показано на фиг. 7C, входной сигнал, который включает в себя как чистую речь, так и ранние отражения с реверберацией, может иметь двумерный спектр акустических частот модуляции, в котором энергия, в общем, концентрируется на относительно низких частотах модуляции (например, меньше 5 Гц, меньше 10 Гц). Другими словами, двумерная акустическая частота модуляции для входного сигнала, который включает в себя чистую речь и ранние отражения с реверберацией (но без поздних отражений с реверберацией), может быть практически аналогичной двумерному спектру акустических частот модуляции только чистой речи.[0110] As shown in Fig. 7C, an input signal that includes both clean speech and early reflections with reverberation may have a two-dimensional acoustic modulation frequency spectrum in which the energy is generally concentrated at relatively low modulation frequencies (e.g., less than 5 Hz, less than 10 Hz). In other words, the two-dimensional acoustic modulation frequency spectrum for an input signal that includes clean speech and early reflections with reverberation (but without late reflections with reverberation) may be substantially similar to the two-dimensional acoustic modulation frequency spectrum of only clean speech.

[0111] Как показано на фиг. 7D, входной сигнал, который включает в себя поздние реверберирующие отражения без чистой речи или ранних реверберирующих отражений, может иметь двумерный спектр акустических частот модуляции, в котором энергия разбрасывается по всем частотам модуляции.[0111] As shown in Fig. 7D, an input signal that includes late reverberant reflections without clean speech or early reverberant reflections may have a two-dimensional spectrum of acoustic modulation frequencies in which the energy is spread across all modulation frequencies.

[0112] Соответственно, как проиллюстрировано фиг. 7A, 7B, 7C и 7D, оценка рассеянности может вычисляться на основе отношения между величиной энергии на относительно высоких частотах модуляции и полной энергией либо на основе относительного отношения между энергией на относительно высоких частотах модуляции и энергией на относительно низких частотах модуляции.[0112] Accordingly, as illustrated in Figs. 7A, 7B, 7C and 7D, the diffuseness estimate may be calculated based on the ratio between the amount of energy at relatively high modulation frequencies and the total energy, or based on the relative ratio between the energy at relatively high modulation frequencies and the energy at relatively low modulation frequencies.

[0113] Фиг. 8 является блок-схемой, которая показывает примеры компонентов устройства, способного к реализации различных аспектов данного изобретения. Аналогично другим чертежам, приведённым в данном документе, типы и количества элементов, показанные на фиг. 8, приведены лишь в качестве примера. Другие реализации могут включать в себя большее число, меньшее число и/или другие типы и числа элементов. Согласно некоторым примерам, устройство 800 может быть выполнено с возможностью осуществления по меньшей мере некоторых способов, раскрытых в данном документе. В некоторых реализациях, устройство 800 может представлять собой либо включать в себя телевизионный приемник, один или более компонентов аудиосистемы, мобильное устройство (такое как сотовый телефон), переносной компьютер, планшетное устройство, интеллектуальный динамик или другой тип устройства.[0113] Fig. 8 is a block diagram that shows examples of components of a device capable of implementing various aspects of the present invention. Like other drawings provided herein, the types and numbers of elements shown in Fig. 8 are given by way of example only. Other implementations may include a greater number, a lesser number, and/or different types and numbers of elements. According to some examples, device 800 may be configured to implement at least some of the methods disclosed herein. In some implementations, device 800 may be or include a television receiver, one or more components of an audio system, a mobile device (such as a cellular phone), a laptop computer, a tablet device, a smart speaker, or another type of device.

[0114] Согласно некоторым альтернативным реализациям, устройство 800 может представлять собой либо включать в себя сервер. В некоторых таких примерах, устройство 800 может представлять собой либо включать в себя кодер. Соответственно, в некоторых случаях устройство 800 может представлять собой устройство, которое выполнено с возможностью использования в аудиоокружении, к примеру, в домашнем аудиоокружении, тогда как в других случаях устройство 800 может представлять собой устройство, которое выполнено с возможностью использования в «облаке», например, на сервере.[0114] According to some alternative implementations, the device 800 may be or include a server. In some such examples, the device 800 may be or include an encoder. Accordingly, in some cases, the device 800 may be a device that is configured to be used in an audio environment, such as a home audio environment, while in other cases, the device 800 may be a device that is configured to be used in the "cloud," such as on a server.

[0115] В этом примере, устройство 800 включает в себя интерфейсную систему 805 и систему 810 управления. Интерфейсная система 805, в некоторых реализациях, может быть выполнена с возможностью связи с одним или более других устройств аудиоокружения. Аудиоокружение может, в некоторых примерах, представлять собой домашнее аудиоокружение. В других примерах, аудиоокружение может представлять собой другой тип окружения, к примеру, офисное окружение, автомобильное окружение, окружение в поезде, окружение на улице или на тротуаре, окружение в парке и т.д. Интерфейсная система 805, в некоторых реализациях, может быть выполнена с возможностью обмена управляющей информацией и ассоциированными данными с аудиоустройствами аудиоокружения. Управляющая информация и ассоциированные данные, в некоторых примерах, могут быть связаны с одним или более программных приложений, которые выполняет устройство 800.[0115] In this example, device 800 includes an interface system 805 and a control system 810. Interface system 805, in some implementations, may be configured to communicate with one or more other devices of the audio environment. The audio environment may, in some examples, be a home audio environment. In other examples, the audio environment may be another type of environment, for example, an office environment, an automobile environment, an environment on a train, an environment on a street or on a sidewalk, an environment in a park, etc. Interface system 805, in some implementations, may be configured to exchange control information and associated data with audio devices of the audio environment. The control information and associated data, in some examples, may be associated with one or more software applications that device 800 executes.

[0116] Интерфейсная система 805, в некоторых реализациях, может быть выполнена с возможностью приема или обеспечения потока содержимого. Поток содержимого может включать в себя аудиоданные. Аудиоданные могут включать в себя, не ограничиваясь, аудиосигналы. В некоторых случаях, аудиоданные могут включать в себя пространственные данные, к примеру, данные каналов и/или пространственные метаданные. В некоторых примерах, поток содержимого может включать в себя видеоданные и аудиоданные, соответствующие видеоданным.[0116] Interface system 805, in some implementations, may be configured to receive or provide a content stream. The content stream may include audio data. The audio data may include, but is not limited to, audio signals. In some cases, the audio data may include spatial data, such as channel data and/or spatial metadata. In some examples, the content stream may include video data and audio data corresponding to the video data.

[0117] Интерфейсная система 805 может включать в себя один или более сетевых интерфейсов и/или один или более интерфейсов внешних устройств (к примеру, один или более интерфейсов универсальной последовательной шины (USB)). Согласно некоторым реализациям, интерфейсная система 805 может включать в себя один или более беспроводных интерфейсов. Интерфейсная система 805 может включать в себя одно или более устройств для реализации пользовательского интерфейса, к примеру, один или более микрофонов, один или более динамиков, систему отображения, систему датчиков касания и/или систему датчиков жестов. В некоторых примерах, интерфейсная система 805 может включать в себя один или более интерфейсов между системой 810 управления и системой памяти, такой как факультативная система 815 памяти, показанная на фиг. 8. Тем не менее, в некоторых случаях система 810 управления может включать в себя систему памяти. Интерфейсная система 805, в некоторых реализациях, может быть выполнена с возможностью приема ввода из одного или более микрофонов в окружении.[0117] The interface system 805 may include one or more network interfaces and/or one or more external device interfaces (for example, one or more universal serial bus (USB) interfaces). According to some implementations, the interface system 805 may include one or more wireless interfaces. The interface system 805 may include one or more devices for implementing a user interface, for example, one or more microphones, one or more speakers, a display system, a touch sensor system, and/or a gesture sensor system. In some examples, the interface system 805 may include one or more interfaces between the control system 810 and a memory system, such as the optional memory system 815 shown in Fig. 8. However, in some cases, the control system 810 may include a memory system. The interface system 805, in some implementations, may be configured to receive input from one or more microphones in the environment.

[0118] Система 810 управления, например, может включать в себя одно- или многомикросхемный процессор общего назначения, процессор цифровых сигналов (DSP), специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, дискретный логический элемент или транзисторную логику и/или дискретные аппаратные компоненты.[0118] The control system 810, for example, may include a single- or multi-chip general-purpose processor, a digital signal processor (DSP), an application-specific integrated circuit (ASIC), a field-programmable gate array (FPGA) or other programmable logic device, a discrete logic element or transistor logic, and/or discrete hardware components.

[0119] В некоторых реализациях, система 810 управления может постоянно размещаться более чем в одном устройстве. Например, в некоторых реализациях часть системы 810 управления может постоянно размещаться в устройстве в одном из окружений, проиллюстрированных в данном документе, и другая часть системы 810 управления может постоянно размещаться в устройстве, которое находится за пределами окружения, таком как сервер, мобильное устройство (например, смартфон или планшетный компьютер) и т.д. В других примерах, часть системы 810 управления может постоянно размещаться в устройстве в одном окружении, и другая часть системы 810 управления может постоянно размещаться в одном или более других устройств окружения. Например, функциональность системы управления может распределяться по нескольким интеллектуальным аудиоустройствам окружения либо может совместно использоваться посредством устройства оркестровки (к примеру, которое может называться в данном документе «концентратором интеллектуального дома») и одного или более других устройств окружения. В других примерах, часть системы 810 управления может постоянно размещаться в устройстве, которое реализует облачную услугу, таком как сервер, и другая часть системы 810 управления может постоянно размещаться в другом устройстве, которое реализует облачную услугу, таком как другой сервер, запоминающее устройство и т.д. Интерфейсная система 805, в некоторых примерах, также может постоянно размещаться более чем в одном устройстве.[0119] In some implementations, the control system 810 may reside in more than one device. For example, in some implementations, a portion of the control system 810 may reside in a device in one of the environments illustrated herein, and another portion of the control system 810 may reside in a device that is outside the environment, such as a server, a mobile device (e.g., a smartphone or tablet computer), etc. In other examples, a portion of the control system 810 may reside in a device in one environment, and another portion of the control system 810 may reside in one or more other devices in the environment. For example, the functionality of the control system may be distributed across multiple smart audio devices in the environment, or may be shared through an orchestration device (e.g., which may be referred to herein as a "smart home hub") and one or more other devices in the environment. In other examples, a portion of the control system 810 may reside in a device that implements a cloud service, such as a server, and another portion of the control system 810 may reside in another device that implements a cloud service, such as another server, a storage device, etc. The interface system 805, in some examples, may also reside in more than one device.

[0120] В некоторых реализациях, система 810 управления может быть выполнена с возможностью осуществления по меньшей мере частично способов, раскрытых в данном документе. Согласно некоторым примерам, система 810 управления может быть выполнена с возможностью реализации способов дереверберации на основе классификации типов мультимедиа.[0120] In some implementations, the control system 810 may be configured to implement at least some of the methods disclosed herein. According to some examples, the control system 810 may be configured to implement de-riverberation methods based on a classification of media types.

[0121] Некоторые или все из способов, описанных в данном документе, могут осуществляться посредством одного или более устройств согласно инструкциям (например, программному обеспечению), сохраненным на одном или более постоянных носителях. Такие постоянные носители могут включать в себя запоминающие устройства, такие как запоминающие устройства, описанные в данном документе, в том числе, не ограничиваясь, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM) и т.д. Один или более постоянных носителей, например, могут постоянно размещаться в факультативной системе 815 памяти, показанной на фиг. 8, и/или в системе 810 управления. Соответственно, различные инновационные аспекты объекта изобретения, описанного в данном описании, могут быть реализованы в виде одного или более постоянных носителей, имеющих сохраненное программное обеспечение. Программное обеспечение, например, может включать в себя инструкции для управления по меньшей мере одним устройством таким образом, чтобы классифицировать тип мультимедиа для аудиосодержимого, определять степень реверберации, определять, должна ли выполняться дереверберация, выполнять дереверберацию для аудиосигнала и т.д. Программное обеспечение, например, может выполняться посредством одного или более компонентов системы управления, к примеру, системы 810 управления по фиг. 8.[0121] Some or all of the methods described herein may be performed by one or more devices according to instructions (e.g., software) stored on one or more persistent media. Such persistent media may include storage devices, such as the storage devices described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. The one or more persistent media, for example, may reside in the optional memory system 815 shown in Fig. 8 and/or in the control system 810. Accordingly, various innovative aspects of the subject matter described herein may be implemented as one or more persistent media having stored software. The software may, for example, include instructions for controlling at least one device to classify the media type of audio content, determine the degree of reverberation, determine whether dereverberation should be performed, perform dereverberation for the audio signal, etc. The software may, for example, be executed by one or more components of a control system, such as the control system 810 of Fig. 8.

[0122] В некоторых примерах, устройство 800 может включать в себя факультативную систему 820 микрофонов, показанную на фиг. 8. Факультативная система 820 микрофонов может включать в себя один или более микрофонов. В некоторых реализациях, один или более микрофонов могут представлять собой часть или ассоциироваться с другим устройством, таким как динамик системы динамиков, интеллектуальное аудиоустройство и т.д. В некоторых примерах, устройство 800 может не включать в себя систему 820 микрофонов. Тем не менее, в некоторых таких реализациях, устройство 800, тем не менее, может быть выполнено с возможностью приёма данных микрофонов для одного или более микрофонов в аудиоокружении через интерфейсную систему 810. В некоторых таких реализациях, облачная реализация устройства 800 может быть выполнена с возможностью приёма данных микрофонов или шумового показателя, по меньшей мере частично соответствующего данным микрофонов, от одного или более микрофонов в аудиоокружении через интерфейсную систему 810.[0122] In some examples, device 800 may include an optional microphone system 820, shown in Fig. 8. The optional microphone system 820 may include one or more microphones. In some implementations, the one or more microphones may be part of or associated with another device, such as a speaker system speaker, a smart audio device, etc. In some examples, device 800 may not include microphone system 820. However, in some such implementations, device 800 may nonetheless be configured to receive microphone data for one or more microphones in the audio environment via interface system 810. In some such implementations, a cloud implementation of device 800 may be configured to receive microphone data or a noise metric at least partially corresponding to the microphone data from one or more microphones in the audio environment via interface system 810.

[0123] Согласно некоторым реализациям, устройство 800 может включать в себя факультативную систему 825 громкоговорителей, показанную на фиг. 8. Факультативная система 825 громкоговорителей может включать в себя один или более громкоговорителей, которые также могут называться в данном документе «динамиками» либо, в обобщённом виде, «преобразователями для воспроизведения аудио». В некоторых примерах (например, в облачных реализациях), устройство 800 может не включать в себя систему 825 громкоговорителей. В некоторых реализациях, устройство 800 может включать в себя наушники. Наушники могут быть соединены или связаны с устройством 800 через гнездо для наушников или через беспроводное соединение (например, Bluetooth).[0123] According to some implementations, the device 800 may include an optional speaker system 825, as shown in Fig. 8. The optional speaker system 825 may include one or more speakers, which may also be referred to herein as "speakers" or, in general, as "audio playback transducers." In some examples (e.g., in cloud implementations), the device 800 may not include the speaker system 825. In some implementations, the device 800 may include headphones. The headphones may be connected or linked to the device 800 via a headphone jack or via a wireless connection (e.g., Bluetooth).

[0124] В некоторых реализациях устройство 800 может включать в себя факультативную систему 830 датчиков, показанную на фиг. 8. Факультативная система 830 датчиков может включать в себя один или более датчиков касания, датчиков жестов, детекторов движения и т.д. Согласно некоторым реализациям, факультативная система 830 датчиков может включать в себя одну или более камер. В некоторых реализациях, камеры могут представлять собой отдельно стоящие камеры. В некоторых примерах, одна или более камер факультативной системы 830 датчиков могут постоянно размещаться в аудиоустройстве, которое может представлять собой одноцелевое аудиоустройство или виртуальный помощник. В некоторых таких примерах, одна или более камер факультативной системы 830 датчиков могут постоянно размещаться в телевизионном приемнике, мобильном телефоне или интеллектуальном динамике. В некоторых примерах, устройство 800 может не включать в себя систему 830 датчиков. Тем не менее, в некоторых таких реализациях, устройство 800 может быть вс1 же выполнено с возможностью приёма данных датчиков для одного или более датчиков в аудиоокружении через интерфейсную систему 810.[0124] In some implementations, device 800 may include an optional sensor system 830, shown in Fig. 8. The optional sensor system 830 may include one or more touch sensors, gesture sensors, motion detectors, etc. According to some implementations, the optional sensor system 830 may include one or more cameras. In some implementations, the cameras may be stand-alone cameras. In some examples, one or more cameras of the optional sensor system 830 may reside in an audio device, which may be a single-purpose audio device or a virtual assistant. In some such examples, one or more cameras of the optional sensor system 830 may reside in a television receiver, a mobile phone, or a smart speaker. In some examples, device 800 may not include the sensor system 830. However, in some such implementations, the device 800 may still be configured to receive sensor data for one or more sensors in the audio environment via the interface system 810.

[0125] В некоторых реализациях, устройство 800 может включать в себя факультативную систему 835 отображения, показанную на фиг. 8. Факультативная система 835 отображения может включать в себя один или более дисплеев, к примеру, один или более дисплеев на светоизлучающих диодах (светодиодах). В некоторых случаях, факультативная система 835 отображения может включать в себя один или более дисплеев на органических светодиодах (OLED). В некоторых примерах, факультативная система 835 отображения может включать в себя один или более дисплеев телевизионного приемника. В других примерах, факультативная система 835 отображения может включать в себя дисплей переносного компьютера, дисплей мобильного устройства или другой тип дисплея. В некоторых примерах, в которых устройство 800 включает в себя систему 835 отображения, система 830 датчиков может включать в себя систему датчиков касания и/или систему датчиков жестов близко к одному или более дисплеев системы 835 отображения. Согласно некоторым таким реализациям, система 810 управления может быть выполнена с возможностью управления системой 835 отображения таким образом, чтобы представлять один или более графических пользовательских интерфейсов (GUI).[0125] In some implementations, device 800 may include an optional display system 835, shown in Fig. 8. Optional display system 835 may include one or more displays, such as one or more light-emitting diode (LED) displays. In some cases, optional display system 835 may include one or more organic light-emitting diode (OLED) displays. In some examples, optional display system 835 may include one or more television receiver displays. In other examples, optional display system 835 may include a laptop display, a mobile device display, or another type of display. In some examples in which device 800 includes display system 835, sensor system 830 may include a touch sensor system and/or a gesture sensor system close to one or more displays of display system 835. According to some such implementations, the control system 810 may be configured to control the display system 835 so as to present one or more graphical user interfaces (GUIs).

[0126] Согласно некоторым таким примерам, устройство 800 может представлять собой или включать в себя интеллектуальное аудиоустройство. В некоторых таких реализациях, устройство 800 может представлять собой или включать в себя детектор слов активации. Например, устройство 800 может представлять собой или включать в себя виртуальный помощник.[0126] According to some such examples, device 800 may be or include an intelligent audio device. In some such implementations, device 800 may be or include a wake word detector. For example, device 800 may be or include a virtual assistant.

[0127] Некоторые аспекты настоящего изобретения включают в себя систему или устройство, выполненное (например, запрограммированное) с возможностью выполнения одного или более примеров раскрытых способов, и материальный машиночитаемый носитель (например, диск), который сохраняет код для реализации одного или более примеров раскрытых способов либо их этапов. Например, некоторые раскрытые системы могут представлять собой или включать в себя программируемый процессор общего назначения, процессор цифровых сигналов или микропроцессор, запрограммированный посредством программного обеспечения или микропрограммного обеспечения и/или иным способом конфигурированный с возможностью выполнения любых из множества операций в отношении данных, в том числе и вариант осуществления раскрытых способов либо их этапов. Такой процессор общего назначения может представлять собой или включать в себя компьютерную систему, включающую в себя устройство ввода, запоминающее устройство и подсистему обработки, которая запрограммирована (и/или иным способом выполнена) с возможностью выполнения одного или более примеров раскрытых способов (либо их этапов) в ответ на данные, вводимые в нее.[0127] Some aspects of the present invention include a system or device configured (e.g., programmed) to perform one or more examples of the disclosed methods, and a tangible computer-readable medium (e.g., a disk) that stores code for implementing one or more examples of the disclosed methods or steps thereof. For example, some disclosed systems may be or include a programmable general-purpose processor, digital signal processor, or microprocessor programmed by software or firmware and/or otherwise configured to perform any of a variety of operations on data, including an embodiment of the disclosed methods or steps thereof. Such a general-purpose processor may be or include a computer system including an input device, a memory device, and a processing subsystem that is programmed (and/or otherwise configured) to perform one or more examples of the disclosed methods (or steps thereof) in response to data input thereto.

[0128] Некоторые варианты осуществления могут быть реализованы в виде конфигурируемого (например, программируемого) процессора цифровых сигналов (DSP), который конфигурирован (например, запрограммирован или иным образом выполнен) с возможностью выполнения требуемой обработки для аудиосигнала(ов), что включает в себя и выполнение одного или более примеров раскрытых способов. В качестве альтернативы, варианты осуществления раскрытых систем (либо их элементов) могут реализовываться как процессор общего назначения (например, как персональный компьютер (PC) или другая компьютерная система или микропроцессор, который может включать в себя устройство ввода и запоминающее устройство), который запрограммирован посредством программного обеспечения или микропрограммного обеспечения и/или иным способом конфигурирован с возможностью выполнения любых из множества операций, в том числе и одного или более примеров раскрытых способов. В качестве альтернативы, элементы некоторых вариантов осуществления системы согласно изобретению реализованы в виде процессора общего назначения или DSP, конфигурированного (например, запрограммированного) с возможностью выполнения одного или более примеров раскрытых способов, и система также включает в себя другие элементы (например, один или более громкоговорителей и/или один или более микрофонов). Процессор общего назначения, конфигурированный с возможностью выполнения одного или более примеров раскрытых способов, может быть соединён с устройством ввода (например, мышью и/или клавиатурой), запоминающим устройством и устройством отображения.[0128] Some embodiments may be implemented as a configurable (e.g., programmable) digital signal processor (DSP) that is configured (e.g., programmed or otherwise configured) to perform the desired processing for the audio signal(s), which includes performing one or more examples of the disclosed methods. Alternatively, embodiments of the disclosed systems (or elements thereof) may be implemented as a general-purpose processor (e.g., a personal computer (PC) or other computer system or microprocessor that may include an input device and a memory device), which is programmed via software or firmware and/or otherwise configured to perform any of a variety of operations, including one or more examples of the disclosed methods. Alternatively, elements of some embodiments of the system according to the invention are implemented as a general-purpose processor or DSP configured (e.g., programmed) to perform one or more examples of the disclosed methods, and the system also includes other elements (e.g., one or more speakers and/or one or more microphones). A general-purpose processor configured to perform one or more examples of the disclosed methods may be connected to an input device (e.g., a mouse and/or keyboard), a memory device, and a display device.

[0129] Другой аспект настоящего изобретения представляет собой машиночитаемый носитель (например, диск или другой материальный носитель хранения данных), который сохраняет код для выполнения (например, код, исполняемый с возможностью выполнения) одного или более примеров раскрытых способов либо их этапов.[0129] Another aspect of the present invention is a computer-readable medium (e.g., a disk or other tangible storage medium) that stores code for performing (e.g., code executable with the ability to execute) one or more examples of the disclosed methods or steps thereof.

[0130] При том, что в данном документе описаны конкретные варианты осуществления настоящего изобретения и варианты применения изобретения , специалистам в данной области техники должно быть очевидным, что возможно множество изменений вариантов осуществления и вариантов применения, описанных в данном документе, без выхода за рамки объема изобретения, описанного и заявленного в данном документе. Следует понимать, что при том, что показаны и описаны определенные формы изобретения, изобретение не должно ограничиваться конкретными описанными и показанными вариантами осуществления либо конкретными описанными способами.[0130] While particular embodiments of the present invention and applications of the invention have been described herein, it will be apparent to those skilled in the art that many changes to the embodiments and applications described herein are possible without departing from the scope of the invention described and claimed herein. It should be understood that while particular forms of the invention have been shown and described, the invention should not be limited to the particular embodiments described and shown or the particular methods described.

[0131] Различные аспекты настоящего изобретения могут быть определены из следующих пронумерованных примерных вариантов осуществления (EEE):[0131] Various aspects of the present invention can be determined from the following numbered exemplary embodiments (EEE):

EEE1. Способ подавления реверберации, содержащий:EEE1. A method for suppressing reverberation, comprising:

- прием входного аудиосигнала;- receiving input audio signal;

- классификацию типа мультимедиа входного аудиосигнала как одного из группы, содержащей, по меньшей мере: 1) речь; 2) музыку; или 3) речь поверх музыки;- classifying the media type of the input audio signal as one of a group comprising at least: 1) speech; 2) music; or 3) speech over music;

- определение того, следует ли выполнять дереверберацию для входного аудиосигнала по меньшей мере на основе определения того, что тип мультимедиа входного аудиосигнала классифицирован как речь; и- determining whether to perform dereverberation on the input audio signal based at least on the determination that the media type of the input audio signal is classified as speech; and

- в ответ на определение того, что дереверберация должна выполняться для входного аудиосигнала, формирование выходного аудиосигнала посредством выполнения дереверберации для входного аудиосигнала.- in response to determining that dereverberation is to be performed on the input audio signal, generating an output audio signal by performing dereverberation on the input audio signal.

EEE2. Способ по EEE 1, дополнительно содержащий определение степени реверберации во входном аудиосигнале, при этом определение того, следует ли выполнять дереверберацию для входного аудиосигнала, основано на степени реверберации.EEE2. The method of EEE 1, further comprising determining a degree of reverberation in the input audio signal, wherein the determination of whether to perform reverberation on the input audio signal is based on the degree of reverberation.

EEE3. Способ по EEE 2, в котором степень реверберации основана на времени реверберации (RT60), отношении уровней громкости прямого и реверберирующего звука (DRR), оценке рассеянности или любом их сочетании.EEE3. The method according to EEE 2, in which the degree of reverberation is based on the reverberation time (RT60), the direct to reverberant loudness ratio (DRR), a diffuseness rating, or any combination thereof.

EEE4. Способ по EEE 3, в котором определение степени реверберации содержит:EEE4. The method according to EEE 3, wherein determining the degree of reverberation comprises:

- вычисление двумерного спектра акустических частот модуляции входного аудиосигнала, при этом степень реверберации основана на величине энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции.- calculation of a two-dimensional spectrum of acoustic modulation frequencies of the input audio signal, where the degree of reverberation is based on the amount of energy in the high-frequency part of the modulation from the two-dimensional spectrum of acoustic modulation frequencies.

EEE5. Способ по EEE 4, в котором определение степени реверберации содержит вычисление по меньшей мере одного из: 1) отношения энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции к энергии по всем частотам модуляции в двумерном спектре акустических частот модуляции; или 2) отношения энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции к энергии в части низких частот модуляции из двумерного спектра акустических частот модуляции.EEE5. The method according to EEE 4, in which determining the degree of reverberation comprises calculating at least one of: 1) the ratio of the energy in the high-frequency portion of the modulation from the two-dimensional spectrum of acoustic modulation frequencies to the energy across all modulation frequencies in the two-dimensional spectrum of acoustic modulation frequencies; or 2) the ratio of the energy in the high-frequency portion of the modulation from the two-dimensional spectrum of acoustic modulation frequencies to the energy in the low-frequency portion of the modulation from the two-dimensional spectrum of acoustic modulation frequencies.

EEE6. Способ по EEE 4 или 5, в котором определение того, следует ли выполнять дереверберацию для входного аудиосигнала, основано на определении того, что степень реверберации превышает пороговое значение.EEE6. The method according to EEE 4 or 5, wherein the determination of whether to perform reverberation on the input audio signal is based on a determination that the degree of reverberation exceeds a threshold value.

EEE17. Способ по любому из EEE 1-6, в котором классификация типа мультимедиа входного аудиосигнала содержит разделение входного аудиосигнала на два или более пространственных компонента.EEE17. The method according to any one of EEE 1-6, wherein classifying the media type of the input audio signal comprises separating the input audio signal into two or more spatial components.

EEE8. Способ по EEE 7, в котором два или более пространственных компонента содержат центральный канал и боковой канал.EEE8. The method according to EEE 7, wherein the two or more spatial components comprise a central channel and a side channel.

EEE9. Способ по EEE 8, дополнительно содержащий:EEE9. The method according to EEE 8, further comprising:

- вычисление мощности бокового канала; и- calculation of the side channel power; and

- классификацию бокового канала в ответ на определение того, что мощность бокового канала превышает пороговое значение.- side channel classification in response to a determination that the side channel power exceeds a threshold.

EEE10. Способ по EEE 7, в котором два или более пространственных компонента содержат рассеянный компонент и прямой компонент.EEE10. The method of EEE 7, wherein the two or more spatial components comprise a diffuse component and a direct component.

EEE11. Способ по любому из EEE 7-10, в котором классификация типа мультимедиа входного аудиосигнала содержит классификацию каждого из двух или более пространственных компонентов как одного из: 1) речи; 2) музыки; или 3) речи поверх музыки, при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования классификаций каждого из двух или более пространственных компонентов.EEE11. The method according to any one of EEE 7-10, wherein classifying the media type of the input audio signal comprises classifying each of two or more spatial components as one of: 1) speech; 2) music; or 3) speech over music, wherein the media type of the input audio signal is classified by combining the classifications of each of the two or more spatial components.

EEE12. Способ по любому из EEE 7-11, в котором входной аудиосигнал разделяется на два или более пространственных компонента в ответ на определение того, что входной аудиосигнал содержит стереофонический аудиосигнал.EEE12. The method of any one of EEE 7-11, wherein the input audio signal is separated into two or more spatial components in response to determining that the input audio signal comprises a stereophonic audio signal.

EEE13. Способ по любому из EEE 1-6, в котором классификация типа мультимедиа входного аудиосигнала содержит разделение входного аудиосигнала на вокальный компонент и невокальный компонент.EEE13. The method according to any one of EEE 1-6, wherein classifying the media type of the input audio signal comprises separating the input audio signal into a vocal component and a non-vocal component.

EEE14. Способ по EEE 13, в котором входной аудиосигнал разделяется на вокальный компонент и невокальный компонент в ответ на определение того, что входной аудиосигнал содержит один аудиоканал.EEE14. The method of EEE 13, wherein the input audio signal is separated into a vocal component and a non-vocal component in response to a determination that the input audio signal comprises a single audio channel.

EEE15. Способ по EEE 13 или 14, в котором классификация типа мультимедиа входного аудиосигнала содержит:EEE15. The method according to EEE 13 or 14, wherein the classification of the media type of the input audio signal comprises:

- классификацию вокального компонента как одного из: 1) речи; или 2) не речи;- classification of the vocal component as one of: 1) speech; or 2) non-speech;

- классификацию невокального компонента как одного из: 1) музыки; или 2) не музыки,- classification of the non-vocal component as one of: 1) music; or 2) not music,

- при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования классификации вокального компонента и классификации невокального компонента.- in this case, the media type of the input audio signal is classified by combining the classification of the vocal component and the classification of the non-vocal component.

EEE16. Способ по любому из EEE 1-15, в котором определение того, следует ли выполнять дереверберацию для входного аудиосигнала, основано на классификации второго входного аудиосигнала, который предшествует входному аудиосигналу.EEE16. The method according to any one of EEE 1-15, wherein the determination of whether to perform dereverberation on the input audio signal is based on the classification of a second input audio signal that precedes the input audio signal.

EEE17. Способ по любому из EEE 1-16, дополнительно содержащий:EEE17. The method according to any one of EEE 1-16, further comprising:

- прием третьего входного аудиосигнала;- receiving the third input audio signal;

- определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала; и- specifying that dereverberation should not be performed on the third input audio signal; and

- в ответ на определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала, запрет выполнения алгоритма дереверберации для третьего входного аудиосигнала.- in response to determining that dereverberation should not be performed for the third input audio signal, prohibiting the execution of the dereverberation algorithm for the third input audio signal.

EEE18. Способ по EEE 17, в котором определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала, основано по меньшей мере частично на классификации типа мультимедиа третьего входного аудиосигнала.EEE18. The method of EEE 17, wherein the determination that dereverberation is not to be performed for the third input audio signal is based at least in part on a classification of the media type of the third input audio signal.

EEE19. Способ по EEE 18, в котором классификация типа мультимедиа третьего входного аудиосигнала представляет собой одно из: 1) музыки; или 2) речи поверх музыки.EEE19. The method of EEE 18, wherein the media type classification of the third input audio signal is one of: 1) music; or 2) speech over music.

EEE20. Способ по любому из EEE 17-19, в котором определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала, основано по меньшей мере частично на определении того, что степень реверберации в третьем входном аудиосигнале ниже порогового значения.EEE20. The method of any one of EEE 17-19, wherein the determination that reverberation is not to be performed for the third input audio signal is based at least in part on the determination that the amount of reverberation in the third input audio signal is below a threshold.

EEE21. Устройство, выполненное с возможностью реализации способа по любому из EEE 1-20.EEE21. A device capable of implementing the method according to any of EEE 1-20.

EEE22. Система, выполненная с возможностью реализации способа по любому из EEE 1-20.EEE22. A system capable of implementing the method of any of EEE 1-20.

EEE23. Один или более энергонезависимых носителей, имеющих сохраненное программное обеспечение, причем программное обеспечение включает в себя инструкции для управления одним или более устройств таким образом, чтобы осуществлять способ по любому из EEE 1-20.EEE23. One or more non-volatile media having stored software, wherein the software includes instructions for controlling one or more devices to perform the method according to any of EEE 1-20.

EEE24. Способ классификации входного аудиосигнала как одного из по меньшей мере двух типов мультимедиа, содержащий:EEE24. A method for classifying an input audio signal as one of at least two media types, comprising:

- прием входного аудиосигнала;- receiving input audio signal;

- разделение входного аудиосигнала на два или более пространственных компонента; и- splitting the input audio signal into two or more spatial components; and

- классификацию каждого из двух или более пространственных компонентов как одного из по меньшей мере двух типов мультимедиа,- classifying each of two or more spatial components as one of at least two media types,

- при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования классификаций каждого из двух или более пространственных компонентов.- wherein the media type of the input audio signal is classified by combining the classifications of each of two or more spatial components.

EEE25. Способ по EEE 24, в котором два или более пространственных компонента содержат центральный канал и боковой канал, при этом способ дополнительно содержит:EEE25. The method of EEE 24, wherein the two or more spatial components comprise a central channel and a side channel, and the method further comprises:

- вычисление мощности бокового канала; и- calculation of the side channel power; and

- классификацию бокового канала в ответ на определение того, что мощность бокового канала превышает пороговое значение.- side channel classification in response to a determination that the side channel power exceeds a threshold.

EEE26. Способ по EEE 24, в котором два или более пространственных компонента содержат рассеянный компонент и прямой компонент.EEE26. The method of EEE 24, wherein the two or more spatial components comprise a diffuse component and a direct component.

EEE29. Способ по любому из EEE 24-26, в котором входной аудиосигнал разделяется на два или более пространственных компонента в ответ на определение того, что входной аудиосигнал содержит стереофонический аудиосигнал.EEE29. The method of any one of EEE 24-26, wherein the input audio signal is separated into two or more spatial components in response to determining that the input audio signal comprises a stereophonic audio signal.

EEE28. Способ по любому из EEE 24-26, в котором классификация типа мультимедиа входного аудиосигнала содержит разделение входного аудиосигнала на вокальный компонент и невокальный компонент.EEE28. The method according to any one of EEE 24-26, wherein classifying the media type of the input audio signal comprises separating the input audio signal into a vocal component and a non-vocal component.

EEE29. Способ по EEE 28, в котором входной аудиосигнал разделяется на вокальный компонент и невокальный компонент в ответ на определение того, что входной аудиосигнал содержит один аудиоканал.EEE29. The method of EEE 28, wherein the input audio signal is separated into a vocal component and a non-vocal component in response to a determination that the input audio signal comprises a single audio channel.

EEE30. Способ по EEE 28 или 29, в котором классификация типа мультимедиа входного аудиосигнала содержит:EEE30. The method according to EEE 28 or 29, wherein the classification of the media type of the input audio signal comprises:

- классификацию вокального компонента как одного из: 1) речи; или 2) не речи;- classification of the vocal component as one of: 1) speech; or 2) non-speech;

- классификацию невокального компонента как одного из: 1) музыки; или 2) не музыки,- classification of the non-vocal component as one of: 1) music; or 2) not music,

- при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования классификации вокального компонента и классификации невокального компонента.- in this case, the media type of the input audio signal is classified by combining the classification of the vocal component and the classification of the non-vocal component.

EEE31. Система, выполненная с возможностью реализации способа по любому из EEE 24-30.EEE31. A system capable of implementing the method according to any of EEE 24-30.

EEE32. Один или более энергонезависимых носителей, имеющих сохраненное программное обеспечение, причем программное обеспечение включает в себя инструкции для управления одним или более устройств таким образом, чтобы осуществлять способ по любому из EEE 24-30.EEE32. One or more non-volatile media having stored software, wherein the software includes instructions for controlling one or more devices so as to perform the method according to any of EEE 24-30.

Claims (30)

1. Способ подавления реверберации, содержащий этапы, на которых:1. A method for suppressing reverberation, comprising the steps of: - принимают (этап 302) входной аудиосигнал;- receive (step 302) an input audio signal; - классифицируют (этап 304) тип мультимедиа входного аудиосигнала как одно из группы, содержащей, по меньшей мере: 1) речь; 2) музыку или 3) речь поверх музыки;- classifying (step 304) the media type of the input audio signal as one of a group comprising at least: 1) speech; 2) music; or 3) speech over music; - определяют (этап 308) степень реверберации во входном аудиосигнале;- determine (step 308) the degree of reverberation in the input audio signal; причём определение степени реверберации содержит этап, на котором вычисляют (этап 604) двумерный спектр акустических частот модуляции входного аудиосигнала, при этом степень реверберации основана на величине энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции;wherein determining the degree of reverberation comprises a step in which a two-dimensional spectrum of acoustic modulation frequencies of the input audio signal is calculated (step 604), wherein the degree of reverberation is based on the amount of energy in the high-frequency portion of the modulation from the two-dimensional spectrum of acoustic modulation frequencies; - определяют (этап 310), следует ли выполнять дереверберацию для входного аудиосигнала, по меньшей мере, на основе определения того, что тип мультимедиа входного аудиосигнала классифицирован как речь, и на основе упомянутой степени реверберации; и- determining (step 310) whether to perform reverberation on the input audio signal, at least based on the determination that the media type of the input audio signal is classified as speech, and based on said degree of reverberation; and - в ответ на определение того, что дереверберация должна выполняться для входного аудиосигнала, формируют (этап 312) выходной аудиосигнал посредством выполнения дереверберации для входного аудиосигнала.- in response to determining that dereverberation is to be performed for the input audio signal, an output audio signal is generated (step 312) by performing dereverberation for the input audio signal. 2. Способ по п. 1, в котором степень реверберации основана на времени реверберации (RT60), отношении уровней громкости прямого и реверберирующего звука (DRR), оценке рассеянности или любом их сочетании.2. The method of claim 1, wherein the degree of reverberation is based on a reverberation time (RT60), a direct to reverberant loudness ratio (DRR), a diffuseness rating, or any combination thereof. 3. Способ по п. 2, в котором3. The method according to paragraph 2, in which определение степени реверберации содержит этап, на котором вычисляют по меньшей мере одно из: 1) отношения энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции к энергии по всем частотам модуляции в двумерном спектре акустических частот модуляции; или 2) отношения энергии в части высоких частот модуляции из двумерного спектра акустических частот модуляции к энергии в части низких частот модуляции из двумерного спектра акустических частот модуляции.determining the degree of reverberation comprises a step in which at least one of: 1) the ratio of the energy in the high-frequency portion of the modulation from the two-dimensional spectrum of acoustic modulation frequencies to the energy across all modulation frequencies in the two-dimensional spectrum of acoustic modulation frequencies; or 2) the ratio of the energy in the high-frequency portion of the modulation from the two-dimensional spectrum of acoustic modulation frequencies to the energy in the low-frequency portion of the modulation from the two-dimensional spectrum of acoustic modulation frequencies. 4. Способ по п. 2 или 3, в котором определение того, следует ли выполнять дереверберацию для входного аудиосигнала, основано на определении того, что степень реверберации превышает пороговое значение.4. The method according to claim 2 or 3, wherein the determination of whether to perform reverberation on the input audio signal is based on the determination that the degree of reverberation exceeds a threshold value. 5. Способ по любому из пп. 1-4, в котором классификация типа мультимедиа входного аудиосигнала содержит этап, на котором разделяют входной аудиосигнал на два или более пространственных компонента, и, при необходимости, при этом входной аудиосигнал разделяется на два или более пространственных компонента в ответ на определение того, что входной аудиосигнал содержит стереофонический аудиосигнал.5. The method according to any one of claims 1 to 4, wherein classifying the media type of the input audio signal comprises the step of separating the input audio signal into two or more spatial components, and, if necessary, wherein the input audio signal is separated into two or more spatial components in response to determining that the input audio signal comprises a stereophonic audio signal. 6. Способ по п. 5, в котором два или более пространственных компонента содержат центральный канал и боковой канал, и, при необходимости, при этом способ дополнительно содержит этапы, на которых:6. The method according to claim 5, wherein the two or more spatial components comprise a central channel and a side channel, and, if necessary, the method further comprises the steps of: - вычисляют мощность бокового канала; и- calculate the side channel power; and - классифицируют (этап 410) боковой канал в ответ на определение того, что мощность бокового канала превышает пороговое значение.- classifying (step 410) the side channel in response to determining that the power of the side channel exceeds a threshold value. 7. Способ по п. 5, в котором два или более пространственных компонента содержат рассеянный компонент и прямой компонент.7. The method of claim 5, wherein the two or more spatial components comprise a diffuse component and a direct component. 8. Способ по любому из пп. 5-7, в котором классификация типа мультимедиа входного аудиосигнала содержит этап, на котором классифицируют (этапы 410, 412) каждый из двух или более пространственных компонентов как одно из: 1) речи; 2) музыки или 3) речи поверх музыки, при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования (этап 414) классификаций каждого из двух или более пространственных компонентов.8. The method according to any one of claims 5-7, in which classifying the media type of the input audio signal comprises the step of classifying (steps 410, 412) each of two or more spatial components as one of: 1) speech; 2) music, or 3) speech over music, wherein the media type of the input audio signal is classified by combining (step 414) the classifications of each of the two or more spatial components. 9. Способ по любому из пп. 1-4, в котором классификация типа мультимедиа входного аудиосигнала содержит этап, на котором разделяют (этап 504) входной аудиосигнал на вокальный компонент и невокальный компонент, и, при необходимости, при этом входной аудиосигнал разделяется на вокальный компонент и невокальный компонент в ответ на определение того, что входной аудиосигнал содержит один аудиоканал.9. The method according to any one of claims 1-4, in which classifying the media type of the input audio signal comprises the step of separating (step 504) the input audio signal into a vocal component and a non-vocal component, and, if necessary, wherein the input audio signal is separated into the vocal component and the non-vocal component in response to determining that the input audio signal contains one audio channel. 10. Способ по п. 9, в котором классификация типа мультимедиа входного аудиосигнала содержит этапы, на которых:10. The method according to claim 9, wherein classifying the media type of the input audio signal comprises the steps of: - классифицируют (этап 506) вокальный компонент как одно из: 1) речи или 2) не речи;- classify (step 506) the vocal component as one of: 1) speech or 2) non-speech; - классифицируют (этап 508) невокальный компонент как одно из: 1) музыки или 2) не музыки,- classify (step 508) the non-vocal component as one of: 1) music or 2) not music, - при этом тип мультимедиа входного аудиосигнала классифицируется посредством комбинирования (этап 510) классификации вокального компонента и классификации невокального компонента.- wherein the media type of the input audio signal is classified by combining (step 510) the classification of the vocal component and the classification of the non-vocal component. 11. Способ по любому из пп. 1-10, в котором определение того, следует ли выполнять дереверберацию для входного аудиосигнала, основано на классификации второго входного аудиосигнала, который предшествует входному аудиосигналу.11. The method according to any one of claims 1-10, wherein the determination of whether to perform dereverberation on the input audio signal is based on the classification of a second input audio signal that precedes the input audio signal. 12. Способ по любому из пп. 1-11, дополнительно содержащий этапы, на которых:12. The method according to any one of paragraphs 1-11, further comprising the steps of: - принимают третий входной аудиосигнал;- receive a third input audio signal; - определяют, что дереверберация не должна выполняться для третьего входного аудиосигнала; и- specify that dereverberation should not be performed for the third input audio signal; and - в ответ на определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала, запрещают выполнение алгоритма дереверберации для третьего входного аудиосигнала, и, при необходимости, - in response to determining that dereverberation should not be performed for the third input audio signal, prohibiting the execution of the dereverberation algorithm for the third input audio signal, and, if necessary, при этом определение того, что дереверберация не должна выполняться для третьего входного аудиосигнала, основано по меньшей мере частично на: (a) классификации типа мультимедиа третьего входного аудиосигнала или (b) определении того, что степень реверберации в третьем входном аудиосигнале ниже порогового значения, при этом классификация типа мультимедиа третьего входного аудиосигнала представляет собой одно из: 1) музыки или 2) речи поверх музыки.wherein the determination that reverberation is not to be performed for the third input audio signal is based at least in part on: (a) a media type classification of the third input audio signal or (b) a determination that the amount of reverberation in the third input audio signal is below a threshold, wherein the media type classification of the third input audio signal is one of: 1) music or 2) speech over music. 13. Устройство для подавления реверберации, выполненное с возможностью реализации способа по любому из пп. 1-12.13. A device for suppressing reverberation, configured to implement the method according to any of paragraphs 1-12. 14. Постоянный носитель, на котором сохранено программное обеспечение, причем программное обеспечение включает в себя инструкции для управления одним или более устройствами таким образом, чтобы осуществлять способ по любому из пп. 1-12.14. A non-transitory medium on which software is stored, wherein the software includes instructions for controlling one or more devices to perform the method according to any one of paragraphs 1-12.
RU2023125827A 2021-03-11 2022-03-10 Media type-based dereverberation RU2854360C2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2021/080314 2021-03-11
US63/180,710 2021-04-28
EP21174289.5 2021-05-18

Publications (2)

Publication Number Publication Date
RU2023125827A RU2023125827A (en) 2024-01-11
RU2854360C2 true RU2854360C2 (en) 2025-12-30

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2384973C1 (en) * 2005-12-20 2010-03-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for synthesising three output channels using two input channels
US20100092002A1 (en) * 2007-03-09 2010-04-15 Pioneer Corporation Sound field reproducing device and sound field reproducing method
EP2252083A1 (en) * 2009-05-14 2010-11-17 Yamaha Corporation Signal processing apparatus
EP2194733B1 (en) * 2008-12-05 2012-07-11 Sony Corporation Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus.
RU2595912C2 (en) * 2011-05-26 2016-08-27 Конинклейке Филипс Н.В. Audio system and method therefor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2384973C1 (en) * 2005-12-20 2010-03-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for synthesising three output channels using two input channels
US20100092002A1 (en) * 2007-03-09 2010-04-15 Pioneer Corporation Sound field reproducing device and sound field reproducing method
EP2194733B1 (en) * 2008-12-05 2012-07-11 Sony Corporation Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus.
EP2252083A1 (en) * 2009-05-14 2010-11-17 Yamaha Corporation Signal processing apparatus
RU2595912C2 (en) * 2011-05-26 2016-08-27 Конинклейке Филипс Н.В. Audio system and method therefor

Similar Documents

Publication Publication Date Title
US11817114B2 (en) Content and environmentally aware environmental noise compensation
US8588427B2 (en) Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
EP3980994B1 (en) Sound modification based on frequency composition
JP7739583B2 (en) Speech improvement
EP4305620B1 (en) Dereverberation based on media type
US20230319190A1 (en) Acoustic echo cancellation control for distributed audio devices
US9749741B1 (en) Systems and methods for reducing intermodulation distortion
WO2013058728A1 (en) Speech signal enhancement using visual information
JP7771347B2 (en) Data Augmentation for Speech Improvement
RU2854360C2 (en) Media type-based dereverberation
US20240355348A1 (en) Detecting environmental noise in user-generated content
CN116964666A (en) Media type-based dereverberation
US12445791B2 (en) Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds
US20240170001A1 (en) Improving perceptual quality of dereverberation
US20260024541A1 (en) Speech enhancement and interference suppression
CN116964665A (en) Improve the perceived quality of dereverberation
WO2025160029A1 (en) Enhancing audio signals
CN116830560A (en) Echo reference generation and echo reference index estimation based on rendering information