[go: up one dir, main page]

WO2018231185A1 - Method of synchronizing sound signals - Google Patents

Method of synchronizing sound signals Download PDF

Info

Publication number
WO2018231185A1
WO2018231185A1 PCT/UA2017/000089 UA2017000089W WO2018231185A1 WO 2018231185 A1 WO2018231185 A1 WO 2018231185A1 UA 2017000089 W UA2017000089 W UA 2017000089W WO 2018231185 A1 WO2018231185 A1 WO 2018231185A1
Authority
WO
WIPO (PCT)
Prior art keywords
synchronization
audio
file
sound
signal
Prior art date
Application number
PCT/UA2017/000089
Other languages
French (fr)
Russian (ru)
Inventor
Василий Васильевич ДУМА
Роман Викторович КУЛИНИЧ
Дмитрий Константинович ХАНЧОПУЛО
Original Assignee
Василий Васильевич ДУМА
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Василий Васильевич ДУМА filed Critical Василий Васильевич ДУМА
Publication of WO2018231185A1 publication Critical patent/WO2018231185A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals

Definitions

  • the invention relates to the processing of audio signals, in particular a method for processing the dynamic properties of audio using a tuning mechanism or sequence of operations for quickly adapting to changes in content in an audio signal, as well as for computer programs for implementing such methods in practice.
  • a tuning signal can be generated by analyzing the audio signal itself, or tuning can be triggered by an external event, such as a change in a channel on a television receiver, or a change in input selection on an audio / video receiver.
  • an external audio signal one or more indications of the state of dynamic properties for the current sound source can be stored and associatively associated with such a sound source before switching to a new sound source. Then, if the system switches back to the first sound source, the dynamic processor can be configured to the state saved earlier, or its approximation.
  • a known method of mixing two input audio signals into a single composite audio signal with support for the perceived sound level of the composite audio signal includes the steps of: accepting the main input audio signal; receive a connected input audio signal, and the associated input signal is connected to the main input audio signal; accept mixing metadata containing scaling information for scaling the main input audio signal and determining how the main input signal and the associated input signal should be mixed in order to generate a composite audio signal at a perceived sound level; wherein the scaling information from the mixing metadata comprises a metadata scale factor for the main input audio signal, for scaling the main input audio signal relative to the associated input audio signal; weighting the main input audio signal and the associated input audio signal in the composite audio signal, as defined in the mixing metadata; identify the predominant signal either as the main input audio signal, or as related the input audio signal from the scaling information provided by the mixing metadata and from the mixing balance input, where the corresponding other input signal is then identified as a non-dominant signal; and where the predominant signal is identified by comparing the mixing balance input signal with a metadata scale factor for the main audio input
  • the user may wish to deviate from the settings provided by the manufacturer, dictated by the metadata transmitted along with the associated signal. For example, a user who activates the director’s comments while watching a movie at some point during playback decides that he is more likely to hear the original dialogue that the manufacturer indicated in the metadata as being subject to weakening during mixing so that it does not prevail over director’s comments.
  • Closest to the claimed invention is a method for processing an audio signal using a setting, which consists in the fact that the dynamic properties of the audio signal are changed in accordance with the sequence of operations for adjusting the dynamic properties, an event is detected in the temporary development of the audio signal, in which the level of the audio signal decreases by an amount greater than the threshold of visibility (Ldrop) within the time interval, no more than the second threshold value of time (tdrop), while the above is detected It reveals a decrease in the sound signal level in the plural number of frequency bands and reconfigures the sequence of operations regulation of dynamic properties in response to the mentioned detection [UA N ° 94968, H03G 3/00, H03G 7/00, 201 1].
  • this method does not sufficiently effectively facilitate the synchronization of the converted original audio file with the audio recorded from the microphone to play the same, similar, or different audio file.
  • the basis of the invention is the task of creating a method for synchronizing audio signals, which would be able to effectively facilitate the synchronization of the converted original audio file recorded from the microphone audio to play the same, similar or different audio file.
  • synchronization cards are used for audio signals recorded from a microphone to synchronize the rendering of an original or other audio track using client’s mobile device (mobile phone, smartphone, smart TV, laptop, laptop), use the card generation mechanism Synchronizing and storing it in the digital file, the synchronization map and data thereon in advance is generated and encrypted at the server and transmitted to the user device remotely or locally.
  • synchronization cards convert sound into a frequency domain and use filtering and extraction methods.
  • a mobile device As a mobile device they use a mobile phone, smartphone, smart TV, laptop, laptop or tablet.
  • the inventive method provides the ability to synchronize the converted original audio file recorded from the microphone audio to play the same, similar or different audio file.
  • figure 1 shows a diagram of a device for implementing the method
  • figure 2 is a sequence diagram of the method.
  • the method is implemented as follows.
  • Mobile device 2 (mobile phone, smart phone smart TV, laptop, laptop or tablet) is used to record an audio signal or sounds in an open or closed space 1, using an incoming sound data source 4 (for example, a microphone).
  • an incoming sound data source 4 for example, a microphone
  • the device uses the recorded sound in block 12 to synchronize with another audio track, which is currently played using the reference synchronization card prepared earlier and received on the device (phone, smartphone or tablet) via a wireless or other network.
  • Synchronization is carried out in real time and the offset in the original synchronization file is taken into account, taking into account the recorded audio segment (from 4 to 15 seconds).
  • Synchronization is performed on the converted and filtered (digitized) data in the media buffer 5 on the synchronization card using the synchronization unit 12.
  • an acceleration or deceleration algorithm for the recorded track from the microphone can be used.
  • map conversion unit 6 uses standard mechanisms for converting audio signals (map conversion unit 6) into another coordinate system - frequency (such as fast Fourier transform, but other methods are also possible).
  • the breakdown of frequencies into ranges can be performed from 5 to 14 ranges at a given time.
  • the work of the complementary algorithm consists of the following steps:
  • VMP vector maps
  • the selected sections are analyzed and one that has the highest VMP similarity of the desired fragment according to the following criteria: the length of the section along the time axis, the number of vectors in the section and the number of vectors having common points.
  • ts is calculated. The algorithm considers that the found ts is the beginning of the desired fragment ts.
  • the entire recorded and converted fragment of the audio is divided into separate subbands, and the summing function passes through each of the fragments. Next, use the difference in displacements for each of the fragments.
  • the number of fragments can be from 4 to 10.
  • an array is created that stores pairs of vectors - a vector from a VMP fragment and a corresponding vector from a VMP track.
  • the criteria for compliance is a vector key. If several vectors from a VMP track correspond to one vector of a VMP fragment, then several elements are created in the array that have the same vector from the VMP fragment, but different vectors of the V P track.
  • the decryption unit 10 When working with the converted original audio file, the decryption unit 10 is used, which additionally decrypts the converted original audio file in memory - the synchronization card.
  • the client device After decoding part of the audio file, the client device can play back the original fragment of the audio track on the client device 2, taking into account all the delays during the operation of the algorithm.
  • the user To download synchronization files, the user first logs in to the authorization block 7 and, after gaining access, can download encrypted files: synchronization cards and audio tracks for playing in the synchronization card block (encrypted) 8 and media block 9, which through the decryption block 10 fall into the synchronization block 12 .
  • the user via the Internet goes to the authorization unit 13 and then to the content delivery unit 14, where through the encryption unit 15 it receives data from the database for cards 16 and the audio database 17.
  • a working model has been created for various audio files and data synchronization using synchronization cards of sound signals recorded from a microphone to synchronize the rendering of the original or other sound track using a client’s mobile device (mobile phone, smartphone, smart TV, laptop, laptop).
  • the client To get started, the client must press a button on the keyboard or on the touch screen or in any other way.
  • the synchronization card file is generated on the server in advance and on the user's device remotely or locally. Data is encrypted in advance. For encryption, both symmetric and asymmetric algorithms are used. When preparing a synchronization map file, methods are used to convert sound to the frequency domain, and various filtering and highlighting methods can be used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

The invention relates to the processing of sound signals, in particular to a method of processing dynamic audio properties using a mechanism or sequence of tuning operations so as to quickly adapt to changes in the content of a sound signal. The method uses synchronization maps of sound signals recorded from a microphone for synchronizing a rendering of an original or other sound track using a mobile client device and a mechanism for generating a synchronization map and saving same in a digital file, wherein the synchronization map is generated beforehand on a server and transmitted remotely or locally to a user device, the synchronization map data being encrypted beforehand. The method provides the capability of synchronizing a converted original audio file comprising audio recorded from a microphone for reproduction of the same audio file, a similar audio file or a different audio file.

Description

СПОСОБ СИНХРОНИЗАЦИИ ЗВУКОВЫХ СИГНАЛОВ  METHOD OF SYNCHRONIZATION OF AUDIO SIGNALS
Изобретение касается обработки звуковых сигналов, в частности способа обработки динамических свойств аудио, использующего механизм или последовательность операций настройки для быстрого приспособления к изменениям контента в звуковом сигнале, а также для компьютерных программ для осуществления таких способов на практике. The invention relates to the processing of audio signals, in particular a method for processing the dynamic properties of audio using a tuning mechanism or sequence of operations for quickly adapting to changes in content in an audio signal, as well as for computer programs for implementing such methods in practice.
Сигнал настройки может формироваться с помощью анализа самого звукового сигнала, или настройка может запускаться от внешнего события, такого как изменение канала на телевизионном приемнике, или изменение выбора входа на аудио/видео приемнике. В случае внешнего звукового сигнала, один или более признаков состояния динамических свойств для текущего источника звука могут сохраняться и ассоциативно связываться с таким источником звука перед переключением на новый источник звука. Затем, если система переключается обратно на первый источник звука, процессор динамических свойств может быть настроен на состояние, сохраненное ранее, или его приближение.  A tuning signal can be generated by analyzing the audio signal itself, or tuning can be triggered by an external event, such as a change in a channel on a television receiver, or a change in input selection on an audio / video receiver. In the case of an external audio signal, one or more indications of the state of dynamic properties for the current sound source can be stored and associatively associated with such a sound source before switching to a new sound source. Then, if the system switches back to the first sound source, the dynamic processor can be configured to the state saved earlier, or its approximation.
Известен способ микширования двух входных звуковых сигналов в единый сводный звуковой сигнал с поддержкой воспринимаемого уровня звука сводного звукового сигнала, при этом способ включает этапы, на которых: принимают основной входной звуковой сигнал; принимают связанный входной звуковой сигнал, причем связанный входной сигнал соединяют с основным входным звуковым сигналом; принимают метаданные микширования, содержащие информацию масштабирования, предназначенную для масштабирования основного входного звукового сигнала и определяющие, каким образом должны быть микшированные основной входной сигнал и связанный входной сигнал, для того чтобы генерировать сводный звуковой сигнал на воспринимаемом уровне звука; причем информация масштабирования из метаданных микширования содержит масштабный коэффициент метаданных для основного входного звукового сигнала, для масштабирования основного входного звукового сигнала относительно связанного входного звукового сигнала; взвешивание основного входного звукового сигнала и связанного входного звукового сигнала в сводном звуковом сигнале, как определено в метаданных микширования; идентифицируют преобладающий сигнал или как основной входной звуковой сигнал, или как связанный входной звуковой сигнал по информации масштабирования, предоставляемый метаданными микширования, и из входного сигнала баланса микширования, где соответствующий другой входной сигнал тогда идентифицируют как непреобладающий сигнал; и где преобладающий сигнал идентифицируют посредством сравнения входного сигнала баланса микширования с масштабным коэффициентом метаданных для основного входного звукового сигнала; масштабируют непреобладающий сигнал относительно преобладающего сигнала; и соединяют масштабируемый непреобладающий сигнал с преобладающим сигналом для выработки сводного звукового сигнала [UA j l05590, H03G 3/00, 2014]. A known method of mixing two input audio signals into a single composite audio signal with support for the perceived sound level of the composite audio signal, the method includes the steps of: accepting the main input audio signal; receive a connected input audio signal, and the associated input signal is connected to the main input audio signal; accept mixing metadata containing scaling information for scaling the main input audio signal and determining how the main input signal and the associated input signal should be mixed in order to generate a composite audio signal at a perceived sound level; wherein the scaling information from the mixing metadata comprises a metadata scale factor for the main input audio signal, for scaling the main input audio signal relative to the associated input audio signal; weighting the main input audio signal and the associated input audio signal in the composite audio signal, as defined in the mixing metadata; identify the predominant signal either as the main input audio signal, or as related the input audio signal from the scaling information provided by the mixing metadata and from the mixing balance input, where the corresponding other input signal is then identified as a non-dominant signal; and where the predominant signal is identified by comparing the mixing balance input signal with a metadata scale factor for the main audio input signal; scaling the non-predominant signal relative to the predominant signal; and combining a scalable non-dominant signal with a dominant signal to generate a composite audio signal [UA j l05590, H03G 3/00, 2014].
Однако пользователь может изъявить желание отклониться от предусмотренных изготовителем установок, диктуемых метаданными, переданными вместе со связанным сигналом. Например, пользователь, активирующий комментарии режиссера при просмотре кинокартины в некоторой точке в ходе воспроизведения, принимает решение о том, что он больше стремится слышать оригинальный диалог, который изготовитель указал в метаданных, как подлежащий ослаблению при микшировании, для того, чтобы он не преобладал над комментариями режиссера.  However, the user may wish to deviate from the settings provided by the manufacturer, dictated by the metadata transmitted along with the associated signal. For example, a user who activates the director’s comments while watching a movie at some point during playback decides that he is more likely to hear the original dialogue that the manufacturer indicated in the metadata as being subject to weakening during mixing so that it does not prevail over director’s comments.
Поэтому существует потребность в создании регулирования, которое позволяло бы пользователю регулировать микширование входных звуковых сигналов и, в то же время, обеспечивало бы благоприятные впечатления пользователя путем сохранения воспринимаемого уровня звука в сводном сигнале. Кроме того, также существует потребность в создании регулирования микширования входных звуковых сигналов и, в то же время, сохранения согласованного уровня звука для сводного сигнала даже тогда, когда информация масштабирования из метаданных и внешний входной сигнал от пользователя могут быть меняющимися во времени таким образом, чтобы не было необходимости в выполнении дополнительной регулировки уровня сводного сигнала.  Therefore, there is a need to create a regulation that would allow the user to regulate the mixing of the input audio signals and, at the same time, would provide a favorable user experience by storing the perceived sound level in the composite signal. In addition, there is also a need to create a control for mixing the input audio signals and, at the same time, maintain a consistent sound level for the composite signal even when the scaling information from the metadata and the external input from the user can be time-varying so that there was no need for additional adjustment of the level of the composite signal.
Ближайшим к заявленному изобретению является способ обработки звукового сигнала с использованием настройки, заключащийся в том, что меняются динамические свойства звукового сигнала в соответствии с последовательностью операций регулирования динамических свойств, обнаруживается событие во временном развитии звукового сигнала, при котором уровень звукового сигнала снижается на величину, большую, чем порог заметности (Ldrop) в пределах временного интервала, не более, чем второе пороговое значение времени (tdrop), при этом, упомянутое выявление выявляет снижение уровня звукового сигнала во множественном числе полос частот и перенастраивает последовательность операций регулирования динамических свойств в ответ на упомянутое выявления [UA N° 94968, H03G 3/00, H03G 7/00, 201 1]. Closest to the claimed invention is a method for processing an audio signal using a setting, which consists in the fact that the dynamic properties of the audio signal are changed in accordance with the sequence of operations for adjusting the dynamic properties, an event is detected in the temporary development of the audio signal, in which the level of the audio signal decreases by an amount greater than the threshold of visibility (Ldrop) within the time interval, no more than the second threshold value of time (tdrop), while the above is detected It reveals a decrease in the sound signal level in the plural number of frequency bands and reconfigures the sequence of operations regulation of dynamic properties in response to the mentioned detection [UA N ° 94968, H03G 3/00, H03G 7/00, 201 1].
Однако этот способ, как и предыдущий аналог, недостаточно эффективно способствует синхронизации преобразованного оригинального аудиофайла с записанным с микрофона аудио для воспроизведения такого же, подобного или иного аудиофайла.  However, this method, as well as the previous analogue, does not sufficiently effectively facilitate the synchronization of the converted original audio file with the audio recorded from the microphone to play the same, similar, or different audio file.
В основу изобретения поставлена задача создания способа синхронизации звуковых сигналов, который бы имел возможность эффективно способствовать синхронизации преобразованного оригинального аудиофайла с записанным с микрофона аудио для воспроизведения такого же, подобного или иного аудиофайла. The basis of the invention is the task of creating a method for synchronizing audio signals, which would be able to effectively facilitate the synchronization of the converted original audio file recorded from the microphone audio to play the same, similar or different audio file.
Поставленную задачу решают тем, что в способе синхронизации звуковых сигналов, в котором меняют динамические свойства звукового сигнала в соответствии с последовательностью операций регулирования динамических свойств, согласно изобретению, используют карты синхронизации для записанных с микрофона звуковых сигналов для синхронизации рендеринга оригинальной или другой звуковой дорожки с использованием мобильного устройства клиента (мобильный телефон, смартфон, смарт-телевизор, ноутбук, ноутбук), используют механизм генерации карты синхронизации и сохранения его в цифровом файле, при этом карту синхронизации и данные на ней заранее генерируют и шифруют на сервере и передают на устройство пользователя удаленно или локально. The problem is solved in that in a method for synchronizing audio signals in which the dynamic properties of an audio signal are changed in accordance with a sequence of adjusting dynamic properties according to the invention, synchronization cards are used for audio signals recorded from a microphone to synchronize the rendering of an original or other audio track using client’s mobile device (mobile phone, smartphone, smart TV, laptop, laptop), use the card generation mechanism Synchronizing and storing it in the digital file, the synchronization map and data thereon in advance is generated and encrypted at the server and transmitted to the user device remotely or locally.
Кроме того, в способе синхронизации звуковых сигналов при подготовке файла карты синхронизации превращают звук в частотный домен и используют методы фильтрации и выделения. In addition, in the method of synchronizing audio signals when preparing a file, synchronization cards convert sound into a frequency domain and use filtering and extraction methods.
Как мобильное устройство используют мобильный телефон, смартфон, смарт- телевизор, ноутбук, ноутбук или планшет.  As a mobile device they use a mobile phone, smartphone, smart TV, laptop, laptop or tablet.
Заявляемый способ предоставляет возможность синхронизации преобразованного оригинального аудиофайла с записанным с микрофона аудио для воспроизведения такого же, подобного или иного аудиофайла.  The inventive method provides the ability to synchronize the converted original audio file recorded from the microphone audio to play the same, similar or different audio file.
Полезная модель поясняется рисунками: The utility model is illustrated by the drawings:
на Фиг.1 изображена схема работы устройства для осуществления способа;  figure 1 shows a diagram of a device for implementing the method;
на Фиг.2 - схема последовательности действий способа.  figure 2 is a sequence diagram of the method.
Способ реализуют следующим образом. The method is implemented as follows.
Мобильное устройство 2 (мобильный телефон, смартфон смарт-телевизор, ноутбук, ноутбук или планшет) используют для записи аудио сигнала или звуков в открытом или закрытом пространстве 1, используя входящий источник звуковых данных 4 (например, микрофон). Mobile device 2 (mobile phone, smart phone smart TV, laptop, laptop or tablet) is used to record an audio signal or sounds in an open or closed space 1, using an incoming sound data source 4 (for example, a microphone).
Устройство использует записанный звук в блоке 12 для синхронизации с другой аудиодорожкой, который текуще проигрывается, используя эталонную карту синхронизации, подготовленную ранее и полученную на устройство (телефон, смартфон или планшет) по беспроводной или иной сети.  The device uses the recorded sound in block 12 to synchronize with another audio track, which is currently played using the reference synchronization card prepared earlier and received on the device (phone, smartphone or tablet) via a wireless or other network.
Синхронизацию проводят в реальном времени и учитывают смещение в оригинальном файле синхронизации с учетом записанного звукового отрезка (от 4 до 15 секунд).  Synchronization is carried out in real time and the offset in the original synchronization file is taken into account, taking into account the recorded audio segment (from 4 to 15 seconds).
Синхронизацию выполняют на преобразованных и отфильтрованных (оцифрованных) данных в медиа буфере 5 по карте синхронизации с помощью блока синхронизации 12.  Synchronization is performed on the converted and filtered (digitized) data in the media buffer 5 on the synchronization card using the synchronization unit 12.
В дополнение может быть использован алгоритм ускорения или замедления записанной дорожки с микрофона.  In addition, an acceleration or deceleration algorithm for the recorded track from the microphone can be used.
В результате синхронизации может быть воспроизведен другой аудиофайл с учетом смещения времени, полученного при синхронизации с первым оригинальным аудиофайлом, преобразованном в блоке 1 1.  As a result of synchronization, another audio file can be played back, taking into account the time offset obtained when synchronizing with the first original audio file converted in block 1 1.
Используют стандартные механизмы преобразования аудио сигналов (блок преобразования карт 6) в другую систему координат - частотную (такие, как быстрое преобразование Фурье, но также возможны другие методы).  They use standard mechanisms for converting audio signals (map conversion unit 6) into another coordinate system - frequency (such as fast Fourier transform, but other methods are also possible).
Большой акцент сделан на фильтрацию и выделение среднеквадратических максимумов частот или значений, близких к пиковым (но не пики частот) со значениями не менее 50%, 75% и более от максимума.  Great emphasis is placed on filtering and highlighting the rms frequency maxima or values close to peak (but not frequency peaks) with values of at least 50%, 75% or more of the maximum.
Разбивка частот на диапазоны может выполняться от 5 до 14 диапазонов в настоящий момент времени.  The breakdown of frequencies into ranges can be performed from 5 to 14 ranges at a given time.
Также используют дополнительный алгоритм уточнения поиска (блок синхронизации 12):  They also use an additional search refinement algorithm (synchronization block 12):
Работа дополняющего алгоритма состоит из следующих этапов:  The work of the complementary algorithm consists of the following steps:
- составление векторных карт (VMP);  - compilation of vector maps (VMP);
- составление пересечения векторных карт;  - drawing up the intersection of vector maps;
- выделение из трека участков, вероятно соответствующих искомому фрагменту;  - selection from the track sections, probably corresponding to the desired fragment;
~ выбор участка, имеющего наибольшее соответствие с VMP искомого фрагмента. Выбранные участки анализируют и выбирают одну, имеющую по следующим критериям наибольшее сходство VMP искомого фрагмента: длина участка по временной оси, количество векторов на участке и количество векторов, имеющих общие точки. ~ selection of the site that has the most correspondence with the VMP of the desired fragment. The selected sections are analyzed and one that has the highest VMP similarity of the desired fragment according to the following criteria: the length of the section along the time axis, the number of vectors in the section and the number of vectors having common points.
Для выбранного участка подсчитывается ts. Алгоритм считает, что найденное ts и является ts началом искомого фрагмента.  For the selected site, ts is calculated. The algorithm considers that the found ts is the beginning of the desired fragment ts.
Для определения точности совпадения весь записанный и преобразованный фрагмент аудио разбивают на отдельные поддиапазоны, и суммирующая функция проходит по каждому из фрагментов. Далее используют разницу смещений по каждому из фрагментов. Количество фрагментов может быть от 4 до 10.  To determine the accuracy of the match, the entire recorded and converted fragment of the audio is divided into separate subbands, and the summing function passes through each of the fragments. Next, use the difference in displacements for each of the fragments. The number of fragments can be from 4 to 10.
Сравнительная формула 1 :  Comparative Formula 1:
j.v4 - 3| < | 2 - xl\ + j · ^~ j.v4 - 3 | <| 2 - xl \ + j
Во время одного из этапов создают массив, хранящий пары векторов - вектор с VMP фрагмента и соответствующий ему вектор с VMP трека.  During one of the stages, an array is created that stores pairs of vectors - a vector from a VMP fragment and a corresponding vector from a VMP track.
Критерием соответствия является векторный ключ. Если одному вектору VMP фрагмента соответствует несколько векторов с VMP дорожки, то в массиве создаются несколько элементов, имеющих один и тот же вектор с VMP фрагмента, но разные векторы V P трека.  The criteria for compliance is a vector key. If several vectors from a VMP track correspond to one vector of a VMP fragment, then several elements are created in the array that have the same vector from the VMP fragment, but different vectors of the V P track.
При работе с преобразованным оригинальным аудиофайлом используется блок дешифрования 10, который дополнительно в памяти дешифрует преобразованный оригинальный аудиофайл - карту синхронизации.  When working with the converted original audio file, the decryption unit 10 is used, which additionally decrypts the converted original audio file in memory - the synchronization card.
После расшифровки части аудиофайла устройство клиента может воспроизвести проигрывания оригинального фрагмента аудиодорожки на устройстве клиента 2, учитывая все задержки во время работы алгоритма.  After decoding part of the audio file, the client device can play back the original fragment of the audio track on the client device 2, taking into account all the delays during the operation of the algorithm.
Для загрузки файлов синхронизации пользователь сначала проходит авторизацию в блоке авторизации 7 и после получения доступа может загружать зашифрованные файлы: карты синхронизации и аудиодорожки для проигрывания в блоке карт синхронизации (зашифрованном) 8 и блоке медиаданных 9, которые через блок дешифрования 10 попадают в блок синхронизации 12.  To download synchronization files, the user first logs in to the authorization block 7 and, after gaining access, can download encrypted files: synchronization cards and audio tracks for playing in the synchronization card block (encrypted) 8 and media block 9, which through the decryption block 10 fall into the synchronization block 12 .
Для загрузки данных для синхронизации с сервера (облака) 3, пользователь через Интернет попадает на блок авторизации 13 и далее к блоку предоставления контента 14, где получает через блок шифрования 15 данные из базы данных для карт 16 и базы данных аудио 17. Создана рабочая модель для различных аудиофайлов и синхронизации данных с использованием карт синхронизации записанных с микрофона звуковых сигналов для синхронизации рендеринга оригинальной или другой звуковой дорожки с использованием мобильного устройства клиента (мобильный телефон, смартфон, смарт-телевизор, ноутбук, ноутбук). To download data for synchronization from the server (cloud) 3, the user via the Internet goes to the authorization unit 13 and then to the content delivery unit 14, where through the encryption unit 15 it receives data from the database for cards 16 and the audio database 17. A working model has been created for various audio files and data synchronization using synchronization cards of sound signals recorded from a microphone to synchronize the rendering of the original or other sound track using a client’s mobile device (mobile phone, smartphone, smart TV, laptop, laptop).
Для начала работы клиент должен нажать кнопку на клавиатуре или на сенсорном экране или другим любым способом.  To get started, the client must press a button on the keyboard or on the touch screen or in any other way.
Для реализации этого используют механизм генерации карты синхронизации и сохранения его в цифровом файле. Файл карты синхронизации генерируют на сервере заранее и на устройство пользователя удаленно или локально. Данные шифруют заранее. Для шифрования применяют как симметричные, так и несимметричные алгоритмы. При подготовке файла карты синхронизации используют методы преобразования звука в частотный домен, и могут использоваться различные методы фильтрации и выделения.  To implement this, use the mechanism for generating a synchronization card and saving it in a digital file. The synchronization card file is generated on the server in advance and on the user's device remotely or locally. Data is encrypted in advance. For encryption, both symmetric and asymmetric algorithms are used. When preparing a synchronization map file, methods are used to convert sound to the frequency domain, and various filtering and highlighting methods can be used.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ CLAIM
1. Способ синхронизации звуковых сигналов, в котором меняют динамические свойства звукового сигнала в соответствии с последовательностью операций регулирования динамических свойств, отличающийся тем, что используют карты синхронизации записанных с микрофона звуковых сигналов для синхронизации рендеринга оригинальной или другой звуковой дорожки с использованием мобильного устройства клиента, используют механизм генерации карты синхронизации и сохранения его в цифровом файле, при этом карту синхронизации генерируют на сервере заранее и на устройство пользователя удаленно или локально и данные на карта синхронизации шифруют заранее. 1. A method for synchronizing audio signals in which the dynamic properties of an audio signal are changed in accordance with a sequence of adjusting dynamic properties, characterized in that they use synchronization cards of sound signals recorded from a microphone to synchronize the rendering of an original or other audio track using a client’s mobile device, a mechanism for generating a synchronization card and storing it in a digital file, while the synchronization card is generated on the Zara server it and the user device remotely or locally and the data on the card is encrypted synchronization advance.
2. Способ по п.1 , отличающийся тем, что при подготовке файла карты синхронизации превращают звук в частотный домен и используют методы фильтрации и выделения.  2. The method according to claim 1, characterized in that when preparing the file, the synchronization cards turn the sound into a frequency domain and use filtering and extraction methods.
3. Способ по п.1 , отличающийся тем, что в качестве мобильного устройства используют мобильный телефон, или смартфон, или смарт-телевизор, или ноутбук, или нетбук, или планшет.  3. The method according to claim 1, characterized in that as a mobile device using a mobile phone, or smartphone, or smart TV, or laptop, or netbook, or tablet.
PCT/UA2017/000089 2017-06-16 2017-09-05 Method of synchronizing sound signals WO2018231185A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
UAA201706097 2017-06-16
UA2017006097 2017-06-16

Publications (1)

Publication Number Publication Date
WO2018231185A1 true WO2018231185A1 (en) 2018-12-20

Family

ID=64659688

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/UA2017/000089 WO2018231185A1 (en) 2017-06-16 2017-09-05 Method of synchronizing sound signals

Country Status (1)

Country Link
WO (1) WO2018231185A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059160A1 (en) * 2000-03-02 2008-03-06 Akiba Electronics Institute Llc Techniques for accommodating primary content (pure voice) audio and secondary content remaining audio capability in the digital audio production process
US20100198377A1 (en) * 2006-10-20 2010-08-05 Alan Jeffrey Seefeldt Audio Dynamics Processing Using A Reset
WO2010141504A1 (en) * 2009-06-01 2010-12-09 Music Mastermind, LLC System and method of receiving, analyzing, and editing audio to create musical compositions
US8325944B1 (en) * 2008-11-07 2012-12-04 Adobe Systems Incorporated Audio mixes for listening environments
US20130170672A1 (en) * 2010-09-22 2013-07-04 Dolby International Ab Audio stream mixing with dialog level normalization
US20160021476A1 (en) * 2011-07-01 2016-01-21 Dolby Laboratories Licensing Corporation System and Method for Adaptive Audio Signal Generation, Coding and Rendering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059160A1 (en) * 2000-03-02 2008-03-06 Akiba Electronics Institute Llc Techniques for accommodating primary content (pure voice) audio and secondary content remaining audio capability in the digital audio production process
US20100198377A1 (en) * 2006-10-20 2010-08-05 Alan Jeffrey Seefeldt Audio Dynamics Processing Using A Reset
US8325944B1 (en) * 2008-11-07 2012-12-04 Adobe Systems Incorporated Audio mixes for listening environments
WO2010141504A1 (en) * 2009-06-01 2010-12-09 Music Mastermind, LLC System and method of receiving, analyzing, and editing audio to create musical compositions
US20130170672A1 (en) * 2010-09-22 2013-07-04 Dolby International Ab Audio stream mixing with dialog level normalization
US20160021476A1 (en) * 2011-07-01 2016-01-21 Dolby Laboratories Licensing Corporation System and Method for Adaptive Audio Signal Generation, Coding and Rendering

Similar Documents

Publication Publication Date Title
US20190373311A1 (en) Media Content Identification on Mobile Devices
US9786298B1 (en) Audio fingerprinting based on audio energy characteristics
EP3418917B1 (en) Methods and systems for synchronizing media
US9596386B2 (en) Media synchronization
KR101618540B1 (en) Systems and methods for interactive broadcast content
US20070260634A1 (en) Apparatus, system, method, and computer program product for synchronizing the presentation of media content
US11736762B2 (en) Media content identification on mobile devices
EP4604513A2 (en) Real-time wireless synchronization of live event audio stream with a video recording
WO2010021966A1 (en) Feature optimization and reliability estimation for audio and video signature generation and detection
US9392144B2 (en) Video synchronization based on an audio cue
AU2017247045B2 (en) Audio fingerprinting based on audio energy characteristics
WO2019073420A1 (en) Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings
US20210360313A1 (en) Event Source Content and Remote Content Synchronization
KR102500740B1 (en) Live streaming server which can insert the noise source, to be used for looking up contents data, into a real time video, and the operating method thereof
US20160005410A1 (en) System, apparatus, and method for audio fingerprinting and database searching for audio identification
US9223458B1 (en) Techniques for transitioning between playback of media files
WO2018231185A1 (en) Method of synchronizing sound signals
EP4044184A1 (en) A method and a system for determining a 3-dimensional data structure of an audio file, and a playback position in the audio file for synchronization
US12205601B1 (en) Content recognition using fingerprinting
US12182192B1 (en) Content identification using fingerprinting
US10536729B2 (en) Methods, systems, and media for transforming fingerprints to detect unauthorized media content items
KR20150111184A (en) The method and apparatus of setting the equalize mode automatically
KR20220067849A (en) Method and apparatus for identifying audio based on audio fingerprint matching
WO2018047275A1 (en) Display timing determination apparatus, display timing determination method, and program
Alexander et al. CONTENT COMPARISON AND ANALYSIS (COCOA) OF CONTEMPORANEOUSLY RECORDED AUDIO MATERIAL

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17913953

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17913953

Country of ref document: EP

Kind code of ref document: A1