RU218617U1 - Intelligent high-performance speech recognition device for the deaf and deaf-blind, containing microphones - Google Patents
Intelligent high-performance speech recognition device for the deaf and deaf-blind, containing microphones Download PDFInfo
- Publication number
- RU218617U1 RU218617U1 RU2022133467U RU2022133467U RU218617U1 RU 218617 U1 RU218617 U1 RU 218617U1 RU 2022133467 U RU2022133467 U RU 2022133467U RU 2022133467 U RU2022133467 U RU 2022133467U RU 218617 U1 RU218617 U1 RU 218617U1
- Authority
- RU
- Russia
- Prior art keywords
- microphones
- module
- deaf
- speech recognition
- array
- Prior art date
Links
- 206010011878 Deafness Diseases 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 230000036541 health Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 5
- 208000029257 vision disease Diseases 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010048865 Hypoacusis Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Images
Abstract
Полезная модель относится к ассистивным устройствам, предназначенным для использования людьми с ограниченными возможностями по слуху, слуху и зрению, а именно к массиву микрофонов, используемых автономно или в конструкциях указанных устройств. Суть полезной модели в том, что массив микрофонов для устройства распознавания речи для глухих и слепоглухих, выполненный в конструктивном единстве и включающий блок автозапуска процессов, командно-телеметрический модуль, модуль распознавания речи, модуль управления микрофонами, модуль вывода текстовой информации на дисплей Брайля и блок контроля, проверяющий работоспособность указанных модулей и блока захвата звука и блока управления устройством, дополнительно содержит четыре микрофона для захвата звука и четыре микрофона для шумоподавления, а встроенный компьютер снабжен блоком подстройки, который связан с блоком управления устройством, а также с блоками автозапуска процессов и проверки работоспособности. Полезная модель обеспечивает достижение технического результата, заключающегося в повышении распознавания речи. The utility model relates to assistive devices intended for use by people with hearing, hearing and vision disabilities, namely, to an array of microphones used independently or in the designs of these devices. The essence of the utility model is that an array of microphones for a speech recognition device for the deaf and deaf-blind, made in a constructive unity and including a block for autorun processes, a command telemetry module, a speech recognition module, a microphone control module, a module for outputting text information to a Braille display and a block control, which checks the performance of these modules and the sound capture unit and the device control unit, additionally contains four microphones for sound capture and four microphones for noise reduction, and the built-in computer is equipped with a tuning unit that is connected to the device control unit, as well as blocks for autorun processes and checks performance. The utility model achieves the technical result of improving speech recognition.
Description
Полезная модель относится к ассистивным устройствам, предназначенным для использования людьми с ограниченными возможностями по слуху, слуху и зрению, а именно к массиву микрофонов, используемых автономно или в конструкциях указанных устройств.The utility model relates to assistive devices intended for use by people with hearing, hearing and vision disabilities, namely, to an array of microphones used independently or in the designs of these devices.
Микрофонный массив - устройство, состоящее из группы микрофонов, каждый из которых направлен в определенную сторону, при этом работают они как единое целое и захватывают звуковой сигнал из разных точек помещения. Микрофонные массивы широко используются в разных областях, где необходимо организовать дистанционную запись и качественную передачу звука.Microphone array - a device consisting of a group of microphones, each of which is directed in a certain direction, while they work as a single unit and capture the sound signal from different points in the room. Microphone arrays are widely used in various areas where it is necessary to organize remote recording and high-quality sound transmission.
Широкое применение получили микрофонные массивы в ассистивных устройствах для слабослышащих, неслышащих и слепоглухих.Microphone arrays are widely used in assistive devices for the hearing-impaired, deaf-blind and deaf-blind.
Так, применение массива микрофон в устройстве для аудиовизуальной навигации слепоглухих людей раскрыто в RU 192148 (G10L 21/10, дата публикации 05.09.2019). Согласно полезной модели, массив состоит из по меньшей мере 3-х микрофонов, вычислительный модуль выполнен с возможностью получения данных с массива микрофонов в виде звуковых кадров, считывающийся таким образом, чтобы обеспечивалась аппаратная синхронизация считывания звука со всех каналов. Однако конструктивные особенности микрофонного массива не описаны в полной мере.Thus, the use of a microphone array in a device for audiovisual navigation of deaf-blind people is disclosed in RU 192148 (
Из уровня техники известен слуховой аппарат, включающий массив микрофонов из пяти направленных микрофонов, в результате чего слабослышащий человек может понимать того, кто говорит прямо напротив него. Фоновый шум, исходящий из других направлений, подавляется массивом (см. EP 1025744 A1, 09.08.2000, G02C 11/06; H04R 25/00). Электрические выходные сигналы микрофонов подаются по меньшей мере на один канал передачи, принадлежащий уху. Предусмотрены средства для получения двух выходных сигналов массива из выходных сигналов микрофонов, причем массив имеет два основных направления чувствительности, проходящих под углом друг к другу, и каждое из которых связано с выходным сигналом массива. Каждый выходной сигнал массива подается на свой тракт передачи, принадлежащий одному уху слабослышащего человека.A hearing aid is known in the art that includes a microphone array of five directional microphones, whereby a hearing impaired person can understand someone speaking directly in front of him. Background noise coming from other directions is suppressed by the array (see EP 1025744 A1, 08/09/2000,
Недостатком известного решения является то, что в устройстве не использована технология формирования луча для повышения соотношения сигнал/шум.The disadvantage of the known solution is that the device does not use beamforming technology to improve the signal-to-noise ratio.
Известно, что шумоподавление применительно к слуховым аппаратам означает ослабление нежелательных сигналов и усиление полезных сигналов. Желаемые сигналы обычно представляют собой речь, которую пользователь слухового аппарата пытается понять. Нежелательными сигналами могут быть любые окружающие звуки, которые мешают основному говорящему. Этими нежелательными звуками могут быть другие динамики, шум ресторана, музыка, шум уличного движения и т.д.It is known that noise reduction in relation to hearing aids means the attenuation of unwanted signals and the strengthening of useful signals. The desired signals are usually speech that the hearing aid user is trying to understand. Unwanted signals can be any ambient sounds that interfere with the main speaker. These unwanted sounds can be other speakers, restaurant noise, music, traffic noise, etc.
Применительно к слуховым аппаратам применяют три основных принципа шумоподавления: формирование направленного луча, спектральное вычитание, усиление речи на основе высоты тона. Целью формирования луча в слуховом аппарате является создание иллюзии «тоннельного слуха», при котором слушатель слышит то, на что он смотрит, но не слышит звуки, доносящиеся с других направлений. Если он посмотрит в направлении желаемого звука - например, на кого-то, с кем он разговаривает, - тогда другие отвлекающие звуки, например, другие говорящие, будут ослаблены. Затем формирователь луча отделяет желаемый сигнал цели «онлайн» (прямая видимость) от нежелательных сигналов «автономных» источников помех, так что цель может быть усилена, в то время как генератор помех ослабляется.Three basic principles of noise reduction apply to hearing aids: directional beamforming, spectral subtraction, and pitch-based speech enhancement. The purpose of beamforming in a hearing aid is to create the illusion of "tunnel hearing" in which the listener hears what they are looking at but does not hear sounds coming from other directions. If he looks in the direction of the desired sound—for example, at someone he is talking to—then other distracting sounds, such as other speakers, will be attenuated. The beamformer then separates the desired "online" (line of sight) target signal from the unwanted "offline" interferer signals so that the target can be amplified while the jammer is attenuated.
Кроме того, в данном устройстве отсутствует функция подстройки для определения речевых и звуковых сигналов с помощью встроенного компьютера, а также наличие возможности обработки данных и передачи на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме с помощью встроенного компьютера.In addition, this device does not have a tuning function for detecting speech and sound signals using a built-in computer, as well as the ability to process data and transfer to a smartphone or tablet for further output in text or tactile form using a built-in computer.
Массив микрофонов является встраиваемым устройством и не может использоваться автономно.The microphone array is an embedded device and cannot be used stand-alone.
Предлагаемое решение является улучшенной доработкой массива микрофонов заявителя, используемого в портативном устройстве распознавания речи и звуковых сигналов (см. RU 198673, 21.07.2020, G10L 21/00), выполненного в конструктивном единстве и включающего корпус, микрофонную решетку с модулем фильтрации шумов, блок памяти распознанной речи, аккумулятор с зарядным устройством, блок вывода информации на дисплей и блок преобразования речи. Устройство содержит плату светодиодов, выполненных с возможностью их видимости через прорези в крышке корпуса, закрытых стеклом; одноплатный компьютер, на платформу которого установлены блок автозапуска процессов, находящийся во взаимосвязи с командно-телеметрическим модулем, модулем захвата звуков, модулем управления микрофонами, модулем вывода текстовой информации на дисплей Брайля; блок контроля над работоспособностью указанных модулей и блоком запуска , а также блок распознания звуков и блок управления устройством, связанные через модули с блоком автозапуска процессов. Данное устройство отличается тем, что корпус включает крышку и дно, на дне которого монтируются платы микрофонной решетки, одноплатного компьютера, аккумулятора, платы кнопок и зарядно-разрядного устройства, скрепленные между собой. А также тем, что электрическое соединение плат и аккумулятора выполнено проводами, содержит платы для измерения напряжения аккумулятора и индикации текущего состояния устройства, содержит разъем HDMI для подключения внешнего дисплея, USB разъем для подключения дисплея Брайля проводным способом, LAN разъем для проводного подключения к сети Интернет и разъем для зарядки аккумулятора, для передачи распознанного текста или управления устройством используется дисплей мобильного телефона или экран монитора и тем, что для передачи распознанного текста или управления устройством используется дисплей Брайля.The proposed solution is an improved refinement of the applicant's microphone array used in a portable speech and sound recognition device (see RU 198673, 07/21/2020,
Благодаря указанной конструкции портативное устройство распознает не только речь, но и иные звуки. Информация о распознанных звуках поступает в преобразованном виде - в виде печатного текста или рельефно-точечного шрифта Брайля на дисплей. Кроме печатного уведомления, устройство световым направлением от светодиодов сообщает пользователю об источнике звука.Thanks to this design, the portable device recognizes not only speech, but also other sounds. Information about the recognized sounds comes in a converted form - in the form of printed text or braille dotted font on the display. In addition to the printed notification, the device informs the user about the source of the sound by light direction from the LEDs.
Вместе с тем в указанном решении не использована технология формирования луча для повышения соотношения сигнал/шум, а также отсутствует функция подстройки для определения речевых и звуковых сигналов, что ухудшает распознавание речи. Данное решение принято за ближайший аналог.However, this solution does not use beamforming technology to improve the signal-to-noise ratio, and also lacks a trim function to determine speech and audio signals, which degrades speech recognition. This decision was taken as the closest analogue.
Задача, на решение которой направлена настоящая полезная модель, заключается в создании интеллектуального высокопроизводительного массива микрофонов для распознавания речи и звуковых сигналов, повышающего качество в части распознавания речи собеседника за счет использования технологии формирования луча для повышения соотношения сигнал/шум и введения функции подстройки для определения речевых и звуковых сигналов.The task to be solved by the present utility model is to create an intelligent high-performance microphone array for speech and audio recognition, which improves the quality in terms of recognizing the interlocutor's speech by using beamforming technology to improve the signal-to-noise ratio and introducing an adjustment function to determine speech and sound signals.
Решение поставленных задач обеспечило достижение технического результата, заключающегося в повышении распознавания речи по сравнению с ближайшим аналогом.The solution of the tasks set provided the achievement of the technical result, which consists in increasing speech recognition in comparison with the closest analogue.
Достижение технического результата стало возможным благодаря тому, что в интеллектуальном массиве микрофонов предложено применить технологию формирования луча для повышения соотношения сигнал/шум и выделения направления на говорящего с использованием четырех микрофонов в массиве для захвата звука и четырех микрофонов для шумоподавления. Данную полезную модель отличает также наличие встроенного компьютера с блоком подстройки для определения речевых и звуковых сигналов, обработки данных и передачи на смартфон или планшет, который связан с блоком управления устройством, а также с блоками автозапуска процессов и проверки работоспособности.The achievement of the technical result became possible due to the fact that in an intelligent array of microphones it was proposed to apply beamforming technology to increase the signal-to-noise ratio and highlight the direction to the speaker using four microphones in the array for sound capture and four microphones for noise reduction. This utility model is also distinguished by the presence of a built-in computer with a tuning unit for determining speech and sound signals, processing data and transferring it to a smartphone or tablet, which is connected to the device control unit, as well as to autorun processes and performance check units.
При этом общими признаками с ближайшим аналогом являются выполнение устройства в конструктивном единстве и наличие следующих блоков и модулей: модуля автозапуска процессов, командно-телеметрического модуля, модуля распознавания речи, модуля управления микрофонами, модуля вывода текстовой информации на дисплей Брайля и блока контроля, проверяющего работоспособность указанных модулей и блока захвата звука и блока управления устройством.At the same time, common features with the closest analogue are the implementation of the device in a constructive unity and the presence of the following blocks and modules: an autorun process module, a command-telemetry module, a speech recognition module, a microphone control module, a module for outputting text information to a Braille display and a control unit that checks the performance the specified modules and the audio capture unit and the device control unit.
Интеллектуальный высокопроизводительный массив микрофонов для устройства распознавания речи для глухих и слепоглухих раскрыт на следующих иллюстрирующих материалах, где:An intelligent high performance microphone array for a speech recognition device for the deaf and deafblind is disclosed in the following illustrations, where:
Фиг. 1 - общий вид интеллектуального высокопроизводительного массива микрофонов;Fig. 1 is a general view of an intelligent high-performance array of microphones;
Фиг. 2 - вид массива спереди;Fig. 2 - front view of the array;
Фиг. 3 - вид массива сбоку;Fig. 3 - side view of the array;
Фиг. 4 - вид на плату ПММиК_МР сверху и снизу:Fig. 4 - view of the PMMiK_MR board from above and below:
Фиг. 5 - принцип работы алгоритма формирования луча для повышения соотношения сигнал шум;Fig. 5 shows how the beamforming algorithm works to improve the signal-to-noise ratio;
Фиг. 6 - вид на плату ПССК_МР сверху и снизу;Fig. 6 - top and bottom view of the PSSK_MR board;
Фиг. 7 - структурная схема массива микрофонов;Fig. 7 is a block diagram of the array of microphones;
Фиг. 8 - схема взаимодействия плат и ПО массива микрофонов.Fig. 8 is a diagram of the interaction between the boards and the software of the array of microphones.
На фиг. 1 представлен заявленный интеллектуальный высокопроизводительный массив микрофонов, выполненный в виде законченной технологичной сборки плат без использования проводов и кабелей. В состав устройства входят: плата массива микрофонов и контроллера модуля распознавания (ПММИК_МР) 1 с интерфейсом для подключения индикации 4; плата сопряжения с компьютером модуля распознавания (ПССК_МР) 2; плата разъемов модуля распознавания (ПР_МР) 3 с интерфейсами для подключения внешних периферийных устройств через интерфейсы: HDMI 8 для подключения внешнего дисплея, USB разъем для подключения дисплея Брайля проводным способом 7, LAN разъем для проводного подключения к сети Интернет 6, разъем для зарядки аккумулятора 10, а также разъем для подключения внешнего микрофона 9 и разъем для подключения выносного пульта 11.In FIG. 1 shows the claimed intelligent high-performance array of microphones, made in the form of a complete technological assembly of boards without the use of wires and cables. The device includes: a microphone array and recognition module controller board (PMMIC_MR) 1 with an interface for connecting an
На фиг. 2 и 3 показаны особенности размещения и соединения между собой платы массива микрофонов и контроллера модуля распознавания (ПММиК_МР) 1 и платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 с помощью межплатных разъемов 17 и 21; платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 и платы разъемов модуля распознавания (ПР_МР) 3 с помощью межплатных разъемов 22 и 23.In FIG. 2 and 3 show the features of placement and interconnection of the microphone array board and the recognition module controller (PMMiK_MR) 1 and the recognition module computer interface board (PSSK_MR) 2 using
На фиг. 4 показано конструктивное исполнение платы массива микрофонов и контроллера модуля распознавания (ПММиК_МР) 1 с интерфейсом для подключения индикации 4 и размещенными на ней микросхемой захвата звука (МЗЗ) 15, микросхема памяти 16, командно-телеметрический контроллер 12, межплатным разъемом 17, кольцом светодиодов 13 и кнопками 14.In FIG. Figure 4 shows the design of the microphone array board and the controller of the recognition module (PMMiK_MR) 1 with an interface for connecting an
Новым является использование технологии формирования луча для повышения соотношения сигнал/шум и выделения направления на говорящего использует четыре микрофона для захвата звука 19 и четыре микрофона для шумоподавления 18. Алгоритм обработки сигналов с массива микрофонов по технологии формирования луча позволяет ослабить нежелательные сигналы и усилить полезные сигналы, что повышает качество распознавания речи и иных звуков заключается в выделении направления на говорящего с последующим увеличением соотношения сигнал/шум за счет приведения шумовых и полезных сигналов с каждого микрофона решетки к единой фазе и сложения амплитуд полезных сигналов с вычитанием шумовых составляющих. Суть технологии формирования луча, представленной на фиг. 5, заключается в записи звука на пространственно разнесенную решетку микрофонов, за счет чего сигнал от источника сигнала приходит к каждому микрофону со своим сдвигом по времени ti. Так как взаимное расположение микрофонов в решетке известно можно выделить совпадающие конфигурации полезного сигнала на каждом микрофоне и сдвиг фаз ti между ними, за счет чего, зная скорость распространения звука в воздухе, можно определить направление на говорящего и компенсировать разность фаз за счет сдвига сигналов на известные величины ti и провести суммирование сигналов. При этом сигнал, пришедший от постороннего источника сигнала/помехи с другого направления (шум), будет иметь существенно меньшее усиление, обратно пропорциональное количеству микрофонов в решетке из-за отличающихся фаз сигнала с другого направления.New is the use of beamforming technology to improve the signal-to-noise ratio and highlight the direction to the speaker uses four microphones for
На фиг. 6 изображен состав платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 с встроенным компьютером (ВК) 5, на котором реализованы функции блока подстройки 29 для определения речевых и звуковых сигналов, обработки данных и передачи на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме, передача распознанного текста через сеть Интернет. Использование блока подстройки 29 помогает повысить точность работы системы захвата речи и экономит ресурсы системы и передаваемого траффика за счет использования технологии детектирования голоса, основанного на использовании нейросети, обученной определять голос и отличать его от постороннего шума (в случае, если вместо речи раздаются только посторонние звуки). В отличии от решений голосового детектора, использующего частотную фильтрацию, данный способ не отбрасывает звуки вне заданного частотного диапазона, а ищет предобученные паттерны речи в частотном спектре, захваченным микрофоном.In FIG. 6 shows the composition of the interface board with the computer of the recognition module (PSSK_MR) 2 with an embedded computer (VC) 5, on which the functions of the
Также в составе служебного программного обеспечения, встроенного ПК установлены блок автозапуска процессов, находящийся во взаимосвязи с командно-телеметрическим модулем, модулем захвата звука, модулем управления микрофонами, модулем вывода текстовой информации на дисплей Брайля; блок контроля над работоспособностью указанных модулей и блоком запуска, а также блок распознания звука и блок управления устройством, связанные с блоком автозапуска процессов. Кроме того, на плате размещены четырехпортовый USB хаб 23, звуковая карта PCM 20 для захвата звука с внешнего микрофона. Кроме того, на плате имеются разъемы HDMI 8 для подключения внешнего дисплея, межплатные разъемы 21 и 22.Also, as part of the service software, embedded PC, a process autorun block is installed, which is interconnected with a command-telemetry module, a sound capture module, a microphone control module, a module for outputting text information to a Braille display; a unit for monitoring the operability of said modules and a launch unit, as well as a sound recognition unit and a device control unit associated with the process autorun unit. In addition, the board contains a four-
На структурной электрической схеме фиг. 7 представлена схема электрических соединений между платами ПММиК_МР 1, ПССК_МР 2 с встроенным компьютером (ВК) 5, ПР_МР 3 осуществленных с помощью межплатных соединителей 17, 21, 22 и 23. На схеме также отображены типы интерфейсов, число использованных линий, напряжения питания, служебные преобразователи напряжений.In the electrical block diagram of Fig. 7 shows the diagram of electrical connections between the
С точки зрения совместной работы всех плат как единого целого логика следующая: после включения с использованием кнопок 14 и контроллера 12, подается питание на встроенный компьютер 5. После загрузки функционального и служебного программного обеспечения происходит непрерывный захват звука с микрофонов 18 и 19, который поступает в микросхему захвата звука 15 с настройками сохраненными в микросхеме памяти 16, откуда обработанный звук поступает в одноплатный ПК, где осуществляется процедура распознавания, подстройки для определения речевых и звуковых сигналов, обработка данных и передача на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме или передача распознанного текста через сеть Интернет.From the point of view of the joint operation of all boards as a single whole, the logic is as follows: after switching on using
Для управления настройками и функциями устройства используются команды от кнопок 14, которые обрабатывает контроллер 12 и отправляет команды на выполнение для встроенного компьютера 5. Кроме того, для вывода информации о состоянии устройства, контроллер 12 управляет индикацией через интерфейс подключения индикации 4. Для обеспечения работоспособности подключаемой внешней периферии, подключаемой через интерфейсы 6, 7, 8, 9, 10, дополнительно задействованы микросхемы 20, 23, данные с которых поступают на встроенный компьютер 5. Все связи и сигналы обеспечиваются через межплатные разъемы без использования кабелей, чем достигаются высокие технологичные показатели полезной модели.To control the settings and functions of the device, commands from the
Электропитание устройства может осуществляется как от аккумулятора из состава портативного устройства, так и от стандартного блока питания с выходным напряжением 5В, подключенного к бытовой сети электропитания с напряжением 220 В и частотой 50 Гц, причем при наличии подключенного аккумулятора будет происходить заряд через массив микрофонов.The device can be powered either from a battery from the portable device or from a standard power supply with an output voltage of 5V connected to a household power supply network with a voltage of 220 V and a frequency of 50 Hz, and if the battery is connected, charging will occur through an array of microphones.
В массиве микрофонов дополнительно к штатным для портативного устройства программно-аппаратным средствам (блок преобразования, блок памяти, блок вывода текстовой информации, клавиатура, дисплей и др.), реализующим стандартные функции передачи информации и ее обработки на платформу встроенного компьютера 5 установлены также с возможностью автоматического запуска при загрузке компьютера командно-телеметрический модуль 24, модуль распознавания речи 25, специализированный модуль ядра 26 для работы с микросхемой захвата звука 15, модуль вывода текстовой информации на дисплей Брайля 27, блок контроля над работоспособностью всех основных процессов 28, а также блок подстройки 29, модуль клиента для работы сервером 30, модуль взаимодействия с приложениями для смартфона или планшета 31.In the array of microphones, in addition to the regular software and hardware for a portable device (transformation unit, memory unit, text information output unit, keyboard, display, etc.), which implement standard functions for transmitting information and processing it to the platform of the embedded computer automatic start when the computer is booted command and
Автозапуск всех процессов осуществляется с помощью блока 32.Autostart of all processes is carried out using
Обеспечивают функционал интеллектуального массива микрофонов блоки захвата звука 33 и блок управления устройством 34.The functionality of the intelligent array of microphones is provided by the
Блок захвата звука 33 реализует захват звука с платы массива микрофонов и контроллера (ПММиК) 1 с помощью модуля ядра 26, детектирование начала и окончания голосовой активности, отправку звука на модуль распознавания речи 25 с использованием блока подстройки 29, вывод результата распознавания речи на внешний дисплей и дисплей Брайля с помощью модуля 27, отправлять на внешние устройства с помощью блока управления 34, на смартфоны и планшеты с помощью модуля 31 или на сервер для общения через сеть Интернет через модуль 30, а также вводить текст ответа пользователя с помощью дисплея Брайля или клавиатуры или со стороны сервера через сеть Интернет.The
Реализация детектора голосовой активности известна из уровня техники и выглядит следующим образом:The implementation of the voice activity detector is known from the prior art and is as follows:
- преобразование звукового сигнала в частотную область;- conversion of an audio signal into the frequency domain;
- подавление высокочастотных шумов в сигнале;- suppression of high-frequency noise in the signal;
- подавление шумов в захваченном сигнале в области низких частот;- suppression of noise in the captured signal in the low frequency region;
- анализ очищенного звукового сигнала на предмет наличия речи.- analysis of the purified audio signal for the presence of speech.
Распознавание речи может быть реализовано с помощью любой облачной платформы распознавания речи.Speech recognition can be implemented using any cloud-based speech recognition platform.
Для отображения текстовой информации может быть использован любой экран с подключением по HDMI и/или дисплей Брайля.Any HDMI-connected screen and/or Braille display can be used to display text information.
Блок управления устройством 34 реализует возможность управления устройством через Bluetooth Low Energy по профилю GATT, позволяет подключать устройство к сети Wi-Fi, запускать на нем проигрывание сигнала режима поиска и публикует по Bluetooth Low Energy рассылку с результатами распознавания речи. Таким образом блок 34 настраивает и управляет модулями 24, 25, 26, 27, 30 и 31, а также блоком 29.The
В интерфейсе устройства может выводиться список всех распознанных фраз, уровень заряда аккумулятора, уровень чувствительности микрофона, статус наличия или отсутствия в данный момент активного источника звука, состояние активных подключений.The device interface can display a list of all recognized phrases, battery charge level, microphone sensitivity level, the status of the presence or absence of an active sound source at the moment, the status of active connections.
На фиг. 8 схематично показана функциональная схема работы программного обеспечения предложенного портативного устройства, включающего 6 модулей 24, 25, 26, 27, 30 и 31 и пять блоков 28, 29, 32, 33 и 34. Блок автозапуска процессов 32, установленный на платформе встроенного компьютера 5 инициализирует командно-телеметрический модуль 24, модуль распознавания речи 25, модуль ядра 26 и модуль вывода текстовой информации на дисплей Брайля 27 и блоки подстройки 29 и управления устройством 34. Блок подстройки 29 инициализирует при необходимости блок захвата звука 33 и подстраивает его. Блок 28 проверяет работоспособность указанных модулей 24, 25, 26, 27, 30 и 31 и подстройки 29 и управления устройством 34 и при необходимости дает команду на повторный запуск через блок запуска 32. Обеспечивающие функционал устройства блок подстройки 29 и блок управления устройством 34 связаны напрямую, а также через модули 24, 25, 30, 31 с блоками автозапуска процессов 32 и проверки работоспособности 28.In FIG. 8 schematically shows the functional diagram of the software of the proposed portable device, which includes 6
Устройство используют следующим образом.The device is used as follows.
Через массив микрофонов, блок захвата звука, модуль распознавания речи, одноплатного компьютера, блок памяти и модуля вывода текстовой информации на дисплей Брайля, результаты распознавания речи и звуковых сигналы моментально передаются на дисплей, подключенный через HDMI вход, в том числе на дисплей мобильных телефонов и/или дисплея Брайля, в виде текста, который осведомляет пользователя обо всем происходящем вокруг него. Данный текст можно пролистывать, а можно возвращаться к нужным моментам. Также имеется возможность ввода текста ответа пользователя с помощью дисплея Брайля или подключенной через USB клавиатуры. Более того, светодиодной подсветкой всегда указывается направление стороны, с которой расположен источник звука, что позволяет пользователю своевременно на него отреагировать. Дополнительно устройство оснащено светодиодами, для более быстрого и удобного понимания расположения источника звука - они подсвечивают данное направление. Для удобства пользования устройство включает четыре кнопки управления, которые отвечают за включение, изменение размера шрифта, пролистывание текста на экране и сброс подключения мобильного телефона.Through an array of microphones, a sound capture unit, a speech recognition module, a single-board computer, a memory unit and a module for outputting text information to a Braille display, the results of speech recognition and audio signals are instantly transmitted to a display connected via an HDMI input, including the display of mobile phones and /or a Braille display, in the form of text, which makes the user aware of everything that is happening around him. This text can be scrolled through, or you can return to the right moments. It is also possible to enter the text of the user's response using a Braille display or a keyboard connected via USB. Moreover, the LED backlight always indicates the direction of the side from which the sound source is located, which allows the user to respond to it in a timely manner. Additionally, the device is equipped with LEDs for faster and more convenient understanding of the location of the sound source - they highlight this direction. For ease of use, the device includes four control buttons that are responsible for turning on, changing the font size, scrolling text on the screen and resetting the mobile phone connection.
Полезная модель может быть реализована использованием указанного устройства людьми, являющимися инвалидами по слуху или по слуху и зрению.The utility model can be implemented using the specified device by people who are deaf or hard of hearing and sight.
В первом случае, пользователь включает устройство, подключает дисплей, например, мобильный телефон беспроводным образом, через Bluetooth или экран монитора через HDMI-выход. Затем на отображенном интерфейсе экрана выбирает актуальные для себя настройки чувствительности микрофонной решетки. Во время работы пользователь в режиме реального времени будет получать информацию о том, что происходит вокруг - устройство автоматически будет преобразовывать речь и звуковые сигналы в текст на дисплее. Светодиоды визуально укажут направление источника звука, чтобы быстро отреагировать. И дополнительно направление на источник звука может быть указано словесно на дисплее или экране. Также имеется возможность набора ответа пользователем с дефектами речи с помощью клавиатуры, подключенной в порт USB устройства.In the first case, the user turns on the device, connects a display, such as a mobile phone, wirelessly via Bluetooth or a monitor screen via HDMI output. Then, on the displayed screen interface, selects the sensitivity settings of the microphone array that are relevant to him. During operation, the user will receive real-time information about what is happening around - the device will automatically convert speech and audio signals into text on the display. The LEDs will visually indicate the direction of the sound source to respond quickly. And additionally, the direction to the sound source can be indicated verbally on the display or screen. It is also possible to type a response by a user with speech defects using a keyboard connected to the USB port of the device.
Во втором случае, специальном для людей с ограниченными возможностями и по слуху, и по зрению, пользователь подключает к устройству дисплей Брайля беспроводным способом через Bluetooth или проводным способом через вход USB. Все распознанные звуковые сигналы и речь, а также направление источника звука будут моментально обработаны в текст и переданы на дисплей Брайля, тем самым позволяя пользователю свободно ориентироваться и воспринимать информацию от окружающих людей и предметов. Также имеется возможность набора ответа пользователем с дефектами речи с помощью дисплея Брайля.In the second case, dedicated to people with both hearing and visual impairments, the user connects a braille display to the device wirelessly via Bluetooth or wired via a USB input. All recognized audio signals and speech, as well as the direction of the sound source, will be instantly processed into text and transferred to the Braille display, thereby allowing the user to freely navigate and perceive information from surrounding people and objects. It is also possible to type a response by a user with speech impediments using a Braille display.
Как показали проведенные эксперименты, предлагаемое устройство примерно в 2 раза лучше распознает речь, чем ближайший аналог.As shown by the experiments, the proposed device recognizes speech approximately 2 times better than the closest analogue.
Система формирования луча была протестирована на тестовых экземплярах устройства распознавания речи ближайшего аналога. В результате испытаний уровень подавления шумов вне диаграммы направленности составил -12 дБ. Также был проверен блок подстройки, который дал прирост точности распознавания на 16%, быстродействия системы на 5% и снизил количество бесполезного (не содержащего речь) сигнала для распознавания при типовом использовании на 30%.The beamforming system was tested on test specimens of the closest analogue speech recognition device. As a result of testing, the level of noise suppression out of the radiation pattern was -12 dB. A tuning block was also tested, which gave an increase in recognition accuracy by 16%, system speed by 5% and reduced the amount of useless (non-speech) signal for recognition in typical use by 30%.
Claims (1)
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU218617U1 true RU218617U1 (en) | 2023-06-02 |
Family
ID=
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1025744A1 (en) * | 1997-10-20 | 2000-08-09 | Technische Universiteit Delft | Hearing aid comprising an array of microphones |
| RU2312646C2 (en) * | 2005-12-05 | 2007-12-20 | Андрей Всеволодович Воробьев | Apparatus for partial substitution of speaking and hearing functions |
| RU198673U1 (en) * | 2020-03-27 | 2020-07-21 | Общество с ограниченной ответственностью "Сенсор-Тех" | PORTABLE SPEECH AND SOUND RECOGNITION |
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1025744A1 (en) * | 1997-10-20 | 2000-08-09 | Technische Universiteit Delft | Hearing aid comprising an array of microphones |
| RU2312646C2 (en) * | 2005-12-05 | 2007-12-20 | Андрей Всеволодович Воробьев | Apparatus for partial substitution of speaking and hearing functions |
| RU198673U1 (en) * | 2020-03-27 | 2020-07-21 | Общество с ограниченной ответственностью "Сенсор-Тех" | PORTABLE SPEECH AND SOUND RECOGNITION |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20250298576A1 (en) | Changing companion communication device behavior based on status of wearable device | |
| CN111630876B (en) | Audio equipment and audio processing method | |
| DK1912474T3 (en) | A method of operating a hearing assistance device and a hearing assistance device | |
| WO2019147034A1 (en) | Electronic device for controlling sound and operation method therefor | |
| US20170303052A1 (en) | Wearable auditory feedback device | |
| EP3598435A1 (en) | Method for processing information and electronic device | |
| CN111741404B (en) | Sound pickup equipment, sound pickup system and sound signal acquisition method | |
| US10379507B2 (en) | Voice control type bath system and operating method thereof | |
| CN111370018A (en) | Audio data processing method, electronic device and medium | |
| US10916159B2 (en) | Speech translation and recognition for the deaf | |
| CN111863020A (en) | Voice signal processing method, device, equipment and storage medium | |
| CN111613213B (en) | Audio classification method, device, equipment and storage medium | |
| CN112771893A (en) | 3D sound effect implementation method and device, storage medium and electronic equipment | |
| RU218617U1 (en) | Intelligent high-performance speech recognition device for the deaf and deaf-blind, containing microphones | |
| CN111554314A (en) | Noise detection method, device, terminal and storage medium | |
| CN109979473A (en) | A kind of call sound processing method and device, terminal device | |
| CN113380249A (en) | Voice control method, device, equipment and storage medium | |
| CN216531604U (en) | Projector and projection kit | |
| KR102734381B1 (en) | Electronic device and method for processing audio signal using the same | |
| CN213547829U (en) | Circuit structure and terminal of microphone | |
| WO2023068741A1 (en) | Method for guiding mounting of wearable device | |
| CN115835079A (en) | Transparent transmission mode switching method and switching device | |
| WO2021091063A1 (en) | Electronic device and control method thereof | |
| JP2022042234A (en) | Sound pickup system | |
| EP4422215A1 (en) | Audio playing method and related apparatus |