RU218617U1

RU218617U1 - Intelligent high-performance speech recognition device for the deaf and deaf-blind, containing microphones

Info

Publication number: RU218617U1
Application number: RU2022133467U
Authority: RU
Inventors: Денис Сергеевич Кулешов; Александр Викторович Попов; Александр Николаевич Семененко
Original assignee: Общество с ограниченной ответственностью "Сенсор-Тех"
Filing date: 2022-12-20
Publication date: 2023-06-02

Abstract

Полезная модель относится к ассистивным устройствам, предназначенным для использования людьми с ограниченными возможностями по слуху, слуху и зрению, а именно к массиву микрофонов, используемых автономно или в конструкциях указанных устройств. Суть полезной модели в том, что массив микрофонов для устройства распознавания речи для глухих и слепоглухих, выполненный в конструктивном единстве и включающий блок автозапуска процессов, командно-телеметрический модуль, модуль распознавания речи, модуль управления микрофонами, модуль вывода текстовой информации на дисплей Брайля и блок контроля, проверяющий работоспособность указанных модулей и блока захвата звука и блока управления устройством, дополнительно содержит четыре микрофона для захвата звука и четыре микрофона для шумоподавления, а встроенный компьютер снабжен блоком подстройки, который связан с блоком управления устройством, а также с блоками автозапуска процессов и проверки работоспособности. Полезная модель обеспечивает достижение технического результата, заключающегося в повышении распознавания речи.

The utility model relates to assistive devices intended for use by people with hearing, hearing and vision disabilities, namely, to an array of microphones used independently or in the designs of these devices. The essence of the utility model is that an array of microphones for a speech recognition device for the deaf and deaf-blind, made in a constructive unity and including a block for autorun processes, a command telemetry module, a speech recognition module, a microphone control module, a module for outputting text information to a Braille display and a block control, which checks the performance of these modules and the sound capture unit and the device control unit, additionally contains four microphones for sound capture and four microphones for noise reduction, and the built-in computer is equipped with a tuning unit that is connected to the device control unit, as well as blocks for autorun processes and checks performance. The utility model achieves the technical result of improving speech recognition.

Description

Полезная модель относится к ассистивным устройствам, предназначенным для использования людьми с ограниченными возможностями по слуху, слуху и зрению, а именно к массиву микрофонов, используемых автономно или в конструкциях указанных устройств.The utility model relates to assistive devices intended for use by people with hearing, hearing and vision disabilities, namely, to an array of microphones used independently or in the designs of these devices.

Микрофонный массив - устройство, состоящее из группы микрофонов, каждый из которых направлен в определенную сторону, при этом работают они как единое целое и захватывают звуковой сигнал из разных точек помещения. Микрофонные массивы широко используются в разных областях, где необходимо организовать дистанционную запись и качественную передачу звука.Microphone array - a device consisting of a group of microphones, each of which is directed in a certain direction, while they work as a single unit and capture the sound signal from different points in the room. Microphone arrays are widely used in various areas where it is necessary to organize remote recording and high-quality sound transmission.

Широкое применение получили микрофонные массивы в ассистивных устройствах для слабослышащих, неслышащих и слепоглухих.Microphone arrays are widely used in assistive devices for the hearing-impaired, deaf-blind and deaf-blind.

Так, применение массива микрофон в устройстве для аудиовизуальной навигации слепоглухих людей раскрыто в RU 192148 (G10L 21/10, дата публикации 05.09.2019). Согласно полезной модели, массив состоит из по меньшей мере 3-х микрофонов, вычислительный модуль выполнен с возможностью получения данных с массива микрофонов в виде звуковых кадров, считывающийся таким образом, чтобы обеспечивалась аппаратная синхронизация считывания звука со всех каналов. Однако конструктивные особенности микрофонного массива не описаны в полной мере.Thus, the use of a microphone array in a device for audiovisual navigation of deaf-blind people is disclosed in RU 192148 (G10L 21/10, publication date 09/05/2019). According to the utility model, the array consists of at least 3 microphones, the computing module is configured to receive data from the array of microphones in the form of sound frames, read in such a way as to ensure hardware synchronization of sound reading from all channels. However, the design features of the microphone array are not fully described.

Из уровня техники известен слуховой аппарат, включающий массив микрофонов из пяти направленных микрофонов, в результате чего слабослышащий человек может понимать того, кто говорит прямо напротив него. Фоновый шум, исходящий из других направлений, подавляется массивом (см. EP 1025744 A1, 09.08.2000, G02C 11/06; H04R 25/00). Электрические выходные сигналы микрофонов подаются по меньшей мере на один канал передачи, принадлежащий уху. Предусмотрены средства для получения двух выходных сигналов массива из выходных сигналов микрофонов, причем массив имеет два основных направления чувствительности, проходящих под углом друг к другу, и каждое из которых связано с выходным сигналом массива. Каждый выходной сигнал массива подается на свой тракт передачи, принадлежащий одному уху слабослышащего человека.A hearing aid is known in the art that includes a microphone array of five directional microphones, whereby a hearing impaired person can understand someone speaking directly in front of him. Background noise coming from other directions is suppressed by the array (see EP 1025744 A1, 08/09/2000, G02C 11/06; H04R 25/00). The electrical output signals of the microphones are applied to at least one transmission channel belonging to the ear. Means are provided for obtaining two array outputs from the outputs of the microphones, the array having two main sensing directions at an angle to each other, each of which is associated with the output of the array. Each output signal of the array is fed into its own transmission path belonging to one ear of the hearing impaired person.

Недостатком известного решения является то, что в устройстве не использована технология формирования луча для повышения соотношения сигнал/шум.The disadvantage of the known solution is that the device does not use beamforming technology to improve the signal-to-noise ratio.

Известно, что шумоподавление применительно к слуховым аппаратам означает ослабление нежелательных сигналов и усиление полезных сигналов. Желаемые сигналы обычно представляют собой речь, которую пользователь слухового аппарата пытается понять. Нежелательными сигналами могут быть любые окружающие звуки, которые мешают основному говорящему. Этими нежелательными звуками могут быть другие динамики, шум ресторана, музыка, шум уличного движения и т.д.It is known that noise reduction in relation to hearing aids means the attenuation of unwanted signals and the strengthening of useful signals. The desired signals are usually speech that the hearing aid user is trying to understand. Unwanted signals can be any ambient sounds that interfere with the main speaker. These unwanted sounds can be other speakers, restaurant noise, music, traffic noise, etc.

Применительно к слуховым аппаратам применяют три основных принципа шумоподавления: формирование направленного луча, спектральное вычитание, усиление речи на основе высоты тона. Целью формирования луча в слуховом аппарате является создание иллюзии «тоннельного слуха», при котором слушатель слышит то, на что он смотрит, но не слышит звуки, доносящиеся с других направлений. Если он посмотрит в направлении желаемого звука - например, на кого-то, с кем он разговаривает, - тогда другие отвлекающие звуки, например, другие говорящие, будут ослаблены. Затем формирователь луча отделяет желаемый сигнал цели «онлайн» (прямая видимость) от нежелательных сигналов «автономных» источников помех, так что цель может быть усилена, в то время как генератор помех ослабляется.Three basic principles of noise reduction apply to hearing aids: directional beamforming, spectral subtraction, and pitch-based speech enhancement. The purpose of beamforming in a hearing aid is to create the illusion of "tunnel hearing" in which the listener hears what they are looking at but does not hear sounds coming from other directions. If he looks in the direction of the desired sound—for example, at someone he is talking to—then other distracting sounds, such as other speakers, will be attenuated. The beamformer then separates the desired "online" (line of sight) target signal from the unwanted "offline" interferer signals so that the target can be amplified while the jammer is attenuated.

Кроме того, в данном устройстве отсутствует функция подстройки для определения речевых и звуковых сигналов с помощью встроенного компьютера, а также наличие возможности обработки данных и передачи на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме с помощью встроенного компьютера.In addition, this device does not have a tuning function for detecting speech and sound signals using a built-in computer, as well as the ability to process data and transfer to a smartphone or tablet for further output in text or tactile form using a built-in computer.

Массив микрофонов является встраиваемым устройством и не может использоваться автономно.The microphone array is an embedded device and cannot be used stand-alone.

Предлагаемое решение является улучшенной доработкой массива микрофонов заявителя, используемого в портативном устройстве распознавания речи и звуковых сигналов (см. RU 198673, 21.07.2020, G10L 21/00), выполненного в конструктивном единстве и включающего корпус, микрофонную решетку с модулем фильтрации шумов, блок памяти распознанной речи, аккумулятор с зарядным устройством, блок вывода информации на дисплей и блок преобразования речи. Устройство содержит плату светодиодов, выполненных с возможностью их видимости через прорези в крышке корпуса, закрытых стеклом; одноплатный компьютер, на платформу которого установлены блок автозапуска процессов, находящийся во взаимосвязи с командно-телеметрическим модулем, модулем захвата звуков, модулем управления микрофонами, модулем вывода текстовой информации на дисплей Брайля; блок контроля над работоспособностью указанных модулей и блоком запуска , а также блок распознания звуков и блок управления устройством, связанные через модули с блоком автозапуска процессов. Данное устройство отличается тем, что корпус включает крышку и дно, на дне которого монтируются платы микрофонной решетки, одноплатного компьютера, аккумулятора, платы кнопок и зарядно-разрядного устройства, скрепленные между собой. А также тем, что электрическое соединение плат и аккумулятора выполнено проводами, содержит платы для измерения напряжения аккумулятора и индикации текущего состояния устройства, содержит разъем HDMI для подключения внешнего дисплея, USB разъем для подключения дисплея Брайля проводным способом, LAN разъем для проводного подключения к сети Интернет и разъем для зарядки аккумулятора, для передачи распознанного текста или управления устройством используется дисплей мобильного телефона или экран монитора и тем, что для передачи распознанного текста или управления устройством используется дисплей Брайля.The proposed solution is an improved refinement of the applicant's microphone array used in a portable speech and sound recognition device (see RU 198673, 07/21/2020, G10L 21/00), made in a constructive unity and including a housing, a microphone array with a noise filtering module, a block memory of recognized speech, a battery with a charger, a block for displaying information on the display and a block for speech conversion. The device contains a board of LEDs, made with the possibility of their visibility through the slots in the housing cover, covered with glass; a single-board computer, on the platform of which an autorun process block is installed, which is interconnected with a command-telemetry module, a sound capture module, a microphone control module, a module for outputting text information to a Braille display; a block for monitoring the operability of these modules and a block for launching, as well as a block for recognizing sounds and a block for controlling a device, connected through modules with a block for autorun processes. This device differs in that the housing includes a cover and a bottom, at the bottom of which boards of a microphone array, a single-board computer, a battery, a board of buttons and a charger-discharge device are mounted, fastened together. And also by the fact that the electrical connection of the boards and the battery is made by wires, contains boards for measuring the battery voltage and indicating the current state of the device, contains an HDMI connector for connecting an external display, a USB connector for connecting a Braille display in a wired way, a LAN connector for a wired connection to the Internet and a connector for charging the battery, a mobile phone display or monitor screen is used to transmit recognized text or control the device, and that a Braille display is used to transmit recognized text or control the device.

Благодаря указанной конструкции портативное устройство распознает не только речь, но и иные звуки. Информация о распознанных звуках поступает в преобразованном виде - в виде печатного текста или рельефно-точечного шрифта Брайля на дисплей. Кроме печатного уведомления, устройство световым направлением от светодиодов сообщает пользователю об источнике звука.Thanks to this design, the portable device recognizes not only speech, but also other sounds. Information about the recognized sounds comes in a converted form - in the form of printed text or braille dotted font on the display. In addition to the printed notification, the device informs the user about the source of the sound by light direction from the LEDs.

Вместе с тем в указанном решении не использована технология формирования луча для повышения соотношения сигнал/шум, а также отсутствует функция подстройки для определения речевых и звуковых сигналов, что ухудшает распознавание речи. Данное решение принято за ближайший аналог.However, this solution does not use beamforming technology to improve the signal-to-noise ratio, and also lacks a trim function to determine speech and audio signals, which degrades speech recognition. This decision was taken as the closest analogue.

Задача, на решение которой направлена настоящая полезная модель, заключается в создании интеллектуального высокопроизводительного массива микрофонов для распознавания речи и звуковых сигналов, повышающего качество в части распознавания речи собеседника за счет использования технологии формирования луча для повышения соотношения сигнал/шум и введения функции подстройки для определения речевых и звуковых сигналов.The task to be solved by the present utility model is to create an intelligent high-performance microphone array for speech and audio recognition, which improves the quality in terms of recognizing the interlocutor's speech by using beamforming technology to improve the signal-to-noise ratio and introducing an adjustment function to determine speech and sound signals.

Решение поставленных задач обеспечило достижение технического результата, заключающегося в повышении распознавания речи по сравнению с ближайшим аналогом.The solution of the tasks set provided the achievement of the technical result, which consists in increasing speech recognition in comparison with the closest analogue.

Достижение технического результата стало возможным благодаря тому, что в интеллектуальном массиве микрофонов предложено применить технологию формирования луча для повышения соотношения сигнал/шум и выделения направления на говорящего с использованием четырех микрофонов в массиве для захвата звука и четырех микрофонов для шумоподавления. Данную полезную модель отличает также наличие встроенного компьютера с блоком подстройки для определения речевых и звуковых сигналов, обработки данных и передачи на смартфон или планшет, который связан с блоком управления устройством, а также с блоками автозапуска процессов и проверки работоспособности.The achievement of the technical result became possible due to the fact that in an intelligent array of microphones it was proposed to apply beamforming technology to increase the signal-to-noise ratio and highlight the direction to the speaker using four microphones in the array for sound capture and four microphones for noise reduction. This utility model is also distinguished by the presence of a built-in computer with a tuning unit for determining speech and sound signals, processing data and transferring it to a smartphone or tablet, which is connected to the device control unit, as well as to autorun processes and performance check units.

При этом общими признаками с ближайшим аналогом являются выполнение устройства в конструктивном единстве и наличие следующих блоков и модулей: модуля автозапуска процессов, командно-телеметрического модуля, модуля распознавания речи, модуля управления микрофонами, модуля вывода текстовой информации на дисплей Брайля и блока контроля, проверяющего работоспособность указанных модулей и блока захвата звука и блока управления устройством.At the same time, common features with the closest analogue are the implementation of the device in a constructive unity and the presence of the following blocks and modules: an autorun process module, a command-telemetry module, a speech recognition module, a microphone control module, a module for outputting text information to a Braille display and a control unit that checks the performance the specified modules and the audio capture unit and the device control unit.

Интеллектуальный высокопроизводительный массив микрофонов для устройства распознавания речи для глухих и слепоглухих раскрыт на следующих иллюстрирующих материалах, где:An intelligent high performance microphone array for a speech recognition device for the deaf and deafblind is disclosed in the following illustrations, where:

Фиг. 1 - общий вид интеллектуального высокопроизводительного массива микрофонов;Fig. 1 is a general view of an intelligent high-performance array of microphones;

Фиг. 2 - вид массива спереди;Fig. 2 - front view of the array;

Фиг. 3 - вид массива сбоку;Fig. 3 - side view of the array;

Фиг. 4 - вид на плату ПММиК_МР сверху и снизу:Fig. 4 - view of the PMMiK_MR board from above and below:

Фиг. 5 - принцип работы алгоритма формирования луча для повышения соотношения сигнал шум;Fig. 5 shows how the beamforming algorithm works to improve the signal-to-noise ratio;

Фиг. 6 - вид на плату ПССК_МР сверху и снизу;Fig. 6 - top and bottom view of the PSSK_MR board;

Фиг. 7 - структурная схема массива микрофонов;Fig. 7 is a block diagram of the array of microphones;

Фиг. 8 - схема взаимодействия плат и ПО массива микрофонов.Fig. 8 is a diagram of the interaction between the boards and the software of the array of microphones.

На фиг. 1 представлен заявленный интеллектуальный высокопроизводительный массив микрофонов, выполненный в виде законченной технологичной сборки плат без использования проводов и кабелей. В состав устройства входят: плата массива микрофонов и контроллера модуля распознавания (ПММИК_МР) 1 с интерфейсом для подключения индикации 4; плата сопряжения с компьютером модуля распознавания (ПССК_МР) 2; плата разъемов модуля распознавания (ПР_МР) 3 с интерфейсами для подключения внешних периферийных устройств через интерфейсы: HDMI 8 для подключения внешнего дисплея, USB разъем для подключения дисплея Брайля проводным способом 7, LAN разъем для проводного подключения к сети Интернет 6, разъем для зарядки аккумулятора 10, а также разъем для подключения внешнего микрофона 9 и разъем для подключения выносного пульта 11.In FIG. 1 shows the claimed intelligent high-performance array of microphones, made in the form of a complete technological assembly of boards without the use of wires and cables. The device includes: a microphone array and recognition module controller board (PMMIC_MR) 1 with an interface for connecting an indication 4; board for interfacing with the computer of the recognition module (PSSK_MR) 2; recognition module connector board (PR_MR) 3 with interfaces for connecting external peripheral devices via interfaces: HDMI 8 for connecting an external display, USB connector for connecting a Braille display in a wired way 7, LAN connector for wired connection to the Internet 6, connector for charging the battery 10 , as well as a connector for connecting an external microphone 9 and a connector for connecting a remote control 11.

На фиг. 2 и 3 показаны особенности размещения и соединения между собой платы массива микрофонов и контроллера модуля распознавания (ПММиК_МР) 1 и платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 с помощью межплатных разъемов 17 и 21; платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 и платы разъемов модуля распознавания (ПР_МР) 3 с помощью межплатных разъемов 22 и 23.In FIG. 2 and 3 show the features of placement and interconnection of the microphone array board and the recognition module controller (PMMiK_MR) 1 and the recognition module computer interface board (PSSK_MR) 2 using interboard connectors 17 and 21; PC interface board of the recognition module (PSSK_MR) 2 and connector board of the recognition module (PR_MP) 3 using interboard connectors 22 and 23.

На фиг. 4 показано конструктивное исполнение платы массива микрофонов и контроллера модуля распознавания (ПММиК_МР) 1 с интерфейсом для подключения индикации 4 и размещенными на ней микросхемой захвата звука (МЗЗ) 15, микросхема памяти 16, командно-телеметрический контроллер 12, межплатным разъемом 17, кольцом светодиодов 13 и кнопками 14.In FIG. Figure 4 shows the design of the microphone array board and the controller of the recognition module (PMMiK_MR) 1 with an interface for connecting an indication 4 and placed on it a sound capture chip (MSZ) 15, a memory chip 16, a command-telemetry controller 12, an interboard connector 17, a ring of LEDs 13 and buttons 14.

Новым является использование технологии формирования луча для повышения соотношения сигнал/шум и выделения направления на говорящего использует четыре микрофона для захвата звука 19 и четыре микрофона для шумоподавления 18. Алгоритм обработки сигналов с массива микрофонов по технологии формирования луча позволяет ослабить нежелательные сигналы и усилить полезные сигналы, что повышает качество распознавания речи и иных звуков заключается в выделении направления на говорящего с последующим увеличением соотношения сигнал/шум за счет приведения шумовых и полезных сигналов с каждого микрофона решетки к единой фазе и сложения амплитуд полезных сигналов с вычитанием шумовых составляющих. Суть технологии формирования луча, представленной на фиг. 5, заключается в записи звука на пространственно разнесенную решетку микрофонов, за счет чего сигнал от источника сигнала приходит к каждому микрофону со своим сдвигом по времени t_i. Так как взаимное расположение микрофонов в решетке известно можно выделить совпадающие конфигурации полезного сигнала на каждом микрофоне и сдвиг фаз t_i между ними, за счет чего, зная скорость распространения звука в воздухе, можно определить направление на говорящего и компенсировать разность фаз за счет сдвига сигналов на известные величины t_i и провести суммирование сигналов. При этом сигнал, пришедший от постороннего источника сигнала/помехи с другого направления (шум), будет иметь существенно меньшее усиление, обратно пропорциональное количеству микрофонов в решетке из-за отличающихся фаз сигнала с другого направления.New is the use of beamforming technology to improve the signal-to-noise ratio and highlight the direction to the speaker uses four microphones for sound pickup 19 and four microphones for noise reduction 18. Beamforming technology's signal processing algorithm from the microphone array can attenuate unwanted signals and enhance useful signals, what improves the quality of recognition of speech and other sounds consists in highlighting the direction to the speaker with a subsequent increase in the signal-to-noise ratio by bringing the noise and useful signals from each microphone of the array to a single phase and adding the amplitudes of the useful signals with the subtraction of the noise components. The essence of the beamforming technology shown in Fig. 5 consists in recording sound on a spatially spaced array of microphones, due to which the signal from the signal source arrives at each microphone with its own time shift t _i . Since the mutual arrangement of the microphones in the array is known, it is possible to identify the matching configurations of the useful signal on each microphone and the phase shift t _i between them, due to which, knowing the speed of sound propagation in the air, it is possible to determine the direction to the speaker and compensate for the phase difference due to the signal shift by known values of t _i and sum the signals. In this case, the signal coming from an external signal/interference source from another direction (noise) will have a significantly lower gain, inversely proportional to the number of microphones in the array due to different signal phases from the other direction.

На фиг. 6 изображен состав платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 с встроенным компьютером (ВК) 5, на котором реализованы функции блока подстройки 29 для определения речевых и звуковых сигналов, обработки данных и передачи на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме, передача распознанного текста через сеть Интернет. Использование блока подстройки 29 помогает повысить точность работы системы захвата речи и экономит ресурсы системы и передаваемого траффика за счет использования технологии детектирования голоса, основанного на использовании нейросети, обученной определять голос и отличать его от постороннего шума (в случае, если вместо речи раздаются только посторонние звуки). В отличии от решений голосового детектора, использующего частотную фильтрацию, данный способ не отбрасывает звуки вне заданного частотного диапазона, а ищет предобученные паттерны речи в частотном спектре, захваченным микрофоном.In FIG. 6 shows the composition of the interface board with the computer of the recognition module (PSSK_MR) 2 with an embedded computer (VC) 5, on which the functions of the tuning unit 29 are implemented for determining speech and sound signals, processing data and transferring it to a smartphone or tablet for further output in text or tactile form, transmission of recognized text via the Internet. The use of tuner 29 helps to improve the accuracy of the speech capture system and saves system resources and transmitted traffic through the use of voice detection technology based on the use of a neural network trained to detect voice and distinguish it from extraneous noise (if only extraneous sounds are heard instead of speech ). Unlike voice detector solutions that use frequency filtering, this method does not reject sounds outside the specified frequency range, but searches for pre-trained speech patterns in the frequency spectrum captured by the microphone.

Также в составе служебного программного обеспечения, встроенного ПК установлены блок автозапуска процессов, находящийся во взаимосвязи с командно-телеметрическим модулем, модулем захвата звука, модулем управления микрофонами, модулем вывода текстовой информации на дисплей Брайля; блок контроля над работоспособностью указанных модулей и блоком запуска, а также блок распознания звука и блок управления устройством, связанные с блоком автозапуска процессов. Кроме того, на плате размещены четырехпортовый USB хаб 23, звуковая карта PCM 20 для захвата звука с внешнего микрофона. Кроме того, на плате имеются разъемы HDMI 8 для подключения внешнего дисплея, межплатные разъемы 21 и 22.Also, as part of the service software, embedded PC, a process autorun block is installed, which is interconnected with a command-telemetry module, a sound capture module, a microphone control module, a module for outputting text information to a Braille display; a unit for monitoring the operability of said modules and a launch unit, as well as a sound recognition unit and a device control unit associated with the process autorun unit. In addition, the board contains a four-port USB hub 23, a PCM 20 sound card for capturing sound from an external microphone. In addition, the board has HDMI 8 connectors for connecting an external display, board-to-board connectors 21 and 22.

На структурной электрической схеме фиг. 7 представлена схема электрических соединений между платами ПММиК_МР 1, ПССК_МР 2 с встроенным компьютером (ВК) 5, ПР_МР 3 осуществленных с помощью межплатных соединителей 17, 21, 22 и 23. На схеме также отображены типы интерфейсов, число использованных линий, напряжения питания, служебные преобразователи напряжений.In the electrical block diagram of Fig. 7 shows the diagram of electrical connections between the boards PMMiK_MR 1, PSSK_MR 2 with built-in computer (VC) 5, PR_MR 3 made using interboard connectors 17, 21, 22 and 23. The diagram also displays the types of interfaces, the number of lines used, supply voltages, service voltage converters.

С точки зрения совместной работы всех плат как единого целого логика следующая: после включения с использованием кнопок 14 и контроллера 12, подается питание на встроенный компьютер 5. После загрузки функционального и служебного программного обеспечения происходит непрерывный захват звука с микрофонов 18 и 19, который поступает в микросхему захвата звука 15 с настройками сохраненными в микросхеме памяти 16, откуда обработанный звук поступает в одноплатный ПК, где осуществляется процедура распознавания, подстройки для определения речевых и звуковых сигналов, обработка данных и передача на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме или передача распознанного текста через сеть Интернет.From the point of view of the joint operation of all boards as a single whole, the logic is as follows: after switching on using buttons 14 and controller 12, power is supplied to the built-in computer 5. After loading the functional and service software, sound is continuously captured from microphones 18 and 19, which enters sound capture chip 15 with the settings stored in the memory chip 16, from where the processed sound goes to a single-board PC, where the recognition procedure, adjustments to determine speech and sound signals, data processing and transmission to a smartphone or tablet for further output in text or tactile form, or transmission of recognized text via the Internet.

Для управления настройками и функциями устройства используются команды от кнопок 14, которые обрабатывает контроллер 12 и отправляет команды на выполнение для встроенного компьютера 5. Кроме того, для вывода информации о состоянии устройства, контроллер 12 управляет индикацией через интерфейс подключения индикации 4. Для обеспечения работоспособности подключаемой внешней периферии, подключаемой через интерфейсы 6, 7, 8, 9, 10, дополнительно задействованы микросхемы 20, 23, данные с которых поступают на встроенный компьютер 5. Все связи и сигналы обеспечиваются через межплатные разъемы без использования кабелей, чем достигаются высокие технологичные показатели полезной модели.To control the settings and functions of the device, commands from the buttons 14 are used, which are processed by the controller 12 and send commands for execution to the built-in computer 5. In addition, to display information about the state of the device, the controller 12 controls the indication through the indication connection interface 4. To ensure the operability of the connected external peripherals connected via interfaces 6, 7, 8, 9, 10 additionally involve microcircuits 20, 23, data from which is sent to the built-in computer 5. All communications and signals are provided through board-to-board connectors without the use of cables, which achieves high technological performance models.

Электропитание устройства может осуществляется как от аккумулятора из состава портативного устройства, так и от стандартного блока питания с выходным напряжением 5В, подключенного к бытовой сети электропитания с напряжением 220 В и частотой 50 Гц, причем при наличии подключенного аккумулятора будет происходить заряд через массив микрофонов.The device can be powered either from a battery from the portable device or from a standard power supply with an output voltage of 5V connected to a household power supply network with a voltage of 220 V and a frequency of 50 Hz, and if the battery is connected, charging will occur through an array of microphones.

В массиве микрофонов дополнительно к штатным для портативного устройства программно-аппаратным средствам (блок преобразования, блок памяти, блок вывода текстовой информации, клавиатура, дисплей и др.), реализующим стандартные функции передачи информации и ее обработки на платформу встроенного компьютера 5 установлены также с возможностью автоматического запуска при загрузке компьютера командно-телеметрический модуль 24, модуль распознавания речи 25, специализированный модуль ядра 26 для работы с микросхемой захвата звука 15, модуль вывода текстовой информации на дисплей Брайля 27, блок контроля над работоспособностью всех основных процессов 28, а также блок подстройки 29, модуль клиента для работы сервером 30, модуль взаимодействия с приложениями для смартфона или планшета 31.In the array of microphones, in addition to the regular software and hardware for a portable device (transformation unit, memory unit, text information output unit, keyboard, display, etc.), which implement standard functions for transmitting information and processing it to the platform of the embedded computer automatic start when the computer is booted command and telemetry module 24, speech recognition module 25, a specialized kernel module 26 for working with a sound capture chip 15, a module for displaying text information on a Braille display 27, a block for monitoring the performance of all main processes 28, as well as a tuning block 29, a client module for working as a server 30, a module for interacting with applications for a smartphone or tablet 31.

Автозапуск всех процессов осуществляется с помощью блока 32.Autostart of all processes is carried out using block 32.

Обеспечивают функционал интеллектуального массива микрофонов блоки захвата звука 33 и блок управления устройством 34.The functionality of the intelligent array of microphones is provided by the sound capture units 33 and the device control unit 34.

Блок захвата звука 33 реализует захват звука с платы массива микрофонов и контроллера (ПММиК) 1 с помощью модуля ядра 26, детектирование начала и окончания голосовой активности, отправку звука на модуль распознавания речи 25 с использованием блока подстройки 29, вывод результата распознавания речи на внешний дисплей и дисплей Брайля с помощью модуля 27, отправлять на внешние устройства с помощью блока управления 34, на смартфоны и планшеты с помощью модуля 31 или на сервер для общения через сеть Интернет через модуль 30, а также вводить текст ответа пользователя с помощью дисплея Брайля или клавиатуры или со стороны сервера через сеть Интернет.The sound capture unit 33 implements sound capture from the microphone array and controller board (PMMiK) 1 using the core module 26, detection of the beginning and end of voice activity, sending sound to the speech recognition module 25 using the tuning unit 29, outputting the result of speech recognition to an external display and Braille display using module 27, send to external devices using control unit 34, to smartphones and tablets using module 31 or to a server for communication via the Internet via module 30, and enter the text of the user's response using Braille display or keyboard or from the server side via the Internet.

Реализация детектора голосовой активности известна из уровня техники и выглядит следующим образом:The implementation of the voice activity detector is known from the prior art and is as follows:

- преобразование звукового сигнала в частотную область;- conversion of an audio signal into the frequency domain;

- подавление высокочастотных шумов в сигнале;- suppression of high-frequency noise in the signal;

- подавление шумов в захваченном сигнале в области низких частот;- suppression of noise in the captured signal in the low frequency region;

- анализ очищенного звукового сигнала на предмет наличия речи.- analysis of the purified audio signal for the presence of speech.

Распознавание речи может быть реализовано с помощью любой облачной платформы распознавания речи.Speech recognition can be implemented using any cloud-based speech recognition platform.

Для отображения текстовой информации может быть использован любой экран с подключением по HDMI и/или дисплей Брайля.Any HDMI-connected screen and/or Braille display can be used to display text information.

Блок управления устройством 34 реализует возможность управления устройством через Bluetooth Low Energy по профилю GATT, позволяет подключать устройство к сети Wi-Fi, запускать на нем проигрывание сигнала режима поиска и публикует по Bluetooth Low Energy рассылку с результатами распознавания речи. Таким образом блок 34 настраивает и управляет модулями 24, 25, 26, 27, 30 и 31, а также блоком 29.The device control unit 34 implements the ability to control the device via Bluetooth Low Energy according to the GATT profile, allows you to connect the device to a Wi-Fi network, start playing a search mode signal on it, and publishes a distribution via Bluetooth Low Energy with speech recognition results. Thus block 34 configures and controls modules 24, 25, 26, 27, 30 and 31, as well as block 29.

В интерфейсе устройства может выводиться список всех распознанных фраз, уровень заряда аккумулятора, уровень чувствительности микрофона, статус наличия или отсутствия в данный момент активного источника звука, состояние активных подключений.The device interface can display a list of all recognized phrases, battery charge level, microphone sensitivity level, the status of the presence or absence of an active sound source at the moment, the status of active connections.

На фиг. 8 схематично показана функциональная схема работы программного обеспечения предложенного портативного устройства, включающего 6 модулей 24, 25, 26, 27, 30 и 31 и пять блоков 28, 29, 32, 33 и 34. Блок автозапуска процессов 32, установленный на платформе встроенного компьютера 5 инициализирует командно-телеметрический модуль 24, модуль распознавания речи 25, модуль ядра 26 и модуль вывода текстовой информации на дисплей Брайля 27 и блоки подстройки 29 и управления устройством 34. Блок подстройки 29 инициализирует при необходимости блок захвата звука 33 и подстраивает его. Блок 28 проверяет работоспособность указанных модулей 24, 25, 26, 27, 30 и 31 и подстройки 29 и управления устройством 34 и при необходимости дает команду на повторный запуск через блок запуска 32. Обеспечивающие функционал устройства блок подстройки 29 и блок управления устройством 34 связаны напрямую, а также через модули 24, 25, 30, 31 с блоками автозапуска процессов 32 и проверки работоспособности 28.In FIG. 8 schematically shows the functional diagram of the software of the proposed portable device, which includes 6 modules 24, 25, 26, 27, 30 and 31 and five blocks 28, 29, 32, 33 and 34. The autorun process block 32 installed on the platform of the embedded computer 5 initializes the command and telemetry module 24, the speech recognition module 25, the core module 26 and the module for outputting text information to the Braille display 27 and the tuning blocks 29 and device control 34. The tuning block 29 initializes, if necessary, the sound capture block 33 and adjusts it. Block 28 checks the operability of the indicated modules 24, 25, 26, 27, 30 and 31 and tuning 29 and device control 34 and, if necessary, gives a command to restart through the start block 32. The tuning block 29 and the device control block 34, which provide the functionality of the device, are directly connected , as well as through modules 24, 25, 30, 31 with blocks of autorun processes 32 and health checks 28.

Устройство используют следующим образом.The device is used as follows.

Через массив микрофонов, блок захвата звука, модуль распознавания речи, одноплатного компьютера, блок памяти и модуля вывода текстовой информации на дисплей Брайля, результаты распознавания речи и звуковых сигналы моментально передаются на дисплей, подключенный через HDMI вход, в том числе на дисплей мобильных телефонов и/или дисплея Брайля, в виде текста, который осведомляет пользователя обо всем происходящем вокруг него. Данный текст можно пролистывать, а можно возвращаться к нужным моментам. Также имеется возможность ввода текста ответа пользователя с помощью дисплея Брайля или подключенной через USB клавиатуры. Более того, светодиодной подсветкой всегда указывается направление стороны, с которой расположен источник звука, что позволяет пользователю своевременно на него отреагировать. Дополнительно устройство оснащено светодиодами, для более быстрого и удобного понимания расположения источника звука - они подсвечивают данное направление. Для удобства пользования устройство включает четыре кнопки управления, которые отвечают за включение, изменение размера шрифта, пролистывание текста на экране и сброс подключения мобильного телефона.Through an array of microphones, a sound capture unit, a speech recognition module, a single-board computer, a memory unit and a module for outputting text information to a Braille display, the results of speech recognition and audio signals are instantly transmitted to a display connected via an HDMI input, including the display of mobile phones and /or a Braille display, in the form of text, which makes the user aware of everything that is happening around him. This text can be scrolled through, or you can return to the right moments. It is also possible to enter the text of the user's response using a Braille display or a keyboard connected via USB. Moreover, the LED backlight always indicates the direction of the side from which the sound source is located, which allows the user to respond to it in a timely manner. Additionally, the device is equipped with LEDs for faster and more convenient understanding of the location of the sound source - they highlight this direction. For ease of use, the device includes four control buttons that are responsible for turning on, changing the font size, scrolling text on the screen and resetting the mobile phone connection.

Полезная модель может быть реализована использованием указанного устройства людьми, являющимися инвалидами по слуху или по слуху и зрению.The utility model can be implemented using the specified device by people who are deaf or hard of hearing and sight.

В первом случае, пользователь включает устройство, подключает дисплей, например, мобильный телефон беспроводным образом, через Bluetooth или экран монитора через HDMI-выход. Затем на отображенном интерфейсе экрана выбирает актуальные для себя настройки чувствительности микрофонной решетки. Во время работы пользователь в режиме реального времени будет получать информацию о том, что происходит вокруг - устройство автоматически будет преобразовывать речь и звуковые сигналы в текст на дисплее. Светодиоды визуально укажут направление источника звука, чтобы быстро отреагировать. И дополнительно направление на источник звука может быть указано словесно на дисплее или экране. Также имеется возможность набора ответа пользователем с дефектами речи с помощью клавиатуры, подключенной в порт USB устройства.In the first case, the user turns on the device, connects a display, such as a mobile phone, wirelessly via Bluetooth or a monitor screen via HDMI output. Then, on the displayed screen interface, selects the sensitivity settings of the microphone array that are relevant to him. During operation, the user will receive real-time information about what is happening around - the device will automatically convert speech and audio signals into text on the display. The LEDs will visually indicate the direction of the sound source to respond quickly. And additionally, the direction to the sound source can be indicated verbally on the display or screen. It is also possible to type a response by a user with speech defects using a keyboard connected to the USB port of the device.

Во втором случае, специальном для людей с ограниченными возможностями и по слуху, и по зрению, пользователь подключает к устройству дисплей Брайля беспроводным способом через Bluetooth или проводным способом через вход USB. Все распознанные звуковые сигналы и речь, а также направление источника звука будут моментально обработаны в текст и переданы на дисплей Брайля, тем самым позволяя пользователю свободно ориентироваться и воспринимать информацию от окружающих людей и предметов. Также имеется возможность набора ответа пользователем с дефектами речи с помощью дисплея Брайля.In the second case, dedicated to people with both hearing and visual impairments, the user connects a braille display to the device wirelessly via Bluetooth or wired via a USB input. All recognized audio signals and speech, as well as the direction of the sound source, will be instantly processed into text and transferred to the Braille display, thereby allowing the user to freely navigate and perceive information from surrounding people and objects. It is also possible to type a response by a user with speech impediments using a Braille display.

Как показали проведенные эксперименты, предлагаемое устройство примерно в 2 раза лучше распознает речь, чем ближайший аналог.As shown by the experiments, the proposed device recognizes speech approximately 2 times better than the closest analogue.

Система формирования луча была протестирована на тестовых экземплярах устройства распознавания речи ближайшего аналога. В результате испытаний уровень подавления шумов вне диаграммы направленности составил -12 дБ. Также был проверен блок подстройки, который дал прирост точности распознавания на 16%, быстродействия системы на 5% и снизил количество бесполезного (не содержащего речь) сигнала для распознавания при типовом использовании на 30%.The beamforming system was tested on test specimens of the closest analogue speech recognition device. As a result of testing, the level of noise suppression out of the radiation pattern was -12 dB. A tuning block was also tested, which gave an increase in recognition accuracy by 16%, system speed by 5% and reduced the amount of useless (non-speech) signal for recognition in typical use by 30%.

Claims

An intelligent high-performance speech recognition device for the deaf and deaf-blind, containing microphones, made in a constructive unity and including an autorun process unit, a command and telemetry module, a speech recognition module, a microphone control module, a module for outputting text information to a Braille display and a control unit that checks the performance of these modules and a sound capture unit and a device control unit, characterized in that it contains four microphones for sound capture and four microphones for noise reduction, and the built-in computer is equipped with a tuning unit that is connected to the device control unit, as well as blocks for autorun processes and health checks.