[go: up one dir, main page]

JP2023001754A - Wireless communication device and wireless communication system - Google Patents

Wireless communication device and wireless communication system Download PDF

Info

Publication number
JP2023001754A
JP2023001754A JP2021102671A JP2021102671A JP2023001754A JP 2023001754 A JP2023001754 A JP 2023001754A JP 2021102671 A JP2021102671 A JP 2021102671A JP 2021102671 A JP2021102671 A JP 2021102671A JP 2023001754 A JP2023001754 A JP 2023001754A
Authority
JP
Japan
Prior art keywords
audio signal
wireless communication
unit
communication device
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021102671A
Other languages
Japanese (ja)
Other versions
JP7653311B2 (en
Inventor
二郎 國分
Jiro Kokubu
敬浩 山之口
Takahiro Yamanoguchi
裕希 高橋
Hiroki Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alinco Inc
Original Assignee
Alinco Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alinco Inc filed Critical Alinco Inc
Priority to JP2021102671A priority Critical patent/JP7653311B2/en
Publication of JP2023001754A publication Critical patent/JP2023001754A/en
Application granted granted Critical
Publication of JP7653311B2 publication Critical patent/JP7653311B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Noise Elimination (AREA)

Abstract

Figure 2023001754000001

【課題】無線通話を行う無線通信装置において、従来技術に比較して、人間の発話音声を有効的に出力するようにノイズキャンセルを行うことができる。
【解決手段】本発明の無線通信装置は、入力される音声信号に従って無線搬送波を変調して無線信号を送信する変調送信部を備える。無線通信装置は、前記入力される音声信号からノイズをキャンセルするように音声信号処理を行って前記変調送信部に出力する第1のノイズキャンセル部を備え、前記第1のノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、前記復調された音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行う。
【選択図】図1

Figure 2023001754000001

A wireless communication device that performs wireless communication can perform noise cancellation so as to effectively output human uttered voices as compared with the prior art.
A radio communication apparatus according to the present invention includes a modulation transmission section that modulates a radio carrier wave according to an input audio signal and transmits a radio signal. The wireless communication device includes a first noise canceller that performs audio signal processing so as to cancel noise from the input audio signal and outputs the signal to the modulation transmitter. Noise cancellation processing is performed using a deep learning model unit that is learned using the feature parameters of the speech and determines whether or not it is a non-speech period containing noise from the demodulated speech signal.
[Selection drawing] Fig. 1

Description

本発明は、例えば特定小電力無線通信無線局のための無線通信装置及び、複数の無線通信装置を含む無線通信システムに関する。 The present invention relates to a radio communication device for, for example, a specified low-power radio communication radio station and a radio communication system including a plurality of radio communication devices.

例えば特許文献1の図1及び図4において、無線通信装置のマイクロホンからの音声信号に対してノイズキャンセル処理を行うノイズキャンセル回路を用いることが開示されている。 For example, FIGS. 1 and 4 of Patent Document 1 disclose use of a noise canceling circuit that performs noise canceling processing on an audio signal from a microphone of a wireless communication device.

特開2004-165962号公報(図1、図4)Japanese Patent Application Laid-Open No. 2004-165962 (Figs. 1 and 4)

特許文献1において開示されたノイズキャンセル回路は、「マイクロホンから入力された音声信号から雑音を取り除く」という開示しかないが、従来技術では、マイクロホンの外部の騒音信号を反転してマイクロホンに入力される音声信号に加算する、いわゆる位相反転型のノイズキャンセル回路が広く使用されている。当該位相反転型のノイズキャンセル回路においては、人間が発話している場合にもかかわらず、騒音が大きいときは、音声信号のレベルが抑圧されて、人間の発話音声を有効的に出力するようにノイズキャンセルを行うことができないという問題点があった。 The noise canceling circuit disclosed in Patent Document 1 only discloses that "noise is removed from the audio signal input from the microphone", but in the conventional technology, the noise signal outside the microphone is inverted and input to the microphone. A so-called phase-reversal type noise cancellation circuit that is added to an audio signal is widely used. In the phase inversion type noise canceling circuit, when the noise is loud even when a person is speaking, the level of the audio signal is suppressed so that the human speech can be output effectively. There was a problem that noise cancellation could not be performed.

本発明の目的は以上の問題点を解決し、無線通話を行う無線通信装置において、従来技術に比較して、人間の発話音声を有効的に出力するようにノイズキャンセルを行うことができる無線通信装置及び当該複数の無線通信装置を含む無線通信システムを提供することにある。 SUMMARY OF THE INVENTION An object of the present invention is to solve the above problems, and to provide a wireless communication device for performing wireless communication that can perform noise cancellation so as to effectively output human utterance voices compared to the conventional technology. An object of the present invention is to provide a wireless communication system including a device and the plurality of wireless communication devices.

本発明の一態様に係る無線通信装置は、
入力される音声信号に従って無線搬送波を変調して無線信号を送信する変調送信部を備える無線通信装置において、
前記入力される音声信号からノイズをキャンセルするように音声信号処理を行って前記変調送信部に出力する第1のノイズキャンセル部を備え、
前記第1のノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、前記復調された音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行う。
A wireless communication device according to an aspect of the present invention includes:
In a wireless communication device comprising a modulation transmitter that modulates a wireless carrier wave according to an input audio signal and transmits a wireless signal,
A first noise cancellation unit that performs audio signal processing so as to cancel noise from the input audio signal and outputs it to the modulation transmission unit;
The first noise cancellation unit learns using a feature parameter of human speech, and determines whether it is a non-speech period containing noise from the demodulated speech signal Using a deep learning model unit, Perform noise cancellation processing.

従って、本発明に係る無線通信装置によれば、位相反転型のノイズキャンセル回路に代えて、深層学習モデル部を用いたノイズキャンセル回路を備えることで、無線通話を行う無線通信装置において、従来技術に比較して、人間の発話音声を有効的に出力するようにノイズキャンセルを行うことができる。 Therefore, according to the wireless communication device according to the present invention, the noise cancellation circuit using the deep learning model unit is provided instead of the phase inversion type noise cancellation circuit, so that the wireless communication device that performs wireless communication is improved. , noise cancellation can be performed to effectively output human speech.

実施形態に係る無線機1の構成例を示すブロック図である。1 is a block diagram showing a configuration example of a wireless device 1 according to an embodiment; FIG. 図1のノイズキャンセル部13の構成例を示すブロック図である。2 is a block diagram showing a configuration example of a noise cancellation unit 13 of FIG. 1; FIG. 図2の深層学習モデル部35の構成例を示すブロック図である。3 is a block diagram showing a configuration example of a deep learning model unit 35 of FIG. 2; FIG.

以下、本発明に係る実施形態及び変形例について図面を参照して説明する。なお、同一又は同様の構成要素については同一の符号を付している。 Hereinafter, embodiments and modifications according to the present invention will be described with reference to the drawings. In addition, the same code|symbol is attached|subjected about the same or similar component.

図1は実施形態に係る無線機1の構成例を示すブロック図である。図1において、無線機1は無線通信装置の一例であって、受信アンテナ11と、受信復調部12と、ノイズキャンセル部13と、音声信号増幅器14と、スピーカ15と、制御部20と、PTT(Push To Talk)キー21Aを含む操作部21と、マイクロホン22と、音声信号増幅器23と、ノイズキャンセル部24と、変調送信部25と、送信アンテナ26とを備えて構成される。 FIG. 1 is a block diagram showing a configuration example of a wireless device 1 according to an embodiment. In FIG. 1, a wireless device 1 is an example of a wireless communication device, and includes a receiving antenna 11, a receiving demodulation unit 12, a noise canceling unit 13, an audio signal amplifier 14, a speaker 15, a control unit 20, a PTT It comprises an operation unit 21 including a (Push To Talk) key 21A, a microphone 22, an audio signal amplifier 23, a noise cancellation unit 24, a modulation transmission unit 25, and a transmission antenna 26.

ここで、実施形態に係る無線機1は例えば特定小電力無線通信システムのための特定小電力無線局の無線通信装置の一例である。本実施形態では、無線機1はその送信部において、位相反転型のノイズキャンセル回路に代えて、例えばFM(周波数変調)復調又はPM(位相変調)復調においてノイズ軽減で特に有効である、ノイズキャンセル部24を備えたことを特徴としている。また、本実施形態では、無線機1はその受信部において、ノイズ軽減で特に有効であるノイズキャンセル部13をさらに備える。また、複数の無線機1により無線通信システムを構成する。 Here, the wireless device 1 according to the embodiment is an example of a wireless communication device of a specified low-power wireless station for a specified low-power wireless communication system, for example. In this embodiment, in the transmitter of the wireless device 1, in place of the phase-reversal type noise cancellation circuit, for example, a noise cancellation circuit that is particularly effective in noise reduction in FM (frequency modulation) demodulation or PM (phase modulation) demodulation A part 24 is provided. In addition, in the present embodiment, the wireless device 1 further includes a noise canceller 13, which is particularly effective in reducing noise, in its receiver. Also, a plurality of wireless devices 1 constitute a wireless communication system.

図1において、受信アンテナ11により受信された無線信号は受信復調部12に入力される。受信復調部12は、受信された無線信号を低雑音増幅、低域周波数変換、中間周波増幅等を行った後、例えばFM(周波数変調)復調又はPM(位相変調)復調などの所定の復調方式で音声信号に復調してノイズキャンセル部13に出力する。ノイズキャンセル部13は人間の音声により深層学習された深層学習モデル部35(図3)を用いて、復調された音声信号から音声信号期間のみ当該音声信号を通過させることで、ノイズをキャンセルするように音声信号処理を行った後、処理後の音声信号を音声信号増幅器14を介してスピーカ15に出力する。 In FIG. 1, a radio signal received by a receiving antenna 11 is input to a receiving demodulator 12 . The reception demodulation unit 12 performs low-noise amplification, low-frequency conversion, intermediate frequency amplification, etc. on the received radio signal, and then performs a predetermined demodulation method such as FM (frequency modulation) demodulation or PM (phase modulation) demodulation. demodulates it into an audio signal and outputs it to the noise canceling unit 13 . The noise canceling unit 13 uses a deep learning model unit 35 (FIG. 3) that has been deep-learned using human speech to allow the demodulated audio signal to pass through only during the audio signal period, thereby canceling noise. After the audio signal is processed, the processed audio signal is output to the speaker 15 via the audio signal amplifier 14 .

マイクロホン22は入力される音声を音声信号に変換して音声信号増幅器23及び、ノイズキャンセル部13と同様の構成を有するノイズキャンセル部24を介して変調送信部25に出力する。制御部20は、PTTキー21Aがオンされたときに、変調送信部25を動作させ、変調送信部25は入力される音声信号に従って無線搬送波を所定の変調方式で変調した後、変調された無線搬送波である無線信号を、高域周波数変換しかつ電力増幅した後、送信アンテナ26から送信する。 The microphone 22 converts an input voice into a voice signal and outputs the voice signal to a modulation transmission section 25 via a voice signal amplifier 23 and a noise cancellation section 24 having the same configuration as the noise cancellation section 13 . When the PTT key 21A is turned on, the control unit 20 operates the modulation transmission unit 25. The modulation transmission unit 25 modulates the radio carrier wave according to a predetermined modulation method according to the input audio signal, and then modulates the modulated radio wave. A radio signal, which is a carrier wave, is transmitted from the transmitting antenna 26 after high frequency conversion and power amplification.

なお、本実施形態では、無線機1は送信周波数と受信周波数とが異なる同時通話方式での動作について説明したが、本発明はこれに限られず、無線機1は送信周波数と受信周波数とを同一の周波数を使用する場合は、制御部20は、PTTキー21Aがオンされたときに、受信復調部12の動作を停止させる。すなわち、送信動作と受信動作を同時に行わない無線機1において、受信動作時には、ノイズキャンセル部13の代わりに、ノイズキャンセル部24を動作させて受信時のノイズキャンセル処理を行ってもよい。 In this embodiment, the wireless device 1 operates in a simultaneous call system in which the transmission frequency and the reception frequency are different, but the present invention is not limited to this, and the wireless device 1 uses the same transmission frequency and reception frequency. frequency is used, the controller 20 stops the operation of the reception demodulator 12 when the PTT key 21A is turned on. That is, in the wireless device 1 that does not simultaneously perform the transmission operation and the reception operation, during the reception operation, the noise cancellation unit 24 may be operated instead of the noise cancellation unit 13 to perform noise cancellation processing during reception.

次いで、図2を参照して、深層学習モデル部35を用いた図1のノイズキャンセル部13,24の構成及び動作について以下に説明する。 Next, with reference to FIG. 2, the configuration and operation of the noise cancellers 13 and 24 of FIG. 1 using the deep learning model section 35 will be described below.

図2は図1のノイズキャンセル部13,24の構成例を示すブロック図である。 FIG. 2 is a block diagram showing a configuration example of the noise cancellers 13 and 24 in FIG.

ここで、「音素」という用語は、特定の言語において1つの単語を他の単語から区別する音の単位を意味し、「振動レート」という用語は、各秒におけるデジタル化された振動データの0と1の間の移動の数を意味し、「振動計数値(VC)」という用語は、各フレーム内のデジタル化された振動データの値の合計を意味する。また、「振動パターン」とは、時間軸に沿った所定のフレーム数ごとに算出された振動数の総和のデータ分布を意味する。深層学習モデル部35では、異なる振動パターン、すなわち異なる振動計数値の総和(VS値)のデータ分布の違いを考慮して、ノイズキャンセル処理を行っており、振動レートは振動計数値に類似しているが、振動レートが大きいほど、振動計数値も大きくなる。 Here, the term "phoneme" refers to the unit of sound that distinguishes one word from another in a particular language, and the term "vibration rate" refers to the zero point of the digitized vibration data at each second. and 1, and the term "vibration count (VC)" refers to the sum of the values of the digitized vibration data within each frame. Further, the "vibration pattern" means the data distribution of the sum of the vibration frequencies calculated for each predetermined number of frames along the time axis. In the deep learning model unit 35, noise cancellation processing is performed in consideration of different vibration patterns, that is, differences in the data distribution of the sum of different vibration count values (VS values), and the vibration rate is similar to the vibration count value. However, the higher the vibration rate, the higher the vibration count.

音声信号の振幅と振動レートは共に観測可能である。ノイズキャンセル部13,24の特徴は、音声信号の振幅と振動率に応じて音声イベントを検出することである。また、別の特徴は、デジタル化された振動データの振動計数値の総和を、あらかじめ定義されたフレーム数分だけ計測することで、音声と、非音声/無音を区別することである。もう一つの特徴は、入力される音声信号データのストリームをその振動パターンによって異なる音素に分類することである。別の特徴は、下流の処理部をトリガするように、入力される音声信号データストリームから最初の起動音素を正しく区別することであり、それによって、処理部を含む計算システムの電力消費等の計算コストを節約することである。 Both the amplitude and vibration rate of the speech signal are observable. A feature of the noise cancellers 13 and 24 is to detect audio events according to the amplitude and vibration rate of the audio signal. Another feature is to distinguish between speech and non-speech/silence by measuring the sum of the vibration count values of the digitized vibration data for a predefined number of frames. Another feature is to classify the input audio signal data stream into different phonemes according to their vibration patterns. Another feature is the correct discrimination of the first activation phoneme from the incoming audio signal data stream to trigger downstream processing units, thereby calculating power consumption, etc. of the computing system containing the processing units. It is to save costs.

図2において、ノイズキャンセル部13,24は音声イベント検出を用いてノイズキャンセル処理を行うものであって、音声信号前置処理部38と、AD変換器39と、音声信号処理部30とを備えて構成される。ここで、音声信号前置処理部38は、アナログ音声信号に対して、ハイパスフィルタリング、ローパスフィルタリング、増幅又はそれらの組み合わせ等を含む、音声信号前置処理を行って、処理後のアナログ音声信号をAD変換器39に出力する。すなわち、音声信号前置処理部38は、マイクロホン22からの音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる。次いで、AD変換器39は、所定の基準電圧Vref及び許容電圧Vadm(<Vref)に従って、アナログ音声信号をデジタル音声信号にAD変換して音声信号処理部30の入力インターフェース36に出力する。 In FIG. 2, the noise cancellation units 13 and 24 perform noise cancellation processing using audio event detection, and include an audio signal preprocessing unit 38, an AD converter 39, and an audio signal processing unit 30. consists of Here, the audio signal preprocessing unit 38 performs audio signal preprocessing, including high-pass filtering, low-pass filtering, amplification, or a combination thereof, on the analog audio signal, and outputs the processed analog audio signal. Output to AD converter 39 . That is, the audio signal pre-processing unit 38 allows the audio signal from the microphone 22 to pass only within a predetermined level range of human audio signals and in a predetermined bandwidth. Next, the AD converter 39 AD-converts the analog audio signal into a digital audio signal according to a predetermined reference voltage Vref and an allowable voltage Vadm (<Vref), and outputs the digital audio signal to the input interface 36 of the audio signal processing section 30 .

本実施形態において、AD変換器39において、基準電圧Vrefよりも小さい許容電圧Vadmは、基準電圧Vrefと組み合わせて、第1のしきい値電圧Vth1(=Vref+Vadm))及び第2のしきい値電圧Vth2(=Vref-Vadm)を形成するために使用され、AD変換器39は、第1のしきい値電圧Vth1及び第2のしきい値電圧Vth2に基づいて、第1のしきい値電圧Vth1以上又は第2のしきい値電圧Vth2以下のノイズに対してAD変換を実行せず、その間の音声信号に対してAD変換を実行することで、入力されるアナログ音声信号のノイズ及び干渉を除去することができる。ここで、例えばVref=1.0V,Vadm=0.01Vとすると、静かな環境では振動データの振動数が少なく,音声環境では振動データの振動数が多いことが理解できる。なお、本実施形態において、「フレームサイズ」とは、各フレーム内のデジタル化された振動データに対応するサンプリングポイントの数を意味し、「音素ウィンドウTw」とは、各音素の音声特徴量を収集するための時間を意味する。好ましい実施形態では、各フレームの継続時間Tfは例えば0.1~1ミリ秒(ms)であり、音素ウィンドウTwは例えば約0.3秒である。さらに好ましい実施形態では、各フレーム内のデジタル化された振動データに対応するサンプリングポイントの数は例えば1~16の範囲である。 In the present embodiment, in the AD converter 39, the allowable voltage Vadm smaller than the reference voltage Vref is combined with the reference voltage Vref to obtain the first threshold voltage Vth1 (=Vref+Vadm)) and the second threshold voltage Vth2 (=Vref−Vadm), and the AD converter 39 converts the first threshold voltage Vth1 based on the first threshold voltage Vth1 and the second threshold voltage Vth2. Noise and interference in the input analog audio signal are removed by not performing AD conversion on noise above or below the second threshold voltage Vth2, but by performing AD conversion on the audio signal between them. can do. Here, if Vref=1.0 V and Vadm=0.01 V, for example, it can be understood that the frequency of vibration data is low in a quiet environment, and the frequency of vibration data is high in a voice environment. In this embodiment, the “frame size” means the number of sampling points corresponding to the digitized vibration data in each frame, and the “phoneme window Tw” means the speech feature amount of each phoneme. Means time to collect. In a preferred embodiment, the duration Tf of each frame is eg 0.1-1 milliseconds (ms) and the phoneme window Tw is eg about 0.3 seconds. In a further preferred embodiment, the number of sampling points corresponding to the digitized vibration data within each frame ranges, for example, from 1-16.

音声信号を分析する場合、ほとんどの音声信号は短期間で安定しているので、通常、短期分析の方法が採用される。例えば、AD変換器39で使用されるサンプリング周波数fsが16000であり、各フレームの継続時間Tfが1msであると仮定すると、フレームサイズはfs×1/1000=16サンプルポイントとなる。 When analyzing speech signals, the method of short-term analysis is usually adopted since most speech signals are stable in a short period of time. For example, assuming that the sampling frequency fs used by the AD converter 39 is 16000 and the duration Tf of each frame is 1 ms, the frame size is fs×1/1000=16 sample points.

図2において、音声信号処理部30は例えばコンピュータデバイスで構成され、
(1)ノイズキャンセルなどの所定の音声信号処理を実行するCPU(Central Processing Unit)31と、
(2)CPU31の基本処理を実行するオペレーティングシステム及び前記音声信号処理のプログラム、並びに当該プログラムを実行するために必要なデータ等を格納するROM(Read Only Memory)32と、
(3)CPU31の基本処理を実行するオペレーティングシステム及び前記音声信号処理のプログラムの実行時に、処理中のデータ等を格納するRAM(Read Access Memory)33と、
(4)前記音声信号処理を実行するために必要な後述する設定データ等を格納する不揮発性のEEPROM(Electrically Erasable Programmable Memory)34と、
(5)例えばニューラルネットワークなどで構成され、人間の音声信号データに基づいて深層学習されて入力される音声信号データに対して、ノイズを除去して実質的に音声信号のみを抽出して出力する深層学習モデル部35と、
(6)AD変換器39から入力される音声信号データを、後段の信号仕様値に変換するための所定の信号変換処理を行ってCPU31に出力する入力インターフェース36と、
(7)深層学習モデル部35によりノイズが除去された音声信号データを、後段の信号仕様値に変換するための所定の信号変換処理を行って端子T12、音声ラインL2等を介して無線機1に出力する出力インターフェース37と、
を備えて構成される。
In FIG. 2, the audio signal processing unit 30 is configured by, for example, a computer device,
(1) A CPU (Central Processing Unit) 31 that executes predetermined audio signal processing such as noise cancellation;
(2) a ROM (Read Only Memory) 32 that stores an operating system that executes the basic processing of the CPU 31, the audio signal processing program, and data necessary for executing the program;
(3) a RAM (Read Access Memory) 33 for storing data being processed when the operating system for executing the basic processing of the CPU 31 and the program for the audio signal processing are executed;
(4) a non-volatile EEPROM (Electrically Erasable Programmable Memory) 34 for storing later-described setting data necessary for executing the audio signal processing;
(5) For example, it is composed of a neural network, etc., and removes noise from voice signal data that is input after deep learning based on human voice signal data, and extracts and outputs substantially only the voice signal. a deep learning model unit 35;
(6) an input interface 36 that performs a predetermined signal conversion process for converting audio signal data input from the AD converter 39 into a signal specification value in the subsequent stage and outputs the result to the CPU 31;
(7) The audio signal data from which noise has been removed by the deep learning model unit 35 is subjected to a predetermined signal conversion process for converting it into a signal specification value in the subsequent stage, and the wireless device 1 is transmitted through the terminal T12, the audio line L2, etc. an output interface 37 that outputs to
configured with

ここで、EEPROM34は例えば、一連の振動計数値VC、振動計数値の総和VS、振動計数値の総和VSf、振動計数値の総和VSp(後述する)、及びすべての特徴ベクトルの音声特徴値を記憶する。なお、EEPROM34は外部メモリなどの記憶装置であってもよい。音声信号処理部30に適用される音声イベント検出方法は、音声イベントを捕捉するために、CPU31によってランタイム中に実行される。fs=16000、Tf=1ms、Tw=0.3sと仮定して、音声イベント検出を実行する。 Here, the EEPROM 34 stores, for example, a series of vibration count values VC, a sum of vibration count values VS, a sum of vibration count values VSf, a sum of vibration count values VSp (to be described later), and sound feature values of all feature vectors. do. Note that the EEPROM 34 may be a storage device such as an external memory. The audio event detection method applied to the audio signal processor 30 is executed during runtime by the CPU 31 to capture audio events. Audio event detection is performed assuming fs=16000, Tf=1 ms, and Tw=0.3 s.

CPU31は、具体的には、処理対象である現在のフレーム(すなわち、1ms以内)の振動データ値の総和を計算して、振動計数値VCを取得し、その後、時点Tjにおける現在のフレームのVC値をEEPROM34に格納する。ここで、x個のフレームの振動計数値VCを加算して、時点Tjにおける現在のフレームの振動計数値の総和VSを得る。x個のフレームには現在のフレームが含まれる。一実施形態では、CPU31は、時点Tjにおける現在のフレームの振動計数値VCと、その直前(x-1)個のフレームの振動計数値の総和VSpとを加算して、時点Tjにおけるx個のフレームの振動計数値の総和VS(=VC+VSp)を得る。 Specifically, the CPU 31 calculates the sum of the vibration data values of the current frame (that is, within 1 ms) to be processed, acquires the vibration count value VC, and then obtains the VC of the current frame at time Tj. Store the value in EEPROM 34 . Here, the vibration count values VC of x frames are added to obtain the sum of the vibration count values VS of the current frame at time Tj. x frames includes the current frame. In one embodiment, the CPU 31 adds the vibration count value VC of the current frame at the time Tj and the sum VSp of the vibration count values of the (x−1) frames immediately before that frame to obtain the x number of vibration count values at the time Tj. Obtain the sum VS (=VC+VSp) of the vibration count values of the frame.

なお、変形例では、CPU31は、時点Tjにおける現在のフレームの振動計数値VC、その直後のy個のフレームの振動計数値の総和VSf、及びその直前の(x-y-1)個のフレームの振動計数値の総和VSpを加算して、時点Tjにおけるx個のフレームの振動計数値の総和VS(=VC+VSf+VSp)を得るが、yはゼロ以上である。CPU31は、VS、VSf及びVSpの値をEEPROM34に格納する。好ましい実施形態では、x個のフレーム(音素ウィンドウTw)の継続時間(x×Tf)は、約0.3秒である。さらに好ましい実施形態では、x個のフレームのデジタル化された振動データに対応するサンプリングポイントの数は、x~16xの範囲にある。 In the modified example, the CPU 31 outputs the vibration count value VC of the current frame at the time Tj, the total sum VSf of the vibration count values of the y frames immediately after that, and the (xy-1) frames immediately before that. to obtain the sum of vibration counts VS (=VC+VSf+VSp) of x frames at time Tj, where y is greater than or equal to zero. The CPU 31 stores the values of VS, VSf and VSp in the EEPROM 34 . In a preferred embodiment, the duration of x frames (phoneme window Tw) (x×Tf) is approximately 0.3 seconds. In a further preferred embodiment, the number of sampling points corresponding to x frames of digitized vibration data is in the range of x to 16x.

一般的に、音声信号データについては、同じ音素では振動計数値VCの振動パターンが類似しているが、異なる音素ではVS値の振動パターンが全く異なる。従って、振動計数値VCの振動パターンを利用して、音素を区別することができる。特に、例えば鶏又は猫の鳴き声と、人間の音声とは、振動計数値VCの周波数分布に関して全く異なり、人間の音声の振動計数値VCのほとんどは40以下に分布していることが既知である。 In general, with respect to speech signal data, the vibration patterns of the vibration count values VC are similar for the same phoneme, but the vibration patterns of the VS values are completely different for different phonemes. Therefore, the vibration pattern of the vibration count value VC can be used to distinguish between phonemes. In particular, for example, the barking of a chicken or a cat and human speech are completely different in terms of the frequency distribution of the vibration coefficient VC, and it is known that most of the vibration coefficient VC of human speech is distributed below 40. .

学習フェーズにおいて、音声信号処理部30のCPU31は、まず、所定の音声信号データ収集方法を複数回実行して、複数の音素に対する複数の特徴ベクトルを収集し、複数の特徴ベクトルに対応するラベルを付加して、複数のラベル付き学習例を形成する。その後、起動音素を含む異なる音素に対する複数のラベル付き学習例を、深層学習モデル部35の学習に適用する。最後に、学習された深層学習モデル部35(音声信号データの予測モデルを構成する)を作成して、入力される音声信号データのストリームが起動音素を含むかどうかを分類する。音声信号処理部30の起動音素として、所定の音素が指定されている場合、深層学習モデル部35は、少なくとも当該指定された音素を含む異なる音素についての複数のラベル付き学習例で学習される。 In the learning phase, the CPU 31 of the speech signal processing unit 30 first executes a predetermined speech signal data collection method a plurality of times to collect a plurality of feature vectors corresponding to a plurality of phonemes, and labels corresponding to the plurality of feature vectors. Append to form multiple labeled training examples. A plurality of labeled training examples for different phonemes, including the starting phoneme, are then applied to training the deep learning model unit 35 . Finally, a trained deep learning model unit 35 (constituting a predictive model for the speech signal data) is created to classify whether the incoming speech signal data stream contains the activation phoneme. When a predetermined phoneme is specified as a starting phoneme for the audio signal processing unit 30, the deep learning model unit 35 is trained with a plurality of labeled training examples for different phonemes including at least the specified phoneme.

すなわち、学習段階では、ラベル付けされた学習例のセットを使用して深層学習モデル部35を学習し、それによって深層学習モデル部35が、ラベル付けされた学習例の各フレームの3つの音声特徴量(例えば、(VSj,TDj,TGj))に基づいて、j=0~299の間で、所定の起動音素を認識するようにする。学習段階の終わりに、学習された深層学習モデル部35は、当該起動音素に対応する学習されたスコアを提供し、学習されたスコアは、次に、入力される音声信号データのストリームをランタイムで分類するための基準として使用される。なお、VSj,TDj,TGjは以下のように定義される。
(1)VSj:フレームjの振動計数値の総和(VS値);
(2)TDj:フレームjにおいて、ゼロではない振動計数値の総和(VS値)の時間期間;及び
(3)TGj;フレームjにおける、ゼロではない振動計数値の総和(VS値)間の時間ギャップ(時間隙間)。
That is, in the training phase, the deep learning model portion 35 is trained using a set of labeled training examples, whereby the deep learning model portion 35 learns the three audio features of each frame of the labeled training examples. Based on the quantity (eg, (VSj, TDj, TGj)), we try to recognize a given activation phoneme between j=0-299. At the end of the learning phase, the trained deep learning model unit 35 provides a learned score corresponding to the activation phoneme, which is then converted at runtime to the incoming audio signal data stream. Used as criteria for classification. VSj, TDj, and TGj are defined as follows.
(1) VSj: sum of vibration count values (VS value) of frame j;
(2) TDj: the time period of the sum of non-zero vibration counts (VS values) at frame j; and (3) TGj: the time between the sums of non-zero vibration counts (VS values) at frame j. Gap (time gap).

深層学習モデル部35を学習するために、教師付き学習に関連する様々な機械学習技術を使用することができ、例えば、サポートベクターマシン(SVM)法、ランダムフォレスト法、畳み込みニューラルネットワーク法などを利用できる。教師付き学習では、複数のラベル付けされた学習例を使用して関数計算部(すなわち、深層学習モデル部35)が作成され、その各例は、入力特徴ベクトルとラベル付けされた出力からなる。学習されたとき、深層学習モデル部35は、対応するスコア又は予測値を生成するために、新しいラベルのない例に適用することができる。 Various machine learning techniques related to supervised learning can be used to train the deep learning model portion 35, such as support vector machine (SVM) methods, random forest methods, convolutional neural network methods, etc. can. In supervised learning, a function calculator (i.e., deep learning model portion 35) is created using a plurality of labeled training examples, each of which consists of an input feature vector and a labeled output. When trained, deep learning model portion 35 can be applied to new unlabeled examples to generate corresponding scores or predictions.

図3は図2の深層学習モデル部35の詳細構成例を示すブロック図である。 FIG. 3 is a block diagram showing a detailed configuration example of the deep learning model unit 35 of FIG.

深層学習モデル部35は、例えば、図3に示すように、ニューラルネットワークを用いて実装される。ここで、ニューラルネットワークは、1つの入力層41と、少なくとも1つであり好ましくは複数の中間層42と、1つの出力層43を含む。入力層41には3つの入力ニューロン51,52,53があり、各入力ニューロン51,52,53は、特徴ベクトルの各フレームの3つのオーディオ特徴値(すなわち、VSj,TDj,TGj)に対応する。また、中間層42は、各入力ニューロン51,52,53に関連する重み係数と各ニューロンのバイアス係数を有するニューロン61~74で構成される。学習フェーズのサイクルを通じて中間層42の各ニューロン61~74の重み係数とバイアス係数を変更することにより,ニューラルネットワークを学習して,所定の種類の入力に対する予測値を報告するようにすることができる。さらに、出力層43は、音素に対応する1つの予測値(具体的には、音声期間であるか、ノイズを含む非音声期間であるかを示す)を提供する1つの出力ニューロン81を含む。 The deep learning model unit 35 is implemented using a neural network, as shown in FIG. 3, for example. Here, the neural network comprises one input layer 41 , at least one and preferably several intermediate layers 42 and one output layer 43 . The input layer 41 has three input neurons 51, 52, 53, each input neuron 51, 52, 53 corresponding to three audio feature values (i.e., VSj, TDj, TGj) of each frame of the feature vector. . The intermediate layer 42 is also composed of neurons 61-74 having weight coefficients associated with each input neuron 51, 52, 53 and bias coefficients for each neuron. By changing the weighting and biasing factors of each neuron 61-74 of the hidden layer 42 through cycles of the learning phase, the neural network can be trained to report a predicted value for a given type of input. . In addition, the output layer 43 includes one output neuron 81 that provides one prediction value corresponding to a phoneme (specifically indicating whether it is a speech period or a non-speech period containing noise).

以上説明したように、ノイズキャンセル部13,24において、深層学習モデル部35は、人間の音声の特徴パラメータを用いて学習され、入力される音声信号からノイズを含む非音声期間であるか否かを判定する。そして、音声信号処理部30のCPU31は、深層学習モデル部35の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する。ここで、深層学習モデル部35は、人間の音声の特徴パラメータを入力とし、入力される音声信号からノイズを含む非音声期間であるか否かを判定する判定結果を出力とする、図3のニューラルネットワークにより構成される。 As described above, in the noise cancellation units 13 and 24, the deep learning model unit 35 learns using the feature parameters of human speech, and determines whether or not the input speech signal is a non-speech period containing noise. judge. Then, the CPU 31 of the audio signal processing unit 30 performs noise cancellation processing so as not to pass the non-speech period containing noise from the input audio signal based on the determination of the deep learning model unit 35, and performs the noise cancellation. Outputs the processed audio signal. Here, the deep learning model unit 35 receives as input the characteristic parameters of human speech, and outputs the determination result of determining whether or not the input speech signal is a non-speech period containing noise. It consists of a neural network.

以上説明したように、本実施形態では、無線機1はその送信部において、位相反転型のノイズキャンセル回路に代えて、例えばFM(周波数変調)復調又はPM(位相変調)復調においてノイズ軽減で特に有効である、ノイズキャンセル部24を備える。これにより、無線通話を行う無線通信装置において、従来技術に比較して、人間の発話音声を有効的に出力するようにノイズキャンセルを行うことができる。送信側でノイズキャンセル部24を備えることで、送信側以降の回路及び装置(例えば、無線中継装置など)における音声信号において有効的にノイズを除去できる。 As described above, in the present embodiment, the radio device 1 in its transmission section, instead of the phase inversion type noise cancellation circuit, for example, in FM (Frequency Modulation) demodulation or PM (Phase Modulation) demodulation, especially noise reduction A noise canceling section 24 is provided, which is effective. As a result, in a wireless communication device that performs wireless communication, noise cancellation can be performed so as to effectively output a human uttered voice, compared to the conventional technology. By providing the noise canceling unit 24 on the transmission side, noise can be effectively removed from the audio signal in circuits and devices (for example, wireless relay devices) on and after the transmission side.

また、本実施形態では、無線機1はその受信部において、ノイズ軽減で特に有効であるノイズキャンセル部13をさらに備える。これにより、無線通話を行う無線通信装置において、従来技術に比較して、人間の発話音声を有効的に出力するようにノイズキャンセルを行うことができる。なお、変調方式としてFM又はPMを用いる場合は、復調した音声信号をスピーカ15に出力する前段でノイズキャンセル部13に通すことによって、無信号に近くなってきた際のホワイトノイズが無くなり、通話限界距離に近づいていっても受信音声はクリアな音声を保ち続ける。また、従来のノイズスケルチ回路の代わりに、深層学習モデル部35を利用するノイズキャンセル部13を用いてノイズキャンセルすることで、無信号状態のノイズの出力を停止させる(又は軽減させる)ことにより、本来受信できる音声信号も出力停止させることが無い。従って、限界通話距離ギリギリまで受信された音声信号を出力でき、ノイズスケルチ回路に比べて通話距離を延ばすことが可能となる。 In addition, in the present embodiment, the wireless device 1 further includes a noise canceller 13, which is particularly effective in reducing noise, in its receiver. As a result, in a wireless communication device that performs wireless communication, noise cancellation can be performed so as to effectively output a human uttered voice, compared to the conventional technology. When FM or PM is used as the modulation method, by passing the demodulated audio signal through the noise canceling unit 13 before outputting it to the speaker 15, white noise is eliminated when there is almost no signal, and the call limit is reached. Even if the distance approaches, the received voice continues to keep clear voice. In addition, instead of the conventional noise squelch circuit, by canceling noise using the noise canceling unit 13 that uses the deep learning model unit 35, the output of noise in the no-signal state is stopped (or reduced). The output of the audio signal that can be originally received is not stopped. Therefore, it is possible to output the voice signal received up to the very limit of the communication distance, and it is possible to extend the communication distance compared to the noise squelch circuit.

(変形例)
以上の実施形態において、無線機1はノイズキャンセル部24を備えているが、本発明はこれに限らず、ノイズキャンセル部24を備えなくてもよい。
(Modification)
Although the wireless device 1 includes the noise canceller 24 in the above embodiment, the present invention is not limited to this, and the noise canceller 24 may not be provided.

以上詳述したように、本発明に係る無線通信装置によれば、位相反転型のノイズキャンセル回路に代えて、無線機1の送信側に、もしくはさらに受信側に、深層学習モデル部35を利用するノイズキャンセル部13を用いてノイズキャンセルすることで、無線通話を行う無線通信装置において、従来技術に比較して、人間の発話音声を有効的に出力するようにノイズキャンセルを行うことができる。 As described in detail above, according to the wireless communication device of the present invention, the deep learning model unit 35 is used on the transmission side of the wireless device 1, or further on the reception side, instead of the phase inversion type noise cancellation circuit. By performing noise cancellation using the noise canceling unit 13, a wireless communication device that performs wireless communication can perform noise cancellation so as to effectively output human uttered voices as compared to the conventional technology.

1 無線機
11 受信アンテナ
12 受信復調部
13 ノイズキャンセル部
14 音声信号増幅器
15 スピーカ
20 制御部
21 操作部
21A PTTキー
22 マイクロホン
23 音声信号増幅器
24 ノイズキャンセル部
25 変調送信部
26 送信アンテナ
30 音声信号処理部
31 CPU
32 ROM
33 RAM
34 EEPROM
35 深層学習モデル部
36 入力インターフェース
37 出力インターフェース
38 音声信号前置処理部
39 AD変換器
41 入力層
42 中間層
43 出力層
51~81 ニューロン
1 Wireless device 11 Receiving antenna 12 Receiving demodulator 13 Noise canceling unit 14 Audio signal amplifier 15 Speaker 20 Control unit 21 Operation unit 21A PTT key 22 Microphone 23 Audio signal amplifier 24 Noise canceling unit 25 Modulation transmitting unit 26 Transmitting antenna 30 Audio signal processing Part 31 CPU
32 ROMs
33 RAM
34 EEPROMs
35 deep learning model unit 36 input interface 37 output interface 38 audio signal preprocessing unit 39 AD converter 41 input layer 42 intermediate layer 43 output layers 51 to 81 neurons

Claims (13)

入力される音声信号に従って無線搬送波を変調して無線信号を送信する変調送信部を備える無線通信装置において、
前記入力される音声信号からノイズをキャンセルするように音声信号処理を行って前記変調送信部に出力する第1のノイズキャンセル部を備え、
前記第1のノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、前記復調された音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行う、無線通信装置。
In a wireless communication device comprising a modulation transmitter that modulates a wireless carrier wave according to an input audio signal and transmits a wireless signal,
A first noise cancellation unit that performs audio signal processing so as to cancel noise from the input audio signal and outputs it to the modulation transmission unit;
The first noise cancellation unit learns using a feature parameter of human speech, and determines whether it is a non-speech period containing noise from the demodulated speech signal Using a deep learning model unit, A wireless communication device that performs noise cancellation processing.
前記変調送信部は、入力される音声信号に従って無線搬送波を周波数変調方式又は位相変調方式で変調する、請求項1に記載の無線通信装置。 2. The radio communication apparatus according to claim 1, wherein said modulating transmission unit modulates a radio carrier wave according to a frequency modulation method or a phase modulation method according to an input audio signal. 前記第1のノイズキャンセル部は、前記深層学習モデル部の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する音声信号処理部を備える、
請求項1又は2に記載の無線通信装置。
The first noise cancellation unit performs noise cancellation processing so as not to pass a non-speech period containing noise from the input speech signal based on the determination of the deep learning model unit, After the noise cancellation processing Equipped with an audio signal processing unit that outputs an audio signal of
The radio communication device according to claim 1 or 2.
前記第1のノイズキャンセル部は、
前記音声信号処理部の前段に設けられ、入力される音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる音声信号前置処理部をさらに備える、請求項3に記載の無線通信装置。
The first noise cancellation unit
Further comprising an audio signal pre-processing unit provided in the preceding stage of the audio signal processing unit for passing only an input audio signal within a predetermined level range of a human audio signal and a predetermined bandwidth. 4. The wireless communication device of claim 3.
前記深層学習モデル部は、人間の音声の特徴パラメータを入力とし、入力される音声信号からノイズを含む非音声期間であるか否かを判定する判定結果を出力とする、所定のニューラルネットワークにより構成される、請求項1~4のうちのいずれか1つに記載の無線通信装置。 The deep learning model unit is composed of a predetermined neural network that receives characteristic parameters of human speech as an input and outputs a determination result that determines whether or not the input speech signal is a non-speech period containing noise. The radio communication device according to any one of claims 1 to 4, wherein the radio communication device is 前記無線通信装置は、受信される無線信号を音声信号に復調する受信復調部をさらに備え、
前記復調された音声信号からノイズをキャンセルするように音声信号処理を行って前記変調送信部に出力する第2のノイズキャンセル部を備え、
前記第2のノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、前記復調された音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行う、請求項1又は2に記載の無線通信装置。
The wireless communication device further includes a reception demodulator that demodulates a received wireless signal into an audio signal,
a second noise cancellation unit that performs audio signal processing so as to cancel noise from the demodulated audio signal and outputs it to the modulation transmission unit;
The second noise cancellation unit learns using a feature parameter of human speech, and determines whether it is a non-speech period containing noise from the demodulated speech signal Using a deep learning model unit, 3. The wireless communication device according to claim 1, which performs noise cancellation processing.
前記受信復調部は、受信される無線信号を周波数変調方式又は位相変調方式で復調する、請求項6に記載の無線通信装置。 7. The radio communication apparatus according to claim 6, wherein said reception demodulation unit demodulates a received radio signal using a frequency modulation method or a phase modulation method. 前記第2のノイズキャンセル部は、前記深層学習モデル部の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する音声信号処理部を備える、
請求項6又は7に記載の無線通信装置。
The second noise cancellation unit performs noise cancellation processing so as not to pass a non-speech period containing noise from the input speech signal based on the determination of the deep learning model unit, After the noise cancellation processing Equipped with an audio signal processing unit that outputs an audio signal of
The radio communication device according to claim 6 or 7.
前記第2のノイズキャンセル部は、
前記音声信号処理部の前段に設けられ、入力される音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる音声信号前置処理部をさらに備える、請求項8に記載の無線通信装置。
The second noise cancellation unit
Further comprising an audio signal pre-processing unit provided in the preceding stage of the audio signal processing unit for passing only an input audio signal within a predetermined level range of a human audio signal and a predetermined bandwidth. 9. A wireless communication device according to claim 8.
前記深層学習モデル部は、人間の音声の特徴パラメータを入力とし、入力される音声信号からノイズを含む非音声期間であるか否かを判定する判定結果を出力とする、所定のニューラルネットワークにより構成される、請求項6~9のうちのいずれか1つに記載の無線通信装置。 The deep learning model unit is composed of a predetermined neural network that receives characteristic parameters of human speech as an input and outputs a determination result that determines whether or not the input speech signal is a non-speech period containing noise. A radio communication device according to any one of claims 6 to 9, wherein 送信動作と受信動作を同時に行わない無線通信装置であって、受信動作時には、前記第2のノイズキャンセル部の代わりに、前記第1のノイズキャンセル部を動作させて受信時のノイズキャンセル処理を行う、請求項6~10のうちのいずれか1つに記載の無線通信装置。 A wireless communication device that does not simultaneously perform a transmission operation and a reception operation, and performs noise cancellation processing during reception by operating the first noise cancellation unit instead of the second noise cancellation unit during the reception operation. The wireless communication device according to any one of claims 6 to 10. 前記無線通信装置は、特定小電力無線通信システムのための無線通信装置である特定小電力無線局である、請求項1~11のうちのいずれか1つに記載の無線通信装置。 The wireless communication device according to any one of claims 1 to 11, wherein said wireless communication device is a specified low power radio station which is a wireless communication device for a specified low power wireless communication system. 請求項1~12のうちのいずれか1つに記載の複数の無線通信装置を含む、無線通信システム。 A wireless communication system comprising a plurality of wireless communication devices according to any one of claims 1-12.
JP2021102671A 2021-06-21 2021-06-21 Wireless communication device and wireless communication system Active JP7653311B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021102671A JP7653311B2 (en) 2021-06-21 2021-06-21 Wireless communication device and wireless communication system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021102671A JP7653311B2 (en) 2021-06-21 2021-06-21 Wireless communication device and wireless communication system

Publications (2)

Publication Number Publication Date
JP2023001754A true JP2023001754A (en) 2023-01-06
JP7653311B2 JP7653311B2 (en) 2025-03-28

Family

ID=84688581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021102671A Active JP7653311B2 (en) 2021-06-21 2021-06-21 Wireless communication device and wireless communication system

Country Status (1)

Country Link
JP (1) JP7653311B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02253300A (en) * 1989-03-28 1990-10-12 Sharp Corp Voice pass filter
JPH05291980A (en) * 1992-04-08 1993-11-05 Sony Corp Transceiver
JPH1155132A (en) * 1997-07-30 1999-02-26 Nec Corp Radio equipment and radio communication method
US20170092297A1 (en) * 2015-09-24 2017-03-30 Google Inc. Voice Activity Detection
WO2021117219A1 (en) * 2019-12-13 2021-06-17 三菱電機株式会社 Information processing device, detection method, and detection program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02253300A (en) * 1989-03-28 1990-10-12 Sharp Corp Voice pass filter
JPH05291980A (en) * 1992-04-08 1993-11-05 Sony Corp Transceiver
JPH1155132A (en) * 1997-07-30 1999-02-26 Nec Corp Radio equipment and radio communication method
US20170092297A1 (en) * 2015-09-24 2017-03-30 Google Inc. Voice Activity Detection
JP2018517928A (en) * 2015-09-24 2018-07-05 グーグル エルエルシー Voice activity detection
WO2021117219A1 (en) * 2019-12-13 2021-06-17 三菱電機株式会社 Information processing device, detection method, and detection program

Also Published As

Publication number Publication date
JP7653311B2 (en) 2025-03-28

Similar Documents

Publication Publication Date Title
US12080315B2 (en) Audio signal processing method, model training method, and related apparatus
KR100636317B1 (en) Distributed speech recognition system and method
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
KR100944252B1 (en) Detection of voice activity in an audio signal
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US6289309B1 (en) Noise spectrum tracking for speech enhancement
US6993481B2 (en) Detection of speech activity using feature model adaptation
US9064502B2 (en) Speech intelligibility predictor and applications thereof
JP3878482B2 (en) Voice detection apparatus and voice detection method
KR101340520B1 (en) Apparatus and method for removing noise
Enqing et al. Voice activity detection based on short-time energy and noise spectrum adaptation
EP0911805A3 (en) Speech recognition method and speech recognition apparatus
JP2008058983A (en) Method for robust classification of acoustic noise in voice or speech coding
CN111145763A (en) GRU-based voice recognition method and system in audio
WO1999010879A1 (en) Waveform-based periodicity detector
US20060256764A1 (en) Systems and methods for reducing audio noise
JP7179128B1 (en) Wireless communication device and wireless communication system
JP2003241788A (en) Voice recognition device and voice recognition system
JP7221335B2 (en) wireless communication device
JP6979146B1 (en) External microphone device and communication device
JP2023001754A (en) Wireless communication device and wireless communication system
WO2006114101A1 (en) Detection of speech present in a noisy signal and speech enhancement making use thereof
JP7100746B1 (en) Wireless relay device and wireless communication system
JP7724678B2 (en) Howling prevention circuit, microphone device and electronic device
JP2564821B2 (en) Voice judgment detector

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20241211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250317

R150 Certificate of patent or registration of utility model

Ref document number: 7653311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150