JP2018141925A - Acoustic model learning device and acoustic model learning program - Google Patents
Acoustic model learning device and acoustic model learning program Download PDFInfo
- Publication number
- JP2018141925A JP2018141925A JP2017037421A JP2017037421A JP2018141925A JP 2018141925 A JP2018141925 A JP 2018141925A JP 2017037421 A JP2017037421 A JP 2017037421A JP 2017037421 A JP2017037421 A JP 2017037421A JP 2018141925 A JP2018141925 A JP 2018141925A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- learning
- model learning
- layer
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】日本語音響モデルに必要な表現力があり、かつ、学習時間が短くWERが改善された音響モデル学習装置を提供する。【解決手段】音響モデル学習手段100Cは、3層のBLSTMからなる深層学習手段111Aと、深層学習手段の最終層のBLSTM30cの出力するベクトルの次元を所定の演算により変換する線形写像手段112Bとを備える。BLSTM30dは、時間方向の情報を記憶するメモリセルcを他の層より小さくしてその出力の次元数を640から320に圧縮している。線形写像手段112Bは、BLSTM30cの出力の次元数である640と文字出力ベクトル7の次元数である2934とで表される変換行列を、ランクr=320で行列分解した第1変換行列および第2変換行列を順次乗算する。【選択図】図7PROBLEM TO BE SOLVED: To provide an acoustic model learning device which has the expressive power required for a Japanese acoustic model, has a short learning time, and has an improved WER. SOLUTION: An acoustic model learning means 100C comprises a deep learning means 111A composed of three layers of BLSTM and a linear mapping means 112B for converting the dimension of a vector output by BLSTM30c of the final layer of the deep learning means by a predetermined operation. Be prepared. The BLSTM30d makes the memory cell c that stores information in the time direction smaller than the other layers and compresses the number of dimensions of its output from 640 to 320. The linear mapping means 112B is a first transformation matrix and a second transformation matrix obtained by matrix-decomposing the transformation matrix represented by 640, which is the number of dimensions of the output of BLSTM30c, and 2934, which is the number of dimensions of the character output vector 7, at rank r = 320. Multiply the transformation matrix sequentially. [Selection diagram] FIG. 7
Description
本発明は、音響モデル学習装置および音響モデル学習プログラムに関する。 The present invention relates to an acoustic model learning device and an acoustic model learning program.
近年、音声認識の分野ではDNN(Deep Neural Network)を用いたEnd−to−end音声認識の手法がいくつか提案されている(非特許文献1、非特許文献2)。そのための音響モデル学習装置は、音声と文字の対応付けを一つの音響モデルを使って直接学習することで、音素という中間状態を経ずに音声から文字へEnd−to−endの変換を行う。End−to−end音声認識の手法において、時間方向の情報を記憶するものとしては、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、またはBLSTM(Bi-directional LSTM)を用いる場合もある。
In recent years, several end-to-end speech recognition methods using DNN (Deep Neural Network) have been proposed in the field of speech recognition (Non-patent
なお、DNNの中間層の特定の層のユニット数を削減したネットワーク構造はボトルネック構造と呼ばれており、ボトルネック構造が別のDNNの入力として用いられることもある(非特許文献3参照)。ここで、ユニット数を削減することは、学習により決定すべきパラメータの数(次元数)を削減することに対応する。 A network structure in which the number of units in a specific layer of the DNN is reduced is called a bottleneck structure, and the bottleneck structure may be used as an input for another DNN (see Non-Patent Document 3). . Here, reducing the number of units corresponds to reducing the number of parameters (the number of dimensions) to be determined by learning.
また、非特許文献4には、DNNを用いるHMM(Hidden Markov Model)による音声認識方式(DNN−HMM)の分野では、Affine変換(線形変換)の変換行列として行列分解したものを用いると、WER(Word error rate:単語認識誤り率)を低下させることなく学習時間を短縮できることが記載されている。
Further, in
しかし、従来技術には以下のような問題点が存在した。
従来の音声認識技術の多くは、変換候補が30文字程度の英語音声認識を対象としている。日本語の場合、ひらがな、カタカナ、漢字等を合わせると変換候補の数が2000以上と膨大であり、そのため学習により決定すべきパラメータの数(パラメータをベクトルとみた場合、ベクトルの次元数)が著しく増大する。
また、従来技術では、学習により決定すべきパラメータ数(次元数)が増大すると、学習時間が増大するという問題がある。またパラメータが多すぎると細かいところまで表現し過ぎてしまって、逆により一般的で本質的な特徴を表現しきれないという問題(汎化能力の問題)もある。一方、パラメータが少なすぎると、必要な個数の文字を表現できなくなる。
However, the following problems existed in the prior art.
Many of the conventional speech recognition technologies are targeted for English speech recognition with about 30 conversion candidates. In the case of Japanese, if hiragana, katakana, kanji, etc. are combined, the number of conversion candidates is as large as 2000 or more. Therefore, the number of parameters to be determined by learning (the number of dimensions of the vector when the parameter is regarded as a vector) is remarkably large. Increase.
Further, the conventional technique has a problem that the learning time increases when the number of parameters (number of dimensions) to be determined by learning increases. There is also a problem (generalization ability problem) that if too many parameters, too much detail is expressed too much, and conversely, general and essential features cannot be expressed. On the other hand, if there are too few parameters, the required number of characters cannot be expressed.
したがって、前記したRNN、LSTMまたはBLSTMといった時間方向の情報を記憶することのできるニューラルネットワークを用いる音響モデル学習装置において、学習により決定すべきパラメータ数を適切に削減することができれば、日本語音声認識にも適用可能になることが期待される。 Therefore, in the acoustic model learning apparatus using a neural network capable of storing information in the time direction such as RNN, LSTM, or BLSTM, if the number of parameters to be determined by learning can be appropriately reduced, Japanese speech recognition It is expected to be applicable to
また、非特許文献4に記載されている研究対象とする音声認識システムでは、音響モデルとして、音素列を経由するDNN−HMMが用いられており、End−to−endの音声認識手法で用いる音響モデルをその対象とするものではない。
Further, in the speech recognition system to be researched described in
本発明は、以上のような問題点に鑑みてなされたものであり、日本語音響モデルに必要な表現力があり、かつ、学習時間が短くWERが改善された音響モデル学習装置および音響モデル学習プログラムを提供することを課題とする。 The present invention has been made in view of the above problems, and has an expressive power necessary for a Japanese acoustic model, an acoustic model learning apparatus and an acoustic model learning that have a short learning time and an improved WER. The challenge is to provide a program.
本発明は、前記課題を解決するため、音響モデル学習装置として、入力された音声が音声認識されることにより出力される文字との対応付けを学習することにより、前記入力された音声をEnd−to−endの音声認識手法を用いて文字に変換し、当該文字を出力する音響モデルを学習する音響モデル学習装置であって、3層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、前記深層学習手段および前記線形写像手段による演算のうちの少なくとも1つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習することを特徴とする構成とした。 In order to solve the above-mentioned problem, the present invention, as an acoustic model learning device, learns the correspondence between the input speech and the characters that are output when the input speech is speech-recognized. An acoustic model learning apparatus that learns an acoustic model that converts to a character using a to-end speech recognition method and outputs the character, and has a neural network having a multilayer structure of three or more layers, and features of speech Is stored in each layer of the multilayer structure, and information on the time direction about the feature amount is stored in each layer of the multilayer structure, and any one of a plurality of target characters from the feature amount of the voice is stored using the information on the time direction. A deep learning means for outputting a feature vector representing the probability of predicting whether or not, and applying a predetermined transformation matrix to the feature vector that is the output of the last layer of the deep learning means And a linear mapping unit that transforms the dimension of the feature vector output from the deep learning unit by a predetermined calculation, and is handled by at least one of the calculations performed by the deep learning unit and the linear mapping unit. The acoustic model is learned by compressing the dimension of the vector.
本発明は、以下に示す優れた効果を奏するものである。
本発明に係る音響モデル学習装置によれば、演算で取り扱うベクトルの次元圧縮処理を行うことで、音響モデルをEnd−to−endの音声認識手法を用いて学習する際に決定すべきパラメータ数が削減される。
また、本発明に係る音響モデル学習装置によれば、日本語音響モデルに必要な表現力があり、かつ、単語認識誤り率(WER)が改善され、学習時間および学習回数が著しく短縮される。
The present invention has the following excellent effects.
According to the acoustic model learning device according to the present invention, the number of parameters to be determined when learning an acoustic model using an end-to-end speech recognition method by performing dimension compression processing of a vector handled by calculation. Reduced.
Moreover, according to the acoustic model learning device of the present invention, the Japanese acoustic model has the expressive power necessary, the word recognition error rate (WER) is improved, and the learning time and the number of learnings are remarkably shortened.
以下、本発明の実施形態に係る日本語音響モデル学習装置について、図面を参照しながら説明する。
[日本語音声認識装置の構成]
図1に示す日本語音声認識装置1は、日本語音響モデル学習装置10と、日本語言語モデル学習装置20と、を備えている。
Hereinafter, a Japanese acoustic model learning device according to an embodiment of the present invention will be described with reference to the drawings.
[Configuration of Japanese speech recognition device]
A Japanese
日本語音響モデル学習装置10は、入力された音声と出力される文字との対応付けを学習することにより、入力された音声をEnd−to−endで文字に変換して出力する音響モデルを学習する装置である。以下では、日本語の音響モデル作成用の学習データ2を、音声2aとテキスト2bとのペアとして説明する。音声2a及びテキスト2bは、日本語の大量の音声データ及び大量のテキストを表している。例えば、音声2aとして、事前学習用の放送番組の番組音声を用い、テキスト2bとして、その番組音声の内容の厳密な書き起こし、又は、それに準ずるものを用いることができる。
The Japanese acoustic
ここでは、日本語音響モデル学習装置10は、音響モデル学習手段100と、音響モデル記憶手段101と、を備えている。
Here, the Japanese acoustic
音響モデル学習手段100は、日本語の音響モデル作成用の学習データ2における音声2aとテキスト2bとのペアおよび文字ラベル(以下、単にラベルという)を用いる学習により、音声がラベルのうちどれであるか(どの文字であるか)を出力するモデル(音響モデル)のパラメータ(重み係数等)を学習し、音響モデルを音響モデル記憶手段101に記憶する。日本語に対応したラベルは、平仮名やカタカナの表音文字と、漢字の表意文字と、句読点など記号を含んでいる。以下では、記号を含むラベルのことを単に文字と呼んだり、ラベル列を文字列と呼んだりする場合もある。音響モデル学習手段100は、非特許文献2に記載されたような文字のシーケンスを特定するEnd−to−endの音響モデルの全てに適用可能なものである。
The acoustic model learning means 100 performs learning using a pair of a
この音響モデルは、大量の音声データから予め抽出した音響特徴量(メル周波数ケプストラム係数、フィルタバンク出力等)を、設定したラベルごとにディープニューラルネットワーク(Deep Neural Network)とコネクショニスト時系列分類法(CTC:Connectionist Temporal Classification)等によってモデル化したものである。なお、音響モデルによる音響特徴量の尤度計算は、出力が漢字を含む書記素であれば再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)であっても、長・短期記憶(LSTM:Long Short Term Memory)であっても構わない。
音響モデル記憶手段101は、音響モデル学習手段100が学習により生成した音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
In this acoustic model, acoustic features (mel frequency cepstrum coefficients, filter bank output, etc.) extracted in advance from a large amount of speech data are classified into a deep neural network (Deep Neural Network) and a connectionist time series classification method (CTC) for each set label. : Connectionist Temporal Classification) etc. It should be noted that the likelihood calculation of the acoustic feature quantity by the acoustic model is a long short term memory (LSTM: Long Short Term) even if the output is a grapheme containing kanji, even if it is a recurrent neural network (RNN). Memory).
The acoustic
以上の説明は、音響モデルが適用される2つのフェーズ(事前学習フェーズ、評価フェーズ)のうち事前学習フェーズにおける処理の説明に対応している。
一方、学習が終了した後の評価フェーズにおいては、音響モデル記憶手段101(日本語音響モデル学習装置10)に対して、学習データ2の代わりに、評価用の音声3を入力する。このとき、音響モデル学習手段100は、音響モデル記憶手段101に記憶されているところの、事前学習により生成された音響モデルを用いて、評価用の音声3を認識し、対応する文字列を出力する。
The above description corresponds to the description of the process in the pre-learning phase among the two phases (pre-learning phase and evaluation phase) to which the acoustic model is applied.
On the other hand, in the evaluation phase after the learning is completed, the evaluation voice 3 is input instead of the
すなわち、評価フェーズにおいては、音響モデル学習手段100は、入力された評価用の音声3を特徴量(特徴ベクトル)に変換し、この特徴量を音響モデル記憶手段101に記憶されている音響モデルを用いて、順次、ラベル(文字)に変換することで文字列を生成する文字列生成手段として機能する。
That is, in the evaluation phase, the acoustic
なお、評価フェーズにおいて、評価用の音声3の代わりにその特徴量(特徴ベクトル)が入力する場合には、音響モデル学習手段100は、前記の変換処理をすることなく、入力された特徴量を、音響モデルを用いて、順次、ラベルに変換すればよい。
また、評価フェーズに対応した処理を行う文字列生成手段を別に設けて、音響モデル学習手段100には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。
In the evaluation phase, when the feature amount (feature vector) is input instead of the evaluation voice 3, the acoustic
Further, a character string generation unit that performs processing corresponding to the evaluation phase may be provided separately, and the acoustic
日本語言語モデル学習装置20は、日本語の大量のテキストを用いてラベルから単語列を出力する言語モデルを学習する装置である。ここでは、日本語言語モデル学習装置20は、言語モデル学習手段200と、言語モデル記憶手段201と、を備えている。
The Japanese language
言語モデル学習手段200は、ラベルと言語モデル用コーパス4を用いてラベルから単語列を出力するモデル(言語モデル)のパラメータを学習し、言語モデルを言語モデル記憶手段201に記憶する。言語モデル用コーパス4は、自然言語の文章を大規模に集積したコーパスである。言語モデル用コーパス4は、音響モデル作成用の学習データ2のテキスト2bに比べて大量のデータからなる。
The language
言語モデル記憶手段201は、言語モデル学習手段200が学習により生成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。
言語モデル記憶手段201に記憶されている言語モデルは、非特許文献2に記載されたモデルのように、音響モデル記憶手段101に対して評価用の音声3またはその特徴量を入力して得られた表意文字を含む文字列を入力として、前後の単語の関係から単語列を推定し、推定結果である単語列を出力するモデルの全てに適用可能なものである。言語モデルは、大量のテキストから予め学習した出力系列(単語等)の出現確率等をモデル化したものであり、例えば、一般的なNグラム言語モデルを用いることができる。
The language
The language model stored in the language
評価フェーズにおいて、日本語音響モデル学習装置10に記憶されている学習済みのパラメータを有する音響モデルに音声3またはその特徴量が連続的に入力されると、それに対応する文字列が連続的に出力され、言語モデル記憶手段201(日本語言語モデル学習装置20)に入力する。このとき、言語モデル学習手段200は、言語モデル記憶手段201に記憶されている学習済みのパラメータを有する言語モデルを用いて、入力される文字列から自然な日本語の文章としての認識結果5(単語列)を出力する。
すなわち、評価フェーズにおいては、言語モデル学習手段200は、言語モデル記憶手段201に記憶されている言語モデルを用いて、入力された文字列を、順次、単語に変換することで単語列を生成する単語列生成手段として機能する。なお、評価フェーズに対応した処理を行う単語列生成手段を別に設けて、言語モデル学習手段200には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。
In the evaluation phase, when the speech 3 or its feature value is continuously input to the acoustic model having the learned parameters stored in the Japanese acoustic
That is, in the evaluation phase, the language
[日本語音響モデル学習装置10の構成]
日本語音響モデル学習装置10の音響モデル学習手段100で用いる音響モデルのネットワーク構造を説明する前に、End−to−end音響モデルのネットワーク構造について図2を参照して説明する。図2にはBLSTM構造をもつ標準的なネットワーク構造の一例が示されているが、LSTMを用いて実現したものやLSTM構造を持たない一般的なRNNに対しても本発明が同様に適用可能である。
[Configuration of Japanese acoustic model learning device 10]
Before describing the network structure of the acoustic model used by the acoustic model learning means 100 of the Japanese acoustic
図2に示すように、この標準的なネットワーク構造を用いて音響モデルを学習する音響モデル学習手段100Rは、深層学習手段111Rと、線形写像手段112と、正規化手段113とを備えている。
深層学習手段111Rは、第1層のBLSTM30aと、第2層のBLSTM30bと、第3層のBLSTM30cと、で構成されている。深層学習手段111Rは、音声を入力とし、音声がラベルのうちどれであるかを学習する手段である。ここでは3層構造としたが、深層学習手段111Rは、4層以上の多層構造のニューラルネットワークであっても構わない。深層学習手段111Rは、音声の特徴量が連続して入力され、多層構造の各層において、音声の特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する。深層学習手段111Rは、その内部構造をパラメータにより定義することができる。BLSTM構造の場合、パラメータは、層数とメモリセルである。メモリセルは、LSTM構造において、時間方向の情報を記憶するベクトルの次元数を決定するパラメータ、言い換えれば、時間軸上どこまで離れたデータを計算に取り込むかの長さを表している。なお、LSTM構造におけるメモリセルについては、非特許文献2に詳述されているので、ここでは説明を省略する。
As shown in FIG. 2, an acoustic
The deep learning means 111R includes a
図2に示した音響モデル学習手段100Rの場合、深層学習手段111Rの各層のBLSTM30a,30b,30cはいずれも同一の規模である。具体的には、各層のBLSTMは、いずれも出力する特徴ベクトルの次元は640次元である。各BLSTM30a,30b,30cが有する前方の時間方向情報を記憶するメモリセルと、後方の時間方向情報を記憶するメモリセルも同一サイズであり(2つのメモリセルがそれぞれC=320)、いずれも320次元のベクトルを出力する。なお、メモリセルCの数値320は1つのメモリセルCのメモリ容量に対応している。この数値に依存して各層のメモリセルが出力する特徴ベクトルの次元数が変わる。
深層学習手段111Rは、120次元の音声の特徴量(特徴ベクトル)6を入力として、その最終層のBLSTM30cから640次元の特徴ベクトルを出力する。
In the case of the acoustic
The deep learning means 111R receives a feature quantity (feature vector) 6 of 120-dimensional speech and outputs a 640-dimensional feature vector from the
線形写像手段112は、深層学習手段111によって各パラメータ(BLSTM構造の場合、層数、メモリセル)により定義された次元数で表現される音響特徴量(特徴ベクトル)を入力とする。線形写像手段112は、この特徴ベクトルを入力として、所定の変換行列を適用することにより、深層学習手段111の出力する特徴ベクトルの次元を所定の演算により変換する。すなわち、線形写像手段112はBLSTM30cの出力する特徴ベクトルの次元を文字出力ベクトル7の次元に変換する。ここで、線形写像手段112は、BLSTM30cの出力ベクトルに対して単一のAffine変換行列を適用する。具体的には、線形写像手段112は、BLSTM30cから入力される640次元の特徴ベクトルに640行2934列の行列(以下、640*320の行列と表記する。以下同様)を乗算して、2934次元のベクトルを出力する。ここで、2934は、識別対象としている日本語のひらがな、カタカナ、漢字、記号の個数である。線形写像手段112の出力するベクトルは正規化手段113へ入力する。
The
正規化手段113は、線形写像手段112によって調整された次元の目的関数の正規化を行うものである。正規化手段113は、Softmax関数を用いて、線形写像手段112によって調整された次元の目的関数の正規化を行って2934次元の文字出力ベクトル7として出力する。これにより、最終的に2934ラベルの識別を行うことができる。なお、この音声認識で識別しようとするアウトプットの個数(文字の個数=2934)を変えれば、それに依存して、学習により決定すべきパラメータ数(次元数)も変わる。
The normalizing means 113 normalizes the dimensional objective function adjusted by the linear mapping means 112. The normalizing means 113 normalizes the dimensional objective function adjusted by the linear mapping means 112 using the Softmax function, and outputs the result as a 2934-dimensional
(第1実施形態)
図3は第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造を説明する模式図である。ここでは、図2を参照して説明した、同一規模の3層の深層学習手段111RをN層に一般化して深層学習手段111と表記する。深層学習手段111は、層数がN(N≧3)であるものとしている。また、図2のBLSTMのことを、Fw−LSTMとBw−LSTMのペアで図示して説明する。なお、この深層学習手段111の次元数は、層数Nが一定値であれば、メモリセルCに依存する。
(First embodiment)
FIG. 3 is a schematic diagram for explaining the network structure of the acoustic model used in the acoustic model learning means according to the first embodiment. Here, the three layers of deep learning means 111R of the same scale described with reference to FIG. 2 are generalized to N layers and expressed as deep learning means 111. The deep learning means 111 assumes that the number of layers is N (N ≧ 3). Further, the BLSTM of FIG. 2 will be described with reference to a pair of Fw-LSTM and Bw-LSTM. The number of dimensions of the deep learning means 111 depends on the memory cell C if the number of layers N is a constant value.
第1実施形態に係る日本語音響モデル学習装置10の音響モデル学習手段100(図1)は、図3の深層学習手段111の第1層における前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
同様に、深層学習手段111の第N層における前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
一方、深層学習手段111の第1層と第N層を除く所定の第n層においては、前方(Fw)のLSTMには、メモリセルc(c<C)が設定されており、後方(Bw)のLSTMにもメモリセルc(c<C)が設定されている。
さらに、第1層、第n層、第N層以外のその他の層では、前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
The acoustic model learning unit 100 (FIG. 1) of the Japanese acoustic
Similarly, the memory cell C is set in the front (Fw) LSTM in the Nth layer of the deep learning means 111, and the memory cell C is also set in the rear (Bw) LSTM.
On the other hand, in the predetermined n-th layer excluding the first layer and the N-th layer of the deep learning means 111, the memory cell c (c <C) is set in the front (Fw) LSTM, and the rear (Bw The memory cell c (c <C) is also set in the LSTM.
Further, in the other layers other than the first layer, the nth layer, and the Nth layer, the memory cell C is set in the front (Fw) LSTM, and the memory cell C is also set in the rear (Bw) LSTM. Is set.
つまり、深層学習手段111を構成するN層のBLSTM(Fw−LSTMとBw−LSTMのペア)のうち、第1層と第N層を除く所定の第n層におけるメモリセルcは、符号301で示すように、他の層のメモリセルCよりも小さく設定されている。
したがって、第n層の出力する特徴ベクトルの次元は、他の層から出力する特徴ベクトルの次元よりも縮小され、音響モデルのネットワーク構造の次元圧縮(ボトルネック構造)が実現される。これにより、深層学習手段111による演算で取り扱う特徴ベクトルの次元を圧縮することができる。なお、図3では、Fw−LSTMおよびBw−LSTMをそれぞれ表すブロックの横幅でメモリセルの大小を表している。
That is, among the N layer BLSTMs (Fw-LSTM and Bw-LSTM pairs) constituting the deep learning means 111, a memory cell c in a predetermined nth layer excluding the first layer and the Nth layer is denoted by
Therefore, the dimension of the feature vector output from the n-th layer is reduced more than the dimension of the feature vector output from the other layers, and dimensional compression (bottleneck structure) of the network structure of the acoustic model is realized. Thereby, the dimension of the feature vector handled by the calculation by the deep learning means 111 can be compressed. In FIG. 3, the size of the memory cell is represented by the horizontal width of each block representing Fw-LSTM and Bw-LSTM.
図4は第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図4に示すように、第1実施形態に係る音響モデル学習手段100Aは、一例として層数Nを3とした深層学習手段111Aと、線形写像手段112と、正規化手段113とを備えている。なお、図2に示した音響モデル学習手段100Rと同じ構成には同じ符号を付して説明を省略する。
深層学習手段111Aは、第1層のBLSTM30aと、第2層のBLSTM30dと、第3層のBLSTM30cと、で構成されている。
第1層のBLSTM30aおよび最終層(第3層)のBLSTM30cは、いずれも出力する特徴ベクトルの次元は640次元であり、それぞれの層において2つのメモリセルがそれぞれC=320である。
一方、第2層のBLSTM30dは、出力する特徴ベクトルの次元は320次元であり、2つのメモリセルがそれぞれc=160である。
FIG. 4 is a diagram illustrating an example of a network structure of an acoustic model used in the acoustic model learning unit according to the first embodiment.
As shown in FIG. 4, the acoustic
The deep learning means 111A includes a
The
On the other hand, in the
また、音響モデル学習手段100Aで用いる音響モデルのネットワーク構造は、BLSTM構造に限らず、LSTMを用いて実現したものや、LSTM構造を持たない、より一般的なRNNに対しても、時間軸上どこまで離れたデータを計算に取り込むかの長さを設定することができるものであれば同様に適用可能である。
第1実施形態に係る日本語音響モデル学習装置10によれば、深層学習手段111Aの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。
Further, the network structure of the acoustic model used in the acoustic
According to the Japanese acoustic
(第2実施形態)
図5は第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造のうち、線形変換部分を説明する模式図である。ここでは、図2の音響モデル学習手段100Rにおいて、線形写像手段112へ入力する特徴ベクトルが仮に4次元であり、出力される文字を表すベクトルが100次元であるものとして説明する。図2の音響モデル学習手段100Rによれば、線形写像手段112によって、図5(a)に示すように、入力される4次元ベクトル(1*4の行列)に対して、4*100の行列が乗算されて100次元のベクトル(1*100の行列)が出力される。この場合、入力される4次元ベクトルに対して乗算される行列の要素数は4×100=400である。この行列の要素数は、音響モデルの学習により決定すべきパラメータ数(次元数)の大小の目安となる。
(Second Embodiment)
FIG. 5 is a schematic diagram for explaining a linear conversion part in the network structure of the acoustic model used by the acoustic model learning means according to the second embodiment. Here, in the acoustic
第2実施形態に係る日本語音響モデル学習装置10の音響モデル学習手段100(図1)は、図2に示した音響モデル学習手段100Rの線形写像手段112において演算で取り扱う特徴ベクトルの次元を圧縮することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。具体例で説明すると、第2実施形態によれば、図5(a)に示した4*100の行列を乗算することに代えて、図5(b)に示すように、それをランクr=2で行列分解して得られる2つの行列、すなわち、4*2の行列および2*100の行列を順次乗算する。この場合、行列の要素数の合計は4×2+2×100=208となり、音響モデルの学習により決定すべきパラメータ数が、図5(a)の場合の要素数である400と比べて大幅に削減される。
The acoustic model learning means 100 (FIG. 1) of the Japanese acoustic
図2に示した音響モデル学習手段100Rを用いて、深層学習手段111Rの出力する特徴ベクトルの次元数、および、線形写像手段112の出力するベクトルの次元数について、より一般化して説明する。ここで、深層学習手段111Rの最終層であるBLSTM30cの出力する特徴ベクトルの次元数をDL、線形写像手段112の出力するベクトルの次元数をDAとすると、線形写像手段112でのパラメータ数PAは、次の式(a)で表される。なお、式(a)において、右辺第1項は線形変換部分(変換行列)を表し、右辺第2項は平行移動成分(バイアス)を表している。
By using the acoustic
PA=DL×DA+DA … 式(a) P A = D L × D A + D A Formula (a)
このような線形写像手段112の変換行列を低ランクrで行列分解すると、このときのパラメータ数Prは、次の式(b)で表される。 When matrix decomposition of such transformation matrices of the linear mapping means 112 in the low-rank r, the number of parameters P r at this time is expressed by the following formula (b).
Pr=DL×r+r×DA+DA … 式(b) P r = D L × r + r × D A + D A ... formula (b)
ここで、低ランクrが、次の式(1)を満たすときPA>Prとなり、行列分解によりパラメータ数(次元数)を削減できる。 Here, when the low rank r satisfies the following expression (1), P A > P r , and the number of parameters (number of dimensions) can be reduced by matrix decomposition.
DL×DA > DL×r+r×DA … 式(1) D L × D A > D L × r + r × D A Formula (1)
図6は第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図6に示すように、第2実施形態に係る音響モデル学習手段100Bは、深層学習手段111Rと、線形写像手段112Bと、正規化手段113とを備えている。なお、図2に示した音響モデル学習手段100Rと同じ構成には同じ符号を付して説明を省略する。
線形写像手段112Bは、第1線形写像手段40と、第2線形写像手段42と、を備えている。
第1線形写像手段40は、深層学習手段111Rの最終層(第3層)であるBLSTM30cから入力される640次元の特徴ベクトルに対して、640*320の行列を乗算して320次元のベクトルを出力する。
第2線形写像手段42は、第1線形写像手段40から入力される320次元の特徴ベクトルに対して、320*2934の行列を乗算して2934次元のベクトルを出力する。第2線形写像手段42の出力するベクトルは、正規化手段113へ入力する。
FIG. 6 is a diagram illustrating an example of a network structure of an acoustic model used by the acoustic model learning unit according to the second embodiment.
As shown in FIG. 6, the acoustic
The
The first
The second linear mapping means 42 multiplies the 320-dimensional feature vector input from the first linear mapping means 40 by a 320 * 2934 matrix and outputs a 2934-dimensional vector. The vector output from the second
この具体例について図6と図2とを対比して説明する。
図2に示した音響モデル学習手段100Rの場合、すなわち、線形写像手段112が行列分解を行わない場合、線形写像手段112が入力ベクトルに対して乗算する行列に着目すると、その行列の要素数は、
640×2934=1,877,760 である。
This specific example will be described by comparing FIG. 6 with FIG.
In the case of the acoustic
640 × 2934 = 1,877,760.
一方、第2実施形態に係る音響モデル学習手段100Bの場合、すなわち、線形写像手段112Bが行列分解を行う場合、行列分解された各行列の要素数の合計は減少する。具体的には、第1線形写像手段40が入力ベクトルに対して乗算する行列の要素数と、第2線形写像手段42が入力ベクトルに対して乗算する行列の要素数との合計は、
640×320+320×2934=1,143,680 である。
On the other hand, in the case of the acoustic
640 × 320 + 320 × 2934 = 1,143,680.
したがって、第2実施形態に係る日本語音響モデル学習装置10によれば、線形写像手段112Bが行列分解を行って線形写像手段112Bの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が大幅に削減される。
また、線形写像手段112Bが備える第1線形写像手段40の出力するベクトルの次元が320次元まで圧縮されており、汎化能力が高まることが期待される。
Therefore, according to the Japanese acoustic
Moreover, the dimension of the vector which the 1st linear mapping means 40 with which the linear mapping means 112B is provided is compressed to 320 dimensions, and it is anticipated that generalization capability will increase.
(第3実施形態)
第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造は、第1および第2実施形態を組み合わせたネットワーク構造である。すなわち、図2に示した深層学習手段111Rの第2層をBLSTM30dと置換することでボトルネック構造の深層学習手段111Aを備えると共に、図2に示した線形写像手段112を行列分解を行うことのできる線形写像手段112Bと置換することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。図7は第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
(Third embodiment)
The network structure of the acoustic model used in the acoustic model learning unit according to the third embodiment is a network structure in which the first and second embodiments are combined. That is, by replacing the second layer of the deep learning means 111R shown in FIG. 2 with the
図7に示すように、第3実施形態に係る音響モデル学習手段100Cは、一例として層数Nを3とした深層学習手段111Aと、線形写像手段112Bと、正規化手段113とを備えている。図7において、図2、図4および図6を参照して説明した構成要素と同じ構成要素には同じ符号を付し、これ以上の説明を省略する。
第3実施形態に係る日本語音響モデル学習装置10によれば、深層学習手段111Aおよび線形写像手段112Bの双方の演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。
As shown in FIG. 7, the acoustic
According to the Japanese acoustic
以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、前記各実施形態では、日本語音響モデル学習装置として説明したが、各装置の構成の処理を可能にするように、汎用又は特殊なコンピュータ言語で記述した日本語音響モデル学習プログラムとみなすことも可能である。 As mentioned above, although each embodiment of this invention was described, this invention is not limited to these, It can implement in the range which does not change the meaning. For example, in each of the embodiments described above as a Japanese acoustic model learning device, it can be regarded as a Japanese acoustic model learning program written in a general-purpose or special computer language so as to enable processing of the configuration of each device. Is also possible.
各実施形態に係る日本語音響モデル学習装置の性能を確かめるために、各実施形態にそれぞれ対応した複数のネットワーク構造について学習した各モデルの音声認識実験結果を比較した。評価音声には、総合テレビの情報番組『ひるまえほっと』2013年6月放送分の番組音声(32k単語=32,000単語)を用いた。各手法とも学習データは、放送音声と字幕のペア1023時間、入力特徴量はFilter bank40次元+delta+deltadeltaの計120次元を用いた。言語モデルにはNHK(登録商標)の原稿や過去番組の字幕等のべ6.2億単語から学習した語彙200kのモデルを利用した。学習に用いたネットワークは、図2の標準的な構造と、図4、図6および図7の3つの構造であり、各学習結果を比較した。その結果を表1に示す。
In order to confirm the performance of the Japanese acoustic model learning device according to each embodiment, the speech recognition experiment results of each model learned for a plurality of network structures corresponding to each embodiment were compared. As the evaluation sound, the program sound (32k words = 32,000 words) for the June 2013 broadcast of the information program “Hiruma Ehot” on the general television was used. In each method, the learning data used a total of 120 dimensions, that is, 1023 hours of a pair of broadcast audio and subtitles, and an input feature amount of
表1によれば、図2の標準的な構造と比較して、いずれの実施形態においても単語認識誤り率(WER)が改善され、学習時間および学習回数が著しく短縮された。
詳細には、Affine変換の行列分解を行う手法、すなわち、線形写像手段112Bにおいて次元を圧縮する第2実施形態および第3実施形態において、WERがより改善されており、汎化能力がより高められている。このうち、Affine変換の行列分解のみを適用したモデル、すなわち、第2実施形態では、WERが、図2の標準的な構造を用いる手法より20.2%改善した。これは、漢字の読み相当の次元数(=320)まで一度次元を圧縮したことで、モデルの汎化能力が向上したためと考えられる。
According to Table 1, compared to the standard structure of FIG. 2, the word recognition error rate (WER) was improved and the learning time and the number of times of learning were remarkably shortened in any of the embodiments.
Specifically, in the second embodiment and the third embodiment in which the dimension is compressed in the
また、BLSTM部分のパラメータを削減する手法、すなわち、深層学習手段111Aにおいて次元を圧縮する第1実施形態および第3実施形態において、学習時間の短縮効果がより大きくなった。このうち、ボトルネック構造と行列分解の両方を採用したモデル、すなわち、第3実施形態では、学習1回あたりの平均学習時間が、図2の標準的な構造を用いる手法より9.3%改善した。これは各実施形態で削減したBLSTMの次元は時間方向に影響するものであるため、Affine変換の行列分解に比べ更に学習時間の短縮効果が得られたと考えられる。 In addition, in the technique for reducing the parameters of the BLSTM part, that is, in the first embodiment and the third embodiment in which the dimension is compressed in the deep learning means 111A, the effect of shortening the learning time is greater. Among these, in the model employing both the bottleneck structure and the matrix decomposition, that is, the third embodiment, the average learning time per learning is improved by 9.3% from the method using the standard structure of FIG. did. Since the BLSTM dimension reduced in each embodiment affects the time direction, it is considered that the learning time can be further shortened as compared with the matrix decomposition of the Affine transform.
1 日本語音声認識装置
10 日本語音響モデル学習装置
100,100A,100B,110C 音響モデル学習手段
101 音響モデル記憶手段
111,111A,111R 深層学習手段
112,112B 線形写像手段
113 正規化手段
30a,30b,30c,30d BLSTM
40 第1線形写像手段
42 第2線形写像手段
DESCRIPTION OF
40 First linear mapping means 42 Second linear mapping means
Claims (4)
3層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、
前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、
前記深層学習手段および前記線形写像手段による演算のうちの少なくとも1つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習することを特徴とする音響モデル学習装置。 The input voice is converted into a character by using an end-to-end voice recognition method by learning the correspondence with the character output by the voice recognition of the input voice, and the character An acoustic model learning device for learning an acoustic model that outputs
It has a multi-layered neural network of three or more layers, and feature values of speech are continuously input, information on the time direction about the feature values is stored in each layer of the multi-layer structure, and information on the time direction is stored. A deep learning means for outputting a feature vector representing a probability of predicting which of a plurality of target characters from the feature amount of the speech,
Linear mapping means for converting the dimension of the feature vector output from the deep learning means by a predetermined calculation by applying a predetermined transformation matrix to the feature vector that is the output of the last layer of the deep learning means,
An acoustic model learning apparatus, wherein the acoustic model is learned by compressing a dimension of the feature vector handled by at least one of computations by the deep learning unit and the linear mapping unit.
前記深層学習手段は、前記特徴ベクトルの次元の圧縮を行うために、
前記多層構造の第1層および最終層を除く所定の1層において時間方向の情報を記憶するベクトルの次元数が、前記第1層および前記最終層において時間方向の情報を記憶するベクトルの次元数よりも小さく設定された状態で、前記入力される音声の特徴量から文字を予測することを特徴とする音響モデル学習装置。 The acoustic model learning device according to claim 1,
In order to compress the dimension of the feature vector, the deep learning means
The number of dimensions of a vector for storing information in the time direction in a predetermined layer excluding the first layer and the last layer of the multilayer structure is the number of dimensions of a vector for storing information in the time direction in the first layer and the last layer. An acoustic model learning device that predicts a character from a feature amount of the input speech in a state where the character is set smaller than the above.
前記線形写像手段は、
前記深層学習手段の最終層の出力する特徴ベクトルの次元数をDL、前記線形写像手段の出力するベクトルの次元数をDAとして、
前記深層学習手段の最終層の出力する特徴ベクトルに対して、前記変換行列を適用することに代えて、前記変換行列を次の式
DL×DA > DL×r+r×DA … 式(1)
を満たすランクrで行列分解して得られる2つの行列を順次適用して前記特徴ベクトルの次元の圧縮を行うことを特徴とする音響モデル学習装置。 In the acoustic model learning device according to claim 1 or 2,
The linear mapping means includes
The dimension number of the feature vector output from the last layer of the deep learning means is D L , and the dimension number of the vector output from the linear mapping means is D A.
Instead of applying the transformation matrix to the feature vector output from the last layer of the deep learning means, the transformation matrix is expressed by the following formula: D L × D A > D L × r + r × D A. 1)
An acoustic model learning device characterized in that the dimension of the feature vector is compressed by sequentially applying two matrices obtained by matrix decomposition with a rank r satisfying.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017037421A JP6820764B2 (en) | 2017-02-28 | 2017-02-28 | Acoustic model learning device and acoustic model learning program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017037421A JP6820764B2 (en) | 2017-02-28 | 2017-02-28 | Acoustic model learning device and acoustic model learning program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018141925A true JP2018141925A (en) | 2018-09-13 |
| JP6820764B2 JP6820764B2 (en) | 2021-01-27 |
Family
ID=63526729
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017037421A Expired - Fee Related JP6820764B2 (en) | 2017-02-28 | 2017-02-28 | Acoustic model learning device and acoustic model learning program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6820764B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109753653A (en) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | Entity name recognition methods, device, computer equipment and storage medium |
| CN110047510A (en) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | Audio identification methods, device, computer equipment and storage medium |
| KR102382215B1 (en) * | 2020-10-20 | 2022-04-01 | 김규현 | Acoustic accident detection system through accident sound deep learning |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160140956A1 (en) * | 2014-11-13 | 2016-05-19 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
| WO2016118257A1 (en) * | 2015-01-22 | 2016-07-28 | Qualcomm Incorporated | Model compression and fine-tuning |
| JP2016212273A (en) * | 2015-05-11 | 2016-12-15 | 国立研究開発法人情報通信研究機構 | Recurrent neural network learning method, computer program therefor, and speech recognition apparatus |
-
2017
- 2017-02-28 JP JP2017037421A patent/JP6820764B2/en not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160140956A1 (en) * | 2014-11-13 | 2016-05-19 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
| WO2016118257A1 (en) * | 2015-01-22 | 2016-07-28 | Qualcomm Incorporated | Model compression and fine-tuning |
| JP2016212273A (en) * | 2015-05-11 | 2016-12-15 | 国立研究開発法人情報通信研究機構 | Recurrent neural network learning method, computer program therefor, and speech recognition apparatus |
Non-Patent Citations (2)
| Title |
|---|
| AMODEI, DARIO ET AL.: "Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin", PROCEEDINGS OF THE 33RD INTERNATIONAL CONFERENCE ON MACHINE LEARNING, JPN6020037295, 2016, pages 173 - 182, ISSN: 0004360329 * |
| SAINATH, TARA N. ET AL.: "LOW-RANK MATRIX FACTORIZATION FOR DEEP NEURAL NETWORK TRAINING WITH HIGH-DIMENSIONAL OUTPUT TARGETS", 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6020037297, 2013, pages 6655 - 6659, XP032508392, ISSN: 0004360330, DOI: 10.1109/ICASSP.2013.6638949 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109753653A (en) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | Entity name recognition methods, device, computer equipment and storage medium |
| CN110047510A (en) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | Audio identification methods, device, computer equipment and storage medium |
| KR102382215B1 (en) * | 2020-10-20 | 2022-04-01 | 김규현 | Acoustic accident detection system through accident sound deep learning |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6820764B2 (en) | 2021-01-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109887484B (en) | Dual learning-based voice recognition and voice synthesis method and device | |
| CN114787914B (en) | System and method for streaming end-to-end speech recognition with asynchronous decoder | |
| Senior et al. | Improving DNN speaker independence with i-vector inputs | |
| CN111837178A (en) | Speech processing system and method for processing speech signals | |
| Deng et al. | Deep learning for signal and information processing | |
| Deng et al. | Foundations and trends in signal processing: Deep learning–methods and applications | |
| CN117043857A (en) | Methods, devices and computer program products for English pronunciation assessment | |
| Pramanik et al. | Text normalization using memory augmented neural networks | |
| CN111771213A (en) | Speech style migration | |
| US12249317B2 (en) | Joint unsupervised and supervised training for multilingual ASR | |
| WO2020233953A1 (en) | A method of sequence to sequence data processing and a system for sequence to sequence data processing | |
| Mamyrbayev et al. | End-to-end speech recognition in agglutinative languages | |
| Nasr et al. | End-to-end speech recognition for arabic dialects | |
| KR20250092276A (en) | Semi-supervised training method for speech recognition | |
| US20240177706A1 (en) | Monte Carlo Self-Training for Speech Recognition | |
| JP6820764B2 (en) | Acoustic model learning device and acoustic model learning program | |
| Loubser et al. | End-to-end automated speech recognition using a character based small scale transformer architecture | |
| Zhang et al. | Cacnet: Cube attentional cnn for automatic speech recognition | |
| US12499870B2 (en) | Guided data selection for masked speech modeling based on an average score assigned to encoded representations of an utterance | |
| WO2025183882A1 (en) | Using synthetic data to improve word error rate of differentially private asr models | |
| Chien et al. | Variational sequential modeling, learning and understanding | |
| Lu et al. | Pretraining enhanced rnn transducer | |
| Khaled et al. | UniTextFusion: A low-resource framework for Arabic multimodal sentiment analysis using early fusion and LoRA-tuned language models | |
| Yolchuyeva | Novel NLP Methods for Improved Text-To-Speech Synthesis | |
| Asaei et al. | Phonological Posterior Hashing for Query by Example Spoken Term Detection. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200110 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200916 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201006 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201202 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201208 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210105 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6820764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |