[go: up one dir, main page]

JP2018141925A - Acoustic model learning device and acoustic model learning program - Google Patents

Acoustic model learning device and acoustic model learning program Download PDF

Info

Publication number
JP2018141925A
JP2018141925A JP2017037421A JP2017037421A JP2018141925A JP 2018141925 A JP2018141925 A JP 2018141925A JP 2017037421 A JP2017037421 A JP 2017037421A JP 2017037421 A JP2017037421 A JP 2017037421A JP 2018141925 A JP2018141925 A JP 2018141925A
Authority
JP
Japan
Prior art keywords
acoustic model
learning
model learning
layer
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017037421A
Other languages
Japanese (ja)
Other versions
JP6820764B2 (en
Inventor
伊藤 均
Hitoshi Ito
均 伊藤
庄衛 佐藤
Shoe Sato
庄衛 佐藤
彰夫 小林
Akio Kobayashi
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2017037421A priority Critical patent/JP6820764B2/en
Publication of JP2018141925A publication Critical patent/JP2018141925A/en
Application granted granted Critical
Publication of JP6820764B2 publication Critical patent/JP6820764B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】日本語音響モデルに必要な表現力があり、かつ、学習時間が短くWERが改善された音響モデル学習装置を提供する。【解決手段】音響モデル学習手段100Cは、3層のBLSTMからなる深層学習手段111Aと、深層学習手段の最終層のBLSTM30cの出力するベクトルの次元を所定の演算により変換する線形写像手段112Bとを備える。BLSTM30dは、時間方向の情報を記憶するメモリセルcを他の層より小さくしてその出力の次元数を640から320に圧縮している。線形写像手段112Bは、BLSTM30cの出力の次元数である640と文字出力ベクトル7の次元数である2934とで表される変換行列を、ランクr=320で行列分解した第1変換行列および第2変換行列を順次乗算する。【選択図】図7PROBLEM TO BE SOLVED: To provide an acoustic model learning device which has the expressive power required for a Japanese acoustic model, has a short learning time, and has an improved WER. SOLUTION: An acoustic model learning means 100C comprises a deep learning means 111A composed of three layers of BLSTM and a linear mapping means 112B for converting the dimension of a vector output by BLSTM30c of the final layer of the deep learning means by a predetermined operation. Be prepared. The BLSTM30d makes the memory cell c that stores information in the time direction smaller than the other layers and compresses the number of dimensions of its output from 640 to 320. The linear mapping means 112B is a first transformation matrix and a second transformation matrix obtained by matrix-decomposing the transformation matrix represented by 640, which is the number of dimensions of the output of BLSTM30c, and 2934, which is the number of dimensions of the character output vector 7, at rank r = 320. Multiply the transformation matrix sequentially. [Selection diagram] FIG. 7

Description

本発明は、音響モデル学習装置および音響モデル学習プログラムに関する。   The present invention relates to an acoustic model learning device and an acoustic model learning program.

近年、音声認識の分野ではDNN(Deep Neural Network)を用いたEnd−to−end音声認識の手法がいくつか提案されている(非特許文献1、非特許文献2)。そのための音響モデル学習装置は、音声と文字の対応付けを一つの音響モデルを使って直接学習することで、音素という中間状態を経ずに音声から文字へEnd−to−endの変換を行う。End−to−end音声認識の手法において、時間方向の情報を記憶するものとしては、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、またはBLSTM(Bi-directional LSTM)を用いる場合もある。   In recent years, several end-to-end speech recognition methods using DNN (Deep Neural Network) have been proposed in the field of speech recognition (Non-patent Documents 1 and 2). For this purpose, the acoustic model learning device directly learns the correspondence between speech and characters by using one acoustic model, and performs end-to-end conversion from speech to characters without going through an intermediate state of phonemes. In the end-to-end speech recognition technique, RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory), or BLSTM (Bi-directional LSTM) may be used to store time direction information. is there.

なお、DNNの中間層の特定の層のユニット数を削減したネットワーク構造はボトルネック構造と呼ばれており、ボトルネック構造が別のDNNの入力として用いられることもある(非特許文献3参照)。ここで、ユニット数を削減することは、学習により決定すべきパラメータの数(次元数)を削減することに対応する。   A network structure in which the number of units in a specific layer of the DNN is reduced is called a bottleneck structure, and the bottleneck structure may be used as an input for another DNN (see Non-Patent Document 3). . Here, reducing the number of units corresponds to reducing the number of parameters (the number of dimensions) to be determined by learning.

また、非特許文献4には、DNNを用いるHMM(Hidden Markov Model)による音声認識方式(DNN−HMM)の分野では、Affine変換(線形変換)の変換行列として行列分解したものを用いると、WER(Word error rate:単語認識誤り率)を低下させることなく学習時間を短縮できることが記載されている。   Further, in Non-Patent Document 4, in the field of a speech recognition method (DNN-HMM) based on HMM (Hidden Markov Model) using DNN, if a matrix decomposition is used as a transformation matrix of Affine transformation (linear transformation), WER It describes that learning time can be shortened without reducing (Word error rate).

Amodei, D., et al.,”Deep Speech 2: End-to-End Speech Recognition in English and Mandarin” the Computing Research Repository (CoRR), arXiv:1512.02595v1 [cs.CL] 8 Dec 2015Amodei, D., et al., “Deep Speech 2: End-to-End Speech Recognition in English and Mandarin” the Computing Research Repository (CoRR), arXiv: 1512.02595v1 [cs.CL] 8 Dec 2015 Miao, Y., et al., "ESSEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING" the Computing Research Repository (CoRR), arXiv:1507.08240v3 [cs.CL] 18 Oct 2015Miao, Y., et al., "ESSEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING" the Computing Research Repository (CoRR), arXiv: 1507.08240v3 [cs.CL] 18 Oct 2015 Wollmer M., et al., "FEATURE ENHANCEMENT BY BIDIRECTIONAL LSTM NETWORKS FOR CONVERSATIONAL SPEECH RECOGNITION IN HIGHLY NON-STATIONARY NOISE", 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages 6822-6826 (2013)Wollmer M., et al., "FEATURE ENHANCEMENT BY BIDIRECTIONAL LSTM NETWORKS FOR CONVERSATIONAL SPEECH RECOGNITION IN HIGHLY NON-STATIONARY NOISE", 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages 6822-6826 (2013) Sainath T., et al., "LOW-RANK MATRIX FACTORIZATION FOR DEEP NEURAL NETWORK TRAINING WITH HIGH-DIMENSIONAL OUTPUT TARGETS", 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages 6655-6659 (2013)Sainath T., et al., "LOW-RANK MATRIX FACTORIZATION FOR DEEP NEURAL NETWORK TRAINING WITH HIGH-DIMENSIONAL OUTPUT TARGETS", 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages 6655-6659 (2013)

しかし、従来技術には以下のような問題点が存在した。
従来の音声認識技術の多くは、変換候補が30文字程度の英語音声認識を対象としている。日本語の場合、ひらがな、カタカナ、漢字等を合わせると変換候補の数が2000以上と膨大であり、そのため学習により決定すべきパラメータの数(パラメータをベクトルとみた場合、ベクトルの次元数)が著しく増大する。
また、従来技術では、学習により決定すべきパラメータ数(次元数)が増大すると、学習時間が増大するという問題がある。またパラメータが多すぎると細かいところまで表現し過ぎてしまって、逆により一般的で本質的な特徴を表現しきれないという問題(汎化能力の問題)もある。一方、パラメータが少なすぎると、必要な個数の文字を表現できなくなる。
However, the following problems existed in the prior art.
Many of the conventional speech recognition technologies are targeted for English speech recognition with about 30 conversion candidates. In the case of Japanese, if hiragana, katakana, kanji, etc. are combined, the number of conversion candidates is as large as 2000 or more. Therefore, the number of parameters to be determined by learning (the number of dimensions of the vector when the parameter is regarded as a vector) is remarkably large. Increase.
Further, the conventional technique has a problem that the learning time increases when the number of parameters (number of dimensions) to be determined by learning increases. There is also a problem (generalization ability problem) that if too many parameters, too much detail is expressed too much, and conversely, general and essential features cannot be expressed. On the other hand, if there are too few parameters, the required number of characters cannot be expressed.

したがって、前記したRNN、LSTMまたはBLSTMといった時間方向の情報を記憶することのできるニューラルネットワークを用いる音響モデル学習装置において、学習により決定すべきパラメータ数を適切に削減することができれば、日本語音声認識にも適用可能になることが期待される。   Therefore, in the acoustic model learning apparatus using a neural network capable of storing information in the time direction such as RNN, LSTM, or BLSTM, if the number of parameters to be determined by learning can be appropriately reduced, Japanese speech recognition It is expected to be applicable to

また、非特許文献4に記載されている研究対象とする音声認識システムでは、音響モデルとして、音素列を経由するDNN−HMMが用いられており、End−to−endの音声認識手法で用いる音響モデルをその対象とするものではない。   Further, in the speech recognition system to be researched described in Non-Patent Document 4, DNN-HMM passing through a phoneme string is used as an acoustic model, and the acoustic used in the end-to-end speech recognition method. It does not target the model.

本発明は、以上のような問題点に鑑みてなされたものであり、日本語音響モデルに必要な表現力があり、かつ、学習時間が短くWERが改善された音響モデル学習装置および音響モデル学習プログラムを提供することを課題とする。   The present invention has been made in view of the above problems, and has an expressive power necessary for a Japanese acoustic model, an acoustic model learning apparatus and an acoustic model learning that have a short learning time and an improved WER. The challenge is to provide a program.

本発明は、前記課題を解決するため、音響モデル学習装置として、入力された音声が音声認識されることにより出力される文字との対応付けを学習することにより、前記入力された音声をEnd−to−endの音声認識手法を用いて文字に変換し、当該文字を出力する音響モデルを学習する音響モデル学習装置であって、3層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、前記深層学習手段および前記線形写像手段による演算のうちの少なくとも1つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習することを特徴とする構成とした。   In order to solve the above-mentioned problem, the present invention, as an acoustic model learning device, learns the correspondence between the input speech and the characters that are output when the input speech is speech-recognized. An acoustic model learning apparatus that learns an acoustic model that converts to a character using a to-end speech recognition method and outputs the character, and has a neural network having a multilayer structure of three or more layers, and features of speech Is stored in each layer of the multilayer structure, and information on the time direction about the feature amount is stored in each layer of the multilayer structure, and any one of a plurality of target characters from the feature amount of the voice is stored using the information on the time direction. A deep learning means for outputting a feature vector representing the probability of predicting whether or not, and applying a predetermined transformation matrix to the feature vector that is the output of the last layer of the deep learning means And a linear mapping unit that transforms the dimension of the feature vector output from the deep learning unit by a predetermined calculation, and is handled by at least one of the calculations performed by the deep learning unit and the linear mapping unit. The acoustic model is learned by compressing the dimension of the vector.

本発明は、以下に示す優れた効果を奏するものである。
本発明に係る音響モデル学習装置によれば、演算で取り扱うベクトルの次元圧縮処理を行うことで、音響モデルをEnd−to−endの音声認識手法を用いて学習する際に決定すべきパラメータ数が削減される。
また、本発明に係る音響モデル学習装置によれば、日本語音響モデルに必要な表現力があり、かつ、単語認識誤り率(WER)が改善され、学習時間および学習回数が著しく短縮される。
The present invention has the following excellent effects.
According to the acoustic model learning device according to the present invention, the number of parameters to be determined when learning an acoustic model using an end-to-end speech recognition method by performing dimension compression processing of a vector handled by calculation. Reduced.
Moreover, according to the acoustic model learning device of the present invention, the Japanese acoustic model has the expressive power necessary, the word recognition error rate (WER) is improved, and the learning time and the number of learnings are remarkably shortened.

本実施形態に係る日本語音響モデル学習装置を備える日本語音声認識装置の全体の構成を示すブロック図である。It is a block diagram which shows the whole structure of the Japanese speech recognition apparatus provided with the Japanese acoustic model learning apparatus which concerns on this embodiment. End−to−end音響モデルのうちBLSTM構造をもつ標準的なネットワーク構造の一例を示す図である。It is a figure which shows an example of the standard network structure which has a BLSTM structure among End-to-end acoustic models. 第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造を説明する模式図である。It is a schematic diagram explaining the network structure of the acoustic model used with the acoustic model learning means which concerns on 1st Embodiment. 第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。It is a figure which shows an example of the network structure of the acoustic model used with the acoustic model learning means which concerns on 1st Embodiment. 第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造のうち線形変換部分を説明する模式図である。It is a schematic diagram explaining a linear conversion part among the network structures of the acoustic model used with the acoustic model learning means which concerns on 2nd Embodiment. 第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。It is a figure which shows an example of the network structure of the acoustic model used with the acoustic model learning means which concerns on 2nd Embodiment. 第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。It is a figure which shows an example of the network structure of the acoustic model used with the acoustic model learning means which concerns on 3rd Embodiment.

以下、本発明の実施形態に係る日本語音響モデル学習装置について、図面を参照しながら説明する。
[日本語音声認識装置の構成]
図1に示す日本語音声認識装置1は、日本語音響モデル学習装置10と、日本語言語モデル学習装置20と、を備えている。
Hereinafter, a Japanese acoustic model learning device according to an embodiment of the present invention will be described with reference to the drawings.
[Configuration of Japanese speech recognition device]
A Japanese speech recognition device 1 shown in FIG. 1 includes a Japanese acoustic model learning device 10 and a Japanese language model learning device 20.

日本語音響モデル学習装置10は、入力された音声と出力される文字との対応付けを学習することにより、入力された音声をEnd−to−endで文字に変換して出力する音響モデルを学習する装置である。以下では、日本語の音響モデル作成用の学習データ2を、音声2aとテキスト2bとのペアとして説明する。音声2a及びテキスト2bは、日本語の大量の音声データ及び大量のテキストを表している。例えば、音声2aとして、事前学習用の放送番組の番組音声を用い、テキスト2bとして、その番組音声の内容の厳密な書き起こし、又は、それに準ずるものを用いることができる。   The Japanese acoustic model learning device 10 learns an acoustic model that converts input speech into characters by End-to-end and outputs it by learning correspondence between input speech and output characters. It is a device to do. Hereinafter, the learning data 2 for creating a Japanese acoustic model will be described as a pair of a voice 2a and a text 2b. The voice 2a and the text 2b represent a large amount of Japanese voice data and a large amount of text. For example, the program audio of a broadcast program for pre-learning can be used as the audio 2a, and the content of the program audio can be transcribed or equivalent to the text 2b.

ここでは、日本語音響モデル学習装置10は、音響モデル学習手段100と、音響モデル記憶手段101と、を備えている。   Here, the Japanese acoustic model learning device 10 includes an acoustic model learning unit 100 and an acoustic model storage unit 101.

音響モデル学習手段100は、日本語の音響モデル作成用の学習データ2における音声2aとテキスト2bとのペアおよび文字ラベル(以下、単にラベルという)を用いる学習により、音声がラベルのうちどれであるか(どの文字であるか)を出力するモデル(音響モデル)のパラメータ(重み係数等)を学習し、音響モデルを音響モデル記憶手段101に記憶する。日本語に対応したラベルは、平仮名やカタカナの表音文字と、漢字の表意文字と、句読点など記号を含んでいる。以下では、記号を含むラベルのことを単に文字と呼んだり、ラベル列を文字列と呼んだりする場合もある。音響モデル学習手段100は、非特許文献2に記載されたような文字のシーケンスを特定するEnd−to−endの音響モデルの全てに適用可能なものである。   The acoustic model learning means 100 performs learning using a pair of a speech 2a and a text 2b and a character label (hereinafter simply referred to as a label) in the learning data 2 for creating an acoustic model in Japanese, and the speech is any of the labels. The model (acoustic model) parameter (weighting coefficient, etc.) for outputting (which character is) is learned, and the acoustic model is stored in the acoustic model storage means 101. Labels corresponding to Japanese include hiragana and katakana phonetic characters, kanji ideographs, and symbols such as punctuation marks. Hereinafter, a label including a symbol may be simply referred to as a character, or a label string may be referred to as a character string. The acoustic model learning unit 100 can be applied to all end-to-end acoustic models that specify a character sequence as described in Non-Patent Document 2.

この音響モデルは、大量の音声データから予め抽出した音響特徴量(メル周波数ケプストラム係数、フィルタバンク出力等)を、設定したラベルごとにディープニューラルネットワーク(Deep Neural Network)とコネクショニスト時系列分類法(CTC:Connectionist Temporal Classification)等によってモデル化したものである。なお、音響モデルによる音響特徴量の尤度計算は、出力が漢字を含む書記素であれば再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)であっても、長・短期記憶(LSTM:Long Short Term Memory)であっても構わない。
音響モデル記憶手段101は、音響モデル学習手段100が学習により生成した音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
In this acoustic model, acoustic features (mel frequency cepstrum coefficients, filter bank output, etc.) extracted in advance from a large amount of speech data are classified into a deep neural network (Deep Neural Network) and a connectionist time series classification method (CTC) for each set label. : Connectionist Temporal Classification) etc. It should be noted that the likelihood calculation of the acoustic feature quantity by the acoustic model is a long short term memory (LSTM: Long Short Term) even if the output is a grapheme containing kanji, even if it is a recurrent neural network (RNN). Memory).
The acoustic model storage unit 101 stores an acoustic model generated by learning by the acoustic model learning unit 100, and is a general storage medium such as a hard disk.

以上の説明は、音響モデルが適用される2つのフェーズ(事前学習フェーズ、評価フェーズ)のうち事前学習フェーズにおける処理の説明に対応している。
一方、学習が終了した後の評価フェーズにおいては、音響モデル記憶手段101(日本語音響モデル学習装置10)に対して、学習データ2の代わりに、評価用の音声3を入力する。このとき、音響モデル学習手段100は、音響モデル記憶手段101に記憶されているところの、事前学習により生成された音響モデルを用いて、評価用の音声3を認識し、対応する文字列を出力する。
The above description corresponds to the description of the process in the pre-learning phase among the two phases (pre-learning phase and evaluation phase) to which the acoustic model is applied.
On the other hand, in the evaluation phase after the learning is completed, the evaluation voice 3 is input instead of the learning data 2 to the acoustic model storage unit 101 (Japanese acoustic model learning device 10). At this time, the acoustic model learning unit 100 recognizes the evaluation speech 3 using the acoustic model generated by the prior learning stored in the acoustic model storage unit 101, and outputs a corresponding character string. To do.

すなわち、評価フェーズにおいては、音響モデル学習手段100は、入力された評価用の音声3を特徴量(特徴ベクトル)に変換し、この特徴量を音響モデル記憶手段101に記憶されている音響モデルを用いて、順次、ラベル(文字)に変換することで文字列を生成する文字列生成手段として機能する。   That is, in the evaluation phase, the acoustic model learning unit 100 converts the input evaluation sound 3 into a feature amount (feature vector), and the acoustic model stored in the acoustic model storage unit 101 is converted to the feature model. And functioning as a character string generating means for generating a character string by sequentially converting to a label (character).

なお、評価フェーズにおいて、評価用の音声3の代わりにその特徴量(特徴ベクトル)が入力する場合には、音響モデル学習手段100は、前記の変換処理をすることなく、入力された特徴量を、音響モデルを用いて、順次、ラベルに変換すればよい。
また、評価フェーズに対応した処理を行う文字列生成手段を別に設けて、音響モデル学習手段100には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。
In the evaluation phase, when the feature amount (feature vector) is input instead of the evaluation voice 3, the acoustic model learning unit 100 does not perform the conversion process, but the input feature amount. Using the acoustic model, it may be sequentially converted into a label.
Further, a character string generation unit that performs processing corresponding to the evaluation phase may be provided separately, and the acoustic model learning unit 100 may be configured to perform only processing corresponding to the pre-learning phase.

日本語言語モデル学習装置20は、日本語の大量のテキストを用いてラベルから単語列を出力する言語モデルを学習する装置である。ここでは、日本語言語モデル学習装置20は、言語モデル学習手段200と、言語モデル記憶手段201と、を備えている。   The Japanese language model learning device 20 is a device that learns a language model that outputs a word string from a label using a large amount of Japanese text. Here, the Japanese language model learning device 20 includes a language model learning unit 200 and a language model storage unit 201.

言語モデル学習手段200は、ラベルと言語モデル用コーパス4を用いてラベルから単語列を出力するモデル(言語モデル)のパラメータを学習し、言語モデルを言語モデル記憶手段201に記憶する。言語モデル用コーパス4は、自然言語の文章を大規模に集積したコーパスである。言語モデル用コーパス4は、音響モデル作成用の学習データ2のテキスト2bに比べて大量のデータからなる。   The language model learning unit 200 learns parameters of a model (language model) that outputs a word string from a label using the label and the language model corpus 4, and stores the language model in the language model storage unit 201. The language model corpus 4 is a corpus in which natural language sentences are accumulated on a large scale. The language model corpus 4 includes a larger amount of data than the text 2b of the learning data 2 for creating the acoustic model.

言語モデル記憶手段201は、言語モデル学習手段200が学習により生成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。
言語モデル記憶手段201に記憶されている言語モデルは、非特許文献2に記載されたモデルのように、音響モデル記憶手段101に対して評価用の音声3またはその特徴量を入力して得られた表意文字を含む文字列を入力として、前後の単語の関係から単語列を推定し、推定結果である単語列を出力するモデルの全てに適用可能なものである。言語モデルは、大量のテキストから予め学習した出力系列(単語等)の出現確率等をモデル化したものであり、例えば、一般的なNグラム言語モデルを用いることができる。
The language model storage unit 201 stores a language model generated by learning by the language model learning unit 200 and is a general storage medium such as a hard disk.
The language model stored in the language model storage unit 201 is obtained by inputting the evaluation speech 3 or its feature amount to the acoustic model storage unit 101 like the model described in Non-Patent Document 2. The present invention is applicable to all models that take a character string including an ideographic character as an input, estimate a word string from the relationship between previous and subsequent words, and output a word string as an estimation result. The language model is obtained by modeling the appearance probability of an output sequence (words and the like) learned in advance from a large amount of text. For example, a general N-gram language model can be used.

評価フェーズにおいて、日本語音響モデル学習装置10に記憶されている学習済みのパラメータを有する音響モデルに音声3またはその特徴量が連続的に入力されると、それに対応する文字列が連続的に出力され、言語モデル記憶手段201(日本語言語モデル学習装置20)に入力する。このとき、言語モデル学習手段200は、言語モデル記憶手段201に記憶されている学習済みのパラメータを有する言語モデルを用いて、入力される文字列から自然な日本語の文章としての認識結果5(単語列)を出力する。
すなわち、評価フェーズにおいては、言語モデル学習手段200は、言語モデル記憶手段201に記憶されている言語モデルを用いて、入力された文字列を、順次、単語に変換することで単語列を生成する単語列生成手段として機能する。なお、評価フェーズに対応した処理を行う単語列生成手段を別に設けて、言語モデル学習手段200には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。
In the evaluation phase, when the speech 3 or its feature value is continuously input to the acoustic model having the learned parameters stored in the Japanese acoustic model learning device 10, the corresponding character string is continuously output. And input to the language model storage unit 201 (Japanese language model learning device 20). At this time, the language model learning unit 200 uses the language model having the learned parameters stored in the language model storage unit 201 to recognize the recognition result 5 (as a natural Japanese sentence from the input character string). Output a word string).
That is, in the evaluation phase, the language model learning unit 200 uses the language model stored in the language model storage unit 201 to generate a word string by sequentially converting the input character string into a word. Functions as word string generation means. Note that a word string generation unit that performs processing corresponding to the evaluation phase may be provided separately, and the language model learning unit 200 may be configured to perform only processing corresponding to the pre-learning phase.

[日本語音響モデル学習装置10の構成]
日本語音響モデル学習装置10の音響モデル学習手段100で用いる音響モデルのネットワーク構造を説明する前に、End−to−end音響モデルのネットワーク構造について図2を参照して説明する。図2にはBLSTM構造をもつ標準的なネットワーク構造の一例が示されているが、LSTMを用いて実現したものやLSTM構造を持たない一般的なRNNに対しても本発明が同様に適用可能である。
[Configuration of Japanese acoustic model learning device 10]
Before describing the network structure of the acoustic model used by the acoustic model learning means 100 of the Japanese acoustic model learning device 10, the network structure of the end-to-end acoustic model will be described with reference to FIG. FIG. 2 shows an example of a standard network structure having a BLSTM structure. However, the present invention can be similarly applied to a general RNN that does not have an LSTM structure or an LSTM structure. It is.

図2に示すように、この標準的なネットワーク構造を用いて音響モデルを学習する音響モデル学習手段100Rは、深層学習手段111Rと、線形写像手段112と、正規化手段113とを備えている。
深層学習手段111Rは、第1層のBLSTM30aと、第2層のBLSTM30bと、第3層のBLSTM30cと、で構成されている。深層学習手段111Rは、音声を入力とし、音声がラベルのうちどれであるかを学習する手段である。ここでは3層構造としたが、深層学習手段111Rは、4層以上の多層構造のニューラルネットワークであっても構わない。深層学習手段111Rは、音声の特徴量が連続して入力され、多層構造の各層において、音声の特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する。深層学習手段111Rは、その内部構造をパラメータにより定義することができる。BLSTM構造の場合、パラメータは、層数とメモリセルである。メモリセルは、LSTM構造において、時間方向の情報を記憶するベクトルの次元数を決定するパラメータ、言い換えれば、時間軸上どこまで離れたデータを計算に取り込むかの長さを表している。なお、LSTM構造におけるメモリセルについては、非特許文献2に詳述されているので、ここでは説明を省略する。
As shown in FIG. 2, an acoustic model learning unit 100R that learns an acoustic model using this standard network structure includes a deep learning unit 111R, a linear mapping unit 112, and a normalizing unit 113.
The deep learning means 111R includes a first layer BLSTM 30a, a second layer BLSTM 30b, and a third layer BLSTM 30c. The deep learning means 111R is a means for learning which voice is the label by using the voice as input. Although the three-layer structure is used here, the deep learning means 111R may be a neural network having a multilayer structure of four or more layers. The deep learning means 111R continuously receives voice feature values, stores time direction information about the sound feature values in each layer of the multilayer structure, and uses the time direction information to store the sound feature values. A feature vector representing the probability of predicting which of the plurality of target characters is output. The deep learning means 111R can define its internal structure by parameters. In the case of the BLSTM structure, the parameters are the number of layers and the memory cell. In the LSTM structure, the memory cell represents a parameter for determining the number of dimensions of a vector for storing information in the time direction, in other words, how far the data on the time axis is taken into the calculation. Since the memory cell in the LSTM structure is described in detail in Non-Patent Document 2, description thereof is omitted here.

図2に示した音響モデル学習手段100Rの場合、深層学習手段111Rの各層のBLSTM30a,30b,30cはいずれも同一の規模である。具体的には、各層のBLSTMは、いずれも出力する特徴ベクトルの次元は640次元である。各BLSTM30a,30b,30cが有する前方の時間方向情報を記憶するメモリセルと、後方の時間方向情報を記憶するメモリセルも同一サイズであり(2つのメモリセルがそれぞれC=320)、いずれも320次元のベクトルを出力する。なお、メモリセルCの数値320は1つのメモリセルCのメモリ容量に対応している。この数値に依存して各層のメモリセルが出力する特徴ベクトルの次元数が変わる。
深層学習手段111Rは、120次元の音声の特徴量(特徴ベクトル)6を入力として、その最終層のBLSTM30cから640次元の特徴ベクトルを出力する。
In the case of the acoustic model learning unit 100R shown in FIG. 2, the BLSTMs 30a, 30b, and 30c of the layers of the deep learning unit 111R are all the same scale. Specifically, the BLSTM of each layer has a feature vector of 640 dimensions to be output. The memory cells that store the forward time direction information and the memory cells that store the backward time direction information of each BLSTM 30a, 30b, and 30c have the same size (two memory cells are C = 320, respectively). Output a vector of dimensions. The numerical value 320 of the memory cell C corresponds to the memory capacity of one memory cell C. Depending on this value, the number of dimensions of the feature vector output from the memory cell of each layer changes.
The deep learning means 111R receives a feature quantity (feature vector) 6 of 120-dimensional speech and outputs a 640-dimensional feature vector from the BLSTM 30c of the final layer.

線形写像手段112は、深層学習手段111によって各パラメータ(BLSTM構造の場合、層数、メモリセル)により定義された次元数で表現される音響特徴量(特徴ベクトル)を入力とする。線形写像手段112は、この特徴ベクトルを入力として、所定の変換行列を適用することにより、深層学習手段111の出力する特徴ベクトルの次元を所定の演算により変換する。すなわち、線形写像手段112はBLSTM30cの出力する特徴ベクトルの次元を文字出力ベクトル7の次元に変換する。ここで、線形写像手段112は、BLSTM30cの出力ベクトルに対して単一のAffine変換行列を適用する。具体的には、線形写像手段112は、BLSTM30cから入力される640次元の特徴ベクトルに640行2934列の行列(以下、640*320の行列と表記する。以下同様)を乗算して、2934次元のベクトルを出力する。ここで、2934は、識別対象としている日本語のひらがな、カタカナ、漢字、記号の個数である。線形写像手段112の出力するベクトルは正規化手段113へ入力する。   The linear mapping unit 112 receives an acoustic feature amount (feature vector) expressed by the number of dimensions defined by each parameter (in the case of a BLSTM structure, the number of layers and a memory cell) by the deep learning unit 111. The linear mapping unit 112 converts the dimension of the feature vector output from the deep learning unit 111 by a predetermined calculation by applying a predetermined conversion matrix using the feature vector as an input. That is, the linear mapping means 112 converts the dimension of the feature vector output from the BLSTM 30c into the dimension of the character output vector 7. Here, the linear mapping means 112 applies a single Affine transformation matrix to the output vector of the BLSTM 30c. Specifically, the linear mapping unit 112 multiplies the 640-dimensional feature vector input from the BLSTM 30c by a matrix of 640 rows and 2934 columns (hereinafter referred to as a 640 * 320 matrix; the same applies hereinafter) to obtain 2934 dimensions. Returns a vector of. Here, 2934 is the number of Japanese hiragana, katakana, kanji and symbols to be identified. The vector output from the linear mapping unit 112 is input to the normalization unit 113.

正規化手段113は、線形写像手段112によって調整された次元の目的関数の正規化を行うものである。正規化手段113は、Softmax関数を用いて、線形写像手段112によって調整された次元の目的関数の正規化を行って2934次元の文字出力ベクトル7として出力する。これにより、最終的に2934ラベルの識別を行うことができる。なお、この音声認識で識別しようとするアウトプットの個数(文字の個数=2934)を変えれば、それに依存して、学習により決定すべきパラメータ数(次元数)も変わる。   The normalizing means 113 normalizes the dimensional objective function adjusted by the linear mapping means 112. The normalizing means 113 normalizes the dimensional objective function adjusted by the linear mapping means 112 using the Softmax function, and outputs the result as a 2934-dimensional character output vector 7. As a result, the 2934 label can be finally identified. Note that if the number of outputs (number of characters = 2934) to be identified by voice recognition is changed, the number of parameters (number of dimensions) to be determined by learning also changes depending on the number.

(第1実施形態)
図3は第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造を説明する模式図である。ここでは、図2を参照して説明した、同一規模の3層の深層学習手段111RをN層に一般化して深層学習手段111と表記する。深層学習手段111は、層数がN(N≧3)であるものとしている。また、図2のBLSTMのことを、Fw−LSTMとBw−LSTMのペアで図示して説明する。なお、この深層学習手段111の次元数は、層数Nが一定値であれば、メモリセルCに依存する。
(First embodiment)
FIG. 3 is a schematic diagram for explaining the network structure of the acoustic model used in the acoustic model learning means according to the first embodiment. Here, the three layers of deep learning means 111R of the same scale described with reference to FIG. 2 are generalized to N layers and expressed as deep learning means 111. The deep learning means 111 assumes that the number of layers is N (N ≧ 3). Further, the BLSTM of FIG. 2 will be described with reference to a pair of Fw-LSTM and Bw-LSTM. The number of dimensions of the deep learning means 111 depends on the memory cell C if the number of layers N is a constant value.

第1実施形態に係る日本語音響モデル学習装置10の音響モデル学習手段100(図1)は、図3の深層学習手段111の第1層における前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
同様に、深層学習手段111の第N層における前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
一方、深層学習手段111の第1層と第N層を除く所定の第n層においては、前方(Fw)のLSTMには、メモリセルc(c<C)が設定されており、後方(Bw)のLSTMにもメモリセルc(c<C)が設定されている。
さらに、第1層、第n層、第N層以外のその他の層では、前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
The acoustic model learning unit 100 (FIG. 1) of the Japanese acoustic model learning device 10 according to the first embodiment includes a memory cell C in the LSTM in the front (Fw) in the first layer of the deep learning unit 111 in FIG. The memory cell C is also set in the rear (Bw) LSTM.
Similarly, the memory cell C is set in the front (Fw) LSTM in the Nth layer of the deep learning means 111, and the memory cell C is also set in the rear (Bw) LSTM.
On the other hand, in the predetermined n-th layer excluding the first layer and the N-th layer of the deep learning means 111, the memory cell c (c <C) is set in the front (Fw) LSTM, and the rear (Bw The memory cell c (c <C) is also set in the LSTM.
Further, in the other layers other than the first layer, the nth layer, and the Nth layer, the memory cell C is set in the front (Fw) LSTM, and the memory cell C is also set in the rear (Bw) LSTM. Is set.

つまり、深層学習手段111を構成するN層のBLSTM(Fw−LSTMとBw−LSTMのペア)のうち、第1層と第N層を除く所定の第n層におけるメモリセルcは、符号301で示すように、他の層のメモリセルCよりも小さく設定されている。
したがって、第n層の出力する特徴ベクトルの次元は、他の層から出力する特徴ベクトルの次元よりも縮小され、音響モデルのネットワーク構造の次元圧縮(ボトルネック構造)が実現される。これにより、深層学習手段111による演算で取り扱う特徴ベクトルの次元を圧縮することができる。なお、図3では、Fw−LSTMおよびBw−LSTMをそれぞれ表すブロックの横幅でメモリセルの大小を表している。
That is, among the N layer BLSTMs (Fw-LSTM and Bw-LSTM pairs) constituting the deep learning means 111, a memory cell c in a predetermined nth layer excluding the first layer and the Nth layer is denoted by reference numeral 301. As shown, it is set smaller than the memory cell C of the other layer.
Therefore, the dimension of the feature vector output from the n-th layer is reduced more than the dimension of the feature vector output from the other layers, and dimensional compression (bottleneck structure) of the network structure of the acoustic model is realized. Thereby, the dimension of the feature vector handled by the calculation by the deep learning means 111 can be compressed. In FIG. 3, the size of the memory cell is represented by the horizontal width of each block representing Fw-LSTM and Bw-LSTM.

図4は第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図4に示すように、第1実施形態に係る音響モデル学習手段100Aは、一例として層数Nを3とした深層学習手段111Aと、線形写像手段112と、正規化手段113とを備えている。なお、図2に示した音響モデル学習手段100Rと同じ構成には同じ符号を付して説明を省略する。
深層学習手段111Aは、第1層のBLSTM30aと、第2層のBLSTM30dと、第3層のBLSTM30cと、で構成されている。
第1層のBLSTM30aおよび最終層(第3層)のBLSTM30cは、いずれも出力する特徴ベクトルの次元は640次元であり、それぞれの層において2つのメモリセルがそれぞれC=320である。
一方、第2層のBLSTM30dは、出力する特徴ベクトルの次元は320次元であり、2つのメモリセルがそれぞれc=160である。
FIG. 4 is a diagram illustrating an example of a network structure of an acoustic model used in the acoustic model learning unit according to the first embodiment.
As shown in FIG. 4, the acoustic model learning unit 100A according to the first embodiment includes, as an example, a deep learning unit 111A having a layer number N of 3, a linear mapping unit 112, and a normalizing unit 113. . In addition, the same code | symbol is attached | subjected to the same structure as the acoustic model learning means 100R shown in FIG. 2, and description is abbreviate | omitted.
The deep learning means 111A includes a first layer BLSTM 30a, a second layer BLSTM 30d, and a third layer BLSTM 30c.
The BLSTM 30a of the first layer and the BLSTM 30c of the final layer (third layer) both output feature vectors of 640 dimensions, and two memory cells in each layer have C = 320, respectively.
On the other hand, in the BLSTM 30d of the second layer, the dimension of the feature vector to be output is 320 dimensions, and each of the two memory cells is c = 160.

また、音響モデル学習手段100Aで用いる音響モデルのネットワーク構造は、BLSTM構造に限らず、LSTMを用いて実現したものや、LSTM構造を持たない、より一般的なRNNに対しても、時間軸上どこまで離れたデータを計算に取り込むかの長さを設定することができるものであれば同様に適用可能である。
第1実施形態に係る日本語音響モデル学習装置10によれば、深層学習手段111Aの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。
Further, the network structure of the acoustic model used in the acoustic model learning unit 100A is not limited to the BLSTM structure, but is also realized on the time axis for a realization using LSTM or a more general RNN having no LSTM structure. The present invention can be similarly applied as long as it can set the length of how far away data is taken into the calculation.
According to the Japanese acoustic model learning device 10 according to the first embodiment, the dimensional compression of the network structure of the acoustic model is realized by compressing the dimension of the feature vector handled by the computation of the deep learning means 111A. The number of parameters to be determined is reduced by learning the model.

(第2実施形態)
図5は第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造のうち、線形変換部分を説明する模式図である。ここでは、図2の音響モデル学習手段100Rにおいて、線形写像手段112へ入力する特徴ベクトルが仮に4次元であり、出力される文字を表すベクトルが100次元であるものとして説明する。図2の音響モデル学習手段100Rによれば、線形写像手段112によって、図5(a)に示すように、入力される4次元ベクトル(1*4の行列)に対して、4*100の行列が乗算されて100次元のベクトル(1*100の行列)が出力される。この場合、入力される4次元ベクトルに対して乗算される行列の要素数は4×100=400である。この行列の要素数は、音響モデルの学習により決定すべきパラメータ数(次元数)の大小の目安となる。
(Second Embodiment)
FIG. 5 is a schematic diagram for explaining a linear conversion part in the network structure of the acoustic model used by the acoustic model learning means according to the second embodiment. Here, in the acoustic model learning unit 100R in FIG. 2, the feature vector input to the linear mapping unit 112 is assumed to be four-dimensional, and the vector representing the output character is assumed to be 100-dimensional. According to the acoustic model learning means 100R of FIG. 2, the linear mapping means 112 performs a 4 * 100 matrix with respect to the input four-dimensional vector (1 * 4 matrix) as shown in FIG. 5 (a). Are multiplied to output a 100-dimensional vector (1 * 100 matrix). In this case, the number of elements of the matrix multiplied by the input four-dimensional vector is 4 × 100 = 400. The number of elements in this matrix is a measure of the number of parameters (number of dimensions) to be determined by learning the acoustic model.

第2実施形態に係る日本語音響モデル学習装置10の音響モデル学習手段100(図1)は、図2に示した音響モデル学習手段100Rの線形写像手段112において演算で取り扱う特徴ベクトルの次元を圧縮することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。具体例で説明すると、第2実施形態によれば、図5(a)に示した4*100の行列を乗算することに代えて、図5(b)に示すように、それをランクr=2で行列分解して得られる2つの行列、すなわち、4*2の行列および2*100の行列を順次乗算する。この場合、行列の要素数の合計は4×2+2×100=208となり、音響モデルの学習により決定すべきパラメータ数が、図5(a)の場合の要素数である400と比べて大幅に削減される。   The acoustic model learning means 100 (FIG. 1) of the Japanese acoustic model learning apparatus 10 according to the second embodiment compresses the dimension of the feature vector handled by the operation in the linear mapping means 112 of the acoustic model learning means 100R shown in FIG. By doing so, dimensional compression of the network structure of the acoustic model is realized. More specifically, according to the second embodiment, instead of multiplying the 4 * 100 matrix shown in FIG. 5 (a), as shown in FIG. 5 (b), the rank r = Two matrices obtained by matrix decomposition at 2, that is, a 4 * 2 matrix and a 2 * 100 matrix are sequentially multiplied. In this case, the total number of elements of the matrix is 4 × 2 + 2 × 100 = 208, and the number of parameters to be determined by learning of the acoustic model is significantly reduced compared to 400, which is the number of elements in the case of FIG. Is done.

図2に示した音響モデル学習手段100Rを用いて、深層学習手段111Rの出力する特徴ベクトルの次元数、および、線形写像手段112の出力するベクトルの次元数について、より一般化して説明する。ここで、深層学習手段111Rの最終層であるBLSTM30cの出力する特徴ベクトルの次元数をDL、線形写像手段112の出力するベクトルの次元数をDAとすると、線形写像手段112でのパラメータ数PAは、次の式(a)で表される。なお、式(a)において、右辺第1項は線形変換部分(変換行列)を表し、右辺第2項は平行移動成分(バイアス)を表している。 By using the acoustic model learning unit 100R shown in FIG. 2, the dimensionality of the feature vector output from the deep learning unit 111R and the dimensionality of the vector output from the linear mapping unit 112 will be described more generally. Here, if the dimension number of the feature vector output from the BLSTM 30c as the final layer of the deep learning means 111R is D L and the dimension number of the vector output from the linear mapping means 112 is D A , the number of parameters in the linear mapping means 112 P a is represented by the following formula (a). In Expression (a), the first term on the right side represents a linear transformation part (transformation matrix), and the second term on the right side represents a translation component (bias).

A=DL×DA+DA … 式(a) P A = D L × D A + D A Formula (a)

このような線形写像手段112の変換行列を低ランクrで行列分解すると、このときのパラメータ数Prは、次の式(b)で表される。 When matrix decomposition of such transformation matrices of the linear mapping means 112 in the low-rank r, the number of parameters P r at this time is expressed by the following formula (b).

r=DL×r+r×DA+DA … 式(b) P r = D L × r + r × D A + D A ... formula (b)

ここで、低ランクrが、次の式(1)を満たすときPA>Prとなり、行列分解によりパラメータ数(次元数)を削減できる。 Here, when the low rank r satisfies the following expression (1), P A > P r , and the number of parameters (number of dimensions) can be reduced by matrix decomposition.

L×DA > DL×r+r×DA … 式(1) D L × D A > D L × r + r × D A Formula (1)

図6は第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図6に示すように、第2実施形態に係る音響モデル学習手段100Bは、深層学習手段111Rと、線形写像手段112Bと、正規化手段113とを備えている。なお、図2に示した音響モデル学習手段100Rと同じ構成には同じ符号を付して説明を省略する。
線形写像手段112Bは、第1線形写像手段40と、第2線形写像手段42と、を備えている。
第1線形写像手段40は、深層学習手段111Rの最終層(第3層)であるBLSTM30cから入力される640次元の特徴ベクトルに対して、640*320の行列を乗算して320次元のベクトルを出力する。
第2線形写像手段42は、第1線形写像手段40から入力される320次元の特徴ベクトルに対して、320*2934の行列を乗算して2934次元のベクトルを出力する。第2線形写像手段42の出力するベクトルは、正規化手段113へ入力する。
FIG. 6 is a diagram illustrating an example of a network structure of an acoustic model used by the acoustic model learning unit according to the second embodiment.
As shown in FIG. 6, the acoustic model learning unit 100B according to the second embodiment includes a deep learning unit 111R, a linear mapping unit 112B, and a normalizing unit 113. In addition, the same code | symbol is attached | subjected to the same structure as the acoustic model learning means 100R shown in FIG. 2, and description is abbreviate | omitted.
The linear mapping unit 112B includes a first linear mapping unit 40 and a second linear mapping unit 42.
The first linear mapping unit 40 multiplies the 640-dimensional feature vector input from the BLSTM 30c that is the final layer (third layer) of the deep learning unit 111R by a 640 * 320 matrix to obtain a 320-dimensional vector. Output.
The second linear mapping means 42 multiplies the 320-dimensional feature vector input from the first linear mapping means 40 by a 320 * 2934 matrix and outputs a 2934-dimensional vector. The vector output from the second linear mapping unit 42 is input to the normalizing unit 113.

この具体例について図6と図2とを対比して説明する。
図2に示した音響モデル学習手段100Rの場合、すなわち、線形写像手段112が行列分解を行わない場合、線形写像手段112が入力ベクトルに対して乗算する行列に着目すると、その行列の要素数は、
640×2934=1,877,760 である。
This specific example will be described by comparing FIG. 6 with FIG.
In the case of the acoustic model learning unit 100R shown in FIG. 2, that is, when the linear mapping unit 112 does not perform matrix decomposition, when attention is paid to the matrix that the linear mapping unit 112 multiplies the input vector, the number of elements of the matrix is ,
640 × 2934 = 1,877,760.

一方、第2実施形態に係る音響モデル学習手段100Bの場合、すなわち、線形写像手段112Bが行列分解を行う場合、行列分解された各行列の要素数の合計は減少する。具体的には、第1線形写像手段40が入力ベクトルに対して乗算する行列の要素数と、第2線形写像手段42が入力ベクトルに対して乗算する行列の要素数との合計は、
640×320+320×2934=1,143,680 である。
On the other hand, in the case of the acoustic model learning unit 100B according to the second embodiment, that is, when the linear mapping unit 112B performs matrix decomposition, the total number of elements of each matrix subjected to matrix decomposition decreases. Specifically, the sum of the number of elements of the matrix that the first linear mapping unit 40 multiplies the input vector and the number of elements of the matrix that the second linear mapping unit 42 multiplies the input vector is:
640 × 320 + 320 × 2934 = 1,143,680.

したがって、第2実施形態に係る日本語音響モデル学習装置10によれば、線形写像手段112Bが行列分解を行って線形写像手段112Bの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が大幅に削減される。
また、線形写像手段112Bが備える第1線形写像手段40の出力するベクトルの次元が320次元まで圧縮されており、汎化能力が高まることが期待される。
Therefore, according to the Japanese acoustic model learning device 10 according to the second embodiment, the linear mapping unit 112B performs matrix decomposition and compresses the dimension of the feature vector handled by the calculation of the linear mapping unit 112B, thereby generating a network of acoustic models. Dimensional compression of the structure is realized, which greatly reduces the number of parameters to be determined by learning the acoustic model.
Moreover, the dimension of the vector which the 1st linear mapping means 40 with which the linear mapping means 112B is provided is compressed to 320 dimensions, and it is anticipated that generalization capability will increase.

(第3実施形態)
第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造は、第1および第2実施形態を組み合わせたネットワーク構造である。すなわち、図2に示した深層学習手段111Rの第2層をBLSTM30dと置換することでボトルネック構造の深層学習手段111Aを備えると共に、図2に示した線形写像手段112を行列分解を行うことのできる線形写像手段112Bと置換することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。図7は第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
(Third embodiment)
The network structure of the acoustic model used in the acoustic model learning unit according to the third embodiment is a network structure in which the first and second embodiments are combined. That is, by replacing the second layer of the deep learning means 111R shown in FIG. 2 with the BLSTM 30d, the deep learning means 111A having a bottleneck structure is provided, and the linear mapping means 112 shown in FIG. 2 is subjected to matrix decomposition. By replacing the linear mapping means 112B that can be used, dimensional compression of the network structure of the acoustic model is realized. FIG. 7 is a diagram showing an example of a network structure of an acoustic model used in acoustic model learning means according to the third embodiment.

図7に示すように、第3実施形態に係る音響モデル学習手段100Cは、一例として層数Nを3とした深層学習手段111Aと、線形写像手段112Bと、正規化手段113とを備えている。図7において、図2、図4および図6を参照して説明した構成要素と同じ構成要素には同じ符号を付し、これ以上の説明を省略する。
第3実施形態に係る日本語音響モデル学習装置10によれば、深層学習手段111Aおよび線形写像手段112Bの双方の演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。
As shown in FIG. 7, the acoustic model learning unit 100C according to the third embodiment includes, as an example, a deep layer learning unit 111A having a layer number N of 3, a linear mapping unit 112B, and a normalizing unit 113. . In FIG. 7, the same components as those described with reference to FIGS. 2, 4, and 6 are denoted by the same reference numerals, and further description thereof is omitted.
According to the Japanese acoustic model learning device 10 according to the third embodiment, the dimensional compression of the network structure of the acoustic model is performed by compressing the dimension of the feature vector handled by the operations of both the deep learning means 111A and the linear mapping means 112B. This reduces the number of parameters to be determined by learning the acoustic model.

以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、前記各実施形態では、日本語音響モデル学習装置として説明したが、各装置の構成の処理を可能にするように、汎用又は特殊なコンピュータ言語で記述した日本語音響モデル学習プログラムとみなすことも可能である。   As mentioned above, although each embodiment of this invention was described, this invention is not limited to these, It can implement in the range which does not change the meaning. For example, in each of the embodiments described above as a Japanese acoustic model learning device, it can be regarded as a Japanese acoustic model learning program written in a general-purpose or special computer language so as to enable processing of the configuration of each device. Is also possible.

各実施形態に係る日本語音響モデル学習装置の性能を確かめるために、各実施形態にそれぞれ対応した複数のネットワーク構造について学習した各モデルの音声認識実験結果を比較した。評価音声には、総合テレビの情報番組『ひるまえほっと』2013年6月放送分の番組音声(32k単語=32,000単語)を用いた。各手法とも学習データは、放送音声と字幕のペア1023時間、入力特徴量はFilter bank40次元+delta+deltadeltaの計120次元を用いた。言語モデルにはNHK(登録商標)の原稿や過去番組の字幕等のべ6.2億単語から学習した語彙200kのモデルを利用した。学習に用いたネットワークは、図2の標準的な構造と、図4、図6および図7の3つの構造であり、各学習結果を比較した。その結果を表1に示す。   In order to confirm the performance of the Japanese acoustic model learning device according to each embodiment, the speech recognition experiment results of each model learned for a plurality of network structures corresponding to each embodiment were compared. As the evaluation sound, the program sound (32k words = 32,000 words) for the June 2013 broadcast of the information program “Hiruma Ehot” on the general television was used. In each method, the learning data used a total of 120 dimensions, that is, 1023 hours of a pair of broadcast audio and subtitles, and an input feature amount of Filter bank 40 dimensions + delta + deltadelta. The language model used was a 200k vocabulary model learned from 600 million words such as NHK (registered trademark) manuscripts and subtitles of past programs. The network used for learning has the standard structure of FIG. 2 and the three structures of FIG. 4, FIG. 6, and FIG. The results are shown in Table 1.

Figure 2018141925
Figure 2018141925

表1によれば、図2の標準的な構造と比較して、いずれの実施形態においても単語認識誤り率(WER)が改善され、学習時間および学習回数が著しく短縮された。
詳細には、Affine変換の行列分解を行う手法、すなわち、線形写像手段112Bにおいて次元を圧縮する第2実施形態および第3実施形態において、WERがより改善されており、汎化能力がより高められている。このうち、Affine変換の行列分解のみを適用したモデル、すなわち、第2実施形態では、WERが、図2の標準的な構造を用いる手法より20.2%改善した。これは、漢字の読み相当の次元数(=320)まで一度次元を圧縮したことで、モデルの汎化能力が向上したためと考えられる。
According to Table 1, compared to the standard structure of FIG. 2, the word recognition error rate (WER) was improved and the learning time and the number of times of learning were remarkably shortened in any of the embodiments.
Specifically, in the second embodiment and the third embodiment in which the dimension is compressed in the linear mapping unit 112B, the WER is further improved, and the generalization ability is further increased. ing. Among these, in the model to which only the matrix decomposition of the Affine transformation is applied, that is, in the second embodiment, the WER is improved by 20.2% compared to the method using the standard structure of FIG. This is presumably because the generalization ability of the model was improved by compressing the dimensions once to the number of dimensions equivalent to the reading of kanji (= 320).

また、BLSTM部分のパラメータを削減する手法、すなわち、深層学習手段111Aにおいて次元を圧縮する第1実施形態および第3実施形態において、学習時間の短縮効果がより大きくなった。このうち、ボトルネック構造と行列分解の両方を採用したモデル、すなわち、第3実施形態では、学習1回あたりの平均学習時間が、図2の標準的な構造を用いる手法より9.3%改善した。これは各実施形態で削減したBLSTMの次元は時間方向に影響するものであるため、Affine変換の行列分解に比べ更に学習時間の短縮効果が得られたと考えられる。   In addition, in the technique for reducing the parameters of the BLSTM part, that is, in the first embodiment and the third embodiment in which the dimension is compressed in the deep learning means 111A, the effect of shortening the learning time is greater. Among these, in the model employing both the bottleneck structure and the matrix decomposition, that is, the third embodiment, the average learning time per learning is improved by 9.3% from the method using the standard structure of FIG. did. Since the BLSTM dimension reduced in each embodiment affects the time direction, it is considered that the learning time can be further shortened as compared with the matrix decomposition of the Affine transform.

1 日本語音声認識装置
10 日本語音響モデル学習装置
100,100A,100B,110C 音響モデル学習手段
101 音響モデル記憶手段
111,111A,111R 深層学習手段
112,112B 線形写像手段
113 正規化手段
30a,30b,30c,30d BLSTM
40 第1線形写像手段
42 第2線形写像手段
DESCRIPTION OF SYMBOLS 1 Japanese speech recognition apparatus 10 Japanese acoustic model learning apparatus 100,100A, 100B, 110C Acoustic model learning means 101 Acoustic model storage means 111,111A, 111R Deep learning means 112,112B Linear mapping means 113 Normalization means 30a, 30b , 30c, 30d BLSTM
40 First linear mapping means 42 Second linear mapping means

Claims (4)

入力された音声が音声認識されることにより出力される文字との対応付けを学習することにより、前記入力された音声をEnd−to−endの音声認識手法を用いて文字に変換し、当該文字を出力する音響モデルを学習する音響モデル学習装置であって、
3層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、
前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、
前記深層学習手段および前記線形写像手段による演算のうちの少なくとも1つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習することを特徴とする音響モデル学習装置。
The input voice is converted into a character by using an end-to-end voice recognition method by learning the correspondence with the character output by the voice recognition of the input voice, and the character An acoustic model learning device for learning an acoustic model that outputs
It has a multi-layered neural network of three or more layers, and feature values of speech are continuously input, information on the time direction about the feature values is stored in each layer of the multi-layer structure, and information on the time direction is stored. A deep learning means for outputting a feature vector representing a probability of predicting which of a plurality of target characters from the feature amount of the speech,
Linear mapping means for converting the dimension of the feature vector output from the deep learning means by a predetermined calculation by applying a predetermined transformation matrix to the feature vector that is the output of the last layer of the deep learning means,
An acoustic model learning apparatus, wherein the acoustic model is learned by compressing a dimension of the feature vector handled by at least one of computations by the deep learning unit and the linear mapping unit.
請求項1に記載の音響モデル学習装置において、
前記深層学習手段は、前記特徴ベクトルの次元の圧縮を行うために、
前記多層構造の第1層および最終層を除く所定の1層において時間方向の情報を記憶するベクトルの次元数が、前記第1層および前記最終層において時間方向の情報を記憶するベクトルの次元数よりも小さく設定された状態で、前記入力される音声の特徴量から文字を予測することを特徴とする音響モデル学習装置。
The acoustic model learning device according to claim 1,
In order to compress the dimension of the feature vector, the deep learning means
The number of dimensions of a vector for storing information in the time direction in a predetermined layer excluding the first layer and the last layer of the multilayer structure is the number of dimensions of a vector for storing information in the time direction in the first layer and the last layer. An acoustic model learning device that predicts a character from a feature amount of the input speech in a state where the character is set smaller than the above.
請求項1または請求項2に記載の音響モデル学習装置において、
前記線形写像手段は、
前記深層学習手段の最終層の出力する特徴ベクトルの次元数をDL、前記線形写像手段の出力するベクトルの次元数をDAとして、
前記深層学習手段の最終層の出力する特徴ベクトルに対して、前記変換行列を適用することに代えて、前記変換行列を次の式
L×DA > DL×r+r×DA … 式(1)
を満たすランクrで行列分解して得られる2つの行列を順次適用して前記特徴ベクトルの次元の圧縮を行うことを特徴とする音響モデル学習装置。
In the acoustic model learning device according to claim 1 or 2,
The linear mapping means includes
The dimension number of the feature vector output from the last layer of the deep learning means is D L , and the dimension number of the vector output from the linear mapping means is D A.
Instead of applying the transformation matrix to the feature vector output from the last layer of the deep learning means, the transformation matrix is expressed by the following formula: D L × D A > D L × r + r × D A. 1)
An acoustic model learning device characterized in that the dimension of the feature vector is compressed by sequentially applying two matrices obtained by matrix decomposition with a rank r satisfying.
コンピュータを、請求項1から請求項3のいずれか一項に記載の音響モデル学習装置として機能させるための音響モデル学習プログラム。   The acoustic model learning program for functioning a computer as the acoustic model learning apparatus as described in any one of Claims 1-3.
JP2017037421A 2017-02-28 2017-02-28 Acoustic model learning device and acoustic model learning program Expired - Fee Related JP6820764B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017037421A JP6820764B2 (en) 2017-02-28 2017-02-28 Acoustic model learning device and acoustic model learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017037421A JP6820764B2 (en) 2017-02-28 2017-02-28 Acoustic model learning device and acoustic model learning program

Publications (2)

Publication Number Publication Date
JP2018141925A true JP2018141925A (en) 2018-09-13
JP6820764B2 JP6820764B2 (en) 2021-01-27

Family

ID=63526729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017037421A Expired - Fee Related JP6820764B2 (en) 2017-02-28 2017-02-28 Acoustic model learning device and acoustic model learning program

Country Status (1)

Country Link
JP (1) JP6820764B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753653A (en) * 2018-12-25 2019-05-14 金蝶软件(中国)有限公司 Entity name recognition methods, device, computer equipment and storage medium
CN110047510A (en) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 Audio identification methods, device, computer equipment and storage medium
KR102382215B1 (en) * 2020-10-20 2022-04-01 김규현 Acoustic accident detection system through accident sound deep learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140956A1 (en) * 2014-11-13 2016-05-19 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
WO2016118257A1 (en) * 2015-01-22 2016-07-28 Qualcomm Incorporated Model compression and fine-tuning
JP2016212273A (en) * 2015-05-11 2016-12-15 国立研究開発法人情報通信研究機構 Recurrent neural network learning method, computer program therefor, and speech recognition apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140956A1 (en) * 2014-11-13 2016-05-19 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
WO2016118257A1 (en) * 2015-01-22 2016-07-28 Qualcomm Incorporated Model compression and fine-tuning
JP2016212273A (en) * 2015-05-11 2016-12-15 国立研究開発法人情報通信研究機構 Recurrent neural network learning method, computer program therefor, and speech recognition apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMODEI, DARIO ET AL.: "Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin", PROCEEDINGS OF THE 33RD INTERNATIONAL CONFERENCE ON MACHINE LEARNING, JPN6020037295, 2016, pages 173 - 182, ISSN: 0004360329 *
SAINATH, TARA N. ET AL.: "LOW-RANK MATRIX FACTORIZATION FOR DEEP NEURAL NETWORK TRAINING WITH HIGH-DIMENSIONAL OUTPUT TARGETS", 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6020037297, 2013, pages 6655 - 6659, XP032508392, ISSN: 0004360330, DOI: 10.1109/ICASSP.2013.6638949 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753653A (en) * 2018-12-25 2019-05-14 金蝶软件(中国)有限公司 Entity name recognition methods, device, computer equipment and storage medium
CN110047510A (en) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 Audio identification methods, device, computer equipment and storage medium
KR102382215B1 (en) * 2020-10-20 2022-04-01 김규현 Acoustic accident detection system through accident sound deep learning

Also Published As

Publication number Publication date
JP6820764B2 (en) 2021-01-27

Similar Documents

Publication Publication Date Title
CN109887484B (en) Dual learning-based voice recognition and voice synthesis method and device
CN114787914B (en) System and method for streaming end-to-end speech recognition with asynchronous decoder
Senior et al. Improving DNN speaker independence with i-vector inputs
CN111837178A (en) Speech processing system and method for processing speech signals
Deng et al. Deep learning for signal and information processing
Deng et al. Foundations and trends in signal processing: Deep learning–methods and applications
CN117043857A (en) Methods, devices and computer program products for English pronunciation assessment
Pramanik et al. Text normalization using memory augmented neural networks
CN111771213A (en) Speech style migration
US12249317B2 (en) Joint unsupervised and supervised training for multilingual ASR
WO2020233953A1 (en) A method of sequence to sequence data processing and a system for sequence to sequence data processing
Mamyrbayev et al. End-to-end speech recognition in agglutinative languages
Nasr et al. End-to-end speech recognition for arabic dialects
KR20250092276A (en) Semi-supervised training method for speech recognition
US20240177706A1 (en) Monte Carlo Self-Training for Speech Recognition
JP6820764B2 (en) Acoustic model learning device and acoustic model learning program
Loubser et al. End-to-end automated speech recognition using a character based small scale transformer architecture
Zhang et al. Cacnet: Cube attentional cnn for automatic speech recognition
US12499870B2 (en) Guided data selection for masked speech modeling based on an average score assigned to encoded representations of an utterance
WO2025183882A1 (en) Using synthetic data to improve word error rate of differentially private asr models
Chien et al. Variational sequential modeling, learning and understanding
Lu et al. Pretraining enhanced rnn transducer
Khaled et al. UniTextFusion: A low-resource framework for Arabic multimodal sentiment analysis using early fusion and LoRA-tuned language models
Yolchuyeva Novel NLP Methods for Improved Text-To-Speech Synthesis
Asaei et al. Phonological Posterior Hashing for Query by Example Spoken Term Detection.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210105

R150 Certificate of patent or registration of utility model

Ref document number: 6820764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees