[go: up one dir, main page]

JP2011170259A - Voice encoding device, method and program, and code book data classification device, method and program - Google Patents

Voice encoding device, method and program, and code book data classification device, method and program Download PDF

Info

Publication number
JP2011170259A
JP2011170259A JP2010036195A JP2010036195A JP2011170259A JP 2011170259 A JP2011170259 A JP 2011170259A JP 2010036195 A JP2010036195 A JP 2010036195A JP 2010036195 A JP2010036195 A JP 2010036195A JP 2011170259 A JP2011170259 A JP 2011170259A
Authority
JP
Japan
Prior art keywords
code
codes
analysis result
signal characteristic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010036195A
Other languages
Japanese (ja)
Inventor
Hiromi Aoyanagi
弘美 青柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2010036195A priority Critical patent/JP2011170259A/en
Publication of JP2011170259A publication Critical patent/JP2011170259A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice encoding device enabling processing required for code search to be reduced while maintaining compatibility with existing various standards and sound quality. <P>SOLUTION: The voice encoding device utilizing a fixed code book, has: a signal characteristic analysis means which analyzes a characteristic of the voice signal to be encoded; and a candidate code group changing means for changing, according to the analysis result, a code group which is used for searching an optimal code to be included in encoding information among codes in the fixed code book. Since a code used for searching the optimal code among the codes of the fixed code book is limited according to the characteristic of the voice signal to be encoded, the encoding speed is increased. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は音声符号化装置、方法及びプログラム、並びに、コードブックデータ分類集計装置、方法及びプログラムに関し、例えば、携帯電話端末に適用し得るものである。   The present invention relates to a speech encoding apparatus, method and program, and codebook data classification and aggregation apparatus, method and program, and can be applied to, for example, a mobile phone terminal.

音声通信である電話通信(特に、携帯電話通信)では、伝送する情報量を低減するために音声符号化技術が用いられている。音声符号化には、CELP(Code Excited Linear Prediction)型と呼ばれる手法が広く利用されており、多くの標準として実用化されている。CELP型音声符号化は、コードブック(符号帳)と呼ばれる量子化テーブルを持ち、このテーブルの中から最適なコードを選択することにより符号化を実現する。一般に、CELP型音声符号化では、コードブック内の全てのコードを候補として最適なコードを探索するため、コード探索(コード選択)に多くの処理を要する。そのため、様々な高速化手法が考案されており、例えば、非特許文献1に記載のような高速処理が予め考慮された標準方式も存在する。   In telephone communications (particularly mobile telephone communications) that are voice communications, voice coding techniques are used to reduce the amount of information to be transmitted. For speech coding, a technique called CELP (Code Excluded Linear Prediction) type is widely used and has been put into practical use as many standards. CELP speech coding has a quantization table called a code book, and realizes coding by selecting an optimum code from this table. In general, in CELP speech coding, an optimal code is searched using all the codes in the code book as candidates, so that a lot of processing is required for code search (code selection). For this reason, various speed-up methods have been devised. For example, there is a standard method in which high-speed processing as described in Non-Patent Document 1 is considered in advance.

ITU−T G.729AITU-T G. 729A

しかしながら、非特許文献1の記載技術の他にも、CELP型音声符号化を利用した標準方式は多く存在し、そのような標準方式では、非特許文献1の記載技術を適用することはできない。   However, in addition to the technique described in Non-Patent Document 1, there are many standard systems using CELP speech coding, and the technique described in Non-Patent Document 1 cannot be applied to such a standard system.

そのため、多くの方式や規格で適用可能な、音声符号化を高速に実行できる新たな手法が望まれている。   Therefore, a new technique that can be applied to many schemes and standards and that can execute speech encoding at high speed is desired.

第1の本発明は、固定コードブックを利用する音声符号化装置において、(1)符号化対象の音声信号の特性を分析する信号特性分析手段と、(2)上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段とを有することを特徴とする。   According to a first aspect of the present invention, in a speech encoding apparatus using a fixed codebook, (1) a signal characteristic analyzing means for analyzing characteristics of a speech signal to be encoded, and (2) an analysis result of the signal characteristic analyzing means And a candidate code group switching means for switching a code group used for searching for an optimum code to be included in the encoded information among the codes in the fixed codebook.

第2の本発明は、固定コードブックを利用する音声符号化方法において、(1)信号特性分析手段が、符号化対象の音声信号の特性を分析し、(2)候補コード群切替手段が、上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替えることを特徴とする。   According to a second aspect of the present invention, in the speech encoding method using a fixed codebook, (1) the signal characteristic analyzing means analyzes the characteristics of the speech signal to be encoded, and (2) the candidate code group switching means is According to an analysis result of the signal characteristic analysis means, a code group used for searching for an optimum code to be included in encoded information is switched among codes in the fixed codebook.

第3の本発明は、固定コードブックを利用する音声符号化を実行させるための音声符号化プログラムであって、コンピュータを、(1)符号化対象の音声信号の特性を分析する信号特性分析手段と、(2)上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段として機能させることを特徴とする。   According to a third aspect of the present invention, there is provided a speech encoding program for executing speech encoding using a fixed codebook, wherein (1) signal characteristic analysis means for analyzing characteristics of a speech signal to be encoded And (2) functioning as a candidate code group switching means for switching a code group used for searching for an optimum code to be included in encoded information among codes in the fixed codebook according to the analysis result of the signal characteristic analysis means. Features.

第4の本発明のコードブックデータ分類集計装置は、(1)音声信号の特性を分析する信号特性分析手段と、(2)固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得るコードブックデータ分類集計手段とを備えることを特徴とする。   The code book data classification and aggregation device according to the fourth aspect of the present invention comprises: (1) signal characteristic analysis means for analyzing characteristics of audio signals; and (2) optimal code search using all codes in a fixed codebook as candidates. Candidate code group to be used for speech coding at the time of the analysis result for each analysis result among the codes of the fixed codebook, by summing up the frequency information as codes for each analysis result of the signal characteristic analysis means Codebook data classification and aggregation means for obtaining the above information.

第5の本発明のコードブックデータ分類集計方法は、(1)信号特性分析手段が、音声信号の特性を分析し、(2)コードブックデータ分類集計手段が、固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得ることを特徴とする。   In the code book data classification and aggregation method of the fifth aspect of the present invention, (1) the signal characteristic analysis means analyzes the characteristics of the audio signal, and (2) the code book data classification and aggregation means analyzes all the codes in the fixed code book. The frequency information that has become the optimal code in the search for the optimal code as a candidate is aggregated for each analysis result of the signal characteristic analysis means, and for each analysis result of the code of the fixed codebook, Information on candidate code groups used in speech coding is obtained.

第6の本発明のコードブックデータ分類集計プログラムは、コンピュータを、(1)音声信号の特性を分析する信号特性分析手段と、(2)固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得るコードブックデータ分類集計手段として機能させることを特徴とする。   A codebook data classification and aggregation program according to a sixth aspect of the present invention includes: (1) a signal characteristic analysis unit that analyzes the characteristics of an audio signal; and (2) an optimal code that uses all codes in a fixed codebook as candidates. The frequency information that has become the optimum code in the search is aggregated for each analysis result of the signal characteristic analysis means, and is used for speech encoding at the time of the analysis result for each analysis result in the code of the fixed codebook. It is made to function as a code book data classification totaling means for obtaining information on candidate code groups.

本発明によれば、符号化対象の音声信号の特性に応じて、固定コードブックのコードのうち、最適コードの探索に使用するコードを限定するようにしたので、既存の各種標準化との互換性や音質を保ったまま、コード探索に要する処理を軽減することができる。   According to the present invention, the codes used for searching for the optimum code among the codes of the fixed codebook are limited according to the characteristics of the audio signal to be encoded. The processing required for chord search can be reduced while maintaining sound quality.

第1の実施形態に係る音声符号化装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the audio | voice coding apparatus which concerns on 1st Embodiment. 第1の実施形態における有声音候補情報及び無声音候補情報の説明図である。It is explanatory drawing of voiced sound candidate information and unvoiced sound candidate information in 1st Embodiment. 第2の実施形態に係る音声符号化装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the audio | voice coding apparatus which concerns on 2nd Embodiment.

(A)第1の実施形態
以下、本発明による音声符号化装置、方法及びプログラムの第1の実施形態を、図面を参照しながら詳述する。第1の実施形態は、コードブックデータ分類集計装置、方法及びプログラムを備えていない。
(A) First Embodiment Hereinafter, a first embodiment of a speech encoding apparatus, method, and program according to the present invention will be described in detail with reference to the drawings. The first embodiment does not include a codebook data classification and aggregation device, method, and program.

図1は、第1の実施形態に係る音声符号化装置の機能的構成を示すブロック図である。図1は、最適なコードを探索(選択)するための構成部分を示している。音声符号化装置を搭載する装置が携帯電話端末などの場合には、音声符号化装置は、CPUと、CPUが実行する音声符号化プログラムで実現されることも多いが、このような場合であっても、機能的には、図1で表すことができる。   FIG. 1 is a block diagram showing a functional configuration of the speech encoding apparatus according to the first embodiment. FIG. 1 shows components for searching (selecting) an optimal code. When the device equipped with the speech encoding device is a mobile phone terminal or the like, the speech encoding device is often realized by a CPU and a speech encoding program executed by the CPU. However, it can be functionally represented in FIG.

図1において、第1の実施形態に係る音声符号化装置1は、コードブック部2、ゲイン可変部3、合成フィルタ部4、減算部5、聴覚的重み付け部6、最適コード評価部7及び信号特性分析部8を有する。コードブック部2は、コードブック10とコード取出し部11とを有する。   In FIG. 1, a speech encoding apparatus 1 according to the first embodiment includes a codebook unit 2, a gain variable unit 3, a synthesis filter unit 4, a subtraction unit 5, an auditory weighting unit 6, an optimal code evaluation unit 7, and a signal. A characteristic analysis unit 8 is included. The code book unit 2 includes a code book 10 and a code extraction unit 11.

第1の実施形態の音声符号化装置1は、コードブック部2及び信号特性分析部8に特徴を有し、その他の構成は、CELP型音声符号化方式に従う構成であれば、図1に示す構成に限定されるものではない。   The speech coding apparatus 1 according to the first embodiment is characterized by the code book unit 2 and the signal characteristic analysis unit 8, and other configurations are shown in FIG. 1 as long as the configuration conforms to the CELP speech coding scheme. The configuration is not limited.

第1の実施形態に係る音声符号化装置1は、例えば、所定時間の音声信号(音声データ)でなるフレーム毎に符号化を行うものであり、フレーム毎に、そのフレームの音声信号について最適なコードを探索するものである。   The speech encoding apparatus 1 according to the first embodiment performs, for example, encoding for each frame of speech signals (speech data) for a predetermined time, and is optimal for the speech signal of the frame for each frame. Search for code.

コードブック部2は、予め定められている所定数のコードを固定的に格納しているコードブック10を有し、コード取出し部11は、後述するように、そのコードブック10から、最適コードの探索に適用されるコードの候補を順次取出すものである。   The code book unit 2 has a code book 10 in which a predetermined number of predetermined codes are stored in a fixed manner, and the code extraction unit 11 stores an optimum code from the code book 10 as will be described later. Code candidates applied to the search are sequentially extracted.

コードブック部10から取出されたコードは、ゲイン可変部3によってゲインが調整された後、合成フィルタ部4に与えられる。合成フィルタ部4には、符号化対象の音声信号から図示しない声道係数分析部が得た声道係数を、図示しない声道係数量子化部が量子化した声道係数も与えられる。合成フィルタ部4は、与えられたコード及び声道係数から合成処理し、コード候補を適用して局部復号されたと同様な音声信号(以下、局部復号音声信号)を得る。減算部5によって、符号化対象の音声信号と局部復号音声信号とが求められ、その誤差信号(差分信号)に対し、聴覚的重み付け部6によって聴覚特性に応じた重み付けがなされ、その後、最適コード評価部7によって、重み付けされた誤差信号のパワー(2乗誤差)が計算される。最適コード評価部7は、それぞれのコード候補についての2乗誤差の中から、最小の2乗誤差をとるコードの候補を最適コードに決定する。   The code extracted from the code book unit 10 is given to the synthesis filter unit 4 after the gain is adjusted by the gain variable unit 3. The synthesis filter unit 4 is also given a vocal tract coefficient obtained by quantizing a vocal tract coefficient obtained by a vocal tract coefficient analysis unit (not shown) from a speech signal to be encoded by a vocal tract coefficient quantization unit (not shown). The synthesis filter unit 4 performs synthesis processing from a given code and vocal tract coefficient, and obtains a speech signal similar to that obtained by local decoding by applying a code candidate (hereinafter, locally decoded speech signal). The subtracting unit 5 obtains the speech signal to be encoded and the locally decoded speech signal, and the error signal (difference signal) is weighted according to the auditory characteristics by the auditory weighting unit 6, and then the optimum code The power of the weighted error signal (square error) is calculated by the evaluation unit 7. The optimal code evaluation unit 7 determines a code candidate having the minimum square error as the optimal code from the square errors for the respective code candidates.

信号特性分析部8には、符号化対象の音声信号が入力され、信号特性分析部8は、その特性を分析し、特性の分析結果を表すパラメータをコード取出し部11に与える。以下では、信号特性分析部8から出力されるパラメータが有声音か無声音かを指標するものとして説明する。但し、信号特性分析部8による分析特性はこれに限定されない。例えば、有音/無音を判定(分析)するものであっても良い。また例えば、ピッチが、短い、中間、長い、のどの範囲のものかを分析するものであっても良い。   An audio signal to be encoded is input to the signal characteristic analysis unit 8, and the signal characteristic analysis unit 8 analyzes the characteristic and gives a parameter representing the analysis result of the characteristic to the code extraction unit 11. In the following description, it is assumed that the parameter output from the signal characteristic analyzer 8 indicates whether the parameter is voiced sound or unvoiced sound. However, the analysis characteristic by the signal characteristic analysis part 8 is not limited to this. For example, it is possible to determine (analyze) sound / silence. Further, for example, it may be an analysis of whether the pitch is in a short range, medium range, or long range.

コード取出し部11は、有声音のときに候補となり得るコードの情報(有声音候補情報)11aと、無声音のときに候補となり得るコードの情報(無声音候補情報)11bを有している。   The code extraction unit 11 includes code information (voiced sound candidate information) 11a that can be a candidate for voiced sound and code information (unvoiced sound candidate information) 11b that can be a candidate for unvoiced sound.

図2は、有声音候補情報11a及び無声音候補情報11bの説明図である。コードブック10には、所定数(例えば1024種類)のコードが格納されている。符号化対象の音声信号が有声音のときには、コードブック10の全てのコードを最適コードの探索に使用せずに、コードブック10に格納されているコードのうち、有声音候補情報11aに記述されている一部(例えば512種類)のコードを最適コードの探索に使用する。同様に、符号化対象の音声信号が無声音のときには、コードブック10の全てのコードを最適コードの探索に使用せずに、コードブック10に格納されているコードのうち、無声音候補情報11bに記述されている一部(例えば512種類)のコードを最適コードの探索に使用する。   FIG. 2 is an explanatory diagram of the voiced sound candidate information 11a and the unvoiced sound candidate information 11b. The code book 10 stores a predetermined number (eg, 1024 types) of codes. When the speech signal to be encoded is a voiced sound, all the codes in the codebook 10 are not used for searching for the optimum code, but are described in the voiced sound candidate information 11a among the codes stored in the codebook 10. A part of the codes (for example, 512 types) are used for searching for the optimum code. Similarly, when the speech signal to be encoded is an unvoiced sound, all the codes in the code book 10 are not used for searching for the optimum code, but are described in the unvoiced sound candidate information 11b among the codes stored in the code book 10. A part of the codes (for example, 512 types) are used for searching for the optimum code.

有声音候補情報11a及び無声音候補情報11bとしては、例えば、コードブック10に格納されているコードの順に、そのコードを使用するか否かを表すビットの系列を適用する。   As the voiced sound candidate information 11a and the unvoiced sound candidate information 11b, for example, a sequence of bits indicating whether or not to use the codes is applied in the order of the codes stored in the code book 10.

図2の例では、コードブック10の1番目に格納されているコードは有声音では候補とならず、無声音では候補となるものである。コードブック10の2番目に格納されているコードは有声音では候補となり、無声音では候補とならないものである。コードブック10の4番目に格納されているコードは有声音でも無声音でも候補となるものである。コードブック10の6番目に格納されているコードは有声音でも無声音でも候補とならないものである。   In the example of FIG. 2, the code stored first in the code book 10 is not a candidate for voiced sound but a candidate for unvoiced sound. The second code stored in the code book 10 is a candidate for a voiced sound and not a candidate for an unvoiced sound. The fourth code stored in the code book 10 is a candidate for both voiced and unvoiced sounds. The sixth code stored in the code book 10 is neither a voiced sound nor an unvoiced sound.

コード取出し部11は、符号化対象の音声信号(フレーム)が有声音のときには、有声音候補情報11aに従い、コードブック10から、候補となり得るコードを順次取出して出力し、一方、符号化対象の音声信号(フレーム)が無声音のときには、無声音候補情報11bに従い、コードブック10から、候補となり得るコードを順次取出して出力する。   When the audio signal (frame) to be encoded is a voiced sound, the code extraction unit 11 sequentially extracts and outputs codes that can be candidates from the codebook 10 in accordance with the voiced sound candidate information 11a. When the audio signal (frame) is an unvoiced sound, codes that can be candidates are sequentially extracted from the code book 10 and output according to the unvoiced sound candidate information 11b.

コード取出し部11に格納しておく有声音候補情報11a及び無声音候補情報11bの形成方法については、後述する第2の実施形態の説明で明らかにする。なお、有声音候補情報11aに記述されているコードは、有声音のフレームで最適コードになったことが多いコードであり、無声音候補情報11bに記述されているコードは、無声音のフレームで最適コードになったことが多いコードである。   A method for forming the voiced sound candidate information 11a and the unvoiced sound candidate information 11b stored in the code extraction unit 11 will be clarified in the description of the second embodiment to be described later. The code described in the voiced sound candidate information 11a is a code that is often the optimal code in the voiced sound frame, and the code described in the unvoiced sound candidate information 11b is the optimal code in the unvoiced sound frame. This is a code that has often become.

なお、音声復号装置には、最適コードの情報が与えられ、それに基づいて復号するので、第1の実施形態のように、音声符号化装置に特徴的な構成を盛り込んでも、音声復号装置は既存の構成で動作することができる。   Note that since the information of the optimal code is given to the speech decoding apparatus and decoding is performed based on the information, the speech decoding apparatus is not provided even if a configuration characteristic to the speech encoding apparatus is incorporated as in the first embodiment. It can operate in the configuration.

第1の実施形態によれば、符号化対象の音声信号(フレーム)の特性に応じて、コードブックのコードのうち、最適コードの探索に使用するコードを限定するようにしたので、既存の各種標準化との互換性や音質を保ったまま、コード探索(コード選択)に要する処理(処理量や処理時間など)を軽減することができる。   According to the first embodiment, the codes used for the search for the optimum code among the codes of the code book are limited according to the characteristics of the audio signal (frame) to be encoded. Processing (processing amount, processing time, etc.) required for chord search (code selection) can be reduced while maintaining compatibility with standardization and sound quality.

(B)第2の実施形態
次に、本発明による音声符号化装置、方法及びプログラム、並びに、コードブックデータ分類集計装置、方法及びプログラムの第2の実施形態を、図面を参照しながら詳述する。ここで、第2の実施形態に係る音声符号化装置は、第2の実施形態に係るコードブックデータ分類集計装置を包含するものである。
(B) Second Embodiment Next, a second embodiment of the speech encoding apparatus, method and program, and codebook data classification and aggregation apparatus, method and program according to the present invention will be described in detail with reference to the drawings. To do. Here, the speech encoding apparatus according to the second embodiment includes the code book data classification and aggregation apparatus according to the second embodiment.

図3は、第2の実施形態に係る音声符号化装置の機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一符号(但し、装置に対する符号を除く)を付して示している。   FIG. 3 is a block diagram showing a functional configuration of the speech coding apparatus according to the second embodiment. The same reference numerals are used for the same and corresponding parts as in FIG. 1 according to the first embodiment (however, (Excluding the reference numeral).

図3において、第2の実施形態に係る音声符号化装置1Aは、第1の実施形態と同様なコードブック部2、ゲイン可変部3、合成フィルタ部4、減算部5、聴覚的重み付け部6、最適コード評価部7及び信号特性分析部8に加え、コードブックデータ分類集計部20及び分類集計起動スイッチ21を有する。   In FIG. 3, a speech encoding apparatus 1A according to the second embodiment includes a codebook unit 2, a gain variable unit 3, a synthesis filter unit 4, a subtraction unit 5, and an auditory weighting unit 6 similar to those in the first embodiment. In addition to the optimum code evaluation unit 7 and the signal characteristic analysis unit 8, a code book data classification totaling unit 20 and a classification totaling activation switch 21 are provided.

分類集計起動スイッチ21は、コードブック10の全てのコードを、有声音候補情報11aに属するか、無声音候補情報11bに属するか、分類することを起動するスイッチである。第2の実施形態の音声符号化装置1Aが携帯電話端末に搭載されている例で説明する。携帯電話端末の販売店では、携帯電話端末の販売時に各種の設定を行うが、その際の1つの設定項目として、有声音候補情報及び無声音候補情報の設定項目を設ける。電池収容部の空間など、端末の内部に設けられた分類集計起動スイッチ21を操作することで、有声音候補情報及び無声音候補情報の設定動作、言い換えると、コードブック10の全てのコードを、有声音候補情報11aに属するか、無声音候補情報11bに属するか分類する動作を開始する。また、携帯電話端末の利用者に、例えば、携帯電話端末に向かって所定時間だけ発話させる。   The classification / aggregation activation switch 21 is a switch that activates classification of all codes in the codebook 10 as belonging to the voiced sound candidate information 11a or the unvoiced sound candidate information 11b. A description will be given of an example in which the speech encoding apparatus 1A of the second embodiment is mounted on a mobile phone terminal. In the mobile phone terminal store, various settings are made when the mobile phone terminal is sold. As one setting item at that time, setting items for voiced sound candidate information and unvoiced sound candidate information are provided. By operating the classification / aggregation activation switch 21 provided inside the terminal, such as in the space of the battery compartment, the setting operation of the voiced sound candidate information and the unvoiced sound candidate information, in other words, all the codes in the code book 10 are included. The operation of classifying whether it belongs to the voice sound candidate information 11a or the unvoiced sound candidate information 11b is started. Also, the user of the mobile phone terminal is allowed to speak for a predetermined time, for example, toward the mobile phone terminal.

このような分類集計モードでは、コード取出し部11は、コードブック10の全てのコードを、候補のコードとして順次出力させ、最適コードを決定させる。   In such a classification / aggregation mode, the code extraction unit 11 sequentially outputs all the codes in the code book 10 as candidate codes, and determines an optimum code.

このような符号化対象のフレーム毎の最適コードは、コードブックデータ分類集計部20に与えられ、また、そのフレームの特性分析結果もコードブックデータ分類集計部20に与えられる。コードブックデータ分類集計部20は、有声音のフレームについて、コードブック10の全てのコードのそれぞれが、最適コードとなった回数を集計すると共に、無声音のフレームについて、コードブック10の全てのコードのそれぞれが、最適コードとなった回数を集計する。   Such an optimal code for each frame to be encoded is given to the codebook data classification and counting unit 20, and the characteristic analysis result of the frame is also given to the codebook data classification and counting unit 20. The code book data classification and counting unit 20 counts the number of times that all the codes of the code book 10 have become the optimum codes for the voiced sound frames, and stores all the codes of the code book 10 for the unvoiced sound frames. Each tabulates the number of times that the code is optimal.

例えば、分類集計モードが所定時間で終了すると、コードブックデータ分類集計部20は、有声音のフレームについて最適コードとなった回数が多い方の所定個数のコードの情報を有声音候補情報11aに書き込み、無声音のフレームについて最適コードとなった回数が多い方の所定個数のコードの情報を無声音候補情報11bに書き込む。これ以降の符号化では、符号化対象の音声信号(フレーム)の特性に応じて、コードブックから取出される候補コードは切り替わる。   For example, when the classification / aggregation mode ends in a predetermined time, the codebook data classification / aggregation unit 20 writes the information of a predetermined number of codes having a larger number of times of being the optimum code for the voiced sound frame into the voiced sound candidate information 11a. Then, the information of a predetermined number of codes having the larger number of times of becoming the optimum code for the unvoiced sound frame is written in the unvoiced sound candidate information 11b. In the subsequent encoding, the candidate code extracted from the code book is switched according to the characteristics of the audio signal (frame) to be encoded.

第2の実施形態によれば、第1の実施形態と同様な効果を奏することができ、さらに、利用者に応じた有声音候補情報11a及び無声音候補情報11bを準備することができ、利用者の音声に応じた適切な符号化を行うことができるという効果を奏することができる。   According to the second embodiment, the same effects as those of the first embodiment can be obtained, and the voiced sound candidate information 11a and the unvoiced sound candidate information 11b according to the user can be prepared. It is possible to achieve an effect that it is possible to perform appropriate encoding according to the voice.

第2の実施形態では、音声符号化装置1Aに設けられているコードブックデータ分類集計部20が有声音候補情報11a及び無声音候補情報11bの作成を行う。第1の実施形態の場合、例えば、メーカーなどが備えるコードブックデータ分類集計装置(例えば、コンピュータでなる)が有声音候補情報11a及び無声音候補情報11bの作成を行い(作成方法は第2の実施形態と同様である)、コード取出し部11に書き込む。   In the second embodiment, the codebook data classification / aggregation unit 20 provided in the speech encoding device 1A creates the voiced sound candidate information 11a and the unvoiced sound candidate information 11b. In the case of the first embodiment, for example, a codebook data classification and aggregation device (for example, a computer) provided by a manufacturer or the like creates voiced sound candidate information 11a and unvoiced sound candidate information 11b (the creation method is the second implementation). This is the same as the embodiment), and is written in the code extraction unit 11.

(C)他の実施形態
第2の実施形態では、所定時間の分類集計モードの終了時の頻度で、有声音候補情報11a及び無声音候補情報11bを定めるものを示したが、有声音候補情報11a及び無声音候補情報11bの決定方法は、最適コードになった回数が多い方から決定できるのであれば、これに限定されるものではない。例えば、有声音のフレームについて、最適コードとなった回数が所定回数に達したコードを有声音候補情報11aに書き込み、書き込んだコード数が所定個数になったときに、有声音候補情報11aへの書き込みを終了させるようにしても良く、無声音候補情報11bについても同様に形成すれば良い。
(C) Other Embodiments In the second embodiment, the voiced sound candidate information 11a has been shown to define the voiced sound candidate information 11a and the unvoiced sound candidate information 11b with the frequency at the end of the classification and counting mode for a predetermined time. And the determination method of the unvoiced sound candidate information 11b is not limited to this as long as it can be determined from the one where the number of times that the optimum code is obtained is large. For example, for a voiced sound frame, a code that has reached a predetermined number of times as an optimal code is written in the voiced sound candidate information 11a, and when the number of written codes reaches a predetermined number, The writing may be terminated, and the unvoiced sound candidate information 11b may be formed similarly.

上記では、信号特性分析部8による分析特性が有声音か無声音かに限定されず、他の特性でも良いことを説明した。信号特性分析部8による分析特性は、複数の特性の組み合わせであっても良い。例えば、有声音でピッチが短い、有声音でピッチが長い、無声音、というような分析結果であっても良く、これら3種類の結果に応じて、候補となるコードを切り替えるようにすれば良い。   In the above description, it has been described that the analysis characteristic by the signal characteristic analysis unit 8 is not limited to voiced sound or unvoiced sound, but may be other characteristics. The analysis characteristic by the signal characteristic analysis unit 8 may be a combination of a plurality of characteristics. For example, the analysis result may be a voiced sound with a short pitch, a voiced sound with a long pitch, or an unvoiced sound, and the candidate codes may be switched according to these three types of results.

また、無声音を判定する閾値を2段階用意し、無声音の段階が高いときと、無声音の段階が低いとき(有声音に近いとき)とで、コードの候補数を変えるようにしても良い。   Further, two thresholds for determining the unvoiced sound may be prepared, and the number of code candidates may be changed depending on whether the unvoiced sound level is high or the unvoiced sound level is low (close to voiced sound).

さらに、限定する候補数を、操作者が選択できるようにしても良い。例えば、コードブックのコード数の半分に制限するか、コードブックのコード数の1/4に制限するかを、操作者が選択できるようにしても良い。すなわち、品質重視か、処理時間重視かを操作者に選択させるようにしても良い。   Furthermore, the operator may be able to select the number of candidates to be limited. For example, the operator may be able to select whether to limit to half the number of codes in the code book or to limit to 1/4 of the number of codes in the code book. That is, the operator may select whether the quality is important or the processing time is important.

本発明は、コードを固定的に格納しているコードブックを備えた音声符号化装置に広く適用することができる。例えば、適応コードブックと固定コードブックとを備えた音声符号化装置であれば、そのうちの固定コードブックに対して、本発明の技術的思想を適用することができる。また例えば、2種類以上のコードブックを備えた音声符号化装置であれば、全ての固定コードブックに対して、本発明の技術的思想を適用することができ、また、一部の固定コードブックに対して、本発明の技術的思想を適用することができる。複数の固定コードブックに対して、候補を限定する場合において、固定コードブックによって、候補群を切り替える特性を異なるようにしても良い。   The present invention can be widely applied to a speech encoding apparatus including a code book in which codes are fixedly stored. For example, if the speech coding apparatus includes an adaptive codebook and a fixed codebook, the technical idea of the present invention can be applied to the fixed codebook. In addition, for example, if the speech coding apparatus includes two or more types of codebooks, the technical idea of the present invention can be applied to all fixed codebooks, and some fixed codebooks. In contrast, the technical idea of the present invention can be applied. When candidates are limited for a plurality of fixed codebooks, the characteristics for switching candidate groups may differ depending on the fixed codebook.

1、1A…音声符号化装置、2…コードブック部、7…最適コード評価部、8…信号特性分析部、10…コードブック、11…コード取出し部、20…コードブックデータ分類集計部、21…分類集計起動スイッチ。   DESCRIPTION OF SYMBOLS 1, 1A ... Speech coding apparatus, 2 ... Code book part, 7 ... Optimum code evaluation part, 8 ... Signal characteristic analysis part, 10 ... Code book, 11 ... Code extraction part, 20 ... Code book data classification totaling part, 21 … Category aggregation start switch.

Claims (7)

固定コードブックを利用する音声符号化装置において、
符号化対象の音声信号の特性を分析する信号特性分析手段と、
上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段と
を有することを特徴とする音声符号化装置。
In a speech encoding apparatus using a fixed codebook,
Signal characteristic analysis means for analyzing the characteristics of the audio signal to be encoded;
A speech code comprising: candidate code group switching means for switching a code group used for searching for an optimum code to be included in encoding information among codes in the fixed codebook according to an analysis result of the signal characteristic analysis means. Device.
上記固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記候補コード群切替手段が切り替える候補コード群の情報を得るコードブックデータ分類集計手段をさらに備えることを特徴とする請求項1に記載の音声符号化装置。   Candidate code group that aggregates the frequency information that has become the optimum code in the search of the optimum code with all the codes in the fixed codebook as candidates, and is switched by the candidate code group switching means for each analysis result of the signal characteristic analysis means The speech coding apparatus according to claim 1, further comprising code book data classification and aggregation means for obtaining the information. 固定コードブックを利用する音声符号化方法において、
信号特性分析手段が、符号化対象の音声信号の特性を分析し、
候補コード群切替手段が、上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える
ことを特徴とする音声符号化方法。
In a speech coding method using a fixed codebook,
The signal characteristic analysis means analyzes the characteristics of the audio signal to be encoded,
Speech coding characterized in that the candidate code group switching means switches the code group used for searching for the optimum code to be included in the coding information, among the codes in the fixed codebook, according to the analysis result of the signal characteristic analysis means Method.
固定コードブックを利用する音声符号化を実行させるための音声符号化プログラムであって、
コンピュータを、
符号化対象の音声信号の特性を分析する信号特性分析手段と、
上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段と
して機能させることを特徴とする音声符号化プログラム。
A speech encoding program for executing speech encoding using a fixed codebook,
Computer
Signal characteristic analysis means for analyzing the characteristics of the audio signal to be encoded;
According to an analysis result of the signal characteristic analysis means, the code function is functioned as a candidate code group switching means for switching a code group used for searching for an optimum code to be included in encoding information among codes in the fixed codebook. Speech coding program.
音声信号の特性を分析する信号特性分析手段と、
固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得るコードブックデータ分類集計手段と
を備えることを特徴とするコードブックデータ分類集計装置。
A signal characteristic analysis means for analyzing the characteristics of the audio signal;
The frequency information that became the optimum code in the search of the optimum code with all the codes in the fixed codebook as candidates is tabulated for each analysis result of the signal characteristic analysis means, and among the codes of the fixed codebook, for each analysis result And a codebook data classification and aggregation device for obtaining information of candidate code groups used in speech encoding at the time of the analysis result.
信号特性分析手段が、音声信号の特性を分析し、
コードブックデータ分類集計手段が、固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得る
ことを特徴とするコードブックデータ分類集計方法。
The signal characteristic analysis means analyzes the characteristics of the audio signal,
The code book data classification and counting means totals the frequency information that has become the optimal code in the search for the optimal code with all the codes in the fixed code book as candidates, for each analysis result of the signal characteristic analyzing means, and the fixed code book A codebook data classification and aggregation method characterized in that, for each analysis result, information on candidate code groups to be used for speech encoding at the time of the analysis result is obtained.
コンピュータを、
音声信号の特性を分析する信号特性分析手段と、
固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得るコードブックデータ分類集計手段と
して機能させることを特徴とするコードブックデータ分類集計プログラム。
Computer
A signal characteristic analysis means for analyzing the characteristics of the audio signal;
The frequency information that became the optimum code in the search of the optimum code with all the codes in the fixed codebook as candidates is tabulated for each analysis result of the signal characteristic analysis means, and among the codes of the fixed codebook, for each analysis result And a codebook data classification / aggregation program that functions as a codebook data classification / aggregation means for obtaining information on candidate code groups to be used in speech encoding at the time of the analysis result.
JP2010036195A 2010-02-22 2010-02-22 Voice encoding device, method and program, and code book data classification device, method and program Pending JP2011170259A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010036195A JP2011170259A (en) 2010-02-22 2010-02-22 Voice encoding device, method and program, and code book data classification device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010036195A JP2011170259A (en) 2010-02-22 2010-02-22 Voice encoding device, method and program, and code book data classification device, method and program

Publications (1)

Publication Number Publication Date
JP2011170259A true JP2011170259A (en) 2011-09-01

Family

ID=44684421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010036195A Pending JP2011170259A (en) 2010-02-22 2010-02-22 Voice encoding device, method and program, and code book data classification device, method and program

Country Status (1)

Country Link
JP (1) JP2011170259A (en)

Similar Documents

Publication Publication Date Title
DK2301022T3 (en) DEVICE AND PROCEDURE FOR MULTI-REFERENCE LPC FILTER QUANTIZATION
KR102561265B1 (en) Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus
US9111531B2 (en) Multiple coding mode signal classification
KR101542370B1 (en) Encoding method, decoding method, encoder, decoder, program, and recording medium
CN101849258A (en) Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR101350285B1 (en) Signal coding, decoding method and device, system thereof
EP2080193A2 (en) Pitch lag estimation
CN110992965B (en) Signal classification method and device, and audio encoding method and device using the same
US8595000B2 (en) Method and apparatus to search fixed codebook and method and apparatus to encode/decode a speech signal using the method and apparatus to search fixed codebook
JP2011170259A (en) Voice encoding device, method and program, and code book data classification device, method and program
US8762136B2 (en) System and method of speech compression using an inter frame parameter correlation
CN101145343B (en) Encoding and decoding method for audio frequency processing frame
JPH05232996A (en) Voice coding device
CA3136477C (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
CN113826161B (en) Method and device for detecting attack in a sound signal to be encoded and decoded and encoding and decoding the detected attack
KR20110086919A (en) Intercoding Method and Apparatus for SM V and AM Speech Coding Technique
JPH0844398A (en) Voice encoding device
Li et al. A generation method for acoustic two-dimensional barcode
JP6220610B2 (en) Signal processing apparatus, signal processing method, program, and recording medium
JP5762636B2 (en) Encoding device, decoding device, method, program, and recording medium
HK40104768A (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
HK40104768B (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
HK40065833A (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
Chang et al. Design and Implementation of SPEEX Speech Technology on ARM Processor