[go: up one dir, main page]

JP7010885B2 - 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法 - Google Patents

音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法 Download PDF

Info

Publication number
JP7010885B2
JP7010885B2 JP2019103964A JP2019103964A JP7010885B2 JP 7010885 B2 JP7010885 B2 JP 7010885B2 JP 2019103964 A JP2019103964 A JP 2019103964A JP 2019103964 A JP2019103964 A JP 2019103964A JP 7010885 B2 JP7010885 B2 JP 7010885B2
Authority
JP
Japan
Prior art keywords
group
bits
energy
audio
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019103964A
Other languages
English (en)
Other versions
JP2019191594A (ja
Inventor
ゾンシアン リウ
スリカンス ナジスティ
正浩 押切
Original Assignee
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2019191594A publication Critical patent/JP2019191594A/ja
Priority to JP2022003475A priority Critical patent/JP7581265B2/ja
Application granted granted Critical
Publication of JP7010885B2 publication Critical patent/JP7010885B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、変換符号化方式を用いた音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法に関する。
0.02?20kHz帯域のフルバンド(FB:Full band)の音声信号または音楽信号を効率的に符号化できる方式として、ITU?T(International Telecommunication Union Telecommunication Standardization Sector)で規格化された技術がある。この技術では、入力信号を周波数領域に変換し、20kHzまでの帯域を符号化している(変換符号化)。
ここで、変換符号化は、離散コサイン変換(DCT:Discrete Cosine Transform)または修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)等の時間周波数変換を使用して、入力信号を時間領域から周波数領域に変換し、信号を聴覚特性に正確に対応させてマッピングできるようにする符号化方式である。
変換符号化においては、スペクトル係数が複数の周波数サブバンドに分割される。各サブバンドの符号化において、より多くの量子化ビットを、人の耳にとって知覚的に重要なバンドに割り当てることにより、音質を全体的に高めることができる。
この目的を達成するために、効率的なビット割当方法が検討されており、例えば、非特許文献1に開示の技術が知られている。以下、特許文献1に開示のビット割当方法について図1および図2を用いて説明する。
図1は、特許文献1に開示の音声音響符号化装置の構成を示すブロック図である。48kHzでサンプリングされた入力信号が音声音響符号化装置の過渡検出器11および変換部12に入力される。
過渡検出器11は、入力信号から、音声の始端部または終端部に対応する過渡フレーム、またはそれ以外の音声区間に対応する定常フレームのいずれかを検出し、変換部12は、過渡検出器11によって検出されたフレームが過渡フレームか定常フレームかに応じて、高周波数分解能変換または低周波数分解能変換を入力信号のフレームに適用し、スペクトル係数(または変換係数)を取得する。
ノルム推定部13は、変換部12によって得られたスペクトル係数を帯域幅の異なるバンドに分割する。また、ノルム推定部13は、分割した各バンドのノルム(またはエネルギー)を推定する。
ノルム量子化部14は、ノルム推定部13によって推定された各バンドのノルムに基づいて、全てのバンドのノルムからなるスペクトル包絡線を求め、求めたスペクトル包絡線を量子化する。
スペクトル正規化部15は、変換部12によって得られたスペクトル係数を、ノルム量子化部14によって量子化されたノルムによって正規化する。
ノルム調整部16は、ノルム量子化部14によって量子化されたノルムを適応スペクトル重み付けに基づいて、調整する。
ビット割当部17は、ノルム調整部16によって調整された量子化ノルムを用いて、フレーム内のバンド毎に使用可能なビットを割り当てる。
格子ベクトル符号化部18は、スペクトル正規化部15によって正規化されたスペクトル係数を、ビット割当部17によってバンド毎に割り当てられたビットで格子ベクトル符号化を行う。
ノイズレベル調整部19は、格子ベクトル符号化部18における符号化前のスペクトル係数のレベルを推定し、推定したレベルを符号化する。これにより、ノイズレベル調整インデックスが求められる。
マルチプレクサ20は、変換部12が取得した入力信号のフレーム構成、すなわち、定常フレームであるか過渡フレームであるかを示す過渡信号フラグ、ノルム量子化部14によって量子化されたノルム、格子ベクトル符号化部18によって得られた格子符号ベクトル、および、ノイズレベル調整部19によって得られたノイズレベル調整インデックスを多重化してビットストリームを形成し、ビットストリームを音声音響復号装置に送信する。
図2は、特許文献1に開示の音声音響復号装置の構成を示すブロック図である。音声音響符号化装置から送信されたビットストリームが音声音響復号装置において受信され、デマルチプレクサ21によって逆多重化される。
ノルム逆量子化部22は、量子化されたノルムを逆量子化し、全てのバンドのノルムからなるスペクトル包絡線を求め、ノルム調整部23は、ノルム逆量子化部22によって逆量子化されたノルムを適応スペクトル重み付けに基づいて、調整する。
ビット割当部24は、ノルム調整部23によって調整されたノルムを用いて、フレーム内のバンド毎に使用可能なビットを割り当てる。すなわち、ビット割当部24は、正規化されたスペクトル係数の格子ベクトル符号を復号するために必須のビット割当を再計算する。
格子復号部25は、過渡信号フラグを復号し、復号した過渡信号フラグが示すフレーム構成、および、ビット割当部24によって割り当てられたビットに基づいて、格子符号ベクトルを復号し、スペクトル係数を取得する。
スペクトルフィル生成器26は、格子復号部25によって復号されたスペクトル係数に基づいて作成されるコードブックを用いて、ビットが配分されなかった低周波数のスペクトル係数を再生成する。また、スペクトルフィル生成器26は、ノイズレベル調整インデックスを用いて、再生成されたスペクトル係数のレベルを調整する。さらに、スペクトルフィル生成器26は、高周波数の符号化されていないスペクトル係数を、低周波数の符号化されたスペクトル係数を用いて再生成する。
加算器27は、復号されたスペクトル係数および再生成されたスペクトル係数を合わせて、正規化されたスペクトル係数を生成する。
包絡線成形部28は、加算器27によって生成された正規化スペクトル係数に、ノルム逆量子化部22によって逆量子化されたスペクトル包絡線を適用して、フルバンドスペクトル係数を生成する。
逆変換部29は、包絡線成形部28によって生成されたフルバンドスペクトル係数に逆修正離散コサイン変換(IMDCT:Inverse Modified Discrete Cosine Transform)などの逆変換を適用して、時間領域信号に変換する。ここでは、定常フレームの場合には高周波数分解能の逆変換が適用され、過渡フレームの場合には低周波数分解能の逆変換が適
用される。
G.719では、スペクトル係数がスペクトルグループに分割される。各スペクトルグループは、図3に示すように、等しい長さのサブベクトルのバンドに分割される。サブベクトルはグループ間で異なる長さを有し、この長さは周波数の増加とともに増加する。変換の分解能については、低周波数では、より高い周波数分解能を使用し、高周波数では、より低い周波数分解能を使用する。G.719で述べられているように、グループ化により、符号化中に使用可能なビットバジェットを効率的に使用できるようになる。
また、G.719では、ビット割当方法が符号化装置および復号装置において同一である。ここで、ビット割当方法について図4を用いて説明する。
図4に示すように、ステップ(以下、「ST」と省略する)31では、心理音響重み付けおよびマスキング効果を調整するために、量子化されたノルムがビット割り当て前に調整される。
ST32では、全サブバンドのうち最大ノルムを有するサブバンドが識別され、ST33では、最大ノルムを有するサブバンドにおいて、各スペクトル係数について1ビットが割り当てられる。すなわち、スペクトル係数の数だけビットが割り当てられる。
ST34では、割り当てたビットに応じて、ノルムを減少させ、ST35では、残りの割当可能ビット数が8ビット以上であるか否かが判定される。残りの割当可能ビット数が8ビット以上のときには、ST32に戻り、残りの割当可能ビット数が8ビット未満のときには、ビット割当手順を終了する。
このように、ビット割当方法は、調整された量子化ノルムを用いて、フレーム内の使用可能なビットをサブバンド間で割り当てる。そして、正規化されたスペクトル係数が、各サブバンドに割り当てられたビットで格子ベクトル符号化によって符号化される。
しかしながら、上記ビット割当方法では、スペクトルバンドをグループ化する際、入力信号特性を考慮していないため、効率的なビット配分を行うことができず、さらなる高音質化が望めないという問題がある。
本発明の目的は、効率的なビット配分を行い、音質の向上を図る音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法を提供することである。
本発明の音声音響符号化装置は、入力信号を時間領域から周波数領域に変換する変換手段と、前記入力信号の周波数スペクトルが分割されてなる複数のサブバンドのそれぞれについて、エネルギーレベルを表すエネルギー包絡線を推定する推定手段と、前記エネルギー包絡線を量子化する量子化手段と、量子化された前記エネルギー包絡線を複数のグループにグループ化するグループ決定手段と、前記複数のグループにビットを割り当てる第1ビット割当手段と、前記複数のグループに割り当てられたビットをグループ毎にサブバン
ドに割り当てる第2ビット割当手段と、前記サブバンドに割り当てられたビットを用いて、前記周波数スペクトルを符号化する符号化手段と、を具備する構成を採る。
本発明の音声音響復号装置は、量子化されたスペクトル包絡線を逆量子化する逆量子化手段と、量子化された前記スペクトル包絡線を複数のグループにグループ化するグループ決定手段と、前記複数のグループにビットを割り当てる第1ビット割当手段と、前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当てる第2ビット割当手段と、前記サブバンドに割り当てられたビットを用いて、音声音響信号の周波数スペクトルを復号する復号手段と、復号された前記周波数スペクトルに逆量子化された前記スペクトル包絡線を適用し、復号スペクトルを再現する包絡線成形手段と、前記復号スペクトルを周波数領域から時間領域に逆変換する逆変換手段と、を具備する構成を採る。
本発明の音声音響符号化方法は、入力信号を時間領域から周波数領域に変換し、前記入力信号の周波数スペクトルが分割されてなる複数のサブバンドのそれぞれについて、エネルギーレベルを表すエネルギー包絡線を推定し、前記エネルギー包絡線を量子化し、量子化された前記エネルギー包絡線を複数のグループにグループ化し、前記複数のグループにビットを割り当て、前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当て、前記サブバンドに割り当てられたビットを用いて、前記周波数スペクトルを符号化するようにした。
本発明の音声音響復号方法は、量子化されたスペクトル包絡線を逆量子化し、量子化された前記スペクトル包絡線を複数のグループにグループ化し、前記複数のグループにビットを割り当て、前記複数のグループに割り当てられたビットをグループ毎にサブバンドに割り当て、前記サブバンドに割り当てられたビットを用いて、音声音響信号の周波数スペクトルを復号し、復号された前記周波数スペクトルに逆量子化された前記スペクトル包絡線を適用し、復号スペクトルを再現し、前記復号スペクトルを周波数領域から時間領域に逆変換するようにした。
本発明によれば、効率的なビット配分を行い、音質の向上を図ることができる。
特許文献1に開示の音声音響符号化装置の構成を示すブロック図 特許文献1に開示の音声音響復号装置の構成を示すブロック図 特許文献1に開示の定常モードにおけるスペクトル係数のグループ化を示す図 特許文献1に開示のビット割当方法を示すフロー図 本発明の一実施の形態に係る音声音響符号化装置の構成を示すブロック図 本発明の一実施の形態に係る音声音響復号装置の構成を示すブロック図 図5に示したビット割当部の内部構成を示すブロック図 本発明の一実施の形態に係るグループ化方法を説明するための図 ノルム分散を示す図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(一実施の形態)
図5は、本発明の一実施の形態に係る音声音響符号化装置100の構成を示すブロック図である。48kHzでサンプリングされた入力信号が音声音響符号化装置100の過渡検出器101および変換部102に入力される。
過渡検出器101は、入力信号から、音声の始端部または終端部に対応する過渡フレーム、またはそれ以外の音声区間に対応する定常フレームのいずれかを検出し、検出結果を変換部102に出力する。変換部102は、過渡検出器101から出力された検出結果が過渡フレームか定常フレームかに応じて、高周波数分解能変換または低周波数分解能変換を入力信号のフレームに適用し、スペクトル係数(または変換係数)を取得して、ノルム推定部103およびスペクトル正規化部105に出力する。また、変換部102は、過渡検出器101から出力された検出結果であるフレーム構成、すなわち、定常フレームであるか過渡フレームであるかを示す過渡信号フラグをマルチプレクサ110に出力する。
ノルム推定部103は、変換部102から出力されたスペクトル係数を帯域幅の異なるバンドに分割し、分割した各バンドのノルム(またはエネルギー)を推定する。ノルム推定部103は、推定した各バンドのノルムをノルム量子化部104に出力する。
ノルム量子化部104は、ノルム推定部103から出力された各バンドのノルムに基づいて、全てのバンドのノルムからなるスペクトル包絡線を求め、求めたスペクトル包絡線を量子化し、量子化したスペクトル包絡線をスペクトル正規化部105及びノルム調整部106に出力する。
スペクトル正規化部105は、変換部102から出力されたスペクトル係数を、ノルム量子化部104から出力された量子化スペクトル包絡線によって正規化し、正規化したスペクトル係数を格子ベクトル符号化部108に出力する。
ノルム調整部106は、ノルム量子化部104から出力された量子化スペクトル包絡線を適応スペクトル重み付けに基づいて調整し、調整した量子化スペクトル包絡線をビット割当部107に出力する。
ビット割当部107は、ノルム調整部106から出力された、調整された量子化スペクトル包絡線を用いて、フレーム内のバンド毎に使用可能なビットを割り当て、割り当てたビットを格子ベクトル符号化部108に出力する。なお、ビット割当部107の詳細については後述する。
格子ベクトル符号化部108は、スペクトル正規化部105によって正規化されたスペクトル係数を、ビット割当部107によってバンド毎に割り当てられたビットで格子ベクトル符号化を行い、格子符号ベクトルをノイズレベル調整部109およびマルチプレクサ110に出力する。
ノイズレベル調整部109は、格子ベクトル符号化部108における符号化前のスペクトル係数のレベルを推定し、推定したレベルを符号化する。これにより、ノイズレベル調整インデックスが求められる。ノイズレベル調整インデックスはマルチプレクサ110に出力される。
マルチプレクサ110は、変換部102から出力された過渡信号フラグ、ノルム量子化部104から出力された量子化されたスペクトル包絡線、格子ベクトル符号化部108から出力された格子符号ベクトル、および、ノイズレベル調整部109から出力されたノイズレベル調整インデックスを多重化してビットストリームを形成し、ビットストリームを音声音響復号装置に送信する。
図6は、本発明の一実施の形態に係る音声音響復号装置200の構成を示すブロック図である。音声音響符号化装置100から送信されたビットストリームが音声音響復号装置200において受信され、デマルチプレクサ201によって逆多重化される。
ノルム逆量子化部202は、マルチプレクサから出力された量子化されたスペクトル包絡線(すなわちノルム)を逆量子化し、全てのバンドのノルムからなるスペクトル包絡線を求め、求めたスペクトル包絡線をノルム調整部203に出力する。
ノルム調整部203は、ノルム逆量子化部202から出力されたスペクトル包絡線を適応スペクトル重み付けに基づいて調整し、調整したスペクトル包絡線をビット割当部204に出力する。
ビット割当部204は、ノルム調整部203から出力されたスペクトル包絡線を用いて、フレーム内のバンド毎に使用可能なビットを割り当てる。すなわち、ビット割当部204は、正規化されたスペクトル係数の格子ベクトル符号を復号するために必須のビット割当を再計算する。割り当てたビットは格子復号部205に出力される。
格子復号部205は、デマルチプレクサ201から出力された過渡信号フラグが示すフレーム構成、および、ビット割当部204から出力されたビットに基づいて、デマルチプレクサ201から出力された格子符号ベクトルを復号し、スペクトル係数を取得する。スペクトル係数は、スペクトルフィル生成器206および加算器207に出力される。
スペクトルフィル生成器206は、格子復号部205から出力されたスペクトル係数に基づいて作成されるコードブックを用いて、ビットが配分されなかった低周波数のスペクトル係数を再生成する。また、スペクトルフィル生成器206は、デマルチプレクサ201から出力されたノイズレベル調整インデックスを用いて、再生成されたスペクトル係数のレベルを調整する。さらに、スペクトルフィル生成器206は、高周波数の符号化されていないスペクトル係数を、低周波数の符号化されたスペクトル係数を用いて再生成する。レベルが調整された低周波数のスペクトル係数、および、再生成された高周波数のスペクトル係数は加算器207に出力される。
加算器207は、格子復号部205から出力されたスペクトル係数、および、スペクトルフィル生成器206から出力されたスペクトル係数を合わせて、正規化されたスペクトル係数を生成し、正規化されたスペクトル係数を包絡線成形部208に出力する。
包絡線成形部208は、加算器207によって生成された正規化スペクトル係数に、ノルム逆量子化部202から出力されたスペクトル包絡線を適用して、フルバンドスペクトル係数(復号スペクトルに相当)を生成する。生成されたフルバンドスペクトル係数は、逆変換部209に出力される。
逆変換部209は、包絡線成形部208から出力されたフルバンドスペクトル係数に逆修正離散コサイン変換(IMDCT:Inverse Modified Discrete Cosine Transform)などの逆変換を適用して、時間領域信号に変換して、出力信号を出力する。ここでは、定常フレームの場合には高周波数分解能の逆変換が適用され、過渡フレームの場合には低周波数分解能の逆変換が適用される。
次に、上述したビット割当部107の詳細について図7を用いて説明する。なお、音声音響符号化装置100のビット割当部107と、音声音響復号装置200のビット割当部204とは同一の構成であるため、ここでは、ビット割当部107についてのみ説明し、ビット割当部204の説明は省略する。
図7は、図5に示したビット割当部107の内部構成を示すブロック図である。卓越周波数バンド識別部301は、ノルム調整部106から出力された量子化スペクトル包絡線
に基づいて、スペクトル中のノルム係数値が極大値を有するサブバンドである卓越周波数バンドを識別し、識別した各卓越周波数バンドを卓越グループ決定部302-1~302Nにそれぞれ出力する。卓越周波数バンドの決定方法として、ノルム係数値が極大値を有する周波数バンドとする以外に、例えば、全サブバンドの中でノルム係数値が最大値を有するバンドを卓越周波数バンドとしたり、予め定められた閾値または全サブバンドのノルムから算出される閾値を超えるノルム係数値を有するバンドを卓越周波数バンドとしたりすることが考えられる。
卓越グループ決定部302-1~302Nは、卓越周波数バンド識別部301から出力された卓越周波数バンドを中心に、入力信号特性に応じて適応的にグループ幅を決定する。具体的には、グループ幅は、卓越周波数バンドを中心とした両側におけるノルム係数値の下り勾配が止まるまでをグループ幅とする。卓越グループ決定部302-1~302Nは、グループ幅に含まれる周波数バンドを卓越グループと決定し、決定した卓越グループを非卓越グループ決定部303に出力する。なお、卓越周波数バンドがエッジ(使用可能周波数の端)にあるときには、下り勾配の一方の側のみがグループに含まれる。
非卓越グループ決定部303は、卓越グループ決定部302-1~302Nから出力された卓越グループ以外の連続するサブバンドを卓越周波数バンドのない非卓越グループと決定する。非卓越グループ決定部303は、卓越グループおよび非卓越グループをグループエネルギー算出部304およびノルム分散算出部306に出力する。
グループエネルギー算出部304は、非卓越グループ決定部303から出力された卓越グループおよび非卓越グループについて、グループ毎のエネルギーを算出し、算出したエネルギーを総エネルギー算出部305およびグループビット配分部308に出力する。グループ毎のエネルギーは次式(1)によって算出される。
Figure 0007010885000001
ここで、kはグループのインデックス、Energy(G(k))はグループkのエネルギー、iはグループ2のサブバンドインデックス、Mはグループkのサブバンドの総数、Norm(i)はグループnのサブバンドiのノルム係数値を表す。
総エネルギー算出部305は、グループエネルギー算出部304から出力されたグループ毎のエネルギーを全て加算し、全てのグループの総エネルギーを算出する。算出された総エネルギーはグループビット配分部308に出力される。総エネルギーは次式(2)によって算出される。
Figure 0007010885000002
ここで、Energytotalは全てのグループの総エネルギー、Nはスペクトル中のグループの総数、kはグループのインデックス、Energy(G(k))はグループkのエネルギーを表す。
ノルム分散算出部306は、非卓越グループ決定部303から出力された卓越グループおよび非卓越グループについて、グループ毎のノルム分散を算出し、算出したノルム分散を総ノルム分散算出部307およびグループビット配分部308に出力する。グループ毎のノルム分散は次式(3)によって算出される。
Figure 0007010885000003
ここで、kはグループのインデックス、Normvar(G(k))はグループkのノルム分散、Normmax(G(k))はグループkの最大ノルム係数値、Normmin(G(k))はグループkの最小ノルム係数値を表す。
総ノルム分散算出部307は、ノルム分散算出部306から出力されたグループ毎のノルム分散に基づいて、全てのグループの総ノルム分散を算出する。算出された総ノルム分散はグループビット配分部308に出力される。総ノルム分散は次式(4)によって算出される。
Figure 0007010885000004
ここで、Normvartotalは全てのグループの総ノルム分散、Nはスペクトル中のグループの総数、kはグループのインデックス、Normvar(G(k))は、グループkのノルム分散を表す。
グループビット配分部308(第1ビット割当手段に相当)は、グループエネルギー算出部304から出力されたグループ毎のエネルギー、総エネルギー算出部305から出力された全てのグループの総エネルギー、ノルム分散算出部306から出力されたグループ毎のノルム分散、および、総ノルム分散算出部307から出力された全てのグループの総ノルム分散に基づいて、グループ毎にビット配分を行い、グループ毎に配分されたビットをサブバンドビット配分部309に出力する。グループ毎に配分されるビットは次式(5)によって算出される。
Figure 0007010885000005
ここで、kはグループのインデックス、Bits(G(k))はグループkに配分されたビット数、Bitstotalは使用可能な全てのビット数、scale1はエネルギーによって割り当てられたビットの割合、Energy(G(k))はグループkのエネルギー、Energytotalは全てのグループの総エネルギー、Normvar(G(k))はグループkのノルム分散を表す。
また、上式(5)において、scale1は、[0,1]の範囲の値をとり、エネルギーまたはノルム分散によって割り当てられたビットの割合を調整する。scale1の値が大きいほど、エネルギーによって割り当てられるビットが多くなり、極端な場合、その値が1であれば、全てのビットがエネルギーによって割り当てられる。scale1の値が小さいほど、ノルム分散によって割り当てられるビットが多くなり、極端な場合、その値が0であれば、全てのビットがノルム分散によって割り当てられる。
グループビット配分部308が、上述したようにグループ毎にビット配分を行うことにより、卓越グループには、より多くのビットを配分し、非卓越グループには、より少ないビットを配分することができる。
このように、グループビット配分部308では、グループの知覚的重要度がエネルギーおよびノルム分散によって決定され、卓越グループをより強調することができる。また、ノルム分散は、マスキング理論に一致し、これを用いることにより、知覚的重要度をより正確に決定することができる。
サブバンドビット配分部309(第2ビット割当手段に相当)は、グループビット配分部308から出力されたグループ毎のビットに基づいて、各グループ内のサブバンドにビットが配分され、グループ毎のサブバンドに割り当てたビットをビット割当結果として格子ベクトル符号化部108に出力する。ここでは、知覚的により重要なサブバンドには、より多くのビットが配分され、知覚的にあまり重要でないサブバンドには、より少ないビットが配分される。グループ内の各サブバンドに配分されるビットは次式(6)によって算出される。
Figure 0007010885000006
ここで、BitsG(k)sb(i)はグループkのサブバンドiに割り当てられたビット、iはグループkのサブバンドインデックス、Bits(G(k))はグループkに割り当てられたビット、Energy(G(k))はグループkのエネルギー、Norm(i)はグループkのサブバンドiのノルム係数値を表す。
次に、グループ化の方法について図8を用いて説明する。図8(a)に示すような量子化スペクトル包絡線がピーク周波数バンド識別部301に入力されたとする。ピーク周波数バンド識別部301は、入力された量子化スペクトル包絡線に基づいて、卓越周波数バンド9,20を識別する(図8(b)参照)。
卓越グループ生成部302-1~302-Nでは、卓越周波数バンド9,20を中心とした両側におけるノルム係数値の下り勾配が止まるまでが同一の卓越グループと決定される。図8の例では、卓越周波数バンド9については、サブバンド6~12が卓越グループ(グループ2)とされ、卓越周波数バンド20については、サブバンド17~22を卓越グループ(グループ4)と決定する(図8(c)参照)。
非卓越グループ決定部303では、卓越グループ以外の連続する周波数バンドが卓越周波数バンドのない非卓越グループと決定される。図8の例では、サブバンド1~5(グループ1)、サブバンド13~16(グループ3)、サブバンド23~25(グループ5)がそれぞれ非卓越グループと決定される(図8(c)参照)。
この結果、量子化スペクトル包絡線は、5つのグループ、すなわち、2つの卓越グループ(グループ2、4)と3つの非卓越グループ(グループ1、3、5)とにグループ化される。
このようなグループ化方法により、入力信号特性に応じて適応的にグループ幅を決定することができる。また、この方法では、音声音響復号装置においても使用可能な量子化されたノルム係数を用いるため、追加情報を音声音響復号装置に送信する必要がない。
なお、ノルム分散算出部306では、グループ毎のノルム分散が算出される。参考までに、図8の例でグループ2におけるノルム分散Energyvar(G(2))を図9に示す。
次に、知覚的重要度について説明する。一般に、音声音響信号のスペクトル中には、複数のピーク(山)およびバレー(谷)がある。ピークは、音声音響信号の卓越周波数に位置するスペクトル成分(卓越音成分)から構成される。ピークは、知覚的に非常に重要である。ピークの知覚的重要度は、ピークのエネルギーとバレーのエネルギーとの差、すなわち、ノルム分散によって判断することができる。理論的には、ピークが、隣接する周波数バンドと比較して十分大きなエネルギーを有する場合、そのピークは十分なビット数で符号化されるべきであり、不十分なビット数で符号化されると、混入する符号化ノイズが際だってしまい、音質が低下する。一方、バレーは、音声音響信号の卓越音成分から構成されず、知覚的に重要ではない。
本実施の形態における周波数バンドのグループ化方法では、卓越周波数バンドはスペクトルのピークに対応しており、周波数バンドをグループ化することは、ピーク(卓越周波数バンドを有する卓越グループ)とバレー(卓越周波数バンドのない非卓越グループ)とを分離することになる。
グループビット配分部308では、ピークの知覚的重要度を決定する。G.719といった技術では、エネルギーのみによって知覚的重要度を決定していたのに対して、本実施の形態では、エネルギーおよびノルム(エネルギー)分散の両方によって知覚的重要度を決定し、決定した知覚的重要度に基づいて各グループに配分するビットを決定する。
また、サブバンドビット配分部309では、グループ内のノルム分散が大きい場合、このグループはピークの1つであることを意味し、ピークは知覚的により重要で、最大値を有するノルム係数は正確に符号化されるべきである。このため、このピークのサブバンドにはより多くのビットが配分される。一方、グループ内のノルム分散が非常に小さい場合、このグループは、バレーの1つであることを意味し、バレーは知覚的に重要ではなく、それほど正確に符号化される必要はない。このため、このグループの各サブバンドには少ないビットが配分される。
このように、本実施の形態によれば、入力音声音響信号のスペクトル中のノルム係数値が極大値を有する卓越周波数バンドを識別し、全てのサブバンドを、卓越周波数バンドを含む卓越グループと卓越周波数バンドを含まない非卓越グループとにグループ化し、グループ毎のエネルギーおよびノルム分散に基づいて、各グループにビットを配分し、グループ毎に配分されたビットをグループのエネルギーに対するノルムの割合に応じて各サブバンドにさらに配分する。これにより、知覚的に重要なグループおよびサブバンドに多くのビットを割り当てることができ、効率的なビット配分を行うことができる。この結果、音質の向上を図ることができる。
なお、本実施の形態におけるノルム係数は、サブバンドエネルギーを表すものであり、エネルギー包絡線ともいう。
2012年12月13日出願の特願2012-272571の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明にかかる音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法は、無線通信端末装置、無線通信基地局装置、電話会議端末装置、ビデオ会議端末装置、および、ボイスオーバーインターネットプロトコル(VoIP)端末装置等に適用することができる。
101 過渡検出器
102 変換部
103 ノルム推定部
104 ノルム量子化部
105 スペクトル正規化部
106、203 ノルム調整部
107、204 ビット割当部
108 格子ベクトル符号化部
109 ノイズレベル調整部
110 マルチプレクサ
201 デマルチプレクサ
202 ノルム逆量子化部
205 格子復号部
206 スペクトルフィル生成器
207 加算器
208 包絡線成形部
209 逆変換部
301 卓越周波数バンド識別部
302-1~302-N 卓越グループ決定部
303 非卓越グループ決定部
304 グループエネルギー算出部
305 総エネルギー算出部
306 ノルム分散算出部
307 総ノルム分散算出部
308 グループビット配分部
309 サブバンドビット配分部

Claims (26)

  1. 入力信号を時間領域から周波数領域に変換する変換手段(102)と、
    前記入力信号の周波数スペクトルが分割されてなる複数のサブバンドのそれぞれのサブバンドについて、エネルギーレベルを表すエネルギー包絡線を推定する推定手段(103)と、
    量子化されたエネルギー包絡線を得るために、前記エネルギー包絡線を量子化する量子化手段と、
    前記量子化されたエネルギー包絡線を複数のグループにグループ化するグループ決定手段(302-1,302-N,303)と、
    前記複数のグループのそれぞれのグループについてグループ固有の数のビットを得るために、前記複数のグループのそれぞれのグループにビットを割り当てる第1ビット割当手段(308)と、
    前記複数のグループのそれぞれのグループについて、前記複数のグループのそれぞれのグループに割り当てられたグループ固有の数のビットを前記それぞれのグループに属する前記複数のサブバンドに割り当てる第2ビット割当手段(309)と、
    前記複数のサブバンドのそれぞれのサブバンドについて、前記それぞれのサブバンドに割り当てられたビットを用いて、前記それぞれのサブバンド内の前記周波数スペクトルを符号化する符号化手段(108)と、
    を具備する音声または音響符号化装置。
  2. 前記周波数スペクトルのうち、前記エネルギー包絡線が極大値を有するサブバンドである卓越周波数バンドを識別する卓越周波数バンド識別手段(301)をさらに具備し、
    前記グループ決定手段(302-1,302-N,303)は、
    前記卓越周波数バンド、および、前記卓越周波数バンドの両側におけるエネルギー包絡線の下り勾配をなすサブバンドを卓越グループに決定し、前記卓越周波数バンド以外の連続するサブバンドを非卓越グループに決定する、
    請求項1に記載の音声または音響符号化装置。
  3. グループ毎のエネルギーを算出するエネルギー算出手段(304)と、
    グループ毎のエネルギー包絡線分散を算出する分散算出手段(306)と、
    をさらに具備し、
    前記第1ビット割当手段(308)は、
    算出された前記グループ毎のエネルギーおよび前記グループ毎のエネルギー包絡線分散に基づいて、エネルギーおよびエネルギー包絡線分散の少なくとも一方が大きいほど、より多くのビットをグループに割り当て、エネルギーおよびエネルギー包絡線分散の少なくとも一方が小さいほど、より少ないビットをグループに割り当てる、
    請求項1に記載の音声または音響符号化装置。
  4. 前記第2ビット割当手段(309)は、
    前記サブバンドのエネルギー包絡線が大きいほど、当該サブバンドにより多くのビットを割り当て、前記サブバンドのエネルギー包絡線が小さいほど、当該サブバンドにより少ないビットを割り当てる、
    請求項1に記載の音声または音響符号化装置。
  5. 前記第2ビット割当手段(309)は、
    知覚的により重要なサブバンドにはより多くのビットを配分し、知覚的にあまり重要でないサブバンドにはより少ないビットを配分するように構成される、
    請求項1に記載の音声または音響符号化装置。
  6. 前記第2ビット割当手段(309)は、
    エネルギー分散がより高いグループ内のサブバンドにはより多くのビットを配分し、エネルギー分散がより低いグループ内のサブバンドにはより少ないビットを配分するように構成される、
    請求項1に記載の音声または音響符号化装置。
  7. 前記第2ビット割当手段(309)は、
    前記周波数スペクトルにピークを有するグループ内のサブバンドにはより多くのビットを配分し、前記周波数スペクトルにバレーを有するグループ内のサブバンドにはより少ないビットを配分するように構成される、
    請求項1に記載の音声または音響符号化装置。
  8. 前記第2ビット割当手段(309)は、
    Figure 0007010885000007
    に従って動作するように構成され、
    ここで、BitsG(k)sb(i)はグループkのサブバンドiに割り当てられたビットを、iはグループkのサブバンドインデックス、BitsG(k)sb(i)はグループkに割り当てられたビットを、Energy(G(k))はグループkのエネルギーを、Norm(i)はグループkのサブバンドiのノルム係数値を表す、
    請求項1に記載の音声または音響符号化装置。
  9. 前記第1ビット割当手段(308)は、
    卓越グループには、より多くのビットを配分し、非卓越グループには、より少ないビットを配分するように構成される、
    請求項1に記載の音声または音響符号化装置。
  10. 前記第1ビット割当手段(308)は、
    グループ毎のエネルギー、全グループの総エネルギー、グループ毎のエネルギー分散および全グループの総エネルギー分散に基づいてビットを配分するように構成される、
    請求項1に記載の音声または音響符号化装置。
  11. 前記第1ビット割当手段(308)は、
    Figure 0007010885000008
    に従って動作するように構成され、
    ここで、kはグループのインデックスを、Bits(G(k))はグループkに配分されたビット数を、Bitstotalは使用可能な全てのビット数を、scale1はエネルギーによって割り当てられたビットの割合、Energy(G(k))はグループのエネルギーを、Energytotalは全てのグループの総エネルギーを、Normvar(G(k))はグループkのノルム分散を表す、
    請求項1に記載の音声または音響符号化装置。
  12. scale1の値が0と1との間である、請求項11に記載の音声音響符号化装置。
  13. 前記第1ビット割当手段(308)は、
    それぞれのグループの知覚的重要度を前記グループのエネルギーとエネルギー分散を用いて決定し、卓越グループをより強調するように構成される、
    請求項1に記載の音声または音響符号化装置。
  14. 前記第1ビット割当手段(308)は、
    グループの知覚的重要度を前記グループのエネルギーおよびエネルギー分布に基づいて決定し、それぞれのグループに割り当てられるビットを前記それぞれのグループの前記知覚的重要度に基づいて決定するように構成される、
    請求項1に記載の音声または音響符号化装置。
  15. 前記グループ決定手段(302-1,302-N,303)は、
    前記入力信号の特性に応じて前記複数のグループのグループ幅を適応的に決定するように構成される、
    請求項1に記載の音声または音響符号化装置。
  16. 前記グループ決定手段(302-1,302-N,303)は、
    量子化されたサブバンドエネルギーを使用するように構成される、
    請求項1に記載の音声または音響符号化装置。
  17. 前記グループ決定手段(302-1,302-N,303)は、
    前記周波数スペクトルのピークを前記周波数スペクトルのバレーから分離するように構成され、
    ここで、前記周波数スペクトルのピークは卓越グループ内に位置し、前記周波数スペクトルのバレーは非卓越グループに位置する、
    請求項1に記載の音声または音響符号化装置。
  18. 前記グループ決定手段(302-1,302-N,303)は、
    前記入力信号の前記周波数スペクトル中のサブバンドエネルギー値が局所的極大値を有する卓越周波数バンドを識別し、卓越周波数バンドを含むサブバンドを卓越グループに、他のサブバンドを非卓越グループにグループ化するように構成され、
    前記第1ビット割当手段(308)は、それぞれのグループのエネルギーおよび前記それぞれのグループのエネルギー分散に基づいて、前記それぞれのグループにビットを割り当てるように構成され、
    前記第2ビット割当手段(309)は、前記それぞれのグループにグループ毎に割り当てられたビットを、前記それぞれのグループ内のそれぞれのサブバンドに、前記それぞれのグループのエネルギーに対する前記それぞれのサブバンドのエネルギー割合に応じて割り当てるように構成される、
    請求項1に記載の音声または音響符号化装置。
  19. 前記第1ビット割当手段(308)は、知覚的により重要なグループにはより多くのビットを配分し、知覚的にあまり重要でないグループにはより少ないビットを配分するように構成され、
    前記第2ビット割当手段(309)は、知覚的により重要なサブバンドにはより多くのビットを配分し、知覚的にあまり重要でないサブバンドにはより少ないビットを配分するように構成される、
    請求項1に記載の音声または音響符号化装置。
  20. 逆量子化されたエネルギー包絡線を得るために、量子化されたエネルギー包絡線を逆量子化する逆量子化手段(202)と、
    前記量子化されたエネルギー包絡線を複数のグループにグループ化するグループ決定手段(302-1,302-N,303)と、
    前記複数のグループのそれぞれのグループについてグループ固有の数のビットを得るために、前記複数のグループのそれぞれのグループにビットを割り当てる第1ビット割当手段(308)と、
    前記複数のグループのそれぞれのグループについて、前記複数のグループのそれぞれのグループに割り当てられたグループ固有の数のビットを前記それぞれのグループに属する複数のサブバンドに割り当て、前記複数のサブバンドのうちの1つのサブバンドは、音声または音響信号の周波数スペクトルを含む、第2ビット割当手段(309)と、
    復号された周波数スペクトルを得るために、前記複数のサブバンドのそれぞれのサブバンドについて、前記それぞれのサブバンドに割り当てられたビットを用いて、前記音声または音響信号の前記周波数スペクトルを復号する復号手段(205)と、
    前記復号された周波数スペクトルに前記逆量子化されたエネルギー包絡線を適用し、復号スペクトルを再現する包絡線成形手段(208)と、
    前記復号スペクトルを周波数領域から時間領域に逆変換する逆変換手段(209)と、
    を具備する音声または音響復号装置。
  21. 前記周波数スペクトルのうち、前記エネルギー包絡線が極大値を有するサブバンドである卓越周波数バンドを識別する卓越周波数バンド識別手段(301)をさらに具備し、
    前記グループ決定手段(302-1,302-N,303)は、
    前記卓越周波数バンド、および、前記卓越周波数バンドの両側における前記エネルギー包絡線の下り勾配をなすサブバンドを卓越グループに決定し、前記卓越周波数バンド以外の連続するサブバンドを非卓越グループに決定する、
    請求項20に記載の音声または音響復号装置。
  22. グループ毎のエネルギーを算出するエネルギー算出手段(304)と、
    グループ毎のエネルギー包絡線分散を算出する分散算出手段(306)と、
    をさらに具備し、
    前記第1ビット割当手段(308)は、
    算出された前記グループ毎のエネルギーおよび前記グループ毎のエネルギー包絡線分散に基づいて、エネルギーおよびエネルギー包絡線分散の少なくとも一方が大きいほどより多くのビットをグループに割り当て、エネルギーおよびエネルギー包絡線分散の少なくとも一方が小さいほどより少ないビットをグループに割り当てる、
    請求項20に記載の音声または音響復号装置。
  23. 前記第2ビット割当手段(309)は、
    サブバンドのエネルギー包絡線が大きいほど当該サブバンドにより多くのビットを割り当て、サブバンドのエネルギー包絡線が小さいほど当該サブバンドにより少ないビットを割り当てる、
    請求項20に記載の音声または音響復号装置。
  24. 入力信号を時間領域から周波数領域に変換するステップと、
    前記入力信号の周波数スペクトルが分割されてなる複数のサブバンドのそれぞれのサブバンドについて、エネルギーレベルを表すエネルギー包絡線を推定するステップと、
    量子化されたエネルギー包絡線を得るために、前記エネルギー包絡線を量子化するステップと、
    前記量子化されたエネルギー包絡線を複数のグループにグループ化するステップであって、それぞれのグループは少なくとも2つのサブバンドを有する、グループ化するステップと、
    前記複数のグループのそれぞれのグループについて、前記複数のグループのそれぞれのグループについてグループ固有の数のビットを得るために、前記複数のグループのそれぞれのグループにビットを割り当てるステップと、
    前記複数のグループのそれぞれのグループについて、前記複数のグループのそれぞれのグループに割り当てられた前記グループ固有の数のビットを前記それぞれのグループに属する前記複数のサブバンドに割り当てるステップと、
    前記複数のサブバンドのそれぞれのサブバンドについて、前記それぞれのサブバンドに割り当てられたビットを用いて、前記それぞれのサブバンドに含まれる前記周波数スペクトルを符号化するステップと、
    を含む音声または音響符号化方法。
  25. 逆量子化されたエネルギー包絡線を得るために、量子化されたエネルギー包絡線を逆量子化するステップと、
    前記量子化されたエネルギー包絡線を複数のグループにグループ化するステップと、
    前記複数のグループのそれぞれのグループについてグループ固有の数のビットを得るために、前記複数のグループのそれぞれのグループについて、前記複数のグループのそれぞれのグループにビットを割り当てるステップと、
    前記複数のグループのそれぞれのグループについて、前記複数のグループのそれぞれのグループに割り当てられた前記グループ固有の数のビットを前記それぞれのグループに属する複数のサブバンドに割り当てるステップであって、前記複数のサブバンドのうちの1つのサブバンドは、音声または音響信号の周波数スペクトルを含む、割り当てるステップと、
    復号された周波数スペクトルを得るために、前記複数のサブバンドのそれぞれのサブバンドについて、前記それぞれのサブバンドに割り当てられたビットを用いて、前記音声または音響信号の前記周波数スペクトルを復号するステップと、
    前記復号された周波数スペクトルに前記逆量子化されたエネルギー包絡線を適用し、復号スペクトルを再現するステップと、
    前記復号スペクトルを周波数領域から時間領域に逆変換するステップと、
    を含む音声または音響復号方法。
  26. 請求項1に記載の音声または音響符号化装置、請求項20に記載の音声または音響復号装置、請求項24に記載の音声または音響符号化方法、または、請求項25に記載の音声または音響復号方法を含む、
    無線通信端末装置、無線通信基地局装置、電話会議端末装置、ビデオ会議端末装置、またはボイス・オーバー・インターネット・プロトコル(VoIP)端末装置。
JP2019103964A 2012-12-13 2019-06-03 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法 Active JP7010885B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022003475A JP7581265B2 (ja) 2012-12-13 2022-01-13 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012272571 2012-12-13
JP2012272571 2012-12-13

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014551851A Division JP6535466B2 (ja) 2012-12-13 2013-11-26 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022003475A Division JP7581265B2 (ja) 2012-12-13 2022-01-13 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Publications (2)

Publication Number Publication Date
JP2019191594A JP2019191594A (ja) 2019-10-31
JP7010885B2 true JP7010885B2 (ja) 2022-01-26

Family

ID=50934002

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2014551851A Active JP6535466B2 (ja) 2012-12-13 2013-11-26 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
JP2019103964A Active JP7010885B2 (ja) 2012-12-13 2019-06-03 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法
JP2022003475A Active JP7581265B2 (ja) 2012-12-13 2022-01-13 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014551851A Active JP6535466B2 (ja) 2012-12-13 2013-11-26 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022003475A Active JP7581265B2 (ja) 2012-12-13 2022-01-13 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Country Status (12)

Country Link
US (3) US9767815B2 (ja)
EP (3) EP3232437B1 (ja)
JP (3) JP6535466B2 (ja)
KR (1) KR102200643B1 (ja)
CN (2) CN107516531B (ja)
BR (1) BR112015013233B8 (ja)
ES (3) ES2643746T3 (ja)
MX (1) MX341885B (ja)
PL (3) PL2933799T3 (ja)
PT (2) PT3232437T (ja)
RU (1) RU2643452C2 (ja)
WO (1) WO2014091694A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT3232437T (pt) * 2012-12-13 2019-01-11 Fraunhofer Ges Forschung Dispositivo de codificação de áudio de voz, dispositivo de descodificação de áudio de voz, método de codificação de áudio de voz e método de descodificação de áudio de voz
CN111091843B (zh) * 2013-11-07 2023-05-02 瑞典爱立信有限公司 用于编码的矢量分段的方法和设备
EP3975173B1 (en) 2013-12-02 2024-01-17 Top Quality Telephony, Llc A computer-readable storage medium and a computer software product
CN106409303B (zh) * 2014-04-29 2019-09-20 华为技术有限公司 处理信号的方法及设备
JP6318904B2 (ja) * 2014-06-23 2018-05-09 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CA2958429C (en) 2014-07-25 2020-03-10 Panasonic Intellectual Property Corporation Of America Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
KR102709737B1 (ko) * 2016-11-30 2024-09-26 삼성전자주식회사 오디오 신호를 전송하는 전자 장치 및 오디오 신호를 전송하는 전자 장치의 제어 방법
US10699721B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using difference data
KR20190069192A (ko) 2017-12-11 2019-06-19 한국전자통신연구원 오디오 신호의 채널 파라미터 예측 방법 및 장치
US10559315B2 (en) 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN109286922B (zh) * 2018-09-27 2021-09-17 珠海市杰理科技股份有限公司 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备
US10810373B1 (en) * 2018-10-30 2020-10-20 Oath Inc. Systems and methods for unsupervised neologism normalization of electronic content using embedding space mapping
KR20200142787A (ko) 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법
CN112037802B (zh) * 2020-05-08 2022-04-01 珠海市杰理科技股份有限公司 基于语音端点检测的音频编码方法及装置、设备、介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012016126A2 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
JP2012032803A (ja) 2010-07-01 2012-02-16 Polycom Inc フルバンド拡張可能なオーディオコーデック
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4899384A (en) 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3189660B2 (ja) * 1996-01-30 2001-07-16 ソニー株式会社 信号符号化方法
US6246945B1 (en) * 1996-08-10 2001-06-12 Daimlerchrysler Ag Process and system for controlling the longitudinal dynamics of a motor vehicle
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR100548891B1 (ko) * 1998-06-15 2006-02-02 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
JP3466507B2 (ja) * 1998-06-15 2003-11-10 松下電器産業株式会社 音声符号化方式、音声符号化装置、及びデータ記録媒体
JP3434260B2 (ja) * 1999-03-23 2003-08-04 日本電信電話株式会社 オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
WO2000063886A1 (en) * 1999-04-16 2000-10-26 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for audio coding
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP4548348B2 (ja) 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
BRPI0721079A2 (pt) 2006-12-13 2014-07-01 Panasonic Corp Dispositivo de codificação, dispositivo de decodificação e método dos mesmos
JP4973397B2 (ja) * 2007-09-04 2012-07-11 日本電気株式会社 符号化装置および符号化方法、ならびに復号化装置および復号化方法
BRPI0820488A2 (pt) 2007-11-21 2017-05-23 Lg Electronics Inc método e equipamento para processar um sinal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
JP5511848B2 (ja) 2009-12-28 2014-06-04 パナソニック株式会社 音声符号化装置および音声符号化方法
WO2011086924A1 (ja) 2010-01-14 2011-07-21 パナソニック株式会社 音声符号化装置および音声符号化方法
EP2631905A4 (en) 2010-10-18 2014-04-30 Panasonic Corp DEVICE FOR TONE CODING AND TONE DECODING
CN102741831B (zh) * 2010-11-12 2015-10-07 宝利通公司 多点环境中的可伸缩音频
EP3244405B1 (en) * 2011-03-04 2019-06-19 Telefonaktiebolaget LM Ericsson (publ) Audio decoder with post-quantization gain correction
EP2701144B1 (en) * 2011-04-20 2016-07-27 Panasonic Intellectual Property Corporation of America Device and method for execution of huffman coding
TWI576829B (zh) 2011-05-13 2017-04-01 三星電子股份有限公司 位元配置裝置
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US9786292B2 (en) * 2011-10-28 2017-10-10 Panasonic Intellectual Property Corporation Of America Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method
EP2814028B1 (en) 2012-02-10 2016-08-17 Panasonic Intellectual Property Corporation of America Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
PT3232437T (pt) * 2012-12-13 2019-01-11 Fraunhofer Ges Forschung Dispositivo de codificação de áudio de voz, dispositivo de descodificação de áudio de voz, método de codificação de áudio de voz e método de descodificação de áudio de voz
EP3975173B1 (en) * 2013-12-02 2024-01-17 Top Quality Telephony, Llc A computer-readable storage medium and a computer software product

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012032803A (ja) 2010-07-01 2012-02-16 Polycom Inc フルバンド拡張可能なオーディオコーデック
WO2012016126A2 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Also Published As

Publication number Publication date
ES2706148T3 (es) 2019-03-27
CN107516531B (zh) 2020-10-13
BR112015013233A2 (pt) 2017-07-11
US20190027155A1 (en) 2019-01-24
EP3457400B1 (en) 2023-08-16
RU2015121716A (ru) 2017-01-16
ES2643746T3 (es) 2017-11-24
US20170345431A1 (en) 2017-11-30
EP2933799A1 (en) 2015-10-21
KR102200643B1 (ko) 2021-01-08
JPWO2014091694A1 (ja) 2017-01-05
BR112015013233B8 (pt) 2021-03-16
WO2014091694A1 (ja) 2014-06-19
JP6535466B2 (ja) 2019-06-26
CN104838443A (zh) 2015-08-12
PL3457400T3 (pl) 2024-02-19
US10685660B2 (en) 2020-06-16
PT3232437T (pt) 2019-01-11
BR112015013233B1 (pt) 2021-02-23
MX341885B (es) 2016-09-07
EP3457400C0 (en) 2023-08-16
US20150317991A1 (en) 2015-11-05
JP2019191594A (ja) 2019-10-31
MX2015006161A (es) 2015-08-07
CN107516531A (zh) 2017-12-26
EP3232437B1 (en) 2018-11-21
RU2643452C2 (ru) 2018-02-01
PL3232437T3 (pl) 2019-05-31
EP2933799B1 (en) 2017-07-12
EP3232437A1 (en) 2017-10-18
HK1249651A1 (zh) 2018-11-02
US9767815B2 (en) 2017-09-19
JP2022050609A (ja) 2022-03-30
PL2933799T3 (pl) 2017-12-29
US10102865B2 (en) 2018-10-16
ES2970676T3 (es) 2024-05-30
CN104838443B (zh) 2017-09-22
EP2933799A4 (en) 2016-01-13
JP7581265B2 (ja) 2024-11-12
PT2933799T (pt) 2017-09-05
KR20150095702A (ko) 2015-08-21
EP3457400A1 (en) 2019-03-20

Similar Documents

Publication Publication Date Title
JP7010885B2 (ja) 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR101913241B1 (ko) 인코딩 방법 및 장치
JP2011013560A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
WO2013143221A1 (zh) 信号编码和解码的方法和设备
CN104392726A (zh) 编码设备和解码设备
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2015049820A1 (ja) 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
HK1249651B (zh) 语音声响编码装置和解码装置、语音声响编码和解码方法
HK40002240A (en) Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
HK40002240B (en) Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
HK1242832B (en) Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
HK1242832A1 (en) Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220113

R150 Certificate of patent or registration of utility model

Ref document number: 7010885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250