[go: up one dir, main page]

JP2004023288A - Preprocessing system for moving image encoding - Google Patents

Preprocessing system for moving image encoding Download PDF

Info

Publication number
JP2004023288A
JP2004023288A JP2002173141A JP2002173141A JP2004023288A JP 2004023288 A JP2004023288 A JP 2004023288A JP 2002173141 A JP2002173141 A JP 2002173141A JP 2002173141 A JP2002173141 A JP 2002173141A JP 2004023288 A JP2004023288 A JP 2004023288A
Authority
JP
Japan
Prior art keywords
macroblock
moving image
priority information
macroblocks
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002173141A
Other languages
Japanese (ja)
Inventor
Hitoshi Naito
内藤 整
Koichi Takagi
高木 幸一
Masahiro Wada
和田 正裕
Shuichi Matsumoto
松本 修一
Koichi Ishihara
石原 剛一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2002173141A priority Critical patent/JP2004023288A/en
Priority to US10/392,392 priority patent/US7436890B2/en
Publication of JP2004023288A publication Critical patent/JP2004023288A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To obtain information about visibility precedence which highly accurately describes human's visual characteristics on a moving image. <P>SOLUTION: Objects in the screen of an input image are extracted (S1), and gazing degree parameters V(j) of each of the extracted objects are calculated (S2). Also, a texture attributes parameter t(k) of each macroblock contained in the object is determined (S3). A visibility precedence parameter w(k) for each macroblock is calculated by using the parameters V(j) and t(k). This parameter w(k) is output to an adaptive quantizer and is used for determination of a quantized parameter. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、動画像符号化のための前処理方式に関し、特に、動画像に対する人間の視覚特性を高精度に表す視覚優先度情報を得ることができる動画像符号化のための前処理方式に関するものである。
【0002】
【従来の技術】
動画像符号化の国際標準であるMPEG−2の符号化検証モデルTest Model5[1]においては、図5にその概念を示すよう、マクロブロックごとの発生ビット数を入力し、目標符号化ビット数を出力する仮想バッファを導入し、発生ビット数の目標符号化ビット数に対する過不足をこの仮想バッファに蓄積し、量子化制御にフィードバックする。
【0003】
ここではマクロブロック(16×16画素)ごとの重み係数、すなわち視覚感度w(k)を下記(1)式により算出し、量子化パラメータを、視覚感度w(k)と仮想バッファの占有量dとを用いて下記(2)式により算出する。なお、ピクチャの目標ビット数をT、ピクチャ内マクロブロック数をMBcntとすると、1マクロブロックあたりの目標符号化ビット数は、T/MBcntで表される。
【0004】

Figure 2004023288
量子化パラメータ=占有量d×視覚感度w(k)        ・・・(2)
【0005】
【発明が解決しようとする課題】
しかしながら、前記従来技術においては、(1)式から明らかなように、基本的に視覚感度をマクロブロックの輝度分散のみで決定しており、マクロブロックごとの重み付けが動画像に対する人間の視覚感度に対応した最適なものには必ずしもなっていないという問題がある。
【0006】
また、マクロブロックを構成する8×8画素のブロックの輝度分散a(k)のうちの最も小さい輝度分散act(k)を用いて当該マクロブロックの視覚感度w(k)を算出しているため、精細領域中に平坦ブロックが単独で存在する場合に、算出した視覚感度は、平坦ブロックを含むマクロブロックとそれを含まないマクロブロックとで大きく異なり、性質がほぼ等しいと考えられる精細領域どうしの視覚感度が大きく変動するという問題がある。また、これにより算出した量子化パラメータを用いて量子化制御を行うと、単独で存在する平坦ブロックを含むマクロブロックは、ノイズがあまり目立たないにもかかわらず量子化が精細に行われ、それに対して多くのビット数が配分されるため、最適なビット配分がなされているとは言えない。
【0007】
本発明の目的は、動画像に対する人間の視覚特性を高精度に表す視覚優先度情報を得ることができる動画像符号化のための前処理方式を提供することを目的とするものであり、これにより得られる視覚優先度情報を用いて動画像符号化における量子化制御を行えば最適なビット配分で画面全体の主観画質の大幅な向上が可能となる。
【0008】
【課題を解決するための手段】
前記した課題を解決するために、本発明は、入力される画面単位に解析を行い、マクロブロックごとの視覚優先度情報を算出する視覚優先度情報算出手段を備え、前記視覚優先度情報算出手段により算出した視覚優先度情報を符号化部へ出力する点に第1の特徴がある。
【0009】
また、本発明は、前記視覚優先度情報算出手段が、オブジェクトごとの注視度とマクロブロックごとのテクスチャ属性を考慮して視覚優先度情報を算出する点に第2の特徴がある。
【0010】
また、本発明は、前記オブジェクトが、同一の属性を有するマクロブロックのグループ化に基づいて抽出されたものである点に第3の特徴がある。
【0011】
また、本発明は、前記マクロブロックのグループ化のための分類基準値が、対応する輝度成分、色差成分、動き成分のうちの少なくとも一つの指標を用いて定義されたものである点に第4の特徴がある。
【0012】
また、本発明は、前記オブジェクトごとの注視度を、該オブジェクトに含まれるマクロブロックの動き量の平均、マクロブロックごとに動きが散乱している度合、該オブジェクトがピクチャ内で目立つ度合いのうちの少なくとも一つの指標を用いて定義する点に第5の特徴がある。
【0013】
さらに、本発明は、前記マクロブロックごとのテクスチャ属性を、該マクロブロックを構成する輝度ブロックの分散値を考慮して決める点に第6の特徴がある。
【0014】
第1の特徴によれば、解析を画面単位に行ってマクロブロックごとの視覚優先度情報を算出しているため、マクロブロックの輝度分散のみを基準にして視覚感度を算出するものに比べて人間の視覚特性により適合した情報を得ることができる。
【0015】
また、第2、第5および第6の特徴によれば、オブジェクトごとの注視度とマクロブロックごとのテクスチャ属性により動画像に対する人間の視覚感度が高精度に反映された視覚優先度情報を算出することができる。
【0016】
また、第3および第4の特徴によれば、オブジェクトを適切に抽出することができ、オブジェクトごとの注視度の算出に供することができる。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明を詳細に説明する。図1は、本発明に係る前処理部1と動画像符号化部2を備えた動画像符号化装置の一例のブロック構成図である。同図において、入力画像(動画像)は、動き補償(MC)フレーム間予測及びDCT符号化器3に入力され、動き補償フレーム間予測によって得られた予測誤差がDCT係数に変換される。このDCT係数は、適応量子化器4で量子化レベルに置き換えられ、さらに可変長符号化部5で可変長符号化されて符号化データとなり、動きベクトル情報とともに多重化された後、バッファメモリに蓄えられる。
【0018】
前処理装置1は、詳細は後述するが、入力画像に基づいて該入力画像に対する人間の視覚感度を推定し、例えば16×16画素のマクロブロックごとの視覚優先度情報を算出し、この視覚優先度情報を適応量子化器4に出力する。
【0019】
適応量子化器4は、前処理部1から入力される視覚優先度情報に応じて量子化パラメータを算出し、この量子化パラメータに基づいて一画面内における各マクロブロックのビット配分を決定する。
【0020】
図2は、前処理部1における処理の一実施形態のフロー図である。以下の説明では、各マクロブロックをkで識別し、画面内に存在する各オブジェクトをjで識別する。
【0021】
まず、入力画像から画面単位でオブジェクトを抽出する(S1)。このオブジェクトの抽出は、マクロブロックをその属性に基づいてグループ化することにより行うことができ、グループ化のための基準とする属性(分類基準値)は、マクロブロックごとの輝度成分、色差成分、動き量のうちの少なくとも一つの指標を用いて定義することができる。この処理により、画面内の、例えば人物、車両、背景、あるいはそれらが画像の特徴によりさらに区分された部分ごとにマクロブロックがグループ化される。以下では、あるオブジェクトを構成するマクロブロック、すなわちグループ化されたマクロブロックを総称しMBグループと呼ぶ。
【0022】
図3は、動き量と2つの色差成分Pb、Pr(0〜255レベル)とからなる3次元座標を分類基準値とする例を示し、一画面内の各マクロブロックについて動き量および色差成分Pb、Prを求めてこの3次元座標上にプロットし、3次元座標位置の近いマクロブロックを同一グループとしてグループ化する。例えば、動き量を2段階に分け、色差成分Pb、Prをそれぞれ5段階に分ければ、マクロブロックを最大50種類の属性にグループ化することができる。
【0023】
なお、色差成分Pb、Prは、マクロブロックにおける各色差成分の平均値とすればよく、マクロブロックの動き量は、まず、再生順における直前のフレームを参照してマクロブロックの動きベクトルVf(k)を求め、次に、この動きベクトルVf(k)に対してパンやズームなどのカメラ操作に起因する成分を除くグローバル動き補正を行ってオブジェクトに特化した動きのみを示す補正ベクトルVg(k)を求め、その絶対値|Vg(k)|を動き量とすることにより求めることができる。
【0024】
次に、S1で抽出した各オブジェクトについてその注視度パラメータV(j)を算出する(S2)。オブジェクトごとの注視度パラメータV(j)は、該オブジェクトに含まれるマクロブロックの動き量の平均L(j)、オブジェクト内でマクロブロックごとに動きが散乱している度合R(j)、当該オブジェクトがピクチャ内で目立つ度合いK(j)のうちの少なくとも一つの指標を用いて定義することができる。以下に前記3つの指標L(j)、R(j)、K(j)を用いて注視度パラメータV(j)を算出する例について説明する。
【0025】
まず、オブジェクトに含まれるマクロブロックの動き量の平均L(j)を、グローバル補正前の動き量Vf(k)の絶対値|Vf(k)|のMBグループ内平均を求めることにより算出する。
【0026】
また、オブジェクト内でマクロブロックごとに動きが散乱している度合R(j)を、同一MBグループ内の全マクロブロックについて、同一MBグループに含まれる隣接マクロブロック(これをk′で識別する。)に対するVg(k)の散乱度R(j,k)を下記(3)式に従い算出した上で、MBグループ内平均を求めることにより算出する。
【0027】
Figure 2004023288
ここで、Vgx、Vgyは、Vgのそれぞれx軸方向成分、y軸方向成分を表す。
【0028】
また、当該オブジェクトがピクチャ内で目立つ度合いK(j)を、当該オブジェクトの希少性Ka(j)と異質性Kb(j)とから算出する。希少性Ka(j)は、前記マクロブロックの分類基準と同様に、MBグループ内の平均動き量、平均色差成分により算出したMBグループの分類基準値に基づいて、例えば50種類に分類し、それら分類されたものの画面内での発生頻度を表すヒストグラムを求め、発生頻度が小さいもの大きな値をとるよう定義される。
【0029】
また、異質性Kb(j)は、異なるMBグループと隣接するポイント(これをpで識別する。)において、MBグループ間での分類基準値の差Kb(j,p)を求め、この差Kb(j,p)のMBグループ内平均を求めることにより算出できる。
【0030】
オブジェクトがピクチャ内で目立つ度合いK(j)は、前記のようにして算出した希少性Ka(j)と異質性Kb(j)とから下記(4)、(5)式により算出できる。ただし、関数Sは、引数とする関数の出力を平滑化するために導入するシグモイド関数である。
Figure 2004023288
【0031】
各オブジェクトについての注視度パラメータV(j)は、前記のようにして算出した3つの指標L(j)、R(j)、K(j)を用いて下記(6)式により算出できる。
V(j)=S(K(j))/(S(L(j))×S(R(j)))・・・(6)
【0032】
これにより算出した注視度パラメータV(j)は、動きが小さく、動きの散乱が小さく、ピクチャ内で目立っているオブジェクトに対して大きな値となり、人間の動視力特性および注視特性に合ったものとなる。
【0033】
図2に戻って、S3では、マクロブロック単位でテクスチャ属性パラメータを決定する。マクロブロックごとのテクスチャ属性パラメータは、マクロブロックを構成する輝度ブロックの分散値を考慮して決めることができる。
【0034】
図4は、このテクスチャ属性パラメータの決定の原理説明図であり、まず、マクロブロック中に存在する、例えば8×8画素のブロックの輝度分散値lv(m)(ここではブロックをmで識別する。)としては、当該ブロック及びその上下左右に隣接する4ブロックの計5ブロックの輝度分散値にランク オーダ フィルタ(rank order filter)を適用し、最低値以外の輝度分散値、例えば2番目に小さな値を抽出したものを補正された輝度分散値clv(m)として適用する。なお、各ブロックについての補正された輝度分散値として最小値を抽出すると、単独の孤立した平坦ブロックの輝度分散値が適用されるケースがあるため、前記のように最低値以外の輝度分散値、例えば2番目に小さな値を適用することが好ましい。
【0035】
マクロブロック内のブロックについて、以上のようにして抽出した輝度分散のうちの最小値あるいは平均値を当該マクロブロックの補正輝度分散値A(k)とする。
【0036】
また、飛び越し走査により動画像が再生されるものである場合、図4に示すように、フレームにおけるブロックの輝度分散ax,y以外に、当該フレームを構成する第1フィールドおよび第2フィールドのブロックにおける輝度分散bx,yにもフィルタを適用してそれぞれ、例えば2番目に小さな値a′0,0、・・・を抽出し、それらを含めた輝度分散のうちの最小値あるいは平均値を当該マクロブロックの補正輝度分散値A(k)とすることが好ましい。
【0037】
テクスチャ属性パラメータt(k)は、前記のようにして算出した補正輝度分散値A(k)を関数Sに適用することにより下記(7)式で求めることができる。
t(k)=S(A(k))                  ・・・(7)
【0038】
また、MBグループどうしの境界に位置するマクロブロックでは、隣接するMBグループの属性が混在している可能性が高い。さらに、そのようなマクロブロックは、人間は色の変化が大きい部分あるいはエッジ部を注視する傾向がある、という部分に該当する可能性が高い。そのため、このような領域では、視覚優先度を高くすることにより主観画質の向上が期待できる。そこで、MBグループの境界に位置するマクロブロックBMBに対し、テクスチャ属性パラメータの補正を以下のとおり行うこととする。
【0039】
まず、BMBおよびその上下左右に隣接する4つのマクロブロックのオブジェクト注視度パラメータV(j)の最大値をVmaxとする。さらに、BMBおよびその上下左右に隣接する4つのマクロブロックのテクスチャ属性パラメータt(k)の最小値をtminとする。これら最大値および最小値を用いてBMBのテクスチャ属性パラメータt(k)を下記(8)式で求める。
t(k)=(V(j)/Vmax)×tmin        ・・・(8)
【0040】
次に、S4(図2)では、前記(6)、(7)あるいは(8)式で求めたV(j)およびt(k)を用い、下記(9)式により視覚優先度パラメータw(k)を算出する。
w(k)=t(k)/V(j)                ・・・(9)この視覚優先度パラメータw(k)は、適応量子化器4(図1)に出力され、量子化パラメータの決定に使用される。
【0041】
以上、本発明の実施形態について説明したが、本発明は、種々に変更および修正が可能である。例えば、オブジェクトの抽出、すなわちマクロブロックのグループ化に際し、分類基準により分類されたMBグループの面積が小さい場合、上下左右方向で隣接する、分類基準値の近い隣接MBグループを、MBグループの面積が予め決められた面積を上回るまで統合して最終的なMBグループとすることができ、これによれば算出される視覚優先度の精度を低下させることなく処理を軽減することができる。
【0042】
また、オブジェクトに含まれるマクロブロックの動き量の平均L(j)の算出に際し、他のものから極端に異なっている動き量を算出対象から除外するようにすることにより、ノイズなどの影響をなくすことができる。
【0043】
【発明の効果】
以上に詳細に説明したように、本発明によれば、符号化に先立って画面内のオブジェクトおよびマクロブロックの構成を高精度に解析することができ、符号化部における画面内の局所的ビット配分の最適化に供する解析データを得ることができる。これにより従来の動画像符号化で問題とされていた、狭帯域下でのHDTV(high definition TV)放送における画質劣化を解消できる。
【0044】
放送局向け映像サービスに本発明を適用すれば、圧縮伝送用コーディックのさらなる高効率化が見込まれ、高画質のHDTV伝送が低レートで実現可能になり、SNG(satellite news gathering)やFPU(filed pick up)などの狭帯域下での映像サービスをより一層充実させることができる。
【0045】
また、FTTH(fiber to the home)などのブロードバンド系の映像提供サービスに本発明を適用すれば、低レート・高画質のHDTV符号化技術の活用によりIPベースのHDTV配信が可能になる。
【0046】
なお、本発明は、高画質な映像伝送システムを実現するために、MPEG−2やMotion JPEG2000によるHDTV/SDTV(standard definition TV)など動画像圧縮符号化を扱うシステム全般に適用できる。
【図面の簡単な説明】
【図1】本発明に係る前処理部と動画像符号化部を備えた動画像符号化装置の一例のブロック構成図である。
【図2】図1の前処理部における処理の一実施形態のフロー図である。
【図3】オブジェクト抽出のための分類基準の説明図である。
【図4】テクスチャ属性パラメータの決定の原理説明図である。
【図5】MPEG−2の符号化検証モデルTest Model5[1]の概念図である。
【符号の説明】
1・・・前処理部、2・・・動画像符号化部、3・・・MC+DCT符号化器、4・・・適応量子化器、5・・・可変長符号化部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a pre-processing method for moving image coding, and more particularly to a pre-processing method for moving image coding capable of obtaining visual priority information representing a human visual characteristic of a moving image with high accuracy. Things.
[0002]
[Prior art]
In the test model 5 [1] of the MPEG-2 encoding verification model, which is an international standard for video coding, as shown in FIG. 5, the number of bits generated for each macroblock is input, and the target number of encoded bits is input. Is introduced, and the excess or deficiency of the number of generated bits with respect to the target number of encoded bits is accumulated in this virtual buffer, and is fed back to the quantization control.
[0003]
Here, the weighting factor for each macroblock (16 × 16 pixels), that is, the visual sensitivity w (k) is calculated by the following equation (1), and the quantization parameter is determined by the visual sensitivity w (k) and the occupation amount d of the virtual buffer. Is calculated using the following equation (2). If the target number of bits of a picture is T and the number of macroblocks in a picture is MBcnt, the target number of coded bits per macroblock is represented by T / MBcnt.
[0004]
Figure 2004023288
Quantization parameter = occupancy d × visual sensitivity w (k) (2)
[0005]
[Problems to be solved by the invention]
However, in the above prior art, as is apparent from equation (1), the visual sensitivity is basically determined only by the luminance variance of the macroblock, and the weighting for each macroblock affects the human visual sensitivity to the moving image. There is a problem that it is not always the optimal one that corresponds.
[0006]
Also to calculate the visual sensitivity w (k) of the macro block using the smallest luminance dispersion act (k) of the luminance dispersion a x of the block of 8 × 8 pixels forming the macroblock (k) Therefore, when a flat block exists alone in the fine region, the calculated visual sensitivities are greatly different between macroblocks including the flat block and macroblocks not including the flat block, and are compared between the fine regions that are considered to have substantially the same properties. There is a problem that the visual sensitivity of the image fluctuates greatly. In addition, when quantization control is performed using the quantization parameter calculated as described above, a macro block including a flat block that exists alone is quantized finely even though noise is not so noticeable, whereas Therefore, it cannot be said that optimal bit allocation is performed.
[0007]
SUMMARY OF THE INVENTION An object of the present invention is to provide a pre-processing method for moving image encoding that can obtain visual priority information representing a human visual characteristic of a moving image with high accuracy. If the quantization control in the moving image coding is performed using the visual priority information obtained by the above, the subjective image quality of the entire screen can be greatly improved by the optimal bit allocation.
[0008]
[Means for Solving the Problems]
In order to solve the above-described problem, the present invention includes a visual priority information calculating unit that performs analysis for each input screen and calculates visual priority information for each macroblock, The first feature is that the visual priority information calculated by the above is output to the encoding unit.
[0009]
Further, the present invention has a second feature in that the visual priority information calculating means calculates the visual priority information in consideration of the degree of gaze of each object and the texture attribute of each macroblock.
[0010]
Further, the present invention has a third feature in that the object is extracted based on grouping of macroblocks having the same attribute.
[0011]
Further, the present invention is characterized in that the classification reference value for grouping the macroblocks is defined using at least one index of a corresponding luminance component, color difference component, and motion component. There is a feature.
[0012]
Also, the present invention provides the gaze degree for each object as an average of the amount of motion of a macroblock included in the object, a degree of motion scattered for each macroblock, and a degree of the object being conspicuous in a picture. A fifth feature lies in that the definition is made using at least one index.
[0013]
Furthermore, the present invention has a sixth feature in that the texture attribute of each macroblock is determined in consideration of the variance of the luminance block constituting the macroblock.
[0014]
According to the first feature, since the analysis is performed for each screen to calculate the visual priority information for each macroblock, the human visual sensitivity is calculated as compared with the case where the visual sensitivity is calculated based only on the luminance variance of the macroblock. , It is possible to obtain information that is more suitable for the visual characteristics.
[0015]
According to the second, fifth, and sixth features, visual priority information in which human visual sensitivity to a moving image is accurately reflected is calculated based on a gaze degree for each object and a texture attribute for each macroblock. be able to.
[0016]
Further, according to the third and fourth features, an object can be appropriately extracted, and can be used for calculating a gaze degree for each object.
[0017]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram of an example of a moving picture coding apparatus including a preprocessing unit 1 and a moving picture coding unit 2 according to the present invention. In the figure, an input image (moving image) is input to a motion compensation (MC) inter-frame prediction and DCT encoder 3, and a prediction error obtained by the motion compensation inter-frame prediction is converted into a DCT coefficient. The DCT coefficient is replaced with a quantization level by the adaptive quantizer 4, is further subjected to variable-length encoding by the variable-length encoding unit 5, becomes encoded data, and is multiplexed with motion vector information. It is stored.
[0018]
The preprocessing device 1 estimates human visual sensitivity to the input image based on the input image, calculates visual priority information for each macroblock of, for example, 16 × 16 pixels, and calculates the visual priority information. The degree information is output to the adaptive quantizer 4.
[0019]
The adaptive quantizer 4 calculates a quantization parameter according to the visual priority information input from the preprocessing unit 1, and determines the bit allocation of each macroblock in one screen based on the quantization parameter.
[0020]
FIG. 2 is a flowchart of one embodiment of the processing in the preprocessing unit 1. In the following description, each macroblock is identified by k, and each object existing in the screen is identified by j.
[0021]
First, an object is extracted from the input image for each screen (S1). This object can be extracted by grouping macroblocks based on their attributes, and the attributes (classification reference values) used as the reference for grouping are a luminance component, a color difference component, It can be defined using at least one index of the motion amount. By this processing, macroblocks are grouped by, for example, a person, a vehicle, a background, or a portion in which they are further divided by image characteristics. In the following, macroblocks that constitute a certain object, that is, grouped macroblocks, are collectively called an MB group.
[0022]
FIG. 3 shows an example in which three-dimensional coordinates composed of a motion amount and two color difference components Pb and Pr (0 to 255 levels) are used as a classification reference value. For each macroblock in one screen, the motion amount and the color difference component Pb , Pr are obtained and plotted on the three-dimensional coordinates, and macroblocks whose three-dimensional coordinate positions are close are grouped as the same group. For example, if the motion amount is divided into two stages and the color difference components Pb and Pr are divided into five stages, macroblocks can be grouped into a maximum of 50 types of attributes.
[0023]
Note that the color difference components Pb and Pr may be the average value of each color difference component in the macroblock, and the motion amount of the macroblock is determined by first referring to the immediately preceding frame in the reproduction order by using the motion vector Vf (k ) Is obtained, and global motion correction is performed on the motion vector Vf (k) to exclude components caused by camera operations such as panning and zooming, and a correction vector Vg (k) indicating only a motion specific to the object is obtained. ) Is obtained, and its absolute value | Vg (k) | is used as the amount of motion.
[0024]
Next, the gaze degree parameter V (j) is calculated for each object extracted in S1 (S2). The gaze degree parameter V (j) for each object is an average L (j) of the amount of motion of the macroblock included in the object, the degree R (j) of the motion scattered for each macroblock in the object, the object Can be defined using at least one index of the degree of prominence K (j) in the picture. An example in which the gaze degree parameter V (j) is calculated using the three indices L (j), R (j), and K (j) will be described below.
[0025]
First, the average L (j) of the motion amounts of the macroblocks included in the object is calculated by calculating the average in the MB group of the absolute value | Vf (k) | of the motion amount Vf (k) before global correction.
[0026]
In addition, the degree R (j) of motion scattered for each macroblock in the object is determined for all macroblocks in the same MB group by adjacent macroblocks included in the same MB group (this is identified by k ′). ), The scattering degree R (j, k) of Vg (k) is calculated according to the following equation (3), and then the average within the MB group is calculated.
[0027]
Figure 2004023288
Here, Vgx and Vgy represent the x-axis direction component and the y-axis direction component of Vg, respectively.
[0028]
Further, the degree K (j) of the object that stands out in the picture is calculated from the rarity Ka (j) and the heterogeneity Kb (j) of the object. The rarity Ka (j) is classified into, for example, 50 types based on the classification reference value of the MB group calculated based on the average motion amount and the average color difference component in the MB group in the same manner as the classification standard of the macro block. A histogram representing the frequency of occurrence of the classified items in the screen is obtained, and is defined so as to take a large value with a small occurrence frequency.
[0029]
Further, the heterogeneity Kb (j) is obtained by calculating the difference Kb (j, p) of the classification reference value between the MB groups at a point adjacent to the different MB group (identified by p). It can be calculated by calculating the average of (j, p) in the MB group.
[0030]
The degree K (j) at which the object stands out in the picture can be calculated from the scarcity Ka (j) and the heterogeneity Kb (j) calculated as described above by the following equations (4) and (5). However, the function S is a sigmoid function introduced to smooth the output of the function as an argument.
Figure 2004023288
[0031]
The gaze degree parameter V (j) for each object can be calculated by the following equation (6) using the three indices L (j), R (j), and K (j) calculated as described above.
V (j) = S (K (j)) / (S (L (j)) × S (R (j))) (6)
[0032]
The gaze degree parameter V (j) calculated in this way has a small motion, a small scattering of motion, and a large value for an object that is conspicuous in the picture, and is suitable for human dynamic visual acuity characteristics and gaze characteristics. Become.
[0033]
Returning to FIG. 2, in S3, a texture attribute parameter is determined for each macroblock. The texture attribute parameter for each macroblock can be determined in consideration of the variance value of the luminance block constituting the macroblock.
[0034]
FIG. 4 is a diagram for explaining the principle of determining the texture attribute parameter. First, the luminance variance lv (m) of a block of, for example, 8 × 8 pixels existing in a macroblock (here, the block is identified by m) )), A rank order filter is applied to the luminance variance values of a total of five blocks, that is, the block and four blocks adjacent to the top, bottom, left, and right, and a luminance variance value other than the lowest value, for example, the second smallest value The extracted value is applied as a corrected luminance variance value clv (m). When the minimum value is extracted as the corrected luminance variance value for each block, the luminance variance value of a single isolated flat block may be applied. For example, it is preferable to apply the second smallest value.
[0035]
The minimum value or the average value of the luminance variances extracted as described above for the blocks in the macroblock is set as the corrected luminance variance value A (k) of the macroblock.
[0036]
When a moving image is reproduced by interlaced scanning, as shown in FIG. 4, in addition to the luminance variances ax and y of the blocks in the frame, the blocks of the first field and the second field constituting the frame are used. Are also applied to the luminance variance b x, y at, respectively, to extract, for example, the second smallest value a ′ 0,0,. It is preferable to set the corrected luminance variance value A (k) of the macro block.
[0037]
The texture attribute parameter t (k) can be determined by the following equation (7) by applying the corrected luminance variance value A (k) calculated as described above to the function S.
t (k) = S (A (k)) (7)
[0038]
Also, macroblocks located at the boundaries between MB groups are likely to have mixed attributes of adjacent MB groups. Further, such a macroblock is likely to correspond to a part where humans tend to gaze at a large color change or an edge part. Therefore, in such an area, improvement of the subjective image quality can be expected by increasing the visual priority. Therefore, correction of the texture attribute parameter is performed on the macroblock BMB located at the boundary of the MB group as follows.
[0039]
First, let the maximum value of the object gaze degree parameter V (j 0 ) of the BMB and four macroblocks adjacent to the top, bottom, left, and right be V max . Further, the minimum value of the texture attribute parameter t (k) of the BMB and four macroblocks adjacent to the top, bottom, left, and right thereof is defined as tmin . The texture attribute parameter t (k) of the BMB is obtained by the following equation (8) using the maximum value and the minimum value.
t (k) = (V (j 0 ) / V max ) × t min (8)
[0040]
Next, in S4 (FIG. 2), V (j) and t (k) obtained by the above equations (6), (7) or (8) are used, and the visual priority parameter w ( k) is calculated.
w (k) = t (k) / V (j) (9) The visual priority parameter w (k) is output to the adaptive quantizer 4 (FIG. 1), and is used to determine the quantization parameter. used.
[0041]
Although the embodiments of the present invention have been described above, the present invention can be variously changed and modified. For example, when extracting an object, that is, when grouping macroblocks, if the area of an MB group classified according to the classification criterion is small, an adjacent MB group that is adjacent in the vertical, horizontal, and vertical directions and has a close classification criterion value, The MB groups can be integrated until the area exceeds a predetermined area to form a final MB group, whereby the processing can be reduced without lowering the accuracy of the calculated visual priority.
[0042]
Further, when calculating the average L (j) of the motion amounts of the macroblocks included in the object, the influence of noise or the like is eliminated by excluding the motion amount extremely different from the others from the calculation target. be able to.
[0043]
【The invention's effect】
As described in detail above, according to the present invention, the configuration of objects and macroblocks in a screen can be analyzed with high accuracy prior to encoding, and the local bit allocation in the screen in the encoding unit can be performed. It is possible to obtain analysis data to be used for optimization of. As a result, it is possible to eliminate image quality degradation in HDTV (high definition TV) broadcasting in a narrow band, which has been a problem in conventional video coding.
[0044]
If the present invention is applied to a video service for a broadcasting station, it is expected that the efficiency of the codec for compressed transmission will be further improved, and high-definition HDTV transmission can be realized at a low rate, and SNG (satellite news gathering) or FPU (filled) The video service under a narrow band such as “pick up” can be further enhanced.
[0045]
Further, if the present invention is applied to a broadband video providing service such as FTTH (fiber to the home), IP-based HDTV distribution becomes possible by utilizing a low-rate and high-quality HDTV encoding technology.
[0046]
The present invention can be applied to all systems that handle moving image compression and encoding, such as standard definition TV (HDTV / SDTV) based on MPEG-2 or Motion JPEG2000, in order to realize a high-quality video transmission system.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating an example of a moving image encoding apparatus including a preprocessing unit and a moving image encoding unit according to the present invention.
FIG. 2 is a flowchart of an embodiment of a process in a preprocessing unit in FIG. 1;
FIG. 3 is an explanatory diagram of classification criteria for object extraction.
FIG. 4 is a diagram illustrating the principle of determining a texture attribute parameter.
FIG. 5 is a conceptual diagram of an MPEG-2 encoding verification model Test Model 5 [1].
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Pre-processing part, 2 ... Video encoding part, 3 ... MC + DCT encoder, 4 ... Adaptive quantizer, 5 ... Variable length encoding part

Claims (6)

動画像符号化のための前処理方式において、
入力される画面単位に解析を行い、マクロブロックごとの視覚優先度情報を算出する視覚優先度情報算出手段を備え、
前記視覚優先度情報算出手段により算出した視覚優先度情報を符号化部へ出力することを特徴とする動画像符号化のための前処理方式。
In the pre-processing method for video coding,
It is provided with a visual priority information calculating unit that analyzes the input screen unit and calculates visual priority information for each macro block,
A preprocessing method for moving image encoding, wherein the visual priority information calculated by the visual priority information calculating means is output to an encoding unit.
前記視覚優先度情報算出手段は、オブジェクトごとの注視度とマクロブロックごとのテクスチャ属性を考慮して視覚優先度情報を算出することを特徴とする請求項1に記載の動画像符号化のための前処理方式。2. The moving image encoding apparatus according to claim 1, wherein the visual priority information calculating unit calculates the visual priority information in consideration of a gazing degree of each object and a texture attribute of each macroblock. 3. Preprocessing method. 前記オブジェクトは、同一の属性を有するマクロブロックのグループ化に基づいて抽出されたものであることを特徴とする請求項2に記載の動画像符号化のための前処理方式。The pre-processing method according to claim 2, wherein the objects are extracted based on grouping of macroblocks having the same attribute. 前記マクロブロックのグループ化のための分類基準値は、対応する輝度成分、色差成分、動き成分のうちの少なくとも一つの指標を用いて定義されたものであることを特徴とする請求項3に記載の動画像符号化のための前処理方式。The method according to claim 3, wherein the classification reference value for grouping the macroblocks is defined using at least one of a luminance component, a color difference component, and a motion component. Pre-processing method for moving image coding. 前記オブジェクトごとの注視度を、該オブジェクトに含まれるマクロブロックの動き量の平均、マクロブロックごとに動きが散乱している度合、該オブジェクトがピクチャ内で目立つ度合いのうちの少なくとも一つの指標を用いて定義することを特徴とする請求項2ないし4のいずれかに記載の動画像符号化のための前処理方式。The gaze level of each object is determined by using at least one of an average of motion amounts of macroblocks included in the object, a degree of motion scattered for each macroblock, and a degree of the object being noticeable in a picture. 5. The pre-processing method for video coding according to claim 2, wherein the pre-processing method is defined as follows. 前記マクロブロックごとのテクスチャ属性を、該マクロブロックを構成する輝度ブロックの分散値を考慮して決めることを特徴とする請求項2ないし5のいずれかに記載の動画像符号化のための前処理方式。The pre-processing for moving image encoding according to any one of claims 2 to 5, wherein a texture attribute for each macro block is determined in consideration of a variance value of a luminance block forming the macro block. method.
JP2002173141A 2002-06-05 2002-06-13 Preprocessing system for moving image encoding Pending JP2004023288A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002173141A JP2004023288A (en) 2002-06-13 2002-06-13 Preprocessing system for moving image encoding
US10/392,392 US7436890B2 (en) 2002-06-05 2003-03-20 Quantization control system for video coding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002173141A JP2004023288A (en) 2002-06-13 2002-06-13 Preprocessing system for moving image encoding

Publications (1)

Publication Number Publication Date
JP2004023288A true JP2004023288A (en) 2004-01-22

Family

ID=31172518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002173141A Pending JP2004023288A (en) 2002-06-05 2002-06-13 Preprocessing system for moving image encoding

Country Status (1)

Country Link
JP (1) JP2004023288A (en)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005105253A1 (en) * 2004-05-01 2005-11-10 Agresearch Limited Drying process and apparatus
JP2008533841A (en) * 2005-03-10 2008-08-21 クゥアルコム・インコーポレイテッド Content classification for multimedia processing
JP2008219147A (en) * 2007-02-28 2008-09-18 Kddi R & D Laboratories Inc Dynamic image coding apparatus
JP2009533900A (en) * 2006-04-07 2009-09-17 マイクロソフト コーポレーション Quantization adjustment based on texture level
US8442337B2 (en) 2007-04-18 2013-05-14 Microsoft Corporation Encoding adjustments for animation content
US8498335B2 (en) 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
US8503536B2 (en) 2006-04-07 2013-08-06 Microsoft Corporation Quantization adjustments for DC shift artifacts
US8576908B2 (en) 2007-03-30 2013-11-05 Microsoft Corporation Regions of interest for quality adjustments
US8588298B2 (en) 2006-05-05 2013-11-19 Microsoft Corporation Harmonic quantizer scale
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
US8879856B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Content driven transcoder that orchestrates multimedia transcoding using content information
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus
CN118764564A (en) * 2024-09-03 2024-10-11 西安城市发展资源信息有限公司 An image transmission method for real-time rendering of Web three-dimensional scenes

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005105253A1 (en) * 2004-05-01 2005-11-10 Agresearch Limited Drying process and apparatus
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
JP2008533841A (en) * 2005-03-10 2008-08-21 クゥアルコム・インコーポレイテッド Content classification for multimedia processing
US9197912B2 (en) 2005-03-10 2015-11-24 Qualcomm Incorporated Content classification for multimedia processing
JP2012075136A (en) * 2005-03-10 2012-04-12 Qualcomm Inc Content classification for multimedia processing
US9113147B2 (en) 2005-09-27 2015-08-18 Qualcomm Incorporated Scalability techniques based on content information
US8879856B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Content driven transcoder that orchestrates multimedia transcoding using content information
US9088776B2 (en) 2005-09-27 2015-07-21 Qualcomm Incorporated Scalability techniques based on content information
US9071822B2 (en) 2005-09-27 2015-06-30 Qualcomm Incorporated Methods and device for data alignment with time domain boundary
US8879857B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Redundant data encoding methods and device
US8879635B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Methods and device for data alignment with time domain boundary
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus
JP2009533900A (en) * 2006-04-07 2009-09-17 マイクロソフト コーポレーション Quantization adjustment based on texture level
US8503536B2 (en) 2006-04-07 2013-08-06 Microsoft Corporation Quantization adjustments for DC shift artifacts
US8767822B2 (en) 2006-04-07 2014-07-01 Microsoft Corporation Quantization adjustment based on texture level
US9967561B2 (en) 2006-05-05 2018-05-08 Microsoft Technology Licensing, Llc Flexible quantization
US8711925B2 (en) 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
US8588298B2 (en) 2006-05-05 2013-11-19 Microsoft Corporation Harmonic quantizer scale
JP2008219147A (en) * 2007-02-28 2008-09-18 Kddi R & D Laboratories Inc Dynamic image coding apparatus
US8498335B2 (en) 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
US8576908B2 (en) 2007-03-30 2013-11-05 Microsoft Corporation Regions of interest for quality adjustments
US8442337B2 (en) 2007-04-18 2013-05-14 Microsoft Corporation Encoding adjustments for animation content
US9185418B2 (en) 2008-06-03 2015-11-10 Microsoft Technology Licensing, Llc Adaptive quantization for enhancement layer video coding
US9571840B2 (en) 2008-06-03 2017-02-14 Microsoft Technology Licensing, Llc Adaptive quantization for enhancement layer video coding
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
US10306227B2 (en) 2008-06-03 2019-05-28 Microsoft Technology Licensing, Llc Adaptive quantization for enhancement layer video coding
CN118764564A (en) * 2024-09-03 2024-10-11 西安城市发展资源信息有限公司 An image transmission method for real-time rendering of Web three-dimensional scenes

Similar Documents

Publication Publication Date Title
KR100298416B1 (en) Method and apparatus for block classification and adaptive bit allocation
JP4187405B2 (en) Object-based rate control apparatus and method in coding system
US9491464B2 (en) Controlling a video content system by computing a frame quality score
JP5969389B2 (en) Object recognition video coding strategy
US6477201B1 (en) Content-adaptive compression encoding
KR100853201B1 (en) Adaptive Quantization Method and Apparatus for Image Coding for Image Quality Enhancement of Stereoscopic Images
JP2004023288A (en) Preprocessing system for moving image encoding
JPH07203435A (en) Method and apparatus for enhancing distorted graphic information
CN114071189A (en) Video processing device and method for processing video stream
DE112018002109T5 (en) SYSTEMS AND METHODS FOR CODING GUIDED ADAPTIVE QUALITY RENDERING
US7436890B2 (en) Quantization control system for video coding
JPH10257489A (en) Apparatus and method for adjusting bit generation amount for video encoding
JPH08186714A (en) Noise removal of picture data and its device
CN101325711A (en) Adaptive rate control method based on spatio-temporal masking effect
KR101007381B1 (en) Image Coding Device Considering Region of Interest
JP2001320713A (en) Image preprocessing method
US20130142250A1 (en) Region based classification and adaptive rate control method and apparatus
JP5166435B2 (en) Image encoding method and apparatus for implementing the method
JP4033292B2 (en) Quantization control method for video coding
Zhao et al. Fast CU partition decision strategy based on human visual system perceptual quality
US20050286628A1 (en) Human visual system (HVS) filter in a discrete cosine transformator (DCT)
JPH0638189A (en) Picture coding method
JP4829615B2 (en) Apparatus and method for image analysis
Wan et al. Perceptual Encoding Optimization Algorithm Guided by Human Eye Focusing Mechanism
KR100464004B1 (en) Quantization method for video using weight of interest region

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040323

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070412

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070704