JP5638731B1

JP5638731B1 - 拡張ダイナミックレンジをもつ画像の階層式符号化における適応的な偽輪郭生成防止

Info

Publication number: JP5638731B1
Application number: JP2014539165A
Authority: JP
Inventors: スー，グアン−ミン; キュ，シェン; ダリー，スコット
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2011-11-01
Filing date: 2012-11-01
Publication date: 2014-12-10
Anticipated expiration: 2032-11-01
Also published as: EP2774361A1; HK1197956A1; CN103918274B; JP2015501603A; US8873877B2; US20140294313A1; CN103918274A; EP2774361B1; WO2013067113A1

Abstract

エンコーダが、拡張ダイナミックレンジまたは視覚的ダイナミックレンジ（VDR）において画像のシーケンスを受領する。各画像について、ダイナミックレンジ圧縮機能および関連するパラメータが、入力画像を、より小さなダイナミックレンジをもつ第二の画像に変換するために、選択される。前記入力画像および前記第二の画像を使って、残差画像が計算される。入力VDR画像シーケンスは、前記第二の画像を基本層として使い、前記入力画像および前記第二の画像から導出される残差画像を一つまたは複数の残差層として使う階層式コーデックを使って符号化される。前記残差画像を使って、偽輪郭検出方法（FCD）が、復号されたVDR画像中の潜在的な、知覚的に可視の偽輪郭の数を推定し、偽輪郭を防止するまたは偽輪郭の数を減らすよう逐次反復式にダイナミックレンジ圧縮パラメータを調整する。

Description

関連出願への相互参照
本願はここに参照によって全体において組み込まれる2011年11月1日に出願された米国仮特許出願第61/554,294号の優先権を主張するものである。

発明の分野
本発明は概括的には画像に関する。より詳細には、本発明のある実施形態は、拡張ダイナミックレンジをもつ画像の階層式（layered）符号化における適応的な偽輪郭生成アーチファクトの防止に関する。

本稿での用法では、用語「ダイナミックレンジ」（DR: dynamic range）は人間の心理視覚系（HVS）が画像中のある範囲の、たとえば最も暗い暗部から最も明るい明部までの強度（たとえばルミナンス、ルーマ）を知覚する能力に関することがある。この意味では、DRは「シーン基準の」（scene-referred）強度に関係する。DRはまた、表示装置が特定の幅の強度範囲を十分にまたは適切に表現する能力にも関することがある。この意味では、DRは「ディスプレイ基準の」（display-referred）強度に関係する。本稿の記述における任意の点において特定の意味が特に有意であることが明示的に指定されるのでない限り、上記用語はどちらの意味でも、たとえば交換可能に使用されうると推論されるべきである。

本稿での用法では、用語「高ダイナミックレンジ」（HDR: high dynamic range）は人間の視覚系（HVS: human visual system）の14〜15桁ほどにまたがるDR幅に関係する。たとえば、本質的に正常な（たとえば統計的、バイオメトリックまたは眼科的な意味のうちの一つまたは複数の意味で）、よく順応した人間は約15桁にまたがる強度範囲をもつ。順応した人間は、ほんの一握りの光子ほどの弱い光源を知覚しうる。しかしながら、これらの同じ人間が、砂漠、海または雪における白昼の太陽のほとんど痛々しいほどの明るい強度を感知することがある（あるいは、傷害を防ぐため短時間とはいえ、太陽を見ることさえある）。ただし、この幅は「順応した」人間に利用可能である。たとえばそのような人間のHVSは、リセットし調整するためのある時間期間をもつ。

対照的に、人間が強度範囲の広範な幅を同時に知覚しうるDRは、HDRに対してある程度打ち切られていることがある。本稿での用法では、「拡張ダイナミックレンジ」「視覚的ダイナミックレンジ」または「可変ダイナミックレンジ」（VDR）は、個々にまたは交換可能に、HVSによって同時に知覚可能なDRに関係する。本稿での用法では、VDRは5〜6桁にまたがるDRに関しうる。よって、真のシーン基準のHDRに比べるといくぶん狭いかもしれないが、それでもVDRは幅広いDR幅を表す。本稿での用法では、用語VDR画像またはピクチャーは、各ピクセル成分が8ビットより多くのビットによって表現される画像またはピクチャーに関係しうる。

かなり最近まで、ディスプレイはHDRまたはVDRよりかなり狭いDRを有していた。典型的な陰極線管（CRT）、常時の蛍光白色バックライトをもつ液晶ディスプレイ（LCD）またはプラズマスクリーン技術を使うテレビジョン（TV）およびコンピュータ・モニタ装置は、そのDR表現機能において、約3桁に制約されることがある。このように、そのような従来のディスプレイは、VDRおよびHDRに対して標準ダイナミックレンジ（SDR）とも称される低ダイナミックレンジ（LDR）の典型となる。

スケーラブル・ビデオ符号化およびHDTV技術と同様、画像DRの拡張は典型的には二方向からのアプローチに関わる。たとえば、近代的なHDR機能のあるカメラで取り込まれたシーン基準HDRコンテンツを使って、VDRディスプレイまたは従来のSDRディスプレイ上で表示されうる該コンテンツのVDRバージョンまたはSDRバージョンが生成されうる。帯域幅節約のためまたは他の配慮から、SDR基本層（BL: base layer）および向上層（EL: enhancement layer）を使って層状にされたまたは階層式のアプローチを使ってVDR信号を伝送してもよい。階層式のビットストリームを受領するレガシー・デコーダは、基本層のみを使って、SDRピクチャーを再構成してもよい。しかしながら、VDR互換なデコーダは基本層および向上層両方を使ってVDRストリームを再構成することができる。

そのような階層式のVDR符号化では、画像は異なる空間分解能、ビット深さおよび色空間において表現されうる。たとえば、典型的なVDR信号は、色成分当たり12ビット以上を使って表現される一方、典型的なSDR信号は色成分当たり8ビットを使って表現される。さらに、基本層および向上層信号は、動画像専門家グループ（MPEG）のISO/IEC勧告によって定義されるもの、たとえばMPEG-1、MPEG-2、MPEG-4パート２およびH.264のような多様な画像およびビデオ圧縮方式を使ってさらに圧縮されてもよい。

階層式のVDR符号化は、符号化パイプラインの少なくとも二つのセグメントにおいて量子化を導入する：ａ）VDR信号を第一のビット深さ（たとえば色成分当たり12ビット）から第二のより低いビット深さ（たとえば色成分当たり8ビット）のSDR信号に変換する間およびｂ）基本層および向上層の圧縮プロセスの間である。そのような量子化のアーチファクトとして、再構成された画像上に偽輪郭が現われることがある。

上記のセクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、該セクションにおいて記述されるアプローチはいずれも、該セクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、該セクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。
MONET P ET AL、"Block Adaptive Quantization of Images,", IEEE Transactions on Communications, IEEE Service Center, Piscataway, NJ, USA, vol.41, no.2, 1 February 1993, pp.303-306は画像をブロックに分割し、量子化器を局所的な信号属性に適応させることを開示している。

本発明のある実施形態は、限定ではなく例として、付属の図面の図において例示される。図面において、同様の参照符号は同様の要素を指す。
本発明のある実施形態に基づく階層式符号化システムのための例示的なデータ・フローを描く図である。本発明のある実施形態に基づく例示的な一様ダイナミックレンジ圧縮機能を描く図である。本発明のある実施形態に基づく、偽輪郭を検出する例示的なシステムを描く図である。本発明のある実施形態に基づく、ピクセル・レベルで偽輪郭を検出するための例示的な処理フローを描く図である。本発明のある実施形態に基づく、ピクチャー・レベルで偽輪郭を検出するための例示的な処理フローを描く図である。本発明のある実施形態に基づく、ビデオ符号化においてシーン・レベルで偽輪郭を防止するための例示的な処理フローを描く図である。本発明のある実施形態に基づく、ビデオ符号化においてシーン・レベルで偽輪郭を防止するための例示的な処理フローを描く図である。本発明のある実施形態に基づく、偽輪郭検出メトリックを計算するための例示的な処理フローを描く図である。本発明のある実施形態に基づく、偽輪郭検出メトリックを計算するための例示的な処理フローを描く図である。本発明のある実施形態に基づく、偽輪郭検出メトリックを計算するための例示的な処理フローを描く図である。

VDR階層式符号化における偽輪郭生成アーチファクトの適応的な防止が本稿で記述される。以下の記述では、説明のために、数多くの個別的詳細が、本発明の十全な理解を与えるために記述される。しかしながら、本発明がそうした個別的詳細なしでも実施されうることは明白であろう。他方、よく知られた構造および装置は、本発明を無用に隠蔽し、埋没させ、あるいは曖昧にするのを避けるために、網羅的な詳細さでは記述されない。

〈概観〉
本稿に記載される例示的な実施形態は、階層式符号化における偽輪郭生成アーチファクトを防止するためのVDRビデオ信号の適応的な量子化に関する。ある実施形態では、エンコーダが、拡張ダイナミックレンジまたは視覚的ダイナミックレンジ（VDR）において画像のシーケンスを受領する。各画像について、ダイナミックレンジ圧縮機能および関連するパラメータが、入力画像を、より小さなダイナミックレンジをもつ第二の画像に変換するために、選択される。前記入力画像および前記第二の画像を使って、残差画像が計算される。入力VDR画像シーケンスは、前記第二の画像を基本層として使い、前記入力画像および前記第二の画像から導出される残差画像を一つまたは複数の残差層として使う階層式コーデックを使って符号化される。前記残差画像を使って、偽輪郭検出（false contour detection）方法（FCD）が、復号されたVDR画像中の潜在的な、知覚的に可視の偽輪郭の数を推定し、偽輪郭の数を減らすよう逐次反復式にダイナミックレンジ圧縮パラメータを調整する。

ある例示的な実施形態では、ダイナミックレンジ圧縮機能は一様な量子化器を含む。

ある例示的な実施形態では、FCD方法は、ピクセル・レベルの輪郭検出器およびピクチャー・レベルの輪郭検出器を含む。

もう一つの実施形態では、エンコーダがVDR画像のシーン（たとえばピクチャーのグループ）を受領する。フレーム依存パラメータC_L[i]およびC_H[i]を有する一様なダイナミックレンジ圧縮関数が各フレームiに適用されて、各VDR画像をSDR画像に変換する。ここで、SDR画像はVDR画像より低いダイナミックレンジをもつ。初期のC_L[i]およびC_H[i]の値を設定したのち、逐次反復式プロセスにおいて、各VDR画像およびその対応するSDR画像を使って残差画像が計算される。この残差画像を使って、偽輪郭検出方法（FCD）が、該残差画像中の知覚的に可視の偽輪郭の数を計算し、偽輪郭の発生を減らすよう逐次反復式にC_L[i]またはC_H[i]のいずれかを調整する。シーン内の全フレームを処理したのち、すべてのC_H[i]値の最大に基づいてシーン依存のC_H値が計算され、すべてのC_L[i]値の最小に基づいてシーン依存のC_L値が計算される。入力シーンの圧縮の間に、計算されたシーン依存のC_HおよびC_Lの値を使って、シーン内のすべての画像に一様ダイナミックレンジ圧縮機能が適用される。

もう一つの実施形態では、偽輪郭のエッジ・コントラストを、システム・パラメータおよびコントラスト感度関数（CSF: contrast sensitivity function）のモデルに基づく可視性閾値に比較することによって、偽輪郭検出メトリックが計算される。

〈例示的な階層式VDRシステム〉
図１は、ある実施形態に基づく層状にされたまたは階層式のVDRエンコードを実装する例示的な画像処理システム１００を描いている。システム１００は、階層式エンコーダのある実施形態を表わす。ここで、入力信号V １０５は、基本層１３５および向上層もしくは残差層１８５という二つの層を使って符号化される。残差エンコーダ１８５は単層エンコーダまたは多層エンコーダでありうる。

ある実施形態では、入力信号V １０５は、高いビット深さ分解能（たとえばRGB4:4:4のような4:4:4カラー・フォーマットでは色成分当たり12ビット以上）によって表わされる入力VDR信号を表わしていてもよい。このVDR信号は、ダイナミックレンジ圧縮プロセス（たとえばトーン・マッピング演算子または量子化器）１１０によって処理されて、信号S １１２を生成してもよい。いくつかの実施形態では、ダイナミックレンジ圧縮プロセスはまた、他の非線形または線形な画像変換プロセスを有していてもよい。信号Sは、信号Vと同じまたはより低い空間分解能であってもよい。信号Sは、Vよりも低いビット深さ分解能、たとえば色成分当たり8ビットで表わされていてもよい。信号Sは、Vと同じカラー・フォーマットであってもよいし、あるいは他の実施形態では、異なるカラー・フォーマット、たとえばYCbCr4:2:0であってもよい。

ある実施形態では、基本層（BL）信号S １１２はBLエンコーダ１３０によって処理されて圧縮された信号１３５を生成してもよい。ある実施形態では、符号化１３０は、動画像専門家グループ（MPEG）規格によって規定されるようなMPEG-2またはMPEG-4ビデオ・エンコーダのような既存のビデオ・エンコーダのいずれによって実装されてもよい。

向上層（または残差層）１７５は、BLデコーダ１４０において信号１３５を復号し、もとのVDR信号Vの予測される値（１６５）を生成し、もとの値から予測される値（１６５）を引いて残差信号１７５を生成することによって、生成されうる。ある実施形態では、予測器１６０は、2012年4月13日に出願された国際特許出願第PCT/US2012/033605号において記述されるような多変量多重回帰モデルを使って実装されてもよい。残差信号１７５はさらに残差エンコーダ１８０によって圧縮されて、エンコードされた残差信号１８５を生成してもよい。ある実施形態では、符号化１８０は、動画像専門家グループ（MPEG）規格によって規定されるようなMPEG-2またはMPEG-4ビデオ・エンコーダのような既存のビデオ・エンコーダまたはJPEG2000、VP8、フラッシュ・ビデオなどのような他の画像およびビデオ・エンコーダのいずれによって実装されてもよい。エンコード１８０の前に、色変換および／または非線形量子化のような他の画像処理演算があってもよい。

ダイナミックレンジ圧縮器１１０またはエンコーダ１３０および１８０のいずれかにおける量子化プロセスのため、VDRデコーダでは、再構成されたVDR信号は量子化に関係する、偽輪郭生成アーチファクトのような関連アーチファクトを示すことがある。そうしたアーチファクトを減らす一つのアプローチは、輪郭除去（de-contouring）のような後処理技法を組み込んでもよい。しかしながら、そのような技法は、デコーダの計算量を増すし、偽輪郭を完全には除去しないことがあるし、他の望ましくないアーチファクトを導入することさえありうる。偽輪郭生成を軽減する第二のアプローチは、ディザリングのようなエンコード前処理方法を適用することを組み込んでもよい。しかしながら、事前ディザリングは入力信号のエントロピーを高め、よって全体的な圧縮効率を劣化させる。ある実施形態は、VDRからSDRへのダイナミックレンジ圧縮プロセス１１０を適応的に調整することによって偽輪郭生成アーチファクトを防止する新規なアプローチを提案する。それにより、潜在的な偽輪郭の数が防止され、最小化される。

ある実施形態では、エンコード・システム１００は、復号されたストリームにおける偽輪郭生成アーチファクトの潜在的な深刻さまたは可視性を推定する偽輪郭検出器（FCD）１２０をも含んでいてもよい。本稿で後述するように、信号VおよびSを与えられて、FCD １２０は、潜在的な偽輪郭生成アーチファクトの数が最小になるよう、ダイナミックレンジ圧縮器１１０のパラメータを調整する。そのようなパラメータは、たとえばメタデータ１６７を使って符号化されたビットストリームの一部として、デコーダに伝送されてもよいし、あるいは予測器１６０において使用されている予測パラメータを導出するためにエンコーダによって使用されてもよい。

本稿での定義によれば、用語「メタデータ」は符号化されたビットストリームの一部として伝送されて、デコーダがデコードされた画像をレンダリングするのを支援する任意の補助情報に関係しうる。そのようなメタデータは、これに限られないが、本稿に記載されるもののような、色空間または範囲変換、ダイナミックレンジおよび／または量子化パラメータに関係したデータを含みうる。

〈例示的なダイナミックレンジ圧縮〉
階層式VDR符号化システム１００は、もとのVDR信号１０５を基本層（たとえばSDR）信号１１２にマッピングするダイナミックレンジ圧縮器１１０を含む。ある実施形態では、ダイナミックレンジ圧縮器の入力‐出力特性は関数Q()および一組のパラメータPによって定義できる。このように、VDR入力v_iを与えられて、SDR出力s_iは次のように表現できる。

図２は、一様量子化器を使うダイナミックレンジ圧縮器の例示的な実施形態を描いている。ここで、

ここで、Oは丸めオフセットであり、P＝{C_H,C_L}である。式(2)において、v_Lおよびv_H値は典型的には、入力ビデオ・シーケンスにおけるフレームのグループのダイナミックレンジ特性に基づいて定義される。v_Lおよびv_Hを与えられて、{C_H,C_L}パラメータはダイナミックレンジ量子化の量および潜在的な知覚的に可視の偽輪郭の数を制御する。図２では、VDR入力は16ビットを使って表現されており、一方、SR出力は8ビットを使って表現されている。図２に描かれるように、ある種の実施形態では、ダイナミックレンジ圧縮にはクリッピングが続いてもよい。たとえば、225より高いSDR値は値225にクリッピングされてもよく、0より低いSDRピクセル値は値0にクリッピングされてもよい。

ある実施形態では、量子化器は一様であり、VDR信号のガンマ補正されたルミナンス成分（たとえば、YCbCr信号におけるY成分）にのみ適用される。他の実施形態では、量子化器は非一様であってもよく、入力信号の二つ以上の色成分に独立して作用してもよく、知覚的な量子化領域（perceptual quantization domain）において作用してもよい。

式(2)を与えられると、量子化解除（またはダイナミックレンジ拡張）プロセスのある実施形態は、次のように表現できる。

ある実施形態では、線形量子化されたデータは不可逆圧縮１３０を介して圧縮され、逆量子化関数は線形回帰を介して、たとえばVDRおよび基本層のデータセットの間で低次多項式をフィッティングすることによって、得られてもよい。ある実施形態では、

のようなダイナミックレンジ拡張関数のパラメトリック・モデルを与えられると、そのようなモデルのパラメータ（たとえばa₀、a₁、a₂）は、下記の式(5)に描かれるように、予測されるVDR値と入力VDR値との間の平均平方誤差（MSE）を最小化することによって解くことができる。

ダイナミックレンジ圧縮にクリッピングが続くときは、VDRデータの予測は、式(5)を計算するためにクリッピングされていないSDRデータを使うことによって改善されうる。

式(1)のダイナミックレンジ圧縮関数を与えられて、ある実施形態は、再構成されたVDR信号中の潜在的な偽輪郭の数を最小にするよう、パラメータの組Pを選択する。たとえば、式(2)の線形量子化を与えられると、VDRピクチャーにおけるピクセル値の分布がゼロ・ピクセル値により近い主ピークおよび最大ピクセル値に向かう長い後引き部（trail）をもつ場合、C_Lは0に設定されてもよく（C_L＝0）、次いで最終的な再構成されたVDRにおける偽輪郭生成アーチファクトを最小にするC_Hについての値が導出されてもよい。より高いC_H値は偽輪郭生成アーチファクトを軽減しうるが、高いC_H値は残差ストリーム１８５のビットレートを増大させ、よって全体的な符号化効率に影響しうる。

ある実施形態では、ダイナミックレンジ圧縮パラメータ（たとえば[C_L C_H]）の選択は、あるビデオ・シーン（たとえばピクチャーのグループ）の諸フレームにわたって一定に保持されてもよい。これは、シーン内での一定のルミナンスを維持することをサポートし、基本層および向上層コーデック（たとえば１３０および１８０）内での動き推定プロセスを容易にしうる。

〈偽輪郭生成の検出および防止〉
図３は、本発明のある実施形態に基づく偽輪郭生成検出器（FCD）１２０の例を描いている。FCDシステム３００は、ダイナミックレンジ伸張プロセッサ３１０およびFCDカウンタ３２０を含む。ダイナミックレンジ伸張プロセッサ３１０はSDR入力s_i ３０５（またはS １１２）を受領し、ダイナミックレンジ圧縮ユニット１１０によって使われる逆プロセスを使って、もとのVDR入力の近似（または予測されるバージョン）を出力する。それはここでは￣付きのv_i ３１５として表わされている。この信号は、予測されたv_iまたは量子化解除されたv_iとも称されてもよい。v_iおよび￣付きのv_iを入力として与えられると、FCDシステム３００は予測誤差または残差

を計算する。これはさらなる処理のためにFCDカウンタ３２０に入力される。残差画像r_i ３１９を与えられると、FCDカウンタ・ユニット３２０は、（所与の基準に従って）ダイナミックレンジ圧縮のために選ばれたパラメータに起因する、再構成されたVDR信号中の潜在的な知覚的に可視の偽輪郭の数を出力する。

ある実施形態では、式(6)において、残差は

として計算されてもよい。ここで、＾付きのv_iは、予測器１６０から直接導出される、予測されたVDR信号１６５を表わす。

FCDカウンタ３２０では、入力残差における偽輪郭の検出および計数は、ピクセル・レベル検出コンポーネントおよびピクチャー（またはフレーム）・レベル検出コンポーネントとを有する。

〈例示的なピクセル・レベル検出〉
図４は、ある実施形態に基づくピクセル・レベルで偽輪郭を検出するための例示的なプロセスを描いている。残差ピクセルr_iを与えられたとき（ステップ４１０）、A_iは、ピクセルr_iを中心としてピクセルr_iを囲むN個のピクセルのエリアを表わす（たとえば3×3または5×5）。A_i内の残差ピクセルについての平均μ_iおよび標準偏差σ_iの値（ステップ４２０）が下記の式(7)および(8)に従って計算される。

所与のダイナミックレンジ圧縮器１１０について、m_iは、同じs_i出力値に対応するv_i入力値のレンジを表わす。たとえば、図２に描かれる一様量子化器について、すべてのm_iの値は同一であり、式(2)から、

となる。

この実施形態では、一様量子化の結果、次のようになる。

式(8)、(9)および(10)から、関心対象エリア内の残差ピクセルの標準偏差は、一様量子化器の傾きを定義するパラメータ[C_L C_H]と強く相関している。

が、A_i内のすべての残差ピクセルの正規化された標準偏差を表わすとし（ステップ４３０）、

がピクセルr_iを囲むピクセル領域

内のすべての正規化された標準偏差の中央値を表わすとする（ステップ４４０）。ピクセル・レベル偽輪郭指標をα_iと表わすと、閾値T_H、T_L、L_LおよびL_Hが与えられたとき、α_i＝1であれば、残差r_i ３１９は潜在的な偽輪郭に関連付けられる。ここで（ステップ４５０）、

ある実施形態では、式(12)において、エリア

である。他の実施形態では、チルダ付きのエリアA_iはAiより大きくてもよい。ある例示的な実施形態では、T_H＝1/5、T_L＝1/16であり、16ビットVDR入力について、L_L＝10,000、L_H＝60,000である。偽輪郭生成アーチファクトは、チルダ付きのσ_i

が閾値T_Hより小さいエリアにおいて存在する。しかしながら、チルダ付きσ_iの非常に小さい値は、すでに非常になめらかであったエリアを示しうる。よって、偽陽性を避けるために、チルダ付きのσ_iは閾値T_Lより高い値に設定される。知覚上の観点からは、偽輪郭生成アーチファクトは非常に暗い領域および非常に明るい領域では観察するのが難しい。よって、偽輪郭の検出がそれほど重要でないことがありうる非常に暗い領域および非常に明るい領域をそれぞれ定義するために、閾値L_LおよびL_Hが使われてもよい。

〈例示的なピクチャー・レベル検出〉
式(13)のα_iはピクセル・レベルで偽輪郭の指示を与えるが、知覚上の観点からは、ピクチャー・レベルでの偽輪郭の検出がより有意であることがある。たとえば、偽輪郭生成アーチファクトは、大きなピクチャー・エリアがα_i＝1をもつ複数のピクセルをもち、これらのピクセルがつながっている場合にのみ知覚上可視であろう。図５は、本発明のある実施形態に基づく、ピクチャー・レベルでの偽輪郭を検出する例示的なプロセスを描いている。

ある実施形態では、ピクチャーまたはビデオ・フレームは重なり合わないブロックB_j（たとえば16×16または32×32のピクセル・ブロック）に分割される（ステップ５１０）。β_jは、そのブロックにおいて偽輪郭生成アーチファクトがどのくらい気づかれやすいかを表わす二値の、ブロック・レベルの偽輪郭指標を表わす。ある実施形態では、

を与えられたとする。ここで、|B_j|はエリアB_jにおけるピクセル数を表わす。すると、
β_j＝(b_j＞T_B)・(c_j＜T_B) (16)
となる。

式(15)および(16)の変数c_jおよび閾値T_Bは、二つのブロックを横断する偽輪郭検出を補償するために導入されている。ある実施形態ではT_B＝0.1である。

各ブロックについてβ_jを計算したのち（ステップ５２０）、β_j＝1であるいくつかのブロックがつながっていると考えられる場合に潜在的な偽輪郭がカウントされる（ステップ５３０）。ある実施形態では、閾値T_C（たとえばT_C＝0）を与えられて、
{θ_k}＝connected_component{β_j} (17)
がβ_jの集合の間で4連結のコンポーネント（4-connected components）の数を表わすとする。たとえば、MATLABプログラミング言語を使って、{θ_k}は関数bwconncomp(β_j,4)を使って計算できる。次いで、ステップ５４０において、FCDメトリックの値

は関心対象のピクチャー・エリアにおける潜在的な知覚的に可視の偽輪郭生成アーチファクトの数を表わす。

一般に、閾値L_L、L_HおよびT_Cは目標VDRディスプレイ・システムのディスプレイ特性および人間の視覚系の特性両方に依存する。

〈シーン・ベースの偽輪郭防止〉
図６Ａおよび図６Ｂは、本発明のある実施形態に基づいてビデオ・シーケンスを符号化するときの、シーン・レベルでの知覚的に可視の偽輪郭生成アーチファクトを検出および防止するための例示的な処理フローを描いている。先に説明したように、偽輪郭生成アーチファクトの数は、一般に、入力VDR信号のダイナミックレンジの圧縮の際の量子化の度合いと相関している。所与の一組のパラメータPについて、ダイナミックレンジ圧縮関数Q(v_i,P)を与えられると、ある実施形態は、潜在的な偽輪郭の数を測る。次いで、逐次反復的に、潜在的に知覚的に可視な偽輪郭の数が最小にされるようPを調整する。たとえば、式(2)の一様量子化器（図２にも描かれている）を与えられると、ビデオのあるシーン内で、ある実施形態はまず該シーン内での最大v_Hおよび最小v_L値を決定し（ステップ６１０）、次いで逐次反復的に、潜在的な偽輪郭の数を最小にするC_HおよびC_L値を決定する（ステップ６２０および６３０）。

本稿での用法では、用語「シーン」は連続するフレームまたはピクチャーのグループまたは一般に同様のダイナミックレンジおよび色特性をもつ連続するビデオ・フレームまたはピクチャーの集合に関する。

本稿での用法では、「高クリッピング」は、ダイナミックレンジ圧縮の際、たいていは高いピクセル値（たとえばハイライト）のほうでクリップする選好に関する。そのようなクリッピングは、シーン内のピクセル値のヒストグラムがピクセル値の大半が暗いエリアにより近い傾向があることを示し、該ヒストグラムがハイライト（明るい）エリアにおいて長いテール（tail）を示す場合に好ましい。

本稿での用法では、「低クリッピング」は、ダイナミックレンジ圧縮の際、たいていは低いピクセル値（たとえば暗い影）のほうでクリップする選好に関する。そのようなクリッピングは、シーン内のピクセル値のヒストグラムがピクセル値の大半が明るいエリアにより近い傾向があることを示し、該ヒストグラムが暗いエリアにおいて長いテール（tail）を示す場合に好ましい。

ある実施形態では、低クリッピングまたは高クリッピングのどちらを実行するかの決定（６２０）は、シーン内のピクセル値のヒストグラムのひずみ度（skewedness）を計算することによって決定されうる。シーン内のN個の入力v_iピクセルすべてのルミナンス値の推定された平均および標準偏差値μおよびσを与えられて、ひずみ度は次のように定義されてもよい。

ひずみ度が負であれば、データは平均の左のほうにより広がる。ひずみ度が正であれば、データは平均の右に広がる。

図６Ｂは、VDRデコーダの出力における偽輪郭生成アーチファクトを最小にするC_HおよびC_L値を決定する逐次反復プロセス６３０のある実施形態をより詳細に描いている。（式(19)のひずみ度推定値を利用してできる）クリッピング決定６３２に依存して、プロセス６００は６３５または６３７のいずれかの経路をたどりうる。低クリッピング（６３７）のもとでは、各フレームiについて、逐次反復プロセスは初期のC_L[i]値（たとえばC_L[i]＝0）をもって始まり（ステップ６３７−２）、式(18)を使ってFCDメトリックを計算する（ステップ６３７−３）。検出される知覚的に可視な偽輪郭の数が所与の閾値T_f以下である場合には（たとえばT_f＝0）、プロセスは、すべてのフレームの処理が終わるまで、次のフレームに進む（ステップ６３７−１）。そうでなく、検出される知覚的に可視な輪郭の数が前記所与の閾値より大きい場合には、ステップ６３７−２において、C_L[i]値は指定されたきざみだけ減少させられ（たとえば5だけまたは10だけ）、プロセスが繰り返される。シーン内の全フレームが処理され終わったら、そのシーンのダイナミック圧縮についてのC_L値が、すべての計算されたC_L[i]値のうちの最小値として選択される。

高クリッピング（６３５）のもとでは、各フレームiについて、逐次反復プロセスは初期のC_H[i]値（たとえばC_H[i]＝235）をもって始まり（ステップ６３５−２）、式(18)を使ってFCDメトリックを計算する（ステップ６３５−３）。検出される知覚的に可視な偽輪郭の数が所与の閾値T_f以下である場合には（たとえばT_f＝0）、プロセスは、すべてのフレームの処理が終わるまで、次のフレームに進む（ステップ６３５−１）。そうでなく、検出される知覚的に可視な輪郭の数が前記所与の閾値より大きい場合には、ステップ６３５−２において、C_H[i]値は指定されたきざみだけ増加させられ（たとえば5だけまたは10だけ）、プロセスが繰り返される。シーン内の全フレームが処理され終わったら、そのシーンのダイナミック圧縮についてのC_H値が、すべての計算されたC_L[i]値のうちの最大値として選択される。

〈可視性閾値に基づくFCDメトリック〉
図７Ａ、７Ｂおよび７Ｃは、可視性閾値に基づくある実施形態に従ってステップ５４０、６３５−３または６３７−３においてFCDメトリックを計算するもう一つの例示的なプロセスを描いている。先の議論と同様に、このメトリックも、式(17)によって計算される、接続されたβ_i＝1コンポーネント（たとえばθ_k）に基づくが、すべての接続されたコンポーネントを数える代わりに、局所的な可視性コントラスト閾値より大きなエッジ・コントラストをもつ接続されたコンポーネントのみをカウントする。

図７Ａに描かれるように、ステップ７２０および７３０は、ステップ５２０および５３０と同様に、たとえば式(14)〜(17)を使って接続されたβ_i＝1コンポーネントの数を計算するために使われる。そのような接続されたコンポーネントの例（７９５）が図７Ｂに描かれている（７９０）。

各接続されたコンポーネント（たとえば７９５）について、図７Ｂは、そのエッジを横断してガンマ補正されたルミナンス値を計算する例示的なプロセスを描いている（ステップ７４０）。接続されたコンポーネントの各エッジのまわりのピクセル窓（たとえば3×3または5×5）を使って、ステップ７４０−１Ａおよび７４０−１Ｂはまず、エッジのまわりの領域１および２において平均コード（ピクセル）値を計算する。ある例示的な実施形態では、平均コード値は、関連するピクセル値のルミナンス成分（たとえばYCbCrにおけるY）についてのみ計算されてもよい。

次に、ステップ７４０−２Ａおよび７４０−２Ｂにおいて、平均コード値がガンマ補正されたルミナンス値L₁およびL₂に変換される。多様な標準的ディスプレイ構成モデルに基づいてガンマ補正されたルミナンス値を計算する多くの代替がある。ある実施形態では、

であり、ここで、V_avgは平均コード値であり、γはガンマである。

ルミナンス値L₁およびL₂を与えられて、ステップ７５０はエッジ・コントラストC_Eを次のようにして計算しうる。

図７Ｃは、ステップ７６０において局所的なコントラスト閾値を計算する例示的なプロセスを描いている。ステップ７６０−５において、局所的な光適応レベルL_Aが次にように計算されうる。

この局所的な光適応レベルおよび他のシステム・パラメータに基づいて、ステップ７６０−１０において、コントラスト感度関数（CSF）モデル（たとえばCSF ７６０−１５）が計算される、あるいは好適な事前計算されたモデルのファミリーから選択される。CSFモデルを与えられて（たとえば７６０−１５）、コントラスト感度値S_Cが導出される。いくつかの実施形態では、S_Cはピーク・コントラスト感度（たとえば７６０−１５におけるP_CS）として定義されてもよい。他の実施形態では、S_Cはコントラスト感度関数のY切片（たとえば７６０−１５におけるS_CS）として定義されてもよい。ステップ７６０−２０では、計算された局所的なコントラスト感度値S_Cを与えられて、局所的なコントラスト閾値は次のように計算されてもよい。

図７Ａに戻ると、接続されたコンポーネントの一つについてC_EおよびCT_L値が計算されるステップ７５０および７６０ののち、ステップ７７０では、これら二つの値が比較される。C_Eが局所的なコントラスト閾値より大きい場合には、考察対象の接続されたコンポーネントは知覚的に可視であると考えられ、ピクチャーまたはフレーム全体についてのFCDカウントが1だけインクリメントされ、そうでない場合には、接続されたコンポーネントは知覚的に可視とは考えられず、カウントされず、プロセスはステップ７４０に戻る。最後には、最終的なFCDメトリックは、ピクチャーにおける潜在的な知覚的に可視の偽輪郭の総数を表わす。

一様量子化器について本稿に記載された方法は、非一様量子化器のような他の型の量子化器に簡単に拡張できる。もとの入力範囲[v_L,v_H]をi＝1,2,……,pについてp個の重なり合わない入力範囲[v_Li,v_Hi]に分割することによって、偽輪郭アーチファクトを防止する問題は、各入力セグメント内のFCDメトリック（たとえばFCD_i）が所与の閾値以下となるようi＝1,2,……,pについて一組のパラメータPi、たとえばP_i＝{C_Hi,C_Li}を同定する問題として表現できる。

〈例示的なコンピュータ・システム実装〉
本発明の実施形態は、コンピュータ・システム、電子回路およびコンポーネントにおいて構成されたシステム、マイクロコントローラのような集積回路（IC）デバイス、フィールド・プログラマブル・ゲート・アレイ（FPGA）または他の構成設定可能またはプログラム可能な論理デバイス（PLD）、離散時間またはデジタル信号プロセッサ（DSP）、特定用途向けIC（ASIC）および／またはそのようなシステム、デバイスまたはコンポーネントの一つまたは複数を含む装置をもって実装されてもよい。コンピュータおよび／またはICは、本稿に記載されたもののような偽輪郭の検出および防止に関係する命令を実行、制御または執行してもよい。コンピュータおよび／またはICは、本稿に記載されるような偽輪郭の検出および防止に関係する多様なパラメータまたは値の任意のものを計算してもよい。画像およびビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェアおよびそれらのさまざまな組み合わせにおいて実装されてもよい。

本発明のある種の実施形態は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータ・プロセッサを有する。たとえば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどにおける一つまたは複数のプロセッサが、プロセッサにとってアクセス可能なプログラム・メモリ中のソフトウェア命令を実行することによって上記の偽輪郭生成アーチファクトを検出および防止する方法を実装してもよい。本発明は、プログラム・プロダクトの形で提供されてもよい。プログラム・プロダクトは、データ・プロセッサによって実行されるときにデータ・プロセッサに本発明の方法を実行させる命令を含む一組のコンピュータ可読信号を担持する任意の媒体を含んでいてもよい。本発明に基づくプログラム・プロダクトは、幅広い多様な形のいずれであってもよい。プログラム・プロダクトは、たとえば、フロッピーディスケット、ハードディスク・ドライブを含む磁気データ記憶媒体、CD-ROM、DVDを含む光学式データ記憶媒体、ROM、フラッシュRAMを含む電子的データ記憶媒体などといった物理的な媒体であってもよい。プログラム・プロダクト上のコンピュータ可読信号は任意的に、圧縮または暗号化されてもよい。

上記においてコンポーネント（たとえばソフトウェア・モジュール、プロセッサ、組立体、デバイス、回路など）に言及されるとき、特に断りのない限り、そのコンポーネント（「手段」への言及も含め）は、本発明の例解される例示的な実施形態において当該機能を実行する開示されている構造と構造的に等価でないコンポーネントも含め、記載されるコンポーネントの当該機能を実行する（たとえば機能的に等価な）任意のコンポーネントをそのコンポーネントの等価物として含むものと解釈されるべきである。

〈等価物、拡張、代替その他〉
このように、VDRシーケンスを符号化する際に偽輪郭を検出および防止することに関係する例示的な実施形態が記述されている。以上の明細書では、本発明の諸実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。

Claims

入力画像を変換する方法であって：
ａ）画像のシーケンス内の、第一のダイナミックレンジをもつ入力画像を受領する段階と；
ｂ）前記入力画像を第二の画像に変換する段階であって、前記第二の画像は前記第一のダイナミックレンジより小さい第二のダイナミックレンジをもち、前記変換は、一つまたは複数のパラメータをもつダイナミックレンジ圧縮関数に基づく、段階と；
ｃ）前記入力画像および前記第二の画像から残差画像を計算する段階と；
ｄ）前記残差画像が少なくとも一つの偽輪郭をもつかどうかを判定する段階と；
ｅ）前記残差画像が少なくとも一つの偽輪郭をもつと判定した際に、前記パラメータのうちの少なくとも一つを調整する段階とを含み、
前記判定する段階ｄ）がピクセル・レベルの検出方法およびピクチャー・レベルの検出方法を含み、
前記ピクセル・レベルの検出方法は、前記残差画像中のそれぞれのピクセルの周辺領域内の全ピクセルの正規化された標準偏差のそれぞれの中央値に基づいてピクセル・レベルの偽輪郭指標を計算することを含み、
前記ピクチャー・レベルの検出方法は、一つまたは複数のピクセル・レベルの偽輪郭指標に基づいて前記残差画像の諸ブロックについて計算されたブロック・レベルの偽輪郭指標のいくつかの接続されているものに応じて偽輪郭検出（FCD）メトリックを計算することを含む、
方法。
前記少なくとも一つの偽輪郭のカウントが最小にされるまで段階ｂ）ないし段階ｅ）を繰り返すことをさらに含む、
請求項１記載の方法。
前記少なくとも一つの偽輪郭のカウントがある閾値より下に低下させられる、請求項２記載の方法。
前記入力画像が視覚的ダイナミックレンジ（VDR）画像である、請求項１記載の方法。
前記第二の画像を圧縮して基本層信号にする段階と；
前記入力画像および前記第二の画像から導出される画像を圧縮して一つまたは複数の向上層信号にする段階とをさらに含む、
請求項１記載の方法。
前記ダイナミックレンジ圧縮関数が一様量子化器を有し、前記パラメータが低い量子化された値（C_L）および高い量子化された値（C_H）を有する、請求項１記載の方法。
前記残差画像を計算する段階が：
前記第二の画像にダイナミックレンジ伸張関数を適用して予測された入力画像を生成する段階と；
前記入力画像と前記予測された入力画像との間の差として前記残差画像を計算する段階とを含む、
請求項１記載の方法。
前記ピクセル・レベルの検出方法が：
前記残差画像中の各ピクセルについて：
当該ピクセルを囲むピクセルの周辺領域を定義する画定する段階と；
前記周辺領域内の全ピクセルの標準偏差を計算する段階と；
前記標準偏差に基づいて前記周辺領域内の全ピクセルの正規化された標準偏差を計算する段階と；
前記周辺領域における前記標準偏差に基づいて中央値標準偏差を計算する段階と；
前記中央値標準偏差および一つまたは複数の閾値に基づいてピクセル・レベルの偽輪郭指標を計算する段階とを含む、
請求項１記載の方法。
前記ピクチャー・レベルの検出方法が：
前記残差画像を重なり合わないブロックに分割する段階と；
各ブロックについて、一つまたは複数のピクセル・レベルの偽輪郭指標に基づいてブロック・レベルの偽輪郭指標を計算する段階と；
前記ブロック・レベルの偽輪郭指標に基づいていくつかの接続されたブロック・レベルの偽輪郭指標を導出する段階と；
前記いくつかの接続されたブロック・レベルの偽輪郭指標および少なくとも一つの閾値の関数として偽輪郭検出（FCD）メトリックを導出する段階とを含む、
請求項１記載の方法。
少なくとも一つのピクセル・レベルの偽輪郭指標が請求項９記載の方法に従って計算される、請求項９記載の方法。
入力画像を変換する方法であって：
シーン内の視覚的ダイナミックレンジ（VDR）画像のシーケンスを受領する段階と；
前記シーン内の各VDR画像iについて、
i番目のVDR画像をi番目の標準ダイナミックレンジ（SDR）画像に変換する段階であって、i番目のSDR画像はi番目のVDR画像より小さいダイナミックレンジをもち、前記変換は画像に依存するパラメータC_L[i]およびC_H[i]をもつ一様なダイナミックレンジ圧縮関数に基づく、段階と；
ａ）前記C_L[i]およびC_H[i]を初期値に設定する段階と；
ｂ）前記i番目のVDR画像および前記i番目のSDR画像を使ってi番目の残差画像を計算する段階と；
ｃ）前記i番目の残差画像が少なくとも一つの偽輪郭をもつかどうかを判定する段階と；
ｄ）前記i番目の残差画像が少なくとも一つの偽輪郭をもつと判定した際に、前記画像に依存するパラメータC_L[i]およびC_H[i]の少なくとも一方を調整する段階と；
前記少なくとも一つの偽輪郭のカウントが最小にされるまで段階ｂ）ないし段階ｄ）を繰り返す段階と；
すべての計算された画像に依存するC_H[i]パラメータのうちの最大に基づいて前記シーン全体についてのシーン依存のC_H値を計算する段階と；
すべての計算された画像に依存するC_L[i]パラメータのうちの最小に基づいて前記シーン全体についてのシーン依存のC_L値を計算する段階と；
前記一様なダイナミックレンジ圧縮関数および前記シーン依存のC_HおよびC_Lパラメータを使って、前記シーン内のすべてのVDR画像をSDR画像に変換する段階とを含み、
前記判定する段階ｃ）が、前記i番目の残差画像内のピクセルの周辺領域内の全ピクセルの正規化された標準偏差の中央値に基づいてピクセル・レベルの偽輪郭指標を計算することを含む、
方法。
段階ａ）の前に、前記シーン内のすべてのVDR画像に高クリッピング・モードまたは低クリッピング・モードを適用するかを決定する段階をさらに含む、
請求項１１記載の方法。
高クリッピング・モードでは、段階ｄ）において、前記C_H[i]パラメータのみが増大させられ、低クリッピング・モードでは、段階ｄ）において、前記C_L[i]パラメータのみが減少させられる、請求項１２記載の方法。
高クリッピング・モードを適用するかの前記決定が前記シーンについてのひずみ度の値を計算することに基づき、前記ひずみ度は正である、請求項１２記載の方法。
低クリッピング・モードを適用するかの前記決定が前記シーンについてのひずみ度の値を計算することに基づき、前記ひずみ度は負である、請求項１２記載の方法。
前記i番目のSDR画像に基づく基本層および一つまたは複数の向上層を使って前記シーン内の前記i番目のVDR画像を圧縮する段階をさらに含む、請求項１１記載の方法。
段階ｄ）およびｅ）において、前記少なくとも一つの偽輪郭が知覚的に可視である、請求項１記載の方法。
段階ｃ）において、前記少なくとも一つの偽輪郭が知覚的に可視である、請求項１１記載の方法。
前記ピクチャー・レベルの検出方法が：
前記残差画像を重なり合わないブロックに分割する段階と；
各ブロックについて、一つまたは複数のピクセル・レベルの偽輪郭指標に基づいてブロック・レベルの偽輪郭指標を計算する段階と；
前記ブロック・レベルの偽輪郭指標に基づいていくつかの接続されたブロック・レベルの偽輪郭指標を導出する段階と；
前記いくつかの接続されたブロック・レベルの偽輪郭指標のそれぞれの一偽輪郭指標について、
エッジ・コントラストおよび局所的なコントラスト閾値を計算する段階と；
前記エッジ・コントラストが前記局所的なコントラスト閾値より大きい場合に、前記いくつかの接続されたブロック・レベルの偽輪郭指標の前記一偽輪郭指標が知覚的に可視であるかと判定する段階とを含む、
請求項１記載の方法。
知覚的に可視である前記いくつかの接続されたブロック・レベルの偽輪郭指標および少なくとも一つの閾値の関数として、偽輪郭検出（FCD）メトリックを導出する段階をさらに含む、請求項１９記載の方法。
前記エッジ・コントラストを計算する段階が、前記いくつかの接続されたブロック・レベルの偽輪郭指標の前記一偽輪郭指標のエッジの両側のルミナンスを計算することに基づく、請求項１９記載の方法。
前記局所的なコントラスト閾値を計算する段階が、一つまたは複数のシステム・パラメータおよびコントラスト感度関数に基づく、請求項１９記載の方法。
プロセッサを有しており、請求項１ないし２２のうちいずれか一項記載の方法を実行するよう構成されている装置。
請求項１ないし２２のうちいずれか一項記載の方法を実行するためのコンピュータ実行可能命令が記憶されているコンピュータ可読記憶媒体。