JP2005032210A

JP2005032210A - 場面分類を改善するために空間的で一時的な画像の再構成を効果的に使用する方法

Info

Publication number: JP2005032210A
Application number: JP2003358021A
Authority: JP
Inventors: Jiebo Luo; ルオジエボ; Robert T Gray; テリーグレイロバート; Matthew R Boutell; アールブーテルマシュー
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 2002-10-31
Filing date: 2003-10-17
Publication date: 2005-02-03

Abstract

【課題】本発明の目的は、場面分類を改善するために入力デジタル画像の多数の再構成された変形を使用する方法を提供する。
【解決手段】（ａ）画像の提供段階と、（ｂ）画像の拡張されたセットを生成するために画像の系統的な再構成段階と、及び（ｃ）画像の拡張されたセットが少なくとも一つの改善されたクラシファイヤー及び改善された分類結果を提供する、画像における画像分類を決定するためにクラシファイヤーと画像の拡張されたセットを使用する段階とからなるデジタル画像の画像分類を改善する方法。
【選択図】図９

Description

本発明は、一般的にデジタル画像処理の分野に関し、より詳細には、場面分類を改善するために入力デジタル画像の多数の再構成された変形を使用する方法に関する。

任意の画像を意味のある分類（例えば、夕焼け、ピクニック、砂浜など）で自動的に決定することは困難である。最近では多くの研究が行われており、また、様々なクラシファイヤー及び特徴のセットが提案されている。そのようなシステムにおける最も共通の設計は、低レベルの特徴（例えば、色、テキスチャなど）及び統計的なパターン認識技術を使用している。かかるシステムはトレーニングセット（例えば、非特許文献１を参照。）からの学習パターンに依存する見本に基づく。かかる見本に基づくシステムは、種類の特徴が人間の知識を使用して直接的に特定される、モデルに基づくシステムか、又はモデルが学習されるハイブリッドシステムと対照的である。

意味的のある場面分類は、内容に基づいた画像構成及び検索（ＣＢＩＲ）の性能を改善することができる。多数の現行のＣＢＩＲシステムは、類似性が色又はテキスチャの特性によってのみしばしば確定される場合において、ユーザが画像を特定し、その特定した画像に似ている画像を探索することを可能にする。このいわゆる「具体例による問合せ」は、不適当であることが頻繁に証明されている。場面のカテゴリーを最初から知ることは、探索空間を劇的に狭くすることを援助する。例えば、パーティー場面の構成を知ることは、「メアリーの誕生パーティーの写真を見つける」という質問に答える、我々の探索においてパーティ場面だけを考慮することを可能にする。このように、探索時間は減じられ、ヒット率はより高く、さらに、誤った警告率がより低いと予想される。

現行の場面分類システムは、拘束がない画像セットの制限のある成功を享受する。何がこの理由であるかというと、主な理由は、最も意味のある分類内に見られる信じられないほどの種類の画像であるように思える。見本に基づくシステムは、トレーニングセットにおけるそのような変化を説明するに違いない。たとえ何百もの見本は、いくつかの種類で固有なすべての変動性を必ずしも捕らえない。具体例として夕焼け画像の分類を挙げた場合、夕焼けの様々な段階で撮像された夕焼けの画像は、太陽が地平線に接近するにつれて色はより光り輝くようになり、次いで、時間が経つにつれて退色する傾向があるので、色が非常に異なりうる。さらに、構成は、地平線又は空のみを包含するか？地平線に関して太陽の位置はどこか？太陽は中心にあるか、又は一方にオフセットされているか？によって、カメラの視野の部分により一様ではない。

見本に基づく分類における限定された成功の第二の理由は、画像は、場面にそれほど原型でないように見えて、したがって、トレーニング見本のうちのどれとも十分に一致しない、過度の前景領域又は混乱させる前景領域を頻繁に含んでいることである。例えば、図１は、混乱させる前景領域を備える４つの場面（ａ）乃至（ｄ）を示す。これは、典型的なカメラの使用者が、専門の写真家よりも構成及び光に対してそれほど注意を払わない際に、カメラ使用者の画像において特に真実である。したがって、カメラ使用者の画像は、この領域で使用される場合に多くの既存システムにおける高性能（コレル（Ｃｏｒｅｌ）データベースなどの専門的に撮像されたストックフォトライブラリで）を引き起こす、多大な変動性を含む。

結果的に、画像分類において上で記載された問題を克服する方法を提供する必要がある。これらの問題は、空間的な画像再構成の概念の導入により提案され、不適当な構成（つまり、前景物）の衝撃を最小限にするように設計され、さらにシミュレートされたか又は効果的で一時的な画像再構成の衝撃を最小限にするように設計され、時間とともに発生する変色作用を最小限にするように設計される。

このアプローチは他の領域における過去の成功に支持される。顔の認識及び検出では、研究者は、幾何学的な変化を処理するためにトレーニングで顔の混乱された変形を使用した（例えば、非特許文献２参照。）。これは、再サンプリングすること、又はブートストラッピングに関係がある。加えて、バッギング（ｂａｇｇｉｎｇ）（積極的なブートストラップ）は、異なる構成要素のクラシファイヤーをトレーニングするためにトレーニングセットの多数の変形を使用し、最終の分類決定は個々の構成要素におけるクラシファイヤーの選択に基づく（例えば、非特許文献３参照。）。
Ａ．Ｖａｉｌａｙａ，Ｍ．Ｆｉｇｕｅｉｒｅｄｏ，Ａ．Ｊａｉｎ，Ｈ．Ｊ．Ｚｈａｎｇ著、「Ｃｏｎｔｅｎｔ−ｂａｓｅｄｈｉｅｒａｒｃｈｉｃａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｖａｃａｔｉｏｎｉｍａｇｅｓ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａＣｏｍｐｕｔｉｎｇａｎｄＳｙｓｔｅｍｓ，１９９９Ｈ．Ｒｏｗｌｅｙ，Ｓ．Ｂａｌｕｊａ，Ｔ．Ｋａｎａｄｅ著、「Ｒｏｔａｔｉｏｎｉｎｖａｒｉａｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ−ｂａｓｅｄｆａｃｅｄｅｔｅｃｔｉｏｎ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１９９８Ｒ．Ｏ．Ｄｕｄａ，Ｐ．Ｅ．Ｈａｒｔ，Ｄ．Ｇ．Ｓｔｏｃｋ著、「ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ」、ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ、ニューヨーク、２００１年、ｐｐ．４７５−４７６Ｒ．Ｐ．Ｗ．Ｄｕｉｎ著、「Ｔｈｅｃｏｍｂｉｎｉｎｇｃｌａｓｓｉｆｉｅｒ：Ｔｏｔｒａｉｎｏｒｎｏｔｔｏｔｒａｉｎ？」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００２Ｂ．Ｓｃｈｏｌｋｏｐｆ，Ｃ．Ｂｕｒｇｅｓ，ａｎｄＡ．Ｓｍｏｌａ著、「ＡｄｖａｎｃｅｓｉｎＫｅｒｎｅｌＭｅｔｈｏｄｓ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＬｅａｒｎｉｎｇ」ＭＩＴＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，ＭＡ，１９９９，ｐｐ．２６３−２６６Ｙ．ＷａｎｇａｎｄＨ．Ｚｈａｎｇ著、「Ｃｏｎｔｅｎｔ−ｂａｓｅｄｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎｗｉｔｈｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＷｏｒｋｓｈｏｐｏｎＣｏｎｔｅｎｔ−ＢａｓｅｄＡｃｃｅｓｓｏｆＩｍａｇｅａｎｄＶｉｄｅｏＬｉｂｒａｒｉｅｓ，２００１

本発明の目的は、上に記載の一つ以上の問題を克服することを導き、場面分類を改善するために入力デジタル画像の多数の再構成された変形を使用する方法を提供することである。

本発明の一つの態様によると、（ａ）画像の提供段階と、（ｂ）画像の拡張されたセットを生成するために画像の系統的な再構成段階と、及び（ｃ）画像の拡張されたセットが少なくとも一つの改善されたクラシファイヤー及び改善された分類結果を提供する、画像における画像分類を決定するためにクラシファイヤーと画像の拡張されたセットを使用する段階とからなるデジタル画像の画像分類を改善する方法を提供する。

本発明は、ロバストクラシファイヤーを引き出すトレーニング見本の拡張したセットを生成するために見本画像の再構成された変形を系統的に生成する方法か、又はロバストな画像分類結果を引き出す同じ顕著な特性を備えた拡張したテスト画像セットを生成するためにテストする入力デジタル画像の再構成された変形を系統的に生成する方法のいずれか（若しくは両者）の方法を提供する。これは、トレーニング見本の多様性を増加させて、見本と画像のよりよい一致を容認し、よりロバストな画像分類を得る方法の提供という長所を有する。

本発明の効果は、場面分類を改善するために入力デジタル画像の多数の再構成された変形を使用する方法を提供することができる。

本発明は、プログラム化されたデジタルコンピュータで実行するように記載されるだろう。デジタル画像処理及びソフトウェアプログラミングの当業者は、下記の記載から本発明を実行するようにコンピューターをプログラムすることができるだろう。本発明は、機械可読式コンピューターコードを保持する磁気又は光記憶媒体のようなコンピューターが読取り可能な記憶媒体を有するコンピュータプログラム製品で具体化されるかもしれない。代替として、本発明はハードウェア又はファームウェアで実行されてよい。

意味のある場面分類における高性能に対する大きな障害は、各種類における画像の色及び構成の両方に関する、広大な変化である。特に種類が多くの変化を含んでいる場合、見本に基づいたシステムのために十分なトレーニングデータを得ることは困難な作業であるかもしれない。高品質で原型画像の多数を手動で集めることはテーマで保存されたフォトライブラリの助けを借りてさえ時間を消費する。したがって、すべて利用可能なトレーニングデータを効率的に使用することが重要である。

さらに、画像がその色及びその構成の両者において、その種類の見本と一致する場合、トレーニング見本のセットを備えたテスト画像の最良の一致が発生する。しかしながら、テスト画像はトレーニングセットに存在しない変化を含んでよい。一致の程度は、写真家が選択する撮像する画像（画像構成に影響する）及び撮像する時間（時間の経過で場面の照らしの変化により潜在的に画像の色に影響する）によって影響される。もし場面を「再現」することが可能ならば、種類において、より原型の色及び構成を備えた画像を得ることを試みることができるだろう。例えば、図２（ａ）乃至（ｄ）を参照するに、オリジナル場面（図２（ａ））は、クロップされてリサイズされた（図２（ｃ））、顕著なサブ領域を含む。最終的に、図２（ｄ）において、照らしのシフトはその後発生する日没をシミュレートして適用される。どのようにして場面を「再現」できるのであろうか？換言すると、どのようにして、任意の画像を原型の見本と良好に一致するであろう画像に変換できるのであろうか？
本発明によると、効果的な空間及び一時的な再構成と呼ばれる概念は上の問題を提示するために使用される。一般的に、画像の再構成は、空間的な再構成及び色構成を含む、同一画像の改変された変形を系統的に創生する、プロセスとして定義される。空間的な再構成（反映及びクロップ画像）及び効果的である（シミュレートされた）一時的な再構成（画像色のシフト）の異なるタイプ並びに使用は、表１に表され、下記により詳細に説明される。それらは、トレーニングと、テストと、及び両者での再構成として分類される。数多のタイプと使用の組み合わせは、かかる再構成がトレーニング見本の完全性を破壊しないことを保証するために目視検査を必要とする（例えば、積極的なクロップは、ピクチャーの主要な被写体の損失に帰着するかもしれない。）。

トレーニングでの再構成
トレーニングデータの限定されたサイズセットで再構成を用いることは、見本のより豊富で、より多様なセットを生じうる。目標は、各画像を視覚的に検査する必要なしに、これらの見本を得ることである。１つの技術は垂直軸に関する各画像を反射することで、それによって、見本の数を倍にする。例えば、図３（ａ）乃至３（ｃ）に示されるように、オリジナル画像（３（ｂ））は、水平な反映（３（ａ））又はクロップ（３（ｃ）に示されるように底部から２０％）によって変換される。明らかに、新規画像の分類は変っておらず、すなわち、画像の左側の太陽の夕焼け画像が右側に太陽を移動させる一方、画像は有効な夕焼け画像のままである。

別の技術は画像のエッジをクロップすることである。画像の顕著な部分が中心にあり、不完全な構成は周囲の混乱によって引き起こされると仮定される。画像の各側から順番にクロップすることは、同一分類の４つの新しい画像を生ずる。当然のこととして、画像の顕著な部分を失いたくはないが、例えば、１０％のわずかな保守的なクロップにおいて、アルゴリズムによる分類は変わるかもしれないが、場面の意味のある分類が変化することはほとんどありそうもない。

テストでの再構成
トレーニングセットの再構成はさらに見本を生じるが、テスト画像を再構成して新たに各々を分類し、再構成された画像はオリジナル画像の複合的な分類を生じる。空間的な再構成に関すると、見本に対してテスト画像の特徴を良好に一致する目的において、画像のエッジはクロップできる。そのような一致を獲得するために、より積極的に（図２に示されるように）クロップすることが必要であるかもしれない。しかしながら、クラシファイヤーが反映画像を用いてトレーニングする場合、クラシファイヤーに既に組み込まれた対称によりテスト画像を反映する必要はない。例えば、１−ＮＮクラシファイヤーを使用した場合、テスト画像の特徴ベクターＴは、最も近い例のベクターＥから、ある距離で位置するだろう。反映された画像Ｅ及びＴ、Ｅ´及びＴ´のベクターをそれぞれ呼び出す。特徴の対称性により、ｄ（Ｅ、Ｔ）＝ｄ（Ｅ´、Ｔ´）であり、Ｔ´を余分にする。

画像のいくつかの種類は、その画像種類の世界における色分配で多大な変化を含んでおり、テスト画像の全体的な色を変えることは、トレーニング見本との良好な一致を適切に生じるかもしれない。実施例として夕焼け画像の分類を用いて、早い段階の夕焼けと後の段階の夕焼けは、色の同一の空間的な分配（暗い前景上の明るい空）を有するかもしれないが、しかし、早い段階の全体の見た感じは、場面の照らしにおける色の変化により、より冷淡である。より暖色側へ向かい輝度（赤−青）軸に沿って色を人為的に変更することによって、我々は、後に撮像する画像の見た目をシミュレートすることができ、我々は、これを照らしのシフトにおける効果的な一時的な再構成と称する。例えば、図４（ａ）乃至４（ｆ）に示されるように、ボタンが写真停止の０．４に等しい場合、一時的な再構成は、−６ボタン（図４（ａ））から開始して＋９ボタン（図４（ｆ））で終了する、３ボタンの増分における一連の照らしのシフトを有する。同様にして、場面における光量内の変化は、輝度軸に沿った変化を使用して処理できる。他の軸に沿った色の変化は、別の問題の領域で適用してよい。

空間的又は一時的な再構成のいずれかを使用して、クラシファイヤーはオリジナル画像と同一種類で新規の再構成画像を標識してもしなくてもよい。再構成された画像の分類が異なる場合をどのように判断するのであろうか？ドゥイン（Ｄｕｉｎ）は、固定化された及びトレーニングされた、２タイプのコンバイナーを議論する（Ｒ．Ｐ．Ｗ．Ｄｕｉｎ著、「Ｔｈｅｃｏｍｂｉｎｉｎｇｃｌａｓｓｉｆｉｅｒ：Ｔｏｔｒａｉｎｏｒｎｏｔｔｏｔｒａｉｎ？」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２００２を参照のこと）。固定された組み合わせ規則は、スキームの選択及びスコアの合計又は平均の使用を含む。トレーニングされたコンバイナーは、単一のスコアにスコアをマッピングするための第二のクラシファイヤーである。２つの考慮は、トレーニングデータの利用性及び基礎のクラシファイヤーがトレーニングされている度合いを使用する選択に影響する。ドゥインは、トレーニング中のクラシファイヤーがトレーニングされたコンバイナーから利益を得ることができる一方、過度なトレーニング（例えば、サポートベクターマシン（ＳＶＭｓ））はできないことを提案する。今日の研究において、これは、その事例（例えば、第二段階ＳＶＭは支援しない）であると分かった。

２種類の問題において、ｒ再構成の関心のある固定されたコンバイナーは、ｍ番目のオーダー統計、例えば、最大（ｍ＝１）、２番目に大きい（ｍ＝２）、又は中間（ｍ＝ｒ／２）を使用する。パラメータｍの変化は、操作曲線におけるクラシファイヤーの位置を移動する。小さなｍは、より多くの誤りのポジを犠牲にしてより大きなリコールを与え、積極的な手法で画像を積極的に分類する。ｍの選択は、明らかに適用に依存するであろう。

さらに、スコアは、最も一貫した画像分類を見つけるような手法で組み合わせできる。例えば、スキームのボートは組合せのために使用できる。これは望ましく、同一の顕著な場面内容を備える多数のわずかに変更された再構成画像に基づく分類は、オリジナル画像だけに基づく分類よりもよりロバストであるべきである。オリジナル画像に基づく単一の分類は、いくらかの統計上の不規則性（例えば、前景の混乱又は見本セットを伴う不十分な空間的な登録）により不正確であり、さらに多くの再構成画像は正確に分類され、大多数の規則は不規則性を修正するだろう。

トレーニング及びテストの両者における再構成
数多の適用において、再構成は、トレーニング及びテストデータの両者において使用されてよい。各々が異なる目的に役立つために、それらは容易に組み合わせされてよい。両タイプの再構成を使用する必要を質問するかもしれない。すなわち、もしトレーニング見本の十分に豊富なセットを有するのであれば、テスト画像の再構成はなぜ必要だろうか。トレーニング及びテストの両方での再構成を使用する必要は実際的である。トレーニングデータは開始するように十分に多様であるか、又はトレーニング見本の再構成が完全にあらゆる変化を創生しており、完全に画像空間を満たすという保証はない。

関連した問題は、トレーニング画像の再構成と追加的な独特の見本の獲得との間の選択である。良好なトレーニングデータの欠如に関する初期の議論及びデータを集めるのに必要な時間は別にして、さらに有効なデータ特性の問題がある。原型の見本のわずかなセットの再構成は、もっと使用するが質が劣っている見本よりもさらに望ましいだろう。

加えて、トレーニングでの再構成の上部におけるテストでの再構成の使用は、潜在的に高い誤りの警告率を犠牲にしているが、所望であれば、確かにリコールをブーストする方法である。

最後の問題は、より積極的なアプローチが、テストデータを再構成する必要を最小限にするためにトレーニングデータを再構成するのに使用されるかどうかである。積極的な再構成が画像から顕著な内容を失わことができるので、拡張したトレーニングセットの完全性が圧縮されないことを保証するべきであり、その議論はこれを正確に行なうための技術となる。

トレーニングでの準管理された再構成
トレーニングセットで保守的な再構成を使用する我々の目的は、完全に管理されていない処理をなすことである。しかしながら、さらにトレーニングデータが所望であり、多大なクロップ又は著しい色のシフトなどの積極的な再構成が使用される場合、すべての再構成された画像を検査する反対の極に向かう必要がないように、トレーニング方法論が必要である。

明白に、いくつかの積極的な再構成が画像の種類に対してある場面内容の特性を移動できるので、トレーニングデータにこれらの画像を加えることに対する正確なアプローチは、再構成されたトレーニング画像の各々を視覚的に検査することだろう。そうすることは退屈で面倒になりうる。注意を必要とする、再構成された画像のサブセットを検査するだけのことが、より効率的だろう。再構成された画像を映すために、オリジナルのトレーニング画像を用いてクラシファイヤーをトレーニングでき、次いで、クラシファイヤーを用いてトレーニング画像の再構成された形態を分類する。再構成が画像から顕著な場面内容を失わせる場合を決定するために、クラシファイヤーを失敗する（又は低い確信で通過する）再構成された画像だけを視覚的に評価する必要がある。次いで、そのような再構成された画像は削除される一方、残存の再構成画像は、その豊富さを改善するために拡張されたトレーニングセットに加えられる。これは、管理されない手法で少数の再構成された画像の生成と、完全に管理された方法で多数の再構成された画像の生成との間の好ましい交換である。

次ぎに、本発明の好ましい夕焼けの検出と、野外景色の分類と、及び自動的な画像配位検出との３つの実施態様がそれぞれ記載される。

夕焼けの検出
特許文献１によって記載された前述の階層的画像分類スキームで、夕焼けは容易に山脈／森林景色と分離された。色は夕焼けがそれらの光り輝く暖色によって認識可能であるという直観を確認して、エッジ方向が単独のように、他の特徴よりもかかる問題においてより顕著に感じられた。さらに、空間的な情報は、砂漠の岩形成などのような暖色を含んでいる他の景色と夕焼けを識別するために組込まれるべきである。したがって、空間的な色の瞬間は、７ｘ７グリッドを使用し、かつ、Ｌｕｖ変形された画像の各バンドの平均値及び変化を計算して、画像を４９領域に分割して使用されてもよい。これは、４９ｘ２ｘ３＝２９４の特徴を生じる。

サポートベクターマシン（ＳＶＭ）は、同様の問題（例えば、Ｂ．Ｓｃｈｏｌｋｏｐｆ，Ｃ．Ｂｕｒｇｅｓ，ａｎｄＡ．Ｓｍｏｌａ，ＡｄｖａｎｃｅｓｉｎＫｅｒｎｅｌＭｅｔｈｏｄｓ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＬｅａｒｎｉｎｇ，ＭＩＴＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，ＭＡ，１９９９，ｐｐ．２６３−２６６，及びＹ．ＷａｎｇａｎｄＨ．Ｚｈａｎｇ， “Ｃｏｎｔｅｎｔ−ｂａｓｅｄｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎｗｉｔｈｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ，” ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＷｏｒｋｓｈｏｐｏｎＣｏｎｔｅｎｔ−ＢａｓｅｄＡｃｃｅｓｓｏｆＩｍａｇｅａｎｄＶｉｄｅｏＬｉｂｒａｒｉｅｓ，２００１）においてラーニングベクタークオンタイザー（ＬｅａｒｎｉｎｇＶｅｃｔｏｒＱｕａｎｔｉｚｅｒｓ）（ＬＶＱ）（ＬｅａｒｎｉｎｇＶｅｃｔｏｒＱｕａｎｔｉｚｅｒｓ）などの他のクラシファイヤーよりも高性能であるために、クラシファイヤーとして好ましく使用される。特に、ＲＢＦスタイルクラシファイヤー（ＲＢＦ＝放射状の基礎的機能（ＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎ）、Ｗａｎｇ及びＺｈａｎｇを参照すること）を生成するガウスカーネル（Ｇａｕｓｓｉａｎｋｅｒｎｅｌ）が使用された。ＳＶＭは２クラスの問題のために設計されて、各テスト画像における実際の数を出力する。サインは分類で、確信の緩い手段として大きさを使用することができる。

セットがはるかに豊富だったので、トレーニングセットにおいて再合成を使用することは性能を著しく推測上増加させた。これは、制限のあるトレーニングセットを有する数多の作用を克服する。テストセットにおいて再構成を使用することは、打数及び誤りのポジ数の両方を増加させた。最終的に、トレーニングとテストの両者で再構成を使用することは、全体にわたって最良の結果を与えた。それらの結果は、異なる曲線における最適な操作ポイントに対応することを注意する。

テスト画像で空間的な再構成を使用することは、かなり混乱する前景領域を備えた夕焼け画像を正確に分類する目標を達成した。例えば、図１に表示された画像は、ベースラインシステムによってすべて不正確に分類されたが、しかし、再構成が使用された（再構成によって得られた）場合は正確に分類された。右上の画像（ｂ）は、クロップすることによる再構成がどのように助けになることができるかのよい例である。画像における前景の広大で暗い水の領域をクロップすることは、ＳＶＭスコアを実質的に増大する。他の画像も同様に行ない、例えば、左の画像（ａ）の底部から底を２０％クリップすることは、水に映る混乱させる反射を除去する。

しかしながら、誤りのポジ画像の数はまた、リコールにおける増進を部分的に相殺して増加した。再構成によって引き起こされた典型的な誤りのポジは、図５ａ及び５ｂに示される。それら画像の各々は、クロップした場合に、見た目をより夕焼けに似せて画像を生成する、夕焼けの典型的でないパターン（例えば、夜景での複合的な明るい領域又は砂漠景色での空）を含む。

数多の夕焼け画像は、原型の構成を有するが、早い段階又は後の段階の夕焼けに対応する弱色を有する。場面の照らしの「暖まる」これらの画像をシフトし、それら画像を正確に分類させ、また、それら両方が図６において示される、多くの誤りのポジを導入する。

野外景色の分類
上に記載のシステムは、砂浜、夕焼け、落ち葉、野原、山脈及び都市の６種類の野外景色を識別するために拡張される（図２で定義）。トレーニング及びテストのために使用された画像は、コレル（Ｃｏｒｅｌ）及びカメラ使用者の画像を含んでいた。ＳＶＭクラシファイヤーは１対すべてのアプローチ（Ｂ．Ｓｃｈｏｌｋｏｐｆ，Ｃ．Ｂｕｒｇｅｓ，ａｎｄＡ．Ｓｍｏｌａ，ＡｄｖａｎｃｅｓｉｎＫｅｒｎｅｌＭｅｔｈｏｄｓ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＬｅａｒｎｉｎｇ，ＭＩＴＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，ＭＡ，１９９９，ｐｐ．２５６−２５８を参照のこと）の使用により多数の種類まで拡張されたが、同じ特徴及びクラシファイヤーは夕焼け検出器のためのように使用される。トレーニングセットが未だ制限されていので、トレーニングで使用された場合、空間的な再構成は特に効果的であった。再構成はテストセットでは使用されなかった。

画像配位検出
自動的な画像配位検出（Ｙ．ＷａｎｇａｎｄＨ．Ｚｈａｎｇ， “Ｃｏｎｔｅｎｔ−ｂａｓｅｄｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎｗｉｔｈｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ，” ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＷｏｒｋｓｈｏｐｏｎＣｏｎｔｅｎｔ−ＢａｓｅｄＡｃｃｅｓｓｏｆＩｍａｇｅａｎｄＶｉｄｅｏＬｉｂｒａｒｉｅｓ，２００１を参照）の目的は、画像の上部が直面している方向に依存して、４つの磁針方向（Ｎ、Ｓ、Ｅ、Ｗ）のうちの１つに任意の画像を分類することである。画像内容だけに基づいてそうすることは、困難な問題である。好ましい実施態様において、Ｗａｎｇ等に類似して同様の結果を達成する、ベースラインシステムは空間的な色の瞬間と、１対すべてのＳＶＭクラシファイヤーを使用する。

テストでの再構成は、同様にこの領域の分類を改善すると予期できるが、しかし、その予測を使用するための論理的基礎は非常に異なり、画像エッジのクロップは、画像の知覚された配位に影響してはならない。したがって、多数のわずかに異なる画像に基づいた組合せの分類は、単一画像の分類よりもよりロバストであるべきである。固定された（選択）及びトレーニングされたコンバイナーの両者でテストして、各々の性能は比較可能であることが分かり、選択は性能の簡素化のために選択された。

この適用において、画像は、与えられた配位の画像を認識するために調整されたＳＶＭから各々４つのスコアで分類される。１対すべてのクラシファイヤーは、最大スコアを生じるＳＶＭに対応する配位で画像を分類する。この処理は９回繰り返され、画像の各クロップされた変形において一度である。かかる工程は、結束を断つためにスコアを使用して、９つの分類において最終的に選択する（結束は支配された単一の配位を意味しないが、画像は拒絶に対するよい候補である、つまり明白な配位がないことである）。選択スキームの実施例は、図７に与えられている。

再構成スキームを用いて得られたサンプルコレル画像は、図８に示される。それらの各々において、画像の境界における数多の領域は混乱している。暗い影（図８（ｃ））と、暗い木（図８（ｂ））と、太陽からの反射（図８（ｃ））とはすべてクラシファイヤーを混乱させ、明るいか又は暗い領域は画像の側面に現れて、上下には現れない。

画像再構成は、単一のクラシファイヤーだけが分類でトレーニングされ使用される主な区別を伴う、ブートストラップ又はバッグ方法の趣旨と同様である。画像分類問題に対するこのスキームの成功した適用の鍵は、かかる画像再構成が、最終分類でそれら分類を無視することができ、また、顕著な内容物は画像へのそのような混乱に対する不変であるような方法で画像において混乱する構成部分に単に影響するだろうということである。したがって、これは、再構成の適切な方法が、問題の領域及び使用される特徴／クラシファイヤーによって選択される限り、分類性能をブーストすることに対する一般的なアプローチである。

下記のガイドラインは、画像分類において画像再構成を使用する方法を決定することを支援するために提示される。第一に、トレーニングセットがまばらな場合、保守的で空間的な再構成の使用は非常に助けになるかもしれない。空間的及び一時的である両者のより積極的な再構成は、準管理された手法で行われるべきである。２つの種類の問題において、テスト画像の再構成は、適用への性能を修正するために使用することができる操作の曲線パラメーターを与えて、同じ種類の見本と良好な一致を引き起こす。多数の種類の問題では、再構成された画像の分類中に選択することは、よりロバストである。明らかに、種類がトレーニングデータで良好に分離されてテスト画像が見本と良好に一致する理想的な場合、再構成は多大に支援することを期待しない。

図９は、本発明によるデジタル画像の場面分類を改善するための方法を示す。最初に、見本画像１０又は入力テスト画像１２のいずれかが入力段階１４に提供され、次いで、発明の詳細な記載で記述したように、空間的な再構成アルゴリズム１８又は一時的な再構成アルゴリズム２０のいずれか（又は両者）にしたがって画像が系統的に再構成される、再構成段階１６に適用される。再構成の結果は、見本画像２４の拡張されたセット又はテスト画像２６の拡張されたセットのいずれか（又は両者）であろう、入力画像（見本又はテスト画像）の種類に依存する、画像２２の拡張されたセットである。画像の拡張されたセットが見本画像である場合、画像の拡張されたセットはトレーニング段階２８のクラシファイヤーでトレーニングするために使用され、それによって、本発明による改善されたクラシファイヤーを提供する。画像の拡張されたセットがテスト画像である場合、画像の拡張されたセットはクラシファイヤー段階３０で使用され、それによって、本発明による改善された画像分類の結果を提供する。トレーニング段階２８と分類段階３０とを接続する点線３２で示されるように、見本画像２４の拡張されたセットから結果となる改善されたクラシファイヤーは、全体にわたる改善された分類結果を提供するために、テスト画像２６の拡張されたセットと共に使用されてよい。しかしながら、さらに、図９で示される２つの径路の１つのみに再構成段階１６を適用することは可能である（つまり、改善されたクラシファイヤーのトレーニングか、又は改善された画像分類結果の提供のいずれかであり、両者ではない。）。

本発明の主題は、人間の理解しうる対象物、性状又は条件に対する有用な意味を認識しそれによって選定し、次いで、ディジタル画像の一層の処理において得られる結果を利用するためにデジタル画像をデジタル的に処理する技術を意味するために理解される、デジタル画像の理解技術に関係がある。

場面分類はまた、画像の強調における適用で見ることができる。総括的な色のバランス及びすべての場面に対して露出調整を適用するのではなく、調整は場面に対してカスタマイズすることができるかもしれない。例えば、タングステンを照射された屋内の画像から暖色系のキャストを取り除く間に、夕焼け画像における光り輝く色を保持するか又はブーストする。

本発明によって記載された再構成技術は、写真画像に限定されない。例えば、空間的な再構成はさらに、医療画像分類における医療画像に対して（色の再構成は適用されないが、）適用できる。

混乱させる前景領域を備える夕焼け画像の４つの画像の一つを示す。混乱させる前景領域を備える夕焼け画像の４つの画像の一つを示す。混乱させる前景領域を備える夕焼け画像の４つの画像の一つを示す。混乱させる前景領域を備える夕焼け画像の４つの画像の一つを示す。原型の見本と良好に一致する、任意の画像（ａ）がどのように画像（ｄ）に変形されるかを例証する一連の画像の一つを示す。原型の見本と良好に一致する、任意の画像（ａ）がどのように画像（ｄ）に変形されるかを例証する一連の画像の一つを示す。原型の見本と良好に一致する、任意の画像（ａ）がどのように画像（ｄ）に変形されるかを例証する一連の画像の一つを示す。原型の見本と良好に一致する、任意の画像（ａ）がどのように画像（ｄ）に変形されるかを例証する一連の画像の一つを示す。オリジナル画像（ｂ）が水平反射（ａ）又はクロップ（（ｃ）で示されるような底部から２０％）によって変形される際の空間的な再構成の実施例を示す図である。オリジナル画像（ｂ）が水平反射（ａ）又はクロップ（（ｃ）で示されるような底部から２０％）によって変形される際の空間的な再構成の実施例を示す図である。オリジナル画像（ｂ）が水平反射（ａ）又はクロップ（（ｃ）で示されるような底部から２０％）によって変形される際の空間的な再構成の実施例を示す図である。一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。空間的な再構成を使用することによって引き起こされた誤りのポジの典型的な実施例を示す図である。空間的な再構成を使用することによって引き起こされた誤りのポジの典型的な実施例を示す図である。オリジナル（左の画像）と照らしのシフト（＋６ボタン分）の画像（右の画像）が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図である。オリジナル（左の画像）と照らしのシフト（＋６ボタン分）の画像（右の画像）が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図である。オリジナル（左の画像）と照らしのシフト（＋６ボタン分）の画像（右の画像）が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図である。オリジナル（左の画像）と照らしのシフト（＋６ボタン分）の画像（右の画像）が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図である。オリジナル（左の画像）と照らしのシフト（＋６ボタン分）の画像（右の画像）が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図であって、太陽が地平線に近いが沈まない冬景色を示す、意図的に混同する画像のうちの１つの画像である。オリジナル（左の画像）と照らしのシフト（＋６ボタン分）の画像（右の画像）が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図であって、太陽が地平線に近いが沈まない冬景色を示す、意図的に混同する画像のうちの１つの画像である。選択、例えば、「Ｔ１０」は画像上部から１０％のクリップを意味する、を使用して、独立した再構成決定を解決する表である。本発明による再構成を使用することによって得られるサンプルのテスト画像の実施例を示す図である。本発明による再構成を使用することによって得られるサンプルのテスト画像の実施例を示す図である。本発明による再構成を使用することによって得られるサンプルのテスト画像の実施例を示す図である。本発明を実行するための方法の要素を概略する図である。

符号の説明

１０見本画像の入力
１２テスト画像の入力
１４入力段階
１６再構成段階
１８空間的な再構成のアルゴリズム
２０一時的な再構成のアルゴリズム
２２画像の拡張されたセット
２４見本画像の拡張されたセット
２６テスト画像の拡張されたセット
２８トレーニング段階
３０分類段階
３２点線

Claims

デジタル画像の画像分類を改善する方法であって、
（ａ）画像の提供段階と、
（ｂ）画像の拡張されたセットを生成するために前記画像の系統的な再構成段階と、及び
（ｃ）前記画像の拡張されたセットが少なくとも一つの改善されたクラシファイヤー及び改善された分類結果を提供する、前記画像における画像分類を決定するためにクラシファイヤーと前記画像の拡張されたセットを使用する段階と
を有することを特徴とする方法。
前記段階（ｂ）は、空間的に再構成された画像の拡張されたセットを生成するために前記画像の空間的な再構成を含むことを特徴とする請求項１に記載の方法。
前記段階（ｂ）は、一時的に再構成された画像の拡張されたセットを生成するために前記画像の一時的な再構成を含み、それによって、前記拡張されたセットの前記画像は、初期又は後期の撮像の外観をシミュレートすることを特徴とする請求項１に記載の方法。