[go: up one dir, main page]

JP2005032210A - 場面分類を改善するために空間的で一時的な画像の再構成を効果的に使用する方法 - Google Patents

場面分類を改善するために空間的で一時的な画像の再構成を効果的に使用する方法 Download PDF

Info

Publication number
JP2005032210A
JP2005032210A JP2003358021A JP2003358021A JP2005032210A JP 2005032210 A JP2005032210 A JP 2005032210A JP 2003358021 A JP2003358021 A JP 2003358021A JP 2003358021 A JP2003358021 A JP 2003358021A JP 2005032210 A JP2005032210 A JP 2005032210A
Authority
JP
Japan
Prior art keywords
image
images
reconstruction
classification
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003358021A
Other languages
English (en)
Inventor
Jiebo Luo
ルオ ジエボ
Robert T Gray
テリー グレイ ロバート
Matthew R Boutell
アール ブーテル マシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eastman Kodak Co
Original Assignee
Eastman Kodak Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastman Kodak Co filed Critical Eastman Kodak Co
Publication of JP2005032210A publication Critical patent/JP2005032210A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 本発明の目的は、場面分類を改善するために入力デジタル画像の多数の再構成された変形を使用する方法を提供する。
【解決手段】 (a)画像の提供段階と、(b)画像の拡張されたセットを生成するために画像の系統的な再構成段階と、及び(c)画像の拡張されたセットが少なくとも一つの改善されたクラシファイヤー及び改善された分類結果を提供する、画像における画像分類を決定するためにクラシファイヤーと画像の拡張されたセットを使用する段階とからなるデジタル画像の画像分類を改善する方法。
【選択図】 図9

Description

本発明は、一般的にデジタル画像処理の分野に関し、より詳細には、場面分類を改善するために入力デジタル画像の多数の再構成された変形を使用する方法に関する。
任意の画像を意味のある分類(例えば、夕焼け、ピクニック、砂浜など)で自動的に決定することは困難である。最近では多くの研究が行われており、また、様々なクラシファイヤー及び特徴のセットが提案されている。そのようなシステムにおける最も共通の設計は、低レベルの特徴(例えば、色、テキスチャなど)及び統計的なパターン認識技術を使用している。かかるシステムはトレーニングセット(例えば、非特許文献1を参照。)からの学習パターンに依存する見本に基づく。かかる見本に基づくシステムは、種類の特徴が人間の知識を使用して直接的に特定される、モデルに基づくシステムか、又はモデルが学習されるハイブリッドシステムと対照的である。
意味的のある場面分類は、内容に基づいた画像構成及び検索(CBIR)の性能を改善することができる。多数の現行のCBIRシステムは、類似性が色又はテキスチャの特性によってのみしばしば確定される場合において、ユーザが画像を特定し、その特定した画像に似ている画像を探索することを可能にする。このいわゆる「具体例による問合せ」は、不適当であることが頻繁に証明されている。場面のカテゴリーを最初から知ることは、探索空間を劇的に狭くすることを援助する。例えば、パーティー場面の構成を知ることは、「メアリーの誕生パーティーの写真を見つける」という質問に答える、我々の探索においてパーティ場面だけを考慮することを可能にする。このように、探索時間は減じられ、ヒット率はより高く、さらに、誤った警告率がより低いと予想される。
現行の場面分類システムは、拘束がない画像セットの制限のある成功を享受する。何がこの理由であるかというと、主な理由は、最も意味のある分類内に見られる信じられないほどの種類の画像であるように思える。見本に基づくシステムは、トレーニングセットにおけるそのような変化を説明するに違いない。たとえ何百もの見本は、いくつかの種類で固有なすべての変動性を必ずしも捕らえない。具体例として夕焼け画像の分類を挙げた場合、夕焼けの様々な段階で撮像された夕焼けの画像は、太陽が地平線に接近するにつれて色はより光り輝くようになり、次いで、時間が経つにつれて退色する傾向があるので、色が非常に異なりうる。さらに、構成は、地平線又は空のみを包含するか?地平線に関して太陽の位置はどこか?太陽は中心にあるか、又は一方にオフセットされているか?によって、カメラの視野の部分により一様ではない。
見本に基づく分類における限定された成功の第二の理由は、画像は、場面にそれほど原型でないように見えて、したがって、トレーニング見本のうちのどれとも十分に一致しない、過度の前景領域又は混乱させる前景領域を頻繁に含んでいることである。例えば、図1は、混乱させる前景領域を備える4つの場面(a)乃至(d)を示す。これは、典型的なカメラの使用者が、専門の写真家よりも構成及び光に対してそれほど注意を払わない際に、カメラ使用者の画像において特に真実である。したがって、カメラ使用者の画像は、この領域で使用される場合に多くの既存システムにおける高性能(コレル(Corel)データベースなどの専門的に撮像されたストックフォトライブラリで)を引き起こす、多大な変動性を含む。
結果的に、画像分類において上で記載された問題を克服する方法を提供する必要がある。これらの問題は、空間的な画像再構成の概念の導入により提案され、不適当な構成(つまり、前景物)の衝撃を最小限にするように設計され、さらにシミュレートされたか又は効果的で一時的な画像再構成の衝撃を最小限にするように設計され、時間とともに発生する変色作用を最小限にするように設計される。
このアプローチは他の領域における過去の成功に支持される。顔の認識及び検出では、研究者は、幾何学的な変化を処理するためにトレーニングで顔の混乱された変形を使用した(例えば、非特許文献2参照。)。これは、再サンプリングすること、又はブートストラッピングに関係がある。加えて、バッギング(bagging)(積極的なブートストラップ)は、異なる構成要素のクラシファイヤーをトレーニングするためにトレーニングセットの多数の変形を使用し、最終の分類決定は個々の構成要素におけるクラシファイヤーの選択に基づく(例えば、非特許文献3参照。)。
A.Vailaya, M.Figueiredo, A.Jain, H.J.Zhang著、「Content−based hierarchical classification of vacation images」、Proceedings of IEEE International Conference on Multimedia Computing and Systems, 1999 H.Rowley, S.Baluja, T.Kanade著、「Rotation invariant neural network−based face detection」、Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition, 1998 R.O.Duda, P.E.Hart, D.G.Stock著、「Pattern Classification」、John Wiley&Sons、ニューヨーク、2001年、pp.475−476 R.P.W.Duin著、「The combining classifier: To train or not to train?」、Proceedings of International Conference on Pattern Recognition, 2002 B.Scholkopf, C.Burges, and A.Smola著、「Advances in Kernel Methods: Support Vector Learning」 MIT Press, Cambridge, MA, 1999, pp.263−266 Y.Wang and H.Zhang著、「Content−based image orientation detection with support vector machines」、 Proceedings of IEEE Workshop on Content−Based Access of Image and Video Libraries,2001
本発明の目的は、上に記載の一つ以上の問題を克服することを導き、場面分類を改善するために入力デジタル画像の多数の再構成された変形を使用する方法を提供することである。
本発明の一つの態様によると、(a)画像の提供段階と、(b)画像の拡張されたセットを生成するために画像の系統的な再構成段階と、及び(c)画像の拡張されたセットが少なくとも一つの改善されたクラシファイヤー及び改善された分類結果を提供する、画像における画像分類を決定するためにクラシファイヤーと画像の拡張されたセットを使用する段階とからなるデジタル画像の画像分類を改善する方法を提供する。
本発明は、ロバストクラシファイヤーを引き出すトレーニング見本の拡張したセットを生成するために見本画像の再構成された変形を系統的に生成する方法か、又はロバストな画像分類結果を引き出す同じ顕著な特性を備えた拡張したテスト画像セットを生成するためにテストする入力デジタル画像の再構成された変形を系統的に生成する方法のいずれか(若しくは両者)の方法を提供する。これは、トレーニング見本の多様性を増加させて、見本と画像のよりよい一致を容認し、よりロバストな画像分類を得る方法の提供という長所を有する。
本発明の効果は、場面分類を改善するために入力デジタル画像の多数の再構成された変形を使用する方法を提供することができる。
本発明は、プログラム化されたデジタルコンピュータで実行するように記載されるだろう。デジタル画像処理及びソフトウェアプログラミングの当業者は、下記の記載から本発明を実行するようにコンピューターをプログラムすることができるだろう。本発明は、機械可読式コンピューターコードを保持する磁気又は光記憶媒体のようなコンピューターが読取り可能な記憶媒体を有するコンピュータプログラム製品で具体化されるかもしれない。代替として、本発明はハードウェア又はファームウェアで実行されてよい。
意味のある場面分類における高性能に対する大きな障害は、各種類における画像の色及び構成の両方に関する、広大な変化である。特に種類が多くの変化を含んでいる場合、見本に基づいたシステムのために十分なトレーニングデータを得ることは困難な作業であるかもしれない。高品質で原型画像の多数を手動で集めることはテーマで保存されたフォトライブラリの助けを借りてさえ時間を消費する。したがって、すべて利用可能なトレーニングデータを効率的に使用することが重要である。
さらに、画像がその色及びその構成の両者において、その種類の見本と一致する場合、トレーニング見本のセットを備えたテスト画像の最良の一致が発生する。しかしながら、テスト画像はトレーニングセットに存在しない変化を含んでよい。一致の程度は、写真家が選択する撮像する画像(画像構成に影響する)及び撮像する時間(時間の経過で場面の照らしの変化により潜在的に画像の色に影響する)によって影響される。もし場面を「再現」することが可能ならば、種類において、より原型の色及び構成を備えた画像を得ることを試みることができるだろう。例えば、図2(a)乃至(d)を参照するに、オリジナル場面(図2(a))は、クロップされてリサイズされた(図2(c))、顕著なサブ領域を含む。最終的に、図2(d)において、照らしのシフトはその後発生する日没をシミュレートして適用される。どのようにして場面を「再現」できるのであろうか?換言すると、どのようにして、任意の画像を原型の見本と良好に一致するであろう画像に変換できるのであろうか?
本発明によると、効果的な空間及び一時的な再構成と呼ばれる概念は上の問題を提示するために使用される。一般的に、画像の再構成は、空間的な再構成及び色構成を含む、同一画像の改変された変形を系統的に創生する、プロセスとして定義される。空間的な再構成(反映及びクロップ画像)及び効果的である(シミュレートされた)一時的な再構成(画像色のシフト)の異なるタイプ並びに使用は、表1に表され、下記により詳細に説明される。それらは、トレーニングと、テストと、及び両者での再構成として分類される。数多のタイプと使用の組み合わせは、かかる再構成がトレーニング見本の完全性を破壊しないことを保証するために目視検査を必要とする(例えば、積極的なクロップは、ピクチャーの主要な被写体の損失に帰着するかもしれない。)。
Figure 2005032210
トレーニングでの再構成
トレーニングデータの限定されたサイズセットで再構成を用いることは、見本のより豊富で、より多様なセットを生じうる。目標は、各画像を視覚的に検査する必要なしに、これらの見本を得ることである。1つの技術は垂直軸に関する各画像を反射することで、それによって、見本の数を倍にする。例えば、図3(a)乃至3(c)に示されるように、オリジナル画像(3(b))は、水平な反映(3(a))又はクロップ(3(c)に示されるように底部から20%)によって変換される。明らかに、新規画像の分類は変っておらず、すなわち、画像の左側の太陽の夕焼け画像が右側に太陽を移動させる一方、画像は有効な夕焼け画像のままである。
別の技術は画像のエッジをクロップすることである。画像の顕著な部分が中心にあり、不完全な構成は周囲の混乱によって引き起こされると仮定される。画像の各側から順番にクロップすることは、同一分類の4つの新しい画像を生ずる。当然のこととして、画像の顕著な部分を失いたくはないが、例えば、10%のわずかな保守的なクロップにおいて、アルゴリズムによる分類は変わるかもしれないが、場面の意味のある分類が変化することはほとんどありそうもない。
テストでの再構成
トレーニングセットの再構成はさらに見本を生じるが、テスト画像を再構成して新たに各々を分類し、再構成された画像はオリジナル画像の複合的な分類を生じる。空間的な再構成に関すると、見本に対してテスト画像の特徴を良好に一致する目的において、画像のエッジはクロップできる。そのような一致を獲得するために、より積極的に(図2に示されるように)クロップすることが必要であるかもしれない。しかしながら、クラシファイヤーが反映画像を用いてトレーニングする場合、クラシファイヤーに既に組み込まれた対称によりテスト画像を反映する必要はない。例えば、1−NNクラシファイヤーを使用した場合、テスト画像の特徴ベクターTは、最も近い例のベクターEから、ある距離で位置するだろう。反映された画像E及びT、E´及びT´のベクターをそれぞれ呼び出す。特徴の対称性により、d(E、T)=d(E´、T´)であり、T´を余分にする。
画像のいくつかの種類は、その画像種類の世界における色分配で多大な変化を含んでおり、テスト画像の全体的な色を変えることは、トレーニング見本との良好な一致を適切に生じるかもしれない。実施例として夕焼け画像の分類を用いて、早い段階の夕焼けと後の段階の夕焼けは、色の同一の空間的な分配(暗い前景上の明るい空)を有するかもしれないが、しかし、早い段階の全体の見た感じは、場面の照らしにおける色の変化により、より冷淡である。より暖色側へ向かい輝度(赤−青)軸に沿って色を人為的に変更することによって、我々は、後に撮像する画像の見た目をシミュレートすることができ、我々は、これを照らしのシフトにおける効果的な一時的な再構成と称する。例えば、図4(a)乃至4(f)に示されるように、ボタンが写真停止の0.4に等しい場合、一時的な再構成は、−6ボタン(図4(a))から開始して+9ボタン(図4(f))で終了する、3ボタンの増分における一連の照らしのシフトを有する。同様にして、場面における光量内の変化は、輝度軸に沿った変化を使用して処理できる。他の軸に沿った色の変化は、別の問題の領域で適用してよい。
空間的又は一時的な再構成のいずれかを使用して、クラシファイヤーはオリジナル画像と同一種類で新規の再構成画像を標識してもしなくてもよい。再構成された画像の分類が異なる場合をどのように判断するのであろうか?ドゥイン(Duin)は、固定化された及びトレーニングされた、2タイプのコンバイナーを議論する(R.P.W.Duin著、「The combining classifier: To train or not to train?」、Proceedings of International Conference on pattern recognition, 2002を参照のこと)。固定された組み合わせ規則は、スキームの選択及びスコアの合計又は平均の使用を含む。トレーニングされたコンバイナーは、単一のスコアにスコアをマッピングするための第二のクラシファイヤーである。2つの考慮は、トレーニングデータの利用性及び基礎のクラシファイヤーがトレーニングされている度合いを使用する選択に影響する。ドゥインは、トレーニング中のクラシファイヤーがトレーニングされたコンバイナーから利益を得ることができる一方、過度なトレーニング(例えば、サポートベクターマシン(SVMs))はできないことを提案する。今日の研究において、これは、その事例(例えば、第二段階SVMは支援しない)であると分かった。
2種類の問題において、r再構成の関心のある固定されたコンバイナーは、m番目のオーダー統計、例えば、最大(m=1)、2番目に大きい(m=2)、又は中間(m=r/2)を使用する。パラメータmの変化は、操作曲線におけるクラシファイヤーの位置を移動する。小さなmは、より多くの誤りのポジを犠牲にしてより大きなリコールを与え、積極的な手法で画像を積極的に分類する。mの選択は、明らかに適用に依存するであろう。
さらに、スコアは、最も一貫した画像分類を見つけるような手法で組み合わせできる。例えば、スキームのボートは組合せのために使用できる。これは望ましく、同一の顕著な場面内容を備える多数のわずかに変更された再構成画像に基づく分類は、オリジナル画像だけに基づく分類よりもよりロバストであるべきである。オリジナル画像に基づく単一の分類は、いくらかの統計上の不規則性(例えば、前景の混乱又は見本セットを伴う不十分な空間的な登録)により不正確であり、さらに多くの再構成画像は正確に分類され、大多数の規則は不規則性を修正するだろう。
トレーニング及びテストの両者における再構成
数多の適用において、再構成は、トレーニング及びテストデータの両者において使用されてよい。各々が異なる目的に役立つために、それらは容易に組み合わせされてよい。両タイプの再構成を使用する必要を質問するかもしれない。すなわち、もしトレーニング見本の十分に豊富なセットを有するのであれば、テスト画像の再構成はなぜ必要だろうか。トレーニング及びテストの両方での再構成を使用する必要は実際的である。トレーニングデータは開始するように十分に多様であるか、又はトレーニング見本の再構成が完全にあらゆる変化を創生しており、完全に画像空間を満たすという保証はない。
関連した問題は、トレーニング画像の再構成と追加的な独特の見本の獲得との間の選択である。良好なトレーニングデータの欠如に関する初期の議論及びデータを集めるのに必要な時間は別にして、さらに有効なデータ特性の問題がある。原型の見本のわずかなセットの再構成は、もっと使用するが質が劣っている見本よりもさらに望ましいだろう。
加えて、トレーニングでの再構成の上部におけるテストでの再構成の使用は、潜在的に高い誤りの警告率を犠牲にしているが、所望であれば、確かにリコールをブーストする方法である。
最後の問題は、より積極的なアプローチが、テストデータを再構成する必要を最小限にするためにトレーニングデータを再構成するのに使用されるかどうかである。積極的な再構成が画像から顕著な内容を失わことができるので、拡張したトレーニングセットの完全性が圧縮されないことを保証するべきであり、その議論はこれを正確に行なうための技術となる。
トレーニングでの準管理された再構成
トレーニングセットで保守的な再構成を使用する我々の目的は、完全に管理されていない処理をなすことである。しかしながら、さらにトレーニングデータが所望であり、多大なクロップ又は著しい色のシフトなどの積極的な再構成が使用される場合、すべての再構成された画像を検査する反対の極に向かう必要がないように、トレーニング方法論が必要である。
明白に、いくつかの積極的な再構成が画像の種類に対してある場面内容の特性を移動できるので、トレーニングデータにこれらの画像を加えることに対する正確なアプローチは、再構成されたトレーニング画像の各々を視覚的に検査することだろう。そうすることは退屈で面倒になりうる。注意を必要とする、再構成された画像のサブセットを検査するだけのことが、より効率的だろう。再構成された画像を映すために、オリジナルのトレーニング画像を用いてクラシファイヤーをトレーニングでき、次いで、クラシファイヤーを用いてトレーニング画像の再構成された形態を分類する。再構成が画像から顕著な場面内容を失わせる場合を決定するために、クラシファイヤーを失敗する(又は低い確信で通過する)再構成された画像だけを視覚的に評価する必要がある。次いで、そのような再構成された画像は削除される一方、残存の再構成画像は、その豊富さを改善するために拡張されたトレーニングセットに加えられる。これは、管理されない手法で少数の再構成された画像の生成と、完全に管理された方法で多数の再構成された画像の生成との間の好ましい交換である。
次ぎに、本発明の好ましい夕焼けの検出と、野外景色の分類と、及び自動的な画像配位検出との3つの実施態様がそれぞれ記載される。
夕焼けの検出
特許文献1によって記載された前述の階層的画像分類スキームで、夕焼けは容易に山脈/森林景色と分離された。色は夕焼けがそれらの光り輝く暖色によって認識可能であるという直観を確認して、エッジ方向が単独のように、他の特徴よりもかかる問題においてより顕著に感じられた。さらに、空間的な情報は、砂漠の岩形成などのような暖色を含んでいる他の景色と夕焼けを識別するために組込まれるべきである。したがって、空間的な色の瞬間は、7x7グリッドを使用し、かつ、Luv変形された画像の各バンドの平均値及び変化を計算して、画像を49領域に分割して使用されてもよい。これは、49x2x3=294の特徴を生じる。
サポートベクターマシン(SVM)は、同様の問題(例えば、B.Scholkopf, C.Burges, and A.Smola, Advances in Kernel Methods: Support Vector Learning, MIT Press, Cambridge, MA, 1999, pp.263−266,及びY.Wang and H.Zhang, “Content−based image orientation detection with support vector machines,” Proceedings of IEEE Workshop on Content−Based Access of Image and Video Libraries,2001)においてラーニングベクタークオンタイザー(Learning Vector Quantizers)(LVQ)(Learning Vector Quantizers)などの他のクラシファイヤーよりも高性能であるために、クラシファイヤーとして好ましく使用される。特に、RBFスタイルクラシファイヤー(RBF=放射状の基礎的機能(Radial Basis Function)、Wang及びZhangを参照すること)を生成するガウスカーネル(Gaussian kernel)が使用された。SVMは2クラスの問題のために設計されて、各テスト画像における実際の数を出力する。サインは分類で、確信の緩い手段として大きさを使用することができる。
セットがはるかに豊富だったので、トレーニングセットにおいて再合成を使用することは性能を著しく推測上増加させた。これは、制限のあるトレーニングセットを有する数多の作用を克服する。テストセットにおいて再構成を使用することは、打数及び誤りのポジ数の両方を増加させた。最終的に、トレーニングとテストの両者で再構成を使用することは、全体にわたって最良の結果を与えた。それらの結果は、異なる曲線における最適な操作ポイントに対応することを注意する。
テスト画像で空間的な再構成を使用することは、かなり混乱する前景領域を備えた夕焼け画像を正確に分類する目標を達成した。例えば、図1に表示された画像は、ベースラインシステムによってすべて不正確に分類されたが、しかし、再構成が使用された(再構成によって得られた)場合は正確に分類された。右上の画像(b)は、クロップすることによる再構成がどのように助けになることができるかのよい例である。画像における前景の広大で暗い水の領域をクロップすることは、SVMスコアを実質的に増大する。他の画像も同様に行ない、例えば、左の画像(a)の底部から底を20%クリップすることは、水に映る混乱させる反射を除去する。
しかしながら、誤りのポジ画像の数はまた、リコールにおける増進を部分的に相殺して増加した。再構成によって引き起こされた典型的な誤りのポジは、図5a及び5bに示される。それら画像の各々は、クロップした場合に、見た目をより夕焼けに似せて画像を生成する、夕焼けの典型的でないパターン(例えば、夜景での複合的な明るい領域又は砂漠景色での空)を含む。
数多の夕焼け画像は、原型の構成を有するが、早い段階又は後の段階の夕焼けに対応する弱色を有する。場面の照らしの「暖まる」これらの画像をシフトし、それら画像を正確に分類させ、また、それら両方が図6において示される、多くの誤りのポジを導入する。
野外景色の分類
上に記載のシステムは、砂浜、夕焼け、落ち葉、野原、山脈及び都市の6種類の野外景色を識別するために拡張される(図2で定義)。トレーニング及びテストのために使用された画像は、コレル(Corel)及びカメラ使用者の画像を含んでいた。SVMクラシファイヤーは1対すべてのアプローチ(B.Scholkopf, C.Burges, and A.Smola, Advances in Kernel Methods: Support Vector Learning, MIT Press, Cambridge, MA, 1999, pp.256−258を参照のこと)の使用により多数の種類まで拡張されたが、同じ特徴及びクラシファイヤーは夕焼け検出器のためのように使用される。トレーニングセットが未だ制限されていので、トレーニングで使用された場合、空間的な再構成は特に効果的であった。再構成はテストセットでは使用されなかった。
Figure 2005032210
画像配位検出
自動的な画像配位検出(Y.Wang and H.Zhang, “Content−based image orientation detection with support vector machines,” Proceedings of IEEE Workshop on Content−Based Access of Image and Video Libraries,2001を参照)の目的は、画像の上部が直面している方向に依存して、4つの磁針方向(N、S、E、W)のうちの1つに任意の画像を分類することである。画像内容だけに基づいてそうすることは、困難な問題である。好ましい実施態様において、Wang等に類似して同様の結果を達成する、ベースラインシステムは空間的な色の瞬間と、1対すべてのSVMクラシファイヤーを使用する。
テストでの再構成は、同様にこの領域の分類を改善すると予期できるが、しかし、その予測を使用するための論理的基礎は非常に異なり、画像エッジのクロップは、画像の知覚された配位に影響してはならない。したがって、多数のわずかに異なる画像に基づいた組合せの分類は、単一画像の分類よりもよりロバストであるべきである。固定された(選択)及びトレーニングされたコンバイナーの両者でテストして、各々の性能は比較可能であることが分かり、選択は性能の簡素化のために選択された。
この適用において、画像は、与えられた配位の画像を認識するために調整されたSVMから各々4つのスコアで分類される。1対すべてのクラシファイヤーは、最大スコアを生じるSVMに対応する配位で画像を分類する。この処理は9回繰り返され、画像の各クロップされた変形において一度である。かかる工程は、結束を断つためにスコアを使用して、9つの分類において最終的に選択する(結束は支配された単一の配位を意味しないが、画像は拒絶に対するよい候補である、つまり明白な配位がないことである)。選択スキームの実施例は、図7に与えられている。
再構成スキームを用いて得られたサンプルコレル画像は、図8に示される。それらの各々において、画像の境界における数多の領域は混乱している。暗い影(図8(c))と、暗い木(図8(b))と、太陽からの反射(図8(c))とはすべてクラシファイヤーを混乱させ、明るいか又は暗い領域は画像の側面に現れて、上下には現れない。
画像再構成は、単一のクラシファイヤーだけが分類でトレーニングされ使用される主な区別を伴う、ブートストラップ又はバッグ方法の趣旨と同様である。画像分類問題に対するこのスキームの成功した適用の鍵は、かかる画像再構成が、最終分類でそれら分類を無視することができ、また、顕著な内容物は画像へのそのような混乱に対する不変であるような方法で画像において混乱する構成部分に単に影響するだろうということである。したがって、これは、再構成の適切な方法が、問題の領域及び使用される特徴/クラシファイヤーによって選択される限り、分類性能をブーストすることに対する一般的なアプローチである。
下記のガイドラインは、画像分類において画像再構成を使用する方法を決定することを支援するために提示される。第一に、トレーニングセットがまばらな場合、保守的で空間的な再構成の使用は非常に助けになるかもしれない。空間的及び一時的である両者のより積極的な再構成は、準管理された手法で行われるべきである。2つの種類の問題において、テスト画像の再構成は、適用への性能を修正するために使用することができる操作の曲線パラメーターを与えて、同じ種類の見本と良好な一致を引き起こす。多数の種類の問題では、再構成された画像の分類中に選択することは、よりロバストである。明らかに、種類がトレーニングデータで良好に分離されてテスト画像が見本と良好に一致する理想的な場合、再構成は多大に支援することを期待しない。
図9は、本発明によるデジタル画像の場面分類を改善するための方法を示す。最初に、見本画像10又は入力テスト画像12のいずれかが入力段階14に提供され、次いで、発明の詳細な記載で記述したように、空間的な再構成アルゴリズム18又は一時的な再構成アルゴリズム20のいずれか(又は両者)にしたがって画像が系統的に再構成される、再構成段階16に適用される。再構成の結果は、見本画像24の拡張されたセット又はテスト画像26の拡張されたセットのいずれか(又は両者)であろう、入力画像(見本又はテスト画像)の種類に依存する、画像22の拡張されたセットである。画像の拡張されたセットが見本画像である場合、画像の拡張されたセットはトレーニング段階28のクラシファイヤーでトレーニングするために使用され、それによって、本発明による改善されたクラシファイヤーを提供する。画像の拡張されたセットがテスト画像である場合、画像の拡張されたセットはクラシファイヤー段階30で使用され、それによって、本発明による改善された画像分類の結果を提供する。トレーニング段階28と分類段階30とを接続する点線32で示されるように、見本画像24の拡張されたセットから結果となる改善されたクラシファイヤーは、全体にわたる改善された分類結果を提供するために、テスト画像26の拡張されたセットと共に使用されてよい。しかしながら、さらに、図9で示される2つの径路の1つのみに再構成段階16を適用することは可能である(つまり、改善されたクラシファイヤーのトレーニングか、又は改善された画像分類結果の提供のいずれかであり、両者ではない。)。
本発明の主題は、人間の理解しうる対象物、性状又は条件に対する有用な意味を認識しそれによって選定し、次いで、ディジタル画像の一層の処理において得られる結果を利用するためにデジタル画像をデジタル的に処理する技術を意味するために理解される、デジタル画像の理解技術に関係がある。
場面分類はまた、画像の強調における適用で見ることができる。総括的な色のバランス及びすべての場面に対して露出調整を適用するのではなく、調整は場面に対してカスタマイズすることができるかもしれない。例えば、タングステンを照射された屋内の画像から暖色系のキャストを取り除く間に、夕焼け画像における光り輝く色を保持するか又はブーストする。
本発明によって記載された再構成技術は、写真画像に限定されない。例えば、空間的な再構成はさらに、医療画像分類における医療画像に対して(色の再構成は適用されないが、)適用できる。
混乱させる前景領域を備える夕焼け画像の4つの画像の一つを示す。 混乱させる前景領域を備える夕焼け画像の4つの画像の一つを示す。 混乱させる前景領域を備える夕焼け画像の4つの画像の一つを示す。 混乱させる前景領域を備える夕焼け画像の4つの画像の一つを示す。 原型の見本と良好に一致する、任意の画像(a)がどのように画像(d)に変形されるかを例証する一連の画像の一つを示す。 原型の見本と良好に一致する、任意の画像(a)がどのように画像(d)に変形されるかを例証する一連の画像の一つを示す。 原型の見本と良好に一致する、任意の画像(a)がどのように画像(d)に変形されるかを例証する一連の画像の一つを示す。 原型の見本と良好に一致する、任意の画像(a)がどのように画像(d)に変形されるかを例証する一連の画像の一つを示す。 オリジナル画像(b)が水平反射(a)又はクロップ((c)で示されるような底部から20%)によって変形される際の空間的な再構成の実施例を示す図である。 オリジナル画像(b)が水平反射(a)又はクロップ((c)で示されるような底部から20%)によって変形される際の空間的な再構成の実施例を示す図である。 オリジナル画像(b)が水平反射(a)又はクロップ((c)で示されるような底部から20%)によって変形される際の空間的な再構成の実施例を示す図である。 一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。 一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。 一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。 一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。 一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。 一連の照らしのシフトからなる一時的な再構成の実施例を示す図である。 空間的な再構成を使用することによって引き起こされた誤りのポジの典型的な実施例を示す図である。 空間的な再構成を使用することによって引き起こされた誤りのポジの典型的な実施例を示す図である。 オリジナル(左の画像)と照らしのシフト(+6ボタン分)の画像(右の画像)が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図である。 オリジナル(左の画像)と照らしのシフト(+6ボタン分)の画像(右の画像)が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図である。 オリジナル(左の画像)と照らしのシフト(+6ボタン分)の画像(右の画像)が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図である。 オリジナル(左の画像)と照らしのシフト(+6ボタン分)の画像(右の画像)が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図である。 オリジナル(左の画像)と照らしのシフト(+6ボタン分)の画像(右の画像)が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図であって、太陽が地平線に近いが沈まない冬景色を示す、意図的に混同する画像のうちの1つの画像である。 オリジナル(左の画像)と照らしのシフト(+6ボタン分)の画像(右の画像)が示される際に、一時的な再構成が使用される場合に、夕焼け及び誤りのポジが処理される方法を示す図であって、太陽が地平線に近いが沈まない冬景色を示す、意図的に混同する画像のうちの1つの画像である。 選択、例えば、「T10」は画像上部から10%のクリップを意味する、を使用して、独立した再構成決定を解決する表である。 本発明による再構成を使用することによって得られるサンプルのテスト画像の実施例を示す図である。 本発明による再構成を使用することによって得られるサンプルのテスト画像の実施例を示す図である。 本発明による再構成を使用することによって得られるサンプルのテスト画像の実施例を示す図である。 本発明を実行するための方法の要素を概略する図である。
符号の説明
10 見本画像の入力
12 テスト画像の入力
14 入力段階
16 再構成段階
18 空間的な再構成のアルゴリズム
20 一時的な再構成のアルゴリズム
22 画像の拡張されたセット
24 見本画像の拡張されたセット
26 テスト画像の拡張されたセット
28 トレーニング段階
30 分類段階
32 点線

Claims (3)

  1. デジタル画像の画像分類を改善する方法であって、
    (a)画像の提供段階と、
    (b)画像の拡張されたセットを生成するために前記画像の系統的な再構成段階と、及び
    (c)前記画像の拡張されたセットが少なくとも一つの改善されたクラシファイヤー及び改善された分類結果を提供する、前記画像における画像分類を決定するためにクラシファイヤーと前記画像の拡張されたセットを使用する段階と
    を有することを特徴とする方法。
  2. 前記段階(b)は、空間的に再構成された画像の拡張されたセットを生成するために前記画像の空間的な再構成を含むことを特徴とする請求項1に記載の方法。
  3. 前記段階(b)は、一時的に再構成された画像の拡張されたセットを生成するために前記画像の一時的な再構成を含み、それによって、前記拡張されたセットの前記画像は、初期又は後期の撮像の外観をシミュレートすることを特徴とする請求項1に記載の方法。
JP2003358021A 2002-10-31 2003-10-17 場面分類を改善するために空間的で一時的な画像の再構成を効果的に使用する方法 Pending JP2005032210A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US42266602P 2002-10-31 2002-10-31

Publications (1)

Publication Number Publication Date
JP2005032210A true JP2005032210A (ja) 2005-02-03

Family

ID=34215755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003358021A Pending JP2005032210A (ja) 2002-10-31 2003-10-17 場面分類を改善するために空間的で一時的な画像の再構成を効果的に使用する方法

Country Status (1)

Country Link
JP (1) JP2005032210A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234624A (ja) * 2007-02-19 2008-10-02 Seiko Epson Corp カテゴリー識別装置、カテゴリー識別方法、及び、プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172841A (ja) * 1998-11-30 2000-06-23 Mitsubishi Electric Inf Technol Center America Inc 画像からの情景の推定方法
JP2002032751A (ja) * 2000-07-18 2002-01-31 Olympus Optical Co Ltd 学習型画像分類装置及び方法並びにその処理プログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172841A (ja) * 1998-11-30 2000-06-23 Mitsubishi Electric Inf Technol Center America Inc 画像からの情景の推定方法
JP2002032751A (ja) * 2000-07-18 2002-01-31 Olympus Optical Co Ltd 学習型画像分類装置及び方法並びにその処理プログラムを記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234624A (ja) * 2007-02-19 2008-10-02 Seiko Epson Corp カテゴリー識別装置、カテゴリー識別方法、及び、プログラム

Similar Documents

Publication Publication Date Title
US7313268B2 (en) Method for using effective spatio-temporal image recomposition to improve scene classification
Matern et al. Exploiting visual artifacts to expose deepfakes and face manipulations
US10762608B2 (en) Sky editing based on image composition
US10558884B2 (en) System and method for creating navigable views
US7760956B2 (en) System and method for producing a page using frames of a video stream
US8548249B2 (en) Information processing apparatus, information processing method, and program
US7302113B2 (en) Displaying digital images
US8897504B2 (en) Classification and organization of consumer digital images using workflow, and face detection and recognition
JP4234378B2 (ja) 画像中で素材の領域を検出する方法
CN101630363B (zh) 复杂背景下彩色图像人脸的快速检测方法
Shih et al. Exemplar-based video inpainting without ghost shadow artifacts by maintaining temporal continuity
US20110026837A1 (en) Image processing device and method
US20120294514A1 (en) Techniques to enable automated workflows for the creation of user-customized photobooks
US7904815B2 (en) Content-based dynamic photo-to-video methods and apparatuses
JP2001195591A (ja) 画像中の空を検出する方法
CN111783729A (zh) 视频分类方法、装置、设备及存储介质
US9727802B2 (en) Automatic, computer-based detection of triangular compositions in digital photographic images
CN108513139A (zh) 视频直播中的虚拟对象识别方法、装置、存储介质和设备
Bautell et al. Sunset scene classification using simulated image recomposition
CN111757149B (zh) 视频剪辑方法、装置、设备及存储介质
Luo et al. Image transform bootstrapping and its applications to semantic scene classification
JP3962517B2 (ja) 顔面検出方法及びその装置、コンピュータ可読媒体
JP2005032210A (ja) 場面分類を改善するために空間的で一時的な画像の再構成を効果的に使用する方法
Hsu et al. A framework for making face detection benchmark databases
Luo et al. A probabilistic approach to image orientation detection via confidence-based integration of low-level and semantic cues

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091019

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091022

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091215