JP6798183B2

JP6798183B2 - 画像解析装置、画像解析方法およびプログラム

Info

Publication number: JP6798183B2
Application number: JP2016153492A
Authority: JP
Inventors: 崇之原
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2020-12-09
Anticipated expiration: 2036-08-04
Also published as: JP2018022360A; US20180039856A1; US10635926B2

Description

本発明は、画像解析装置、画像解析方法およびプログラムに関する。

従来、画像からユーザの興味領域を抽出する技術は、画像の自動クロッピング／サムネイル生成や、画像理解／画像検索におけるアノテーション生成の前処理などに広く利用されており、興味領域の抽出方法としては、物体認識や顕著性マップを利用する方法が知られている。

物体認識に基づく興味領域抽出技術として、特許文献１は、画像中から顔領域を検出し、顔領域の画像を抽出する技術を開示し、特許文献２は、人検出により画像中の人物領域を抽出する技術を開示する。物体認識に基づいて興味領域抽出を行う場合、物体ごとにモデルを用意する必要がある。

一方、顕著性マップを用いた興味領域抽出では、色やエッジといった低次の特徴量を用いることで、より汎用的な興味領域抽出が可能となる。この点につき、非特許文献１は、脳神経科学において研究されている人間の視覚モデルを利用し、画像の局所的な特徴からボトムアップ的に顕著性マップを生成する方法を開示する。また、特許文献３は、各画素で算出されたエッジ量のマップに対して、注目領域重み付けマップを乗算することで精度良く顕著性マップを得る技術を開示する。さらに、特許文献４、５は、画像特徴量に深度情報を合わせて顕著性を算出する技術を開示する。

さらに近年では、画像の低次の特徴（色、エッジ、深度など）に対して、より高次の意味的な情報を利用して興味領域抽出を行うアプローチが試みられている。この点につき、非特許文献２，３は、ニューラルネットワークを用いて画像から高次特徴を抽出し、興味領域を推定する方法を開示する。

さらに近年、１８０度を超える画角を有する魚眼カメラや３６０度全方位を撮影可能な全方位カメラなどの超広角カメラが広く用いられるようになっており、これらの超広角画像から精度良く興味領域を推定したいという要請がある。

本発明は、上記に鑑みてなされたものであり、超広角画像から精度良く興味領域（注目点）を推定することができる画像解析装置を提供することを目的とする。

本発明者は、超広角画像から精度良く興味領域（注目点）を推定することができる画像解析装置につき鋭意検討した結果、以下の構成に想到し、本発明に至ったのである。

すなわち、本発明によれば、入力画像を異なる複数の方向に再投影して複数の部分画像に分割する部分画像分割部と、各前記部分画像から特徴量を抽出する特徴量抽出部と、抽出した前記特徴量から所定の回帰モデルに基づいて前記入力画像の位置ごとの重要度を算出する重要度算出部と、算出した前記重要度から所定の回帰モデルに基づいて注目点の尤度分布を算出する注目点尤度分布算出部と、前記注目点の尤度分布に基づいて注目点を算出する注目点算出部とを含む画像解析装置が提供される。

上述したように、本発明によれば、超広角画像から精度良く興味領域（注目点）を推定することができる画像解析装置が提供される。

Equirectangular形式（正距円筒図法）の画像を説明するための概念図。第１実施形態の画像解析装置の機能ブロック図。第１実施形態の画像解析装置が実行する処理を示すフローチャート。部分画像分割部が実行する処理を説明するための概念図。部分画像分割部が実行する処理を説明するための概念図。注目点尤度分布算出部が実行する処理を説明するための概念図。部分画像分割部が実行する処理を説明するための概念図。第２実施形態の特徴量抽出部のニューラルネットワーク構成を示す図。第２実施形態の重要度算出部のニューラルネットワーク構成を示す図。第２実施形態の特徴量抽出部のニューラルネットワーク構成を示す図。第２実施形態の注目点尤度分布算出部のニューラルネットワーク構成を示す図。第２実施形態の注目点算出部のニューラルネットワーク構成を示す図。第２実施形態のニューラルネットワーク構成を示す図。第２実施形態のニューラルネットワーク構成を示す図。本実施形態の画像解析装置のハードウェア構成図。

以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜、その説明を省略するものとする。

本発明の実施形態である画像解析装置は、入力された画像から興味領域を抽出する機能を備え、より具体的には、注目点（興味領域内の点、または、興味領域の重心）を推定する機能を備える。ここで、本実施形態の画像解析装置の説明に入る前に、超広角画像（魚眼カメラや全方位カメラの撮影画像など）に対して、従来の興味領域抽出技術を適用した場合、興味領域を精度良く抽出することができない理由について説明する。

まず第一に、超広角画像を、図１に示すEquirectangular形式（正距円筒図法）の画像に変換し、変換後の画像から興味領域を抽出するといった方法が考えられる。ここで、Equirectangular形式は、主にパノラマ撮影に使われる画像の表現形式であり、図１に示すように、画素の３次元方向を緯度と経度に分解し、正方格子状に対応する画素値を並べた画像形式である。Equirectangular形式の画像からは、経度緯度の座標値から任意の３次元方向の画素値を得ることができ、概念的には、単位球に画素値がプロットされたものとして捉えることができる。

しかしながら、Equirectangular形式の画像から直接的に興味領域を抽出する場合、歪みが極端に大きくなる天頂・天底近傍の領域や画像境界に存在する興味領域を抽出することができないという問題がある。

第二に、超広角画像を複数の画像に分割し、各分割画像から興味領域を抽出するといった方法が考えられる。しかしながら、この場合、各分割画像から得られる顕著性マップの統合法が明らかではない。

さらに、超広角画像の場合、一つの画像内に複数の顕著性の高い物体が含まれていることが想定されるが、従来技術には、複数の物体間の優先順位を判断する仕組みがない。

以上、従来の興味領域抽出技術の問題点について説明してきたが、この問題に対し、本実施形態の画像解析装置は、歪みが大きく、複数の物体を含む超広角画像から、精度良くユーザの興味領域（注目点）を抽出する機能を備えることを特徴とする。以下、本実施形態の画像解析装置の具体的な構成について説明する。

（第１実施形態）
図２は、本発明の第１実施形態である画像解析装置１００の機能ブロックを示す。図２に示すように、画像解析装置１００は、画像入力部１０１と、部分画像分割部１０２と、特徴量抽出部１０３と、重要度算出部１０４と、注目点尤度分布算出部１０５と、注目点算出部１０６を含んで構成される。

画像入力部１０１は、処理対象となる画像を入力する手段である。

部分画像分割部１０２は、処理対象となる画像を異なる複数の方向に再投影して複数の部分画像に分割する手段である。

特徴量抽出部１０３は、各部分画像から特徴量を抽出する手段である。

重要度算出部１０４は、抽出した特徴量から所定の回帰モデルに基づいて、処理対象となる画像の位置ごとの重要度を算出する手段である。

注目点尤度分布算出部１０５は、算出した重要度から所定の回帰モデルに基づいて注目点の尤度分布を算出する手段である。

注目点算出部１０６は、算出した注目点の尤度分布に基づいて注目点を算出する手段である。

なお、本実施形態では、画像解析装置１００を構成するコンピュータが所定のプログラムを実行することにより、画像解析装置１００が上述した各手段として機能する。

以上、本実施形態の画像解析装置１００の機能構成について説明してきたが、続いて、画像解析装置１００が実行する処理の内容を図３に示すフローチャートに基づいて説明する。

まず、ステップ１０１では、画像入力部１０１が、任意の記憶手段から処理対象となるEquirectangular形式の全方位画像を読み込んで入力する。以下、入力した画像を“入力画像”という。

続くステップ１０２では、部分画像分割部１０２が、入力画像（全方位画像）の撮影方向を空間的に等分割し、入力画像を異なる複数の撮影方向に再投影することによって、入力画像を複数の部分画像に分割する。以下、入力画像を複数の部分画像に分割する手順を説明する。

図１に示すように、Equirectangular形式の画像からは、経度緯度の座標値から任意の３次元方向の画素値を得ることができ、Equirectangular形式の画像は、概念的には単位球に画素値がプロットされたものとして捉えることができる。そこで、本実施形態では、図４に示すように、所定の投影面を定義し、単位球の中心を投影中心Ｏとして、下記式（１）により、Equirectangular形式の全方位画像の画素値（θ，φ）を定義した投影面上の画素値（ｘ，ｙ）に対応させる透視投影変換を行って部分画像を得る。なお、下記式（１）において、Ｐは透視投影行列を示し、等号は０以外のスカラー倍で等しいことを示す。

具体的には、Equirectangular形式の全方位画像の投影面として、単位球と共通する中心を有する正多面体を定義した上で、各面の法線方向を視線方向として透視投影変換を行って部分画像を得る。図５(ａ)は、全方位画像の投影面として正八面体を定義した例を示し、図５(ｂ)は、全方位画像の投影面として正十二面体を定義した例を示す。

続くステップ１０３では、特徴量抽出部１０３が、先のステップ１０２で得た各部分画像から所定の特徴量を抽出する。なお、特徴量は、部分画像の画素単位で抽出しても良いし、特定のサンプリング位置から抽出しても良い。本実施形態では、入力画像を上述の方法で分割し、歪みの少ない部分画像から特徴量を算出するので、１８０度を超える超広角画像をロバストに処理することが可能になる。

なお、本実施形態では、特徴量として、色、エッジ、顕著性、物体位置／ラベル、などを用いることができる。

色特徴としては、特定の色空間(RGBやL*a*b*など)の値、特定色（たとえば肌の色）とのユークリッド距離、マハラノビス距離などを使用することができる。

エッジ特徴としては、Sobelフィルタやガボールフィルタなどで抽出した画素値勾配の方向や強度を用いることができる。

顕著性としては、既存の顕著性抽出アルゴリズムによって抽出された顕著性の値を用いることができる。ここでいう、顕著性抽出アルゴリズムの例として、先に挙げた特許文献３〜５、非特許文献１〜３に開示されるアルゴリズムを挙げることができる。

物体位置／ラベル特徴としては、既知の物体検出アルゴリズムで検出された物体の位置（通常、検出矩形の４隅の座標で表される）と物体種（顔、人、車、等）を用いることができる。ここで、物体検出アルゴリズムの例として、先に挙げた特許文献１、２に開示されるアルゴリズムを挙げることができる。

なお、本実施形態で採用することができる特徴量は、上記に限定されるものではなく、従来、画像認識の分野で使用されているその他の特徴量（LBP, Haar like feature, HOG, SIFT,など）を採用しても良いことはいうまでもない。

続くステップ１０４では、重要度算出部１０４が、所定の回帰モデルを用いて、各部分画像から抽出した特徴量から入力画像の位置ごと（画素ごと）に重要度を算出する。以下、この点を具体的に説明する。

入力画像をＮ個に分割した部分画像のi番目の部分画像の位置ごとの特徴量を並べたベクトルをｌ_ｉとし、入力画像の位置ごとの重要度を並べたベクトルをｇとした上で、下記式（２）に示す回帰モデルｆを考える。

ここで、回帰モデルｆの具体的な形として、下記式（３）に示す線形変換を例示することができる。

上記式（３）において、W、bはパラメータを示す。本実施形態では、特徴量ｌ_ｉを入力とし、重要度ｇを出力とする訓練データを事前に用意しておき、当該訓練データを学習させることによって、パラメータW、bを同定しておく。

その前提として、本実施形態では、訓練データの出力（教師データ）である重要度ｇを適切な方法で取得する。重要度ｇを取得する最も単純な方法としては、対象画像において、被験者が重要と思う領域を被験者に指定させ、被験者が指定した領域を構成する各画素の重要度を「１」とし、それ以外の画素の重要度を「０」とするといった方法を挙げることができる。この他にも、対象画像を見る被験者の視点の軌跡をアイトラッカーなどで取得した後、取得した視点の軌跡（線）にガウシアンぼかしを施し、その濃淡レベルに基づいて正規化された重要度（０〜１）を取得する方法を例示することができる。

続くステップ１０５では、重要度の高い方向にユーザの注目点が存在するという設計思想の下、注目点尤度分布算出部１０５が、先のステップ１０４で算出された重要度の分布に基づいて注目点の尤度分布を算出する。本実施形態では、図６に示すように、単位画像面上に、視点Ａを通る撮影方向を中心とする領域Ｒを定義した上で、領域Ｒ内の各位置の重要度を加算した加算値を視点Ａの注目点尤度として算出することができる。また、本実施形態では、領域Ｒ内の各位置の重要度に対して、視点Ａから離れるに従って減衰するような重みを与えた上で、その重みを用いた重要度の加重加算値を視点Ａの注目点尤度として算出することもできる。

ここで、撮影方向の３次元ベクトルをp、撮影方向pの重要度をg(p)と表現すると、注目点尤度a(p)は、下記式（４）のように定式化することができる。

上記式（４）において、ηは単調増加関数を示し、w(p,q)は重みを示し、積分は定積分であり、積分範囲は撮影単位球面全体である。本実施形態では、ηを指数関数とすることができ、w(p,q)を下記式（５）に示す関数とすることができる。

上記式（５）はvon Mises分布に順ずるものであり、方向p, qが一致する場合に最大値、p,qが逆方向を向く際に最小値を取る。本実施形態では、パラメータαで重みの減衰率を決めることができ、注目点を考える画角を反映することができる。

また、本実施形態では、重みw(p,q)を、下記式（６）に示すように、{α_i}をパラメータとして、方向p,qの内積の多項式を指数関数の引数に取ることもできる。

再び、図３に戻って説明を続ける。

続くステップ１０６では、注目点算出部１０６が、注目点尤度分布a(p)に基づいて注目点を算出する。本実施形態では、例えば、注目点尤度a(p)の最尤値に対応する撮影方向pに対応する位置を注目点として算出しても良いし、下記式（７）に示すように、注目点尤度分布a(p)の平均値に対応する撮影方向pに対応する位置を注目点としても良い。なお、下記式（７）の積分は定積分であり、積分範囲は撮影単位球面全体である。

また、本実施形態では、注目点尤度a(p)の局所最大値に対応するＮ個（Ｎは１以上の整数。）の撮影方向pに対応する位置を注目点として算出するようにしてもよい。これにより、注目点尤度a(p)の局所最大値が複数存在する場合は、複数の注目点を得ることができる。なお、注目点尤度a(p)の局所最大値は、ランダムに生成したpの初期値から山登り法で探索して求めることができ、Ｍ個の注目点をそれぞれが離れた位置で求めたいという場合には、下記式（８）に示す評価関数を最大化するp1, p2, ..., pMとして複数の注目点を求めることができる。

なお、上記式（８）において、dは、視点間の距離を表現する関数であり、このような関数としては、p1, p2, ..,, pMの分散や各視点間のユークリッド距離の総和などを例示することができる。

以上、入力画像（Equirectangular形式の全方位画像）から注目点が算出されるまでの一連の処理を説明した。なお、本実施形態の画像解析装置１００をクロッピングやサムネイル生成に適用する場合には、上述した手順で求めた注目点を中心に特定の画角を設定することで興味領域を定義し、定義した興味領域の画像を、そのままクロッピング画像やサムネイル画像とする。この場合、設定する画角は、回帰モデルに与えた訓練データにおける注目点を含む興味領域の画角であることが望ましい。また、本実施形態の画像解析装置１００を画像認識／画像検索システムに適用する場合には、注目点を含む物体領域を認識対象、検索対象の物体とする。

以上、説明したように、本実施形態では、各部分画像の特徴量から直接的に注目点を算出するのではなく、各部分画像の特徴量から第１の回帰モデルを用いて重要度を算出した後に、算出した重要度から第２の回帰モデルを用いて注目点を算出するという構成を採用する。これにより、部分画像間の相互作用を考慮した重要度算出が可能となり、超広角画像のように複数の顕著性の高い物体を含む画像の注目点を精度良く推定することが可能になることに加え、説明変数が削減されることにより、汎化性能が向上する。

なお、上述した第１実施形態においては、以下に述べる設計変更が可能である。

例えば、入力画像を分割する方法としては、全方位画像の球面を正多面体で近似して分割する方法の他にも、任意の分割方法を採用することができ、例えば、全方位画像の球面を準正多面体で近似して分割しても良いし、全方位画像の球面上にランダムに展開した母点に基づくボロノイ分割によって分割しても良い。

また、部分画像は、全方位画像を透視投影変換した画像に限らず、その他の投影法によって投影した画像であっても良い。例えば、それは、正投影した画像であって良いし、図７（ａ）、（ｂ）に示すように、投影中心Ｏを単位球の中心からずらして透視投影変換を行った画像であっても良い。図７（ａ）、（ｂ）に示す投影法によれば、画像端の射影歪みを緩和することが可能となり、また画角１８０度以上の投影も可能となるので、より少ない画像分割で要素特徴を抽出することが可能となる。

また、画角が３６０度に至らないカメラで撮影した画像を処理対象とする場合には、その範囲の画角の画像をEquirectangluar形式に変換してなる画像（部分的に欠損した画像）を上述したのと同様の手順で処理すれば良い。

さらに、処理対象がEquirectangular形式の画像でない場合であっても、その画像を撮影したカメラが校正済み（すなわち、カメラ撮像面の位置に対応する三次元空間中の光線の方向が既知）である限り、上述したのと同様に扱うことができる。なお、処理対象が未校正カメラの撮影画像である場合は、画像を正多面体で近似して分割する方法を適用することはできないが、その場合は、その他の適用可能な分割方式（例えば、先述のボロノイ分割）で領域分割すれば良い。

以上、線形回帰モデルに基づいて入力画像から注目点を推定する本発明の第１実施形態を説明してきたが、続いて、本発明の第２実施形態について説明する。第２実施形態は、ニューラルネットワークを用いて入力画像から注目点を推定する点が第１実施形態と異なる。なお、以下では、第１実施形態の内容と共通する部分の説明を省略し、専ら、第１実施形態との相違点のみを説明するものとする。

（第２実施形態）
第２実施形態では、特徴量抽出部１０３を、部分画像を入力とし、特徴量を出力とするニューラルネットワークとして構成する。例えば、特徴量抽出部１０３は、図８に例示するように、物体認識の分野で使われるような畳み込みネットワークなどを使用して構成することができる。この場合、畳み込み層では、複数種の重みを持ったフィルタ演算が行われ、畳み込み層で算出された値は活性化関数で変換される。活性化関数としては、ロジスティクス関数、逆正接関数、ReLUなどを例示することができる。一方、プーリングは、変数を間引く処理であり、プーリングとしては、最大値プーリングや平均値プーリングなどを例示することができる。

一方、第２実施形態では、重要度算出部１０４を、各部分画像から抽出された特徴量群を入力とし、入力画像の位置に応じた重要度を出力とするニューラルネットワークとして構成する。この場合、重要度算出部１０４は、図９に例示するように、入力された特徴量群を統合した後、全結合層における線形変換と、活性化関数における非線形変換を繰り返すことにより、重要度を算出する。

本実施形態では、特徴量抽出部１０３を構成するニューラルネットワークおよび重要度算出部１０４を構成するニューラルネットワークのそれぞれについて、事前に訓練データを用いて学習を実施し、パラメータを同定しておく。なお、本実施形態では、特徴量抽出部１０３と重要度算出部１０４の少なくとも一方で学習を行った後に、特徴量抽出部１０３と重要度算出部１０４を１つのネットワークとして結合して全体を学習する、ファインチューニングと呼ばれる手法を適用しても良い。

本実施形態では、特徴量抽出部１０３について、部分画像と特徴量（顕著性や物体ラベルなど）のデータセットを訓練データとして用いて学習を実施し、重要度算出部１０４について、特徴量（顕著性や物体ラベルなど）と重要度のデータセットを訓練データとして用いて学習を実施する。また、本実施形態では、図１０に示すように、部分画像と物体ラベル（特徴量）のデータセットを学習したネットワークの中間層の値を特徴量として抽出し、当該中間層の値と重要度のデータセットを重要度算出部１０４に学習させるようにしても良い。また、本実施形態では、特徴量抽出部１０３と重要度算出部１０４を１つのネットワークとみなして、入力画像と重要度のデータセットを学習させるようにしても良い。

一方、第２実施形態では、注目点尤度分布算出部１０５を、重要度を入力とし、注目点の尤度分布を出力とするニューラルネットワークとして構成する。本実施形態では、先に説明した上記式（４）を、注目点尤度a(p)と重要度g(p)の畳み込みを求めて関数ηで変換するものと考え、関数ηを活性化関数として考え、畳み込みの積分を変数qの離散化による数値積分で置き換えることにより、ニューラルネットワークの形式で計算が可能となる。

本実施形態では、注目点尤度分布算出部１０５の学習を次のように行うことができる。求めるパラメータは重要度を加重加算するための重みw(p,q)である。これを、直接的に学習することも可能であるし、上記式（６）の値で固定しても良いし、上記式（６）の値を初期値として設定して学習しても良い。

図１１は、注目点尤度分布算出部１０５を構成するニューラルネットワークを例示的に示す。

一方、第２実施形態では、注目点算出部１０６を、注目点の尤度分布を入力とし、注目点を出力とするニューラルネットワークとして構成する。図１２は、注目点算出部１０６を、先に説明した下記式（６）に対応した注目点尤度分布の平均値に対応する注目点を生成するように構成した例を示す。なお、注目点算出部１０６は、図１２に示す構成に限定されるものではなく、最大値出力層を使って最大値を注目点として出力するように構成することも可能である。

ここで、注目点算出部１０６のネットワークの重みは固定された視点方向(p1, p2, …, p_K)であり、本来的には調整する必要はないが、初期値として固定視点方向を与えた後、これを学習で調整するようにして良い。また、本実施形態では、注目点尤度分布算出部１０５と注目点算出部１０６を１つのネットワークとみなして、図１３に例示するようなニューラルネットワークを構成することも可能である。

なお、本実施形態では、注目点を学習する場合の誤差関数として、教師データの注目点ベクトルと算出した注目点ベクトルのなす角度を利用することができ、教師データの注目点と予測した注目点のユークリッド距離を誤差として扱うこともできる。ユークリッド距離を用いる場合、注目点ベクトルの方向だけではなくノルムも評価されるため、注目点尤度a(p)を正規化するステップを導入することが望ましく、これは関数ηも含めてソフトマックス関数により実現することが可能である。図１４は、注目点尤度a(p)を正規化するステップをソフトマックス関数で構成した例を示す。

なお、本実施形態では、注目点尤度分布算出部１０５と注目点算出部１０６の学習を別々に行なっても良いし、両者を一つのネットワークとして見なして全体を学習しても良いし、いずれか一方を先に学習してから全体をファインチューニングしても良い。

なお、これまで特徴量抽出部１０３、重要度算出部１０４、注目点尤度分布算出部１０５および注目点算出部１０６の各々をニューラルネットワークとして構成する場合について説明したきたが、別法では、これら４つの手段を一つのニューラルネットワークとして構成しても良いし、これら４つの手段のうちの少なくとも一つを線形回帰に置き換えて構成しても良い。

以上、説明したように、本実施形態によれば、入力画像（Equirectangular形式の全方位画像）からニューラルネットワークを用いて注目点を推定することによって、入力から出力までの全体最適が可能となることに加え、大量の訓練データをスケーラブルに学習することができ、結果として、高精度に注目点を推定することが可能となる。

以上、ニューラルネットワークを用いて入力画像から注目点を推定する第２実施形態について説明してきたが、別法では、上述したニューラルネットワークの少なくとも一つを、サポートベクトル回帰、ランダムフォレスト回帰といったその他の非線形回帰に置き換えても良い。

なお、これまでは、各部分画像の特徴量から第１の回帰モデルを用いて重要度を算出した後に、算出された重要度から第２の回帰モデルを用いて注目点を算出する構成について説明してきたが、第１の回帰モデルを用いて算出される重要度には、以下のような別の用途を想定することができる。例えば、本実施形態では、入力画像から算出される重要度を利用して、入力画像におけるユーザの注目点のヒートマップを生成することができる。その他、例えば、入力画像から算出される重要度を利用して、入力画像の画像圧縮時に割り当てるビットレートを制御することができる。具体的には、重要度の大きな画素には高いビットレートを割り当て、重要度の小さい画素には低いビットレートが割り当てることによって、画像の品質を最適化することができる。つまり、本発明の実施形態である画像解析装置１００は、入力画像の注目点を算出する装置として観念されるだけでなく、入力画像の位置ごとの重要度を算出する装置としても観念することができる。

また、上述した実施形態では、専ら、各部分画像の特徴量から第１の回帰モデルを用いて重要度を算出した後に、算出された重要度から第２の回帰モデルを用いて注目点を算出するという２段階の手法を説明してきたが、別の実施形態では、各部分画像を入力とし、注目点を出力とする関数であって、上述した重要度に相当する中間変数を持つ合成関数を設計することによって、部分画像（または部分画像から抽出された特徴量）を入力とし、注目点を出力とする訓練データを用いた１段階の学習で回帰モデルを構築することが可能になる。そして、この場合は、合成関数の中間変数を、上述した重要度の代わりに、ユーザの注目点の可視化や画像圧縮時のビットレートの割り当て制御に用いることが可能となる。

最後に、図１５に基づいて本実施形態の画像解析装置１００を構成するコンピュータのハードウェア構成について説明する。

図１５に示すように、本実施形態の画像解析装置１００を構成するコンピュータは、装置全体の動作を制御するプロセッサ１０と、ブートプログラムやファームウェアプログラムなどを保存するＲＯＭ１２と、プログラムの実行空間を提供するＲＡＭ１４と、画像解析装置１００を上述した各手段として機能させるためのプログラムやオペレーティングシステム（ＯＳ）等を保存するための補助記憶装置１５と、外部入出力装置を接続するための入出力インタフェース１６と、ネットワークに接続するためのネットワーク・インターフェース１８とを備えている。

なお、上述した実施形態の各機能は、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）などで記述されたプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、フレキシブルディスク、ＥＥＰＲＯＭ、ＥＰＲＯＭなどの記録媒体に格納して頒布することができ、また他の装置が可能な形式でネットワークを介して伝送することができる。

以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

１０…プロセッサ
１２…ＲＯＭ
１４…ＲＡＭ
１５…補助記憶装置
１６…入出力インタフェース
１８…ネットワーク・インターフェース
１００…画像解析装置
１０１…画像入力部
１０２…部分画像分割部
１０３…特徴量抽出部
１０４…重要度算出部
１０５…注目点尤度分布算出部
１０６…注目点算出部

特許４５３８００８号公報特許３４１１９７１号公報特許５１５８９７４号公報特許５７６６６２０号公報特許５８６５０７８号公報

L. Itti, et al., "A model of saliency-based visual attention for rapid scene analysis," IEEE Transactions on Pattern Analysis & Machine Intelligence 11 pp. 1254-1259, 1998. R. Zhao, et al., "Saliency detection by multi-context deep learning," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015. X. Huang, et al., "SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks," Proceedings of the IEEE International Conference on Computer Vision. 2015.

Claims

入力画像を異なる複数の方向に再投影して複数の部分画像に分割する部分画像分割部と、
各前記部分画像から特徴量を抽出する特徴量抽出部と、
抽出した前記特徴量から所定の回帰モデルに基づいて前記入力画像の位置ごとの重要度を算出する重要度算出部と、
算出した前記重要度から所定の回帰モデルに基づいて注目点の尤度分布を算出する注目点尤度分布算出部と、
前記注目点の尤度分布に基づいて注目点を算出する注目点算出部と
を含む、
画像解析装置。
前記注目点算出部は、
前記注目点の尤度分布の最尤値、平均値および局所最大値のうちのいずれかに対応する位置を注目点として算出する、
請求項１に記載の画像解析装置。
前記注目点尤度分布算出部は、
前記重要度を加重加算して前記注目点の尤度分布を算出する、
請求項１または２に記載の画像解析装置。
前記特徴量抽出部、前記重要度算出部、前記注目点尤度分布算出部、および前記注目点算出部のうちの少なくとも１つがニューラルネットワークで構成される、
請求項１〜３のいずれか一項に記載の画像解析装置。
入力画像の注目点を算出する方法であって、
前記入力画像を異なる複数の方向に再投影して複数の部分画像に分割するステップと、
各前記部分画像から特徴量を抽出するステップと、
抽出した前記特徴量から所定の回帰モデルに基づいて前記入力画像の位置ごとの重要度を算出するステップと、
算出した前記重要度から所定の回帰モデルに基づいて注目点の尤度分布を算出するステップと、
前記注目点の尤度分布に基づいて注目点を算出するステップと、
を含む、
方法。
前記注目点を算出するステップは、
前記注目点の尤度分布の最尤値、平均値および局所最大値のうちのいずれかに対応する位置を注目点として算出するステップを含む、
請求項５に記載の方法。
前記注目点の尤度分布を算出するステップは、
前記重要度を加重加算して前記注目点の尤度分布を算出するステップを含む、
請求項５または６に記載の方法。
コンピュータに、請求項５〜７のいずれか一項に記載の方法の各ステップを実行させるためのプログラム。