[go: up one dir, main page]

JP6798183B2 - 画像解析装置、画像解析方法およびプログラム - Google Patents

画像解析装置、画像解析方法およびプログラム Download PDF

Info

Publication number
JP6798183B2
JP6798183B2 JP2016153492A JP2016153492A JP6798183B2 JP 6798183 B2 JP6798183 B2 JP 6798183B2 JP 2016153492 A JP2016153492 A JP 2016153492A JP 2016153492 A JP2016153492 A JP 2016153492A JP 6798183 B2 JP6798183 B2 JP 6798183B2
Authority
JP
Japan
Prior art keywords
interest
image
point
importance
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016153492A
Other languages
English (en)
Other versions
JP2018022360A (ja
Inventor
崇之 原
崇之 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016153492A priority Critical patent/JP6798183B2/ja
Priority to US15/664,480 priority patent/US10635926B2/en
Publication of JP2018022360A publication Critical patent/JP2018022360A/ja
Application granted granted Critical
Publication of JP6798183B2 publication Critical patent/JP6798183B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像解析装置、画像解析方法およびプログラムに関する。
従来、画像からユーザの興味領域を抽出する技術は、画像の自動クロッピング/サムネイル生成や、画像理解/画像検索におけるアノテーション生成の前処理などに広く利用されており、興味領域の抽出方法としては、物体認識や顕著性マップを利用する方法が知られている。
物体認識に基づく興味領域抽出技術として、特許文献1は、画像中から顔領域を検出し、顔領域の画像を抽出する技術を開示し、特許文献2は、人検出により画像中の人物領域を抽出する技術を開示する。物体認識に基づいて興味領域抽出を行う場合、物体ごとにモデルを用意する必要がある。
一方、顕著性マップを用いた興味領域抽出では、色やエッジといった低次の特徴量を用いることで、より汎用的な興味領域抽出が可能となる。この点につき、非特許文献1は、脳神経科学において研究されている人間の視覚モデルを利用し、画像の局所的な特徴からボトムアップ的に顕著性マップを生成する方法を開示する。また、特許文献3は、各画素で算出されたエッジ量のマップに対して、注目領域重み付けマップを乗算することで精度良く顕著性マップを得る技術を開示する。さらに、特許文献4、5は、画像特徴量に深度情報を合わせて顕著性を算出する技術を開示する。
さらに近年では、画像の低次の特徴(色、エッジ、深度など)に対して、より高次の意味的な情報を利用して興味領域抽出を行うアプローチが試みられている。この点につき、非特許文献2,3は、ニューラルネットワークを用いて画像から高次特徴を抽出し、興味領域を推定する方法を開示する。
さらに近年、180度を超える画角を有する魚眼カメラや360度全方位を撮影可能な全方位カメラなどの超広角カメラが広く用いられるようになっており、これらの超広角画像から精度良く興味領域を推定したいという要請がある。
本発明は、上記に鑑みてなされたものであり、超広角画像から精度良く興味領域(注目点)を推定することができる画像解析装置を提供することを目的とする。
本発明者は、超広角画像から精度良く興味領域(注目点)を推定することができる画像解析装置につき鋭意検討した結果、以下の構成に想到し、本発明に至ったのである。
すなわち、本発明によれば、入力画像を異なる複数の方向に再投影して複数の部分画像に分割する部分画像分割部と、各前記部分画像から特徴量を抽出する特徴量抽出部と、抽出した前記特徴量から所定の回帰モデルに基づいて前記入力画像の位置ごとの重要度を算出する重要度算出部と、算出した前記重要度から所定の回帰モデルに基づいて注目点の尤度分布を算出する注目点尤度分布算出部と、前記注目点の尤度分布に基づいて注目点を算出する注目点算出部とを含む画像解析装置が提供される。
上述したように、本発明によれば、超広角画像から精度良く興味領域(注目点)を推定することができる画像解析装置が提供される。
Equirectangular形式(正距円筒図法)の画像を説明するための概念図。 第1実施形態の画像解析装置の機能ブロック図。 第1実施形態の画像解析装置が実行する処理を示すフローチャート。 部分画像分割部が実行する処理を説明するための概念図。 部分画像分割部が実行する処理を説明するための概念図。 注目点尤度分布算出部が実行する処理を説明するための概念図。 部分画像分割部が実行する処理を説明するための概念図。 第2実施形態の特徴量抽出部のニューラルネットワーク構成を示す図。 第2実施形態の重要度算出部のニューラルネットワーク構成を示す図。 第2実施形態の特徴量抽出部のニューラルネットワーク構成を示す図。 第2実施形態の注目点尤度分布算出部のニューラルネットワーク構成を示す図。 第2実施形態の注目点算出部のニューラルネットワーク構成を示す図。 第2実施形態のニューラルネットワーク構成を示す図。 第2実施形態のニューラルネットワーク構成を示す図。 本実施形態の画像解析装置のハードウェア構成図。
以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜、その説明を省略するものとする。
本発明の実施形態である画像解析装置は、入力された画像から興味領域を抽出する機能を備え、より具体的には、注目点(興味領域内の点、または、興味領域の重心)を推定する機能を備える。ここで、本実施形態の画像解析装置の説明に入る前に、超広角画像(魚眼カメラや全方位カメラの撮影画像など)に対して、従来の興味領域抽出技術を適用した場合、興味領域を精度良く抽出することができない理由について説明する。
まず第一に、超広角画像を、図1に示すEquirectangular形式(正距円筒図法)の画像に変換し、変換後の画像から興味領域を抽出するといった方法が考えられる。ここで、Equirectangular形式は、主にパノラマ撮影に使われる画像の表現形式であり、図1に示すように、画素の3次元方向を緯度と経度に分解し、正方格子状に対応する画素値を並べた画像形式である。Equirectangular形式の画像からは、経度緯度の座標値から任意の3次元方向の画素値を得ることができ、概念的には、単位球に画素値がプロットされたものとして捉えることができる。
しかしながら、Equirectangular形式の画像から直接的に興味領域を抽出する場合、歪みが極端に大きくなる天頂・天底近傍の領域や画像境界に存在する興味領域を抽出することができないという問題がある。
第二に、超広角画像を複数の画像に分割し、各分割画像から興味領域を抽出するといった方法が考えられる。しかしながら、この場合、各分割画像から得られる顕著性マップの統合法が明らかではない。
さらに、超広角画像の場合、一つの画像内に複数の顕著性の高い物体が含まれていることが想定されるが、従来技術には、複数の物体間の優先順位を判断する仕組みがない。
以上、従来の興味領域抽出技術の問題点について説明してきたが、この問題に対し、本実施形態の画像解析装置は、歪みが大きく、複数の物体を含む超広角画像から、精度良くユーザの興味領域(注目点)を抽出する機能を備えることを特徴とする。以下、本実施形態の画像解析装置の具体的な構成について説明する。
(第1実施形態)
図2は、本発明の第1実施形態である画像解析装置100の機能ブロックを示す。図2に示すように、画像解析装置100は、画像入力部101と、部分画像分割部102と、特徴量抽出部103と、重要度算出部104と、注目点尤度分布算出部105と、注目点算出部106を含んで構成される。
画像入力部101は、処理対象となる画像を入力する手段である。
部分画像分割部102は、処理対象となる画像を異なる複数の方向に再投影して複数の部分画像に分割する手段である。
特徴量抽出部103は、各部分画像から特徴量を抽出する手段である。
重要度算出部104は、抽出した特徴量から所定の回帰モデルに基づいて、処理対象となる画像の位置ごとの重要度を算出する手段である。
注目点尤度分布算出部105は、算出した重要度から所定の回帰モデルに基づいて注目点の尤度分布を算出する手段である。
注目点算出部106は、算出した注目点の尤度分布に基づいて注目点を算出する手段である。
なお、本実施形態では、画像解析装置100を構成するコンピュータが所定のプログラムを実行することにより、画像解析装置100が上述した各手段として機能する。
以上、本実施形態の画像解析装置100の機能構成について説明してきたが、続いて、画像解析装置100が実行する処理の内容を図3に示すフローチャートに基づいて説明する。
まず、ステップ101では、画像入力部101が、任意の記憶手段から処理対象となるEquirectangular形式の全方位画像を読み込んで入力する。以下、入力した画像を“入力画像”という。
続くステップ102では、部分画像分割部102が、入力画像(全方位画像)の撮影方向を空間的に等分割し、入力画像を異なる複数の撮影方向に再投影することによって、入力画像を複数の部分画像に分割する。以下、入力画像を複数の部分画像に分割する手順を説明する。
図1に示すように、Equirectangular形式の画像からは、経度緯度の座標値から任意の3次元方向の画素値を得ることができ、Equirectangular形式の画像は、概念的には単位球に画素値がプロットされたものとして捉えることができる。そこで、本実施形態では、図4に示すように、所定の投影面を定義し、単位球の中心を投影中心Oとして、下記式(1)により、Equirectangular形式の全方位画像の画素値(θ,φ)を定義した投影面上の画素値(x,y)に対応させる透視投影変換を行って部分画像を得る。なお、下記式(1)において、Pは透視投影行列を示し、等号は0以外のスカラー倍で等しいことを示す。
具体的には、Equirectangular形式の全方位画像の投影面として、単位球と共通する中心を有する正多面体を定義した上で、各面の法線方向を視線方向として透視投影変換を行って部分画像を得る。図5(a)は、全方位画像の投影面として正八面体を定義した例を示し、図5(b)は、全方位画像の投影面として正十二面体を定義した例を示す。
続くステップ103では、特徴量抽出部103が、先のステップ102で得た各部分画像から所定の特徴量を抽出する。なお、特徴量は、部分画像の画素単位で抽出しても良いし、特定のサンプリング位置から抽出しても良い。本実施形態では、入力画像を上述の方法で分割し、歪みの少ない部分画像から特徴量を算出するので、180度を超える超広角画像をロバストに処理することが可能になる。
なお、本実施形態では、特徴量として、色、エッジ、顕著性、物体位置/ラベル、などを用いることができる。
色特徴としては、特定の色空間(RGBやL*a*b*など)の値、特定色(たとえば肌の色)とのユークリッド距離、マハラノビス距離などを使用することができる。
エッジ特徴としては、Sobelフィルタやガボールフィルタなどで抽出した画素値勾配の方向や強度を用いることができる。
顕著性としては、既存の顕著性抽出アルゴリズムによって抽出された顕著性の値を用いることができる。ここでいう、顕著性抽出アルゴリズムの例として、先に挙げた特許文献3〜5、非特許文献1〜3に開示されるアルゴリズムを挙げることができる。
物体位置/ラベル特徴としては、既知の物体検出アルゴリズムで検出された物体の位置(通常、検出矩形の4隅の座標で表される)と物体種(顔、人、車、等)を用いることができる。ここで、物体検出アルゴリズムの例として、先に挙げた特許文献1、2に開示されるアルゴリズムを挙げることができる。
なお、本実施形態で採用することができる特徴量は、上記に限定されるものではなく、従来、画像認識の分野で使用されているその他の特徴量(LBP, Haar like feature, HOG, SIFT,など)を採用しても良いことはいうまでもない。
続くステップ104では、重要度算出部104が、所定の回帰モデルを用いて、各部分画像から抽出した特徴量から入力画像の位置ごと(画素ごと)に重要度を算出する。以下、この点を具体的に説明する。
入力画像をN個に分割した部分画像のi番目の部分画像の位置ごとの特徴量を並べたベクトルをlとし、入力画像の位置ごとの重要度を並べたベクトルをgとした上で、下記式(2)に示す回帰モデルfを考える。
ここで、回帰モデルfの具体的な形として、下記式(3)に示す線形変換を例示することができる。
上記式(3)において、W、bはパラメータを示す。本実施形態では、特徴量lを入力とし、重要度gを出力とする訓練データを事前に用意しておき、当該訓練データを学習させることによって、パラメータW、bを同定しておく。
その前提として、本実施形態では、訓練データの出力(教師データ)である重要度gを適切な方法で取得する。重要度gを取得する最も単純な方法としては、対象画像において、被験者が重要と思う領域を被験者に指定させ、被験者が指定した領域を構成する各画素の重要度を「1」とし、それ以外の画素の重要度を「0」とするといった方法を挙げることができる。この他にも、対象画像を見る被験者の視点の軌跡をアイトラッカーなどで取得した後、取得した視点の軌跡(線)にガウシアンぼかしを施し、その濃淡レベルに基づいて正規化された重要度(0〜1)を取得する方法を例示することができる。
続くステップ105では、重要度の高い方向にユーザの注目点が存在するという設計思想の下、注目点尤度分布算出部105が、先のステップ104で算出された重要度の分布に基づいて注目点の尤度分布を算出する。本実施形態では、図6に示すように、単位画像面上に、視点Aを通る撮影方向を中心とする領域Rを定義した上で、領域R内の各位置の重要度を加算した加算値を視点Aの注目点尤度として算出することができる。また、本実施形態では、領域R内の各位置の重要度に対して、視点Aから離れるに従って減衰するような重みを与えた上で、その重みを用いた重要度の加重加算値を視点Aの注目点尤度として算出することもできる。
ここで、撮影方向の3次元ベクトルをp、撮影方向pの重要度をg(p)と表現すると、注目点尤度a(p)は、下記式(4)のように定式化することができる。
上記式(4)において、ηは単調増加関数を示し、w(p,q)は重みを示し、積分は定積分であり、積分範囲は撮影単位球面全体である。本実施形態では、ηを指数関数とすることができ、w(p,q)を下記式(5)に示す関数とすることができる。
上記式(5)はvon Mises分布に順ずるものであり、方向p, qが一致する場合に最大値、p,qが逆方向を向く際に最小値を取る。本実施形態では、パラメータαで重みの減衰率を決めることができ、注目点を考える画角を反映することができる。
また、本実施形態では、重みw(p,q)を、下記式(6)に示すように、{αi}をパラメータとして、方向p,qの内積の多項式を指数関数の引数に取ることもできる。
再び、図3に戻って説明を続ける。
続くステップ106では、注目点算出部106が、注目点尤度分布a(p)に基づいて注目点を算出する。本実施形態では、例えば、注目点尤度a(p)の最尤値に対応する撮影方向pに対応する位置を注目点として算出しても良いし、下記式(7)に示すように、注目点尤度分布a(p)の平均値に対応する撮影方向pに対応する位置を注目点としても良い。なお、下記式(7)の積分は定積分であり、積分範囲は撮影単位球面全体である。
また、本実施形態では、注目点尤度a(p)の局所最大値に対応するN個(Nは1以上の整数。)の撮影方向pに対応する位置を注目点として算出するようにしてもよい。これにより、注目点尤度a(p)の局所最大値が複数存在する場合は、複数の注目点を得ることができる。なお、注目点尤度a(p)の局所最大値は、ランダムに生成したpの初期値から山登り法で探索して求めることができ、M個の注目点をそれぞれが離れた位置で求めたいという場合には、下記式(8)に示す評価関数を最大化するp1, p2, ..., pMとして複数の注目点を求めることができる。
なお、上記式(8)において、dは、視点間の距離を表現する関数であり、このような関数としては、p1, p2, ..,, pMの分散や各視点間のユークリッド距離の総和などを例示することができる。
以上、入力画像(Equirectangular形式の全方位画像)から注目点が算出されるまでの一連の処理を説明した。なお、本実施形態の画像解析装置100をクロッピングやサムネイル生成に適用する場合には、上述した手順で求めた注目点を中心に特定の画角を設定することで興味領域を定義し、定義した興味領域の画像を、そのままクロッピング画像やサムネイル画像とする。この場合、設定する画角は、回帰モデルに与えた訓練データにおける注目点を含む興味領域の画角であることが望ましい。また、本実施形態の画像解析装置100を画像認識/画像検索システムに適用する場合には、注目点を含む物体領域を認識対象、検索対象の物体とする。
以上、説明したように、本実施形態では、各部分画像の特徴量から直接的に注目点を算出するのではなく、各部分画像の特徴量から第1の回帰モデルを用いて重要度を算出した後に、算出した重要度から第2の回帰モデルを用いて注目点を算出するという構成を採用する。これにより、部分画像間の相互作用を考慮した重要度算出が可能となり、超広角画像のように複数の顕著性の高い物体を含む画像の注目点を精度良く推定することが可能になることに加え、説明変数が削減されることにより、汎化性能が向上する。
なお、上述した第1実施形態においては、以下に述べる設計変更が可能である。
例えば、入力画像を分割する方法としては、全方位画像の球面を正多面体で近似して分割する方法の他にも、任意の分割方法を採用することができ、例えば、全方位画像の球面を準正多面体で近似して分割しても良いし、全方位画像の球面上にランダムに展開した母点に基づくボロノイ分割によって分割しても良い。
また、部分画像は、全方位画像を透視投影変換した画像に限らず、その他の投影法によって投影した画像であっても良い。例えば、それは、正投影した画像であって良いし、図7(a)、(b)に示すように、投影中心Oを単位球の中心からずらして透視投影変換を行った画像であっても良い。図7(a)、(b)に示す投影法によれば、画像端の射影歪みを緩和することが可能となり、また画角180度以上の投影も可能となるので、より少ない画像分割で要素特徴を抽出することが可能となる。
また、画角が360度に至らないカメラで撮影した画像を処理対象とする場合には、その範囲の画角の画像をEquirectangluar形式に変換してなる画像(部分的に欠損した画像)を上述したのと同様の手順で処理すれば良い。
さらに、処理対象がEquirectangular形式の画像でない場合であっても、その画像を撮影したカメラが校正済み(すなわち、カメラ撮像面の位置に対応する三次元空間中の光線の方向が既知)である限り、上述したのと同様に扱うことができる。なお、処理対象が未校正カメラの撮影画像である場合は、画像を正多面体で近似して分割する方法を適用することはできないが、その場合は、その他の適用可能な分割方式(例えば、先述のボロノイ分割)で領域分割すれば良い。
以上、線形回帰モデルに基づいて入力画像から注目点を推定する本発明の第1実施形態を説明してきたが、続いて、本発明の第2実施形態について説明する。第2実施形態は、ニューラルネットワークを用いて入力画像から注目点を推定する点が第1実施形態と異なる。なお、以下では、第1実施形態の内容と共通する部分の説明を省略し、専ら、第1実施形態との相違点のみを説明するものとする。
(第2実施形態)
第2実施形態では、特徴量抽出部103を、部分画像を入力とし、特徴量を出力とするニューラルネットワークとして構成する。例えば、特徴量抽出部103は、図8に例示するように、物体認識の分野で使われるような畳み込みネットワークなどを使用して構成することができる。この場合、畳み込み層では、複数種の重みを持ったフィルタ演算が行われ、畳み込み層で算出された値は活性化関数で変換される。活性化関数としては、ロジスティクス関数、逆正接関数、ReLUなどを例示することができる。一方、プーリングは、変数を間引く処理であり、プーリングとしては、最大値プーリングや平均値プーリングなどを例示することができる。
一方、第2実施形態では、重要度算出部104を、各部分画像から抽出された特徴量群を入力とし、入力画像の位置に応じた重要度を出力とするニューラルネットワークとして構成する。この場合、重要度算出部104は、図9に例示するように、入力された特徴量群を統合した後、全結合層における線形変換と、活性化関数における非線形変換を繰り返すことにより、重要度を算出する。
本実施形態では、特徴量抽出部103を構成するニューラルネットワークおよび重要度算出部104を構成するニューラルネットワークのそれぞれについて、事前に訓練データを用いて学習を実施し、パラメータを同定しておく。なお、本実施形態では、特徴量抽出部103と重要度算出部104の少なくとも一方で学習を行った後に、特徴量抽出部103と重要度算出部104を1つのネットワークとして結合して全体を学習する、ファインチューニングと呼ばれる手法を適用しても良い。
本実施形態では、特徴量抽出部103について、部分画像と特徴量(顕著性や物体ラベルなど)のデータセットを訓練データとして用いて学習を実施し、重要度算出部104について、特徴量(顕著性や物体ラベルなど)と重要度のデータセットを訓練データとして用いて学習を実施する。また、本実施形態では、図10に示すように、部分画像と物体ラベル(特徴量)のデータセットを学習したネットワークの中間層の値を特徴量として抽出し、当該中間層の値と重要度のデータセットを重要度算出部104に学習させるようにしても良い。また、本実施形態では、特徴量抽出部103と重要度算出部104を1つのネットワークとみなして、入力画像と重要度のデータセットを学習させるようにしても良い。
一方、第2実施形態では、注目点尤度分布算出部105を、重要度を入力とし、注目点の尤度分布を出力とするニューラルネットワークとして構成する。本実施形態では、先に説明した上記式(4)を、注目点尤度a(p)と重要度g(p)の畳み込みを求めて関数ηで変換するものと考え、関数ηを活性化関数として考え、畳み込みの積分を変数qの離散化による数値積分で置き換えることにより、ニューラルネットワークの形式で計算が可能となる。
本実施形態では、注目点尤度分布算出部105の学習を次のように行うことができる。求めるパラメータは重要度を加重加算するための重みw(p,q)である。これを、直接的に学習することも可能であるし、上記式(6)の値で固定しても良いし、上記式(6)の値を初期値として設定して学習しても良い。
図11は、注目点尤度分布算出部105を構成するニューラルネットワークを例示的に示す。
一方、第2実施形態では、注目点算出部106を、注目点の尤度分布を入力とし、注目点を出力とするニューラルネットワークとして構成する。図12は、注目点算出部106を、先に説明した下記式(6)に対応した注目点尤度分布の平均値に対応する注目点を生成するように構成した例を示す。なお、注目点算出部106は、図12に示す構成に限定されるものではなく、最大値出力層を使って最大値を注目点として出力するように構成することも可能である。
ここで、注目点算出部106のネットワークの重みは固定された視点方向(p1, p2, …, pK)であり、本来的には調整する必要はないが、初期値として固定視点方向を与えた後、これを学習で調整するようにして良い。また、本実施形態では、注目点尤度分布算出部105と注目点算出部106を1つのネットワークとみなして、図13に例示するようなニューラルネットワークを構成することも可能である。
なお、本実施形態では、注目点を学習する場合の誤差関数として、教師データの注目点ベクトルと算出した注目点ベクトルのなす角度を利用することができ、教師データの注目点と予測した注目点のユークリッド距離を誤差として扱うこともできる。ユークリッド距離を用いる場合、注目点ベクトルの方向だけではなくノルムも評価されるため、注目点尤度a(p)を正規化するステップを導入することが望ましく、これは関数ηも含めてソフトマックス関数により実現することが可能である。図14は、注目点尤度a(p)を正規化するステップをソフトマックス関数で構成した例を示す。
なお、本実施形態では、注目点尤度分布算出部105と注目点算出部106の学習を別々に行なっても良いし、両者を一つのネットワークとして見なして全体を学習しても良いし、いずれか一方を先に学習してから全体をファインチューニングしても良い。
なお、これまで特徴量抽出部103、重要度算出部104、注目点尤度分布算出部105および注目点算出部106の各々をニューラルネットワークとして構成する場合について説明したきたが、別法では、これら4つの手段を一つのニューラルネットワークとして構成しても良いし、これら4つの手段のうちの少なくとも一つを線形回帰に置き換えて構成しても良い。
以上、説明したように、本実施形態によれば、入力画像(Equirectangular形式の全方位画像)からニューラルネットワークを用いて注目点を推定することによって、入力から出力までの全体最適が可能となることに加え、大量の訓練データをスケーラブルに学習することができ、結果として、高精度に注目点を推定することが可能となる。
以上、ニューラルネットワークを用いて入力画像から注目点を推定する第2実施形態について説明してきたが、別法では、上述したニューラルネットワークの少なくとも一つを、サポートベクトル回帰、ランダムフォレスト回帰といったその他の非線形回帰に置き換えても良い。
なお、これまでは、各部分画像の特徴量から第1の回帰モデルを用いて重要度を算出した後に、算出された重要度から第2の回帰モデルを用いて注目点を算出する構成について説明してきたが、第1の回帰モデルを用いて算出される重要度には、以下のような別の用途を想定することができる。例えば、本実施形態では、入力画像から算出される重要度を利用して、入力画像におけるユーザの注目点のヒートマップを生成することができる。その他、例えば、入力画像から算出される重要度を利用して、入力画像の画像圧縮時に割り当てるビットレートを制御することができる。具体的には、重要度の大きな画素には高いビットレートを割り当て、重要度の小さい画素には低いビットレートが割り当てることによって、画像の品質を最適化することができる。つまり、本発明の実施形態である画像解析装置100は、入力画像の注目点を算出する装置として観念されるだけでなく、入力画像の位置ごとの重要度を算出する装置としても観念することができる。
また、上述した実施形態では、専ら、各部分画像の特徴量から第1の回帰モデルを用いて重要度を算出した後に、算出された重要度から第2の回帰モデルを用いて注目点を算出するという2段階の手法を説明してきたが、別の実施形態では、各部分画像を入力とし、注目点を出力とする関数であって、上述した重要度に相当する中間変数を持つ合成関数を設計することによって、部分画像(または部分画像から抽出された特徴量)を入力とし、注目点を出力とする訓練データを用いた1段階の学習で回帰モデルを構築することが可能になる。そして、この場合は、合成関数の中間変数を、上述した重要度の代わりに、ユーザの注目点の可視化や画像圧縮時のビットレートの割り当て制御に用いることが可能となる。
最後に、図15に基づいて本実施形態の画像解析装置100を構成するコンピュータのハードウェア構成について説明する。
図15に示すように、本実施形態の画像解析装置100を構成するコンピュータは、装置全体の動作を制御するプロセッサ10と、ブートプログラムやファームウェアプログラムなどを保存するROM12と、プログラムの実行空間を提供するRAM14と、画像解析装置100を上述した各手段として機能させるためのプログラムやオペレーティングシステム(OS)等を保存するための補助記憶装置15と、外部入出力装置を接続するための入出力インタフェース16と、ネットワークに接続するためのネットワーク・インターフェース18とを備えている。
なお、上述した実施形態の各機能は、C、C++、C#、Java(登録商標)などで記述されたプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD−ROM、MO、DVD、フレキシブルディスク、EEPROM、EPROMなどの記録媒体に格納して頒布することができ、また他の装置が可能な形式でネットワークを介して伝送することができる。
以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
10…プロセッサ
12…ROM
14…RAM
15…補助記憶装置
16…入出力インタフェース
18…ネットワーク・インターフェース
100…画像解析装置
101…画像入力部
102…部分画像分割部
103…特徴量抽出部
104…重要度算出部
105…注目点尤度分布算出部
106…注目点算出部
特許4538008号公報 特許3411971号公報 特許5158974号公報 特許5766620号公報 特許5865078号公報
L. Itti, et al., "A model of saliency-based visual attention for rapid scene analysis," IEEE Transactions on Pattern Analysis & Machine Intelligence 11 pp. 1254-1259, 1998. R. Zhao, et al., "Saliency detection by multi-context deep learning," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015. X. Huang, et al., "SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks," Proceedings of the IEEE International Conference on Computer Vision. 2015.

Claims (8)

  1. 入力画像を異なる複数の方向に再投影して複数の部分画像に分割する部分画像分割部と、
    各前記部分画像から特徴量を抽出する特徴量抽出部と、
    抽出した前記特徴量から所定の回帰モデルに基づいて前記入力画像の位置ごとの重要度を算出する重要度算出部と、
    算出した前記重要度から所定の回帰モデルに基づいて注目点の尤度分布を算出する注目点尤度分布算出部と、
    前記注目点の尤度分布に基づいて注目点を算出する注目点算出部と
    を含む、
    画像解析装置。
  2. 前記注目点算出部は、
    前記注目点の尤度分布の最尤値、平均値および局所最大値のうちのいずれかに対応する位置を注目点として算出する、
    請求項に記載の画像解析装置。
  3. 前記注目点尤度分布算出部は、
    前記重要度を加重加算して前記注目点の尤度分布を算出する、
    請求項またはに記載の画像解析装置。
  4. 前記特徴量抽出部、前記重要度算出部、前記注目点尤度分布算出部、および前記注目点算出部のうちの少なくとも1つがニューラルネットワークで構成される、
    請求項のいずれか一項に記載の画像解析装置。
  5. 入力画像の注目点を算出する方法であって、
    前記入力画像を異なる複数の方向に再投影して複数の部分画像に分割するステップと、
    各前記部分画像から特徴量を抽出するステップと、
    抽出した前記特徴量から所定の回帰モデルに基づいて前記入力画像の位置ごとの重要度を算出するステップと、
    算出した前記重要度から所定の回帰モデルに基づいて注目点の尤度分布を算出するステップと、
    前記注目点の尤度分布に基づいて注目点を算出するステップと、
    を含む、
    方法。
  6. 前記注目点を算出するステップは、
    前記注目点の尤度分布の最尤値、平均値および局所最大値のうちのいずれかに対応する位置を注目点として算出するステップを含む、
    請求項に記載の方法。
  7. 前記注目点の尤度分布を算出するステップは、
    前記重要度を加重加算して前記注目点の尤度分布を算出するステップを含む、
    請求項またはに記載の方法。
  8. コンピュータに、請求項のいずれか一項に記載の方法の各ステップを実行させるためのプログラム。
JP2016153492A 2016-08-04 2016-08-04 画像解析装置、画像解析方法およびプログラム Active JP6798183B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016153492A JP6798183B2 (ja) 2016-08-04 2016-08-04 画像解析装置、画像解析方法およびプログラム
US15/664,480 US10635926B2 (en) 2016-08-04 2017-07-31 Image analyzing apparatus, image analyzing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016153492A JP6798183B2 (ja) 2016-08-04 2016-08-04 画像解析装置、画像解析方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018022360A JP2018022360A (ja) 2018-02-08
JP6798183B2 true JP6798183B2 (ja) 2020-12-09

Family

ID=61069318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016153492A Active JP6798183B2 (ja) 2016-08-04 2016-08-04 画像解析装置、画像解析方法およびプログラム

Country Status (2)

Country Link
US (1) US10635926B2 (ja)
JP (1) JP6798183B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6912890B2 (ja) * 2017-01-13 2021-08-04 キヤノン株式会社 情報処理装置、情報処理方法、システム
KR102498597B1 (ko) * 2017-08-22 2023-02-14 삼성전자 주식회사 전자 장치 및 이를 이용하여 관심 영역을 설정하여 오브젝트를 식별하는 방법
JP6912998B2 (ja) * 2017-10-25 2021-08-04 株式会社日立製作所 データ分析装置、データ分析方法、およびデータ分析プログラム
JP7118697B2 (ja) * 2018-03-30 2022-08-16 株式会社Preferred Networks 注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデル
JP7031511B2 (ja) * 2018-06-22 2022-03-08 株式会社リコー 信号処理装置、畳み込みニューラルネットワーク、信号処理方法及び信号処理プログラム
WO2020006378A1 (en) * 2018-06-29 2020-01-02 Zoox, Inc. Sensor calibration
US10991342B2 (en) 2018-07-04 2021-04-27 Ricoh Company, Ltd. Terminal apparatus, system, and method of displaying image
JP7219915B2 (ja) * 2019-02-25 2023-02-09 株式会社ファンテックス 追尾型照明装置および照明追尾システム
US11170789B2 (en) * 2019-04-16 2021-11-09 Microsoft Technology Licensing, Llc Attentive adversarial domain-invariant training
JP7310252B2 (ja) 2019-04-19 2023-07-19 株式会社リコー 動画生成装置、動画生成方法、プログラム、記憶媒体
EP3977347A1 (en) * 2019-05-28 2022-04-06 Telefonaktiebolaget LM Ericsson (publ) Improved object detection
CN110191362B (zh) * 2019-05-29 2021-03-16 鹏城实验室 数据传输方法及装置、存储介质及电子设备
GB2585645B (en) * 2019-07-08 2024-04-17 Toshiba Kk Computer vision method and system
US10999531B1 (en) * 2020-01-27 2021-05-04 Plantronics, Inc. Detecting and framing a subject of interest in a teleconference
JP7608826B2 (ja) 2020-12-25 2025-01-07 株式会社リコー 動画生成装置、動画生成方法、プログラム、記憶媒体
CN113032613B (zh) * 2021-03-12 2022-11-08 哈尔滨理工大学 一种基于交互注意力卷积神经网络的三维模型检索方法
CN115440153B (zh) * 2021-06-01 2025-01-28 力领科技股份有限公司 显示面板的子像素渲染方法
US12360268B2 (en) * 2021-08-05 2025-07-15 Saudi Arabian Oil Company Method and system for determination of seismic propagation velocities using nonlinear transformations
JP2024083830A (ja) * 2022-12-12 2024-06-24 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理方法、及びプログラム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3660108B2 (ja) * 1997-08-29 2005-06-15 株式会社リコー 画像保存方法及び機械読み取り可能媒体
JP3411971B2 (ja) 2001-02-14 2003-06-03 三菱電機株式会社 人物像抽出装置
KR100682888B1 (ko) * 2004-02-11 2007-02-15 삼성전자주식회사 가중된 회귀모델 결정 방법 및 이를 이용한 혼합물의 성분농도 예측 방법
EP1923835A4 (en) 2005-08-12 2017-10-25 Sony Interactive Entertainment Inc. Face image display, face image display method, and face image display program
JP2007143123A (ja) 2005-10-20 2007-06-07 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
JP4902368B2 (ja) * 2007-01-24 2012-03-21 三洋電機株式会社 画像処理装置及び画像処理方法
JP5158974B2 (ja) 2009-04-28 2013-03-06 株式会社ニコンシステム 注目領域抽出方法、プログラム、及び、画像評価装置
JP2011035634A (ja) * 2009-07-31 2011-02-17 Casio Computer Co Ltd 画像処理装置及び方法
JP5330530B2 (ja) * 2010-01-22 2013-10-30 パナソニック株式会社 画像管理装置、画像管理方法、プログラム、記録媒体及び集積回路
JP5934653B2 (ja) * 2010-11-29 2016-06-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
JP2012146040A (ja) * 2011-01-11 2012-08-02 Osaka City Univ 異常事態の検出システム
JP5774425B2 (ja) * 2011-09-16 2015-09-09 Kddi株式会社 画像解析装置および画像評価装置
JP5865078B2 (ja) 2011-12-28 2016-02-17 キヤノン株式会社 画像処理装置および画像処理方法
JP5766620B2 (ja) 2012-01-10 2015-08-19 日本電信電話株式会社 物体領域検出装置、方法、及びプログラム
JP6137916B2 (ja) * 2013-04-01 2017-05-31 キヤノン株式会社 信号処理装置、信号処理方法、及び、信号処理システム
JP6495254B2 (ja) * 2013-06-12 2019-04-03 スリーエム イノベイティブ プロパティズ カンパニー 視覚的注意モデリングの結果の提示
JP6394005B2 (ja) 2014-03-10 2018-09-26 株式会社リコー 投影画像補正装置、投影する原画像を補正する方法およびプログラム
JP6330385B2 (ja) * 2014-03-13 2018-05-30 オムロン株式会社 画像処理装置、画像処理方法およびプログラム
KR102096410B1 (ko) * 2014-05-02 2020-04-03 삼성전자주식회사 의료 영상 장치 및 그 제어 방법
US9918082B2 (en) * 2014-10-20 2018-03-13 Google Llc Continuous prediction domain
US9918094B2 (en) * 2014-10-20 2018-03-13 Google Llc Compressing and representing multi-view video
CN107169397B (zh) * 2016-03-07 2022-03-01 佳能株式会社 特征点检测方法及装置、图像处理系统和监视系统
US10789671B2 (en) * 2016-12-28 2020-09-29 Ricoh Company, Ltd. Apparatus, system, and method of controlling display, and recording medium
US10638039B2 (en) * 2016-12-28 2020-04-28 Ricoh Company, Ltd. Apparatus, system, and method of controlling image capturing, and recording medium
JP6859765B2 (ja) * 2017-03-13 2021-04-14 株式会社リコー 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
JP2018022360A (ja) 2018-02-08
US20180039856A1 (en) 2018-02-08
US10635926B2 (en) 2020-04-28

Similar Documents

Publication Publication Date Title
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
US11644898B2 (en) Eye tracking method and system
US11232286B2 (en) Method and apparatus for generating face rotation image
CN110222787B (zh) 多尺度目标检测方法、装置、计算机设备及存储介质
CN110574077B (zh) 利用虚拟三维深层神经网络的影像分析装置及方法
KR102629380B1 (ko) 실제 3차원 객체를 실제 객체의 2-차원 스푸프로부터 구별하기 위한 방법
EP4404148A1 (en) Image processing method and apparatus, and computer-readable storage medium
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
Alshehri et al. Unmanned aerial vehicle based multi-person detection via deep neural network models
JP6756406B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
US20240013357A1 (en) Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method
CN119359537A (zh) 监控视频的拼接方法、装置、设备及存储介质
KR20240159462A (ko) 쿼리 이미지 내의 타겟 객체의 자세를 결정하는 방법 및 그 방법을 수행하는 전자 장치
CN117455972A (zh) 基于单目深度估计的无人机地面目标定位方法
JP6717049B2 (ja) 画像解析装置、画像解析方法およびプログラム
KR20230065125A (ko) 기계 학습 모델의 트레이닝 방법 및 전자 장치
US20240362891A1 (en) Systems and methods for selecting motion models for aligning scene content captured by different image sensors
JP6675584B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN118076984A (zh) 用于视线估计的方法和设备
CN118898664B (zh) 图像生成方法、装置、存储介质及计算机设备
CN116977235A (zh) 图像融合方法、电子设备及存储介质
US20240362802A1 (en) Systems and methods for determining motion models for aligning scene content captured by different image sensors
CA3122315C (en) Eye tracking method and system
Kannadhasan et al. Performance Analysis of Segmentation Techniques Using Digital Image

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201102

R151 Written notification of patent or utility model registration

Ref document number: 6798183

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151