JP2023015654A

JP2023015654A - 画像処理システム、方法、及びプログラム

Info

Publication number: JP2023015654A
Application number: JP2021119564A
Authority: JP
Inventors: フレドリック・オット・マックス・フォルケ・ヘルツベルユ; Max Folke Herzberyu Fredrik Otto
Original assignee: Silicon Studio Corp
Current assignee: Silicon Studio Corp
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2023-02-01
Anticipated expiration: 2041-07-20
Also published as: JP7325775B2

Abstract

【課題】ＡＩでリアルタイムに不自然さのないレンダリングを行う。【解決手段】画面フレーム中のメッシュ情報及びライティング情報をニューラルネットワークに適応できるように構造化された入力フォーマットに変換するための変換ステップと、タイル毎に学習させた前記ニューラルネットワークを使い分けるためのハッシュ分業を行わせるステップとを含み、前記ハッシュ分業には、前記画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算する工程と、前記ハッシュ値をキーとして使用し、ルックアップテーブルから対応するタイルの前記ニューラルネットワークにおける重みを選択して読み込む工程とが含まれ、前記ハッシュ分業による出力は、前記画面フレーム中のタイルに対応する前記ニューラルネットワークの重みによって推定される推定値であることを特徴とする。【選択図】図６

Description

特許法第３０条第２項適用申請有り１．公開事実（１）ウェブサイトの掲載日令和２年９月４日（（２）（ア））、令和９月１７日（（２）（イ））（２）ウェブサイトのアドレス（ア）ｈｔｔｐｓ：／／ｃｅｄｅｃ．ｃｅｓａ．ｏｒ．ｊｐ／２０２０／ｓｅｓｓｉｏｎ／ｄｅｔａｉｌ／ｓ５ｅ８３２９ｅｄｆ１４２５．ｈｔｍｌ（イ）ｈｔｔｐｓ：／／ｗｗｗ．ｓｉｌｉｃｏｎｓｔｕｄｉｏ．ｃｏ．ｊｐ／ｒｄ／（３）公開者株式会社シリコンスタジオ（４）公開された発明の内容添付資料のとおり。（２）（ア）のウェブサイトにおいては、添付資料を使ってオンラインセッションを実施した。また、（２）（イ）のウェブサイトにおいては、添付資料をダウンロードできるようにリンクした。

本発明は、広く画像処理を行うためのシステム等に関し、より具体的には、ニューラルネットワークモデルを使ってレンダリング等のグラフィック処理を効率的に行うためのシステム等に関する。

近年、ＡＩによって高品質な画像や映像を生成することができるようになり、人間の顔なども不自然さを感じさせない表現をすることができるようになった。例えば、非リアルタイムのアプリケーションでは、本物の写真との見分けがつかない画像を生成できる水準を有する。また、グラフィック処理においてＡＩ技術を適用しようとする試みもある。

例えば、グラフィックスフレームの効率的な分散型ノイズ除去を実行する技術が提案されている（特許文献１）。

すなわち、特許文献１には、レイトレーシングオペレーションを実行する複数のノードと、前記複数のノードにグラフィックスワークをディスパッチするディスパッチャノードであって、各ノードは、前記グラフィックスワークにより特定される画像フレームの領域をレンダリングするようにレイトレーシングを実行する、ディスパッチャノードと、前記複数のノードのうちの少なくとも第１のノードであって、前記画像フレームの第１の領域をレンダリングするようにレイトレーシングを実行するレイトレーシングレンダラと、前記第１の領域に関連付けられるデータと、前記第１の領域の外側の領域に関連付けられるデータとの組み合わせを用いて前記第１の領域のノイズ除去を実行するデノイザであって、前記第１の領域の外側の前記領域に関連付けられる前記データの少なくともいくつかは、少なくとも１つの他のノードから取り込まれる、デノイザとを有する少なくとも第１のノードとを備えるシステムが開示されている。

また、クラウドに基づくリアルタイム・レンダリング技術であって、より効率的な光線追跡演算を実行する技術も提案されている（特許文献２）。

すなわち、特許文献２には、システムであって、第１グラフィック処理演算セットを実行してグラフィックシーンをレンダリングする第１グラフィック処理ノードであって、前記第１グラフィック処理演算セットは、光線追跡独立演算を含む、第１グラフィック処理ノードと、前記第１グラフィック処理ノードを第２グラフィック処理ノードに結合する相互接続又はネットワークインタフェースと、を含み、前記第２グラフィック処理ノードは、前記第１グラフィック処理ノードのユーザの現在視野の指示を受信し、視野独立光線トラバース及び交差演算により生成される視野独立表面を受信し又は構成し、前記第２グラフィック処理ノードは、応答して、前記視野独立表面の視野依存変換を、前記ユーザの前記現在視野に基づき実行して、視野依存表面を生成し、及び前記視野依存表面を前記第１グラフィック処理ノードに提供し、前記第１グラフィック処理ノードは、第２グラフィック処理演算セットを実行して、前記視野依存表面を用いて前記グラフィックシーンのレンダリングを完了する、システムが開示されている。

また、レンダリング処理において機械学習を採用し、著しいアーチファクトの発生を軽減させる技術も提案されている（特許文献３）。

すなわち、特許文献３には、ボリュームデータから画像を生成するための画像処理装置であって、ボリュームデータセットを取得し、前記ボリュームデータセットに基づいた非均一性マップを取得し、前記非均一性マップを使用して非周期サンプリングポイントのセットの位置を決定し、前記ボリュームデータセットから、前記非周期サンプリングポイントの前記決定された位置に基づいてサンプルされたデータ値のセットを生成し、前記サンプルされたデータ値のセットから画像データポイントのセットを生成するために、集約処理を実行することで画像データセットを生成するように構成された処理回路を具備する画像処理装置が開示されている。

特開２０２０－１０２１９５号公報特開２０２０－１０９６２０号公報特開２０２０－１９１０６１号公報

しかしながら、リアルタイム・レンダリングについては、高品質な画像や映像を生成するために多大な計算が必要となるため、リアルタイムにＡＩで画像や映像を生成することは、依然として困難である。また、本願の出願時点における画像や映像に関するＡＩ研究は、「品質向上」に主眼が置かれており、リアルタイム・レンダリングへのＡＩ適用には、いまだ改善の余地がある。すなわち、リアルタイム・レンダリングへのＡＩ適用を試みる場合には、新しいアーキテクチャの導入の余地がある。

具体例を交えて現状の課題を示す。ＡＩでリアルタイムに高品質な画像や映像を生成する際には、ＧＰＵにニューラルネットワークが実装されることがある。従来のニューラルネットワークは多数のレイヤーで構成されるが、これらのレイヤー間にはデータ依存性があるため、レイヤーごとの同期処理が必要とされる。また、あるレイヤーによって出力されたデータはメモリに出力されるが、この出力データは、次のレイヤーに入力するために再びメモリから読み込む必要がある。そして、各レイヤーは、分岐のない多数のチャンネルを持っており、不要なチャンネルを含め、すべての入力チャンネルの処理を行う必要がある。したがって、冗長な計算処理やメモリの大量消費を発生させてしまう。

また、既存のニューラルネットワークモデルは、リアルタイム描画に対しては十分な性能を発揮できない。例えば、上述の理由により実行速度が遅いだけでなく、顔の形や方向、ライティングなどを直接指定できないからである。従って、既存のレンダリング手法をそのままＡＩに置き換えても高い効果は期待できない。

本発明は、上述したような非効率な処理を解消することにより、ＡＩでリアルタイムに不自然さのない人間の顔の画像やリアルタイム映像をレンダリング可能とすることを目的とする。

そこで、本発明の一実施形態にかかる画像処理システムは、ＣＰＵとＧＰＵとを備え、ニューラルネットワークを使ってレンダリング処理を行う画像処理システムであって、画面フレーム中のメッシュ情報及びライティング情報をニューラルネットワークに適応できるように構造化された入力フォーマットに変換するための変換部と、タイル毎に学習させた前記ニューラルネットワークを使い分けるためのハッシュ分業を行わせる処理部とを含み、前記ハッシュ分業には、前記画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算する計算部と、前記ハッシュ値をキーとして使用し、ルックアップテーブルから対応するタイルの前記ニューラルネットワークにおける重みを選択して読み込む読み込み部とが含まれ、前記ハッシュ分業による出力は、前記画面フレーム中のタイルに対応する前記ニューラルネットワークの重みによって推定される推定値であることを特徴とする。

また、前記コンピュータは、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（同期グループ、またはＳＭ。以下、単に「同期グループ」ともいう。）と、前記同期グループが共有できるオンチップメモリとを有しており、前記ハッシュ分業は、前記画面フレーム中のタイル毎に、前記同期グループを割り当て、前記ニューラルネットワークの重みを前記オンチップメモリ上に読み込むことを特徴とする。

また、前記コンピュータは、前記同期グループと、レジスタ（命令スケジューラのオンチップメモリ）とを有しており、前記ハッシュ分業は、前記画面フレーム中のタイル毎に、前記同期グループを割り当て、前記ニューラルネットワークの中間レイヤーの出力を前記レジスタに格納することを特徴とする。

本発明の一実施形態にかかる画像処理システム等によれば、リアルタイム・レンダリングへの新しいＡＩ適用を実現し、不自然さのない人間の顔の画像や映像のレンダリングを可能にするという特段の効果を奏する。

本発明の一実施形態にかかる画像処理システムの全体構成例を説明する説明図である。本発明の一実施形態にかかる画像処理システムにおける情報処理サーバ構成のバリエーションを説明する説明図である。本発明の一実施形態にかかる画像処理システムにおける情報処理装置の外観構成を説明する説明図である。本発明の一実施形態にかかる画像処理システムにおける情報処理装置の機能ブロックを説明する説明図である。本発明の一実施形態にかかる画像処理システム等の動作概要を説明するフローチャートである。本発明の一実施形態にかかる画像処理システム等の動作の詳細を説明するフローチャートである。本発明の一実施形態にかかる画像処理システム等の動作において前提となるデータ構成例を説明する説明図である。本発明の一実施形態にかかる画像処理システム等の動作において前提となるデータ構成例を説明する説明図である。本発明の一実施形態にかかる画像処理システム等において採用されるハッシュ関数例を説明する説明図である。本発明の一実施形態にかかる画像処理システム等の詳細な動作を説明するフローチャートである。本発明の一実施形態にかかる画像処理システム等の詳細な動作（トレーニングの前処理）を説明するフローチャートである。本発明の一実施形態にかかる画像処理システム等の詳細な動作（トレーニングの前処理）を説明するフローチャートである。本発明の一実施形態にかかる画像処理システム等の詳細な動作（トレーニングの前処理）を説明するフローチャートである。本発明の一実施形態にかかる画像処理システム等の動作の具体例を説明する説明図である。本発明の一実施形態にかかる画像処理システム等の動作の具体例を説明する説明図である。本発明の一実施形態にかかる画像処理システム等の動作の具体例を説明する説明図である。本発明の一実施形態にかかる画像処理システム等の動作の具体例を説明する説明図である。従来の画像処理システム等における動作例を説明する説明図である。従来の画像処理システム等における動作例を説明する説明図である。

（用語の定義）
はじめに、本実施例で使用される用語の定義を行う。
［ラスタライズ］
一般的には、画像処理においてラスタ形式以外のデータ（例えば、ベクタ形式のデータなど）をラスタ形式に変換して画像化することをいうが、３次元コンピュータグラフィックスにおいては、ポリゴン等の形状データをピクセルデータ（フラグメントとも呼ばれる）に変換する処理をいう。本実施例においては、３次元コンピュータグラフィックスの処理に関し、各ピクセルの中間状態をＧ－Ｂｕｆｆｅｒのようなバッファに保存することをいう。本発明はこれらに限定されるものではないが、本発明の一実施形態におけるラスタライズの出力例は、ピクセルごとの物体表面の２次元位置（または、ＵＶ）、同表面の種類のＩＤ（分類ＩＤ）、同表面の光の量（光度）である。なお、ＵＶは、テクスチャ毎の座標系（ＵＶ座標系）における値（ＵＶ値）である。
［タイル］
１画素（１ピクセル）をある程度まとめて取り扱う場合の単位である。一例として、１６×１６ピクセルを１タイルとすることができる。また、それぞれのピクセルは、ＵＶ値、分類ＩＤ、光度量といったデータセットで構成されることができる。
［世界規模］
ワールド（グローバル）座標系のスケールでのスコープをいう。
［タイル規模］
ローカル座標系（その１）のスケールでのスコープをいう。ここでのローカル座標系は、ピクセル規模へ落とし込む余地を残したローカル座標である。
［ピクセル規模］
ローカル座標系（その２）のスケールでのスコープをいう。ここでのローカル座標系は、本実施形態のおける最小のローカル座標である。
［ＳＭ（Streaming Multiprocessor）］
ＧＰＵのプロセッサ単位である。一例として、エヌビディアコーポレイション（NVIDIA Corporation）のＧＰＵアーキテクチャについて、［https://images.nvidia.com/aem-dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf］を参照されたい。

本発明はこれに限定されるものではないが、１つのＳＭの中には、４つの独立した命令スケジューラ（これを「部分プロセッサ」という。）があり、１つの命令スケジューラには、それぞれレジスタ（一例として、６４ＫＢ）が備わる。複数（一例として、４つ）の部分プロセッサ（これを一実施形態における「同期グループ」ということもできる。）がＳＭを構成する。従って、一実施形態において、「処理ユニットにおいて互いに効率的に同期できる」というのは、１つのＳＭ内の部分プロセッサ同士が効率的に同期できるという意味である。

また、一実施形態において、処理ユニットにおいては、１つのＳＭ内において、同期グループが共有できるオンチップメモリが備えられる（一例として、１２８ＫＢ）。

本発明はこれに限定されるものではないが、一実施形態において、次のような構成のＳＭを利用することを想定することができる。まず、ＧＰＵ中のＳＭの数は数十から１００以上である。また、１つのＳＭ当たり４つの命令スケジューラが実装され、１命令スケジューラあたり６４ＫＢのレジスタを備えている。本発明の一実施形態においては、これらのＳＭ群は、ラスタライズされ、タイルに分割された入力画像（入力タイル）を並列処理し、一例として、１つのスケジューラに１つのタイルを処理させることができる。これらの処理の出力は出力タイルであり、入力タイルと出力タイルは、画像において互いに対応する位置を占める。
［ハッシュ分業］
本発明で採用される新規のアーキテクチャである。このアプローチによって、従来のニューラルネットワークを使ったＣＧ処理における非効率を軽減または解消させることができる。ハッシュ分業は、概略的に、画面フレーム中のタイルごとにその内容（数値）をハッシュ化する（ハッシュ値を計算する）工程と、ハッシュ値をキーとして使用し、ルックアップテーブルから対応するタイルのニューラルネットワーク（モデル）における重みを選択して読み込む工程とを含む。ハッシュ分業は、ニューラルネットワークのサブドメインを切り離して実行する処理ということができる。

また、ハッシュ分業による出力は、画面フレーム中のタイルに対応するニューラルネットワークの重みによって推定される推定値である。
（本発明の特徴）
次に、本発明の特徴を説明する。本発明の新規な特徴は、ニューラルネットワークを使って、ＣＧのリアルタイム描画処理を直接描画するように構成したことにある。

一般に、ＡＩのよる画像処理の成果は、スクリーンショットを比較して行われることが多いが、本発明の一実施形態における成果は、測定結果のみによってではなく、基本原理から正しいアプローチであることが論理的に導き出せるものである。

また、本発明は、取り扱うデータの依存性や依存性の拡大に着目している。従って、本発明が効果を奏する条件の一つとして、大域的なデータ依存の存在が挙げられる。例えば、本発明が想定するリアルタイム描画では、データ入力は、内容が不明である写真などではなく、カメラやメッシュなどのバイナリーデータから生成されている。そのため、ピクセルに入れる情報は自由であり、必要であれば追加も可能である。このことは、本発明が提唱するような革新的手法の適用余地があることを意味している。
（本発明の基本概念）
本発明の基本概念は、リアルタイム描画に特化した非効率さを解決するためのプロセス群である。一例として、本発明の一実施形態においては、メッシュ情報及び／またはライティング情報をニューラルネットワークに適応できるように、メッシュ情報及び／またはライティング情報は、高度に構造化した入力フォーマットに変換される。

また、本発明の一実施形態においては、特定の描画に特化したニューラルネットワークを多数学習させ、タイルごとにハッシュによって使い分けるハッシュ分業が行われる。

換言すると、本発明は、次のような基本処理群に支えられている。
（１）メッシュ情報及び／またはライティング情報は、ニューラルネットワークのために高度に構造化した入力フォーマットに変換される。
（２）特定の描画に特化したニューラルネットワークを多数学習させ、タイルごとにハッシュによって使い分けるハッシュ分業プロセスが採用される。

なお、上記（１）及び（２）におけるニューラルネットワークは、ハードウェア性能の制約に収まるように設計される。
（本発明の適用場面例～人の顔を描画する場合）
次に、本発明の理解の容易のために、本発明の適用場面の一例を挙げる。一般に、人間は、顔については非常に高い感受性をもって認知することができる。例えば、人間は、同じ人の表情が少しでも不自然だとそのことにすぐに気づくことができる。この事実は、もし、コンピュータが人間の顔の微妙な変化を正しく描画することができれば、人間にとっての映像の魅力を大きく増大させることができるということを意味する。近年、ハードウェアによるリアルタイム・レイトレーシングが実現されつつあり、例えば、物体の鏡面反射などは正確に計算できるようになってきているが、人間の肌の表面化散乱などを正確に計算することは未だに困難である。

一方、人間の顔の実写映像については、大量に手に入れることが比較的容易であるため、大量に入手可能な人間の顔画像データを教師データとして用い、ＡＩによって描画を行うことは有望と考えられる。本発明はこれに限定されるものではないが、本発明の一実施形態においては、人間の顔画像のリアルタイム描画に関して有意な効果を奏する。

本発明の一実施形態にかかる画像処理システム、方法、及びプログラムについて、図面を参照しながら詳細に説明する。

図１に、本発明の一実施形態にかかる画像処理システムの全体構成例を示す。本発明は、特に制限されないが、ＰＣ等のコンピュータ上でスタンドアロン作動させることもできるし、図１に示されるようなネットワーク構成における情報処理サーバ群において実施されることもできる。また、図１に示されるようなネットワーク構成であっても、他の情報処理サーバや、ＰＣ・タブレット端末等の情報処理装置において少なくとも一部または全部の処理ルーチンが実施されてもよい。以下、本発明の理解の容易のために、図１を参照して、本発明の一実施形態を説明する。

図１に示されるように、画像処理システム１０は、一実施形態として、情報処理サーバ群１１と、ユーザが使用する各種情報処理装置（図において、例示的に、ＰＣ１２及び１３、携帯電話１４、スマートフォン、携帯情報端末またはタブレット端末１５が示されている。以下、総称して「各種端末」、「ユーザ端末」、あるいは、単に「端末」とも言うこともある）とで構成され、情報処理サーバ群１１及び各種端末間は、図１に示されるように専用回線やインターネット等の公衆回線（図１には、有線の回線例として１６～１９が示されている）により相互に通信可能に接続されている。また、回線は有線であっても無線であってもよい。回線が無線の場合、携帯電話１４及び端末１５は、図示しない基地局や無線ルータ等を介してインターネット１９に乗り入れ、更に回線１８を介して情報処理サーバ群１１と相互に通信可能に接続される。

なお、本願の出願時点での携帯電話１４やスマートフォン、携帯情報端末あるいはタブレット１５は、パーソナルコンピュータ（ＰＣ）と同等の処理能力（通信処理速度や画像処理能力等）を備えているものも多く、小型のコンピュータとも言うべきものである。

また、本発明の実施に必要なプログラムあるいはソフトウェアは、通常、情報処理サーバ群における記憶部、さらには必要に応じてＰＣや携帯情報端末の記憶部におけるＨＤＤ（Hard Disk Drive）あるいはＳＳＤ（Solid State Drive）等にインストールあるいは記憶され、プログラムあるいはソフトウェアの実行時には、必要に応じて記憶部内のメモリにその全部又は一部のソフトウェアモジュールとして読み出され、ＣＰＵ等において演算実行される。

なお、演算実行は、必ずしもＣＰＵ等の中央処理部のみで行われる必要はなく、図示しないグラフィカルプロセッシングユニット（ＧＰＵ）やディジタルシグナルプロセッサ（ＤＳＰ）等のプロセッサを用いることもできる。

さらに、情報処理サーバ群１１のハードウェア構成も、基本的にはＰＣを採用することができる。なお、本発明はこれに限定されるものではないが、情報処理サーバ群１１は、必要に応じてそのハードウェアスペックを上げるにあたり、複数のＰＣ（一例として、数十台～数万台）を並列的に作動させることによって大規模データの処理に適した構成をとることもできる。また、本願の出願時において利用可能なクラウド構成を採用することもできる。

以上、図１を参照して本発明の一実施形態にかかる画像処理システム１０を説明したが、本発明の構成は必ずしもこれに制限されるものではなく、例えば、本発明にかかる特徴的な構成を実施するハードウェアが情報処理サーバ群１１に集約されている場合には、情報処理サーバ群１１を本発明の他の実施形態としての画像処理システムとしてもよい（以下、同様）。

また、既に説明したように、本発明の他の実施形態にかかる画像処理システムにおいては、ネットワーク構成をとらず、サーバ単独あるいは端末単体を主体としたスタンドアロン構成を採用することもできる。

図２に、本発明の一実施形態にかかる画像処理システムにおける情報処理サーバ構成のバリエーションを示す。情報処理サーバ群１１の動作は、以下に説明するハードウェアの個々の動作、及びソフトウェアとこれらハードウェアとの連携動作によって実現されている。

図２において、ユーザ端末１５ａ～１５ｃからアクセスされる情報処理サーバ群１１は、例示的に、複数のサーバシステムを連携させ一つのシステムとして稼働させるように、クラスタシステムとして構成される。このようなクラスタ構成とすることで、例えば一つのサーバに障害が発生しても他のサーバに処理を継続させることができるほか、特定のサーバ（群）に処理が集中したような場合においても、他のサーバ（群）に処理を分散させることができ、システム全体の安定性を向上させることができる。このようなクラスタ構成は、特にリアルタイム・マルチゲームプレイシステムを構築する場合には、有利な構成の一つである。

本発明は、これに制限されるものではないが、本発明の理解の容易のために、以下、情報処理サーバ群１１は、リアルタイム・レンダリングを含むリアルタイムマルチプレイゲームを提供するサーバ群であるものとする。

図２において、情報処理サーバ群１１は、大別すると、リアルタイムクラスタ（群）１１１と、ロードバランサ１１２（群）と、ＡＰＩサーバ２３とを有する。また、本発明の他の実施形態においては、図示しないキャッシュクラスタ（群）を有するように構成されてもよい。

本発明の一実施形態において、リアルタイムクラスタ（群）１１１は、Ｌｏｂｂｙクラスタ（群）とＧａｍｅクラスタ（群）とを含む。

また、本発明の一実施形態において、ロードバランサ（群）１１２は、Ｌｏｂｂｙロードバランサ（群）と、Ｇａｍｅロードバランサ（群）とを含む。

一実施形態において、Ｌｏｂｂｙクラスタ（群）は、リアルタイムマルチプレイゲームを成立させるためのロビーでのユーザマッチング処理を担当するよう構成することができる。また、Ｇａｍｅクラスタ（群）は、リアルタイムマルチゲームを進行させる上でアクション部分におけるリアルタイム通信処理等を担当させるよう構成することができる。

一実施形態において、ロードバランサ（群）１１２においては、Ｌｏｂｂｙクラスタ（群）のロードバランシング及びオートスケーリングを担当するＬｏｂｂｙロードバランサと、Ｇａｍｅクラスタ（群）のロードバランシング及びオートスケーリングを担当するＧａｍｅロードバランサとを併存させて、プロセス監視などの調整を互いに行いながら作動させることができる。

図３に、本発明の一実施形態にかかる画像処理システムにおける情報処理装置としてのタブレット端末の外観構成を示す。図３において、情報処理装置（タブレット端末）１５は、筐体部１５１とディスプレイ１５２と筐体１５１の下部中央部に設けられたハードウェアボタン１５３とからなる。ディスプレイ１５２は典型的には液晶ディスプレイ（ＬＣＤ）等で構成され、文字や静止画像や動画など様々な情報を表示することができる。また、ディスプレイ１５２にメニューボタンやソフトウェアキーボードを表示させ、これを指ないしタッチペン（不図示）等で触れることによりタブレット端末１５への指示（コマンド）とすることができる。この点で上記ハードウェアボタン１５３は必須の構成要素ではないが、本発明の説明の便宜上、一定の機能を担うボタンとして実装されている。もちろん、ハードウェアボタン１５３を、ディスプレイ１５２の一部に表示させたメニューボタンで代替させることも可能である。

また、ディスプレイ１５２には、マルチタッチ入力パネルが含まれており、タッチ入力パネル上でのタッチ入力位置座標が入力デバイスインタフェース（不図示）を介してタブレット端末１５の処理系（ＣＰＵ）へ送信され処理される。そして、このマルチタッチ入力パネルは、パネルに対する複数の接触点を同時に感知することができるよう構成されている。この検出（センサ）については様々な方法で実現することができ、必ずしも接触センサに限られず、例えば、光学式のセンサを利用してパネルに対する指示点を抽出することも可能である。さらに、センサには、接触式のセンサや光学式のセンサのほか、人の肌の接触を感知する静電容量方式のセンサを用いることも可能である。

また、図３には現れていないが、タブレット端末１５は、マイクやスピーカを備えることもできる。この場合にはマイクから拾ったユーザの声などを判別して入力コマンドとすることも可能である。さらに、図３には現れていないが、タブレット端末１５の背面等には、ＣＭＯＳ等のカメラデバイスが実装されている。

図４に、本発明の一実施形態にかかるタブレット端末１５を構成するハードウェアの機能ブロック図を例示する。タブレット端末１５の動作は、以下に説明するハードウェアの個々の動作、及びソフトウェアとこれらハードウェアとの連携動作によって実現されている。

図４において、ハードウェアブロック全体としてのタブレット端末４００は、大別すると、図３におけるハードウェアボタン１５３、ディスプレイ１５２に設けられたマルチタッチ入力パネル、マイク等で構成される入力部４０１と、プログラムやデータ等を記憶するためのハードディスク、ＲＡＭ及び／又はＲＯＭ等で構成される記憶部４０２と、プログラムにより様々な数値計算や論理演算を行うＣＰＵによって構成される中央処理部４０３と、ディスプレイ１５２等で構成される表示部４０４と、チップや電気系統等の制御を行うための制御部４０５と、インターネットにアクセスするためのスロットや光通信を行うためのポート、及び通信インタフェースから構成される通信インタフェース部４０６と、スピーカやバイブレーション等の出力部４０７と、時刻等を計時するための計時部４０８と、ＣＭＯＳ等のイメージセンサからなるセンサ部４０９と、装置内の各モジュールに電源を供給するための電源部４１０とからなり、これらのモジュールは必要に応じて適宜通信バスや給電線等の配線によって接続されている（図４においては、ひとまとめに結線４１１で表わされている）。

なお、センサ部４０９には、タブレット端末４００（１５）の位置を特定するためのＧＰＳセンサモジュールを含めることとしても良い。また、センサ部４０９を構成するＣＭＯＳ等のイメージセンサによって検知された信号は、入力部４０１において入力情報として処理することができる。

また、本発明の実施に必要なプログラムあるいはソフトウェアは、通常、記憶部４０２を構成するハードディスク等にインストールあるいは記憶され、プログラムあるいはソフトウェアの実行時には、必要に応じて記憶部４０２内のメモリにその全部又は一部のソフトウェアモジュールとして読み出され、ＣＰＵ４０３において演算実行される。

なお、演算実行は、必ずしもＣＰＵ等の中央処理部のみで行われる必要はなく、ゲーミングタブレットにおいては、図示しないグラフィカルプロセッシングユニット（ＧＰＵ）やディジタルシグナルプロセッサ（ＤＳＰ）等のプロセッサを用いることもできる。

次に、図５～図６の動作フローないしフローチャートを用いて、本発明にかかる一実施形態における画像処理システムないし画像処理プログラムの動作の概略を説明する。

既に述べたように、本発明の特徴的な動作は、主として情報処理サーバ群１１において実施可能であるが、少なくともその一部を情報処理装置等に実施させることもできる。

図５に、本発明の一実施形態にかかる画像処理システム等の動作概要を説明するフローチャートを示す。図５のフローチャートには、本発明の一実施形態にかかる画像処理システムの基本動作が、画像データに対する３つの処理、すなわち、（１）ラスタライズ、（２）ハッシュ分業、（３）ニューラルネットワークモデルに基づく実行処理から構成されることが示されている。

図５のステップＳ５０１において処理を開始すると、ステップＳ５０２へ進み、ラスタライズ処理が行われる。次に、ステップＳ５０３へ進み、ハッシュ分業処理が行われ、ステップＳ５０４では、ニューラルネットワークモデルに基づく演算処理が行われる。

そして、ステップＳ５０５では、前ステップでの出力結果に基づいてフレームバッファへの出力が行われ、ステップＳ５０６では、ユーザ端末等のディスプレイ等に出力されるべき画像データが出力される。次に、ステップＳ５０７へ進み、説明上の本フローとしては、処理を終了する。

なお、図５においては、発明の理解の容易のために、「ラスタライズ」及び「ハッシュ分業」という手段を用いたが、本発明はこれらのみに制限されるものではない。特に、ラスタライズについては、構造化されたデータを使う具体例として述べられたものであって、本発明は、ラスタライズに替えて、種々の「構造化データ」を採用することができる。

次に、データ構造化の一例としてのラスタライズ、ハッシュ分業、及びニューラルネットワークモデルに基づく実行処理のそれぞれについての詳細を説明する。
（１）ラスタライズ
一実施形態において、ラスタライズ処理は、ＡＰＩサーバ２３で稼働しているＡＰＩからのリクエストによって開始される。このラスタライズ処理の入力は、３Ｄグラフィックスデータの原型であり、一実施形態において、三角形メッシュ等のポリゴン情報（世界規模）、景色内の光源（世界規模）、カメラ情報（世界規模）が挙げられる。

本発明の一実施形態におけるラスタライズ処理の内容は、ポリゴン情報におけるメッシュをラスタライズしてバッファメモリに書き込むというものである。ラスタライズ方式には、３Ｄコンピュータグラフィックスのレンダリング方法における種々の方式を採用することができる。

本発明の一実施形態におけるラスタライズ処理においては、テクスチャ用ＵＶやメッシュ分類ＩＤや照射される光線の光度などを保持するように処理される。一方で、本発明の一実施形態におけるラスタライズ処理においては、色情報を保持する必要はない。

本発明の一実施形態におけるラスタライズ処理における出力は、ＵＶ（ピクセル当たり）、分類情報（ピクセル当たり）、光度情報（ピクセル当たり）である。
（２）ハッシュ分業
一実施形態において、ハッシュ分業における入力は、ＵＶ（ピクセル当たり）、分類情報（ピクセル当たり）、及び世界規模における回路重み配列である。

本発明の一実施形態におけるハッシュ分業の内容は、画面フレーム中の領域をタイルに分割したり、分割したそれぞれのタイルの処理をＧＰＵの命令スケジューラに預けたりすることである。本発明の一実施形態においては、タイル内のデータ依存性はないので、複数のＳＭごとに並列して処理を進めることができる。

次に、タイルピクセルの内容がハッシュ値に変換される。変換されたハッシュ値は、ニューラルネットワークにおける重みの配列キーとして採用され、これらの値はオンチップメモリに書き込まれる。

本発明の一実施形態におけるハッシュ分業による出力は、画面フレーム中のタイル当たりのニューラルネットワークの重み（以下、「重み情報」ともいう）によって推定される結果（推定値）である。

また、本発明はこれに制限されるものではないが、一実施形態においてＧＰＵを利用してハッシュ分業を実施するにあたっては、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（同期グループ、またはＳＭ）と、前記同期グループが共有できるオンチップメモリとを有する処理ユニットを採用することができる。この場合、ハッシュ分業は、画面フレーム中のタイル毎に前記同期グループを割り当てて、ニューラルネットワークの重みを上記共有可能なオンチップメモリ上に読み込む。タイル毎のニューラルネットワークは十分に小さいため、上記共有可能なオンチップメモリに全て読み込むことができる。タイル外の重みは不要なため前記同期グループの外部との同期も不要となり、同じニューラルネットワークを利用する複数ピクセルを同時に処理できる。このため、一層効率化することができる。

さらに、本発明はこれに制限されるものではないが、一実施形態においてＧＰＵを利用してハッシュ分業を実施するにあたっては、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（同期グループ、またはＳＭ）と、レジスタとを有する処理ユニットを採用することができる。この場合、ハッシュ分業は、画面フレーム中のタイル毎に前記同期グループを割り当てて、ニューラルネットワークの中間レイヤーの出力を上記レジスタに格納することで、レイヤー毎にＧＰＵ上のＲＡＭやキャッシュといった、いわゆる「遅いメモリ」への出力との同期を行うことなく各レイヤーに対する処理を実行することができ、処理を一層効率化することができる。
（３）ニューラルネットワークの実行処理
一実施形態において、ニューラルネットワークの実行処理おける入力は、ＵＶ（ピクセル当たり）、光度情報（ピクセル当たり）、重み情報（画面フレーム中のタイル当たり）である。

本発明の一実施形態におけるニューラルネットワークの実行処理の内容は、オンチップメモリ上に書き込まれた重み情報を読み出し、ニューラルネットワークの出力神経までの計算を実行することである。画面フレーム中のタイルごとの計算を行うので入力ドメイン（入力領域）は広くならず、神経チャネルの数も低減させることができる。そのため、計算の途中結果を都度キャッシュメモリ等に送信する必要がなくなるという利点がある。

なお、同じタイルにおける神経対神経のデータ依存性については、同じタイルに対する同じ命令スケジューラにより計算が実行されるため、然したる問題とはならない。

本発明の一実施形態におけるニューラルネットワークの実行処理における出力は、ＲＧＢＡデータ（ピクセル当たり）である。このＲＧＢＡデータが画面出力用データとして取り扱われる。
（トレーニング工程及び前処理工程）
なお、図５に示した処理を実行する前に、本発明の一実施形態においても、ニューラルネットワークのトレーニング工程を有する。本発明の一実施形態においては、このトレーニング工程の前処理として種々の最適化を行うことも特徴の一つとなっている。これらの前処理工程については、図１０～図１２を参照して後述する。

図６に、本発明の一実施形態にかかる画像処理システム等の動作の詳細を説明するフローチャートを示す。図６に示された動作フローは、図５に示された動作フローと同様に、ラスタライズ処理からピクセルごとの色情報出力までが示されているが、図５に示されたフローよりも具体的に説明されている。また、図５において説明した動作と重複する動作については、適宜説明を割愛している。つまり、図６に示された動作フローは、図５を参照して説明した内容を採用することができるが、図５には示されなかったバリエーションを含むものである。

図６のステップＳ６０１において処理を開始すると、ステップＳ６０２へ進み、画面フレームごとのメッシュ情報、光源情報、カメラ情報（いずれも世界規模）に対するラスタライズ処理が行われる。

一実施形態において、このラスタライズ処理では、従来の多くのラスタライズの手法を採用することができる。各ピクセルの中間状態は、Ｇ－Ｂｕｆｆｅｒのようなバッファに保存される。ラスタライズの出力内容は、一例として、表面の２次元位置（ＵＶ）、表面の種類のＩＤ（分類ＩＤ）、各種類の光の量（光度）である。

ステップＳ６０３では、ピクセルごとのＵＶ、分類ＩＤ、光度情報（いずれも世界規模）に対する分割処理が行われる。

ステップＳ６０５では、ピクセルごとのＵＶ、分類ＩＤ（いずれも世界規模）に対するハッシュ計算処理が行われる。なお、本ステップでは、ピクセルごとのＵＶ、分類ＩＤが取り上げられているが、本発明はこれに限定されるものではなく、光度情報（世界規模）に対するハッシュ計算処理がなされてもよい。

ここでのハッシュ計算については、任意のハッシュ計算式を採用することができるが、重要なことは、タイルサイズの表面領域が十分に類似した特性（例えばＵＶ）を持っている場合には、同じハッシュ値が得られるという性質が維持されていることである。本発明の一実施形態においては、ビットフィールドを用いたアプローチが採用される。また、ＵとＶは、個々にセクションに分けて管理される。一実施形態において、１つのビットが各セクションを表す。

ここで、タイルがセクション内のいずれかのピクセルを含む場合、対応するビットは１に設定され、そうでなければ、ビットは０のまま維持される。なお、画素情報はレジスタに読み込まれて、レジスタなどに保持されていることが望ましい。

ステップＳ６０６では、前ステップで計算されたタイルごとのハッシュ値（タイル規模）に対し、ルックアップテーブルから取り出された値を適用してタイルごとのニューラルネットワークの重みが生成される（タイル規模）。

ここで、ルックアップテーブル検索については、メモリの読み出しとなるため、すべてのメモリリードはパフォーマンスを低下させる要因となる。したがって、ある時点でニューラルネットワークの重みをＧＰＵの命令スケジューラ（複数の命令スケジューラが組み合わされることもある）のローカル・オンチップメモリに読み込む必要があるが、本ステップにおいてこの読み込みが実施されても良い。現在のタイルの内容を完全に表すハッシュ値はすでに計算されているので、そのハッシュ値を使って、この種の内容を扱うように厳密に訓練されたニューラルネットワークを選択することができる。

ハッシュ値に基づいてデータを取得する方法は、種々考えられるが、本発明の一実施形態においては、本フローで生成されるハッシュをオフチップ・メモリの配列へのキーとして利用することができる。

ステップＳ６０７では、前ステップで生成されたニューラルネットワークの重みと、ステップＳ６０３で処理されたタイルごとのＵＶ、光度情報（いずれも世界規模）とが入力とされて、ニューラルネットワークモデルに基づく演算処理が行われる。

ここで、本発明の一実施形態において、ニューラルネットワークを実行するロジックとしては、ＵＶ、分類ＩＤ、光度を入力とし、ピクセルカラーを出力とする処理系が挙げられる。また、ニューラルネットワークに色ではなく光を出力させることで、複数のニューラルネットワークの出力を低コストで正しく組み合わせることも可能である。また、ここでのロジックには、種々の最適化を適用することができる。

ステップＳ６０８では、色情報が出力される（ピクセル規模）。

そして、ステップ６０９へ進み、本フローとしては処理を終了する。

次に、図７～図１２を参照して、本発明にかかる一実施形態における画像処理システムまたは画像処理プログラムの詳細な動作を説明する。ここでの説明は、図５～６を参照して説明した部分と重複する部分もあるが、ハッシュ化についてのより詳細な説明及びバリエーションが加えられている。

なお、既に述べたように、本発明の特徴的な動作は、主として情報処理サーバ群１１において実施可能であるが、少なくともその一部を情報処理装置等に実施させることもできる。

図７及び図８Ａに、本発明の一実施形態にかかる画像処理システム等の動作において前提となるデータ構造例が示されている。

また、図７示された画面フレーム７０において、タイル情報は、ＵＶ空間に投影されている。ＵＶ空間では、タイルは、見た目ではなく、それが何であるかを反映した場所および形状で表される。したがって、この形状を２つの隣接するビットフィールドで近似することにより、適切に専門化されたニューラルネットに関連付けることができる。

図７には、横軸をＵハッシュ列（０００００１１１）とされ、かつ、縦軸をＶハッシュ列（０００１１１１０）とされたＵＶ空間が表されており、図７に示されたＵＶ座標系におけるタイル７１は、図８Ａに示された画面フレーム８０（縦横８個、計６４個のタイルが並んでいる）においては、タイル８１となって表れている様子が分かる。なお、一実施形態において、各タイルは、１６×１６のピクセルで構成される。

また、図７及び図８Ａを参照して説明したタイルのＵＶ空間への投影を踏まえ、本発明の一実施形態においては、図８Ｂに定義されるハッシュ関数が使用される。なお、本発明はこれに制限されるものではなく、特定の条件（以下の（Ａ）及び（Ｂ）、ならびに、望ましくは（Ｃ））を満たす限り、どのようなハッシュ関数を用いても差し支えない。
（Ａ）同じハッシュ値を持つタイルは、全体として取得されるすべてのタイプのタイルよりも狭い入力ドメイン（入力領域）を構成すること。

なお、本発明の一実施形態においては、入力ドメインは、狭めるほど良好な結果が得られる。現実的には、実質的にリアルタイムに処理が行える範囲で十分に高速化できるように、この入力ドメインは狭く構成される。
（Ｂ）ハッシュ値の計算は、高速であること（本出願時点におけるコンピュータのハードウェアスペックは十分にこれを満たす）。
（Ｃ）本発明はこれに限定されるものではないが、ハッシュ分業においては、ターゲットタイルのみが入力として使用されること。

図９～図１２に、本発明の一実施形態にかかる画像処理システム等の詳細な動作を説明するフローチャートが示されている。より詳細には、図９には、図７及び図８Ａを参照して説明した前提を踏まえたハッシュ化フローの全体像が示されている。図９は、図６において示されたフローを前提としてさらに詳細に記載したものでもある。なお、図９に示された動作フローの前提として、本発明の一実施形態にかかる画像処理システム等が取り扱うシーンデータは、フレームバッファ上でラスタライズされているものとする。

また、図１０～図１２には、ニューラルネットワークのトレーニングのための処理フロー例が示されている。図１２におけるステップＳ１２１０に示されたトレーニングに向けて、最適化の観点から種々の前処理が行われている。

図１０には、教師データのバイナリファイルを生成するステージが示されており、ピクセルバッファに対するタイル分割及び各タイルへのハッシュ値割り当て、ならびに、ハッシュマップへのハッシュ値の追加を含むフローが示されている。また、図１１には、コンテンツのバイナリファイルへの出力を含むフローが示されており、図１２には、バイナリファイル内容のメモリ空間へのマッピングを含むフローが示されている。

図９のステップＳ９０１において処理を開始すると、ステップＳ９０２へ進み、画面フレームバッファから、ＵＶ、メッシュＩＤ、及び照度情報を含むデータが読み込まれる。

ステップＳ９０３では、画面フレームバッファ上のデータが１６×１６ピクセルのタイルに分割される。

ステップＳ９０５では、タイルにおける全てのＵＶを使ってハッシュ値の計算が行われる。また、必要に応じて分類ＩＤが使用されてもよい。

ステップＳ９０６では、前ステップで計算されたハッシュ値をキーとして使用し、ルックアップテーブルからニューラルネットワークの重みが読み出される。

ステップＳ９０８では、ステップＳ９０６において読み出された重みと、ステップＳ９０３で処理されたタイルごとのＵＶ、光度情報とが入力とされて、ニューラルネットワークインタフェース用データが出力される。この出力データは、一実施形態においてＲＧＢデータである。

そして、ステップ９０９へ進み、本フローとしては処理を終了する。

（トレーニング前処理工程）
図１０～図１２に示されるフローでは、図６や図９を参照して説明した処理を実行するためのニューラルネットワークのトレーニングのための前処理とトレーニングのフローが示されている。

タイル毎のニューラルネットワークを学習させる工程において、画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算し、このハッシュ値に対応するタイルの教師データのみを使い、このハッシュ値専用のニューラルネットワークの重みを学習させることができる。

本フローにおけるアバター生成器は、人工的に人の顔メッシュを生成するアプリケーションである。本発明の一実施形態においては、顔画像のサンプルを実写映像から収集するのではなく、ＣＧ生成によって収集する趣旨である。

また、メッシュは、レイトレーシングによって描写され、hash_map.txtには、教師データの中に出現するハッシュ値が一覧として保存される。

本発明は、これに制限されるものではないが、一実施形態として、デジタルコンテンツ作成アプリケーション間の相互運用性を提供するために使用されているｆｂｘファイルが使用される（以下、同様）。ｆｂｘファイルは、３Ｄデータ転送用のオープンフレームワークである。

そして、図１０のステップＳ１００１において処理を開始すると、ステップＳ１００２へ進み、アバター生成器の出力ファイルが入力される。次に、Ｓ１００３へ進み、メモリに記憶されている全処理対象のｆｂｘファイルが読み出され、リスト化される。

ステップＳ１００４では、読み出されたｆｂｘファイルリストのうち、処理すべきｆｂｘファイルが残っているかどうかが判断され、Ｙｅｓの場合はＳ１００５へ進むが、Ｎｏの場合はＳ１０１０へ進む。

ステップＳ１００５では、リストとして読み出されたｆｂｘファイルから、今回のルーチンで処理すべきｆｂｘファイルが読み込まれ、ステップＳ１００６では、ピクセルバッファに対してメッシュがレンダリングされる。

次に、Ｓ１００７へ進み、ピクセルバッファはタイルに分割され、各タイルへハッシュ値が割り当てられる。

ステップＳ１００８では、ハッシュ値は現在のメモリ上のハッシュマップに存在するかどうかが判断され、存在する場合（ステップＳ１００８においてＹｅｓ）は、ステップＳ１００４へ復帰し、存在しない場合（ステップＳ１００８においてＮｏ）は、ステップＳ１００９へ進む。

ステップＳ１００９では、前ステップで判断されたハッシュ値がメモリ上のハッシュマップへ追加される。

また、ステップＳ１０１０では、処理すべきｆｂｘファイルは全て処理し終えたので、メモリ上のハッシュマップにおけるハッシュ値は、ハッシュマップファイル（hash_map.txt）へ出力される。

そして、ステップＳ１０１１へ進み、本フローとしては処理を終了する。

図１１は、教師データのバイナリファイルを生成するステージである。図１０に示されたフローに続く一実施形態として、デジタルコンテンツ作成アプリケーション間の相互運用性を提供するために使用されているｆｂｘファイルが使用される。

本フローにおいて、タイルデータは、ハッシュ値によって区分される必要があるが、全てを同時にＲＡＭ等のメモリに格納することは困難である。そのため、本発明の一実施形態においては、バイナリファイルを段階的に書き出し続ける。この処置は、オペレーティングシステム及びＳＳＤの構成によっては、速度の面で有意な効果を奏する。

また、本発明の一実施形態における教師データタイルのデータセットとして、ピクセル当たりの入力（Ｕ，Ｖ，光度，分類ＩＤ）及び出力（Ｒ，Ｇ，Ｂ，α）が採用されうる。本発明は、これに制限されるものではないが、ＲＡＭの問題点を考慮した場合には、ＡＯＳ（Array of structs：構造体の配列）のように書き出される。後のトレーニング工程では、ＳＯＡ（Struct of arrays；配列の構造体）が必要になる。異なるハッシュ値は異なるバイナリファイルに保存される。

本発明はこれに限定されるものではないが、一実施形態において、hash_map.txtには、入っているハッシュ値のタイル情報のみが格納される。レンダリングは、リアルタイム用のグラフィックスＡＰＩによって実行される
そして、図１１のステップＳ１１０１において処理を開始すると、ステップＳ１１０２へ進み、アバター生成器の出力ファイルが入力される。次に、Ｓ１１０３へ進み、メモリに記憶されている全処理対象のｆｂｘファイルが読み出され、リスト化される。

ステップＳ１１０４では、図１０のステップＳ１０１０においてハッシュ値が出力された先のハッシュマップファイル（hash_map.txt）を読み込む。

次に、ステップＳ１１０５では、各配列におけるハッシュマップファイル（hash_map.txt）からのハッシュ値でメモリ上のハッシュマップを埋める。

ステップＳ１１０６では、ステップＳ１１０４で読み出されたｆｂｘファイルリストのうち、処理すべきｆｂｘファイルが残っているかどうかが判断され、Ｙｅｓの場合はＳ１１０７へ進むが、Ｎｏの場合はＳ１１１４へ進む。

ステップＳ１１０７では、リストとして読み出されたｆｂｘファイルから、今回のルーチンで処理すべきｆｂｘファイルが読み込まれ、ステップＳ１１０８では、ピクセルバッファに対してメッシュがレンダリングされる。

ステップＳ１１０９では、一実施形態においてターゲットファイルとなるｐｎｇファイルが読み込まれる。

次に、Ｓ１１１０へ進み、ピクセルバッファはタイルに分割され、各タイルへハッシュ値が割り当てられる。ステップＳ１１１１では、そのハッシュ値に関連する配列へ各タイルが加えられる。

次に、ステップＳ１１１２では、ハッシュマップ配列のコンテンツが適切なバイナリファイルへ出力され、ステップＳ１１１３では、ハッシュマップにおける配列からコンテンツが消去される。

ステップＳ１１１４では、ハッシュマップ配列のコンテンツが適切なバイナリファイルへ出力される。

そして、ステップＳ１１１５へ進み、本フローとしては処理を終了する。

図１２は、実際に１つのハッシュ値のニューラルネットワークをトレーニングするステージであり、図１１に示されたフローに続く一実施形態として、バイナリファイル内容がメモリ空間へマッピングされる工程フローが示されている。

本フローにおいては、配列のストライドだけを合わせれば、バイナリファイルのデータをそのままで利用できるようになっている。そのため、一般的なケースと異なり、読み込んだ教師データをトレーニングの入力と出力に適した形式に変換する処理が必要ない（例えば、画像のフォーマットをint8型からfloat32型に変換したり、コンテンツを修正したりするなど）。

図１２における最後の工程はニューラルネットワークのトレーニングである（このトレーニングそれ自体には、従前の手法を採用できるため、本発明に特有の事項を除き、詳細の説明を割愛している）。

本発明の一実施形態において、ニューラルネットワークのトレーニング・フレームワーク（ＰｙＴｏｒｃｈ）は、Ｐｙｔｈｏｎ言語のＧＵＩを介して利用されることができる。余談であるが、Ｐｙｔｈｏｎ言語は、計算処理の遅い言語であるため、データを実際に読み込まないほうが好ましい。本発明の一実施形態においては、オペレーティングシステムとＣＰＵの構成により、ファイル内容は、仮想記憶のポインタを介して直接指定できる。また、ファイル内変数を指すポインタとファイル内配列のストライドをＮｕｍｐｙ配列のフォーマットでＰｙＴｏｒｃｈのＧＵＩに送れば、そのまま教師データをＰＣＩｅ外側のＧＰＵに速く転送することができる。Ｎｕｍｐｙは、他のＰｙｔｈｏｎ言語ライブラリである。

本発明は、これに制限されるものではないが、一実施形態において、ニューラルネットワークのアーキテクチャは、Gao Huang他の”Densely Connected Convolutional Networks”（https://arxiv.org/pdf/1608.06993v5.pdf）に基づいて実装されることができる。

また、図１２に示されたフローにおいては、３×３の畳み込みカーネルに替えて、１×１の畳み込みカーネルを使用することができる。

図１２のステップＳ１２０１において処理を開始すると、ステップＳ１２０２へ進み、図１１に示されたフローまでに生成されたハッシュ値が入力される。次に、ステップＳ１２０３へ進み、バイナリファイルのリストであるｆｉｌｅ＿ｌｉｓｔ＝｛｝が確保される。

ステップＳ１２０４では、確保されたバイナリファイルのリストのうち、処理すべきバイナリファイルが残っているかどうかが判断され、Ｙｅｓの場合はＳ１２０５へ進むが、Ｎｏの場合はＳ１２０９へ進む。

次に、ステップＳ１２０６へ進み、
（ｂｉｎａｒｙ＿ｆｉｌｅ．ｎａｍｅ．ｕ＆ｈａｓｈ．ｕ）＞０
であるかどうかが判断され、Ｙｅｓの場合はステップＳ１２０７へ進み、Ｎｏの場合はステップＳ１２０４へ復帰する。

次に、ステップＳ１２０７へ進み、
（ｂｉｎａｒｙ＿ｆｉｌｅ．ｎａｍｅ．ｖ＆ｈａｓｈ．ｖ）＞０
であるかどうかが判断され、Ｙｅｓの場合はステップＳ１２０８へ進み、Ｎｏの場合はステップＳ１２０４へ復帰する。

ステップＳ１２０８では、バイナリファイルがｆｉｌｅ＿ｌｉｓｔへ追加される。

ステップＳ１２０９では、ｆｉｌｅ＿ｌｉｓｔ内のファイルごとに１回、ファイルの内容がｐｙｔｏｒｃｈテンソル仮想メモリ空間に直接マップされる。

ステップＳ１２１０では、このハッシュに対するニューラルネットワークがトレーニングされる。

そして、ステップＳ１２１１へ進み、本フローとしては処理を終了する。

なお、本発明の一実施形態においては、ハッシュ値に対応するタイルの教師データは、ハッシュ値によって、入力領域として近い他の複数のタイルの教師データを含ませることができる。これにより、タイルの境界部分をより自然な結果となるように学習させることができる。

バイナリファイルは、入力領域を指定するハッシュ値によって区分されている。ニューラルネットワークのトレーニングは、自身のハッシュ値や、自身のハッシュ値と近似しているハッシュ値を利用して行われる。ハッシュ値は、元々ＵＶ空間の領域を表すビットフィールドなので、ビット単位のＡＮＤ演算（論理積）により、値と値の類似を推計することができる。

図１３に、本発明の一実施形態にかかる画像処理システム等の動作の具体例のうち、１×１の畳み込みカーネルを採用したことによる動作原理を示す。

以下、従来の画像処理システム等における畳み込みカーネルの計算処理例（図１７～図１８）と対比しながら、本発明の一実施形態にかかる画像処理システム等における畳み込みカーネルの計算処理について説明する。

まず、図１３に示される本発明の一実施形態にかかる１×１の畳み込みカーネルでは、入力画像領域１３１０に入力画像の少なくとも一部が示されており、入力画像領域１３１０内の畳み込みカーネル対象領域１３１１には、情報（１）が埋められているものとする。また、図１３に示された畳み込みカーネル１３２０には、情報（０）が埋められているものとする。

そして、畳み込みカーネル対象領域１３１１と畳み込みカーネル１３２０との演算による出力層１３３０上の出力は、畳み込みカーネル対象領域１３１１及び畳み込みカーネル１３２０中の各要素の積（及び和）によって、以下のように求められる。

（１×０）＝０
本発明はこれに制限されるものではないが、本発明の一実施形態にかかる画像処理システム等においては、上述したような１×１の畳み込みカーネルが採用されることで、データ依存性の問題を一層解決することができる。また、本発明の他の実施形態においては、１×１の畳み込みカーネル以外の簡素な構成の畳み込みカーネルによっても、同様の効果を奏することができる。

次に、１×１の畳み込みカーネルとの比較のために、従来の畳み込みカーネルの計算コストを説明した後、本発明の一実施形態におけるもう一つの特徴であるハッシュ分業について説明する。
（従来の畳み込みニューラルネットワーク）
従来の畳み込みニューラルネットワークの設計方法は、本願の出願時点において最新のＧＰＵに実装した場合には、ハードウェアの利用効率が低下してしまうという問題がある。一方で、リアルタイム・レンダリングという特殊なケースでは、通常とは異なる有利なデータ依存特性により、これらの非効率性を改善できることは上述したとおりであり、そのためのアルゴリズムが「ハッシュ分業」である（「ハッシュ分業」の具体例については、図１４～図１６を参照してさらに詳細に説明する）。

図１７～図１８に、従来の画像処理システム等における畳み込みカーネルの計算処理例が示されている。より具体的には、図１７には、畳み込みカーネルが生成する計算の様子が示されており、図１８には、図１７に示される計算が入力チャンネル数に応じてどのように変化するかが示されている。

なお、チャンネルの数は、ニューラルネットワークに表現力を持たせるために多数用意される。一例として、５１２チャンネルなどである（それ以上でも差し支えない）。一般に、画像の品質や表現力を向上させるためにはチェンネル数を増大させる必要がある。しかしながら、各ピクセルにおいては、ほとんどのチャンネルが無関係になっていることが多く、非効率である。つまり、チャンネル数による非効率は、スケーラビリティのボトルネックとなる。

図１７には、入力画像領域１７１０に入力画像の少なくとも一部が示されており、入力画像領域１７１０内の畳み込みカーネル対象領域１７１１には、左上から順に、（０，０，０，０，１，１，０，１，２）の情報が詰められているものとする。また、図１７に示された畳み込みカーネル１７２０には、左上から順に、（４，０，０，０，０，０，０，０，－４）の情報が詰められている。

そして、畳み込みカーネル対象領域１７１１と畳み込みカーネル１７２０との演算による出力層１７３０上の出力は、畳み込みカーネル対象領域１７１１及び畳み込みカーネル１７２０中の各要素の積及び和によって、以下のように求められる。

（０×４）＋（０×０）＋（０×０）＋
（０×０）＋（１×０）＋（１×０）＋
（０×０）＋（１×０）＋（２×（－４））
＝－８
図１８には、図１７に示される計算が入力チャンネル数に応じてどのように変化するかが示されており、チャンネル数が３であった場合の計算例である。図１８に示されるように、入力画像領域１８１０ａ～１８１０ｃ内の畳み込みカーネル対象領域１８１１ａ～１８１１ｃと、畳み込みカーネル１８２０ａ～１８２０ｃとの演算による出力層１８３０上の出力は、以下のように求められる。

（０×１）＋（０×０）＋（０×４）＋
（０×１）＋（０×０）＋（０×０）＋
（１×０）＋（０×４）＋（０×０）＋
（１×０）＋（０×０）＋（０×０）＋
（１×０）＋（１×１）＋（１×０）＋
（２×１）＋（１×１）＋（１×０）＋
（０×０）＋（０×０）＋（０×０）＋
（０×０）＋（１×０）＋（１×０）＋
（０×１）＋（０×０）＋（２×（－４））
＝－４
このように、図１７及び図１８に示される、コンボリューショナルカーネルの計算コストは、入力ピクセル数と出力チャンネル数を掛け合わせて算出される。

この計算コストを、ＧＰＵの使用率から考えると、次の（Ａ）～（Ｃ）のような問題が考えらえる。
（Ａ）レイヤー数が多くなり、各レイヤーが複数のシェーダの呼び出しで構成されるようになると、小さなシェーダを大量に起動して終了させることによるオーバーヘッドが増大する。
（Ｂ）適度なチャンネル数の畳み込みニューラルネットワークは、メモリ命令に対する演算命令の不足が問題となる場合がある。チャンネル数が多ければ、特定の演算ではバランスは良くなるものの、最終的にはランタイムが長くなる。ニューラルネットワークは、ハードウェア利用の観点からは効率的といえるが、リアルタイム性の観点からは、従来のやり方では不十分なものとなる。したがって、チャンネル数が増えても、一部の演算は不均衡なままとなる。
（Ｃ）レイヤー内の演算及びレイヤー間の演算は、データに依存するシェーダ呼び出しとして実装されているため、中間出力をオフチップ・メモリに書き込んでから、別のシェーダ呼び出しに含まれる次の演算の入力として再読込する必要があるという改善すべき冗長性がある。

次に、上記の問題（Ａ）～（Ｃ）に対する解決の糸口を考察すると、まず（Ａ）に関して、なぜニューラルネットワークを細かく分割して、それぞれのシェーダを呼び出すのかを検討すると、それは、演算間のデータ依存性と要素／ピクセル間のデータ依存性の組み合わせによるものであると考えられる。もし、操作間の依存性がなければ、レイヤーを並行して実行できることが示唆される。また、要素間の依存性がなければ、出力ピクセルを並列に実行できることが示唆される。いずれにしても、１回のシェーダ呼び出しでニューラルネットワークを解決できることを意味する。

（Ｂ）に関しては、問題は、ニューラルネットワーク全体の計算命令が不足しているのではなく、各シェーダの呼び出しに含まれる演算命令の数が少な過ぎることにある可能性が示唆される。つまり、各スレッドは、最初のメモリ読み込みが完了するのを待つ間、半固定の起動時間があるため、アイドル・クロックサイクルの割合が高くなり、ＧＰＵ利用率が低下する。

（Ｃ）に関しては、小さなシェーダ呼び出しが大量にあることが問題と考えられる。中間出力の再書き込みと再読み込みを繰り返すと、大量のメモリトラフィックが発生し、レイテンシも発生することになる。シェーダの呼び出し回数が少なくするためには、データ依存性の問題を解決する必要がある。

以上の検討や考察を踏まえると、コンピュータグラフィックスの世界では、要素間のデータの依存関係を事前に解決することができれば、これまでに指摘した問題を解決できることがわかる。

そして、その解決策が、図１３を参照して説明した本発明の一実施形態における１×１の畳み込みカーネルの採用、及び／または、次に述べる「ハッシュ分業」の採用である（１×１の畳み込みカーネルについては、状況によっては、他の簡素な構成の畳み込みカーネルによっても本発明の効果を奏することができる）。以下、本発明の一実施形態におけるハッシュ分業の具体例について、図面を参照して説明する。

図１４～図１６に、本発明の一実施形態にかかる画像処理システム等の動作の具体例のうち、ハッシュ分業を採用したことによる動作原理を示す。

本発明の一実施形態にかかるハッシュ分業が実施されるにあたっては、画面フレーム中のタイルは、個々のＧＰＵスケジューラに割り当てられる。そして、各タイルの内容に基づいてハッシュ値をＧＰＵに計算させることで、専用のニューラルネットワークをオンチップメモリ上でローカルに実行させることができる。これにより、より小さなニューラルネットワークに特化することに成功し、また、中間データやデータの依存関係を同じスケジューラ内に保つことができるので、理論的に処理効率は向上する。

そのハッシュ分業の処理フロー例については、図６等を参照してすでに説明している。

図１４～図１６に例示されるハッシュ分業では、タイルのピクセル内容からハッシュ値を計算する過程が示されており、一実施形態において、以下の疑似コードが採用される。

ｆｏｒ（ｐｉｘｅｌｉｎｔｉｌｅ）｛ｈａｓｈ＿ｕ｜＝（１＜＜ｐｉｘｅｌ．ｕ）｝
ｆｏｒ（ｐｉｘｅｌｉｎｔｉｌｅ）｛ｈａｓｈ＿ｖ｜＝（１＜＜ｐｉｘｅｌ．ｖ）｝
３ＤモデルのもつテクスチャＵＶは、本発明の一実施形態におけるハッシュ分業を適用するには理想的であり、基本的には、初期ビットが０であるものを出力ビットとして１を立てる。また、望ましくは、さらに８倍するなどのスケーリングが採用される。

このような構成により、「配列キー＝ハッシュ値」という関係で、重みを効率的にロードすることができる。

図１４におけるハッシュ分業では、上述の前提に基づき、入力画像領域１４１０のピクセル１４１１内の値０．８が、以下の式に基づいて出力されている様子が示されている。

出力｜＝
１＜＜（（ｓｔａｔｉｃ＿ｃａｓｔ＜ｉｎｔ＞（０．８ｆ＊８．０ｆ））％８）
また、図１５におけるハッシュ分業では、入力画像領域１５１０のピクセル１５１１内の値０．２が、以下の式に基づいて出力されている様子が示されている。

出力｜＝
１＜＜（（ｓｔａｔｉｃ＿ｃａｓｔ＜ｉｎｔ＞（０．２ｆ＊８．０ｆ））％８）
また、図１６におけるハッシュ分業では、入力画像領域１６１０のピクセル１６１１内の値１．０が、以下の式に基づいて出力されている様子が示されている。

出力｜＝
１＜＜（（ｓｔａｔｉｃ＿ｃａｓｔ＜ｉｎｔ＞（１．０ｆ＊８．０ｆ））％８）
以下、同様に、入力画像領域内のピクセル内の値に対して、次々とハッシュ分業処理が実施されていくことになる。
［理論的効果］
以上述べた実施例から導かれる本発明の一実施形態における理論的効果は、次のとおりである。
（理論的効果１：ニューロン数の低減）
制約の多い入力領域では、より少ない数のニューロンで十分なパフォーマンスが得られる。このことは、パフォーマンス面にも顕著に反映される。さらに、理論的には、本発明が取り扱う十分に小さいニューラルネットワークは、１つの命令スケジューラ（またはスケジューラのクラスタ）のレジスタ内で、そのライフタイムの間生存することができるため、このことによる効果も期待できる（後述の理論的効果２～４を参照）。
（理論的効果２：シェーダの使用回数の低減）
すべてのニューラルネットワークを１回のシェーダ呼び出しで同時に解決することができるため、プラットフォームに起因する無数のオーバーヘッドを回避することができる。
（理論的効果３：ＡＬＵの使用率向上）
入力及び出力の両方がレジスタに格納されているため、ＡＬＵはメモリ依存によるレイテンシの制約を受けることがない。ＡＬＵを自身のペースで動作させることは、あらゆる面での性能向上につながる。
（理論的効果４：メモリトラフィックの削減）
外部メモリとの間で中間値を書き込んだり、それを読み返したりする必要がないため、メモリトラフィックは減少する。これにより、メモリサブシステムの負担が軽減され、パフォーマンスが向上する。
（理論的効果５：大容量システムのスケーラビリティ向上）
ニューラルネットワークが生成するレンダリング出力の幅や質が向上すると、ニューラルネットワークのサイズも大きくなり、ニューラルネットワークのサイズが大きくなると、パフォーマンスが低下する。本発明の一実施形態におけるハッシュ分業は、構造化されたサブドメインの切り離しにより、この問題を回避することができる。
（理論的効果６：ストリーミング・フレンドリー・アセット）
アートアセットとして展開する場合、ニューラルネットワークはＳＳＤからリアルタイムにストリーミングされる必要がある。そこで、各ニューラルネットワークを小さくし、構造化された方法でラベル付けすることで、現在のスクリーンコンテンツに基づいて、必要に応じてメモリに出し入れすることができる。
（理論的効果７：制御性と安定性の向上）
メモリの依存関係が制限されることで、特定の結論に到達するために使用された入力を推測することが容易になる。これにより、ニューラルネットワークが、十分に異なる状況下で失敗してしまうリスクを低減させることができる。
（理論的効果８：ラスタ耐性のあるズーミング）
低解像度の出力に必要なロジックは、高解像度の出力に必要なロジックとは大きく異なる場合があり、本発明を適用しない場合には、入力ドメインのズームレベルが広いほどラスタアーティファクトが発生する。そこで、本発明の一実施形態にかかるハッシュアルゴリズムを採用したことで、ズームレベルに応じて異なるニューラルネットワークが学習され、このプロセスが自動的に行われるという利点がある。
（理論的効果９：レンダーエンジンの互換性）
本発明の一実施形態にかかるハッシュ分業は、他のエンジンと同じ３Ｄモデル、アニメーション、光源を使用しており、いくつかの（またはすべての）シーンオブジェクトのシェーダとして追加されることもできる。
（理論的効果１０：ニューラルネットワークの画質）
オフラインでのＧＡＮベースのニューラルネットワークは、すでに現在のリアルタイムレンダリングシステムよりも高品質な出力を実現している。これを迅速かつ安定的に行うことにより、多くの種類のリアルタイムエンジンや製品にとって魅力的な選択肢を与えることができる。
（理論的効果１１：資産形成）
ニューラルネットワークのトレーニングは、静的なアセットの３Ｄスキャンや、シェーダで使用されるＰＢＲ定数よりも、多くの点で寛容的である。シーン全体で一貫してフォトリアリスティックな品質レベルを維持するための現実的な選択肢を提供することができる。

以上、具体例に基づき、画像処理システム及び画像処理プログラム等の実施形態を説明したが、本発明の実施形態としては、システム又は装置を実施するための方法又はプログラムの他、プログラムが記録された記憶媒体（一例として、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、磁気テープ、ハードディスク、メモリカード）等としての実施態様をとることも可能である。

また、プログラムの実装形態としては、コンパイラによってコンパイルされるオブジェクトコード、インタプリタにより実行されるプログラムコード等のアプリケーションプログラムに限定されることはなく、オペレーティングシステムに組み込まれるプログラムモジュール等の形態であっても良い。

さらに、プログラムは、必ずしも制御基板上のＣＰＵにおいてのみ、全ての処理が実施される必要はなく、必要に応じて基板に付加された拡張ボードや拡張ユニットに実装された別の処理ユニット（ＤＳＰ等）によってその一部又は全部が実施される構成とすることもできる。

本明細書（特許請求の範囲、要約、及び図面を含む）に記載された構成要件の全て及び／又は開示された全ての方法又は処理の全てのステップについては、これらの特徴が相互に排他的である組合せを除き、任意の組合せで組み合わせることができる。

また、本明細書（特許請求の範囲、要約、及び図面を含む）に記載された特徴の各々は、明示的に否定されない限り、同一の目的、同等の目的、または類似する目的のために働く代替の特徴に置換することができる。したがって、明示的に否定されない限り、開示された特徴の各々は、包括的な一連の同一又は均等となる特徴の一例にすぎない。

さらに、本発明は、上述した実施形態のいずれの具体的構成にも制限されるものではない。本発明は、本明細書（特許請求の範囲、要約、及び図面を含む）に記載された全ての新規な特徴又はそれらの組合せ、あるいは記載された全ての新規な方法又は処理のステップ、又はそれらの組合せに拡張することができる。

１０画像処理システム
１１情報処理サーバ群
１１１リアルタイムクラスタ
１１２ロードバランサ
１２、１３ＰＣ（情報処理装置の一形態）
１４携帯電話（情報処理装置の一形態）
１５、１５ａ～１５ｃタブレット端末（情報処理装置の一形態）
１９公衆回線（専用線、インターネット等）
２３ＡＰＩサーバ

Claims

画面フレーム中のメッシュ情報及びライティング情報をニューラルネットワークに適応できるように構造化された入力フォーマットに変換するための変換ステップと、
タイル毎に学習させた前記ニューラルネットワークを使い分けるためのハッシュ分業を行わせるステップとを含み、
前記ハッシュ分業には、
前記画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算する工程と、
前記ハッシュ値をキーとして使用し、ルックアップテーブルから対応するタイルの前記ニューラルネットワークにおける重みを選択して読み込む工程とが含まれ、
前記ハッシュ分業による出力は、前記画面フレーム中のタイルに対応する前記ニューラルネットワークの重みによって推定される推定値である
ことを特徴とするコンピュータによる画像処理方法。
前記コンピュータは、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（以下、「同期グループ」という。）と、前記同期グループが共有できるオンチップメモリとを有しており、
前記ハッシュ分業は、前記画面フレーム中のタイル毎に、前記同期グループを割り当て、前記ニューラルネットワークの重みを前記オンチップメモリ上に読み込む
請求項１に記載の方法。
前記コンピュータは、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（以下、「同期グループ」という。）と、レジスタとを有しており、
前記ハッシュ分業は、前記画面フレーム中のタイル毎に、前記同期グループを割り当て、前記ニューラルネットワークの中間レイヤーの出力を前記レジスタに格納する
請求項１に記載の方法。
前記タイル毎のニューラルネットワークを学習させる工程において、前記画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算し、前記ハッシュ値に対応するタイルの教師データのみを使い、前記ハッシュ値専用のニューラルネットワークの重みを学習させる
請求項１に記載の方法。
前記ハッシュ値に対応する前記タイルの前記教師データは、前記ハッシュ値によって、入力領域として近い他の複数のタイルの教師データを含む
請求項４に記載の方法。
ＣＰＵとＧＰＵとを備え、ニューラルネットワークを使ってレンダリング処理を行う画像処理システムであって、
画面フレーム中のメッシュ情報及びライティング情報をニューラルネットワークに適応できるように構造化された入力フォーマットに変換するための変換部と、
タイル毎に学習させた前記ニューラルネットワークを使い分けるためのハッシュ分業を行わせる処理部とを含み、
前記ハッシュ分業には、
前記画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算する計算部と、
前記ハッシュ値をキーとして使用し、ルックアップテーブルから対応するタイルの前記ニューラルネットワークにおける重みを選択して読み込む読み込み部とが含まれ、
前記ハッシュ分業による出力は、前記画面フレーム中のタイルに対応する前記ニューラルネットワークの重みによって推定される推定値である
ことを特徴とする画像処理システム。
前記コンピュータは、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（以下、「同期グループ」という。）と、前記同期グループが共有できるオンチップメモリとを有しており、
前記ハッシュ分業は、前記画面フレーム中のタイル毎に、前記同期グループを割り当て、前記ニューラルネットワークの重みを前記オンチップメモリ上に読み込む
請求項６に記載のシステム。
前記コンピュータは、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（以下、「同期グループ」という。）と、レジスタとを有しており、
前記ハッシュ分業は、前記画面フレーム中のタイル毎に、前記同期グループを割り当て、前記ニューラルネットワークの中間レイヤーの出力を前記レジスタに格納する
請求項６に記載のシステム。
前記タイル毎のニューラルネットワークを学習させる工程において、前記画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算し、前記ハッシュ値に対応するタイルの教師データのみを使い、前記ハッシュ値専用のニューラルネットワークの重みを学習させる
請求項６に記載のシステム。
ＣＰＵとＧＰＵとを備え、ニューラルネットワークを使ってレンダリング処理を行う画像処理システム上で実行されるプログラムであって、前記システムで実行されたとき、
前記ＣＰＵまたは前記ＧＰＵに、
画面フレーム中のメッシュ情報及びライティング情報をニューラルネットワークに適応できるように構造化された入力フォーマットに変換させるステップと、
タイル毎に学習させた前記ニューラルネットワークを使い分けるためのハッシュ分業を行わせるステップとを含み、
前記ハッシュ分業には、
前記画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算させるステップと、
前記ハッシュ値をキーとして使用し、ルックアップテーブルから対応するタイルの前記ニューラルネットワークにおける重みを選択して読み込ませるステップとが含まれるものであって、
前記ハッシュ分業による出力は、前記画面フレーム中のタイルに対応する前記ニューラルネットワークの重みによって推定される推定値である
ことを特徴とするプログラム。
前記システムは、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（以下、「同期グループ」という。）と、前記同期グループが共有できるオンチップメモリとを有しており、
前記ハッシュ分業は、前記画面フレーム中のタイル毎に、前記同期グループを割り当て、前記ニューラルネットワークの重みを前記オンチップメモリ上に読み込むステップを含む
請求項１０に記載のプログラム。
前記システムは、処理ユニットにおいて互いに効率的に同期できる複数の部分プロセッサ（以下、「同期グループ」という。）と、レジスタとを有しており、
前記ハッシュ分業は、前記画面フレーム中のタイル毎に、前記同期グループを割り当て、前記ニューラルネットワークの中間レイヤーの出力を前記レジスタに格納するステップを含む
請求項１０に記載のプログラム。
前記タイル毎のニューラルネットワークを学習させる工程において、前記画面フレーム中のピクセル値をハッシュ化してハッシュ値を計算し、前記ハッシュ値に対応するタイルの教師データのみを使い、前記ハッシュ値専用のニューラルネットワークの重みを学習させる
請求項１０に記載のプログラム。
前記ハッシュ値に対応する前記タイルの前記教師データは、前記ハッシュ値によって、入力領域として近い他の複数のタイルの教師データを含む
請求項１３に記載のプログラム。