WO2019093105A1

WO2019093105A1 - クライアント装置、サーバ、プログラム

Info

Publication number: WO2019093105A1
Application number: PCT/JP2018/039170
Authority: WO
Inventors: 雅人小助川; 和高橋; 重太郎望月; 悠人公文
Original assignee: Shiseido Co Ltd
Current assignee: Shiseido Co Ltd
Priority date: 2017-11-07
Filing date: 2018-10-22
Publication date: 2019-05-16
Anticipated expiration: 2020-05-07
Also published as: JP7390891B2; TW201922186A; JPWO2019093105A1

Abstract

画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバと接続されるクライアント装置は、ユーザの指に装着された少なくとも１つの装着物と、少なくとも１つのオブジェクトと、を含む画像の画像データを取得する手段を備え、画像データをサーバに送信する手段を備え、画像に含まれるオブジェクトに関する音声を出力するための音声出力データをサーバから受信する手段を備え、音声出力データに基づく音声を出力する手段を備える。

Description

クライアント装置、サーバ、プログラム

　本発明は、クライアント装置、サーバ、及び、プログラムに関する。

　一般に、視覚障害者の行動を補助する方法として、音声案内が知られている。
　例えば、特開２００４－０１６５７８号公報には、目的地に設置された送信機と、視覚障害者が携帯した受信機との間の距離を測定することにより、現在地から目的物までの距離を音声で知らせる技術が開示されている。

　しかし、特開２００４－０１６５７８号公報では、送信機が設置されていない場所では、視覚障害者は音声案内を受けることができない。そのため、視覚障害者が音声案内を受けられる範囲が限られる。その結果、視覚障害者が安心して行動できる範囲が狭まってしまう。

　本発明の目的は、視覚障害者が音声案内を受けられる範囲の制約を解消することである。

　本発明の一態様は、
　画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバと接続されるクライアント装置であって、
　ユーザの指に装着された少なくとも１つの装着物と、少なくとも１つのオブジェクトと、を含む画像の画像データを取得する手段を備え、
　前記画像データを前記サーバに送信する手段を備え、
　前記画像に含まれるオブジェクトに関する音声を出力するための音声出力データを前記サーバから受信する手段を備え、
　前記音声出力データに基づく音声を出力する手段を備える、
クライアント装置である。

　本発明によれば、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。

本実施形態の情報処理システムの概略図である。図１の情報処理システムの構成を示すブロック図である。図１のカメラユニット５０の構成を示す図である。図１のネイルキャップの構成を示す図である。本実施形態の概要の説明図である。本実施形態の情報処理のシーケンス図である。図６のＳ５００の説明図である。図６のＳ１００の説明図である。図６のＳ５０２の説明図である。変形例のジェスチャデータベースのデータ構造を示す図である。変形例の情報処理のシーケンス図である。変形例のジェスチャの一例を示す図である。

　以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

（１）情報処理システムの構成
　情報処理システムの構成について説明する。図１は、本実施形態の情報処理システムの概略図である。図２は、図１の情報処理システムの構成を示すブロック図である。

　図１に示すように、情報処理システム１は、クライアント装置１０と、サーバ３０と、カメラユニット５０と、を備える。
　クライアント装置１０及びサーバ３０は、ネットワーク（例えば、インターネット又はイントラネット）ＮＷを介して接続される。
　クライアント装置１０及びカメラユニット５０は、無線通信を介して接続される。

　クライアント装置１０は、サーバ３０にリクエストを送信する情報処理装置の一例である。クライアント装置１０は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。

　サーバ３０は、クライアント装置１０から送信されたリクエストに応じたレスポンスをクライアント装置１０に提供する情報処理装置の一例である。サーバ３０は、例えば、ウェブサーバである。

　カメラユニット５０は、画像を撮像し、且つ、撮像した画像の画像データを生成するように構成される。

　ユーザ（例えば、視覚障害者）は、自身の指にネイルキャップＮＣ（「装着物」の一例）を装着し、且つ、クライアント装置１０を携帯することにより、サーバ３０にアクセスする。

（１－１）クライアント装置の構成
　クライアント装置１０の構成について説明する。

　図２に示すように、クライアント装置１０は、記憶装置１１と、プロセッサ１２と、入出力インタフェース１３と、通信インタフェース１４と、を備える。

　記憶装置１１は、プログラム及びデータを記憶するように構成される。記憶装置１１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

　プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーション（例えば、ウェブブラウザ）のプログラム

　データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

　プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動することによって、クライアント装置１０の機能を実現するように構成される。プロセッサ１２は、コンピュータの一例である。

　入出力インタフェース１３は、クライアント装置１０に接続される入力デバイスからユーザの指示を取得し、かつ、クライアント装置１０に接続される出力デバイスに情報を出力するように構成される。
　入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、マイク、又は、それらの組合せである。
　出力デバイスは、例えば、ディスプレイ、スピーカ、又は、それらの組合せである。

　通信インタフェース１４は、クライアント装置１０とサーバ３０との間の通信を制御するように構成される。

（１－２）サーバの構成
　サーバ３０の構成について説明する。

　図２に示すように、サーバ３０は、記憶装置３１と、プロセッサ３２と、入出力インタフェース３３と、通信インタフェース３４とを備える。

　記憶装置３１は、プログラム及びデータを記憶するように構成される。記憶装置３１は、例えば、ＲＯＭ、ＲＡＭ、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

　プログラムは、例えば、以下のプログラムを含む。
・ＯＳのプログラム
・情報処理を実行するアプリケーションのプログラム
・画像オブジェクトの特徴量と言語（例えば、オブジェクト名）との関係に関する学習用データセット

　データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果

　プロセッサ３２は、記憶装置３１に記憶されたプログラムを起動することによって、サーバ３０の機能を実現するように構成される。プロセッサ３２は、コンピュータの一例である。

　入出力インタフェース３３は、サーバ３０に接続される入力デバイスからユーザの指示を取得し、かつ、サーバ３０に接続される出力デバイスに情報を出力するように構成される。
　入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
　出力デバイスは、例えば、ディスプレイである。

　通信インタフェース３４は、サーバ３０とクライアント装置１０との間の通信を制御するように構成される。

（１－３）カメラユニットの構成
　カメラユニット５０の構成について説明する。図３は、図１のカメラユニット５０の構成を示す図である。

　図３Ａは、カメラユニット５０の正面図である。図３Ｂは、カメラユニット５０の上面図である。図３Ｃは、カメラユニット５０の側面図である。

　図３に示すように、カメラユニット５０は、レンズ５０ａと、スピーカ５０ｂと、クリップ５０ｃと、イメージセンサ５０ｄと、カメラコントローラ５０ｅと、を備える、

　図３Ａ～図３Ｃに示すように、レンズ５０ａは、カメラユニット５０の前面（Ｚ－側の面）に配置される。

　図３Ｂ～図３Ｃに示すように、スピーカ５０ｂは、カメラユニット５０の上面（Ｙ＋側）に配置される。

　クリップ５０ｃは、カメラユニット５０の背面（Ｚ＋側の面）に配置される。つまり、クリップ５０ｃは、レンズ５０ａと反対側の面に配置される。
　ユーザは、クリップ５０ｃを自身の衣服に引っ掛けることにより、レンズ５０ａが自身の正面（つまり、視線の方向）を向くように、カメラユニット５０を装着することができる。

　図３Ａ及び図３Ｃに示すように、イメージセンサ５０ｄは、カメラユニット５０の内部に配置される。レンズ５０ａを通過した光は、イメージセンサ５０ｄ上で結像する。イメージセンサ５０ｄは、結像した光を電気信号に変換することにより、レンズ５０ａを通過した光に基づく画像データを生成するように構成される。

　カメラコントローラ５０ｅは、カメラユニット５０の内部に配置されている。カメラコントローラ５０ｅは、カメラユニット５０の全体を制御するプロセッサである。

（１－４）ネイルキャップの構成
　ネイルキャップＮＣの構成について説明する。図４は、図１のネイルキャップの構成を示す図である。

　図４Ａに示すように、ネイルキャップＮＣは、５個の右手用ネイルキャップＮＣＲ、及び、５個の左手用ネイルキャップ（つまり、１０個のネイルキャップ）ＮＣＬを含む。１０個のネイルキャップＮＣＬ及びＮＣＲには、互いに、異なるパターン（例えば、テキスト「Ｌ１」～「Ｌ５」及び「Ｒ１」～「Ｒ５」）が形成されている。ネイルキャップＮＣに形成されたパターンによって、各ネイルキャップＮＣが区別される。

　図４Ｂに示すように、各ネイルキャップＮＣは、ユーザの指に装着可能である。

（２）本実施形態の概要
　本実施形態の概要について説明する。図５は、本実施形態の概要の説明図である。

　図５に示すように、ユーザ（例えば、視覚障害者）の爪に装着されたネイルキャップＮＣが撮像範囲に入ると、クライアント装置１０は、ネイルキャップＮＣの周辺のオブジェクトＯＢＪ１（リンゴ）及びオブジェクトＯＢＪ２（バナナ）を含む画像ＩＭＧの画像データを取得する。
　クライアント装置１０は、取得した画像データをサーバ３０に送信する。

　サーバ３０は、クライアント装置１０から送信された画像データに対して画像解析を実行することにより、画像ＩＭＧにおけるネイルキャップＮＣの位置と、オブジェクトＯＢＪ１～ＯＢＪ２の位置と、をする。
　サーバ３０は、特定した位置に基づいて、オブジェクトＯＢＪ１～ＯＢＪ２のうち、ネイルキャップＮＣに最も近いオブジェクトＯＢＪ１を特定する。
　サーバ３０は、記憶装置３１に記憶された学習用データセットを参照して、特定したオブジェクトＯＢＪ１の特徴量に基づくオブジェクト名（つまり、リンゴ）を推定する。
　サーバ３０は、推定したオブジェクト名の音声を出力するための音声出力データを生成する。
　サーバ３０は、生成した音声出力データをクライアント装置１０に送信する。

　クライアント装置１０は、サーバ３０から送信された音声出力データに基づいて、音声「リンゴ」を出力する。

　ユーザは、クライアント装置１０によって出力された音声により、自身の指に対して最も近くにあるオブジェクトＯＢＪ１のオブジェクト名「リンゴ」を知ることができる。

　このように、ユーザ（例えば、視覚障害者）は、ネイルキャップＮＣが装着された指を使って、音声案内を受けることができる。つまり、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。

（３）情報処理
　本実施形態の情報処理について説明する。図６は、本実施形態の情報処理のシーケンス図である。図７は、図６のＳ５００の説明図である。図８は、図６のＳ１００の説明図である。図９は、図６のＳ５０２の説明図である。

　カメラユニット５０は、撮像（Ｓ５００）を実行する。
　具体的には、イメージセンサ５０ｄは、レンズ５０ａを通過した光の結像を電気信号に変換することにより、レンズ５０ａを通過した光に対応する画像データを生成する（図７Ａ）。
　カメラコントローラ５０ｅは、イメージセンサ５０ｄによって生成された画像データをクライアント装置１０に送信する。

　ステップＳ５００の後、クライアント装置１０は、画像解析リクエスト（Ｓ１００）を実行する。
　具体的には、プロセッサ１２は、ステップＳ５００で送信された画像データに対応する画像ＩＭＧがネイルキャップＮＣに形成されたパターンを含むか否かを判定する。一例として、図８に示すように、ユーザが、レンズ５０ａの画角の範囲内で右手の親指を立てるジェスチャを行うと、ステップＳ５００で送信された画像データは、右手の親指に装着されたネイルキャップＮＣのパターン（例えば、テキスト「Ｒ１」）の画像を含む。この場合、プロセッサ１２は、ネイルキャップＮＣに形成されたパターンを含むと判定する。
　プロセッサ１２は、ネイルキャップＮＣに形成されたパターンを含むと判定した場合、画像解析リクエストデータをサーバ３０に送信する。
　画像解析リクエストデータは、ネイルキャップＮＣに形成されたパターンを含む画像ＩＭＧの画像データを含む。

　ステップＳ１００の後、サーバ３０は、画像解析（Ｓ３００）を実行する。
　具体的には、プロセッサ３２は、画像解析リクエストデータに含まれる画像データに対して、特徴量解析を適用することにより、画像ＩＭＧに含まれる以下のオブジェクト（ネイルキャップＮＣの画素、及び、オブジェクトＯＢＪ１～ＯＢＪ２の画素）の座標を特定する。
　プロセッサ３２は、特定した座標に基づいて、画像ＩＭＧに含まれるオブジェクトＯＢＪ１～ＯＢＪ２のうち、ネイルキャップＮＣに最も近いオブジェクトＯＢＪ１を特定する。

　ステップＳ３００の後、サーバ３０は、オブジェクトの推定（Ｓ３０１）を実行する。
　具体的には、プロセッサ３２は、記憶装置３１に記憶された学習用データセットを参照して、ステップＳ３００で特定したオブジェクトＯＢＪ１の画素の特徴量に対応するオブジェクト名を推定する。

　ステップＳ３０２の後、サーバ３０は、テキストデータの生成（Ｓ３０２）を実行する。
　具体的には、プロセッサ３２は、ステップＳ３０１で推定されたオブジェクト名と、所定の語句（例えば、主語及び述語）と、によって構成される文章（例えば、「これはリンゴです。」）のテキストデータを生成する。

　ステップＳ３０２の後、サーバ３０は、画像解析レスポンス（Ｓ３０３）を実行する。
　具体的には、プロセッサ３２は、画像解析レスポンスデータをクライアント装置１０に送信する。
　画像解析レスポンスデータは、ステップＳ３０２で生成されたテキストデータを含む。

　ステップＳ３０３の後、クライアント装置１０は、音声データの生成（Ｓ１０１）を実行する。
　具体的には、プロセッサ１２は、画像解析レスポンスデータに含まれるテキストデータを、当該テキストデータに対応する音声データに変換する。
　プロセッサ１２は、変換した音声データをカメラユニット５０に送信する。

　ステップＳ１０１の後、カメラユニット５０は、音声出力（Ｓ５０２）を実行する。
　具体的には、カメラコントローラ５０ｅは、ステップＳ１０１で送信された音声データに対応する音声を再生する。
　図９に示すように、スピーカ５０ｂは、再生された音声（例えば、「これはリンゴです。」）を出力する。

　本実施形態によれば、ステップＳ５００で撮像された画像において、ネイルキャップＮＣの最も近くにあるオブジェクトＯＢＪ１の名称が読み上げられる。ユーザ（例えば、視覚障害者）は、スピーカ５０ｂから出力された音声を介して、ネイルキャップＮＣに最も近いオブジェクトＯＢＪ１を認知することができる。

　特に、親指の爪は最も大きく、且つ、親指を立てる行為はポジティブな印象を与えるので、親指用のネイルキャップＮＣに形成されたパターン（例えば、テキスト「Ｒ１」）を認識した場合にステップＳ１００を実行することが好ましい。

　（４）変形例
　変形例について説明する。変形例は、ユーザのジェスチャに応じた情報処理を実行する例である。

　（４－１）データベース
　変形例のデータベースについて説明する。図１０は、変形例のジェスチャデータベースのデータ構造を示す図である。

　図１０に示すように、変形例のジェスチャ情報データベースは、「パターン」フィールドと、「ジェスチャ」フィールドと、「アクション」フィールドと、を含む。各フィールドは、互いに関連付けられている。

　「パターン」フィールドには、ネイルキャップＮＣに形成されたパターンを識別する情報が格される。

　「ジェスチャ」フィールドには、単位時間あたりのネイルキャップＮＣの位置の変位に関する情報（例えば、動きベクトル）が格納される。動きベクトルが０の場合、ネイルキャップＮＣが静止していることを意味する。動きベクトルが０ではない場合、ネイルキャップＮＣの動きの方向及び速度を意味する。

　「アクション」フィールドには、プロセッサ１２が実行する情報処理の内容に関する情報が格納される。情報処理は、例えば、以下を含む。
・ステップＳ５００でカメラユニット５０から送信された画像のサーバ３０への送信
・ステップＳ５００でカメラユニット５０から送信された画像のサーバ３０への送信、且つ、当該画像が添付されたメールの送信
・ステップＳ５００でカメラユニット５０から送信された画像が添付されたメールの送信
・ステップＳ５００でカメラユニット５０から送信された画像の記憶装置１１への記憶（つまり、画像の保存）
・所定のアプリケーションの起動

　（４－２）情報処理
　変形例の情報処理について説明する。図１１は、変形例の情報処理のシーケンス図である。図１２は、変形例のジェスチャの一例を示す図である。

　図１１に示すように、ステップＳ５００（図６）の後、クライアント装置１０は、ジェスチャの特定（Ｓ１１０）を実行する。
　具体的には、プロセッサ１２は、ステップＳ５００で送信された画像データに対応する画像ＩＭＧに含まれるネイルキャップＮＣに形成されたパターンの動きベクトルを特定する。

　一例として、図１２Ａに示すように、ユーザが、レンズ５０ａの画角の範囲内で右手の人差し指及び中指を立てて静止させるジェスチャを行うと、ステップＳ５００で送信された画像データは、右手の人差し指及び中指のネイルキャップＮＣに形成されたパターン（例えば、テキスト「Ｒ２」及び「Ｒ３」）の画像を含み、且つ、動きベクトルは０である。この場合、プロセッサ１２は、「右手の人差し指及び中指に装着されたネイルキャップＮＣのパターンが静止している」と判定する。
　図１２Ｂに示すように、ユーザが、レンズ５０ａの画角の範囲内で右手の人差し指、中指、及び、薬指を立てて静止させるジェスチャを行うと、ステップＳ５００で送信された画像データは、右手の人差し指、中指、及び、薬指のネイルキャップＮＣに形成されたパターン（例えば、テキスト「Ｒ２」～「Ｒ４」）の画像を含み、且つ、動きベクトルは０である。この場合、プロセッサ１２は、「右手の人差し指、中指、及び、薬指に装着されたネイルキャップＮＣのパターンが静止している」と判定する。
　図１２Ｃに示すように、ユーザが、レンズ５０ａの画角の範囲内で右手の人差し指及び中指を立てて上から下に移動させるジェスチャを行うと、ステップＳ５００で送信された画像データは、右手の人差し指及び中指のネイルキャップＮＣに形成されたパターン（例えば、テキスト「Ｒ２」及び「Ｒ３」）の画像と、当該画像が上から下に移動することを示す動きベクトルと、を含む。この場合、プロセッサ１２は、「右手の人差し指及び中指に装着されたネイルキャップＮＣのパターンが上から下に動いている」と判定する。
　図１２Ｄに示すように、ユーザが、レンズ５０ａの画角の範囲内で右手の人差し指、中指、及び、薬指を立てて下から上に移動させるジェスチャを行うと、ステップＳ５００で送信された画像データは、右手の人差し指、中指、及び、薬指のネイルキャップＮＣに形成されたパターン（例えば、テキスト「Ｒ２」～「Ｒ４」）の画像と、当該画像が下から上に移動することを示す動きベクトルと、を含む。この場合、プロセッサ１２は、「右手の人差し指、中指、及び、薬指に装着されたネイルキャップＮＣのパターンが下から上に動いている」と判定する。

　ステップＳ１１０の後、クライアント装置１０は、アクションの実行（Ｓ１１１）を実行する。
　具体的には、プロセッサ１２は、ジェスチャ情報データベース（図１０）を参照して、ステップＳ１１０で特定した動きベクトルに関連付けられた「アクション」フィールドの情報を特定する。
　プロセッサ１２は、特定した「アクション」フィールドの情報に対応する処理を実行する。

　一例として、ステップＳ１１０で図１２Ａのジェスチャが特定された場合、画像の送信、及び、メールの送信が実行される（図１０）。
　ステップＳ１１０で図１２Ｂのジェスチャが特定された場合、メールの送信が実行される（図１０）。
　このように、クライアント装置１０は、Ｓ１００で認識されたパターンの組合せに応じた処理を実行する。

　別の例として、ステップＳ１１０で図１２Ｃのジェスチャが特定された場合、画像の保存が実行される（図１０）。
　ステップＳ１１０で図１２Ｄのジェスチャが特定された場合、所定のアプリケーションの起動が実行される（図１０）。
　このように、クライアント装置１０は、Ｓ１００で認識されたパターン、及び、ネイルキャップＮＣの動きの組合せに応じた処理を実行する。

　変形例によれば、クライアント装置１０は、ネイルキャップＮＣが装着された指によるジェスチャに応じたアクションを実行する。これにより、ユーザは、ネイルキャップＮＣを装着した指だけで、クライアント装置１０にユーザ指示を与えることができる。特に、ユーザが視覚障害者である場合、ユーザは、ディスプレイを見なくても、指の動きだけでクライアント装置１０に対して様々なユーザ指示を与えることができるので、特に有用である。

（５）本実施形態の小括
　本実施形態について小括する。

　本実施形態の第１態様は、
　画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバ３０と接続されるクライアント装置１０であって、
　ユーザ（例えば、視覚障害者）の指に装着された少なくとも１つの装着物（例えば、ネイルキャップＮＣ）と、少なくとも１つのオブジェクトと、を含む画像ＩＭＧの画像データを取得する手段（例えば、ステップＳ１００の処理を実行するプロセッサ１２）を備え、
　画像データをサーバ３０に送信する手段（例えば、ステップＳ１００の処理を実行するプロセッサ１２）を備え、
　画像ＩＭＧに含まれるオブジェクトに関する音声を出力するための音声出力データ（例えば、テキストデータ）をサーバ３０から受信する手段（例えば、ステップＳ１０１の処理を実行するプロセッサ１２）を備え、
　音声出力データに基づく音声を出力する手段（例えば、ステップＳ１０１の処理を実行するプロセッサ１２）を備える、
クライアント装置１０である。

　第１態様によれば、クライアント装置１０は、ユーザ（例えば、視覚障害者）の指に装着された装着物（例えば、ネイルキャップＮＣ）及びオブジェクトＯＢＪを含む画像の画像データをサーバ３０に送信し、且つ、オブジェクトＯＢＪに関する音声を出力する。これにより、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。

　特に、指に装着されたネイルキャップＮＣを含む画像データを取得するので、ユーザの目線により近い画像の音声案内を提供することができる。

　本実施形態の第２態様は、
　出力される音声は、オブジェクトの名称を含む、
クライアント装置１０である。

　第２態様によれば、ユーザは、出力された音声を介して、ネイルキャップＮＣの近傍にあるオブジェクトの名称を知ることができる。

　本実施形態の第３態様は、
　画像解析を実行可能なサーバ３０と接続されるクライアント装置１０であって、
　画像データを取得する手段（例えば、ステップＳ１００の処理を実行するプロセッサ１２）を備え、
　ユーザの指に装着された少なくとも１つの装着物（例えば、ネイルキャップＮＣ）の画像が画像データに含まれているか否かを判定する手段（例えば、ステップＳ１００の処理を実行するプロセッサ１２）を備え、
　装着物の画像が画像データに含まれている場合、画像データをサーバ３０に送信する手段（例えば、ステップＳ１００の処理を実行するプロセッサ１２）を備え、
　画像データに対する解析結果をサーバ３０から受信する手段（例えば、ステップＳ１０１の処理を実行するプロセッサ１２）を備える、
クライアント装置１０である。

　第３態様によれば、クライアント装置１０は、ユーザ（例えば、視覚障害者）の指に装着された装着物（例えば、ネイルキャップＮＣ）を含む画像を認識した場合、当該画像の画像データをサーバ３０に送信する。これにより、ユーザは、画像データをサーバ３０に送信するためのユーザ指示を容易に与えることができる。

　本実施形態の第４態様は、
　取得する手段は、クライアント装置１０に接続されたカメラ（例えば、カメラユニット５０）、又は、クライアント装置１０に配置されたカメラから、画像データを取得する、クライアント装置１０である。

　本実施形態の第５態様は、
　取得する手段は、装着物を認識したときに、画像データを取得する、
クライアント装置１０である。

　第５態様によれば、ユーザは、ネイルキャップＮＣを装着した指をレンズ５０ａの画角の範囲内にかざすだけで、画像データを生成させるためのユーザ指示を与えることができる。

　本実施形態の第６態様は、
　取得する手段は、装着物に形成されたパターンを認識したときに、画像データを取得する、
クライアント装置１０である。

　本実施形態の第７態様は、
　認識されたパターンの組合せに応じた処理を実行する手段（例えば、ステップＳ１１０～Ｓ１１１を実行するプロセッサ１２）を備える、
クライアント装置１０である。

　第７態様によれば、ユーザは、レンズ５０ａに写り込む指の組合せによって、クライアント装置１０に対するユーザ指示を与えることができる。

　本実施形態の第８態様は、
　実行する手段は、前記認識されたパターン、及び、前記装着物の動きの組合せに応じた処理を実行する、
クライアント装置１０である。

　第８態様によれば、ユーザは、レンズ５０ａに写り込む指の組合せ、及び、指の動きによって、クライアント装置１０に対するユーザ指示を与えることができる。

　本実施形態の第９態様は、
　クライアント装置１０と接続されるサーバ３０であって、
　クライアント装置１０から画像データを取得する手段（例えば、ステップＳ３００の処理を実行するプロセッサ３２）を備え、
　取得された画像データに対応する画像に含まれるオブジェクトの名称を推定する手段（例えば、ステップＳ３０１の処理を実行するプロセッサ３２）を備え、
　推定されたオブジェクトの名称を含む音声を出力するための音声出力データを生成する手段（例えば、ステップＳ３０２の処理を実行するプロセッサ３２）を備え、
　生成された音声出力データをクライアント装置１０に送信する手段（例えば、ステップＳ３０３の処理を実行するプロセッサ３２）を備える、
サーバ３０である。

（６）その他の変形例

　記憶装置１１は、ネットワークＮＷを介して、クライアント装置１０と接続されてもよい。記憶装置３１は、ネットワークＮＷを介して、サーバ３０と接続されてもよい。

　上記の情報処理の各ステップは、クライアント装置１０及びサーバ３０の何れでも実行可能である。

　カメラユニット５０は、クライアント装置１０に内蔵されても良い。

　各ネイルキャップＮＣに形成されるパターンは、文字に限られない。当該パターンは、以下を含む。特に、美観性の高いパターンをネイルキャップＮＣに形成することにより、ネイルキャップＮＣを装着させ、且つ、本実施形態の音声案内を利用することの動機付けをユーザに与えることができる。
・図形
・幾何学模様
・凹凸
・カラーバリエーション

　以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

１　　　　：情報処理システム
１０　　　：クライアント装置
１１　　　：記憶装置
１２　　　：プロセッサ
１３　　　：入出力インタフェース
１４　　　：通信インタフェース
３０　　　：サーバ
３１　　　：記憶装置
３２　　　：プロセッサ
３３　　　：入出力インタフェース
３４　　　：通信インタフェース
５０　　　：カメラユニット
５０ａ　　：レンズ
５０ｂ　　：スピーカ
５０ｃ　　：クリップ
５０ｄ　　：イメージセンサ
５０ｅ　　：カメラコントローラ

Claims

　画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバと接続されるクライアント装置であって、
　ユーザの指に装着された少なくとも１つの装着物と、少なくとも１つのオブジェクトと、を含む画像の画像データを取得する手段を備え、
　前記画像データを前記サーバに送信する手段を備え、
　前記画像に含まれるオブジェクトに関する音声を出力するための音声出力データを前記サーバから受信する手段を備え、
　前記音声出力データに基づく音声を出力する手段を備える、
クライアント装置。
　前記出力される音声は、前記オブジェクトの名称を含む、
請求項１に記載のクライアント装置。
　画像解析を実行可能なサーバと接続されるクライアント装置であって、
　画像データを取得する手段を備え、
　ユーザの指に装着された少なくとも１つの装着物の画像が前記画像データに含まれているか否かを判定する手段を備え、
　前記装着物の画像が前記画像データに含まれている場合、前記画像データを前記サーバに送信する手段を備え、
　前記画像データに対する解析結果を前記サーバから受信する手段を備える、
クライアント装置。
　前記取得する手段は、前記クライアント装置に接続されたカメラ、又は、前記クライアント装置に配置されたカメラから、前記画像データを取得する、
請求項１～３の何れかに記載のクライアント装置。
　前記送信する手段は、前記装着物を認識したときに、前記画像データを送信する、
請求項１～４の何れかに記載のクライアント装置。
　前記送信する手段は、前記装着物に形成されたパターンを認識したときに、前記画像データを送信する、
請求項５に記載のクライアント装置。
　前記装着物に形成されたパターンを認識したときに、前記認識されたパターンの組合せに応じた処理を実行する手段を備える、請求項１～６の何れかに記載のクライアント装置。
　前記実行する手段は、前記認識されたパターン、及び、前記装着物の動きの組合せに応じた処理を実行する、
請求項７に記載のクライアント装置。
　請求項１～８の何れかに記載のクライアント装置と接続されるサーバであって、
　前記クライアント装置から前記画像データを取得する手段を備え、
　前記取得された画像データに対応する画像に含まれるオブジェクトの名称を推定する手段を備え、
　前記推定されたオブジェクトの名称を含む音声を出力するための音声出力データを生成する手段を備え、
　前記生成された音声出力データを前記クライアント装置に送信する手段を備える、
サーバ。
　コンピュータを、請求項１～９の何れかに記載の各手段として機能させるためのプログラム。