WO2024122206A1

WO2024122206A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2024122206A1
Application number: PCT/JP2023/038130
Authority: WO
Inventors: 彰一馬場; 真樹大野; 岳志風間; 洋貴鈴木
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2022-12-07
Filing date: 2023-10-23
Publication date: 2024-06-13
Anticipated expiration: 2025-06-07
Also published as: JPWO2024122206A1

Abstract

本技術の一形態に係る情報処理装置は、第１の学習部と、第２の学習部とを具備する。前記第１の学習部は、選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる。前記第２の学習部は、前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習部により学習された前記機械学習モデルを学習させる。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、ロボットアームによるピッキングに適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

　特許文献１には、バラ積みされた物体の取り出し（ピッキング）を行うロボットアームについて開示されている。このロボットアームではピッキングが実行され、ピッキングが成功したか否かに基づいて、アームの動作量の機械学習が実行される。これにより、人間の介在なしにロボットアームの最適な動作を学習させることが可能となる。

特開２０１７－０３０１３５号公報

　ロボットアーム等による選択動作（ピッキング）を精度よく行うことを可能とする技術が求められている。

　以上のような事情に鑑み、本技術の目的は、ロボットアーム等による選択動作（ピッキング）を精度よく行うことを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、第１の学習部と、第２の学習部とを具備する。
　前記第１の学習部は、選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる。
　前記第２の学習部は、前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習部により学習された前記機械学習モデルを学習させる。

　この情報処理装置では、選択対象の特徴が反映された画像に選択動作が成功した旨の正解ラベルが関連付けられた正解教師データ、及び選択非対象の特徴が反映された画像に選択動作が失敗した旨の不正解ラベルが関連付けられた不正解教師データの少なくとも一方が用いられ、機械学習モデルの学習が実行される。また、選択対象及び選択非対象を含む画像に正解ラベルが関連付けられた正解教師データが用いられ、機械学習モデルの更なる学習が実行される。これにより、選択動作を精度よく行うことが可能となる。

　前記第２の学習部は、前記選択用画像に前記不正解ラベルが関連付けられた第２の不正解教師データを用いて、前記第１の学習部により学習された前記機械学習モデルを学習させてもよい。

　前記情報処理装置は、さらに、前記選択用画像に基づいて実行された前記選択動作が成功した場合に前記選択動作に用いられた前記選択用画像に前記正解ラベルを関連付けて前記第２の正解教師データを生成し、前記選択用画像に基づいて実行された前記選択動作が失敗した場合に前記選択動作に用いられた前記選択用画像に前記不正解ラベルを関連付けて前記第２の不正解教師データを生成する教師データ生成部を具備してもよい。

　前記選択対象は、前記選択動作の対象となる選択対象物体を含んでもよい。この場合、前記選択非対象は、前記選択対象物体が配置される配置領域、及び前記選択動作の対象とならない選択非対象物体の少なくとも一方を含んでもよい。

　前記選択対象の前記１以上の特徴は、前記選択対象の色及び模様の少なくとも一方を含んでもよい。この場合、前記第１の特徴反映画像は、前記選択対象の色及び模様の少なくとも一方が表現された画像を含んでもよい。

　前記第１の特徴反映画像は、前記選択対象の色が全領域に表現された画像を含んでもよい。

　前記選択非対象の前記１以上の特徴は、前記選択非対象の色及び模様の少なくとも一方を含んでもよい。この場合、前記第２の特徴反映画像は、前記選択非対象の色及び模様の少なくとも一方が表現された画像を含んでもよい。

　前記第２の特徴反映画像は、前記選択非対象の色が全領域に表現された画像を含んでもよい。

　前記第１の学習部は、複数の選択対象が存在する場合、前記複数の選択対象の特徴が反映された複数の第１の特徴反映画像の各々に前記正解ラベルが関連付けられた前記第１の正解教師データを用いて前記機械学習モデルを学習させてもよい。

　前記第１の学習部は、複数の選択非対象が存在する場合、前記複数の選択非対象の特徴が反映された複数の第２の特徴反映画像の各々に前記不正解ラベルが関連付けられた前記第１の不正解教師データを用いて前記機械学習モデルを学習させてもよい。

　前記選択動作は、ロボットアームにより前記選択対象を取り出す動作であってもよい。

　前記情報処理装置は、さらに、前記第１の特徴反映画像及び前記第２の特徴反映画像の少なくとも一方を作成するためのユーザの入力操作を受付ける受付部を具備してもよい。

　前記入力操作は、赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも１つを含んでもよい。

　前記選択動作は、前記選択用画像の画素ごとに算出された、前記画素に対応する位置に対して前記選択動作を実行した場合の予想成功率に基づいて実行されてもよい。

　前記選択動作は、ユーザにより指定された位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行されてもよい。

　前記選択動作は、ランダムな位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行されてもよい。

　本技術の一形態に係る情報処理方法は、以下のステップを具備する。
　選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第１の学習ステップ。
　前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習ステップで学習された前記機械学習モデルを学習させる第２の学習ステップ。

　本技術の一形態に係るプログラムは、前記第１の学習ステップと、前記第２の学習ステップとをコンピュータシステムに実行させる。

バラ積みピッキングの様子を模式的に示す図である。バラ積みピッキングの様子を模式的に示す図である。ロボットアーム及び情報処理装置の構成例を示す模式図である。ピッキングの処理例を示すフローチャートである。機械学習モデルによる予想成功率の算出を模式的に示した図である。オフライン学習の内容を模式的に示した図である。オンライン学習の処理例を示すフローチャートである。オンライン学習の内容を模式的に示した図である。実験に用いたワーク及びケースの写真である。提案手法によるオフライン学習の内容を模式的に示した図である。提案手法によらないオフライン学習の内容を模式的に示した図である。実験結果を示すグラフである。予想成功率のヒートマップである。機械学習モデルの学習状態を模式的に示した図である。特徴反映画像のバリエーションの模式図である。情報処理装置を実現可能なコンピュータのハードウェア構成例を示すブロック図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［バラ積みピッキング］
　図１は、バラ積みピッキングの様子を模式的に示す図である。
　本実施形態では、ロボットアーム１によりバラ積みピッキングが行われる。

　ピッキングとは、物体を１つずつ取り出し所定の位置に移動させる、整列させるといった動作を意味する言葉である。例えば工場でコンベアに乗って流れてくる物体が取り出され、所定の容器に収納される。このうち特にランダムに積まれた物体に対するピッキングは、バラ積みピッキングと呼称されることがある。図１には、バラ積みピッキングの一例として、ロボットアーム１により物体２が取り出され、箱３に収納される様子が模式的に示されている。もちろんこれに限定されず、任意の形態のピッキングに対して本技術を適用可能である。

　ピッキングの対象となる物体は限定されず、例えば工場で取り扱われる部品や商品が、ピッキングの対象となり得る。また取り出された物体がどのように取り扱われるかも限定されない。例えば部品を所定の場所に整列させる、商品を包装容器に配置する等、取り出された物体に対して任意の処理が行われてよい。以下、バラ積みピッキングを単にピッキングと記載する場合がある。

　ロボットアーム１は、例えば比較的コンパクトな協働ロボットである。その他、大型の産業用ロボットが用いられてもよい。ロボットアーム１は、アーム４、カメラ５、及びハンド６を有する。アーム４はロボットアーム１の基体となる部材であり、複数の部材が回転や伸縮可能に接続されることでアーム４が実現される。例えばアーム４の内部にモータ等の駆動機構が構成され、当該駆動機構により部材の回転や伸縮が実現される。図１には、アーム４を構成する各々の部材の回転方向や伸縮方向が、矢印で模式的に示されている。アーム４は、例えば金属等の剛性を有する材料により構成される。もちろんアーム４の形状や材料、各々の部材が動作可能な方向や範囲等の具体的な構成は限定されない。

　カメラ５は、アーム４の先端付近に配置される。本実施形態では、カメラ５により物体２が撮像される。カメラ５としては、例えば２次元ＵＳＢカラーカメラが用いられる。その他、赤外線カメラ等の任意の種類のカメラ５が用いられてよい。またステレオカメラ等の複数台のカメラ５を用いた構成、ＴｏＦ（Time of Flight）等の測距センサが併用される構成、撮像を容易にするために照明が配置される構成、カメラがアーム４に配置されず別撮りとなっている構成等、任意の構成が採用されてよい。

　ハンド６は、アーム４の先端に接続される。本実施形態では、ハンド６により物体２が把持される。ハンド６としては、例えば市販の電動グリッパが用いられる。ハンド６の種類や把持力等の具体的な構成は限定されない。

　本実施形態では、アーム４の回転や伸縮が制御されることにより、カメラ５の位置やハンド６の位置が制御される。これにより、カメラ５により物体２の周辺領域等が撮像される。また、ハンド６による物体２の把持、及び箱３への収納が可能となる。その他、ロボットアーム１の具体的な構成は限定されない。

　［選択動作］
　本実施形態では、選択動作が実行される。選択動作とは、何らかの物を選択する動作である。例えばロボットアーム１により物体２を取り出す動作（ピッキング）は、本技術に係る選択動作の一実施形態に相当する。これに限定されず、例えばコンピュータにより物体２が選択されるだけ等、ロボットアーム１による実際の動作を伴わない内容の動作も選択動作に含まれる。あるいは、選択された物体２に対してピッキング以外の動作（例えばプレス処理、塗料の噴射等）が行われてもよい。その他、物を選択する任意の動作が選択動作に含まれる。

　図２は、バラ積みピッキングの様子を模式的に示す図である。
　図２Ａには、ピッキングの一例として、箱９の中にランダムに積まれた物体２が取り出される様子が模式的に示されている。図２Ｂには、物体２及び箱９の底面１０を上方側（カメラ５やハンド６側）から見た状態が模式的に示されている。図２Ｂには、物体２が濃いグレー色の四角形により模式的に示されている。また、底面１０が薄いグレー色の四角形により模式的に示されている。もちろん物体２や底面１０の実際の形状や色は限定されない。

　選択動作は、選択動作の対象となる選択対象に対して行われる。典型的には、ある物が選択されることで選択動作が成功する場合に、当該物を選択対象ということが可能である。例えば図２に示す例では、物体２がピッキングされた場合に、ピッキングの目的が達成され、ピッキングが成功する。従って物体２は、本技術に係る選択対象の一実施形態に相当する。

　その他、例えば工場で取り扱われる部品や商品等、選択動作の対象となる任意の物が選択対象となり得る。具体的にどのようなものが、どのような基準により選択対象となるかは限定されない。

　また本実施形態では、選択動作における選択非対象が存在する。選択非対象とは、選択動作の対象とならないものである。典型的には、ある物が選択されることで選択動作が失敗する場合に、当該物を選択非対象ということが可能である。例えば底面１０が選択された場合には、底面１０に向かってハンド６が伸びていくが、そこには物体２が存在しないため、何も掴むことはできない。従って物体２がピッキングされることはなく、ピッキングは失敗する。すなわち、底面１０は本技術に係る選択非対象の一実施形態に相当する。

　また、物体２の中にピッキングされるべきでない物体が混ざっているような場合にも、当該物体は選択非対象であると言える。その他、具体的にどのようなものが、どのような基準により選択非対象となるかは限定されない。

　また本実施形態では、選択対象に選択対象物体が含まれる。選択対象物体とは、選択動作の対象となる物体である。例えば物体２は、本技術に係る選択対象物体の一実施形態に相当する。逆に物体ではない選択対象は、選択対象物体には該当しない。選択対象物体の具体的な種類等は限定されない。もちろん、選択対象が物体ではない場合にも本技術は適用可能である。

　また本実施形態では、選択非対象に配置領域、及び選択非対象物体の少なくとも一方が含まれる。配置領域とは、選択対象物体が配置される領域である。例えば図２に示す例では、物体２は箱９の底面１０に配置されている。従って、底面１０は本技術に係る配置領域の一実施形態に相当する。また例えば、物体２がコンベアに乗って流れてくるような場合には、コンベアの表面が配置領域となる。その他、配置領域が具体的にどのようなものであるかは限定されない。

　選択非対象物体とは、選択動作の対象とならない物体である。例えば物体２の中にピッキングされるべきでない物体が混ざっているような場合には、当該物体は選択非対象物体であると言える。逆に物体ではない選択非対象は、選択非対象物体には該当しない。選択非対象物体の具体的な種類等は限定されない。

　選択非対象に配置領域及び選択非対象物体の両方が含まれてもよい。例えば箱９にピッキングされるべき物体２、及びピッキングされるべきでない物体の両方が入っている場合には、物体２が選択対象物体（選択対象）、底面１０が配置領域（選択非対象）、ピッキングされるべきでない物体が選択非対象物体（選択非対象）となる。

　［情報処理装置］
　図３は、ロボットアーム１及び情報処理装置の構成例を示す模式図である。
　ロボットアーム１は、アーム４、カメラ５、ハンド６、駆動機構１３、制御部１４及び通信部１５を有する。制御部１４は、ロボットアーム１が有する機構の動作を制御する。例えば制御部１４により駆動機構１３（モータ等）の駆動が制御され、アーム４の回転や伸縮が実現される。また、制御部１４によりカメラ５による撮像が制御される。具体的には、撮像のタイミングや撮像位置等が制御される。また、制御部１４によりハンド６の駆動が制御され、ハンド６により物体２が把持される。その他、制御部１４による制御の内容は限定されない。

　通信部１５は、ＷＡＮやＬＡＮ等のネットワークを介して他のデバイスと通信するための通信モジュールである。Bluetooth（登録商標）等の近距離無線通信用の通信モジュールが備えられてもよい。またモデムやルータ等の通信機器が用いられてもよい。本実施形態では、通信部１５により情報処理装置１６との通信が行われる。通信部１５は、例えばロボットアーム１の所定の位置に内蔵される。通信部１５の具体的な構成は限定されない。

　情報処理装置１６は、コントローラ１７、表示部１８、操作部１９、通信部２０、及び記憶部２１を有する。コントローラ１７、表示部１８、操作部１９、通信部２０、及び記憶部２１は、バス２２を介して相互に接続されている。バス２２に代えて、通信ネットワークや規格化されていない独自の通信方式等を用いて、各ブロックが接続されてもよい。

　表示部１８は、例えば液晶、ＥＬ（Electro-Luminescence）等を用いた表示デバイスで
あり、種々の画像や種々のＧＵＩ（Graphical User Interface）等が表示される。

　操作部１９は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部１９がタッチパネルを含む場合、そのタッチパネルは表示部１８と一体となり得る。例えば情報処理装置１６を使用するユーザが、操作部１９を介して情報処理装置１６の動作に関する設定を行うことが可能である。

　通信部２０は、ロボットアーム１と通信を行うための通信モジュールである。また、ロボットアーム１以外の他の装置との通信が可能であってもよい。

　記憶部２１は、不揮発性メモリ等の記憶デバイスであり、例えばＨＤＤやＳＳＤ等が用いられる。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。記憶部２１には、情報処理装置１６の全体の動作を制御するための制御プログラムが記憶される。制御プログラムを情報処理装置１６にインストールする方法は限定されない。例えば、種々の記録媒体を介してインストールが実行されてもよいし、インターネット等を介してプログラムのインストールが実行されてもよい。

　コントローラ１７は、例えばＣＰＵ、ＧＰＵ、ＤＳＰ等のプロセッサ、ＲＯＭやＲＡＭ等のメモリ、ＨＤＤ等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する。例えばＣＰＵがＲＯＭ等に予め記録されている本技術に係るプログラムをＲＡＭにロードして実行することにより、本技術に係る情報処理方法が実行される。コントローラ１７として、例えばＦＰＧＡ（Field Programmable Gate Array）等のＰＬＤ(Programmable Logic Device)、その他ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスが用いられてもよい。

　本実施形態では、コントローラ１７のＣＰＵが本技術に係るプログラム（例えばアプリケーションプログラム）を実行することで、機能ブロックとして、画像取得部２３、予想成功率算出部２４、位置決定部２５、オフライン学習部２６、オンライン学習部２７、結果取得部２８、教師データ生成部２９、受付部３０、及びＧＵＩ出力部３１が実現される。なお各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

　画像取得部２３は、ロボットアーム１のカメラ５により撮像された画像を取得する。具体的には、ロボットアーム１の通信部１５及び情報処理装置１６の通信部２０を介して画像の送受信が行われ、画像取得部２３による画像の取得が実現される。

　予想成功率算出部２４は、ピッキングの予想成功率を算出する。位置決定部２５は、ピッキングが行われる位置を決定する。また、オフライン学習部２６及びオンライン学習部２７は、選択動作に関する機械学習モデルの学習を実行する。教師データ生成部２９は、学習に用いられる教師データを生成する。予想成功率算出部２４及び位置決定部２５による処理、並びにオフライン学習部２６、オンライン学習部２７及び教師データ生成部２９による学習の具体的な内容については、後に詳しく説明する。

　結果取得部２８は、ピッキングの結果に関する情報を取得する。例えば結果取得部２８により、ピッキングが成功した旨の情報（成功情報）及びピッキングに失敗した旨の情報（失敗情報）が取得される。

　例えばハンド６内にエンコーダが配置され、エンコーダによりハンド６の閉じ量が検出される。さらに、検出された閉じ量に基づいて物体２が把持されたか否かが判定される。物体２が把持されたと判定された場合には、ピッキングが成功したとみなされ、結果取得部２８により成功情報が取得される。一方で、物体２が把持されていないと判定された場合には、ピッキングに失敗したとみなされ、結果取得部２８により失敗情報が取得される。例えばこのようにして成功情報及び失敗情報が取得される。

　物体２の色や模様が判別され、判別結果に基づいて成功情報及び失敗情報が取得されてもよい。その他、成功情報及び失敗情報を取得するための具体的な方法は限定されない。また成功情報や失敗情報に限定されず、例えばピッキングされた物体２の大きさや重さ等、ピッキングの結果に関する任意の情報が取得されてよい。

　受付部３０は、ユーザにより操作部１９に対する入力操作が行われた場合に、当該入力操作を受け付ける。具体的には、入力操作に関する情報（キーボードにより入力された文字列、マウスによりクリックされた位置等）が、入力情報として受付部３０により取得される。

　ＧＵＩ出力部３１は、ユーザが使用するＧＵＩ（Graphical User Interface）を生成し、表示部１８に出力する。ＧＵＩ出力部３１により出力されるＧＵＩの具体的な内容については、後に詳しく説明する。その他、情報処理装置１６の具体的な構成は限定されない。

　［ピッキング］
　図４は、ピッキングの処理例を示すフローチャートである。
　ロボットアーム１のカメラ５により、選択用画像が撮像される（ステップ１０１）。選択用画像とは、選択動作のために用いられる画像である。具体的には、選択用画像として選択対象及び選択非対象を含む画像が撮像される。本実施形態では、選択用画像として物体２が底面１０に配置された画像が撮像される。物体２は選択対象であり、底面１０は選択非対象であるため、物体２が底面１０に配置された画像は、選択対象及び選択非対象を含む画像であると言える。カメラ５による撮像は、制御部１４により制御される。

　カメラ５による撮像の範囲は限定されない。例えば図２Ｂに示す物体２及び底面１０の全体が撮像されてもよいし、一部の範囲のみが撮像されてもよい。また撮像範囲が所定の基準により決定されてもよく、ランダムに決定されてもよい。あるいは、学習済みの機械学習モデルにより撮像範囲が決定されてもよい。

　以下、物体２及び底面１０の一部の範囲が撮像される場合を例として説明を行う。なおこの場合、たまたま物体２が写り込まず、底面１０のみが写った選択用画像が撮像されることもあり得るが、このような撮像も選択対象及び選択非対象を含む選択用画像の撮像に含まれる。すなわち撮像の結果を問わず、選択対象及び選択非対象を含む画像が撮像されうる状況下で撮像が実行されることが、選択用画像として選択対象及び選択非対象を含む画像が撮像されることに含まれる。

　撮像された選択用画像が、画像取得部２３により取得される（ステップ１０２）。ロボットアーム１の通信部１５及び情報処理装置１６の通信部２０を介して選択用画像の送受信が行われ、画像取得部２３により画像が取得される。

　［予想成功率の算出］
　取得された選択用画像に基づいて、予想成功率が算出される（ステップ１０３）。本実施形態では、予想成功率算出部２４により、選択用画像の画素ごとに、画素に対応する位置に対して前記選択動作を実行した場合の予想成功率が算出される。

　具体的には、例えば選択用画像が３２０×２４０ピクセルの画像である場合には、選択用画像の画素ごと（ピクセルごと）に予想成功率が算出されるため、合計で７６８００個の画素と予想成功率とが紐付けられた情報が生成される。例えば「画素：１６０行／１２０列、予想成功率：５０％」といった情報が生成される。あるいは、画素が所定の範囲でグループ化され、グループ化された画素に対して予想成功率が算出されてもよい。この場合、例えば生成される情報は「画素：１６０～１８０行／１２０～１４０列、予想成功率：７０％」といった情報となる。もちろんこれらの情報はあくまで一例であり、他の形態の情報が生成されてもよい。

　予想成功率は、画素に対応する現実空間の位置に対して選択動作を実行した場合の、選択動作の成功率の予想値として算出される。例えば物体２が底面１０に配置された現実空間上のある位置Ａが撮像され、選択用画像のＸ行Ｙ列の画素として写り込んだ場合には、Ｘ行Ｙ列の画素に対応する現実空間の位置は位置Ａとなる。従って、Ｘ行Ｙ列の画素に対して、「位置Ａに対してピッキングが実行された場合のピッキングの成功率の予想値」が、予想成功率として算出される。

　典型的には、Ｘ行Ｙ列の画素に物体２らしきものが写り込んだ場合には、位置Ａに物体２が存在する確率が高いと判断され、位置Ａに対してピッキングが実行された場合の成功率は高いと判断される。従って相対的に高い予想成功率が算出される。一方で、Ｘ行Ｙ列の画素に底面１０らしきものが写り込んだ場合には、位置Ａに物体２が存在しない確率が高いと判断され、位置Ａに対してピッキングが実行された場合の成功率は低いと判断される。従って相対的に低い予想成功率が算出される。

　画素の位置及び現実の位置の対応関係は、例えばカメラ５の画角等の情報に基づいて算出される。カメラ５の画角等を算出するために、カメラ５の姿勢を検出するセンサが用いられてもよい。その他、画素の位置及び現実の位置の対応関係の具体的な算出方法は限定されない。

　［機械学習モデル］
　図５は、機械学習モデルによる予想成功率の算出を模式的に示した図である。
　本実施形態では、学習済みの機械学習モデル３２により予想成功率が算出される。具体的には図５に示すように、予想成功率算出部２４により機械学習モデル３２に対して選択用画像３３が入力される。図５には、入力される選択用画像３３（物体２及び底面１０の一部の画像）が模式的に図示されている。

　機械学習モデル３２により、選択用画像３３を入力として予想成功率が出力される。このようにして予想成功率の算出が実現される。なお、機械学習モデル３２の具体的な学習の内容については後に詳しく説明する。

　位置決定部２５により、ピッキングが行われる位置が決定される（ステップ１０４）。本実施形態では、予想成功率算出部２４により算出された予想成功率に基づいて、ピッキング位置が決定される。例えば選択用画像の画素のうち、最も高い予想成功率が紐付けられている画素が算出され、当該画素に対応する位置がピッキング位置として決定される。その他、任意の基準によりピッキング位置が決定されてよい。典型的には、ピッキングが成功する確率が高くなるようにピッキング位置が決定される。

　位置決定部２５により決定されたピッキング位置が、ロボットアーム１の制御部１４に送信される（ステップ１０５）。例えば、「Ｘ：１００、Ｙ：２００」といった現実世界の座標値が、制御部１４に送信される。もちろん、ピッキング位置が具体的にどのような情報として送信されるかは限定されない。ピッキング位置の送受信は、情報処理装置１６の通信部２０及びロボットアーム１の通信部１５を介して行われる。

　ロボットアーム１によりピッキングが実行される（ステップ１０６）。具体的には制御部１４により、取得されたピッキング位置に基づいて、ピッキング位置に対してピッキングが行われるように、アーム４やハンド６の駆動が制御される。すなわちピッキング位置にハンド６が伸びていき、ピッキング位置上で把持を試みる動作が実行される。

　このように本実施形態では、予想成功率に基づいてピッキングが実行される。なお、予想成功率の算出を伴わない方法により、機械学習モデルを用いたピッキングが実行されてもよい。また例えばピッキングが行われた後に、結果取得部２８によりピッキングの成功情報や失敗情報が取得されてもよい。その他、ピッキングに関する具体的な処理の内容は限定されない。

　［オフライン学習］
　図６は、オフライン学習の内容を模式的に示した図である。
　本実施形態では、機械学習モデル３２のオフライン学習が行われる。オフライン学習とは、ロボットアーム１の実際の動作を伴わない学習である。図６に示すように、オフライン学習部２６により、教師データ（正解データ３５及び不正解データ３６）が用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、正解を算出するためのパラメータ（係数）が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、機械学習モデル３２として生成される。

　機械学習モデル３２の学習方法として、例えば誤差逆伝播法が用いられる。誤差逆伝播法は、ニューラルネットワークの学習のために一般的に良く利用される学習手法である。ニューラルネットワークとは、元々人間の脳神経回路を模倣したモデルであり、入力層、中間層（隠れ層）、出力層の３種類の層からなる層構造を持ったモデルである。多数の中間層を持つニューラルネットワークは特にディープニューラルネットワークと呼ばれ、これを学習するためのディープラーニング技術は、大量データの中に潜んでいる複雑なパターンを学習できるモデルとして知られている。誤差逆伝播法はこのような学習手法の１つであり、例えば、画像や動画の認識に用いられるＣＮＮなどの学習によく用いられる。また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ／ニューロモーフィック・チップが用いられ得る。

　機械学習モデル３２を学習させるためのアルゴリズムは限定されず、任意の機械学習アルゴリズムが用いられてよい。例えば、機械学習アルゴリズムとして、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等が挙げられる。教師あり学習は、与えられたラベル付きの学習データ（教師データ）に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリングを行う。これにより、膨大な未知のデータに基づいて傾向の分析や未来予測を行うことが可能となる。半教師学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な訓練データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。エージェントは、行動を選択することで環境から報酬を取得し、一連の行動を通じて報酬が最も多く得られるような方策を学習する。このように、ある環境における最適解を学習することで、人間の判断力を再現し、また、人間を超える判断力をコンピュータに習得させることが可能となる。また、ＨＭＭ（Hidden Markov Model：隠れマルコフモデル）やＳＶＭ（Support Vector Machine）等の機械学習モデルが用いられてもよい。

　オフライン学習部２６により生成された機械学習モデル３２は、図２に示す予想成功率算出部２４に組み込まれる。そして予想成功率算出部２４により、予想成功率の算出が実行される。

　図６Ａには、正解データ３５を用いたオフライン学習の内容が模式的に示されている。正解データ３５は、物体２の色画像３７及び正解ラベル３８が関連付けられた情報である。本実施形態では、正解ラベル３８に対して、選択対象の特徴が反映された画像が関連付けられる。

　例えば選択対象の色、模様、大きさ、重さ、硬さ、滑りやすさ、種類等の種々の特徴が、選択対象の特徴に該当する。また例えば、選択対象の色が表示された画像、模様が表示された画像、大きさや重さの値が文字や絵で表現された画像、種類が文字で表現された画像等が、選択対象の特徴が反映された画像に該当する。以下、選択対象の特徴が反映された画像を、特徴反映画像と記載する場合がある。図６Ａに示す色画像３７は、物体２の特徴である色（濃いグレー色）が表示された画像であるため、選択対象（物体２）の特徴反映画像に相当する。

　なお、例えば選択対象の特徴とは多少異なる内容の特徴が反映された画像も、特徴反映画像に含まれる。例えば選択対象の色とは階調値が多少異なる色が反映された画像も、選択対象の色が反映された特徴反映画像に含まれる。その他、画像に反映される模様、大きさ、重さ等の特徴が多少異なっていてもよい。

　選択対象の特徴が具体的にどのようなものであるかは限定されない。また、特徴反映画像に対して具体的にどのような形態で特徴が反映されるかについても限定されない。色画像３７は、本技術に係る第１の特徴反映画像の一実施形態に相当する。

　さらに、特徴反映画像に、選択対象の色が全領域に表現された画像が含まれてもよい。本例においても、色画像３７は、物体２の色が全領域に表現された画像となっている。なお、例えば特徴反映画像のうち一部の画素に選択対象の色が表現されていないが、概ね全体に渡って選択対象の色が表現されているような場合も、選択対象の色が全領域に表現されていることに含まれる。また、全領域に表現された色が選択対象の色と多少異なっている場合も、選択対象の色が全領域に表現されていることに含まれる。

　もちろん特徴反映画像は、選択対象の色が全領域に表現された画像以外の画像であってもよい。例えば選択対象の色が一部だけに表現された画像であってもよい。その他、選択対象の特徴が反映された任意の画像が、特徴反映画像として正解ラベル３８に関連付けられてよい。

　正解ラベル３８としては、選択動作が成功した旨の情報が用いられる。すなわち本実施形態では、正解ラベル３８としてピッキングに成功した旨の情報（成功情報）が用いられ、色画像３７に関連付けられる。

　このような色画像３７及び正解ラベル３８が関連付けられた正解データ３５が用いられ、機械学習モデル３２の学習が実行される。正解データ３５は、本技術に係る第１の正解教師データの一実施形態に相当する。

　図６Ｂには、不正解データ３６を用いたオフライン学習の内容が模式的に示されている。不正解データ３６は、箱９の底面１０の色画像３９、及び不正解ラベル４０が関連付けられた情報である。本実施形態では、正解ラベル３８に対して、選択非対象の特徴が反映された特徴反映画像が関連付けられる。色画像３９は、底面１０の特徴である色（薄いグレー色）が表示された画像であるため、選択非対象（底面１０）の特徴反映画像に相当する。色画像３９は、本技術に係る第２の特徴反映画像の一実施形態に相当する。

　さらに、特徴反映画像に、選択非対象の色が全領域に表現された画像が含まれてもよい。本例においても、色画像３９は、底面１０の色が全領域に表現された画像となっている。

　不正解ラベル４０としては、選択動作が失敗した旨の情報が用いられる。すなわち本実施形態では、不正解ラベル４０としてピッキングに失敗した旨の情報（失敗情報）が用いられ、色画像３９に関連付けられる。

　このような色画像３９及び不正解ラベル４０が関連付けられた不正解データ３６が用いられ、機械学習モデル３２の学習が実行される。不正解データ３６は、本技術に係る第１の不正解教師データの一実施形態に相当する。

　なお、正解データ３５又は不正解データ３６のいずれか一方のみが用いられ、オフライン学習が行われてもよい。オフライン学習部２６は、本技術に係る第１の学習部の一実施形態に相当する。またオフライン学習は、本技術に係る第１の学習ステップの一実施形態に相当する。

　［オンライン学習］
　図７は、オンライン学習の処理例を示すフローチャートである。
　本実施形態では、機械学習モデル３２のオンライン学習が行われる。オンライン学習とは、ロボットアーム１によるピッキングを伴う学習である。オンライン学習は、オフライン学習により学習された機械学習モデル３２に対して実行される。すなわちオフライン学習が先に行われ、その後にオンライン学習が行われる。

　選択用画像の撮像、取得が行われる（ステップ２０１及び２０２）。これらの処理は、図４に示すステップ１０１及び１０２の処理と同様である。

　選択用画像が記憶される（ステップ２０３）。記憶部２１により、選択用画像が一時的に記憶される。

　予想成功率の算出、ピッキング位置の決定、ピッキング位置の送信、ピッキングが実行される（ステップ２０４～２０７）。これらの処理は、ステップ１０３～１０６の処理と同様である。

　ピッキングに成功した場合には（ステップ２０８のＹｅｓ）、結果取得部２８により成功情報が取得される（ステップ２０９）。

　教師データ生成部２９により、正解データが生成される（ステップ２１０）。
　図８は、オンライン学習の内容を模式的に示した図である。
　図８Ａには、教師データ生成部２９により生成される正解データ４３が図示されている。本実施形態では教師データ生成部２９により、選択用画像３３に基づいて実行された選択動作が成功した場合に、選択動作に用いられた選択用画像３３に正解ラベルが関連付けられ、正解データ４３が生成される。

　具体的には教師データ生成部２９により、記憶部２１に記憶された選択用画像３３及び結果取得部２８により取得された成功情報が関連付けられ、正解データ４３が生成される。正解データ４３は、本技術に係る第２の正解教師データの一実施形態に相当する。

　なお本実施形態では、記憶部２１に記憶された選択用画像３３のうち、ピッキングしに行った場所周辺のみを切り抜いた画像が、成功情報に関連付けられる。例えば「画素：１６０行／１２０列」に相当する位置へピッキングしに行った場合は、「画素：１４０～１８０行／１００～１４０列」に相当する部分を切り抜いた４１×４１画素の画像が成功情報に関連付けられ、正解データ４３が生成される。

　切り抜かれる画像の画素数は、例えばピッキング対象物の大きさ(画素数)に合わせて調整される。通常、ピッキング対象物の１．５～３倍程度の長さを一辺とする領域が設定される。

　正解データ４３により、機械学習モデル３２の学習が実行される（ステップ２１１）。本実施形態ではオンライン学習部２７により、正解データ４３を用いて、オフライン学習部２６により学習された機械学習モデル３２が学習される。オンライン学習部２７は、本技術に係る第２の学習部の一実施形態に相当する。また、図８の機械学習モデル３２は、オフライン学習により学習済の機械学習モデルである。図８の機械学習モデル３２は、本技術に係る、第１の学習部により学習された機械学習モデルの一実施形態に相当する。

　ピッキングに失敗した場合には（ステップ２０８のＮｏ）、結果取得部２８により失敗情報が取得される（ステップ２１２）。

　教師データ生成部２９により、不正解データが生成される（ステップ２１３）。
　図８Ｂには、教師データ生成部２９により生成される不正解データ４４が図示されている。本実施形態では教師データ生成部２９により、選択用画像３３に基づいて実行された選択動作が失敗した場合に、選択動作に用いられた選択用画像３３に不正解ラベルが関連付けられ、不正解データ４４が生成される。

　具体的には教師データ生成部２９により、記憶部２１に記憶された選択用画像３３及び結果取得部２８により取得された失敗情報が関連付けられ、不正解データ４４が生成される。不正解データ４４は、本技術に係る第２の不正解教師データの一実施形態に相当する。

　この場合も正解データ４３の生成と同様に、記憶部２１に記憶された選択用画像３３のうち、ピッキングしに行った場所周辺のみを切り抜いた画像が失敗情報に関連付けられ、不正解データ４４が生成される。

　不正解データ４４により、機械学習モデル３２の学習が実行される（ステップ２１４）。本実施形態ではオンライン学習部２７により、不正解データ４４を用いて、オフライン学習部２６により学習された機械学習モデル３２が学習される。

　このようにオンライン学習では、ロボットアーム１によるピッキングが実行され、ピッキングが成功した場合には、選択用画像３３に正解ラベル３８（成功情報）が関連付けられた正解データ４３により学習が行われる。一方で、ピッキングに失敗した場合には、選択用画像３３に不正解ラベル４０（失敗情報）が関連付けられた不正解データ４４により学習が行われる。

　なお不正解データ４４が用いられずに、正解データ４３のみを用いたオンライン学習が行われてもよい。すなわち、ピッキングに成功した場合には正解データ４３を用いた学習が行われ、ピッキングに失敗した場合には学習が行われない、といった方法でオンライン学習が行われてもよい。その他、オンライン学習の具体的な内容は限定されない。オンライン学習は、本技術に係る第２の学習ステップの一実施形態に相当する。

　以上、本実施形態に係る情報処理装置１６では、物体２の色画像３７にピッキングが成功した旨の正解ラベル３８が関連付けられた正解データ３５、及び底面１０の色画像３９に選択動作が失敗した旨の不正解ラベル４０が関連付けられた不正解データ３６の少なくとも一方が用いられ、機械学習モデル３２の学習が実行される。また、選択用画像３３に正解ラベル３８が関連付けられた正解データ４３が用いられ、機械学習モデル３２の更なる学習が実行される。これにより、選択動作を精度よく行うことが可能となる。

　近年のロボット技術の発展に伴い、生産現場でもロボットによる自動化が急速に拡大している。そして将来的にも、新興国における賃金上昇、多品種少量生産への移行、少子高齢化による労働力不足に加え、感染性ウイルスの流行などの影響により、自動化の傾向はますます強まるものと思われる。

　こうした背景において、付加価値の低い作業をロボットに任せることができれば、人間はより複雑で付加価値の高い作業に従事できるようになり、限られたリソースの中で生産性を向上させることができる。

　一方で、特定の作業あるいはプロセスに特化して設計された専用装置とは異なり、汎用のロボットは、その汎用性がゆえに動作のプログラミングやティーチングなどが複雑なものとなる。つまり、立ち上げの際の技術的難易度が高い。この問題を解決するため、発明者は、機械学習を用いたアプローチを検討してきた。ロボットが自律的に試行錯誤を行って作業を学習していけば、立ち上げ時に必要なプログラミングやティーチングは必要最小限のもののみで済み、立ち上げに必要なスキルや工数を大幅に削減することができる。

　一方で、世の中の最先端技術を見ても、現状の技術では、ロボットマニピュレーションにおける機械学習の汎化性能は期待されているほど高くはなく、タスク毎に学習が必要になる場合がほとんどである。そのため、いかに有効な学習サンプルを効率良く収集し、学習を高速化するかが重要となる。

　バラ積みピッキングという作業ひとつを見ても、ワークの形状や色、硬さ、重さ、滑りやすさ、さらには供給形態や共連れのしやすさ等に応じて学習のさせ方をエンジニアが工夫し、学習の「お膳立て」をすることが必要なのが実情である。つまり、現状の技術では、機械学習の汎化性能はそれほど高くはなく、特定のワークで学習させた学習結果でカバーできる範囲は非常に限られている。別の言い方をすれば、様々なワークに広く対応できるオールマイティな学習を行おうとすれば、非常に長い学習時間（特に、十分な量とバリエーションの学習サンプルを収集するための時間）が必要となる。また、オールマイティな学習では個別のワークに対する成功率はあまり上がらない。

　従って、基本的にはワークの種類の数だけ個別に学習する必要があるので、各ワークをいかに速く学習させるかがポイントとなる。そのためには、学習前に事前知識を与えるなどして、無駄なサンプルの収集を避け、できるだけ有効なサンプルを効率良く収集することが重要となる。

　［実験］
　発明者は、本技術の効果を確認するため、学習速度の比較実験を行った。
　図９は、実験に用いたワーク及びケースの写真である。
　本実験では、白いワーク４７（８ｍｍ程度のサイズの金平糖）を黒いケース４８の中にランダムに入れ、ピッキングを行った。

　図１０は、提案手法によるオフライン学習の内容を模式的に示した図である。
　提案手法によるオフライン学習では、図１０Ａ及びＢに示すように、
　（１）白画像５１に正解ラベル３８（成功情報）が関連付けられた正解データ３５
　（２）黒画像５２に不正解ラベル４０（失敗情報）が関連付けられた不正解データ３６
　を用いて、学習を行った。

　白画像５１は全領域が白色の画像である。黒画像５２は全領域が黒色の画像である。また、白画像５１及び黒画像５２のサイズは６１×６１ピクセルである。提案手法によるオフライン学習では、正解データ３５を１０セット分ＯＫフォルダ（学習のための正解データ３５の格納フォルダ）に入れ、学習を行った。また、不正解データ３６を１０セット分ＮＧフォルダに入れ、学習を行った。

　正解ラベル３８には、ワーク４７の色である白色の画像が関連付けられている。また不正解ラベル４０には、ケース４８の色である黒色の画像が関連付けられている。すなわち提案手法によるオフライン学習は、現実に即した教示であると言える。以下、提案手法によるオフライン学習を、「提案手法有り」と記載する場合がある。

　図１１は、提案手法によらないオフライン学習の内容を模式的に示した図である。
　提案手法によらないオフライン学習では、図１１Ａ及びＢに示すように、
　（１）黒画像５２に正解ラベル３８（成功情報）が関連付けられた正解データ３５
　（２）白画像５１に不正解ラベル４０（失敗情報）が関連付けられた不正解データ３６
　を用いて、提案手法有りと同様に、正解データ３５を１０セット分ＯＫフォルダ、不正解データ３６を１０セット分ＮＧフォルダに入れ、学習を行った。

　正解ラベル３８には、ワーク４７の色と真逆の色である黒色の画像が関連付けられている。また不正解ラベル４０には、ケース４８の色と真逆の色である白色の画像が関連付けられている。すなわち提案手法によらないオフライン学習は、現実と反対の教示であると言える。以下、提案手法によらないオフライン学習を、「提案手法無し」と記載する場合がある。

　例えばランダムに機械学習モデル３２が生成された場合、良い（予想成功率の算出精度が高く、ピッキングの成功率が高い）機械学習モデル３２が生成されることもあれば、悪い（予想成功率の算出精度が低く、ピッキングの成功率が低い）機械学習モデル３２が生成されることもあり得る。最悪の場合には、現実とは反対の教示を行ったのと同様のネットワークが生成されることもあるため、提案手法無しではそのような「最悪の機械学習モデル３２」が生成されることを想定している。

　このように、提案手法有りの機械学習モデル３２、及び提案手法無しの機械学習モデル３２を生成し、これらの機械学習モデル３２に対してさらにオンライン学習を行った。オンライン学習は、図９に示すケース４８に入ったワーク４７をピッキングするものである。なお、ワーク４７は常に図９に示す状態で配置されているわけではなく、ピッキングの度に毎回異なる配置となる。

　図１２は、実験結果を示すグラフである。
　図１２には、提案手法有りの機械学習モデル３２をさらにオンライン学習させた場合の、オンライン学習におけるピッキング成功率が実線でプロットされている。横軸は試行回数、縦軸はピッキング成功率である。なお、成功率は過去１００回の平均成功率である（試行回数が１００回未満の場合は、試行回数を分母とした成功率）。また、提案手法無しのピッキング成功率が破線でプロットされている。

　提案手法無しの場合、概ね４０回目までは成功率が０％であり、立ち上がりまでに時間がかかっている。これは学習初期の段階で成功事例を蓄積することができず、学習が進まないためである。一方で提案手法有りの場合、学習初期の段階でもある程度の頻度で成功事例を蓄積できるため立ち上がりが速い。

　この立ち上がりのタイミングの差が大きく影響し、成功率８０％（図１２の破線）に到達するまでの時間を見ても、提案手法有りの方が速いことが分かる。このことから、提案手法有りの有効性が確認できる。

　図１３は、予想成功率のヒートマップである。
　図１３には、提案手法有り及び提案手法無しのオンライン学習における予想成功率のヒートマップが示されている。ヒートマップ中の色が濃い（黒色に近い）部分は予想成功率が高いことを意味しており、色が薄い（白色に近い）部分は予想成功率が低いことを意味している。

　エポック（Epoch）は学習を更新する試行回数の単位であり、本実験では１エポックを３２回としている。すなわち、１回目～３２回目のピッキングを行い、学習を更新し、３３回目～６４回目のピッキングを行い、学習を更新し、・・・という手順でオンライン学習が実行される。例えばエポック３の欄には、９６回目のピッキングが終了し、学習が更新された時のヒートマップが図示されている。もちろんオンライン学習における学習のタイミングは限定されない。例えばピッキングの都度、１回ごとに学習が更新されてもよい。

　なおエポック０の欄には、オフライン学習が終了した直後の機械学習モデル３２に対して、白いワーク４７を投入せず黒いケース４８のみが写った選択用画像３３を入力した際に、出力された予想成功率のヒートマップが示されている。

　エポック０の提案手法有りでは、選択用画像３３の全領域に渡って予想成功率が低くなっている。これは実際の状態（黒いケース４８のみが存在し、白いワーク４７が存在しない状態）に対して正しい予想がされていることを意味している。一方でエポック０の提案手法無しでは、全領域に渡って予想成功率が高くなっている。これは実際の状態に対して誤った予想がされていることを意味している。

　エポック１以降を見ると、提案手法有りでは最初から背景部分（ケース４８の部分）の予想成功率が低く、ワーク４７の部分の予想成功率が高い。一方で提案手法無しでは、最初は反対の予想をしており、正しい予想になるまでに学習を重ねる必要があったことが見て取れる。またエポック１０を見ても、提案手法無しは提案手法有りに対して背景部分の色が濃く、成功率予想がまだ初期値に影響されていることが分かる。

　［初期ネットワーク・データセットの工夫］
　図１４は、機械学習モデル３２の学習状態を模式的に示した図である。
　図１４には、機械学習モデル３２のニューラルネットワーク５５が模式的な絵で示されている。ニューラルネットワーク５５が図１４の上部に位置し、色が濃い状態は、予想成功率の算出精度が高く、ピッキングの成功率が高いことを意味している。逆に、ニューラルネットワーク５５が図１４の下部に位置し、色が薄い状態は、予想成功率の算出精度が低く、ピッキングの成功率が低いことを意味している。

　通常は（本技術を用いず、何も工夫しない場合は）、まずオンライン学習前にスタートとなる初期ネットワーク５６を用意しておき、それに対してランダムにサンプリングして収集したデータセット５７を加えて学習を繰り返す。そしてネットワークが更新されていき（矢印５８）、最終的にタスクにマッチした学習済みネットワーク５９が作られる。

　ここで注意したいのが、ディープラーニングにおいては初期ネットワーク５６を設定する必要があるということである。ネットワークの初期値については注目されることが少ないが、何らかの値が入っており、これが学習に大きく影響する場合がある。つまり初期ネットワーク５６がランダムに生成されたものであると、最終的な学習済みネットワーク５９とは大きく異なるものである可能性が高い。この、初期ネットワーク５６と学習済みネットワーク５９の差が大きければ大きいほど、多くのデータセットと学習回数が必要になり、学習時間が長くかかることになる。

　また、データセット５７がランダムにサンプリングしたものであると、十分な数とバリエーションのサンプルが蓄積されるまでに（失敗も含めて）多くの試行が必要になる、無駄に重複するサンプルを収集してしまう等、サンプリング効率が悪く、学習に時間がかかることに繋がる。

　以上のことから、ピッキングの学習を高速化するためのアプローチとして、
　（１）初期ネットワーク５６の工夫
　（２）データセット５７の収集方法の工夫
　の２つの手段が考えられる。

　（１）初期ネットワーク５６の工夫について、より最終形（学習済みネットワーク５９）に近い初期ネットワーク６０を作る方法として、
　（Ａ）転移学習
　（Ｂ）エリート選択
　（Ｃ）色教示（本技術の手法）
　の３つの手法が考えられる。これらの手法を用いて、より最終形に近い初期ネットワーク６０を生成することにより、ゴールに近いところからオンライン学習をスタートできる。従ってデータセット５７も少なくて済み、学習時間が短縮される。

　（Ａ）転移学習とは、類似したワークで学習させて作成したニューラルネットワークを利用する手法である。（Ｂ）エリート選択とは、過去のいくつかの種類のワークで学習して作成されたニューラルネットワークの中から、最も良いものを自動的に選択して初期ネットワークとする手法である。

　（Ｃ）色教示は本技術の手法である。すなわち本技術を用いることで、最終形に近い初期ネットワーク６０を生成することが可能となり、学習の効率化が実現される。

　（２）データセット５７の収集方法の工夫については、
　（Ｄ）トライ位置教示
　（Ｅ）ポリシー選択
　の２つの手法が考えられる。これらの手法により戦略を持ってサンプリングした良質なデータセット６１が用いられることで、少ないデータセットでゴールに辿り着く。すなわち、ランダム収集したデータセット５７を用いる場合に比べて学習時間が短縮される。

　（Ｄ）トライ位置教示とは、トライする場所（成功しそうな場所）をいくつか人間が指定（画像上でマウスクリックする等）して成功事例を蓄積する手法である。（Ｅ）ポリシー選択とは、サンプリングポリシー戦略の工夫であり、それまでの学習結果に基づいて算出された成功しやすいと予想される場所、及びランダムな場所を織り交ぜてサンプリングする手法である。

　なお、（１）初期ネットワーク５６の工夫のための手法、及び（２）データセット５７の収集方法の工夫のための手法が併用されてもよい。これにより、さらに学習を効率化することが可能となる。

　このように本技術では、予めオフライン学習により、ある程度正確に予想成功率を算出可能な機械学習モデル３２が作成され、実際のピッキングを伴うオンライン学習の初期ネットワークとして使用される。そのため図１２に示すように、オンライン学習において最初から成功事例を蓄積しやすくなり、学習の立ち上がりが速くなる。これにより、学習の高速化を実現することが可能となる。

　本技術では正解データ４３だけでなく、不正解データ４４も用いられ、機械学習モデル３２のオンライン学習が実行される。これにより、学習がさらに効率的に実行される。

　また本技術では、ピッキングに成功した場合に、そのピッキングに用いられた選択用画像３３に正解ラベル３８が関連付けられ、正解データ４３が生成される。同様に、ピッキングに失敗した場合に、そのピッキングに用いられた選択用画像３３に不正解ラベル４０が関連付けられ、不正解データ４４が生成される。これにより、学習がさらに効率的に実行される。

　また本技術では、ピッキングの対象に物体２が含まれる。また、ピッキングの対象とならないものに底面１０や選択動作の対象とならない物体が含まれる。すなわち、物体２のピッキングを精度よく行うことが可能となる。また、底面１０や選択動作の対象とならない物体が選択されにくくなる。

　また本技術では、学習に物体２の色が全領域に表現された画像、及び底面１０の色が全領域に表現された画像が用いられる。これにより、学習が精度よく実行される。

　また本技術では、選択動作として、ロボットアーム１により物体２を取り出す動作が実行される。すなわち、ピッキングを精度よく実行することが可能となる。

　また本技術では、予想成功率が算出され、予想成功率に基づいてピッキングが実行される。これにより、ピッキングの成功率が向上する。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　［特徴反映画像のバリエーション］
　図１５は、特徴反映画像のバリエーションの模式図である。
　図１５には、以下の各場合における背景の特徴反映画像６４及びワークの特徴反映画像６５の一例が模式的に図示されている。
　（１）背景もワークも単色の場合
　　（１－１）背景もワークも１種類の場合
　　（１－２）背景のみが１種類に決まっている場合
　　（１－３）ワークのみが１種類に決まっている場合
　　（１－４）背景もワークも複数の候補がある場合
　（２）背景やワークに模様がある場合
　　（２－１）背景もワークも１種類の場合
　　（２－２）背景のみが１種類に決まっている場合
　　（２－３）ワークのみが１種類に決まっている場合
　　（２－４）背景もワークも複数の候補がある場合
　なお、例えば底面１０が背景に相当し、物体２がワークに相当する。

　また、特徴反映画像６４又は６５による教示が行われなくてもよいケースでは、特徴反映画像６４又は６５が図示された欄の背景色をグレー色としている。例えば背景やワークの特徴に候補がない場合等に、教示が行われなくてもよい。

　（１－１）背景もワークも１種類の色である場合は、当該背景の色の画像を特徴反映画像６４、ワークの色の画像を特徴反映画像６５として、オフライン学習が行われる。すなわち、特徴反映画像６４及び６５の各々はいずれも１種類の画像となる。例えば図６の例がこのようなケースに該当する。

　（１－２）背景のみが１種類の色であり、ワークの色に複数の候補がある場合、背景の特徴反映画像６４は１種類の色画像となり、ワークの色の候補に対応した複数種類の色画像が、ワークの特徴反映画像６５となる。例えば赤色の画像、黄色の画像、青色の画像がワークの特徴反映画像６５となる。もちろん色の組み合わせはこれに限定されない。あるいはワークの色が教示されず、背景の特徴反映画像６４のみを用いたオフライン学習が実行されてもよい。

　（１－３）ワークのみが１種類の色である場合も、（１－２）の場合と同様に、ワークの特徴反映画像６５が１種類の色画像となる。また、背景の特徴反映画像６４は複数種類の色画像となる。あるいは背景の色が教示されずにオフライン学習が実行される。

　（１－４）背景の色、ワークの色の両方に複数の候補がある場合には、背景の特徴反映画像６４及びワークの特徴反映画像６５の両方が、複数種類の色画像となる。あるいは背景やワークの片方が教示されなくてもよい。

　（２）背景やワークの特徴が模様である場合も、特徴反映画像６４及び６５を模様の画像とすることで、オフライン学習が可能となる。（２－１）～（２－４）のバリエーションの内容は、（１－１）～（１－４）の内容と同様である。

　このように本実施形態では、選択対象の特徴に選択対象の色及び模様の少なくとも一方が含まれる。また、選択対象の特徴反映画像６５に、選択対象の色及び模様の少なくとも一方が表現された画像が含まれる。

　選択対象の色が表現された画像には、例えば全領域が当該色である画像、一部の領域が当該色である画像が含まれる。また、「赤」「ＲＥＤ」等の文字が表示された画像も、色が表現された画像に含まれる。同様に、選択対象の模様が表現された画像には、全領域や一部領域が当該模様である画像、「水玉」等の文字が表示された画像が含まれる。

　あるいは、色及び模様の両方が特徴である場合には、白黒の縞模様が表示された画像、模様を背景として「赤」の文字が表示された画像等、色及び模様の両方が表現された画像が用いられてもよい。その他、特徴反映画像６５により選択対象の色及び模様がどのように表現されるかは限定されない。

　また本実施形態では、選択非対象の特徴に選択非対象の色及び模様の少なくとも一方が含まれる。また、選択非対象の特徴反映画像６４に、選択非対象の色及び模様の少なくとも一方が表現された画像が含まれる。

　例えば全領域が選択非対象の色や模様である画像、色や模様が文字により表示された画像、色付きの模様が表示された画像等が、選択非対象の色や模様が表現された画像に含まれる。その他、特徴反映画像６４により選択非対象の色及び模様がどのように表現されるかは限定されない。

　これにより、選択対象や選択非対象の特徴が色や模様である場合において、効率的な学習を行うことが可能となる。

　また本実施形態では、複数の選択対象が存在する場合、複数の選択対象の特徴が反映された複数の特徴反映画像６５の各々に正解ラベル３８が関連付けられた正解データ３５が用いられ、オフライン学習部２６により機械学習モデル３２の学習が行われる。

　例えば選択対象として「赤色のワーク」「黄色のワーク」「青色のワーク」が存在する場合には、図１５の（１－２）や（１－４）に示すように、複数の特徴反映画像６５として「赤色の画像」、「黄色の画像」、「青色の画像」が用意され、これらの特徴反映画像６５によりオフライン学習が行われる。

　また例えば、「赤色のワーク」「水玉模様のワーク」が存在する場合には、特徴反映画像６５として「赤色の画像」「水玉模様の画像」が用意される。このように複数の選択対象の特徴の種類が異なっていてもよい。

　あるいは、複数の選択対象が存在する場合に、そのうちの一部の選択対象に関してのみ特徴反映画像６５が用意されてもよい。例えば選択対象として「赤色のワーク」「黄色のワーク」「青色のワーク」が存在する場合に、「黄色の画像」、「青色の画像」のみが用意されてもよい。その他、複数の選択対象に対して具体的にどのような特徴反映画像６５が用意されるかは限定されない。

　また本実施形態では、複数の選択非対象が存在する場合、複数の選択非対象の特徴が反映された複数の特徴反映画像６４の各々に不正解ラベル４０が関連付けられた不正解データ３６が用いられ、オフライン学習部２６により機械学習モデル３２の学習が行われる。

　例えば選択非対象として「緑色の背景」「紫色の背景」「橙色の背景」が存在する場合には、複数の特徴反映画像６４として「緑色の画像」、「紫色の画像」、「橙色の画像」が用意され、オフライン学習が行われる。その他、複数の選択非対象に対して具体的にどのような特徴反映画像６４が用意されるかは限定されない。

　なお、複数の選択対象や複数の選択非対象に色や模様以外の特徴が含まれる場合においても、本技術は適用可能である。例えば特徴反映画像６４及び６５として、「赤色の画像」「水玉模様の画像」「重さが絵で表現された画像」「物体の種類が文字で表現された画像」の４枚の画像を用いたオフライン学習が可能である。

　これにより、複数の選択対象や複数の選択非対象が存在する場合において、効率的な学習を行うことが可能となる。例えば食品業界などでは、混載状態（様々な種類の食品がランダムに積まれた状態）からのピッキングが必要になる場合もある。このような場合でも、精度よくピッキングを行うことが可能となる。

　［特徴反映画像の作成］
　選択対象の特徴反映画像６５や選択非対象の特徴反映画像６４が、ユーザにより作成されてもよい。例えば、ユーザは専用のＧＵＩを使用し、特徴反映画像６４及び６５の作成（色や模様の設定等）を行うことが可能である。

　具体的には、ＧＵＩ出力部３１によりＧＵＩが生成され、表示部１８に出力される。また本実施形態では、受付部３０により、特徴反映画像６４又は６５を作成するためのユーザの入力操作が受け付けられる。

　本実施形態では、入力操作に赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも１つが含まれる。例えばユーザがＧＵＩ上で特徴反映画像６５の赤色の階調値の指定を行った場合には、当該階調値の指定が、入力操作として受付部３０により受け付けられる。さらに、入力操作に関する情報（赤色の階調値）が入力情報として生成され、例えば記憶部２１に一時的に記憶されている作成中の特徴反映画像６５のデータに、当該入力情報（赤色の階調値）が反映される。

　赤色、緑色及び青色の各々の階調値の指定では、例えば階調値（Ｒ：０～２５５、Ｇ：０～２５５、Ｂ：０～２５５）が数値で入力される。例えば紫色の特徴反映画像６５が作成される場合には、階調値「Ｒ：１２８、Ｇ：０、Ｂ：１２８」が入力される。あるいは、スライダ等により視覚的に階調値が調整されてもよい。

　色パレットによる色の選択では、例えば様々な色が格子状に並べられたパレットから所望の色が選択される。色がグラデーションしているグラデーションパレットが用いられてもよい。

　スポイト機能による色の指定では、例えば撮像された画像のうち、ワークが写った画素が指定されることで、当該画素の色がスポイトされる。そして、当該スポイトされた色を特徴反映画像６５に反映させることが可能である。あるいは、擬似的に作成されたワークの画像から色がスポイトされてもよい。

　なお、階調値の指定や色パレットによる色の選択が行われた場合に、人間が色を認識する能力の関係上、特徴反映画像６５の色が実際のワークの色と多少異なってしまう場合があり得る。またスポイト機能が用いられた場合に、ワークに対する光の当たり方に起因して、スポイトされた色が実際のワークの色と多少異なってしまうような場合もあり得る。このような場合であっても、特徴反映画像６５にワークの色が反映されていることに含まれる。

　ワークや背景が撮像された画像のトリミングにより特徴反映画像６４及び６５の作成が可能であってもよい。また、例えば特徴が縞模様である場合、ワークの回転によって縦縞になったり横縞になったりすることが考えられるが、それら複数の画像が特徴反映画像６５として設定されてもよい。

　またＧＵＩにより、模様その他の特徴を設定することが可能であってもよい。すなわち入力操作には、階調値の指定等のみならず、特徴反映画像６４及び６５に任意の特徴を反映させるための操作が含まれる。また、例えばユーザがＧＵＩ上でマウスをクリックする操作、キーボードで文字を入力する操作等も入力操作に含まれる。

　これにより、ユーザは効率的に特徴反映画像６４及び６５を作成することが可能となる。

　［トライ位置教示］
　オンライン学習におけるピッキングでは、通常の方法（機械学習モデル３２により予想成功率が算出される方法）、及びトライ位置教示（ユーザがピッキング位置を指定する方法）が併用されてもよい。

　本実施形態では、選択動作は、ユーザにより指定された位置に対する選択動作、及び選択用画像を用いた選択動作が組み合わされることにより実行される。例えばユーザはＧＵＩ上で位置を指定することで、トライ位置教示を行うことが可能である。そして、例えばトライ位置教示、通常の方法、トライ位置教示、・・・というように、各々の方法によるピッキングが交互に実行される。もちろん各々の方法が用いられる順番は限定されない。あるいは、各々の方法がランダムな順番で用いられてもよい。

　例えば初めの何回かだけをトライ位置教示によるピッキングとすることで、学習初期において成功事例を蓄積しやすくなり、学習の立ち上がりを早めることが可能となる。

　［ポリシー選択］
　また、オンライン学習におけるピッキングにおいて、ポリシー選択（通常の方法及びランダムな位置に対するピッキングが併用される方法）が用いられてもよい。

　本実施形態では、選択動作は、ランダムな位置に対する選択動作、及び選択用画像を用いた選択動作が組み合わされることにより実行される。例えばランダムな位置に対するピッキング、通常の方法、ランダムな位置に対するピッキング、・・・というように、各々の方法によるピッキングが交互に実行される。もちろん各々の方法が用いられる順番は限定されない。

　トライ位置教示を併用する方法、及びポリシー選択が用いられることで、効率的な学習を実行することが可能となる（図１４参照）。その他、通常の方法に対して任意の方法が併用されてよい。

　図３に示す情報処理装置１６の一部または全部の機能が、ロボットアーム１に搭載されてもよい。あるいは、携帯可能な情報処理装置１６が用いられてもよい。情報処理装置１６は、複数のコンピュータにより実現されてもよいし、１台のコンピュータにより実現されてもよい。

　図１６は、情報処理装置１６を実現可能なコンピュータ５００のハードウェア構成例を示すブロック図である。コンピュータ５００は、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、入出力インタフェース５０５、及びこれらを互いに接続するバス５０４を備える。入出力インタフェース５０５には、表示部５０６、入力部５０７、記憶部５０８、通信部５０９、及びドライブ部５１０等が接続される。

　表示部５０６は、例えば液晶、ＥＬ等を用いた表示デバイスである。入力部５０７は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部５０７がタッチパネルを含む場合、そのタッチパネルは表示部５０６と一体となり得る。記憶部５０８は、不揮発性の記憶デバイスであり、例えばＨＤＤ、フラッシュメモリ、その他の固体メモリである。ドライブ部５１０は、例えば光学記録媒体、磁気記録テープ等、リムーバブル記録媒体５１１を駆動することが可能なデバイスである。
　通信部５０９は、ＬＡＮ、ＷＡＮ等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部５０９は、有線及び無線のどちらを利用して通信するものであってもよい。通信部５０９は、コンピュータ５００とは別体で使用される場合が多い。

　上記のようなハードウェア構成を有するコンピュータ５００による情報処理は、記憶部５０８またはＲＯＭ５０２等に記憶されたソフトウェアと、コンピュータ５００のハードウェア資源との協働により実現される。具体的には、ＲＯＭ５０２等に記憶された、ソフトウェアを構成するプログラムをＲＡＭ５０３にロードして実行することにより、本技術に係る情報処理方法が実現される。

　プログラムは、例えばリムーバブル記録媒体５１１を介してコンピュータ５００にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ５００にインストールされてもよい。その他、コンピュータ５００が読み取り可能な非一過性の任意の記憶媒体が用いられてよい。

　コンピュータシステムによる本技術に係る情報処理方法の実行は、例えば機械学習モデルの学習、選択動作、教師データの生成、予想成功率の算出、入力操作の受付等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。すなわち本技術に係る情報処理方法は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　各図面を参照して説明した情報処理装置、ロボットアーム、機械学習モデルの学習、選択動作、各処理フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

　本開示において、「Ａより大きい」「Ａより小さい」といった「より」を使った表現は、Ａと同等である場合を含む概念と、Ａと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Ａより大きい」は、Ａと同等は含まない場合に限定されず、「Ａ以上」も含む。また「Ａより小さい」は、「Ａ未満」に限定されず、「Ａ以下」も含む。本技術を実施する際には、上記で説明した効果が発揮されるように、「Ａより大きい」及び「Ａより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　なお、本技術は以下のような構成も採ることができる。
（１）
　選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第１の学習部と、
　前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習部により学習された前記機械学習モデルを学習させる第２の学習部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記第２の学習部は、前記選択用画像に前記不正解ラベルが関連付けられた第２の不正解教師データを用いて、前記第１の学習部により学習された前記機械学習モデルを学習させる
　情報処理装置。
（３）（２）に記載の情報処理装置であって、さらに、
　前記選択用画像に基づいて実行された前記選択動作が成功した場合に前記選択動作に用いられた前記選択用画像に前記正解ラベルを関連付けて前記第２の正解教師データを生成し、前記選択用画像に基づいて実行された前記選択動作が失敗した場合に前記選択動作に用いられた前記選択用画像に前記不正解ラベルを関連付けて前記第２の不正解教師データを生成する教師データ生成部を具備する
　情報処理装置。
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
　前記選択対象は、前記選択動作の対象となる選択対象物体を含み、
　前記選択非対象は、前記選択対象物体が配置される配置領域、及び前記選択動作の対象とならない選択非対象物体の少なくとも一方を含む
　情報処理装置。
（５）（１）から（４）のうちいずれか１つに記載の情報処理装置であって、
　前記選択対象の前記１以上の特徴は、前記選択対象の色及び模様の少なくとも一方を含み、
　前記第１の特徴反映画像は、前記選択対象の色及び模様の少なくとも一方が表現された画像を含む
　情報処理装置。
（６）（５）に記載の情報処理装置であって、
　前記第１の特徴反映画像は、前記選択対象の色が全領域に表現された画像を含む
　情報処理装置。
（７）（１）から（６）のうちいずれか１つに記載の情報処理装置であって、
　前記選択非対象の前記１以上の特徴は、前記選択非対象の色及び模様の少なくとも一方を含み、
　前記第２の特徴反映画像は、前記選択非対象の色及び模様の少なくとも一方が表現された画像を含む
　情報処理装置。
（８）（７）に記載の情報処理装置であって、
　前記第２の特徴反映画像は、前記選択非対象の色が全領域に表現された画像を含む
　情報処理装置。
（９）（１）から（８）のうちいずれか１つに記載の情報処理装置であって、
　前記第１の学習部は、複数の選択対象が存在する場合、前記複数の選択対象の特徴が反映された複数の第１の特徴反映画像の各々に前記正解ラベルが関連付けられた前記第１の正解教師データを用いて前記機械学習モデルを学習させる
　情報処理装置。
（１０）（１）から（９）のうちいずれか１つに記載の情報処理装置であって、
　前記第１の学習部は、複数の選択非対象が存在する場合、前記複数の選択非対象の特徴が反映された複数の第２の特徴反映画像の各々に前記不正解ラベルが関連付けられた前記第１の不正解教師データを用いて前記機械学習モデルを学習させる
　情報処理装置。
（１１）（１）から（１０）のうちいずれか１つに記載の情報処理装置であって、
　前記選択動作は、ロボットアームにより前記選択対象を取り出す動作である
　情報処理装置。
（１２）（１）から（１１）のうちいずれか１つに記載の情報処理装置であって、さらに、
　前記第１の特徴反映画像及び前記第２の特徴反映画像の少なくとも一方を作成するためのユーザの入力操作を受付ける受付部を具備する
　情報処理装置。
（１３）（１２）に記載の情報処理装置であって、
　前記入力操作は、赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも１つを含む
　情報処理装置。
（１４）（３）に記載の情報処理装置であって、
　前記選択動作は、前記選択用画像の画素ごとに算出された、前記画素に対応する位置に対して前記選択動作を実行した場合の予想成功率に基づいて実行される
　情報処理装置。
（１５）（１）から（１４）のうちいずれか１つに記載の情報処理装置であって、
　前記選択動作は、ユーザにより指定された位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
　情報処理装置。
（１６）（１）から（１５）のうちいずれか１つに記載の情報処理装置であって、
　前記選択動作は、ランダムな位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
　情報処理装置。
（１７）
　選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第１の学習ステップと、
　前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習ステップで学習された前記機械学習モデルを学習させる第２の学習ステップと
　をコンピュータシステムが実行する情報処理方法。
（１８）
　選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第１の学習ステップと、
　前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習ステップで学習された前記機械学習モデルを学習させる第２の学習ステップと
　をコンピュータシステムに実行させるプログラム。

　１…ロボットアーム
　２…物体
　１０…底面
　１６…情報処理装置
　２４…予想成功率算出部
　２５…位置決定部
　２６…オフライン学習部
　２７…オンライン学習部
　２８…結果取得部
　２９…教師データ生成部
　３０…受付部
　３２…機械学習モデル
　３３…選択用画像
　３５…正解データ
　３６…不正解データ
　３８…正解ラベル
　３９…色画像
　４０…不正解ラベル
　６４…特徴反映画像
　６５…特徴反映画像

Claims

　選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第１の学習部と、
　前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習部により学習された前記機械学習モデルを学習させる第２の学習部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第２の学習部は、前記選択用画像に前記不正解ラベルが関連付けられた第２の不正解教師データを用いて、前記第１の学習部により学習された前記機械学習モデルを学習させる
　情報処理装置。
　請求項２に記載の情報処理装置であって、さらに、
　前記選択用画像に基づいて実行された前記選択動作が成功した場合に前記選択動作に用いられた前記選択用画像に前記正解ラベルを関連付けて前記第２の正解教師データを生成し、前記選択用画像に基づいて実行された前記選択動作が失敗した場合に前記選択動作に用いられた前記選択用画像に前記不正解ラベルを関連付けて前記第２の不正解教師データを生成する教師データ生成部を具備する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記選択対象は、前記選択動作の対象となる選択対象物体を含み、
　前記選択非対象は、前記選択対象物体が配置される配置領域、及び前記選択動作の対象とならない選択非対象物体の少なくとも一方を含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記選択対象の前記１以上の特徴は、前記選択対象の色及び模様の少なくとも一方を含み、
　前記第１の特徴反映画像は、前記選択対象の色及び模様の少なくとも一方が表現された画像を含む
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記第１の特徴反映画像は、前記選択対象の色が全領域に表現された画像を含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記選択非対象の前記１以上の特徴は、前記選択非対象の色及び模様の少なくとも一方を含み、
　前記第２の特徴反映画像は、前記選択非対象の色及び模様の少なくとも一方が表現された画像を含む
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記第２の特徴反映画像は、前記選択非対象の色が全領域に表現された画像を含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第１の学習部は、複数の選択対象が存在する場合、前記複数の選択対象の特徴が反映された複数の第１の特徴反映画像の各々に前記正解ラベルが関連付けられた前記第１の正解教師データを用いて前記機械学習モデルを学習させる
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第１の学習部は、複数の選択非対象が存在する場合、前記複数の選択非対象の特徴が反映された複数の第２の特徴反映画像の各々に前記不正解ラベルが関連付けられた前記第１の不正解教師データを用いて前記機械学習モデルを学習させる
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記選択動作は、ロボットアームにより前記選択対象を取り出す動作である
　情報処理装置。
　請求項１に記載の情報処理装置であって、さらに、
　前記第１の特徴反映画像及び前記第２の特徴反映画像の少なくとも一方を作成するためのユーザの入力操作を受付ける受付部を具備する
　情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記入力操作は、赤色、緑色及び青色の各々の階調値の指定、色パレットによる色の選択、及びスポイト機能による色の指定の少なくとも１つを含む
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記選択動作は、前記選択用画像の画素ごとに算出された、前記画素に対応する位置に対して前記選択動作を実行した場合の予想成功率に基づいて実行される
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記選択動作は、ユーザにより指定された位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記選択動作は、ランダムな位置に対する前記選択動作、及び前記選択用画像を用いた前記選択動作が組み合わされることにより実行される
　情報処理装置。
　選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第１の学習ステップと、
　前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習ステップで学習された前記機械学習モデルを学習させる第２の学習ステップと
　をコンピュータシステムが実行する情報処理方法。
　選択動作の対象となる選択対象の１以上の特徴の各々が反映された第１の特徴反映画像に、前記選択動作が成功した旨の正解ラベルが関連付けられた第１の正解教師データ、及び前記選択動作の対象とならない選択非対象の１以上の特徴の各々が反映された第２の特徴反映画像に、前記選択動作が失敗した旨の不正解ラベルが関連付けられた第１の不正解教師データの少なくとも一方を用いて、機械学習モデルを学習させる第１の学習ステップと、
　前記選択対象及び前記選択非対象を含む選択用画像に前記正解ラベルが関連付けられた第２の正解教師データを用いて、前記第１の学習ステップで学習された前記機械学習モデルを学習させる第２の学習ステップと
　をコンピュータシステムに実行させるプログラム。